diff --git a/go/LICENSE.txt b/go/LICENSE.txt
deleted file mode 100644
index 57310329835da..0000000000000
--- a/go/LICENSE.txt
+++ /dev/null
@@ -1,1791 +0,0 @@
-
-                                 Apache License
-                           Version 2.0, January 2004
-                        http://www.apache.org/licenses/
-
-   TERMS AND CONDITIONS FOR USE, REPRODUCTION, AND DISTRIBUTION
-
-   1. Definitions.
-
-      "License" shall mean the terms and conditions for use, reproduction,
-      and distribution as defined by Sections 1 through 9 of this document.
-
-      "Licensor" shall mean the copyright owner or entity authorized by
-      the copyright owner that is granting the License.
-
-      "Legal Entity" shall mean the union of the acting entity and all
-      other entities that control, are controlled by, or are under common
-      control with that entity. For the purposes of this definition,
-      "control" means (i) the power, direct or indirect, to cause the
-      direction or management of such entity, whether by contract or
-      otherwise, or (ii) ownership of fifty percent (50%) or more of the
-      outstanding shares, or (iii) beneficial ownership of such entity.
-
-      "You" (or "Your") shall mean an individual or Legal Entity
-      exercising permissions granted by this License.
-
-      "Source" form shall mean the preferred form for making modifications,
-      including but not limited to software source code, documentation
-      source, and configuration files.
-
-      "Object" form shall mean any form resulting from mechanical
-      transformation or translation of a Source form, including but
-      not limited to compiled object code, generated documentation,
-      and conversions to other media types.
-
-      "Work" shall mean the work of authorship, whether in Source or
-      Object form, made available under the License, as indicated by a
-      copyright notice that is included in or attached to the work
-      (an example is provided in the Appendix below).
-
-      "Derivative Works" shall mean any work, whether in Source or Object
-      form, that is based on (or derived from) the Work and for which the
-      editorial revisions, annotations, elaborations, or other modifications
-      represent, as a whole, an original work of authorship. For the purposes
-      of this License, Derivative Works shall not include works that remain
-      separable from, or merely link (or bind by name) to the interfaces of,
-      the Work and Derivative Works thereof.
-
-      "Contribution" shall mean any work of authorship, including
-      the original version of the Work and any modifications or additions
-      to that Work or Derivative Works thereof, that is intentionally
-      submitted to Licensor for inclusion in the Work by the copyright owner
-      or by an individual or Legal Entity authorized to submit on behalf of
-      the copyright owner. For the purposes of this definition, "submitted"
-      means any form of electronic, verbal, or written communication sent
-      to the Licensor or its representatives, including but not limited to
-      communication on electronic mailing lists, source code control systems,
-      and issue tracking systems that are managed by, or on behalf of, the
-      Licensor for the purpose of discussing and improving the Work, but
-      excluding communication that is conspicuously marked or otherwise
-      designated in writing by the copyright owner as "Not a Contribution."
-
-      "Contributor" shall mean Licensor and any individual or Legal Entity
-      on behalf of whom a Contribution has been received by Licensor and
-      subsequently incorporated within the Work.
-
-   2. Grant of Copyright License. Subject to the terms and conditions of
-      this License, each Contributor hereby grants to You a perpetual,
-      worldwide, non-exclusive, no-charge, royalty-free, irrevocable
-      copyright license to reproduce, prepare Derivative Works of,
-      publicly display, publicly perform, sublicense, and distribute the
-      Work and such Derivative Works in Source or Object form.
-
-   3. Grant of Patent License. Subject to the terms and conditions of
-      this License, each Contributor hereby grants to You a perpetual,
-      worldwide, non-exclusive, no-charge, royalty-free, irrevocable
-      (except as stated in this section) patent license to make, have made,
-      use, offer to sell, sell, import, and otherwise transfer the Work,
-      where such license applies only to those patent claims licensable
-      by such Contributor that are necessarily infringed by their
-      Contribution(s) alone or by combination of their Contribution(s)
-      with the Work to which such Contribution(s) was submitted. If You
-      institute patent litigation against any entity (including a
-      cross-claim or counterclaim in a lawsuit) alleging that the Work
-      or a Contribution incorporated within the Work constitutes direct
-      or contributory patent infringement, then any patent licenses
-      granted to You under this License for that Work shall terminate
-      as of the date such litigation is filed.
-
-   4. Redistribution. You may reproduce and distribute copies of the
-      Work or Derivative Works thereof in any medium, with or without
-      modifications, and in Source or Object form, provided that You
-      meet the following conditions:
-
-      (a) You must give any other recipients of the Work or
-          Derivative Works a copy of this License; and
-
-      (b) You must cause any modified files to carry prominent notices
-          stating that You changed the files; and
-
-      (c) You must retain, in the Source form of any Derivative Works
-          that You distribute, all copyright, patent, trademark, and
-          attribution notices from the Source form of the Work,
-          excluding those notices that do not pertain to any part of
-          the Derivative Works; and
-
-      (d) If the Work includes a "NOTICE" text file as part of its
-          distribution, then any Derivative Works that You distribute must
-          include a readable copy of the attribution notices contained
-          within such NOTICE file, excluding those notices that do not
-          pertain to any part of the Derivative Works, in at least one
-          of the following places: within a NOTICE text file distributed
-          as part of the Derivative Works; within the Source form or
-          documentation, if provided along with the Derivative Works; or,
-          within a display generated by the Derivative Works, if and
-          wherever such third-party notices normally appear. The contents
-          of the NOTICE file are for informational purposes only and
-          do not modify the License. You may add Your own attribution
-          notices within Derivative Works that You distribute, alongside
-          or as an addendum to the NOTICE text from the Work, provided
-          that such additional attribution notices cannot be construed
-          as modifying the License.
-
-      You may add Your own copyright statement to Your modifications and
-      may provide additional or different license terms and conditions
-      for use, reproduction, or distribution of Your modifications, or
-      for any such Derivative Works as a whole, provided Your use,
-      reproduction, and distribution of the Work otherwise complies with
-      the conditions stated in this License.
-
-   5. Submission of Contributions. Unless You explicitly state otherwise,
-      any Contribution intentionally submitted for inclusion in the Work
-      by You to the Licensor shall be under the terms and conditions of
-      this License, without any additional terms or conditions.
-      Notwithstanding the above, nothing herein shall supersede or modify
-      the terms of any separate license agreement you may have executed
-      with Licensor regarding such Contributions.
-
-   6. Trademarks. This License does not grant permission to use the trade
-      names, trademarks, service marks, or product names of the Licensor,
-      except as required for reasonable and customary use in describing the
-      origin of the Work and reproducing the content of the NOTICE file.
-
-   7. Disclaimer of Warranty. Unless required by applicable law or
-      agreed to in writing, Licensor provides the Work (and each
-      Contributor provides its Contributions) on an "AS IS" BASIS,
-      WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
-      implied, including, without limitation, any warranties or conditions
-      of TITLE, NON-INFRINGEMENT, MERCHANTABILITY, or FITNESS FOR A
-      PARTICULAR PURPOSE. You are solely responsible for determining the
-      appropriateness of using or redistributing the Work and assume any
-      risks associated with Your exercise of permissions under this License.
-
-   8. Limitation of Liability. In no event and under no legal theory,
-      whether in tort (including negligence), contract, or otherwise,
-      unless required by applicable law (such as deliberate and grossly
-      negligent acts) or agreed to in writing, shall any Contributor be
-      liable to You for damages, including any direct, indirect, special,
-      incidental, or consequential damages of any character arising as a
-      result of this License or out of the use or inability to use the
-      Work (including but not limited to damages for loss of goodwill,
-      work stoppage, computer failure or malfunction, or any and all
-      other commercial damages or losses), even if such Contributor
-      has been advised of the possibility of such damages.
-
-   9. Accepting Warranty or Additional Liability. While redistributing
-      the Work or Derivative Works thereof, You may choose to offer,
-      and charge a fee for, acceptance of support, warranty, indemnity,
-      or other liability obligations and/or rights consistent with this
-      License. However, in accepting such obligations, You may act only
-      on Your own behalf and on Your sole responsibility, not on behalf
-      of any other Contributor, and only if You agree to indemnify,
-      defend, and hold each Contributor harmless for any liability
-      incurred by, or claims asserted against, such Contributor by reason
-      of your accepting any such warranty or additional liability.
-
-   END OF TERMS AND CONDITIONS
-
-   APPENDIX: How to apply the Apache License to your work.
-
-      To apply the Apache License to your work, attach the following
-      boilerplate notice, with the fields enclosed by brackets "[]"
-      replaced with your own identifying information. (Don't include
-      the brackets!)  The text should be enclosed in the appropriate
-      comment syntax for the file format. We also recommend that a
-      file or class name and description of purpose be included on the
-      same "printed page" as the copyright notice for easier
-      identification within third-party archives.
-
-   Copyright [yyyy] [name of copyright owner]
-
-   Licensed under the Apache License, Version 2.0 (the "License");
-   you may not use this file except in compliance with the License.
-   You may obtain a copy of the License at
-
-       http://www.apache.org/licenses/LICENSE-2.0
-
-   Unless required by applicable law or agreed to in writing, software
-   distributed under the License is distributed on an "AS IS" BASIS,
-   WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-   See the License for the specific language governing permissions and
-   limitations under the License.
-
---------------------------------------------------------------------------------
-
-src/arrow/util (some portions): Apache 2.0, and 3-clause BSD
-
-Some portions of this module are derived from code in the Chromium project,
-copyright (c) Google inc and (c) The Chromium Authors and licensed under the
-Apache 2.0 License or the under the 3-clause BSD license:
-
-  Copyright (c) 2013 The Chromium Authors. All rights reserved.
-
-  Redistribution and use in source and binary forms, with or without
-  modification, are permitted provided that the following conditions are
-  met:
-
-     * Redistributions of source code must retain the above copyright
-  notice, this list of conditions and the following disclaimer.
-     * Redistributions in binary form must reproduce the above
-  copyright notice, this list of conditions and the following disclaimer
-  in the documentation and/or other materials provided with the
-  distribution.
-     * Neither the name of Google Inc. nor the names of its
-  contributors may be used to endorse or promote products derived from
-  this software without specific prior written permission.
-
-  THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-  "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-  LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-  A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-  OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-  SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-  LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-  DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-  THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-  (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-  OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-This project includes code from Daniel Lemire's FrameOfReference project.
-
-https://github.com/lemire/FrameOfReference/blob/6ccaf9e97160f9a3b299e23a8ef739e711ef0c71/src/bpacking.cpp
-
-Copyright: 2013 Daniel Lemire
-Home page: http://lemire.me/en/
-Project page: https://github.com/lemire/FrameOfReference
-License: Apache License Version 2.0 http://www.apache.org/licenses/LICENSE-2.0
-
---------------------------------------------------------------------------------
-
-This project includes code from the TensorFlow project
-
-Copyright 2015 The TensorFlow Authors. All Rights Reserved.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-This project includes code from the NumPy project.
-
-https://github.com/numpy/numpy/blob/e1f191c46f2eebd6cb892a4bfe14d9dd43a06c4e/numpy/core/src/multiarray/multiarraymodule.c#L2910
-
-https://github.com/numpy/numpy/blob/68fd82271b9ea5a9e50d4e761061dfcca851382a/numpy/core/src/multiarray/datetime.c
-
-Copyright (c) 2005-2017, NumPy Developers.
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-       notice, this list of conditions and the following disclaimer.
-
-    * Redistributions in binary form must reproduce the above
-       copyright notice, this list of conditions and the following
-       disclaimer in the documentation and/or other materials provided
-       with the distribution.
-
-    * Neither the name of the NumPy Developers nor the names of any
-       contributors may be used to endorse or promote products derived
-       from this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-This project includes code from the Boost project
-
-Boost Software License - Version 1.0 - August 17th, 2003
-
-Permission is hereby granted, free of charge, to any person or organization
-obtaining a copy of the software and accompanying documentation covered by
-this license (the "Software") to use, reproduce, display, distribute,
-execute, and transmit the Software, and to prepare derivative works of the
-Software, and to permit third-parties to whom the Software is furnished to
-do so, all subject to the following:
-
-The copyright notices in the Software and this entire statement, including
-the above license grant, this restriction and the following disclaimer,
-must be included in all copies of the Software, in whole or in part, and
-all derivative works of the Software, unless such copies or derivative
-works are solely in the form of machine-executable object code generated by
-a source language processor.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE, TITLE AND NON-INFRINGEMENT. IN NO EVENT
-SHALL THE COPYRIGHT HOLDERS OR ANYONE DISTRIBUTING THE SOFTWARE BE LIABLE
-FOR ANY DAMAGES OR OTHER LIABILITY, WHETHER IN CONTRACT, TORT OR OTHERWISE,
-ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
-DEALINGS IN THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
-This project includes code from the FlatBuffers project
-
-Copyright 2014 Google Inc.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-This project includes code from the tslib project
-
-Copyright 2015 Microsoft Corporation. All rights reserved.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-This project includes code from the jemalloc project
-
-https://github.com/jemalloc/jemalloc
-
-Copyright (C) 2002-2017 Jason Evans <jasone@canonware.com>.
-All rights reserved.
-Copyright (C) 2007-2012 Mozilla Foundation.  All rights reserved.
-Copyright (C) 2009-2017 Facebook, Inc.  All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are met:
-1. Redistributions of source code must retain the above copyright notice(s),
-   this list of conditions and the following disclaimer.
-2. Redistributions in binary form must reproduce the above copyright notice(s),
-   this list of conditions and the following disclaimer in the documentation
-   and/or other materials provided with the distribution.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDER(S) ``AS IS'' AND ANY EXPRESS
-OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF
-MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO
-EVENT SHALL THE COPYRIGHT HOLDER(S) BE LIABLE FOR ANY DIRECT, INDIRECT,
-INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
-PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
-LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE
-OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF
-ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
---------------------------------------------------------------------------------
-
-This project includes code from the Go project, BSD 3-clause license + PATENTS
-weak patent termination clause
-(https://github.com/golang/go/blob/master/PATENTS).
-
-Copyright (c) 2009 The Go Authors. All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-   * Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-   * Redistributions in binary form must reproduce the above
-copyright notice, this list of conditions and the following disclaimer
-in the documentation and/or other materials provided with the
-distribution.
-   * Neither the name of Google Inc. nor the names of its
-contributors may be used to endorse or promote products derived from
-this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-This project includes code from the hs2client
-
-https://github.com/cloudera/hs2client
-
-Copyright 2016 Cloudera Inc.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-The script ci/scripts/util_wait_for_it.sh has the following license
-
-Copyright (c) 2016 Giles Hall
-
-Permission is hereby granted, free of charge, to any person obtaining a copy of
-this software and associated documentation files (the "Software"), to deal in
-the Software without restriction, including without limitation the rights to
-use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies
-of the Software, and to permit persons to whom the Software is furnished to do
-so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---------------------------------------------------------------------------------
-
-The script r/configure has the following license (MIT)
-
-Copyright (c) 2017, Jeroen Ooms and Jim Hester
-
-Permission is hereby granted, free of charge, to any person obtaining a copy of
-this software and associated documentation files (the "Software"), to deal in
-the Software without restriction, including without limitation the rights to
-use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies
-of the Software, and to permit persons to whom the Software is furnished to do
-so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---------------------------------------------------------------------------------
-
-cpp/src/arrow/util/logging.cc, cpp/src/arrow/util/logging.h and
-cpp/src/arrow/util/logging-test.cc are adapted from
-Ray Project (https://github.com/ray-project/ray) (Apache 2.0).
-
-Copyright (c) 2016 Ray Project (https://github.com/ray-project/ray)
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-The files cpp/src/arrow/vendored/datetime/date.h, cpp/src/arrow/vendored/datetime/tz.h,
-cpp/src/arrow/vendored/datetime/tz_private.h, cpp/src/arrow/vendored/datetime/ios.h,
-cpp/src/arrow/vendored/datetime/ios.mm,
-cpp/src/arrow/vendored/datetime/tz.cpp are adapted from
-Howard Hinnant's date library (https://github.com/HowardHinnant/date)
-It is licensed under MIT license.
-
-The MIT License (MIT)
-Copyright (c) 2015, 2016, 2017 Howard Hinnant
-Copyright (c) 2016 Adrian Colomitchi
-Copyright (c) 2017 Florian Dang
-Copyright (c) 2017 Paul Thompson
-Copyright (c) 2018 Tomasz Kamiński
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---------------------------------------------------------------------------------
-
-The file cpp/src/arrow/util/utf8.h includes code adapted from the page
-  https://bjoern.hoehrmann.de/utf-8/decoder/dfa/
-with the following license (MIT)
-
-Copyright (c) 2008-2009 Bjoern Hoehrmann <bjoern@hoehrmann.de>
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---------------------------------------------------------------------------------
-
-The file cpp/src/arrow/vendored/string_view.hpp has the following license
-
-Boost Software License - Version 1.0 - August 17th, 2003
-
-Permission is hereby granted, free of charge, to any person or organization
-obtaining a copy of the software and accompanying documentation covered by
-this license (the "Software") to use, reproduce, display, distribute,
-execute, and transmit the Software, and to prepare derivative works of the
-Software, and to permit third-parties to whom the Software is furnished to
-do so, all subject to the following:
-
-The copyright notices in the Software and this entire statement, including
-the above license grant, this restriction and the following disclaimer,
-must be included in all copies of the Software, in whole or in part, and
-all derivative works of the Software, unless such copies or derivative
-works are solely in the form of machine-executable object code generated by
-a source language processor.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE, TITLE AND NON-INFRINGEMENT. IN NO EVENT
-SHALL THE COPYRIGHT HOLDERS OR ANYONE DISTRIBUTING THE SOFTWARE BE LIABLE
-FOR ANY DAMAGES OR OTHER LIABILITY, WHETHER IN CONTRACT, TORT OR OTHERWISE,
-ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
-DEALINGS IN THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
-The files in cpp/src/arrow/vendored/xxhash/ have the following license
-(BSD 2-Clause License)
-
-xxHash Library
-Copyright (c) 2012-2014, Yann Collet
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without modification,
-are permitted provided that the following conditions are met:
-
-* Redistributions of source code must retain the above copyright notice, this
-  list of conditions and the following disclaimer.
-
-* Redistributions in binary form must reproduce the above copyright notice, this
-  list of conditions and the following disclaimer in the documentation and/or
-  other materials provided with the distribution.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
-ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
-WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR
-ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
-(INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
-LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON
-ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
-SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
-You can contact the author at :
-- xxHash homepage: http://www.xxhash.com
-- xxHash source repository : https://github.com/Cyan4973/xxHash
-
---------------------------------------------------------------------------------
-
-The files in cpp/src/arrow/vendored/double-conversion/ have the following license
-(BSD 3-Clause License)
-
-Copyright 2006-2011, the V8 project authors. All rights reserved.
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-      notice, this list of conditions and the following disclaimer.
-    * Redistributions in binary form must reproduce the above
-      copyright notice, this list of conditions and the following
-      disclaimer in the documentation and/or other materials provided
-      with the distribution.
-    * Neither the name of Google Inc. nor the names of its
-      contributors may be used to endorse or promote products derived
-      from this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-The files in cpp/src/arrow/vendored/uriparser/ have the following license
-(BSD 3-Clause License)
-
-uriparser - RFC 3986 URI parsing library
-
-Copyright (C) 2007, Weijia Song <songweijia@gmail.com>
-Copyright (C) 2007, Sebastian Pipping <sebastian@pipping.org>
-All rights reserved.
-
-Redistribution  and use in source and binary forms, with or without
-modification,  are permitted provided that the following conditions
-are met:
-
-    * Redistributions   of  source  code  must  retain  the   above
-      copyright  notice, this list of conditions and the  following
-      disclaimer.
-
-    * Redistributions  in  binary  form must  reproduce  the  above
-      copyright  notice, this list of conditions and the  following
-      disclaimer   in  the  documentation  and/or  other  materials
-      provided with the distribution.
-
-    * Neither  the name of the <ORGANIZATION> nor the names of  its
-      contributors  may  be  used to endorse  or  promote  products
-      derived  from  this software without specific  prior  written
-      permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS  IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT  NOT
-LIMITED  TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND  FITNESS
-FOR  A  PARTICULAR  PURPOSE ARE DISCLAIMED. IN NO EVENT  SHALL  THE
-COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
-INCIDENTAL,    SPECIAL,   EXEMPLARY,   OR   CONSEQUENTIAL   DAMAGES
-(INCLUDING,  BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES;  LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
-HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
-STRICT  LIABILITY,  OR  TORT (INCLUDING  NEGLIGENCE  OR  OTHERWISE)
-ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED
-OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-The files under dev/tasks/conda-recipes have the following license
-
-BSD 3-clause license
-Copyright (c) 2015-2018, conda-forge
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without modification,
-are permitted provided that the following conditions are met:
-
-1. Redistributions of source code must retain the above copyright notice, this
-   list of conditions and the following disclaimer.
-
-2. Redistributions in binary form must reproduce the above copyright notice,
-   this list of conditions and the following disclaimer in the documentation
-   and/or other materials provided with the distribution.
-
-3. Neither the name of the copyright holder nor the names of its contributors
-   may be used to endorse or promote products derived from this software without
-   specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
-ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
-WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
-FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR
-TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF
-THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-The files in cpp/src/arrow/vendored/utf8cpp/ have the following license
-
-Copyright 2006 Nemanja Trifunovic
-
-Permission is hereby granted, free of charge, to any person or organization
-obtaining a copy of the software and accompanying documentation covered by
-this license (the "Software") to use, reproduce, display, distribute,
-execute, and transmit the Software, and to prepare derivative works of the
-Software, and to permit third-parties to whom the Software is furnished to
-do so, all subject to the following:
-
-The copyright notices in the Software and this entire statement, including
-the above license grant, this restriction and the following disclaimer,
-must be included in all copies of the Software, in whole or in part, and
-all derivative works of the Software, unless such copies or derivative
-works are solely in the form of machine-executable object code generated by
-a source language processor.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE, TITLE AND NON-INFRINGEMENT. IN NO EVENT
-SHALL THE COPYRIGHT HOLDERS OR ANYONE DISTRIBUTING THE SOFTWARE BE LIABLE
-FOR ANY DAMAGES OR OTHER LIABILITY, WHETHER IN CONTRACT, TORT OR OTHERWISE,
-ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
-DEALINGS IN THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
-This project includes code from Apache Kudu.
-
- * cpp/cmake_modules/CompilerInfo.cmake is based on Kudu's cmake_modules/CompilerInfo.cmake
-
-Copyright: 2016 The Apache Software Foundation.
-Home page: https://kudu.apache.org/
-License: http://www.apache.org/licenses/LICENSE-2.0
-
---------------------------------------------------------------------------------
-
-This project includes code from Apache Impala (incubating), formerly
-Impala. The Impala code and rights were donated to the ASF as part of the
-Incubator process after the initial code imports into Apache Parquet.
-
-Copyright: 2012 Cloudera, Inc.
-Copyright: 2016 The Apache Software Foundation.
-Home page: http://impala.apache.org/
-License: http://www.apache.org/licenses/LICENSE-2.0
-
---------------------------------------------------------------------------------
-
-This project includes code from Apache Aurora.
-
-* dev/release/{release,changelog,release-candidate} are based on the scripts from
-  Apache Aurora
-
-Copyright: 2016 The Apache Software Foundation.
-Home page: https://aurora.apache.org/
-License: http://www.apache.org/licenses/LICENSE-2.0
-
---------------------------------------------------------------------------------
-
-This project includes code from the Google styleguide.
-
-* cpp/build-support/cpplint.py is based on the scripts from the Google styleguide.
-
-Copyright: 2009 Google Inc. All rights reserved.
-Homepage: https://github.com/google/styleguide
-License: 3-clause BSD
-
---------------------------------------------------------------------------------
-
-This project includes code from Snappy.
-
-* cpp/cmake_modules/{SnappyCMakeLists.txt,SnappyConfig.h} are based on code
-  from Google's Snappy project.
-
-Copyright: 2009 Google Inc. All rights reserved.
-Homepage: https://github.com/google/snappy
-License: 3-clause BSD
-
---------------------------------------------------------------------------------
-
-This project includes code from the manylinux project.
-
-* python/manylinux1/scripts/{build_python.sh,python-tag-abi-tag.py,
-  requirements.txt} are based on code from the manylinux project.
-
-Copyright: 2016 manylinux
-Homepage: https://github.com/pypa/manylinux
-License: The MIT License (MIT)
-
---------------------------------------------------------------------------------
-
-This project includes code from the cymove project:
-
-* python/pyarrow/includes/common.pxd includes code from the cymove project
-
-The MIT License (MIT)
-Copyright (c) 2019 Omer Ozarslan
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
-EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
-MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.
-IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM,
-DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR
-OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE
-OR OTHER DEALINGS IN THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
-The projects includes code from the Ursabot project under the dev/archery
-directory.
-
-License: BSD 2-Clause
-
-Copyright 2019 RStudio, Inc.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are met:
-
-1. Redistributions of source code must retain the above copyright notice, this
-   list of conditions and the following disclaimer.
-
-2. Redistributions in binary form must reproduce the above copyright notice,
-   this list of conditions and the following disclaimer in the documentation
-   and/or other materials provided with the distribution.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
-ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
-WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
-FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-This project include code from CMake.
-
-* cpp/cmake_modules/FindGTest.cmake is based on code from CMake.
-
-Copyright: Copyright 2000-2019 Kitware, Inc. and Contributors
-Homepage: https://gitlab.kitware.com/cmake/cmake
-License: 3-clause BSD
-
---------------------------------------------------------------------------------
-
-This project include code from mingw-w64.
-
-* cpp/src/arrow/util/cpu-info.cc has a polyfill for mingw-w64 < 5
-
-Copyright (c) 2009 - 2013 by the mingw-w64 project
-Homepage: https://mingw-w64.org
-License: Zope Public License (ZPL) Version 2.1.
-
----------------------------------------------------------------------------------
-
-This project include code from Google's Asylo project.
-
-* cpp/src/arrow/result.h is based on status_or.h
-
-Copyright (c)  Copyright 2017 Asylo authors
-Homepage: https://asylo.dev/
-License: Apache 2.0
-
---------------------------------------------------------------------------------
-
-This project includes code from Google's protobuf project
-
-* cpp/src/arrow/result.h ARROW_ASSIGN_OR_RAISE is based off ASSIGN_OR_RETURN
-
-Copyright 2008 Google Inc.  All rights reserved.
-Homepage: https://developers.google.com/protocol-buffers/
-License:
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-    * Redistributions in binary form must reproduce the above
-copyright notice, this list of conditions and the following disclaimer
-in the documentation and/or other materials provided with the
-distribution.
-    * Neither the name of Google Inc. nor the names of its
-contributors may be used to endorse or promote products derived from
-this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
-Code generated by the Protocol Buffer compiler is owned by the owner
-of the input file used when generating it.  This code is not
-standalone and requires a support library to be linked with it.  This
-support library is itself covered by the above license.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency LLVM is statically linked in certain binary distributions.
-Additionally some sections of source code have been derived from sources in LLVM
-and have been clearly labeled as such. LLVM has the following license:
-
-==============================================================================
-LLVM Release License
-==============================================================================
-University of Illinois/NCSA
-Open Source License
-
-Copyright (c) 2003-2018 University of Illinois at Urbana-Champaign.
-All rights reserved.
-
-Developed by:
-
-    LLVM Team
-
-    University of Illinois at Urbana-Champaign
-
-    http://llvm.org
-
-Permission is hereby granted, free of charge, to any person obtaining a copy of
-this software and associated documentation files (the "Software"), to deal with
-the Software without restriction, including without limitation the rights to
-use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies
-of the Software, and to permit persons to whom the Software is furnished to do
-so, subject to the following conditions:
-
-    * Redistributions of source code must retain the above copyright notice,
-      this list of conditions and the following disclaimers.
-
-    * Redistributions in binary form must reproduce the above copyright notice,
-      this list of conditions and the following disclaimers in the
-      documentation and/or other materials provided with the distribution.
-
-    * Neither the names of the LLVM Team, University of Illinois at
-      Urbana-Champaign, nor the names of its contributors may be used to
-      endorse or promote products derived from this Software without specific
-      prior written permission.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS
-FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL THE
-CONTRIBUTORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS WITH THE
-SOFTWARE.
-
-==============================================================================
-Copyrights and Licenses for Third Party Software Distributed with LLVM:
-==============================================================================
-The LLVM software contains code written by third parties.  Such software will
-have its own individual LICENSE.TXT file in the directory in which it appears.
-This file will describe the copyrights, license, and restrictions which apply
-to that code.
-
-The disclaimer of warranty in the University of Illinois Open Source License
-applies to all code in the LLVM Distribution, and nothing in any of the
-other licenses gives permission to use the names of the LLVM Team or the
-University of Illinois to endorse or promote products derived from this
-Software.
-
-The following pieces of software have additional or alternate copyrights,
-licenses, and/or restrictions:
-
-Program             Directory
--------             ---------
-Google Test         llvm/utils/unittest/googletest
-OpenBSD regex       llvm/lib/Support/{reg*, COPYRIGHT.regex}
-pyyaml tests        llvm/test/YAMLParser/{*.data, LICENSE.TXT}
-ARM contributions   llvm/lib/Target/ARM/LICENSE.TXT
-md5 contributions   llvm/lib/Support/MD5.cpp llvm/include/llvm/Support/MD5.h
-
---------------------------------------------------------------------------------
-
-3rdparty dependency gRPC is statically linked in certain binary
-distributions, like the python wheels. gRPC has the following license:
-
-Copyright 2014 gRPC authors.
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency Apache Thrift is statically linked in certain binary
-distributions, like the python wheels. Apache Thrift has the following license:
-
-Apache Thrift
-Copyright (C) 2006 - 2019, The Apache Software Foundation
-
-This product includes software developed at
-The Apache Software Foundation (http://www.apache.org/).
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-     http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency Apache ORC is statically linked in certain binary
-distributions, like the python wheels. Apache ORC has the following license:
-
-Apache ORC
-Copyright 2013-2019 The Apache Software Foundation
-
-This product includes software developed by The Apache Software
-Foundation (http://www.apache.org/).
-
-This product includes software developed by Hewlett-Packard:
-(c) Copyright [2014-2015] Hewlett-Packard Development Company, L.P
-
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-
-     http://www.apache.org/licenses/LICENSE-2.0
-
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency zstd is statically linked in certain binary
-distributions, like the python wheels. ZSTD has the following license:
-
-BSD License
-
-For Zstandard software
-
-Copyright (c) 2016-present, Facebook, Inc. All rights reserved.
-
-Redistribution and use in source and binary forms, with or without modification,
-are permitted provided that the following conditions are met:
-
- * Redistributions of source code must retain the above copyright notice, this
-   list of conditions and the following disclaimer.
-
- * Redistributions in binary form must reproduce the above copyright notice,
-   this list of conditions and the following disclaimer in the documentation
-   and/or other materials provided with the distribution.
-
- * Neither the name Facebook nor the names of its contributors may be used to
-   endorse or promote products derived from this software without specific
-   prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
-ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
-WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR
-ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
-(INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
-LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON
-ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
-SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency lz4 is statically linked in certain binary
-distributions, like the python wheels. lz4 has the following license:
-
-LZ4 Library
-Copyright (c) 2011-2016, Yann Collet
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without modification,
-are permitted provided that the following conditions are met:
-
-* Redistributions of source code must retain the above copyright notice, this
-  list of conditions and the following disclaimer.
-
-* Redistributions in binary form must reproduce the above copyright notice, this
-  list of conditions and the following disclaimer in the documentation and/or
-  other materials provided with the distribution.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
-ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
-WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR
-ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
-(INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
-LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON
-ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
-SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency Brotli is statically linked in certain binary
-distributions, like the python wheels. Brotli has the following license:
-
-Copyright (c) 2009, 2010, 2013-2016 by the Brotli Authors.
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in
-all copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
-THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency snappy is statically linked in certain binary
-distributions, like the python wheels. snappy has the following license:
-
-Copyright 2011, Google Inc.
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright notice,
-      this list of conditions and the following disclaimer.
-    * Redistributions in binary form must reproduce the above copyright notice,
-      this list of conditions and the following disclaimer in the documentation
-      and/or other materials provided with the distribution.
-    * Neither the name of Google Inc. nor the names of its contributors may be
-      used to endorse or promote products derived from this software without
-      specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
-===
-
-Some of the benchmark data in testdata/ is licensed differently:
-
- - fireworks.jpeg is Copyright 2013 Steinar H. Gunderson, and
-   is licensed under the Creative Commons Attribution 3.0 license
-   (CC-BY-3.0). See https://creativecommons.org/licenses/by/3.0/
-   for more information.
-
- - kppkn.gtb is taken from the Gaviota chess tablebase set, and
-   is licensed under the MIT License. See
-   https://sites.google.com/site/gaviotachessengine/Home/endgame-tablebases-1
-   for more information.
-
- - paper-100k.pdf is an excerpt (bytes 92160 to 194560) from the paper
-   “Combinatorial Modeling of Chromatin Features Quantitatively Predicts DNA
-   Replication Timing in _Drosophila_” by Federico Comoglio and Renato Paro,
-   which is licensed under the CC-BY license. See
-   http://www.ploscompbiol.org/static/license for more ifnormation.
-
- - alice29.txt, asyoulik.txt, plrabn12.txt and lcet10.txt are from Project
-   Gutenberg. The first three have expired copyrights and are in the public
-   domain; the latter does not have expired copyright, but is still in the
-   public domain according to the license information
-   (http://www.gutenberg.org/ebooks/53).
-
---------------------------------------------------------------------------------
-
-3rdparty dependency gflags is statically linked in certain binary
-distributions, like the python wheels. gflags has the following license:
-
-Copyright (c) 2006, Google Inc.
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-    * Redistributions in binary form must reproduce the above
-copyright notice, this list of conditions and the following disclaimer
-in the documentation and/or other materials provided with the
-distribution.
-    * Neither the name of Google Inc. nor the names of its
-contributors may be used to endorse or promote products derived from
-this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency glog is statically linked in certain binary
-distributions, like the python wheels. glog has the following license:
-
-Copyright (c) 2008, Google Inc.
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-notice, this list of conditions and the following disclaimer.
-    * Redistributions in binary form must reproduce the above
-copyright notice, this list of conditions and the following disclaimer
-in the documentation and/or other materials provided with the
-distribution.
-    * Neither the name of Google Inc. nor the names of its
-contributors may be used to endorse or promote products derived from
-this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
-
-A function gettimeofday in utilities.cc is based on
-
-http://www.google.com/codesearch/p?hl=en#dR3YEbitojA/COPYING&q=GetSystemTimeAsFileTime%20license:bsd
-
-The license of this code is:
-
-Copyright (c) 2003-2008, Jouni Malinen <j@w1.fi> and contributors
-All Rights Reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-1. Redistributions of source code must retain the above copyright
-   notice, this list of conditions and the following disclaimer.
-
-2. Redistributions in binary form must reproduce the above copyright
-   notice, this list of conditions and the following disclaimer in the
-   documentation and/or other materials provided with the distribution.
-
-3. Neither the name(s) of the above-listed copyright holder(s) nor the
-   names of its contributors may be used to endorse or promote products
-   derived from this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency re2 is statically linked in certain binary
-distributions, like the python wheels. re2 has the following license:
-
-Copyright (c) 2009 The RE2 Authors. All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-      notice, this list of conditions and the following disclaimer.
-    * Redistributions in binary form must reproduce the above
-      copyright notice, this list of conditions and the following
-      disclaimer in the documentation and/or other materials provided
-      with the distribution.
-    * Neither the name of Google Inc. nor the names of its contributors
-      may be used to endorse or promote products derived from this
-      software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency c-ares is statically linked in certain binary
-distributions, like the python wheels. c-ares has the following license:
-
-# c-ares license
-
-Copyright (c) 2007 - 2018, Daniel Stenberg with many contributors, see AUTHORS
-file.
-
-Copyright 1998 by the Massachusetts Institute of Technology.
-
-Permission to use, copy, modify, and distribute this software and its
-documentation for any purpose and without fee is hereby granted, provided that
-the above copyright notice appear in all copies and that both that copyright
-notice and this permission notice appear in supporting documentation, and that
-the name of M.I.T. not be used in advertising or publicity pertaining to
-distribution of the software without specific, written prior permission.
-M.I.T. makes no representations about the suitability of this software for any
-purpose.  It is provided "as is" without express or implied warranty.
-
---------------------------------------------------------------------------------
-
-3rdparty dependency zlib is redistributed as a dynamically linked shared
-library in certain binary distributions, like the python wheels. In the future
-this will likely change to static linkage. zlib has the following license:
-
-zlib.h -- interface of the 'zlib' general purpose compression library
-  version 1.2.11, January 15th, 2017
-
-  Copyright (C) 1995-2017 Jean-loup Gailly and Mark Adler
-
-  This software is provided 'as-is', without any express or implied
-  warranty.  In no event will the authors be held liable for any damages
-  arising from the use of this software.
-
-  Permission is granted to anyone to use this software for any purpose,
-  including commercial applications, and to alter it and redistribute it
-  freely, subject to the following restrictions:
-
-  1. The origin of this software must not be misrepresented; you must not
-     claim that you wrote the original software. If you use this software
-     in a product, an acknowledgment in the product documentation would be
-     appreciated but is not required.
-  2. Altered source versions must be plainly marked as such, and must not be
-     misrepresented as being the original software.
-  3. This notice may not be removed or altered from any source distribution.
-
-  Jean-loup Gailly        Mark Adler
-  jloup@gzip.org          madler@alumni.caltech.edu
-
---------------------------------------------------------------------------------
-
-3rdparty dependency openssl is redistributed as a dynamically linked shared
-library in certain binary distributions, like the python wheels. openssl
-preceding version 3 has the following license:
-
-  LICENSE ISSUES
-  ==============
-
-  The OpenSSL toolkit stays under a double license, i.e. both the conditions of
-  the OpenSSL License and the original SSLeay license apply to the toolkit.
-  See below for the actual license texts.
-
-  OpenSSL License
-  ---------------
-
-/* ====================================================================
- * Copyright (c) 1998-2019 The OpenSSL Project.  All rights reserved.
- *
- * Redistribution and use in source and binary forms, with or without
- * modification, are permitted provided that the following conditions
- * are met:
- *
- * 1. Redistributions of source code must retain the above copyright
- *    notice, this list of conditions and the following disclaimer.
- *
- * 2. Redistributions in binary form must reproduce the above copyright
- *    notice, this list of conditions and the following disclaimer in
- *    the documentation and/or other materials provided with the
- *    distribution.
- *
- * 3. All advertising materials mentioning features or use of this
- *    software must display the following acknowledgment:
- *    "This product includes software developed by the OpenSSL Project
- *    for use in the OpenSSL Toolkit. (http://www.openssl.org/)"
- *
- * 4. The names "OpenSSL Toolkit" and "OpenSSL Project" must not be used to
- *    endorse or promote products derived from this software without
- *    prior written permission. For written permission, please contact
- *    openssl-core@openssl.org.
- *
- * 5. Products derived from this software may not be called "OpenSSL"
- *    nor may "OpenSSL" appear in their names without prior written
- *    permission of the OpenSSL Project.
- *
- * 6. Redistributions of any form whatsoever must retain the following
- *    acknowledgment:
- *    "This product includes software developed by the OpenSSL Project
- *    for use in the OpenSSL Toolkit (http://www.openssl.org/)"
- *
- * THIS SOFTWARE IS PROVIDED BY THE OpenSSL PROJECT ``AS IS'' AND ANY
- * EXPRESSED OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
- * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
- * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE OpenSSL PROJECT OR
- * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
- * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT
- * NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
- * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
- * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
- * STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
- * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED
- * OF THE POSSIBILITY OF SUCH DAMAGE.
- * ====================================================================
- *
- * This product includes cryptographic software written by Eric Young
- * (eay@cryptsoft.com).  This product includes software written by Tim
- * Hudson (tjh@cryptsoft.com).
- *
- */
-
- Original SSLeay License
- -----------------------
-
-/* Copyright (C) 1995-1998 Eric Young (eay@cryptsoft.com)
- * All rights reserved.
- *
- * This package is an SSL implementation written
- * by Eric Young (eay@cryptsoft.com).
- * The implementation was written so as to conform with Netscapes SSL.
- *
- * This library is free for commercial and non-commercial use as long as
- * the following conditions are aheared to.  The following conditions
- * apply to all code found in this distribution, be it the RC4, RSA,
- * lhash, DES, etc., code; not just the SSL code.  The SSL documentation
- * included with this distribution is covered by the same copyright terms
- * except that the holder is Tim Hudson (tjh@cryptsoft.com).
- *
- * Copyright remains Eric Young's, and as such any Copyright notices in
- * the code are not to be removed.
- * If this package is used in a product, Eric Young should be given attribution
- * as the author of the parts of the library used.
- * This can be in the form of a textual message at program startup or
- * in documentation (online or textual) provided with the package.
- *
- * Redistribution and use in source and binary forms, with or without
- * modification, are permitted provided that the following conditions
- * are met:
- * 1. Redistributions of source code must retain the copyright
- *    notice, this list of conditions and the following disclaimer.
- * 2. Redistributions in binary form must reproduce the above copyright
- *    notice, this list of conditions and the following disclaimer in the
- *    documentation and/or other materials provided with the distribution.
- * 3. All advertising materials mentioning features or use of this software
- *    must display the following acknowledgement:
- *    "This product includes cryptographic software written by
- *     Eric Young (eay@cryptsoft.com)"
- *    The word 'cryptographic' can be left out if the rouines from the library
- *    being used are not cryptographic related :-).
- * 4. If you include any Windows specific code (or a derivative thereof) from
- *    the apps directory (application code) you must include an acknowledgement:
- *    "This product includes software written by Tim Hudson (tjh@cryptsoft.com)"
- *
- * THIS SOFTWARE IS PROVIDED BY ERIC YOUNG ``AS IS'' AND
- * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
- * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
- * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
- * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
- * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
- * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
- * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
- * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
- * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
- * SUCH DAMAGE.
- *
- * The licence and distribution terms for any publically available version or
- * derivative of this code cannot be changed.  i.e. this code cannot simply be
- * copied and put under another distribution licence
- * [including the GNU Public Licence.]
- */
-
---------------------------------------------------------------------------------
-
-This project includes code from the rtools-backports project.
-
-* ci/scripts/PKGBUILD and ci/scripts/r_windows_build.sh are based on code
-  from the rtools-backports project.
-
-Copyright: Copyright (c) 2013 - 2019, Алексей and Jeroen Ooms.
-All rights reserved.
-Homepage: https://github.com/r-windows/rtools-backports
-License: 3-clause BSD
-
---------------------------------------------------------------------------------
-
-Some code from pandas has been adapted for the pyarrow codebase. pandas is
-available under the 3-clause BSD license, which follows:
-
-pandas license
-==============
-
-Copyright (c) 2011-2012, Lambda Foundry, Inc. and PyData Development Team
-All rights reserved.
-
-Copyright (c) 2008-2011 AQR Capital Management, LLC
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are
-met:
-
-    * Redistributions of source code must retain the above copyright
-       notice, this list of conditions and the following disclaimer.
-
-    * Redistributions in binary form must reproduce the above
-       copyright notice, this list of conditions and the following
-       disclaimer in the documentation and/or other materials provided
-       with the distribution.
-
-    * Neither the name of the copyright holder nor the names of any
-       contributors may be used to endorse or promote products derived
-       from this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDER AND CONTRIBUTORS
-"AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
---------------------------------------------------------------------------------
-
-Some bits from DyND, in particular aspects of the build system, have been
-adapted from libdynd and dynd-python under the terms of the BSD 2-clause
-license
-
-The BSD 2-Clause License
-
-    Copyright (C) 2011-12, Dynamic NDArray Developers
-    All rights reserved.
-
-    Redistribution and use in source and binary forms, with or without
-    modification, are permitted provided that the following conditions are
-    met:
-
-        * Redistributions of source code must retain the above copyright
-           notice, this list of conditions and the following disclaimer.
-
-        * Redistributions in binary form must reproduce the above
-           copyright notice, this list of conditions and the following
-           disclaimer in the documentation and/or other materials provided
-           with the distribution.
-
-    THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-    "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-    LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-    A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-    OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-    SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-    LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-    DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-    THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-    (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-    OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
-Dynamic NDArray Developers list:
-
- * Mark Wiebe
- * Continuum Analytics
-
---------------------------------------------------------------------------------
-
-Some source code from Ibis (https://github.com/cloudera/ibis) has been adapted
-for PyArrow. Ibis is released under the Apache License, Version 2.0.
-
---------------------------------------------------------------------------------
-
-dev/tasks/homebrew-formulae/apache-arrow.rb has the following license:
-
-BSD 2-Clause License
-
-Copyright (c) 2009-present, Homebrew contributors
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are met:
-
-* Redistributions of source code must retain the above copyright notice, this
-  list of conditions and the following disclaimer.
-
-* Redistributions in binary form must reproduce the above copyright notice,
-  this list of conditions and the following disclaimer in the documentation
-  and/or other materials provided with the distribution.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
-FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-
-----------------------------------------------------------------------
-
-cpp/src/arrow/vendored/base64.cpp has the following license
-
-ZLIB License
-
-Copyright (C) 2004-2017 René Nyffenegger
-
-This source code is provided 'as-is', without any express or implied
-warranty. In no event will the author be held liable for any damages arising
-from the use of this software.
-
-Permission is granted to anyone to use this software for any purpose, including
-commercial applications, and to alter it and redistribute it freely, subject to
-the following restrictions:
-
-1. The origin of this source code must not be misrepresented; you must not
-   claim that you wrote the original source code. If you use this source code
-   in a product, an acknowledgment in the product documentation would be
-   appreciated but is not required.
-
-2. Altered source versions must be plainly marked as such, and must not be
-   misrepresented as being the original source code.
-
-3. This notice may not be removed or altered from any source distribution.
-
-René Nyffenegger rene.nyffenegger@adp-gmbh.ch
-
---------------------------------------------------------------------------------
-
-The file cpp/src/arrow/vendored/optional.hpp has the following license
-
-Boost Software License - Version 1.0 - August 17th, 2003
-
-Permission is hereby granted, free of charge, to any person or organization
-obtaining a copy of the software and accompanying documentation covered by
-this license (the "Software") to use, reproduce, display, distribute,
-execute, and transmit the Software, and to prepare derivative works of the
-Software, and to permit third-parties to whom the Software is furnished to
-do so, all subject to the following:
-
-The copyright notices in the Software and this entire statement, including
-the above license grant, this restriction and the following disclaimer,
-must be included in all copies of the Software, in whole or in part, and
-all derivative works of the Software, unless such copies or derivative
-works are solely in the form of machine-executable object code generated by
-a source language processor.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE, TITLE AND NON-INFRINGEMENT. IN NO EVENT
-SHALL THE COPYRIGHT HOLDERS OR ANYONE DISTRIBUTING THE SOFTWARE BE LIABLE
-FOR ANY DAMAGES OR OTHER LIABILITY, WHETHER IN CONTRACT, TORT OR OTHERWISE,
-ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
-DEALINGS IN THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
-The file cpp/src/arrow/vendored/musl/strptime.c has the following license
-
-Copyright © 2005-2020 Rich Felker, et al.
-
-Permission is hereby granted, free of charge, to any person obtaining
-a copy of this software and associated documentation files (the
-"Software"), to deal in the Software without restriction, including
-without limitation the rights to use, copy, modify, merge, publish,
-distribute, sublicense, and/or sell copies of the Software, and to
-permit persons to whom the Software is furnished to do so, subject to
-the following conditions:
-
-The above copyright notice and this permission notice shall be
-included in all copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
-EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
-MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.
-IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY
-CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT,
-TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE
-SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
diff --git a/go/README.md b/go/README.md
deleted file mode 100644
index ec824229729a0..0000000000000
--- a/go/README.md
+++ /dev/null
@@ -1,147 +0,0 @@
-<!---
-  Licensed to the Apache Software Foundation (ASF) under one
-  or more contributor license agreements.  See the NOTICE file
-  distributed with this work for additional information
-  regarding copyright ownership.  The ASF licenses this file
-  to you under the Apache License, Version 2.0 (the
-  "License"); you may not use this file except in compliance
-  with the License.  You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-  Unless required by applicable law or agreed to in writing,
-  software distributed under the License is distributed on an
-  "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-  KIND, either express or implied.  See the License for the
-  specific language governing permissions and limitations
-  under the License.
--->
-
-Apache Arrow for Go
-===================
-
-[![Go Reference](https://pkg.go.dev/badge/github.com/apache/arrow/go/v18.svg)](https://pkg.go.dev/github.com/apache/arrow/go/v18)
-
-[Apache Arrow][arrow] is a cross-language development platform for in-memory
-data. It specifies a standardized language-independent columnar memory format
-for flat and hierarchical data, organized for efficient analytic operations on
-modern hardware. It also provides computational libraries and zero-copy
-streaming messaging and inter-process communication.
-
-### A note about FlightSQL drivers
-
-Go FlightSQL drivers live in the
-[ADBC repository](https://github.com/apache/arrow-adbc/tree/main/go/adbc).
-In particular, to use the Golang `database/sql` interface:
-```golang
-import (
-    "database/sql"
-    _ "github.com/apache/arrow-adbc/go/adbc/sqldriver/flightsql"
-)
-
-func main() {
-    dsn := "uri=grpc://localhost:12345;username=mickeymouse;password=p@55w0RD"
-    db, err := sql.Open("flightsql", dsn)
-    ...
-}
-```
-
-DSN option keys are expressed as `k=v`, delimited with `;`. 
-Some options keys are defined in ADBC, others are defined in the FlightSQL ADBC driver.
-- Arrow ADBC [developer doc](https://arrow.apache.org/adbc/main/driver/flight_sql.html#client-options)
-- ADBC [source code](https://github.com/apache/arrow-adbc/blob/3d12fad1bae21029a8ff25604d6e65760c3f65bd/go/adbc/adbc.go#L149-L158)
-- FlightSQL driver option keys [source code](https://github.com/apache/arrow-adbc/blob/3d12fad1bae21029a8ff25604d6e65760c3f65bd/go/adbc/driver/flightsql/flightsql_adbc.go#L70-L81)
-
-Reference Counting
-------------------
-
-The library makes use of reference counting so that it can track when memory
-buffers are no longer used. This allows Arrow to update resource accounting,
-pool memory such and track overall memory usage as objects are created and
-released. Types expose two methods to deal with this pattern. The `Retain`
-method will increase the reference count by 1 and `Release` method will reduce
-the count by 1. Once the reference count of an object is zero, any associated
-object will be freed. `Retain` and `Release` are safe to call from multiple
-goroutines.
-
-### When to call `Retain` / `Release`?
-
-* If you are passed an object and wish to take ownership of it, you must call
-  `Retain`. You must later pair this with a call to `Release` when you no
-  longer need the object.  "Taking ownership" typically means you wish to
-  access the object outside the scope of the current function call.
-
-* You own any object you create via functions whose name begins with `New` or
-  `Copy` or when receiving an object over a channel. Therefore you must call
-  `Release` once you no longer need the object.
-
-* If you send an object over a channel, you must call `Retain` before sending
-  it as the receiver is assumed to own the object and will later call `Release`
-  when it no longer needs the object.
-
-Performance
------------
-
-The arrow package makes extensive use of [c2goasm][] to leverage LLVM's
-advanced optimizer and generate PLAN9 assembly functions from C/C++ code. The
-arrow package can be compiled without these optimizations using the `noasm`
-build tag. Alternatively, by configuring an environment variable, it is
-possible to dynamically configure which architecture optimizations are used at
-runtime. We use the (cpu)[https://pkg.go.dev/golang.org/x/sys/cpu] package to
-check dynamically for these features.
-
-### Example Usage
-
-The following benchmarks demonstrate summing an array of 8192 values using
-various optimizations.
-
-Disable no architecture optimizations (thus using AVX2):
-
-```sh
-$ INTEL_DISABLE_EXT=NONE go test -bench=8192 -run=. ./math
-goos: darwin
-goarch: amd64
-pkg: github.com/apache/arrow/go/arrow/math
-BenchmarkFloat64Funcs_Sum_8192-8   	 2000000	       687 ns/op	95375.41 MB/s
-BenchmarkInt64Funcs_Sum_8192-8     	 2000000	       719 ns/op	91061.06 MB/s
-BenchmarkUint64Funcs_Sum_8192-8    	 2000000	       691 ns/op	94797.29 MB/s
-PASS
-ok  	github.com/apache/arrow/go/arrow/math	6.444s
-```
-
-**NOTE:** `NONE` is simply ignored, thus enabling optimizations for AVX2 and SSE4
-
-----
-
-Disable AVX2 architecture optimizations:
-
-```sh
-$ INTEL_DISABLE_EXT=AVX2 go test -bench=8192 -run=. ./math
-goos: darwin
-goarch: amd64
-pkg: github.com/apache/arrow/go/arrow/math
-BenchmarkFloat64Funcs_Sum_8192-8   	 1000000	      1912 ns/op	34263.63 MB/s
-BenchmarkInt64Funcs_Sum_8192-8     	 1000000	      1392 ns/op	47065.57 MB/s
-BenchmarkUint64Funcs_Sum_8192-8    	 1000000	      1405 ns/op	46636.41 MB/s
-PASS
-ok  	github.com/apache/arrow/go/arrow/math	4.786s
-```
-
-----
-
-Disable ALL architecture optimizations, thus using pure Go implementation:
-
-```sh
-$ INTEL_DISABLE_EXT=ALL go test -bench=8192 -run=. ./math
-goos: darwin
-goarch: amd64
-pkg: github.com/apache/arrow/go/arrow/math
-BenchmarkFloat64Funcs_Sum_8192-8   	  200000	     10285 ns/op	6371.41 MB/s
-BenchmarkInt64Funcs_Sum_8192-8     	  500000	      3892 ns/op	16837.37 MB/s
-BenchmarkUint64Funcs_Sum_8192-8    	  500000	      3929 ns/op	16680.00 MB/s
-PASS
-ok  	github.com/apache/arrow/go/arrow/math	6.179s
-```
-
-[arrow]:    https://arrow.apache.org
-[c2goasm]:  https://github.com/minio/c2goasm
diff --git a/go/arrow/.editorconfig b/go/arrow/.editorconfig
deleted file mode 100644
index a7ceaf938f92c..0000000000000
--- a/go/arrow/.editorconfig
+++ /dev/null
@@ -1,21 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-root = true
-
-[*.tmpl]
-indent_style = tab
-indent_size = 4
\ No newline at end of file
diff --git a/go/arrow/.gitignore b/go/arrow/.gitignore
deleted file mode 100644
index d4b831ae811da..0000000000000
--- a/go/arrow/.gitignore
+++ /dev/null
@@ -1,35 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-### Go template
-# Binaries for programs and plugins
-*.exe
-*.dll
-*.so
-*.dylib
-*.o
-
-# Test binary, build with `go test -c`
-*.test
-
-# Output of the go coverage tool, specifically when used with LiteIDE
-*.out
-
-# Project-local glide cache, RE: https://github.com/Masterminds/glide/issues/736
-.glide/
-
-bin/
-vendor/
\ No newline at end of file
diff --git a/go/arrow/Gopkg.lock b/go/arrow/Gopkg.lock
deleted file mode 100644
index 143e4f93b5eea..0000000000000
--- a/go/arrow/Gopkg.lock
+++ /dev/null
@@ -1,44 +0,0 @@
-# This file is autogenerated, do not edit; changes may be undone by the next 'dep ensure'.
-
-
-[[projects]]
-  digest = "1:56c130d885a4aacae1dd9c7b71cfe39912c7ebc1ff7d2b46083c8812996dc43b"
-  name = "github.com/davecgh/go-spew"
-  packages = ["spew"]
-  pruneopts = ""
-  revision = "346938d642f2ec3594ed81d874461961cd0faa76"
-  version = "v1.1.0"
-
-[[projects]]
-  digest = "1:1d7e1867c49a6dd9856598ef7c3123604ea3daabf5b83f303ff457bcbc410b1d"
-  name = "github.com/pkg/errors"
-  packages = ["."]
-  pruneopts = ""
-  revision = "ba968bfe8b2f7e042a574c888954fccecfa385b4"
-  version = "v0.8.1"
-
-[[projects]]
-  digest = "1:256484dbbcd271f9ecebc6795b2df8cad4c458dd0f5fd82a8c2fa0c29f233411"
-  name = "github.com/pmezard/go-difflib"
-  packages = ["difflib"]
-  pruneopts = ""
-  revision = "792786c7400a136282c1664665ae0a8db921c6c2"
-  version = "v1.0.0"
-
-[[projects]]
-  digest = "1:2d0dc026c4aef5e2f3a0e06a4dabe268b840d8f63190cf6894e02134a03f52c5"
-  name = "github.com/stretchr/testify"
-  packages = ["assert"]
-  pruneopts = ""
-  revision = "b91bfb9ebec76498946beb6af7c0230c7cc7ba6c"
-  version = "v1.2.0"
-
-[solve-meta]
-  analyzer-name = "dep"
-  analyzer-version = 1
-  input-imports = [
-    "github.com/pkg/errors",
-    "github.com/stretchr/testify/assert",
-  ]
-  solver-name = "gps-cdcl"
-  solver-version = 1
diff --git a/go/arrow/Gopkg.toml b/go/arrow/Gopkg.toml
deleted file mode 100644
index b27807d69f951..0000000000000
--- a/go/arrow/Gopkg.toml
+++ /dev/null
@@ -1,23 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-[[constraint]]
-  name = "github.com/stretchr/testify"
-  version = "1.2.0"
-
-[[constraint]]
-  name = "github.com/pkg/errors"
-  version = "0.8.1"
\ No newline at end of file
diff --git a/go/arrow/Makefile b/go/arrow/Makefile
deleted file mode 100644
index 9c4a23262d0bd..0000000000000
--- a/go/arrow/Makefile
+++ /dev/null
@@ -1,54 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-GO_BUILD=go build
-GO_GEN=go generate
-GO_TEST?=go test
-GOPATH=$(realpath ../../../../../..)
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-SOURCES_NO_VENDOR := $(shell find . -path ./vendor -prune -o -name "*.go" -not -name '*_test.go' -print)
-
-.PHONEY: test bench assembly generate
-
-assembly:
-	@$(MAKE) -C memory assembly
-	@$(MAKE) -C math assembly
-
-generate: bin/tmpl
-	bin/tmpl -i -data=numeric.tmpldata type_traits_numeric.gen.go.tmpl type_traits_numeric.gen_test.go.tmpl array/numeric.gen.go.tmpl array/numericbuilder.gen_test.go.tmpl  array/numericbuilder.gen.go.tmpl array/bufferbuilder_numeric.gen.go.tmpl
-	bin/tmpl -i -data=datatype_numeric.gen.go.tmpldata datatype_numeric.gen.go.tmpl
-	@$(MAKE) -C math generate
-
-fmt: $(SOURCES_NO_VENDOR)
-	goimports -w $^
-
-bench: $(GO_SOURCES) | assembly
-	$(GO_TEST) $(GO_TEST_ARGS) -bench=. -run=- ./...
-
-bench-noasm: $(GO_SOURCES)
-	$(GO_TEST) $(GO_TEST_ARGS) -tags='noasm' -bench=. -run=- ./...
-
-test: $(GO_SOURCES) | assembly
-	$(GO_TEST) $(GO_TEST_ARGS) ./...
-
-test-noasm: $(GO_SOURCES)
-	$(GO_TEST) $(GO_TEST_ARGS) -tags='noasm' ./...
-
-bin/tmpl: _tools/tmpl/main.go
-	$(GO_BUILD) -o $@ ./_tools/tmpl
-
diff --git a/go/arrow/_examples/helloworld/main.go b/go/arrow/_examples/helloworld/main.go
deleted file mode 100644
index 7f932801917a4..0000000000000
--- a/go/arrow/_examples/helloworld/main.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"os"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/math"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func main() {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "intField", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-		{Name: "stringField", Type: arrow.BinaryTypes.String, Nullable: false},
-		{Name: "floatField", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	}, nil)
-
-	builder := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer builder.Release()
-
-	builder.Field(0).(*array.Int64Builder).AppendValues([]int64{1, 2, 3, 4, 5}, nil)
-	builder.Field(1).(*array.StringBuilder).AppendValues([]string{"a", "b", "c", "d", "e"}, nil)
-	builder.Field(2).(*array.Float64Builder).AppendValues([]float64{1, 0, 3, 0, 5}, []bool{true, false, true, false, true})
-
-	rec := builder.NewRecord()
-	defer rec.Release()
-
-	tbl := array.NewTableFromRecords(schema, []arrow.Record{rec})
-	defer tbl.Release()
-
-	sum := math.Float64.Sum(tbl.Column(2).Data().Chunk(0).(*array.Float64))
-	if sum != 9 {
-		defer os.Exit(1)
-	}
-}
diff --git a/go/arrow/_tools/tmpl/main.go b/go/arrow/_tools/tmpl/main.go
deleted file mode 100644
index 33cb1686981f4..0000000000000
--- a/go/arrow/_tools/tmpl/main.go
+++ /dev/null
@@ -1,268 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"bytes"
-	"flag"
-	"fmt"
-	"go/format"
-	"io/ioutil"
-	"os"
-	"os/exec"
-	"path/filepath"
-	"strings"
-	"text/template"
-
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-const Ext = ".tmpl"
-
-type pathSpec struct {
-	in, out string
-}
-
-func (p *pathSpec) String() string { return p.in + " → " + p.out }
-func (p *pathSpec) IsGoFile() bool { return filepath.Ext(p.out) == ".go" }
-
-func parsePath(path string) (string, string) {
-	p := strings.IndexByte(path, '=')
-	if p == -1 {
-		if filepath.Ext(path) != Ext {
-			errExit("template file '%s' must have .tmpl extension", path)
-		}
-		return path, path[:len(path)-len(Ext)]
-	}
-
-	return path[:p], path[p+1:]
-}
-
-type data struct {
-	In interface{}
-	D  listValue
-}
-
-func errExit(format string, a ...interface{}) {
-	fmt.Fprintf(os.Stderr, format, a...)
-	fmt.Fprintln(os.Stderr)
-	os.Exit(1)
-}
-
-type listValue map[string]string
-
-func (l listValue) String() string {
-	res := make([]string, 0, len(l))
-	for k, v := range l {
-		res = append(res, fmt.Sprintf("%s=%s", k, v))
-	}
-	return strings.Join(res, ", ")
-}
-
-func (l listValue) Set(v string) error {
-	nv := strings.Split(v, "=")
-	if len(nv) != 2 {
-		return fmt.Errorf("expected NAME=VALUE, got %s", v)
-	}
-	l[nv[0]] = nv[1]
-	return nil
-}
-
-func main() {
-	var (
-		dataArg = flag.String("data", "", "input JSON data")
-		gi      = flag.Bool("i", false, "run goimports")
-		in      = &data{D: make(listValue)}
-	)
-
-	flag.Var(&in.D, "d", "-d NAME=VALUE")
-
-	flag.Parse()
-	if *dataArg == "" {
-		errExit("data option is required")
-	}
-
-	if *gi {
-		if _, err := exec.LookPath("goimports"); err != nil {
-			errExit("failed to find goimports: %s", err.Error())
-		}
-		formatter = formatSource
-	} else {
-		formatter = format.Source
-	}
-
-	paths := flag.Args()
-	if len(paths) == 0 {
-		errExit("no tmpl files specified")
-	}
-
-	specs := make([]pathSpec, len(paths))
-	for i, p := range paths {
-		in, out := parsePath(p)
-		specs[i] = pathSpec{in: in, out: out}
-	}
-
-	in.In = readData(*dataArg)
-	process(in, specs)
-}
-
-func mustReadAll(path string) []byte {
-	data, err := ioutil.ReadFile(path)
-	if err != nil {
-		errExit(err.Error())
-	}
-
-	return data
-}
-
-func readData(path string) interface{} {
-	data := mustReadAll(path)
-	var v interface{}
-	if err := json.Unmarshal(StripComments(data), &v); err != nil {
-		errExit("invalid JSON data: %s", err.Error())
-	}
-	return v
-}
-
-func fileMode(path string) os.FileMode {
-	stat, err := os.Stat(path)
-	if err != nil {
-		errExit(err.Error())
-	}
-	return stat.Mode()
-}
-
-var funcs = template.FuncMap{
-	"lower": strings.ToLower,
-	"upper": strings.ToUpper,
-}
-
-func process(data interface{}, specs []pathSpec) {
-	for _, spec := range specs {
-		var (
-			t   *template.Template
-			err error
-		)
-		t, err = template.New("gen").Funcs(funcs).Parse(string(mustReadAll(spec.in)))
-		if err != nil {
-			errExit("error processing template '%s': %s", spec.in, err.Error())
-		}
-
-		var buf bytes.Buffer
-		if spec.IsGoFile() {
-			// preamble
-			fmt.Fprintf(&buf, "// Code generated by %s. DO NOT EDIT.\n", spec.in)
-			fmt.Fprintln(&buf)
-		}
-		err = t.Execute(&buf, data)
-		if err != nil {
-			errExit("error executing template '%s': %s", spec.in, err.Error())
-		}
-
-		generated := buf.Bytes()
-		if spec.IsGoFile() {
-			generated, err = formatter(generated)
-			if err != nil {
-				errExit("error formatting '%s': %s", spec.in, err.Error())
-			}
-		}
-
-		os.WriteFile(spec.out, generated, fileMode(spec.in))
-	}
-}
-
-var (
-	formatter func([]byte) ([]byte, error)
-)
-
-func formatSource(in []byte) ([]byte, error) {
-	r := bytes.NewReader(in)
-	cmd := exec.Command("goimports")
-	cmd.Stdin = r
-	out, err := cmd.Output()
-	if err != nil {
-		if ee, ok := err.(*exec.ExitError); ok {
-			return nil, fmt.Errorf("error running goimports: %s", string(ee.Stderr))
-		}
-		return nil, fmt.Errorf("error running goimports: %s", string(out))
-	}
-
-	return out, nil
-}
-
-func StripComments(raw []byte) []byte {
-	var (
-		quoted, esc bool
-		comment     bool
-	)
-
-	buf := bytes.Buffer{}
-
-	for i := 0; i < len(raw); i++ {
-		b := raw[i]
-
-		if comment {
-			switch b {
-			case '/':
-				comment = false
-				j := bytes.IndexByte(raw[i+1:], '\n')
-				if j == -1 {
-					i = len(raw)
-				} else {
-					i += j // keep new line
-				}
-			case '*':
-				j := bytes.Index(raw[i+1:], []byte("*/"))
-				if j == -1 {
-					i = len(raw)
-				} else {
-					i += j + 2
-					comment = false
-				}
-			}
-			continue
-		}
-
-		if esc {
-			esc = false
-			continue
-		}
-
-		if b == '\\' && quoted {
-			esc = true
-			continue
-		}
-
-		if b == '"' || b == '\'' {
-			quoted = !quoted
-		}
-
-		if b == '/' && !quoted {
-			comment = true
-			continue
-		}
-
-		buf.WriteByte(b)
-	}
-
-	if quoted || esc || comment {
-		// unexpected state, so return raw bytes
-		return raw
-	}
-
-	return buf.Bytes()
-}
diff --git a/go/arrow/_tools/tmpl/main_test.go b/go/arrow/_tools/tmpl/main_test.go
deleted file mode 100644
index 831cf791e3a0b..0000000000000
--- a/go/arrow/_tools/tmpl/main_test.go
+++ /dev/null
@@ -1,73 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"testing"
-)
-
-func TestStripComments(t *testing.T) {
-	tests := []struct {
-		name string
-		in   string
-		exp  string
-	}{
-		{name: "none", in: `[1,2,3]`, exp: `[1,2,3]`},
-		{name: "single-line, line comment at end", in: `[1,2,3] // foo bar`, exp: `[1,2,3] `},
-		{name: "single-line, block comment at end", in: `[1,2,3] /* foo bar */  `, exp: `[1,2,3]   `},
-		{name: "single-line, block comment at end", in: `[1,2,3] /* /* // */`, exp: `[1,2,3] `},
-		{name: "single-line, block comment in middle", in: `[1,/* foo bar */2,3]`, exp: `[1,2,3]`},
-		{name: "single-line, block comment in string", in: `[1,"/* foo bar */"]`, exp: `[1,"/* foo bar */"]`},
-		{name: "single-line, malformed block comment", in: `[1,2,/*]`, exp: `[1,2,/*]`},
-		{name: "single-line, malformed JSON", in: `[1,2,/]`, exp: `[1,2,/]`},
-
-		{
-			name: "multi-line",
-			in: `[
-  1,
-  2,
-  3
-]`,
-			exp: `[
-  1,
-  2,
-  3
-]`,
-		},
-		{
-			name: "multi-line, multiple line comments",
-			in: `[ // foo
-  1, // bar
-  2,
-  3
-] // fit`,
-			exp: `[ 
-  1, 
-  2,
-  3
-] `,
-		},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			got := string(StripComments([]byte(test.in)))
-			if got != test.exp {
-				t.Errorf("got:\n%s\nexp:\n%s", got, test.exp)
-			}
-		})
-	}
-}
diff --git a/go/arrow/_tools/tools.go b/go/arrow/_tools/tools.go
deleted file mode 100644
index 262880bca8fe4..0000000000000
--- a/go/arrow/_tools/tools.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build tools
-// +build tools
-
-package _tools
-
-import (
-	_ "golang.org/x/tools/cmd/goimports"
-	_ "golang.org/x/tools/cmd/stringer"
-)
diff --git a/go/arrow/array.go b/go/arrow/array.go
deleted file mode 100644
index 768b30f8e0690..0000000000000
--- a/go/arrow/array.go
+++ /dev/null
@@ -1,129 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// ArrayData is the underlying memory and metadata of an Arrow array, corresponding
-// to the same-named object in the C++ implementation.
-//
-// The Array interface and subsequent typed objects provide strongly typed
-// accessors which support marshalling and other patterns to the data.
-// This interface allows direct access to the underlying raw byte buffers
-// which allows for manipulating the internal data and casting. For example,
-// one could cast the raw bytes from int64 to float64 like so:
-//
-//	arrdata := GetMyInt64Data().Data()
-//	newdata := array.NewData(arrow.PrimitiveTypes.Float64, arrdata.Len(),
-//			arrdata.Buffers(), nil, arrdata.NullN(), arrdata.Offset())
-//	defer newdata.Release()
-//	float64arr := array.NewFloat64Data(newdata)
-//	defer float64arr.Release()
-//
-// This is also useful in an analytics setting where memory may be reused. For
-// example, if we had a group of operations all returning float64 such as:
-//
-//	Log(Sqrt(Expr(arr)))
-//
-// The low-level implementations could have signatures such as:
-//
-//	func Log(values arrow.ArrayData) arrow.ArrayData
-//
-// Another example would be a function that consumes one or more memory buffers
-// in an input array and replaces them with newly-allocated data, changing the
-// output data type as well.
-type ArrayData interface {
-	// Retain increases the reference count by 1, it is safe to call
-	// in multiple goroutines simultaneously.
-	Retain()
-	// Release decreases the reference count by 1, it is safe to call
-	// in multiple goroutines simultaneously. Data is removed when reference
-	// count is 0.
-	Release()
-	// DataType returns the current datatype stored in the object.
-	DataType() DataType
-	// NullN returns the number of nulls for this data instance.
-	NullN() int
-	// Len returns the length of this data instance
-	Len() int
-	// Offset returns the offset into the raw buffers where this data begins
-	Offset() int
-	// Buffers returns the slice of raw data buffers for this data instance. Their
-	// meaning depends on the context of the data type.
-	Buffers() []*memory.Buffer
-	// Children returns the slice of children data instances, only relevant for
-	// nested data types. For instance, List data will have a single child containing
-	// elements of all the rows and Struct data will contain numfields children which
-	// are the arrays for each field of the struct.
-	Children() []ArrayData
-	// Reset allows reusing this ArrayData object by replacing the data in this ArrayData
-	// object without changing the reference count.
-	Reset(newtype DataType, newlength int, newbuffers []*memory.Buffer, newchildren []ArrayData, newnulls int, newoffset int)
-	// Dictionary returns the ArrayData object for the dictionary if this is a
-	// dictionary array, otherwise it will be nil.
-	Dictionary() ArrayData
-	// SizeInBytes returns the size of the ArrayData buffers and any children and/or dictionary in bytes.
-	SizeInBytes() uint64
-}
-
-// Array represents an immutable sequence of values using the Arrow in-memory format.
-type Array interface {
-	json.Marshaler
-
-	fmt.Stringer
-
-	// DataType returns the type metadata for this instance.
-	DataType() DataType
-
-	// NullN returns the number of null values in the array.
-	NullN() int
-
-	// NullBitmapBytes returns a byte slice of the validity bitmap.
-	NullBitmapBytes() []byte
-
-	// IsNull returns true if value at index is null.
-	// NOTE: IsNull will panic if NullBitmapBytes is not empty and 0 > i ≥ Len.
-	IsNull(i int) bool
-
-	// IsValid returns true if value at index is not null.
-	// NOTE: IsValid will panic if NullBitmapBytes is not empty and 0 > i ≥ Len.
-	IsValid(i int) bool
-	// ValueStr returns the value at index as a string.
-	ValueStr(i int) string
-
-	// Get single value to be marshalled with `json.Marshal`
-	GetOneForMarshal(i int) interface{}
-
-	Data() ArrayData
-
-	// Len returns the number of elements in the array.
-	Len() int
-
-	// Retain increases the reference count by 1.
-	// Retain may be called simultaneously from multiple goroutines.
-	Retain()
-
-	// Release decreases the reference count by 1.
-	// Release may be called simultaneously from multiple goroutines.
-	// When the reference count goes to zero, the memory is freed.
-	Release()
-}
diff --git a/go/arrow/array/array.go b/go/arrow/array/array.go
deleted file mode 100644
index ae33ca5417db0..0000000000000
--- a/go/arrow/array/array.go
+++ /dev/null
@@ -1,186 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-const (
-	// UnknownNullCount specifies the NullN should be calculated from the null bitmap buffer.
-	UnknownNullCount = -1
-
-	// NullValueStr represents a null value in arrow.Array.ValueStr and in Builder.AppendValueFromString.
-	// It should be returned from the arrow.Array.ValueStr implementations.
-	// Using it as the value in Builder.AppendValueFromString should be equivalent to Builder.AppendNull.
-	NullValueStr = "(null)"
-)
-
-type array struct {
-	refCount        int64
-	data            *Data
-	nullBitmapBytes []byte
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (a *array) Retain() {
-	atomic.AddInt64(&a.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// Release may be called simultaneously from multiple goroutines.
-// When the reference count goes to zero, the memory is freed.
-func (a *array) Release() {
-	debug.Assert(atomic.LoadInt64(&a.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&a.refCount, -1) == 0 {
-		a.data.Release()
-		a.data, a.nullBitmapBytes = nil, nil
-	}
-}
-
-// DataType returns the type metadata for this instance.
-func (a *array) DataType() arrow.DataType { return a.data.dtype }
-
-// NullN returns the number of null values in the array.
-func (a *array) NullN() int {
-	if a.data.nulls < 0 {
-		a.data.nulls = a.data.length - bitutil.CountSetBits(a.nullBitmapBytes, a.data.offset, a.data.length)
-	}
-	return a.data.nulls
-}
-
-// NullBitmapBytes returns a byte slice of the validity bitmap.
-func (a *array) NullBitmapBytes() []byte { return a.nullBitmapBytes }
-
-func (a *array) Data() arrow.ArrayData { return a.data }
-
-// Len returns the number of elements in the array.
-func (a *array) Len() int { return a.data.length }
-
-// IsNull returns true if value at index is null.
-// NOTE: IsNull will panic if NullBitmapBytes is not empty and 0 > i ≥ Len.
-func (a *array) IsNull(i int) bool {
-	return len(a.nullBitmapBytes) != 0 && bitutil.BitIsNotSet(a.nullBitmapBytes, a.data.offset+i)
-}
-
-// IsValid returns true if value at index is not null.
-// NOTE: IsValid will panic if NullBitmapBytes is not empty and 0 > i ≥ Len.
-func (a *array) IsValid(i int) bool {
-	return len(a.nullBitmapBytes) == 0 || bitutil.BitIsSet(a.nullBitmapBytes, a.data.offset+i)
-}
-
-func (a *array) setData(data *Data) {
-	// Retain before releasing in case a.data is the same as data.
-	data.Retain()
-
-	if a.data != nil {
-		a.data.Release()
-	}
-
-	if len(data.buffers) > 0 && data.buffers[0] != nil {
-		a.nullBitmapBytes = data.buffers[0].Bytes()
-	}
-	a.data = data
-}
-
-func (a *array) Offset() int {
-	return a.data.Offset()
-}
-
-type arrayConstructorFn func(arrow.ArrayData) arrow.Array
-
-var (
-	makeArrayFn [64]arrayConstructorFn
-)
-
-func invalidDataType(data arrow.ArrayData) arrow.Array {
-	panic("invalid data type: " + data.DataType().ID().String())
-}
-
-// MakeFromData constructs a strongly-typed array instance from generic Data.
-func MakeFromData(data arrow.ArrayData) arrow.Array {
-	return makeArrayFn[byte(data.DataType().ID()&0x3f)](data)
-}
-
-// NewSlice constructs a zero-copy slice of the array with the indicated
-// indices i and j, corresponding to array[i:j].
-// The returned array must be Release()'d after use.
-//
-// NewSlice panics if the slice is outside the valid range of the input array.
-// NewSlice panics if j < i.
-func NewSlice(arr arrow.Array, i, j int64) arrow.Array {
-	data := NewSliceData(arr.Data(), i, j)
-	slice := MakeFromData(data)
-	data.Release()
-	return slice
-}
-
-func init() {
-	makeArrayFn = [...]arrayConstructorFn{
-		arrow.NULL:                    func(data arrow.ArrayData) arrow.Array { return NewNullData(data) },
-		arrow.BOOL:                    func(data arrow.ArrayData) arrow.Array { return NewBooleanData(data) },
-		arrow.UINT8:                   func(data arrow.ArrayData) arrow.Array { return NewUint8Data(data) },
-		arrow.INT8:                    func(data arrow.ArrayData) arrow.Array { return NewInt8Data(data) },
-		arrow.UINT16:                  func(data arrow.ArrayData) arrow.Array { return NewUint16Data(data) },
-		arrow.INT16:                   func(data arrow.ArrayData) arrow.Array { return NewInt16Data(data) },
-		arrow.UINT32:                  func(data arrow.ArrayData) arrow.Array { return NewUint32Data(data) },
-		arrow.INT32:                   func(data arrow.ArrayData) arrow.Array { return NewInt32Data(data) },
-		arrow.UINT64:                  func(data arrow.ArrayData) arrow.Array { return NewUint64Data(data) },
-		arrow.INT64:                   func(data arrow.ArrayData) arrow.Array { return NewInt64Data(data) },
-		arrow.FLOAT16:                 func(data arrow.ArrayData) arrow.Array { return NewFloat16Data(data) },
-		arrow.FLOAT32:                 func(data arrow.ArrayData) arrow.Array { return NewFloat32Data(data) },
-		arrow.FLOAT64:                 func(data arrow.ArrayData) arrow.Array { return NewFloat64Data(data) },
-		arrow.STRING:                  func(data arrow.ArrayData) arrow.Array { return NewStringData(data) },
-		arrow.BINARY:                  func(data arrow.ArrayData) arrow.Array { return NewBinaryData(data) },
-		arrow.FIXED_SIZE_BINARY:       func(data arrow.ArrayData) arrow.Array { return NewFixedSizeBinaryData(data) },
-		arrow.DATE32:                  func(data arrow.ArrayData) arrow.Array { return NewDate32Data(data) },
-		arrow.DATE64:                  func(data arrow.ArrayData) arrow.Array { return NewDate64Data(data) },
-		arrow.TIMESTAMP:               func(data arrow.ArrayData) arrow.Array { return NewTimestampData(data) },
-		arrow.TIME32:                  func(data arrow.ArrayData) arrow.Array { return NewTime32Data(data) },
-		arrow.TIME64:                  func(data arrow.ArrayData) arrow.Array { return NewTime64Data(data) },
-		arrow.INTERVAL_MONTHS:         func(data arrow.ArrayData) arrow.Array { return NewMonthIntervalData(data) },
-		arrow.INTERVAL_DAY_TIME:       func(data arrow.ArrayData) arrow.Array { return NewDayTimeIntervalData(data) },
-		arrow.DECIMAL128:              func(data arrow.ArrayData) arrow.Array { return NewDecimal128Data(data) },
-		arrow.DECIMAL256:              func(data arrow.ArrayData) arrow.Array { return NewDecimal256Data(data) },
-		arrow.LIST:                    func(data arrow.ArrayData) arrow.Array { return NewListData(data) },
-		arrow.STRUCT:                  func(data arrow.ArrayData) arrow.Array { return NewStructData(data) },
-		arrow.SPARSE_UNION:            func(data arrow.ArrayData) arrow.Array { return NewSparseUnionData(data) },
-		arrow.DENSE_UNION:             func(data arrow.ArrayData) arrow.Array { return NewDenseUnionData(data) },
-		arrow.DICTIONARY:              func(data arrow.ArrayData) arrow.Array { return NewDictionaryData(data) },
-		arrow.MAP:                     func(data arrow.ArrayData) arrow.Array { return NewMapData(data) },
-		arrow.EXTENSION:               func(data arrow.ArrayData) arrow.Array { return NewExtensionData(data) },
-		arrow.FIXED_SIZE_LIST:         func(data arrow.ArrayData) arrow.Array { return NewFixedSizeListData(data) },
-		arrow.DURATION:                func(data arrow.ArrayData) arrow.Array { return NewDurationData(data) },
-		arrow.LARGE_STRING:            func(data arrow.ArrayData) arrow.Array { return NewLargeStringData(data) },
-		arrow.LARGE_BINARY:            func(data arrow.ArrayData) arrow.Array { return NewLargeBinaryData(data) },
-		arrow.LARGE_LIST:              func(data arrow.ArrayData) arrow.Array { return NewLargeListData(data) },
-		arrow.INTERVAL_MONTH_DAY_NANO: func(data arrow.ArrayData) arrow.Array { return NewMonthDayNanoIntervalData(data) },
-		arrow.RUN_END_ENCODED:         func(data arrow.ArrayData) arrow.Array { return NewRunEndEncodedData(data) },
-		arrow.LIST_VIEW:               func(data arrow.ArrayData) arrow.Array { return NewListViewData(data) },
-		arrow.LARGE_LIST_VIEW:         func(data arrow.ArrayData) arrow.Array { return NewLargeListViewData(data) },
-		arrow.BINARY_VIEW:             func(data arrow.ArrayData) arrow.Array { return NewBinaryViewData(data) },
-		arrow.STRING_VIEW:             func(data arrow.ArrayData) arrow.Array { return NewStringViewData(data) },
-		// invalid data types to fill out array to size 2^6 - 1
-		63: invalidDataType,
-	}
-}
diff --git a/go/arrow/array/array_test.go b/go/arrow/array/array_test.go
deleted file mode 100644
index 4f0627c600078..0000000000000
--- a/go/arrow/array/array_test.go
+++ /dev/null
@@ -1,346 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/tools"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-type testDataType struct {
-	id arrow.Type
-}
-
-func (d *testDataType) ID() arrow.Type            { return d.id }
-func (d *testDataType) Name() string              { panic("implement me") }
-func (d *testDataType) BitWidth() int             { return 8 }
-func (d *testDataType) Bytes() int                { return 1 }
-func (d *testDataType) Fingerprint() string       { return "" }
-func (testDataType) Layout() arrow.DataTypeLayout { return arrow.DataTypeLayout{} }
-func (testDataType) String() string               { return "" }
-
-func TestMakeFromData(t *testing.T) {
-	tests := []struct {
-		name     string
-		d        arrow.DataType
-		size     int
-		child    []arrow.ArrayData
-		dict     *array.Data
-		expPanic bool
-		expError string
-	}{
-		// supported types
-		{name: "null", d: &testDataType{arrow.NULL}},
-		{name: "bool", d: &testDataType{arrow.BOOL}},
-		{name: "uint8", d: &testDataType{arrow.UINT8}},
-		{name: "uint16", d: &testDataType{arrow.UINT16}},
-		{name: "uint32", d: &testDataType{arrow.UINT32}},
-		{name: "uint64", d: &testDataType{arrow.UINT64}},
-		{name: "int8", d: &testDataType{arrow.INT8}},
-		{name: "int16", d: &testDataType{arrow.INT16}},
-		{name: "int32", d: &testDataType{arrow.INT32}},
-		{name: "int64", d: &testDataType{arrow.INT64}},
-		{name: "float16", d: &testDataType{arrow.FLOAT16}},
-		{name: "float32", d: &testDataType{arrow.FLOAT32}},
-		{name: "float64", d: &testDataType{arrow.FLOAT64}},
-		{name: "string", d: &testDataType{arrow.STRING}, size: 3},
-		{name: "binary", d: &testDataType{arrow.BINARY}, size: 3},
-		{name: "large_string", d: &testDataType{arrow.LARGE_STRING}, size: 3},
-		{name: "large_binary", d: &testDataType{arrow.LARGE_BINARY}, size: 3},
-		{name: "fixed_size_binary", d: &testDataType{arrow.FIXED_SIZE_BINARY}},
-		{name: "date32", d: &testDataType{arrow.DATE32}},
-		{name: "date64", d: &testDataType{arrow.DATE64}},
-		{name: "timestamp", d: &testDataType{arrow.TIMESTAMP}},
-		{name: "time32", d: &testDataType{arrow.TIME32}},
-		{name: "time64", d: &testDataType{arrow.TIME64}},
-		{name: "month_interval", d: arrow.FixedWidthTypes.MonthInterval},
-		{name: "day_time_interval", d: arrow.FixedWidthTypes.DayTimeInterval},
-		{name: "decimal128", d: &testDataType{arrow.DECIMAL128}},
-		{name: "decimal256", d: &testDataType{arrow.DECIMAL256}},
-		{name: "month_day_nano_interval", d: arrow.FixedWidthTypes.MonthDayNanoInterval},
-
-		{name: "list", d: &testDataType{arrow.LIST}, child: []arrow.ArrayData{
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-		}},
-
-		{name: "large list", d: &testDataType{arrow.LARGE_LIST}, child: []arrow.ArrayData{
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-		}},
-
-		{name: "struct", d: &testDataType{arrow.STRUCT}},
-		{name: "struct", d: &testDataType{arrow.STRUCT}, child: []arrow.ArrayData{
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-		}},
-
-		{name: "fixed_size_list", d: arrow.FixedSizeListOf(4, arrow.PrimitiveTypes.Int64), child: []arrow.ArrayData{
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-		}},
-		{name: "duration", d: &testDataType{arrow.DURATION}},
-
-		{name: "map", d: &testDataType{arrow.MAP}, child: []arrow.ArrayData{
-			array.NewData(&testDataType{arrow.STRUCT}, 0 /* length */, make([]*memory.Buffer, 3 /*null bitmap, values, offsets*/), []arrow.ArrayData{
-				array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-				array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-			}, 0 /* nulls */, 0 /* offset */)},
-		},
-
-		{name: "sparse union", d: arrow.SparseUnionOf(nil, nil), child: []arrow.ArrayData{}, size: 2},
-		{name: "dense union", d: arrow.DenseUnionOf(nil, nil), child: []arrow.ArrayData{}, size: 3},
-
-		// various dictionary index types and value types
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: &testDataType{arrow.INT64}}, dict: array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: &testDataType{arrow.INT32}}, dict: array.NewData(&testDataType{arrow.INT32}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: &testDataType{arrow.UINT16}}, dict: array.NewData(&testDataType{arrow.UINT16}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: &testDataType{arrow.INT64}}, dict: array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: &testDataType{arrow.UINT32}}, dict: array.NewData(&testDataType{arrow.UINT32}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint32, ValueType: &testDataType{arrow.TIMESTAMP}}, dict: array.NewData(&testDataType{arrow.TIMESTAMP}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int64, ValueType: &testDataType{arrow.UINT32}}, dict: array.NewData(&testDataType{arrow.UINT32}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-		{name: "dictionary", d: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint64, ValueType: &testDataType{arrow.TIMESTAMP}}, dict: array.NewData(&testDataType{arrow.TIMESTAMP}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */)},
-
-		{name: "extension", d: &testDataType{arrow.EXTENSION}, expPanic: true, expError: "arrow/array: DataType for ExtensionArray must implement arrow.ExtensionType"},
-		{name: "extension", d: extensions.NewUUIDType()},
-
-		{name: "run end encoded", d: arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64), child: []arrow.ArrayData{
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-			array.NewData(&testDataType{arrow.INT64}, 0 /* length */, make([]*memory.Buffer, 2 /*null bitmap, values*/), nil /* childData */, 0 /* nulls */, 0 /* offset */),
-		}},
-
-		// invalid types
-		{name: "invalid(-1)", d: &testDataType{arrow.Type(-1)}, expPanic: true, expError: "invalid data type: Type(-1)"},
-		{name: "invalid(63)", d: &testDataType{arrow.Type(63)}, expPanic: true, expError: "invalid data type: Type(63)"},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			var (
-				b    [4]*memory.Buffer
-				n    = 4
-				data arrow.ArrayData
-			)
-			if test.size != 0 {
-				n = test.size
-			}
-			if test.dict != nil {
-				data = array.NewDataWithDictionary(test.d, 0, b[:n], 0, 0, test.dict)
-			} else {
-				data = array.NewData(test.d, 0, b[:n], test.child, 0, 0)
-			}
-
-			if test.expPanic {
-				assert.PanicsWithValue(t, test.expError, func() {
-					array.MakeFromData(data)
-				})
-			} else {
-				assert.NotNil(t, array.MakeFromData(data))
-			}
-		})
-	}
-}
-
-func bbits(v ...int32) []byte {
-	return tools.IntsToBitsLSB(v...)
-}
-
-func TestArray_NullN(t *testing.T) {
-	tests := []struct {
-		name string
-		l    int
-		bm   []byte
-		n    int
-		exp  int
-	}{
-		{name: "unknown,l16", l: 16, bm: bbits(0x11001010, 0x00110011), n: array.UnknownNullCount, exp: 8},
-		{name: "unknown,l12,ignores last nibble", l: 12, bm: bbits(0x11001010, 0x00111111), n: array.UnknownNullCount, exp: 6},
-		{name: "unknown,l12,12 nulls", l: 12, bm: bbits(0x00000000, 0x00000000), n: array.UnknownNullCount, exp: 12},
-		{name: "unknown,l12,00 nulls", l: 12, bm: bbits(0x11111111, 0x11111111), n: array.UnknownNullCount, exp: 0},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			buf := memory.NewBufferBytes(test.bm)
-			data := array.NewData(arrow.FixedWidthTypes.Boolean, test.l, []*memory.Buffer{buf, nil}, nil, test.n, 0)
-			buf.Release()
-			ar := array.MakeFromData(data)
-			data.Release()
-			got := ar.NullN()
-			ar.Release()
-			assert.Equal(t, test.exp, got)
-		})
-	}
-}
-
-func TestArraySlice(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		valids = []bool{true, true, true, false, true, true}
-		vs     = []float64{1, 2, 3, 0, 4, 5}
-	)
-
-	b := array.NewFloat64Builder(pool)
-	defer b.Release()
-
-	for _, tc := range []struct {
-		i, j   int
-		panics bool
-		len    int
-	}{
-		{i: 0, j: len(valids), panics: false, len: len(valids)},
-		{i: len(valids), j: len(valids), panics: false, len: 0},
-		{i: 0, j: 1, panics: false, len: 1},
-		{i: 1, j: 1, panics: false, len: 0},
-		{i: 0, j: len(valids) + 1, panics: true},
-		{i: 2, j: 1, panics: true},
-		{i: len(valids) + 1, j: len(valids) + 1, panics: true},
-	} {
-		t.Run("", func(t *testing.T) {
-			b.AppendValues(vs, valids)
-
-			arr := b.NewFloat64Array()
-			defer arr.Release()
-
-			if got, want := arr.Len(), len(valids); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			if tc.panics {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("this should have panicked, but did not")
-					}
-				}()
-			}
-
-			slice := array.NewSlice(arr, int64(tc.i), int64(tc.j)).(*array.Float64)
-			defer slice.Release()
-
-			if got, want := slice.Len(), tc.len; got != want {
-				t.Fatalf("invalid slice length: got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
-
-func TestArraySliceTypes(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	valids := []bool{true, true, true, false, true, true}
-
-	for _, tc := range []struct {
-		values  interface{}
-		builder array.Builder
-		append  func(b array.Builder, vs interface{})
-	}{
-		{
-			values:  []bool{true, false, true, false, true, false},
-			builder: array.NewBooleanBuilder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.BooleanBuilder).AppendValues(vs.([]bool), valids) },
-		},
-		{
-			values:  []uint8{1, 2, 3, 0, 4, 5},
-			builder: array.NewUint8Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Uint8Builder).AppendValues(vs.([]uint8), valids) },
-		},
-		{
-			values:  []uint16{1, 2, 3, 0, 4, 5},
-			builder: array.NewUint16Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Uint16Builder).AppendValues(vs.([]uint16), valids) },
-		},
-		{
-			values:  []uint32{1, 2, 3, 0, 4, 5},
-			builder: array.NewUint32Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Uint32Builder).AppendValues(vs.([]uint32), valids) },
-		},
-		{
-			values:  []uint64{1, 2, 3, 0, 4, 5},
-			builder: array.NewUint64Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Uint64Builder).AppendValues(vs.([]uint64), valids) },
-		},
-		{
-			values:  []int8{1, 2, 3, 0, 4, 5},
-			builder: array.NewInt8Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Int8Builder).AppendValues(vs.([]int8), valids) },
-		},
-		{
-			values:  []int16{1, 2, 3, 0, 4, 5},
-			builder: array.NewInt16Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Int16Builder).AppendValues(vs.([]int16), valids) },
-		},
-		{
-			values:  []int32{1, 2, 3, 0, 4, 5},
-			builder: array.NewInt32Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Int32Builder).AppendValues(vs.([]int32), valids) },
-		},
-		{
-			values:  []int64{1, 2, 3, 0, 4, 5},
-			builder: array.NewInt64Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Int64Builder).AppendValues(vs.([]int64), valids) },
-		},
-		{
-			values:  []float32{1, 2, 3, 0, 4, 5},
-			builder: array.NewFloat32Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Float32Builder).AppendValues(vs.([]float32), valids) },
-		},
-		{
-			values:  []float64{1, 2, 3, 0, 4, 5},
-			builder: array.NewFloat64Builder(pool),
-			append:  func(b array.Builder, vs interface{}) { b.(*array.Float64Builder).AppendValues(vs.([]float64), valids) },
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			defer tc.builder.Release()
-
-			b := tc.builder
-			tc.append(b, tc.values)
-
-			arr := b.NewArray()
-			defer arr.Release()
-
-			if got, want := arr.Len(), len(valids); got != want {
-				t.Fatalf("invalid length: got=%d, want=%d", got, want)
-			}
-
-			slice := array.NewSlice(arr, 2, 5)
-			defer slice.Release()
-
-			if got, want := slice.Len(), 3; got != want {
-				t.Fatalf("invalid slice length: got=%d, want=%d", got, want)
-			}
-
-			shortSlice := array.NewSlice(arr, 2, 3)
-			defer shortSlice.Release()
-
-			sliceOfShortSlice := array.NewSlice(shortSlice, 0, 1)
-			defer sliceOfShortSlice.Release()
-
-			if got, want := sliceOfShortSlice.Len(), 1; got != want {
-				t.Fatalf("invalid short slice length: got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
diff --git a/go/arrow/array/binary.go b/go/arrow/array/binary.go
deleted file mode 100644
index 99764270bf39d..0000000000000
--- a/go/arrow/array/binary.go
+++ /dev/null
@@ -1,453 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"encoding/base64"
-	"fmt"
-	"strings"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type BinaryLike interface {
-	arrow.Array
-	ValueLen(int) int
-	ValueBytes() []byte
-	ValueOffset64(int) int64
-}
-
-// A type which represents an immutable sequence of variable-length binary strings.
-type Binary struct {
-	array
-	valueOffsets []int32
-	valueBytes   []byte
-}
-
-// NewBinaryData constructs a new Binary array from data.
-func NewBinaryData(data arrow.ArrayData) *Binary {
-	a := &Binary{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Value returns the slice at index i. This value should not be mutated.
-func (a *Binary) Value(i int) []byte {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	idx := a.array.data.offset + i
-	return a.valueBytes[a.valueOffsets[idx]:a.valueOffsets[idx+1]]
-}
-
-// ValueStr returns a copy of the base64-encoded string value or NullValueStr
-func (a *Binary) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return base64.StdEncoding.EncodeToString(a.Value(i))
-}
-
-// ValueString returns the string at index i without performing additional allocations.
-// The string is only valid for the lifetime of the Binary array.
-func (a *Binary) ValueString(i int) string {
-	b := a.Value(i)
-	return *(*string)(unsafe.Pointer(&b))
-}
-
-func (a *Binary) ValueOffset(i int) int {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return int(a.valueOffsets[a.array.data.offset+i])
-}
-
-func (a *Binary) ValueOffset64(i int) int64 {
-	return int64(a.ValueOffset(i))
-}
-
-func (a *Binary) ValueLen(i int) int {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	beg := a.array.data.offset + i
-	return int(a.valueOffsets[beg+1] - a.valueOffsets[beg])
-}
-
-func (a *Binary) ValueOffsets() []int32 {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length + 1
-	return a.valueOffsets[beg:end]
-}
-
-func (a *Binary) ValueBytes() []byte {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length
-	return a.valueBytes[a.valueOffsets[beg]:a.valueOffsets[end]]
-}
-
-func (a *Binary) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%q", a.ValueString(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Binary) setData(data *Data) {
-	if len(data.buffers) != 3 {
-		panic("len(data.buffers) != 3")
-	}
-
-	a.array.setData(data)
-
-	if valueData := data.buffers[2]; valueData != nil {
-		a.valueBytes = valueData.Bytes()
-	}
-
-	if valueOffsets := data.buffers[1]; valueOffsets != nil {
-		a.valueOffsets = arrow.Int32Traits.CastFromBytes(valueOffsets.Bytes())
-	}
-
-	if a.array.data.length < 1 {
-		return
-	}
-
-	expNumOffsets := a.array.data.offset + a.array.data.length + 1
-	if len(a.valueOffsets) < expNumOffsets {
-		panic(fmt.Errorf("arrow/array: binary offset buffer must have at least %d values", expNumOffsets))
-	}
-
-	if int(a.valueOffsets[expNumOffsets-1]) > len(a.valueBytes) {
-		panic("arrow/array: binary offsets out of bounds of data buffer")
-	}
-}
-
-func (a *Binary) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.Value(i)
-}
-
-func (a *Binary) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	// golang marshal standard says that []byte will be marshalled
-	// as a base64-encoded string
-	return json.Marshal(vals)
-}
-
-func arrayEqualBinary(left, right *Binary) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !bytes.Equal(left.Value(i), right.Value(i)) {
-			return false
-		}
-	}
-	return true
-}
-
-type LargeBinary struct {
-	array
-	valueOffsets []int64
-	valueBytes   []byte
-}
-
-func NewLargeBinaryData(data arrow.ArrayData) *LargeBinary {
-	a := &LargeBinary{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *LargeBinary) Value(i int) []byte {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	idx := a.array.data.offset + i
-	return a.valueBytes[a.valueOffsets[idx]:a.valueOffsets[idx+1]]
-}
-
-func (a *LargeBinary) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return base64.StdEncoding.EncodeToString(a.Value(i))
-}
-func (a *LargeBinary) ValueString(i int) string {
-	b := a.Value(i)
-	return *(*string)(unsafe.Pointer(&b))
-}
-
-func (a *LargeBinary) ValueOffset(i int) int64 {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return a.valueOffsets[a.array.data.offset+i]
-}
-
-func (a *LargeBinary) ValueOffset64(i int) int64 {
-	return a.ValueOffset(i)
-}
-
-func (a *LargeBinary) ValueLen(i int) int {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	beg := a.array.data.offset + i
-	return int(a.valueOffsets[beg+1] - a.valueOffsets[beg])
-}
-
-func (a *LargeBinary) ValueOffsets() []int64 {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length + 1
-	return a.valueOffsets[beg:end]
-}
-
-func (a *LargeBinary) ValueBytes() []byte {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length
-	return a.valueBytes[a.valueOffsets[beg]:a.valueOffsets[end]]
-}
-
-func (a *LargeBinary) String() string {
-	var o strings.Builder
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(&o, "%q", a.ValueString(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *LargeBinary) setData(data *Data) {
-	if len(data.buffers) != 3 {
-		panic("len(data.buffers) != 3")
-	}
-
-	a.array.setData(data)
-
-	if valueData := data.buffers[2]; valueData != nil {
-		a.valueBytes = valueData.Bytes()
-	}
-
-	if valueOffsets := data.buffers[1]; valueOffsets != nil {
-		a.valueOffsets = arrow.Int64Traits.CastFromBytes(valueOffsets.Bytes())
-	}
-
-	if a.array.data.length < 1 {
-		return
-	}
-
-	expNumOffsets := a.array.data.offset + a.array.data.length + 1
-	if len(a.valueOffsets) < expNumOffsets {
-		panic(fmt.Errorf("arrow/array: large binary offset buffer must have at least %d values", expNumOffsets))
-	}
-
-	if int(a.valueOffsets[expNumOffsets-1]) > len(a.valueBytes) {
-		panic("arrow/array: large binary offsets out of bounds of data buffer")
-	}
-}
-
-func (a *LargeBinary) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.Value(i)
-}
-
-func (a *LargeBinary) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	// golang marshal standard says that []byte will be marshalled
-	// as a base64-encoded string
-	return json.Marshal(vals)
-}
-
-func arrayEqualLargeBinary(left, right *LargeBinary) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !bytes.Equal(left.Value(i), right.Value(i)) {
-			return false
-		}
-	}
-	return true
-}
-
-type ViewLike interface {
-	arrow.Array
-	ValueHeader(int) *arrow.ViewHeader
-}
-
-type BinaryView struct {
-	array
-	values      []arrow.ViewHeader
-	dataBuffers []*memory.Buffer
-}
-
-func NewBinaryViewData(data arrow.ArrayData) *BinaryView {
-	a := &BinaryView{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *BinaryView) setData(data *Data) {
-	if len(data.buffers) < 2 {
-		panic("len(data.buffers) < 2")
-	}
-	a.array.setData(data)
-
-	if valueData := data.buffers[1]; valueData != nil {
-		a.values = arrow.ViewHeaderTraits.CastFromBytes(valueData.Bytes())
-	}
-
-	a.dataBuffers = data.buffers[2:]
-}
-
-func (a *BinaryView) ValueHeader(i int) *arrow.ViewHeader {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return &a.values[a.array.data.offset+i]
-}
-
-func (a *BinaryView) Value(i int) []byte {
-	s := a.ValueHeader(i)
-	if s.IsInline() {
-		return s.InlineBytes()
-	}
-	start := s.BufferOffset()
-	buf := a.dataBuffers[s.BufferIndex()]
-	return buf.Bytes()[start : start+int32(s.Len())]
-}
-
-func (a *BinaryView) ValueLen(i int) int {
-	s := a.ValueHeader(i)
-	return s.Len()
-}
-
-// ValueString returns the value at index i as a string instead of
-// a byte slice, without copying the underlying data.
-func (a *BinaryView) ValueString(i int) string {
-	b := a.Value(i)
-	return *(*string)(unsafe.Pointer(&b))
-}
-
-func (a *BinaryView) String() string {
-	var o strings.Builder
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(&o, "%q", a.ValueString(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-// ValueStr is paired with AppendValueFromString in that it returns
-// the value at index i as a string: Semantically this means that for
-// a null value it will return the string "(null)", otherwise it will
-// return the value as a base64 encoded string suitable for CSV/JSON.
-//
-// This is always going to be less performant than just using ValueString
-// and exists to fulfill the Array interface to provide a method which
-// can produce a human readable string for a given index.
-func (a *BinaryView) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return base64.StdEncoding.EncodeToString(a.Value(i))
-}
-
-func (a *BinaryView) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.Value(i)
-}
-
-func (a *BinaryView) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	// golang marshal standard says that []byte will be marshalled
-	// as a base64-encoded string
-	return json.Marshal(vals)
-}
-
-func arrayEqualBinaryView(left, right *BinaryView) bool {
-	leftBufs, rightBufs := left.dataBuffers, right.dataBuffers
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !left.ValueHeader(i).Equals(leftBufs, right.ValueHeader(i), rightBufs) {
-			return false
-		}
-	}
-	return true
-}
-
-var (
-	_ arrow.Array = (*Binary)(nil)
-	_ arrow.Array = (*LargeBinary)(nil)
-	_ arrow.Array = (*BinaryView)(nil)
-
-	_ BinaryLike = (*Binary)(nil)
-	_ BinaryLike = (*LargeBinary)(nil)
-)
diff --git a/go/arrow/array/binary_test.go b/go/arrow/array/binary_test.go
deleted file mode 100644
index 919fff7b5e5e8..0000000000000
--- a/go/arrow/array/binary_test.go
+++ /dev/null
@@ -1,726 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-
-	values := [][]byte{
-		[]byte("AAA"),
-		nil,
-		[]byte("BBBB"),
-	}
-	valid := []bool{true, false, true}
-	b.AppendValues(values, valid)
-
-	b.Retain()
-	b.Release()
-
-	a := b.NewBinaryArray()
-	assert.Equal(t, 3, a.Len())
-	assert.Equal(t, 1, a.NullN())
-	assert.Equal(t, []byte("AAA"), a.Value(0))
-	assert.Equal(t, []byte{}, a.Value(1))
-	assert.Equal(t, []byte("BBBB"), a.Value(2))
-	assert.Equal(t, "QUFB", a.ValueStr(0))
-	assert.Equal(t, NullValueStr, a.ValueStr(1))
-	a.Release()
-
-	// Test builder reset and NewArray API.
-	b.AppendValues(values, valid)
-	a = b.NewArray().(*Binary)
-	assert.Equal(t, 3, a.Len())
-	assert.Equal(t, 1, a.NullN())
-	assert.Equal(t, []byte("AAA"), a.Value(0))
-	assert.Equal(t, []byte{}, a.Value(1))
-	assert.Equal(t, []byte("BBBB"), a.Value(2))
-	assert.Equal(t, "QUFB", a.ValueStr(0))
-	assert.Equal(t, NullValueStr, a.ValueStr(1))
-	a.Release()
-
-	b.Release()
-}
-
-func TestLargeBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-
-	values := [][]byte{
-		[]byte("AAA"),
-		nil,
-		[]byte("BBBB"),
-	}
-	valid := []bool{true, false, true}
-	b.AppendValues(values, valid)
-
-	b.Retain()
-	b.Release()
-
-	assert.Panics(t, func() {
-		b.NewBinaryArray()
-	})
-
-	a := b.NewLargeBinaryArray()
-	assert.Equal(t, 3, a.Len())
-	assert.Equal(t, 1, a.NullN())
-	assert.Equal(t, []byte("AAA"), a.Value(0))
-	assert.Equal(t, []byte{}, a.Value(1))
-	assert.Equal(t, []byte("BBBB"), a.Value(2))
-	assert.Equal(t, "QUFB", a.ValueStr(0))
-	assert.Equal(t, NullValueStr, a.ValueStr(1))
-	a.Release()
-
-	// Test builder reset and NewArray API.
-	b.AppendValues(values, valid)
-	a = b.NewArray().(*LargeBinary)
-	assert.Equal(t, 3, a.Len())
-	assert.Equal(t, 1, a.NullN())
-	assert.Equal(t, []byte("AAA"), a.Value(0))
-	assert.Equal(t, []byte{}, a.Value(1))
-	assert.Equal(t, []byte("BBBB"), a.Value(2))
-	assert.Equal(t, "QUFB", a.ValueStr(0))
-	assert.Equal(t, NullValueStr, a.ValueStr(1))
-	a.Release()
-
-	b.Release()
-}
-
-func TestBinarySliceData(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "def", "g", "hijk", "lm", "n", "opq", "rs", "tu"}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	for _, v := range values {
-		b.AppendString(v)
-	}
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(values); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	vs := make([]string, arr.Len())
-
-	for i := range vs {
-		vs[i] = arr.ValueString(i)
-	}
-
-	if got, want := vs, values; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	tests := []struct {
-		interval [2]int64
-		want     []string
-	}{
-		{
-			interval: [2]int64{0, 0},
-			want:     []string{},
-		},
-		{
-			interval: [2]int64{0, 5},
-			want:     []string{"a", "bc", "def", "g", "hijk"},
-		},
-		{
-			interval: [2]int64{0, 10},
-			want:     []string{"a", "bc", "def", "g", "hijk", "lm", "n", "opq", "rs", "tu"},
-		},
-		{
-			interval: [2]int64{5, 10},
-			want:     []string{"lm", "n", "opq", "rs", "tu"},
-		},
-		{
-			interval: [2]int64{10, 10},
-			want:     []string{},
-		},
-		{
-			interval: [2]int64{2, 7},
-			want:     []string{"def", "g", "hijk", "lm", "n"},
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-
-			slice := NewSlice(arr, tc.interval[0], tc.interval[1]).(*Binary)
-			defer slice.Release()
-
-			if got, want := slice.Len(), len(tc.want); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			vs := make([]string, slice.Len())
-
-			for i := range vs {
-				vs[i] = slice.ValueString(i)
-			}
-
-			if got, want := vs, tc.want; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestBinarySliceDataWithNull(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(values); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 3; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	vs := make([]string, arr.Len())
-
-	for i := range vs {
-		vs[i] = arr.ValueString(i)
-	}
-
-	if got, want := vs, values; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	tests := []struct {
-		interval [2]int64
-		nulls    int
-		want     []string
-	}{
-		{
-			interval: [2]int64{0, 2},
-			nulls:    0,
-			want:     []string{"a", "bc"},
-		},
-		{
-			interval: [2]int64{0, 3},
-			nulls:    1,
-			want:     []string{"a", "bc", ""},
-		},
-		{
-			interval: [2]int64{0, 4},
-			nulls:    2,
-			want:     []string{"a", "bc", "", ""},
-		},
-		{
-			interval: [2]int64{4, 8},
-			nulls:    0,
-			want:     []string{"hijk", "lm", "", "opq"},
-		},
-		{
-			interval: [2]int64{2, 9},
-			nulls:    3,
-			want:     []string{"", "", "hijk", "lm", "", "opq", ""},
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-
-			slice := NewSlice(arr, tc.interval[0], tc.interval[1]).(*Binary)
-			defer slice.Release()
-
-			if got, want := slice.Len(), len(tc.want); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			if got, want := slice.NullN(), tc.nulls; got != want {
-				t.Errorf("got=%d, want=%d", got, want)
-			}
-
-			vs := make([]string, slice.Len())
-
-			for i := range vs {
-				vs[i] = slice.ValueString(i)
-			}
-
-			if got, want := vs, tc.want; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestBinarySliceOutOfBounds(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "def", "g", "hijk", "lm", "n", "opq", "rs", "tu"}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	for _, v := range values {
-		b.AppendString(v)
-	}
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	slice := NewSlice(arr, 3, 8).(*Binary)
-	defer slice.Release()
-
-	tests := []struct {
-		index int
-		panic bool
-	}{
-		{
-			index: -1,
-			panic: true,
-		},
-		{
-			index: 5,
-			panic: true,
-		},
-		{
-			index: 0,
-			panic: false,
-		},
-		{
-			index: 4,
-			panic: false,
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-
-			var val string
-
-			if tc.panic {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("this should have panicked, but did not; slice value %q", val)
-					}
-					if got, want := e.(string), "arrow/array: index out of range"; got != want {
-						t.Fatalf("invalid error. got=%q, want=%q", got, want)
-					}
-				}()
-			} else {
-				defer func() {
-					if e := recover(); e != nil {
-						t.Fatalf("unexpected panic: %v", e)
-					}
-				}()
-			}
-
-			val = slice.ValueString(tc.index)
-		})
-	}
-}
-
-func TestBinaryValueOffset(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	slice := NewSlice(arr, 2, 9).(*Binary)
-	defer slice.Release()
-
-	offset := 3
-	vs := values[2:9]
-
-	for i, v := range vs {
-		assert.Equal(t, offset, slice.ValueOffset(i))
-		offset += len(v)
-	}
-}
-
-func TestLargeBinaryValueOffset(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*LargeBinary)
-	defer arr.Release()
-
-	slice := NewSlice(arr, 2, 9).(*LargeBinary)
-	defer slice.Release()
-
-	offset := 3
-	vs := values[2:9]
-
-	for i, v := range vs {
-		assert.EqualValues(t, offset, slice.ValueOffset(i))
-		offset += len(v)
-	}
-}
-
-func TestBinaryValueLen(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	slice := NewSlice(arr, 2, 9).(*Binary)
-	defer slice.Release()
-
-	vs := values[2:9]
-
-	for i, v := range vs {
-		assert.Equal(t, len(v), slice.ValueLen(i))
-	}
-}
-
-func TestLargeBinaryValueLen(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*LargeBinary)
-	defer arr.Release()
-
-	slice := NewSlice(arr, 2, 9).(*LargeBinary)
-	defer slice.Release()
-
-	vs := values[2:9]
-
-	for i, v := range vs {
-		assert.Equal(t, len(v), slice.ValueLen(i))
-	}
-}
-
-func TestBinaryValueOffsets(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	assert.Equal(t, []int32{0, 1, 3, 3, 3, 7, 9, 9, 12, 12, 14}, arr.ValueOffsets())
-
-	slice := NewSlice(arr, 2, 9).(*Binary)
-	defer slice.Release()
-
-	assert.Equal(t, []int32{3, 3, 3, 7, 9, 9, 12, 12}, slice.ValueOffsets())
-}
-
-func TestLargeBinaryValueOffsets(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*LargeBinary)
-	defer arr.Release()
-
-	assert.Equal(t, []int64{0, 1, 3, 3, 3, 7, 9, 9, 12, 12, 14}, arr.ValueOffsets())
-
-	slice := NewSlice(arr, 2, 9).(*LargeBinary)
-	defer slice.Release()
-
-	assert.Equal(t, []int64{3, 3, 3, 7, 9, 9, 12, 12}, slice.ValueOffsets())
-}
-
-func TestBinaryValueBytes(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	assert.Equal(t, []byte{'a', 'b', 'c', 'h', 'i', 'j', 'k', 'l', 'm', 'o', 'p', 'q', 't', 'u'}, arr.ValueBytes())
-
-	slice := NewSlice(arr, 2, 9).(*Binary)
-	defer slice.Release()
-
-	assert.Equal(t, []byte{'h', 'i', 'j', 'k', 'l', 'm', 'o', 'p', 'q'}, slice.ValueBytes())
-}
-
-func TestLargeBinaryValueBytes(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*LargeBinary)
-	defer arr.Release()
-
-	assert.Equal(t, []byte{'a', 'b', 'c', 'h', 'i', 'j', 'k', 'l', 'm', 'o', 'p', 'q', 't', 'u'}, arr.ValueBytes())
-
-	slice := NewSlice(arr, 2, 9).(*LargeBinary)
-	defer slice.Release()
-
-	assert.Equal(t, []byte{'h', 'i', 'j', 'k', 'l', 'm', 'o', 'p', 'q'}, slice.ValueBytes())
-}
-
-func TestBinaryStringer(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "é", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, true, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	got := arr.String()
-	want := `["a" "bc" (null) "é" (null) "hijk" "lm" "" "opq" (null) "tu"]`
-
-	if got != want {
-		t.Fatalf("invalid stringer:\ngot= %s\nwant=%s\n", got, want)
-	}
-}
-
-func TestLargeBinaryStringer(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "é", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, true, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*LargeBinary)
-	defer arr.Release()
-
-	got := arr.String()
-	want := `["a" "bc" (null) "é" (null) "hijk" "lm" "" "opq" (null) "tu"]`
-
-	if got != want {
-		t.Fatalf("invalid stringer:\ngot= %s\nwant=%s\n", got, want)
-	}
-}
-
-func TestBinaryInvalidOffsets(t *testing.T) {
-	const expectedPanic = "arrow/array: binary offsets out of bounds of data buffer"
-
-	makeBuffers := func(valids []bool, offsets []int32, data string) []*memory.Buffer {
-		offsetBuf := memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(offsets))
-		var nullBufBytes []byte
-		var nullBuf *memory.Buffer
-		if valids != nil {
-			nullBufBytes = make([]byte, bitutil.BytesForBits(int64(len(valids))))
-			for i, v := range valids {
-				bitutil.SetBitTo(nullBufBytes, i, v)
-			}
-			nullBuf = memory.NewBufferBytes(nullBufBytes)
-		}
-		return []*memory.Buffer{nullBuf, offsetBuf, memory.NewBufferBytes([]byte(data))}
-	}
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{}, "")
-		NewBinaryData(NewData(arrow.BinaryTypes.Binary, 0, buffers, nil, 0, 0))
-	}, "empty array with no offsets")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{0, 5}, "")
-		NewBinaryData(NewData(arrow.BinaryTypes.Binary, 0, buffers, nil, 0, 0))
-	}, "empty array, offsets ignored")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{0, 3, 4, 9}, "oooabcdef")
-		NewBinaryData(NewData(arrow.BinaryTypes.Binary, 1, buffers, nil, 0, 2))
-	}, "data has offset and value offsets are valid")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{0, 3, 6, 9, 9}, "012345678")
-		arr := NewBinaryData(NewData(arrow.BinaryTypes.Binary, 4, buffers, nil, 0, 0))
-		if assert.Equal(t, 4, arr.Len()) && assert.Zero(t, arr.NullN()) {
-			assert.EqualValues(t, "012", arr.Value(0))
-			assert.EqualValues(t, "345", arr.Value(1))
-			assert.EqualValues(t, "678", arr.Value(2))
-			assert.EqualValues(t, "", arr.Value(3), "trailing empty binary value will have offset past end")
-		}
-	}, "simple valid case")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers([]bool{true, false, true, false}, []int32{0, 3, 4, 9, 9}, "oooabcdef")
-		arr := NewBinaryData(NewData(arrow.BinaryTypes.Binary, 4, buffers, nil, 2, 0))
-		if assert.Equal(t, 4, arr.Len()) && assert.Equal(t, 2, arr.NullN()) {
-			assert.EqualValues(t, "ooo", arr.Value(0))
-			assert.True(t, arr.IsNull(1))
-			assert.EqualValues(t, "bcdef", arr.Value(2))
-			assert.True(t, arr.IsNull(3))
-		}
-	}, "simple valid case with nulls")
-
-	assert.PanicsWithValue(t, expectedPanic, func() {
-		buffers := makeBuffers(nil, []int32{0, 5}, "abc")
-		NewBinaryData(NewData(arrow.BinaryTypes.Binary, 1, buffers, nil, 0, 0))
-	}, "last offset is overflowing")
-
-	assert.PanicsWithError(t, "arrow/array: binary offset buffer must have at least 2 values", func() {
-		buffers := makeBuffers(nil, []int32{0}, "abc")
-		NewBinaryData(NewData(arrow.BinaryTypes.Binary, 1, buffers, nil, 0, 0))
-	}, "last offset is missing")
-
-	assert.PanicsWithValue(t, expectedPanic, func() {
-		buffers := makeBuffers(nil, []int32{0, 3, 10, 15}, "oooabcdef")
-		NewBinaryData(NewData(arrow.BinaryTypes.Binary, 1, buffers, nil, 0, 2))
-	}, "data has offset and value offset is overflowing")
-}
-
-func TestBinaryStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valid := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b.Release()
-
-	b.AppendStringValues(values, valid)
-
-	arr := b.NewArray().(*Binary)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-
-	b1 := NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*Binary)
-	defer arr1.Release()
-
-	assert.True(t, Equal(arr, arr1))
-}
-
-func TestBinaryViewStringRoundTrip(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "supercalifragilistic", "", "expialidocious"}
-	valid := []bool{true, true, false, false, true, true, true}
-
-	b := NewBinaryViewBuilder(mem)
-	defer b.Release()
-
-	b.AppendStringValues(values, valid)
-	arr := b.NewArray().(*BinaryView)
-	defer arr.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b.NewArray().(*BinaryView)
-	defer arr1.Release()
-
-	assert.True(t, Equal(arr, arr1))
-}
diff --git a/go/arrow/array/binarybuilder.go b/go/arrow/array/binarybuilder.go
deleted file mode 100644
index 6fcc4eaf46479..0000000000000
--- a/go/arrow/array/binarybuilder.go
+++ /dev/null
@@ -1,704 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"encoding/base64"
-	"fmt"
-	"math"
-	"reflect"
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A BinaryBuilder is used to build a Binary array using the Append methods.
-type BinaryBuilder struct {
-	builder
-
-	dtype   arrow.BinaryDataType
-	offsets bufBuilder
-	values  *byteBufferBuilder
-
-	appendOffsetVal func(int)
-	getOffsetVal    func(int) int
-	maxCapacity     uint64
-	offsetByteWidth int
-}
-
-// NewBinaryBuilder can be used for any of the variable length binary types,
-// Binary, LargeBinary, String, LargeString by passing the appropriate data type
-func NewBinaryBuilder(mem memory.Allocator, dtype arrow.BinaryDataType) *BinaryBuilder {
-	var (
-		offsets         bufBuilder
-		offsetValFn     func(int)
-		maxCapacity     uint64
-		offsetByteWidth int
-		getOffsetVal    func(int) int
-	)
-	switch dtype.Layout().Buffers[1].ByteWidth {
-	case 4:
-		b := newInt32BufferBuilder(mem)
-		offsetValFn = func(v int) { b.AppendValue(int32(v)) }
-		getOffsetVal = func(i int) int { return int(b.Value(i)) }
-		offsets = b
-		maxCapacity = math.MaxInt32
-		offsetByteWidth = arrow.Int32SizeBytes
-	case 8:
-		b := newInt64BufferBuilder(mem)
-		offsetValFn = func(v int) { b.AppendValue(int64(v)) }
-		getOffsetVal = func(i int) int { return int(b.Value(i)) }
-		offsets = b
-		maxCapacity = math.MaxInt64
-		offsetByteWidth = arrow.Int64SizeBytes
-	}
-
-	b := &BinaryBuilder{
-		builder:         builder{refCount: 1, mem: mem},
-		dtype:           dtype,
-		offsets:         offsets,
-		values:          newByteBufferBuilder(mem),
-		appendOffsetVal: offsetValFn,
-		maxCapacity:     maxCapacity,
-		offsetByteWidth: offsetByteWidth,
-		getOffsetVal:    getOffsetVal,
-	}
-	return b
-}
-
-func (b *BinaryBuilder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (b *BinaryBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.offsets != nil {
-			b.offsets.Release()
-			b.offsets = nil
-		}
-		if b.values != nil {
-			b.values.Release()
-			b.values = nil
-		}
-	}
-}
-
-func (b *BinaryBuilder) Append(v []byte) {
-	b.Reserve(1)
-	b.appendNextOffset()
-	b.values.Append(v)
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *BinaryBuilder) AppendString(v string) {
-	b.Append([]byte(v))
-}
-
-func (b *BinaryBuilder) AppendNull() {
-	b.Reserve(1)
-	b.appendNextOffset()
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *BinaryBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *BinaryBuilder) AppendEmptyValue() {
-	b.Reserve(1)
-	b.appendNextOffset()
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *BinaryBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *BinaryBuilder) AppendValues(v [][]byte, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	for _, vv := range v {
-		b.appendNextOffset()
-		b.values.Append(vv)
-	}
-
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-// AppendStringValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *BinaryBuilder) AppendStringValues(v []string, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	for _, vv := range v {
-		b.appendNextOffset()
-		b.values.Append([]byte(vv))
-	}
-
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *BinaryBuilder) UnsafeAppend(v []byte) {
-	b.appendNextOffset()
-	b.values.unsafeAppend(v)
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *BinaryBuilder) Value(i int) []byte {
-	start := b.getOffsetVal(i)
-	var end int
-	if i == (b.length - 1) {
-		end = b.values.Len()
-	} else {
-		end = b.getOffsetVal(i + 1)
-	}
-	return b.values.Bytes()[start:end]
-}
-
-func (b *BinaryBuilder) init(capacity int) {
-	b.builder.init(capacity)
-	b.offsets.resize((capacity + 1) * b.offsetByteWidth)
-}
-
-// DataLen returns the number of bytes in the data array.
-func (b *BinaryBuilder) DataLen() int { return b.values.length }
-
-// DataCap returns the total number of bytes that can be stored
-// without allocating additional memory.
-func (b *BinaryBuilder) DataCap() int { return b.values.capacity }
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *BinaryBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// ReserveData ensures there is enough space for appending n bytes
-// by checking the capacity and resizing the data buffer if necessary.
-func (b *BinaryBuilder) ReserveData(n int) {
-	if b.values.capacity < b.values.length+n {
-		b.values.resize(b.values.Len() + n)
-	}
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may be reduced.
-func (b *BinaryBuilder) Resize(n int) {
-	b.offsets.resize((n + 1) * b.offsetByteWidth)
-	if (n * b.offsetByteWidth) < b.offsets.Len() {
-		b.offsets.SetLength(n * b.offsetByteWidth)
-	}
-	b.builder.resize(n, b.init)
-}
-
-func (b *BinaryBuilder) ResizeData(n int) {
-	b.values.length = n
-}
-
-// NewArray creates a Binary array from the memory buffers used by the builder and resets the BinaryBuilder
-// so it can be used to build a new array.
-//
-// Builds the appropriate Binary or LargeBinary array based on the datatype
-// it was initialized with.
-func (b *BinaryBuilder) NewArray() arrow.Array {
-	if b.offsetByteWidth == arrow.Int32SizeBytes {
-		return b.NewBinaryArray()
-	}
-	return b.NewLargeBinaryArray()
-}
-
-// NewBinaryArray creates a Binary array from the memory buffers used by the builder and resets the BinaryBuilder
-// so it can be used to build a new array.
-func (b *BinaryBuilder) NewBinaryArray() (a *Binary) {
-	if b.offsetByteWidth != arrow.Int32SizeBytes {
-		panic("arrow/array: invalid call to NewBinaryArray when building a LargeBinary array")
-	}
-
-	data := b.newData()
-	a = NewBinaryData(data)
-	data.Release()
-	return
-}
-
-func (b *BinaryBuilder) NewLargeBinaryArray() (a *LargeBinary) {
-	if b.offsetByteWidth != arrow.Int64SizeBytes {
-		panic("arrow/array: invalid call to NewLargeBinaryArray when building a Binary array")
-	}
-
-	data := b.newData()
-	a = NewLargeBinaryData(data)
-	data.Release()
-	return
-}
-
-func (b *BinaryBuilder) newData() (data *Data) {
-	b.appendNextOffset()
-	offsets, values := b.offsets.Finish(), b.values.Finish()
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, offsets, values}, nil, b.nulls, 0)
-	if offsets != nil {
-		offsets.Release()
-	}
-
-	if values != nil {
-		values.Release()
-	}
-
-	b.builder.reset()
-
-	return
-}
-
-func (b *BinaryBuilder) appendNextOffset() {
-	numBytes := b.values.Len()
-	debug.Assert(uint64(numBytes) <= b.maxCapacity, "exceeded maximum capacity of binary array")
-	b.appendOffsetVal(numBytes)
-}
-
-func (b *BinaryBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	if b.dtype.IsUtf8() {
-		b.Append([]byte(s))
-		return nil
-	}
-
-	decodedVal, err := base64.StdEncoding.DecodeString(s)
-	if err != nil {
-		return fmt.Errorf("could not decode base64 string: %w", err)
-	}
-	b.Append(decodedVal)
-	return nil
-}
-
-func (b *BinaryBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case string:
-		data, err := base64.StdEncoding.DecodeString(v)
-		if err != nil {
-			return err
-		}
-		b.Append(data)
-	case []byte:
-		b.Append(v)
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *BinaryBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *BinaryBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-const (
-	dfltBlockSize            = 32 << 10 // 32 KB
-	viewValueSizeLimit int32 = math.MaxInt32
-)
-
-type BinaryViewBuilder struct {
-	builder
-	dtype arrow.BinaryDataType
-
-	data    *memory.Buffer
-	rawData []arrow.ViewHeader
-
-	blockBuilder multiBufferBuilder
-}
-
-func NewBinaryViewBuilder(mem memory.Allocator) *BinaryViewBuilder {
-	return &BinaryViewBuilder{
-		dtype: arrow.BinaryTypes.BinaryView,
-		builder: builder{
-			refCount: 1,
-			mem:      mem,
-		},
-		blockBuilder: multiBufferBuilder{
-			refCount:  1,
-			blockSize: dfltBlockSize,
-			mem:       mem,
-		},
-	}
-}
-
-func (b *BinaryViewBuilder) SetBlockSize(sz uint) {
-	b.blockBuilder.blockSize = int(sz)
-}
-
-func (b *BinaryViewBuilder) Type() arrow.DataType { return b.dtype }
-
-func (b *BinaryViewBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) != 0 {
-		return
-	}
-
-	if b.nullBitmap != nil {
-		b.nullBitmap.Release()
-		b.nullBitmap = nil
-	}
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-}
-
-func (b *BinaryViewBuilder) init(capacity int) {
-	b.builder.init(capacity)
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.ViewHeaderTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.ViewHeaderTraits.CastFromBytes(b.data.Bytes())
-}
-
-func (b *BinaryViewBuilder) Resize(n int) {
-	nbuild := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-		return
-	}
-
-	b.builder.resize(nbuild, b.init)
-	b.data.Resize(arrow.ViewHeaderTraits.BytesRequired(n))
-	b.rawData = arrow.ViewHeaderTraits.CastFromBytes(b.data.Bytes())
-}
-
-func (b *BinaryViewBuilder) ReserveData(length int) {
-	if int32(length) > viewValueSizeLimit {
-		panic(fmt.Errorf("%w: BinaryView or StringView elements cannot reference strings larger than 2GB",
-			arrow.ErrInvalid))
-	}
-	b.blockBuilder.Reserve(int(length))
-}
-
-func (b *BinaryViewBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-func (b *BinaryViewBuilder) Append(v []byte) {
-	if int32(len(v)) > viewValueSizeLimit {
-		panic(fmt.Errorf("%w: BinaryView or StringView elements cannot reference strings larger than 2GB", arrow.ErrInvalid))
-	}
-
-	if !arrow.IsViewInline(len(v)) {
-		b.ReserveData(len(v))
-	}
-
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-// AppendString is identical to Append, only accepting a string instead
-// of a byte slice, avoiding the extra copy that would occur if you simply
-// did []byte(v).
-//
-// This is different than AppendValueFromString which exists for the
-// Builder interface, in that this expects raw binary data which is
-// appended unmodified. AppendValueFromString expects base64 encoded binary
-// data instead.
-func (b *BinaryViewBuilder) AppendString(v string) {
-	// create a []byte without copying the bytes
-	// in go1.20 this would be unsafe.StringData
-	val := *(*[]byte)(unsafe.Pointer(&struct {
-		string
-		int
-	}{v, len(v)}))
-	b.Append(val)
-}
-
-func (b *BinaryViewBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *BinaryViewBuilder) AppendNulls(n int) {
-	b.Reserve(n)
-	for i := 0; i < n; i++ {
-		b.UnsafeAppendBoolToBitmap(false)
-	}
-}
-
-func (b *BinaryViewBuilder) AppendEmptyValue() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *BinaryViewBuilder) AppendEmptyValues(n int) {
-	b.Reserve(n)
-	b.unsafeAppendBoolsToBitmap(nil, n)
-}
-
-func (b *BinaryViewBuilder) UnsafeAppend(v []byte) {
-	hdr := &b.rawData[b.length]
-	hdr.SetBytes(v)
-	if !hdr.IsInline() {
-		b.blockBuilder.UnsafeAppend(hdr, v)
-	}
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *BinaryViewBuilder) AppendValues(v [][]byte, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	outOfLineTotal := 0
-	for i, vv := range v {
-		if len(valid) == 0 || valid[i] {
-			if !arrow.IsViewInline(len(vv)) {
-				outOfLineTotal += len(vv)
-			}
-		}
-	}
-
-	b.ReserveData(outOfLineTotal)
-	for i, vv := range v {
-		if len(valid) == 0 || valid[i] {
-			hdr := &b.rawData[b.length+i]
-			hdr.SetBytes(vv)
-			if !hdr.IsInline() {
-				b.blockBuilder.UnsafeAppend(hdr, vv)
-			}
-		}
-	}
-
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *BinaryViewBuilder) AppendStringValues(v []string, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	outOfLineTotal := 0
-	for i, vv := range v {
-		if len(valid) == 0 || valid[i] {
-			if !arrow.IsViewInline(len(vv)) {
-				outOfLineTotal += len(vv)
-			}
-		}
-	}
-
-	b.ReserveData(outOfLineTotal)
-	for i, vv := range v {
-		if len(valid) == 0 || valid[i] {
-			hdr := &b.rawData[b.length+i]
-			hdr.SetString(vv)
-			if !hdr.IsInline() {
-				b.blockBuilder.UnsafeAppendString(hdr, vv)
-			}
-		}
-	}
-
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-// AppendValueFromString is paired with ValueStr for fulfilling the
-// base Builder interface. This is intended to read in a human-readable
-// string such as from CSV or JSON and append it to the array.
-//
-// For Binary values are expected to be base64 encoded (and will be
-// decoded as such before being appended).
-func (b *BinaryViewBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	if b.dtype.IsUtf8() {
-		b.Append([]byte(s))
-		return nil
-	}
-
-	decodedVal, err := base64.StdEncoding.DecodeString(s)
-	if err != nil {
-		return fmt.Errorf("could not decode base64 string: %w", err)
-	}
-	b.Append(decodedVal)
-	return nil
-}
-
-func (b *BinaryViewBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case string:
-		data, err := base64.StdEncoding.DecodeString(v)
-		if err != nil {
-			return err
-		}
-		b.Append(data)
-	case []byte:
-		b.Append(v)
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *BinaryViewBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *BinaryViewBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary view builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-func (b *BinaryViewBuilder) newData() (data *Data) {
-	bytesRequired := arrow.ViewHeaderTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-
-	dataBuffers := b.blockBuilder.Finish()
-	data = NewData(b.dtype, b.length, append([]*memory.Buffer{
-		b.nullBitmap, b.data}, dataBuffers...), nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-		for _, buf := range dataBuffers {
-			buf.Release()
-		}
-	}
-	return
-}
-
-func (b *BinaryViewBuilder) NewBinaryViewArray() (a *BinaryView) {
-	data := b.newData()
-	a = NewBinaryViewData(data)
-	data.Release()
-	return
-}
-
-func (b *BinaryViewBuilder) NewArray() arrow.Array {
-	return b.NewBinaryViewArray()
-}
-
-var (
-	_ Builder = (*BinaryBuilder)(nil)
-	_ Builder = (*BinaryViewBuilder)(nil)
-)
diff --git a/go/arrow/array/binarybuilder_test.go b/go/arrow/array/binarybuilder_test.go
deleted file mode 100644
index 65d5c7385df4c..0000000000000
--- a/go/arrow/array/binarybuilder_test.go
+++ /dev/null
@@ -1,151 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"bytes"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBinaryBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-
-	exp := [][]byte{[]byte("foo"), []byte("bar"), nil, []byte("sydney"), []byte("cameron")}
-	for _, v := range exp {
-		if v == nil {
-			ab.AppendNull()
-		} else {
-			ab.Append(v)
-		}
-	}
-
-	assert.Equal(t, len(exp), ab.Len(), "unexpected Len()")
-	assert.Equal(t, 1, ab.NullN(), "unexpected NullN()")
-
-	for i, v := range exp {
-		if v == nil {
-			v = []byte{}
-		}
-		assert.Equal(t, v, ab.Value(i), "unexpected BinaryArrayBuilder.Value(%d)", i)
-	}
-	// Zm9v is foo in base64
-	assert.NoError(t, ab.AppendValueFromString("Zm9v"))
-
-	ar := ab.NewBinaryArray()
-	assert.Equal(t, "Zm9v", ar.ValueStr(5))
-
-	ab.Release()
-	ar.Release()
-
-	// check state of builder after NewBinaryArray
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewBinaryArray did not reset state")
-}
-
-func TestBinaryBuilder_ReserveData(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-
-	// call ReserveData and ensure the capacity doesn't change
-	// when appending entries until that count.
-	ab.ReserveData(256)
-	expCap := ab.DataCap()
-	for i := 0; i < 256/8; i++ {
-		ab.Append(bytes.Repeat([]byte("a"), 8))
-	}
-	assert.Equal(t, expCap, ab.DataCap(), "unexpected BinaryArrayBuilder.DataCap()")
-
-	ar := ab.NewBinaryArray()
-	ab.Release()
-	ar.Release()
-
-	// check state of builder after NewBinaryArray
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewBinaryArray did not reset state")
-}
-
-func TestBinaryBuilderLarge(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-
-	exp := [][]byte{[]byte("foo"), []byte("bar"), nil, []byte("sydney"), []byte("cameron")}
-	for _, v := range exp {
-		if v == nil {
-			ab.AppendNull()
-		} else {
-			ab.Append(v)
-		}
-	}
-
-	assert.Equal(t, len(exp), ab.Len(), "unexpected Len()")
-	assert.Equal(t, 1, ab.NullN(), "unexpected NullN()")
-
-	for i, v := range exp {
-		if v == nil {
-			v = []byte{}
-		}
-		assert.Equal(t, v, ab.Value(i), "unexpected BinaryArrayBuilder.Value(%d)", i)
-	}
-
-	ar := ab.NewLargeBinaryArray()
-	ab.Release()
-	ar.Release()
-
-	// check state of builder after NewBinaryArray
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewBinaryArray did not reset state")
-}
-
-func TestBinaryBuilderLarge_ReserveData(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-
-	// call ReserveData and ensure the capacity doesn't change
-	// when appending entries until that count.
-	ab.ReserveData(256)
-	expCap := ab.DataCap()
-	for i := 0; i < 256/8; i++ {
-		ab.Append(bytes.Repeat([]byte("a"), 8))
-	}
-	assert.Equal(t, expCap, ab.DataCap(), "unexpected BinaryArrayBuilder.DataCap()")
-
-	ar := ab.NewLargeBinaryArray()
-	ab.Release()
-	ar.Release()
-
-	// check state of builder after NewBinaryArray
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewBinaryArray did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewBinaryArray did not reset state")
-}
diff --git a/go/arrow/array/boolean.go b/go/arrow/array/boolean.go
deleted file mode 100644
index eab26d273dd96..0000000000000
--- a/go/arrow/array/boolean.go
+++ /dev/null
@@ -1,126 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A type which represents an immutable sequence of boolean values.
-type Boolean struct {
-	array
-	values []byte
-}
-
-// NewBoolean creates a boolean array from the data memory.Buffer and contains length elements.
-// The nullBitmap buffer can be nil of there are no null values.
-// If nulls is not known, use UnknownNullCount to calculate the value of NullN at runtime from the nullBitmap buffer.
-func NewBoolean(length int, data *memory.Buffer, nullBitmap *memory.Buffer, nulls int) *Boolean {
-	arrdata := NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nullBitmap, data}, nil, nulls, 0)
-	defer arrdata.Release()
-	return NewBooleanData(arrdata)
-}
-
-func NewBooleanData(data arrow.ArrayData) *Boolean {
-	a := &Boolean{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *Boolean) Value(i int) bool {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return bitutil.BitIsSet(a.values, a.array.data.offset+i)
-}
-
-func (a *Boolean) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	} else {
-		return strconv.FormatBool(a.Value(i))
-	}
-}
-
-func (a *Boolean) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Boolean) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = vals.Bytes()
-	}
-}
-
-func (a *Boolean) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.Value(i)
-	}
-	return nil
-}
-
-func (a *Boolean) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.Value(i)
-		} else {
-			vals[i] = nil
-		}
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualBoolean(left, right *Boolean) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-var (
-	_ arrow.Array = (*Boolean)(nil)
-)
diff --git a/go/arrow/array/boolean_test.go b/go/arrow/array/boolean_test.go
deleted file mode 100644
index f980497d54521..0000000000000
--- a/go/arrow/array/boolean_test.go
+++ /dev/null
@@ -1,322 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"reflect"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBooleanSliceData(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	values := []bool{true, false, true, true, true, true, true, false, true, false}
-
-	b := array.NewBooleanBuilder(pool)
-	defer b.Release()
-
-	for _, v := range values {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Boolean)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(values); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	vs := make([]bool, arr.Len())
-
-	for i := range vs {
-		vs[i] = arr.Value(i)
-	}
-
-	if got, want := vs, values; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	tests := []struct {
-		interval [2]int64
-		want     []bool
-	}{
-		{
-			interval: [2]int64{0, 0},
-			want:     []bool{},
-		},
-		{
-			interval: [2]int64{10, 10},
-			want:     []bool{},
-		},
-		{
-			interval: [2]int64{0, 5},
-			want:     []bool{true, false, true, true, true},
-		},
-		{
-			interval: [2]int64{5, 10},
-			want:     []bool{true, true, false, true, false},
-		},
-		{
-			interval: [2]int64{2, 7},
-			want:     []bool{true, true, true, true, true},
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-
-			slice := array.NewSlice(arr, tc.interval[0], tc.interval[1]).(*array.Boolean)
-			defer slice.Release()
-
-			if got, want := slice.Len(), len(tc.want); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			vs := make([]bool, slice.Len())
-
-			for i := range vs {
-				vs[i] = slice.Value(i)
-			}
-
-			if got, want := vs, tc.want; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestBooleanSliceDataWithNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	values := []bool{true, false, true, false, false, false, true, false, true, false}
-	valids := []bool{true, false, true, true, true, true, true, false, true, true}
-
-	b := array.NewBooleanBuilder(pool)
-	defer b.Release()
-
-	b.AppendValues(values, valids)
-
-	arr := b.NewArray().(*array.Boolean)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(valids); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 2; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	vs := make([]bool, arr.Len())
-
-	for i := range vs {
-		vs[i] = arr.Value(i)
-	}
-
-	if got, want := vs, values; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	tests := []struct {
-		interval [2]int64
-		nulls    int
-		want     []bool
-	}{
-		{
-			interval: [2]int64{2, 9},
-			nulls:    1,
-			want:     []bool{true, false, false, false, true, false, true},
-		},
-		{
-			interval: [2]int64{0, 7},
-			nulls:    1,
-			want:     []bool{true, false, true, false, false, false, true},
-		},
-		{
-			interval: [2]int64{1, 8},
-			nulls:    2,
-			want:     []bool{false, true, false, false, false, true, false},
-		},
-		{
-			interval: [2]int64{2, 7},
-			nulls:    0,
-			want:     []bool{true, false, false, false, true},
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-
-			slice := array.NewSlice(arr, tc.interval[0], tc.interval[1]).(*array.Boolean)
-			defer slice.Release()
-
-			if got, want := slice.NullN(), tc.nulls; got != want {
-				t.Errorf("got=%d, want=%d", got, want)
-			}
-
-			if got, want := slice.Len(), len(tc.want); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			vs := make([]bool, slice.Len())
-
-			for i := range vs {
-				vs[i] = slice.Value(i)
-			}
-
-			if got, want := vs, tc.want; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestBooleanSliceOutOfBounds(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	values := []bool{true, false, true, false, true, false, true, false, true, false}
-
-	b := array.NewBooleanBuilder(pool)
-	defer b.Release()
-
-	for _, v := range values {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Boolean)
-	defer arr.Release()
-
-	slice := array.NewSlice(arr, 3, 8).(*array.Boolean)
-	defer slice.Release()
-
-	tests := []struct {
-		index int
-		panic bool
-	}{
-		{
-			index: -1,
-			panic: true,
-		},
-		{
-			index: 5,
-			panic: true,
-		},
-		{
-			index: 0,
-			panic: false,
-		},
-		{
-			index: 4,
-			panic: false,
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-
-			var val bool
-
-			if tc.panic {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("this should have panicked, but did not; slice value %v", val)
-					}
-					if got, want := e.(string), "arrow/array: index out of range"; got != want {
-						t.Fatalf("invalid error. got=%q, want=%q", got, want)
-					}
-				}()
-			} else {
-				defer func() {
-					if e := recover(); e != nil {
-						t.Fatalf("unexpected panic: %v", e)
-					}
-				}()
-			}
-
-			val = slice.Value(tc.index)
-		})
-	}
-}
-
-func TestBooleanStringer(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		values = []bool{true, false, true, false, true, false, true, false, true, false}
-		valids = []bool{true, true, false, true, true, true, false, true, true, true}
-	)
-
-	b := array.NewBooleanBuilder(pool)
-	defer b.Release()
-
-	b.AppendValues(values, valids)
-
-	arr := b.NewArray().(*array.Boolean)
-	defer arr.Release()
-
-	out := new(strings.Builder)
-	fmt.Fprintf(out, "%v", arr)
-
-	const want = "[true false (null) false true false (null) false true false]"
-	if got := out.String(); got != want {
-		t.Fatalf("invalid stringer:\ngot= %q\nwant=%q", got, want)
-	}
-	assert.Equal(t, "true", arr.ValueStr(0))
-	assert.Equal(t, "false", arr.ValueStr(1))
-	assert.Equal(t, array.NullValueStr, arr.ValueStr(2))
-}
-
-func TestBooleanStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []bool{true, false, true, true, true, true, true, false, true, false}
-	valid := []bool{true, false, false, true, false, true, true, false, true, false}
-
-	b := array.NewBooleanBuilder(mem)
-	defer b.Release()
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.Boolean)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewBooleanBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Boolean)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
diff --git a/go/arrow/array/booleanbuilder.go b/go/arrow/array/booleanbuilder.go
deleted file mode 100644
index 44d33018f94ea..0000000000000
--- a/go/arrow/array/booleanbuilder.go
+++ /dev/null
@@ -1,263 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strconv"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type BooleanBuilder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []byte
-}
-
-func NewBooleanBuilder(mem memory.Allocator) *BooleanBuilder {
-	return &BooleanBuilder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *BooleanBuilder) Type() arrow.DataType { return arrow.FixedWidthTypes.Boolean }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (b *BooleanBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *BooleanBuilder) Append(v bool) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *BooleanBuilder) AppendByte(v byte) {
-	b.Reserve(1)
-	b.UnsafeAppend(v != 0)
-}
-
-func (b *BooleanBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *BooleanBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *BooleanBuilder) AppendEmptyValue() {
-	b.Reserve(1)
-	b.UnsafeAppend(false)
-}
-
-func (b *BooleanBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *BooleanBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	val, err := strconv.ParseBool(s)
-	if err != nil {
-		return err
-	}
-	b.Append(val)
-	return nil
-}
-
-func (b *BooleanBuilder) UnsafeAppend(v bool) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	if v {
-		bitutil.SetBit(b.rawData, b.length)
-	} else {
-		bitutil.ClearBit(b.rawData, b.length)
-	}
-	b.length++
-}
-
-func (b *BooleanBuilder) AppendValues(v []bool, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	for i, vv := range v {
-		bitutil.SetBitTo(b.rawData, b.length+i, vv)
-	}
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *BooleanBuilder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.BooleanTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = b.data.Bytes()
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *BooleanBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *BooleanBuilder) Resize(n int) {
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(n, b.init)
-		b.data.Resize(arrow.BooleanTraits.BytesRequired(n))
-		b.rawData = b.data.Bytes()
-	}
-}
-
-// NewArray creates a Boolean array from the memory buffers used by the builder and resets the BooleanBuilder
-// so it can be used to build a new array.
-func (b *BooleanBuilder) NewArray() arrow.Array {
-	return b.NewBooleanArray()
-}
-
-// NewBooleanArray creates a Boolean array from the memory buffers used by the builder and resets the BooleanBuilder
-// so it can be used to build a new array.
-func (b *BooleanBuilder) NewBooleanArray() (a *Boolean) {
-	data := b.newData()
-	a = NewBooleanData(data)
-	data.Release()
-	return
-}
-
-func (b *BooleanBuilder) newData() *Data {
-	bytesRequired := arrow.BooleanTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	res := NewData(arrow.FixedWidthTypes.Boolean, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return res
-}
-
-func (b *BooleanBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case bool:
-		b.Append(v)
-	case string:
-		val, err := strconv.ParseBool(v)
-		if err != nil {
-			return err
-		}
-		b.Append(val)
-	case json.Number:
-		val, err := strconv.ParseBool(v.String())
-		if err != nil {
-			return err
-		}
-		b.Append(val)
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(true),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *BooleanBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *BooleanBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	dec.UseNumber()
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("boolean builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-func (b *BooleanBuilder) Value(i int) bool {
-	return bitutil.BitIsSet(b.rawData, i)
-}
-
-var (
-	_ Builder = (*BooleanBuilder)(nil)
-)
diff --git a/go/arrow/array/booleanbuilder_test.go b/go/arrow/array/booleanbuilder_test.go
deleted file mode 100644
index 42e49f95a2f3e..0000000000000
--- a/go/arrow/array/booleanbuilder_test.go
+++ /dev/null
@@ -1,103 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/tools"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBooleanBuilder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewBooleanBuilder(mem)
-
-	exp := tools.Bools(1, 1, 0, 1, 1, 0)
-
-	b.AppendValues(exp, nil)
-	assert.NoError(t, b.AppendValueFromString("true"))
-	assert.NoError(t, b.AppendValueFromString("false"))
-	exp = tools.Bools(1, 1, 0, 1, 1, 0, 1, 0)
-
-	got := make([]bool, len(exp))
-	// make sure we can read the values directly from the builder.
-	for i := 0; i < b.Len(); i++ {
-		got[i] = b.Value(i)
-	}
-	assert.Equal(t, exp, got)
-
-	got = make([]bool, len(exp)) // reset
-
-	a := b.NewBooleanArray()
-	b.Release()
-	for i := 0; i < a.Len(); i++ {
-		got[i] = a.Value(i)
-	}
-	assert.Equal(t, exp, got)
-
-	a.Release()
-}
-
-func TestBooleanBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewBooleanBuilder(mem)
-	defer ab.Release()
-
-	want := tools.Bools(1, 1, 0, 1, 1, 0, 1, 0)
-
-	boolValues := func(a *array.Boolean) []bool {
-		vs := make([]bool, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	ab.AppendValues([]bool{}, nil)
-	a := ab.NewBooleanArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewBooleanArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	a = ab.NewBooleanArray()
-	assert.Equal(t, want, boolValues(a))
-	a.Release()
-
-	ab.AppendValues([]bool{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewBooleanArray()
-	assert.Equal(t, want, boolValues(a))
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]bool{}, nil)
-	a = ab.NewBooleanArray()
-	assert.Equal(t, want, boolValues(a))
-	a.Release()
-}
diff --git a/go/arrow/array/bufferbuilder.go b/go/arrow/array/bufferbuilder.go
deleted file mode 100644
index 037d220f0b141..0000000000000
--- a/go/arrow/array/bufferbuilder.go
+++ /dev/null
@@ -1,261 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type bufBuilder interface {
-	Retain()
-	Release()
-	Len() int
-	Cap() int
-	Bytes() []byte
-	resize(int)
-	Advance(int)
-	SetLength(int)
-	Append([]byte)
-	Reset()
-	Finish() *memory.Buffer
-}
-
-// A bufferBuilder provides common functionality for populating memory with a sequence of type-specific values.
-// Specialized implementations provide type-safe APIs for appending and accessing the memory.
-type bufferBuilder struct {
-	refCount int64
-	mem      memory.Allocator
-	buffer   *memory.Buffer
-	length   int
-	capacity int
-
-	bytes []byte
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (b *bufferBuilder) Retain() {
-	atomic.AddInt64(&b.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (b *bufferBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.buffer != nil {
-			b.buffer.Release()
-			b.buffer, b.bytes = nil, nil
-		}
-	}
-}
-
-// Len returns the length of the memory buffer in bytes.
-func (b *bufferBuilder) Len() int { return b.length }
-
-// Cap returns the total number of bytes that can be stored without allocating additional memory.
-func (b *bufferBuilder) Cap() int { return b.capacity }
-
-// Bytes returns a slice of length b.Len().
-// The slice is only valid for use until the next buffer modification. That is, until the next call
-// to Advance, Reset, Finish or any Append function. The slice aliases the buffer content at least until the next
-// buffer modification.
-func (b *bufferBuilder) Bytes() []byte { return b.bytes[:b.length] }
-
-func (b *bufferBuilder) resize(elements int) {
-	if b.buffer == nil {
-		b.buffer = memory.NewResizableBuffer(b.mem)
-	}
-
-	b.buffer.ResizeNoShrink(elements)
-	oldCapacity := b.capacity
-	b.capacity = b.buffer.Cap()
-	b.bytes = b.buffer.Buf()
-
-	if b.capacity > oldCapacity {
-		memory.Set(b.bytes[oldCapacity:], 0)
-	}
-}
-
-func (b *bufferBuilder) SetLength(length int) {
-	if length > b.length {
-		b.Advance(length)
-		return
-	}
-
-	b.length = length
-}
-
-// Advance increases the buffer by length and initializes the skipped bytes to zero.
-func (b *bufferBuilder) Advance(length int) {
-	if b.capacity < b.length+length {
-		newCapacity := bitutil.NextPowerOf2(b.length + length)
-		b.resize(newCapacity)
-	}
-	b.length += length
-}
-
-// Append appends the contents of v to the buffer, resizing it if necessary.
-func (b *bufferBuilder) Append(v []byte) {
-	if b.capacity < b.length+len(v) {
-		newCapacity := bitutil.NextPowerOf2(b.length + len(v))
-		b.resize(newCapacity)
-	}
-	b.unsafeAppend(v)
-}
-
-// Reset returns the buffer to an empty state. Reset releases the memory and sets the length and capacity to zero.
-func (b *bufferBuilder) Reset() {
-	if b.buffer != nil {
-		b.buffer.Release()
-	}
-	b.buffer, b.bytes = nil, nil
-	b.capacity, b.length = 0, 0
-}
-
-// Finish TODO(sgc)
-func (b *bufferBuilder) Finish() (buffer *memory.Buffer) {
-	if b.length > 0 {
-		b.buffer.ResizeNoShrink(b.length)
-	}
-	buffer = b.buffer
-	b.buffer = nil
-	b.Reset()
-	if buffer == nil {
-		buffer = memory.NewBufferBytes(nil)
-	}
-	return
-}
-
-func (b *bufferBuilder) unsafeAppend(data []byte) {
-	copy(b.bytes[b.length:], data)
-	b.length += len(data)
-}
-
-type multiBufferBuilder struct {
-	refCount  int64
-	blockSize int
-
-	mem              memory.Allocator
-	blocks           []*memory.Buffer
-	currentOutBuffer int
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (b *multiBufferBuilder) Retain() {
-	atomic.AddInt64(&b.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (b *multiBufferBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		b.Reset()
-	}
-}
-
-func (b *multiBufferBuilder) Reserve(nbytes int) {
-	if len(b.blocks) == 0 {
-		out := memory.NewResizableBuffer(b.mem)
-		if nbytes < b.blockSize {
-			nbytes = b.blockSize
-		}
-		out.Reserve(nbytes)
-		b.currentOutBuffer = 0
-		b.blocks = []*memory.Buffer{out}
-		return
-	}
-
-	curBuf := b.blocks[b.currentOutBuffer]
-	remain := curBuf.Cap() - curBuf.Len()
-	if nbytes <= remain {
-		return
-	}
-
-	// search for underfull block that has enough bytes
-	for i, block := range b.blocks {
-		remaining := block.Cap() - block.Len()
-		if nbytes <= remaining {
-			b.currentOutBuffer = i
-			return
-		}
-	}
-
-	// current buffer doesn't have enough space, no underfull buffers
-	// make new buffer and set that as our current.
-	newBuf := memory.NewResizableBuffer(b.mem)
-	if nbytes < b.blockSize {
-		nbytes = b.blockSize
-	}
-
-	newBuf.Reserve(nbytes)
-	b.currentOutBuffer = len(b.blocks)
-	b.blocks = append(b.blocks, newBuf)
-}
-
-func (b *multiBufferBuilder) RemainingBytes() int {
-	if len(b.blocks) == 0 {
-		return 0
-	}
-
-	buf := b.blocks[b.currentOutBuffer]
-	return buf.Cap() - buf.Len()
-}
-
-func (b *multiBufferBuilder) Reset() {
-	b.currentOutBuffer = 0
-	for _, block := range b.Finish() {
-		block.Release()
-	}
-}
-
-func (b *multiBufferBuilder) UnsafeAppend(hdr *arrow.ViewHeader, val []byte) {
-	buf := b.blocks[b.currentOutBuffer]
-	idx, offset := b.currentOutBuffer, buf.Len()
-	hdr.SetIndexOffset(int32(idx), int32(offset))
-
-	n := copy(buf.Buf()[offset:], val)
-	buf.ResizeNoShrink(offset + n)
-}
-
-func (b *multiBufferBuilder) UnsafeAppendString(hdr *arrow.ViewHeader, val string) {
-	// create a byte slice with zero-copies
-	// in go1.20 this would be equivalent to unsafe.StringData
-	v := *(*[]byte)(unsafe.Pointer(&struct {
-		string
-		int
-	}{val, len(val)}))
-	b.UnsafeAppend(hdr, v)
-}
-
-func (b *multiBufferBuilder) Finish() (out []*memory.Buffer) {
-	b.currentOutBuffer = 0
-	out, b.blocks = b.blocks, nil
-	return
-}
diff --git a/go/arrow/array/bufferbuilder_byte.go b/go/arrow/array/bufferbuilder_byte.go
deleted file mode 100644
index 2ac7ec703b579..0000000000000
--- a/go/arrow/array/bufferbuilder_byte.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import "github.com/apache/arrow/go/v18/arrow/memory"
-
-type byteBufferBuilder struct {
-	bufferBuilder
-}
-
-func newByteBufferBuilder(mem memory.Allocator) *byteBufferBuilder {
-	return &byteBufferBuilder{bufferBuilder: bufferBuilder{refCount: 1, mem: mem}}
-}
-
-func (b *byteBufferBuilder) Values() []byte   { return b.Bytes() }
-func (b *byteBufferBuilder) Value(i int) byte { return b.bytes[i] }
diff --git a/go/arrow/array/bufferbuilder_numeric.gen.go b/go/arrow/array/bufferbuilder_numeric.gen.go
deleted file mode 100644
index 5215ecf65a312..0000000000000
--- a/go/arrow/array/bufferbuilder_numeric.gen.go
+++ /dev/null
@@ -1,124 +0,0 @@
-// Code generated by array/bufferbuilder_numeric.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type int64BufferBuilder struct {
-	bufferBuilder
-}
-
-func newInt64BufferBuilder(mem memory.Allocator) *int64BufferBuilder {
-	return &int64BufferBuilder{bufferBuilder: bufferBuilder{refCount: 1, mem: mem}}
-}
-
-// AppendValues appends the contents of v to the buffer, growing the buffer as needed.
-func (b *int64BufferBuilder) AppendValues(v []int64) { b.Append(arrow.Int64Traits.CastToBytes(v)) }
-
-// Values returns a slice of length b.Len().
-// The slice is only valid for use until the next buffer modification. That is, until the next call
-// to Advance, Reset, Finish or any Append function. The slice aliases the buffer content at least until the next
-// buffer modification.
-func (b *int64BufferBuilder) Values() []int64 { return arrow.Int64Traits.CastFromBytes(b.Bytes()) }
-
-// Value returns the int64 element at the index i. Value will panic if i is negative or ≥ Len.
-func (b *int64BufferBuilder) Value(i int) int64 { return b.Values()[i] }
-
-// Len returns the number of int64 elements in the buffer.
-func (b *int64BufferBuilder) Len() int { return b.length / arrow.Int64SizeBytes }
-
-// AppendValue appends v to the buffer, growing the buffer as needed.
-func (b *int64BufferBuilder) AppendValue(v int64) {
-	if b.capacity < b.length+arrow.Int64SizeBytes {
-		newCapacity := bitutil.NextPowerOf2(b.length + arrow.Int64SizeBytes)
-		b.resize(newCapacity)
-	}
-	arrow.Int64Traits.PutValue(b.bytes[b.length:], v)
-	b.length += arrow.Int64SizeBytes
-}
-
-type int32BufferBuilder struct {
-	bufferBuilder
-}
-
-func newInt32BufferBuilder(mem memory.Allocator) *int32BufferBuilder {
-	return &int32BufferBuilder{bufferBuilder: bufferBuilder{refCount: 1, mem: mem}}
-}
-
-// AppendValues appends the contents of v to the buffer, growing the buffer as needed.
-func (b *int32BufferBuilder) AppendValues(v []int32) { b.Append(arrow.Int32Traits.CastToBytes(v)) }
-
-// Values returns a slice of length b.Len().
-// The slice is only valid for use until the next buffer modification. That is, until the next call
-// to Advance, Reset, Finish or any Append function. The slice aliases the buffer content at least until the next
-// buffer modification.
-func (b *int32BufferBuilder) Values() []int32 { return arrow.Int32Traits.CastFromBytes(b.Bytes()) }
-
-// Value returns the int32 element at the index i. Value will panic if i is negative or ≥ Len.
-func (b *int32BufferBuilder) Value(i int) int32 { return b.Values()[i] }
-
-// Len returns the number of int32 elements in the buffer.
-func (b *int32BufferBuilder) Len() int { return b.length / arrow.Int32SizeBytes }
-
-// AppendValue appends v to the buffer, growing the buffer as needed.
-func (b *int32BufferBuilder) AppendValue(v int32) {
-	if b.capacity < b.length+arrow.Int32SizeBytes {
-		newCapacity := bitutil.NextPowerOf2(b.length + arrow.Int32SizeBytes)
-		b.resize(newCapacity)
-	}
-	arrow.Int32Traits.PutValue(b.bytes[b.length:], v)
-	b.length += arrow.Int32SizeBytes
-}
-
-type int8BufferBuilder struct {
-	bufferBuilder
-}
-
-func newInt8BufferBuilder(mem memory.Allocator) *int8BufferBuilder {
-	return &int8BufferBuilder{bufferBuilder: bufferBuilder{refCount: 1, mem: mem}}
-}
-
-// AppendValues appends the contents of v to the buffer, growing the buffer as needed.
-func (b *int8BufferBuilder) AppendValues(v []int8) { b.Append(arrow.Int8Traits.CastToBytes(v)) }
-
-// Values returns a slice of length b.Len().
-// The slice is only valid for use until the next buffer modification. That is, until the next call
-// to Advance, Reset, Finish or any Append function. The slice aliases the buffer content at least until the next
-// buffer modification.
-func (b *int8BufferBuilder) Values() []int8 { return arrow.Int8Traits.CastFromBytes(b.Bytes()) }
-
-// Value returns the int8 element at the index i. Value will panic if i is negative or ≥ Len.
-func (b *int8BufferBuilder) Value(i int) int8 { return b.Values()[i] }
-
-// Len returns the number of int8 elements in the buffer.
-func (b *int8BufferBuilder) Len() int { return b.length / arrow.Int8SizeBytes }
-
-// AppendValue appends v to the buffer, growing the buffer as needed.
-func (b *int8BufferBuilder) AppendValue(v int8) {
-	if b.capacity < b.length+arrow.Int8SizeBytes {
-		newCapacity := bitutil.NextPowerOf2(b.length + arrow.Int8SizeBytes)
-		b.resize(newCapacity)
-	}
-	arrow.Int8Traits.PutValue(b.bytes[b.length:], v)
-	b.length += arrow.Int8SizeBytes
-}
diff --git a/go/arrow/array/bufferbuilder_numeric.gen.go.tmpl b/go/arrow/array/bufferbuilder_numeric.gen.go.tmpl
deleted file mode 100644
index 2b7fcaefcdeb2..0000000000000
--- a/go/arrow/array/bufferbuilder_numeric.gen.go.tmpl
+++ /dev/null
@@ -1,61 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-{{range .In}}
-{{$TypeNamePrefix := .name}}
-{{if .Opt.BufferBuilder}}
-type {{$TypeNamePrefix}}BufferBuilder struct {
-	bufferBuilder
-}
-
-func new{{.Name}}BufferBuilder(mem memory.Allocator) *{{$TypeNamePrefix}}BufferBuilder {
-	return &{{$TypeNamePrefix}}BufferBuilder{bufferBuilder:bufferBuilder{refCount: 1, mem:mem}}
-}
-
-// AppendValues appends the contents of v to the buffer, growing the buffer as needed.
-func (b *{{$TypeNamePrefix}}BufferBuilder) AppendValues(v []{{.Type}}) { b.Append(arrow.{{.Name}}Traits.CastToBytes(v)) }
-
-// Values returns a slice of length b.Len().
-// The slice is only valid for use until the next buffer modification. That is, until the next call
-// to Advance, Reset, Finish or any Append function. The slice aliases the buffer content at least until the next
-// buffer modification.
-func (b *{{$TypeNamePrefix}}BufferBuilder) Values() []{{.Type}}           { return arrow.{{.Name}}Traits.CastFromBytes(b.Bytes()) }
-
-// Value returns the {{.Type}} element at the index i. Value will panic if i is negative or ≥ Len.
-func (b *{{$TypeNamePrefix}}BufferBuilder) Value(i int) {{.Type}}         { return b.Values()[i] }
-
-// Len returns the number of {{.Type}} elements in the buffer.
-func (b *{{$TypeNamePrefix}}BufferBuilder) Len() int                      { return b.length/arrow.{{.Name}}SizeBytes }
-
-// AppendValue appends v to the buffer, growing the buffer as needed.
-func (b *{{$TypeNamePrefix}}BufferBuilder) AppendValue(v {{.Type}}) {
-	if b.capacity < b.length+arrow.{{.Name}}SizeBytes {
-		newCapacity := bitutil.NextPowerOf2(b.length + arrow.{{.Name}}SizeBytes)
-		b.resize(newCapacity)
-	}
-	arrow.{{.Name}}Traits.PutValue(b.bytes[b.length:], v)
-	b.length+=arrow.{{.Name}}SizeBytes
-}
-{{end}}
-{{end}}
diff --git a/go/arrow/array/bufferbuilder_numeric_test.go b/go/arrow/array/bufferbuilder_numeric_test.go
deleted file mode 100644
index 3c947c87eeaac..0000000000000
--- a/go/arrow/array/bufferbuilder_numeric_test.go
+++ /dev/null
@@ -1,106 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestInt32BufferBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bb := newInt32BufferBuilder(mem)
-	exp := []int32{0x01020304, 0x05060708, 0x090a0b0c, 0x0d0e0f01, 0x02030405, 0x06070809}
-	bb.AppendValues(exp[:3])
-	bb.AppendValues(exp[3:])
-
-	var expBuf []byte
-	if endian.IsBigEndian {
-		expBuf = []byte{
-			0x01, 0x02, 0x03, 0x04,
-			0x05, 0x06, 0x07, 0x08,
-			0x09, 0x0a, 0x0b, 0x0c,
-			0x0d, 0x0e, 0x0f, 0x01,
-			0x02, 0x03, 0x04, 0x05,
-			0x06, 0x07, 0x08, 0x09,
-		}
-	} else {
-		expBuf = []byte{
-			0x04, 0x03, 0x02, 0x01,
-			0x08, 0x07, 0x06, 0x05,
-			0x0c, 0x0b, 0x0a, 0x09,
-			0x01, 0x0f, 0x0e, 0x0d,
-			0x05, 0x04, 0x03, 0x02,
-			0x09, 0x08, 0x07, 0x06,
-		}
-	}
-	assert.Equal(t, expBuf, bb.Bytes(), "unexpected byte values")
-	assert.Equal(t, exp, bb.Values(), "unexpected int32 values")
-	assert.Equal(t, len(exp), bb.Len(), "unexpected Len()")
-
-	buflen := bb.Len()
-	bfr := bb.Finish()
-	assert.Equal(t, buflen*int(unsafe.Sizeof(int32(0))), bfr.Len(), "Buffer was not resized")
-	assert.Len(t, bfr.Bytes(), bfr.Len(), "Buffer.Bytes() != Buffer.Len()")
-	bfr.Release()
-
-	assert.Len(t, bb.Bytes(), 0, "BufferBuilder was not reset after Finish")
-	assert.Zero(t, bb.Len(), "BufferBuilder was not reset after Finish")
-	bb.Release()
-}
-
-func TestInt32BufferBuilder_AppendValue(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bb := newInt32BufferBuilder(mem)
-	exp := []int32{0x01020304, 0x05060708, 0x090a0b0c, 0x0d0e0f01, 0x02030405, 0x06070809}
-	for _, v := range exp {
-		bb.AppendValue(v)
-	}
-
-	var expBuf []byte
-	if endian.IsBigEndian {
-		expBuf = []byte{
-			0x01, 0x02, 0x03, 0x04,
-			0x05, 0x06, 0x07, 0x08,
-			0x09, 0x0a, 0x0b, 0x0c,
-			0x0d, 0x0e, 0x0f, 0x01,
-			0x02, 0x03, 0x04, 0x05,
-			0x06, 0x07, 0x08, 0x09,
-		}
-	} else {
-		expBuf = []byte{
-			0x04, 0x03, 0x02, 0x01,
-			0x08, 0x07, 0x06, 0x05,
-			0x0c, 0x0b, 0x0a, 0x09,
-			0x01, 0x0f, 0x0e, 0x0d,
-			0x05, 0x04, 0x03, 0x02,
-			0x09, 0x08, 0x07, 0x06,
-		}
-	}
-	assert.Equal(t, expBuf, bb.Bytes(), "unexpected byte values")
-	assert.Equal(t, exp, bb.Values(), "unexpected int32 values")
-	assert.Equal(t, len(exp), bb.Len(), "unexpected Len()")
-	bb.Release()
-}
diff --git a/go/arrow/array/builder.go b/go/arrow/array/builder.go
deleted file mode 100644
index 1f4d0ea963509..0000000000000
--- a/go/arrow/array/builder.go
+++ /dev/null
@@ -1,374 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-const (
-	minBuilderCapacity = 1 << 5
-)
-
-// Builder provides an interface to build arrow arrays.
-type Builder interface {
-	// you can unmarshal a json array to add the values to a builder
-	json.Unmarshaler
-
-	// Type returns the datatype that this is building
-	Type() arrow.DataType
-
-	// Retain increases the reference count by 1.
-	// Retain may be called simultaneously from multiple goroutines.
-	Retain()
-
-	// Release decreases the reference count by 1.
-	Release()
-
-	// Len returns the number of elements in the array builder.
-	Len() int
-
-	// Cap returns the total number of elements that can be stored
-	// without allocating additional memory.
-	Cap() int
-
-	// NullN returns the number of null values in the array builder.
-	NullN() int
-
-	// AppendNull adds a new null value to the array being built.
-	AppendNull()
-
-	// AppendNulls adds new n null values to the array being built.
-	AppendNulls(n int)
-
-	// AppendEmptyValue adds a new zero value of the appropriate type
-	AppendEmptyValue()
-
-	// AppendEmptyValues adds new n zero values of the appropriate type
-	AppendEmptyValues(n int)
-
-	// AppendValueFromString adds a new value from a string. Inverse of array.ValueStr(i int) string
-	AppendValueFromString(string) error
-
-	// Reserve ensures there is enough space for appending n elements
-	// by checking the capacity and calling Resize if necessary.
-	Reserve(n int)
-
-	// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-	// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-	Resize(n int)
-
-	// NewArray creates a new array from the memory buffers used
-	// by the builder and resets the Builder so it can be used to build
-	// a new array.
-	NewArray() arrow.Array
-
-	// IsNull returns if a previously appended value at a given index is null or not.
-	IsNull(i int) bool
-
-	// SetNull sets the value at index i to null.
-	SetNull(i int)
-
-	UnsafeAppendBoolToBitmap(bool)
-
-	init(capacity int)
-	resize(newBits int, init func(int))
-
-	UnmarshalOne(*json.Decoder) error
-	Unmarshal(*json.Decoder) error
-
-	newData() *Data
-}
-
-// builder provides common functionality for managing the validity bitmap (nulls) when building arrays.
-type builder struct {
-	refCount   int64
-	mem        memory.Allocator
-	nullBitmap *memory.Buffer
-	nulls      int
-	length     int
-	capacity   int
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (b *builder) Retain() {
-	atomic.AddInt64(&b.refCount, 1)
-}
-
-// Len returns the number of elements in the array builder.
-func (b *builder) Len() int { return b.length }
-
-// Cap returns the total number of elements that can be stored without allocating additional memory.
-func (b *builder) Cap() int { return b.capacity }
-
-// NullN returns the number of null values in the array builder.
-func (b *builder) NullN() int { return b.nulls }
-
-func (b *builder) IsNull(i int) bool {
-	return b.nullBitmap.Len() != 0 && bitutil.BitIsNotSet(b.nullBitmap.Bytes(), i)
-}
-
-func (b *builder) SetNull(i int) {
-	if i < 0 || i >= b.length {
-		panic("arrow/array: index out of range")
-	}
-	bitutil.ClearBit(b.nullBitmap.Bytes(), i)
-}
-
-func (b *builder) init(capacity int) {
-	toAlloc := bitutil.CeilByte(capacity) / 8
-	b.nullBitmap = memory.NewResizableBuffer(b.mem)
-	b.nullBitmap.Resize(toAlloc)
-	b.capacity = capacity
-	memory.Set(b.nullBitmap.Buf(), 0)
-}
-
-func (b *builder) reset() {
-	if b.nullBitmap != nil {
-		b.nullBitmap.Release()
-		b.nullBitmap = nil
-	}
-
-	b.nulls = 0
-	b.length = 0
-	b.capacity = 0
-}
-
-func (b *builder) resize(newBits int, init func(int)) {
-	if b.nullBitmap == nil {
-		init(newBits)
-		return
-	}
-
-	newBytesN := bitutil.CeilByte(newBits) / 8
-	oldBytesN := b.nullBitmap.Len()
-	b.nullBitmap.Resize(newBytesN)
-	b.capacity = newBits
-	if oldBytesN < newBytesN {
-		// TODO(sgc): necessary?
-		memory.Set(b.nullBitmap.Buf()[oldBytesN:], 0)
-	}
-	if newBits < b.length {
-		b.length = newBits
-		b.nulls = newBits - bitutil.CountSetBits(b.nullBitmap.Buf(), 0, newBits)
-	}
-}
-
-func (b *builder) reserve(elements int, resize func(int)) {
-	if b.nullBitmap == nil {
-		b.nullBitmap = memory.NewResizableBuffer(b.mem)
-	}
-	if b.length+elements > b.capacity {
-		newCap := bitutil.NextPowerOf2(b.length + elements)
-		resize(newCap)
-	}
-}
-
-// unsafeAppendBoolsToBitmap appends the contents of valid to the validity bitmap.
-// As an optimization, if the valid slice is empty, the next length bits will be set to valid (not null).
-func (b *builder) unsafeAppendBoolsToBitmap(valid []bool, length int) {
-	if len(valid) == 0 {
-		b.unsafeSetValid(length)
-		return
-	}
-
-	byteOffset := b.length / 8
-	bitOffset := byte(b.length % 8)
-	nullBitmap := b.nullBitmap.Bytes()
-	bitSet := nullBitmap[byteOffset]
-
-	for _, v := range valid {
-		if bitOffset == 8 {
-			bitOffset = 0
-			nullBitmap[byteOffset] = bitSet
-			byteOffset++
-			bitSet = nullBitmap[byteOffset]
-		}
-
-		if v {
-			bitSet |= bitutil.BitMask[bitOffset]
-		} else {
-			bitSet &= bitutil.FlippedBitMask[bitOffset]
-			b.nulls++
-		}
-		bitOffset++
-	}
-
-	if bitOffset != 0 {
-		nullBitmap[byteOffset] = bitSet
-	}
-	b.length += len(valid)
-}
-
-// unsafeSetValid sets the next length bits to valid in the validity bitmap.
-func (b *builder) unsafeSetValid(length int) {
-	padToByte := min(8-(b.length%8), length)
-	if padToByte == 8 {
-		padToByte = 0
-	}
-	bits := b.nullBitmap.Bytes()
-	for i := b.length; i < b.length+padToByte; i++ {
-		bitutil.SetBit(bits, i)
-	}
-
-	start := (b.length + padToByte) / 8
-	fastLength := (length - padToByte) / 8
-	memory.Set(bits[start:start+fastLength], 0xff)
-
-	newLength := b.length + length
-	// trailing bytes
-	for i := b.length + padToByte + (fastLength * 8); i < newLength; i++ {
-		bitutil.SetBit(bits, i)
-	}
-
-	b.length = newLength
-}
-
-func (b *builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-func NewBuilder(mem memory.Allocator, dtype arrow.DataType) Builder {
-	// FIXME(sbinet): use a type switch on dtype instead?
-	switch dtype.ID() {
-	case arrow.NULL:
-		return NewNullBuilder(mem)
-	case arrow.BOOL:
-		return NewBooleanBuilder(mem)
-	case arrow.UINT8:
-		return NewUint8Builder(mem)
-	case arrow.INT8:
-		return NewInt8Builder(mem)
-	case arrow.UINT16:
-		return NewUint16Builder(mem)
-	case arrow.INT16:
-		return NewInt16Builder(mem)
-	case arrow.UINT32:
-		return NewUint32Builder(mem)
-	case arrow.INT32:
-		return NewInt32Builder(mem)
-	case arrow.UINT64:
-		return NewUint64Builder(mem)
-	case arrow.INT64:
-		return NewInt64Builder(mem)
-	case arrow.FLOAT16:
-		return NewFloat16Builder(mem)
-	case arrow.FLOAT32:
-		return NewFloat32Builder(mem)
-	case arrow.FLOAT64:
-		return NewFloat64Builder(mem)
-	case arrow.STRING:
-		return NewStringBuilder(mem)
-	case arrow.LARGE_STRING:
-		return NewLargeStringBuilder(mem)
-	case arrow.BINARY:
-		return NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	case arrow.LARGE_BINARY:
-		return NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	case arrow.FIXED_SIZE_BINARY:
-		typ := dtype.(*arrow.FixedSizeBinaryType)
-		return NewFixedSizeBinaryBuilder(mem, typ)
-	case arrow.DATE32:
-		return NewDate32Builder(mem)
-	case arrow.DATE64:
-		return NewDate64Builder(mem)
-	case arrow.TIMESTAMP:
-		typ := dtype.(*arrow.TimestampType)
-		return NewTimestampBuilder(mem, typ)
-	case arrow.TIME32:
-		typ := dtype.(*arrow.Time32Type)
-		return NewTime32Builder(mem, typ)
-	case arrow.TIME64:
-		typ := dtype.(*arrow.Time64Type)
-		return NewTime64Builder(mem, typ)
-	case arrow.INTERVAL_MONTHS:
-		return NewMonthIntervalBuilder(mem)
-	case arrow.INTERVAL_DAY_TIME:
-		return NewDayTimeIntervalBuilder(mem)
-	case arrow.INTERVAL_MONTH_DAY_NANO:
-		return NewMonthDayNanoIntervalBuilder(mem)
-	case arrow.DECIMAL128:
-		if typ, ok := dtype.(*arrow.Decimal128Type); ok {
-			return NewDecimal128Builder(mem, typ)
-		}
-	case arrow.DECIMAL256:
-		if typ, ok := dtype.(*arrow.Decimal256Type); ok {
-			return NewDecimal256Builder(mem, typ)
-		}
-	case arrow.LIST:
-		typ := dtype.(*arrow.ListType)
-		return NewListBuilderWithField(mem, typ.ElemField())
-	case arrow.STRUCT:
-		typ := dtype.(*arrow.StructType)
-		return NewStructBuilder(mem, typ)
-	case arrow.SPARSE_UNION:
-		typ := dtype.(*arrow.SparseUnionType)
-		return NewSparseUnionBuilder(mem, typ)
-	case arrow.DENSE_UNION:
-		typ := dtype.(*arrow.DenseUnionType)
-		return NewDenseUnionBuilder(mem, typ)
-	case arrow.DICTIONARY:
-		typ := dtype.(*arrow.DictionaryType)
-		return NewDictionaryBuilder(mem, typ)
-	case arrow.LARGE_LIST:
-		typ := dtype.(*arrow.LargeListType)
-		return NewLargeListBuilderWithField(mem, typ.ElemField())
-	case arrow.MAP:
-		typ := dtype.(*arrow.MapType)
-		return NewMapBuilderWithType(mem, typ)
-	case arrow.LIST_VIEW:
-		typ := dtype.(*arrow.ListViewType)
-		return NewListViewBuilderWithField(mem, typ.ElemField())
-	case arrow.LARGE_LIST_VIEW:
-		typ := dtype.(*arrow.LargeListViewType)
-		return NewLargeListViewBuilderWithField(mem, typ.ElemField())
-	case arrow.EXTENSION:
-		if custom, ok := dtype.(CustomExtensionBuilder); ok {
-			return custom.NewBuilder(mem)
-		}
-		if typ, ok := dtype.(arrow.ExtensionType); ok {
-			return NewExtensionBuilder(mem, typ)
-		}
-		panic(fmt.Errorf("arrow/array: invalid extension type: %T", dtype))
-	case arrow.FIXED_SIZE_LIST:
-		typ := dtype.(*arrow.FixedSizeListType)
-		return NewFixedSizeListBuilderWithField(mem, typ.Len(), typ.ElemField())
-	case arrow.DURATION:
-		typ := dtype.(*arrow.DurationType)
-		return NewDurationBuilder(mem, typ)
-	case arrow.RUN_END_ENCODED:
-		typ := dtype.(*arrow.RunEndEncodedType)
-		return NewRunEndEncodedBuilder(mem, typ.RunEnds(), typ.Encoded())
-	case arrow.BINARY_VIEW:
-		return NewBinaryViewBuilder(mem)
-	case arrow.STRING_VIEW:
-		return NewStringViewBuilder(mem)
-	}
-	panic(fmt.Errorf("arrow/array: unsupported builder for %T", dtype))
-}
diff --git a/go/arrow/array/builder_test.go b/go/arrow/array/builder_test.go
deleted file mode 100644
index 7eb2b3f7cf9e3..0000000000000
--- a/go/arrow/array/builder_test.go
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/tools"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBuilder_Init(t *testing.T) {
-	type exp struct{ size int }
-	tests := []struct {
-		name string
-		cap  int
-
-		exp exp
-	}{
-		{"07 bits", 07, exp{size: 1}},
-		{"19 bits", 19, exp{size: 3}},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			ab := &builder{mem: memory.NewGoAllocator()}
-			ab.init(test.cap)
-			assert.Equal(t, test.cap, ab.Cap(), "invalid capacity")
-			assert.Equal(t, test.exp.size, ab.nullBitmap.Len(), "invalid length")
-		})
-	}
-}
-
-func TestBuilder_UnsafeSetValid(t *testing.T) {
-	ab := &builder{mem: memory.NewGoAllocator()}
-	ab.init(32)
-	ab.unsafeAppendBoolsToBitmap(tools.Bools(0, 0, 0, 0, 0), 5)
-	assert.Equal(t, 5, ab.Len())
-	assert.Equal(t, []byte{0, 0, 0, 0}, ab.nullBitmap.Bytes())
-
-	ab.unsafeSetValid(17)
-	assert.Equal(t, []byte{0xe0, 0xff, 0x3f, 0}, ab.nullBitmap.Bytes())
-}
-
-func TestBuilder_resize(t *testing.T) {
-	b := &builder{mem: memory.NewGoAllocator()}
-	n := 64
-
-	b.init(n)
-	assert.Equal(t, n, b.Cap())
-	assert.Equal(t, 0, b.Len())
-
-	b.UnsafeAppendBoolToBitmap(true)
-	for i := 1; i < n; i++ {
-		b.UnsafeAppendBoolToBitmap(false)
-	}
-	assert.Equal(t, n, b.Cap())
-	assert.Equal(t, n, b.Len())
-	assert.Equal(t, n-1, b.NullN())
-
-	n = 5
-	b.resize(n, b.init)
-	assert.Equal(t, n, b.Len())
-	assert.Equal(t, n-1, b.NullN())
-
-	b.resize(32, b.init)
-	assert.Equal(t, n, b.Len())
-	assert.Equal(t, n-1, b.NullN())
-}
-
-func TestBuilder_IsNull(t *testing.T) {
-	b := &builder{mem: memory.NewGoAllocator()}
-	n := 32
-	b.init(n)
-
-	assert.True(t, b.IsNull(0))
-	assert.True(t, b.IsNull(1))
-
-	for i := 0; i < n; i++ {
-		b.UnsafeAppendBoolToBitmap(i%2 == 0)
-	}
-	for i := 0; i < n; i++ {
-		assert.Equal(t, i%2 != 0, b.IsNull(i))
-	}
-}
-
-func TestBuilder_SetNull(t *testing.T) {
-	b := &builder{mem: memory.NewGoAllocator()}
-	n := 32
-	b.init(n)
-
-	for i := 0; i < n; i++ {
-		// Set everything to true
-		b.UnsafeAppendBoolToBitmap(true)
-	}
-	for i := 0; i < n; i++ {
-		if i%2 == 0 { // Set all even numbers to null
-			b.SetNull(i)
-		}
-	}
-
-	for i := 0; i < n; i++ {
-		if i%2 == 0 {
-			assert.True(t, b.IsNull(i))
-		} else {
-			assert.False(t, b.IsNull(i))
-		}
-	}
-}
diff --git a/go/arrow/array/compare.go b/go/arrow/array/compare.go
deleted file mode 100644
index a54c1e23c1e1c..0000000000000
--- a/go/arrow/array/compare.go
+++ /dev/null
@@ -1,854 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-// RecordEqual reports whether the two provided records are equal.
-func RecordEqual(left, right arrow.Record) bool {
-	switch {
-	case left.NumCols() != right.NumCols():
-		return false
-	case left.NumRows() != right.NumRows():
-		return false
-	}
-
-	for i := range left.Columns() {
-		lc := left.Column(i)
-		rc := right.Column(i)
-		if !Equal(lc, rc) {
-			return false
-		}
-	}
-	return true
-}
-
-// RecordApproxEqual reports whether the two provided records are approximately equal.
-// For non-floating point columns, it is equivalent to RecordEqual.
-func RecordApproxEqual(left, right arrow.Record, opts ...EqualOption) bool {
-	switch {
-	case left.NumCols() != right.NumCols():
-		return false
-	case left.NumRows() != right.NumRows():
-		return false
-	}
-
-	opt := newEqualOption(opts...)
-
-	for i := range left.Columns() {
-		lc := left.Column(i)
-		rc := right.Column(i)
-		if !arrayApproxEqual(lc, rc, opt) {
-			return false
-		}
-	}
-	return true
-}
-
-// helper function to evaluate a function on two chunked object having possibly different
-// chunk layouts. the function passed in will be called for each corresponding slice of the
-// two chunked arrays and if the function returns false it will end the loop early.
-func chunkedBinaryApply(left, right *arrow.Chunked, fn func(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64) bool) {
-	var (
-		pos               int64
-		length            int64 = int64(left.Len())
-		leftIdx, rightIdx int
-		leftPos, rightPos int64
-	)
-
-	for pos < length {
-		var cleft, cright arrow.Array
-		for {
-			cleft, cright = left.Chunk(leftIdx), right.Chunk(rightIdx)
-			if leftPos == int64(cleft.Len()) {
-				leftPos = 0
-				leftIdx++
-				continue
-			}
-			if rightPos == int64(cright.Len()) {
-				rightPos = 0
-				rightIdx++
-				continue
-			}
-			break
-		}
-
-		sz := int64(min(cleft.Len()-int(leftPos), cright.Len()-int(rightPos)))
-		pos += sz
-		if !fn(cleft, leftPos, leftPos+sz, cright, rightPos, rightPos+sz) {
-			return
-		}
-
-		leftPos += sz
-		rightPos += sz
-	}
-}
-
-// ChunkedEqual reports whether two chunked arrays are equal regardless of their chunkings
-func ChunkedEqual(left, right *arrow.Chunked) bool {
-	switch {
-	case left == right:
-		return true
-	case left.Len() != right.Len():
-		return false
-	case left.NullN() != right.NullN():
-		return false
-	case !arrow.TypeEqual(left.DataType(), right.DataType()):
-		return false
-	}
-
-	var isequal bool = true
-	chunkedBinaryApply(left, right, func(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64) bool {
-		isequal = SliceEqual(left, lbeg, lend, right, rbeg, rend)
-		return isequal
-	})
-
-	return isequal
-}
-
-// ChunkedApproxEqual reports whether two chunked arrays are approximately equal regardless of their chunkings
-// for non-floating point arrays, this is equivalent to ChunkedEqual
-func ChunkedApproxEqual(left, right *arrow.Chunked, opts ...EqualOption) bool {
-	switch {
-	case left == right:
-		return true
-	case left.Len() != right.Len():
-		return false
-	case left.NullN() != right.NullN():
-		return false
-	case !arrow.TypeEqual(left.DataType(), right.DataType()):
-		return false
-	}
-
-	var isequal bool
-	chunkedBinaryApply(left, right, func(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64) bool {
-		isequal = SliceApproxEqual(left, lbeg, lend, right, rbeg, rend, opts...)
-		return isequal
-	})
-
-	return isequal
-}
-
-// TableEqual returns if the two tables have the same data in the same schema
-func TableEqual(left, right arrow.Table) bool {
-	switch {
-	case left.NumCols() != right.NumCols():
-		return false
-	case left.NumRows() != right.NumRows():
-		return false
-	}
-
-	for i := 0; int64(i) < left.NumCols(); i++ {
-		lc := left.Column(i)
-		rc := right.Column(i)
-		if !lc.Field().Equal(rc.Field()) {
-			return false
-		}
-
-		if !ChunkedEqual(lc.Data(), rc.Data()) {
-			return false
-		}
-	}
-	return true
-}
-
-// TableEqual returns if the two tables have the approximately equal data in the same schema
-func TableApproxEqual(left, right arrow.Table, opts ...EqualOption) bool {
-	switch {
-	case left.NumCols() != right.NumCols():
-		return false
-	case left.NumRows() != right.NumRows():
-		return false
-	}
-
-	for i := 0; int64(i) < left.NumCols(); i++ {
-		lc := left.Column(i)
-		rc := right.Column(i)
-		if !lc.Field().Equal(rc.Field()) {
-			return false
-		}
-
-		if !ChunkedApproxEqual(lc.Data(), rc.Data(), opts...) {
-			return false
-		}
-	}
-	return true
-}
-
-// Equal reports whether the two provided arrays are equal.
-func Equal(left, right arrow.Array) bool {
-	switch {
-	case !baseArrayEqual(left, right):
-		return false
-	case left.Len() == 0:
-		return true
-	case left.NullN() == left.Len():
-		return true
-	}
-
-	// at this point, we know both arrays have same type, same length, same number of nulls
-	// and nulls at the same place.
-	// compare the values.
-
-	switch l := left.(type) {
-	case *Null:
-		return true
-	case *Boolean:
-		r := right.(*Boolean)
-		return arrayEqualBoolean(l, r)
-	case *FixedSizeBinary:
-		r := right.(*FixedSizeBinary)
-		return arrayEqualFixedSizeBinary(l, r)
-	case *Binary:
-		r := right.(*Binary)
-		return arrayEqualBinary(l, r)
-	case *String:
-		r := right.(*String)
-		return arrayEqualString(l, r)
-	case *LargeBinary:
-		r := right.(*LargeBinary)
-		return arrayEqualLargeBinary(l, r)
-	case *LargeString:
-		r := right.(*LargeString)
-		return arrayEqualLargeString(l, r)
-	case *BinaryView:
-		r := right.(*BinaryView)
-		return arrayEqualBinaryView(l, r)
-	case *StringView:
-		r := right.(*StringView)
-		return arrayEqualStringView(l, r)
-	case *Int8:
-		r := right.(*Int8)
-		return arrayEqualInt8(l, r)
-	case *Int16:
-		r := right.(*Int16)
-		return arrayEqualInt16(l, r)
-	case *Int32:
-		r := right.(*Int32)
-		return arrayEqualInt32(l, r)
-	case *Int64:
-		r := right.(*Int64)
-		return arrayEqualInt64(l, r)
-	case *Uint8:
-		r := right.(*Uint8)
-		return arrayEqualUint8(l, r)
-	case *Uint16:
-		r := right.(*Uint16)
-		return arrayEqualUint16(l, r)
-	case *Uint32:
-		r := right.(*Uint32)
-		return arrayEqualUint32(l, r)
-	case *Uint64:
-		r := right.(*Uint64)
-		return arrayEqualUint64(l, r)
-	case *Float16:
-		r := right.(*Float16)
-		return arrayEqualFloat16(l, r)
-	case *Float32:
-		r := right.(*Float32)
-		return arrayEqualFloat32(l, r)
-	case *Float64:
-		r := right.(*Float64)
-		return arrayEqualFloat64(l, r)
-	case *Decimal128:
-		r := right.(*Decimal128)
-		return arrayEqualDecimal128(l, r)
-	case *Decimal256:
-		r := right.(*Decimal256)
-		return arrayEqualDecimal256(l, r)
-	case *Date32:
-		r := right.(*Date32)
-		return arrayEqualDate32(l, r)
-	case *Date64:
-		r := right.(*Date64)
-		return arrayEqualDate64(l, r)
-	case *Time32:
-		r := right.(*Time32)
-		return arrayEqualTime32(l, r)
-	case *Time64:
-		r := right.(*Time64)
-		return arrayEqualTime64(l, r)
-	case *Timestamp:
-		r := right.(*Timestamp)
-		return arrayEqualTimestamp(l, r)
-	case *List:
-		r := right.(*List)
-		return arrayEqualList(l, r)
-	case *LargeList:
-		r := right.(*LargeList)
-		return arrayEqualLargeList(l, r)
-	case *ListView:
-		r := right.(*ListView)
-		return arrayEqualListView(l, r)
-	case *LargeListView:
-		r := right.(*LargeListView)
-		return arrayEqualLargeListView(l, r)
-	case *FixedSizeList:
-		r := right.(*FixedSizeList)
-		return arrayEqualFixedSizeList(l, r)
-	case *Struct:
-		r := right.(*Struct)
-		return arrayEqualStruct(l, r)
-	case *MonthInterval:
-		r := right.(*MonthInterval)
-		return arrayEqualMonthInterval(l, r)
-	case *DayTimeInterval:
-		r := right.(*DayTimeInterval)
-		return arrayEqualDayTimeInterval(l, r)
-	case *MonthDayNanoInterval:
-		r := right.(*MonthDayNanoInterval)
-		return arrayEqualMonthDayNanoInterval(l, r)
-	case *Duration:
-		r := right.(*Duration)
-		return arrayEqualDuration(l, r)
-	case *Map:
-		r := right.(*Map)
-		return arrayEqualMap(l, r)
-	case ExtensionArray:
-		r := right.(ExtensionArray)
-		return arrayEqualExtension(l, r)
-	case *Dictionary:
-		r := right.(*Dictionary)
-		return arrayEqualDict(l, r)
-	case *SparseUnion:
-		r := right.(*SparseUnion)
-		return arraySparseUnionEqual(l, r)
-	case *DenseUnion:
-		r := right.(*DenseUnion)
-		return arrayDenseUnionEqual(l, r)
-	case *RunEndEncoded:
-		r := right.(*RunEndEncoded)
-		return arrayRunEndEncodedEqual(l, r)
-	default:
-		panic(fmt.Errorf("arrow/array: unknown array type %T", l))
-	}
-}
-
-// SliceEqual reports whether slices left[lbeg:lend] and right[rbeg:rend] are equal.
-func SliceEqual(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64) bool {
-	l := NewSlice(left, lbeg, lend)
-	defer l.Release()
-	r := NewSlice(right, rbeg, rend)
-	defer r.Release()
-
-	return Equal(l, r)
-}
-
-// SliceApproxEqual reports whether slices left[lbeg:lend] and right[rbeg:rend] are approximately equal.
-func SliceApproxEqual(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64, opts ...EqualOption) bool {
-	opt := newEqualOption(opts...)
-	return sliceApproxEqual(left, lbeg, lend, right, rbeg, rend, opt)
-}
-
-func sliceApproxEqual(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64, opt equalOption) bool {
-	l := NewSlice(left, lbeg, lend)
-	defer l.Release()
-	r := NewSlice(right, rbeg, rend)
-	defer r.Release()
-
-	return arrayApproxEqual(l, r, opt)
-}
-
-const defaultAbsoluteTolerance = 1e-5
-
-type equalOption struct {
-	atol             float64 // absolute tolerance
-	nansEq           bool    // whether NaNs are considered equal.
-	unorderedMapKeys bool    // whether maps are allowed to have different entries order
-}
-
-func (eq equalOption) f16(f1, f2 float16.Num) bool {
-	v1 := float64(f1.Float32())
-	v2 := float64(f2.Float32())
-	switch {
-	case eq.nansEq:
-		return math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
-	default:
-		return math.Abs(v1-v2) <= eq.atol
-	}
-}
-
-func (eq equalOption) f32(f1, f2 float32) bool {
-	v1 := float64(f1)
-	v2 := float64(f2)
-	switch {
-	case eq.nansEq:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
-	default:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol
-	}
-}
-
-func (eq equalOption) f64(v1, v2 float64) bool {
-	switch {
-	case eq.nansEq:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
-	default:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol
-	}
-}
-
-func newEqualOption(opts ...EqualOption) equalOption {
-	eq := equalOption{
-		atol:   defaultAbsoluteTolerance,
-		nansEq: false,
-	}
-	for _, opt := range opts {
-		opt(&eq)
-	}
-
-	return eq
-}
-
-// EqualOption is a functional option type used to configure how Records and Arrays are compared.
-type EqualOption func(*equalOption)
-
-// WithNaNsEqual configures the comparison functions so that NaNs are considered equal.
-func WithNaNsEqual(v bool) EqualOption {
-	return func(o *equalOption) {
-		o.nansEq = v
-	}
-}
-
-// WithAbsTolerance configures the comparison functions so that 2 floating point values
-// v1 and v2 are considered equal if |v1-v2| <= atol.
-func WithAbsTolerance(atol float64) EqualOption {
-	return func(o *equalOption) {
-		o.atol = atol
-	}
-}
-
-// WithUnorderedMapKeys configures the comparison functions so that Map with different entries order are considered equal.
-func WithUnorderedMapKeys(v bool) EqualOption {
-	return func(o *equalOption) {
-		o.unorderedMapKeys = v
-	}
-}
-
-// ApproxEqual reports whether the two provided arrays are approximately equal.
-// For non-floating point arrays, it is equivalent to Equal.
-func ApproxEqual(left, right arrow.Array, opts ...EqualOption) bool {
-	opt := newEqualOption(opts...)
-	return arrayApproxEqual(left, right, opt)
-}
-
-func arrayApproxEqual(left, right arrow.Array, opt equalOption) bool {
-	switch {
-	case !baseArrayEqual(left, right):
-		return false
-	case left.Len() == 0:
-		return true
-	case left.NullN() == left.Len():
-		return true
-	}
-
-	// at this point, we know both arrays have same type, same length, same number of nulls
-	// and nulls at the same place.
-	// compare the values.
-
-	switch l := left.(type) {
-	case *Null:
-		return true
-	case *Boolean:
-		r := right.(*Boolean)
-		return arrayEqualBoolean(l, r)
-	case *FixedSizeBinary:
-		r := right.(*FixedSizeBinary)
-		return arrayEqualFixedSizeBinary(l, r)
-	case *Binary:
-		r := right.(*Binary)
-		return arrayEqualBinary(l, r)
-	case *String:
-		r := right.(*String)
-		return arrayEqualString(l, r)
-	case *LargeBinary:
-		r := right.(*LargeBinary)
-		return arrayEqualLargeBinary(l, r)
-	case *LargeString:
-		r := right.(*LargeString)
-		return arrayEqualLargeString(l, r)
-	case *BinaryView:
-		r := right.(*BinaryView)
-		return arrayEqualBinaryView(l, r)
-	case *StringView:
-		r := right.(*StringView)
-		return arrayEqualStringView(l, r)
-	case *Int8:
-		r := right.(*Int8)
-		return arrayEqualInt8(l, r)
-	case *Int16:
-		r := right.(*Int16)
-		return arrayEqualInt16(l, r)
-	case *Int32:
-		r := right.(*Int32)
-		return arrayEqualInt32(l, r)
-	case *Int64:
-		r := right.(*Int64)
-		return arrayEqualInt64(l, r)
-	case *Uint8:
-		r := right.(*Uint8)
-		return arrayEqualUint8(l, r)
-	case *Uint16:
-		r := right.(*Uint16)
-		return arrayEqualUint16(l, r)
-	case *Uint32:
-		r := right.(*Uint32)
-		return arrayEqualUint32(l, r)
-	case *Uint64:
-		r := right.(*Uint64)
-		return arrayEqualUint64(l, r)
-	case *Float16:
-		r := right.(*Float16)
-		return arrayApproxEqualFloat16(l, r, opt)
-	case *Float32:
-		r := right.(*Float32)
-		return arrayApproxEqualFloat32(l, r, opt)
-	case *Float64:
-		r := right.(*Float64)
-		return arrayApproxEqualFloat64(l, r, opt)
-	case *Decimal128:
-		r := right.(*Decimal128)
-		return arrayEqualDecimal128(l, r)
-	case *Decimal256:
-		r := right.(*Decimal256)
-		return arrayEqualDecimal256(l, r)
-	case *Date32:
-		r := right.(*Date32)
-		return arrayEqualDate32(l, r)
-	case *Date64:
-		r := right.(*Date64)
-		return arrayEqualDate64(l, r)
-	case *Time32:
-		r := right.(*Time32)
-		return arrayEqualTime32(l, r)
-	case *Time64:
-		r := right.(*Time64)
-		return arrayEqualTime64(l, r)
-	case *Timestamp:
-		r := right.(*Timestamp)
-		return arrayEqualTimestamp(l, r)
-	case *List:
-		r := right.(*List)
-		return arrayApproxEqualList(l, r, opt)
-	case *LargeList:
-		r := right.(*LargeList)
-		return arrayApproxEqualLargeList(l, r, opt)
-	case *ListView:
-		r := right.(*ListView)
-		return arrayApproxEqualListView(l, r, opt)
-	case *LargeListView:
-		r := right.(*LargeListView)
-		return arrayApproxEqualLargeListView(l, r, opt)
-	case *FixedSizeList:
-		r := right.(*FixedSizeList)
-		return arrayApproxEqualFixedSizeList(l, r, opt)
-	case *Struct:
-		r := right.(*Struct)
-		return arrayApproxEqualStruct(l, r, opt)
-	case *MonthInterval:
-		r := right.(*MonthInterval)
-		return arrayEqualMonthInterval(l, r)
-	case *DayTimeInterval:
-		r := right.(*DayTimeInterval)
-		return arrayEqualDayTimeInterval(l, r)
-	case *MonthDayNanoInterval:
-		r := right.(*MonthDayNanoInterval)
-		return arrayEqualMonthDayNanoInterval(l, r)
-	case *Duration:
-		r := right.(*Duration)
-		return arrayEqualDuration(l, r)
-	case *Map:
-		r := right.(*Map)
-		if opt.unorderedMapKeys {
-			return arrayApproxEqualMap(l, r, opt)
-		}
-		return arrayApproxEqualList(l.List, r.List, opt)
-	case *Dictionary:
-		r := right.(*Dictionary)
-		return arrayApproxEqualDict(l, r, opt)
-	case ExtensionArray:
-		r := right.(ExtensionArray)
-		return arrayApproxEqualExtension(l, r, opt)
-	case *SparseUnion:
-		r := right.(*SparseUnion)
-		return arraySparseUnionApproxEqual(l, r, opt)
-	case *DenseUnion:
-		r := right.(*DenseUnion)
-		return arrayDenseUnionApproxEqual(l, r, opt)
-	case *RunEndEncoded:
-		r := right.(*RunEndEncoded)
-		return arrayRunEndEncodedApproxEqual(l, r, opt)
-	default:
-		panic(fmt.Errorf("arrow/array: unknown array type %T", l))
-	}
-}
-
-func baseArrayEqual(left, right arrow.Array) bool {
-	switch {
-	case left.Len() != right.Len():
-		return false
-	case left.NullN() != right.NullN():
-		return false
-	case !arrow.TypeEqual(left.DataType(), right.DataType()): // We do not check for metadata as in the C++ implementation.
-		return false
-	case !validityBitmapEqual(left, right):
-		return false
-	}
-	return true
-}
-
-func validityBitmapEqual(left, right arrow.Array) bool {
-	// TODO(alexandreyc): make it faster by comparing byte slices of the validity bitmap?
-	n := left.Len()
-	if n != right.Len() {
-		return false
-	}
-	for i := 0; i < n; i++ {
-		if left.IsNull(i) != right.IsNull(i) {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualFloat16(left, right *Float16, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !opt.f16(left.Value(i), right.Value(i)) {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualFloat32(left, right *Float32, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !opt.f32(left.Value(i), right.Value(i)) {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualFloat64(left, right *Float64, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !opt.f64(left.Value(i), right.Value(i)) {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualList(left, right *List, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return arrayApproxEqual(l, r, opt)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualLargeList(left, right *LargeList, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return arrayApproxEqual(l, r, opt)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualListView(left, right *ListView, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return arrayApproxEqual(l, r, opt)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualLargeListView(left, right *LargeListView, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return arrayApproxEqual(l, r, opt)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualFixedSizeList(left, right *FixedSizeList, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return arrayApproxEqual(l, r, opt)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayApproxEqualStruct(left, right *Struct, opt equalOption) bool {
-	return bitutils.VisitSetBitRuns(
-		left.NullBitmapBytes(),
-		int64(left.Offset()), int64(left.Len()),
-		approxEqualStructRun(left, right, opt),
-	) == nil
-}
-
-func approxEqualStructRun(left, right *Struct, opt equalOption) bitutils.VisitFn {
-	return func(pos int64, length int64) error {
-		for i := range left.fields {
-			if !sliceApproxEqual(left.fields[i], pos, pos+length, right.fields[i], pos, pos+length, opt) {
-				return arrow.ErrInvalid
-			}
-		}
-		return nil
-	}
-}
-
-// arrayApproxEqualMap doesn't care about the order of keys (in Go map traversal order is undefined)
-func arrayApproxEqualMap(left, right *Map, opt equalOption) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !arrayApproxEqualSingleMapEntry(left.newListValue(i).(*Struct), right.newListValue(i).(*Struct), opt) {
-			return false
-		}
-	}
-	return true
-}
-
-// arrayApproxEqualSingleMapEntry is a helper function that checks if a single entry pair is approx equal.
-// Basically, it doesn't care about key order.
-// structs passed will be released
-func arrayApproxEqualSingleMapEntry(left, right *Struct, opt equalOption) bool {
-	defer left.Release()
-	defer right.Release()
-
-	// we don't compare the validity bitmap, but we want other checks from baseArrayEqual
-	switch {
-	case left.Len() != right.Len():
-		return false
-	case left.NullN() != right.NullN():
-		return false
-	case !arrow.TypeEqual(left.DataType(), right.DataType()): // We do not check for metadata as in the C++ implementation.
-		return false
-	case left.NullN() == left.Len():
-		return true
-	}
-
-	used := make(map[int]bool, right.Len())
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-
-		found := false
-		lBeg, lEnd := int64(i), int64(i+1)
-		for j := 0; j < right.Len(); j++ {
-			if used[j] {
-				continue
-			}
-			if right.IsNull(j) {
-				used[j] = true
-				continue
-			}
-
-			rBeg, rEnd := int64(j), int64(j+1)
-
-			// check keys (field 0)
-			if !sliceApproxEqual(left.Field(0), lBeg, lEnd, right.Field(0), rBeg, rEnd, opt) {
-				continue
-			}
-
-			// only now check the values
-			if sliceApproxEqual(left.Field(1), lBeg, lEnd, right.Field(1), rBeg, rEnd, opt) {
-				found = true
-				used[j] = true
-				break
-			}
-		}
-		if !found {
-			return false
-		}
-	}
-
-	return len(used) == right.Len()
-}
diff --git a/go/arrow/array/compare_test.go b/go/arrow/array/compare_test.go
deleted file mode 100644
index f757ab9f25f07..0000000000000
--- a/go/arrow/array/compare_test.go
+++ /dev/null
@@ -1,728 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"math"
-	"sort"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestArrayEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			rec := recs[0]
-			schema := rec.Schema()
-			for i, col := range rec.Columns() {
-				t.Run(schema.Field(i).Name, func(t *testing.T) {
-					arr := col
-					if !array.Equal(arr, arr) {
-						t.Fatalf("identical arrays should compare equal:\narray=%v", arr)
-					}
-					sub1 := array.NewSlice(arr, 1, int64(arr.Len()))
-					defer sub1.Release()
-
-					sub2 := array.NewSlice(arr, 0, int64(arr.Len()-1))
-					defer sub2.Release()
-
-					if array.Equal(sub1, sub2) && name != "nulls" {
-						t.Fatalf("non-identical arrays should not compare equal:\nsub1=%v\nsub2=%v\narrf=%v\n", sub1, sub2, arr)
-					}
-				})
-			}
-		})
-	}
-}
-
-func TestArraySliceEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			rec := recs[0]
-			schema := rec.Schema()
-			for i, col := range rec.Columns() {
-				t.Run(schema.Field(i).Name, func(t *testing.T) {
-					arr := col
-					if !array.SliceEqual(
-						arr, 0, int64(arr.Len()),
-						arr, 0, int64(arr.Len()),
-					) {
-						t.Fatalf("identical slices should compare equal:\narray=%v", arr)
-					}
-					sub1 := array.NewSlice(arr, 1, int64(arr.Len()))
-					defer sub1.Release()
-
-					sub2 := array.NewSlice(arr, 0, int64(arr.Len()-1))
-					defer sub2.Release()
-
-					if array.SliceEqual(sub1, 0, int64(sub1.Len()), sub2, 0, int64(sub2.Len())) && name != "nulls" {
-						t.Fatalf("non-identical slices should not compare equal:\nsub1=%v\nsub2=%v\narrf=%v\n", sub1, sub2, arr)
-					}
-				})
-			}
-		})
-	}
-}
-
-func TestArrayApproxEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			rec := recs[0]
-			schema := rec.Schema()
-			for i, col := range rec.Columns() {
-				t.Run(schema.Field(i).Name, func(t *testing.T) {
-					arr := col
-					if !array.ApproxEqual(arr, arr) {
-						t.Fatalf("identical arrays should compare equal:\narray=%v", arr)
-					}
-					sub1 := array.NewSlice(arr, 1, int64(arr.Len()))
-					defer sub1.Release()
-
-					sub2 := array.NewSlice(arr, 0, int64(arr.Len()-1))
-					defer sub2.Release()
-
-					if array.ApproxEqual(sub1, sub2) && name != "nulls" {
-						t.Fatalf("non-identical arrays should not compare equal:\nsub1=%v\nsub2=%v\narrf=%v\n", sub1, sub2, arr)
-					}
-				})
-			}
-		})
-	}
-}
-
-func TestArrayApproxEqualFloats(t *testing.T) {
-	f16sFrom := func(vs []float64) []float16.Num {
-		o := make([]float16.Num, len(vs))
-		for i, v := range vs {
-			o[i] = float16.New(float32(v))
-		}
-		return o
-	}
-
-	for _, tc := range []struct {
-		name string
-		a1   interface{}
-		a2   interface{}
-		opts []array.EqualOption
-		want bool
-	}{
-		{
-			name: "f16",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, 6}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 5, 6}),
-			want: true,
-		},
-		{
-			name: "f16-no-tol",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, 6}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 5, 7}),
-			want: false,
-		},
-		{
-			name: "f16-tol-ok",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, 6}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 5, 7}),
-			opts: []array.EqualOption{array.WithAbsTolerance(1)},
-			want: true,
-		},
-		{
-			name: "f16-nan",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, 6}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 5, math.NaN()}),
-			want: false,
-		},
-		{
-			name: "f16-nan-not",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, 6}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 5, math.NaN()}),
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: false,
-		},
-		{
-			name: "f16-nan-ok",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, math.NaN()}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 5, math.NaN()}),
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: true,
-		},
-		{
-			name: "f16-nan-no-tol",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, math.NaN()}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 6, math.NaN()}),
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: false,
-		},
-		{
-			name: "f16-nan-tol",
-			a1:   f16sFrom([]float64{1, 2, 3, 4, 5, math.NaN()}),
-			a2:   f16sFrom([]float64{1, 2, 3, 4, 6, math.NaN()}),
-			opts: []array.EqualOption{array.WithNaNsEqual(true), array.WithAbsTolerance(1)},
-			want: true,
-		},
-		{
-			name: "f32",
-			a1:   []float32{1, 2, 3, 4, 5, 6},
-			a2:   []float32{1, 2, 3, 4, 5, 6},
-			want: true,
-		},
-		{
-			name: "f32-no-tol",
-			a1:   []float32{1, 2, 3, 4, 5, 6},
-			a2:   []float32{1, 2, 3, 4, 5, 7},
-			want: false,
-		},
-		{
-			name: "f32-tol-ok",
-			a1:   []float32{1, 2, 3, 4, 5, 6},
-			a2:   []float32{1, 2, 3, 4, 5, 7},
-			opts: []array.EqualOption{array.WithAbsTolerance(1)},
-			want: true,
-		},
-		{
-			name: "f32-nan",
-			a1:   []float32{1, 2, 3, 4, 5, 6},
-			a2:   []float32{1, 2, 3, 4, 5, float32(math.NaN())},
-			want: false,
-		},
-		{
-			name: "f32-nan-not",
-			a1:   []float32{1, 2, 3, 4, 5, 6},
-			a2:   []float32{1, 2, 3, 4, 5, float32(math.NaN())},
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: false,
-		},
-		{
-			name: "f32-nan-ok",
-			a1:   []float32{1, 2, 3, 4, 5, float32(math.NaN())},
-			a2:   []float32{1, 2, 3, 4, 5, float32(math.NaN())},
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: true,
-		},
-		{
-			name: "f32-nan-no-tol",
-			a1:   []float32{1, 2, 3, 4, 5, float32(math.NaN())},
-			a2:   []float32{1, 2, 3, 4, 6, float32(math.NaN())},
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: false,
-		},
-		{
-			name: "f32-nan-tol",
-			a1:   []float32{1, 2, 3, 4, 5, float32(math.NaN())},
-			a2:   []float32{1, 2, 3, 4, 6, float32(math.NaN())},
-			opts: []array.EqualOption{array.WithNaNsEqual(true), array.WithAbsTolerance(1)},
-			want: true,
-		},
-		{
-			name: "f64",
-			a1:   []float64{1, 2, 3, 4, 5, 6},
-			a2:   []float64{1, 2, 3, 4, 5, 6},
-			want: true,
-		},
-		{
-			name: "f64-no-tol",
-			a1:   []float64{1, 2, 3, 4, 5, 6},
-			a2:   []float64{1, 2, 3, 4, 5, 7},
-			want: false,
-		},
-		{
-			name: "f64-tol-ok",
-			a1:   []float64{1, 2, 3, 4, 5, 6},
-			a2:   []float64{1, 2, 3, 4, 5, 7},
-			opts: []array.EqualOption{array.WithAbsTolerance(1)},
-			want: true,
-		},
-		{
-			name: "f64-nan",
-			a1:   []float64{1, 2, 3, 4, 5, 6},
-			a2:   []float64{1, 2, 3, 4, 5, math.NaN()},
-			want: false,
-		},
-		{
-			name: "f64-nan-not",
-			a1:   []float64{1, 2, 3, 4, 5, 6},
-			a2:   []float64{1, 2, 3, 4, 5, math.NaN()},
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: false,
-		},
-		{
-			name: "f64-nan-ok",
-			a1:   []float64{1, 2, 3, 4, 5, math.NaN()},
-			a2:   []float64{1, 2, 3, 4, 5, math.NaN()},
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: true,
-		},
-		{
-			name: "f64-nan-no-tol",
-			a1:   []float64{1, 2, 3, 4, 5, math.NaN()},
-			a2:   []float64{1, 2, 3, 4, 6, math.NaN()},
-			opts: []array.EqualOption{array.WithNaNsEqual(true)},
-			want: false,
-		},
-		{
-			name: "f64-nan-tol",
-			a1:   []float64{1, 2, 3, 4, 5, math.NaN()},
-			a2:   []float64{1, 2, 3, 4, 6, math.NaN()},
-			opts: []array.EqualOption{array.WithNaNsEqual(true), array.WithAbsTolerance(1)},
-			want: true,
-		},
-	} {
-		t.Run(tc.name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			a1 := arrayOf(mem, tc.a1, nil)
-			defer a1.Release()
-			a2 := arrayOf(mem, tc.a2, nil)
-			defer a2.Release()
-
-			if got, want := array.ApproxEqual(a1, a2, tc.opts...), tc.want; got != want {
-				t.Fatalf("invalid comparison: got=%v, want=%v\na1: %v\na2: %v\n", got, want, a1, a2)
-			}
-		})
-	}
-}
-
-func testStringMap(mem memory.Allocator, m map[string]string, keys []string) *array.Map {
-	dt := arrow.MapOf(arrow.BinaryTypes.String, arrow.BinaryTypes.String)
-	builder := array.NewMapBuilderWithType(mem, dt)
-	defer builder.Release()
-	key, item := builder.KeyBuilder().(*array.StringBuilder), builder.ItemBuilder().(*array.StringBuilder)
-
-	builder.AppendNull()
-	builder.Append(true)
-
-	for _, k := range keys {
-		key.Append(k)
-
-		v, ok := m[k]
-		if !ok {
-			item.AppendNull()
-			continue
-		}
-
-		item.Append(v)
-	}
-
-	return builder.NewMapArray()
-}
-
-func TestArrayApproxEqualMaps(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	t.Run("different order", func(t *testing.T) {
-		m := map[string]string{"x": "x", "y": "y", "z": "z"}
-
-		keys := []string{"z", "y", "x", "null"}
-		a := testStringMap(mem, m, keys)
-		defer a.Release()
-
-		asc := make([]string, len(keys))
-		copy(asc, keys)
-		sort.Strings(asc)
-		assert.NotEqual(t, keys, asc)
-
-		b := testStringMap(mem, m, asc)
-		defer b.Release()
-
-		assert.False(t, array.ApproxEqual(a, b))
-		assert.True(t, array.ApproxEqual(a, b, array.WithUnorderedMapKeys(true)))
-	})
-
-	t.Run("extra left value", func(t *testing.T) {
-		m := map[string]string{"x": "x", "y": "y", "z": "z", "extra": "extra"}
-
-		aKeys := []string{"z", "y", "x", "extra"}
-		a := testStringMap(mem, m, aKeys)
-		defer a.Release()
-
-		bKeys := []string{"z", "y", "x"}
-		b := testStringMap(mem, m, bKeys)
-		defer b.Release()
-
-		assert.NotEqual(t, aKeys, bKeys)
-		assert.Equal(t, a.NullN(), b.NullN())
-		assert.False(t, array.ApproxEqual(a, b))
-		assert.False(t, array.ApproxEqual(a, b, array.WithUnorderedMapKeys(true)))
-	})
-
-	t.Run("extra right value", func(t *testing.T) {
-		m := map[string]string{"x": "x", "y": "y", "z": "z", "extra": "extra"}
-
-		aKeys := []string{"z", "y", "x"}
-		a := testStringMap(mem, m, aKeys)
-		defer a.Release()
-
-		bKeys := []string{"z", "y", "x", "extra"}
-		b := testStringMap(mem, m, bKeys)
-		defer b.Release()
-
-		assert.NotEqual(t, aKeys, bKeys)
-		assert.Equal(t, a.NullN(), b.NullN())
-		assert.False(t, array.ApproxEqual(a, b))
-		assert.False(t, array.ApproxEqual(a, b, array.WithUnorderedMapKeys(true)))
-	})
-
-	t.Run("unmatched value", func(t *testing.T) {
-		m := map[string]string{"x": "x", "y": "y", "z": "z", "extra": "extra", "extra2": "extra"}
-
-		aKeys := []string{"z", "y", "x", "extra"}
-		a := testStringMap(mem, m, aKeys)
-		defer a.Release()
-
-		bKeys := []string{"z", "y", "x", "extra2"}
-		b := testStringMap(mem, m, bKeys)
-		defer b.Release()
-
-		assert.NotEqual(t, aKeys, bKeys)
-		assert.Equal(t, a.NullN(), b.NullN())
-		assert.False(t, array.ApproxEqual(a, b))
-		assert.False(t, array.ApproxEqual(a, b, array.WithUnorderedMapKeys(true)))
-	})
-
-	t.Run("different value", func(t *testing.T) {
-		m := map[string]string{"x": "x", "y": "y", "z": "z", "extra": "extra"}
-
-		keys := []string{"z", "y", "x", "extra"}
-		a := testStringMap(mem, m, keys)
-		defer a.Release()
-
-		m["extra"] = "different"
-		b := testStringMap(mem, m, keys)
-		defer b.Release()
-
-		assert.Equal(t, a.NullN(), b.NullN())
-		assert.False(t, array.ApproxEqual(a, b))
-		assert.False(t, array.ApproxEqual(a, b, array.WithUnorderedMapKeys(true)))
-	})
-}
-
-func arrayOf(mem memory.Allocator, a interface{}, valids []bool) arrow.Array {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	switch a := a.(type) {
-	case []float16.Num:
-		bldr := array.NewFloat16Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewFloat16Array()
-
-	case []float32:
-		bldr := array.NewFloat32Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewFloat32Array()
-
-	case []float64:
-		bldr := array.NewFloat64Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewFloat64Array()
-
-	default:
-		panic(fmt.Errorf("arrdata: invalid data slice type %T", a))
-	}
-}
-
-func TestArrayEqualBaseArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b1 := array.NewBooleanBuilder(mem)
-	defer b1.Release()
-	b1.Append(true)
-	a1 := b1.NewBooleanArray()
-	defer a1.Release()
-
-	b2 := array.NewBooleanBuilder(mem)
-	defer b2.Release()
-	a2 := b2.NewBooleanArray()
-	defer a2.Release()
-
-	if array.Equal(a1, a2) {
-		t.Errorf("two arrays with different lengths must not be equal")
-	}
-
-	b3 := array.NewBooleanBuilder(mem)
-	defer b3.Release()
-	b3.AppendNull()
-	a3 := b3.NewBooleanArray()
-	defer a3.Release()
-
-	if array.Equal(a1, a3) {
-		t.Errorf("two arrays with different number of null values must not be equal")
-	}
-
-	b4 := array.NewInt32Builder(mem)
-	defer b4.Release()
-	b4.Append(0)
-	a4 := b4.NewInt32Array()
-	defer a4.Release()
-
-	if array.Equal(a1, a4) {
-		t.Errorf("two arrays with different types must not be equal")
-	}
-
-	b5 := array.NewBooleanBuilder(mem)
-	defer b5.Release()
-	b5.AppendNull()
-	b5.Append(true)
-	a5 := b5.NewBooleanArray()
-	defer a5.Release()
-	b1.AppendNull()
-
-	if array.Equal(a1, a5) {
-		t.Errorf("two arrays with different validity bitmaps must not be equal")
-	}
-}
-
-func TestArrayEqualNull(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	null := array.NewNull(0)
-	defer null.Release()
-
-	if !array.Equal(null, null) {
-		t.Fatalf("identical arrays should compare equal")
-	}
-
-	n0 := array.NewNull(10)
-	defer n0.Release()
-
-	n1 := array.NewNull(10)
-	defer n1.Release()
-
-	if !array.Equal(n0, n0) {
-		t.Fatalf("identical arrays should compare equal")
-	}
-	if !array.Equal(n1, n1) {
-		t.Fatalf("identical arrays should compare equal")
-	}
-	if !array.Equal(n0, n1) || !array.Equal(n1, n0) {
-		t.Fatalf("n0 and n1 should compare equal")
-	}
-
-	sub07 := array.NewSlice(n0, 0, 7)
-	defer sub07.Release()
-	sub08 := array.NewSlice(n0, 0, 8)
-	defer sub08.Release()
-	sub19 := array.NewSlice(n0, 1, 9)
-	defer sub19.Release()
-
-	if !array.Equal(sub08, sub19) {
-		t.Fatalf("sub08 and sub19 should compare equal")
-	}
-
-	if array.Equal(sub08, sub07) {
-		t.Fatalf("sub08 and sub07 should not compare equal")
-	}
-}
-
-func TestArrayEqualMaskedArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt32Builder(mem)
-	defer ab.Release()
-
-	valids := []bool{false, false, false, false}
-	ab.AppendValues([]int32{1, 2, 0, 4}, valids)
-
-	a1 := ab.NewInt32Array()
-	defer a1.Release()
-
-	ab.AppendValues([]int32{1, 2, 3, 4}, valids)
-	a2 := ab.NewInt32Array()
-	defer a2.Release()
-
-	if !array.Equal(a1, a1) || !array.Equal(a2, a2) {
-		t.Errorf("an array must be equal to itself")
-	}
-
-	if !array.Equal(a1, a2) {
-		t.Errorf("%v must be equal to %v", a1, a2)
-	}
-}
-
-func TestArrayEqualDifferentMaskedValues(t *testing.T) {
-	// test 2 int32 arrays, with same nulls (but different masked values) compare equal.
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt32Builder(mem)
-	defer ab.Release()
-
-	valids := []bool{true, true, false, true}
-	ab.AppendValues([]int32{1, 2, 0, 4}, valids)
-
-	a1 := ab.NewInt32Array()
-	defer a1.Release()
-
-	ab.AppendValues([]int32{1, 2, 3, 4}, valids)
-	a2 := ab.NewInt32Array()
-	defer a2.Release()
-
-	if !array.Equal(a1, a1) || !array.Equal(a2, a2) {
-		t.Errorf("an array must be equal to itself")
-	}
-
-	if !array.Equal(a1, a2) {
-		t.Errorf("%v must be equal to %v", a1, a2)
-	}
-}
-
-func TestRecordEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			rec0 := recs[0]
-			rec1 := recs[1]
-			if !array.RecordEqual(rec0, rec0) {
-				t.Fatalf("identical records should compare equal:\nrecord:\n%v", rec0)
-			}
-
-			if array.RecordEqual(rec0, rec1) && name != "nulls" {
-				t.Fatalf("non-identical records should not compare equal:\nrec0:\n%v\nrec1:\n%v", rec0, rec1)
-			}
-
-			sub00 := rec0.NewSlice(0, recs[0].NumRows()-1)
-			defer sub00.Release()
-			sub01 := rec0.NewSlice(1, recs[0].NumRows())
-			defer sub01.Release()
-
-			if array.RecordEqual(sub00, sub01) && name != "nulls" {
-				t.Fatalf("non-identical records should not compare equal:\nsub0:\n%v\nsub1:\n%v", sub00, sub01)
-			}
-		})
-	}
-}
-
-func TestRecordApproxEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			rec0 := recs[0]
-			rec1 := recs[1]
-			if !array.RecordApproxEqual(rec0, rec0) {
-				t.Fatalf("identical records should compare equal:\nrecord:\n%v", rec0)
-			}
-
-			if array.RecordApproxEqual(rec0, rec1) && name != "nulls" {
-				t.Fatalf("non-identical records should not compare equal:\nrec0:\n%v\nrec1:\n%v", rec0, rec1)
-			}
-
-			sub00 := rec0.NewSlice(0, recs[0].NumRows()-1)
-			defer sub00.Release()
-			sub01 := rec0.NewSlice(1, recs[0].NumRows())
-			defer sub01.Release()
-
-			if array.RecordApproxEqual(sub00, sub01) && name != "nulls" {
-				t.Fatalf("non-identical records should not compare equal:\nsub0:\n%v\nsub1:\n%v", sub00, sub01)
-			}
-		})
-	}
-}
-
-func TestChunkedEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			tbl := array.NewTableFromRecords(recs[0].Schema(), recs)
-			defer tbl.Release()
-
-			for i := 0; i < int(tbl.NumCols()); i++ {
-				if !array.ChunkedEqual(tbl.Column(i).Data(), tbl.Column(i).Data()) && name != "nulls" {
-					t.Fatalf("identical chunked arrays should compare as equal:\narr:%v\n", tbl.Column(i).Data())
-				}
-			}
-		})
-	}
-}
-
-func TestChunkedApproxEqual(t *testing.T) {
-	fb := array.NewFloat64Builder(memory.DefaultAllocator)
-	defer fb.Release()
-
-	fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-	f1 := fb.NewFloat64Array()
-	defer f1.Release()
-
-	fb.AppendValues([]float64{6, 7}, nil)
-	f2 := fb.NewFloat64Array()
-	defer f2.Release()
-
-	fb.AppendValues([]float64{8, 9, 10}, nil)
-	f3 := fb.NewFloat64Array()
-	defer f3.Release()
-
-	c1 := arrow.NewChunked(
-		arrow.PrimitiveTypes.Float64,
-		[]arrow.Array{f1, f2, f3},
-	)
-	defer c1.Release()
-
-	fb.AppendValues([]float64{1, 2, 3}, nil)
-	f4 := fb.NewFloat64Array()
-	defer f4.Release()
-
-	fb.AppendValues([]float64{4, 5}, nil)
-	f5 := fb.NewFloat64Array()
-	defer f5.Release()
-
-	fb.AppendValues([]float64{6, 7, 8, 9}, nil)
-	f6 := fb.NewFloat64Array()
-	defer f6.Release()
-
-	fb.AppendValues([]float64{10}, nil)
-	f7 := fb.NewFloat64Array()
-	defer f7.Release()
-
-	c2 := arrow.NewChunked(
-		arrow.PrimitiveTypes.Float64,
-		[]arrow.Array{f4, f5, f6, f7},
-	)
-	defer c2.Release()
-
-	assert.True(t, array.ChunkedEqual(c1, c2))
-	assert.True(t, array.ChunkedApproxEqual(c1, c2))
-}
-
-func TestTableEqual(t *testing.T) {
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			tbl := array.NewTableFromRecords(recs[0].Schema(), recs)
-			defer tbl.Release()
-
-			if !array.TableEqual(tbl, tbl) {
-				t.Fatalf("identical tables should compare as equal:\tbl:%v\n", tbl)
-			}
-			if !array.TableApproxEqual(tbl, tbl) {
-				t.Fatalf("identical tables should compare as approx equal:\tbl:%v\n", tbl)
-			}
-		})
-	}
-}
diff --git a/go/arrow/array/concat.go b/go/arrow/array/concat.go
deleted file mode 100644
index 3d2b4b4b83167..0000000000000
--- a/go/arrow/array/concat.go
+++ /dev/null
@@ -1,933 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"errors"
-	"fmt"
-	"math"
-	"math/bits"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/encoded"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// Concatenate creates a new arrow.Array which is the concatenation of the
-// passed in arrays. Returns nil if an error is encountered.
-//
-// The passed in arrays still need to be released manually, and will not be
-// released by this function.
-func Concatenate(arrs []arrow.Array, mem memory.Allocator) (result arrow.Array, err error) {
-	if len(arrs) == 0 {
-		return nil, errors.New("array/concat: must pass at least one array")
-	}
-
-	// gather Data of inputs
-	data := make([]arrow.ArrayData, len(arrs))
-	for i, ar := range arrs {
-		if !arrow.TypeEqual(ar.DataType(), arrs[0].DataType()) {
-			return nil, fmt.Errorf("arrays to be concatenated must be identically typed, but %s and %s were encountered",
-				arrs[0].DataType(), ar.DataType())
-		}
-		data[i] = ar.Data()
-	}
-
-	out, err := concat(data, mem)
-	if err != nil {
-		return nil, err
-	}
-
-	defer out.Release()
-	return MakeFromData(out), nil
-}
-
-// simple struct to hold ranges
-type rng struct {
-	offset, len int
-}
-
-// simple bitmap struct to reference a specific slice of a bitmap where the range
-// offset and length are in bits
-type bitmap struct {
-	data []byte
-	rng  rng
-}
-
-// gather up the bitmaps from the passed in data objects
-func gatherBitmaps(data []arrow.ArrayData, idx int) []bitmap {
-	out := make([]bitmap, len(data))
-	for i, d := range data {
-		if d.Buffers()[idx] != nil {
-			out[i].data = d.Buffers()[idx].Bytes()
-		}
-		out[i].rng.offset = d.Offset()
-		out[i].rng.len = d.Len()
-	}
-	return out
-}
-
-// gatherFixedBuffers gathers up the buffer objects of the given index, specifically
-// returning only the slices of the buffers which are relevant to the passed in arrays
-// in case they are themselves slices of other arrays. nil buffers are ignored and not
-// in the output slice.
-func gatherFixedBuffers(data []arrow.ArrayData, idx, byteWidth int) []*memory.Buffer {
-	out := make([]*memory.Buffer, 0, len(data))
-	for _, d := range data {
-		buf := d.Buffers()[idx]
-		if buf == nil {
-			continue
-		}
-
-		out = append(out, memory.NewBufferBytes(buf.Bytes()[d.Offset()*byteWidth:(d.Offset()+d.Len())*byteWidth]))
-	}
-	return out
-}
-
-// gatherBuffersFixedWidthType is like gatherFixedBuffers, but uses a datatype to determine the size
-// to use for determining the byte slice rather than a passed in bytewidth.
-func gatherBuffersFixedWidthType(data []arrow.ArrayData, idx int, fixed arrow.FixedWidthDataType) []*memory.Buffer {
-	return gatherFixedBuffers(data, idx, fixed.BitWidth()/8)
-}
-
-// gatherBufferRanges requires that len(ranges) == len(data) and returns a list of buffers
-// which represent the corresponding range of each buffer in the specified index of each
-// data object.
-func gatherBufferRanges(data []arrow.ArrayData, idx int, ranges []rng) []*memory.Buffer {
-	out := make([]*memory.Buffer, 0, len(data))
-	for i, d := range data {
-		buf := d.Buffers()[idx]
-		if buf == nil {
-			debug.Assert(ranges[i].len == 0, "misaligned buffer value ranges")
-			continue
-		}
-
-		out = append(out, memory.NewBufferBytes(buf.Bytes()[ranges[i].offset:ranges[i].offset+ranges[i].len]))
-	}
-	return out
-}
-
-// gatherChildren gathers the children data objects for child of index idx for all of the data objects.
-func gatherChildren(data []arrow.ArrayData, idx int) []arrow.ArrayData {
-	return gatherChildrenMultiplier(data, idx, 1)
-}
-
-// gatherChildrenMultiplier gathers the full data slice of the underlying values from the children data objects
-// such as the values data for a list array so that it can return a slice of the buffer for a given
-// index into the children.
-func gatherChildrenMultiplier(data []arrow.ArrayData, idx, multiplier int) []arrow.ArrayData {
-	out := make([]arrow.ArrayData, len(data))
-	for i, d := range data {
-		out[i] = NewSliceData(d.Children()[idx], int64(d.Offset()*multiplier), int64(d.Offset()+d.Len())*int64(multiplier))
-	}
-	return out
-}
-
-// gatherChildrenRanges returns a slice of Data objects which each represent slices of the given ranges from the
-// child in the specified index from each data object.
-func gatherChildrenRanges(data []arrow.ArrayData, idx int, ranges []rng) []arrow.ArrayData {
-	debug.Assert(len(data) == len(ranges), "mismatched children ranges for concat")
-	out := make([]arrow.ArrayData, len(data))
-	for i, d := range data {
-		out[i] = NewSliceData(d.Children()[idx], int64(ranges[i].offset), int64(ranges[i].offset+ranges[i].len))
-	}
-	return out
-}
-
-// creates a single contiguous buffer which contains the concatenation of all of the passed
-// in buffer objects.
-func concatBuffers(bufs []*memory.Buffer, mem memory.Allocator) *memory.Buffer {
-	outLen := 0
-	for _, b := range bufs {
-		outLen += b.Len()
-	}
-	out := memory.NewResizableBuffer(mem)
-	out.Resize(outLen)
-
-	data := out.Bytes()
-	for _, b := range bufs {
-		copy(data, b.Bytes())
-		data = data[b.Len():]
-	}
-	return out
-}
-
-func handle32BitOffsets(outLen int, buffers []*memory.Buffer, out *memory.Buffer) (*memory.Buffer, []rng, error) {
-	dst := arrow.Int32Traits.CastFromBytes(out.Bytes())
-	valuesRanges := make([]rng, len(buffers))
-	nextOffset := int32(0)
-	nextElem := int(0)
-	for i, b := range buffers {
-		if b.Len() == 0 {
-			valuesRanges[i].offset = 0
-			valuesRanges[i].len = 0
-			continue
-		}
-
-		// when we gather our buffers, we sliced off the last offset from the buffer
-		// so that we could count the lengths accurately
-		src := arrow.Int32Traits.CastFromBytes(b.Bytes())
-		valuesRanges[i].offset = int(src[0])
-		// expand our slice to see that final offset
-		expand := src[:len(src)+1]
-		// compute the length of this range by taking the final offset and subtracting where we started.
-		valuesRanges[i].len = int(expand[len(src)]) - valuesRanges[i].offset
-
-		if nextOffset > math.MaxInt32-int32(valuesRanges[i].len) {
-			return nil, nil, errors.New("offset overflow while concatenating arrays")
-		}
-
-		// adjust each offset by the difference between our last ending point and our starting point
-		adj := nextOffset - src[0]
-		for j, o := range src {
-			dst[nextElem+j] = adj + o
-		}
-
-		// the next index for an element in the output buffer
-		nextElem += b.Len() / arrow.Int32SizeBytes
-		// update our offset counter to be the total current length of our output
-		nextOffset += int32(valuesRanges[i].len)
-	}
-
-	// final offset should point to the end of the data
-	dst[outLen] = nextOffset
-	return out, valuesRanges, nil
-}
-
-func unifyDictionaries(mem memory.Allocator, data []arrow.ArrayData, dt *arrow.DictionaryType) ([]*memory.Buffer, arrow.Array, error) {
-	unifier, err := NewDictionaryUnifier(mem, dt.ValueType)
-	if err != nil {
-		return nil, nil, err
-	}
-	defer unifier.Release()
-
-	newLookup := make([]*memory.Buffer, len(data))
-	for i, d := range data {
-		dictArr := MakeFromData(d.Dictionary())
-		defer dictArr.Release()
-		newLookup[i], err = unifier.UnifyAndTranspose(dictArr)
-		if err != nil {
-			return nil, nil, err
-		}
-	}
-
-	unified, err := unifier.GetResultWithIndexType(dt.IndexType)
-	if err != nil {
-		for _, b := range newLookup {
-			b.Release()
-		}
-		return nil, nil, err
-	}
-	return newLookup, unified, nil
-}
-
-func concatDictIndices(mem memory.Allocator, data []arrow.ArrayData, idxType arrow.FixedWidthDataType, transpositions []*memory.Buffer) (out *memory.Buffer, err error) {
-	defer func() {
-		if err != nil && out != nil {
-			out.Release()
-			out = nil
-		}
-	}()
-
-	idxWidth := idxType.BitWidth() / 8
-	outLen := 0
-	for i, d := range data {
-		outLen += d.Len()
-		defer transpositions[i].Release()
-	}
-
-	out = memory.NewResizableBuffer(mem)
-	out.Resize(outLen * idxWidth)
-
-	outData := out.Bytes()
-	for i, d := range data {
-		transposeMap := arrow.Int32Traits.CastFromBytes(transpositions[i].Bytes())
-		src := d.Buffers()[1].Bytes()
-		if d.Buffers()[0] == nil {
-			if err = utils.TransposeIntsBuffers(idxType, idxType, src, outData, d.Offset(), 0, d.Len(), transposeMap); err != nil {
-				return
-			}
-		} else {
-			rdr := bitutils.NewBitRunReader(d.Buffers()[0].Bytes(), int64(d.Offset()), int64(d.Len()))
-			pos := 0
-			for {
-				run := rdr.NextRun()
-				if run.Len == 0 {
-					break
-				}
-
-				if run.Set {
-					err = utils.TransposeIntsBuffers(idxType, idxType, src, outData, d.Offset()+pos, pos, int(run.Len), transposeMap)
-					if err != nil {
-						return
-					}
-				} else {
-					memory.Set(outData[pos:pos+(int(run.Len)*idxWidth)], 0x00)
-				}
-
-				pos += int(run.Len)
-			}
-		}
-		outData = outData[d.Len()*idxWidth:]
-	}
-	return
-}
-
-func handle64BitOffsets(outLen int, buffers []*memory.Buffer, out *memory.Buffer) (*memory.Buffer, []rng, error) {
-	dst := arrow.Int64Traits.CastFromBytes(out.Bytes())
-	valuesRanges := make([]rng, len(buffers))
-	nextOffset := int64(0)
-	nextElem := int(0)
-	for i, b := range buffers {
-		if b.Len() == 0 {
-			valuesRanges[i].offset = 0
-			valuesRanges[i].len = 0
-			continue
-		}
-
-		// when we gather our buffers, we sliced off the last offset from the buffer
-		// so that we could count the lengths accurately
-		src := arrow.Int64Traits.CastFromBytes(b.Bytes())
-		valuesRanges[i].offset = int(src[0])
-		// expand our slice to see that final offset
-		expand := src[:len(src)+1]
-		// compute the length of this range by taking the final offset and subtracting where we started.
-		valuesRanges[i].len = int(expand[len(src)]) - valuesRanges[i].offset
-
-		if nextOffset > math.MaxInt64-int64(valuesRanges[i].len) {
-			return nil, nil, errors.New("offset overflow while concatenating arrays")
-		}
-
-		// adjust each offset by the difference between our last ending point and our starting point
-		adj := nextOffset - src[0]
-		for j, o := range src {
-			dst[nextElem+j] = adj + o
-		}
-
-		// the next index for an element in the output buffer
-		nextElem += b.Len() / arrow.Int64SizeBytes
-		// update our offset counter to be the total current length of our output
-		nextOffset += int64(valuesRanges[i].len)
-	}
-
-	// final offset should point to the end of the data
-	dst[outLen] = nextOffset
-	return out, valuesRanges, nil
-}
-
-// concatOffsets creates a single offset buffer which represents the concatenation of all of the
-// offsets buffers, adjusting the offsets appropriately to their new relative locations.
-//
-// It also returns the list of ranges that need to be fetched for the corresponding value buffers
-// to construct the final concatenated value buffer.
-func concatOffsets(buffers []*memory.Buffer, byteWidth int, mem memory.Allocator) (*memory.Buffer, []rng, error) {
-	outLen := 0
-	for _, b := range buffers {
-		outLen += b.Len() / byteWidth
-	}
-
-	out := memory.NewResizableBuffer(mem)
-	out.Resize(byteWidth * (outLen + 1))
-
-	switch byteWidth {
-	case arrow.Int64SizeBytes:
-		return handle64BitOffsets(outLen, buffers, out)
-	default:
-		return handle32BitOffsets(outLen, buffers, out)
-	}
-}
-
-func sumArraySizes(data []arrow.ArrayData) int {
-	outSize := 0
-	for _, arr := range data {
-		outSize += arr.Len()
-	}
-	return outSize
-}
-
-func getListViewBufferValues[T int32 | int64](data arrow.ArrayData, i int) []T {
-	bytes := data.Buffers()[i].Bytes()
-	base := (*T)(unsafe.Pointer(&bytes[0]))
-	ret := unsafe.Slice(base, data.Offset()+data.Len())
-	return ret[data.Offset():]
-}
-
-func putListViewOffsets32(in arrow.ArrayData, displacement int32, out *memory.Buffer, outOff int) {
-	debug.Assert(in.DataType().ID() == arrow.LIST_VIEW, "putListViewOffsets32: expected LIST_VIEW data")
-	inOff, inLen := in.Offset(), in.Len()
-	if inLen == 0 {
-		return
-	}
-	bitmap := in.Buffers()[0]
-	srcOffsets := getListViewBufferValues[int32](in, 1)
-	srcSizes := getListViewBufferValues[int32](in, 2)
-	isValidAndNonEmpty := func(i int) bool {
-		return (bitmap == nil || bitutil.BitIsSet(bitmap.Bytes(), inOff+i)) && srcSizes[i] > 0
-	}
-
-	dstOffsets := arrow.Int32Traits.CastFromBytes(out.Bytes())
-	for i, offset := range srcOffsets {
-		if isValidAndNonEmpty(i) {
-			// This is guaranteed by RangeOfValuesUsed returning the smallest offset
-			// of valid and non-empty list-views.
-			debug.Assert(offset+displacement >= 0, "putListViewOffsets32: offset underflow while concatenating arrays")
-			dstOffsets[outOff+i] = offset + displacement
-		} else {
-			dstOffsets[outOff+i] = 0
-		}
-	}
-}
-
-func putListViewOffsets64(in arrow.ArrayData, displacement int64, out *memory.Buffer, outOff int) {
-	debug.Assert(in.DataType().ID() == arrow.LARGE_LIST_VIEW, "putListViewOffsets64: expected LARGE_LIST_VIEW data")
-	inOff, inLen := in.Offset(), in.Len()
-	if inLen == 0 {
-		return
-	}
-	bitmap := in.Buffers()[0]
-	srcOffsets := getListViewBufferValues[int64](in, 1)
-	srcSizes := getListViewBufferValues[int64](in, 2)
-	isValidAndNonEmpty := func(i int) bool {
-		return (bitmap == nil || bitutil.BitIsSet(bitmap.Bytes(), inOff+i)) && srcSizes[i] > 0
-	}
-
-	dstOffsets := arrow.Int64Traits.CastFromBytes(out.Bytes())
-	for i, offset := range srcOffsets {
-		if isValidAndNonEmpty(i) {
-			// This is guaranteed by RangeOfValuesUsed returning the smallest offset
-			// of valid and non-empty list-views.
-			debug.Assert(offset+displacement >= 0, "putListViewOffsets64: offset underflow while concatenating arrays")
-			dstOffsets[outOff+i] = offset + displacement
-		} else {
-			dstOffsets[outOff+i] = 0
-		}
-	}
-}
-
-// Concatenate buffers holding list-view offsets into a single buffer of offsets
-//
-// valueRanges contains the relevant ranges of values in the child array actually
-// referenced to by the views. Most commonly, these ranges will start from 0,
-// but when that is not the case, we need to adjust the displacement of offsets.
-// The concatenated child array does not contain values from the beginning
-// if they are not referenced to by any view.
-func concatListViewOffsets(data []arrow.ArrayData, byteWidth int, valueRanges []rng, mem memory.Allocator) (*memory.Buffer, error) {
-	outSize := sumArraySizes(data)
-	if byteWidth == 4 && outSize > math.MaxInt32 {
-		return nil, fmt.Errorf("%w: offset overflow while concatenating arrays", arrow.ErrInvalid)
-	}
-	out := memory.NewResizableBuffer(mem)
-	out.Resize(byteWidth * outSize)
-
-	numChildValues, elementsLength := 0, 0
-	for i, arr := range data {
-		displacement := numChildValues - valueRanges[i].offset
-		if byteWidth == 4 {
-			putListViewOffsets32(arr, int32(displacement), out, elementsLength)
-		} else {
-			putListViewOffsets64(arr, int64(displacement), out, elementsLength)
-		}
-		elementsLength += arr.Len()
-		numChildValues += valueRanges[i].len
-	}
-	debug.Assert(elementsLength == outSize, "implementation error")
-
-	return out, nil
-}
-
-func zeroNullListViewSizes[T int32 | int64](data arrow.ArrayData) {
-	if data.Len() == 0 || data.Buffers()[0] == nil {
-		return
-	}
-	validity := data.Buffers()[0].Bytes()
-	sizes := getListViewBufferValues[T](data, 2)
-
-	for i := 0; i < data.Len(); i++ {
-		if !bitutil.BitIsSet(validity, data.Offset()+i) {
-			sizes[i] = 0
-		}
-	}
-}
-
-func concatListView(data []arrow.ArrayData, offsetType arrow.FixedWidthDataType, out *Data, mem memory.Allocator) (err error) {
-	// Calculate the ranges of values that each list-view array uses
-	valueRanges := make([]rng, len(data))
-	for i, input := range data {
-		offset, len := rangeOfValuesUsed(input)
-		valueRanges[i].offset = offset
-		valueRanges[i].len = len
-	}
-
-	// Gather the children ranges of each input array
-	childData := gatherChildrenRanges(data, 0, valueRanges)
-	for _, c := range childData {
-		defer c.Release()
-	}
-
-	// Concatenate the values
-	values, err := concat(childData, mem)
-	if err != nil {
-		return err
-	}
-
-	// Concatenate the offsets
-	offsetBuffer, err := concatListViewOffsets(data, offsetType.Bytes(), valueRanges, mem)
-	if err != nil {
-		return err
-	}
-
-	// Concatenate the sizes
-	sizeBuffers := gatherBuffersFixedWidthType(data, 2, offsetType)
-	sizeBuffer := concatBuffers(sizeBuffers, mem)
-
-	out.childData = []arrow.ArrayData{values}
-	out.buffers[1] = offsetBuffer
-	out.buffers[2] = sizeBuffer
-
-	// To make sure the sizes don't reference values that are not in the new
-	// concatenated values array, we zero the sizes of null list-view values.
-	if offsetType.ID() == arrow.INT32 {
-		zeroNullListViewSizes[int32](out)
-	} else {
-		zeroNullListViewSizes[int64](out)
-	}
-
-	return nil
-}
-
-// concat is the implementation for actually performing the concatenation of the arrow.ArrayData
-// objects that we can call internally for nested types.
-func concat(data []arrow.ArrayData, mem memory.Allocator) (arr arrow.ArrayData, err error) {
-	out := &Data{refCount: 1, dtype: data[0].DataType(), nulls: 0}
-	defer func() {
-		if pErr := recover(); pErr != nil {
-			err = utils.FormatRecoveredError("arrow/concat", pErr)
-		}
-		if err != nil {
-			out.Release()
-		}
-	}()
-	for _, d := range data {
-		out.length += d.Len()
-		if out.nulls == UnknownNullCount || d.NullN() == UnknownNullCount {
-			out.nulls = UnknownNullCount
-			continue
-		}
-		out.nulls += d.NullN()
-	}
-
-	out.buffers = make([]*memory.Buffer, len(data[0].Buffers()))
-	if out.nulls != 0 && out.dtype.ID() != arrow.NULL {
-		bm, err := concatBitmaps(gatherBitmaps(data, 0), mem)
-		if err != nil {
-			return nil, err
-		}
-		out.buffers[0] = bm
-	}
-
-	dt := out.dtype
-	if dt.ID() == arrow.EXTENSION {
-		dt = dt.(arrow.ExtensionType).StorageType()
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.NullType:
-	case *arrow.BooleanType:
-		bm, err := concatBitmaps(gatherBitmaps(data, 1), mem)
-		if err != nil {
-			return nil, err
-		}
-		out.buffers[1] = bm
-	case *arrow.DictionaryType:
-		idxType := dt.IndexType.(arrow.FixedWidthDataType)
-		// two cases: all dictionaries are the same or we need to unify them
-		dictsSame := true
-		dict0 := MakeFromData(data[0].Dictionary())
-		defer dict0.Release()
-		for _, d := range data {
-			dict := MakeFromData(d.Dictionary())
-			if !Equal(dict0, dict) {
-				dict.Release()
-				dictsSame = false
-				break
-			}
-			dict.Release()
-		}
-
-		indexBuffers := gatherBuffersFixedWidthType(data, 1, idxType)
-		if dictsSame {
-			out.dictionary = dict0.Data().(*Data)
-			out.dictionary.Retain()
-			out.buffers[1] = concatBuffers(indexBuffers, mem)
-			break
-		}
-
-		indexLookup, unifiedDict, err := unifyDictionaries(mem, data, dt)
-		if err != nil {
-			return nil, err
-		}
-		defer unifiedDict.Release()
-		out.dictionary = unifiedDict.Data().(*Data)
-		out.dictionary.Retain()
-
-		out.buffers[1], err = concatDictIndices(mem, data, idxType, indexLookup)
-		if err != nil {
-			return nil, err
-		}
-	case arrow.FixedWidthDataType:
-		out.buffers[1] = concatBuffers(gatherBuffersFixedWidthType(data, 1, dt), mem)
-	case arrow.BinaryViewDataType:
-		out.buffers = out.buffers[:2]
-		for _, d := range data {
-			for _, buf := range d.Buffers()[2:] {
-				buf.Retain()
-				out.buffers = append(out.buffers, buf)
-			}
-		}
-
-		out.buffers[1] = concatBuffers(gatherFixedBuffers(data, 1, arrow.ViewHeaderSizeBytes), mem)
-
-		var (
-			s                  = arrow.ViewHeaderTraits.CastFromBytes(out.buffers[1].Bytes())
-			i                  = data[0].Len()
-			precedingBufsCount int
-		)
-
-		for idx := 1; idx < len(data); idx++ {
-			precedingBufsCount += len(data[idx-1].Buffers()) - 2
-
-			for end := i + data[idx].Len(); i < end; i++ {
-				if s[i].IsInline() {
-					continue
-				}
-
-				bufIndex := s[i].BufferIndex() + int32(precedingBufsCount)
-				s[i].SetIndexOffset(bufIndex, s[i].BufferOffset())
-			}
-		}
-	case arrow.BinaryDataType:
-		offsetWidth := dt.Layout().Buffers[1].ByteWidth
-		offsetBuffer, valueRanges, err := concatOffsets(gatherFixedBuffers(data, 1, offsetWidth), offsetWidth, mem)
-		if err != nil {
-			return nil, err
-		}
-		out.buffers[1] = offsetBuffer
-		out.buffers[2] = concatBuffers(gatherBufferRanges(data, 2, valueRanges), mem)
-	case *arrow.ListType:
-		offsetWidth := dt.Layout().Buffers[1].ByteWidth
-		offsetBuffer, valueRanges, err := concatOffsets(gatherFixedBuffers(data, 1, offsetWidth), offsetWidth, mem)
-		if err != nil {
-			return nil, err
-		}
-		childData := gatherChildrenRanges(data, 0, valueRanges)
-		for _, c := range childData {
-			defer c.Release()
-		}
-
-		out.buffers[1] = offsetBuffer
-		out.childData = make([]arrow.ArrayData, 1)
-		out.childData[0], err = concat(childData, mem)
-		if err != nil {
-			return nil, err
-		}
-	case *arrow.LargeListType:
-		offsetWidth := dt.Layout().Buffers[1].ByteWidth
-		offsetBuffer, valueRanges, err := concatOffsets(gatherFixedBuffers(data, 1, offsetWidth), offsetWidth, mem)
-		if err != nil {
-			return nil, err
-		}
-		childData := gatherChildrenRanges(data, 0, valueRanges)
-		for _, c := range childData {
-			defer c.Release()
-		}
-
-		out.buffers[1] = offsetBuffer
-		out.childData = make([]arrow.ArrayData, 1)
-		out.childData[0], err = concat(childData, mem)
-		if err != nil {
-			return nil, err
-		}
-	case *arrow.ListViewType:
-		offsetType := arrow.PrimitiveTypes.Int32.(arrow.FixedWidthDataType)
-		err := concatListView(data, offsetType, out, mem)
-		if err != nil {
-			return nil, err
-		}
-	case *arrow.LargeListViewType:
-		offsetType := arrow.PrimitiveTypes.Int64.(arrow.FixedWidthDataType)
-		err := concatListView(data, offsetType, out, mem)
-		if err != nil {
-			return nil, err
-		}
-	case *arrow.FixedSizeListType:
-		childData := gatherChildrenMultiplier(data, 0, int(dt.Len()))
-		for _, c := range childData {
-			defer c.Release()
-		}
-
-		children, err := concat(childData, mem)
-		if err != nil {
-			return nil, err
-		}
-		out.childData = []arrow.ArrayData{children}
-	case *arrow.StructType:
-		out.childData = make([]arrow.ArrayData, dt.NumFields())
-		for i := range dt.Fields() {
-			children := gatherChildren(data, i)
-			for _, c := range children {
-				defer c.Release()
-			}
-
-			childData, err := concat(children, mem)
-			if err != nil {
-				return nil, err
-			}
-			out.childData[i] = childData
-		}
-	case *arrow.MapType:
-		offsetWidth := dt.Layout().Buffers[1].ByteWidth
-		offsetBuffer, valueRanges, err := concatOffsets(gatherFixedBuffers(data, 1, offsetWidth), offsetWidth, mem)
-		if err != nil {
-			return nil, err
-		}
-		childData := gatherChildrenRanges(data, 0, valueRanges)
-		for _, c := range childData {
-			defer c.Release()
-		}
-
-		out.buffers[1] = offsetBuffer
-		out.childData = make([]arrow.ArrayData, 1)
-		out.childData[0], err = concat(childData, mem)
-		if err != nil {
-			return nil, err
-		}
-	case *arrow.RunEndEncodedType:
-		physicalLength, overflow := int(0), false
-		// we can't use gatherChildren because the Offset and Len of
-		// data doesn't correspond to the physical length or offset
-		runs := make([]arrow.ArrayData, len(data))
-		values := make([]arrow.ArrayData, len(data))
-		for i, d := range data {
-			plen := encoded.GetPhysicalLength(d)
-			off := encoded.FindPhysicalOffset(d)
-
-			runs[i] = NewSliceData(d.Children()[0], int64(off), int64(off+plen))
-			defer runs[i].Release()
-			values[i] = NewSliceData(d.Children()[1], int64(off), int64(off+plen))
-			defer values[i].Release()
-
-			physicalLength, overflow = addOvf(physicalLength, plen)
-			if overflow {
-				return nil, fmt.Errorf("%w: run end encoded array length must fit into a 32-bit signed integer",
-					arrow.ErrInvalid)
-			}
-		}
-
-		runEndsByteWidth := runs[0].DataType().(arrow.FixedWidthDataType).Bytes()
-		runEndsBuffers := gatherFixedBuffers(runs, 1, runEndsByteWidth)
-		outRunEndsLen := physicalLength * runEndsByteWidth
-		outRunEndsBuf := memory.NewResizableBuffer(mem)
-		outRunEndsBuf.Resize(outRunEndsLen)
-		defer outRunEndsBuf.Release()
-
-		if err := updateRunEnds(runEndsByteWidth, data, runEndsBuffers, outRunEndsBuf); err != nil {
-			return nil, err
-		}
-
-		out.childData = make([]arrow.ArrayData, 2)
-		out.childData[0] = NewData(data[0].Children()[0].DataType(), int(physicalLength),
-			[]*memory.Buffer{nil, outRunEndsBuf}, nil, 0, 0)
-
-		var err error
-		out.childData[1], err = concat(values, mem)
-		if err != nil {
-			out.childData[0].Release()
-			return nil, err
-		}
-	default:
-		return nil, fmt.Errorf("concatenate not implemented for type %s", dt)
-	}
-
-	return out, nil
-}
-
-// check overflow in the addition, taken from bits.Add but adapted for signed integers
-// rather than unsigned integers. bits.UintSize will be either 32 or 64 based on
-// whether our architecture is 32 bit or 64. The operation is the same for both cases,
-// the only difference is how much we need to shift by 30 for 32 bit and 62 for 64 bit.
-// Thus, bits.UintSize - 2 is how much we shift right by to check if we had an overflow
-// in the signed addition.
-//
-// First return is the result of the sum, the second return is true if there was an overflow
-func addOvf(x, y int) (int, bool) {
-	sum := x + y
-	return sum, ((x&y)|((x|y)&^sum))>>(bits.UintSize-2) == 1
-}
-
-// concatenate bitmaps together and return a buffer with the combined bitmaps
-func concatBitmaps(bitmaps []bitmap, mem memory.Allocator) (*memory.Buffer, error) {
-	var (
-		outlen   int
-		overflow bool
-	)
-
-	for _, bm := range bitmaps {
-		if outlen, overflow = addOvf(outlen, bm.rng.len); overflow {
-			return nil, errors.New("length overflow when concatenating arrays")
-		}
-	}
-
-	out := memory.NewResizableBuffer(mem)
-	out.Resize(int(bitutil.BytesForBits(int64(outlen))))
-	dst := out.Bytes()
-
-	offset := 0
-	for _, bm := range bitmaps {
-		if bm.data == nil { // if the bitmap is nil, that implies that the value is true for all elements
-			bitutil.SetBitsTo(out.Bytes(), int64(offset), int64(bm.rng.len), true)
-		} else {
-			bitutil.CopyBitmap(bm.data, bm.rng.offset, bm.rng.len, dst, offset)
-		}
-		offset += bm.rng.len
-	}
-	return out, nil
-}
-
-func updateRunEnds(byteWidth int, inputData []arrow.ArrayData, inputBuffers []*memory.Buffer, outputBuffer *memory.Buffer) error {
-	switch byteWidth {
-	case 2:
-		out := arrow.Int16Traits.CastFromBytes(outputBuffer.Bytes())
-		return updateRunsInt16(inputData, inputBuffers, out)
-	case 4:
-		out := arrow.Int32Traits.CastFromBytes(outputBuffer.Bytes())
-		return updateRunsInt32(inputData, inputBuffers, out)
-	case 8:
-		out := arrow.Int64Traits.CastFromBytes(outputBuffer.Bytes())
-		return updateRunsInt64(inputData, inputBuffers, out)
-	}
-	return fmt.Errorf("%w: invalid dataType for RLE runEnds", arrow.ErrInvalid)
-}
-
-func updateRunsInt16(inputData []arrow.ArrayData, inputBuffers []*memory.Buffer, output []int16) error {
-	// for now we will not attempt to optimize by checking if we
-	// can fold the end and beginning of each array we're concatenating
-	// into a single run
-	pos := 0
-	for i, buf := range inputBuffers {
-		if buf.Len() == 0 {
-			continue
-		}
-		src := arrow.Int16Traits.CastFromBytes(buf.Bytes())
-		if pos == 0 {
-			pos += copy(output, src)
-			continue
-		}
-
-		lastEnd := output[pos-1]
-		// we can check the last runEnd in the src and add it to the
-		// last value that we're adjusting them all by to see if we
-		// are going to overflow
-		if int64(lastEnd)+int64(int(src[len(src)-1])-inputData[i].Offset()) > math.MaxInt16 {
-			return fmt.Errorf("%w: overflow in run-length-encoded run ends concat", arrow.ErrInvalid)
-		}
-
-		// adjust all of the run ends by first normalizing them (e - data[i].offset)
-		// then adding the previous value we ended on. Since the offset
-		// is a logical length offset it should be accurate to just subtract
-		// it from each value.
-		for j, e := range src {
-			output[pos+j] = lastEnd + int16(int(e)-inputData[i].Offset())
-		}
-		pos += len(src)
-	}
-	return nil
-}
-
-func updateRunsInt32(inputData []arrow.ArrayData, inputBuffers []*memory.Buffer, output []int32) error {
-	// for now we will not attempt to optimize by checking if we
-	// can fold the end and beginning of each array we're concatenating
-	// into a single run
-	pos := 0
-	for i, buf := range inputBuffers {
-		if buf.Len() == 0 {
-			continue
-		}
-		src := arrow.Int32Traits.CastFromBytes(buf.Bytes())
-		if pos == 0 {
-			pos += copy(output, src)
-			continue
-		}
-
-		lastEnd := output[pos-1]
-		// we can check the last runEnd in the src and add it to the
-		// last value that we're adjusting them all by to see if we
-		// are going to overflow
-		if int64(lastEnd)+int64(int(src[len(src)-1])-inputData[i].Offset()) > math.MaxInt32 {
-			return fmt.Errorf("%w: overflow in run-length-encoded run ends concat", arrow.ErrInvalid)
-		}
-
-		// adjust all of the run ends by first normalizing them (e - data[i].offset)
-		// then adding the previous value we ended on. Since the offset
-		// is a logical length offset it should be accurate to just subtract
-		// it from each value.
-		for j, e := range src {
-			output[pos+j] = lastEnd + int32(int(e)-inputData[i].Offset())
-		}
-		pos += len(src)
-	}
-	return nil
-}
-
-func updateRunsInt64(inputData []arrow.ArrayData, inputBuffers []*memory.Buffer, output []int64) error {
-	// for now we will not attempt to optimize by checking if we
-	// can fold the end and beginning of each array we're concatenating
-	// into a single run
-	pos := 0
-	for i, buf := range inputBuffers {
-		if buf.Len() == 0 {
-			continue
-		}
-		src := arrow.Int64Traits.CastFromBytes(buf.Bytes())
-		if pos == 0 {
-			pos += copy(output, src)
-			continue
-		}
-
-		lastEnd := output[pos-1]
-		// we can check the last runEnd in the src and add it to the
-		// last value that we're adjusting them all by to see if we
-		// are going to overflow
-		if uint64(lastEnd)+uint64(int(src[len(src)-1])-inputData[i].Offset()) > math.MaxInt64 {
-			return fmt.Errorf("%w: overflow in run-length-encoded run ends concat", arrow.ErrInvalid)
-		}
-
-		// adjust all of the run ends by first normalizing them (e - data[i].offset)
-		// then adding the previous value we ended on. Since the offset
-		// is a logical length offset it should be accurate to just subtract
-		// it from each value.
-		for j, e := range src {
-			output[pos+j] = lastEnd + e - int64(inputData[i].Offset())
-		}
-		pos += len(src)
-	}
-	return nil
-}
diff --git a/go/arrow/array/concat_test.go b/go/arrow/array/concat_test.go
deleted file mode 100644
index 7e6a3c08efd5c..0000000000000
--- a/go/arrow/array/concat_test.go
+++ /dev/null
@@ -1,789 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"math"
-	"sort"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-	"golang.org/x/exp/rand"
-)
-
-func TestConcatenateValueBuffersNull(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	inputs := make([]arrow.Array, 0)
-
-	bldr := array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	inputs = append(inputs, arr)
-
-	bldr.AppendNull()
-	arr = bldr.NewArray()
-	defer arr.Release()
-	inputs = append(inputs, arr)
-
-	actual, err := array.Concatenate(inputs, mem)
-	assert.NoError(t, err)
-	defer actual.Release()
-
-	assert.True(t, array.Equal(actual, inputs[1]))
-}
-
-func TestConcatenate(t *testing.T) {
-	tests := []struct {
-		dt arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Boolean},
-		{arrow.PrimitiveTypes.Int8},
-		{arrow.PrimitiveTypes.Uint8},
-		{arrow.PrimitiveTypes.Int16},
-		{arrow.PrimitiveTypes.Uint16},
-		{arrow.PrimitiveTypes.Int32},
-		{arrow.PrimitiveTypes.Uint32},
-		{arrow.PrimitiveTypes.Int64},
-		{arrow.PrimitiveTypes.Uint64},
-		{arrow.PrimitiveTypes.Float32},
-		{arrow.PrimitiveTypes.Float64},
-		{arrow.BinaryTypes.String},
-		{arrow.BinaryTypes.LargeString},
-		{arrow.ListOf(arrow.PrimitiveTypes.Int8)},
-		{arrow.LargeListOf(arrow.PrimitiveTypes.Int8)},
-		{arrow.ListViewOf(arrow.PrimitiveTypes.Int8)},
-		{arrow.LargeListViewOf(arrow.PrimitiveTypes.Int8)},
-		{arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int8)},
-		{arrow.StructOf()},
-		{arrow.MapOf(arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Int8)},
-		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.PrimitiveTypes.Float64}},
-		{arrow.BinaryTypes.StringView},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.dt.Name(), func(t *testing.T) {
-			suite.Run(t, &ConcatTestSuite{
-				seed:      0xdeadbeef,
-				dt:        tt.dt,
-				nullProbs: []float64{0.0, 0.1, 0.5, 0.9, 1.0},
-				sizes:     []int32{0, 1, 2, 4, 16, 31, 1234},
-			})
-		})
-	}
-}
-
-type ConcatTestSuite struct {
-	suite.Suite
-
-	seed uint64
-	rng  gen.RandomArrayGenerator
-	dt   arrow.DataType
-
-	nullProbs []float64
-	sizes     []int32
-
-	mem *memory.CheckedAllocator
-}
-
-func (cts *ConcatTestSuite) SetupSuite() {
-	cts.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	cts.rng = gen.NewRandomArrayGenerator(cts.seed, cts.mem)
-}
-
-func (cts *ConcatTestSuite) TearDownSuite() {
-	cts.mem.AssertSize(cts.T(), 0)
-}
-
-func (cts *ConcatTestSuite) generateArr(size int64, nullprob float64) arrow.Array {
-	switch cts.dt.ID() {
-	case arrow.BOOL:
-		return cts.rng.Boolean(size, 0.5, nullprob)
-	case arrow.INT8:
-		return cts.rng.Int8(size, 0, 127, nullprob)
-	case arrow.UINT8:
-		return cts.rng.Uint8(size, 0, 127, nullprob)
-	case arrow.INT16:
-		return cts.rng.Int16(size, 0, 127, nullprob)
-	case arrow.UINT16:
-		return cts.rng.Uint16(size, 0, 127, nullprob)
-	case arrow.INT32:
-		return cts.rng.Int32(size, 0, 127, nullprob)
-	case arrow.UINT32:
-		return cts.rng.Uint32(size, 0, 127, nullprob)
-	case arrow.INT64:
-		return cts.rng.Int64(size, 0, 127, nullprob)
-	case arrow.UINT64:
-		return cts.rng.Uint64(size, 0, 127, nullprob)
-	case arrow.FLOAT32:
-		return cts.rng.Float32(size, 0, 127, nullprob)
-	case arrow.FLOAT64:
-		return cts.rng.Float64(size, 0, 127, nullprob)
-	case arrow.NULL:
-		return array.NewNull(int(size))
-	case arrow.STRING:
-		return cts.rng.String(size, 0, 15, nullprob)
-	case arrow.LARGE_STRING:
-		return cts.rng.LargeString(size, 0, 15, nullprob)
-	case arrow.STRING_VIEW:
-		return cts.rng.StringView(size, 0, 20, nullprob)
-	case arrow.LIST:
-		valuesSize := size * 4
-		values := cts.rng.Int8(valuesSize, 0, 127, nullprob).(*array.Int8)
-		defer values.Release()
-		offsetsVector := cts.offsets(int32(valuesSize), int32(size))
-		// ensure the first and last offsets encompass the whole values
-		offsetsVector[0] = 0
-		offsetsVector[len(offsetsVector)-1] = int32(valuesSize)
-
-		bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int8)
-		defer bldr.Release()
-
-		valid := make([]bool, len(offsetsVector)-1)
-		for i := range valid {
-			valid[i] = true
-		}
-		bldr.AppendValues(offsetsVector, valid)
-		vb := bldr.ValueBuilder().(*array.Int8Builder)
-		for i := 0; i < values.Len(); i++ {
-			if values.IsValid(i) {
-				vb.Append(values.Value(i))
-			} else {
-				vb.AppendNull()
-			}
-		}
-		return bldr.NewArray()
-	case arrow.LARGE_LIST:
-		valuesSize := size * 8
-		values := cts.rng.Int8(valuesSize, 0, 127, nullprob).(*array.Int8)
-		defer values.Release()
-		offsetsVector := cts.largeoffsets(int64(valuesSize), int32(size))
-		// ensure the first and last offsets encompass the whole values
-		offsetsVector[0] = 0
-		offsetsVector[len(offsetsVector)-1] = int64(valuesSize)
-
-		bldr := array.NewLargeListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int8)
-		defer bldr.Release()
-
-		valid := make([]bool, len(offsetsVector)-1)
-		for i := range valid {
-			valid[i] = true
-		}
-		bldr.AppendValues(offsetsVector, valid)
-		vb := bldr.ValueBuilder().(*array.Int8Builder)
-		for i := 0; i < values.Len(); i++ {
-			if values.IsValid(i) {
-				vb.Append(values.Value(i))
-			} else {
-				vb.AppendNull()
-			}
-		}
-		return bldr.NewArray()
-	case arrow.LIST_VIEW:
-		arr := cts.rng.ListView(cts.dt.(arrow.VarLenListLikeType), size, 0, 20, nullprob)
-		err := arr.ValidateFull()
-		cts.NoError(err)
-		return arr
-	case arrow.LARGE_LIST_VIEW:
-		arr := cts.rng.LargeListView(cts.dt.(arrow.VarLenListLikeType), size, 0, 20, nullprob)
-		err := arr.ValidateFull()
-		cts.NoError(err)
-		return arr
-	case arrow.FIXED_SIZE_LIST:
-		const listsize = 3
-		valuesSize := size * listsize
-		values := cts.rng.Int8(valuesSize, 0, 127, nullprob)
-		defer values.Release()
-
-		data := array.NewData(arrow.FixedSizeListOf(listsize, arrow.PrimitiveTypes.Int8), int(size), []*memory.Buffer{nil}, []arrow.ArrayData{values.Data()}, 0, 0)
-		defer data.Release()
-		return array.MakeFromData(data)
-	case arrow.STRUCT:
-		foo := cts.rng.Int8(size, 0, 127, nullprob)
-		defer foo.Release()
-		bar := cts.rng.Float64(size, 0, 127, nullprob)
-		defer bar.Release()
-		baz := cts.rng.Boolean(size, 0.5, nullprob)
-		defer baz.Release()
-
-		data := array.NewData(arrow.StructOf(
-			arrow.Field{Name: "foo", Type: foo.DataType(), Nullable: true},
-			arrow.Field{Name: "bar", Type: bar.DataType(), Nullable: true},
-			arrow.Field{Name: "baz", Type: baz.DataType(), Nullable: true}),
-			int(size), []*memory.Buffer{nil}, []arrow.ArrayData{foo.Data(), bar.Data(), baz.Data()}, 0, 0)
-		defer data.Release()
-		return array.NewStructData(data)
-	case arrow.MAP:
-		valuesSize := size * 4
-		keys := cts.rng.Uint16(valuesSize, 0, 127, 0).(*array.Uint16)
-		defer keys.Release()
-		values := cts.rng.Int8(valuesSize, 0, 127, nullprob).(*array.Int8)
-		defer values.Release()
-
-		offsetsVector := cts.offsets(int32(valuesSize), int32(size))
-		offsetsVector[0] = 0
-		offsetsVector[len(offsetsVector)-1] = int32(valuesSize)
-
-		bldr := array.NewMapBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Int8, false)
-		defer bldr.Release()
-
-		kb := bldr.KeyBuilder().(*array.Uint16Builder)
-		vb := bldr.ItemBuilder().(*array.Int8Builder)
-
-		valid := make([]bool, len(offsetsVector)-1)
-		for i := range valid {
-			valid[i] = true
-		}
-		bldr.AppendValues(offsetsVector, valid)
-		for i := 0; i < int(valuesSize); i++ {
-			kb.Append(keys.Value(i))
-			if values.IsValid(i) {
-				vb.Append(values.Value(i))
-			} else {
-				vb.AppendNull()
-			}
-		}
-		return bldr.NewArray()
-	case arrow.DICTIONARY:
-		indices := cts.rng.Int32(size, 0, 127, nullprob)
-		defer indices.Release()
-		dict := cts.rng.Float64(128, 0.0, 127.0, nullprob)
-		defer dict.Release()
-		return array.NewDictionaryArray(cts.dt, indices, dict)
-	default:
-		return nil
-	}
-}
-
-func (cts *ConcatTestSuite) slices(arr arrow.Array, offsets []int32) []arrow.Array {
-	slices := make([]arrow.Array, len(offsets)-1)
-	for i := 0; i != len(slices); i++ {
-		slices[i] = array.NewSlice(arr, int64(offsets[i]), int64(offsets[i+1]))
-	}
-	return slices
-}
-
-func (cts *ConcatTestSuite) checkTrailingBitsZeroed(bitmap *memory.Buffer, length int64) {
-	if preceding := bitutil.PrecedingBitmask[length%8]; preceding != 0 {
-		lastByte := bitmap.Bytes()[length/8]
-		cts.Equal(lastByte&preceding, lastByte, length, preceding)
-	}
-}
-
-func (cts *ConcatTestSuite) offsets(length, slicecount int32) []int32 {
-	offsets := make([]int32, slicecount+1)
-	dist := rand.New(rand.NewSource(cts.seed))
-	for i := range offsets {
-		offsets[i] = dist.Int31n(length + 1)
-	}
-	sort.Slice(offsets, func(i, j int) bool { return offsets[i] < offsets[j] })
-	return offsets
-}
-
-func (cts *ConcatTestSuite) largeoffsets(length int64, slicecount int32) []int64 {
-	offsets := make([]int64, slicecount+1)
-	dist := rand.New(rand.NewSource(cts.seed))
-	for i := range offsets {
-		offsets[i] = dist.Int63n(length + 1)
-	}
-	sort.Slice(offsets, func(i, j int) bool { return offsets[i] < offsets[j] })
-	return offsets
-}
-
-func (cts *ConcatTestSuite) TestCheckConcat() {
-	for _, sz := range cts.sizes {
-		cts.Run(fmt.Sprintf("size %d", sz), func() {
-			offsets := cts.offsets(sz, 3)
-			for _, np := range cts.nullProbs {
-				cts.Run(fmt.Sprintf("nullprob %0.2f", np), func() {
-					scopedMem := memory.NewCheckedAllocatorScope(cts.mem)
-					defer scopedMem.CheckSize(cts.T())
-
-					arr := cts.generateArr(int64(sz), np)
-					defer arr.Release()
-					expected := array.NewSlice(arr, int64(offsets[0]), int64(offsets[len(offsets)-1]))
-					defer expected.Release()
-
-					slices := cts.slices(arr, offsets)
-					for _, s := range slices {
-						if s.DataType().ID() == arrow.LIST_VIEW {
-							err := s.(*array.ListView).ValidateFull()
-							cts.NoError(err)
-						}
-						defer s.Release()
-					}
-
-					actual, err := array.Concatenate(slices, cts.mem)
-					cts.NoError(err)
-					if arr.DataType().ID() == arrow.LIST_VIEW {
-						lv := actual.(*array.ListView)
-						err := lv.ValidateFull()
-						cts.NoError(err)
-					}
-					defer actual.Release()
-
-					cts.Truef(array.Equal(expected, actual), "expected: %s\ngot: %s\n", expected, actual)
-					if len(actual.Data().Buffers()) > 0 {
-						if actual.Data().Buffers()[0] != nil {
-							cts.checkTrailingBitsZeroed(actual.Data().Buffers()[0], int64(actual.Len()))
-						}
-						if actual.DataType().ID() == arrow.BOOL {
-							cts.checkTrailingBitsZeroed(actual.Data().Buffers()[1], int64(actual.Len()))
-						}
-					}
-				})
-			}
-		})
-	}
-}
-
-func TestConcatDifferentDicts(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	t.Run("simple dicts", func(t *testing.T) {
-		scopedMem := memory.NewCheckedAllocatorScope(mem)
-		defer scopedMem.CheckSize(t)
-
-		dictType := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String}
-		dict1, err := array.DictArrayFromJSON(mem, dictType, `[1, 2, null, 3, 0]`, `["A0", "A1", "A2", "A3"]`)
-		require.NoError(t, err)
-		defer dict1.Release()
-		dict2, err := array.DictArrayFromJSON(mem, dictType, `[null, 4, 2, 1]`, `["B0", "B1", "B2", "B3", "B4"]`)
-		require.NoError(t, err)
-		defer dict2.Release()
-
-		expected, err := array.DictArrayFromJSON(mem, dictType, `[1, 2, null, 3, 0, null, 8, 6, 5]`, `["A0", "A1", "A2", "A3", "B0", "B1", "B2", "B3", "B4"]`)
-		require.NoError(t, err)
-		defer expected.Release()
-
-		concat, err := array.Concatenate([]arrow.Array{dict1, dict2}, mem)
-		assert.NoError(t, err)
-		defer concat.Release()
-		assert.Truef(t, array.Equal(concat, expected), "got: %s, expected: %s", concat, expected)
-	})
-
-	t.Run("larger", func(t *testing.T) {
-		scopedMem := memory.NewCheckedAllocatorScope(mem)
-		defer scopedMem.CheckSize(t)
-
-		const size = 500
-		dictType := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: arrow.BinaryTypes.String}
-
-		idxBuilder, exIdxBldr := array.NewUint16Builder(mem), array.NewUint16Builder(mem)
-		defer idxBuilder.Release()
-		defer exIdxBldr.Release()
-		idxBuilder.Reserve(size)
-		exIdxBldr.Reserve(size * 2)
-
-		for i := uint16(0); i < size; i++ {
-			idxBuilder.UnsafeAppend(i)
-			exIdxBldr.UnsafeAppend(i)
-		}
-		for i := uint16(size); i < 2*size; i++ {
-			exIdxBldr.UnsafeAppend(i)
-		}
-
-		indices, expIndices := idxBuilder.NewArray(), exIdxBldr.NewArray()
-		defer indices.Release()
-		defer expIndices.Release()
-
-		// create three dictionaries. First maps i -> "{i}", second maps i->"{500+i}",
-		// each for 500 values and the third maps i -> "{i}" but for 1000 values.
-		// first and second concatenated should end up equaling the third. All strings
-		// padded to length 8 so we can know the size ahead of time.
-		valuesOneBldr, valuesTwoBldr := array.NewStringBuilder(mem), array.NewStringBuilder(mem)
-		defer valuesOneBldr.Release()
-		defer valuesTwoBldr.Release()
-
-		valuesOneBldr.Reserve(size)
-		valuesTwoBldr.Reserve(size)
-		valuesOneBldr.ReserveData(size * 8)
-		valuesTwoBldr.ReserveData(size * 8)
-
-		for i := 0; i < size; i++ {
-			valuesOneBldr.Append(fmt.Sprintf("%-8d", i))
-			valuesTwoBldr.Append(fmt.Sprintf("%-8d", i+size))
-		}
-
-		dict1, dict2 := valuesOneBldr.NewArray(), valuesTwoBldr.NewArray()
-		defer dict1.Release()
-		defer dict2.Release()
-		expectedDict, err := array.Concatenate([]arrow.Array{dict1, dict2}, mem)
-		require.NoError(t, err)
-		defer expectedDict.Release()
-
-		one, two := array.NewDictionaryArray(dictType, indices, dict1), array.NewDictionaryArray(dictType, indices, dict2)
-		defer one.Release()
-		defer two.Release()
-		expected := array.NewDictionaryArray(dictType, expIndices, expectedDict)
-		defer expected.Release()
-
-		combined, err := array.Concatenate([]arrow.Array{one, two}, mem)
-		assert.NoError(t, err)
-		defer combined.Release()
-		assert.Truef(t, array.Equal(combined, expected), "got: %s, expected: %s", combined, expected)
-	})
-}
-
-func TestConcatDictionaryPartialOverlap(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String}
-	dictOne, err := array.DictArrayFromJSON(mem, dt, `[1, 2, null, 3, 0]`, `["A0", "A1", "C2", "C3"]`)
-	require.NoError(t, err)
-	defer dictOne.Release()
-
-	dictTwo, err := array.DictArrayFromJSON(mem, dt, `[null, 4, 2, 1]`, `["B0", "B1", "C2", "C3", "B4"]`)
-	require.NoError(t, err)
-	defer dictTwo.Release()
-
-	expected, err := array.DictArrayFromJSON(mem, dt, `[1, 2, null, 3, 0, null, 6, 2, 5]`, `["A0", "A1", "C2", "C3", "B0", "B1", "B4"]`)
-	require.NoError(t, err)
-	defer expected.Release()
-
-	actual, err := array.Concatenate([]arrow.Array{dictOne, dictTwo}, mem)
-	assert.NoError(t, err)
-	defer actual.Release()
-
-	assert.Truef(t, array.Equal(actual, expected), "got: %s, expected: %s", actual, expected)
-}
-
-func TestConcatDictionaryDifferentSizeIndex(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String}
-	biggerDt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: arrow.BinaryTypes.String}
-	dictOne, err := array.DictArrayFromJSON(mem, dt, `[0]`, `["A0"]`)
-	require.NoError(t, err)
-	defer dictOne.Release()
-
-	dictTwo, err := array.DictArrayFromJSON(mem, biggerDt, `[0]`, `["B0"]`)
-	require.NoError(t, err)
-	defer dictTwo.Release()
-
-	arr, err := array.Concatenate([]arrow.Array{dictOne, dictTwo}, mem)
-	assert.Nil(t, arr)
-	assert.Error(t, err)
-}
-
-func TestConcatDictionaryUnifyNullInDict(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String}
-	dictOne, err := array.DictArrayFromJSON(mem, dt, `[0, 1]`, `[null, "A"]`)
-	require.NoError(t, err)
-	defer dictOne.Release()
-
-	dictTwo, err := array.DictArrayFromJSON(mem, dt, `[0, 1]`, `[null, "B"]`)
-	require.NoError(t, err)
-	defer dictTwo.Release()
-
-	expected, err := array.DictArrayFromJSON(mem, dt, `[0, 1, 0, 2]`, `[null, "A", "B"]`)
-	require.NoError(t, err)
-	defer expected.Release()
-
-	actual, err := array.Concatenate([]arrow.Array{dictOne, dictTwo}, mem)
-	assert.NoError(t, err)
-	defer actual.Release()
-
-	assert.Truef(t, array.Equal(actual, expected), "got: %s, expected: %s", actual, expected)
-}
-
-func TestConcatDictionaryEnlargedIndices(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	const size = math.MaxUint8 + 1
-	dt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.PrimitiveTypes.Uint16}
-
-	idxBuilder := array.NewUint8Builder(mem)
-	defer idxBuilder.Release()
-	idxBuilder.Reserve(size)
-	for i := 0; i < size; i++ {
-		idxBuilder.UnsafeAppend(uint8(i))
-	}
-	indices := idxBuilder.NewUint8Array()
-	defer indices.Release()
-
-	valuesBuilder := array.NewUint16Builder(mem)
-	defer valuesBuilder.Release()
-	valuesBuilder.Reserve(size)
-	valuesBuilderTwo := array.NewUint16Builder(mem)
-	defer valuesBuilderTwo.Release()
-	valuesBuilderTwo.Reserve(size)
-
-	for i := uint16(0); i < size; i++ {
-		valuesBuilder.UnsafeAppend(i)
-		valuesBuilderTwo.UnsafeAppend(i + size)
-	}
-
-	dict1, dict2 := valuesBuilder.NewUint16Array(), valuesBuilderTwo.NewUint16Array()
-	defer dict1.Release()
-	defer dict2.Release()
-
-	d1, d2 := array.NewDictionaryArray(dt, indices, dict1), array.NewDictionaryArray(dt, indices, dict2)
-	defer d1.Release()
-	defer d2.Release()
-
-	_, err := array.Concatenate([]arrow.Array{d1, d2}, mem)
-	assert.Error(t, err)
-
-	biggerDt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: arrow.PrimitiveTypes.Uint16}
-	bigger1, bigger2 := array.NewDictionaryArray(biggerDt, dict1, dict1), array.NewDictionaryArray(biggerDt, dict1, dict2)
-	defer bigger1.Release()
-	defer bigger2.Release()
-
-	combined, err := array.Concatenate([]arrow.Array{bigger1, bigger2}, mem)
-	assert.NoError(t, err)
-	defer combined.Release()
-
-	assert.EqualValues(t, size*2, combined.Len())
-}
-
-func TestConcatDictionaryNullSlots(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint32, ValueType: arrow.BinaryTypes.String}
-	dict1, err := array.DictArrayFromJSON(mem, dt, `[null, null, null, null]`, `[]`)
-	require.NoError(t, err)
-	defer dict1.Release()
-
-	dict2, err := array.DictArrayFromJSON(mem, dt, `[null, null, null, null, 0, 1]`, `["a", "b"]`)
-	require.NoError(t, err)
-	defer dict2.Release()
-
-	expected, err := array.DictArrayFromJSON(mem, dt, `[null, null, null, null, null, null, null, null, 0, 1]`, `["a", "b"]`)
-	require.NoError(t, err)
-	defer expected.Release()
-
-	actual, err := array.Concatenate([]arrow.Array{dict1, dict2}, mem)
-	assert.NoError(t, err)
-	defer actual.Release()
-
-	assert.Truef(t, array.Equal(actual, expected), "got: %s, expected: %s", actual, expected)
-}
-
-func TestConcatRunEndEncoded(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	tests := []struct {
-		offsetType arrow.DataType
-		expected   interface{}
-	}{
-		{arrow.PrimitiveTypes.Int16, []int16{1, 11, 111, 211, 311, 411, 500, 600}},
-		{arrow.PrimitiveTypes.Int32, []int32{1, 11, 111, 211, 311, 411, 500, 600}},
-		{arrow.PrimitiveTypes.Int64, []int64{1, 11, 111, 211, 311, 411, 500, 600}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.offsetType.String(), func(t *testing.T) {
-
-			arrs := make([]arrow.Array, 0)
-			bldr := array.NewRunEndEncodedBuilder(mem, tt.offsetType, arrow.BinaryTypes.String)
-			defer bldr.Release()
-			valBldr := bldr.ValueBuilder().(*array.StringBuilder)
-
-			bldr.Append(1)
-			valBldr.Append("Hello")
-			bldr.AppendNull()
-			bldr.ContinueRun(9)
-
-			bldr.Append(100)
-			valBldr.Append("World")
-			arrs = append(arrs, bldr.NewArray())
-
-			bldr.Append(100)
-			valBldr.Append("Goku")
-			bldr.Append(100)
-			valBldr.Append("Gohan")
-			bldr.Append(100)
-			valBldr.Append("Goten")
-			arrs = append(arrs, bldr.NewArray())
-
-			bldr.AppendNull()
-			bldr.ContinueRun(99)
-			bldr.Append(100)
-			valBldr.Append("Vegeta")
-			bldr.Append(100)
-			valBldr.Append("Trunks")
-			next := bldr.NewArray()
-			defer next.Release()
-			// remove the initial null with an offset and dig into the next run
-			arrs = append(arrs, array.NewSlice(next, 111, int64(next.Len())))
-
-			for _, a := range arrs {
-				defer a.Release()
-			}
-
-			result, err := array.Concatenate(arrs, mem)
-			assert.NoError(t, err)
-			defer result.Release()
-
-			rle := result.(*array.RunEndEncoded)
-			assert.EqualValues(t, 8, rle.GetPhysicalLength())
-			assert.EqualValues(t, 0, rle.GetPhysicalOffset())
-
-			var values interface{}
-			switch endsArr := rle.RunEndsArr().(type) {
-			case *array.Int16:
-				values = endsArr.Int16Values()
-			case *array.Int32:
-				values = endsArr.Int32Values()
-			case *array.Int64:
-				values = endsArr.Int64Values()
-			}
-			assert.Equal(t, tt.expected, values)
-
-			expectedValues, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
-				strings.NewReader(`["Hello", null, "World", "Goku", "Gohan", "Goten", "Vegeta", "Trunks"]`))
-			defer expectedValues.Release()
-			assert.Truef(t, array.Equal(expectedValues, rle.Values()), "expected: %s\ngot: %s", expectedValues, rle.Values())
-		})
-	}
-}
-
-func TestConcatAlmostOverflowRunEndEncoding(t *testing.T) {
-	tests := []struct {
-		offsetType arrow.DataType
-		max        uint64
-	}{
-		{arrow.PrimitiveTypes.Int16, math.MaxInt16},
-		{arrow.PrimitiveTypes.Int32, math.MaxInt32},
-		{arrow.PrimitiveTypes.Int64, math.MaxInt64},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.offsetType.String(), func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			arrs := make([]arrow.Array, 0)
-			bldr := array.NewRunEndEncodedBuilder(mem, tt.offsetType, arrow.BinaryTypes.String)
-			defer bldr.Release()
-			valBldr := bldr.ValueBuilder().(*array.StringBuilder)
-
-			// max is not evenly divisible by 4, so we add one to each
-			// to account for that so our final concatenate will overflow
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("foo")
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("bar")
-			arrs = append(arrs, bldr.NewArray())
-
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("baz")
-			bldr.Append((tt.max / 4))
-			valBldr.Append("bop")
-			arrs = append(arrs, bldr.NewArray())
-
-			defer func() {
-				for _, a := range arrs {
-					a.Release()
-				}
-			}()
-
-			arr, err := array.Concatenate(arrs, mem)
-			assert.NoError(t, err)
-			defer arr.Release()
-		})
-	}
-}
-
-func TestConcatOverflowRunEndEncoding(t *testing.T) {
-	tests := []struct {
-		offsetType arrow.DataType
-		max        uint64
-	}{
-		{arrow.PrimitiveTypes.Int16, math.MaxInt16},
-		{arrow.PrimitiveTypes.Int32, math.MaxInt32},
-		{arrow.PrimitiveTypes.Int64, math.MaxInt64},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.offsetType.String(), func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			arrs := make([]arrow.Array, 0)
-			bldr := array.NewRunEndEncodedBuilder(mem, tt.offsetType, arrow.BinaryTypes.String)
-			defer bldr.Release()
-			valBldr := bldr.ValueBuilder().(*array.StringBuilder)
-
-			// max is not evenly divisible by 4, so we add one to each
-			// to account for that so our final concatenate will overflow
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("foo")
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("bar")
-			arrs = append(arrs, bldr.NewArray())
-
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("baz")
-			bldr.Append((tt.max / 4) + 1)
-			valBldr.Append("bop")
-			arrs = append(arrs, bldr.NewArray())
-
-			defer func() {
-				for _, a := range arrs {
-					a.Release()
-				}
-			}()
-
-			arr, err := array.Concatenate(arrs, mem)
-			assert.Nil(t, arr)
-			assert.ErrorIs(t, err, arrow.ErrInvalid)
-		})
-	}
-}
-
-func TestConcatPanic(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	allocator := &panicAllocator{
-		n:         400,
-		Allocator: mem,
-	}
-
-	g := gen.NewRandomArrayGenerator(0, memory.DefaultAllocator)
-	ar1 := g.ArrayOf(arrow.STRING, 32, 0)
-	defer ar1.Release()
-	ar2 := g.ArrayOf(arrow.STRING, 32, 0)
-	defer ar2.Release()
-
-	concat, err := array.Concatenate([]arrow.Array{ar1, ar2}, allocator)
-	assert.Error(t, err)
-	assert.Nil(t, concat)
-}
diff --git a/go/arrow/array/data.go b/go/arrow/array/data.go
deleted file mode 100644
index 19513ebaacf50..0000000000000
--- a/go/arrow/array/data.go
+++ /dev/null
@@ -1,277 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"hash/maphash"
-	"math/bits"
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// Data represents the memory and metadata of an Arrow array.
-type Data struct {
-	refCount int64
-	dtype    arrow.DataType
-	nulls    int
-	offset   int
-	length   int
-
-	// for dictionary arrays: buffers will be the null validity bitmap and the indexes that reference
-	// values in the dictionary member. childData would be empty in a dictionary array
-	buffers    []*memory.Buffer  // TODO(sgc): should this be an interface?
-	childData  []arrow.ArrayData // TODO(sgc): managed by ListArray, StructArray and UnionArray types
-	dictionary *Data             // only populated for dictionary arrays
-}
-
-// NewData creates a new Data.
-func NewData(dtype arrow.DataType, length int, buffers []*memory.Buffer, childData []arrow.ArrayData, nulls, offset int) *Data {
-	for _, b := range buffers {
-		if b != nil {
-			b.Retain()
-		}
-	}
-
-	for _, child := range childData {
-		if child != nil {
-			child.Retain()
-		}
-	}
-
-	return &Data{
-		refCount:  1,
-		dtype:     dtype,
-		nulls:     nulls,
-		length:    length,
-		offset:    offset,
-		buffers:   buffers,
-		childData: childData,
-	}
-}
-
-// NewDataWithDictionary creates a new data object, but also sets the provided dictionary into the data if it's not nil
-func NewDataWithDictionary(dtype arrow.DataType, length int, buffers []*memory.Buffer, nulls, offset int, dict *Data) *Data {
-	data := NewData(dtype, length, buffers, nil, nulls, offset)
-	if dict != nil {
-		dict.Retain()
-	}
-	data.dictionary = dict
-	return data
-}
-
-func (d *Data) Copy() *Data {
-	// don't pass the slices directly, otherwise it retains the connection
-	// we need to make new slices and populate them with the same pointers
-	bufs := make([]*memory.Buffer, len(d.buffers))
-	copy(bufs, d.buffers)
-	children := make([]arrow.ArrayData, len(d.childData))
-	copy(children, d.childData)
-
-	data := NewData(d.dtype, d.length, bufs, children, d.nulls, d.offset)
-	data.SetDictionary(d.dictionary)
-	return data
-}
-
-// Reset sets the Data for re-use.
-func (d *Data) Reset(dtype arrow.DataType, length int, buffers []*memory.Buffer, childData []arrow.ArrayData, nulls, offset int) {
-	// Retain new buffers before releasing existing buffers in-case they're the same ones to prevent accidental premature
-	// release.
-	for _, b := range buffers {
-		if b != nil {
-			b.Retain()
-		}
-	}
-	for _, b := range d.buffers {
-		if b != nil {
-			b.Release()
-		}
-	}
-	d.buffers = buffers
-
-	// Retain new children data before releasing existing children data in-case they're the same ones to prevent accidental
-	// premature release.
-	for _, d := range childData {
-		if d != nil {
-			d.Retain()
-		}
-	}
-	for _, d := range d.childData {
-		if d != nil {
-			d.Release()
-		}
-	}
-	d.childData = childData
-
-	d.dtype = dtype
-	d.length = length
-	d.nulls = nulls
-	d.offset = offset
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (d *Data) Retain() {
-	atomic.AddInt64(&d.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (d *Data) Release() {
-	debug.Assert(atomic.LoadInt64(&d.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&d.refCount, -1) == 0 {
-		for _, b := range d.buffers {
-			if b != nil {
-				b.Release()
-			}
-		}
-
-		for _, b := range d.childData {
-			b.Release()
-		}
-
-		if d.dictionary != nil {
-			d.dictionary.Release()
-		}
-		d.dictionary, d.buffers, d.childData = nil, nil, nil
-	}
-}
-
-// DataType returns the DataType of the data.
-func (d *Data) DataType() arrow.DataType { return d.dtype }
-
-func (d *Data) SetNullN(n int) { d.nulls = n }
-
-// NullN returns the number of nulls.
-func (d *Data) NullN() int { return d.nulls }
-
-// Len returns the length.
-func (d *Data) Len() int { return d.length }
-
-// Offset returns the offset.
-func (d *Data) Offset() int { return d.offset }
-
-// Buffers returns the buffers.
-func (d *Data) Buffers() []*memory.Buffer { return d.buffers }
-
-func (d *Data) Children() []arrow.ArrayData { return d.childData }
-
-// Dictionary returns the ArrayData object for the dictionary member, or nil
-func (d *Data) Dictionary() arrow.ArrayData { return d.dictionary }
-
-// SetDictionary allows replacing the dictionary for this particular Data object
-func (d *Data) SetDictionary(dict arrow.ArrayData) {
-	if d.dictionary != nil {
-		d.dictionary.Release()
-		d.dictionary = nil
-	}
-	if dict.(*Data) != nil {
-		dict.Retain()
-		d.dictionary = dict.(*Data)
-	}
-}
-
-// SizeInBytes returns the size of the Data and any children and/or dictionary in bytes by
-// recursively examining the nested structures of children and/or dictionary.
-// The value returned is an upper-bound since offset is not taken into account.
-func (d *Data) SizeInBytes() uint64 {
-	var size uint64
-
-	if d == nil {
-		return 0
-	}
-
-	for _, b := range d.Buffers() {
-		if b != nil {
-			size += uint64(b.Len())
-		}
-	}
-	for _, c := range d.Children() {
-		size += c.SizeInBytes()
-	}
-	if d.dictionary != nil {
-		size += d.dictionary.SizeInBytes()
-	}
-
-	return size
-}
-
-// NewSliceData returns a new slice that shares backing data with the input.
-// The returned Data slice starts at i and extends j-i elements, such as:
-//
-//	slice := data[i:j]
-//
-// The returned value must be Release'd after use.
-//
-// NewSliceData panics if the slice is outside the valid range of the input Data.
-// NewSliceData panics if j < i.
-func NewSliceData(data arrow.ArrayData, i, j int64) arrow.ArrayData {
-	if j > int64(data.Len()) || i > j || data.Offset()+int(i) > data.Offset()+data.Len() {
-		panic("arrow/array: index out of range")
-	}
-
-	for _, b := range data.Buffers() {
-		if b != nil {
-			b.Retain()
-		}
-	}
-
-	for _, child := range data.Children() {
-		if child != nil {
-			child.Retain()
-		}
-	}
-
-	if data.(*Data).dictionary != nil {
-		data.(*Data).dictionary.Retain()
-	}
-
-	o := &Data{
-		refCount:   1,
-		dtype:      data.DataType(),
-		nulls:      UnknownNullCount,
-		length:     int(j - i),
-		offset:     data.Offset() + int(i),
-		buffers:    data.Buffers(),
-		childData:  data.Children(),
-		dictionary: data.(*Data).dictionary,
-	}
-
-	if data.NullN() == 0 {
-		o.nulls = 0
-	}
-
-	return o
-}
-
-func Hash(h *maphash.Hash, data arrow.ArrayData) {
-	a := data.(*Data)
-
-	h.Write((*[bits.UintSize / 8]byte)(unsafe.Pointer(&a.length))[:])
-	h.Write((*[bits.UintSize / 8]byte)(unsafe.Pointer(&a.length))[:])
-	if len(a.buffers) > 0 && a.buffers[0] != nil {
-		h.Write(a.buffers[0].Bytes())
-	}
-	for _, c := range a.childData {
-		Hash(h, c)
-	}
-}
diff --git a/go/arrow/array/data_test.go b/go/arrow/array/data_test.go
deleted file mode 100644
index 2cfc64fbe2d7e..0000000000000
--- a/go/arrow/array/data_test.go
+++ /dev/null
@@ -1,138 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"slices"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestDataReset(t *testing.T) {
-	var (
-		buffers1 = make([]*memory.Buffer, 0, 3)
-		buffers2 = make([]*memory.Buffer, 0, 3)
-	)
-	for i := 0; i < cap(buffers1); i++ {
-		buffers1 = append(buffers1, memory.NewBufferBytes([]byte("some-bytes1")))
-		buffers2 = append(buffers2, memory.NewBufferBytes([]byte("some-bytes2")))
-	}
-
-	data := NewData(&arrow.StringType{}, 10, buffers1, nil, 0, 0)
-	data.Reset(&arrow.Int64Type{}, 5, buffers2, nil, 1, 2)
-
-	for i := 0; i < 2; i++ {
-		assert.Equal(t, buffers2, data.Buffers())
-		assert.Equal(t, &arrow.Int64Type{}, data.DataType())
-		assert.Equal(t, 1, data.NullN())
-		assert.Equal(t, 2, data.Offset())
-		assert.Equal(t, 5, data.Len())
-
-		// Make sure it works when resetting the data with its own buffers (new buffers are retained
-		// before old ones are released.)
-		data.Reset(&arrow.Int64Type{}, 5, data.Buffers(), nil, 1, 2)
-	}
-}
-
-func TestSizeInBytes(t *testing.T) {
-	var buffers1 = make([]*memory.Buffer, 0, 3)
-
-	for i := 0; i < cap(buffers1); i++ {
-		buffers1 = append(buffers1, memory.NewBufferBytes([]byte("15-bytes-buffer")))
-	}
-	data := NewData(&arrow.StringType{}, 10, buffers1, nil, 0, 0)
-	var arrayData arrow.ArrayData = data
-	dataWithChild := NewData(&arrow.StringType{}, 10, buffers1, []arrow.ArrayData{arrayData}, 0, 0)
-
-	buffers2 := slices.Clone(buffers1)
-	buffers2[0] = nil
-	dataWithNilBuffer := NewData(&arrow.StringType{}, 10, buffers2, nil, 0, 0)
-
-	t.Run("nil buffers", func(t *testing.T) {
-		expectedSize := uint64(30)
-		if actualSize := dataWithNilBuffer.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("buffers only", func(t *testing.T) {
-		expectedSize := uint64(45)
-		if actualSize := data.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("buffers and child data", func(t *testing.T) {
-		// 45 bytes in buffers, 45 bytes in child data
-		expectedSize := uint64(90)
-		if actualSize := dataWithChild.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("buffers and nested child data", func(t *testing.T) {
-		var dataWithChildArrayData arrow.ArrayData = dataWithChild
-		var dataWithNestedChild arrow.ArrayData = NewData(&arrow.StringType{}, 10, buffers1, []arrow.ArrayData{dataWithChildArrayData}, 0, 0)
-		// 45 bytes in buffers, 90 bytes in nested child data
-		expectedSize := uint64(135)
-		if actualSize := dataWithNestedChild.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("buffers and dictionary", func(t *testing.T) {
-		dictData := data
-		dataWithDict := NewDataWithDictionary(&arrow.StringType{}, 10, buffers1, 0, 0, dictData)
-		// 45 bytes in buffers, 45 bytes in dictionary
-		expectedSize := uint64(90)
-		if actualSize := dataWithDict.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("sliced data", func(t *testing.T) {
-		sliceData := NewSliceData(arrayData, 3, 5)
-		// offset is not taken into account in SizeInBytes()
-		expectedSize := uint64(45)
-		if actualSize := sliceData.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("sliced data with children", func(t *testing.T) {
-		var dataWithChildArrayData arrow.ArrayData = dataWithChild
-		sliceData := NewSliceData(dataWithChildArrayData, 3, 5)
-		// offset is not taken into account in SizeInBytes()
-		expectedSize := uint64(90)
-		if actualSize := sliceData.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-
-	t.Run("buffers with children which are sliced data", func(t *testing.T) {
-		sliceData := NewSliceData(arrayData, 3, 5)
-		dataWithSlicedChildren := NewData(&arrow.StringType{}, 10, buffers1, []arrow.ArrayData{sliceData}, 0, 0)
-		// offset is not taken into account in SizeInBytes()
-		expectedSize := uint64(90)
-		if actualSize := dataWithSlicedChildren.SizeInBytes(); actualSize != expectedSize {
-			t.Errorf("expected size %d, got %d", expectedSize, actualSize)
-		}
-	})
-}
diff --git a/go/arrow/array/decimal128.go b/go/arrow/array/decimal128.go
deleted file mode 100644
index fd9e53f7f4c06..0000000000000
--- a/go/arrow/array/decimal128.go
+++ /dev/null
@@ -1,368 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"math/big"
-	"reflect"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A type which represents an immutable sequence of 128-bit decimal values.
-type Decimal128 struct {
-	array
-
-	values []decimal128.Num
-}
-
-func NewDecimal128Data(data arrow.ArrayData) *Decimal128 {
-	a := &Decimal128{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *Decimal128) Value(i int) decimal128.Num { return a.values[i] }
-
-func (a *Decimal128) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.GetOneForMarshal(i).(string)
-}
-
-func (a *Decimal128) Values() []decimal128.Num { return a.values }
-
-func (a *Decimal128) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Decimal128) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Decimal128Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-func (a *Decimal128) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	typ := a.DataType().(*arrow.Decimal128Type)
-	n := a.Value(i)
-	scale := typ.Scale
-	f := (&big.Float{}).SetInt(n.BigInt())
-	if scale < 0 {
-		f.SetPrec(128).Mul(f, (&big.Float{}).SetInt(decimal128.GetScaleMultiplier(int(-scale)).BigInt()))
-	} else {
-		f.SetPrec(128).Quo(f, (&big.Float{}).SetInt(decimal128.GetScaleMultiplier(int(scale)).BigInt()))
-	}
-	return f.Text('g', int(typ.Precision))
-}
-
-// ["1.23", ]
-func (a *Decimal128) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualDecimal128(left, right *Decimal128) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type Decimal128Builder struct {
-	builder
-
-	dtype   *arrow.Decimal128Type
-	data    *memory.Buffer
-	rawData []decimal128.Num
-}
-
-func NewDecimal128Builder(mem memory.Allocator, dtype *arrow.Decimal128Type) *Decimal128Builder {
-	return &Decimal128Builder{
-		builder: builder{refCount: 1, mem: mem},
-		dtype:   dtype,
-	}
-}
-
-func (b *Decimal128Builder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Decimal128Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Decimal128Builder) Append(v decimal128.Num) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Decimal128Builder) UnsafeAppend(v decimal128.Num) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Decimal128Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Decimal128Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Decimal128Builder) AppendEmptyValue() {
-	b.Append(decimal128.Num{})
-}
-
-func (b *Decimal128Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Decimal128Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Decimal128Builder) AppendValues(v []decimal128.Num, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	if len(v) > 0 {
-		arrow.Decimal128Traits.Copy(b.rawData[b.length:], v)
-	}
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Decimal128Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Decimal128Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Decimal128Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Decimal128Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Decimal128Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Decimal128Traits.BytesRequired(n))
-		b.rawData = arrow.Decimal128Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a Decimal128 array from the memory buffers used by the builder and resets the Decimal128Builder
-// so it can be used to build a new array.
-func (b *Decimal128Builder) NewArray() arrow.Array {
-	return b.NewDecimal128Array()
-}
-
-// NewDecimal128Array creates a Decimal128 array from the memory buffers used by the builder and resets the Decimal128Builder
-// so it can be used to build a new array.
-func (b *Decimal128Builder) NewDecimal128Array() (a *Decimal128) {
-	data := b.newData()
-	a = NewDecimal128Data(data)
-	data.Release()
-	return
-}
-
-func (b *Decimal128Builder) newData() (data *Data) {
-	bytesRequired := arrow.Decimal128Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Decimal128Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	val, err := decimal128.FromString(s, b.dtype.Precision, b.dtype.Scale)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(val)
-	return nil
-}
-
-func (b *Decimal128Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case float64:
-		val, err := decimal128.FromFloat64(v, b.dtype.Precision, b.dtype.Scale)
-		if err != nil {
-			return err
-		}
-		b.Append(val)
-	case string:
-		val, err := decimal128.FromString(v, b.dtype.Precision, b.dtype.Scale)
-		if err != nil {
-			return err
-		}
-		b.Append(val)
-	case json.Number:
-		val, err := decimal128.FromString(v.String(), b.dtype.Precision, b.dtype.Scale)
-		if err != nil {
-			return err
-		}
-		b.Append(val)
-	case nil:
-		b.AppendNull()
-		return nil
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(decimal128.Num{}),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Decimal128Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON will add the unmarshalled values to this builder.
-//
-// If the values are strings, they will get parsed with big.ParseFloat using
-// a rounding mode of big.ToNearestAway currently.
-func (b *Decimal128Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("decimal128 builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*Decimal128)(nil)
-	_ Builder     = (*Decimal128Builder)(nil)
-)
diff --git a/go/arrow/array/decimal128_test.go b/go/arrow/array/decimal128_test.go
deleted file mode 100644
index 707a4f1a6c8d5..0000000000000
--- a/go/arrow/array/decimal128_test.go
+++ /dev/null
@@ -1,283 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestNewDecimal128Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDecimal128Builder(mem, &arrow.Decimal128Type{Precision: 10, Scale: 1})
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	want := []decimal128.Num{
-		decimal128.New(1, 1),
-		decimal128.New(2, 2),
-		decimal128.New(3, 3),
-		{},
-		decimal128.FromI64(-5),
-		decimal128.FromI64(-6),
-		{},
-		decimal128.FromI64(8),
-		decimal128.FromI64(9),
-		decimal128.FromI64(10),
-	}
-	valids := []bool{true, true, true, false, true, true, false, true, true, true}
-
-	for i, valid := range valids {
-		switch {
-		case valid:
-			ab.Append(want[i])
-		default:
-			ab.AppendNull()
-		}
-	}
-
-	// check state of builder before NewDecimal128Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewArray().(*array.Decimal128)
-	a.Retain()
-	a.Release()
-
-	// check state of builder after NewDecimal128Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewDecimal128Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewDecimal128Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewDecimal128Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-
-	assert.Equal(t, want, a.Values(), "unexpected Decimal128Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Equal(t, 4, a.Data().Buffers()[0].Len(), "should be 4 bytes due to minBuilderCapacity")
-	assert.Len(t, a.Values(), 10, "unexpected length of Decimal128Values")
-	assert.Equal(t, 10*arrow.Decimal128SizeBytes, a.Data().Buffers()[1].Len())
-
-	a.Release()
-	ab.Append(decimal128.FromI64(7))
-	ab.Append(decimal128.FromI64(8))
-
-	a = ab.NewDecimal128Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []decimal128.Num{decimal128.FromI64(7), decimal128.FromI64(8)}, a.Values())
-	assert.Len(t, a.Values(), 2)
-	assert.Equal(t, 2*arrow.Decimal128SizeBytes, a.Data().Buffers()[1].Len())
-
-	a.Release()
-}
-
-func TestDecimal128Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDecimal128Builder(mem, &arrow.Decimal128Type{Precision: 10, Scale: 1})
-	defer ab.Release()
-
-	want := []decimal128.Num{decimal128.FromI64(3), decimal128.FromI64(4)}
-
-	ab.AppendValues([]decimal128.Num{}, nil)
-	a := ab.NewDecimal128Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewDecimal128Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	a = ab.NewDecimal128Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-
-	ab.AppendValues([]decimal128.Num{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewDecimal128Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]decimal128.Num{}, nil)
-	a = ab.NewDecimal128Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-}
-
-func TestDecimal128Slice(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Decimal128Type{Precision: 10, Scale: 1}
-	b := array.NewDecimal128Builder(mem, dtype)
-	defer b.Release()
-
-	var data = []decimal128.Num{
-		decimal128.FromI64(-1),
-		decimal128.FromI64(+0),
-		decimal128.FromI64(+1),
-		decimal128.New(-4, 4),
-	}
-	b.AppendValues(data[:2], nil)
-	b.AppendNull()
-	b.Append(data[3])
-
-	arr := b.NewDecimal128Array()
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(data); got != want {
-		t.Fatalf("invalid array length: got=%d, want=%d", got, want)
-	}
-
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Decimal128)
-	if !ok {
-		t.Fatalf("could not type-assert to array.String")
-	}
-
-	if got, want := v.String(), `[(null) {4 -4}]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-	assert.Equal(t, array.NullValueStr, v.ValueStr(0))
-	assert.Equal(t, "-7.378697629e+18", v.ValueStr(1))
-
-	if got, want := v.NullN(), 1; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if got, want := v.Data().Offset(), 2; got != want {
-		t.Fatalf("invalid offset: got=%d, want=%d", got, want)
-	}
-}
-
-func TestDecimal128StringRoundTrip(t *testing.T) {
-	dt := &arrow.Decimal128Type{Precision: 20, Scale: 5}
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewDecimal128Builder(mem, dt)
-	defer b.Release()
-
-	values := []decimal128.Num{
-		decimal128.New(1, 1),
-		decimal128.New(1, 2),
-		decimal128.New(1, 3),
-		{},
-		decimal128.FromI64(-5),
-		decimal128.FromI64(-6),
-		{},
-		decimal128.FromI64(8),
-		decimal128.FromI64(9),
-		decimal128.FromI64(10),
-	}
-	val1, err := decimal128.FromString("0.99", dt.Precision, dt.Scale)
-	if err != nil {
-		t.Fatal(err)
-	}
-	val2, err := decimal128.FromString("1234567890.12345", dt.Precision, dt.Scale)
-	if err != nil {
-		t.Fatal(err)
-	}
-	values = append(values, val1, val2)
-
-	valid := []bool{true, true, true, false, true, true, false, true, true, true, true, true}
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.Decimal128)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDecimal128Builder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Decimal128)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestDecimal128GetOneForMarshal(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Decimal128Type{Precision: 38, Scale: 20}
-
-	b := array.NewDecimal128Builder(mem, dtype)
-	defer b.Release()
-
-	cases := []struct {
-		give any
-		want any
-	}{
-		{"1", "1"},
-		{"1.25", "1.25"},
-		{"0.99", "0.99"},
-		{"1234567890.123456789", "1234567890.123456789"},
-		{nil, nil},
-		{"-0.99", "-0.99"},
-		{"-1234567890.123456789", "-1234567890.123456789"},
-		{"0.0000000000000000001", "1e-19"},
-	}
-	for _, v := range cases {
-		if v.give == nil {
-			b.AppendNull()
-			continue
-		}
-
-		dt, err := decimal128.FromString(v.give.(string), dtype.Precision, dtype.Scale)
-		if err != nil {
-			t.Fatal(err)
-		}
-		b.Append(dt)
-	}
-
-	arr := b.NewDecimal128Array()
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(cases); got != want {
-		t.Fatalf("invalid array length: got=%d, want=%d", got, want)
-	}
-
-	for i := range cases {
-		assert.Equalf(t, cases[i].want, arr.GetOneForMarshal(i), "unexpected value at index %d", i)
-	}
-}
diff --git a/go/arrow/array/decimal256.go b/go/arrow/array/decimal256.go
deleted file mode 100644
index 6431306f969c3..0000000000000
--- a/go/arrow/array/decimal256.go
+++ /dev/null
@@ -1,368 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"math/big"
-	"reflect"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Decimal256 is a type that represents an immutable sequence of 256-bit decimal values.
-type Decimal256 struct {
-	array
-
-	values []decimal256.Num
-}
-
-func NewDecimal256Data(data arrow.ArrayData) *Decimal256 {
-	a := &Decimal256{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *Decimal256) Value(i int) decimal256.Num { return a.values[i] }
-
-func (a *Decimal256) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.GetOneForMarshal(i).(string)
-}
-
-func (a *Decimal256) Values() []decimal256.Num { return a.values }
-
-func (a *Decimal256) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Decimal256) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Decimal256Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Decimal256) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	typ := a.DataType().(*arrow.Decimal256Type)
-	n := a.Value(i)
-	scale := typ.Scale
-	f := (&big.Float{}).SetInt(n.BigInt())
-	if scale < 0 {
-		f.SetPrec(256).Mul(f, (&big.Float{}).SetInt(decimal256.GetScaleMultiplier(int(-scale)).BigInt()))
-	} else {
-		f.SetPrec(256).Quo(f, (&big.Float{}).SetInt(decimal256.GetScaleMultiplier(int(scale)).BigInt()))
-	}
-	return f.Text('g', int(typ.Precision))
-}
-
-func (a *Decimal256) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualDecimal256(left, right *Decimal256) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type Decimal256Builder struct {
-	builder
-
-	dtype   *arrow.Decimal256Type
-	data    *memory.Buffer
-	rawData []decimal256.Num
-}
-
-func NewDecimal256Builder(mem memory.Allocator, dtype *arrow.Decimal256Type) *Decimal256Builder {
-	return &Decimal256Builder{
-		builder: builder{refCount: 1, mem: mem},
-		dtype:   dtype,
-	}
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Decimal256Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Decimal256Builder) Append(v decimal256.Num) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Decimal256Builder) UnsafeAppend(v decimal256.Num) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Decimal256Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Decimal256Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Decimal256Builder) AppendEmptyValue() {
-	b.Append(decimal256.Num{})
-}
-
-func (b *Decimal256Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Decimal256Builder) Type() arrow.DataType { return b.dtype }
-
-func (b *Decimal256Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Decimal256Builder) AppendValues(v []decimal256.Num, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("arrow/array: len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	if len(v) > 0 {
-		arrow.Decimal256Traits.Copy(b.rawData[b.length:], v)
-	}
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Decimal256Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Decimal256Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Decimal256Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Decimal256Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Decimal256Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Decimal256Traits.BytesRequired(n))
-		b.rawData = arrow.Decimal256Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a Decimal256 array from the memory buffers used by the builder and resets the Decimal256Builder
-// so it can be used to build a new array.
-func (b *Decimal256Builder) NewArray() arrow.Array {
-	return b.NewDecimal256Array()
-}
-
-// NewDecimal256Array creates a Decimal256 array from the memory buffers used by the builder and resets the Decimal256Builder
-// so it can be used to build a new array.
-func (b *Decimal256Builder) NewDecimal256Array() (a *Decimal256) {
-	data := b.newData()
-	a = NewDecimal256Data(data)
-	data.Release()
-	return
-}
-
-func (b *Decimal256Builder) newData() (data *Data) {
-	bytesRequired := arrow.Decimal256Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Decimal256Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	val, err := decimal256.FromString(s, b.dtype.Precision, b.dtype.Scale)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(val)
-	return nil
-}
-
-func (b *Decimal256Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case float64:
-		val, err := decimal256.FromFloat64(v, b.dtype.Precision, b.dtype.Scale)
-		if err != nil {
-			return err
-		}
-		b.Append(val)
-	case string:
-		out, err := decimal256.FromString(v, b.dtype.Precision, b.dtype.Scale)
-		if err != nil {
-			return err
-		}
-		b.Append(out)
-	case json.Number:
-		out, err := decimal256.FromString(v.String(), b.dtype.Precision, b.dtype.Scale)
-		if err != nil {
-			return err
-		}
-		b.Append(out)
-	case nil:
-		b.AppendNull()
-		return nil
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(decimal256.Num{}),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Decimal256Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON will add the unmarshalled values to this builder.
-//
-// If the values are strings, they will get parsed with big.ParseFloat using
-// a rounding mode of big.ToNearestAway currently.
-func (b *Decimal256Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("arrow/array: decimal256 builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*Decimal256)(nil)
-	_ Builder     = (*Decimal256Builder)(nil)
-)
diff --git a/go/arrow/array/decimal256_test.go b/go/arrow/array/decimal256_test.go
deleted file mode 100644
index 8adb810165430..0000000000000
--- a/go/arrow/array/decimal256_test.go
+++ /dev/null
@@ -1,293 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestNewDecimal256Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDecimal256Builder(mem, &arrow.Decimal256Type{Precision: 10, Scale: 1})
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	want := []decimal256.Num{
-		decimal256.New(1, 1, 1, 1),
-		decimal256.New(2, 2, 2, 2),
-		decimal256.New(3, 3, 3, 3),
-		{},
-		decimal256.FromI64(-5),
-		decimal256.FromI64(-6),
-		{},
-		decimal256.FromI64(8),
-		decimal256.FromI64(9),
-		decimal256.FromI64(10),
-	}
-	valids := []bool{true, true, true, false, true, true, false, true, true, true}
-
-	for i, valid := range valids {
-		switch {
-		case valid:
-			ab.Append(want[i])
-		default:
-			ab.AppendNull()
-		}
-	}
-
-	// check state of builder before NewDecimal256Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewArray().(*array.Decimal256)
-	a.Retain()
-	a.Release()
-
-	// check state of builder after NewDecimal256Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewDecimal256Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewDecimal256Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewDecimal256Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-
-	assert.Equal(t, want, a.Values(), "unexpected Decimal256Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Equal(t, 4, a.Data().Buffers()[0].Len(), "should be 4 bytes due to minBuilderCapacity")
-	assert.Len(t, a.Values(), 10, "unexpected length of Decimal256Values")
-	assert.Equal(t, 10*arrow.Decimal256SizeBytes, a.Data().Buffers()[1].Len())
-
-	a.Release()
-	ab.Append(decimal256.FromI64(7))
-	ab.Append(decimal256.FromI64(8))
-
-	a = ab.NewDecimal256Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, 4, a.Data().Buffers()[0].Len(), "should be 4 bytes due to minBuilderCapacity")
-	assert.Equal(t, []decimal256.Num{decimal256.FromI64(7), decimal256.FromI64(8)}, a.Values())
-	assert.Len(t, a.Values(), 2)
-	assert.Equal(t, 2*arrow.Decimal256SizeBytes, a.Data().Buffers()[1].Len())
-
-	a.Release()
-}
-
-func TestDecimal256Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDecimal256Builder(mem, &arrow.Decimal256Type{Precision: 10, Scale: 1})
-	defer ab.Release()
-
-	want := []decimal256.Num{decimal256.FromI64(3), decimal256.FromI64(4)}
-
-	ab.AppendValues([]decimal256.Num{}, nil)
-	a := ab.NewDecimal256Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewDecimal256Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	a = ab.NewDecimal256Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-
-	ab.AppendValues([]decimal256.Num{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewDecimal256Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]decimal256.Num{}, nil)
-	a = ab.NewDecimal256Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-}
-
-func TestDecimal256Slice(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Decimal256Type{Precision: 10, Scale: 1}
-	b := array.NewDecimal256Builder(mem, dtype)
-	defer b.Release()
-
-	var data = []decimal256.Num{
-		decimal256.FromI64(-1),
-		decimal256.FromI64(+0),
-		decimal256.FromI64(+1),
-		decimal256.New(4, 4, 4, 4),
-	}
-	b.AppendValues(data[:2], nil)
-	b.AppendNull()
-	b.Append(data[3])
-
-	arr := b.NewDecimal256Array()
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(data); got != want {
-		t.Fatalf("invalid array length: got=%d, want=%d", got, want)
-	}
-
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Decimal256)
-	if !ok {
-		t.Fatalf("could not type-assert to array.String")
-	}
-
-	if got, want := v.String(), `[(null) {[4 4 4 4]}]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-	assert.Equal(t, array.NullValueStr, v.ValueStr(0))
-	assert.Equal(t, "2.510840694e+57", v.ValueStr(1))
-
-	if got, want := v.NullN(), 1; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if got, want := v.Data().Offset(), 2; got != want {
-		t.Fatalf("invalid offset: got=%d, want=%d", got, want)
-	}
-}
-
-func TestDecimal256StringRoundTrip(t *testing.T) {
-	dt := &arrow.Decimal256Type{Precision: 70, Scale: 10}
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewDecimal256Builder(mem, dt)
-	defer b.Release()
-
-	values := []decimal256.Num{
-		decimal256.New(1, 1, 1, 1),
-		decimal256.New(2, 2, 2, 2),
-		decimal256.New(3, 3, 3, 3),
-		{},
-		decimal256.FromI64(-5),
-		decimal256.FromI64(-6),
-		{},
-		decimal256.FromI64(8),
-		decimal256.FromI64(9),
-		decimal256.FromI64(10),
-	}
-	val1, err := decimal256.FromString("0.99", dt.Precision, dt.Scale)
-	if err != nil {
-		t.Fatal(err)
-	}
-	val2, err := decimal256.FromString("1234567890.123456789", dt.Precision, dt.Scale)
-	if err != nil {
-		t.Fatal(err)
-	}
-	values = append(values, val1, val2)
-
-	valid := []bool{true, true, true, false, true, true, false, true, true, true, true, true}
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.Decimal256)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDecimal256Builder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		v := arr.ValueStr(i)
-		assert.NoError(t, b1.AppendValueFromString(v))
-	}
-
-	arr1 := b1.NewArray().(*array.Decimal256)
-	defer arr1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		if arr.IsNull(i) && arr1.IsNull(i) {
-			continue
-		}
-		if arr.Value(i) != arr1.Value(i) {
-			t.Fatalf("unexpected value at index %d: got=%v, want=%v", i, arr1.Value(i), arr.Value(i))
-		}
-	}
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestDecimal256GetOneForMarshal(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Decimal256Type{Precision: 38, Scale: 20}
-
-	b := array.NewDecimal256Builder(mem, dtype)
-	defer b.Release()
-
-	cases := []struct {
-		give any
-		want any
-	}{
-		{"1", "1"},
-		{"1.25", "1.25"},
-		{"0.99", "0.99"},
-		{"1234567890.123456789", "1234567890.123456789"},
-		{nil, nil},
-		{"-0.99", "-0.99"},
-		{"-1234567890.123456789", "-1234567890.123456789"},
-		{"0.0000000000000000001", "1e-19"},
-	}
-	for _, v := range cases {
-		if v.give == nil {
-			b.AppendNull()
-			continue
-		}
-
-		dt, err := decimal256.FromString(v.give.(string), dtype.Precision, dtype.Scale)
-		if err != nil {
-			t.Fatal(err)
-		}
-		b.Append(dt)
-	}
-
-	arr := b.NewDecimal256Array()
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(cases); got != want {
-		t.Fatalf("invalid array length: got=%d, want=%d", got, want)
-	}
-
-	for i := range cases {
-		assert.Equalf(t, cases[i].want, arr.GetOneForMarshal(i), "unexpected value at index %d", i)
-	}
-}
diff --git a/go/arrow/array/decimal_test.go b/go/arrow/array/decimal_test.go
deleted file mode 100644
index b321bd7fbbe7b..0000000000000
--- a/go/arrow/array/decimal_test.go
+++ /dev/null
@@ -1,222 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"math/big"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/suite"
-)
-
-type decimalValue interface{}
-
-func bitmapFromSlice(vals []bool) []byte {
-	out := make([]byte, int(bitutil.BytesForBits(int64(len(vals)))))
-	writer := bitutil.NewBitmapWriter(out, 0, len(vals))
-	for _, val := range vals {
-		if val {
-			writer.Set()
-		} else {
-			writer.Clear()
-		}
-		writer.Next()
-	}
-	writer.Finish()
-	return out
-}
-
-type DecimalTestSuite struct {
-	suite.Suite
-
-	dt  arrow.DataType
-	mem *memory.CheckedAllocator
-}
-
-func (d *DecimalTestSuite) SetupTest() {
-	d.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-}
-
-func (d *DecimalTestSuite) TearDownTest() {
-	d.mem.AssertSize(d.T(), 0)
-}
-
-func (d *DecimalTestSuite) makeData(input []decimalValue, out []byte) {
-	switch d.dt.ID() {
-	case arrow.DECIMAL128:
-		for _, v := range input {
-			arrow.Decimal128Traits.PutValue(out, v.(decimal128.Num))
-			out = out[arrow.Decimal128SizeBytes:]
-		}
-	case arrow.DECIMAL256:
-		for _, v := range input {
-			arrow.Decimal256Traits.PutValue(out, v.(decimal256.Num))
-			out = out[arrow.Decimal256SizeBytes:]
-		}
-	}
-}
-
-func (d *DecimalTestSuite) testCreate(bitWidth int, prec int32, draw []decimalValue, valids []bool, offset int64) arrow.Array {
-	switch bitWidth {
-	case 128:
-		d.dt = &arrow.Decimal128Type{Precision: prec, Scale: 4}
-	case 256:
-		d.dt = &arrow.Decimal256Type{Precision: prec, Scale: 4}
-	}
-
-	bldr := array.NewBuilder(d.mem, d.dt)
-	defer bldr.Release()
-	bldr.Reserve(len(draw))
-
-	nullCount := 0
-	for i, b := range valids {
-		if b {
-			switch v := draw[i].(type) {
-			case decimal128.Num:
-				bldr.(*array.Decimal128Builder).Append(v)
-			case decimal256.Num:
-				bldr.(*array.Decimal256Builder).Append(v)
-			}
-		} else {
-			bldr.AppendNull()
-			nullCount++
-		}
-	}
-
-	arr := bldr.NewArray()
-	d.EqualValues(0, bldr.Len())
-
-	rawBytes := make([]byte, len(draw)*(d.dt.(arrow.FixedWidthDataType).BitWidth()/8))
-	d.makeData(draw, rawBytes)
-
-	expectedData := memory.NewBufferBytes(rawBytes)
-	expectedNullBitmap := bitmapFromSlice(valids)
-	expectedNullCount := len(draw) - bitutil.CountSetBits(expectedNullBitmap, 0, len(valids))
-
-	expected := array.NewData(d.dt, len(valids), []*memory.Buffer{memory.NewBufferBytes(expectedNullBitmap), expectedData}, nil, expectedNullCount, 0)
-	defer expected.Release()
-
-	expectedArr := array.MakeFromData(expected)
-	defer expectedArr.Release()
-
-	lhs := array.NewSlice(arr, offset, int64(arr.Len())-offset)
-	rhs := array.NewSlice(expectedArr, offset, int64(expectedArr.Len())-offset)
-	defer func() {
-		lhs.Release()
-		rhs.Release()
-	}()
-
-	d.Truef(array.Equal(lhs, rhs), "expected: %s, got: %s\n", rhs, lhs)
-	return arr
-}
-
-type Decimal128TestSuite struct {
-	DecimalTestSuite
-}
-
-func (d *Decimal128TestSuite) runTest(f func(prec int32)) {
-	for prec := int32(1); prec <= 38; prec++ {
-		d.Run(fmt.Sprintf("prec=%d", prec), func() { f(prec) })
-	}
-}
-
-func (d *Decimal128TestSuite) TestNoNulls() {
-	d.runTest(func(prec int32) {
-		draw := []decimalValue{decimal128.FromU64(1), decimal128.FromI64(-2),
-			decimal128.FromU64(2389), decimal128.FromU64(4),
-			decimal128.FromI64(-12348)}
-		valids := []bool{true, true, true, true, true}
-		arr := d.testCreate(128, prec, draw, valids, 0)
-		arr.Release()
-		arr = d.testCreate(128, prec, draw, valids, 2)
-		arr.Release()
-	})
-}
-
-func (d *Decimal128TestSuite) TestWithNulls() {
-	d.runTest(func(prec int32) {
-		draw := []decimalValue{decimal128.FromU64(1), decimal128.FromU64(2),
-			decimal128.FromI64(-1), decimal128.FromI64(4), decimal128.FromI64(-1),
-			decimal128.FromI64(1), decimal128.FromI64(2)}
-		bigVal, _ := (&big.Int{}).SetString("230342903942234234", 10)
-		draw = append(draw, decimal128.FromBigInt(bigVal))
-
-		bigNeg, _ := (&big.Int{}).SetString("-23049302932235234", 10)
-		draw = append(draw, decimal128.FromBigInt(bigNeg))
-
-		valids := []bool{true, true, false, true, false, true, true, true, true}
-		arr := d.testCreate(128, prec, draw, valids, 0)
-		arr.Release()
-		arr = d.testCreate(128, prec, draw, valids, 2)
-		arr.Release()
-	})
-}
-
-type Decimal256TestSuite struct {
-	DecimalTestSuite
-}
-
-func (d *Decimal256TestSuite) runTest(f func(prec int32)) {
-	for _, prec := range []int32{1, 2, 5, 10, 38, 39, 40, 75, 76} {
-		d.Run(fmt.Sprintf("prec=%d", prec), func() { f(prec) })
-	}
-}
-
-func (d *Decimal256TestSuite) TestNoNulls() {
-	d.runTest(func(prec int32) {
-		draw := []decimalValue{decimal256.FromU64(1), decimal256.FromI64(-2),
-			decimal256.FromU64(2389), decimal256.FromU64(4),
-			decimal256.FromI64(-12348)}
-		valids := []bool{true, true, true, true, true}
-		arr := d.testCreate(256, prec, draw, valids, 0)
-		arr.Release()
-		arr = d.testCreate(256, prec, draw, valids, 2)
-		arr.Release()
-	})
-}
-
-func (d *Decimal256TestSuite) TestWithNulls() {
-	d.runTest(func(prec int32) {
-		draw := []decimalValue{decimal256.FromU64(1), decimal256.FromU64(2),
-			decimal256.FromI64(-1), decimal256.FromI64(4), decimal256.FromI64(-1),
-			decimal256.FromI64(1), decimal256.FromI64(2)}
-
-		// (pow(2, 255) - 1)
-		bigVal, _ := (&big.Int{}).SetString("57896044618658097711785492504343953926634992332820282019728792003956564819967", 10)
-		draw = append(draw, decimal256.FromBigInt(bigVal))
-
-		draw = append(draw, decimal256.FromBigInt(bigVal.Neg(bigVal)))
-
-		valids := []bool{true, true, false, true, false, true, true, true, true}
-		arr := d.testCreate(256, prec, draw, valids, 0)
-		arr.Release()
-		arr = d.testCreate(256, prec, draw, valids, 2)
-		arr.Release()
-	})
-}
-
-func TestDecimal(t *testing.T) {
-	suite.Run(t, new(Decimal128TestSuite))
-	suite.Run(t, new(Decimal256TestSuite))
-}
diff --git a/go/arrow/array/dictionary.go b/go/arrow/array/dictionary.go
deleted file mode 100644
index ca7fed5257085..0000000000000
--- a/go/arrow/array/dictionary.go
+++ /dev/null
@@ -1,1958 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-	"math"
-	"math/bits"
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/hashing"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// Dictionary represents the type for dictionary-encoded data with a data
-// dependent dictionary.
-//
-// A dictionary array contains an array of non-negative integers (the "dictionary"
-// indices") along with a data type containing a "dictionary" corresponding to
-// the distinct values represented in the data.
-//
-// For example, the array:
-//
-//	["foo", "bar", "foo", "bar", "foo", "bar"]
-//
-// with dictionary ["bar", "foo"], would have the representation of:
-//
-//	indices: [1, 0, 1, 0, 1, 0]
-//	dictionary: ["bar", "foo"]
-//
-// The indices in principle may be any integer type.
-type Dictionary struct {
-	array
-
-	indices arrow.Array
-	dict    arrow.Array
-}
-
-// NewDictionaryArray constructs a dictionary array with the provided indices
-// and dictionary using the given type.
-func NewDictionaryArray(typ arrow.DataType, indices, dict arrow.Array) *Dictionary {
-	a := &Dictionary{}
-	a.array.refCount = 1
-	dictdata := NewData(typ, indices.Len(), indices.Data().Buffers(), indices.Data().Children(), indices.NullN(), indices.Data().Offset())
-	dictdata.dictionary = dict.Data().(*Data)
-	dict.Data().Retain()
-
-	defer dictdata.Release()
-	a.setData(dictdata)
-	return a
-}
-
-// checkIndexBounds returns an error if any value in the provided integer
-// arraydata is >= the passed upperlimit or < 0. otherwise nil
-func checkIndexBounds(indices *Data, upperlimit uint64) error {
-	if indices.length == 0 {
-		return nil
-	}
-
-	var maxval uint64
-	switch indices.dtype.ID() {
-	case arrow.UINT8:
-		maxval = math.MaxUint8
-	case arrow.UINT16:
-		maxval = math.MaxUint16
-	case arrow.UINT32:
-		maxval = math.MaxUint32
-	case arrow.UINT64:
-		maxval = math.MaxUint64
-	}
-	// for unsigned integers, if the values array is larger than the maximum
-	// index value (especially for UINT8/UINT16), then there's no need to
-	// boundscheck. for signed integers we still need to bounds check
-	// because a value could be < 0.
-	isSigned := maxval == 0
-	if !isSigned && upperlimit > maxval {
-		return nil
-	}
-
-	start := indices.offset
-	end := indices.offset + indices.length
-
-	// TODO(ARROW-15950): lift BitSetRunReader from parquet to utils
-	// and use it here for performance improvement.
-
-	switch indices.dtype.ID() {
-	case arrow.INT8:
-		data := arrow.Int8Traits.CastFromBytes(indices.buffers[1].Bytes())
-		min, max := utils.GetMinMaxInt8(data[start:end])
-		if min < 0 || max >= int8(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: min: %d, max: %d", min, max)
-		}
-	case arrow.UINT8:
-		data := arrow.Uint8Traits.CastFromBytes(indices.buffers[1].Bytes())
-		_, max := utils.GetMinMaxUint8(data[start:end])
-		if max >= uint8(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: max: %d", max)
-		}
-	case arrow.INT16:
-		data := arrow.Int16Traits.CastFromBytes(indices.buffers[1].Bytes())
-		min, max := utils.GetMinMaxInt16(data[start:end])
-		if min < 0 || max >= int16(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: min: %d, max: %d", min, max)
-		}
-	case arrow.UINT16:
-		data := arrow.Uint16Traits.CastFromBytes(indices.buffers[1].Bytes())
-		_, max := utils.GetMinMaxUint16(data[start:end])
-		if max >= uint16(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: max: %d", max)
-		}
-	case arrow.INT32:
-		data := arrow.Int32Traits.CastFromBytes(indices.buffers[1].Bytes())
-		min, max := utils.GetMinMaxInt32(data[start:end])
-		if min < 0 || max >= int32(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: min: %d, max: %d", min, max)
-		}
-	case arrow.UINT32:
-		data := arrow.Uint32Traits.CastFromBytes(indices.buffers[1].Bytes())
-		_, max := utils.GetMinMaxUint32(data[start:end])
-		if max >= uint32(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: max: %d", max)
-		}
-	case arrow.INT64:
-		data := arrow.Int64Traits.CastFromBytes(indices.buffers[1].Bytes())
-		min, max := utils.GetMinMaxInt64(data[start:end])
-		if min < 0 || max >= int64(upperlimit) {
-			return fmt.Errorf("contains out of bounds index: min: %d, max: %d", min, max)
-		}
-	case arrow.UINT64:
-		data := arrow.Uint64Traits.CastFromBytes(indices.buffers[1].Bytes())
-		_, max := utils.GetMinMaxUint64(data[indices.offset : indices.offset+indices.length])
-		if max >= upperlimit {
-			return fmt.Errorf("contains out of bounds value: max: %d", max)
-		}
-	default:
-		return fmt.Errorf("invalid type for bounds checking: %T", indices.dtype)
-	}
-
-	return nil
-}
-
-// NewValidatedDictionaryArray constructs a dictionary array from the provided indices
-// and dictionary arrays, while also performing validation checks to ensure correctness
-// such as bounds checking at are usually skipped for performance.
-func NewValidatedDictionaryArray(typ *arrow.DictionaryType, indices, dict arrow.Array) (*Dictionary, error) {
-	if indices.DataType().ID() != typ.IndexType.ID() {
-		return nil, fmt.Errorf("dictionary type index (%T) does not match indices array type (%T)", typ.IndexType, indices.DataType())
-	}
-
-	if !arrow.TypeEqual(typ.ValueType, dict.DataType()) {
-		return nil, fmt.Errorf("dictionary value type (%T) does not match dict array type (%T)", typ.ValueType, dict.DataType())
-	}
-
-	if err := checkIndexBounds(indices.Data().(*Data), uint64(dict.Len())); err != nil {
-		return nil, err
-	}
-
-	return NewDictionaryArray(typ, indices, dict), nil
-}
-
-// NewDictionaryData creates a strongly typed Dictionary array from
-// an ArrayData object with a datatype of arrow.Dictionary and a dictionary
-func NewDictionaryData(data arrow.ArrayData) *Dictionary {
-	a := &Dictionary{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (d *Dictionary) Retain() {
-	atomic.AddInt64(&d.refCount, 1)
-}
-
-func (d *Dictionary) Release() {
-	debug.Assert(atomic.LoadInt64(&d.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&d.refCount, -1) == 0 {
-		d.data.Release()
-		d.data, d.nullBitmapBytes = nil, nil
-		d.indices.Release()
-		d.indices = nil
-		if d.dict != nil {
-			d.dict.Release()
-			d.dict = nil
-		}
-	}
-}
-
-func (d *Dictionary) setData(data *Data) {
-	d.array.setData(data)
-
-	dictType := data.dtype.(*arrow.DictionaryType)
-	if data.dictionary == nil {
-		if data.length > 0 {
-			panic("arrow/array: no dictionary set in Data for Dictionary array")
-		}
-	} else {
-		debug.Assert(arrow.TypeEqual(dictType.ValueType, data.dictionary.DataType()), "mismatched dictionary value types")
-	}
-
-	indexData := NewData(dictType.IndexType, data.length, data.buffers, data.childData, data.nulls, data.offset)
-	defer indexData.Release()
-	d.indices = MakeFromData(indexData)
-}
-
-// Dictionary returns the values array that makes up the dictionary for this
-// array.
-func (d *Dictionary) Dictionary() arrow.Array {
-	if d.dict == nil {
-		d.dict = MakeFromData(d.data.dictionary)
-	}
-	return d.dict
-}
-
-// Indices returns the underlying array of indices as it's own array
-func (d *Dictionary) Indices() arrow.Array {
-	return d.indices
-}
-
-// CanCompareIndices returns true if the dictionary arrays can be compared
-// without having to unify the dictionaries themselves first.
-// This means that the index types are equal too.
-func (d *Dictionary) CanCompareIndices(other *Dictionary) bool {
-	if !arrow.TypeEqual(d.indices.DataType(), other.indices.DataType()) {
-		return false
-	}
-
-	minlen := int64(min(d.data.dictionary.length, other.data.dictionary.length))
-	return SliceEqual(d.Dictionary(), 0, minlen, other.Dictionary(), 0, minlen)
-}
-
-func (d *Dictionary) ValueStr(i int) string {
-	if d.IsNull(i) {
-		return NullValueStr
-	}
-	return d.Dictionary().ValueStr(d.GetValueIndex(i))
-}
-
-func (d *Dictionary) String() string {
-	return fmt.Sprintf("{ dictionary: %v\n  indices: %v }", d.Dictionary(), d.Indices())
-}
-
-// GetValueIndex returns the dictionary index for the value at index i of the array.
-// The actual value can be retrieved by using d.Dictionary().(valuetype).Value(d.GetValueIndex(i))
-func (d *Dictionary) GetValueIndex(i int) int {
-	indiceData := d.data.buffers[1].Bytes()
-	// we know the value is non-negative per the spec, so
-	// we can use the unsigned value regardless.
-	switch d.indices.DataType().ID() {
-	case arrow.UINT8, arrow.INT8:
-		return int(uint8(indiceData[d.data.offset+i]))
-	case arrow.UINT16, arrow.INT16:
-		return int(arrow.Uint16Traits.CastFromBytes(indiceData)[d.data.offset+i])
-	case arrow.UINT32, arrow.INT32:
-		idx := arrow.Uint32Traits.CastFromBytes(indiceData)[d.data.offset+i]
-		debug.Assert(bits.UintSize == 64 || idx <= math.MaxInt32, "arrow/dictionary: truncation of index value")
-		return int(idx)
-	case arrow.UINT64, arrow.INT64:
-		idx := arrow.Uint64Traits.CastFromBytes(indiceData)[d.data.offset+i]
-		debug.Assert((bits.UintSize == 32 && idx <= math.MaxInt32) || (bits.UintSize == 64 && idx <= math.MaxInt64), "arrow/dictionary: truncation of index value")
-		return int(idx)
-	}
-	debug.Assert(false, "unreachable dictionary index")
-	return -1
-}
-
-func (d *Dictionary) GetOneForMarshal(i int) interface{} {
-	if d.IsNull(i) {
-		return nil
-	}
-	vidx := d.GetValueIndex(i)
-	return d.Dictionary().GetOneForMarshal(vidx)
-}
-
-func (d *Dictionary) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, d.Len())
-	for i := 0; i < d.Len(); i++ {
-		vals[i] = d.GetOneForMarshal(i)
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualDict(l, r *Dictionary) bool {
-	return Equal(l.Dictionary(), r.Dictionary()) && Equal(l.indices, r.indices)
-}
-
-func arrayApproxEqualDict(l, r *Dictionary, opt equalOption) bool {
-	return arrayApproxEqual(l.Dictionary(), r.Dictionary(), opt) && arrayApproxEqual(l.indices, r.indices, opt)
-}
-
-// helper for building the properly typed indices of the dictionary builder
-type IndexBuilder struct {
-	Builder
-	Append func(int)
-}
-
-func createIndexBuilder(mem memory.Allocator, dt arrow.FixedWidthDataType) (ret IndexBuilder, err error) {
-	ret = IndexBuilder{Builder: NewBuilder(mem, dt)}
-	switch dt.ID() {
-	case arrow.INT8:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Int8Builder).Append(int8(idx))
-		}
-	case arrow.UINT8:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Uint8Builder).Append(uint8(idx))
-		}
-	case arrow.INT16:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Int16Builder).Append(int16(idx))
-		}
-	case arrow.UINT16:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Uint16Builder).Append(uint16(idx))
-		}
-	case arrow.INT32:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Int32Builder).Append(int32(idx))
-		}
-	case arrow.UINT32:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Uint32Builder).Append(uint32(idx))
-		}
-	case arrow.INT64:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Int64Builder).Append(int64(idx))
-		}
-	case arrow.UINT64:
-		ret.Append = func(idx int) {
-			ret.Builder.(*Uint64Builder).Append(uint64(idx))
-		}
-	default:
-		debug.Assert(false, "dictionary index type must be integral")
-		err = fmt.Errorf("dictionary index type must be integral, not %s", dt)
-	}
-
-	return
-}
-
-// helper function to construct an appropriately typed memo table based on
-// the value type for the dictionary
-func createMemoTable(mem memory.Allocator, dt arrow.DataType) (ret hashing.MemoTable, err error) {
-	switch dt.ID() {
-	case arrow.INT8:
-		ret = hashing.NewInt8MemoTable(0)
-	case arrow.UINT8:
-		ret = hashing.NewUint8MemoTable(0)
-	case arrow.INT16:
-		ret = hashing.NewInt16MemoTable(0)
-	case arrow.UINT16:
-		ret = hashing.NewUint16MemoTable(0)
-	case arrow.INT32:
-		ret = hashing.NewInt32MemoTable(0)
-	case arrow.UINT32:
-		ret = hashing.NewUint32MemoTable(0)
-	case arrow.INT64:
-		ret = hashing.NewInt64MemoTable(0)
-	case arrow.UINT64:
-		ret = hashing.NewUint64MemoTable(0)
-	case arrow.DURATION, arrow.TIMESTAMP, arrow.DATE64, arrow.TIME64:
-		ret = hashing.NewInt64MemoTable(0)
-	case arrow.TIME32, arrow.DATE32, arrow.INTERVAL_MONTHS:
-		ret = hashing.NewInt32MemoTable(0)
-	case arrow.FLOAT16:
-		ret = hashing.NewUint16MemoTable(0)
-	case arrow.FLOAT32:
-		ret = hashing.NewFloat32MemoTable(0)
-	case arrow.FLOAT64:
-		ret = hashing.NewFloat64MemoTable(0)
-	case arrow.BINARY, arrow.FIXED_SIZE_BINARY, arrow.DECIMAL128, arrow.DECIMAL256, arrow.INTERVAL_DAY_TIME, arrow.INTERVAL_MONTH_DAY_NANO:
-		ret = hashing.NewBinaryMemoTable(0, 0, NewBinaryBuilder(mem, arrow.BinaryTypes.Binary))
-	case arrow.STRING:
-		ret = hashing.NewBinaryMemoTable(0, 0, NewBinaryBuilder(mem, arrow.BinaryTypes.String))
-	case arrow.NULL:
-	default:
-		err = fmt.Errorf("unimplemented dictionary value type, %s", dt)
-	}
-
-	return
-}
-
-type DictionaryBuilder interface {
-	Builder
-
-	NewDictionaryArray() *Dictionary
-	NewDelta() (indices, delta arrow.Array, err error)
-	AppendArray(arrow.Array) error
-	AppendIndices([]int, []bool)
-	ResetFull()
-	DictionarySize() int
-}
-
-type dictionaryBuilder struct {
-	builder
-
-	dt          *arrow.DictionaryType
-	deltaOffset int
-	memoTable   hashing.MemoTable
-	idxBuilder  IndexBuilder
-}
-
-// NewDictionaryBuilderWithDict initializes a dictionary builder and inserts the values from `init` as the first
-// values in the dictionary, but does not insert them as values into the array.
-func NewDictionaryBuilderWithDict(mem memory.Allocator, dt *arrow.DictionaryType, init arrow.Array) DictionaryBuilder {
-	if init != nil && !arrow.TypeEqual(dt.ValueType, init.DataType()) {
-		panic(fmt.Errorf("arrow/array: cannot initialize dictionary type %T with array of type %T", dt.ValueType, init.DataType()))
-	}
-
-	idxbldr, err := createIndexBuilder(mem, dt.IndexType.(arrow.FixedWidthDataType))
-	if err != nil {
-		panic(fmt.Errorf("arrow/array: unsupported builder for index type of %T", dt))
-	}
-
-	memo, err := createMemoTable(mem, dt.ValueType)
-	if err != nil {
-		panic(fmt.Errorf("arrow/array: unsupported builder for value type of %T", dt))
-	}
-
-	bldr := dictionaryBuilder{
-		builder:    builder{refCount: 1, mem: mem},
-		idxBuilder: idxbldr,
-		memoTable:  memo,
-		dt:         dt,
-	}
-
-	switch dt.ValueType.ID() {
-	case arrow.NULL:
-		ret := &NullDictionaryBuilder{bldr}
-		debug.Assert(init == nil, "arrow/array: doesn't make sense to init a null dictionary")
-		return ret
-	case arrow.UINT8:
-		ret := &Uint8DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Uint8)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.INT8:
-		ret := &Int8DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Int8)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.UINT16:
-		ret := &Uint16DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Uint16)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.INT16:
-		ret := &Int16DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Int16)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.UINT32:
-		ret := &Uint32DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Uint32)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.INT32:
-		ret := &Int32DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Int32)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.UINT64:
-		ret := &Uint64DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Uint64)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.INT64:
-		ret := &Int64DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Int64)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.FLOAT16:
-		ret := &Float16DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Float16)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.FLOAT32:
-		ret := &Float32DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Float32)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.FLOAT64:
-		ret := &Float64DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Float64)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.STRING:
-		ret := &BinaryDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertStringDictValues(init.(*String)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.BINARY:
-		ret := &BinaryDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Binary)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.FIXED_SIZE_BINARY:
-		ret := &FixedSizeBinaryDictionaryBuilder{
-			bldr, dt.ValueType.(*arrow.FixedSizeBinaryType).ByteWidth,
-		}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*FixedSizeBinary)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.DATE32:
-		ret := &Date32DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Date32)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.DATE64:
-		ret := &Date64DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Date64)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.TIMESTAMP:
-		ret := &TimestampDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Timestamp)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.TIME32:
-		ret := &Time32DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Time32)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.TIME64:
-		ret := &Time64DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Time64)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.INTERVAL_MONTHS:
-		ret := &MonthIntervalDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*MonthInterval)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.INTERVAL_DAY_TIME:
-		ret := &DayTimeDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*DayTimeInterval)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.DECIMAL128:
-		ret := &Decimal128DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Decimal128)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.DECIMAL256:
-		ret := &Decimal256DictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Decimal256)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.LIST:
-	case arrow.STRUCT:
-	case arrow.SPARSE_UNION:
-	case arrow.DENSE_UNION:
-	case arrow.DICTIONARY:
-	case arrow.MAP:
-	case arrow.EXTENSION:
-	case arrow.FIXED_SIZE_LIST:
-	case arrow.DURATION:
-		ret := &DurationDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*Duration)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	case arrow.LARGE_STRING:
-	case arrow.LARGE_BINARY:
-	case arrow.LARGE_LIST:
-	case arrow.INTERVAL_MONTH_DAY_NANO:
-		ret := &MonthDayNanoDictionaryBuilder{bldr}
-		if init != nil {
-			if err = ret.InsertDictValues(init.(*MonthDayNanoInterval)); err != nil {
-				panic(err)
-			}
-		}
-		return ret
-	}
-
-	panic("arrow/array: unimplemented dictionary key type")
-}
-
-func NewDictionaryBuilder(mem memory.Allocator, dt *arrow.DictionaryType) DictionaryBuilder {
-	return NewDictionaryBuilderWithDict(mem, dt, nil)
-}
-
-func (b *dictionaryBuilder) Type() arrow.DataType { return b.dt }
-
-func (b *dictionaryBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		b.idxBuilder.Release()
-		b.idxBuilder.Builder = nil
-		if binmemo, ok := b.memoTable.(*hashing.BinaryMemoTable); ok {
-			binmemo.Release()
-		}
-		b.memoTable = nil
-	}
-}
-
-func (b *dictionaryBuilder) AppendNull() {
-	b.length += 1
-	b.nulls += 1
-	b.idxBuilder.AppendNull()
-}
-
-func (b *dictionaryBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *dictionaryBuilder) AppendEmptyValue() {
-	b.length += 1
-	b.idxBuilder.AppendEmptyValue()
-}
-
-func (b *dictionaryBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *dictionaryBuilder) Reserve(n int) {
-	b.idxBuilder.Reserve(n)
-}
-
-func (b *dictionaryBuilder) Resize(n int) {
-	b.idxBuilder.Resize(n)
-	b.length = b.idxBuilder.Len()
-}
-
-func (b *dictionaryBuilder) ResetFull() {
-	b.builder.reset()
-	b.idxBuilder.NewArray().Release()
-	b.memoTable.Reset()
-}
-
-func (b *dictionaryBuilder) Cap() int { return b.idxBuilder.Cap() }
-
-func (b *dictionaryBuilder) IsNull(i int) bool { return b.idxBuilder.IsNull(i) }
-
-func (b *dictionaryBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("dictionary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-func (b *dictionaryBuilder) Unmarshal(dec *json.Decoder) error {
-	bldr := NewBuilder(b.mem, b.dt.ValueType)
-	defer bldr.Release()
-
-	if err := bldr.Unmarshal(dec); err != nil {
-		return err
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	return b.AppendArray(arr)
-}
-
-func (b *dictionaryBuilder) AppendValueFromString(s string) error {
-	bldr := NewBuilder(b.mem, b.dt.ValueType)
-	defer bldr.Release()
-
-	if err := bldr.AppendValueFromString(s); err != nil {
-		return err
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	return b.AppendArray(arr)
-}
-
-func (b *dictionaryBuilder) UnmarshalOne(dec *json.Decoder) error {
-	bldr := NewBuilder(b.mem, b.dt.ValueType)
-	defer bldr.Release()
-
-	if err := bldr.UnmarshalOne(dec); err != nil {
-		return err
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	return b.AppendArray(arr)
-}
-
-func (b *dictionaryBuilder) NewArray() arrow.Array {
-	return b.NewDictionaryArray()
-}
-
-func (b *dictionaryBuilder) newData() *Data {
-	indices, dict, err := b.newWithDictOffset(0)
-	if err != nil {
-		panic(err)
-	}
-
-	indices.dtype = b.dt
-	indices.dictionary = dict
-	return indices
-}
-
-func (b *dictionaryBuilder) NewDictionaryArray() *Dictionary {
-	a := &Dictionary{}
-	a.refCount = 1
-
-	indices := b.newData()
-	a.setData(indices)
-	indices.Release()
-	return a
-}
-
-func (b *dictionaryBuilder) newWithDictOffset(offset int) (indices, dict *Data, err error) {
-	idxarr := b.idxBuilder.NewArray()
-	defer idxarr.Release()
-
-	indices = idxarr.Data().(*Data)
-
-	b.deltaOffset = b.memoTable.Size()
-	dict, err = GetDictArrayData(b.mem, b.dt.ValueType, b.memoTable, offset)
-	b.reset()
-	indices.Retain()
-	return
-}
-
-// NewDelta returns the dictionary indices and a delta dictionary since the
-// last time NewArray or NewDictionaryArray were called, and resets the state
-// of the builder (except for the dictionary / memotable)
-func (b *dictionaryBuilder) NewDelta() (indices, delta arrow.Array, err error) {
-	indicesData, deltaData, err := b.newWithDictOffset(b.deltaOffset)
-	if err != nil {
-		return nil, nil, err
-	}
-
-	defer indicesData.Release()
-	defer deltaData.Release()
-	indices, delta = MakeFromData(indicesData), MakeFromData(deltaData)
-	return
-}
-
-func (b *dictionaryBuilder) insertDictValue(val interface{}) error {
-	_, _, err := b.memoTable.GetOrInsert(val)
-	return err
-}
-
-func (b *dictionaryBuilder) insertDictBytes(val []byte) error {
-	_, _, err := b.memoTable.GetOrInsertBytes(val)
-	return err
-}
-
-func (b *dictionaryBuilder) appendValue(val interface{}) error {
-	idx, _, err := b.memoTable.GetOrInsert(val)
-	b.idxBuilder.Append(idx)
-	b.length += 1
-	return err
-}
-
-func (b *dictionaryBuilder) appendBytes(val []byte) error {
-	idx, _, err := b.memoTable.GetOrInsertBytes(val)
-	b.idxBuilder.Append(idx)
-	b.length += 1
-	return err
-}
-
-func getvalFn(arr arrow.Array) func(i int) interface{} {
-	switch typedarr := arr.(type) {
-	case *Int8:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Uint8:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Int16:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Uint16:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Int32:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Uint32:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Int64:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Uint64:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Float16:
-		return func(i int) interface{} { return typedarr.Value(i).Uint16() }
-	case *Float32:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Float64:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Duration:
-		return func(i int) interface{} { return int64(typedarr.Value(i)) }
-	case *Timestamp:
-		return func(i int) interface{} { return int64(typedarr.Value(i)) }
-	case *Date64:
-		return func(i int) interface{} { return int64(typedarr.Value(i)) }
-	case *Time64:
-		return func(i int) interface{} { return int64(typedarr.Value(i)) }
-	case *Time32:
-		return func(i int) interface{} { return int32(typedarr.Value(i)) }
-	case *Date32:
-		return func(i int) interface{} { return int32(typedarr.Value(i)) }
-	case *MonthInterval:
-		return func(i int) interface{} { return int32(typedarr.Value(i)) }
-	case *Binary:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *FixedSizeBinary:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *String:
-		return func(i int) interface{} { return typedarr.Value(i) }
-	case *Decimal128:
-		return func(i int) interface{} {
-			val := typedarr.Value(i)
-			return (*(*[arrow.Decimal128SizeBytes]byte)(unsafe.Pointer(&val)))[:]
-		}
-	case *Decimal256:
-		return func(i int) interface{} {
-			val := typedarr.Value(i)
-			return (*(*[arrow.Decimal256SizeBytes]byte)(unsafe.Pointer(&val)))[:]
-		}
-	case *DayTimeInterval:
-		return func(i int) interface{} {
-			val := typedarr.Value(i)
-			return (*(*[arrow.DayTimeIntervalSizeBytes]byte)(unsafe.Pointer(&val)))[:]
-		}
-	case *MonthDayNanoInterval:
-		return func(i int) interface{} {
-			val := typedarr.Value(i)
-			return (*(*[arrow.MonthDayNanoIntervalSizeBytes]byte)(unsafe.Pointer(&val)))[:]
-		}
-	}
-
-	panic("arrow/array: invalid dictionary value type")
-}
-
-func (b *dictionaryBuilder) AppendArray(arr arrow.Array) error {
-	debug.Assert(arrow.TypeEqual(b.dt.ValueType, arr.DataType()), "wrong value type of array to append to dict")
-
-	valfn := getvalFn(arr)
-	for i := 0; i < arr.Len(); i++ {
-		if arr.IsNull(i) {
-			b.AppendNull()
-		} else {
-			if err := b.appendValue(valfn(i)); err != nil {
-				return err
-			}
-		}
-	}
-	return nil
-}
-
-func (b *dictionaryBuilder) IndexBuilder() IndexBuilder {
-	return b.idxBuilder
-}
-
-func (b *dictionaryBuilder) AppendIndices(indices []int, valid []bool) {
-	b.length += len(indices)
-	switch idxbldr := b.idxBuilder.Builder.(type) {
-	case *Int8Builder:
-		vals := make([]int8, len(indices))
-		for i, v := range indices {
-			vals[i] = int8(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Int16Builder:
-		vals := make([]int16, len(indices))
-		for i, v := range indices {
-			vals[i] = int16(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Int32Builder:
-		vals := make([]int32, len(indices))
-		for i, v := range indices {
-			vals[i] = int32(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Int64Builder:
-		vals := make([]int64, len(indices))
-		for i, v := range indices {
-			vals[i] = int64(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Uint8Builder:
-		vals := make([]uint8, len(indices))
-		for i, v := range indices {
-			vals[i] = uint8(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Uint16Builder:
-		vals := make([]uint16, len(indices))
-		for i, v := range indices {
-			vals[i] = uint16(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Uint32Builder:
-		vals := make([]uint32, len(indices))
-		for i, v := range indices {
-			vals[i] = uint32(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	case *Uint64Builder:
-		vals := make([]uint64, len(indices))
-		for i, v := range indices {
-			vals[i] = uint64(v)
-		}
-		idxbldr.AppendValues(vals, valid)
-	}
-}
-
-func (b *dictionaryBuilder) DictionarySize() int {
-	return b.memoTable.Size()
-}
-
-type NullDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *NullDictionaryBuilder) NewArray() arrow.Array {
-	return b.NewDictionaryArray()
-}
-
-func (b *NullDictionaryBuilder) NewDictionaryArray() *Dictionary {
-	idxarr := b.idxBuilder.NewArray()
-	defer idxarr.Release()
-
-	out := idxarr.Data().(*Data)
-	dictarr := NewNull(0)
-	defer dictarr.Release()
-
-	dictarr.data.Retain()
-	out.dtype = b.dt
-	out.dictionary = dictarr.data
-
-	return NewDictionaryData(out)
-}
-
-func (b *NullDictionaryBuilder) AppendArray(arr arrow.Array) error {
-	if arr.DataType().ID() != arrow.NULL {
-		return fmt.Errorf("cannot append non-null array to null dictionary")
-	}
-
-	for i := 0; i < arr.(*Null).Len(); i++ {
-		b.AppendNull()
-	}
-	return nil
-}
-
-type Int8DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Int8DictionaryBuilder) Append(v int8) error { return b.appendValue(v) }
-func (b *Int8DictionaryBuilder) InsertDictValues(arr *Int8) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Uint8DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Uint8DictionaryBuilder) Append(v uint8) error { return b.appendValue(v) }
-func (b *Uint8DictionaryBuilder) InsertDictValues(arr *Uint8) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Int16DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Int16DictionaryBuilder) Append(v int16) error { return b.appendValue(v) }
-func (b *Int16DictionaryBuilder) InsertDictValues(arr *Int16) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Uint16DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Uint16DictionaryBuilder) Append(v uint16) error { return b.appendValue(v) }
-func (b *Uint16DictionaryBuilder) InsertDictValues(arr *Uint16) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Int32DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Int32DictionaryBuilder) Append(v int32) error { return b.appendValue(v) }
-func (b *Int32DictionaryBuilder) InsertDictValues(arr *Int32) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Uint32DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Uint32DictionaryBuilder) Append(v uint32) error { return b.appendValue(v) }
-func (b *Uint32DictionaryBuilder) InsertDictValues(arr *Uint32) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Int64DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Int64DictionaryBuilder) Append(v int64) error { return b.appendValue(v) }
-func (b *Int64DictionaryBuilder) InsertDictValues(arr *Int64) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Uint64DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Uint64DictionaryBuilder) Append(v uint64) error { return b.appendValue(v) }
-func (b *Uint64DictionaryBuilder) InsertDictValues(arr *Uint64) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type DurationDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *DurationDictionaryBuilder) Append(v arrow.Duration) error { return b.appendValue(int64(v)) }
-func (b *DurationDictionaryBuilder) InsertDictValues(arr *Duration) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int64(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type TimestampDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *TimestampDictionaryBuilder) Append(v arrow.Timestamp) error { return b.appendValue(int64(v)) }
-func (b *TimestampDictionaryBuilder) InsertDictValues(arr *Timestamp) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int64(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Time32DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Time32DictionaryBuilder) Append(v arrow.Time32) error { return b.appendValue(int32(v)) }
-func (b *Time32DictionaryBuilder) InsertDictValues(arr *Time32) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int32(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Time64DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Time64DictionaryBuilder) Append(v arrow.Time64) error { return b.appendValue(int64(v)) }
-func (b *Time64DictionaryBuilder) InsertDictValues(arr *Time64) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int64(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Date32DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Date32DictionaryBuilder) Append(v arrow.Date32) error { return b.appendValue(int32(v)) }
-func (b *Date32DictionaryBuilder) InsertDictValues(arr *Date32) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int32(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Date64DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Date64DictionaryBuilder) Append(v arrow.Date64) error { return b.appendValue(int64(v)) }
-func (b *Date64DictionaryBuilder) InsertDictValues(arr *Date64) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int64(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type MonthIntervalDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *MonthIntervalDictionaryBuilder) Append(v arrow.MonthInterval) error {
-	return b.appendValue(int32(v))
-}
-func (b *MonthIntervalDictionaryBuilder) InsertDictValues(arr *MonthInterval) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(int32(v)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Float16DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Float16DictionaryBuilder) Append(v float16.Num) error { return b.appendValue(v.Uint16()) }
-func (b *Float16DictionaryBuilder) InsertDictValues(arr *Float16) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v.Uint16()); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Float32DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Float32DictionaryBuilder) Append(v float32) error { return b.appendValue(v) }
-func (b *Float32DictionaryBuilder) InsertDictValues(arr *Float32) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type Float64DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Float64DictionaryBuilder) Append(v float64) error { return b.appendValue(v) }
-func (b *Float64DictionaryBuilder) InsertDictValues(arr *Float64) (err error) {
-	for _, v := range arr.values {
-		if err = b.insertDictValue(v); err != nil {
-			break
-		}
-	}
-	return
-}
-
-type BinaryDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *BinaryDictionaryBuilder) Append(v []byte) error {
-	if v == nil {
-		b.AppendNull()
-		return nil
-	}
-
-	return b.appendBytes(v)
-}
-
-func (b *BinaryDictionaryBuilder) AppendString(v string) error { return b.appendBytes([]byte(v)) }
-func (b *BinaryDictionaryBuilder) InsertDictValues(arr *Binary) (err error) {
-	if !arrow.TypeEqual(arr.DataType(), b.dt.ValueType) {
-		return fmt.Errorf("dictionary insert type mismatch: cannot insert values of type %T to dictionary type %T", arr.DataType(), b.dt.ValueType)
-	}
-
-	for i := 0; i < arr.Len(); i++ {
-		if err = b.insertDictBytes(arr.Value(i)); err != nil {
-			break
-		}
-	}
-	return
-}
-func (b *BinaryDictionaryBuilder) InsertStringDictValues(arr *String) (err error) {
-	if !arrow.TypeEqual(arr.DataType(), b.dt.ValueType) {
-		return fmt.Errorf("dictionary insert type mismatch: cannot insert values of type %T to dictionary type %T", arr.DataType(), b.dt.ValueType)
-	}
-
-	for i := 0; i < arr.Len(); i++ {
-		if err = b.insertDictValue(arr.Value(i)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-func (b *BinaryDictionaryBuilder) GetValueIndex(i int) int {
-	switch b := b.idxBuilder.Builder.(type) {
-	case *Uint8Builder:
-		return int(b.Value(i))
-	case *Int8Builder:
-		return int(b.Value(i))
-	case *Uint16Builder:
-		return int(b.Value(i))
-	case *Int16Builder:
-		return int(b.Value(i))
-	case *Uint32Builder:
-		return int(b.Value(i))
-	case *Int32Builder:
-		return int(b.Value(i))
-	case *Uint64Builder:
-		return int(b.Value(i))
-	case *Int64Builder:
-		return int(b.Value(i))
-	default:
-		return -1
-	}
-}
-
-func (b *BinaryDictionaryBuilder) Value(i int) []byte {
-	switch mt := b.memoTable.(type) {
-	case *hashing.BinaryMemoTable:
-		return mt.Value(i)
-	}
-	return nil
-}
-
-func (b *BinaryDictionaryBuilder) ValueStr(i int) string {
-	return string(b.Value(i))
-}
-
-type FixedSizeBinaryDictionaryBuilder struct {
-	dictionaryBuilder
-	byteWidth int
-}
-
-func (b *FixedSizeBinaryDictionaryBuilder) Append(v []byte) error {
-	return b.appendValue(v[:b.byteWidth])
-}
-func (b *FixedSizeBinaryDictionaryBuilder) InsertDictValues(arr *FixedSizeBinary) (err error) {
-	var (
-		beg = arr.array.data.offset * b.byteWidth
-		end = (arr.array.data.offset + arr.data.length) * b.byteWidth
-	)
-	data := arr.valueBytes[beg:end]
-	for len(data) > 0 {
-		if err = b.insertDictValue(data[:b.byteWidth]); err != nil {
-			break
-		}
-		data = data[b.byteWidth:]
-	}
-	return
-}
-
-type Decimal128DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Decimal128DictionaryBuilder) Append(v decimal128.Num) error {
-	return b.appendValue((*(*[arrow.Decimal128SizeBytes]byte)(unsafe.Pointer(&v)))[:])
-}
-func (b *Decimal128DictionaryBuilder) InsertDictValues(arr *Decimal128) (err error) {
-	data := arrow.Decimal128Traits.CastToBytes(arr.values)
-	for len(data) > 0 {
-		if err = b.insertDictValue(data[:arrow.Decimal128SizeBytes]); err != nil {
-			break
-		}
-		data = data[arrow.Decimal128SizeBytes:]
-	}
-	return
-}
-
-type Decimal256DictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *Decimal256DictionaryBuilder) Append(v decimal256.Num) error {
-	return b.appendValue((*(*[arrow.Decimal256SizeBytes]byte)(unsafe.Pointer(&v)))[:])
-}
-func (b *Decimal256DictionaryBuilder) InsertDictValues(arr *Decimal256) (err error) {
-	data := arrow.Decimal256Traits.CastToBytes(arr.values)
-	for len(data) > 0 {
-		if err = b.insertDictValue(data[:arrow.Decimal256SizeBytes]); err != nil {
-			break
-		}
-		data = data[arrow.Decimal256SizeBytes:]
-	}
-	return
-}
-
-type MonthDayNanoDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *MonthDayNanoDictionaryBuilder) Append(v arrow.MonthDayNanoInterval) error {
-	return b.appendValue((*(*[arrow.MonthDayNanoIntervalSizeBytes]byte)(unsafe.Pointer(&v)))[:])
-}
-func (b *MonthDayNanoDictionaryBuilder) InsertDictValues(arr *MonthDayNanoInterval) (err error) {
-	data := arrow.MonthDayNanoIntervalTraits.CastToBytes(arr.values)
-	for len(data) > 0 {
-		if err = b.insertDictValue(data[:arrow.MonthDayNanoIntervalSizeBytes]); err != nil {
-			break
-		}
-		data = data[arrow.MonthDayNanoIntervalSizeBytes:]
-	}
-	return
-}
-
-type DayTimeDictionaryBuilder struct {
-	dictionaryBuilder
-}
-
-func (b *DayTimeDictionaryBuilder) Append(v arrow.DayTimeInterval) error {
-	return b.appendValue((*(*[arrow.DayTimeIntervalSizeBytes]byte)(unsafe.Pointer(&v)))[:])
-}
-func (b *DayTimeDictionaryBuilder) InsertDictValues(arr *DayTimeInterval) (err error) {
-	data := arrow.DayTimeIntervalTraits.CastToBytes(arr.values)
-	for len(data) > 0 {
-		if err = b.insertDictValue(data[:arrow.DayTimeIntervalSizeBytes]); err != nil {
-			break
-		}
-		data = data[arrow.DayTimeIntervalSizeBytes:]
-	}
-	return
-}
-
-func IsTrivialTransposition(transposeMap []int32) bool {
-	for i, t := range transposeMap {
-		if t != int32(i) {
-			return false
-		}
-	}
-	return true
-}
-
-func TransposeDictIndices(mem memory.Allocator, data arrow.ArrayData, inType, outType arrow.DataType, dict arrow.ArrayData, transposeMap []int32) (arrow.ArrayData, error) {
-	// inType may be different from data->dtype if data is ExtensionType
-	if inType.ID() != arrow.DICTIONARY || outType.ID() != arrow.DICTIONARY {
-		return nil, errors.New("arrow/array: expected dictionary type")
-	}
-
-	var (
-		inDictType   = inType.(*arrow.DictionaryType)
-		outDictType  = outType.(*arrow.DictionaryType)
-		inIndexType  = inDictType.IndexType
-		outIndexType = outDictType.IndexType.(arrow.FixedWidthDataType)
-	)
-
-	if inIndexType.ID() == outIndexType.ID() && IsTrivialTransposition(transposeMap) {
-		// index type and values will be identical, we can reuse the existing buffers
-		return NewDataWithDictionary(outType, data.Len(), []*memory.Buffer{data.Buffers()[0], data.Buffers()[1]},
-			data.NullN(), data.Offset(), dict.(*Data)), nil
-	}
-
-	// default path: compute the transposed indices as a new buffer
-	outBuf := memory.NewResizableBuffer(mem)
-	outBuf.Resize(data.Len() * int(bitutil.BytesForBits(int64(outIndexType.BitWidth()))))
-	defer outBuf.Release()
-
-	// shift null buffer if original offset is non-zero
-	var nullBitmap *memory.Buffer
-	if data.Offset() != 0 && data.NullN() != 0 {
-		nullBitmap = memory.NewResizableBuffer(mem)
-		nullBitmap.Resize(int(bitutil.BytesForBits(int64(data.Len()))))
-		bitutil.CopyBitmap(data.Buffers()[0].Bytes(), data.Offset(), data.Len(), nullBitmap.Bytes(), 0)
-		defer nullBitmap.Release()
-	} else {
-		nullBitmap = data.Buffers()[0]
-	}
-
-	outData := NewDataWithDictionary(outType, data.Len(),
-		[]*memory.Buffer{nullBitmap, outBuf}, data.NullN(), 0, dict.(*Data))
-	err := utils.TransposeIntsBuffers(inIndexType, outIndexType,
-		data.Buffers()[1].Bytes(), outBuf.Bytes(), data.Offset(), outData.offset, data.Len(), transposeMap)
-	return outData, err
-}
-
-// DictionaryUnifier defines the interface used for unifying, and optionally producing
-// transposition maps for, multiple dictionary arrays incrementally.
-type DictionaryUnifier interface {
-	// Unify adds the provided array of dictionary values to be unified.
-	Unify(arrow.Array) error
-	// UnifyAndTranspose adds the provided array of dictionary values,
-	// just like Unify but returns an allocated buffer containing a mapping
-	// to transpose dictionary indices.
-	UnifyAndTranspose(dict arrow.Array) (transposed *memory.Buffer, err error)
-	// GetResult returns the dictionary type (choosing the smallest index type
-	// that can represent all the values) and the new unified dictionary.
-	//
-	// Calling GetResult clears the existing dictionary from the unifier so it
-	// can be reused by calling Unify/UnifyAndTranspose again with new arrays.
-	GetResult() (outType arrow.DataType, outDict arrow.Array, err error)
-	// GetResultWithIndexType is like GetResult, but allows specifying the type
-	// of the dictionary indexes rather than letting the unifier pick. If the
-	// passed in index type isn't large enough to represent all of the dictionary
-	// values, an error will be returned instead. The new unified dictionary
-	// is returned.
-	GetResultWithIndexType(indexType arrow.DataType) (arrow.Array, error)
-	// Release should be called to clean up any allocated scratch memo-table used
-	// for building the unified dictionary.
-	Release()
-}
-
-type unifier struct {
-	mem       memory.Allocator
-	valueType arrow.DataType
-	memoTable hashing.MemoTable
-}
-
-// NewDictionaryUnifier constructs and returns a new dictionary unifier for dictionaries
-// of valueType, using the provided allocator for allocating the unified dictionary
-// and the memotable used for building it.
-//
-// This will only work for non-nested types currently. a nested valueType or dictionary type
-// will result in an error.
-func NewDictionaryUnifier(alloc memory.Allocator, valueType arrow.DataType) (DictionaryUnifier, error) {
-	memoTable, err := createMemoTable(alloc, valueType)
-	if err != nil {
-		return nil, err
-	}
-	return &unifier{
-		mem:       alloc,
-		valueType: valueType,
-		memoTable: memoTable,
-	}, nil
-}
-
-func (u *unifier) Release() {
-	if bin, ok := u.memoTable.(*hashing.BinaryMemoTable); ok {
-		bin.Release()
-	}
-}
-
-func (u *unifier) Unify(dict arrow.Array) (err error) {
-	if !arrow.TypeEqual(u.valueType, dict.DataType()) {
-		return fmt.Errorf("dictionary type different from unifier: %s, expected: %s", dict.DataType(), u.valueType)
-	}
-
-	valFn := getvalFn(dict)
-	for i := 0; i < dict.Len(); i++ {
-		if dict.IsNull(i) {
-			u.memoTable.GetOrInsertNull()
-			continue
-		}
-
-		if _, _, err = u.memoTable.GetOrInsert(valFn(i)); err != nil {
-			return err
-		}
-	}
-	return
-}
-
-func (u *unifier) UnifyAndTranspose(dict arrow.Array) (transposed *memory.Buffer, err error) {
-	if !arrow.TypeEqual(u.valueType, dict.DataType()) {
-		return nil, fmt.Errorf("dictionary type different from unifier: %s, expected: %s", dict.DataType(), u.valueType)
-	}
-
-	transposed = memory.NewResizableBuffer(u.mem)
-	transposed.Resize(arrow.Int32Traits.BytesRequired(dict.Len()))
-
-	newIdxes := arrow.Int32Traits.CastFromBytes(transposed.Bytes())
-	valFn := getvalFn(dict)
-	for i := 0; i < dict.Len(); i++ {
-		if dict.IsNull(i) {
-			idx, _ := u.memoTable.GetOrInsertNull()
-			newIdxes[i] = int32(idx)
-			continue
-		}
-
-		idx, _, err := u.memoTable.GetOrInsert(valFn(i))
-		if err != nil {
-			transposed.Release()
-			return nil, err
-		}
-		newIdxes[i] = int32(idx)
-	}
-	return
-}
-
-func (u *unifier) GetResult() (outType arrow.DataType, outDict arrow.Array, err error) {
-	dictLen := u.memoTable.Size()
-	var indexType arrow.DataType
-	switch {
-	case dictLen <= math.MaxInt8:
-		indexType = arrow.PrimitiveTypes.Int8
-	case dictLen <= math.MaxInt16:
-		indexType = arrow.PrimitiveTypes.Int16
-	case dictLen <= math.MaxInt32:
-		indexType = arrow.PrimitiveTypes.Int32
-	default:
-		indexType = arrow.PrimitiveTypes.Int64
-	}
-	outType = &arrow.DictionaryType{IndexType: indexType, ValueType: u.valueType}
-
-	dictData, err := GetDictArrayData(u.mem, u.valueType, u.memoTable, 0)
-	if err != nil {
-		return nil, nil, err
-	}
-
-	u.memoTable.Reset()
-
-	defer dictData.Release()
-	outDict = MakeFromData(dictData)
-	return
-}
-
-func (u *unifier) GetResultWithIndexType(indexType arrow.DataType) (arrow.Array, error) {
-	dictLen := u.memoTable.Size()
-	var toobig bool
-	switch indexType.ID() {
-	case arrow.UINT8:
-		toobig = dictLen > math.MaxUint8
-	case arrow.INT8:
-		toobig = dictLen > math.MaxInt8
-	case arrow.UINT16:
-		toobig = dictLen > math.MaxUint16
-	case arrow.INT16:
-		toobig = dictLen > math.MaxInt16
-	case arrow.UINT32:
-		toobig = uint(dictLen) > math.MaxUint32
-	case arrow.INT32:
-		toobig = dictLen > math.MaxInt32
-	case arrow.UINT64:
-		toobig = uint64(dictLen) > uint64(math.MaxUint64)
-	case arrow.INT64:
-	default:
-		return nil, fmt.Errorf("arrow/array: invalid dictionary index type: %s, must be integral", indexType)
-	}
-	if toobig {
-		return nil, errors.New("arrow/array: cannot combine dictionaries. unified dictionary requires a larger index type")
-	}
-
-	dictData, err := GetDictArrayData(u.mem, u.valueType, u.memoTable, 0)
-	if err != nil {
-		return nil, err
-	}
-
-	u.memoTable.Reset()
-
-	defer dictData.Release()
-	return MakeFromData(dictData), nil
-}
-
-type binaryUnifier struct {
-	mem       memory.Allocator
-	memoTable *hashing.BinaryMemoTable
-}
-
-// NewBinaryDictionaryUnifier constructs and returns a new dictionary unifier for dictionaries
-// of binary values, using the provided allocator for allocating the unified dictionary
-// and the memotable used for building it.
-func NewBinaryDictionaryUnifier(alloc memory.Allocator) DictionaryUnifier {
-	return &binaryUnifier{
-		mem:       alloc,
-		memoTable: hashing.NewBinaryMemoTable(0, 0, NewBinaryBuilder(alloc, arrow.BinaryTypes.Binary)),
-	}
-}
-
-func (u *binaryUnifier) Release() {
-	u.memoTable.Release()
-}
-
-func (u *binaryUnifier) Unify(dict arrow.Array) (err error) {
-	if !arrow.TypeEqual(arrow.BinaryTypes.Binary, dict.DataType()) {
-		return fmt.Errorf("dictionary type different from unifier: %s, expected: %s", dict.DataType(), arrow.BinaryTypes.Binary)
-	}
-
-	typedDict := dict.(*Binary)
-	for i := 0; i < dict.Len(); i++ {
-		if dict.IsNull(i) {
-			u.memoTable.GetOrInsertNull()
-			continue
-		}
-
-		if _, _, err = u.memoTable.GetOrInsertBytes(typedDict.Value(i)); err != nil {
-			return err
-		}
-	}
-	return
-}
-
-func (u *binaryUnifier) UnifyAndTranspose(dict arrow.Array) (transposed *memory.Buffer, err error) {
-	if !arrow.TypeEqual(arrow.BinaryTypes.Binary, dict.DataType()) {
-		return nil, fmt.Errorf("dictionary type different from unifier: %s, expected: %s", dict.DataType(), arrow.BinaryTypes.Binary)
-	}
-
-	transposed = memory.NewResizableBuffer(u.mem)
-	transposed.Resize(arrow.Int32Traits.BytesRequired(dict.Len()))
-
-	newIdxes := arrow.Int32Traits.CastFromBytes(transposed.Bytes())
-	typedDict := dict.(*Binary)
-	for i := 0; i < dict.Len(); i++ {
-		if dict.IsNull(i) {
-			idx, _ := u.memoTable.GetOrInsertNull()
-			newIdxes[i] = int32(idx)
-			continue
-		}
-
-		idx, _, err := u.memoTable.GetOrInsertBytes(typedDict.Value(i))
-		if err != nil {
-			transposed.Release()
-			return nil, err
-		}
-		newIdxes[i] = int32(idx)
-	}
-	return
-}
-
-func (u *binaryUnifier) GetResult() (outType arrow.DataType, outDict arrow.Array, err error) {
-	dictLen := u.memoTable.Size()
-	var indexType arrow.DataType
-	switch {
-	case dictLen <= math.MaxInt8:
-		indexType = arrow.PrimitiveTypes.Int8
-	case dictLen <= math.MaxInt16:
-		indexType = arrow.PrimitiveTypes.Int16
-	case dictLen <= math.MaxInt32:
-		indexType = arrow.PrimitiveTypes.Int32
-	default:
-		indexType = arrow.PrimitiveTypes.Int64
-	}
-	outType = &arrow.DictionaryType{IndexType: indexType, ValueType: arrow.BinaryTypes.Binary}
-
-	dictData, err := GetDictArrayData(u.mem, arrow.BinaryTypes.Binary, u.memoTable, 0)
-	if err != nil {
-		return nil, nil, err
-	}
-
-	u.memoTable.Reset()
-
-	defer dictData.Release()
-	outDict = MakeFromData(dictData)
-	return
-}
-
-func (u *binaryUnifier) GetResultWithIndexType(indexType arrow.DataType) (arrow.Array, error) {
-	dictLen := u.memoTable.Size()
-	var toobig bool
-	switch indexType.ID() {
-	case arrow.UINT8:
-		toobig = dictLen > math.MaxUint8
-	case arrow.INT8:
-		toobig = dictLen > math.MaxInt8
-	case arrow.UINT16:
-		toobig = dictLen > math.MaxUint16
-	case arrow.INT16:
-		toobig = dictLen > math.MaxInt16
-	case arrow.UINT32:
-		toobig = uint(dictLen) > math.MaxUint32
-	case arrow.INT32:
-		toobig = dictLen > math.MaxInt32
-	case arrow.UINT64:
-		toobig = uint64(dictLen) > uint64(math.MaxUint64)
-	case arrow.INT64:
-	default:
-		return nil, fmt.Errorf("arrow/array: invalid dictionary index type: %s, must be integral", indexType)
-	}
-	if toobig {
-		return nil, errors.New("arrow/array: cannot combine dictionaries. unified dictionary requires a larger index type")
-	}
-
-	dictData, err := GetDictArrayData(u.mem, arrow.BinaryTypes.Binary, u.memoTable, 0)
-	if err != nil {
-		return nil, err
-	}
-
-	u.memoTable.Reset()
-
-	defer dictData.Release()
-	return MakeFromData(dictData), nil
-}
-
-func unifyRecursive(mem memory.Allocator, typ arrow.DataType, chunks []*Data) (changed bool, err error) {
-	debug.Assert(len(chunks) != 0, "must provide non-zero length chunk slice")
-	var extType arrow.DataType
-
-	if typ.ID() == arrow.EXTENSION {
-		extType = typ
-		typ = typ.(arrow.ExtensionType).StorageType()
-	}
-
-	if nestedTyp, ok := typ.(arrow.NestedType); ok {
-		children := make([]*Data, len(chunks))
-		for i, f := range nestedTyp.Fields() {
-			for j, c := range chunks {
-				children[j] = c.childData[i].(*Data)
-			}
-
-			childChanged, err := unifyRecursive(mem, f.Type, children)
-			if err != nil {
-				return false, err
-			}
-			if childChanged {
-				// only when unification actually occurs
-				for j := range chunks {
-					chunks[j].childData[i] = children[j]
-				}
-				changed = true
-			}
-		}
-	}
-
-	if typ.ID() == arrow.DICTIONARY {
-		dictType := typ.(*arrow.DictionaryType)
-		var (
-			uni     DictionaryUnifier
-			newDict arrow.Array
-		)
-		// unify any nested dictionaries first, but the unifier doesn't support
-		// nested dictionaries yet so this would fail.
-		uni, err = NewDictionaryUnifier(mem, dictType.ValueType)
-		if err != nil {
-			return changed, err
-		}
-		defer uni.Release()
-		transposeMaps := make([]*memory.Buffer, len(chunks))
-		for i, c := range chunks {
-			debug.Assert(c.dictionary != nil, "missing dictionary data for dictionary array")
-			arr := MakeFromData(c.dictionary)
-			defer arr.Release()
-			if transposeMaps[i], err = uni.UnifyAndTranspose(arr); err != nil {
-				return
-			}
-			defer transposeMaps[i].Release()
-		}
-
-		if newDict, err = uni.GetResultWithIndexType(dictType.IndexType); err != nil {
-			return
-		}
-		defer newDict.Release()
-
-		for j := range chunks {
-			chnk, err := TransposeDictIndices(mem, chunks[j], typ, typ, newDict.Data(), arrow.Int32Traits.CastFromBytes(transposeMaps[j].Bytes()))
-			if err != nil {
-				return changed, err
-			}
-			chunks[j].Release()
-			chunks[j] = chnk.(*Data)
-			if extType != nil {
-				chunks[j].dtype = extType
-			}
-		}
-		changed = true
-	}
-
-	return
-}
-
-// UnifyChunkedDicts takes a chunked array of dictionary type and will unify
-// the dictionary across all of the chunks with the returned chunked array
-// having all chunks share the same dictionary.
-//
-// The return from this *must* have Release called on it unless an error is returned
-// in which case the *arrow.Chunked will be nil.
-//
-// If there is 1 or fewer chunks, then nothing is modified and this function will just
-// call Retain on the passed in Chunked array (so Release can safely be called on it).
-// The same is true if the type of the array is not a dictionary or if no changes are
-// needed for all of the chunks to be using the same dictionary.
-func UnifyChunkedDicts(alloc memory.Allocator, chnkd *arrow.Chunked) (*arrow.Chunked, error) {
-	if len(chnkd.Chunks()) <= 1 {
-		chnkd.Retain()
-		return chnkd, nil
-	}
-
-	chunksData := make([]*Data, len(chnkd.Chunks()))
-	for i, c := range chnkd.Chunks() {
-		c.Data().Retain()
-		chunksData[i] = c.Data().(*Data)
-	}
-	changed, err := unifyRecursive(alloc, chnkd.DataType(), chunksData)
-	if err != nil || !changed {
-		for _, c := range chunksData {
-			c.Release()
-		}
-		if err == nil {
-			chnkd.Retain()
-		} else {
-			chnkd = nil
-		}
-		return chnkd, err
-	}
-
-	chunks := make([]arrow.Array, len(chunksData))
-	for i, c := range chunksData {
-		chunks[i] = MakeFromData(c)
-		defer chunks[i].Release()
-		c.Release()
-	}
-
-	return arrow.NewChunked(chnkd.DataType(), chunks), nil
-}
-
-// UnifyTableDicts performs UnifyChunkedDicts on each column of the table so that
-// any dictionary column will have the dictionaries of its chunks unified.
-//
-// The returned Table should always be Release'd unless a non-nil error was returned,
-// in which case the table returned will be nil.
-func UnifyTableDicts(alloc memory.Allocator, table arrow.Table) (arrow.Table, error) {
-	cols := make([]arrow.Column, table.NumCols())
-	for i := 0; i < int(table.NumCols()); i++ {
-		chnkd, err := UnifyChunkedDicts(alloc, table.Column(i).Data())
-		if err != nil {
-			return nil, err
-		}
-		defer chnkd.Release()
-		cols[i] = *arrow.NewColumn(table.Schema().Field(i), chnkd)
-		defer cols[i].Release()
-	}
-	return NewTable(table.Schema(), cols, table.NumRows()), nil
-}
-
-var (
-	_ arrow.Array = (*Dictionary)(nil)
-	_ Builder     = (*dictionaryBuilder)(nil)
-)
diff --git a/go/arrow/array/dictionary_test.go b/go/arrow/array/dictionary_test.go
deleted file mode 100644
index ea9587d8dcdf9..0000000000000
--- a/go/arrow/array/dictionary_test.go
+++ /dev/null
@@ -1,1918 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"math"
-	"math/rand"
-	"reflect"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-type PrimitiveDictionaryTestSuite struct {
-	suite.Suite
-
-	mem    *memory.CheckedAllocator
-	typ    arrow.DataType
-	reftyp reflect.Type
-}
-
-func (p *PrimitiveDictionaryTestSuite) SetupTest() {
-	p.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-}
-
-func (p *PrimitiveDictionaryTestSuite) TearDownTest() {
-	p.mem.AssertSize(p.T(), 0)
-}
-
-func TestPrimitiveDictionaryBuilders(t *testing.T) {
-	tests := []struct {
-		name   string
-		typ    arrow.DataType
-		reftyp reflect.Type
-	}{
-		{"int8", arrow.PrimitiveTypes.Int8, reflect.TypeOf(int8(0))},
-		{"uint8", arrow.PrimitiveTypes.Uint8, reflect.TypeOf(uint8(0))},
-		{"int16", arrow.PrimitiveTypes.Int16, reflect.TypeOf(int16(0))},
-		{"uint16", arrow.PrimitiveTypes.Uint16, reflect.TypeOf(uint16(0))},
-		{"int32", arrow.PrimitiveTypes.Int32, reflect.TypeOf(int32(0))},
-		{"uint32", arrow.PrimitiveTypes.Uint32, reflect.TypeOf(uint32(0))},
-		{"int64", arrow.PrimitiveTypes.Int64, reflect.TypeOf(int64(0))},
-		{"uint64", arrow.PrimitiveTypes.Uint64, reflect.TypeOf(uint64(0))},
-		{"float32", arrow.PrimitiveTypes.Float32, reflect.TypeOf(float32(0))},
-		{"float64", arrow.PrimitiveTypes.Float64, reflect.TypeOf(float64(0))},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			suite.Run(t, &PrimitiveDictionaryTestSuite{typ: tt.typ, reftyp: tt.reftyp})
-		})
-	}
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestDictionaryBuilderBasic() {
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: p.typ}
-	bldr := array.NewDictionaryBuilder(p.mem, expectedType)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	bldr.AppendNull()
-
-	p.EqualValues(4, bldr.Len())
-	p.EqualValues(1, bldr.NullN())
-
-	p.EqualValues(2, bldr.DictionarySize())
-
-	arr := bldr.NewArray().(*array.Dictionary)
-	defer arr.Release()
-
-	p.True(arrow.TypeEqual(expectedType, arr.DataType()))
-	expectedDict, _, err := array.FromJSON(p.mem, expectedType.ValueType, strings.NewReader("[1, 2]"))
-	p.NoError(err)
-	defer expectedDict.Release()
-
-	expectedIndices, _, err := array.FromJSON(p.mem, expectedType.IndexType, strings.NewReader("[0, 1, 0, null]"))
-	p.NoError(err)
-	defer expectedIndices.Release()
-
-	expected := array.NewDictionaryArray(expectedType, expectedIndices, expectedDict)
-	defer expected.Release()
-
-	p.True(array.Equal(expected, arr))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestDictionaryBuilderInit() {
-	valueType := p.typ
-	dictArr, _, err := array.FromJSON(p.mem, valueType, strings.NewReader("[1, 2]"))
-	p.NoError(err)
-	defer dictArr.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: valueType}
-	bldr := array.NewDictionaryBuilderWithDict(p.mem, dictType, dictArr)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	bldr.AppendNull()
-
-	p.EqualValues(4, bldr.Len())
-	p.EqualValues(1, bldr.NullN())
-
-	arr := bldr.NewDictionaryArray()
-	defer arr.Release()
-
-	expectedIndices, _, err := array.FromJSON(p.mem, dictType.IndexType, strings.NewReader("[0, 1, 0, null]"))
-	p.NoError(err)
-	defer expectedIndices.Release()
-
-	expected := array.NewDictionaryArray(dictType, expectedIndices, dictArr)
-	defer expected.Release()
-
-	p.True(array.Equal(expected, arr))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestDictionaryNewBuilder() {
-	valueType := p.typ
-	dictArr, _, err := array.FromJSON(p.mem, valueType, strings.NewReader("[1, 2]"))
-	p.NoError(err)
-	defer dictArr.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: valueType}
-	bldr := array.NewBuilder(p.mem, dictType)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	bldr.AppendNull()
-
-	p.EqualValues(4, bldr.Len())
-	p.EqualValues(1, bldr.NullN())
-
-	arr := bldr.NewArray().(*array.Dictionary)
-	defer arr.Release()
-
-	expectedIndices, _, err := array.FromJSON(p.mem, dictType.IndexType, strings.NewReader("[0, 1, 0, null]"))
-	p.NoError(err)
-	defer expectedIndices.Release()
-
-	expected := array.NewDictionaryArray(dictType, expectedIndices, dictArr)
-	defer expected.Release()
-
-	p.True(array.Equal(expected, arr))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestDictionaryBuilderAppendArr() {
-	valueType := p.typ
-	intermediate, _, err := array.FromJSON(p.mem, valueType, strings.NewReader("[1, 2, 1]"))
-	p.NoError(err)
-	defer intermediate.Release()
-
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: p.typ}
-	bldr := array.NewDictionaryBuilder(p.mem, expectedType)
-	defer bldr.Release()
-
-	bldr.AppendArray(intermediate)
-	result := bldr.NewArray()
-	defer result.Release()
-
-	expectedDict, _, err := array.FromJSON(p.mem, expectedType.ValueType, strings.NewReader("[1, 2]"))
-	p.NoError(err)
-	defer expectedDict.Release()
-
-	expectedIndices, _, err := array.FromJSON(p.mem, expectedType.IndexType, strings.NewReader("[0, 1, 0]"))
-	p.NoError(err)
-	defer expectedIndices.Release()
-
-	expected := array.NewDictionaryArray(expectedType, expectedIndices, expectedDict)
-	defer expected.Release()
-
-	p.True(array.Equal(expected, result))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestDictionaryBuilderDeltaDictionary() {
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: p.typ}
-	bldr := array.NewDictionaryBuilder(p.mem, expectedType)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-
-	result := bldr.NewArray()
-	defer result.Release()
-
-	exdict, _, err := array.FromJSON(p.mem, p.typ, strings.NewReader("[1, 2]"))
-	p.NoError(err)
-	defer exdict.Release()
-	exindices, _, err := array.FromJSON(p.mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0, 1]"))
-	p.NoError(err)
-	defer exindices.Release()
-	expected := array.NewDictionaryArray(result.DataType().(*arrow.DictionaryType), exindices, exdict)
-	defer expected.Release()
-	p.True(array.Equal(expected, result))
-
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-
-	indices, delta, err := bldr.NewDelta()
-	p.NoError(err)
-	defer indices.Release()
-	defer delta.Release()
-
-	exindices, _, _ = array.FromJSON(p.mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[1, 2, 2, 0, 2]"))
-	defer exindices.Release()
-	exdelta, _, _ := array.FromJSON(p.mem, p.typ, strings.NewReader("[3]"))
-	defer exdelta.Release()
-
-	p.True(array.Equal(exindices, indices))
-	p.True(array.Equal(exdelta, delta))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestDictionaryBuilderDoubleDeltaDictionary() {
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: p.typ}
-	bldr := array.NewDictionaryBuilder(p.mem, expectedType)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-
-	result := bldr.NewArray()
-	defer result.Release()
-
-	exdict, _, err := array.FromJSON(p.mem, p.typ, strings.NewReader("[1, 2]"))
-	p.NoError(err)
-	defer exdict.Release()
-	exindices, _, err := array.FromJSON(p.mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0, 1]"))
-	p.NoError(err)
-	defer exindices.Release()
-	expected := array.NewDictionaryArray(result.DataType().(*arrow.DictionaryType), exindices, exdict)
-	defer expected.Release()
-	p.True(array.Equal(expected, result))
-
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-
-	indices, delta, err := bldr.NewDelta()
-	p.NoError(err)
-	defer indices.Release()
-	defer delta.Release()
-
-	exindices, _, _ = array.FromJSON(p.mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[1, 2, 2, 0, 2]"))
-	defer exindices.Release()
-	exdelta, _, _ := array.FromJSON(p.mem, p.typ, strings.NewReader("[3]"))
-	defer exdelta.Release()
-
-	p.True(array.Equal(exindices, indices))
-	p.True(array.Equal(exdelta, delta))
-
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(4).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(5).Convert(p.reftyp)})[0].Interface())
-
-	indices, delta, err = bldr.NewDelta()
-	p.NoError(err)
-	defer indices.Release()
-	defer delta.Release()
-
-	exindices, _, _ = array.FromJSON(p.mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 2, 3, 4]"))
-	defer exindices.Release()
-	exdelta, _, _ = array.FromJSON(p.mem, p.typ, strings.NewReader("[4, 5]"))
-	defer exdelta.Release()
-
-	p.True(array.Equal(exindices, indices))
-	p.True(array.Equal(exdelta, delta))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestNewResetBehavior() {
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: p.typ}
-	bldr := array.NewDictionaryBuilder(p.mem, expectedType)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	bldr.AppendNull()
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-
-	p.Less(0, bldr.Cap())
-	p.Less(0, bldr.NullN())
-	p.Equal(4, bldr.Len())
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	p.Zero(bldr.Cap())
-	p.Zero(bldr.Len())
-	p.Zero(bldr.NullN())
-
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	bldr.AppendNull()
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(4).Convert(p.reftyp)})[0].Interface())
-
-	result = bldr.NewDictionaryArray()
-	defer result.Release()
-
-	p.Equal(4, result.Dictionary().Len())
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestResetFull() {
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int32Type{}, ValueType: p.typ}
-	bldr := array.NewDictionaryBuilder(p.mem, expectedType)
-	defer bldr.Release()
-
-	builder := reflect.ValueOf(bldr)
-	appfn := builder.MethodByName("Append")
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	bldr.AppendNull()
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(3).Convert(p.reftyp)})[0].Interface())
-	result = bldr.NewDictionaryArray()
-	defer result.Release()
-
-	exindices, _, _ := array.FromJSON(p.mem, arrow.PrimitiveTypes.Int32, strings.NewReader("[2]"))
-	exdict, _, _ := array.FromJSON(p.mem, p.typ, strings.NewReader("[1, 2, 3]"))
-	defer exindices.Release()
-	defer exdict.Release()
-
-	p.True(array.Equal(exindices, result.Indices()))
-	p.True(array.Equal(exdict, result.Dictionary()))
-
-	bldr.ResetFull()
-	p.Nil(appfn.Call([]reflect.Value{reflect.ValueOf(4).Convert(p.reftyp)})[0].Interface())
-	result = bldr.NewDictionaryArray()
-	defer result.Release()
-
-	exindices, _, _ = array.FromJSON(p.mem, arrow.PrimitiveTypes.Int32, strings.NewReader("[0]"))
-	exdict, _, _ = array.FromJSON(p.mem, p.typ, strings.NewReader("[4]"))
-	defer exindices.Release()
-	defer exdict.Release()
-
-	p.True(array.Equal(exindices, result.Indices()))
-	p.True(array.Equal(exdict, result.Dictionary()))
-}
-
-func (p *PrimitiveDictionaryTestSuite) TestStringRoundTrip() {
-	dt := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: p.typ}
-	b := array.NewDictionaryBuilder(p.mem, dt)
-	defer b.Release()
-
-	builder := reflect.ValueOf(b)
-	fn := builder.MethodByName("Append")
-	p.Nil(fn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	p.Nil(fn.Call([]reflect.Value{reflect.ValueOf(2).Convert(p.reftyp)})[0].Interface())
-	p.Nil(fn.Call([]reflect.Value{reflect.ValueOf(1).Convert(p.reftyp)})[0].Interface())
-	b.AppendNull()
-
-	p.EqualValues(4, b.Len())
-	p.EqualValues(1, b.NullN())
-
-	arr := b.NewArray().(*array.Dictionary)
-	defer arr.Release()
-	p.True(arrow.TypeEqual(dt, arr.DataType()))
-
-	b1 := array.NewDictionaryBuilder(p.mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		p.NoError(b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Dictionary)
-	defer arr1.Release()
-
-	p.Equal(arr.Len(), arr1.Len())
-	p.True(array.Equal(arr, arr1))
-}
-
-func TestBasicStringDictionaryBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-	assert.NoError(t, builder.Append([]byte("test")))
-	assert.NoError(t, builder.AppendString("test2"))
-	assert.NoError(t, builder.AppendString("test"))
-
-	assert.Equal(t, "test", builder.ValueStr(builder.GetValueIndex(0)))
-	assert.Equal(t, "test2", builder.ValueStr(builder.GetValueIndex(1)))
-	assert.Equal(t, "test", builder.ValueStr(builder.GetValueIndex(2)))
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	exdict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["test", "test2"]`))
-	defer exdict.Release()
-	exint, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0]"))
-	defer exint.Release()
-
-	assert.True(t, arrow.TypeEqual(dictType, result.DataType()))
-	expected := array.NewDictionaryArray(dictType, exint, exdict)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestStringDictionaryInsertValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	exdict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["c", "a", "b", "d"]`))
-	defer exdict.Release()
-
-	invalidDict, _, err := array.FromJSON(mem, arrow.BinaryTypes.Binary, strings.NewReader(`["ZQ==", "Zg=="]`))
-	assert.NoError(t, err)
-	defer invalidDict.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int16Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-	assert.NoError(t, builder.InsertStringDictValues(exdict.(*array.String)))
-	// inserting again should have no effect
-	assert.NoError(t, builder.InsertStringDictValues(exdict.(*array.String)))
-
-	assert.Error(t, builder.InsertDictValues(invalidDict.(*array.Binary)))
-
-	for i := 0; i < 2; i++ {
-		builder.AppendString("c")
-		builder.AppendString("a")
-		builder.AppendString("b")
-		builder.AppendNull()
-		builder.AppendString("d")
-	}
-
-	assert.Equal(t, 10, bldr.Len())
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	exindices, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int16, strings.NewReader("[0, 1, 2, null, 3, 0, 1, 2, null, 3]"))
-	defer exindices.Release()
-	expected := array.NewDictionaryArray(dictType, exindices, exdict)
-	defer expected.Release()
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestStringDictionaryBuilderInit(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictArr, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["test", "test2"]`))
-	defer dictArr.Release()
-	intarr, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0]"))
-	defer intarr.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: intarr.DataType().(arrow.FixedWidthDataType), ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilderWithDict(mem, dictType, dictArr)
-	defer bldr.Release()
-
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-	assert.NoError(t, builder.AppendString("test"))
-	assert.NoError(t, builder.AppendString("test2"))
-	assert.NoError(t, builder.AppendString("test"))
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	expected := array.NewDictionaryArray(dictType, intarr, dictArr)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestStringDictionaryBuilderOnlyNull(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	bldr.AppendNull()
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	dict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader("[]"))
-	defer dict.Release()
-	intarr, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[null]"))
-	defer intarr.Release()
-
-	expected := array.NewDictionaryArray(dictType, intarr, dict)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestStringDictionaryBuilderDelta(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-	assert.NoError(t, builder.AppendString("test"))
-	assert.NoError(t, builder.AppendString("test2"))
-	assert.NoError(t, builder.AppendString("test"))
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	exdict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["test", "test2"]`))
-	defer exdict.Release()
-	exint, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0]"))
-	defer exint.Release()
-
-	assert.True(t, arrow.TypeEqual(dictType, result.DataType()))
-	expected := array.NewDictionaryArray(dictType, exint, exdict)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-
-	assert.NoError(t, builder.AppendString("test2"))
-	assert.NoError(t, builder.AppendString("test3"))
-	assert.NoError(t, builder.AppendString("test2"))
-
-	indices, delta, err := builder.NewDelta()
-	assert.NoError(t, err)
-	defer indices.Release()
-	defer delta.Release()
-
-	exdelta, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["test3"]`))
-	defer exdelta.Release()
-	exint, _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[1, 2, 1]"))
-	defer exint.Release()
-
-	assert.True(t, array.Equal(exdelta, delta))
-	assert.True(t, array.Equal(exint, indices))
-}
-
-func TestStringDictionaryBuilderBigDelta(t *testing.T) {
-	const testlen = 2048
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int16Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-
-	strbldr := array.NewStringBuilder(mem)
-	defer strbldr.Release()
-
-	intbldr := array.NewInt16Builder(mem)
-	defer intbldr.Release()
-
-	for idx := int16(0); idx < testlen; idx++ {
-		var b strings.Builder
-		b.WriteString("test")
-		fmt.Fprint(&b, idx)
-
-		val := b.String()
-		assert.NoError(t, builder.AppendString(val))
-		strbldr.Append(val)
-		intbldr.Append(idx)
-	}
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-	strarr := strbldr.NewStringArray()
-	defer strarr.Release()
-	intarr := intbldr.NewInt16Array()
-	defer intarr.Release()
-
-	expected := array.NewDictionaryArray(dictType, intarr, strarr)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-
-	strbldr2 := array.NewStringBuilder(mem)
-	defer strbldr2.Release()
-	intbldr2 := array.NewInt16Builder(mem)
-	defer intbldr2.Release()
-
-	for idx := int16(0); idx < testlen; idx++ {
-		builder.AppendString("test1")
-		intbldr2.Append(1)
-	}
-	for idx := int16(0); idx < testlen; idx++ {
-		builder.AppendString("test_new_value1")
-		intbldr2.Append(testlen)
-	}
-	strbldr2.Append("test_new_value1")
-
-	indices2, delta2, err := bldr.NewDelta()
-	assert.NoError(t, err)
-	defer indices2.Release()
-	defer delta2.Release()
-	strarr2 := strbldr2.NewStringArray()
-	defer strarr2.Release()
-	intarr2 := intbldr2.NewInt16Array()
-	defer intarr2.Release()
-
-	assert.True(t, array.Equal(intarr2, indices2))
-	assert.True(t, array.Equal(strarr2, delta2))
-
-	strbldr3 := array.NewStringBuilder(mem)
-	defer strbldr3.Release()
-	intbldr3 := array.NewInt16Builder(mem)
-	defer intbldr3.Release()
-
-	for idx := int16(0); idx < testlen; idx++ {
-		assert.NoError(t, builder.AppendString("test2"))
-		intbldr3.Append(2)
-	}
-	for idx := int16(0); idx < testlen; idx++ {
-		assert.NoError(t, builder.AppendString("test_new_value2"))
-		intbldr3.Append(testlen + 1)
-	}
-	strbldr3.Append("test_new_value2")
-
-	indices3, delta3, err := bldr.NewDelta()
-	assert.NoError(t, err)
-	defer indices3.Release()
-	defer delta3.Release()
-	strarr3 := strbldr3.NewStringArray()
-	defer strarr3.Release()
-	intarr3 := intbldr3.NewInt16Array()
-	defer intarr3.Release()
-
-	assert.True(t, array.Equal(intarr3, indices3))
-	assert.True(t, array.Equal(strarr3, delta3))
-}
-
-func TestStringDictionaryBuilderIsNull(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-	assert.NoError(t, builder.AppendString("test"))
-	builder.AppendNull()
-	assert.NoError(t, builder.AppendString("test2"))
-	assert.NoError(t, builder.AppendString("test"))
-
-	assert.False(t, bldr.IsNull(0))
-	assert.True(t, bldr.IsNull(1))
-	assert.False(t, bldr.IsNull(2))
-	assert.False(t, bldr.IsNull(3))
-}
-
-func TestFixedSizeBinaryDictionaryBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: &arrow.FixedSizeBinaryType{ByteWidth: 4}}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.FixedSizeBinaryDictionaryBuilder)
-	test := []byte{12, 12, 11, 12}
-	test2 := []byte{12, 12, 11, 11}
-	assert.NoError(t, builder.Append(test))
-	assert.NoError(t, builder.Append(test2))
-	assert.NoError(t, builder.Append(test))
-
-	result := builder.NewDictionaryArray()
-	defer result.Release()
-
-	fsbBldr := array.NewFixedSizeBinaryBuilder(mem, dictType.ValueType.(*arrow.FixedSizeBinaryType))
-	defer fsbBldr.Release()
-
-	fsbBldr.Append(test)
-	fsbBldr.Append(test2)
-	fsbArr := fsbBldr.NewFixedSizeBinaryArray()
-	defer fsbArr.Release()
-
-	intbldr := array.NewInt8Builder(mem)
-	defer intbldr.Release()
-
-	intbldr.AppendValues([]int8{0, 1, 0}, nil)
-	intArr := intbldr.NewInt8Array()
-	defer intArr.Release()
-
-	expected := array.NewDictionaryArray(dictType, intArr, fsbArr)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestFixedSizeBinaryDictionaryBuilderInit(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	fsbBldr := array.NewFixedSizeBinaryBuilder(mem, &arrow.FixedSizeBinaryType{ByteWidth: 4})
-	defer fsbBldr.Release()
-
-	test, test2 := []byte("abcd"), []byte("wxyz")
-	fsbBldr.AppendValues([][]byte{test, test2}, nil)
-	dictArr := fsbBldr.NewFixedSizeBinaryArray()
-	defer dictArr.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: dictArr.DataType()}
-	bldr := array.NewDictionaryBuilderWithDict(mem, dictType, dictArr)
-	defer bldr.Release()
-
-	builder := bldr.(*array.FixedSizeBinaryDictionaryBuilder)
-	assert.NoError(t, builder.Append(test))
-	assert.NoError(t, builder.Append(test2))
-	assert.NoError(t, builder.Append(test))
-
-	result := builder.NewDictionaryArray()
-	defer result.Release()
-
-	indices, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0]"))
-	defer indices.Release()
-
-	expected := array.NewDictionaryArray(dictType, indices, dictArr)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestFixedSizeBinaryDictionaryBuilderMakeBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	fsbBldr := array.NewFixedSizeBinaryBuilder(mem, &arrow.FixedSizeBinaryType{ByteWidth: 4})
-	defer fsbBldr.Release()
-
-	test, test2 := []byte("abcd"), []byte("wxyz")
-	fsbBldr.AppendValues([][]byte{test, test2}, nil)
-	dictArr := fsbBldr.NewFixedSizeBinaryArray()
-	defer dictArr.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: dictArr.DataType()}
-	bldr := array.NewBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.FixedSizeBinaryDictionaryBuilder)
-	assert.NoError(t, builder.Append(test))
-	assert.NoError(t, builder.Append(test2))
-	assert.NoError(t, builder.Append(test))
-
-	result := builder.NewDictionaryArray()
-	defer result.Release()
-
-	indices, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader("[0, 1, 0]"))
-	defer indices.Release()
-
-	expected := array.NewDictionaryArray(dictType, indices, dictArr)
-	defer expected.Release()
-
-	assert.True(t, array.Equal(expected, result))
-}
-
-func TestFixedSizeBinaryDictionaryBuilderDeltaDictionary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: &arrow.FixedSizeBinaryType{ByteWidth: 4}}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.FixedSizeBinaryDictionaryBuilder)
-	test := []byte{12, 12, 11, 12}
-	test2 := []byte{12, 12, 11, 11}
-	test3 := []byte{12, 12, 11, 10}
-
-	assert.NoError(t, builder.Append(test))
-	assert.NoError(t, builder.Append(test2))
-	assert.NoError(t, builder.Append(test))
-
-	result1 := bldr.NewDictionaryArray()
-	defer result1.Release()
-
-	fsbBuilder := array.NewFixedSizeBinaryBuilder(mem, dictType.ValueType.(*arrow.FixedSizeBinaryType))
-	defer fsbBuilder.Release()
-
-	fsbBuilder.AppendValues([][]byte{test, test2}, nil)
-	fsbArr1 := fsbBuilder.NewFixedSizeBinaryArray()
-	defer fsbArr1.Release()
-
-	intBuilder := array.NewInt8Builder(mem)
-	defer intBuilder.Release()
-	intBuilder.AppendValues([]int8{0, 1, 0}, nil)
-	intArr1 := intBuilder.NewInt8Array()
-	defer intArr1.Release()
-
-	expected := array.NewDictionaryArray(dictType, intArr1, fsbArr1)
-	defer expected.Release()
-	assert.True(t, array.Equal(expected, result1))
-
-	assert.NoError(t, builder.Append(test))
-	assert.NoError(t, builder.Append(test2))
-	assert.NoError(t, builder.Append(test3))
-
-	indices2, delta2, err := builder.NewDelta()
-	assert.NoError(t, err)
-	defer indices2.Release()
-	defer delta2.Release()
-
-	fsbBuilder.Append(test3)
-	fsbArr2 := fsbBuilder.NewFixedSizeBinaryArray()
-	defer fsbArr2.Release()
-
-	intBuilder.AppendValues([]int8{0, 1, 2}, nil)
-	intArr2 := intBuilder.NewInt8Array()
-	defer intArr2.Release()
-
-	assert.True(t, array.Equal(intArr2, indices2))
-	assert.True(t, array.Equal(fsbArr2, delta2))
-}
-
-func TestFixedSizeBinaryDictionaryStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: &arrow.FixedSizeBinaryType{ByteWidth: 4}}
-	b := array.NewDictionaryBuilder(mem, dictType)
-	defer b.Release()
-
-	builder := b.(*array.FixedSizeBinaryDictionaryBuilder)
-	test := []byte{12, 12, 11, 12}
-	test2 := []byte{12, 12, 11, 11}
-	assert.NoError(t, builder.Append(test))
-	assert.NoError(t, builder.Append(test2))
-	assert.NoError(t, builder.Append(test))
-
-	arr := builder.NewDictionaryArray()
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDictionaryBuilder(mem, dictType)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Dictionary)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestDecimal128DictionaryBuilderBasic(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	test := []decimal128.Num{decimal128.FromI64(12), decimal128.FromI64(12), decimal128.FromI64(11), decimal128.FromI64(12)}
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: &arrow.Decimal128Type{Precision: 2, Scale: 0}}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.Decimal128DictionaryBuilder)
-	for _, v := range test {
-		assert.NoError(t, builder.Append(v))
-	}
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	indices, _, _ := array.FromJSON(mem, dictType.IndexType, strings.NewReader("[0, 0, 1, 0]"))
-	defer indices.Release()
-	dict, _, _ := array.FromJSON(mem, dictType.ValueType, strings.NewReader("[12, 11]"))
-	defer dict.Release()
-
-	expected := array.NewDictionaryArray(dictType, indices, dict)
-	defer expected.Release()
-
-	assert.True(t, array.ApproxEqual(expected, result))
-}
-
-func TestDecimal256DictionaryBuilderBasic(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	test := []decimal256.Num{decimal256.FromI64(12), decimal256.FromI64(12), decimal256.FromI64(11), decimal256.FromI64(12)}
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: &arrow.Decimal256Type{Precision: 2, Scale: 0}}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.Decimal256DictionaryBuilder)
-	for _, v := range test {
-		assert.NoError(t, builder.Append(v))
-	}
-
-	result := bldr.NewDictionaryArray()
-	defer result.Release()
-
-	indices, _, _ := array.FromJSON(mem, dictType.IndexType, strings.NewReader("[0, 0, 1, 0]"))
-	defer indices.Release()
-	dict, _, _ := array.FromJSON(mem, dictType.ValueType, strings.NewReader("[12, 11]"))
-	defer dict.Release()
-
-	expected := array.NewDictionaryArray(dictType, indices, dict)
-	defer expected.Release()
-
-	assert.True(t, array.ApproxEqual(expected, result))
-}
-
-func TestNullDictionaryBuilderBasic(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: arrow.Null}
-	bldr := array.NewBuilder(mem, dictType)
-	defer bldr.Release()
-
-	builder := bldr.(*array.NullDictionaryBuilder)
-	builder.AppendNulls(3)
-	assert.Equal(t, 3, builder.Len())
-	assert.Equal(t, 3, builder.NullN())
-
-	nullarr, _, _ := array.FromJSON(mem, arrow.Null, strings.NewReader("[null, null, null]"))
-	defer nullarr.Release()
-
-	assert.NoError(t, builder.AppendArray(nullarr))
-	assert.Equal(t, 6, bldr.Len())
-	assert.Equal(t, 6, bldr.NullN())
-
-	result := builder.NewDictionaryArray()
-	defer result.Release()
-	assert.Equal(t, 6, result.Len())
-	assert.Equal(t, 6, result.NullN())
-}
-
-func TestDictionaryEquals(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	var (
-		isValid                     = []bool{true, true, false, true, true, true}
-		dict, dict2                 arrow.Array
-		indices, indices2, indices3 arrow.Array
-	)
-
-	dict, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["foo", "bar", "baz"]`))
-	defer dict.Release()
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Uint16Type{}, ValueType: arrow.BinaryTypes.String}
-
-	dict2, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["foo", "bar", "baz", "qux"]`))
-	defer dict2.Release()
-	dictType2 := &arrow.DictionaryType{IndexType: &arrow.Uint16Type{}, ValueType: arrow.BinaryTypes.String}
-
-	idxbuilder := array.NewUint16Builder(mem)
-	defer idxbuilder.Release()
-
-	idxbuilder.AppendValues([]uint16{1, 2, math.MaxUint16, 0, 2, 0}, isValid)
-	indices = idxbuilder.NewArray()
-	defer indices.Release()
-
-	idxbuilder.AppendValues([]uint16{1, 2, 0, 0, 2, 0}, isValid)
-	indices2 = idxbuilder.NewArray()
-	defer indices2.Release()
-
-	idxbuilder.AppendValues([]uint16{1, 1, 0, 0, 2, 0}, isValid)
-	indices3 = idxbuilder.NewArray()
-	defer indices3.Release()
-
-	var (
-		arr  = array.NewDictionaryArray(dictType, indices, dict)
-		arr2 = array.NewDictionaryArray(dictType, indices2, dict)
-		arr3 = array.NewDictionaryArray(dictType2, indices, dict2)
-		arr4 = array.NewDictionaryArray(dictType, indices3, dict)
-	)
-	defer func() {
-		arr.Release()
-		arr2.Release()
-		arr3.Release()
-		arr4.Release()
-	}()
-
-	assert.True(t, array.Equal(arr, arr))
-	// equal because the unequal index is masked by null
-	assert.True(t, array.Equal(arr, arr2))
-	// unequal dictionaries
-	assert.False(t, array.Equal(arr, arr3))
-	// unequal indices
-	assert.False(t, array.Equal(arr, arr4))
-	assert.True(t, array.SliceEqual(arr, 3, 6, arr4, 3, 6))
-	assert.False(t, array.SliceEqual(arr, 1, 3, arr4, 1, 3))
-
-	sz := arr.Len()
-	slice := array.NewSlice(arr, 2, int64(sz))
-	defer slice.Release()
-	slice2 := array.NewSlice(arr, 2, int64(sz))
-	defer slice2.Release()
-
-	assert.Equal(t, sz-2, slice.Len())
-	assert.True(t, array.Equal(slice, slice2))
-	assert.True(t, array.SliceEqual(arr, 2, int64(arr.Len()), slice, 0, int64(slice.Len())))
-
-	// chained slice
-	slice2 = array.NewSlice(arr, 1, int64(arr.Len()))
-	defer slice2.Release()
-	slice2 = array.NewSlice(slice2, 1, int64(slice2.Len()))
-	defer slice2.Release()
-
-	assert.True(t, array.Equal(slice, slice2))
-	slice = array.NewSlice(arr, 1, 4)
-	defer slice.Release()
-	slice2 = array.NewSlice(arr, 1, 4)
-	defer slice2.Release()
-
-	assert.Equal(t, 3, slice.Len())
-	assert.True(t, array.Equal(slice, slice2))
-	assert.True(t, array.SliceEqual(arr, 1, 4, slice, 0, int64(slice.Len())))
-}
-
-func TestDictionaryIndexTypes(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictIndexTypes := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Uint64,
-	}
-
-	for _, indextyp := range dictIndexTypes {
-		t.Run(indextyp.Name(), func(t *testing.T) {
-			scope := memory.NewCheckedAllocatorScope(mem)
-			defer scope.CheckSize(t)
-
-			dictType := &arrow.DictionaryType{IndexType: indextyp, ValueType: arrow.BinaryTypes.String}
-			bldr := array.NewDictionaryBuilder(mem, dictType)
-			defer bldr.Release()
-
-			builder := bldr.(*array.BinaryDictionaryBuilder)
-			builder.AppendString("foo")
-			builder.AppendString("bar")
-			builder.AppendString("foo")
-			builder.AppendString("baz")
-			builder.Append(nil)
-
-			assert.Equal(t, 5, builder.Len())
-			assert.Equal(t, 1, builder.NullN())
-
-			result := builder.NewDictionaryArray()
-			defer result.Release()
-
-			expectedIndices, _, _ := array.FromJSON(mem, indextyp, strings.NewReader("[0, 1, 0, 2, null]"))
-			defer expectedIndices.Release()
-
-			assert.True(t, array.Equal(expectedIndices, result.Indices()))
-		})
-	}
-}
-
-func TestDictionaryFromArrays(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["foo", "bar", "baz"]`))
-	defer dict.Release()
-
-	dictIndexTypes := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Uint64,
-	}
-
-	for _, indextyp := range dictIndexTypes {
-		t.Run(indextyp.Name(), func(t *testing.T) {
-			scope := memory.NewCheckedAllocatorScope(mem)
-			defer scope.CheckSize(t)
-
-			dictType := &arrow.DictionaryType{IndexType: indextyp, ValueType: arrow.BinaryTypes.String}
-			indices1, _, _ := array.FromJSON(mem, indextyp, strings.NewReader("[1, 2, 0, 0, 2, 0]"))
-			defer indices1.Release()
-
-			indices2, _, _ := array.FromJSON(mem, indextyp, strings.NewReader("[1, 2, 0, 3, 2, 0]"))
-			defer indices2.Release()
-
-			arr1, err := array.NewValidatedDictionaryArray(dictType, indices1, dict)
-			assert.NoError(t, err)
-			defer arr1.Release()
-
-			_, err = array.NewValidatedDictionaryArray(dictType, indices2, dict)
-			assert.Error(t, err)
-
-			switch indextyp.ID() {
-			case arrow.INT8, arrow.INT16, arrow.INT32, arrow.INT64:
-				indices3, _, _ := array.FromJSON(mem, indextyp, strings.NewReader("[1, 2, 0, null, 2, 0]"))
-				defer indices3.Release()
-				bitutil.ClearBit(indices3.Data().Buffers()[0].Bytes(), 2)
-				arr3, err := array.NewValidatedDictionaryArray(dictType, indices3, dict)
-				assert.NoError(t, err)
-				defer arr3.Release()
-			}
-
-			indices4, _, _ := array.FromJSON(mem, indextyp, strings.NewReader("[1, 2, null, 3, 2, 0]"))
-			defer indices4.Release()
-			_, err = array.NewValidatedDictionaryArray(dictType, indices4, dict)
-			assert.Error(t, err)
-
-			diffIndexType := arrow.PrimitiveTypes.Int8
-			if indextyp.ID() == arrow.INT8 {
-				diffIndexType = arrow.PrimitiveTypes.Uint8
-			}
-			_, err = array.NewValidatedDictionaryArray(&arrow.DictionaryType{IndexType: diffIndexType, ValueType: arrow.BinaryTypes.String}, indices4, dict)
-			assert.Error(t, err)
-		})
-	}
-}
-
-func TestListOfDictionary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	rootBuilder := array.NewBuilder(mem, arrow.ListOf(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: arrow.BinaryTypes.String}))
-	defer rootBuilder.Release()
-
-	listBldr := rootBuilder.(*array.ListBuilder)
-	dictBldr := listBldr.ValueBuilder().(*array.BinaryDictionaryBuilder)
-
-	listBldr.Append(true)
-	expected := []string{}
-	for _, a := range []byte("abc") {
-		for _, d := range []byte("def") {
-			for _, g := range []byte("ghi") {
-				for _, j := range []byte("jkl") {
-					for _, m := range []byte("mno") {
-						for _, p := range []byte("pqr") {
-							if a+d+g+j+m+p%16 == 0 {
-								listBldr.Append(true)
-							}
-
-							str := string([]byte{a, d, g, j, m, p})
-							dictBldr.AppendString(str)
-							expected = append(expected, str)
-						}
-					}
-				}
-			}
-		}
-	}
-
-	strbldr := array.NewStringBuilder(mem)
-	defer strbldr.Release()
-	strbldr.AppendValues(expected, nil)
-
-	expectedDict := strbldr.NewStringArray()
-	defer expectedDict.Release()
-
-	arr := rootBuilder.NewArray()
-	defer arr.Release()
-
-	actualDict := arr.(*array.List).ListValues().(*array.Dictionary)
-	assert.True(t, array.Equal(expectedDict, actualDict.Dictionary()))
-}
-
-func TestDictionaryCanCompareIndices(t *testing.T) {
-	makeDict := func(mem memory.Allocator, idxType, valueType arrow.DataType, dictJSON string) *array.Dictionary {
-		indices, _, _ := array.FromJSON(mem, idxType, strings.NewReader("[]"))
-		defer indices.Release()
-		dict, _, _ := array.FromJSON(mem, valueType, strings.NewReader(dictJSON))
-		defer dict.Release()
-
-		out, _ := array.NewValidatedDictionaryArray(&arrow.DictionaryType{IndexType: idxType, ValueType: valueType}, indices, dict)
-		return out
-	}
-
-	compareSwap := func(t *testing.T, l, r *array.Dictionary, expected bool) {
-		assert.Equalf(t, expected, l.CanCompareIndices(r), "left: %s\nright: %s\n", l, r)
-		assert.Equalf(t, expected, r.CanCompareIndices(l), "left: %s\nright: %s\n", r, l)
-	}
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	t.Run("same", func(t *testing.T) {
-		arr := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "bar"]`)
-		defer arr.Release()
-		same := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "bar"]`)
-		defer same.Release()
-		compareSwap(t, arr, same, true)
-	})
-
-	t.Run("prefix dict", func(t *testing.T) {
-		arr := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "bar", "quux"]`)
-		defer arr.Release()
-		prefixDict := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "bar"]`)
-		defer prefixDict.Release()
-		compareSwap(t, arr, prefixDict, true)
-	})
-
-	t.Run("indices need cast", func(t *testing.T) {
-		arr := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "bar"]`)
-		defer arr.Release()
-		needcast := makeDict(mem, arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String, `["foo", "bar"]`)
-		defer needcast.Release()
-		compareSwap(t, arr, needcast, false)
-	})
-
-	t.Run("non prefix", func(t *testing.T) {
-		arr := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "bar", "quux"]`)
-		defer arr.Release()
-		nonPrefix := makeDict(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String, `["foo", "blink"]`)
-		defer nonPrefix.Release()
-		compareSwap(t, arr, nonPrefix, false)
-	})
-}
-
-func TestDictionaryGetValueIndex(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	indicesJson := "[5, 0, 1, 3, 2, 4]"
-	indices64, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(indicesJson))
-	defer indices64.Release()
-	dict, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader("[10, 20, 30, 40, 50, 60]"))
-	defer dict.Release()
-
-	dictIndexTypes := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Uint64,
-	}
-	i64Index := indices64.(*array.Int64)
-	for _, idxt := range dictIndexTypes {
-		t.Run(idxt.Name(), func(t *testing.T) {
-			indices, _, _ := array.FromJSON(mem, idxt, strings.NewReader(indicesJson))
-			defer indices.Release()
-			dictType := &arrow.DictionaryType{IndexType: idxt, ValueType: arrow.PrimitiveTypes.Int32}
-
-			dictArr := array.NewDictionaryArray(dictType, indices, dict)
-			defer dictArr.Release()
-
-			const offset = 1
-			slicedDictArr := array.NewSlice(dictArr, offset, int64(dictArr.Len()))
-			defer slicedDictArr.Release()
-			assert.EqualValues(t, "10", slicedDictArr.(*array.Dictionary).ValueStr(0))
-			for i := 0; i < indices.Len(); i++ {
-				assert.EqualValues(t, i64Index.Value(i), dictArr.GetValueIndex(i))
-				if i < slicedDictArr.Len() {
-					assert.EqualValues(t, i64Index.Value(i+offset), slicedDictArr.(*array.Dictionary).GetValueIndex(i))
-				}
-			}
-		})
-	}
-}
-
-func checkTransposeMap(t *testing.T, b *memory.Buffer, exp []int32) bool {
-	got := arrow.Int32Traits.CastFromBytes(b.Bytes())
-	return assert.Equal(t, exp, got)
-}
-
-func TestDictionaryUnifierNumeric(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := arrow.PrimitiveTypes.Int64
-
-	d1, _, err := array.FromJSON(mem, dictType, strings.NewReader(`[3, 4, 7]`))
-	require.NoError(t, err)
-	d2, _, err := array.FromJSON(mem, dictType, strings.NewReader(`[1, 7, 4, 8]`))
-	require.NoError(t, err)
-	d3, _, err := array.FromJSON(mem, dictType, strings.NewReader(`[1, -200]`))
-	require.NoError(t, err)
-
-	expected := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: dictType}
-	expectedDict, _, err := array.FromJSON(mem, dictType, strings.NewReader(`[3, 4, 7, 1, 8, -200]`))
-	require.NoError(t, err)
-	defer func() {
-		d1.Release()
-		d2.Release()
-		d3.Release()
-		expectedDict.Release()
-	}()
-
-	unifier, err := array.NewDictionaryUnifier(mem, dictType)
-	assert.NoError(t, err)
-	defer unifier.Release()
-
-	assert.NoError(t, unifier.Unify(d1))
-	assert.NoError(t, unifier.Unify(d2))
-	assert.NoError(t, unifier.Unify(d3))
-
-	invalid, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, -200]`))
-	defer invalid.Release()
-	assert.EqualError(t, unifier.Unify(invalid), "dictionary type different from unifier: int32, expected: int64")
-
-	outType, outDict, err := unifier.GetResult()
-	assert.NoError(t, err)
-	defer outDict.Release()
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	b1, err := unifier.UnifyAndTranspose(d1)
-	assert.NoError(t, err)
-	b2, err := unifier.UnifyAndTranspose(d2)
-	assert.NoError(t, err)
-	b3, err := unifier.UnifyAndTranspose(d3)
-	assert.NoError(t, err)
-
-	outType, outDict, err = unifier.GetResult()
-	assert.NoError(t, err)
-	defer func() {
-		outDict.Release()
-		b1.Release()
-		b2.Release()
-		b3.Release()
-	}()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	checkTransposeMap(t, b1, []int32{0, 1, 2})
-	checkTransposeMap(t, b2, []int32{3, 2, 1, 4})
-	checkTransposeMap(t, b3, []int32{3, 5})
-}
-
-func TestDictionaryUnifierString(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := arrow.BinaryTypes.String
-	d1, _, err := array.FromJSON(mem, dictType, strings.NewReader(`["foo", "bar"]`))
-	require.NoError(t, err)
-	defer d1.Release()
-
-	d2, _, err := array.FromJSON(mem, dictType, strings.NewReader(`["quux", "foo"]`))
-	require.NoError(t, err)
-	defer d2.Release()
-
-	expected := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: dictType}
-	expectedDict, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`["foo", "bar", "quux"]`))
-	defer expectedDict.Release()
-
-	unifier, err := array.NewDictionaryUnifier(mem, dictType)
-	assert.NoError(t, err)
-	defer unifier.Release()
-
-	assert.NoError(t, unifier.Unify(d1))
-	assert.NoError(t, unifier.Unify(d2))
-	outType, outDict, err := unifier.GetResult()
-	assert.NoError(t, err)
-	defer outDict.Release()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	b1, err := unifier.UnifyAndTranspose(d1)
-	assert.NoError(t, err)
-	b2, err := unifier.UnifyAndTranspose(d2)
-	assert.NoError(t, err)
-
-	outType, outDict, err = unifier.GetResult()
-	assert.NoError(t, err)
-	defer func() {
-		outDict.Release()
-		b1.Release()
-		b2.Release()
-	}()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	checkTransposeMap(t, b1, []int32{0, 1})
-	checkTransposeMap(t, b2, []int32{2, 0})
-}
-
-func TestDictionaryUnifierBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := arrow.BinaryTypes.Binary
-	d1, _, err := array.FromJSON(mem, dictType, strings.NewReader(`["Zm9vCg==", "YmFyCg=="]`)) // base64("foo\n"), base64("bar\n")
-	require.NoError(t, err)
-	defer d1.Release()
-
-	d2, _, err := array.FromJSON(mem, dictType, strings.NewReader(`["cXV1eAo=", "Zm9vCg=="]`)) // base64("quux\n"), base64("foo\n")
-	require.NoError(t, err)
-	defer d2.Release()
-
-	expected := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: dictType}
-	expectedDict, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`["Zm9vCg==", "YmFyCg==", "cXV1eAo="]`))
-	defer expectedDict.Release()
-
-	unifier := array.NewBinaryDictionaryUnifier(mem)
-	defer unifier.Release()
-
-	assert.NoError(t, unifier.Unify(d1))
-	assert.NoError(t, unifier.Unify(d2))
-	outType, outDict, err := unifier.GetResult()
-	assert.NoError(t, err)
-	defer outDict.Release()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	b1, err := unifier.UnifyAndTranspose(d1)
-	assert.NoError(t, err)
-	b2, err := unifier.UnifyAndTranspose(d2)
-	assert.NoError(t, err)
-
-	outType, outDict, err = unifier.GetResult()
-	assert.NoError(t, err)
-	defer func() {
-		outDict.Release()
-		b1.Release()
-		b2.Release()
-	}()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	checkTransposeMap(t, b1, []int32{0, 1})
-	checkTransposeMap(t, b2, []int32{2, 0})
-}
-
-func TestDictionaryUnifierFixedSizeBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-	data := memory.NewBufferBytes([]byte(`foobarbazqux`))
-
-	fsbData := array.NewData(dictType, 2, []*memory.Buffer{nil, memory.SliceBuffer(data, 0, 6)}, nil, 0, 0)
-	defer fsbData.Release()
-	d1 := array.NewFixedSizeBinaryData(fsbData)
-	fsbData = array.NewData(dictType, 3, []*memory.Buffer{nil, memory.SliceBuffer(data, 3, 9)}, nil, 0, 0)
-	defer fsbData.Release()
-	d2 := array.NewFixedSizeBinaryData(fsbData)
-
-	fsbData = array.NewData(dictType, 4, []*memory.Buffer{nil, data}, nil, 0, 0)
-	defer fsbData.Release()
-	expectedDict := array.NewFixedSizeBinaryData(fsbData)
-	expected := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: dictType}
-
-	unifier, err := array.NewDictionaryUnifier(mem, dictType)
-	assert.NoError(t, err)
-
-	defer func() {
-		d1.Release()
-		d2.Release()
-		expectedDict.Release()
-		unifier.Release()
-	}()
-
-	assert.NoError(t, unifier.Unify(d1))
-	assert.NoError(t, unifier.Unify(d2))
-	outType, outDict, err := unifier.GetResult()
-	assert.NoError(t, err)
-	defer outDict.Release()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	b1, err := unifier.UnifyAndTranspose(d1)
-	assert.NoError(t, err)
-	b2, err := unifier.UnifyAndTranspose(d2)
-	assert.NoError(t, err)
-
-	outType, outDict, err = unifier.GetResult()
-	assert.NoError(t, err)
-	defer func() {
-		outDict.Release()
-		b1.Release()
-		b2.Release()
-	}()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-
-	checkTransposeMap(t, b1, []int32{0, 1})
-	checkTransposeMap(t, b2, []int32{1, 2, 3})
-}
-
-func TestDictionaryUnifierLarge(t *testing.T) {
-	// unifying larger dictionaries should choose the right index type
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewInt32Builder(mem)
-	defer bldr.Release()
-	bldr.Reserve(120)
-	for i := int32(0); i < 120; i++ {
-		bldr.UnsafeAppend(i)
-	}
-
-	d1 := bldr.NewInt32Array()
-	defer d1.Release()
-	assert.EqualValues(t, 120, d1.Len())
-
-	bldr.Reserve(30)
-	for i := int32(110); i < 140; i++ {
-		bldr.UnsafeAppend(i)
-	}
-
-	d2 := bldr.NewInt32Array()
-	defer d2.Release()
-	assert.EqualValues(t, 30, d2.Len())
-
-	bldr.Reserve(140)
-	for i := int32(0); i < 140; i++ {
-		bldr.UnsafeAppend(i)
-	}
-
-	expectedDict := bldr.NewInt32Array()
-	defer expectedDict.Release()
-	assert.EqualValues(t, 140, expectedDict.Len())
-
-	// int8 would be too narrow to hold all the values
-	expected := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: arrow.PrimitiveTypes.Int32}
-
-	unifier, err := array.NewDictionaryUnifier(mem, arrow.PrimitiveTypes.Int32)
-	assert.NoError(t, err)
-	defer unifier.Release()
-
-	assert.NoError(t, unifier.Unify(d1))
-	assert.NoError(t, unifier.Unify(d2))
-	outType, outDict, err := unifier.GetResult()
-	assert.NoError(t, err)
-	defer outDict.Release()
-
-	assert.Truef(t, arrow.TypeEqual(expected, outType), "got: %s, expected: %s", outType, expected)
-	assert.Truef(t, array.Equal(expectedDict, outDict), "got: %s, expected: %s", outDict, expectedDict)
-}
-
-func checkDictionaryArray(t *testing.T, arr, expectedVals, expectedIndices arrow.Array) bool {
-	require.IsType(t, (*array.Dictionary)(nil), arr)
-	dictArr := arr.(*array.Dictionary)
-	ret := true
-	ret = ret && assert.Truef(t, array.Equal(expectedVals, dictArr.Dictionary()), "got: %s, expected: %s", dictArr.Dictionary(), expectedVals)
-	return ret && assert.Truef(t, array.Equal(expectedIndices, dictArr.Indices()), "got: %s, expected: %s", dictArr.Indices(), expectedIndices)
-}
-
-func TestDictionaryUnifierSimpleChunkedArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String}
-	chunk1, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`["ab", "cd", null, "cd"]`))
-	chunk2, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`["ef", "cd", "ef"]`))
-	chunk3, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`["ef", "ab", null, "ab"]`))
-	chunk4, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`[]`))
-	chunked := arrow.NewChunked(dictType, []arrow.Array{chunk1, chunk2, chunk3, chunk4})
-	defer func() {
-		chunk1.Release()
-		chunk2.Release()
-		chunk3.Release()
-		chunk4.Release()
-		chunked.Release()
-	}()
-
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.NoError(t, err)
-	defer unified.Release()
-
-	assert.Len(t, unified.Chunks(), 4)
-	expectedDict, _, _ := array.FromJSON(mem, dictType.ValueType, strings.NewReader(`["ab", "cd", "ef"]`))
-	defer expectedDict.Release()
-
-	c1Indices, _, _ := array.FromJSON(mem, dictType.IndexType, strings.NewReader(`[0, 1, null, 1]`))
-	defer c1Indices.Release()
-	c2Indices, _, _ := array.FromJSON(mem, dictType.IndexType, strings.NewReader(`[2, 1, 2]`))
-	defer c2Indices.Release()
-	c3Indices, _, _ := array.FromJSON(mem, dictType.IndexType, strings.NewReader(`[2, 0, null, 0]`))
-	defer c3Indices.Release()
-	c4Indices, _, _ := array.FromJSON(mem, dictType.IndexType, strings.NewReader(`[]`))
-	defer c4Indices.Release()
-	checkDictionaryArray(t, unified.Chunk(0), expectedDict, c1Indices)
-	checkDictionaryArray(t, unified.Chunk(1), expectedDict, c2Indices)
-	checkDictionaryArray(t, unified.Chunk(2), expectedDict, c3Indices)
-	checkDictionaryArray(t, unified.Chunk(3), expectedDict, c4Indices)
-}
-
-func TestDictionaryUnifierChunkedArrayZeroChunks(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String}
-	chunked := arrow.NewChunked(dictType, []arrow.Array{})
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.NoError(t, err)
-	assert.True(t, array.ChunkedEqual(unified, chunked))
-}
-
-func TestDictionaryUnifierChunkedArrayOneChunk(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String}
-	chunk1, _, _ := array.FromJSON(mem, dictType, strings.NewReader(`["ab", "cd", null, "cd"]`))
-	defer chunk1.Release()
-
-	chunked := arrow.NewChunked(dictType, []arrow.Array{chunk1})
-	defer chunked.Release()
-
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.NoError(t, err)
-	defer unified.Release()
-
-	assert.True(t, array.ChunkedEqual(unified, chunked))
-	assert.Same(t, unified, chunked)
-}
-
-func TestDictionaryUnifierChunkedArrayNoDict(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	typ := arrow.PrimitiveTypes.Int8
-	chunk1, _, _ := array.FromJSON(mem, typ, strings.NewReader(`[1, 1, 2, 3]`))
-	defer chunk1.Release()
-
-	chunk2, _, _ := array.FromJSON(mem, typ, strings.NewReader(`[5, 8, 13]`))
-	defer chunk2.Release()
-
-	chunked := arrow.NewChunked(typ, []arrow.Array{chunk1, chunk2})
-	defer chunked.Release()
-
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.NoError(t, err)
-	defer unified.Release()
-
-	assert.True(t, array.ChunkedEqual(unified, chunked))
-	assert.Same(t, unified, chunked)
-}
-
-func TestDictionaryUnifierChunkedArrayNested(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	typ := arrow.ListOf(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: arrow.BinaryTypes.String})
-	chunk1, _, err := array.FromJSON(mem, typ, strings.NewReader(`[["ab", "cd"], ["cd"]]`))
-	assert.NoError(t, err)
-	// defer chunk1.Release()
-	chunk2, _, err := array.FromJSON(mem, typ, strings.NewReader(`[[], ["ef", "cd", "ef"]]`))
-	assert.NoError(t, err)
-	// defer chunk2.Release()
-	chunked := arrow.NewChunked(typ, []arrow.Array{chunk1, chunk2})
-	// defer chunked.Release()
-
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.NoError(t, err)
-	// defer unified.Release()
-	assert.Len(t, unified.Chunks(), 2)
-
-	expectedDict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["ab", "cd", "ef"]`))
-	// defer expectedDict.Release()
-
-	unified1 := unified.Chunk(0).(*array.List)
-	assert.Equal(t, []int32{0, 2, 3}, unified1.Offsets())
-	expectedIndices1, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int16, strings.NewReader(`[0, 1, 1]`))
-	// defer expectedIndices1.Release()
-	checkDictionaryArray(t, unified1.ListValues(), expectedDict, expectedIndices1)
-
-	unified2 := unified.Chunk(1).(*array.List)
-	assert.Equal(t, []int32{0, 0, 3}, unified2.Offsets())
-	expectedIndices2, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int16, strings.NewReader(`[2, 1, 2]`))
-	// defer expectedIndices2.Release()
-	checkDictionaryArray(t, unified2.ListValues(), expectedDict, expectedIndices2)
-	defer func() {
-		expectedIndices1.Release()
-		expectedIndices2.Release()
-		expectedDict.Release()
-		unified.Release()
-		chunked.Release()
-		chunk2.Release()
-		chunk1.Release()
-	}()
-}
-
-func TestDictionaryUnifierChunkedArrayExtension(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := types.NewDictExtensionType()
-	chunk1, _, err := array.FromJSON(mem, dt, strings.NewReader(`["ab", null, "cd", "ab"]`))
-	assert.NoError(t, err)
-	defer chunk1.Release()
-
-	chunk2, _, err := array.FromJSON(mem, dt, strings.NewReader(`["ef", "ab", "ab"]`))
-	assert.NoError(t, err)
-	defer chunk2.Release()
-
-	chunked := arrow.NewChunked(dt, []arrow.Array{chunk1, chunk2})
-	defer chunked.Release()
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.NoError(t, err)
-	defer unified.Release()
-	assert.Len(t, unified.Chunks(), 2)
-
-	expectedDict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["ab", "cd", "ef"]`))
-	defer expectedDict.Release()
-
-	unified1 := unified.Chunk(0).(array.ExtensionArray)
-	assert.Truef(t, arrow.TypeEqual(dt, unified1.DataType()), "expected: %s, got: %s", dt, unified1.DataType())
-	indices, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[0, null, 1, 0]`))
-	defer indices.Release()
-	checkDictionaryArray(t, unified1.Storage(), expectedDict, indices)
-
-	unified2 := unified.Chunk(1).(array.ExtensionArray)
-	assert.Truef(t, arrow.TypeEqual(dt, unified2.DataType()), "expected: %s, got: %s", dt, unified1.DataType())
-	indices, _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[2, 0, 0]`))
-	defer indices.Release()
-	checkDictionaryArray(t, unified2.Storage(), expectedDict, indices)
-}
-
-func TestDictionaryUnifierChunkedArrayNestedDict(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	innerType := arrow.ListOf(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint32, ValueType: arrow.BinaryTypes.String})
-	innerDict1, _, err := array.FromJSON(mem, innerType, strings.NewReader(`[["ab", "cd"], [], ["cd", null]]`))
-	assert.NoError(t, err)
-	defer innerDict1.Release()
-	indices1, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[2, 1, 0, 1, 2]`))
-	defer indices1.Release()
-
-	chunk1 := array.NewDictionaryArray(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: innerType}, indices1, innerDict1)
-	defer chunk1.Release()
-
-	innerDict2, _, err := array.FromJSON(mem, innerType, strings.NewReader(`[["cd", "ef"], ["cd", null], []]`))
-	assert.NoError(t, err)
-	defer innerDict2.Release()
-	indices2, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 2, 0]`))
-	defer indices2.Release()
-
-	chunk2 := array.NewDictionaryArray(&arrow.DictionaryType{IndexType: indices2.DataType(), ValueType: innerType}, indices2, innerDict2)
-	defer chunk2.Release()
-
-	chunked := arrow.NewChunked(chunk1.DataType(), []arrow.Array{chunk1, chunk2})
-	defer chunked.Release()
-
-	unified, err := array.UnifyChunkedDicts(mem, chunked)
-	assert.Nil(t, unified)
-	assert.EqualError(t, err, "unimplemented dictionary value type, list<item: dictionary<values=utf8, indices=uint32, ordered=false>, nullable>")
-}
-
-func TestDictionaryUnifierTableZeroColumns(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema([]arrow.Field{}, nil)
-	table := array.NewTable(schema, []arrow.Column{}, 42)
-	defer table.Release()
-
-	unified, err := array.UnifyTableDicts(mem, table)
-	assert.NoError(t, err)
-	assert.True(t, schema.Equal(unified.Schema()))
-	assert.EqualValues(t, 42, unified.NumRows())
-	assert.True(t, array.TableEqual(table, unified))
-}
-
-func TestDictionaryAppendIndices(t *testing.T) {
-	indexTypes := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int64,
-		arrow.PrimitiveTypes.Uint64,
-	}
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dict, _, err := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["a", "b", "c", "d", "e", "f"]`))
-	require.NoError(t, err)
-	defer dict.Release()
-
-	indices := []int{3, 4, 0, 3, 1, 4, 4, 5}
-
-	for _, typ := range indexTypes {
-		t.Run(typ.String(), func(t *testing.T) {
-			scoped := memory.NewCheckedAllocatorScope(mem)
-			defer scoped.CheckSize(t)
-
-			dictType := &arrow.DictionaryType{
-				IndexType: typ, ValueType: dict.DataType()}
-			bldr := array.NewDictionaryBuilderWithDict(mem, dictType, dict)
-			defer bldr.Release()
-
-			bldr.AppendIndices(indices, nil)
-
-			arr := bldr.NewDictionaryArray()
-			defer arr.Release()
-
-			arrIndices := arr.Indices()
-			assert.EqualValues(t, len(indices), arr.Len())
-			assert.EqualValues(t, len(indices), arrIndices.Len())
-
-			assert.Equal(t, fmt.Sprint(indices), arrIndices.String())
-		})
-	}
-}
-
-type panicAllocator struct {
-	n       int
-	paniced bool
-	memory.Allocator
-}
-
-func (p *panicAllocator) Allocate(size int) []byte {
-	if size > p.n {
-		p.paniced = true
-		panic("panic allocator")
-	}
-	return p.Allocator.Allocate(size)
-}
-
-func (p *panicAllocator) Reallocate(size int, b []byte) []byte {
-	return p.Allocator.Reallocate(size, b)
-}
-
-func (p *panicAllocator) Free(b []byte) {
-	p.Allocator.Free(b)
-}
-
-func TestBinaryDictionaryPanic(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	allocator := &panicAllocator{
-		n:         400,
-		Allocator: mem,
-	}
-
-	expectedType := &arrow.DictionaryType{IndexType: &arrow.Int8Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(allocator, expectedType)
-	defer bldr.Release()
-
-	bldr.AppendNull()
-	allocator.n = 0 // force panic
-	func() {
-		defer func() {
-			recover()
-		}()
-		bldr.NewArray()
-	}()
-	assert.True(t, allocator.paniced)
-}
-
-func BenchmarkBinaryDictionaryBuilder(b *testing.B) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(b, 0)
-
-	dictType := &arrow.DictionaryType{IndexType: &arrow.Int32Type{}, ValueType: arrow.BinaryTypes.String}
-	bldr := array.NewDictionaryBuilder(mem, dictType)
-	defer bldr.Release()
-
-	randString := func() string {
-		return fmt.Sprintf("test-%d", rand.Intn(30))
-	}
-
-	builder := bldr.(*array.BinaryDictionaryBuilder)
-	for i := 0; i < b.N; i++ {
-		assert.NoError(b, builder.AppendString(randString()))
-	}
-}
diff --git a/go/arrow/array/diff.go b/go/arrow/array/diff.go
deleted file mode 100644
index e5c1ce1521d95..0000000000000
--- a/go/arrow/array/diff.go
+++ /dev/null
@@ -1,315 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-// Edit represents one entry in the edit script to compare two arrays.
-type Edit struct {
-	Insert    bool
-	RunLength int64
-}
-
-// Edits is a slice of Edit structs that represents an edit script to compare two arrays.
-// When applied to the base array, it produces the target array.
-// Each element of "insert" determines whether an element was inserted into (true)
-// or deleted from (false) base. Each insertion or deletion is followed by a run of
-// elements which are unchanged from base to target; the length of this run is stored
-// in RunLength. (Note that the edit script begins and ends with a run of shared
-// elements but both fields of the struct must have the same length. To accommodate this
-// the first element of "insert" should be ignored.)
-//
-// For example for base "hlloo" and target "hello", the edit script would be
-// [
-//
-//	{"insert": false, "run_length": 1}, // leading run of length 1 ("h")
-//	{"insert": true, "run_length": 3}, // insert("e") then a run of length 3 ("llo")
-//	{"insert": false, "run_length": 0} // delete("o") then an empty run
-//
-// ]
-type Edits []Edit
-
-// String returns a simple string representation of the edit script.
-func (e Edits) String() string {
-	return fmt.Sprintf("%v", []Edit(e))
-}
-
-// UnifiedDiff returns a string representation of the diff of base and target in Unified Diff format.
-func (e Edits) UnifiedDiff(base, target arrow.Array) string {
-	var s strings.Builder
-	baseIndex := int64(0)
-	targetIndex := int64(0)
-	wrotePosition := false
-	for i := 0; i < len(e); i++ {
-		if i > 0 {
-			if !wrotePosition {
-				s.WriteString(fmt.Sprintf("@@ -%d, +%d @@\n", baseIndex, targetIndex))
-				wrotePosition = true
-			}
-			if e[i].Insert {
-				s.WriteString(fmt.Sprintf("+%v\n", stringAt(target, targetIndex)))
-				targetIndex++
-			} else {
-				s.WriteString(fmt.Sprintf("-%v\n", stringAt(base, baseIndex)))
-				baseIndex++
-			}
-		}
-		for j := int64(0); j < e[i].RunLength; j++ {
-			baseIndex++
-			targetIndex++
-			wrotePosition = false
-		}
-	}
-	return s.String()
-}
-
-func stringAt(arr arrow.Array, i int64) string {
-	if arr.IsNull(int(i)) {
-		return "null"
-	}
-	dt := arr.DataType()
-	switch {
-	case arrow.TypeEqual(dt, arrow.PrimitiveTypes.Float32):
-		return fmt.Sprintf("%f", arr.(*Float32).Value(int(i)))
-	case arrow.TypeEqual(dt, arrow.PrimitiveTypes.Float64):
-		return fmt.Sprintf("%f", arr.(*Float64).Value(int(i)))
-	case arrow.TypeEqual(dt, arrow.PrimitiveTypes.Date32):
-		return arr.(*Date32).Value(int(i)).FormattedString()
-	case arrow.TypeEqual(dt, arrow.PrimitiveTypes.Date64):
-		return arr.(*Date64).Value(int(i)).FormattedString()
-	case arrow.TypeEqual(dt, arrow.FixedWidthTypes.Timestamp_s):
-		return arr.(*Timestamp).Value(int(i)).ToTime(arrow.Second).String()
-	case arrow.TypeEqual(dt, arrow.FixedWidthTypes.Timestamp_ms):
-		return arr.(*Timestamp).Value(int(i)).ToTime(arrow.Millisecond).String()
-	case arrow.TypeEqual(dt, arrow.FixedWidthTypes.Timestamp_us):
-		return arr.(*Timestamp).Value(int(i)).ToTime(arrow.Microsecond).String()
-	case arrow.TypeEqual(dt, arrow.FixedWidthTypes.Timestamp_ns):
-		return arr.(*Timestamp).Value(int(i)).ToTime(arrow.Nanosecond).String()
-	}
-	s := NewSlice(arr, i, i+1)
-	defer s.Release()
-	st, _ := s.MarshalJSON()
-	return strings.Trim(string(st[1:len(st)-1]), "\n")
-}
-
-// Diff compares two arrays, returning an edit script which expresses the difference
-// between them. The edit script can be applied to the base array to produce the target.
-// 'base' is a baseline for comparison.
-// 'target' is an array of identical type to base whose elements differ from base's.
-func Diff(base, target arrow.Array) (edits Edits, err error) {
-	if !arrow.TypeEqual(base.DataType(), target.DataType()) {
-		return nil, fmt.Errorf("%w: only taking the diff of like-typed arrays is supported", arrow.ErrNotImplemented)
-	}
-	switch base.DataType().ID() {
-	case arrow.EXTENSION:
-		return Diff(base.(ExtensionArray).Storage(), target.(ExtensionArray).Storage())
-	case arrow.DICTIONARY:
-		return nil, fmt.Errorf("%w: diffing arrays of type %s is not implemented", arrow.ErrNotImplemented, base.DataType())
-	case arrow.RUN_END_ENCODED:
-		return nil, fmt.Errorf("%w: diffing arrays of type %s is not implemented", arrow.ErrNotImplemented, base.DataType())
-	}
-	d := newQuadraticSpaceMyersDiff(base, target)
-	return d.Diff()
-}
-
-// editPoint represents an intermediate state in the comparison of two arrays
-type editPoint struct {
-	base   int
-	target int
-}
-
-type quadraticSpaceMyersDiff struct {
-	base         arrow.Array
-	target       arrow.Array
-	finishIndex  int
-	editCount    int
-	endpointBase []int
-	insert       []bool
-	baseBegin    int
-	targetBegin  int
-	baseEnd      int
-	targetEnd    int
-}
-
-func newQuadraticSpaceMyersDiff(base, target arrow.Array) *quadraticSpaceMyersDiff {
-	d := &quadraticSpaceMyersDiff{
-		base:         base,
-		target:       target,
-		finishIndex:  -1,
-		editCount:    0,
-		endpointBase: []int{},
-		insert:       []bool{},
-		baseBegin:    0,
-		targetBegin:  0,
-		baseEnd:      base.Len(),
-		targetEnd:    target.Len(),
-	}
-	d.endpointBase = []int{d.extendFrom(editPoint{d.baseBegin, d.targetBegin}).base}
-	if d.baseEnd-d.baseBegin == d.targetEnd-d.targetBegin && d.endpointBase[0] == d.baseEnd {
-		// trivial case: base == target
-		d.finishIndex = 0
-	}
-	return d
-}
-
-func (d *quadraticSpaceMyersDiff) valuesEqual(baseIndex, targetIndex int) bool {
-	baseNull := d.base.IsNull(baseIndex)
-	targetNull := d.target.IsNull(targetIndex)
-	if baseNull || targetNull {
-		return baseNull && targetNull
-	}
-	return SliceEqual(d.base, int64(baseIndex), int64(baseIndex+1), d.target, int64(targetIndex), int64(targetIndex+1))
-}
-
-// increment the position within base and target (the elements skipped in this way were
-// present in both sequences)
-func (d *quadraticSpaceMyersDiff) extendFrom(p editPoint) editPoint {
-	for p.base != d.baseEnd && p.target != d.targetEnd {
-		if !d.valuesEqual(p.base, p.target) {
-			break
-		}
-		p.base++
-		p.target++
-	}
-	return p
-}
-
-// increment the position within base (the element pointed to was deleted)
-// then extend maximally
-func (d *quadraticSpaceMyersDiff) deleteOne(p editPoint) editPoint {
-	if p.base != d.baseEnd {
-		p.base++
-	}
-	return d.extendFrom(p)
-}
-
-// increment the position within target (the element pointed to was inserted)
-// then extend maximally
-func (d *quadraticSpaceMyersDiff) insertOne(p editPoint) editPoint {
-	if p.target != d.targetEnd {
-		p.target++
-	}
-	return d.extendFrom(p)
-}
-
-// beginning of a range for storing per-edit state in endpointBase and insert
-func storageOffset(editCount int) int {
-	return editCount * (editCount + 1) / 2
-}
-
-// given edit_count and index, augment endpointBase[index] with the corresponding
-// position in target (which is only implicitly represented in editCount, index)
-func (d *quadraticSpaceMyersDiff) getEditPoint(editCount, index int) editPoint {
-	insertionsMinusDeletions := 2*(index-storageOffset(editCount)) - editCount
-	maximalBase := d.endpointBase[index]
-	maximalTarget := min(d.targetBegin+((maximalBase-d.baseBegin)+insertionsMinusDeletions), d.targetEnd)
-	return editPoint{maximalBase, maximalTarget}
-}
-
-func (d *quadraticSpaceMyersDiff) Next() {
-	d.editCount++
-	if len(d.endpointBase) < storageOffset(d.editCount+1) {
-		d.endpointBase = append(d.endpointBase, make([]int, storageOffset(d.editCount+1)-len(d.endpointBase))...)
-	}
-	if len(d.insert) < storageOffset(d.editCount+1) {
-		d.insert = append(d.insert, make([]bool, storageOffset(d.editCount+1)-len(d.insert))...)
-	}
-	previousOffset := storageOffset(d.editCount - 1)
-	currentOffset := storageOffset(d.editCount)
-
-	// try deleting from base first
-	for i, iOut := 0, 0; i < d.editCount; i, iOut = i+1, iOut+1 {
-		previousEndpoint := d.getEditPoint(d.editCount-1, i+previousOffset)
-		d.endpointBase[iOut+currentOffset] = d.deleteOne(previousEndpoint).base
-	}
-
-	// check if inserting from target could do better
-	for i, iOut := 0, 1; i < d.editCount; i, iOut = i+1, iOut+1 {
-		// retrieve the previously computed best endpoint for (editCount, iOut)
-		// for comparison with the best endpoint achievable with an insertion
-		endpointAfterDeletion := d.getEditPoint(d.editCount, iOut+currentOffset)
-
-		previousEndpoint := d.getEditPoint(d.editCount-1, i+previousOffset)
-		endpointAfterInsertion := d.insertOne(previousEndpoint)
-
-		if endpointAfterInsertion.base-endpointAfterDeletion.base >= 0 {
-			// insertion was more efficient; keep it and mark the insertion in insert
-			d.insert[iOut+currentOffset] = true
-			d.endpointBase[iOut+currentOffset] = endpointAfterInsertion.base
-		}
-	}
-
-	finish := editPoint{d.baseEnd, d.targetEnd}
-	for iOut := 0; iOut < d.editCount+1; iOut++ {
-		if d.getEditPoint(d.editCount, iOut+currentOffset) == finish {
-			d.finishIndex = iOut + currentOffset
-			return
-		}
-	}
-}
-
-func (d *quadraticSpaceMyersDiff) Done() bool {
-	return d.finishIndex != -1
-}
-
-func (d *quadraticSpaceMyersDiff) GetEdits() (Edits, error) {
-	if !d.Done() {
-		panic("GetEdits called but Done() = false")
-	}
-
-	length := d.editCount + 1
-	edits := make(Edits, length)
-	index := d.finishIndex
-	endpoint := d.getEditPoint(d.editCount, d.finishIndex)
-
-	for i := d.editCount; i > 0; i-- {
-		insert := d.insert[index]
-		edits[i].Insert = insert
-		insertionsMinusDeletions := (endpoint.base - d.baseBegin) - (endpoint.target - d.targetBegin)
-		if insert {
-			insertionsMinusDeletions++
-		} else {
-			insertionsMinusDeletions--
-		}
-		index = (i-1-insertionsMinusDeletions)/2 + storageOffset(i-1)
-
-		// endpoint of previous edit
-		previous := d.getEditPoint(i-1, index)
-		in := 0
-		if insert {
-			in = 1
-		}
-		edits[i].RunLength = int64(endpoint.base - previous.base - (1 - in))
-		endpoint = previous
-	}
-	edits[0].Insert = false
-	edits[0].RunLength = int64(endpoint.base - d.baseBegin)
-
-	return edits, nil
-}
-
-func (d *quadraticSpaceMyersDiff) Diff() (edits Edits, err error) {
-	for !d.Done() {
-		d.Next()
-	}
-	return d.GetEdits()
-}
diff --git a/go/arrow/array/diff_test.go b/go/arrow/array/diff_test.go
deleted file mode 100644
index 9c9ce6a53aed0..0000000000000
--- a/go/arrow/array/diff_test.go
+++ /dev/null
@@ -1,878 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"math/rand"
-	"reflect"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type diffTestCase struct {
-	dataType arrow.DataType
-
-	baseJSON      string
-	targetJSON    string
-	wantInsert    []bool
-	wantRunLength []int64
-}
-
-func (s *diffTestCase) check(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	base, _, err := array.FromJSON(mem, s.dataType, strings.NewReader(s.baseJSON))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer base.Release()
-
-	target, _, err := array.FromJSON(mem, s.dataType, strings.NewReader(s.targetJSON))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer target.Release()
-
-	edits, err := array.Diff(base, target)
-	if err != nil {
-		t.Fatalf("got unexpected error %v", err)
-	}
-
-	gotInserts := make([]bool, len(edits))
-	gotRunLengths := make([]int64, len(edits))
-	for i, edit := range edits {
-		gotInserts[i] = edit.Insert
-		gotRunLengths[i] = edit.RunLength
-	}
-	if !reflect.DeepEqual(gotInserts, s.wantInsert) {
-		t.Errorf("Diff(\n  base=%v, \ntarget=%v\n) got insert %v, want %v", base, target, gotInserts, s.wantInsert)
-	}
-	if !reflect.DeepEqual(gotRunLengths, s.wantRunLength) {
-		t.Errorf("Diff(\n  base=%v, \ntarget=%v\n) got run length %v, want %v", base, target, gotRunLengths, s.wantRunLength)
-	}
-}
-
-func TestDiff_Trivial(t *testing.T) {
-	cases := []struct {
-		name          string
-		base          string
-		target        string
-		wantInsert    []bool
-		wantRunLength []int64
-	}{
-		{
-			name:          "empty",
-			base:          `[]`,
-			target:        `[]`,
-			wantInsert:    []bool{false},
-			wantRunLength: []int64{0},
-		},
-		{
-			name:          "nulls",
-			base:          `[null, null]`,
-			target:        `[null, null, null, null]`,
-			wantInsert:    []bool{false, true, true},
-			wantRunLength: []int64{2, 0, 0},
-		},
-		{
-			name:          "equal",
-			base:          `[1, 2, 3]`,
-			target:        `[1, 2, 3]`,
-			wantInsert:    []bool{false},
-			wantRunLength: []int64{3},
-		},
-	}
-	for _, tc := range cases {
-		d := diffTestCase{
-			dataType:      arrow.PrimitiveTypes.Int32,
-			baseJSON:      tc.base,
-			targetJSON:    tc.target,
-			wantInsert:    tc.wantInsert,
-			wantRunLength: tc.wantRunLength,
-		}
-		t.Run(tc.name, d.check)
-	}
-}
-
-func TestDiff_Basics(t *testing.T) {
-	cases := []struct {
-		name          string
-		base          string
-		target        string
-		wantInsert    []bool
-		wantRunLength []int64
-	}{
-		{
-			name:          "insert one",
-			base:          `[1, 2, null, 5]`,
-			target:        `[1, 2, 3, null, 5]`,
-			wantInsert:    []bool{false, true},
-			wantRunLength: []int64{2, 2},
-		},
-		{
-			name:          "delete one",
-			base:          `[1, 2, 3, null, 5]`,
-			target:        `[1, 2, null, 5]`,
-			wantInsert:    []bool{false, false},
-			wantRunLength: []int64{2, 2},
-		},
-		{
-			name:          "change one",
-			base:          `[1, 2, 3, null, 5]`,
-			target:        `[1, 2, 23, null, 5]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{2, 0, 2},
-		},
-		{
-			name:          "null out one",
-			base:          `[1, 2, 3, null, 5]`,
-			target:        `[1, 2, null, null, 5]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{2, 1, 1},
-		},
-		{
-			name:          "append some",
-			base:          `[1, 2, 3, null, 5]`,
-			target:        `[1, 2, 3, null, 5, 6, 7, 8, 9]`,
-			wantInsert:    []bool{false, true, true, true, true},
-			wantRunLength: []int64{5, 0, 0, 0, 0},
-		},
-		{
-			name:          "prepend some",
-			base:          `[1, 2, 3, null, 5]`,
-			target:        `[6, 4, 2, 0, 1, 2, 3, null, 5]`,
-			wantInsert:    []bool{false, true, true, true, true},
-			wantRunLength: []int64{0, 0, 0, 0, 5},
-		},
-	}
-	for _, tc := range cases {
-		d := diffTestCase{
-			dataType:      arrow.PrimitiveTypes.Int32,
-			baseJSON:      tc.base,
-			targetJSON:    tc.target,
-			wantInsert:    tc.wantInsert,
-			wantRunLength: tc.wantRunLength,
-		}
-		t.Run(tc.name, d.check)
-	}
-}
-
-func TestDiff_BasicsWithBooleans(t *testing.T) {
-	cases := []struct {
-		name          string
-		base          string
-		target        string
-		wantInsert    []bool
-		wantRunLength []int64
-	}{
-		{
-			name:          "insert one",
-			base:          `[true, true, true]`,
-			target:        `[true, false, true, true]`,
-			wantInsert:    []bool{false, true},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "delete one",
-			base:          `[true, false, true, true]`,
-			target:        `[true, true, true]`,
-			wantInsert:    []bool{false, false},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "change one",
-			base:          `[false, false, true]`,
-			target:        `[true, false, true]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{0, 0, 2},
-		},
-		{
-			name:          "null out one",
-			base:          `[true, false, true]`,
-			target:        `[true, false, null]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{2, 0, 0},
-		},
-	}
-	for _, tc := range cases {
-		d := diffTestCase{
-			dataType:      &arrow.BooleanType{},
-			baseJSON:      tc.base,
-			targetJSON:    tc.target,
-			wantInsert:    tc.wantInsert,
-			wantRunLength: tc.wantRunLength,
-		}
-		t.Run(tc.name, d.check)
-	}
-}
-
-func TestDiff_BasicsWithStrings(t *testing.T) {
-	cases := []struct {
-		name          string
-		base          string
-		target        string
-		wantInsert    []bool
-		wantRunLength []int64
-	}{
-		{
-			name:          "insert one",
-			base:          `["give", "a", "break"]`,
-			target:        `["give", "me", "a", "break"]`,
-			wantInsert:    []bool{false, true},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "delete one",
-			base:          `["give", "me", "a", "break"]`,
-			target:        `["give", "a", "break"]`,
-			wantInsert:    []bool{false, false},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "change one",
-			base:          `["give", "a", "break"]`,
-			target:        `["gimme", "a", "break"]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{0, 0, 2},
-		},
-		{
-			name:          "null out one",
-			base:          `["give", "a", "break"]`,
-			target:        `["give", "a", null]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{2, 0, 0},
-		},
-	}
-	for _, tc := range cases {
-		d := diffTestCase{
-			dataType:      &arrow.StringType{},
-			baseJSON:      tc.base,
-			targetJSON:    tc.target,
-			wantInsert:    tc.wantInsert,
-			wantRunLength: tc.wantRunLength,
-		}
-		t.Run(tc.name, d.check)
-	}
-}
-
-func TestDiff_BasicsWithLists(t *testing.T) {
-	cases := []struct {
-		name          string
-		base          string
-		target        string
-		wantInsert    []bool
-		wantRunLength []int64
-	}{
-		{
-			name:          "insert one",
-			base:          `[[2, 3, 1], [], [13]]`,
-			target:        `[[2, 3, 1], [5, 9], [], [13]]`,
-			wantInsert:    []bool{false, true},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "delete one",
-			base:          `[[2, 3, 1], [5, 9], [], [13]]`,
-			target:        `[[2, 3, 1], [], [13]]`,
-			wantInsert:    []bool{false, false},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "change one",
-			base:          `[[2, 3, 1], [], [13]]`,
-			target:        `[[3, 3, 3], [], [13]]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{0, 0, 2},
-		},
-		{
-			name:          "null out one",
-			base:          `[[2, 3, 1], [], [13]]`,
-			target:        `[[2, 3, 1], [], null]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{2, 0, 0},
-		},
-	}
-	for _, tc := range cases {
-		d := diffTestCase{
-			dataType:      arrow.ListOf(arrow.PrimitiveTypes.Int32),
-			baseJSON:      tc.base,
-			targetJSON:    tc.target,
-			wantInsert:    tc.wantInsert,
-			wantRunLength: tc.wantRunLength,
-		}
-		t.Run(tc.name, d.check)
-	}
-}
-
-func TestDiff_BasicsWithStructs(t *testing.T) {
-	cases := []struct {
-		name          string
-		base          string
-		target        string
-		wantInsert    []bool
-		wantRunLength []int64
-	}{
-		{
-			name:          "insert one",
-			base:          `[{"foo": "!", "bar": 3}, {}, {"bar": 13}]`,
-			target:        `[{"foo": "!", "bar": 3}, {"foo": "?"}, {}, {"bar": 13}]`,
-			wantInsert:    []bool{false, true},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "delete one",
-			base:          `[{"foo": "!", "bar": 3}, {"foo": "?"}, {}, {"bar": 13}]`,
-			target:        `[{"foo": "!", "bar": 3}, {}, {"bar": 13}]`,
-			wantInsert:    []bool{false, false},
-			wantRunLength: []int64{1, 2},
-		},
-		{
-			name:          "change one",
-			base:          `[{"foo": "!", "bar": 3}, {}, {"bar": 13}]`,
-			target:        `[{"foo": "!", "bar": 2}, {}, {"bar": 13}]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{0, 0, 2},
-		},
-		{
-			name:          "null out one",
-			base:          `[{"foo": "!", "bar": 3}, {}, {"bar": 13}]`,
-			target:        `[{"foo": "!", "bar": 3}, {}, null]`,
-			wantInsert:    []bool{false, false, true},
-			wantRunLength: []int64{2, 0, 0},
-		},
-	}
-	for _, tc := range cases {
-		f1 := arrow.Field{Name: "foo", Type: arrow.BinaryTypes.String, Nullable: true}
-		f2 := arrow.Field{Name: "bar", Type: arrow.PrimitiveTypes.Int32, Nullable: true}
-		d := diffTestCase{
-			dataType:      arrow.StructOf(f1, f2),
-			baseJSON:      tc.base,
-			targetJSON:    tc.target,
-			wantInsert:    tc.wantInsert,
-			wantRunLength: tc.wantRunLength,
-		}
-		t.Run(tc.name, d.check)
-	}
-}
-
-func TestDiff_Random(t *testing.T) {
-	rng := rand.New(rand.NewSource(0xdeadbeef))
-	for i := 0; i < 100; i++ {
-		t.Run(fmt.Sprintf("case-%d", i), func(t *testing.T) {
-			testRandomCase(t, rng)
-		})
-	}
-}
-
-func testRandomCase(t *testing.T, rng *rand.Rand) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dataType := arrow.PrimitiveTypes.Int32
-
-	baseValues := make([]int32, rng.Intn(10))
-	for i := range baseValues {
-		baseValues[i] = rng.Int31()
-	}
-	baseJSON, err := json.Marshal(baseValues)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	targetValues := make([]int32, rng.Intn(10))
-	for i := range targetValues {
-		// create runs with some probability
-		if rng.Intn(2) == 0 && len(baseValues) > 0 {
-			targetValues[i] = baseValues[rng.Intn(len(baseValues))]
-		} else {
-			targetValues[i] = rng.Int31()
-		}
-	}
-	targetJSON, err := json.Marshal(targetValues)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	base, _, err := array.FromJSON(mem, dataType, strings.NewReader(string(baseJSON)))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer base.Release()
-
-	target, _, err := array.FromJSON(mem, dataType, strings.NewReader(string(targetJSON)))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer target.Release()
-
-	edits, err := array.Diff(base, target)
-	if err != nil {
-		t.Fatalf("got unexpected error %v", err)
-	}
-
-	validateEditScript(t, edits, base, target)
-}
-
-// validateEditScript checks that the edit script produces target when applied to base.
-func validateEditScript(t *testing.T, edits array.Edits, base, target arrow.Array) {
-	if len(edits) == 0 {
-		t.Fatalf("edit script has run length of zero")
-	}
-
-	baseIndex := int64(0)
-	targetIndex := int64(0)
-	for i := 0; i < len(edits); i++ {
-		if i > 0 {
-			if edits[i].Insert {
-				targetIndex++
-			} else {
-				baseIndex++
-			}
-		}
-		for j := int64(0); j < edits[i].RunLength; j++ {
-			if !array.SliceEqual(base, baseIndex, baseIndex+1, target, targetIndex, targetIndex+1) {
-				t.Fatalf("edit script (%v) when applied to base %v does not produce target %v", edits, base, target)
-			}
-			baseIndex += 1
-			targetIndex += 1
-		}
-	}
-	if baseIndex != int64(base.Len()) || targetIndex != int64(target.Len()) {
-		t.Fatalf("edit script (%v) when applied to base %v does not produce target %v", edits, base, target)
-	}
-}
-
-type diffStringTestCase struct {
-	dataType arrow.DataType
-
-	name       string
-	baseJSON   string
-	targetJSON string
-	want       string
-}
-
-func (s *diffStringTestCase) check(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	base, _, err := array.FromJSON(mem, s.dataType, strings.NewReader(s.baseJSON))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer base.Release()
-
-	target, _, err := array.FromJSON(mem, s.dataType, strings.NewReader(s.targetJSON))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer target.Release()
-
-	edits, err := array.Diff(base, target)
-	if err != nil {
-		t.Fatalf("got unexpected error %v", err)
-	}
-	got := edits.UnifiedDiff(base, target)
-	if got != s.want {
-		t.Errorf("got:\n%v\n, want:\n%v", got, s.want)
-	}
-}
-
-func TestEdits_UnifiedDiff(t *testing.T) {
-	msPerDay := 24 * 60 * 60 * 1000
-	cases := []diffStringTestCase{
-		{
-			name:       "no changes",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["give", "me", "a", "break"]`,
-			targetJSON: `["give", "me", "a", "break"]`,
-			want:       ``,
-		},
-		{
-			name:       "insert one",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["give", "a", "break"]`,
-			targetJSON: `["give", "me", "a", "break"]`,
-			want: `@@ -1, +1 @@
-+"me"
-`,
-		},
-		{
-			name:       "delete one",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["give", "me", "a", "break"]`,
-			targetJSON: `["give", "a", "break"]`,
-			want: `@@ -1, +1 @@
--"me"
-`,
-		},
-		{
-			name:       "change one",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["give", "a", "break"]`,
-			targetJSON: `["gimme", "a", "break"]`,
-			want: `@@ -0, +0 @@
--"give"
-+"gimme"
-`,
-		},
-		{
-			name:       "null out one",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["give", "a", "break"]`,
-			targetJSON: `["give", "a", null]`,
-			want: `@@ -2, +2 @@
--"break"
-+null
-`,
-		},
-		{
-			name:       "strings with escaped chars",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["newline:\\n", "quote:'", "backslash:\\\\"]`,
-			targetJSON: `["newline:\\n", "tab:\\t", "quote:\\\"", "backslash:\\\\"]`,
-			want: `@@ -1, +1 @@
--"quote:'"
-+"tab:\\t"
-+"quote:\\\""
-`,
-		},
-		{
-			name:       "date32",
-			dataType:   arrow.PrimitiveTypes.Date32,
-			baseJSON:   `[0, 1, 2, 31, 4]`,
-			targetJSON: `[0, 1, 31, 2, 4]`,
-			want: `@@ -2, +2 @@
--1970-01-03
-@@ -4, +3 @@
-+1970-01-03
-`,
-		},
-		{
-			name:       "date64",
-			dataType:   arrow.PrimitiveTypes.Date64,
-			baseJSON:   fmt.Sprintf(`[%d, %d, %d, %d, %d]`, 0*msPerDay, 1*msPerDay, 2*msPerDay, 31*msPerDay, 4*msPerDay),
-			targetJSON: fmt.Sprintf(`[%d, %d, %d, %d, %d]`, 0*msPerDay, 1*msPerDay, 31*msPerDay, 2*msPerDay, 4*msPerDay),
-			want: `@@ -2, +2 @@
--1970-01-03
-@@ -4, +3 @@
-+1970-01-03
-`,
-		},
-		{
-			name:       "timestamp_s",
-			dataType:   arrow.FixedWidthTypes.Timestamp_s,
-			baseJSON:   fmt.Sprintf(`[0, 1, %d, 2, 4]`, 678+(5+60*(4+60*(3+24*int64(1))))),
-			targetJSON: fmt.Sprintf(`[0, 1, 2, %d, 4]`, 678+(5+60*(4+60*(3+24*int64(1))))),
-			want: `@@ -2, +2 @@
--1970-01-02 03:15:23 +0000 UTC
-@@ -4, +3 @@
-+1970-01-02 03:15:23 +0000 UTC
-`,
-		},
-		{
-			name:       "timestamp_ms",
-			dataType:   arrow.FixedWidthTypes.Timestamp_ms,
-			baseJSON:   fmt.Sprintf(`[0, 1, %d, 2, 4]`, 678+1000*(5+60*(4+60*(3+24*int64(1))))),
-			targetJSON: fmt.Sprintf(`[0, 1, 2, %d, 4]`, 678+1000*(5+60*(4+60*(3+24*int64(1))))),
-			want: `@@ -2, +2 @@
--1970-01-02 03:04:05.678 +0000 UTC
-@@ -4, +3 @@
-+1970-01-02 03:04:05.678 +0000 UTC
-`,
-		},
-		{
-			name:       "timestamp_us",
-			dataType:   arrow.FixedWidthTypes.Timestamp_us,
-			baseJSON:   fmt.Sprintf(`[0, 1, %d, 2, 4]`, 678+1000000*(5+60*(4+60*(3+24*int64(1))))),
-			targetJSON: fmt.Sprintf(`[0, 1, 2, %d, 4]`, 678+1000000*(5+60*(4+60*(3+24*int64(1))))),
-			want: `@@ -2, +2 @@
--1970-01-02 03:04:05.000678 +0000 UTC
-@@ -4, +3 @@
-+1970-01-02 03:04:05.000678 +0000 UTC
-`,
-		},
-		{
-			name:       "timestamp_ns",
-			dataType:   arrow.FixedWidthTypes.Timestamp_ns,
-			baseJSON:   fmt.Sprintf(`[0, 1, %d, 2, 4]`, 678+1000000000*(5+60*(4+60*(3+24*int64(1))))),
-			targetJSON: fmt.Sprintf(`[0, 1, 2, %d, 4]`, 678+1000000000*(5+60*(4+60*(3+24*int64(1))))),
-			want: `@@ -2, +2 @@
--1970-01-02 03:04:05.000000678 +0000 UTC
-@@ -4, +3 @@
-+1970-01-02 03:04:05.000000678 +0000 UTC
-`,
-		},
-		{
-			name:       "lists",
-			dataType:   arrow.ListOf(arrow.PrimitiveTypes.Int32),
-			baseJSON:   `[[2, 3, 1], [], [13], []]`,
-			targetJSON: `[[2, 3, 1], [5, 9], [], [13]]`,
-			want: `@@ -1, +1 @@
-+[5,9]
-@@ -3, +4 @@
--[]
-`,
-		},
-		{
-			name:     "maps",
-			dataType: arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32),
-			baseJSON: `[
-			[{"key": "foo", "value": 2}, {"key": "bar", "value": 3}, {"key": "baz", "value": 1}],
-			[{"key": "quux", "value": 13}],
-			[]
-		]`,
-			targetJSON: `[
-			[{"key": "foo", "value": 2}, {"key": "bar", "value": 3}, {"key": "baz", "value": 1}],
-			[{"key": "ytho", "value": 11}],
-			[{"key": "quux", "value": 13}],
-			[]
-		]`,
-			want: `@@ -1, +1 @@
-+[{"key":"ytho","value":11}]
-`,
-		},
-		{
-			name: "structs",
-			dataType: arrow.StructOf(
-				[]arrow.Field{
-					{Name: "foo", Type: arrow.BinaryTypes.String, Nullable: true},
-					{Name: "bar", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-				}...,
-			),
-			baseJSON:   `[{"foo": "!", "bar": 3}, {}, {"bar": 13}]`,
-			targetJSON: `[{"foo": null, "bar": 2}, {}, {"bar": 13}]`,
-			want: `@@ -0, +0 @@
--{"bar":3,"foo":"!"}
-+{"bar":2,"foo":null}
-`,
-		},
-		{
-			name: "unions",
-			dataType: arrow.UnionOf(arrow.SparseMode,
-				[]arrow.Field{
-					{Name: "foo", Type: arrow.BinaryTypes.String},
-					{Name: "bar", Type: arrow.PrimitiveTypes.Int32},
-				},
-				[]arrow.UnionTypeCode{2, 5},
-			),
-			baseJSON:   `[[2, "!"], [5, 3], [5, 13]]`,
-			targetJSON: `[[2, "!"], [2, "3"], [5, 13]]`,
-			want: `@@ -1, +1 @@
--[5,3]
-+[2,"3"]
-`,
-		},
-		{
-			name:       "string",
-			dataType:   arrow.BinaryTypes.String,
-			baseJSON:   `["h", "l", "l", "o", "o"]`,
-			targetJSON: `["h", "e", "l", "l", "o", "0"]`,
-			want: `@@ -1, +1 @@
-+"e"
-@@ -4, +5 @@
--"o"
-+"0"
-`,
-		},
-		{
-			name:       "int8",
-			dataType:   arrow.PrimitiveTypes.Int8,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "int16",
-			dataType:   arrow.PrimitiveTypes.Int16,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "int32",
-			dataType:   arrow.PrimitiveTypes.Int32,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "int64",
-			dataType:   arrow.PrimitiveTypes.Int64,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "uint8",
-			dataType:   arrow.PrimitiveTypes.Uint8,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "uint16",
-			dataType:   arrow.PrimitiveTypes.Uint16,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "uint32",
-			dataType:   arrow.PrimitiveTypes.Uint32,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "uint64",
-			dataType:   arrow.PrimitiveTypes.Uint64,
-			baseJSON:   `[0, 1, 2, 3, 5, 8, 11, 13, 17]`,
-			targetJSON: `[2, 3, 5, 7, 11, 13, 17, 19]`,
-			want: `@@ -0, +0 @@
--0
--1
-@@ -5, +3 @@
--8
-+7
-@@ -9, +7 @@
-+19
-`,
-		},
-		{
-			name:       "float32",
-			dataType:   arrow.PrimitiveTypes.Float32,
-			baseJSON:   `[0.1, 0.3, -0.5]`,
-			targetJSON: `[0.1, -0.5, 0.3]`,
-			want: `@@ -1, +1 @@
--0.300000
-@@ -3, +2 @@
-+0.300000
-`,
-		},
-		{
-			name:       "float64",
-			dataType:   arrow.PrimitiveTypes.Float64,
-			baseJSON:   `[0.1, 0.3, -0.5]`,
-			targetJSON: `[0.1, -0.5, 0.3]`,
-			want: `@@ -1, +1 @@
--0.300000
-@@ -3, +2 @@
-+0.300000
-`,
-		},
-		{
-			name:       "equal nulls",
-			dataType:   arrow.PrimitiveTypes.Int32,
-			baseJSON:   `[null, null]`,
-			targetJSON: `[null, null]`,
-			want:       ``,
-		},
-		{
-			name:       "nulls",
-			dataType:   arrow.PrimitiveTypes.Int32,
-			baseJSON:   `[1, null, null, null]`,
-			targetJSON: `[null, 1, null, 2]`,
-			want: `@@ -0, +0 @@
--1
-@@ -2, +1 @@
--null
-+1
-@@ -4, +3 @@
-+2
-`,
-		},
-		{
-			name:       "extensions",
-			dataType:   extensions.NewUUIDType(),
-			baseJSON:   `["00000000-0000-0000-0000-000000000000", "00000000-0000-0000-0000-000000000001"]`,
-			targetJSON: `["00000000-0000-0000-0000-000000000001", "00000000-0000-0000-0000-000000000002"]`,
-			want: `@@ -0, +0 @@
--"00000000-0000-0000-0000-000000000000"
-@@ -2, +1 @@
-+"00000000-0000-0000-0000-000000000002"
-`,
-		},
-	}
-
-	for _, tc := range cases {
-		t.Run(tc.name, tc.check)
-	}
-}
diff --git a/go/arrow/array/doc.go b/go/arrow/array/doc.go
deleted file mode 100644
index 5cf85408626ac..0000000000000
--- a/go/arrow/array/doc.go
+++ /dev/null
@@ -1,20 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-/*
-Package array provides implementations of various Arrow array types.
-*/
-package array
diff --git a/go/arrow/array/encoded.go b/go/arrow/array/encoded.go
deleted file mode 100644
index 748c4c1fec641..0000000000000
--- a/go/arrow/array/encoded.go
+++ /dev/null
@@ -1,520 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"math"
-	"reflect"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/encoded"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// RunEndEncoded represents an array containing two children:
-// an array of int32 values defining the ends of each run of values
-// and an array of values
-type RunEndEncoded struct {
-	array
-
-	ends   arrow.Array
-	values arrow.Array
-}
-
-func NewRunEndEncodedArray(runEnds, values arrow.Array, logicalLength, offset int) *RunEndEncoded {
-	data := NewData(arrow.RunEndEncodedOf(runEnds.DataType(), values.DataType()), logicalLength,
-		[]*memory.Buffer{nil}, []arrow.ArrayData{runEnds.Data(), values.Data()}, 0, offset)
-	defer data.Release()
-	return NewRunEndEncodedData(data)
-}
-
-func NewRunEndEncodedData(data arrow.ArrayData) *RunEndEncoded {
-	r := &RunEndEncoded{}
-	r.refCount = 1
-	r.setData(data.(*Data))
-	return r
-}
-
-func (r *RunEndEncoded) Values() arrow.Array     { return r.values }
-func (r *RunEndEncoded) RunEndsArr() arrow.Array { return r.ends }
-
-func (r *RunEndEncoded) Retain() {
-	r.array.Retain()
-	r.values.Retain()
-	r.ends.Retain()
-}
-
-func (r *RunEndEncoded) Release() {
-	r.array.Release()
-	r.values.Release()
-	r.ends.Release()
-}
-
-// LogicalValuesArray returns an array holding the values of each
-// run, only over the range of run values inside the logical offset/length
-// range of the parent array.
-//
-// # Example
-//
-// For this array:
-//
-//	RunEndEncoded: { Offset: 150, Length: 1500 }
-//	    RunEnds: [ 1, 2, 4, 6, 10, 1000, 1750, 2000 ]
-//	    Values:  [ "a", "b", "c", "d", "e", "f", "g", "h" ]
-//
-// LogicalValuesArray will return the following array:
-//
-//	[ "f", "g" ]
-//
-// This is because the offset of 150 tells it to skip the values until
-// "f" which corresponds with the logical offset (the run from 10 - 1000),
-// and stops after "g" because the length + offset goes to 1650 which is
-// within the run from 1000 - 1750, corresponding to the "g" value.
-//
-// # Note
-//
-// The return from this needs to be Released.
-func (r *RunEndEncoded) LogicalValuesArray() arrow.Array {
-	physOffset := r.GetPhysicalOffset()
-	physLength := r.GetPhysicalLength()
-	data := NewSliceData(r.data.Children()[1], int64(physOffset), int64(physOffset+physLength))
-	defer data.Release()
-	return MakeFromData(data)
-}
-
-// LogicalRunEndsArray returns an array holding the logical indexes
-// of each run end, only over the range of run end values relative
-// to the logical offset/length range of the parent array.
-//
-// For arrays with an offset, this is not a slice of the existing
-// internal run ends array. Instead a new array is created with run-ends
-// that are adjusted so the new array can have an offset of 0. As a result
-// this method can be expensive to call for an array with a non-zero offset.
-//
-// # Example
-//
-// For this array:
-//
-//	RunEndEncoded: { Offset: 150, Length: 1500 }
-//	    RunEnds: [ 1, 2, 4, 6, 10, 1000, 1750, 2000 ]
-//	    Values:  [ "a", "b", "c", "d", "e", "f", "g", "h" ]
-//
-// LogicalRunEndsArray will return the following array:
-//
-//	[ 850, 1500 ]
-//
-// This is because the offset of 150 tells us to skip all run-ends less
-// than 150 (by finding the physical offset), and we adjust the run-ends
-// accordingly (1000 - 150 = 850). The logical length of the array is 1500,
-// so we know we don't want to go past the 1750 run end. Thus the last
-// run-end is determined by doing: min(1750 - 150, 1500) = 1500.
-//
-// # Note
-//
-// The return from this needs to be Released
-func (r *RunEndEncoded) LogicalRunEndsArray(mem memory.Allocator) arrow.Array {
-	physOffset := r.GetPhysicalOffset()
-	physLength := r.GetPhysicalLength()
-
-	if r.data.offset == 0 {
-		data := NewSliceData(r.data.childData[0], 0, int64(physLength))
-		defer data.Release()
-		return MakeFromData(data)
-	}
-
-	bldr := NewBuilder(mem, r.data.childData[0].DataType())
-	defer bldr.Release()
-	bldr.Resize(physLength)
-
-	switch e := r.ends.(type) {
-	case *Int16:
-		for _, v := range e.Int16Values()[physOffset : physOffset+physLength] {
-			v -= int16(r.data.offset)
-			v = int16(utils.Min(int(v), r.data.length))
-			bldr.(*Int16Builder).Append(v)
-		}
-	case *Int32:
-		for _, v := range e.Int32Values()[physOffset : physOffset+physLength] {
-			v -= int32(r.data.offset)
-			v = int32(utils.Min(int(v), r.data.length))
-			bldr.(*Int32Builder).Append(v)
-		}
-	case *Int64:
-		for _, v := range e.Int64Values()[physOffset : physOffset+physLength] {
-			v -= int64(r.data.offset)
-			v = int64(utils.Min(int(v), r.data.length))
-			bldr.(*Int64Builder).Append(v)
-		}
-	}
-
-	return bldr.NewArray()
-}
-
-func (r *RunEndEncoded) setData(data *Data) {
-	if len(data.childData) != 2 {
-		panic(fmt.Errorf("%w: arrow/array: RLE array must have exactly 2 children", arrow.ErrInvalid))
-	}
-	debug.Assert(data.dtype.ID() == arrow.RUN_END_ENCODED, "invalid type for RunLengthEncoded")
-	if !data.dtype.(*arrow.RunEndEncodedType).ValidRunEndsType(data.childData[0].DataType()) {
-		panic(fmt.Errorf("%w: arrow/array: run ends array must be int16, int32, or int64", arrow.ErrInvalid))
-	}
-	if data.childData[0].NullN() > 0 {
-		panic(fmt.Errorf("%w: arrow/array: run ends array cannot contain nulls", arrow.ErrInvalid))
-	}
-
-	r.array.setData(data)
-
-	r.ends = MakeFromData(r.data.childData[0])
-	r.values = MakeFromData(r.data.childData[1])
-}
-
-func (r *RunEndEncoded) GetPhysicalOffset() int {
-	return encoded.FindPhysicalOffset(r.data)
-}
-
-func (r *RunEndEncoded) GetPhysicalLength() int {
-	return encoded.GetPhysicalLength(r.data)
-}
-
-// GetPhysicalIndex can be used to get the run-encoded value instead of costly LogicalValuesArray
-// in the following way:
-//
-//	r.Values().(valuetype).Value(r.GetPhysicalIndex(i))
-func (r *RunEndEncoded) GetPhysicalIndex(i int) int {
-	return encoded.FindPhysicalIndex(r.data, i+r.data.offset)
-}
-
-// ValueStr will return the str representation of the value at the logical offset i.
-func (r *RunEndEncoded) ValueStr(i int) string {
-	return r.values.ValueStr(r.GetPhysicalIndex(i))
-}
-
-func (r *RunEndEncoded) String() string {
-	var buf bytes.Buffer
-	buf.WriteByte('[')
-	for i := 0; i < r.ends.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-
-		value := r.values.GetOneForMarshal(i)
-		if byts, ok := value.(json.RawMessage); ok {
-			value = string(byts)
-		}
-		fmt.Fprintf(&buf, "{%d -> %v}", r.ends.GetOneForMarshal(i), value)
-	}
-
-	buf.WriteByte(']')
-	return buf.String()
-}
-
-func (r *RunEndEncoded) GetOneForMarshal(i int) interface{} {
-	return r.values.GetOneForMarshal(r.GetPhysicalIndex(i))
-}
-
-func (r *RunEndEncoded) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-	buf.WriteByte('[')
-	for i := 0; i < r.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(r.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func arrayRunEndEncodedEqual(l, r *RunEndEncoded) bool {
-	// types were already checked before getting here, so we know
-	// the encoded types are equal
-	mr := encoded.NewMergedRuns([2]arrow.Array{l, r})
-	for mr.Next() {
-		lIndex := mr.IndexIntoArray(0)
-		rIndex := mr.IndexIntoArray(1)
-		if !SliceEqual(l.values, lIndex, lIndex+1, r.values, rIndex, rIndex+1) {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayRunEndEncodedApproxEqual(l, r *RunEndEncoded, opt equalOption) bool {
-	// types were already checked before getting here, so we know
-	// the encoded types are equal
-	mr := encoded.NewMergedRuns([2]arrow.Array{l, r})
-	for mr.Next() {
-		lIndex := mr.IndexIntoArray(0)
-		rIndex := mr.IndexIntoArray(1)
-		if !sliceApproxEqual(l.values, lIndex, lIndex+1, r.values, rIndex, rIndex+1, opt) {
-			return false
-		}
-	}
-	return true
-}
-
-type RunEndEncodedBuilder struct {
-	builder
-
-	dt        arrow.DataType
-	runEnds   Builder
-	values    Builder
-	maxRunEnd uint64
-
-	// currently, mixing AppendValueFromString & UnmarshalOne is unsupported
-	lastUnmarshalled interface{}
-	unmarshalled     bool // tracks if Unmarshal was called (in case lastUnmarshalled is nil)
-	lastStr          *string
-}
-
-func NewRunEndEncodedBuilder(mem memory.Allocator, runEnds, encoded arrow.DataType) *RunEndEncodedBuilder {
-	dt := arrow.RunEndEncodedOf(runEnds, encoded)
-	if !dt.ValidRunEndsType(runEnds) {
-		panic("arrow/ree: invalid runEnds type for run length encoded array")
-	}
-
-	var maxEnd uint64
-	switch runEnds.ID() {
-	case arrow.INT16:
-		maxEnd = math.MaxInt16
-	case arrow.INT32:
-		maxEnd = math.MaxInt32
-	case arrow.INT64:
-		maxEnd = math.MaxInt64
-	}
-	return &RunEndEncodedBuilder{
-		builder:          builder{refCount: 1, mem: mem},
-		dt:               dt,
-		runEnds:          NewBuilder(mem, runEnds),
-		values:           NewBuilder(mem, encoded),
-		maxRunEnd:        maxEnd,
-		lastUnmarshalled: nil,
-	}
-}
-
-func (b *RunEndEncodedBuilder) Type() arrow.DataType {
-	return b.dt
-}
-
-func (b *RunEndEncodedBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		b.values.Release()
-		b.runEnds.Release()
-	}
-}
-
-func (b *RunEndEncodedBuilder) addLength(n uint64) {
-	if uint64(b.length)+n > b.maxRunEnd {
-		panic(fmt.Errorf("%w: %s array length must fit be less than %d", arrow.ErrInvalid, b.dt, b.maxRunEnd))
-	}
-
-	b.length += int(n)
-}
-
-func (b *RunEndEncodedBuilder) finishRun() {
-	b.lastUnmarshalled = nil
-	b.lastStr = nil
-	b.unmarshalled = false
-	if b.length == 0 {
-		return
-	}
-
-	switch bldr := b.runEnds.(type) {
-	case *Int16Builder:
-		bldr.Append(int16(b.length))
-	case *Int32Builder:
-		bldr.Append(int32(b.length))
-	case *Int64Builder:
-		bldr.Append(int64(b.length))
-	}
-}
-
-func (b *RunEndEncodedBuilder) ValueBuilder() Builder { return b.values }
-
-func (b *RunEndEncodedBuilder) Append(n uint64) {
-	b.finishRun()
-	b.addLength(n)
-}
-
-func (b *RunEndEncodedBuilder) AppendRuns(runs []uint64) {
-	for _, r := range runs {
-		b.finishRun()
-		b.addLength(r)
-	}
-}
-
-func (b *RunEndEncodedBuilder) ContinueRun(n uint64) {
-	b.addLength(n)
-}
-
-func (b *RunEndEncodedBuilder) AppendNull() {
-	b.finishRun()
-	b.values.AppendNull()
-	b.addLength(1)
-}
-
-func (b *RunEndEncodedBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *RunEndEncodedBuilder) NullN() int {
-	return UnknownNullCount
-}
-
-func (b *RunEndEncodedBuilder) AppendEmptyValue() {
-	b.AppendNull()
-}
-
-func (b *RunEndEncodedBuilder) AppendEmptyValues(n int) {
-	b.AppendNulls(n)
-}
-
-func (b *RunEndEncodedBuilder) Reserve(n int) {
-	b.values.Reserve(n)
-	b.runEnds.Reserve(n)
-}
-
-func (b *RunEndEncodedBuilder) Resize(n int) {
-	b.values.Resize(n)
-	b.runEnds.Resize(n)
-}
-
-func (b *RunEndEncodedBuilder) NewRunEndEncodedArray() *RunEndEncoded {
-	data := b.newData()
-	defer data.Release()
-	return NewRunEndEncodedData(data)
-}
-
-func (b *RunEndEncodedBuilder) NewArray() arrow.Array {
-	return b.NewRunEndEncodedArray()
-}
-
-func (b *RunEndEncodedBuilder) newData() (data *Data) {
-	b.finishRun()
-	values := b.values.NewArray()
-	defer values.Release()
-	runEnds := b.runEnds.NewArray()
-	defer runEnds.Release()
-
-	data = NewData(
-		b.dt, b.length, []*memory.Buffer{},
-		[]arrow.ArrayData{runEnds.Data(), values.Data()}, 0, 0)
-	b.reset()
-	return
-}
-
-// AppendValueFromString can't be used in conjunction with UnmarshalOne
-func (b *RunEndEncodedBuilder) AppendValueFromString(s string) error {
-	// we don't support mixing AppendValueFromString & UnmarshalOne
-	if b.unmarshalled {
-		return fmt.Errorf("%w: mixing AppendValueFromString & UnmarshalOne not yet implemented", arrow.ErrNotImplemented)
-	}
-
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	if b.lastStr != nil && s == *b.lastStr {
-		b.ContinueRun(1)
-		return nil
-	}
-
-	b.Append(1)
-	lastStr := s
-	b.lastStr = &lastStr
-	return b.ValueBuilder().AppendValueFromString(s)
-}
-
-// UnmarshalOne can't be used in conjunction with AppendValueFromString
-func (b *RunEndEncodedBuilder) UnmarshalOne(dec *json.Decoder) error {
-	// we don't support mixing AppendValueFromString & UnmarshalOne
-	if b.lastStr != nil {
-		return fmt.Errorf("%w: mixing AppendValueFromString & UnmarshalOne not yet implemented", arrow.ErrNotImplemented)
-	}
-
-	var value interface{}
-	if err := dec.Decode(&value); err != nil {
-		return err
-	}
-
-	// if we unmarshalled the same value as the previous one, we want to
-	// continue the run. However, there's an edge case. At the start of
-	// unmarshalling, lastUnmarshalled will be nil, but we might get
-	// nil as the first value we unmarshal. In that case we want to
-	// make sure we add a new run instead. We can detect that case by
-	// checking that the number of runEnds matches the number of values
-	// we have, which means no matter what we have to start a new run
-	if reflect.DeepEqual(value, b.lastUnmarshalled) && (value != nil || b.runEnds.Len() != b.values.Len()) {
-		b.ContinueRun(1)
-		return nil
-	}
-
-	data, err := json.Marshal(value)
-	if err != nil {
-		return err
-	}
-
-	b.Append(1)
-	b.lastUnmarshalled = value
-	b.unmarshalled = true
-	return b.ValueBuilder().UnmarshalOne(json.NewDecoder(bytes.NewReader(data)))
-}
-
-// Unmarshal can't be used in conjunction with AppendValueFromString (as it calls UnmarshalOne)
-func (b *RunEndEncodedBuilder) Unmarshal(dec *json.Decoder) error {
-	b.finishRun()
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON can't be used in conjunction with AppendValueFromString (as it calls UnmarshalOne)
-func (b *RunEndEncodedBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("list builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*RunEndEncoded)(nil)
-	_ Builder     = (*RunEndEncodedBuilder)(nil)
-)
diff --git a/go/arrow/array/encoded_test.go b/go/arrow/array/encoded_test.go
deleted file mode 100644
index 03352ec44177c..0000000000000
--- a/go/arrow/array/encoded_test.go
+++ /dev/null
@@ -1,459 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-var (
-	stringValues, _, _ = array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String, strings.NewReader(`["Hello", "World", null]`))
-	int32Values, _, _  = array.FromJSON(memory.DefaultAllocator, arrow.PrimitiveTypes.Int32, strings.NewReader(`[10, 20, 30]`))
-	int32OnlyNull      = array.MakeArrayOfNull(memory.DefaultAllocator, arrow.PrimitiveTypes.Int32, 3)
-)
-
-func TestMakeRLEArray(t *testing.T) {
-	rleArr := array.NewRunEndEncodedArray(int32Values, stringValues, 3, 0)
-	defer rleArr.Release()
-
-	arrData := rleArr.Data()
-	newArr := array.MakeFromData(arrData)
-	defer newArr.Release()
-
-	assert.Same(t, newArr.Data(), arrData)
-	assert.IsType(t, (*array.RunEndEncoded)(nil), newArr)
-}
-
-func TestRLEFromRunEndsAndValues(t *testing.T) {
-	rleArray := array.NewRunEndEncodedArray(int32Values, int32Values, 3, 0)
-	defer rleArray.Release()
-
-	assert.EqualValues(t, 3, rleArray.Len())
-	assert.Truef(t, array.Equal(int32Values, rleArray.Values()), "expected: %s\ngot: %s", int32Values, rleArray.Values())
-	assert.Truef(t, array.Equal(int32Values, rleArray.RunEndsArr()), "expected: %s\ngot: %s", int32Values, rleArray.RunEndsArr())
-	assert.Zero(t, rleArray.Offset())
-	assert.Zero(t, rleArray.Data().NullN())
-	// one dummy buffer, since code may assume there's at least one nil buffer
-	assert.Len(t, rleArray.Data().Buffers(), 1)
-
-	// explicit offset
-	rleArray = array.NewRunEndEncodedArray(int32Values, stringValues, 2, 1)
-	defer rleArray.Release()
-
-	assert.EqualValues(t, 2, rleArray.Len())
-	assert.Truef(t, array.Equal(stringValues, rleArray.Values()), "expected: %s\ngot: %s", stringValues, rleArray.Values())
-	assert.Truef(t, array.Equal(int32Values, rleArray.RunEndsArr()), "expected: %s\ngot: %s", int32Values, rleArray.RunEndsArr())
-	assert.EqualValues(t, 1, rleArray.Offset())
-	assert.Zero(t, rleArray.Data().NullN())
-
-	assert.PanicsWithError(t, "invalid: arrow/array: run ends array must be int16, int32, or int64", func() {
-		array.NewRunEndEncodedArray(stringValues, int32Values, 3, 0)
-	})
-	assert.PanicsWithError(t, "invalid: arrow/array: run ends array cannot contain nulls", func() {
-		array.NewRunEndEncodedArray(int32OnlyNull, int32Values, 3, 0)
-	})
-}
-
-func TestRunLengthEncodedOffsetLength(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	runEnds, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[100, 200, 300, 400, 500]`))
-	defer runEnds.Release()
-
-	values, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["Hello", "beautiful", "world", "of", "RLE"]`))
-	defer values.Release()
-
-	rleArray := array.NewRunEndEncodedArray(runEnds, values, 500, 0)
-	defer rleArray.Release()
-
-	assert.EqualValues(t, 5, rleArray.GetPhysicalLength())
-	assert.EqualValues(t, 0, rleArray.GetPhysicalOffset())
-
-	slice := array.NewSlice(rleArray, 199, 204).(*array.RunEndEncoded)
-	defer slice.Release()
-
-	assert.EqualValues(t, 2, slice.GetPhysicalLength())
-	assert.EqualValues(t, 1, slice.GetPhysicalOffset())
-
-	slice2 := array.NewSlice(rleArray, 199, 300).(*array.RunEndEncoded)
-	defer slice2.Release()
-
-	assert.EqualValues(t, 2, slice2.GetPhysicalLength())
-	assert.EqualValues(t, 1, slice2.GetPhysicalOffset())
-
-	slice3 := array.NewSlice(rleArray, 400, 500).(*array.RunEndEncoded)
-	defer slice3.Release()
-
-	assert.EqualValues(t, 1, slice3.GetPhysicalLength())
-	assert.EqualValues(t, 4, slice3.GetPhysicalOffset())
-
-	slice4 := array.NewSlice(rleArray, 0, 150).(*array.RunEndEncoded)
-	defer slice4.Release()
-
-	assert.EqualValues(t, 2, slice4.GetPhysicalLength())
-	assert.EqualValues(t, 0, slice4.GetPhysicalOffset())
-
-	zeroLengthAtEnd := array.NewSlice(rleArray, 500, 500).(*array.RunEndEncoded)
-	defer zeroLengthAtEnd.Release()
-
-	assert.EqualValues(t, 0, zeroLengthAtEnd.GetPhysicalLength())
-	assert.EqualValues(t, 5, zeroLengthAtEnd.GetPhysicalOffset())
-}
-
-func TestRLECompare(t *testing.T) {
-	rleArray := array.NewRunEndEncodedArray(int32Values, stringValues, 30, 0)
-	// second that is a copy of the first
-	standardEquals := array.MakeFromData(rleArray.Data().(*array.Data).Copy())
-
-	defer rleArray.Release()
-	defer standardEquals.Release()
-
-	assert.Truef(t, array.Equal(rleArray, standardEquals), "left: %s\nright: %s", rleArray, standardEquals)
-	assert.False(t, array.Equal(array.NewSlice(rleArray, 0, 29), array.NewSlice(rleArray, 1, 30)))
-
-	// array that is logically the same as our rleArray, but has 2 small
-	// runs for the first value instead of one large run
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	t.Run("logical duplicate", func(t *testing.T) {
-		dupRunEnds, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[5, 10, 20, 30]`))
-		defer dupRunEnds.Release()
-		strValues, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
-			strings.NewReader(`["Hello", "Hello", "World", null]`))
-		defer strValues.Release()
-
-		dupArr := array.NewRunEndEncodedArray(dupRunEnds, strValues, 30, 0)
-		defer dupArr.Release()
-
-		assert.Truef(t, array.Equal(rleArray, dupArr), "expected: %sgot: %s", rleArray, dupArr)
-	})
-
-	t.Run("emptyArr", func(t *testing.T) {
-		emptyRuns, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[]`))
-		emptyVals, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`[]`))
-		defer emptyRuns.Release()
-		defer emptyVals.Release()
-
-		emptyArr := array.NewRunEndEncodedArray(emptyRuns, emptyVals, 0, 0)
-		defer emptyArr.Release()
-
-		dataCopy := emptyArr.Data().(*array.Data).Copy()
-		defer dataCopy.Release()
-		emptyArr2 := array.MakeFromData(dataCopy)
-		defer emptyArr2.Release()
-
-		assert.Truef(t, array.Equal(emptyArr, emptyArr2), "expected: %sgot: %s", emptyArr, emptyArr2)
-	})
-
-	t.Run("different offsets", func(t *testing.T) {
-		// three different slices that have the value [3, 3, 3, 4, 4, 4, 4]
-		offsetsa, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-			strings.NewReader(`[2, 5, 12, 58, 60]`))
-		offsetsb, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-			strings.NewReader(`[81, 86, 99, 100]`))
-		offsetsc, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-			strings.NewReader(`[3, 7]`))
-		valsa, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64,
-			strings.NewReader(`[1, 2, 3, 4, 5]`))
-		valsb, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64,
-			strings.NewReader(`[2, 3, 4, 5]`))
-		valsc, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64,
-			strings.NewReader(`[3, 4]`))
-		defer func() {
-			offsetsa.Release()
-			offsetsb.Release()
-			offsetsc.Release()
-			valsa.Release()
-			valsb.Release()
-			valsc.Release()
-		}()
-
-		differentOffsetsA := array.NewRunEndEncodedArray(offsetsa, valsa, 60, 0)
-		defer differentOffsetsA.Release()
-		differentOffsetsB := array.NewRunEndEncodedArray(offsetsb, valsb, 100, 0)
-		defer differentOffsetsB.Release()
-		differentOffsetsC := array.NewRunEndEncodedArray(offsetsc, valsc, 7, 0)
-		defer differentOffsetsC.Release()
-
-		sliceA := array.NewSlice(differentOffsetsA, 9, 16)
-		defer sliceA.Release()
-		sliceB := array.NewSlice(differentOffsetsB, 83, 90)
-		defer sliceB.Release()
-
-		assert.True(t, array.Equal(sliceA, sliceB))
-		assert.True(t, array.Equal(sliceA, differentOffsetsC))
-		assert.True(t, array.Equal(sliceB, differentOffsetsC))
-	})
-}
-
-func TestRunEndEncodedBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewBuilder(mem, arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String))
-	defer bldr.Release()
-
-	assert.IsType(t, (*array.RunEndEncodedBuilder)(nil), bldr)
-	reeBldr := bldr.(*array.RunEndEncodedBuilder)
-
-	valBldr := reeBldr.ValueBuilder().(*array.StringBuilder)
-
-	reeBldr.Append(100)
-	valBldr.Append("Hello")
-	reeBldr.Append(100)
-	valBldr.Append("beautiful")
-	reeBldr.Append(50)
-	valBldr.Append("world")
-	reeBldr.ContinueRun(50)
-	reeBldr.Append(100)
-	valBldr.Append("of")
-	reeBldr.Append(100)
-	valBldr.Append("RLE")
-	reeBldr.AppendNull()
-
-	rleArray := reeBldr.NewRunEndEncodedArray()
-	defer rleArray.Release()
-
-	assert.EqualValues(t, 501, rleArray.Len())
-	assert.EqualValues(t, 6, rleArray.GetPhysicalLength())
-	assert.Equal(t, arrow.INT16, rleArray.RunEndsArr().DataType().ID())
-	assert.Equal(t, []int16{100, 200, 300, 400, 500, 501}, rleArray.RunEndsArr().(*array.Int16).Int16Values())
-
-	strValues := rleArray.Values().(*array.String)
-	assert.Equal(t, "Hello", strValues.Value(0))
-	assert.Equal(t, "beautiful", strValues.Value(1))
-	assert.Equal(t, "world", strValues.Value(2))
-	assert.Equal(t, "of", strValues.Value(3))
-	assert.Equal(t, "RLE", strValues.Value(4))
-	assert.True(t, strValues.IsNull(5))
-	assert.Equal(t, "Hello", strValues.ValueStr(0))
-}
-
-func TestRunEndEncodedStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewRunEndEncodedBuilder(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)
-	defer b.Release()
-
-	valBldr := b.ValueBuilder().(*array.StringBuilder)
-
-	b.Append(100)
-	valBldr.Append("Hello")
-	b.Append(100)
-	valBldr.Append("beautiful")
-	b.Append(50)
-	valBldr.Append("world")
-	b.ContinueRun(50)
-	b.Append(100)
-	valBldr.Append("of")
-	b.Append(100)
-	valBldr.Append("RLE")
-	b.AppendNull()
-
-	arr := b.NewArray().(*array.RunEndEncoded)
-	defer arr.Release()
-	logical := arr.LogicalValuesArray()
-	defer logical.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewRunEndEncodedBuilder(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.RunEndEncoded)
-	defer arr1.Release()
-	logical1 := arr1.LogicalValuesArray()
-	defer logical1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-	assert.True(t, array.Equal(logical, logical1))
-}
-
-func TestREEBuilderOverflow(t *testing.T) {
-	for _, typ := range []arrow.DataType{arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64} {
-		t.Run("run_ends="+typ.String(), func(t *testing.T) {
-
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			bldr := array.NewRunEndEncodedBuilder(mem, typ, arrow.BinaryTypes.String)
-			defer bldr.Release()
-
-			valBldr := bldr.ValueBuilder().(*array.StringBuilder)
-			assert.Panics(t, func() {
-				valBldr.Append("Foo")
-
-				maxVal := uint64(1<<typ.(arrow.FixedWidthDataType).BitWidth()) - 1
-
-				bldr.Append(uint64(maxVal))
-			})
-		})
-	}
-}
-
-func TestLogicalRunEndsValuesArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewRunEndEncodedBuilder(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)
-	defer bldr.Release()
-
-	valBldr := bldr.ValueBuilder().(*array.StringBuilder)
-	// produces run-ends 1, 2, 4, 6, 10, 1000, 1750, 2000
-	bldr.AppendRuns([]uint64{1, 1, 2, 2, 4, 990, 750, 250})
-	valBldr.AppendValues([]string{"a", "b", "c", "d", "e", "f", "g", "h"}, nil)
-
-	arr := bldr.NewRunEndEncodedArray()
-	defer arr.Release()
-
-	sl := array.NewSlice(arr, 150, 1650)
-	defer sl.Release()
-
-	assert.EqualValues(t, 150, sl.Data().Offset())
-	assert.EqualValues(t, 1500, sl.Len())
-
-	logicalValues := sl.(*array.RunEndEncoded).LogicalValuesArray()
-	defer logicalValues.Release()
-	logicalRunEnds := sl.(*array.RunEndEncoded).LogicalRunEndsArray(mem)
-	defer logicalRunEnds.Release()
-
-	expectedValues, _, err := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["f", "g"]`))
-	require.NoError(t, err)
-	defer expectedValues.Release()
-	expectedRunEnds := []int16{850, 1500}
-
-	assert.Truef(t, array.Equal(logicalValues, expectedValues), "expected: %s\ngot: %s", expectedValues, logicalValues)
-	assert.Equal(t, expectedRunEnds, logicalRunEnds.(*array.Int16).Int16Values())
-}
-
-func TestLogicalRunEndsValuesArrayEmpty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewRunEndEncodedBuilder(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)
-	defer bldr.Release()
-
-	valBldr := bldr.ValueBuilder().(*array.StringBuilder)
-	// produces run-ends 1, 2, 4, 6, 10, 1000, 1750, 2000
-	bldr.AppendRuns([]uint64{1, 1, 2, 2, 4, 990, 750, 250})
-	valBldr.AppendValues([]string{"a", "b", "c", "d", "e", "f", "g", "h"}, nil)
-
-	arr := bldr.NewRunEndEncodedArray()
-	defer arr.Release()
-
-	emptySlice := array.NewSlice(arr, 2000, 2000)
-	defer emptySlice.Release()
-
-	assert.EqualValues(t, 2000, emptySlice.Data().Offset())
-	assert.EqualValues(t, 0, emptySlice.Len())
-
-	logicalValues := emptySlice.(*array.RunEndEncoded).LogicalValuesArray()
-	defer logicalValues.Release()
-	logicalRunEnds := emptySlice.(*array.RunEndEncoded).LogicalRunEndsArray(mem)
-	defer logicalRunEnds.Release()
-
-	assert.Zero(t, logicalValues.Len())
-	assert.Zero(t, logicalRunEnds.Len())
-
-	empty := bldr.NewRunEndEncodedArray()
-	defer empty.Release()
-
-	assert.EqualValues(t, 0, empty.Data().Offset())
-	assert.EqualValues(t, 0, empty.Len())
-
-	logicalValues = empty.LogicalValuesArray()
-	defer logicalValues.Release()
-	logicalRunEnds = empty.LogicalRunEndsArray(mem)
-	defer logicalRunEnds.Release()
-
-	assert.Zero(t, logicalValues.Len())
-	assert.Zero(t, logicalRunEnds.Len())
-}
-
-func TestRunEndEncodedUnmarshalJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewRunEndEncodedBuilder(mem, arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)
-	defer bldr.Release()
-
-	const testJSON = `
-		[ null, "a", "a", "a", "b", "b", "b", null, null, "c", "d", "d", "d", null, null, null, "e", "e"]`
-
-	require.NoError(t, json.Unmarshal([]byte(testJSON), bldr))
-	arr := bldr.NewRunEndEncodedArray()
-	defer arr.Release()
-
-	expectedValues, _, err := array.FromJSON(mem, arrow.BinaryTypes.String,
-		strings.NewReader(`[null, "a", "b", null, "c", "d", null, "e"]`))
-	require.NoError(t, err)
-	defer expectedValues.Release()
-
-	assert.EqualValues(t, 18, arr.Len())
-	assert.Equal(t, []int16{1, 4, 7, 9, 10, 13, 16, 18}, arr.RunEndsArr().(*array.Int16).Int16Values())
-	logicalValues := arr.LogicalValuesArray()
-	defer logicalValues.Release()
-
-	assert.Truef(t, array.Equal(logicalValues, expectedValues), "expected: %s\ngot: %s", expectedValues, logicalValues)
-}
-
-func TestRunEndEncodedUnmarshalNestedJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewRunEndEncodedBuilder(mem, arrow.PrimitiveTypes.Int16,
-		arrow.ListOf(arrow.PrimitiveTypes.Int32))
-	defer bldr.Release()
-
-	const testJSON = `
-		[null, [1, 2, 3], [1, 2, 3], [1, 2, 3], [1, null, 3], [4, 5, null], null, null,
-		[4, 5, null], [4, 5, null], [4, 5, null]]
-	`
-
-	require.NoError(t, json.Unmarshal([]byte(testJSON), bldr))
-	arr := bldr.NewRunEndEncodedArray()
-	defer arr.Release()
-
-	assert.EqualValues(t, 11, arr.Len())
-	assert.Equal(t, []int16{1, 4, 5, 6, 8, 11}, arr.RunEndsArr().(*array.Int16).Int16Values())
-
-	expectedValues, _, err := array.FromJSON(mem, arrow.ListOf(arrow.PrimitiveTypes.Int32),
-		strings.NewReader(`[null, [1, 2, 3], [1, null, 3], [4, 5, null], null, [4, 5, null]]`))
-	require.NoError(t, err)
-	defer expectedValues.Release()
-
-	logicalValues := arr.LogicalValuesArray()
-	defer logicalValues.Release()
-
-	assert.Truef(t, array.Equal(logicalValues, expectedValues), "expected: %s\ngot: %s", expectedValues, logicalValues)
-}
diff --git a/go/arrow/array/extension.go b/go/arrow/array/extension.go
deleted file mode 100644
index 8c4ef840cb72c..0000000000000
--- a/go/arrow/array/extension.go
+++ /dev/null
@@ -1,244 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// ExtensionArray is the interface that needs to be implemented to handle
-// user-defined extension type arrays. In order to ensure consistency and
-// proper behavior, all ExtensionArray types must embed ExtensionArrayBase
-// in order to meet the interface which provides the default implementation
-// and handling for the array while allowing custom behavior to be built
-// on top of it.
-type ExtensionArray interface {
-	arrow.Array
-	// ExtensionType returns the datatype as per calling DataType(), but
-	// already cast to ExtensionType
-	ExtensionType() arrow.ExtensionType
-	// Storage returns the underlying storage array for this array.
-	Storage() arrow.Array
-	// by having a non-exported function in the interface, it means that
-	// consumers must embed ExtensionArrayBase in their structs in order
-	// to fulfill this interface.
-	mustEmbedExtensionArrayBase()
-}
-
-// two extension arrays are equal if their data types are equal and
-// their underlying storage arrays are equal.
-func arrayEqualExtension(l, r ExtensionArray) bool {
-	if !arrow.TypeEqual(l.DataType(), r.DataType()) {
-		return false
-	}
-
-	return Equal(l.Storage(), r.Storage())
-}
-
-// two extension arrays are approximately equal if their data types are
-// equal and their underlying storage arrays are approximately equal.
-func arrayApproxEqualExtension(l, r ExtensionArray, opt equalOption) bool {
-	if !arrow.TypeEqual(l.DataType(), r.DataType()) {
-		return false
-	}
-
-	return arrayApproxEqual(l.Storage(), r.Storage(), opt)
-}
-
-// NewExtensionArrayWithStorage constructs a new ExtensionArray from the provided
-// ExtensionType and uses the provided storage interface as the underlying storage.
-// This will not release the storage array passed in so consumers should call Release
-// on it manually while the new Extension array will share references to the underlying
-// Data buffers.
-func NewExtensionArrayWithStorage(dt arrow.ExtensionType, storage arrow.Array) arrow.Array {
-	if !arrow.TypeEqual(dt.StorageType(), storage.DataType()) {
-		panic(fmt.Errorf("arrow/array: storage type %s for extension type %s, does not match expected type %s", storage.DataType(), dt.ExtensionName(), dt.StorageType()))
-	}
-
-	storageData := storage.Data().(*Data)
-	// create a new data instance with the ExtensionType as the datatype but referencing the
-	// same underlying buffers to share them with the storage array.
-	data := NewData(dt, storageData.length, storageData.buffers, storageData.childData, storageData.nulls, storageData.offset)
-	defer data.Release()
-	return NewExtensionData(data)
-}
-
-// NewExtensionData expects a data with a datatype of arrow.ExtensionType and
-// underlying data built for the storage array.
-func NewExtensionData(data arrow.ArrayData) ExtensionArray {
-	base := ExtensionArrayBase{}
-	base.refCount = 1
-	base.setData(data.(*Data))
-
-	// use the ExtensionType's ArrayType to construct the correctly typed object
-	// to use as the ExtensionArray interface. reflect.New returns a pointer to
-	// the newly created object.
-	arr := reflect.New(base.ExtensionType().ArrayType())
-	// set the embedded ExtensionArrayBase to the value we created above. We know
-	// that this field will exist because the interface requires embedding ExtensionArrayBase
-	// so we don't have to separately check, this will panic if called on an ArrayType
-	// that doesn't embed ExtensionArrayBase which is what we want.
-	arr.Elem().FieldByName("ExtensionArrayBase").Set(reflect.ValueOf(base))
-	return arr.Interface().(ExtensionArray)
-}
-
-// ExtensionArrayBase is the base struct for user-defined Extension Array types
-// and must be embedded in any user-defined extension arrays like so:
-//
-//	type UserDefinedArray struct {
-//	    array.ExtensionArrayBase
-//	}
-type ExtensionArrayBase struct {
-	array
-	storage arrow.Array
-}
-
-func (e *ExtensionArrayBase) String() string {
-	return fmt.Sprintf("(%s)%s", e.data.dtype, e.storage)
-}
-
-func (e *ExtensionArrayBase) GetOneForMarshal(i int) interface{} {
-	return e.storage.GetOneForMarshal(i)
-}
-
-func (e *ExtensionArrayBase) MarshalJSON() ([]byte, error) {
-	return json.Marshal(e.storage)
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (e *ExtensionArrayBase) Retain() {
-	e.array.Retain()
-	e.storage.Retain()
-}
-
-// Release decreases the reference count by 1.
-// Release may be called simultaneously from multiple goroutines.
-// When the reference count goes to zero, the memory is freed.
-func (e *ExtensionArrayBase) Release() {
-	e.array.Release()
-	e.storage.Release()
-}
-
-// Storage returns the underlying storage array
-func (e *ExtensionArrayBase) Storage() arrow.Array { return e.storage }
-
-// ExtensionType returns the same thing as DataType, just already casted
-// to an ExtensionType interface for convenience.
-func (e *ExtensionArrayBase) ExtensionType() arrow.ExtensionType {
-	return e.DataType().(arrow.ExtensionType)
-}
-
-func (e *ExtensionArrayBase) setData(data *Data) {
-	if data.DataType().ID() != arrow.EXTENSION {
-		panic("arrow/array: must use extension type to construct an extension array")
-	}
-	extType, ok := data.dtype.(arrow.ExtensionType)
-	if !ok {
-		panic("arrow/array: DataType for ExtensionArray must implement arrow.ExtensionType")
-	}
-
-	e.array.setData(data)
-	// our underlying storage needs to reference the same data buffers (no copying)
-	// but should have the storage type's datatype, so we create a Data for it.
-	storageData := NewData(extType.StorageType(), data.length, data.buffers, data.childData, data.nulls, data.offset)
-	storageData.SetDictionary(data.dictionary)
-	defer storageData.Release()
-	e.storage = MakeFromData(storageData)
-}
-
-// ValueStr returns the value at index i as a string.
-// This needs to be implemented by the extension array type.
-func (e *ExtensionArrayBase) ValueStr(i int) string {
-	panic("arrow/array: ValueStr wasn't implemented by this extension array type")
-}
-
-// no-op function that exists simply to force embedding this in any extension array types.
-func (ExtensionArrayBase) mustEmbedExtensionArrayBase() {}
-
-// ExtensionBuilder is a convenience builder so that NewBuilder and such will still work
-// with extension types properly. Depending on preference it may be cleaner or easier to just use
-// NewExtensionArrayWithStorage and pass a storage array.
-//
-// That said, this allows easily building an extension array by providing the extension
-// type and retrieving the storage builder.
-type ExtensionBuilder struct {
-	Builder
-	dt arrow.ExtensionType
-}
-
-// NewExtensionBuilder returns a builder using the provided memory allocator for the desired
-// extension type. It will internally construct a builder of the storage type for the extension
-// type and keep a copy of the extension type. The underlying type builder can then be retrieved
-// by calling `StorageBuilder` on this and then type asserting it to the desired builder type.
-//
-// After using the storage builder, calling NewArray or NewExtensionArray will construct
-// the appropriate extension array type and set the storage correctly, resetting the builder for
-// reuse.
-//
-// # Example
-//
-// Simple example assuming an extension type of a UUID defined as a FixedSizeBinary(16) was registered
-// using the type name "uuid":
-//
-//	uuidType := arrow.GetExtensionType("uuid")
-//	bldr := array.NewExtensionBuilder(memory.DefaultAllocator, uuidType)
-//	defer bldr.Release()
-//	uuidBldr := bldr.StorageBuilder().(*array.FixedSizeBinaryBuilder)
-//	/* build up the fixed size binary array as usual via Append/AppendValues */
-//	uuidArr := bldr.NewExtensionArray()
-//	defer uuidArr.Release()
-//
-// Because the storage builder is embedded in the Extension builder it also means
-// that any of the functions available on the Builder interface can be called on
-// an instance of ExtensionBuilder and will respond appropriately as the storage
-// builder would for generically grabbing the Lenth, Cap, Nulls, reserving, etc.
-func NewExtensionBuilder(mem memory.Allocator, dt arrow.ExtensionType) *ExtensionBuilder {
-	return &ExtensionBuilder{Builder: NewBuilder(mem, dt.StorageType()), dt: dt}
-}
-
-func (b *ExtensionBuilder) Type() arrow.DataType { return b.dt }
-
-// StorageBuilder returns the builder for the underlying storage type.
-func (b *ExtensionBuilder) StorageBuilder() Builder { return b.Builder }
-
-// NewArray creates a new array from the memory buffers used by the builder
-// and resets the builder so it can be used to build a new array.
-func (b *ExtensionBuilder) NewArray() arrow.Array {
-	return b.NewExtensionArray()
-}
-
-// NewExtensionArray creates an Extension array from the memory buffers used
-// by the builder and resets the ExtensionBuilder so it can be used to build
-// a new ExtensionArray of the same type.
-func (b *ExtensionBuilder) NewExtensionArray() ExtensionArray {
-	storage := b.Builder.NewArray()
-	defer storage.Release()
-
-	storage.Data().(*Data).dtype = b.dt
-	return NewExtensionData(storage.Data())
-}
-
-var (
-	_ arrow.Array = (ExtensionArray)(nil)
-	_ Builder     = (*ExtensionBuilder)(nil)
-)
diff --git a/go/arrow/array/extension_builder.go b/go/arrow/array/extension_builder.go
deleted file mode 100644
index 9c2ee88056438..0000000000000
--- a/go/arrow/array/extension_builder.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import "github.com/apache/arrow/go/v18/arrow/memory"
-
-// CustomExtensionBuilder is an interface that custom extension types may implement to provide a custom builder
-// instead of the underlying storage type's builder when array.NewBuilder is called with that type.
-type CustomExtensionBuilder interface {
-	NewBuilder(memory.Allocator) Builder
-}
diff --git a/go/arrow/array/extension_test.go b/go/arrow/array/extension_test.go
deleted file mode 100644
index 26245cf015dec..0000000000000
--- a/go/arrow/array/extension_test.go
+++ /dev/null
@@ -1,86 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/stretchr/testify/suite"
-)
-
-type ExtensionTypeTestSuite struct {
-	suite.Suite
-}
-
-func (e *ExtensionTypeTestSuite) TestParametricEquals() {
-	p1Type := types.NewParametric1Type(6)
-	p2Type := types.NewParametric1Type(6)
-	p3Type := types.NewParametric1Type(3)
-
-	e.True(arrow.TypeEqual(p1Type, p2Type))
-	e.False(arrow.TypeEqual(p1Type, p3Type))
-}
-
-func exampleParametric(mem memory.Allocator, dt arrow.DataType, vals []int32, valid []bool) arrow.Array {
-	bldr := array.NewBuilder(mem, dt)
-	defer bldr.Release()
-
-	exb := bldr.(*array.ExtensionBuilder)
-	sb := exb.StorageBuilder().(*array.Int32Builder)
-	sb.AppendValues(vals, valid)
-
-	return bldr.NewArray()
-}
-
-func (e *ExtensionTypeTestSuite) TestParametricArrays() {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(e.T(), 0)
-
-	p1Type := types.NewParametric1Type(6)
-	p1 := exampleParametric(pool, p1Type, []int32{-1, 1, 2, 3}, []bool{false, true, true, true})
-	defer p1.Release()
-
-	p2Type := types.NewParametric1Type(12)
-	p2 := exampleParametric(pool, p2Type, []int32{2, -1, 3, 4}, []bool{true, false, true, true})
-	defer p2.Release()
-
-	p3Type := types.NewParametric2Type(2)
-	p3 := exampleParametric(pool, p3Type, []int32{5, 6, 7, 8}, nil)
-	defer p3.Release()
-
-	p4Type := types.NewParametric2Type(3)
-	p4 := exampleParametric(pool, p4Type, []int32{5, 6, 7, 9}, nil)
-	defer p4.Release()
-
-	rb := array.NewRecord(arrow.NewSchema([]arrow.Field{
-		{Name: "f0", Type: p1Type, Nullable: true},
-		{Name: "f1", Type: p2Type, Nullable: true},
-		{Name: "f2", Type: p3Type, Nullable: true},
-		{Name: "f3", Type: p4Type, Nullable: true},
-	}, nil), []arrow.Array{p1, p2, p3, p4}, -1)
-	defer rb.Release()
-
-	e.True(array.RecordEqual(rb, rb))
-}
-
-func TestExtensionTypes(t *testing.T) {
-	suite.Run(t, new(ExtensionTypeTestSuite))
-}
diff --git a/go/arrow/array/fixed_size_list.go b/go/arrow/array/fixed_size_list.go
deleted file mode 100644
index a0eefd460c2bf..0000000000000
--- a/go/arrow/array/fixed_size_list.go
+++ /dev/null
@@ -1,385 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// FixedSizeList represents an immutable sequence of N array values.
-type FixedSizeList struct {
-	array
-	n      int32
-	values arrow.Array
-}
-
-var _ ListLike = (*FixedSizeList)(nil)
-
-// NewFixedSizeListData returns a new List array value, from data.
-func NewFixedSizeListData(data arrow.ArrayData) *FixedSizeList {
-	a := &FixedSizeList{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *FixedSizeList) ListValues() arrow.Array { return a.values }
-
-func (a *FixedSizeList) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return string(a.GetOneForMarshal(i).(json.RawMessage))
-}
-func (a *FixedSizeList) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		if !a.IsValid(i) {
-			o.WriteString(NullValueStr)
-			continue
-		}
-		sub := a.newListValue(i)
-		fmt.Fprintf(o, "%v", sub)
-		sub.Release()
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *FixedSizeList) newListValue(i int) arrow.Array {
-	beg, end := a.ValueOffsets(i)
-	return NewSlice(a.values, beg, end)
-}
-
-func (a *FixedSizeList) setData(data *Data) {
-	a.array.setData(data)
-	a.n = a.DataType().(*arrow.FixedSizeListType).Len()
-	a.values = MakeFromData(data.childData[0])
-}
-
-func arrayEqualFixedSizeList(left, right *FixedSizeList) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return Equal(l, r)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-// Len returns the number of elements in the array.
-func (a *FixedSizeList) Len() int { return a.array.Len() }
-
-func (a *FixedSizeList) ValueOffsets(i int) (start, end int64) {
-	n := int64(a.n)
-	off := int64(a.array.data.offset)
-	start, end = (off+int64(i))*n, (off+int64(i+1))*n
-	return
-}
-
-func (a *FixedSizeList) Retain() {
-	a.array.Retain()
-	a.values.Retain()
-}
-
-func (a *FixedSizeList) Release() {
-	a.array.Release()
-	a.values.Release()
-}
-
-func (a *FixedSizeList) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	slice := a.newListValue(i)
-	defer slice.Release()
-	v, err := json.Marshal(slice)
-	if err != nil {
-		panic(err)
-	}
-
-	return json.RawMessage(v)
-}
-
-func (a *FixedSizeList) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if a.IsNull(i) {
-			enc.Encode(nil)
-			continue
-		}
-
-		slice := a.newListValue(i)
-		if err := enc.Encode(slice); err != nil {
-			return nil, err
-		}
-		slice.Release()
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-type FixedSizeListBuilder struct {
-	baseListBuilder
-	n int32 // number of elements in the fixed-size list.
-}
-
-// NewFixedSizeListBuilder returns a builder, using the provided memory allocator.
-// The created list builder will create a list whose elements will be of type etype.
-func NewFixedSizeListBuilder(mem memory.Allocator, n int32, etype arrow.DataType) *FixedSizeListBuilder {
-	return &FixedSizeListBuilder{
-		baseListBuilder{
-			builder: builder{refCount: 1, mem: mem},
-			values:  NewBuilder(mem, etype),
-			dt:      arrow.FixedSizeListOf(n, etype),
-		},
-		n,
-	}
-}
-
-// NewFixedSizeListBuilderWithField returns a builder similarly to
-// NewFixedSizeListBuilder, but it accepts a child rather than just a datatype
-// to ensure nullability context is preserved.
-func NewFixedSizeListBuilderWithField(mem memory.Allocator, n int32, field arrow.Field) *FixedSizeListBuilder {
-	return &FixedSizeListBuilder{
-		baseListBuilder{
-			builder: builder{refCount: 1, mem: mem},
-			values:  NewBuilder(mem, field.Type),
-			dt:      arrow.FixedSizeListOfField(n, field),
-		},
-		n,
-	}
-}
-
-func (b *FixedSizeListBuilder) Type() arrow.DataType { return b.dt }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *FixedSizeListBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.values != nil {
-			b.values.Release()
-			b.values = nil
-		}
-	}
-}
-
-func (b *FixedSizeListBuilder) Append(v bool) {
-	b.Reserve(1)
-	b.unsafeAppendBoolToBitmap(v)
-}
-
-// AppendNull will append null values to the underlying values by itself
-func (b *FixedSizeListBuilder) AppendNull() {
-	b.Reserve(1)
-	b.unsafeAppendBoolToBitmap(false)
-	// require to append this due to value indexes
-	for i := int32(0); i < b.n; i++ {
-		b.values.AppendNull()
-	}
-}
-
-// AppendNulls will append n null values to the underlying values by itself
-func (b *FixedSizeListBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *FixedSizeListBuilder) AppendEmptyValue() {
-	b.Append(true)
-	for i := int32(0); i < b.n; i++ {
-		b.values.AppendEmptyValue()
-	}
-}
-
-func (b *FixedSizeListBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *FixedSizeListBuilder) AppendValues(valid []bool) {
-	b.Reserve(len(valid))
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(valid))
-}
-
-func (b *FixedSizeListBuilder) unsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-func (b *FixedSizeListBuilder) init(capacity int) {
-	b.builder.init(capacity)
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *FixedSizeListBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *FixedSizeListBuilder) Resize(n int) {
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(n, b.builder.init)
-	}
-}
-
-func (b *FixedSizeListBuilder) ValueBuilder() Builder {
-	return b.values
-}
-
-// NewArray creates a List array from the memory buffers used by the builder and resets the FixedSizeListBuilder
-// so it can be used to build a new array.
-func (b *FixedSizeListBuilder) NewArray() arrow.Array {
-	return b.NewListArray()
-}
-
-// NewListArray creates a List array from the memory buffers used by the builder and resets the FixedSizeListBuilder
-// so it can be used to build a new array.
-func (b *FixedSizeListBuilder) NewListArray() (a *FixedSizeList) {
-	data := b.newData()
-	a = NewFixedSizeListData(data)
-	data.Release()
-	return
-}
-
-func (b *FixedSizeListBuilder) newData() (data *Data) {
-	values := b.values.NewArray()
-	defer values.Release()
-
-	data = NewData(
-		b.dt, b.length,
-		[]*memory.Buffer{b.nullBitmap},
-		[]arrow.ArrayData{values.Data()},
-		b.nulls,
-		0,
-	)
-	b.reset()
-
-	return
-}
-
-func (b *FixedSizeListBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	dec := json.NewDecoder(strings.NewReader(s))
-	return b.UnmarshalOne(dec)
-}
-
-func (b *FixedSizeListBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t {
-	case json.Delim('['):
-		b.Append(true)
-		if err := b.values.Unmarshal(dec); err != nil {
-			return err
-		}
-		// consume ']'
-		_, err := dec.Token()
-		return err
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Struct: b.dt.String(),
-		}
-	}
-
-	return nil
-}
-
-func (b *FixedSizeListBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *FixedSizeListBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("fixed size list builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*FixedSizeList)(nil)
-	_ Builder     = (*FixedSizeListBuilder)(nil)
-)
diff --git a/go/arrow/array/fixed_size_list_test.go b/go/arrow/array/fixed_size_list_test.go
deleted file mode 100644
index e0edb9868cffd..0000000000000
--- a/go/arrow/array/fixed_size_list_test.go
+++ /dev/null
@@ -1,257 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFixedSizeListArray(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		vs      = []int32{0, 1, 2, 3, 4, 5, 6}
-		lengths = []int{3, 0, 4}
-		isValid = []bool{true, false, true}
-	)
-
-	lb := array.NewFixedSizeListBuilder(pool, int32(len(vs)), arrow.PrimitiveTypes.Int32)
-	defer lb.Release()
-
-	for i := 0; i < 10; i++ {
-		vb := lb.ValueBuilder().(*array.Int32Builder)
-		vb.Reserve(len(vs))
-
-		pos := 0
-		for i, length := range lengths {
-			lb.Append(isValid[i])
-			for j := 0; j < length; j++ {
-				vb.Append(vs[pos])
-				pos++
-			}
-		}
-
-		arr := lb.NewArray().(*array.FixedSizeList)
-		defer arr.Release()
-
-		arr.Retain()
-		arr.Release()
-
-		if got, want := arr.DataType().ID(), arrow.FIXED_SIZE_LIST; got != want {
-			t.Fatalf("got=%v, want=%v", got, want)
-		}
-
-		if got, want := arr.Len(), len(isValid); got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-
-		for i := range lengths {
-			if got, want := arr.IsValid(i), isValid[i]; got != want {
-				t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-			}
-			if got, want := arr.IsNull(i), lengths[i] == 0; got != want {
-				t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-			}
-		}
-
-		varr := arr.ListValues().(*array.Int32)
-		if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-			t.Fatalf("got=%v, want=%v", got, want)
-		}
-	}
-}
-
-func TestFixedSizeListArrayEmpty(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	lb := array.NewFixedSizeListBuilder(pool, 3, arrow.PrimitiveTypes.Int32)
-	defer lb.Release()
-	arr := lb.NewArray().(*array.FixedSizeList)
-	defer arr.Release()
-	if got, want := arr.Len(), 0; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-}
-
-func TestFixedSizeListArrayBulkAppend(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		vs      = []int32{0, 1, 2, 3, 4, 5, 6}
-		lengths = []int{3, 0, 4}
-		isValid = []bool{true, false, true}
-	)
-
-	lb := array.NewFixedSizeListBuilder(pool, int32(len(vs)), arrow.PrimitiveTypes.Int32)
-	defer lb.Release()
-	vb := lb.ValueBuilder().(*array.Int32Builder)
-	vb.Reserve(len(vs))
-
-	lb.AppendValues(isValid)
-	for _, v := range vs {
-		vb.Append(v)
-	}
-
-	arr := lb.NewArray().(*array.FixedSizeList)
-	defer arr.Release()
-
-	if got, want := arr.DataType().ID(), arrow.FIXED_SIZE_LIST; got != want {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	if got, want := arr.Len(), len(isValid); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	for i := range lengths {
-		if got, want := arr.IsValid(i), isValid[i]; got != want {
-			t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-		}
-		if got, want := arr.IsNull(i), lengths[i] == 0; got != want {
-			t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-		}
-	}
-
-	varr := arr.ListValues().(*array.Int32)
-	if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestFixedSizeListArrayStringer(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const N = 3
-	var (
-		vs      = [][N]int32{{0, 1, 2}, {3, 4, 5}, {6, 7, 8}, {9, -9, -8}}
-		isValid = []bool{true, false, true, true}
-	)
-
-	lb := array.NewFixedSizeListBuilder(pool, N, arrow.PrimitiveTypes.Int32)
-	defer lb.Release()
-
-	vb := lb.ValueBuilder().(*array.Int32Builder)
-	vb.Reserve(len(vs))
-
-	for i, v := range vs {
-		lb.Append(isValid[i])
-		vb.AppendValues(v[:], nil)
-	}
-
-	arr := lb.NewArray().(*array.FixedSizeList)
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	want := `[[0 1 2] (null) [6 7 8] [9 -9 -8]]`
-	if got, want := arr.String(), want; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-	assert.Equal(t, "[0,1,2]", arr.ValueStr(0))
-	assert.Equal(t, array.NullValueStr, arr.ValueStr(1))
-}
-
-func TestFixedSizeListArraySlice(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const N = 3
-	var (
-		vs      = [][N]int32{{0, 1, 2}, {3, 4, 5}, {6, 7, 8}, {9, -9, -8}}
-		isValid = []bool{true, false, true, true}
-	)
-
-	lb := array.NewFixedSizeListBuilder(pool, N, arrow.PrimitiveTypes.Int32)
-	defer lb.Release()
-
-	vb := lb.ValueBuilder().(*array.Int32Builder)
-	vb.Reserve(len(vs))
-
-	for i, v := range vs {
-		lb.Append(isValid[i])
-		vb.AppendValues(v[:], nil)
-	}
-
-	arr := lb.NewArray().(*array.FixedSizeList)
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	want := `[[0 1 2] (null) [6 7 8] [9 -9 -8]]`
-	if got, want := arr.String(), want; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	sub := array.NewSlice(arr, 1, 3).(*array.FixedSizeList)
-	defer sub.Release()
-
-	want = `[(null) [6 7 8]]`
-	if got, want := sub.String(), want; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-}
-
-func TestFixedSizeListStringRoundTrip(t *testing.T) {
-	// 1. create array
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const N = 3
-	var (
-		values = [][N]int32{{0, 1, 2}, {3, 4, 5}, {6, 7, 8}, {9, -9, -8}}
-		valid  = []bool{true, false, true, true}
-	)
-
-	b := array.NewFixedSizeListBuilder(pool, N, arrow.PrimitiveTypes.Int32)
-	defer b.Release()
-
-	vb := b.ValueBuilder().(*array.Int32Builder)
-	vb.Reserve(len(values))
-
-	for i, v := range values {
-		b.Append(valid[i])
-		vb.AppendValues(v[:], nil)
-	}
-
-	arr := b.NewArray().(*array.FixedSizeList)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewFixedSizeListBuilder(pool, N, arrow.PrimitiveTypes.Int32)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.FixedSizeList)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
diff --git a/go/arrow/array/fixedsize_binary.go b/go/arrow/array/fixedsize_binary.go
deleted file mode 100644
index f4d16c6386d60..0000000000000
--- a/go/arrow/array/fixedsize_binary.go
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"encoding/base64"
-	"fmt"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A type which represents an immutable sequence of fixed-length binary strings.
-type FixedSizeBinary struct {
-	array
-
-	valueBytes []byte
-	bytewidth  int32
-}
-
-// NewFixedSizeBinaryData constructs a new fixed-size binary array from data.
-func NewFixedSizeBinaryData(data arrow.ArrayData) *FixedSizeBinary {
-	a := &FixedSizeBinary{bytewidth: int32(data.DataType().(arrow.FixedWidthDataType).BitWidth() / 8)}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Value returns the fixed-size slice at index i. This value should not be mutated.
-func (a *FixedSizeBinary) Value(i int) []byte {
-	i += a.array.data.offset
-	var (
-		bw  = int(a.bytewidth)
-		beg = i * bw
-		end = (i + 1) * bw
-	)
-	return a.valueBytes[beg:end]
-}
-func (a *FixedSizeBinary) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return base64.StdEncoding.EncodeToString(a.Value(i))
-}
-
-func (a *FixedSizeBinary) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%q", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *FixedSizeBinary) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.valueBytes = vals.Bytes()
-	}
-
-}
-
-func (a *FixedSizeBinary) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.Value(i)
-}
-
-func (a *FixedSizeBinary) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.Value(i)
-		} else {
-			vals[i] = nil
-		}
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualFixedSizeBinary(left, right *FixedSizeBinary) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !bytes.Equal(left.Value(i), right.Value(i)) {
-			return false
-		}
-	}
-	return true
-}
-
-var (
-	_ arrow.Array = (*FixedSizeBinary)(nil)
-)
diff --git a/go/arrow/array/fixedsize_binary_test.go b/go/arrow/array/fixedsize_binary_test.go
deleted file mode 100644
index 4a32cb9692a06..0000000000000
--- a/go/arrow/array/fixedsize_binary_test.go
+++ /dev/null
@@ -1,189 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestFixedSizeBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := arrow.FixedSizeBinaryType{ByteWidth: 7}
-	b := array.NewFixedSizeBinaryBuilder(mem, &dtype)
-
-	zero := make([]byte, dtype.ByteWidth)
-
-	values := [][]byte{
-		[]byte("7654321"),
-		nil,
-		[]byte("AZERTYU"),
-	}
-	valid := []bool{true, false, true}
-	b.AppendValues(values, valid)
-	// encoded abcdefg base64
-	assert.NoError(t, b.AppendValueFromString("YWJjZGVmZw=="))
-
-	b.Retain()
-	b.Release()
-
-	a := b.NewFixedSizeBinaryArray()
-	assert.Equal(t, 4, a.Len())
-	assert.Equal(t, 1, a.NullN())
-	assert.Equal(t, []byte("7654321"), a.Value(0))
-	assert.Equal(t, "YWJjZGVmZw==", a.ValueStr(3))
-	assert.Equal(t, zero, a.Value(1))
-	assert.Equal(t, true, a.IsNull(1))
-	assert.Equal(t, false, a.IsValid(1))
-	assert.Equal(t, []byte("AZERTYU"), a.Value(2))
-	a.Release()
-
-	// Test builder reset and NewArray API.
-	b.AppendValues(values, valid)
-	a = b.NewArray().(*array.FixedSizeBinary)
-	assert.Equal(t, 3, a.Len())
-	assert.Equal(t, 1, a.NullN())
-	assert.Equal(t, []byte("7654321"), a.Value(0))
-	assert.Equal(t, zero, a.Value(1))
-	assert.Equal(t, []byte("AZERTYU"), a.Value(2))
-	a.Release()
-
-	b.Release()
-}
-
-func TestFixedSizeBinarySlice(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.FixedSizeBinaryType{ByteWidth: 4}
-	b := array.NewFixedSizeBinaryBuilder(mem, dtype)
-	defer b.Release()
-
-	var data = [][]byte{
-		[]byte("ABCD"),
-		[]byte("1234"),
-		nil,
-		[]byte("AZER"),
-	}
-	b.AppendValues(data[:2], nil)
-	b.AppendNull()
-	b.Append(data[3])
-
-	arr := b.NewFixedSizeBinaryArray()
-	defer arr.Release()
-
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.FixedSizeBinary)
-	if !ok {
-		t.Fatalf("could not type-assert to array.String")
-	}
-
-	if got, want := v.String(), `[(null) "AZER"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if got, want := v.NullN(), 1; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-}
-
-func TestFixedSizeBinary_MarshalUnmarshalJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.FixedSizeBinaryType{ByteWidth: 4}
-	b := array.NewFixedSizeBinaryBuilder(mem, dtype)
-	defer b.Release()
-
-	var data = [][]byte{
-		[]byte("ABCD"),
-		[]byte("1234"),
-		nil,
-		[]byte("AZER"),
-	}
-	b.AppendValues(data[:2], nil)
-	b.AppendNull()
-	b.Append(data[3])
-
-	arr := b.NewFixedSizeBinaryArray()
-	defer arr.Release()
-
-	jsonBytes, err := arr.MarshalJSON()
-	if err != nil {
-		t.Fatalf("failed to marshal json: %v", err)
-	}
-
-	err = b.UnmarshalJSON(jsonBytes)
-	if err != nil {
-		t.Fatalf("failed to unmarshal json: %v", err)
-	}
-	gotArr := b.NewFixedSizeBinaryArray()
-	defer gotArr.Release()
-
-	gotString := gotArr.String()
-	wantString := arr.String()
-	if gotString != wantString {
-		t.Fatalf("got=%q, want=%q", gotString, wantString)
-	}
-}
-
-func TestFixedSizeBinaryStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.FixedSizeBinaryType{ByteWidth: 7}
-	b := array.NewFixedSizeBinaryBuilder(mem, dt)
-
-	values := [][]byte{
-		[]byte("7654321"),
-		nil,
-		[]byte("AZERTYU"),
-	}
-	valid := []bool{true, false, true}
-	b.AppendValues(values, valid)
-	// encoded abcdefg base64
-	assert.NoError(t, b.AppendValueFromString("YWJjZGVmZw=="))
-
-	arr := b.NewArray().(*array.FixedSizeBinary)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewFixedSizeBinaryBuilder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.FixedSizeBinary)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
diff --git a/go/arrow/array/fixedsize_binarybuilder.go b/go/arrow/array/fixedsize_binarybuilder.go
deleted file mode 100644
index 96d58632ab8c8..0000000000000
--- a/go/arrow/array/fixedsize_binarybuilder.go
+++ /dev/null
@@ -1,261 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"encoding/base64"
-	"fmt"
-	"reflect"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A FixedSizeBinaryBuilder is used to build a FixedSizeBinary array using the Append methods.
-type FixedSizeBinaryBuilder struct {
-	builder
-
-	dtype  *arrow.FixedSizeBinaryType
-	values *byteBufferBuilder
-}
-
-func NewFixedSizeBinaryBuilder(mem memory.Allocator, dtype *arrow.FixedSizeBinaryType) *FixedSizeBinaryBuilder {
-	b := &FixedSizeBinaryBuilder{
-		builder: builder{refCount: 1, mem: mem},
-		dtype:   dtype,
-		values:  newByteBufferBuilder(mem),
-	}
-	return b
-}
-
-func (b *FixedSizeBinaryBuilder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (b *FixedSizeBinaryBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.values != nil {
-			b.values.Release()
-			b.values = nil
-		}
-	}
-}
-
-func (b *FixedSizeBinaryBuilder) Append(v []byte) {
-	if len(v) != b.dtype.ByteWidth {
-		// TODO(alexandre): should we return an error instead?
-		panic("len(v) != b.dtype.ByteWidth")
-	}
-
-	b.Reserve(1)
-	b.values.Append(v)
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *FixedSizeBinaryBuilder) AppendNull() {
-	b.Reserve(1)
-	b.values.Advance(b.dtype.ByteWidth)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *FixedSizeBinaryBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *FixedSizeBinaryBuilder) AppendEmptyValue() {
-	b.Reserve(1)
-	b.values.Advance(b.dtype.ByteWidth)
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-func (b *FixedSizeBinaryBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *FixedSizeBinaryBuilder) UnsafeAppend(v []byte) {
-	b.values.unsafeAppend(v)
-	b.UnsafeAppendBoolToBitmap(true)
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *FixedSizeBinaryBuilder) AppendValues(v [][]byte, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	for _, vv := range v {
-		switch len(vv) {
-		case 0:
-			b.values.Advance(b.dtype.ByteWidth)
-		case b.dtype.ByteWidth:
-			b.values.Append(vv)
-		default:
-			panic(fmt.Errorf("array: invalid binary length (got=%d, want=%d)", len(vv), b.dtype.ByteWidth))
-		}
-	}
-
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *FixedSizeBinaryBuilder) init(capacity int) {
-	b.builder.init(capacity)
-	b.values.resize(capacity * b.dtype.ByteWidth)
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *FixedSizeBinaryBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *FixedSizeBinaryBuilder) Resize(n int) {
-	b.builder.resize(n, b.init)
-}
-
-// NewArray creates a FixedSizeBinary array from the memory buffers used by the
-// builder and resets the FixedSizeBinaryBuilder so it can be used to build a new array.
-func (b *FixedSizeBinaryBuilder) NewArray() arrow.Array {
-	return b.NewFixedSizeBinaryArray()
-}
-
-// NewFixedSizeBinaryArray creates a FixedSizeBinary array from the memory buffers used by the builder and resets the FixedSizeBinaryBuilder
-// so it can be used to build a new array.
-func (b *FixedSizeBinaryBuilder) NewFixedSizeBinaryArray() (a *FixedSizeBinary) {
-	data := b.newData()
-	a = NewFixedSizeBinaryData(data)
-	data.Release()
-	return
-}
-
-func (b *FixedSizeBinaryBuilder) newData() (data *Data) {
-	values := b.values.Finish()
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, values}, nil, b.nulls, 0)
-
-	if values != nil {
-		values.Release()
-	}
-
-	b.builder.reset()
-
-	return
-}
-
-func (b *FixedSizeBinaryBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	data, err := base64.StdEncoding.DecodeString(s)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(data)
-	return nil
-}
-
-func (b *FixedSizeBinaryBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	var val []byte
-	switch v := t.(type) {
-	case string:
-		data, err := base64.StdEncoding.DecodeString(v)
-		if err != nil {
-			return err
-		}
-		val = data
-	case []byte:
-		val = v
-	case nil:
-		b.AppendNull()
-		return nil
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-			Struct: fmt.Sprintf("FixedSizeBinary[%d]", b.dtype.ByteWidth),
-		}
-	}
-
-	if len(val) != b.dtype.ByteWidth {
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(val),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-			Struct: fmt.Sprintf("FixedSizeBinary[%d]", b.dtype.ByteWidth),
-		}
-	}
-	b.Append(val)
-	return nil
-}
-
-func (b *FixedSizeBinaryBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *FixedSizeBinaryBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("fixed size binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ Builder = (*FixedSizeBinaryBuilder)(nil)
-)
diff --git a/go/arrow/array/fixedsize_binarybuilder_test.go b/go/arrow/array/fixedsize_binarybuilder_test.go
deleted file mode 100644
index 0c58c65ecb02e..0000000000000
--- a/go/arrow/array/fixedsize_binarybuilder_test.go
+++ /dev/null
@@ -1,107 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFixedSizeBinaryBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := arrow.FixedSizeBinaryType{ByteWidth: 7}
-	b := NewFixedSizeBinaryBuilder(mem, &dtype)
-
-	b.Append([]byte("1234567"))
-	b.AppendNull()
-	b.Append([]byte("ABCDEFG"))
-	b.AppendNull()
-
-	assert.Equal(t, 4, b.Len(), "unexpected Len()")
-	assert.Equal(t, 2, b.NullN(), "unexpected NullN()")
-
-	values := [][]byte{
-		[]byte("7654321"),
-		nil,
-		[]byte("AZERTYU"),
-	}
-	b.AppendValues(values, []bool{true, false, true})
-
-	assert.Equal(t, 7, b.Len(), "unexpected Len()")
-	assert.Equal(t, 3, b.NullN(), "unexpected NullN()")
-
-	a := b.NewFixedSizeBinaryArray()
-
-	// check state of builder after NewFixedSizeBinaryArray
-	assert.Zero(t, b.Len(), "unexpected ArrayBuilder.Len(), NewFixedSizeBinaryArray did not reset state")
-	assert.Zero(t, b.Cap(), "unexpected ArrayBuilder.Cap(), NewFixedSizeBinaryArray did not reset state")
-	assert.Zero(t, b.NullN(), "unexpected ArrayBuilder.NullN(), NewFixedSizeBinaryArray did not reset state")
-	assert.Equal(t, a.String(), `["1234567" (null) "ABCDEFG" (null) "7654321" (null) "AZERTYU"]`)
-
-	b.Release()
-	a.Release()
-}
-
-func TestFixedSizeBinaryBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := arrow.FixedSizeBinaryType{ByteWidth: 7}
-	ab := NewFixedSizeBinaryBuilder(mem, &dtype)
-	defer ab.Release()
-
-	want := [][]byte{
-		[]byte("1234567"),
-		[]byte("AZERTYU"),
-		[]byte("7654321"),
-	}
-
-	fixedSizeValues := func(a *FixedSizeBinary) [][]byte {
-		vs := make([][]byte, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	ab.AppendValues([][]byte{}, nil)
-	a := ab.NewFixedSizeBinaryArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewFixedSizeBinaryArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([][]byte{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewFixedSizeBinaryArray()
-	assert.Equal(t, want, fixedSizeValues(a))
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([][]byte{}, nil)
-	a = ab.NewFixedSizeBinaryArray()
-	assert.Equal(t, want, fixedSizeValues(a))
-	a.Release()
-}
diff --git a/go/arrow/array/float16.go b/go/arrow/array/float16.go
deleted file mode 100644
index 757b658a9150d..0000000000000
--- a/go/arrow/array/float16.go
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A type which represents an immutable sequence of Float16 values.
-type Float16 struct {
-	array
-	values []float16.Num
-}
-
-func NewFloat16Data(data arrow.ArrayData) *Float16 {
-	a := &Float16{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *Float16) Value(i int) float16.Num { return a.values[i] }
-func (a *Float16) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.Value(i).String()
-}
-
-func (a *Float16) Values() []float16.Num { return a.values }
-
-func (a *Float16) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", a.values[i].Float32())
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Float16) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Float16Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Float16) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.values[i].Float32()
-	}
-	return nil
-}
-
-func (a *Float16) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i, v := range a.values {
-		if !a.IsValid(i) {
-			vals[i] = nil
-			continue
-		}
-
-		switch {
-		case v.IsNaN():
-			vals[i] = "NaN"
-		case v.IsInf() && !v.Signbit():
-			vals[i] = "+Inf"
-		case v.IsInf() && v.Signbit():
-			vals[i] = "-Inf"
-		default:
-			vals[i] = v.Float32()
-		}
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualFloat16(left, right *Float16) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-var (
-	_ arrow.Array = (*Float16)(nil)
-)
diff --git a/go/arrow/array/float16_builder.go b/go/arrow/array/float16_builder.go
deleted file mode 100644
index 7543f2b6f96dd..0000000000000
--- a/go/arrow/array/float16_builder.go
+++ /dev/null
@@ -1,263 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strconv"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type Float16Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []float16.Num
-}
-
-func NewFloat16Builder(mem memory.Allocator) *Float16Builder {
-	return &Float16Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Float16Builder) Type() arrow.DataType { return arrow.FixedWidthTypes.Float16 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Float16Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Float16Builder) Append(v float16.Num) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Float16Builder) UnsafeAppend(v float16.Num) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Float16Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Float16Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Float16Builder) AppendEmptyValue() {
-	b.Reserve(1)
-	b.UnsafeAppend(float16.Num{})
-}
-
-func (b *Float16Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Float16Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Float16Builder) AppendValues(v []float16.Num, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	if len(v) > 0 {
-		arrow.Float16Traits.Copy(b.rawData[b.length:], v)
-	}
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Float16Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Uint16Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Float16Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Float16Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Float16Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Float16Traits.BytesRequired(n))
-		b.rawData = arrow.Float16Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a Float16 array from the memory buffers used by the builder and resets the Float16Builder
-// so it can be used to build a new array.
-func (b *Float16Builder) NewArray() arrow.Array {
-	return b.NewFloat16Array()
-}
-
-// NewFloat16Array creates a Float16 array from the memory buffers used by the builder and resets the Float16Builder
-// so it can be used to build a new array.
-func (b *Float16Builder) NewFloat16Array() (a *Float16) {
-	data := b.newData()
-	a = NewFloat16Data(data)
-	data.Release()
-	return
-}
-
-func (b *Float16Builder) newData() (data *Data) {
-	bytesRequired := arrow.Float16Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.FixedWidthTypes.Float16, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Float16Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseFloat(s, 32)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(float16.New(float32(v)))
-	return nil
-}
-
-func (b *Float16Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case float64:
-		b.Append(float16.New(float32(v)))
-	case string:
-		f, err := strconv.ParseFloat(v, 32)
-		if err != nil {
-			return err
-		}
-		// this will currently silently truncate if it is too large
-		b.Append(float16.New(float32(f)))
-	case json.Number:
-		f, err := v.Float64()
-		if err != nil {
-			return err
-		}
-		b.Append(float16.New(float32(f)))
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(float16.Num{}),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *Float16Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON will add values to this builder from unmarshalling the
-// array of values. Currently values that are larger than a float16 will
-// be silently truncated.
-func (b *Float16Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("float16 builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
diff --git a/go/arrow/array/float16_builder_test.go b/go/arrow/array/float16_builder_test.go
deleted file mode 100644
index ab25e544ed833..0000000000000
--- a/go/arrow/array/float16_builder_test.go
+++ /dev/null
@@ -1,156 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func float32Values(a *array.Float16) []float32 {
-	values := make([]float32, a.Len())
-	for i, v := range a.Values() {
-		values[i] = v.Float32()
-	}
-	return values
-}
-
-func TestNewFloat16Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat16Builder(mem)
-
-	ab.Append(float16.New(1))
-	ab.Append(float16.New(2))
-	ab.Append(float16.New(3))
-	ab.AppendNull()
-	ab.Append(float16.New(5))
-	ab.Append(float16.New(6))
-	ab.AppendNull()
-	ab.Append(float16.New(8))
-	ab.Append(float16.New(9))
-	ab.Append(float16.New(10))
-	assert.NoError(t, ab.AppendValueFromString("11.0"))
-
-	// check state of builder before NewFloat16Array
-	assert.Equal(t, 11, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewFloat16Array()
-	assert.Equal(t, "1", a.ValueStr(0))
-	// check state of builder after NewFloat16Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewFloat16Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewFloat16Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewFloat16Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-
-	assert.Equal(t, []float32{1, 2, 3, 0, 5, 6, 0, 8, 9, 10, 11}, float32Values(a), "unexpected Float16Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Values(), 11, "unexpected length of Float16Values")
-
-	a.Release()
-	ab.Append(float16.New(7))
-	ab.Append(float16.New(8))
-
-	a = ab.NewFloat16Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []float32{7, 8}, float32Values(a))
-	assert.Len(t, a.Values(), 2)
-
-	a.Release()
-}
-
-func TestFloat16Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat16Builder(mem)
-	defer ab.Release()
-
-	want := []float16.Num{float16.New(3), float16.New(4)}
-
-	ab.AppendValues([]float16.Num{}, nil)
-	a := ab.NewFloat16Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewFloat16Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	a = ab.NewFloat16Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-
-	ab.AppendValues([]float16.Num{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewFloat16Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]float16.Num{}, nil)
-	a = ab.NewFloat16Array()
-	assert.Equal(t, want, a.Values())
-	a.Release()
-}
-
-func TestFloat16StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewFloat16Builder(mem)
-	defer b.Release()
-
-	b.Append(float16.New(1))
-	b.Append(float16.New(2))
-	b.Append(float16.New(3))
-	b.AppendNull()
-	b.Append(float16.New(5))
-	b.Append(float16.New(6))
-	b.AppendNull()
-	b.Append(float16.New(8))
-	b.Append(float16.New(9))
-	b.Append(float16.New(10))
-
-	arr := b.NewArray().(*array.Float16)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewFloat16Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Float16)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
diff --git a/go/arrow/array/interval.go b/go/arrow/array/interval.go
deleted file mode 100644
index 66c6eca21bca5..0000000000000
--- a/go/arrow/array/interval.go
+++ /dev/null
@@ -1,953 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"strconv"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-func NewIntervalData(data arrow.ArrayData) arrow.Array {
-	switch data.DataType().(type) {
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalData(data.(*Data))
-	case *arrow.DayTimeIntervalType:
-		return NewDayTimeIntervalData(data.(*Data))
-	case *arrow.MonthDayNanoIntervalType:
-		return NewMonthDayNanoIntervalData(data.(*Data))
-	default:
-		panic(fmt.Errorf("arrow/array: unknown interval data type %T", data.DataType()))
-	}
-}
-
-// A type which represents an immutable sequence of arrow.MonthInterval values.
-type MonthInterval struct {
-	array
-	values []arrow.MonthInterval
-}
-
-func NewMonthIntervalData(data arrow.ArrayData) *MonthInterval {
-	a := &MonthInterval{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *MonthInterval) Value(i int) arrow.MonthInterval { return a.values[i] }
-func (a *MonthInterval) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return fmt.Sprintf("%v", a.Value(i))
-}
-func (a *MonthInterval) MonthIntervalValues() []arrow.MonthInterval { return a.values }
-
-func (a *MonthInterval) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *MonthInterval) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.MonthIntervalTraits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *MonthInterval) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.values[i]
-	}
-	return nil
-}
-
-// MarshalJSON will create a json array out of a MonthInterval array,
-// each value will be an object of the form {"months": #} where
-// # is the numeric value of that index
-func (a *MonthInterval) MarshalJSON() ([]byte, error) {
-	if a.NullN() == 0 {
-		return json.Marshal(a.values)
-	}
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualMonthInterval(left, right *MonthInterval) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type MonthIntervalBuilder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []arrow.MonthInterval
-}
-
-func NewMonthIntervalBuilder(mem memory.Allocator) *MonthIntervalBuilder {
-	return &MonthIntervalBuilder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *MonthIntervalBuilder) Type() arrow.DataType { return arrow.FixedWidthTypes.MonthInterval }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *MonthIntervalBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *MonthIntervalBuilder) Append(v arrow.MonthInterval) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *MonthIntervalBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *MonthIntervalBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *MonthIntervalBuilder) AppendEmptyValue() {
-	b.Append(arrow.MonthInterval(0))
-}
-
-func (b *MonthIntervalBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *MonthIntervalBuilder) UnsafeAppend(v arrow.MonthInterval) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *MonthIntervalBuilder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *MonthIntervalBuilder) AppendValues(v []arrow.MonthInterval, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.MonthIntervalTraits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *MonthIntervalBuilder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.MonthIntervalTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.MonthIntervalTraits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *MonthIntervalBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *MonthIntervalBuilder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.MonthIntervalTraits.BytesRequired(n))
-		b.rawData = arrow.MonthIntervalTraits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a MonthInterval array from the memory buffers used by the builder and resets the MonthIntervalBuilder
-// so it can be used to build a new array.
-func (b *MonthIntervalBuilder) NewArray() arrow.Array {
-	return b.NewMonthIntervalArray()
-}
-
-// NewMonthIntervalArray creates a MonthInterval array from the memory buffers used by the builder and resets the MonthIntervalBuilder
-// so it can be used to build a new array.
-func (b *MonthIntervalBuilder) NewMonthIntervalArray() (a *MonthInterval) {
-	data := b.newData()
-	a = NewMonthIntervalData(data)
-	data.Release()
-	return
-}
-
-func (b *MonthIntervalBuilder) newData() (data *Data) {
-	bytesRequired := arrow.MonthIntervalTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.FixedWidthTypes.MonthInterval, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *MonthIntervalBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseInt(s, 10, 32)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(arrow.MonthInterval(v))
-	return nil
-}
-
-func (b *MonthIntervalBuilder) UnmarshalOne(dec *json.Decoder) error {
-	var v *arrow.MonthInterval
-	if err := dec.Decode(&v); err != nil {
-		return err
-	}
-
-	if v == nil {
-		b.AppendNull()
-	} else {
-		b.Append(*v)
-	}
-	return nil
-}
-
-func (b *MonthIntervalBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON will add the unmarshalled values of an array to the builder,
-// values are expected to be strings of the form "#months" where # is the int32
-// value that will be added to the builder.
-func (b *MonthIntervalBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("month interval builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-// A type which represents an immutable sequence of arrow.DayTimeInterval values.
-type DayTimeInterval struct {
-	array
-	values []arrow.DayTimeInterval
-}
-
-func NewDayTimeIntervalData(data arrow.ArrayData) *DayTimeInterval {
-	a := &DayTimeInterval{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *DayTimeInterval) Value(i int) arrow.DayTimeInterval { return a.values[i] }
-func (a *DayTimeInterval) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	data, err := json.Marshal(a.GetOneForMarshal(i))
-	if err != nil {
-		panic(err)
-	}
-	return string(data)
-}
-
-func (a *DayTimeInterval) DayTimeIntervalValues() []arrow.DayTimeInterval { return a.values }
-
-func (a *DayTimeInterval) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *DayTimeInterval) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.DayTimeIntervalTraits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *DayTimeInterval) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.values[i]
-	}
-	return nil
-}
-
-// MarshalJSON will marshal this array to JSON as an array of objects,
-// consisting of the form {"days": #, "milliseconds": #} for each element.
-func (a *DayTimeInterval) MarshalJSON() ([]byte, error) {
-	if a.NullN() == 0 {
-		return json.Marshal(a.values)
-	}
-	vals := make([]interface{}, a.Len())
-	for i, v := range a.values {
-		if a.IsValid(i) {
-			vals[i] = v
-		} else {
-			vals[i] = nil
-		}
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualDayTimeInterval(left, right *DayTimeInterval) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type DayTimeIntervalBuilder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []arrow.DayTimeInterval
-}
-
-func NewDayTimeIntervalBuilder(mem memory.Allocator) *DayTimeIntervalBuilder {
-	return &DayTimeIntervalBuilder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *DayTimeIntervalBuilder) Type() arrow.DataType { return arrow.FixedWidthTypes.DayTimeInterval }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *DayTimeIntervalBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *DayTimeIntervalBuilder) Append(v arrow.DayTimeInterval) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *DayTimeIntervalBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *DayTimeIntervalBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *DayTimeIntervalBuilder) AppendEmptyValue() {
-	b.Append(arrow.DayTimeInterval{})
-}
-
-func (b *DayTimeIntervalBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *DayTimeIntervalBuilder) UnsafeAppend(v arrow.DayTimeInterval) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *DayTimeIntervalBuilder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *DayTimeIntervalBuilder) AppendValues(v []arrow.DayTimeInterval, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.DayTimeIntervalTraits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *DayTimeIntervalBuilder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.DayTimeIntervalTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.DayTimeIntervalTraits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *DayTimeIntervalBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *DayTimeIntervalBuilder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.DayTimeIntervalTraits.BytesRequired(n))
-		b.rawData = arrow.DayTimeIntervalTraits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a DayTimeInterval array from the memory buffers used by the builder and resets the DayTimeIntervalBuilder
-// so it can be used to build a new array.
-func (b *DayTimeIntervalBuilder) NewArray() arrow.Array {
-	return b.NewDayTimeIntervalArray()
-}
-
-// NewDayTimeIntervalArray creates a DayTimeInterval array from the memory buffers used by the builder and resets the DayTimeIntervalBuilder
-// so it can be used to build a new array.
-func (b *DayTimeIntervalBuilder) NewDayTimeIntervalArray() (a *DayTimeInterval) {
-	data := b.newData()
-	a = NewDayTimeIntervalData(data)
-	data.Release()
-	return
-}
-
-func (b *DayTimeIntervalBuilder) newData() (data *Data) {
-	bytesRequired := arrow.DayTimeIntervalTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.FixedWidthTypes.DayTimeInterval, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *DayTimeIntervalBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	var v arrow.DayTimeInterval
-	if err := json.Unmarshal([]byte(s), &v); err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(v)
-	return nil
-}
-
-func (b *DayTimeIntervalBuilder) UnmarshalOne(dec *json.Decoder) error {
-	var v *arrow.DayTimeInterval
-	if err := dec.Decode(&v); err != nil {
-		return err
-	}
-
-	if v == nil {
-		b.AppendNull()
-	} else {
-		b.Append(*v)
-	}
-	return nil
-}
-
-func (b *DayTimeIntervalBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON will add the values unmarshalled from an array to the builder,
-// with the values expected to be objects of the form {"days": #, "milliseconds": #}
-func (b *DayTimeIntervalBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("day_time interval builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-// A type which represents an immutable sequence of arrow.DayTimeInterval values.
-type MonthDayNanoInterval struct {
-	array
-	values []arrow.MonthDayNanoInterval
-}
-
-func NewMonthDayNanoIntervalData(data arrow.ArrayData) *MonthDayNanoInterval {
-	a := &MonthDayNanoInterval{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *MonthDayNanoInterval) Value(i int) arrow.MonthDayNanoInterval { return a.values[i] }
-func (a *MonthDayNanoInterval) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	data, err := json.Marshal(a.GetOneForMarshal(i))
-	if err != nil {
-		panic(err)
-	}
-	return string(data)
-}
-
-func (a *MonthDayNanoInterval) MonthDayNanoIntervalValues() []arrow.MonthDayNanoInterval {
-	return a.values
-}
-
-func (a *MonthDayNanoInterval) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *MonthDayNanoInterval) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.MonthDayNanoIntervalTraits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *MonthDayNanoInterval) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.values[i]
-	}
-	return nil
-}
-
-// MarshalJSON will marshal this array to a JSON array with elements
-// marshalled to the form {"months": #, "days": #, "nanoseconds": #}
-func (a *MonthDayNanoInterval) MarshalJSON() ([]byte, error) {
-	if a.NullN() == 0 {
-		return json.Marshal(a.values)
-	}
-	vals := make([]interface{}, a.Len())
-	for i, v := range a.values {
-		if a.IsValid(i) {
-			vals[i] = v
-		} else {
-			vals[i] = nil
-		}
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualMonthDayNanoInterval(left, right *MonthDayNanoInterval) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type MonthDayNanoIntervalBuilder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []arrow.MonthDayNanoInterval
-}
-
-func NewMonthDayNanoIntervalBuilder(mem memory.Allocator) *MonthDayNanoIntervalBuilder {
-	return &MonthDayNanoIntervalBuilder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *MonthDayNanoIntervalBuilder) Type() arrow.DataType {
-	return arrow.FixedWidthTypes.MonthDayNanoInterval
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *MonthDayNanoIntervalBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *MonthDayNanoIntervalBuilder) Append(v arrow.MonthDayNanoInterval) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *MonthDayNanoIntervalBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *MonthDayNanoIntervalBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *MonthDayNanoIntervalBuilder) AppendEmptyValue() {
-	b.Append(arrow.MonthDayNanoInterval{})
-}
-
-func (b *MonthDayNanoIntervalBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *MonthDayNanoIntervalBuilder) UnsafeAppend(v arrow.MonthDayNanoInterval) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *MonthDayNanoIntervalBuilder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *MonthDayNanoIntervalBuilder) AppendValues(v []arrow.MonthDayNanoInterval, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.MonthDayNanoIntervalTraits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *MonthDayNanoIntervalBuilder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.MonthDayNanoIntervalTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.MonthDayNanoIntervalTraits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *MonthDayNanoIntervalBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *MonthDayNanoIntervalBuilder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.MonthDayNanoIntervalTraits.BytesRequired(n))
-		b.rawData = arrow.MonthDayNanoIntervalTraits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a MonthDayNanoInterval array from the memory buffers used by the builder and resets the MonthDayNanoIntervalBuilder
-// so it can be used to build a new array.
-func (b *MonthDayNanoIntervalBuilder) NewArray() arrow.Array {
-	return b.NewMonthDayNanoIntervalArray()
-}
-
-// NewMonthDayNanoIntervalArray creates a MonthDayNanoInterval array from the memory buffers used by the builder and resets the MonthDayNanoIntervalBuilder
-// so it can be used to build a new array.
-func (b *MonthDayNanoIntervalBuilder) NewMonthDayNanoIntervalArray() (a *MonthDayNanoInterval) {
-	data := b.newData()
-	a = NewMonthDayNanoIntervalData(data)
-	data.Release()
-	return
-}
-
-func (b *MonthDayNanoIntervalBuilder) newData() (data *Data) {
-	bytesRequired := arrow.MonthDayNanoIntervalTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.FixedWidthTypes.MonthDayNanoInterval, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *MonthDayNanoIntervalBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	var v arrow.MonthDayNanoInterval
-	if err := json.Unmarshal([]byte(s), &v); err != nil {
-		return err
-	}
-	b.Append(v)
-	return nil
-}
-
-func (b *MonthDayNanoIntervalBuilder) UnmarshalOne(dec *json.Decoder) error {
-	var v *arrow.MonthDayNanoInterval
-	if err := dec.Decode(&v); err != nil {
-		return err
-	}
-
-	if v == nil {
-		b.AppendNull()
-	} else {
-		b.Append(*v)
-	}
-	return nil
-}
-
-func (b *MonthDayNanoIntervalBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// UnmarshalJSON unmarshals a JSON array of objects and adds them to this builder,
-// each element of the array is expected to be an object of the form
-// {"months": #, "days": #, "nanoseconds": #}
-func (b *MonthDayNanoIntervalBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("month_day_nano interval builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*MonthInterval)(nil)
-	_ arrow.Array = (*DayTimeInterval)(nil)
-	_ arrow.Array = (*MonthDayNanoInterval)(nil)
-
-	_ Builder = (*MonthIntervalBuilder)(nil)
-	_ Builder = (*DayTimeIntervalBuilder)(nil)
-	_ Builder = (*MonthDayNanoIntervalBuilder)(nil)
-)
diff --git a/go/arrow/array/interval_test.go b/go/arrow/array/interval_test.go
deleted file mode 100644
index 6d36885a627d9..0000000000000
--- a/go/arrow/array/interval_test.go
+++ /dev/null
@@ -1,524 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"math"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestMonthIntervalArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		want   = []arrow.MonthInterval{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	b := array.NewMonthIntervalBuilder(mem)
-	defer b.Release()
-
-	b.Retain()
-	b.Release()
-
-	b.AppendValues(want[:2], nil)
-	b.AppendNull()
-	b.Append(want[3])
-
-	if got, want := b.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := b.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	arr := b.NewMonthIntervalArray()
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	if got, want := arr.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	for i := range want {
-		if arr.IsNull(i) != !valids[i] {
-			t.Fatalf("arr[%d]-validity: got=%v want=%v", i, !arr.IsNull(i), valids[i])
-		}
-		switch {
-		case arr.IsNull(i):
-		default:
-			got := arr.Value(i)
-			if got != want[i] {
-				t.Fatalf("arr[%d]: got=%q, want=%q", i, got, want[i])
-			}
-		}
-	}
-
-	sub := array.MakeFromData(arr.Data())
-	defer sub.Release()
-
-	if sub.DataType().ID() != arrow.INTERVAL_MONTHS {
-		t.Fatalf("invalid type: got=%q, want=interval_months", sub.DataType().Name())
-	}
-
-	if _, ok := sub.(*array.MonthInterval); !ok {
-		t.Fatalf("could not type-assert to array.MonthInterval")
-	}
-
-	if got, want := arr.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.MonthInterval)
-	if !ok {
-		t.Fatalf("could not type-assert to array.MonthInterval")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-}
-
-func TestMonthIntervalBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	want := []arrow.MonthInterval{1, 2, 3, 4}
-
-	b := array.NewMonthIntervalBuilder(mem)
-	defer b.Release()
-
-	miValues := func(a *array.MonthInterval) []arrow.MonthInterval {
-		vs := make([]arrow.MonthInterval, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	b.AppendValues([]arrow.MonthInterval{}, nil)
-	arr := b.NewMonthIntervalArray()
-	assert.Zero(t, arr.Len())
-	arr.Release()
-
-	b.AppendValues(nil, nil)
-	arr = b.NewMonthIntervalArray()
-	assert.Zero(t, arr.Len())
-	arr.Release()
-
-	b.AppendValues([]arrow.MonthInterval{}, nil)
-	b.AppendValues(want, nil)
-	arr = b.NewMonthIntervalArray()
-	assert.Equal(t, want, miValues(arr))
-	arr.Release()
-
-	b.AppendValues(want, nil)
-	b.AppendValues([]arrow.MonthInterval{}, nil)
-	arr = b.NewMonthIntervalArray()
-	assert.Equal(t, want, miValues(arr))
-	arr.Release()
-}
-
-func TestMonthIntervalStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		values = []arrow.MonthInterval{1, 2, 3, 4}
-		valid  = []bool{true, true, false, true}
-	)
-
-	b := array.NewMonthIntervalBuilder(mem)
-	defer b.Release()
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.MonthInterval)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewMonthIntervalBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.MonthInterval)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestDayTimeArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		want = []arrow.DayTimeInterval{
-			{Days: 1, Milliseconds: 1}, {Days: 2, Milliseconds: 2},
-			{Days: 3, Milliseconds: 3}, {Days: 4, Milliseconds: 4}}
-		valids = []bool{true, true, false, true}
-	)
-
-	b := array.NewDayTimeIntervalBuilder(mem)
-	defer b.Release()
-
-	b.Retain()
-	b.Release()
-
-	b.AppendValues(want[:2], nil)
-	b.AppendNull()
-	b.Append(want[3])
-
-	if got, want := b.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := b.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	arr := b.NewDayTimeIntervalArray()
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	if got, want := arr.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	for i := range want {
-		if arr.IsNull(i) != !valids[i] {
-			t.Fatalf("arr[%d]-validity: got=%v want=%v", i, !arr.IsNull(i), valids[i])
-		}
-		switch {
-		case arr.IsNull(i):
-		default:
-			got := arr.Value(i)
-			if got != want[i] {
-				t.Fatalf("arr[%d]: got=%q, want=%q", i, got, want[i])
-			}
-		}
-	}
-
-	sub := array.MakeFromData(arr.Data())
-	defer sub.Release()
-
-	if sub.DataType().ID() != arrow.INTERVAL_DAY_TIME {
-		t.Fatalf("invalid type: got=%q, want=interval_day_time", sub.DataType().Name())
-	}
-
-	if _, ok := sub.(*array.DayTimeInterval); !ok {
-		t.Fatalf("could not type-assert to array.DayTimeInterval")
-	}
-
-	if got, want := arr.String(), `[{1 1} {2 2} (null) {4 4}]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.DayTimeInterval)
-	if !ok {
-		t.Fatalf("could not type-assert to array.DayInterval")
-	}
-
-	if got, want := v.String(), `[(null) {4 4}]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-}
-
-func TestDayTimeIntervalBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	want := []arrow.DayTimeInterval{
-		{Days: 1, Milliseconds: 1}, {Days: 2, Milliseconds: 2},
-		{Days: 3, Milliseconds: 3}, {Days: 4, Milliseconds: 4}}
-
-	b := array.NewDayTimeIntervalBuilder(mem)
-	defer b.Release()
-
-	dtValues := func(a *array.DayTimeInterval) []arrow.DayTimeInterval {
-		vs := make([]arrow.DayTimeInterval, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	b.AppendValues([]arrow.DayTimeInterval{}, nil)
-	arr := b.NewDayTimeIntervalArray()
-	assert.Zero(t, arr.Len())
-	arr.Release()
-
-	b.AppendValues(nil, nil)
-	arr = b.NewDayTimeIntervalArray()
-	assert.Zero(t, arr.Len())
-	arr.Release()
-
-	b.AppendValues([]arrow.DayTimeInterval{}, nil)
-	b.AppendValues(want, nil)
-	arr = b.NewDayTimeIntervalArray()
-	assert.Equal(t, want, dtValues(arr))
-	arr.Release()
-
-	b.AppendValues(want, nil)
-	b.AppendValues([]arrow.DayTimeInterval{}, nil)
-	arr = b.NewDayTimeIntervalArray()
-	assert.Equal(t, want, dtValues(arr))
-	arr.Release()
-}
-
-func TestDayTimeIntervalStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		values = []arrow.DayTimeInterval{
-			{Days: 1, Milliseconds: 1},
-			{Days: 2, Milliseconds: 2},
-			{Days: 3, Milliseconds: 3},
-			{Days: 4, Milliseconds: 4},
-		}
-		valid = []bool{true, true, false, true}
-	)
-
-	b := array.NewDayTimeIntervalBuilder(mem)
-	defer b.Release()
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.DayTimeInterval)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDayTimeIntervalBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.DayTimeInterval)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestMonthDayNanoArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		want = []arrow.MonthDayNanoInterval{
-			{Months: 1, Days: 1, Nanoseconds: 1000}, {Months: 2, Days: 2, Nanoseconds: 2000},
-			{Months: 3, Days: 3, Nanoseconds: 3000}, {Months: 4, Days: 4, Nanoseconds: 4000},
-			{Months: 0, Days: 0, Nanoseconds: 0}, {Months: -1, Days: -2, Nanoseconds: -300},
-			{Months: math.MaxInt32, Days: math.MinInt32, Nanoseconds: math.MaxInt64},
-			{Months: math.MinInt32, Days: math.MaxInt32, Nanoseconds: math.MinInt64},
-		}
-		valids = []bool{true, true, false, true, true, true, false, true}
-	)
-
-	b := array.NewMonthDayNanoIntervalBuilder(mem)
-	defer b.Release()
-
-	b.Retain()
-	b.Release()
-
-	b.AppendValues(want[:2], nil)
-	b.AppendNull()
-	b.Append(want[3])
-	b.AppendValues(want[4:], valids[4:])
-
-	if got, want := b.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := b.NullN(), 2; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	arr := b.NewMonthDayNanoIntervalArray()
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	if got, want := arr.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 2; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	for i := range want {
-		if arr.IsNull(i) != !valids[i] {
-			t.Fatalf("arr[%d]-validity: got=%v want=%v", i, !arr.IsNull(i), valids[i])
-		}
-		switch {
-		case arr.IsNull(i):
-		default:
-			got := arr.Value(i)
-			if got != want[i] {
-				t.Fatalf("arr[%d]: got=%q, want=%q", i, got, want[i])
-			}
-		}
-	}
-
-	sub := array.MakeFromData(arr.Data())
-	defer sub.Release()
-
-	if sub.DataType().ID() != arrow.INTERVAL_MONTH_DAY_NANO {
-		t.Fatalf("invalid type: got=%q, want=interval", sub.DataType().Name())
-	}
-
-	if _, ok := sub.(*array.MonthDayNanoInterval); !ok {
-		t.Fatalf("could not type-assert to array.MonthDayNanoInterval")
-	}
-
-	if got, want := arr.String(), `[{1 1 1000} {2 2 2000} (null) {4 4 4000} {0 0 0} {-1 -2 -300} (null) {-2147483648 2147483647 -9223372036854775808}]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.MonthDayNanoInterval)
-	if !ok {
-		t.Fatalf("could not type-assert to array.MonthDayNanoInterval")
-	}
-
-	if got, want := v.String(), `[(null) {4 4 4000}]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-}
-
-func TestMonthDayNanoIntervalBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	want := []arrow.MonthDayNanoInterval{
-		{Months: 1, Days: 1, Nanoseconds: 1000},
-		{Months: 2, Days: 2, Nanoseconds: 2000},
-		{Months: 3, Days: 3, Nanoseconds: 3000},
-		{Months: 4, Days: 4, Nanoseconds: 4000}}
-
-	b := array.NewMonthDayNanoIntervalBuilder(mem)
-	defer b.Release()
-
-	dtValues := func(a *array.MonthDayNanoInterval) []arrow.MonthDayNanoInterval {
-		vs := make([]arrow.MonthDayNanoInterval, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	b.AppendValues([]arrow.MonthDayNanoInterval{}, nil)
-	arr := b.NewMonthDayNanoIntervalArray()
-	assert.Zero(t, arr.Len())
-	arr.Release()
-
-	b.AppendValues(nil, nil)
-	arr = b.NewMonthDayNanoIntervalArray()
-	assert.Zero(t, arr.Len())
-	arr.Release()
-
-	b.AppendValues([]arrow.MonthDayNanoInterval{}, nil)
-	b.AppendValues(want, nil)
-	arr = b.NewMonthDayNanoIntervalArray()
-	assert.Equal(t, want, dtValues(arr))
-	arr.Release()
-
-	b.AppendValues(want, nil)
-	b.AppendValues([]arrow.MonthDayNanoInterval{}, nil)
-	arr = b.NewMonthDayNanoIntervalArray()
-	assert.Equal(t, want, dtValues(arr))
-	arr.Release()
-}
-
-func TestMonthDayNanoIntervalStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		values = []arrow.MonthDayNanoInterval{
-			{Months: 1, Days: 1, Nanoseconds: 1000}, {Months: 2, Days: 2, Nanoseconds: 2000},
-			{Months: 3, Days: 3, Nanoseconds: 3000}, {Months: 4, Days: 4, Nanoseconds: 4000},
-			{Months: 0, Days: 0, Nanoseconds: 0}, {Months: -1, Days: -2, Nanoseconds: -300},
-			{Months: math.MaxInt32, Days: math.MinInt32, Nanoseconds: math.MaxInt64},
-			{Months: math.MinInt32, Days: math.MaxInt32, Nanoseconds: math.MinInt64},
-		}
-		valid = []bool{true, true, false, true, true, true, false, true}
-	)
-
-	b := array.NewMonthDayNanoIntervalBuilder(mem)
-	defer b.Release()
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.MonthDayNanoInterval)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewMonthDayNanoIntervalBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.MonthDayNanoInterval)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
diff --git a/go/arrow/array/json_reader.go b/go/arrow/array/json_reader.go
deleted file mode 100644
index 2944151a5f63c..0000000000000
--- a/go/arrow/array/json_reader.go
+++ /dev/null
@@ -1,205 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"errors"
-	"fmt"
-	"io"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type Option func(config)
-type config interface{}
-
-// WithChunk sets the chunk size for reading in json records. The default is to
-// read in one row per record batch as a single object. If chunk size is set to
-// a negative value, then the entire file is read as a single record batch.
-// Otherwise a record batch is read in with chunk size rows per record batch until
-// it reaches EOF.
-func WithChunk(n int) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *JSONReader:
-			cfg.chunk = n
-		default:
-			panic(fmt.Errorf("arrow/json): unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithAllocator specifies the allocator to use for creating the record batches,
-// if it is not called, then memory.DefaultAllocator will be used.
-func WithAllocator(mem memory.Allocator) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *JSONReader:
-			cfg.mem = mem
-		default:
-			panic(fmt.Errorf("arrow/json): unknown config type %T", cfg))
-		}
-	}
-}
-
-// JSONReader is a json reader that meets the RecordReader interface definition.
-//
-// To read in an array of objects as a record, you can use RecordFromJSON
-// which is equivalent to reading the json as a struct array whose fields are
-// the columns of the record. This primarily exists to fit the RecordReader
-// interface as a matching reader for the csv reader.
-type JSONReader struct {
-	r      *json.Decoder
-	schema *arrow.Schema
-
-	bldr *RecordBuilder
-
-	refs int64
-	cur  arrow.Record
-	err  error
-
-	chunk int
-	done  bool
-
-	mem  memory.Allocator
-	next func() bool
-}
-
-// NewJSONReader returns a json RecordReader which expects to find one json object
-// per row of dataset. Using WithChunk can control how many rows are processed
-// per record, which is how many objects become a single record from the file.
-//
-// If it is desired to write out an array of rows, then simply use RecordToStructArray
-// and json.Marshal the struct array for the same effect.
-func NewJSONReader(r io.Reader, schema *arrow.Schema, opts ...Option) *JSONReader {
-	rr := &JSONReader{
-		r:      json.NewDecoder(r),
-		schema: schema,
-		refs:   1,
-		chunk:  1,
-	}
-	for _, o := range opts {
-		o(rr)
-	}
-
-	if rr.mem == nil {
-		rr.mem = memory.DefaultAllocator
-	}
-
-	rr.bldr = NewRecordBuilder(rr.mem, schema)
-	switch {
-	case rr.chunk < 0:
-		rr.next = rr.nextall
-	case rr.chunk > 1:
-		rr.next = rr.nextn
-	default:
-		rr.next = rr.next1
-	}
-	return rr
-}
-
-// Err returns the last encountered error
-func (r *JSONReader) Err() error { return r.err }
-
-func (r *JSONReader) Schema() *arrow.Schema { return r.schema }
-
-// Record returns the last read in record. The returned record is only valid
-// until the next call to Next unless Retain is called on the record itself.
-func (r *JSONReader) Record() arrow.Record { return r.cur }
-
-func (r *JSONReader) Retain() {
-	atomic.AddInt64(&r.refs, 1)
-}
-
-func (r *JSONReader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refs) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refs, -1) == 0 {
-		if r.cur != nil {
-			r.cur.Release()
-			r.bldr.Release()
-			r.r = nil
-		}
-	}
-}
-
-// Next returns true if it read in a record, which will be available via Record
-// and false if there is either an error or the end of the reader.
-func (r *JSONReader) Next() bool {
-	if r.cur != nil {
-		r.cur.Release()
-		r.cur = nil
-	}
-
-	if r.err != nil || r.done {
-		return false
-	}
-
-	return r.next()
-}
-
-func (r *JSONReader) readNext() bool {
-	r.err = r.r.Decode(r.bldr)
-	if r.err != nil {
-		r.done = true
-		if errors.Is(r.err, io.EOF) {
-			r.err = nil
-		}
-		return false
-	}
-	return true
-}
-
-func (r *JSONReader) nextall() bool {
-	for r.readNext() {
-	}
-
-	r.cur = r.bldr.NewRecord()
-	return r.cur.NumRows() > 0
-}
-
-func (r *JSONReader) next1() bool {
-	if !r.readNext() {
-		return false
-	}
-
-	r.cur = r.bldr.NewRecord()
-	return true
-}
-
-func (r *JSONReader) nextn() bool {
-	var n = 0
-
-	for i := 0; i < r.chunk && !r.done; i, n = i+1, n+1 {
-		if !r.readNext() {
-			break
-		}
-	}
-
-	if n > 0 {
-		r.cur = r.bldr.NewRecord()
-	}
-	return n > 0
-}
-
-var (
-	_ RecordReader = (*JSONReader)(nil)
-)
diff --git a/go/arrow/array/json_reader_test.go b/go/arrow/array/json_reader_test.go
deleted file mode 100644
index 5e258dfdc07b1..0000000000000
--- a/go/arrow/array/json_reader_test.go
+++ /dev/null
@@ -1,141 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-const jsondata = `
-	{"region": "NY", "model": "3", "sales": 742.0}
-	{"region": "NY", "model": "S", "sales": 304.125}
-	{"region": "NY", "model": "X", "sales": 136.25}
-	{"region": "NY", "model": "Y", "sales": 27.5}
-	{"region": "CA", "model": "3", "sales": 512}
-	{"region": "CA", "model": "S", "sales": 978}
-	{"region": "CA", "model": "X", "sales": 1.0}
-	{"region": "CA", "model": "Y", "sales": 69}
-	{"region": "QC", "model": "3", "sales": 273.5}
-	{"region": "QC", "model": "S", "sales": 13}
-	{"region": "QC", "model": "X", "sales": 54}
-	{"region": "QC", "model": "Y", "sales": 21}
-	{"region": "QC", "model": "3", "sales": 152.25}
-	{"region": "QC", "model": "S", "sales": 10}
-	{"region": "QC", "model": "X", "sales": 42}
-	{"region": "QC", "model": "Y", "sales": 37}`
-
-func TestJSONReader(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "region", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "model", Type: arrow.BinaryTypes.String},
-		{Name: "sales", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	}, nil)
-
-	rdr := array.NewJSONReader(strings.NewReader(jsondata), schema)
-	defer rdr.Release()
-
-	n := 0
-	for rdr.Next() {
-		n++
-		rec := rdr.Record()
-		assert.NotNil(t, rec)
-		assert.EqualValues(t, 1, rec.NumRows())
-		assert.EqualValues(t, 3, rec.NumCols())
-	}
-
-	assert.NoError(t, rdr.Err())
-	assert.Equal(t, 16, n)
-}
-
-func TestJSONReaderAll(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "region", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "model", Type: arrow.BinaryTypes.String},
-		{Name: "sales", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	}, nil)
-
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	rdr := array.NewJSONReader(strings.NewReader(jsondata), schema, array.WithAllocator(mem), array.WithChunk(-1))
-	defer rdr.Release()
-
-	assert.True(t, rdr.Next())
-	rec := rdr.Record()
-	assert.NotNil(t, rec)
-	assert.NoError(t, rdr.Err())
-
-	assert.EqualValues(t, 16, rec.NumRows())
-	assert.EqualValues(t, 3, rec.NumCols())
-	assert.False(t, rdr.Next())
-}
-
-func TestJSONReaderChunked(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "region", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "model", Type: arrow.BinaryTypes.String},
-		{Name: "sales", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	}, nil)
-
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	rdr := array.NewJSONReader(strings.NewReader(jsondata), schema, array.WithAllocator(mem), array.WithChunk(4))
-	defer rdr.Release()
-
-	n := 0
-	for rdr.Next() {
-		n++
-		rec := rdr.Record()
-		assert.NotNil(t, rec)
-		assert.NoError(t, rdr.Err())
-		assert.EqualValues(t, 4, rec.NumRows())
-	}
-
-	assert.Equal(t, 4, n)
-	assert.NoError(t, rdr.Err())
-}
-
-func TestUnmarshalJSON(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "region", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "model", Type: arrow.BinaryTypes.String},
-		{Name: "sales", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	}, nil)
-
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	recordBuilder := array.NewRecordBuilder(mem, schema)
-	defer recordBuilder.Release()
-
-	jsondata := `{"region": "NY", "model": "3", "sales": 742.0, "extra": 1234}`
-
-	err := recordBuilder.UnmarshalJSON([]byte(jsondata))
-	assert.NoError(t, err)
-
-	record := recordBuilder.NewRecord()
-	defer record.Release()
-
-	assert.NotNil(t, record)
-}
diff --git a/go/arrow/array/list.go b/go/arrow/array/list.go
deleted file mode 100644
index 1e2191f2cfc3a..0000000000000
--- a/go/arrow/array/list.go
+++ /dev/null
@@ -1,1574 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type ListLike interface {
-	arrow.Array
-	ListValues() arrow.Array
-	ValueOffsets(i int) (start, end int64)
-}
-
-type VarLenListLike interface {
-	ListLike
-}
-
-// List represents an immutable sequence of array values.
-type List struct {
-	array
-	values  arrow.Array
-	offsets []int32
-}
-
-var _ ListLike = (*List)(nil)
-
-// NewListData returns a new List array value, from data.
-func NewListData(data arrow.ArrayData) *List {
-	a := &List{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *List) ListValues() arrow.Array { return a.values }
-
-func (a *List) ValueStr(i int) string {
-	if !a.IsValid(i) {
-		return NullValueStr
-	}
-	return string(a.GetOneForMarshal(i).(json.RawMessage))
-}
-
-func (a *List) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		if a.IsNull(i) {
-			o.WriteString(NullValueStr)
-			continue
-		}
-		sub := a.newListValue(i)
-		fmt.Fprintf(o, "%v", sub)
-		sub.Release()
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *List) newListValue(i int) arrow.Array {
-	beg, end := a.ValueOffsets(i)
-	return NewSlice(a.values, beg, end)
-}
-
-func (a *List) setData(data *Data) {
-	debug.Assert(len(data.buffers) >= 2, "list data should have 2 buffers")
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.offsets = arrow.Int32Traits.CastFromBytes(vals.Bytes())
-	}
-	a.values = MakeFromData(data.childData[0])
-}
-
-func (a *List) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	slice := a.newListValue(i)
-	defer slice.Release()
-	v, err := json.Marshal(slice)
-	if err != nil {
-		panic(err)
-	}
-	return json.RawMessage(v)
-}
-
-func (a *List) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func arrayEqualList(left, right *List) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return Equal(l, r)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-// Len returns the number of elements in the array.
-func (a *List) Len() int { return a.array.Len() }
-
-func (a *List) Offsets() []int32 { return a.offsets }
-
-func (a *List) Retain() {
-	a.array.Retain()
-	a.values.Retain()
-}
-
-func (a *List) Release() {
-	a.array.Release()
-	a.values.Release()
-}
-
-func (a *List) ValueOffsets(i int) (start, end int64) {
-	debug.Assert(i >= 0 && i < a.array.data.length, "index out of range")
-	j := i + a.array.data.offset
-	start, end = int64(a.offsets[j]), int64(a.offsets[j+1])
-	return
-}
-
-// LargeList represents an immutable sequence of array values.
-type LargeList struct {
-	array
-	values  arrow.Array
-	offsets []int64
-}
-
-var _ ListLike = (*LargeList)(nil)
-
-// NewLargeListData returns a new LargeList array value, from data.
-func NewLargeListData(data arrow.ArrayData) *LargeList {
-	a := new(LargeList)
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *LargeList) ListValues() arrow.Array { return a.values }
-
-func (a *LargeList) ValueStr(i int) string {
-	if !a.IsValid(i) {
-		return NullValueStr
-	}
-	return string(a.GetOneForMarshal(i).(json.RawMessage))
-}
-
-func (a *LargeList) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		if a.IsNull(i) {
-			o.WriteString(NullValueStr)
-			continue
-		}
-		sub := a.newListValue(i)
-		fmt.Fprintf(o, "%v", sub)
-		sub.Release()
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *LargeList) newListValue(i int) arrow.Array {
-	beg, end := a.ValueOffsets(i)
-	return NewSlice(a.values, beg, end)
-}
-
-func (a *LargeList) setData(data *Data) {
-	debug.Assert(len(data.buffers) >= 2, "list data should have 2 buffers")
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.offsets = arrow.Int64Traits.CastFromBytes(vals.Bytes())
-	}
-	a.values = MakeFromData(data.childData[0])
-}
-
-func (a *LargeList) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	slice := a.newListValue(i)
-	defer slice.Release()
-	v, err := json.Marshal(slice)
-	if err != nil {
-		panic(err)
-	}
-	return json.RawMessage(v)
-}
-
-func (a *LargeList) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func arrayEqualLargeList(left, right *LargeList) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return Equal(l, r)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-// Len returns the number of elements in the array.
-func (a *LargeList) Len() int { return a.array.Len() }
-
-func (a *LargeList) Offsets() []int64 { return a.offsets }
-
-func (a *LargeList) ValueOffsets(i int) (start, end int64) {
-	debug.Assert(i >= 0 && i < a.array.data.length, "index out of range")
-	j := i + a.array.data.offset
-	start, end = a.offsets[j], a.offsets[j+1]
-	return
-}
-
-func (a *LargeList) Retain() {
-	a.array.Retain()
-	a.values.Retain()
-}
-
-func (a *LargeList) Release() {
-	a.array.Release()
-	a.values.Release()
-}
-
-type baseListBuilder struct {
-	builder
-
-	values  Builder // value builder for the list's elements.
-	offsets Builder
-
-	// actual list type
-	dt              arrow.DataType
-	appendOffsetVal func(int)
-}
-
-type ListLikeBuilder interface {
-	Builder
-	ValueBuilder() Builder
-	Append(bool)
-}
-
-type VarLenListLikeBuilder interface {
-	ListLikeBuilder
-	AppendWithSize(bool, int)
-}
-
-type ListBuilder struct {
-	baseListBuilder
-}
-
-type LargeListBuilder struct {
-	baseListBuilder
-}
-
-// NewListBuilder returns a builder, using the provided memory allocator.
-// The created list builder will create a list whose elements will be of type etype.
-func NewListBuilder(mem memory.Allocator, etype arrow.DataType) *ListBuilder {
-	offsetBldr := NewInt32Builder(mem)
-	return &ListBuilder{
-		baseListBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, etype),
-			offsets:         offsetBldr,
-			dt:              arrow.ListOf(etype),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int32(o)) },
-		},
-	}
-}
-
-// NewListBuilderWithField takes a field to use for the child rather than just
-// a datatype to allow for more customization.
-func NewListBuilderWithField(mem memory.Allocator, field arrow.Field) *ListBuilder {
-	offsetBldr := NewInt32Builder(mem)
-	return &ListBuilder{
-		baseListBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, field.Type),
-			offsets:         offsetBldr,
-			dt:              arrow.ListOfField(field),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int32(o)) },
-		},
-	}
-}
-
-func (b *baseListBuilder) Type() arrow.DataType {
-	switch dt := b.dt.(type) {
-	case *arrow.ListType:
-		f := dt.ElemField()
-		f.Type = b.values.Type()
-		return arrow.ListOfField(f)
-	case *arrow.LargeListType:
-		f := dt.ElemField()
-		f.Type = b.values.Type()
-		return arrow.LargeListOfField(f)
-	}
-	return nil
-}
-
-// NewLargeListBuilder returns a builder, using the provided memory allocator.
-// The created list builder will create a list whose elements will be of type etype.
-func NewLargeListBuilder(mem memory.Allocator, etype arrow.DataType) *LargeListBuilder {
-	offsetBldr := NewInt64Builder(mem)
-	return &LargeListBuilder{
-		baseListBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, etype),
-			offsets:         offsetBldr,
-			dt:              arrow.LargeListOf(etype),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int64(o)) },
-		},
-	}
-}
-
-// NewLargeListBuilderWithField takes a field rather than just an element type
-// to allow for more customization of the final type of the LargeList Array
-func NewLargeListBuilderWithField(mem memory.Allocator, field arrow.Field) *LargeListBuilder {
-	offsetBldr := NewInt64Builder(mem)
-	return &LargeListBuilder{
-		baseListBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, field.Type),
-			offsets:         offsetBldr,
-			dt:              arrow.LargeListOfField(field),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int64(o)) },
-		},
-	}
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *baseListBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		b.values.Release()
-		b.offsets.Release()
-	}
-
-}
-
-func (b *baseListBuilder) appendNextOffset() {
-	b.appendOffsetVal(b.values.Len())
-}
-
-func (b *baseListBuilder) Append(v bool) {
-	b.Reserve(1)
-	b.unsafeAppendBoolToBitmap(v)
-	b.appendNextOffset()
-}
-
-func (b *baseListBuilder) AppendWithSize(v bool, _ int) {
-	b.Append(v)
-}
-
-func (b *baseListBuilder) AppendNull() {
-	b.Reserve(1)
-	b.unsafeAppendBoolToBitmap(false)
-	b.appendNextOffset()
-}
-
-func (b *baseListBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *baseListBuilder) AppendEmptyValue() {
-	b.Append(true)
-}
-
-func (b *baseListBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *ListBuilder) AppendValues(offsets []int32, valid []bool) {
-	b.Reserve(len(valid))
-	b.offsets.(*Int32Builder).AppendValues(offsets, nil)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(valid))
-}
-
-func (b *LargeListBuilder) AppendValues(offsets []int64, valid []bool) {
-	b.Reserve(len(valid))
-	b.offsets.(*Int64Builder).AppendValues(offsets, nil)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(valid))
-}
-
-func (b *baseListBuilder) unsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-func (b *baseListBuilder) init(capacity int) {
-	b.builder.init(capacity)
-	b.offsets.init(capacity + 1)
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *baseListBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.resizeHelper)
-	b.offsets.Reserve(n)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *baseListBuilder) Resize(n int) {
-	b.resizeHelper(n)
-	b.offsets.Resize(n)
-}
-
-func (b *baseListBuilder) resizeHelper(n int) {
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(n, b.builder.init)
-	}
-}
-
-func (b *baseListBuilder) ValueBuilder() Builder {
-	return b.values
-}
-
-// NewArray creates a List array from the memory buffers used by the builder and resets the ListBuilder
-// so it can be used to build a new array.
-func (b *ListBuilder) NewArray() arrow.Array {
-	return b.NewListArray()
-}
-
-// NewArray creates a LargeList array from the memory buffers used by the builder and resets the LargeListBuilder
-// so it can be used to build a new array.
-func (b *LargeListBuilder) NewArray() arrow.Array {
-	return b.NewLargeListArray()
-}
-
-// NewListArray creates a List array from the memory buffers used by the builder and resets the ListBuilder
-// so it can be used to build a new array.
-func (b *ListBuilder) NewListArray() (a *List) {
-	data := b.newData()
-	a = NewListData(data)
-	data.Release()
-	return
-}
-
-// NewLargeListArray creates a List array from the memory buffers used by the builder and resets the LargeListBuilder
-// so it can be used to build a new array.
-func (b *LargeListBuilder) NewLargeListArray() (a *LargeList) {
-	data := b.newData()
-	a = NewLargeListData(data)
-	data.Release()
-	return
-}
-
-func (b *baseListBuilder) newData() (data *Data) {
-	if b.offsets.Len() != b.length+1 {
-		b.appendNextOffset()
-	}
-	values := b.values.NewArray()
-	defer values.Release()
-
-	var offsets *memory.Buffer
-	if b.offsets != nil {
-		arr := b.offsets.NewArray()
-		defer arr.Release()
-		offsets = arr.Data().Buffers()[1]
-	}
-
-	data = NewData(
-		b.Type(), b.length,
-		[]*memory.Buffer{
-			b.nullBitmap,
-			offsets,
-		},
-		[]arrow.ArrayData{values.Data()},
-		b.nulls,
-		0,
-	)
-	b.reset()
-
-	return
-}
-
-func (b *baseListBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	return b.UnmarshalOne(json.NewDecoder(strings.NewReader(s)))
-}
-
-func (b *baseListBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t {
-	case json.Delim('['):
-		b.Append(true)
-		if err := b.values.Unmarshal(dec); err != nil {
-			return err
-		}
-		// consume ']'
-		_, err := dec.Token()
-		return err
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Struct: b.dt.String(),
-		}
-	}
-
-	return nil
-}
-
-func (b *baseListBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *baseListBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("list builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-// ListView represents an immutable sequence of array values defined by an
-// offset into a child array and a length.
-type ListView struct {
-	array
-	values  arrow.Array
-	offsets []int32
-	sizes   []int32
-}
-
-var _ VarLenListLike = (*ListView)(nil)
-
-func NewListViewData(data arrow.ArrayData) *ListView {
-	a := &ListView{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *ListView) ListValues() arrow.Array { return a.values }
-
-func (a *ListView) ValueStr(i int) string {
-	if !a.IsValid(i) {
-		return NullValueStr
-	}
-	return string(a.GetOneForMarshal(i).(json.RawMessage))
-}
-
-func (a *ListView) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		if a.IsNull(i) {
-			o.WriteString(NullValueStr)
-			continue
-		}
-		sub := a.newListValue(i)
-		fmt.Fprintf(o, "%v", sub)
-		sub.Release()
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *ListView) newListValue(i int) arrow.Array {
-	beg, end := a.ValueOffsets(i)
-	return NewSlice(a.values, beg, end)
-}
-
-func (a *ListView) setData(data *Data) {
-	debug.Assert(len(data.buffers) >= 3, "list-view data should have 3 buffers")
-	a.array.setData(data)
-	offsets := data.buffers[1]
-	if offsets != nil {
-		a.offsets = arrow.Int32Traits.CastFromBytes(offsets.Bytes())
-	}
-	sizes := data.buffers[2]
-	if sizes != nil {
-		a.sizes = arrow.Int32Traits.CastFromBytes(sizes.Bytes())
-	}
-	a.values = MakeFromData(data.childData[0])
-}
-
-func (a *ListView) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	slice := a.newListValue(i)
-	defer slice.Release()
-	v, err := json.Marshal(slice)
-	if err != nil {
-		panic(err)
-	}
-	return json.RawMessage(v)
-}
-
-func (a *ListView) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func arrayEqualListView(left, right *ListView) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return Equal(l, r)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-// Len returns the number of elements in the array.
-func (a *ListView) Len() int { return a.array.Len() }
-
-func (a *ListView) Offsets() []int32 { return a.offsets }
-
-func (a *ListView) Sizes() []int32 { return a.sizes }
-
-func (a *ListView) Retain() {
-	a.array.Retain()
-	a.values.Retain()
-}
-
-func (a *ListView) Release() {
-	a.array.Release()
-	a.values.Release()
-}
-
-func (a *ListView) ValueOffsets(i int) (start, end int64) {
-	debug.Assert(i >= 0 && i < a.array.data.length, "index out of range")
-	j := i + a.array.data.offset
-	size := int64(a.sizes[j])
-	// If size is 0, skip accessing offsets.
-	if size == 0 {
-		start, end = 0, 0
-		return
-	}
-	start = int64(a.offsets[j])
-	end = start + size
-	return
-}
-
-// LargeListView represents an immutable sequence of array values defined by an
-// offset into a child array and a length.
-type LargeListView struct {
-	array
-	values  arrow.Array
-	offsets []int64
-	sizes   []int64
-}
-
-var _ VarLenListLike = (*LargeListView)(nil)
-
-// NewLargeListViewData returns a new LargeListView array value, from data.
-func NewLargeListViewData(data arrow.ArrayData) *LargeListView {
-	a := new(LargeListView)
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *LargeListView) ListValues() arrow.Array { return a.values }
-
-func (a *LargeListView) ValueStr(i int) string {
-	if !a.IsValid(i) {
-		return NullValueStr
-	}
-	return string(a.GetOneForMarshal(i).(json.RawMessage))
-}
-
-func (a *LargeListView) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		if a.IsNull(i) {
-			o.WriteString(NullValueStr)
-			continue
-		}
-		sub := a.newListValue(i)
-		fmt.Fprintf(o, "%v", sub)
-		sub.Release()
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *LargeListView) newListValue(i int) arrow.Array {
-	beg, end := a.ValueOffsets(i)
-	return NewSlice(a.values, beg, end)
-}
-
-func (a *LargeListView) setData(data *Data) {
-	debug.Assert(len(data.buffers) >= 3, "list-view data should have 3 buffers")
-	a.array.setData(data)
-	offsets := data.buffers[1]
-	if offsets != nil {
-		a.offsets = arrow.Int64Traits.CastFromBytes(offsets.Bytes())
-	}
-	sizes := data.buffers[2]
-	if sizes != nil {
-		a.sizes = arrow.Int64Traits.CastFromBytes(sizes.Bytes())
-	}
-	a.values = MakeFromData(data.childData[0])
-}
-
-func (a *LargeListView) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	slice := a.newListValue(i)
-	defer slice.Release()
-	v, err := json.Marshal(slice)
-	if err != nil {
-		panic(err)
-	}
-	return json.RawMessage(v)
-}
-
-func (a *LargeListView) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func arrayEqualLargeListView(left, right *LargeListView) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		o := func() bool {
-			l := left.newListValue(i)
-			defer l.Release()
-			r := right.newListValue(i)
-			defer r.Release()
-			return Equal(l, r)
-		}()
-		if !o {
-			return false
-		}
-	}
-	return true
-}
-
-// Len returns the number of elements in the array.
-func (a *LargeListView) Len() int { return a.array.Len() }
-
-func (a *LargeListView) Offsets() []int64 { return a.offsets }
-
-func (a *LargeListView) Sizes() []int64 { return a.sizes }
-
-func (a *LargeListView) ValueOffsets(i int) (start, end int64) {
-	debug.Assert(i >= 0 && i < a.array.data.length, "index out of range")
-	j := i + a.array.data.offset
-	size := a.sizes[j]
-	// If size is 0, skip accessing offsets.
-	if size == 0 {
-		return 0, 0
-	}
-	start = a.offsets[j]
-	end = start + size
-	return
-}
-
-func (a *LargeListView) Retain() {
-	a.array.Retain()
-	a.values.Retain()
-}
-
-func (a *LargeListView) Release() {
-	a.array.Release()
-	a.values.Release()
-}
-
-// Accessors for offsets and sizes to make ListView and LargeListView validation generic.
-type offsetsAndSizes interface {
-	offsetAt(slot int64) int64
-	sizeAt(slot int64) int64
-}
-
-var _ offsetsAndSizes = (*ListView)(nil)
-var _ offsetsAndSizes = (*LargeListView)(nil)
-
-func (a *ListView) offsetAt(slot int64) int64 { return int64(a.offsets[int64(a.data.offset)+slot]) }
-
-func (a *ListView) sizeAt(slot int64) int64 { return int64(a.sizes[int64(a.data.offset)+slot]) }
-
-func (a *LargeListView) offsetAt(slot int64) int64 { return a.offsets[int64(a.data.offset)+slot] }
-
-func (a *LargeListView) sizeAt(slot int64) int64 { return a.sizes[int64(a.data.offset)+slot] }
-
-func outOfBoundsListViewOffset(l offsetsAndSizes, slot int64, offsetLimit int64) error {
-	offset := l.offsetAt(slot)
-	return fmt.Errorf("%w: Offset invariant failure: offset for slot %d out of bounds. Expected %d to be at least 0 and less than %d", arrow.ErrInvalid, slot, offset, offsetLimit)
-}
-
-func outOfBoundsListViewSize(l offsetsAndSizes, slot int64, offsetLimit int64) error {
-	size := l.sizeAt(slot)
-	if size < 0 {
-		return fmt.Errorf("%w: Offset invariant failure: size for slot %d out of bounds: %d < 0", arrow.ErrInvalid, slot, size)
-	}
-	offset := l.offsetAt(slot)
-	return fmt.Errorf("%w: Offset invariant failure: size for slot %d out of bounds: %d + %d > %d", arrow.ErrInvalid, slot, offset, size, offsetLimit)
-}
-
-// Pre-condition: Basic validation has already been performed
-func (a *array) fullyValidateOffsetsAndSizes(l offsetsAndSizes, offsetLimit int64) error {
-	for slot := int64(0); slot < int64(a.Len()); slot += 1 {
-		size := l.sizeAt(slot)
-		if size > 0 {
-			offset := l.offsetAt(slot)
-			if offset < 0 || offset > offsetLimit {
-				return outOfBoundsListViewOffset(l, slot, offsetLimit)
-			}
-			if size > offsetLimit-int64(offset) {
-				return outOfBoundsListViewSize(l, slot, offsetLimit)
-			}
-		} else if size < 0 {
-			return outOfBoundsListViewSize(l, slot, offsetLimit)
-		}
-	}
-
-	return nil
-}
-
-func (a *array) validateOffsetsAndMaybeSizes(l offsetsAndSizes, offsetByteWidth int, isListView bool, offsetLimit int64, fullValidation bool) error {
-	nonEmpty := a.Len() > 0
-	if a.data.buffers[1] == nil {
-		// For length 0, an empty offsets buffer is accepted (ARROW-544).
-		if nonEmpty {
-			return fmt.Errorf("non-empty array but offsets are null")
-		}
-		return nil
-	}
-	if isListView && a.data.buffers[2] == nil {
-		if nonEmpty {
-			return fmt.Errorf("non-empty array but sizes are null")
-		}
-		return nil
-	}
-
-	var requiredOffsets int
-	if nonEmpty {
-		requiredOffsets = a.Len() + a.Offset()
-		if !isListView {
-			requiredOffsets += 1
-		}
-	} else {
-		requiredOffsets = 0
-	}
-	offsetsByteSize := a.data.buffers[1].Len()
-	if offsetsByteSize/offsetByteWidth < requiredOffsets {
-		return fmt.Errorf("offsets buffer size (bytes): %d isn't large enough for length: %d and offset: %d",
-			offsetsByteSize, a.Len(), a.Offset())
-	}
-	if isListView {
-		requiredSizes := a.Len() + a.Offset()
-		sizesBytesSize := a.data.buffers[2].Len()
-		if sizesBytesSize/offsetByteWidth < requiredSizes {
-			return fmt.Errorf("sizes buffer size (bytes): %d isn't large enough for length: %d and offset: %d",
-				sizesBytesSize, a.Len(), a.Offset())
-		}
-	}
-
-	if fullValidation && requiredOffsets > 0 {
-		if isListView {
-			return a.fullyValidateOffsetsAndSizes(l, offsetLimit)
-		}
-		// TODO: implement validation of List and LargeList
-		// return fullyValidateOffsets(offset_limit)
-		return nil
-	}
-	return nil
-}
-
-func (a *ListView) validate(fullValidation bool) error {
-	values := a.array.data.childData[0]
-	offsetLimit := values.Len()
-	return a.array.validateOffsetsAndMaybeSizes(a, 4, true, int64(offsetLimit), fullValidation)
-}
-
-func (a *ListView) Validate() error {
-	return a.validate(false)
-}
-
-func (a *ListView) ValidateFull() error {
-	return a.validate(true)
-}
-
-func (a *LargeListView) validate(fullValidation bool) error {
-	values := a.array.data.childData[0]
-	offsetLimit := values.Len()
-	return a.array.validateOffsetsAndMaybeSizes(a, 8, true, int64(offsetLimit), fullValidation)
-}
-
-func (a *LargeListView) Validate() error {
-	return a.validate(false)
-}
-
-func (a *LargeListView) ValidateFull() error {
-	return a.validate(true)
-}
-
-type baseListViewBuilder struct {
-	builder
-
-	values  Builder // value builder for the list-view's elements.
-	offsets Builder
-	sizes   Builder
-
-	// actual list-view type
-	dt              arrow.DataType
-	appendOffsetVal func(int)
-	appendSizeVal   func(int)
-}
-
-type ListViewBuilder struct {
-	baseListViewBuilder
-}
-
-type LargeListViewBuilder struct {
-	baseListViewBuilder
-}
-
-// NewListViewBuilder returns a builder, using the provided memory allocator.
-// The created list-view builder will create a list whose elements will be
-// of type etype.
-func NewListViewBuilder(mem memory.Allocator, etype arrow.DataType) *ListViewBuilder {
-	offsetBldr := NewInt32Builder(mem)
-	sizeBldr := NewInt32Builder(mem)
-	return &ListViewBuilder{
-		baseListViewBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, etype),
-			offsets:         offsetBldr,
-			sizes:           sizeBldr,
-			dt:              arrow.ListViewOf(etype),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int32(o)) },
-			appendSizeVal:   func(s int) { sizeBldr.Append(int32(s)) },
-		},
-	}
-}
-
-// NewListViewBuilderWithField takes a field to use for the child rather than just
-// a datatype to allow for more customization.
-func NewListViewBuilderWithField(mem memory.Allocator, field arrow.Field) *ListViewBuilder {
-	offsetBldr := NewInt32Builder(mem)
-	sizeBldr := NewInt32Builder(mem)
-	return &ListViewBuilder{
-		baseListViewBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, field.Type),
-			offsets:         offsetBldr,
-			sizes:           sizeBldr,
-			dt:              arrow.ListViewOfField(field),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int32(o)) },
-			appendSizeVal:   func(s int) { sizeBldr.Append(int32(s)) },
-		},
-	}
-}
-
-func (b *baseListViewBuilder) Type() arrow.DataType {
-	switch dt := b.dt.(type) {
-	case *arrow.ListViewType:
-		f := dt.ElemField()
-		f.Type = b.values.Type()
-		return arrow.ListViewOfField(f)
-	case *arrow.LargeListViewType:
-		f := dt.ElemField()
-		f.Type = b.values.Type()
-		return arrow.LargeListViewOfField(f)
-	}
-	return nil
-}
-
-// NewLargeListViewBuilder returns a builder, using the provided memory allocator.
-// The created list-view builder will create a list whose elements will be of type etype.
-func NewLargeListViewBuilder(mem memory.Allocator, etype arrow.DataType) *LargeListViewBuilder {
-	offsetBldr := NewInt64Builder(mem)
-	sizeBldr := NewInt64Builder(mem)
-	return &LargeListViewBuilder{
-		baseListViewBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, etype),
-			offsets:         offsetBldr,
-			sizes:           sizeBldr,
-			dt:              arrow.LargeListViewOf(etype),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int64(o)) },
-			appendSizeVal:   func(s int) { sizeBldr.Append(int64(s)) },
-		},
-	}
-}
-
-// NewLargeListViewBuilderWithField takes a field rather than just an element type
-// to allow for more customization of the final type of the LargeListView Array
-func NewLargeListViewBuilderWithField(mem memory.Allocator, field arrow.Field) *LargeListViewBuilder {
-	offsetBldr := NewInt64Builder(mem)
-	sizeBldr := NewInt64Builder(mem)
-	return &LargeListViewBuilder{
-		baseListViewBuilder{
-			builder:         builder{refCount: 1, mem: mem},
-			values:          NewBuilder(mem, field.Type),
-			offsets:         offsetBldr,
-			sizes:           sizeBldr,
-			dt:              arrow.LargeListViewOfField(field),
-			appendOffsetVal: func(o int) { offsetBldr.Append(int64(o)) },
-			appendSizeVal:   func(o int) { sizeBldr.Append(int64(o)) },
-		},
-	}
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *baseListViewBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		b.values.Release()
-		b.offsets.Release()
-		b.sizes.Release()
-	}
-}
-
-func (b *baseListViewBuilder) AppendDimensions(offset int, listSize int) {
-	b.Reserve(1)
-	b.unsafeAppendBoolToBitmap(true)
-	b.appendOffsetVal(offset)
-	b.appendSizeVal(listSize)
-}
-
-func (b *baseListViewBuilder) Append(v bool) {
-	debug.Assert(false, "baseListViewBuilder.Append should never be called -- use AppendWithSize instead")
-}
-
-func (b *baseListViewBuilder) AppendWithSize(v bool, listSize int) {
-	debug.Assert(v || listSize == 0, "invalid list-view should have size 0")
-	b.Reserve(1)
-	b.unsafeAppendBoolToBitmap(v)
-	b.appendOffsetVal(b.values.Len())
-	b.appendSizeVal(listSize)
-}
-
-func (b *baseListViewBuilder) AppendNull() {
-	b.AppendWithSize(false, 0)
-}
-
-func (b *baseListViewBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *baseListViewBuilder) AppendEmptyValue() {
-	b.AppendWithSize(true, 0)
-}
-
-func (b *baseListViewBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *ListViewBuilder) AppendValuesWithSizes(offsets []int32, sizes []int32, valid []bool) {
-	b.Reserve(len(valid))
-	b.offsets.(*Int32Builder).AppendValues(offsets, nil)
-	b.sizes.(*Int32Builder).AppendValues(sizes, nil)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(valid))
-}
-
-func (b *LargeListViewBuilder) AppendValuesWithSizes(offsets []int64, sizes []int64, valid []bool) {
-	b.Reserve(len(valid))
-	b.offsets.(*Int64Builder).AppendValues(offsets, nil)
-	b.sizes.(*Int64Builder).AppendValues(sizes, nil)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(valid))
-}
-
-func (b *baseListViewBuilder) unsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-func (b *baseListViewBuilder) init(capacity int) {
-	b.builder.init(capacity)
-	b.offsets.init(capacity)
-	b.sizes.init(capacity)
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *baseListViewBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.resizeHelper)
-	b.offsets.Reserve(n)
-	b.sizes.Reserve(n)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *baseListViewBuilder) Resize(n int) {
-	b.resizeHelper(n)
-	b.offsets.Resize(n)
-	b.sizes.Resize(n)
-}
-
-func (b *baseListViewBuilder) resizeHelper(n int) {
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(n, b.builder.init)
-	}
-}
-
-func (b *baseListViewBuilder) ValueBuilder() Builder {
-	return b.values
-}
-
-// NewArray creates a ListView array from the memory buffers used by the builder and
-// resets the ListViewBuilder so it can be used to build a new array.
-func (b *ListViewBuilder) NewArray() arrow.Array {
-	return b.NewListViewArray()
-}
-
-// NewArray creates a LargeListView array from the memory buffers used by the builder
-// and resets the LargeListViewBuilder so it can be used to build a new array.
-func (b *LargeListViewBuilder) NewArray() arrow.Array {
-	return b.NewLargeListViewArray()
-}
-
-// NewListViewArray creates a ListView array from the memory buffers used by the builder
-// and resets the ListViewBuilder so it can be used to build a new array.
-func (b *ListViewBuilder) NewListViewArray() (a *ListView) {
-	data := b.newData()
-	a = NewListViewData(data)
-	data.Release()
-	return
-}
-
-// NewLargeListViewArray creates a ListView array from the memory buffers used by the
-// builder and resets the LargeListViewBuilder so it can be used to build a new array.
-func (b *LargeListViewBuilder) NewLargeListViewArray() (a *LargeListView) {
-	data := b.newData()
-	a = NewLargeListViewData(data)
-	data.Release()
-	return
-}
-
-func (b *baseListViewBuilder) newData() (data *Data) {
-	values := b.values.NewArray()
-	defer values.Release()
-
-	var offsets *memory.Buffer
-	if b.offsets != nil {
-		arr := b.offsets.NewArray()
-		defer arr.Release()
-		offsets = arr.Data().Buffers()[1]
-	}
-
-	var sizes *memory.Buffer
-	if b.sizes != nil {
-		arr := b.sizes.NewArray()
-		defer arr.Release()
-		sizes = arr.Data().Buffers()[1]
-	}
-
-	data = NewData(
-		b.Type(), b.length,
-		[]*memory.Buffer{
-			b.nullBitmap,
-			offsets,
-			sizes,
-		},
-		[]arrow.ArrayData{values.Data()},
-		b.nulls,
-		0,
-	)
-	b.reset()
-
-	return
-}
-
-func (b *baseListViewBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	return b.UnmarshalOne(json.NewDecoder(strings.NewReader(s)))
-}
-
-func (b *baseListViewBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t {
-	case json.Delim('['):
-		offset := b.values.Len()
-		// 0 is a placeholder size as we don't know the actual size yet
-		b.AppendWithSize(true, 0)
-		if err := b.values.Unmarshal(dec); err != nil {
-			return err
-		}
-		// consume ']'
-		_, err := dec.Token()
-		// replace the last size with the actual size
-		switch b.sizes.(type) {
-		case *Int32Builder:
-			b.sizes.(*Int32Builder).rawData[b.sizes.Len()-1] = int32(b.values.Len() - offset)
-		case *Int64Builder:
-			b.sizes.(*Int64Builder).rawData[b.sizes.Len()-1] = int64(b.values.Len() - offset)
-		}
-		return err
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Struct: b.dt.String(),
-		}
-	}
-
-	return nil
-}
-
-func (b *baseListViewBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *baseListViewBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("list-view builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-// Find the minimum offset+size in a LIST_VIEW/LARGE_LIST_VIEW array.
-//
-// Pre-conditions:
-//
-//	input.DataType() is ListViewType if Offset=int32 or LargeListViewType if Offset=int64
-//	input.Len() > 0 && input.NullN() != input.Len()
-func minListViewOffset[Offset int32 | int64](input arrow.ArrayData) Offset {
-	var bitmap []byte
-	if input.Buffers()[0] != nil {
-		bitmap = input.Buffers()[0].Bytes()
-	}
-	offsets := arrow.GetData[Offset](input.Buffers()[1].Bytes())[input.Offset():]
-	sizes := arrow.GetData[Offset](input.Buffers()[2].Bytes())[input.Offset():]
-
-	isNull := func(i int) bool {
-		return bitmap != nil && bitutil.BitIsNotSet(bitmap, input.Offset()+i)
-	}
-
-	// It's very likely that the first non-null non-empty list-view starts at
-	// offset 0 of the child array.
-	i := 0
-	for i < input.Len() && (isNull(i) || sizes[i] == 0) {
-		i += 1
-	}
-	if i >= input.Len() {
-		return 0
-	}
-	minOffset := offsets[i]
-	if minOffset == 0 {
-		// early exit: offset 0 found already
-		return 0
-	}
-
-	// Slow path: scan the buffers entirely.
-	i += 1
-	for ; i < input.Len(); i += 1 {
-		if isNull(i) {
-			continue
-		}
-		offset := offsets[i]
-		if offset < minOffset && sizes[i] > 0 {
-			minOffset = offset
-		}
-	}
-	return minOffset
-}
-
-// Find the maximum offset+size in a LIST_VIEW/LARGE_LIST_VIEW array.
-//
-// Pre-conditions:
-//
-//	input.DataType() is ListViewType if Offset=int32 or LargeListViewType if Offset=int64
-//	input.Len() > 0 && input.NullN() != input.Len()
-func maxListViewEnd[Offset int32 | int64](input arrow.ArrayData) Offset {
-	inputOffset := input.Offset()
-	var bitmap []byte
-	if input.Buffers()[0] != nil {
-		bitmap = input.Buffers()[0].Bytes()
-	}
-	offsets := arrow.GetData[Offset](input.Buffers()[1].Bytes())[inputOffset:]
-	sizes := arrow.GetData[Offset](input.Buffers()[2].Bytes())[inputOffset:]
-
-	isNull := func(i int) bool {
-		return bitmap != nil && bitutil.BitIsNotSet(bitmap, inputOffset+i)
-	}
-
-	i := input.Len() - 1 // safe because input.Len() > 0
-	for i != 0 && (isNull(i) || sizes[i] == 0) {
-		i -= 1
-	}
-	offset := offsets[i]
-	size := sizes[i]
-	if i == 0 {
-		if isNull(i) || sizes[i] == 0 {
-			return 0
-		} else {
-			return offset + size
-		}
-	}
-
-	values := input.Children()[0]
-	maxEnd := offsets[i] + sizes[i]
-	if maxEnd == Offset(values.Len()) {
-		// Early-exit: maximum possible view-end found already.
-		return maxEnd
-	}
-
-	// Slow path: scan the buffers entirely.
-	for ; i >= 0; i -= 1 {
-		offset := offsets[i]
-		size := sizes[i]
-		if size > 0 && !isNull(i) {
-			if offset+size > maxEnd {
-				maxEnd = offset + size
-				if maxEnd == Offset(values.Len()) {
-					return maxEnd
-				}
-			}
-		}
-	}
-	return maxEnd
-}
-
-func rangeOfValuesUsed(input arrow.ArrayData) (int, int) {
-	if input.Len() == 0 || input.NullN() == input.Len() {
-		return 0, 0
-	}
-	var minOffset, maxEnd int
-	switch input.DataType().(type) {
-	case *arrow.ListViewType:
-		minOffset = int(minListViewOffset[int32](input))
-		maxEnd = int(maxListViewEnd[int32](input))
-	case *arrow.LargeListViewType:
-		minOffset = int(minListViewOffset[int64](input))
-		maxEnd = int(maxListViewEnd[int64](input))
-	case *arrow.ListType:
-		offsets := arrow.Int32Traits.CastFromBytes(input.Buffers()[1].Bytes())[input.Offset():]
-		minOffset = int(offsets[0])
-		maxEnd = int(offsets[len(offsets)-1])
-	case *arrow.LargeListType:
-		offsets := arrow.Int64Traits.CastFromBytes(input.Buffers()[1].Bytes())[input.Offset():]
-		minOffset = int(offsets[0])
-		maxEnd = int(offsets[len(offsets)-1])
-	case *arrow.MapType:
-		offsets := arrow.Int32Traits.CastFromBytes(input.Buffers()[1].Bytes())[input.Offset():]
-		minOffset = int(offsets[0])
-		maxEnd = int(offsets[len(offsets)-1])
-	}
-	return minOffset, maxEnd - minOffset
-}
-
-// Returns the smallest contiguous range of values of the child array that are
-// referenced by all the list values in the input array.
-func RangeOfValuesUsed(input VarLenListLike) (int, int) {
-	return rangeOfValuesUsed(input.Data())
-}
-
-var (
-	_ arrow.Array = (*List)(nil)
-	_ arrow.Array = (*LargeList)(nil)
-	_ arrow.Array = (*ListView)(nil)
-	_ arrow.Array = (*LargeListView)(nil)
-
-	_ Builder = (*ListBuilder)(nil)
-	_ Builder = (*LargeListBuilder)(nil)
-	_ Builder = (*ListViewBuilder)(nil)
-	_ Builder = (*LargeListViewBuilder)(nil)
-
-	_ VarLenListLike = (*List)(nil)
-	_ VarLenListLike = (*LargeList)(nil)
-	_ VarLenListLike = (*Map)(nil)
-	_ VarLenListLike = (*ListView)(nil)
-	_ VarLenListLike = (*LargeListView)(nil)
-	_ ListLike       = (*FixedSizeList)(nil)
-
-	_ VarLenListLikeBuilder = (*ListBuilder)(nil)
-	_ VarLenListLikeBuilder = (*LargeListBuilder)(nil)
-	_ VarLenListLikeBuilder = (*ListBuilder)(nil)
-	_ VarLenListLikeBuilder = (*LargeListBuilder)(nil)
-	_ VarLenListLikeBuilder = (*MapBuilder)(nil)
-	_ ListLikeBuilder       = (*FixedSizeListBuilder)(nil)
-)
diff --git a/go/arrow/array/list_test.go b/go/arrow/array/list_test.go
deleted file mode 100644
index f6f42a31299e4..0000000000000
--- a/go/arrow/array/list_test.go
+++ /dev/null
@@ -1,864 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestListArray(t *testing.T) {
-	tests := []struct {
-		typeID  arrow.Type
-		offsets interface{}
-		sizes   interface{}
-		dt      arrow.DataType
-	}{
-		{arrow.LIST, []int32{0, 3, 3, 3, 7}, nil, arrow.ListOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST, []int64{0, 3, 3, 3, 7}, nil, arrow.LargeListOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LIST, []int32{0, 3, 3, 3, 7}, nil, arrow.ListOfField(arrow.Field{Name: "item", Type: arrow.PrimitiveTypes.Int32, Nullable: true})},
-		{arrow.LARGE_LIST, []int64{0, 3, 3, 3, 7}, nil, arrow.LargeListOfField(arrow.Field{Name: "item", Type: arrow.PrimitiveTypes.Int32, Nullable: true})},
-		{arrow.LIST_VIEW, []int32{0, 3, 3, 3}, []int32{3, 0, 0, 4}, arrow.ListViewOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST_VIEW, []int64{0, 3, 3, 3}, []int64{3, 0, 0, 4}, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			var (
-				vs      = []int32{0, 1, 2, 3, 4, 5, 6}
-				lengths = []int{3, 0, 0, 4}
-				isValid = []bool{true, false, true, true}
-			)
-
-			lb := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer lb.Release()
-
-			for i := 0; i < 10; i++ {
-				vb := lb.ValueBuilder().(*array.Int32Builder)
-				vb.Reserve(len(vs))
-
-				pos := 0
-				for i, length := range lengths {
-					lb.AppendWithSize(isValid[i], length)
-					for j := 0; j < length; j++ {
-						vb.Append(vs[pos])
-						pos++
-					}
-				}
-
-				arr := lb.NewArray().(array.ListLike)
-				defer arr.Release()
-
-				arr.Retain()
-				arr.Release()
-
-				if got, want := arr.DataType().ID(), tt.typeID; got != want {
-					t.Fatalf("got=%v, want=%v", got, want)
-				}
-
-				if got, want := arr.Len(), len(isValid); got != want {
-					t.Fatalf("got=%d, want=%d", got, want)
-				}
-
-				for i := range lengths {
-					if got, want := arr.IsValid(i), isValid[i]; got != want {
-						t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-					}
-					if got, want := arr.IsNull(i), !isValid[i]; got != want {
-						t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-					}
-				}
-
-				var gotOffsets, gotSizes interface{}
-				switch tt.typeID {
-				case arrow.LIST:
-					arr := arr.(*array.List)
-					gotOffsets = arr.Offsets()
-				case arrow.LARGE_LIST:
-					arr := arr.(*array.LargeList)
-					gotOffsets = arr.Offsets()
-				case arrow.LIST_VIEW:
-					arr := arr.(*array.ListView)
-					gotOffsets = arr.Offsets()
-					gotSizes = arr.Sizes()
-				case arrow.LARGE_LIST_VIEW:
-					arr := arr.(*array.LargeListView)
-					gotOffsets = arr.Offsets()
-					gotSizes = arr.Sizes()
-				}
-
-				if !reflect.DeepEqual(gotOffsets, tt.offsets) {
-					t.Fatalf("got=%v, want=%v", gotOffsets, tt.offsets)
-				}
-
-				if tt.typeID == arrow.LIST_VIEW || tt.typeID == arrow.LARGE_LIST_VIEW {
-					if !reflect.DeepEqual(gotSizes, tt.sizes) {
-						t.Fatalf("got=%v, want=%v", gotSizes, tt.sizes)
-					}
-				}
-
-				varr := arr.ListValues().(*array.Int32)
-				if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-					t.Fatalf("got=%v, want=%v", got, want)
-				}
-			}
-		})
-	}
-}
-
-// Like the list-view tests in TestListArray, but with out-of-order offsets.
-func TestListViewArray(t *testing.T) {
-	tests := []struct {
-		typeID  arrow.Type
-		offsets interface{}
-		sizes   interface{}
-		dt      arrow.DataType
-	}{
-		{arrow.LIST_VIEW, []int32{5, 0, 0, 1}, []int32{3, 0, 0, 4}, arrow.ListViewOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST_VIEW, []int64{5, 0, 0, 1}, []int64{3, 0, 0, 4}, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			var (
-				vs      = []int32{-1, 3, 4, 5, 6, 0, 1, 2}
-				lengths = []int{3, 0, 0, 4}
-				isValid = []bool{true, false, true, true}
-			)
-
-			lb := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer lb.Release()
-
-			for i := 0; i < 10; i++ {
-				switch lvb := lb.(type) {
-				case *array.ListViewBuilder:
-					lvb.AppendDimensions(5, 3)
-					lb.AppendNull()
-					lvb.AppendDimensions(0, 0)
-					lvb.AppendDimensions(1, 4)
-				case *array.LargeListViewBuilder:
-					lvb.AppendDimensions(5, 3)
-					lb.AppendNull()
-					lvb.AppendDimensions(0, 0)
-					lvb.AppendDimensions(1, 4)
-				}
-
-				vb := lb.ValueBuilder().(*array.Int32Builder)
-				vb.Reserve(len(vs))
-				vb.AppendValues(vs, []bool{false, true, true, true, true, true, true, true})
-
-				arr := lb.NewArray().(array.ListLike)
-				defer arr.Release()
-
-				arr.Retain()
-				arr.Release()
-
-				if got, want := arr.DataType().ID(), tt.typeID; got != want {
-					t.Fatalf("got=%v, want=%v", got, want)
-				}
-
-				if got, want := arr.Len(), len(isValid); got != want {
-					t.Fatalf("got=%d, want=%d", got, want)
-				}
-
-				for i := range lengths {
-					if got, want := arr.IsValid(i), isValid[i]; got != want {
-						t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-					}
-					if got, want := arr.IsNull(i), !isValid[i]; got != want {
-						t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-					}
-				}
-
-				var gotOffsets, gotSizes interface{}
-				switch tt.typeID {
-				case arrow.LIST_VIEW:
-					arr := arr.(*array.ListView)
-					gotOffsets = arr.Offsets()
-					gotSizes = arr.Sizes()
-				case arrow.LARGE_LIST_VIEW:
-					arr := arr.(*array.LargeListView)
-					gotOffsets = arr.Offsets()
-					gotSizes = arr.Sizes()
-				}
-
-				if !reflect.DeepEqual(gotOffsets, tt.offsets) {
-					t.Fatalf("got=%v, want=%v", gotOffsets, tt.offsets)
-				}
-
-				if !reflect.DeepEqual(gotSizes, tt.sizes) {
-					t.Fatalf("got=%v, want=%v", gotSizes, tt.sizes)
-				}
-
-				varr := arr.ListValues().(*array.Int32)
-				if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-					t.Fatalf("got=%v, want=%v", got, want)
-				}
-			}
-		})
-	}
-}
-
-func TestListArrayEmpty(t *testing.T) {
-	typ := []arrow.DataType{
-		arrow.ListOf(arrow.PrimitiveTypes.Int32),
-		arrow.LargeListOf(arrow.PrimitiveTypes.Int32),
-		arrow.ListViewOf(arrow.PrimitiveTypes.Int32),
-		arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32),
-	}
-
-	for _, dt := range typ {
-		t.Run(dt.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			lb := array.NewBuilder(pool, dt)
-			defer lb.Release()
-			arr := lb.NewArray()
-			defer arr.Release()
-			if got, want := arr.Len(), 0; got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
-
-func TestListArrayBulkAppend(t *testing.T) {
-	tests := []struct {
-		typeID  arrow.Type
-		offsets interface{}
-		sizes   interface{}
-		dt      arrow.DataType
-	}{
-		{arrow.LIST, []int32{0, 3, 3, 3, 7}, nil, arrow.ListOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST, []int64{0, 3, 3, 3, 7}, nil, arrow.LargeListOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LIST_VIEW, []int32{0, 3, 3, 3}, []int32{3, 0, 0, 4}, arrow.ListViewOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST_VIEW, []int64{0, 3, 3, 3}, []int64{3, 0, 0, 4}, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			var (
-				vs      = []int32{0, 1, 2, 3, 4, 5, 6}
-				lengths = []int{3, 0, 0, 4}
-				isValid = []bool{true, false, true, true}
-			)
-
-			lb := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer lb.Release()
-			vb := lb.ValueBuilder().(*array.Int32Builder)
-			vb.Reserve(len(vs))
-
-			switch tt.typeID {
-			case arrow.LIST:
-				lb.(*array.ListBuilder).AppendValues(tt.offsets.([]int32), isValid)
-			case arrow.LARGE_LIST:
-				lb.(*array.LargeListBuilder).AppendValues(tt.offsets.([]int64), isValid)
-			case arrow.LIST_VIEW:
-				lb.(*array.ListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int32), tt.sizes.([]int32), isValid)
-			case arrow.LARGE_LIST_VIEW:
-				lb.(*array.LargeListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int64), tt.sizes.([]int64), isValid)
-			}
-			for _, v := range vs {
-				vb.Append(v)
-			}
-
-			arr := lb.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-
-			if got, want := arr.DataType().ID(), tt.typeID; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := arr.Len(), len(isValid); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			for i := range lengths {
-				if got, want := arr.IsValid(i), isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-				if got, want := arr.IsNull(i), !isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-			}
-
-			var gotOffsets, gotSizes interface{}
-			switch tt.typeID {
-			case arrow.LIST:
-				arr := arr.(*array.List)
-				gotOffsets = arr.Offsets()
-			case arrow.LARGE_LIST:
-				arr := arr.(*array.LargeList)
-				gotOffsets = arr.Offsets()
-			case arrow.LIST_VIEW:
-				arr := arr.(*array.ListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			case arrow.LARGE_LIST_VIEW:
-				arr := arr.(*array.LargeListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			}
-
-			if !reflect.DeepEqual(gotOffsets, tt.offsets) {
-				t.Fatalf("got=%v, want=%v", gotOffsets, tt.offsets)
-			}
-			if tt.typeID == arrow.LIST_VIEW || tt.typeID == arrow.LARGE_LIST_VIEW {
-				if !reflect.DeepEqual(gotSizes, tt.sizes) {
-					t.Fatalf("got=%v, want=%v", gotSizes, tt.sizes)
-				}
-			}
-
-			varr := arr.ListValues().(*array.Int32)
-			if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestListViewArrayBulkAppend(t *testing.T) {
-	tests := []struct {
-		typeID  arrow.Type
-		offsets interface{}
-		sizes   interface{}
-		dt      arrow.DataType
-	}{
-		{arrow.LIST_VIEW, []int32{5, 0, 0, 1}, []int32{3, 0, 0, 4}, arrow.ListViewOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST_VIEW, []int64{5, 0, 0, 1}, []int64{3, 0, 0, 4}, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			var (
-				vs      = []int32{-1, 3, 4, 5, 6, 0, 1, 2}
-				lengths = []int{3, 0, 0, 4}
-				isValid = []bool{true, false, true, true}
-			)
-
-			lb := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer lb.Release()
-			vb := lb.ValueBuilder().(*array.Int32Builder)
-			vb.Reserve(len(vs))
-
-			switch tt.typeID {
-			case arrow.LIST_VIEW:
-				lb.(*array.ListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int32), tt.sizes.([]int32), isValid)
-			case arrow.LARGE_LIST_VIEW:
-				lb.(*array.LargeListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int64), tt.sizes.([]int64), isValid)
-			}
-			for _, v := range vs {
-				vb.Append(v)
-			}
-
-			arr := lb.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-
-			if got, want := arr.DataType().ID(), tt.typeID; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := arr.Len(), len(isValid); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			for i := range lengths {
-				if got, want := arr.IsValid(i), isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-				if got, want := arr.IsNull(i), !isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-			}
-
-			var gotOffsets, gotSizes interface{}
-			switch tt.typeID {
-			case arrow.LIST_VIEW:
-				arr := arr.(*array.ListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			case arrow.LARGE_LIST_VIEW:
-				arr := arr.(*array.LargeListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			}
-
-			if !reflect.DeepEqual(gotOffsets, tt.offsets) {
-				t.Fatalf("got=%v, want=%v", gotOffsets, tt.offsets)
-			}
-			if !reflect.DeepEqual(gotSizes, tt.sizes) {
-				t.Fatalf("got=%v, want=%v", gotSizes, tt.sizes)
-			}
-
-			varr := arr.ListValues().(*array.Int32)
-			if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestListArraySlice(t *testing.T) {
-	tests := []struct {
-		typeID  arrow.Type
-		offsets interface{}
-		sizes   interface{}
-		dt      arrow.DataType
-	}{
-		{arrow.LIST, []int32{0, 3, 3, 3, 7}, nil, arrow.ListOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST, []int64{0, 3, 3, 3, 7}, nil, arrow.LargeListOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LIST_VIEW, []int32{0, 3, 3, 3, 7}, []int32{3, 0, 0, 4}, arrow.ListViewOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST_VIEW, []int64{0, 3, 3, 3, 7}, []int64{3, 0, 0, 4}, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			var (
-				vs      = []int32{0, 1, 2, 3, 4, 5, 6}
-				lengths = []int{3, 0, 0, 4}
-				isValid = []bool{true, false, true, true}
-			)
-
-			lb := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer lb.Release()
-			vb := lb.ValueBuilder().(*array.Int32Builder)
-			vb.Reserve(len(vs))
-
-			switch tt.typeID {
-			case arrow.LIST:
-				lb.(*array.ListBuilder).AppendValues(tt.offsets.([]int32), isValid)
-			case arrow.LARGE_LIST:
-				lb.(*array.LargeListBuilder).AppendValues(tt.offsets.([]int64), isValid)
-			case arrow.LIST_VIEW:
-				lb.(*array.ListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int32), tt.sizes.([]int32), isValid)
-			case arrow.LARGE_LIST_VIEW:
-				lb.(*array.LargeListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int64), tt.sizes.([]int64), isValid)
-			}
-			for _, v := range vs {
-				vb.Append(v)
-			}
-
-			arr := lb.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-
-			if got, want := arr.DataType().ID(), tt.typeID; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := arr.Len(), len(isValid); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			for i := range lengths {
-				if got, want := arr.IsValid(i), isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-				if got, want := arr.IsNull(i), !isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-			}
-
-			var gotOffsets, gotSizes interface{}
-			switch tt.typeID {
-			case arrow.LIST:
-				arr := arr.(*array.List)
-				gotOffsets = arr.Offsets()
-			case arrow.LARGE_LIST:
-				arr := arr.(*array.LargeList)
-				gotOffsets = arr.Offsets()
-			case arrow.LIST_VIEW:
-				arr := arr.(*array.ListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			case arrow.LARGE_LIST_VIEW:
-				arr := arr.(*array.LargeListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			}
-
-			if !reflect.DeepEqual(gotOffsets, tt.offsets) {
-				t.Fatalf("got=%v, want=%v", gotOffsets, tt.offsets)
-			}
-
-			if tt.typeID == arrow.LIST_VIEW || tt.typeID == arrow.LARGE_LIST_VIEW {
-				if !reflect.DeepEqual(gotSizes, tt.sizes) {
-					t.Fatalf("got=%v, want=%v", gotSizes, tt.sizes)
-				}
-			}
-
-			varr := arr.ListValues().(*array.Int32)
-			if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := arr.String(), `[[0 1 2] (null) [] [3 4 5 6]]`; got != want {
-				t.Fatalf("got=%q, want=%q", got, want)
-			}
-			assert.Equal(t, "[0,1,2]", arr.ValueStr(0))
-
-			sub := array.NewSlice(arr, 1, 4).(array.ListLike)
-			defer sub.Release()
-
-			if got, want := sub.String(), `[(null) [] [3 4 5 6]]`; got != want {
-				t.Fatalf("got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestListViewArraySlice(t *testing.T) {
-	tests := []struct {
-		typeID  arrow.Type
-		offsets interface{}
-		sizes   interface{}
-		dt      arrow.DataType
-	}{
-		{arrow.LIST_VIEW, []int32{5, 0, 0, 1}, []int32{3, 0, 0, 4}, arrow.ListViewOf(arrow.PrimitiveTypes.Int32)},
-		{arrow.LARGE_LIST_VIEW, []int64{5, 0, 0, 1}, []int64{3, 0, 0, 4}, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int32)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			var (
-				vs      = []int32{-1, 3, 4, 5, 6, 0, 1, 2}
-				lengths = []int{3, 0, 0, 4}
-				isValid = []bool{true, false, true, true}
-			)
-
-			lb := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer lb.Release()
-			vb := lb.ValueBuilder().(*array.Int32Builder)
-			vb.Reserve(len(vs))
-
-			switch tt.typeID {
-			case arrow.LIST_VIEW:
-				lb.(*array.ListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int32), tt.sizes.([]int32), isValid)
-			case arrow.LARGE_LIST_VIEW:
-				lb.(*array.LargeListViewBuilder).AppendValuesWithSizes(tt.offsets.([]int64), tt.sizes.([]int64), isValid)
-			}
-			for _, v := range vs {
-				vb.Append(v)
-			}
-
-			arr := lb.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-
-			if got, want := arr.DataType().ID(), tt.typeID; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := arr.Len(), len(isValid); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			for i := range lengths {
-				if got, want := arr.IsValid(i), isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-				if got, want := arr.IsNull(i), !isValid[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-			}
-
-			var gotOffsets, gotSizes interface{}
-			switch tt.typeID {
-			case arrow.LIST_VIEW:
-				arr := arr.(*array.ListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			case arrow.LARGE_LIST_VIEW:
-				arr := arr.(*array.LargeListView)
-				gotOffsets = arr.Offsets()
-				gotSizes = arr.Sizes()
-			}
-
-			if !reflect.DeepEqual(gotOffsets, tt.offsets) {
-				t.Fatalf("got=%v, want=%v", gotOffsets, tt.offsets)
-			}
-
-			if !reflect.DeepEqual(gotSizes, tt.sizes) {
-				t.Fatalf("got=%v, want=%v", gotSizes, tt.sizes)
-			}
-
-			varr := arr.ListValues().(*array.Int32)
-			if got, want := varr.Int32Values(), vs; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := arr.String(), `[[0 1 2] (null) [] [3 4 5 6]]`; got != want {
-				t.Fatalf("got=%q, want=%q", got, want)
-			}
-			assert.Equal(t, "[0,1,2]", arr.ValueStr(0))
-
-			sub := array.NewSlice(arr, 1, 4).(array.ListLike)
-			defer sub.Release()
-
-			if got, want := sub.String(), `[(null) [] [3 4 5 6]]`; got != want {
-				t.Fatalf("got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestVarLenListLikeStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	builders := []array.VarLenListLikeBuilder{
-		array.NewListBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewLargeListBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewLargeListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-	}
-
-	builders1 := []array.VarLenListLikeBuilder{
-		array.NewListBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewLargeListBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewLargeListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-	}
-
-	for i, b := range builders {
-		defer b.Release()
-
-		vb := b.ValueBuilder().(*array.Int32Builder)
-
-		var values = [][]int32{
-			{0, 1, 2, 3, 4, 5, 6},
-			{1, 2, 3, 4, 5, 6, 7},
-			{2, 3, 4, 5, 6, 7, 8},
-			{3, 4, 5, 6, 7, 8, 9},
-		}
-		for _, value := range values {
-			b.AppendNull()
-			b.AppendWithSize(true, 2*len(value))
-			for _, el := range value {
-				vb.Append(el)
-				vb.AppendNull()
-			}
-			b.AppendWithSize(false, 0)
-		}
-
-		arr := b.NewArray()
-		defer arr.Release()
-
-		// 2. create array via AppendValueFromString
-		b1 := builders1[i]
-		defer b1.Release()
-
-		for i := 0; i < arr.Len(); i++ {
-			assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-		}
-
-		arr1 := b1.NewArray()
-		defer arr1.Release()
-
-		assert.True(t, array.Equal(arr, arr1))
-	}
-}
-
-// Test the string roun-trip for a list-view containing out-of-order offsets.
-func TestListViewStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	builders := []array.VarLenListLikeBuilder{
-		array.NewListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewLargeListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-	}
-
-	builders1 := []array.VarLenListLikeBuilder{
-		array.NewListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-		array.NewLargeListViewBuilder(mem, arrow.PrimitiveTypes.Int32),
-	}
-
-	for i, b := range builders {
-		defer b.Release()
-
-		switch lvb := b.(type) {
-		case *array.ListViewBuilder:
-			lvb.AppendDimensions(5, 3)
-			b.AppendNull()
-			lvb.AppendDimensions(0, 0)
-			lvb.AppendDimensions(1, 4)
-		case *array.LargeListViewBuilder:
-			lvb.AppendDimensions(5, 3)
-			b.AppendNull()
-			lvb.AppendDimensions(0, 0)
-			lvb.AppendDimensions(1, 4)
-		}
-
-		vb := b.ValueBuilder().(*array.Int32Builder)
-
-		vs := []int32{-1, 3, 4, 5, 6, 0, 1, 2}
-		isValid := []bool{false, true, true, true, true, true, true, true}
-		vb.Reserve(len(vs))
-		vb.AppendValues(vs, isValid)
-
-		arr := b.NewArray()
-		defer arr.Release()
-
-		// 2. create array via AppendValueFromString
-		b1 := builders1[i]
-		defer b1.Release()
-
-		for i := 0; i < arr.Len(); i++ {
-			assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-		}
-
-		arr1 := b1.NewArray()
-		defer arr1.Release()
-
-		assert.True(t, array.Equal(arr, arr1))
-	}
-}
-
-func TestRangeOfValuesUsed(t *testing.T) {
-	tests := []struct {
-		typeID arrow.Type
-		dt     arrow.DataType
-	}{
-		{arrow.LIST, arrow.ListOf(arrow.PrimitiveTypes.Int16)},
-		{arrow.LARGE_LIST, arrow.LargeListOf(arrow.PrimitiveTypes.Int16)},
-		{arrow.LIST_VIEW, arrow.ListViewOf(arrow.PrimitiveTypes.Int16)},
-		{arrow.LARGE_LIST_VIEW, arrow.LargeListViewOf(arrow.PrimitiveTypes.Int16)},
-	}
-	for _, tt := range tests {
-		t.Run(tt.typeID.String(), func(t *testing.T) {
-			pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer pool.AssertSize(t, 0)
-
-			isListView := tt.typeID == arrow.LIST_VIEW || tt.typeID == arrow.LARGE_LIST_VIEW
-
-			bldr := array.NewBuilder(pool, tt.dt).(array.VarLenListLikeBuilder)
-			defer bldr.Release()
-
-			var arr array.VarLenListLike
-
-			// Empty array
-			arr = bldr.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-			offset, len := array.RangeOfValuesUsed(arr)
-			assert.Equal(t, 0, offset)
-			assert.Equal(t, 0, len)
-
-			// List-like array with only nulls
-			bldr.AppendNulls(3)
-			arr = bldr.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-			offset, len = array.RangeOfValuesUsed(arr)
-			assert.Equal(t, 0, offset)
-			assert.Equal(t, 0, len)
-
-			// Array with nulls and non-nulls (starting at a non-zero offset)
-			vb := bldr.ValueBuilder().(*array.Int16Builder)
-			vb.Append(-2)
-			vb.Append(-1)
-			bldr.AppendWithSize(false, 0)
-			bldr.AppendWithSize(true, 2)
-			vb.Append(0)
-			vb.Append(1)
-			bldr.AppendWithSize(true, 3)
-			vb.Append(2)
-			vb.Append(3)
-			vb.Append(4)
-			if isListView {
-				vb.Append(10)
-				vb.Append(11)
-			}
-			arr = bldr.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-			offset, len = array.RangeOfValuesUsed(arr)
-			assert.Equal(t, 2, offset)
-			assert.Equal(t, 5, len)
-
-			// Overlapping list-views
-			// [null, [0, 1, 2, 3, 4, 5], [1, 2], null, [4], null, null]
-			vb = bldr.ValueBuilder().(*array.Int16Builder)
-			vb.Append(-2)
-			vb.Append(-1)
-			bldr.AppendWithSize(false, 0)
-			if isListView {
-				bldr.AppendWithSize(true, 6)
-				vb.Append(0)
-				bldr.AppendWithSize(true, 2)
-				vb.Append(1)
-				vb.Append(2)
-				vb.Append(3)
-				bldr.AppendWithSize(false, 0)
-				bldr.AppendWithSize(true, 1)
-				vb.Append(4)
-				vb.Append(5)
-				// -- used range ends here --
-				vb.Append(10)
-				vb.Append(11)
-			} else {
-				bldr.AppendWithSize(true, 6)
-				vb.Append(0)
-				vb.Append(1)
-				vb.Append(2)
-				vb.Append(3)
-				vb.Append(4)
-				vb.Append(5)
-				bldr.AppendWithSize(true, 2)
-				vb.Append(1)
-				vb.Append(2)
-				bldr.AppendWithSize(false, 0)
-				bldr.AppendWithSize(true, 1)
-				vb.Append(4)
-			}
-			bldr.AppendNulls(2)
-			arr = bldr.NewArray().(array.VarLenListLike)
-			defer arr.Release()
-
-			// Check the range
-			offset, len = array.RangeOfValuesUsed(arr)
-			assert.Equal(t, 2, offset)
-			if isListView {
-				assert.Equal(t, 6, len)
-			} else {
-				assert.Equal(t, 9, len)
-			}
-		})
-	}
-}
diff --git a/go/arrow/array/map.go b/go/arrow/array/map.go
deleted file mode 100644
index a692c2cd6d71a..0000000000000
--- a/go/arrow/array/map.go
+++ /dev/null
@@ -1,361 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Map represents an immutable sequence of Key/Value structs. It is a
-// logical type that is implemented as a List<Struct: key, value>.
-type Map struct {
-	*List
-	keys, items arrow.Array
-}
-
-var _ ListLike = (*Map)(nil)
-
-// NewMapData returns a new Map array value, from data
-func NewMapData(data arrow.ArrayData) *Map {
-	a := &Map{List: &List{}}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// KeysSorted checks the datatype that was used to construct this array and
-// returns the KeysSorted boolean value used to denote if the key array is
-// sorted for each list element.
-//
-// Important note: Nothing is enforced regarding the KeysSorted value, it is
-// solely a metadata field that should be set if keys within each value are sorted.
-// This value is not used at all in regards to comparisons / equality.
-func (a *Map) KeysSorted() bool { return a.DataType().(*arrow.MapType).KeysSorted }
-
-func (a *Map) validateData(data *Data) {
-	if len(data.childData) != 1 || data.childData[0] == nil {
-		panic("arrow/array: expected one child array for map array")
-	}
-
-	if data.childData[0].DataType().ID() != arrow.STRUCT {
-		panic("arrow/array: map array child should be struct type")
-	}
-
-	if data.childData[0].NullN() != 0 {
-		panic("arrow/array: map array child array should have no nulls")
-	}
-
-	if len(data.childData[0].Children()) != 2 {
-		panic("arrow/array: map array child array should have two fields")
-	}
-
-	if data.childData[0].Children()[0].NullN() != 0 {
-		panic("arrow/array: map array keys array should have no nulls")
-	}
-}
-
-func (a *Map) setData(data *Data) {
-	a.validateData(data)
-
-	a.List.setData(data)
-	a.keys = MakeFromData(data.childData[0].Children()[0])
-	a.items = MakeFromData(data.childData[0].Children()[1])
-}
-
-// Keys returns the full Array of Key values, equivalent to grabbing
-// the key field of the child struct.
-func (a *Map) Keys() arrow.Array { return a.keys }
-
-// Items returns the full Array of Item values, equivalent to grabbing
-// the Value field (the second field) of the child struct.
-func (a *Map) Items() arrow.Array { return a.items }
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (a *Map) Retain() {
-	a.List.Retain()
-	a.keys.Retain()
-	a.items.Retain()
-}
-
-// Release decreases the reference count by 1.
-// Release may be called simultaneously from multiple goroutines.
-// When the reference count goes to zero, the memory is freed.
-func (a *Map) Release() {
-	a.List.Release()
-	a.keys.Release()
-	a.items.Release()
-}
-
-func arrayEqualMap(left, right *Map) bool {
-	// since Map is implemented using a list, we can just use arrayEqualList
-	return arrayEqualList(left.List, right.List)
-}
-
-type MapBuilder struct {
-	listBuilder *ListBuilder
-
-	etype                   *arrow.MapType
-	keytype, itemtype       arrow.DataType
-	keyBuilder, itemBuilder Builder
-	keysSorted              bool
-}
-
-// NewMapBuilder returns a builder, using the provided memory allocator.
-// The created Map builder will create a map array whose keys will be a non-nullable
-// array of type `keytype` and whose mapped items will be a nullable array of itemtype.
-//
-// KeysSorted is not enforced at all by the builder, it should only be set to true
-// building using keys in sorted order for each value. The KeysSorted value will just be
-// used when creating the DataType for the map.
-//
-// # Example
-//
-// Simple example provided of converting a []map[string]int32 to an array.Map
-// by using a MapBuilder:
-//
-//	/* assume maplist == []map[string]int32 */
-//	bldr := array.NewMapBuilder(memory.DefaultAllocator, arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32, false)
-//	defer bldr.Release()
-//	kb := bldr.KeyBuilder().(*array.StringBuilder)
-//	ib := bldr.ItemBuilder().(*array.Int32Builder)
-//	for _, m := range maplist {
-//	    bldr.Append(true)
-//	    for k, v := range m {
-//	         kb.Append(k)
-//	         ib.Append(v)
-//	    }
-//	}
-//	maparr := bldr.NewMapArray()
-//	defer maparr.Release()
-func NewMapBuilder(mem memory.Allocator, keytype, itemtype arrow.DataType, keysSorted bool) *MapBuilder {
-	etype := arrow.MapOf(keytype, itemtype)
-	etype.KeysSorted = keysSorted
-	listBldr := NewListBuilder(mem, etype.Elem())
-	keyBldr := listBldr.ValueBuilder().(*StructBuilder).FieldBuilder(0)
-	keyBldr.Retain()
-	itemBldr := listBldr.ValueBuilder().(*StructBuilder).FieldBuilder(1)
-	itemBldr.Retain()
-	return &MapBuilder{
-		listBuilder: listBldr,
-		keyBuilder:  keyBldr,
-		itemBuilder: itemBldr,
-		etype:       etype,
-		keytype:     keytype,
-		itemtype:    itemtype,
-		keysSorted:  keysSorted,
-	}
-}
-
-func NewMapBuilderWithType(mem memory.Allocator, dt *arrow.MapType) *MapBuilder {
-	listBldr := NewListBuilder(mem, dt.Elem())
-	keyBldr := listBldr.ValueBuilder().(*StructBuilder).FieldBuilder(0)
-	keyBldr.Retain()
-	itemBldr := listBldr.ValueBuilder().(*StructBuilder).FieldBuilder(1)
-	itemBldr.Retain()
-	return &MapBuilder{
-		listBuilder: listBldr,
-		keyBuilder:  keyBldr,
-		itemBuilder: itemBldr,
-		etype:       dt,
-		keytype:     dt.KeyType(),
-		itemtype:    dt.ItemType(),
-		keysSorted:  dt.KeysSorted,
-	}
-}
-
-func (b *MapBuilder) Type() arrow.DataType { return b.etype }
-
-// Retain increases the reference count by 1 for the sub-builders (list, key, item).
-// Retain may be called simultaneously from multiple goroutines.
-func (b *MapBuilder) Retain() {
-	b.listBuilder.Retain()
-	b.keyBuilder.Retain()
-	b.itemBuilder.Retain()
-}
-
-// Release decreases the reference count by 1 for the sub builders (list, key, item).
-func (b *MapBuilder) Release() {
-	b.listBuilder.Release()
-	b.keyBuilder.Release()
-	b.itemBuilder.Release()
-}
-
-// Len returns the current number of Maps that are in the builder
-func (b *MapBuilder) Len() int { return b.listBuilder.Len() }
-
-// Cap returns the total number of elements that can be stored
-// without allocating additional memory.
-func (b *MapBuilder) Cap() int { return b.listBuilder.Cap() }
-
-// NullN returns the number of null values in the array builder.
-func (b *MapBuilder) NullN() int { return b.listBuilder.NullN() }
-
-// IsNull returns if a previously appended value at a given index is null or not.
-func (b *MapBuilder) IsNull(i int) bool {
-	return b.listBuilder.IsNull(i)
-}
-
-// Append adds a new Map element to the array, calling Append(false) is
-// equivalent to calling AppendNull.
-func (b *MapBuilder) Append(v bool) {
-	b.adjustStructBuilderLen()
-	b.listBuilder.Append(v)
-}
-
-func (b *MapBuilder) AppendWithSize(v bool, _ int) {
-	b.Append(v)
-}
-
-// AppendNull adds a null map entry to the array.
-func (b *MapBuilder) AppendNull() {
-	b.Append(false)
-}
-
-// AppendNulls adds null map entry to the array.
-func (b *MapBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *MapBuilder) SetNull(i int) {
-	b.listBuilder.SetNull(i)
-}
-
-func (b *MapBuilder) AppendEmptyValue() {
-	b.Append(true)
-}
-
-func (b *MapBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-// Reserve enough space for n maps
-func (b *MapBuilder) Reserve(n int) { b.listBuilder.Reserve(n) }
-
-// Resize adjust the space allocated by b to n map elements. If n is greater than
-// b.Cap(), additional memory will be allocated. If n is smaller, the allocated memory may be reduced.
-func (b *MapBuilder) Resize(n int) { b.listBuilder.Resize(n) }
-
-// AppendValues is for bulk appending a group of elements with offsets provided
-// and validity booleans provided.
-func (b *MapBuilder) AppendValues(offsets []int32, valid []bool) {
-	b.adjustStructBuilderLen()
-	b.listBuilder.AppendValues(offsets, valid)
-}
-
-func (b *MapBuilder) UnsafeAppendBoolToBitmap(v bool) {
-	b.listBuilder.UnsafeAppendBoolToBitmap(v)
-}
-
-func (b *MapBuilder) init(capacity int)                  { b.listBuilder.init(capacity) }
-func (b *MapBuilder) resize(newBits int, init func(int)) { b.listBuilder.resize(newBits, init) }
-
-func (b *MapBuilder) adjustStructBuilderLen() {
-	sb := b.listBuilder.ValueBuilder().(*StructBuilder)
-	if sb.Len() < b.keyBuilder.Len() {
-		valids := make([]bool, b.keyBuilder.Len()-sb.Len())
-		for i := range valids {
-			valids[i] = true
-		}
-		sb.AppendValues(valids)
-	}
-}
-
-// NewArray creates a new Map array from the memory buffers used by the builder, and
-// resets the builder so it can be used again to build a new Map array.
-func (b *MapBuilder) NewArray() arrow.Array {
-	return b.NewMapArray()
-}
-
-// NewMapArray creates a new Map array from the memory buffers used by the builder, and
-// resets the builder so it can be used again to build a new Map array.
-func (b *MapBuilder) NewMapArray() (a *Map) {
-	if !b.etype.ItemField().Nullable && b.ItemBuilder().NullN() > 0 {
-		panic("arrow/array: item not nullable")
-	}
-
-	data := b.newData()
-	defer data.Release()
-	a = NewMapData(data)
-	return
-}
-
-func (b *MapBuilder) newData() (data *Data) {
-	b.adjustStructBuilderLen()
-	values := b.listBuilder.NewListArray()
-	defer values.Release()
-
-	data = NewData(b.etype,
-		values.Len(), values.data.buffers,
-		values.data.childData, values.NullN(), 0)
-	return
-}
-
-// KeyBuilder returns a builder that can be used to populate the keys of the maps.
-func (b *MapBuilder) KeyBuilder() Builder { return b.keyBuilder }
-
-// ItemBuilder returns a builder that can be used to populate the values that the
-// keys point to.
-func (b *MapBuilder) ItemBuilder() Builder { return b.itemBuilder }
-
-// ValueBuilder can be used instead of separately using the Key/Item builders
-// to build the list as a List of Structs rather than building the keys/items
-// separately.
-func (b *MapBuilder) ValueBuilder() Builder {
-	return b.listBuilder.ValueBuilder()
-}
-
-func (b *MapBuilder) AppendValueFromString(s string) error {
-	return b.listBuilder.AppendValueFromString(s)
-}
-
-func (b *MapBuilder) UnmarshalOne(dec *json.Decoder) error {
-	return b.listBuilder.UnmarshalOne(dec)
-}
-
-func (b *MapBuilder) Unmarshal(dec *json.Decoder) error {
-	return b.listBuilder.Unmarshal(dec)
-}
-
-func (b *MapBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("map builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array     = (*Map)(nil)
-	_ Builder         = (*MapBuilder)(nil)
-	_ ListLikeBuilder = (*MapBuilder)(nil)
-)
diff --git a/go/arrow/array/map_test.go b/go/arrow/array/map_test.go
deleted file mode 100644
index e73508e6afe11..0000000000000
--- a/go/arrow/array/map_test.go
+++ /dev/null
@@ -1,254 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"strconv"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestMapArray(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		arr, equalArr, unequalArr *array.Map
-
-		equalValid     = []bool{true, true, true, true, true, true, true}
-		equalOffsets   = []int32{0, 1, 2, 5, 6, 7, 8, 10}
-		equalKeys      = []string{"a", "a", "a", "b", "c", "a", "a", "a", "a", "b"}
-		equalValues    = []int32{1, 2, 3, 4, 5, 2, 2, 2, 5, 6}
-		unequalValid   = []bool{true, true, true}
-		unequalOffsets = []int32{0, 1, 4, 7}
-		unequalKeys    = []string{"a", "a", "b", "c", "a", "b", "c"}
-		unequalValues  = []int32{1, 2, 2, 2, 3, 4, 5}
-	)
-
-	bldr := array.NewMapBuilder(pool, arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32, false)
-	defer bldr.Release()
-
-	kb := bldr.KeyBuilder().(*array.StringBuilder)
-	ib := bldr.ItemBuilder().(*array.Int32Builder)
-
-	bldr.AppendValues(equalOffsets, equalValid)
-	for _, k := range equalKeys {
-		kb.Append(k)
-	}
-	ib.AppendValues(equalValues, nil)
-
-	assert.Equal(t, len(equalValid), bldr.Len())
-	assert.Zero(t, bldr.NullN())
-
-	arr = bldr.NewMapArray()
-	defer arr.Release()
-
-	bldr.AppendValues(equalOffsets, equalValid)
-	for _, k := range equalKeys {
-		kb.Append(k)
-	}
-	ib.AppendValues(equalValues, nil)
-
-	equalArr = bldr.NewMapArray()
-	defer equalArr.Release()
-
-	bldr.AppendValues(unequalOffsets, unequalValid)
-	for _, k := range unequalKeys {
-		kb.Append(k)
-	}
-	ib.AppendValues(unequalValues, nil)
-
-	unequalArr = bldr.NewMapArray()
-	defer unequalArr.Release()
-
-	assert.True(t, array.Equal(arr, arr))
-	assert.True(t, array.Equal(arr, equalArr))
-	assert.True(t, array.Equal(equalArr, arr))
-	assert.False(t, array.Equal(equalArr, unequalArr))
-	assert.False(t, array.Equal(unequalArr, equalArr))
-
-	assert.True(t, array.SliceEqual(arr, 0, 1, unequalArr, 0, 1))
-	assert.False(t, array.SliceEqual(arr, 0, 2, unequalArr, 0, 2))
-	assert.False(t, array.SliceEqual(arr, 1, 2, unequalArr, 1, 2))
-	assert.True(t, array.SliceEqual(arr, 2, 3, unequalArr, 2, 3))
-
-	t.Run("items non nullable", func(t *testing.T) {
-		mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-		defer mem.AssertSize(t, 0)
-
-		dt := arrow.MapOf(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int16)
-		dt.KeysSorted = true
-		dt.SetItemNullable(false)
-
-		bldr := array.NewBuilder(pool, dt).(*array.MapBuilder)
-		defer bldr.Release()
-
-		kb := bldr.KeyBuilder().(*array.Int16Builder)
-		ib := bldr.ItemBuilder().(*array.Int16Builder)
-
-		bldr.Append(true)
-		kb.Append(1)
-		ib.AppendNull()
-
-		assert.Panics(t, func() {
-			_ = bldr.NewArray()
-		})
-	})
-}
-
-func TestMapArrayBuildIntToInt(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		dtype      = arrow.MapOf(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int16)
-		keys       = []int16{0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5}
-		items      = []int16{1, 1, 2, 3, 5, 8, -1, -1, 0, 1, -1, 2}
-		validItems = []bool{true, true, true, true, true, true, false, false, true, true, false, true}
-		offsets    = []int32{0, 6, 6, 12, 12}
-		validMaps  = []bool{true, false, true, true}
-	)
-
-	bldr := array.NewBuilder(pool, dtype).(*array.MapBuilder)
-	defer bldr.Release()
-
-	bldr.Reserve(len(validMaps))
-
-	kb := bldr.KeyBuilder().(*array.Int16Builder)
-	ib := bldr.ItemBuilder().(*array.Int16Builder)
-
-	bldr.Append(true)
-	kb.AppendValues(keys[:6], nil)
-	ib.AppendValues(items[:6], nil)
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	kb.AppendValues(keys[6:], nil)
-	ib.AppendValues(items[6:], []bool{false, false, true, true, false, true})
-
-	bldr.Append(true)
-	arr := bldr.NewArray().(*array.Map)
-	defer arr.Release()
-
-	assert.Equal(t, arrow.MAP, arr.DataType().ID())
-	assert.EqualValues(t, len(validMaps), arr.Len())
-
-	for i, ex := range validMaps {
-		assert.Equal(t, ex, arr.IsValid(i))
-		assert.Equal(t, !ex, arr.IsNull(i))
-	}
-
-	assert.Equal(t, offsets, arr.Offsets())
-	assert.Equal(t, keys, arr.Keys().(*array.Int16).Int16Values())
-
-	itemArr := arr.Items().(*array.Int16)
-	for i, ex := range validItems {
-		if ex {
-			assert.True(t, itemArr.IsValid(i))
-			assert.False(t, itemArr.IsNull(i))
-			assert.Equal(t, items[i], itemArr.Value(i))
-		} else {
-			assert.False(t, itemArr.IsValid(i))
-			assert.True(t, itemArr.IsNull(i))
-		}
-	}
-
-	assert.Equal(t, "[{[0 1 2 3 4 5] [1 1 2 3 5 8]} (null) {[0 1 2 3 4 5] [(null) (null) 0 1 (null) 2]} {[] []}]", arr.String())
-}
-
-func TestMapStringRoundTrip(t *testing.T) {
-	// 1. create array
-	dt := arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32)
-
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewMapBuilderWithType(mem, dt)
-	defer b.Release()
-
-	kb := b.KeyBuilder().(*array.StringBuilder)
-	ib := b.ItemBuilder().(*array.Int32Builder)
-
-	for n := 0; n < 10; n++ {
-		b.AppendNull()
-		b.Append(true)
-
-		for r := 'a'; r <= 'z'; r++ {
-			kb.Append(string(r) + strconv.Itoa(n))
-			if (n+int(r))%2 == 0 {
-				ib.AppendNull()
-			} else {
-				ib.Append(int32(n + int(r)))
-			}
-		}
-	}
-
-	arr := b.NewArray().(*array.Map)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewMapBuilderWithType(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Map)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestMapBuilder_SetNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		arr          *array.Map
-		equalValid   = []bool{true, true, true, true, true, true, true}
-		equalOffsets = []int32{0, 1, 2, 5, 6, 7, 8, 10}
-		equalKeys    = []string{"a", "a", "a", "b", "c", "a", "a", "a", "a", "b"}
-		equalValues  = []int32{1, 2, 3, 4, 5, 2, 2, 2, 5, 6}
-	)
-
-	bldr := array.NewMapBuilder(pool, arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32, false)
-	defer bldr.Release()
-
-	kb := bldr.KeyBuilder().(*array.StringBuilder)
-	ib := bldr.ItemBuilder().(*array.Int32Builder)
-
-	bldr.AppendValues(equalOffsets, equalValid)
-	for _, k := range equalKeys {
-		kb.Append(k)
-	}
-	ib.AppendValues(equalValues, nil)
-
-	bldr.SetNull(0)
-	bldr.SetNull(3)
-
-	arr = bldr.NewMapArray()
-	defer arr.Release()
-
-	assert.True(t, arr.IsNull(0))
-	assert.True(t, arr.IsValid(1))
-	assert.True(t, arr.IsNull(3))
-}
diff --git a/go/arrow/array/null.go b/go/arrow/array/null.go
deleted file mode 100644
index 6dccd3af59f2a..0000000000000
--- a/go/arrow/array/null.go
+++ /dev/null
@@ -1,218 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Null represents an immutable, degenerate array with no physical storage.
-type Null struct {
-	array
-}
-
-// NewNull returns a new Null array value of size n.
-func NewNull(n int) *Null {
-	a := &Null{}
-	a.refCount = 1
-	data := NewData(
-		arrow.Null, n,
-		[]*memory.Buffer{nil},
-		nil,
-		n,
-		0,
-	)
-	a.setData(data)
-	data.Release()
-	return a
-}
-
-// NewNullData returns a new Null array value, from data.
-func NewNullData(data arrow.ArrayData) *Null {
-	a := &Null{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *Null) ValueStr(int) string { return NullValueStr }
-
-func (a *Null) Value(int) interface{} { return nil }
-
-func (a *Null) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		o.WriteString(NullValueStr)
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Null) setData(data *Data) {
-	a.array.setData(data)
-	a.array.nullBitmapBytes = nil
-	a.array.data.nulls = a.array.data.length
-}
-
-func (a *Null) GetOneForMarshal(i int) interface{} {
-	return nil
-}
-
-func (a *Null) MarshalJSON() ([]byte, error) {
-	return json.Marshal(make([]interface{}, a.Len()))
-}
-
-type NullBuilder struct {
-	builder
-}
-
-// NewNullBuilder returns a builder, using the provided memory allocator.
-func NewNullBuilder(mem memory.Allocator) *NullBuilder {
-	return &NullBuilder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *NullBuilder) Type() arrow.DataType { return arrow.Null }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *NullBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-	}
-}
-
-func (b *NullBuilder) AppendNull() {
-	b.builder.length++
-	b.builder.nulls++
-}
-
-func (b *NullBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *NullBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	return fmt.Errorf("cannot convert %q to null", s)
-}
-
-func (b *NullBuilder) AppendEmptyValue() { b.AppendNull() }
-
-func (b *NullBuilder) AppendEmptyValues(n int) { b.AppendNulls(n) }
-
-func (*NullBuilder) Reserve(size int) {}
-func (*NullBuilder) Resize(size int)  {}
-
-func (*NullBuilder) init(cap int)                       {}
-func (*NullBuilder) resize(newBits int, init func(int)) {}
-
-// NewArray creates a Null array from the memory buffers used by the builder and resets the NullBuilder
-// so it can be used to build a new array.
-func (b *NullBuilder) NewArray() arrow.Array {
-	return b.NewNullArray()
-}
-
-// NewNullArray creates a Null array from the memory buffers used by the builder and resets the NullBuilder
-// so it can be used to build a new array.
-func (b *NullBuilder) NewNullArray() (a *Null) {
-	data := b.newData()
-	a = NewNullData(data)
-	data.Release()
-	return
-}
-
-func (b *NullBuilder) newData() (data *Data) {
-	data = NewData(
-		arrow.Null, b.length,
-		[]*memory.Buffer{nil},
-		nil,
-		b.nulls,
-		0,
-	)
-	b.reset()
-
-	return
-}
-
-func (b *NullBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t.(type) {
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(nil),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *NullBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *NullBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("null builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*Null)(nil)
-	_ Builder     = (*NullBuilder)(nil)
-)
diff --git a/go/arrow/array/null_test.go b/go/arrow/array/null_test.go
deleted file mode 100644
index 61ccb472b1f7b..0000000000000
--- a/go/arrow/array/null_test.go
+++ /dev/null
@@ -1,110 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestNullArray(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	b := array.NewNullBuilder(pool)
-	defer b.Release()
-
-	b.AppendNull()
-	b.AppendNulls(2)
-	b.AppendEmptyValue()
-	b.AppendEmptyValues(2)
-
-	arr1 := b.NewArray().(*array.Null)
-	defer arr1.Release()
-
-	if got, want := arr1.Len(), 6; got != want {
-		t.Fatalf("invalid null array length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr1.NullN(), 6; got != want {
-		t.Fatalf("invalid number of nulls: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr1.DataType(), arrow.Null; got != want {
-		t.Fatalf("invalid null data type: got=%v, want=%v", got, want)
-	}
-
-	arr1.Retain()
-	arr1.Release()
-
-	if arr1.Data() == nil {
-		t.Fatalf("invalid null data")
-	}
-
-	arr2 := b.NewNullArray()
-	defer arr2.Release()
-
-	if got, want := arr2.Len(), 0; got != want {
-		t.Fatalf("invalid null array length: got=%d, want=%d", got, want)
-	}
-
-	arr3 := array.NewNull(10)
-	defer arr3.Release()
-
-	if got, want := arr3.Len(), 10; got != want {
-		t.Fatalf("invalid null array length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr3.NullN(), 10; got != want {
-		t.Fatalf("invalid number of nulls: got=%d, want=%d", got, want)
-	}
-
-}
-
-func TestNullStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewNullBuilder(mem)
-	defer b.Release()
-
-	b.AppendNull()
-	b.AppendNulls(2)
-	b.AppendEmptyValue()
-	b.AppendEmptyValues(2)
-
-	arr := b.NewArray().(*array.Null)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewNullBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Null)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
diff --git a/go/arrow/array/numeric.gen.go b/go/arrow/array/numeric.gen.go
deleted file mode 100644
index 413a356c2a8ab..0000000000000
--- a/go/arrow/array/numeric.gen.go
+++ /dev/null
@@ -1,1452 +0,0 @@
-// Code generated by array/numeric.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"math"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// A type which represents an immutable sequence of int64 values.
-type Int64 struct {
-	array
-	values []int64
-}
-
-// NewInt64Data creates a new Int64.
-func NewInt64Data(data arrow.ArrayData) *Int64 {
-	a := &Int64{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Int64) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Int64) Value(i int) int64 { return a.values[i] }
-
-// Values returns the values.
-func (a *Int64) Int64Values() []int64 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Int64) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Int64) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Int64Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Int64) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatInt(int64(a.Value(i)), 10)
-}
-
-func (a *Int64) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Int64) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualInt64(left, right *Int64) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of uint64 values.
-type Uint64 struct {
-	array
-	values []uint64
-}
-
-// NewUint64Data creates a new Uint64.
-func NewUint64Data(data arrow.ArrayData) *Uint64 {
-	a := &Uint64{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Uint64) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Uint64) Value(i int) uint64 { return a.values[i] }
-
-// Values returns the values.
-func (a *Uint64) Uint64Values() []uint64 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Uint64) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Uint64) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Uint64Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Uint64) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatUint(uint64(a.Value(i)), 10)
-}
-
-func (a *Uint64) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Uint64) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualUint64(left, right *Uint64) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of float64 values.
-type Float64 struct {
-	array
-	values []float64
-}
-
-// NewFloat64Data creates a new Float64.
-func NewFloat64Data(data arrow.ArrayData) *Float64 {
-	a := &Float64{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Float64) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Float64) Value(i int) float64 { return a.values[i] }
-
-// Values returns the values.
-func (a *Float64) Float64Values() []float64 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Float64) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Float64) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Float64Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Float64) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatFloat(float64(a.Value(i)), 'g', -1, 64)
-}
-
-func (a *Float64) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Float64) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if !a.IsValid(i) {
-			vals[i] = nil
-			continue
-		}
-
-		f := a.Value(i)
-		switch {
-		case math.IsNaN(f):
-			vals[i] = "NaN"
-		case math.IsInf(f, 1):
-			vals[i] = "+Inf"
-		case math.IsInf(f, -1):
-			vals[i] = "-Inf"
-		default:
-			vals[i] = f
-		}
-
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualFloat64(left, right *Float64) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of int32 values.
-type Int32 struct {
-	array
-	values []int32
-}
-
-// NewInt32Data creates a new Int32.
-func NewInt32Data(data arrow.ArrayData) *Int32 {
-	a := &Int32{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Int32) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Int32) Value(i int) int32 { return a.values[i] }
-
-// Values returns the values.
-func (a *Int32) Int32Values() []int32 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Int32) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Int32) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Int32Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Int32) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatInt(int64(a.Value(i)), 10)
-}
-
-func (a *Int32) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Int32) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualInt32(left, right *Int32) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of uint32 values.
-type Uint32 struct {
-	array
-	values []uint32
-}
-
-// NewUint32Data creates a new Uint32.
-func NewUint32Data(data arrow.ArrayData) *Uint32 {
-	a := &Uint32{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Uint32) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Uint32) Value(i int) uint32 { return a.values[i] }
-
-// Values returns the values.
-func (a *Uint32) Uint32Values() []uint32 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Uint32) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Uint32) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Uint32Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Uint32) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatUint(uint64(a.Value(i)), 10)
-}
-
-func (a *Uint32) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Uint32) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualUint32(left, right *Uint32) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of float32 values.
-type Float32 struct {
-	array
-	values []float32
-}
-
-// NewFloat32Data creates a new Float32.
-func NewFloat32Data(data arrow.ArrayData) *Float32 {
-	a := &Float32{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Float32) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Float32) Value(i int) float32 { return a.values[i] }
-
-// Values returns the values.
-func (a *Float32) Float32Values() []float32 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Float32) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Float32) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Float32Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Float32) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatFloat(float64(a.Value(i)), 'g', -1, 32)
-}
-
-func (a *Float32) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Float32) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if !a.IsValid(i) {
-			vals[i] = nil
-			continue
-		}
-
-		f := a.Value(i)
-		v := strconv.FormatFloat(float64(f), 'g', -1, 32)
-
-		switch v {
-		case "NaN", "+Inf", "-Inf":
-			vals[i] = v
-		default:
-			vals[i] = f
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualFloat32(left, right *Float32) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of int16 values.
-type Int16 struct {
-	array
-	values []int16
-}
-
-// NewInt16Data creates a new Int16.
-func NewInt16Data(data arrow.ArrayData) *Int16 {
-	a := &Int16{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Int16) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Int16) Value(i int) int16 { return a.values[i] }
-
-// Values returns the values.
-func (a *Int16) Int16Values() []int16 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Int16) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Int16) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Int16Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Int16) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatInt(int64(a.Value(i)), 10)
-}
-
-func (a *Int16) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Int16) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualInt16(left, right *Int16) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of uint16 values.
-type Uint16 struct {
-	array
-	values []uint16
-}
-
-// NewUint16Data creates a new Uint16.
-func NewUint16Data(data arrow.ArrayData) *Uint16 {
-	a := &Uint16{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Uint16) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Uint16) Value(i int) uint16 { return a.values[i] }
-
-// Values returns the values.
-func (a *Uint16) Uint16Values() []uint16 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Uint16) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Uint16) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Uint16Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Uint16) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatUint(uint64(a.Value(i)), 10)
-}
-
-func (a *Uint16) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return a.values[i]
-}
-
-func (a *Uint16) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.values[i]
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualUint16(left, right *Uint16) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of int8 values.
-type Int8 struct {
-	array
-	values []int8
-}
-
-// NewInt8Data creates a new Int8.
-func NewInt8Data(data arrow.ArrayData) *Int8 {
-	a := &Int8{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Int8) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Int8) Value(i int) int8 { return a.values[i] }
-
-// Values returns the values.
-func (a *Int8) Int8Values() []int8 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Int8) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Int8) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Int8Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Int8) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatInt(int64(a.Value(i)), 10)
-}
-
-func (a *Int8) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return float64(a.values[i]) // prevent uint8 from being seen as binary data
-}
-
-func (a *Int8) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = float64(a.values[i]) // prevent uint8 from being seen as binary data
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualInt8(left, right *Int8) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of uint8 values.
-type Uint8 struct {
-	array
-	values []uint8
-}
-
-// NewUint8Data creates a new Uint8.
-func NewUint8Data(data arrow.ArrayData) *Uint8 {
-	a := &Uint8{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Uint8) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Uint8) Value(i int) uint8 { return a.values[i] }
-
-// Values returns the values.
-func (a *Uint8) Uint8Values() []uint8 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Uint8) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Uint8) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Uint8Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Uint8) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return strconv.FormatUint(uint64(a.Value(i)), 10)
-}
-
-func (a *Uint8) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	return float64(a.values[i]) // prevent uint8 from being seen as binary data
-}
-
-func (a *Uint8) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = float64(a.values[i]) // prevent uint8 from being seen as binary data
-		} else {
-			vals[i] = nil
-		}
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualUint8(left, right *Uint8) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of arrow.Time32 values.
-type Time32 struct {
-	array
-	values []arrow.Time32
-}
-
-// NewTime32Data creates a new Time32.
-func NewTime32Data(data arrow.ArrayData) *Time32 {
-	a := &Time32{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Time32) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Time32) Value(i int) arrow.Time32 { return a.values[i] }
-
-// Values returns the values.
-func (a *Time32) Time32Values() []arrow.Time32 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Time32) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Time32) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Time32Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Time32) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.values[i].FormattedString(a.DataType().(*arrow.Time32Type).Unit)
-}
-
-func (a *Time32) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.values[i].ToTime(a.DataType().(*arrow.Time32Type).Unit).Format("15:04:05.999999999")
-}
-
-func (a *Time32) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualTime32(left, right *Time32) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of arrow.Time64 values.
-type Time64 struct {
-	array
-	values []arrow.Time64
-}
-
-// NewTime64Data creates a new Time64.
-func NewTime64Data(data arrow.ArrayData) *Time64 {
-	a := &Time64{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Time64) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Time64) Value(i int) arrow.Time64 { return a.values[i] }
-
-// Values returns the values.
-func (a *Time64) Time64Values() []arrow.Time64 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Time64) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Time64) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Time64Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Time64) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.values[i].FormattedString(a.DataType().(*arrow.Time64Type).Unit)
-}
-
-func (a *Time64) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.values[i].ToTime(a.DataType().(*arrow.Time64Type).Unit).Format("15:04:05.999999999")
-}
-
-func (a *Time64) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualTime64(left, right *Time64) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of arrow.Date32 values.
-type Date32 struct {
-	array
-	values []arrow.Date32
-}
-
-// NewDate32Data creates a new Date32.
-func NewDate32Data(data arrow.ArrayData) *Date32 {
-	a := &Date32{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Date32) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Date32) Value(i int) arrow.Date32 { return a.values[i] }
-
-// Values returns the values.
-func (a *Date32) Date32Values() []arrow.Date32 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Date32) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Date32) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Date32Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Date32) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.values[i].FormattedString()
-}
-
-func (a *Date32) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.values[i].ToTime().Format("2006-01-02")
-}
-
-func (a *Date32) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualDate32(left, right *Date32) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of arrow.Date64 values.
-type Date64 struct {
-	array
-	values []arrow.Date64
-}
-
-// NewDate64Data creates a new Date64.
-func NewDate64Data(data arrow.ArrayData) *Date64 {
-	a := &Date64{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Date64) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Date64) Value(i int) arrow.Date64 { return a.values[i] }
-
-// Values returns the values.
-func (a *Date64) Date64Values() []arrow.Date64 { return a.values }
-
-// String returns a string representation of the array.
-func (a *Date64) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Date64) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.Date64Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Date64) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.values[i].FormattedString()
-}
-
-func (a *Date64) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.values[i].ToTime().Format("2006-01-02")
-}
-
-func (a *Date64) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualDate64(left, right *Date64) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// A type which represents an immutable sequence of arrow.Duration values.
-type Duration struct {
-	array
-	values []arrow.Duration
-}
-
-// NewDurationData creates a new Duration.
-func NewDurationData(data arrow.ArrayData) *Duration {
-	a := &Duration{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Duration) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Duration) Value(i int) arrow.Duration { return a.values[i] }
-
-// Values returns the values.
-func (a *Duration) DurationValues() []arrow.Duration { return a.values }
-
-// String returns a string representation of the array.
-func (a *Duration) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Duration) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.DurationTraits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Duration) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	// return value and suffix as a string such as "12345ms"
-	return fmt.Sprintf("%d%s", a.values[i], a.DataType().(*arrow.DurationType).Unit)
-}
-
-func (a *Duration) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	// return value and suffix as a string such as "12345ms"
-	return fmt.Sprintf("%d%s", a.values[i], a.DataType().(*arrow.DurationType).Unit.String())
-}
-
-func (a *Duration) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualDuration(left, right *Duration) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
diff --git a/go/arrow/array/numeric.gen.go.tmpl b/go/arrow/array/numeric.gen.go.tmpl
deleted file mode 100644
index 1f4b56609f464..0000000000000
--- a/go/arrow/array/numeric.gen.go.tmpl
+++ /dev/null
@@ -1,192 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"fmt"
-	"strings"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-{{range .In}}
-
-// A type which represents an immutable sequence of {{or .QualifiedType .Type}} values.
-type {{.Name}} struct {
-	array
-	values []{{or .QualifiedType .Type}}
-}
-
-// New{{.Name}}Data creates a new {{.Name}}.
-func New{{.Name}}Data(data arrow.ArrayData) *{{.Name}} {
-	a := &{{.Name}}{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *{{.Name}}) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *{{.Name}}) Value(i int)      {{or .QualifiedType .Type}} { return a.values[i] }
-
-// Values returns the values.
-func (a *{{.Name}}) {{.Name}}Values() []{{or .QualifiedType .Type}} { return a.values }
-
-// String returns a string representation of the array.
-func (a *{{.Name}}) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *{{.Name}}) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.{{.Name}}Traits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *{{.Name}}) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-{{if or (eq .Name "Date32") (eq .Name "Date64") -}}
-  return a.values[i].FormattedString()
-{{else if or (eq .Name "Time32") (eq .Name "Time64") -}}
-  return a.values[i].FormattedString(a.DataType().(*{{.QualifiedType}}Type).Unit)
-{{else if (eq .Name "Duration") -}}
-	// return value and suffix as a string such as "12345ms"
-	return fmt.Sprintf("%d%s", a.values[i], a.DataType().(*{{.QualifiedType}}Type).Unit)
-{{else if or (eq .Name "Int8") (eq .Name "Int16") (eq .Name "Int32") (eq .Name "Int64") -}}
-  return strconv.FormatInt(int64(a.Value(i)), 10)
-{{else if or (eq .Name "Uint8") (eq .Name "Uint16") (eq .Name "Uint32") (eq .Name "Uint64") -}}
-  return strconv.FormatUint(uint64(a.Value(i)), 10)
-{{else if or (eq .Name "Float32") -}}
-  return strconv.FormatFloat(float64(a.Value(i)), 'g', -1, 32)
-{{else if or (eq .Name "Float64") -}}
-  return strconv.FormatFloat(float64(a.Value(i)), 'g', -1, 64)
-{{else}}
-	return fmt.Sprintf("%v", a.values[i])
-{{end -}}
-}
-
-func (a *{{.Name}}) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-{{if or (eq .Name "Date32") (eq .Name "Date64") -}}
-	return a.values[i].ToTime().Format("2006-01-02")
-{{else if or (eq .Name "Time32") (eq .Name "Time64") -}}
-	return a.values[i].ToTime(a.DataType().(*{{.QualifiedType}}Type).Unit).Format("15:04:05.999999999")
-{{else if (eq .Name "Duration") -}}
-	// return value and suffix as a string such as "12345ms"
-	return fmt.Sprintf("%d%s", a.values[i], a.DataType().(*{{.QualifiedType}}Type).Unit.String())
-{{else if (eq .Size "1")}}
-	return float64(a.values[i]) // prevent uint8 from being seen as binary data
-{{else}}
-	return a.values[i]
-{{end -}}
-}
-
-func (a *{{.Name}}) MarshalJSON() ([]byte, error) {
-{{if .QualifiedType -}}
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-{{else -}}
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-	{{if (eq .Name "Float32") -}}
-		if !a.IsValid(i) {
-			vals[i] = nil
-			continue
-		}
-
-		f := a.Value(i)
-		v := strconv.FormatFloat(float64(f), 'g', -1, 32)
-
-		switch v {
-		case "NaN", "+Inf", "-Inf":
-			vals[i] = v
-		default:
-			vals[i] = f
-		}
-	{{else if (eq .Name "Float64") -}}
-		if !a.IsValid(i) {
-			vals[i] = nil
-			continue
-		}
-
-		f := a.Value(i)
-		switch {
-		case math.IsNaN(f):
-			vals[i] = "NaN"
-		case math.IsInf(f, 1):
-			vals[i] = "+Inf"
-		case math.IsInf(f, -1):
-			vals[i] = "-Inf"
-		default:
-			vals[i] = f
-		}
-	{{else}}
-		if a.IsValid(i) {
-			{{ if (eq .Size "1") }}vals[i] = float64(a.values[i]) // prevent uint8 from being seen as binary data{{ else }}vals[i] = a.values[i]{{ end }}
-		} else {
-			vals[i] = nil
-		}
-	{{end}}
-	}
-{{end}}
-	return json.Marshal(vals)
-}
-
-func arrayEqual{{.Name}}(left, right *{{.Name}}) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-{{end}}
diff --git a/go/arrow/array/numeric_test.go b/go/arrow/array/numeric_test.go
deleted file mode 100644
index bb8acc3f41519..0000000000000
--- a/go/arrow/array/numeric_test.go
+++ /dev/null
@@ -1,779 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"math"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestNewFloat64Data(t *testing.T) {
-	exp := []float64{1.0, 2.0, 4.0, 8.0, 16.0}
-
-	ad := array.NewData(
-		arrow.PrimitiveTypes.Float64, len(exp),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Float64Traits.CastToBytes(exp))},
-		nil, 0, 0,
-	)
-	fa := array.NewFloat64Data(ad)
-
-	assert.Equal(t, len(exp), fa.Len(), "unexpected Len()")
-	assert.Equal(t, exp, fa.Float64Values(), "unexpected Float64Values()")
-}
-
-func TestFloat64SliceData(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 4
-	)
-
-	var (
-		vs  = []float64{1, 2, 3, 4, 5}
-		sub = vs[beg:end]
-	)
-
-	b := array.NewFloat64Builder(pool)
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Float64)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(vs); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Float64Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Float64)
-	defer slice.Release()
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Float64Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestFloat64SliceDataWithNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 5
-	)
-
-	var (
-		valids = []bool{true, true, true, false, true, true}
-		vs     = []float64{1, 2, 3, 0, 4, 5}
-		sub    = vs[beg:end]
-	)
-
-	b := array.NewFloat64Builder(pool)
-	defer b.Release()
-
-	b.AppendValues(vs, valids)
-
-	arr := b.NewArray().(*array.Float64)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(valids); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Float64Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Float64)
-	defer slice.Release()
-
-	if got, want := slice.NullN(), 1; got != want {
-		t.Errorf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Float64Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestFloat16MarshalJSON(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	bldr := array.NewFloat16Builder(pool)
-	defer bldr.Release()
-
-	jsonstr := `[0, 1, 2, 3, "NaN", "NaN", 4, 5, "+Inf", "-Inf"]`
-
-	bldr.Append(float16.New(0))
-	bldr.Append(float16.New(1))
-	bldr.Append(float16.New(2))
-	bldr.Append(float16.New(3))
-	bldr.Append(float16.NaN())
-	bldr.Append(float16.NaN())
-	bldr.Append(float16.New(4))
-	bldr.Append(float16.New(5))
-	bldr.Append(float16.Inf())
-	bldr.Append(float16.Inf().Negate())
-
-	expected := bldr.NewFloat16Array()
-	defer expected.Release()
-	expected_json, err := expected.MarshalJSON()
-	assert.NoError(t, err)
-	assert.JSONEq(t, jsonstr, string(expected_json))
-}
-
-func TestFloat32MarshalJSON(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	bldr := array.NewFloat32Builder(pool)
-	defer bldr.Release()
-
-	jsonstr := `[0, 1, "+Inf", 2, 3, "NaN", "NaN", 4, 5, "-Inf"]`
-
-	bldr.Append(0)
-	bldr.Append(1)
-	bldr.Append(float32(math.Inf(1)))
-	bldr.Append(2)
-	bldr.Append(3)
-	bldr.Append(float32(math.NaN()))
-	bldr.Append(float32(math.NaN()))
-	bldr.Append(4)
-	bldr.Append(5)
-	bldr.Append(float32(math.Inf(-1)))
-
-	expected := bldr.NewFloat32Array()
-	defer expected.Release()
-
-	expected_json, err := expected.MarshalJSON()
-	assert.NoError(t, err)
-
-	assert.JSONEq(t, jsonstr, string(expected_json))
-}
-
-func TestFloat64MarshalJSON(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	bldr := array.NewFloat64Builder(pool)
-	defer bldr.Release()
-
-	jsonstr := `[0, 1, "+Inf", 2, 3, "NaN", "NaN", 4, 5, "-Inf"]`
-
-	bldr.Append(0)
-	bldr.Append(1)
-	bldr.Append(math.Inf(1))
-	bldr.Append(2)
-	bldr.Append(3)
-	bldr.Append(math.NaN())
-	bldr.Append(math.NaN())
-	bldr.Append(4)
-	bldr.Append(5)
-	bldr.Append(math.Inf(-1))
-
-	expected := bldr.NewFloat64Array()
-	defer expected.Release()
-
-	expected_json, err := expected.MarshalJSON()
-	assert.NoError(t, err)
-
-	assert.JSONEq(t, jsonstr, string(expected_json))
-
-}
-
-func TestUnmarshalSpecialFloat(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	bldr := array.NewFloat32Builder(pool)
-	defer bldr.Release()
-
-	assert.NoError(t, json.Unmarshal([]byte(`[3.4, "Inf", "-Inf"]`), bldr))
-	arr := bldr.NewFloat32Array()
-	defer arr.Release()
-
-	assert.False(t, math.IsInf(float64(arr.Value(0)), 0), arr.Value(0))
-	assert.True(t, math.IsInf(float64(arr.Value(1)), 1), arr.Value(1))
-	assert.True(t, math.IsInf(float64(arr.Value(2)), -1), arr.Value(2))
-}
-
-func TestNewTime32Data(t *testing.T) {
-	data := []arrow.Time32{
-		arrow.Time32(1),
-		arrow.Time32(2),
-		arrow.Time32(4),
-		arrow.Time32(8),
-		arrow.Time32(16),
-	}
-
-	dtype := arrow.FixedWidthTypes.Time32s
-	ad := array.NewData(dtype, len(data),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Time32Traits.CastToBytes(data))},
-		nil, 0, 0,
-	)
-	t32a := array.NewTime32Data(ad)
-
-	assert.Equal(t, len(data), t32a.Len(), "unexpected Len()")
-	assert.Equal(t, data, t32a.Time32Values(), "unexpected Float64Values()")
-}
-
-func TestTime32SliceData(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 4
-	)
-
-	var (
-		vs = []arrow.Time32{
-			arrow.Time32(1),
-			arrow.Time32(2),
-			arrow.Time32(4),
-			arrow.Time32(8),
-			arrow.Time32(16),
-		}
-		sub = vs[beg:end]
-	)
-
-	dtype := arrow.FixedWidthTypes.Time32s
-	b := array.NewTime32Builder(pool, dtype.(*arrow.Time32Type))
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Time32)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(vs); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Time32Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Time32)
-	defer slice.Release()
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Time32Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestTime32SliceDataWithNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 5
-	)
-
-	var (
-		valids = []bool{true, true, true, false, true, true}
-		vs     = []arrow.Time32{
-			arrow.Time32(1),
-			arrow.Time32(2),
-			arrow.Time32(3),
-			arrow.Time32(0),
-			arrow.Time32(4),
-			arrow.Time32(5),
-		}
-		sub = vs[beg:end]
-	)
-
-	dtype := arrow.FixedWidthTypes.Time32s
-	b := array.NewTime32Builder(pool, dtype.(*arrow.Time32Type))
-	defer b.Release()
-
-	b.AppendValues(vs, valids)
-
-	arr := b.NewArray().(*array.Time32)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(valids); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Time32Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Time32)
-	defer slice.Release()
-
-	if got, want := slice.NullN(), 1; got != want {
-		t.Errorf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Time32Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestNewTime64Data(t *testing.T) {
-	data := []arrow.Time64{
-		arrow.Time64(1),
-		arrow.Time64(2),
-		arrow.Time64(4),
-		arrow.Time64(8),
-		arrow.Time64(16),
-	}
-
-	dtype := arrow.FixedWidthTypes.Time64us
-	ad := array.NewData(dtype, len(data),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Time64Traits.CastToBytes(data))},
-		nil, 0, 0,
-	)
-	t64a := array.NewTime64Data(ad)
-
-	assert.Equal(t, len(data), t64a.Len(), "unexpected Len()")
-	assert.Equal(t, data, t64a.Time64Values(), "unexpected Float64Values()")
-}
-
-func TestTime64SliceData(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 4
-	)
-
-	var (
-		vs = []arrow.Time64{
-			arrow.Time64(1),
-			arrow.Time64(2),
-			arrow.Time64(4),
-			arrow.Time64(8),
-			arrow.Time64(16),
-		}
-		sub = vs[beg:end]
-	)
-
-	dtype := arrow.FixedWidthTypes.Time64us
-	b := array.NewTime64Builder(pool, dtype.(*arrow.Time64Type))
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Time64)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(vs); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Time64Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Time64)
-	defer slice.Release()
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Time64Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestTime64SliceDataWithNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 5
-	)
-
-	var (
-		valids = []bool{true, true, true, false, true, true}
-		vs     = []arrow.Time64{
-			arrow.Time64(1),
-			arrow.Time64(2),
-			arrow.Time64(3),
-			arrow.Time64(0),
-			arrow.Time64(4),
-			arrow.Time64(5),
-		}
-		sub = vs[beg:end]
-	)
-
-	dtype := arrow.FixedWidthTypes.Time64us
-	b := array.NewTime64Builder(pool, dtype.(*arrow.Time64Type))
-	defer b.Release()
-
-	b.AppendValues(vs, valids)
-
-	arr := b.NewArray().(*array.Time64)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(valids); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Time64Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Time64)
-	defer slice.Release()
-
-	if got, want := slice.NullN(), 1; got != want {
-		t.Errorf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Time64Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestNewDate32Data(t *testing.T) {
-	exp := []arrow.Date32{1, 2, 4, 8, 16}
-
-	dtype := &arrow.Date32Type{}
-	ad := array.NewData(
-		dtype, len(exp),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Date32Traits.CastToBytes(exp))},
-		nil, 0, 0,
-	)
-	fa := array.NewDate32Data(ad)
-
-	assert.Equal(t, len(exp), fa.Len(), "unexpected Len()")
-	assert.Equal(t, exp, fa.Date32Values(), "unexpected Date32Values()")
-}
-
-func TestDate32SliceData(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 4
-	)
-
-	var (
-		vs  = []arrow.Date32{1, 2, 3, 4, 5}
-		sub = vs[beg:end]
-	)
-
-	b := array.NewDate32Builder(pool)
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Date32)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(vs); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Date32Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Date32)
-	defer slice.Release()
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Date32Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestDate32SliceDataWithNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 5
-	)
-
-	var (
-		valids = []bool{true, true, true, false, true, true}
-		vs     = []arrow.Date32{1, 2, 3, 0, 4, 5}
-		sub    = vs[beg:end]
-	)
-
-	b := array.NewDate32Builder(pool)
-	defer b.Release()
-
-	b.AppendValues(vs, valids)
-
-	arr := b.NewArray().(*array.Date32)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(valids); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Date32Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Date32)
-	defer slice.Release()
-
-	if got, want := slice.NullN(), 1; got != want {
-		t.Errorf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Date32Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestNewDate64Data(t *testing.T) {
-	exp := []arrow.Date64{1, 2, 4, 8, 16}
-
-	dtype := &arrow.Date64Type{}
-	ad := array.NewData(
-		dtype, len(exp),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Date64Traits.CastToBytes(exp))},
-		nil, 0, 0,
-	)
-	fa := array.NewDate64Data(ad)
-
-	assert.Equal(t, len(exp), fa.Len(), "unexpected Len()")
-	assert.Equal(t, exp, fa.Date64Values(), "unexpected Date64Values()")
-}
-
-func TestDate64SliceData(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 4
-	)
-
-	var (
-		vs  = []arrow.Date64{1, 2, 3, 4, 5}
-		sub = vs[beg:end]
-	)
-
-	b := array.NewDate64Builder(pool)
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Date64)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(vs); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Date64Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Date64)
-	defer slice.Release()
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Date64Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestDate64SliceDataWithNull(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	const (
-		beg = 2
-		end = 5
-	)
-
-	var (
-		valids = []bool{true, true, true, false, true, true}
-		vs     = []arrow.Date64{1, 2, 3, 0, 4, 5}
-		sub    = vs[beg:end]
-	)
-
-	b := array.NewDate64Builder(pool)
-	defer b.Release()
-
-	b.AppendValues(vs, valids)
-
-	arr := b.NewArray().(*array.Date64)
-	defer arr.Release()
-
-	if got, want := arr.Len(), len(valids); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.Date64Values(), vs; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-
-	slice := array.NewSlice(arr, beg, end).(*array.Date64)
-	defer slice.Release()
-
-	if got, want := slice.NullN(), 1; got != want {
-		t.Errorf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Len(), len(sub); got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := slice.Date64Values(), sub; !reflect.DeepEqual(got, want) {
-		t.Fatalf("got=%v, want=%v", got, want)
-	}
-}
-
-func TestInt64MarshalJSON(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		vs = []int64{-5474557666971701248}
-	)
-
-	b := array.NewInt64Builder(pool)
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Int64)
-	defer arr.Release()
-
-	jsonBytes, err := json.Marshal(arr)
-	if err != nil {
-		t.Fatal(err)
-	}
-	got := string(jsonBytes)
-	want := `[-5474557666971701248]`
-	if got != want {
-		t.Fatalf("got=%s, want=%s", got, want)
-	}
-}
-
-func TestUInt64MarshalJSON(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		vs = []uint64{14697929703826477056}
-	)
-
-	b := array.NewUint64Builder(pool)
-	defer b.Release()
-
-	for _, v := range vs {
-		b.Append(v)
-	}
-
-	arr := b.NewArray().(*array.Uint64)
-	defer arr.Release()
-
-	jsonBytes, err := json.Marshal(arr)
-	if err != nil {
-		t.Fatal(err)
-	}
-	got := string(jsonBytes)
-	want := `[14697929703826477056]`
-	if got != want {
-		t.Fatalf("got=%s, want=%s", got, want)
-	}
-}
diff --git a/go/arrow/array/numericbuilder.gen.go b/go/arrow/array/numericbuilder.gen.go
deleted file mode 100644
index c80f0c7c9578e..0000000000000
--- a/go/arrow/array/numericbuilder.gen.go
+++ /dev/null
@@ -1,3664 +0,0 @@
-// Code generated by array/numericbuilder.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strconv"
-	"strings"
-	"sync/atomic"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type Int64Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []int64
-}
-
-func NewInt64Builder(mem memory.Allocator) *Int64Builder {
-	return &Int64Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Int64Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Int64 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Int64Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Int64Builder) Append(v int64) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Int64Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Int64Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Int64Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Int64Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Int64Builder) UnsafeAppend(v int64) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Int64Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Int64Builder) AppendValues(v []int64, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Int64Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Int64Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Int64Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Int64Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Int64Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Int64Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Int64Traits.BytesRequired(n))
-		b.rawData = arrow.Int64Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Int64Builder) Value(i int) int64 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Int64 array from the memory buffers used by the builder and resets the Int64Builder
-// so it can be used to build a new array.
-func (b *Int64Builder) NewArray() arrow.Array {
-	return b.NewInt64Array()
-}
-
-// NewInt64Array creates a Int64 array from the memory buffers used by the builder and resets the Int64Builder
-// so it can be used to build a new array.
-func (b *Int64Builder) NewInt64Array() (a *Int64) {
-	data := b.newData()
-	a = NewInt64Data(data)
-	data.Release()
-	return
-}
-
-func (b *Int64Builder) newData() (data *Data) {
-	bytesRequired := arrow.Int64Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Int64, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Int64Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseInt(s, 10, 8*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(int64(v))
-	return nil
-}
-
-func (b *Int64Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseInt(v, 10, 8*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(int64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int64(f))
-	case float64:
-		b.Append(int64(v))
-	case json.Number:
-		f, err := strconv.ParseInt(v.String(), 10, 8*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(int64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int64(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(int64(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Int64Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Int64Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Uint64Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []uint64
-}
-
-func NewUint64Builder(mem memory.Allocator) *Uint64Builder {
-	return &Uint64Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Uint64Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Uint64 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Uint64Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Uint64Builder) Append(v uint64) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Uint64Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Uint64Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Uint64Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Uint64Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Uint64Builder) UnsafeAppend(v uint64) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Uint64Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Uint64Builder) AppendValues(v []uint64, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Uint64Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Uint64Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Uint64Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Uint64Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Uint64Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Uint64Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Uint64Traits.BytesRequired(n))
-		b.rawData = arrow.Uint64Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Uint64Builder) Value(i int) uint64 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Uint64 array from the memory buffers used by the builder and resets the Uint64Builder
-// so it can be used to build a new array.
-func (b *Uint64Builder) NewArray() arrow.Array {
-	return b.NewUint64Array()
-}
-
-// NewUint64Array creates a Uint64 array from the memory buffers used by the builder and resets the Uint64Builder
-// so it can be used to build a new array.
-func (b *Uint64Builder) NewUint64Array() (a *Uint64) {
-	data := b.newData()
-	a = NewUint64Data(data)
-	data.Release()
-	return
-}
-
-func (b *Uint64Builder) newData() (data *Data) {
-	bytesRequired := arrow.Uint64Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Uint64, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Uint64Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseUint(s, 10, 8*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(uint64(v))
-	return nil
-}
-
-func (b *Uint64Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseUint(v, 10, 8*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(uint64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint64(f))
-	case float64:
-		b.Append(uint64(v))
-	case json.Number:
-		f, err := strconv.ParseUint(v.String(), 10, 8*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(uint64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint64(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(uint64(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Uint64Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Uint64Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Float64Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []float64
-}
-
-func NewFloat64Builder(mem memory.Allocator) *Float64Builder {
-	return &Float64Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Float64Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Float64 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Float64Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Float64Builder) Append(v float64) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Float64Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Float64Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Float64Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Float64Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Float64Builder) UnsafeAppend(v float64) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Float64Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Float64Builder) AppendValues(v []float64, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Float64Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Float64Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Float64Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Float64Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Float64Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Float64Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Float64Traits.BytesRequired(n))
-		b.rawData = arrow.Float64Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Float64Builder) Value(i int) float64 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Float64 array from the memory buffers used by the builder and resets the Float64Builder
-// so it can be used to build a new array.
-func (b *Float64Builder) NewArray() arrow.Array {
-	return b.NewFloat64Array()
-}
-
-// NewFloat64Array creates a Float64 array from the memory buffers used by the builder and resets the Float64Builder
-// so it can be used to build a new array.
-func (b *Float64Builder) NewFloat64Array() (a *Float64) {
-	data := b.newData()
-	a = NewFloat64Data(data)
-	data.Release()
-	return
-}
-
-func (b *Float64Builder) newData() (data *Data) {
-	bytesRequired := arrow.Float64Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Float64, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Float64Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseFloat(s, 8*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(float64(v))
-	return nil
-}
-
-func (b *Float64Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseFloat(v, 8*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(float64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(float64(f))
-	case float64:
-		b.Append(float64(v))
-	case json.Number:
-		f, err := strconv.ParseFloat(v.String(), 8*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(float64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(float64(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(float64(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Float64Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Float64Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Int32Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []int32
-}
-
-func NewInt32Builder(mem memory.Allocator) *Int32Builder {
-	return &Int32Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Int32Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Int32 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Int32Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Int32Builder) Append(v int32) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Int32Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Int32Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Int32Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Int32Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Int32Builder) UnsafeAppend(v int32) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Int32Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Int32Builder) AppendValues(v []int32, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Int32Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Int32Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Int32Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Int32Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Int32Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Int32Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Int32Traits.BytesRequired(n))
-		b.rawData = arrow.Int32Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Int32Builder) Value(i int) int32 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Int32 array from the memory buffers used by the builder and resets the Int32Builder
-// so it can be used to build a new array.
-func (b *Int32Builder) NewArray() arrow.Array {
-	return b.NewInt32Array()
-}
-
-// NewInt32Array creates a Int32 array from the memory buffers used by the builder and resets the Int32Builder
-// so it can be used to build a new array.
-func (b *Int32Builder) NewInt32Array() (a *Int32) {
-	data := b.newData()
-	a = NewInt32Data(data)
-	data.Release()
-	return
-}
-
-func (b *Int32Builder) newData() (data *Data) {
-	bytesRequired := arrow.Int32Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Int32, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Int32Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseInt(s, 10, 4*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(int32(v))
-	return nil
-}
-
-func (b *Int32Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseInt(v, 10, 4*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(int32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int32(f))
-	case float64:
-		b.Append(int32(v))
-	case json.Number:
-		f, err := strconv.ParseInt(v.String(), 10, 4*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(int32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int32(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(int32(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Int32Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Int32Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Uint32Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []uint32
-}
-
-func NewUint32Builder(mem memory.Allocator) *Uint32Builder {
-	return &Uint32Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Uint32Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Uint32 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Uint32Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Uint32Builder) Append(v uint32) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Uint32Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Uint32Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Uint32Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Uint32Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Uint32Builder) UnsafeAppend(v uint32) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Uint32Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Uint32Builder) AppendValues(v []uint32, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Uint32Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Uint32Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Uint32Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Uint32Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Uint32Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Uint32Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Uint32Traits.BytesRequired(n))
-		b.rawData = arrow.Uint32Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Uint32Builder) Value(i int) uint32 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Uint32 array from the memory buffers used by the builder and resets the Uint32Builder
-// so it can be used to build a new array.
-func (b *Uint32Builder) NewArray() arrow.Array {
-	return b.NewUint32Array()
-}
-
-// NewUint32Array creates a Uint32 array from the memory buffers used by the builder and resets the Uint32Builder
-// so it can be used to build a new array.
-func (b *Uint32Builder) NewUint32Array() (a *Uint32) {
-	data := b.newData()
-	a = NewUint32Data(data)
-	data.Release()
-	return
-}
-
-func (b *Uint32Builder) newData() (data *Data) {
-	bytesRequired := arrow.Uint32Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Uint32, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Uint32Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseUint(s, 10, 4*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(uint32(v))
-	return nil
-}
-
-func (b *Uint32Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseUint(v, 10, 4*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(uint32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint32(f))
-	case float64:
-		b.Append(uint32(v))
-	case json.Number:
-		f, err := strconv.ParseUint(v.String(), 10, 4*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(uint32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint32(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(uint32(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Uint32Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Uint32Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Float32Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []float32
-}
-
-func NewFloat32Builder(mem memory.Allocator) *Float32Builder {
-	return &Float32Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Float32Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Float32 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Float32Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Float32Builder) Append(v float32) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Float32Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Float32Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Float32Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Float32Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Float32Builder) UnsafeAppend(v float32) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Float32Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Float32Builder) AppendValues(v []float32, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Float32Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Float32Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Float32Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Float32Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Float32Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Float32Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Float32Traits.BytesRequired(n))
-		b.rawData = arrow.Float32Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Float32Builder) Value(i int) float32 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Float32 array from the memory buffers used by the builder and resets the Float32Builder
-// so it can be used to build a new array.
-func (b *Float32Builder) NewArray() arrow.Array {
-	return b.NewFloat32Array()
-}
-
-// NewFloat32Array creates a Float32 array from the memory buffers used by the builder and resets the Float32Builder
-// so it can be used to build a new array.
-func (b *Float32Builder) NewFloat32Array() (a *Float32) {
-	data := b.newData()
-	a = NewFloat32Data(data)
-	data.Release()
-	return
-}
-
-func (b *Float32Builder) newData() (data *Data) {
-	bytesRequired := arrow.Float32Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Float32, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Float32Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseFloat(s, 4*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(float32(v))
-	return nil
-}
-
-func (b *Float32Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseFloat(v, 4*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(float32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(float32(f))
-	case float64:
-		b.Append(float32(v))
-	case json.Number:
-		f, err := strconv.ParseFloat(v.String(), 4*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(float32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(float32(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(float32(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Float32Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Float32Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Int16Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []int16
-}
-
-func NewInt16Builder(mem memory.Allocator) *Int16Builder {
-	return &Int16Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Int16Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Int16 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Int16Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Int16Builder) Append(v int16) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Int16Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Int16Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Int16Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Int16Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Int16Builder) UnsafeAppend(v int16) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Int16Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Int16Builder) AppendValues(v []int16, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Int16Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Int16Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Int16Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Int16Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Int16Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Int16Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Int16Traits.BytesRequired(n))
-		b.rawData = arrow.Int16Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Int16Builder) Value(i int) int16 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Int16 array from the memory buffers used by the builder and resets the Int16Builder
-// so it can be used to build a new array.
-func (b *Int16Builder) NewArray() arrow.Array {
-	return b.NewInt16Array()
-}
-
-// NewInt16Array creates a Int16 array from the memory buffers used by the builder and resets the Int16Builder
-// so it can be used to build a new array.
-func (b *Int16Builder) NewInt16Array() (a *Int16) {
-	data := b.newData()
-	a = NewInt16Data(data)
-	data.Release()
-	return
-}
-
-func (b *Int16Builder) newData() (data *Data) {
-	bytesRequired := arrow.Int16Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Int16, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Int16Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseInt(s, 10, 2*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(int16(v))
-	return nil
-}
-
-func (b *Int16Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseInt(v, 10, 2*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(int16(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int16(f))
-	case float64:
-		b.Append(int16(v))
-	case json.Number:
-		f, err := strconv.ParseInt(v.String(), 10, 2*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(int16(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int16(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(int16(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Int16Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Int16Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Uint16Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []uint16
-}
-
-func NewUint16Builder(mem memory.Allocator) *Uint16Builder {
-	return &Uint16Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Uint16Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Uint16 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Uint16Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Uint16Builder) Append(v uint16) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Uint16Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Uint16Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Uint16Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Uint16Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Uint16Builder) UnsafeAppend(v uint16) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Uint16Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Uint16Builder) AppendValues(v []uint16, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Uint16Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Uint16Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Uint16Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Uint16Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Uint16Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Uint16Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Uint16Traits.BytesRequired(n))
-		b.rawData = arrow.Uint16Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Uint16Builder) Value(i int) uint16 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Uint16 array from the memory buffers used by the builder and resets the Uint16Builder
-// so it can be used to build a new array.
-func (b *Uint16Builder) NewArray() arrow.Array {
-	return b.NewUint16Array()
-}
-
-// NewUint16Array creates a Uint16 array from the memory buffers used by the builder and resets the Uint16Builder
-// so it can be used to build a new array.
-func (b *Uint16Builder) NewUint16Array() (a *Uint16) {
-	data := b.newData()
-	a = NewUint16Data(data)
-	data.Release()
-	return
-}
-
-func (b *Uint16Builder) newData() (data *Data) {
-	bytesRequired := arrow.Uint16Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Uint16, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Uint16Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseUint(s, 10, 2*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(uint16(v))
-	return nil
-}
-
-func (b *Uint16Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseUint(v, 10, 2*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(uint16(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint16(f))
-	case float64:
-		b.Append(uint16(v))
-	case json.Number:
-		f, err := strconv.ParseUint(v.String(), 10, 2*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(uint16(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint16(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(uint16(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Uint16Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Uint16Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Int8Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []int8
-}
-
-func NewInt8Builder(mem memory.Allocator) *Int8Builder {
-	return &Int8Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Int8Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Int8 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Int8Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Int8Builder) Append(v int8) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Int8Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Int8Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Int8Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Int8Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Int8Builder) UnsafeAppend(v int8) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Int8Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Int8Builder) AppendValues(v []int8, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Int8Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Int8Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Int8Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Int8Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Int8Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Int8Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Int8Traits.BytesRequired(n))
-		b.rawData = arrow.Int8Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Int8Builder) Value(i int) int8 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Int8 array from the memory buffers used by the builder and resets the Int8Builder
-// so it can be used to build a new array.
-func (b *Int8Builder) NewArray() arrow.Array {
-	return b.NewInt8Array()
-}
-
-// NewInt8Array creates a Int8 array from the memory buffers used by the builder and resets the Int8Builder
-// so it can be used to build a new array.
-func (b *Int8Builder) NewInt8Array() (a *Int8) {
-	data := b.newData()
-	a = NewInt8Data(data)
-	data.Release()
-	return
-}
-
-func (b *Int8Builder) newData() (data *Data) {
-	bytesRequired := arrow.Int8Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Int8, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Int8Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseInt(s, 10, 1*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(int8(v))
-	return nil
-}
-
-func (b *Int8Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseInt(v, 10, 1*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(int8(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int8(f))
-	case float64:
-		b.Append(int8(v))
-	case json.Number:
-		f, err := strconv.ParseInt(v.String(), 10, 1*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(int8(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(int8(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(int8(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Int8Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Int8Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Uint8Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []uint8
-}
-
-func NewUint8Builder(mem memory.Allocator) *Uint8Builder {
-	return &Uint8Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Uint8Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Uint8 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Uint8Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Uint8Builder) Append(v uint8) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Uint8Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Uint8Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Uint8Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Uint8Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Uint8Builder) UnsafeAppend(v uint8) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Uint8Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Uint8Builder) AppendValues(v []uint8, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Uint8Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Uint8Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Uint8Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Uint8Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Uint8Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Uint8Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Uint8Traits.BytesRequired(n))
-		b.rawData = arrow.Uint8Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Uint8Builder) Value(i int) uint8 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Uint8 array from the memory buffers used by the builder and resets the Uint8Builder
-// so it can be used to build a new array.
-func (b *Uint8Builder) NewArray() arrow.Array {
-	return b.NewUint8Array()
-}
-
-// NewUint8Array creates a Uint8 array from the memory buffers used by the builder and resets the Uint8Builder
-// so it can be used to build a new array.
-func (b *Uint8Builder) NewUint8Array() (a *Uint8) {
-	data := b.newData()
-	a = NewUint8Data(data)
-	data.Release()
-	return
-}
-
-func (b *Uint8Builder) newData() (data *Data) {
-	bytesRequired := arrow.Uint8Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Uint8, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Uint8Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	v, err := strconv.ParseUint(s, 10, 1*8)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(uint8(v))
-	return nil
-}
-
-func (b *Uint8Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-
-	case string:
-		f, err := strconv.ParseUint(v, 10, 1*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(uint8(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint8(f))
-	case float64:
-		b.Append(uint8(v))
-	case json.Number:
-		f, err := strconv.ParseUint(v.String(), 10, 1*8)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(uint8(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(uint8(f))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(uint8(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Uint8Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Uint8Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Time32Builder struct {
-	builder
-
-	dtype   *arrow.Time32Type
-	data    *memory.Buffer
-	rawData []arrow.Time32
-}
-
-func NewTime32Builder(mem memory.Allocator, dtype *arrow.Time32Type) *Time32Builder {
-	return &Time32Builder{builder: builder{refCount: 1, mem: mem}, dtype: dtype}
-}
-
-func (b *Time32Builder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Time32Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Time32Builder) Append(v arrow.Time32) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Time32Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Time32Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Time32Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Time32Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Time32Builder) UnsafeAppend(v arrow.Time32) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Time32Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Time32Builder) AppendValues(v []arrow.Time32, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Time32Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Time32Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Time32Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Time32Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Time32Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Time32Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Time32Traits.BytesRequired(n))
-		b.rawData = arrow.Time32Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Time32Builder) Value(i int) arrow.Time32 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Time32 array from the memory buffers used by the builder and resets the Time32Builder
-// so it can be used to build a new array.
-func (b *Time32Builder) NewArray() arrow.Array {
-	return b.NewTime32Array()
-}
-
-// NewTime32Array creates a Time32 array from the memory buffers used by the builder and resets the Time32Builder
-// so it can be used to build a new array.
-func (b *Time32Builder) NewTime32Array() (a *Time32) {
-	data := b.newData()
-	a = NewTime32Data(data)
-	data.Release()
-	return
-}
-
-func (b *Time32Builder) newData() (data *Data) {
-	bytesRequired := arrow.Time32Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Time32Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	val, err := arrow.Time32FromString(s, b.dtype.Unit)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(val)
-	return nil
-}
-
-func (b *Time32Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		tm, err := arrow.Time32FromString(v, b.dtype.Unit)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(arrow.Time32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append(tm)
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(arrow.Time32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(arrow.Time32(n))
-	case float64:
-		b.Append(arrow.Time32(v))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(arrow.Time32(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Time32Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Time32Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Time64Builder struct {
-	builder
-
-	dtype   *arrow.Time64Type
-	data    *memory.Buffer
-	rawData []arrow.Time64
-}
-
-func NewTime64Builder(mem memory.Allocator, dtype *arrow.Time64Type) *Time64Builder {
-	return &Time64Builder{builder: builder{refCount: 1, mem: mem}, dtype: dtype}
-}
-
-func (b *Time64Builder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Time64Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Time64Builder) Append(v arrow.Time64) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Time64Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Time64Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Time64Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Time64Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Time64Builder) UnsafeAppend(v arrow.Time64) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Time64Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Time64Builder) AppendValues(v []arrow.Time64, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Time64Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Time64Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Time64Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Time64Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Time64Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Time64Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Time64Traits.BytesRequired(n))
-		b.rawData = arrow.Time64Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Time64Builder) Value(i int) arrow.Time64 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Time64 array from the memory buffers used by the builder and resets the Time64Builder
-// so it can be used to build a new array.
-func (b *Time64Builder) NewArray() arrow.Array {
-	return b.NewTime64Array()
-}
-
-// NewTime64Array creates a Time64 array from the memory buffers used by the builder and resets the Time64Builder
-// so it can be used to build a new array.
-func (b *Time64Builder) NewTime64Array() (a *Time64) {
-	data := b.newData()
-	a = NewTime64Data(data)
-	data.Release()
-	return
-}
-
-func (b *Time64Builder) newData() (data *Data) {
-	bytesRequired := arrow.Time64Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Time64Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	val, err := arrow.Time64FromString(s, b.dtype.Unit)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(val)
-	return nil
-}
-
-func (b *Time64Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		tm, err := arrow.Time64FromString(v, b.dtype.Unit)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(arrow.Time64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append(tm)
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(arrow.Time64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(arrow.Time64(n))
-	case float64:
-		b.Append(arrow.Time64(v))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(arrow.Time64(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Time64Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Time64Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Date32Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []arrow.Date32
-}
-
-func NewDate32Builder(mem memory.Allocator) *Date32Builder {
-	return &Date32Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Date32Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Date32 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Date32Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Date32Builder) Append(v arrow.Date32) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Date32Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Date32Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Date32Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Date32Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Date32Builder) UnsafeAppend(v arrow.Date32) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Date32Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Date32Builder) AppendValues(v []arrow.Date32, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Date32Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Date32Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Date32Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Date32Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Date32Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Date32Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Date32Traits.BytesRequired(n))
-		b.rawData = arrow.Date32Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Date32Builder) Value(i int) arrow.Date32 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Date32 array from the memory buffers used by the builder and resets the Date32Builder
-// so it can be used to build a new array.
-func (b *Date32Builder) NewArray() arrow.Array {
-	return b.NewDate32Array()
-}
-
-// NewDate32Array creates a Date32 array from the memory buffers used by the builder and resets the Date32Builder
-// so it can be used to build a new array.
-func (b *Date32Builder) NewDate32Array() (a *Date32) {
-	data := b.newData()
-	a = NewDate32Data(data)
-	data.Release()
-	return
-}
-
-func (b *Date32Builder) newData() (data *Data) {
-	bytesRequired := arrow.Date32Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Date32, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Date32Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	tm, err := time.Parse("2006-01-02", s)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(arrow.Date32FromTime(tm))
-	return nil
-}
-
-func (b *Date32Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		tm, err := time.Parse("2006-01-02", v)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(arrow.Date32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append(arrow.Date32FromTime(tm))
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(arrow.Date32(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(arrow.Date32(n))
-	case float64:
-		b.Append(arrow.Date32(v))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(arrow.Date32(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Date32Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Date32Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type Date64Builder struct {
-	builder
-
-	data    *memory.Buffer
-	rawData []arrow.Date64
-}
-
-func NewDate64Builder(mem memory.Allocator) *Date64Builder {
-	return &Date64Builder{builder: builder{refCount: 1, mem: mem}}
-}
-
-func (b *Date64Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.Date64 }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Date64Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *Date64Builder) Append(v arrow.Date64) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *Date64Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *Date64Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *Date64Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *Date64Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *Date64Builder) UnsafeAppend(v arrow.Date64) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *Date64Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *Date64Builder) AppendValues(v []arrow.Date64, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.Date64Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *Date64Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.Date64Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.Date64Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *Date64Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *Date64Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.Date64Traits.BytesRequired(n))
-		b.rawData = arrow.Date64Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *Date64Builder) Value(i int) arrow.Date64 {
-	return b.rawData[i]
-}
-
-// NewArray creates a Date64 array from the memory buffers used by the builder and resets the Date64Builder
-// so it can be used to build a new array.
-func (b *Date64Builder) NewArray() arrow.Array {
-	return b.NewDate64Array()
-}
-
-// NewDate64Array creates a Date64 array from the memory buffers used by the builder and resets the Date64Builder
-// so it can be used to build a new array.
-func (b *Date64Builder) NewDate64Array() (a *Date64) {
-	data := b.newData()
-	a = NewDate64Data(data)
-	data.Release()
-	return
-}
-
-func (b *Date64Builder) newData() (data *Data) {
-	bytesRequired := arrow.Date64Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(arrow.PrimitiveTypes.Date64, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *Date64Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	tm, err := time.Parse("2006-01-02", s)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(arrow.Date64FromTime(tm))
-	return nil
-}
-
-func (b *Date64Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		tm, err := time.Parse("2006-01-02", v)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(arrow.Date64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append(arrow.Date64FromTime(tm))
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(arrow.Date64(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(arrow.Date64(n))
-	case float64:
-		b.Append(arrow.Date64(v))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(arrow.Date64(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *Date64Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *Date64Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type DurationBuilder struct {
-	builder
-
-	dtype   *arrow.DurationType
-	data    *memory.Buffer
-	rawData []arrow.Duration
-}
-
-func NewDurationBuilder(mem memory.Allocator, dtype *arrow.DurationType) *DurationBuilder {
-	return &DurationBuilder{builder: builder{refCount: 1, mem: mem}, dtype: dtype}
-}
-
-func (b *DurationBuilder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *DurationBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *DurationBuilder) Append(v arrow.Duration) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *DurationBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *DurationBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *DurationBuilder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *DurationBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *DurationBuilder) UnsafeAppend(v arrow.Duration) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *DurationBuilder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *DurationBuilder) AppendValues(v []arrow.Duration, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.DurationTraits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *DurationBuilder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.DurationTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.DurationTraits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *DurationBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *DurationBuilder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.DurationTraits.BytesRequired(n))
-		b.rawData = arrow.DurationTraits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *DurationBuilder) Value(i int) arrow.Duration {
-	return b.rawData[i]
-}
-
-// NewArray creates a Duration array from the memory buffers used by the builder and resets the DurationBuilder
-// so it can be used to build a new array.
-func (b *DurationBuilder) NewArray() arrow.Array {
-	return b.NewDurationArray()
-}
-
-// NewDurationArray creates a Duration array from the memory buffers used by the builder and resets the DurationBuilder
-// so it can be used to build a new array.
-func (b *DurationBuilder) NewDurationArray() (a *Duration) {
-	data := b.newData()
-	a = NewDurationData(data)
-	data.Release()
-	return
-}
-
-func (b *DurationBuilder) newData() (data *Data) {
-	bytesRequired := arrow.DurationTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *DurationBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	dur, err := time.ParseDuration(s)
-	if err != nil {
-		return err
-	}
-
-	b.Append(arrow.Duration(dur / b.dtype.Unit.Multiplier()))
-	return nil
-}
-
-func (b *DurationBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(arrow.Duration(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(arrow.Duration(n))
-	case float64:
-		b.Append(arrow.Duration(v))
-	case string:
-		// be flexible for specifying durations by accepting forms like
-		// 3h2m0.5s regardless of the unit and converting it to the proper
-		// precision.
-		val, err := time.ParseDuration(v)
-		if err != nil {
-			// if we got an error, maybe it was because the attempt to create
-			// a time.Duration (int64) in nanoseconds would overflow. check if
-			// the string is just a large number followed by the unit suffix
-			if strings.HasSuffix(v, b.dtype.Unit.String()) {
-				value, err := strconv.ParseInt(v[:len(v)-len(b.dtype.Unit.String())], 10, 64)
-				if err == nil {
-					b.Append(arrow.Duration(value))
-					break
-				}
-			}
-
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(arrow.Duration(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		switch b.dtype.Unit {
-		case arrow.Nanosecond:
-			b.Append(arrow.Duration(val.Nanoseconds()))
-		case arrow.Microsecond:
-			b.Append(arrow.Duration(val.Microseconds()))
-		case arrow.Millisecond:
-			b.Append(arrow.Duration(val.Milliseconds()))
-		case arrow.Second:
-			b.Append(arrow.Duration(val.Seconds()))
-		}
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(arrow.Duration(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *DurationBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *DurationBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ Builder = (*Int64Builder)(nil)
-	_ Builder = (*Uint64Builder)(nil)
-	_ Builder = (*Float64Builder)(nil)
-	_ Builder = (*Int32Builder)(nil)
-	_ Builder = (*Uint32Builder)(nil)
-	_ Builder = (*Float32Builder)(nil)
-	_ Builder = (*Int16Builder)(nil)
-	_ Builder = (*Uint16Builder)(nil)
-	_ Builder = (*Int8Builder)(nil)
-	_ Builder = (*Uint8Builder)(nil)
-	_ Builder = (*Time32Builder)(nil)
-	_ Builder = (*Time64Builder)(nil)
-	_ Builder = (*Date32Builder)(nil)
-	_ Builder = (*Date64Builder)(nil)
-	_ Builder = (*DurationBuilder)(nil)
-)
diff --git a/go/arrow/array/numericbuilder.gen.go.tmpl b/go/arrow/array/numericbuilder.gen.go.tmpl
deleted file mode 100644
index d8b92cf60cc39..0000000000000
--- a/go/arrow/array/numericbuilder.gen.go.tmpl
+++ /dev/null
@@ -1,447 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-{{range .In}}
-
-type {{.Name}}Builder struct {
-	builder
-
-{{if .Opt.Parametric -}}
-	dtype    *arrow.{{.Name}}Type
-{{end -}}
-	data    *memory.Buffer
-	rawData []{{or .QualifiedType .Type}}
-}
-
-{{if .Opt.Parametric}}
-func New{{.Name}}Builder(mem memory.Allocator, dtype *arrow.{{.Name}}Type) *{{.Name}}Builder {
-	return &{{.Name}}Builder{builder: builder{refCount:1, mem: mem}, dtype: dtype}
-}
-
-func (b *{{.Name}}Builder) Type() arrow.DataType { return b.dtype }
-
-{{else}}
-func New{{.Name}}Builder(mem memory.Allocator) *{{.Name}}Builder {
-	return &{{.Name}}Builder{builder: builder{refCount:1, mem: mem}}
-}
-
-func (b *{{.Name}}Builder) Type() arrow.DataType { return arrow.PrimitiveTypes.{{.Name}} }
-{{end}}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *{{.Name}}Builder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *{{.Name}}Builder) Append(v {{or .QualifiedType .Type}}) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *{{.Name}}Builder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *{{.Name}}Builder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *{{.Name}}Builder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *{{.Name}}Builder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i ++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *{{.Name}}Builder) UnsafeAppend(v {{or .QualifiedType .Type}}) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *{{.Name}}Builder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *{{.Name}}Builder) AppendValues(v []{{or .QualifiedType .Type}}, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.{{.Name}}Traits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *{{.Name}}Builder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.{{.Name}}Traits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.{{.Name}}Traits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *{{.Name}}Builder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *{{.Name}}Builder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.{{.Name}}Traits.BytesRequired(n))
-		b.rawData = arrow.{{.Name}}Traits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-func (b *{{.Name}}Builder) Value(i int) {{or .QualifiedType .Type}} {
-	return b.rawData[i]
-}
-
-// NewArray creates a {{.Name}} array from the memory buffers used by the builder and resets the {{.Name}}Builder
-// so it can be used to build a new array.
-func (b *{{.Name}}Builder) NewArray() arrow.Array {
-	return b.New{{.Name}}Array()
-}
-
-// New{{.Name}}Array creates a {{.Name}} array from the memory buffers used by the builder and resets the {{.Name}}Builder
-// so it can be used to build a new array.
-func (b *{{.Name}}Builder) New{{.Name}}Array() (a *{{.Name}}) {
-	data := b.newData()
-	a = New{{.Name}}Data(data)
-	data.Release()
-	return
-}
-
-func (b *{{.Name}}Builder) newData() (data *Data) {
-	bytesRequired := arrow.{{.Name}}Traits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-{{if .Opt.Parametric -}}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-{{else -}}
-	data = NewData(arrow.PrimitiveTypes.{{.Name}}, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-{{end -}}
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *{{.Name}}Builder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-  {{if or (eq .Name "Date32") -}}
-  	tm, err := time.Parse("2006-01-02", s)
-    if err != nil {
-      b.AppendNull()
-      return err
-    }
-    b.Append(arrow.Date32FromTime(tm))
-  {{else if or (eq .Name "Date64") -}}
-  	tm, err := time.Parse("2006-01-02", s)
-    if err != nil {
-      b.AppendNull()
-      return err
-    }
-    b.Append(arrow.Date64FromTime(tm))
-  {{else if or (eq .Name "Time32") -}}
-  	val, err := arrow.Time32FromString(s, b.dtype.Unit)
-    if err != nil {
-      b.AppendNull()
-      return err
-    }
-    b.Append(val)
-  {{else if or (eq .Name "Time64") -}}
-    val, err := arrow.Time64FromString(s, b.dtype.Unit)
-    if err != nil {
-      b.AppendNull()
-      return err
-    }
-    b.Append(val)
-  {{else if (eq .Name "Duration") -}}
-	dur, err := time.ParseDuration(s)
-	if err != nil {
-		return err
-	}
-
-	b.Append(arrow.Duration(dur / b.dtype.Unit.Multiplier()))
-  {{else if or (eq .Name "Int8") (eq .Name "Int16") (eq .Name "Int32") (eq .Name "Int64") -}}
-    v, err := strconv.ParseInt(s, 10, {{.Size}} * 8)
-    if err != nil {
-        b.AppendNull()
-        return err
-    }
-    b.Append({{.name}}(v))
-  {{else if or (eq .Name "Uint8") (eq .Name "Uint16") (eq .Name "Uint32") (eq .Name "Uint64") -}}
-    v, err := strconv.ParseUint(s, 10, {{.Size}} * 8)
-    if err != nil {
-        b.AppendNull()
-        return err
-    }
-    b.Append({{.name}}(v))
-  {{else if or (eq .Name "Float32") (eq .Name "Float64") -}}
-    v, err := strconv.ParseFloat(s, {{.Size}} * 8)
-    if err != nil {
-      b.AppendNull()
-      return err
-    }
-    b.Append({{.name}}(v))
-  {{end -}}
-	return nil
-}
-
-func (b *{{.Name}}Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-{{if or (eq .Name "Date32") (eq .Name "Date64") -}}
-	case string:
-		tm, err := time.Parse("2006-01-02", v)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v,
-				Type: reflect.TypeOf({{.QualifiedType}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append({{.QualifiedType}}FromTime(tm))
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v.String(),
-				Type: reflect.TypeOf({{.QualifiedType}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append({{.QualifiedType}}(n))
-	case float64:
-		b.Append({{.QualifiedType}}(v))
-{{else if or (eq .Name "Time32") (eq .Name "Time64") -}}
-	case string:
-		tm, err := {{.QualifiedType}}FromString(v, b.dtype.Unit)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v,
-				Type: reflect.TypeOf({{.QualifiedType}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append(tm)
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v.String(),
-				Type: reflect.TypeOf({{.QualifiedType}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append({{.QualifiedType}}(n))
-	case float64:
-		b.Append({{.QualifiedType}}(v))
-{{else if eq .Name "Duration" -}}
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v.String(),
-				Type: reflect.TypeOf({{.QualifiedType}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append({{.QualifiedType}}(n))
-	case float64:
-		b.Append({{.QualifiedType}}(v))
-	case string:
-		// be flexible for specifying durations by accepting forms like
-		// 3h2m0.5s regardless of the unit and converting it to the proper
-		// precision.
-		val, err := time.ParseDuration(v)
-		if err != nil {
-			// if we got an error, maybe it was because the attempt to create
-			// a time.Duration (int64) in nanoseconds would overflow. check if
-			// the string is just a large number followed by the unit suffix
-			if strings.HasSuffix(v, b.dtype.Unit.String()) {
-				value, err := strconv.ParseInt(v[:len(v)-len(b.dtype.Unit.String())], 10, 64)
-				if err == nil {
-					b.Append(arrow.Duration(value))
-					break
-				}
-			}
-
-			return &json.UnmarshalTypeError{
-				Value: v,
-				Type: reflect.TypeOf({{.QualifiedType}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		switch b.dtype.Unit {
-		case arrow.Nanosecond:
-			b.Append({{.QualifiedType}}(val.Nanoseconds()))
-		case arrow.Microsecond:
-			b.Append({{.QualifiedType}}(val.Microseconds()))
-		case arrow.Millisecond:
-			b.Append({{.QualifiedType}}(val.Milliseconds()))
-		case arrow.Second:
-			b.Append({{.QualifiedType}}(val.Seconds()))
-		}
-{{else}}
-	case string:
-{{if or (eq .Name "Float32") (eq .Name "Float64") -}}
-		f, err := strconv.ParseFloat(v, {{.Size}}*8)
-{{else if eq (printf "%.1s" .Name) "U" -}}
-		f, err := strconv.ParseUint(v, 10, {{.Size}}*8)
-{{else -}}
-		f, err := strconv.ParseInt(v, 10, {{.Size}}*8)
-{{end -}}
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v,
-				Type: reflect.TypeOf({{.name}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append({{.name}}(f))
-	case float64:
-		b.Append({{.name}}(v))
-	case json.Number:
-{{if or (eq .Name "Float32") (eq .Name "Float64") -}}
-		f, err := strconv.ParseFloat(v.String(), {{.Size}}*8)
-{{else if eq (printf "%.1s" .Name) "U" -}}
-		f, err := strconv.ParseUint(v.String(), 10, {{.Size}}*8)
-{{else -}}
-		f, err := strconv.ParseInt(v.String(), 10, {{.Size}}*8)
-{{end -}}
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value: v.String(),
-				Type: reflect.TypeOf({{.name}}(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append({{.name}}(f))
-{{end}}
-	default:
-		return &json.UnmarshalTypeError{
-			Value: fmt.Sprint(t),
-			Type: reflect.TypeOf({{or .QualifiedType .Type}}(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *{{.Name}}Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *{{.Name}}Builder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-{{end}}
-
-var (
-{{- range .In}}
-	_ Builder = (*{{.Name}}Builder)(nil)
-{{- end}}
-)
diff --git a/go/arrow/array/numericbuilder.gen_test.go b/go/arrow/array/numericbuilder.gen_test.go
deleted file mode 100644
index 8adf86853b7c7..0000000000000
--- a/go/arrow/array/numericbuilder.gen_test.go
+++ /dev/null
@@ -1,3125 +0,0 @@
-// Code generated by array/numericbuilder.gen_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"math"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestInt64StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewInt64Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Int64)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewInt64Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Int64)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewInt64Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt64Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewInt64Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewInt64Array()
-
-	// check state of builder after NewInt64Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewInt64Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewInt64Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewInt64Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []int64{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Int64Values(), "unexpected Int64Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Int64Values(), 10, "unexpected length of Int64Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewInt64Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []int64{7, 8}, a.Int64Values())
-	assert.Len(t, a.Int64Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []int64{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewInt64Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Int64); !ok {
-		t.Fatalf("could not type-assert to array.Int64")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Int64)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Int64")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestInt64Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt64Builder(mem)
-	defer ab.Release()
-
-	exp := []int64{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewInt64Array()
-	assert.Equal(t, exp, a.Int64Values())
-
-	a.Release()
-}
-
-func TestInt64Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt64Builder(mem)
-	defer ab.Release()
-
-	exp := []int64{0, 1, 2, 3}
-
-	ab.AppendValues([]int64{}, nil)
-	a := ab.NewInt64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewInt64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]int64{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewInt64Array()
-	assert.Equal(t, exp, a.Int64Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]int64{}, nil)
-	a = ab.NewInt64Array()
-	assert.Equal(t, exp, a.Int64Values())
-	a.Release()
-}
-
-func TestInt64Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt64Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestUint64StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewUint64Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Uint64)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewUint64Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Uint64)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewUint64Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint64Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewUint64Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewUint64Array()
-
-	// check state of builder after NewUint64Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewUint64Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewUint64Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewUint64Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []uint64{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Uint64Values(), "unexpected Uint64Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Uint64Values(), 10, "unexpected length of Uint64Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewUint64Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []uint64{7, 8}, a.Uint64Values())
-	assert.Len(t, a.Uint64Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []uint64{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewUint64Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Uint64); !ok {
-		t.Fatalf("could not type-assert to array.Uint64")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Uint64)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Uint64")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestUint64Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint64Builder(mem)
-	defer ab.Release()
-
-	exp := []uint64{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewUint64Array()
-	assert.Equal(t, exp, a.Uint64Values())
-
-	a.Release()
-}
-
-func TestUint64Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint64Builder(mem)
-	defer ab.Release()
-
-	exp := []uint64{0, 1, 2, 3}
-
-	ab.AppendValues([]uint64{}, nil)
-	a := ab.NewUint64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewUint64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]uint64{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewUint64Array()
-	assert.Equal(t, exp, a.Uint64Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]uint64{}, nil)
-	a = ab.NewUint64Array()
-	assert.Equal(t, exp, a.Uint64Values())
-	a.Release()
-}
-
-func TestUint64Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint64Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestFloat64StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewFloat64Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Float64)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewFloat64Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Float64)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewFloat64Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat64Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewFloat64Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewFloat64Array()
-
-	// check state of builder after NewFloat64Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewFloat64Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewFloat64Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewFloat64Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []float64{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Float64Values(), "unexpected Float64Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Float64Values(), 10, "unexpected length of Float64Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewFloat64Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []float64{7, 8}, a.Float64Values())
-	assert.Len(t, a.Float64Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []float64{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewFloat64Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Float64); !ok {
-		t.Fatalf("could not type-assert to array.Float64")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Float64)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Float64")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestFloat64Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat64Builder(mem)
-	defer ab.Release()
-
-	exp := []float64{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewFloat64Array()
-	assert.Equal(t, exp, a.Float64Values())
-
-	a.Release()
-}
-
-func TestFloat64Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat64Builder(mem)
-	defer ab.Release()
-
-	exp := []float64{0, 1, 2, 3}
-
-	ab.AppendValues([]float64{}, nil)
-	a := ab.NewFloat64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewFloat64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]float64{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewFloat64Array()
-	assert.Equal(t, exp, a.Float64Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]float64{}, nil)
-	a = ab.NewFloat64Array()
-	assert.Equal(t, exp, a.Float64Values())
-	a.Release()
-}
-
-func TestFloat64Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat64Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestFloat64BuilderUnmarshalJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewFloat64Builder(mem)
-	defer bldr.Release()
-
-	jsonstr := `[0, 1, "+Inf", 2, 3, "NaN", "NaN", 4, 5, "-Inf"]`
-
-	err := bldr.UnmarshalJSON([]byte(jsonstr))
-	assert.NoError(t, err)
-
-	arr := bldr.NewFloat64Array()
-	defer arr.Release()
-
-	assert.NotNil(t, arr)
-
-	assert.False(t, math.IsInf(float64(arr.Value(0)), 0), arr.Value(0))
-	assert.True(t, math.IsInf(float64(arr.Value(2)), 1), arr.Value(2))
-	assert.True(t, math.IsNaN(float64(arr.Value(5))), arr.Value(5))
-}
-
-func TestInt32StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewInt32Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Int32)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewInt32Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Int32)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewInt32Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt32Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewInt32Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewInt32Array()
-
-	// check state of builder after NewInt32Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewInt32Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewInt32Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewInt32Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []int32{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Int32Values(), "unexpected Int32Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Int32Values(), 10, "unexpected length of Int32Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewInt32Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []int32{7, 8}, a.Int32Values())
-	assert.Len(t, a.Int32Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []int32{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewInt32Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Int32); !ok {
-		t.Fatalf("could not type-assert to array.Int32")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Int32)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Int32")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestInt32Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt32Builder(mem)
-	defer ab.Release()
-
-	exp := []int32{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewInt32Array()
-	assert.Equal(t, exp, a.Int32Values())
-
-	a.Release()
-}
-
-func TestInt32Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt32Builder(mem)
-	defer ab.Release()
-
-	exp := []int32{0, 1, 2, 3}
-
-	ab.AppendValues([]int32{}, nil)
-	a := ab.NewInt32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewInt32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]int32{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewInt32Array()
-	assert.Equal(t, exp, a.Int32Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]int32{}, nil)
-	a = ab.NewInt32Array()
-	assert.Equal(t, exp, a.Int32Values())
-	a.Release()
-}
-
-func TestInt32Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt32Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestUint32StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewUint32Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Uint32)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewUint32Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Uint32)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewUint32Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint32Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewUint32Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewUint32Array()
-
-	// check state of builder after NewUint32Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewUint32Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewUint32Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewUint32Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []uint32{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Uint32Values(), "unexpected Uint32Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Uint32Values(), 10, "unexpected length of Uint32Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewUint32Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []uint32{7, 8}, a.Uint32Values())
-	assert.Len(t, a.Uint32Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []uint32{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewUint32Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Uint32); !ok {
-		t.Fatalf("could not type-assert to array.Uint32")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Uint32)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Uint32")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestUint32Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint32Builder(mem)
-	defer ab.Release()
-
-	exp := []uint32{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewUint32Array()
-	assert.Equal(t, exp, a.Uint32Values())
-
-	a.Release()
-}
-
-func TestUint32Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint32Builder(mem)
-	defer ab.Release()
-
-	exp := []uint32{0, 1, 2, 3}
-
-	ab.AppendValues([]uint32{}, nil)
-	a := ab.NewUint32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewUint32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]uint32{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewUint32Array()
-	assert.Equal(t, exp, a.Uint32Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]uint32{}, nil)
-	a = ab.NewUint32Array()
-	assert.Equal(t, exp, a.Uint32Values())
-	a.Release()
-}
-
-func TestUint32Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint32Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestFloat32StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewFloat32Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Float32)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewFloat32Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Float32)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewFloat32Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat32Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewFloat32Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewFloat32Array()
-
-	// check state of builder after NewFloat32Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewFloat32Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewFloat32Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewFloat32Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []float32{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Float32Values(), "unexpected Float32Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Float32Values(), 10, "unexpected length of Float32Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewFloat32Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []float32{7, 8}, a.Float32Values())
-	assert.Len(t, a.Float32Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []float32{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewFloat32Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Float32); !ok {
-		t.Fatalf("could not type-assert to array.Float32")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Float32)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Float32")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestFloat32Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat32Builder(mem)
-	defer ab.Release()
-
-	exp := []float32{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewFloat32Array()
-	assert.Equal(t, exp, a.Float32Values())
-
-	a.Release()
-}
-
-func TestFloat32Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat32Builder(mem)
-	defer ab.Release()
-
-	exp := []float32{0, 1, 2, 3}
-
-	ab.AppendValues([]float32{}, nil)
-	a := ab.NewFloat32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewFloat32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]float32{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewFloat32Array()
-	assert.Equal(t, exp, a.Float32Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]float32{}, nil)
-	a = ab.NewFloat32Array()
-	assert.Equal(t, exp, a.Float32Values())
-	a.Release()
-}
-
-func TestFloat32Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewFloat32Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestFloat32BuilderUnmarshalJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewFloat32Builder(mem)
-	defer bldr.Release()
-
-	jsonstr := `[0, 1, "+Inf", 2, 3, "NaN", "NaN", 4, 5, "-Inf"]`
-
-	err := bldr.UnmarshalJSON([]byte(jsonstr))
-	assert.NoError(t, err)
-
-	arr := bldr.NewFloat32Array()
-	defer arr.Release()
-
-	assert.NotNil(t, arr)
-
-	assert.False(t, math.IsInf(float64(arr.Value(0)), 0), arr.Value(0))
-	assert.True(t, math.IsInf(float64(arr.Value(2)), 1), arr.Value(2))
-	assert.True(t, math.IsNaN(float64(arr.Value(5))), arr.Value(5))
-}
-
-func TestInt16StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewInt16Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Int16)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewInt16Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Int16)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewInt16Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt16Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewInt16Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewInt16Array()
-
-	// check state of builder after NewInt16Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewInt16Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewInt16Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewInt16Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []int16{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Int16Values(), "unexpected Int16Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Int16Values(), 10, "unexpected length of Int16Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewInt16Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []int16{7, 8}, a.Int16Values())
-	assert.Len(t, a.Int16Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []int16{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewInt16Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Int16); !ok {
-		t.Fatalf("could not type-assert to array.Int16")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Int16)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Int16")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestInt16Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt16Builder(mem)
-	defer ab.Release()
-
-	exp := []int16{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewInt16Array()
-	assert.Equal(t, exp, a.Int16Values())
-
-	a.Release()
-}
-
-func TestInt16Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt16Builder(mem)
-	defer ab.Release()
-
-	exp := []int16{0, 1, 2, 3}
-
-	ab.AppendValues([]int16{}, nil)
-	a := ab.NewInt16Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewInt16Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]int16{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewInt16Array()
-	assert.Equal(t, exp, a.Int16Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]int16{}, nil)
-	a = ab.NewInt16Array()
-	assert.Equal(t, exp, a.Int16Values())
-	a.Release()
-}
-
-func TestInt16Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt16Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestUint16StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewUint16Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Uint16)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewUint16Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Uint16)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewUint16Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint16Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewUint16Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewUint16Array()
-
-	// check state of builder after NewUint16Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewUint16Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewUint16Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewUint16Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []uint16{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Uint16Values(), "unexpected Uint16Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Uint16Values(), 10, "unexpected length of Uint16Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewUint16Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []uint16{7, 8}, a.Uint16Values())
-	assert.Len(t, a.Uint16Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []uint16{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewUint16Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Uint16); !ok {
-		t.Fatalf("could not type-assert to array.Uint16")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Uint16)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Uint16")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestUint16Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint16Builder(mem)
-	defer ab.Release()
-
-	exp := []uint16{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewUint16Array()
-	assert.Equal(t, exp, a.Uint16Values())
-
-	a.Release()
-}
-
-func TestUint16Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint16Builder(mem)
-	defer ab.Release()
-
-	exp := []uint16{0, 1, 2, 3}
-
-	ab.AppendValues([]uint16{}, nil)
-	a := ab.NewUint16Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewUint16Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]uint16{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewUint16Array()
-	assert.Equal(t, exp, a.Uint16Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]uint16{}, nil)
-	a = ab.NewUint16Array()
-	assert.Equal(t, exp, a.Uint16Values())
-	a.Release()
-}
-
-func TestUint16Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint16Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestInt8StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewInt8Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Int8)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewInt8Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Int8)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewInt8Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt8Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewInt8Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewInt8Array()
-
-	// check state of builder after NewInt8Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewInt8Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewInt8Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewInt8Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []int8{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Int8Values(), "unexpected Int8Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Int8Values(), 10, "unexpected length of Int8Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewInt8Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []int8{7, 8}, a.Int8Values())
-	assert.Len(t, a.Int8Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []int8{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewInt8Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Int8); !ok {
-		t.Fatalf("could not type-assert to array.Int8")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Int8)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Int8")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestInt8Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt8Builder(mem)
-	defer ab.Release()
-
-	exp := []int8{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewInt8Array()
-	assert.Equal(t, exp, a.Int8Values())
-
-	a.Release()
-}
-
-func TestInt8Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt8Builder(mem)
-	defer ab.Release()
-
-	exp := []int8{0, 1, 2, 3}
-
-	ab.AppendValues([]int8{}, nil)
-	a := ab.NewInt8Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewInt8Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]int8{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewInt8Array()
-	assert.Equal(t, exp, a.Int8Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]int8{}, nil)
-	a = ab.NewInt8Array()
-	assert.Equal(t, exp, a.Int8Values())
-	a.Release()
-}
-
-func TestInt8Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewInt8Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestUint8StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewUint8Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Uint8)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewUint8Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Uint8)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewUint8Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint8Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewUint8Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewUint8Array()
-
-	// check state of builder after NewUint8Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewUint8Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewUint8Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewUint8Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []uint8{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Uint8Values(), "unexpected Uint8Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Uint8Values(), 10, "unexpected length of Uint8Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewUint8Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []uint8{7, 8}, a.Uint8Values())
-	assert.Len(t, a.Uint8Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []uint8{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewUint8Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Uint8); !ok {
-		t.Fatalf("could not type-assert to array.Uint8")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Uint8)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Uint8")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestUint8Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint8Builder(mem)
-	defer ab.Release()
-
-	exp := []uint8{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewUint8Array()
-	assert.Equal(t, exp, a.Uint8Values())
-
-	a.Release()
-}
-
-func TestUint8Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint8Builder(mem)
-	defer ab.Release()
-
-	exp := []uint8{0, 1, 2, 3}
-
-	ab.AppendValues([]uint8{}, nil)
-	a := ab.NewUint8Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewUint8Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]uint8{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewUint8Array()
-	assert.Equal(t, exp, a.Uint8Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]uint8{}, nil)
-	a = ab.NewUint8Array()
-	assert.Equal(t, exp, a.Uint8Values())
-	a.Release()
-}
-
-func TestUint8Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewUint8Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestTime32StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.Time32Type{Unit: arrow.Second}
-	b := array.NewTime32Builder(mem, dt)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Time32)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewTime32Builder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Time32)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewTime32Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time32Type{Unit: arrow.Second}
-	ab := array.NewTime32Builder(mem, dtype)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewTime32Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewTime32Array()
-
-	// check state of builder after NewTime32Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewTime32Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewTime32Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewTime32Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []arrow.Time32{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Time32Values(), "unexpected Time32Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Time32Values(), 10, "unexpected length of Time32Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewTime32Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []arrow.Time32{7, 8}, a.Time32Values())
-	assert.Len(t, a.Time32Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []arrow.Time32{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewTime32Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Time32); !ok {
-		t.Fatalf("could not type-assert to array.Time32")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Time32)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Time32")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestTime32Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time32Type{Unit: arrow.Second}
-	ab := array.NewTime32Builder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Time32{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewTime32Array()
-	assert.Equal(t, exp, a.Time32Values())
-
-	a.Release()
-}
-
-func TestTime32Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time32Type{Unit: arrow.Second}
-	ab := array.NewTime32Builder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Time32{0, 1, 2, 3}
-
-	ab.AppendValues([]arrow.Time32{}, nil)
-	a := ab.NewTime32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewTime32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]arrow.Time32{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewTime32Array()
-	assert.Equal(t, exp, a.Time32Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]arrow.Time32{}, nil)
-	a = ab.NewTime32Array()
-	assert.Equal(t, exp, a.Time32Values())
-	a.Release()
-}
-
-func TestTime32Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time32Type{Unit: arrow.Second}
-	ab := array.NewTime32Builder(mem, dtype)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestTime64StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.Time64Type{Unit: arrow.Microsecond}
-	b := array.NewTime64Builder(mem, dt)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Time64)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewTime64Builder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Time64)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewTime64Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time64Type{Unit: arrow.Second}
-	ab := array.NewTime64Builder(mem, dtype)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewTime64Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewTime64Array()
-
-	// check state of builder after NewTime64Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewTime64Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewTime64Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewTime64Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []arrow.Time64{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Time64Values(), "unexpected Time64Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Time64Values(), 10, "unexpected length of Time64Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewTime64Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []arrow.Time64{7, 8}, a.Time64Values())
-	assert.Len(t, a.Time64Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []arrow.Time64{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewTime64Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Time64); !ok {
-		t.Fatalf("could not type-assert to array.Time64")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Time64)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Time64")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestTime64Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time64Type{Unit: arrow.Second}
-	ab := array.NewTime64Builder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Time64{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewTime64Array()
-	assert.Equal(t, exp, a.Time64Values())
-
-	a.Release()
-}
-
-func TestTime64Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time64Type{Unit: arrow.Second}
-	ab := array.NewTime64Builder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Time64{0, 1, 2, 3}
-
-	ab.AppendValues([]arrow.Time64{}, nil)
-	a := ab.NewTime64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewTime64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]arrow.Time64{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewTime64Array()
-	assert.Equal(t, exp, a.Time64Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]arrow.Time64{}, nil)
-	a = ab.NewTime64Array()
-	assert.Equal(t, exp, a.Time64Values())
-	a.Release()
-}
-
-func TestTime64Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.Time64Type{Unit: arrow.Second}
-	ab := array.NewTime64Builder(mem, dtype)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestDate32StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewDate32Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Date32)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDate32Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Date32)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewDate32Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate32Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewDate32Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewDate32Array()
-
-	// check state of builder after NewDate32Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewDate32Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewDate32Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewDate32Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []arrow.Date32{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Date32Values(), "unexpected Date32Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Date32Values(), 10, "unexpected length of Date32Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewDate32Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []arrow.Date32{7, 8}, a.Date32Values())
-	assert.Len(t, a.Date32Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []arrow.Date32{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewDate32Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Date32); !ok {
-		t.Fatalf("could not type-assert to array.Date32")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Date32)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Date32")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestDate32Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate32Builder(mem)
-	defer ab.Release()
-
-	exp := []arrow.Date32{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewDate32Array()
-	assert.Equal(t, exp, a.Date32Values())
-
-	a.Release()
-}
-
-func TestDate32Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate32Builder(mem)
-	defer ab.Release()
-
-	exp := []arrow.Date32{0, 1, 2, 3}
-
-	ab.AppendValues([]arrow.Date32{}, nil)
-	a := ab.NewDate32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewDate32Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]arrow.Date32{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewDate32Array()
-	assert.Equal(t, exp, a.Date32Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]arrow.Date32{}, nil)
-	a = ab.NewDate32Array()
-	assert.Equal(t, exp, a.Date32Values())
-	a.Release()
-}
-
-func TestDate32Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate32Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestDate64StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := array.NewDate64Builder(mem)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Date64)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDate64Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Date64)
-	defer arr1.Release()
-
-	assert.Exactly(t, arr.Len(), arr1.Len())
-	for i := 0; i < arr.Len(); i++ {
-		assert.Exactly(t, arr.IsValid(i), arr1.IsValid(i))
-		assert.Exactly(t, arr.ValueStr(i), arr1.ValueStr(i))
-		if arr.IsValid(i) {
-			assert.Exactly(t, arr.Value(i).ToTime(), arr1.Value(i).ToTime())
-		}
-	}
-}
-
-func TestNewDate64Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate64Builder(mem)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewDate64Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewDate64Array()
-
-	// check state of builder after NewDate64Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewDate64Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewDate64Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewDate64Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []arrow.Date64{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.Date64Values(), "unexpected Date64Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.Date64Values(), 10, "unexpected length of Date64Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewDate64Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []arrow.Date64{7, 8}, a.Date64Values())
-	assert.Len(t, a.Date64Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []arrow.Date64{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewDate64Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Date64); !ok {
-		t.Fatalf("could not type-assert to array.Date64")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Date64)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Date64")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestDate64Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate64Builder(mem)
-	defer ab.Release()
-
-	exp := []arrow.Date64{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewDate64Array()
-	assert.Equal(t, exp, a.Date64Values())
-
-	a.Release()
-}
-
-func TestDate64Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate64Builder(mem)
-	defer ab.Release()
-
-	exp := []arrow.Date64{0, 1, 2, 3}
-
-	ab.AppendValues([]arrow.Date64{}, nil)
-	a := ab.NewDate64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewDate64Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]arrow.Date64{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewDate64Array()
-	assert.Equal(t, exp, a.Date64Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]arrow.Date64{}, nil)
-	a = ab.NewDate64Array()
-	assert.Equal(t, exp, a.Date64Values())
-	a.Release()
-}
-
-func TestDate64Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	ab := array.NewDate64Builder(mem)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestDurationStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.DurationType{Unit: arrow.Second}
-	b := array.NewDurationBuilder(mem, dt)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Duration)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDurationBuilder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Duration)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewDurationBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.DurationType{Unit: arrow.Second}
-	ab := array.NewDurationBuilder(mem, dtype)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before NewDurationArray
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewDurationArray()
-
-	// check state of builder after NewDurationArray
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewDurationArray did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewDurationArray did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewDurationArray did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []arrow.Duration{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.DurationValues(), "unexpected DurationValues")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.DurationValues(), 10, "unexpected length of DurationValues")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewDurationArray()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []arrow.Duration{7, 8}, a.DurationValues())
-	assert.Len(t, a.DurationValues(), 2)
-
-	a.Release()
-
-	var (
-		want   = []arrow.Duration{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewDurationArray()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Duration); !ok {
-		t.Fatalf("could not type-assert to array.Duration")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Duration)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Duration")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestDurationBuilder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.DurationType{Unit: arrow.Second}
-	ab := array.NewDurationBuilder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Duration{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewDurationArray()
-	assert.Equal(t, exp, a.DurationValues())
-
-	a.Release()
-}
-
-func TestDurationBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.DurationType{Unit: arrow.Second}
-	ab := array.NewDurationBuilder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Duration{0, 1, 2, 3}
-
-	ab.AppendValues([]arrow.Duration{}, nil)
-	a := ab.NewDurationArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewDurationArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]arrow.Duration{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewDurationArray()
-	assert.Equal(t, exp, a.DurationValues())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]arrow.Duration{}, nil)
-	a = ab.NewDurationArray()
-	assert.Equal(t, exp, a.DurationValues())
-	a.Release()
-}
-
-func TestDurationBuilder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.DurationType{Unit: arrow.Second}
-	ab := array.NewDurationBuilder(mem, dtype)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
diff --git a/go/arrow/array/numericbuilder.gen_test.go.tmpl b/go/arrow/array/numericbuilder.gen_test.go.tmpl
deleted file mode 100644
index f3cd08a63745d..0000000000000
--- a/go/arrow/array/numericbuilder.gen_test.go.tmpl
+++ /dev/null
@@ -1,299 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-{{range .In}}
-func Test{{.Name}}StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-{{if .Opt.Parametric -}}
-{{ if or (eq .Name "Time64") -}}
-	dt := &arrow.{{.Name}}Type{Unit: arrow.Microsecond}
-{{else -}}
-	dt := &arrow.{{.Name}}Type{Unit: arrow.Second}
-{{end -}}
-	b := array.New{{.Name}}Builder(mem, dt)
-{{else -}}
-	b := array.New{{.Name}}Builder(mem)
-{{end -}}
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.{{.Name}})
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-{{if .Opt.Parametric -}}
-	b1 := array.New{{.Name}}Builder(mem, dt)
-{{else -}}
-	b1 := array.New{{.Name}}Builder(mem)
-{{end -}}
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.{{.Name}})
-	defer arr1.Release()
-
-{{ if or (eq .Name "Date64") -}}
-	assert.Exactly(t, arr.Len(), arr1.Len())
-	for i := 0; i < arr.Len(); i++ {
-		assert.Exactly(t, arr.IsValid(i), arr1.IsValid(i))
-		assert.Exactly(t, arr.ValueStr(i), arr1.ValueStr(i))
-		if arr.IsValid(i) {
-			assert.Exactly(t, arr.Value(i).ToTime(), arr1.Value(i).ToTime())
-		}
-	}
-{{else -}}
-	assert.True(t, array.Equal(arr, arr1))
-{{end -}}
-}
-
-func TestNew{{.Name}}Builder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-{{if .Opt.Parametric -}}
-	dtype := &arrow.{{.Name}}Type{Unit: arrow.Second}
-	ab := array.New{{.Name}}Builder(mem, dtype)
-{{else}}
-	ab := array.New{{.Name}}Builder(mem)
-{{end -}}
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-
-	// check state of builder before New{{.Name}}Array
-	assert.Equal(t, 10, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.New{{.Name}}Array()
-
-	// check state of builder after New{{.Name}}Array
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), New{{.Name}}Array did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), New{{.Name}}Array did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), New{{.Name}}Array did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []{{or .QualifiedType .Type}}{1, 2, 3, 0, 5, 6, 0, 8, 9, 10}, a.{{.Name}}Values(), "unexpected {{.Name}}Values")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.{{.Name}}Values(), 10, "unexpected length of {{.Name}}Values")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.New{{.Name}}Array()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []{{or .QualifiedType .Type}}{7, 8}, a.{{.Name}}Values())
-	assert.Len(t, a.{{.Name}}Values(), 2)
-
-	a.Release()
-
-	var (
-		want   = []{{or .QualifiedType .Type}}{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.New{{.Name}}Array()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.{{.Name}}); !ok {
-		t.Fatalf("could not type-assert to array.{{.Name}}")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.{{.Name}})
-	if !ok {
-		t.Fatalf("could not type-assert to array.{{.Name}}")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func Test{{.Name}}Builder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-{{if .Opt.Parametric -}}
-	dtype := &arrow.{{.Name}}Type{Unit: arrow.Second}
-	ab := array.New{{.Name}}Builder(mem, dtype)
-{{else}}
-	ab := array.New{{.Name}}Builder(mem)
-{{end -}}
-	defer ab.Release()
-
-	exp := []{{or .QualifiedType .Type}}{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.New{{.Name}}Array()
-	assert.Equal(t, exp, a.{{.Name}}Values())
-
-	a.Release()
-}
-
-func Test{{.Name}}Builder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-{{if .Opt.Parametric -}}
-	dtype := &arrow.{{.Name}}Type{Unit: arrow.Second}
-	ab := array.New{{.Name}}Builder(mem, dtype)
-{{else}}
-	ab := array.New{{.Name}}Builder(mem)
-{{end -}}
-	defer ab.Release()
-
-	exp := []{{or .QualifiedType .Type}}{0, 1, 2, 3}
-
-	ab.AppendValues([]{{or .QualifiedType .Type}}{}, nil)
-	a := ab.New{{.Name}}Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.New{{.Name}}Array()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]{{or .QualifiedType .Type}}{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.New{{.Name}}Array()
-	assert.Equal(t, exp, a.{{.Name}}Values())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]{{or .QualifiedType .Type}}{}, nil)
-	a = ab.New{{.Name}}Array()
-	assert.Equal(t, exp, a.{{.Name}}Values())
-	a.Release()
-}
-
-func Test{{.Name}}Builder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-{{if .Opt.Parametric -}}
-	dtype := &arrow.{{.Name}}Type{Unit: arrow.Second}
-	ab := array.New{{.Name}}Builder(mem, dtype)
-{{else}}
-	ab := array.New{{.Name}}Builder(mem)
-{{end -}}
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func Test{{.Name}}BuilderUnmarshalJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.New{{.Name}}Builder(mem)
-	defer bldr.Release()
-
-	jsonstr := `[0, 1, "+Inf", 2, 3, "NaN", "NaN", 4, 5, "-Inf"]`
-
-	err := bldr.UnmarshalJSON([]byte(jsonstr))
-	assert.NoError(t, err)
-
-	arr := bldr.New{{.Name}}Array()
-	defer arr.Release()
-
-	assert.NotNil(t, arr)
-
-	assert.False(t, math.IsInf(float64(arr.Value(0)), 0), arr.Value(0))
-	assert.True(t, math.IsInf(float64(arr.Value(2)), 1), arr.Value(2))
-	assert.True(t, math.IsNaN(float64(arr.Value(5))), arr.Value(5))
-}
-
-{{end}}
-
-
diff --git a/go/arrow/array/record.go b/go/arrow/array/record.go
deleted file mode 100644
index 2735f1baa9a30..0000000000000
--- a/go/arrow/array/record.go
+++ /dev/null
@@ -1,411 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// RecordReader reads a stream of records.
-type RecordReader interface {
-	Retain()
-	Release()
-
-	Schema() *arrow.Schema
-
-	Next() bool
-	Record() arrow.Record
-	Err() error
-}
-
-// simpleRecords is a simple iterator over a collection of records.
-type simpleRecords struct {
-	refCount int64
-
-	schema *arrow.Schema
-	recs   []arrow.Record
-	cur    arrow.Record
-}
-
-// NewRecordReader returns a simple iterator over the given slice of records.
-func NewRecordReader(schema *arrow.Schema, recs []arrow.Record) (RecordReader, error) {
-	rs := &simpleRecords{
-		refCount: 1,
-		schema:   schema,
-		recs:     recs,
-		cur:      nil,
-	}
-
-	for _, rec := range rs.recs {
-		rec.Retain()
-	}
-
-	for _, rec := range recs {
-		if !rec.Schema().Equal(rs.schema) {
-			rs.Release()
-			return nil, fmt.Errorf("arrow/array: mismatch schema")
-		}
-	}
-
-	return rs, nil
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (rs *simpleRecords) Retain() {
-	atomic.AddInt64(&rs.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (rs *simpleRecords) Release() {
-	debug.Assert(atomic.LoadInt64(&rs.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&rs.refCount, -1) == 0 {
-		if rs.cur != nil {
-			rs.cur.Release()
-		}
-		for _, rec := range rs.recs {
-			rec.Release()
-		}
-		rs.recs = nil
-	}
-}
-
-func (rs *simpleRecords) Schema() *arrow.Schema { return rs.schema }
-func (rs *simpleRecords) Record() arrow.Record  { return rs.cur }
-func (rs *simpleRecords) Next() bool {
-	if len(rs.recs) == 0 {
-		return false
-	}
-	if rs.cur != nil {
-		rs.cur.Release()
-	}
-	rs.cur = rs.recs[0]
-	rs.recs = rs.recs[1:]
-	return true
-}
-func (rs *simpleRecords) Err() error { return nil }
-
-// simpleRecord is a basic, non-lazy in-memory record batch.
-type simpleRecord struct {
-	refCount int64
-
-	schema *arrow.Schema
-
-	rows int64
-	arrs []arrow.Array
-}
-
-// NewRecord returns a basic, non-lazy in-memory record batch.
-//
-// NewRecord panics if the columns and schema are inconsistent.
-// NewRecord panics if rows is larger than the height of the columns.
-func NewRecord(schema *arrow.Schema, cols []arrow.Array, nrows int64) arrow.Record {
-	rec := &simpleRecord{
-		refCount: 1,
-		schema:   schema,
-		rows:     nrows,
-		arrs:     make([]arrow.Array, len(cols)),
-	}
-	copy(rec.arrs, cols)
-	for _, arr := range rec.arrs {
-		arr.Retain()
-	}
-
-	if rec.rows < 0 {
-		switch len(rec.arrs) {
-		case 0:
-			rec.rows = 0
-		default:
-			rec.rows = int64(rec.arrs[0].Len())
-		}
-	}
-
-	err := rec.validate()
-	if err != nil {
-		rec.Release()
-		panic(err)
-	}
-
-	return rec
-}
-
-func (rec *simpleRecord) SetColumn(i int, arr arrow.Array) (arrow.Record, error) {
-	if i < 0 || i >= len(rec.arrs) {
-		return nil, fmt.Errorf("arrow/array: column index out of range [0, %d): got=%d", len(rec.arrs), i)
-	}
-
-	if arr.Len() != int(rec.rows) {
-		return nil, fmt.Errorf("arrow/array: mismatch number of rows in column %q: got=%d, want=%d",
-			rec.schema.Field(i).Name,
-			arr.Len(), rec.rows,
-		)
-	}
-
-	f := rec.schema.Field(i)
-	if !arrow.TypeEqual(f.Type, arr.DataType()) {
-		return nil, fmt.Errorf("arrow/array: column %q type mismatch: got=%v, want=%v",
-			f.Name,
-			arr.DataType(), f.Type,
-		)
-	}
-	arrs := make([]arrow.Array, len(rec.arrs))
-	copy(arrs, rec.arrs)
-	arrs[i] = arr
-
-	return NewRecord(rec.schema, arrs, rec.rows), nil
-}
-
-func (rec *simpleRecord) validate() error {
-	if rec.rows == 0 && len(rec.arrs) == 0 {
-		return nil
-	}
-
-	if len(rec.arrs) != rec.schema.NumFields() {
-		return fmt.Errorf("arrow/array: number of columns/fields mismatch")
-	}
-
-	for i, arr := range rec.arrs {
-		f := rec.schema.Field(i)
-		if int64(arr.Len()) < rec.rows {
-			return fmt.Errorf("arrow/array: mismatch number of rows in column %q: got=%d, want=%d",
-				f.Name,
-				arr.Len(), rec.rows,
-			)
-		}
-		if !arrow.TypeEqual(f.Type, arr.DataType()) {
-			return fmt.Errorf("arrow/array: column %q type mismatch: got=%v, want=%v",
-				f.Name,
-				arr.DataType(), f.Type,
-			)
-		}
-	}
-	return nil
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (rec *simpleRecord) Retain() {
-	atomic.AddInt64(&rec.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (rec *simpleRecord) Release() {
-	debug.Assert(atomic.LoadInt64(&rec.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&rec.refCount, -1) == 0 {
-		for _, arr := range rec.arrs {
-			arr.Release()
-		}
-		rec.arrs = nil
-	}
-}
-
-func (rec *simpleRecord) Schema() *arrow.Schema    { return rec.schema }
-func (rec *simpleRecord) NumRows() int64           { return rec.rows }
-func (rec *simpleRecord) NumCols() int64           { return int64(len(rec.arrs)) }
-func (rec *simpleRecord) Columns() []arrow.Array   { return rec.arrs }
-func (rec *simpleRecord) Column(i int) arrow.Array { return rec.arrs[i] }
-func (rec *simpleRecord) ColumnName(i int) string  { return rec.schema.Field(i).Name }
-
-// NewSlice constructs a zero-copy slice of the record with the indicated
-// indices i and j, corresponding to array[i:j].
-// The returned record must be Release()'d after use.
-//
-// NewSlice panics if the slice is outside the valid range of the record array.
-// NewSlice panics if j < i.
-func (rec *simpleRecord) NewSlice(i, j int64) arrow.Record {
-	arrs := make([]arrow.Array, len(rec.arrs))
-	for ii, arr := range rec.arrs {
-		arrs[ii] = NewSlice(arr, i, j)
-	}
-	defer func() {
-		for _, arr := range arrs {
-			arr.Release()
-		}
-	}()
-	return NewRecord(rec.schema, arrs, j-i)
-}
-
-func (rec *simpleRecord) String() string {
-	o := new(strings.Builder)
-	fmt.Fprintf(o, "record:\n  %v\n", rec.schema)
-	fmt.Fprintf(o, "  rows: %d\n", rec.rows)
-	for i, col := range rec.arrs {
-		fmt.Fprintf(o, "  col[%d][%s]: %v\n", i, rec.schema.Field(i).Name, col)
-	}
-
-	return o.String()
-}
-
-func (rec *simpleRecord) MarshalJSON() ([]byte, error) {
-	arr := RecordToStructArray(rec)
-	defer arr.Release()
-	return arr.MarshalJSON()
-}
-
-// RecordBuilder eases the process of building a Record, iteratively, from
-// a known Schema.
-type RecordBuilder struct {
-	refCount int64
-	mem      memory.Allocator
-	schema   *arrow.Schema
-	fields   []Builder
-}
-
-// NewRecordBuilder returns a builder, using the provided memory allocator and a schema.
-func NewRecordBuilder(mem memory.Allocator, schema *arrow.Schema) *RecordBuilder {
-	b := &RecordBuilder{
-		refCount: 1,
-		mem:      mem,
-		schema:   schema,
-		fields:   make([]Builder, schema.NumFields()),
-	}
-
-	for i := 0; i < schema.NumFields(); i++ {
-		b.fields[i] = NewBuilder(b.mem, schema.Field(i).Type)
-	}
-
-	return b
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (b *RecordBuilder) Retain() {
-	atomic.AddInt64(&b.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-func (b *RecordBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		for _, f := range b.fields {
-			f.Release()
-		}
-		b.fields = nil
-	}
-}
-
-func (b *RecordBuilder) Schema() *arrow.Schema { return b.schema }
-func (b *RecordBuilder) Fields() []Builder     { return b.fields }
-func (b *RecordBuilder) Field(i int) Builder   { return b.fields[i] }
-
-func (b *RecordBuilder) Reserve(size int) {
-	for _, f := range b.fields {
-		f.Reserve(size)
-	}
-}
-
-// NewRecord creates a new record from the memory buffers and resets the
-// RecordBuilder so it can be used to build a new record.
-//
-// The returned Record must be Release()'d after use.
-//
-// NewRecord panics if the fields' builder do not have the same length.
-func (b *RecordBuilder) NewRecord() arrow.Record {
-	cols := make([]arrow.Array, len(b.fields))
-	rows := int64(0)
-
-	defer func(cols []arrow.Array) {
-		for _, col := range cols {
-			if col == nil {
-				continue
-			}
-			col.Release()
-		}
-	}(cols)
-
-	for i, f := range b.fields {
-		cols[i] = f.NewArray()
-		irow := int64(cols[i].Len())
-		if i > 0 && irow != rows {
-			panic(fmt.Errorf("arrow/array: field %d has %d rows. want=%d", i, irow, rows))
-		}
-		rows = irow
-	}
-
-	return NewRecord(b.schema, cols, rows)
-}
-
-// UnmarshalJSON for record builder will read in a single object and add the values
-// to each field in the recordbuilder, missing fields will get a null and unexpected
-// keys will be ignored. If reading in an array of records as a single batch, then use
-// a structbuilder and use RecordFromStruct.
-func (b *RecordBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	// should start with a '{'
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '{' {
-		return fmt.Errorf("record should start with '{', not %s", t)
-	}
-
-	keylist := make(map[string]bool)
-	for dec.More() {
-		keyTok, err := dec.Token()
-		if err != nil {
-			return err
-		}
-
-		key := keyTok.(string)
-		if keylist[key] {
-			return fmt.Errorf("key %s shows up twice in row to be decoded", key)
-		}
-		keylist[key] = true
-
-		indices := b.schema.FieldIndices(key)
-		if len(indices) == 0 {
-			var extra interface{}
-			if err := dec.Decode(&extra); err != nil {
-				return err
-			}
-			continue
-		}
-
-		if err := b.fields[indices[0]].UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-
-	for i := 0; i < b.schema.NumFields(); i++ {
-		if !keylist[b.schema.Field(i).Name] {
-			b.fields[i].AppendNull()
-		}
-	}
-	return nil
-}
-
-var (
-	_ arrow.Record = (*simpleRecord)(nil)
-	_ RecordReader = (*simpleRecords)(nil)
-)
diff --git a/go/arrow/array/record_test.go b/go/arrow/array/record_test.go
deleted file mode 100644
index 8e6dc3b06d25e..0000000000000
--- a/go/arrow/array/record_test.go
+++ /dev/null
@@ -1,787 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestRecord(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-	col1 := func() arrow.Array {
-		ib := array.NewInt32Builder(mem)
-		defer ib.Release()
-
-		ib.AppendValues([]int32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-		return ib.NewInt32Array()
-	}()
-	defer col1.Release()
-
-	col2 := func() arrow.Array {
-		b := array.NewFloat64Builder(mem)
-		defer b.Release()
-
-		b.AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-		return b.NewFloat64Array()
-	}()
-	defer col2.Release()
-
-	col2_1 := func() arrow.Array {
-		b := array.NewFloat64Builder(mem)
-		defer b.Release()
-
-		b.AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-		return b.NewFloat64Array()
-	}()
-	defer col2_1.Release()
-
-	cols := []arrow.Array{col1, col2}
-	rec := array.NewRecord(schema, cols, -1)
-	defer rec.Release()
-
-	rec.Retain()
-	rec.Release()
-
-	if got, want := rec.Schema(), schema; !got.Equal(want) {
-		t.Fatalf("invalid schema: got=%#v, want=%#v", got, want)
-	}
-
-	if got, want := rec.NumRows(), int64(10); got != want {
-		t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-	}
-	if got, want := rec.NumCols(), int64(2); got != want {
-		t.Fatalf("invalid number of columns: got=%d, want=%d", got, want)
-	}
-	if got, want := rec.Columns()[0], cols[0]; got != want {
-		t.Fatalf("invalid column: got=%q, want=%q", got, want)
-	}
-	if got, want := rec.Column(0), cols[0]; got != want {
-		t.Fatalf("invalid column: got=%q, want=%q", got, want)
-	}
-	if got, want := rec.ColumnName(0), schema.Field(0).Name; got != want {
-		t.Fatalf("invalid column name: got=%q, want=%q", got, want)
-	}
-	if _, err := rec.SetColumn(0, col2_1); err == nil {
-		t.Fatalf("expected an error")
-	}
-	newRec, err := rec.SetColumn(1, col2_1)
-	if err != nil {
-		t.Fatalf("unexpected error: %v", err)
-	}
-	defer newRec.Release()
-	if !reflect.DeepEqual(newRec.Column(1), col2_1) {
-		t.Fatalf("invalid column: got=%q, want=%q", rec.Column(1), col2_1)
-	}
-
-	for _, tc := range []struct {
-		i, j int64
-		err  error
-	}{
-		{i: 0, j: 10, err: nil},
-		{i: 1, j: 10, err: nil},
-		{i: 1, j: 9, err: nil},
-		{i: 0, j: 0, err: nil},
-		{i: 1, j: 1, err: nil},
-		{i: 10, j: 10, err: nil},
-		{i: 1, j: 0, err: fmt.Errorf("arrow/array: index out of range")},
-		{i: 1, j: 11, err: fmt.Errorf("arrow/array: index out of range")},
-	} {
-		t.Run(fmt.Sprintf("slice-%02d-%02d", tc.i, tc.j), func(t *testing.T) {
-			if tc.err != nil {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("expected an error %q", tc.err)
-					}
-					switch err := e.(type) {
-					case string:
-						if err != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					case error:
-						if err.Error() != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					default:
-						t.Fatalf("invalid type for panic message: %T (err=%v)", err, err)
-					}
-				}()
-			}
-			sub := rec.NewSlice(tc.i, tc.j)
-			defer sub.Release()
-
-			if got, want := sub.NumRows(), tc.j-tc.i; got != want {
-				t.Fatalf("invalid rec-slice number of rows: got=%d, want=%d", got, want)
-			}
-		})
-	}
-
-	for _, tc := range []struct {
-		schema *arrow.Schema
-		cols   []arrow.Array
-		rows   int64
-		err    error
-	}{
-		{
-			schema: schema,
-			cols:   nil,
-			rows:   0,
-		},
-		{
-			schema: schema,
-			cols:   cols[:1],
-			rows:   0,
-			err:    fmt.Errorf("arrow/array: number of columns/fields mismatch"),
-		},
-		{
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-				},
-				nil,
-			),
-			cols: cols,
-			rows: 0,
-			err:  fmt.Errorf("arrow/array: number of columns/fields mismatch"),
-		},
-		{
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-					{Name: "f2-f64", Type: arrow.PrimitiveTypes.Int32},
-				},
-				nil,
-			),
-			cols: cols,
-			rows: 0,
-			err:  fmt.Errorf(`arrow/array: column "f2-f64" type mismatch: got=float64, want=int32`),
-		},
-		{
-			schema: schema,
-			cols:   cols,
-			rows:   11,
-			err:    fmt.Errorf(`arrow/array: mismatch number of rows in column "f1-i32": got=10, want=11`),
-		},
-		{
-			schema: schema,
-			cols:   cols,
-			rows:   10,
-			err:    nil,
-		},
-		{
-			schema: schema,
-			cols:   cols,
-			rows:   3,
-			err:    nil,
-		},
-		{
-			schema: schema,
-			cols:   cols,
-			rows:   0,
-			err:    nil,
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			if tc.err != nil {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("expected an error %q", tc.err)
-					}
-					switch err := e.(type) {
-					case string:
-						if err != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					case error:
-						if err.Error() != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					default:
-						t.Fatalf("invalid type for panic message: %T (err=%v)", err, err)
-					}
-				}()
-			}
-			rec := array.NewRecord(tc.schema, tc.cols, tc.rows)
-			defer rec.Release()
-			if got, want := rec.NumRows(), tc.rows; got != want {
-				t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
-
-func TestRecordReader(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-	rec1 := func() arrow.Record {
-		col1 := func() arrow.Array {
-			ib := array.NewInt32Builder(mem)
-			defer ib.Release()
-
-			ib.AppendValues([]int32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-			return ib.NewInt32Array()
-		}()
-		defer col1.Release()
-
-		col2 := func() arrow.Array {
-			b := array.NewFloat64Builder(mem)
-			defer b.Release()
-
-			b.AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-			return b.NewFloat64Array()
-		}()
-		defer col2.Release()
-
-		cols := []arrow.Array{col1, col2}
-		return array.NewRecord(schema, cols, -1)
-	}()
-	defer rec1.Release()
-
-	rec2 := func() arrow.Record {
-		col1 := func() arrow.Array {
-			ib := array.NewInt32Builder(mem)
-			defer ib.Release()
-
-			ib.AppendValues([]int32{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-			return ib.NewInt32Array()
-		}()
-		defer col1.Release()
-
-		col2 := func() arrow.Array {
-			b := array.NewFloat64Builder(mem)
-			defer b.Release()
-
-			b.AppendValues([]float64{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-			return b.NewFloat64Array()
-		}()
-		defer col2.Release()
-
-		cols := []arrow.Array{col1, col2}
-		return array.NewRecord(schema, cols, -1)
-	}()
-	defer rec2.Release()
-
-	recs := []arrow.Record{rec1, rec2}
-	itr, err := array.NewRecordReader(schema, recs)
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer itr.Release()
-
-	itr.Retain()
-	itr.Release()
-
-	if got, want := itr.Schema(), schema; !got.Equal(want) {
-		t.Fatalf("invalid schema. got=%#v, want=%#v", got, want)
-	}
-
-	n := 0
-	for itr.Next() {
-		n++
-		if got, want := itr.Record(), recs[n-1]; !reflect.DeepEqual(got, want) {
-			t.Fatalf("itr[%d], invalid record. got=%#v, want=%#v", n-1, got, want)
-		}
-	}
-	if err := itr.Err(); err != nil {
-		t.Fatalf("itr error: %#v", err)
-	}
-
-	if n != len(recs) {
-		t.Fatalf("invalid number of iterations. got=%d, want=%d", n, len(recs))
-	}
-
-	for _, tc := range []struct {
-		name   string
-		schema *arrow.Schema
-		err    error
-	}{
-		{
-			name: "mismatch-name",
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-					{Name: "f2-XXX", Type: arrow.PrimitiveTypes.Float64},
-				},
-				nil,
-			),
-			err: fmt.Errorf("arrow/array: mismatch schema"),
-		},
-		{
-			name: "mismatch-type",
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-					{Name: "f2-f64", Type: arrow.PrimitiveTypes.Int64},
-				},
-				nil,
-			),
-			err: fmt.Errorf("arrow/array: mismatch schema"),
-		},
-	} {
-		t.Run(tc.name, func(t *testing.T) {
-			itr, err := array.NewRecordReader(tc.schema, recs)
-			if itr != nil {
-				itr.Release()
-			}
-			if err == nil {
-				t.Fatalf("expected an error: %v", tc.err)
-			}
-			if !assert.Equal(t, tc.err, err) {
-				t.Fatalf("invalid error: got=%v, want=%v", err, tc.err)
-			}
-		})
-	}
-}
-
-func TestRecordBuilderRespectsFixedSizeArrayNullability(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	cases := []struct {
-		assertion string
-		fields    []arrow.Field
-	}{
-		{
-			"nullable",
-			[]arrow.Field{{Name: "data", Type: arrow.FixedSizeListOf(1, arrow.PrimitiveTypes.Int32)}},
-		},
-		{
-			"not nullable",
-			[]arrow.Field{{Name: "data", Type: arrow.FixedSizeListOfNonNullable(1, arrow.PrimitiveTypes.Int32)}},
-		},
-	}
-	for _, c := range cases {
-		t.Run(c.assertion, func(t *testing.T) {
-			schema := arrow.NewSchema(c.fields, nil)
-			b := array.NewRecordBuilder(mem, schema)
-			defer b.Release()
-
-			lb := b.Field(0).(*array.FixedSizeListBuilder)
-			lb.Append(true)
-
-			vb := lb.ValueBuilder().(*array.Int32Builder)
-			vb.Append(10)
-
-			rec := b.NewRecord()
-			defer rec.Release()
-
-			if got, want := rec.Column(0).String(), "[[10]]"; got != want {
-				t.Fatalf("invalid record: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestRecordBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	mapDt := arrow.MapOf(arrow.BinaryTypes.String, arrow.BinaryTypes.String)
-	mapDt.KeysSorted = true
-	mapDt.SetItemNullable(false)
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "map", Type: mapDt},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(mem, schema)
-	defer b.Release()
-
-	b.Retain()
-	b.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3}, nil)
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{4, 5}, nil)
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-	mb := b.Field(2).(*array.MapBuilder)
-	for i := 0; i < 5; i++ {
-		mb.Append(true)
-
-		if i%3 == 0 {
-			mb.KeyBuilder().(*array.StringBuilder).AppendValues([]string{fmt.Sprint(i), "2", "3"}, nil)
-			mb.ItemBuilder().(*array.StringBuilder).AppendValues([]string{"a", "b", "c"}, nil)
-		}
-	}
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	if got, want := rec.Schema(), schema; !got.Equal(want) {
-		t.Fatalf("invalid schema: got=%#v, want=%#v", got, want)
-	}
-
-	if got, want := rec.NumRows(), int64(5); got != want {
-		t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-	}
-	if got, want := rec.NumCols(), int64(3); got != want {
-		t.Fatalf("invalid number of columns: got=%d, want=%d", got, want)
-	}
-	if got, want := rec.ColumnName(0), schema.Field(0).Name; got != want {
-		t.Fatalf("invalid column name: got=%q, want=%q", got, want)
-	}
-	if got, want := rec.Column(2).String(), `[{["0" "2" "3"] ["a" "b" "c"]} {[] []} {[] []} {["3" "2" "3"] ["a" "b" "c"]} {[] []}]`; got != want {
-		t.Fatalf("invalid column name: got=%q, want=%q", got, want)
-	}
-}
-
-type testMessage struct {
-	Foo  *testMessageFoo
-	Bars []*testMessageBar
-}
-
-func (m *testMessage) Reset() { *m = testMessage{} }
-
-func (m *testMessage) GetFoo() *testMessageFoo {
-	if m != nil {
-		return m.Foo
-	}
-	return nil
-}
-
-func (m *testMessage) GetBars() []*testMessageBar {
-	if m != nil {
-		return m.Bars
-	}
-	return nil
-}
-
-type testMessageFoo struct {
-	A int32
-	B []uint32
-}
-
-func (m *testMessageFoo) Reset() { *m = testMessageFoo{} }
-
-func (m *testMessageFoo) GetA() int32 {
-	if m != nil {
-		return m.A
-	}
-	return 0
-}
-
-func (m *testMessageFoo) GetB() []uint32 {
-	if m != nil {
-		return m.B
-	}
-	return nil
-}
-
-type testMessageBar struct {
-	C int64
-	D []uint64
-}
-
-func (m *testMessageBar) Reset() { *m = testMessageBar{} }
-
-func (m *testMessageBar) GetC() int64 {
-	if m != nil {
-		return m.C
-	}
-	return 0
-}
-
-func (m *testMessageBar) GetD() []uint64 {
-	if m != nil {
-		return m.D
-	}
-	return nil
-}
-
-var testMessageSchema = arrow.NewSchema(
-	[]arrow.Field{
-		{Name: "foo", Type: arrow.StructOf(
-			arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32},
-			arrow.Field{Name: "b", Type: arrow.ListOf(
-				arrow.PrimitiveTypes.Uint32,
-			)},
-		)},
-		{Name: "bars", Type: arrow.ListOf(
-			arrow.StructOf(
-				arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int64},
-				arrow.Field{Name: "d", Type: arrow.ListOf(
-					arrow.PrimitiveTypes.Uint64,
-				)},
-			),
-		)},
-	},
-	nil,
-)
-
-func (m *testMessage) Fill(rec arrow.Record, row int) error {
-	m.Reset()
-
-	// foo
-	if 0 < rec.NumCols() {
-		src0 := rec.Column(0).Data()
-		typedSrc0 := array.NewStructData(src0)
-		defer typedSrc0.Release()
-		if typedSrc0.IsValid(row) {
-			m0 := &testMessageFoo{}
-			{
-
-				// a
-				if 0 < typedSrc0.NumField() {
-					src0_0 := typedSrc0.Field(0).Data()
-					typedSrc0_0 := array.NewInt32Data(src0_0)
-					defer typedSrc0_0.Release()
-					m0.A = typedSrc0_0.Value(row)
-				}
-
-				// b
-				if 1 < typedSrc0.NumField() {
-					src0_1 := typedSrc0.Field(1).Data()
-					listSrc0_1 := array.NewListData(src0_1)
-					defer listSrc0_1.Release()
-					if listSrc0_1.IsValid(row) {
-						typedSrc0_1 := array.NewUint32Data(listSrc0_1.ListValues().Data())
-						typedSrc0_1.Release()
-						start0_1 := int(listSrc0_1.Offsets()[row])
-						end0_1 := int(listSrc0_1.Offsets()[row+1])
-						for row := start0_1; row < end0_1; row++ {
-							m0.B = append(m0.B, typedSrc0_1.Value(row))
-						}
-					}
-				}
-			}
-			m.Foo = m0
-		}
-	}
-
-	// bars
-	if 1 < rec.NumCols() {
-		src1 := rec.Column(1).Data()
-		listSrc1 := array.NewListData(src1)
-		defer listSrc1.Release()
-		if listSrc1.IsValid(row) {
-			typedSrc1 := array.NewStructData(listSrc1.ListValues().Data())
-			defer typedSrc1.Release()
-			start1 := int(listSrc1.Offsets()[row])
-			end1 := int(listSrc1.Offsets()[row+1])
-			for row := start1; row < end1; row++ {
-				if typedSrc1.IsValid(row) {
-					m1 := &testMessageBar{}
-					{
-
-						// c
-						if 0 < typedSrc1.NumField() {
-							src1_0 := typedSrc1.Field(0).Data()
-							typedSrc1_0 := array.NewInt64Data(src1_0)
-							defer typedSrc1_0.Release()
-							m1.C = typedSrc1_0.Value(row)
-						}
-
-						// d
-						if 1 < typedSrc1.NumField() {
-							src1_1 := typedSrc1.Field(1).Data()
-							listSrc1_1 := array.NewListData(src1_1)
-							defer listSrc1_1.Release()
-							if listSrc1_1.IsValid(row) {
-								typedSrc1_1 := array.NewUint64Data(listSrc1_1.ListValues().Data())
-								defer typedSrc1_1.Release()
-								start1_1 := int(listSrc1_1.Offsets()[row])
-								end1_1 := int(listSrc1_1.Offsets()[row+1])
-								for row := start1_1; row < end1_1; row++ {
-									m1.D = append(m1.D, typedSrc1_1.Value(row))
-								}
-							}
-						}
-					}
-					m.Bars = append(m.Bars, m1)
-				} else {
-					m.Bars = append(m.Bars, nil)
-				}
-			}
-		}
-	}
-	return nil
-}
-
-func newTestMessageArrowRecordBuilder(mem memory.Allocator) *testMessageArrowRecordBuilder {
-	return &testMessageArrowRecordBuilder{
-		rb: array.NewRecordBuilder(mem, testMessageSchema),
-	}
-}
-
-type testMessageArrowRecordBuilder struct {
-	rb *array.RecordBuilder
-}
-
-func (b *testMessageArrowRecordBuilder) Build() arrow.Record {
-	return b.rb.NewRecord()
-}
-
-func (b *testMessageArrowRecordBuilder) Release() {
-	b.rb.Release()
-}
-
-func (b *testMessageArrowRecordBuilder) Append(m *testMessage) {
-
-	// foo
-	{
-		builder0 := b.rb.Field(0)
-		v0 := m.GetFoo()
-		valueBuilder0 := builder0.(*array.StructBuilder)
-		if v0 == nil {
-			valueBuilder0.AppendNull()
-		} else {
-			valueBuilder0.Append(true)
-
-			// a
-			{
-				v0_0 := v0.GetA()
-				builder0_0 := valueBuilder0.FieldBuilder(0)
-				valueBuilder0_0 := builder0_0.(*array.Int32Builder)
-				valueBuilder0_0.Append(v0_0)
-			}
-
-			// b
-			{
-				v0_1 := v0.GetB()
-				builder0_1 := valueBuilder0.FieldBuilder(1)
-				listBuilder0_1 := builder0_1.(*array.ListBuilder)
-				if len(v0_1) == 0 {
-					listBuilder0_1.AppendNull()
-				} else {
-					listBuilder0_1.Append(true)
-					valueBuilder0_1 := listBuilder0_1.ValueBuilder().(*array.Uint32Builder)
-					for _, item := range v0_1 {
-						valueBuilder0_1.Append(item)
-					}
-				}
-			}
-		}
-	}
-
-	// bars
-	{
-		builder1 := b.rb.Field(1)
-		v1 := m.GetBars()
-		listBuilder1 := builder1.(*array.ListBuilder)
-		if len(v1) == 0 {
-			listBuilder1.AppendNull()
-		} else {
-			listBuilder1.Append(true)
-			valueBuilder1 := listBuilder1.ValueBuilder().(*array.StructBuilder)
-			for _, item := range v1 {
-				if item == nil {
-					valueBuilder1.AppendNull()
-				} else {
-					valueBuilder1.Append(true)
-
-					// c
-					{
-						v1_0 := item.GetC()
-						builder1_0 := valueBuilder1.FieldBuilder(0)
-						valueBuilder1_0 := builder1_0.(*array.Int64Builder)
-						valueBuilder1_0.Append(v1_0)
-					}
-
-					// d
-					{
-						v1_1 := item.GetD()
-						builder1_1 := valueBuilder1.FieldBuilder(1)
-						listBuilder1_1 := builder1_1.(*array.ListBuilder)
-						if len(v1_1) == 0 {
-							listBuilder1_1.AppendNull()
-						} else {
-							listBuilder1_1.Append(true)
-							valueBuilder1_1 := listBuilder1_1.ValueBuilder().(*array.Uint64Builder)
-							for _, item := range v1_1 {
-								valueBuilder1_1.Append(item)
-							}
-						}
-					}
-				}
-			}
-		}
-	}
-}
-
-func TestRecordBuilderMessages(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	b := newTestMessageArrowRecordBuilder(mem)
-	defer b.Release()
-
-	var msgs []*testMessage
-	for i := 0; i < 1000; i++ {
-		msg := &testMessage{
-			Foo: &testMessageFoo{
-				A: int32(i),
-				B: []uint32{2, 3, 4, 5, 6, 7, 8, 9},
-			},
-			Bars: []*testMessageBar{
-				{
-					C: 11,
-					D: []uint64{12, 13, 14},
-				},
-				{
-					C: 15,
-					D: []uint64{16, 17, 18, 19},
-				},
-				nil,
-				{
-					C: 20,
-					D: []uint64{21},
-				},
-			},
-		}
-		msgs = append(msgs, msg)
-		b.Append(msg)
-	}
-
-	rec := b.Build()
-	defer rec.Release()
-
-	var got testMessage
-	for i := 0; i < 1000; i++ {
-		got.Fill(rec, i)
-		if !reflect.DeepEqual(&got, msgs[i]) {
-			t.Fatalf("row[%d], invalid record. got=%#v, want=%#v", i, &got, msgs[i])
-		}
-	}
-}
diff --git a/go/arrow/array/string.go b/go/arrow/array/string.go
deleted file mode 100644
index 88b4568ad5e84..0000000000000
--- a/go/arrow/array/string.go
+++ /dev/null
@@ -1,718 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strings"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type StringLike interface {
-	arrow.Array
-	Value(int) string
-	ValueLen(int) int
-}
-
-// String represents an immutable sequence of variable-length UTF-8 strings.
-type String struct {
-	array
-	offsets []int32
-	values  string
-}
-
-// NewStringData constructs a new String array from data.
-func NewStringData(data arrow.ArrayData) *String {
-	a := &String{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the String with a different set of Data.
-func (a *String) Reset(data arrow.ArrayData) {
-	a.setData(data.(*Data))
-}
-
-// Value returns the slice at index i. This value should not be mutated.
-func (a *String) Value(i int) string {
-	i = i + a.array.data.offset
-	return a.values[a.offsets[i]:a.offsets[i+1]]
-}
-
-func (a *String) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.Value(i)
-}
-
-// ValueOffset returns the offset of the value at index i.
-func (a *String) ValueOffset(i int) int {
-	if i < 0 || i > a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return int(a.offsets[i+a.array.data.offset])
-}
-
-func (a *String) ValueOffset64(i int) int64 {
-	return int64(a.ValueOffset(i))
-}
-
-func (a *String) ValueLen(i int) int {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	beg := a.array.data.offset + i
-	return int(a.offsets[beg+1] - a.offsets[beg])
-}
-
-func (a *String) ValueOffsets() []int32 {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length + 1
-	return a.offsets[beg:end]
-}
-
-func (a *String) ValueBytes() []byte {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length
-	if a.array.data.buffers[2] != nil {
-		return a.array.data.buffers[2].Bytes()[a.offsets[beg]:a.offsets[end]]
-	}
-	return nil
-}
-
-func (a *String) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%q", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *String) setData(data *Data) {
-	if len(data.buffers) != 3 {
-		panic("arrow/array: len(data.buffers) != 3")
-	}
-
-	a.array.setData(data)
-
-	if vdata := data.buffers[2]; vdata != nil {
-		b := vdata.Bytes()
-		a.values = *(*string)(unsafe.Pointer(&b))
-	}
-
-	if offsets := data.buffers[1]; offsets != nil {
-		a.offsets = arrow.Int32Traits.CastFromBytes(offsets.Bytes())
-	}
-
-	if a.array.data.length < 1 {
-		return
-	}
-
-	expNumOffsets := a.array.data.offset + a.array.data.length + 1
-	if len(a.offsets) < expNumOffsets {
-		panic(fmt.Errorf("arrow/array: string offset buffer must have at least %d values", expNumOffsets))
-	}
-
-	if int(a.offsets[expNumOffsets-1]) > len(a.values) {
-		panic("arrow/array: string offsets out of bounds of data buffer")
-	}
-}
-
-func (a *String) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.Value(i)
-	}
-	return nil
-}
-
-func (a *String) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			vals[i] = a.Value(i)
-		} else {
-			vals[i] = nil
-		}
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualString(left, right *String) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-// String represents an immutable sequence of variable-length UTF-8 strings.
-type LargeString struct {
-	array
-	offsets []int64
-	values  string
-}
-
-// NewStringData constructs a new String array from data.
-func NewLargeStringData(data arrow.ArrayData) *LargeString {
-	a := &LargeString{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the String with a different set of Data.
-func (a *LargeString) Reset(data arrow.ArrayData) {
-	a.setData(data.(*Data))
-}
-
-// Value returns the slice at index i. This value should not be mutated.
-func (a *LargeString) Value(i int) string {
-	i = i + a.array.data.offset
-	return a.values[a.offsets[i]:a.offsets[i+1]]
-}
-
-func (a *LargeString) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.Value(i)
-}
-
-// ValueOffset returns the offset of the value at index i.
-func (a *LargeString) ValueOffset(i int) int64 {
-	if i < 0 || i > a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return a.offsets[i+a.array.data.offset]
-}
-
-func (a *LargeString) ValueOffset64(i int) int64 {
-	return a.ValueOffset(i)
-}
-
-func (a *LargeString) ValueLen(i int) int {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	beg := a.array.data.offset + i
-	return int(a.offsets[beg+1] - a.offsets[beg])
-}
-
-func (a *LargeString) ValueOffsets() []int64 {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length + 1
-	return a.offsets[beg:end]
-}
-
-func (a *LargeString) ValueBytes() []byte {
-	beg := a.array.data.offset
-	end := beg + a.array.data.length
-	if a.array.data.buffers[2] != nil {
-		return a.array.data.buffers[2].Bytes()[a.offsets[beg]:a.offsets[end]]
-	}
-	return nil
-}
-
-func (a *LargeString) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%q", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *LargeString) setData(data *Data) {
-	if len(data.buffers) != 3 {
-		panic("arrow/array: len(data.buffers) != 3")
-	}
-
-	a.array.setData(data)
-
-	if vdata := data.buffers[2]; vdata != nil {
-		b := vdata.Bytes()
-		a.values = *(*string)(unsafe.Pointer(&b))
-	}
-
-	if offsets := data.buffers[1]; offsets != nil {
-		a.offsets = arrow.Int64Traits.CastFromBytes(offsets.Bytes())
-	}
-
-	if a.array.data.length < 1 {
-		return
-	}
-
-	expNumOffsets := a.array.data.offset + a.array.data.length + 1
-	if len(a.offsets) < expNumOffsets {
-		panic(fmt.Errorf("arrow/array: string offset buffer must have at least %d values", expNumOffsets))
-	}
-
-	if int(a.offsets[expNumOffsets-1]) > len(a.values) {
-		panic("arrow/array: string offsets out of bounds of data buffer")
-	}
-}
-
-func (a *LargeString) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.Value(i)
-	}
-	return nil
-}
-
-func (a *LargeString) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualLargeString(left, right *LargeString) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type StringView struct {
-	array
-	values      []arrow.ViewHeader
-	dataBuffers []*memory.Buffer
-}
-
-func NewStringViewData(data arrow.ArrayData) *StringView {
-	a := &StringView{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the String with a different set of Data.
-func (a *StringView) Reset(data arrow.ArrayData) {
-	a.setData(data.(*Data))
-}
-
-func (a *StringView) setData(data *Data) {
-	if len(data.buffers) < 2 {
-		panic("len(data.buffers) < 2")
-	}
-	a.array.setData(data)
-
-	if valueData := data.buffers[1]; valueData != nil {
-		a.values = arrow.ViewHeaderTraits.CastFromBytes(valueData.Bytes())
-	}
-
-	a.dataBuffers = data.buffers[2:]
-}
-
-func (a *StringView) ValueHeader(i int) *arrow.ViewHeader {
-	if i < 0 || i >= a.array.data.length {
-		panic("arrow/array: index out of range")
-	}
-	return &a.values[a.array.data.offset+i]
-}
-
-func (a *StringView) Value(i int) string {
-	s := a.ValueHeader(i)
-	if s.IsInline() {
-		return s.InlineString()
-	}
-	start := s.BufferOffset()
-	buf := a.dataBuffers[s.BufferIndex()]
-	value := buf.Bytes()[start : start+int32(s.Len())]
-	return *(*string)(unsafe.Pointer(&value))
-}
-
-func (a *StringView) ValueLen(i int) int {
-	s := a.ValueHeader(i)
-	return s.Len()
-}
-
-func (a *StringView) String() string {
-	var o strings.Builder
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(&o, "%q", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *StringView) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-	return a.Value(i)
-}
-
-func (a *StringView) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.Value(i)
-}
-
-func (a *StringView) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	return json.Marshal(vals)
-}
-
-func arrayEqualStringView(left, right *StringView) bool {
-	leftBufs, rightBufs := left.dataBuffers, right.dataBuffers
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if !left.ValueHeader(i).Equals(leftBufs, right.ValueHeader(i), rightBufs) {
-			return false
-		}
-	}
-	return true
-}
-
-// A StringBuilder is used to build a String array using the Append methods.
-type StringBuilder struct {
-	*BinaryBuilder
-}
-
-// NewStringBuilder creates a new StringBuilder.
-func NewStringBuilder(mem memory.Allocator) *StringBuilder {
-	b := &StringBuilder{
-		BinaryBuilder: NewBinaryBuilder(mem, arrow.BinaryTypes.String),
-	}
-	return b
-}
-
-func (b *StringBuilder) Type() arrow.DataType {
-	return arrow.BinaryTypes.String
-}
-
-// Append appends a string to the builder.
-func (b *StringBuilder) Append(v string) {
-	b.BinaryBuilder.Append([]byte(v))
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *StringBuilder) AppendValues(v []string, valid []bool) {
-	b.BinaryBuilder.AppendStringValues(v, valid)
-}
-
-// Value returns the string at index i.
-func (b *StringBuilder) Value(i int) string {
-	return string(b.BinaryBuilder.Value(i))
-}
-
-// NewArray creates a String array from the memory buffers used by the builder and resets the StringBuilder
-// so it can be used to build a new array.
-func (b *StringBuilder) NewArray() arrow.Array {
-	return b.NewStringArray()
-}
-
-// NewStringArray creates a String array from the memory buffers used by the builder and resets the StringBuilder
-// so it can be used to build a new array.
-func (b *StringBuilder) NewStringArray() (a *String) {
-	data := b.newData()
-	a = NewStringData(data)
-	data.Release()
-	return
-}
-
-func (b *StringBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		b.Append(v)
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(v),
-			Type:   reflect.TypeOf(string("")),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *StringBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *StringBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("string builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-// A LargeStringBuilder is used to build a LargeString array using the Append methods.
-// LargeString is for when you need the offset buffer to be 64-bit integers
-// instead of 32-bit integers.
-type LargeStringBuilder struct {
-	*BinaryBuilder
-}
-
-// NewStringBuilder creates a new StringBuilder.
-func NewLargeStringBuilder(mem memory.Allocator) *LargeStringBuilder {
-	b := &LargeStringBuilder{
-		BinaryBuilder: NewBinaryBuilder(mem, arrow.BinaryTypes.LargeString),
-	}
-	return b
-}
-
-func (b *LargeStringBuilder) Type() arrow.DataType { return arrow.BinaryTypes.LargeString }
-
-// Append appends a string to the builder.
-func (b *LargeStringBuilder) Append(v string) {
-	b.BinaryBuilder.Append([]byte(v))
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *LargeStringBuilder) AppendValues(v []string, valid []bool) {
-	b.BinaryBuilder.AppendStringValues(v, valid)
-}
-
-// Value returns the string at index i.
-func (b *LargeStringBuilder) Value(i int) string {
-	return string(b.BinaryBuilder.Value(i))
-}
-
-// NewArray creates a String array from the memory buffers used by the builder and resets the StringBuilder
-// so it can be used to build a new array.
-func (b *LargeStringBuilder) NewArray() arrow.Array {
-	return b.NewLargeStringArray()
-}
-
-// NewStringArray creates a String array from the memory buffers used by the builder and resets the StringBuilder
-// so it can be used to build a new array.
-func (b *LargeStringBuilder) NewLargeStringArray() (a *LargeString) {
-	data := b.newData()
-	a = NewLargeStringData(data)
-	data.Release()
-	return
-}
-
-func (b *LargeStringBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		b.Append(v)
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(v),
-			Type:   reflect.TypeOf(string("")),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *LargeStringBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *LargeStringBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("string builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-type StringViewBuilder struct {
-	*BinaryViewBuilder
-}
-
-func NewStringViewBuilder(mem memory.Allocator) *StringViewBuilder {
-	bldr := &StringViewBuilder{
-		BinaryViewBuilder: NewBinaryViewBuilder(mem),
-	}
-	bldr.dtype = arrow.BinaryTypes.StringView
-	return bldr
-}
-
-func (b *StringViewBuilder) Append(v string) {
-	b.BinaryViewBuilder.AppendString(v)
-}
-
-func (b *StringViewBuilder) AppendValues(v []string, valid []bool) {
-	b.BinaryViewBuilder.AppendStringValues(v, valid)
-}
-
-func (b *StringViewBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case string:
-		b.Append(v)
-	case []byte:
-		b.BinaryViewBuilder.Append(v)
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-		}
-	}
-	return nil
-}
-
-func (b *StringViewBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *StringViewBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary view builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-func (b *StringViewBuilder) NewArray() arrow.Array {
-	return b.NewStringViewArray()
-}
-
-func (b *StringViewBuilder) NewStringViewArray() (a *StringView) {
-	data := b.newData()
-	a = NewStringViewData(data)
-	data.Release()
-	return
-}
-
-type StringLikeBuilder interface {
-	Builder
-	Append(string)
-	AppendValues([]string, []bool)
-	UnsafeAppend([]byte)
-	ReserveData(int)
-}
-
-var (
-	_ arrow.Array       = (*String)(nil)
-	_ arrow.Array       = (*LargeString)(nil)
-	_ arrow.Array       = (*StringView)(nil)
-	_ Builder           = (*StringBuilder)(nil)
-	_ Builder           = (*LargeStringBuilder)(nil)
-	_ Builder           = (*StringViewBuilder)(nil)
-	_ StringLikeBuilder = (*StringBuilder)(nil)
-	_ StringLikeBuilder = (*LargeStringBuilder)(nil)
-	_ StringLikeBuilder = (*StringViewBuilder)(nil)
-	_ StringLike        = (*String)(nil)
-	_ StringLike        = (*LargeString)(nil)
-	_ StringLike        = (*StringView)(nil)
-)
diff --git a/go/arrow/array/string_test.go b/go/arrow/array/string_test.go
deleted file mode 100644
index efbe51edd1a03..0000000000000
--- a/go/arrow/array/string_test.go
+++ /dev/null
@@ -1,794 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"bytes"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestStringArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		want    = []string{"hello", "世界", "", "bye"}
-		valids  = []bool{true, true, false, true}
-		offsets = []int32{0, 5, 11, 11, 14}
-	)
-
-	sb := array.NewStringBuilder(mem)
-	defer sb.Release()
-
-	sb.Retain()
-	sb.Release()
-
-	assert.NoError(t, sb.AppendValueFromString(want[0]))
-	sb.AppendValues(want[1:2], nil)
-
-	sb.AppendNull()
-	sb.Append(want[3])
-
-	if got, want := sb.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := sb.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	arr := sb.NewStringArray()
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	assert.Equal(t, "hello", arr.ValueStr(0))
-
-	if got, want := arr.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	for i := range want {
-		if arr.IsNull(i) != !valids[i] {
-			t.Fatalf("arr[%d]-validity: got=%v want=%v", i, !arr.IsNull(i), valids[i])
-		}
-		switch {
-		case arr.IsNull(i):
-		default:
-			got := arr.Value(i)
-			if got != want[i] {
-				t.Fatalf("arr[%d]: got=%q, want=%q", i, got, want[i])
-			}
-		}
-
-		if got, want := arr.ValueOffset(i), int(offsets[i]); got != want {
-			t.Fatalf("arr-offset-beg[%d]: got=%d, want=%d", i, got, want)
-		}
-		if got, want := arr.ValueOffset(i+1), int(offsets[i+1]); got != want {
-			t.Fatalf("arr-offset-end[%d]: got=%d, want=%d", i+1, got, want)
-		}
-	}
-
-	if !reflect.DeepEqual(offsets, arr.ValueOffsets()) {
-		t.Fatalf("ValueOffsets got=%v, want=%v", arr.ValueOffsets(), offsets)
-	}
-
-	sub := array.MakeFromData(arr.Data())
-	defer sub.Release()
-
-	if sub.DataType().ID() != arrow.STRING {
-		t.Fatalf("invalid type: got=%q, want=string", sub.DataType().Name())
-	}
-
-	if _, ok := sub.(*array.String); !ok {
-		t.Fatalf("could not type-assert to array.String")
-	}
-
-	if got, want := arr.String(), `["hello" "世界" (null) "bye"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if !bytes.Equal([]byte(`hello世界bye`), arr.ValueBytes()) {
-		t.Fatalf("got=%q, want=%q", string(arr.ValueBytes()), `hello世界bye`)
-	}
-
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.String)
-	if !ok {
-		t.Fatalf("could not type-assert to array.String")
-	}
-
-	if got, want := v.String(), `[(null) "bye"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if !bytes.Equal(v.ValueBytes(), []byte("bye")) {
-		t.Fatalf("got=%q, want=%q", string(v.ValueBytes()), "bye")
-	}
-
-	for i := 0; i < v.Len(); i++ {
-		if got, want := v.ValueOffset(0), int(offsets[i+slice.Offset()]); got != want {
-			t.Fatalf("val-offset-with-offset[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if !reflect.DeepEqual(offsets[2:5], v.ValueOffsets()) {
-		t.Fatalf("ValueOffsets got=%v, want=%v", v.ValueOffsets(), offsets[2:5])
-	}
-}
-
-func TestStringBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	want := []string{"hello", "世界", "", "bye"}
-
-	ab := array.NewStringBuilder(mem)
-	defer ab.Release()
-
-	stringValues := func(a *array.String) []string {
-		vs := make([]string, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	ab.AppendValues([]string{}, nil)
-	a := ab.NewStringArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewStringArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]string{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewStringArray()
-	assert.Equal(t, want, stringValues(a))
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]string{}, nil)
-	a = ab.NewStringArray()
-	assert.Equal(t, want, stringValues(a))
-	a.Release()
-}
-
-// TestStringReset tests the Reset() method on the String type by creating two different Strings and then
-// resetting the contents of string2 with the values from string1.
-func TestStringReset(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	sb1 := array.NewStringBuilder(mem)
-	sb2 := array.NewStringBuilder(mem)
-	defer sb1.Release()
-	defer sb2.Release()
-
-	sb1.Append("string1")
-	sb1.AppendNull()
-
-	var (
-		string1 = sb1.NewStringArray()
-		string2 = sb2.NewStringArray()
-
-		string1Data = string1.Data()
-	)
-	string2.Reset(string1Data)
-
-	assert.Equal(t, "string1", string2.Value(0))
-}
-
-func TestStringInvalidOffsets(t *testing.T) {
-	const expectedPanic = "arrow/array: string offsets out of bounds of data buffer"
-
-	makeBuffers := func(valids []bool, offsets []int32, data string) []*memory.Buffer {
-		offsetBuf := memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(offsets))
-		var nullBufBytes []byte
-		var nullBuf *memory.Buffer
-		if valids != nil {
-			nullBufBytes = make([]byte, bitutil.BytesForBits(int64(len(valids))))
-			for i, v := range valids {
-				bitutil.SetBitTo(nullBufBytes, i, v)
-			}
-			nullBuf = memory.NewBufferBytes(nullBufBytes)
-		}
-		return []*memory.Buffer{nullBuf, offsetBuf, memory.NewBufferBytes([]byte(data))}
-	}
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{}, "")
-		array.NewStringData(array.NewData(arrow.BinaryTypes.String, 0, buffers, nil, 0, 0))
-	}, "empty array with no offsets")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{0, 5}, "")
-		array.NewStringData(array.NewData(arrow.BinaryTypes.String, 0, buffers, nil, 0, 0))
-	}, "empty array, offsets ignored")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{0, 3, 4, 9}, "oooabcdef")
-		array.NewStringData(array.NewData(arrow.BinaryTypes.String, 1, buffers, nil, 0, 2))
-	}, "data has offset and value offsets are valid")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int32{0, 3, 6, 9, 9}, "012345678")
-		arr := array.NewStringData(array.NewData(arrow.BinaryTypes.String, 4, buffers, nil, 0, 0))
-		if assert.Equal(t, 4, arr.Len()) && assert.Zero(t, arr.NullN()) {
-			assert.Equal(t, "012", arr.Value(0))
-			assert.Equal(t, "345", arr.Value(1))
-			assert.Equal(t, "678", arr.Value(2))
-			assert.Equal(t, "", arr.Value(3), "trailing empty string value will have offset past end")
-		}
-	}, "simple valid case")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers([]bool{true, false, true, false}, []int32{0, 3, 4, 9, 9}, "oooabcdef")
-		arr := array.NewStringData(array.NewData(arrow.BinaryTypes.String, 4, buffers, nil, 2, 0))
-		if assert.Equal(t, 4, arr.Len()) && assert.Equal(t, 2, arr.NullN()) {
-			assert.Equal(t, "ooo", arr.Value(0))
-			assert.True(t, arr.IsNull(1))
-			assert.Equal(t, "bcdef", arr.Value(2))
-			assert.True(t, arr.IsNull(3))
-		}
-	}, "simple valid case with nulls")
-
-	assert.PanicsWithValue(t, expectedPanic, func() {
-		buffers := makeBuffers(nil, []int32{0, 5}, "abc")
-		array.NewStringData(array.NewData(arrow.BinaryTypes.String, 1, buffers, nil, 0, 0))
-	}, "last offset is overflowing")
-
-	assert.PanicsWithError(t, "arrow/array: string offset buffer must have at least 2 values", func() {
-		buffers := makeBuffers(nil, []int32{0}, "abc")
-		array.NewStringData(array.NewData(arrow.BinaryTypes.String, 1, buffers, nil, 0, 0))
-	}, "last offset is missing")
-
-	assert.PanicsWithValue(t, expectedPanic, func() {
-		buffers := makeBuffers(nil, []int32{0, 3, 10, 15}, "oooabcdef")
-		array.NewStringData(array.NewData(arrow.BinaryTypes.String, 1, buffers, nil, 0, 2))
-	}, "data has offset and value offset is overflowing")
-}
-
-func TestStringStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		values = []string{"hello", "世界", "", "bye"}
-		valid  = []bool{true, true, false, true}
-	)
-
-	b := array.NewStringBuilder(mem)
-	defer b.Release()
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.String)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewStringBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.String)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestLargeStringArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		want    = []string{"hello", "世界", "", "bye"}
-		valids  = []bool{true, true, false, true}
-		offsets = []int64{0, 5, 11, 11, 14}
-	)
-
-	sb := array.NewLargeStringBuilder(mem)
-	defer sb.Release()
-
-	sb.Retain()
-	sb.Release()
-
-	sb.AppendValues(want[:2], nil)
-
-	sb.AppendNull()
-	sb.Append(want[3])
-
-	if got, want := sb.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := sb.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	arr := sb.NewLargeStringArray()
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	if got, want := arr.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	for i := range want {
-		if arr.IsNull(i) != !valids[i] {
-			t.Fatalf("arr[%d]-validity: got=%v want=%v", i, !arr.IsNull(i), valids[i])
-		}
-		switch {
-		case arr.IsNull(i):
-		default:
-			got := arr.Value(i)
-			if got != want[i] {
-				t.Fatalf("arr[%d]: got=%q, want=%q", i, got, want[i])
-			}
-		}
-
-		if got, want := arr.ValueOffset(i), offsets[i]; got != want {
-			t.Fatalf("arr-offset-beg[%d]: got=%d, want=%d", i, got, want)
-		}
-		if got, want := arr.ValueOffset(i+1), offsets[i+1]; got != want {
-			t.Fatalf("arr-offset-end[%d]: got=%d, want=%d", i+1, got, want)
-		}
-	}
-
-	if !reflect.DeepEqual(offsets, arr.ValueOffsets()) {
-		t.Fatalf("ValueOffsets got=%v, want=%v", arr.ValueOffsets(), offsets)
-	}
-
-	sub := array.MakeFromData(arr.Data())
-	defer sub.Release()
-
-	if sub.DataType().ID() != arrow.LARGE_STRING {
-		t.Fatalf("invalid type: got=%q, want=large_string", sub.DataType().Name())
-	}
-
-	if _, ok := sub.(*array.LargeString); !ok {
-		t.Fatalf("could not type-assert to array.LargeString")
-	}
-
-	if got, want := arr.String(), `["hello" "世界" (null) "bye"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if !bytes.Equal([]byte(`hello世界bye`), arr.ValueBytes()) {
-		t.Fatalf("got=%q, want=%q", string(arr.ValueBytes()), `hello世界bye`)
-	}
-
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.LargeString)
-	if !ok {
-		t.Fatalf("could not type-assert to array.LargeString")
-	}
-
-	if got, want := v.String(), `[(null) "bye"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if !bytes.Equal(v.ValueBytes(), []byte("bye")) {
-		t.Fatalf("got=%q, want=%q", string(v.ValueBytes()), "bye")
-	}
-
-	for i := 0; i < v.Len(); i++ {
-		if got, want := v.ValueOffset(0), offsets[i+slice.Offset()]; got != want {
-			t.Fatalf("val-offset-with-offset[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if !reflect.DeepEqual(offsets[2:5], v.ValueOffsets()) {
-		t.Fatalf("ValueOffsets got=%v, want=%v", v.ValueOffsets(), offsets[2:5])
-	}
-}
-
-func TestLargeStringBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	want := []string{"hello", "世界", "", "bye"}
-
-	ab := array.NewLargeStringBuilder(mem)
-	defer ab.Release()
-
-	stringValues := func(a *array.LargeString) []string {
-		vs := make([]string, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	ab.AppendValues([]string{}, nil)
-	a := ab.NewLargeStringArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewLargeStringArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]string{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewLargeStringArray()
-	assert.Equal(t, want, stringValues(a))
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]string{}, nil)
-	a = ab.NewLargeStringArray()
-	assert.Equal(t, want, stringValues(a))
-	a.Release()
-}
-
-// TestStringReset tests the Reset() method on the String type by creating two different Strings and then
-// resetting the contents of string2 with the values from string1.
-func TestLargeStringReset(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	sb1 := array.NewLargeStringBuilder(mem)
-	sb2 := array.NewLargeStringBuilder(mem)
-	defer sb1.Release()
-	defer sb2.Release()
-
-	sb1.Append("string1")
-	sb1.AppendNull()
-
-	var (
-		string1 = sb1.NewLargeStringArray()
-		string2 = sb2.NewLargeStringArray()
-
-		string1Data = string1.Data()
-	)
-	string2.Reset(string1Data)
-
-	assert.Equal(t, "string1", string2.Value(0))
-}
-
-func TestLargeStringInvalidOffsets(t *testing.T) {
-	const expectedPanic = "arrow/array: string offsets out of bounds of data buffer"
-
-	makeBuffers := func(valids []bool, offsets []int64, data string) []*memory.Buffer {
-		offsetBuf := memory.NewBufferBytes(arrow.Int64Traits.CastToBytes(offsets))
-		var nullBufBytes []byte
-		var nullBuf *memory.Buffer
-		if valids != nil {
-			nullBufBytes = make([]byte, bitutil.BytesForBits(int64(len(valids))))
-			for i, v := range valids {
-				bitutil.SetBitTo(nullBufBytes, i, v)
-			}
-			nullBuf = memory.NewBufferBytes(nullBufBytes)
-		}
-		return []*memory.Buffer{nullBuf, offsetBuf, memory.NewBufferBytes([]byte(data))}
-	}
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int64{}, "")
-		array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 0, buffers, nil, 0, 0))
-	}, "empty array with no offsets")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int64{0, 5}, "")
-		array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 0, buffers, nil, 0, 0))
-	}, "empty array, offsets ignored")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int64{0, 3, 4, 9}, "oooabcdef")
-		array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 1, buffers, nil, 0, 2))
-	}, "data has offset and value offsets are valid")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers(nil, []int64{0, 3, 6, 9, 9}, "012345678")
-		arr := array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 4, buffers, nil, 0, 0))
-		if assert.Equal(t, 4, arr.Len()) && assert.Zero(t, arr.NullN()) {
-			assert.Equal(t, "012", arr.Value(0))
-			assert.Equal(t, "345", arr.Value(1))
-			assert.Equal(t, "678", arr.Value(2))
-			assert.Equal(t, "", arr.Value(3), "trailing empty string value will have offset past end")
-		}
-	}, "simple valid case")
-
-	assert.NotPanics(t, func() {
-		buffers := makeBuffers([]bool{true, false, true, false}, []int64{0, 3, 4, 9, 9}, "oooabcdef")
-		arr := array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 4, buffers, nil, 2, 0))
-		if assert.Equal(t, 4, arr.Len()) && assert.Equal(t, 2, arr.NullN()) {
-			assert.Equal(t, "ooo", arr.Value(0))
-			assert.True(t, arr.IsNull(1))
-			assert.Equal(t, "bcdef", arr.Value(2))
-			assert.True(t, arr.IsNull(3))
-		}
-	}, "simple valid case with nulls")
-
-	assert.PanicsWithValue(t, expectedPanic, func() {
-		buffers := makeBuffers(nil, []int64{0, 5}, "abc")
-		array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 1, buffers, nil, 0, 0))
-	}, "last offset is overflowing")
-
-	assert.PanicsWithError(t, "arrow/array: string offset buffer must have at least 2 values", func() {
-		buffers := makeBuffers(nil, []int64{0}, "abc")
-		array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 1, buffers, nil, 0, 0))
-	}, "last offset is missing")
-
-	assert.PanicsWithValue(t, expectedPanic, func() {
-		buffers := makeBuffers(nil, []int64{0, 3, 10, 15}, "oooabcdef")
-		array.NewLargeStringData(array.NewData(arrow.BinaryTypes.LargeString, 1, buffers, nil, 0, 2))
-	}, "data has offset and value offset is overflowing")
-}
-
-func TestLargeStringStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		values = []string{"hello", "世界", "", "bye"}
-		valid  = []bool{true, true, false, true}
-	)
-
-	b := array.NewLargeStringBuilder(mem)
-	defer b.Release()
-
-	b.AppendValues(values, valid)
-
-	arr := b.NewArray().(*array.LargeString)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewLargeStringBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.LargeString)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestStringValueLen(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	values := []string{"a", "bc", "", "", "hijk", "lm", "", "opq", "", "tu"}
-	valids := []bool{true, true, false, false, true, true, true, true, false, true}
-
-	b := array.NewStringBuilder(mem)
-	defer b.Release()
-
-	b.AppendStringValues(values, valids)
-
-	arr := b.NewArray().(*array.String)
-	defer arr.Release()
-
-	slice := array.NewSlice(arr, 2, 9).(*array.String)
-	defer slice.Release()
-
-	vs := values[2:9]
-
-	for i, v := range vs {
-		assert.Equal(t, len(v), slice.ValueLen(i))
-	}
-}
-func TestStringViewArray(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	var (
-		// only the last string is long enough to not get inlined
-		want   = []string{"hello", "世界", "", "say goodbye daffy"}
-		valids = []bool{true, true, false, true}
-	)
-
-	sb := array.NewStringViewBuilder(mem)
-	defer sb.Release()
-
-	sb.Retain()
-	sb.Release()
-
-	assert.NoError(t, sb.AppendValueFromString(want[0]))
-	sb.AppendValues(want[1:2], nil)
-
-	sb.AppendNull()
-	sb.Append(want[3])
-
-	if got, want := sb.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := sb.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	arr := sb.NewStringViewArray()
-	defer arr.Release()
-
-	arr.Retain()
-	arr.Release()
-
-	assert.Equal(t, "hello", arr.ValueStr(0))
-
-	if got, want := arr.Len(), len(want); got != want {
-		t.Fatalf("invalid len: got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NullN(), 1; got != want {
-		t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-	}
-
-	for i := range want {
-		if arr.IsNull(i) != !valids[i] {
-			t.Fatalf("arr[%d]-validity: got=%v want=%v", i, !arr.IsNull(i), valids[i])
-		}
-		switch {
-		case arr.IsNull(i):
-		default:
-			got := arr.Value(i)
-			if got != want[i] {
-				t.Fatalf("arr[%d]: got=%q, want=%q", i, got, want[i])
-			}
-		}
-	}
-
-	sub := array.MakeFromData(arr.Data())
-	defer sub.Release()
-
-	if sub.DataType().ID() != arrow.STRING_VIEW {
-		t.Fatalf("invalid type: got=%q, want=string view", sub.DataType().Name())
-	}
-
-	if _, ok := sub.(*array.StringView); !ok {
-		t.Fatalf("could not type-assert to array.String")
-	}
-
-	if got, want := arr.String(), `["hello" "世界" (null) "say goodbye daffy"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	// only the last string gets stuck into a buffer the rest are inlined
-	// in the headers.
-	if !bytes.Equal([]byte(`say goodbye daffy`), arr.Data().Buffers()[2].Bytes()) {
-		t.Fatalf("got=%q, want=%q", string(arr.Data().Buffers()[2].Bytes()), `say goodbye daffy`)
-	}
-
-	// check the prefix for the non-inlined value
-	if [4]byte{'s', 'a', 'y', ' '} != arr.ValueHeader(3).Prefix() {
-		t.Fatalf("got=%q, want=%q", arr.ValueHeader(3).Prefix(), `say `)
-	}
-
-	slice := array.NewSliceData(arr.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.StringView)
-	if !ok {
-		t.Fatalf("could not type-assert to array.StringView")
-	}
-
-	if got, want := v.String(), `[(null) "say goodbye daffy"]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	if !bytes.Equal([]byte(`say goodbye daffy`), v.Data().Buffers()[2].Bytes()) {
-		t.Fatalf("got=%q, want=%q", string(v.Data().Buffers()[2].Bytes()), `say goodbye daffy`)
-	}
-
-	// check the prefix for the non-inlined value
-	if [4]byte{'s', 'a', 'y', ' '} != v.ValueHeader(1).Prefix() {
-		t.Fatalf("got=%q, want=%q", v.ValueHeader(1).Prefix(), `say `)
-	}
-}
-
-func TestStringViewBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	want := []string{"hello", "世界", "", "say goodbye daffy"}
-
-	ab := array.NewStringViewBuilder(mem)
-	defer ab.Release()
-
-	stringValues := func(a *array.StringView) []string {
-		vs := make([]string, a.Len())
-		for i := range vs {
-			vs[i] = a.Value(i)
-		}
-		return vs
-	}
-
-	ab.AppendValues([]string{}, nil)
-	a := ab.NewStringViewArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewStringViewArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]string{}, nil)
-	ab.AppendValues(want, nil)
-	a = ab.NewStringViewArray()
-	assert.Equal(t, want, stringValues(a))
-	a.Release()
-
-	ab.AppendValues(want, nil)
-	ab.AppendValues([]string{}, nil)
-	a = ab.NewStringViewArray()
-	assert.Equal(t, want, stringValues(a))
-	a.Release()
-}
-
-// TestStringReset tests the Reset() method on the String type by creating two different Strings and then
-// resetting the contents of string2 with the values from string1.
-func TestStringViewReset(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	sb1 := array.NewStringViewBuilder(mem)
-	sb2 := array.NewStringViewBuilder(mem)
-	defer sb1.Release()
-	defer sb2.Release()
-
-	sb1.Append("string1")
-	sb1.AppendNull()
-
-	var (
-		string1 = sb1.NewStringViewArray()
-		string2 = sb2.NewStringViewArray()
-
-		string1Data = string1.Data()
-	)
-	string2.Reset(string1Data)
-
-	assert.Equal(t, "string1", string2.Value(0))
-}
diff --git a/go/arrow/array/struct.go b/go/arrow/array/struct.go
deleted file mode 100644
index 279ac1d87b25b..0000000000000
--- a/go/arrow/array/struct.go
+++ /dev/null
@@ -1,491 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Struct represents an ordered sequence of relative types.
-type Struct struct {
-	array
-	fields []arrow.Array
-}
-
-// NewStructArray constructs a new Struct Array out of the columns passed
-// in and the field names. The length of all cols must be the same and
-// there should be the same number of columns as names.
-func NewStructArray(cols []arrow.Array, names []string) (*Struct, error) {
-	return NewStructArrayWithNulls(cols, names, nil, 0, 0)
-}
-
-// NewStructArrayWithNulls is like NewStructArray as a convenience function,
-// but also takes in a null bitmap, the number of nulls, and an optional offset
-// to use for creating the Struct Array.
-func NewStructArrayWithNulls(cols []arrow.Array, names []string, nullBitmap *memory.Buffer, nullCount int, offset int) (*Struct, error) {
-	if len(cols) != len(names) {
-		return nil, fmt.Errorf("%w: mismatching number of fields and child arrays", arrow.ErrInvalid)
-	}
-	if len(cols) == 0 {
-		return nil, fmt.Errorf("%w: can't infer struct array length with 0 child arrays", arrow.ErrInvalid)
-	}
-	length := cols[0].Len()
-	children := make([]arrow.ArrayData, len(cols))
-	fields := make([]arrow.Field, len(cols))
-	for i, c := range cols {
-		if length != c.Len() {
-			return nil, fmt.Errorf("%w: mismatching child array lengths", arrow.ErrInvalid)
-		}
-		children[i] = c.Data()
-		fields[i].Name = names[i]
-		fields[i].Type = c.DataType()
-		fields[i].Nullable = true
-	}
-	data := NewData(arrow.StructOf(fields...), length, []*memory.Buffer{nullBitmap}, children, nullCount, offset)
-	defer data.Release()
-	return NewStructData(data), nil
-}
-
-// NewStructData returns a new Struct array value from data.
-func NewStructData(data arrow.ArrayData) *Struct {
-	a := &Struct{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-func (a *Struct) NumField() int           { return len(a.fields) }
-func (a *Struct) Field(i int) arrow.Array { return a.fields[i] }
-
-// ValueStr returns the string representation (as json) of the value at index i.
-func (a *Struct) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-
-	data, err := json.Marshal(a.GetOneForMarshal(i))
-	if err != nil {
-		panic(err)
-	}
-	return string(data)
-}
-
-func (a *Struct) String() string {
-	o := new(strings.Builder)
-	o.WriteString("{")
-
-	structBitmap := a.NullBitmapBytes()
-	for i, v := range a.fields {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		if arrow.IsUnion(v.DataType().ID()) {
-			fmt.Fprintf(o, "%v", v)
-			continue
-		} else if !bytes.Equal(structBitmap, v.NullBitmapBytes()) {
-			masked := a.newStructFieldWithParentValidityMask(i)
-			fmt.Fprintf(o, "%v", masked)
-			masked.Release()
-			continue
-		}
-		fmt.Fprintf(o, "%v", v)
-	}
-	o.WriteString("}")
-	return o.String()
-}
-
-// newStructFieldWithParentValidityMask returns the Interface at fieldIndex
-// with a nullBitmapBytes adjusted according on the parent struct nullBitmapBytes.
-// From the docs:
-//
-//	"When reading the struct array the parent validity bitmap takes priority."
-func (a *Struct) newStructFieldWithParentValidityMask(fieldIndex int) arrow.Array {
-	field := a.Field(fieldIndex)
-	nullBitmapBytes := field.NullBitmapBytes()
-	maskedNullBitmapBytes := make([]byte, len(nullBitmapBytes))
-	copy(maskedNullBitmapBytes, nullBitmapBytes)
-	for i := 0; i < field.Len(); i++ {
-		if a.IsNull(i) {
-			bitutil.ClearBit(maskedNullBitmapBytes, i)
-		}
-	}
-	data := NewSliceData(field.Data(), 0, int64(field.Len())).(*Data)
-	defer data.Release()
-	bufs := make([]*memory.Buffer, len(data.Buffers()))
-	copy(bufs, data.buffers)
-	bufs[0].Release()
-	bufs[0] = memory.NewBufferBytes(maskedNullBitmapBytes)
-	data.buffers = bufs
-	maskedField := MakeFromData(data)
-	return maskedField
-}
-
-func (a *Struct) setData(data *Data) {
-	a.array.setData(data)
-	a.fields = make([]arrow.Array, len(data.childData))
-	for i, child := range data.childData {
-		if data.offset != 0 || child.Len() != data.length {
-			sub := NewSliceData(child, int64(data.offset), int64(data.offset+data.length))
-			a.fields[i] = MakeFromData(sub)
-			sub.Release()
-		} else {
-			a.fields[i] = MakeFromData(child)
-		}
-	}
-}
-
-func (a *Struct) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-
-	tmp := make(map[string]interface{})
-	fieldList := a.data.dtype.(*arrow.StructType).Fields()
-	for j, d := range a.fields {
-		tmp[fieldList[j].Name] = d.GetOneForMarshal(i)
-	}
-	return tmp
-}
-
-func (a *Struct) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func arrayEqualStruct(left, right *Struct) bool {
-	for i, lf := range left.fields {
-		rf := right.fields[i]
-		if !Equal(lf, rf) {
-			return false
-		}
-	}
-	return true
-}
-
-func (a *Struct) Retain() {
-	a.array.Retain()
-	for _, f := range a.fields {
-		f.Retain()
-	}
-}
-
-func (a *Struct) Release() {
-	a.array.Release()
-	for _, f := range a.fields {
-		f.Release()
-	}
-}
-
-type StructBuilder struct {
-	builder
-
-	dtype  arrow.DataType
-	fields []Builder
-}
-
-// NewStructBuilder returns a builder, using the provided memory allocator.
-func NewStructBuilder(mem memory.Allocator, dtype *arrow.StructType) *StructBuilder {
-	b := &StructBuilder{
-		builder: builder{refCount: 1, mem: mem},
-		dtype:   dtype,
-		fields:  make([]Builder, dtype.NumFields()),
-	}
-	for i, f := range dtype.Fields() {
-		b.fields[i] = NewBuilder(b.mem, f.Type)
-	}
-	return b
-}
-
-func (b *StructBuilder) Type() arrow.DataType {
-	fields := make([]arrow.Field, len(b.fields))
-	copy(fields, b.dtype.(*arrow.StructType).Fields())
-	for i, b := range b.fields {
-		fields[i].Type = b.Type()
-	}
-	return arrow.StructOf(fields...)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *StructBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-
-		for _, f := range b.fields {
-			f.Release()
-		}
-	}
-}
-
-func (b *StructBuilder) Append(v bool) {
-	// Intentionally not calling `Reserve` as it will recursively call
-	// `Reserve` on the child builders, which during profiling has shown to be
-	// very expensive due to iterating over children, dynamic dispatch and all
-	// other code that gets executed even if previously `Reserve` was called to
-	// preallocate. Not calling `Reserve` has no downsides as when appending to
-	// the underlying children they already ensure they have enough space
-	// reserved. The only thing we must do is ensure we have enough space in
-	// the validity bitmap of the struct builder itself.
-	b.builder.reserve(1, b.resizeHelper)
-	b.unsafeAppendBoolToBitmap(v)
-	if !v {
-		for _, f := range b.fields {
-			f.AppendNull()
-		}
-	}
-}
-
-func (b *StructBuilder) AppendValues(valids []bool) {
-	b.Reserve(len(valids))
-	b.builder.unsafeAppendBoolsToBitmap(valids, len(valids))
-}
-
-func (b *StructBuilder) AppendNull() { b.Append(false) }
-
-func (b *StructBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *StructBuilder) AppendEmptyValue() {
-	b.Append(true)
-	for _, f := range b.fields {
-		f.AppendEmptyValue()
-	}
-}
-
-func (b *StructBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *StructBuilder) unsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-func (b *StructBuilder) init(capacity int) {
-	b.builder.init(capacity)
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *StructBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.resizeHelper)
-	for _, f := range b.fields {
-		f.Reserve(n)
-	}
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *StructBuilder) Resize(n int) {
-	b.resizeHelper(n)
-	for _, f := range b.fields {
-		f.Resize(n)
-	}
-}
-
-func (b *StructBuilder) resizeHelper(n int) {
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(n, b.builder.init)
-	}
-}
-
-func (b *StructBuilder) NumField() int              { return len(b.fields) }
-func (b *StructBuilder) FieldBuilder(i int) Builder { return b.fields[i] }
-
-// NewArray creates a Struct array from the memory buffers used by the builder and resets the StructBuilder
-// so it can be used to build a new array.
-func (b *StructBuilder) NewArray() arrow.Array {
-	return b.NewStructArray()
-}
-
-// NewStructArray creates a Struct array from the memory buffers used by the builder and resets the StructBuilder
-// so it can be used to build a new array.
-func (b *StructBuilder) NewStructArray() (a *Struct) {
-	data := b.newData()
-	a = NewStructData(data)
-	data.Release()
-	return
-}
-
-func (b *StructBuilder) newData() (data *Data) {
-	fields := make([]arrow.ArrayData, len(b.fields))
-	for i, f := range b.fields {
-		arr := f.NewArray()
-		defer arr.Release()
-		fields[i] = arr.Data()
-	}
-
-	data = NewData(
-		b.Type(), b.length,
-		[]*memory.Buffer{
-			b.nullBitmap,
-		},
-		fields,
-		b.nulls,
-		0,
-	)
-	b.reset()
-
-	return
-}
-
-func (b *StructBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	if !strings.HasPrefix(s, "{") && !strings.HasSuffix(s, "}") {
-		return fmt.Errorf("%w: invalid string for struct should be be of form: {*}", arrow.ErrInvalid)
-	}
-	dec := json.NewDecoder(strings.NewReader(s))
-	return b.UnmarshalOne(dec)
-}
-
-func (b *StructBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t {
-	case json.Delim('{'):
-		b.Append(true)
-		keylist := make(map[string]bool)
-		for dec.More() {
-			keyTok, err := dec.Token()
-			if err != nil {
-				return err
-			}
-
-			key, ok := keyTok.(string)
-			if !ok {
-				return errors.New("missing key")
-			}
-
-			if keylist[key] {
-				return fmt.Errorf("key %s is specified twice", key)
-			}
-
-			keylist[key] = true
-
-			idx, ok := b.dtype.(*arrow.StructType).FieldIdx(key)
-			if !ok {
-				var extra interface{}
-				dec.Decode(&extra)
-				continue
-			}
-
-			if err := b.fields[idx].UnmarshalOne(dec); err != nil {
-				return err
-			}
-		}
-
-		// Append null values to all optional fields that were not presented in the json input
-		for _, field := range b.dtype.(*arrow.StructType).Fields() {
-			if !field.Nullable {
-				continue
-			}
-			idx, _ := b.dtype.(*arrow.StructType).FieldIdx(field.Name)
-			if _, hasKey := keylist[field.Name]; !hasKey {
-				b.fields[idx].AppendNull()
-			}
-		}
-
-		// consume '}'
-		_, err := dec.Token()
-		return err
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Offset: dec.InputOffset(),
-			Struct: fmt.Sprint(b.dtype),
-		}
-	}
-	return nil
-}
-
-func (b *StructBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *StructBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("struct builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*Struct)(nil)
-	_ Builder     = (*StructBuilder)(nil)
-)
diff --git a/go/arrow/array/struct_test.go b/go/arrow/array/struct_test.go
deleted file mode 100644
index 4338bbd0b136e..0000000000000
--- a/go/arrow/array/struct_test.go
+++ /dev/null
@@ -1,532 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestStructArray(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		f1s = []byte{'j', 'o', 'e', 'b', 'o', 'b', 'm', 'a', 'r', 'k'}
-		f2s = []int32{1, 2, 3, 4}
-
-		f1Lengths = []int{3, 0, 3, 4}
-		f1Offsets = []int32{0, 3, 3, 6, 10}
-		f1Valids  = []bool{true, false, true, true}
-
-		isValid = []bool{true, true, true, true}
-
-		fields = []arrow.Field{
-			{Name: "f1", Type: arrow.ListOf(arrow.PrimitiveTypes.Uint8)},
-			{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-		}
-		dtype = arrow.StructOf(fields...)
-	)
-
-	sb := array.NewStructBuilder(pool, dtype)
-	defer sb.Release()
-
-	for i := 0; i < 10; i++ {
-		f1b := sb.FieldBuilder(0).(*array.ListBuilder)
-		f1vb := f1b.ValueBuilder().(*array.Uint8Builder)
-		f2b := sb.FieldBuilder(1).(*array.Int32Builder)
-
-		if got, want := sb.NumField(), 2; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-
-		sb.Resize(len(f1Lengths))
-		f1vb.Resize(len(f1s))
-		f2b.Resize(len(f2s))
-
-		pos := 0
-		for i, length := range f1Lengths {
-			f1b.Append(f1Valids[i])
-			for j := 0; j < length; j++ {
-				f1vb.Append(f1s[pos])
-				pos++
-			}
-			f2b.Append(f2s[i])
-		}
-
-		for _, valid := range isValid {
-			sb.Append(valid)
-		}
-
-		arr := sb.NewArray().(*array.Struct)
-		defer arr.Release()
-
-		arr.Retain()
-		arr.Release()
-
-		if got, want := arr.DataType().ID(), arrow.STRUCT; got != want {
-			t.Fatalf("got=%v, want=%v", got, want)
-		}
-		if got, want := arr.Len(), len(isValid); got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-		for i, valid := range isValid {
-			if got, want := arr.IsValid(i), valid; got != want {
-				t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-			}
-		}
-
-		{
-			f1arr := arr.Field(0).(*array.List)
-			if got, want := f1arr.Len(), len(f1Lengths); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			for i := range f1Lengths {
-				if got, want := f1arr.IsValid(i), f1Valids[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-				if got, want := f1arr.IsNull(i), f1Lengths[i] == 0; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-
-			}
-
-			if got, want := f1arr.Offsets(), f1Offsets; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			varr := f1arr.ListValues().(*array.Uint8)
-			if got, want := varr.Uint8Values(), f1s; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		}
-
-		{
-			f2arr := arr.Field(1).(*array.Int32)
-			if got, want := f2arr.Len(), len(f2s); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			if got, want := f2arr.Int32Values(), f2s; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-		}
-	}
-}
-
-func TestStructStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := arrow.StructOf(
-		arrow.Field{Name: "nullable_bool", Type: new(arrow.BooleanType), Nullable: true},
-		arrow.Field{Name: "non_nullable_bool", Type: new(arrow.BooleanType)},
-	)
-
-	builder := array.NewStructBuilder(memory.DefaultAllocator, dt)
-	nullableBld := builder.FieldBuilder(0).(*array.BooleanBuilder)
-	nonNullableBld := builder.FieldBuilder(1).(*array.BooleanBuilder)
-
-	builder.Append(true)
-	nullableBld.Append(true)
-	nonNullableBld.Append(true)
-
-	builder.Append(true)
-	nullableBld.AppendNull()
-	nonNullableBld.Append(true)
-
-	builder.AppendNull()
-
-	arr := builder.NewArray().(*array.Struct)
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewStructBuilder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Struct)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestStructArrayEmpty(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	sb := array.NewStructBuilder(pool, arrow.StructOf())
-	defer sb.Release()
-
-	if got, want := sb.NumField(), 0; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	arr := sb.NewArray().(*array.Struct)
-
-	if got, want := arr.Len(), 0; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	if got, want := arr.NumField(), 0; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-}
-
-func TestStructArrayBulkAppend(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		f1s = []byte{'j', 'o', 'e', 'b', 'o', 'b', 'm', 'a', 'r', 'k'}
-		f2s = []int32{1, 2, 3, 4}
-
-		f1Lengths = []int{3, 0, 3, 4}
-		f1Offsets = []int32{0, 3, 3, 6, 10}
-		f1Valids  = []bool{true, false, true, true}
-
-		isValid = []bool{true, true, true, true}
-
-		fields = []arrow.Field{
-			{Name: "f1", Type: arrow.ListOf(arrow.PrimitiveTypes.Uint8)},
-			{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-		}
-		dtype = arrow.StructOf(fields...)
-	)
-
-	sb := array.NewStructBuilder(pool, dtype)
-	defer sb.Release()
-
-	for i := 0; i < 10; i++ {
-		f1b := sb.FieldBuilder(0).(*array.ListBuilder)
-		f1vb := f1b.ValueBuilder().(*array.Uint8Builder)
-		f2b := sb.FieldBuilder(1).(*array.Int32Builder)
-
-		if got, want := sb.NumField(), 2; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-
-		sb.Resize(len(f1Lengths))
-		f1vb.Resize(len(f1s))
-		f2b.Resize(len(f2s))
-
-		sb.AppendValues(isValid)
-		f1b.AppendValues(f1Offsets, f1Valids)
-		f1vb.AppendValues(f1s, nil)
-		f2b.AppendValues(f2s, nil)
-
-		arr := sb.NewArray().(*array.Struct)
-		defer arr.Release()
-
-		if got, want := arr.DataType().ID(), arrow.STRUCT; got != want {
-			t.Fatalf("got=%v, want=%v", got, want)
-		}
-		if got, want := arr.Len(), len(isValid); got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-		for i, valid := range isValid {
-			if got, want := arr.IsValid(i), valid; got != want {
-				t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-			}
-		}
-
-		{
-			f1arr := arr.Field(0).(*array.List)
-			if got, want := f1arr.Len(), len(f1Lengths); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			for i := range f1Lengths {
-				if got, want := f1arr.IsValid(i), f1Valids[i]; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-				if got, want := f1arr.IsNull(i), f1Lengths[i] == 0; got != want {
-					t.Fatalf("got[%d]=%v, want[%d]=%v", i, got, i, want)
-				}
-
-			}
-
-			if got, want := f1arr.Offsets(), f1Offsets; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			varr := f1arr.ListValues().(*array.Uint8)
-			if got, want := varr.Uint8Values(), f1s; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		}
-
-		{
-			f2arr := arr.Field(1).(*array.Int32)
-			if got, want := f2arr.Len(), len(f2s); got != want {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-
-			if got, want := f2arr.Int32Values(), f2s; !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%d, want=%d", got, want)
-			}
-		}
-	}
-}
-
-func TestStructArrayStringer(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		f1s = []float64{1.1, 1.2, 1.3, 1.4}
-		f2s = []int32{1, 2, 3, 4}
-
-		fields = []arrow.Field{
-			{Name: "f1", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-		}
-		dtype = arrow.StructOf(fields...)
-	)
-
-	sb := array.NewStructBuilder(pool, dtype)
-	defer sb.Release()
-
-	f1b := sb.FieldBuilder(0).(*array.Float64Builder)
-	f2b := sb.FieldBuilder(1).(*array.Int32Builder)
-
-	if got, want := sb.NumField(), 2; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	for i := range f1s {
-		sb.Append(true)
-		switch i {
-		case 1:
-			f1b.AppendNull()
-			f2b.Append(f2s[i])
-		case 2:
-			f1b.Append(f1s[i])
-			f2b.AppendNull()
-		default:
-			f1b.Append(f1s[i])
-			f2b.Append(f2s[i])
-		}
-	}
-	assert.NoError(t, sb.AppendValueFromString(`{"f1": 1.1, "f2": 1}`))
-	arr := sb.NewArray().(*array.Struct)
-	defer arr.Release()
-
-	assert.Equal(t, `{"f1":1.1,"f2":1}`, arr.ValueStr(4))
-	want := "{[1.1 (null) 1.3 1.4 1.1] [1 2 (null) 4 1]}"
-	got := arr.String()
-	if got != want {
-		t.Fatalf("invalid string representation:\ngot = %q\nwant= %q", got, want)
-	}
-}
-
-func TestStructArraySlice(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		f1s    = []float64{1.1, 1.2, 1.3, 1.4}
-		f2s    = []int32{1, 2, 3, 4}
-		valids = []bool{true, true, true, true}
-
-		fields = []arrow.Field{
-			{Name: "f1", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-		}
-		dtype = arrow.StructOf(fields...)
-	)
-
-	sb := array.NewStructBuilder(pool, dtype)
-	defer sb.Release()
-
-	f1b := sb.FieldBuilder(0).(*array.Float64Builder)
-
-	f2b := sb.FieldBuilder(1).(*array.Int32Builder)
-
-	if got, want := sb.NumField(), 2; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	for i := range f1s {
-		sb.Append(valids[i])
-		switch i {
-		case 1:
-			f1b.AppendNull()
-			f2b.Append(f2s[i])
-		case 2:
-			f1b.Append(f1s[i])
-			f2b.AppendNull()
-		default:
-			f1b.Append(f1s[i])
-			f2b.Append(f2s[i])
-		}
-	}
-
-	arr := sb.NewArray().(*array.Struct)
-	defer arr.Release()
-
-	// Slice
-	arrSlice := array.NewSlice(arr, 2, 4).(*array.Struct)
-	defer arrSlice.Release()
-
-	want := "{[1.3 1.4] [(null) 4]}"
-	got := arrSlice.String()
-	if got != want {
-		t.Fatalf("invalid string representation:\ngot = %q\nwant= %q", got, want)
-	}
-}
-
-func TestStructArrayNullBitmap(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	var (
-		f1s    = []float64{1.1, 1.2, 1.3, 1.4}
-		f2s    = []int32{1, 2, 3, 4}
-		valids = []bool{true, true, true, false}
-
-		fields = []arrow.Field{
-			{Name: "f1", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-		}
-		dtype = arrow.StructOf(fields...)
-	)
-
-	sb := array.NewStructBuilder(pool, dtype)
-	defer sb.Release()
-
-	f1b := sb.FieldBuilder(0).(*array.Float64Builder)
-
-	f2b := sb.FieldBuilder(1).(*array.Int32Builder)
-
-	if got, want := sb.NumField(), 2; got != want {
-		t.Fatalf("got=%d, want=%d", got, want)
-	}
-
-	sb.AppendValues(valids)
-	for i := range f1s {
-		f1b.Append(f1s[i])
-		switch i {
-		case 1:
-			f2b.AppendNull()
-		default:
-			f2b.Append(f2s[i])
-		}
-	}
-
-	arr := sb.NewArray().(*array.Struct)
-	defer arr.Release()
-
-	want := "{[1.1 1.2 1.3 (null)] [1 (null) 3 (null)]}"
-	got := arr.String()
-	if got != want {
-		t.Fatalf("invalid string representation:\ngot = %q\nwant= %q", got, want)
-	}
-}
-
-func TestStructArrayUnmarshalJSONMissingFields(t *testing.T) {
-	pool := memory.NewGoAllocator()
-
-	var (
-		fields = []arrow.Field{
-			{Name: "f1", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-			{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-			{
-				Name: "f3", Type: arrow.StructOf(
-					[]arrow.Field{
-						{Name: "f3_1", Type: arrow.BinaryTypes.String, Nullable: true},
-						{Name: "f3_2", Type: arrow.BinaryTypes.String, Nullable: true},
-						{Name: "f3_3", Type: arrow.BinaryTypes.String, Nullable: false},
-					}...,
-				),
-			},
-		}
-		dtype = arrow.StructOf(fields...)
-	)
-
-	tests := []struct {
-		name      string
-		jsonInput string
-		want      string
-		panic     bool
-	}{
-		{
-			name:      "missing required field",
-			jsonInput: `[{"f2": 3, "f3": {"f3_1": "test"}}]`,
-			panic:     true,
-			want:      "",
-		},
-		{
-			name:      "missing optional fields",
-			jsonInput: `[{"f2": 3, "f3": {"f3_3": "test"}}]`,
-			panic:     false,
-			want:      `{[(null)] [3] {[(null)] [(null)] ["test"]}}`,
-		},
-	}
-
-	for _, tc := range tests {
-		t.Run(
-			tc.name, func(t *testing.T) {
-
-				var val bool
-
-				sb := array.NewStructBuilder(pool, dtype)
-				defer sb.Release()
-
-				if tc.panic {
-					defer func() {
-						e := recover()
-						if e == nil {
-							t.Fatalf("this should have panicked, but did not; slice value %v", val)
-						}
-						if got, want := e.(string), "arrow/array: index out of range"; got != want {
-							t.Fatalf("invalid error. got=%q, want=%q", got, want)
-						}
-					}()
-				} else {
-					defer func() {
-						if e := recover(); e != nil {
-							t.Fatalf("unexpected panic: %v", e)
-						}
-					}()
-				}
-
-				err := sb.UnmarshalJSON([]byte(tc.jsonInput))
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				arr := sb.NewArray().(*array.Struct)
-				defer arr.Release()
-
-				got := arr.String()
-				if got != tc.want {
-					t.Fatalf("invalid string representation:\ngot = %q\nwant= %q", got, tc.want)
-				}
-			},
-		)
-	}
-}
diff --git a/go/arrow/array/table.go b/go/arrow/array/table.go
deleted file mode 100644
index 3b742ae78803d..0000000000000
--- a/go/arrow/array/table.go
+++ /dev/null
@@ -1,421 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"errors"
-	"fmt"
-	"math"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-// NewColumnSlice returns a new zero-copy slice of the column with the indicated
-// indices i and j, corresponding to the column's array[i:j].
-// The returned column must be Release()'d after use.
-//
-// NewColSlice panics if the slice is outside the valid range of the column's array.
-// NewColSlice panics if j < i.
-func NewColumnSlice(col *arrow.Column, i, j int64) *arrow.Column {
-	slice := NewChunkedSlice(col.Data(), i, j)
-	defer slice.Release()
-	return arrow.NewColumn(col.Field(), slice)
-}
-
-// NewChunkedSlice constructs a zero-copy slice of the chunked array with the indicated
-// indices i and j, corresponding to array[i:j].
-// The returned chunked array must be Release()'d after use.
-//
-// NewSlice panics if the slice is outside the valid range of the input array.
-// NewSlice panics if j < i.
-func NewChunkedSlice(a *arrow.Chunked, i, j int64) *arrow.Chunked {
-	if j > int64(a.Len()) || i > j || i > int64(a.Len()) {
-		panic("arrow/array: index out of range")
-	}
-
-	var (
-		cur    = 0
-		beg    = i
-		sz     = j - i
-		chunks = make([]arrow.Array, 0, len(a.Chunks()))
-	)
-
-	for cur < len(a.Chunks()) && beg >= int64(a.Chunks()[cur].Len()) {
-		beg -= int64(a.Chunks()[cur].Len())
-		cur++
-	}
-
-	for cur < len(a.Chunks()) && sz > 0 {
-		arr := a.Chunks()[cur]
-		end := beg + sz
-		if end > int64(arr.Len()) {
-			end = int64(arr.Len())
-		}
-		chunks = append(chunks, NewSlice(arr, beg, end))
-		sz -= int64(arr.Len()) - beg
-		beg = 0
-		cur++
-	}
-	chunks = chunks[:len(chunks):len(chunks)]
-	defer func() {
-		for _, chunk := range chunks {
-			chunk.Release()
-		}
-	}()
-
-	return arrow.NewChunked(a.DataType(), chunks)
-}
-
-// simpleTable is a basic, non-lazy in-memory table.
-type simpleTable struct {
-	refCount int64
-
-	rows int64
-	cols []arrow.Column
-
-	schema *arrow.Schema
-}
-
-// NewTable returns a new basic, non-lazy in-memory table.
-// If rows is negative, the number of rows will be inferred from the height
-// of the columns.
-//
-// NewTable panics if the columns and schema are inconsistent.
-// NewTable panics if rows is larger than the height of the columns.
-func NewTable(schema *arrow.Schema, cols []arrow.Column, rows int64) arrow.Table {
-	tbl := simpleTable{
-		refCount: 1,
-		rows:     rows,
-		cols:     cols,
-		schema:   schema,
-	}
-
-	if tbl.rows < 0 {
-		switch len(tbl.cols) {
-		case 0:
-			tbl.rows = 0
-		default:
-			tbl.rows = int64(tbl.cols[0].Len())
-		}
-	}
-
-	// validate the table and its constituents.
-	// note we retain the columns after having validated the table
-	// in case the validation fails and panics (and would otherwise leak
-	// a ref-count on the columns.)
-	tbl.validate()
-
-	for i := range tbl.cols {
-		tbl.cols[i].Retain()
-	}
-
-	return &tbl
-}
-
-// NewTableFromSlice is a convenience function to create a table from a slice
-// of slices of arrow.Array.
-//
-// Like other NewTable functions this can panic if:
-//   - len(schema.Fields) != len(data)
-//   - the total length of each column's array slice (ie: number of rows
-//     in the column) aren't the same for all columns.
-func NewTableFromSlice(schema *arrow.Schema, data [][]arrow.Array) arrow.Table {
-	if len(data) != schema.NumFields() {
-		panic("array/table: mismatch in number of columns and data for creating a table")
-	}
-
-	cols := make([]arrow.Column, schema.NumFields())
-	for i, arrs := range data {
-		field := schema.Field(i)
-		chunked := arrow.NewChunked(field.Type, arrs)
-		cols[i] = *arrow.NewColumn(field, chunked)
-		chunked.Release()
-	}
-
-	tbl := simpleTable{
-		refCount: 1,
-		schema:   schema,
-		cols:     cols,
-		rows:     int64(cols[0].Len()),
-	}
-
-	defer func() {
-		if r := recover(); r != nil {
-			// if validate panics, let's release the columns
-			// so that we don't leak them, then propagate the panic
-			for _, c := range cols {
-				c.Release()
-			}
-			panic(r)
-		}
-	}()
-	// validate the table and its constituents.
-	tbl.validate()
-
-	return &tbl
-}
-
-// NewTableFromRecords returns a new basic, non-lazy in-memory table.
-//
-// NewTableFromRecords panics if the records and schema are inconsistent.
-func NewTableFromRecords(schema *arrow.Schema, recs []arrow.Record) arrow.Table {
-	arrs := make([]arrow.Array, len(recs))
-	cols := make([]arrow.Column, schema.NumFields())
-
-	defer func(cols []arrow.Column) {
-		for i := range cols {
-			cols[i].Release()
-		}
-	}(cols)
-
-	for i := range cols {
-		field := schema.Field(i)
-		for j, rec := range recs {
-			arrs[j] = rec.Column(i)
-		}
-		chunk := arrow.NewChunked(field.Type, arrs)
-		cols[i] = *arrow.NewColumn(field, chunk)
-		chunk.Release()
-	}
-
-	return NewTable(schema, cols, -1)
-}
-
-func (tbl *simpleTable) Schema() *arrow.Schema { return tbl.schema }
-
-func (tbl *simpleTable) AddColumn(i int, field arrow.Field, column arrow.Column) (arrow.Table, error) {
-	if int64(column.Len()) != tbl.rows {
-		return nil, fmt.Errorf("arrow/array: column length mismatch: %d != %d", column.Len(), tbl.rows)
-	}
-	if field.Type != column.DataType() {
-		return nil, fmt.Errorf("arrow/array: column type mismatch: %v != %v", field.Type, column.DataType())
-	}
-	newSchema, err := tbl.schema.AddField(i, field)
-	if err != nil {
-		return nil, err
-	}
-	cols := make([]arrow.Column, len(tbl.cols)+1)
-	copy(cols[:i], tbl.cols[:i])
-	cols[i] = column
-	copy(cols[i+1:], tbl.cols[i:])
-	newTable := NewTable(newSchema, cols, tbl.rows)
-	return newTable, nil
-}
-
-func (tbl *simpleTable) NumRows() int64             { return tbl.rows }
-func (tbl *simpleTable) NumCols() int64             { return int64(len(tbl.cols)) }
-func (tbl *simpleTable) Column(i int) *arrow.Column { return &tbl.cols[i] }
-
-func (tbl *simpleTable) validate() {
-	if len(tbl.cols) != tbl.schema.NumFields() {
-		panic(errors.New("arrow/array: table schema mismatch"))
-	}
-	for i, col := range tbl.cols {
-		if !col.Field().Equal(tbl.schema.Field(i)) {
-			panic(fmt.Errorf("arrow/array: column field %q is inconsistent with schema", col.Name()))
-		}
-
-		if int64(col.Len()) < tbl.rows {
-			panic(fmt.Errorf("arrow/array: column %q expected length >= %d but got length %d", col.Name(), tbl.rows, col.Len()))
-		}
-	}
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (tbl *simpleTable) Retain() {
-	atomic.AddInt64(&tbl.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (tbl *simpleTable) Release() {
-	debug.Assert(atomic.LoadInt64(&tbl.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&tbl.refCount, -1) == 0 {
-		for i := range tbl.cols {
-			tbl.cols[i].Release()
-		}
-		tbl.cols = nil
-	}
-}
-
-func (tbl *simpleTable) String() string {
-	o := new(strings.Builder)
-	o.WriteString(tbl.Schema().String())
-	o.WriteString("\n")
-
-	for i := 0; i < int(tbl.NumCols()); i++ {
-		col := tbl.Column(i)
-		o.WriteString(col.Field().Name + ": [")
-		for j, chunk := range col.Data().Chunks() {
-			if j != 0 {
-				o.WriteString(", ")
-			}
-			o.WriteString(chunk.String())
-		}
-		o.WriteString("]\n")
-	}
-	return o.String()
-}
-
-// TableReader is a Record iterator over a (possibly chunked) Table
-type TableReader struct {
-	refCount int64
-
-	tbl   arrow.Table
-	cur   int64        // current row
-	max   int64        // total number of rows
-	rec   arrow.Record // current Record
-	chksz int64        // chunk size
-
-	chunks  []*arrow.Chunked
-	slots   []int   // chunk indices
-	offsets []int64 // chunk offsets
-}
-
-// NewTableReader returns a new TableReader to iterate over the (possibly chunked) Table.
-// if chunkSize is <= 0, the biggest possible chunk will be selected.
-func NewTableReader(tbl arrow.Table, chunkSize int64) *TableReader {
-	ncols := tbl.NumCols()
-	tr := &TableReader{
-		refCount: 1,
-		tbl:      tbl,
-		cur:      0,
-		max:      int64(tbl.NumRows()),
-		chksz:    chunkSize,
-		chunks:   make([]*arrow.Chunked, ncols),
-		slots:    make([]int, ncols),
-		offsets:  make([]int64, ncols),
-	}
-	tr.tbl.Retain()
-
-	if tr.chksz <= 0 {
-		tr.chksz = math.MaxInt64
-	}
-
-	for i := range tr.chunks {
-		col := tr.tbl.Column(i)
-		tr.chunks[i] = col.Data()
-		tr.chunks[i].Retain()
-	}
-	return tr
-}
-
-func (tr *TableReader) Schema() *arrow.Schema { return tr.tbl.Schema() }
-func (tr *TableReader) Record() arrow.Record  { return tr.rec }
-
-func (tr *TableReader) Next() bool {
-	if tr.cur >= tr.max {
-		return false
-	}
-
-	if tr.rec != nil {
-		tr.rec.Release()
-	}
-
-	// determine the minimum contiguous slice across all columns
-	chunksz := imin64(tr.max, tr.chksz)
-	chunks := make([]arrow.Array, len(tr.chunks))
-	for i := range chunks {
-		j := tr.slots[i]
-		chunk := tr.chunks[i].Chunk(j)
-		remain := int64(chunk.Len()) - tr.offsets[i]
-		if remain < chunksz {
-			chunksz = remain
-		}
-
-		chunks[i] = chunk
-	}
-
-	// slice the chunks, advance each chunk slot as appropriate.
-	batch := make([]arrow.Array, len(tr.chunks))
-	for i, chunk := range chunks {
-		var slice arrow.Array
-		offset := tr.offsets[i]
-		switch int64(chunk.Len()) - offset {
-		case chunksz:
-			tr.slots[i]++
-			tr.offsets[i] = 0
-			if offset > 0 {
-				// need to slice
-				slice = NewSlice(chunk, offset, offset+chunksz)
-			} else {
-				// no need to slice
-				slice = chunk
-				slice.Retain()
-			}
-		default:
-			tr.offsets[i] += chunksz
-			slice = NewSlice(chunk, offset, offset+chunksz)
-		}
-		batch[i] = slice
-	}
-
-	tr.cur += chunksz
-	tr.rec = NewRecord(tr.tbl.Schema(), batch, chunksz)
-
-	for _, arr := range batch {
-		arr.Release()
-	}
-
-	return true
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (tr *TableReader) Retain() {
-	atomic.AddInt64(&tr.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (tr *TableReader) Release() {
-	debug.Assert(atomic.LoadInt64(&tr.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&tr.refCount, -1) == 0 {
-		tr.tbl.Release()
-		for _, chk := range tr.chunks {
-			chk.Release()
-		}
-		if tr.rec != nil {
-			tr.rec.Release()
-		}
-		tr.tbl = nil
-		tr.chunks = nil
-		tr.slots = nil
-		tr.offsets = nil
-	}
-}
-func (tr *TableReader) Err() error { return nil }
-
-func imin64(a, b int64) int64 {
-	if a < b {
-		return a
-	}
-	return b
-}
-
-var (
-	_ arrow.Table  = (*simpleTable)(nil)
-	_ RecordReader = (*TableReader)(nil)
-)
diff --git a/go/arrow/array/table_test.go b/go/arrow/array/table_test.go
deleted file mode 100644
index e8357ac3dfb69..0000000000000
--- a/go/arrow/array/table_test.go
+++ /dev/null
@@ -1,833 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"errors"
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestChunked(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	c1 := arrow.NewChunked(arrow.PrimitiveTypes.Int32, nil)
-	c1.Retain()
-	c1.Release()
-	if got, want := c1.Len(), 0; got != want {
-		t.Fatalf("len differ. got=%d, want=%d", got, want)
-	}
-	if got, want := c1.NullN(), 0; got != want {
-		t.Fatalf("nulls: got=%d, want=%d", got, want)
-	}
-	if got, want := c1.DataType(), arrow.PrimitiveTypes.Int32; got != want {
-		t.Fatalf("dtype: got=%v, want=%v", got, want)
-	}
-	c1.Release()
-
-	fb := array.NewFloat64Builder(mem)
-	defer fb.Release()
-
-	fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-	f1 := fb.NewFloat64Array()
-	defer f1.Release()
-
-	fb.AppendValues([]float64{6, 7}, nil)
-	f2 := fb.NewFloat64Array()
-	defer f2.Release()
-
-	fb.AppendValues([]float64{8, 9, 10}, nil)
-	f3 := fb.NewFloat64Array()
-	defer f3.Release()
-
-	c2 := arrow.NewChunked(
-		arrow.PrimitiveTypes.Float64,
-		[]arrow.Array{f1, f2, f3},
-	)
-	defer c2.Release()
-
-	if got, want := c2.Len(), 10; got != want {
-		t.Fatalf("len: got=%d, want=%d", got, want)
-	}
-	if got, want := c2.NullN(), 0; got != want {
-		t.Fatalf("nulls: got=%d, want=%d", got, want)
-	}
-	if got, want := c2.DataType(), arrow.PrimitiveTypes.Float64; got != want {
-		t.Fatalf("dtype: got=%v, want=%v", got, want)
-	}
-	if got, want := c2.Chunk(0), c2.Chunks()[0]; !reflect.DeepEqual(got, want) {
-		t.Fatalf("chunk: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i, j   int64
-		len    int
-		nulls  int
-		chunks int
-	}{
-		{i: 0, j: 10, len: 10, nulls: 0, chunks: 3},
-		{i: 2, j: 3, len: 1, nulls: 0, chunks: 1},
-		{i: 9, j: 10, len: 1, nulls: 0, chunks: 1},
-		{i: 0, j: 5, len: 5, nulls: 0, chunks: 1},
-		{i: 5, j: 7, len: 2, nulls: 0, chunks: 1},
-		{i: 7, j: 10, len: 3, nulls: 0, chunks: 1},
-		{i: 10, j: 10, len: 0, nulls: 0, chunks: 0},
-	} {
-		t.Run("", func(t *testing.T) {
-			sub := array.NewChunkedSlice(c2, tc.i, tc.j)
-			defer sub.Release()
-
-			if got, want := sub.Len(), tc.len; got != want {
-				t.Fatalf("len: got=%d, want=%d", got, want)
-			}
-			if got, want := sub.NullN(), tc.nulls; got != want {
-				t.Fatalf("nulls: got=%d, want=%d", got, want)
-			}
-			if got, want := sub.DataType(), arrow.PrimitiveTypes.Float64; got != want {
-				t.Fatalf("dtype: got=%v, want=%v", got, want)
-			}
-			if got, want := len(sub.Chunks()), tc.chunks; got != want {
-				t.Fatalf("chunks: got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
-
-func TestChunkedEqualDataType(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	lb1 := array.NewListBuilder(mem, arrow.PrimitiveTypes.Int32)
-	defer lb1.Release()
-
-	v1 := lb1.NewArray()
-	defer v1.Release()
-
-	lb2 := array.NewListBuilder(mem, arrow.PrimitiveTypes.Int32)
-	defer lb2.Release()
-
-	v2 := lb2.NewArray()
-	defer v2.Release()
-
-	c1 := arrow.NewChunked(arrow.ListOf(arrow.PrimitiveTypes.Int32), []arrow.Array{
-		v1, v2,
-	})
-	defer c1.Release()
-}
-
-func TestChunkedInvalid(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	fb := array.NewFloat64Builder(mem)
-	defer fb.Release()
-
-	fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-	f1 := fb.NewFloat64Array()
-	defer f1.Release()
-
-	ib := array.NewInt32Builder(mem)
-	defer ib.Release()
-
-	ib.AppendValues([]int32{6, 7}, nil)
-	f2 := ib.NewInt32Array()
-	defer f2.Release()
-
-	defer func() {
-		e := recover()
-		if e == nil {
-			t.Fatalf("expected a panic")
-		}
-
-		err, ok := e.(error)
-		if !ok {
-			t.Fatalf("expected an error")
-		}
-
-		if !errors.Is(err, arrow.ErrInvalid) {
-			t.Fatalf("should be an ErrInvalid")
-		}
-
-		if got, want := err.Error(), fmt.Sprintf("%s: arrow/array: mismatch data type float64 vs int32", arrow.ErrInvalid); got != want {
-			t.Fatalf("invalid error. got=%q, want=%q", got, want)
-		}
-	}()
-
-	c1 := arrow.NewChunked(arrow.PrimitiveTypes.Int32, []arrow.Array{
-		f1, f2,
-	})
-	defer c1.Release()
-}
-
-func TestChunkedSliceInvalid(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	fb := array.NewFloat64Builder(mem)
-	defer fb.Release()
-
-	fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-	f1 := fb.NewFloat64Array()
-	defer f1.Release()
-
-	fb.AppendValues([]float64{6, 7}, nil)
-	f2 := fb.NewFloat64Array()
-	defer f2.Release()
-
-	fb.AppendValues([]float64{8, 9, 10}, nil)
-	f3 := fb.NewFloat64Array()
-	defer f3.Release()
-
-	c := arrow.NewChunked(
-		arrow.PrimitiveTypes.Float64,
-		[]arrow.Array{f1, f2, f3},
-	)
-	defer c.Release()
-
-	for _, tc := range []struct {
-		i, j int64
-	}{
-		{i: 2, j: 1},
-		{i: 10, j: 11},
-		{i: 11, j: 11},
-	} {
-		t.Run("", func(t *testing.T) {
-			defer func() {
-				e := recover()
-				if e == nil {
-					t.Fatalf("expected a panic")
-				}
-				if got, want := e.(string), "arrow/array: index out of range"; got != want {
-					t.Fatalf("invalid error. got=%q, want=%q", got, want)
-				}
-			}()
-			sub := array.NewChunkedSlice(c, tc.i, tc.j)
-			defer sub.Release()
-		})
-	}
-}
-
-func TestColumn(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	type slice struct {
-		i, j   int64
-		len    int
-		nulls  int
-		chunks int
-	}
-
-	for _, tc := range []struct {
-		chunk  *arrow.Chunked
-		field  arrow.Field
-		err    error
-		slices []slice
-	}{
-		{
-			chunk: func() *arrow.Chunked {
-				ib := array.NewInt32Builder(mem)
-				defer ib.Release()
-
-				ib.AppendValues([]int32{1, 2, 3}, nil)
-				i1 := ib.NewInt32Array()
-				defer i1.Release()
-
-				ib.AppendValues([]int32{4, 5, 6, 7, 8, 9, 10}, nil)
-				i2 := ib.NewInt32Array()
-				defer i2.Release()
-
-				c := arrow.NewChunked(
-					arrow.PrimitiveTypes.Int32,
-					[]arrow.Array{i1, i2},
-				)
-				return c
-			}(),
-			field: arrow.Field{Name: "i32", Type: arrow.PrimitiveTypes.Int32},
-			slices: []slice{
-				{i: 0, j: 10, len: 10, nulls: 0, chunks: 2},
-				{i: 2, j: 3, len: 1, nulls: 0, chunks: 1},
-				{i: 9, j: 10, len: 1, nulls: 0, chunks: 1},
-				{i: 0, j: 5, len: 5, nulls: 0, chunks: 2},
-				{i: 5, j: 7, len: 2, nulls: 0, chunks: 1},
-				{i: 7, j: 10, len: 3, nulls: 0, chunks: 1},
-				{i: 10, j: 10, len: 0, nulls: 0, chunks: 0},
-			},
-		},
-		{
-			chunk: func() *arrow.Chunked {
-				fb := array.NewFloat64Builder(mem)
-				defer fb.Release()
-
-				fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-				f1 := fb.NewFloat64Array()
-				defer f1.Release()
-
-				fb.AppendValues([]float64{6, 7}, nil)
-				f2 := fb.NewFloat64Array()
-				defer f2.Release()
-
-				fb.AppendValues([]float64{8, 9, 10}, nil)
-				f3 := fb.NewFloat64Array()
-				defer f3.Release()
-
-				c := arrow.NewChunked(
-					arrow.PrimitiveTypes.Float64,
-					[]arrow.Array{f1, f2, f3},
-				)
-				return c
-			}(),
-			field: arrow.Field{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			slices: []slice{
-				{i: 0, j: 10, len: 10, nulls: 0, chunks: 3},
-				{i: 2, j: 3, len: 1, nulls: 0, chunks: 1},
-				{i: 9, j: 10, len: 1, nulls: 0, chunks: 1},
-				{i: 0, j: 5, len: 5, nulls: 0, chunks: 1},
-				{i: 5, j: 7, len: 2, nulls: 0, chunks: 1},
-				{i: 7, j: 10, len: 3, nulls: 0, chunks: 1},
-				{i: 10, j: 10, len: 0, nulls: 0, chunks: 0},
-			},
-		},
-		{
-			chunk: func() *arrow.Chunked {
-				fb := array.NewFloat64Builder(mem)
-				defer fb.Release()
-
-				fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-				f1 := fb.NewFloat64Array()
-				defer f1.Release()
-
-				c := arrow.NewChunked(
-					arrow.PrimitiveTypes.Float64,
-					[]arrow.Array{f1},
-				)
-				return c
-			}(),
-			field: arrow.Field{Name: "f32", Type: arrow.PrimitiveTypes.Float32},
-			err:   fmt.Errorf("%w: arrow/array: inconsistent data type float64 vs float32", arrow.ErrInvalid),
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			defer tc.chunk.Release()
-
-			if tc.err != nil {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("expected an error %q", tc.err)
-					}
-					switch err := e.(type) {
-					case string:
-						if err != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					case error:
-						if err.Error() != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					default:
-						t.Fatalf("invalid type for panic message: %T (err=%v)", err, err)
-					}
-				}()
-			}
-
-			col := arrow.NewColumn(tc.field, tc.chunk)
-			defer col.Release()
-
-			if got, want := col.Len(), tc.chunk.Len(); got != want {
-				t.Fatalf("invalid length: got=%d, want=%d", got, want)
-			}
-			if got, want := col.NullN(), tc.chunk.NullN(); got != want {
-				t.Fatalf("invalid nulls: got=%d, want=%d", got, want)
-			}
-			if got, want := col.Data(), tc.chunk; got != want {
-				t.Fatalf("invalid chunked: got=%#v, want=%#v", got, want)
-			}
-			if got, want := col.Field(), tc.field; !got.Equal(want) {
-				t.Fatalf("invalid field: got=%#v, want=%#v", got, want)
-			}
-			if got, want := col.Name(), tc.field.Name; got != want {
-				t.Fatalf("invalid name: got=%q, want=%q", got, want)
-			}
-			if got, want := col.DataType(), tc.field.Type; !reflect.DeepEqual(got, want) {
-				t.Fatalf("invalid data type: got=%#v, want=%#v", got, want)
-			}
-
-			col.Retain()
-			col.Release()
-
-			for _, slice := range tc.slices {
-				t.Run("", func(t *testing.T) {
-					sub := array.NewColumnSlice(col, slice.i, slice.j)
-					defer sub.Release()
-
-					if got, want := sub.Len(), slice.len; got != want {
-						t.Fatalf("len: got=%d, want=%d", got, want)
-					}
-					if got, want := sub.NullN(), slice.nulls; got != want {
-						t.Fatalf("nulls: got=%d, want=%d", got, want)
-					}
-					if got, want := sub.DataType(), col.DataType(); got != want {
-						t.Fatalf("dtype: got=%v, want=%v", got, want)
-					}
-					if got, want := len(sub.Data().Chunks()), slice.chunks; got != want {
-						t.Fatalf("chunks: got=%d, want=%d", got, want)
-					}
-				})
-			}
-		})
-	}
-
-}
-
-func TestTable(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	preSchema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-		},
-		nil,
-	)
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-	col1 := func() *arrow.Column {
-		chunk := func() *arrow.Chunked {
-			ib := array.NewInt32Builder(mem)
-			defer ib.Release()
-
-			ib.AppendValues([]int32{1, 2, 3}, nil)
-			i1 := ib.NewInt32Array()
-			defer i1.Release()
-
-			ib.AppendValues([]int32{4, 5, 6, 7, 8, 9, 10}, nil)
-			i2 := ib.NewInt32Array()
-			defer i2.Release()
-
-			c := arrow.NewChunked(
-				arrow.PrimitiveTypes.Int32,
-				[]arrow.Array{i1, i2},
-			)
-			return c
-		}()
-		defer chunk.Release()
-
-		return arrow.NewColumn(schema.Field(0), chunk)
-	}()
-	defer col1.Release()
-
-	col2 := func() *arrow.Column {
-		chunk := func() *arrow.Chunked {
-			fb := array.NewFloat64Builder(mem)
-			defer fb.Release()
-
-			fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-			f1 := fb.NewFloat64Array()
-			defer f1.Release()
-
-			fb.AppendValues([]float64{6, 7}, nil)
-			f2 := fb.NewFloat64Array()
-			defer f2.Release()
-
-			fb.AppendValues([]float64{8, 9, 10}, nil)
-			f3 := fb.NewFloat64Array()
-			defer f3.Release()
-
-			c := arrow.NewChunked(
-				arrow.PrimitiveTypes.Float64,
-				[]arrow.Array{f1, f2, f3},
-			)
-			return c
-		}()
-		defer chunk.Release()
-
-		return arrow.NewColumn(schema.Field(1), chunk)
-	}()
-	defer col2.Release()
-
-	cols := []arrow.Column{*col1, *col2}
-
-	slices := [][]arrow.Array{col1.Data().Chunks(), col2.Data().Chunks()}
-
-	preTbl := array.NewTable(preSchema, []arrow.Column{*col1}, -1)
-	defer preTbl.Release()
-	tbl, err := preTbl.AddColumn(
-		1,
-		arrow.Field{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		*col2,
-	)
-	defer tbl.Release()
-	if err != nil {
-		t.Fatalf("could not add column: %+v", err)
-	}
-
-	tbl2 := array.NewTableFromSlice(schema, slices)
-	defer tbl2.Release()
-
-	tbl.Retain()
-	tbl.Release()
-
-	if got, want := tbl.Schema(), schema; !got.Equal(want) {
-		t.Fatalf("invalid schema: got=%#v, want=%#v", got, want)
-	}
-
-	if got, want := tbl.NumRows(), int64(10); got != want {
-		t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-	}
-	if got, want := tbl.NumCols(), int64(2); got != want {
-		t.Fatalf("invalid number of columns: got=%d, want=%d", got, want)
-	}
-	if got, want := tbl.Column(0).Name(), col1.Name(); got != want {
-		t.Fatalf("invalid column: got=%q, want=%q", got, want)
-	}
-
-	if got, want := tbl2.NumRows(), int64(10); got != want {
-		t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-	}
-	if got, want := tbl2.NumCols(), int64(2); got != want {
-		t.Fatalf("invalid number of columns: got=%d, want=%d", got, want)
-	}
-	if got, want := tbl2.Column(0).Name(), col1.Name(); got != want {
-		t.Fatalf("invalid column: got=%q, want=%q", got, want)
-	}
-
-	for _, tc := range []struct {
-		schema *arrow.Schema
-		cols   []arrow.Column
-		rows   int64
-		err    error
-	}{
-		{
-			schema: schema,
-			cols:   nil,
-			rows:   -1,
-			err:    fmt.Errorf("arrow/array: table schema mismatch"),
-		},
-		{
-			schema: schema,
-			cols:   cols[:1],
-			rows:   0,
-			err:    fmt.Errorf("arrow/array: table schema mismatch"),
-		},
-		{
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-				},
-				nil,
-			),
-			cols: cols,
-			rows: 0,
-			err:  fmt.Errorf("arrow/array: table schema mismatch"),
-		},
-		{
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-					{Name: "f2-f64", Type: arrow.PrimitiveTypes.Int32},
-				},
-				nil,
-			),
-			cols: cols,
-			rows: 0,
-			err:  fmt.Errorf(`arrow/array: column field "f2-f64" is inconsistent with schema`),
-		},
-		{
-			schema: arrow.NewSchema(
-				[]arrow.Field{
-					{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-					{Name: "f2-f32", Type: arrow.PrimitiveTypes.Float64},
-				},
-				nil,
-			),
-			cols: cols,
-			rows: 0,
-			err:  fmt.Errorf(`arrow/array: column field "f2-f64" is inconsistent with schema`),
-		},
-		{
-			schema: schema,
-			cols:   cols,
-			rows:   11,
-			err:    fmt.Errorf(`arrow/array: column "f1-i32" expected length >= 11 but got length 10`),
-		},
-		{
-			schema: schema,
-			cols:   cols,
-			rows:   3,
-			err:    nil,
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			if tc.err != nil {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("expected an error %q", tc.err)
-					}
-					switch err := e.(type) {
-					case string:
-						if err != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					case error:
-						if err.Error() != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					default:
-						t.Fatalf("invalid type for panic message: %T (err=%v)", err, err)
-					}
-				}()
-			}
-			tbl := array.NewTable(tc.schema, tc.cols, tc.rows)
-			defer tbl.Release()
-			if got, want := tbl.NumRows(), tc.rows; got != want {
-				t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
-
-func TestTableFromRecords(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(mem, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3, 4, 5, 6}, nil)
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{7, 8, 9, 10}, []bool{true, true, false, true})
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-
-	rec1 := b.NewRecord()
-	defer rec1.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-
-	rec2 := b.NewRecord()
-	defer rec2.Release()
-
-	tbl := array.NewTableFromRecords(schema, []arrow.Record{rec1, rec2})
-	defer tbl.Release()
-
-	if got, want := tbl.Schema(), schema; !got.Equal(want) {
-		t.Fatalf("invalid schema: got=%#v, want=%#v", got, want)
-	}
-
-	if got, want := tbl.NumRows(), int64(20); got != want {
-		t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-	}
-	if got, want := tbl.NumCols(), int64(2); got != want {
-		t.Fatalf("invalid number of columns: got=%d, want=%d", got, want)
-	}
-	if got, want := tbl.Column(0).Name(), schema.Field(0).Name; got != want {
-		t.Fatalf("invalid column: got=%q, want=%q", got, want)
-	}
-}
-
-func TestTableReader(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-	col1 := func() *arrow.Column {
-		chunk := func() *arrow.Chunked {
-			ib := array.NewInt32Builder(mem)
-			defer ib.Release()
-
-			ib.AppendValues([]int32{1, 2, 3}, nil)
-			i1 := ib.NewInt32Array()
-			defer i1.Release()
-
-			ib.AppendValues([]int32{4, 5, 6, 7, 8, 9, 10}, nil)
-			i2 := ib.NewInt32Array()
-			defer i2.Release()
-
-			c := arrow.NewChunked(
-				arrow.PrimitiveTypes.Int32,
-				[]arrow.Array{i1, i2},
-			)
-			return c
-		}()
-		defer chunk.Release()
-
-		return arrow.NewColumn(schema.Field(0), chunk)
-	}()
-	defer col1.Release()
-
-	col2 := func() *arrow.Column {
-		chunk := func() *arrow.Chunked {
-			fb := array.NewFloat64Builder(mem)
-			defer fb.Release()
-
-			fb.AppendValues([]float64{1, 2, 3, 4, 5}, nil)
-			f1 := fb.NewFloat64Array()
-			defer f1.Release()
-
-			fb.AppendValues([]float64{6, 7}, nil)
-			f2 := fb.NewFloat64Array()
-			defer f2.Release()
-
-			fb.AppendValues([]float64{8, 9, 10}, nil)
-			f3 := fb.NewFloat64Array()
-			defer f3.Release()
-
-			c := arrow.NewChunked(
-				arrow.PrimitiveTypes.Float64,
-				[]arrow.Array{f1, f2, f3},
-			)
-			return c
-		}()
-		defer chunk.Release()
-
-		return arrow.NewColumn(schema.Field(1), chunk)
-	}()
-	defer col2.Release()
-
-	cols := []arrow.Column{*col1, *col2}
-	tbl := array.NewTable(schema, cols, -1)
-	defer tbl.Release()
-
-	tr := array.NewTableReader(tbl, 1)
-	defer tr.Release()
-
-	tr.Retain()
-	tr.Release()
-
-	for tr.Next() {
-	}
-	if err := tr.Err(); err != nil {
-		t.Fatalf("tr err: %#v", err)
-	}
-
-	for _, tc := range []struct {
-		sz   int64
-		n    int64
-		rows []int64
-	}{
-		{sz: -1, n: 4, rows: []int64{3, 2, 2, 3}},
-		{sz: +0, n: 4, rows: []int64{3, 2, 2, 3}},
-		{sz: +1, n: 10, rows: []int64{1, 1, 1, 1, 1, 1, 1, 1, 1, 1}},
-		{sz: +2, n: 6, rows: []int64{2, 1, 2, 2, 2, 1}},
-	} {
-		t.Run(fmt.Sprintf("chunksz=%d", tc.sz), func(t *testing.T) {
-			tr := array.NewTableReader(tbl, tc.sz)
-			defer tr.Release()
-
-			if got, want := tr.Schema(), tbl.Schema(); !got.Equal(want) {
-				t.Fatalf("invalid schema: got=%#v, want=%#v", got, want)
-			}
-
-			var (
-				n   int64
-				sum int64
-			)
-			for tr.Next() {
-				rec := tr.Record()
-				if got, want := rec.Schema(), tbl.Schema(); !got.Equal(want) {
-					t.Fatalf("invalid schema: got=%#v, want=%#v", got, want)
-				}
-				if got, want := rec.NumRows(), tc.rows[n]; got != want {
-					t.Fatalf("invalid number of rows[%d]: got=%d, want=%d", n, got, want)
-				}
-				n++
-				sum += rec.NumRows()
-			}
-			if err := tr.Err(); err != nil {
-				t.Fatalf("tr err: %#v", err)
-			}
-
-			if got, want := n, tc.n; got != want {
-				t.Fatalf("invalid number of iterations: got=%d, want=%d", got, want)
-			}
-			if sum != tbl.NumRows() {
-				t.Fatalf("invalid number of rows iterated over: got=%d, want=%d", sum, tbl.NumRows())
-			}
-		})
-	}
-}
-
-func TestTableToString(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(mem, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3, 4, 5, 6}, nil)
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{7, 8, 9, 10}, []bool{true, true, false, true})
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-
-	rec1 := b.NewRecord()
-	defer rec1.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{111, 112, 113, 114, 115, 116, 117, 118, 119, 120}, nil)
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{211, 212, 213, 214, 215, 216, 217, 218, 219, 220}, nil)
-
-	rec2 := b.NewRecord()
-	defer rec2.Release()
-
-	tbl := array.NewTableFromRecords(schema, []arrow.Record{rec1, rec2})
-	defer tbl.Release()
-
-	table_str := tbl.String()
-	expected_str :=
-		`schema:
-  fields: 2
-    - f1-i32: type=int32
-    - f2-f64: type=float64
-f1-i32: [[1 2 3 4 5 6 7 8 (null) 10], [111 112 113 114 115 116 117 118 119 120]]
-f2-f64: [[11 12 13 14 15 16 17 18 19 20], [211 212 213 214 215 216 217 218 219 220]]
-`
-	if got, want := table_str, expected_str; table_str != expected_str {
-		t.Fatalf("invalid String: got=%#v, want=%#v", got, want)
-	}
-}
diff --git a/go/arrow/array/timestamp.go b/go/arrow/array/timestamp.go
deleted file mode 100644
index 679d9a5a8a4cc..0000000000000
--- a/go/arrow/array/timestamp.go
+++ /dev/null
@@ -1,380 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strings"
-	"sync/atomic"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Timestamp represents an immutable sequence of arrow.Timestamp values.
-type Timestamp struct {
-	array
-	values []arrow.Timestamp
-}
-
-// NewTimestampData creates a new Timestamp from Data.
-func NewTimestampData(data arrow.ArrayData) *Timestamp {
-	a := &Timestamp{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// Reset resets the array for re-use.
-func (a *Timestamp) Reset(data *Data) {
-	a.setData(data)
-}
-
-// Value returns the value at the specified index.
-func (a *Timestamp) Value(i int) arrow.Timestamp { return a.values[i] }
-
-// TimestampValues returns the values.
-func (a *Timestamp) TimestampValues() []arrow.Timestamp { return a.values }
-
-// String returns a string representation of the array.
-func (a *Timestamp) String() string {
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i, v := range a.values {
-		if i > 0 {
-			fmt.Fprintf(o, " ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(NullValueStr)
-		default:
-			fmt.Fprintf(o, "%v", v)
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Timestamp) setData(data *Data) {
-	a.array.setData(data)
-	vals := data.buffers[1]
-	if vals != nil {
-		a.values = arrow.TimestampTraits.CastFromBytes(vals.Bytes())
-		beg := a.array.data.offset
-		end := beg + a.array.data.length
-		a.values = a.values[beg:end]
-	}
-}
-
-func (a *Timestamp) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-
-	toTime, _ := a.DataType().(*arrow.TimestampType).GetToTimeFunc()
-	return toTime(a.values[i]).Format("2006-01-02 15:04:05.999999999Z0700")
-}
-
-func (a *Timestamp) GetOneForMarshal(i int) interface{} {
-	if val := a.ValueStr(i); val != NullValueStr {
-		return val
-	}
-	return nil
-}
-
-func (a *Timestamp) MarshalJSON() ([]byte, error) {
-	vals := make([]interface{}, a.Len())
-	for i := range a.values {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-
-	return json.Marshal(vals)
-}
-
-func arrayEqualTimestamp(left, right *Timestamp) bool {
-	for i := 0; i < left.Len(); i++ {
-		if left.IsNull(i) {
-			continue
-		}
-		if left.Value(i) != right.Value(i) {
-			return false
-		}
-	}
-	return true
-}
-
-type TimestampBuilder struct {
-	builder
-
-	dtype   *arrow.TimestampType
-	data    *memory.Buffer
-	rawData []arrow.Timestamp
-}
-
-func NewTimestampBuilder(mem memory.Allocator, dtype *arrow.TimestampType) *TimestampBuilder {
-	return &TimestampBuilder{builder: builder{refCount: 1, mem: mem}, dtype: dtype}
-}
-
-func (b *TimestampBuilder) Type() arrow.DataType { return b.dtype }
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *TimestampBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		if b.nullBitmap != nil {
-			b.nullBitmap.Release()
-			b.nullBitmap = nil
-		}
-		if b.data != nil {
-			b.data.Release()
-			b.data = nil
-			b.rawData = nil
-		}
-	}
-}
-
-func (b *TimestampBuilder) AppendTime(t time.Time) {
-	ts, err := arrow.TimestampFromTime(t, b.dtype.Unit)
-	if err != nil {
-		panic(err)
-	}
-	b.Append(ts)
-}
-
-func (b *TimestampBuilder) Append(v arrow.Timestamp) {
-	b.Reserve(1)
-	b.UnsafeAppend(v)
-}
-
-func (b *TimestampBuilder) AppendNull() {
-	b.Reserve(1)
-	b.UnsafeAppendBoolToBitmap(false)
-}
-
-func (b *TimestampBuilder) AppendNulls(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendNull()
-	}
-}
-
-func (b *TimestampBuilder) AppendEmptyValue() {
-	b.Append(0)
-}
-
-func (b *TimestampBuilder) AppendEmptyValues(n int) {
-	for i := 0; i < n; i++ {
-		b.AppendEmptyValue()
-	}
-}
-
-func (b *TimestampBuilder) UnsafeAppend(v arrow.Timestamp) {
-	bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	b.rawData[b.length] = v
-	b.length++
-}
-
-func (b *TimestampBuilder) UnsafeAppendBoolToBitmap(isValid bool) {
-	if isValid {
-		bitutil.SetBit(b.nullBitmap.Bytes(), b.length)
-	} else {
-		b.nulls++
-	}
-	b.length++
-}
-
-// AppendValues will append the values in the v slice. The valid slice determines which values
-// in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
-// all values in v are appended and considered valid.
-func (b *TimestampBuilder) AppendValues(v []arrow.Timestamp, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	if len(v) == 0 {
-		return
-	}
-
-	b.Reserve(len(v))
-	arrow.TimestampTraits.Copy(b.rawData[b.length:], v)
-	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
-}
-
-func (b *TimestampBuilder) init(capacity int) {
-	b.builder.init(capacity)
-
-	b.data = memory.NewResizableBuffer(b.mem)
-	bytesN := arrow.TimestampTraits.BytesRequired(capacity)
-	b.data.Resize(bytesN)
-	b.rawData = arrow.TimestampTraits.CastFromBytes(b.data.Bytes())
-}
-
-// Reserve ensures there is enough space for appending n elements
-// by checking the capacity and calling Resize if necessary.
-func (b *TimestampBuilder) Reserve(n int) {
-	b.builder.reserve(n, b.Resize)
-}
-
-// Resize adjusts the space allocated by b to n elements. If n is greater than b.Cap(),
-// additional memory will be allocated. If n is smaller, the allocated memory may reduced.
-func (b *TimestampBuilder) Resize(n int) {
-	nBuilder := n
-	if n < minBuilderCapacity {
-		n = minBuilderCapacity
-	}
-
-	if b.capacity == 0 {
-		b.init(n)
-	} else {
-		b.builder.resize(nBuilder, b.init)
-		b.data.Resize(arrow.TimestampTraits.BytesRequired(n))
-		b.rawData = arrow.TimestampTraits.CastFromBytes(b.data.Bytes())
-	}
-}
-
-// NewArray creates a Timestamp array from the memory buffers used by the builder and resets the TimestampBuilder
-// so it can be used to build a new array.
-func (b *TimestampBuilder) NewArray() arrow.Array {
-	return b.NewTimestampArray()
-}
-
-// NewTimestampArray creates a Timestamp array from the memory buffers used by the builder and resets the TimestampBuilder
-// so it can be used to build a new array.
-func (b *TimestampBuilder) NewTimestampArray() (a *Timestamp) {
-	data := b.newData()
-	a = NewTimestampData(data)
-	data.Release()
-	return
-}
-
-func (b *TimestampBuilder) newData() (data *Data) {
-	bytesRequired := arrow.TimestampTraits.BytesRequired(b.length)
-	if bytesRequired > 0 && bytesRequired < b.data.Len() {
-		// trim buffers
-		b.data.Resize(bytesRequired)
-	}
-	data = NewData(b.dtype, b.length, []*memory.Buffer{b.nullBitmap, b.data}, nil, b.nulls, 0)
-	b.reset()
-
-	if b.data != nil {
-		b.data.Release()
-		b.data = nil
-		b.rawData = nil
-	}
-
-	return
-}
-
-func (b *TimestampBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	loc, err := b.dtype.GetZone()
-	if err != nil {
-		return err
-	}
-
-	v, _, err := arrow.TimestampFromStringInLocation(s, b.dtype.Unit, loc)
-	if err != nil {
-		b.AppendNull()
-		return err
-	}
-	b.Append(v)
-	return nil
-}
-
-func (b *TimestampBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		loc, _ := b.dtype.GetZone()
-		tm, _, err := arrow.TimestampFromStringInLocation(v, b.dtype.Unit, loc)
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v,
-				Type:   reflect.TypeOf(arrow.Timestamp(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-
-		b.Append(tm)
-	case json.Number:
-		n, err := v.Int64()
-		if err != nil {
-			return &json.UnmarshalTypeError{
-				Value:  v.String(),
-				Type:   reflect.TypeOf(arrow.Timestamp(0)),
-				Offset: dec.InputOffset(),
-			}
-		}
-		b.Append(arrow.Timestamp(n))
-	case float64:
-		b.Append(arrow.Timestamp(v))
-
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf(arrow.Timestamp(0)),
-			Offset: dec.InputOffset(),
-		}
-	}
-
-	return nil
-}
-
-func (b *TimestampBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *TimestampBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("binary builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-var (
-	_ arrow.Array = (*Timestamp)(nil)
-	_ Builder     = (*TimestampBuilder)(nil)
-)
diff --git a/go/arrow/array/timestamp_test.go b/go/arrow/array/timestamp_test.go
deleted file mode 100644
index cb9f957d3f255..0000000000000
--- a/go/arrow/array/timestamp_test.go
+++ /dev/null
@@ -1,300 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"testing"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestTimestampStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.TimestampType{Unit: arrow.Second}
-	b := array.NewTimestampBuilder(mem, dt)
-	defer b.Release()
-
-	b.Append(1)
-	b.Append(2)
-	b.Append(3)
-	b.AppendNull()
-	b.Append(5)
-	b.Append(6)
-	b.AppendNull()
-	b.Append(8)
-	b.Append(9)
-	b.Append(10)
-
-	arr := b.NewArray().(*array.Timestamp)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewTimestampBuilder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.Timestamp)
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestNewTimestampBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	timestamp := time.Now()
-	dtype := &arrow.TimestampType{Unit: arrow.Second}
-	ab := array.NewTimestampBuilder(mem, dtype)
-	defer ab.Release()
-
-	ab.Retain()
-	ab.Release()
-
-	ab.Append(1)
-	ab.Append(2)
-	ab.Append(3)
-	ab.AppendNull()
-	ab.Append(5)
-	ab.Append(6)
-	ab.AppendNull()
-	ab.Append(8)
-	ab.Append(9)
-	ab.Append(10)
-	ab.AppendTime(timestamp)
-
-	// check state of builder before NewTimestampArray
-	assert.Equal(t, 11, ab.Len(), "unexpected Len()")
-	assert.Equal(t, 2, ab.NullN(), "unexpected NullN()")
-
-	a := ab.NewTimestampArray()
-
-	// check state of builder after NewTimestampArray
-	assert.Zero(t, ab.Len(), "unexpected ArrayBuilder.Len(), NewTimestampArray did not reset state")
-	assert.Zero(t, ab.Cap(), "unexpected ArrayBuilder.Cap(), NewTimestampArray did not reset state")
-	assert.Zero(t, ab.NullN(), "unexpected ArrayBuilder.NullN(), NewTimestampArray did not reset state")
-
-	// check state of array
-	assert.Equal(t, 2, a.NullN(), "unexpected null count")
-	assert.Equal(t, []arrow.Timestamp{1, 2, 3, 0, 5, 6, 0, 8, 9, 10, arrow.Timestamp(timestamp.Unix())}, a.TimestampValues(), "unexpected TimestampValues")
-	assert.Equal(t, []byte{0xb7}, a.NullBitmapBytes()[:1]) // 4 bytes due to minBuilderCapacity
-	assert.Len(t, a.TimestampValues(), 11, "unexpected length of TimestampValues")
-
-	a.Release()
-
-	ab.Append(7)
-	ab.Append(8)
-
-	a = ab.NewTimestampArray()
-
-	assert.Equal(t, 0, a.NullN())
-	assert.Equal(t, []arrow.Timestamp{7, 8}, a.TimestampValues())
-	assert.Len(t, a.TimestampValues(), 2)
-
-	a.Release()
-
-	var (
-		want   = []arrow.Timestamp{1, 2, 3, 4}
-		valids = []bool{true, true, false, true}
-	)
-
-	ab.AppendValues(want, valids)
-	a = ab.NewTimestampArray()
-
-	sub := array.MakeFromData(a.Data())
-	defer sub.Release()
-
-	if got, want := sub.DataType().ID(), a.DataType().ID(); got != want {
-		t.Fatalf("invalid type: got=%q, want=%q", got, want)
-	}
-
-	if _, ok := sub.(*array.Timestamp); !ok {
-		t.Fatalf("could not type-assert to array.Timestamp")
-	}
-
-	if got, want := a.String(), `[1 2 (null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	slice := array.NewSliceData(a.Data(), 2, 4)
-	defer slice.Release()
-
-	sub1 := array.MakeFromData(slice)
-	defer sub1.Release()
-
-	v, ok := sub1.(*array.Timestamp)
-	if !ok {
-		t.Fatalf("could not type-assert to array.Timestamp")
-	}
-
-	if got, want := v.String(), `[(null) 4]`; got != want {
-		t.Fatalf("got=%q, want=%q", got, want)
-	}
-
-	a.Release()
-}
-
-func TestTimestampBuilder_AppendValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.TimestampType{Unit: arrow.Second}
-	ab := array.NewTimestampBuilder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Timestamp{0, 1, 2, 3}
-	ab.AppendValues(exp, nil)
-	a := ab.NewTimestampArray()
-	assert.Equal(t, exp, a.TimestampValues())
-
-	a.Release()
-}
-
-func TestTimestampBuilder_Empty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.TimestampType{Unit: arrow.Second}
-	ab := array.NewTimestampBuilder(mem, dtype)
-	defer ab.Release()
-
-	exp := []arrow.Timestamp{0, 1, 2, 3}
-
-	ab.AppendValues([]arrow.Timestamp{}, nil)
-	a := ab.NewTimestampArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues(nil, nil)
-	a = ab.NewTimestampArray()
-	assert.Zero(t, a.Len())
-	a.Release()
-
-	ab.AppendValues([]arrow.Timestamp{}, nil)
-	ab.AppendValues(exp, nil)
-	a = ab.NewTimestampArray()
-	assert.Equal(t, exp, a.TimestampValues())
-	a.Release()
-
-	ab.AppendValues(exp, nil)
-	ab.AppendValues([]arrow.Timestamp{}, nil)
-	a = ab.NewTimestampArray()
-	assert.Equal(t, exp, a.TimestampValues())
-	a.Release()
-}
-
-func TestTimestampBuilder_Resize(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dtype := &arrow.TimestampType{Unit: arrow.Second}
-	ab := array.NewTimestampBuilder(mem, dtype)
-	defer ab.Release()
-
-	assert.Equal(t, 0, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	ab.Reserve(63)
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 0, ab.Len())
-
-	for i := 0; i < 63; i++ {
-		ab.Append(0)
-	}
-	assert.Equal(t, 64, ab.Cap())
-	assert.Equal(t, 63, ab.Len())
-
-	ab.Resize(5)
-	assert.Equal(t, 5, ab.Len())
-
-	ab.Resize(32)
-	assert.Equal(t, 5, ab.Len())
-}
-
-func TestTimestampValueStr(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}
-	b := array.NewTimestampBuilder(mem, dt)
-	defer b.Release()
-
-	b.Append(-34226955)
-	b.Append(1456767743)
-
-	arr := b.NewArray()
-	defer arr.Release()
-
-	assert.Equal(t, "1968-11-30 13:30:45-0700", arr.ValueStr(0))
-	assert.Equal(t, "2016-02-29 10:42:23-0700", arr.ValueStr(1))
-}
-
-func TestTimestampEquality(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	tsDatatypes := []*arrow.TimestampType{
-		{Unit: arrow.Second},
-		{Unit: arrow.Second, TimeZone: "UTC"},
-		{Unit: arrow.Second, TimeZone: "America/Phoenix"},
-	}
-
-	arrs := make([]*array.Timestamp, 0, len(tsDatatypes))
-	for _, dt := range tsDatatypes {
-		bldr := array.NewTimestampBuilder(mem, dt)
-		defer bldr.Release()
-
-		bldr.Append(-34226955)
-		bldr.Append(1456767743)
-
-		arr := bldr.NewTimestampArray()
-		defer arr.Release()
-
-		arrs = append(arrs, arr)
-	}
-
-	// No timezone, "wall clock" semantics
-	// These timestamps have no actual timezone, but we still represent as UTC per Go conventions
-	assert.Equal(t, "1968-11-30 20:30:45Z", arrs[0].ValueStr(0))
-	assert.Equal(t, "2016-02-29 17:42:23Z", arrs[0].ValueStr(1))
-
-	// UTC timezone, "instant" semantics
-	assert.Equal(t, "1968-11-30 20:30:45Z", arrs[1].ValueStr(0))
-	assert.Equal(t, "2016-02-29 17:42:23Z", arrs[1].ValueStr(1))
-
-	// America/Phoenix timezone, "instant" semantics
-	assert.Equal(t, "1968-11-30 13:30:45-0700", arrs[2].ValueStr(0))
-	assert.Equal(t, "2016-02-29 10:42:23-0700", arrs[2].ValueStr(1))
-
-	// Despite timezone and semantics, the physical values are equivalent
-	assert.Equal(t, arrs[0].Value(0), arrs[1].Value(0))
-	assert.Equal(t, arrs[0].Value(0), arrs[2].Value(0))
-	assert.Equal(t, arrs[1].Value(0), arrs[2].Value(0))
-
-	assert.Equal(t, arrs[0].Value(1), arrs[1].Value(1))
-	assert.Equal(t, arrs[0].Value(1), arrs[2].Value(1))
-	assert.Equal(t, arrs[1].Value(1), arrs[2].Value(1))
-}
diff --git a/go/arrow/array/union.go b/go/arrow/array/union.go
deleted file mode 100644
index 5d2a8b8ecb2f0..0000000000000
--- a/go/arrow/array/union.go
+++ /dev/null
@@ -1,1370 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-	"math"
-	"reflect"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Union is a convenience interface to encompass both Sparse and Dense
-// union array types.
-type Union interface {
-	arrow.Array
-	// NumFields returns the number of child fields in this union.
-	// Equivalent to len(UnionType().Fields())
-	NumFields() int
-	// Validate returns an error if there are any issues with the lengths
-	// or types of the children arrays mismatching with the Type of the
-	// Union Array. nil is returned if there are no problems.
-	Validate() error
-	// ValidateFull runs the same checks that Validate() does, but additionally
-	// checks that all childIDs are valid (>= 0 || ==InvalidID) and for
-	// dense unions validates that all offsets are within the bounds of their
-	// respective child.
-	ValidateFull() error
-	// TypeCodes returns the type id buffer for the union Array, equivalent to
-	// Data().Buffers()[1]. Note: This will not account for any slice offset.
-	TypeCodes() *memory.Buffer
-	// RawTypeCodes returns a slice of UnionTypeCodes properly accounting for
-	// any slice offset.
-	RawTypeCodes() []arrow.UnionTypeCode
-	// TypeCode returns the logical type code of the value at the requested index
-	TypeCode(i int) arrow.UnionTypeCode
-	// ChildID returns the index of the physical child containing the value
-	// at the requested index. Equivalent to:
-	//
-	// 	arr.UnionType().ChildIDs()[arr.RawTypeCodes()[i+arr.Data().Offset()]]
-	ChildID(i int) int
-	// UnionType is a convenience function to retrieve the properly typed UnionType
-	// instead of having to call DataType() and manually assert the type.
-	UnionType() arrow.UnionType
-	// Mode returns the union mode of the underlying Array, either arrow.SparseMode
-	// or arrow.DenseMode.
-	Mode() arrow.UnionMode
-	// Field returns the requested child array for this union. Returns nil if a
-	// nonexistent position is passed in.
-	//
-	// The appropriate child for an index can be retrieved with Field(ChildID(index))
-	Field(pos int) arrow.Array
-}
-
-const kMaxElems = math.MaxInt32
-
-type union struct {
-	array
-
-	unionType arrow.UnionType
-	typecodes []arrow.UnionTypeCode
-
-	children []arrow.Array
-}
-
-func (a *union) Retain() {
-	a.array.Retain()
-	for _, c := range a.children {
-		c.Retain()
-	}
-}
-
-func (a *union) Release() {
-	a.array.Release()
-	for _, c := range a.children {
-		c.Release()
-	}
-}
-
-func (a *union) NumFields() int { return len(a.unionType.Fields()) }
-
-func (a *union) Mode() arrow.UnionMode { return a.unionType.Mode() }
-
-func (a *union) UnionType() arrow.UnionType { return a.unionType }
-
-func (a *union) TypeCodes() *memory.Buffer {
-	return a.data.buffers[1]
-}
-
-func (a *union) RawTypeCodes() []arrow.UnionTypeCode {
-	if a.data.length > 0 {
-		return a.typecodes[a.data.offset:]
-	}
-	return []arrow.UnionTypeCode{}
-}
-
-func (a *union) TypeCode(i int) arrow.UnionTypeCode {
-	return a.typecodes[i+a.data.offset]
-}
-
-func (a *union) ChildID(i int) int {
-	return a.unionType.ChildIDs()[a.typecodes[i+a.data.offset]]
-}
-
-func (a *union) setData(data *Data) {
-	a.unionType = data.dtype.(arrow.UnionType)
-	debug.Assert(len(data.buffers) >= 2, "arrow/array: invalid number of union array buffers")
-
-	if data.length > 0 {
-		a.typecodes = arrow.Int8Traits.CastFromBytes(data.buffers[1].Bytes())
-	} else {
-		a.typecodes = []int8{}
-	}
-	a.children = make([]arrow.Array, len(data.childData))
-	for i, child := range data.childData {
-		if a.unionType.Mode() == arrow.SparseMode && (data.offset != 0 || child.Len() != data.length) {
-			child = NewSliceData(child, int64(data.offset), int64(data.offset+data.length))
-			defer child.Release()
-		}
-		a.children[i] = MakeFromData(child)
-	}
-	a.array.setData(data)
-}
-
-func (a *union) Field(pos int) (result arrow.Array) {
-	if pos < 0 || pos >= len(a.children) {
-		return nil
-	}
-
-	return a.children[pos]
-}
-
-func (a *union) Validate() error {
-	fields := a.unionType.Fields()
-	for i, f := range fields {
-		fieldData := a.data.childData[i]
-		if a.unionType.Mode() == arrow.SparseMode && fieldData.Len() < a.data.length+a.data.offset {
-			return fmt.Errorf("arrow/array: sparse union child array #%d has length smaller than expected for union array (%d < %d)",
-				i, fieldData.Len(), a.data.length+a.data.offset)
-		}
-
-		if !arrow.TypeEqual(f.Type, fieldData.DataType()) {
-			return fmt.Errorf("arrow/array: union child array #%d does not match type field %s vs %s",
-				i, fieldData.DataType(), f.Type)
-		}
-	}
-	return nil
-}
-
-func (a *union) ValidateFull() error {
-	if err := a.Validate(); err != nil {
-		return err
-	}
-
-	childIDs := a.unionType.ChildIDs()
-	codesMap := a.unionType.TypeCodes()
-	codes := a.RawTypeCodes()
-
-	for i := 0; i < a.data.length; i++ {
-		code := codes[i]
-		if code < 0 || childIDs[code] == arrow.InvalidUnionChildID {
-			return fmt.Errorf("arrow/array: union value at position %d has invalid type id %d", i, code)
-		}
-	}
-
-	if a.unionType.Mode() == arrow.DenseMode {
-		// validate offsets
-
-		// map logical typeid to child length
-		var childLengths [256]int64
-		for i := range a.unionType.Fields() {
-			childLengths[codesMap[i]] = int64(a.data.childData[i].Len())
-		}
-
-		// check offsets are in bounds
-		var lastOffsets [256]int64
-		offsets := arrow.Int32Traits.CastFromBytes(a.data.buffers[2].Bytes())[a.data.offset:]
-		for i := int64(0); i < int64(a.data.length); i++ {
-			code := codes[i]
-			offset := offsets[i]
-			switch {
-			case offset < 0:
-				return fmt.Errorf("arrow/array: union value at position %d has negative offset %d", i, offset)
-			case offset >= int32(childLengths[code]):
-				return fmt.Errorf("arrow/array: union value at position %d has offset larger than child length (%d >= %d)",
-					i, offset, childLengths[code])
-			case offset < int32(lastOffsets[code]):
-				return fmt.Errorf("arrow/array: union value at position %d has non-monotonic offset %d", i, offset)
-			}
-			lastOffsets[code] = int64(offset)
-		}
-	}
-
-	return nil
-}
-
-// SparseUnion represents an array where each logical value is taken from
-// a single child. A buffer of 8-bit type ids indicates which child a given
-// logical value is to be taken from. This is represented as the ChildID,
-// which is the index into the list of children.
-//
-// In a sparse union, each child array will have the same length as the
-// union array itself, regardless of how many values in the union actually
-// refer to it.
-//
-// Unlike most other arrays, unions do not have a top-level validity bitmap.
-type SparseUnion struct {
-	union
-}
-
-// NewSparseUnion constructs a union array using the given type, length, list of
-// children and buffer of typeIDs with the given offset.
-func NewSparseUnion(dt *arrow.SparseUnionType, length int, children []arrow.Array, typeIDs *memory.Buffer, offset int) *SparseUnion {
-	childData := make([]arrow.ArrayData, len(children))
-	for i, c := range children {
-		childData[i] = c.Data()
-	}
-	data := NewData(dt, length, []*memory.Buffer{nil, typeIDs}, childData, 0, offset)
-	defer data.Release()
-	return NewSparseUnionData(data)
-}
-
-// NewSparseUnionData constructs a SparseUnion array from the given ArrayData object.
-func NewSparseUnionData(data arrow.ArrayData) *SparseUnion {
-	a := &SparseUnion{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// NewSparseUnionFromArrays constructs a new SparseUnion array with the provided
-// values.
-//
-// typeIDs *must* be an INT8 array with no nulls
-// len(codes) *must* be either 0 or equal to len(children). If len(codes) is 0,
-// the type codes used will be sequentially numeric starting at 0.
-func NewSparseUnionFromArrays(typeIDs arrow.Array, children []arrow.Array, codes ...arrow.UnionTypeCode) (*SparseUnion, error) {
-	return NewSparseUnionFromArraysWithFieldCodes(typeIDs, children, []string{}, codes)
-}
-
-// NewSparseUnionFromArrayWithFields constructs a new SparseUnion array like
-// NewSparseUnionFromArrays, but allows specifying the field names. Type codes
-// will be auto-generated sequentially starting at 0.
-//
-// typeIDs *must* be an INT8 array with no nulls.
-// len(fields) *must* either be 0 or equal to len(children). If len(fields) is 0,
-// then the fields will be named sequentially starting at "0".
-func NewSparseUnionFromArraysWithFields(typeIDs arrow.Array, children []arrow.Array, fields []string) (*SparseUnion, error) {
-	return NewSparseUnionFromArraysWithFieldCodes(typeIDs, children, fields, []arrow.UnionTypeCode{})
-}
-
-// NewSparseUnionFromArraysWithFieldCodes combines the other constructors
-// for constructing a new SparseUnion array with the provided field names
-// and type codes, along with children and type ids.
-//
-// All the requirements mentioned in NewSparseUnionFromArrays and
-// NewSparseUnionFromArraysWithFields apply.
-func NewSparseUnionFromArraysWithFieldCodes(typeIDs arrow.Array, children []arrow.Array, fields []string, codes []arrow.UnionTypeCode) (*SparseUnion, error) {
-	switch {
-	case typeIDs.DataType().ID() != arrow.INT8:
-		return nil, errors.New("arrow/array: union array type ids must be signed int8")
-	case typeIDs.NullN() != 0:
-		return nil, errors.New("arrow/array: union type ids may not have nulls")
-	case len(fields) > 0 && len(fields) != len(children):
-		return nil, errors.New("arrow/array: field names must have the same length as children")
-	case len(codes) > 0 && len(codes) != len(children):
-		return nil, errors.New("arrow/array: type codes must have same length as children")
-	}
-
-	buffers := []*memory.Buffer{nil, typeIDs.Data().Buffers()[1]}
-	ty := arrow.SparseUnionFromArrays(children, fields, codes)
-
-	childData := make([]arrow.ArrayData, len(children))
-	for i, c := range children {
-		childData[i] = c.Data()
-		if c.Len() != typeIDs.Len() {
-			return nil, errors.New("arrow/array: sparse union array must have len(child) == len(typeids) for all children")
-		}
-	}
-
-	data := NewData(ty, typeIDs.Len(), buffers, childData, 0, typeIDs.Data().Offset())
-	defer data.Release()
-	return NewSparseUnionData(data), nil
-}
-
-func (a *SparseUnion) setData(data *Data) {
-	a.union.setData(data)
-	debug.Assert(a.data.dtype.ID() == arrow.SPARSE_UNION, "arrow/array: invalid data type for SparseUnion")
-	debug.Assert(len(a.data.buffers) == 2, "arrow/array: sparse unions should have exactly 2 buffers")
-	debug.Assert(a.data.buffers[0] == nil, "arrow/array: validity bitmap for sparse unions should be nil")
-}
-
-func (a *SparseUnion) GetOneForMarshal(i int) interface{} {
-	typeID := a.RawTypeCodes()[i]
-
-	childID := a.ChildID(i)
-	data := a.Field(childID)
-
-	if data.IsNull(i) {
-		return nil
-	}
-
-	return []interface{}{typeID, data.GetOneForMarshal(i)}
-}
-
-func (a *SparseUnion) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func (a *SparseUnion) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-
-	val := a.GetOneForMarshal(i)
-	if val == nil {
-		// child is nil
-		return NullValueStr
-	}
-
-	data, err := json.Marshal(val)
-	if err != nil {
-		panic(err)
-	}
-	return string(data)
-}
-
-func (a *SparseUnion) String() string {
-	var b strings.Builder
-	b.WriteByte('[')
-
-	fieldList := a.unionType.Fields()
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			b.WriteString(" ")
-		}
-
-		field := fieldList[a.ChildID(i)]
-		f := a.Field(a.ChildID(i))
-		fmt.Fprintf(&b, "{%s=%v}", field.Name, f.GetOneForMarshal(i))
-	}
-	b.WriteByte(']')
-	return b.String()
-}
-
-// GetFlattenedField returns a child array, adjusting its validity bitmap
-// where the union array type codes don't match.
-//
-// ie: the returned array will have a null in every index that it is
-// not referenced by union.
-func (a *SparseUnion) GetFlattenedField(mem memory.Allocator, index int) (arrow.Array, error) {
-	if index < 0 || index >= a.NumFields() {
-		return nil, fmt.Errorf("arrow/array: index out of range: %d", index)
-	}
-
-	childData := a.data.childData[index]
-	if a.data.offset != 0 || a.data.length != childData.Len() {
-		childData = NewSliceData(childData, int64(a.data.offset), int64(a.data.offset+a.data.length))
-		// NewSliceData doesn't break the slice reference for buffers
-		// since we're going to replace the null bitmap buffer we need to break the
-		// slice reference so that we don't affect a.children's references
-		newBufs := make([]*memory.Buffer, len(childData.Buffers()))
-		copy(newBufs, childData.(*Data).buffers)
-		childData.(*Data).buffers = newBufs
-	} else {
-		childData = childData.(*Data).Copy()
-	}
-	defer childData.Release()
-
-	// synthesize a null bitmap based on the union discriminant
-	// make sure the bitmap has extra bits corresponding to the child's offset
-	flattenedNullBitmap := memory.NewResizableBuffer(mem)
-	flattenedNullBitmap.Resize(childData.Len() + childData.Offset())
-
-	var (
-		childNullBitmap       = childData.Buffers()[0]
-		childOffset           = childData.Offset()
-		typeCode              = a.unionType.TypeCodes()[index]
-		codes                 = a.RawTypeCodes()
-		offset          int64 = 0
-	)
-	bitutils.GenerateBitsUnrolled(flattenedNullBitmap.Bytes(), int64(childOffset), int64(a.data.length),
-		func() bool {
-			b := codes[offset] == typeCode
-			offset++
-			return b
-		})
-
-	if childNullBitmap != nil {
-		defer childNullBitmap.Release()
-		bitutil.BitmapAnd(flattenedNullBitmap.Bytes(), childNullBitmap.Bytes(),
-			int64(childOffset), int64(childOffset), flattenedNullBitmap.Bytes(),
-			int64(childOffset), int64(childData.Len()))
-	}
-	childData.(*Data).buffers[0] = flattenedNullBitmap
-	childData.(*Data).nulls = childData.Len() - bitutil.CountSetBits(flattenedNullBitmap.Bytes(), childOffset, childData.Len())
-	return MakeFromData(childData), nil
-}
-
-func arraySparseUnionEqual(l, r *SparseUnion) bool {
-	childIDs := l.unionType.ChildIDs()
-	leftCodes, rightCodes := l.RawTypeCodes(), r.RawTypeCodes()
-
-	for i := 0; i < l.data.length; i++ {
-		typeID := leftCodes[i]
-		if typeID != rightCodes[i] {
-			return false
-		}
-
-		childNum := childIDs[typeID]
-		eq := SliceEqual(l.children[childNum], int64(i), int64(i+1),
-			r.children[childNum], int64(i), int64(i+1))
-		if !eq {
-			return false
-		}
-	}
-	return true
-}
-
-func arraySparseUnionApproxEqual(l, r *SparseUnion, opt equalOption) bool {
-	childIDs := l.unionType.ChildIDs()
-	leftCodes, rightCodes := l.RawTypeCodes(), r.RawTypeCodes()
-
-	for i := 0; i < l.data.length; i++ {
-		typeID := leftCodes[i]
-		if typeID != rightCodes[i] {
-			return false
-		}
-
-		childNum := childIDs[typeID]
-		eq := sliceApproxEqual(l.children[childNum], int64(i+l.data.offset), int64(i+l.data.offset+1),
-			r.children[childNum], int64(i+r.data.offset), int64(i+r.data.offset+1), opt)
-		if !eq {
-			return false
-		}
-	}
-	return true
-}
-
-// DenseUnion represents an array where each logical value is taken from
-// a single child, at a specific offset. A buffer of 8-bit type ids
-// indicates which child a given logical value is to be taken from and
-// a buffer of 32-bit offsets indicating which physical position in the
-// given child array has the logical value for that index.
-//
-// Unlike a sparse union, a dense union allows encoding only the child values
-// which are actually referred to by the union array. This is counterbalanced
-// by the additional footprint of the offsets buffer, and the additional
-// indirection cost when looking up values.
-//
-// Unlike most other arrays, unions do not have a top-level validity bitmap.
-type DenseUnion struct {
-	union
-	offsets []int32
-}
-
-// NewDenseUnion constructs a union array using the given type, length, list of
-// children and buffers of typeIDs and offsets, with the given array offset.
-func NewDenseUnion(dt *arrow.DenseUnionType, length int, children []arrow.Array, typeIDs, valueOffsets *memory.Buffer, offset int) *DenseUnion {
-	childData := make([]arrow.ArrayData, len(children))
-	for i, c := range children {
-		childData[i] = c.Data()
-	}
-
-	data := NewData(dt, length, []*memory.Buffer{nil, typeIDs, valueOffsets}, childData, 0, offset)
-	defer data.Release()
-	return NewDenseUnionData(data)
-}
-
-// NewDenseUnionData constructs a DenseUnion array from the given ArrayData object.
-func NewDenseUnionData(data arrow.ArrayData) *DenseUnion {
-	a := &DenseUnion{}
-	a.refCount = 1
-	a.setData(data.(*Data))
-	return a
-}
-
-// NewDenseUnionFromArrays constructs a new DenseUnion array with the provided
-// values.
-//
-// typeIDs *must* be an INT8 array with no nulls
-// offsets *must* be an INT32 array with no nulls
-// len(codes) *must* be either 0 or equal to len(children). If len(codes) is 0,
-// the type codes used will be sequentially numeric starting at 0.
-func NewDenseUnionFromArrays(typeIDs, offsets arrow.Array, children []arrow.Array, codes ...arrow.UnionTypeCode) (*DenseUnion, error) {
-	return NewDenseUnionFromArraysWithFieldCodes(typeIDs, offsets, children, []string{}, codes)
-}
-
-// NewDenseUnionFromArrayWithFields constructs a new DenseUnion array like
-// NewDenseUnionFromArrays, but allows specifying the field names. Type codes
-// will be auto-generated sequentially starting at 0.
-//
-// typeIDs *must* be an INT8 array with no nulls.
-// offsets *must* be an INT32 array with no nulls.
-// len(fields) *must* either be 0 or equal to len(children). If len(fields) is 0,
-// then the fields will be named sequentially starting at "0".
-func NewDenseUnionFromArraysWithFields(typeIDs, offsets arrow.Array, children []arrow.Array, fields []string) (*DenseUnion, error) {
-	return NewDenseUnionFromArraysWithFieldCodes(typeIDs, offsets, children, fields, []arrow.UnionTypeCode{})
-}
-
-// NewDenseUnionFromArraysWithFieldCodes combines the other constructors
-// for constructing a new DenseUnion array with the provided field names
-// and type codes, along with children and type ids.
-//
-// All the requirements mentioned in NewDenseUnionFromArrays and
-// NewDenseUnionFromArraysWithFields apply.
-func NewDenseUnionFromArraysWithFieldCodes(typeIDs, offsets arrow.Array, children []arrow.Array, fields []string, codes []arrow.UnionTypeCode) (*DenseUnion, error) {
-	switch {
-	case offsets.DataType().ID() != arrow.INT32:
-		return nil, errors.New("arrow/array: union offsets must be signed int32")
-	case typeIDs.DataType().ID() != arrow.INT8:
-		return nil, errors.New("arrow/array: union type_ids must be signed int8")
-	case typeIDs.NullN() != 0:
-		return nil, errors.New("arrow/array: union typeIDs may not have nulls")
-	case offsets.NullN() != 0:
-		return nil, errors.New("arrow/array: nulls are not allowed in offsets for NewDenseUnionFromArrays*")
-	case len(fields) > 0 && len(fields) != len(children):
-		return nil, errors.New("arrow/array: fields must be the same length as children")
-	case len(codes) > 0 && len(codes) != len(children):
-		return nil, errors.New("arrow/array: typecodes must have the same length as children")
-	}
-
-	ty := arrow.DenseUnionFromArrays(children, fields, codes)
-	buffers := []*memory.Buffer{nil, typeIDs.Data().Buffers()[1], offsets.Data().Buffers()[1]}
-
-	childData := make([]arrow.ArrayData, len(children))
-	for i, c := range children {
-		childData[i] = c.Data()
-	}
-
-	data := NewData(ty, typeIDs.Len(), buffers, childData, 0, typeIDs.Data().Offset())
-	defer data.Release()
-	return NewDenseUnionData(data), nil
-}
-
-func (a *DenseUnion) ValueOffsets() *memory.Buffer { return a.data.buffers[2] }
-
-func (a *DenseUnion) ValueOffset(i int) int32 { return a.offsets[i+a.data.offset] }
-
-func (a *DenseUnion) RawValueOffsets() []int32 { return a.offsets[a.data.offset:] }
-
-func (a *DenseUnion) setData(data *Data) {
-	a.union.setData(data)
-	debug.Assert(a.data.dtype.ID() == arrow.DENSE_UNION, "arrow/array: invalid data type for DenseUnion")
-	debug.Assert(len(a.data.buffers) == 3, "arrow/array: dense unions should have exactly 3 buffers")
-	debug.Assert(a.data.buffers[0] == nil, "arrow/array: validity bitmap for dense unions should be nil")
-
-	if data.length > 0 {
-		a.offsets = arrow.Int32Traits.CastFromBytes(a.data.buffers[2].Bytes())
-	} else {
-		a.offsets = []int32{}
-	}
-}
-
-func (a *DenseUnion) GetOneForMarshal(i int) interface{} {
-	typeID := a.RawTypeCodes()[i]
-
-	childID := a.ChildID(i)
-	data := a.Field(childID)
-
-	offset := int(a.RawValueOffsets()[i])
-	if data.IsNull(offset) {
-		return nil
-	}
-
-	return []interface{}{typeID, data.GetOneForMarshal(offset)}
-}
-
-func (a *DenseUnion) MarshalJSON() ([]byte, error) {
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-
-	buf.WriteByte('[')
-	for i := 0; i < a.Len(); i++ {
-		if i != 0 {
-			buf.WriteByte(',')
-		}
-		if err := enc.Encode(a.GetOneForMarshal(i)); err != nil {
-			return nil, err
-		}
-	}
-	buf.WriteByte(']')
-	return buf.Bytes(), nil
-}
-
-func (a *DenseUnion) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return NullValueStr
-	}
-
-	val := a.GetOneForMarshal(i)
-	if val == nil {
-		// child in nil
-		return NullValueStr
-	}
-
-	data, err := json.Marshal(val)
-	if err != nil {
-		panic(err)
-	}
-	return string(data)
-}
-
-func (a *DenseUnion) String() string {
-	var b strings.Builder
-	b.WriteByte('[')
-
-	offsets := a.RawValueOffsets()
-
-	fieldList := a.unionType.Fields()
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			b.WriteString(" ")
-		}
-
-		field := fieldList[a.ChildID(i)]
-		f := a.Field(a.ChildID(i))
-		fmt.Fprintf(&b, "{%s=%v}", field.Name, f.GetOneForMarshal(int(offsets[i])))
-	}
-	b.WriteByte(']')
-	return b.String()
-}
-
-func arrayDenseUnionEqual(l, r *DenseUnion) bool {
-	childIDs := l.unionType.ChildIDs()
-	leftCodes, rightCodes := l.RawTypeCodes(), r.RawTypeCodes()
-	leftOffsets, rightOffsets := l.RawValueOffsets(), r.RawValueOffsets()
-
-	for i := 0; i < l.data.length; i++ {
-		typeID := leftCodes[i]
-		if typeID != rightCodes[i] {
-			return false
-		}
-
-		childNum := childIDs[typeID]
-		eq := SliceEqual(l.children[childNum], int64(leftOffsets[i]), int64(leftOffsets[i]+1),
-			r.children[childNum], int64(rightOffsets[i]), int64(rightOffsets[i]+1))
-		if !eq {
-			return false
-		}
-	}
-	return true
-}
-
-func arrayDenseUnionApproxEqual(l, r *DenseUnion, opt equalOption) bool {
-	childIDs := l.unionType.ChildIDs()
-	leftCodes, rightCodes := l.RawTypeCodes(), r.RawTypeCodes()
-	leftOffsets, rightOffsets := l.RawValueOffsets(), r.RawValueOffsets()
-
-	for i := 0; i < l.data.length; i++ {
-		typeID := leftCodes[i]
-		if typeID != rightCodes[i] {
-			return false
-		}
-
-		childNum := childIDs[typeID]
-		eq := sliceApproxEqual(l.children[childNum], int64(leftOffsets[i]), int64(leftOffsets[i]+1),
-			r.children[childNum], int64(rightOffsets[i]), int64(rightOffsets[i]+1), opt)
-		if !eq {
-			return false
-		}
-	}
-	return true
-}
-
-// UnionBuilder is a convenience interface for building Union arrays of
-// either Dense or Sparse mode.
-type UnionBuilder interface {
-	Builder
-	// AppendChild allows constructing the union type on the fly by making new
-	// new array builder available to the union builder. The type code (index)
-	// of the new child is returned, which should be passed to the Append method
-	// when adding a new element to the union array.
-	AppendChild(newChild Builder, fieldName string) (newCode arrow.UnionTypeCode)
-	// Append adds an element to the UnionArray indicating which typecode the
-	// new element should use. This *must* be followed up by an append to the
-	// appropriate child builder.
-	Append(arrow.UnionTypeCode)
-	// Mode returns what kind of Union is being built, either arrow.SparseMode
-	// or arrow.DenseMode
-	Mode() arrow.UnionMode
-	// Child returns the builder for the requested child index.
-	// If an invalid index is requested (e.g. <0 or >len(children))
-	// then this will panic.
-	Child(idx int) Builder
-}
-
-type unionBuilder struct {
-	builder
-
-	childFields []arrow.Field
-	codes       []arrow.UnionTypeCode
-	mode        arrow.UnionMode
-
-	children        []Builder
-	typeIDtoBuilder []Builder
-	typeIDtoChildID []int
-	// for all typeID < denseTypeID, typeIDtoBuilder[typeID] != nil
-	denseTypeID  arrow.UnionTypeCode
-	typesBuilder *int8BufferBuilder
-}
-
-func newUnionBuilder(mem memory.Allocator, children []Builder, typ arrow.UnionType) unionBuilder {
-	if children == nil {
-		children = make([]Builder, 0)
-	}
-	b := unionBuilder{
-		builder:         builder{refCount: 1, mem: mem},
-		mode:            typ.Mode(),
-		codes:           typ.TypeCodes(),
-		children:        children,
-		typeIDtoChildID: make([]int, int(typ.MaxTypeCode())+1),     // convert to int as int8(127) +1 panics
-		typeIDtoBuilder: make([]Builder, int(typ.MaxTypeCode())+1), // convert to int as int8(127) +1 panics
-		childFields:     make([]arrow.Field, len(children)),
-		typesBuilder:    newInt8BufferBuilder(mem),
-	}
-
-	b.typeIDtoChildID[0] = arrow.InvalidUnionChildID
-	for i := 1; i < len(b.typeIDtoChildID); i *= 2 {
-		copy(b.typeIDtoChildID[i:], b.typeIDtoChildID[:i])
-	}
-
-	debug.Assert(len(children) == len(typ.TypeCodes()), "mismatched typecodes and children")
-	debug.Assert(len(b.typeIDtoBuilder)-1 <= int(arrow.MaxUnionTypeCode), "too many typeids")
-
-	copy(b.childFields, typ.Fields())
-	for i, c := range children {
-		c.Retain()
-		typeID := typ.TypeCodes()[i]
-		b.typeIDtoChildID[typeID] = i
-		b.typeIDtoBuilder[typeID] = c
-	}
-
-	return b
-}
-
-func (b *unionBuilder) NumChildren() int {
-	return len(b.children)
-}
-
-func (b *unionBuilder) Child(idx int) Builder {
-	if idx < 0 || idx > len(b.children) {
-		panic("arrow/array: invalid child index for union builder")
-	}
-	return b.children[idx]
-}
-
-// Len returns the current number of elements in the builder.
-func (b *unionBuilder) Len() int { return b.typesBuilder.Len() }
-
-func (b *unionBuilder) Mode() arrow.UnionMode { return b.mode }
-
-func (b *unionBuilder) reserve(elements int, resize func(int)) {
-	// union has no null bitmap, ever so we can skip that handling
-	if b.length+elements > b.capacity {
-		b.capacity = bitutil.NextPowerOf2(b.length + elements)
-		resize(b.capacity)
-	}
-}
-
-func (b *unionBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		for _, c := range b.children {
-			c.Release()
-		}
-		b.typesBuilder.Release()
-	}
-}
-
-func (b *unionBuilder) Type() arrow.DataType {
-	fields := make([]arrow.Field, len(b.childFields))
-	for i, f := range b.childFields {
-		fields[i] = f
-		fields[i].Type = b.children[i].Type()
-	}
-
-	switch b.mode {
-	case arrow.SparseMode:
-		return arrow.SparseUnionOf(fields, b.codes)
-	case arrow.DenseMode:
-		return arrow.DenseUnionOf(fields, b.codes)
-	default:
-		panic("invalid union builder mode")
-	}
-}
-
-func (b *unionBuilder) AppendChild(newChild Builder, fieldName string) arrow.UnionTypeCode {
-	newChild.Retain()
-	b.children = append(b.children, newChild)
-	newType := b.nextTypeID()
-
-	b.typeIDtoChildID[newType] = len(b.children) - 1
-	b.typeIDtoBuilder[newType] = newChild
-	b.childFields = append(b.childFields, arrow.Field{Name: fieldName, Nullable: true})
-	b.codes = append(b.codes, newType)
-
-	return newType
-}
-
-func (b *unionBuilder) nextTypeID() arrow.UnionTypeCode {
-	// find typeID such that typeIDtoBuilder[typeID] == nil
-	// use that for the new child. Start searching at denseTypeID
-	// since typeIDtoBuilder is densely packed up at least to denseTypeID
-	for ; int(b.denseTypeID) < len(b.typeIDtoBuilder); b.denseTypeID++ {
-		if b.typeIDtoBuilder[b.denseTypeID] == nil {
-			id := b.denseTypeID
-			b.denseTypeID++
-			return id
-		}
-	}
-
-	debug.Assert(len(b.typeIDtoBuilder) < int(arrow.MaxUnionTypeCode), "too many children typeids")
-	// typeIDtoBuilder is already densely packed, so just append the new child
-	b.typeIDtoBuilder = append(b.typeIDtoBuilder, nil)
-	b.typeIDtoChildID = append(b.typeIDtoChildID, arrow.InvalidUnionChildID)
-	id := b.denseTypeID
-	b.denseTypeID++
-	return id
-
-}
-
-func (b *unionBuilder) newData() *Data {
-	length := b.typesBuilder.Len()
-	typesBuffer := b.typesBuilder.Finish()
-	defer typesBuffer.Release()
-	childData := make([]arrow.ArrayData, len(b.children))
-	for i, b := range b.children {
-		childData[i] = b.newData()
-		defer childData[i].Release()
-	}
-
-	return NewData(b.Type(), length, []*memory.Buffer{nil, typesBuffer}, childData, 0, 0)
-}
-
-// SparseUnionBuilder is used to build a Sparse Union array using the Append
-// methods. You can also add new types to the union on the fly by using
-// AppendChild.
-//
-// Keep in mind: All children of a SparseUnion should be the same length
-// as the union itself. If you add new children with AppendChild, ensure
-// that they have the correct number of preceding elements that have been
-// added to the builder beforehand.
-type SparseUnionBuilder struct {
-	unionBuilder
-}
-
-// NewEmptySparseUnionBuilder is a helper to construct a SparseUnionBuilder
-// without having to predefine the union types. It creates a builder with no
-// children and AppendChild will have to be called before appending any
-// elements to this builder.
-func NewEmptySparseUnionBuilder(mem memory.Allocator) *SparseUnionBuilder {
-	return &SparseUnionBuilder{
-		unionBuilder: newUnionBuilder(mem, nil, arrow.SparseUnionOf([]arrow.Field{}, []arrow.UnionTypeCode{})),
-	}
-}
-
-// NewSparseUnionBuilder constructs a new SparseUnionBuilder with the provided
-// children and type codes. Builders will be constructed for each child
-// using the fields in typ
-func NewSparseUnionBuilder(mem memory.Allocator, typ *arrow.SparseUnionType) *SparseUnionBuilder {
-	children := make([]Builder, typ.NumFields())
-	for i, f := range typ.Fields() {
-		children[i] = NewBuilder(mem, f.Type)
-		defer children[i].Release()
-	}
-	return NewSparseUnionBuilderWithBuilders(mem, typ, children)
-}
-
-// NewSparseUnionWithBuilders returns a new SparseUnionBuilder using the
-// provided type and builders.
-func NewSparseUnionBuilderWithBuilders(mem memory.Allocator, typ *arrow.SparseUnionType, children []Builder) *SparseUnionBuilder {
-	return &SparseUnionBuilder{
-		unionBuilder: newUnionBuilder(mem, children, typ),
-	}
-}
-
-func (b *SparseUnionBuilder) Reserve(n int) {
-	b.reserve(n, b.Resize)
-}
-
-func (b *SparseUnionBuilder) Resize(n int) {
-	b.typesBuilder.resize(n)
-}
-
-// AppendNull will append a null to the first child and an empty value
-// (implementation-defined) to the rest of the children.
-func (b *SparseUnionBuilder) AppendNull() {
-	firstChildCode := b.codes[0]
-	b.typesBuilder.AppendValue(firstChildCode)
-	b.typeIDtoBuilder[firstChildCode].AppendNull()
-	for _, c := range b.codes[1:] {
-		b.typeIDtoBuilder[c].AppendEmptyValue()
-	}
-}
-
-// AppendNulls is identical to calling AppendNull() n times, except
-// it will pre-allocate with reserve for all the nulls beforehand.
-func (b *SparseUnionBuilder) AppendNulls(n int) {
-	firstChildCode := b.codes[0]
-	b.Reserve(n)
-	for _, c := range b.codes {
-		b.typeIDtoBuilder[c].Reserve(n)
-	}
-	for i := 0; i < n; i++ {
-		b.typesBuilder.AppendValue(firstChildCode)
-		b.typeIDtoBuilder[firstChildCode].AppendNull()
-		for _, c := range b.codes[1:] {
-			b.typeIDtoBuilder[c].AppendEmptyValue()
-		}
-	}
-}
-
-// AppendEmptyValue appends an empty value (implementation defined)
-// to each child, and appends the type of the first typecode to the typeid
-// buffer.
-func (b *SparseUnionBuilder) AppendEmptyValue() {
-	b.typesBuilder.AppendValue(b.codes[0])
-	for _, c := range b.codes {
-		b.typeIDtoBuilder[c].AppendEmptyValue()
-	}
-}
-
-// AppendEmptyValues is identical to calling AppendEmptyValue() n times,
-// except it pre-allocates first so it is more efficient.
-func (b *SparseUnionBuilder) AppendEmptyValues(n int) {
-	b.Reserve(n)
-	firstChildCode := b.codes[0]
-	for _, c := range b.codes {
-		b.typeIDtoBuilder[c].Reserve(n)
-	}
-	for i := 0; i < n; i++ {
-		b.typesBuilder.AppendValue(firstChildCode)
-		for _, c := range b.codes {
-			b.typeIDtoBuilder[c].AppendEmptyValue()
-		}
-	}
-}
-
-// Append appends an element to the UnionArray and must be followed up
-// by an append to the appropriate child builder. The parameter should
-// be the type id of the child to which the next value will be appended.
-//
-// After appending to the corresponding child builder, all other child
-// builders should have a null or empty value appended to them (although
-// this is not enforced and any value is theoretically allowed and will be
-// ignored).
-func (b *SparseUnionBuilder) Append(nextType arrow.UnionTypeCode) {
-	b.typesBuilder.AppendValue(nextType)
-}
-
-func (b *SparseUnionBuilder) NewArray() arrow.Array {
-	return b.NewSparseUnionArray()
-}
-
-func (b *SparseUnionBuilder) NewSparseUnionArray() (a *SparseUnion) {
-	data := b.newData()
-	a = NewSparseUnionData(data)
-	data.Release()
-	return
-}
-
-func (b *SparseUnionBuilder) UnmarshalJSON(data []byte) (err error) {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("sparse union builder must unpack from json array, found %s", t)
-	}
-	return b.Unmarshal(dec)
-}
-
-func (b *SparseUnionBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *SparseUnionBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-	dec := json.NewDecoder(strings.NewReader(s))
-	return b.UnmarshalOne(dec)
-}
-
-func (b *SparseUnionBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t {
-	case json.Delim('['):
-		// should be [type_id, Value]
-		typeID, err := dec.Token()
-		if err != nil {
-			return err
-		}
-
-		var typeCode int8
-
-		switch tid := typeID.(type) {
-		case json.Number:
-			id, err := tid.Int64()
-			if err != nil {
-				return err
-			}
-			typeCode = int8(id)
-		case float64:
-			if tid != float64(int64(tid)) {
-				return &json.UnmarshalTypeError{
-					Offset: dec.InputOffset(),
-					Type:   reflect.TypeOf(int8(0)),
-					Struct: fmt.Sprint(b.Type()),
-					Value:  "float",
-				}
-			}
-			typeCode = int8(tid)
-		}
-
-		childNum := b.typeIDtoChildID[typeCode]
-		if childNum == arrow.InvalidUnionChildID {
-			return &json.UnmarshalTypeError{
-				Offset: dec.InputOffset(),
-				Value:  "invalid type code",
-			}
-		}
-
-		for i, c := range b.children {
-			if i != childNum {
-				c.AppendNull()
-			}
-		}
-
-		b.Append(typeCode)
-		if err := b.children[childNum].UnmarshalOne(dec); err != nil {
-			return err
-		}
-
-		endArr, err := dec.Token()
-		if err != nil {
-			return err
-		}
-
-		if endArr != json.Delim(']') {
-			return &json.UnmarshalTypeError{
-				Offset: dec.InputOffset(),
-				Value:  "union value array should have exactly 2 elements",
-			}
-		}
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Offset: dec.InputOffset(),
-			Value:  fmt.Sprint(t),
-			Struct: fmt.Sprint(b.Type()),
-		}
-	}
-	return nil
-}
-
-// DenseUnionBuilder is used to build a Dense Union array using the Append
-// methods. You can also add new types to the union on the fly by using
-// AppendChild.
-type DenseUnionBuilder struct {
-	unionBuilder
-
-	offsetsBuilder *int32BufferBuilder
-}
-
-// NewEmptyDenseUnionBuilder is a helper to construct a DenseUnionBuilder
-// without having to predefine the union types. It creates a builder with no
-// children and AppendChild will have to be called before appending any
-// elements to this builder.
-func NewEmptyDenseUnionBuilder(mem memory.Allocator) *DenseUnionBuilder {
-	return &DenseUnionBuilder{
-		unionBuilder:   newUnionBuilder(mem, nil, arrow.DenseUnionOf([]arrow.Field{}, []arrow.UnionTypeCode{})),
-		offsetsBuilder: newInt32BufferBuilder(mem),
-	}
-}
-
-// NewDenseUnionBuilder constructs a new DenseUnionBuilder with the provided
-// children and type codes. Builders will be constructed for each child
-// using the fields in typ
-func NewDenseUnionBuilder(mem memory.Allocator, typ *arrow.DenseUnionType) *DenseUnionBuilder {
-	children := make([]Builder, 0, typ.NumFields())
-	defer func() {
-		for _, child := range children {
-			child.Release()
-		}
-	}()
-
-	for _, f := range typ.Fields() {
-		children = append(children, NewBuilder(mem, f.Type))
-	}
-	return NewDenseUnionBuilderWithBuilders(mem, typ, children)
-}
-
-// NewDenseUnionWithBuilders returns a new DenseUnionBuilder using the
-// provided type and builders.
-func NewDenseUnionBuilderWithBuilders(mem memory.Allocator, typ *arrow.DenseUnionType, children []Builder) *DenseUnionBuilder {
-	return &DenseUnionBuilder{
-		unionBuilder:   newUnionBuilder(mem, children, typ),
-		offsetsBuilder: newInt32BufferBuilder(mem),
-	}
-}
-
-func (b *DenseUnionBuilder) Reserve(n int) {
-	b.reserve(n, b.Resize)
-}
-
-func (b *DenseUnionBuilder) Resize(n int) {
-	b.typesBuilder.resize(n)
-	b.offsetsBuilder.resize(n * arrow.Int32SizeBytes)
-}
-
-// AppendNull will only append a null value arbitrarily to the first child
-// and use that offset for this element of the array.
-func (b *DenseUnionBuilder) AppendNull() {
-	firstChildCode := b.codes[0]
-	childBuilder := b.typeIDtoBuilder[firstChildCode]
-	b.typesBuilder.AppendValue(firstChildCode)
-	b.offsetsBuilder.AppendValue(int32(childBuilder.Len()))
-	childBuilder.AppendNull()
-}
-
-// AppendNulls will only append a single null arbitrarily to the first child
-// and use the same offset multiple times to point to it. The result is that
-// for a DenseUnion this is more efficient than calling AppendNull multiple
-// times in a loop
-func (b *DenseUnionBuilder) AppendNulls(n int) {
-	// only append 1 null to the child builder, use the same offset twice
-	firstChildCode := b.codes[0]
-	childBuilder := b.typeIDtoBuilder[firstChildCode]
-	b.Reserve(n)
-	for i := 0; i < n; i++ {
-		b.typesBuilder.AppendValue(firstChildCode)
-		b.offsetsBuilder.AppendValue(int32(childBuilder.Len()))
-	}
-	// only append a single null to the child builder, the offsets all refer to the same value
-	childBuilder.AppendNull()
-}
-
-// AppendEmptyValue only appends an empty value arbitrarily to the first child,
-// and then uses that offset to identify the value.
-func (b *DenseUnionBuilder) AppendEmptyValue() {
-	firstChildCode := b.codes[0]
-	childBuilder := b.typeIDtoBuilder[firstChildCode]
-	b.typesBuilder.AppendValue(firstChildCode)
-	b.offsetsBuilder.AppendValue(int32(childBuilder.Len()))
-	childBuilder.AppendEmptyValue()
-}
-
-// AppendEmptyValues, like AppendNulls, will only append a single empty value
-// (implementation defined) to the first child arbitrarily, and then point
-// at that value using the offsets n times. That makes this more efficient
-// than calling AppendEmptyValue multiple times.
-func (b *DenseUnionBuilder) AppendEmptyValues(n int) {
-	// only append 1 null to the child builder, use the same offset twice
-	firstChildCode := b.codes[0]
-	childBuilder := b.typeIDtoBuilder[firstChildCode]
-	b.Reserve(n)
-	for i := 0; i < n; i++ {
-		b.typesBuilder.AppendValue(firstChildCode)
-		b.offsetsBuilder.AppendValue(int32(childBuilder.Len()))
-	}
-	// only append a single empty value to the child builder, the offsets all
-	// refer to the same value
-	childBuilder.AppendEmptyValue()
-}
-
-// Append appends the necessary offset and type code to the builder
-// and must be followed up with an append to the appropriate child builder
-func (b *DenseUnionBuilder) Append(nextType arrow.UnionTypeCode) {
-	b.typesBuilder.AppendValue(nextType)
-	bldr := b.typeIDtoBuilder[nextType]
-	if bldr.Len() == kMaxElems {
-		panic("a dense UnionArray cannot contain more than 2^31 - 1 elements from a single child")
-	}
-
-	b.offsetsBuilder.AppendValue(int32(bldr.Len()))
-}
-
-func (b *DenseUnionBuilder) Release() {
-	debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&b.refCount, -1) == 0 {
-		for _, c := range b.children {
-			c.Release()
-		}
-		b.typesBuilder.Release()
-		b.offsetsBuilder.Release()
-	}
-}
-
-func (b *DenseUnionBuilder) newData() *Data {
-	data := b.unionBuilder.newData()
-	data.buffers = append(data.buffers, b.offsetsBuilder.Finish())
-	return data
-}
-
-func (b *DenseUnionBuilder) NewArray() arrow.Array {
-	return b.NewDenseUnionArray()
-}
-
-func (b *DenseUnionBuilder) NewDenseUnionArray() (a *DenseUnion) {
-	data := b.newData()
-	a = NewDenseUnionData(data)
-	data.Release()
-	return
-}
-
-func (b *DenseUnionBuilder) UnmarshalJSON(data []byte) (err error) {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("dense union builder must unpack from json array, found %s", t)
-	}
-	return b.Unmarshal(dec)
-}
-
-func (b *DenseUnionBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (d *DenseUnionBuilder) AppendValueFromString(s string) error {
-	if s == NullValueStr {
-		d.AppendNull()
-		return nil
-	}
-	dec := json.NewDecoder(strings.NewReader(s))
-	return d.UnmarshalOne(dec)
-}
-
-func (b *DenseUnionBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch t {
-	case json.Delim('['):
-		// should be [type_id, Value]
-		typeID, err := dec.Token()
-		if err != nil {
-			return err
-		}
-
-		var typeCode int8
-
-		switch tid := typeID.(type) {
-		case json.Number:
-			id, err := tid.Int64()
-			if err != nil {
-				return err
-			}
-			typeCode = int8(id)
-		case float64:
-			if tid != float64(int64(tid)) {
-				return &json.UnmarshalTypeError{
-					Offset: dec.InputOffset(),
-					Type:   reflect.TypeOf(int8(0)),
-					Struct: fmt.Sprint(b.Type()),
-					Value:  "float",
-				}
-			}
-			typeCode = int8(tid)
-		}
-
-		childNum := b.typeIDtoChildID[typeCode]
-		if childNum == arrow.InvalidUnionChildID {
-			return &json.UnmarshalTypeError{
-				Offset: dec.InputOffset(),
-				Value:  "invalid type code",
-			}
-		}
-
-		b.Append(typeCode)
-		if err := b.children[childNum].UnmarshalOne(dec); err != nil {
-			return err
-		}
-
-		endArr, err := dec.Token()
-		if err != nil {
-			return err
-		}
-
-		if endArr != json.Delim(']') {
-			return &json.UnmarshalTypeError{
-				Offset: dec.InputOffset(),
-				Value:  "union value array should have exactly 2 elements",
-			}
-		}
-	case nil:
-		b.AppendNull()
-	default:
-		return &json.UnmarshalTypeError{
-			Offset: dec.InputOffset(),
-			Value:  fmt.Sprint(t),
-			Struct: fmt.Sprint(b.Type()),
-		}
-	}
-	return nil
-}
-
-var (
-	_ arrow.Array  = (*SparseUnion)(nil)
-	_ arrow.Array  = (*DenseUnion)(nil)
-	_ Union        = (*SparseUnion)(nil)
-	_ Union        = (*DenseUnion)(nil)
-	_ Builder      = (*SparseUnionBuilder)(nil)
-	_ Builder      = (*DenseUnionBuilder)(nil)
-	_ UnionBuilder = (*SparseUnionBuilder)(nil)
-	_ UnionBuilder = (*DenseUnionBuilder)(nil)
-)
diff --git a/go/arrow/array/union_test.go b/go/arrow/array/union_test.go
deleted file mode 100644
index 43e7afd693b6c..0000000000000
--- a/go/arrow/array/union_test.go
+++ /dev/null
@@ -1,1117 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-func uint8ArrFromSlice(ids ...uint8) arrow.Array {
-	data := array.NewData(arrow.PrimitiveTypes.Uint8, len(ids),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Uint8Traits.CastToBytes(ids))}, nil, 0, 0)
-	defer data.Release()
-	return array.MakeFromData(data)
-}
-
-func int32ArrFromSlice(offsets ...int32) arrow.Array {
-	data := array.NewData(arrow.PrimitiveTypes.Int32, len(offsets),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(offsets))}, nil, 0, 0)
-	defer data.Release()
-	return array.MakeFromData(data)
-}
-
-func TestUnionSliceEquals(t *testing.T) {
-	unionFields := []arrow.Field{
-		{Name: "u0", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "u1", Type: arrow.PrimitiveTypes.Uint8, Nullable: true},
-	}
-
-	typeCodes := []arrow.UnionTypeCode{5, 10}
-	sparseType := arrow.SparseUnionOf(unionFields, typeCodes)
-	denseType := arrow.DenseUnionOf(unionFields, typeCodes)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "sparse", Type: sparseType, Nullable: true},
-		{Name: "dense", Type: denseType, Nullable: true},
-	}, nil)
-
-	sparseChildren := make([]arrow.Array, 2)
-	denseChildren := make([]arrow.Array, 2)
-
-	const length = 7
-
-	typeIDsBuffer := memory.NewBufferBytes(arrow.Uint8Traits.CastToBytes([]uint8{5, 10, 5, 5, 10, 10, 5}))
-	sparseChildren[0] = int32ArrFromSlice(0, 1, 2, 3, 4, 5, 6)
-	defer sparseChildren[0].Release()
-	sparseChildren[1] = uint8ArrFromSlice(10, 11, 12, 13, 14, 15, 16)
-	defer sparseChildren[1].Release()
-
-	denseChildren[0] = int32ArrFromSlice(0, 2, 3, 7)
-	defer denseChildren[0].Release()
-	denseChildren[1] = uint8ArrFromSlice(11, 14, 15)
-	defer denseChildren[1].Release()
-
-	offsetsBuffer := memory.NewBufferBytes(arrow.Int32Traits.CastToBytes([]int32{0, 0, 1, 2, 1, 2, 3}))
-	sparse := array.NewSparseUnion(sparseType, length, sparseChildren, typeIDsBuffer, 0)
-	dense := array.NewDenseUnion(denseType, length, denseChildren, typeIDsBuffer, offsetsBuffer, 0)
-
-	defer sparse.Release()
-	defer dense.Release()
-
-	batch := array.NewRecord(schema, []arrow.Array{sparse, dense}, -1)
-	defer batch.Release()
-
-	checkUnion := func(arr arrow.Array) {
-		size := arr.Len()
-		slice := array.NewSlice(arr, 2, int64(size))
-		defer slice.Release()
-		assert.EqualValues(t, size-2, slice.Len())
-
-		slice2 := array.NewSlice(arr, 2, int64(arr.Len()))
-		defer slice2.Release()
-		assert.EqualValues(t, size-2, slice2.Len())
-
-		assert.True(t, array.Equal(slice, slice2))
-		assert.True(t, array.SliceEqual(arr, 2, int64(arr.Len()), slice, 0, int64(slice.Len())))
-
-		// chain slices
-		slice2 = array.NewSlice(arr, 1, int64(arr.Len()))
-		defer slice2.Release()
-		slice2 = array.NewSlice(slice2, 1, int64(slice2.Len()))
-		defer slice2.Release()
-		assert.True(t, array.Equal(slice, slice2))
-
-		slice, slice2 = array.NewSlice(arr, 1, 6), array.NewSlice(arr, 1, 6)
-		defer slice.Release()
-		defer slice2.Release()
-		assert.EqualValues(t, 5, slice.Len())
-
-		assert.True(t, array.Equal(slice, slice2))
-		assert.True(t, array.SliceEqual(arr, 1, 6, slice, 0, 5))
-	}
-
-	checkUnion(batch.Column(0))
-	checkUnion(batch.Column(1))
-}
-
-func TestSparseUnionGetFlattenedField(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	ty := arrow.SparseUnionOf([]arrow.Field{
-		{Name: "ints", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "strs", Type: arrow.BinaryTypes.String, Nullable: true},
-	}, []arrow.UnionTypeCode{2, 7})
-	ints, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[0, 1, 2, 3]`))
-	defer ints.Release()
-	strs, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["a", null, "c", "d"]`))
-	defer strs.Release()
-	idsArr, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[2, 7, 2, 7]`))
-	defer idsArr.Release()
-	ids := idsArr.Data().Buffers()[1]
-
-	const length = 4
-
-	t.Run("flattened", func(t *testing.T) {
-		scoped := memory.NewCheckedAllocatorScope(mem)
-		defer scoped.CheckSize(t)
-
-		arr := array.NewSparseUnion(ty, length, []arrow.Array{ints, strs}, ids, 0)
-		defer arr.Release()
-
-		flattened, err := arr.GetFlattenedField(mem, 0)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[0, null, 2, null]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		flattened, err = arr.GetFlattenedField(mem, 1)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`[null, null, null, "d"]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		sliced := array.NewSlice(arr, 1, 3).(*array.SparseUnion)
-		defer sliced.Release()
-
-		flattened, err = sliced.GetFlattenedField(mem, 0)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[null, 2]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		flattened, err = sliced.GetFlattenedField(mem, 1)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`[null, null]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		_, err = arr.GetFlattenedField(mem, -1)
-		assert.Error(t, err)
-		_, err = arr.GetFlattenedField(mem, 2)
-		assert.Error(t, err)
-	})
-
-	t.Run("offset children", func(t *testing.T) {
-		scoped := memory.NewCheckedAllocatorScope(mem)
-		defer scoped.CheckSize(t)
-
-		strSlice, intSlice := array.NewSlice(strs, 1, 3), array.NewSlice(ints, 1, 3)
-		defer strSlice.Release()
-		defer intSlice.Release()
-
-		arr := array.NewSparseUnion(ty, length-2, []arrow.Array{intSlice, strSlice}, ids, 0)
-		defer arr.Release()
-
-		flattened, err := arr.GetFlattenedField(mem, 0)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[1, null]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		flattened, err = arr.GetFlattenedField(mem, 1)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`[null, "c"]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		sliced := array.NewSlice(arr, 1, 2).(*array.SparseUnion)
-		defer sliced.Release()
-
-		flattened, err = sliced.GetFlattenedField(mem, 0)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[null]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		flattened, err = sliced.GetFlattenedField(mem, 1)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["c"]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-	})
-
-	t.Run("empty flattened", func(t *testing.T) {
-		scoped := memory.NewCheckedAllocatorScope(mem)
-		defer scoped.CheckSize(t)
-
-		strSlice, intSlice := array.NewSlice(strs, length, length), array.NewSlice(ints, length, length)
-		defer strSlice.Release()
-		defer intSlice.Release()
-
-		arr := array.NewSparseUnion(ty, 0, []arrow.Array{intSlice, strSlice}, ids, 0)
-		defer arr.Release()
-
-		flattened, err := arr.GetFlattenedField(mem, 0)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-
-		flattened, err = arr.GetFlattenedField(mem, 1)
-		assert.NoError(t, err)
-		defer flattened.Release()
-		expected, _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`[]`))
-		defer expected.Release()
-
-		assert.Truef(t, array.Equal(flattened, expected), "expected: %s, got: %s", expected, flattened)
-	})
-}
-
-func TestSparseUnionValidate(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	a, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[4, 5]`))
-	defer a.Release()
-	dt := arrow.SparseUnionOf([]arrow.Field{{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true}}, []arrow.UnionTypeCode{0})
-	children := []arrow.Array{a}
-
-	typeIDsArr, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[0, 0, 0]`))
-	defer typeIDsArr.Release()
-	typeIDs := typeIDsArr.Data().Buffers()[1]
-
-	arr := array.NewSparseUnion(dt, 2, children, typeIDs, 0)
-	assert.NoError(t, arr.ValidateFull())
-	arr.Release()
-
-	arr = array.NewSparseUnion(dt, 1, children, typeIDs, 1)
-	assert.NoError(t, arr.ValidateFull())
-	arr.Release()
-
-	arr = array.NewSparseUnion(dt, 0, children, typeIDs, 2)
-	assert.NoError(t, arr.ValidateFull())
-	arr.Release()
-
-	// length + offset < child length but that's ok!
-	arr = array.NewSparseUnion(dt, 1, children, typeIDs, 0)
-	assert.NoError(t, arr.ValidateFull())
-	arr.Release()
-
-	// length + offset > child length! BAD!
-	assert.Panics(t, func() {
-		arr = array.NewSparseUnion(dt, 1, children, typeIDs, 2)
-	})
-
-	// offset > child length
-	assert.Panics(t, func() {
-		arr = array.NewSparseUnion(dt, 0, children, typeIDs, 3)
-	})
-}
-
-type UnionFactorySuite struct {
-	suite.Suite
-
-	mem             *memory.CheckedAllocator
-	codes           []arrow.UnionTypeCode
-	typeIDs         arrow.Array
-	logicalTypeIDs  arrow.Array
-	invalidTypeIDs  arrow.Array
-	invalidTypeIDs2 arrow.Array
-}
-
-func (s *UnionFactorySuite) typeidsFromSlice(ids ...int8) arrow.Array {
-	data := array.NewData(arrow.PrimitiveTypes.Int8, len(ids),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Int8Traits.CastToBytes(ids))}, nil, 0, 0)
-	defer data.Release()
-	return array.MakeFromData(data)
-}
-
-func (s *UnionFactorySuite) offsetsFromSlice(offsets ...int32) arrow.Array {
-	data := array.NewData(arrow.PrimitiveTypes.Int32, len(offsets),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(offsets))}, nil, 0, 0)
-	defer data.Release()
-	return array.MakeFromData(data)
-}
-
-func (s *UnionFactorySuite) SetupTest() {
-	s.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	s.codes = []arrow.UnionTypeCode{1, 2, 4, 127}
-	s.typeIDs = s.typeidsFromSlice(0, 1, 2, 0, 1, 3, 2, 0, 2, 1)
-	s.logicalTypeIDs = s.typeidsFromSlice(1, 2, 4, 1, 2, 127, 4, 1, 4, 2)
-	s.invalidTypeIDs = s.typeidsFromSlice(1, 2, 4, 1, -2, 127, 4, 1, 4, 2)
-	s.invalidTypeIDs2 = s.typeidsFromSlice(1, 2, 4, 1, 3, 127, 4, 1, 4, 2)
-}
-
-func (s *UnionFactorySuite) TearDownTest() {
-	s.typeIDs.Release()
-	s.logicalTypeIDs.Release()
-	s.invalidTypeIDs.Release()
-	s.invalidTypeIDs2.Release()
-	s.mem.AssertSize(s.T(), 0)
-}
-
-func (s *UnionFactorySuite) checkFields(arr array.Union, fields []string) {
-	ty := arr.DataType().(arrow.UnionType)
-	s.Len(ty.Fields(), len(fields))
-	for i, f := range ty.Fields() {
-		s.Equal(fields[i], f.Name)
-	}
-}
-
-func (s *UnionFactorySuite) checkCodes(arr array.Union, codes []arrow.UnionTypeCode) {
-	ty := arr.DataType().(arrow.UnionType)
-	s.Equal(codes, ty.TypeCodes())
-}
-
-func (s *UnionFactorySuite) checkUnion(arr array.Union, mode arrow.UnionMode, fields []string, codes []arrow.UnionTypeCode) {
-	s.Equal(mode, arr.Mode())
-	s.checkFields(arr, fields)
-	s.checkCodes(arr, codes)
-	typeIDs := s.typeIDs.(*array.Int8)
-	for i := 0; i < typeIDs.Len(); i++ {
-		s.EqualValues(typeIDs.Value(i), arr.ChildID(i))
-	}
-	s.Nil(arr.Field(-1))
-	s.Nil(arr.Field(typeIDs.Len()))
-}
-
-func (s *UnionFactorySuite) TestMakeDenseUnions() {
-	// typeIDs:                  {0, 1, 2, 0, 1, 3, 2, 0, 2, 1}
-	offsets := s.offsetsFromSlice(0, 0, 0, 1, 1, 0, 1, 2, 1, 2)
-	defer offsets.Release()
-
-	children := make([]arrow.Array, 4)
-	children[0], _, _ = array.FromJSON(s.mem, arrow.BinaryTypes.String, strings.NewReader(`["abc", "def", "xyz"]`))
-	defer children[0].Release()
-	children[1], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Uint8, strings.NewReader(`[10, 20, 30]`))
-	defer children[1].Release()
-	children[2], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64, strings.NewReader(`[1.618, 2.718, 3.142]`))
-	defer children[2].Release()
-	children[3], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[-12]`))
-	defer children[3].Release()
-
-	fieldNames := []string{"str", "int1", "real", "int2"}
-
-	s.Run("without fields and codes", func() {
-		result, err := array.NewDenseUnionFromArrays(s.typeIDs, offsets, children)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.DenseMode, []string{"0", "1", "2", "3"}, []arrow.UnionTypeCode{0, 1, 2, 3})
-	})
-
-	s.Run("with fields", func() {
-		_, err := array.NewDenseUnionFromArraysWithFields(s.typeIDs, offsets, children, []string{"one"})
-		s.Error(err)
-		result, err := array.NewDenseUnionFromArraysWithFields(s.typeIDs, offsets, children, fieldNames)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.DenseMode, fieldNames, []arrow.UnionTypeCode{0, 1, 2, 3})
-	})
-
-	s.Run("with codes", func() {
-		_, err := array.NewDenseUnionFromArrays(s.logicalTypeIDs, offsets, children, 0)
-		s.Error(err)
-		result, err := array.NewDenseUnionFromArrays(s.logicalTypeIDs, offsets, children, s.codes...)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.DenseMode, []string{"0", "1", "2", "3"}, s.codes)
-	})
-
-	s.Run("with fields and codes", func() {
-		_, err := array.NewDenseUnionFromArraysWithFieldCodes(s.logicalTypeIDs, offsets, children, []string{"one"}, s.codes)
-		s.Error(err)
-		result, err := array.NewDenseUnionFromArraysWithFieldCodes(s.logicalTypeIDs, offsets, children, fieldNames, s.codes)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.DenseMode, fieldNames, s.codes)
-	})
-
-	s.Run("invalid type codes", func() {
-		result, err := array.NewDenseUnionFromArrays(s.invalidTypeIDs, offsets, children, s.codes...)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-		result, err = array.NewDenseUnionFromArrays(s.invalidTypeIDs2, offsets, children, s.codes...)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-	})
-
-	s.Run("invalid offsets", func() {
-		// offset out of bounds at index 5
-		invalidOffsets := s.offsetsFromSlice(0, 0, 0, 1, 1, 1, 1, 2, 1, 2)
-		defer invalidOffsets.Release()
-		result, err := array.NewDenseUnionFromArrays(s.typeIDs, invalidOffsets, children)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-
-		// negative offset at index 5
-		invalidOffsets = s.offsetsFromSlice(0, 0, 0, 1, 1, -1, 1, 2, 1, 2)
-		defer invalidOffsets.Release()
-		result, err = array.NewDenseUnionFromArrays(s.typeIDs, invalidOffsets, children)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-
-		// non-monotonic offset at index 3
-		invalidOffsets = s.offsetsFromSlice(1, 0, 0, 0, 1, 0, 1, 2, 1, 2)
-		defer invalidOffsets.Release()
-		result, err = array.NewDenseUnionFromArrays(s.typeIDs, invalidOffsets, children)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-	})
-}
-
-func (s *UnionFactorySuite) TestDenseUnionStringRoundTrip() {
-	// typeIDs:                  {0, 1, 2, 0, 1, 3, 2, 0, 2, 1}
-	offsets := s.offsetsFromSlice(0, 0, 0, 1, 1, 0, 1, 2, 1, 2)
-	defer offsets.Release()
-
-	children := make([]arrow.Array, 4)
-	children[0], _, _ = array.FromJSON(s.mem, arrow.BinaryTypes.String, strings.NewReader(`["abc", "def", "xyz"]`))
-	defer children[0].Release()
-	children[1], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Uint8, strings.NewReader(`[10, 20, 30]`))
-	defer children[1].Release()
-	children[2], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64, strings.NewReader(`[1.618, 2.718, 3.142]`))
-	defer children[2].Release()
-	children[3], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[-12]`))
-	defer children[3].Release()
-
-	fields := []string{"str", "int1", "real", "int2"}
-
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(s.T(), 0)
-
-	dt := arrow.DenseUnionFromArrays(children, fields, s.codes)
-	arr, err := array.NewDenseUnionFromArraysWithFieldCodes(s.logicalTypeIDs, offsets, children, fields, s.codes)
-	s.NoError(err)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewDenseUnionBuilder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		s.NoError(b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.DenseUnion)
-	defer arr1.Release()
-
-	s.True(array.Equal(arr, arr1))
-}
-
-func (s *UnionFactorySuite) TestMakeSparse() {
-	children := make([]arrow.Array, 4)
-	children[0], _, _ = array.FromJSON(s.mem, arrow.BinaryTypes.String,
-		strings.NewReader(`["abc", "", "", "def", "", "", "", "xyz", "", ""]`))
-	children[1], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Uint8,
-		strings.NewReader(`[0, 10, 0, 0, 20, 0, 0, 0, 0, 30]`))
-	children[2], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64,
-		strings.NewReader(`[0.0, 0.0, 1.618, 0.0, 0.0, 0.0, 2.718, 0.0, 3.142, 0.0]`))
-	children[3], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8,
-		strings.NewReader(`[0, 0, 0, 0, 0, -12, 0, 0, 0, 0]`))
-	for _, c := range children {
-		defer c.Release()
-	}
-
-	fieldNames := []string{"str", "int1", "real", "int2"}
-
-	s.Run("without fields and codes", func() {
-		result, err := array.NewSparseUnionFromArrays(s.typeIDs, children)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.SparseMode, []string{"0", "1", "2", "3"}, []arrow.UnionTypeCode{0, 1, 2, 3})
-	})
-
-	s.Run("with fields", func() {
-		_, err := array.NewSparseUnionFromArraysWithFields(s.typeIDs, children, []string{"one"})
-		s.Error(err)
-		result, err := array.NewSparseUnionFromArraysWithFields(s.typeIDs, children, fieldNames)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.SparseMode, fieldNames, []arrow.UnionTypeCode{0, 1, 2, 3})
-	})
-
-	s.Run("with codes", func() {
-		_, err := array.NewSparseUnionFromArrays(s.logicalTypeIDs, children, 0)
-		s.Error(err)
-		result, err := array.NewSparseUnionFromArrays(s.logicalTypeIDs, children, s.codes...)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.SparseMode, []string{"0", "1", "2", "3"}, s.codes)
-	})
-
-	s.Run("with fields and codes", func() {
-		_, err := array.NewSparseUnionFromArraysWithFieldCodes(s.logicalTypeIDs, children, []string{"one"}, s.codes)
-		s.Error(err)
-		result, err := array.NewSparseUnionFromArraysWithFieldCodes(s.logicalTypeIDs, children, fieldNames, s.codes)
-		s.NoError(err)
-		defer result.Release()
-		s.NoError(result.ValidateFull())
-		s.checkUnion(result, arrow.SparseMode, fieldNames, s.codes)
-	})
-
-	s.Run("invalid type codes", func() {
-		result, err := array.NewSparseUnionFromArrays(s.invalidTypeIDs, children, s.codes...)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-		result, err = array.NewSparseUnionFromArrays(s.invalidTypeIDs2, children, s.codes...)
-		s.NoError(err)
-		defer result.Release()
-		s.Error(result.ValidateFull())
-	})
-
-	s.Run("invalid child length", func() {
-		children[3], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8,
-			strings.NewReader(`[0, 0, 0, 0, 0, -12, 0, 0, 0]`))
-		defer children[3].Release()
-
-		_, err := array.NewSparseUnionFromArrays(s.typeIDs, children)
-		s.Error(err)
-	})
-}
-
-func (s *UnionFactorySuite) TestSparseUnionStringRoundTrip() {
-	children := make([]arrow.Array, 4)
-	children[0], _, _ = array.FromJSON(s.mem, arrow.BinaryTypes.String,
-		strings.NewReader(`["abc", "", "", "def", "", "", "", "xyz", "", ""]`))
-	defer children[0].Release()
-	children[1], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Uint8,
-		strings.NewReader(`[0, 10, 0, 0, 20, 0, 0, 0, 0, 30]`))
-	defer children[1].Release()
-	children[2], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64,
-		strings.NewReader(`[0.0, 0.0, 1.618, 0.0, 0.0, 0.0, 2.718, 0.0, 3.142, 0.0]`))
-	defer children[2].Release()
-	children[3], _, _ = array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8,
-		strings.NewReader(`[0, 0, 0, 0, 0, -12, 0, 0, 0, 0]`))
-	defer children[3].Release()
-
-	fields := []string{"str", "int1", "real", "int2"}
-
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(s.T(), 0)
-
-	dt := arrow.SparseUnionFromArrays(children, fields, s.codes)
-
-	arr, err := array.NewSparseUnionFromArraysWithFieldCodes(s.logicalTypeIDs, children, fields, s.codes)
-	s.NoError(err)
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := array.NewSparseUnionBuilder(mem, dt)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		s.NoError(b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray().(*array.SparseUnion)
-	defer arr1.Release()
-
-	s.True(array.Equal(arr, arr1))
-}
-
-type UnionBuilderSuite struct {
-	suite.Suite
-
-	I8  arrow.UnionTypeCode
-	STR arrow.UnionTypeCode
-	DBL arrow.UnionTypeCode
-
-	mem              *memory.CheckedAllocator
-	expectedTypes    []arrow.UnionTypeCode
-	expectedTypesArr arrow.Array
-	i8Bldr           *array.Int8Builder
-	strBldr          *array.StringBuilder
-	dblBldr          *array.Float64Builder
-	unionBldr        array.UnionBuilder
-	actual           array.Union
-}
-
-func (s *UnionBuilderSuite) SetupTest() {
-	s.I8, s.STR, s.DBL = 8, 13, 7
-
-	s.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	s.expectedTypes = make([]arrow.UnionTypeCode, 0)
-
-	s.i8Bldr = array.NewInt8Builder(s.mem)
-	s.strBldr = array.NewStringBuilder(s.mem)
-	s.dblBldr = array.NewFloat64Builder(s.mem)
-}
-
-func (s *UnionBuilderSuite) TearDownTest() {
-	if s.expectedTypesArr != nil {
-		s.expectedTypesArr.Release()
-		s.expectedTypesArr = nil
-	}
-	s.i8Bldr.Release()
-	s.strBldr.Release()
-	s.dblBldr.Release()
-	if s.actual != nil {
-		s.actual.Release()
-		s.actual = nil
-	}
-
-	s.mem.AssertSize(s.T(), 0)
-}
-
-func (s *UnionBuilderSuite) createExpectedTypesArr() {
-	data := array.NewData(arrow.PrimitiveTypes.Int8, len(s.expectedTypes),
-		[]*memory.Buffer{nil, memory.NewBufferBytes(arrow.Int8Traits.CastToBytes(s.expectedTypes))}, nil, 0, 0)
-	defer data.Release()
-	s.expectedTypesArr = array.MakeFromData(data)
-}
-
-func (s *UnionBuilderSuite) appendInt(i int8) {
-	s.expectedTypes = append(s.expectedTypes, s.I8)
-	s.unionBldr.Append(s.I8)
-	s.i8Bldr.Append(i)
-	if s.unionBldr.Mode() == arrow.SparseMode {
-		s.strBldr.AppendEmptyValue()
-		s.dblBldr.AppendEmptyValue()
-	}
-}
-
-func (s *UnionBuilderSuite) appendString(str string) {
-	s.expectedTypes = append(s.expectedTypes, s.STR)
-	s.unionBldr.Append(s.STR)
-	s.strBldr.Append(str)
-	if s.unionBldr.Mode() == arrow.SparseMode {
-		s.i8Bldr.AppendEmptyValue()
-		s.dblBldr.AppendEmptyValue()
-	}
-}
-
-func (s *UnionBuilderSuite) appendDbl(dbl float64) {
-	s.expectedTypes = append(s.expectedTypes, s.DBL)
-	s.unionBldr.Append(s.DBL)
-	s.dblBldr.Append(dbl)
-	if s.unionBldr.Mode() == arrow.SparseMode {
-		s.strBldr.AppendEmptyValue()
-		s.i8Bldr.AppendEmptyValue()
-	}
-}
-
-func (s *UnionBuilderSuite) appendBasics() {
-	s.appendInt(33)
-	s.appendString("abc")
-	s.appendDbl(1.0)
-	s.appendDbl(-1.0)
-	s.appendString("")
-	s.appendInt(10)
-	s.appendString("def")
-	s.appendInt(-10)
-	s.appendDbl(0.5)
-
-	s.Equal(9, s.unionBldr.Len())
-
-	s.actual = s.unionBldr.NewArray().(array.Union)
-	s.NoError(s.actual.ValidateFull())
-	s.createExpectedTypesArr()
-}
-
-func (s *UnionBuilderSuite) appendNullsAndEmptyValues() {
-	s.appendString("abc")
-	s.unionBldr.AppendNull()
-	s.unionBldr.AppendEmptyValue()
-	s.expectedTypes = append(s.expectedTypes, s.I8, s.I8, s.I8)
-	s.appendInt(42)
-	s.unionBldr.AppendNulls(2)
-	s.unionBldr.AppendEmptyValues(2)
-	s.expectedTypes = append(s.expectedTypes, s.I8, s.I8, s.I8)
-
-	s.Equal(8, s.unionBldr.Len())
-
-	s.actual = s.unionBldr.NewArray().(array.Union)
-	s.NoError(s.actual.ValidateFull())
-	s.createExpectedTypesArr()
-}
-
-func (s *UnionBuilderSuite) appendInferred() {
-	s.I8 = s.unionBldr.AppendChild(s.i8Bldr, "i8")
-	s.EqualValues(0, s.I8)
-	s.appendInt(33)
-	s.appendInt(10)
-
-	s.STR = s.unionBldr.AppendChild(s.strBldr, "str")
-	s.EqualValues(1, s.STR)
-	s.appendString("abc")
-	s.appendString("")
-	s.appendString("def")
-	s.appendInt(-10)
-
-	s.DBL = s.unionBldr.AppendChild(s.dblBldr, "dbl")
-	s.EqualValues(2, s.DBL)
-	s.appendDbl(1.0)
-	s.appendDbl(-1.0)
-	s.appendDbl(0.5)
-
-	s.Equal(9, s.unionBldr.Len())
-
-	s.actual = s.unionBldr.NewArray().(array.Union)
-	s.NoError(s.actual.ValidateFull())
-	s.createExpectedTypesArr()
-
-	s.EqualValues(0, s.I8)
-	s.EqualValues(1, s.STR)
-	s.EqualValues(2, s.DBL)
-}
-
-func (s *UnionBuilderSuite) appendListOfInferred(utyp arrow.UnionType) *array.List {
-	listBldr := array.NewListBuilder(s.mem, utyp)
-	defer listBldr.Release()
-
-	s.unionBldr = listBldr.ValueBuilder().(array.UnionBuilder)
-
-	listBldr.Append(true)
-	s.I8 = s.unionBldr.AppendChild(s.i8Bldr, "i8")
-	s.EqualValues(0, s.I8)
-	s.appendInt(10)
-
-	listBldr.Append(true)
-	s.STR = s.unionBldr.AppendChild(s.strBldr, "str")
-	s.EqualValues(1, s.STR)
-	s.appendString("abc")
-	s.appendInt(-10)
-
-	listBldr.Append(true)
-	s.DBL = s.unionBldr.AppendChild(s.dblBldr, "dbl")
-	s.EqualValues(2, s.DBL)
-	s.appendDbl(0.5)
-
-	s.Equal(4, s.unionBldr.Len())
-
-	s.createExpectedTypesArr()
-	return listBldr.NewListArray()
-}
-
-func (s *UnionBuilderSuite) assertArraysEqual(expected, actual arrow.Array) {
-	s.Truef(array.Equal(expected, actual), "expected: %s, got: %s", expected, actual)
-}
-
-func (s *UnionBuilderSuite) TestDenseUnionBasics() {
-	s.unionBldr = array.NewDenseUnionBuilderWithBuilders(s.mem,
-		arrow.DenseUnionOf([]arrow.Field{
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-			{Name: "dbl", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		}, []arrow.UnionTypeCode{s.I8, s.STR, s.DBL}),
-		[]array.Builder{s.i8Bldr, s.strBldr, s.dblBldr})
-	defer s.unionBldr.Release()
-
-	s.appendBasics()
-
-	expectedI8, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[33, 10, -10]`))
-	expectedStr, _, _ := array.FromJSON(s.mem, arrow.BinaryTypes.String, strings.NewReader(`["abc", "", "def"]`))
-	expectedDbl, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64, strings.NewReader(`[1.0, -1.0, 0.5]`))
-	expectedOffsets, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 0, 0, 1, 1, 1, 2, 2, 2]`))
-
-	defer func() {
-		expectedI8.Release()
-		expectedStr.Release()
-		expectedDbl.Release()
-		expectedOffsets.Release()
-	}()
-
-	expected, err := array.NewDenseUnionFromArraysWithFieldCodes(s.expectedTypesArr,
-		expectedOffsets,
-		[]arrow.Array{expectedI8, expectedStr, expectedDbl},
-		[]string{"i8", "str", "dbl"},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL})
-	s.NoError(err)
-	defer expected.Release()
-
-	s.Equal(expected.DataType().String(), s.actual.DataType().String())
-	s.assertArraysEqual(expected, s.actual)
-}
-
-func (s *UnionBuilderSuite) TestDenseBuilderNullsAndEmpty() {
-	s.unionBldr = array.NewDenseUnionBuilderWithBuilders(s.mem,
-		arrow.DenseUnionOf([]arrow.Field{
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-			{Name: "dbl", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		}, []arrow.UnionTypeCode{s.I8, s.STR, s.DBL}),
-		[]array.Builder{s.i8Bldr, s.strBldr, s.dblBldr})
-	defer s.unionBldr.Release()
-
-	s.appendNullsAndEmptyValues()
-
-	// four null / empty values (the latter implementation-defined) appended to I8
-	expectedI8, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[null, 0, 42, null, 0]`))
-	expectedStr, _, _ := array.FromJSON(s.mem, arrow.BinaryTypes.String, strings.NewReader(`["abc"]`))
-	expectedDbl, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64, strings.NewReader(`[]`))
-	expectedOffsets, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 0, 1, 2, 3, 3, 4, 4]`))
-
-	defer func() {
-		expectedI8.Release()
-		expectedStr.Release()
-		expectedDbl.Release()
-		expectedOffsets.Release()
-	}()
-
-	expected, err := array.NewDenseUnionFromArraysWithFieldCodes(s.expectedTypesArr,
-		expectedOffsets,
-		[]arrow.Array{expectedI8, expectedStr, expectedDbl},
-		[]string{"i8", "str", "dbl"},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL})
-	s.NoError(err)
-	defer expected.Release()
-
-	s.Equal(expected.DataType().String(), s.actual.DataType().String())
-	s.assertArraysEqual(expected, s.actual)
-
-	// physical arrays must be as expected
-	s.assertArraysEqual(expectedI8, s.actual.Field(0))
-	s.assertArraysEqual(expectedStr, s.actual.Field(1))
-	s.assertArraysEqual(expectedDbl, s.actual.Field(2))
-}
-
-func (s *UnionBuilderSuite) TestDenseUnionInferredTyped() {
-	s.unionBldr = array.NewEmptyDenseUnionBuilder(s.mem)
-	defer s.unionBldr.Release()
-
-	s.appendInferred()
-
-	expectedI8, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[33, 10, -10]`))
-	expectedStr, _, _ := array.FromJSON(s.mem, arrow.BinaryTypes.String, strings.NewReader(`["abc", "", "def"]`))
-	expectedDbl, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64, strings.NewReader(`[1.0, -1.0, 0.5]`))
-	expectedOffsets, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 1, 0, 1, 2, 2, 0, 1, 2]`))
-
-	defer func() {
-		expectedI8.Release()
-		expectedStr.Release()
-		expectedDbl.Release()
-		expectedOffsets.Release()
-	}()
-
-	expected, err := array.NewDenseUnionFromArraysWithFieldCodes(s.expectedTypesArr,
-		expectedOffsets,
-		[]arrow.Array{expectedI8, expectedStr, expectedDbl},
-		[]string{"i8", "str", "dbl"},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL})
-	s.NoError(err)
-	defer expected.Release()
-
-	s.Equal(expected.DataType().String(), s.actual.DataType().String())
-	s.assertArraysEqual(expected, s.actual)
-}
-
-func (s *UnionBuilderSuite) TestDenseUnionListOfInferredType() {
-	actual := s.appendListOfInferred(arrow.DenseUnionOf([]arrow.Field{}, []arrow.UnionTypeCode{}))
-	defer actual.Release()
-
-	expectedType := arrow.ListOf(arrow.DenseUnionOf(
-		[]arrow.Field{
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-			{Name: "dbl", Type: arrow.PrimitiveTypes.Float64, Nullable: true}},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL}))
-	s.Equal(expectedType.String(), actual.DataType().String())
-}
-
-func (s *UnionBuilderSuite) TestSparseUnionBasics() {
-	s.unionBldr = array.NewSparseUnionBuilderWithBuilders(s.mem,
-		arrow.SparseUnionOf([]arrow.Field{
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-			{Name: "dbl", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		}, []arrow.UnionTypeCode{s.I8, s.STR, s.DBL}),
-		[]array.Builder{s.i8Bldr, s.strBldr, s.dblBldr})
-	defer s.unionBldr.Release()
-
-	s.appendBasics()
-
-	expectedI8, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8,
-		strings.NewReader(`[33, null, null, null, null, 10, null, -10, null]`))
-	expectedStr, _, _ := array.FromJSON(s.mem, arrow.BinaryTypes.String,
-		strings.NewReader(`[null, "abc", null, null, "", null, "def", null, null]`))
-	expectedDbl, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64,
-		strings.NewReader(`[null, null, 1.0, -1.0, null, null, null, null, 0.5]`))
-
-	defer func() {
-		expectedI8.Release()
-		expectedStr.Release()
-		expectedDbl.Release()
-	}()
-
-	expected, err := array.NewSparseUnionFromArraysWithFieldCodes(s.expectedTypesArr,
-		[]arrow.Array{expectedI8, expectedStr, expectedDbl},
-		[]string{"i8", "str", "dbl"},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL})
-	s.NoError(err)
-	defer expected.Release()
-
-	s.Equal(expected.DataType().String(), s.actual.DataType().String())
-	s.assertArraysEqual(expected, s.actual)
-}
-
-func (s *UnionBuilderSuite) TestSparseBuilderNullsAndEmpty() {
-	s.unionBldr = array.NewSparseUnionBuilderWithBuilders(s.mem,
-		arrow.SparseUnionOf([]arrow.Field{
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-			{Name: "dbl", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		}, []arrow.UnionTypeCode{s.I8, s.STR, s.DBL}),
-		[]array.Builder{s.i8Bldr, s.strBldr, s.dblBldr})
-	defer s.unionBldr.Release()
-
-	s.appendNullsAndEmptyValues()
-
-	// "abc", null, 0, 42, null, null, 0, 0
-	// getting 0 for empty values is implementation-defined
-	expectedI8, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8,
-		strings.NewReader(`[0, null, 0, 42, null, null, 0, 0]`))
-	expectedStr, _, _ := array.FromJSON(s.mem, arrow.BinaryTypes.String,
-		strings.NewReader(`["abc", "", "", "", "", "", "", ""]`))
-	expectedDbl, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64,
-		strings.NewReader(`[0, 0, 0, 0, 0, 0, 0, 0]`))
-
-	defer func() {
-		expectedI8.Release()
-		expectedStr.Release()
-		expectedDbl.Release()
-	}()
-
-	expected, err := array.NewSparseUnionFromArraysWithFieldCodes(s.expectedTypesArr,
-		[]arrow.Array{expectedI8, expectedStr, expectedDbl},
-		[]string{"i8", "str", "dbl"},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL})
-	s.NoError(err)
-	defer expected.Release()
-
-	s.Equal(expected.DataType().String(), s.actual.DataType().String())
-	s.assertArraysEqual(expected, s.actual)
-
-	// physical arrays must be as expected
-	s.assertArraysEqual(expectedI8, s.actual.Field(0))
-	s.assertArraysEqual(expectedStr, s.actual.Field(1))
-	s.assertArraysEqual(expectedDbl, s.actual.Field(2))
-}
-
-func (s *UnionBuilderSuite) TestSparseUnionInferredType() {
-	s.unionBldr = array.NewEmptySparseUnionBuilder(s.mem)
-	defer s.unionBldr.Release()
-
-	s.appendInferred()
-
-	expectedI8, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Int8,
-		strings.NewReader(`[33, 10, null, null, null, -10, null, null, null]`))
-	expectedStr, _, _ := array.FromJSON(s.mem, arrow.BinaryTypes.String,
-		strings.NewReader(`[null, null, "abc", "", "def", null, null, null, null]`))
-	expectedDbl, _, _ := array.FromJSON(s.mem, arrow.PrimitiveTypes.Float64,
-		strings.NewReader(`[null, null, null, null, null, null,1.0, -1.0, 0.5]`))
-
-	defer func() {
-		expectedI8.Release()
-		expectedStr.Release()
-		expectedDbl.Release()
-	}()
-
-	expected, err := array.NewSparseUnionFromArraysWithFieldCodes(s.expectedTypesArr,
-		[]arrow.Array{expectedI8, expectedStr, expectedDbl},
-		[]string{"i8", "str", "dbl"},
-		[]arrow.UnionTypeCode{s.I8, s.STR, s.DBL})
-	s.NoError(err)
-	defer expected.Release()
-
-	s.Equal(expected.DataType().String(), s.actual.DataType().String())
-	s.assertArraysEqual(expected, s.actual)
-}
-
-func (s *UnionBuilderSuite) TestSparseUnionStructWithUnion() {
-	bldr := array.NewStructBuilder(s.mem, arrow.StructOf(arrow.Field{Name: "u", Type: arrow.SparseUnionFromArrays(nil, nil, nil)}))
-	defer bldr.Release()
-
-	unionBldr := bldr.FieldBuilder(0).(array.UnionBuilder)
-	int32Bldr := array.NewInt32Builder(s.mem)
-	defer int32Bldr.Release()
-
-	s.EqualValues(0, unionBldr.AppendChild(int32Bldr, "i"))
-	expectedType := arrow.StructOf(arrow.Field{Name: "u",
-		Type: arrow.SparseUnionOf([]arrow.Field{{Name: "i", Type: arrow.PrimitiveTypes.Int32, Nullable: true}}, []arrow.UnionTypeCode{0})})
-	s.Truef(arrow.TypeEqual(expectedType, bldr.Type()), "expected: %s, got: %s", expectedType, bldr.Type())
-}
-
-func ExampleSparseUnionBuilder() {
-	dt1 := arrow.SparseUnionOf([]arrow.Field{
-		{Name: "c", Type: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: arrow.BinaryTypes.String}},
-	}, []arrow.UnionTypeCode{0})
-	dt2 := arrow.StructOf(arrow.Field{Name: "a", Type: dt1})
-
-	pool := memory.DefaultAllocator
-	bldr := array.NewStructBuilder(pool, dt2)
-	defer bldr.Release()
-
-	bldrDt1 := bldr.FieldBuilder(0).(*array.SparseUnionBuilder)
-	binDictBldr := bldrDt1.Child(0).(*array.BinaryDictionaryBuilder)
-
-	bldr.Append(true)
-	bldrDt1.Append(0)
-	binDictBldr.AppendString("foo")
-
-	bldr.Append(true)
-	bldrDt1.Append(0)
-	binDictBldr.AppendString("bar")
-
-	out := bldr.NewArray().(*array.Struct)
-	defer out.Release()
-
-	fmt.Println(out)
-
-	// Output:
-	// {[{c=foo} {c=bar}]}
-}
-
-func TestUnions(t *testing.T) {
-	suite.Run(t, new(UnionFactorySuite))
-	suite.Run(t, new(UnionBuilderSuite))
-}
-
-func TestNestedUnionStructDict(t *testing.T) {
-	// ARROW-18274
-	dt1 := arrow.SparseUnionOf([]arrow.Field{
-		{Name: "c", Type: &arrow.DictionaryType{
-			IndexType: arrow.PrimitiveTypes.Uint16,
-			ValueType: arrow.BinaryTypes.String,
-			Ordered:   false,
-		}},
-	}, []arrow.UnionTypeCode{0})
-	dt2 := arrow.StructOf(
-		arrow.Field{Name: "b", Type: dt1},
-	)
-	dt3 := arrow.SparseUnionOf([]arrow.Field{
-		{Name: "a", Type: dt2},
-	}, []arrow.UnionTypeCode{0})
-	pool := memory.NewGoAllocator()
-
-	builder := array.NewSparseUnionBuilder(pool, dt3)
-	defer builder.Release()
-	arr := builder.NewArray()
-	defer arr.Release()
-	assert.Equal(t, 0, arr.Len())
-}
-
-func TestNestedUnionDictUnion(t *testing.T) {
-	dt1 := arrow.SparseUnionOf([]arrow.Field{
-		{Name: "c", Type: &arrow.DictionaryType{
-			IndexType: arrow.PrimitiveTypes.Uint16,
-			ValueType: arrow.BinaryTypes.String,
-			Ordered:   false,
-		}},
-	}, []arrow.UnionTypeCode{0})
-	dt2 := arrow.SparseUnionOf([]arrow.Field{
-		{Name: "a", Type: dt1},
-	}, []arrow.UnionTypeCode{0})
-	pool := memory.NewGoAllocator()
-
-	builder := array.NewSparseUnionBuilder(pool, dt2)
-	defer builder.Release()
-	arr := builder.NewArray()
-	defer arr.Release()
-	assert.Equal(t, 0, arr.Len())
-}
diff --git a/go/arrow/array/util.go b/go/arrow/array/util.go
deleted file mode 100644
index 2b41dadaf4bfc..0000000000000
--- a/go/arrow/array/util.go
+++ /dev/null
@@ -1,523 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array
-
-import (
-	"errors"
-	"fmt"
-	"io"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/hashing"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-func min(a, b int) int {
-	if a < b {
-		return a
-	}
-	return b
-}
-
-type fromJSONCfg struct {
-	multiDocument bool
-	startOffset   int64
-	useNumber     bool
-}
-
-type FromJSONOption func(*fromJSONCfg)
-
-func WithMultipleDocs() FromJSONOption {
-	return func(c *fromJSONCfg) {
-		c.multiDocument = true
-	}
-}
-
-// WithStartOffset attempts to start decoding from the reader at the offset
-// passed in. If using this option the reader must fulfill the io.ReadSeeker
-// interface, or else an error will be returned.
-//
-// It will call Seek(off, io.SeekStart) on the reader
-func WithStartOffset(off int64) FromJSONOption {
-	return func(c *fromJSONCfg) {
-		c.startOffset = off
-	}
-}
-
-// WithUseNumber enables the 'UseNumber' option on the json decoder, using
-// the json.Number type instead of assuming float64 for numbers. This is critical
-// if you have numbers that are larger than what can fit into the 53 bits of
-// an IEEE float64 mantissa and want to preserve its value.
-func WithUseNumber() FromJSONOption {
-	return func(c *fromJSONCfg) {
-		c.useNumber = true
-	}
-}
-
-// FromJSON creates an arrow.Array from a corresponding JSON stream and defined data type. If the types in the
-// json do not match the type provided, it will return errors. This is *not* the integration test format
-// and should not be used as such. This intended to be used by consumers more similarly to the current exposing of
-// the csv reader/writer. It also returns the input offset in the reader where it finished decoding since buffering
-// by the decoder could leave the reader's cursor past where the parsing finished if attempting to parse multiple json
-// arrays from one stream.
-//
-// All the Array types implement json.Marshaller and thus can be written to json
-// using the json.Marshal function
-//
-// The JSON provided must be formatted in one of two ways:
-//
-//	Default: the top level of the json must be a list which matches the type specified exactly
-//	Example: `[1, 2, 3, 4, 5]` for any integer type or `[[...], null, [], .....]` for a List type
-//				Struct arrays are represented a list of objects: `[{"foo": 1, "bar": "moo"}, {"foo": 5, "bar": "baz"}]`
-//
-//	Using WithMultipleDocs:
-//		If the JSON provided is multiple newline separated json documents, then use this option
-//		and each json document will be treated as a single row of the array. This is most useful for record batches
-//		and interacting with other processes that use json. For example:
-//			`{"col1": 1, "col2": "row1", "col3": ...}\n{"col1": 2, "col2": "row2", "col3": ...}\n.....`
-//
-// Duration values get formated upon marshalling as a string consisting of their numeric
-// value followed by the unit suffix such as "10s" for a value of 10 and unit of Seconds.
-// with "ms" for millisecond, "us" for microsecond, and "ns" for nanosecond as the suffixes.
-// Unmarshalling duration values is more permissive since it first tries to use Go's
-// time.ParseDuration function which means it allows values in the form 3h25m0.3s in addition
-// to the same values which are output.
-//
-// Interval types are marshalled / unmarshalled as follows:
-//
-//	 MonthInterval is marshalled as an object with the format:
-//		 { "months": #}
-//	 DayTimeInterval is marshalled using Go's regular marshalling of structs:
-//		 { "days": #, "milliseconds": # }
-//	 MonthDayNanoInterval values are marshalled the same as DayTime using Go's struct marshalling:
-//	  { "months": #, "days": #, "nanoseconds": # }
-//
-// Times use a format of HH:MM or HH:MM:SS[.zzz] where the fractions of a second cannot
-// exceed the precision allowed by the time unit, otherwise unmarshalling will error.
-//
-// # Dates use YYYY-MM-DD format
-//
-// Timestamps use RFC3339Nano format except without a timezone, all of the following are valid:
-//
-//		YYYY-MM-DD
-//		YYYY-MM-DD[T]HH
-//		YYYY-MM-DD[T]HH:MM
-//	 YYYY-MM-DD[T]HH:MM:SS[.zzzzzzzzzz]
-//
-// The fractions of a second cannot exceed the precision allowed by the timeunit of the datatype.
-//
-// When processing structs as objects order of keys does not matter, but keys cannot be repeated.
-func FromJSON(mem memory.Allocator, dt arrow.DataType, r io.Reader, opts ...FromJSONOption) (arr arrow.Array, offset int64, err error) {
-	var cfg fromJSONCfg
-	for _, o := range opts {
-		o(&cfg)
-	}
-
-	if cfg.startOffset != 0 {
-		seeker, ok := r.(io.ReadSeeker)
-		if !ok {
-			return nil, 0, errors.New("using StartOffset option requires reader to be a ReadSeeker, cannot seek")
-		}
-
-		seeker.Seek(cfg.startOffset, io.SeekStart)
-	}
-
-	bldr := NewBuilder(mem, dt)
-	defer bldr.Release()
-
-	dec := json.NewDecoder(r)
-	defer func() {
-		if errors.Is(err, io.EOF) {
-			err = fmt.Errorf("failed parsing json: %w", io.ErrUnexpectedEOF)
-		}
-	}()
-
-	if cfg.useNumber {
-		dec.UseNumber()
-	}
-
-	if !cfg.multiDocument {
-		t, err := dec.Token()
-		if err != nil {
-			return nil, dec.InputOffset(), err
-		}
-
-		if delim, ok := t.(json.Delim); !ok || delim != '[' {
-			return nil, dec.InputOffset(), fmt.Errorf("json doc must be an array, found %s", delim)
-		}
-	}
-
-	if err = bldr.Unmarshal(dec); err != nil {
-		return nil, dec.InputOffset(), err
-	}
-
-	if !cfg.multiDocument {
-		// consume the last ']'
-		if _, err = dec.Token(); err != nil {
-			return nil, dec.InputOffset(), err
-		}
-	}
-
-	return bldr.NewArray(), dec.InputOffset(), nil
-}
-
-// RecordToStructArray constructs a struct array from the columns of the record batch
-// by referencing them, zero-copy.
-func RecordToStructArray(rec arrow.Record) *Struct {
-	cols := make([]arrow.ArrayData, rec.NumCols())
-	for i, c := range rec.Columns() {
-		cols[i] = c.Data()
-	}
-
-	data := NewData(arrow.StructOf(rec.Schema().Fields()...), int(rec.NumRows()), []*memory.Buffer{nil}, cols, 0, 0)
-	defer data.Release()
-
-	return NewStructData(data)
-}
-
-// RecordFromStructArray is a convenience function for converting a struct array into
-// a record batch without copying the data. If the passed in schema is nil, the fields
-// of the struct will be used to define the record batch. Otherwise the passed in
-// schema will be used to create the record batch. If passed in, the schema must match
-// the fields of the struct column.
-func RecordFromStructArray(in *Struct, schema *arrow.Schema) arrow.Record {
-	if schema == nil {
-		schema = arrow.NewSchema(in.DataType().(*arrow.StructType).Fields(), nil)
-	}
-
-	return NewRecord(schema, in.fields, int64(in.Len()))
-}
-
-// RecordFromJSON creates a record batch from JSON data. See array.FromJSON for the details
-// of formatting and logic.
-//
-// A record batch from JSON is equivalent to reading a struct array in from json and then
-// converting it to a record batch.
-func RecordFromJSON(mem memory.Allocator, schema *arrow.Schema, r io.Reader, opts ...FromJSONOption) (arrow.Record, int64, error) {
-	st := arrow.StructOf(schema.Fields()...)
-	arr, off, err := FromJSON(mem, st, r, opts...)
-	if err != nil {
-		return nil, off, err
-	}
-	defer arr.Release()
-
-	return RecordFromStructArray(arr.(*Struct), schema), off, nil
-}
-
-// RecordToJSON writes out the given record following the format of each row is a single object
-// on a single line of the output.
-func RecordToJSON(rec arrow.Record, w io.Writer) error {
-	enc := json.NewEncoder(w)
-
-	fields := rec.Schema().Fields()
-
-	cols := make(map[string]interface{})
-	for i := 0; int64(i) < rec.NumRows(); i++ {
-		for j, c := range rec.Columns() {
-			cols[fields[j].Name] = c.GetOneForMarshal(i)
-		}
-		if err := enc.Encode(cols); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func TableFromJSON(mem memory.Allocator, sc *arrow.Schema, recJSON []string, opt ...FromJSONOption) (arrow.Table, error) {
-	batches := make([]arrow.Record, len(recJSON))
-	for i, batchJSON := range recJSON {
-		batch, _, err := RecordFromJSON(mem, sc, strings.NewReader(batchJSON), opt...)
-		if err != nil {
-			return nil, err
-		}
-		defer batch.Release()
-		batches[i] = batch
-	}
-	return NewTableFromRecords(sc, batches), nil
-}
-
-func GetDictArrayData(mem memory.Allocator, valueType arrow.DataType, memoTable hashing.MemoTable, startOffset int) (*Data, error) {
-	dictLen := memoTable.Size() - startOffset
-	buffers := []*memory.Buffer{nil, nil}
-
-	buffers[1] = memory.NewResizableBuffer(mem)
-	defer buffers[1].Release()
-
-	switch tbl := memoTable.(type) {
-	case hashing.NumericMemoTable:
-		nbytes := tbl.TypeTraits().BytesRequired(dictLen)
-		buffers[1].Resize(nbytes)
-		tbl.WriteOutSubset(startOffset, buffers[1].Bytes())
-	case *hashing.BinaryMemoTable:
-		switch valueType.ID() {
-		case arrow.BINARY, arrow.STRING:
-			buffers = append(buffers, memory.NewResizableBuffer(mem))
-			defer buffers[2].Release()
-
-			buffers[1].Resize(arrow.Int32Traits.BytesRequired(dictLen + 1))
-			offsets := arrow.Int32Traits.CastFromBytes(buffers[1].Bytes())
-			tbl.CopyOffsetsSubset(startOffset, offsets)
-
-			valuesz := offsets[len(offsets)-1] - offsets[0]
-			buffers[2].Resize(int(valuesz))
-			tbl.CopyValuesSubset(startOffset, buffers[2].Bytes())
-		case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-			buffers = append(buffers, memory.NewResizableBuffer(mem))
-			defer buffers[2].Release()
-
-			buffers[1].Resize(arrow.Int64Traits.BytesRequired(dictLen + 1))
-			offsets := arrow.Int64Traits.CastFromBytes(buffers[1].Bytes())
-			tbl.CopyLargeOffsetsSubset(startOffset, offsets)
-
-			valuesz := offsets[len(offsets)-1] - offsets[0]
-			buffers[2].Resize(int(valuesz))
-			tbl.CopyValuesSubset(startOffset, buffers[2].Bytes())
-		default: // fixed size
-			bw := int(bitutil.BytesForBits(int64(valueType.(arrow.FixedWidthDataType).BitWidth())))
-			buffers[1].Resize(dictLen * bw)
-			tbl.CopyFixedWidthValues(startOffset, bw, buffers[1].Bytes())
-		}
-	default:
-		return nil, fmt.Errorf("arrow/array: dictionary unifier unimplemented type: %s", valueType)
-	}
-
-	var nullcount int
-	if idx, ok := memoTable.GetNull(); ok && idx >= startOffset {
-		buffers[0] = memory.NewResizableBuffer(mem)
-		defer buffers[0].Release()
-		nullcount = 1
-		buffers[0].Resize(int(bitutil.BytesForBits(int64(dictLen))))
-		memory.Set(buffers[0].Bytes(), 0xFF)
-		bitutil.ClearBit(buffers[0].Bytes(), idx)
-	}
-
-	return NewData(valueType, dictLen, buffers, nil, nullcount, 0), nil
-}
-
-func DictArrayFromJSON(mem memory.Allocator, dt *arrow.DictionaryType, indicesJSON, dictJSON string) (arrow.Array, error) {
-	indices, _, err := FromJSON(mem, dt.IndexType, strings.NewReader(indicesJSON))
-	if err != nil {
-		return nil, err
-	}
-	defer indices.Release()
-
-	dict, _, err := FromJSON(mem, dt.ValueType, strings.NewReader(dictJSON))
-	if err != nil {
-		return nil, err
-	}
-	defer dict.Release()
-
-	return NewDictionaryArray(dt, indices, dict), nil
-}
-
-func ChunkedFromJSON(mem memory.Allocator, dt arrow.DataType, chunkStrs []string, opts ...FromJSONOption) (*arrow.Chunked, error) {
-	chunks := make([]arrow.Array, len(chunkStrs))
-	defer func() {
-		for _, c := range chunks {
-			if c != nil {
-				c.Release()
-			}
-		}
-	}()
-
-	var err error
-	for i, c := range chunkStrs {
-		chunks[i], _, err = FromJSON(mem, dt, strings.NewReader(c), opts...)
-		if err != nil {
-			return nil, err
-		}
-	}
-
-	return arrow.NewChunked(dt, chunks), nil
-}
-
-func getMaxBufferLen(dt arrow.DataType, length int) int {
-	bufferLen := int(bitutil.BytesForBits(int64(length)))
-
-	maxOf := func(bl int) int {
-		if bl > bufferLen {
-			return bl
-		}
-		return bufferLen
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.DictionaryType:
-		bufferLen = maxOf(getMaxBufferLen(dt.ValueType, length))
-		return maxOf(getMaxBufferLen(dt.IndexType, length))
-	case *arrow.FixedSizeBinaryType:
-		return maxOf(dt.ByteWidth * length)
-	case arrow.FixedWidthDataType:
-		return maxOf(int(bitutil.BytesForBits(int64(dt.BitWidth()))) * length)
-	case *arrow.StructType:
-		for _, f := range dt.Fields() {
-			bufferLen = maxOf(getMaxBufferLen(f.Type, length))
-		}
-		return bufferLen
-	case *arrow.SparseUnionType:
-		// type codes
-		bufferLen = maxOf(length)
-		// creates children of the same length of the union
-		for _, f := range dt.Fields() {
-			bufferLen = maxOf(getMaxBufferLen(f.Type, length))
-		}
-		return bufferLen
-	case *arrow.DenseUnionType:
-		// type codes
-		bufferLen = maxOf(length)
-		// offsets
-		bufferLen = maxOf(arrow.Int32SizeBytes * length)
-		// create children of length 1
-		for _, f := range dt.Fields() {
-			bufferLen = maxOf(getMaxBufferLen(f.Type, 1))
-		}
-		return bufferLen
-	case arrow.OffsetsDataType:
-		return maxOf(dt.OffsetTypeTraits().BytesRequired(length + 1))
-	case *arrow.FixedSizeListType:
-		return maxOf(getMaxBufferLen(dt.Elem(), int(dt.Len())*length))
-	case arrow.ExtensionType:
-		return maxOf(getMaxBufferLen(dt.StorageType(), length))
-	default:
-		panic(fmt.Errorf("arrow/array: arrayofnull not implemented for type %s", dt))
-	}
-}
-
-type nullArrayFactory struct {
-	mem memory.Allocator
-	dt  arrow.DataType
-	len int
-	buf *memory.Buffer
-}
-
-func (n *nullArrayFactory) create() *Data {
-	if n.buf == nil {
-		bufLen := getMaxBufferLen(n.dt, n.len)
-		n.buf = memory.NewResizableBuffer(n.mem)
-		n.buf.Resize(bufLen)
-		defer n.buf.Release()
-	}
-
-	var (
-		dt        = n.dt
-		bufs      = []*memory.Buffer{memory.SliceBuffer(n.buf, 0, int(bitutil.BytesForBits(int64(n.len))))}
-		childData []arrow.ArrayData
-		dictData  arrow.ArrayData
-	)
-	defer bufs[0].Release()
-
-	if ex, ok := dt.(arrow.ExtensionType); ok {
-		dt = ex.StorageType()
-	}
-
-	if nf, ok := dt.(arrow.NestedType); ok {
-		childData = make([]arrow.ArrayData, nf.NumFields())
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.NullType:
-	case *arrow.DictionaryType:
-		bufs = append(bufs, n.buf)
-		arr := MakeArrayOfNull(n.mem, dt.ValueType, 0)
-		defer arr.Release()
-		dictData = arr.Data()
-	case arrow.FixedWidthDataType:
-		bufs = append(bufs, n.buf)
-	case arrow.BinaryDataType:
-		bufs = append(bufs, n.buf, n.buf)
-	case arrow.OffsetsDataType:
-		bufs = append(bufs, n.buf)
-		childData[0] = n.createChild(dt, 0, 0)
-		defer childData[0].Release()
-	case *arrow.FixedSizeListType:
-		childData[0] = n.createChild(dt, 0, n.len*int(dt.Len()))
-		defer childData[0].Release()
-	case *arrow.StructType:
-		for i := range dt.Fields() {
-			childData[i] = n.createChild(dt, i, n.len)
-			defer childData[i].Release()
-		}
-	case *arrow.RunEndEncodedType:
-		bldr := NewBuilder(n.mem, dt.RunEnds())
-		defer bldr.Release()
-
-		switch b := bldr.(type) {
-		case *Int16Builder:
-			b.Append(int16(n.len))
-		case *Int32Builder:
-			b.Append(int32(n.len))
-		case *Int64Builder:
-			b.Append(int64(n.len))
-		}
-
-		childData[0] = bldr.newData()
-		defer childData[0].Release()
-		childData[1] = n.createChild(dt.Encoded(), 1, 1)
-		defer childData[1].Release()
-	case arrow.UnionType:
-		bufs[0].Release()
-		bufs[0] = nil
-		bufs = append(bufs, n.buf)
-		// buffer is zeroed, but 0 may not be a valid type code
-		if dt.TypeCodes()[0] != 0 {
-			bufs[1] = memory.NewResizableBuffer(n.mem)
-			bufs[1].Resize(n.len)
-			defer bufs[1].Release()
-			memory.Set(bufs[1].Bytes(), byte(dt.TypeCodes()[0]))
-		}
-
-		// for sparse unions we create children with the same length
-		childLen := n.len
-		if dt.Mode() == arrow.DenseMode {
-			// for dense unions, offsets are all 0 and make children
-			// with length 1
-			bufs = append(bufs, n.buf)
-			childLen = 1
-		}
-		for i := range dt.Fields() {
-			childData[i] = n.createChild(dt, i, childLen)
-			defer childData[i].Release()
-		}
-	}
-
-	out := NewData(n.dt, n.len, bufs, childData, n.len, 0)
-	if dictData != nil {
-		out.SetDictionary(dictData)
-	}
-	return out
-}
-
-func (n *nullArrayFactory) createChild(dt arrow.DataType, i, length int) *Data {
-	childFactory := &nullArrayFactory{
-		mem: n.mem, dt: n.dt.(arrow.NestedType).Fields()[i].Type,
-		len: length, buf: n.buf}
-	return childFactory.create()
-}
-
-// MakeArrayOfNull creates an array of size length which is all null of the given data type.
-func MakeArrayOfNull(mem memory.Allocator, dt arrow.DataType, length int) arrow.Array {
-	if dt.ID() == arrow.NULL {
-		return NewNull(length)
-	}
-
-	data := (&nullArrayFactory{mem: mem, dt: dt, len: length}).create()
-	defer data.Release()
-	return MakeFromData(data)
-}
diff --git a/go/arrow/array/util_test.go b/go/arrow/array/util_test.go
deleted file mode 100644
index 114ea6e546649..0000000000000
--- a/go/arrow/array/util_test.go
+++ /dev/null
@@ -1,545 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package array_test
-
-import (
-	"bufio"
-	"bytes"
-	"fmt"
-	"io"
-	"reflect"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-var typemap = map[arrow.DataType]reflect.Type{
-	arrow.PrimitiveTypes.Int8:   reflect.TypeOf(int8(0)),
-	arrow.PrimitiveTypes.Uint8:  reflect.TypeOf(uint8(0)),
-	arrow.PrimitiveTypes.Int16:  reflect.TypeOf(int16(0)),
-	arrow.PrimitiveTypes.Uint16: reflect.TypeOf(uint16(0)),
-	arrow.PrimitiveTypes.Int32:  reflect.TypeOf(int32(0)),
-	arrow.PrimitiveTypes.Uint32: reflect.TypeOf(uint32(0)),
-	arrow.PrimitiveTypes.Int64:  reflect.TypeOf(int64(0)),
-	arrow.PrimitiveTypes.Uint64: reflect.TypeOf(uint64(0)),
-}
-
-func TestIntegerArrsJSON(t *testing.T) {
-	const N = 10
-	types := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int64,
-		arrow.PrimitiveTypes.Uint64,
-	}
-
-	for _, tt := range types {
-		t.Run(fmt.Sprint(tt), func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			jsontest := make([]int, N)
-			vals := reflect.MakeSlice(reflect.SliceOf(typemap[tt]), N, N)
-			for i := 0; i < N; i++ {
-				vals.Index(i).Set(reflect.ValueOf(i).Convert(typemap[tt]))
-				jsontest[i] = i
-			}
-
-			data, _ := json.Marshal(jsontest)
-			arr, _, err := array.FromJSON(mem, tt, bytes.NewReader(data))
-			assert.NoError(t, err)
-			defer arr.Release()
-
-			assert.EqualValues(t, N, arr.Len())
-			assert.Zero(t, arr.NullN())
-
-			output, err := json.Marshal(arr)
-			assert.NoError(t, err)
-			assert.JSONEq(t, string(data), string(output))
-		})
-		t.Run(fmt.Sprint(tt)+" errors", func(t *testing.T) {
-			_, _, err := array.FromJSON(memory.DefaultAllocator, tt, strings.NewReader(""))
-			assert.Error(t, err)
-
-			_, _, err = array.FromJSON(memory.DefaultAllocator, tt, strings.NewReader("["))
-			assert.ErrorIs(t, err, io.ErrUnexpectedEOF)
-
-			_, _, err = array.FromJSON(memory.DefaultAllocator, tt, strings.NewReader("0"))
-			assert.Error(t, err)
-
-			_, _, err = array.FromJSON(memory.DefaultAllocator, tt, strings.NewReader("{}"))
-			assert.Error(t, err)
-
-			_, _, err = array.FromJSON(memory.DefaultAllocator, tt, strings.NewReader("[[0]]"))
-			assert.EqualError(t, err, "json: cannot unmarshal [ into Go value of type "+tt.Name())
-		})
-	}
-}
-
-func TestStringsJSON(t *testing.T) {
-	tests := []struct {
-		jsonstring string
-		values     []string
-		valids     []bool
-	}{
-		{"[]", []string{}, []bool{}},
-		{`["", "foo"]`, []string{"", "foo"}, nil},
-		{`["", null]`, []string{"", ""}, []bool{true, false}},
-		// NUL character in string
-		{`["", "some\u0000char"]`, []string{"", "some\x00char"}, nil},
-		// utf8 sequence in string
-		{"[\"\xc3\xa9\"]", []string{"\xc3\xa9"}, nil},
-		// bytes < 0x20 can be represented as JSON unicode escapes
-		{`["\u0000\u001f"]`, []string{"\x00\x1f"}, nil},
-	}
-
-	for _, tt := range tests {
-		t.Run("json "+tt.jsonstring, func(t *testing.T) {
-			bldr := array.NewStringBuilder(memory.DefaultAllocator)
-			defer bldr.Release()
-
-			bldr.AppendValues(tt.values, tt.valids)
-			expected := bldr.NewStringArray()
-			defer expected.Release()
-
-			arr, _, err := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String, strings.NewReader(tt.jsonstring))
-			assert.NoError(t, err)
-			defer arr.Release()
-
-			assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-			data, err := json.Marshal(arr)
-			assert.NoError(t, err)
-			assert.JSONEq(t, tt.jsonstring, string(data))
-		})
-	}
-
-	for _, tt := range tests {
-		t.Run("large json "+tt.jsonstring, func(t *testing.T) {
-			bldr := array.NewLargeStringBuilder(memory.DefaultAllocator)
-			defer bldr.Release()
-
-			bldr.AppendValues(tt.values, tt.valids)
-			expected := bldr.NewLargeStringArray()
-			defer expected.Release()
-
-			arr, _, err := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.LargeString, strings.NewReader(tt.jsonstring))
-			assert.NoError(t, err)
-			defer arr.Release()
-
-			assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-			data, err := json.Marshal(arr)
-			assert.NoError(t, err)
-			assert.JSONEq(t, tt.jsonstring, string(data))
-		})
-	}
-
-	t.Run("errors", func(t *testing.T) {
-		_, _, err := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String, strings.NewReader("[0]"))
-		assert.Error(t, err)
-
-		_, _, err = array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String, strings.NewReader("[[]]"))
-		assert.Error(t, err)
-	})
-}
-
-func TestStructArrayFromJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	jsonStr := `[{"hello": 3.5, "world": true, "yo": "foo"},{"hello": 3.25, "world": false, "yo": "bar"}]`
-
-	arr, _, err := array.FromJSON(mem, arrow.StructOf(
-		arrow.Field{Name: "hello", Type: arrow.PrimitiveTypes.Float64},
-		arrow.Field{Name: "world", Type: arrow.FixedWidthTypes.Boolean},
-		arrow.Field{Name: "yo", Type: arrow.BinaryTypes.String},
-	), strings.NewReader(jsonStr))
-	assert.NoError(t, err)
-	defer arr.Release()
-
-	output, err := json.Marshal(arr)
-	assert.NoError(t, err)
-	assert.JSONEq(t, jsonStr, string(output))
-}
-
-func TestArrayFromJSONMulti(t *testing.T) {
-	arr, _, err := array.FromJSON(memory.DefaultAllocator, arrow.StructOf(
-		arrow.Field{Name: "hello", Type: arrow.PrimitiveTypes.Float64},
-		arrow.Field{Name: "world", Type: arrow.FixedWidthTypes.Boolean},
-		arrow.Field{Name: "yo", Type: arrow.BinaryTypes.String},
-	), strings.NewReader("{\"hello\": 3.5, \"world\": true, \"yo\": \"foo\"}\n{\"hello\": 3.25, \"world\": false, \"yo\": \"bar\"}\n"),
-		array.WithMultipleDocs())
-	assert.NoError(t, err)
-	defer arr.Release()
-
-	assert.EqualValues(t, 2, arr.Len())
-	assert.Zero(t, arr.NullN())
-}
-
-func TestNestedJSONArrs(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	jsonStr := `[{"hello": 1.5, "world": [1, 2, 3, 4], "yo": [{"foo": "2005-05-06", "bar": "15:02:04.123"},{"foo": "1956-01-02", "bar": "02:10:00"}]}]`
-
-	arr, _, err := array.FromJSON(mem, arrow.StructOf(
-		arrow.Field{Name: "hello", Type: arrow.PrimitiveTypes.Float64},
-		arrow.Field{Name: "world", Type: arrow.ListOf(arrow.PrimitiveTypes.Int32)},
-		arrow.Field{Name: "yo", Type: arrow.FixedSizeListOf(2, arrow.StructOf(
-			arrow.Field{Name: "foo", Type: arrow.FixedWidthTypes.Date32},
-			arrow.Field{Name: "bar", Type: arrow.FixedWidthTypes.Time32ms},
-		))},
-	), strings.NewReader(jsonStr))
-	assert.NoError(t, err)
-	defer arr.Release()
-
-	v, err := json.Marshal(arr)
-	assert.NoError(t, err)
-	assert.JSONEq(t, jsonStr, string(v))
-}
-
-func TestGetNullsFromJSON(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	jsonStr := `[
-		{"yo": "thing", "arr": null, "nuf": {"ps": "今日は"}},
-		{"yo": null, "nuf": {"ps": null}, "arr": []},
-		{ "nuf": null, "yo": "今日は", "arr": [1,2,3]}
-	]`
-
-	rec, _, err := array.RecordFromJSON(mem, arrow.NewSchema([]arrow.Field{
-		{Name: "yo", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "arr", Type: arrow.ListOf(arrow.PrimitiveTypes.Int32), Nullable: true},
-		{Name: "nuf", Type: arrow.StructOf(arrow.Field{Name: "ps", Type: arrow.BinaryTypes.String, Nullable: true}), Nullable: true},
-	}, nil), strings.NewReader(jsonStr))
-	assert.NoError(t, err)
-	defer rec.Release()
-
-	assert.EqualValues(t, 3, rec.NumCols())
-	assert.EqualValues(t, 3, rec.NumRows())
-
-	data, err := json.Marshal(rec)
-	assert.NoError(t, err)
-	assert.JSONEq(t, jsonStr, string(data))
-}
-
-func TestDurationsJSON(t *testing.T) {
-	tests := []struct {
-		unit    arrow.TimeUnit
-		jsonstr string
-		values  []arrow.Duration
-	}{
-		{arrow.Second, `["1s", "2s", "3s", "4s", "5s"]`, []arrow.Duration{1, 2, 3, 4, 5}},
-		{arrow.Millisecond, `["1ms", "2ms", "3ms", "4ms", "5ms"]`, []arrow.Duration{1, 2, 3, 4, 5}},
-		{arrow.Microsecond, `["1us", "2us", "3us", "4us", "5us"]`, []arrow.Duration{1, 2, 3, 4, 5}},
-		{arrow.Nanosecond, `["1ns", "2ns", "3ns", "4ns", "5ns"]`, []arrow.Duration{1, 2, 3, 4, 5}},
-	}
-	for _, tt := range tests {
-		dtype := &arrow.DurationType{Unit: tt.unit}
-		bldr := array.NewDurationBuilder(memory.DefaultAllocator, dtype)
-		defer bldr.Release()
-
-		bldr.AppendValues(tt.values, nil)
-		expected := bldr.NewArray()
-		defer expected.Release()
-
-		arr, _, err := array.FromJSON(memory.DefaultAllocator, dtype, strings.NewReader(tt.jsonstr))
-		assert.NoError(t, err)
-		defer arr.Release()
-
-		assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-	}
-}
-
-func TestTimestampsJSON(t *testing.T) {
-	tests := []struct {
-		unit    arrow.TimeUnit
-		jsonstr string
-		values  []arrow.Timestamp
-	}{
-		{arrow.Second, `["1970-01-01", "2000-02-29", "3989-07-14", "1900-02-28"]`, []arrow.Timestamp{0, 951782400, 63730281600, -2203977600}},
-		{arrow.Nanosecond, `["1970-01-01", "2000-02-29", "1900-02-28"]`, []arrow.Timestamp{0, 951782400000000000, -2203977600000000000}},
-	}
-
-	for _, tt := range tests {
-		dtype := &arrow.TimestampType{Unit: tt.unit}
-		bldr := array.NewTimestampBuilder(memory.DefaultAllocator, dtype)
-		defer bldr.Release()
-
-		bldr.AppendValues(tt.values, nil)
-		expected := bldr.NewArray()
-		defer expected.Release()
-
-		arr, _, err := array.FromJSON(memory.DefaultAllocator, dtype, strings.NewReader(tt.jsonstr))
-		assert.NoError(t, err)
-		defer arr.Release()
-
-		assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-	}
-}
-
-func TestDateJSON(t *testing.T) {
-	t.Run("date32", func(t *testing.T) {
-		bldr := array.NewDate32Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-
-		jsonstr := `["1970-01-06", null, "1970-02-12", 0]`
-		jsonExp := `["1970-01-06", null, "1970-02-12", "1970-01-01"]`
-
-		bldr.AppendValues([]arrow.Date32{5, 0, 42, 0}, []bool{true, false, true, true})
-		expected := bldr.NewArray()
-		defer expected.Release()
-
-		arr, _, err := array.FromJSON(memory.DefaultAllocator, arrow.FixedWidthTypes.Date32, strings.NewReader(jsonstr))
-		assert.NoError(t, err)
-		defer arr.Release()
-
-		assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-		data, err := json.Marshal(arr)
-		assert.NoError(t, err)
-		assert.JSONEq(t, jsonExp, string(data))
-	})
-	t.Run("date64", func(t *testing.T) {
-		bldr := array.NewDate64Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-
-		jsonstr := `["1970-01-02", null, "2286-11-20", 86400000]`
-		jsonExp := `["1970-01-02", null, "2286-11-20", "1970-01-02"]`
-
-		bldr.AppendValues([]arrow.Date64{86400000, 0, 9999936000000, 86400000}, []bool{true, false, true, true})
-		expected := bldr.NewArray()
-		defer expected.Release()
-
-		arr, _, err := array.FromJSON(memory.DefaultAllocator, arrow.FixedWidthTypes.Date64, strings.NewReader(jsonstr))
-		assert.NoError(t, err)
-		defer arr.Release()
-
-		assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-		data, err := json.Marshal(arr)
-		assert.NoError(t, err)
-		assert.JSONEq(t, jsonExp, string(data))
-	})
-}
-
-func TestTimeJSON(t *testing.T) {
-	tententen := 60*(60*(10)+10) + 10
-	tests := []struct {
-		dt       arrow.DataType
-		jsonstr  string
-		jsonexp  string
-		valueadd int
-	}{
-		{arrow.FixedWidthTypes.Time32s, `[null, "10:10:10", 36610]`, `[null, "10:10:10", "10:10:10"]`, 123},
-		{arrow.FixedWidthTypes.Time32ms, `[null, "10:10:10.123", 36610123]`, `[null, "10:10:10.123", "10:10:10.123"]`, 456},
-		{arrow.FixedWidthTypes.Time64us, `[null, "10:10:10.123456", 36610123456]`, `[null, "10:10:10.123456", "10:10:10.123456"]`, 789},
-		{arrow.FixedWidthTypes.Time64ns, `[null, "10:10:10.123456789", 36610123456789]`, `[null, "10:10:10.123456789", "10:10:10.123456789"]`, 0},
-	}
-
-	for _, tt := range tests {
-		t.Run(fmt.Sprint(tt.dt), func(t *testing.T) {
-			defer func() {
-				tententen = 1000*tententen + tt.valueadd
-			}()
-
-			bldr := array.NewBuilder(memory.DefaultAllocator, tt.dt)
-			defer bldr.Release()
-
-			switch tt.dt.ID() {
-			case arrow.TIME32:
-				bldr.(*array.Time32Builder).AppendValues([]arrow.Time32{0, arrow.Time32(tententen), arrow.Time32(tententen)}, []bool{false, true, true})
-			case arrow.TIME64:
-				bldr.(*array.Time64Builder).AppendValues([]arrow.Time64{0, arrow.Time64(tententen), arrow.Time64(tententen)}, []bool{false, true, true})
-			}
-
-			expected := bldr.NewArray()
-			defer expected.Release()
-
-			arr, _, err := array.FromJSON(memory.DefaultAllocator, tt.dt, strings.NewReader(tt.jsonstr))
-			assert.NoError(t, err)
-			defer arr.Release()
-
-			assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-			data, err := json.Marshal(arr)
-			assert.NoError(t, err)
-			assert.JSONEq(t, tt.jsonexp, string(data))
-		})
-	}
-}
-
-func TestDecimal128JSON(t *testing.T) {
-	dt := &arrow.Decimal128Type{Precision: 10, Scale: 4}
-	bldr := array.NewDecimal128Builder(memory.DefaultAllocator, dt)
-	defer bldr.Release()
-
-	bldr.AppendValues([]decimal128.Num{decimal128.FromU64(1234567), {}, decimal128.FromI64(-789000)}, []bool{true, false, true})
-	expected := bldr.NewArray()
-	defer expected.Release()
-
-	arr, _, err := array.FromJSON(memory.DefaultAllocator, dt, strings.NewReader(`["123.4567", null, "-78.9000"]`))
-	assert.NoError(t, err)
-	defer arr.Release()
-
-	assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-	data, err := json.Marshal(arr)
-	assert.NoError(t, err)
-	assert.JSONEq(t, `["123.4567", null, "-78.9"]`, string(data))
-}
-
-func TestDecimal256JSON(t *testing.T) {
-	dt := &arrow.Decimal256Type{Precision: 10, Scale: 4}
-	bldr := array.NewDecimal256Builder(memory.DefaultAllocator, dt)
-	defer bldr.Release()
-
-	bldr.AppendValues([]decimal256.Num{decimal256.FromU64(1234567), {}, decimal256.FromI64(-789000)}, []bool{true, false, true})
-	expected := bldr.NewArray()
-	defer expected.Release()
-
-	arr, _, err := array.FromJSON(memory.DefaultAllocator, dt, strings.NewReader(`["123.4567", null, "-78.9000"]`))
-	assert.NoError(t, err)
-	defer arr.Release()
-
-	assert.Truef(t, array.Equal(expected, arr), "expected: %s\ngot: %s\n", expected, arr)
-
-	data, err := json.Marshal(arr)
-	assert.NoError(t, err)
-	assert.JSONEq(t, `["123.4567", null, "-78.9"]`, string(data))
-}
-
-func TestArrRecordsJSONRoundTrip(t *testing.T) {
-	for k, v := range arrdata.Records {
-		if k == "decimal128" || k == "decimal256" || k == "fixed_width_types" {
-			// test these separately since the sample data in the arrdata
-			// records doesn't lend itself to exactness when going to/from
-			// json. The fixed_width_types one uses negative values for
-			// time32 and time64 which correctly get interpreted into times,
-			// but re-encoding them in json produces the normalized positive
-			// values instead of re-creating negative ones.
-			// the decimal128/decimal256 values don't get parsed *exactly* due to fun
-			// float weirdness due to their size, so smaller tests will work fine.
-			continue
-		}
-		t.Run(k, func(t *testing.T) {
-			var buf bytes.Buffer
-			assert.NotPanics(t, func() {
-				enc := json.NewEncoder(&buf)
-				for _, r := range v {
-					if err := enc.Encode(r); err != nil {
-						panic(err)
-					}
-				}
-			})
-
-			rdr := bytes.NewReader(buf.Bytes())
-			var cur int64
-
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			for _, r := range v {
-				rec, off, err := array.RecordFromJSON(mem, r.Schema(), rdr, array.WithStartOffset(cur))
-				assert.NoError(t, err)
-				defer rec.Release()
-
-				assert.Truef(t, array.RecordApproxEqual(r, rec), "expected: %s\ngot: %s\n", r, rec)
-				cur += off
-			}
-		})
-	}
-}
-
-func TestStructBuilderJSONUnknownNested(t *testing.T) {
-	dt := arrow.StructOf(
-		arrow.Field{Name: "region", Type: arrow.BinaryTypes.String},
-		arrow.Field{Name: "model", Type: arrow.PrimitiveTypes.Int32},
-		arrow.Field{Name: "sales", Type: arrow.PrimitiveTypes.Float32})
-
-	const data = `[
-		{"region": "NY", "model": "3", "sales": 742.0},
-		{"region": "CT", "model": "5", "sales": 742.0}
-	]`
-
-	const dataWithExtra = `[
-		{"region": "NY", "model": "3", "sales": 742.0, "extra": 1234},
-		{"region": "CT", "model": "5", "sales": 742.0, "extra_array": [1234], "extra_obj": {"nested": ["deeply"]}}
-	]`
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(data))
-	require.NoError(t, err)
-	require.NotNil(t, arr)
-	defer arr.Release()
-
-	arr2, _, err := array.FromJSON(mem, dt, strings.NewReader(dataWithExtra))
-	require.NoError(t, err)
-	require.NotNil(t, arr2)
-	defer arr2.Release()
-
-	assert.Truef(t, array.Equal(arr, arr2), "expected: %s\n actual: %s", arr, arr2)
-}
-
-func TestRecordBuilderUnmarshalJSONExtraFields(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "region", Type: arrow.BinaryTypes.String},
-		{Name: "model", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "sales", Type: arrow.PrimitiveTypes.Float32},
-	}, nil)
-
-	bldr := array.NewRecordBuilder(mem, schema)
-	defer bldr.Release()
-
-	const data = `{"region": "NY", "model": "3", "sales": 742.0, "extra": 1234}
-	{"region": "NY", "model": "3", "sales": 742.0, "extra_array": [1234], "extra_obj": {"nested": ["deeply"]}}`
-
-	s := bufio.NewScanner(strings.NewReader(data))
-	require.True(t, s.Scan())
-	require.NoError(t, bldr.UnmarshalJSON(s.Bytes()))
-
-	rec1 := bldr.NewRecord()
-	defer rec1.Release()
-
-	require.True(t, s.Scan())
-	require.NoError(t, bldr.UnmarshalJSON(s.Bytes()))
-
-	rec2 := bldr.NewRecord()
-	defer rec2.Release()
-
-	assert.Truef(t, array.RecordEqual(rec1, rec2), "expected: %s\nactual: %s", rec1, rec2)
-}
diff --git a/go/arrow/arrio/arrio.go b/go/arrow/arrio/arrio.go
deleted file mode 100644
index 53215c81f75eb..0000000000000
--- a/go/arrow/arrio/arrio.go
+++ /dev/null
@@ -1,92 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package arrio exposes functions to manipulate records, exposing and using
-// interfaces not unlike the ones defined in the stdlib io package.
-package arrio
-
-import (
-	"errors"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-// Reader is the interface that wraps the Read method.
-type Reader interface {
-	// Read reads the current record from the underlying stream and an error, if any.
-	// When the Reader reaches the end of the underlying stream, it returns (nil, io.EOF).
-	Read() (arrow.Record, error)
-}
-
-// ReaderAt is the interface that wraps the ReadAt method.
-type ReaderAt interface {
-	// ReadAt reads the i-th record from the underlying stream and an error, if any.
-	ReadAt(i int64) (arrow.Record, error)
-}
-
-// Writer is the interface that wraps the Write method.
-type Writer interface {
-	Write(rec arrow.Record) error
-}
-
-// Copy copies all the records available from src to dst.
-// Copy returns the number of records copied and the first error
-// encountered while copying, if any.
-//
-// A successful Copy returns err == nil, not err == EOF. Because Copy is
-// defined to read from src until EOF, it does not treat an EOF from Read as an
-// error to be reported.
-func Copy(dst Writer, src Reader) (n int64, err error) {
-	for {
-		rec, err := src.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				return n, nil
-			}
-			return n, err
-		}
-		err = dst.Write(rec)
-		if err != nil {
-			return n, err
-		}
-		n++
-	}
-}
-
-// CopyN copies n records (or until an error) from src to dst. It returns the
-// number of records copied and the earliest error encountered while copying. On
-// return, written == n if and only if err == nil.
-func CopyN(dst Writer, src Reader, n int64) (written int64, err error) {
-	for ; written < n; written++ {
-		rec, err := src.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) && written == n {
-				return written, nil
-			}
-			return written, err
-		}
-		err = dst.Write(rec)
-		if err != nil {
-			return written, err
-		}
-	}
-
-	if written != n && err == nil {
-		err = io.EOF
-	}
-	return written, err
-}
diff --git a/go/arrow/arrio/arrio_test.go b/go/arrow/arrio/arrio_test.go
deleted file mode 100644
index 26863ec252bf7..0000000000000
--- a/go/arrow/arrio/arrio_test.go
+++ /dev/null
@@ -1,197 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrio_test
-
-import (
-	"fmt"
-	"io"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type copyKind int
-
-const (
-	fileKind copyKind = iota
-	streamKind
-)
-
-func (k copyKind) write(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	switch k {
-	case fileKind:
-		arrdata.WriteFile(t, f, mem, schema, recs)
-	case streamKind:
-		arrdata.WriteStream(t, f, mem, schema, recs)
-	default:
-		panic("invalid copyKind")
-	}
-}
-
-func (k copyKind) check(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	switch k {
-	case fileKind:
-		arrdata.CheckArrowFile(t, f, mem, schema, recs)
-	case streamKind:
-		arrdata.CheckArrowStream(t, f, mem, schema, recs)
-	default:
-		panic("invalid copyKind")
-	}
-}
-
-func TestCopy(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for _, tc := range []struct {
-		name     string
-		src, dst copyKind
-	}{
-		{name: "file2file", src: fileKind, dst: fileKind},
-		{name: "file2stream", src: fileKind, dst: streamKind},
-		{name: "stream2file", src: streamKind, dst: fileKind},
-		{name: "stream2stream", src: streamKind, dst: streamKind},
-	} {
-		t.Run(tc.name, func(t *testing.T) {
-			for name, recs := range arrdata.Records {
-				t.Run(name, func(t *testing.T) {
-					for _, tcopy := range []struct {
-						n    int
-						want int
-						err  error
-					}{
-						{-1, len(recs), nil},
-						{1, 1, nil},
-						{0, 0, nil},
-						{len(recs), len(recs), nil},
-						{len(recs) + 1, len(recs), io.EOF},
-					} {
-						t.Run(fmt.Sprintf("-copy-n=%d", tcopy.n), func(t *testing.T) {
-							mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-							defer mem.AssertSize(t, 0)
-
-							f, err := os.CreateTemp(tempDir, "go-arrow-copy-")
-							if err != nil {
-								t.Fatal(err)
-							}
-							defer f.Close()
-
-							o, err := os.CreateTemp(tempDir, "go-arrow-copy-")
-							if err != nil {
-								t.Fatal(err)
-							}
-							defer o.Close()
-
-							tc.src.write(t, f, mem, recs[0].Schema(), recs)
-							tc.src.check(t, f, mem, recs[0].Schema(), recs)
-
-							_, err = f.Seek(0, io.SeekStart)
-							if err != nil {
-								t.Fatal(err)
-							}
-
-							var r arrio.Reader
-							switch tc.src {
-							case fileKind:
-								rr, err := ipc.NewFileReader(f, ipc.WithSchema(recs[0].Schema()), ipc.WithAllocator(mem))
-								if err != nil {
-									t.Fatal(err)
-								}
-								defer rr.Close()
-								r = rr
-							case streamKind:
-								rr, err := ipc.NewReader(f, ipc.WithSchema(recs[0].Schema()), ipc.WithAllocator(mem))
-								if err != nil {
-									t.Fatal(err)
-								}
-								defer rr.Release()
-								r = rr
-							default:
-								t.Fatalf("invalid src type %v", tc.src)
-							}
-
-							var w interface {
-								arrio.Writer
-								io.Closer
-							}
-
-							switch tc.dst {
-							case fileKind:
-								w, err = ipc.NewFileWriter(o, ipc.WithSchema(recs[0].Schema()), ipc.WithAllocator(mem))
-								if err != nil {
-									t.Fatal(err)
-								}
-							case streamKind:
-								w = ipc.NewWriter(o, ipc.WithSchema(recs[0].Schema()), ipc.WithAllocator(mem))
-							default:
-								t.Fatalf("invalid dst type %v", tc.dst)
-							}
-							defer w.Close()
-
-							var (
-								n int64
-							)
-							switch tcopy.n {
-							case -1:
-								n, err = arrio.Copy(w, r)
-							case len(recs) + 1:
-								n, err = arrio.CopyN(w, r, int64(tcopy.n))
-							default:
-								n, err = arrio.CopyN(w, r, int64(tcopy.n))
-							}
-
-							switch err {
-							case nil:
-								if tcopy.err != nil {
-									t.Fatalf("got a nil error, want=%v", tcopy.err)
-								}
-							default:
-								switch tcopy.err {
-								case nil:
-									t.Fatalf("invalid error: got=%v, want=%v", err, tcopy.err)
-								default:
-									if tcopy.err.Error() != err.Error() {
-										t.Fatalf("invalid error: got=%v, want=%v", err, tcopy.err)
-									}
-								}
-							}
-
-							if got, want := n, int64(tcopy.want); got != want {
-								t.Fatalf("invalid number of records copied: got=%d, want=%d", got, want)
-							}
-
-							err = w.Close()
-							if err != nil {
-								t.Fatal(err)
-							}
-
-							tc.dst.check(t, o, mem, recs[0].Schema(), recs[:tcopy.want])
-						})
-					}
-				})
-			}
-		})
-	}
-}
diff --git a/go/arrow/avro/avro2parquet/main.go b/go/arrow/avro/avro2parquet/main.go
deleted file mode 100644
index ae514c5ed1fda..0000000000000
--- a/go/arrow/avro/avro2parquet/main.go
+++ /dev/null
@@ -1,119 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"bufio"
-	"bytes"
-	"flag"
-	"fmt"
-	"log"
-	"os"
-	"runtime/pprof"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow/avro"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	pq "github.com/apache/arrow/go/v18/parquet/pqarrow"
-)
-
-var (
-	cpuprofile = flag.String("cpuprofile", "", "write cpu profile to `file`")
-	filepath   = flag.String("file", "", "avro ocf to convert")
-)
-
-func main() {
-	flag.Parse()
-	if *cpuprofile != "" {
-		f, err := os.Create(*cpuprofile)
-		if err != nil {
-			log.Fatal("could not create CPU profile: ", err)
-		}
-		defer f.Close() // error handling omitted for example
-		if err := pprof.StartCPUProfile(f); err != nil {
-			log.Fatal("could not start CPU profile: ", err)
-		}
-		defer pprof.StopCPUProfile()
-	}
-	if *filepath == "" {
-		fmt.Println("no file specified")
-	}
-	chunk := 1024 * 8
-	ts := time.Now()
-	log.Println("starting:")
-	info, err := os.Stat(*filepath)
-	if err != nil {
-		fmt.Println(err)
-		os.Exit(1)
-	}
-	filesize := info.Size()
-	data, err := os.ReadFile(*filepath)
-	if err != nil {
-		fmt.Println(err)
-		os.Exit(2)
-	}
-	fmt.Printf("file : %v\nsize: %v MB\n", filepath, float64(filesize)/1024/1024)
-
-	r := bytes.NewReader(data)
-	ior := bufio.NewReaderSize(r, 4096*8)
-	av2arReader, err := avro.NewOCFReader(ior, avro.WithChunk(chunk))
-	if err != nil {
-		fmt.Println(err)
-		os.Exit(3)
-	}
-	fp, err := os.OpenFile(*filepath+".parquet", os.O_CREATE|os.O_WRONLY|os.O_TRUNC, 0o644)
-	if err != nil {
-		fmt.Println(err)
-		os.Exit(4)
-	}
-	defer fp.Close()
-	pwProperties := parquet.NewWriterProperties(parquet.WithDictionaryDefault(true),
-		parquet.WithVersion(parquet.V2_LATEST),
-		parquet.WithCompression(compress.Codecs.Snappy),
-		parquet.WithBatchSize(1024*32),
-		parquet.WithDataPageSize(1024*1024),
-		parquet.WithMaxRowGroupLength(64*1024*1024),
-	)
-	awProperties := pq.NewArrowWriterProperties(pq.WithStoreSchema())
-	pr, err := pq.NewFileWriter(av2arReader.Schema(), fp, pwProperties, awProperties)
-	if err != nil {
-		fmt.Println(err)
-		os.Exit(5)
-	}
-	defer pr.Close()
-	fmt.Printf("parquet version: %v\n", pwProperties.Version())
-	for av2arReader.Next() {
-		if av2arReader.Err() != nil {
-			fmt.Println(err)
-			os.Exit(6)
-		}
-		recs := av2arReader.Record()
-		err = pr.WriteBuffered(recs)
-		if err != nil {
-			fmt.Println(err)
-			os.Exit(7)
-		}
-		recs.Release()
-	}
-	if av2arReader.Err() != nil {
-		fmt.Println(av2arReader.Err())
-	}
-
-	pr.Close()
-	log.Printf("time to convert: %v\n", time.Since(ts))
-}
diff --git a/go/arrow/avro/loader.go b/go/arrow/avro/loader.go
deleted file mode 100644
index 26d8678e8e2be..0000000000000
--- a/go/arrow/avro/loader.go
+++ /dev/null
@@ -1,85 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package avro
-
-import (
-	"errors"
-	"fmt"
-	"io"
-)
-
-func (r *OCFReader) decodeOCFToChan() {
-	defer close(r.avroChan)
-	for r.r.HasNext() {
-		select {
-		case <-r.readerCtx.Done():
-			r.err = fmt.Errorf("avro decoding cancelled, %d records read", r.avroDatumCount)
-			return
-		default:
-			var datum any
-			err := r.r.Decode(&datum)
-			if err != nil {
-				if errors.Is(err, io.EOF) {
-					r.err = nil
-					return
-				}
-				r.err = err
-				return
-			}
-			r.avroChan <- datum
-			r.avroDatumCount++
-		}
-	}
-}
-
-func (r *OCFReader) recordFactory() {
-	defer close(r.recChan)
-	r.primed = true
-	recChunk := 0
-	switch {
-	case r.chunk < 1:
-		for data := range r.avroChan {
-			err := r.ldr.loadDatum(data)
-			if err != nil {
-				r.err = err
-				return
-			}
-		}
-		r.recChan <- r.bld.NewRecord()
-		r.bldDone <- struct{}{}
-	case r.chunk >= 1:
-		for data := range r.avroChan {
-			if recChunk == 0 {
-				r.bld.Reserve(r.chunk)
-			}
-			err := r.ldr.loadDatum(data)
-			if err != nil {
-				r.err = err
-				return
-			}
-			recChunk++
-			if recChunk >= r.chunk {
-				r.recChan <- r.bld.NewRecord()
-				recChunk = 0
-			}
-		}
-		if recChunk != 0 {
-			r.recChan <- r.bld.NewRecord()
-		}
-		r.bldDone <- struct{}{}
-	}
-}
diff --git a/go/arrow/avro/reader.go b/go/arrow/avro/reader.go
deleted file mode 100644
index 1463041499de2..0000000000000
--- a/go/arrow/avro/reader.go
+++ /dev/null
@@ -1,337 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package avro
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"io"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/hamba/avro/v2/ocf"
-	"github.com/tidwall/sjson"
-
-	avro "github.com/hamba/avro/v2"
-)
-
-var ErrMismatchFields = errors.New("arrow/avro: number of records mismatch")
-
-// Option configures an Avro reader/writer.
-type (
-	Option func(config)
-	config *OCFReader
-)
-
-type schemaEdit struct {
-	method string
-	path   string
-	value  any
-}
-
-// Reader wraps goavro/OCFReader and creates array.Records from a schema.
-type OCFReader struct {
-	r               *ocf.Decoder
-	avroSchema      string
-	avroSchemaEdits []schemaEdit
-	schema          *arrow.Schema
-
-	refs   int64
-	bld    *array.RecordBuilder
-	bldMap *fieldPos
-	ldr    *dataLoader
-	cur    arrow.Record
-	err    error
-
-	primed     bool
-	readerCtx  context.Context
-	readCancel func()
-	maxOCF     int
-	maxRec     int
-
-	avroChan       chan any
-	avroDatumCount int64
-	avroChanSize   int
-	recChan        chan arrow.Record
-
-	bldDone chan struct{}
-
-	recChanSize int
-	chunk       int
-	mem         memory.Allocator
-}
-
-// NewReader returns a reader that reads from an Avro OCF file and creates
-// arrow.Records from the converted avro data.
-func NewOCFReader(r io.Reader, opts ...Option) (*OCFReader, error) {
-	ocfr, err := ocf.NewDecoder(r)
-	if err != nil {
-		return nil, fmt.Errorf("%w: could not create avro ocfreader", arrow.ErrInvalid)
-	}
-
-	rr := &OCFReader{
-		r:            ocfr,
-		refs:         1,
-		chunk:        1,
-		avroChanSize: 500,
-		recChanSize:  10,
-	}
-	for _, opt := range opts {
-		opt(rr)
-	}
-
-	rr.avroChan = make(chan any, rr.avroChanSize)
-	rr.recChan = make(chan arrow.Record, rr.recChanSize)
-	rr.bldDone = make(chan struct{})
-	schema, err := avro.Parse(string(ocfr.Metadata()["avro.schema"]))
-	if err != nil {
-		return nil, fmt.Errorf("%w: could not parse avro header", arrow.ErrInvalid)
-	}
-	rr.avroSchema = schema.String()
-	if len(rr.avroSchemaEdits) > 0 {
-		// execute schema edits
-		for _, e := range rr.avroSchemaEdits {
-			err := rr.editAvroSchema(e)
-			if err != nil {
-				return nil, fmt.Errorf("%w: could not edit avro schema", arrow.ErrInvalid)
-			}
-		}
-		// validate edited schema
-		schema, err = avro.Parse(rr.avroSchema)
-		if err != nil {
-			return nil, fmt.Errorf("%w: could not parse modified avro schema", arrow.ErrInvalid)
-		}
-	}
-	rr.schema, err = ArrowSchemaFromAvro(schema)
-	if err != nil {
-		return nil, fmt.Errorf("%w: could not convert avro schema", arrow.ErrInvalid)
-	}
-	if rr.mem == nil {
-		rr.mem = memory.DefaultAllocator
-	}
-	rr.readerCtx, rr.readCancel = context.WithCancel(context.Background())
-	go rr.decodeOCFToChan()
-
-	rr.bld = array.NewRecordBuilder(rr.mem, rr.schema)
-	rr.bldMap = newFieldPos()
-	rr.ldr = newDataLoader()
-	for idx, fb := range rr.bld.Fields() {
-		mapFieldBuilders(fb, rr.schema.Field(idx), rr.bldMap)
-	}
-	rr.ldr.drawTree(rr.bldMap)
-	go rr.recordFactory()
-	return rr, nil
-}
-
-// Reuse allows the OCFReader to be reused to read another Avro file provided the
-// new Avro file has an identical schema.
-func (rr *OCFReader) Reuse(r io.Reader, opts ...Option) error {
-	rr.Close()
-	rr.err = nil
-	ocfr, err := ocf.NewDecoder(r)
-	if err != nil {
-		return fmt.Errorf("%w: could not create avro ocfreader", arrow.ErrInvalid)
-	}
-	schema, err := avro.Parse(string(ocfr.Metadata()["avro.schema"]))
-	if err != nil {
-		return fmt.Errorf("%w: could not parse avro header", arrow.ErrInvalid)
-	}
-	if rr.avroSchema != schema.String() {
-		return fmt.Errorf("%w: avro schema mismatch", arrow.ErrInvalid)
-	}
-
-	rr.r = ocfr
-	for _, opt := range opts {
-		opt(rr)
-	}
-
-	rr.maxOCF = 0
-	rr.maxRec = 0
-	rr.avroDatumCount = 0
-	rr.primed = false
-
-	rr.avroChan = make(chan any, rr.avroChanSize)
-	rr.recChan = make(chan arrow.Record, rr.recChanSize)
-	rr.bldDone = make(chan struct{})
-
-	rr.readerCtx, rr.readCancel = context.WithCancel(context.Background())
-	go rr.decodeOCFToChan()
-	go rr.recordFactory()
-	return nil
-}
-
-// Err returns the last error encountered during the iteration over the
-// underlying Avro file.
-func (r *OCFReader) Err() error { return r.err }
-
-// AvroSchema returns the Avro schema of the Avro OCF
-func (r *OCFReader) AvroSchema() string { return r.avroSchema }
-
-// Schema returns the converted Arrow schema of the Avro OCF
-func (r *OCFReader) Schema() *arrow.Schema { return r.schema }
-
-// Record returns the current record that has been extracted from the
-// underlying Avro OCF file.
-// It is valid until the next call to Next.
-func (r *OCFReader) Record() arrow.Record { return r.cur }
-
-// Metrics returns the maximum queue depth of the Avro record read cache and of the
-// converted Arrow record cache.
-func (r *OCFReader) Metrics() string {
-	return fmt.Sprintf("Max. OCF queue depth: %d/%d  Max. record queue depth: %d/%d", r.maxOCF, r.avroChanSize, r.maxRec, r.recChanSize)
-}
-
-// OCFRecordsReadCount returns the number of Avro datum that were read from the Avro file.
-func (r *OCFReader) OCFRecordsReadCount() int64 { return r.avroDatumCount }
-
-// Close closes the OCFReader's Avro record read cache and converted Arrow record cache. OCFReader must
-// be closed if the Avro OCF's records have not been read to completion.
-func (r *OCFReader) Close() {
-	r.readCancel()
-	r.err = r.readerCtx.Err()
-}
-
-func (r *OCFReader) editAvroSchema(e schemaEdit) error {
-	var err error
-	switch e.method {
-	case "set":
-		r.avroSchema, err = sjson.Set(r.avroSchema, e.path, e.value)
-		if err != nil {
-			return fmt.Errorf("%w: schema edit 'set %s = %v' failure - %v", arrow.ErrInvalid, e.path, e.value, err)
-		}
-	case "delete":
-		r.avroSchema, err = sjson.Delete(r.avroSchema, e.path)
-		if err != nil {
-			return fmt.Errorf("%w: schema edit 'delete' failure - %v", arrow.ErrInvalid, err)
-		}
-	default:
-		return fmt.Errorf("%w: schema edit method must be 'set' or 'delete'", arrow.ErrInvalid)
-	}
-	return nil
-}
-
-// Next returns whether a Record can be received from the converted record queue.
-// The user should check Err() after call to Next that return false to check
-// if an error took place.
-func (r *OCFReader) Next() bool {
-	if r.cur != nil {
-		r.cur.Release()
-		r.cur = nil
-	}
-	if r.maxOCF < len(r.avroChan) {
-		r.maxOCF = len(r.avroChan)
-	}
-	if r.maxRec < len(r.recChan) {
-		r.maxRec = len(r.recChan)
-	}
-	select {
-	case r.cur = <-r.recChan:
-	case <-r.bldDone:
-		if len(r.recChan) > 0 {
-			r.cur = <-r.recChan
-		}
-	}
-	if r.err != nil {
-		return false
-	}
-
-	return r.cur != nil
-}
-
-// WithAllocator specifies the Arrow memory allocator used while building records.
-func WithAllocator(mem memory.Allocator) Option {
-	return func(cfg config) {
-		cfg.mem = mem
-	}
-}
-
-// WithReadCacheSize specifies the size of the OCF record decode queue, default value
-// is 500.
-func WithReadCacheSize(n int) Option {
-	return func(cfg config) {
-		if n < 1 {
-			cfg.avroChanSize = 500
-		} else {
-			cfg.avroChanSize = n
-		}
-	}
-}
-
-// WithRecordCacheSize specifies the size of the converted Arrow record queue, default
-// value is 1.
-func WithRecordCacheSize(n int) Option {
-	return func(cfg config) {
-		if n < 1 {
-			cfg.recChanSize = 1
-		} else {
-			cfg.recChanSize = n
-		}
-	}
-}
-
-// WithSchemaEdit specifies modifications to the Avro schema. Supported methods are 'set' and
-// 'delete'. Set sets the value for the specified path. Delete deletes the value for the specified path.
-// A path is in dot syntax, such as "fields.1" or "fields.0.type". The modified Avro schema is
-// validated before conversion to Arrow schema - NewOCFReader will return an error if the modified schema
-// cannot be parsed.
-func WithSchemaEdit(method, path string, value any) Option {
-	return func(cfg config) {
-		var e schemaEdit
-		e.method = method
-		e.path = path
-		e.value = value
-		cfg.avroSchemaEdits = append(cfg.avroSchemaEdits, e)
-	}
-}
-
-// WithChunk specifies the chunk size used while reading Avro OCF files.
-//
-// If n is zero or 1, no chunking will take place and the reader will create
-// one record per row.
-// If n is greater than 1, chunks of n rows will be read.
-// If n is negative, the reader will load the whole Avro OCF file into memory and
-// create one big record with all the rows.
-func WithChunk(n int) Option {
-	return func(cfg config) {
-		cfg.chunk = n
-	}
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (r *OCFReader) Retain() {
-	atomic.AddInt64(&r.refs, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (r *OCFReader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refs) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refs, -1) == 0 {
-		if r.cur != nil {
-			r.cur.Release()
-		}
-	}
-}
-
-var _ array.RecordReader = (*OCFReader)(nil)
diff --git a/go/arrow/avro/reader_test.go b/go/arrow/avro/reader_test.go
deleted file mode 100644
index 2cb1a7caa801c..0000000000000
--- a/go/arrow/avro/reader_test.go
+++ /dev/null
@@ -1,364 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package avro
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	hamba "github.com/hamba/avro/v2"
-)
-
-func TestEditSchemaStringEqual(t *testing.T) {
-	tests := []struct {
-		avroSchema  string
-		arrowSchema []arrow.Field
-	}{
-		{
-			avroSchema: `{
-				"fields": [
-					{
-						"name": "inheritNull",
-						"type": {
-							"name": "Simple",
-							"symbols": [
-								"a",
-								"b"
-							],
-							"type": "enum"
-						}
-					},
-					{
-						"name": "explicitNamespace",
-						"type": {
-							"name": "test",
-							"namespace": "org.hamba.avro",
-							"size": 12,
-							"type": "fixed"
-						}
-					},
-					{
-						"name": "fullName",
-						"type": {
-							"type": "record",
-							"name": "fullName_data",
-							"namespace": "ignored",
-							"doc": "A name attribute with a fullname, so the namespace attribute is ignored. The fullname is 'a.full.Name', and the namespace is 'a.full'.",
-							"fields": [{
-									"name": "inheritNamespace",
-									"type": {
-										"type": "enum",
-										"name": "Understanding",
-										"doc": "A simple name (attribute) and no namespace attribute: inherit the namespace of the enclosing type 'a.full.Name'. The fullname is 'a.full.Understanding'.",
-										"symbols": ["d", "e"]
-									}
-								}, {
-									"name": "md5",
-									"type": {
-                                            "name": "md5_data",
-                                            "type": "fixed",
-									        "size": 16,
-									        "namespace": "ignored"
-                                    }
-								}
-							]
-						}
-					},
-					{
-						"name": "id",
-						"type": "int"
-					},
-					{
-						"name": "bigId",
-						"type": "long"
-					},
-					{
-						"name": "temperature",
-						"type": [
-							"null",
-							"float"
-						]
-					},
-					{
-						"name": "fraction",
-						"type": [
-							"null",
-							"double"
-						]
-					},
-					{
-						"name": "is_emergency",
-						"type": "boolean"
-					},
-					{
-						"name": "remote_ip",
-						"type": [
-							"null",
-							"bytes"
-						]
-					},
-					{
-						"name": "person",
-						"type": {
-							"fields": [
-								{
-									"name": "lastname",
-									"type": "string"
-								},
-								{
-									"name": "address",
-									"type": {
-										"fields": [
-											{
-												"name": "streetaddress",
-												"type": "string"
-											},
-											{
-												"name": "city",
-												"type": "string"
-											}
-										],
-										"name": "AddressUSRecord",
-										"type": "record"
-									}
-								},
-								{
-									"name": "mapfield",
-									"type": {
-										"default": {
-										},
-										"type": "map",
-										"values": "long"
-									}
-								},
-								{
-									"name": "arrayField",
-									"type": {
-										"default": [
-										],
-										"items": "string",
-										"type": "array"
-									}
-								}
-							],
-							"name": "person_data",
-							"type": "record"
-						}
-					},
-					{
-						"name": "decimalField",
-						"type": {
-							"logicalType": "decimal",
-							"precision": 4,
-							"scale": 2,
-							"type": "bytes"
-						}
-					},
-					{
-						"logicalType": "uuid",
-						"name": "uuidField",
-						"type": "string"
-					},
-					{
-						"name": "timemillis",
-						"type": {
-							"type": "int",
-							"logicalType": "time-millis"
-						}
-					},
-					{
-						"name": "timemicros",
-						"type": {
-								"type": "long",
-								"logicalType": "time-micros"
-						}
-					},
-					{
-						"name": "timestampmillis",
-						"type": {
-							"type": "long",
-							"logicalType": "timestamp-millis"
-						}
-					},
-					{
-						"name": "timestampmicros",
-						"type": {
-							"type": "long",
-							"logicalType": "timestamp-micros"
-						}
-					},
-					{
-						"name": "duration",
-						"type": {
-							"name": "duration",
-							"namespace": "whyowhy",
-							"logicalType": "duration",
-							"size": 12,
-							"type": "fixed"
-						}
-					},
-					{
-						"name": "date",
-						"type": {
-							"logicalType": "date",
-							"type": "int"
-						}
-					}
-				],
-				"name": "Example",
-				"type": "record"
-			}`,
-			arrowSchema: []arrow.Field{
-				{
-					Name: "explicitNamespace",
-					Type: &arrow.FixedSizeBinaryType{ByteWidth: 12},
-				},
-				{
-					Name: "fullName",
-					Type: arrow.StructOf(
-						arrow.Field{
-							Name: "inheritNamespace",
-							Type: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String, Ordered: false},
-						},
-						arrow.Field{
-							Name: "md5",
-							Type: &arrow.FixedSizeBinaryType{ByteWidth: 16},
-						},
-					),
-				},
-				{
-					Name: "id",
-					Type: arrow.PrimitiveTypes.Int32,
-				},
-				{
-					Name: "bigId",
-					Type: arrow.PrimitiveTypes.Int64,
-				},
-				{
-					Name:     "temperature",
-					Type:     arrow.PrimitiveTypes.Float32,
-					Nullable: true,
-				},
-				{
-					Name:     "fraction",
-					Type:     arrow.PrimitiveTypes.Float64,
-					Nullable: true,
-				},
-				{
-					Name: "is_emergency",
-					Type: arrow.FixedWidthTypes.Boolean,
-				},
-				{
-					Name:     "remote_ip",
-					Type:     arrow.BinaryTypes.Binary,
-					Nullable: true,
-				},
-				{
-					Name: "person",
-					Type: arrow.StructOf(
-						arrow.Field{
-							Name: "lastname",
-							Type: arrow.BinaryTypes.String,
-						},
-						arrow.Field{
-							Name: "address",
-							Type: arrow.StructOf(
-								arrow.Field{
-									Name: "streetaddress",
-									Type: arrow.BinaryTypes.String,
-								},
-								arrow.Field{
-									Name: "city",
-									Type: arrow.BinaryTypes.String,
-								},
-							),
-						},
-						arrow.Field{
-							Name:     "mapfield",
-							Type:     arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int64),
-							Nullable: true,
-						},
-						arrow.Field{
-							Name: "arrayField",
-							Type: arrow.ListOfNonNullable(arrow.BinaryTypes.String),
-						},
-					),
-				},
-				{
-					Name: "decimalField",
-					Type: &arrow.Decimal128Type{Precision: 4, Scale: 2},
-				},
-				{
-					Name: "uuidField",
-					Type: arrow.BinaryTypes.String,
-				},
-				{
-					Name: "timemillis",
-					Type: arrow.FixedWidthTypes.Time32ms,
-				},
-				{
-					Name: "timemicros",
-					Type: arrow.FixedWidthTypes.Time64us,
-				},
-				{
-					Name: "timestampmillis",
-					Type: arrow.FixedWidthTypes.Timestamp_ms,
-				},
-				{
-					Name: "timestampmicros",
-					Type: arrow.FixedWidthTypes.Timestamp_us,
-				},
-				{
-					Name: "duration",
-					Type: arrow.FixedWidthTypes.MonthDayNanoInterval,
-				},
-				{
-					Name: "date",
-					Type: arrow.FixedWidthTypes.Date32,
-				},
-			},
-		},
-	}
-
-	for _, test := range tests {
-		t.Run("", func(t *testing.T) {
-			want := arrow.NewSchema(test.arrowSchema, nil)
-
-			schema, err := hamba.ParseBytes([]byte(test.avroSchema))
-			if err != nil {
-				t.Fatalf("%v", err)
-			}
-			r := new(OCFReader)
-			r.avroSchema = schema.String()
-			r.editAvroSchema(schemaEdit{method: "delete", path: "fields.0"})
-			schema, err = hamba.Parse(r.avroSchema)
-			if err != nil {
-				t.Fatalf("%v: could not parse modified avro schema", arrow.ErrInvalid)
-			}
-			got, err := ArrowSchemaFromAvro(schema)
-			if err != nil {
-				t.Fatalf("%v", err)
-			}
-			if !(fmt.Sprintf("%+v", want.String()) == fmt.Sprintf("%+v", got.String())) {
-				t.Fatalf("got=%v,\n want=%v", got.String(), want.String())
-			} else {
-				t.Logf("schema.String() comparison passed")
-			}
-		})
-	}
-}
diff --git a/go/arrow/avro/reader_types.go b/go/arrow/avro/reader_types.go
deleted file mode 100644
index dab2b33dce601..0000000000000
--- a/go/arrow/avro/reader_types.go
+++ /dev/null
@@ -1,875 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package avro
-
-import (
-	"bytes"
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"math/big"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type dataLoader struct {
-	idx, depth int32
-	list       *fieldPos
-	item       *fieldPos
-	mapField   *fieldPos
-	mapKey     *fieldPos
-	mapValue   *fieldPos
-	fields     []*fieldPos
-	children   []*dataLoader
-}
-
-var (
-	ErrNullStructData = errors.New("null struct data")
-)
-
-func newDataLoader() *dataLoader { return &dataLoader{idx: 0, depth: 0} }
-
-// drawTree takes the tree of field builders produced by mapFieldBuilders()
-// and produces another tree structure and aggregates fields whose values can
-// be retrieved from a `map[string]any` into a slice of builders, and creates a hierarchy to
-// deal with nested types (lists and maps).
-func (d *dataLoader) drawTree(field *fieldPos) {
-	for _, f := range field.children() {
-		if f.isList || f.isMap {
-			if f.isList {
-				c := d.newListChild(f)
-				if !f.childrens[0].isList {
-					c.item = f.childrens[0]
-					c.drawTree(f.childrens[0])
-				} else {
-					c.drawTree(f.childrens[0].childrens[0])
-				}
-			}
-			if f.isMap {
-				c := d.newMapChild(f)
-				if !arrow.IsNested(f.childrens[1].builder.Type().ID()) {
-					c.mapKey = f.childrens[0]
-					c.mapValue = f.childrens[1]
-				} else {
-					c.mapKey = f.childrens[0]
-					m := c.newChild()
-					m.mapValue = f.childrens[1]
-					m.drawTree(f.childrens[1])
-				}
-			}
-		} else {
-			d.fields = append(d.fields, f)
-			if len(f.children()) > 0 {
-				d.drawTree(f)
-			}
-		}
-	}
-}
-
-// loadDatum loads decoded Avro data to the schema fields' builder functions.
-// Since array.StructBuilder.AppendNull() will recursively append null to all of the
-// struct's fields, in the case of nil being passed to a struct's builderFunc it will
-// return a ErrNullStructData error to signal that all its sub-fields can be skipped.
-func (d *dataLoader) loadDatum(data any) error {
-	if d.list == nil && d.mapField == nil {
-		if d.mapValue != nil {
-			d.mapValue.appendFunc(data)
-		}
-		var NullParent *fieldPos
-		for _, f := range d.fields {
-			if f.parent == NullParent {
-				continue
-			}
-			if d.mapValue == nil {
-				err := f.appendFunc(f.getValue(data))
-				if err != nil {
-					if err == ErrNullStructData {
-						NullParent = f
-						continue
-					}
-					return err
-				}
-			} else {
-				switch dt := data.(type) {
-				case nil:
-					err := f.appendFunc(dt)
-					if err != nil {
-						if err == ErrNullStructData {
-							NullParent = f
-							continue
-						}
-						return err
-					}
-				case []any:
-					if len(d.children) < 1 {
-						for _, e := range dt {
-							err := f.appendFunc(e)
-							if err != nil {
-								if err == ErrNullStructData {
-									NullParent = f
-									continue
-								}
-								return err
-							}
-						}
-					} else {
-						for _, e := range dt {
-							d.children[0].loadDatum(e)
-						}
-					}
-				case map[string]any:
-					err := f.appendFunc(f.getValue(dt))
-					if err != nil {
-						if err == ErrNullStructData {
-							NullParent = f
-							continue
-						}
-						return err
-					}
-				}
-
-			}
-		}
-		for _, c := range d.children {
-			if c.list != nil {
-				c.loadDatum(c.list.getValue(data))
-			}
-			if c.mapField != nil {
-				switch dt := data.(type) {
-				case nil:
-					c.loadDatum(dt)
-				case map[string]any:
-					c.loadDatum(c.mapField.getValue(dt))
-				default:
-					c.loadDatum(c.mapField.getValue(data))
-				}
-			}
-		}
-	} else {
-		if d.list != nil {
-			switch dt := data.(type) {
-			case nil:
-				d.list.appendFunc(dt)
-			case []any:
-				d.list.appendFunc(dt)
-				for _, e := range dt {
-					if d.item != nil {
-						d.item.appendFunc(e)
-					}
-					var NullParent *fieldPos
-					for _, f := range d.fields {
-						if f.parent == NullParent {
-							continue
-						}
-						err := f.appendFunc(f.getValue(e))
-						if err != nil {
-							if err == ErrNullStructData {
-								NullParent = f
-								continue
-							}
-							return err
-						}
-					}
-					for _, c := range d.children {
-						if c.list != nil {
-							c.loadDatum(c.list.getValue(e))
-						}
-						if c.mapField != nil {
-							c.loadDatum(c.mapField.getValue(e))
-						}
-					}
-				}
-			case map[string]any:
-				d.list.appendFunc(dt["array"])
-				for _, e := range dt["array"].([]any) {
-					if d.item != nil {
-						d.item.appendFunc(e)
-					}
-					var NullParent *fieldPos
-					for _, f := range d.fields {
-						if f.parent == NullParent {
-							continue
-						}
-						err := f.appendFunc(f.getValue(e))
-						if err != nil {
-							if err == ErrNullStructData {
-								NullParent = f
-								continue
-							}
-							return err
-						}
-					}
-					for _, c := range d.children {
-						c.loadDatum(c.list.getValue(e))
-					}
-				}
-			default:
-				d.list.appendFunc(data)
-				d.item.appendFunc(dt)
-			}
-		}
-		if d.mapField != nil {
-			switch dt := data.(type) {
-			case nil:
-				d.mapField.appendFunc(dt)
-			case map[string]any:
-
-				d.mapField.appendFunc(dt)
-				for k, v := range dt {
-					d.mapKey.appendFunc(k)
-					if d.mapValue != nil {
-						d.mapValue.appendFunc(v)
-					} else {
-						d.children[0].loadDatum(v)
-					}
-				}
-			}
-		}
-	}
-	return nil
-}
-
-func (d *dataLoader) newChild() *dataLoader {
-	var child *dataLoader = &dataLoader{
-		depth: d.depth + 1,
-	}
-	d.children = append(d.children, child)
-	return child
-}
-
-func (d *dataLoader) newListChild(list *fieldPos) *dataLoader {
-	var child *dataLoader = &dataLoader{
-		list:  list,
-		item:  list.childrens[0],
-		depth: d.depth + 1,
-	}
-	d.children = append(d.children, child)
-	return child
-}
-
-func (d *dataLoader) newMapChild(mapField *fieldPos) *dataLoader {
-	var child *dataLoader = &dataLoader{
-		mapField: mapField,
-		depth:    d.depth + 1,
-	}
-	d.children = append(d.children, child)
-	return child
-}
-
-type fieldPos struct {
-	parent       *fieldPos
-	fieldName    string
-	builder      array.Builder
-	path         []string
-	isList       bool
-	isItem       bool
-	isStruct     bool
-	isMap        bool
-	typeName     string
-	appendFunc   func(val interface{}) error
-	metadatas    arrow.Metadata
-	childrens    []*fieldPos
-	index, depth int32
-}
-
-func newFieldPos() *fieldPos { return &fieldPos{index: -1} }
-
-func (f *fieldPos) children() []*fieldPos { return f.childrens }
-
-func (f *fieldPos) newChild(childName string, childBuilder array.Builder, meta arrow.Metadata) *fieldPos {
-	var child fieldPos = fieldPos{
-		parent:    f,
-		fieldName: childName,
-		builder:   childBuilder,
-		metadatas: meta,
-		index:     int32(len(f.childrens)),
-		depth:     f.depth + 1,
-	}
-	if f.isList {
-		child.isItem = true
-	}
-	child.path = child.buildNamePath()
-	f.childrens = append(f.childrens, &child)
-	return &child
-}
-
-func (f *fieldPos) buildNamePath() []string {
-	var path []string
-	var listPath []string
-	cur := f
-	for i := f.depth - 1; i >= 0; i-- {
-		if cur.typeName == "" {
-			path = append([]string{cur.fieldName}, path...)
-		} else {
-			path = append([]string{cur.fieldName, cur.typeName}, path...)
-		}
-		if !cur.parent.isMap {
-			cur = cur.parent
-		}
-	}
-	if f.parent.parent != nil && f.parent.parent.isList {
-		for i := len(path) - 1; i >= 0; i-- {
-			if path[i] != "item" {
-				listPath = append([]string{path[i]}, listPath...)
-			} else {
-				return listPath
-			}
-		}
-	}
-	if f.parent != nil && f.parent.fieldName == "value" {
-		for i := len(path) - 1; i >= 0; i-- {
-			if path[i] != "value" {
-				listPath = append([]string{path[i]}, listPath...)
-			} else {
-				return listPath
-			}
-		}
-	}
-	return path
-}
-
-// NamePath returns a slice of keys making up the path to the field
-func (f *fieldPos) namePath() []string { return f.path }
-
-// GetValue retrieves the value from the map[string]any
-// by following the field's key path
-func (f *fieldPos) getValue(m any) any {
-	if _, ok := m.(map[string]any); !ok {
-		return m
-	}
-	for _, key := range f.namePath() {
-		valueMap, ok := m.(map[string]any)
-		if !ok {
-			if key == "item" {
-				return m
-			}
-			return nil
-		}
-		m, ok = valueMap[key]
-		if !ok {
-			return nil
-		}
-	}
-	return m
-}
-
-// Avro data is loaded to Arrow arrays using the following type mapping:
-//
-//	Avro					Go    			Arrow
-//	null					nil				Null
-//	boolean					bool			Boolean
-//	bytes					[]byte			Binary
-//	float					float32			Float32
-//	double					float64			Float64
-//	long					int64			Int64
-//	int						int32  			Int32
-//	string					string			String
-//	array					[]interface{}	List
-//	enum					string			Dictionary
-//	fixed					[]byte			FixedSizeBinary
-//	map and record	map[string]any	Struct
-//
-// mapFieldBuilders builds a tree of field builders matching the Arrow schema
-func mapFieldBuilders(b array.Builder, field arrow.Field, parent *fieldPos) {
-	f := parent.newChild(field.Name, b, field.Metadata)
-	switch bt := b.(type) {
-	case *array.BinaryBuilder:
-		f.appendFunc = func(data interface{}) error {
-			appendBinaryData(bt, data)
-			return nil
-		}
-	case *array.BinaryDictionaryBuilder:
-		// has metadata for Avro enum symbols
-		f.appendFunc = func(data interface{}) error {
-			appendBinaryDictData(bt, data)
-			return nil
-		}
-		// add Avro enum symbols to builder
-		sb := array.NewStringBuilder(memory.DefaultAllocator)
-		for _, v := range field.Metadata.Values() {
-			sb.Append(v)
-		}
-		sa := sb.NewStringArray()
-		bt.InsertStringDictValues(sa)
-	case *array.BooleanBuilder:
-		f.appendFunc = func(data interface{}) error {
-			appendBoolData(bt, data)
-			return nil
-		}
-	case *array.Date32Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendDate32Data(bt, data)
-			return nil
-		}
-	case *array.Decimal128Builder:
-		f.appendFunc = func(data interface{}) error {
-			err := appendDecimal128Data(bt, data)
-			if err != nil {
-				return err
-			}
-			return nil
-		}
-	case *array.Decimal256Builder:
-		f.appendFunc = func(data interface{}) error {
-			err := appendDecimal256Data(bt, data)
-			if err != nil {
-				return err
-			}
-			return nil
-		}
-	case *extensions.UUIDBuilder:
-		f.appendFunc = func(data interface{}) error {
-			switch dt := data.(type) {
-			case nil:
-				bt.AppendNull()
-			case string:
-				err := bt.AppendValueFromString(dt)
-				if err != nil {
-					return err
-				}
-			case []byte:
-				err := bt.AppendValueFromString(string(dt))
-				if err != nil {
-					return err
-				}
-			}
-			return nil
-		}
-	case *array.FixedSizeBinaryBuilder:
-		f.appendFunc = func(data interface{}) error {
-			appendFixedSizeBinaryData(bt, data)
-			return nil
-		}
-	case *array.Float32Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendFloat32Data(bt, data)
-			return nil
-		}
-	case *array.Float64Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendFloat64Data(bt, data)
-			return nil
-		}
-	case *array.Int32Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendInt32Data(bt, data)
-			return nil
-		}
-	case *array.Int64Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendInt64Data(bt, data)
-			return nil
-		}
-	case *array.LargeListBuilder:
-		vb := bt.ValueBuilder()
-		f.isList = true
-		mapFieldBuilders(vb, field.Type.(*arrow.LargeListType).ElemField(), f)
-		f.appendFunc = func(data interface{}) error {
-			switch dt := data.(type) {
-			case nil:
-				bt.AppendNull()
-			case []interface{}:
-				if len(dt) == 0 {
-					bt.AppendEmptyValue()
-				} else {
-					bt.Append(true)
-				}
-			default:
-				bt.Append(true)
-			}
-			return nil
-		}
-	case *array.ListBuilder:
-		vb := bt.ValueBuilder()
-		f.isList = true
-		mapFieldBuilders(vb, field.Type.(*arrow.ListType).ElemField(), f)
-		f.appendFunc = func(data interface{}) error {
-			switch dt := data.(type) {
-			case nil:
-				bt.AppendNull()
-			case []interface{}:
-				if len(dt) == 0 {
-					bt.AppendEmptyValue()
-				} else {
-					bt.Append(true)
-				}
-			default:
-				bt.Append(true)
-			}
-			return nil
-		}
-	case *array.MapBuilder:
-		// has metadata for objects in values
-		f.isMap = true
-		kb := bt.KeyBuilder()
-		ib := bt.ItemBuilder()
-		mapFieldBuilders(kb, field.Type.(*arrow.MapType).KeyField(), f)
-		mapFieldBuilders(ib, field.Type.(*arrow.MapType).ItemField(), f)
-		f.appendFunc = func(data interface{}) error {
-			switch data.(type) {
-			case nil:
-				bt.AppendNull()
-			default:
-				bt.Append(true)
-			}
-			return nil
-		}
-	case *array.MonthDayNanoIntervalBuilder:
-		f.appendFunc = func(data interface{}) error {
-			appendDurationData(bt, data)
-			return nil
-		}
-	case *array.StringBuilder:
-		f.appendFunc = func(data interface{}) error {
-			appendStringData(bt, data)
-			return nil
-		}
-	case *array.StructBuilder:
-		// has metadata for Avro Union named types
-		f.typeName, _ = field.Metadata.GetValue("typeName")
-		f.isStruct = true
-		// create children
-		for i, p := range field.Type.(*arrow.StructType).Fields() {
-			mapFieldBuilders(bt.FieldBuilder(i), p, f)
-		}
-		f.appendFunc = func(data interface{}) error {
-			switch data.(type) {
-			case nil:
-				bt.AppendNull()
-				return ErrNullStructData
-			default:
-				bt.Append(true)
-			}
-			return nil
-		}
-	case *array.Time32Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendTime32Data(bt, data)
-			return nil
-		}
-	case *array.Time64Builder:
-		f.appendFunc = func(data interface{}) error {
-			appendTime64Data(bt, data)
-			return nil
-		}
-	case *array.TimestampBuilder:
-		f.appendFunc = func(data interface{}) error {
-			appendTimestampData(bt, data)
-			return nil
-		}
-	}
-}
-
-func appendBinaryData(b *array.BinaryBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case map[string]any:
-		switch ct := dt["bytes"].(type) {
-		case nil:
-			b.AppendNull()
-		default:
-			b.Append(ct.([]byte))
-		}
-	default:
-		b.Append(fmt.Append([]byte{}, data))
-	}
-}
-
-func appendBinaryDictData(b *array.BinaryDictionaryBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		b.AppendString(dt)
-	case map[string]any:
-		switch v := dt["string"].(type) {
-		case nil:
-			b.AppendNull()
-		case string:
-			b.AppendString(v)
-		}
-	}
-}
-
-func appendBoolData(b *array.BooleanBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case bool:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["boolean"].(type) {
-		case nil:
-			b.AppendNull()
-		case bool:
-			b.Append(v)
-		}
-	}
-}
-
-func appendDate32Data(b *array.Date32Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case int32:
-		b.Append(arrow.Date32(dt))
-	case map[string]any:
-		switch v := dt["int"].(type) {
-		case nil:
-			b.AppendNull()
-		case int32:
-			b.Append(arrow.Date32(v))
-		}
-	}
-}
-
-func appendDecimal128Data(b *array.Decimal128Builder, data interface{}) error {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case []byte:
-		buf := bytes.NewBuffer(dt)
-		if len(dt) <= 38 {
-			var intData int64
-			err := binary.Read(buf, binary.BigEndian, &intData)
-			if err != nil {
-				return err
-			}
-			b.Append(decimal128.FromI64(intData))
-		} else {
-			var bigIntData big.Int
-			b.Append(decimal128.FromBigInt(bigIntData.SetBytes(buf.Bytes())))
-		}
-	case map[string]any:
-		buf := bytes.NewBuffer(dt["bytes"].([]byte))
-		if len(dt["bytes"].([]byte)) <= 38 {
-			var intData int64
-			err := binary.Read(buf, binary.BigEndian, &intData)
-			if err != nil {
-				return err
-			}
-			b.Append(decimal128.FromI64(intData))
-		} else {
-			var bigIntData big.Int
-			b.Append(decimal128.FromBigInt(bigIntData.SetBytes(buf.Bytes())))
-		}
-	}
-	return nil
-}
-
-func appendDecimal256Data(b *array.Decimal256Builder, data interface{}) error {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case []byte:
-		var bigIntData big.Int
-		buf := bytes.NewBuffer(dt)
-		b.Append(decimal256.FromBigInt(bigIntData.SetBytes(buf.Bytes())))
-	case map[string]any:
-		var bigIntData big.Int
-		buf := bytes.NewBuffer(dt["bytes"].([]byte))
-		b.Append(decimal256.FromBigInt(bigIntData.SetBytes(buf.Bytes())))
-	}
-	return nil
-}
-
-// Avro duration logical type annotates Avro fixed type of size 12, which stores three little-endian
-// unsigned integers that represent durations at different granularities of time. The first stores
-// a number in months, the second stores a number in days, and the third stores a number in milliseconds.
-func appendDurationData(b *array.MonthDayNanoIntervalBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case []byte:
-		dur := new(arrow.MonthDayNanoInterval)
-		dur.Months = int32(binary.LittleEndian.Uint16(dt[:3]))
-		dur.Days = int32(binary.LittleEndian.Uint16(dt[4:7]))
-		dur.Nanoseconds = int64(binary.LittleEndian.Uint32(dt[8:]) * 1000000)
-		b.Append(*dur)
-	case map[string]any:
-		switch dtb := dt["bytes"].(type) {
-		case nil:
-			b.AppendNull()
-		case []byte:
-			dur := new(arrow.MonthDayNanoInterval)
-			dur.Months = int32(binary.LittleEndian.Uint16(dtb[:3]))
-			dur.Days = int32(binary.LittleEndian.Uint16(dtb[4:7]))
-			dur.Nanoseconds = int64(binary.LittleEndian.Uint32(dtb[8:]) * 1000000)
-			b.Append(*dur)
-		}
-	}
-}
-
-func appendFixedSizeBinaryData(b *array.FixedSizeBinaryBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case []byte:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["bytes"].(type) {
-		case nil:
-			b.AppendNull()
-		case []byte:
-			b.Append(v)
-		}
-	}
-}
-
-func appendFloat32Data(b *array.Float32Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case float32:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["float"].(type) {
-		case nil:
-			b.AppendNull()
-		case float32:
-			b.Append(v)
-		}
-	}
-}
-
-func appendFloat64Data(b *array.Float64Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case float64:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["double"].(type) {
-		case nil:
-			b.AppendNull()
-		case float64:
-			b.Append(v)
-		}
-	}
-}
-
-func appendInt32Data(b *array.Int32Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case int:
-		b.Append(int32(dt))
-	case int32:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["int"].(type) {
-		case nil:
-			b.AppendNull()
-		case int:
-			b.Append(int32(v))
-		case int32:
-			b.Append(v)
-		}
-	}
-}
-
-func appendInt64Data(b *array.Int64Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case int:
-		b.Append(int64(dt))
-	case int64:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["long"].(type) {
-		case nil:
-			b.AppendNull()
-		case int:
-			b.Append(int64(v))
-		case int64:
-			b.Append(v)
-		}
-	}
-}
-
-func appendStringData(b *array.StringBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case string:
-		b.Append(dt)
-	case map[string]any:
-		switch v := dt["string"].(type) {
-		case nil:
-			b.AppendNull()
-		case string:
-			b.Append(v)
-		}
-	default:
-		b.Append(fmt.Sprint(data))
-	}
-}
-
-func appendTime32Data(b *array.Time32Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case int32:
-		b.Append(arrow.Time32(dt))
-	case map[string]any:
-		switch v := dt["int"].(type) {
-		case nil:
-			b.AppendNull()
-		case int32:
-			b.Append(arrow.Time32(v))
-		}
-	}
-}
-
-func appendTime64Data(b *array.Time64Builder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case int64:
-		b.Append(arrow.Time64(dt))
-	case map[string]any:
-		switch v := dt["long"].(type) {
-		case nil:
-			b.AppendNull()
-		case int64:
-			b.Append(arrow.Time64(v))
-		}
-	}
-}
-
-func appendTimestampData(b *array.TimestampBuilder, data interface{}) {
-	switch dt := data.(type) {
-	case nil:
-		b.AppendNull()
-	case int64:
-		b.Append(arrow.Timestamp(dt))
-	case map[string]any:
-		switch v := dt["long"].(type) {
-		case nil:
-			b.AppendNull()
-		case int64:
-			b.Append(arrow.Timestamp(v))
-		}
-	}
-}
diff --git a/go/arrow/avro/schema.go b/go/arrow/avro/schema.go
deleted file mode 100644
index a6de3718d3ccf..0000000000000
--- a/go/arrow/avro/schema.go
+++ /dev/null
@@ -1,423 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package avro reads Avro OCF files and presents the extracted data as records
-package avro
-
-import (
-	"fmt"
-	"math"
-	"strconv"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	avro "github.com/hamba/avro/v2"
-)
-
-type schemaNode struct {
-	name         string
-	parent       *schemaNode
-	schema       avro.Schema
-	union        bool
-	nullable     bool
-	childrens    []*schemaNode
-	arrowField   arrow.Field
-	schemaCache  *avro.SchemaCache
-	index, depth int32
-}
-
-func newSchemaNode() *schemaNode {
-	var schemaCache avro.SchemaCache
-	return &schemaNode{name: "", index: -1, schemaCache: &schemaCache}
-}
-
-func (node *schemaNode) schemaPath() string {
-	var path string
-	n := node
-	for n.parent != nil {
-		path = "." + n.name + path
-		n = n.parent
-	}
-	return path
-}
-
-func (node *schemaNode) newChild(n string, s avro.Schema) *schemaNode {
-	child := &schemaNode{
-		name:        n,
-		parent:      node,
-		schema:      s,
-		schemaCache: node.schemaCache,
-		index:       int32(len(node.childrens)),
-		depth:       node.depth + 1,
-	}
-	node.childrens = append(node.childrens, child)
-	return child
-}
-func (node *schemaNode) children() []*schemaNode { return node.childrens }
-
-// func (node *schemaNode) nodeName() string { return node.name }
-
-// ArrowSchemaFromAvro returns a new Arrow schema from an Avro schema
-func ArrowSchemaFromAvro(schema avro.Schema) (s *arrow.Schema, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			s = nil
-			err = utils.FormatRecoveredError("invalid avro schema", r)
-		}
-	}()
-	n := newSchemaNode()
-	n.schema = schema
-	c := n.newChild(n.schema.(avro.NamedSchema).Name(), n.schema)
-	arrowSchemafromAvro(c)
-	var fields []arrow.Field
-	for _, g := range c.children() {
-		fields = append(fields, g.arrowField)
-	}
-	s = arrow.NewSchema(fields, nil)
-	return s, nil
-}
-
-func arrowSchemafromAvro(n *schemaNode) {
-	if ns, ok := n.schema.(avro.NamedSchema); ok {
-		n.schemaCache.Add(ns.Name(), ns)
-	}
-	switch st := n.schema.Type(); st {
-	case "record":
-		iterateFields(n)
-	case "enum":
-		n.schemaCache.Add(n.schema.(avro.NamedSchema).Name(), n.schema.(*avro.EnumSchema))
-		symbols := make(map[string]string)
-		for index, symbol := range n.schema.(avro.PropertySchema).(*avro.EnumSchema).Symbols() {
-			k := strconv.FormatInt(int64(index), 10)
-			symbols[k] = symbol
-		}
-		var dt arrow.DictionaryType = arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint64, ValueType: arrow.BinaryTypes.String, Ordered: false}
-		sl := int64(len(symbols))
-		switch {
-		case sl <= math.MaxUint8:
-			dt.IndexType = arrow.PrimitiveTypes.Uint8
-		case sl > math.MaxUint8 && sl <= math.MaxUint16:
-			dt.IndexType = arrow.PrimitiveTypes.Uint16
-		case sl > math.MaxUint16 && sl <= math.MaxUint32:
-			dt.IndexType = arrow.PrimitiveTypes.Uint32
-		}
-		n.arrowField = buildArrowField(n, &dt, arrow.MetadataFrom(symbols))
-	case "array":
-		// logical items type
-		c := n.newChild(n.name, n.schema.(*avro.ArraySchema).Items())
-		if isLogicalSchemaType(n.schema.(*avro.ArraySchema).Items()) {
-			avroLogicalToArrowField(c)
-		} else {
-			arrowSchemafromAvro(c)
-		}
-		switch c.arrowField.Nullable {
-		case true:
-			n.arrowField = arrow.Field{Name: n.name, Type: arrow.ListOfField(c.arrowField), Metadata: c.arrowField.Metadata}
-		case false:
-			n.arrowField = arrow.Field{Name: n.name, Type: arrow.ListOfNonNullable(c.arrowField.Type), Metadata: c.arrowField.Metadata}
-		}
-	case "map":
-		n.schemaCache.Add(n.schema.(*avro.MapSchema).Values().(avro.NamedSchema).Name(), n.schema.(*avro.MapSchema).Values())
-		c := n.newChild(n.name, n.schema.(*avro.MapSchema).Values())
-		arrowSchemafromAvro(c)
-		n.arrowField = buildArrowField(n, arrow.MapOf(arrow.BinaryTypes.String, c.arrowField.Type), c.arrowField.Metadata)
-	case "union":
-		if n.schema.(*avro.UnionSchema).Nullable() {
-			if len(n.schema.(*avro.UnionSchema).Types()) > 1 {
-				n.schema = n.schema.(*avro.UnionSchema).Types()[1]
-				n.union = true
-				n.nullable = true
-				arrowSchemafromAvro(n)
-			}
-		}
-	// Avro "fixed" field type = Arrow FixedSize Primitive BinaryType
-	case "fixed":
-		n.schemaCache.Add(n.schema.(avro.NamedSchema).Name(), n.schema.(*avro.FixedSchema))
-		if isLogicalSchemaType(n.schema) {
-			avroLogicalToArrowField(n)
-		} else {
-			n.arrowField = buildArrowField(n, &arrow.FixedSizeBinaryType{ByteWidth: n.schema.(*avro.FixedSchema).Size()}, arrow.Metadata{})
-		}
-	case "string", "bytes", "int", "long":
-		if isLogicalSchemaType(n.schema) {
-			avroLogicalToArrowField(n)
-		} else {
-			n.arrowField = buildArrowField(n, avroPrimitiveToArrowType(string(st)), arrow.Metadata{})
-		}
-	case "float", "double", "boolean":
-		n.arrowField = arrow.Field{Name: n.name, Type: avroPrimitiveToArrowType(string(st)), Nullable: n.nullable}
-	case "<ref>":
-		refSchema := n.schemaCache.Get(string(n.schema.(*avro.RefSchema).Schema().Name()))
-		if refSchema == nil {
-			panic(fmt.Errorf("could not find schema for '%v' in schema cache - %v", n.schemaPath(), n.schema.(*avro.RefSchema).Schema().Name()))
-		}
-		n.schema = refSchema
-		arrowSchemafromAvro(n)
-	case "null":
-		n.schemaCache.Add(n.schema.(*avro.MapSchema).Values().(avro.NamedSchema).Name(), &avro.NullSchema{})
-		n.nullable = true
-		n.arrowField = buildArrowField(n, arrow.Null, arrow.Metadata{})
-	}
-}
-
-// iterate record Fields()
-func iterateFields(n *schemaNode) {
-	for _, f := range n.schema.(*avro.RecordSchema).Fields() {
-		switch ft := f.Type().(type) {
-		// Avro "array" field type
-		case *avro.ArraySchema:
-			n.schemaCache.Add(f.Name(), ft.Items())
-			// logical items type
-			c := n.newChild(f.Name(), ft.Items())
-			if isLogicalSchemaType(ft.Items()) {
-				avroLogicalToArrowField(c)
-			} else {
-				arrowSchemafromAvro(c)
-			}
-			switch c.arrowField.Nullable {
-			case true:
-				c.arrowField = arrow.Field{Name: c.name, Type: arrow.ListOfField(c.arrowField), Metadata: c.arrowField.Metadata}
-			case false:
-				c.arrowField = arrow.Field{Name: c.name, Type: arrow.ListOfNonNullable(c.arrowField.Type), Metadata: c.arrowField.Metadata}
-			}
-		// Avro "enum" field type = Arrow dictionary type
-		case *avro.EnumSchema:
-			n.schemaCache.Add(f.Type().(*avro.EnumSchema).Name(), f.Type())
-			c := n.newChild(f.Name(), f.Type())
-			symbols := make(map[string]string)
-			for index, symbol := range ft.Symbols() {
-				k := strconv.FormatInt(int64(index), 10)
-				symbols[k] = symbol
-			}
-			var dt arrow.DictionaryType = arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint64, ValueType: arrow.BinaryTypes.String, Ordered: false}
-			sl := len(symbols)
-			switch {
-			case sl <= math.MaxUint8:
-				dt.IndexType = arrow.PrimitiveTypes.Uint8
-			case sl > math.MaxUint8 && sl <= math.MaxUint16:
-				dt.IndexType = arrow.PrimitiveTypes.Uint16
-			case sl > math.MaxUint16 && sl <= math.MaxInt:
-				dt.IndexType = arrow.PrimitiveTypes.Uint32
-			}
-			c.arrowField = buildArrowField(c, &dt, arrow.MetadataFrom(symbols))
-		// Avro "fixed" field type = Arrow FixedSize Primitive BinaryType
-		case *avro.FixedSchema:
-			n.schemaCache.Add(f.Name(), f.Type())
-			c := n.newChild(f.Name(), f.Type())
-			if isLogicalSchemaType(f.Type()) {
-				avroLogicalToArrowField(c)
-			} else {
-				arrowSchemafromAvro(c)
-			}
-		case *avro.RecordSchema:
-			n.schemaCache.Add(f.Name(), f.Type())
-			c := n.newChild(f.Name(), f.Type())
-			iterateFields(c)
-			// Avro "map" field type - KVP with value of one type - keys are strings
-		case *avro.MapSchema:
-			n.schemaCache.Add(f.Name(), ft.Values())
-			c := n.newChild(f.Name(), ft.Values())
-			arrowSchemafromAvro(c)
-			c.arrowField = buildArrowField(c, arrow.MapOf(arrow.BinaryTypes.String, c.arrowField.Type), c.arrowField.Metadata)
-		case *avro.UnionSchema:
-			if ft.Nullable() {
-				if len(ft.Types()) > 1 {
-					n.schemaCache.Add(f.Name(), ft.Types()[1])
-					c := n.newChild(f.Name(), ft.Types()[1])
-					c.union = true
-					c.nullable = true
-					arrowSchemafromAvro(c)
-				}
-			}
-		default:
-			n.schemaCache.Add(f.Name(), f.Type())
-			if isLogicalSchemaType(f.Type()) {
-				c := n.newChild(f.Name(), f.Type())
-				avroLogicalToArrowField(c)
-			} else {
-				c := n.newChild(f.Name(), f.Type())
-				arrowSchemafromAvro(c)
-			}
-
-		}
-	}
-	var fields []arrow.Field
-	for _, child := range n.children() {
-		fields = append(fields, child.arrowField)
-	}
-
-	namedSchema, ok := isNamedSchema(n.schema)
-
-	var md arrow.Metadata
-	if ok && namedSchema != n.name+"_data" && n.union {
-		md = arrow.NewMetadata([]string{"typeName"}, []string{namedSchema})
-	}
-	n.arrowField = buildArrowField(n, arrow.StructOf(fields...), md)
-}
-
-func isLogicalSchemaType(s avro.Schema) bool {
-	lts, ok := s.(avro.LogicalTypeSchema)
-	if !ok {
-		return false
-	}
-	if lts.Logical() != nil {
-		return true
-	}
-	return false
-}
-
-func isNamedSchema(s avro.Schema) (string, bool) {
-	if ns, ok := s.(avro.NamedSchema); ok {
-		return ns.FullName(), ok
-	}
-	return "", false
-}
-
-func buildArrowField(n *schemaNode, t arrow.DataType, m arrow.Metadata) arrow.Field {
-	return arrow.Field{
-		Name:     n.name,
-		Type:     t,
-		Metadata: m,
-		Nullable: n.nullable,
-	}
-}
-
-// Avro primitive type.
-//
-// NOTE: Arrow Binary type is used as a catchall to avoid potential data loss.
-func avroPrimitiveToArrowType(avroFieldType string) arrow.DataType {
-	switch avroFieldType {
-	// int: 32-bit signed integer
-	case "int":
-		return arrow.PrimitiveTypes.Int32
-	// long: 64-bit signed integer
-	case "long":
-		return arrow.PrimitiveTypes.Int64
-	// float: single precision (32-bit) IEEE 754 floating-point number
-	case "float":
-		return arrow.PrimitiveTypes.Float32
-	// double: double precision (64-bit) IEEE 754 floating-point number
-	case "double":
-		return arrow.PrimitiveTypes.Float64
-	// bytes: sequence of 8-bit unsigned bytes
-	case "bytes":
-		return arrow.BinaryTypes.Binary
-	// boolean: a binary value
-	case "boolean":
-		return arrow.FixedWidthTypes.Boolean
-	// string: unicode character sequence
-	case "string":
-		return arrow.BinaryTypes.String
-	}
-	return nil
-}
-
-func avroLogicalToArrowField(n *schemaNode) {
-	var dt arrow.DataType
-	// Avro logical types
-	switch lt := n.schema.(avro.LogicalTypeSchema).Logical(); lt.Type() {
-	// The decimal logical type represents an arbitrary-precision signed decimal number of the form unscaled × 10-scale.
-	// A decimal logical type annotates Avro bytes or fixed types. The byte array must contain the two’s-complement
-	// representation of the unscaled integer value in big-endian byte order. The scale is fixed, and is specified
-	// using an attribute.
-	//
-	// The following attributes are supported:
-	// scale, a JSON integer representing the scale (optional). If not specified the scale is 0.
-	// precision, a JSON integer representing the (maximum) precision of decimals stored in this type (required).
-	case "decimal":
-		id := arrow.DECIMAL128
-		if lt.(*avro.DecimalLogicalSchema).Precision() > decimal128.MaxPrecision {
-			id = arrow.DECIMAL256
-		}
-		dt, _ = arrow.NewDecimalType(id, int32(lt.(*avro.DecimalLogicalSchema).Precision()), int32(lt.(*avro.DecimalLogicalSchema).Scale()))
-
-		// The uuid logical type represents a random generated universally unique identifier (UUID).
-		// A uuid logical type annotates an Avro string. The string has to conform with RFC-4122
-	case "uuid":
-		dt = extensions.NewUUIDType()
-
-	// The date logical type represents a date within the calendar, with no reference to a particular
-	// time zone or time of day.
-	// A date logical type annotates an Avro int, where the int stores the number of days from the unix epoch,
-	// 1 January 1970 (ISO calendar).
-	case "date":
-		dt = arrow.FixedWidthTypes.Date32
-
-	// The time-millis logical type represents a time of day, with no reference to a particular calendar,
-	// time zone or date, with a precision of one millisecond.
-	// A time-millis logical type annotates an Avro int, where the int stores the number of milliseconds
-	// after midnight, 00:00:00.000.
-	case "time-millis":
-		dt = arrow.FixedWidthTypes.Time32ms
-
-	// The time-micros logical type represents a time of day, with no reference to a particular calendar,
-	// time zone or date, with a precision of one microsecond.
-	// A time-micros logical type annotates an Avro long, where the long stores the number of microseconds
-	// after midnight, 00:00:00.000000.
-	case "time-micros":
-		dt = arrow.FixedWidthTypes.Time64us
-
-	// The timestamp-millis logical type represents an instant on the global timeline, independent of a
-	// particular time zone or calendar, with a precision of one millisecond. Please note that time zone
-	// information gets lost in this process. Upon reading a value back, we can only reconstruct the instant,
-	// but not the original representation. In practice, such timestamps are typically displayed to users in
-	// their local time zones, therefore they may be displayed differently depending on the execution environment.
-	// A timestamp-millis logical type annotates an Avro long, where the long stores the number of milliseconds
-	// from the unix epoch, 1 January 1970 00:00:00.000 UTC.
-	case "timestamp-millis":
-		dt = arrow.FixedWidthTypes.Timestamp_ms
-
-	// The timestamp-micros logical type represents an instant on the global timeline, independent of a
-	// particular time zone or calendar, with a precision of one microsecond. Please note that time zone
-	// information gets lost in this process. Upon reading a value back, we can only reconstruct the instant,
-	// but not the original representation. In practice, such timestamps are typically displayed to users
-	// in their local time zones, therefore they may be displayed differently depending on the execution environment.
-	// A timestamp-micros logical type annotates an Avro long, where the long stores the number of microseconds
-	// from the unix epoch, 1 January 1970 00:00:00.000000 UTC.
-	case "timestamp-micros":
-		dt = arrow.FixedWidthTypes.Timestamp_us
-
-	// The local-timestamp-millis logical type represents a timestamp in a local timezone, regardless of
-	// what specific time zone is considered local, with a precision of one millisecond.
-	// A local-timestamp-millis logical type annotates an Avro long, where the long stores the number of
-	// milliseconds, from 1 January 1970 00:00:00.000.
-	// Note: not implemented in hamba/avro
-	// case "local-timestamp-millis":
-	// 	dt = &arrow.TimestampType{Unit: arrow.Millisecond}
-
-	// The local-timestamp-micros logical type represents a timestamp in a local timezone, regardless of
-	// what specific time zone is considered local, with a precision of one microsecond.
-	// A local-timestamp-micros logical type annotates an Avro long, where the long stores the number of
-	// microseconds, from 1 January 1970 00:00:00.000000.
-	// case "local-timestamp-micros":
-	// Note: not implemented in hamba/avro
-	// 	dt = &arrow.TimestampType{Unit: arrow.Microsecond}
-
-	// The duration logical type represents an amount of time defined by a number of months, days and milliseconds.
-	// This is not equivalent to a number of milliseconds, because, depending on the moment in time from which the
-	// duration is measured, the number of days in the month and number of milliseconds in a day may differ. Other
-	// standard periods such as years, quarters, hours and minutes can be expressed through these basic periods.
-
-	// A duration logical type annotates Avro fixed type of size 12, which stores three little-endian unsigned integers
-	// that represent durations at different granularities of time. The first stores a number in months, the second
-	// stores a number in days, and the third stores a number in milliseconds.
-	case "duration":
-		dt = arrow.FixedWidthTypes.MonthDayNanoInterval
-	}
-	n.arrowField = buildArrowField(n, dt, arrow.Metadata{})
-}
diff --git a/go/arrow/avro/schema_test.go b/go/arrow/avro/schema_test.go
deleted file mode 100644
index 395abcb694d84..0000000000000
--- a/go/arrow/avro/schema_test.go
+++ /dev/null
@@ -1,362 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package avro
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	hamba "github.com/hamba/avro/v2"
-)
-
-func TestSchemaStringEqual(t *testing.T) {
-	tests := []struct {
-		avroSchema  string
-		arrowSchema []arrow.Field
-	}{
-		{
-			avroSchema: `{
-				"fields": [
-					{
-						"name": "inheritNull",
-						"type": {
-							"name": "Simple",
-							"symbols": [
-								"a",
-								"b"
-							],
-							"type": "enum"
-						}
-					},
-					{
-						"name": "explicitNamespace",
-						"type": {
-							"name": "test",
-							"namespace": "org.hamba.avro",
-							"size": 12,
-							"type": "fixed"
-						}
-					},
-					{
-						"name": "fullName",
-						"type": {
-							"type": "record",
-							"name": "fullName_data",
-							"namespace": "ignored",
-							"doc": "A name attribute with a fullname, so the namespace attribute is ignored. The fullname is 'a.full.Name', and the namespace is 'a.full'.",
-							"fields": [{
-									"name": "inheritNamespace",
-									"type": {
-										"type": "enum",
-										"name": "Understanding",
-										"doc": "A simple name (attribute) and no namespace attribute: inherit the namespace of the enclosing type 'a.full.Name'. The fullname is 'a.full.Understanding'.",
-										"symbols": ["d", "e"]
-									}
-								}, {
-									"name": "md5",
-									"type": {
-                                            "name": "md5_data",
-                                            "type": "fixed",
-									        "size": 16,
-									        "namespace": "ignored"
-                                    }
-								}
-							]
-						}
-					},
-					{
-						"name": "id",
-						"type": "int"
-					},
-					{
-						"name": "bigId",
-						"type": "long"
-					},
-					{
-						"name": "temperature",
-						"type": [
-							"null",
-							"float"
-						]
-					},
-					{
-						"name": "fraction",
-						"type": [
-							"null",
-							"double"
-						]
-					},
-					{
-						"name": "is_emergency",
-						"type": "boolean"
-					},
-					{
-						"name": "remote_ip",
-						"type": [
-							"null",
-							"bytes"
-						]
-					},
-					{
-						"name": "person",
-						"type": {
-							"fields": [
-								{
-									"name": "lastname",
-									"type": "string"
-								},
-								{
-									"name": "address",
-									"type": {
-										"fields": [
-											{
-												"name": "streetaddress",
-												"type": "string"
-											},
-											{
-												"name": "city",
-												"type": "string"
-											}
-										],
-										"name": "AddressUSRecord",
-										"type": "record"
-									}
-								},
-								{
-									"name": "mapfield",
-									"type": {
-										"default": {
-										},
-										"type": "map",
-										"values": "long"
-									}
-								},
-								{
-									"name": "arrayField",
-									"type": {
-										"default": [
-										],
-										"items": "string",
-										"type": "array"
-									}
-								}
-							],
-							"name": "person_data",
-							"type": "record"
-						}
-					},
-					{
-						"name": "decimalField",
-						"type": {
-							"logicalType": "decimal",
-							"precision": 4,
-							"scale": 2,
-							"type": "bytes"
-						}
-					},
-					{
-						"logicalType": "uuid",
-						"name": "uuidField",
-						"type": "string"
-					},
-					{
-						"name": "timemillis",
-						"type": {
-							"type": "int",
-							"logicalType": "time-millis"
-						}
-					},
-					{
-						"name": "timemicros",
-						"type": {
-								"type": "long",
-								"logicalType": "time-micros"
-						}
-					},
-					{
-						"name": "timestampmillis",
-						"type": {
-							"type": "long",
-							"logicalType": "timestamp-millis"
-						}
-					},
-					{
-						"name": "timestampmicros",
-						"type": {
-							"type": "long",
-							"logicalType": "timestamp-micros"
-						}
-					},
-					{
-						"name": "duration",
-						"type": {
-							"name": "duration",
-							"namespace": "whyowhy",
-							"logicalType": "duration",
-							"size": 12,
-							"type": "fixed"
-						}
-					},
-					{
-						"name": "date",
-						"type": {
-							"logicalType": "date",
-							"type": "int"
-						}
-					}
-				],
-				"name": "Example",
-				"type": "record"
-			}`,
-			arrowSchema: []arrow.Field{
-				{
-					Name:     "inheritNull",
-					Type:     &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String, Ordered: false},
-					Metadata: arrow.MetadataFrom(map[string]string{"0": "a", "1": "b"}),
-				},
-				{
-					Name: "explicitNamespace",
-					Type: &arrow.FixedSizeBinaryType{ByteWidth: 12},
-				},
-				{
-					Name: "fullName",
-					Type: arrow.StructOf(
-						arrow.Field{
-							Name: "inheritNamespace",
-							Type: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint8, ValueType: arrow.BinaryTypes.String, Ordered: false},
-						},
-						arrow.Field{
-							Name: "md5",
-							Type: &arrow.FixedSizeBinaryType{ByteWidth: 16},
-						},
-					),
-				},
-				{
-					Name: "id",
-					Type: arrow.PrimitiveTypes.Int32,
-				},
-				{
-					Name: "bigId",
-					Type: arrow.PrimitiveTypes.Int64,
-				},
-				{
-					Name:     "temperature",
-					Type:     arrow.PrimitiveTypes.Float32,
-					Nullable: true,
-				},
-				{
-					Name:     "fraction",
-					Type:     arrow.PrimitiveTypes.Float64,
-					Nullable: true,
-				},
-				{
-					Name: "is_emergency",
-					Type: arrow.FixedWidthTypes.Boolean,
-				},
-				{
-					Name:     "remote_ip",
-					Type:     arrow.BinaryTypes.Binary,
-					Nullable: true,
-				},
-				{
-					Name: "person",
-					Type: arrow.StructOf(
-						arrow.Field{
-							Name:     "lastname",
-							Type:     arrow.BinaryTypes.String,
-							Nullable: true,
-						},
-						arrow.Field{
-							Name: "address",
-							Type: arrow.StructOf(
-								arrow.Field{
-									Name: "streetaddress",
-									Type: arrow.BinaryTypes.String,
-								},
-								arrow.Field{
-									Name: "city",
-									Type: arrow.BinaryTypes.String,
-								},
-							),
-						},
-						arrow.Field{
-							Name:     "mapfield",
-							Type:     arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int64),
-							Nullable: true,
-						},
-						arrow.Field{
-							Name: "arrayField",
-							Type: arrow.ListOfNonNullable(arrow.BinaryTypes.String),
-						},
-					),
-				},
-				{
-					Name: "decimalField",
-					Type: &arrow.Decimal128Type{Precision: 4, Scale: 2},
-				},
-				{
-					Name: "uuidField",
-					Type: arrow.BinaryTypes.String,
-				},
-				{
-					Name: "timemillis",
-					Type: arrow.FixedWidthTypes.Time32ms,
-				},
-				{
-					Name: "timemicros",
-					Type: arrow.FixedWidthTypes.Time64us,
-				},
-				{
-					Name: "timestampmillis",
-					Type: arrow.FixedWidthTypes.Timestamp_ms,
-				},
-				{
-					Name: "timestampmicros",
-					Type: arrow.FixedWidthTypes.Timestamp_us,
-				},
-				{
-					Name: "duration",
-					Type: arrow.FixedWidthTypes.MonthDayNanoInterval,
-				},
-				{
-					Name: "date",
-					Type: arrow.FixedWidthTypes.Date32,
-				},
-			},
-		},
-	}
-
-	for _, test := range tests {
-		t.Run("", func(t *testing.T) {
-			want := arrow.NewSchema(test.arrowSchema, nil)
-			schema, err := hamba.ParseBytes([]byte(test.avroSchema))
-			if err != nil {
-				t.Fatalf("%v", err)
-			}
-			got, err := ArrowSchemaFromAvro(schema)
-			if err != nil {
-				t.Fatalf("%v", err)
-			}
-			if !(fmt.Sprintf("%+v", want.String()) == fmt.Sprintf("%+v", got.String())) {
-				t.Fatalf("got=%v,\n want=%v", got.String(), want.String())
-			} else {
-				t.Logf("schema.String() comparison passed")
-			}
-		})
-	}
-}
diff --git a/go/arrow/avro/testdata/arrayrecordmap.avro b/go/arrow/avro/testdata/arrayrecordmap.avro
deleted file mode 100644
index 84a8b59b427b5..0000000000000
Binary files a/go/arrow/avro/testdata/arrayrecordmap.avro and /dev/null differ
diff --git a/go/arrow/avro/testdata/githubsamplecommits.avro b/go/arrow/avro/testdata/githubsamplecommits.avro
deleted file mode 100644
index f16d17d29e991..0000000000000
Binary files a/go/arrow/avro/testdata/githubsamplecommits.avro and /dev/null differ
diff --git a/go/arrow/bitutil/Makefile b/go/arrow/bitutil/Makefile
deleted file mode 100644
index 12dd1d3491745..0000000000000
--- a/go/arrow/bitutil/Makefile
+++ /dev/null
@@ -1,62 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-
-C2GOASM=c2goasm
-CC=clang-11
-C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 \
-				-fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma
-ASM_FLAGS_SSE4=-msse4
-ASM_FLAGS_BMI2=-mbmi2
-ASM_FLAGS_POPCNT=-mpopcnt
-
-C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
-	-fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-.PHONEY: assembly
-
-INTEL_SOURCES := \
-	bitmap_ops_avx2_amd64.s bitmap_ops_sse4_amd64.s	
-
-#
-# ARROW-15336: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
-# min_max_neon_arm64.s was generated by asm2plan9s.
-# And manually formatted it as the Arm64 Plan9.
-#
-
-assembly: $(INTEL_SOURCES)
-
-_lib/bitmap_ops_avx2_amd64.s: _lib/bitmap_ops.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/bitmap_ops_sse4_amd64.s: _lib/bitmap_ops.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-bitmap_ops_avx2_amd64.s: _lib/bitmap_ops_avx2_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-bitmap_ops_sse4_amd64.s: _lib/bitmap_ops_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-clean:
-	rm -f $(INTEL_SOURCES)
-	rm -f $(addprefix _lib/,$(INTEL_SOURCES))
diff --git a/go/arrow/bitutil/_lib/bitmap_ops.c b/go/arrow/bitutil/_lib/bitmap_ops.c
deleted file mode 100644
index f48b4d4d821cb..0000000000000
--- a/go/arrow/bitutil/_lib/bitmap_ops.c
+++ /dev/null
@@ -1,46 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include "../../../internal/utils/_lib/arch.h"
-#include <stdint.h>
-
-// like elsewhere in this repo, this .c file gets compiled into optimized
-// assembly and then converted to go plan9 assembly via c2goasm so we can
-// call these functions. see the Makefile in the parent directory.
-
-void FULL_NAME(bitmap_aligned_and)(const uint8_t* left, const uint8_t* right, uint8_t* out, const int64_t nbytes) {
-    for (int64_t i = 0; i < nbytes; ++i) {
-        out[i] = left[i] & right[i];
-    }
-}
-
-void FULL_NAME(bitmap_aligned_or)(const uint8_t* left, const uint8_t* right, uint8_t* out, const int64_t nbytes) {
-    for (int64_t i = 0; i < nbytes; ++i) {
-        out[i] = left[i] | right[i];
-    }
-}
-
-void FULL_NAME(bitmap_aligned_and_not)(const uint8_t* left, const uint8_t* right, uint8_t* out, const int64_t nbytes) {
-    for (int64_t i = 0; i < nbytes; ++i) {
-        out[i] = left[i] & ~right[i];
-    }
-}
-
-void FULL_NAME(bitmap_aligned_xor)(const uint8_t* left, const uint8_t* right, uint8_t* out, const int64_t nbytes) {
-    for (int64_t i = 0; i < nbytes; ++i) {
-        out[i] = left[i] ^ right[i];
-    }
-}
diff --git a/go/arrow/bitutil/_lib/bitmap_ops_avx2_amd64.s b/go/arrow/bitutil/_lib/bitmap_ops_avx2_amd64.s
deleted file mode 100644
index a4010dab55b25..0000000000000
--- a/go/arrow/bitutil/_lib/bitmap_ops_avx2_amd64.s
+++ /dev/null
@@ -1,410 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"bitmap_ops.c"
-	.globl	bitmap_aligned_and_avx2         # -- Begin function bitmap_aligned_and_avx2
-	.p2align	4, 0x90
-	.type	bitmap_aligned_and_avx2,@function
-bitmap_aligned_and_avx2:                # @bitmap_aligned_and_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB0_12
-# %bb.1:
-	cmp	rcx, 127
-	ja	.LBB0_7
-# %bb.2:
-	xor	r10d, r10d
-	jmp	.LBB0_3
-.LBB0_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r11b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r10d, r10d
-	test	r11b, bl
-	jne	.LBB0_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB0_3
-# %bb.9:
-	mov	r10, rcx
-	and	r10, -128
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rsi + r8]
-	vmovups	ymm1, ymmword ptr [rsi + r8 + 32]
-	vmovups	ymm2, ymmword ptr [rsi + r8 + 64]
-	vmovups	ymm3, ymmword ptr [rsi + r8 + 96]
-	vandps	ymm0, ymm0, ymmword ptr [rdi + r8]
-	vandps	ymm1, ymm1, ymmword ptr [rdi + r8 + 32]
-	vandps	ymm2, ymm2, ymmword ptr [rdi + r8 + 64]
-	vandps	ymm3, ymm3, ymmword ptr [rdi + r8 + 96]
-	vmovups	ymmword ptr [rdx + r8], ymm0
-	vmovups	ymmword ptr [rdx + r8 + 32], ymm1
-	vmovups	ymmword ptr [rdx + r8 + 64], ymm2
-	vmovups	ymmword ptr [rdx + r8 + 96], ymm3
-	sub	r8, -128
-	cmp	r10, r8
-	jne	.LBB0_10
-# %bb.11:
-	cmp	r10, rcx
-	je	.LBB0_12
-.LBB0_3:
-	mov	r8, r10
-	not	r8
-	add	r8, rcx
-	mov	r9, rcx
-	and	r9, 3
-	je	.LBB0_5
-	.p2align	4, 0x90
-.LBB0_4:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r10]
-	and	al, byte ptr [rdi + r10]
-	mov	byte ptr [rdx + r10], al
-	add	r10, 1
-	add	r9, -1
-	jne	.LBB0_4
-.LBB0_5:
-	cmp	r8, 3
-	jb	.LBB0_12
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r10]
-	and	al, byte ptr [rdi + r10]
-	mov	byte ptr [rdx + r10], al
-	movzx	eax, byte ptr [rsi + r10 + 1]
-	and	al, byte ptr [rdi + r10 + 1]
-	mov	byte ptr [rdx + r10 + 1], al
-	movzx	eax, byte ptr [rsi + r10 + 2]
-	and	al, byte ptr [rdi + r10 + 2]
-	mov	byte ptr [rdx + r10 + 2], al
-	movzx	eax, byte ptr [rsi + r10 + 3]
-	and	al, byte ptr [rdi + r10 + 3]
-	mov	byte ptr [rdx + r10 + 3], al
-	add	r10, 4
-	cmp	rcx, r10
-	jne	.LBB0_6
-.LBB0_12:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end0:
-	.size	bitmap_aligned_and_avx2, .Lfunc_end0-bitmap_aligned_and_avx2
-                                        # -- End function
-	.globl	bitmap_aligned_or_avx2          # -- Begin function bitmap_aligned_or_avx2
-	.p2align	4, 0x90
-	.type	bitmap_aligned_or_avx2,@function
-bitmap_aligned_or_avx2:                 # @bitmap_aligned_or_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB1_12
-# %bb.1:
-	cmp	rcx, 127
-	ja	.LBB1_7
-# %bb.2:
-	xor	r10d, r10d
-	jmp	.LBB1_3
-.LBB1_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r11b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r10d, r10d
-	test	r11b, bl
-	jne	.LBB1_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB1_3
-# %bb.9:
-	mov	r10, rcx
-	and	r10, -128
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB1_10:                               # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rsi + r8]
-	vmovups	ymm1, ymmword ptr [rsi + r8 + 32]
-	vmovups	ymm2, ymmword ptr [rsi + r8 + 64]
-	vmovups	ymm3, ymmword ptr [rsi + r8 + 96]
-	vorps	ymm0, ymm0, ymmword ptr [rdi + r8]
-	vorps	ymm1, ymm1, ymmword ptr [rdi + r8 + 32]
-	vorps	ymm2, ymm2, ymmword ptr [rdi + r8 + 64]
-	vorps	ymm3, ymm3, ymmword ptr [rdi + r8 + 96]
-	vmovups	ymmword ptr [rdx + r8], ymm0
-	vmovups	ymmword ptr [rdx + r8 + 32], ymm1
-	vmovups	ymmword ptr [rdx + r8 + 64], ymm2
-	vmovups	ymmword ptr [rdx + r8 + 96], ymm3
-	sub	r8, -128
-	cmp	r10, r8
-	jne	.LBB1_10
-# %bb.11:
-	cmp	r10, rcx
-	je	.LBB1_12
-.LBB1_3:
-	mov	r8, r10
-	not	r8
-	add	r8, rcx
-	mov	r9, rcx
-	and	r9, 3
-	je	.LBB1_5
-	.p2align	4, 0x90
-.LBB1_4:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r10]
-	or	al, byte ptr [rdi + r10]
-	mov	byte ptr [rdx + r10], al
-	add	r10, 1
-	add	r9, -1
-	jne	.LBB1_4
-.LBB1_5:
-	cmp	r8, 3
-	jb	.LBB1_12
-	.p2align	4, 0x90
-.LBB1_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r10]
-	or	al, byte ptr [rdi + r10]
-	mov	byte ptr [rdx + r10], al
-	movzx	eax, byte ptr [rsi + r10 + 1]
-	or	al, byte ptr [rdi + r10 + 1]
-	mov	byte ptr [rdx + r10 + 1], al
-	movzx	eax, byte ptr [rsi + r10 + 2]
-	or	al, byte ptr [rdi + r10 + 2]
-	mov	byte ptr [rdx + r10 + 2], al
-	movzx	eax, byte ptr [rsi + r10 + 3]
-	or	al, byte ptr [rdi + r10 + 3]
-	mov	byte ptr [rdx + r10 + 3], al
-	add	r10, 4
-	cmp	rcx, r10
-	jne	.LBB1_6
-.LBB1_12:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end1:
-	.size	bitmap_aligned_or_avx2, .Lfunc_end1-bitmap_aligned_or_avx2
-                                        # -- End function
-	.globl	bitmap_aligned_and_not_avx2     # -- Begin function bitmap_aligned_and_not_avx2
-	.p2align	4, 0x90
-	.type	bitmap_aligned_and_not_avx2,@function
-bitmap_aligned_and_not_avx2:            # @bitmap_aligned_and_not_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB2_12
-# %bb.1:
-	cmp	rcx, 127
-	ja	.LBB2_7
-# %bb.2:
-	xor	r8d, r8d
-	jmp	.LBB2_3
-.LBB2_7:
-	lea	r8, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r11b
-	lea	rax, [rsi + rcx]
-	cmp	r8, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r10b
-	cmp	r8, rsi
-	seta	r9b
-	xor	r8d, r8d
-	test	r11b, bl
-	jne	.LBB2_3
-# %bb.8:
-	and	r10b, r9b
-	jne	.LBB2_3
-# %bb.9:
-	mov	r8, rcx
-	and	r8, -128
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB2_10:                               # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rsi + rax]
-	vmovups	ymm1, ymmword ptr [rsi + rax + 32]
-	vmovups	ymm2, ymmword ptr [rsi + rax + 64]
-	vmovups	ymm3, ymmword ptr [rsi + rax + 96]
-	vandnps	ymm0, ymm0, ymmword ptr [rdi + rax]
-	vandnps	ymm1, ymm1, ymmword ptr [rdi + rax + 32]
-	vandnps	ymm2, ymm2, ymmword ptr [rdi + rax + 64]
-	vandnps	ymm3, ymm3, ymmword ptr [rdi + rax + 96]
-	vmovups	ymmword ptr [rdx + rax], ymm0
-	vmovups	ymmword ptr [rdx + rax + 32], ymm1
-	vmovups	ymmword ptr [rdx + rax + 64], ymm2
-	vmovups	ymmword ptr [rdx + rax + 96], ymm3
-	sub	rax, -128
-	cmp	r8, rax
-	jne	.LBB2_10
-# %bb.11:
-	cmp	r8, rcx
-	je	.LBB2_12
-.LBB2_3:
-	mov	r9, r8
-	not	r9
-	test	cl, 1
-	je	.LBB2_5
-# %bb.4:
-	mov	al, byte ptr [rsi + r8]
-	not	al
-	and	al, byte ptr [rdi + r8]
-	mov	byte ptr [rdx + r8], al
-	or	r8, 1
-.LBB2_5:
-	add	r9, rcx
-	je	.LBB2_12
-	.p2align	4, 0x90
-.LBB2_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r8]
-	not	al
-	and	al, byte ptr [rdi + r8]
-	mov	byte ptr [rdx + r8], al
-	movzx	eax, byte ptr [rsi + r8 + 1]
-	not	al
-	and	al, byte ptr [rdi + r8 + 1]
-	mov	byte ptr [rdx + r8 + 1], al
-	add	r8, 2
-	cmp	rcx, r8
-	jne	.LBB2_6
-.LBB2_12:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end2:
-	.size	bitmap_aligned_and_not_avx2, .Lfunc_end2-bitmap_aligned_and_not_avx2
-                                        # -- End function
-	.globl	bitmap_aligned_xor_avx2         # -- Begin function bitmap_aligned_xor_avx2
-	.p2align	4, 0x90
-	.type	bitmap_aligned_xor_avx2,@function
-bitmap_aligned_xor_avx2:                # @bitmap_aligned_xor_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB3_12
-# %bb.1:
-	cmp	rcx, 127
-	ja	.LBB3_7
-# %bb.2:
-	xor	r10d, r10d
-	jmp	.LBB3_3
-.LBB3_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r11b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r10d, r10d
-	test	r11b, bl
-	jne	.LBB3_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB3_3
-# %bb.9:
-	mov	r10, rcx
-	and	r10, -128
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB3_10:                               # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rsi + r8]
-	vmovups	ymm1, ymmword ptr [rsi + r8 + 32]
-	vmovups	ymm2, ymmword ptr [rsi + r8 + 64]
-	vmovups	ymm3, ymmword ptr [rsi + r8 + 96]
-	vxorps	ymm0, ymm0, ymmword ptr [rdi + r8]
-	vxorps	ymm1, ymm1, ymmword ptr [rdi + r8 + 32]
-	vxorps	ymm2, ymm2, ymmword ptr [rdi + r8 + 64]
-	vxorps	ymm3, ymm3, ymmword ptr [rdi + r8 + 96]
-	vmovups	ymmword ptr [rdx + r8], ymm0
-	vmovups	ymmword ptr [rdx + r8 + 32], ymm1
-	vmovups	ymmword ptr [rdx + r8 + 64], ymm2
-	vmovups	ymmword ptr [rdx + r8 + 96], ymm3
-	sub	r8, -128
-	cmp	r10, r8
-	jne	.LBB3_10
-# %bb.11:
-	cmp	r10, rcx
-	je	.LBB3_12
-.LBB3_3:
-	mov	r8, r10
-	not	r8
-	add	r8, rcx
-	mov	r9, rcx
-	and	r9, 3
-	je	.LBB3_5
-	.p2align	4, 0x90
-.LBB3_4:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r10]
-	xor	al, byte ptr [rdi + r10]
-	mov	byte ptr [rdx + r10], al
-	add	r10, 1
-	add	r9, -1
-	jne	.LBB3_4
-.LBB3_5:
-	cmp	r8, 3
-	jb	.LBB3_12
-	.p2align	4, 0x90
-.LBB3_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r10]
-	xor	al, byte ptr [rdi + r10]
-	mov	byte ptr [rdx + r10], al
-	movzx	eax, byte ptr [rsi + r10 + 1]
-	xor	al, byte ptr [rdi + r10 + 1]
-	mov	byte ptr [rdx + r10 + 1], al
-	movzx	eax, byte ptr [rsi + r10 + 2]
-	xor	al, byte ptr [rdi + r10 + 2]
-	mov	byte ptr [rdx + r10 + 2], al
-	movzx	eax, byte ptr [rsi + r10 + 3]
-	xor	al, byte ptr [rdi + r10 + 3]
-	mov	byte ptr [rdx + r10 + 3], al
-	add	r10, 4
-	cmp	rcx, r10
-	jne	.LBB3_6
-.LBB3_12:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end3:
-	.size	bitmap_aligned_xor_avx2, .Lfunc_end3-bitmap_aligned_xor_avx2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/bitutil/_lib/bitmap_ops_sse4_amd64.s b/go/arrow/bitutil/_lib/bitmap_ops_sse4_amd64.s
deleted file mode 100644
index 840c1a623bb1b..0000000000000
--- a/go/arrow/bitutil/_lib/bitmap_ops_sse4_amd64.s
+++ /dev/null
@@ -1,530 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"bitmap_ops.c"
-	.globl	bitmap_aligned_and_sse4         # -- Begin function bitmap_aligned_and_sse4
-	.p2align	4, 0x90
-	.type	bitmap_aligned_and_sse4,@function
-bitmap_aligned_and_sse4:                # @bitmap_aligned_and_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB0_16
-# %bb.1:
-	cmp	rcx, 31
-	ja	.LBB0_7
-# %bb.2:
-	xor	r11d, r11d
-.LBB0_3:
-	mov	r8, r11
-	not	r8
-	add	r8, rcx
-	mov	r9, rcx
-	and	r9, 3
-	je	.LBB0_5
-	.p2align	4, 0x90
-.LBB0_4:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	and	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	add	r11, 1
-	add	r9, -1
-	jne	.LBB0_4
-.LBB0_5:
-	cmp	r8, 3
-	jb	.LBB0_16
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	and	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	movzx	eax, byte ptr [rsi + r11 + 1]
-	and	al, byte ptr [rdi + r11 + 1]
-	mov	byte ptr [rdx + r11 + 1], al
-	movzx	eax, byte ptr [rsi + r11 + 2]
-	and	al, byte ptr [rdi + r11 + 2]
-	mov	byte ptr [rdx + r11 + 2], al
-	movzx	eax, byte ptr [rsi + r11 + 3]
-	and	al, byte ptr [rdi + r11 + 3]
-	mov	byte ptr [rdx + r11 + 3], al
-	add	r11, 4
-	cmp	rcx, r11
-	jne	.LBB0_6
-	jmp	.LBB0_16
-.LBB0_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r10b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r11d, r11d
-	test	r10b, bl
-	jne	.LBB0_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB0_3
-# %bb.9:
-	mov	r11, rcx
-	and	r11, -32
-	lea	rax, [r11 - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_10
-# %bb.11:
-	mov	r10, r9
-	and	r10, -2
-	neg	r10
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	andps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	andps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-	movups	xmm0, xmmword ptr [rdi + r8 + 32]
-	movups	xmm1, xmmword ptr [rdi + r8 + 48]
-	movups	xmm2, xmmword ptr [rsi + r8 + 32]
-	andps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 48]
-	andps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8 + 32], xmm2
-	movups	xmmword ptr [rdx + r8 + 48], xmm0
-	add	r8, 64
-	add	r10, 2
-	jne	.LBB0_12
-# %bb.13:
-	test	r9b, 1
-	je	.LBB0_15
-.LBB0_14:
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	andps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	andps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-.LBB0_15:
-	cmp	r11, rcx
-	jne	.LBB0_3
-.LBB0_16:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	ret
-.LBB0_10:
-	xor	r8d, r8d
-	test	r9b, 1
-	jne	.LBB0_14
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	bitmap_aligned_and_sse4, .Lfunc_end0-bitmap_aligned_and_sse4
-                                        # -- End function
-	.globl	bitmap_aligned_or_sse4          # -- Begin function bitmap_aligned_or_sse4
-	.p2align	4, 0x90
-	.type	bitmap_aligned_or_sse4,@function
-bitmap_aligned_or_sse4:                 # @bitmap_aligned_or_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB1_16
-# %bb.1:
-	cmp	rcx, 31
-	ja	.LBB1_7
-# %bb.2:
-	xor	r11d, r11d
-.LBB1_3:
-	mov	r8, r11
-	not	r8
-	add	r8, rcx
-	mov	r9, rcx
-	and	r9, 3
-	je	.LBB1_5
-	.p2align	4, 0x90
-.LBB1_4:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	or	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	add	r11, 1
-	add	r9, -1
-	jne	.LBB1_4
-.LBB1_5:
-	cmp	r8, 3
-	jb	.LBB1_16
-	.p2align	4, 0x90
-.LBB1_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	or	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	movzx	eax, byte ptr [rsi + r11 + 1]
-	or	al, byte ptr [rdi + r11 + 1]
-	mov	byte ptr [rdx + r11 + 1], al
-	movzx	eax, byte ptr [rsi + r11 + 2]
-	or	al, byte ptr [rdi + r11 + 2]
-	mov	byte ptr [rdx + r11 + 2], al
-	movzx	eax, byte ptr [rsi + r11 + 3]
-	or	al, byte ptr [rdi + r11 + 3]
-	mov	byte ptr [rdx + r11 + 3], al
-	add	r11, 4
-	cmp	rcx, r11
-	jne	.LBB1_6
-	jmp	.LBB1_16
-.LBB1_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r10b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r11d, r11d
-	test	r10b, bl
-	jne	.LBB1_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB1_3
-# %bb.9:
-	mov	r11, rcx
-	and	r11, -32
-	lea	rax, [r11 - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB1_10
-# %bb.11:
-	mov	r10, r9
-	and	r10, -2
-	neg	r10
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB1_12:                               # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	orps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	orps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-	movups	xmm0, xmmword ptr [rdi + r8 + 32]
-	movups	xmm1, xmmword ptr [rdi + r8 + 48]
-	movups	xmm2, xmmword ptr [rsi + r8 + 32]
-	orps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 48]
-	orps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8 + 32], xmm2
-	movups	xmmword ptr [rdx + r8 + 48], xmm0
-	add	r8, 64
-	add	r10, 2
-	jne	.LBB1_12
-# %bb.13:
-	test	r9b, 1
-	je	.LBB1_15
-.LBB1_14:
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	orps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	orps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-.LBB1_15:
-	cmp	r11, rcx
-	jne	.LBB1_3
-.LBB1_16:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	ret
-.LBB1_10:
-	xor	r8d, r8d
-	test	r9b, 1
-	jne	.LBB1_14
-	jmp	.LBB1_15
-.Lfunc_end1:
-	.size	bitmap_aligned_or_sse4, .Lfunc_end1-bitmap_aligned_or_sse4
-                                        # -- End function
-	.globl	bitmap_aligned_and_not_sse4     # -- Begin function bitmap_aligned_and_not_sse4
-	.p2align	4, 0x90
-	.type	bitmap_aligned_and_not_sse4,@function
-bitmap_aligned_and_not_sse4:            # @bitmap_aligned_and_not_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB2_16
-# %bb.1:
-	cmp	rcx, 31
-	ja	.LBB2_7
-# %bb.2:
-	xor	r11d, r11d
-.LBB2_3:
-	mov	r8, r11
-	not	r8
-	test	cl, 1
-	je	.LBB2_5
-# %bb.4:
-	mov	al, byte ptr [rsi + r11]
-	not	al
-	and	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	or	r11, 1
-.LBB2_5:
-	add	r8, rcx
-	je	.LBB2_16
-	.p2align	4, 0x90
-.LBB2_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	not	al
-	and	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	movzx	eax, byte ptr [rsi + r11 + 1]
-	not	al
-	and	al, byte ptr [rdi + r11 + 1]
-	mov	byte ptr [rdx + r11 + 1], al
-	add	r11, 2
-	cmp	rcx, r11
-	jne	.LBB2_6
-	jmp	.LBB2_16
-.LBB2_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r10b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r11d, r11d
-	test	r10b, bl
-	jne	.LBB2_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB2_3
-# %bb.9:
-	mov	r11, rcx
-	and	r11, -32
-	lea	rax, [r11 - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB2_10
-# %bb.11:
-	mov	r10, r9
-	and	r10, -2
-	neg	r10
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB2_12:                               # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	andnps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	andnps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-	movups	xmm0, xmmword ptr [rdi + r8 + 32]
-	movups	xmm1, xmmword ptr [rdi + r8 + 48]
-	movups	xmm2, xmmword ptr [rsi + r8 + 32]
-	andnps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 48]
-	andnps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8 + 32], xmm2
-	movups	xmmword ptr [rdx + r8 + 48], xmm0
-	add	r8, 64
-	add	r10, 2
-	jne	.LBB2_12
-# %bb.13:
-	test	r9b, 1
-	je	.LBB2_15
-.LBB2_14:
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	andnps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	andnps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-.LBB2_15:
-	cmp	r11, rcx
-	jne	.LBB2_3
-.LBB2_16:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	ret
-.LBB2_10:
-	xor	r8d, r8d
-	test	r9b, 1
-	jne	.LBB2_14
-	jmp	.LBB2_15
-.Lfunc_end2:
-	.size	bitmap_aligned_and_not_sse4, .Lfunc_end2-bitmap_aligned_and_not_sse4
-                                        # -- End function
-	.globl	bitmap_aligned_xor_sse4         # -- Begin function bitmap_aligned_xor_sse4
-	.p2align	4, 0x90
-	.type	bitmap_aligned_xor_sse4,@function
-bitmap_aligned_xor_sse4:                # @bitmap_aligned_xor_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	rbx
-	and	rsp, -8
-	test	rcx, rcx
-	jle	.LBB3_16
-# %bb.1:
-	cmp	rcx, 31
-	ja	.LBB3_7
-# %bb.2:
-	xor	r11d, r11d
-.LBB3_3:
-	mov	r8, r11
-	not	r8
-	add	r8, rcx
-	mov	r9, rcx
-	and	r9, 3
-	je	.LBB3_5
-	.p2align	4, 0x90
-.LBB3_4:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	xor	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	add	r11, 1
-	add	r9, -1
-	jne	.LBB3_4
-.LBB3_5:
-	cmp	r8, 3
-	jb	.LBB3_16
-	.p2align	4, 0x90
-.LBB3_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + r11]
-	xor	al, byte ptr [rdi + r11]
-	mov	byte ptr [rdx + r11], al
-	movzx	eax, byte ptr [rsi + r11 + 1]
-	xor	al, byte ptr [rdi + r11 + 1]
-	mov	byte ptr [rdx + r11 + 1], al
-	movzx	eax, byte ptr [rsi + r11 + 2]
-	xor	al, byte ptr [rdi + r11 + 2]
-	mov	byte ptr [rdx + r11 + 2], al
-	movzx	eax, byte ptr [rsi + r11 + 3]
-	xor	al, byte ptr [rdi + r11 + 3]
-	mov	byte ptr [rdx + r11 + 3], al
-	add	r11, 4
-	cmp	rcx, r11
-	jne	.LBB3_6
-	jmp	.LBB3_16
-.LBB3_7:
-	lea	r9, [rdx + rcx]
-	lea	rax, [rdi + rcx]
-	cmp	rax, rdx
-	seta	r10b
-	lea	rax, [rsi + rcx]
-	cmp	r9, rdi
-	seta	bl
-	cmp	rax, rdx
-	seta	r8b
-	cmp	r9, rsi
-	seta	r9b
-	xor	r11d, r11d
-	test	r10b, bl
-	jne	.LBB3_3
-# %bb.8:
-	and	r8b, r9b
-	jne	.LBB3_3
-# %bb.9:
-	mov	r11, rcx
-	and	r11, -32
-	lea	rax, [r11 - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB3_10
-# %bb.11:
-	mov	r10, r9
-	and	r10, -2
-	neg	r10
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB3_12:                               # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	xorps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	xorps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-	movups	xmm0, xmmword ptr [rdi + r8 + 32]
-	movups	xmm1, xmmword ptr [rdi + r8 + 48]
-	movups	xmm2, xmmword ptr [rsi + r8 + 32]
-	xorps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 48]
-	xorps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8 + 32], xmm2
-	movups	xmmword ptr [rdx + r8 + 48], xmm0
-	add	r8, 64
-	add	r10, 2
-	jne	.LBB3_12
-# %bb.13:
-	test	r9b, 1
-	je	.LBB3_15
-.LBB3_14:
-	movups	xmm0, xmmword ptr [rdi + r8]
-	movups	xmm1, xmmword ptr [rdi + r8 + 16]
-	movups	xmm2, xmmword ptr [rsi + r8]
-	xorps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rsi + r8 + 16]
-	xorps	xmm0, xmm1
-	movups	xmmword ptr [rdx + r8], xmm2
-	movups	xmmword ptr [rdx + r8 + 16], xmm0
-.LBB3_15:
-	cmp	r11, rcx
-	jne	.LBB3_3
-.LBB3_16:
-	lea	rsp, [rbp - 8]
-	pop	rbx
-	pop	rbp
-	ret
-.LBB3_10:
-	xor	r8d, r8d
-	test	r9b, 1
-	jne	.LBB3_14
-	jmp	.LBB3_15
-.Lfunc_end3:
-	.size	bitmap_aligned_xor_sse4, .Lfunc_end3-bitmap_aligned_xor_sse4
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/bitutil/bitmap_ops.go b/go/arrow/bitutil/bitmap_ops.go
deleted file mode 100644
index 7db750a6dd937..0000000000000
--- a/go/arrow/bitutil/bitmap_ops.go
+++ /dev/null
@@ -1,109 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutil
-
-func alignedBitAndGo(left, right, out []byte) {
-	var (
-		nbytes = len(out)
-		i      = 0
-	)
-	if nbytes > uint64SizeBytes {
-		// case where we have enough bytes to operate on words
-		leftWords := bytesToUint64(left[i:])
-		rightWords := bytesToUint64(right[i:])
-		outWords := bytesToUint64(out[i:])
-
-		for w := range outWords {
-			outWords[w] = leftWords[w] & rightWords[w]
-		}
-
-		i += len(outWords) * uint64SizeBytes
-	}
-	// grab any remaining bytes that were fewer than a word
-	for ; i < nbytes; i++ {
-		out[i] = left[i] & right[i]
-	}
-}
-
-func alignedBitAndNotGo(left, right, out []byte) {
-	var (
-		nbytes = len(out)
-		i      = 0
-	)
-	if nbytes > uint64SizeBytes {
-		// case where we have enough bytes to operate on words
-		leftWords := bytesToUint64(left[i:])
-		rightWords := bytesToUint64(right[i:])
-		outWords := bytesToUint64(out[i:])
-
-		for w := range outWords {
-			outWords[w] = leftWords[w] &^ rightWords[w]
-		}
-
-		i += len(outWords) * uint64SizeBytes
-	}
-	// grab any remaining bytes that were fewer than a word
-	for ; i < nbytes; i++ {
-		out[i] = left[i] &^ right[i]
-	}
-}
-
-func alignedBitOrGo(left, right, out []byte) {
-	var (
-		nbytes = len(out)
-		i      = 0
-	)
-	if nbytes > uint64SizeBytes {
-		// case where we have enough bytes to operate on words
-		leftWords := bytesToUint64(left[i:])
-		rightWords := bytesToUint64(right[i:])
-		outWords := bytesToUint64(out[i:])
-
-		for w := range outWords {
-			outWords[w] = leftWords[w] | rightWords[w]
-		}
-
-		i += len(outWords) * uint64SizeBytes
-	}
-	// grab any remaining bytes that were fewer than a word
-	for ; i < nbytes; i++ {
-		out[i] = left[i] | right[i]
-	}
-}
-
-func alignedBitXorGo(left, right, out []byte) {
-	var (
-		nbytes = len(out)
-		i      = 0
-	)
-	if nbytes > uint64SizeBytes {
-		// case where we have enough bytes to operate on words
-		leftWords := bytesToUint64(left[i:])
-		rightWords := bytesToUint64(right[i:])
-		outWords := bytesToUint64(out[i:])
-
-		for w := range outWords {
-			outWords[w] = leftWords[w] ^ rightWords[w]
-		}
-
-		i += len(outWords) * uint64SizeBytes
-	}
-	// grab any remaining bytes that were fewer than a word
-	for ; i < nbytes; i++ {
-		out[i] = left[i] ^ right[i]
-	}
-}
diff --git a/go/arrow/bitutil/bitmap_ops_amd64.go b/go/arrow/bitutil/bitmap_ops_amd64.go
deleted file mode 100644
index ad0fd674ab9b7..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_amd64.go
+++ /dev/null
@@ -1,41 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bitutil
-
-import "golang.org/x/sys/cpu"
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		bitAndOp.opAligned = bitmapAlignedAndAVX2
-		bitOrOp.opAligned = bitmapAlignedOrAVX2
-		bitAndNotOp.opAligned = bitmapAlignedAndNotAVX2
-		bitXorOp.opAligned = bitmapAlignedXorAVX2
-	} else if cpu.X86.HasSSE42 {
-		bitAndOp.opAligned = bitmapAlignedAndSSE4
-		bitOrOp.opAligned = bitmapAlignedOrSSE4
-		bitAndNotOp.opAligned = bitmapAlignedAndNotSSE4
-		bitXorOp.opAligned = bitmapAlignedXorSSE4
-	} else {
-		bitAndOp.opAligned = alignedBitAndGo
-		bitOrOp.opAligned = alignedBitOrGo
-		bitAndNotOp.opAligned = alignedBitAndNotGo
-		bitXorOp.opAligned = alignedBitXorGo
-	}
-}
diff --git a/go/arrow/bitutil/bitmap_ops_arm64.go b/go/arrow/bitutil/bitmap_ops_arm64.go
deleted file mode 100644
index 28d95d84ade2d..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_arm64.go
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bitutil
-
-func init() {
-	bitAndOp.opAligned = alignedBitAndGo
-	bitOrOp.opAligned = alignedBitOrGo
-	bitAndNotOp.opAligned = alignedBitAndNotGo
-	bitXorOp.opAligned = alignedBitXorGo
-}
diff --git a/go/arrow/bitutil/bitmap_ops_avx2_amd64.go b/go/arrow/bitutil/bitmap_ops_avx2_amd64.go
deleted file mode 100644
index 1c01bd0f38015..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_avx2_amd64.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bitutil
-
-import (
-	"unsafe"
-)
-
-//go:noescape
-func _bitmap_aligned_and_avx2(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedAndAVX2(left, right, out []byte) {
-	_bitmap_aligned_and_avx2(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
-
-//go:noescape
-func _bitmap_aligned_or_avx2(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedOrAVX2(left, right, out []byte) {
-	_bitmap_aligned_or_avx2(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
-
-//go:noescape
-func _bitmap_aligned_and_not_avx2(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedAndNotAVX2(left, right, out []byte) {
-	_bitmap_aligned_and_not_avx2(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
-
-//go:noescape
-func _bitmap_aligned_xor_avx2(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedXorAVX2(left, right, out []byte) {
-	_bitmap_aligned_xor_avx2(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
diff --git a/go/arrow/bitutil/bitmap_ops_avx2_amd64.s b/go/arrow/bitutil/bitmap_ops_avx2_amd64.s
deleted file mode 100644
index 00172e865926d..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_avx2_amd64.s
+++ /dev/null
@@ -1,373 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_bitmap_aligned_and_avx2(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB0_12
-	LONG $0x7ff98348         // cmp    rcx, 127
-	JA   LBB0_7
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	JMP  LBB0_3
-
-LBB0_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd3970f41         // seta    r11b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	WORD $0x8441; BYTE $0xdb // test    r11b, bl
-	JNE  LBB0_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB0_3
-	WORD $0x8949; BYTE $0xca // mov    r10, rcx
-	LONG $0x80e28349         // and    r10, -128
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB0_10:
-	LONG $0x107ca1c4; WORD $0x0604             // vmovups    ymm0, yword [rsi + r8]
-	LONG $0x107ca1c4; WORD $0x064c; BYTE $0x20 // vmovups    ymm1, yword [rsi + r8 + 32]
-	LONG $0x107ca1c4; WORD $0x0654; BYTE $0x40 // vmovups    ymm2, yword [rsi + r8 + 64]
-	LONG $0x107ca1c4; WORD $0x065c; BYTE $0x60 // vmovups    ymm3, yword [rsi + r8 + 96]
-	LONG $0x547ca1c4; WORD $0x0704             // vandps    ymm0, ymm0, yword [rdi + r8]
-	LONG $0x5474a1c4; WORD $0x074c; BYTE $0x20 // vandps    ymm1, ymm1, yword [rdi + r8 + 32]
-	LONG $0x546ca1c4; WORD $0x0754; BYTE $0x40 // vandps    ymm2, ymm2, yword [rdi + r8 + 64]
-	LONG $0x5464a1c4; WORD $0x075c; BYTE $0x60 // vandps    ymm3, ymm3, yword [rdi + r8 + 96]
-	LONG $0x117ca1c4; WORD $0x0204             // vmovups    yword [rdx + r8], ymm0
-	LONG $0x117ca1c4; WORD $0x024c; BYTE $0x20 // vmovups    yword [rdx + r8 + 32], ymm1
-	LONG $0x117ca1c4; WORD $0x0254; BYTE $0x40 // vmovups    yword [rdx + r8 + 64], ymm2
-	LONG $0x117ca1c4; WORD $0x025c; BYTE $0x60 // vmovups    yword [rdx + r8 + 96], ymm3
-	LONG $0x80e88349                           // sub    r8, -128
-	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
-	JNE  LBB0_10
-	WORD $0x3949; BYTE $0xca                   // cmp    r10, rcx
-	JE   LBB0_12
-
-LBB0_3:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
-	LONG $0x03e18349         // and    r9, 3
-	JE   LBB0_5
-
-LBB0_4:
-	LONG $0x04b60f42; BYTE $0x16 // movzx    eax, byte [rsi + r10]
-	LONG $0x17042242             // and    al, byte [rdi + r10]
-	LONG $0x12048842             // mov    byte [rdx + r10], al
-	LONG $0x01c28349             // add    r10, 1
-	LONG $0xffc18349             // add    r9, -1
-	JNE  LBB0_4
-
-LBB0_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_12
-
-LBB0_6:
-	LONG $0x04b60f42; BYTE $0x16   // movzx    eax, byte [rsi + r10]
-	LONG $0x17042242               // and    al, byte [rdi + r10]
-	LONG $0x12048842               // mov    byte [rdx + r10], al
-	LONG $0x44b60f42; WORD $0x0116 // movzx    eax, byte [rsi + r10 + 1]
-	LONG $0x17442242; BYTE $0x01   // and    al, byte [rdi + r10 + 1]
-	LONG $0x12448842; BYTE $0x01   // mov    byte [rdx + r10 + 1], al
-	LONG $0x44b60f42; WORD $0x0216 // movzx    eax, byte [rsi + r10 + 2]
-	LONG $0x17442242; BYTE $0x02   // and    al, byte [rdi + r10 + 2]
-	LONG $0x12448842; BYTE $0x02   // mov    byte [rdx + r10 + 2], al
-	LONG $0x44b60f42; WORD $0x0316 // movzx    eax, byte [rsi + r10 + 3]
-	LONG $0x17442242; BYTE $0x03   // and    al, byte [rdi + r10 + 3]
-	LONG $0x12448842; BYTE $0x03   // mov    byte [rdx + r10 + 3], al
-	LONG $0x04c28349               // add    r10, 4
-	WORD $0x394c; BYTE $0xd1       // cmp    rcx, r10
-	JNE  LBB0_6
-
-LBB0_12:
-	VZEROUPPER
-	RET
-
-TEXT ·_bitmap_aligned_or_avx2(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB1_12
-	LONG $0x7ff98348         // cmp    rcx, 127
-	JA   LBB1_7
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	JMP  LBB1_3
-
-LBB1_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd3970f41         // seta    r11b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	WORD $0x8441; BYTE $0xdb // test    r11b, bl
-	JNE  LBB1_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB1_3
-	WORD $0x8949; BYTE $0xca // mov    r10, rcx
-	LONG $0x80e28349         // and    r10, -128
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB1_10:
-	LONG $0x107ca1c4; WORD $0x0604             // vmovups    ymm0, yword [rsi + r8]
-	LONG $0x107ca1c4; WORD $0x064c; BYTE $0x20 // vmovups    ymm1, yword [rsi + r8 + 32]
-	LONG $0x107ca1c4; WORD $0x0654; BYTE $0x40 // vmovups    ymm2, yword [rsi + r8 + 64]
-	LONG $0x107ca1c4; WORD $0x065c; BYTE $0x60 // vmovups    ymm3, yword [rsi + r8 + 96]
-	LONG $0x567ca1c4; WORD $0x0704             // vorps    ymm0, ymm0, yword [rdi + r8]
-	LONG $0x5674a1c4; WORD $0x074c; BYTE $0x20 // vorps    ymm1, ymm1, yword [rdi + r8 + 32]
-	LONG $0x566ca1c4; WORD $0x0754; BYTE $0x40 // vorps    ymm2, ymm2, yword [rdi + r8 + 64]
-	LONG $0x5664a1c4; WORD $0x075c; BYTE $0x60 // vorps    ymm3, ymm3, yword [rdi + r8 + 96]
-	LONG $0x117ca1c4; WORD $0x0204             // vmovups    yword [rdx + r8], ymm0
-	LONG $0x117ca1c4; WORD $0x024c; BYTE $0x20 // vmovups    yword [rdx + r8 + 32], ymm1
-	LONG $0x117ca1c4; WORD $0x0254; BYTE $0x40 // vmovups    yword [rdx + r8 + 64], ymm2
-	LONG $0x117ca1c4; WORD $0x025c; BYTE $0x60 // vmovups    yword [rdx + r8 + 96], ymm3
-	LONG $0x80e88349                           // sub    r8, -128
-	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
-	JNE  LBB1_10
-	WORD $0x3949; BYTE $0xca                   // cmp    r10, rcx
-	JE   LBB1_12
-
-LBB1_3:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
-	LONG $0x03e18349         // and    r9, 3
-	JE   LBB1_5
-
-LBB1_4:
-	LONG $0x04b60f42; BYTE $0x16 // movzx    eax, byte [rsi + r10]
-	LONG $0x17040a42             // or    al, byte [rdi + r10]
-	LONG $0x12048842             // mov    byte [rdx + r10], al
-	LONG $0x01c28349             // add    r10, 1
-	LONG $0xffc18349             // add    r9, -1
-	JNE  LBB1_4
-
-LBB1_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB1_12
-
-LBB1_6:
-	LONG $0x04b60f42; BYTE $0x16   // movzx    eax, byte [rsi + r10]
-	LONG $0x17040a42               // or    al, byte [rdi + r10]
-	LONG $0x12048842               // mov    byte [rdx + r10], al
-	LONG $0x44b60f42; WORD $0x0116 // movzx    eax, byte [rsi + r10 + 1]
-	LONG $0x17440a42; BYTE $0x01   // or    al, byte [rdi + r10 + 1]
-	LONG $0x12448842; BYTE $0x01   // mov    byte [rdx + r10 + 1], al
-	LONG $0x44b60f42; WORD $0x0216 // movzx    eax, byte [rsi + r10 + 2]
-	LONG $0x17440a42; BYTE $0x02   // or    al, byte [rdi + r10 + 2]
-	LONG $0x12448842; BYTE $0x02   // mov    byte [rdx + r10 + 2], al
-	LONG $0x44b60f42; WORD $0x0316 // movzx    eax, byte [rsi + r10 + 3]
-	LONG $0x17440a42; BYTE $0x03   // or    al, byte [rdi + r10 + 3]
-	LONG $0x12448842; BYTE $0x03   // mov    byte [rdx + r10 + 3], al
-	LONG $0x04c28349               // add    r10, 4
-	WORD $0x394c; BYTE $0xd1       // cmp    rcx, r10
-	JNE  LBB1_6
-
-LBB1_12:
-	VZEROUPPER
-	RET
-
-TEXT ·_bitmap_aligned_and_not_avx2(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB2_12
-	LONG $0x7ff98348         // cmp    rcx, 127
-	JA   LBB2_7
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB2_3
-
-LBB2_7:
-	LONG $0x0a048d4c         // lea    r8, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd3970f41         // seta    r11b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf8 // cmp    r8, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8441; BYTE $0xdb // test    r11b, bl
-	JNE  LBB2_3
-	WORD $0x2045; BYTE $0xca // and    r10b, r9b
-	JNE  LBB2_3
-	WORD $0x8949; BYTE $0xc8 // mov    r8, rcx
-	LONG $0x80e08349         // and    r8, -128
-	WORD $0xc031             // xor    eax, eax
-
-LBB2_10:
-	LONG $0x0410fcc5; BYTE $0x06   // vmovups    ymm0, yword [rsi + rax]
-	LONG $0x4c10fcc5; WORD $0x2006 // vmovups    ymm1, yword [rsi + rax + 32]
-	LONG $0x5410fcc5; WORD $0x4006 // vmovups    ymm2, yword [rsi + rax + 64]
-	LONG $0x5c10fcc5; WORD $0x6006 // vmovups    ymm3, yword [rsi + rax + 96]
-	LONG $0x0455fcc5; BYTE $0x07   // vandnps    ymm0, ymm0, yword [rdi + rax]
-	LONG $0x4c55f4c5; WORD $0x2007 // vandnps    ymm1, ymm1, yword [rdi + rax + 32]
-	LONG $0x5455ecc5; WORD $0x4007 // vandnps    ymm2, ymm2, yword [rdi + rax + 64]
-	LONG $0x5c55e4c5; WORD $0x6007 // vandnps    ymm3, ymm3, yword [rdi + rax + 96]
-	LONG $0x0411fcc5; BYTE $0x02   // vmovups    yword [rdx + rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2002 // vmovups    yword [rdx + rax + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4002 // vmovups    yword [rdx + rax + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6002 // vmovups    yword [rdx + rax + 96], ymm3
-	LONG $0x80e88348               // sub    rax, -128
-	WORD $0x3949; BYTE $0xc0       // cmp    r8, rax
-	JNE  LBB2_10
-	WORD $0x3949; BYTE $0xc8       // cmp    r8, rcx
-	JE   LBB2_12
-
-LBB2_3:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0xc1f6; BYTE $0x01 // test    cl, 1
-	JE   LBB2_5
-	LONG $0x06048a42         // mov    al, byte [rsi + r8]
-	WORD $0xd0f6             // not    al
-	LONG $0x07042242         // and    al, byte [rdi + r8]
-	LONG $0x02048842         // mov    byte [rdx + r8], al
-	LONG $0x01c88349         // or    r8, 1
-
-LBB2_5:
-	WORD $0x0149; BYTE $0xc9 // add    r9, rcx
-	JE   LBB2_12
-
-LBB2_6:
-	LONG $0x04b60f42; BYTE $0x06   // movzx    eax, byte [rsi + r8]
-	WORD $0xd0f6                   // not    al
-	LONG $0x07042242               // and    al, byte [rdi + r8]
-	LONG $0x02048842               // mov    byte [rdx + r8], al
-	LONG $0x44b60f42; WORD $0x0106 // movzx    eax, byte [rsi + r8 + 1]
-	WORD $0xd0f6                   // not    al
-	LONG $0x07442242; BYTE $0x01   // and    al, byte [rdi + r8 + 1]
-	LONG $0x02448842; BYTE $0x01   // mov    byte [rdx + r8 + 1], al
-	LONG $0x02c08349               // add    r8, 2
-	WORD $0x394c; BYTE $0xc1       // cmp    rcx, r8
-	JNE  LBB2_6
-
-LBB2_12:
-	VZEROUPPER
-	RET
-
-TEXT ·_bitmap_aligned_xor_avx2(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB3_12
-	LONG $0x7ff98348         // cmp    rcx, 127
-	JA   LBB3_7
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	JMP  LBB3_3
-
-LBB3_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd3970f41         // seta    r11b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	WORD $0x8441; BYTE $0xdb // test    r11b, bl
-	JNE  LBB3_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB3_3
-	WORD $0x8949; BYTE $0xca // mov    r10, rcx
-	LONG $0x80e28349         // and    r10, -128
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB3_10:
-	LONG $0x107ca1c4; WORD $0x0604             // vmovups    ymm0, yword [rsi + r8]
-	LONG $0x107ca1c4; WORD $0x064c; BYTE $0x20 // vmovups    ymm1, yword [rsi + r8 + 32]
-	LONG $0x107ca1c4; WORD $0x0654; BYTE $0x40 // vmovups    ymm2, yword [rsi + r8 + 64]
-	LONG $0x107ca1c4; WORD $0x065c; BYTE $0x60 // vmovups    ymm3, yword [rsi + r8 + 96]
-	LONG $0x577ca1c4; WORD $0x0704             // vxorps    ymm0, ymm0, yword [rdi + r8]
-	LONG $0x5774a1c4; WORD $0x074c; BYTE $0x20 // vxorps    ymm1, ymm1, yword [rdi + r8 + 32]
-	LONG $0x576ca1c4; WORD $0x0754; BYTE $0x40 // vxorps    ymm2, ymm2, yword [rdi + r8 + 64]
-	LONG $0x5764a1c4; WORD $0x075c; BYTE $0x60 // vxorps    ymm3, ymm3, yword [rdi + r8 + 96]
-	LONG $0x117ca1c4; WORD $0x0204             // vmovups    yword [rdx + r8], ymm0
-	LONG $0x117ca1c4; WORD $0x024c; BYTE $0x20 // vmovups    yword [rdx + r8 + 32], ymm1
-	LONG $0x117ca1c4; WORD $0x0254; BYTE $0x40 // vmovups    yword [rdx + r8 + 64], ymm2
-	LONG $0x117ca1c4; WORD $0x025c; BYTE $0x60 // vmovups    yword [rdx + r8 + 96], ymm3
-	LONG $0x80e88349                           // sub    r8, -128
-	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
-	JNE  LBB3_10
-	WORD $0x3949; BYTE $0xca                   // cmp    r10, rcx
-	JE   LBB3_12
-
-LBB3_3:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
-	LONG $0x03e18349         // and    r9, 3
-	JE   LBB3_5
-
-LBB3_4:
-	LONG $0x04b60f42; BYTE $0x16 // movzx    eax, byte [rsi + r10]
-	LONG $0x17043242             // xor    al, byte [rdi + r10]
-	LONG $0x12048842             // mov    byte [rdx + r10], al
-	LONG $0x01c28349             // add    r10, 1
-	LONG $0xffc18349             // add    r9, -1
-	JNE  LBB3_4
-
-LBB3_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_12
-
-LBB3_6:
-	LONG $0x04b60f42; BYTE $0x16   // movzx    eax, byte [rsi + r10]
-	LONG $0x17043242               // xor    al, byte [rdi + r10]
-	LONG $0x12048842               // mov    byte [rdx + r10], al
-	LONG $0x44b60f42; WORD $0x0116 // movzx    eax, byte [rsi + r10 + 1]
-	LONG $0x17443242; BYTE $0x01   // xor    al, byte [rdi + r10 + 1]
-	LONG $0x12448842; BYTE $0x01   // mov    byte [rdx + r10 + 1], al
-	LONG $0x44b60f42; WORD $0x0216 // movzx    eax, byte [rsi + r10 + 2]
-	LONG $0x17443242; BYTE $0x02   // xor    al, byte [rdi + r10 + 2]
-	LONG $0x12448842; BYTE $0x02   // mov    byte [rdx + r10 + 2], al
-	LONG $0x44b60f42; WORD $0x0316 // movzx    eax, byte [rsi + r10 + 3]
-	LONG $0x17443242; BYTE $0x03   // xor    al, byte [rdi + r10 + 3]
-	LONG $0x12448842; BYTE $0x03   // mov    byte [rdx + r10 + 3], al
-	LONG $0x04c28349               // add    r10, 4
-	WORD $0x394c; BYTE $0xd1       // cmp    rcx, r10
-	JNE  LBB3_6
-
-LBB3_12:
-	VZEROUPPER
-	RET
diff --git a/go/arrow/bitutil/bitmap_ops_noasm.go b/go/arrow/bitutil/bitmap_ops_noasm.go
deleted file mode 100644
index e25347791fe45..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_noasm.go
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package bitutil
-
-func init() {
-	bitAndOp.opAligned = alignedBitAndGo
-	bitOrOp.opAligned = alignedBitOrGo
-	bitAndNotOp.opAligned = alignedBitAndNotGo
-	bitXorOp.opAligned = alignedBitXorGo
-}
diff --git a/go/arrow/bitutil/bitmap_ops_ppc64le.go b/go/arrow/bitutil/bitmap_ops_ppc64le.go
deleted file mode 100644
index 28d95d84ade2d..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_ppc64le.go
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bitutil
-
-func init() {
-	bitAndOp.opAligned = alignedBitAndGo
-	bitOrOp.opAligned = alignedBitOrGo
-	bitAndNotOp.opAligned = alignedBitAndNotGo
-	bitXorOp.opAligned = alignedBitXorGo
-}
diff --git a/go/arrow/bitutil/bitmap_ops_s390x.go b/go/arrow/bitutil/bitmap_ops_s390x.go
deleted file mode 100644
index 28d95d84ade2d..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_s390x.go
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bitutil
-
-func init() {
-	bitAndOp.opAligned = alignedBitAndGo
-	bitOrOp.opAligned = alignedBitOrGo
-	bitAndNotOp.opAligned = alignedBitAndNotGo
-	bitXorOp.opAligned = alignedBitXorGo
-}
diff --git a/go/arrow/bitutil/bitmap_ops_sse4_amd64.go b/go/arrow/bitutil/bitmap_ops_sse4_amd64.go
deleted file mode 100644
index f16bce12bbfa2..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_sse4_amd64.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bitutil
-
-import (
-	"unsafe"
-)
-
-//go:noescape
-func _bitmap_aligned_and_sse4(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedAndSSE4(left, right, out []byte) {
-	_bitmap_aligned_and_sse4(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
-
-//go:noescape
-func _bitmap_aligned_or_sse4(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedOrSSE4(left, right, out []byte) {
-	_bitmap_aligned_or_sse4(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
-
-//go:noescape
-func _bitmap_aligned_and_not_sse4(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedAndNotSSE4(left, right, out []byte) {
-	_bitmap_aligned_and_not_sse4(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
-
-//go:noescape
-func _bitmap_aligned_xor_sse4(left, right, out unsafe.Pointer, length int64)
-
-func bitmapAlignedXorSSE4(left, right, out []byte) {
-	_bitmap_aligned_xor_sse4(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
-}
diff --git a/go/arrow/bitutil/bitmap_ops_sse4_amd64.s b/go/arrow/bitutil/bitmap_ops_sse4_amd64.s
deleted file mode 100644
index c15e186253a36..0000000000000
--- a/go/arrow/bitutil/bitmap_ops_sse4_amd64.s
+++ /dev/null
@@ -1,501 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_bitmap_aligned_and_sse4(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB0_16
-	LONG $0x1ff98348         // cmp    rcx, 31
-	JA   LBB0_7
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB0_3:
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
-	LONG $0x03e18349         // and    r9, 3
-	JE   LBB0_5
-
-LBB0_4:
-	LONG $0x04b60f42; BYTE $0x1e // movzx    eax, byte [rsi + r11]
-	LONG $0x1f042242             // and    al, byte [rdi + r11]
-	LONG $0x1a048842             // mov    byte [rdx + r11], al
-	LONG $0x01c38349             // add    r11, 1
-	LONG $0xffc18349             // add    r9, -1
-	JNE  LBB0_4
-
-LBB0_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_16
-
-LBB0_6:
-	LONG $0x04b60f42; BYTE $0x1e   // movzx    eax, byte [rsi + r11]
-	LONG $0x1f042242               // and    al, byte [rdi + r11]
-	LONG $0x1a048842               // mov    byte [rdx + r11], al
-	LONG $0x44b60f42; WORD $0x011e // movzx    eax, byte [rsi + r11 + 1]
-	LONG $0x1f442242; BYTE $0x01   // and    al, byte [rdi + r11 + 1]
-	LONG $0x1a448842; BYTE $0x01   // mov    byte [rdx + r11 + 1], al
-	LONG $0x44b60f42; WORD $0x021e // movzx    eax, byte [rsi + r11 + 2]
-	LONG $0x1f442242; BYTE $0x02   // and    al, byte [rdi + r11 + 2]
-	LONG $0x1a448842; BYTE $0x02   // mov    byte [rdx + r11 + 2], al
-	LONG $0x44b60f42; WORD $0x031e // movzx    eax, byte [rsi + r11 + 3]
-	LONG $0x1f442242; BYTE $0x03   // and    al, byte [rdi + r11 + 3]
-	LONG $0x1a448842; BYTE $0x03   // mov    byte [rdx + r11 + 3], al
-	LONG $0x04c38349               // add    r11, 4
-	WORD $0x394c; BYTE $0xd9       // cmp    rcx, r11
-	JNE  LBB0_6
-	JMP  LBB0_16
-
-LBB0_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd2970f41         // seta    r10b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x8441; BYTE $0xda // test    r10b, bl
-	JNE  LBB0_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB0_3
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	LONG $0xe0e38349         // and    r11, -32
-	LONG $0xe0438d49         // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_10
-	WORD $0x894d; BYTE $0xca // mov    r10, r9
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB0_12:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x540f; BYTE $0xd0       // andps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x540f; BYTE $0xc1       // andps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-	LONG $0x44100f42; WORD $0x2007 // movups    xmm0, oword [rdi + r8 + 32]
-	LONG $0x4c100f42; WORD $0x3007 // movups    xmm1, oword [rdi + r8 + 48]
-	LONG $0x54100f42; WORD $0x2006 // movups    xmm2, oword [rsi + r8 + 32]
-	WORD $0x540f; BYTE $0xd0       // andps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x3006 // movups    xmm0, oword [rsi + r8 + 48]
-	WORD $0x540f; BYTE $0xc1       // andps    xmm0, xmm1
-	LONG $0x54110f42; WORD $0x2002 // movups    oword [rdx + r8 + 32], xmm2
-	LONG $0x44110f42; WORD $0x3002 // movups    oword [rdx + r8 + 48], xmm0
-	LONG $0x40c08349               // add    r8, 64
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB0_12
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_15
-
-LBB0_14:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x540f; BYTE $0xd0       // andps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x540f; BYTE $0xc1       // andps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-
-LBB0_15:
-	WORD $0x3949; BYTE $0xcb // cmp    r11, rcx
-	JNE  LBB0_3
-
-LBB0_16:
-	RET
-
-LBB0_10:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	LONG $0x01c1f641         // test    r9b, 1
-	JNE  LBB0_14
-	JMP  LBB0_15
-
-TEXT ·_bitmap_aligned_or_sse4(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB1_16
-	LONG $0x1ff98348         // cmp    rcx, 31
-	JA   LBB1_7
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB1_3:
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
-	LONG $0x03e18349         // and    r9, 3
-	JE   LBB1_5
-
-LBB1_4:
-	LONG $0x04b60f42; BYTE $0x1e // movzx    eax, byte [rsi + r11]
-	LONG $0x1f040a42             // or    al, byte [rdi + r11]
-	LONG $0x1a048842             // mov    byte [rdx + r11], al
-	LONG $0x01c38349             // add    r11, 1
-	LONG $0xffc18349             // add    r9, -1
-	JNE  LBB1_4
-
-LBB1_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB1_16
-
-LBB1_6:
-	LONG $0x04b60f42; BYTE $0x1e   // movzx    eax, byte [rsi + r11]
-	LONG $0x1f040a42               // or    al, byte [rdi + r11]
-	LONG $0x1a048842               // mov    byte [rdx + r11], al
-	LONG $0x44b60f42; WORD $0x011e // movzx    eax, byte [rsi + r11 + 1]
-	LONG $0x1f440a42; BYTE $0x01   // or    al, byte [rdi + r11 + 1]
-	LONG $0x1a448842; BYTE $0x01   // mov    byte [rdx + r11 + 1], al
-	LONG $0x44b60f42; WORD $0x021e // movzx    eax, byte [rsi + r11 + 2]
-	LONG $0x1f440a42; BYTE $0x02   // or    al, byte [rdi + r11 + 2]
-	LONG $0x1a448842; BYTE $0x02   // mov    byte [rdx + r11 + 2], al
-	LONG $0x44b60f42; WORD $0x031e // movzx    eax, byte [rsi + r11 + 3]
-	LONG $0x1f440a42; BYTE $0x03   // or    al, byte [rdi + r11 + 3]
-	LONG $0x1a448842; BYTE $0x03   // mov    byte [rdx + r11 + 3], al
-	LONG $0x04c38349               // add    r11, 4
-	WORD $0x394c; BYTE $0xd9       // cmp    rcx, r11
-	JNE  LBB1_6
-	JMP  LBB1_16
-
-LBB1_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd2970f41         // seta    r10b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x8441; BYTE $0xda // test    r10b, bl
-	JNE  LBB1_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB1_3
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	LONG $0xe0e38349         // and    r11, -32
-	LONG $0xe0438d49         // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB1_10
-	WORD $0x894d; BYTE $0xca // mov    r10, r9
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB1_12:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x560f; BYTE $0xd0       // orps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x560f; BYTE $0xc1       // orps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-	LONG $0x44100f42; WORD $0x2007 // movups    xmm0, oword [rdi + r8 + 32]
-	LONG $0x4c100f42; WORD $0x3007 // movups    xmm1, oword [rdi + r8 + 48]
-	LONG $0x54100f42; WORD $0x2006 // movups    xmm2, oword [rsi + r8 + 32]
-	WORD $0x560f; BYTE $0xd0       // orps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x3006 // movups    xmm0, oword [rsi + r8 + 48]
-	WORD $0x560f; BYTE $0xc1       // orps    xmm0, xmm1
-	LONG $0x54110f42; WORD $0x2002 // movups    oword [rdx + r8 + 32], xmm2
-	LONG $0x44110f42; WORD $0x3002 // movups    oword [rdx + r8 + 48], xmm0
-	LONG $0x40c08349               // add    r8, 64
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB1_12
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_15
-
-LBB1_14:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x560f; BYTE $0xd0       // orps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x560f; BYTE $0xc1       // orps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-
-LBB1_15:
-	WORD $0x3949; BYTE $0xcb // cmp    r11, rcx
-	JNE  LBB1_3
-
-LBB1_16:
-	RET
-
-LBB1_10:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	LONG $0x01c1f641         // test    r9b, 1
-	JNE  LBB1_14
-	JMP  LBB1_15
-
-TEXT ·_bitmap_aligned_and_not_sse4(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB2_16
-	LONG $0x1ff98348         // cmp    rcx, 31
-	JA   LBB2_7
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB2_3:
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0xc1f6; BYTE $0x01 // test    cl, 1
-	JE   LBB2_5
-	LONG $0x1e048a42         // mov    al, byte [rsi + r11]
-	WORD $0xd0f6             // not    al
-	LONG $0x1f042242         // and    al, byte [rdi + r11]
-	LONG $0x1a048842         // mov    byte [rdx + r11], al
-	LONG $0x01cb8349         // or    r11, 1
-
-LBB2_5:
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	JE   LBB2_16
-
-LBB2_6:
-	LONG $0x04b60f42; BYTE $0x1e   // movzx    eax, byte [rsi + r11]
-	WORD $0xd0f6                   // not    al
-	LONG $0x1f042242               // and    al, byte [rdi + r11]
-	LONG $0x1a048842               // mov    byte [rdx + r11], al
-	LONG $0x44b60f42; WORD $0x011e // movzx    eax, byte [rsi + r11 + 1]
-	WORD $0xd0f6                   // not    al
-	LONG $0x1f442242; BYTE $0x01   // and    al, byte [rdi + r11 + 1]
-	LONG $0x1a448842; BYTE $0x01   // mov    byte [rdx + r11 + 1], al
-	LONG $0x02c38349               // add    r11, 2
-	WORD $0x394c; BYTE $0xd9       // cmp    rcx, r11
-	JNE  LBB2_6
-	JMP  LBB2_16
-
-LBB2_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd2970f41         // seta    r10b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x8441; BYTE $0xda // test    r10b, bl
-	JNE  LBB2_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB2_3
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	LONG $0xe0e38349         // and    r11, -32
-	LONG $0xe0438d49         // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB2_10
-	WORD $0x894d; BYTE $0xca // mov    r10, r9
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB2_12:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x550f; BYTE $0xc1       // andnps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-	LONG $0x44100f42; WORD $0x2007 // movups    xmm0, oword [rdi + r8 + 32]
-	LONG $0x4c100f42; WORD $0x3007 // movups    xmm1, oword [rdi + r8 + 48]
-	LONG $0x54100f42; WORD $0x2006 // movups    xmm2, oword [rsi + r8 + 32]
-	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x3006 // movups    xmm0, oword [rsi + r8 + 48]
-	WORD $0x550f; BYTE $0xc1       // andnps    xmm0, xmm1
-	LONG $0x54110f42; WORD $0x2002 // movups    oword [rdx + r8 + 32], xmm2
-	LONG $0x44110f42; WORD $0x3002 // movups    oword [rdx + r8 + 48], xmm0
-	LONG $0x40c08349               // add    r8, 64
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB2_12
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_15
-
-LBB2_14:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x550f; BYTE $0xc1       // andnps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-
-LBB2_15:
-	WORD $0x3949; BYTE $0xcb // cmp    r11, rcx
-	JNE  LBB2_3
-
-LBB2_16:
-	RET
-
-LBB2_10:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	LONG $0x01c1f641         // test    r9b, 1
-	JNE  LBB2_14
-	JMP  LBB2_15
-
-TEXT ·_bitmap_aligned_xor_sse4(SB), $0-32
-
-	MOVQ left+0(FP), DI
-	MOVQ right+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ length+24(FP), CX
-
-	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
-	JLE  LBB3_16
-	LONG $0x1ff98348         // cmp    rcx, 31
-	JA   LBB3_7
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB3_3:
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
-	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
-	LONG $0x03e18349         // and    r9, 3
-	JE   LBB3_5
-
-LBB3_4:
-	LONG $0x04b60f42; BYTE $0x1e // movzx    eax, byte [rsi + r11]
-	LONG $0x1f043242             // xor    al, byte [rdi + r11]
-	LONG $0x1a048842             // mov    byte [rdx + r11], al
-	LONG $0x01c38349             // add    r11, 1
-	LONG $0xffc18349             // add    r9, -1
-	JNE  LBB3_4
-
-LBB3_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_16
-
-LBB3_6:
-	LONG $0x04b60f42; BYTE $0x1e   // movzx    eax, byte [rsi + r11]
-	LONG $0x1f043242               // xor    al, byte [rdi + r11]
-	LONG $0x1a048842               // mov    byte [rdx + r11], al
-	LONG $0x44b60f42; WORD $0x011e // movzx    eax, byte [rsi + r11 + 1]
-	LONG $0x1f443242; BYTE $0x01   // xor    al, byte [rdi + r11 + 1]
-	LONG $0x1a448842; BYTE $0x01   // mov    byte [rdx + r11 + 1], al
-	LONG $0x44b60f42; WORD $0x021e // movzx    eax, byte [rsi + r11 + 2]
-	LONG $0x1f443242; BYTE $0x02   // xor    al, byte [rdi + r11 + 2]
-	LONG $0x1a448842; BYTE $0x02   // mov    byte [rdx + r11 + 2], al
-	LONG $0x44b60f42; WORD $0x031e // movzx    eax, byte [rsi + r11 + 3]
-	LONG $0x1f443242; BYTE $0x03   // xor    al, byte [rdi + r11 + 3]
-	LONG $0x1a448842; BYTE $0x03   // mov    byte [rdx + r11 + 3], al
-	LONG $0x04c38349               // add    r11, 4
-	WORD $0x394c; BYTE $0xd9       // cmp    rcx, r11
-	JNE  LBB3_6
-	JMP  LBB3_16
-
-LBB3_7:
-	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
-	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd2970f41         // seta    r10b
-	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	LONG $0xd0970f41         // seta    r8b
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	LONG $0xd1970f41         // seta    r9b
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x8441; BYTE $0xda // test    r10b, bl
-	JNE  LBB3_3
-	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
-	JNE  LBB3_3
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	LONG $0xe0e38349         // and    r11, -32
-	LONG $0xe0438d49         // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_10
-	WORD $0x894d; BYTE $0xca // mov    r10, r9
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB3_12:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x570f; BYTE $0xd0       // xorps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x570f; BYTE $0xc1       // xorps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-	LONG $0x44100f42; WORD $0x2007 // movups    xmm0, oword [rdi + r8 + 32]
-	LONG $0x4c100f42; WORD $0x3007 // movups    xmm1, oword [rdi + r8 + 48]
-	LONG $0x54100f42; WORD $0x2006 // movups    xmm2, oword [rsi + r8 + 32]
-	WORD $0x570f; BYTE $0xd0       // xorps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x3006 // movups    xmm0, oword [rsi + r8 + 48]
-	WORD $0x570f; BYTE $0xc1       // xorps    xmm0, xmm1
-	LONG $0x54110f42; WORD $0x2002 // movups    oword [rdx + r8 + 32], xmm2
-	LONG $0x44110f42; WORD $0x3002 // movups    oword [rdx + r8 + 48], xmm0
-	LONG $0x40c08349               // add    r8, 64
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB3_12
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB3_15
-
-LBB3_14:
-	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
-	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
-	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
-	WORD $0x570f; BYTE $0xd0       // xorps    xmm2, xmm0
-	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
-	WORD $0x570f; BYTE $0xc1       // xorps    xmm0, xmm1
-	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
-	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
-
-LBB3_15:
-	WORD $0x3949; BYTE $0xcb // cmp    r11, rcx
-	JNE  LBB3_3
-
-LBB3_16:
-	RET
-
-LBB3_10:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	LONG $0x01c1f641         // test    r9b, 1
-	JNE  LBB3_14
-	JMP  LBB3_15
diff --git a/go/arrow/bitutil/bitmaps.go b/go/arrow/bitutil/bitmaps.go
deleted file mode 100644
index fb4fcd597b804..0000000000000
--- a/go/arrow/bitutil/bitmaps.go
+++ /dev/null
@@ -1,747 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutil
-
-import (
-	"bytes"
-	"errors"
-	"math/bits"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// BitmapReader is a simple bitmap reader for a byte slice.
-type BitmapReader struct {
-	bitmap []byte
-	pos    int
-	len    int
-
-	current    byte
-	byteOffset int
-	bitOffset  int
-}
-
-// NewBitmapReader creates and returns a new bitmap reader for the given bitmap
-func NewBitmapReader(bitmap []byte, offset, length int) *BitmapReader {
-	curbyte := byte(0)
-	if length > 0 && bitmap != nil {
-		curbyte = bitmap[offset/8]
-	}
-	return &BitmapReader{
-		bitmap:     bitmap,
-		byteOffset: offset / 8,
-		bitOffset:  offset % 8,
-		current:    curbyte,
-		len:        length,
-	}
-}
-
-// Set returns true if the current bit is set
-func (b *BitmapReader) Set() bool {
-	return (b.current & (1 << b.bitOffset)) != 0
-}
-
-// NotSet returns true if the current bit is not set
-func (b *BitmapReader) NotSet() bool {
-	return (b.current & (1 << b.bitOffset)) == 0
-}
-
-// Next advances the reader to the next bit in the bitmap.
-func (b *BitmapReader) Next() {
-	b.bitOffset++
-	b.pos++
-	if b.bitOffset == 8 {
-		b.bitOffset = 0
-		b.byteOffset++
-		if b.pos < b.len {
-			b.current = b.bitmap[int(b.byteOffset)]
-		}
-	}
-}
-
-// Pos returns the current bit position in the bitmap that the reader is looking at
-func (b *BitmapReader) Pos() int { return b.pos }
-
-// Len returns the total number of bits in the bitmap
-func (b *BitmapReader) Len() int { return b.len }
-
-// BitmapWriter is a simple writer for writing bitmaps to byte slices
-type BitmapWriter struct {
-	buf    []byte
-	pos    int
-	length int
-
-	curByte    uint8
-	bitMask    uint8
-	byteOffset int
-}
-
-// NewBitmapWriter returns a sequential bitwise writer that preserves surrounding
-// bit values as it writes.
-func NewBitmapWriter(bitmap []byte, start, length int) *BitmapWriter {
-	ret := &BitmapWriter{
-		buf:        bitmap,
-		length:     length,
-		byteOffset: start / 8,
-		bitMask:    BitMask[start%8],
-	}
-	if length > 0 {
-		ret.curByte = bitmap[int(ret.byteOffset)]
-	}
-	return ret
-}
-
-// Reset resets the position and view of the slice to restart writing a bitmap
-// to the same byte slice.
-func (b *BitmapWriter) Reset(start, length int) {
-	b.pos = 0
-	b.byteOffset = start / 8
-	b.bitMask = BitMask[start%8]
-	b.length = length
-	if b.length > 0 {
-		b.curByte = b.buf[int(b.byteOffset)]
-	}
-}
-
-func (b *BitmapWriter) Pos() int { return b.pos }
-func (b *BitmapWriter) Set()     { b.curByte |= b.bitMask }
-func (b *BitmapWriter) Clear()   { b.curByte &= ^b.bitMask }
-
-// Next increments the writer to the next bit for writing.
-func (b *BitmapWriter) Next() {
-	b.bitMask = b.bitMask << 1
-	b.pos++
-	if b.bitMask == 0 {
-		b.bitMask = 0x01
-		b.buf[b.byteOffset] = b.curByte
-		b.byteOffset++
-		if b.pos < b.length {
-			b.curByte = b.buf[int(b.byteOffset)]
-		}
-	}
-}
-
-// AppendBools writes a series of booleans to the bitmapwriter and returns
-// the number of remaining bytes left in the buffer for writing.
-func (b *BitmapWriter) AppendBools(in []bool) int {
-	space := min(b.length-b.pos, len(in))
-	if space == 0 {
-		return 0
-	}
-
-	bitOffset := bits.TrailingZeros32(uint32(b.bitMask))
-	// location that the first byte needs to be written to for appending
-	appslice := b.buf[int(b.byteOffset) : b.byteOffset+int(BytesForBits(int64(bitOffset+space)))]
-	// update everything but curByte
-	appslice[0] = b.curByte
-	for i, b := range in[:space] {
-		if b {
-			SetBit(appslice, i+bitOffset)
-		} else {
-			ClearBit(appslice, i+bitOffset)
-		}
-	}
-
-	b.pos += space
-	b.bitMask = BitMask[(bitOffset+space)%8]
-	b.byteOffset += (bitOffset + space) / 8
-	b.curByte = appslice[len(appslice)-1]
-
-	return space
-}
-
-// Finish flushes the final byte out to the byteslice in case it was not already
-// on a byte aligned boundary.
-func (b *BitmapWriter) Finish() {
-	if b.length > 0 && (b.bitMask != 0x01 || b.pos < b.length) {
-		b.buf[int(b.byteOffset)] = b.curByte
-	}
-}
-
-// BitmapWordReader is a reader for bitmaps that reads a word at a time (a word being an 8 byte uint64)
-// and then provides functions to grab the individual trailing bytes after the last word
-type BitmapWordReader struct {
-	bitmap        []byte
-	offset        int
-	nwords        int
-	trailingBits  int
-	trailingBytes int
-	curword       uint64
-}
-
-// NewBitmapWordReader sets up a word reader, calculates the number of trailing bits and
-// number of trailing bytes, along with the number of words.
-func NewBitmapWordReader(bitmap []byte, offset, length int) *BitmapWordReader {
-	bitoffset := offset % 8
-	byteOffset := offset / 8
-	bm := &BitmapWordReader{
-		offset: bitoffset,
-		bitmap: bitmap[byteOffset : byteOffset+int(BytesForBits(int64(bitoffset+length)))],
-		// decrement wordcount by 1 as we may touch two adjacent words in one iteration
-		nwords: length/int(unsafe.Sizeof(uint64(0))*8) - 1,
-	}
-	if bm.nwords < 0 {
-		bm.nwords = 0
-	}
-	bm.trailingBits = length - bm.nwords*int(unsafe.Sizeof(uint64(0)))*8
-	bm.trailingBytes = int(BytesForBits(int64(bm.trailingBits)))
-
-	if bm.nwords > 0 {
-		bm.curword = toFromLEFunc(endian.Native.Uint64(bm.bitmap))
-	} else if length > 0 {
-		setLSB(&bm.curword, bm.bitmap[0])
-	}
-	return bm
-}
-
-// NextWord returns the next full word read from the bitmap, should not be called
-// if Words() is 0 as it will step outside of the bounds of the bitmap slice and panic.
-//
-// We don't perform the bounds checking in order to improve performance.
-func (bm *BitmapWordReader) NextWord() uint64 {
-	bm.bitmap = bm.bitmap[unsafe.Sizeof(bm.curword):]
-	word := bm.curword
-	nextWord := toFromLEFunc(endian.Native.Uint64(bm.bitmap))
-	if bm.offset != 0 {
-		// combine two adjacent words into one word
-		// |<------ next ----->|<---- current ---->|
-		// +-------------+-----+-------------+-----+
-		// |     ---     |  A  |      B      | --- |
-		// +-------------+-----+-------------+-----+
-		//                  |         |       offset
-		//                  v         v
-		//               +-----+-------------+
-		//               |  A  |      B      |
-		//               +-----+-------------+
-		//               |<------ word ----->|
-		word >>= uint64(bm.offset)
-		word |= nextWord << (int64(unsafe.Sizeof(uint64(0))*8) - int64(bm.offset))
-	}
-	bm.curword = nextWord
-	return word
-}
-
-// NextTrailingByte returns the next trailing byte of the bitmap after the last word
-// along with the number of valid bits in that byte. When validBits < 8, that
-// is the last byte.
-//
-// If the bitmap ends on a byte alignment, then the last byte can also return 8 valid bits.
-// Thus the TrailingBytes function should be used to know how many trailing bytes to read.
-func (bm *BitmapWordReader) NextTrailingByte() (val byte, validBits int) {
-	debug.Assert(bm.trailingBits > 0, "next trailing byte called with no trailing bits")
-
-	if bm.trailingBits <= 8 {
-		// last byte
-		validBits = bm.trailingBits
-		bm.trailingBits = 0
-		rdr := NewBitmapReader(bm.bitmap, bm.offset, validBits)
-		for i := 0; i < validBits; i++ {
-			val >>= 1
-			if rdr.Set() {
-				val |= 0x80
-			}
-			rdr.Next()
-		}
-		val >>= (8 - validBits)
-		return
-	}
-
-	bm.bitmap = bm.bitmap[1:]
-	nextByte := bm.bitmap[0]
-	val = getLSB(bm.curword)
-	if bm.offset != 0 {
-		val >>= byte(bm.offset)
-		val |= nextByte << (8 - bm.offset)
-	}
-	setLSB(&bm.curword, nextByte)
-	bm.trailingBits -= 8
-	bm.trailingBytes--
-	validBits = 8
-	return
-}
-
-func (bm *BitmapWordReader) Words() int         { return bm.nwords }
-func (bm *BitmapWordReader) TrailingBytes() int { return bm.trailingBytes }
-
-// BitmapWordWriter is a bitmap writer for writing a full word at a time (a word being
-// a uint64). After the last full word is written, PutNextTrailingByte can be used to
-// write the remaining trailing bytes.
-type BitmapWordWriter struct {
-	bitmap []byte
-	offset int
-	len    int
-
-	bitMask     uint64
-	currentWord uint64
-}
-
-// NewBitmapWordWriter initializes a new bitmap word writer which will start writing
-// into the byte slice at bit offset start, expecting to write len bits.
-func NewBitmapWordWriter(bitmap []byte, start, len int) *BitmapWordWriter {
-	ret := &BitmapWordWriter{
-		bitmap:  bitmap[start/8:],
-		len:     len,
-		offset:  start % 8,
-		bitMask: (uint64(1) << uint64(start%8)) - 1,
-	}
-
-	if ret.offset != 0 {
-		if ret.len >= int(unsafe.Sizeof(uint64(0))*8) {
-			ret.currentWord = toFromLEFunc(endian.Native.Uint64(ret.bitmap))
-		} else if ret.len > 0 {
-			setLSB(&ret.currentWord, ret.bitmap[0])
-		}
-	}
-	return ret
-}
-
-// PutNextWord writes the given word to the bitmap, potentially splitting across
-// two adjacent words.
-func (bm *BitmapWordWriter) PutNextWord(word uint64) {
-	sz := int(unsafe.Sizeof(word))
-	if bm.offset != 0 {
-		// split one word into two adjacent words, don't touch unused bits
-		//               |<------ word ----->|
-		//               +-----+-------------+
-		//               |  A  |      B      |
-		//               +-----+-------------+
-		//                  |         |
-		//                  v         v       offset
-		// +-------------+-----+-------------+-----+
-		// |     ---     |  A  |      B      | --- |
-		// +-------------+-----+-------------+-----+
-		// |<------ next ----->|<---- current ---->|
-		word = (word << uint64(bm.offset)) | (word >> (int64(sz*8) - int64(bm.offset)))
-		next := toFromLEFunc(endian.Native.Uint64(bm.bitmap[sz:]))
-		bm.currentWord = (bm.currentWord & bm.bitMask) | (word &^ bm.bitMask)
-		next = (next &^ bm.bitMask) | (word & bm.bitMask)
-		endian.Native.PutUint64(bm.bitmap, toFromLEFunc(bm.currentWord))
-		endian.Native.PutUint64(bm.bitmap[sz:], toFromLEFunc(next))
-		bm.currentWord = next
-	} else {
-		endian.Native.PutUint64(bm.bitmap, toFromLEFunc(word))
-	}
-	bm.bitmap = bm.bitmap[sz:]
-}
-
-// PutNextTrailingByte writes the number of bits indicated by validBits from b to
-// the bitmap.
-func (bm *BitmapWordWriter) PutNextTrailingByte(b byte, validBits int) {
-	curbyte := getLSB(bm.currentWord)
-	if validBits == 8 {
-		if bm.offset != 0 {
-			b = (b << bm.offset) | (b >> (8 - bm.offset))
-			next := bm.bitmap[1]
-			curbyte = (curbyte & byte(bm.bitMask)) | (b &^ byte(bm.bitMask))
-			next = (next &^ byte(bm.bitMask)) | (b & byte(bm.bitMask))
-			bm.bitmap[0] = curbyte
-			bm.bitmap[1] = next
-			bm.currentWord = uint64(next)
-		} else {
-			bm.bitmap[0] = b
-		}
-		bm.bitmap = bm.bitmap[1:]
-	} else {
-		debug.Assert(validBits > 0 && validBits < 8, "invalid valid bits in bitmap word writer")
-		debug.Assert(BytesForBits(int64(bm.offset+validBits)) <= int64(len(bm.bitmap)), "writing trailing byte outside of bounds of bitmap")
-		wr := NewBitmapWriter(bm.bitmap, int(bm.offset), validBits)
-		for i := 0; i < validBits; i++ {
-			if b&0x01 != 0 {
-				wr.Set()
-			} else {
-				wr.Clear()
-			}
-			wr.Next()
-			b >>= 1
-		}
-		wr.Finish()
-	}
-}
-
-type transferMode int8
-
-const (
-	transferCopy transferMode = iota
-	transferInvert
-)
-
-func transferBitmap(mode transferMode, src []byte, srcOffset, length int, dst []byte, dstOffset int) {
-	if length == 0 {
-		// if there's nothing to write, end early.
-		return
-	}
-
-	bitOffset := srcOffset % 8
-	destBitOffset := dstOffset % 8
-
-	// slow path, one of the bitmaps are not byte aligned.
-	if bitOffset != 0 || destBitOffset != 0 {
-		rdr := NewBitmapWordReader(src, srcOffset, length)
-		wr := NewBitmapWordWriter(dst, dstOffset, length)
-
-		nwords := rdr.Words()
-		for nwords > 0 {
-			nwords--
-			if mode == transferInvert {
-				wr.PutNextWord(^rdr.NextWord())
-			} else {
-				wr.PutNextWord(rdr.NextWord())
-			}
-		}
-		nbytes := rdr.TrailingBytes()
-		for nbytes > 0 {
-			nbytes--
-			bt, validBits := rdr.NextTrailingByte()
-			if mode == transferInvert {
-				bt = ^bt
-			}
-			wr.PutNextTrailingByte(bt, validBits)
-		}
-		return
-	}
-
-	// fast path, both are starting with byte-aligned bitmaps
-	nbytes := int(BytesForBits(int64(length)))
-
-	// shift by its byte offset
-	src = src[srcOffset/8:]
-	dst = dst[dstOffset/8:]
-
-	// Take care of the trailing bits in the last byte
-	// E.g., if trailing_bits = 5, last byte should be
-	// - low  3 bits: new bits from last byte of data buffer
-	// - high 5 bits: old bits from last byte of dest buffer
-	trailingBits := nbytes*8 - length
-	trailMask := byte(uint(1)<<(8-trailingBits)) - 1
-	var lastData byte
-	if mode == transferInvert {
-		for i, b := range src[:nbytes-1] {
-			dst[i] = ^b
-		}
-		lastData = ^src[nbytes-1]
-	} else {
-		copy(dst, src[:nbytes-1])
-		lastData = src[nbytes-1]
-	}
-
-	dst[nbytes-1] &= ^trailMask
-	dst[nbytes-1] |= lastData & trailMask
-}
-
-// CopyBitmap copies the bitmap indicated by src, starting at bit offset srcOffset,
-// and copying length bits into dst, starting at bit offset dstOffset.
-func CopyBitmap(src []byte, srcOffset, length int, dst []byte, dstOffset int) {
-	transferBitmap(transferCopy, src, srcOffset, length, dst, dstOffset)
-}
-
-// InvertBitmap copies a bit range of a bitmap, inverting it as it copies
-// over into the destination.
-func InvertBitmap(src []byte, srcOffset, length int, dst []byte, dstOffset int) {
-	transferBitmap(transferInvert, src, srcOffset, length, dst, dstOffset)
-}
-
-type bitOp struct {
-	opWord    func(uint64, uint64) uint64
-	opByte    func(byte, byte) byte
-	opAligned func(l, r, o []byte)
-}
-
-var (
-	bitAndOp = bitOp{
-		opWord: func(l, r uint64) uint64 { return l & r },
-		opByte: func(l, r byte) byte { return l & r },
-	}
-	bitOrOp = bitOp{
-		opWord: func(l, r uint64) uint64 { return l | r },
-		opByte: func(l, r byte) byte { return l | r },
-	}
-	bitAndNotOp = bitOp{
-		opWord: func(l, r uint64) uint64 { return l &^ r },
-		opByte: func(l, r byte) byte { return l &^ r },
-	}
-	bitXorOp = bitOp{
-		opWord: func(l, r uint64) uint64 { return l ^ r },
-		opByte: func(l, r byte) byte { return l ^ r },
-	}
-)
-
-func alignedBitmapOp(op bitOp, left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
-	debug.Assert(lOffset%8 == rOffset%8, "aligned bitmap op called with unaligned offsets")
-	debug.Assert(lOffset%8 == outOffset%8, "aligned bitmap op called with unaligned output offset")
-
-	nbytes := BytesForBits(length + lOffset%8)
-	left = left[lOffset/8:]
-	right = right[rOffset/8:]
-	out = out[outOffset/8:]
-	endMask := (lOffset + length%8)
-	switch nbytes {
-	case 0:
-		return
-	case 1: // everything within a single byte
-		// (length+lOffset%8) <= 8
-		mask := PrecedingBitmask[lOffset%8]
-		if endMask != 0 {
-			mask |= TrailingBitmask[(lOffset+length)%8]
-		}
-		out[0] = (out[0] & mask) | (op.opByte(left[0], right[0]) &^ mask)
-	case 2: // don't send zero length to opAligned
-		firstByteMask := PrecedingBitmask[lOffset%8]
-		out[0] = (out[0] & firstByteMask) | (op.opByte(left[0], right[0]) &^ firstByteMask)
-		lastByteMask := byte(0)
-		if endMask != 0 {
-			lastByteMask = TrailingBitmask[(lOffset+length)%8]
-		}
-		out[1] = (out[1] & lastByteMask) | (op.opByte(left[1], right[1]) &^ lastByteMask)
-	default:
-		firstByteMask := PrecedingBitmask[lOffset%8]
-		out[0] = (out[0] & firstByteMask) | (op.opByte(left[0], right[0]) &^ firstByteMask)
-
-		op.opAligned(left[1:nbytes-1], right[1:nbytes-1], out[1:nbytes-1])
-
-		lastByteMask := byte(0)
-		if endMask != 0 {
-			lastByteMask = TrailingBitmask[(lOffset+length)%8]
-		}
-		out[nbytes-1] = (out[nbytes-1] & lastByteMask) | (op.opByte(left[nbytes-1], right[nbytes-1]) &^ lastByteMask)
-	}
-}
-
-func unalignedBitmapOp(op bitOp, left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
-	leftRdr := NewBitmapWordReader(left, int(lOffset), int(length))
-	rightRdr := NewBitmapWordReader(right, int(rOffset), int(length))
-	writer := NewBitmapWordWriter(out, int(outOffset), int(length))
-
-	for nwords := leftRdr.Words(); nwords > 0; nwords-- {
-		writer.PutNextWord(op.opWord(leftRdr.NextWord(), rightRdr.NextWord()))
-	}
-	for nbytes := leftRdr.TrailingBytes(); nbytes > 0; nbytes-- {
-		leftByte, leftValid := leftRdr.NextTrailingByte()
-		rightByte, rightValid := rightRdr.NextTrailingByte()
-		debug.Assert(leftValid == rightValid, "unexpected mismatch of valid bits")
-		writer.PutNextTrailingByte(op.opByte(leftByte, rightByte), leftValid)
-	}
-}
-
-func BitmapOp(op bitOp, left, right []byte, lOffset, rOffset int64, out []byte, outOffset, length int64) {
-	if (outOffset%8 == lOffset%8) && (outOffset%8 == rOffset%8) {
-		// fastcase!
-		alignedBitmapOp(op, left, right, lOffset, rOffset, out, outOffset, length)
-	} else {
-		unalignedBitmapOp(op, left, right, lOffset, rOffset, out, outOffset, length)
-	}
-}
-
-func BitmapOpAlloc(mem memory.Allocator, op bitOp, left, right []byte, lOffset, rOffset int64, length int64, outOffset int64) *memory.Buffer {
-	bits := length + outOffset
-	buf := memory.NewResizableBuffer(mem)
-	buf.Resize(int(BytesForBits(bits)))
-	BitmapOp(op, left, right, lOffset, rOffset, buf.Bytes(), outOffset, length)
-	return buf
-}
-
-func BitmapAnd(left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
-	BitmapOp(bitAndOp, left, right, lOffset, rOffset, out, outOffset, length)
-}
-
-func BitmapOr(left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
-	BitmapOp(bitOrOp, left, right, lOffset, rOffset, out, outOffset, length)
-}
-
-func BitmapAndAlloc(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer {
-	return BitmapOpAlloc(mem, bitAndOp, left, right, lOffset, rOffset, length, outOffset)
-}
-
-func BitmapOrAlloc(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer {
-	return BitmapOpAlloc(mem, bitOrOp, left, right, lOffset, rOffset, length, outOffset)
-}
-
-func BitmapAndNot(left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
-	BitmapOp(bitAndNotOp, left, right, lOffset, rOffset, out, outOffset, length)
-}
-
-func BitmapAndNotAlloc(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer {
-	return BitmapOpAlloc(mem, bitAndNotOp, left, right, lOffset, rOffset, length, outOffset)
-}
-
-func BitmapXor(left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
-	BitmapOp(bitXorOp, left, right, lOffset, rOffset, out, outOffset, length)
-}
-
-func BitmapXorAlloc(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer {
-	return BitmapOpAlloc(mem, bitXorOp, left, right, lOffset, rOffset, length, outOffset)
-}
-
-func BitmapEquals(left, right []byte, lOffset, rOffset int64, length int64) bool {
-	if lOffset%8 == 0 && rOffset%8 == 0 {
-		// byte aligned, fast path, can use bytes.Equal (memcmp)
-		byteLen := length / 8
-		lStart := lOffset / 8
-		rStart := rOffset / 8
-		if !bytes.Equal(left[lStart:lStart+byteLen], right[rStart:rStart+byteLen]) {
-			return false
-		}
-
-		// check trailing bits
-		for i := (length / 8) * 8; i < length; i++ {
-			if BitIsSet(left, int(lOffset+i)) != BitIsSet(right, int(rOffset+i)) {
-				return false
-			}
-		}
-		return true
-	}
-
-	lrdr := NewBitmapWordReader(left, int(lOffset), int(length))
-	rrdr := NewBitmapWordReader(right, int(rOffset), int(length))
-
-	nwords := lrdr.Words()
-	for nwords > 0 {
-		nwords--
-		if lrdr.NextWord() != rrdr.NextWord() {
-			return false
-		}
-	}
-
-	nbytes := lrdr.TrailingBytes()
-	for nbytes > 0 {
-		nbytes--
-		lbt, _ := lrdr.NextTrailingByte()
-		rbt, _ := rrdr.NextTrailingByte()
-		if lbt != rbt {
-			return false
-		}
-	}
-	return true
-}
-
-// OptionalBitIndexer is a convenience wrapper for getting bits from
-// a bitmap which may or may not be nil.
-type OptionalBitIndexer struct {
-	Bitmap []byte
-	Offset int
-}
-
-func (b *OptionalBitIndexer) GetBit(i int) bool {
-	return b.Bitmap == nil || BitIsSet(b.Bitmap, b.Offset+i)
-}
-
-type Bitmap struct {
-	Data        []byte
-	Offset, Len int64
-}
-
-func bitLength(bitmaps []Bitmap) (int64, error) {
-	for _, b := range bitmaps[1:] {
-		if b.Len != bitmaps[0].Len {
-			return -1, errors.New("bitmaps must be same length")
-		}
-	}
-	return bitmaps[0].Len, nil
-}
-
-func runVisitWordsAndWriteLoop(bitLen int64, rdrs []*BitmapWordReader, wrs []*BitmapWordWriter, visitor func(in, out []uint64)) {
-	const bitWidth int64 = int64(uint64SizeBits)
-
-	visited := make([]uint64, len(rdrs))
-	output := make([]uint64, len(wrs))
-
-	// every reader will have same number of words, since they are same
-	// length'ed. This will be inefficient in some cases. When there's
-	// offsets beyond the Word boundary, every word would have to be
-	// created from 2 adjoining words
-	nwords := int64(rdrs[0].Words())
-	bitLen -= nwords * bitWidth
-	for nwords > 0 {
-		nwords--
-		for i := range visited {
-			visited[i] = rdrs[i].NextWord()
-		}
-		visitor(visited, output)
-		for i := range output {
-			wrs[i].PutNextWord(output[i])
-		}
-	}
-
-	// every reader will have the same number of trailing bytes, because
-	// we already confirmed they have the same length. Because
-	// offsets beyond the Word boundary can cause adjoining words, the
-	// tailing portion could be more than one word remaining full/partial
-	// words to write.
-	if bitLen == 0 {
-		return
-	}
-
-	// convert the word visitor to a bytevisitor
-	byteVisitor := func(in, out []byte) {
-		for i, w := range in {
-			visited[i] = uint64(w)
-		}
-		visitor(visited, output)
-		for i, w := range output {
-			out[i] = byte(w)
-		}
-	}
-
-	visitedBytes := make([]byte, len(rdrs))
-	outputBytes := make([]byte, len(wrs))
-	nbytes := rdrs[0].trailingBytes
-	for nbytes > 0 {
-		nbytes--
-		memory.Set(visitedBytes, 0)
-		memory.Set(outputBytes, 0)
-
-		var validBits int
-		for i := range rdrs {
-			visitedBytes[i], validBits = rdrs[i].NextTrailingByte()
-		}
-		byteVisitor(visitedBytes, outputBytes)
-		for i, w := range outputBytes {
-			wrs[i].PutNextTrailingByte(w, validBits)
-		}
-	}
-}
-
-// VisitWordsAndWrite visits words of bits from each input bitmap and
-// collects outputs to a slice of output Bitmaps.
-//
-// All bitmaps must have identical lengths. The first bit in a visited
-// bitmap may be offset within the first visited word, but words will
-// otherwise contain densely packed bits loaded from the bitmap. That
-// offset within the first word is returned.
-//
-// NOTE: this function is efficient on 3+ sufficiently large bitmaps.
-// It also has a large prolog/epilog overhead and should be used
-// carefully in other cases. For 2 or fewer bitmaps, and/or smaller
-// bitmaps, try BitmapReader and or other utilities.
-func VisitWordsAndWrite(args []Bitmap, out []Bitmap, visitor func(in, out []uint64)) error {
-	bitLen, err := bitLength(args)
-	if err != nil {
-		return err
-	}
-
-	rdrs, wrs := make([]*BitmapWordReader, len(args)), make([]*BitmapWordWriter, len(out))
-	for i, in := range args {
-		rdrs[i] = NewBitmapWordReader(in.Data, int(in.Offset), int(in.Len))
-	}
-	for i, o := range out {
-		wrs[i] = NewBitmapWordWriter(o.Data, int(o.Offset), int(o.Len))
-	}
-	runVisitWordsAndWriteLoop(bitLen, rdrs, wrs, visitor)
-	return nil
-}
diff --git a/go/arrow/bitutil/bitmaps_test.go b/go/arrow/bitutil/bitmaps_test.go
deleted file mode 100644
index 726bfa050cc4b..0000000000000
--- a/go/arrow/bitutil/bitmaps_test.go
+++ /dev/null
@@ -1,580 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutil_test
-
-import (
-	"fmt"
-	"math/rand"
-	"strconv"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-func bitmapFromSlice(vals []int, bitOffset int) []byte {
-	out := make([]byte, int(bitutil.BytesForBits(int64(len(vals)+bitOffset))))
-	writer := bitutil.NewBitmapWriter(out, bitOffset, len(vals))
-	for _, val := range vals {
-		if val == 1 {
-			writer.Set()
-		} else {
-			writer.Clear()
-		}
-		writer.Next()
-	}
-	writer.Finish()
-
-	return out
-}
-
-func assertReaderVals(t *testing.T, reader *bitutil.BitmapReader, vals []bool) {
-	for _, v := range vals {
-		if v {
-			assert.True(t, reader.Set())
-			assert.False(t, reader.NotSet())
-		} else {
-			assert.True(t, reader.NotSet())
-			assert.False(t, reader.Set())
-		}
-		reader.Next()
-	}
-}
-
-func TestNormalOperation(t *testing.T) {
-	for _, offset := range []int{0, 1, 3, 5, 7, 8, 12, 13, 21, 38, 75, 120} {
-		buf := bitmapFromSlice([]int{0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1}, offset)
-
-		reader := bitutil.NewBitmapReader(buf, offset, 14)
-		assertReaderVals(t, reader, []bool{false, true, true, true, false, false, false, true, false, true, false, true, false, true})
-	}
-}
-
-func TestDoesNotReadOutOfBounds(t *testing.T) {
-	var bitmap [16]byte
-	const length = 128
-
-	reader := bitutil.NewBitmapReader(bitmap[:], 0, length)
-	assert.EqualValues(t, length, reader.Len())
-	assert.NotPanics(t, func() {
-		for i := 0; i < length; i++ {
-			assert.True(t, reader.NotSet())
-			reader.Next()
-		}
-	})
-	assert.EqualValues(t, length, reader.Pos())
-
-	reader = bitutil.NewBitmapReader(bitmap[:], 5, length-5)
-	assert.EqualValues(t, length-5, reader.Len())
-	assert.NotPanics(t, func() {
-		for i := 0; i < length-5; i++ {
-			assert.True(t, reader.NotSet())
-			reader.Next()
-		}
-	})
-	assert.EqualValues(t, length-5, reader.Pos())
-
-	assert.NotPanics(t, func() {
-		reader = bitutil.NewBitmapReader(nil, 0, 0)
-	})
-}
-
-func writeToWriter(vals []int, wr *bitutil.BitmapWriter) {
-	for _, v := range vals {
-		if v != 0 {
-			wr.Set()
-		} else {
-			wr.Clear()
-		}
-		wr.Next()
-	}
-	wr.Finish()
-}
-
-func TestBitmapWriter(t *testing.T) {
-	for _, fillByte := range []byte{0x00, 0xFF} {
-		{
-			bitmap := []byte{fillByte, fillByte, fillByte, fillByte}
-			wr := bitutil.NewBitmapWriter(bitmap, 0, 12)
-			writeToWriter([]int{0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1}, wr)
-			// {0b00110110, 0b....1010, ........, ........}
-			assert.Equal(t, []byte{0x36, (0x0A | (fillByte & 0xF0)), fillByte, fillByte}, bitmap)
-		}
-		{
-			bitmap := []byte{fillByte, fillByte, fillByte, fillByte}
-			wr := bitutil.NewBitmapWriter(bitmap, 0, 12)
-			wr.AppendBools([]bool{false, true, true, false, true, true, false, false, false, true, false, true})
-			assert.Equal(t, []byte{0x36, (0x0A | (fillByte & 0xF0)), fillByte, fillByte}, bitmap)
-		}
-		{
-			bitmap := []byte{fillByte, fillByte, fillByte, fillByte}
-			wr := bitutil.NewBitmapWriter(bitmap, 3, 12)
-			writeToWriter([]int{0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1}, wr)
-			// {0b10110..., 0b.1010001, ........, ........}
-			assert.Equal(t, []byte{0xb0 | (fillByte & 0x07), 0x51 | (fillByte & 0x80), fillByte, fillByte}, bitmap)
-		}
-		{
-			bitmap := []byte{fillByte, fillByte, fillByte, fillByte}
-			wr := bitutil.NewBitmapWriter(bitmap, 3, 12)
-			wr.AppendBools([]bool{false, true, true, false})
-			wr.AppendBools([]bool{true, true, false, false})
-			wr.AppendBools([]bool{false, true, false, true})
-			assert.Equal(t, []byte{0xb0 | (fillByte & 0x07), 0x51 | (fillByte & 0x80), fillByte, fillByte}, bitmap)
-		}
-		{
-			bitmap := []byte{fillByte, fillByte, fillByte, fillByte}
-			wr := bitutil.NewBitmapWriter(bitmap, 20, 12)
-			writeToWriter([]int{0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1}, wr)
-			// {........, ........, 0b0110...., 0b10100011}
-			assert.Equal(t, []byte{fillByte, fillByte, 0x60 | (fillByte & 0x0f), 0xa3}, bitmap)
-		}
-	}
-}
-
-func TestBitmapReader(t *testing.T) {
-	assertReaderVals := func(vals []int, rdr *bitutil.BitmapReader) {
-		for _, v := range vals {
-			if v != 0 {
-				assert.True(t, rdr.Set())
-				assert.False(t, rdr.NotSet())
-			} else {
-				assert.False(t, rdr.Set())
-				assert.True(t, rdr.NotSet())
-			}
-			rdr.Next()
-		}
-	}
-
-	vals := []int{0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1}
-
-	for _, offset := range []int{0, 1, 3, 5, 7, 8, 12, 13, 21, 38, 75, 120} {
-		bm := make([]byte, bitutil.BytesForBits(int64(len(vals)+offset)))
-		wr := bitutil.NewBitmapWriter(bm, offset, len(vals))
-		writeToWriter(vals, wr)
-
-		rdr := bitutil.NewBitmapReader(bm, offset, 14)
-		assertReaderVals(vals, rdr)
-	}
-}
-
-func TestCopyBitmap(t *testing.T) {
-	const bufsize = 1000
-	lengths := []int{bufsize*8 - 4, bufsize * 8}
-	offsets := []int{0, 12, 16, 32, 37, 63, 64, 128}
-
-	buffer := make([]byte, bufsize)
-
-	// random bytes
-	r := rand.New(rand.NewSource(0))
-	r.Read(buffer)
-
-	// add 16 byte padding
-	otherBuffer := make([]byte, bufsize+32)
-	r.Read(otherBuffer)
-
-	for _, nbits := range lengths {
-		for _, offset := range offsets {
-			for _, destOffset := range offsets {
-				t.Run(fmt.Sprintf("bits %d off %d dst %d", nbits, offset, destOffset), func(t *testing.T) {
-					copyLen := nbits - offset
-
-					bmCopy := make([]byte, len(otherBuffer))
-					copy(bmCopy, otherBuffer)
-
-					bitutil.CopyBitmap(buffer, offset, copyLen, bmCopy, destOffset)
-
-					for i := 0; i < int(destOffset); i++ {
-						assert.Equalf(t, bitutil.BitIsSet(otherBuffer, i), bitutil.BitIsSet(bmCopy, i), "bit index: %d", i)
-					}
-					for i := 0; i < int(copyLen); i++ {
-						assert.Equalf(t, bitutil.BitIsSet(buffer, i+int(offset)), bitutil.BitIsSet(bmCopy, i+int(destOffset)), "bit index: %d", i)
-					}
-					for i := int(destOffset + copyLen); i < len(otherBuffer); i++ {
-						assert.Equalf(t, bitutil.BitIsSet(otherBuffer, i), bitutil.BitIsSet(bmCopy, i), "bit index: %d", i)
-					}
-				})
-			}
-		}
-	}
-}
-
-func benchmarkCopyBitmapN(b *testing.B, offsetSrc, offsetDest, n int) {
-	nbits := n * 8
-	// random bytes
-	r := rand.New(rand.NewSource(0))
-	src := make([]byte, n)
-	r.Read(src)
-
-	length := nbits - offsetSrc
-
-	dest := make([]byte, bitutil.BytesForBits(int64(length+offsetDest)))
-
-	b.ResetTimer()
-	b.SetBytes(int64(n))
-	for i := 0; i < b.N; i++ {
-		bitutil.CopyBitmap(src, offsetSrc, length, dest, offsetDest)
-	}
-}
-
-// Fast path which is just a memcopy
-func BenchmarkCopyBitmapWithoutOffset(b *testing.B) {
-	for _, sz := range []int{32, 128, 1000, 1024} {
-		b.Run(strconv.Itoa(sz), func(b *testing.B) {
-			benchmarkCopyBitmapN(b, 0, 0, sz)
-		})
-	}
-}
-
-// slow path where the source buffer is not byte aligned
-func BenchmarkCopyBitmapWithOffset(b *testing.B) {
-	for _, sz := range []int{32, 128, 1000, 1024} {
-		b.Run(strconv.Itoa(sz), func(b *testing.B) {
-			benchmarkCopyBitmapN(b, 4, 0, sz)
-		})
-	}
-}
-
-// slow path where both source and dest are not byte aligned
-func BenchmarkCopyBitmapWithOffsetBoth(b *testing.B) {
-	for _, sz := range []int{32, 128, 1000, 1024} {
-		b.Run(strconv.Itoa(sz), func(b *testing.B) {
-			benchmarkCopyBitmapN(b, 3, 7, sz)
-		})
-	}
-}
-
-const bufferSize = 1024 * 8
-
-// a naive bitmap reader for a baseline
-
-type NaiveBitmapReader struct {
-	bitmap []byte
-	pos    int
-}
-
-func (n *NaiveBitmapReader) IsSet() bool    { return bitutil.BitIsSet(n.bitmap, n.pos) }
-func (n *NaiveBitmapReader) IsNotSet() bool { return !n.IsSet() }
-func (n *NaiveBitmapReader) Next()          { n.pos++ }
-
-// naive bitmap writer for a baseline
-
-type NaiveBitmapWriter struct {
-	bitmap []byte
-	pos    int
-}
-
-func (n *NaiveBitmapWriter) Set() {
-	byteOffset := n.pos / 8
-	bitOffset := n.pos % 8
-	bitSetMask := uint8(1 << bitOffset)
-	n.bitmap[byteOffset] |= bitSetMask
-}
-
-func (n *NaiveBitmapWriter) Clear() {
-	byteOffset := n.pos / 8
-	bitOffset := n.pos % 8
-	bitClearMask := uint8(0xFF ^ (1 << bitOffset))
-	n.bitmap[byteOffset] &= bitClearMask
-}
-
-func (n *NaiveBitmapWriter) Next()   { n.pos++ }
-func (n *NaiveBitmapWriter) Finish() {}
-
-func randomBuffer(nbytes int64) []byte {
-	buf := make([]byte, nbytes)
-	r := rand.New(rand.NewSource(0))
-	r.Read(buf)
-	return buf
-}
-
-func BenchmarkBitmapReader(b *testing.B) {
-	buf := randomBuffer(bufferSize)
-	nbits := bufferSize * 8
-
-	b.Run("naive baseline", func(b *testing.B) {
-		b.SetBytes(2 * bufferSize)
-		for i := 0; i < b.N; i++ {
-			{
-				total := 0
-				rdr := NaiveBitmapReader{buf, 0}
-				for j := 0; j < nbits; j++ {
-					if rdr.IsSet() {
-						total++
-					}
-					rdr.Next()
-				}
-			}
-			{
-				total := 0
-				rdr := NaiveBitmapReader{buf, 0}
-				for j := 0; j < nbits; j++ {
-					if rdr.IsSet() {
-						total++
-					}
-					rdr.Next()
-				}
-			}
-		}
-	})
-	b.Run("bitmap reader", func(b *testing.B) {
-		b.SetBytes(2 * bufferSize)
-		for i := 0; i < b.N; i++ {
-			{
-				total := 0
-				rdr := bitutil.NewBitmapReader(buf, 0, nbits)
-				for j := 0; j < nbits; j++ {
-					if rdr.Set() {
-						total++
-					}
-					rdr.Next()
-				}
-			}
-			{
-				total := 0
-				rdr := bitutil.NewBitmapReader(buf, 0, nbits)
-				for j := 0; j < nbits; j++ {
-					if rdr.Set() {
-						total++
-					}
-					rdr.Next()
-				}
-			}
-		}
-	})
-}
-
-type (
-	noAllocFn func(left, right []byte, lOffset, rOffset int64, out []byte, outOffset, length int64)
-	allocFn   func(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer
-	bitmapOp  struct {
-		noAlloc noAllocFn
-		alloc   allocFn
-	}
-)
-
-type BitmapOpSuite struct {
-	suite.Suite
-}
-
-func (s *BitmapOpSuite) testAligned(op bitmapOp, leftBits, rightBits []int, resultBits []bool) {
-	var (
-		left, right []byte
-		out         *memory.Buffer
-		length      int64
-	)
-	for _, lOffset := range []int64{0, 1, 3, 5, 7, 8, 13, 21, 38, 75, 120, 65536} {
-		s.Run(fmt.Sprintf("left offset %d", lOffset), func() {
-			left = bitmapFromSlice(leftBits, int(lOffset))
-			length = int64(len(leftBits))
-			for _, rOffset := range []int64{lOffset, lOffset + 8, lOffset + 40} {
-				s.Run(fmt.Sprintf("right offset %d", rOffset), func() {
-					right = bitmapFromSlice(rightBits, int(rOffset))
-					for _, outOffset := range []int64{lOffset, lOffset + 16, lOffset + 24} {
-						s.Run(fmt.Sprintf("out offset %d", outOffset), func() {
-							s.Run("zero-length", func() {
-								out = op.alloc(memory.DefaultAllocator, left, right, lOffset, rOffset, 0, outOffset)
-								s.EqualValues(bitutil.BytesForBits(outOffset), out.Len())
-								expected := make([]byte, out.Len())
-								if out.Len() > 0 {
-									s.Equal(expected, out.Bytes())
-								} else {
-									s.Nil(out.Bytes())
-								}
-
-								memory.Set(out.Bytes(), 0xFF)
-								op.noAlloc(left, right, lOffset, rOffset, out.Bytes(), outOffset, 0)
-								if out.Len() > 0 {
-									memory.Set(expected, 0xFF)
-									s.Equal(expected, out.Bytes())
-								} else {
-									s.Nil(out.Bytes())
-								}
-								out.Release()
-							})
-
-							out = op.alloc(memory.DefaultAllocator, left, right, lOffset, rOffset, length, outOffset)
-							defer out.Release()
-							rdr := bitutil.NewBitmapReader(out.Bytes(), int(outOffset), int(length))
-							assertReaderVals(s.T(), rdr, resultBits)
-
-							memory.Set(out.Bytes(), 0x00)
-							op.noAlloc(left, right, lOffset, rOffset, out.Bytes(), outOffset, length)
-							rdr = bitutil.NewBitmapReader(out.Bytes(), int(outOffset), int(length))
-							assertReaderVals(s.T(), rdr, resultBits)
-						})
-					}
-				})
-			}
-		})
-	}
-}
-
-func (s *BitmapOpSuite) testUnaligned(op bitmapOp, leftBits, rightBits []int, resultBits []bool) {
-	var (
-		left, right []byte
-		out         *memory.Buffer
-		length      int64
-		offsets     = []int64{0, 1, 3, 5, 7, 8, 13, 21, 38, 75, 120, 65536}
-	)
-
-	for _, lOffset := range offsets {
-		s.Run(fmt.Sprintf("left offset %d", lOffset), func() {
-			left = bitmapFromSlice(leftBits, int(lOffset))
-			length = int64(len(leftBits))
-			for _, rOffset := range offsets {
-				s.Run(fmt.Sprintf("right offset %d", rOffset), func() {
-					right = bitmapFromSlice(rightBits, int(rOffset))
-					for _, outOffset := range offsets {
-						s.Run(fmt.Sprintf("out offset %d", outOffset), func() {
-							s.Run("zero-length", func() {
-								out = op.alloc(memory.DefaultAllocator, left, right, lOffset, rOffset, 0, outOffset)
-								s.EqualValues(bitutil.BytesForBits(outOffset), out.Len())
-								expected := make([]byte, out.Len())
-								if out.Len() > 0 {
-									s.Equal(expected, out.Bytes())
-								} else {
-									s.Nil(out.Bytes())
-								}
-
-								memory.Set(out.Bytes(), 0xFF)
-								op.noAlloc(left, right, lOffset, rOffset, out.Bytes(), outOffset, 0)
-								if out.Len() > 0 {
-									memory.Set(expected, 0xFF)
-									s.Equal(expected, out.Bytes())
-								} else {
-									s.Nil(out.Bytes())
-								}
-								out.Release()
-							})
-							s.Run("alloc", func() {
-								out = op.alloc(memory.DefaultAllocator, left, right, lOffset, rOffset, length, outOffset)
-								rdr := bitutil.NewBitmapReader(out.Bytes(), int(outOffset), int(length))
-								assertReaderVals(s.T(), rdr, resultBits)
-							})
-							s.Run("noalloc", func() {
-								memory.Set(out.Bytes(), 0x00)
-								op.noAlloc(left, right, lOffset, rOffset, out.Bytes(), outOffset, length)
-								rdr := bitutil.NewBitmapReader(out.Bytes(), int(outOffset), int(length))
-								assertReaderVals(s.T(), rdr, resultBits)
-							})
-						})
-					}
-				})
-			}
-		})
-	}
-}
-
-func (s *BitmapOpSuite) TestBitmapAnd() {
-	op := bitmapOp{
-		noAlloc: bitutil.BitmapAnd,
-		alloc:   bitutil.BitmapAndAlloc,
-	}
-
-	leftBits := []int{0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1}
-	rightBits := []int{0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0}
-	resultBits := []bool{false, false, true, false, false, false, false, false, false, true, false, false, false, false}
-
-	s.Run("aligned", func() {
-		s.testAligned(op, leftBits, rightBits, resultBits)
-	})
-	s.Run("unaligned", func() {
-		s.testUnaligned(op, leftBits, rightBits, resultBits)
-	})
-}
-
-func (s *BitmapOpSuite) TestBitmapOr() {
-	op := bitmapOp{
-		noAlloc: bitutil.BitmapOr,
-		alloc:   bitutil.BitmapOrAlloc,
-	}
-
-	leftBits := []int{0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1}
-	rightBits := []int{0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0}
-	resultBits := []bool{false, true, true, true, true, true, false, true, true, true, true, true, true, true}
-
-	s.Run("aligned", func() {
-		s.testAligned(op, leftBits, rightBits, resultBits)
-	})
-	s.Run("unaligned", func() {
-		s.testUnaligned(op, leftBits, rightBits, resultBits)
-	})
-}
-
-func TestBitmapOps(t *testing.T) {
-	suite.Run(t, new(BitmapOpSuite))
-}
-
-func TestSmallBitmapOp(t *testing.T) {
-	// 0b01111111 0b11001111
-	left := [2]byte{127, 207}
-	// 0b11111110 0b01111111
-	right := [2]byte{254, 127}
-	// 0b01111110 0b01001111
-	results := [2]byte{126, 79}
-
-	var out [2]byte
-	bitutil.BitmapAnd(left[:], right[:], 0, 0, out[:], 0, 8)
-	assert.Equal(t, results[:1], out[:1])
-
-	bitutil.BitmapAnd(left[:], right[:], 0, 0, out[:], 0, 16)
-	assert.Equal(t, results, out)
-}
-
-func createRandomBuffer(mem memory.Allocator, src *rand.Rand, nbytes int) []byte {
-	buf := mem.Allocate(nbytes)
-	src.Read(buf)
-	return buf
-}
-
-func benchBitOpImpl(b *testing.B, nBytes, offset int, op noAllocFn) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	r := rand.New(rand.NewSource(0))
-
-	buf1 := createRandomBuffer(mem, r, nBytes)
-	buf2 := createRandomBuffer(mem, r, nBytes)
-	buf3 := createRandomBuffer(mem, r, nBytes)
-	b.Cleanup(func() {
-		mem.Free(buf1)
-		mem.Free(buf2)
-		mem.Free(buf3)
-	})
-
-	numBits := nBytes*8 - offset
-	b.ResetTimer()
-	b.SetBytes(bitutil.BytesForBits(int64(numBits)) * 2)
-	for i := 0; i < b.N; i++ {
-		op(buf1, buf2, 0, int64(offset), buf3, 0, int64(numBits))
-	}
-}
-
-func BenchmarkBitmapAnd(b *testing.B) {
-	sizes := []int{bufferSize * 4, bufferSize * 16}
-	offsets := []int{0, 1, 2}
-
-	for _, s := range sizes {
-		b.Run(fmt.Sprintf("nbytes=%d", s), func(b *testing.B) {
-			for _, o := range offsets {
-				b.Run(fmt.Sprintf("%d", o), func(b *testing.B) {
-					benchBitOpImpl(b, s, o, bitutil.BitmapAnd)
-				})
-			}
-		})
-	}
-}
diff --git a/go/arrow/bitutil/bitutil.go b/go/arrow/bitutil/bitutil.go
deleted file mode 100644
index c4b633c73aa40..0000000000000
--- a/go/arrow/bitutil/bitutil.go
+++ /dev/null
@@ -1,186 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutil
-
-import (
-	"math"
-	"math/bits"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-var (
-	BitMask        = [8]byte{1, 2, 4, 8, 16, 32, 64, 128}
-	FlippedBitMask = [8]byte{254, 253, 251, 247, 239, 223, 191, 127}
-)
-
-// IsMultipleOf8 returns whether v is a multiple of 8.
-func IsMultipleOf8(v int64) bool { return v&7 == 0 }
-
-// IsMultipleOf64 returns whether v is a multiple of 64
-func IsMultipleOf64(v int64) bool { return v&63 == 0 }
-
-func BytesForBits(bits int64) int64 { return (bits + 7) >> 3 }
-
-// NextPowerOf2 rounds x to the next power of two.
-func NextPowerOf2(x int) int { return 1 << uint(bits.Len(uint(x))) }
-
-// CeilByte rounds size to the next multiple of 8.
-func CeilByte(size int) int { return (size + 7) &^ 7 }
-
-// CeilByte64 rounds size to the next multiple of 8.
-func CeilByte64(size int64) int64 { return (size + 7) &^ 7 }
-
-// BitIsSet returns true if the bit at index i in buf is set (1).
-func BitIsSet(buf []byte, i int) bool { return (buf[uint(i)/8] & BitMask[byte(i)%8]) != 0 }
-
-// BitIsNotSet returns true if the bit at index i in buf is not set (0).
-func BitIsNotSet(buf []byte, i int) bool { return (buf[uint(i)/8] & BitMask[byte(i)%8]) == 0 }
-
-// SetBit sets the bit at index i in buf to 1.
-func SetBit(buf []byte, i int) { buf[uint(i)/8] |= BitMask[byte(i)%8] }
-
-// ClearBit sets the bit at index i in buf to 0.
-func ClearBit(buf []byte, i int) { buf[uint(i)/8] &= FlippedBitMask[byte(i)%8] }
-
-// SetBitTo sets the bit at index i in buf to val.
-func SetBitTo(buf []byte, i int, val bool) {
-	if val {
-		SetBit(buf, i)
-	} else {
-		ClearBit(buf, i)
-	}
-}
-
-// CountSetBits counts the number of 1's in buf up to n bits.
-func CountSetBits(buf []byte, offset, n int) int {
-	if offset > 0 {
-		return countSetBitsWithOffset(buf, offset, n)
-	}
-
-	count := 0
-
-	uint64Bytes := n / uint64SizeBits * 8
-	for _, v := range bytesToUint64(buf[:uint64Bytes]) {
-		count += bits.OnesCount64(v)
-	}
-
-	for _, v := range buf[uint64Bytes : n/8] {
-		count += bits.OnesCount8(v)
-	}
-
-	// tail bits
-	for i := n &^ 0x7; i < n; i++ {
-		if BitIsSet(buf, i) {
-			count++
-		}
-	}
-
-	return count
-}
-
-func countSetBitsWithOffset(buf []byte, offset, n int) int {
-	count := 0
-
-	beg := offset
-	begU8 := roundUp(beg, uint64SizeBits)
-
-	init := min(n, begU8-beg)
-	for i := offset; i < beg+init; i++ {
-		if BitIsSet(buf, i) {
-			count++
-		}
-	}
-
-	begU64 := BytesForBits(int64(beg + init))
-	return count + CountSetBits(buf[begU64:], 0, n-init)
-}
-
-func roundUp(v, f int) int {
-	return (v + (f - 1)) / f * f
-}
-
-func min(a, b int) int {
-	if a < b {
-		return a
-	}
-	return b
-}
-
-const (
-	uint64SizeBytes = int(unsafe.Sizeof(uint64(0)))
-	uint64SizeBits  = uint64SizeBytes * 8
-)
-
-var (
-	// PrecedingBitmask is a convenience set of values as bitmasks for checking
-	// prefix bits of a byte
-	PrecedingBitmask = [8]byte{0, 1, 3, 7, 15, 31, 63, 127}
-	// TrailingBitmask is the bitwise complement version of kPrecedingBitmask
-	TrailingBitmask = [8]byte{255, 254, 252, 248, 240, 224, 192, 128}
-)
-
-// SetBitsTo is a convenience function to quickly set or unset all the bits
-// in a bitmap starting at startOffset for length bits.
-func SetBitsTo(bits []byte, startOffset, length int64, areSet bool) {
-	if length == 0 {
-		return
-	}
-
-	beg := startOffset
-	end := startOffset + length
-	var fill uint8 = 0
-	if areSet {
-		fill = math.MaxUint8
-	}
-
-	byteBeg := beg / 8
-	byteEnd := end/8 + 1
-
-	// don't modify bits before the startOffset by using this mask
-	firstByteMask := PrecedingBitmask[beg%8]
-	// don't modify bits past the length by using this mask
-	lastByteMask := TrailingBitmask[end%8]
-
-	if byteEnd == byteBeg+1 {
-		// set bits within a single byte
-		onlyByteMask := firstByteMask
-		if end%8 != 0 {
-			onlyByteMask = firstByteMask | lastByteMask
-		}
-
-		bits[byteBeg] &= onlyByteMask
-		bits[byteBeg] |= fill &^ onlyByteMask
-		return
-	}
-
-	// set/clear trailing bits of first byte
-	bits[byteBeg] &= firstByteMask
-	bits[byteBeg] |= fill &^ firstByteMask
-
-	if byteEnd-byteBeg > 2 {
-		memory.Set(bits[byteBeg+1:byteEnd-1], fill)
-	}
-
-	if end%8 == 0 {
-		return
-	}
-
-	bits[byteEnd-1] &= lastByteMask
-	bits[byteEnd-1] |= fill &^ lastByteMask
-}
diff --git a/go/arrow/bitutil/bitutil_bytes.go b/go/arrow/bitutil/bitutil_bytes.go
deleted file mode 100644
index 09dd5cbc67d39..0000000000000
--- a/go/arrow/bitutil/bitutil_bytes.go
+++ /dev/null
@@ -1,37 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.20 || tinygo
-
-package bitutil
-
-import (
-	"unsafe"
-)
-
-func bytesToUint64(b []byte) []uint64 {
-	if len(b) < uint64SizeBytes {
-		return nil
-	}
-
-	ptr := unsafe.SliceData(b)
-	if ptr == nil {
-		return nil
-	}
-
-	return unsafe.Slice((*uint64)(unsafe.Pointer(ptr)),
-		len(b)/uint64SizeBytes)
-}
diff --git a/go/arrow/bitutil/bitutil_test.go b/go/arrow/bitutil/bitutil_test.go
deleted file mode 100644
index c03bf5268a5ff..0000000000000
--- a/go/arrow/bitutil/bitutil_test.go
+++ /dev/null
@@ -1,320 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutil_test
-
-import (
-	"fmt"
-	"math/rand"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/tools"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestIsMultipleOf8(t *testing.T) {
-	for _, tc := range []struct {
-		v    int64
-		want bool
-	}{
-		{-16, true},
-		{-9, false},
-		{-8, true},
-		{-7, false},
-		{-4, false},
-		{-1, false},
-		{-0, true},
-		{0, true},
-		{1, false},
-		{4, false},
-		{7, false},
-		{8, true},
-		{9, false},
-		{16, true},
-	} {
-		t.Run(fmt.Sprintf("v=%d", tc.v), func(t *testing.T) {
-			got := bitutil.IsMultipleOf8(tc.v)
-			if got != tc.want {
-				t.Fatalf("IsMultipleOf8(%d): got=%v, want=%v", tc.v, got, tc.want)
-			}
-		})
-	}
-}
-
-func TestCeilByte(t *testing.T) {
-	tests := []struct {
-		name    string
-		in, exp int
-	}{
-		{"zero", 0, 0},
-		{"five", 5, 8},
-		{"sixteen", 16, 16},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			got := bitutil.CeilByte(test.in)
-			assert.Equal(t, test.exp, got)
-		})
-	}
-}
-
-func TestBitIsSet(t *testing.T) {
-	buf := make([]byte, 2)
-	buf[0] = 0xa1
-	buf[1] = 0xc2
-	exp := []bool{true, false, false, false, false, true, false, true, false, true, false, false, false, false, true, true}
-	var got []bool
-	for i := 0; i < 0x10; i++ {
-		got = append(got, bitutil.BitIsSet(buf, i))
-	}
-	assert.Equal(t, exp, got)
-}
-
-func TestBitIsNotSet(t *testing.T) {
-	buf := make([]byte, 2)
-	buf[0] = 0xa1
-	buf[1] = 0xc2
-	exp := []bool{false, true, true, true, true, false, true, false, true, false, true, true, true, true, false, false}
-	var got []bool
-	for i := 0; i < 0x10; i++ {
-		got = append(got, bitutil.BitIsNotSet(buf, i))
-	}
-	assert.Equal(t, exp, got)
-}
-
-func TestClearBit(t *testing.T) {
-	buf := make([]byte, 2)
-	buf[0] = 0xff
-	buf[1] = 0xff
-	for i, v := range []bool{false, true, true, true, true, false, true, false, true, false, true, true, true, true, false, false} {
-		if v {
-			bitutil.ClearBit(buf, i)
-		}
-	}
-	assert.Equal(t, []byte{0xa1, 0xc2}, buf)
-}
-
-func TestSetBit(t *testing.T) {
-	buf := make([]byte, 2)
-	for i, v := range []bool{true, false, false, false, false, true, false, true, false, true, false, false, false, false, true, true} {
-		if v {
-			bitutil.SetBit(buf, i)
-		}
-	}
-	assert.Equal(t, []byte{0xa1, 0xc2}, buf)
-}
-
-func TestSetBitTo(t *testing.T) {
-	buf := make([]byte, 2)
-	for i, v := range []bool{true, false, false, false, false, true, false, true, false, true, false, false, false, false, true, true} {
-		bitutil.SetBitTo(buf, i, v)
-	}
-	assert.Equal(t, []byte{0xa1, 0xc2}, buf)
-}
-
-func TestCountSetBits(t *testing.T) {
-	tests := []struct {
-		name string
-		buf  []byte
-		off  int
-		n    int
-		exp  int
-	}{
-		{"some 03 bits", bbits(0x11000000), 0, 3, 2},
-		{"some 11 bits", bbits(0x11000011, 0x01000000), 0, 11, 5},
-		{"some 72 bits", bbits(0x11001010, 0x11110000, 0x00001111, 0x11000011, 0x11001010, 0x11110000, 0x00001111, 0x11000011, 0x10001001), 0, 9 * 8, 35},
-		{"all  08 bits", bbits(0x11111110), 0, 8, 7},
-		{"all  03 bits", bbits(0x11100001), 0, 3, 3},
-		{"all  11 bits", bbits(0x11111111, 0x11111111), 0, 11, 11},
-		{"all  72 bits", bbits(0x11111111, 0x11111111, 0x11111111, 0x11111111, 0x11111111, 0x11111111, 0x11111111, 0x11111111, 0x11111111), 0, 9 * 8, 72},
-		{"none 03 bits", bbits(0x00000001), 0, 3, 0},
-		{"none 11 bits", bbits(0x00000000, 0x00000000), 0, 11, 0},
-		{"none 72 bits", bbits(0x00000000, 0x00000000, 0x00000000, 0x00000000, 0x00000000, 0x00000000, 0x00000000, 0x00000000, 0x00000000), 0, 9 * 8, 0},
-
-		{"some 03 bits - offset+1", bbits(0x11000000), 1, 3, 1},
-		{"some 03 bits - offset+2", bbits(0x11000000), 2, 3, 0},
-		{"some 11 bits - offset+1", bbits(0x11000011, 0x01000000, 0x00000000), 1, 11, 4},
-		{"some 11 bits - offset+2", bbits(0x11000011, 0x01000000, 0x00000000), 2, 11, 3},
-		{"some 11 bits - offset+3", bbits(0x11000011, 0x01000000, 0x00000000), 3, 11, 3},
-		{"some 11 bits - offset+6", bbits(0x11000011, 0x01000000, 0x00000000), 6, 11, 3},
-		{"some 11 bits - offset+7", bbits(0x11000011, 0x01000000, 0x00000000), 7, 11, 2},
-		{"some 11 bits - offset+8", bbits(0x11000011, 0x01000000, 0x00000000), 8, 11, 1},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			got := bitutil.CountSetBits(test.buf, test.off, test.n)
-			assert.Equal(t, test.exp, got)
-		})
-	}
-}
-
-func TestCountSetBitsOffset(t *testing.T) {
-	slowCountSetBits := func(buf []byte, offset, n int) int {
-		count := 0
-		for i := offset; i < offset+n; i++ {
-			if bitutil.BitIsSet(buf, i) {
-				count++
-			}
-		}
-		return count
-	}
-
-	const (
-		bufSize = 1000
-		nbits   = bufSize * 8
-	)
-
-	offsets := []int{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 16, 32, 37, 63, 64, 128, nbits - 30, nbits - 64}
-
-	buf := make([]byte, bufSize)
-
-	rng := rand.New(rand.NewSource(0))
-	_, err := rng.Read(buf)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	for i, offset := range offsets {
-		want := slowCountSetBits(buf, offset, nbits-offset)
-		got := bitutil.CountSetBits(buf, offset, nbits-offset)
-		if got != want {
-			t.Errorf("offset[%2d/%2d]=%5d. got=%5d, want=%5d", i+1, len(offsets), offset, got, want)
-		}
-	}
-}
-
-func TestSetBitsTo(t *testing.T) {
-	for _, fillByte := range []byte{0x00, 0xFF} {
-		{
-			// set within a byte
-			bm := []byte{fillByte, fillByte, fillByte, fillByte}
-			bitutil.SetBitsTo(bm, 2, 2, true)
-			bitutil.SetBitsTo(bm, 4, 2, false)
-			assert.Equal(t, []byte{(fillByte &^ 0x3C) | 0xC}, bm[:1])
-		}
-		{
-			// test straddling a single byte boundary
-			bm := []byte{fillByte, fillByte, fillByte, fillByte}
-			bitutil.SetBitsTo(bm, 4, 7, true)
-			bitutil.SetBitsTo(bm, 11, 7, false)
-			assert.Equal(t, []byte{(fillByte & 0xF) | 0xF0, 0x7, fillByte &^ 0x3}, bm[:3])
-		}
-		{
-			// test byte aligned end
-			bm := []byte{fillByte, fillByte, fillByte, fillByte}
-			bitutil.SetBitsTo(bm, 4, 4, true)
-			bitutil.SetBitsTo(bm, 8, 8, false)
-			assert.Equal(t, []byte{(fillByte & 0xF) | 0xF0, 0x00, fillByte}, bm[:3])
-		}
-		{
-			// test byte aligned end, multiple bytes
-			bm := []byte{fillByte, fillByte, fillByte, fillByte}
-			bitutil.SetBitsTo(bm, 0, 24, false)
-			falseByte := byte(0)
-			assert.Equal(t, []byte{falseByte, falseByte, falseByte, fillByte}, bm)
-		}
-	}
-}
-
-func bbits(v ...int32) []byte {
-	return tools.IntsToBitsLSB(v...)
-}
-
-func BenchmarkBitIsSet(b *testing.B) {
-	buf := make([]byte, 32)
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		bitutil.BitIsSet(buf, (i%32)&0x1a)
-	}
-}
-
-func BenchmarkSetBit(b *testing.B) {
-	buf := make([]byte, 32)
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		bitutil.SetBit(buf, (i%32)&0x1a)
-	}
-}
-
-func BenchmarkSetBitTo(b *testing.B) {
-	vals := []bool{true, false, false, false, false, true, false, true, false, true, false, false, false, false, true, true}
-	buf := make([]byte, 32)
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		bitutil.SetBitTo(buf, i%32, vals[i%len(vals)])
-	}
-}
-
-var (
-	intval int
-)
-
-func benchmarkCountSetBitsN(b *testing.B, offset, n int) {
-	nn := n/8 + 1
-	buf := make([]byte, nn)
-	//src := [4]byte{0x1f, 0xaa, 0xba, 0x11}
-	src := [4]byte{0x01, 0x01, 0x01, 0x01}
-	for i := 0; i < nn; i++ {
-		buf[i] = src[i&0x3]
-	}
-	b.ResetTimer()
-	var res int
-	for i := 0; i < b.N; i++ {
-		res = bitutil.CountSetBits(buf, offset, n-offset)
-	}
-	intval = res
-}
-
-func BenchmarkCountSetBits_3(b *testing.B) {
-	benchmarkCountSetBitsN(b, 0, 3)
-}
-
-func BenchmarkCountSetBits_32(b *testing.B) {
-	benchmarkCountSetBitsN(b, 0, 32)
-}
-
-func BenchmarkCountSetBits_128(b *testing.B) {
-	benchmarkCountSetBitsN(b, 0, 128)
-}
-
-func BenchmarkCountSetBits_1000(b *testing.B) {
-	benchmarkCountSetBitsN(b, 0, 1000)
-}
-
-func BenchmarkCountSetBits_1024(b *testing.B) {
-	benchmarkCountSetBitsN(b, 0, 1024)
-}
-
-func BenchmarkCountSetBitsOffset_3(b *testing.B) {
-	benchmarkCountSetBitsN(b, 1, 3)
-}
-
-func BenchmarkCountSetBitsOffset_32(b *testing.B) {
-	benchmarkCountSetBitsN(b, 1, 32)
-}
-
-func BenchmarkCountSetBitsOffset_128(b *testing.B) {
-	benchmarkCountSetBitsN(b, 1, 128)
-}
-
-func BenchmarkCountSetBitsOffset_1000(b *testing.B) {
-	benchmarkCountSetBitsN(b, 1, 1000)
-}
-
-func BenchmarkCountSetBitsOffset_1024(b *testing.B) {
-	benchmarkCountSetBitsN(b, 1, 1024)
-}
diff --git a/go/arrow/bitutil/endian_default.go b/go/arrow/bitutil/endian_default.go
deleted file mode 100644
index ecbbaa70d04b6..0000000000000
--- a/go/arrow/bitutil/endian_default.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !s390x
-// +build !s390x
-
-package bitutil
-
-import (
-	"unsafe"
-)
-
-var toFromLEFunc = func(in uint64) uint64 { return in }
-
-func getLSB(v uint64) byte {
-	return (*[8]byte)(unsafe.Pointer(&v))[0]
-}
-
-func setLSB(v *uint64, b byte) {
-	(*[8]byte)(unsafe.Pointer(v))[0] = b
-}
diff --git a/go/arrow/bitutil/endian_s390x.go b/go/arrow/bitutil/endian_s390x.go
deleted file mode 100644
index e99605f5848fa..0000000000000
--- a/go/arrow/bitutil/endian_s390x.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutil
-
-import (
-	"math/bits"
-	"unsafe"
-)
-
-var toFromLEFunc = bits.ReverseBytes64
-
-func getLSB(v uint64) byte {
-	return (*[8]byte)(unsafe.Pointer(&v))[7]
-}
-
-func setLSB(v *uint64, b byte) {
-	(*[8]byte)(unsafe.Pointer(v))[7] = b
-}
diff --git a/go/arrow/cdata/arrow/c/abi.h b/go/arrow/cdata/arrow/c/abi.h
deleted file mode 100644
index d58417e6fbcf2..0000000000000
--- a/go/arrow/cdata/arrow/c/abi.h
+++ /dev/null
@@ -1,111 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#pragma once
-
-#include <stdint.h>
-
-#ifdef __cplusplus
-extern "C" {
-#endif
-
-#ifndef ARROW_C_DATA_INTERFACE
-#define ARROW_C_DATA_INTERFACE
-
-#define ARROW_FLAG_DICTIONARY_ORDERED 1
-#define ARROW_FLAG_NULLABLE 2
-#define ARROW_FLAG_MAP_KEYS_SORTED 4
-
-struct ArrowSchema {
-  // Array type description
-  const char* format;
-  const char* name;
-  const char* metadata;
-  int64_t flags;
-  int64_t n_children;
-  struct ArrowSchema** children;
-  struct ArrowSchema* dictionary;
-
-  // Release callback
-  void (*release)(struct ArrowSchema*);
-  // Opaque producer-specific data
-  void* private_data;
-};
-
-struct ArrowArray {
-  // Array data description
-  int64_t length;
-  int64_t null_count;
-  int64_t offset;
-  int64_t n_buffers;
-  int64_t n_children;
-  const void** buffers;
-  struct ArrowArray** children;
-  struct ArrowArray* dictionary;
-
-  // Release callback
-  void (*release)(struct ArrowArray*);
-  // Opaque producer-specific data
-  void* private_data;
-};
-
-#endif  // ARROW_C_DATA_INTERFACE
-
-#ifndef ARROW_C_STREAM_INTERFACE
-#define ARROW_C_STREAM_INTERFACE
-
-struct ArrowArrayStream {
-  // Callback to get the stream type
-  // (will be the same for all arrays in the stream).
-  //
-  // Return value: 0 if successful, an `errno`-compatible error code otherwise.
-  //
-  // If successful, the ArrowSchema must be released independently from the stream.
-  int (*get_schema)(struct ArrowArrayStream*, struct ArrowSchema* out);
-
-  // Callback to get the next array
-  // (if no error and the array is released, the stream has ended)
-  //
-  // Return value: 0 if successful, an `errno`-compatible error code otherwise.
-  //
-  // If successful, the ArrowArray must be released independently from the stream.
-  int (*get_next)(struct ArrowArrayStream*, struct ArrowArray* out);
-
-  // Callback to get optional detailed error information.
-  // This must only be called if the last stream operation failed
-  // with a non-0 return code.
-  //
-  // Return value: pointer to a null-terminated character array describing
-  // the last error, or NULL if no description is available.
-  //
-  // The returned pointer is only valid until the next operation on this stream
-  // (including release).
-  const char* (*get_last_error)(struct ArrowArrayStream*);
-
-  // Release callback: release the stream's own resources.
-  // Note that arrays returned by `get_next` must be individually released.
-  void (*release)(struct ArrowArrayStream*);
-
-  // Opaque producer-specific data
-  void* private_data;
-};
-
-#endif  // ARROW_C_STREAM_INTERFACE
-
-#ifdef __cplusplus
-}
-#endif
diff --git a/go/arrow/cdata/arrow/c/helpers.h b/go/arrow/cdata/arrow/c/helpers.h
deleted file mode 100644
index 6581403b57c46..0000000000000
--- a/go/arrow/cdata/arrow/c/helpers.h
+++ /dev/null
@@ -1,117 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#pragma once
-
-#include <assert.h>
-#include <string.h>
-
-#include "arrow/c/abi.h"
-
-#ifdef __cplusplus
-extern "C" {
-#endif
-
-/// Query whether the C schema is released
-static inline int ArrowSchemaIsReleased(const struct ArrowSchema* schema) {
-  return schema->release == NULL;
-}
-
-/// Mark the C schema released (for use in release callbacks)
-static inline void ArrowSchemaMarkReleased(struct ArrowSchema* schema) {
-  schema->release = NULL;
-}
-
-/// Move the C schema from `src` to `dest`
-///
-/// Note `dest` must *not* point to a valid schema already, otherwise there
-/// will be a memory leak.
-static inline void ArrowSchemaMove(struct ArrowSchema* src, struct ArrowSchema* dest) {
-  assert(dest != src);
-  assert(!ArrowSchemaIsReleased(src));
-  memcpy(dest, src, sizeof(struct ArrowSchema));
-  ArrowSchemaMarkReleased(src);
-}
-
-/// Release the C schema, if necessary, by calling its release callback
-static inline void ArrowSchemaRelease(struct ArrowSchema* schema) {
-  if (!ArrowSchemaIsReleased(schema)) {
-    schema->release(schema);
-    assert(ArrowSchemaIsReleased(schema));
-  }
-}
-
-/// Query whether the C array is released
-static inline int ArrowArrayIsReleased(const struct ArrowArray* array) {
-  return array->release == NULL;
-}
-
-/// Mark the C array released (for use in release callbacks)
-static inline void ArrowArrayMarkReleased(struct ArrowArray* array) { array->release = NULL; }
-
-/// Move the C array from `src` to `dest`
-///
-/// Note `dest` must *not* point to a valid array already, otherwise there
-/// will be a memory leak.
-static inline void ArrowArrayMove(struct ArrowArray* src, struct ArrowArray* dest) {
-  assert(dest != src);
-  assert(!ArrowArrayIsReleased(src));
-  memcpy(dest, src, sizeof(struct ArrowArray));
-  ArrowArrayMarkReleased(src);
-}
-
-/// Release the C array, if necessary, by calling its release callback
-static inline void ArrowArrayRelease(struct ArrowArray* array) {
-  if (!ArrowArrayIsReleased(array)) {
-    array->release(array);
-    assert(ArrowArrayIsReleased(array));
-  }
-}
-
-/// Query whether the C array stream is released
-static inline int ArrowArrayStreamIsReleased(const struct ArrowArrayStream* stream) {
-  return stream->release == NULL;
-}
-
-/// Mark the C array stream released (for use in release callbacks)
-static inline void ArrowArrayStreamMarkReleased(struct ArrowArrayStream* stream) {
-  stream->release = NULL;
-}
-
-/// Move the C array stream from `src` to `dest`
-///
-/// Note `dest` must *not* point to a valid stream already, otherwise there
-/// will be a memory leak.
-static inline void ArrowArrayStreamMove(struct ArrowArrayStream* src,
-                                 struct ArrowArrayStream* dest) {
-  assert(dest != src);
-  assert(!ArrowArrayStreamIsReleased(src));
-  memcpy(dest, src, sizeof(struct ArrowArrayStream));
-  ArrowArrayStreamMarkReleased(src);
-}
-
-/// Release the C array stream, if necessary, by calling its release callback
-static inline void ArrowArrayStreamRelease(struct ArrowArrayStream* stream) {
-  if (!ArrowArrayStreamIsReleased(stream)) {
-    stream->release(stream);
-    assert(ArrowArrayStreamIsReleased(stream));
-  }
-}
-
-#ifdef __cplusplus
-}
-#endif
diff --git a/go/arrow/cdata/cdata.go b/go/arrow/cdata/cdata.go
deleted file mode 100644
index 0562eaed0fb7a..0000000000000
--- a/go/arrow/cdata/cdata.go
+++ /dev/null
@@ -1,1028 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo
-// +build cgo
-
-package cdata
-
-// implement handling of the Arrow C Data Interface. At least from a consuming side.
-
-// #include "arrow/c/abi.h"
-// #include "arrow/c/helpers.h"
-// #include <stdlib.h>
-// int stream_get_schema(struct ArrowArrayStream* st, struct ArrowSchema* out) { return st->get_schema(st, out); }
-// int stream_get_next(struct ArrowArrayStream* st, struct ArrowArray* out) { return st->get_next(st, out); }
-// const char* stream_get_last_error(struct ArrowArrayStream* st) { return st->get_last_error(st); }
-// struct ArrowArray* get_arr() {
-//	struct ArrowArray* out = (struct ArrowArray*)(malloc(sizeof(struct ArrowArray)));
-//	memset(out, 0, sizeof(struct ArrowArray));
-//	return out;
-// }
-// struct ArrowArrayStream* get_stream() {
-//	struct ArrowArrayStream* out = (struct ArrowArrayStream*)malloc(sizeof(struct ArrowArrayStream));
-//	memset(out, 0, sizeof(struct ArrowArrayStream));
-//	return out;
-// }
-//
-import "C"
-
-import (
-	"errors"
-	"fmt"
-	"io"
-	"runtime"
-	"strconv"
-	"strings"
-	"syscall"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/xerrors"
-)
-
-type (
-	// CArrowSchema is the C Data Interface for ArrowSchemas defined in abi.h
-	CArrowSchema = C.struct_ArrowSchema
-	// CArrowArray is the C Data Interface object for Arrow Arrays as defined in abi.h
-	CArrowArray = C.struct_ArrowArray
-	// CArrowArrayStream is the C Stream Interface object for handling streams of record batches.
-	CArrowArrayStream = C.struct_ArrowArrayStream
-)
-
-// Map from the defined strings to their corresponding arrow.DataType interface
-// object instances, for types that don't require params.
-var formatToSimpleType = map[string]arrow.DataType{
-	"n":   arrow.Null,
-	"b":   arrow.FixedWidthTypes.Boolean,
-	"c":   arrow.PrimitiveTypes.Int8,
-	"C":   arrow.PrimitiveTypes.Uint8,
-	"s":   arrow.PrimitiveTypes.Int16,
-	"S":   arrow.PrimitiveTypes.Uint16,
-	"i":   arrow.PrimitiveTypes.Int32,
-	"I":   arrow.PrimitiveTypes.Uint32,
-	"l":   arrow.PrimitiveTypes.Int64,
-	"L":   arrow.PrimitiveTypes.Uint64,
-	"e":   arrow.FixedWidthTypes.Float16,
-	"f":   arrow.PrimitiveTypes.Float32,
-	"g":   arrow.PrimitiveTypes.Float64,
-	"z":   arrow.BinaryTypes.Binary,
-	"Z":   arrow.BinaryTypes.LargeBinary,
-	"u":   arrow.BinaryTypes.String,
-	"U":   arrow.BinaryTypes.LargeString,
-	"vz":  arrow.BinaryTypes.BinaryView,
-	"vu":  arrow.BinaryTypes.StringView,
-	"tdD": arrow.FixedWidthTypes.Date32,
-	"tdm": arrow.FixedWidthTypes.Date64,
-	"tts": arrow.FixedWidthTypes.Time32s,
-	"ttm": arrow.FixedWidthTypes.Time32ms,
-	"ttu": arrow.FixedWidthTypes.Time64us,
-	"ttn": arrow.FixedWidthTypes.Time64ns,
-	"tDs": arrow.FixedWidthTypes.Duration_s,
-	"tDm": arrow.FixedWidthTypes.Duration_ms,
-	"tDu": arrow.FixedWidthTypes.Duration_us,
-	"tDn": arrow.FixedWidthTypes.Duration_ns,
-	"tiM": arrow.FixedWidthTypes.MonthInterval,
-	"tiD": arrow.FixedWidthTypes.DayTimeInterval,
-	"tin": arrow.FixedWidthTypes.MonthDayNanoInterval,
-}
-
-// decode metadata from C which is encoded as
-//
-//	 [int32] -> number of metadata pairs
-//		for 0..n
-//			[int32] -> number of bytes in key
-//			[n bytes] -> key value
-//			[int32] -> number of bytes in value
-//			[n bytes] -> value
-func decodeCMetadata(md *C.char) arrow.Metadata {
-	if md == nil {
-		return arrow.Metadata{}
-	}
-
-	// don't copy the bytes, just reference them directly
-	const maxlen = 0x7fffffff
-	data := (*[maxlen]byte)(unsafe.Pointer(md))[:]
-
-	readint32 := func() int32 {
-		v := *(*int32)(unsafe.Pointer(&data[0]))
-		data = data[arrow.Int32SizeBytes:]
-		return v
-	}
-
-	readstr := func() string {
-		l := readint32()
-		s := string(data[:l])
-		data = data[l:]
-		return s
-	}
-
-	npairs := readint32()
-	if npairs == 0 {
-		return arrow.Metadata{}
-	}
-
-	keys := make([]string, npairs)
-	vals := make([]string, npairs)
-
-	for i := int32(0); i < npairs; i++ {
-		keys[i] = readstr()
-		vals[i] = readstr()
-	}
-
-	return arrow.NewMetadata(keys, vals)
-}
-
-// convert a C.ArrowSchema to an arrow.Field to maintain metadata with the schema
-func importSchema(schema *CArrowSchema) (ret arrow.Field, err error) {
-	// always release, even on error
-	defer C.ArrowSchemaRelease(schema)
-
-	var childFields []arrow.Field
-	if schema.n_children > 0 {
-		// call ourselves recursively if there are children.
-		// set up a slice to reference safely
-		schemaChildren := unsafe.Slice(schema.children, schema.n_children)
-		childFields = make([]arrow.Field, schema.n_children)
-		for i, c := range schemaChildren {
-			childFields[i], err = importSchema((*CArrowSchema)(c))
-			if err != nil {
-				return
-			}
-		}
-	}
-
-	// copy the schema name from the c-string
-	ret.Name = C.GoString(schema.name)
-	ret.Nullable = (schema.flags & C.ARROW_FLAG_NULLABLE) != 0
-	ret.Metadata = decodeCMetadata(schema.metadata)
-
-	// copies the c-string here, but it's very small
-	f := C.GoString(schema.format)
-	// handle our non-parameterized simple types.
-	dt, ok := formatToSimpleType[f]
-	if ok {
-		ret.Type = dt
-
-		if schema.dictionary != nil {
-			valueField, err := importSchema(schema.dictionary)
-			if err != nil {
-				return ret, err
-			}
-
-			ret.Type = &arrow.DictionaryType{
-				IndexType: ret.Type,
-				ValueType: valueField.Type,
-				Ordered:   schema.dictionary.flags&C.ARROW_FLAG_DICTIONARY_ORDERED != 0}
-		}
-
-		return
-	}
-
-	// handle types with params via colon
-	typs := strings.Split(f, ":")
-	defaulttz := ""
-	switch typs[0] {
-	case "tss":
-		tz := typs[1]
-		if len(typs[1]) == 0 {
-			tz = defaulttz
-		}
-		dt = &arrow.TimestampType{Unit: arrow.Second, TimeZone: tz}
-	case "tsm":
-		tz := typs[1]
-		if len(typs[1]) == 0 {
-			tz = defaulttz
-		}
-		dt = &arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: tz}
-	case "tsu":
-		tz := typs[1]
-		if len(typs[1]) == 0 {
-			tz = defaulttz
-		}
-		dt = &arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: tz}
-	case "tsn":
-		tz := typs[1]
-		if len(typs[1]) == 0 {
-			tz = defaulttz
-		}
-		dt = &arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: tz}
-	case "w": // fixed size binary is "w:##" where ## is the byteWidth
-		byteWidth, err := strconv.Atoi(typs[1])
-		if err != nil {
-			return ret, err
-		}
-		dt = &arrow.FixedSizeBinaryType{ByteWidth: byteWidth}
-	case "d": // decimal types are d:<precision>,<scale>[,<bitsize>] size is assumed 128 if left out
-		props := typs[1]
-		propList := strings.Split(props, ",")
-		bitwidth := 128
-		var precision, scale int
-
-		if len(propList) < 2 || len(propList) > 3 {
-			return ret, xerrors.Errorf("invalid decimal spec '%s': wrong number of properties", f)
-		} else if len(propList) == 3 {
-			bitwidth, err = strconv.Atoi(propList[2])
-			if err != nil {
-				return ret, xerrors.Errorf("could not parse decimal bitwidth in '%s': %s", f, err.Error())
-			}
-		}
-
-		precision, err = strconv.Atoi(propList[0])
-		if err != nil {
-			return ret, xerrors.Errorf("could not parse decimal precision in '%s': %s", f, err.Error())
-		}
-
-		scale, err = strconv.Atoi(propList[1])
-		if err != nil {
-			return ret, xerrors.Errorf("could not parse decimal scale in '%s': %s", f, err.Error())
-		}
-
-		if bitwidth == 128 {
-			dt = &arrow.Decimal128Type{Precision: int32(precision), Scale: int32(scale)}
-		} else if bitwidth == 256 {
-			dt = &arrow.Decimal256Type{Precision: int32(precision), Scale: int32(scale)}
-		} else {
-			return ret, xerrors.Errorf("only decimal128 and decimal256 are supported, got '%s'", f)
-		}
-	}
-
-	if f[0] == '+' { // types with children
-		switch f[1] {
-		case 'l': // list
-			dt = arrow.ListOfField(childFields[0])
-		case 'L': // large list
-			dt = arrow.LargeListOfField(childFields[0])
-		case 'v': // list view/large list view
-			if f[2] == 'l' {
-				dt = arrow.ListViewOfField(childFields[0])
-			} else if f[2] == 'L' {
-				dt = arrow.LargeListViewOfField(childFields[0])
-			}
-		case 'w': // fixed size list is w:# where # is the list size.
-			listSize, err := strconv.Atoi(strings.Split(f, ":")[1])
-			if err != nil {
-				return ret, err
-			}
-
-			dt = arrow.FixedSizeListOfField(int32(listSize), childFields[0])
-		case 's': // struct
-			dt = arrow.StructOf(childFields...)
-		case 'r': // run-end encoded
-			if len(childFields) != 2 {
-				return ret, fmt.Errorf("%w: run-end encoded arrays must have 2 children", arrow.ErrInvalid)
-			}
-			dt = arrow.RunEndEncodedOf(childFields[0].Type, childFields[1].Type)
-		case 'm': // map type is basically a list of structs.
-			st := childFields[0].Type.(*arrow.StructType)
-			dt = arrow.MapOf(st.Field(0).Type, st.Field(1).Type)
-			dt.(*arrow.MapType).KeysSorted = (schema.flags & C.ARROW_FLAG_MAP_KEYS_SORTED) != 0
-		case 'u': // union
-			var mode arrow.UnionMode
-			switch f[2] {
-			case 'd':
-				mode = arrow.DenseMode
-			case 's':
-				mode = arrow.SparseMode
-			default:
-				err = fmt.Errorf("%w: invalid union type", arrow.ErrInvalid)
-				return
-			}
-
-			codes := strings.Split(strings.Split(f, ":")[1], ",")
-			typeCodes := make([]arrow.UnionTypeCode, 0, len(codes))
-			for _, i := range codes {
-				v, e := strconv.ParseInt(i, 10, 8)
-				if e != nil {
-					err = fmt.Errorf("%w: invalid type code: %s", arrow.ErrInvalid, e)
-					return
-				}
-				if v < 0 {
-					err = fmt.Errorf("%w: negative type code in union: format string %s", arrow.ErrInvalid, f)
-					return
-				}
-				typeCodes = append(typeCodes, arrow.UnionTypeCode(v))
-			}
-
-			if len(childFields) != len(typeCodes) {
-				err = fmt.Errorf("%w: ArrowArray struct number of children incompatible with format string", arrow.ErrInvalid)
-				return
-			}
-
-			dt = arrow.UnionOf(mode, childFields, typeCodes)
-		}
-	}
-
-	if dt == nil {
-		// if we didn't find a type, then it's something we haven't implemented.
-		err = xerrors.New("unimplemented type")
-	} else {
-		ret.Type = dt
-	}
-
-	return
-}
-
-// importer to keep track when importing C ArrowArray objects.
-type cimporter struct {
-	dt       arrow.DataType
-	arr      *CArrowArray
-	data     arrow.ArrayData
-	parent   *cimporter
-	children []cimporter
-	cbuffers []*C.void
-
-	alloc *importAllocator
-}
-
-func (imp *cimporter) importChild(parent *cimporter, src *CArrowArray) error {
-	imp.parent, imp.arr, imp.alloc = parent, src, parent.alloc
-	return imp.doImport()
-}
-
-// import any child arrays for lists, structs, and so on.
-func (imp *cimporter) doImportChildren() error {
-	children := unsafe.Slice(imp.arr.children, imp.arr.n_children)
-
-	if len(children) > 0 {
-		imp.children = make([]cimporter, len(children))
-	}
-
-	// handle the cases
-	switch imp.dt.ID() {
-	case arrow.LIST: // only one child to import
-		imp.children[0].dt = imp.dt.(*arrow.ListType).Elem()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-	case arrow.LARGE_LIST: // only one child to import
-		imp.children[0].dt = imp.dt.(*arrow.LargeListType).Elem()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-	case arrow.LIST_VIEW: // only one child to import
-		imp.children[0].dt = imp.dt.(*arrow.ListViewType).Elem()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-	case arrow.LARGE_LIST_VIEW: // only one child to import
-		imp.children[0].dt = imp.dt.(*arrow.LargeListViewType).Elem()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-	case arrow.FIXED_SIZE_LIST: // only one child to import
-		imp.children[0].dt = imp.dt.(*arrow.FixedSizeListType).Elem()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-	case arrow.STRUCT: // import all the children
-		st := imp.dt.(*arrow.StructType)
-		for i, c := range children {
-			imp.children[i].dt = st.Field(i).Type
-			imp.children[i].importChild(imp, c)
-		}
-	case arrow.RUN_END_ENCODED: // import run-ends and values
-		st := imp.dt.(*arrow.RunEndEncodedType)
-		imp.children[0].dt = st.RunEnds()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-		imp.children[1].dt = st.Encoded()
-		if err := imp.children[1].importChild(imp, children[1]); err != nil {
-			return err
-		}
-	case arrow.MAP: // only one child to import, it's a struct array
-		imp.children[0].dt = imp.dt.(*arrow.MapType).Elem()
-		if err := imp.children[0].importChild(imp, children[0]); err != nil {
-			return err
-		}
-	case arrow.DENSE_UNION:
-		dt := imp.dt.(*arrow.DenseUnionType)
-		for i, c := range children {
-			imp.children[i].dt = dt.Fields()[i].Type
-			imp.children[i].importChild(imp, c)
-		}
-	case arrow.SPARSE_UNION:
-		dt := imp.dt.(*arrow.SparseUnionType)
-		for i, c := range children {
-			imp.children[i].dt = dt.Fields()[i].Type
-			imp.children[i].importChild(imp, c)
-		}
-	}
-
-	return nil
-}
-
-func (imp *cimporter) initarr() {
-	imp.arr = C.get_arr()
-	if imp.alloc == nil {
-		imp.alloc = &importAllocator{arr: imp.arr}
-	}
-}
-
-func (imp *cimporter) doImportArr(src *CArrowArray) error {
-	imp.arr = C.get_arr()
-	C.ArrowArrayMove(src, imp.arr)
-	if imp.alloc == nil {
-		imp.alloc = &importAllocator{arr: imp.arr}
-	}
-
-	// we tie the releasing of the array to when the buffers are
-	// cleaned up, so if there are no buffers that we've imported
-	// such as for a null array or a nested array with no bitmap
-	// and only null columns, then we can release the CArrowArray
-	// struct immediately after import, since we have no imported
-	// memory that we have to track the lifetime of.
-	defer func() {
-		if imp.alloc.bufCount == 0 {
-			C.ArrowArrayRelease(imp.arr)
-			C.free(unsafe.Pointer(imp.arr))
-		}
-	}()
-
-	return imp.doImport()
-}
-
-// import is called recursively as needed for importing an array and its children
-// in order to generate array.Data objects
-func (imp *cimporter) doImport() error {
-	// move the array from the src object passed in to the one referenced by
-	// this importer. That way we can set up a finalizer on the created
-	// arrow.ArrayData object so we clean up our Array's memory when garbage collected.
-	defer func(arr *CArrowArray) {
-		// this should only occur in the case of an error happening
-		// during import, at which point we need to clean up the
-		// ArrowArray struct we allocated.
-		if imp.data == nil {
-			C.free(unsafe.Pointer(arr))
-		}
-	}(imp.arr)
-
-	// import any children
-	if err := imp.doImportChildren(); err != nil {
-		return err
-	}
-
-	for _, c := range imp.children {
-		if c.data != nil {
-			defer c.data.Release()
-		}
-	}
-
-	if imp.arr.n_buffers > 0 {
-		// get a view of the buffers, zero-copy. we're just looking at the pointers
-		imp.cbuffers = unsafe.Slice((**C.void)(unsafe.Pointer(imp.arr.buffers)), imp.arr.n_buffers)
-	}
-
-	// handle each of our type cases
-	switch dt := imp.dt.(type) {
-	case *arrow.NullType:
-		if err := imp.checkNoChildren(); err != nil {
-			return err
-		}
-
-		imp.data = array.NewData(dt, int(imp.arr.length), nil, nil, int(imp.arr.null_count), int(imp.arr.offset))
-	case arrow.FixedWidthDataType:
-		return imp.importFixedSizePrimitive()
-	case *arrow.StringType:
-		return imp.importStringLike(int64(arrow.Int32SizeBytes))
-	case *arrow.BinaryType:
-		return imp.importStringLike(int64(arrow.Int32SizeBytes))
-	case *arrow.LargeStringType:
-		return imp.importStringLike(int64(arrow.Int64SizeBytes))
-	case *arrow.LargeBinaryType:
-		return imp.importStringLike(int64(arrow.Int64SizeBytes))
-	case *arrow.StringViewType:
-		return imp.importBinaryViewLike()
-	case *arrow.BinaryViewType:
-		return imp.importBinaryViewLike()
-	case *arrow.ListType:
-		return imp.importListLike()
-	case *arrow.LargeListType:
-		return imp.importListLike()
-	case *arrow.ListViewType:
-		return imp.importListViewLike()
-	case *arrow.LargeListViewType:
-		return imp.importListViewLike()
-	case *arrow.MapType:
-		return imp.importListLike()
-	case *arrow.FixedSizeListType:
-		if err := imp.checkNumChildren(1); err != nil {
-			return err
-		}
-
-		if err := imp.checkNumBuffers(1); err != nil {
-			return err
-		}
-
-		nulls, err := imp.importNullBitmap(0)
-		if err != nil {
-			return err
-		}
-		if nulls != nil {
-			defer nulls.Release()
-		}
-
-		imp.data = array.NewData(dt, int(imp.arr.length), []*memory.Buffer{nulls}, []arrow.ArrayData{imp.children[0].data}, int(imp.arr.null_count), int(imp.arr.offset))
-	case *arrow.StructType:
-		if err := imp.checkNumBuffers(1); err != nil {
-			return err
-		}
-
-		nulls, err := imp.importNullBitmap(0)
-		if err != nil {
-			return err
-		}
-		if nulls != nil {
-			defer nulls.Release()
-		}
-
-		children := make([]arrow.ArrayData, len(imp.children))
-		for i := range imp.children {
-			children[i] = imp.children[i].data
-		}
-
-		imp.data = array.NewData(dt, int(imp.arr.length), []*memory.Buffer{nulls}, children, int(imp.arr.null_count), int(imp.arr.offset))
-	case *arrow.RunEndEncodedType:
-		if err := imp.checkNumBuffers(0); err != nil {
-			return err
-		}
-
-		if len(imp.children) != 2 {
-			return fmt.Errorf("%w: run-end encoded array should have 2 children", arrow.ErrInvalid)
-		}
-
-		children := []arrow.ArrayData{imp.children[0].data, imp.children[1].data}
-		imp.data = array.NewData(dt, int(imp.arr.length), []*memory.Buffer{}, children, int(imp.arr.null_count), int(imp.arr.offset))
-	case *arrow.DenseUnionType:
-		if err := imp.checkNoNulls(); err != nil {
-			return err
-		}
-
-		bufs := []*memory.Buffer{nil, nil, nil}
-		var err error
-		if imp.arr.n_buffers == 3 {
-			// legacy format exported by older arrow c++ versions
-			if bufs[1], err = imp.importFixedSizeBuffer(1, 1); err != nil {
-				return err
-			}
-			defer bufs[1].Release()
-			if bufs[2], err = imp.importFixedSizeBuffer(2, int64(arrow.Int32SizeBytes)); err != nil {
-				return err
-			}
-			defer bufs[2].Release()
-		} else {
-			if err := imp.checkNumBuffers(2); err != nil {
-				return err
-			}
-
-			if bufs[1], err = imp.importFixedSizeBuffer(0, 1); err != nil {
-				return err
-			}
-			defer bufs[1].Release()
-			if bufs[2], err = imp.importFixedSizeBuffer(1, int64(arrow.Int32SizeBytes)); err != nil {
-				return err
-			}
-			defer bufs[2].Release()
-		}
-
-		children := make([]arrow.ArrayData, len(imp.children))
-		for i := range imp.children {
-			children[i] = imp.children[i].data
-		}
-		imp.data = array.NewData(dt, int(imp.arr.length), bufs, children, 0, int(imp.arr.offset))
-	case *arrow.SparseUnionType:
-		if err := imp.checkNoNulls(); err != nil {
-			return err
-		}
-
-		var buf *memory.Buffer
-		var err error
-		if imp.arr.n_buffers == 2 {
-			// legacy format exported by older Arrow C++ versions
-			if buf, err = imp.importFixedSizeBuffer(1, 1); err != nil {
-				return err
-			}
-			defer buf.Release()
-		} else {
-			if err := imp.checkNumBuffers(1); err != nil {
-				return err
-			}
-
-			if buf, err = imp.importFixedSizeBuffer(0, 1); err != nil {
-				return err
-			}
-			defer buf.Release()
-		}
-
-		children := make([]arrow.ArrayData, len(imp.children))
-		for i := range imp.children {
-			children[i] = imp.children[i].data
-		}
-		imp.data = array.NewData(dt, int(imp.arr.length), []*memory.Buffer{nil, buf}, children, 0, int(imp.arr.offset))
-	default:
-		return fmt.Errorf("unimplemented type %s", dt)
-	}
-
-	return nil
-}
-
-func (imp *cimporter) importStringLike(offsetByteWidth int64) (err error) {
-	if err = imp.checkNoChildren(); err != nil {
-		return
-	}
-
-	if err = imp.checkNumBuffers(3); err != nil {
-		return
-	}
-
-	var (
-		nulls, offsets, values *memory.Buffer
-	)
-	if nulls, err = imp.importNullBitmap(0); err != nil {
-		return
-	}
-	if nulls != nil {
-		defer nulls.Release()
-	}
-
-	if offsets, err = imp.importOffsetsBuffer(1, offsetByteWidth); err != nil {
-		return
-	}
-	defer offsets.Release()
-
-	var nvals int64
-	switch offsetByteWidth {
-	case 4:
-		typedOffsets := arrow.Int32Traits.CastFromBytes(offsets.Bytes())
-		nvals = int64(typedOffsets[imp.arr.offset+imp.arr.length])
-	case 8:
-		typedOffsets := arrow.Int64Traits.CastFromBytes(offsets.Bytes())
-		nvals = typedOffsets[imp.arr.offset+imp.arr.length]
-	}
-	if values, err = imp.importVariableValuesBuffer(2, 1, nvals); err != nil {
-		return
-	}
-	defer values.Release()
-
-	imp.data = array.NewData(imp.dt, int(imp.arr.length), []*memory.Buffer{nulls, offsets, values}, nil, int(imp.arr.null_count), int(imp.arr.offset))
-	return
-}
-
-func (imp *cimporter) importBinaryViewLike() (err error) {
-	if err = imp.checkNoChildren(); err != nil {
-		return
-	}
-
-	buffers := make([]*memory.Buffer, len(imp.cbuffers)-1)
-	defer memory.ReleaseBuffers(buffers)
-
-	if buffers[0], err = imp.importNullBitmap(0); err != nil {
-		return
-	}
-
-	if buffers[1], err = imp.importFixedSizeBuffer(1, int64(arrow.ViewHeaderSizeBytes)); err != nil {
-		return
-	}
-
-	dataBufferSizes := unsafe.Slice((*int64)(unsafe.Pointer(imp.cbuffers[len(buffers)])), len(buffers)-2)
-	for i, size := range dataBufferSizes {
-		if buffers[i+2], err = imp.importVariableValuesBuffer(i+2, 1, size); err != nil {
-			return
-		}
-	}
-
-	imp.data = array.NewData(imp.dt, int(imp.arr.length), buffers, nil, int(imp.arr.null_count), int(imp.arr.offset))
-	return
-}
-
-func (imp *cimporter) importListLike() (err error) {
-	if err = imp.checkNumChildren(1); err != nil {
-		return err
-	}
-
-	if err = imp.checkNumBuffers(2); err != nil {
-		return err
-	}
-
-	var nulls, offsets *memory.Buffer
-	if nulls, err = imp.importNullBitmap(0); err != nil {
-		return
-	}
-	if nulls != nil {
-		defer nulls.Release()
-	}
-
-	offsetSize := imp.dt.Layout().Buffers[1].ByteWidth
-	if offsets, err = imp.importOffsetsBuffer(1, int64(offsetSize)); err != nil {
-		return
-	}
-	if offsets != nil {
-		defer offsets.Release()
-	}
-
-	imp.data = array.NewData(imp.dt, int(imp.arr.length), []*memory.Buffer{nulls, offsets}, []arrow.ArrayData{imp.children[0].data}, int(imp.arr.null_count), int(imp.arr.offset))
-	return
-}
-
-func (imp *cimporter) importListViewLike() (err error) {
-	offsetSize := int64(imp.dt.Layout().Buffers[1].ByteWidth)
-
-	if err = imp.checkNumChildren(1); err != nil {
-		return err
-	}
-
-	if err = imp.checkNumBuffers(3); err != nil {
-		return err
-	}
-
-	var nulls, offsets, sizes *memory.Buffer
-	if nulls, err = imp.importNullBitmap(0); err != nil {
-		return
-	}
-	if nulls != nil {
-		defer nulls.Release()
-	}
-
-	if offsets, err = imp.importFixedSizeBuffer(1, offsetSize); err != nil {
-		return
-	}
-	if offsets != nil {
-		defer offsets.Release()
-	}
-
-	if sizes, err = imp.importFixedSizeBuffer(2, offsetSize); err != nil {
-		return
-	}
-	if sizes != nil {
-		defer sizes.Release()
-	}
-
-	imp.data = array.NewData(imp.dt, int(imp.arr.length), []*memory.Buffer{nulls, offsets, sizes}, []arrow.ArrayData{imp.children[0].data}, int(imp.arr.null_count), int(imp.arr.offset))
-	return
-}
-
-func (imp *cimporter) importFixedSizePrimitive() error {
-	if err := imp.checkNoChildren(); err != nil {
-		return err
-	}
-
-	if err := imp.checkNumBuffers(2); err != nil {
-		return err
-	}
-
-	nulls, err := imp.importNullBitmap(0)
-	if err != nil {
-		return err
-	}
-
-	var values *memory.Buffer
-
-	fw := imp.dt.(arrow.FixedWidthDataType)
-	if bitutil.IsMultipleOf8(int64(fw.BitWidth())) {
-		values, err = imp.importFixedSizeBuffer(1, bitutil.BytesForBits(int64(fw.BitWidth())))
-	} else {
-		if fw.BitWidth() != 1 {
-			return xerrors.New("invalid bitwidth")
-		}
-		values, err = imp.importBitsBuffer(1)
-	}
-
-	if err != nil {
-		return err
-	}
-
-	var dict *array.Data
-	if dt, ok := imp.dt.(*arrow.DictionaryType); ok {
-		dictImp := &cimporter{dt: dt.ValueType}
-		if err := dictImp.importChild(imp, imp.arr.dictionary); err != nil {
-			return err
-		}
-		defer dictImp.data.Release()
-
-		dict = dictImp.data.(*array.Data)
-	}
-
-	if nulls != nil {
-		defer nulls.Release()
-	}
-	if values != nil {
-		defer values.Release()
-	}
-
-	imp.data = array.NewDataWithDictionary(imp.dt, int(imp.arr.length), []*memory.Buffer{nulls, values}, int(imp.arr.null_count), int(imp.arr.offset), dict)
-	return nil
-}
-
-func (imp *cimporter) checkNoChildren() error { return imp.checkNumChildren(0) }
-
-func (imp *cimporter) checkNoNulls() error {
-	if imp.arr.null_count != 0 {
-		return fmt.Errorf("%w: unexpected non-zero null count for imported type %s", arrow.ErrInvalid, imp.dt)
-	}
-	return nil
-}
-
-func (imp *cimporter) checkNumChildren(n int64) error {
-	if int64(imp.arr.n_children) != n {
-		return fmt.Errorf("expected %d children, for imported type %s, ArrowArray has %d", n, imp.dt, imp.arr.n_children)
-	}
-	return nil
-}
-
-func (imp *cimporter) checkNumBuffers(n int64) error {
-	if int64(imp.arr.n_buffers) != n {
-		return fmt.Errorf("expected %d buffers for imported type %s, ArrowArray has %d", n, imp.dt, imp.arr.n_buffers)
-	}
-	return nil
-}
-
-func (imp *cimporter) importBuffer(bufferID int, sz int64) (*memory.Buffer, error) {
-	// this is not a copy, we're just having a slice which points at the data
-	// it's still owned by the C.ArrowArray object and its backing C++ object.
-	if imp.cbuffers[bufferID] == nil {
-		if sz != 0 {
-			return nil, errors.New("invalid buffer")
-		}
-		return memory.NewBufferBytes([]byte{}), nil
-	}
-	data := unsafe.Slice((*byte)(unsafe.Pointer(imp.cbuffers[bufferID])), sz)
-	imp.alloc.addBuffer()
-	return memory.NewBufferWithAllocator(data, imp.alloc), nil
-}
-
-func (imp *cimporter) importBitsBuffer(bufferID int) (*memory.Buffer, error) {
-	bufsize := bitutil.BytesForBits(int64(imp.arr.length) + int64(imp.arr.offset))
-	return imp.importBuffer(bufferID, bufsize)
-}
-
-func (imp *cimporter) importNullBitmap(bufferID int) (*memory.Buffer, error) {
-	if imp.arr.null_count > 0 && imp.cbuffers[bufferID] == nil {
-		return nil, fmt.Errorf("arrowarray struct has null bitmap buffer, but non-zero null_count %d", imp.arr.null_count)
-	}
-
-	if imp.arr.null_count == 0 && imp.cbuffers[bufferID] == nil {
-		return nil, nil
-	}
-
-	return imp.importBitsBuffer(bufferID)
-}
-
-func (imp *cimporter) importFixedSizeBuffer(bufferID int, byteWidth int64) (*memory.Buffer, error) {
-	bufsize := byteWidth * int64(imp.arr.length+imp.arr.offset)
-	return imp.importBuffer(bufferID, bufsize)
-}
-
-func (imp *cimporter) importOffsetsBuffer(bufferID int, offsetsize int64) (*memory.Buffer, error) {
-	bufsize := offsetsize * int64((imp.arr.length + imp.arr.offset + 1))
-	return imp.importBuffer(bufferID, bufsize)
-}
-
-func (imp *cimporter) importVariableValuesBuffer(bufferID int, byteWidth, nvals int64) (*memory.Buffer, error) {
-	bufsize := byteWidth * nvals
-	return imp.importBuffer(bufferID, int64(bufsize))
-}
-
-func importCArrayAsType(arr *CArrowArray, dt arrow.DataType) (imp *cimporter, err error) {
-	imp = &cimporter{dt: dt}
-	err = imp.doImportArr(arr)
-	return
-}
-
-func initReader(rdr *nativeCRecordBatchReader, stream *CArrowArrayStream) error {
-	rdr.stream = C.get_stream()
-	C.ArrowArrayStreamMove(stream, rdr.stream)
-	rdr.arr = C.get_arr()
-	runtime.SetFinalizer(rdr, func(r *nativeCRecordBatchReader) {
-		if r.cur != nil {
-			r.cur.Release()
-		}
-		C.ArrowArrayStreamRelease(r.stream)
-		C.ArrowArrayRelease(r.arr)
-		C.free(unsafe.Pointer(r.stream))
-		C.free(unsafe.Pointer(r.arr))
-	})
-
-	var sc CArrowSchema
-	errno := C.stream_get_schema(rdr.stream, &sc)
-	if errno != 0 {
-		return rdr.getError(int(errno))
-	}
-	defer C.ArrowSchemaRelease(&sc)
-	s, err := ImportCArrowSchema((*CArrowSchema)(&sc))
-	if err != nil {
-		return err
-	}
-	rdr.schema = s
-
-	return nil
-}
-
-// Record Batch reader that conforms to arrio.Reader for the ArrowArrayStream interface
-type nativeCRecordBatchReader struct {
-	stream *CArrowArrayStream
-	arr    *CArrowArray
-	schema *arrow.Schema
-
-	cur arrow.Record
-	err error
-}
-
-// No need to implement retain and release here as we used runtime.SetFinalizer when constructing
-// the reader to free up the ArrowArrayStream memory when the garbage collector cleans it up.
-func (n *nativeCRecordBatchReader) Retain()  {}
-func (n *nativeCRecordBatchReader) Release() {}
-
-func (n *nativeCRecordBatchReader) Err() error           { return n.err }
-func (n *nativeCRecordBatchReader) Record() arrow.Record { return n.cur }
-
-func (n *nativeCRecordBatchReader) Next() bool {
-	err := n.next()
-	switch {
-	case err == nil:
-		return true
-	case err == io.EOF:
-		return false
-	}
-	n.err = err
-	return false
-}
-
-func (n *nativeCRecordBatchReader) next() error {
-	if n.schema == nil {
-		var sc CArrowSchema
-		errno := C.stream_get_schema(n.stream, &sc)
-		if errno != 0 {
-			return n.getError(int(errno))
-		}
-		defer C.ArrowSchemaRelease(&sc)
-		s, err := ImportCArrowSchema((*CArrowSchema)(&sc))
-		if err != nil {
-			return err
-		}
-
-		n.schema = s
-	}
-
-	if n.cur != nil {
-		n.cur.Release()
-		n.cur = nil
-	}
-
-	errno := C.stream_get_next(n.stream, n.arr)
-	if errno != 0 {
-		return n.getError(int(errno))
-	}
-
-	if C.ArrowArrayIsReleased(n.arr) == 1 {
-		return io.EOF
-	}
-
-	rec, err := ImportCRecordBatchWithSchema(n.arr, n.schema)
-	if err != nil {
-		return err
-	}
-
-	n.cur = rec
-	return nil
-}
-
-func (n *nativeCRecordBatchReader) Schema() *arrow.Schema {
-	return n.schema
-}
-
-func (n *nativeCRecordBatchReader) getError(errno int) error {
-	return fmt.Errorf("%w: %s", syscall.Errno(errno), C.GoString(C.stream_get_last_error(n.stream)))
-}
-
-func (n *nativeCRecordBatchReader) Read() (arrow.Record, error) {
-	if err := n.next(); err != nil {
-		n.err = err
-		return nil, err
-	}
-	return n.cur, nil
-}
-
-func releaseArr(arr *CArrowArray) {
-	C.ArrowArrayRelease(arr)
-}
-
-func releaseSchema(schema *CArrowSchema) {
-	C.ArrowSchemaRelease(schema)
-}
diff --git a/go/arrow/cdata/cdata_allocate.go b/go/arrow/cdata/cdata_allocate.go
deleted file mode 100644
index da0bd957de1df..0000000000000
--- a/go/arrow/cdata/cdata_allocate.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.20 || tinygo
-
-package cdata
-
-// #include <stdlib.h>
-// #include "arrow/c/abi.h"
-import "C"
-
-import (
-	"unsafe"
-)
-
-func allocateArrowSchemaArr(n int) (out []CArrowSchema) {
-	return unsafe.Slice((*CArrowSchema)(C.calloc(C.size_t(n),
-		C.sizeof_struct_ArrowSchema)), n)
-}
-
-func allocateArrowSchemaPtrArr(n int) (out []*CArrowSchema) {
-	return unsafe.Slice((**CArrowSchema)(C.calloc(C.size_t(n),
-		C.size_t(unsafe.Sizeof((*CArrowSchema)(nil))))), n)
-}
-
-func allocateArrowArrayArr(n int) (out []CArrowArray) {
-	return unsafe.Slice((*CArrowArray)(C.calloc(C.size_t(n),
-		C.sizeof_struct_ArrowArray)), n)
-}
-
-func allocateArrowArrayPtrArr(n int) (out []*CArrowArray) {
-	return unsafe.Slice((**CArrowArray)(C.calloc(C.size_t(n),
-		C.size_t(unsafe.Sizeof((*CArrowArray)(nil))))), n)
-}
-
-func allocateBufferPtrArr(n int) (out []*C.void) {
-	return unsafe.Slice((**C.void)(C.calloc(C.size_t(n),
-		C.size_t(unsafe.Sizeof((*C.void)(nil))))), n)
-}
-
-func allocateBufferSizeArr(n int) (out []C.int64_t) {
-	return unsafe.Slice((*C.int64_t)(C.calloc(C.size_t(n),
-		C.sizeof_int64_t)), n)
-}
diff --git a/go/arrow/cdata/cdata_exports.go b/go/arrow/cdata/cdata_exports.go
deleted file mode 100644
index 59775926d7ef8..0000000000000
--- a/go/arrow/cdata/cdata_exports.go
+++ /dev/null
@@ -1,480 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package cdata
-
-// #include <errno.h>
-// #include <stdint.h>
-// #include <stdlib.h>
-// #include "arrow/c/abi.h"
-// #include "arrow/c/helpers.h"
-//
-// extern void releaseExportedSchema(struct ArrowSchema* schema);
-// extern void releaseExportedArray(struct ArrowArray* array);
-//
-// const uint8_t kGoCdataZeroRegion[8] = {0};
-//
-// void goReleaseArray(struct ArrowArray* array) {
-//	releaseExportedArray(array);
-// }
-// void goReleaseSchema(struct ArrowSchema* schema) {
-//	 releaseExportedSchema(schema);
-// }
-import "C"
-
-import (
-	"bytes"
-	"encoding/binary"
-	"fmt"
-	"runtime/cgo"
-	"strconv"
-	"strings"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-)
-
-func encodeCMetadata(keys, values []string) []byte {
-	if len(keys) != len(values) {
-		panic("unequal metadata key/values length")
-	}
-	npairs := int32(len(keys))
-
-	var b bytes.Buffer
-	totalSize := 4
-	for i := range keys {
-		totalSize += 8 + len(keys[i]) + len(values[i])
-	}
-	b.Grow(totalSize)
-
-	b.Write((*[4]byte)(unsafe.Pointer(&npairs))[:])
-	for i := range keys {
-		binary.Write(&b, endian.Native, int32(len(keys[i])))
-		b.WriteString(keys[i])
-		binary.Write(&b, endian.Native, int32(len(values[i])))
-		b.WriteString(values[i])
-	}
-	return b.Bytes()
-}
-
-type schemaExporter struct {
-	format, name string
-
-	extraMeta arrow.Metadata
-	metadata  []byte
-	flags     int64
-	children  []schemaExporter
-	dict      *schemaExporter
-}
-
-func (exp *schemaExporter) handleExtension(dt arrow.DataType) arrow.DataType {
-	if dt.ID() != arrow.EXTENSION {
-		return dt
-	}
-
-	ext := dt.(arrow.ExtensionType)
-	exp.extraMeta = arrow.NewMetadata([]string{ipc.ExtensionTypeKeyName, ipc.ExtensionMetadataKeyName}, []string{ext.ExtensionName(), ext.Serialize()})
-	return ext.StorageType()
-}
-
-func (exp *schemaExporter) exportMeta(m *arrow.Metadata) {
-	var (
-		finalKeys   []string
-		finalValues []string
-	)
-
-	if m == nil {
-		if exp.extraMeta.Len() > 0 {
-			finalKeys = exp.extraMeta.Keys()
-			finalValues = exp.extraMeta.Values()
-		}
-		exp.metadata = encodeCMetadata(finalKeys, finalValues)
-		return
-	}
-
-	finalKeys = m.Keys()
-	finalValues = m.Values()
-
-	if exp.extraMeta.Len() > 0 {
-		for i, k := range exp.extraMeta.Keys() {
-			if m.FindKey(k) != -1 {
-				continue
-			}
-			finalKeys = append(finalKeys, k)
-			finalValues = append(finalValues, exp.extraMeta.Values()[i])
-		}
-	}
-	exp.metadata = encodeCMetadata(finalKeys, finalValues)
-}
-
-func (exp *schemaExporter) exportFormat(dt arrow.DataType) string {
-	switch dt := dt.(type) {
-	case *arrow.NullType:
-		return "n"
-	case *arrow.BooleanType:
-		return "b"
-	case *arrow.Int8Type:
-		return "c"
-	case *arrow.Uint8Type:
-		return "C"
-	case *arrow.Int16Type:
-		return "s"
-	case *arrow.Uint16Type:
-		return "S"
-	case *arrow.Int32Type:
-		return "i"
-	case *arrow.Uint32Type:
-		return "I"
-	case *arrow.Int64Type:
-		return "l"
-	case *arrow.Uint64Type:
-		return "L"
-	case *arrow.Float16Type:
-		return "e"
-	case *arrow.Float32Type:
-		return "f"
-	case *arrow.Float64Type:
-		return "g"
-	case *arrow.FixedSizeBinaryType:
-		return fmt.Sprintf("w:%d", dt.ByteWidth)
-	case *arrow.Decimal128Type:
-		return fmt.Sprintf("d:%d,%d", dt.Precision, dt.Scale)
-	case *arrow.Decimal256Type:
-		return fmt.Sprintf("d:%d,%d,256", dt.Precision, dt.Scale)
-	case *arrow.BinaryType:
-		return "z"
-	case *arrow.LargeBinaryType:
-		return "Z"
-	case *arrow.StringType:
-		return "u"
-	case *arrow.LargeStringType:
-		return "U"
-	case *arrow.BinaryViewType:
-		return "vz"
-	case *arrow.StringViewType:
-		return "vu"
-	case *arrow.Date32Type:
-		return "tdD"
-	case *arrow.Date64Type:
-		return "tdm"
-	case *arrow.Time32Type:
-		switch dt.Unit {
-		case arrow.Second:
-			return "tts"
-		case arrow.Millisecond:
-			return "ttm"
-		default:
-			panic(fmt.Sprintf("invalid time unit for time32: %s", dt.Unit))
-		}
-	case *arrow.Time64Type:
-		switch dt.Unit {
-		case arrow.Microsecond:
-			return "ttu"
-		case arrow.Nanosecond:
-			return "ttn"
-		default:
-			panic(fmt.Sprintf("invalid time unit for time64: %s", dt.Unit))
-		}
-	case *arrow.TimestampType:
-		var b strings.Builder
-		switch dt.Unit {
-		case arrow.Second:
-			b.WriteString("tss:")
-		case arrow.Millisecond:
-			b.WriteString("tsm:")
-		case arrow.Microsecond:
-			b.WriteString("tsu:")
-		case arrow.Nanosecond:
-			b.WriteString("tsn:")
-		default:
-			panic(fmt.Sprintf("invalid time unit for timestamp: %s", dt.Unit))
-		}
-		b.WriteString(dt.TimeZone)
-		return b.String()
-	case *arrow.DurationType:
-		switch dt.Unit {
-		case arrow.Second:
-			return "tDs"
-		case arrow.Millisecond:
-			return "tDm"
-		case arrow.Microsecond:
-			return "tDu"
-		case arrow.Nanosecond:
-			return "tDn"
-		default:
-			panic(fmt.Sprintf("invalid time unit for duration: %s", dt.Unit))
-		}
-	case *arrow.MonthIntervalType:
-		return "tiM"
-	case *arrow.DayTimeIntervalType:
-		return "tiD"
-	case *arrow.MonthDayNanoIntervalType:
-		return "tin"
-	case *arrow.ListType:
-		return "+l"
-	case *arrow.LargeListType:
-		return "+L"
-	case *arrow.ListViewType:
-		return "+vl"
-	case *arrow.LargeListViewType:
-		return "+vL"
-	case *arrow.FixedSizeListType:
-		return fmt.Sprintf("+w:%d", dt.Len())
-	case *arrow.StructType:
-		return "+s"
-	case *arrow.RunEndEncodedType:
-		return "+r"
-	case *arrow.MapType:
-		if dt.KeysSorted {
-			exp.flags |= C.ARROW_FLAG_MAP_KEYS_SORTED
-		}
-		return "+m"
-	case *arrow.DictionaryType:
-		if dt.Ordered {
-			exp.flags |= C.ARROW_FLAG_DICTIONARY_ORDERED
-		}
-		return exp.exportFormat(dt.IndexType)
-	case arrow.UnionType:
-		var b strings.Builder
-		if dt.Mode() == arrow.SparseMode {
-			b.WriteString("+us:")
-		} else {
-			b.WriteString("+ud:")
-		}
-		for i, c := range dt.TypeCodes() {
-			if i != 0 {
-				b.WriteByte(',')
-			}
-			b.WriteString(strconv.Itoa(int(c)))
-		}
-		return b.String()
-	}
-	panic("unsupported data type for export")
-}
-
-func (exp *schemaExporter) export(field arrow.Field) {
-	exp.name = field.Name
-	exp.format = exp.exportFormat(exp.handleExtension(field.Type))
-	if field.Nullable {
-		exp.flags |= C.ARROW_FLAG_NULLABLE
-	}
-
-	switch dt := field.Type.(type) {
-	case *arrow.DictionaryType:
-		exp.dict = new(schemaExporter)
-		exp.dict.export(arrow.Field{Type: dt.ValueType})
-	case arrow.NestedType:
-		exp.children = make([]schemaExporter, dt.NumFields())
-		for i, f := range dt.Fields() {
-			exp.children[i].export(f)
-		}
-	}
-
-	exp.exportMeta(&field.Metadata)
-}
-
-func (exp *schemaExporter) finish(out *CArrowSchema) {
-	out.dictionary = nil
-	if exp.dict != nil {
-		out.dictionary = (*CArrowSchema)(C.calloc(C.sizeof_struct_ArrowSchema, C.size_t(1)))
-		exp.dict.finish(out.dictionary)
-	}
-	out.name = C.CString(exp.name)
-	out.format = C.CString(exp.format)
-	out.metadata = (*C.char)(C.CBytes(exp.metadata))
-	out.flags = C.int64_t(exp.flags)
-	out.n_children = C.int64_t(len(exp.children))
-
-	if len(exp.children) > 0 {
-		children := allocateArrowSchemaArr(len(exp.children))
-		childPtrs := allocateArrowSchemaPtrArr(len(exp.children))
-
-		for i, c := range exp.children {
-			c.finish(&children[i])
-			childPtrs[i] = &children[i]
-		}
-
-		out.children = (**CArrowSchema)(unsafe.Pointer(&childPtrs[0]))
-	} else {
-		out.children = nil
-	}
-
-	out.release = (*[0]byte)(C.goReleaseSchema)
-}
-
-func exportField(field arrow.Field, out *CArrowSchema) {
-	var exp schemaExporter
-	exp.export(field)
-	exp.finish(out)
-}
-
-func exportArray(arr arrow.Array, out *CArrowArray, outSchema *CArrowSchema) {
-	if outSchema != nil {
-		exportField(arrow.Field{Type: arr.DataType()}, outSchema)
-	}
-
-	buffers := arr.Data().Buffers()
-	// Some types don't have validity bitmaps, but we keep them shifted
-	// to make processing easier in other contexts. This means that
-	// we have to adjust when exporting.
-	has_validity_bitmap := internal.DefaultHasValidityBitmap(arr.DataType().ID())
-	if len(buffers) > 0 && !has_validity_bitmap {
-		buffers = buffers[1:]
-	}
-	nbuffers := len(buffers)
-
-	has_buffer_sizes_buffer := internal.HasBufferSizesBuffer(arr.DataType().ID())
-	if has_buffer_sizes_buffer {
-		nbuffers++
-	}
-
-	out.dictionary = nil
-	out.null_count = C.int64_t(arr.NullN())
-	out.length = C.int64_t(arr.Len())
-	out.offset = C.int64_t(arr.Data().Offset())
-	out.n_buffers = C.int64_t(nbuffers)
-	out.buffers = nil
-
-	if nbuffers > 0 {
-		cBufs := allocateBufferPtrArr(nbuffers)
-		for i, buf := range buffers {
-			if buf == nil || buf.Len() == 0 {
-				if i > 0 || !has_validity_bitmap {
-					// apache/arrow#33936: export a dummy buffer to be friendly to
-					// implementations that don't import NULL properly
-					cBufs[i] = (*C.void)(unsafe.Pointer(&C.kGoCdataZeroRegion))
-				} else {
-					// null pointer permitted for the validity bitmap
-					// (assuming null count is 0)
-					cBufs[i] = nil
-				}
-				continue
-			}
-
-			cBufs[i] = (*C.void)(unsafe.Pointer(&buf.Bytes()[0]))
-		}
-
-		if has_buffer_sizes_buffer {
-			sizes := allocateBufferSizeArr(len(buffers[2:]))
-			for i, buf := range buffers[2:] {
-				sizes[i] = C.int64_t(buf.Len())
-			}
-			if len(sizes) > 0 {
-				cBufs[nbuffers-1] = (*C.void)(unsafe.Pointer(&sizes[0]))
-			}
-		}
-		out.buffers = (*unsafe.Pointer)(unsafe.Pointer(&cBufs[0]))
-	}
-
-	arr.Data().Retain()
-	h := cgo.NewHandle(arr.Data())
-	out.private_data = createHandle(h)
-	out.release = (*[0]byte)(C.goReleaseArray)
-	switch arr := arr.(type) {
-	case array.ListLike:
-		out.n_children = 1
-		childPtrs := allocateArrowArrayPtrArr(1)
-		children := allocateArrowArrayArr(1)
-		exportArray(arr.ListValues(), &children[0], nil)
-		childPtrs[0] = &children[0]
-		out.children = (**CArrowArray)(unsafe.Pointer(&childPtrs[0]))
-	case *array.Struct:
-		out.n_children = C.int64_t(arr.NumField())
-		childPtrs := allocateArrowArrayPtrArr(arr.NumField())
-		children := allocateArrowArrayArr(arr.NumField())
-		for i := 0; i < arr.NumField(); i++ {
-			exportArray(arr.Field(i), &children[i], nil)
-			childPtrs[i] = &children[i]
-		}
-		out.children = (**CArrowArray)(unsafe.Pointer(&childPtrs[0]))
-	case *array.RunEndEncoded:
-		out.n_children = 2
-		childPtrs := allocateArrowArrayPtrArr(2)
-		children := allocateArrowArrayArr(2)
-		exportArray(arr.RunEndsArr(), &children[0], nil)
-		exportArray(arr.Values(), &children[1], nil)
-		childPtrs[0], childPtrs[1] = &children[0], &children[1]
-		out.children = (**CArrowArray)(unsafe.Pointer(&childPtrs[0]))
-	case *array.Dictionary:
-		out.dictionary = (*CArrowArray)(C.calloc(C.sizeof_struct_ArrowArray, C.size_t(1)))
-		exportArray(arr.Dictionary(), out.dictionary, nil)
-	case array.Union:
-		out.n_children = C.int64_t(arr.NumFields())
-		childPtrs := allocateArrowArrayPtrArr(arr.NumFields())
-		children := allocateArrowArrayArr(arr.NumFields())
-		for i := 0; i < arr.NumFields(); i++ {
-			exportArray(arr.Field(i), &children[i], nil)
-			childPtrs[i] = &children[i]
-		}
-		out.children = (**CArrowArray)(unsafe.Pointer(&childPtrs[0]))
-	default:
-		out.n_children = 0
-		out.children = nil
-	}
-}
-
-type cRecordReader struct {
-	rdr array.RecordReader
-	err *C.char
-}
-
-func (rr cRecordReader) getSchema(out *CArrowSchema) int {
-	schema := rr.rdr.Schema()
-	if schema == nil {
-		return rr.maybeError()
-	}
-	ExportArrowSchema(schema, out)
-	return 0
-}
-
-func (rr cRecordReader) next(out *CArrowArray) int {
-	if rr.rdr.Next() {
-		ExportArrowRecordBatch(rr.rdr.Record(), out, nil)
-		return 0
-	}
-	C.ArrowArrayMarkReleased(out)
-	return rr.maybeError()
-}
-
-func (rr cRecordReader) maybeError() int {
-	err := rr.rdr.Err()
-	if err != nil {
-		return C.EIO
-	}
-	return 0
-}
-
-func (rr cRecordReader) getLastError() *C.char {
-	err := rr.rdr.Err()
-	if err != nil {
-		if rr.err != nil {
-			C.free(unsafe.Pointer(rr.err))
-		}
-		rr.err = C.CString(err.Error())
-	}
-	return rr.err
-}
-
-func (rr cRecordReader) release() {
-	if rr.err != nil {
-		C.free(unsafe.Pointer(rr.err))
-	}
-	rr.rdr.Release()
-}
diff --git a/go/arrow/cdata/cdata_fulltest.c b/go/arrow/cdata/cdata_fulltest.c
deleted file mode 100644
index 4291cfff865b5..0000000000000
--- a/go/arrow/cdata/cdata_fulltest.c
+++ /dev/null
@@ -1,494 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build cgo
-// +build test
-
-#include <assert.h>
-#include <errno.h>
-#include <string.h>
-#include <stdlib.h>
-#include <stdbool.h>
-#include <stdint.h>
-#include "arrow/c/abi.h"
-#include "arrow/c/helpers.h"
-#include "utils.h"
-
-int is_little_endian()
-{
-  unsigned int x = 1;
-  char *c = (char*) &x;
-  return (int)*c;
-}
-
-static const int64_t kDefaultFlags = ARROW_FLAG_NULLABLE;
-
-extern void releaseTestArr(struct ArrowArray* array);
-void goReleaseTestArray(struct ArrowArray* array) {
-  releaseTestArr(array);
-}
-
-static void release_int32_type(struct ArrowSchema* schema) {
-    // mark released
-    schema->release = NULL;
-}
-
-void export_int32_type(struct ArrowSchema* schema) {
-    const char* encoded_metadata;
-    if (is_little_endian() == 1) {
-        encoded_metadata = kEncodedMeta1LE;
-    } else {
-        encoded_metadata = kEncodedMeta1BE;
-    }
-    *schema = (struct ArrowSchema) {
-        // Type description
-        .format = "i",
-        .name = "",
-        .metadata = encoded_metadata,
-        .flags = 0,
-        .n_children = 0,
-        .children = NULL,
-        .dictionary = NULL,
-        // bookkeeping
-        .release = &release_int32_type,
-    };
-}
-
-static bool test1_released = false;
-
-int test1_is_released() { return test1_released; }
-
-static void release_int32_array(struct ArrowArray* array) {
-    assert(array->n_buffers == 2);
-    // free the buffers and buffers array
-    free((void *) array->buffers[1]);
-    free(array->buffers);
-    // mark released
-    array->release = NULL;
-    test1_released = true;
-}
-
-void export_int32_array(const int32_t* data, int64_t nitems, struct ArrowArray* array) {
-    // initialize primitive fields
-    *array = (struct ArrowArray) {
-        .length = nitems,
-        .offset = 0,
-        .null_count = 0,
-        .n_buffers = 2,
-        .n_children = 0,
-        .children = NULL,
-        .dictionary = NULL,
-        // bookkeeping
-        .release = &release_int32_array
-    };
-
-    // allocate list of buffers
-    array->buffers = (const void**)malloc(sizeof(void*) * array->n_buffers);
-    assert(array->buffers != NULL);
-    array->buffers[0] = NULL; // no nulls, null bitmap can be omitted
-    array->buffers[1] = data;
-}
-
-
-static void release_primitive(struct ArrowSchema* schema) {
-    free((void *)schema->format);
-    schema->release = NULL;
-}
-
-static void release_nested_internal(struct ArrowSchema* schema,
-                                    int is_dynamic) {
-    assert(!ArrowSchemaIsReleased(schema));
-    for (int i = 0; i < schema->n_children; ++i) {
-        ArrowSchemaRelease(schema->children[i]);
-        free(schema->children[i]);
-    }
-    if (is_dynamic) {
-        free((void*)schema->format);
-        free((void*)schema->name);
-    }
-    ArrowSchemaMarkReleased(schema);
-}
-
-static void release_nested_static(struct ArrowSchema* schema) {
-    release_nested_internal(schema, /*is_dynamic=*/0);
-}
-
-static void release_nested_dynamic(struct ArrowSchema* schema) {
-    release_nested_internal(schema, /*is_dynamic=*/1);
-}
-
-static void release_nested_dynamic_toplevel(struct ArrowSchema* schema) {
-    assert(!ArrowSchemaIsReleased(schema));
-    for (int i = 0; i < schema->n_children; ++i) {
-        ArrowSchemaRelease(schema->children[i]);
-        free(schema->children[i]);
-    }
-    free((void*)schema->format);
-    if (strlen(schema->name) > 0) {
-        free((void*)schema->name);
-    }
-    ArrowSchemaMarkReleased(schema);
-}
-
-void test_primitive(struct ArrowSchema* schema, const char* fmt) {
-    *schema = (struct ArrowSchema) {
-        // Type description
-        .format = fmt,
-        .name = "",
-        .metadata = NULL,
-        .flags = 0,
-        .n_children = 0,
-        .children = NULL,
-        .dictionary = NULL,
-        // bookkeeping
-        .release = &release_primitive,
-    };
-}
-
-// Since test_lists et al. allocate an entirely array of ArrowSchema pointers,
-// need to expose a function to free it.
-void free_malloced_schemas(struct ArrowSchema** schemas) {
-    free(schemas);
-}
-
-struct ArrowSchema** test_lists(const char** fmts, const char** names, const int* nullflags, const int n) {
-    struct ArrowSchema** schemas = malloc(sizeof(struct ArrowSchema*)*n);
-    for (int i = 0; i < n; ++i) {
-        schemas[i] = malloc(sizeof(struct ArrowSchema));
-        *schemas[i] = (struct ArrowSchema) {
-            .format = fmts[i],
-            .name = names[i],
-            .metadata = NULL,
-            .flags = 0,
-            .children = NULL,
-            .n_children = 0,
-            .dictionary = NULL,
-            .release = &release_nested_dynamic,
-        };
-        if (i != 0) {
-            schemas[i-1]->n_children = 1;
-            schemas[i-1]->children = &schemas[i];
-            schemas[i]->flags = nullflags[i-1];
-        }
-    }
-    return schemas;
-}
-
-struct ArrowSchema** fill_structs(const char** fmts, const char** names, int64_t* flags, const int n) {
-    struct ArrowSchema** schemas = malloc(sizeof(struct ArrowSchema*)*n);
-    for (int i = 0; i < n; ++i) {
-        schemas[i] = malloc(sizeof(struct ArrowSchema));
-        *schemas[i] = (struct ArrowSchema) {
-            .format = fmts[i],
-            .name = names[i],
-            .metadata = NULL,
-            .flags = flags[i],
-            .children = NULL,
-            .n_children = 0,
-            .dictionary = NULL,
-            .release = &release_nested_dynamic,
-        };
-    }
-
-    schemas[0]->children = &schemas[1];
-    schemas[0]->n_children = n-1;
-    return schemas;
-}
-
-struct ArrowSchema** test_struct(const char** fmts, const char** names, int64_t* flags, const int n) {
-    struct ArrowSchema** schemas = fill_structs(fmts, names, flags, n);
-
-    if (is_little_endian() == 1) {
-        schemas[n-1]->metadata = kEncodedMeta2LE;
-    } else {
-        schemas[n-1]->metadata = kEncodedMeta2BE;
-    }
-
-    return schemas;
-}
-
-struct ArrowSchema** test_schema(const char** fmts, const char** names, int64_t* flags, const int n) {
-    struct ArrowSchema** schemas = fill_structs(fmts, names, flags, n);
-
-    if (is_little_endian() == 1) {
-        schemas[0]->metadata = kEncodedMeta2LE;
-        schemas[n-1]->metadata = kEncodedMeta1LE;
-    } else {
-        schemas[0]->metadata = kEncodedMeta2BE;
-        schemas[n-1]->metadata = kEncodedMeta1BE;
-    }
-    return schemas;
-}
-
-struct ArrowSchema** test_map(const char** fmts, const char** names, int64_t* flags, const int n) {
-    struct ArrowSchema** schemas = malloc(sizeof(struct ArrowSchema*)*n);
-    for (int i = 0; i < n; ++i) {
-        schemas[i] = malloc(sizeof(struct ArrowSchema));
-        *schemas[i] = (struct ArrowSchema) {
-            .format = fmts[i],
-            .name = names[i],
-            .metadata = NULL,
-            .flags = flags[i],
-            .children = NULL,
-            .n_children = 0,
-            .dictionary = NULL,
-            .release = &release_nested_dynamic,
-        };
-    }
-
-    schemas[0]->n_children = 1;
-    schemas[0]->children = &schemas[1];
-    schemas[1]->n_children = n-2;
-    schemas[1]->children = &schemas[2];
-
-    return schemas;
-}
-
-struct ArrowSchema** test_union(const char** fmts, const char** names, int64_t* flags, const int n) {
-    struct ArrowSchema** schemas = malloc(sizeof(struct ArrowSchema*)*n);
-     for (int i = 0; i < n; ++i) {
-        schemas[i] = malloc(sizeof(struct ArrowSchema));
-        *schemas[i] = (struct ArrowSchema) {
-            .format = fmts[i],
-            .name = names[i],
-            .metadata = NULL,
-            .flags = flags[i],
-            .children = NULL,
-            .n_children = 0,
-            .dictionary = NULL,
-            .release = &release_nested_dynamic,
-        };
-    }
-
-    schemas[0]->n_children = n-1;
-    schemas[0]->children = &schemas[1];
-    return schemas;
-}
-
-struct streamcounter {
-    int n;
-    int max;
-};
-
-static int stream_schema(struct ArrowArrayStream* st, struct ArrowSchema* out) {
-    out->children = malloc(sizeof(struct ArrowSchema*)*2);
-    out->n_children = 2;
-
-    out->children[0] = malloc(sizeof(struct ArrowSchema));
-    *out->children[0] = (struct ArrowSchema) {
-        .format = "i",
-        .name = "a",
-        .metadata = NULL,
-        .flags = ARROW_FLAG_NULLABLE,
-        .children = NULL,
-        .n_children = 0,
-        .dictionary = NULL,
-        .release = &release_nested_static,
-    };
-
-    out->children[1] = malloc(sizeof(struct ArrowSchema));
-    *out->children[1] = (struct ArrowSchema) {
-        .format = "u",
-        .name = "b",
-        .metadata = NULL,
-        .flags = ARROW_FLAG_NULLABLE,
-        .children = NULL,
-        .n_children = 0,
-        .dictionary = NULL,
-        .release = &release_nested_static,
-    };
-
-    out->format = "+s";
-    out->release = &release_nested_static;
-
-    return 0;
-}
-
-static void release_stream(struct ArrowArrayStream* st) {
-    free(st->private_data);
-    ArrowArrayStreamMarkReleased(st);
-}
-
-static void release_the_array(struct ArrowArray* out) {
-    for (int i = 0; i < out->n_children; ++i) {
-        ArrowArrayRelease(out->children[i]);
-    }
-    free((void*)out->children);
-    free(out->buffers);
-    out->release = NULL;
-}
-
-void export_int32_array(const int32_t*, int64_t, struct ArrowArray*);
-
-static void release_str_array(struct ArrowArray* array) {
-    assert(array->n_buffers == 3);
-    free((void*) array->buffers[1]);
-    free((void*) array->buffers[2]);
-    free(array->buffers);
-    array->release = NULL;
-}
-
-void export_str_array(const char* data, const int32_t* offsets, int64_t nitems, struct ArrowArray* out) {
-    *out = (struct ArrowArray) {
-        .length = nitems,
-        .offset = 0,
-        .null_count = 0,
-        .n_buffers = 3,
-        .n_children = 0,
-        .children = NULL,
-        .dictionary = NULL,
-        // bookkeeping
-        .release = &release_str_array
-    };
-
-    out->buffers = (const void**)malloc(sizeof(void*) * out->n_buffers);
-    assert(out->buffers != NULL);
-    out->buffers[0] = NULL;
-    out->buffers[1] = offsets;
-    out->buffers[2] = data;
-}
-
-static int next_record(struct ArrowArrayStream* st, struct ArrowArray* out) {
-    struct streamcounter* cnter = (struct streamcounter*)(st->private_data);
-    if (cnter->n == cnter->max) {
-        ArrowArrayMarkReleased(out);
-        return 0;
-    }
-
-    cnter->n++;
-
-    *out = (struct ArrowArray) {
-        .offset = 0,
-        .dictionary = NULL,
-        .length = 3,
-        .null_count = 0,
-        .buffers = (const void**)malloc(sizeof(void*)),
-        .n_children = 2,
-        .n_buffers = 1,
-        .release = &release_the_array
-    };
-
-    out->buffers[0] = NULL;
-    out->children = (struct ArrowArray**)malloc(sizeof(struct ArrowArray*)*2);
-    int32_t* intdata = malloc(sizeof(int32_t)*3);
-    for (int i = 0; i < 3; ++i) {
-        intdata[i] = cnter->n * (i+1);
-    }
-
-    out->children[0] = malloc(sizeof(struct ArrowArray));
-    export_int32_array(intdata, 3, out->children[0]);
-    out->children[1] = malloc(sizeof(struct ArrowArray));
-    char* strdata = strdup("foobarbaz");
-    int32_t* offsets = malloc(sizeof(int32_t)*4);
-    offsets[0] = 0;
-    offsets[1] = 3;
-    offsets[2] = 6;
-    offsets[3] = 9;
-    export_str_array(strdata, offsets, 3, out->children[1]);
-
-    return 0;
-}
-
-void setup_array_stream_test(const int n_batches, struct ArrowArrayStream* out) {
-    struct streamcounter* cnt = malloc(sizeof(struct streamcounter));
-    cnt->max = n_batches;
-    cnt->n = 0;
-
-    out->get_next = &next_record;
-    out->get_schema = &stream_schema;
-    out->release = &release_stream;
-    out->private_data = cnt;
-}
-
-int test_exported_stream(struct ArrowArrayStream* stream) {
-  while (1) {
-    struct ArrowArray array;
-    memset(&array, 0, sizeof(array));
-    // Garbage - implementation should not try to call it, though!
-    array.release = (void*)0xDEADBEEF;
-    int rc = stream->get_next(stream, &array);
-    if (rc != 0) return rc;
-
-    if (array.release == NULL) {
-      stream->release(stream);
-      break;
-    }
-  }
-  return 0;
-}
-
-struct FallibleStream {
-  // empty structs are a GNU extension
-  int dummy;
-};
-
-const char* FallibleGetLastError(struct ArrowArrayStream* stream) {
-  return "Expected error message";
-}
-
-int FallibleGetSchema(struct ArrowArrayStream* stream, struct ArrowSchema* schema) {
-  return EINVAL;
-}
-
-int FallibleGetNext(struct ArrowArrayStream* stream, struct ArrowArray* array) {
-  return EINVAL;
-}
-
-void FallibleRelease(struct ArrowArrayStream* stream) {
-  memset(stream, 0, sizeof(*stream));
-}
-
-static struct FallibleStream kFallibleStream;
-
-void test_stream_schema_fallible(struct ArrowArrayStream* stream) {
-  stream->get_last_error = FallibleGetLastError;
-  stream->get_schema = FallibleGetSchema;
-  stream->get_next = FallibleGetNext;
-  stream->private_data = &kFallibleStream;
-  stream->release = FallibleRelease;
-}
-
-int confuse_go_gc(struct ArrowArrayStream* stream, unsigned int seed) {
-  struct ArrowSchema schema;
-  // Try to confuse the Go GC by putting what looks like a Go pointer here.
-#ifdef _WIN32
-  // Thread-safe on Windows with the multithread CRT
-#define DORAND rand()
-#else
-#define DORAND rand_r(&seed)
-#endif
-  schema.name = (char*)(0xc000000000L + (DORAND % 0x2000));
-  schema.format = (char*)(0xc000000000L + (DORAND % 0x2000));
-  int rc = stream->get_schema(stream, &schema);
-  if (rc != 0) return rc;
-  schema.release(&schema);
-
-  while (1) {
-    struct ArrowArray array;
-    array.release = (void*)(0xc000000000L + (DORAND % 0x2000));
-    array.private_data = (void*)(0xc000000000L + (DORAND % 0x2000));
-    int rc = stream->get_next(stream, &array);
-    if (rc != 0) return rc;
-
-    if (array.release == NULL) {
-      stream->release(stream);
-      break;
-    }
-    array.release(&array);
-  }
-  return 0;
-#undef DORAND
-}
diff --git a/go/arrow/cdata/cdata_test.go b/go/arrow/cdata/cdata_test.go
deleted file mode 100644
index 3563aeb5f0f1e..0000000000000
--- a/go/arrow/cdata/cdata_test.go
+++ /dev/null
@@ -1,1027 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo && test
-// +build cgo,test
-
-// use test tag so that we only run these tests when the "test" tag is present
-// so that the .c and other framework infrastructure is only compiled in during
-// testing, and the .c files and symbols are not present in release builds.
-
-package cdata
-
-import (
-	"encoding/json"
-	"errors"
-	"fmt"
-	"io"
-	"runtime"
-	"runtime/cgo"
-	"sync"
-	"testing"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/memory/mallocator"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestSchemaExport(t *testing.T) {
-	sc := exportInt32TypeSchema()
-	f, err := importSchema(&sc)
-	assert.NoError(t, err)
-
-	keys, _ := getMetadataKeys()
-	vals, _ := getMetadataValues()
-
-	assert.Equal(t, arrow.PrimitiveTypes.Int32, f.Type)
-	assert.Equal(t, keys, f.Metadata.Keys())
-	assert.Equal(t, vals, f.Metadata.Values())
-
-	// schema was released when importing
-	assert.True(t, schemaIsReleased(&sc))
-}
-
-func TestSimpleArrayExport(t *testing.T) {
-	assert.False(t, test1IsReleased())
-
-	testarr := exportInt32Array()
-	arr, err := ImportCArrayWithType(testarr, arrow.PrimitiveTypes.Int32)
-	assert.NoError(t, err)
-
-	assert.False(t, test1IsReleased())
-	assert.True(t, isReleased(testarr))
-
-	arr.Release()
-	runtime.GC()
-	assert.Eventually(t, test1IsReleased, 1*time.Second, 10*time.Millisecond)
-}
-
-func TestSimpleArrayAndSchema(t *testing.T) {
-	sc := exportInt32TypeSchema()
-	testarr := exportInt32Array()
-
-	// grab address of the buffer we stuck into the ArrowArray object
-	buflist := (*[2]unsafe.Pointer)(unsafe.Pointer(testarr.buffers))
-	origvals := (*[10]int32)(unsafe.Pointer(buflist[1]))
-
-	fld, arr, err := ImportCArray(testarr, &sc)
-	assert.NoError(t, err)
-	assert.Equal(t, arrow.PrimitiveTypes.Int32, fld.Type)
-	assert.EqualValues(t, 10, arr.Len())
-
-	// verify that the address is the same of the first integer for the
-	// slice that is being used by the arrow.Array and the original buffer
-	vals := arr.(*array.Int32).Int32Values()
-	assert.Same(t, &vals[0], &origvals[0])
-
-	// and that the values are correct
-	for i, v := range vals {
-		assert.Equal(t, int32(i+1), v)
-	}
-}
-
-func TestPrimitiveSchemas(t *testing.T) {
-	tests := []struct {
-		typ arrow.DataType
-		fmt string
-	}{
-		{arrow.PrimitiveTypes.Int8, "c"},
-		{arrow.PrimitiveTypes.Int16, "s"},
-		{arrow.PrimitiveTypes.Int32, "i"},
-		{arrow.PrimitiveTypes.Int64, "l"},
-		{arrow.PrimitiveTypes.Uint8, "C"},
-		{arrow.PrimitiveTypes.Uint16, "S"},
-		{arrow.PrimitiveTypes.Uint32, "I"},
-		{arrow.PrimitiveTypes.Uint64, "L"},
-		{arrow.FixedWidthTypes.Boolean, "b"},
-		{arrow.Null, "n"},
-		{arrow.FixedWidthTypes.Float16, "e"},
-		{arrow.PrimitiveTypes.Float32, "f"},
-		{arrow.PrimitiveTypes.Float64, "g"},
-		{&arrow.FixedSizeBinaryType{ByteWidth: 3}, "w:3"},
-		{arrow.BinaryTypes.Binary, "z"},
-		{arrow.BinaryTypes.LargeBinary, "Z"},
-		{arrow.BinaryTypes.String, "u"},
-		{arrow.BinaryTypes.LargeString, "U"},
-		{&arrow.Decimal128Type{Precision: 16, Scale: 4}, "d:16,4"},
-		{&arrow.Decimal128Type{Precision: 15, Scale: 0}, "d:15,0"},
-		{&arrow.Decimal128Type{Precision: 15, Scale: -4}, "d:15,-4"},
-		{&arrow.Decimal256Type{Precision: 15, Scale: -4}, "d:15,-4,256"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typ.Name(), func(t *testing.T) {
-			sc := testPrimitive(tt.fmt)
-
-			f, err := ImportCArrowField(&sc)
-			assert.NoError(t, err)
-
-			assert.True(t, arrow.TypeEqual(tt.typ, f.Type))
-
-			assert.True(t, schemaIsReleased(&sc))
-		})
-	}
-}
-
-func TestDecimalSchemaErrors(t *testing.T) {
-	tests := []struct {
-		fmt          string
-		errorMessage string
-	}{
-		{"d:", "invalid decimal spec 'd:': wrong number of properties"},
-		{"d:1", "invalid decimal spec 'd:1': wrong number of properties"},
-		{"d:1,2,3,4", "invalid decimal spec 'd:1,2,3,4': wrong number of properties"},
-		{"d:a,2,3", "could not parse decimal precision in 'd:a,2,3':"},
-		{"d:1,a,3", "could not parse decimal scale in 'd:1,a,3':"},
-		{"d:1,2,a", "could not parse decimal bitwidth in 'd:1,2,a':"},
-		{"d:1,2,384", "only decimal128 and decimal256 are supported, got 'd:1,2,384'"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.fmt, func(t *testing.T) {
-			sc := testPrimitive(tt.fmt)
-
-			_, err := ImportCArrowField(&sc)
-			assert.Error(t, err)
-			assert.Contains(t, err.Error(), tt.errorMessage)
-		})
-	}
-}
-
-func TestImportTemporalSchema(t *testing.T) {
-	tests := []struct {
-		typ arrow.DataType
-		fmt string
-	}{
-		{arrow.FixedWidthTypes.Date32, "tdD"},
-		{arrow.FixedWidthTypes.Date64, "tdm"},
-		{arrow.FixedWidthTypes.Time32s, "tts"},
-		{arrow.FixedWidthTypes.Time32ms, "ttm"},
-		{arrow.FixedWidthTypes.Time64us, "ttu"},
-		{arrow.FixedWidthTypes.Time64ns, "ttn"},
-		{arrow.FixedWidthTypes.Duration_s, "tDs"},
-		{arrow.FixedWidthTypes.Duration_ms, "tDm"},
-		{arrow.FixedWidthTypes.Duration_us, "tDu"},
-		{arrow.FixedWidthTypes.Duration_ns, "tDn"},
-		{arrow.FixedWidthTypes.MonthInterval, "tiM"},
-		{arrow.FixedWidthTypes.DayTimeInterval, "tiD"},
-		{arrow.FixedWidthTypes.MonthDayNanoInterval, "tin"},
-		{arrow.FixedWidthTypes.Timestamp_s, "tss:UTC"},
-		{&arrow.TimestampType{Unit: arrow.Second}, "tss:"},
-		{&arrow.TimestampType{Unit: arrow.Second, TimeZone: "Europe/Paris"}, "tss:Europe/Paris"},
-		{arrow.FixedWidthTypes.Timestamp_ms, "tsm:UTC"},
-		{&arrow.TimestampType{Unit: arrow.Millisecond}, "tsm:"},
-		{&arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "Europe/Paris"}, "tsm:Europe/Paris"},
-		{arrow.FixedWidthTypes.Timestamp_us, "tsu:UTC"},
-		{&arrow.TimestampType{Unit: arrow.Microsecond}, "tsu:"},
-		{&arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: "Europe/Paris"}, "tsu:Europe/Paris"},
-		{arrow.FixedWidthTypes.Timestamp_ns, "tsn:UTC"},
-		{&arrow.TimestampType{Unit: arrow.Nanosecond}, "tsn:"},
-		{&arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "Europe/Paris"}, "tsn:Europe/Paris"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typ.Name(), func(t *testing.T) {
-			sc := testPrimitive(tt.fmt)
-
-			f, err := ImportCArrowField(&sc)
-			assert.NoError(t, err)
-
-			assert.True(t, arrow.TypeEqual(tt.typ, f.Type))
-
-			assert.True(t, schemaIsReleased(&sc))
-		})
-	}
-}
-
-func TestListSchemas(t *testing.T) {
-	tests := []struct {
-		typ    arrow.DataType
-		fmts   []string
-		names  []string
-		isnull []bool
-	}{
-		{arrow.ListOf(arrow.PrimitiveTypes.Int8), []string{"+l", "c"}, []string{"", "item"}, []bool{true}},
-		{arrow.FixedSizeListOfNonNullable(2, arrow.PrimitiveTypes.Int64), []string{"+w:2", "l"}, []string{"", "item"}, []bool{false}},
-		{arrow.ListOfNonNullable(arrow.ListOf(arrow.PrimitiveTypes.Int32)), []string{"+l", "+l", "i"}, []string{"", "item", "item"}, []bool{false, true}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typ.Name(), func(t *testing.T) {
-			sc := testNested(tt.fmts, tt.names, tt.isnull)
-			defer freeMallocedSchemas(sc)
-
-			top := (*[1]*CArrowSchema)(unsafe.Pointer(sc))[0]
-			f, err := ImportCArrowField(top)
-			assert.NoError(t, err)
-
-			assert.True(t, arrow.TypeEqual(tt.typ, f.Type))
-
-			assert.True(t, schemaIsReleased(top))
-		})
-	}
-}
-
-func TestStructSchemas(t *testing.T) {
-	tests := []struct {
-		typ   arrow.DataType
-		fmts  []string
-		names []string
-		flags []int64
-	}{
-		{arrow.StructOf(
-			arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			arrow.Field{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true, Metadata: metadata2},
-		), []string{"+s", "c", "u"}, []string{"", "a", "b"}, []int64{flagIsNullable, flagIsNullable, flagIsNullable}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typ.Name(), func(t *testing.T) {
-			sc := testStruct(tt.fmts, tt.names, tt.flags)
-			defer freeMallocedSchemas(sc)
-
-			top := (*[1]*CArrowSchema)(unsafe.Pointer(sc))[0]
-			f, err := ImportCArrowField(top)
-			assert.NoError(t, err)
-
-			assert.True(t, arrow.TypeEqual(tt.typ, f.Type))
-
-			assert.True(t, schemaIsReleased(top))
-		})
-	}
-}
-
-func TestMapSchemas(t *testing.T) {
-	tests := []struct {
-		typ        *arrow.MapType
-		keysSorted bool
-		fmts       []string
-		names      []string
-		flags      []int64
-	}{
-		{arrow.MapOf(arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String), false, []string{"+m", "+s", "c", "u"}, []string{"", "entries", "key", "value"}, []int64{flagIsNullable, 0, 0, flagIsNullable}},
-		{arrow.MapOf(arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String), true, []string{"+m", "+s", "c", "u"}, []string{"", "entries", "key", "value"}, []int64{flagIsNullable | flagMapKeysSorted, 0, 0, flagIsNullable}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.typ.Name(), func(t *testing.T) {
-			sc := testMap(tt.fmts, tt.names, tt.flags)
-			defer freeMallocedSchemas(sc)
-
-			top := (*[1]*CArrowSchema)(unsafe.Pointer(sc))[0]
-			f, err := ImportCArrowField(top)
-			assert.NoError(t, err)
-
-			tt.typ.KeysSorted = tt.keysSorted
-			assert.True(t, arrow.TypeEqual(tt.typ, f.Type))
-
-			assert.True(t, schemaIsReleased(top))
-		})
-	}
-}
-
-func TestSchema(t *testing.T) {
-	// schema is exported as an equivalent struct type (+ top-level metadata)
-	sc := arrow.NewSchema([]arrow.Field{
-		{Name: "nulls", Type: arrow.Null, Nullable: false},
-		{Name: "values", Type: arrow.PrimitiveTypes.Int64, Nullable: true, Metadata: metadata1},
-	}, &metadata2)
-
-	cst := testSchema([]string{"+s", "n", "l"}, []string{"", "nulls", "values"}, []int64{0, 0, flagIsNullable})
-	defer freeMallocedSchemas(cst)
-
-	top := (*[1]*CArrowSchema)(unsafe.Pointer(cst))[0]
-	out, err := ImportCArrowSchema(top)
-	assert.NoError(t, err)
-
-	assert.True(t, sc.Equal(out))
-	assert.True(t, sc.Metadata().Equal(out.Metadata()))
-
-	assert.True(t, schemaIsReleased(top))
-}
-
-func createTestInt8Arr() arrow.Array {
-	bld := array.NewInt8Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]int8{1, 2, 0, -3}, []bool{true, true, false, true})
-	return bld.NewInt8Array()
-}
-
-func createTestInt16Arr() arrow.Array {
-	bld := array.NewInt16Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]int16{1, 2, -3}, []bool{true, true, true})
-	return bld.NewInt16Array()
-}
-
-func createTestInt32Arr() arrow.Array {
-	bld := array.NewInt32Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]int32{1, 2, 0, -3}, []bool{true, true, false, true})
-	return bld.NewInt32Array()
-}
-
-func createTestInt64Arr() arrow.Array {
-	bld := array.NewInt64Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]int64{1, 2, -3}, []bool{true, true, true})
-	return bld.NewInt64Array()
-}
-
-func createTestUint8Arr() arrow.Array {
-	bld := array.NewUint8Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]uint8{1, 2, 0, 3}, []bool{true, true, false, true})
-	return bld.NewUint8Array()
-}
-
-func createTestUint16Arr() arrow.Array {
-	bld := array.NewUint16Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]uint16{1, 2, 3}, []bool{true, true, true})
-	return bld.NewUint16Array()
-}
-
-func createTestUint32Arr() arrow.Array {
-	bld := array.NewUint32Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]uint32{1, 2, 0, 3}, []bool{true, true, false, true})
-	return bld.NewUint32Array()
-}
-
-func createTestUint64Arr() arrow.Array {
-	bld := array.NewUint64Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]uint64{1, 2, 3}, []bool{true, true, true})
-	return bld.NewUint64Array()
-}
-
-func createTestBoolArr() arrow.Array {
-	bld := array.NewBooleanBuilder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]bool{true, false, false}, []bool{true, true, false})
-	return bld.NewBooleanArray()
-}
-
-func createTestNullArr() arrow.Array {
-	return array.NewNull(2)
-}
-
-func createTestFloat32Arr() arrow.Array {
-	bld := array.NewFloat32Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]float32{1.5, 0}, []bool{true, false})
-	return bld.NewFloat32Array()
-}
-
-func createTestFloat64Arr() arrow.Array {
-	bld := array.NewFloat64Builder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]float64{1.5, 0}, []bool{true, false})
-	return bld.NewFloat64Array()
-}
-
-func createTestFSBArr() arrow.Array {
-	bld := array.NewFixedSizeBinaryBuilder(memory.DefaultAllocator, &arrow.FixedSizeBinaryType{ByteWidth: 3})
-	defer bld.Release()
-
-	bld.AppendValues([][]byte{[]byte("foo"), []byte("bar"), nil}, []bool{true, true, false})
-	return bld.NewFixedSizeBinaryArray()
-}
-
-func createTestBinaryArr() arrow.Array {
-	bld := array.NewBinaryBuilder(memory.DefaultAllocator, arrow.BinaryTypes.Binary)
-	defer bld.Release()
-
-	bld.AppendValues([][]byte{[]byte("foo"), []byte("bar"), nil}, []bool{true, true, false})
-	return bld.NewBinaryArray()
-}
-
-func createTestStrArr() arrow.Array {
-	bld := array.NewStringBuilder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]string{"foo", "bar", ""}, []bool{true, true, false})
-	return bld.NewStringArray()
-}
-
-func createTestLargeBinaryArr() arrow.Array {
-	bld := array.NewBinaryBuilder(memory.DefaultAllocator, arrow.BinaryTypes.LargeBinary)
-	defer bld.Release()
-
-	bld.AppendValues([][]byte{[]byte("foo"), []byte("bar"), nil}, []bool{true, true, false})
-	return bld.NewLargeBinaryArray()
-}
-
-func createTestLargeStrArr() arrow.Array {
-	bld := array.NewLargeStringBuilder(memory.DefaultAllocator)
-	defer bld.Release()
-
-	bld.AppendValues([]string{"foo", "bar", ""}, []bool{true, true, false})
-	return bld.NewLargeStringArray()
-}
-
-func createTestDecimalArr() arrow.Array {
-	bld := array.NewDecimal128Builder(memory.DefaultAllocator, &arrow.Decimal128Type{Precision: 16, Scale: 4})
-	defer bld.Release()
-
-	bld.AppendValues([]decimal128.Num{decimal128.FromU64(12345670), decimal128.FromU64(0)}, []bool{true, false})
-	return bld.NewDecimal128Array()
-}
-
-func TestPrimitiveArrs(t *testing.T) {
-	tests := []struct {
-		name string
-		fn   func() arrow.Array
-	}{
-		{"int8", createTestInt8Arr},
-		{"uint8", createTestUint8Arr},
-		{"int16", createTestInt16Arr},
-		{"uint16", createTestUint16Arr},
-		{"int32", createTestInt32Arr},
-		{"uint32", createTestUint32Arr},
-		{"int64", createTestInt64Arr},
-		{"uint64", createTestUint64Arr},
-		{"bool", createTestBoolArr},
-		{"null", createTestNullArr},
-		{"float32", createTestFloat32Arr},
-		{"float64", createTestFloat64Arr},
-		{"fixed size binary", createTestFSBArr},
-		{"binary", createTestBinaryArr},
-		{"utf8", createTestStrArr},
-		{"largebinary", createTestLargeBinaryArr},
-		{"largeutf8", createTestLargeStrArr},
-		{"decimal128", createTestDecimalArr},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			arr := tt.fn()
-			defer arr.Release()
-
-			mem := mallocator.NewMallocator()
-			defer mem.AssertSize(t, 0)
-
-			carr := createCArr(arr, mem)
-			defer freeTestMallocatorArr(carr, mem)
-
-			imported, err := ImportCArrayWithType(carr, arr.DataType())
-			assert.NoError(t, err)
-			assert.True(t, array.Equal(arr, imported))
-			assert.True(t, isReleased(carr))
-
-			imported.Release()
-		})
-	}
-}
-
-func TestPrimitiveSliced(t *testing.T) {
-	arr := createTestInt16Arr()
-	defer arr.Release()
-
-	sl := array.NewSlice(arr, 1, 2)
-	defer sl.Release()
-
-	mem := mallocator.NewMallocator()
-	defer mem.AssertSize(t, 0)
-
-	carr := createCArr(sl, mem)
-	defer freeTestMallocatorArr(carr, mem)
-
-	imported, err := ImportCArrayWithType(carr, arr.DataType())
-	assert.NoError(t, err)
-	assert.True(t, array.Equal(sl, imported))
-	assert.True(t, array.SliceEqual(arr, 1, 2, imported, 0, int64(imported.Len())))
-	assert.True(t, isReleased(carr))
-
-	imported.Release()
-}
-
-func createTestListArr() arrow.Array {
-	bld := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int8)
-	defer bld.Release()
-
-	vb := bld.ValueBuilder().(*array.Int8Builder)
-
-	bld.Append(true)
-	vb.AppendValues([]int8{1, 2}, []bool{true, true})
-
-	bld.Append(true)
-	vb.AppendValues([]int8{3, 0}, []bool{true, false})
-
-	bld.AppendNull()
-
-	return bld.NewArray()
-}
-
-func createTestLargeListArr() arrow.Array {
-	bld := array.NewLargeListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int8)
-	defer bld.Release()
-
-	vb := bld.ValueBuilder().(*array.Int8Builder)
-
-	bld.Append(true)
-	vb.AppendValues([]int8{1, 2}, []bool{true, true})
-
-	bld.Append(true)
-	vb.AppendValues([]int8{3, 0}, []bool{true, false})
-
-	bld.AppendNull()
-
-	return bld.NewArray()
-}
-
-func createTestFixedSizeList() arrow.Array {
-	bld := array.NewFixedSizeListBuilder(memory.DefaultAllocator, 2, arrow.PrimitiveTypes.Int64)
-	defer bld.Release()
-
-	vb := bld.ValueBuilder().(*array.Int64Builder)
-
-	bld.Append(true)
-	vb.AppendValues([]int64{1, 2}, []bool{true, true})
-
-	bld.Append(true)
-	vb.AppendValues([]int64{3, 0}, []bool{true, false})
-
-	bld.AppendNull()
-	return bld.NewArray()
-}
-
-func createTestStructArr() arrow.Array {
-	bld := array.NewStructBuilder(memory.DefaultAllocator, arrow.StructOf(
-		arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	))
-	defer bld.Release()
-
-	f1bld := bld.FieldBuilder(0).(*array.Int8Builder)
-	f2bld := bld.FieldBuilder(1).(*array.StringBuilder)
-
-	bld.Append(true)
-	f1bld.Append(1)
-	f2bld.Append("foo")
-
-	bld.Append(true)
-	f1bld.Append(2)
-	f2bld.AppendNull()
-
-	return bld.NewArray()
-}
-
-func createTestRunEndsArr() arrow.Array {
-	bld := array.NewRunEndEncodedBuilder(memory.DefaultAllocator,
-		arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int8)
-	defer bld.Release()
-
-	if err := json.Unmarshal([]byte(`[1, 2, 2, 3, null, null, null, 4]`), bld); err != nil {
-		panic(err)
-	}
-
-	return bld.NewArray()
-}
-
-func createTestMapArr() arrow.Array {
-	bld := array.NewMapBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String, false)
-	defer bld.Release()
-
-	kb := bld.KeyBuilder().(*array.Int8Builder)
-	vb := bld.ItemBuilder().(*array.StringBuilder)
-
-	bld.Append(true)
-	kb.Append(1)
-	vb.Append("foo")
-	kb.Append(2)
-	vb.AppendNull()
-
-	bld.Append(true)
-	kb.Append(3)
-	vb.Append("bar")
-
-	return bld.NewArray()
-}
-
-func createTestSparseUnion() arrow.Array {
-	return createTestUnionArr(arrow.SparseMode)
-}
-
-func createTestDenseUnion() arrow.Array {
-	return createTestUnionArr(arrow.DenseMode)
-}
-
-func createTestUnionArr(mode arrow.UnionMode) arrow.Array {
-	fields := []arrow.Field{
-		arrow.Field{Name: "u0", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "u1", Type: arrow.PrimitiveTypes.Uint8, Nullable: true},
-	}
-	typeCodes := []arrow.UnionTypeCode{5, 10}
-	bld := array.NewBuilder(memory.DefaultAllocator, arrow.UnionOf(mode, fields, typeCodes)).(array.UnionBuilder)
-	defer bld.Release()
-
-	u0Bld := bld.Child(0).(*array.Int32Builder)
-	u1Bld := bld.Child(1).(*array.Uint8Builder)
-
-	bld.Append(5)
-	if mode == arrow.SparseMode {
-		u1Bld.AppendNull()
-	}
-	u0Bld.Append(128)
-	bld.Append(5)
-	if mode == arrow.SparseMode {
-		u1Bld.AppendNull()
-	}
-	u0Bld.Append(256)
-	bld.Append(10)
-	if mode == arrow.SparseMode {
-		u0Bld.AppendNull()
-	}
-	u1Bld.Append(127)
-	bld.Append(10)
-	if mode == arrow.SparseMode {
-		u0Bld.AppendNull()
-	}
-	u1Bld.Append(25)
-
-	return bld.NewArray()
-}
-
-func TestNestedArrays(t *testing.T) {
-	tests := []struct {
-		name string
-		fn   func() arrow.Array
-	}{
-		{"list", createTestListArr},
-		{"large list", createTestLargeListArr},
-		{"fixed size list", createTestFixedSizeList},
-		{"struct", createTestStructArr},
-		{"map", createTestMapArr},
-		{"sparse union", createTestSparseUnion},
-		{"dense union", createTestDenseUnion},
-		{"run-end encoded", createTestRunEndsArr},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			arr := tt.fn()
-			defer arr.Release()
-
-			mem := mallocator.NewMallocator()
-			defer mem.AssertSize(t, 0)
-
-			carr := createCArr(arr, mem)
-			defer freeTestMallocatorArr(carr, mem)
-
-			imported, err := ImportCArrayWithType(carr, arr.DataType())
-			assert.NoError(t, err)
-			assert.True(t, array.Equal(arr, imported))
-			assert.True(t, isReleased(carr))
-
-			imported.Release()
-		})
-	}
-}
-
-func TestRecordBatch(t *testing.T) {
-	mem := mallocator.NewMallocator()
-	defer mem.AssertSize(t, 0)
-
-	arr := createTestStructArr()
-	defer arr.Release()
-
-	carr := createCArr(arr, mem)
-	defer freeTestMallocatorArr(carr, mem)
-
-	sc := testStruct([]string{"+s", "c", "u"}, []string{"", "a", "b"}, []int64{0, flagIsNullable, flagIsNullable})
-	defer freeMallocedSchemas(sc)
-
-	top := (*[1]*CArrowSchema)(unsafe.Pointer(sc))[0]
-	rb, err := ImportCRecordBatch(carr, top)
-	assert.NoError(t, err)
-	defer rb.Release()
-
-	assert.EqualValues(t, 2, rb.NumCols())
-	rbschema := rb.Schema()
-	assert.Equal(t, "a", rbschema.Field(0).Name)
-	assert.Equal(t, "b", rbschema.Field(1).Name)
-
-	rec := array.NewRecord(rbschema, []arrow.Array{arr.(*array.Struct).Field(0), arr.(*array.Struct).Field(1)}, -1)
-	defer rec.Release()
-
-	assert.True(t, array.RecordEqual(rb, rec))
-}
-
-func TestRecordReaderStream(t *testing.T) {
-	stream := arrayStreamTest()
-	defer releaseStream(stream)
-
-	rdr := ImportCArrayStream(stream, nil)
-	i := 0
-	for {
-		rec, err := rdr.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			assert.NoError(t, err)
-		}
-
-		assert.EqualValues(t, 2, rec.NumCols())
-		assert.Equal(t, "a", rec.ColumnName(0))
-		assert.Equal(t, "b", rec.ColumnName(1))
-		i++
-		for j := 0; j < int(rec.NumRows()); j++ {
-			assert.Equal(t, int32((j+1)*i), rec.Column(0).(*array.Int32).Value(j))
-		}
-		assert.Equal(t, "foo", rec.Column(1).(*array.String).Value(0))
-		assert.Equal(t, "bar", rec.Column(1).(*array.String).Value(1))
-		assert.Equal(t, "baz", rec.Column(1).(*array.String).Value(2))
-	}
-}
-
-func TestExportRecordReaderStream(t *testing.T) {
-	reclist := arrdata.Records["primitives"]
-	rdr, _ := array.NewRecordReader(reclist[0].Schema(), reclist)
-
-	out := createTestStreamObj()
-	ExportRecordReader(rdr, out)
-
-	assert.NotNil(t, out.get_schema)
-	assert.NotNil(t, out.get_next)
-	assert.NotNil(t, out.get_last_error)
-	assert.NotNil(t, out.release)
-	assert.NotNil(t, out.private_data)
-
-	h := *(*cgo.Handle)(out.private_data)
-	assert.Same(t, rdr, h.Value().(cRecordReader).rdr)
-
-	importedRdr := ImportCArrayStream(out, nil)
-	i := 0
-	for {
-		rec, err := importedRdr.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			assert.NoError(t, err)
-		}
-
-		assert.Truef(t, array.RecordEqual(reclist[i], rec), "expected: %s\ngot: %s", reclist[i], rec)
-		i++
-	}
-	assert.EqualValues(t, len(reclist), i)
-}
-
-func TestExportRecordReaderStreamLifetime(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "strings", Type: arrow.BinaryTypes.String, Nullable: false},
-	}, nil)
-
-	bldr := array.NewBuilder(mem, &arrow.StringType{})
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	rec := array.NewRecord(schema, []arrow.Array{arr}, 0)
-	defer rec.Release()
-
-	rdr, _ := array.NewRecordReader(schema, []arrow.Record{rec})
-	defer rdr.Release()
-
-	out := createTestStreamObj()
-	ExportRecordReader(rdr, out)
-
-	// C Stream is holding on to memory
-	assert.NotEqual(t, 0, mem.CurrentAlloc())
-	releaseStream(out)
-}
-
-func TestEmptyListExport(t *testing.T) {
-	bldr := array.NewBuilder(memory.DefaultAllocator, arrow.LargeListOf(arrow.PrimitiveTypes.Int32))
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	var out CArrowArray
-	ExportArrowArray(arr, &out, nil)
-
-	assert.Zero(t, out.length)
-	assert.Zero(t, out.null_count)
-	assert.Zero(t, out.offset)
-	assert.EqualValues(t, 2, out.n_buffers)
-	assert.NotNil(t, out.buffers)
-	assert.EqualValues(t, 1, out.n_children)
-	assert.NotNil(t, out.children)
-}
-
-func TestEmptyDictExport(t *testing.T) {
-	bldr := array.NewBuilder(memory.DefaultAllocator, &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String, Ordered: true})
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	var out CArrowArray
-	var sc CArrowSchema
-	ExportArrowArray(arr, &out, &sc)
-
-	assert.EqualValues(t, 'c', *sc.format)
-	assert.NotZero(t, sc.flags&1)
-	assert.Zero(t, sc.n_children)
-	assert.NotNil(t, sc.dictionary)
-	assert.EqualValues(t, 'u', *sc.dictionary.format)
-
-	assert.Zero(t, out.length)
-	assert.Zero(t, out.null_count)
-	assert.Zero(t, out.offset)
-	assert.EqualValues(t, 2, out.n_buffers)
-	assert.Zero(t, out.n_children)
-	assert.Nil(t, out.children)
-	assert.NotNil(t, out.dictionary)
-
-	assert.Zero(t, out.dictionary.length)
-	assert.Zero(t, out.dictionary.null_count)
-	assert.Zero(t, out.dictionary.offset)
-	assert.EqualValues(t, 3, out.dictionary.n_buffers)
-	assert.Zero(t, out.dictionary.n_children)
-	assert.Nil(t, out.dictionary.children)
-	assert.Nil(t, out.dictionary.dictionary)
-}
-
-func TestEmptyStringExport(t *testing.T) {
-	// apache/arrow#33936: regression test
-	bldr := array.NewBuilder(memory.DefaultAllocator, &arrow.StringType{})
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	var out CArrowArray
-	var sc CArrowSchema
-	ExportArrowArray(arr, &out, &sc)
-
-	assert.EqualValues(t, 'u', *sc.format)
-	assert.Zero(t, sc.n_children)
-	assert.Nil(t, sc.dictionary)
-
-	assert.EqualValues(t, 3, out.n_buffers)
-	buffers := (*[3]unsafe.Pointer)(unsafe.Pointer(out.buffers))
-	assert.EqualValues(t, unsafe.Pointer(nil), buffers[0])
-	assert.NotEqualValues(t, unsafe.Pointer(nil), buffers[1])
-	assert.NotEqualValues(t, unsafe.Pointer(nil), buffers[2])
-}
-
-func TestEmptyUnionExport(t *testing.T) {
-	// apache/arrow#33936: regression test
-	bldr := array.NewBuilder(memory.DefaultAllocator, arrow.SparseUnionOf([]arrow.Field{
-		{Name: "child", Type: &arrow.Int64Type{}},
-	}, []arrow.UnionTypeCode{0}))
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	var out CArrowArray
-	var sc CArrowSchema
-	ExportArrowArray(arr, &out, &sc)
-
-	assert.EqualValues(t, 1, sc.n_children)
-	assert.Nil(t, sc.dictionary)
-
-	assert.EqualValues(t, 1, out.n_buffers)
-	buffers := (*[1]unsafe.Pointer)(unsafe.Pointer(out.buffers))
-	assert.NotEqualValues(t, unsafe.Pointer(nil), buffers[0])
-}
-
-func TestRecordReaderExport(t *testing.T) {
-	// Regression test for apache/arrow#33767
-	reclist := arrdata.Records["primitives"]
-	rdr, _ := array.NewRecordReader(reclist[0].Schema(), reclist)
-
-	if err := exportedStreamTest(rdr); err != nil {
-		t.Fatalf("Failed to test exported stream: %#v", err)
-	}
-}
-
-type failingReader struct {
-	opCount int
-}
-
-func (r *failingReader) Retain()  {}
-func (r *failingReader) Release() {}
-func (r *failingReader) Schema() *arrow.Schema {
-	r.opCount -= 1
-	if r.opCount == 0 {
-		return nil
-	}
-	return arrdata.Records["primitives"][0].Schema()
-}
-func (r *failingReader) Next() bool {
-	r.opCount -= 1
-	return r.opCount > 0
-}
-func (r *failingReader) Record() arrow.Record {
-	arrdata.Records["primitives"][0].Retain()
-	return arrdata.Records["primitives"][0]
-}
-func (r *failingReader) Err() error {
-	if r.opCount == 0 {
-		return fmt.Errorf("Expected error message")
-	}
-	return nil
-}
-
-func TestRecordReaderError(t *testing.T) {
-	// Regression test for apache/arrow#33789
-	err := roundTripStreamTest(&failingReader{opCount: 1})
-	if err == nil {
-		t.Fatalf("Expected error but got none")
-	}
-	assert.Contains(t, err.Error(), "Expected error message")
-
-	err = roundTripStreamTest(&failingReader{opCount: 2})
-	if err == nil {
-		t.Fatalf("Expected error but got none")
-	}
-	assert.Contains(t, err.Error(), "Expected error message")
-
-	err = roundTripStreamTest(&failingReader{opCount: 3})
-	if err == nil {
-		t.Fatalf("Expected error but got none")
-	}
-	assert.Contains(t, err.Error(), "Expected error message")
-}
-
-func TestRecordReaderImportError(t *testing.T) {
-	// Regression test for apache/arrow#35974
-
-	err := fallibleSchemaTestDeprecated()
-	if err == nil {
-		t.Fatalf("Expected error but got nil")
-	}
-	assert.Contains(t, err.Error(), "Expected error message")
-
-	err = fallibleSchemaTest()
-	if err == nil {
-		t.Fatalf("Expected error but got nil")
-	}
-	assert.Contains(t, err.Error(), "Expected error message")
-}
-
-func TestConfuseGoGc(t *testing.T) {
-	// Regression test for https://github.com/apache/arrow-adbc/issues/729
-	reclist := arrdata.Records["primitives"]
-
-	var wg sync.WaitGroup
-	concurrency := 32
-	wg.Add(concurrency)
-
-	// XXX: this test is a bit expensive
-	for i := 0; i < concurrency; i++ {
-		go func() {
-			for i := 0; i < 256; i++ {
-				rdr, err := array.NewRecordReader(reclist[0].Schema(), reclist)
-				assert.NoError(t, err)
-				runtime.GC()
-				assert.NoError(t, confuseGoGc(rdr))
-				runtime.GC()
-			}
-			wg.Done()
-		}()
-	}
-
-	wg.Wait()
-}
diff --git a/go/arrow/cdata/cdata_test_framework.go b/go/arrow/cdata/cdata_test_framework.go
deleted file mode 100644
index 968b28b4e4afb..0000000000000
--- a/go/arrow/cdata/cdata_test_framework.go
+++ /dev/null
@@ -1,451 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build test
-// +build test
-
-package cdata
-
-// #include <stdlib.h>
-// #include <stdint.h>
-// #include <string.h>
-// #include "arrow/c/abi.h"
-// #include "arrow/c/helpers.h"
-//
-// void setup_array_stream_test(const int n_batches, struct ArrowArrayStream* out);
-// static struct ArrowArray* get_test_arr() {
-//   struct ArrowArray* array = (struct ArrowArray*)malloc(sizeof(struct ArrowArray));
-//   memset(array, 0, sizeof(*array));
-//   return array;
-// }
-// static struct ArrowArrayStream* get_test_stream() {
-//	struct ArrowArrayStream* out = (struct ArrowArrayStream*)malloc(sizeof(struct ArrowArrayStream));
-//	memset(out, 0, sizeof(struct ArrowArrayStream));
-//	return out;
-// }
-//
-// void release_test_arr(struct ArrowArray* arr);
-//
-// static int32_t* get_data() {
-//	int32_t* data = malloc(sizeof(int32_t)*10);
-//  for (int i = 0; i < 10; ++i) { data[i] = i+1; }
-//	return data;
-// }
-// void export_int32_type(struct ArrowSchema* schema);
-// void export_int32_array(const int32_t*, int64_t, struct ArrowArray*);
-// int test1_is_released();
-// void test_primitive(struct ArrowSchema* schema, const char* fmt);
-// void free_malloced_schemas(struct ArrowSchema**);
-// struct ArrowSchema** test_lists(const char** fmts, const char** names, const int* nullflags, const int n);
-// struct ArrowSchema** test_struct(const char** fmts, const char** names, int64_t* flags, const int n);
-// struct ArrowSchema** test_map(const char** fmts, const char** names, int64_t* flags, const int n);
-// struct ArrowSchema** test_schema(const char** fmts, const char** names, int64_t* flags, const int n);
-// struct ArrowSchema** test_union(const char** fmts, const char** names, int64_t* flags, const int n);
-// int test_exported_stream(struct ArrowArrayStream* stream);
-// void test_stream_schema_fallible(struct ArrowArrayStream* stream);
-// int confuse_go_gc(struct ArrowArrayStream* stream, unsigned int seed);
-// extern void releaseTestArr(struct ArrowArray* array);
-// extern void goReleaseTestArray(struct ArrowArray* array);
-import "C"
-
-import (
-	"errors"
-	"fmt"
-	"io"
-	"math/rand"
-	"runtime/cgo"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal"
-	"github.com/apache/arrow/go/v18/arrow/memory/mallocator"
-)
-
-const (
-	flagIsNullable    = C.ARROW_FLAG_NULLABLE
-	flagMapKeysSorted = C.ARROW_FLAG_MAP_KEYS_SORTED
-)
-
-var (
-	metadata1 = arrow.NewMetadata([]string{"key1", "key2"}, []string{"", "bar"})
-	metadata2 = arrow.NewMetadata([]string{"key"}, []string{"abcde"})
-)
-
-func exportInt32TypeSchema() CArrowSchema {
-	var s CArrowSchema
-	C.export_int32_type(&s)
-	return s
-}
-
-func releaseStream(s *CArrowArrayStream) {
-	C.ArrowArrayStreamRelease(s)
-}
-
-func schemaIsReleased(s *CArrowSchema) bool {
-	return C.ArrowSchemaIsReleased(s) == 1
-}
-
-func getMetadataKeys() ([]string, []string) {
-	return []string{"key1", "key2"}, []string{"key"}
-}
-
-func getMetadataValues() ([]string, []string) {
-	return []string{"", "bar"}, []string{"abcde"}
-}
-
-func exportInt32Array() *CArrowArray {
-	arr := C.get_test_arr()
-	C.export_int32_array(C.get_data(), C.int64_t(10), arr)
-	return arr
-}
-
-func isReleased(arr *CArrowArray) bool {
-	return C.ArrowArrayIsReleased(arr) == 1
-}
-
-func test1IsReleased() bool {
-	return C.test1_is_released() == 1
-}
-
-func testPrimitive(fmtstr string) CArrowSchema {
-	var s CArrowSchema
-	fmt := C.CString(fmtstr)
-	C.test_primitive(&s, fmt)
-	return s
-}
-
-func freeMallocedSchemas(schemas **CArrowSchema) {
-	C.free_malloced_schemas(schemas)
-}
-
-func testNested(fmts, names []string, isnull []bool) **CArrowSchema {
-	if len(fmts) != len(names) {
-		panic("testing nested lists must have same size fmts and names")
-	}
-	cfmts := make([]*C.char, len(fmts))
-	cnames := make([]*C.char, len(names))
-	nulls := make([]C.int, len(isnull))
-
-	for i := range fmts {
-		cfmts[i] = C.CString(fmts[i])
-		cnames[i] = C.CString(names[i])
-	}
-
-	for i, v := range isnull {
-		if v {
-			nulls[i] = C.ARROW_FLAG_NULLABLE
-		} else {
-			nulls[i] = 0
-		}
-	}
-
-	return C.test_lists((**C.char)(unsafe.Pointer(&cfmts[0])), (**C.char)(unsafe.Pointer(&cnames[0])), (*C.int)(unsafe.Pointer(&nulls[0])), C.int(len(fmts)))
-}
-
-func testStruct(fmts, names []string, flags []int64) **CArrowSchema {
-	if len(fmts) != len(names) || len(names) != len(flags) {
-		panic("testing structs must all have the same size slices in args")
-	}
-
-	cfmts := make([]*C.char, len(fmts))
-	cnames := make([]*C.char, len(names))
-	cflags := make([]C.int64_t, len(flags))
-
-	for i := range fmts {
-		cfmts[i] = C.CString(fmts[i])
-		cnames[i] = C.CString(names[i])
-		cflags[i] = C.int64_t(flags[i])
-	}
-
-	return C.test_struct((**C.char)(unsafe.Pointer(&cfmts[0])), (**C.char)(unsafe.Pointer(&cnames[0])), (*C.int64_t)(unsafe.Pointer(&cflags[0])), C.int(len(fmts)))
-}
-
-func testMap(fmts, names []string, flags []int64) **CArrowSchema {
-	if len(fmts) != len(names) || len(names) != len(flags) {
-		panic("testing maps must all have the same size slices in args")
-	}
-
-	cfmts := make([]*C.char, len(fmts))
-	cnames := make([]*C.char, len(names))
-	cflags := make([]C.int64_t, len(flags))
-
-	for i := range fmts {
-		cfmts[i] = C.CString(fmts[i])
-		cnames[i] = C.CString(names[i])
-		cflags[i] = C.int64_t(flags[i])
-	}
-
-	return C.test_map((**C.char)(unsafe.Pointer(&cfmts[0])), (**C.char)(unsafe.Pointer(&cnames[0])), (*C.int64_t)(unsafe.Pointer(&cflags[0])), C.int(len(fmts)))
-}
-
-func testUnion(fmts, names []string, flags []int64) **CArrowSchema {
-	if len(fmts) != len(names) || len(names) != len(flags) {
-		panic("testing unions must all have the same size slices in args")
-	}
-
-	cfmts := make([]*C.char, len(fmts))
-	cnames := make([]*C.char, len(names))
-	cflags := make([]C.int64_t, len(flags))
-
-	for i := range fmts {
-		cfmts[i] = C.CString(fmts[i])
-		cnames[i] = C.CString(names[i])
-		cflags[i] = C.int64_t(flags[i])
-	}
-
-	return C.test_union((**C.char)(unsafe.Pointer(&cfmts[0])), (**C.char)(unsafe.Pointer(&cnames[0])), (*C.int64_t)(unsafe.Pointer(&cflags[0])), C.int(len(fmts)))
-}
-
-func testSchema(fmts, names []string, flags []int64) **CArrowSchema {
-	if len(fmts) != len(names) || len(names) != len(flags) {
-		panic("testing structs must all have the same size slices in args")
-	}
-
-	cfmts := make([]*C.char, len(fmts))
-	cnames := make([]*C.char, len(names))
-	cflags := make([]C.int64_t, len(flags))
-
-	for i := range fmts {
-		cfmts[i] = C.CString(fmts[i])
-		cnames[i] = C.CString(names[i])
-		cflags[i] = C.int64_t(flags[i])
-	}
-
-	return C.test_schema((**C.char)(unsafe.Pointer(&cfmts[0])), (**C.char)(unsafe.Pointer(&cnames[0])), (*C.int64_t)(unsafe.Pointer(&cflags[0])), C.int(len(fmts)))
-}
-
-func freeAny[T any](alloc *mallocator.Mallocator, p *T, n int) {
-	raw := unsafe.Slice((*byte)(unsafe.Pointer(p)), int(unsafe.Sizeof(*p))*n)
-	alloc.Free(raw)
-}
-
-func freeTestMallocatorArr(carr *CArrowArray, alloc *mallocator.Mallocator) {
-	freeAny(alloc, carr, 1)
-}
-
-func getTestArr(alloc *mallocator.Mallocator) *CArrowArray {
-	raw := alloc.Allocate(C.sizeof_struct_ArrowArray)
-	return (*CArrowArray)(unsafe.Pointer(&raw[0]))
-}
-
-type testReleaser struct {
-	alloc *mallocator.Mallocator
-	bufs  [][]byte
-}
-
-//export releaseTestArr
-func releaseTestArr(arr *CArrowArray) {
-	if C.ArrowArrayIsReleased(arr) == 1 {
-		return
-	}
-	defer C.ArrowArrayMarkReleased(arr)
-
-	h := getHandle(arr.private_data)
-	tr := h.Value().(*testReleaser)
-
-	alloc := tr.alloc
-	for _, b := range tr.bufs {
-		alloc.Free(b)
-	}
-
-	if arr.n_buffers > 0 {
-		freeAny(alloc, arr.buffers, int(arr.n_buffers))
-	}
-
-	if arr.dictionary != nil {
-		C.ArrowArrayRelease(arr.dictionary)
-		freeAny(alloc, arr.dictionary, 1)
-	}
-
-	if arr.n_children > 0 {
-		children := unsafe.Slice(arr.children, arr.n_children)
-		for _, c := range children {
-			C.ArrowArrayRelease(c)
-			freeTestMallocatorArr(c, alloc)
-		}
-
-		freeAny(alloc, arr.children, int(arr.n_children))
-	}
-
-	h.Delete()
-	C.free(unsafe.Pointer(arr.private_data))
-}
-
-func allocateBufferMallocatorPtrArr(alloc *mallocator.Mallocator, n int) []*C.void {
-	raw := alloc.Allocate(int(unsafe.Sizeof((*C.void)(nil))) * n)
-	return unsafe.Slice((**C.void)(unsafe.Pointer(&raw[0])), n)
-}
-
-func allocateChildrenPtrArr(alloc *mallocator.Mallocator, n int) []*CArrowArray {
-	raw := alloc.Allocate(int(unsafe.Sizeof((*CArrowArray)(nil))) * n)
-	return unsafe.Slice((**CArrowArray)(unsafe.Pointer(&raw[0])), n)
-}
-
-func createCArr(arr arrow.Array, alloc *mallocator.Mallocator) *CArrowArray {
-	var (
-		carr      = getTestArr(alloc)
-		children  = (**CArrowArray)(nil)
-		nchildren = C.int64_t(0)
-	)
-
-	switch arr := arr.(type) {
-	case array.ListLike:
-		clist := allocateChildrenPtrArr(alloc, 1)
-		clist[0] = createCArr(arr.ListValues(), alloc)
-		children = (**CArrowArray)(unsafe.Pointer(&clist[0]))
-		nchildren += 1
-	case *array.Struct:
-		clist := allocateChildrenPtrArr(alloc, arr.NumField())
-		for i := 0; i < arr.NumField(); i++ {
-			clist[i] = createCArr(arr.Field(i), alloc)
-			nchildren += 1
-		}
-		children = (**CArrowArray)(unsafe.Pointer(&clist[0]))
-	case *array.RunEndEncoded:
-		clist := allocateChildrenPtrArr(alloc, 2)
-		clist[0] = createCArr(arr.RunEndsArr(), alloc)
-		clist[1] = createCArr(arr.Values(), alloc)
-		children = (**CArrowArray)(unsafe.Pointer(&clist[0]))
-		nchildren += 2
-	case array.Union:
-		clist := allocateChildrenPtrArr(alloc, arr.NumFields())
-		for i := 0; i < arr.NumFields(); i++ {
-			clist[i] = createCArr(arr.Field(i), alloc)
-			nchildren += 1
-		}
-		children = (**CArrowArray)(unsafe.Pointer(&clist[0]))
-	}
-
-	carr.children = children
-	carr.n_children = nchildren
-	carr.dictionary = nil
-	carr.length = C.int64_t(arr.Len())
-	carr.null_count = C.int64_t(arr.NullN())
-	carr.offset = C.int64_t(arr.Data().Offset())
-	carr.release = (*[0]byte)(C.goReleaseTestArray)
-	tr := &testReleaser{alloc: alloc}
-	h := cgo.NewHandle(tr)
-	carr.private_data = createHandle(h)
-
-	buffers := arr.Data().Buffers()
-	bufOffset, nbuffers := 0, len(buffers)
-	hasValidityBitmap := internal.DefaultHasValidityBitmap(arr.DataType().ID())
-	if nbuffers > 0 && !hasValidityBitmap {
-		nbuffers--
-		bufOffset++
-	}
-
-	if nbuffers == 0 {
-		return carr
-	}
-
-	tr.bufs = make([][]byte, 0, nbuffers)
-	cbufs := allocateBufferMallocatorPtrArr(alloc, nbuffers)
-	for i, b := range buffers[bufOffset:] {
-		if b != nil {
-			raw := alloc.Allocate(b.Len())
-			copy(raw, b.Bytes())
-			tr.bufs = append(tr.bufs, raw)
-			cbufs[i] = (*C.void)(unsafe.Pointer(&raw[0]))
-		} else {
-			cbufs[i] = nil
-		}
-	}
-
-	carr.n_buffers = C.int64_t(len(cbufs))
-	if len(cbufs) > 0 {
-		carr.buffers = (*unsafe.Pointer)(unsafe.Pointer(&cbufs[0]))
-	}
-
-	return carr
-}
-
-func createTestStreamObj() *CArrowArrayStream {
-	return C.get_test_stream()
-}
-
-func arrayStreamTest() *CArrowArrayStream {
-	st := C.get_test_stream()
-	C.setup_array_stream_test(2, st)
-	return st
-}
-
-func exportedStreamTest(reader array.RecordReader) error {
-	out := C.get_test_stream()
-	ExportRecordReader(reader, out)
-	rc := C.test_exported_stream(out)
-	C.free(unsafe.Pointer(out))
-	if rc == 0 {
-		return nil
-	}
-	return fmt.Errorf("Exported stream test failed with return code %d", int(rc))
-}
-
-func roundTripStreamTest(reader array.RecordReader) error {
-	out := C.get_test_stream()
-	ExportRecordReader(reader, out)
-	rdr, err := ImportCRecordReader(out, nil)
-
-	if err != nil {
-		return err
-	}
-
-	for {
-		_, err = rdr.Read()
-		if errors.Is(err, io.EOF) {
-			break
-		} else if err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func fallibleSchemaTestDeprecated() (err error) {
-	stream := CArrowArrayStream{}
-	C.test_stream_schema_fallible(&stream)
-
-	defer func() {
-		if r := recover(); r != nil {
-			err = fmt.Errorf("Panicked: %#v", r)
-		}
-	}()
-	_ = ImportCArrayStream(&stream, nil)
-	return nil
-}
-
-func fallibleSchemaTest() error {
-	stream := CArrowArrayStream{}
-	C.test_stream_schema_fallible(&stream)
-
-	_, err := ImportCRecordReader(&stream, nil)
-	if err != nil {
-		return err
-	}
-	return nil
-}
-
-func confuseGoGc(reader array.RecordReader) error {
-	out := C.get_test_stream()
-	ExportRecordReader(reader, out)
-	rc := C.confuse_go_gc(out, C.uint(rand.Int()))
-	C.free(unsafe.Pointer(out))
-	if rc == 0 {
-		return nil
-	}
-	return fmt.Errorf("Exported stream test failed with return code %d", int(rc))
-}
diff --git a/go/arrow/cdata/exports.go b/go/arrow/cdata/exports.go
deleted file mode 100644
index 6dbcde831d889..0000000000000
--- a/go/arrow/cdata/exports.go
+++ /dev/null
@@ -1,157 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package cdata
-
-import (
-	"runtime/cgo"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-// #include <stdlib.h>
-// #include "arrow/c/helpers.h"
-//
-// typedef const char cchar_t;
-// extern int streamGetSchema(struct ArrowArrayStream*, struct ArrowSchema*);
-// extern int streamGetNext(struct ArrowArrayStream*, struct ArrowArray*);
-// extern const char* streamGetError(struct ArrowArrayStream*);
-// extern void streamRelease(struct ArrowArrayStream*);
-// // XXX(https://github.com/apache/arrow-adbc/issues/729)
-// int streamGetSchemaTrampoline(struct ArrowArrayStream* stream, struct ArrowSchema* out);
-// int streamGetNextTrampoline(struct ArrowArrayStream* stream, struct ArrowArray* out);
-//
-import "C"
-
-//export releaseExportedSchema
-func releaseExportedSchema(schema *CArrowSchema) {
-	if C.ArrowSchemaIsReleased(schema) == 1 {
-		return
-	}
-	defer C.ArrowSchemaMarkReleased(schema)
-
-	C.free(unsafe.Pointer(schema.name))
-	C.free(unsafe.Pointer(schema.format))
-	C.free(unsafe.Pointer(schema.metadata))
-
-	if schema.n_children == 0 {
-		return
-	}
-
-	if schema.dictionary != nil {
-		C.ArrowSchemaRelease(schema.dictionary)
-		C.free(unsafe.Pointer(schema.dictionary))
-	}
-
-	children := unsafe.Slice(schema.children, schema.n_children)
-	for _, c := range children {
-		C.ArrowSchemaRelease(c)
-	}
-
-	C.free(unsafe.Pointer(children[0]))
-	C.free(unsafe.Pointer(schema.children))
-}
-
-// apache/arrow#33864: allocate a new cgo.Handle and store its address
-// in a heap-allocated uintptr_t.
-func createHandle(hndl cgo.Handle) unsafe.Pointer {
-	// uintptr_t* hptr = malloc(sizeof(uintptr_t));
-	hptr := (*C.uintptr_t)(C.malloc(C.sizeof_uintptr_t))
-	// *hptr = (uintptr)hndl;
-	*hptr = C.uintptr_t(uintptr(hndl))
-	return unsafe.Pointer(hptr)
-}
-
-func getHandle(ptr unsafe.Pointer) cgo.Handle {
-	// uintptr_t* hptr = (uintptr_t*)ptr;
-	hptr := (*C.uintptr_t)(ptr)
-	return cgo.Handle((uintptr)(*hptr))
-}
-
-//export releaseExportedArray
-func releaseExportedArray(arr *CArrowArray) {
-	if C.ArrowArrayIsReleased(arr) == 1 {
-		return
-	}
-	defer C.ArrowArrayMarkReleased(arr)
-
-	if arr.n_buffers > 0 {
-		C.free(unsafe.Pointer(arr.buffers))
-	}
-
-	if arr.dictionary != nil {
-		C.ArrowArrayRelease(arr.dictionary)
-		C.free(unsafe.Pointer(arr.dictionary))
-	}
-
-	if arr.n_children > 0 {
-		children := unsafe.Slice(arr.children, arr.n_children)
-
-		for _, c := range children {
-			C.ArrowArrayRelease(c)
-		}
-		C.free(unsafe.Pointer(children[0]))
-		C.free(unsafe.Pointer(arr.children))
-	}
-
-	h := getHandle(arr.private_data)
-	h.Value().(arrow.ArrayData).Release()
-	h.Delete()
-	C.free(unsafe.Pointer(arr.private_data))
-}
-
-//export streamGetSchema
-func streamGetSchema(handle *CArrowArrayStream, out *CArrowSchema) C.int {
-	h := getHandle(handle.private_data)
-	rdr := h.Value().(cRecordReader)
-	return C.int(rdr.getSchema(out))
-}
-
-//export streamGetNext
-func streamGetNext(handle *CArrowArrayStream, out *CArrowArray) C.int {
-	h := getHandle(handle.private_data)
-	rdr := h.Value().(cRecordReader)
-	return C.int(rdr.next(out))
-}
-
-//export streamGetError
-func streamGetError(handle *CArrowArrayStream) *C.cchar_t {
-	h := getHandle(handle.private_data)
-	rdr := h.Value().(cRecordReader)
-	return rdr.getLastError()
-}
-
-//export streamRelease
-func streamRelease(handle *CArrowArrayStream) {
-	h := getHandle(handle.private_data)
-	h.Value().(cRecordReader).release()
-	h.Delete()
-	C.free(unsafe.Pointer(handle.private_data))
-	handle.release = nil
-	handle.private_data = nil
-}
-
-func exportStream(rdr array.RecordReader, out *CArrowArrayStream) {
-	out.get_schema = (*[0]byte)(C.streamGetSchemaTrampoline)
-	out.get_next = (*[0]byte)(C.streamGetNextTrampoline)
-	out.get_last_error = (*[0]byte)(C.streamGetError)
-	out.release = (*[0]byte)(C.streamRelease)
-	rdr.Retain()
-	h := cgo.NewHandle(cRecordReader{rdr: rdr, err: nil})
-	out.private_data = createHandle(h)
-}
diff --git a/go/arrow/cdata/import_allocator.go b/go/arrow/cdata/import_allocator.go
deleted file mode 100644
index 4e5c2a7b38c72..0000000000000
--- a/go/arrow/cdata/import_allocator.go
+++ /dev/null
@@ -1,58 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package cdata
-
-import (
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-// #include "arrow/c/helpers.h"
-// #include <stdlib.h>
-import "C"
-
-type importAllocator struct {
-	bufCount int64
-
-	arr *CArrowArray
-}
-
-func (i *importAllocator) addBuffer() {
-	atomic.AddInt64(&i.bufCount, 1)
-}
-
-func (*importAllocator) Allocate(int) []byte {
-	panic("cannot allocate from importAllocator")
-}
-
-func (*importAllocator) Reallocate(int, []byte) []byte {
-	panic("cannot reallocate from importAllocator")
-}
-
-func (i *importAllocator) Free([]byte) {
-	debug.Assert(atomic.LoadInt64(&i.bufCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&i.bufCount, -1) == 0 {
-		defer C.free(unsafe.Pointer(i.arr))
-		C.ArrowArrayRelease(i.arr)
-		if C.ArrowArrayIsReleased(i.arr) != 1 {
-			panic("did not release C mem")
-		}
-	}
-}
diff --git a/go/arrow/cdata/interface.go b/go/arrow/cdata/interface.go
deleted file mode 100644
index 005dda73ff0ec..0000000000000
--- a/go/arrow/cdata/interface.go
+++ /dev/null
@@ -1,284 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo
-// +build cgo
-
-package cdata
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/xerrors"
-)
-
-// SchemaFromPtr is a simple helper function to cast a uintptr to a *CArrowSchema
-func SchemaFromPtr(ptr uintptr) *CArrowSchema { return (*CArrowSchema)(unsafe.Pointer(ptr)) }
-
-// ArrayFromPtr is a simple helper function to cast a uintptr to a *CArrowArray
-func ArrayFromPtr(ptr uintptr) *CArrowArray { return (*CArrowArray)(unsafe.Pointer(ptr)) }
-
-// ImportCArrowField takes in an ArrowSchema from the C Data interface, it
-// will copy the metadata and type definitions rather than keep direct references
-// to them. It is safe to call C.ArrowSchemaRelease after receiving the field
-// from this function.
-func ImportCArrowField(out *CArrowSchema) (arrow.Field, error) {
-	return importSchema(out)
-}
-
-// ImportCArrowSchema takes in the ArrowSchema from the C Data Interface, it
-// will copy the metadata and schema definitions over from the C object rather
-// than keep direct references to them. This function will call ArrowSchemaRelease
-// on the passed in schema regardless of whether or not there is an error returned.
-//
-// This version is intended to take in a schema for a record batch, which means
-// that the top level of the schema should be a struct of the schema fields. If
-// importing a single array's schema, then use ImportCArrowField instead.
-func ImportCArrowSchema(out *CArrowSchema) (*arrow.Schema, error) {
-	ret, err := importSchema(out)
-	if err != nil {
-		return nil, err
-	}
-
-	return arrow.NewSchema(ret.Type.(*arrow.StructType).Fields(), &ret.Metadata), nil
-}
-
-// ImportCArrayWithType takes a pointer to a C Data ArrowArray and interprets the values
-// as an array with the given datatype. If err is not nil, then ArrowArrayRelease must still
-// be called on arr to release the memory.
-//
-// The underlying buffers will not be copied, but will instead be referenced directly
-// by the resulting array interface object. The passed in ArrowArray will have it's ownership
-// transferred to the resulting arrow.Array via ArrowArrayMove. The underlying array.Data
-// object that is owned by the Array will now be the owner of the memory pointer and
-// will call ArrowArrayRelease when it is released and garbage collected via runtime.SetFinalizer.
-//
-// NOTE: The array takes ownership of the underlying memory buffers via ArrowArrayMove,
-// it does not take ownership of the actual arr object itself.
-func ImportCArrayWithType(arr *CArrowArray, dt arrow.DataType) (arrow.Array, error) {
-	imp, err := importCArrayAsType(arr, dt)
-	if err != nil {
-		return nil, err
-	}
-	defer imp.data.Release()
-	return array.MakeFromData(imp.data), nil
-}
-
-// ImportCArray takes a pointer to both a C Data ArrowArray and C Data ArrowSchema in order
-// to import them into usable Go Objects. If err is not nil, then ArrowArrayRelease must still
-// be called on arr to release the memory. The ArrowSchemaRelease will be called on the passed in
-// schema regardless of whether there is an error or not.
-//
-// The Schema will be copied with the information used to populate the returned Field, complete
-// with metadata. The array will reference the same memory that is referred to by the ArrowArray
-// object and take ownership of it as per ImportCArrayWithType. The returned arrow.Array will
-// own the C memory and call ArrowArrayRelease when the array.Data object is cleaned up.
-//
-// NOTE: The array takes ownership of the underlying memory buffers via ArrowArrayMove,
-// it does not take ownership of the actual arr object itself.
-func ImportCArray(arr *CArrowArray, schema *CArrowSchema) (arrow.Field, arrow.Array, error) {
-	field, err := importSchema(schema)
-	if err != nil {
-		return field, nil, err
-	}
-
-	ret, err := ImportCArrayWithType(arr, field.Type)
-	return field, ret, err
-}
-
-// ImportCRecordBatchWithSchema is used for importing a Record Batch array when the schema
-// is already known such as when receiving record batches through a stream.
-//
-// All of the semantics regarding memory ownership are the same as when calling
-// ImportCRecordBatch directly with a schema.
-//
-// NOTE: The array takes ownership of the underlying memory buffers via ArrowArrayMove,
-// it does not take ownership of the actual arr object itself.
-func ImportCRecordBatchWithSchema(arr *CArrowArray, sc *arrow.Schema) (arrow.Record, error) {
-	imp, err := importCArrayAsType(arr, arrow.StructOf(sc.Fields()...))
-	if err != nil {
-		return nil, err
-	}
-	defer imp.data.Release()
-
-	st := array.NewStructData(imp.data)
-	defer st.Release()
-
-	// now that we have our fields, we can split them out into the slice of arrays
-	// and construct a record batch from them to return.
-	cols := make([]arrow.Array, st.NumField())
-	for i := 0; i < st.NumField(); i++ {
-		cols[i] = st.Field(i)
-	}
-
-	return array.NewRecord(sc, cols, int64(st.Len())), nil
-}
-
-// ImportCRecordBatch imports an ArrowArray from C as a record batch. If err is not nil,
-// then ArrowArrayRelease must still be called to release the memory.
-//
-// A record batch is represented in the C Data Interface as a Struct Array whose fields
-// are the columns of the record batch. Thus after importing the schema passed in here,
-// if it is not a Struct type, this will return an error. As with ImportCArray, the
-// columns in the record batch will take ownership of the CArrowArray memory if successful.
-// Since ArrowArrayMove is used, it's still safe to call ArrowArrayRelease on the source
-// regardless. But if there is an error, it *MUST* be called to ensure there is no memory leak.
-//
-// NOTE: The array takes ownership of the underlying memory buffers via ArrowArrayMove,
-// it does not take ownership of the actual arr object itself.
-func ImportCRecordBatch(arr *CArrowArray, sc *CArrowSchema) (arrow.Record, error) {
-	field, err := importSchema(sc)
-	if err != nil {
-		return nil, err
-	}
-
-	if field.Type.ID() != arrow.STRUCT {
-		return nil, xerrors.New("recordbatch array import must be of struct type")
-	}
-
-	return ImportCRecordBatchWithSchema(arr, arrow.NewSchema(field.Type.(*arrow.StructType).Fields(), &field.Metadata))
-}
-
-// ImportCArrayStream creates an arrio.Reader from an ArrowArrayStream taking ownership
-// of the underlying stream object via ArrowArrayStreamMove.
-//
-// The records returned by this reader must be released manually after they are returned.
-// The reader itself will release the stream via SetFinalizer when it is garbage collected.
-// It will return (nil, io.EOF) from the Read function when there are no more records to return.
-//
-// NOTE: The reader takes ownership of the underlying memory buffers via ArrowArrayStreamMove,
-// it does not take ownership of the actual stream object itself.
-//
-// Deprecated: This will panic if importing the schema fails (which is possible).
-// Prefer ImportCRecordReader instead.
-func ImportCArrayStream(stream *CArrowArrayStream, schema *arrow.Schema) arrio.Reader {
-	reader, err := ImportCRecordReader(stream, schema)
-	if err != nil {
-		panic(err)
-	}
-	return reader
-}
-
-// ImportCStreamReader creates an arrio.Reader from an ArrowArrayStream taking ownership
-// of the underlying stream object via ArrowArrayStreamMove.
-//
-// The records returned by this reader must be released manually after they are returned.
-// The reader itself will release the stream via SetFinalizer when it is garbage collected.
-// It will return (nil, io.EOF) from the Read function when there are no more records to return.
-//
-// NOTE: The reader takes ownership of the underlying memory buffers via ArrowArrayStreamMove,
-// it does not take ownership of the actual stream object itself.
-func ImportCRecordReader(stream *CArrowArrayStream, schema *arrow.Schema) (arrio.Reader, error) {
-	out := &nativeCRecordBatchReader{schema: schema}
-	if err := initReader(out, stream); err != nil {
-		return nil, err
-	}
-	return out, nil
-}
-
-// ExportArrowSchema populates the passed in CArrowSchema with the schema passed in so
-// that it can be passed to some consumer of the C Data Interface. The `release` function
-// is tied to a callback in order to properly release any memory that was allocated during
-// the populating of the struct. Any memory allocated will be allocated using malloc
-// which means that it is invisible to the Go Garbage Collector and must be freed manually
-// using the callback on the CArrowSchema object.
-//
-// WARNING: the output ArrowSchema MUST BE ZERO INITIALIZED, or the Go garbage collector
-// may error at runtime, due to CGO rules ("the current implementation may sometimes
-// cause a runtime error if the contents of the C memory appear to be a Go pointer").
-// You have been warned!
-func ExportArrowSchema(schema *arrow.Schema, out *CArrowSchema) {
-	dummy := arrow.Field{Type: arrow.StructOf(schema.Fields()...), Metadata: schema.Metadata()}
-	exportField(dummy, out)
-}
-
-// ExportArrowRecordBatch populates the passed in CArrowArray (and optionally the schema too)
-// by sharing the memory used for the buffers of each column's arrays. It does not
-// copy the data, and will internally increment the reference counters so that releasing
-// the record will not free the memory prematurely.
-//
-// When using CGO, memory passed to C is pinned so that the Go garbage collector won't
-// move where it is allocated out from under the C pointer locations, ensuring the C pointers
-// stay valid. This is only true until the CGO call returns, at which point the garbage collector
-// is free to move things around again. As a result, if the function you're calling is going to
-// hold onto the pointers or otherwise continue to reference the memory *after* the call returns,
-// you should use the CgoArrowAllocator rather than the GoAllocator (or DefaultAllocator) so that
-// the memory which is allocated for the record batch in the first place is allocated in C,
-// not by the Go runtime and is therefore not subject to the Garbage collection.
-//
-// The release function on the populated CArrowArray will properly decrease the reference counts,
-// and release the memory if the record has already been released. But since this must be explicitly
-// done, make sure it is released so that you do not create a memory leak.
-//
-// WARNING: the output ArrowArray MUST BE ZERO INITIALIZED, or the Go garbage collector
-// may error at runtime, due to CGO rules ("the current implementation may sometimes
-// cause a runtime error if the contents of the C memory appear to be a Go pointer").
-// You have been warned!
-func ExportArrowRecordBatch(rb arrow.Record, out *CArrowArray, outSchema *CArrowSchema) {
-	children := make([]arrow.ArrayData, rb.NumCols())
-	for i := range rb.Columns() {
-		children[i] = rb.Column(i).Data()
-	}
-
-	data := array.NewData(arrow.StructOf(rb.Schema().Fields()...), int(rb.NumRows()), []*memory.Buffer{nil},
-		children, 0, 0)
-	defer data.Release()
-	arr := array.NewStructData(data)
-	defer arr.Release()
-
-	if outSchema != nil {
-		ExportArrowSchema(rb.Schema(), outSchema)
-	}
-
-	exportArray(arr, out, nil)
-}
-
-// ExportArrowArray populates the CArrowArray that is passed in with the pointers to the memory
-// being used by the arrow.Array passed in, in order to share with zero-copy across the C
-// Data Interface. See the documentation for ExportArrowRecordBatch for details on how to ensure
-// you do not leak memory and prevent unwanted, undefined or strange behaviors.
-//
-// WARNING: the output ArrowArray MUST BE ZERO INITIALIZED, or the Go garbage collector
-// may error at runtime, due to CGO rules ("the current implementation may sometimes
-// cause a runtime error if the contents of the C memory appear to be a Go pointer").
-// You have been warned!
-func ExportArrowArray(arr arrow.Array, out *CArrowArray, outSchema *CArrowSchema) {
-	exportArray(arr, out, outSchema)
-}
-
-// ExportRecordReader populates the CArrowArrayStream that is passed in with the appropriate
-// callbacks to be a working ArrowArrayStream utilizing the passed in RecordReader. The
-// CArrowArrayStream takes ownership of the RecordReader until the consumer calls the release
-// callback, as such it is unnecessary to call Release on the passed in reader unless it has
-// previously been retained.
-//
-// WARNING: the output ArrowArrayStream MUST BE ZERO INITIALIZED, or the Go garbage
-// collector may error at runtime, due to CGO rules ("the current implementation may
-// sometimes cause a runtime error if the contents of the C memory appear to be a Go
-// pointer").  You have been warned!
-func ExportRecordReader(reader array.RecordReader, out *CArrowArrayStream) {
-	exportStream(reader, out)
-}
-
-// ReleaseCArrowArray calls ArrowArrayRelease on the passed in cdata array
-func ReleaseCArrowArray(arr *CArrowArray) { releaseArr(arr) }
-
-// ReleaseCArrowSchema calls ArrowSchemaRelease on the passed in cdata schema
-func ReleaseCArrowSchema(schema *CArrowSchema) { releaseSchema(schema) }
diff --git a/go/arrow/cdata/test/test_cimport.go b/go/arrow/cdata/test/test_cimport.go
deleted file mode 100644
index 5315853fc59ca..0000000000000
--- a/go/arrow/cdata/test/test_cimport.go
+++ /dev/null
@@ -1,178 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cdata_test
-// +build cdata_test
-
-package main
-
-import (
-	"fmt"
-	"runtime"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/cdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// #include <stdint.h>
-import "C"
-
-var alloc = memory.NewCheckedAllocator(memory.NewGoAllocator())
-
-//export totalAllocated
-func totalAllocated() int64 {
-	return int64(alloc.CurrentAlloc())
-}
-
-//export runGC
-func runGC() {
-	runtime.GC()
-}
-
-//export importSchema
-func importSchema(ptr uintptr) {
-	schema, err := cdata.ImportCArrowSchema(cdata.SchemaFromPtr(ptr))
-	if err != nil {
-		panic(err)
-	}
-
-	expectedMetadata := arrow.NewMetadata([]string{"key1"}, []string{"value1"})
-	expectedSchema := arrow.NewSchema([]arrow.Field{{Name: "ints", Type: arrow.ListOf(arrow.PrimitiveTypes.Int32), Nullable: true}}, &expectedMetadata)
-	if !schema.Equal(expectedSchema) {
-		panic(fmt.Sprintf("schema didn't match: expected %s, got %s", expectedSchema, schema))
-	}
-	if !schema.Metadata().Equal(expectedMetadata) {
-		panic(fmt.Sprintf("metadata didn't match: expected %s, got %s", expectedMetadata, schema.Metadata()))
-	}
-
-	fmt.Println("schema matches! Huzzah!")
-}
-
-//export importRecordBatch
-func importRecordBatch(scptr, rbptr uintptr) {
-	sc := cdata.SchemaFromPtr(scptr)
-	rb := cdata.ArrayFromPtr(rbptr)
-
-	rec, err := cdata.ImportCRecordBatch(rb, sc)
-	if err != nil {
-		panic(err)
-	}
-	defer rec.Release()
-
-	expectedMetadata := arrow.NewMetadata([]string{"key1"}, []string{"value1"})
-	expectedSchema := arrow.NewSchema([]arrow.Field{{Name: "ints", Type: arrow.ListOf(arrow.PrimitiveTypes.Int32), Nullable: true}}, &expectedMetadata)
-
-	bldr := array.NewRecordBuilder(alloc, expectedSchema)
-	defer bldr.Release()
-
-	lb := bldr.Field(0).(*array.ListBuilder)
-	vb := lb.ValueBuilder().(*array.Int32Builder)
-
-	// [[[1], [], None [2, 42]]]
-	lb.Append(true)
-	vb.Append(int32(1))
-
-	lb.Append(true)
-	lb.Append(false)
-
-	lb.Append(true)
-	vb.AppendValues([]int32{2, 42}, nil)
-
-	expectedRec := bldr.NewRecord()
-	defer expectedRec.Release()
-
-	if !array.RecordEqual(expectedRec, rec) {
-		panic(fmt.Sprintf("records didn't match: expected %s\n got %s", expectedRec, rec))
-	}
-
-	fmt.Println("record batch matches huzzah!")
-}
-
-func makeSchema() *arrow.Schema {
-	meta := arrow.NewMetadata([]string{"key1"}, []string{"value1"})
-	return arrow.NewSchema([]arrow.Field{
-		{Name: "ints", Type: arrow.ListOf(arrow.PrimitiveTypes.Int32), Nullable: true},
-	}, &meta)
-}
-
-func makeBatch() arrow.Record {
-	bldr := array.NewRecordBuilder(alloc, makeSchema())
-	defer bldr.Release()
-
-	fbldr := bldr.Field(0).(*array.ListBuilder)
-	valbldr := fbldr.ValueBuilder().(*array.Int32Builder)
-
-	fbldr.Append(true)
-	valbldr.Append(1)
-
-	fbldr.Append(true)
-	fbldr.AppendNull()
-	fbldr.Append(true)
-	valbldr.Append(2)
-	valbldr.Append(42)
-
-	return bldr.NewRecord()
-}
-
-//export exportSchema
-func exportSchema(schema uintptr) {
-	cdata.ExportArrowSchema(makeSchema(), cdata.SchemaFromPtr(schema))
-}
-
-//export exportRecordBatch
-func exportRecordBatch(schema, record uintptr) {
-	batch := makeBatch()
-	defer batch.Release()
-
-	cdata.ExportArrowRecordBatch(batch, cdata.ArrayFromPtr(record), cdata.SchemaFromPtr(schema))
-}
-
-//export importThenExportSchema
-func importThenExportSchema(input, output uintptr) {
-	schema, err := cdata.ImportCArrowSchema(cdata.SchemaFromPtr(input))
-	if err != nil {
-		panic(err)
-	}
-
-	cdata.ExportArrowSchema(schema, cdata.SchemaFromPtr(output))
-}
-
-//export importThenExportRecord
-func importThenExportRecord(schemaIn, arrIn uintptr, schemaOut, arrOut uintptr) {
-	rec, err := cdata.ImportCRecordBatch(cdata.ArrayFromPtr(arrIn), cdata.SchemaFromPtr(schemaIn))
-	if err != nil {
-		panic(err)
-	}
-
-	defer rec.Release()
-	cdata.ExportArrowRecordBatch(rec, cdata.ArrayFromPtr(arrOut), cdata.SchemaFromPtr(schemaOut))
-}
-
-//export roundtripArray
-func roundtripArray(arrIn, schema, arrOut uintptr) {
-	_, arr, err := cdata.ImportCArray(cdata.ArrayFromPtr(arrIn), cdata.SchemaFromPtr(schema))
-	if err != nil {
-		panic(err)
-	}
-	defer arr.Release()
-
-	outArr := cdata.ArrayFromPtr(arrOut)
-	cdata.ExportArrowArray(arr, outArr, nil)
-}
-
-func main() {}
diff --git a/go/arrow/cdata/test/test_export_to_cgo.py b/go/arrow/cdata/test/test_export_to_cgo.py
deleted file mode 100644
index 4b669f6424437..0000000000000
--- a/go/arrow/cdata/test/test_export_to_cgo.py
+++ /dev/null
@@ -1,230 +0,0 @@
-#!/usr/bin/env python3
-#
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-import contextlib
-import gc
-import os
-import unittest
-
-import pyarrow as pa
-from pyarrow.cffi import ffi
-
-
-def load_cgotest():
-    # XXX what about Darwin?
-    libext = 'so'
-    if os.name == 'nt':
-        libext = 'dll'
-
-    ffi.cdef(
-        """
-        long long totalAllocated();
-        void importSchema(uintptr_t ptr);
-        void importRecordBatch(uintptr_t scptr, uintptr_t rbptr);
-        void runGC();
-        void exportSchema(uintptr_t ptr);
-        void exportRecordBatch(uintptr_t schema, uintptr_t record);
-        void importThenExportSchema(uintptr_t input, uintptr_t output);
-        void importThenExportRecord(uintptr_t schemaIn, uintptr_t arrIn, 
-                                    uintptr_t schemaOut, uintptr_t arrOut);
-        void roundtripArray(uintptr_t arrIn, uintptr_t schema, uintptr_t arrOut);
-        """)
-    return ffi.dlopen(f'./cgotest.{libext}')
-
-
-cgotest = load_cgotest()
-
-class BaseTestGoPython(unittest.TestCase):
-    def setUp(self):
-        self.c_schema = ffi.new("struct ArrowSchema*")
-        self.ptr_schema = int(ffi.cast("uintptr_t", self.c_schema))
-        self.c_array = ffi.new("struct ArrowArray*")
-        self.ptr_array = int(ffi.cast("uintptr_t", self.c_array))
-
-    def make_schema(self):
-        return pa.schema([('ints', pa.list_(pa.int32()))],
-                         metadata={b'key1': b'value1'})
-
-    def make_batch(self):
-        return pa.record_batch([[[1], [], None, [2, 42]]],
-                               self.make_schema())
-
-    def run_gc(self):
-        # Several Go GC runs can be required to run all finalizers
-        for i in range(5):
-            cgotest.runGC()
-        gc.collect()
-
-    @contextlib.contextmanager
-    def assert_pyarrow_memory_released(self):
-        self.run_gc()
-        old_allocated = pa.total_allocated_bytes()
-        old_go_allocated = cgotest.totalAllocated()
-        yield
-        self.run_gc()
-        diff = pa.total_allocated_bytes() - old_allocated
-        godiff = cgotest.totalAllocated() - old_go_allocated
-        self.assertEqual(
-            pa.total_allocated_bytes(), old_allocated,
-            f"PyArrow memory was not adequately released: {diff} bytes lost")
-        self.assertEqual(
-            cgotest.totalAllocated(), old_go_allocated,
-            f"Go memory was not properly released: {godiff} bytes lost")
-        
-
-class TestPythonToGo(BaseTestGoPython):
-    
-    def test_schema(self):
-        with self.assert_pyarrow_memory_released():
-            self.make_schema()._export_to_c(self.ptr_schema)
-            # Will panic if expectations are not met
-            cgotest.importSchema(self.ptr_schema)
-
-    def test_record_batch(self):
-        with self.assert_pyarrow_memory_released():
-            self.make_schema()._export_to_c(self.ptr_schema)
-            self.make_batch()._export_to_c(self.ptr_array)
-            # Will panic if expectations are not met
-            cgotest.importRecordBatch(self.ptr_schema, self.ptr_array)
-
-
-class TestGoToPython(BaseTestGoPython):
-
-    def test_get_schema(self):
-        with self.assert_pyarrow_memory_released():
-            cgotest.exportSchema(self.ptr_schema)
-
-            sc = pa.Schema._import_from_c(self.ptr_schema)
-            assert sc == self.make_schema()
-    
-    def test_get_batch(self):
-        with self.assert_pyarrow_memory_released():
-            cgotest.exportRecordBatch(self.ptr_schema, self.ptr_array)
-            arrnew = pa.RecordBatch._import_from_c(self.ptr_array, self.ptr_schema)
-            assert arrnew == self.make_batch()
-            del arrnew
-    
-class TestRoundTrip(BaseTestGoPython):
-
-    def test_schema_roundtrip(self):
-        with self.assert_pyarrow_memory_released():
-            # make sure that Python -> Go -> Python ends up with
-            # the same exact schema
-            schema = self.make_schema()
-            schema._export_to_c(self.ptr_schema)
-            del schema
-            
-            c_schema = ffi.new("struct ArrowSchema*")
-            ptr_schema = int(ffi.cast("uintptr_t", c_schema))
-
-            cgotest.importThenExportSchema(self.ptr_schema, ptr_schema)
-            schema_new = pa.Schema._import_from_c(ptr_schema)
-            assert schema_new == self.make_schema()
-            del c_schema
-
-    def test_batch_roundtrip(self):
-        with self.assert_pyarrow_memory_released():
-            # make sure that Python -> Go -> Python for record
-            # batches works correctly and gets the same data in the end
-            schema = self.make_schema()
-            batch = self.make_batch()
-            schema._export_to_c(self.ptr_schema)
-            batch._export_to_c(self.ptr_array)
-            del schema
-            del batch
-
-            c_schema = ffi.new("struct ArrowSchema*")
-            c_batch = ffi.new("struct ArrowArray*")
-            ptr_schema = int(ffi.cast("uintptr_t", c_schema))
-            ptr_batch = int(ffi.cast("uintptr_t", c_batch))
-
-            cgotest.importThenExportRecord(self.ptr_schema, self.ptr_array, 
-                                           ptr_schema, ptr_batch)
-            batch_new = pa.RecordBatch._import_from_c(ptr_batch, ptr_schema)
-            assert batch_new == self.make_batch()
-            del batch_new
-            del c_schema
-            del c_batch
-
-    # commented out types can be uncommented after
-    # GH-14875 is addressed
-    _test_pyarrow_types = [
-        pa.null(),
-        pa.bool_(),
-        pa.int32(),
-        pa.time32("s"),
-        pa.time64("us"),
-        pa.date32(),
-        pa.timestamp("us"),
-        pa.timestamp("us", tz="UTC"),
-        pa.timestamp("us", tz="Europe/Paris"),
-        pa.duration("s"),
-        pa.duration("ms"),
-        pa.duration("us"),
-        pa.duration("ns"),
-        pa.float16(),
-        pa.float32(),
-        pa.float64(),
-        pa.decimal128(19, 4),        
-        pa.string(),
-        pa.binary(),
-        pa.binary(10),
-        pa.large_string(),
-        pa.large_binary(),
-        pa.list_(pa.int32()),
-        pa.list_(pa.int32(), 2),
-        pa.large_list(pa.uint16()),
-        pa.struct([
-            pa.field("a", pa.int32()),
-            pa.field("b", pa.int8()),
-            pa.field("c", pa.string()),
-        ]),
-        pa.struct([
-            pa.field("a", pa.int32(), nullable=False),
-            pa.field("b", pa.int8(), nullable=False),
-            pa.field("c", pa.string()),
-        ]),
-        pa.dictionary(pa.int8(), pa.int64()),
-        pa.dictionary(pa.int8(), pa.string()),
-        pa.map_(pa.string(), pa.int32()),
-        pa.map_(pa.int64(), pa.int32()),
-        # pa.run_end_encoded(pa.int16(), pa.int64()),
-    ]
-
-    def test_empty_roundtrip(self):
-        for typ in self._test_pyarrow_types:
-            with self.subTest(typ=typ):
-                with self.assert_pyarrow_memory_released():
-                    a = pa.array([], typ)
-                    a._export_to_c(self.ptr_array)
-                    typ._export_to_c(self.ptr_schema)
-                    
-                    c_arr = ffi.new("struct ArrowArray*")
-                    ptr_arr = int(ffi.cast("uintptr_t", c_arr))
-
-                    cgotest.roundtripArray(self.ptr_array, self.ptr_schema, ptr_arr)
-                    b = pa.Array._import_from_c(ptr_arr, typ)
-                    b.validate(full=True)
-                    assert a.to_pylist() == b.to_pylist()
-                    assert a.type == b.type
-                    del a
-                    del b
-
-if __name__ == '__main__':
-    unittest.main(verbosity=2)
diff --git a/go/arrow/cdata/trampoline.c b/go/arrow/cdata/trampoline.c
deleted file mode 100644
index 01db13fab4845..0000000000000
--- a/go/arrow/cdata/trampoline.c
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <string.h>
-
-#include "arrow/c/abi.h"
-
-int streamGetSchema(struct ArrowArrayStream*, struct ArrowSchema*);
-int streamGetNext(struct ArrowArrayStream*, struct ArrowArray*);
-
-int streamGetSchemaTrampoline(struct ArrowArrayStream* stream, struct ArrowSchema* out) {
-  // XXX(https://github.com/apache/arrow-adbc/issues/729)
-  memset(out, 0, sizeof(*out));
-  return streamGetSchema(stream, out);
-}
-
-int streamGetNextTrampoline(struct ArrowArrayStream* stream, struct ArrowArray* out) {
-  // XXX(https://github.com/apache/arrow-adbc/issues/729)
-  memset(out, 0, sizeof(*out));
-  return streamGetNext(stream, out);
-}
diff --git a/go/arrow/cdata/utils.h b/go/arrow/cdata/utils.h
deleted file mode 100644
index dda46b72b728b..0000000000000
--- a/go/arrow/cdata/utils.h
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build cgo
-// +build test
-
-// metadata keys 1: {"key1", "key2"}
-// metadata values 1: {"", "bar"}
-static const char kEncodedMeta1LE[] = {
-    2, 0, 0, 0,
-    4, 0, 0, 0, 'k', 'e', 'y', '1', 0, 0, 0, 0,
-    4, 0, 0, 0, 'k', 'e', 'y', '2', 3, 0, 0, 0, 'b', 'a', 'r'};
-
-static const char kEncodedMeta1BE[] = {
-    0, 0, 0, 2,
-    0, 0, 0, 4, 'k', 'e', 'y', '1', 0, 0, 0, 0,
-    0, 0, 0, 4, 'k', 'e', 'y', '2', 0, 0, 0, 3, 'b', 'a', 'r'};
-
-static const char* kMetadataKeys2[] = {"key"};
-static const char* kMetadataValues2[] = {"abcde"};
-
-// metadata keys 2: {"key"}
-// metadata values 2: {"abcde"}
-static const char kEncodedMeta2LE[] = {
-    1, 0, 0, 0,
-    3, 0, 0, 0, 'k', 'e', 'y', 5, 0, 0, 0, 'a', 'b', 'c', 'd', 'e'};
-
-static const char kEncodedMeta2BE[] = {
-    0, 0, 0, 1,
-    0, 0, 0, 3, 'k', 'e', 'y', 0, 0, 0, 5, 'a', 'b', 'c', 'd', 'e'};
-
-
diff --git a/go/arrow/compare.go b/go/arrow/compare.go
deleted file mode 100644
index 58569b332c4f1..0000000000000
--- a/go/arrow/compare.go
+++ /dev/null
@@ -1,153 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"reflect"
-)
-
-type typeEqualsConfig struct {
-	metadata bool
-}
-
-// TypeEqualOption is a functional option type used for configuring type
-// equality checks.
-type TypeEqualOption func(*typeEqualsConfig)
-
-// CheckMetadata is an option for TypeEqual that allows checking for metadata
-// equality besides type equality. It only makes sense for types with metadata.
-func CheckMetadata() TypeEqualOption {
-	return func(cfg *typeEqualsConfig) {
-		cfg.metadata = true
-	}
-}
-
-// TypeEqual checks if two DataType are the same, optionally checking metadata
-// equality for STRUCT types.
-func TypeEqual(left, right DataType, opts ...TypeEqualOption) bool {
-	var cfg typeEqualsConfig
-	for _, opt := range opts {
-		opt(&cfg)
-	}
-
-	switch {
-	case left == nil || right == nil:
-		return left == nil && right == nil
-	case left.ID() != right.ID():
-		return false
-	}
-
-	switch l := left.(type) {
-	case ExtensionType:
-		return l.ExtensionEquals(right.(ExtensionType))
-	case *ListType:
-		if !TypeEqual(l.Elem(), right.(*ListType).Elem(), opts...) {
-			return false
-		}
-		if cfg.metadata && !l.elem.Metadata.Equal(right.(*ListType).elem.Metadata) {
-			return false
-		}
-		return l.elem.Nullable == right.(*ListType).elem.Nullable
-	case *FixedSizeListType:
-		if !TypeEqual(l.Elem(), right.(*FixedSizeListType).Elem(), opts...) {
-			return false
-		}
-		if cfg.metadata && !l.elem.Metadata.Equal(right.(*FixedSizeListType).elem.Metadata) {
-			return false
-		}
-		return l.n == right.(*FixedSizeListType).n && l.elem.Nullable == right.(*FixedSizeListType).elem.Nullable
-	case *MapType:
-		if !TypeEqual(l.KeyType(), right.(*MapType).KeyType(), opts...) {
-			return false
-		}
-		if !TypeEqual(l.ItemType(), right.(*MapType).ItemType(), opts...) {
-			return false
-		}
-		if l.KeyField().Nullable != right.(*MapType).KeyField().Nullable {
-			return false
-		}
-		if l.ItemField().Nullable != right.(*MapType).ItemField().Nullable {
-			return false
-		}
-		if cfg.metadata {
-			if !l.KeyField().Metadata.Equal(right.(*MapType).KeyField().Metadata) {
-				return false
-			}
-			if !l.ItemField().Metadata.Equal(right.(*MapType).ItemField().Metadata) {
-				return false
-			}
-		}
-		return true
-	case *StructType:
-		r := right.(*StructType)
-		switch {
-		case len(l.fields) != len(r.fields):
-			return false
-		case !reflect.DeepEqual(l.index, r.index):
-			return false
-		}
-		for i := range l.fields {
-			leftField, rightField := l.fields[i], r.fields[i]
-			switch {
-			case leftField.Name != rightField.Name:
-				return false
-			case leftField.Nullable != rightField.Nullable:
-				return false
-			case !TypeEqual(leftField.Type, rightField.Type, opts...):
-				return false
-			case cfg.metadata && !leftField.Metadata.Equal(rightField.Metadata):
-				return false
-			}
-		}
-		return true
-	case UnionType:
-		r := right.(UnionType)
-		if l.Mode() != r.Mode() {
-			return false
-		}
-
-		if !reflect.DeepEqual(l.ChildIDs(), r.ChildIDs()) {
-			return false
-		}
-
-		for i := range l.Fields() {
-			leftField, rightField := l.Fields()[i], r.Fields()[i]
-			switch {
-			case leftField.Name != rightField.Name:
-				return false
-			case leftField.Nullable != rightField.Nullable:
-				return false
-			case !TypeEqual(leftField.Type, rightField.Type, opts...):
-				return false
-			case cfg.metadata && !leftField.Metadata.Equal(rightField.Metadata):
-				return false
-			case l.TypeCodes()[i] != r.TypeCodes()[i]:
-				return false
-			}
-		}
-		return true
-	case *TimestampType:
-		r := right.(*TimestampType)
-		return l.Unit == r.Unit && l.TimeZone == r.TimeZone
-	case *RunEndEncodedType:
-		r := right.(*RunEndEncodedType)
-		return TypeEqual(l.Encoded(), r.Encoded(), opts...) &&
-			TypeEqual(l.runEnds, r.runEnds, opts...)
-	default:
-		return reflect.DeepEqual(left, right)
-	}
-}
diff --git a/go/arrow/compare_test.go b/go/arrow/compare_test.go
deleted file mode 100644
index ca87621eadcb9..0000000000000
--- a/go/arrow/compare_test.go
+++ /dev/null
@@ -1,397 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"testing"
-	"time"
-)
-
-func TestTypeEqual(t *testing.T) {
-	tests := []struct {
-		left, right   DataType
-		want          bool
-		checkMetadata bool
-	}{
-		{
-			nil, nil, true, false,
-		},
-		{
-			nil, PrimitiveTypes.Uint8, false, false,
-		},
-		{
-			PrimitiveTypes.Float32, nil, false, false,
-		},
-		{
-			PrimitiveTypes.Float64, PrimitiveTypes.Int32, false, false,
-		},
-		{
-			Null, Null, true, false,
-		},
-		{
-			Null, new(NullType), true, false,
-		},
-		{
-			&BinaryType{}, &StringType{}, false, false,
-		},
-		{
-			&LargeBinaryType{}, &LargeStringType{}, false, false,
-		},
-		{
-			BinaryTypes.LargeBinary, &LargeBinaryType{}, true, false,
-		},
-		{
-			BinaryTypes.LargeString, &LargeStringType{}, true, false,
-		},
-		{
-			&Time32Type{Unit: Second}, &Time32Type{Unit: Second}, true, false,
-		},
-		{
-			&Time32Type{Unit: Millisecond}, &Time32Type{Unit: Second}, false, false,
-		},
-		{
-			&Time64Type{Unit: Nanosecond}, &Time64Type{Unit: Nanosecond}, true, false,
-		},
-		{
-			&Time64Type{Unit: Nanosecond}, &Time64Type{Unit: Microsecond}, false, false,
-		},
-		{
-			&TimestampType{Unit: Second, TimeZone: "UTC"}, &TimestampType{Unit: Second, TimeZone: "UTC"}, true, false,
-		},
-		{
-			&TimestampType{Unit: Microsecond, TimeZone: "UTC"}, &TimestampType{Unit: Millisecond, TimeZone: "UTC"}, false, false,
-		},
-		{
-			&TimestampType{Unit: Second, TimeZone: "UTC"}, &TimestampType{Unit: Second, TimeZone: "CET"}, false, false,
-		},
-		{
-			&TimestampType{Unit: Second, TimeZone: "UTC"}, &TimestampType{Unit: Nanosecond, TimeZone: "CET"}, false, false,
-		},
-		{
-			&ListType{elem: Field{Type: PrimitiveTypes.Uint64}}, &ListType{elem: Field{Type: PrimitiveTypes.Uint64}}, true, false,
-		},
-		{
-			&ListType{elem: Field{Type: PrimitiveTypes.Uint64}}, &ListType{elem: Field{Type: PrimitiveTypes.Uint32}}, false, false,
-		},
-		{
-			&ListType{elem: Field{Type: &Time32Type{Unit: Millisecond}}}, &ListType{elem: Field{Type: &Time32Type{Unit: Millisecond}}}, true, false,
-		},
-		{
-			&ListType{elem: Field{Type: &Time32Type{Unit: Millisecond}}}, &ListType{elem: Field{Type: &Time32Type{Unit: Second}}}, false, false,
-		},
-		{
-			&ListType{elem: Field{Type: &ListType{elem: Field{Type: PrimitiveTypes.Uint16}}}}, &ListType{elem: Field{Type: &ListType{elem: Field{Type: PrimitiveTypes.Uint16}}}}, true, false,
-		},
-		{
-			&ListType{elem: Field{Type: &ListType{elem: Field{Type: PrimitiveTypes.Uint16}}}}, &ListType{elem: Field{Type: &ListType{elem: Field{Type: PrimitiveTypes.Uint8}}}}, false, false,
-		},
-		{
-			&ListType{elem: Field{Type: &ListType{elem: Field{Type: &ListType{elem: Field{Type: PrimitiveTypes.Uint16}}}}}}, &ListType{elem: Field{Type: &ListType{elem: Field{Type: PrimitiveTypes.Uint8}}}}, false, false,
-		},
-		{
-			&ListType{elem: Field{Type: PrimitiveTypes.Uint64, Nullable: true}}, &ListType{elem: Field{Type: PrimitiveTypes.Uint64, Nullable: false}}, false, true,
-		},
-		{
-			&FixedSizeListType{n: 2, elem: Field{Type: PrimitiveTypes.Uint64, Nullable: false}}, &FixedSizeListType{n: 3, elem: Field{Type: PrimitiveTypes.Uint64, Nullable: false}}, false, true,
-		},
-		{
-			&FixedSizeListType{n: 2, elem: Field{Type: PrimitiveTypes.Uint64, Nullable: false}}, &FixedSizeListType{n: 2, elem: Field{Type: PrimitiveTypes.Uint64, Nullable: false}}, true, true,
-		},
-		{
-			&FixedSizeListType{n: 2, elem: Field{Type: PrimitiveTypes.Uint64, Nullable: false}}, &FixedSizeListType{n: 2, elem: Field{Type: PrimitiveTypes.Uint64, Nullable: true}}, false, true,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			false, true,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			false, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f0", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f0": {0}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			false, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			false, true,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			false, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f2", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f2": {0}},
-			},
-			false, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			true, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			true, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-				meta:  MetadataFrom(map[string]string{"k1": "v1", "k2": "v2"}),
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-				meta:  MetadataFrom(map[string]string{"k2": "v2", "k1": "v1"}),
-			},
-			true, true,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-				meta:  MetadataFrom(map[string]string{"k1": "v1"}),
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0}},
-				meta:  MetadataFrom(map[string]string{"k1": "v2"}),
-			},
-			true, false,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true, Metadata: MetadataFrom(map[string]string{"k1": "v1"})},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true, Metadata: MetadataFrom(map[string]string{"k1": "v2"})},
-					{Name: "f2", Type: PrimitiveTypes.Float32, Nullable: false},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-			false, true,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0, 1}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0, 1}},
-			},
-			true, true,
-		},
-		{
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0, 1}},
-			},
-			&StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Uint16, Nullable: true},
-					{Name: "f1", Type: PrimitiveTypes.Uint32, Nullable: true},
-				},
-				index: map[string][]int{"f1": {0, 1}},
-			},
-			false, true,
-		},
-		{
-			MapOf(BinaryTypes.String, PrimitiveTypes.Int32),
-			MapOf(BinaryTypes.String, PrimitiveTypes.Int32),
-			true, false,
-		},
-		{
-			MapOf(PrimitiveTypes.Int32, FixedWidthTypes.Timestamp_ns),
-			MapOf(PrimitiveTypes.Int32, FixedWidthTypes.Timestamp_ns),
-			true, false,
-		},
-		{
-			MapOf(BinaryTypes.String, &TimestampType{
-				Unit:     0,
-				TimeZone: "UTC",
-				loc:      time.UTC,
-			}),
-			MapOf(BinaryTypes.String, &TimestampType{
-				Unit:     0,
-				TimeZone: "UTC",
-			}),
-			true, false,
-		},
-		{
-			MapOf(PrimitiveTypes.Int32, FixedWidthTypes.Timestamp_ns),
-			MapOf(PrimitiveTypes.Int32, FixedWidthTypes.Timestamp_us),
-			false, false,
-		},
-		{
-			MapOf(BinaryTypes.String, FixedWidthTypes.Timestamp_ns),
-			MapOf(PrimitiveTypes.Int32, FixedWidthTypes.Timestamp_ns),
-			false, false,
-		},
-		{
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v1"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v1"})),
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v1"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v1"})),
-			true, true,
-		},
-		{
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v1"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v1"})),
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v2"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v2"})),
-			true, false,
-		},
-		{
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v1"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v1"})),
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v1"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v2"})),
-			false, true,
-		},
-		{
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v1"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v1"})),
-			MapOfWithMetadata(BinaryTypes.String, MetadataFrom(map[string]string{"key": "v2"}), FixedWidthTypes.Timestamp_ns, MetadataFrom(map[string]string{"item": "v1"})),
-			false, true,
-		},
-	}
-
-	for _, test := range tests {
-		t.Run("", func(t *testing.T) {
-			var got bool
-			if test.checkMetadata {
-				got = TypeEqual(test.left, test.right, CheckMetadata())
-			} else {
-				got = TypeEqual(test.left, test.right)
-			}
-			if got != test.want {
-				t.Fatalf("TypeEqual(%v, %v, %v): got=%v, want=%v", test.left, test.right, test.checkMetadata, got, test.want)
-			}
-		})
-	}
-}
diff --git a/go/arrow/compute/arithmetic.go b/go/arrow/compute/arithmetic.go
deleted file mode 100644
index 51ca027d53375..0000000000000
--- a/go/arrow/compute/arithmetic.go
+++ /dev/null
@@ -1,1229 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-type (
-	RoundOptions           = kernels.RoundOptions
-	RoundMode              = kernels.RoundMode
-	RoundToMultipleOptions = kernels.RoundToMultipleOptions
-)
-
-const (
-	// Round to nearest integer less than or equal in magnitude (aka "floor")
-	RoundDown = kernels.RoundDown
-	// Round to nearest integer greater than or equal in magnitude (aka "ceil")
-	RoundUp = kernels.RoundUp
-	// Get integral part without fractional digits (aka "trunc")
-	RoundTowardsZero = kernels.TowardsZero
-	// Round negative values with DOWN and positive values with UP
-	RoundTowardsInfinity = kernels.AwayFromZero
-	// Round ties with DOWN (aka "round half towards negative infinity")
-	RoundHalfDown = kernels.HalfDown
-	// Round ties with UP (aka "round half towards positive infinity")
-	RoundHalfUp = kernels.HalfUp
-	// Round ties with TowardsZero (aka "round half away from infinity")
-	RoundHalfTowardsZero = kernels.HalfTowardsZero
-	// Round ties with AwayFromZero (aka "round half towards infinity")
-	RoundHalfTowardsInfinity = kernels.HalfAwayFromZero
-	// Round ties to nearest even integer
-	RoundHalfToEven = kernels.HalfToEven
-	// Round ties to nearest odd integer
-	RoundHalfToOdd = kernels.HalfToOdd
-)
-
-var (
-	DefaultRoundOptions           = RoundOptions{NDigits: 0, Mode: RoundHalfToEven}
-	DefaultRoundToMultipleOptions = RoundToMultipleOptions{
-		Multiple: scalar.NewFloat64Scalar(1), Mode: RoundHalfToEven}
-)
-
-type arithmeticFunction struct {
-	ScalarFunction
-
-	promote decimalPromotion
-}
-
-func (fn *arithmeticFunction) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, fn, opts, -1, args...)
-}
-
-func (fn *arithmeticFunction) checkDecimals(vals ...arrow.DataType) error {
-	if !hasDecimal(vals...) {
-		return nil
-	}
-
-	if len(vals) != 2 {
-		return nil
-	}
-
-	if fn.promote == decPromoteNone {
-		return fmt.Errorf("%w: invalid decimal function: %s", arrow.ErrInvalid, fn.name)
-	}
-
-	return castBinaryDecimalArgs(fn.promote, vals...)
-}
-
-func (fn *arithmeticFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	if err := fn.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	if err := fn.checkDecimals(vals...); err != nil {
-		return nil, err
-	}
-
-	if kn, err := fn.DispatchExact(vals...); err == nil {
-		return kn, nil
-	}
-
-	ensureDictionaryDecoded(vals...)
-
-	// only promote types for binary funcs
-	if len(vals) == 2 {
-		replaceNullWithOtherType(vals...)
-		if unit, istime := commonTemporalResolution(vals...); istime {
-			replaceTemporalTypes(unit, vals...)
-		} else {
-			if dt := commonNumeric(vals...); dt != nil {
-				replaceTypes(dt, vals...)
-			}
-		}
-	}
-
-	return fn.DispatchExact(vals...)
-}
-
-// an arithmetic function which promotes integers and decimal
-// arguments to doubles.
-type arithmeticFloatingPointFunc struct {
-	arithmeticFunction
-}
-
-func (fn *arithmeticFloatingPointFunc) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, fn, opts, -1, args...)
-}
-
-func (fn *arithmeticFloatingPointFunc) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	if err := fn.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	if kn, err := fn.DispatchExact(vals...); err == nil {
-		return kn, nil
-	}
-
-	ensureDictionaryDecoded(vals...)
-
-	if len(vals) == 2 {
-		replaceNullWithOtherType(vals...)
-	}
-
-	for i, v := range vals {
-		if arrow.IsInteger(v.ID()) || arrow.IsDecimal(v.ID()) {
-			vals[i] = arrow.PrimitiveTypes.Float64
-		}
-	}
-
-	if dt := commonNumeric(vals...); dt != nil {
-		replaceTypes(dt, vals...)
-	}
-
-	return fn.DispatchExact(vals...)
-}
-
-// function that promotes only decimal arguments to float64
-type arithmeticDecimalToFloatingPointFunc struct {
-	arithmeticFunction
-}
-
-func (fn *arithmeticDecimalToFloatingPointFunc) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, fn, opts, -1, args...)
-}
-
-func (fn *arithmeticDecimalToFloatingPointFunc) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	if err := fn.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	if kn, err := fn.DispatchExact(vals...); err == nil {
-		return kn, nil
-	}
-
-	ensureDictionaryDecoded(vals...)
-	if len(vals) == 2 {
-		replaceNullWithOtherType(vals...)
-	}
-
-	for i, t := range vals {
-		if arrow.IsDecimal(t.ID()) {
-			vals[i] = arrow.PrimitiveTypes.Float64
-		}
-	}
-
-	if dt := commonNumeric(vals...); dt != nil {
-		replaceTypes(dt, vals...)
-	}
-
-	return fn.DispatchExact(vals...)
-}
-
-// function that promotes only integer arguments to float64
-type arithmeticIntegerToFloatingPointFunc struct {
-	arithmeticFunction
-}
-
-func (fn *arithmeticIntegerToFloatingPointFunc) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, fn, opts, -1, args...)
-}
-
-func (fn *arithmeticIntegerToFloatingPointFunc) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	if err := fn.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	if err := fn.checkDecimals(vals...); err != nil {
-		return nil, err
-	}
-
-	if kn, err := fn.DispatchExact(vals...); err == nil {
-		return kn, nil
-	}
-
-	ensureDictionaryDecoded(vals...)
-	if len(vals) == 2 {
-		replaceNullWithOtherType(vals...)
-	}
-
-	for i, t := range vals {
-		if arrow.IsInteger(t.ID()) {
-			vals[i] = arrow.PrimitiveTypes.Float64
-		}
-	}
-
-	if dt := commonNumeric(vals...); dt != nil {
-		replaceTypes(dt, vals...)
-	}
-
-	return fn.DispatchExact(vals...)
-}
-
-var (
-	absoluteValueUncheckedDoc = FunctionDoc{
-		Summary: "Calculate the absolute value of the argument, element-wise",
-		Description: `Results will wrap around on integer overflow
-Use function "abs" if you want overflows to return an error`,
-		ArgNames: []string{"x"},
-	}
-	absoluteValueDoc = FunctionDoc{
-		Summary: "Calculate the absolute value of the argument element-wise",
-		Description: `This function returns an error on overflow. For a variant that
-won't fail on overflow, use function "abs_unchecked"`,
-		ArgNames: []string{"x"},
-	}
-	addUncheckedDoc = FunctionDoc{
-		Summary: "Add the arguments element-wise",
-		Description: `Results will wrap around on integer overflow
-Use the function "add" if you want overflow to return an error`,
-		ArgNames: []string{"x", "y"},
-	}
-	addDoc = FunctionDoc{
-		Summary: "Add the arguments element-wise",
-		Description: `This function returns an error on overflow.
-For a variant that won't fail on overflow, use function "add_unchecked"`,
-		ArgNames: []string{"x", "y"},
-	}
-	subUncheckedDoc = FunctionDoc{
-		Summary: "Subtract the arguments element-wise",
-		Description: `This Results will wrap around on integer overflow.
-Use the function "sub" if you want overflow to return an error`,
-		ArgNames: []string{"x", "y"},
-	}
-	subDoc = FunctionDoc{
-		Summary: "Subtract the arguments element-wise",
-		Description: `This function returns an error on overflow.
-For a variant that won't fail on overflow, use the function "sub_unchecked"`,
-		ArgNames: []string{"x", "y"},
-	}
-	mulUncheckedDoc = FunctionDoc{
-		Summary: "Multiply the arguments element-wise",
-		Description: `Results will wrap around on integer overflow.
-Use function "multiply" if you want overflow to return an error`,
-		ArgNames: []string{"x", "y"},
-	}
-	mulDoc = FunctionDoc{
-		Summary: "Multiply the arguments element-wise",
-		Description: `This function returns an error on overflow.
-For a variant that won't fail on overflow, use the function
-"multiply_unchecked"`,
-		ArgNames: []string{"x", "y"},
-	}
-	divUncheckedDoc = FunctionDoc{
-		Summary: "Divide the arguments element-wise",
-		Description: `Integer division by zero returns an error. However integer
-overflow wraps around, and floating-point division by zero returns Inf.
-Use the function "divide" if you want to get an error in all the 
-aforementioned cases.`,
-		ArgNames: []string{"dividend", "divisor"},
-	}
-	divDoc = FunctionDoc{
-		Summary: "Divide the arguments element-wise",
-		Description: `An error is returned when trying to divide by zero,
-or when integer overflow is encountered.`,
-		ArgNames: []string{"dividend", "divisor"},
-	}
-	negateUncheckedDoc = FunctionDoc{
-		Summary: "Negate the argument element-wise",
-		Description: `Results will wrap around on integer overflow
-Use function "negate" if you want overflow to return an error`,
-		ArgNames: []string{"x"},
-	}
-	negateDoc = FunctionDoc{
-		Summary: "Negate the argument element-wise",
-		Description: `This function returns an error on overflow. For a variant
-that doesn't fail on overflow, use the function "negate_unchecked".`,
-		ArgNames: []string{"x"},
-	}
-	powUncheckedDoc = FunctionDoc{
-		Summary: "Raise argument to a power element-wise",
-		Description: `Integers to negative integer powers return an error.
-However, integer overflow wraps around. If either base or exponent is null
-the result will be null.`,
-		ArgNames: []string{"base", "exponent"},
-	}
-	powDoc = FunctionDoc{
-		Summary: "Raise argument to a power element-wise",
-		Description: `An error is returned when an integer is raised to a negative
-power or an integer overflow occurs.`,
-		ArgNames: []string{"base", "exponent"},
-	}
-	sqrtUncheckedDoc = FunctionDoc{
-		Summary: "Takes the square root of arguments element-wise",
-		Description: `A negative argument returns an NaN. For a variant that returns
-an error, use function "sqrt"`,
-		ArgNames: []string{"x"},
-	}
-	sqrtDoc = FunctionDoc{
-		Summary: "Takes the square root of arguments element-wise",
-		Description: `A negative argument returns an error. For a variant that
-instead returns NaN, use function "sqrt_unchecked"`,
-		ArgNames: []string{"x"},
-	}
-	signDoc = FunctionDoc{
-		Summary: "Get the signedness of the arguments element-wise",
-		Description: `Output is -1 if <0, 1 if >0 and 0 for 0.
-NaN values return NaN. Integral values return signedness as Int8,
-and floating-point values return it with the same type as the input values.`,
-		ArgNames: []string{"x"},
-	}
-	bitWiseNotDoc = FunctionDoc{
-		Summary:     "Bit-wise negate the arguments element-wise",
-		Description: "Null values return null",
-		ArgNames:    []string{"x"},
-	}
-	bitWiseAndDoc = FunctionDoc{
-		Summary:     "Bit-wise AND the arguments element-wise",
-		Description: "Null values return null",
-		ArgNames:    []string{"x", "y"},
-	}
-	bitWiseOrDoc = FunctionDoc{
-		Summary:     "Bit-wise OR the arguments element-wise",
-		Description: "Null values return null",
-		ArgNames:    []string{"x", "y"},
-	}
-	bitWiseXorDoc = FunctionDoc{
-		Summary:     "Bit-wise XOR the arguments element-wise",
-		Description: "Null values return null",
-		ArgNames:    []string{"x", "y"},
-	}
-	shiftLeftUncheckedDoc = FunctionDoc{
-		Summary: "Left shift `x` by `y`",
-		Description: `The shift operates as if on the two's complement representation
-of the number. In other words, this is equivalent to multiplying "x" by 2
-to the power of "y", even if overflow occurs.
-"x" is returned if "y" (the amount to shift by) is (1) negative or (2)
-greater than or equal to the precision of "x".
-Use function "shift_left" if you want an invalid shift amount to
-return an error.`,
-		ArgNames: []string{"x", "y"},
-	}
-	shiftLeftDoc = FunctionDoc{
-		Summary: "Left shift `x` by `y`",
-		Description: `The shift operates as if on the two's complement representation
-of the number. In other words, this is equivalent to multiplying "x" by 2 
-to the power of "y", even if overflow occurs.
-An error is raised if "y" (the amount to shift by) is (1) negative or (2)
-greater than or equal to the precision of "x".
-See "shift_left_unchecked" for a variant that doesn't fail for an invalid
-shift amount.`,
-		ArgNames: []string{"x", "y"},
-	}
-	shiftRightUncheckedDoc = FunctionDoc{
-		Summary: "Right shift `x` by `y`",
-		Description: `This is equivalent to dividing "x" by 2 to the power "y".
-"x" is returned if "y" (the amount to shift by) is: (1) negative or
-(2) greater than or equal to the precision of "x".
-Use function "shift_right" if you want an invalid 
-shift amount to return an error.`,
-		ArgNames: []string{"x", "y"},
-	}
-	shiftRightDoc = FunctionDoc{
-		Summary: "Right shift `x` by `y`",
-		Description: `This is equivalent to dividing "x" by 2 to the power "y".
-An error is raised if "y" (the amount to shift by) is (1) negative or
-(2) greater than or equal to the precision of "x".
-See "shift_right_unchecked" for a variant that doesn't fail for
-an invalid shift amount.`,
-		ArgNames: []string{"x", "y"},
-	}
-	sinUncheckedDoc = FunctionDoc{
-		Summary: "Compute the sine",
-		Description: `NaN is returned for invalid input values; to raise an error
-instead, see "sin"`,
-		ArgNames: []string{"x"},
-	}
-	sinDoc = FunctionDoc{
-		Summary: "Compute the sine",
-		Description: `Invalid input values raise an error;
-to return NaN instead, see "sin_unchecked".`,
-		ArgNames: []string{"x"},
-	}
-	cosUncheckedDoc = FunctionDoc{
-		Summary: "Compute the cosine",
-		Description: `NaN is returned for invalid input values;
-to raise an error instead, see "cos".`,
-		ArgNames: []string{"x"},
-	}
-	cosDoc = FunctionDoc{
-		Summary: "Compute the cosine",
-		Description: `Infinite values raise an error;
-to return NaN instead, see "cos_unchecked".`,
-		ArgNames: []string{"x"},
-	}
-	tanUncheckedDoc = FunctionDoc{
-		Summary: "Compute the tangent",
-		Description: `NaN is returned for invalid input values;
-to raise an error instead see "tan".`,
-		ArgNames: []string{"x"},
-	}
-	tanDoc = FunctionDoc{
-		Summary: "Compute the tangent",
-		Description: `Infinite values raise an error;
-to return NaN instead, see "tan_unchecked".`,
-		ArgNames: []string{"x"},
-	}
-	asinUncheckedDoc = FunctionDoc{
-		Summary: "Compute the inverse sine",
-		Description: `NaN is returned for invalid input values;
-to raise an error instead, see "asin"`,
-		ArgNames: []string{"x"},
-	}
-	asinDoc = FunctionDoc{
-		Summary: "Compute the inverse sine",
-		Description: `Invalid input values raise an error;
-to return NaN instead see asin_unchecked.`,
-		ArgNames: []string{"x"},
-	}
-	acosUncheckedDoc = FunctionDoc{
-		Summary: "Compute the inverse cosine",
-		Description: `NaN is returned for invalid input values;
-to raise an error instead, see "acos".`,
-		ArgNames: []string{"x"},
-	}
-	acosDoc = FunctionDoc{
-		Summary: "Compute the inverse cosine",
-		Description: `Invalid input values raise an error;
-to return NaN instead, see "acos_unchecked".`,
-		ArgNames: []string{"x"},
-	}
-	atanDoc = FunctionDoc{
-		Summary: "Compute the inverse tangent of x",
-		Description: `The return value is in the range [-pi/2, pi/2];
-for a full return range [-pi, pi], see "atan2"`,
-		ArgNames: []string{"x"},
-	}
-	atan2Doc = FunctionDoc{
-		Summary:     "Compute the inverse tangent of y/x",
-		Description: "The return value is in the range [-pi, pi].",
-		ArgNames:    []string{"y", "x"},
-	}
-	lnUncheckedDoc = FunctionDoc{
-		Summary: "Compute natural logarithm",
-		Description: `Non-positive values return -Inf or NaN. Null values return null.
-Use function "ln" if you want non-positive values to raise an error.`,
-		ArgNames: []string{"x"},
-	}
-	lnDoc = FunctionDoc{
-		Summary: "Compute natural logarithm",
-		Description: `Non-positive values raise an error. Null values return null.
-Use function "ln_unchecked" if you want non-positive values to return 
--Inf or NaN`,
-		ArgNames: []string{"x"},
-	}
-	log10UncheckedDoc = FunctionDoc{
-		Summary: "Compute base 10 logarithm",
-		Description: `Non-positive values return -Inf or NaN. Null values return null.
-Use function "log10" if you want non-positive values to raise an error.`,
-		ArgNames: []string{"x"},
-	}
-	log10Doc = FunctionDoc{
-		Summary: "Compute base 10 logarithm",
-		Description: `Non-positive values raise an error. Null values return null.
-Use function "log10_unchecked" if you want non-positive values to return
--Inf or NaN.`,
-		ArgNames: []string{"x"},
-	}
-	log2UncheckedDoc = FunctionDoc{
-		Summary: "Compute base 2 logarithm",
-		Description: `Non-positive values return -Inf or NaN. Null values return null.
-Use function "log2" if you want non-positive values to raise an error.`,
-		ArgNames: []string{"x"},
-	}
-	log2Doc = FunctionDoc{
-		Summary: "Compute base 2 logarithm",
-		Description: `Non-positive values raise an error. Null values return null.
-Use function "log2_unchecked" if you want non-positive values to 
-return -Inf or NaN`,
-		ArgNames: []string{"x"},
-	}
-	log1pUncheckedDoc = FunctionDoc{
-		Summary: "Compute natural log of (1+x)",
-		Description: `Values <= -1 return -Inf or NaN. Null values return null.
-This function may be more precise than log(1 + x) for x close to zero.
-Use function "log1p" if you want invalid values to raise an error.`,
-		ArgNames: []string{"x"},
-	}
-	log1pDoc = FunctionDoc{
-		Summary: "Compute natural log of (1+x)",
-		Description: `Values <= -1 return -Inf or NaN. Null values return null.
-This function may be more precise than (1 + x) for x close to zero.
-Use function "log1p_unchecked" if you want invalid values to return
--Inf or NaN.`,
-		ArgNames: []string{"x"},
-	}
-	logbUncheckedDoc = FunctionDoc{
-		Summary: "Compute base `b` logarithm",
-		Description: `Values <= 0 return -Inf or NaN. Null values return null.
-Use function "logb" if you want non-positive values to raise an error.`,
-		ArgNames: []string{"x", "b"},
-	}
-	logbDoc = FunctionDoc{
-		Summary: "Compute base `b` logarithm",
-		Description: `Values <= 0 returns an error. Null values return null.
-Use function "logb_unchecked" if you want non-positive values to return
--Inf or NaN.`,
-		ArgNames: []string{"x", "b"},
-	}
-	floorDoc = FunctionDoc{
-		Summary:     "Round down to the nearest integer",
-		Description: "Compute the largest integer value not greater than `x`",
-		ArgNames:    []string{"x"},
-	}
-	ceilDoc = FunctionDoc{
-		Summary:     "Round up to the nearest integer",
-		Description: "Compute the smallest integer value not less than `x`",
-		ArgNames:    []string{"x"},
-	}
-	truncDoc = FunctionDoc{
-		Summary:     "Compute the integral part",
-		Description: "Compute the nearest integer not greater than `x`",
-		ArgNames:    []string{"x"},
-	}
-	roundDoc = FunctionDoc{
-		Summary: "Round to a given precision",
-		Description: `Options are used to control the number of digits and rounding mode.
-Default behavior is to round to the nearest integer and
-use half-to-even rule to break ties.`,
-		ArgNames:    []string{"x"},
-		OptionsType: "RoundOptions",
-	}
-	roundToMultipleDoc = FunctionDoc{
-		Summary: "Round to a given multiple",
-		Description: `Options are used to control the rounding multiple and rounding mode.
-Default behavior is to round to the nearest integer and
-use half-to-even rule to break ties.`,
-		ArgNames:    []string{"x"},
-		OptionsType: "RoundToMultipleOptions",
-	}
-)
-
-func RegisterScalarArithmetic(reg FunctionRegistry) {
-	ops := []struct {
-		funcName   string
-		op         kernels.ArithmeticOp
-		decPromote decimalPromotion
-		doc        FunctionDoc
-	}{
-		{"add_unchecked", kernels.OpAdd, decPromoteAdd, addUncheckedDoc},
-		{"add", kernels.OpAddChecked, decPromoteAdd, addDoc},
-	}
-
-	for _, o := range ops {
-		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), o.decPromote}
-		kns := append(kernels.GetArithmeticBinaryKernels(o.op), kernels.GetDecimalBinaryKernels(o.op)...)
-		kns = append(kns, kernels.GetArithmeticFunctionTimeDuration(o.op)...)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-
-		for _, unit := range arrow.TimeUnitValues {
-			inType := exec.NewMatchedInput(exec.TimestampTypeUnit(unit))
-			inDuration := exec.NewExactInput(&arrow.DurationType{Unit: unit})
-			ex := kernels.ArithmeticExecSameType(arrow.TIMESTAMP, o.op)
-			err := fn.AddNewKernel([]exec.InputType{inType, inDuration}, kernels.OutputFirstType, ex, nil)
-			if err != nil {
-				panic(err)
-			}
-			err = fn.AddNewKernel([]exec.InputType{inDuration, inType}, kernels.OutputLastType, ex, nil)
-			if err != nil {
-				panic(err)
-			}
-
-			matchDur := exec.NewMatchedInput(exec.DurationTypeUnit(unit))
-			ex = kernels.ArithmeticExecSameType(arrow.DURATION, o.op)
-			err = fn.AddNewKernel([]exec.InputType{matchDur, matchDur}, exec.NewOutputType(&arrow.DurationType{Unit: unit}), ex, nil)
-			if err != nil {
-				panic(err)
-			}
-		}
-
-		reg.AddFunction(fn, false)
-	}
-
-	ops = []struct {
-		funcName   string
-		op         kernels.ArithmeticOp
-		decPromote decimalPromotion
-		doc        FunctionDoc
-	}{
-		{"sub_unchecked", kernels.OpSub, decPromoteAdd, subUncheckedDoc},
-		{"sub", kernels.OpSubChecked, decPromoteAdd, subDoc},
-		{"subtract_unchecked", kernels.OpSub, decPromoteAdd, subUncheckedDoc},
-		{"subtract", kernels.OpSubChecked, decPromoteAdd, subDoc},
-	}
-
-	for _, o := range ops {
-		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), o.decPromote}
-		kns := append(kernels.GetArithmeticBinaryKernels(o.op), kernels.GetDecimalBinaryKernels(o.op)...)
-		kns = append(kns, kernels.GetArithmeticFunctionTimeDuration(o.op)...)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-
-		for _, unit := range arrow.TimeUnitValues {
-			// timestamp - timestamp => duration
-			inType := exec.NewMatchedInput(exec.TimestampTypeUnit(unit))
-			ex := kernels.ArithmeticExecSameType(arrow.TIMESTAMP, o.op)
-			err := fn.AddNewKernel([]exec.InputType{inType, inType}, kernels.OutputResolveTemporal, ex, nil)
-			if err != nil {
-				panic(err)
-			}
-
-			// timestamp - duration => timestamp
-			inDuration := exec.NewExactInput(&arrow.DurationType{Unit: unit})
-			ex = kernels.ArithmeticExecSameType(arrow.TIMESTAMP, o.op)
-			err = fn.AddNewKernel([]exec.InputType{inType, inDuration}, kernels.OutputFirstType, ex, nil)
-			if err != nil {
-				panic(err)
-			}
-
-			// duration - duration = duration
-			matchDur := exec.NewMatchedInput(exec.DurationTypeUnit(unit))
-			ex = kernels.ArithmeticExecSameType(arrow.DURATION, o.op)
-			err = fn.AddNewKernel([]exec.InputType{matchDur, matchDur}, exec.NewOutputType(&arrow.DurationType{Unit: unit}), ex, nil)
-			if err != nil {
-				panic(err)
-			}
-		}
-
-		// time32 - time32 = duration
-		for _, unit := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond} {
-			inType := exec.NewMatchedInput(exec.Time32TypeUnit(unit))
-			internalEx := kernels.ArithmeticExecSameType(arrow.TIME32, o.op)
-			ex := func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-				if err := internalEx(ctx, batch, out); err != nil {
-					return err
-				}
-				// the allocated space is for duration (an int64) but we
-				// wrote the time32 - time32 as if the output was time32
-				// so a quick copy in reverse expands the int32s to int64.
-				rawData := arrow.GetData[int32](out.Buffers[1].Buf)
-				outData := arrow.GetData[int64](out.Buffers[1].Buf)
-
-				for i := out.Len - 1; i >= 0; i-- {
-					outData[i] = int64(rawData[i])
-				}
-				return nil
-			}
-
-			err := fn.AddNewKernel([]exec.InputType{inType, inType},
-				exec.NewOutputType(&arrow.DurationType{Unit: unit}), ex, nil)
-			if err != nil {
-				panic(err)
-			}
-		}
-
-		// time64 - time64 = duration
-		for _, unit := range []arrow.TimeUnit{arrow.Microsecond, arrow.Nanosecond} {
-			inType := exec.NewMatchedInput(exec.Time64TypeUnit(unit))
-			ex := kernels.ArithmeticExecSameType(arrow.TIME64, o.op)
-			err := fn.AddNewKernel([]exec.InputType{inType, inType}, exec.NewOutputType(&arrow.DurationType{Unit: unit}), ex, nil)
-			if err != nil {
-				panic(err)
-			}
-		}
-
-		inDate32 := exec.NewExactInput(arrow.FixedWidthTypes.Date32)
-		ex := kernels.SubtractDate32(o.op)
-		err := fn.AddNewKernel([]exec.InputType{inDate32, inDate32}, exec.NewOutputType(arrow.FixedWidthTypes.Duration_s), ex, nil)
-		if err != nil {
-			panic(err)
-		}
-
-		inDate64 := exec.NewExactInput(arrow.FixedWidthTypes.Date64)
-		ex = kernels.ArithmeticExecSameType(arrow.DATE64, o.op)
-		err = fn.AddNewKernel([]exec.InputType{inDate64, inDate64}, exec.NewOutputType(arrow.FixedWidthTypes.Duration_ms), ex, nil)
-		if err != nil {
-			panic(err)
-		}
-
-		reg.AddFunction(fn, false)
-	}
-
-	oplist := []struct {
-		funcName    string
-		op          kernels.ArithmeticOp
-		decPromote  decimalPromotion
-		doc         FunctionDoc
-		commutative bool
-	}{
-		{"multiply_unchecked", kernels.OpMul, decPromoteMultiply, mulUncheckedDoc, true},
-		{"multiply", kernels.OpMulChecked, decPromoteMultiply, mulDoc, true},
-		{"divide_unchecked", kernels.OpDiv, decPromoteDivide, divUncheckedDoc, false},
-		{"divide", kernels.OpDivChecked, decPromoteDivide, divDoc, false},
-	}
-
-	for _, o := range oplist {
-		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), o.decPromote}
-		for _, k := range append(kernels.GetArithmeticBinaryKernels(o.op), kernels.GetDecimalBinaryKernels(o.op)...) {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-
-		for _, unit := range arrow.TimeUnitValues {
-			durInput := exec.NewExactInput(&arrow.DurationType{Unit: unit})
-			i64Input := exec.NewExactInput(arrow.PrimitiveTypes.Int64)
-			durOutput := exec.NewOutputType(&arrow.DurationType{Unit: unit})
-			ex := kernels.ArithmeticExecSameType(arrow.DURATION, o.op)
-			err := fn.AddNewKernel([]exec.InputType{durInput, i64Input}, durOutput, ex, nil)
-			if err != nil {
-				panic(err)
-			}
-			if o.commutative {
-				err = fn.AddNewKernel([]exec.InputType{i64Input, durInput}, durOutput, ex, nil)
-				if err != nil {
-					panic(err)
-				}
-			}
-		}
-
-		reg.AddFunction(fn, false)
-	}
-
-	ops = []struct {
-		funcName   string
-		op         kernels.ArithmeticOp
-		decPromote decimalPromotion
-		doc        FunctionDoc
-	}{
-		{"abs_unchecked", kernels.OpAbsoluteValue, decPromoteNone, absoluteValueUncheckedDoc},
-		{"abs", kernels.OpAbsoluteValueChecked, decPromoteNone, absoluteValueDoc},
-		{"negate_unchecked", kernels.OpNegate, decPromoteNone, negateUncheckedDoc},
-	}
-
-	for _, o := range ops {
-		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Unary(), o.doc), decPromoteNone}
-		kns := append(kernels.GetArithmeticUnaryKernels(o.op), kernels.GetDecimalUnaryKernels(o.op)...)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-
-		reg.AddFunction(fn, false)
-	}
-
-	fn := &arithmeticFunction{*NewScalarFunction("negate", Unary(), negateDoc), decPromoteNone}
-	kns := append(kernels.GetArithmeticUnarySignedKernels(kernels.OpNegateChecked), kernels.GetDecimalUnaryKernels(kernels.OpNegateChecked)...)
-	for _, k := range kns {
-		if err := fn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-
-	reg.AddFunction(fn, false)
-
-	ops = []struct {
-		funcName   string
-		op         kernels.ArithmeticOp
-		decPromote decimalPromotion
-		doc        FunctionDoc
-	}{
-		{"sqrt_unchecked", kernels.OpSqrt, decPromoteNone, sqrtUncheckedDoc},
-		{"sqrt", kernels.OpSqrtChecked, decPromoteNone, sqrtDoc},
-		{"sin_unchecked", kernels.OpSin, decPromoteNone, sinUncheckedDoc},
-		{"sin", kernels.OpSinChecked, decPromoteNone, sinDoc},
-		{"cos_unchecked", kernels.OpCos, decPromoteNone, cosUncheckedDoc},
-		{"cos", kernels.OpCosChecked, decPromoteNone, cosDoc},
-		{"tan_unchecked", kernels.OpTan, decPromoteNone, tanUncheckedDoc},
-		{"tan", kernels.OpTanChecked, decPromoteNone, tanDoc},
-		{"asin_unchecked", kernels.OpAsin, decPromoteNone, asinUncheckedDoc},
-		{"asin", kernels.OpAsinChecked, decPromoteNone, asinDoc},
-		{"acos_unchecked", kernels.OpAcos, decPromoteNone, acosUncheckedDoc},
-		{"acos", kernels.OpAcosChecked, decPromoteNone, acosDoc},
-		{"atan", kernels.OpAtan, decPromoteNone, atanDoc},
-		{"ln_unchecked", kernels.OpLn, decPromoteNone, lnUncheckedDoc},
-		{"ln", kernels.OpLnChecked, decPromoteNone, lnDoc},
-		{"log10_unchecked", kernels.OpLog10, decPromoteNone, log10UncheckedDoc},
-		{"log10", kernels.OpLog10Checked, decPromoteNone, log10Doc},
-		{"log2_unchecked", kernels.OpLog2, decPromoteNone, log2UncheckedDoc},
-		{"log2", kernels.OpLog2Checked, decPromoteNone, log2Doc},
-		{"log1p_unchecked", kernels.OpLog1p, decPromoteNone, log1pUncheckedDoc},
-		{"log1p", kernels.OpLog1pChecked, decPromoteNone, log1pDoc},
-	}
-
-	for _, o := range ops {
-		fn := &arithmeticFloatingPointFunc{arithmeticFunction{*NewScalarFunction(o.funcName, Unary(), o.doc), decPromoteNone}}
-		kns := kernels.GetArithmeticUnaryFloatingPointKernels(o.op)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-
-		reg.AddFunction(fn, false)
-	}
-
-	ops = []struct {
-		funcName   string
-		op         kernels.ArithmeticOp
-		decPromote decimalPromotion
-		doc        FunctionDoc
-	}{
-		{"atan2", kernels.OpAtan2, decPromoteNone, atan2Doc},
-		{"logb_unchecked", kernels.OpLogb, decPromoteNone, logbUncheckedDoc},
-		{"logb", kernels.OpLogbChecked, decPromoteNone, logbDoc},
-	}
-
-	for _, o := range ops {
-		fn := &arithmeticFloatingPointFunc{arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), addDoc), decPromoteNone}}
-		kns := kernels.GetArithmeticFloatingPointKernels(o.op)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-
-		reg.AddFunction(fn, false)
-	}
-
-	fn = &arithmeticFunction{*NewScalarFunction("sign", Unary(), signDoc), decPromoteNone}
-	kns = kernels.GetArithmeticUnaryFixedIntOutKernels(arrow.PrimitiveTypes.Int8, kernels.OpSign)
-	for _, k := range kns {
-		if err := fn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-
-	reg.AddFunction(fn, false)
-
-	ops = []struct {
-		funcName   string
-		op         kernels.ArithmeticOp
-		decPromote decimalPromotion
-		doc        FunctionDoc
-	}{
-		{"power_unchecked", kernels.OpPower, decPromoteNone, powUncheckedDoc},
-		{"power", kernels.OpPowerChecked, decPromoteNone, powDoc},
-	}
-
-	for _, o := range ops {
-		fn := &arithmeticDecimalToFloatingPointFunc{arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), o.decPromote}}
-		kns := kernels.GetArithmeticBinaryKernels(o.op)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-		reg.AddFunction(fn, false)
-	}
-
-	bitWiseOps := []struct {
-		funcName string
-		op       kernels.BitwiseOp
-		doc      FunctionDoc
-	}{
-		{"bit_wise_and", kernels.OpBitAnd, bitWiseAndDoc},
-		{"bit_wise_or", kernels.OpBitOr, bitWiseOrDoc},
-		{"bit_wise_xor", kernels.OpBitXor, bitWiseXorDoc},
-	}
-
-	for _, o := range bitWiseOps {
-		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), decPromoteNone}
-		kns := kernels.GetBitwiseBinaryKernels(o.op)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-		reg.AddFunction(fn, false)
-	}
-
-	fn = &arithmeticFunction{*NewScalarFunction("bit_wise_not", Unary(), bitWiseNotDoc), decPromoteNone}
-	for _, k := range kernels.GetBitwiseUnaryKernels() {
-		if err := fn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-
-	reg.AddFunction(fn, false)
-
-	shiftOps := []struct {
-		funcName string
-		dir      kernels.ShiftDir
-		checked  bool
-		doc      FunctionDoc
-	}{
-		{"shift_left", kernels.ShiftLeft, true, shiftLeftDoc},
-		{"shift_left_unchecked", kernels.ShiftLeft, false, shiftLeftUncheckedDoc},
-		{"shift_right", kernels.ShiftRight, true, shiftRightDoc},
-		{"shift_right_unchecked", kernels.ShiftRight, false, shiftRightUncheckedDoc},
-	}
-
-	for _, o := range shiftOps {
-		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), decPromoteNone}
-		kns := kernels.GetShiftKernels(o.dir, o.checked)
-		for _, k := range kns {
-			if err := fn.AddKernel(k); err != nil {
-				panic(err)
-			}
-		}
-		reg.AddFunction(fn, false)
-	}
-
-	floorFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("floor", Unary(), floorDoc), decPromoteNone}}
-	kns = kernels.GetSimpleRoundKernels(kernels.RoundDown)
-	for _, k := range kns {
-		if err := floorFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	floorFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)},
-		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal128.Num](kernels.RoundDown), nil)
-	floorFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)},
-		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal256.Num](kernels.RoundDown), nil)
-	reg.AddFunction(floorFn, false)
-
-	ceilFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("ceil", Unary(), ceilDoc), decPromoteNone}}
-	kns = kernels.GetSimpleRoundKernels(kernels.RoundUp)
-	for _, k := range kns {
-		if err := ceilFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	ceilFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)},
-		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal128.Num](kernels.RoundUp), nil)
-	ceilFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)},
-		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal256.Num](kernels.RoundUp), nil)
-	reg.AddFunction(ceilFn, false)
-
-	truncFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("trunc", Unary(), truncDoc), decPromoteNone}}
-	kns = kernels.GetSimpleRoundKernels(kernels.TowardsZero)
-	for _, k := range kns {
-		if err := truncFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	truncFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)},
-		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal128.Num](kernels.TowardsZero), nil)
-	truncFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)},
-		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal256.Num](kernels.TowardsZero), nil)
-	reg.AddFunction(truncFn, false)
-
-	roundFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("round", Unary(), roundDoc), decPromoteNone}}
-	kns = kernels.GetRoundUnaryKernels(kernels.InitRoundState, kernels.UnaryRoundExec)
-	for _, k := range kns {
-		if err := roundFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-
-	roundFn.defaultOpts = DefaultRoundOptions
-	reg.AddFunction(roundFn, false)
-
-	roundToMultipleFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("round_to_multiple", Unary(), roundToMultipleDoc), decPromoteNone}}
-	kns = kernels.GetRoundUnaryKernels(kernels.InitRoundToMultipleState, kernels.UnaryRoundToMultipleExec)
-	for _, k := range kns {
-		if err := roundToMultipleFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-
-	roundToMultipleFn.defaultOpts = DefaultRoundToMultipleOptions
-	reg.AddFunction(roundToMultipleFn, false)
-}
-
-func impl(ctx context.Context, fn string, opts ArithmeticOptions, left, right Datum) (Datum, error) {
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, left, right)
-}
-
-// Add performs an addition between the passed in arguments (scalar or array)
-// and returns the result. If one argument is a scalar and the other is an
-// array, the scalar value is added to each value of the array.
-//
-// ArithmeticOptions specifies whether or not to check for overflows,
-// performance is faster if not explicitly checking for overflows but
-// will error on an overflow if NoCheckOverflow is false (default).
-func Add(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
-	return impl(ctx, "add", opts, left, right)
-}
-
-// Sub performs a subtraction between the passed in arguments (scalar or array)
-// and returns the result. If one argument is a scalar and the other is an
-// array, the scalar value is subtracted from each value of the array.
-//
-// ArithmeticOptions specifies whether or not to check for overflows,
-// performance is faster if not explicitly checking for overflows but
-// will error on an overflow if NoCheckOverflow is false (default).
-func Subtract(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
-	return impl(ctx, "sub", opts, left, right)
-}
-
-// Multiply performs a multiplication between the passed in arguments (scalar or array)
-// and returns the result. If one argument is a scalar and the other is an
-// array, the scalar value is multiplied against each value of the array.
-//
-// ArithmeticOptions specifies whether or not to check for overflows,
-// performance is faster if not explicitly checking for overflows but
-// will error on an overflow if NoCheckOverflow is false (default).
-func Multiply(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
-	return impl(ctx, "multiply", opts, left, right)
-}
-
-// Divide performs a division between the passed in arguments (scalar or array)
-// and returns the result. If one argument is a scalar and the other is an
-// array, the scalar value is used with each value of the array.
-//
-// ArithmeticOptions specifies whether or not to check for overflows,
-// performance is faster if not explicitly checking for overflows but
-// will error on an overflow if NoCheckOverflow is false (default).
-//
-// Will error on divide by zero regardless of whether or not checking for
-// overflows.
-func Divide(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
-	return impl(ctx, "divide", opts, left, right)
-}
-
-// AbsoluteValue returns the AbsoluteValue for each element in the input
-// argument. It accepts either a scalar or an array.
-//
-// ArithmeticOptions specifies whether or not to check for overflows,
-// performance is faster if not explicitly checking for overflows but
-// will error on an overflow if CheckOverflow is true.
-func AbsoluteValue(ctx context.Context, opts ArithmeticOptions, input Datum) (Datum, error) {
-	fn := "abs"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, input)
-}
-
-// Negate returns a result containing the negation of each element in the
-// input argument. It accepts either a scalar or an array.
-//
-// ArithmeticOptions specifies whether or not to check for overflows,
-// or to throw an error on unsigned types.
-func Negate(ctx context.Context, opts ArithmeticOptions, input Datum) (Datum, error) {
-	fn := "negate"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, input)
-}
-
-// Sign returns -1, 0, or 1 depending on the sign of each element in the
-// input. For x in the input:
-//
-//		if x > 0: 1
-//		if x < 0: -1
-//	    if x == 0: 0
-func Sign(ctx context.Context, input Datum) (Datum, error) {
-	return CallFunction(ctx, "sign", nil, input)
-}
-
-// Power returns base**exp for each element in the input arrays. Should work
-// for both Arrays and Scalars
-func Power(ctx context.Context, opts ArithmeticOptions, base, exp Datum) (Datum, error) {
-	fn := "power"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, base, exp)
-}
-
-// ShiftLeft only accepts integral types and shifts each element of the
-// first argument to the left by the value of the corresponding element
-// in the second argument.
-//
-// The value to shift by should be >= 0 and < precision of the type.
-func ShiftLeft(ctx context.Context, opts ArithmeticOptions, lhs, rhs Datum) (Datum, error) {
-	fn := "shift_left"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, lhs, rhs)
-}
-
-// ShiftRight only accepts integral types and shifts each element of the
-// first argument to the right by the value of the corresponding element
-// in the second argument.
-//
-// The value to shift by should be >= 0 and < precision of the type.
-func ShiftRight(ctx context.Context, opts ArithmeticOptions, lhs, rhs Datum) (Datum, error) {
-	fn := "shift_right"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, lhs, rhs)
-}
-
-func Sin(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "sin"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Cos(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "cos"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Tan(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "tan"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Asin(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "asin"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Acos(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "acos"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Atan(ctx context.Context, arg Datum) (Datum, error) {
-	return CallFunction(ctx, "atan", nil, arg)
-}
-
-func Atan2(ctx context.Context, x, y Datum) (Datum, error) {
-	return CallFunction(ctx, "atan2", nil, x, y)
-}
-
-func Ln(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "ln"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Log10(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "log10"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Log2(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "log2"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Log1p(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
-	fn := "log1p"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, arg)
-}
-
-func Logb(ctx context.Context, opts ArithmeticOptions, x, base Datum) (Datum, error) {
-	fn := "logb"
-	if opts.NoCheckOverflow {
-		fn += "_unchecked"
-	}
-	return CallFunction(ctx, fn, nil, x, base)
-}
-
-func Round(ctx context.Context, opts RoundOptions, arg Datum) (Datum, error) {
-	return CallFunction(ctx, "round", &opts, arg)
-}
-
-func RoundToMultiple(ctx context.Context, opts RoundToMultipleOptions, arg Datum) (Datum, error) {
-	return CallFunction(ctx, "round_to_multiple", &opts, arg)
-}
diff --git a/go/arrow/compute/arithmetic_test.go b/go/arrow/compute/arithmetic_test.go
deleted file mode 100644
index 6e693481a322c..0000000000000
--- a/go/arrow/compute/arithmetic_test.go
+++ /dev/null
@@ -1,3504 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"fmt"
-	"math"
-	"strings"
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/klauspost/cpuid/v2"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-	"golang.org/x/exp/constraints"
-)
-
-var (
-	CpuCacheSizes = [...]int{ // defaults
-		32 * 1024,   // level 1: 32K
-		256 * 1024,  // level 2: 256K
-		3072 * 1024, // level 3: 3M
-	}
-)
-
-func init() {
-	if cpuid.CPU.Cache.L1D != -1 {
-		CpuCacheSizes[0] = cpuid.CPU.Cache.L1D
-	}
-	if cpuid.CPU.Cache.L2 != -1 {
-		CpuCacheSizes[1] = cpuid.CPU.Cache.L2
-	}
-	if cpuid.CPU.Cache.L3 != -1 {
-		CpuCacheSizes[2] = cpuid.CPU.Cache.L3
-	}
-}
-
-func assertNullToNull(t *testing.T, ctx context.Context, fn string, mem memory.Allocator) {
-	f, ok := compute.GetFunctionRegistry().GetFunction(fn)
-	require.True(t, ok)
-	nulls := array.MakeArrayOfNull(mem, arrow.Null, 7)
-	defer nulls.Release()
-	n := f.Arity().NArgs
-
-	t.Run("null to null array", func(t *testing.T) {
-		args := make([]compute.Datum, n)
-		for i := 0; i < n; i++ {
-			args[i] = &compute.ArrayDatum{nulls.Data()}
-		}
-
-		result, err := compute.CallFunction(ctx, fn, nil, args...)
-		assert.NoError(t, err)
-		defer result.Release()
-		out := result.(*compute.ArrayDatum).MakeArray()
-		defer out.Release()
-		assertArraysEqual(t, nulls, out)
-	})
-
-	t.Run("null to null scalar", func(t *testing.T) {
-		args := make([]compute.Datum, n)
-		for i := 0; i < n; i++ {
-			args[i] = compute.NewDatum(scalar.ScalarNull)
-		}
-
-		result, err := compute.CallFunction(ctx, fn, nil, args...)
-		assert.NoError(t, err)
-		assertScalarEquals(t, scalar.ScalarNull, result.(*compute.ScalarDatum).Value)
-	})
-}
-
-type fnOpts interface {
-	compute.ArithmeticOptions | compute.RoundOptions | compute.RoundToMultipleOptions
-}
-
-type unaryArithmeticFunc[O fnOpts] func(context.Context, O, compute.Datum) (compute.Datum, error)
-
-// type unaryFunc = func(compute.Datum) (compute.Datum, error)
-
-type binaryArithmeticFunc = func(context.Context, compute.ArithmeticOptions, compute.Datum, compute.Datum) (compute.Datum, error)
-
-type binaryFunc = func(left, right compute.Datum) (compute.Datum, error)
-
-func assertScalarEquals(t *testing.T, expected, actual scalar.Scalar, opt ...scalar.EqualOption) {
-	assert.Truef(t, scalar.ApproxEquals(expected, actual, opt...), "expected: %s\ngot: %s", expected, actual)
-}
-
-func assertBinop(t *testing.T, fn binaryFunc, left, right, expected arrow.Array, opt []array.EqualOption, scalarOpt []scalar.EqualOption) {
-	actual, err := fn(&compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()})
-	require.NoError(t, err)
-	defer actual.Release()
-	assertDatumsEqual(t, &compute.ArrayDatum{Value: expected.Data()}, actual, opt, scalarOpt)
-
-	// also check (Scalar, Scalar) operations
-	for i := 0; i < expected.Len(); i++ {
-		s, err := scalar.GetScalar(expected, i)
-		require.NoError(t, err)
-		lhs, _ := scalar.GetScalar(left, i)
-		rhs, _ := scalar.GetScalar(right, i)
-
-		actual, err := fn(&compute.ScalarDatum{Value: lhs}, &compute.ScalarDatum{Value: rhs})
-		assert.NoError(t, err)
-		assertScalarEquals(t, s, actual.(*compute.ScalarDatum).Value, scalarOpt...)
-	}
-}
-
-func assertBinopErr(t *testing.T, fn binaryFunc, left, right arrow.Array, expectedMsg string) {
-	_, err := fn(&compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{Value: right.Data()})
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-	assert.ErrorContains(t, err, expectedMsg)
-}
-
-type BinaryFuncTestSuite struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-	ctx context.Context
-}
-
-func (b *BinaryFuncTestSuite) SetupTest() {
-	b.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	b.ctx = compute.WithAllocator(context.TODO(), b.mem)
-}
-
-func (b *BinaryFuncTestSuite) TearDownTest() {
-	b.mem.AssertSize(b.T(), 0)
-}
-
-func (b *BinaryFuncTestSuite) getArr(dt arrow.DataType, str string) arrow.Array {
-	arr, _, err := array.FromJSON(b.mem, dt, strings.NewReader(str), array.WithUseNumber())
-	b.Require().NoError(err)
-	return arr
-}
-
-type Float16BinaryFuncTestSuite struct {
-	BinaryFuncTestSuite
-}
-
-func (b *Float16BinaryFuncTestSuite) assertBinopErr(fn binaryFunc, lhs, rhs string) {
-	left, _, _ := array.FromJSON(b.mem, arrow.FixedWidthTypes.Float16, strings.NewReader(lhs), array.WithUseNumber())
-	defer left.Release()
-	right, _, _ := array.FromJSON(b.mem, arrow.FixedWidthTypes.Float16, strings.NewReader(rhs), array.WithUseNumber())
-	defer right.Release()
-
-	_, err := fn(&compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()})
-	b.ErrorIs(err, arrow.ErrNotImplemented)
-}
-
-func (b *Float16BinaryFuncTestSuite) TestAdd() {
-	for _, overflow := range []bool{false, true} {
-		b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
-			opts := compute.ArithmeticOptions{NoCheckOverflow: overflow}
-			b.assertBinopErr(func(left, right compute.Datum) (compute.Datum, error) {
-				return compute.Add(b.ctx, opts, left, right)
-			}, `[1.5]`, `[1.5]`)
-		})
-	}
-}
-
-func (b *Float16BinaryFuncTestSuite) TestSub() {
-	for _, overflow := range []bool{false, true} {
-		b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
-			opts := compute.ArithmeticOptions{NoCheckOverflow: overflow}
-			b.assertBinopErr(func(left, right compute.Datum) (compute.Datum, error) {
-				return compute.Subtract(b.ctx, opts, left, right)
-			}, `[1.5]`, `[1.5]`)
-		})
-	}
-}
-
-type BinaryArithmeticSuite[T arrow.NumericType] struct {
-	BinaryFuncTestSuite
-
-	opts            compute.ArithmeticOptions
-	min, max        T
-	equalOpts       []array.EqualOption
-	scalarEqualOpts []scalar.EqualOption
-}
-
-func (BinaryArithmeticSuite[T]) DataType() arrow.DataType {
-	return arrow.GetDataType[T]()
-}
-
-func (b *BinaryArithmeticSuite[T]) setNansEqual(val bool) {
-	b.equalOpts = []array.EqualOption{array.WithNaNsEqual(val)}
-	b.scalarEqualOpts = []scalar.EqualOption{scalar.WithNaNsEqual(val)}
-}
-
-func (b *BinaryArithmeticSuite[T]) SetupTest() {
-	b.BinaryFuncTestSuite.SetupTest()
-	b.opts.NoCheckOverflow = false
-}
-
-func (b *BinaryArithmeticSuite[T]) makeNullScalar() scalar.Scalar {
-	return scalar.MakeNullScalar(b.DataType())
-}
-
-func (b *BinaryArithmeticSuite[T]) makeScalar(val T) scalar.Scalar {
-	return scalar.MakeScalar(val)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopScalars(fn binaryArithmeticFunc, lhs, rhs T, expected T) {
-	left, right := b.makeScalar(lhs), b.makeScalar(rhs)
-	exp := b.makeScalar(expected)
-
-	actual, err := fn(b.ctx, b.opts, &compute.ScalarDatum{Value: left}, &compute.ScalarDatum{Value: right})
-	b.NoError(err)
-	sc := actual.(*compute.ScalarDatum).Value
-
-	assertScalarEquals(b.T(), exp, sc)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopScalarValArr(fn binaryArithmeticFunc, lhs T, rhs, expected string) {
-	left := b.makeScalar(lhs)
-	b.assertBinopScalarArr(fn, left, rhs, expected)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopScalarArr(fn binaryArithmeticFunc, lhs scalar.Scalar, rhs, expected string) {
-	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs))
-	defer right.Release()
-	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected))
-	defer exp.Release()
-
-	actual, err := fn(b.ctx, b.opts, &compute.ScalarDatum{Value: lhs}, &compute.ArrayDatum{Value: right.Data()})
-	b.NoError(err)
-	defer actual.Release()
-	assertDatumsEqual(b.T(), &compute.ArrayDatum{Value: exp.Data()}, actual, b.equalOpts, b.scalarEqualOpts)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopArrScalarExpArr(fn binaryArithmeticFunc, lhs string, rhs scalar.Scalar, exp arrow.Array) {
-	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs))
-	defer left.Release()
-
-	actual, err := fn(b.ctx, b.opts, &compute.ArrayDatum{left.Data()}, compute.NewDatum(rhs))
-	b.Require().NoError(err)
-	defer actual.Release()
-	assertDatumsEqual(b.T(), &compute.ArrayDatum{exp.Data()}, actual, b.equalOpts, b.scalarEqualOpts)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopArrScalarVal(fn binaryArithmeticFunc, lhs string, rhs T, expected string) {
-	right := b.makeScalar(rhs)
-	b.assertBinopArrScalar(fn, lhs, right, expected)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopArrScalar(fn binaryArithmeticFunc, lhs string, rhs scalar.Scalar, expected string) {
-	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs))
-	defer left.Release()
-	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected))
-	defer exp.Release()
-
-	actual, err := fn(b.ctx, b.opts, &compute.ArrayDatum{Value: left.Data()}, &compute.ScalarDatum{Value: rhs})
-	b.NoError(err)
-	defer actual.Release()
-	assertDatumsEqual(b.T(), &compute.ArrayDatum{Value: exp.Data()}, actual, b.equalOpts, b.scalarEqualOpts)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopArrs(fn binaryArithmeticFunc, lhs, rhs, exp arrow.Array) {
-	assertBinop(b.T(), func(left, right compute.Datum) (compute.Datum, error) {
-		return fn(b.ctx, b.opts, left, right)
-	}, lhs, rhs, exp, b.equalOpts, b.scalarEqualOpts)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopExpArr(fn binaryArithmeticFunc, lhs, rhs string, exp arrow.Array) {
-	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs), array.WithUseNumber())
-	defer left.Release()
-	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs), array.WithUseNumber())
-	defer right.Release()
-
-	b.assertBinopArrs(fn, left, right, exp)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinop(fn binaryArithmeticFunc, lhs, rhs, expected string) {
-	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs), array.WithUseNumber())
-	defer left.Release()
-	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs), array.WithUseNumber())
-	defer right.Release()
-	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected), array.WithUseNumber())
-	defer exp.Release()
-
-	b.assertBinopArrs(fn, left, right, exp)
-}
-
-func (b *BinaryArithmeticSuite[T]) setOverflowCheck(value bool) {
-	b.opts.NoCheckOverflow = !value
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinopErr(fn binaryArithmeticFunc, lhs, rhs, expectedMsg string) {
-	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs), array.WithUseNumber())
-	defer left.Release()
-	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs), array.WithUseNumber())
-	defer right.Release()
-
-	assertBinopErr(b.T(), func(left, right compute.Datum) (compute.Datum, error) {
-		return fn(b.ctx, b.opts, left, right)
-	}, left, right, expectedMsg)
-}
-
-func (b *BinaryArithmeticSuite[T]) TestAdd() {
-	b.Run(b.DataType().String(), func() {
-		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
-				b.setOverflowCheck(overflow)
-
-				b.assertBinop(compute.Add, `[]`, `[]`, `[]`)
-				b.assertBinop(compute.Add, `[3, 2, 6]`, `[1, 0, 2]`, `[4, 2, 8]`)
-				// nulls on one side
-				b.assertBinop(compute.Add, `[null, 1, null]`, `[3, 4, 5]`, `[null, 5, null]`)
-				b.assertBinop(compute.Add, `[3, 4, 5]`, `[null, 1, null]`, `[null, 5, null]`)
-				// nulls on both sides
-				b.assertBinop(compute.Add, `[null, 1, 2]`, `[3, 4, null]`, `[null, 5, null]`)
-				// all nulls
-				b.assertBinop(compute.Add, `[null]`, `[null]`, `[null]`)
-
-				// scalar on the left
-				b.assertBinopScalarValArr(compute.Add, 3, `[1, 2]`, `[4, 5]`)
-				b.assertBinopScalarValArr(compute.Add, 3, `[null, 2]`, `[null, 5]`)
-				b.assertBinopScalarArr(compute.Add, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
-				b.assertBinopScalarArr(compute.Add, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
-				// scalar on the right
-				b.assertBinopArrScalarVal(compute.Add, `[1, 2]`, 3, `[4, 5]`)
-				b.assertBinopArrScalarVal(compute.Add, `[null, 2]`, 3, `[null, 5]`)
-				b.assertBinopArrScalar(compute.Add, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
-				b.assertBinopArrScalar(compute.Add, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
-
-				if !arrow.IsFloating(b.DataType().ID()) && overflow {
-					val := fmt.Sprintf("[%v]", b.max)
-					b.assertBinopErr(compute.Add, val, val, "overflow")
-				}
-			})
-		}
-	})
-}
-
-func (b *BinaryArithmeticSuite[T]) TestSub() {
-	b.Run(b.DataType().String(), func() {
-		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
-				b.setOverflowCheck(overflow)
-
-				b.assertBinop(compute.Subtract, `[]`, `[]`, `[]`)
-				b.assertBinop(compute.Subtract, `[3, 2, 6]`, `[1, 0, 2]`, `[2, 2, 4]`)
-				// nulls on one side
-				b.assertBinop(compute.Subtract, `[null, 4, null]`, `[2, 1, 0]`, `[null, 3, null]`)
-				b.assertBinop(compute.Subtract, `[3, 4, 5]`, `[null, 1, null]`, `[null, 3, null]`)
-				// nulls on both sides
-				b.assertBinop(compute.Subtract, `[null, 4, 3]`, `[2, 1, null]`, `[null, 3, null]`)
-				// all nulls
-				b.assertBinop(compute.Subtract, `[null]`, `[null]`, `[null]`)
-
-				// scalar on the left
-				b.assertBinopScalarValArr(compute.Subtract, 3, `[1, 2]`, `[2, 1]`)
-				b.assertBinopScalarValArr(compute.Subtract, 3, `[null, 2]`, `[null, 1]`)
-				b.assertBinopScalarArr(compute.Subtract, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
-				b.assertBinopScalarArr(compute.Subtract, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
-				// scalar on the right
-				b.assertBinopArrScalarVal(compute.Subtract, `[4, 5]`, 3, `[1, 2]`)
-				b.assertBinopArrScalarVal(compute.Subtract, `[null, 5]`, 3, `[null, 2]`)
-				b.assertBinopArrScalar(compute.Subtract, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
-				b.assertBinopArrScalar(compute.Subtract, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
-
-				if !arrow.IsFloating(b.DataType().ID()) && overflow {
-					b.assertBinopErr(compute.Subtract, fmt.Sprintf("[%v]", b.min), fmt.Sprintf("[%v]", b.max), "overflow")
-				}
-			})
-		}
-	})
-}
-
-func (b *BinaryArithmeticSuite[T]) TestMultiply() {
-	b.Run(b.DataType().String(), func() {
-		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
-				b.setOverflowCheck(overflow)
-
-				b.assertBinop(compute.Multiply, `[]`, `[]`, `[]`)
-				b.assertBinop(compute.Multiply, `[3, 2, 6]`, `[1, 0, 2]`, `[3, 0, 12]`)
-				// nulls on one side
-				b.assertBinop(compute.Multiply, `[null, 2, null]`, `[4, 5, 6]`, `[null, 10, null]`)
-				b.assertBinop(compute.Multiply, `[4, 5, 6]`, `[null, 2, null]`, `[null, 10, null]`)
-				// nulls on both sides
-				b.assertBinop(compute.Multiply, `[null, 2, 3]`, `[4, 5, null]`, `[null, 10, null]`)
-				// all nulls
-				b.assertBinop(compute.Multiply, `[null]`, `[null]`, `[null]`)
-
-				// scalar on left
-				b.assertBinopScalarValArr(compute.Multiply, 3, `[4, 5]`, `[12, 15]`)
-				b.assertBinopScalarValArr(compute.Multiply, 3, `[null, 5]`, `[null, 15]`)
-				b.assertBinopScalarArr(compute.Multiply, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
-				b.assertBinopScalarArr(compute.Multiply, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
-				// scalar on right
-				b.assertBinopArrScalarVal(compute.Multiply, `[4, 5]`, 3, `[12, 15]`)
-				b.assertBinopArrScalarVal(compute.Multiply, `[null, 5]`, 3, `[null, 15]`)
-				b.assertBinopArrScalar(compute.Multiply, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
-				b.assertBinopArrScalar(compute.Multiply, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
-			})
-		}
-	})
-}
-
-func (b *BinaryArithmeticSuite[T]) TestDiv() {
-	b.Run(b.DataType().String(), func() {
-		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
-				b.setOverflowCheck(overflow)
-
-				// empty arrays
-				b.assertBinop(compute.Divide, `[]`, `[]`, `[]`)
-				// ordinary arrays
-				b.assertBinop(compute.Divide, `[3, 2, 6]`, `[1, 1, 2]`, `[3, 2, 3]`)
-				// with nulls
-				b.assertBinop(compute.Divide, `[null, 10, 30, null, 20]`, `[1, 5, 2, 5, 10]`, `[null, 2, 15, null, 2]`)
-				if !arrow.IsFloating(b.DataType().ID()) {
-					// scalar divided by array
-					b.assertBinopScalarValArr(compute.Divide, 33, `[null, 1, 3, null, 2]`, `[null, 33, 11, null, 16]`)
-					// array divided by scalar
-					b.assertBinopArrScalarVal(compute.Divide, `[null, 10, 30, null, 2]`, 3, `[null, 3, 10, null, 0]`)
-					// scalar divided by scalar
-					b.assertBinopScalars(compute.Divide, 16, 7, 2)
-				} else {
-					b.assertBinop(compute.Divide, `[3.4, 0.64, 1.28]`, `[1, 2, 4]`, `[3.4, 0.32, 0.32]`)
-					b.assertBinop(compute.Divide, `[null, 1, 3.3, null, 2]`, `[1, 4, 2, 5, 0.1]`, `[null, 0.25, 1.65, null, 20]`)
-					b.assertBinopScalarValArr(compute.Divide, 10, `[null, 1, 2.5, null, 2, 5]`, `[null, 10, 4, null, 5, 2]`)
-					b.assertBinopArrScalarVal(compute.Divide, `[null, 1, 2.5, null, 2, 5]`, 10, `[null, 0.1, 0.25, null, 0.2, 0.5]`)
-
-					b.assertBinop(compute.Divide, `[3.4, "Inf", "-Inf"]`, `[1, 2, 3]`, `[3.4, "Inf", "-Inf"]`)
-					b.setNansEqual(true)
-					b.assertBinop(compute.Divide, `[3.4, "NaN", 2.0]`, `[1, 2, 2.0]`, `[3.4, "NaN", 1.0]`)
-					b.assertBinopScalars(compute.Divide, 21, 3, 7)
-				}
-			})
-		}
-	})
-}
-
-func (b *BinaryArithmeticSuite[T]) TestDivideByZero() {
-	if !arrow.IsFloating(b.DataType().ID()) {
-		for _, checkOverflow := range []bool{false, true} {
-			b.setOverflowCheck(checkOverflow)
-			b.assertBinopErr(compute.Divide, `[3, 2, 6]`, `[1, 1, 0]`, "divide by zero")
-		}
-	} else {
-		b.setOverflowCheck(true)
-		b.assertBinopErr(compute.Divide, `[3, 2, 6]`, `[1, 1, 0]`, "divide by zero")
-		b.assertBinopErr(compute.Divide, `[3, 2, 0]`, `[1, 1, 0]`, "divide by zero")
-		b.assertBinopErr(compute.Divide, `[3, 2, -6]`, `[1, 1, 0]`, "divide by zero")
-
-		b.setOverflowCheck(false)
-		b.setNansEqual(true)
-		b.assertBinop(compute.Divide, `[3, 2, 6]`, `[1, 1, 0]`, `[3, 2, "Inf"]`)
-		b.assertBinop(compute.Divide, `[3, 2, 0]`, `[1, 1, 0]`, `[3, 2, "NaN"]`)
-		b.assertBinop(compute.Divide, `[3, 2, -6]`, `[1, 1, 0]`, `[3, 2, "-Inf"]`)
-	}
-}
-
-func (b *BinaryArithmeticSuite[T]) TestPower() {
-	b.setNansEqual(true)
-	b.Run(b.DataType().String(), func() {
-		for _, checkOverflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("checkOverflow=%t", checkOverflow), func() {
-				b.setOverflowCheck(checkOverflow)
-
-				b.assertBinop(compute.Power, `[]`, `[]`, `[]`)
-				if !arrow.IsFloating(b.DataType().ID()) {
-					b.assertBinop(compute.Power, `[3, 2, 6, 2]`, `[1, 1, 2, 0]`, `[3, 2, 36, 1]`)
-					b.assertBinop(compute.Power, `[null, 2, 3, null, 20]`, `[1, 6, 2, 5, 1]`, `[null, 64, 9, null, 20]`)
-					b.assertBinopScalarValArr(compute.Power, 3, `[null, 3, 4, null, 2]`, `[null, 27, 81, null, 9]`)
-					b.assertBinopArrScalarVal(compute.Power, `[null, 10, 3, null, 2]`, 2, `[null, 100, 9, null, 4]`)
-					b.assertBinopScalars(compute.Power, 4, 3, 64)
-					b.assertBinop(compute.Power, `[0, 1, 0]`, `[0, 0, 42]`, `[1, 1, 0]`)
-
-					if checkOverflow {
-						b.assertBinopErr(compute.Power, fmt.Sprintf("[%v]", b.max), `[10]`, "overflow")
-					} else {
-						b.assertBinopScalars(compute.Power, b.max, 10, 1)
-					}
-				} else {
-					b.assertBinop(compute.Power, `[3.4, 16, 0.64, 1.2, 0]`, `[1, 0.5, 2, 4, 0]`, `[3.4, 4, 0.4096, 2.0736, 1]`)
-					b.assertBinop(compute.Power, `[null, 1, 3.3, null, 2]`, `[1, 4, 2, 5, 0.1]`, `[null, 1, 10.89, null, 1.07177346]`)
-					b.assertBinopScalarValArr(compute.Power, 10, `[null, 1, 2.5, null, 2, 5]`, `[null, 10, 316.227766017, null, 100, 100000]`)
-					b.assertBinopArrScalarVal(compute.Power, `[null, 1, 2.5, null, 2, 5]`, 10, `[null, 1, 9536.74316406, null, 1024, 9765625]`)
-					b.assertBinop(compute.Power, `[3.4, "Inf", "-Inf", 1.1, 10000]`, `[1, 2, 3, "Inf", 100000]`, `[3.4, "Inf", "-Inf", "Inf", "Inf"]`)
-					b.assertBinop(compute.Power, `[3.4, "NaN", 2.0]`, `[1, 2, 2.0]`, `[3.4, "NaN", 4.0]`)
-					b.assertBinop(compute.Power, `[0.0, 0.0]`, `[-1.0, -3.0]`, `["Inf", "Inf"]`)
-				}
-			})
-		}
-	})
-}
-
-type BinaryFloatingArithmeticSuite[T constraints.Float] struct {
-	BinaryArithmeticSuite[T]
-
-	smallest T
-}
-
-func (bs *BinaryFloatingArithmeticSuite[T]) TestTrigAtan2() {
-	bs.setNansEqual(true)
-	atan2 := func(ctx context.Context, _ compute.ArithmeticOptions, x, y compute.Datum) (compute.Datum, error) {
-		return compute.Atan2(ctx, x, y)
-	}
-
-	bs.assertBinop(atan2, `[]`, `[]`, `[]`)
-	bs.assertBinop(atan2, `[0, 0, null, "NaN"]`, `[null, "NaN", 0, 0]`, `[null, "NaN", null, "NaN"]`)
-	bs.assertBinop(atan2, `[0, 0, -0.0, 0, -0.0, 0, 1, 0, -1, "Inf", "-Inf", 0, 0]`,
-		`[0, 0, 0, -0.0, -0.0, 1, 0, -1, 0, 0, 0, "Inf", "-Inf"]`,
-		fmt.Sprintf("[0, 0, -0.0, %f, %f, 0, %f, %f, %f, %f, %f, 0, %f]",
-			math.Pi, -math.Pi, math.Pi/2, math.Pi, -math.Pi/2, math.Pi/2, -math.Pi/2, math.Pi))
-}
-
-func (bs *BinaryFloatingArithmeticSuite[T]) TestLog() {
-	bs.setNansEqual(true)
-	for _, overflow := range []bool{false, true} {
-		bs.setOverflowCheck(overflow)
-		bs.assertBinop(compute.Logb, `[1, 10, null, "NaN", "Inf"]`, `[100, 10, null, 2, 10]`,
-			`[0, 1, null, "NaN", "Inf"]`)
-		bs.assertBinopScalars(compute.Logb, bs.smallest, 10, T(math.Log(float64(bs.smallest))/math.Log(10)))
-		bs.assertBinopScalars(compute.Logb, bs.max, 10, T(math.Log(float64(bs.max))/math.Log(10)))
-	}
-
-	bs.setOverflowCheck(true)
-	bs.assertBinop(compute.Logb, `[1, 10, null]`, `[10, 10, null]`, `[0, 1, null]`)
-	bs.assertBinop(compute.Logb, `[1, 2, null]`, `[2, 2, null]`, `[0, 1, null]`)
-	bs.assertBinopArrScalarVal(compute.Logb, `[10, 100, 1000, null]`, 10, `[1, 2, 3, null]`)
-	bs.assertBinopArrScalarVal(compute.Logb, `[1, 2, 4, 8]`, 0.25, `[-0.0, -0.5, -1.0, -1.5]`)
-
-	bs.setOverflowCheck(false)
-	bs.assertBinopArrScalarVal(compute.Logb, `["-Inf", -1, 0, "Inf"]`, 10, `["NaN", "NaN", "-Inf", "Inf"]`)
-	bs.assertBinopArrScalarVal(compute.Logb, `["-Inf", -1, 0, "Inf"]`, 2, `["NaN", "NaN", "-Inf", "Inf"]`)
-	bs.assertBinop(compute.Logb, `["-Inf", -1, 0, "Inf"]`, `[2, 10, 0, 0]`, `["NaN", "NaN", "NaN", "NaN"]`)
-	bs.assertBinopArrScalarVal(compute.Logb, `["-Inf", -1, 0, "Inf"]`, 0, `["NaN", "NaN", "NaN", "NaN"]`)
-	bs.assertBinopArrScalarVal(compute.Logb, `["-Inf", -2, -1, "Inf"]`, 2, `["NaN", "NaN", "NaN", "Inf"]`)
-
-	bs.setOverflowCheck(true)
-	bs.assertBinopErr(compute.Logb, `[0]`, `[2]`, "logarithm of zero")
-	bs.assertBinopErr(compute.Logb, `[2]`, `[0]`, "logarithm of zero")
-	bs.assertBinopErr(compute.Logb, `[-1]`, `[2]`, "logarithm of negative number")
-	bs.assertBinopErr(compute.Logb, `["-Inf"]`, `[2]`, "logarithm of negative number")
-}
-
-type BinaryIntegralArithmeticSuite[T arrow.IntType | arrow.UintType] struct {
-	BinaryArithmeticSuite[T]
-}
-
-func (b *BinaryIntegralArithmeticSuite[T]) TestShiftLeft() {
-	b.Run(b.DataType().String(), func() {
-		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("check_overflow=%t", overflow), func() {
-				b.setOverflowCheck(overflow)
-
-				b.assertBinop(compute.ShiftLeft, `[]`, `[]`, `[]`)
-				b.assertBinop(compute.ShiftLeft, `[0, 1, 2, 3]`, `[2, 3, 4, 5]`, `[0, 8, 32, 96]`)
-				b.assertBinop(compute.ShiftLeft, `[0, null, 2, 3]`, `[2, 3, 4, 5]`, `[0, null, 32, 96]`)
-				b.assertBinop(compute.ShiftLeft, `[0, 1, 2, 3]`, `[2, 3, null, 5]`, `[0, 8, null, 96]`)
-				b.assertBinop(compute.ShiftLeft, `[0, null, 2, 3]`, `[2, 3, null, 5]`, `[0, null, null, 96]`)
-				b.assertBinop(compute.ShiftLeft, `[null]`, `[null]`, `[null]`)
-				b.assertBinopScalarValArr(compute.ShiftLeft, 2, `[null, 5]`, `[null, 64]`)
-				b.assertBinopScalarArr(compute.ShiftLeft, b.makeNullScalar(), `[null, 5]`, `[null, null]`)
-				b.assertBinopArrScalarVal(compute.ShiftLeft, `[null, 5]`, 3, `[null, 40]`)
-				b.assertBinopArrScalar(compute.ShiftLeft, `[null, 5]`, b.makeNullScalar(), `[null, null]`)
-			})
-		}
-	})
-}
-
-func (b *BinaryIntegralArithmeticSuite[T]) TestShiftRight() {
-	b.Run(b.DataType().String(), func() {
-		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("check_overflow=%t", overflow), func() {
-				b.setOverflowCheck(overflow)
-
-				b.assertBinop(compute.ShiftRight, `[]`, `[]`, `[]`)
-				b.assertBinop(compute.ShiftRight, `[0, 1, 4, 8]`, `[1, 1, 1, 4]`, `[0, 0, 2, 0]`)
-				b.assertBinop(compute.ShiftRight, `[0, null, 4, 8]`, `[1, 1, 1, 4]`, `[0, null, 2, 0]`)
-				b.assertBinop(compute.ShiftRight, `[0, 1, 4, 8]`, `[1, 1, null, 4]`, `[0, 0, null, 0]`)
-				b.assertBinop(compute.ShiftRight, `[0, null, 4, 8]`, `[1, 1, null, 4]`, `[0, null, null, 0]`)
-				b.assertBinop(compute.ShiftRight, `[null]`, `[null]`, `[null]`)
-				b.assertBinopScalarValArr(compute.ShiftRight, 64, `[null, 2, 6]`, `[null, 16, 1]`)
-				b.assertBinopScalarArr(compute.ShiftRight, b.makeNullScalar(), `[null, 2, 6]`, `[null, null, null]`)
-				b.assertBinopArrScalarVal(compute.ShiftRight, `[null, 3, 96]`, 3, `[null, 0, 12]`)
-				b.assertBinopArrScalar(compute.ShiftRight, `[null, 3, 96]`, b.makeNullScalar(), `[null, null, null]`)
-			})
-		}
-	})
-}
-
-func (b *BinaryIntegralArithmeticSuite[T]) TestShiftLeftOverflowError() {
-	b.Run(b.DataType().String(), func() {
-		bitWidth := b.DataType().(arrow.FixedWidthDataType).BitWidth()
-		if !arrow.IsUnsignedInteger(b.DataType().ID()) {
-			bitWidth--
-		}
-
-		b.setOverflowCheck(true)
-		b.assertBinop(compute.ShiftLeft, `[1]`, fmt.Sprintf("[%d]", bitWidth-1),
-			fmt.Sprintf("[%d]", T(1)<<(bitWidth-1)))
-		b.assertBinop(compute.ShiftLeft, `[2]`, fmt.Sprintf("[%d]", bitWidth-2),
-			fmt.Sprintf("[%d]", T(1)<<(bitWidth-1)))
-		if arrow.IsUnsignedInteger(b.DataType().ID()) {
-			b.assertBinop(compute.ShiftLeft, `[2]`, fmt.Sprintf("[%d]", bitWidth-1), `[0]`)
-			b.assertBinop(compute.ShiftLeft, `[4]`, fmt.Sprintf("[%d]", bitWidth-1), `[0]`)
-			b.assertBinopErr(compute.ShiftLeft, `[1]`, fmt.Sprintf("[%d]", bitWidth), "shift amount must be >= 0 and less than precision of type")
-		} else {
-			// shift a bit into the sign bit
-			b.assertBinop(compute.ShiftLeft, `[2]`, fmt.Sprintf("[%d]", bitWidth-1),
-				fmt.Sprintf("[%d]", b.min))
-			// shift a bit past the sign bit
-			b.assertBinop(compute.ShiftLeft, `[4]`, fmt.Sprintf("[%d]", bitWidth-1), `[0]`)
-			b.assertBinop(compute.ShiftLeft, fmt.Sprintf("[%d]", b.min), `[1]`, `[0]`)
-			b.assertBinopErr(compute.ShiftLeft, `[1, 2]`, `[1, -1]`, "shift amount must be >= 0 and less than precision of type")
-			b.assertBinopErr(compute.ShiftLeft, `[1]`, fmt.Sprintf("[%d]", bitWidth), "shift amount must be >= 0 and less than precision of type")
-
-			b.setOverflowCheck(false)
-			b.assertBinop(compute.ShiftLeft, `[1, 1]`, fmt.Sprintf("[-1, %d]", bitWidth), `[1, 1]`)
-		}
-	})
-}
-
-func (b *BinaryIntegralArithmeticSuite[T]) TestShiftRightOverflowError() {
-	b.Run(b.DataType().String(), func() {
-		bitWidth := b.DataType().(arrow.FixedWidthDataType).BitWidth()
-		if !arrow.IsUnsignedInteger(b.DataType().ID()) {
-			bitWidth--
-		}
-
-		b.setOverflowCheck(true)
-
-		b.assertBinop(compute.ShiftRight, fmt.Sprintf("[%d]", b.max), fmt.Sprintf("[%d]", bitWidth-1), `[1]`)
-		if arrow.IsUnsignedInteger(b.DataType().ID()) {
-			b.assertBinopErr(compute.ShiftRight, `[1]`, fmt.Sprintf("[%d]", bitWidth), "shift amount must be >= 0 and less than precision of type")
-		} else {
-			b.assertBinop(compute.ShiftRight, `[-1, -1]`, `[1, 5]`, `[-1, -1]`)
-			b.assertBinop(compute.ShiftRight, fmt.Sprintf("[%d]", b.min), `[1]`, fmt.Sprintf("[%d]", b.min/2))
-
-			b.assertBinopErr(compute.ShiftRight, `[1, 2]`, `[1, -1]`, "shift amount must be >= 0 and less than precision of type")
-			b.assertBinopErr(compute.ShiftRight, `[1]`, fmt.Sprintf("[%d]", bitWidth), "shift amount must be >= 0 and less than precision of type")
-
-			b.setOverflowCheck(false)
-			b.assertBinop(compute.ShiftRight, `[1, 1]`, fmt.Sprintf("[-1, %d]", bitWidth), `[1, 1]`)
-		}
-	})
-}
-
-func (b *BinaryIntegralArithmeticSuite[T]) TestTrig() {
-	// integer arguments promoted to float64, sanity check here
-	ty := b.DataType()
-	b.setNansEqual(true)
-	atan2 := func(ctx context.Context, _ compute.ArithmeticOptions, x, y compute.Datum) (compute.Datum, error) {
-		return compute.Atan2(ctx, x, y)
-	}
-
-	lhs, rhs := b.getArr(ty, `[0, 1]`), b.getArr(ty, `[1, 0]`)
-	defer lhs.Release()
-	defer rhs.Release()
-	exp := b.getArr(arrow.PrimitiveTypes.Float64, fmt.Sprintf(`[0, %f]`, math.Pi/2))
-	defer exp.Release()
-
-	b.assertBinopArrs(atan2, lhs, rhs, exp)
-}
-
-func (b *BinaryIntegralArithmeticSuite[T]) TestLog() {
-	// integer arguments promoted to double, sanity check here
-	exp1 := b.getArr(arrow.PrimitiveTypes.Float64, `[0, 1, null]`)
-	exp2 := b.getArr(arrow.PrimitiveTypes.Float64, `[1, 2, null]`)
-	defer exp1.Release()
-	defer exp2.Release()
-
-	b.assertBinopExpArr(compute.Logb, `[1, 10, null]`, `[10, 10, null]`, exp1)
-	b.assertBinopExpArr(compute.Logb, `[1, 2, null]`, `[2, 2, null]`, exp1)
-	b.assertBinopArrScalarExpArr(compute.Logb, `[10, 100, null]`, scalar.MakeScalar(T(10)), exp2)
-}
-
-func TestBinaryArithmetic(t *testing.T) {
-	suite.Run(t, &BinaryIntegralArithmeticSuite[int8]{BinaryArithmeticSuite[int8]{min: math.MinInt8, max: math.MaxInt8}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[uint8]{BinaryArithmeticSuite[uint8]{min: 0, max: math.MaxUint8}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[int16]{BinaryArithmeticSuite[int16]{min: math.MinInt16, max: math.MaxInt16}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[uint16]{BinaryArithmeticSuite[uint16]{min: 0, max: math.MaxUint16}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[int32]{BinaryArithmeticSuite[int32]{min: math.MinInt32, max: math.MaxInt32}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[uint32]{BinaryArithmeticSuite[uint32]{min: 0, max: math.MaxUint32}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[int64]{BinaryArithmeticSuite[int64]{min: math.MinInt64, max: math.MaxInt64}})
-	suite.Run(t, &BinaryIntegralArithmeticSuite[uint64]{BinaryArithmeticSuite[uint64]{min: 0, max: math.MaxUint64}})
-	suite.Run(t, &BinaryFloatingArithmeticSuite[float32]{BinaryArithmeticSuite[float32]{min: -math.MaxFloat32, max: math.MaxFloat32}, math.SmallestNonzeroFloat32})
-	suite.Run(t, &BinaryFloatingArithmeticSuite[float64]{BinaryArithmeticSuite[float64]{min: -math.MaxFloat64, max: math.MaxFloat64}, math.SmallestNonzeroFloat64})
-	suite.Run(t, new(Float16BinaryFuncTestSuite))
-	suite.Run(t, new(DecimalBinaryArithmeticSuite))
-	suite.Run(t, new(ScalarBinaryTemporalArithmeticSuite))
-}
-
-func TestBinaryArithmeticDispatchBest(t *testing.T) {
-	for _, name := range []string{"add", "sub", "multiply", "divide", "power"} {
-		for _, suffix := range []string{"", "_unchecked"} {
-			name += suffix
-			t.Run(name, func(t *testing.T) {
-
-				tests := []struct {
-					left, right arrow.DataType
-					expected    arrow.DataType
-				}{
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.Null, arrow.PrimitiveTypes.Int32},
-					{arrow.Null, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Int32},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int64},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint64, arrow.PrimitiveTypes.Int64},
-					{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8},
-					{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Uint16},
-					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32},
-					{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float32},
-					{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64},
-					{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64},
-						arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
-					{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64},
-						arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Float64},
-				}
-
-				for _, tt := range tests {
-					CheckDispatchBest(t, name, []arrow.DataType{tt.left, tt.right}, []arrow.DataType{tt.expected, tt.expected})
-				}
-			})
-		}
-	}
-}
-
-type DecimalArithmeticSuite struct {
-	BinaryFuncTestSuite
-}
-
-func (*DecimalArithmeticSuite) positiveScales() []arrow.DataType {
-	return []arrow.DataType{
-		&arrow.Decimal128Type{Precision: 4, Scale: 2},
-		&arrow.Decimal256Type{Precision: 4, Scale: 2},
-		&arrow.Decimal128Type{Precision: 38, Scale: 2},
-		&arrow.Decimal256Type{Precision: 76, Scale: 2},
-	}
-}
-
-func (*DecimalArithmeticSuite) negativeScales() []arrow.DataType {
-	return []arrow.DataType{
-		&arrow.Decimal128Type{Precision: 2, Scale: -2},
-		&arrow.Decimal256Type{Precision: 2, Scale: -2},
-	}
-}
-
-func (ds *DecimalArithmeticSuite) checkDecimalToFloat(fn string, args []compute.Datum) {
-	// validate that fn(*decimals) is the same as
-	// fn([cast(x, float64) x for x in decimals])
-
-	newArgs := make([]compute.Datum, len(args))
-	for i, arg := range args {
-		if arrow.IsDecimal(arg.(compute.ArrayLikeDatum).Type().ID()) {
-			casted, err := compute.CastDatum(ds.ctx, arg, compute.NewCastOptions(arrow.PrimitiveTypes.Float64, true))
-			ds.Require().NoError(err)
-			defer casted.Release()
-			newArgs[i] = casted
-		} else {
-			newArgs[i] = arg
-		}
-	}
-
-	expected, err := compute.CallFunction(ds.ctx, fn, nil, newArgs...)
-	ds.Require().NoError(err)
-	defer expected.Release()
-	actual, err := compute.CallFunction(ds.ctx, fn, nil, args...)
-	ds.Require().NoError(err)
-	defer actual.Release()
-
-	assertDatumsEqual(ds.T(), expected, actual, []array.EqualOption{array.WithNaNsEqual(true)}, []scalar.EqualOption{scalar.WithNaNsEqual(true)})
-}
-
-func (ds *DecimalArithmeticSuite) checkFail(fn string, args []compute.Datum, substr string, opts compute.FunctionOptions) {
-	_, err := compute.CallFunction(ds.ctx, fn, opts, args...)
-	ds.ErrorIs(err, arrow.ErrInvalid)
-	ds.ErrorContains(err, substr)
-}
-
-func (ds *DecimalArithmeticSuite) decimalArrayFromJSON(ty arrow.DataType, str string) arrow.Array {
-	arr, _, err := array.FromJSON(ds.mem, ty, strings.NewReader(str))
-	ds.Require().NoError(err)
-	return arr
-}
-
-type DecimalBinaryArithmeticSuite struct {
-	DecimalArithmeticSuite
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestDispatchBest() {
-	// decimal, floating point
-	ds.Run("dec/floatingpoint", func() {
-		for _, fn := range []string{"add", "sub", "multiply", "divide"} {
-			for _, suffix := range []string{"", "_unchecked"} {
-				fn += suffix
-				ds.Run(fn, func() {
-
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal128Type{Precision: 1, Scale: 0},
-						arrow.PrimitiveTypes.Float32}, []arrow.DataType{
-						arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal256Type{Precision: 1, Scale: 0}, arrow.PrimitiveTypes.Float64},
-						[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						arrow.PrimitiveTypes.Float32, &arrow.Decimal256Type{Precision: 1, Scale: 0}},
-						[]arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						arrow.PrimitiveTypes.Float64, &arrow.Decimal128Type{Precision: 1, Scale: 0}},
-						[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-				})
-			}
-		}
-	})
-
-	// decimal, decimal => decimal
-	// decimal, integer => decimal
-	ds.Run("dec/dec_int", func() {
-		for _, fn := range []string{"add", "sub"} {
-			for _, suffix := range []string{"", "_unchecked"} {
-				fn += suffix
-				ds.Run(fn, func() {
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						arrow.PrimitiveTypes.Int64, &arrow.Decimal128Type{Precision: 1, Scale: 0}},
-						[]arrow.DataType{&arrow.Decimal128Type{Precision: 19, Scale: 0},
-							&arrow.Decimal128Type{Precision: 1, Scale: 0}})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal128Type{Precision: 1, Scale: 0}, arrow.PrimitiveTypes.Int64},
-						[]arrow.DataType{&arrow.Decimal128Type{Precision: 1, Scale: 0},
-							&arrow.Decimal128Type{Precision: 19, Scale: 0}})
-
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-						[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 1},
-							&arrow.Decimal128Type{Precision: 2, Scale: 1}})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-						[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
-							&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-						[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
-							&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-						[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
-							&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal128Type{Precision: 2, Scale: 0}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-						[]arrow.DataType{&arrow.Decimal128Type{Precision: 3, Scale: 1},
-							&arrow.Decimal128Type{Precision: 2, Scale: 1}})
-					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 0}},
-						[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 1},
-							&arrow.Decimal128Type{Precision: 3, Scale: 1}})
-				})
-			}
-		}
-	})
-
-	{
-		fn := "multiply"
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			ds.Run(fn, func() {
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					arrow.PrimitiveTypes.Int64, &arrow.Decimal128Type{Precision: 1}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 19},
-						&arrow.Decimal128Type{Precision: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 1}, arrow.PrimitiveTypes.Int64},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 1},
-						&arrow.Decimal128Type{Precision: 19}})
-
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 1},
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 0}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 0},
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 0}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 1},
-						&arrow.Decimal128Type{Precision: 2, Scale: 0}})
-			})
-		}
-	}
-
-	{
-		fn := "divide"
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			ds.Run(fn, func() {
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					arrow.PrimitiveTypes.Int64, &arrow.Decimal128Type{Precision: 1, Scale: 0}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 23, Scale: 4},
-						&arrow.Decimal128Type{Precision: 1, Scale: 0}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 1, Scale: 0}, arrow.PrimitiveTypes.Int64},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 21, Scale: 20},
-						&arrow.Decimal128Type{Precision: 19, Scale: 0}})
-
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 6, Scale: 5},
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal256Type{Precision: 6, Scale: 5},
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal256Type{Precision: 6, Scale: 5},
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal256Type{Precision: 6, Scale: 5},
-						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
-
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 0}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 7, Scale: 5},
-						&arrow.Decimal128Type{Precision: 2, Scale: 1}})
-				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
-					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 0}},
-					[]arrow.DataType{&arrow.Decimal128Type{Precision: 5, Scale: 4},
-						&arrow.Decimal128Type{Precision: 2, Scale: 0}})
-			})
-		}
-	}
-
-	for _, name := range []string{"power", "power_unchecked", "atan2", "logb", "logb_unchecked"} {
-		ds.Run(name, func() {
-			CheckDispatchBest(ds.T(), name, []arrow.DataType{
-				&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-			CheckDispatchBest(ds.T(), name, []arrow.DataType{
-				&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
-				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-			CheckDispatchBest(ds.T(), name, []arrow.DataType{
-				&arrow.Decimal128Type{Precision: 2, Scale: 1}, arrow.PrimitiveTypes.Int64},
-				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-			CheckDispatchBest(ds.T(), name, []arrow.DataType{
-				arrow.PrimitiveTypes.Int32, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-			CheckDispatchBest(ds.T(), name, []arrow.DataType{
-				&arrow.Decimal128Type{Precision: 2, Scale: 1}, arrow.PrimitiveTypes.Float64},
-				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-			CheckDispatchBest(ds.T(), name, []arrow.DataType{
-				arrow.PrimitiveTypes.Float32, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
-				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
-		})
-	}
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestAddSubtractDec128() {
-	left, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 30, Scale: 3},
-		strings.NewReader(`["1.000", "-123456789012345678901234567.890", "98765432109876543210.987", "-999999999999999999999999999.999"]`))
-	defer left.Release()
-	right, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 20, Scale: 9},
-		strings.NewReader(`["-1.000000000", "12345678901.234567890", "98765.432101234", "-99999999999.999999999"]`))
-	defer right.Release()
-	added, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 37, Scale: 9},
-		strings.NewReader(`["0.000000000", "-123456789012345666555555666.655432110", "98765432109876641976.419101234", "-1000000000000000099999999999.998999999"]`))
-	defer added.Release()
-	subtracted, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 37, Scale: 9},
-		strings.NewReader(`["2.000000000", "-123456789012345691246913469.124567890", "98765432109876444445.554898766", "-999999999999999899999999999.999000001"]`))
-	defer subtracted.Release()
-
-	leftDatum, rightDatum := &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()}
-	checkScalarBinary(ds.T(), "add", leftDatum, rightDatum, &compute.ArrayDatum{Value: added.Data()}, nil)
-	checkScalarBinary(ds.T(), "sub", leftDatum, rightDatum, &compute.ArrayDatum{Value: subtracted.Data()}, nil)
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestAddSubtractDec256() {
-	left, _, _ := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 30, Scale: 20},
-		strings.NewReader(`[
-			"-1.00000000000000000001",
-			"1234567890.12345678900000000000",
-			"-9876543210.09876543210987654321",
-			"9999999999.99999999999999999999"
-		  ]`))
-	defer left.Release()
-	right, _, _ := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 30, Scale: 10},
-		strings.NewReader(`[
-			"1.0000000000",
-			"-1234567890.1234567890",
-			"6789.5432101234",
-			"99999999999999999999.9999999999"
-		  ]`))
-	defer right.Release()
-	added, _, _ := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 41, Scale: 20},
-		strings.NewReader(`[
-			"-0.00000000000000000001",
-			"0.00000000000000000000",
-			"-9876536420.55555530870987654321",
-			"100000000009999999999.99999999989999999999"
-		  ]`))
-	defer added.Release()
-	subtracted, _, _ := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 41, Scale: 20},
-		strings.NewReader(`[
-			"-2.00000000000000000001",
-			"2469135780.24691357800000000000",
-			"-9876549999.64197555550987654321",
-			"-99999999989999999999.99999999990000000001"
-		  ]`))
-	defer subtracted.Release()
-
-	leftDatum, rightDatum := &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()}
-	checkScalarBinary(ds.T(), "add", leftDatum, rightDatum, &compute.ArrayDatum{Value: added.Data()}, nil)
-	checkScalarBinary(ds.T(), "sub", leftDatum, rightDatum, &compute.ArrayDatum{Value: subtracted.Data()}, nil)
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestAddSubScalars() {
-	ds.Run("scalar_array", func() {
-		left := scalar.NewDecimal128Scalar(decimal128.New(0, 123456), &arrow.Decimal128Type{Precision: 6, Scale: 1})
-		right, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 10, Scale: 3},
-			strings.NewReader(`["1.234", "1234.000", "-9876.543", "666.888"]`))
-		defer right.Release()
-		added, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 11, Scale: 3},
-			strings.NewReader(`["12346.834", "13579.600", "2469.057", "13012.488"]`))
-		defer added.Release()
-		leftSubRight, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 11, Scale: 3},
-			strings.NewReader(`["12344.366", "11111.600", "22222.143", "11678.712"]`))
-		defer leftSubRight.Release()
-		rightSubLeft, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 11, Scale: 3},
-			strings.NewReader(`["-12344.366", "-11111.600", "-22222.143", "-11678.712"]`))
-		defer rightSubLeft.Release()
-
-		rightDatum := &compute.ArrayDatum{right.Data()}
-		addedDatum := &compute.ArrayDatum{added.Data()}
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), rightDatum, addedDatum, nil)
-		checkScalarBinary(ds.T(), "add", rightDatum, compute.NewDatum(left), addedDatum, nil)
-		checkScalarBinary(ds.T(), "sub", compute.NewDatum(left), rightDatum, &compute.ArrayDatum{leftSubRight.Data()}, nil)
-		checkScalarBinary(ds.T(), "sub", rightDatum, compute.NewDatum(left), &compute.ArrayDatum{rightSubLeft.Data()}, nil)
-	})
-
-	ds.Run("scalar_scalar", func() {
-		left := scalar.NewDecimal256Scalar(decimal256.FromU64(666), &arrow.Decimal256Type{Precision: 3})
-		right := scalar.NewDecimal256Scalar(decimal256.FromU64(888), &arrow.Decimal256Type{Precision: 3})
-		added := scalar.NewDecimal256Scalar(decimal256.FromU64(1554), &arrow.Decimal256Type{Precision: 4})
-		subtracted := scalar.NewDecimal256Scalar(decimal256.FromI64(-222), &arrow.Decimal256Type{Precision: 4})
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(added), nil)
-		checkScalarBinary(ds.T(), "sub", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(subtracted), nil)
-	})
-
-	ds.Run("dec128_dec256", func() {
-		left := scalar.NewDecimal128Scalar(decimal128.FromU64(666), &arrow.Decimal128Type{Precision: 3})
-		right := scalar.NewDecimal256Scalar(decimal256.FromU64(888), &arrow.Decimal256Type{Precision: 3})
-		added := scalar.NewDecimal256Scalar(decimal256.FromU64(1554), &arrow.Decimal256Type{Precision: 4})
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(added), nil)
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(added), nil)
-	})
-
-	ds.Run("decimal_float", func() {
-		left := scalar.NewDecimal128Scalar(decimal128.FromU64(666), &arrow.Decimal128Type{Precision: 3})
-		right := scalar.MakeScalar(float64(888))
-		added := scalar.MakeScalar(float64(1554))
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(added), nil)
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(added), nil)
-	})
-
-	ds.Run("decimal_integer", func() {
-		left := scalar.NewDecimal128Scalar(decimal128.FromU64(666), &arrow.Decimal128Type{Precision: 3})
-		right := scalar.MakeScalar(int64(888))
-		added := scalar.NewDecimal128Scalar(decimal128.FromU64(1554), &arrow.Decimal128Type{Precision: 20})
-		subtracted := scalar.NewDecimal128Scalar(decimal128.FromI64(-222), &arrow.Decimal128Type{Precision: 20})
-		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(added), nil)
-		checkScalarBinary(ds.T(), "sub", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(subtracted), nil)
-	})
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestMultiply() {
-	ds.Run("array x array, decimal128", func() {
-		left, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 20, Scale: 10},
-			strings.NewReader(`["1234567890.1234567890", "-0.0000000001", "-9999999999.9999999999"]`))
-		ds.Require().NoError(err)
-		defer left.Release()
-		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 13, Scale: 3},
-			strings.NewReader(`["1234567890.123", "0.001", "-9999999999.999"]`))
-		ds.Require().NoError(err)
-		defer right.Release()
-		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 34, Scale: 13},
-			strings.NewReader(`["1524157875323319737.98709039504701", "-0.0000000000001", "99999999999989999999.0000000000001"]`))
-		ds.Require().NoError(err)
-		defer expected.Release()
-
-		checkScalarBinary(ds.T(), "multiply_unchecked", &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()}, &compute.ArrayDatum{expected.Data()}, nil)
-	})
-
-	ds.Run("array x array decimal256", func() {
-		left, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 30, Scale: 3},
-			strings.NewReader(`["123456789012345678901234567.890", "0.000"]`))
-		ds.Require().NoError(err)
-		defer left.Release()
-		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 20, Scale: 9},
-			strings.NewReader(`["-12345678901.234567890", "99999999999.999999999"]`))
-		ds.Require().NoError(err)
-		defer right.Release()
-		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 51, Scale: 12},
-			strings.NewReader(`["-1524157875323883675034293577501905199.875019052100", "0.000000000000"]`))
-		ds.Require().NoError(err)
-		defer expected.Release()
-		checkScalarBinary(ds.T(), "multiply_unchecked", &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()}, &compute.ArrayDatum{expected.Data()}, nil)
-	})
-
-	ds.Run("scalar x array", func() {
-		left, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3, Scale: 2}, "3.14")
-		ds.Require().NoError(err)
-		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 1, Scale: 0},
-			strings.NewReader(`["1", "2", "3", "4", "5"]`))
-		ds.Require().NoError(err)
-		defer right.Release()
-		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 5, Scale: 2},
-			strings.NewReader(`["3.14", "6.28", "9.42", "12.56", "15.70"]`))
-		ds.Require().NoError(err)
-		defer expected.Release()
-
-		leftDatum, rightDatum := &compute.ScalarDatum{left}, &compute.ArrayDatum{right.Data()}
-		expDatum := &compute.ArrayDatum{expected.Data()}
-
-		checkScalarBinary(ds.T(), "multiply_unchecked", leftDatum, rightDatum, expDatum, nil)
-		checkScalarBinary(ds.T(), "multiply_unchecked", rightDatum, leftDatum, expDatum, nil)
-	})
-
-	ds.Run("scalar x scalar", func() {
-		left, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 1}, "1")
-		ds.Require().NoError(err)
-		right, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 1}, "1")
-		ds.Require().NoError(err)
-		expected, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "1")
-		ds.Require().NoError(err)
-		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
-	})
-
-	ds.Run("decimal128 x decimal256", func() {
-		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3, Scale: 2}, "6.66")
-		right, _ := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 3, Scale: 1}, "88.8")
-		expected, _ := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 7, Scale: 3}, "591.408")
-		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
-		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(expected), nil)
-	})
-
-	ds.Run("decimal x float", func() {
-		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "666")
-		right := scalar.MakeScalar(float64(888))
-		expected := scalar.MakeScalar(float64(591408))
-		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
-		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(expected), nil)
-	})
-
-	ds.Run("decimal x integer", func() {
-		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "666")
-		right := scalar.MakeScalar(int64(888))
-		expected, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 23}, "591408")
-		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
-	})
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestDivide() {
-	ds.Run("array / array, decimal128", func() {
-		left, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 13, Scale: 3},
-			strings.NewReader(`["1234567890.123", "0.001"]`))
-		ds.Require().NoError(err)
-		defer left.Release()
-		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 3, Scale: 0},
-			strings.NewReader(`["-987", "999"]`))
-		ds.Require().NoError(err)
-		defer right.Release()
-		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 17, Scale: 7},
-			strings.NewReader(`["-1250828.6627386", "0.0000010"]`))
-		ds.Require().NoError(err)
-		defer expected.Release()
-
-		checkScalarBinary(ds.T(), "divide_unchecked", &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()}, &compute.ArrayDatum{expected.Data()}, nil)
-	})
-
-	ds.Run("array / array decimal256", func() {
-		left, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 20, Scale: 10},
-			strings.NewReader(`["1234567890.1234567890", "9999999999.9999999999"]`))
-		ds.Require().NoError(err)
-		defer left.Release()
-		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 13, Scale: 3},
-			strings.NewReader(`["1234567890.123", "0.001"]`))
-		ds.Require().NoError(err)
-		defer right.Release()
-		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 34, Scale: 21},
-			strings.NewReader(`["1.000000000000369999093", "9999999999999.999999900000000000000"]`))
-		ds.Require().NoError(err)
-		defer expected.Release()
-		checkScalarBinary(ds.T(), "divide_unchecked", &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()}, &compute.ArrayDatum{expected.Data()}, nil)
-	})
-
-	ds.Run("scalar / array", func() {
-		left, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 1, Scale: 0}, "1")
-		ds.Require().NoError(err)
-		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 1, Scale: 0},
-			strings.NewReader(`["1", "2", "3", "4"]`))
-		ds.Require().NoError(err)
-		defer right.Release()
-		leftDivRight, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 5, Scale: 4},
-			strings.NewReader(`["1.0000", "0.5000", "0.3333", "0.2500"]`))
-		ds.Require().NoError(err)
-		defer leftDivRight.Release()
-		rightDivLeft, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 5, Scale: 4},
-			strings.NewReader(`["1.0000", "2.0000", "3.0000", "4.0000"]`))
-		ds.Require().NoError(err)
-		defer rightDivLeft.Release()
-
-		leftDatum, rightDatum := &compute.ScalarDatum{left}, &compute.ArrayDatum{right.Data()}
-
-		checkScalarBinary(ds.T(), "divide_unchecked", leftDatum, rightDatum, &compute.ArrayDatum{leftDivRight.Data()}, nil)
-		checkScalarBinary(ds.T(), "divide_unchecked", rightDatum, leftDatum, &compute.ArrayDatum{rightDivLeft.Data()}, nil)
-	})
-
-	ds.Run("scalar / scalar", func() {
-		left, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 6, Scale: 5}, "2.71828")
-		ds.Require().NoError(err)
-		right, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 6, Scale: 5}, "3.14159")
-		ds.Require().NoError(err)
-		expected, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 13, Scale: 7}, "0.8652561")
-		ds.Require().NoError(err)
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
-	})
-
-	ds.Run("decimal128 / decimal256", func() {
-		left, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 6, Scale: 5}, "2.71828")
-		ds.Require().NoError(err)
-		right, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 6, Scale: 5}, "3.14159")
-		ds.Require().NoError(err)
-		leftDivRight, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 13, Scale: 7}, "0.8652561")
-		ds.Require().NoError(err)
-		rightDivLeft, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 13, Scale: 7}, "1.1557271")
-		ds.Require().NoError(err)
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(leftDivRight), nil)
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(rightDivLeft), nil)
-	})
-
-	ds.Run("decimal / float", func() {
-		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "100")
-		right := scalar.MakeScalar(float64(50))
-		leftDivRight := scalar.MakeScalar(float64(2))
-		rightDivLeft := scalar.MakeScalar(float64(0.5))
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(leftDivRight), nil)
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(rightDivLeft), nil)
-	})
-
-	ds.Run("decimal / integer", func() {
-		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "100")
-		right := scalar.MakeScalar(int64(50))
-		leftDivRight, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 23, Scale: 20}, "2.0000000000000000000")
-		rightDivLeft, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 23, Scale: 4}, "0.5000")
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(leftDivRight), nil)
-		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(rightDivLeft), nil)
-	})
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestAtan2() {
-	// decimal arguments get promoted to float64, sanity check here
-	fn := "atan2"
-	for _, ty := range ds.positiveScales() {
-		empty := ds.getArr(ty, `[]`)
-		defer empty.Release()
-		ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{empty.Data()}})
-
-		larr := ds.getArr(ty, `["1.00", "10.00", "1.00", "2.00", null]`)
-		defer larr.Release()
-
-		ldatum := &compute.ArrayDatum{larr.Data()}
-
-		test := ds.getArr(ty, `["10.00", "10.00", "2.00", "2.00", null]`)
-		defer test.Release()
-		ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-			&compute.ArrayDatum{test.Data()}})
-
-		test = ds.getArr(&arrow.Decimal128Type{Precision: 4, Scale: 2}, `["10.00", "10.00", "2.00", "2.00", null]`)
-		defer test.Release()
-		ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-			&compute.ArrayDatum{test.Data()}})
-
-		ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-			compute.NewDatum(scalar.MakeScalar(int64(10)))})
-		ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-			compute.NewDatum(scalar.MakeScalar(float64(10)))})
-
-		larr = ds.getArr(arrow.PrimitiveTypes.Float64, `[1, 10, 1, 2, null]`)
-		defer larr.Release()
-
-		sc, _ := scalar.MakeScalarParam("10.00", ty)
-		ds.checkDecimalToFloat(fn, []compute.Datum{
-			&compute.ArrayDatum{larr.Data()},
-			compute.NewDatum(sc)})
-
-		larr = ds.getArr(arrow.PrimitiveTypes.Int64, `[1, 10, 1, 2, null]`)
-		defer larr.Release()
-		ds.checkDecimalToFloat(fn, []compute.Datum{
-			&compute.ArrayDatum{larr.Data()},
-			compute.NewDatum(sc)})
-	}
-
-	for _, ty := range ds.negativeScales() {
-		empty := ds.getArr(ty, `[]`)
-		defer empty.Release()
-		ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{empty.Data()}})
-
-		larr := ds.getArr(ty, `["12E2", "42E2", null]`)
-		defer larr.Release()
-		ds.checkDecimalToFloat(fn, []compute.Datum{
-			&compute.ArrayDatum{larr.Data()}, &compute.ArrayDatum{larr.Data()}})
-
-		rarr := ds.getArr(&arrow.Decimal128Type{Precision: 2, Scale: -2}, `["12E2", "42E2", null]`)
-		defer rarr.Release()
-
-		ds.checkDecimalToFloat(fn, []compute.Datum{
-			&compute.ArrayDatum{larr.Data()}, &compute.ArrayDatum{rarr.Data()}})
-		ds.checkDecimalToFloat(fn, []compute.Datum{
-			&compute.ArrayDatum{larr.Data()}, compute.NewDatum(scalar.MakeScalar(int64(10)))})
-	}
-}
-
-func (ds *DecimalBinaryArithmeticSuite) TestLogb() {
-	// decimal arguments get promoted to float64, sanity check here
-	for _, fn := range []string{"logb", "logb_unchecked"} {
-		ds.Run(fn, func() {
-			for _, ty := range ds.positiveScales() {
-				empty := ds.getArr(ty, `[]`)
-				defer empty.Release()
-				ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{empty.Data()}})
-
-				larr := ds.getArr(ty, `["1.00", "10.00", "1.00", "2.00", null]`)
-				defer larr.Release()
-
-				ldatum := &compute.ArrayDatum{larr.Data()}
-
-				test := ds.getArr(ty, `["10.00", "10.00", "2.00", "2.00", null]`)
-				defer test.Release()
-				ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-					&compute.ArrayDatum{test.Data()}})
-
-				test = ds.getArr(&arrow.Decimal128Type{Precision: 4, Scale: 2}, `["10.00", "10.00", "2.00", "2.00", null]`)
-				defer test.Release()
-				ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-					&compute.ArrayDatum{test.Data()}})
-
-				ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-					compute.NewDatum(scalar.MakeScalar(int64(10)))})
-				ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
-					compute.NewDatum(scalar.MakeScalar(float64(10)))})
-
-				larr = ds.getArr(arrow.PrimitiveTypes.Float64, `[1, 10, 1, 2, null]`)
-				defer larr.Release()
-
-				sc, _ := scalar.MakeScalarParam("10.00", ty)
-				ds.checkDecimalToFloat(fn, []compute.Datum{
-					&compute.ArrayDatum{larr.Data()},
-					compute.NewDatum(sc)})
-
-				larr = ds.getArr(arrow.PrimitiveTypes.Int64, `[1, 10, 1, 2, null]`)
-				defer larr.Release()
-				ds.checkDecimalToFloat(fn, []compute.Datum{
-					&compute.ArrayDatum{larr.Data()},
-					compute.NewDatum(sc)})
-			}
-
-			for _, ty := range ds.negativeScales() {
-				empty := ds.getArr(ty, `[]`)
-				defer empty.Release()
-				ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{empty.Data()}})
-
-				larr := ds.getArr(ty, `["12E2", "42E2", null]`)
-				defer larr.Release()
-				ds.checkDecimalToFloat(fn, []compute.Datum{
-					&compute.ArrayDatum{larr.Data()}, &compute.ArrayDatum{larr.Data()}})
-
-				rarr := ds.getArr(&arrow.Decimal128Type{Precision: 2, Scale: -2}, `["12E2", "42E2", null]`)
-				defer rarr.Release()
-
-				ds.checkDecimalToFloat(fn, []compute.Datum{
-					&compute.ArrayDatum{larr.Data()}, &compute.ArrayDatum{rarr.Data()}})
-				ds.checkDecimalToFloat(fn, []compute.Datum{
-					&compute.ArrayDatum{larr.Data()}, compute.NewDatum(scalar.MakeScalar(int64(10)))})
-			}
-		})
-	}
-}
-
-type DecimalUnaryArithmeticSuite struct {
-	DecimalArithmeticSuite
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestAbsoluteValue() {
-	max128 := decimal128.GetMaxValue(38)
-	max256 := decimal256.GetMaxValue(76)
-	ds.Run("decimal", func() {
-		for _, fn := range []string{"abs_unchecked", "abs"} {
-			ds.Run(fn, func() {
-				for _, ty := range ds.positiveScales() {
-					ds.Run(ty.String(), func() {
-						empty, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`[]`))
-						defer empty.Release()
-						in, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["1.00", "-42.15", null]`))
-						defer in.Release()
-						exp, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["1.00", "42.15", null]`))
-						defer exp.Release()
-
-						checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, nil)
-						checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}}, &compute.ArrayDatum{exp.Data()}, nil)
-					})
-				}
-
-				checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal128Scalar(max128.Negate(), &arrow.Decimal128Type{Precision: 38}))},
-					compute.NewDatum(scalar.NewDecimal128Scalar(max128, &arrow.Decimal128Type{Precision: 38})), nil)
-				checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal256Scalar(max256.Negate(), &arrow.Decimal256Type{Precision: 76}))},
-					compute.NewDatum(scalar.NewDecimal256Scalar(max256, &arrow.Decimal256Type{Precision: 76})), nil)
-				for _, ty := range ds.negativeScales() {
-					ds.Run(ty.String(), func() {
-						empty, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`[]`))
-						defer empty.Release()
-						in, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["12E2", "-42E2", null]`))
-						defer in.Release()
-						exp, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["12E2", "42E2", null]`))
-						defer exp.Release()
-
-						checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, nil)
-						checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}}, &compute.ArrayDatum{exp.Data()}, nil)
-					})
-				}
-			})
-		}
-	})
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestNegate() {
-	max128 := decimal128.GetMaxValue(38)
-	max256 := decimal256.GetMaxValue(76)
-
-	for _, fn := range []string{"negate_unchecked", "negate"} {
-		ds.Run(fn, func() {
-			for _, ty := range ds.positiveScales() {
-				empty, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`[]`))
-				defer empty.Release()
-				in, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["0.00", "1.00", "-42.15", null]`))
-				defer in.Release()
-				exp, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["0.00", "-1.00", "42.15", null]`))
-				defer exp.Release()
-
-				checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, nil)
-				checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}}, &compute.ArrayDatum{exp.Data()}, nil)
-			}
-
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal128Scalar(max128.Negate(), &arrow.Decimal128Type{Precision: 38}))},
-				compute.NewDatum(scalar.NewDecimal128Scalar(max128, &arrow.Decimal128Type{Precision: 38})), nil)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal256Scalar(max256.Negate(), &arrow.Decimal256Type{Precision: 76}))},
-				compute.NewDatum(scalar.NewDecimal256Scalar(max256, &arrow.Decimal256Type{Precision: 76})), nil)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal128Scalar(max128, &arrow.Decimal128Type{Precision: 38}))},
-				compute.NewDatum(scalar.NewDecimal128Scalar(max128.Negate(), &arrow.Decimal128Type{Precision: 38})), nil)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal256Scalar(max256, &arrow.Decimal256Type{Precision: 76}))},
-				compute.NewDatum(scalar.NewDecimal256Scalar(max256.Negate(), &arrow.Decimal256Type{Precision: 76})), nil)
-			for _, ty := range ds.negativeScales() {
-				ds.Run(ty.String(), func() {
-					empty, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`[]`))
-					defer empty.Release()
-					in, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["0", "12E2", "-42E2", null]`))
-					defer in.Release()
-					exp, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["0", "-12E2", "42E2", null]`))
-					defer exp.Release()
-
-					checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, nil)
-					checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}}, &compute.ArrayDatum{exp.Data()}, nil)
-				})
-			}
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestSquareRoot() {
-	for _, fn := range []string{"sqrt_unchecked", "sqrt"} {
-		ds.Run(fn, func() {
-			for _, ty := range ds.positiveScales() {
-				ds.Run(ty.String(), func() {
-					empty := ds.decimalArrayFromJSON(ty, `[]`)
-					defer empty.Release()
-					arr := ds.decimalArrayFromJSON(ty, `["4.00", "16.00", "36.00", null]`)
-					defer arr.Release()
-
-					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{Value: empty.Data()}})
-					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{Value: arr.Data()}})
-
-					neg := ds.decimalArrayFromJSON(ty, `["-2.00"]`)
-					defer neg.Release()
-					ds.checkFail("sqrt", []compute.Datum{&compute.ArrayDatum{Value: neg.Data()}}, "square root of negative number", nil)
-				})
-			}
-
-			for _, ty := range ds.negativeScales() {
-				ds.Run(ty.String(), func() {
-					empty := ds.decimalArrayFromJSON(ty, `[]`)
-					defer empty.Release()
-					arr := ds.decimalArrayFromJSON(ty, `["400", "1600", "3600", null]`)
-					defer arr.Release()
-
-					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{Value: empty.Data()}})
-					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{Value: arr.Data()}})
-
-					neg := ds.decimalArrayFromJSON(ty, `["-400"]`)
-					defer neg.Release()
-					ds.checkFail("sqrt", []compute.Datum{&compute.ArrayDatum{Value: neg.Data()}}, "square root of negative number", nil)
-				})
-			}
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestSign() {
-	max128 := decimal128.GetMaxValue(38)
-	max256 := decimal256.GetMaxValue(76)
-
-	for _, ty := range ds.positiveScales() {
-		empty := ds.decimalArrayFromJSON(ty, `[]`)
-		defer empty.Release()
-		emptyOut := ds.decimalArrayFromJSON(arrow.PrimitiveTypes.Int64, `[]`)
-		defer emptyOut.Release()
-		in := ds.decimalArrayFromJSON(ty, `["1.00", "0.00", "-42.15", null]`)
-		defer in.Release()
-		exp := ds.decimalArrayFromJSON(arrow.PrimitiveTypes.Int64, `[1, 0, -1, null]`)
-		defer exp.Release()
-
-		checkScalar(ds.T(), "sign", []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-			&compute.ArrayDatum{emptyOut.Data()}, nil)
-		checkScalar(ds.T(), "sign", []compute.Datum{&compute.ArrayDatum{in.Data()}},
-			&compute.ArrayDatum{exp.Data()}, nil)
-	}
-
-	checkScalar(ds.T(), "sign", []compute.Datum{compute.NewDatum(
-		scalar.NewDecimal128Scalar(max128, &arrow.Decimal128Type{Precision: 38}))},
-		compute.NewDatum(scalar.MakeScalar(int64(1))), nil)
-	checkScalar(ds.T(), "sign", []compute.Datum{compute.NewDatum(
-		scalar.NewDecimal128Scalar(max128.Negate(), &arrow.Decimal128Type{Precision: 38}))},
-		compute.NewDatum(scalar.MakeScalar(int64(-1))), nil)
-	checkScalar(ds.T(), "sign", []compute.Datum{compute.NewDatum(
-		scalar.NewDecimal256Scalar(max256, &arrow.Decimal256Type{Precision: 38}))},
-		compute.NewDatum(scalar.MakeScalar(int64(1))), nil)
-	checkScalar(ds.T(), "sign", []compute.Datum{compute.NewDatum(
-		scalar.NewDecimal256Scalar(max256.Negate(), &arrow.Decimal256Type{Precision: 38}))},
-		compute.NewDatum(scalar.MakeScalar(int64(-1))), nil)
-
-	for _, ty := range ds.negativeScales() {
-		empty := ds.decimalArrayFromJSON(ty, `[]`)
-		defer empty.Release()
-		emptyOut := ds.decimalArrayFromJSON(arrow.PrimitiveTypes.Int64, `[]`)
-		defer emptyOut.Release()
-		in := ds.decimalArrayFromJSON(ty, `["12e2", "0.00", "-42E2", null]`)
-		defer in.Release()
-		exp := ds.decimalArrayFromJSON(arrow.PrimitiveTypes.Int64, `[1, 0, -1, null]`)
-		defer exp.Release()
-
-		checkScalar(ds.T(), "sign", []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-			&compute.ArrayDatum{emptyOut.Data()}, nil)
-		checkScalar(ds.T(), "sign", []compute.Datum{&compute.ArrayDatum{in.Data()}},
-			&compute.ArrayDatum{exp.Data()}, nil)
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestTrigAcosAsin() {
-	for _, fn := range []string{"acos", "acos_unchecked", "asin", "asin_unchecked"} {
-		ds.Run(fn, func() {
-			for _, ty := range ds.positiveScales() {
-				ds.Run(ty.String(), func() {
-					empty := ds.decimalArrayFromJSON(ty, `[]`)
-					defer empty.Release()
-					vals := ds.decimalArrayFromJSON(ty, `["0.00", "-1.00", "1.00", null]`)
-					defer vals.Release()
-					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
-					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
-				})
-			}
-		})
-	}
-
-	for _, fn := range []string{"acos", "asin"} {
-		ds.Run(fn, func() {
-			for _, ty := range ds.negativeScales() {
-				ds.Run(ty.String(), func() {
-					arr := ds.decimalArrayFromJSON(ty, `["12E2", "-42E2", null]`)
-					defer arr.Release()
-					ds.checkDecimalToFloat(fn+"_unchecked", []compute.Datum{&compute.ArrayDatum{arr.Data()}})
-					ds.checkFail(fn, []compute.Datum{&compute.ArrayDatum{arr.Data()}}, "domain error", nil)
-				})
-			}
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestAtan() {
-	fn := "atan"
-	for _, ty := range ds.positiveScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.decimalArrayFromJSON(ty, `[]`)
-			defer empty.Release()
-			vals := ds.decimalArrayFromJSON(ty, `["0.00", "-1.00", "1.00", null]`)
-			defer vals.Release()
-			ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
-			ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
-		})
-	}
-	for _, ty := range ds.negativeScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.decimalArrayFromJSON(ty, `[]`)
-			defer empty.Release()
-			vals := ds.decimalArrayFromJSON(ty, `["12E2", "-42E2", null]`)
-			defer vals.Release()
-			ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
-			ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestTrig() {
-	for _, fn := range []string{"cos", "sin", "tan"} {
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			ds.Run(fn, func() {
-				for _, ty := range ds.positiveScales() {
-					ds.Run(ty.String(), func() {
-						empty := ds.decimalArrayFromJSON(ty, `[]`)
-						defer empty.Release()
-						vals := ds.decimalArrayFromJSON(ty, `["0.00", "-1.00", "1.00", null]`)
-						defer vals.Release()
-						ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
-						ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
-					})
-				}
-				for _, ty := range ds.negativeScales() {
-					ds.Run(ty.String(), func() {
-						empty := ds.decimalArrayFromJSON(ty, `[]`)
-						defer empty.Release()
-						vals := ds.decimalArrayFromJSON(ty, `["12E2", "-42E2", null]`)
-						defer vals.Release()
-						ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
-						ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
-					})
-				}
-			})
-		}
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRound() {
-	options := compute.RoundOptions{NDigits: 2, Mode: compute.RoundDown}
-
-	cases := []struct {
-		mode compute.RoundMode
-		exp  string
-	}{
-		{compute.RoundDown, `["1.010", "1.010", "1.010", "1.010", "-1.010", "-1.020", "-1.020", "-1.020", null]`},
-		{compute.RoundUp, `["1.010", "1.020", "1.020", "1.020", "-1.010", "-1.010", "-1.010", "-1.010", null]`},
-		{compute.RoundTowardsZero, `["1.010", "1.010", "1.010", "1.010", "-1.010", "-1.010", "-1.010", "-1.010", null]`},
-		{compute.RoundTowardsInfinity, `["1.010", "1.020", "1.020", "1.020", "-1.010", "-1.020", "-1.020", "-1.020", null]`},
-		{compute.RoundHalfDown, `["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null]`},
-		{compute.RoundHalfUp, `["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null]`},
-		{compute.RoundHalfTowardsZero, `["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null]`},
-		{compute.RoundHalfTowardsInfinity, `["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null]`},
-		{compute.RoundHalfToEven, `["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null]`},
-		{compute.RoundHalfToOdd, `["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null]`},
-	}
-
-	fn := "round"
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 3}, &arrow.Decimal256Type{Precision: 4, Scale: 3}} {
-		ds.Run(ty.String(), func() {
-			values := ds.getArr(ty, `["1.010", "1.012", "1.015", "1.019", "-1.010", "-1.012", "-1.015", "-1.019", null]`)
-			defer values.Release()
-
-			for _, tt := range cases {
-				ds.Run(tt.mode.String(), func() {
-					options.Mode = tt.mode
-					exp := ds.getArr(ty, tt.exp)
-					defer exp.Release()
-					checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{values.Data()}},
-						&compute.ArrayDatum{exp.Data()}, options)
-				})
-			}
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundTowardsInfinity() {
-	fn := "round"
-	options := compute.RoundOptions{NDigits: 0, Mode: compute.RoundTowardsInfinity}
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-			vals := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
-			defer vals.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
-			input := []compute.Datum{&compute.ArrayDatum{vals.Data()}}
-
-			options.NDigits = 0
-
-			exp0 := ds.getArr(ty, `["1.00", "2.00", "2.00", "-42.00", "-43.00", "-43.00", null]`)
-			defer exp0.Release()
-
-			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{exp0.Data()}, options)
-
-			exp1 := ds.getArr(ty, `["1.00", "2.00", "1.10", "-42.00", "-43.00", "-42.20", null]`)
-			defer exp1.Release()
-
-			options.NDigits = 1
-			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{exp1.Data()}, options)
-
-			options.NDigits = 2
-			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{vals.Data()}, options)
-			options.NDigits = 4
-			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{vals.Data()}, options)
-			options.NDigits = 100
-			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{vals.Data()}, options)
-
-			options.NDigits = -1
-			neg := ds.getArr(ty, `["10.00", "10.00", "10.00", "-50.00", "-50.00", "-50.00", null]`)
-			defer neg.Release()
-			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{neg.Data()}, options)
-
-			options.NDigits = -2
-			ds.checkFail(fn, input, "rounding to -2 digits will not fit in precision", options)
-			options.NDigits = -1
-
-			noprec := ds.getArr(ty, `["99.99"]`)
-			defer noprec.Release()
-			ds.checkFail(fn, []compute.Datum{&compute.ArrayDatum{noprec.Data()}}, "rounded value 100.00 does not fit in precision", options)
-		})
-	}
-
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: -2}, &arrow.Decimal256Type{Precision: 2, Scale: -2}} {
-		ds.Run(ty.String(), func() {
-			values := ds.getArr(ty, `["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null]`)
-			defer values.Release()
-
-			input := &compute.ArrayDatum{values.Data()}
-
-			options.NDigits = 0
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = 2
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = 100
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -1
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -2
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -3
-			res := ds.getArr(ty, `["10E2", "20E2", "20E2", "-10E2", "-20E2", "-20E2", null]`)
-			defer res.Release()
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{res.Data()}, options)
-
-			options.NDigits = -4
-			ds.checkFail(fn, []compute.Datum{input}, "rounding to -4 digits will not fit in precision", options)
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundHalfToEven() {
-	fn := "round"
-	options := compute.RoundOptions{NDigits: 0, Mode: compute.RoundHalfToEven}
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
-
-			values := ds.getArr(ty, `["1.00", "5.99", "1.01", "-42.00", "-42.99", "-42.15", "1.50", "2.50", "-5.50", "-2.55", null]`)
-			defer values.Release()
-			input := &compute.ArrayDatum{values.Data()}
-
-			exp0 := ds.getArr(ty, `["1.00", "6.00", "1.00", "-42.00", "-43.00", "-42.00", "2.00", "2.00", "-6.00", "-3.00", null]`)
-			defer exp0.Release()
-
-			exp1 := ds.getArr(ty, `["1.00", "6.00", "1.00", "-42.00", "-43.00", "-42.20", "1.50", "2.50", "-5.50", "-2.60", null]`)
-			defer exp1.Release()
-
-			expNeg1 := ds.getArr(ty, `["0.00", "10.00", "0.00", "-40.00", "-40.00", "-40.00", "0.00", "0.00", "-10.00", "0.00", null]`)
-			defer expNeg1.Release()
-
-			options.NDigits = 0
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp0.Data()}, options)
-			options.NDigits = 1
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp1.Data()}, options)
-			options.NDigits = 2
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = 4
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = 100
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -1
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{expNeg1.Data()}, options)
-			options.NDigits = -2
-			ds.checkFail(fn, []compute.Datum{input}, "rounding to -2 digits will not fit in precision", options)
-			options.NDigits = -1
-			noprec := ds.getArr(ty, `["99.99"]`)
-			defer noprec.Release()
-			ds.checkFail(fn, []compute.Datum{&compute.ArrayDatum{noprec.Data()}}, "rounded value 100.00 does not fit in precision", options)
-		})
-	}
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: -2}, &arrow.Decimal256Type{Precision: 2, Scale: -2}} {
-		ds.Run(ty.String(), func() {
-			values := ds.getArr(ty, `["5E2", "10E2", "12E2", "15E2", "18E2", "-10E2", "-12E2", "-15E2", "-18E2", null]`)
-			defer values.Release()
-
-			input := &compute.ArrayDatum{values.Data()}
-
-			options.NDigits = 0
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = 2
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = 100
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -1
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -2
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-			options.NDigits = -3
-			res := ds.getArr(ty, `["0", "10E2", "10E2", "20E2", "20E2", "-10E2", "-10E2", "-20E2", "-20E2", null]`)
-			defer res.Release()
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{res.Data()}, options)
-
-			options.NDigits = -4
-			ds.checkFail(fn, []compute.Datum{input}, "rounding to -4 digits will not fit in precision", options)
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundCeil() {
-	fn := "ceil"
-	for _, ty := range ds.positiveScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-				&compute.ArrayDatum{empty.Data()}, nil)
-
-			in := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
-			defer in.Release()
-			out := ds.getArr(ty, `["1.00", "2.00", "2.00", "-42.00", "-42.00", "-42.00", null]`)
-			defer out.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}},
-				&compute.ArrayDatum{out.Data()}, nil)
-		})
-	}
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			sc, _ := scalar.MakeScalarParam("99.99", ty)
-			ds.checkFail(fn, []compute.Datum{compute.NewDatum(sc)}, "rounded value 100.00 does not fit in precision of decimal", nil)
-			sc, _ = scalar.MakeScalarParam("-99.99", ty)
-			out, _ := scalar.MakeScalarParam("-99.00", ty)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(sc)}, compute.NewDatum(out), nil)
-		})
-	}
-	for _, ty := range ds.negativeScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-				&compute.ArrayDatum{empty.Data()}, nil)
-
-			ex := ds.getArr(ty, `["12E2", "-42E2", null]`)
-			defer ex.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{ex.Data()}},
-				&compute.ArrayDatum{ex.Data()}, nil)
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundFloor() {
-	fn := "floor"
-	for _, ty := range ds.positiveScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-				&compute.ArrayDatum{empty.Data()}, nil)
-
-			in := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
-			defer in.Release()
-			out := ds.getArr(ty, `["1.00", "1.00", "1.00", "-42.00", "-43.00", "-43.00", null]`)
-			defer out.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}},
-				&compute.ArrayDatum{out.Data()}, nil)
-		})
-	}
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			sc, _ := scalar.MakeScalarParam("-99.99", ty)
-			ds.checkFail(fn, []compute.Datum{compute.NewDatum(sc)}, "rounded value -100.00 does not fit in precision of decimal", nil)
-			sc, _ = scalar.MakeScalarParam("99.99", ty)
-			out, _ := scalar.MakeScalarParam("99.00", ty)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(sc)}, compute.NewDatum(out), nil)
-		})
-	}
-	for _, ty := range ds.negativeScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-				&compute.ArrayDatum{empty.Data()}, nil)
-
-			ex := ds.getArr(ty, `["12E2", "-42E2", null]`)
-			defer ex.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{ex.Data()}},
-				&compute.ArrayDatum{ex.Data()}, nil)
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundTrunc() {
-	fn := "trunc"
-	for _, ty := range ds.positiveScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-				&compute.ArrayDatum{empty.Data()}, nil)
-
-			in := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
-			defer in.Release()
-			out := ds.getArr(ty, `["1.00", "1.00", "1.00", "-42.00", "-42.00", "-42.00", null]`)
-			defer out.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}},
-				&compute.ArrayDatum{out.Data()}, nil)
-		})
-	}
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			sc, _ := scalar.MakeScalarParam("99.99", ty)
-			out, _ := scalar.MakeScalarParam("99.00", ty)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(sc)}, compute.NewDatum(out), nil)
-			sc, _ = scalar.MakeScalarParam("-99.99", ty)
-			out, _ = scalar.MakeScalarParam("-99.00", ty)
-			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(sc)}, compute.NewDatum(out), nil)
-		})
-	}
-	for _, ty := range ds.negativeScales() {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
-				&compute.ArrayDatum{empty.Data()}, nil)
-
-			ex := ds.getArr(ty, `["12E2", "-42E2", null]`)
-			defer ex.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{ex.Data()}},
-				&compute.ArrayDatum{ex.Data()}, nil)
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundToMultiple() {
-	fn := "round_to_multiple"
-	var options compute.RoundToMultipleOptions
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			if ty.ID() == arrow.DECIMAL128 {
-				options.Multiple, _ = scalar.MakeScalarParam(decimal128.FromI64(200), ty)
-			} else {
-				options.Multiple, _ = scalar.MakeScalarParam(decimal256.FromI64(200), ty)
-			}
-
-			values := ds.getArr(ty, `["-3.50", "-3.00", "-2.50", "-2.00", "-1.50", "-1.00", "-0.50", "0.00", "0.50", "1.00", "1.50", "2.00", "2.50", "3.00", "3.50", null]`)
-			defer values.Release()
-
-			input := []compute.Datum{&compute.ArrayDatum{values.Data()}}
-
-			tests := []struct {
-				mode compute.RoundMode
-				exp  string
-			}{
-				{compute.RoundDown, `["-4.00", "-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", null]`},
-				{compute.RoundUp, `["-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "-0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", "4.00", null]`},
-				{compute.RoundTowardsZero, `["-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "-0.00", "0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", null]`},
-				{compute.RoundTowardsInfinity, `["-4.00", "-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", "4.00", null]`},
-				{compute.RoundHalfDown, `["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", null]`},
-				{compute.RoundHalfUp, `["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", null]`},
-				{compute.RoundHalfTowardsZero, `["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", null]`},
-				{compute.RoundHalfTowardsInfinity, `["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", null]`},
-				{compute.RoundHalfToEven, `["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "4.00", "4.00", null]`},
-				{compute.RoundHalfToOdd, `["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "2.00", "4.00", null]`},
-			}
-
-			for _, tt := range tests {
-				ds.Run(tt.mode.String(), func() {
-					options.Mode = tt.mode
-
-					result := ds.getArr(ty, tt.exp)
-					defer result.Release()
-
-					checkScalar(ds.T(), fn, input, &compute.ArrayDatum{result.Data()}, options)
-				})
-			}
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundToMultipleTowardsInfinity() {
-	fn := "round_to_multiple"
-	options := compute.RoundToMultipleOptions{Mode: compute.RoundTowardsInfinity}
-	setMultiple := func(ty arrow.DataType, val int64) {
-		if ty.ID() == arrow.DECIMAL128 {
-			options.Multiple = scalar.NewDecimal128Scalar(decimal128.FromI64(val), ty)
-		} else {
-			options.Multiple = scalar.NewDecimal256Scalar(decimal256.FromI64(val), ty)
-		}
-	}
-
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		ds.Run(ty.String(), func() {
-			empty := ds.getArr(ty, `[]`)
-			defer empty.Release()
-
-			values := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
-			defer values.Release()
-
-			input := &compute.ArrayDatum{values.Data()}
-
-			setMultiple(ty, 25)
-			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
-
-			exp25 := ds.getArr(ty, `["1.00", "2.00", "1.25", "-42.00", "-43.00", "-42.25", null]`)
-			defer exp25.Release()
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp25.Data()}, options)
-
-			setMultiple(ty, 1)
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-
-			setMultiple(&arrow.Decimal128Type{Precision: 2, Scale: 0}, 2)
-			exp20 := ds.getArr(ty, `["2.00", "2.00", "2.00", "-42.00", "-44.00", "-44.00", null]`)
-			defer exp20.Release()
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp20.Data()}, options)
-
-			setMultiple(ty, 0)
-			ds.checkFail(fn, []compute.Datum{input}, "rounding multiple must be positive", options)
-
-			options.Multiple = scalar.NewDecimal128Scalar(decimal128.Num{}, &arrow.Decimal128Type{Precision: 4, Scale: 2})
-			ds.checkFail(fn, []compute.Datum{input}, "rounding multiple must be positive", options)
-
-			tester := ds.getArr(ty, `["99.99"]`)
-			defer tester.Release()
-
-			testDatum := &compute.ArrayDatum{tester.Data()}
-
-			setMultiple(ty, -10)
-			ds.checkFail(fn, []compute.Datum{testDatum}, "rounding multiple must be positive", options)
-			setMultiple(ty, 100)
-			ds.checkFail(fn, []compute.Datum{testDatum}, "rounded value 100.00 does not fit in precision", options)
-			options.Multiple = scalar.NewFloat64Scalar(1)
-			ds.checkFail(fn, []compute.Datum{testDatum}, "rounded value 100.00 does not fit in precision", options)
-			options.Multiple = scalar.MakeNullScalar(&arrow.Decimal128Type{Precision: 3})
-			ds.checkFail(fn, []compute.Datum{testDatum}, "rounding multiple must be non-null and valid", options)
-			options.Multiple = nil
-			ds.checkFail(fn, []compute.Datum{testDatum}, "rounding multiple must be non-null and valid", options)
-		})
-	}
-
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: -2}, &arrow.Decimal256Type{Precision: 2, Scale: -2}} {
-		ds.Run(ty.String(), func() {
-			values := ds.getArr(ty, `["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null]`)
-			defer values.Release()
-
-			input := &compute.ArrayDatum{values.Data()}
-
-			setMultiple(ty, 4)
-			exp := ds.getArr(ty, `["12E2", "12E2", "20E2", "-12E2", "-12E2", "-20E2", null]`)
-			defer exp.Release()
-
-			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp.Data()}, options)
-
-			setMultiple(ty, 1)
-			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-		})
-	}
-}
-
-func (ds *DecimalUnaryArithmeticSuite) TestRoundToMultipleHalfToOdd() {
-	fn := "round_to_multiple"
-	options := compute.RoundToMultipleOptions{Mode: compute.RoundHalfToOdd}
-	setMultiple := func(ty arrow.DataType, val int64) {
-		if ty.ID() == arrow.DECIMAL128 {
-			options.Multiple = scalar.NewDecimal128Scalar(decimal128.FromI64(val), ty)
-		} else {
-			options.Multiple = scalar.NewDecimal256Scalar(decimal256.FromI64(val), ty)
-		}
-	}
-
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
-		empty := ds.getArr(ty, `[]`)
-		defer empty.Release()
-
-		values := ds.getArr(ty, `["-0.38", "-0.37", "-0.25", "-0.13", "-0.12", "0.00", "0.12", "0.13", "0.25", "0.37", "0.38", null]`)
-		defer values.Release()
-
-		input := &compute.ArrayDatum{values.Data()}
-
-		// there is no exact halfway point, check what happens
-		setMultiple(ty, 25)
-		checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
-
-		exp25 := ds.getArr(ty, `["-0.50", "-0.25", "-0.25", "-0.25", "-0.00", "0.00", "0.00", "0.25", "0.25", "0.25", "0.50", null]`)
-		defer exp25.Release()
-
-		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp25.Data()}, options)
-
-		setMultiple(ty, 1)
-		checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-		setMultiple(ty, 24)
-		checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
-
-		exp24 := ds.getArr(ty, `["-0.48", "-0.48", "-0.24", "-0.24", "-0.24", "0.00", "0.24", "0.24", "0.24", "0.48", "0.48", null]`)
-		defer exp24.Release()
-		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp24.Data()}, options)
-
-		setMultiple(&arrow.Decimal128Type{Precision: 3, Scale: 1}, 1)
-		exp1 := ds.getArr(ty, `["-0.40", "-0.40", "-0.30", "-0.10", "-0.10", "0.00", "0.10", "0.10", "0.30", "0.40", "0.40", null]`)
-		defer exp1.Release()
-
-		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp1.Data()}, options)
-	}
-
-	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: -2}, &arrow.Decimal256Type{Precision: 2, Scale: -2}} {
-		values := ds.getArr(ty, `["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null]`)
-		defer values.Release()
-
-		exp4 := ds.getArr(ty, `["12E2", "12E2", "20E2", "-12E2", "-12E2", "-20E2", null]`)
-		defer exp4.Release()
-
-		exp5 := ds.getArr(ty, `["10E2", "10E2", "20E2", "-10E2", "-10E2", "-20E2", null]`)
-		defer exp5.Release()
-
-		input := &compute.ArrayDatum{values.Data()}
-		setMultiple(ty, 4)
-		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp4.Data()}, options)
-
-		setMultiple(ty, 5)
-		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp5.Data()}, options)
-
-		setMultiple(ty, 1)
-		checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
-	}
-}
-
-type ScalarBinaryTemporalArithmeticSuite struct {
-	BinaryFuncTestSuite
-}
-
-var (
-	date32JSON = `[0, 11016, -25932, 23148, 18262, 18261, 18260, 14609, 14610, 14612,
-	14613, 13149, 13148, 14241, 14242, 15340, null]`
-	date32JSON2 = `[365, 10650, -25901, 23118, 18263, 18259, 18260, 14609, 14610, 14612,
-	14613, 13149, 13148, 14240, 13937, 15400, null]`
-	date64JSON = `[0, 951782400000, -2240524800000, 1999987200000, 1577836800000,
-	1577750400000, 1577664000000, 1262217600000, 1262304000000, 1262476800000,
-	1262563200000, 1136073600000, 1135987200000, 1230422400000, 1230508800000,
-	1325376000000, null]`
-	date64JSON2 = `[31536000000, 920160000000, -2237846400000, 1997395200000,
-	1577923200000, 1577577600000, 1577664000000, 1262217600000, 1262304000000,
-	1262476800000, 1262563200000, 1136073600000, 1135987200000, 1230336000000,
-	1204156800000, 1330560000000, null]`
-	timeJSONs = `[59, 84203, 3560, 12800, 3905, 7810, 11715, 15620, 19525, 23430, 27335,
-	31240, 35145, 0, 0, 3723, null]`
-	timeJSONs2 = `[59, 84203, 12642, 7182, 68705, 7390, 915, 16820, 19525, 5430, 84959,
-	31207, 35145, 0, 0, 3723, null]`
-	timeJSONms = `[59123, 84203999, 3560001, 12800000, 3905001, 7810002, 11715003, 15620004,
-	19525005, 23430006, 27335000, 31240000, 35145000, 0, 0, 3723000, null]`
-	timeJSONms2 = `[59103, 84203999, 12642001, 7182000, 68705005, 7390000, 915003, 16820004,
-	19525005, 5430006, 84959000, 31207000, 35145000, 0, 0, 3723000, null]`
-	timeJSONus = `[59123456, 84203999999, 3560001001, 12800000000, 3905001000, 7810002000,
-	11715003000, 15620004132, 19525005321, 23430006163, 27335000000,
-	31240000000, 35145000000, 0, 0, 3723000000, null]`
-	timeJSONus2 = `[59103476, 84203999999, 12642001001, 7182000000, 68705005000, 7390000000,
-	915003000, 16820004432, 19525005021, 5430006163, 84959000000,
-	31207000000, 35145000000, 0, 0, 3723000000, null]`
-	timeJSONns = `[59123456789, 84203999999999, 3560001001001, 12800000000000, 3905001000000,
-	7810002000000, 11715003000000, 15620004132000, 19525005321000,
-	23430006163000, 27335000000000, 31240000000000, 35145000000000, 0, 0,
-	3723000000000, null]`
-	timeJSONns2 = `[59103476799, 84203999999909, 12642001001001, 7182000000000, 68705005000000,
-	7390000000000, 915003000000, 16820004432000, 19525005021000, 5430006163000,
-	84959000000000, 31207000000000, 35145000000000, 0, 0, 3723000000000, null]`
-)
-
-func (s *ScalarBinaryTemporalArithmeticSuite) TestTemporalAddSub() {
-	tests := []struct {
-		val1 string
-		val2 string
-		dt   arrow.DataType
-		exp  arrow.DataType
-	}{
-		{date32JSON, date32JSON2, arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Duration_s},
-		{date64JSON, date64JSON2, arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Duration_ms},
-		{timeJSONs, timeJSONs2, arrow.FixedWidthTypes.Time32s, arrow.FixedWidthTypes.Duration_s},
-		{timeJSONms, timeJSONms2, arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Duration_ms},
-		{timeJSONus, timeJSONus2, arrow.FixedWidthTypes.Time64us, arrow.FixedWidthTypes.Duration_us},
-		{timeJSONns, timeJSONns2, arrow.FixedWidthTypes.Time64ns, arrow.FixedWidthTypes.Duration_ns},
-	}
-
-	for _, tt := range tests {
-		s.Run(tt.dt.String(), func() {
-			for _, checked := range []bool{true, false} {
-				s.Run(fmt.Sprintf("checked=%t", checked), func() {
-					opts := compute.ArithmeticOptions{NoCheckOverflow: !checked}
-					arr1, _, _ := array.FromJSON(s.mem, tt.dt, strings.NewReader(tt.val1))
-					defer arr1.Release()
-					arr2, _, _ := array.FromJSON(s.mem, tt.dt, strings.NewReader(tt.val2))
-					defer arr2.Release()
-
-					datum1 := &compute.ArrayDatum{Value: arr1.Data()}
-					datum2 := &compute.ArrayDatum{Value: arr2.Data()}
-
-					result, err := compute.Subtract(s.ctx, opts, datum1, datum2)
-					s.Require().NoError(err)
-					defer result.Release()
-					res := result.(*compute.ArrayDatum)
-					s.Truef(arrow.TypeEqual(tt.exp, res.Type()),
-						"expected: %s\n got: %s", tt.exp, res.Type())
-
-					out, err := compute.Add(s.ctx, opts, datum2, result)
-					s.Require().NoError(err)
-					defer out.Release()
-
-					// date32 - date32 / date64 - date64 produce durations
-					// and date + duration == timestamp so we need to cast
-					// the timestamp back to a date in that case. Otherwise
-					// we get back time32/time64 in those cases and can
-					// compare them accurately.
-					if arrow.TypeEqual(arr1.DataType(), out.(*compute.ArrayDatum).Type()) {
-						assertDatumsEqual(s.T(), datum1, out, nil, nil)
-					} else {
-						casted, err := compute.CastDatum(s.ctx, out, compute.SafeCastOptions(arr1.DataType()))
-						s.Require().NoError(err)
-						defer casted.Release()
-						assertDatumsEqual(s.T(), datum1, casted, nil, nil)
-					}
-
-				})
-			}
-		})
-	}
-}
-
-func TestUnaryDispatchBest(t *testing.T) {
-	for _, fn := range []string{"abs"} {
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			t.Run(fn, func(t *testing.T) {
-				for _, ty := range numericTypes {
-					t.Run(ty.String(), func(t *testing.T) {
-						CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
-						CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-							[]arrow.DataType{ty})
-					})
-				}
-			})
-		}
-	}
-
-	for _, fn := range []string{"negate_unchecked", "sign"} {
-		t.Run(fn, func(t *testing.T) {
-			for _, ty := range numericTypes {
-				t.Run(ty.String(), func(t *testing.T) {
-					CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
-					CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-						[]arrow.DataType{ty})
-				})
-			}
-		})
-	}
-
-	for _, fn := range []string{"negate"} {
-		t.Run(fn, func(t *testing.T) {
-			for _, ty := range append(signedIntTypes, floatingTypes...) {
-				t.Run(ty.String(), func(t *testing.T) {
-					CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
-					CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-						[]arrow.DataType{ty})
-				})
-			}
-		})
-	}
-
-	// float types (with _unchecked variants)
-	for _, fn := range []string{"ln", "log2", "log10", "log1p", "sin", "cos", "tan", "asin", "acos"} {
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			t.Run(fn, func(t *testing.T) {
-				for _, ty := range floatingTypes {
-					t.Run(ty.String(), func(t *testing.T) {
-						CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
-						CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-							[]arrow.DataType{ty})
-					})
-				}
-			})
-		}
-	}
-
-	// float types (without _unchecked variants)
-	for _, fn := range []string{"atan", "sign", "floor", "ceil", "trunc", "round"} {
-		t.Run(fn, func(t *testing.T) {
-			for _, ty := range floatingTypes {
-				t.Run(ty.String(), func(t *testing.T) {
-					CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
-					CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-						[]arrow.DataType{ty})
-				})
-			}
-		})
-	}
-
-	// integer -> float64 (with _unchecked variant)
-	for _, fn := range []string{"ln", "log2", "log10", "log1p", "sin", "cos", "tan", "asin", "acos"} {
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			t.Run(fn, func(t *testing.T) {
-				for _, ty := range integerTypes {
-					t.Run(ty.String(), func(t *testing.T) {
-						CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{arrow.PrimitiveTypes.Float64})
-						CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-							[]arrow.DataType{arrow.PrimitiveTypes.Float64})
-					})
-				}
-			})
-		}
-	}
-
-	// integer -> float64 (without _unchecked variants)
-	for _, fn := range []string{"atan", "floor", "ceil", "trunc", "round"} {
-		t.Run(fn, func(t *testing.T) {
-			for _, ty := range integerTypes {
-				t.Run(ty.String(), func(t *testing.T) {
-					CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{arrow.PrimitiveTypes.Float64})
-					CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
-						[]arrow.DataType{arrow.PrimitiveTypes.Float64})
-				})
-			}
-		})
-	}
-}
-
-func TestUnaryArithmeticNull(t *testing.T) {
-	for _, fn := range []string{"abs", "negate", "acos", "asin", "cos", "ln", "log10", "log1p", "log2", "sin", "tan"} {
-		for _, suffix := range []string{"", "_unchecked"} {
-			fn += suffix
-			assertNullToNull(t, context.TODO(), fn, memory.DefaultAllocator)
-		}
-	}
-
-	for _, fn := range []string{"sign", "atan", "bit_wise_not", "floor", "ceil", "trunc", "round"} {
-		assertNullToNull(t, context.TODO(), fn, memory.DefaultAllocator)
-	}
-}
-
-type UnaryArithmeticSuite[T arrow.NumericType, O fnOpts] struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-	ctx context.Context
-
-	opts O
-}
-
-func (us *UnaryArithmeticSuite[T, O]) SetupTest() {
-	us.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	us.ctx = compute.WithAllocator(context.TODO(), us.mem)
-	var def O
-	us.opts = def
-}
-
-func (us *UnaryArithmeticSuite[T, O]) TearDownTest() {
-	us.mem.AssertSize(us.T(), 0)
-}
-
-func (*UnaryArithmeticSuite[T, O]) datatype() arrow.DataType {
-	return arrow.GetDataType[T]()
-}
-
-func (us *UnaryArithmeticSuite[T, O]) makeNullScalar() scalar.Scalar {
-	return scalar.MakeNullScalar(us.datatype())
-}
-
-func (us *UnaryArithmeticSuite[T, O]) makeScalar(v T) scalar.Scalar {
-	return scalar.MakeScalar(v)
-}
-
-func (us *UnaryArithmeticSuite[T, O]) makeArray(v ...T) arrow.Array {
-	return exec.ArrayFromSlice(us.mem, v)
-}
-
-func (us *UnaryArithmeticSuite[T, O]) getArr(dt arrow.DataType, str string) arrow.Array {
-	arr, _, err := array.FromJSON(us.mem, dt, strings.NewReader(str), array.WithUseNumber())
-	us.Require().NoError(err)
-	return arr
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpValError(fn unaryArithmeticFunc[O], arg T, msg string) {
-	in := us.makeScalar(arg)
-	_, err := fn(us.ctx, us.opts, compute.NewDatum(in))
-	us.ErrorIs(err, arrow.ErrInvalid)
-	us.ErrorContains(err, msg)
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpNotImplemented(fn unaryArithmeticFunc[O], arg T, msg string) {
-	in := us.makeScalar(arg)
-	_, err := fn(us.ctx, us.opts, compute.NewDatum(in))
-	us.ErrorIs(err, arrow.ErrNotImplemented)
-	us.ErrorContains(err, msg)
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpVals(fn unaryArithmeticFunc[O], arg, expected T) {
-	in := us.makeScalar(arg)
-	exp := us.makeScalar(expected)
-
-	actual, err := fn(us.ctx, us.opts, compute.NewDatum(in))
-	us.Require().NoError(err)
-	assertScalarEquals(us.T(), exp, actual.(*compute.ScalarDatum).Value, scalar.WithNaNsEqual(true))
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpScalars(fn unaryArithmeticFunc[O], arg, exp scalar.Scalar) {
-	actual, err := fn(us.ctx, us.opts, compute.NewDatum(arg))
-	us.Require().NoError(err)
-	assertScalarEquals(us.T(), exp, actual.(*compute.ScalarDatum).Value, scalar.WithNaNsEqual(true))
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpArrs(fn unaryArithmeticFunc[O], arg, exp arrow.Array) {
-	datum := &compute.ArrayDatum{arg.Data()}
-	actual, err := fn(us.ctx, us.opts, datum)
-	us.Require().NoError(err)
-	defer actual.Release()
-	assertDatumsEqual(us.T(), &compute.ArrayDatum{exp.Data()}, actual, []array.EqualOption{array.WithNaNsEqual(true)}, []scalar.EqualOption{scalar.WithNaNsEqual(true)})
-
-	// also check scalar ops
-	for i := 0; i < arg.Len(); i++ {
-		expScalar, err := scalar.GetScalar(exp, i)
-		us.NoError(err)
-		argScalar, err := scalar.GetScalar(arg, i)
-		us.NoError(err)
-
-		actual, err := fn(us.ctx, us.opts, compute.NewDatum(argScalar))
-		us.Require().NoError(err)
-		assertDatumsEqual(us.T(), compute.NewDatum(expScalar), compute.NewDatum(actual), []array.EqualOption{array.WithNaNsEqual(true)}, []scalar.EqualOption{scalar.WithNaNsEqual(true)})
-	}
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpExpArr(fn unaryArithmeticFunc[O], arg string, exp arrow.Array) {
-	in, _, err := array.FromJSON(us.mem, us.datatype(), strings.NewReader(arg), array.WithUseNumber())
-	us.Require().NoError(err)
-	defer in.Release()
-
-	us.assertUnaryOpArrs(fn, in, exp)
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOp(fn unaryArithmeticFunc[O], arg, exp string) {
-	in, _, err := array.FromJSON(us.mem, us.datatype(), strings.NewReader(arg), array.WithUseNumber())
-	us.Require().NoError(err)
-	defer in.Release()
-	expected, _, err := array.FromJSON(us.mem, us.datatype(), strings.NewReader(exp), array.WithUseNumber())
-	us.Require().NoError(err)
-	defer expected.Release()
-
-	us.assertUnaryOpArrs(fn, in, expected)
-}
-
-func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpErr(fn unaryArithmeticFunc[O], arg string, msg string) {
-	in, _, err := array.FromJSON(us.mem, us.datatype(), strings.NewReader(arg), array.WithUseNumber())
-	us.Require().NoError(err)
-	defer in.Release()
-
-	_, err = fn(us.ctx, us.opts, &compute.ArrayDatum{in.Data()})
-	us.ErrorIs(err, arrow.ErrInvalid)
-	us.ErrorContains(err, msg)
-}
-
-type UnaryArithmeticIntegral[T arrow.IntType | arrow.UintType] struct {
-	UnaryArithmeticSuite[T, compute.ArithmeticOptions]
-}
-
-func (us *UnaryArithmeticIntegral[T]) setOverflowCheck(v bool) {
-	us.opts.NoCheckOverflow = !v
-}
-
-func (us *UnaryArithmeticIntegral[T]) TestTrig() {
-	// integer arguments promoted to float64, sanity check here
-	atan := func(ctx context.Context, _ compute.ArithmeticOptions, arg compute.Datum) (compute.Datum, error) {
-		return compute.Atan(ctx, arg)
-	}
-
-	input := us.makeArray(0, 1)
-	defer input.Release()
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		sinOut := us.getArr(arrow.PrimitiveTypes.Float64, `[0, 0.8414709848078965]`)
-		defer sinOut.Release()
-		cosOut := us.getArr(arrow.PrimitiveTypes.Float64, `[1, 0.5403023058681398]`)
-		defer cosOut.Release()
-		tanOut := us.getArr(arrow.PrimitiveTypes.Float64, `[0, 1.5574077246549023]`)
-		defer tanOut.Release()
-		asinOut := us.getArr(arrow.PrimitiveTypes.Float64, fmt.Sprintf("[0, %f]", math.Pi/2))
-		defer asinOut.Release()
-		acosOut := us.getArr(arrow.PrimitiveTypes.Float64, fmt.Sprintf("[%f, 0]", math.Pi/2))
-		defer acosOut.Release()
-		atanOut := us.getArr(arrow.PrimitiveTypes.Float64, fmt.Sprintf("[0, %f]", math.Pi/4))
-		defer atanOut.Release()
-
-		us.assertUnaryOpArrs(compute.Sin, input, sinOut)
-		us.assertUnaryOpArrs(compute.Cos, input, cosOut)
-		us.assertUnaryOpArrs(compute.Tan, input, tanOut)
-		us.assertUnaryOpArrs(compute.Asin, input, asinOut)
-		us.assertUnaryOpArrs(compute.Acos, input, acosOut)
-		us.assertUnaryOpArrs(atan, input, atanOut)
-	}
-}
-
-func (us *UnaryArithmeticIntegral[T]) TestLog() {
-	// integer arguments promoted to double, sanity check here
-	ty := us.datatype()
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		exp1 := us.getArr(arrow.PrimitiveTypes.Float64, `[0, null]`)
-		defer exp1.Release()
-		exp2 := us.getArr(arrow.PrimitiveTypes.Float64, `[0, 1, null]`)
-		defer exp2.Release()
-
-		ln := us.getArr(ty, `[1, null]`)
-		defer ln.Release()
-		log10 := us.getArr(ty, `[1, 10, null]`)
-		defer log10.Release()
-		log2 := us.getArr(ty, `[1, 2, null]`)
-		defer log2.Release()
-		log1p := us.getArr(ty, `[0, null]`)
-		defer log1p.Release()
-
-		us.assertUnaryOpArrs(compute.Ln, ln, exp1)
-		us.assertUnaryOpArrs(compute.Log10, log10, exp2)
-		us.assertUnaryOpArrs(compute.Log2, log2, exp2)
-		us.assertUnaryOpArrs(compute.Log1p, log1p, exp1)
-	}
-}
-
-type UnaryArithmeticSigned[T arrow.IntType] struct {
-	UnaryArithmeticIntegral[T]
-}
-
-func (us *UnaryArithmeticSigned[T]) TestAbsoluteValue() {
-	var (
-		dt  = us.datatype()
-		min = kernels.MinOf[T]()
-		max = kernels.MaxOf[T]()
-	)
-
-	fn := func(in, exp string) {
-		us.assertUnaryOp(compute.AbsoluteValue, in, exp)
-	}
-
-	us.Run(dt.String(), func() {
-		for _, checkOverflow := range []bool{true, false} {
-			us.setOverflowCheck(checkOverflow)
-			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
-				// empty array
-				fn(`[]`, `[]`)
-				// scalar/arrays with nulls
-				fn(`[null]`, `[null]`)
-				fn(`[1, null, -10]`, `[1, null, 10]`)
-				us.assertUnaryOpScalars(compute.AbsoluteValue, us.makeNullScalar(), us.makeNullScalar())
-				// scalar/arrays with zeros
-				fn(`[0, -0]`, `[0, 0]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, -0, 0)
-				us.assertUnaryOpVals(compute.AbsoluteValue, 0, 0)
-				// ordinary scalars/arrays (positive inputs)
-				fn(`[1, 10, 127]`, `[1, 10, 127]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, 1, 1)
-				// ordinary scalars/arrays (negative inputs)
-				fn(`[-1, -10, -127]`, `[1, 10, 127]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, -1, 1)
-				// min/max
-				us.assertUnaryOpVals(compute.AbsoluteValue, max, max)
-				if checkOverflow {
-					us.assertUnaryOpValError(compute.AbsoluteValue, min, "overflow")
-				} else {
-					us.assertUnaryOpVals(compute.AbsoluteValue, min, min)
-				}
-			})
-		}
-	})
-}
-
-func (us *UnaryArithmeticSigned[T]) TestNegate() {
-	var (
-		dt  = us.datatype()
-		min = kernels.MinOf[T]()
-		max = kernels.MaxOf[T]()
-	)
-
-	fn := func(in, exp string) {
-		us.assertUnaryOp(compute.Negate, in, exp)
-	}
-
-	us.Run(dt.String(), func() {
-		for _, checkOverflow := range []bool{true, false} {
-			us.setOverflowCheck(checkOverflow)
-			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
-				fn(`[]`, `[]`)
-				// scalar/arrays with nulls
-				fn(`[null]`, `[null]`)
-				fn(`[1, null, -10]`, `[-1, null, 10]`)
-				// ordinary scalars/arrays (positive inputs)
-				fn(`[1, 10, 127]`, `[-1, -10, -127]`)
-				us.assertUnaryOpVals(compute.Negate, 1, -1)
-				// ordinary scalars/arrays (negative inputs)
-				fn(`[-1, -10, -127]`, `[1, 10, 127]`)
-				us.assertUnaryOpVals(compute.Negate, -1, 1)
-				// min/max
-				us.assertUnaryOpVals(compute.Negate, min+1, max)
-				us.assertUnaryOpVals(compute.Negate, max, min+1)
-			})
-		}
-	})
-}
-
-type UnaryArithmeticUnsigned[T arrow.UintType] struct {
-	UnaryArithmeticIntegral[T]
-}
-
-func (us *UnaryArithmeticUnsigned[T]) TestAbsoluteValue() {
-	var (
-		min, max T = 0, kernels.MaxOf[T]()
-	)
-
-	fn := func(in, exp string) {
-		us.assertUnaryOp(compute.AbsoluteValue, in, exp)
-	}
-
-	us.Run(us.datatype().String(), func() {
-		for _, checkOverflow := range []bool{true, false} {
-			us.setOverflowCheck(checkOverflow)
-			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
-				fn(`[]`, `[]`)
-				fn(`[null]`, `[null]`)
-				us.assertUnaryOpScalars(compute.AbsoluteValue, us.makeNullScalar(), us.makeNullScalar())
-				fn(`[0, 1, 10, 127]`, `[0, 1, 10, 127]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, min, min)
-				us.assertUnaryOpVals(compute.AbsoluteValue, max, max)
-			})
-		}
-	})
-}
-
-func (us *UnaryArithmeticUnsigned[T]) TestNegate() {
-	var (
-		dt = us.datatype()
-	)
-
-	fn := func(in, exp string) {
-		us.assertUnaryOp(compute.Negate, in, exp)
-	}
-
-	us.Run(dt.String(), func() {
-		us.setOverflowCheck(true)
-		us.assertUnaryOpNotImplemented(compute.Negate, 1, "no kernel matching input types")
-
-		us.setOverflowCheck(false)
-		fn(`[]`, `[]`)
-		fn(`[null]`, `[null]`)
-		us.assertUnaryOpVals(compute.Negate, 1, ^T(1)+1)
-	})
-}
-
-type UnaryArithmeticFloating[T constraints.Float] struct {
-	UnaryArithmeticSuite[T, compute.ArithmeticOptions]
-
-	min, max T
-	smallest T
-}
-
-func (us *UnaryArithmeticFloating[T]) setOverflowCheck(v bool) {
-	us.opts.NoCheckOverflow = !v
-}
-
-func (us *UnaryArithmeticFloating[T]) TestAbsoluteValue() {
-	fn := func(in, exp string) {
-		us.assertUnaryOp(compute.AbsoluteValue, in, exp)
-	}
-
-	us.Run(us.datatype().String(), func() {
-		for _, checkOverflow := range []bool{true, false} {
-			us.setOverflowCheck(checkOverflow)
-			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
-				fn(`[]`, `[]`)
-				fn(`[null]`, `[null]`)
-				fn(`[1.3, null, -10.80]`, `[1.3, null, 10.80]`)
-				us.assertUnaryOpScalars(compute.AbsoluteValue, us.makeNullScalar(), us.makeNullScalar())
-				fn(`[0.0, -0.0]`, `[0.0, 0.0]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, T(math.Copysign(0, -1)), 0)
-				us.assertUnaryOpVals(compute.AbsoluteValue, 0, 0)
-				fn(`[1.3, 10.80, 12748.001]`, `[1.3, 10.80, 12748.001]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, 1.3, 1.3)
-				fn(`[-1.3, -10.80, -12748.001]`, `[1.3, 10.80, 12748.001]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, -1.3, 1.3)
-				fn(`["Inf", "-Inf"]`, `["Inf", "Inf"]`)
-				us.assertUnaryOpVals(compute.AbsoluteValue, us.min, us.max)
-				us.assertUnaryOpVals(compute.AbsoluteValue, us.max, us.max)
-			})
-		}
-	})
-}
-
-func (us *UnaryArithmeticFloating[T]) TestNegate() {
-	var (
-		dt = us.datatype()
-	)
-
-	fn := func(in, exp string) {
-		us.assertUnaryOp(compute.Negate, in, exp)
-	}
-
-	us.Run(dt.String(), func() {
-		for _, checkOverflow := range []bool{true, false} {
-			us.setOverflowCheck(checkOverflow)
-			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
-				fn(`[]`, `[]`)
-				// scalar/arrays with nulls
-				fn(`[null]`, `[null]`)
-				fn(`[1.5, null, -10.25]`, `[-1.5, null, 10.25]`)
-				// ordinary scalars/arrays (positive inputs)
-				fn(`[0.5, 10.123, 127.321]`, `[-0.5, -10.123, -127.321]`)
-				us.assertUnaryOpVals(compute.Negate, 1.25, -1.25)
-				// ordinary scalars/arrays (negative inputs)
-				fn(`[-0.5, -10.123, -127.321]`, `[0.5, 10.123, 127.321]`)
-				us.assertUnaryOpVals(compute.Negate, -1.25, 1.25)
-				// min/max
-				us.assertUnaryOpVals(compute.Negate, us.min, us.max)
-				us.assertUnaryOpVals(compute.Negate, us.max, us.min)
-			})
-		}
-	})
-}
-
-func (us *UnaryArithmeticFloating[T]) TestTrigSin() {
-	us.setOverflowCheck(false)
-	us.assertUnaryOp(compute.Sin, `["Inf", "-Inf"]`, `["NaN", "NaN"]`)
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		us.assertUnaryOp(compute.Sin, `[]`, `[]`)
-		us.assertUnaryOp(compute.Sin, `[null, "NaN"]`, `[null, "NaN"]`)
-		arr := us.makeArray(0, math.Pi/2, math.Pi)
-		exp := us.makeArray(0, 1, 0)
-		defer arr.Release()
-		defer exp.Release()
-		us.assertUnaryOpArrs(compute.Sin, arr, exp)
-	}
-
-	us.setOverflowCheck(true)
-	us.assertUnaryOpErr(compute.Sin, `["Inf", "-Inf"]`, "domain error")
-}
-
-func (us *UnaryArithmeticFloating[T]) TestTrigCos() {
-	us.setOverflowCheck(false)
-	us.assertUnaryOp(compute.Cos, `["Inf", "-Inf"]`, `["NaN", "NaN"]`)
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		us.assertUnaryOp(compute.Cos, `[]`, `[]`)
-		us.assertUnaryOp(compute.Cos, `[null, "NaN"]`, `[null, "NaN"]`)
-		arr := us.makeArray(0, math.Pi/2, math.Pi)
-		exp := us.makeArray(1, 0, -1)
-		defer arr.Release()
-		defer exp.Release()
-		us.assertUnaryOpArrs(compute.Cos, arr, exp)
-	}
-
-	us.setOverflowCheck(true)
-	us.assertUnaryOpErr(compute.Cos, `["Inf", "-Inf"]`, "domain error")
-}
-
-func (us *UnaryArithmeticFloating[T]) TestTrigTan() {
-	us.setOverflowCheck(false)
-	us.assertUnaryOp(compute.Tan, `["Inf", "-Inf"]`, `["NaN", "NaN"]`)
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		us.assertUnaryOp(compute.Tan, `[]`, `[]`)
-		us.assertUnaryOp(compute.Tan, `[null, "NaN"]`, `[null, "NaN"]`)
-		// pi/2 isn't representable exactly -> there are no poles
-		// (i.e. tan(pi/2) is merely a large value and not +Inf)
-		arr := us.makeArray(0, math.Pi)
-		exp := us.makeArray(0, 0)
-		defer arr.Release()
-		defer exp.Release()
-		us.assertUnaryOpArrs(compute.Tan, arr, exp)
-	}
-
-	us.setOverflowCheck(true)
-	us.assertUnaryOpErr(compute.Tan, `["Inf", "-Inf"]`, "domain error")
-}
-
-func (us *UnaryArithmeticFloating[T]) TestTrigAsin() {
-	us.setOverflowCheck(false)
-	us.assertUnaryOp(compute.Asin, `["Inf", "-Inf", -2, 2]`, `["NaN", "NaN", "NaN", "NaN"]`)
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		us.assertUnaryOp(compute.Asin, `[]`, `[]`)
-		us.assertUnaryOp(compute.Asin, `[null, "NaN"]`, `[null, "NaN"]`)
-		arr := us.makeArray(0, 1, -1)
-		exp := us.makeArray(0, math.Pi/2, -math.Pi/2)
-		defer arr.Release()
-		defer exp.Release()
-		us.assertUnaryOpArrs(compute.Asin, arr, exp)
-	}
-
-	us.setOverflowCheck(true)
-	us.assertUnaryOpErr(compute.Asin, `["Inf", "-Inf", -2, 2]`, "domain error")
-}
-
-func (us *UnaryArithmeticFloating[T]) TestTrigAcos() {
-	us.setOverflowCheck(false)
-	us.assertUnaryOp(compute.Acos, `["Inf", "-Inf", -2, 2]`, `["NaN", "NaN", "NaN", "NaN"]`)
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		us.assertUnaryOp(compute.Acos, `[]`, `[]`)
-		us.assertUnaryOp(compute.Acos, `[null, "NaN"]`, `[null, "NaN"]`)
-		arr := us.makeArray(0, 1, -1)
-		exp := us.makeArray(math.Pi/2, 0, math.Pi)
-		defer arr.Release()
-		defer exp.Release()
-		us.assertUnaryOpArrs(compute.Acos, arr, exp)
-	}
-
-	us.setOverflowCheck(true)
-	us.assertUnaryOpErr(compute.Acos, `["Inf", "-Inf", -2, 2]`, "domain error")
-}
-
-func (us *UnaryArithmeticFloating[T]) TestTrigAtan() {
-	us.setOverflowCheck(false)
-	atan := func(ctx context.Context, _ compute.ArithmeticOptions, arg compute.Datum) (compute.Datum, error) {
-		return compute.Atan(ctx, arg)
-	}
-	us.assertUnaryOp(atan, `[]`, `[]`)
-	us.assertUnaryOp(atan, `[null, "NaN"]`, `[null, "NaN"]`)
-
-	arr := us.makeArray(0, 1, -1, T(math.Inf(1)), T(math.Inf(-1)))
-	exp := us.makeArray(0, math.Pi/4, -math.Pi/4, math.Pi/2, -math.Pi/2)
-	defer arr.Release()
-	defer exp.Release()
-	us.assertUnaryOpArrs(atan, arr, exp)
-}
-
-func (us *UnaryArithmeticFloating[T]) TestLog() {
-	for _, overflow := range []bool{false, true} {
-		us.setOverflowCheck(overflow)
-		us.Run(fmt.Sprintf("checked=%t", overflow), func() {
-			us.assertUnaryOp(compute.Ln, `[1, 2.718281828459045, null, "NaN", "Inf"]`,
-				`[0, 1, null, "NaN", "Inf"]`)
-			us.assertUnaryOpVals(compute.Ln, us.smallest, T(math.Log(float64(us.smallest))))
-			us.assertUnaryOpVals(compute.Ln, us.max, T(math.Log(float64(us.max))))
-			us.assertUnaryOp(compute.Log10, `[1, 10, null, "NaN", "Inf"]`, `[0, 1, null, "NaN", "Inf"]`)
-			us.assertUnaryOpVals(compute.Log10, us.smallest, T(math.Log10(float64(us.smallest))))
-			us.assertUnaryOpVals(compute.Log10, us.max, T(math.Log10(float64(us.max))))
-			us.assertUnaryOp(compute.Log2, `[1, 2, null, "NaN", "Inf"]`, `[0, 1, null, "NaN", "Inf"]`)
-			us.assertUnaryOpVals(compute.Log2, us.smallest, T(math.Log2(float64(us.smallest))))
-			us.assertUnaryOpVals(compute.Log2, us.max, T(math.Log2(float64(us.max))))
-			us.assertUnaryOp(compute.Log1p, `[0, 1.718281828459045, null, "NaN", "Inf"]`, `[0, 1, null, "NaN", "Inf"]`)
-			us.assertUnaryOpVals(compute.Log1p, us.smallest, T(math.Log1p(float64(us.smallest))))
-			us.assertUnaryOpVals(compute.Log1p, us.max, T(math.Log1p(float64(us.max))))
-		})
-	}
-
-	us.setOverflowCheck(false)
-	us.assertUnaryOp(compute.Ln, `["-Inf", -1, 0, "Inf"]`, `["NaN", "NaN", "-Inf", "Inf"]`)
-	us.assertUnaryOp(compute.Log10, `["-Inf", -1, 0, "Inf"]`, `["NaN", "NaN", "-Inf", "Inf"]`)
-	us.assertUnaryOp(compute.Log2, `["-Inf", -1, 0, "Inf"]`, `["NaN", "NaN", "-Inf", "Inf"]`)
-	us.assertUnaryOp(compute.Log1p, `["-Inf", -2, -1, "Inf"]`, `["NaN", "NaN", "-Inf", "Inf"]`)
-
-	us.setOverflowCheck(true)
-	us.assertUnaryOpErr(compute.Ln, `[0]`, "logarithm of zero")
-	us.assertUnaryOpErr(compute.Ln, `[-1]`, "logarithm of negative number")
-	us.assertUnaryOpErr(compute.Ln, `["-Inf"]`, "logarithm of negative number")
-	us.assertUnaryOpValError(compute.Ln, us.min, "logarithm of negative number")
-
-	us.assertUnaryOpErr(compute.Log10, `[0]`, "logarithm of zero")
-	us.assertUnaryOpErr(compute.Log10, `[-1]`, "logarithm of negative number")
-	us.assertUnaryOpErr(compute.Log10, `["-Inf"]`, "logarithm of negative number")
-	us.assertUnaryOpValError(compute.Log10, us.min, "logarithm of negative number")
-
-	us.assertUnaryOpErr(compute.Log2, `[0]`, "logarithm of zero")
-	us.assertUnaryOpErr(compute.Log2, `[-1]`, "logarithm of negative number")
-	us.assertUnaryOpErr(compute.Log2, `["-Inf"]`, "logarithm of negative number")
-	us.assertUnaryOpValError(compute.Log2, us.min, "logarithm of negative number")
-
-	us.assertUnaryOpErr(compute.Log1p, `[-1]`, "logarithm of zero")
-	us.assertUnaryOpErr(compute.Log1p, `[-2]`, "logarithm of negative number")
-	us.assertUnaryOpErr(compute.Log1p, `["-Inf"]`, "logarithm of negative number")
-	us.assertUnaryOpValError(compute.Log1p, us.min, "logarithm of negative number")
-}
-
-func TestUnaryArithmetic(t *testing.T) {
-	suite.Run(t, new(UnaryArithmeticSigned[int8]))
-	suite.Run(t, new(UnaryArithmeticSigned[int16]))
-	suite.Run(t, new(UnaryArithmeticSigned[int32]))
-	suite.Run(t, new(UnaryArithmeticSigned[int64]))
-	suite.Run(t, new(UnaryArithmeticUnsigned[uint8]))
-	suite.Run(t, new(UnaryArithmeticUnsigned[uint16]))
-	suite.Run(t, new(UnaryArithmeticUnsigned[uint32]))
-	suite.Run(t, new(UnaryArithmeticUnsigned[uint64]))
-	suite.Run(t, &UnaryArithmeticFloating[float32]{min: -math.MaxFloat32, max: math.MaxFloat32, smallest: math.SmallestNonzeroFloat32})
-	suite.Run(t, &UnaryArithmeticFloating[float64]{min: -math.MaxFloat64, max: math.MaxFloat64, smallest: math.SmallestNonzeroFloat64})
-	suite.Run(t, new(DecimalUnaryArithmeticSuite))
-}
-
-type BitwiseArithmeticSuite[T arrow.IntType | arrow.UintType] struct {
-	BinaryFuncTestSuite
-}
-
-func (bs *BitwiseArithmeticSuite[T]) datatype() arrow.DataType {
-	return arrow.GetDataType[T]()
-}
-
-// to make it easier to test different widths, tests give bytes which
-// get repeated to make an array of the actual type
-func (bs *BitwiseArithmeticSuite[T]) expandByteArray(values []byte) arrow.Array {
-	vals := make([]T, len(values)+1)
-	sz := kernels.SizeOf[T]()
-	for i, v := range values {
-		memory.Set(unsafe.Slice((*byte)(unsafe.Pointer(&vals[i])), sz), v)
-	}
-	valid := make([]bool, len(vals))
-	for i := range values {
-		valid[i] = true
-	}
-	return exec.ArrayFromSliceWithValid(bs.mem, vals, valid)
-}
-
-func (bs *BitwiseArithmeticSuite[T]) assertBinaryOp(fn string, arg0, arg1, expected []byte) {
-	in0, in1 := bs.expandByteArray(arg0), bs.expandByteArray(arg1)
-	out := bs.expandByteArray(expected)
-	defer func() {
-		in0.Release()
-		in1.Release()
-		out.Release()
-	}()
-
-	actual, err := compute.CallFunction(bs.ctx, fn, nil, &compute.ArrayDatum{in0.Data()}, &compute.ArrayDatum{in1.Data()})
-	bs.Require().NoError(err)
-	defer actual.Release()
-	assertDatumsEqual(bs.T(), &compute.ArrayDatum{out.Data()}, actual, nil, nil)
-
-	for i := 0; i < out.Len(); i++ {
-		a0, err := scalar.GetScalar(in0, i)
-		bs.Require().NoError(err)
-		a1, err := scalar.GetScalar(in1, i)
-		bs.Require().NoError(err)
-		exp, err := scalar.GetScalar(out, i)
-		bs.Require().NoError(err)
-
-		actual, err := compute.CallFunction(bs.ctx, fn, nil, compute.NewDatum(a0), compute.NewDatum(a1))
-		bs.Require().NoError(err)
-		assertScalarEquals(bs.T(), exp, actual.(*compute.ScalarDatum).Value)
-	}
-}
-
-func (bs *BitwiseArithmeticSuite[T]) TestBitWiseAnd() {
-	bs.Run(bs.datatype().String(), func() {
-		bs.assertBinaryOp("bit_wise_and", []byte{0x00, 0xFF, 0x00, 0xFF},
-			[]byte{0x00, 0x00, 0xFF, 0xFF}, []byte{0x00, 0x00, 0x00, 0xFF})
-	})
-}
-
-func (bs *BitwiseArithmeticSuite[T]) TestBitWiseOr() {
-	bs.Run(bs.datatype().String(), func() {
-		bs.assertBinaryOp("bit_wise_or", []byte{0x00, 0xFF, 0x00, 0xFF},
-			[]byte{0x00, 0x00, 0xFF, 0xFF}, []byte{0x00, 0xFF, 0xFF, 0xFF})
-	})
-}
-
-func (bs *BitwiseArithmeticSuite[T]) TestBitWiseXor() {
-	bs.Run(bs.datatype().String(), func() {
-		bs.assertBinaryOp("bit_wise_xor", []byte{0x00, 0xFF, 0x00, 0xFF},
-			[]byte{0x00, 0x00, 0xFF, 0xFF}, []byte{0x00, 0xFF, 0xFF, 0x00})
-	})
-}
-
-func TestBitwiseArithmetic(t *testing.T) {
-	suite.Run(t, new(BitwiseArithmeticSuite[int8]))
-	suite.Run(t, new(BitwiseArithmeticSuite[uint8]))
-	suite.Run(t, new(BitwiseArithmeticSuite[int16]))
-	suite.Run(t, new(BitwiseArithmeticSuite[uint16]))
-	suite.Run(t, new(BitwiseArithmeticSuite[int32]))
-	suite.Run(t, new(BitwiseArithmeticSuite[uint32]))
-	suite.Run(t, new(BitwiseArithmeticSuite[int64]))
-	suite.Run(t, new(BitwiseArithmeticSuite[uint64]))
-}
-
-var roundModes = []compute.RoundMode{
-	compute.RoundDown,
-	compute.RoundUp,
-	compute.RoundTowardsZero,
-	compute.RoundTowardsInfinity,
-	compute.RoundHalfDown,
-	compute.RoundHalfUp,
-	compute.RoundHalfTowardsZero,
-	compute.RoundHalfTowardsInfinity,
-	compute.RoundHalfToEven,
-	compute.RoundHalfToOdd,
-}
-
-type UnaryRoundSuite[T arrow.NumericType] struct {
-	UnaryArithmeticSuite[T, compute.RoundOptions]
-}
-
-func (us *UnaryRoundSuite[T]) setRoundMode(mode compute.RoundMode) {
-	us.opts.Mode = mode
-}
-
-func (us *UnaryRoundSuite[T]) setRoundNDigits(v int64) {
-	us.opts.NDigits = v
-}
-
-type UnaryRoundToMultipleSuite[T arrow.NumericType] struct {
-	UnaryArithmeticSuite[T, compute.RoundToMultipleOptions]
-}
-
-func (us *UnaryRoundToMultipleSuite[T]) setRoundMode(mode compute.RoundMode) {
-	us.opts.Mode = mode
-}
-
-func (us *UnaryRoundToMultipleSuite[T]) setRoundMultiple(val float64) {
-	us.opts.Multiple = scalar.NewFloat64Scalar(val)
-}
-
-type UnaryRoundIntegral[T arrow.IntType | arrow.UintType] struct {
-	UnaryRoundSuite[T]
-}
-
-type UnaryRoundToMultipleIntegral[T arrow.IntType | arrow.UintType] struct {
-	UnaryRoundToMultipleSuite[T]
-}
-
-type UnaryRoundSigned[T arrow.IntType] struct {
-	UnaryRoundIntegral[T]
-}
-
-func (us *UnaryRoundSigned[T]) TestRound() {
-	values := `[0, 1, -13, -50, 115]`
-	us.setRoundNDigits(0)
-
-	arr := us.getArr(arrow.PrimitiveTypes.Float64, values)
-	defer arr.Release()
-	for _, mode := range roundModes {
-		us.setRoundMode(mode)
-		us.assertUnaryOpExpArr(compute.Round, values, arr)
-	}
-
-	// test different round N-digits for nearest rounding mode
-	ndigExpected := []struct {
-		n   int64
-		exp string
-	}{
-		{-2, `[0, 0, -0.0, -100, 100]`},
-		{-1, `[0.0, 0.0, -10, -50, 120]`},
-		{0, values},
-		{1, values},
-		{2, values},
-	}
-	us.setRoundMode(compute.RoundHalfTowardsInfinity)
-	for _, tt := range ndigExpected {
-		us.Run(fmt.Sprintf("ndigits=%d", tt.n), func() {
-			us.setRoundNDigits(tt.n)
-			arr := us.getArr(arrow.PrimitiveTypes.Float64, tt.exp)
-			defer arr.Release()
-			us.assertUnaryOpExpArr(compute.Round, values, arr)
-		})
-	}
-}
-
-type UnaryRoundToMultipleSigned[T arrow.IntType] struct {
-	UnaryRoundToMultipleIntegral[T]
-}
-
-func (us *UnaryRoundToMultipleSigned[T]) TestRoundToMultiple() {
-	values := `[0, 1, -13, -50, 115]`
-	us.setRoundMultiple(1)
-	for _, mode := range roundModes {
-		us.setRoundMode(mode)
-		arr := us.getArr(arrow.PrimitiveTypes.Float64, values)
-		defer arr.Release()
-		us.assertUnaryOpExpArr(compute.RoundToMultiple, values, arr)
-	}
-
-	tests := []struct {
-		mult float64
-		exp  string
-	}{
-		{2, `[0.0, 2, -14, -50, 116]`},
-		{0.05, `[0.0, 1, -13, -50, 115]`},
-		{0.1, values},
-		{10, `[0.0, 0.0, -10, -50, 120]`},
-		{100, `[0.0, 0.0, -0.0, -100, 100]`},
-	}
-
-	us.setRoundMode(compute.RoundHalfTowardsInfinity)
-	for _, tt := range tests {
-		us.setRoundMultiple(tt.mult)
-		arr := us.getArr(arrow.PrimitiveTypes.Float64, tt.exp)
-		defer arr.Release()
-		us.assertUnaryOpExpArr(compute.RoundToMultiple, values, arr)
-	}
-}
-
-type UnaryRoundUnsigned[T arrow.UintType] struct {
-	UnaryRoundIntegral[T]
-}
-
-func (us *UnaryRoundUnsigned[T]) TestRound() {
-	values := `[0, 1, 13, 50, 115]`
-	us.setRoundNDigits(0)
-
-	arr := us.getArr(arrow.PrimitiveTypes.Float64, values)
-	defer arr.Release()
-	for _, mode := range roundModes {
-		us.setRoundMode(mode)
-		us.assertUnaryOpExpArr(compute.Round, values, arr)
-	}
-
-	// test different round N-digits for nearest rounding mode
-	ndigExpected := []struct {
-		n   int64
-		exp string
-	}{
-		{-2, `[0, 0, 0, 100, 100]`},
-		{-1, `[0.0, 0.0, 10, 50, 120]`},
-		{0, values},
-		{1, values},
-		{2, values},
-	}
-	us.setRoundMode(compute.RoundHalfTowardsInfinity)
-	for _, tt := range ndigExpected {
-		us.Run(fmt.Sprintf("ndigits=%d", tt.n), func() {
-			us.setRoundNDigits(tt.n)
-			arr := us.getArr(arrow.PrimitiveTypes.Float64, tt.exp)
-			defer arr.Release()
-			us.assertUnaryOpExpArr(compute.Round, values, arr)
-		})
-	}
-}
-
-type UnaryRoundToMultipleUnsigned[T arrow.UintType] struct {
-	UnaryRoundToMultipleIntegral[T]
-}
-
-func (us *UnaryRoundToMultipleUnsigned[T]) TestRoundToMultiple() {
-	values := `[0, 1, 13, 50, 115]`
-	us.setRoundMultiple(1)
-	for _, mode := range roundModes {
-		us.setRoundMode(mode)
-		arr := us.getArr(arrow.PrimitiveTypes.Float64, values)
-		defer arr.Release()
-		us.assertUnaryOpExpArr(compute.RoundToMultiple, values, arr)
-	}
-
-	tests := []struct {
-		mult float64
-		exp  string
-	}{
-		{0.05, `[0, 1, 13, 50, 115]`},
-		{0.1, values},
-		{2, `[0, 2, 14, 50, 116]`},
-		{10, `[0, 0, 10, 50, 120]`},
-		{100, `[0, 0, 0, 100, 100]`},
-	}
-
-	us.setRoundMode(compute.RoundHalfTowardsInfinity)
-	for _, tt := range tests {
-		us.setRoundMultiple(tt.mult)
-		arr := us.getArr(arrow.PrimitiveTypes.Float64, tt.exp)
-		defer arr.Release()
-		us.assertUnaryOpExpArr(compute.RoundToMultiple, values, arr)
-	}
-}
-
-type UnaryRoundFloating[T constraints.Float] struct {
-	UnaryRoundSuite[T]
-}
-
-func (us *UnaryRoundFloating[T]) TestRound() {
-	values := `[3.2, 3.5, 3.7, 4.5, -3.2, -3.5, -3.7]`
-	rmodeExpected := []struct {
-		mode compute.RoundMode
-		exp  string
-	}{
-		{compute.RoundDown, `[3, 3, 3, 4, -4, -4, -4]`},
-		{compute.RoundUp, `[4, 4, 4, 5, -3, -3, -3]`},
-		{compute.RoundTowardsZero, `[3, 3, 3, 4, -3, -3, -3]`},
-		{compute.RoundTowardsInfinity, `[4, 4, 4, 5, -4, -4, -4]`},
-		{compute.RoundHalfDown, `[3, 3, 4, 4, -3, -4, -4]`},
-		{compute.RoundHalfUp, `[3, 4, 4, 5, -3, -3, -4]`},
-		{compute.RoundHalfTowardsZero, `[3, 3, 4, 4, -3, -3, -4]`},
-		{compute.RoundHalfToEven, `[3, 4, 4, 4, -3, -4, -4]`},
-		{compute.RoundHalfToOdd, `[3, 3, 4, 5, -3, -3, -4]`},
-	}
-	us.setRoundNDigits(0)
-	for _, tt := range rmodeExpected {
-		us.Run(tt.mode.String(), func() {
-			us.setRoundMode(tt.mode)
-			us.assertUnaryOp(compute.Round, `[]`, `[]`)
-			us.assertUnaryOp(compute.Round, `[null, 0, "Inf", "-Inf", "NaN"]`,
-				`[null, 0, "Inf", "-Inf", "NaN"]`)
-			us.assertUnaryOp(compute.Round, values, tt.exp)
-		})
-	}
-
-	// test different round n-digits for nearest rounding mode
-	values = `[320, 3.5, 3.075, 4.5, -3.212, -35.1234, -3.045]`
-	ndigitsExp := []struct {
-		n   int64
-		exp string
-	}{
-		{-2, `[300, 0.0, 0.0, 0.0, -0.0, -0.0, -0.0]`},
-		{-1, `[320, 0.0, 0.0, 0.0, -0.0, -40, -0.0]`},
-		{0, `[320, 4, 3, 5, -3, -35, -3]`},
-		{1, `[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3]`},
-		{2, `[320, 3.5, 3.08, 4.5, -3.21, -35.12, -3.05]`},
-	}
-
-	us.setRoundMode(compute.RoundHalfTowardsInfinity)
-	for _, tt := range ndigitsExp {
-		us.Run(fmt.Sprintf("ndigits=%d", tt.n), func() {
-			us.setRoundNDigits(tt.n)
-			us.assertUnaryOp(compute.Round, values, tt.exp)
-		})
-	}
-}
-
-type UnaryRoundToMultipleFloating[T constraints.Float] struct {
-	UnaryRoundToMultipleSuite[T]
-}
-
-func (us *UnaryRoundToMultipleFloating[T]) TestRoundToMultiple() {
-	values := `[3.2, 3.5, 3.7, 4.5, -3.2, -3.5, -3.7]`
-	rmodeExpected := []struct {
-		mode compute.RoundMode
-		exp  string
-	}{
-		{compute.RoundDown, `[3, 3, 3, 4, -4, -4, -4]`},
-		{compute.RoundUp, `[4, 4, 4, 5, -3, -3, -3]`},
-		{compute.RoundTowardsZero, `[3, 3, 3, 4, -3, -3, -3]`},
-		{compute.RoundTowardsInfinity, `[4, 4, 4, 5, -4, -4, -4]`},
-		{compute.RoundHalfDown, `[3, 3, 4, 4, -3, -4, -4]`},
-		{compute.RoundHalfUp, `[3, 4, 4, 5, -3, -3, -4]`},
-		{compute.RoundHalfTowardsZero, `[3, 3, 4, 4, -3, -3, -4]`},
-		{compute.RoundHalfToEven, `[3, 4, 4, 4, -3, -4, -4]`},
-		{compute.RoundHalfToOdd, `[3, 3, 4, 5, -3, -3, -4]`},
-	}
-	us.setRoundMultiple(1)
-	for _, tt := range rmodeExpected {
-		us.Run(tt.mode.String(), func() {
-			us.setRoundMode(tt.mode)
-			us.assertUnaryOp(compute.RoundToMultiple, `[]`, `[]`)
-			us.assertUnaryOp(compute.RoundToMultiple, `[null, 0, "Inf", "-Inf", "NaN"]`,
-				`[null, 0, "Inf", "-Inf", "NaN"]`)
-			us.assertUnaryOp(compute.RoundToMultiple, values, tt.exp)
-		})
-	}
-
-	// test different round n-digits for nearest rounding mode
-	values = `[320, 3.5, 3.075, 4.5, -3.212, -35.1234, -3.045]`
-	multAndExp := []struct {
-		mult float64
-		exp  string
-	}{
-		{0.05, `[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3.05]`},
-		{0.1, `[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3]`},
-		{2, `[320, 4, 4, 4, -4, -36, -4]`},
-		{10, `[320, 0.0, 0.0, 0.0, -0.0, -40, -0.0]`},
-		{100, `[300, 0.0, 0.0, 0.0, -0.0, -0.0, -0.0]`},
-	}
-
-	us.setRoundMode(compute.RoundHalfTowardsInfinity)
-	for _, tt := range multAndExp {
-		us.Run(fmt.Sprintf("multiple=%f", tt.mult), func() {
-			us.setRoundMultiple(tt.mult)
-			us.assertUnaryOp(compute.RoundToMultiple, values, tt.exp)
-		})
-	}
-}
-
-func TestRounding(t *testing.T) {
-	suite.Run(t, new(UnaryRoundSigned[int8]))
-	suite.Run(t, new(UnaryRoundSigned[int16]))
-	suite.Run(t, new(UnaryRoundSigned[int32]))
-	suite.Run(t, new(UnaryRoundSigned[int64]))
-	suite.Run(t, new(UnaryRoundUnsigned[uint8]))
-	suite.Run(t, new(UnaryRoundUnsigned[uint16]))
-	suite.Run(t, new(UnaryRoundUnsigned[uint32]))
-	suite.Run(t, new(UnaryRoundUnsigned[uint64]))
-	suite.Run(t, new(UnaryRoundFloating[float32]))
-	suite.Run(t, new(UnaryRoundFloating[float64]))
-
-	suite.Run(t, new(UnaryRoundToMultipleSigned[int8]))
-	suite.Run(t, new(UnaryRoundToMultipleSigned[int16]))
-	suite.Run(t, new(UnaryRoundToMultipleSigned[int32]))
-	suite.Run(t, new(UnaryRoundToMultipleSigned[int64]))
-	suite.Run(t, new(UnaryRoundToMultipleUnsigned[uint8]))
-	suite.Run(t, new(UnaryRoundToMultipleUnsigned[uint16]))
-	suite.Run(t, new(UnaryRoundToMultipleUnsigned[uint32]))
-	suite.Run(t, new(UnaryRoundToMultipleUnsigned[uint64]))
-	suite.Run(t, new(UnaryRoundToMultipleFloating[float32]))
-	suite.Run(t, new(UnaryRoundToMultipleFloating[float64]))
-}
-
-const seed = 0x94378165
-
-type binaryOp = func(ctx context.Context, left, right compute.Datum) (compute.Datum, error)
-
-func Add(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
-	var opts compute.ArithmeticOptions
-	return compute.Add(ctx, opts, left, right)
-}
-
-func Subtract(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
-	var opts compute.ArithmeticOptions
-	return compute.Subtract(ctx, opts, left, right)
-}
-
-func AddUnchecked(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
-	opts := compute.ArithmeticOptions{NoCheckOverflow: true}
-	return compute.Add(ctx, opts, left, right)
-}
-
-func SubtractUnchecked(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
-	opts := compute.ArithmeticOptions{NoCheckOverflow: true}
-	return compute.Subtract(ctx, opts, left, right)
-}
-
-func arrayScalarKernel(b *testing.B, sz int, nullProp float64, op binaryOp, dt arrow.DataType) {
-	b.Run("array scalar", func(b *testing.B) {
-		var (
-			mem                     = memory.NewCheckedAllocator(memory.DefaultAllocator)
-			arraySize               = int64(sz / dt.(arrow.FixedWidthDataType).Bytes())
-			min       int64         = 6
-			max                     = min + 15
-			sc, _                   = scalar.MakeScalarParam(6, dt)
-			rhs       compute.Datum = &compute.ScalarDatum{Value: sc}
-			rng                     = gen.NewRandomArrayGenerator(seed, mem)
-		)
-
-		lhs := rng.Numeric(dt.ID(), arraySize, min, max, nullProp)
-		b.Cleanup(func() {
-			lhs.Release()
-		})
-
-		var (
-			res  compute.Datum
-			err  error
-			ctx  = context.Background()
-			left = &compute.ArrayDatum{Value: lhs.Data()}
-		)
-
-		b.SetBytes(arraySize)
-		b.ResetTimer()
-		for n := 0; n < b.N; n++ {
-			res, err = op(ctx, left, rhs)
-			b.StopTimer()
-			if err != nil {
-				b.Fatal(err)
-			}
-			res.Release()
-			b.StartTimer()
-		}
-	})
-}
-
-func arrayArrayKernel(b *testing.B, sz int, nullProp float64, op binaryOp, dt arrow.DataType) {
-	b.Run("array array", func(b *testing.B) {
-		var (
-			mem             = memory.NewCheckedAllocator(memory.DefaultAllocator)
-			arraySize       = int64(sz / dt.(arrow.FixedWidthDataType).Bytes())
-			rmin      int64 = 1
-			rmax            = rmin + 6 // 7
-			lmin            = rmax + 1 // 8
-			lmax            = lmin + 6 // 14
-			rng             = gen.NewRandomArrayGenerator(seed, mem)
-		)
-
-		lhs := rng.Numeric(dt.ID(), arraySize, lmin, lmax, nullProp)
-		rhs := rng.Numeric(dt.ID(), arraySize, rmin, rmax, nullProp)
-		b.Cleanup(func() {
-			lhs.Release()
-			rhs.Release()
-		})
-		var (
-			res   compute.Datum
-			err   error
-			ctx   = context.Background()
-			left  = &compute.ArrayDatum{Value: lhs.Data()}
-			right = &compute.ArrayDatum{Value: rhs.Data()}
-		)
-
-		b.SetBytes(arraySize)
-		b.ResetTimer()
-		for n := 0; n < b.N; n++ {
-			res, err = op(ctx, left, right)
-			b.StopTimer()
-			if err != nil {
-				b.Fatal(err)
-			}
-			res.Release()
-			b.StartTimer()
-		}
-	})
-}
-
-func BenchmarkScalarArithmetic(b *testing.B) {
-	args := []struct {
-		sz       int
-		nullProb float64
-	}{
-		{CpuCacheSizes[2], 0},
-		{CpuCacheSizes[2], 0.5},
-		{CpuCacheSizes[2], 1},
-	}
-
-	testfns := []struct {
-		name string
-		op   binaryOp
-	}{
-		{"Add", Add},
-		{"AddUnchecked", AddUnchecked},
-		{"Subtract", Subtract},
-		{"SubtractUnchecked", SubtractUnchecked},
-	}
-
-	for _, dt := range numericTypes {
-		b.Run(dt.String(), func(b *testing.B) {
-			for _, benchArgs := range args {
-				b.Run(fmt.Sprintf("sz=%d/nullprob=%.2f", benchArgs.sz, benchArgs.nullProb), func(b *testing.B) {
-					for _, tfn := range testfns {
-						b.Run(tfn.name, func(b *testing.B) {
-							arrayArrayKernel(b, benchArgs.sz, benchArgs.nullProb, tfn.op, dt)
-							arrayScalarKernel(b, benchArgs.sz, benchArgs.nullProb, tfn.op, dt)
-						})
-					}
-				})
-			}
-		})
-	}
-}
diff --git a/go/arrow/compute/cast.go b/go/arrow/compute/cast.go
deleted file mode 100644
index 6ef6fdddd16ff..0000000000000
--- a/go/arrow/compute/cast.go
+++ /dev/null
@@ -1,587 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-	"fmt"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-)
-
-var (
-	castTable map[arrow.Type]*castFunction
-	castInit  sync.Once
-
-	castDoc = FunctionDoc{
-		Summary:         "cast values to another data type",
-		Description:     "Behavior when values wouldn't fit in the target type\ncan be controlled through CastOptions.",
-		ArgNames:        []string{"input"},
-		OptionsType:     "CastOptions",
-		OptionsRequired: true,
-	}
-	castMetaFunc = NewMetaFunction("cast", Unary(), castDoc,
-		func(ctx context.Context, fo FunctionOptions, d ...Datum) (Datum, error) {
-			castOpts := fo.(*CastOptions)
-			if castOpts == nil || castOpts.ToType == nil {
-				return nil, fmt.Errorf("%w: cast requires that options be passed with a ToType", arrow.ErrInvalid)
-			}
-
-			if arrow.TypeEqual(d[0].(ArrayLikeDatum).Type(), castOpts.ToType) {
-				return NewDatum(d[0]), nil
-			}
-
-			fn, err := getCastFunction(castOpts.ToType)
-			if err != nil {
-				return nil, fmt.Errorf("%w from %s", err, d[0].(ArrayLikeDatum).Type())
-			}
-
-			return fn.Execute(ctx, fo, d...)
-		})
-)
-
-func RegisterScalarCast(reg FunctionRegistry) {
-	reg.AddFunction(castMetaFunc, false)
-}
-
-type castFunction struct {
-	ScalarFunction
-
-	inIDs []arrow.Type
-	out   arrow.Type
-}
-
-func newCastFunction(name string, outType arrow.Type) *castFunction {
-	return &castFunction{
-		ScalarFunction: *NewScalarFunction(name, Unary(), EmptyFuncDoc),
-		out:            outType,
-		inIDs:          make([]arrow.Type, 0, 1),
-	}
-}
-
-func (cf *castFunction) AddTypeCast(in arrow.Type, kernel exec.ScalarKernel) error {
-	kernel.Init = exec.OptionsInit[kernels.CastState]
-	if err := cf.AddKernel(kernel); err != nil {
-		return err
-	}
-	cf.inIDs = append(cf.inIDs, in)
-	return nil
-}
-
-func (cf *castFunction) AddNewTypeCast(inID arrow.Type, inTypes []exec.InputType, out exec.OutputType,
-	ex exec.ArrayKernelExec, nullHandle exec.NullHandling, memAlloc exec.MemAlloc) error {
-
-	kn := exec.NewScalarKernel(inTypes, out, ex, nil)
-	kn.NullHandling = nullHandle
-	kn.MemAlloc = memAlloc
-	return cf.AddTypeCast(inID, kn)
-}
-
-func (cf *castFunction) DispatchExact(vals ...arrow.DataType) (exec.Kernel, error) {
-	if err := cf.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	candidates := make([]*exec.ScalarKernel, 0, 1)
-	for i := range cf.kernels {
-		if cf.kernels[i].Signature.MatchesInputs(vals) {
-			candidates = append(candidates, &cf.kernels[i])
-		}
-	}
-
-	if len(candidates) == 0 {
-		return nil, fmt.Errorf("%w: unsupported cast from %s to %s using function %s",
-			arrow.ErrNotImplemented, vals[0], cf.out, cf.name)
-	}
-
-	if len(candidates) == 1 {
-		// one match!
-		return candidates[0], nil
-	}
-
-	// in this situation we may have both an EXACT type and
-	// a SAME_TYPE_ID match. So we will see if there is an exact
-	// match among the candidates and if not, we just return the
-	// first one
-	for _, k := range candidates {
-		arg0 := k.Signature.InputTypes[0]
-		if arg0.Kind == exec.InputExact {
-			// found one!
-			return k, nil
-		}
-	}
-
-	// just return some kernel that matches since we didn't find an exact
-	return candidates[0], nil
-}
-
-func unpackDictionary(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		dictArr  = batch.Values[0].Array.MakeArray().(*array.Dictionary)
-		opts     = ctx.State.(kernels.CastState)
-		dictType = dictArr.DataType().(*arrow.DictionaryType)
-		toType   = opts.ToType
-	)
-	defer dictArr.Release()
-
-	if !arrow.TypeEqual(toType, dictType) && !CanCast(dictType, toType) {
-		return fmt.Errorf("%w: cast type %s incompatible with dictionary type %s",
-			arrow.ErrInvalid, toType, dictType)
-	}
-
-	unpacked, err := TakeArray(ctx.Ctx, dictArr.Dictionary(), dictArr.Indices())
-	if err != nil {
-		return err
-	}
-	defer unpacked.Release()
-
-	if !arrow.TypeEqual(dictType, toType) {
-		unpacked, err = CastArray(ctx.Ctx, unpacked, &opts)
-		if err != nil {
-			return err
-		}
-		defer unpacked.Release()
-	}
-
-	out.TakeOwnership(unpacked.Data())
-	return nil
-}
-
-func CastFromExtension(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(kernels.CastState)
-
-	arr := batch.Values[0].Array.MakeArray().(array.ExtensionArray)
-	defer arr.Release()
-
-	castOpts := CastOptions(opts)
-	result, err := CastArray(ctx.Ctx, arr.Storage(), &castOpts)
-	if err != nil {
-		return err
-	}
-	defer result.Release()
-
-	out.TakeOwnership(result.Data())
-	return nil
-}
-
-func CastList[SrcOffsetT, DestOffsetT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		opts       = ctx.State.(kernels.CastState)
-		childType  = out.Type.(arrow.NestedType).Fields()[0].Type
-		input      = &batch.Values[0].Array
-		offsets    = exec.GetSpanOffsets[SrcOffsetT](input, 1)
-		isDowncast = kernels.SizeOf[SrcOffsetT]() > kernels.SizeOf[DestOffsetT]()
-	)
-
-	out.Buffers[0] = input.Buffers[0]
-	out.Buffers[1] = input.Buffers[1]
-
-	if input.Offset != 0 && len(input.Buffers[0].Buf) > 0 {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(input.Len))
-		bitutil.CopyBitmap(input.Buffers[0].Buf, int(input.Offset), int(input.Len),
-			out.Buffers[0].Buf, 0)
-	}
-
-	// Handle list offsets
-	// Several cases possible:
-	//	- The source offset is non-zero, in which case we slice the
-	//	  underlying values and shift the list offsets (regardless of
-	//	  their respective types)
-	//	- the source offset is zero but the source and destination types
-	//	  have different list offset types, in which case we cast the offsets
-	//  - otherwise we simply keep the original offsets
-	if isDowncast {
-		if offsets[input.Len] > SrcOffsetT(kernels.MaxOf[DestOffsetT]()) {
-			return fmt.Errorf("%w: array of type %s too large to convert to %s",
-				arrow.ErrInvalid, input.Type, out.Type)
-		}
-	}
-
-	values := input.Children[0].MakeArray()
-	defer values.Release()
-
-	if input.Offset != 0 {
-		out.Buffers[1].WrapBuffer(
-			ctx.Allocate(out.Type.(arrow.OffsetsDataType).
-				OffsetTypeTraits().BytesRequired(int(input.Len) + 1)))
-
-		shiftedOffsets := exec.GetSpanOffsets[DestOffsetT](out, 1)
-		for i := 0; i < int(input.Len)+1; i++ {
-			shiftedOffsets[i] = DestOffsetT(offsets[i] - offsets[0])
-		}
-
-		values = array.NewSlice(values, int64(offsets[0]), int64(offsets[input.Len]))
-		defer values.Release()
-	} else if kernels.SizeOf[SrcOffsetT]() != kernels.SizeOf[DestOffsetT]() {
-		out.Buffers[1].WrapBuffer(ctx.Allocate(out.Type.(arrow.OffsetsDataType).
-			OffsetTypeTraits().BytesRequired(int(input.Len) + 1)))
-
-		kernels.DoStaticCast(exec.GetSpanOffsets[SrcOffsetT](input, 1),
-			exec.GetSpanOffsets[DestOffsetT](out, 1))
-	}
-
-	// handle values
-	opts.ToType = childType
-
-	castedValues, err := CastArray(ctx.Ctx, values, &opts)
-	if err != nil {
-		return err
-	}
-	defer castedValues.Release()
-
-	out.Children = make([]exec.ArraySpan, 1)
-	out.Children[0].SetMembers(castedValues.Data())
-	for i, b := range out.Children[0].Buffers {
-		if b.Owner != nil && b.Owner != values.Data().Buffers()[i] {
-			b.Owner.Retain()
-			b.SelfAlloc = true
-		}
-	}
-	return nil
-}
-
-func CastStruct(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		opts          = ctx.State.(kernels.CastState)
-		inType        = batch.Values[0].Array.Type.(*arrow.StructType)
-		outType       = out.Type.(*arrow.StructType)
-		inFieldCount  = inType.NumFields()
-		outFieldCount = outType.NumFields()
-	)
-
-	fieldsToSelect := make([]int, outFieldCount)
-	for i := range fieldsToSelect {
-		fieldsToSelect[i] = -1
-	}
-
-	outFieldIndex := 0
-	for inFieldIndex := 0; inFieldIndex < inFieldCount && outFieldIndex < outFieldCount; inFieldIndex++ {
-		inField := inType.Field(inFieldIndex)
-		outField := outType.Field(outFieldIndex)
-		if inField.Name == outField.Name {
-			if inField.Nullable && !outField.Nullable {
-				return fmt.Errorf("%w: cannot cast nullable field to non-nullable field: %s %s",
-					arrow.ErrType, inType, outType)
-			}
-			fieldsToSelect[outFieldIndex] = inFieldIndex
-			outFieldIndex++
-		}
-	}
-
-	if outFieldIndex < outFieldCount {
-		return fmt.Errorf("%w: struct fields don't match or are in the wrong order: Input: %s Output: %s",
-			arrow.ErrType, inType, outType)
-	}
-
-	input := &batch.Values[0].Array
-	if len(input.Buffers[0].Buf) > 0 {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(input.Len))
-		bitutil.CopyBitmap(input.Buffers[0].Buf, int(input.Offset), int(input.Len),
-			out.Buffers[0].Buf, 0)
-	}
-
-	out.Children = make([]exec.ArraySpan, outFieldCount)
-	for outFieldIndex, idx := range fieldsToSelect {
-		values := input.Children[idx].MakeArray()
-		defer values.Release()
-		values = array.NewSlice(values, input.Offset, input.Len)
-		defer values.Release()
-
-		opts.ToType = outType.Field(outFieldIndex).Type
-		castedValues, err := CastArray(ctx.Ctx, values, &opts)
-		if err != nil {
-			return err
-		}
-		defer castedValues.Release()
-
-		out.Children[outFieldIndex].TakeOwnership(castedValues.Data())
-	}
-	return nil
-}
-
-func addListCast[SrcOffsetT, DestOffsetT int32 | int64](fn *castFunction, inType arrow.Type) error {
-	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(inType)},
-		kernels.OutputTargetType, CastList[SrcOffsetT, DestOffsetT], nil)
-	kernel.NullHandling = exec.NullComputedNoPrealloc
-	kernel.MemAlloc = exec.MemNoPrealloc
-	return fn.AddTypeCast(inType, kernel)
-}
-
-func addStructToStructCast(fn *castFunction) error {
-	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(arrow.STRUCT)},
-		kernels.OutputTargetType, CastStruct, nil)
-	kernel.NullHandling = exec.NullComputedNoPrealloc
-	return fn.AddTypeCast(arrow.STRUCT, kernel)
-}
-
-func addCastFuncs(fn []*castFunction) {
-	for _, f := range fn {
-		f.AddNewTypeCast(arrow.EXTENSION, []exec.InputType{exec.NewIDInput(arrow.EXTENSION)},
-			f.kernels[0].Signature.OutType, CastFromExtension,
-			exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
-		castTable[f.out] = f
-	}
-}
-
-func initCastTable() {
-	castTable = make(map[arrow.Type]*castFunction)
-	addCastFuncs(getBooleanCasts())
-	addCastFuncs(getNumericCasts())
-	addCastFuncs(getBinaryLikeCasts())
-	addCastFuncs(getTemporalCasts())
-	addCastFuncs(getNestedCasts())
-
-	nullToExt := newCastFunction("cast_extension", arrow.EXTENSION)
-	nullToExt.AddNewTypeCast(arrow.NULL, []exec.InputType{exec.NewExactInput(arrow.Null)},
-		kernels.OutputTargetType, kernels.CastFromNull, exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
-	castTable[arrow.EXTENSION] = nullToExt
-}
-
-func getCastFunction(to arrow.DataType) (*castFunction, error) {
-	castInit.Do(initCastTable)
-
-	fn, ok := castTable[to.ID()]
-	if ok {
-		return fn, nil
-	}
-
-	return nil, fmt.Errorf("%w: unsupported cast to %s", arrow.ErrNotImplemented, to)
-}
-
-func getNestedCasts() []*castFunction {
-	out := make([]*castFunction, 0)
-
-	addKernels := func(fn *castFunction, kernels []exec.ScalarKernel) {
-		for _, k := range kernels {
-			if err := fn.AddTypeCast(k.Signature.InputTypes[0].MatchID(), k); err != nil {
-				panic(err)
-			}
-		}
-	}
-
-	castLists := newCastFunction("cast_list", arrow.LIST)
-	addKernels(castLists, kernels.GetCommonCastKernels(arrow.LIST, kernels.OutputTargetType))
-	if err := addListCast[int32, int32](castLists, arrow.LIST); err != nil {
-		panic(err)
-	}
-	if err := addListCast[int64, int32](castLists, arrow.LARGE_LIST); err != nil {
-		panic(err)
-	}
-	out = append(out, castLists)
-
-	castLargeLists := newCastFunction("cast_large_list", arrow.LARGE_LIST)
-	addKernels(castLargeLists, kernels.GetCommonCastKernels(arrow.LARGE_LIST, kernels.OutputTargetType))
-	if err := addListCast[int32, int64](castLargeLists, arrow.LIST); err != nil {
-		panic(err)
-	}
-	if err := addListCast[int64, int64](castLargeLists, arrow.LARGE_LIST); err != nil {
-		panic(err)
-	}
-	out = append(out, castLargeLists)
-
-	castFsl := newCastFunction("cast_fixed_size_list", arrow.FIXED_SIZE_LIST)
-	addKernels(castFsl, kernels.GetCommonCastKernels(arrow.FIXED_SIZE_LIST, kernels.OutputTargetType))
-	out = append(out, castFsl)
-
-	castStruct := newCastFunction("cast_struct", arrow.STRUCT)
-	addKernels(castStruct, kernels.GetCommonCastKernels(arrow.STRUCT, kernels.OutputTargetType))
-	if err := addStructToStructCast(castStruct); err != nil {
-		panic(err)
-	}
-	out = append(out, castStruct)
-
-	return out
-}
-
-func getBooleanCasts() []*castFunction {
-	fn := newCastFunction("cast_boolean", arrow.BOOL)
-	kns := kernels.GetBooleanCastKernels()
-
-	for _, k := range kns {
-		if err := fn.AddTypeCast(k.Signature.InputTypes[0].Type.ID(), k); err != nil {
-			panic(err)
-		}
-	}
-
-	return []*castFunction{fn}
-}
-
-func getTemporalCasts() []*castFunction {
-	output := make([]*castFunction, 0)
-	addFn := func(name string, id arrow.Type, kernels []exec.ScalarKernel) {
-		fn := newCastFunction(name, id)
-		for _, k := range kernels {
-			if err := fn.AddTypeCast(k.Signature.InputTypes[0].MatchID(), k); err != nil {
-				panic(err)
-			}
-		}
-		fn.AddNewTypeCast(arrow.DICTIONARY, []exec.InputType{exec.NewIDInput(arrow.DICTIONARY)},
-			kernels[0].Signature.OutType, unpackDictionary, exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
-		output = append(output, fn)
-	}
-
-	addFn("cast_timestamp", arrow.TIMESTAMP, kernels.GetTimestampCastKernels())
-	addFn("cast_date32", arrow.DATE32, kernels.GetDate32CastKernels())
-	addFn("cast_date64", arrow.DATE64, kernels.GetDate64CastKernels())
-	addFn("cast_time32", arrow.TIME32, kernels.GetTime32CastKernels())
-	addFn("cast_time64", arrow.TIME64, kernels.GetTime64CastKernels())
-	addFn("cast_duration", arrow.DURATION, kernels.GetDurationCastKernels())
-	addFn("cast_month_day_nano_interval", arrow.INTERVAL_MONTH_DAY_NANO, kernels.GetIntervalCastKernels())
-	return output
-}
-
-func getNumericCasts() []*castFunction {
-	out := make([]*castFunction, 0)
-
-	getFn := func(name string, ty arrow.Type, kns []exec.ScalarKernel) *castFunction {
-		fn := newCastFunction(name, ty)
-		for _, k := range kns {
-			if err := fn.AddTypeCast(k.Signature.InputTypes[0].MatchID(), k); err != nil {
-				panic(err)
-			}
-		}
-
-		fn.AddNewTypeCast(arrow.DICTIONARY, []exec.InputType{exec.NewIDInput(arrow.DICTIONARY)},
-			kns[0].Signature.OutType, unpackDictionary, exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
-
-		return fn
-	}
-
-	out = append(out, getFn("cast_int8", arrow.INT8, kernels.GetCastToInteger[int8](arrow.PrimitiveTypes.Int8)))
-	out = append(out, getFn("cast_int16", arrow.INT16, kernels.GetCastToInteger[int8](arrow.PrimitiveTypes.Int16)))
-
-	castInt32 := getFn("cast_int32", arrow.INT32, kernels.GetCastToInteger[int32](arrow.PrimitiveTypes.Int32))
-	castInt32.AddTypeCast(arrow.DATE32,
-		kernels.GetZeroCastKernel(arrow.DATE32,
-			exec.NewExactInput(arrow.FixedWidthTypes.Date32),
-			exec.NewOutputType(arrow.PrimitiveTypes.Int32)))
-	castInt32.AddTypeCast(arrow.TIME32,
-		kernels.GetZeroCastKernel(arrow.TIME32,
-			exec.NewIDInput(arrow.TIME32), exec.NewOutputType(arrow.PrimitiveTypes.Int32)))
-	out = append(out, castInt32)
-
-	castInt64 := getFn("cast_int64", arrow.INT64, kernels.GetCastToInteger[int64](arrow.PrimitiveTypes.Int64))
-	castInt64.AddTypeCast(arrow.DATE64,
-		kernels.GetZeroCastKernel(arrow.DATE64,
-			exec.NewIDInput(arrow.DATE64),
-			exec.NewOutputType(arrow.PrimitiveTypes.Int64)))
-	castInt64.AddTypeCast(arrow.TIME64,
-		kernels.GetZeroCastKernel(arrow.TIME64,
-			exec.NewIDInput(arrow.TIME64),
-			exec.NewOutputType(arrow.PrimitiveTypes.Int64)))
-	castInt64.AddTypeCast(arrow.DURATION,
-		kernels.GetZeroCastKernel(arrow.DURATION,
-			exec.NewIDInput(arrow.DURATION),
-			exec.NewOutputType(arrow.PrimitiveTypes.Int64)))
-	castInt64.AddTypeCast(arrow.TIMESTAMP,
-		kernels.GetZeroCastKernel(arrow.TIMESTAMP,
-			exec.NewIDInput(arrow.TIMESTAMP),
-			exec.NewOutputType(arrow.PrimitiveTypes.Int64)))
-	out = append(out, castInt64)
-
-	out = append(out, getFn("cast_uint8", arrow.UINT8, kernels.GetCastToInteger[uint8](arrow.PrimitiveTypes.Uint8)))
-	out = append(out, getFn("cast_uint16", arrow.UINT16, kernels.GetCastToInteger[uint16](arrow.PrimitiveTypes.Uint16)))
-	out = append(out, getFn("cast_uint32", arrow.UINT32, kernels.GetCastToInteger[uint32](arrow.PrimitiveTypes.Uint32)))
-	out = append(out, getFn("cast_uint64", arrow.UINT64, kernels.GetCastToInteger[uint64](arrow.PrimitiveTypes.Uint64)))
-
-	out = append(out, getFn("cast_half_float", arrow.FLOAT16, kernels.GetCommonCastKernels(arrow.FLOAT16, exec.NewOutputType(arrow.FixedWidthTypes.Float16))))
-	out = append(out, getFn("cast_float", arrow.FLOAT32, kernels.GetCastToFloating[float32](arrow.PrimitiveTypes.Float32)))
-	out = append(out, getFn("cast_double", arrow.FLOAT64, kernels.GetCastToFloating[float64](arrow.PrimitiveTypes.Float64)))
-
-	// cast to decimal128
-	out = append(out, getFn("cast_decimal", arrow.DECIMAL128, kernels.GetCastToDecimal128()))
-	// cast to decimal256
-	out = append(out, getFn("cast_decimal256", arrow.DECIMAL256, kernels.GetCastToDecimal256()))
-	return out
-}
-
-func getBinaryLikeCasts() []*castFunction {
-	out := make([]*castFunction, 0)
-
-	addFn := func(name string, ty arrow.Type, kns []exec.ScalarKernel) {
-		fn := newCastFunction(name, ty)
-		for _, k := range kns {
-			if err := fn.AddTypeCast(k.Signature.InputTypes[0].MatchID(), k); err != nil {
-				panic(err)
-			}
-		}
-
-		fn.AddNewTypeCast(arrow.DICTIONARY, []exec.InputType{exec.NewIDInput(arrow.DICTIONARY)},
-			kns[0].Signature.OutType, unpackDictionary, exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
-
-		out = append(out, fn)
-	}
-
-	addFn("cast_binary", arrow.BINARY, kernels.GetToBinaryKernels(arrow.BinaryTypes.Binary))
-	addFn("cast_large_binary", arrow.LARGE_BINARY, kernels.GetToBinaryKernels(arrow.BinaryTypes.LargeBinary))
-	addFn("cast_string", arrow.STRING, kernels.GetToBinaryKernels(arrow.BinaryTypes.String))
-	addFn("cast_large_string", arrow.LARGE_STRING, kernels.GetToBinaryKernels(arrow.BinaryTypes.LargeString))
-	addFn("cast_fixed_sized_binary", arrow.FIXED_SIZE_BINARY, kernels.GetFsbCastKernels())
-	return out
-}
-
-// CastDatum is a convenience function for casting a Datum to another type.
-// It is equivalent to calling CallFunction(ctx, "cast", opts, Datum) and
-// should work for Scalar, Array or ChunkedArray Datums.
-func CastDatum(ctx context.Context, val Datum, opts *CastOptions) (Datum, error) {
-	return CallFunction(ctx, "cast", opts, val)
-}
-
-// CastArray is a convenience function for casting an Array to another type.
-// It is equivalent to constructing a Datum for the array and using
-// CallFunction(ctx, "cast", ...).
-func CastArray(ctx context.Context, val arrow.Array, opts *CastOptions) (arrow.Array, error) {
-	d := NewDatum(val)
-	defer d.Release()
-
-	out, err := CastDatum(ctx, d, opts)
-	if err != nil {
-		return nil, err
-	}
-
-	defer out.Release()
-	return out.(*ArrayDatum).MakeArray(), nil
-}
-
-// CastToType is a convenience function equivalent to calling
-// CastArray(ctx, val, compute.SafeCastOptions(toType))
-func CastToType(ctx context.Context, val arrow.Array, toType arrow.DataType) (arrow.Array, error) {
-	return CastArray(ctx, val, SafeCastOptions(toType))
-}
-
-// CanCast returns true if there is an implementation for casting an array
-// or scalar value from the specified DataType to the other data type.
-func CanCast(from, to arrow.DataType) bool {
-	fn, err := getCastFunction(to)
-	if err != nil {
-		return false
-	}
-
-	for _, id := range fn.inIDs {
-		if from.ID() == id {
-			return true
-		}
-	}
-	return false
-}
diff --git a/go/arrow/compute/cast_test.go b/go/arrow/compute/cast_test.go
deleted file mode 100644
index db6098225dda8..0000000000000
--- a/go/arrow/compute/cast_test.go
+++ /dev/null
@@ -1,2867 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"fmt"
-	"math"
-	"strconv"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-func getScalars(inputs []compute.Datum, idx int) []scalar.Scalar {
-	out := make([]scalar.Scalar, len(inputs))
-	for i, in := range inputs {
-		if in.Kind() == compute.KindArray {
-			arr := in.(*compute.ArrayDatum).MakeArray()
-			defer arr.Release()
-			out[i], _ = scalar.GetScalar(arr, idx)
-		} else {
-			out[i] = in.(*compute.ScalarDatum).Value
-		}
-	}
-	return out
-}
-
-func getDatums[T any](inputs []T) []compute.Datum {
-	out := make([]compute.Datum, len(inputs))
-	for i, in := range inputs {
-		out[i] = compute.NewDatum(in)
-	}
-	return out
-}
-
-func assertArraysEqual(t *testing.T, expected, actual arrow.Array, opts ...array.EqualOption) bool {
-	return assert.Truef(t, array.ApproxEqual(expected, actual, opts...), "expected: %s\ngot: %s", expected, actual)
-}
-
-func assertDatumsEqual(t *testing.T, expected, actual compute.Datum, opts []array.EqualOption, scalarOpts []scalar.EqualOption) {
-	require.Equal(t, expected.Kind(), actual.Kind())
-
-	switch expected.Kind() {
-	case compute.KindScalar:
-		want := expected.(*compute.ScalarDatum).Value
-		got := actual.(*compute.ScalarDatum).Value
-		assert.Truef(t, scalar.ApproxEquals(want, got, scalarOpts...), "expected: %s\ngot: %s", want, got)
-	case compute.KindArray:
-		want := expected.(*compute.ArrayDatum).MakeArray()
-		got := actual.(*compute.ArrayDatum).MakeArray()
-		assertArraysEqual(t, want, got, opts...)
-		want.Release()
-		got.Release()
-	case compute.KindChunked:
-		want := expected.(*compute.ChunkedDatum).Value
-		got := actual.(*compute.ChunkedDatum).Value
-		assert.Truef(t, array.ChunkedEqual(want, got), "expected: %s\ngot: %s", want, got)
-	default:
-		assert.Truef(t, actual.Equals(expected), "expected: %s\ngot: %s", expected, actual)
-	}
-}
-
-func checkScalarNonRecursive(t *testing.T, funcName string, inputs []compute.Datum, expected compute.Datum, opts compute.FunctionOptions) {
-	out, err := compute.CallFunction(context.Background(), funcName, opts, inputs...)
-	assert.NoError(t, err)
-	defer out.Release()
-	assertDatumsEqual(t, expected, out, nil, nil)
-}
-
-func checkScalarWithScalars(t *testing.T, funcName string, inputs []scalar.Scalar, expected scalar.Scalar, opts compute.FunctionOptions) {
-	datums := getDatums(inputs)
-	defer func() {
-		for _, s := range inputs {
-			if r, ok := s.(scalar.Releasable); ok {
-				r.Release()
-			}
-		}
-		for _, d := range datums {
-			d.Release()
-		}
-	}()
-	out, err := compute.CallFunction(context.Background(), funcName, opts, datums...)
-	assert.NoError(t, err)
-	defer out.Release()
-	if !scalar.Equals(out.(*compute.ScalarDatum).Value, expected) {
-		var b strings.Builder
-		b.WriteString(funcName + "(")
-		for i, in := range inputs {
-			if i != 0 {
-				b.WriteByte(',')
-			}
-			b.WriteString(in.String())
-		}
-		b.WriteByte(')')
-		b.WriteString(" = " + out.(*compute.ScalarDatum).Value.String())
-		b.WriteString(" != " + expected.String())
-
-		if !arrow.TypeEqual(out.(*compute.ScalarDatum).Type(), expected.DataType()) {
-			fmt.Fprintf(&b, " (types differed: %s vs %s)",
-				out.(*compute.ScalarDatum).Type(), expected.DataType())
-		}
-		t.Fatal(b.String())
-	}
-}
-
-func checkScalar(t *testing.T, funcName string, inputs []compute.Datum, expected compute.Datum, opts compute.FunctionOptions) {
-	checkScalarNonRecursive(t, funcName, inputs, expected, opts)
-
-	if expected.Kind() == compute.KindScalar {
-		return
-	}
-
-	exp := expected.(*compute.ArrayDatum).MakeArray()
-	defer exp.Release()
-
-	// check for at least 1 array, and make sure the others are of equal len
-	hasArray := false
-	for _, in := range inputs {
-		if in.Kind() == compute.KindArray {
-			assert.EqualValues(t, exp.Len(), in.(*compute.ArrayDatum).Len())
-			hasArray = true
-		}
-	}
-
-	require.True(t, hasArray)
-
-	// check all the input scalars
-	for i := 0; i < exp.Len(); i++ {
-		e, _ := scalar.GetScalar(exp, i)
-		checkScalarWithScalars(t, funcName, getScalars(inputs, i), e, opts)
-		if r, ok := e.(scalar.Releasable); ok {
-			r.Release()
-		}
-	}
-}
-
-func assertBufferSame(t *testing.T, left, right arrow.Array, idx int) {
-	assert.Same(t, left.Data().Buffers()[idx], right.Data().Buffers()[idx])
-}
-
-func checkScalarUnary(t *testing.T, funcName string, input compute.Datum, exp compute.Datum, opt compute.FunctionOptions) {
-	checkScalar(t, funcName, []compute.Datum{input}, exp, opt)
-}
-
-func checkCast(t *testing.T, input arrow.Array, exp arrow.Array, opts compute.CastOptions) {
-	opts.ToType = exp.DataType()
-	in, out := compute.NewDatum(input), compute.NewDatum(exp)
-	defer in.Release()
-	defer out.Release()
-	checkScalarUnary(t, "cast", in, out, &opts)
-}
-
-func checkCastFails(t *testing.T, input arrow.Array, opt compute.CastOptions) {
-	_, err := compute.CastArray(context.Background(), input, &opt)
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-
-	// for scalars, check that at least one of the input fails
-	// since many of the tests contain a mix of passing and failing values.
-	// in some cases we will want to check more precisely
-	nfail := 0
-	for i := 0; i < input.Len(); i++ {
-		sc, _ := scalar.GetScalar(input, i)
-		if r, ok := sc.(scalar.Releasable); ok {
-			defer r.Release()
-		}
-		d := compute.NewDatum(sc)
-		defer d.Release()
-		out, err := compute.CastDatum(context.Background(), d, &opt)
-		if err != nil {
-			nfail++
-		} else {
-			out.Release()
-		}
-	}
-	assert.Greater(t, nfail, 0)
-}
-
-func checkCastZeroCopy(t *testing.T, input arrow.Array, toType arrow.DataType, opts *compute.CastOptions) {
-	opts.ToType = toType
-	out, err := compute.CastArray(context.Background(), input, opts)
-	assert.NoError(t, err)
-	defer out.Release()
-
-	assert.Len(t, out.Data().Buffers(), len(input.Data().Buffers()))
-	for i := range out.Data().Buffers() {
-		assertBufferSame(t, out, input, i)
-	}
-}
-
-var (
-	signedIntTypes = []arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Int64,
-	}
-	unsignedIntTypes = []arrow.DataType{
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Uint64,
-	}
-	integerTypes  = append(signedIntTypes, unsignedIntTypes...)
-	floatingTypes = []arrow.DataType{
-		arrow.PrimitiveTypes.Float32,
-		arrow.PrimitiveTypes.Float64,
-	}
-	numericTypes    = append(integerTypes, floatingTypes...)
-	baseBinaryTypes = []arrow.DataType{
-		arrow.BinaryTypes.Binary,
-		arrow.BinaryTypes.LargeBinary,
-		arrow.BinaryTypes.String,
-		arrow.BinaryTypes.LargeString,
-	}
-	dictIndexTypes = integerTypes
-)
-
-type CastSuite struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-}
-
-func (c *CastSuite) allocateEmptyBitmap(len int) *memory.Buffer {
-	buf := memory.NewResizableBuffer(c.mem)
-	buf.Resize(int(bitutil.BytesForBits(int64(len))))
-	return buf
-}
-
-func (c *CastSuite) maskArrayWithNullsAt(input arrow.Array, toMask []int) arrow.Array {
-	masked := input.Data().(*array.Data).Copy()
-	defer masked.Release()
-	if masked.Buffers()[0] != nil {
-		masked.Buffers()[0].Release()
-	}
-	masked.Buffers()[0] = c.allocateEmptyBitmap(input.Len())
-	masked.SetNullN(array.UnknownNullCount)
-
-	if original := input.NullBitmapBytes(); len(original) > 0 {
-		bitutil.CopyBitmap(original, input.Data().Offset(), input.Len(), masked.Buffers()[0].Bytes(), 0)
-	} else {
-		bitutil.SetBitsTo(masked.Buffers()[0].Bytes(), 0, int64(input.Len()), true)
-	}
-
-	for _, i := range toMask {
-		bitutil.SetBitTo(masked.Buffers()[0].Bytes(), i, false)
-	}
-
-	return array.MakeFromData(masked)
-}
-
-func (c *CastSuite) invalidUtf8Arr(dt arrow.DataType) arrow.Array {
-	bldr := array.NewBinaryBuilder(c.mem, dt.(arrow.BinaryDataType))
-	defer bldr.Release()
-
-	bldr.AppendValues([][]byte{
-		[]byte("Hi"),
-		[]byte("olá mundo"),
-		[]byte("你好世界"),
-		[]byte(""),
-		[]byte("\xa0\xa1"), // invalid utf8!
-	}, nil)
-
-	return bldr.NewArray()
-}
-
-type binaryBuilderAppend interface {
-	array.Builder
-	AppendValues([][]byte, []bool)
-}
-
-func (c *CastSuite) fixedSizeInvalidUtf8(dt arrow.DataType) arrow.Array {
-	var bldr binaryBuilderAppend
-	if dt.ID() == arrow.FIXED_SIZE_BINARY {
-		c.Require().Equal(3, dt.(*arrow.FixedSizeBinaryType).ByteWidth)
-		bldr = array.NewFixedSizeBinaryBuilder(c.mem, dt.(*arrow.FixedSizeBinaryType))
-	} else {
-		bldr = array.NewBinaryBuilder(c.mem, dt.(arrow.BinaryDataType))
-	}
-
-	defer bldr.Release()
-
-	bldr.AppendValues([][]byte{
-		[]byte("Hi!"),
-		[]byte("lá"),
-		[]byte("你"),
-		[]byte("   "),
-		[]byte("\xa0\xa1\xa2"), // invalid utf8!
-	}, nil)
-
-	return bldr.NewArray()
-}
-
-func (c *CastSuite) SetupTest() {
-	c.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-}
-
-func (c *CastSuite) TearDownTest() {
-	c.mem.AssertSize(c.T(), 0)
-}
-
-func (c *CastSuite) TestCanCast() {
-	expectCanCast := func(from arrow.DataType, toSet []arrow.DataType, expected bool) {
-		for _, to := range toSet {
-			c.Equalf(expected, compute.CanCast(from, to), "CanCast from: %s, to: %s, expected: %t",
-				from, to, expected)
-		}
-	}
-
-	canCast := func(from arrow.DataType, toSet []arrow.DataType) {
-		expectCanCast(from, toSet, true)
-	}
-
-	cannotCast := func(from arrow.DataType, toSet []arrow.DataType) {
-		expectCanCast(from, toSet, false)
-	}
-
-	canCast(arrow.Null, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
-	canCast(arrow.Null, numericTypes)
-	canCast(arrow.Null, baseBinaryTypes)
-	canCast(arrow.Null, []arrow.DataType{
-		arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Timestamp_s,
-	})
-	cannotCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: arrow.Null}, []arrow.DataType{arrow.Null})
-
-	canCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
-	canCast(arrow.FixedWidthTypes.Boolean, numericTypes)
-	canCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-	cannotCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.FixedWidthTypes.Boolean}, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
-
-	cannotCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{arrow.Null})
-	cannotCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary})
-	cannotCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{
-		arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Timestamp_s})
-
-	for _, from := range numericTypes {
-		canCast(from, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
-		canCast(from, numericTypes)
-		canCast(from, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-		canCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: from}, []arrow.DataType{from})
-
-		cannotCast(from, []arrow.DataType{arrow.Null})
-	}
-
-	for _, from := range baseBinaryTypes {
-		canCast(from, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
-		canCast(from, numericTypes)
-		canCast(from, baseBinaryTypes)
-		canCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int64, ValueType: from}, []arrow.DataType{from})
-
-		// any cast which is valid for the dictionary is valid for the dictionary array
-		canCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint32, ValueType: from}, baseBinaryTypes)
-		canCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: from}, baseBinaryTypes)
-
-		cannotCast(from, []arrow.DataType{arrow.Null})
-	}
-
-	canCast(arrow.BinaryTypes.String, []arrow.DataType{arrow.FixedWidthTypes.Timestamp_ms})
-	canCast(arrow.BinaryTypes.LargeString, []arrow.DataType{arrow.FixedWidthTypes.Timestamp_ns})
-	// no formatting supported
-	cannotCast(arrow.FixedWidthTypes.Timestamp_us, []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary})
-
-	canCast(&arrow.FixedSizeBinaryType{ByteWidth: 3}, []arrow.DataType{
-		arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary, arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString,
-		&arrow.FixedSizeBinaryType{ByteWidth: 3}})
-
-	arrow.RegisterExtensionType(types.NewSmallintType())
-	defer arrow.UnregisterExtensionType("smallint")
-	canCast(types.NewSmallintType(), []arrow.DataType{arrow.PrimitiveTypes.Int16})
-	canCast(types.NewSmallintType(), numericTypes) // any cast which is valid for storage is supported
-	canCast(arrow.Null, []arrow.DataType{types.NewSmallintType()})
-
-	canCast(arrow.FixedWidthTypes.Date32, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-	canCast(arrow.FixedWidthTypes.Date64, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-	canCast(arrow.FixedWidthTypes.Timestamp_ns, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-	canCast(arrow.FixedWidthTypes.Timestamp_us, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-	canCast(arrow.FixedWidthTypes.Time32ms, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-	canCast(arrow.FixedWidthTypes.Time64ns, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
-}
-
-func (c *CastSuite) checkCastFails(dt arrow.DataType, input string, opts *compute.CastOptions) {
-	inArr, _, _ := array.FromJSON(c.mem, dt, strings.NewReader(input), array.WithUseNumber())
-	defer inArr.Release()
-
-	checkCastFails(c.T(), inArr, *opts)
-}
-
-func (c *CastSuite) checkCastOpts(dtIn, dtOut arrow.DataType, inJSON, outJSON string, opts compute.CastOptions) {
-	inArr, _, _ := array.FromJSON(c.mem, dtIn, strings.NewReader(inJSON), array.WithUseNumber())
-	outArr, _, _ := array.FromJSON(c.mem, dtOut, strings.NewReader(outJSON), array.WithUseNumber())
-	defer inArr.Release()
-	defer outArr.Release()
-
-	checkCast(c.T(), inArr, outArr, opts)
-}
-
-func (c *CastSuite) checkCast(dtIn, dtOut arrow.DataType, inJSON, outJSON string) {
-	c.checkCastOpts(dtIn, dtOut, inJSON, outJSON, *compute.DefaultCastOptions(true))
-}
-
-func (c *CastSuite) checkCastArr(in arrow.Array, dtOut arrow.DataType, json string, opts compute.CastOptions) {
-	outArr, _, _ := array.FromJSON(c.mem, dtOut, strings.NewReader(json), array.WithUseNumber())
-	defer outArr.Release()
-	checkCast(c.T(), in, outArr, opts)
-}
-
-func (c *CastSuite) checkCastExp(dtIn arrow.DataType, inJSON string, exp arrow.Array) {
-	inArr, _, _ := array.FromJSON(c.mem, dtIn, strings.NewReader(inJSON), array.WithUseNumber())
-	defer inArr.Release()
-	checkCast(c.T(), inArr, exp, *compute.DefaultCastOptions(true))
-}
-
-func (c *CastSuite) TestNumericToBool() {
-	for _, dt := range numericTypes {
-		c.checkCast(dt, arrow.FixedWidthTypes.Boolean,
-			`[0, null, 127, 1, 0]`, `[false, null, true, true, false]`)
-	}
-
-	// check negative numbers
-	for _, dt := range []arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Float64} {
-		c.checkCast(dt, arrow.FixedWidthTypes.Boolean,
-			`[0, null, 127, -1, 0]`, `[false, null, true, true, false]`)
-	}
-}
-
-func (c *CastSuite) StringToBool() {
-	for _, dt := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.checkCast(dt, arrow.FixedWidthTypes.Boolean,
-			`["False", null, "true", "True", "false"]`, `[false, null, true, true, false]`)
-
-		c.checkCast(dt, arrow.FixedWidthTypes.Boolean,
-			`["0", null, "1", "1", "0"]`, `[false, null, true, true, false]`)
-
-		opts := compute.NewCastOptions(arrow.FixedWidthTypes.Boolean, true)
-		c.checkCastFails(dt, `["false "]`, opts)
-		c.checkCastFails(dt, `["T"]`, opts)
-	}
-}
-
-func (c *CastSuite) TestToIntUpcast() {
-	c.checkCast(arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32,
-		`[0, null, 127, -1, 0]`, `[0, null, 127, -1, 0]`)
-
-	c.checkCast(arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int16,
-		`[0, 100, 200, 255, 0]`, `[0, 100, 200, 255, 0]`)
-}
-
-func (c *CastSuite) TestToIntDowncastSafe() {
-	// int16 to uint8 no overflow/underflow
-	c.checkCast(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint8,
-		`[0, null, 200, 1, 2]`, `[0, null, 200, 1, 2]`)
-
-	// int16 to uint8, overflow
-	c.checkCastFails(arrow.PrimitiveTypes.Int16, `[0, null, 256, 0, 0]`,
-		compute.NewCastOptions(arrow.PrimitiveTypes.Uint8, true))
-	// and underflow
-	c.checkCastFails(arrow.PrimitiveTypes.Int16, `[0, null, -1, 0, 0]`,
-		compute.NewCastOptions(arrow.PrimitiveTypes.Uint8, true))
-
-	// int32 to int16, no overflow/underflow
-	c.checkCast(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16,
-		`[0, null, 2000, 1, 2]`, `[0, null, 2000, 1, 2]`)
-
-	// int32 to int16, overflow
-	c.checkCastFails(arrow.PrimitiveTypes.Int32, `[0, null, 2000, 70000, 2]`,
-		compute.NewCastOptions(arrow.PrimitiveTypes.Int16, true))
-
-	// and underflow
-	c.checkCastFails(arrow.PrimitiveTypes.Int32, `[0, null, 2000, -70000, 2]`,
-		compute.NewCastOptions(arrow.PrimitiveTypes.Int16, true))
-
-	c.checkCastFails(arrow.PrimitiveTypes.Int32, `[0, null, 2000, -70000, 2]`,
-		compute.NewCastOptions(arrow.PrimitiveTypes.Uint8, true))
-
-}
-
-func (c *CastSuite) TestIntegerSignedToUnsigned() {
-	i32s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[-2147483648, null, -1, 65535, 2147483647]`))
-	defer i32s.Release()
-
-	// same width
-	checkCastFails(c.T(), i32s, *compute.NewCastOptions(arrow.PrimitiveTypes.Uint32, true))
-	// wider
-	checkCastFails(c.T(), i32s, *compute.NewCastOptions(arrow.PrimitiveTypes.Uint64, true))
-	// narrower
-	checkCastFails(c.T(), i32s, *compute.NewCastOptions(arrow.PrimitiveTypes.Uint16, true))
-
-	var options compute.CastOptions
-	options.AllowIntOverflow = true
-
-	u32s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Uint32,
-		strings.NewReader(`[2147483648, null, 4294967295, 65535, 2147483647]`))
-	defer u32s.Release()
-	checkCast(c.T(), i32s, u32s, options)
-
-	u64s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Uint64,
-		strings.NewReader(`[18446744071562067968, null, 18446744073709551615, 65535, 2147483647]`),
-		array.WithUseNumber()) // have to use WithUseNumber so it doesn't lose precision converting to float64
-	defer u64s.Release()
-	checkCast(c.T(), i32s, u64s, options)
-
-	// fail because of overflow, instead of underflow
-	i32s, _, _ = array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, null, 0, 65536, 2147483647]`))
-	defer i32s.Release()
-	checkCastFails(c.T(), i32s, *compute.NewCastOptions(arrow.PrimitiveTypes.Uint16, true))
-
-	u16s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Uint16, strings.NewReader(`[0, null, 0, 0, 65535]`))
-	defer u16s.Release()
-	checkCast(c.T(), i32s, u16s, options)
-}
-
-func (c *CastSuite) TestIntegerUnsignedToSigned() {
-	u32s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Uint32, strings.NewReader(`[4294967295, null, 0, 32768]`))
-	defer u32s.Release()
-	// same width
-	checkCastFails(c.T(), u32s, *compute.SafeCastOptions(arrow.PrimitiveTypes.Int32))
-
-	// narrower
-	checkCastFails(c.T(), u32s, *compute.SafeCastOptions(arrow.PrimitiveTypes.Int16))
-	sl := array.NewSlice(u32s, 1, int64(u32s.Len()))
-	defer sl.Release()
-	checkCastFails(c.T(), sl, *compute.SafeCastOptions(arrow.PrimitiveTypes.Int16))
-
-	var opts compute.CastOptions
-	opts.AllowIntOverflow = true
-	c.checkCastArr(u32s, arrow.PrimitiveTypes.Int32, `[-1, null, 0, 32768]`, opts)
-	c.checkCastArr(u32s, arrow.PrimitiveTypes.Int64, `[4294967295, null, 0, 32768]`, opts)
-	c.checkCastArr(u32s, arrow.PrimitiveTypes.Int16, `[-1, null, 0, -32768]`, opts)
-}
-
-func (c *CastSuite) TestToIntDowncastUnsafe() {
-	opts := compute.CastOptions{AllowIntOverflow: true}
-	c.checkCastOpts(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint8,
-		`[0, null, 200, 1, 2]`, `[0, null, 200, 1, 2]`, opts)
-
-	c.checkCastOpts(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint8,
-		`[0, null, 256, 1, 2, -1]`, `[0, null, 0, 1, 2, 255]`, opts)
-
-	c.checkCastOpts(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16,
-		`[0, null, 2000, 1, 2, -1]`, `[0, null, 2000, 1, 2, -1]`, opts)
-
-	c.checkCastOpts(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16,
-		`[0, null, 2000, 70000, -70000]`, `[0, null, 2000, 4464, -4464]`, opts)
-}
-
-func (c *CastSuite) TestFloatingToInt() {
-	for _, from := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64} {
-		for _, to := range []arrow.DataType{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64} {
-			// float to int no truncation
-			c.checkCast(from, to, `[1.0, null, 0.0, -1.0, 5.0]`, `[1, null, 0, -1, 5]`)
-
-			// float to int truncate error
-			opts := compute.SafeCastOptions(to)
-			c.checkCastFails(from, `[1.5, 0.0, null, 0.5, -1.5, 5.5]`, opts)
-
-			// float to int truncate allowed
-			opts.AllowFloatTruncate = true
-			c.checkCastOpts(from, to, `[1.5, 0.0, null, 0.5, -1.5, 5.5]`, `[1, 0, null, 0, -1, 5]`, *opts)
-		}
-	}
-}
-
-func (c *CastSuite) TestIntToFloating() {
-	for _, from := range []arrow.DataType{arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int32} {
-		two24 := `[16777216, 16777217]`
-		c.checkCastFails(from, two24, compute.SafeCastOptions(arrow.PrimitiveTypes.Float32))
-		one24 := `[16777216]`
-		c.checkCast(from, arrow.PrimitiveTypes.Float32, one24, one24)
-	}
-
-	i64s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int64,
-		strings.NewReader(`[-9223372036854775808, -9223372036854775807, 0, 9223372036854775806,  9223372036854775807]`),
-		array.WithUseNumber())
-	defer i64s.Release()
-
-	checkCastFails(c.T(), i64s, *compute.SafeCastOptions(arrow.PrimitiveTypes.Float64))
-	masked := c.maskArrayWithNullsAt(i64s, []int{0, 1, 3, 4})
-	defer masked.Release()
-	c.checkCastArr(masked, arrow.PrimitiveTypes.Float64, `[null, null, 0, null, null]`, *compute.DefaultCastOptions(true))
-
-	c.checkCastFails(arrow.PrimitiveTypes.Uint64, `[9007199254740992, 9007199254740993]`, compute.SafeCastOptions(arrow.PrimitiveTypes.Float64))
-}
-
-func (c *CastSuite) TestDecimal128ToInt() {
-	opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Int64)
-
-	c.Run("no overflow no truncate", func() {
-		for _, allowIntOverflow := range []bool{false, true} {
-			c.Run(fmt.Sprintf("int_overflow=%t", allowIntOverflow), func() {
-				for _, allowDecTruncate := range []bool{false, true} {
-					c.Run(fmt.Sprintf("dec_truncate=%t", allowDecTruncate), func() {
-						opts.AllowIntOverflow = allowIntOverflow
-						opts.AllowDecimalTruncate = allowDecTruncate
-
-						noOverflowNoTrunc, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-							strings.NewReader(`["02.0000000000", "-11.0000000000", "22.0000000000", "-121.000000000", null]`))
-
-						c.checkCastArr(noOverflowNoTrunc, arrow.PrimitiveTypes.Int64, `[2, -11, 22, -121, null]`, *opts)
-						noOverflowNoTrunc.Release()
-					})
-				}
-			})
-		}
-	})
-
-	c.Run("truncate no overflow", func() {
-		for _, allowIntOverflow := range []bool{false, true} {
-			c.Run("allow overflow"+strconv.FormatBool(allowIntOverflow), func() {
-				opts.AllowIntOverflow = allowIntOverflow
-				truncNoOverflow, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-					strings.NewReader(`["02.1000000000", "-11.0000004500", "22.0000004500", "-121.1210000000", null]`))
-
-				opts.AllowDecimalTruncate = true
-				c.checkCastArr(truncNoOverflow, arrow.PrimitiveTypes.Int64, `[2, -11, 22, -121, null]`, *opts)
-
-				opts.AllowDecimalTruncate = false
-				checkCastFails(c.T(), truncNoOverflow, *opts)
-				truncNoOverflow.Release()
-			})
-		}
-	})
-
-	c.Run("overflow no truncate", func() {
-		for _, allowDecTruncate := range []bool{false, true} {
-			c.Run("allow truncate "+strconv.FormatBool(allowDecTruncate), func() {
-				opts.AllowDecimalTruncate = allowDecTruncate
-
-				overflowNoTrunc, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-					strings.NewReader(`[
-						"12345678901234567890000.0000000000",
-						"99999999999999999999999.0000000000",
-						null]`), array.WithUseNumber())
-				defer overflowNoTrunc.Release()
-				opts.AllowIntOverflow = true
-				c.checkCastArr(overflowNoTrunc, arrow.PrimitiveTypes.Int64,
-					// 12345678901234567890000 % 2**64, 99999999999999999999999 % 2**64
-					`[4807115922877858896, 200376420520689663, null]`, *opts)
-
-				opts.AllowIntOverflow = false
-				checkCastFails(c.T(), overflowNoTrunc, *opts)
-			})
-		}
-	})
-
-	c.Run("overflow and truncate", func() {
-		for _, allowIntOverFlow := range []bool{false, true} {
-			c.Run("allow overflow = "+strconv.FormatBool(allowIntOverFlow), func() {
-				for _, allowDecTruncate := range []bool{false, true} {
-					c.Run("allow truncate = "+strconv.FormatBool(allowDecTruncate), func() {
-						opts.AllowIntOverflow = allowIntOverFlow
-						opts.AllowDecimalTruncate = allowDecTruncate
-
-						overflowAndTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-							strings.NewReader(`[
-							"12345678901234567890000.0045345000",
-							"99999999999999999999999.0000344300",
-							null]`), array.WithUseNumber())
-						defer overflowAndTruncate.Release()
-						if opts.AllowIntOverflow && opts.AllowDecimalTruncate {
-							c.checkCastArr(overflowAndTruncate, arrow.PrimitiveTypes.Int64,
-								// 12345678901234567890000 % 2**64, 99999999999999999999999 % 2**64
-								`[4807115922877858896, 200376420520689663, null]`, *opts)
-						} else {
-							checkCastFails(c.T(), overflowAndTruncate, *opts)
-						}
-					})
-				}
-			})
-		}
-	})
-
-	c.Run("negative scale", func() {
-		bldr := array.NewDecimal128Builder(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: -4})
-		defer bldr.Release()
-
-		var err error
-		for _, d := range []decimal128.Num{decimal128.FromU64(1234567890000), decimal128.FromI64(-120000)} {
-			d, err = d.Rescale(0, -4)
-			c.Require().NoError(err)
-			bldr.Append(d)
-		}
-		negScale := bldr.NewArray()
-		defer negScale.Release()
-
-		opts.AllowIntOverflow = true
-		opts.AllowDecimalTruncate = true
-		c.checkCastArr(negScale, arrow.PrimitiveTypes.Int64, `[1234567890000, -120000]`, *opts)
-	})
-}
-
-func (c *CastSuite) TestDecimal256ToInt() {
-	opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Int64)
-
-	c.Run("no overflow no truncate", func() {
-		for _, allowIntOverflow := range []bool{false, true} {
-			c.Run(fmt.Sprintf("int_overflow=%t", allowIntOverflow), func() {
-				for _, allowDecTruncate := range []bool{false, true} {
-					c.Run(fmt.Sprintf("dec_truncate=%t", allowDecTruncate), func() {
-						opts.AllowIntOverflow = allowIntOverflow
-						opts.AllowDecimalTruncate = allowDecTruncate
-
-						noOverflowNoTrunc, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 10},
-							strings.NewReader(`["02.0000000000", "-11.0000000000", "22.0000000000", "-121.000000000", null]`))
-
-						c.checkCastArr(noOverflowNoTrunc, arrow.PrimitiveTypes.Int64, `[2, -11, 22, -121, null]`, *opts)
-						noOverflowNoTrunc.Release()
-					})
-				}
-			})
-		}
-	})
-
-	c.Run("truncate no overflow", func() {
-		for _, allowIntOverflow := range []bool{false, true} {
-			c.Run("allow overflow"+strconv.FormatBool(allowIntOverflow), func() {
-				opts.AllowIntOverflow = allowIntOverflow
-				truncNoOverflow, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 10},
-					strings.NewReader(`["02.1000000000", "-11.0000004500", "22.0000004500", "-121.1210000000", null]`))
-
-				opts.AllowDecimalTruncate = true
-				c.checkCastArr(truncNoOverflow, arrow.PrimitiveTypes.Int64, `[2, -11, 22, -121, null]`, *opts)
-
-				opts.AllowDecimalTruncate = false
-				checkCastFails(c.T(), truncNoOverflow, *opts)
-				truncNoOverflow.Release()
-			})
-		}
-	})
-
-	c.Run("overflow no truncate", func() {
-		for _, allowDecTruncate := range []bool{false, true} {
-			c.Run("allow truncate "+strconv.FormatBool(allowDecTruncate), func() {
-				opts.AllowDecimalTruncate = allowDecTruncate
-
-				overflowNoTrunc, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 10},
-					strings.NewReader(`[
-						"1234567890123456789000000.0000000000",
-						"9999999999999999999999999.0000000000",
-						null]`), array.WithUseNumber())
-				defer overflowNoTrunc.Release()
-				opts.AllowIntOverflow = true
-				c.checkCastArr(overflowNoTrunc, arrow.PrimitiveTypes.Int64,
-					// 1234567890123456789000000 % 2**64, 9999999999999999999999999 % 2**64
-					`[1096246371337547584, 1590897978359414783, null]`, *opts)
-
-				opts.AllowIntOverflow = false
-				checkCastFails(c.T(), overflowNoTrunc, *opts)
-			})
-		}
-	})
-
-	c.Run("overflow and truncate", func() {
-		for _, allowIntOverFlow := range []bool{false, true} {
-			c.Run("allow overflow = "+strconv.FormatBool(allowIntOverFlow), func() {
-				for _, allowDecTruncate := range []bool{false, true} {
-					c.Run("allow truncate = "+strconv.FormatBool(allowDecTruncate), func() {
-						opts.AllowIntOverflow = allowIntOverFlow
-						opts.AllowDecimalTruncate = allowDecTruncate
-
-						overflowAndTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 10},
-							strings.NewReader(`[
-							"1234567890123456789000000.0045345000",
-							"9999999999999999999999999.0000344300",
-							null]`), array.WithUseNumber())
-						defer overflowAndTruncate.Release()
-						if opts.AllowIntOverflow && opts.AllowDecimalTruncate {
-							c.checkCastArr(overflowAndTruncate, arrow.PrimitiveTypes.Int64,
-								// 1234567890123456789000000 % 2**64, 9999999999999999999999999 % 2**64
-								`[1096246371337547584, 1590897978359414783, null]`, *opts)
-						} else {
-							checkCastFails(c.T(), overflowAndTruncate, *opts)
-						}
-					})
-				}
-			})
-		}
-	})
-
-	c.Run("negative scale", func() {
-		bldr := array.NewDecimal256Builder(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: -4})
-		defer bldr.Release()
-
-		var err error
-		for _, d := range []decimal256.Num{decimal256.FromU64(1234567890000), decimal256.FromI64(-120000)} {
-			d, err = d.Rescale(0, -4)
-			c.Require().NoError(err)
-			bldr.Append(d)
-		}
-		negScale := bldr.NewArray()
-		defer negScale.Release()
-
-		opts.AllowIntOverflow = true
-		opts.AllowDecimalTruncate = true
-		c.checkCastArr(negScale, arrow.PrimitiveTypes.Int64, `[1234567890000, -120000]`, *opts)
-	})
-}
-
-func (c *CastSuite) TestIntegerToDecimal() {
-	for _, decType := range []arrow.DataType{&arrow.Decimal128Type{Precision: 22, Scale: 2}, &arrow.Decimal256Type{Precision: 22, Scale: 2}} {
-		c.Run(decType.String(), func() {
-			for _, intType := range integerTypes {
-				c.Run(intType.String(), func() {
-					c.checkCast(intType, decType, `[0, 7, null, 100, 99]`, `["0.00", "7.00", null, "100.00", "99.00"]`)
-				})
-			}
-		})
-	}
-
-	c.Run("extreme value", func() {
-		for _, dt := range []arrow.DataType{&arrow.Decimal128Type{Precision: 19, Scale: 0}, &arrow.Decimal256Type{Precision: 19, Scale: 0}} {
-			c.Run(dt.String(), func() {
-				c.checkCast(arrow.PrimitiveTypes.Int64, dt,
-					`[-9223372036854775808, 9223372036854775807]`, `["-9223372036854775808", "9223372036854775807"]`)
-			})
-		}
-		for _, dt := range []arrow.DataType{&arrow.Decimal128Type{Precision: 20, Scale: 0}, &arrow.Decimal256Type{Precision: 20, Scale: 0}} {
-			c.Run(dt.String(), func() {
-				c.checkCast(arrow.PrimitiveTypes.Uint64, dt,
-					`[0, 18446744073709551615]`, `["0", "18446744073709551615"]`)
-			})
-		}
-	})
-
-	c.Run("insufficient output precision", func() {
-		var opts compute.CastOptions
-		opts.ToType = &arrow.Decimal128Type{Precision: 5, Scale: 3}
-		c.checkCastFails(arrow.PrimitiveTypes.Int8, `[0]`, &opts)
-
-		opts.ToType = &arrow.Decimal256Type{Precision: 76, Scale: 67}
-		c.checkCastFails(arrow.PrimitiveTypes.Int32, `[0]`, &opts)
-	})
-}
-
-func (c *CastSuite) TestDecimal128ToDecimal128() {
-	var opts compute.CastOptions
-
-	for _, allowDecTruncate := range []bool{false, true} {
-		c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-			opts.AllowDecimalTruncate = allowDecTruncate
-
-			noTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-				strings.NewReader(`["02.0000000000", "30.0000000000", "22.0000000000", "-121.0000000000", null]`))
-			expected, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 10},
-				strings.NewReader(`["02.", "30.", "22.", "-121.", null]`))
-
-			defer noTruncate.Release()
-			defer expected.Release()
-
-			checkCast(c.T(), noTruncate, expected, opts)
-			checkCast(c.T(), expected, noTruncate, opts)
-		})
-	}
-
-	c.Run("same scale diff precision", func() {
-		for _, allowDecTruncate := range []bool{false, true} {
-			c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-				opts.AllowDecimalTruncate = allowDecTruncate
-
-				d52, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 5, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-				d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 4, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-
-				defer d52.Release()
-				defer d42.Release()
-
-				checkCast(c.T(), d52, d42, opts)
-				checkCast(c.T(), d42, d52, opts)
-			})
-		}
-	})
-
-	c.Run("rescale leads to trunc", func() {
-		dP38S10, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.1234567890", "30.1234567890", null]`))
-		dP28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 0},
-			strings.NewReader(`["-02.", "30.", null]`))
-		dP38S10RoundTripped, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.0000000000", "30.0000000000", null]`))
-		defer func() {
-			dP38S10.Release()
-			dP28S0.Release()
-			dP38S10RoundTripped.Release()
-		}()
-
-		opts.AllowDecimalTruncate = true
-		checkCast(c.T(), dP38S10, dP28S0, opts)
-		checkCast(c.T(), dP28S0, dP38S10RoundTripped, opts)
-
-		opts.AllowDecimalTruncate = false
-		opts.ToType = dP28S0.DataType()
-		checkCastFails(c.T(), dP38S10, opts)
-		checkCast(c.T(), dP28S0, dP38S10RoundTripped, opts)
-	})
-
-	c.Run("precision loss without rescale = trunc", func() {
-		d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 4, Scale: 2},
-			strings.NewReader(`["12.34"]`))
-		defer d42.Release()
-		for _, dt := range []arrow.DataType{
-			&arrow.Decimal128Type{Precision: 3, Scale: 2},
-			&arrow.Decimal128Type{Precision: 4, Scale: 3},
-			&arrow.Decimal128Type{Precision: 2, Scale: 1}} {
-
-			opts.AllowDecimalTruncate = true
-			opts.ToType = dt
-			out, err := compute.CastArray(context.Background(), d42, &opts)
-			out.Release()
-			c.NoError(err)
-
-			opts.AllowDecimalTruncate = false
-			opts.ToType = dt
-			checkCastFails(c.T(), d42, opts)
-		}
-	})
-}
-
-func (c *CastSuite) TestDecimal256ToDecimal256() {
-	var opts compute.CastOptions
-
-	for _, allowDecTruncate := range []bool{false, true} {
-		c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-			opts.AllowDecimalTruncate = allowDecTruncate
-
-			noTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
-				strings.NewReader(`["02.0000000000", "30.0000000000", "22.0000000000", "-121.0000000000", null]`))
-			expected, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 28, Scale: 10},
-				strings.NewReader(`["02.", "30.", "22.", "-121.", null]`))
-
-			defer noTruncate.Release()
-			defer expected.Release()
-
-			checkCast(c.T(), noTruncate, expected, opts)
-			checkCast(c.T(), expected, noTruncate, opts)
-		})
-	}
-
-	c.Run("same scale diff precision", func() {
-		for _, allowDecTruncate := range []bool{false, true} {
-			c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-				opts.AllowDecimalTruncate = allowDecTruncate
-
-				d52, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 5, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-				d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 4, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-
-				defer d52.Release()
-				defer d42.Release()
-
-				checkCast(c.T(), d52, d42, opts)
-				checkCast(c.T(), d42, d52, opts)
-			})
-		}
-	})
-
-	c.Run("rescale leads to trunc", func() {
-		dP38S10, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.1234567890", "30.1234567890", null]`))
-		dP28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 28, Scale: 0},
-			strings.NewReader(`["-02.", "30.", null]`))
-		dP38S10RoundTripped, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.0000000000", "30.0000000000", null]`))
-		defer func() {
-			dP38S10.Release()
-			dP28S0.Release()
-			dP38S10RoundTripped.Release()
-		}()
-
-		opts.AllowDecimalTruncate = true
-		checkCast(c.T(), dP38S10, dP28S0, opts)
-		checkCast(c.T(), dP28S0, dP38S10RoundTripped, opts)
-
-		opts.AllowDecimalTruncate = false
-		opts.ToType = dP28S0.DataType()
-		checkCastFails(c.T(), dP38S10, opts)
-		checkCast(c.T(), dP28S0, dP38S10RoundTripped, opts)
-	})
-
-	c.Run("precision loss without rescale = trunc", func() {
-		d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 4, Scale: 2},
-			strings.NewReader(`["12.34"]`))
-		defer d42.Release()
-		for _, dt := range []arrow.DataType{
-			&arrow.Decimal256Type{Precision: 3, Scale: 2},
-			&arrow.Decimal256Type{Precision: 4, Scale: 3},
-			&arrow.Decimal256Type{Precision: 2, Scale: 1}} {
-
-			opts.AllowDecimalTruncate = true
-			opts.ToType = dt
-			out, err := compute.CastArray(context.Background(), d42, &opts)
-			out.Release()
-			c.NoError(err)
-
-			opts.AllowDecimalTruncate = false
-			opts.ToType = dt
-			checkCastFails(c.T(), d42, opts)
-		}
-	})
-}
-
-func (c *CastSuite) TestDecimal128ToDecimal256() {
-	var opts compute.CastOptions
-
-	for _, allowDecTruncate := range []bool{false, true} {
-		c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-			opts.AllowDecimalTruncate = allowDecTruncate
-
-			noTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-				strings.NewReader(`["02.0000000000", "30.0000000000", "22.0000000000", "-121.0000000000", null]`))
-			expected, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 28, Scale: 10},
-				strings.NewReader(`["02.", "30.", "22.", "-121.", null]`))
-
-			defer noTruncate.Release()
-			defer expected.Release()
-
-			checkCast(c.T(), noTruncate, expected, opts)
-		})
-	}
-
-	c.Run("same scale diff precision", func() {
-		for _, allowDecTruncate := range []bool{false, true} {
-			c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-				opts.AllowDecimalTruncate = allowDecTruncate
-
-				d52, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 5, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-				d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 4, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-				d402, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-
-				defer d52.Release()
-				defer d42.Release()
-				defer d402.Release()
-
-				checkCast(c.T(), d52, d42, opts)
-				checkCast(c.T(), d52, d402, opts)
-			})
-		}
-	})
-
-	c.Run("rescale leads to trunc", func() {
-		d128P38S10, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.1234567890", "30.1234567890", null]`))
-		d128P28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 0},
-			strings.NewReader(`["-02.", "30.", null]`))
-		d256P28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 28, Scale: 0},
-			strings.NewReader(`["-02.", "30.", null]`))
-		d256P38S10RoundTripped, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.0000000000", "30.0000000000", null]`))
-		defer func() {
-			d128P38S10.Release()
-			d128P28S0.Release()
-			d256P28S0.Release()
-			d256P38S10RoundTripped.Release()
-		}()
-
-		opts.AllowDecimalTruncate = true
-		checkCast(c.T(), d128P38S10, d256P28S0, opts)
-		checkCast(c.T(), d128P28S0, d256P38S10RoundTripped, opts)
-
-		opts.AllowDecimalTruncate = false
-		opts.ToType = d256P28S0.DataType()
-		checkCastFails(c.T(), d128P38S10, opts)
-		checkCast(c.T(), d128P28S0, d256P38S10RoundTripped, opts)
-	})
-
-	c.Run("precision loss without rescale = trunc", func() {
-		d128P4S2, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 4, Scale: 2},
-			strings.NewReader(`["12.34"]`))
-		defer d128P4S2.Release()
-		for _, dt := range []arrow.DataType{
-			&arrow.Decimal256Type{Precision: 3, Scale: 2},
-			&arrow.Decimal256Type{Precision: 4, Scale: 3},
-			&arrow.Decimal256Type{Precision: 2, Scale: 1}} {
-
-			opts.AllowDecimalTruncate = true
-			opts.ToType = dt
-			out, err := compute.CastArray(context.Background(), d128P4S2, &opts)
-			out.Release()
-			c.NoError(err)
-
-			opts.AllowDecimalTruncate = false
-			opts.ToType = dt
-			checkCastFails(c.T(), d128P4S2, opts)
-		}
-	})
-}
-
-func (c *CastSuite) TestDecimal256ToDecimal128() {
-	var opts compute.CastOptions
-
-	for _, allowDecTruncate := range []bool{false, true} {
-		c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-			opts.AllowDecimalTruncate = allowDecTruncate
-
-			noTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 42, Scale: 10},
-				strings.NewReader(`["02.0000000000", "30.0000000000", "22.0000000000", "-121.0000000000", null]`))
-			expected, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 0},
-				strings.NewReader(`["02.", "30.", "22.", "-121.", null]`))
-
-			defer noTruncate.Release()
-			defer expected.Release()
-
-			checkCast(c.T(), noTruncate, expected, opts)
-			checkCast(c.T(), expected, noTruncate, opts)
-		})
-	}
-
-	c.Run("same scale diff precision", func() {
-		for _, allowDecTruncate := range []bool{false, true} {
-			c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
-				opts.AllowDecimalTruncate = allowDecTruncate
-
-				dP42S2, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 42, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-				d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 4, Scale: 2},
-					strings.NewReader(`["12.34", "0.56"]`))
-
-				defer dP42S2.Release()
-				defer d42.Release()
-
-				checkCast(c.T(), dP42S2, d42, opts)
-				checkCast(c.T(), d42, dP42S2, opts)
-			})
-		}
-	})
-
-	c.Run("rescale leads to trunc", func() {
-		d256P52S10, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 52, Scale: 10},
-			strings.NewReader(`["-02.1234567890", "30.1234567890", null]`))
-		d256P42S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 42, Scale: 0},
-			strings.NewReader(`["-02.", "30.", null]`))
-		d128P28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 0},
-			strings.NewReader(`["-02.", "30.", null]`))
-		d128P38S10RoundTripped, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
-			strings.NewReader(`["-02.0000000000", "30.0000000000", null]`))
-		defer func() {
-			d256P52S10.Release()
-			d256P42S0.Release()
-			d128P28S0.Release()
-			d128P38S10RoundTripped.Release()
-		}()
-
-		opts.AllowDecimalTruncate = true
-		checkCast(c.T(), d256P52S10, d128P28S0, opts)
-		checkCast(c.T(), d256P42S0, d128P38S10RoundTripped, opts)
-
-		opts.AllowDecimalTruncate = false
-		opts.ToType = d128P28S0.DataType()
-		checkCastFails(c.T(), d256P52S10, opts)
-		checkCast(c.T(), d256P42S0, d128P38S10RoundTripped, opts)
-	})
-
-	c.Run("precision loss without rescale = trunc", func() {
-		d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 4, Scale: 2},
-			strings.NewReader(`["12.34"]`))
-		defer d42.Release()
-		for _, dt := range []arrow.DataType{
-			&arrow.Decimal128Type{Precision: 3, Scale: 2},
-			&arrow.Decimal128Type{Precision: 4, Scale: 3},
-			&arrow.Decimal128Type{Precision: 2, Scale: 1}} {
-
-			opts.AllowDecimalTruncate = true
-			opts.ToType = dt
-			out, err := compute.CastArray(context.Background(), d42, &opts)
-			out.Release()
-			c.NoError(err)
-
-			opts.AllowDecimalTruncate = false
-			opts.ToType = dt
-			checkCastFails(c.T(), d42, opts)
-		}
-	})
-}
-
-func (c *CastSuite) TestFloatingToDecimal() {
-	for _, fltType := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64} {
-		c.Run("from "+fltType.String(), func() {
-			for _, decType := range []arrow.DataType{&arrow.Decimal128Type{Precision: 5, Scale: 2}, &arrow.Decimal256Type{Precision: 5, Scale: 2}} {
-				c.Run("to "+decType.String(), func() {
-					c.checkCast(fltType, decType,
-						`[0.0, null, 123.45, 123.456, 999.994]`, `["0.00", null, "123.45", "123.46", "999.99"]`)
-
-					c.Run("overflow", func() {
-						opts := compute.CastOptions{ToType: decType}
-						c.checkCastFails(fltType, `[999.996]`, &opts)
-
-						opts.AllowDecimalTruncate = true
-						c.checkCastOpts(fltType, decType, `[0.0, null, 999.996, 123.45, 999.994]`,
-							`["0.00", null, "0.00", "123.45", "999.99"]`, opts)
-					})
-				})
-			}
-		})
-	}
-
-	dec128 := func(prec, scale int32) arrow.DataType {
-		return &arrow.Decimal128Type{Precision: prec, Scale: scale}
-	}
-	dec256 := func(prec, scale int32) arrow.DataType {
-		return &arrow.Decimal256Type{Precision: prec, Scale: scale}
-	}
-
-	type decFunc func(int32, int32) arrow.DataType
-
-	for _, decType := range []decFunc{dec128, dec256} {
-		// 2**64 + 2**41 (exactly representable as a float)
-		c.checkCast(arrow.PrimitiveTypes.Float32, decType(20, 0),
-			`[1.8446746e+19, -1.8446746e+19]`,
-			`[18446746272732807168, -18446746272732807168]`)
-
-		c.checkCast(arrow.PrimitiveTypes.Float64, decType(20, 0),
-			`[1.8446744073709556e+19, -1.8446744073709556e+19]`,
-			`[18446744073709555712, -18446744073709555712]`)
-
-		c.checkCast(arrow.PrimitiveTypes.Float32, decType(20, 4),
-			`[1.8446746e+15, -1.8446746e+15]`,
-			`[1844674627273280.7168, -1844674627273280.7168]`)
-
-		c.checkCast(arrow.PrimitiveTypes.Float64, decType(20, 4),
-			`[1.8446744073709556e+15, -1.8446744073709556e+15]`,
-			`[1844674407370955.5712, -1844674407370955.5712]`)
-	}
-}
-
-func (c *CastSuite) TestDecimalToFloating() {
-	for _, flt := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64} {
-		c.Run(flt.String(), func() {
-			for _, dec := range []arrow.DataType{&arrow.Decimal128Type{Precision: 5, Scale: 2}, &arrow.Decimal256Type{Precision: 5, Scale: 2}} {
-				c.Run(dec.String(), func() {
-					c.checkCast(dec, flt, `["0.00", null, "123.45", "999.99"]`,
-						`[0.0, null, 123.45, 999.99]`)
-				})
-			}
-		})
-	}
-}
-
-func (c *CastSuite) TestDateToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.checkCast(arrow.FixedWidthTypes.Date32, stype,
-			`[0, null]`, `["1970-01-01", null]`)
-		c.checkCast(arrow.FixedWidthTypes.Date64, stype,
-			`[86400000, null]`, `["1970-01-02", null]`)
-	}
-}
-
-func (c *CastSuite) TestTimeToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.checkCast(arrow.FixedWidthTypes.Time32s, stype, `[1, 62]`, `["00:00:01", "00:01:02"]`)
-		c.checkCast(arrow.FixedWidthTypes.Time64ns, stype, `[0, 1]`, `["00:00:00.000000000", "00:00:00.000000001"]`)
-	}
-}
-
-func (c *CastSuite) TestTimestampToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Second}, stype,
-			`[-30610224000, -5364662400]`, `["1000-01-01 00:00:00", "1800-01-01 00:00:00"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Millisecond}, stype,
-			`[-30610224000000, -5364662400000]`, `["1000-01-01 00:00:00.000", "1800-01-01 00:00:00.000"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Microsecond}, stype,
-			`[-30610224000000000, -5364662400000000]`, `["1000-01-01 00:00:00.000000", "1800-01-01 00:00:00.000000"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Nanosecond}, stype,
-			`[-596933876543210988, 349837323456789012]`, `["1951-02-01 01:02:03.456789012", "1981-02-01 01:02:03.456789012"]`)
-	}
-}
-
-func (c *CastSuite) TestTimestampWithZoneToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.checkCast(arrow.FixedWidthTypes.Timestamp_s, stype,
-			`[-30610224000, -5364662400]`, `["1000-01-01 00:00:00Z", "1800-01-01 00:00:00Z"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}, stype,
-			`[-34226955, 1456767743]`, `["1968-11-30 13:30:45-0700", "2016-02-29 10:42:23-0700"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "America/Phoenix"}, stype,
-			`[-34226955877, 1456767743456]`, `["1968-11-30 13:30:44.123-0700", "2016-02-29 10:42:23.456-0700"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: "America/Phoenix"}, stype,
-			`[-34226955877000, 1456767743456789]`, `["1968-11-30 13:30:44.123000-0700", "2016-02-29 10:42:23.456789-0700"]`)
-
-		c.checkCast(&arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "America/Phoenix"}, stype,
-			`[-34226955876543211, 1456767743456789246]`, `["1968-11-30 13:30:44.123456789-0700", "2016-02-29 10:42:23.456789246-0700"]`)
-	}
-}
-
-func (c *CastSuite) assertBinaryZeroCopy(lhs, rhs arrow.Array) {
-	// null bitmap and data buffers are always zero-copied
-	assertBufferSame(c.T(), lhs, rhs, 0)
-	assertBufferSame(c.T(), lhs, rhs, 2)
-
-	lOffsetByteWidth := lhs.DataType().Layout().Buffers[1].ByteWidth
-	rOffsetByteWidth := rhs.DataType().Layout().Buffers[1].ByteWidth
-	if lOffsetByteWidth == rOffsetByteWidth {
-		assertBufferSame(c.T(), lhs, rhs, 1)
-		return
-	}
-
-	offsets := make([]arrow.Array, 0, 2)
-	for _, arr := range []arrow.Array{lhs, rhs} {
-		length := arr.Len()
-		buffer := arr.Data().Buffers()[1]
-
-		byteWidth := arr.DataType().Layout().Buffers[1].ByteWidth
-		switch byteWidth {
-		case 4:
-			data := array.NewData(arrow.PrimitiveTypes.Int32, length, []*memory.Buffer{nil, buffer}, nil, 0, 0)
-			defer data.Release()
-			i32 := array.NewInt32Data(data)
-			i64, err := compute.CastArray(context.Background(), i32, compute.SafeCastOptions(arrow.PrimitiveTypes.Int64))
-			c.Require().NoError(err)
-			i32.Release()
-			defer i64.Release()
-			offsets = append(offsets, i64)
-		default:
-			data := array.NewData(arrow.PrimitiveTypes.Int64, length, []*memory.Buffer{nil, buffer}, nil, 0, 0)
-			defer data.Release()
-			i64 := array.NewInt64Data(data)
-			defer i64.Release()
-			offsets = append(offsets, i64)
-		}
-	}
-	c.Truef(array.Equal(offsets[0], offsets[1]), "lhs: %s\nrhs: %s", offsets[0], offsets[1])
-}
-
-func (c *CastSuite) TestBinaryToString() {
-	for _, btype := range []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary} {
-		c.Run(btype.String(), func() {
-			for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-				c.Run(stype.String(), func() {
-					// empty -> empty always works
-					c.checkCast(btype, stype, `[]`, `[]`)
-
-					invalidUtf8 := c.invalidUtf8Arr(btype)
-					defer invalidUtf8.Release()
-
-					invalidutf8Str := c.invalidUtf8Arr(stype)
-					defer invalidutf8Str.Release()
-
-					// invalid utf8 masked by a null bit is not an error
-					masked := c.maskArrayWithNullsAt(invalidUtf8, []int{4})
-					expMasked := c.maskArrayWithNullsAt(invalidutf8Str, []int{4})
-					defer masked.Release()
-					defer expMasked.Release()
-
-					checkCast(c.T(), masked, expMasked, *compute.SafeCastOptions(stype))
-
-					opts := compute.SafeCastOptions(stype)
-					checkCastFails(c.T(), invalidUtf8, *opts)
-
-					// override utf8 check
-					opts.AllowInvalidUtf8 = true
-					strs, err := compute.CastArray(context.Background(), invalidUtf8, opts)
-					c.NoError(err)
-					defer strs.Release()
-					c.assertBinaryZeroCopy(invalidUtf8, strs)
-				})
-			}
-		})
-	}
-
-	c.Run("fixed size binary", func() {
-		fromType := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-		invalidUtf8Arr := c.fixedSizeInvalidUtf8(fromType)
-		defer invalidUtf8Arr.Release()
-		for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-			c.Run(stype.String(), func() {
-				c.checkCast(fromType, stype, `[]`, `[]`)
-
-				// invalid utf-8 masked by a null bit is not an error
-				strInvalidUtf8 := c.fixedSizeInvalidUtf8(stype)
-				defer strInvalidUtf8.Release()
-
-				masked := c.maskArrayWithNullsAt(invalidUtf8Arr, []int{4})
-				expMasked := c.maskArrayWithNullsAt(strInvalidUtf8, []int{4})
-				defer masked.Release()
-				defer expMasked.Release()
-
-				checkCast(c.T(), masked, expMasked, *compute.SafeCastOptions(stype))
-
-				opts := compute.SafeCastOptions(stype)
-				checkCastFails(c.T(), invalidUtf8Arr, *opts)
-
-				// override utf8 check
-				opts.AllowInvalidUtf8 = true
-				strs, err := compute.CastArray(context.Background(), invalidUtf8Arr, opts)
-				c.NoError(err)
-				defer strs.Release()
-
-				// null buffer is not always the same if input is sliced
-				assertBufferSame(c.T(), invalidUtf8Arr, strs, 0)
-
-				c.Same(invalidUtf8Arr.Data().Buffers()[1], strs.Data().Buffers()[2])
-			})
-		}
-	})
-}
-
-func (c *CastSuite) TestBinaryOrStringToBinary() {
-	for _, fromType := range baseBinaryTypes {
-		c.Run(fromType.String(), func() {
-			for _, toType := range []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary} {
-				c.Run(toType.String(), func() {
-					// empty -> empty always works
-					c.checkCast(fromType, toType, `[]`, `[]`)
-
-					invalidUtf8 := c.invalidUtf8Arr(fromType)
-					defer invalidUtf8.Release()
-
-					// invalid utf-8 is not an error for binary
-					out, err := compute.CastToType(context.Background(), invalidUtf8, toType)
-					c.NoError(err)
-					defer out.Release()
-					c.assertBinaryZeroCopy(invalidUtf8, out)
-
-					// invalid utf-8 masked by a null is also not an erro
-					invalidutf8Bin := c.invalidUtf8Arr(toType)
-					defer invalidutf8Bin.Release()
-
-					// invalid utf8 masked by a null bit is not an error
-					masked := c.maskArrayWithNullsAt(invalidUtf8, []int{4})
-					expMasked := c.maskArrayWithNullsAt(invalidutf8Bin, []int{4})
-					defer masked.Release()
-					defer expMasked.Release()
-
-					checkCast(c.T(), masked, expMasked, *compute.SafeCastOptions(toType))
-				})
-			}
-		})
-	}
-
-	c.Run("fixed size binary", func() {
-		fromType := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-		invalidUtf8Arr := c.fixedSizeInvalidUtf8(fromType)
-		defer invalidUtf8Arr.Release()
-
-		checkCast(c.T(), invalidUtf8Arr, invalidUtf8Arr, *compute.DefaultCastOptions(true))
-		checkCastFails(c.T(), invalidUtf8Arr, *compute.SafeCastOptions(&arrow.FixedSizeBinaryType{ByteWidth: 5}))
-		for _, toType := range []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary} {
-			c.Run(toType.String(), func() {
-				c.checkCast(fromType, toType, `[]`, `[]`)
-
-				out, err := compute.CastToType(context.Background(), invalidUtf8Arr, toType)
-				c.NoError(err)
-				defer out.Release()
-				assertBufferSame(c.T(), invalidUtf8Arr, out, 0)
-
-				c.Same(invalidUtf8Arr.Data().Buffers()[1], out.Data().Buffers()[2])
-			})
-		}
-	})
-}
-
-func (c *CastSuite) TestStringToString() {
-	for _, fromType := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.Run("from "+fromType.String(), func() {
-			for _, toType := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-				c.Run("to "+toType.String(), func() {
-					c.checkCast(fromType, toType, `[]`, `[]`)
-
-					invalidUtf8 := c.invalidUtf8Arr(fromType)
-					defer invalidUtf8.Release()
-
-					invalidutf8Str := c.invalidUtf8Arr(toType)
-					defer invalidutf8Str.Release()
-
-					// invalid utf8 masked by a null bit is not an error
-					masked := c.maskArrayWithNullsAt(invalidUtf8, []int{4})
-					expMasked := c.maskArrayWithNullsAt(invalidutf8Str, []int{4})
-					defer masked.Release()
-					defer expMasked.Release()
-
-					checkCast(c.T(), masked, expMasked, *compute.SafeCastOptions(toType))
-
-					opts := compute.SafeCastOptions(toType)
-					// override utf8 check
-					opts.AllowInvalidUtf8 = true
-					// utf-8 is not checked by cast when the origin (utf-8) guarantees utf-8
-					strs, err := compute.CastArray(context.Background(), invalidUtf8, opts)
-					c.NoError(err)
-					defer strs.Release()
-					c.assertBinaryZeroCopy(invalidUtf8, strs)
-				})
-			}
-		})
-	}
-}
-
-func (c *CastSuite) TestStringToInt() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		for _, dt := range signedIntTypes {
-			c.checkCast(stype, dt,
-				`["0", null, "127", "-1", "0", "0x0", "0x7F"]`,
-				`[0, null, 127, -1, 0, 0, 127]`)
-		}
-
-		c.checkCast(stype, arrow.PrimitiveTypes.Int32,
-			`["2147483647", null, "-2147483648", "0", "0X0", "0x7FFFFFFF", "-0X1", "-0x10000000"]`,
-			`[2147483647, null, -2147483648, 0, 0, 2147483647, -1, -268435456]`)
-
-		c.checkCast(stype, arrow.PrimitiveTypes.Int64,
-			`["9223372036854775807", null, "-9223372036854775808", "0", "0x0", "0x7FFFFFFFFFFFFFFf", "-0x0FFFFFFFFFFFFFFF"]`,
-			`[9223372036854775807, null, -9223372036854775808, 0, 0, 9223372036854775807, -1152921504606846975]`)
-
-		for _, dt := range unsignedIntTypes {
-			c.checkCast(stype, dt, `["0", null, "127", "255", "0", "0x0", "0xff", "0X7f"]`,
-				`[0, null, 127, 255, 0, 0, 255, 127]`)
-		}
-
-		c.checkCast(stype, arrow.PrimitiveTypes.Uint32,
-			`["2147483647", null, "4294967295", "0", "0x0", "0x7FFFFFFf", "0xFFFFFFFF"]`,
-			`[2147483647, null, 4294967295, 0, 0, 2147483647, 4294967295]`)
-
-		c.checkCast(stype, arrow.PrimitiveTypes.Uint64,
-			`["9223372036854775807", null, "18446744073709551615", "0", "0x0", "0x7FFFFFFFFFFFFFFf", "0xfFFFFFFFFFFFFFFf"]`,
-			`[9223372036854775807, null, 18446744073709551615, 0, 0, 9223372036854775807, 18446744073709551615]`)
-
-		for _, notInt8 := range []string{"z", "12 z", "128", "-129", "0.5", "0x", "0xfff", "-0xf0"} {
-			c.checkCastFails(stype, `["`+notInt8+`"]`, compute.SafeCastOptions(arrow.PrimitiveTypes.Int8))
-		}
-
-		for _, notUint8 := range []string{"256", "-1", "0.5", "0x", "0x3wa", "0x123"} {
-			c.checkCastFails(stype, `["`+notUint8+`"]`, compute.SafeCastOptions(arrow.PrimitiveTypes.Uint8))
-		}
-	}
-}
-
-func (c *CastSuite) TestStringToFloating() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		for _, dt := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64} {
-			c.checkCast(stype, dt, `["0.1", null, "127.3", "1e3", "200.4", "0.5"]`,
-				`[0.1, null, 127.3, 1000, 200.4, 0.5]`)
-
-			for _, notFloat := range []string{"z"} {
-				c.checkCastFails(stype, `["`+notFloat+`"]`, compute.SafeCastOptions(dt))
-			}
-		}
-	}
-}
-
-func (c *CastSuite) TestUnsupportedInputType() {
-	// casting to a supported target type, but with an unsupported
-	// input for that target type.
-	arr, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 3]`))
-	defer arr.Release()
-
-	toType := arrow.ListOf(arrow.BinaryTypes.String)
-	_, err := compute.CastToType(context.Background(), arr, toType)
-	c.ErrorIs(err, arrow.ErrNotImplemented)
-	c.ErrorContains(err, "function 'cast_list' has no kernel matching input types (int32)")
-
-	// test calling through the generic kernel API
-	datum := compute.NewDatum(arr)
-	defer datum.Release()
-	_, err = compute.CallFunction(context.Background(), "cast", compute.SafeCastOptions(toType), datum)
-	c.ErrorIs(err, arrow.ErrNotImplemented)
-	c.ErrorContains(err, "function 'cast_list' has no kernel matching input types (int32)")
-}
-
-func (c *CastSuite) TestUnsupportedTargetType() {
-	arr, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 3]`))
-	defer arr.Release()
-
-	toType := arrow.DenseUnionOf([]arrow.Field{{Name: "a", Type: arrow.PrimitiveTypes.Int32}}, []arrow.UnionTypeCode{0})
-	_, err := compute.CastToType(context.Background(), arr, toType)
-	c.ErrorIs(err, arrow.ErrNotImplemented)
-	c.ErrorContains(err, "unsupported cast to dense_union<a: type=int32=0> from int32")
-
-	// test calling through the generic kernel API
-	datum := compute.NewDatum(arr)
-	defer datum.Release()
-	_, err = compute.CallFunction(context.Background(), "cast", compute.SafeCastOptions(toType), datum)
-	c.ErrorIs(err, arrow.ErrNotImplemented)
-	c.ErrorContains(err, "unsupported cast to dense_union<a: type=int32=0> from int32")
-}
-
-func (c *CastSuite) checkCastSelfZeroCopy(dt arrow.DataType, json string) {
-	arr, _, _ := array.FromJSON(c.mem, dt, strings.NewReader(json))
-	defer arr.Release()
-
-	checkCastZeroCopy(c.T(), arr, dt, compute.NewCastOptions(dt, true))
-}
-
-func (c *CastSuite) checkCastZeroCopy(from arrow.DataType, json string, to arrow.DataType) {
-	arr, _, _ := array.FromJSON(c.mem, from, strings.NewReader(json))
-	defer arr.Release()
-	checkCastZeroCopy(c.T(), arr, to, compute.NewCastOptions(to, true))
-}
-
-func (c *CastSuite) TestTimestampToTimestamp() {
-	tests := []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Timestamp_ms},
-		{arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Timestamp_us},
-		{arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Timestamp_ns},
-	}
-
-	var opts compute.CastOptions
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			c.checkCast(tt.coarse, tt.fine, `[0, null, 200, 1, 2]`, `[0, null, 200000, 1000, 2000]`)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, `[0, null, 200456, 1123, 2456]`, &opts)
-
-			// with truncation allowed, divide/truncate
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, `[0, null, 200456, 1123, 2456]`, `[0, null, 200, 1, 2]`, opts)
-		})
-	}
-
-	tests = []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Timestamp_ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			c.checkCast(tt.coarse, tt.fine, `[0, null, 200, 1, 2]`, `[0, null, 200000000000, 1000000000, 2000000000]`)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, `[0, null, 200456000000, 1123000000, 2456000000]`, &opts)
-
-			// with truncation allowed, divide/truncate
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, `[0, null, 200456000000, 1123000000, 2456000000]`, `[0, null, 200, 1, 2]`, opts)
-		})
-	}
-}
-
-func (c *CastSuite) TestTimestampZeroCopy() {
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Timestamp_s /*,  arrow.PrimitiveTypes.Int64*/} {
-		c.checkCastZeroCopy(arrow.FixedWidthTypes.Timestamp_s, `[0, null, 2000, 1000, 0]`, dt)
-	}
-
-	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int64, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Timestamp_s)
-}
-
-func (c *CastSuite) TestTimestampToTimestampMultiplyOverflow() {
-	opts := compute.CastOptions{ToType: arrow.FixedWidthTypes.Timestamp_ns}
-	// 1000-01-01, 1800-01-01, 2000-01-01, 2300-01-01, 3000-01-01
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_s, `[-30610224000, -5364662400, 946684800, 10413792000, 32503680000]`, &opts)
-}
-
-var (
-	timestampJSON = `["1970-01-01T00:00:59.123456789","2000-02-29T23:23:23.999999999",
-		"1899-01-01T00:59:20.001001001","2033-05-18T03:33:20.000000000",
-		"2020-01-01T01:05:05.001", "2019-12-31T02:10:10.002",
-		"2019-12-30T03:15:15.003", "2009-12-31T04:20:20.004132",
-		"2010-01-01T05:25:25.005321", "2010-01-03T06:30:30.006163",
-		"2010-01-04T07:35:35", "2006-01-01T08:40:40", "2005-12-31T09:45:45",
-		"2008-12-28", "2008-12-29", "2012-01-01 01:02:03", null]`
-	timestampSecondsJSON = `["1970-01-01T00:00:59","2000-02-29T23:23:23",
-		"1899-01-01T00:59:20","2033-05-18T03:33:20",
-		"2020-01-01T01:05:05", "2019-12-31T02:10:10",
-		"2019-12-30T03:15:15", "2009-12-31T04:20:20",
-		"2010-01-01T05:25:25", "2010-01-03T06:30:30",
-		"2010-01-04T07:35:35", "2006-01-01T08:40:40",
-		"2005-12-31T09:45:45", "2008-12-28", "2008-12-29",
-		"2012-01-01 01:02:03", null]`
-	timestampExtremeJSON = `["1677-09-20T00:00:59.123456", "2262-04-13T23:23:23.999999"]`
-)
-
-func (c *CastSuite) TestTimestampToDate() {
-	stamps, _, _ := array.FromJSON(c.mem, arrow.FixedWidthTypes.Timestamp_ns, strings.NewReader(timestampJSON))
-	defer stamps.Release()
-	date32, _, _ := array.FromJSON(c.mem, arrow.FixedWidthTypes.Date32,
-		strings.NewReader(`[
-			0, 11016, -25932, 23148,
-			18262, 18261, 18260, 14609,
-			14610, 14612, 14613, 13149,
-			13148, 14241, 14242, 15340, null
-		]`))
-	defer date32.Release()
-	date64, _, _ := array.FromJSON(c.mem, arrow.FixedWidthTypes.Date64,
-		strings.NewReader(`[
-		0, 951782400000, -2240524800000, 1999987200000,
-		1577836800000, 1577750400000, 1577664000000, 1262217600000,
-		1262304000000, 1262476800000, 1262563200000, 1136073600000,
-		1135987200000, 1230422400000, 1230508800000, 1325376000000, null]`), array.WithUseNumber())
-	defer date64.Release()
-
-	checkCast(c.T(), stamps, date32, *compute.DefaultCastOptions(true))
-	checkCast(c.T(), stamps, date64, *compute.DefaultCastOptions(true))
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Date32,
-		timestampExtremeJSON, `[-106753, 106753]`)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Date64,
-		timestampExtremeJSON, `[-9223459200000, 9223459200000]`)
-	for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Microsecond, arrow.Millisecond, arrow.Nanosecond} {
-		dt := &arrow.TimestampType{Unit: u}
-		c.checkCastExp(dt, timestampSecondsJSON, date32)
-		c.checkCastExp(dt, timestampSecondsJSON, date64)
-	}
-}
-
-func (c *CastSuite) TestZonedTimestampToDate() {
-	c.Run("Pacific/Marquesas", func() {
-		dt := &arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "Pacific/Marquesas"}
-		c.checkCast(dt, arrow.FixedWidthTypes.Date32,
-			timestampJSON, `[-1, 11016, -25933, 23147,
-				18261, 18260, 18259, 14608,
-				14609, 14611, 14612, 13148,
-				13148, 14240, 14241, 15339, null]`)
-		c.checkCast(dt, arrow.FixedWidthTypes.Date64, timestampJSON,
-			`[-86400000, 951782400000, -2240611200000, 1999900800000,
-			1577750400000, 1577664000000, 1577577600000, 1262131200000,
-			1262217600000, 1262390400000, 1262476800000, 1135987200000,
-			1135987200000, 1230336000000, 1230422400000, 1325289600000, null]`)
-	})
-
-	for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond, arrow.Microsecond, arrow.Nanosecond} {
-		dt := &arrow.TimestampType{Unit: u, TimeZone: "Australia/Broken_Hill"}
-		c.checkCast(dt, arrow.FixedWidthTypes.Date32, timestampSecondsJSON, `[
-			0, 11017, -25932, 23148,
-			18262, 18261, 18260, 14609,
-			14610, 14612, 14613, 13149,
-			13148, 14241, 14242, 15340, null]`)
-		c.checkCast(dt, arrow.FixedWidthTypes.Date64, timestampSecondsJSON, `[
-			0, 951868800000, -2240524800000, 1999987200000, 1577836800000,
-			1577750400000, 1577664000000, 1262217600000, 1262304000000,
-			1262476800000, 1262563200000, 1136073600000, 1135987200000,
-			1230422400000, 1230508800000, 1325376000000, null]`)
-	}
-
-	// invalid timezones
-	for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond, arrow.Microsecond, arrow.Nanosecond} {
-		dt := &arrow.TimestampType{Unit: u, TimeZone: "Mars/Mariner_Valley"}
-		c.checkCastFails(dt, timestampSecondsJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Date32, false))
-		c.checkCastFails(dt, timestampSecondsJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Date64, false))
-	}
-}
-
-func (c *CastSuite) TestTimestampToTime() {
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time64ns,
-		timestampJSON, `[
-			59123456789, 84203999999999, 3560001001001, 12800000000000,
-			3905001000000, 7810002000000, 11715003000000, 15620004132000,
-			19525005321000, 23430006163000, 27335000000000, 31240000000000,
-			35145000000000, 0, 0, 3723000000000, null]`)
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ns, timestampJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Time64us, true))
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time64us,
-		timestampExtremeJSON, `[59123456, 84203999999]`)
-
-	timesSec := `[59, 84203, 3560, 12800,
-				3905, 7810, 11715, 15620,
-				19525, 23430, 27335, 31240,
-				35145, 0, 0, 3723, null]`
-	timesMs := `[59000, 84203000, 3560000, 12800000,
-				3905000, 7810000, 11715000, 15620000,
-				19525000, 23430000, 27335000, 31240000,
-				35145000, 0, 0, 3723000, null]`
-	timesUs := `[59000000, 84203000000, 3560000000, 12800000000,
-				3905000000, 7810000000, 11715000000, 15620000000,
-				19525000000, 23430000000, 27335000000, 31240000000,
-				35145000000, 0, 0, 3723000000, null]`
-	timesNs := `[59000000000, 84203000000000, 3560000000000, 12800000000000,
-				3905000000000, 7810000000000, 11715000000000, 15620000000000,
-				19525000000000, 23430000000000, 27335000000000, 31240000000000,
-				35145000000000, 0, 0, 3723000000000, null]`
-
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time32s,
-		timestampSecondsJSON, timesSec)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time32ms,
-		timestampSecondsJSON, timesMs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time32s,
-		timestampSecondsJSON, timesSec)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time32ms,
-		timestampSecondsJSON, timesMs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time64us,
-		timestampSecondsJSON, timesUs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time64ns,
-		timestampSecondsJSON, timesNs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time32ms,
-		timestampSecondsJSON, timesMs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time32s,
-		timestampSecondsJSON, timesSec)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time64us,
-		timestampSecondsJSON, timesUs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time64ns,
-		timestampSecondsJSON, timesNs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time32ms,
-		timestampSecondsJSON, timesMs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time32s,
-		timestampSecondsJSON, timesSec)
-
-	trunc := compute.CastOptions{AllowTimeTruncate: true}
-
-	timestampsUS := `["1970-01-01T00:00:59.123456","2000-02-29T23:23:23.999999",
-					"1899-01-01T00:59:20.001001","2033-05-18T03:33:20.000000",
-					"2020-01-01T01:05:05.001", "2019-12-31T02:10:10.002",
-					"2019-12-30T03:15:15.003", "2009-12-31T04:20:20.004132",
-					"2010-01-01T05:25:25.005321", "2010-01-03T06:30:30.006163",
-					"2010-01-04T07:35:35", "2006-01-01T08:40:40", "2005-12-31T09:45:45",
-					"2008-12-28", "2008-12-29", "2012-01-01 01:02:03", null]`
-	timestampsMS := `["1970-01-01T00:00:59.123","2000-02-29T23:23:23.999",
-					"1899-01-01T00:59:20.001","2033-05-18T03:33:20.000",
-					"2020-01-01T01:05:05.001", "2019-12-31T02:10:10.002",
-					"2019-12-30T03:15:15.003", "2009-12-31T04:20:20.004",
-					"2010-01-01T05:25:25.005", "2010-01-03T06:30:30.006",
-					"2010-01-04T07:35:35", "2006-01-01T08:40:40", "2005-12-31T09:45:45",
-					"2008-12-28", "2008-12-29", "2012-01-01 01:02:03", null]`
-
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ns, timestampJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Time64us, true))
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ns, timestampJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Time32ms, true))
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ns, timestampJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Time32s, true))
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_us, timestampsUS, compute.NewCastOptions(arrow.FixedWidthTypes.Time32ms, true))
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_us, timestampsUS, compute.NewCastOptions(arrow.FixedWidthTypes.Time32s, true))
-	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ms, timestampsMS, compute.NewCastOptions(arrow.FixedWidthTypes.Time32s, true))
-
-	timesNsUs := `[59123456, 84203999999, 3560001001, 12800000000,
-				3905001000, 7810002000, 11715003000, 15620004132,
-				19525005321, 23430006163, 27335000000, 31240000000,
-				35145000000, 0, 0, 3723000000, null]`
-	timesNsMs := `[59123, 84203999, 3560001, 12800000,
-				3905001, 7810002, 11715003, 15620004,
-				19525005, 23430006, 27335000, 31240000,
-				35145000, 0, 0, 3723000, null]`
-	timesUsNs := `[59123456000, 84203999999000, 3560001001000, 12800000000000,
-				3905001000000, 7810002000000, 11715003000000, 15620004132000,
-				19525005321000, 23430006163000, 27335000000000, 31240000000000,
-				35145000000000, 0, 0, 3723000000000, null]`
-	timesMsNs := `[59123000000, 84203999000000, 3560001000000, 12800000000000,
-				3905001000000, 7810002000000, 11715003000000, 15620004000000,
-				19525005000000, 23430006000000, 27335000000000, 31240000000000,
-				35145000000000, 0, 0, 3723000000000, null]`
-	timesMsUs := `[59123000, 84203999000, 3560001000, 12800000000,
-				3905001000, 7810002000, 11715003000, 15620004000,
-				19525005000, 23430006000, 27335000000, 31240000000,
-				35145000000, 0, 0, 3723000000, null]`
-
-	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time64us, timestampJSON, timesNsUs, trunc)
-	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time32ms, timestampJSON, timesNsMs, trunc)
-	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time32s, timestampJSON, timesSec, trunc)
-	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time32ms, timestampsUS, timesNsMs, trunc)
-	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time32s, timestampsUS, timesSec, trunc)
-	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time32s, timestampsMS, timesSec, trunc)
-
-	// upscaling tests
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time64ns, timestampsUS, timesUsNs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time64ns, timestampsMS, timesMsNs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time64us, timestampsMS, timesMsUs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time64ns, timestampSecondsJSON, timesNs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time64us, timestampSecondsJSON, timesUs)
-	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time32ms, timestampSecondsJSON, timesMs)
-
-	// invalid timezones
-	for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond, arrow.Microsecond, arrow.Nanosecond} {
-		dt := &arrow.TimestampType{Unit: u, TimeZone: "Mars/Mariner_Valley"}
-		switch u {
-		case arrow.Second, arrow.Millisecond:
-			c.checkCastFails(dt, timestampSecondsJSON, compute.NewCastOptions(&arrow.Time32Type{Unit: u}, false))
-		default:
-			c.checkCastFails(dt, timestampSecondsJSON, compute.NewCastOptions(&arrow.Time64Type{Unit: u}, false))
-		}
-	}
-}
-
-func (c *CastSuite) TestZonedTimestampToTime() {
-	c.checkCast(&arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "Pacific/Marquesas"},
-		arrow.FixedWidthTypes.Time64ns, timestampJSON, `[52259123456789, 50003999999999, 56480001001001, 65000000000000,
-			56105001000000, 60010002000000, 63915003000000, 67820004132000,
-			71725005321000, 75630006163000, 79535000000000, 83440000000000,
-			945000000000, 52200000000000, 52200000000000, 55923000000000, null]`)
-
-	timesSec := `[
-		34259, 35603, 35960, 47000,
-		41705, 45610, 49515, 53420,
-		57325, 61230, 65135, 69040,
-		72945, 37800, 37800, 41523, null
-	]`
-	timesMs := `[
-		34259000, 35603000, 35960000, 47000000,
-		41705000, 45610000, 49515000, 53420000,
-		57325000, 61230000, 65135000, 69040000,
-		72945000, 37800000, 37800000, 41523000, null
-	]`
-	timesUs := `[
-		34259000000, 35603000000, 35960000000, 47000000000,
-		41705000000, 45610000000, 49515000000, 53420000000,
-		57325000000, 61230000000, 65135000000, 69040000000,
-		72945000000, 37800000000, 37800000000, 41523000000, null
-	]`
-	timesNs := `[
-		34259000000000, 35603000000000, 35960000000000, 47000000000000,
-		41705000000000, 45610000000000, 49515000000000, 53420000000000,
-		57325000000000, 61230000000000, 65135000000000, 69040000000000,
-		72945000000000, 37800000000000, 37800000000000, 41523000000000, null
-	]`
-
-	c.checkCast(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "Australia/Broken_Hill"},
-		arrow.FixedWidthTypes.Time32s, timestampSecondsJSON, timesSec)
-	c.checkCast(&arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "Australia/Broken_Hill"},
-		arrow.FixedWidthTypes.Time32ms, timestampSecondsJSON, timesMs)
-	c.checkCast(&arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: "Australia/Broken_Hill"},
-		arrow.FixedWidthTypes.Time64us, timestampSecondsJSON, timesUs)
-	c.checkCast(&arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "Australia/Broken_Hill"},
-		arrow.FixedWidthTypes.Time64ns, timestampSecondsJSON, timesNs)
-}
-
-func (c *CastSuite) TestTimeToTime() {
-	var opts compute.CastOptions
-
-	tests := []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Time32s, arrow.FixedWidthTypes.Time32ms},
-		{arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Time64us},
-		{arrow.FixedWidthTypes.Time64us, arrow.FixedWidthTypes.Time64ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			coarse := `[0, null, 200, 1, 2]`
-			promoted := `[0, null, 200000, 1000, 2000]`
-			willBeTruncated := `[0, null, 200456, 1123, 2456]`
-
-			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, willBeTruncated, &opts)
-
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
-		})
-	}
-
-	tests = []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Time32s, arrow.FixedWidthTypes.Time64us},
-		{arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Time64ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			coarse := `[0, null, 200, 1, 2]`
-			promoted := `[0, null, 200000000, 1000000, 2000000]`
-			willBeTruncated := `[0, null, 200456000, 1123000, 2456000]`
-
-			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, willBeTruncated, &opts)
-
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
-		})
-	}
-
-	tests = []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Time32s, arrow.FixedWidthTypes.Time64ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			coarse := `[0, null, 200, 1, 2]`
-			promoted := `[0, null, 200000000000, 1000000000, 2000000000]`
-			willBeTruncated := `[0, null, 200456000000, 1123000000, 2456000000]`
-
-			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, willBeTruncated, &opts)
-
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
-		})
-	}
-}
-
-func (c *CastSuite) TestTimeZeroCopy() {
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Time32s /*, arrow.PrimitiveTypes.Int32*/} {
-		c.checkCastZeroCopy(arrow.FixedWidthTypes.Time32s, `[0, null, 2000, 1000, 0]`, dt)
-	}
-	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int32, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Time32s)
-
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Time64us /*, arrow.PrimitiveTypes.Int64*/} {
-		c.checkCastZeroCopy(arrow.FixedWidthTypes.Time64us, `[0, null, 2000, 1000, 0]`, dt)
-	}
-	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int64, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Time64us)
-}
-
-func (c *CastSuite) TestDateToDate() {
-	day32 := `[0, null, 100, 1, 10]`
-	day64 := `[0, null,  8640000000, 86400000, 864000000]`
-
-	// multiply promotion
-	c.checkCast(arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64, day32, day64)
-	// no truncation
-	c.checkCast(arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Date32, day64, day32)
-
-	day64WillBeTruncated := `[0, null, 8640000123, 86400456, 864000789]`
-
-	opts := compute.CastOptions{ToType: arrow.FixedWidthTypes.Date32}
-	c.checkCastFails(arrow.FixedWidthTypes.Date64, day64WillBeTruncated, &opts)
-
-	opts.AllowTimeTruncate = true
-	c.checkCastOpts(arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Date32,
-		day64WillBeTruncated, day32, opts)
-}
-
-func (c *CastSuite) TestDateZeroCopy() {
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Date32 /*, arrow.PrimitiveTypes.Int32*/} {
-		c.checkCastZeroCopy(arrow.FixedWidthTypes.Date32, `[0, null, 2000, 1000, 0]`, dt)
-	}
-	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int32, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Date32)
-
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Date64 /*, arrow.PrimitiveTypes.Int64*/} {
-		c.checkCastZeroCopy(arrow.FixedWidthTypes.Date64, `[0, null, 172800000, 86400000, 0]`, dt)
-	}
-	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int64, `[0, null, 172800000, 86400000, 0]`, arrow.FixedWidthTypes.Date64)
-}
-
-func (c *CastSuite) TestDurationToDuration() {
-	var opts compute.CastOptions
-
-	tests := []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Duration_s, arrow.FixedWidthTypes.Duration_ms},
-		{arrow.FixedWidthTypes.Duration_ms, arrow.FixedWidthTypes.Duration_us},
-		{arrow.FixedWidthTypes.Duration_us, arrow.FixedWidthTypes.Duration_ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			coarse := `[0, null, 200, 1, 2]`
-			promoted := `[0, null, 200000, 1000, 2000]`
-			willBeTruncated := `[0, null, 200456, 1123, 2456]`
-
-			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, willBeTruncated, &opts)
-
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
-		})
-	}
-
-	tests = []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Duration_s, arrow.FixedWidthTypes.Duration_us},
-		{arrow.FixedWidthTypes.Duration_ms, arrow.FixedWidthTypes.Duration_ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			coarse := `[0, null, 200, 1, 2]`
-			promoted := `[0, null, 200000000, 1000000, 2000000]`
-			willBeTruncated := `[0, null, 200456000, 1123000, 2456000]`
-
-			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, willBeTruncated, &opts)
-
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
-		})
-	}
-
-	tests = []struct {
-		coarse, fine arrow.DataType
-	}{
-		{arrow.FixedWidthTypes.Duration_s, arrow.FixedWidthTypes.Duration_ns},
-	}
-
-	for _, tt := range tests {
-		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
-			coarse := `[0, null, 200, 1, 2]`
-			promoted := `[0, null, 200000000000, 1000000000, 2000000000]`
-			willBeTruncated := `[0, null, 200456000000, 1123000000, 2456000000]`
-
-			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
-
-			opts.AllowTimeTruncate = false
-			opts.ToType = tt.coarse
-			c.checkCastFails(tt.fine, willBeTruncated, &opts)
-
-			opts.AllowTimeTruncate = true
-			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
-		})
-	}
-}
-
-func (c *CastSuite) TestDurationZeroCopy() {
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Duration_s /*, arrow.PrimitiveTypes.Int64*/} {
-		c.checkCastZeroCopy(arrow.FixedWidthTypes.Duration_s, `[0, null, 2000, 1000, 0]`, dt)
-	}
-	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int64, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Duration_s)
-}
-
-func (c *CastSuite) TestDurationToDurationMultiplyOverflow() {
-	opts := compute.CastOptions{ToType: arrow.FixedWidthTypes.Duration_ns}
-	c.checkCastFails(arrow.FixedWidthTypes.Duration_s, `[10000000000, 1, 2, 3, 10000000000]`, &opts)
-}
-
-func (c *CastSuite) TestStringToTimestamp() {
-	for _, dt := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.checkCast(dt, &arrow.TimestampType{Unit: arrow.Second}, `["1970-01-01", null, "2000-02-29"]`, `[0, null, 951782400]`)
-		c.checkCast(dt, &arrow.TimestampType{Unit: arrow.Microsecond}, `["1970-01-01", null, "2000-02-29"]`, `[0, null, 951782400000000]`)
-
-		for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond, arrow.Microsecond, arrow.Nanosecond} {
-			for _, notTS := range []string{"", "xxx"} {
-				opts := compute.NewCastOptions(&arrow.TimestampType{Unit: u}, true)
-				c.checkCastFails(dt, `["`+notTS+`"]`, opts)
-			}
-		}
-
-		zoned, _, _ := array.FromJSON(c.mem, dt, strings.NewReader(`["2020-02-29T00:00:00Z", "2020-03-02T10:11:12+0102"]`))
-		defer zoned.Release()
-		mixed, _, _ := array.FromJSON(c.mem, dt, strings.NewReader(`["2020-03-02T10:11:12+0102", "2020-02-29T00:00:00"]`))
-		defer mixed.Release()
-
-		c.checkCastArr(zoned, &arrow.TimestampType{Unit: arrow.Second, TimeZone: "UTC"}, `[1582934400, 1583140152]`, *compute.DefaultCastOptions(true))
-
-		// timestamp with zone offset should not parse as naive
-		checkCastFails(c.T(), zoned, *compute.NewCastOptions(&arrow.TimestampType{Unit: arrow.Second}, true))
-
-		// mixed zoned/unzoned should not parse as naive
-		checkCastFails(c.T(), mixed, *compute.NewCastOptions(&arrow.TimestampType{Unit: arrow.Second}, true))
-
-		// timestamp with zone offset can parse as any time zone (since they're unambiguous)
-		c.checkCastArr(zoned, arrow.FixedWidthTypes.Timestamp_s, `[1582934400, 1583140152]`, *compute.DefaultCastOptions(true))
-		c.checkCastArr(zoned, &arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}, `[1582934400, 1583140152]`, *compute.DefaultCastOptions(true))
-	}
-}
-
-func (c *CastSuite) TestIntToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.Run(stype.String(), func() {
-			c.checkCast(arrow.PrimitiveTypes.Int8, stype,
-				`[0, 1, 127, -128, null]`, `["0", "1", "127", "-128", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Uint8, stype,
-				`[0, 1, 255, null]`, `["0", "1", "255", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Int16, stype,
-				`[0, 1, 32767, -32768, null]`, `["0", "1", "32767", "-32768", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Uint16, stype,
-				`[0, 1, 65535, null]`, `["0", "1", "65535", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Int32, stype,
-				`[0, 1, 2147483647, -2147483648, null]`,
-				`["0", "1", "2147483647", "-2147483648", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Uint32, stype,
-				`[0, 1, 4294967295, null]`, `["0", "1", "4294967295", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Int64, stype,
-				`[0, 1, 9223372036854775807, -9223372036854775808, null]`,
-				`["0", "1", "9223372036854775807", "-9223372036854775808", null]`)
-
-			c.checkCast(arrow.PrimitiveTypes.Uint64, stype,
-				`[0, 1, 18446744073709551615, null]`, `["0", "1", "18446744073709551615", null]`)
-		})
-	}
-}
-
-func (c *CastSuite) TestFloatingToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.Run(stype.String(), func() {
-			bldr := array.NewFloat32Builder(c.mem)
-			defer bldr.Release()
-			bldr.AppendValues([]float32{
-				0, float32(math.Copysign(0, -1)), 1.5, float32(math.Inf(-1)),
-				float32(math.Inf(0)), float32(math.NaN())}, nil)
-			bldr.AppendNull()
-			arr := bldr.NewArray()
-			defer arr.Release()
-
-			bldr64 := array.NewFloat64Builder(c.mem)
-			defer bldr64.Release()
-			bldr64.AppendValues([]float64{
-				0, math.Copysign(0, -1), 1.5, math.Inf(-1), math.Inf(0), math.NaN()}, nil)
-			bldr64.AppendNull()
-			arr64 := bldr64.NewArray()
-			defer arr64.Release()
-
-			c.checkCastArr(arr, stype, `["0", "-0", "1.5", "-Inf", "+Inf", "NaN", null]`, *compute.DefaultCastOptions(true))
-
-			c.checkCastArr(arr64, stype, `["0", "-0", "1.5", "-Inf", "+Inf", "NaN", null]`, *compute.DefaultCastOptions(true))
-		})
-	}
-}
-
-func (c *CastSuite) TestBooleanToString() {
-	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		c.Run(stype.String(), func() {
-			c.checkCast(arrow.FixedWidthTypes.Boolean, stype,
-				`[true, true, false, null]`, `["true", "true", "false", null]`)
-		})
-	}
-}
-
-func (c *CastSuite) TestIdentityCasts() {
-	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Boolean, `[false, true, null, false]`)
-
-	c.checkCastSelfZeroCopy(arrow.Null, `[null, null, null]`)
-	for _, typ := range numericTypes {
-		c.checkCastSelfZeroCopy(typ, `[1, 2, null, 4]`)
-	}
-
-	// ["foo", "bar"] base64 encoded for binary
-	c.checkCastSelfZeroCopy(arrow.BinaryTypes.Binary, `["Zm9v", "YmFy"]`)
-	c.checkCastSelfZeroCopy(arrow.BinaryTypes.String, `["foo", "bar"]`)
-	c.checkCastSelfZeroCopy(&arrow.FixedSizeBinaryType{ByteWidth: 3}, `["Zm9v", "YmFy"]`)
-
-	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Time32ms, `[1, 2, 3, 4]`)
-	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Time64us, `[1, 2, 3, 4]`)
-	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Date32, `[1, 2, 3, 4]`)
-	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Date64, `[86400000, 0]`)
-	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Timestamp_s, `[1, 2, 3, 4]`)
-
-	c.checkCastSelfZeroCopy(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Int8},
-		`[1, 2, 3, 1, null, 3]`)
-}
-
-func (c *CastSuite) TestListToPrimitive() {
-	arr, _, _ := array.FromJSON(c.mem, arrow.ListOf(arrow.PrimitiveTypes.Int8), strings.NewReader(`[[1, 2], [3, 4]]`))
-	defer arr.Release()
-
-	_, err := compute.CastToType(context.Background(), arr, arrow.PrimitiveTypes.Uint8)
-	c.ErrorIs(err, arrow.ErrNotImplemented)
-}
-
-type makeList func(arrow.DataType) arrow.DataType
-
-var listFactories = []makeList{
-	func(dt arrow.DataType) arrow.DataType { return arrow.ListOf(dt) },
-	func(dt arrow.DataType) arrow.DataType { return arrow.LargeListOf(dt) },
-}
-
-func (c *CastSuite) checkListToList(valTypes []arrow.DataType, jsonData string) {
-	for _, makeSrc := range listFactories {
-		for _, makeDest := range listFactories {
-			for _, srcValueType := range valTypes {
-				for _, dstValueType := range valTypes {
-					srcType := makeSrc(srcValueType)
-					dstType := makeDest(dstValueType)
-					c.Run(fmt.Sprintf("from %s to %s", srcType, dstType), func() {
-						c.checkCast(srcType, dstType, jsonData, jsonData)
-					})
-				}
-			}
-		}
-	}
-}
-
-func (c *CastSuite) TestListToList() {
-	c.checkListToList([]arrow.DataType{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64},
-		`[[0], [1], null, [2, 3, 4], [5, 6], null, [], [7], [8, 9]]`)
-}
-
-func (c *CastSuite) TestListToListNoNulls() {
-	c.checkListToList([]arrow.DataType{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64},
-		`[[0], [1], [2, 3, 4], [5, 6], [], [7], [8, 9]]`)
-}
-
-func (c *CastSuite) TestListToListOptionsPassthru() {
-	for _, makeSrc := range listFactories {
-		for _, makeDest := range listFactories {
-			opts := compute.SafeCastOptions(makeDest(arrow.PrimitiveTypes.Int16))
-			c.checkCastFails(makeSrc(arrow.PrimitiveTypes.Int32), `[[87654321]]`, opts)
-
-			opts.AllowIntOverflow = true
-			c.checkCastOpts(makeSrc(arrow.PrimitiveTypes.Int32), makeDest(arrow.PrimitiveTypes.Int16),
-				`[[87654321]]`, `[[32689]]`, *opts)
-		}
-	}
-}
-
-func (c *CastSuite) checkStructToStruct(types []arrow.DataType) {
-	for _, srcType := range types {
-		c.Run(srcType.String(), func() {
-			for _, destType := range types {
-				c.Run(destType.String(), func() {
-					fieldNames := []string{"a", "b"}
-					a1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[1, 2, 3, 4, null]`))
-					b1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[null, 7, 8, 9, 0]`))
-					a2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[1, 2, 3, 4, null]`))
-					b2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[null, 7, 8, 9, 0]`))
-					src, _ := array.NewStructArray([]arrow.Array{a1, b1}, fieldNames)
-					dest, _ := array.NewStructArray([]arrow.Array{a2, b2}, fieldNames)
-					defer func() {
-						a1.Release()
-						b1.Release()
-						a2.Release()
-						b2.Release()
-						src.Release()
-						dest.Release()
-					}()
-
-					checkCast(c.T(), src, dest, *compute.DefaultCastOptions(true))
-					c.Run("with nulls", func() {
-						nullBitmap := memory.NewBufferBytes([]byte{10})
-						srcNullData := src.Data().(*array.Data).Copy()
-						srcNullData.Buffers()[0] = nullBitmap
-						srcNullData.SetNullN(3)
-						defer srcNullData.Release()
-						destNullData := dest.Data().(*array.Data).Copy()
-						destNullData.Buffers()[0] = nullBitmap
-						destNullData.SetNullN(3)
-						defer destNullData.Release()
-
-						srcNulls := array.NewStructData(srcNullData)
-						destNulls := array.NewStructData(destNullData)
-						defer srcNulls.Release()
-						defer destNulls.Release()
-
-						checkCast(c.T(), srcNulls, destNulls, *compute.DefaultCastOptions(true))
-					})
-				})
-			}
-		})
-	}
-}
-
-func (c *CastSuite) checkStructToStructSubset(types []arrow.DataType) {
-	for _, srcType := range types {
-		c.Run(srcType.String(), func() {
-			for _, destType := range types {
-				c.Run(destType.String(), func() {
-					fieldNames := []string{"a", "b", "c", "d", "e"}
-
-					a1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[1, 2, 5]`))
-					defer a1.Release()
-					b1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[3, 4, 7]`))
-					defer b1.Release()
-					c1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[9, 11, 44]`))
-					defer c1.Release()
-					d1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[6, 51, 49]`))
-					defer d1.Release()
-					e1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[19, 17, 74]`))
-					defer e1.Release()
-
-					a2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[1, 2, 5]`))
-					defer a2.Release()
-					b2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[3, 4, 7]`))
-					defer b2.Release()
-					c2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[9, 11, 44]`))
-					defer c2.Release()
-					d2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[6, 51, 49]`))
-					defer d2.Release()
-					e2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[19, 17, 74]`))
-					defer e2.Release()
-
-					src, _ := array.NewStructArray([]arrow.Array{a1, b1, c1, d1, e1}, fieldNames)
-					defer src.Release()
-					dest1, _ := array.NewStructArray([]arrow.Array{a2}, []string{"a"})
-					defer dest1.Release()
-
-					opts := *compute.DefaultCastOptions(true)
-					checkCast(c.T(), src, dest1, opts)
-
-					dest2, _ := array.NewStructArray([]arrow.Array{b2, c2}, []string{"b", "c"})
-					defer dest2.Release()
-					checkCast(c.T(), src, dest2, opts)
-
-					dest3, _ := array.NewStructArray([]arrow.Array{c2, d2, e2}, []string{"c", "d", "e"})
-					defer dest3.Release()
-					checkCast(c.T(), src, dest3, opts)
-
-					dest4, _ := array.NewStructArray([]arrow.Array{a2, b2, c2, e2}, []string{"a", "b", "c", "e"})
-					defer dest4.Release()
-					checkCast(c.T(), src, dest4, opts)
-
-					dest5, _ := array.NewStructArray([]arrow.Array{a2, b2, c2, d2, e2}, []string{"a", "b", "c", "d", "e"})
-					defer dest5.Release()
-					checkCast(c.T(), src, dest5, opts)
-
-					// field does not exist
-					dest6 := arrow.StructOf(
-						arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-						arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
-						arrow.Field{Name: "f", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-					)
-					options6 := compute.SafeCastOptions(dest6)
-					_, err := compute.CastArray(context.TODO(), src, options6)
-					c.ErrorIs(err, arrow.ErrType)
-					c.ErrorContains(err, "struct fields don't match or are in the wrong order")
-
-					// fields in wrong order
-					dest7 := arrow.StructOf(
-						arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-						arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
-						arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-					)
-					options7 := compute.SafeCastOptions(dest7)
-					_, err = compute.CastArray(context.TODO(), src, options7)
-					c.ErrorIs(err, arrow.ErrType)
-					c.ErrorContains(err, "struct fields don't match or are in the wrong order")
-				})
-			}
-		})
-	}
-}
-
-func (c *CastSuite) checkStructToStructSubsetWithNulls(types []arrow.DataType) {
-	for _, srcType := range types {
-		c.Run(srcType.String(), func() {
-			for _, destType := range types {
-				c.Run(destType.String(), func() {
-					fieldNames := []string{"a", "b", "c", "d", "e"}
-
-					a1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[1, 2, 5]`))
-					defer a1.Release()
-					b1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[3, null, 7]`))
-					defer b1.Release()
-					c1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[9, 11, 44]`))
-					defer c1.Release()
-					d1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[6, 51, null]`))
-					defer d1.Release()
-					e1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[null, 17, 74]`))
-					defer e1.Release()
-
-					a2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[1, 2, 5]`))
-					defer a2.Release()
-					b2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[3, null, 7]`))
-					defer b2.Release()
-					c2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[9, 11, 44]`))
-					defer c2.Release()
-					d2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[6, 51, null]`))
-					defer d2.Release()
-					e2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[null, 17, 74]`))
-					defer e2.Release()
-
-					// 0, 1, 0
-					nullBitmap := memory.NewBufferBytes([]byte{2})
-					srcNull, _ := array.NewStructArrayWithNulls([]arrow.Array{a1, b1, c1, d1, e1}, fieldNames, nullBitmap, 2, 0)
-					defer srcNull.Release()
-
-					dest1Null, _ := array.NewStructArrayWithNulls([]arrow.Array{a2}, []string{"a"}, nullBitmap, -1, 0)
-					defer dest1Null.Release()
-					opts := compute.DefaultCastOptions(true)
-					checkCast(c.T(), srcNull, dest1Null, *opts)
-
-					dest2Null, _ := array.NewStructArrayWithNulls([]arrow.Array{b2, c2}, []string{"b", "c"}, nullBitmap, -1, 0)
-					defer dest2Null.Release()
-					checkCast(c.T(), srcNull, dest2Null, *opts)
-
-					dest3Null, _ := array.NewStructArrayWithNulls([]arrow.Array{a2, d2, e2}, []string{"a", "d", "e"}, nullBitmap, -1, 0)
-					defer dest3Null.Release()
-					checkCast(c.T(), srcNull, dest3Null, *opts)
-
-					dest4Null, _ := array.NewStructArrayWithNulls([]arrow.Array{a2, b2, c2, e2}, []string{"a", "b", "c", "e"}, nullBitmap, -1, 0)
-					defer dest4Null.Release()
-					checkCast(c.T(), srcNull, dest4Null, *opts)
-
-					dest5Null, _ := array.NewStructArrayWithNulls([]arrow.Array{a2, b2, c2, d2, e2}, []string{"a", "b", "c", "d", "e"}, nullBitmap, -1, 0)
-					defer dest5Null.Release()
-					checkCast(c.T(), srcNull, dest5Null, *opts)
-
-					// field does not exist
-					dest6Null := arrow.StructOf(
-						arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-						arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
-						arrow.Field{Name: "f", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-					)
-					options6Null := compute.SafeCastOptions(dest6Null)
-					_, err := compute.CastArray(context.TODO(), srcNull, options6Null)
-					c.ErrorIs(err, arrow.ErrType)
-					c.ErrorContains(err, "struct fields don't match or are in the wrong order")
-
-					// fields in wrong order
-					dest7Null := arrow.StructOf(
-						arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-						arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
-						arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-					)
-					options7Null := compute.SafeCastOptions(dest7Null)
-					_, err = compute.CastArray(context.TODO(), srcNull, options7Null)
-					c.ErrorIs(err, arrow.ErrType)
-					c.ErrorContains(err, "struct fields don't match or are in the wrong order")
-				})
-			}
-		})
-	}
-}
-
-func (c *CastSuite) TestStructToSameSizedAndNamedStruct() {
-	c.checkStructToStruct(numericTypes)
-}
-
-func (c *CastSuite) TestStructToStructSubset() {
-	c.checkStructToStructSubset(numericTypes)
-}
-
-func (c *CastSuite) TestStructToStructSubsetWithNulls() {
-	c.checkStructToStructSubsetWithNulls(numericTypes)
-}
-
-func (c *CastSuite) TestStructToSameSizedButDifferentNamedStruct() {
-	fieldNames := []string{"a", "b"}
-	a, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[1, 2]`))
-	defer a.Release()
-	b, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[3, 4]`))
-	defer b.Release()
-
-	src, _ := array.NewStructArray([]arrow.Array{a, b}, fieldNames)
-	defer src.Release()
-
-	dest := arrow.StructOf(
-		arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-	)
-	opts := compute.SafeCastOptions(dest)
-	_, err := compute.CastArray(context.TODO(), src, opts)
-	c.ErrorIs(err, arrow.ErrType)
-	c.ErrorContains(err, "struct fields don't match or are in the wrong order")
-}
-
-func (c *CastSuite) TestStructToBiggerStruct() {
-	fieldNames := []string{"a", "b"}
-	a, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[1, 2]`))
-	defer a.Release()
-	b, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[3, 4]`))
-	defer b.Release()
-
-	src, _ := array.NewStructArray([]arrow.Array{a, b}, fieldNames)
-	defer src.Release()
-
-	dest := arrow.StructOf(
-		arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-	)
-	opts := compute.SafeCastOptions(dest)
-	_, err := compute.CastArray(context.TODO(), src, opts)
-	c.ErrorIs(err, arrow.ErrType)
-	c.ErrorContains(err, "struct fields don't match or are in the wrong order")
-}
-
-func (c *CastSuite) TestStructToDifferentNullabilityStruct() {
-	c.Run("non-nullable to nullable", func() {
-		fieldsSrcNonNullable := []arrow.Field{
-			{Name: "a", Type: arrow.PrimitiveTypes.Int8},
-			{Name: "b", Type: arrow.PrimitiveTypes.Int8},
-			{Name: "c", Type: arrow.PrimitiveTypes.Int8},
-		}
-		srcNonNull, _, err := array.FromJSON(c.mem, arrow.StructOf(fieldsSrcNonNullable...),
-			strings.NewReader(`[
-				{"a": 11, "b": 32, "c": 95},
-				{"a": 23, "b": 46, "c": 11},
-				{"a": 56, "b": 37, "c": 44}
-			]`))
-		c.Require().NoError(err)
-		defer srcNonNull.Release()
-
-		fieldsDest1Nullable := []arrow.Field{
-			{Name: "a", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-			{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		}
-		destNullable, _, err := array.FromJSON(c.mem, arrow.StructOf(fieldsDest1Nullable...),
-			strings.NewReader(`[
-				{"a": 11, "b": 32, "c": 95},
-				{"a": 23, "b": 46, "c": 11},
-				{"a": 56, "b": 37, "c": 44}
-			]`))
-		c.Require().NoError(err)
-		defer destNullable.Release()
-
-		checkCast(c.T(), srcNonNull, destNullable, *compute.DefaultCastOptions(true))
-
-		fieldsDest2Nullable := []arrow.Field{
-			{Name: "a", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		}
-
-		data := array.NewData(arrow.StructOf(fieldsDest2Nullable...), destNullable.Len(), destNullable.Data().Buffers(),
-			[]arrow.ArrayData{destNullable.Data().Children()[0], destNullable.Data().Children()[2]},
-			destNullable.NullN(), 0)
-		defer data.Release()
-		dest2Nullable := array.NewStructData(data)
-		defer dest2Nullable.Release()
-		checkCast(c.T(), srcNonNull, dest2Nullable, *compute.DefaultCastOptions(true))
-
-		fieldsDest3Nullable := []arrow.Field{
-			{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		}
-
-		data = array.NewData(arrow.StructOf(fieldsDest3Nullable...), destNullable.Len(), destNullable.Data().Buffers(),
-			[]arrow.ArrayData{destNullable.Data().Children()[1]}, destNullable.NullN(), 0)
-		defer data.Release()
-		dest3Nullable := array.NewStructData(data)
-		defer dest3Nullable.Release()
-		checkCast(c.T(), srcNonNull, dest3Nullable, *compute.DefaultCastOptions(true))
-	})
-	c.Run("nullable to non-nullable", func() {
-		fieldsSrcNullable := []arrow.Field{
-			{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "b", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "c", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		}
-		srcNullable, _, err := array.FromJSON(c.mem, arrow.StructOf(fieldsSrcNullable...),
-			strings.NewReader(`[
-				{"a": 1, "b": 3, "c": 9},
-				{"a": null, "b": 4, "c": 11},
-				{"a": 5, "b": null, "c": 44}
-			]`))
-		c.Require().NoError(err)
-		defer srcNullable.Release()
-
-		fieldsDest1NonNullable := []arrow.Field{
-			{Name: "a", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-			{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-		}
-		dest1NonNullable := arrow.StructOf(fieldsDest1NonNullable...)
-		options1NoNullable := compute.SafeCastOptions(dest1NonNullable)
-		_, err = compute.CastArray(context.TODO(), srcNullable, options1NoNullable)
-		c.ErrorIs(err, arrow.ErrType)
-		c.ErrorContains(err, "cannot cast nullable field to non-nullable field")
-
-		fieldsDest2NonNullable := []arrow.Field{
-			{Name: "a", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-		}
-		dest2NonNullable := arrow.StructOf(fieldsDest2NonNullable...)
-		options2NoNullable := compute.SafeCastOptions(dest2NonNullable)
-		_, err = compute.CastArray(context.TODO(), srcNullable, options2NoNullable)
-		c.ErrorIs(err, arrow.ErrType)
-		c.ErrorContains(err, "cannot cast nullable field to non-nullable field")
-
-		fieldsDest3NonNullable := []arrow.Field{
-			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
-		}
-		dest3NonNullable := arrow.StructOf(fieldsDest3NonNullable...)
-		options3NoNullable := compute.SafeCastOptions(dest3NonNullable)
-		_, err = compute.CastArray(context.TODO(), srcNullable, options3NoNullable)
-		c.ErrorIs(err, arrow.ErrType)
-		c.ErrorContains(err, "cannot cast nullable field to non-nullable field")
-	})
-}
-
-func (c *CastSuite) smallIntArrayFromJSON(data string) arrow.Array {
-	arr, _, _ := array.FromJSON(c.mem, types.NewSmallintType(), strings.NewReader(data))
-	return arr
-}
-
-func (c *CastSuite) TestExtensionTypeToIntDowncast() {
-	smallint := types.NewSmallintType()
-	arrow.RegisterExtensionType(smallint)
-	defer arrow.UnregisterExtensionType("smallint")
-
-	c.Run("smallint(int16) to int16", func() {
-		arr := c.smallIntArrayFromJSON(`[0, 100, 200, 1, 2]`)
-		defer arr.Release()
-
-		checkCastZeroCopy(c.T(), arr, arrow.PrimitiveTypes.Int16, compute.DefaultCastOptions(true))
-
-		c.checkCast(smallint, arrow.PrimitiveTypes.Uint8,
-			`[0, 100, 200, 1, 2]`, `[0, 100, 200, 1, 2]`)
-	})
-
-	c.Run("smallint(int16) to uint8 with overflow", func() {
-		opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Uint8)
-		c.checkCastFails(smallint, `[0, null, 256, 1, 3]`, opts)
-
-		opts.AllowIntOverflow = true
-		c.checkCastOpts(smallint, arrow.PrimitiveTypes.Uint8,
-			`[0, null, 256, 1, 3]`, `[0, null, 0, 1, 3]`, *opts)
-	})
-
-	c.Run("smallint(int16) to uint8 with underflow", func() {
-		opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Uint8)
-		c.checkCastFails(smallint, `[0, null, -1, 1, 3]`, opts)
-
-		opts.AllowIntOverflow = true
-		c.checkCastOpts(smallint, arrow.PrimitiveTypes.Uint8,
-			`[0, null, -1, 1, 3]`, `[0, null, 255, 1, 3]`, *opts)
-	})
-}
-
-func (c *CastSuite) TestNoOutBitmapIfIsAllValid() {
-	a, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[1]`))
-	defer a.Release()
-
-	opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Int32)
-	result, err := compute.CastArray(context.Background(), a, opts)
-	c.NoError(err)
-	c.NotNil(a.Data().Buffers()[0])
-	c.Nil(result.Data().Buffers()[0])
-}
-
-func (c *CastSuite) TestFromDictionary() {
-	ctx := compute.WithAllocator(context.Background(), c.mem)
-
-	dictionaries := []arrow.Array{}
-
-	for _, ty := range numericTypes {
-		a, _, _ := array.FromJSON(c.mem, ty, strings.NewReader(`[23, 12, 45, 12, null]`))
-		defer a.Release()
-		dictionaries = append(dictionaries, a)
-	}
-
-	for _, ty := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
-		a, _, _ := array.FromJSON(c.mem, ty, strings.NewReader(`["foo", "bar", "baz", "foo", null]`))
-		defer a.Release()
-		dictionaries = append(dictionaries, a)
-	}
-
-	for _, d := range dictionaries {
-		for _, ty := range dictIndexTypes {
-			indices, _, _ := array.FromJSON(c.mem, ty, strings.NewReader(`[4, 0, 1, 2, 0, 4, null, 2]`))
-
-			expected, err := compute.Take(ctx, compute.TakeOptions{}, &compute.ArrayDatum{d.Data()}, &compute.ArrayDatum{indices.Data()})
-			c.Require().NoError(err)
-			exp := expected.(*compute.ArrayDatum).MakeArray()
-
-			dictArr := array.NewDictionaryArray(&arrow.DictionaryType{IndexType: ty, ValueType: d.DataType()}, indices, d)
-			checkCast(c.T(), dictArr, exp, *compute.SafeCastOptions(d.DataType()))
-
-			indices.Release()
-			expected.Release()
-			exp.Release()
-			dictArr.Release()
-			return
-		}
-	}
-}
-
-func TestCasts(t *testing.T) {
-	suite.Run(t, new(CastSuite))
-}
-
-const rngseed = 0x94378165
-
-func benchmarkNumericCast(b *testing.B, fromType, toType arrow.DataType, opts compute.CastOptions, size, min, max int64, nullprob float64) {
-	rng := gen.NewRandomArrayGenerator(rngseed, memory.DefaultAllocator)
-	arr := rng.Numeric(fromType.ID(), size, min, max, nullprob)
-	var (
-		err   error
-		out   compute.Datum
-		ctx   = context.Background()
-		input = compute.NewDatum(arr.Data())
-	)
-
-	b.Cleanup(func() {
-		arr.Release()
-		input.Release()
-	})
-
-	opts.ToType = toType
-	b.ResetTimer()
-	b.SetBytes(size * int64(fromType.(arrow.FixedWidthDataType).Bytes()))
-	for i := 0; i < b.N; i++ {
-		out, err = compute.CastDatum(ctx, input, &opts)
-		if err != nil {
-			b.Fatal(err)
-		}
-		out.Release()
-	}
-}
-
-func benchmarkFloatingToIntegerCast(b *testing.B, fromType, toType arrow.DataType, opts compute.CastOptions, size, min, max int64, nullprob float64) {
-	rng := gen.NewRandomArrayGenerator(rngseed, memory.DefaultAllocator)
-	arr := rng.Numeric(toType.ID(), size, min, max, nullprob)
-	asFloat, err := compute.CastToType(context.Background(), arr, fromType)
-	if err != nil {
-		b.Fatal(err)
-	}
-	arr.Release()
-
-	var (
-		out   compute.Datum
-		ctx   = context.Background()
-		input = compute.NewDatum(asFloat.Data())
-	)
-
-	b.Cleanup(func() {
-		asFloat.Release()
-		input.Release()
-	})
-
-	opts.ToType = toType
-	b.ResetTimer()
-	b.SetBytes(size * int64(fromType.(arrow.FixedWidthDataType).Bytes()))
-	for i := 0; i < b.N; i++ {
-		out, err = compute.CastDatum(ctx, input, &opts)
-		if err != nil {
-			b.Fatal(err)
-		}
-		out.Release()
-	}
-}
-
-func BenchmarkCasting(b *testing.B) {
-	type benchfn func(b *testing.B, fromType, toType arrow.DataType, opts compute.CastOptions, size, min, max int64, nullprob float64)
-
-	tests := []struct {
-		from, to arrow.DataType
-		min, max int64
-		safe     bool
-		fn       benchfn
-	}{
-		{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int32, math.MinInt32, math.MaxInt32, true, benchmarkNumericCast},
-		{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int32, math.MinInt32, math.MaxInt32, false, benchmarkNumericCast},
-		{arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int32, 0, math.MaxInt32, true, benchmarkNumericCast},
-		{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float64, 0, 1000, true, benchmarkNumericCast},
-		{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float64, 0, 1000, false, benchmarkNumericCast},
-		{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, -1000, 1000, true, benchmarkFloatingToIntegerCast},
-		{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, -1000, 1000, false, benchmarkFloatingToIntegerCast},
-	}
-
-	for _, tt := range tests {
-		for _, sz := range []int64{int64(CpuCacheSizes[1]) /* L2 Cache Size */} {
-			for _, nullProb := range []float64{0, 0.1, 0.5, 0.9, 1} {
-				arraySize := sz / int64(tt.from.(arrow.FixedWidthDataType).Bytes())
-				opts := compute.DefaultCastOptions(tt.safe)
-				b.Run(fmt.Sprintf("sz=%d/nullprob=%.2f/from=%s/to=%s/safe=%t", arraySize, nullProb, tt.from, tt.to, tt.safe), func(b *testing.B) {
-					tt.fn(b, tt.from, tt.to, *opts, arraySize, tt.min, tt.max, nullProb)
-				})
-			}
-		}
-	}
-}
diff --git a/go/arrow/compute/datum.go b/go/arrow/compute/datum.go
deleted file mode 100644
index 9619fe09610de..0000000000000
--- a/go/arrow/compute/datum.go
+++ /dev/null
@@ -1,305 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-//go:generate go run golang.org/x/tools/cmd/stringer -type=DatumKind -linecomment
-
-// DatumKind is an enum used for denoting which kind of type a datum is encapsulating
-type DatumKind int
-
-const (
-	KindNone    DatumKind = iota // none
-	KindScalar                   // scalar
-	KindArray                    // array
-	KindChunked                  // chunked_array
-	KindRecord                   // record_batch
-	KindTable                    // table
-)
-
-const UnknownLength int64 = -1
-
-// DatumIsValue returns true if the datum passed is a Scalar, Array
-// or ChunkedArray type (e.g. it contains a specific value not a
-// group of values)
-func DatumIsValue(d Datum) bool {
-	switch d.Kind() {
-	case KindScalar, KindArray, KindChunked:
-		return true
-	}
-	return false
-}
-
-// Datum is a variant interface for wrapping the various Arrow data structures
-// for now the various Datum types just hold a Value which is the type they
-// are wrapping, but it might make sense in the future for those types
-// to actually be aliases or embed their types instead. Not sure yet.
-type Datum interface {
-	fmt.Stringer
-	Kind() DatumKind
-	Len() int64
-	Equals(Datum) bool
-	Release()
-
-	data() any
-}
-
-// ArrayLikeDatum is an interface for treating a Datum similarly to an Array,
-// so that it is easy to differentiate between Record/Table/Collection and Scalar,
-// Array/ChunkedArray for ease of use. Chunks will return an empty slice for Scalar,
-// a slice with 1 element for Array, and the slice of chunks for a chunked array.
-type ArrayLikeDatum interface {
-	Datum
-	NullN() int64
-	Type() arrow.DataType
-	Chunks() []arrow.Array
-}
-
-// TableLikeDatum is an interface type for specifying either a RecordBatch or a
-// Table as both contain a schema as opposed to just a single data type.
-type TableLikeDatum interface {
-	Datum
-	Schema() *arrow.Schema
-}
-
-// EmptyDatum is the null case, a Datum with nothing in it.
-type EmptyDatum struct{}
-
-func (EmptyDatum) String() string  { return "nullptr" }
-func (EmptyDatum) Kind() DatumKind { return KindNone }
-func (EmptyDatum) Len() int64      { return UnknownLength }
-func (EmptyDatum) Release()        {}
-func (EmptyDatum) Equals(other Datum) bool {
-	_, ok := other.(EmptyDatum)
-	return ok
-}
-func (EmptyDatum) data() any { return nil }
-
-// ScalarDatum contains a scalar value
-type ScalarDatum struct {
-	Value scalar.Scalar
-}
-
-func (ScalarDatum) Kind() DatumKind         { return KindScalar }
-func (ScalarDatum) Len() int64              { return 1 }
-func (ScalarDatum) Chunks() []arrow.Array   { return nil }
-func (d *ScalarDatum) Type() arrow.DataType { return d.Value.DataType() }
-func (d *ScalarDatum) String() string       { return d.Value.String() }
-func (d *ScalarDatum) ToScalar() (scalar.Scalar, error) {
-	return d.Value, nil
-}
-func (d *ScalarDatum) data() any { return d.Value }
-func (d *ScalarDatum) NullN() int64 {
-	if d.Value.IsValid() {
-		return 0
-	}
-	return 1
-}
-
-type releasable interface {
-	Release()
-}
-
-func (d *ScalarDatum) Release() {
-	if v, ok := d.Value.(releasable); ok {
-		v.Release()
-	}
-}
-
-func (d *ScalarDatum) Equals(other Datum) bool {
-	if rhs, ok := other.(*ScalarDatum); ok {
-		return scalar.Equals(d.Value, rhs.Value)
-	}
-	return false
-}
-
-// ArrayDatum references an array.Data object which can be used to create
-// array instances from if needed.
-type ArrayDatum struct {
-	Value arrow.ArrayData
-}
-
-func (ArrayDatum) Kind() DatumKind           { return KindArray }
-func (d *ArrayDatum) Type() arrow.DataType   { return d.Value.DataType() }
-func (d *ArrayDatum) Len() int64             { return int64(d.Value.Len()) }
-func (d *ArrayDatum) NullN() int64           { return int64(d.Value.NullN()) }
-func (d *ArrayDatum) String() string         { return fmt.Sprintf("Array:{%s}", d.Value.DataType()) }
-func (d *ArrayDatum) MakeArray() arrow.Array { return array.MakeFromData(d.Value) }
-func (d *ArrayDatum) Chunks() []arrow.Array  { return []arrow.Array{d.MakeArray()} }
-func (d *ArrayDatum) ToScalar() (scalar.Scalar, error) {
-	return scalar.NewListScalarData(d.Value), nil
-}
-func (d *ArrayDatum) Release() {
-	d.Value.Release()
-	d.Value = nil
-}
-func (d *ArrayDatum) data() any { return d.Value }
-func (d *ArrayDatum) Equals(other Datum) bool {
-	rhs, ok := other.(*ArrayDatum)
-	if !ok {
-		return false
-	}
-
-	left := d.MakeArray()
-	defer left.Release()
-	right := rhs.MakeArray()
-	defer right.Release()
-
-	return array.Equal(left, right)
-}
-
-// ChunkedDatum contains a chunked array for use with expressions and compute.
-type ChunkedDatum struct {
-	Value *arrow.Chunked
-}
-
-func (ChunkedDatum) Kind() DatumKind          { return KindChunked }
-func (d *ChunkedDatum) Type() arrow.DataType  { return d.Value.DataType() }
-func (d *ChunkedDatum) Len() int64            { return int64(d.Value.Len()) }
-func (d *ChunkedDatum) NullN() int64          { return int64(d.Value.NullN()) }
-func (d *ChunkedDatum) String() string        { return fmt.Sprintf("Array:{%s}", d.Value.DataType()) }
-func (d *ChunkedDatum) Chunks() []arrow.Array { return d.Value.Chunks() }
-func (d *ChunkedDatum) data() any             { return d.Value }
-func (d *ChunkedDatum) Release() {
-	d.Value.Release()
-	d.Value = nil
-}
-
-func (d *ChunkedDatum) Equals(other Datum) bool {
-	if rhs, ok := other.(*ChunkedDatum); ok {
-		return array.ChunkedEqual(d.Value, rhs.Value)
-	}
-	return false
-}
-
-// RecordDatum contains an array.Record for passing a full record to an expression
-// or to compute.
-type RecordDatum struct {
-	Value arrow.Record
-}
-
-func (RecordDatum) Kind() DatumKind          { return KindRecord }
-func (RecordDatum) String() string           { return "RecordBatch" }
-func (r *RecordDatum) Len() int64            { return r.Value.NumRows() }
-func (r *RecordDatum) Schema() *arrow.Schema { return r.Value.Schema() }
-func (r *RecordDatum) data() any             { return r.Value }
-func (r *RecordDatum) Release() {
-	r.Value.Release()
-	r.Value = nil
-}
-
-func (r *RecordDatum) Equals(other Datum) bool {
-	if rhs, ok := other.(*RecordDatum); ok {
-		return array.RecordEqual(r.Value, rhs.Value)
-	}
-	return false
-}
-
-// TableDatum contains a table so that multiple record batches can be worked with
-// together as a single table for being passed to compute and expression handling.
-type TableDatum struct {
-	Value arrow.Table
-}
-
-func (TableDatum) Kind() DatumKind          { return KindTable }
-func (TableDatum) String() string           { return "Table" }
-func (d *TableDatum) Len() int64            { return d.Value.NumRows() }
-func (d *TableDatum) Schema() *arrow.Schema { return d.Value.Schema() }
-func (d *TableDatum) data() any             { return d.Value }
-func (d *TableDatum) Release() {
-	d.Value.Release()
-	d.Value = nil
-}
-
-func (d *TableDatum) Equals(other Datum) bool {
-	if rhs, ok := other.(*TableDatum); ok {
-		return array.TableEqual(d.Value, rhs.Value)
-	}
-	return false
-}
-
-// NewDatum will construct the appropriate Datum type based on what is passed in
-// as the argument.
-//
-// An arrow.Array gets an ArrayDatum
-// An array.Chunked gets a ChunkedDatum
-// An array.Record gets a RecordDatum
-// an array.Table gets a TableDatum
-// a scalar.Scalar gets a ScalarDatum
-//
-// Anything else is passed to scalar.MakeScalar and receives a scalar
-// datum of that appropriate type.
-func NewDatum(value interface{}) Datum {
-	switch v := value.(type) {
-	case Datum:
-		return NewDatum(v.data())
-	case arrow.Array:
-		v.Data().Retain()
-		return &ArrayDatum{v.Data()}
-	case scalar.Releasable:
-		v.Retain()
-		return NewDatumWithoutOwning(v)
-	case scalar.Scalar:
-		return &ScalarDatum{v}
-	default:
-		return &ScalarDatum{scalar.MakeScalar(value)}
-	}
-}
-
-// NewDatumWithoutOwning is like NewDatum only it does not call Retain on
-// the passed in value (if applicable). This means that if the resulting
-// Datum should not have Release called on it and the original value needs
-// to outlive the Datum.
-//
-// Only use this if you know what you're doing. For the most part this is
-// just a convenience function.+-
-
-func NewDatumWithoutOwning(value interface{}) Datum {
-	switch v := value.(type) {
-	case arrow.Array:
-		return &ArrayDatum{v.Data()}
-	case arrow.ArrayData:
-		return &ArrayDatum{v}
-	case *arrow.Chunked:
-		return &ChunkedDatum{v}
-	case arrow.Record:
-		return &RecordDatum{v}
-	case arrow.Table:
-		return &TableDatum{v}
-	case scalar.Scalar:
-		return &ScalarDatum{v}
-	default:
-		return &ScalarDatum{scalar.MakeScalar(value)}
-	}
-}
-
-var (
-	_ ArrayLikeDatum = (*ScalarDatum)(nil)
-	_ ArrayLikeDatum = (*ArrayDatum)(nil)
-	_ ArrayLikeDatum = (*ChunkedDatum)(nil)
-	_ TableLikeDatum = (*RecordDatum)(nil)
-	_ TableLikeDatum = (*TableDatum)(nil)
-)
diff --git a/go/arrow/compute/datumkind_string.go b/go/arrow/compute/datumkind_string.go
deleted file mode 100644
index 3603e5e495414..0000000000000
--- a/go/arrow/compute/datumkind_string.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Code generated by "stringer -type=DatumKind -linecomment"; DO NOT EDIT.
-
-//go:build go1.18
-
-package compute
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[KindNone-0]
-	_ = x[KindScalar-1]
-	_ = x[KindArray-2]
-	_ = x[KindChunked-3]
-	_ = x[KindRecord-4]
-	_ = x[KindTable-5]
-}
-
-const _DatumKind_name = "nonescalararraychunked_arrayrecord_batchtable"
-
-var _DatumKind_index = [...]uint8{0, 4, 10, 15, 28, 40, 45}
-
-func (i DatumKind) String() string {
-	if i < 0 || i >= DatumKind(len(_DatumKind_index)-1) {
-		return "DatumKind(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _DatumKind_name[_DatumKind_index[i]:_DatumKind_index[i+1]]
-}
diff --git a/go/arrow/compute/doc.go b/go/arrow/compute/doc.go
deleted file mode 100644
index 7c763cb18d0ff..0000000000000
--- a/go/arrow/compute/doc.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package compute is a native-go implementation of an Acero-like
-// arrow compute engine. It requires go1.18+
-//
-// While consumers of Arrow that are able to use CGO could utilize the
-// C Data API (using the cdata package) and could link against the
-// acero library directly, there are consumers who cannot use CGO. This
-// is an attempt to provide for those users, and in general create a
-// native-go arrow compute engine.
-//
-// The overwhelming majority of things in this package require go1.18 as
-// it utilizes generics. The files in this package and its sub-packages
-// are all excluded from being built by go versions lower than 1.18 so
-// that the larger Arrow module itself is still compatible with go1.17.
-//
-// Everything in this package should be considered Experimental for now.
-package compute
-
-//go:generate stringer -type=FuncKind -linecomment
diff --git a/go/arrow/compute/example_test.go b/go/arrow/compute/example_test.go
deleted file mode 100644
index d427fb622d24a..0000000000000
--- a/go/arrow/compute/example_test.go
+++ /dev/null
@@ -1,91 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"fmt"
-	"log"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// This example demonstrates how to register a custom scalar function.
-func Example_customFunction() {
-	pool := memory.NewGoAllocator()
-
-	ctx := context.Background()
-	execCtx := compute.DefaultExecCtx()
-	ctx = compute.SetExecCtx(ctx, execCtx)
-
-	add42 := compute.NewScalarFunction("add_42", compute.Arity{
-		NArgs: 1,
-	}, compute.FunctionDoc{
-		Summary:  "Returns the input values plus 42",
-		ArgNames: []string{"input"},
-	})
-
-	if err := add42.AddNewKernel(
-		[]exec.InputType{
-			// We accept a single argument (array) of Int8 type.
-			{
-				Kind: exec.InputExact,
-				Type: arrow.PrimitiveTypes.Int8,
-			},
-		},
-		// We'll return a single Int8 array.
-		exec.NewOutputType(arrow.PrimitiveTypes.Int8),
-		func(ctx *exec.KernelCtx, span *exec.ExecSpan, result *exec.ExecResult) error {
-			// The second buffer contains the values. Both for the input and the output arrays.
-			for i, x := range span.Values[0].Array.Buffers[1].Buf {
-				result.Buffers[1].Buf[i] = x + 42
-			}
-			return nil
-		},
-		nil,
-	); err != nil {
-		log.Fatal(err)
-	}
-	execCtx.Registry.AddFunction(add42, true)
-
-	inputArrayBuilder := array.NewInt8Builder(pool)
-	for i := 0; i < 16; i++ {
-		inputArrayBuilder.Append(int8(i))
-	}
-	inputArray := inputArrayBuilder.NewArray()
-
-	outputArrayDatum, err := compute.CallFunction(
-		compute.SetExecCtx(context.Background(), execCtx),
-		"add_42",
-		nil,
-		&compute.ArrayDatum{Value: inputArray.Data()},
-	)
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	fmt.Println(array.NewInt8Data(outputArrayDatum.(*compute.ArrayDatum).Value).Int8Values())
-
-	// Output:
-	// [42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57]
-}
diff --git a/go/arrow/compute/exec.go b/go/arrow/compute/exec.go
deleted file mode 100644
index 1142297c1c396..0000000000000
--- a/go/arrow/compute/exec.go
+++ /dev/null
@@ -1,199 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-func haveChunkedArray(values []Datum) bool {
-	for _, v := range values {
-		if v.Kind() == KindChunked {
-			return true
-		}
-	}
-	return false
-}
-
-// ExecSpanFromBatch constructs and returns a new ExecSpan from the values
-// inside of the ExecBatch which could be scalar or arrays.
-//
-// This is mostly used for tests but is also a convenience method for other
-// cases.
-func ExecSpanFromBatch(batch *ExecBatch) *exec.ExecSpan {
-	out := &exec.ExecSpan{Len: batch.Len, Values: make([]exec.ExecValue, len(batch.Values))}
-	for i, v := range batch.Values {
-		outVal := &out.Values[i]
-		if v.Kind() == KindScalar {
-			outVal.Scalar = v.(*ScalarDatum).Value
-		} else {
-			outVal.Array.SetMembers(v.(*ArrayDatum).Value)
-			outVal.Scalar = nil
-		}
-	}
-	return out
-}
-
-// this is the primary driver of execution
-func execInternal(ctx context.Context, fn Function, opts FunctionOptions, passedLen int64, args ...Datum) (result Datum, err error) {
-	if opts == nil {
-		if err = checkOptions(fn, opts); err != nil {
-			return
-		}
-		opts = fn.DefaultOptions()
-	}
-
-	// we only allow Array, ChunkedArray, and Scalars for now.
-	// RecordBatch and Table datums are disallowed.
-	if err = checkAllIsValue(args); err != nil {
-		return
-	}
-
-	inTypes := make([]arrow.DataType, len(args))
-	for i, a := range args {
-		inTypes[i] = a.(ArrayLikeDatum).Type()
-	}
-
-	var (
-		k        exec.Kernel
-		executor KernelExecutor
-	)
-
-	switch fn.Kind() {
-	case FuncScalar:
-		executor = scalarExecPool.Get().(*scalarExecutor)
-		defer func() {
-			executor.Clear()
-			scalarExecPool.Put(executor.(*scalarExecutor))
-		}()
-	case FuncVector:
-		executor = vectorExecPool.Get().(*vectorExecutor)
-		defer func() {
-			executor.Clear()
-			vectorExecPool.Put(executor.(*vectorExecutor))
-		}()
-	default:
-		return nil, fmt.Errorf("%w: direct execution of %s", arrow.ErrNotImplemented, fn.Kind())
-	}
-
-	if k, err = fn.DispatchBest(inTypes...); err != nil {
-		return
-	}
-
-	var newArgs []Datum
-	// cast arguments if necessary
-	for i, arg := range args {
-		if !arrow.TypeEqual(inTypes[i], arg.(ArrayLikeDatum).Type()) {
-			if newArgs == nil {
-				newArgs = make([]Datum, len(args))
-				copy(newArgs, args)
-			}
-			newArgs[i], err = CastDatum(ctx, arg, SafeCastOptions(inTypes[i]))
-			if err != nil {
-				return nil, err
-			}
-			defer newArgs[i].Release()
-		}
-	}
-	if newArgs != nil {
-		args = newArgs
-	}
-
-	kctx := &exec.KernelCtx{Ctx: ctx, Kernel: k}
-	init := k.GetInitFn()
-	kinitArgs := exec.KernelInitArgs{Kernel: k, Inputs: inTypes, Options: opts}
-	if init != nil {
-		kctx.State, err = init(kctx, kinitArgs)
-		if err != nil {
-			return
-		}
-	}
-
-	if err = executor.Init(kctx, kinitArgs); err != nil {
-		return
-	}
-
-	input := ExecBatch{Values: args, Len: 0}
-	if input.NumValues() == 0 {
-		if passedLen != -1 {
-			input.Len = passedLen
-		}
-	} else {
-		inferred, allSame := inferBatchLength(input.Values)
-		input.Len = inferred
-		switch fn.Kind() {
-		case FuncScalar:
-			if passedLen != -1 && passedLen != inferred {
-				return nil, fmt.Errorf("%w: passed batch length for execution did not match actual length for scalar fn execution",
-					arrow.ErrInvalid)
-			}
-		case FuncVector:
-			vkernel := k.(*exec.VectorKernel)
-			if !(allSame || !vkernel.CanExecuteChunkWise) {
-				return nil, fmt.Errorf("%w: vector kernel arguments must all be the same length", arrow.ErrInvalid)
-			}
-		}
-	}
-
-	ectx := GetExecCtx(ctx)
-
-	ctx, cancel := context.WithCancel(context.Background())
-	defer cancel()
-
-	ch := make(chan Datum, ectx.ExecChannelSize)
-	go func() {
-		defer close(ch)
-		if err = executor.Execute(ctx, &input, ch); err != nil {
-			cancel()
-		}
-	}()
-
-	result = executor.WrapResults(ctx, ch, haveChunkedArray(input.Values))
-	if err == nil {
-		debug.Assert(executor.CheckResultType(result) == nil, "invalid result type")
-	}
-
-	if ctx.Err() == context.Canceled && result != nil {
-		result.Release()
-	}
-
-	return
-}
-
-// CallFunction is a one-shot invoker for all types of functions.
-//
-// It will perform kernel-dispatch, argument checking, iteration of
-// ChunkedArray inputs and wrapping of outputs.
-//
-// To affect the execution options, you must call SetExecCtx and pass
-// the resulting context in here.
-func CallFunction(ctx context.Context, funcName string, opts FunctionOptions, args ...Datum) (Datum, error) {
-	ectx := GetExecCtx(ctx)
-	fn, ok := ectx.Registry.GetFunction(funcName)
-	if !ok {
-		return nil, fmt.Errorf("%w: function '%s' not found", arrow.ErrKey, funcName)
-	}
-
-	return fn.Execute(ctx, opts, args...)
-}
diff --git a/go/arrow/compute/exec/hash_util.go b/go/arrow/compute/exec/hash_util.go
deleted file mode 100644
index 0c8f7df5a3237..0000000000000
--- a/go/arrow/compute/exec/hash_util.go
+++ /dev/null
@@ -1,24 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package exec
-
-// ADAPTED FROM HASH UTILITIES FOR BOOST
-
-func HashCombine(seed, value uint64) uint64 {
-	seed ^= value + 0x9e3779b9 + (seed << 6) + (seed >> 2)
-	return seed
-}
diff --git a/go/arrow/compute/exec/kernel.go b/go/arrow/compute/exec/kernel.go
deleted file mode 100644
index 600e52c681686..0000000000000
--- a/go/arrow/compute/exec/kernel.go
+++ /dev/null
@@ -1,695 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exec
-
-import (
-	"context"
-	"fmt"
-	"hash/maphash"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/exp/slices"
-)
-
-var hashSeed = maphash.MakeSeed()
-
-type ctxAllocKey struct{}
-
-// WithAllocator returns a new context with the provided allocator
-// embedded into the context.
-func WithAllocator(ctx context.Context, mem memory.Allocator) context.Context {
-	return context.WithValue(ctx, ctxAllocKey{}, mem)
-}
-
-// GetAllocator retrieves the allocator from the context, or returns
-// memory.DefaultAllocator if there was no allocator in the provided
-// context.
-func GetAllocator(ctx context.Context) memory.Allocator {
-	mem, ok := ctx.Value(ctxAllocKey{}).(memory.Allocator)
-	if !ok {
-		return memory.DefaultAllocator
-	}
-	return mem
-}
-
-// Kernel defines the minimum interface required for the basic execution
-// kernel. It will grow as the implementation requires.
-type Kernel interface {
-	GetInitFn() KernelInitFn
-	GetSig() *KernelSignature
-}
-
-// NonAggKernel builds on the base Kernel interface for
-// non aggregate execution kernels. Specifically this will
-// represent Scalar and Vector kernels.
-type NonAggKernel interface {
-	Kernel
-	Exec(*KernelCtx, *ExecSpan, *ExecResult) error
-	GetNullHandling() NullHandling
-	GetMemAlloc() MemAlloc
-	CanFillSlices() bool
-}
-
-// KernelCtx is a small struct holding the context for a kernel execution
-// consisting of a pointer to the kernel, initialized state (if needed)
-// and the context for this execution.
-type KernelCtx struct {
-	Ctx    context.Context
-	Kernel Kernel
-	State  KernelState
-}
-
-func (k *KernelCtx) Allocate(bufsize int) *memory.Buffer {
-	buf := memory.NewResizableBuffer(GetAllocator(k.Ctx))
-	buf.Resize(bufsize)
-	return buf
-}
-
-func (k *KernelCtx) AllocateBitmap(nbits int64) *memory.Buffer {
-	nbytes := bitutil.BytesForBits(nbits)
-	return k.Allocate(int(nbytes))
-}
-
-// TypeMatcher define an interface for matching Input or Output types
-// for execution kernels. There are multiple implementations of this
-// interface provided by this package.
-type TypeMatcher interface {
-	fmt.Stringer
-	Matches(typ arrow.DataType) bool
-	Equals(other TypeMatcher) bool
-}
-
-type sameTypeIDMatcher struct {
-	accepted arrow.Type
-}
-
-func (s sameTypeIDMatcher) Matches(typ arrow.DataType) bool { return s.accepted == typ.ID() }
-func (s sameTypeIDMatcher) Equals(other TypeMatcher) bool {
-	if s == other {
-		return true
-	}
-
-	o, ok := other.(*sameTypeIDMatcher)
-	if !ok {
-		return false
-	}
-
-	return s.accepted == o.accepted
-}
-
-func (s sameTypeIDMatcher) String() string {
-	return "Type::" + s.accepted.String()
-}
-
-// SameTypeID returns a type matcher which will match
-// any DataType that uses the same arrow.Type ID as the one
-// passed in here.
-func SameTypeID(id arrow.Type) TypeMatcher { return &sameTypeIDMatcher{id} }
-
-type timeUnitMatcher struct {
-	id   arrow.Type
-	unit arrow.TimeUnit
-}
-
-func (s timeUnitMatcher) Matches(typ arrow.DataType) bool {
-	if typ.ID() != s.id {
-		return false
-	}
-	return s.unit == typ.(arrow.TemporalWithUnit).TimeUnit()
-}
-
-func (s timeUnitMatcher) String() string {
-	return strings.ToLower(s.id.String()) + "(" + s.unit.String() + ")"
-}
-
-func (s *timeUnitMatcher) Equals(other TypeMatcher) bool {
-	if s == other {
-		return true
-	}
-
-	o, ok := other.(*timeUnitMatcher)
-	if !ok {
-		return false
-	}
-	return o.id == s.id && o.unit == s.unit
-}
-
-// TimestampTypeUnit returns a TypeMatcher that will match only
-// a Timestamp datatype with the specified TimeUnit.
-func TimestampTypeUnit(unit arrow.TimeUnit) TypeMatcher {
-	return &timeUnitMatcher{arrow.TIMESTAMP, unit}
-}
-
-// Time32TypeUnit returns a TypeMatcher that will match only
-// a Time32 datatype with the specified TimeUnit.
-func Time32TypeUnit(unit arrow.TimeUnit) TypeMatcher {
-	return &timeUnitMatcher{arrow.TIME32, unit}
-}
-
-// Time64TypeUnit returns a TypeMatcher that will match only
-// a Time64 datatype with the specified TimeUnit.
-func Time64TypeUnit(unit arrow.TimeUnit) TypeMatcher {
-	return &timeUnitMatcher{arrow.TIME64, unit}
-}
-
-// DurationTypeUnit returns a TypeMatcher that will match only
-// a Duration datatype with the specified TimeUnit.
-func DurationTypeUnit(unit arrow.TimeUnit) TypeMatcher {
-	return &timeUnitMatcher{arrow.DURATION, unit}
-}
-
-type integerMatcher struct{}
-
-func (integerMatcher) String() string                  { return "integer" }
-func (integerMatcher) Matches(typ arrow.DataType) bool { return arrow.IsInteger(typ.ID()) }
-func (integerMatcher) Equals(other TypeMatcher) bool {
-	_, ok := other.(integerMatcher)
-	return ok
-}
-
-type binaryLikeMatcher struct{}
-
-func (binaryLikeMatcher) String() string                  { return "binary-like" }
-func (binaryLikeMatcher) Matches(typ arrow.DataType) bool { return arrow.IsBinaryLike(typ.ID()) }
-func (binaryLikeMatcher) Equals(other TypeMatcher) bool {
-	_, ok := other.(binaryLikeMatcher)
-	return ok
-}
-
-type largeBinaryLikeMatcher struct{}
-
-func (largeBinaryLikeMatcher) String() string { return "large-binary-like" }
-func (largeBinaryLikeMatcher) Matches(typ arrow.DataType) bool {
-	return arrow.IsLargeBinaryLike(typ.ID())
-}
-func (largeBinaryLikeMatcher) Equals(other TypeMatcher) bool {
-	_, ok := other.(largeBinaryLikeMatcher)
-	return ok
-}
-
-type fsbLikeMatcher struct{}
-
-func (fsbLikeMatcher) String() string                  { return "fixed-size-binary-like" }
-func (fsbLikeMatcher) Matches(typ arrow.DataType) bool { return arrow.IsFixedSizeBinary(typ.ID()) }
-func (fsbLikeMatcher) Equals(other TypeMatcher) bool {
-	_, ok := other.(fsbLikeMatcher)
-	return ok
-}
-
-// Integer returns a TypeMatcher which will match any integral type like int8 or uint16
-func Integer() TypeMatcher { return integerMatcher{} }
-
-// BinaryLike returns a TypeMatcher that will match Binary or String
-func BinaryLike() TypeMatcher { return binaryLikeMatcher{} }
-
-// LargeBinaryLike returns a TypeMatcher which will match LargeBinary or LargeString
-func LargeBinaryLike() TypeMatcher { return largeBinaryLikeMatcher{} }
-
-// FixedSizeBinaryLike returns a TypeMatcher that will match FixedSizeBinary
-// or Decimal128/256
-func FixedSizeBinaryLike() TypeMatcher { return fsbLikeMatcher{} }
-
-type primitiveMatcher struct{}
-
-func (primitiveMatcher) String() string                  { return "primitive" }
-func (primitiveMatcher) Matches(typ arrow.DataType) bool { return arrow.IsPrimitive(typ.ID()) }
-func (primitiveMatcher) Equals(other TypeMatcher) bool {
-	_, ok := other.(primitiveMatcher)
-	return ok
-}
-
-// Primitive returns a TypeMatcher that will match any type that arrow.IsPrimitive
-// returns true for.
-func Primitive() TypeMatcher { return primitiveMatcher{} }
-
-type reeMatcher struct {
-	runEndsMatcher TypeMatcher
-	encodedMatcher TypeMatcher
-}
-
-func (r reeMatcher) Matches(typ arrow.DataType) bool {
-	if typ.ID() != arrow.RUN_END_ENCODED {
-		return false
-	}
-
-	dt := typ.(*arrow.RunEndEncodedType)
-	return r.runEndsMatcher.Matches(dt.RunEnds()) && r.encodedMatcher.Matches(dt.Encoded())
-}
-
-func (r reeMatcher) Equals(other TypeMatcher) bool {
-	o, ok := other.(reeMatcher)
-	if !ok {
-		return false
-	}
-	return r.runEndsMatcher.Equals(o.runEndsMatcher) && r.encodedMatcher.Equals(o.encodedMatcher)
-}
-
-func (r reeMatcher) String() string {
-	return "run_end_encoded(run_ends=" + r.runEndsMatcher.String() + ", values=" + r.encodedMatcher.String() + ")"
-}
-
-// RunEndEncoded returns a matcher which matches a RunEndEncoded
-// type whose encoded type is matched by the passed in matcher.
-func RunEndEncoded(runEndsMatcher, encodedMatcher TypeMatcher) TypeMatcher {
-	return reeMatcher{
-		runEndsMatcher: runEndsMatcher,
-		encodedMatcher: encodedMatcher}
-}
-
-// InputKind is an enum representing the type of Input matching
-// that will be done. Either accepting any type, an exact specific type
-// or using a TypeMatcher.
-type InputKind int8
-
-const (
-	InputAny InputKind = iota
-	InputExact
-	InputUseMatcher
-)
-
-// InputType is used for type checking arguments passed to a kernel
-// and stored within a KernelSignature. The type-checking rule can
-// be supplied either with an exact DataType instance or a custom
-// TypeMatcher.
-type InputType struct {
-	Kind    InputKind
-	Type    arrow.DataType
-	Matcher TypeMatcher
-}
-
-func NewExactInput(dt arrow.DataType) InputType { return InputType{Kind: InputExact, Type: dt} }
-func NewMatchedInput(match TypeMatcher) InputType {
-	return InputType{Kind: InputUseMatcher, Matcher: match}
-}
-func NewIDInput(id arrow.Type) InputType { return NewMatchedInput(SameTypeID(id)) }
-
-func (it InputType) MatchID() arrow.Type {
-	switch it.Kind {
-	case InputExact:
-		return it.Type.ID()
-	case InputUseMatcher:
-		if idMatch, ok := it.Matcher.(*sameTypeIDMatcher); ok {
-			return idMatch.accepted
-		}
-	}
-	debug.Assert(false, "MatchID called on non-id matching InputType")
-	return -1
-}
-
-func (it InputType) String() string {
-	switch it.Kind {
-	case InputAny:
-		return "any"
-	case InputUseMatcher:
-		return it.Matcher.String()
-	case InputExact:
-		return it.Type.String()
-	}
-	return ""
-}
-
-func (it *InputType) Equals(other *InputType) bool {
-	if it == other {
-		return true
-	}
-
-	if it.Kind != other.Kind {
-		return false
-	}
-
-	switch it.Kind {
-	case InputAny:
-		return true
-	case InputExact:
-		return arrow.TypeEqual(it.Type, other.Type)
-	case InputUseMatcher:
-		return it.Matcher.Equals(other.Matcher)
-	default:
-		return false
-	}
-}
-
-func (it InputType) Hash() uint64 {
-	var h maphash.Hash
-
-	h.SetSeed(hashSeed)
-	result := HashCombine(h.Sum64(), uint64(it.Kind))
-	switch it.Kind {
-	case InputExact:
-		result = HashCombine(result, arrow.HashType(hashSeed, it.Type))
-	}
-	return result
-}
-
-func (it InputType) Matches(dt arrow.DataType) bool {
-	switch it.Kind {
-	case InputExact:
-		return arrow.TypeEqual(it.Type, dt)
-	case InputUseMatcher:
-		return it.Matcher.Matches(dt)
-	case InputAny:
-		return true
-	default:
-		debug.Assert(false, "invalid InputKind")
-		return true
-	}
-}
-
-// ResolveKind defines the way that a particular OutputType resolves
-// its type. Either it has a fixed type to resolve to or it contains
-// a Resolver which will compute the resolved type based on
-// the input types.
-type ResolveKind int8
-
-const (
-	ResolveFixed ResolveKind = iota
-	ResolveComputed
-)
-
-// TypeResolver is simply a function that takes a KernelCtx and a list of input types
-// and returns the resolved type or an error.
-type TypeResolver = func(*KernelCtx, []arrow.DataType) (arrow.DataType, error)
-
-type OutputType struct {
-	Kind     ResolveKind
-	Type     arrow.DataType
-	Resolver TypeResolver
-}
-
-func NewOutputType(dt arrow.DataType) OutputType {
-	return OutputType{Kind: ResolveFixed, Type: dt}
-}
-
-func NewComputedOutputType(resolver TypeResolver) OutputType {
-	return OutputType{Kind: ResolveComputed, Resolver: resolver}
-}
-
-func (o OutputType) String() string {
-	if o.Kind == ResolveFixed {
-		return o.Type.String()
-	}
-	return "computed"
-}
-
-func (o OutputType) Resolve(ctx *KernelCtx, types []arrow.DataType) (arrow.DataType, error) {
-	switch o.Kind {
-	case ResolveFixed:
-		return o.Type, nil
-	}
-
-	return o.Resolver(ctx, types)
-}
-
-// NullHandling is an enum representing how a particular Kernel
-// wants the executor to handle nulls.
-type NullHandling int8
-
-const (
-	// Compute the output validity bitmap by intersection the validity
-	// bitmaps of the arguments using bitwise-and operations. This means
-	// that values in the output are valid/non-null only if the corresponding
-	// values in all input arguments were valid/non-null. Kernels generally
-	// do not have to touch the bitmap afterwards, but a kernel's exec function
-	// is permitted to alter the bitmap after the null intersection is computed
-	// if necessary.
-	NullIntersection NullHandling = iota
-	// Kernel expects a pre-allocated buffer to write the result bitmap
-	// into.
-	NullComputedPrealloc
-	// Kernel will allocate and set the validity bitmap of the output
-	NullComputedNoPrealloc
-	// kernel output is never null and a validity bitmap doesn't need to
-	// be allocated
-	NullNoOutput
-)
-
-// MemAlloc is the preference for preallocating memory of fixed-width
-// type outputs during kernel execution.
-type MemAlloc int8
-
-const (
-	// For data types that support pre-allocation (fixed-width), the
-	// kernel expects to be provided a pre-allocated buffer to write into.
-	// Non-fixed-width types must always allocate their own buffers.
-	// The allocation is made for the same length as the execution batch,
-	// so vector kernels yielding differently sized outputs should not
-	// use this.
-	//
-	// It is valid for the data to not be preallocated but the validity
-	// bitmap is (or is computed using intersection).
-	//
-	// For variable-size output types like Binary or String, or for nested
-	// types, this option has no effect.
-	MemPrealloc MemAlloc = iota
-	// The kernel is responsible for allocating its own data buffer
-	// for fixed-width output types.
-	MemNoPrealloc
-)
-
-type KernelState any
-
-// KernelInitArgs are the arguments required to initialize an Kernel's
-// state using the input types and any options.
-type KernelInitArgs struct {
-	Kernel Kernel
-	Inputs []arrow.DataType
-	// Options are opaque and specific to the Kernel being initialized,
-	// may be nil if the kernel doesn't require options.
-	Options any
-}
-
-// KernelInitFn is any function that receives a KernelCtx and initialization
-// arguments and returns the initialized state or an error.
-type KernelInitFn = func(*KernelCtx, KernelInitArgs) (KernelState, error)
-
-// KernelSignature holds the input and output types for a kernel.
-//
-// Variable argument functions with a minimum of N arguments should pass
-// up to N input types to be used to validate for invocation. The first
-// N-1 types will be matched against the first N-1 arguments and the last
-// type will be matched against the remaining arguments.
-type KernelSignature struct {
-	InputTypes []InputType
-	OutType    OutputType
-	IsVarArgs  bool
-
-	// store the hashcode after it is computed so we don't
-	// need to recompute it
-	hashCode uint64
-}
-
-func (k KernelSignature) String() string {
-	var b strings.Builder
-	if k.IsVarArgs {
-		b.WriteString("varargs[")
-	} else {
-		b.WriteByte('(')
-	}
-
-	for i, t := range k.InputTypes {
-		if i != 0 {
-			b.WriteString(", ")
-		}
-		b.WriteString(t.String())
-	}
-	if k.IsVarArgs {
-		b.WriteString("*]")
-	} else {
-		b.WriteByte(')')
-	}
-
-	b.WriteString(" -> ")
-	b.WriteString(k.OutType.String())
-	return b.String()
-}
-
-func (k KernelSignature) Equals(other KernelSignature) bool {
-	if k.IsVarArgs != other.IsVarArgs {
-		return false
-	}
-
-	return slices.EqualFunc(k.InputTypes, other.InputTypes, func(e1, e2 InputType) bool {
-		return e1.Equals(&e2)
-	})
-}
-
-func (k *KernelSignature) Hash() uint64 {
-	if k.hashCode != 0 {
-		return k.hashCode
-	}
-
-	var h maphash.Hash
-	h.SetSeed(hashSeed)
-	result := h.Sum64()
-	for _, typ := range k.InputTypes {
-		result = HashCombine(result, typ.Hash())
-	}
-	k.hashCode = result
-	return result
-}
-
-func (k KernelSignature) MatchesInputs(types []arrow.DataType) bool {
-	switch k.IsVarArgs {
-	case true:
-		// check that it has enough to match at least the non-vararg types
-		if len(types) < (len(k.InputTypes) - 1) {
-			return false
-		}
-
-		for i, t := range types {
-			if !k.InputTypes[Min(i, len(k.InputTypes)-1)].Matches(t) {
-				return false
-			}
-		}
-	case false:
-		if len(types) != len(k.InputTypes) {
-			return false
-		}
-		for i, t := range types {
-			if !k.InputTypes[i].Matches(t) {
-				return false
-			}
-		}
-	}
-	return true
-}
-
-// ArrayKernelExec is an alias definition for a kernel's execution function.
-//
-// This is used for both stateless and stateful kernels. If a kernel
-// depends on some execution state, it can be accessed from the KernelCtx
-// object, which also contains the context.Context object which can be
-// used for shortcircuiting by checking context.Done / context.Err.
-// This allows kernels to control handling timeouts or cancellation of
-// computation.
-type ArrayKernelExec = func(*KernelCtx, *ExecSpan, *ExecResult) error
-
-type kernel struct {
-	Init           KernelInitFn
-	Signature      *KernelSignature
-	Data           KernelState
-	Parallelizable bool
-}
-
-func (k kernel) GetInitFn() KernelInitFn  { return k.Init }
-func (k kernel) GetSig() *KernelSignature { return k.Signature }
-
-// A ScalarKernel is the kernel implementation for a Scalar Function.
-// In addition to the members found in the base Kernel, it contains
-// the null handling and memory pre-allocation preferences.
-type ScalarKernel struct {
-	kernel
-
-	ExecFn             ArrayKernelExec
-	CanWriteIntoSlices bool
-	NullHandling       NullHandling
-	MemAlloc           MemAlloc
-}
-
-// NewScalarKernel constructs a new kernel for scalar execution, constructing
-// a KernelSignature with the provided input types and output type, and using
-// the passed in execution implementation and initialization function.
-func NewScalarKernel(in []InputType, out OutputType, exec ArrayKernelExec, init KernelInitFn) ScalarKernel {
-	return NewScalarKernelWithSig(&KernelSignature{
-		InputTypes: in,
-		OutType:    out,
-	}, exec, init)
-}
-
-// NewScalarKernelWithSig is a convenience when you already have a signature
-// to use for constructing a kernel. It's equivalent to passing the components
-// of the signature (input and output types) to NewScalarKernel.
-func NewScalarKernelWithSig(sig *KernelSignature, exec ArrayKernelExec, init KernelInitFn) ScalarKernel {
-	return ScalarKernel{
-		kernel:             kernel{Signature: sig, Init: init, Parallelizable: true},
-		ExecFn:             exec,
-		CanWriteIntoSlices: true,
-		NullHandling:       NullIntersection,
-		MemAlloc:           MemPrealloc,
-	}
-}
-
-func (s *ScalarKernel) Exec(ctx *KernelCtx, sp *ExecSpan, out *ExecResult) error {
-	return s.ExecFn(ctx, sp, out)
-}
-
-func (s ScalarKernel) GetNullHandling() NullHandling { return s.NullHandling }
-func (s ScalarKernel) GetMemAlloc() MemAlloc         { return s.MemAlloc }
-func (s ScalarKernel) CanFillSlices() bool           { return s.CanWriteIntoSlices }
-
-// ChunkedExec is the signature for executing a stateful vector kernel
-// against a ChunkedArray input. It is optional
-type ChunkedExec func(*KernelCtx, []*arrow.Chunked, *ExecResult) ([]*ExecResult, error)
-
-// FinalizeFunc is an optional finalizer function for any postprocessing
-// that may need to be done on data before returning it
-type FinalizeFunc func(*KernelCtx, []*ArraySpan) ([]*ArraySpan, error)
-
-// VectorKernel is a structure for implementations of vector functions.
-// It can optionally contain a finalizer function, the null handling
-// and memory pre-allocation preferences (different defaults from
-// scalar kernels when using NewVectorKernel), and other execution related
-// options.
-type VectorKernel struct {
-	kernel
-
-	ExecFn              ArrayKernelExec
-	ExecChunked         ChunkedExec
-	Finalize            FinalizeFunc
-	NullHandling        NullHandling
-	MemAlloc            MemAlloc
-	CanWriteIntoSlices  bool
-	CanExecuteChunkWise bool
-	OutputChunked       bool
-}
-
-// NewVectorKernel constructs a new kernel for execution of vector functions,
-// which take into account more than just the individual scalar values
-// of its input. Output of a vector kernel may be a different length
-// than its inputs.
-func NewVectorKernel(inTypes []InputType, outType OutputType, exec ArrayKernelExec, init KernelInitFn) VectorKernel {
-	return NewVectorKernelWithSig(&KernelSignature{
-		InputTypes: inTypes, OutType: outType}, exec, init)
-}
-
-// NewVectorKernelWithSig is a convenience function for creating a kernel
-// when you already have a signature constructed.
-func NewVectorKernelWithSig(sig *KernelSignature, exec ArrayKernelExec, init KernelInitFn) VectorKernel {
-	return VectorKernel{
-		kernel:              kernel{Signature: sig, Init: init, Parallelizable: true},
-		ExecFn:              exec,
-		CanWriteIntoSlices:  true,
-		CanExecuteChunkWise: true,
-		OutputChunked:       true,
-		NullHandling:        NullComputedNoPrealloc,
-		MemAlloc:            MemNoPrealloc,
-	}
-}
-
-func (s *VectorKernel) Exec(ctx *KernelCtx, sp *ExecSpan, out *ExecResult) error {
-	return s.ExecFn(ctx, sp, out)
-}
-
-func (s VectorKernel) GetNullHandling() NullHandling { return s.NullHandling }
-func (s VectorKernel) GetMemAlloc() MemAlloc         { return s.MemAlloc }
-func (s VectorKernel) CanFillSlices() bool           { return s.CanWriteIntoSlices }
diff --git a/go/arrow/compute/exec/kernel_test.go b/go/arrow/compute/exec/kernel_test.go
deleted file mode 100644
index 248bad323a307..0000000000000
--- a/go/arrow/compute/exec/kernel_test.go
+++ /dev/null
@@ -1,588 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exec_test
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestTypeMatcherSameTypeID(t *testing.T) {
-	matcher := exec.SameTypeID(arrow.DECIMAL128)
-	assert.True(t, matcher.Matches(&arrow.Decimal128Type{Precision: 12, Scale: 2}))
-	assert.False(t, matcher.Matches(arrow.PrimitiveTypes.Int8))
-
-	assert.Equal(t, "Type::DECIMAL128", matcher.String())
-
-	assert.True(t, matcher.Equals(matcher))
-	assert.True(t, matcher.Equals(exec.SameTypeID(arrow.DECIMAL)))
-	assert.False(t, matcher.Equals(exec.SameTypeID(arrow.TIMESTAMP)))
-	assert.False(t, matcher.Equals(exec.Time32TypeUnit(arrow.Microsecond)))
-}
-
-func TestTypeMatcherTimestampTypeUnit(t *testing.T) {
-	matcher := exec.TimestampTypeUnit(arrow.Millisecond)
-	matcher2 := exec.Time32TypeUnit(arrow.Millisecond)
-	matcher3 := exec.Time64TypeUnit(arrow.Microsecond)
-	matcher4 := exec.DurationTypeUnit(arrow.Microsecond)
-
-	assert.True(t, matcher.Matches(arrow.FixedWidthTypes.Timestamp_ms))
-	assert.True(t, matcher.Matches(&arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "utc"}))
-	assert.False(t, matcher.Matches(arrow.FixedWidthTypes.Timestamp_s))
-	assert.False(t, matcher.Matches(arrow.FixedWidthTypes.Time32ms))
-	assert.True(t, matcher2.Matches(arrow.FixedWidthTypes.Time32ms))
-
-	assert.True(t, matcher3.Matches(arrow.FixedWidthTypes.Time64us))
-	assert.False(t, matcher3.Matches(arrow.FixedWidthTypes.Time64ns))
-	assert.True(t, matcher4.Matches(arrow.FixedWidthTypes.Duration_us))
-	assert.False(t, matcher4.Matches(arrow.FixedWidthTypes.Duration_ms))
-
-	// check String() representation
-	assert.Equal(t, "timestamp(s)", exec.TimestampTypeUnit(arrow.Second).String())
-	assert.Equal(t, "timestamp(ms)", exec.TimestampTypeUnit(arrow.Millisecond).String())
-	assert.Equal(t, "timestamp(us)", exec.TimestampTypeUnit(arrow.Microsecond).String())
-	assert.Equal(t, "timestamp(ns)", exec.TimestampTypeUnit(arrow.Nanosecond).String())
-
-	// equals implementation
-	assert.True(t, matcher.Equals(matcher))
-	assert.True(t, matcher.Equals(exec.TimestampTypeUnit(arrow.Millisecond)))
-	assert.False(t, matcher.Equals(exec.TimestampTypeUnit(arrow.Microsecond)))
-	assert.False(t, matcher.Equals(exec.Time32TypeUnit(arrow.Millisecond)))
-	assert.False(t, matcher3.Equals(matcher2))
-	assert.False(t, matcher4.Equals(matcher3))
-	assert.True(t, matcher4.Equals(exec.DurationTypeUnit(arrow.Microsecond)))
-	assert.False(t, matcher.Equals(exec.SameTypeID(arrow.TIMESTAMP)))
-}
-
-func TestIntegerMatcher(t *testing.T) {
-	match := exec.Integer()
-
-	assert.Equal(t, "integer", match.String())
-	assert.True(t, match.Matches(arrow.PrimitiveTypes.Int8))
-	assert.True(t, match.Matches(arrow.PrimitiveTypes.Uint64))
-	assert.True(t, match.Equals(exec.Integer()))
-	assert.False(t, match.Equals(exec.BinaryLike()))
-}
-
-func TestBinaryLikeMatcher(t *testing.T) {
-	match := exec.BinaryLike()
-
-	assert.Equal(t, "binary-like", match.String())
-	assert.True(t, match.Matches(arrow.BinaryTypes.String))
-	assert.True(t, match.Matches(arrow.BinaryTypes.Binary))
-	assert.False(t, match.Matches(arrow.BinaryTypes.LargeString))
-	assert.False(t, match.Matches(arrow.BinaryTypes.LargeBinary))
-	assert.False(t, match.Equals(exec.LargeBinaryLike()))
-	assert.True(t, match.Equals(exec.BinaryLike()))
-}
-
-func TestLargeBinaryLikeMatcher(t *testing.T) {
-	match := exec.LargeBinaryLike()
-
-	assert.Equal(t, "large-binary-like", match.String())
-	assert.False(t, match.Matches(arrow.BinaryTypes.String))
-	assert.False(t, match.Matches(arrow.BinaryTypes.Binary))
-	assert.True(t, match.Matches(arrow.BinaryTypes.LargeString))
-	assert.True(t, match.Matches(arrow.BinaryTypes.LargeBinary))
-	assert.True(t, match.Equals(exec.LargeBinaryLike()))
-	assert.False(t, match.Equals(exec.BinaryLike()))
-}
-
-func TestFixedSizeBinaryMatcher(t *testing.T) {
-	match := exec.FixedSizeBinaryLike()
-
-	assert.Equal(t, "fixed-size-binary-like", match.String())
-	assert.False(t, match.Matches(arrow.BinaryTypes.String))
-	assert.True(t, match.Matches(&arrow.Decimal128Type{Precision: 12, Scale: 5}))
-	assert.True(t, match.Matches(&arrow.Decimal256Type{Precision: 12, Scale: 10}))
-	assert.True(t, match.Matches(&arrow.FixedSizeBinaryType{}))
-	assert.False(t, match.Equals(exec.LargeBinaryLike()))
-	assert.True(t, match.Equals(exec.FixedSizeBinaryLike()))
-}
-
-func TestPrimitiveMatcher(t *testing.T) {
-	match := exec.Primitive()
-
-	assert.Equal(t, "primitive", match.String())
-	assert.True(t, match.Equals(exec.Primitive()))
-
-	types := []arrow.DataType{
-		arrow.FixedWidthTypes.Boolean,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Uint64,
-		arrow.PrimitiveTypes.Int64,
-		arrow.FixedWidthTypes.Float16,
-		arrow.PrimitiveTypes.Float32,
-		arrow.PrimitiveTypes.Float64,
-		arrow.FixedWidthTypes.Date32,
-		arrow.FixedWidthTypes.Date64,
-		arrow.FixedWidthTypes.Time32ms,
-		arrow.FixedWidthTypes.Time64ns,
-		arrow.FixedWidthTypes.Timestamp_ms,
-		arrow.FixedWidthTypes.Duration_ms,
-		arrow.FixedWidthTypes.MonthInterval,
-		arrow.FixedWidthTypes.DayTimeInterval,
-		arrow.FixedWidthTypes.MonthDayNanoInterval,
-	}
-
-	for _, typ := range types {
-		assert.True(t, match.Matches(typ))
-	}
-
-	assert.False(t, match.Matches(arrow.Null))
-}
-
-func TestREEMatcher(t *testing.T) {
-	tests := []struct {
-		runEnds        exec.TypeMatcher
-		enc            exec.TypeMatcher
-		matchRunEnds   arrow.DataType
-		nomatchRunEnds arrow.DataType
-		matchEnc       arrow.DataType
-		nomatchEnc     arrow.DataType
-	}{
-		{exec.Integer(), exec.Integer(), arrow.PrimitiveTypes.Int16, arrow.FixedWidthTypes.Float16, arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String},
-		{exec.SameTypeID(arrow.INT32), exec.BinaryLike(), arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64, arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32},
-		{exec.SameTypeID(arrow.INT64), exec.SameTypeID(arrow.STRUCT), arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int32, arrow.StructOf(arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int16}), arrow.PrimitiveTypes.Int8},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.enc.String(), func(t *testing.T) {
-			matcher := exec.RunEndEncoded(tt.runEnds, tt.enc)
-			assert.False(t, matcher.Matches(tt.matchEnc))
-			assert.True(t, matcher.Matches(arrow.RunEndEncodedOf(tt.matchRunEnds, tt.matchEnc)))
-			assert.False(t, matcher.Matches(arrow.RunEndEncodedOf(tt.matchRunEnds, tt.nomatchEnc)))
-			assert.False(t, matcher.Matches(arrow.RunEndEncodedOf(tt.nomatchRunEnds, tt.matchEnc)))
-			assert.False(t, matcher.Matches(arrow.RunEndEncodedOf(tt.nomatchRunEnds, tt.nomatchEnc)))
-
-			assert.Equal(t, "run_end_encoded(run_ends="+tt.runEnds.String()+", values="+tt.enc.String()+")", matcher.String())
-
-			assert.True(t, matcher.Equals(exec.RunEndEncoded(tt.runEnds, tt.enc)))
-			assert.False(t, matcher.Equals(exec.Primitive()))
-			assert.False(t, matcher.Equals(exec.RunEndEncoded(exec.SameTypeID(tt.nomatchRunEnds.ID()), exec.SameTypeID(tt.nomatchEnc.ID()))))
-			assert.False(t, matcher.Equals(exec.RunEndEncoded(exec.SameTypeID(tt.matchRunEnds.ID()), exec.SameTypeID(tt.nomatchEnc.ID()))))
-			assert.False(t, matcher.Equals(exec.RunEndEncoded(exec.SameTypeID(tt.nomatchRunEnds.ID()), exec.SameTypeID(tt.matchEnc.ID()))))
-		})
-	}
-}
-
-func TestInputTypeAnyType(t *testing.T) {
-	var ty exec.InputType
-	assert.Equal(t, exec.InputAny, ty.Kind)
-}
-
-func TestInputType(t *testing.T) {
-	ty1 := exec.NewExactInput(arrow.PrimitiveTypes.Int8)
-	assert.Equal(t, exec.InputExact, ty1.Kind)
-	assert.True(t, arrow.TypeEqual(arrow.PrimitiveTypes.Int8, ty1.Type))
-	assert.Equal(t, "int8", ty1.String())
-
-	ty2 := exec.NewIDInput(arrow.DECIMAL)
-	assert.Equal(t, exec.InputUseMatcher, ty2.Kind)
-	assert.Equal(t, "Type::DECIMAL128", ty2.String())
-	assert.True(t, ty2.Matcher.Matches(&arrow.Decimal128Type{Precision: 12, Scale: 2}))
-	assert.False(t, ty2.Matcher.Matches(arrow.PrimitiveTypes.Int16))
-
-	ty3 := exec.NewMatchedInput(exec.TimestampTypeUnit(arrow.Microsecond))
-	assert.Equal(t, "timestamp(us)", ty3.String())
-
-	var ty4 exec.InputType
-	assert.Equal(t, "any", ty4.String())
-	// InputAny matches anything
-	assert.True(t, ty4.Matches((arrow.DataType)(nil)))
-}
-
-func TestInputTypeEquals(t *testing.T) {
-	t1 := exec.NewExactInput(arrow.PrimitiveTypes.Int8)
-	t2 := exec.NewExactInput(arrow.PrimitiveTypes.Int8)
-	t3 := exec.NewExactInput(arrow.PrimitiveTypes.Int32)
-
-	t5 := exec.NewIDInput(arrow.DECIMAL)
-	t6 := exec.NewIDInput(arrow.DECIMAL)
-
-	assert.True(t, t1.Equals(&t2))
-	assert.False(t, t1.Equals(&t3))
-	assert.False(t, t1.Equals(&t5))
-	assert.True(t, t5.Equals(&t5))
-	assert.True(t, t5.Equals(&t6))
-
-	var ty exec.InputType
-	assert.True(t, ty.Equals(&exec.InputType{Kind: exec.InputAny}))
-
-	// for now, an ID matcher for arrow.INT32 and a ExactInput for
-	// arrow.PrimitiveTypes.Int32 are treated as being different.
-	// this could be made equivalent later if desireable
-
-	// check that field metadata is excluded from equality checks
-	t7 := exec.NewExactInput(arrow.ListOfField(
-		arrow.Field{Name: "item", Type: arrow.BinaryTypes.String,
-			Nullable: true, Metadata: arrow.NewMetadata([]string{"foo"}, []string{"bar"})}))
-	t8 := exec.NewExactInput(arrow.ListOf(arrow.BinaryTypes.String))
-	assert.True(t, t7.Equals(&t8))
-}
-
-func TestInputTypeHash(t *testing.T) {
-	var (
-		t0 exec.InputType
-		t1 = exec.NewExactInput(arrow.PrimitiveTypes.Int8)
-		t2 = exec.NewIDInput(arrow.DECIMAL)
-	)
-
-	// these checks try to determine first of all whether hash
-	// always returns the same value, and whether the elements
-	// of the type are all incorporated into the hash
-	assert.Equal(t, t0.Hash(), t0.Hash())
-	assert.Equal(t, t1.Hash(), t1.Hash())
-	assert.Equal(t, t2.Hash(), t2.Hash())
-	assert.NotEqual(t, t0.Hash(), t1.Hash())
-	assert.NotEqual(t, t0.Hash(), t2.Hash())
-	assert.NotEqual(t, t1.Hash(), t2.Hash())
-}
-
-func TestInputTypeMatches(t *testing.T) {
-	in1 := exec.NewExactInput(arrow.PrimitiveTypes.Int8)
-
-	assert.True(t, in1.Matches(arrow.PrimitiveTypes.Int8))
-	assert.False(t, in1.Matches(arrow.PrimitiveTypes.Int16))
-
-	in2 := exec.NewIDInput(arrow.DECIMAL)
-	assert.True(t, in2.Matches(&arrow.Decimal128Type{Precision: 12, Scale: 2}))
-
-	ty2 := &arrow.Decimal128Type{Precision: 12, Scale: 2}
-	ty3 := arrow.PrimitiveTypes.Float64
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	arr2 := array.MakeArrayOfNull(mem, ty2, 1)
-	arr3 := array.MakeArrayOfNull(mem, ty3, 1)
-	defer arr2.Release()
-	defer arr3.Release()
-
-	scalar2, err := scalar.GetScalar(arr2, 0)
-	assert.NoError(t, err)
-
-	datumArr := compute.NewDatum(arr2)
-	defer datumArr.Release()
-	datumScalar := compute.NewDatum(scalar2)
-	defer datumScalar.Release()
-
-	assert.False(t, in2.Matches(ty3))
-	assert.False(t, in2.Matches(arr3.DataType()))
-}
-
-func TestOutputType(t *testing.T) {
-	ty1 := exec.NewOutputType(arrow.PrimitiveTypes.Int8)
-	assert.Equal(t, exec.ResolveFixed, ty1.Kind)
-	assert.True(t, arrow.TypeEqual(arrow.PrimitiveTypes.Int8, ty1.Type))
-
-	dummyResolver := func(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-		return arrow.PrimitiveTypes.Int32, nil
-	}
-
-	ty2 := exec.NewComputedOutputType(dummyResolver)
-	assert.Equal(t, exec.ResolveComputed, ty2.Kind)
-
-	outType2, err := ty2.Resolve(nil, nil)
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, outType2)
-
-	ty3 := ty1
-	assert.Equal(t, exec.ResolveFixed, ty3.Kind)
-	assert.True(t, arrow.TypeEqual(ty1.Type, ty3.Type))
-
-	ty4 := ty2
-	assert.Equal(t, exec.ResolveComputed, ty4.Kind)
-	outType4, err := ty4.Resolve(nil, nil)
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, outType4)
-
-	assert.Equal(t, "int8", ty3.String())
-	assert.Equal(t, "computed", ty4.String())
-}
-
-func TestOutputTypeResolve(t *testing.T) {
-	ty1 := exec.NewOutputType(arrow.PrimitiveTypes.Int32)
-
-	result, err := ty1.Resolve(nil, nil)
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
-
-	result, err = ty1.Resolve(nil, []arrow.DataType{arrow.PrimitiveTypes.Int8})
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
-
-	result, err = ty1.Resolve(nil, []arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int8})
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
-
-	resolver := func(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-		return args[0], nil
-	}
-	ty2 := exec.NewComputedOutputType(resolver)
-
-	result, err = ty2.Resolve(nil, []arrow.DataType{arrow.BinaryTypes.String})
-	assert.NoError(t, err)
-	assert.Same(t, arrow.BinaryTypes.String, result)
-
-	// type resolver that returns an error
-	ty3 := exec.NewComputedOutputType(func(_ *exec.KernelCtx, dt []arrow.DataType) (arrow.DataType, error) {
-		// checking the value types versus the function arity should be validated
-		// elsewhere. this is just for illustration purposes
-		if len(dt) == 0 {
-			return nil, fmt.Errorf("%w: need at least one argument", arrow.ErrInvalid)
-		}
-		return dt[0], nil
-	})
-
-	_, err = ty3.Resolve(nil, []arrow.DataType{})
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-
-	// resolver returns a fixed value
-	ty4 := exec.NewComputedOutputType(func(*exec.KernelCtx, []arrow.DataType) (arrow.DataType, error) {
-		return arrow.PrimitiveTypes.Int32, nil
-	})
-	result, err = ty4.Resolve(nil, []arrow.DataType{arrow.PrimitiveTypes.Int8})
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
-	result, err = ty4.Resolve(nil, []arrow.DataType{})
-	assert.NoError(t, err)
-	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
-}
-
-func TestKernelSignatureEquals(t *testing.T) {
-	sig1 := exec.KernelSignature{
-		InputTypes: []exec.InputType{},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String)}
-	sig1Copy := exec.KernelSignature{
-		InputTypes: []exec.InputType{},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String)}
-	sig2 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-
-	// output type doesn't matter (for now)
-	sig3 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType: exec.NewOutputType(arrow.PrimitiveTypes.Int32),
-	}
-
-	sig4 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int16),
-		},
-		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-	sig4Copy := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int16),
-		},
-		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-	sig5 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int16),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int32),
-		},
-		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-
-	assert.True(t, sig1.Equals(sig1))
-	assert.True(t, sig2.Equals(sig3))
-	assert.False(t, sig3.Equals(sig4))
-
-	// different sig objects but same sig
-	assert.True(t, sig1.Equals(sig1Copy))
-	assert.True(t, sig4.Equals(sig4Copy))
-
-	// match first 2 args, but not third
-	assert.False(t, sig4.Equals(sig5))
-}
-
-func TestKernelSignatureVarArgsEqual(t *testing.T) {
-	sig1 := exec.KernelSignature{
-		InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
-		IsVarArgs:  true,
-	}
-	sig2 := exec.KernelSignature{
-		InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
-		IsVarArgs:  true,
-	}
-	sig3 := exec.KernelSignature{
-		InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-
-	assert.True(t, sig1.Equals(sig2))
-	assert.False(t, sig2.Equals(sig3))
-}
-
-func TestKernelSignatureHash(t *testing.T) {
-	sig1 := exec.KernelSignature{
-		InputTypes: []exec.InputType{},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-	sig2 := exec.KernelSignature{
-		InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-	sig3 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int32)},
-		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-
-	assert.Equal(t, sig1.Hash(), sig1.Hash())
-	assert.Equal(t, sig2.Hash(), sig2.Hash())
-	assert.NotEqual(t, sig1.Hash(), sig2.Hash())
-	assert.NotEqual(t, sig2.Hash(), sig3.Hash())
-}
-
-func TestKernelSignatureMatchesInputs(t *testing.T) {
-	// () -> boolean
-	sig1 := exec.KernelSignature{
-		OutType: exec.NewOutputType(arrow.FixedWidthTypes.Boolean)}
-
-	assert.True(t, sig1.MatchesInputs([]arrow.DataType{}))
-	assert.False(t, sig1.MatchesInputs([]arrow.DataType{arrow.PrimitiveTypes.Int8}))
-
-	// (int8, decimal) -> boolean
-	sig2 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewIDInput(arrow.DECIMAL)},
-		OutType: exec.NewOutputType(arrow.FixedWidthTypes.Boolean),
-	}
-	assert.False(t, sig2.MatchesInputs([]arrow.DataType{}))
-	assert.False(t, sig2.MatchesInputs([]arrow.DataType{arrow.PrimitiveTypes.Int8}))
-	assert.True(t, sig2.MatchesInputs([]arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		&arrow.Decimal128Type{Precision: 12, Scale: 2}}))
-
-	// (int8, int32) -> boolean
-	sig3 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int32),
-		},
-		OutType: exec.NewOutputType(arrow.FixedWidthTypes.Boolean),
-	}
-	assert.False(t, sig3.MatchesInputs(nil))
-	assert.True(t, sig3.MatchesInputs([]arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32}))
-	assert.False(t, sig3.MatchesInputs([]arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int16}))
-}
-
-func TestKernelSignatureVarArgsMatchesInputs(t *testing.T) {
-	{
-		sig := exec.KernelSignature{
-			InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-			OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
-			IsVarArgs:  true,
-		}
-
-		args := []arrow.DataType{arrow.PrimitiveTypes.Int8}
-		assert.True(t, sig.MatchesInputs(args))
-		args = append(args, arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int8)
-		assert.True(t, sig.MatchesInputs(args))
-		args = append(args, arrow.PrimitiveTypes.Int32)
-		assert.False(t, sig.MatchesInputs(args))
-	}
-	{
-		sig := exec.KernelSignature{
-			InputTypes: []exec.InputType{
-				exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-				exec.NewExactInput(arrow.BinaryTypes.String),
-			},
-			OutType:   exec.NewOutputType(arrow.BinaryTypes.String),
-			IsVarArgs: true,
-		}
-
-		args := []arrow.DataType{arrow.PrimitiveTypes.Int8}
-		assert.True(t, sig.MatchesInputs(args))
-		args = append(args, arrow.BinaryTypes.String, arrow.BinaryTypes.String)
-		assert.True(t, sig.MatchesInputs(args))
-		args = append(args, arrow.PrimitiveTypes.Int32)
-		assert.False(t, sig.MatchesInputs(args))
-	}
-}
-
-func TestKernelSignatureToString(t *testing.T) {
-	inTypes := []exec.InputType{
-		exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-		exec.NewIDInput(arrow.DECIMAL),
-		exec.NewExactInput(arrow.BinaryTypes.String),
-	}
-
-	sig := exec.KernelSignature{
-		InputTypes: inTypes, OutType: exec.NewOutputType(arrow.BinaryTypes.String),
-	}
-	assert.Equal(t, "(int8, Type::DECIMAL128, utf8) -> utf8", sig.String())
-
-	outType := exec.NewComputedOutputType(func(*exec.KernelCtx, []arrow.DataType) (arrow.DataType, error) {
-		return nil, arrow.ErrInvalid
-	})
-	sig2 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
-			exec.NewIDInput(arrow.DECIMAL)},
-		OutType: outType,
-	}
-	assert.Equal(t, "(int8, Type::DECIMAL128) -> computed", sig2.String())
-}
-
-func TestKernelSignatureVarArgsToString(t *testing.T) {
-	sig1 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType:   exec.NewOutputType(arrow.BinaryTypes.String),
-		IsVarArgs: true,
-	}
-	assert.Equal(t, "varargs[int8*] -> utf8", sig1.String())
-
-	sig2 := exec.KernelSignature{
-		InputTypes: []exec.InputType{
-			exec.NewExactInput(arrow.BinaryTypes.String),
-			exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
-		OutType:   exec.NewOutputType(arrow.BinaryTypes.String),
-		IsVarArgs: true,
-	}
-	assert.Equal(t, "varargs[utf8, int8*] -> utf8", sig2.String())
-}
diff --git a/go/arrow/compute/exec/span.go b/go/arrow/compute/exec/span.go
deleted file mode 100644
index 6156acfd008aa..0000000000000
--- a/go/arrow/compute/exec/span.go
+++ /dev/null
@@ -1,634 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exec
-
-import (
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-// BufferSpan is a lightweight Buffer holder for ArraySpans that does not
-// take ownership of the underlying memory.Buffer at all or could be
-// used to reference raw byte slices instead.
-type BufferSpan struct {
-	// Buf should be the byte slice representing this buffer, if this is
-	// nil then this bufferspan should be considered empty.
-	Buf []byte
-	// Owner should point to an underlying parent memory.Buffer if this
-	// memory is owned by a different, existing, buffer. Retain is not
-	// called on this buffer, so it must not be released as long as
-	// this BufferSpan refers to it.
-	Owner *memory.Buffer
-	// SelfAlloc tracks whether or not this bufferspan is the only owner
-	// of the Owning memory.Buffer. This happens when preallocating
-	// memory or if a kernel allocates it's own buffer for a result.
-	// In these cases, we have to know so we can properly maintain the
-	// refcount if this is later turned into an ArrayData object.
-	SelfAlloc bool
-}
-
-// SetBuffer sets the given buffer into this BufferSpan and marks
-// SelfAlloc as false. This should be called when setting a buffer
-// that is externally owned/created.
-func (b *BufferSpan) SetBuffer(buf *memory.Buffer) {
-	b.Buf = buf.Bytes()
-	b.Owner = buf
-	b.SelfAlloc = false
-}
-
-// WrapBuffer wraps this bufferspan around a buffer and marks
-// SelfAlloc as true. This should be called when setting a buffer
-// that was allocated as part of an execution rather than just
-// re-using an existing buffer from an input array.
-func (b *BufferSpan) WrapBuffer(buf *memory.Buffer) {
-	b.Buf = buf.Bytes()
-	b.Owner = buf
-	b.SelfAlloc = true
-}
-
-// ArraySpan is a light-weight, non-owning version of arrow.ArrayData
-// for more efficient handling with computation and engines. We use
-// explicit go Arrays to define the buffers and some scratch space
-// for easily populating and shifting around pointers to memory without
-// having to worry about and deal with retain/release during calculations.
-type ArraySpan struct {
-	Type    arrow.DataType
-	Len     int64
-	Nulls   int64
-	Offset  int64
-	Buffers [3]BufferSpan
-
-	// Scratch is a holding spot for things such as
-	// offsets or union type codes when converting from scalars
-	Scratch [2]uint64
-
-	Children []ArraySpan
-}
-
-// if an error is encountered, call Release on a preallocated span
-// to ensure it releases any self-allocated buffers, it will
-// not call release on buffers it doesn't own (SelfAlloc != true)
-func (a *ArraySpan) Release() {
-	for _, c := range a.Children {
-		c.Release()
-	}
-
-	for _, b := range a.Buffers {
-		if b.SelfAlloc {
-			b.Owner.Release()
-		}
-	}
-}
-
-func (a *ArraySpan) MayHaveNulls() bool {
-	return atomic.LoadInt64(&a.Nulls) != 0 && a.Buffers[0].Buf != nil
-}
-
-// UpdateNullCount will count the bits in the null bitmap and update the
-// number of nulls if the current null count is unknown, otherwise it just
-// returns the value of a.Nulls
-func (a *ArraySpan) UpdateNullCount() int64 {
-	curNulls := atomic.LoadInt64(&a.Nulls)
-	if curNulls != array.UnknownNullCount {
-		return curNulls
-	}
-
-	newNulls := a.Len - int64(bitutil.CountSetBits(a.Buffers[0].Buf, int(a.Offset), int(a.Len)))
-	atomic.StoreInt64(&a.Nulls, newNulls)
-	return newNulls
-}
-
-// Dictionary returns a pointer to the array span for the dictionary which
-// we will always place as the first (and only) child if it exists.
-func (a *ArraySpan) Dictionary() *ArraySpan { return &a.Children[0] }
-
-// NumBuffers returns the number of expected buffers for this type
-func (a *ArraySpan) NumBuffers() int { return getNumBuffers(a.Type) }
-
-// MakeData generates an arrow.ArrayData object for this ArraySpan,
-// properly updating the buffer ref count if necessary.
-func (a *ArraySpan) MakeData() arrow.ArrayData {
-	var bufs [3]*memory.Buffer
-	for i := range bufs {
-		b := a.GetBuffer(i)
-		bufs[i] = b
-		if b != nil && a.Buffers[i].SelfAlloc {
-			// if this buffer is just a pointer to another existing buffer
-			// then we never bumped the refcount for that buffer.
-			// As a result, we won't call release here so that the call
-			// to array.NewData properly updates the ref counts of the buffers.
-			// If instead this buffer was allocated during calculation
-			// (such as during prealloc or by a kernel itself)
-			// then we need to release after we create the ArrayData so that it
-			// maintains the correct refcount of 1, giving the resulting
-			// ArrayData object ownership of this buffer.
-			defer b.Release()
-		}
-	}
-
-	var (
-		nulls    = int(atomic.LoadInt64(&a.Nulls))
-		length   = int(a.Len)
-		off      = int(a.Offset)
-		dt       = a.Type
-		children []arrow.ArrayData
-	)
-
-	if a.Type.ID() == arrow.NULL {
-		nulls = length
-	} else if len(a.Buffers[0].Buf) == 0 {
-		nulls = 0
-	}
-
-	// we use a.Type for the NewData call at the end, so we can
-	// handle extension types by using dt to point to the storage type
-	// and let the proper extension type get set into the ArrayData
-	// object we return.
-	if dt.ID() == arrow.EXTENSION {
-		dt = dt.(arrow.ExtensionType).StorageType()
-	}
-
-	if dt.ID() == arrow.DICTIONARY {
-		result := array.NewData(a.Type, length, bufs[:a.NumBuffers()], nil, nulls, off)
-		dict := a.Dictionary().MakeData()
-		defer dict.Release()
-		result.SetDictionary(dict)
-		return result
-	} else if dt.ID() == arrow.DENSE_UNION || dt.ID() == arrow.SPARSE_UNION {
-		bufs[0] = nil
-		nulls = 0
-	}
-
-	if len(a.Children) > 0 {
-		children = make([]arrow.ArrayData, len(a.Children))
-		for i, c := range a.Children {
-			d := c.MakeData()
-			defer d.Release()
-			children[i] = d
-		}
-	}
-	return array.NewData(a.Type, length, bufs[:a.NumBuffers()], children, nulls, off)
-}
-
-// MakeArray is a convenience function for calling array.MakeFromData(a.MakeData())
-func (a *ArraySpan) MakeArray() arrow.Array {
-	d := a.MakeData()
-	defer d.Release()
-	return array.MakeFromData(d)
-}
-
-// SetSlice updates the offset and length of this ArraySpan to refer to
-// a specific slice of the underlying buffers.
-func (a *ArraySpan) SetSlice(off, length int64) {
-	if off == a.Offset && length == a.Len {
-		// don't modify the nulls if the slice is the entire span
-		return
-	}
-
-	if a.Type.ID() != arrow.NULL {
-		if a.Nulls != 0 {
-			if a.Nulls == a.Len {
-				a.Nulls = length
-			} else {
-				a.Nulls = array.UnknownNullCount
-			}
-		}
-	} else {
-		a.Nulls = length
-	}
-
-	a.Offset, a.Len = off, length
-}
-
-// GetBuffer returns the buffer for the requested index. If this buffer
-// is owned by another array/arrayspan the Owning buffer is returned,
-// otherwise if this slice has no owning buffer, we call NewBufferBytes
-// to wrap it as a memory.Buffer. Can also return nil if there is no
-// buffer in this index.
-func (a *ArraySpan) GetBuffer(idx int) *memory.Buffer {
-	buf := a.Buffers[idx]
-	switch {
-	case buf.Owner != nil:
-		return buf.Owner
-	case buf.Buf != nil:
-		return memory.NewBufferBytes(buf.Buf)
-	}
-	return nil
-}
-
-// convenience function to resize the children slice if necessary,
-// or just shrink the slice without re-allocating if there's enough
-// capacity already.
-func (a *ArraySpan) resizeChildren(i int) {
-	if cap(a.Children) >= i {
-		a.Children = a.Children[:i]
-	} else {
-		a.Children = make([]ArraySpan, i)
-	}
-}
-
-// FillFromScalar populates this ArraySpan as if it were a 1 length array
-// with the single value equal to the passed in Scalar.
-func (a *ArraySpan) FillFromScalar(val scalar.Scalar) {
-	var (
-		trueBit  byte = 0x01
-		falseBit byte = 0x00
-	)
-
-	a.Type = val.DataType()
-	a.Len = 1
-	typeID := a.Type.ID()
-	if val.IsValid() {
-		a.Nulls = 0
-	} else {
-		a.Nulls = 1
-	}
-
-	if !arrow.IsUnion(typeID) && typeID != arrow.NULL {
-		if val.IsValid() {
-			a.Buffers[0].Buf = []byte{trueBit}
-		} else {
-			a.Buffers[0].Buf = []byte{falseBit}
-		}
-		a.Buffers[0].Owner = nil
-		a.Buffers[0].SelfAlloc = false
-	}
-
-	switch {
-	case typeID == arrow.BOOL:
-		if val.(*scalar.Boolean).Value {
-			a.Buffers[1].Buf = []byte{trueBit}
-		} else {
-			a.Buffers[1].Buf = []byte{falseBit}
-		}
-		a.Buffers[1].Owner = nil
-		a.Buffers[1].SelfAlloc = false
-	case arrow.IsPrimitive(typeID) || arrow.IsDecimal(typeID):
-		sc := val.(scalar.PrimitiveScalar)
-		a.Buffers[1].Buf = sc.Data()
-		a.Buffers[1].Owner = nil
-		a.Buffers[1].SelfAlloc = false
-	case typeID == arrow.DICTIONARY:
-		sc := val.(scalar.PrimitiveScalar)
-		a.Buffers[1].Buf = sc.Data()
-		a.Buffers[1].Owner = nil
-		a.Buffers[1].SelfAlloc = false
-		a.resizeChildren(1)
-		a.Children[0].SetMembers(val.(*scalar.Dictionary).Value.Dict.Data())
-	case arrow.IsBaseBinary(typeID):
-		sc := val.(scalar.BinaryScalar)
-		a.Buffers[1].Buf = arrow.Uint64Traits.CastToBytes(a.Scratch[:])
-		a.Buffers[1].Owner = nil
-		a.Buffers[1].SelfAlloc = false
-
-		var dataBuffer []byte
-		if sc.IsValid() {
-			dataBuffer = sc.Data()
-			a.Buffers[2].Owner = sc.Buffer()
-			a.Buffers[2].SelfAlloc = false
-		}
-		if arrow.IsBinaryLike(typeID) {
-			setOffsetsForScalar(a,
-				unsafe.Slice((*int32)(unsafe.Pointer(&a.Scratch[0])), 2),
-				int64(len(dataBuffer)), 1)
-		} else {
-			// large_binary_like
-			setOffsetsForScalar(a,
-				unsafe.Slice((*int64)(unsafe.Pointer(&a.Scratch[0])), 2),
-				int64(len(dataBuffer)), 1)
-		}
-		a.Buffers[2].Buf = dataBuffer
-	case typeID == arrow.FIXED_SIZE_BINARY:
-		sc := val.(scalar.BinaryScalar)
-		if !sc.IsValid() {
-			a.Buffers[1].Buf = make([]byte, sc.DataType().(*arrow.FixedSizeBinaryType).ByteWidth)
-			a.Buffers[1].Owner = nil
-			a.Buffers[1].SelfAlloc = false
-			break
-		}
-		a.Buffers[1].Buf = sc.Data()
-		a.Buffers[1].Owner = sc.Buffer()
-		a.Buffers[1].SelfAlloc = false
-	case arrow.IsListLike(typeID):
-		sc := val.(scalar.ListScalar)
-		valueLen := 0
-		a.resizeChildren(1)
-
-		if sc.GetList() != nil {
-			a.Children[0].SetMembers(sc.GetList().Data())
-			valueLen = sc.GetList().Len()
-		} else {
-			// even when the value is null, we must populate
-			// child data to yield a valid array. ugh
-			FillZeroLength(sc.DataType().(arrow.NestedType).Fields()[0].Type, &a.Children[0])
-		}
-
-		switch typeID {
-		case arrow.LIST, arrow.MAP:
-			setOffsetsForScalar(a,
-				unsafe.Slice((*int32)(unsafe.Pointer(&a.Scratch[0])), 2),
-				int64(valueLen), 1)
-		case arrow.LARGE_LIST:
-			setOffsetsForScalar(a,
-				unsafe.Slice((*int64)(unsafe.Pointer(&a.Scratch[0])), 2),
-				int64(valueLen), 1)
-		default:
-			// fixed size list has no second buffer
-			a.Buffers[1].Buf, a.Buffers[1].Owner = nil, nil
-			a.Buffers[1].SelfAlloc = false
-		}
-	case typeID == arrow.STRUCT:
-		sc := val.(*scalar.Struct)
-		a.Buffers[1].Buf = nil
-		a.Buffers[1].Owner = nil
-		a.Buffers[1].SelfAlloc = false
-		a.resizeChildren(len(sc.Value))
-		for i, v := range sc.Value {
-			a.Children[i].FillFromScalar(v)
-		}
-	case arrow.IsUnion(typeID):
-		// first buffer is kept null since unions have no validity vector
-		a.Buffers[0].Buf, a.Buffers[0].Owner = nil, nil
-		a.Buffers[0].SelfAlloc = false
-
-		a.Buffers[1].Buf = arrow.Uint64Traits.CastToBytes(a.Scratch[:])[:1]
-		a.Buffers[1].Owner = nil
-		a.Buffers[1].SelfAlloc = false
-		codes := unsafe.Slice((*arrow.UnionTypeCode)(unsafe.Pointer(&a.Buffers[1].Buf[0])), 1)
-
-		a.resizeChildren(len(a.Type.(arrow.UnionType).Fields()))
-		switch sc := val.(type) {
-		case *scalar.DenseUnion:
-			codes[0] = sc.TypeCode
-			// has offset, start 4 bytes in so it's aligned to the 32-bit boundaries
-			off := unsafe.Slice((*int32)(unsafe.Add(unsafe.Pointer(&a.Scratch[0]), arrow.Int32SizeBytes)), 2)
-			setOffsetsForScalar(a, off, 1, 2)
-			// we can't "see" the other arrays in the union, but we put the "active"
-			// union array in the right place and fill zero-length arrays for
-			// the others.
-			childIDS := a.Type.(arrow.UnionType).ChildIDs()
-			for i, f := range a.Type.(arrow.UnionType).Fields() {
-				if i == childIDS[sc.TypeCode] {
-					a.Children[i].FillFromScalar(sc.Value)
-				} else {
-					FillZeroLength(f.Type, &a.Children[i])
-				}
-			}
-		case *scalar.SparseUnion:
-			codes[0] = sc.TypeCode
-			// sparse union scalars have a full complement of child values
-			// even though only one of them is relevant, so we just fill them
-			// in here
-			for i, v := range sc.Value {
-				a.Children[i].FillFromScalar(v)
-			}
-		}
-	case typeID == arrow.EXTENSION:
-		// pass through storage
-		sc := val.(*scalar.Extension)
-		a.FillFromScalar(sc.Value)
-		// restore the extension type
-		a.Type = val.DataType()
-	case typeID == arrow.NULL:
-		for i := range a.Buffers {
-			a.Buffers[i].Buf = nil
-			a.Buffers[i].Owner = nil
-			a.Buffers[i].SelfAlloc = false
-		}
-	}
-}
-
-func (a *ArraySpan) SetDictionary(span *ArraySpan) {
-	a.resizeChildren(1)
-	a.Children[0].Release()
-	a.Children[0] = *span
-}
-
-// TakeOwnership is like SetMembers only this takes ownership of
-// the buffers by calling Retain on them so that the passed in
-// ArrayData can be released without negatively affecting this
-// ArraySpan
-func (a *ArraySpan) TakeOwnership(data arrow.ArrayData) {
-	a.Type = data.DataType()
-	a.Len = int64(data.Len())
-	if a.Type.ID() == arrow.NULL {
-		a.Nulls = a.Len
-	} else {
-		a.Nulls = int64(data.NullN())
-	}
-	a.Offset = int64(data.Offset())
-
-	for i, b := range data.Buffers() {
-		if b != nil {
-			a.Buffers[i].WrapBuffer(b)
-			b.Retain()
-		} else {
-			a.Buffers[i].Buf = nil
-			a.Buffers[i].Owner = nil
-			a.Buffers[i].SelfAlloc = false
-		}
-	}
-
-	typeID := a.Type.ID()
-	if a.Buffers[0].Buf == nil {
-		switch typeID {
-		case arrow.NULL, arrow.SPARSE_UNION, arrow.DENSE_UNION:
-		default:
-			// should already be zero, but we make sure
-			a.Nulls = 0
-		}
-	}
-
-	for i := len(data.Buffers()); i < 3; i++ {
-		a.Buffers[i].Buf = nil
-		a.Buffers[i].Owner = nil
-		a.Buffers[i].SelfAlloc = false
-	}
-
-	if typeID == arrow.DICTIONARY {
-		a.resizeChildren(1)
-		dict := data.Dictionary()
-		if dict != (*array.Data)(nil) {
-			a.Children[0].TakeOwnership(dict)
-		}
-	} else {
-		a.resizeChildren(len(data.Children()))
-		for i, c := range data.Children() {
-			a.Children[i].TakeOwnership(c)
-		}
-	}
-}
-
-// SetMembers populates this ArraySpan from the given ArrayData object.
-// As this is a non-owning reference, the ArrayData object must not
-// be fully released while this ArraySpan is in use, otherwise any buffers
-// referenced will be released too
-func (a *ArraySpan) SetMembers(data arrow.ArrayData) {
-	a.Type = data.DataType()
-	a.Len = int64(data.Len())
-	if a.Type.ID() == arrow.NULL {
-		a.Nulls = a.Len
-	} else {
-		a.Nulls = int64(data.NullN())
-	}
-	a.Offset = int64(data.Offset())
-
-	for i, b := range data.Buffers() {
-		if b != nil {
-			a.Buffers[i].SetBuffer(b)
-		} else {
-			a.Buffers[i].Buf = nil
-			a.Buffers[i].Owner = nil
-			a.Buffers[i].SelfAlloc = false
-		}
-	}
-
-	typeID := a.Type.ID()
-	if a.Buffers[0].Buf == nil {
-		switch typeID {
-		case arrow.NULL, arrow.SPARSE_UNION, arrow.DENSE_UNION:
-		default:
-			// should already be zero, but we make sure
-			a.Nulls = 0
-		}
-	}
-
-	for i := len(data.Buffers()); i < 3; i++ {
-		a.Buffers[i].Buf = nil
-		a.Buffers[i].Owner = nil
-		a.Buffers[i].SelfAlloc = false
-	}
-
-	if typeID == arrow.DICTIONARY {
-		a.resizeChildren(1)
-		dict := data.Dictionary()
-		if dict != (*array.Data)(nil) {
-			a.Children[0].SetMembers(dict)
-		}
-	} else {
-		if cap(a.Children) >= len(data.Children()) {
-			a.Children = a.Children[:len(data.Children())]
-		} else {
-			a.Children = make([]ArraySpan, len(data.Children()))
-		}
-		for i, c := range data.Children() {
-			a.Children[i].SetMembers(c)
-		}
-	}
-}
-
-// ExecValue represents a single input to an execution which could
-// be either an Array (ArraySpan) or a Scalar value
-type ExecValue struct {
-	Array  ArraySpan
-	Scalar scalar.Scalar
-}
-
-func (e *ExecValue) IsArray() bool  { return e.Scalar == nil }
-func (e *ExecValue) IsScalar() bool { return !e.IsArray() }
-
-func (e *ExecValue) Type() arrow.DataType {
-	if e.IsArray() {
-		return e.Array.Type
-	}
-	return e.Scalar.DataType()
-}
-
-// ExecResult is the result of a kernel execution and should be populated
-// by the execution functions and/or a kernel. For now we're just going to
-// alias an ArraySpan.
-type ExecResult = ArraySpan
-
-// ExecSpan represents a slice of inputs and is used to provide slices
-// of input values to iterate over.
-//
-// Len is the length of the span (all elements in Values should either
-// be scalar or an array with a length + offset of at least Len).
-type ExecSpan struct {
-	Len    int64
-	Values []ExecValue
-}
-
-func getNumBuffers(dt arrow.DataType) int {
-	switch dt.ID() {
-	case arrow.RUN_END_ENCODED:
-		return 0
-	case arrow.NULL, arrow.STRUCT, arrow.FIXED_SIZE_LIST:
-		return 1
-	case arrow.BINARY, arrow.LARGE_BINARY, arrow.STRING, arrow.LARGE_STRING, arrow.DENSE_UNION:
-		return 3
-	case arrow.EXTENSION:
-		return getNumBuffers(dt.(arrow.ExtensionType).StorageType())
-	default:
-		return 2
-	}
-}
-
-// FillZeroLength fills an ArraySpan with the appropriate information for
-// a Zero Length Array of the provided type.
-func FillZeroLength(dt arrow.DataType, span *ArraySpan) {
-	span.Scratch[0], span.Scratch[1] = 0, 0
-	span.Type = dt
-	span.Len = 0
-	numBufs := getNumBuffers(dt)
-	for i := 0; i < numBufs; i++ {
-		span.Buffers[i].Buf = arrow.Uint64Traits.CastToBytes(span.Scratch[:])[:0]
-		span.Buffers[i].Owner = nil
-	}
-
-	for i := numBufs; i < 3; i++ {
-		span.Buffers[i].Buf, span.Buffers[i].Owner = nil, nil
-	}
-
-	if dt.ID() == arrow.DICTIONARY {
-		span.resizeChildren(1)
-		FillZeroLength(dt.(*arrow.DictionaryType).ValueType, &span.Children[0])
-		return
-	}
-
-	nt, ok := dt.(arrow.NestedType)
-	if !ok {
-		if len(span.Children) > 0 {
-			span.Children = span.Children[:0]
-		}
-		return
-	}
-
-	span.resizeChildren(nt.NumFields())
-	for i, f := range nt.Fields() {
-		FillZeroLength(f.Type, &span.Children[i])
-	}
-}
-
-// PromoteExecSpanScalars promotes the values of the passed in ExecSpan
-// from scalars to Arrays of length 1 for each value.
-func PromoteExecSpanScalars(span ExecSpan) {
-	for i := range span.Values {
-		if span.Values[i].Scalar != nil {
-			span.Values[i].Array.FillFromScalar(span.Values[i].Scalar)
-			span.Values[i].Scalar = nil
-		}
-	}
-}
diff --git a/go/arrow/compute/exec/span_offsets.go b/go/arrow/compute/exec/span_offsets.go
deleted file mode 100644
index d2d0398884c9d..0000000000000
--- a/go/arrow/compute/exec/span_offsets.go
+++ /dev/null
@@ -1,36 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.20 || tinygo
-
-package exec
-
-import (
-	"unsafe"
-)
-
-// convenience function for populating the offsets buffer from a scalar
-// value's size.
-func setOffsetsForScalar[T int32 | int64](span *ArraySpan, buf []T, valueSize int64, bufidx int) {
-	buf[0] = 0
-	buf[1] = T(valueSize)
-
-	span.Buffers[bufidx].Buf = unsafe.Slice((*byte)(unsafe.Pointer(unsafe.SliceData(buf))),
-		2*int(unsafe.Sizeof(T(0))))
-
-	span.Buffers[bufidx].Owner = nil
-	span.Buffers[bufidx].SelfAlloc = false
-}
diff --git a/go/arrow/compute/exec/span_test.go b/go/arrow/compute/exec/span_test.go
deleted file mode 100644
index 018fbb7d623d9..0000000000000
--- a/go/arrow/compute/exec/span_test.go
+++ /dev/null
@@ -1,835 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exec_test
-
-import (
-	"reflect"
-	"strings"
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBufferSpan_SetBuffer(t *testing.T) {
-	type fields struct {
-		Buf       []byte
-		Owner     *memory.Buffer
-		SelfAlloc bool
-	}
-	type args struct {
-		buf *memory.Buffer
-	}
-	foo := []byte{0xde, 0xad, 0xbe, 0xef}
-	own := memory.NewBufferBytes(foo)
-	tests := []struct {
-		name   string
-		fields fields
-		args   args
-	}{
-		{"simple", fields{SelfAlloc: true}, args{own}},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			b := &exec.BufferSpan{
-				Buf:       tt.fields.Buf,
-				Owner:     tt.fields.Owner,
-				SelfAlloc: tt.fields.SelfAlloc,
-			}
-			b.SetBuffer(tt.args.buf)
-			assert.Same(t, &foo[0], &b.Buf[0])
-			assert.Same(t, own, b.Owner)
-			assert.False(t, b.SelfAlloc)
-		})
-	}
-}
-
-func TestBufferSpan_WrapBuffer(t *testing.T) {
-	type fields struct {
-		Buf       []byte
-		Owner     *memory.Buffer
-		SelfAlloc bool
-	}
-	type args struct {
-		buf *memory.Buffer
-	}
-	foo := []byte{0xde, 0xad, 0xbe, 0xef}
-	own := memory.NewBufferBytes(foo)
-	tests := []struct {
-		name   string
-		fields fields
-		args   args
-	}{
-		{"simple", fields{SelfAlloc: false}, args{own}},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			b := &exec.BufferSpan{
-				Buf:       tt.fields.Buf,
-				Owner:     tt.fields.Owner,
-				SelfAlloc: tt.fields.SelfAlloc,
-			}
-			b.WrapBuffer(tt.args.buf)
-			assert.Same(t, &foo[0], &b.Buf[0])
-			assert.Same(t, own, b.Owner)
-			assert.True(t, b.SelfAlloc)
-		})
-	}
-}
-
-func TestArraySpan_UpdateNullCount(t *testing.T) {
-	type fields struct {
-		Type     arrow.DataType
-		Len      int64
-		Nulls    int64
-		Offset   int64
-		Buffers  [3]exec.BufferSpan
-		Scratch  [2]uint64
-		Children []exec.ArraySpan
-	}
-	tests := []struct {
-		name   string
-		fields fields
-		want   int64
-	}{
-		{"known", fields{Nulls: 25}, 25},
-		{"unknown", fields{
-			Nulls:   array.UnknownNullCount,
-			Len:     8, // 0b01101101
-			Buffers: [3]exec.BufferSpan{{Buf: []byte{109}}, {}, {}}}, 3},
-		{"unknown with offset", fields{
-			Nulls:   array.UnknownNullCount,
-			Len:     4,
-			Offset:  2, // 0b01101101
-			Buffers: [3]exec.BufferSpan{{Buf: []byte{109}}, {}, {}}}, 1},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			a := &exec.ArraySpan{
-				Type:     tt.fields.Type,
-				Len:      tt.fields.Len,
-				Nulls:    tt.fields.Nulls,
-				Offset:   tt.fields.Offset,
-				Buffers:  tt.fields.Buffers,
-				Scratch:  tt.fields.Scratch,
-				Children: tt.fields.Children,
-			}
-			if got := a.UpdateNullCount(); got != tt.want {
-				t.Errorf("ArraySpan.UpdateNullCount() = %v, want %v", got, tt.want)
-			}
-		})
-	}
-}
-
-func TestArraySpan_Dictionary(t *testing.T) {
-	type fields struct {
-		Type     arrow.DataType
-		Len      int64
-		Nulls    int64
-		Offset   int64
-		Buffers  [3]exec.BufferSpan
-		Scratch  [2]uint64
-		Children []exec.ArraySpan
-	}
-	children := []exec.ArraySpan{{}}
-	tests := []struct {
-		name   string
-		fields fields
-		want   *exec.ArraySpan
-	}{
-		{"basic", fields{Children: children}, &children[0]},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			a := &exec.ArraySpan{
-				Type:     tt.fields.Type,
-				Len:      tt.fields.Len,
-				Nulls:    tt.fields.Nulls,
-				Offset:   tt.fields.Offset,
-				Buffers:  tt.fields.Buffers,
-				Scratch:  tt.fields.Scratch,
-				Children: tt.fields.Children,
-			}
-			if got := a.Dictionary(); !reflect.DeepEqual(got, tt.want) {
-				t.Errorf("ArraySpan.Dictionary() = %v, want %v", got, tt.want)
-			}
-		})
-	}
-}
-
-func TestArraySpan_NumBuffers(t *testing.T) {
-	type fields struct {
-		Type     arrow.DataType
-		Len      int64
-		Nulls    int64
-		Offset   int64
-		Buffers  [3]exec.BufferSpan
-		Scratch  [2]uint64
-		Children []exec.ArraySpan
-	}
-
-	tests := []struct {
-		name   string
-		fields fields
-		want   int
-	}{
-		{"null", fields{Type: arrow.Null}, 1},
-		{"struct", fields{Type: arrow.StructOf()}, 1},
-		{"fixed size list", fields{Type: arrow.FixedSizeListOf(4, arrow.PrimitiveTypes.Int32)}, 1},
-		{"binary", fields{Type: arrow.BinaryTypes.Binary}, 3},
-		{"large binary", fields{Type: arrow.BinaryTypes.LargeBinary}, 3},
-		{"string", fields{Type: arrow.BinaryTypes.String}, 3},
-		{"large string", fields{Type: arrow.BinaryTypes.LargeString}, 3},
-		{"extension", fields{Type: extensions.NewUUIDType()}, 2},
-		{"int32", fields{Type: arrow.PrimitiveTypes.Int32}, 2},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			a := &exec.ArraySpan{
-				Type:     tt.fields.Type,
-				Len:      tt.fields.Len,
-				Nulls:    tt.fields.Nulls,
-				Offset:   tt.fields.Offset,
-				Buffers:  tt.fields.Buffers,
-				Scratch:  tt.fields.Scratch,
-				Children: tt.fields.Children,
-			}
-			if got := a.NumBuffers(); got != tt.want {
-				t.Errorf("ArraySpan.NumBuffers() = %v, want %v", got, tt.want)
-			}
-		})
-	}
-}
-
-func TestArraySpan_MakeData(t *testing.T) {
-	type fields struct {
-		Type     arrow.DataType
-		Len      int64
-		Nulls    int64
-		Offset   int64
-		Buffers  [3]exec.BufferSpan
-		Scratch  [2]uint64
-		Children []exec.ArraySpan
-	}
-
-	var (
-		buf1 *memory.Buffer
-	)
-	arrow.RegisterExtensionType(types.NewDictExtensionType())
-	defer arrow.UnregisterExtensionType("dict-extension")
-
-	tests := []struct {
-		name   string
-		fields func(mem memory.Allocator) fields
-		want   func(mem memory.Allocator) arrow.ArrayData
-	}{
-		{"null type", func(mem memory.Allocator) fields {
-			return fields{
-				Type:  arrow.Null,
-				Len:   5,
-				Nulls: array.UnknownNullCount,
-			}
-		}, func(mem memory.Allocator) arrow.ArrayData {
-			return array.NewData(arrow.Null, 5, []*memory.Buffer{nil}, nil, 5, 0)
-		}},
-		{"zero len", func(mem memory.Allocator) fields {
-			return fields{Type: arrow.PrimitiveTypes.Int32}
-		}, func(mem memory.Allocator) arrow.ArrayData {
-			return array.NewData(arrow.PrimitiveTypes.Int32, 0, []*memory.Buffer{nil, nil}, nil, 0, 0)
-		}},
-		{"non-owning offset", func(mem memory.Allocator) fields {
-			ret := fields{
-				Type:   arrow.PrimitiveTypes.Int8,
-				Len:    4,
-				Nulls:  1,
-				Offset: 1,
-			}
-			buf1 = memory.NewResizableBuffer(mem)
-			buf1.Resize(1)
-			buf1.Bytes()[0] = 109
-			ret.Buffers[0].SetBuffer(buf1)
-			ret.Buffers[1].SetBuffer(memory.NewBufferBytes([]byte{5, 5, 5, 5, 5}))
-			return ret
-		}, func(mem memory.Allocator) arrow.ArrayData {
-			// created in the above func, we release after constructing
-			// the NewData so the refcount is as expected
-			defer buf1.Release()
-			return array.NewData(arrow.PrimitiveTypes.Int8, 4,
-				[]*memory.Buffer{buf1, memory.NewBufferBytes([]byte{5, 5, 5, 5, 5})}, nil, 1, 1)
-		}},
-		{"self-alloc", func(mem memory.Allocator) fields {
-			ret := fields{
-				Type: arrow.PrimitiveTypes.Int8,
-				Len:  4,
-			}
-			buf := memory.NewResizableBuffer(mem)
-			buf.Resize(1)
-			ret.Buffers[0].WrapBuffer(buf)
-			buf2 := memory.NewResizableBuffer(mem)
-			buf2.Resize(4)
-			ret.Buffers[1].WrapBuffer(buf2)
-			return ret
-		}, func(mem memory.Allocator) arrow.ArrayData {
-			buf := memory.NewResizableBuffer(mem)
-			buf.Resize(1)
-			defer buf.Release()
-			buf2 := memory.NewResizableBuffer(mem)
-			buf2.Resize(4)
-			defer buf2.Release()
-			return array.NewData(arrow.PrimitiveTypes.Int8, 4, []*memory.Buffer{buf, buf2}, nil, 0, 0)
-		}},
-		{"with children", func(mem memory.Allocator) fields {
-			ret := fields{
-				Type: arrow.ListOf(arrow.PrimitiveTypes.Int8),
-				Len:  1,
-				Children: []exec.ArraySpan{{
-					Type: arrow.PrimitiveTypes.Int8,
-					Len:  4,
-				}},
-			}
-			var offsets [8]byte
-			endian.Native.PutUint32(offsets[4:], 4)
-			ret.Buffers[1].SetBuffer(memory.NewBufferBytes(offsets[:]))
-			buf := memory.NewResizableBuffer(mem)
-			buf.Resize(4)
-			buf.Bytes()[0] = 1
-			buf.Bytes()[1] = 2
-			buf.Bytes()[2] = 3
-			buf.Bytes()[3] = 4
-
-			ret.Children[0].Buffers[1].WrapBuffer(buf)
-			return ret
-		}, func(mem memory.Allocator) arrow.ArrayData {
-			buf := memory.NewResizableBuffer(mem)
-			buf.Resize(4)
-			buf.Bytes()[0] = 1
-			buf.Bytes()[1] = 2
-			buf.Bytes()[2] = 3
-			buf.Bytes()[3] = 4
-			defer buf.Release()
-			child := array.NewData(arrow.PrimitiveTypes.Int8, 4, []*memory.Buffer{nil, buf}, nil, 0, 0)
-			defer child.Release()
-
-			var offsets [8]byte
-			endian.Native.PutUint32(offsets[4:], 4)
-
-			return array.NewData(arrow.ListOf(arrow.PrimitiveTypes.Int8), 1,
-				[]*memory.Buffer{nil, memory.NewBufferBytes(offsets[:])},
-				[]arrow.ArrayData{child}, 0, 0)
-		}},
-		{"dict-extension-type", func(mem memory.Allocator) fields {
-			// dict-extension-type is dict(Index: int8, Value: string)
-			// so there should be an int8 in the arrayspan and
-			// a child of a string arrayspan in the first index of
-			// Children
-			ret := fields{
-				Type: types.NewDictExtensionType(),
-				Len:  1,
-				Children: []exec.ArraySpan{{
-					Type: arrow.BinaryTypes.String,
-					Len:  2,
-				}},
-			}
-
-			indices := memory.NewResizableBuffer(mem)
-			indices.Resize(1)
-			indices.Bytes()[0] = 1
-			ret.Buffers[1].WrapBuffer(indices)
-
-			offsets := memory.NewResizableBuffer(mem)
-			offsets.Resize(3 * arrow.Int32SizeBytes)
-			copy(offsets.Bytes(), arrow.Int32Traits.CastToBytes([]int32{0, 5, 10}))
-
-			values := memory.NewResizableBuffer(mem)
-			values.Resize(len("HelloWorld"))
-			copy(values.Bytes(), []byte("HelloWorld"))
-
-			nulls := memory.NewResizableBuffer(mem)
-			nulls.Resize(1)
-			nulls.Bytes()[0] = 3
-			ret.Children[0].Buffers[0].WrapBuffer(nulls)
-			ret.Children[0].Buffers[1].WrapBuffer(offsets)
-			ret.Children[0].Buffers[2].WrapBuffer(values)
-
-			return ret
-		}, func(mem memory.Allocator) arrow.ArrayData {
-			dict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["Hello", "World"]`))
-			defer dict.Release()
-			index, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[1]`))
-			defer index.Release()
-
-			out := array.NewData(types.NewDictExtensionType(), 1, []*memory.Buffer{nil, index.Data().Buffers()[1]}, nil, 0, 0)
-			out.SetDictionary(dict.Data())
-			return out
-		}},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			t.Run("MakeData", func(t *testing.T) {
-				f := tt.fields(mem)
-				a := &exec.ArraySpan{
-					Type:     f.Type,
-					Len:      f.Len,
-					Nulls:    f.Nulls,
-					Offset:   f.Offset,
-					Buffers:  f.Buffers,
-					Scratch:  f.Scratch,
-					Children: f.Children,
-				}
-				got := a.MakeData()
-				want := tt.want(mem)
-				if !reflect.DeepEqual(got, want) {
-					t.Errorf("ArraySpan.MakeData() = %v, want %v", got, want)
-				}
-				want.Release()
-				got.Release()
-			})
-
-			t.Run("MakeArray", func(t *testing.T) {
-				f := tt.fields(mem)
-				a := &exec.ArraySpan{
-					Type:     f.Type,
-					Len:      f.Len,
-					Nulls:    f.Nulls,
-					Offset:   f.Offset,
-					Buffers:  f.Buffers,
-					Scratch:  f.Scratch,
-					Children: f.Children,
-				}
-				arr := a.MakeArray()
-				want := tt.want(mem)
-				defer want.Release()
-				exp := array.MakeFromData(want)
-
-				assert.Truef(t, array.Equal(arr, exp), "expected: %s\ngot: %s", exp, arr)
-
-				exp.Release()
-				arr.Release()
-			})
-		})
-	}
-}
-
-func TestArraySpan_SetSlice(t *testing.T) {
-	type fields struct {
-		Type     arrow.DataType
-		Len      int64
-		Nulls    int64
-		Offset   int64
-		Buffers  [3]exec.BufferSpan
-		Scratch  [2]uint64
-		Children []exec.ArraySpan
-	}
-	type args struct {
-		off    int64
-		length int64
-	}
-	tests := []struct {
-		name      string
-		fields    fields
-		args      args
-		wantNulls int64
-	}{
-		{"null type", fields{Type: arrow.Null}, args{5, 10}, 10},
-		{"not-null type", fields{Type: arrow.PrimitiveTypes.Int8}, args{5, 10}, 0},
-		{"not-null type with nulls", fields{Type: arrow.PrimitiveTypes.Int8, Nulls: -1}, args{5, 10}, array.UnknownNullCount},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			a := &exec.ArraySpan{
-				Type:     tt.fields.Type,
-				Len:      tt.fields.Len,
-				Nulls:    tt.fields.Nulls,
-				Offset:   tt.fields.Offset,
-				Buffers:  tt.fields.Buffers,
-				Scratch:  tt.fields.Scratch,
-				Children: tt.fields.Children,
-			}
-			a.SetSlice(tt.args.off, tt.args.length)
-			assert.Equal(t, tt.args.off, a.Offset)
-			assert.Equal(t, tt.args.length, a.Len)
-			assert.Equal(t, tt.wantNulls, a.Nulls)
-		})
-	}
-}
-
-func TestArraySpan_FillFromScalar(t *testing.T) {
-	var (
-		expDecimalBuf [arrow.Decimal128SizeBytes]byte
-		expScratch    [2]uint64
-	)
-
-	endian.Native.PutUint64(expDecimalBuf[:], 1234)
-	endian.Native.PutUint32(arrow.Uint64Traits.CastToBytes(expScratch[:])[4:], 10)
-
-	dict, _, _ := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String, strings.NewReader(`["Hello", "World"]`))
-	defer dict.Release()
-
-	tests := []struct {
-		name string
-		args scalar.Scalar
-		exp  exec.ArraySpan
-	}{
-		{"null-type",
-			scalar.MakeNullScalar(arrow.Null),
-			exec.ArraySpan{Type: arrow.Null, Len: 1, Nulls: 1}},
-		{"bool valid",
-			scalar.MakeScalar(true),
-			exec.ArraySpan{
-				Type:    arrow.FixedWidthTypes.Boolean,
-				Len:     1,
-				Nulls:   0,
-				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x01}}, {Buf: []byte{0x01}}, {}},
-			}},
-		{"bool valid false",
-			scalar.MakeScalar(false),
-			exec.ArraySpan{
-				Type:    arrow.FixedWidthTypes.Boolean,
-				Len:     1,
-				Nulls:   0,
-				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x01}}, {Buf: []byte{0x00}}, {}},
-			}},
-		{"primitive null",
-			scalar.MakeNullScalar(arrow.PrimitiveTypes.Int32),
-			exec.ArraySpan{
-				Type:    arrow.PrimitiveTypes.Int32,
-				Len:     1,
-				Nulls:   1,
-				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x00}}, {Buf: []byte{0, 0, 0, 0}}, {}},
-			}},
-		{"decimal valid",
-			scalar.NewDecimal128Scalar(decimal128.FromU64(1234), &arrow.Decimal128Type{Precision: 12, Scale: 2}),
-			exec.ArraySpan{
-				Type:    &arrow.Decimal128Type{Precision: 12, Scale: 2},
-				Len:     1,
-				Nulls:   0,
-				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x01}}, {Buf: expDecimalBuf[:]}, {}},
-			}},
-		{"dictionary scalar",
-			scalar.NewDictScalar(scalar.NewInt8Scalar(1), dict),
-			exec.ArraySpan{
-				Type:  &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String},
-				Len:   1,
-				Nulls: 0,
-				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x01}},
-					{Buf: []byte{1}}, {},
-				},
-				Children: []exec.ArraySpan{{
-					Type: arrow.BinaryTypes.String,
-					Len:  2,
-					Buffers: [3]exec.BufferSpan{
-						{Buf: dict.NullBitmapBytes(), Owner: dict.Data().Buffers()[0]},
-						{Buf: dict.Data().Buffers()[1].Bytes(), Owner: dict.Data().Buffers()[1]},
-						{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]},
-					},
-				}},
-			},
-		},
-		{"binary scalar",
-			scalar.NewBinaryScalar(dict.Data().Buffers()[2], arrow.BinaryTypes.String),
-			exec.ArraySpan{
-				Type:    arrow.BinaryTypes.String,
-				Len:     1,
-				Nulls:   0,
-				Scratch: expScratch,
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x01}},
-					{Buf: arrow.Uint64Traits.CastToBytes(expScratch[:1])},
-					{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]}},
-			},
-		},
-		{"large binary",
-			scalar.NewLargeStringScalarFromBuffer(dict.Data().Buffers()[2]),
-			exec.ArraySpan{
-				Type:    arrow.BinaryTypes.LargeString,
-				Len:     1,
-				Nulls:   0,
-				Scratch: [2]uint64{0, 10},
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x01}},
-					{Buf: arrow.Uint64Traits.CastToBytes([]uint64{0, 10})},
-					{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]}},
-			}},
-		{"fixed size binary",
-			scalar.NewFixedSizeBinaryScalar(dict.Data().Buffers()[2], &arrow.FixedSizeBinaryType{ByteWidth: 10}),
-			exec.ArraySpan{
-				Type: &arrow.FixedSizeBinaryType{ByteWidth: 10},
-				Len:  1,
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x01}},
-					{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]}, {},
-				},
-			}},
-		{"map scalar null value",
-			scalar.MakeNullScalar(arrow.MapOf(arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String)),
-			exec.ArraySpan{
-				Type:  arrow.MapOf(arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String),
-				Len:   1,
-				Nulls: 1,
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0}},
-					{Buf: []byte{0, 0, 0, 0, 0, 0, 0, 0}},
-					{},
-				},
-				Children: []exec.ArraySpan{{
-					Type: arrow.StructOf(arrow.Field{Name: "key", Type: arrow.PrimitiveTypes.Int8},
-						arrow.Field{Name: "value", Type: arrow.BinaryTypes.String, Nullable: true}),
-					Len:   0,
-					Nulls: 0,
-					Buffers: [3]exec.BufferSpan{
-						{Buf: []byte{}}, {}, {},
-					},
-					Children: []exec.ArraySpan{
-						{
-							Type: arrow.PrimitiveTypes.Int8,
-							Buffers: [3]exec.BufferSpan{
-								{Buf: []byte{}}, {Buf: []byte{}}, {},
-							},
-						},
-						{
-							Type: arrow.BinaryTypes.String,
-							Buffers: [3]exec.BufferSpan{
-								{Buf: []byte{}}, {Buf: []byte{}}, {Buf: []byte{}},
-							},
-						},
-					},
-				}},
-			}},
-		{"list scalar",
-			scalar.NewListScalarData(dict.Data()),
-			exec.ArraySpan{
-				Type: arrow.ListOf(arrow.BinaryTypes.String),
-				Len:  1,
-				Scratch: [2]uint64{
-					*(*uint64)(unsafe.Pointer(&[]int32{0, 2}[0])),
-					0,
-				},
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x1}},
-					{Buf: arrow.Int32Traits.CastToBytes([]int32{0, 2})},
-				},
-				Children: []exec.ArraySpan{{
-					Type: arrow.BinaryTypes.String,
-					Len:  2,
-					Buffers: [3]exec.BufferSpan{
-						{Buf: dict.NullBitmapBytes(), Owner: dict.Data().Buffers()[0]},
-						{Buf: dict.Data().Buffers()[1].Bytes(), Owner: dict.Data().Buffers()[1]},
-						{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]},
-					},
-				}},
-			},
-		},
-		{"large list scalar",
-			scalar.NewLargeListScalarData(dict.Data()),
-			exec.ArraySpan{
-				Type:    arrow.LargeListOf(arrow.BinaryTypes.String),
-				Len:     1,
-				Scratch: [2]uint64{0, 2},
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x1}},
-					{Buf: arrow.Int64Traits.CastToBytes([]int64{0, 2})},
-				},
-				Children: []exec.ArraySpan{{
-					Type: arrow.BinaryTypes.String,
-					Len:  2,
-					Buffers: [3]exec.BufferSpan{
-						{Buf: dict.NullBitmapBytes(), Owner: dict.Data().Buffers()[0]},
-						{Buf: dict.Data().Buffers()[1].Bytes(), Owner: dict.Data().Buffers()[1]},
-						{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]},
-					},
-				}},
-			},
-		},
-		{"fixed size list",
-			scalar.NewFixedSizeListScalar(dict),
-			exec.ArraySpan{
-				Type: arrow.FixedSizeListOf(2, arrow.BinaryTypes.String),
-				Len:  1,
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x1}},
-					{}, {},
-				},
-				Children: []exec.ArraySpan{{
-					Type: arrow.BinaryTypes.String,
-					Len:  2,
-					Buffers: [3]exec.BufferSpan{
-						{Buf: dict.NullBitmapBytes(), Owner: dict.Data().Buffers()[0]},
-						{Buf: dict.Data().Buffers()[1].Bytes(), Owner: dict.Data().Buffers()[1]},
-						{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]},
-					},
-				}},
-			},
-		},
-		{"struct scalar",
-			func() scalar.Scalar {
-				s, _ := scalar.NewStructScalarWithNames([]scalar.Scalar{
-					scalar.MakeScalar(int32(5)), scalar.MakeScalar(uint8(10)),
-				}, []string{"int32", "uint8"})
-				return s
-			}(),
-			exec.ArraySpan{
-				Type: arrow.StructOf(
-					arrow.Field{Name: "int32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-					arrow.Field{Name: "uint8", Type: arrow.PrimitiveTypes.Uint8, Nullable: true}),
-				Buffers: [3]exec.BufferSpan{
-					{Buf: []byte{0x1}}, {}, {},
-				},
-				Len: 1,
-				Children: []exec.ArraySpan{
-					{
-						Type: arrow.PrimitiveTypes.Int32,
-						Len:  1,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{0x1}},
-							{Buf: arrow.Int32Traits.CastToBytes([]int32{5})},
-							{},
-						},
-					},
-					{
-						Type: arrow.PrimitiveTypes.Uint8,
-						Len:  1,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{0x1}},
-							{Buf: []byte{10}},
-							{},
-						},
-					},
-				},
-			},
-		},
-		{"dense union scalar",
-			func() scalar.Scalar {
-				dt := arrow.UnionOf(arrow.DenseMode, []arrow.Field{
-					{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
-					{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-					{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-				}, []arrow.UnionTypeCode{3, 42, 43})
-				return scalar.NewDenseUnionScalar(scalar.MakeScalar(uint64(25)), 42, dt.(*arrow.DenseUnionType))
-			}(),
-			exec.ArraySpan{
-				Type: arrow.UnionOf(arrow.DenseMode, []arrow.Field{
-					{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
-					{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-					{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-				}, []arrow.UnionTypeCode{3, 42, 43}),
-				Len:     1,
-				Scratch: [2]uint64{42, 1},
-				Buffers: [3]exec.BufferSpan{{},
-					{Buf: []byte{42}}, {Buf: arrow.Int32Traits.CastToBytes([]int32{0, 1})},
-				},
-				Children: []exec.ArraySpan{
-					{
-						Type: arrow.BinaryTypes.String,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{}}, {Buf: []byte{}}, {Buf: []byte{}},
-						},
-					},
-					{
-						Type: arrow.PrimitiveTypes.Uint64,
-						Len:  1,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{0x1}},
-							{Buf: arrow.Uint64Traits.CastToBytes([]uint64{25})},
-							{},
-						},
-					},
-					{
-						Type: arrow.PrimitiveTypes.Uint64,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{}}, {Buf: []byte{}}, {},
-						},
-					},
-				},
-			},
-		},
-		{"sparse union",
-			func() scalar.Scalar {
-				dt := arrow.UnionOf(arrow.SparseMode, []arrow.Field{
-					{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
-					{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-					{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-				}, []arrow.UnionTypeCode{3, 42, 43})
-				return scalar.NewSparseUnionScalarFromValue(scalar.MakeScalar(uint64(25)), 1, dt.(*arrow.SparseUnionType))
-			}(),
-			exec.ArraySpan{
-				Type: arrow.UnionOf(arrow.SparseMode, []arrow.Field{
-					{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
-					{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-					{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-				}, []arrow.UnionTypeCode{3, 42, 43}),
-				Len:     1,
-				Scratch: [2]uint64{42, 0},
-				Buffers: [3]exec.BufferSpan{{},
-					{Buf: []byte{42}}, {},
-				},
-				Children: []exec.ArraySpan{
-					{
-						Type:  arrow.BinaryTypes.String,
-						Len:   1,
-						Nulls: 1,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{0x0}},
-							{Buf: []byte{0, 0, 0, 0, 0, 0, 0, 0}},
-							{},
-						},
-					},
-					{
-						Type: arrow.PrimitiveTypes.Uint64,
-						Len:  1,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{0x1}},
-							{Buf: arrow.Uint64Traits.CastToBytes([]uint64{25})},
-							{},
-						},
-					},
-					{
-						Type:  arrow.PrimitiveTypes.Uint64,
-						Len:   1,
-						Nulls: 1,
-						Buffers: [3]exec.BufferSpan{
-							{Buf: []byte{0x0}}, {Buf: []byte{0, 0, 0, 0, 0, 0, 0, 0}}, {},
-						},
-					},
-				},
-			},
-		},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			a := &exec.ArraySpan{
-				Nulls:   array.UnknownNullCount,
-				Buffers: [3]exec.BufferSpan{{SelfAlloc: true, Owner: &memory.Buffer{}}, {SelfAlloc: true, Owner: &memory.Buffer{}}, {}},
-			}
-			a.FillFromScalar(tt.args)
-			assert.Equal(t, tt.exp, *a)
-		})
-	}
-}
diff --git a/go/arrow/compute/exec/utils.go b/go/arrow/compute/exec/utils.go
deleted file mode 100644
index 832f93f13165d..0000000000000
--- a/go/arrow/compute/exec/utils.go
+++ /dev/null
@@ -1,276 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exec
-
-import (
-	"fmt"
-	"math"
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/exp/constraints"
-	"golang.org/x/exp/slices"
-)
-
-// GetSpanValues returns a properly typed slice by reinterpreting
-// the buffer at index i using unsafe.Slice. This will take into account
-// the offset of the given ArraySpan.
-func GetSpanValues[T arrow.FixedWidthType](span *ArraySpan, i int) []T {
-	if len(span.Buffers[i].Buf) == 0 {
-		return nil
-	}
-	ret := unsafe.Slice((*T)(unsafe.Pointer(&span.Buffers[i].Buf[0])), span.Offset+span.Len)
-	return ret[span.Offset:]
-}
-
-// GetSpanOffsets is like GetSpanValues, except it is only for int32
-// or int64 and adds the additional 1 expected value for an offset
-// buffer (ie. len(output) == span.Len+1)
-func GetSpanOffsets[T int32 | int64](span *ArraySpan, i int) []T {
-	ret := unsafe.Slice((*T)(unsafe.Pointer(&span.Buffers[i].Buf[0])), span.Offset+span.Len+1)
-	return ret[span.Offset:]
-}
-
-func Min[T constraints.Ordered](a, b T) T {
-	if a < b {
-		return a
-	}
-	return b
-}
-
-func Max[T constraints.Ordered](a, b T) T {
-	if a > b {
-		return a
-	}
-	return b
-}
-
-// OptionsInit should be used in the case where a KernelState is simply
-// represented with a specific type by value (instead of pointer).
-// This will initialize the KernelState as a value-copied instance of
-// the passed in function options argument to ensure separation
-// and allow the kernel to manipulate the options if necessary without
-// any negative consequences since it will have its own copy of the options.
-func OptionsInit[T any](_ *KernelCtx, args KernelInitArgs) (KernelState, error) {
-	if opts, ok := args.Options.(*T); ok {
-		return *opts, nil
-	}
-
-	return nil, fmt.Errorf("%w: attempted to initialize kernel state from invalid function options",
-		arrow.ErrInvalid)
-}
-
-type arrayBuilder[T arrow.NumericType | bool] interface {
-	array.Builder
-	Append(T)
-	AppendValues([]T, []bool)
-}
-
-func ArrayFromSlice[T arrow.NumericType | bool](mem memory.Allocator, data []T) arrow.Array {
-	bldr := array.NewBuilder(mem, arrow.GetDataType[T]()).(arrayBuilder[T])
-	defer bldr.Release()
-
-	bldr.AppendValues(data, nil)
-	return bldr.NewArray()
-}
-
-func ArrayFromSliceWithValid[T arrow.NumericType | bool](mem memory.Allocator, data []T, valid []bool) arrow.Array {
-	bldr := array.NewBuilder(mem, arrow.GetDataType[T]()).(arrayBuilder[T])
-	defer bldr.Release()
-
-	bldr.AppendValues(data, valid)
-	return bldr.NewArray()
-}
-
-func RechunkArraysConsistently(groups [][]arrow.Array) [][]arrow.Array {
-	if len(groups) <= 1 {
-		return groups
-	}
-
-	var totalLen int
-	for _, a := range groups[0] {
-		totalLen += a.Len()
-	}
-
-	if totalLen == 0 {
-		return groups
-	}
-
-	rechunked := make([][]arrow.Array, len(groups))
-	offsets := make([]int64, len(groups))
-	// scan all array vectors at once, rechunking along the way
-	var start int64
-	for start < int64(totalLen) {
-		// first compute max possible length for next chunk
-		var chunkLength int64 = math.MaxInt64
-		for i, g := range groups {
-			offset := offsets[i]
-			// skip any done arrays including 0-length
-			for offset == int64(g[0].Len()) {
-				g = g[1:]
-				offset = 0
-			}
-			arr := g[0]
-			chunkLength = Min(chunkLength, int64(arr.Len())-offset)
-
-			offsets[i] = offset
-			groups[i] = g
-		}
-
-		// now slice all the arrays along this chunk size
-		for i, g := range groups {
-			offset := offsets[i]
-			arr := g[0]
-			if offset == 0 && int64(arr.Len()) == chunkLength {
-				// slice spans entire array
-				arr.Retain()
-				rechunked[i] = append(rechunked[i], arr)
-			} else {
-				rechunked[i] = append(rechunked[i], array.NewSlice(arr, int64(offset), int64(offset+chunkLength)))
-			}
-			offsets[i] += chunkLength
-		}
-
-		start += int64(chunkLength)
-	}
-	return rechunked
-}
-
-type ChunkResolver struct {
-	offsets []int64
-	cached  int64
-}
-
-func NewChunkResolver(chunks []arrow.Array) *ChunkResolver {
-	offsets := make([]int64, len(chunks)+1)
-	var offset int64
-	for i, c := range chunks {
-		curOffset := offset
-		offset += int64(c.Len())
-		offsets[i] = curOffset
-	}
-	offsets[len(chunks)] = offset
-	return &ChunkResolver{offsets: offsets}
-}
-
-func (c *ChunkResolver) Resolve(idx int64) (chunk, index int64) {
-	// some algorithms consecutively access indexes that are a
-	// relatively small distance from each other, falling into
-	// the same chunk.
-	// This is trivial when merging (assuming each side of the
-	// merge uses its own resolver), but also in the inner
-	// recursive invocations of partitioning.
-	if len(c.offsets) <= 1 {
-		return 0, idx
-	}
-
-	cached := atomic.LoadInt64(&c.cached)
-	cacheHit := idx >= c.offsets[cached] && idx < c.offsets[cached+1]
-	if cacheHit {
-		return cached, idx - c.offsets[cached]
-	}
-
-	chkIdx, found := slices.BinarySearch(c.offsets, idx)
-	if !found {
-		chkIdx--
-	}
-
-	chunk, index = int64(chkIdx), idx-c.offsets[chkIdx]
-	atomic.StoreInt64(&c.cached, chunk)
-	return
-}
-
-type arrayTypes interface {
-	arrow.FixedWidthType | arrow.TemporalType | bool | string | []byte
-}
-
-type ArrayIter[T arrayTypes] interface {
-	Next() T
-}
-
-type BoolIter struct {
-	Rdr *bitutil.BitmapReader
-}
-
-func NewBoolIter(arr *ArraySpan) ArrayIter[bool] {
-	return &BoolIter{
-		Rdr: bitutil.NewBitmapReader(arr.Buffers[1].Buf, int(arr.Offset), int(arr.Len))}
-}
-
-func (b *BoolIter) Next() (out bool) {
-	out = b.Rdr.Set()
-	b.Rdr.Next()
-	return
-}
-
-type PrimitiveIter[T arrow.FixedWidthType] struct {
-	Values []T
-}
-
-func NewPrimitiveIter[T arrow.FixedWidthType](arr *ArraySpan) ArrayIter[T] {
-	return &PrimitiveIter[T]{Values: GetSpanValues[T](arr, 1)}
-}
-
-func (p *PrimitiveIter[T]) Next() (v T) {
-	v = p.Values[0]
-	p.Values = p.Values[1:]
-	return
-}
-
-type VarBinaryIter[OffsetT int32 | int64] struct {
-	Offsets []OffsetT
-	Data    []byte
-	Pos     int64
-}
-
-func NewVarBinaryIter[OffsetT int32 | int64](arr *ArraySpan) ArrayIter[[]byte] {
-	return &VarBinaryIter[OffsetT]{
-		Offsets: GetSpanOffsets[OffsetT](arr, 1),
-		Data:    arr.Buffers[2].Buf,
-	}
-}
-
-func (v *VarBinaryIter[OffsetT]) Next() []byte {
-	cur := v.Pos
-	v.Pos++
-	return v.Data[v.Offsets[cur]:v.Offsets[v.Pos]]
-}
-
-type FSBIter struct {
-	Data  []byte
-	Width int
-	Pos   int64
-}
-
-func NewFSBIter(arr *ArraySpan) ArrayIter[[]byte] {
-	return &FSBIter{
-		Data:  arr.Buffers[1].Buf,
-		Width: arr.Type.(arrow.FixedWidthDataType).Bytes(),
-	}
-}
-
-func (f *FSBIter) Next() []byte {
-	start := f.Width * int(f.Pos)
-	f.Pos++
-	return f.Data[start : start+f.Width]
-}
diff --git a/go/arrow/compute/exec/utils_test.go b/go/arrow/compute/exec/utils_test.go
deleted file mode 100644
index b8b7212b538c5..0000000000000
--- a/go/arrow/compute/exec/utils_test.go
+++ /dev/null
@@ -1,111 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exec_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestRechunkConsistentArraysTrivial(t *testing.T) {
-	var groups [][]arrow.Array
-	rechunked := exec.RechunkArraysConsistently(groups)
-	assert.Zero(t, rechunked)
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	a1 := exec.ArrayFromSlice(mem, []int16{})
-	defer a1.Release()
-	a2 := exec.ArrayFromSlice(mem, []int16{})
-	defer a2.Release()
-	b1 := exec.ArrayFromSlice(mem, []int32{})
-	defer b1.Release()
-	groups = [][]arrow.Array{{a1, a2}, {}, {b1}}
-	rechunked = exec.RechunkArraysConsistently(groups)
-	assert.Len(t, rechunked, 3)
-
-	for _, arrvec := range rechunked {
-		for _, arr := range arrvec {
-			assert.Zero(t, arr.Len())
-		}
-	}
-}
-
-func assertEqual[T arrow.NumericType](t *testing.T, mem memory.Allocator, arr arrow.Array, data []T) {
-	exp := exec.ArrayFromSlice(mem, data)
-	defer exp.Release()
-	assert.Truef(t, array.Equal(exp, arr), "expected: %s\ngot: %s", exp, arr)
-}
-
-func TestRechunkArraysConsistentlyPlain(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	a1 := exec.ArrayFromSlice(mem, []int16{1, 2, 3})
-	defer a1.Release()
-	a2 := exec.ArrayFromSlice(mem, []int16{4, 5})
-	defer a2.Release()
-	a3 := exec.ArrayFromSlice(mem, []int16{6, 7, 8, 9})
-	defer a3.Release()
-
-	b1 := exec.ArrayFromSlice(mem, []int32{41, 42})
-	defer b1.Release()
-	b2 := exec.ArrayFromSlice(mem, []int32{43, 44, 45})
-	defer b2.Release()
-	b3 := exec.ArrayFromSlice(mem, []int32{46, 47})
-	defer b3.Release()
-	b4 := exec.ArrayFromSlice(mem, []int32{48, 49})
-	defer b4.Release()
-
-	groups := [][]arrow.Array{{a1, a2, a3}, {b1, b2, b3, b4}}
-	rechunked := exec.RechunkArraysConsistently(groups)
-	assert.Len(t, rechunked, 2)
-	ra := rechunked[0]
-	rb := rechunked[1]
-
-	assert.Len(t, ra, 5)
-	assertEqual(t, mem, ra[0], []int16{1, 2})
-	ra[0].Release()
-	assertEqual(t, mem, ra[1], []int16{3})
-	ra[1].Release()
-	assertEqual(t, mem, ra[2], []int16{4, 5})
-	ra[2].Release()
-	assertEqual(t, mem, ra[3], []int16{6, 7})
-	ra[3].Release()
-	assertEqual(t, mem, ra[4], []int16{8, 9})
-	ra[4].Release()
-
-	assert.Len(t, rb, 5)
-	assertEqual(t, mem, rb[0], []int32{41, 42})
-	rb[0].Release()
-	assertEqual(t, mem, rb[1], []int32{43})
-	rb[1].Release()
-	assertEqual(t, mem, rb[2], []int32{44, 45})
-	rb[2].Release()
-	assertEqual(t, mem, rb[3], []int32{46, 47})
-	rb[3].Release()
-	assertEqual(t, mem, rb[4], []int32{48, 49})
-	rb[4].Release()
-}
diff --git a/go/arrow/compute/exec_internals_test.go b/go/arrow/compute/exec_internals_test.go
deleted file mode 100644
index f0c585f557ebc..0000000000000
--- a/go/arrow/compute/exec_internals_test.go
+++ /dev/null
@@ -1,585 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"bytes"
-	"context"
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/suite"
-)
-
-type ComputeInternalsTestSuite struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-
-	execCtx ExecCtx
-	ctx     *exec.KernelCtx
-	rng     gen.RandomArrayGenerator
-}
-
-func (c *ComputeInternalsTestSuite) SetupTest() {
-	c.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	c.rng = gen.NewRandomArrayGenerator(0, c.mem)
-
-	c.resetCtx()
-}
-
-func (c *ComputeInternalsTestSuite) TearDownTest() {
-	c.mem.AssertSize(c.T(), 0)
-}
-
-func (c *ComputeInternalsTestSuite) assertArrayEqual(expected, got arrow.Array) {
-	c.Truef(array.Equal(expected, got), "expected: %s\ngot: %s", expected, got)
-}
-
-func (c *ComputeInternalsTestSuite) assertDatumEqual(expected arrow.Array, got Datum) {
-	arr := got.(*ArrayDatum).MakeArray()
-	defer arr.Release()
-	c.Truef(array.Equal(expected, arr), "expected: %s\ngot: %s", expected, arr)
-}
-
-func (c *ComputeInternalsTestSuite) resetCtx() {
-	c.execCtx = ExecCtx{Registry: GetFunctionRegistry(),
-		ChunkSize: DefaultMaxChunkSize, PreallocContiguous: true}
-	c.ctx = &exec.KernelCtx{Ctx: SetExecCtx(context.Background(), c.execCtx)}
-}
-
-func (c *ComputeInternalsTestSuite) getBoolArr(sz int64, trueprob, nullprob float64) arrow.Array {
-	return c.rng.Boolean(sz, trueprob, nullprob)
-}
-
-func (c *ComputeInternalsTestSuite) getUint8Arr(sz int64, nullprob float64) arrow.Array {
-	return c.rng.Uint8(sz, 0, 100, nullprob)
-}
-
-func (c *ComputeInternalsTestSuite) getInt32Arr(sz int64, nullprob float64) arrow.Array {
-	return c.rng.Int32(sz, 0, 1000, nullprob)
-}
-
-func (c *ComputeInternalsTestSuite) getFloat64Arr(sz int64, nullprob float64) arrow.Array {
-	return c.rng.Float64(sz, 0, 1000, nullprob)
-}
-
-func (c *ComputeInternalsTestSuite) getInt32Chunked(szs []int64) *arrow.Chunked {
-	chunks := make([]arrow.Array, 0)
-	for i, s := range szs {
-		chunks = append(chunks, c.getInt32Arr(s, 0.1))
-		defer chunks[i].Release()
-	}
-	return arrow.NewChunked(arrow.PrimitiveTypes.Int32, chunks)
-}
-
-func (c *ComputeInternalsTestSuite) assertValidityZeroExtraBits(data []byte, length, offset int) {
-	bitExtent := ((offset + length + 7) / 8) * 8
-	for i := offset + length; i < bitExtent; i++ {
-		c.False(bitutil.BitIsSet(data, i))
-	}
-}
-
-type PropagateNullsSuite struct {
-	ComputeInternalsTestSuite
-}
-
-func (p *PropagateNullsSuite) TestUnknownNullCountWithNullsZeroCopies() {
-	const length int = 16
-	bitmap := [8]byte{254, 0, 0, 0, 0, 0, 0, 0}
-	nulls := memory.NewBufferBytes(bitmap[:])
-
-	output := array.NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nil, nil}, nil, 0, 0)
-	input := array.NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nulls, nil}, nil, array.UnknownNullCount, 0)
-
-	var outSpan exec.ArraySpan
-	outSpan.SetMembers(output)
-	batch := ExecBatch{Values: []Datum{NewDatum(input)}, Len: int64(length)}
-	p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(&batch), &outSpan))
-	p.Same(nulls, outSpan.Buffers[0].Owner)
-	p.EqualValues(array.UnknownNullCount, outSpan.Nulls)
-	p.Equal(9, int(outSpan.Len)-bitutil.CountSetBits(outSpan.Buffers[0].Buf, int(outSpan.Offset), int(outSpan.Len)))
-}
-
-func (p *PropagateNullsSuite) TestUnknownNullCountWithoutNulls() {
-	const length int = 16
-	bitmap := [8]byte{255, 255, 0, 0, 0, 0, 0, 0}
-	nulls := memory.NewBufferBytes(bitmap[:])
-
-	output := array.NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nil, nil}, nil, 0, 0)
-	input := array.NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nulls, nil}, nil, array.UnknownNullCount, 0)
-
-	var outSpan exec.ArraySpan
-	outSpan.SetMembers(output)
-	batch := ExecBatch{Values: []Datum{NewDatum(input)}, Len: int64(length)}
-	p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(&batch), &outSpan))
-	p.EqualValues(-1, outSpan.Nulls)
-	p.Same(nulls, outSpan.Buffers[0].Owner)
-}
-
-func (p *PropagateNullsSuite) TestSetAllNulls() {
-	const length int = 16
-	checkSetAll := func(vals []Datum, prealloc bool) {
-		// fresh bitmap with all 1s
-		bitmapData := [2]byte{255, 255}
-		preallocatedMem := memory.NewBufferBytes(bitmapData[:])
-
-		output := &exec.ArraySpan{
-			Type:  arrow.FixedWidthTypes.Boolean,
-			Len:   int64(length),
-			Nulls: array.UnknownNullCount,
-		}
-
-		if prealloc {
-			output.Buffers[0].SetBuffer(preallocatedMem)
-		}
-
-		batch := &ExecBatch{Values: vals, Len: int64(length)}
-		p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(batch), output))
-
-		if prealloc {
-			// ensure that the buffer object is the same when we pass preallocated
-			// memory to it
-			p.Same(preallocatedMem, output.Buffers[0].Owner)
-		} else {
-			defer output.Buffers[0].Owner.Release()
-		}
-
-		p.NotNil(output.Buffers[0].Buf)
-		expected := [2]byte{0, 0}
-		p.True(bytes.Equal(expected[:], output.Buffers[0].Buf))
-	}
-
-	var vals []Datum
-	const trueProb float64 = 0.5
-	p.Run("Null Scalar", func() {
-		i32Val := scalar.MakeScalar(int32(3))
-		vals = []Datum{NewDatum(i32Val), NewDatum(scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean))}
-		checkSetAll(vals, true)
-		checkSetAll(vals, false)
-
-		arr := p.getBoolArr(int64(length), trueProb, 0)
-		defer arr.Release()
-		vals[0] = NewDatum(arr)
-		defer vals[0].Release()
-		checkSetAll(vals, true)
-		checkSetAll(vals, false)
-	})
-
-	p.Run("one all null", func() {
-		arrAllNulls := p.getBoolArr(int64(length), trueProb, 1)
-		defer arrAllNulls.Release()
-		arrHalf := p.getBoolArr(int64(length), trueProb, 0.5)
-		defer arrHalf.Release()
-		vals = []Datum{NewDatum(arrHalf), NewDatum(arrAllNulls)}
-		defer vals[0].Release()
-		defer vals[1].Release()
-
-		checkSetAll(vals, true)
-		checkSetAll(vals, false)
-	})
-
-	p.Run("one value is NullType", func() {
-		nullarr := array.NewNull(length)
-		arr := p.getBoolArr(int64(length), trueProb, 0)
-		defer arr.Release()
-		vals = []Datum{NewDatum(arr), NewDatum(nullarr)}
-		defer vals[0].Release()
-		checkSetAll(vals, true)
-		checkSetAll(vals, false)
-	})
-
-	p.Run("Other scenarios", func() {
-		// an all-null bitmap is zero-copied over, even though
-		// there is a null-scalar earlier in the batch
-		outSpan := &exec.ArraySpan{
-			Type: arrow.FixedWidthTypes.Boolean,
-			Len:  int64(length),
-		}
-		arrAllNulls := p.getBoolArr(int64(length), trueProb, 1)
-		defer arrAllNulls.Release()
-
-		batch := &ExecBatch{
-			Values: []Datum{
-				NewDatum(scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean)),
-				NewDatum(arrAllNulls),
-			},
-			Len: int64(length),
-		}
-		defer batch.Values[1].Release()
-
-		p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(batch), outSpan))
-		p.Same(arrAllNulls.Data().Buffers()[0], outSpan.Buffers[0].Owner)
-		outSpan.Buffers[0].Owner.Release()
-	})
-}
-
-func (p *PropagateNullsSuite) TestSingleValueWithNulls() {
-	const length int64 = 100
-	arr := p.getBoolArr(length, 0.5, 0.5)
-	defer arr.Release()
-
-	checkSliced := func(offset int64, prealloc bool, outOffset int64) {
-		// unaligned bitmap, zero copy not possible
-		sliced := array.NewSlice(arr, offset, int64(arr.Len()))
-		defer sliced.Release()
-		vals := []Datum{NewDatum(sliced)}
-		defer vals[0].Release()
-
-		output := &exec.ArraySpan{
-			Type:   arrow.FixedWidthTypes.Boolean,
-			Len:    vals[0].Len(),
-			Offset: outOffset,
-		}
-
-		batch := &ExecBatch{Values: vals, Len: vals[0].Len()}
-
-		var preallocatedBitmap *memory.Buffer
-		if prealloc {
-			preallocatedBitmap = memory.NewResizableBuffer(p.mem)
-			preallocatedBitmap.Resize(int(bitutil.BytesForBits(int64(sliced.Len()) + outOffset)))
-			defer preallocatedBitmap.Release()
-			output.Buffers[0].SetBuffer(preallocatedBitmap)
-			output.Buffers[0].SelfAlloc = true
-		} else {
-			p.EqualValues(0, output.Offset)
-		}
-
-		p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(batch), output))
-		if !prealloc {
-			parentBuf := arr.Data().Buffers()[0]
-			if offset == 0 {
-				// validity bitmap same, no slice
-				p.Same(parentBuf, output.Buffers[0].Owner)
-			} else if offset%8 == 0 {
-				// validity bitmap sliced
-				p.NotSame(parentBuf, output.Buffers[0].Owner)
-				p.Same(parentBuf, output.Buffers[0].Owner.Parent())
-				defer output.Buffers[0].Owner.Release()
-			} else {
-				// new memory for offset not 0 mod 8
-				p.NotSame(parentBuf, output.Buffers[0].Owner)
-				p.Nil(output.Buffers[0].Owner.Parent())
-				defer output.Buffers[0].Owner.Release()
-			}
-		} else {
-			// preallocated, so check that the validity bitmap is unbothered
-			p.Same(preallocatedBitmap, output.Buffers[0].Owner)
-		}
-
-		p.EqualValues(sliced.NullN(), output.UpdateNullCount())
-		p.True(bitutil.BitmapEquals(
-			sliced.NullBitmapBytes(), output.Buffers[0].Buf,
-			int64(sliced.Data().Offset()), output.Offset, output.Len))
-		p.assertValidityZeroExtraBits(output.Buffers[0].Buf, int(output.Len), int(output.Offset))
-	}
-
-	tests := []struct {
-		offset, outoffset int64
-		prealloc          bool
-	}{
-		{8, 0, false},
-		{7, 0, false},
-		{8, 0, true},
-		{7, 0, true},
-		{8, 4, true},
-		{7, 4, true},
-	}
-
-	for _, tt := range tests {
-		name := fmt.Sprintf("off=%d,prealloc=%t,outoff=%d", tt.offset, tt.prealloc, tt.outoffset)
-		p.Run(name, func() {
-			checkSliced(tt.offset, tt.prealloc, tt.outoffset)
-		})
-	}
-}
-
-func (p *PropagateNullsSuite) TestIntersectsNulls() {
-	const length = 16
-	var (
-		// 0b01111111 0b11001111
-		bitmap1 = [8]byte{127, 207, 0, 0, 0, 0, 0, 0}
-		// 0b11111110 0b01111111
-		bitmap2 = [8]byte{254, 127, 0, 0, 0, 0, 0, 0}
-		// 0b11101111 0b11111110
-		bitmap3 = [8]byte{239, 254, 0, 0, 0, 0, 0, 0}
-	)
-
-	arr1 := array.NewData(arrow.FixedWidthTypes.Boolean, length,
-		[]*memory.Buffer{memory.NewBufferBytes(bitmap1[:]), nil}, nil, array.UnknownNullCount, 0)
-	arr2 := array.NewData(arrow.FixedWidthTypes.Boolean, length,
-		[]*memory.Buffer{memory.NewBufferBytes(bitmap2[:]), nil}, nil, array.UnknownNullCount, 0)
-	arr3 := array.NewData(arrow.FixedWidthTypes.Boolean, length,
-		[]*memory.Buffer{memory.NewBufferBytes(bitmap3[:]), nil}, nil, array.UnknownNullCount, 0)
-
-	checkCase := func(vals []Datum, exNullCount int, exBitmap []byte, prealloc bool, outoffset int) {
-		batch := &ExecBatch{Values: vals, Len: length}
-
-		output := &exec.ArraySpan{Type: arrow.FixedWidthTypes.Boolean, Len: length}
-
-		var nulls *memory.Buffer
-		if prealloc {
-			// make the buffer one byte bigger so we can have non-zero offsets
-			nulls = memory.NewResizableBuffer(p.mem)
-			nulls.Resize(3)
-			defer nulls.Release()
-			output.Buffers[0].SetBuffer(nulls)
-			output.Buffers[0].SelfAlloc = true
-		} else {
-			// non-zero output offset not permitted unless output memory is preallocated
-			p.Equal(0, outoffset)
-		}
-
-		output.Offset = int64(outoffset)
-
-		p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(batch), output))
-
-		// preallocated memory used
-		if prealloc {
-			p.Same(nulls, output.Buffers[0].Owner)
-		} else {
-			defer output.Buffers[0].Owner.Release()
-		}
-
-		p.EqualValues(array.UnknownNullCount, output.Nulls)
-		p.EqualValues(exNullCount, output.UpdateNullCount())
-
-		p.True(bitutil.BitmapEquals(exBitmap, output.Buffers[0].Buf, 0, output.Offset, length))
-		p.assertValidityZeroExtraBits(output.Buffers[0].Buf, int(output.Len), int(output.Offset))
-	}
-
-	p.Run("0b01101110 0b01001110", func() {
-		// 0b01101110 0b01001110
-		expected := [2]byte{110, 78}
-		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2), NewDatum(arr3)}, 7, expected[:], false, 0)
-		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2), NewDatum(arr3)}, 7, expected[:], true, 0)
-		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2), NewDatum(arr3)}, 7, expected[:], true, 4)
-	})
-
-	p.Run("0b01111110 0b01001111", func() {
-		expected := [2]byte{126, 79}
-		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2)}, 5, expected[:], false, 0)
-		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2)}, 5, expected[:], true, 4)
-	})
-}
-
-func TestComputeInternals(t *testing.T) {
-	suite.Run(t, new(PropagateNullsSuite))
-}
-
-type ExecSpanItrSuite struct {
-	ComputeInternalsTestSuite
-
-	iter spanIterator
-}
-
-func (e *ExecSpanItrSuite) setupIterator(batch *ExecBatch, maxChunk int64) {
-	var err error
-	_, e.iter, err = iterateExecSpans(batch, maxChunk, true)
-	e.NoError(err)
-}
-
-func (e *ExecSpanItrSuite) checkIteration(input *ExecBatch, chunksize int, exBatchSizes []int) {
-	e.setupIterator(input, int64(chunksize))
-	var (
-		batch  exec.ExecSpan
-		curPos int64
-		pos    int64
-		next   bool
-	)
-
-	for _, sz := range exBatchSizes {
-		batch, pos, next = e.iter()
-		e.True(next)
-		e.EqualValues(sz, batch.Len)
-
-		for j, val := range input.Values {
-			switch val := val.(type) {
-			case *ScalarDatum:
-				e.Truef(scalar.Equals(batch.Values[j].Scalar, val.Value), "expected: %s\ngot: %s", val.Value, batch.Values[j].Scalar)
-			case *ArrayDatum:
-				arr := val.MakeArray()
-				sl := array.NewSlice(arr, curPos, curPos+batch.Len)
-				got := batch.Values[j].Array.MakeArray()
-
-				e.Truef(array.Equal(sl, got), "expected: %s\ngot: %s", sl, got)
-
-				got.Release()
-				arr.Release()
-				sl.Release()
-			case *ChunkedDatum:
-				carr := val.Value
-				if batch.Len == 0 {
-					e.Zero(carr.Len())
-				} else {
-					chkd := array.NewChunkedSlice(carr, curPos, curPos+batch.Len)
-					defer chkd.Release()
-					e.Len(chkd.Chunks(), 1)
-					got := batch.Values[j].Array.MakeArray()
-					defer got.Release()
-					e.Truef(array.Equal(got, chkd.Chunk(0)), "expected: %s\ngot: %s", chkd.Chunk(0), got)
-				}
-			}
-		}
-
-		curPos += int64(sz)
-		e.EqualValues(curPos, pos)
-	}
-
-	batch, pos, next = e.iter()
-	e.Zero(batch)
-	e.False(next)
-	e.EqualValues(input.Len, pos)
-}
-
-func (e *ExecSpanItrSuite) TestBasics() {
-	const length = 100
-
-	arr1 := e.getInt32Arr(length, 0.1)
-	defer arr1.Release()
-	arr2 := e.getFloat64Arr(length, 0.1)
-	defer arr2.Release()
-
-	input := &ExecBatch{
-		Len:    length,
-		Values: []Datum{NewDatum(arr1), NewDatum(arr2), NewDatum(int32(3))},
-	}
-	defer func() {
-		for _, v := range input.Values {
-			v.Release()
-		}
-	}()
-
-	e.Run("simple", func() {
-		e.setupIterator(input, DefaultMaxChunkSize)
-
-		batch, pos, next := e.iter()
-		e.True(next)
-		e.Len(batch.Values, 3)
-		e.EqualValues(length, batch.Len)
-		e.EqualValues(length, pos)
-
-		in1 := input.Values[0].(*ArrayDatum).MakeArray()
-		defer in1.Release()
-		in2 := input.Values[1].(*ArrayDatum).MakeArray()
-		defer in2.Release()
-		out1 := batch.Values[0].Array.MakeArray()
-		defer out1.Release()
-		out2 := batch.Values[1].Array.MakeArray()
-		defer out2.Release()
-
-		e.Truef(array.Equal(in1, out1), "expected: %s\ngot: %s", in1, out1)
-		e.Truef(array.Equal(in2, out2), "expected: %s\ngot: %s", in2, out2)
-		e.True(scalar.Equals(input.Values[2].(*ScalarDatum).Value, batch.Values[2].Scalar), input.Values[2].(*ScalarDatum).Value, batch.Values[2].Scalar)
-
-		_, pos, next = e.iter()
-		e.EqualValues(length, pos)
-		e.False(next)
-	})
-
-	e.Run("iterations", func() {
-		e.checkIteration(input, 16, []int{16, 16, 16, 16, 16, 16, 4})
-	})
-}
-
-func (e *ExecSpanItrSuite) TestInputValidation() {
-	arr1 := e.getInt32Arr(10, 0.1)
-	defer arr1.Release()
-	arr2 := e.getInt32Arr(9, 0.1)
-	defer arr2.Release()
-
-	// length mismatch
-	batch := &ExecBatch{
-		Values: []Datum{&ArrayDatum{arr1.Data()}, &ArrayDatum{arr2.Data()}},
-		Len:    10,
-	}
-
-	_, _, err := iterateExecSpans(batch, DefaultMaxChunkSize, true)
-	e.ErrorIs(err, arrow.ErrInvalid)
-
-	// swap order of input
-	batch.Values = []Datum{&ArrayDatum{arr2.Data()}, &ArrayDatum{arr1.Data()}}
-
-	_, _, err = iterateExecSpans(batch, DefaultMaxChunkSize, true)
-	e.ErrorIs(err, arrow.ErrInvalid)
-
-	batch.Values = []Datum{&ArrayDatum{arr1.Data()}}
-	_, _, err = iterateExecSpans(batch, DefaultMaxChunkSize, true)
-	e.NoError(err)
-}
-
-func (e *ExecSpanItrSuite) TestChunkedArrays() {
-	arr1 := e.getInt32Chunked([]int64{0, 20, 10})
-	defer arr1.Release()
-	arr2 := e.getInt32Chunked([]int64{15, 15})
-	defer arr2.Release()
-	arr3 := e.getInt32Arr(30, 0.1)
-	defer arr3.Release()
-
-	batch := &ExecBatch{
-		Values: []Datum{
-			&ChunkedDatum{arr1}, &ChunkedDatum{arr2}, &ArrayDatum{arr3.Data()},
-			NewDatum(int32(5)), NewDatum(scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean))},
-		Len: 30,
-	}
-
-	e.checkIteration(batch, 10, []int{10, 5, 5, 10})
-	e.checkIteration(batch, 20, []int{15, 5, 10})
-	e.checkIteration(batch, 30, []int{15, 5, 10})
-}
-
-func (e *ExecSpanItrSuite) TestZeroLengthInput() {
-	carr := arrow.NewChunked(arrow.PrimitiveTypes.Int32, []arrow.Array{})
-	checkArgs := func(batch *ExecBatch) {
-		_, itr, err := iterateExecSpans(batch, DefaultMaxChunkSize, true)
-		e.NoError(err)
-		itrSpan, _, next := itr()
-
-		e.False(next)
-		e.Zero(itrSpan)
-	}
-
-	input := &ExecBatch{Len: 0}
-
-	// zero-length chunkedarray with zero chunks
-	input.Values = []Datum{&ChunkedDatum{carr}}
-	checkArgs(input)
-
-	// zero-length array
-	arr := e.getInt32Arr(0, 0.1)
-	defer arr.Release()
-	input.Values = []Datum{&ArrayDatum{arr.Data()}}
-	checkArgs(input)
-
-	// chunkedarray with single empty chunk
-	carr = e.getInt32Chunked([]int64{0})
-	input.Values = []Datum{&ChunkedDatum{carr}}
-	checkArgs(input)
-}
-
-func TestExecSpanIterator(t *testing.T) {
-	suite.Run(t, new(ExecSpanItrSuite))
-}
diff --git a/go/arrow/compute/exec_test.go b/go/arrow/compute/exec_test.go
deleted file mode 100644
index 27f6676f3187c..0000000000000
--- a/go/arrow/compute/exec_test.go
+++ /dev/null
@@ -1,379 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/suite"
-)
-
-func ExecCopyArray(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	debug.Assert(len(batch.Values) == 1, "wrong number of values")
-	valueSize := int64(batch.Values[0].Type().(arrow.FixedWidthDataType).BitWidth() / 8)
-
-	arg0 := batch.Values[0].Array
-	dst := out.Buffers[1].Buf[out.Offset*valueSize:]
-	src := arg0.Buffers[1].Buf[arg0.Offset*valueSize:]
-	copy(dst, src[:batch.Len*valueSize])
-	return nil
-}
-
-func ExecComputedBitmap(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	// propagate nulls not used. check that out bitmap isn't the same already
-	// as the input bitmap
-	arg0 := batch.Values[0].Array
-	if bitutil.CountSetBits(arg0.Buffers[1].Buf, int(arg0.Offset), int(batch.Len)) > 0 {
-		// check that the bitmap hasn't already been copied
-		debug.Assert(!bitutil.BitmapEquals(arg0.Buffers[0].Buf, out.Buffers[0].Buf,
-			arg0.Offset, out.Offset, batch.Len), "bitmap should not have already been copied")
-	}
-
-	bitutil.CopyBitmap(arg0.Buffers[0].Buf, int(arg0.Offset), int(batch.Len), out.Buffers[0].Buf, int(out.Offset))
-	return ExecCopyArray(ctx, batch, out)
-}
-
-func ExecNoPreallocatedData(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	// validity preallocated, not data
-	debug.Assert(out.Offset == 0, "invalid offset for non-prealloc")
-	valueSize := int64(batch.Values[0].Type().(arrow.FixedWidthDataType).BitWidth() / 8)
-	out.Buffers[1].SetBuffer(ctx.Allocate(int(out.Len * valueSize)))
-	out.Buffers[1].SelfAlloc = true
-	return ExecCopyArray(ctx, batch, out)
-}
-
-func ExecNoPreallocatedAnything(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	// neither validity nor data preallocated
-	debug.Assert(out.Offset == 0, "invalid offset for non-prealloc")
-	out.Buffers[0].SetBuffer(ctx.AllocateBitmap(out.Len))
-	out.Buffers[0].SelfAlloc = true
-	arg0 := batch.Values[0].Array
-	bitutil.CopyBitmap(arg0.Buffers[0].Buf, int(arg0.Offset), int(batch.Len), out.Buffers[0].Buf, 0)
-
-	// reuse kernel that allocates data
-	return ExecNoPreallocatedData(ctx, batch, out)
-}
-
-type ExampleOptions struct {
-	Value scalar.Scalar
-}
-
-func (e *ExampleOptions) TypeName() string { return "example" }
-
-type ExampleState struct {
-	Value scalar.Scalar
-}
-
-func InitStateful(_ *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
-	value := args.Options.(*ExampleOptions).Value
-	return &ExampleState{Value: value}, nil
-}
-
-func ExecStateful(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	state := ctx.State.(*ExampleState)
-	multiplier := state.Value.(*scalar.Int32).Value
-
-	arg0 := batch.Values[0].Array
-	arg0Data := exec.GetSpanValues[int32](&arg0, 1)
-	dst := exec.GetSpanValues[int32](out, 1)
-	for i, v := range arg0Data {
-		dst[i] = v * multiplier
-	}
-	return nil
-}
-
-func ExecAddInt32(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	left := exec.GetSpanValues[int32](&batch.Values[0].Array, 1)
-	right := exec.GetSpanValues[int32](&batch.Values[1].Array, 1)
-	outValues := exec.GetSpanValues[int32](out, 1)
-	for i := 0; i < int(batch.Len); i++ {
-		outValues[i] = left[i] + right[i]
-	}
-	return nil
-}
-
-type CallScalarFuncSuite struct {
-	ComputeInternalsTestSuite
-}
-
-func (c *CallScalarFuncSuite) addCopyFuncs() {
-	registry = GetFunctionRegistry()
-
-	fn := NewScalarFunction("test_copy", Unary(), EmptyFuncDoc)
-	types := []arrow.DataType{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64}
-	for _, t := range types {
-		c.NoError(fn.AddNewKernel([]exec.InputType{exec.NewExactInput(t)},
-			exec.NewOutputType(t), ExecCopyArray, nil))
-	}
-	c.True(registry.AddFunction(fn, false))
-
-	// a version which doesn't want the executor to call propagatenulls
-	fn2 := NewScalarFunction("test_copy_computed_bitmap", Unary(), EmptyFuncDoc)
-	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Uint8)},
-		exec.NewOutputType(arrow.PrimitiveTypes.Uint8), ExecComputedBitmap, nil)
-	kernel.NullHandling = exec.NullComputedPrealloc
-	c.NoError(fn2.AddKernel(kernel))
-	c.True(registry.AddFunction(fn2, false))
-}
-
-func (c *CallScalarFuncSuite) addNoPreallocFuncs() {
-	registry = GetFunctionRegistry()
-
-	// a function that allocates its own output memory. we have cases
-	// for both non-preallocated data and non-preallocated bitmap
-	f1 := NewScalarFunction("test_nopre_data", Unary(), EmptyFuncDoc)
-	f2 := NewScalarFunction("test_nopre_validity_or_data", Unary(), EmptyFuncDoc)
-
-	kernel := exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Uint8)},
-		exec.NewOutputType(arrow.PrimitiveTypes.Uint8),
-		ExecNoPreallocatedData, nil)
-	kernel.MemAlloc = exec.MemNoPrealloc
-	c.NoError(f1.AddKernel(kernel))
-
-	kernel.ExecFn = ExecNoPreallocatedAnything
-	kernel.NullHandling = exec.NullComputedNoPrealloc
-	c.NoError(f2.AddKernel(kernel))
-
-	c.True(registry.AddFunction(f1, false))
-	c.True(registry.AddFunction(f2, false))
-}
-
-func (c *CallScalarFuncSuite) addStatefulFunc() {
-	registry := GetFunctionRegistry()
-
-	// this functions behavior depends on a static parameter that
-	// is made available to the execution through its options object
-	fn := NewScalarFunction("test_stateful", Unary(), EmptyFuncDoc)
-
-	c.NoError(fn.AddNewKernel([]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int32)},
-		exec.NewOutputType(arrow.PrimitiveTypes.Int32), ExecStateful, InitStateful))
-
-	c.True(registry.AddFunction(fn, false))
-}
-
-func (c *CallScalarFuncSuite) addScalarFunc() {
-	registry := GetFunctionRegistry()
-
-	fn := NewScalarFunction("test_scalar_add_int32", Binary(), EmptyFuncDoc)
-	c.NoError(fn.AddNewKernel([]exec.InputType{
-		exec.NewExactInput(arrow.PrimitiveTypes.Int32),
-		exec.NewExactInput(arrow.PrimitiveTypes.Int32)},
-		exec.NewOutputType(arrow.PrimitiveTypes.Int32), ExecAddInt32, nil))
-	c.True(registry.AddFunction(fn, false))
-}
-
-func (c *CallScalarFuncSuite) SetupSuite() {
-	c.addCopyFuncs()
-	c.addNoPreallocFuncs()
-	c.addStatefulFunc()
-	c.addScalarFunc()
-}
-
-func (c *CallScalarFuncSuite) TestArgumentValidation() {
-	// copy accepts only a single array arg
-	arr := c.getInt32Arr(10, 0.1)
-	defer arr.Release()
-	d1 := &ArrayDatum{Value: arr.Data()}
-
-	c.Run("too many args", func() {
-		args := []Datum{d1, d1}
-		_, err := CallFunction(c.ctx.Ctx, "test_copy", nil, args...)
-		c.ErrorIs(err, arrow.ErrInvalid)
-	})
-
-	c.Run("too few args", func() {
-		_, err := CallFunction(c.ctx.Ctx, "test_copy", nil)
-		c.ErrorIs(err, arrow.ErrInvalid)
-	})
-
-	d1Scalar := NewDatum(int32(5))
-	result, err := CallFunction(c.ctx.Ctx, "test_copy", nil, d1)
-	c.NoError(err)
-	result.Release()
-	result, err = CallFunction(c.ctx.Ctx, "test_copy", nil, d1Scalar)
-	c.NoError(err)
-	result.Release()
-}
-
-func (c *CallScalarFuncSuite) TestPreallocationCases() {
-	nullProb := float64(0.2)
-	arr := c.getUint8Arr(100, nullProb)
-	defer arr.Release()
-
-	funcNames := []string{"test_copy", "test_copy_computed_bitmap"}
-	for _, funcName := range funcNames {
-		c.Run(funcName, func() {
-			c.resetCtx()
-
-			c.Run("single output default", func() {
-				result, err := CallFunction(c.ctx.Ctx, funcName, nil, &ArrayDatum{arr.Data()})
-				c.NoError(err)
-				defer result.Release()
-				c.Equal(KindArray, result.Kind())
-				c.assertDatumEqual(arr, result)
-			})
-
-			c.Run("exec chunks", func() {
-				// set the exec_chunksize to be smaller so now we have
-				// several invocations of the kernel,
-				// but still only one output array
-				c.execCtx.ChunkSize = 80
-				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, &ArrayDatum{arr.Data()})
-				c.NoError(err)
-				defer result.Release()
-				c.Equal(KindArray, result.Kind())
-				c.assertDatumEqual(arr, result)
-			})
-
-			c.Run("not multiple 8 chunk", func() {
-				// chunksize is not a multiple of 8
-				c.execCtx.ChunkSize = 11
-				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, &ArrayDatum{arr.Data()})
-				c.NoError(err)
-				defer result.Release()
-				c.Equal(KindArray, result.Kind())
-				c.assertDatumEqual(arr, result)
-			})
-
-			c.Run("chunked", func() {
-				// input is chunked, output is one big chunk
-				chk1, chk2 := array.NewSlice(arr, 0, 10), array.NewSlice(arr, 10, int64(arr.Len()))
-				defer chk1.Release()
-				defer chk2.Release()
-				carr := arrow.NewChunked(arr.DataType(), []arrow.Array{chk1, chk2})
-				defer carr.Release()
-
-				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, &ChunkedDatum{carr})
-				c.NoError(err)
-				defer result.Release()
-				c.Equal(KindChunked, result.Kind())
-				actual := result.(*ChunkedDatum).Value
-				c.Len(actual.Chunks(), 1)
-				c.Truef(array.ChunkedEqual(actual, carr), "expected: %s\ngot: %s", carr, actual)
-			})
-
-			c.Run("independent", func() {
-				// preallocate independently for each batch
-				c.execCtx.PreallocContiguous = false
-				c.execCtx.ChunkSize = 40
-				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, &ArrayDatum{arr.Data()})
-				c.NoError(err)
-				defer result.Release()
-				c.Equal(KindChunked, result.Kind())
-
-				carr := result.(*ChunkedDatum).Value
-				c.Len(carr.Chunks(), 3)
-				sl := array.NewSlice(arr, 0, 40)
-				defer sl.Release()
-				c.assertArrayEqual(sl, carr.Chunk(0))
-				sl = array.NewSlice(arr, 40, 80)
-				defer sl.Release()
-				c.assertArrayEqual(sl, carr.Chunk(1))
-				sl = array.NewSlice(arr, 80, int64(arr.Len()))
-				defer sl.Release()
-				c.assertArrayEqual(sl, carr.Chunk(2))
-			})
-		})
-	}
-}
-
-func (c *CallScalarFuncSuite) TestBasicNonStandardCases() {
-	// test some more cases
-	//
-	// * validity bitmap computed by kernel rather than propagate nulls
-	// * data not pre-allocated
-	// * validity bitmap not pre-allocated
-
-	nullProb := float64(0.2)
-	arr := c.getUint8Arr(1000, nullProb)
-	defer arr.Release()
-	args := []Datum{&ArrayDatum{arr.Data()}}
-
-	for _, funcName := range []string{"test_nopre_data", "test_nopre_validity_or_data"} {
-		c.Run("funcName", func() {
-			c.resetCtx()
-			c.Run("single output default", func() {
-				result, err := CallFunction(c.ctx.Ctx, funcName, nil, args...)
-				c.NoError(err)
-				defer result.Release()
-				c.Equal(KindArray, result.Kind())
-				c.assertDatumEqual(arr, result)
-			})
-
-			c.Run("split into 3 chunks", func() {
-				c.execCtx.ChunkSize = 400
-				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, args...)
-				c.NoError(err)
-				defer result.Release()
-
-				c.Equal(KindChunked, result.Kind())
-
-				carr := result.(*ChunkedDatum).Value
-				c.Len(carr.Chunks(), 3)
-				sl := array.NewSlice(arr, 0, 400)
-				defer sl.Release()
-				c.assertArrayEqual(sl, carr.Chunk(0))
-				sl = array.NewSlice(arr, 400, 800)
-				defer sl.Release()
-				c.assertArrayEqual(sl, carr.Chunk(1))
-				sl = array.NewSlice(arr, 800, int64(arr.Len()))
-				defer sl.Release()
-				c.assertArrayEqual(sl, carr.Chunk(2))
-			})
-		})
-	}
-}
-
-func (c *CallScalarFuncSuite) TestStatefulKernel() {
-	input, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 3, null, 5]`))
-	defer input.Release()
-
-	multiplier := scalar.MakeScalar(int32(2))
-	expected, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[2, 4, 6, null, 10]`))
-	defer expected.Release()
-
-	options := &ExampleOptions{multiplier}
-	result, err := CallFunction(c.ctx.Ctx, "test_stateful", options, &ArrayDatum{input.Data()})
-	c.NoError(err)
-	defer result.Release()
-	c.assertDatumEqual(expected, result)
-}
-
-func (c *CallScalarFuncSuite) TestScalarFunction() {
-	args := []Datum{NewDatum(int32(5)), NewDatum(int32(7))}
-	result, err := CallFunction(c.ctx.Ctx, "test_scalar_add_int32", nil, args...)
-	c.NoError(err)
-	defer result.Release()
-
-	c.Equal(KindScalar, result.Kind())
-	expected := scalar.MakeScalar(int32(12))
-	c.True(scalar.Equals(expected, result.(*ScalarDatum).Value))
-}
-
-func TestCallScalarFunctions(t *testing.T) {
-	suite.Run(t, new(CallScalarFuncSuite))
-}
diff --git a/go/arrow/compute/executor.go b/go/arrow/compute/executor.go
deleted file mode 100644
index 1d197e4220ab2..0000000000000
--- a/go/arrow/compute/executor.go
+++ /dev/null
@@ -1,1122 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-	"fmt"
-	"math"
-	"runtime"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-// ExecCtx holds simple contextual information for execution
-// such as the default ChunkSize for batch iteration, whether or not
-// to ensure contiguous preallocations for kernels that want preallocation,
-// and a reference to the desired function registry to use.
-//
-// An ExecCtx should be placed into a context.Context by using
-// SetExecCtx and GetExecCtx to pass it along for execution.
-type ExecCtx struct {
-	// ChunkSize is the size used when iterating batches for execution
-	// ChunkSize elements will be operated on as a time unless an argument
-	// is a chunkedarray with a chunk that is smaller
-	ChunkSize int64
-	// PreallocContiguous determines whether preallocating memory for
-	// execution of compute attempts to preallocate a full contiguous
-	// buffer for all of the chunks beforehand.
-	PreallocContiguous bool
-	// Registry allows specifying the Function Registry to utilize
-	// when searching for kernel implementations.
-	Registry FunctionRegistry
-	// ExecChannelSize is the size of the channel used for passing
-	// exec results to the WrapResults function.
-	ExecChannelSize int
-	// NumParallel determines the number of parallel goroutines
-	// allowed for parallel executions.
-	NumParallel int
-}
-
-type ctxExecKey struct{}
-
-const DefaultMaxChunkSize = math.MaxInt64
-
-var (
-	// global default ExecCtx object, initialized with the
-	// default max chunk size, contiguous preallocations, and
-	// the default function registry.
-	defaultExecCtx ExecCtx
-
-	// WithAllocator returns a new context with the provided allocator
-	// embedded into the context.
-	WithAllocator = exec.WithAllocator
-	// GetAllocator retrieves the allocator from the context, or returns
-	// memory.DefaultAllocator if there was no allocator in the provided
-	// context.
-	GetAllocator = exec.GetAllocator
-)
-
-// DefaultExecCtx returns the default exec context which will be used
-// if there is no ExecCtx set into the context for execution.
-//
-// This can be called to get a copy of the default values which can
-// then be modified to set into a context.
-//
-// The default exec context uses the following values:
-//   - ChunkSize = DefaultMaxChunkSize (MaxInt64)
-//   - PreallocContiguous = true
-//   - Registry = GetFunctionRegistry()
-//   - ExecChannelSize = 10
-//   - NumParallel = runtime.NumCPU()
-func DefaultExecCtx() ExecCtx { return defaultExecCtx }
-
-func init() {
-	defaultExecCtx.ChunkSize = DefaultMaxChunkSize
-	defaultExecCtx.PreallocContiguous = true
-	defaultExecCtx.Registry = GetFunctionRegistry()
-	defaultExecCtx.ExecChannelSize = 10
-	// default level of parallelism
-	// set to 1 to disable parallelization
-	defaultExecCtx.NumParallel = runtime.NumCPU()
-}
-
-// SetExecCtx returns a new child context containing the passed in ExecCtx
-func SetExecCtx(ctx context.Context, e ExecCtx) context.Context {
-	return context.WithValue(ctx, ctxExecKey{}, e)
-}
-
-// GetExecCtx returns an embedded ExecCtx from the provided context.
-// If it does not contain an ExecCtx, then the default one is returned.
-func GetExecCtx(ctx context.Context) ExecCtx {
-	e, ok := ctx.Value(ctxExecKey{}).(ExecCtx)
-	if ok {
-		return e
-	}
-	return defaultExecCtx
-}
-
-// ExecBatch is a unit of work for kernel execution. It contains a collection
-// of Array and Scalar values.
-//
-// ExecBatch is semantically similar to a RecordBatch but for a SQL-style
-// execution context. It represents a collection or records, but constant
-// "columns" are represented by Scalar values rather than having to be
-// converted into arrays with repeated values.
-type ExecBatch struct {
-	Values []Datum
-	// Guarantee is a predicate Expression guaranteed to evaluate to true for
-	// all rows in this batch.
-	// Guarantee Expression
-	// Len is the semantic length of this ExecBatch. When the values are
-	// all scalars, the length should be set to 1 for non-aggregate kernels.
-	// Otherwise the length is taken from the array values. Aggregate kernels
-	// can have an ExecBatch formed by projecting just the partition columns
-	// from a batch in which case it would have scalar rows with length > 1
-	//
-	// If the array values are of length 0, then the length is 0 regardless of
-	// whether any values are Scalar.
-	Len int64
-}
-
-func (e ExecBatch) NumValues() int { return len(e.Values) }
-
-// simple struct for defining how to preallocate a particular buffer.
-type bufferPrealloc struct {
-	bitWidth int
-	addLen   int
-}
-
-func allocateDataBuffer(ctx *exec.KernelCtx, length, bitWidth int) *memory.Buffer {
-	switch bitWidth {
-	case 1:
-		return ctx.AllocateBitmap(int64(length))
-	default:
-		bufsiz := int(bitutil.BytesForBits(int64(length * bitWidth)))
-		return ctx.Allocate(bufsiz)
-	}
-}
-
-func addComputeDataPrealloc(dt arrow.DataType, widths []bufferPrealloc) []bufferPrealloc {
-	if typ, ok := dt.(arrow.FixedWidthDataType); ok {
-		return append(widths, bufferPrealloc{bitWidth: typ.BitWidth()})
-	}
-
-	switch dt.ID() {
-	case arrow.BINARY, arrow.STRING, arrow.LIST, arrow.MAP:
-		return append(widths, bufferPrealloc{bitWidth: 32, addLen: 1})
-	case arrow.LARGE_BINARY, arrow.LARGE_STRING, arrow.LARGE_LIST:
-		return append(widths, bufferPrealloc{bitWidth: 64, addLen: 1})
-	case arrow.STRING_VIEW, arrow.BINARY_VIEW:
-		return append(widths, bufferPrealloc{bitWidth: arrow.ViewHeaderSizeBytes * 8})
-	}
-	return widths
-}
-
-// enum to define a generalized assumption of the nulls in the inputs
-type nullGeneralization int8
-
-const (
-	nullGenPerhapsNull nullGeneralization = iota
-	nullGenAllValid
-	nullGenAllNull
-)
-
-func getNullGen(val *exec.ExecValue) nullGeneralization {
-	dtID := val.Type().ID()
-	switch {
-	case dtID == arrow.NULL:
-		return nullGenAllNull
-	case !internal.DefaultHasValidityBitmap(dtID):
-		return nullGenAllValid
-	case val.IsScalar():
-		if val.Scalar.IsValid() {
-			return nullGenAllValid
-		}
-		return nullGenAllNull
-	default:
-		arr := val.Array
-		// do not count if they haven't been counted already
-		if arr.Nulls == 0 || arr.Buffers[0].Buf == nil {
-			return nullGenAllValid
-		}
-
-		if arr.Nulls == arr.Len {
-			return nullGenAllNull
-		}
-	}
-	return nullGenPerhapsNull
-}
-
-func getNullGenDatum(datum Datum) nullGeneralization {
-	var val exec.ExecValue
-	switch datum.Kind() {
-	case KindArray:
-		val.Array.SetMembers(datum.(*ArrayDatum).Value)
-	case KindScalar:
-		val.Scalar = datum.(*ScalarDatum).Value
-	case KindChunked:
-		return nullGenPerhapsNull
-	default:
-		debug.Assert(false, "should be array, scalar, or chunked!")
-		return nullGenPerhapsNull
-	}
-	return getNullGen(&val)
-}
-
-// populate the validity bitmaps with the intersection of the nullity
-// of the arguments. If a preallocated bitmap is not provided, then one
-// will be allocated if needed (in some cases a bitmap can be zero-copied
-// from the arguments). If any Scalar value is null, then the entire
-// validity bitmap will be set to null.
-func propagateNulls(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ArraySpan) (err error) {
-	if out.Type.ID() == arrow.NULL {
-		// null output type is a no-op (rare but it happens)
-		return
-	}
-
-	// this function is ONLY able to write into output with non-zero offset
-	// when the bitmap is preallocated.
-	if out.Offset != 0 && out.Buffers[0].Buf == nil {
-		return fmt.Errorf("%w: can only propagate nulls into pre-allocated memory when output offset is non-zero", arrow.ErrInvalid)
-	}
-
-	var (
-		arrsWithNulls = make([]*exec.ArraySpan, 0, len(batch.Values))
-		isAllNull     bool
-		prealloc      bool = out.Buffers[0].Buf != nil
-	)
-
-	for i := range batch.Values {
-		v := &batch.Values[i]
-		nullGen := getNullGen(v)
-		if nullGen == nullGenAllNull {
-			isAllNull = true
-		}
-		if nullGen != nullGenAllValid && v.IsArray() {
-			arrsWithNulls = append(arrsWithNulls, &v.Array)
-		}
-	}
-
-	outBitmap := out.Buffers[0].Buf
-	if isAllNull {
-		// an all-null value gives us a short circuit opportunity
-		// output should all be null
-		out.Nulls = out.Len
-		if prealloc {
-			bitutil.SetBitsTo(outBitmap, out.Offset, out.Len, false)
-			return
-		}
-
-		// walk all the values with nulls instead of breaking on the first
-		// in case we find a bitmap that can be reused in the non-preallocated case
-		for _, arr := range arrsWithNulls {
-			if arr.Nulls == arr.Len && arr.Buffers[0].Owner != nil {
-				buf := arr.GetBuffer(0)
-				buf.Retain()
-				out.Buffers[0].Buf = buf.Bytes()
-				out.Buffers[0].Owner = buf
-				return
-			}
-		}
-
-		buf := ctx.AllocateBitmap(int64(out.Len))
-		out.Buffers[0].Owner = buf
-		out.Buffers[0].Buf = buf.Bytes()
-		out.Buffers[0].SelfAlloc = true
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, false)
-		return
-	}
-
-	out.Nulls = array.UnknownNullCount
-	switch len(arrsWithNulls) {
-	case 0:
-		out.Nulls = 0
-		if prealloc {
-			bitutil.SetBitsTo(outBitmap, out.Offset, out.Len, true)
-		}
-	case 1:
-		arr := arrsWithNulls[0]
-		out.Nulls = arr.Nulls
-		if prealloc {
-			bitutil.CopyBitmap(arr.Buffers[0].Buf, int(arr.Offset), int(arr.Len), outBitmap, int(out.Offset))
-			return
-		}
-
-		switch {
-		case arr.Offset == 0:
-			out.Buffers[0] = arr.Buffers[0]
-			out.Buffers[0].Owner.Retain()
-		case arr.Offset%8 == 0:
-			buf := memory.SliceBuffer(arr.GetBuffer(0), int(arr.Offset)/8, int(bitutil.BytesForBits(arr.Len)))
-			out.Buffers[0].Buf = buf.Bytes()
-			out.Buffers[0].Owner = buf
-		default:
-			buf := ctx.AllocateBitmap(int64(out.Len))
-			out.Buffers[0].Owner = buf
-			out.Buffers[0].Buf = buf.Bytes()
-			out.Buffers[0].SelfAlloc = true
-			bitutil.CopyBitmap(arr.Buffers[0].Buf, int(arr.Offset), int(arr.Len), out.Buffers[0].Buf, 0)
-		}
-		return
-
-	default:
-		if !prealloc {
-			buf := ctx.AllocateBitmap(int64(out.Len))
-			out.Buffers[0].Owner = buf
-			out.Buffers[0].Buf = buf.Bytes()
-			out.Buffers[0].SelfAlloc = true
-			outBitmap = out.Buffers[0].Buf
-		}
-
-		acc := func(left, right *exec.ArraySpan) {
-			debug.Assert(left.Buffers[0].Buf != nil, "invalid intersection for null propagation")
-			debug.Assert(right.Buffers[0].Buf != nil, "invalid intersection for null propagation")
-			bitutil.BitmapAnd(left.Buffers[0].Buf, right.Buffers[0].Buf, left.Offset, right.Offset, outBitmap, out.Offset, out.Len)
-		}
-
-		acc(arrsWithNulls[0], arrsWithNulls[1])
-		for _, arr := range arrsWithNulls[2:] {
-			acc(out, arr)
-		}
-	}
-	return
-}
-
-func inferBatchLength(values []Datum) (length int64, allSame bool) {
-	length, allSame = -1, true
-	areAllScalar := true
-	for _, arg := range values {
-		switch arg := arg.(type) {
-		case *ArrayDatum:
-			argLength := arg.Len()
-			if length < 0 {
-				length = argLength
-			} else {
-				if length != argLength {
-					allSame = false
-					return
-				}
-			}
-			areAllScalar = false
-		case *ChunkedDatum:
-			argLength := arg.Len()
-			if length < 0 {
-				length = argLength
-			} else {
-				if length != argLength {
-					allSame = false
-					return
-				}
-			}
-			areAllScalar = false
-		}
-	}
-
-	if areAllScalar && len(values) > 0 {
-		length = 1
-	} else if length < 0 {
-		length = 0
-	}
-	allSame = true
-	return
-}
-
-// KernelExecutor is the interface for all executors to initialize and
-// call kernel execution functions on batches.
-type KernelExecutor interface {
-	// Init must be called *after* the kernel's init method and any
-	// KernelState must be set into the KernelCtx *before* calling
-	// this Init method. This is to facilitate the case where
-	// Init may be expensive and does not need to be called
-	// again for each execution of the kernel. For example,
-	// the same lookup table can be re-used for all scanned batches
-	// in a dataset filter.
-	Init(*exec.KernelCtx, exec.KernelInitArgs) error
-	// Execute the kernel for the provided batch and pass the resulting
-	// Datum values to the provided channel.
-	Execute(context.Context, *ExecBatch, chan<- Datum) error
-	// WrapResults exists for the case where an executor wants to post process
-	// the batches of result datums. Such as creating a ChunkedArray from
-	// multiple output batches or so on. Results from individual batch
-	// executions should be read from the out channel, and WrapResults should
-	// return the final Datum result.
-	WrapResults(ctx context.Context, out <-chan Datum, chunkedArgs bool) Datum
-	// CheckResultType checks the actual result type against the resolved
-	// output type. If the types don't match an error is returned
-	CheckResultType(out Datum) error
-	// Clear resets the state in the executor so that it can be reused.
-	Clear()
-}
-
-// the base implementation for executing non-aggregate kernels.
-type nonAggExecImpl struct {
-	ctx              *exec.KernelCtx
-	ectx             ExecCtx
-	kernel           exec.NonAggKernel
-	outType          arrow.DataType
-	numOutBuf        int
-	dataPrealloc     []bufferPrealloc
-	preallocValidity bool
-}
-
-func (e *nonAggExecImpl) Clear() {
-	e.ctx, e.kernel, e.outType = nil, nil, nil
-	if e.dataPrealloc != nil {
-		e.dataPrealloc = e.dataPrealloc[:0]
-	}
-}
-
-func (e *nonAggExecImpl) Init(ctx *exec.KernelCtx, args exec.KernelInitArgs) (err error) {
-	e.ctx, e.kernel = ctx, args.Kernel.(exec.NonAggKernel)
-	e.outType, err = e.kernel.GetSig().OutType.Resolve(ctx, args.Inputs)
-	e.ectx = GetExecCtx(ctx.Ctx)
-	return
-}
-
-func (e *nonAggExecImpl) prepareOutput(length int) *exec.ExecResult {
-	var nullCount int = array.UnknownNullCount
-
-	if e.kernel.GetNullHandling() == exec.NullNoOutput {
-		nullCount = 0
-	}
-
-	output := &exec.ArraySpan{
-		Type:  e.outType,
-		Len:   int64(length),
-		Nulls: int64(nullCount),
-	}
-
-	if e.preallocValidity {
-		buf := e.ctx.AllocateBitmap(int64(length))
-		output.Buffers[0].Owner = buf
-		output.Buffers[0].Buf = buf.Bytes()
-		output.Buffers[0].SelfAlloc = true
-	}
-
-	for i, pre := range e.dataPrealloc {
-		if pre.bitWidth >= 0 {
-			buf := allocateDataBuffer(e.ctx, length+pre.addLen, pre.bitWidth)
-			output.Buffers[i+1].Owner = buf
-			output.Buffers[i+1].Buf = buf.Bytes()
-			output.Buffers[i+1].SelfAlloc = true
-		}
-	}
-
-	return output
-}
-
-func (e *nonAggExecImpl) CheckResultType(out Datum) error {
-	typ := out.(ArrayLikeDatum).Type()
-	if typ != nil && !arrow.TypeEqual(e.outType, typ) {
-		return fmt.Errorf("%w: kernel type result mismatch: declared as %s, actual is %s",
-			arrow.ErrType, e.outType, typ)
-	}
-	return nil
-}
-
-type spanIterator func() (exec.ExecSpan, int64, bool)
-
-func NewScalarExecutor() KernelExecutor { return &scalarExecutor{} }
-
-type scalarExecutor struct {
-	nonAggExecImpl
-
-	elideValidityBitmap bool
-	preallocAllBufs     bool
-	preallocContiguous  bool
-	allScalars          bool
-	iter                spanIterator
-	iterLen             int64
-}
-
-func (s *scalarExecutor) Execute(ctx context.Context, batch *ExecBatch, data chan<- Datum) (err error) {
-	s.allScalars, s.iter, err = iterateExecSpans(batch, s.ectx.ChunkSize, true)
-	if err != nil {
-		return
-	}
-
-	s.iterLen = batch.Len
-
-	if batch.Len == 0 {
-		result := array.MakeArrayOfNull(exec.GetAllocator(s.ctx.Ctx), s.outType, 0)
-		defer result.Release()
-		out := &exec.ArraySpan{}
-		out.SetMembers(result.Data())
-		return s.emitResult(out, data)
-	}
-
-	if err = s.setupPrealloc(batch.Len, batch.Values); err != nil {
-		return
-	}
-
-	return s.executeSpans(data)
-}
-
-func (s *scalarExecutor) WrapResults(ctx context.Context, out <-chan Datum, hasChunked bool) Datum {
-	var (
-		output Datum
-		acc    []arrow.Array
-	)
-
-	toChunked := func() {
-		acc = output.(ArrayLikeDatum).Chunks()
-		output.Release()
-		output = nil
-	}
-
-	// get first output
-	select {
-	case <-ctx.Done():
-		return nil
-	case output = <-out:
-		// if the inputs contained at least one chunked array
-		// then we want to return chunked output
-		if hasChunked {
-			toChunked()
-		}
-	}
-
-	for {
-		select {
-		case <-ctx.Done():
-			// context is done, either cancelled or a timeout.
-			// either way, we end early and return what we've got so far.
-			return output
-		case o, ok := <-out:
-			if !ok { // channel closed, wrap it up
-				if output != nil {
-					return output
-				}
-
-				for _, c := range acc {
-					defer c.Release()
-				}
-
-				chkd := arrow.NewChunked(s.outType, acc)
-				defer chkd.Release()
-				return NewDatum(chkd)
-			}
-
-			// if we get multiple batches of output, then we need
-			// to return it as a chunked array.
-			if acc == nil {
-				toChunked()
-			}
-
-			defer o.Release()
-			if o.Len() == 0 { // skip any empty batches
-				continue
-			}
-
-			acc = append(acc, o.(*ArrayDatum).MakeArray())
-		}
-	}
-}
-
-func (s *scalarExecutor) executeSpans(data chan<- Datum) (err error) {
-	var (
-		input  exec.ExecSpan
-		output exec.ExecResult
-		next   bool
-	)
-
-	if s.preallocContiguous {
-		// make one big output alloc
-		prealloc := s.prepareOutput(int(s.iterLen))
-		output = *prealloc
-
-		output.Offset = 0
-		var resultOffset int64
-		var nextOffset int64
-		for err == nil {
-			if input, nextOffset, next = s.iter(); !next {
-				break
-			}
-			output.SetSlice(resultOffset, input.Len)
-			err = s.executeSingleSpan(&input, &output)
-			resultOffset = nextOffset
-		}
-		if err != nil {
-			prealloc.Release()
-			return
-		}
-
-		return s.emitResult(prealloc, data)
-	}
-
-	// fully preallocating, but not contiguously
-	// we (maybe) preallocate only for the output of processing
-	// the current chunk
-	for err == nil {
-		if input, _, next = s.iter(); !next {
-			break
-		}
-
-		output = *s.prepareOutput(int(input.Len))
-		if err = s.executeSingleSpan(&input, &output); err != nil {
-			output.Release()
-			return
-		}
-		err = s.emitResult(&output, data)
-	}
-
-	return
-}
-
-func (s *scalarExecutor) executeSingleSpan(input *exec.ExecSpan, out *exec.ExecResult) error {
-	switch {
-	case out.Type.ID() == arrow.NULL:
-		out.Nulls = out.Len
-	case s.kernel.GetNullHandling() == exec.NullIntersection:
-		if !s.elideValidityBitmap {
-			propagateNulls(s.ctx, input, out)
-		}
-	case s.kernel.GetNullHandling() == exec.NullNoOutput:
-		out.Nulls = 0
-	}
-	return s.kernel.Exec(s.ctx, input, out)
-}
-
-func (s *scalarExecutor) setupPrealloc(totalLen int64, args []Datum) error {
-	s.numOutBuf = len(s.outType.Layout().Buffers)
-	outTypeID := s.outType.ID()
-	// default to no validity pre-allocation for the following cases:
-	// - Output Array is NullArray
-	// - kernel.NullHandling is ComputeNoPrealloc or OutputNotNull
-	s.preallocValidity = false
-
-	if outTypeID != arrow.NULL {
-		switch s.kernel.GetNullHandling() {
-		case exec.NullComputedPrealloc:
-			s.preallocValidity = true
-		case exec.NullIntersection:
-			s.elideValidityBitmap = true
-			for _, a := range args {
-				nullGen := getNullGenDatum(a) == nullGenAllValid
-				s.elideValidityBitmap = s.elideValidityBitmap && nullGen
-			}
-			s.preallocValidity = !s.elideValidityBitmap
-		case exec.NullNoOutput:
-			s.elideValidityBitmap = true
-		}
-	}
-
-	if s.kernel.GetMemAlloc() == exec.MemPrealloc {
-		s.dataPrealloc = addComputeDataPrealloc(s.outType, s.dataPrealloc)
-	}
-
-	// validity bitmap either preallocated or elided, and all data buffers allocated
-	// this is basically only true for primitive types that are not dict-encoded
-	s.preallocAllBufs =
-		((s.preallocValidity || s.elideValidityBitmap) && len(s.dataPrealloc) == (s.numOutBuf-1) &&
-			!arrow.IsNested(outTypeID) && outTypeID != arrow.DICTIONARY)
-
-	// contiguous prealloc only possible on non-nested types if all
-	// buffers are preallocated. otherwise we have to go chunk by chunk
-	//
-	// some kernels are also unable to write into sliced outputs, so
-	// we respect the kernel's attributes
-	s.preallocContiguous =
-		(s.ectx.PreallocContiguous && s.kernel.CanFillSlices() &&
-			s.preallocAllBufs)
-
-	return nil
-}
-
-func (s *scalarExecutor) emitResult(resultData *exec.ArraySpan, data chan<- Datum) error {
-	var output Datum
-	if len(resultData.Buffers[0].Buf) != 0 {
-		resultData.UpdateNullCount()
-	}
-	if s.allScalars {
-		// we boxed scalar inputs as ArraySpan so now we have to unbox the output
-		arr := resultData.MakeArray()
-		defer arr.Release()
-		sc, err := scalar.GetScalar(arr, 0)
-		if err != nil {
-			return err
-		}
-		if r, ok := sc.(scalar.Releasable); ok {
-			defer r.Release()
-		}
-		output = NewDatum(sc)
-	} else {
-		d := resultData.MakeData()
-		defer d.Release()
-		output = NewDatum(d)
-	}
-	data <- output
-	return nil
-}
-
-func checkAllIsValue(vals []Datum) error {
-	for _, v := range vals {
-		if !DatumIsValue(v) {
-			return fmt.Errorf("%w: tried executing function with non-value type: %s",
-				arrow.ErrInvalid, v)
-		}
-	}
-	return nil
-}
-
-func checkIfAllScalar(batch *ExecBatch) bool {
-	for _, v := range batch.Values {
-		if v.Kind() != KindScalar {
-			return false
-		}
-	}
-	return batch.NumValues() > 0
-}
-
-// iterateExecSpans sets up and returns a function which can iterate a batch
-// according to the chunk sizes. If the inputs contain chunked arrays, then
-// we will find the min(chunk sizes, maxChunkSize) to ensure we return
-// contiguous spans to execute on.
-//
-// the iteration function returns the next span to execute on, the current
-// position in the full batch, and a boolean indicating whether or not
-// a span was actually returned (there is data to process).
-func iterateExecSpans(batch *ExecBatch, maxChunkSize int64, promoteIfAllScalar bool) (haveAllScalars bool, itr spanIterator, err error) {
-	if batch.NumValues() > 0 {
-		inferred, allArgsSame := inferBatchLength(batch.Values)
-		if inferred != batch.Len {
-			return false, nil, fmt.Errorf("%w: value lengths differed from execbatch length", arrow.ErrInvalid)
-		}
-		if !allArgsSame {
-			return false, nil, fmt.Errorf("%w: array args must all be the same length", arrow.ErrInvalid)
-		}
-	}
-
-	var (
-		args           []Datum = batch.Values
-		haveChunked    bool
-		chunkIdxes           = make([]int, len(args))
-		valuePositions       = make([]int64, len(args))
-		valueOffsets         = make([]int64, len(args))
-		pos, length    int64 = 0, batch.Len
-	)
-	haveAllScalars = checkIfAllScalar(batch)
-	maxChunkSize = exec.Min(length, maxChunkSize)
-
-	span := exec.ExecSpan{Values: make([]exec.ExecValue, len(args)), Len: 0}
-	for i, a := range args {
-		switch arg := a.(type) {
-		case *ScalarDatum:
-			span.Values[i].Scalar = arg.Value
-		case *ArrayDatum:
-			span.Values[i].Array.SetMembers(arg.Value)
-			valueOffsets[i] = int64(arg.Value.Offset())
-		case *ChunkedDatum:
-			// populate from first chunk
-			carr := arg.Value
-			if len(carr.Chunks()) > 0 {
-				arr := carr.Chunk(0).Data()
-				span.Values[i].Array.SetMembers(arr)
-				valueOffsets[i] = int64(arr.Offset())
-			} else {
-				// fill as zero len
-				exec.FillZeroLength(carr.DataType(), &span.Values[i].Array)
-			}
-			haveChunked = true
-		}
-	}
-
-	if haveAllScalars && promoteIfAllScalar {
-		exec.PromoteExecSpanScalars(span)
-	}
-
-	nextChunkSpan := func(iterSz int64, span exec.ExecSpan) int64 {
-		for i := 0; i < len(args) && iterSz > 0; i++ {
-			// if the argument is not chunked, it's either a scalar or an array
-			// in which case it doesn't influence the size of the span
-			chunkedArg, ok := args[i].(*ChunkedDatum)
-			if !ok {
-				continue
-			}
-
-			arg := chunkedArg.Value
-			if len(arg.Chunks()) == 0 {
-				iterSz = 0
-				continue
-			}
-
-			var curChunk arrow.Array
-			for {
-				curChunk = arg.Chunk(chunkIdxes[i])
-				if valuePositions[i] == int64(curChunk.Len()) {
-					// chunk is zero-length, or was exhausted in the previous
-					// iteration, move to next chunk
-					chunkIdxes[i]++
-					curChunk = arg.Chunk(chunkIdxes[i])
-					span.Values[i].Array.SetMembers(curChunk.Data())
-					valuePositions[i] = 0
-					valueOffsets[i] = int64(curChunk.Data().Offset())
-					continue
-				}
-				break
-			}
-			iterSz = exec.Min(int64(curChunk.Len())-valuePositions[i], iterSz)
-		}
-		return iterSz
-	}
-
-	return haveAllScalars, func() (exec.ExecSpan, int64, bool) {
-		if pos == length {
-			return exec.ExecSpan{}, pos, false
-		}
-
-		iterationSize := exec.Min(length-pos, maxChunkSize)
-		if haveChunked {
-			iterationSize = nextChunkSpan(iterationSize, span)
-		}
-
-		span.Len = iterationSize
-		for i, a := range args {
-			if a.Kind() != KindScalar {
-				span.Values[i].Array.SetSlice(valuePositions[i]+valueOffsets[i], iterationSize)
-				valuePositions[i] += iterationSize
-			}
-		}
-
-		pos += iterationSize
-		debug.Assert(pos <= length, "bad state for iteration exec span")
-		return span, pos, true
-	}, nil
-}
-
-var (
-	// have a pool of scalar executors to avoid excessive object creation
-	scalarExecPool = sync.Pool{
-		New: func() any { return &scalarExecutor{} },
-	}
-	vectorExecPool = sync.Pool{
-		New: func() any { return &vectorExecutor{} },
-	}
-)
-
-func checkCanExecuteChunked(k *exec.VectorKernel) error {
-	if k.ExecChunked == nil {
-		return fmt.Errorf("%w: vector kernel cannot execute chunkwise and no chunked exec function defined", arrow.ErrInvalid)
-	}
-
-	if k.NullHandling == exec.NullIntersection {
-		return fmt.Errorf("%w: null pre-propagation is unsupported for chunkedarray execution in vector kernels", arrow.ErrInvalid)
-	}
-	return nil
-}
-
-type vectorExecutor struct {
-	nonAggExecImpl
-
-	iter    spanIterator
-	results []*exec.ArraySpan
-	iterLen int64
-
-	allScalars bool
-}
-
-func (v *vectorExecutor) Execute(ctx context.Context, batch *ExecBatch, data chan<- Datum) (err error) {
-	final := v.kernel.(*exec.VectorKernel).Finalize
-	if final != nil {
-		if v.results == nil {
-			v.results = make([]*exec.ArraySpan, 0, 1)
-		} else {
-			v.results = v.results[:0]
-		}
-	}
-	// some vector kernels have a separate code path for handling chunked
-	// arrays (VectorKernel.ExecChunked) so we check for any chunked
-	// arrays. If we do and an ExecChunked function is defined
-	// then we call that.
-	hasChunked := haveChunkedArray(batch.Values)
-	v.numOutBuf = len(v.outType.Layout().Buffers)
-	v.preallocValidity = v.kernel.GetNullHandling() != exec.NullComputedNoPrealloc &&
-		v.kernel.GetNullHandling() != exec.NullNoOutput
-	if v.kernel.GetMemAlloc() == exec.MemPrealloc {
-		v.dataPrealloc = addComputeDataPrealloc(v.outType, v.dataPrealloc)
-	}
-
-	if v.kernel.(*exec.VectorKernel).CanExecuteChunkWise {
-		v.allScalars, v.iter, err = iterateExecSpans(batch, v.ectx.ChunkSize, true)
-		v.iterLen = batch.Len
-
-		var (
-			input exec.ExecSpan
-			next  bool
-		)
-		if v.iterLen == 0 {
-			input.Values = make([]exec.ExecValue, batch.NumValues())
-			for i, v := range batch.Values {
-				exec.FillZeroLength(v.(ArrayLikeDatum).Type(), &input.Values[i].Array)
-			}
-			err = v.exec(&input, data)
-		}
-		for err == nil {
-			if input, _, next = v.iter(); !next {
-				break
-			}
-			err = v.exec(&input, data)
-		}
-		if err != nil {
-			return
-		}
-	} else {
-		// kernel cannot execute chunkwise. if we have any chunked arrays,
-		// then execchunked must be defined or we raise an error
-		if hasChunked {
-			if err = v.execChunked(batch, data); err != nil {
-				return
-			}
-		} else {
-			// no chunked arrays. we pack the args into an execspan
-			// and call regular exec code path
-			span := ExecSpanFromBatch(batch)
-			if checkIfAllScalar(batch) {
-				exec.PromoteExecSpanScalars(*span)
-			}
-			if err = v.exec(span, data); err != nil {
-				return
-			}
-		}
-	}
-
-	if final != nil {
-		// intermediate results require post-processing after execution is
-		// completed (possibly involving some accumulated state)
-		output, err := final(v.ctx, v.results)
-		if err != nil {
-			return err
-		}
-
-		for _, r := range output {
-			d := r.MakeData()
-			defer d.Release()
-			data <- NewDatum(d)
-		}
-	}
-
-	return nil
-}
-
-func (v *vectorExecutor) WrapResults(ctx context.Context, out <-chan Datum, hasChunked bool) Datum {
-	// if kernel doesn't output chunked, just grab the one output and return it
-	if !v.kernel.(*exec.VectorKernel).OutputChunked {
-		var output Datum
-		select {
-		case <-ctx.Done():
-			return nil
-		case output = <-out:
-		}
-
-		// we got an output datum, but let's wait for the channel to
-		// close so we don't have any race conditions
-		select {
-		case <-ctx.Done():
-			output.Release()
-			return nil
-		case <-out:
-			return output
-		}
-	}
-
-	// if execution yielded multiple chunks then the result is a chunked array
-	var (
-		output Datum
-		acc    []arrow.Array
-	)
-
-	toChunked := func() {
-		out := output.(ArrayLikeDatum).Chunks()
-		acc = make([]arrow.Array, 0, len(out))
-		for _, o := range out {
-			if o.Len() > 0 {
-				acc = append(acc, o)
-			}
-		}
-		if output.Kind() != KindChunked {
-			output.Release()
-		}
-		output = nil
-	}
-
-	// get first output
-	select {
-	case <-ctx.Done():
-		return nil
-	case output = <-out:
-		if output == nil || ctx.Err() != nil {
-			return nil
-		}
-
-		// if the inputs contained at least one chunked array
-		// then we want to return chunked output
-		if hasChunked {
-			toChunked()
-		}
-	}
-
-	for {
-		select {
-		case <-ctx.Done():
-			// context is done, either cancelled or a timeout.
-			// either way, we end early and return what we've got so far.
-			return output
-		case o, ok := <-out:
-			if !ok { // channel closed, wrap it up
-				if output != nil {
-					return output
-				}
-
-				for _, c := range acc {
-					defer c.Release()
-				}
-
-				chkd := arrow.NewChunked(v.outType, acc)
-				defer chkd.Release()
-				return NewDatum(chkd)
-			}
-
-			// if we get multiple batches of output, then we need
-			// to return it as a chunked array.
-			if acc == nil {
-				toChunked()
-			}
-
-			defer o.Release()
-			if o.Len() == 0 { // skip any empty batches
-				continue
-			}
-
-			acc = append(acc, o.(*ArrayDatum).MakeArray())
-		}
-	}
-}
-
-func (v *vectorExecutor) exec(span *exec.ExecSpan, data chan<- Datum) (err error) {
-	out := v.prepareOutput(int(span.Len))
-	if v.kernel.GetNullHandling() == exec.NullIntersection {
-		if err = propagateNulls(v.ctx, span, out); err != nil {
-			return
-		}
-	}
-	if err = v.kernel.Exec(v.ctx, span, out); err != nil {
-		return
-	}
-	return v.emitResult(out, data)
-}
-
-func (v *vectorExecutor) emitResult(result *exec.ArraySpan, data chan<- Datum) (err error) {
-	if v.kernel.(*exec.VectorKernel).Finalize == nil {
-		d := result.MakeData()
-		defer d.Release()
-		data <- NewDatum(d)
-	} else {
-		v.results = append(v.results, result)
-	}
-	return nil
-}
-
-func (v *vectorExecutor) execChunked(batch *ExecBatch, out chan<- Datum) error {
-	if err := checkCanExecuteChunked(v.kernel.(*exec.VectorKernel)); err != nil {
-		return err
-	}
-
-	output := v.prepareOutput(int(batch.Len))
-	input := make([]*arrow.Chunked, len(batch.Values))
-	for i, v := range batch.Values {
-		switch val := v.(type) {
-		case *ArrayDatum:
-			chks := val.Chunks()
-			input[i] = arrow.NewChunked(val.Type(), chks)
-			chks[0].Release()
-			defer input[i].Release()
-		case *ChunkedDatum:
-			input[i] = val.Value
-		default:
-			return fmt.Errorf("%w: handling with exec chunked", arrow.ErrNotImplemented)
-		}
-	}
-	result, err := v.kernel.(*exec.VectorKernel).ExecChunked(v.ctx, input, output)
-	if err != nil {
-		return err
-	}
-
-	if len(result) == 0 {
-		empty := output.MakeArray()
-		defer empty.Release()
-		out <- &ChunkedDatum{Value: arrow.NewChunked(output.Type, []arrow.Array{empty})}
-		return nil
-	}
-
-	for _, r := range result {
-		if err := v.emitResult(r, out); err != nil {
-			return err
-		}
-	}
-	return nil
-}
diff --git a/go/arrow/compute/expression.go b/go/arrow/compute/expression.go
deleted file mode 100644
index f6aadeda5634b..0000000000000
--- a/go/arrow/compute/expression.go
+++ /dev/null
@@ -1,904 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"bytes"
-	"encoding/hex"
-	"errors"
-	"fmt"
-	"hash/maphash"
-	"reflect"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-var hashSeed = maphash.MakeSeed()
-
-// Expression is an interface for mapping one datum to another. An expression
-// is one of:
-//
-//	A literal Datum
-//	A reference to a single (potentially nested) field of an input Datum
-//	A call to a compute function, with arguments specified by other Expressions
-//
-// Deprecated: use substrait-go expressions instead.
-type Expression interface {
-	fmt.Stringer
-	// IsBound returns true if this expression has been bound to a particular
-	// Datum and/or Schema.
-	IsBound() bool
-	// IsScalarExpr returns true if this expression is composed only of scalar
-	// literals, field references and calls to scalar functions.
-	IsScalarExpr() bool
-	// IsNullLiteral returns true if this expression is a literal and entirely
-	// null.
-	IsNullLiteral() bool
-	// IsSatisfiable returns true if this expression could evaluate to true
-	IsSatisfiable() bool
-	// FieldRef returns a pointer to the underlying field reference, or nil if
-	// this expression is not a field reference.
-	FieldRef() *FieldRef
-	// Type returns the datatype this expression will evaluate to.
-	Type() arrow.DataType
-
-	Hash() uint64
-	Equals(Expression) bool
-
-	// Release releases the underlying bound C++ memory that is allocated when
-	// a Bind is performed. Any bound expression should get released to ensure
-	// no memory leaks.
-	Release()
-}
-
-func printDatum(datum Datum) string {
-	switch datum := datum.(type) {
-	case *ScalarDatum:
-		if !datum.Value.IsValid() {
-			return "null"
-		}
-
-		switch datum.Type().ID() {
-		case arrow.STRING, arrow.LARGE_STRING:
-			return strconv.Quote(datum.Value.(scalar.BinaryScalar).String())
-		case arrow.BINARY, arrow.FIXED_SIZE_BINARY, arrow.LARGE_BINARY:
-			return `"` + strings.ToUpper(hex.EncodeToString(datum.Value.(scalar.BinaryScalar).Data())) + `"`
-		}
-
-		return datum.Value.String()
-	default:
-		return datum.String()
-	}
-}
-
-// Literal is an expression denoting a literal Datum which could be any value
-// as a scalar, an array, or so on.
-//
-// Deprecated: use substrait-go expressions Literal instead.
-type Literal struct {
-	Literal Datum
-}
-
-func (Literal) FieldRef() *FieldRef     { return nil }
-func (l *Literal) String() string       { return printDatum(l.Literal) }
-func (l *Literal) Type() arrow.DataType { return l.Literal.(ArrayLikeDatum).Type() }
-func (l *Literal) IsBound() bool        { return l.Type() != nil }
-func (l *Literal) IsScalarExpr() bool   { return l.Literal.Kind() == KindScalar }
-
-func (l *Literal) Equals(other Expression) bool {
-	if rhs, ok := other.(*Literal); ok {
-		return l.Literal.Equals(rhs.Literal)
-	}
-	return false
-}
-
-func (l *Literal) IsNullLiteral() bool {
-	if ad, ok := l.Literal.(ArrayLikeDatum); ok {
-		return ad.NullN() == ad.Len()
-	}
-	return true
-}
-
-func (l *Literal) IsSatisfiable() bool {
-	if l.IsNullLiteral() {
-		return false
-	}
-
-	if sc, ok := l.Literal.(*ScalarDatum); ok && sc.Type().ID() == arrow.BOOL {
-		return sc.Value.(*scalar.Boolean).Value
-	}
-
-	return true
-}
-
-func (l *Literal) Hash() uint64 {
-	if l.IsScalarExpr() {
-		return scalar.Hash(hashSeed, l.Literal.(*ScalarDatum).Value)
-	}
-	return 0
-}
-
-func (l *Literal) Release() {
-	l.Literal.Release()
-}
-
-// Parameter represents a field reference and needs to be bound in order to determine
-// its type and shape.
-//
-// Deprecated: use substrait-go field references instead.
-type Parameter struct {
-	ref *FieldRef
-
-	// post bind props
-	dt    arrow.DataType
-	index int
-}
-
-func (Parameter) IsNullLiteral() bool     { return false }
-func (p *Parameter) Type() arrow.DataType { return p.dt }
-func (p *Parameter) IsBound() bool        { return p.Type() != nil }
-func (p *Parameter) IsScalarExpr() bool   { return p.ref != nil }
-func (p *Parameter) IsSatisfiable() bool  { return p.Type() == nil || p.Type().ID() != arrow.NULL }
-func (p *Parameter) FieldRef() *FieldRef  { return p.ref }
-func (p *Parameter) Hash() uint64         { return p.ref.Hash(hashSeed) }
-
-func (p *Parameter) String() string {
-	switch {
-	case p.ref.IsName():
-		return p.ref.Name()
-	case p.ref.IsFieldPath():
-		return p.ref.FieldPath().String()
-	default:
-		return p.ref.String()
-	}
-}
-
-func (p *Parameter) Equals(other Expression) bool {
-	if rhs, ok := other.(*Parameter); ok {
-		return p.ref.Equals(*rhs.ref)
-	}
-
-	return false
-}
-
-func (p *Parameter) Release() {}
-
-type comparisonType int8
-
-const (
-	compNA comparisonType = 0
-	compEQ comparisonType = 1
-	compLT comparisonType = 2
-	compGT comparisonType = 4
-	compNE comparisonType = compLT | compGT
-	compLE comparisonType = compLT | compEQ
-	compGE comparisonType = compGT | compEQ
-)
-
-//lint:ignore U1000 ignore that this is unused for now
-func (c comparisonType) name() string {
-	switch c {
-	case compEQ:
-		return "equal"
-	case compLT:
-		return "less"
-	case compGT:
-		return "greater"
-	case compNE:
-		return "not_equal"
-	case compLE:
-		return "less_equal"
-	case compGE:
-		return "greater_equal"
-	}
-	return "na"
-}
-
-func (c comparisonType) getOp() string {
-	switch c {
-	case compEQ:
-		return "=="
-	case compLT:
-		return "<"
-	case compGT:
-		return ">"
-	case compNE:
-		return "!="
-	case compLE:
-		return "<="
-	case compGE:
-		return ">="
-	}
-	debug.Assert(false, "invalid getop")
-	return ""
-}
-
-var compmap = map[string]comparisonType{
-	"equal":         compEQ,
-	"less":          compLT,
-	"greater":       compGT,
-	"not_equal":     compNE,
-	"less_equal":    compLE,
-	"greater_equal": compGE,
-}
-
-func optionsToString(fn FunctionOptions) string {
-	if s, ok := fn.(fmt.Stringer); ok {
-		return s.String()
-	}
-
-	var b strings.Builder
-	v := reflect.Indirect(reflect.ValueOf(fn))
-	b.WriteByte('{')
-	for i := 0; i < v.Type().NumField(); i++ {
-		fld := v.Type().Field(i)
-		tag := fld.Tag.Get("compute")
-		if tag == "-" {
-			continue
-		}
-
-		fldVal := v.Field(i)
-		fmt.Fprintf(&b, "%s=%v, ", tag, fldVal.Interface())
-	}
-	ret := b.String()
-	return ret[:len(ret)-2] + "}"
-}
-
-// Call is a function call with specific arguments which are themselves other
-// expressions. A call can also have options that are specific to the function
-// in question. It must be bound to determine the shape and type.
-//
-// Deprecated: use substrait-go expression functions instead.
-type Call struct {
-	funcName string
-	args     []Expression
-	dt       arrow.DataType
-	options  FunctionOptions
-
-	cachedHash uint64
-}
-
-func (c *Call) IsNullLiteral() bool  { return false }
-func (c *Call) FieldRef() *FieldRef  { return nil }
-func (c *Call) Type() arrow.DataType { return c.dt }
-func (c *Call) IsSatisfiable() bool  { return c.Type() == nil || c.Type().ID() != arrow.NULL }
-
-func (c *Call) String() string {
-	binary := func(op string) string {
-		return "(" + c.args[0].String() + " " + op + " " + c.args[1].String() + ")"
-	}
-
-	if cmp, ok := compmap[c.funcName]; ok {
-		return binary(cmp.getOp())
-	}
-
-	const kleene = "_kleene"
-	if strings.HasSuffix(c.funcName, kleene) {
-		return binary(strings.TrimSuffix(c.funcName, kleene))
-	}
-
-	if c.funcName == "make_struct" && c.options != nil {
-		opts := c.options.(*MakeStructOptions)
-		out := "{"
-		for i, a := range c.args {
-			out += opts.FieldNames[i] + "=" + a.String() + ", "
-		}
-		return out[:len(out)-2] + "}"
-	}
-
-	var b strings.Builder
-	b.WriteString(c.funcName + "(")
-	for _, a := range c.args {
-		b.WriteString(a.String() + ", ")
-	}
-
-	if c.options != nil {
-		b.WriteString(optionsToString(c.options))
-		b.WriteString("  ")
-	}
-
-	ret := b.String()
-	return ret[:len(ret)-2] + ")"
-}
-
-func (c *Call) Hash() uint64 {
-	if c.cachedHash != 0 {
-		return c.cachedHash
-	}
-
-	var h maphash.Hash
-	h.SetSeed(hashSeed)
-
-	h.WriteString(c.funcName)
-	c.cachedHash = h.Sum64()
-	for _, arg := range c.args {
-		c.cachedHash = exec.HashCombine(c.cachedHash, arg.Hash())
-	}
-	return c.cachedHash
-}
-
-func (c *Call) IsScalarExpr() bool {
-	for _, arg := range c.args {
-		if !arg.IsScalarExpr() {
-			return false
-		}
-	}
-
-	return false
-	// return isFuncScalar(c.funcName)
-}
-
-func (c *Call) IsBound() bool {
-	return c.Type() != nil
-}
-
-func (c *Call) Equals(other Expression) bool {
-	rhs, ok := other.(*Call)
-	if !ok {
-		return false
-	}
-
-	if c.funcName != rhs.funcName || len(c.args) != len(rhs.args) {
-		return false
-	}
-
-	for i := range c.args {
-		if !c.args[i].Equals(rhs.args[i]) {
-			return false
-		}
-	}
-
-	if opt, ok := c.options.(FunctionOptionsEqual); ok {
-		return opt.Equals(rhs.options)
-	}
-	return reflect.DeepEqual(c.options, rhs.options)
-}
-
-func (c *Call) Release() {
-	for _, a := range c.args {
-		a.Release()
-	}
-	if r, ok := c.options.(releasable); ok {
-		r.Release()
-	}
-}
-
-// FunctionOptions can be any type which has a TypeName function. The fields
-// of the type will be used (via reflection) to determine the information to
-// propagate when serializing to pass to the C++ for execution.
-type FunctionOptions interface {
-	TypeName() string
-}
-
-type FunctionOptionsEqual interface {
-	Equals(FunctionOptions) bool
-}
-
-type FunctionOptionsCloneable interface {
-	Clone() FunctionOptions
-}
-
-type MakeStructOptions struct {
-	FieldNames       []string          `compute:"field_names"`
-	FieldNullability []bool            `compute:"field_nullability"`
-	FieldMetadata    []*arrow.Metadata `compute:"field_metadata"`
-}
-
-func (MakeStructOptions) TypeName() string { return "MakeStructOptions" }
-
-type NullOptions struct {
-	NanIsNull bool `compute:"nan_is_null"`
-}
-
-func (NullOptions) TypeName() string { return "NullOptions" }
-
-type StrptimeOptions struct {
-	Format string         `compute:"format"`
-	Unit   arrow.TimeUnit `compute:"unit"`
-}
-
-func (StrptimeOptions) TypeName() string { return "StrptimeOptions" }
-
-type NullSelectionBehavior = kernels.NullSelectionBehavior
-
-const (
-	SelectionEmitNulls = kernels.EmitNulls
-	SelectionDropNulls = kernels.DropNulls
-)
-
-type ArithmeticOptions struct {
-	NoCheckOverflow bool `compute:"check_overflow"`
-}
-
-func (ArithmeticOptions) TypeName() string { return "ArithmeticOptions" }
-
-type (
-	CastOptions   = kernels.CastOptions
-	FilterOptions = kernels.FilterOptions
-	TakeOptions   = kernels.TakeOptions
-)
-
-func DefaultFilterOptions() *FilterOptions { return &FilterOptions{} }
-
-func DefaultTakeOptions() *TakeOptions { return &TakeOptions{BoundsCheck: true} }
-
-func DefaultCastOptions(safe bool) *CastOptions {
-	if safe {
-		return &CastOptions{}
-	}
-	return &CastOptions{
-		AllowIntOverflow:     true,
-		AllowTimeTruncate:    true,
-		AllowTimeOverflow:    true,
-		AllowDecimalTruncate: true,
-		AllowFloatTruncate:   true,
-		AllowInvalidUtf8:     true,
-	}
-}
-
-func UnsafeCastOptions(dt arrow.DataType) *CastOptions {
-	return NewCastOptions(dt, false)
-}
-
-func SafeCastOptions(dt arrow.DataType) *CastOptions {
-	return NewCastOptions(dt, true)
-}
-
-func NewCastOptions(dt arrow.DataType, safe bool) *CastOptions {
-	opts := DefaultCastOptions(safe)
-	if dt != nil {
-		opts.ToType = dt
-	} else {
-		opts.ToType = arrow.Null
-	}
-	return opts
-}
-
-func Cast(ex Expression, dt arrow.DataType) Expression {
-	opts := &CastOptions{}
-	if dt == nil {
-		opts.ToType = arrow.Null
-	} else {
-		opts.ToType = dt
-	}
-
-	return NewCall("cast", []Expression{ex}, opts)
-}
-
-type SetLookupOptions struct {
-	ValueSet  Datum `compute:"value_set"`
-	SkipNulls bool  `compute:"skip_nulls"`
-}
-
-func (SetLookupOptions) TypeName() string { return "SetLookupOptions" }
-
-func (s *SetLookupOptions) Release() { s.ValueSet.Release() }
-
-func (s *SetLookupOptions) Equals(other FunctionOptions) bool {
-	rhs, ok := other.(*SetLookupOptions)
-	if !ok {
-		return false
-	}
-
-	return s.SkipNulls == rhs.SkipNulls && s.ValueSet.Equals(rhs.ValueSet)
-}
-
-func (s *SetLookupOptions) FromStructScalar(sc *scalar.Struct) error {
-	if v, err := sc.Field("skip_nulls"); err == nil {
-		s.SkipNulls = v.(*scalar.Boolean).Value
-	}
-
-	value, err := sc.Field("value_set")
-	if err != nil {
-		return err
-	}
-
-	if v, ok := value.(scalar.ListScalar); ok {
-		s.ValueSet = NewDatum(v.GetList())
-		return nil
-	}
-
-	return errors.New("set lookup options valueset should be a list")
-}
-
-var (
-	funcOptionsMap map[string]reflect.Type
-	funcOptsTypes  = []FunctionOptions{
-		SetLookupOptions{}, ArithmeticOptions{}, CastOptions{},
-		FilterOptions{}, NullOptions{}, StrptimeOptions{}, MakeStructOptions{},
-	}
-)
-
-func init() {
-	funcOptionsMap = make(map[string]reflect.Type)
-	for _, ft := range funcOptsTypes {
-		funcOptionsMap[ft.TypeName()] = reflect.TypeOf(ft)
-	}
-}
-
-// NewLiteral constructs a new literal expression from any value. It is passed
-// to NewDatum which will construct the appropriate Datum and/or scalar
-// value for the type provided.
-func NewLiteral(arg interface{}) Expression {
-	return &Literal{Literal: NewDatum(arg)}
-}
-
-func NullLiteral(dt arrow.DataType) Expression {
-	return &Literal{Literal: NewDatum(scalar.MakeNullScalar(dt))}
-}
-
-// NewRef constructs a parameter expression which refers to a specific field
-func NewRef(ref FieldRef) Expression {
-	return &Parameter{ref: &ref, index: -1}
-}
-
-// NewFieldRef is shorthand for NewRef(FieldRefName(field))
-func NewFieldRef(field string) Expression {
-	return NewRef(FieldRefName(field))
-}
-
-// NewCall constructs an expression that represents a specific function call with
-// the given arguments and options.
-func NewCall(name string, args []Expression, opts FunctionOptions) Expression {
-	return &Call{funcName: name, args: args, options: opts}
-}
-
-// Project is shorthand for `make_struct` to produce a record batch output
-// from a group of expressions.
-func Project(values []Expression, names []string) Expression {
-	nulls := make([]bool, len(names))
-	for i := range nulls {
-		nulls[i] = true
-	}
-	meta := make([]*arrow.Metadata, len(names))
-	return NewCall("make_struct", values,
-		&MakeStructOptions{FieldNames: names, FieldNullability: nulls, FieldMetadata: meta})
-}
-
-// Equal is a convenience function for the equal function
-func Equal(lhs, rhs Expression) Expression {
-	return NewCall("equal", []Expression{lhs, rhs}, nil)
-}
-
-// NotEqual creates a call to not_equal
-func NotEqual(lhs, rhs Expression) Expression {
-	return NewCall("not_equal", []Expression{lhs, rhs}, nil)
-}
-
-// Less is shorthand for NewCall("less",....)
-func Less(lhs, rhs Expression) Expression {
-	return NewCall("less", []Expression{lhs, rhs}, nil)
-}
-
-// LessEqual is shorthand for NewCall("less_equal",....)
-func LessEqual(lhs, rhs Expression) Expression {
-	return NewCall("less_equal", []Expression{lhs, rhs}, nil)
-}
-
-// Greater is shorthand for NewCall("greater",....)
-func Greater(lhs, rhs Expression) Expression {
-	return NewCall("greater", []Expression{lhs, rhs}, nil)
-}
-
-// GreaterEqual is shorthand for NewCall("greater_equal",....)
-func GreaterEqual(lhs, rhs Expression) Expression {
-	return NewCall("greater_equal", []Expression{lhs, rhs}, nil)
-}
-
-// IsNull creates an expression that returns true if the passed in expression is
-// null. Optionally treating NaN as null if desired.
-func IsNull(lhs Expression, nanIsNull bool) Expression {
-	return NewCall("less", []Expression{lhs}, &NullOptions{nanIsNull})
-}
-
-// IsValid is the inverse of IsNull
-func IsValid(lhs Expression) Expression {
-	return NewCall("is_valid", []Expression{lhs}, nil)
-}
-
-type binop func(lhs, rhs Expression) Expression
-
-func foldLeft(op binop, args ...Expression) Expression {
-	switch len(args) {
-	case 0:
-		return nil
-	case 1:
-		return args[0]
-	}
-
-	folded := args[0]
-	for _, a := range args[1:] {
-		folded = op(folded, a)
-	}
-	return folded
-}
-
-func and(lhs, rhs Expression) Expression {
-	return NewCall("and_kleene", []Expression{lhs, rhs}, nil)
-}
-
-// And constructs a tree of calls to and_kleene for boolean And logic taking
-// an arbitrary number of values.
-func And(lhs, rhs Expression, ops ...Expression) Expression {
-	folded := foldLeft(and, append([]Expression{lhs, rhs}, ops...)...)
-	if folded != nil {
-		return folded
-	}
-	return NewLiteral(true)
-}
-
-func or(lhs, rhs Expression) Expression {
-	return NewCall("or_kleene", []Expression{lhs, rhs}, nil)
-}
-
-// Or constructs a tree of calls to or_kleene for boolean Or logic taking
-// an arbitrary number of values.
-func Or(lhs, rhs Expression, ops ...Expression) Expression {
-	folded := foldLeft(or, append([]Expression{lhs, rhs}, ops...)...)
-	if folded != nil {
-		return folded
-	}
-	return NewLiteral(false)
-}
-
-// Not creates a call to "invert" for the value specified.
-func Not(expr Expression) Expression {
-	return NewCall("invert", []Expression{expr}, nil)
-}
-
-func SerializeOptions(opts FunctionOptions, mem memory.Allocator) (*memory.Buffer, error) {
-	sc, err := scalar.ToScalar(opts, mem)
-	if err != nil {
-		return nil, err
-	}
-	if sc, ok := sc.(releasable); ok {
-		defer sc.Release()
-	}
-
-	arr, err := scalar.MakeArrayFromScalar(sc, 1, mem)
-	if err != nil {
-		return nil, err
-	}
-	defer arr.Release()
-
-	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{{Type: arr.DataType(), Nullable: true}}, nil), []arrow.Array{arr}, 1)
-	defer batch.Release()
-
-	buf := &bufferWriteSeeker{mem: mem}
-	wr, err := ipc.NewFileWriter(buf, ipc.WithSchema(batch.Schema()), ipc.WithAllocator(mem))
-	if err != nil {
-		return nil, err
-	}
-
-	wr.Write(batch)
-	wr.Close()
-	return buf.buf, nil
-}
-
-// SerializeExpr serializes expressions by converting them to Metadata and
-// storing this in the schema of a Record. Embedded arrays and scalars are
-// stored in its columns. Finally the record is written as an IPC file
-func SerializeExpr(expr Expression, mem memory.Allocator) (*memory.Buffer, error) {
-	var (
-		cols      []arrow.Array
-		metaKey   []string
-		metaValue []string
-		visit     func(Expression) error
-	)
-
-	addScalar := func(s scalar.Scalar) (string, error) {
-		ret := len(cols)
-		arr, err := scalar.MakeArrayFromScalar(s, 1, mem)
-		if err != nil {
-			return "", err
-		}
-		cols = append(cols, arr)
-		return strconv.Itoa(ret), nil
-	}
-
-	visit = func(e Expression) error {
-		switch e := e.(type) {
-		case *Literal:
-			if !e.IsScalarExpr() {
-				return errors.New("not implemented: serialization of non-scalar literals")
-			}
-			metaKey = append(metaKey, "literal")
-			s, err := addScalar(e.Literal.(*ScalarDatum).Value)
-			if err != nil {
-				return err
-			}
-			metaValue = append(metaValue, s)
-		case *Parameter:
-			if e.ref.Name() == "" {
-				return errors.New("not implemented: serialization of non-name field_ref")
-			}
-
-			metaKey = append(metaKey, "field_ref")
-			metaValue = append(metaValue, e.ref.Name())
-		case *Call:
-			metaKey = append(metaKey, "call")
-			metaValue = append(metaValue, e.funcName)
-
-			for _, arg := range e.args {
-				visit(arg)
-			}
-
-			if e.options != nil {
-				st, err := scalar.ToScalar(e.options, mem)
-				if err != nil {
-					return err
-				}
-				metaKey = append(metaKey, "options")
-				s, err := addScalar(st)
-				if err != nil {
-					return err
-				}
-				metaValue = append(metaValue, s)
-
-				for _, f := range st.(*scalar.Struct).Value {
-					switch s := f.(type) {
-					case releasable:
-						defer s.Release()
-					}
-				}
-			}
-
-			metaKey = append(metaKey, "end")
-			metaValue = append(metaValue, e.funcName)
-		}
-		return nil
-	}
-
-	if err := visit(expr); err != nil {
-		return nil, err
-	}
-
-	fields := make([]arrow.Field, len(cols))
-	for i, c := range cols {
-		fields[i].Type = c.DataType()
-		defer c.Release()
-	}
-
-	metadata := arrow.NewMetadata(metaKey, metaValue)
-	rec := array.NewRecord(arrow.NewSchema(fields, &metadata), cols, 1)
-	defer rec.Release()
-
-	buf := &bufferWriteSeeker{mem: mem}
-	wr, err := ipc.NewFileWriter(buf, ipc.WithSchema(rec.Schema()), ipc.WithAllocator(mem))
-	if err != nil {
-		return nil, err
-	}
-
-	wr.Write(rec)
-	wr.Close()
-	return buf.buf, nil
-}
-
-func DeserializeExpr(mem memory.Allocator, buf *memory.Buffer) (Expression, error) {
-	rdr, err := ipc.NewFileReader(bytes.NewReader(buf.Bytes()), ipc.WithAllocator(mem))
-	if err != nil {
-		return nil, err
-	}
-	defer rdr.Close()
-
-	batch, err := rdr.Read()
-	if err != nil {
-		return nil, err
-	}
-
-	if !batch.Schema().HasMetadata() {
-		return nil, errors.New("serialized Expression's batch repr had no metadata")
-	}
-
-	if batch.NumRows() != 1 {
-		return nil, fmt.Errorf("serialized Expression's batch repr was not a single row - had %d", batch.NumRows())
-	}
-
-	var (
-		getone   func() (Expression, error)
-		index    int = 0
-		metadata     = batch.Schema().Metadata()
-	)
-
-	getscalar := func(i string) (scalar.Scalar, error) {
-		colIndex, err := strconv.ParseInt(i, 10, 32)
-		if err != nil {
-			return nil, err
-		}
-		if colIndex >= batch.NumCols() {
-			return nil, errors.New("column index out of bounds")
-		}
-		return scalar.GetScalar(batch.Column(int(colIndex)), 0)
-	}
-
-	getone = func() (Expression, error) {
-		if index >= metadata.Len() {
-			return nil, errors.New("unterminated serialized Expression")
-		}
-
-		key, val := metadata.Keys()[index], metadata.Values()[index]
-		index++
-
-		switch key {
-		case "literal":
-			scalar, err := getscalar(val)
-			if err != nil {
-				return nil, err
-			}
-			if r, ok := scalar.(releasable); ok {
-				defer r.Release()
-			}
-			return NewLiteral(scalar), err
-		case "field_ref":
-			return NewFieldRef(val), nil
-		case "call":
-			args := make([]Expression, 0)
-			for metadata.Keys()[index] != "end" {
-				if metadata.Keys()[index] == "options" {
-					optsScalar, err := getscalar(metadata.Values()[index])
-					if err != nil {
-						return nil, err
-					}
-					if r, ok := optsScalar.(releasable); ok {
-						defer r.Release()
-					}
-					var opts FunctionOptions
-					if optsScalar != nil {
-						typname, err := optsScalar.(*scalar.Struct).Field("_type_name")
-						if err != nil {
-							return nil, err
-						}
-						if typname.DataType().ID() != arrow.BINARY {
-							return nil, errors.New("options scalar typename must be binary")
-						}
-
-						optionsVal := reflect.New(funcOptionsMap[string(typname.(*scalar.Binary).Data())]).Interface()
-						if err := scalar.FromScalar(optsScalar.(*scalar.Struct), optionsVal); err != nil {
-							return nil, err
-						}
-						opts = optionsVal.(FunctionOptions)
-					}
-					index += 2
-					return NewCall(val, args, opts), nil
-				}
-
-				arg, err := getone()
-				if err != nil {
-					return nil, err
-				}
-				args = append(args, arg)
-			}
-			index++
-			return NewCall(val, args, nil), nil
-		default:
-			return nil, fmt.Errorf("unrecognized serialized Expression key %s", key)
-		}
-	}
-
-	return getone()
-}
diff --git a/go/arrow/compute/expression_test.go b/go/arrow/compute/expression_test.go
deleted file mode 100644
index 1898bb3dc92b2..0000000000000
--- a/go/arrow/compute/expression_test.go
+++ /dev/null
@@ -1,259 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestExpressionToString(t *testing.T) {
-	ts, _ := scalar.MakeScalar("1990-10-23 10:23:33.123456").CastTo(arrow.FixedWidthTypes.Timestamp_ns)
-
-	add := compute.NewCall("add", []compute.Expression{compute.NewFieldRef("beta"), compute.NewLiteral(3)}, &compute.ArithmeticOptions{})
-
-	tests := []struct {
-		expr     compute.Expression
-		expected string
-	}{
-		{compute.NewFieldRef("alpha"), "alpha"},
-		{compute.NewLiteral(3), "3"},
-		{compute.NewLiteral("a"), `"a"`},
-		{compute.NewLiteral("a\nb"), `"a\nb"`},
-		{compute.NewLiteral(&scalar.Boolean{}), "null"},
-		{compute.NewLiteral(&scalar.Int64{}), "null"},
-		{compute.NewLiteral(scalar.NewBinaryScalar(memory.NewBufferBytes([]byte("az")),
-			arrow.BinaryTypes.Binary)), `"617A"`},
-		{compute.NewLiteral(ts), "1990-10-23 10:23:33.123456"},
-		{compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewFieldRef("beta")}, nil), "add(3, beta)"},
-		{compute.And(compute.NewFieldRef("a"), compute.NewFieldRef("b")), "(a and b)"},
-		{compute.Or(compute.NewFieldRef("a"), compute.NewFieldRef("b")), "(a or b)"},
-		{compute.Not(compute.NewFieldRef("a")), "invert(a)"},
-		{compute.Cast(compute.NewFieldRef("a"), arrow.PrimitiveTypes.Int32),
-			"cast(a, {to_type=int32, allow_int_overflow=false, allow_time_truncate=false, " +
-				"allow_time_overflow=false, allow_decimal_truncate=false, " +
-				"allow_float_truncate=false, allow_invalid_utf8=false})"},
-		{compute.Cast(compute.NewFieldRef("a"), nil),
-			"cast(a, {to_type=null, allow_int_overflow=false, allow_time_truncate=false, " +
-				"allow_time_overflow=false, allow_decimal_truncate=false, " +
-				"allow_float_truncate=false, allow_invalid_utf8=false})"},
-		{compute.Equal(compute.NewFieldRef("a"), compute.NewLiteral(1)), "(a == 1)"},
-		{compute.Less(compute.NewFieldRef("a"), compute.NewLiteral(2)), "(a < 2)"},
-		{compute.Greater(compute.NewFieldRef("a"), compute.NewLiteral(3)), "(a > 3)"},
-		{compute.NotEqual(compute.NewFieldRef("a"), compute.NewLiteral("a")), `(a != "a")`},
-		{compute.LessEqual(compute.NewFieldRef("a"), compute.NewLiteral("b")), `(a <= "b")`},
-		{compute.GreaterEqual(compute.NewFieldRef("a"), compute.NewLiteral("c")), `(a >= "c")`},
-		{compute.Project(
-			[]compute.Expression{
-				compute.NewFieldRef("a"), compute.NewFieldRef("a"), compute.NewLiteral(3), add,
-			}, []string{"a", "renamed_a", "three", "b"}),
-			"{a=a, renamed_a=a, three=3, b=" + add.String() + "}"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.expected, func(t *testing.T) {
-			assert.Equal(t, tt.expected, tt.expr.String())
-		})
-	}
-}
-
-func TestExpressionEquality(t *testing.T) {
-	tests := []struct {
-		exp1  compute.Expression
-		exp2  compute.Expression
-		equal bool
-	}{
-		{compute.NewLiteral(1), compute.NewLiteral(1), true},
-		{compute.NewLiteral(1), compute.NewLiteral(2), false},
-		{compute.NewFieldRef("a"), compute.NewFieldRef("a"), true},
-		{compute.NewFieldRef("a"), compute.NewFieldRef("b"), false},
-		{compute.NewFieldRef("a"), compute.NewLiteral(2), false},
-		{compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, nil),
-			compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, nil), true},
-		{compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, nil),
-			compute.NewCall("add", []compute.Expression{compute.NewLiteral(2), compute.NewLiteral("a")}, nil), false},
-		{compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, nil),
-			compute.NewCall("add", []compute.Expression{compute.NewFieldRef("a"), compute.NewLiteral(3)}, nil), false},
-		{compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, &compute.ArithmeticOptions{true}),
-			compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, &compute.ArithmeticOptions{true}), true},
-		{compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, &compute.ArithmeticOptions{true}),
-			compute.NewCall("add", []compute.Expression{compute.NewLiteral(3), compute.NewLiteral("a")}, &compute.ArithmeticOptions{false}), false},
-		{compute.Cast(compute.NewFieldRef("a"), arrow.PrimitiveTypes.Int32), compute.Cast(compute.NewFieldRef("a"), arrow.PrimitiveTypes.Int32), true},
-		{compute.Cast(compute.NewFieldRef("a"), arrow.PrimitiveTypes.Int32), compute.Cast(compute.NewFieldRef("a"), arrow.PrimitiveTypes.Int64), false},
-		{compute.Cast(compute.NewFieldRef("a"), arrow.PrimitiveTypes.Int32), compute.NewCall("cast", []compute.Expression{compute.NewFieldRef("a")}, compute.NewCastOptions(arrow.PrimitiveTypes.Int32, false)), false},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.exp1.String(), func(t *testing.T) {
-			assert.Equal(t, tt.equal, tt.exp1.Equals(tt.exp2))
-		})
-	}
-}
-
-func TestExpressionHashing(t *testing.T) {
-	set := make(map[uint64]compute.Expression)
-
-	e := compute.NewFieldRef("alpha")
-	set[e.Hash()] = e
-
-	e = compute.NewFieldRef("beta")
-	_, ok := set[e.Hash()]
-	assert.False(t, ok)
-	set[e.Hash()] = e
-
-	e = compute.NewFieldRef("beta")
-	ex, ok := set[e.Hash()]
-	assert.True(t, ok)
-	assert.True(t, e.Equals(ex))
-
-	e = compute.NewLiteral(1)
-	set[e.Hash()] = e
-	_, ok = set[compute.NewLiteral(1).Hash()]
-	assert.True(t, ok)
-	_, ok = set[compute.NewLiteral(3).Hash()]
-	assert.False(t, ok)
-	set[compute.NewLiteral(3).Hash()] = compute.NewLiteral(3)
-
-	e = compute.NullLiteral(arrow.PrimitiveTypes.Int32)
-	set[e.Hash()] = e
-	_, ok = set[compute.NullLiteral(arrow.PrimitiveTypes.Int32).Hash()]
-	assert.True(t, ok)
-	e = compute.NullLiteral(arrow.PrimitiveTypes.Float32)
-	_, ok = set[e.Hash()]
-	assert.False(t, ok)
-	set[e.Hash()] = e
-
-	e = compute.NewCall("add", []compute.Expression{}, nil)
-	set[e.Hash()] = e
-	_, ok = set[compute.NewCall("add", nil, nil).Hash()]
-	assert.True(t, ok)
-	e = compute.NewCall("widgetify", nil, nil)
-	_, ok = set[e.Hash()]
-	assert.False(t, ok)
-	set[e.Hash()] = e
-
-	assert.Len(t, set, 8)
-}
-
-func TestIsScalarExpression(t *testing.T) {
-	assert.True(t, compute.NewLiteral(true).IsScalarExpr())
-	arr := array.MakeFromData(array.NewData(arrow.PrimitiveTypes.Int8, 0, []*memory.Buffer{nil, nil}, nil, 0, 0))
-	defer arr.Release()
-
-	assert.False(t, compute.NewLiteral(arr).IsScalarExpr())
-	assert.True(t, compute.NewFieldRef("a").IsScalarExpr())
-}
-
-func TestExpressionIsSatisfiable(t *testing.T) {
-	assert.True(t, compute.NewLiteral(true).IsSatisfiable())
-	assert.False(t, compute.NewLiteral(false).IsSatisfiable())
-
-	null := scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean)
-	assert.False(t, compute.NewLiteral(null).IsSatisfiable())
-	assert.True(t, compute.NewFieldRef("a").IsSatisfiable())
-	assert.True(t, compute.Equal(compute.NewFieldRef("a"), compute.NewLiteral(1)).IsSatisfiable())
-	// no constant folding here
-	assert.True(t, compute.Equal(compute.NewLiteral(0), compute.NewLiteral(1)).IsSatisfiable())
-
-	// when a top level conjunction contains an Expression which is certain to
-	// evaluate to null, it can only evaluate to null or false
-	neverTrue := compute.And(compute.NewLiteral(null), compute.NewFieldRef("a"))
-	// this may appear in satisfiable filters if coalesced (for example, wrapped in fill_na)
-	assert.True(t, compute.NewCall("is_null", []compute.Expression{neverTrue}, nil).IsSatisfiable())
-}
-
-func TestExpressionSerializationRoundTrip(t *testing.T) {
-	bldr := array.NewInt32Builder(memory.DefaultAllocator)
-	defer bldr.Release()
-
-	bldr.AppendValues([]int32{1, 2, 3}, nil)
-	lookupArr := bldr.NewArray()
-	defer lookupArr.Release()
-
-	intvalueset := compute.NewDatum(lookupArr)
-	defer intvalueset.Release()
-
-	bldr2 := array.NewFloat64Builder(memory.DefaultAllocator)
-	defer bldr2.Release()
-
-	bldr2.AppendValues([]float64{0.5, 1.0, 2.0}, nil)
-	lookupArr = bldr2.NewArray()
-	defer lookupArr.Release()
-
-	fltvalueset := compute.NewDatum(lookupArr)
-	defer fltvalueset.Release()
-
-	tests := []struct {
-		name string
-		expr compute.Expression
-	}{
-		{"null literal", compute.NewLiteral(scalar.MakeNullScalar(arrow.Null))},
-		{"null int32 literal", compute.NewLiteral(scalar.MakeNullScalar(arrow.PrimitiveTypes.Int32))},
-		{"null struct literal", compute.NewLiteral(scalar.MakeNullScalar(arrow.StructOf(
-			arrow.Field{Name: "i", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-			arrow.Field{Name: "s", Type: arrow.BinaryTypes.String, Nullable: true},
-		)))},
-		{"literal true", compute.NewLiteral(true)},
-		{"literal false", compute.NewLiteral(false)},
-		{"literal int", compute.NewLiteral(1)},
-		{"literal float", compute.NewLiteral(1.125)},
-		{"stringy strings", compute.NewLiteral("stringy strings")},
-		{"field ref", compute.NewFieldRef("field")},
-		{"greater", compute.Greater(compute.NewFieldRef("a"), compute.NewLiteral(0.25))},
-		{"or", compute.Or(
-			compute.Equal(compute.NewFieldRef("a"), compute.NewLiteral(1)),
-			compute.NotEqual(compute.NewFieldRef("b"), compute.NewLiteral("hello")),
-			compute.Equal(compute.NewFieldRef("b"), compute.NewLiteral("foo bar")))},
-		{"not", compute.Not(compute.NewFieldRef("alpha"))},
-		{"is_in", compute.NewCall("is_in", []compute.Expression{compute.NewLiteral(1)}, &compute.SetLookupOptions{ValueSet: intvalueset})},
-		{"is_in cast", compute.NewCall("is_in", []compute.Expression{
-			compute.NewCall("cast", []compute.Expression{compute.NewFieldRef("version")}, compute.NewCastOptions(arrow.PrimitiveTypes.Float64, true))},
-			&compute.SetLookupOptions{ValueSet: fltvalueset})},
-		{"is valid", compute.IsValid(compute.NewFieldRef("validity"))},
-		{"lots and", compute.And(
-			compute.And(
-				compute.GreaterEqual(compute.NewFieldRef("x"), compute.NewLiteral(-1.5)),
-				compute.Less(compute.NewFieldRef("x"), compute.NewLiteral(0.0))),
-			compute.And(compute.GreaterEqual(compute.NewFieldRef("y"), compute.NewLiteral(0.0)),
-				compute.Less(compute.NewFieldRef("y"), compute.NewLiteral(1.5))),
-			compute.And(compute.Greater(compute.NewFieldRef("z"), compute.NewLiteral(1.5)),
-				compute.LessEqual(compute.NewFieldRef("z"), compute.NewLiteral(3.0))))},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-			serialized, err := compute.SerializeExpr(tt.expr, mem)
-			assert.NoError(t, err)
-			defer serialized.Release()
-			roundTripped, err := compute.DeserializeExpr(mem, serialized)
-			assert.NoError(t, err)
-			defer roundTripped.Release()
-			assert.Truef(t, tt.expr.Equals(roundTripped), "started with: %s, got: %s", tt.expr, roundTripped)
-		})
-	}
-}
diff --git a/go/arrow/compute/exprs/builders.go b/go/arrow/compute/exprs/builders.go
deleted file mode 100644
index a3af8dd6f287d..0000000000000
--- a/go/arrow/compute/exprs/builders.go
+++ /dev/null
@@ -1,445 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-//go:build go1.18
-
-package exprs
-
-import (
-	"fmt"
-	"strconv"
-	"strings"
-	"unicode"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/substrait-io/substrait-go/expr"
-	"github.com/substrait-io/substrait-go/extensions"
-	"github.com/substrait-io/substrait-go/types"
-)
-
-// NewDefaultExtensionSet constructs an empty extension set using the default
-// Arrow Extension registry and the default collection of substrait extensions
-// from the Substrait-go repo.
-func NewDefaultExtensionSet() ExtensionIDSet {
-	return NewExtensionSetDefault(expr.NewEmptyExtensionRegistry(&extensions.DefaultCollection))
-}
-
-// NewScalarCall constructs a substrait ScalarFunction expression with the provided
-// options and arguments.
-//
-// The function name (fn) is looked up in the internal Arrow DefaultExtensionIDRegistry
-// to ensure it exists and to convert from the Arrow function name to the substrait
-// function name. It is then looked up using the DefaultCollection from the
-// substrait extensions module to find the declaration. If it cannot be found,
-// we try constructing the compound signature name by getting the types of the
-// arguments which were passed and appending them to the function name appropriately.
-//
-// An error is returned if the function cannot be resolved.
-func NewScalarCall(reg ExtensionIDSet, fn string, opts []*types.FunctionOption, args ...types.FuncArg) (*expr.ScalarFunction, error) {
-	conv, ok := reg.GetArrowRegistry().GetArrowToSubstrait(fn)
-	if !ok {
-		return nil, arrow.ErrNotFound
-	}
-
-	id, convOpts, err := conv(fn)
-	if err != nil {
-		return nil, err
-	}
-
-	opts = append(opts, convOpts...)
-	return expr.NewScalarFunc(reg.GetSubstraitRegistry(), id, opts, args...)
-}
-
-// NewFieldRefFromDotPath constructs a substrait reference segment from
-// a dot path and the base schema.
-//
-// dot_path = '.' name
-//
-//	| '[' digit+ ']'
-//	| dot_path+
-//
-// # Examples
-//
-// Assume root schema of {alpha: i32, beta: struct<gamma: list<i32>>, delta: map<string, i32>}
-//
-//	".alpha" => StructFieldRef(0)
-//	"[2]" => StructFieldRef(2)
-//	".beta[0]" => StructFieldRef(1, StructFieldRef(0))
-//	"[1].gamma[3]" => StructFieldRef(1, StructFieldRef(0, ListElementRef(3)))
-//	".delta.foobar" => StructFieldRef(2, MapKeyRef("foobar"))
-//
-// Note: when parsing a name, a '\' preceding any other character
-// will be dropped from the resulting name. Therefore if a name must
-// contain the characters '.', '\', '[', or ']' then they must be escaped
-// with a preceding '\'.
-func NewFieldRefFromDotPath(dotpath string, rootSchema *arrow.Schema) (expr.ReferenceSegment, error) {
-	if len(dotpath) == 0 {
-		return nil, fmt.Errorf("%w dotpath was empty", arrow.ErrInvalid)
-	}
-
-	parseName := func() string {
-		var name string
-		for {
-			idx := strings.IndexAny(dotpath, `\[.`)
-			if idx == -1 {
-				name += dotpath
-				dotpath = ""
-				break
-			}
-
-			if dotpath[idx] != '\\' {
-				// subscript for a new field ref
-				name += dotpath[:idx]
-				dotpath = dotpath[idx:]
-				break
-			}
-
-			if len(dotpath) == idx+1 {
-				// dotpath ends with a backslash; consume it all
-				name += dotpath
-				dotpath = ""
-				break
-			}
-
-			// append all characters before backslash, then the character which follows it
-			name += dotpath[:idx] + string(dotpath[idx+1])
-			dotpath = dotpath[idx+2:]
-		}
-		return name
-	}
-
-	var curType arrow.DataType = arrow.StructOf(rootSchema.Fields()...)
-	children := make([]expr.ReferenceSegment, 0)
-
-	for len(dotpath) > 0 {
-		subscript := dotpath[0]
-		dotpath = dotpath[1:]
-		switch subscript {
-		case '.':
-			// next element is a name
-			n := parseName()
-			switch ct := curType.(type) {
-			case *arrow.StructType:
-				idx, found := ct.FieldIdx(n)
-				if !found {
-					return nil, fmt.Errorf("%w: dot path '%s' referenced invalid field", arrow.ErrInvalid, dotpath)
-				}
-				children = append(children, &expr.StructFieldRef{Field: int32(idx)})
-				curType = ct.Field(idx).Type
-			case *arrow.MapType:
-				curType = ct.KeyType()
-				switch ct.KeyType().ID() {
-				case arrow.BINARY, arrow.LARGE_BINARY:
-					children = append(children, &expr.MapKeyRef{MapKey: expr.NewByteSliceLiteral([]byte(n), false)})
-				case arrow.STRING, arrow.LARGE_STRING:
-					children = append(children, &expr.MapKeyRef{MapKey: expr.NewPrimitiveLiteral(n, false)})
-				default:
-					return nil, fmt.Errorf("%w: MapKeyRef to non-binary/string map not supported", arrow.ErrNotImplemented)
-				}
-			default:
-				return nil, fmt.Errorf("%w: dot path names must refer to struct fields or map keys", arrow.ErrInvalid)
-			}
-		case '[':
-			subend := strings.IndexFunc(dotpath, func(r rune) bool { return !unicode.IsDigit(r) })
-			if subend == -1 || dotpath[subend] != ']' {
-				return nil, fmt.Errorf("%w: dot path '%s' contained an unterminated index", arrow.ErrInvalid, dotpath)
-			}
-			idx, _ := strconv.Atoi(dotpath[:subend])
-			switch ct := curType.(type) {
-			case *arrow.StructType:
-				if idx > ct.NumFields() {
-					return nil, fmt.Errorf("%w: field out of bounds in dotpath", arrow.ErrIndex)
-				}
-				curType = ct.Field(idx).Type
-				children = append(children, &expr.StructFieldRef{Field: int32(idx)})
-			case *arrow.MapType:
-				curType = ct.KeyType()
-				var keyLiteral expr.Literal
-				// TODO: implement user defined types and variations
-				switch ct.KeyType().ID() {
-				case arrow.INT8:
-					keyLiteral = expr.NewPrimitiveLiteral(int8(idx), false)
-				case arrow.INT16:
-					keyLiteral = expr.NewPrimitiveLiteral(int16(idx), false)
-				case arrow.INT32:
-					keyLiteral = expr.NewPrimitiveLiteral(int32(idx), false)
-				case arrow.INT64:
-					keyLiteral = expr.NewPrimitiveLiteral(int64(idx), false)
-				case arrow.FLOAT32:
-					keyLiteral = expr.NewPrimitiveLiteral(float32(idx), false)
-				case arrow.FLOAT64:
-					keyLiteral = expr.NewPrimitiveLiteral(float64(idx), false)
-				default:
-					return nil, fmt.Errorf("%w: dotpath ref to map key type %s", arrow.ErrNotImplemented, ct.KeyType())
-				}
-				children = append(children, &expr.MapKeyRef{MapKey: keyLiteral})
-			case *arrow.ListType:
-				curType = ct.Elem()
-				children = append(children, &expr.ListElementRef{Offset: int32(idx)})
-			case *arrow.LargeListType:
-				curType = ct.Elem()
-				children = append(children, &expr.ListElementRef{Offset: int32(idx)})
-			case *arrow.FixedSizeListType:
-				curType = ct.Elem()
-				children = append(children, &expr.ListElementRef{Offset: int32(idx)})
-			default:
-				return nil, fmt.Errorf("%w: %s type not supported for dotpath ref", arrow.ErrInvalid, ct)
-			}
-			dotpath = dotpath[subend+1:]
-		default:
-			return nil, fmt.Errorf("%w: dot path must begin with '[' or '.' got '%s'",
-				arrow.ErrInvalid, dotpath)
-		}
-	}
-
-	out := children[0]
-	if len(children) > 1 {
-		cur := out
-		for _, c := range children[1:] {
-			switch r := cur.(type) {
-			case *expr.StructFieldRef:
-				r.Child = c
-			case *expr.MapKeyRef:
-				r.Child = c
-			case *expr.ListElementRef:
-				r.Child = c
-			}
-			cur = c
-		}
-	}
-
-	return out, nil
-}
-
-// RefFromFieldPath constructs a substrait field reference segment
-// from a compute.FieldPath which should be a slice of integers
-// indicating nested field paths to travel. This will return a
-// series of StructFieldRef's whose child is the next element in
-// the field path.
-func RefFromFieldPath(field compute.FieldPath) expr.ReferenceSegment {
-	if len(field) == 0 {
-		return nil
-	}
-
-	seg := expr.NewStructFieldRef(int32(field[0]))
-	parent := seg
-	for _, ref := range field[1:] {
-		next := expr.NewStructFieldRef(int32(ref))
-		parent.Child = next
-		parent = next
-	}
-
-	return seg
-}
-
-// NewFieldRef constructs a properly typed substrait field reference segment,
-// from a given arrow field reference, schema and extension set (for resolving
-// substrait types).
-func NewFieldRef(ref compute.FieldRef, schema *arrow.Schema, ext ExtensionIDSet) (*expr.FieldReference, error) {
-	path, err := ref.FindOne(schema)
-	if err != nil {
-		return nil, err
-	}
-
-	st, err := ToSubstraitType(arrow.StructOf(schema.Fields()...), false, ext)
-	if err != nil {
-		return nil, err
-	}
-
-	return expr.NewRootFieldRef(RefFromFieldPath(path), st.(*types.StructType))
-}
-
-// Builder wraps the substrait-go expression Builder and FuncArgBuilder
-// interfaces for a simple interface that can be passed around to build
-// substrait expressions from Arrow data.
-type Builder interface {
-	expr.Builder
-	expr.FuncArgBuilder
-}
-
-// ExprBuilder is the parent for building substrait expressions
-// via Arrow types and functions.
-//
-// The expectation is that it should be utilized like so:
-//
-//	bldr := NewExprBuilder(extSet)
-//	bldr.SetInputSchema(arrowschema)
-//	call, err := bldr.CallScalar("equal", nil,
-//	     bldr.FieldRef("i32"),
-//	     bldr.Literal(expr.NewPrimitiveLiteral(
-//	            int32(0), false)))
-//	ex, err := call.BuildExpr()
-//	...
-//	result, err := exprs.ExecuteScalarExpression(ctx, arrowschema,
-//	       ex, input)
-type ExprBuilder struct {
-	b           expr.ExprBuilder
-	extSet      ExtensionIDSet
-	inputSchema *arrow.Schema
-}
-
-// NewExprBuilder constructs a new Expression Builder that will use the
-// provided extension set and registry.
-func NewExprBuilder(extSet ExtensionIDSet) ExprBuilder {
-	return ExprBuilder{
-		b:      expr.ExprBuilder{Reg: extSet.GetSubstraitRegistry()},
-		extSet: extSet,
-	}
-}
-
-// SetInputSchema sets the current Arrow schema that will be utilized
-// for performing field reference and field type resolutions.
-func (e *ExprBuilder) SetInputSchema(s *arrow.Schema) error {
-	st, err := ToSubstraitType(arrow.StructOf(s.Fields()...), false, e.extSet)
-	if err != nil {
-		return err
-	}
-
-	e.inputSchema = s
-	e.b.BaseSchema = st.(*types.StructType)
-	return nil
-}
-
-// MustCallScalar is like CallScalar, but will panic on error rather than
-// return it.
-func (e *ExprBuilder) MustCallScalar(fn string, opts []*types.FunctionOption, args ...expr.FuncArgBuilder) Builder {
-	b, err := e.CallScalar(fn, opts, args...)
-	if err != nil {
-		panic(err)
-	}
-	return b
-}
-
-// CallScalar constructs a builder for a scalar function call. The function
-// name is expected to be valid in the Arrow function registry which will
-// map it properly to a substrait expression by resolving the types of
-// the arguments. Examples are: "greater", "multiply", "equal", etc.
-//
-// Can return arrow.ErrNotFound if there is no function mapping found.
-// Or will forward any error encountered when converting from an Arrow
-// function to a substrait one.
-func (e *ExprBuilder) CallScalar(fn string, opts []*types.FunctionOption, args ...expr.FuncArgBuilder) (Builder, error) {
-	conv, ok := e.extSet.GetArrowRegistry().GetArrowToSubstrait(fn)
-	if !ok {
-		return nil, arrow.ErrNotFound
-	}
-
-	id, convOpts, err := conv(fn)
-	if err != nil {
-		return nil, err
-	}
-
-	opts = append(opts, convOpts...)
-	return e.b.ScalarFunc(id, opts...).Args(args...), nil
-}
-
-// FieldPath uses a field path to construct a Field Reference
-// expression.
-func (e *ExprBuilder) FieldPath(path compute.FieldPath) Builder {
-	segments := make([]expr.ReferenceSegment, len(path))
-	for i, p := range path {
-		segments[i] = expr.NewStructFieldRef(int32(p))
-	}
-
-	return e.b.RootRef(expr.FlattenRefSegments(segments...))
-}
-
-// FieldIndex is shorthand for creating a single field reference
-// to the struct field index provided.
-func (e *ExprBuilder) FieldIndex(i int) Builder {
-	return e.b.RootRef(expr.NewStructFieldRef(int32(i)))
-}
-
-// FieldRef constructs a field reference expression to the field with
-// the given name from the input. It will be resolved to a field
-// index when calling BuildExpr.
-func (e *ExprBuilder) FieldRef(field string) Builder {
-	return &refBuilder{eb: e, fieldRef: compute.FieldRefName(field)}
-}
-
-// FieldRefList accepts a list of either integers or strings to
-// construct a field reference expression from. This will panic
-// if any of elems are not a string or int.
-//
-// Field names will be resolved to their indexes when BuildExpr is called
-// by using the provided Arrow schema.
-func (e *ExprBuilder) FieldRefList(elems ...any) Builder {
-	return &refBuilder{eb: e, fieldRef: compute.FieldRefList(elems...)}
-}
-
-// Literal wraps a substrait literal to be used as an argument to
-// building other expressions.
-func (e *ExprBuilder) Literal(l expr.Literal) Builder {
-	return e.b.Literal(l)
-}
-
-// WrapLiteral is a convenience for accepting functions like NewLiteral
-// which can potentially return an error. If an error is encountered,
-// it will be surfaced when BuildExpr is called.
-func (e *ExprBuilder) WrapLiteral(l expr.Literal, err error) Builder {
-	return e.b.Wrap(l, err)
-}
-
-// Must is a convenience wrapper for any method that returns a Builder
-// and error, panic'ing if it received an error or otherwise returning
-// the Builder.
-func (*ExprBuilder) Must(b Builder, err error) Builder {
-	if err != nil {
-		panic(err)
-	}
-	return b
-}
-
-// Cast returns a Cast expression with the FailBehavior of ThrowException,
-// erroring for invalid casts.
-func (e *ExprBuilder) Cast(from Builder, to arrow.DataType) (Builder, error) {
-	t, err := ToSubstraitType(to, true, e.extSet)
-	if err != nil {
-		return nil, err
-	}
-
-	return e.b.Cast(from, t).FailBehavior(types.BehaviorThrowException), nil
-}
-
-type refBuilder struct {
-	eb *ExprBuilder
-
-	fieldRef compute.FieldRef
-}
-
-func (r *refBuilder) BuildFuncArg() (types.FuncArg, error) {
-	return r.BuildExpr()
-}
-
-func (r *refBuilder) BuildExpr() (expr.Expression, error) {
-	if r.eb.inputSchema == nil {
-		return nil, fmt.Errorf("%w: no input schema specified for ref", arrow.ErrInvalid)
-	}
-
-	path, err := r.fieldRef.FindOne(r.eb.inputSchema)
-	if err != nil {
-		return nil, err
-	}
-
-	segments := make([]expr.ReferenceSegment, len(path))
-	for i, p := range path {
-		segments[i] = expr.NewStructFieldRef(int32(p))
-	}
-
-	return r.eb.b.RootRef(expr.FlattenRefSegments(segments...)).Build()
-}
diff --git a/go/arrow/compute/exprs/builders_test.go b/go/arrow/compute/exprs/builders_test.go
deleted file mode 100644
index 21ad3bd642030..0000000000000
--- a/go/arrow/compute/exprs/builders_test.go
+++ /dev/null
@@ -1,92 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exprs"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/substrait-io/substrait-go/expr"
-)
-
-func TestNewScalarFunc(t *testing.T) {
-	reg := exprs.NewDefaultExtensionSet()
-
-	fn, err := exprs.NewScalarCall(reg, "add", nil,
-		expr.NewPrimitiveLiteral(int32(1), false),
-		expr.NewPrimitiveLiteral(int32(10), false))
-	require.NoError(t, err)
-
-	assert.Equal(t, "add(i32(1), i32(10), {overflow: [ERROR]}) => i32", fn.String())
-	assert.Equal(t, "add:i32_i32", fn.CompoundName())
-}
-
-func TestFieldRefDotPath(t *testing.T) {
-	f0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f1_0 := arrow.Field{Name: "be.ta", Type: arrow.PrimitiveTypes.Int32}
-	f1 := arrow.Field{Name: "beta", Type: arrow.StructOf(f1_0)}
-	f2_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_0 := arrow.Field{Name: "[alpha]", Type: arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32)}
-	f2_1_1 := arrow.Field{Name: "beta", Type: arrow.ListOf(arrow.PrimitiveTypes.Int32)}
-	f2_1 := arrow.Field{Name: "gamma", Type: arrow.StructOf(f2_1_0, f2_1_1)}
-	f2 := arrow.Field{Name: "gamma", Type: arrow.StructOf(f2_0, f2_1)}
-	s := arrow.NewSchema([]arrow.Field{f0, f1, f2}, nil)
-
-	tests := []struct {
-		dotpath   string
-		shouldErr bool
-		expected  expr.ReferenceSegment
-	}{
-		{".alpha", false, &expr.StructFieldRef{Field: 0}},
-		{"[2]", false, &expr.StructFieldRef{Field: 2}},
-		{".beta[0]", false, &expr.StructFieldRef{Field: 1, Child: &expr.StructFieldRef{Field: 0}}},
-		{"[2].gamma[1][5]", false, &expr.StructFieldRef{Field: 2,
-			Child: &expr.StructFieldRef{Field: 1,
-				Child: &expr.StructFieldRef{Field: 1,
-					Child: &expr.ListElementRef{Offset: 5}}}}},
-		{"[2].gamma[0].foobar", false, &expr.StructFieldRef{Field: 2,
-			Child: &expr.StructFieldRef{Field: 1,
-				Child: &expr.StructFieldRef{Field: 0,
-					Child: &expr.MapKeyRef{MapKey: expr.NewPrimitiveLiteral("foobar", false)}}}}},
-		{`[1].be\.ta`, false, &expr.StructFieldRef{Field: 1, Child: &expr.StructFieldRef{Field: 0}}},
-		{`[2].gamma.\[alpha\]`, false, &expr.StructFieldRef{Field: 2,
-			Child: &expr.StructFieldRef{Field: 1,
-				Child: &expr.StructFieldRef{Field: 0}}}},
-		{`[5]`, true, nil},     // bad struct index
-		{``, true, nil},        // empty
-		{`delta`, true, nil},   // not found
-		{`[1234`, true, nil},   // bad syntax
-		{`[1stuf]`, true, nil}, // bad syntax
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.dotpath, func(t *testing.T) {
-			ref, err := exprs.NewFieldRefFromDotPath(tt.dotpath, s)
-			if tt.shouldErr {
-				assert.Error(t, err)
-			} else {
-				assert.NoError(t, err)
-				assert.Truef(t, tt.expected.Equals(ref), "expected: %s\ngot: %s", tt.expected, ref)
-			}
-		})
-	}
-}
diff --git a/go/arrow/compute/exprs/exec.go b/go/arrow/compute/exprs/exec.go
deleted file mode 100644
index 850acbb3cd492..0000000000000
--- a/go/arrow/compute/exprs/exec.go
+++ /dev/null
@@ -1,620 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs
-
-import (
-	"context"
-	"fmt"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/substrait-io/substrait-go/expr"
-	"github.com/substrait-io/substrait-go/extensions"
-	"github.com/substrait-io/substrait-go/types"
-)
-
-func makeExecBatch(ctx context.Context, schema *arrow.Schema, partial compute.Datum) (out compute.ExecBatch, err error) {
-	// cleanup if we get an error
-	defer func() {
-		if err != nil {
-			for _, v := range out.Values {
-				if v != nil {
-					v.Release()
-				}
-			}
-		}
-	}()
-
-	if partial.Kind() == compute.KindRecord {
-		partialBatch := partial.(*compute.RecordDatum).Value
-		batchSchema := partialBatch.Schema()
-
-		out.Values = make([]compute.Datum, schema.NumFields())
-		out.Len = partialBatch.NumRows()
-
-		for i, field := range schema.Fields() {
-			idxes := batchSchema.FieldIndices(field.Name)
-			switch len(idxes) {
-			case 0:
-				out.Values[i] = compute.NewDatum(scalar.MakeNullScalar(field.Type))
-			case 1:
-				col := partialBatch.Column(idxes[0])
-				if !arrow.TypeEqual(col.DataType(), field.Type) {
-					// referenced field was present but didn't have expected type
-					// we'll cast this case for now
-					col, err = compute.CastArray(ctx, col, compute.SafeCastOptions(field.Type))
-					if err != nil {
-						return compute.ExecBatch{}, err
-					}
-					defer col.Release()
-				}
-				out.Values[i] = compute.NewDatum(col)
-			default:
-				err = fmt.Errorf("%w: exec batch field '%s' ambiguous, more than one match",
-					arrow.ErrInvalid, field.Name)
-				return compute.ExecBatch{}, err
-			}
-		}
-		return
-	}
-
-	part, ok := partial.(compute.ArrayLikeDatum)
-	if !ok {
-		return out, fmt.Errorf("%w: MakeExecBatch from %s", arrow.ErrNotImplemented, partial)
-	}
-
-	// wasteful but useful for testing
-	if part.Type().ID() == arrow.STRUCT {
-		switch part := part.(type) {
-		case *compute.ArrayDatum:
-			arr := part.MakeArray().(*array.Struct)
-			defer arr.Release()
-
-			batch := array.RecordFromStructArray(arr, nil)
-			defer batch.Release()
-			return makeExecBatch(ctx, schema, compute.NewDatumWithoutOwning(batch))
-		case *compute.ScalarDatum:
-			out.Len = 1
-			out.Values = make([]compute.Datum, schema.NumFields())
-
-			s := part.Value.(*scalar.Struct)
-			dt := s.Type.(*arrow.StructType)
-
-			for i, field := range schema.Fields() {
-				idx, found := dt.FieldIdx(field.Name)
-				if !found {
-					out.Values[i] = compute.NewDatum(scalar.MakeNullScalar(field.Type))
-					continue
-				}
-
-				val := s.Value[idx]
-				if !arrow.TypeEqual(val.DataType(), field.Type) {
-					// referenced field was present but didn't have the expected
-					// type. for now we'll cast this
-					val, err = val.CastTo(field.Type)
-					if err != nil {
-						return compute.ExecBatch{}, err
-					}
-				}
-				out.Values[i] = compute.NewDatum(val)
-			}
-			return
-		}
-	}
-
-	return out, fmt.Errorf("%w: MakeExecBatch from %s", arrow.ErrNotImplemented, partial)
-}
-
-// ToArrowSchema takes a substrait NamedStruct and an extension set (for
-// type resolution mapping) and creates the equivalent Arrow Schema.
-func ToArrowSchema(base types.NamedStruct, ext ExtensionIDSet) (*arrow.Schema, error) {
-	fields := make([]arrow.Field, len(base.Names))
-	for i, typ := range base.Struct.Types {
-		dt, nullable, err := FromSubstraitType(typ, ext)
-		if err != nil {
-			return nil, err
-		}
-		fields[i] = arrow.Field{
-			Name:     base.Names[i],
-			Type:     dt,
-			Nullable: nullable,
-		}
-	}
-
-	return arrow.NewSchema(fields, nil), nil
-}
-
-type (
-	regCtxKey struct{}
-	extCtxKey struct{}
-)
-
-func WithExtensionRegistry(ctx context.Context, reg *ExtensionIDRegistry) context.Context {
-	return context.WithValue(ctx, regCtxKey{}, reg)
-}
-
-func GetExtensionRegistry(ctx context.Context) *ExtensionIDRegistry {
-	v, ok := ctx.Value(regCtxKey{}).(*ExtensionIDRegistry)
-	if !ok {
-		v = DefaultExtensionIDRegistry
-	}
-	return v
-}
-
-func WithExtensionIDSet(ctx context.Context, ext ExtensionIDSet) context.Context {
-	return context.WithValue(ctx, extCtxKey{}, ext)
-}
-
-func GetExtensionIDSet(ctx context.Context) ExtensionIDSet {
-	v, ok := ctx.Value(extCtxKey{}).(ExtensionIDSet)
-	if !ok {
-		return NewExtensionSet(
-			expr.NewEmptyExtensionRegistry(&extensions.DefaultCollection),
-			GetExtensionRegistry(ctx))
-	}
-	return v
-}
-
-func literalToDatum(mem memory.Allocator, lit expr.Literal, ext ExtensionIDSet) (compute.Datum, error) {
-	switch v := lit.(type) {
-	case *expr.PrimitiveLiteral[bool]:
-		return compute.NewDatum(scalar.NewBooleanScalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[int8]:
-		return compute.NewDatum(scalar.NewInt8Scalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[int16]:
-		return compute.NewDatum(scalar.NewInt16Scalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[int32]:
-		return compute.NewDatum(scalar.NewInt32Scalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[int64]:
-		return compute.NewDatum(scalar.NewInt64Scalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[float32]:
-		return compute.NewDatum(scalar.NewFloat32Scalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[float64]:
-		return compute.NewDatum(scalar.NewFloat64Scalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[string]:
-		return compute.NewDatum(scalar.NewStringScalar(v.Value)), nil
-	case *expr.PrimitiveLiteral[types.Timestamp]:
-		return compute.NewDatum(scalar.NewTimestampScalar(arrow.Timestamp(v.Value), &arrow.TimestampType{Unit: arrow.Microsecond})), nil
-	case *expr.PrimitiveLiteral[types.TimestampTz]:
-		return compute.NewDatum(scalar.NewTimestampScalar(arrow.Timestamp(v.Value),
-			&arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: TimestampTzTimezone})), nil
-	case *expr.PrimitiveLiteral[types.Date]:
-		return compute.NewDatum(scalar.NewDate32Scalar(arrow.Date32(v.Value))), nil
-	case *expr.PrimitiveLiteral[types.Time]:
-		return compute.NewDatum(scalar.NewTime64Scalar(arrow.Time64(v.Value), &arrow.Time64Type{Unit: arrow.Microsecond})), nil
-	case *expr.PrimitiveLiteral[types.FixedChar]:
-		length := int(v.Type.(*types.FixedCharType).Length)
-		return compute.NewDatum(scalar.NewExtensionScalar(
-			scalar.NewFixedSizeBinaryScalar(memory.NewBufferBytes([]byte(v.Value)),
-				&arrow.FixedSizeBinaryType{ByteWidth: length}), fixedChar(int32(length)))), nil
-	case *expr.ByteSliceLiteral[[]byte]:
-		return compute.NewDatum(scalar.NewBinaryScalar(memory.NewBufferBytes(v.Value), arrow.BinaryTypes.Binary)), nil
-	case *expr.ByteSliceLiteral[types.UUID]:
-		return compute.NewDatum(scalar.NewExtensionScalar(scalar.NewFixedSizeBinaryScalar(
-			memory.NewBufferBytes(v.Value), uuid().(arrow.ExtensionType).StorageType()), uuid())), nil
-	case *expr.ByteSliceLiteral[types.FixedBinary]:
-		return compute.NewDatum(scalar.NewFixedSizeBinaryScalar(memory.NewBufferBytes(v.Value),
-			&arrow.FixedSizeBinaryType{ByteWidth: int(v.Type.(*types.FixedBinaryType).Length)})), nil
-	case *expr.NullLiteral:
-		dt, _, err := FromSubstraitType(v.Type, ext)
-		if err != nil {
-			return nil, err
-		}
-		return compute.NewDatum(scalar.MakeNullScalar(dt)), nil
-	case *expr.ListLiteral:
-		var elemType arrow.DataType
-
-		values := make([]scalar.Scalar, len(v.Value))
-		for i, val := range v.Value {
-			d, err := literalToDatum(mem, val, ext)
-			if err != nil {
-				return nil, err
-			}
-			defer d.Release()
-			values[i] = d.(*compute.ScalarDatum).Value
-			if elemType != nil {
-				if !arrow.TypeEqual(values[i].DataType(), elemType) {
-					return nil, fmt.Errorf("%w: %s has a value whose type doesn't match the other list values",
-						arrow.ErrInvalid, v)
-				}
-			} else {
-				elemType = values[i].DataType()
-			}
-		}
-
-		bldr := array.NewBuilder(memory.DefaultAllocator, elemType)
-		defer bldr.Release()
-		if err := scalar.AppendSlice(bldr, values); err != nil {
-			return nil, err
-		}
-		arr := bldr.NewArray()
-		defer arr.Release()
-		return compute.NewDatum(scalar.NewListScalar(arr)), nil
-	case *expr.MapLiteral:
-		dt, _, err := FromSubstraitType(v.Type, ext)
-		if err != nil {
-			return nil, err
-		}
-
-		mapType, ok := dt.(*arrow.MapType)
-		if !ok {
-			return nil, fmt.Errorf("%w: map literal with non-map type", arrow.ErrInvalid)
-		}
-
-		keys, values := make([]scalar.Scalar, len(v.Value)), make([]scalar.Scalar, len(v.Value))
-		for i, kv := range v.Value {
-			k, err := literalToDatum(mem, kv.Key, ext)
-			if err != nil {
-				return nil, err
-			}
-			defer k.Release()
-			scalarKey := k.(*compute.ScalarDatum).Value
-
-			v, err := literalToDatum(mem, kv.Value, ext)
-			if err != nil {
-				return nil, err
-			}
-			defer v.Release()
-			scalarValue := v.(*compute.ScalarDatum).Value
-
-			if !arrow.TypeEqual(mapType.KeyType(), scalarKey.DataType()) {
-				return nil, fmt.Errorf("%w: key type mismatch for %s, got key with type %s",
-					arrow.ErrInvalid, mapType, scalarKey.DataType())
-			}
-			if !arrow.TypeEqual(mapType.ItemType(), scalarValue.DataType()) {
-				return nil, fmt.Errorf("%w: value type mismatch for %s, got value with type %s",
-					arrow.ErrInvalid, mapType, scalarValue.DataType())
-			}
-
-			keys[i], values[i] = scalarKey, scalarValue
-		}
-
-		keyBldr, valBldr := array.NewBuilder(mem, mapType.KeyType()), array.NewBuilder(mem, mapType.ItemType())
-		defer keyBldr.Release()
-		defer valBldr.Release()
-
-		if err := scalar.AppendSlice(keyBldr, keys); err != nil {
-			return nil, err
-		}
-		if err := scalar.AppendSlice(valBldr, values); err != nil {
-			return nil, err
-		}
-
-		keyArr, valArr := keyBldr.NewArray(), valBldr.NewArray()
-		defer keyArr.Release()
-		defer valArr.Release()
-
-		kvArr, err := array.NewStructArray([]arrow.Array{keyArr, valArr}, []string{"key", "value"})
-		if err != nil {
-			return nil, err
-		}
-		defer kvArr.Release()
-
-		return compute.NewDatumWithoutOwning(scalar.NewMapScalar(kvArr)), nil
-	case *expr.StructLiteral:
-		fields := make([]scalar.Scalar, len(v.Value))
-		names := make([]string, len(v.Value))
-
-		for i, l := range v.Value {
-			lit, err := literalToDatum(mem, l, ext)
-			if err != nil {
-				return nil, err
-			}
-			fields[i] = lit.(*compute.ScalarDatum).Value
-		}
-
-		s, err := scalar.NewStructScalarWithNames(fields, names)
-		return compute.NewDatum(s), err
-	case *expr.ProtoLiteral:
-		switch v := v.Value.(type) {
-		case *types.Decimal:
-			if len(v.Value) != arrow.Decimal128SizeBytes {
-				return nil, fmt.Errorf("%w: decimal literal had %d bytes (expected %d)",
-					arrow.ErrInvalid, len(v.Value), arrow.Decimal128SizeBytes)
-			}
-
-			var val decimal128.Num
-			data := (*(*[arrow.Decimal128SizeBytes]byte)(unsafe.Pointer(&val)))[:]
-			copy(data, v.Value)
-			if endian.IsBigEndian {
-				// reverse the bytes
-				for i := len(data)/2 - 1; i >= 0; i-- {
-					opp := len(data) - 1 - i
-					data[i], data[opp] = data[opp], data[i]
-				}
-			}
-
-			return compute.NewDatum(scalar.NewDecimal128Scalar(val,
-				&arrow.Decimal128Type{Precision: v.Precision, Scale: v.Scale})), nil
-		case *types.UserDefinedLiteral: // not yet implemented
-		case *types.IntervalYearToMonth:
-			bldr := array.NewInt32Builder(memory.DefaultAllocator)
-			defer bldr.Release()
-			typ := intervalYear()
-			bldr.Append(v.Years)
-			bldr.Append(v.Months)
-			arr := bldr.NewArray()
-			defer arr.Release()
-			return &compute.ScalarDatum{Value: scalar.NewExtensionScalar(
-				scalar.NewFixedSizeListScalar(arr), typ)}, nil
-		case *types.IntervalDayToSecond:
-			bldr := array.NewInt32Builder(memory.DefaultAllocator)
-			defer bldr.Release()
-			typ := intervalDay()
-			bldr.Append(v.Days)
-			bldr.Append(v.Seconds)
-			arr := bldr.NewArray()
-			defer arr.Release()
-			return &compute.ScalarDatum{Value: scalar.NewExtensionScalar(
-				scalar.NewFixedSizeListScalar(arr), typ)}, nil
-		case *types.VarChar:
-			return compute.NewDatum(scalar.NewExtensionScalar(
-				scalar.NewStringScalar(v.Value), varChar(int32(v.Length)))), nil
-		}
-	}
-
-	return nil, arrow.ErrNotImplemented
-}
-
-// ExecuteScalarExpression executes the given substrait expression using the provided datum as input.
-// It will first create an exec batch using the input schema and the datum.
-// The datum may have missing or incorrectly ordered columns while the input schema
-// should describe the expected input schema for the expression. Missing fields will
-// be replaced with null scalars and incorrectly ordered columns will be re-ordered
-// according to the schema.
-//
-// You can provide an allocator to use through the context via compute.WithAllocator.
-//
-// You can provide the ExtensionIDSet to use through the context via WithExtensionIDSet.
-func ExecuteScalarExpression(ctx context.Context, inputSchema *arrow.Schema, expression expr.Expression, partialInput compute.Datum) (compute.Datum, error) {
-	if expression == nil {
-		return nil, arrow.ErrInvalid
-	}
-
-	batch, err := makeExecBatch(ctx, inputSchema, partialInput)
-	if err != nil {
-		return nil, err
-	}
-	defer func() {
-		for _, v := range batch.Values {
-			v.Release()
-		}
-	}()
-
-	return executeScalarBatch(ctx, batch, expression, GetExtensionIDSet(ctx))
-}
-
-// ExecuteScalarSubstrait uses the provided Substrait extended expression to
-// determine the expected input schema (replacing missing fields in the partial
-// input datum with null scalars and re-ordering columns if necessary) and
-// ExtensionIDSet to use. You can provide the extension registry to use
-// through the context via WithExtensionRegistry, otherwise the default
-// Arrow registry will be used. You can provide a memory.Allocator to use
-// the same way via compute.WithAllocator.
-func ExecuteScalarSubstrait(ctx context.Context, expression *expr.Extended, partialInput compute.Datum) (compute.Datum, error) {
-	if expression == nil {
-		return nil, arrow.ErrInvalid
-	}
-
-	var toExecute expr.Expression
-
-	switch len(expression.ReferredExpr) {
-	case 0:
-		return nil, fmt.Errorf("%w: no referred expression to execute", arrow.ErrInvalid)
-	case 1:
-		if toExecute = expression.ReferredExpr[0].GetExpr(); toExecute == nil {
-			return nil, fmt.Errorf("%w: measures not implemented", arrow.ErrNotImplemented)
-		}
-	default:
-		return nil, fmt.Errorf("%w: only single referred expression implemented", arrow.ErrNotImplemented)
-	}
-
-	reg := GetExtensionRegistry(ctx)
-	set := NewExtensionSet(expr.NewExtensionRegistry(expression.Extensions, &extensions.DefaultCollection), reg)
-	sc, err := ToArrowSchema(expression.BaseSchema, set)
-	if err != nil {
-		return nil, err
-	}
-
-	return ExecuteScalarExpression(WithExtensionIDSet(ctx, set), sc, toExecute, partialInput)
-}
-
-func execFieldRef(ctx context.Context, e *expr.FieldReference, input compute.ExecBatch, ext ExtensionIDSet) (compute.Datum, error) {
-	if e.Root != expr.RootReference {
-		return nil, fmt.Errorf("%w: only RootReference is implemented", arrow.ErrNotImplemented)
-	}
-
-	ref, ok := e.Reference.(expr.ReferenceSegment)
-	if !ok {
-		return nil, fmt.Errorf("%w: only direct references are implemented", arrow.ErrNotImplemented)
-	}
-
-	expectedType, _, err := FromSubstraitType(e.GetType(), ext)
-	if err != nil {
-		return nil, err
-	}
-
-	var param compute.Datum
-	if sref, ok := ref.(*expr.StructFieldRef); ok {
-		if sref.Field < 0 || sref.Field >= int32(len(input.Values)) {
-			return nil, arrow.ErrInvalid
-		}
-		param = input.Values[sref.Field]
-		ref = ref.GetChild()
-	}
-
-	out, err := GetReferencedValue(compute.GetAllocator(ctx), ref, param, ext)
-	if err == compute.ErrEmpty {
-		out = compute.NewDatum(param)
-	} else if err != nil {
-		return nil, err
-	}
-	if !arrow.TypeEqual(out.(compute.ArrayLikeDatum).Type(), expectedType) {
-		return nil, fmt.Errorf("%w: referenced field %s was %s, but should have been %s",
-			arrow.ErrInvalid, ref, out.(compute.ArrayLikeDatum).Type(), expectedType)
-	}
-
-	return out, nil
-}
-
-func executeScalarBatch(ctx context.Context, input compute.ExecBatch, exp expr.Expression, ext ExtensionIDSet) (compute.Datum, error) {
-	if !exp.IsScalar() {
-		return nil, fmt.Errorf("%w: ExecuteScalarExpression cannot execute non-scalar expressions",
-			arrow.ErrInvalid)
-	}
-
-	switch e := exp.(type) {
-	case expr.Literal:
-		return literalToDatum(compute.GetAllocator(ctx), e, ext)
-	case *expr.FieldReference:
-		return execFieldRef(ctx, e, input, ext)
-	case *expr.Cast:
-		if e.Input == nil {
-			return nil, fmt.Errorf("%w: cast without argument to cast", arrow.ErrInvalid)
-		}
-
-		arg, err := executeScalarBatch(ctx, input, e.Input, ext)
-		if err != nil {
-			return nil, err
-		}
-		defer arg.Release()
-
-		dt, _, err := FromSubstraitType(e.Type, ext)
-		if err != nil {
-			return nil, fmt.Errorf("%w: could not determine type for cast", err)
-		}
-
-		var opts *compute.CastOptions
-		switch e.FailureBehavior {
-		case types.BehaviorThrowException:
-			opts = compute.UnsafeCastOptions(dt)
-		case types.BehaviorUnspecified:
-			return nil, fmt.Errorf("%w: cast behavior unspecified", arrow.ErrInvalid)
-		case types.BehaviorReturnNil:
-			return nil, fmt.Errorf("%w: cast behavior return nil", arrow.ErrNotImplemented)
-		}
-		return compute.CastDatum(ctx, arg, opts)
-	case *expr.ScalarFunction:
-		var (
-			err       error
-			allScalar = true
-			args      = make([]compute.Datum, e.NArgs())
-			argTypes  = make([]arrow.DataType, e.NArgs())
-		)
-		for i := 0; i < e.NArgs(); i++ {
-			switch v := e.Arg(i).(type) {
-			case types.Enum:
-				args[i] = compute.NewDatum(scalar.NewStringScalar(string(v)))
-			case expr.Expression:
-				args[i], err = executeScalarBatch(ctx, input, v, ext)
-				if err != nil {
-					return nil, err
-				}
-				defer args[i].Release()
-
-				if args[i].Kind() != compute.KindScalar {
-					allScalar = false
-				}
-			default:
-				return nil, arrow.ErrNotImplemented
-			}
-
-			argTypes[i] = args[i].(compute.ArrayLikeDatum).Type()
-		}
-
-		_, conv, ok := ext.DecodeFunction(e.FuncRef())
-		if !ok {
-			return nil, arrow.ErrNotImplemented
-		}
-
-		fname, opts, err := conv(e)
-		if err != nil {
-			return nil, err
-		}
-
-		ectx := compute.GetExecCtx(ctx)
-		fn, ok := ectx.Registry.GetFunction(fname)
-		if !ok {
-			return nil, arrow.ErrInvalid
-		}
-
-		if fn.Kind() != compute.FuncScalar {
-			return nil, arrow.ErrInvalid
-		}
-
-		k, err := fn.DispatchBest(argTypes...)
-		if err != nil {
-			return nil, err
-		}
-
-		kctx := &exec.KernelCtx{Ctx: ctx, Kernel: k}
-		init := k.GetInitFn()
-		kinitArgs := exec.KernelInitArgs{Kernel: k, Inputs: argTypes, Options: opts}
-		if init != nil {
-			kctx.State, err = init(kctx, kinitArgs)
-			if err != nil {
-				return nil, err
-			}
-		}
-
-		executor := compute.NewScalarExecutor()
-		if err := executor.Init(kctx, kinitArgs); err != nil {
-			return nil, err
-		}
-
-		batch := compute.ExecBatch{Values: args}
-		if allScalar {
-			batch.Len = 1
-		} else {
-			batch.Len = input.Len
-		}
-
-		ctx, cancel := context.WithCancel(context.Background())
-		defer cancel()
-
-		ch := make(chan compute.Datum, ectx.ExecChannelSize)
-		go func() {
-			defer close(ch)
-			if err = executor.Execute(ctx, &batch, ch); err != nil {
-				cancel()
-			}
-		}()
-
-		result := executor.WrapResults(ctx, ch, false)
-		if err == nil {
-			debug.Assert(executor.CheckResultType(result) == nil, "invalid result type")
-		}
-
-		if ctx.Err() == context.Canceled && result != nil {
-			result.Release()
-		}
-
-		return result, nil
-	}
-
-	return nil, arrow.ErrNotImplemented
-}
diff --git a/go/arrow/compute/exprs/exec_internal_test.go b/go/arrow/compute/exprs/exec_internal_test.go
deleted file mode 100644
index 450db139e9357..0000000000000
--- a/go/arrow/compute/exprs/exec_internal_test.go
+++ /dev/null
@@ -1,114 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs
-
-import (
-	"context"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-var (
-	boringArrowSchema = arrow.NewSchema([]arrow.Field{
-		{Name: "bool", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "i32_req", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "u32", Type: arrow.PrimitiveTypes.Uint32, Nullable: true},
-		{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "f32", Type: arrow.PrimitiveTypes.Float32, Nullable: true},
-		{Name: "f32_req", Type: arrow.PrimitiveTypes.Float32},
-		{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "date32", Type: arrow.FixedWidthTypes.Date32, Nullable: true},
-		{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "bin", Type: arrow.BinaryTypes.Binary, Nullable: true},
-	}, nil)
-)
-
-func TestMakeExecBatch(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	const numRows = 3
-	var (
-		ctx         = compute.WithAllocator(context.Background(), mem)
-		i32, _, _   = array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 3]`))
-		f32, _, _   = array.FromJSON(mem, arrow.PrimitiveTypes.Float32, strings.NewReader(`[1.5, 2.25, 3.125]`))
-		empty, _, _ = array.RecordFromJSON(mem, boringArrowSchema, strings.NewReader(`[]`))
-	)
-	defer i32.Release()
-	defer f32.Release()
-
-	getField := func(n string) arrow.Field {
-		f, _ := boringArrowSchema.FieldsByName(n)
-		return f[0]
-	}
-
-	tests := []struct {
-		name  string
-		batch arrow.Record
-	}{
-		{"empty", empty},
-		{"subset", array.NewRecord(arrow.NewSchema([]arrow.Field{getField("i32"), getField("f32")}, nil),
-			[]arrow.Array{i32, f32}, numRows)},
-		{"flipped subset", array.NewRecord(arrow.NewSchema([]arrow.Field{getField("f32"), getField("i32")}, nil),
-			[]arrow.Array{f32, i32}, numRows)},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			defer tt.batch.Release()
-			batch, err := makeExecBatch(ctx, boringArrowSchema, compute.NewDatumWithoutOwning(tt.batch))
-			require.NoError(t, err)
-			require.Equal(t, tt.batch.NumRows(), batch.Len)
-
-			defer func() {
-				for _, v := range batch.Values {
-					v.Release()
-				}
-			}()
-
-			for i, field := range boringArrowSchema.Fields() {
-				typ := batch.Values[i].(compute.ArrayLikeDatum).Type()
-				assert.Truef(t, arrow.TypeEqual(typ, field.Type),
-					"expected: %s\ngot: %s", field.Type, typ)
-
-				idxes := tt.batch.Schema().FieldIndices(field.Name)
-				if batch.Values[i].Kind() == compute.KindScalar {
-					assert.False(t, batch.Values[i].(*compute.ScalarDatum).Value.IsValid(),
-						"null placeholder should be injected")
-					assert.Len(t, idxes, 0, "should only happen when column isn't found")
-				} else {
-					col := tt.batch.Column(idxes[0])
-					val := batch.Values[i].(*compute.ArrayDatum).MakeArray()
-					defer val.Release()
-
-					assert.Truef(t, array.Equal(col, val), "expected: %s\ngot: %s", col, val)
-				}
-			}
-		})
-	}
-}
diff --git a/go/arrow/compute/exprs/exec_test.go b/go/arrow/compute/exprs/exec_test.go
deleted file mode 100644
index b74f80057a0d7..0000000000000
--- a/go/arrow/compute/exprs/exec_test.go
+++ /dev/null
@@ -1,461 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs_test
-
-import (
-	"context"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exprs"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/substrait-io/substrait-go/expr"
-	"github.com/substrait-io/substrait-go/types"
-)
-
-var (
-	extSet           = exprs.NewDefaultExtensionSet()
-	_, u32TypeRef, _ = extSet.EncodeTypeVariation(arrow.PrimitiveTypes.Uint32)
-
-	boringSchema = types.NamedStruct{
-		Names: []string{
-			"bool", "i8", "i32", "i32_req",
-			"u32", "i64", "f32", "f32_req",
-			"f64", "date32", "str", "bin"},
-		Struct: types.StructType{
-			Nullability: types.NullabilityRequired,
-			Types: []types.Type{
-				&types.BooleanType{},
-				&types.Int8Type{},
-				&types.Int32Type{},
-				&types.Int32Type{Nullability: types.NullabilityRequired},
-				&types.Int32Type{
-					TypeVariationRef: u32TypeRef,
-				},
-				&types.Int64Type{},
-				&types.Float32Type{},
-				&types.Float32Type{Nullability: types.NullabilityRequired},
-				&types.Float64Type{},
-				&types.DateType{},
-				&types.StringType{},
-				&types.BinaryType{},
-			},
-		},
-	}
-
-	boringArrowSchema = arrow.NewSchema([]arrow.Field{
-		{Name: "bool", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "u32", Type: arrow.PrimitiveTypes.Uint32, Nullable: true},
-		{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "f32", Type: arrow.PrimitiveTypes.Float32, Nullable: true},
-		{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "date32", Type: arrow.FixedWidthTypes.Date32, Nullable: true},
-		{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "bin", Type: arrow.BinaryTypes.Binary, Nullable: true},
-	}, nil)
-)
-
-func TestToArrowSchema(t *testing.T) {
-	expectedSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "bool", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "i32_req", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "u32", Type: arrow.PrimitiveTypes.Uint32, Nullable: true},
-		{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "f32", Type: arrow.PrimitiveTypes.Float32, Nullable: true},
-		{Name: "f32_req", Type: arrow.PrimitiveTypes.Float32},
-		{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "date32", Type: arrow.FixedWidthTypes.Date32, Nullable: true},
-		{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "bin", Type: arrow.BinaryTypes.Binary, Nullable: true},
-	}, nil)
-
-	sc, err := exprs.ToArrowSchema(boringSchema, extSet)
-	assert.NoError(t, err)
-
-	assert.Truef(t, expectedSchema.Equal(sc), "expected: %s\ngot: %s", expectedSchema, sc)
-}
-
-func assertEqual(t *testing.T, expected, actual any) bool {
-	switch e := expected.(type) {
-	case compute.Datum:
-		return assert.Truef(t, e.Equals(compute.NewDatumWithoutOwning(actual)),
-			"expected: %s\ngot: %s", e, actual)
-	case arrow.Array:
-		switch a := actual.(type) {
-		case compute.Datum:
-			if a.Kind() == compute.KindArray {
-				actual := a.(*compute.ArrayDatum).MakeArray()
-				defer actual.Release()
-				return assert.Truef(t, array.Equal(e, actual), "expected: %s\ngot: %s",
-					e, actual)
-			}
-		case arrow.Array:
-			return assert.Truef(t, array.Equal(e, a), "expected: %s\ngot: %s",
-				e, actual)
-		}
-		t.Errorf("expected arrow Array, got %s", actual)
-		return false
-	}
-	panic("unimplemented comparison")
-}
-
-func TestComparisons(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	var (
-		ctx  = compute.WithAllocator(context.Background(), mem)
-		zero = scalar.MakeScalar(int32(0))
-		one  = scalar.MakeScalar(int32(1))
-		two  = scalar.MakeScalar(int32(2))
-
-		str = scalar.MakeScalar("hello")
-		bin = scalar.MakeScalar([]byte("hello"))
-	)
-
-	getArgType := func(dt arrow.DataType) types.Type {
-		switch dt.ID() {
-		case arrow.INT32:
-			return &types.Int32Type{}
-		case arrow.STRING:
-			return &types.StringType{}
-		case arrow.BINARY:
-			return &types.BinaryType{}
-		}
-		panic("wtf")
-	}
-
-	expect := func(t *testing.T, fn string, arg1, arg2 scalar.Scalar, res bool) {
-		baseStruct := types.NamedStruct{
-			Names: []string{"arg1", "arg2"},
-			Struct: types.StructType{
-				Types: []types.Type{getArgType(arg1.DataType()), getArgType(arg2.DataType())},
-			},
-		}
-
-		ex, err := exprs.NewScalarCall(extSet, fn, nil,
-			expr.MustExpr(expr.NewRootFieldRef(expr.NewStructFieldRef(0), &baseStruct.Struct)),
-			expr.MustExpr(expr.NewRootFieldRef(expr.NewStructFieldRef(1), &baseStruct.Struct)))
-		require.NoError(t, err)
-
-		expression := &expr.Extended{
-			Extensions: extSet.GetSubstraitRegistry().Set,
-			ReferredExpr: []expr.ExpressionReference{
-				expr.NewExpressionReference([]string{"out"}, ex),
-			},
-			BaseSchema: baseStruct,
-		}
-
-		input, _ := scalar.NewStructScalarWithNames([]scalar.Scalar{arg1, arg2}, []string{"arg1", "arg2"})
-		out, err := exprs.ExecuteScalarSubstrait(ctx, expression, compute.NewDatum(input))
-		require.NoError(t, err)
-		require.Equal(t, compute.KindScalar, out.Kind())
-
-		result := out.(*compute.ScalarDatum).Value
-		assert.Equal(t, res, result.(*scalar.Boolean).Value)
-	}
-
-	expect(t, "equal", one, one, true)
-	expect(t, "equal", one, two, false)
-	expect(t, "less", one, two, true)
-	expect(t, "less", one, zero, false)
-	expect(t, "greater", one, zero, true)
-	expect(t, "greater", one, two, false)
-
-	expect(t, "equal", str, bin, true)
-	expect(t, "equal", bin, str, true)
-}
-
-func TestExecuteFieldRef(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	fromJSON := func(ty arrow.DataType, json string) arrow.Array {
-		arr, _, err := array.FromJSON(mem, ty, strings.NewReader(json))
-		require.NoError(t, err)
-		return arr
-	}
-
-	scalarFromJSON := func(ty arrow.DataType, json string) scalar.Scalar {
-		arr, _, err := array.FromJSON(mem, ty, strings.NewReader(json))
-		require.NoError(t, err)
-		defer arr.Release()
-		s, err := scalar.GetScalar(arr, 0)
-		require.NoError(t, err)
-		return s
-	}
-
-	tests := []struct {
-		testName string
-		ref      compute.FieldRef
-		input    compute.Datum
-		expected compute.Datum
-	}{
-		{"basic ref", compute.FieldRefName("a"), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.StructOf(arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-			`[
-			 	{"a": 6.125},
-				{"a": 0.0},
-				{"a": -1}
-			 ]`)), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.PrimitiveTypes.Float64, `[6.125, 0.0, -1]`))},
-		{"ref one field", compute.FieldRefName("a"), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-				arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-			`[
-				{"a": 6.125, "b": 7.5},
-				{"a": 0.0, "b": 2.125},
-				{"a": -1, "b": 4.0}
-			 ]`)), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.PrimitiveTypes.Float64, `[6.125, 0.0, -1]`))},
-		{"second field", compute.FieldRefName("b"), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-				arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-			`[
-					{"a": 6.125, "b": 7.5},
-					{"a": 0.0, "b": 2.125},
-					{"a": -1, "b": 4.0}
-				 ]`)), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.PrimitiveTypes.Float64, `[7.5, 2.125, 4.0]`))},
-		{"nested field by path", compute.FieldRefPath(compute.FieldPath{0, 0}), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.StructOf(
-					arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-					Nullable: true}),
-			`[
-				{"a": {"b": 6.125}},
-				{"a": {"b": 0.0}},
-				{"a": {"b": -1}}
-			 ]`)), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.PrimitiveTypes.Float64, `[6.125, 0.0, -1]`))},
-		{"nested field by name", compute.FieldRefList("a", "b"), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.StructOf(
-					arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-					Nullable: true}),
-			`[
-					{"a": {"b": 6.125}},
-					{"a": {"b": 0.0}},
-					{"a": {"b": -1}}
-				 ]`)), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.PrimitiveTypes.Float64, `[6.125, 0.0, -1]`))},
-		{"nested field with nulls", compute.FieldRefList("a", "b"), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.StructOf(
-					arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-					Nullable: true}),
-			`[
-						{"a": {"b": 6.125}},
-						{"a": null},
-						{"a": {"b": null}}
-					 ]`)), compute.NewDatumWithoutOwning(fromJSON(
-			arrow.PrimitiveTypes.Float64, `[6.125, null, null]`))},
-		{"nested scalar", compute.FieldRefList("a", "b"), compute.NewDatumWithoutOwning(
-			scalarFromJSON(arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.StructOf(
-					arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-					Nullable: true}), `[{"a": {"b": 64.0}}]`)),
-			compute.NewDatum(scalar.NewFloat64Scalar(64.0))},
-		{"nested scalar with null", compute.FieldRefList("a", "b"), compute.NewDatumWithoutOwning(
-			scalarFromJSON(arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.StructOf(
-					arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-					Nullable: true}), `[{"a": {"b": null}}]`)),
-			compute.NewDatum(scalar.MakeNullScalar(arrow.PrimitiveTypes.Float64))},
-		{"nested scalar null", compute.FieldRefList("a", "b"), compute.NewDatumWithoutOwning(
-			scalarFromJSON(arrow.StructOf(
-				arrow.Field{Name: "a", Type: arrow.StructOf(
-					arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true}),
-					Nullable: true}), `[{"a": null}]`)),
-			compute.NewDatum(scalar.MakeNullScalar(arrow.PrimitiveTypes.Float64))},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.testName, func(t *testing.T) {
-			scoped := memory.NewCheckedAllocatorScope(mem)
-			defer scoped.CheckSize(t)
-
-			ctx := exprs.WithExtensionIDSet(compute.WithAllocator(context.Background(), mem), extSet)
-			dt := tt.input.(compute.ArrayLikeDatum).Type().(arrow.NestedType)
-			schema := arrow.NewSchema(dt.Fields(), nil)
-			ref, err := exprs.NewFieldRef(tt.ref, schema, extSet)
-			require.NoError(t, err)
-			assert.NotNil(t, ref)
-
-			actual, err := exprs.ExecuteScalarExpression(ctx, schema, ref, tt.input)
-			require.NoError(t, err)
-			defer actual.Release()
-
-			assert.Truef(t, tt.expected.Equals(actual), "expected: %s\ngot: %s", tt.expected, actual)
-		})
-	}
-}
-
-func TestExecuteScalarFuncCall(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	fromJSON := func(ty arrow.DataType, json string) arrow.Array {
-		arr, _, err := array.FromJSON(mem, ty, strings.NewReader(json))
-		require.NoError(t, err)
-		return arr
-	}
-
-	basicSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "b", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	}, nil)
-
-	nestedSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "a", Type: arrow.StructOf(basicSchema.Fields()...), Nullable: false},
-	}, nil)
-
-	bldr := exprs.NewExprBuilder(extSet)
-
-	tests := []struct {
-		name     string
-		ex       exprs.Builder
-		sc       *arrow.Schema
-		input    compute.Datum
-		expected compute.Datum
-	}{
-		{"add", bldr.MustCallScalar("add", nil, bldr.FieldRef("a"),
-			bldr.Literal(expr.NewPrimitiveLiteral(float64(3.5), false))),
-			basicSchema,
-			compute.NewDatumWithoutOwning(fromJSON(arrow.StructOf(basicSchema.Fields()...),
-				`[
-				{"a": 6.125, "b": 3.375},
-				{"a": 0.0, "b": 1},
-				{"a": -1, "b": 4.75}
-			]`)), compute.NewDatumWithoutOwning(fromJSON(arrow.PrimitiveTypes.Float64,
-				`[9.625, 3.5, 2.5]`))},
-		{"add sub", bldr.MustCallScalar("add", nil, bldr.FieldRef("a"),
-			bldr.MustCallScalar("subtract", nil,
-				bldr.WrapLiteral(expr.NewLiteral(float64(3.5), false)),
-				bldr.FieldRef("b"))),
-			basicSchema,
-			compute.NewDatumWithoutOwning(fromJSON(arrow.StructOf(basicSchema.Fields()...),
-				`[
-				{"a": 6.125, "b": 3.375},
-				{"a": 0.0, "b": 1},
-				{"a": -1, "b": 4.75}
-			]`)), compute.NewDatumWithoutOwning(fromJSON(arrow.PrimitiveTypes.Float64,
-				`[6.25, 2.5, -2.25]`))},
-		{"add nested", bldr.MustCallScalar("add", nil,
-			bldr.FieldRefList("a", "a"), bldr.FieldRefList("a", "b")), nestedSchema,
-			compute.NewDatumWithoutOwning(fromJSON(arrow.StructOf(nestedSchema.Fields()...),
-				`[
-					{"a": {"a": 6.125, "b": 3.375}},
-					{"a": {"a": 0.0, "b": 1}},
-					{"a": {"a": -1, "b": 4.75}}
-				 ]`)), compute.NewDatumWithoutOwning(fromJSON(arrow.PrimitiveTypes.Float64,
-				`[9.5, 1, 3.75]`))},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			scoped := memory.NewCheckedAllocatorScope(mem)
-			defer scoped.CheckSize(t)
-
-			bldr.SetInputSchema(tt.sc)
-			ex, err := tt.ex.BuildExpr()
-			require.NoError(t, err)
-
-			ctx := exprs.WithExtensionIDSet(compute.WithAllocator(context.Background(), mem), extSet)
-			dt := tt.input.(compute.ArrayLikeDatum).Type().(arrow.NestedType)
-			schema := arrow.NewSchema(dt.Fields(), nil)
-
-			actual, err := exprs.ExecuteScalarExpression(ctx, schema, ex, tt.input)
-			require.NoError(t, err)
-			defer actual.Release()
-
-			assert.Truef(t, tt.expected.Equals(actual), "expected: %s\ngot: %s", tt.expected, actual)
-		})
-	}
-}
-
-func TestGenerateMask(t *testing.T) {
-	sc, err := boringArrowSchema.AddField(0, arrow.Field{
-		Name: "in", Type: arrow.FixedWidthTypes.Boolean, Nullable: true})
-	require.NoError(t, err)
-
-	bldr := exprs.NewExprBuilder(extSet)
-	require.NoError(t, bldr.SetInputSchema(sc))
-
-	tests := []struct {
-		name   string
-		json   string
-		filter exprs.Builder
-	}{
-		{"simple", `[
-			{"i32": 0, "f32": -0.1, "in": true},
-			{"i32": 0, "f32":  0.3, "in": true},
-			{"i32": 1, "f32":  0.2, "in": false},
-			{"i32": 2, "f32": -0.1, "in": false},
-			{"i32": 0, "f32":  0.1, "in": true},
-			{"i32": 0, "f32": null, "in": true},
-			{"i32": 0, "f32":  1.0, "in": true}
-		]`, bldr.MustCallScalar("equal", nil,
-			bldr.FieldRef("i32"), bldr.Literal(expr.NewPrimitiveLiteral(int32(0), false)))},
-		{"complex", `[
-			{"f64":  0.3, "f32":  0.1, "in": true},
-			{"f64": -0.1, "f32":  0.3, "in": false},
-			{"f64":  0.1, "f32":  0.2, "in": true},
-			{"f64":  0.0, "f32": -0.1, "in": false},
-			{"f64":  1.0, "f32":  0.1, "in": true},
-			{"f64": -2.0, "f32": null, "in": null},
-			{"f64":  3.0, "f32":  1.0, "in": true}
-		]`, bldr.MustCallScalar("greater", nil,
-			bldr.MustCallScalar("multiply", nil,
-				bldr.Must(bldr.Cast(bldr.FieldRef("f32"), arrow.PrimitiveTypes.Float64)),
-				bldr.FieldRef("f64")),
-			bldr.Literal(expr.NewPrimitiveLiteral(float64(0), false)))},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			ctx := exprs.WithExtensionIDSet(compute.WithAllocator(context.Background(), mem), extSet)
-
-			rec, _, err := array.RecordFromJSON(mem, sc, strings.NewReader(tt.json))
-			require.NoError(t, err)
-			defer rec.Release()
-
-			input := compute.NewDatumWithoutOwning(rec)
-			expectedMask := rec.Column(0)
-
-			mask, err := exprs.ExecuteScalarExpression(ctx, sc,
-				expr.MustExpr(tt.filter.BuildExpr()), input)
-			require.NoError(t, err)
-			defer mask.Release()
-
-			assertEqual(t, expectedMask, mask)
-		})
-	}
-}
diff --git a/go/arrow/compute/exprs/extension_types.go b/go/arrow/compute/exprs/extension_types.go
deleted file mode 100644
index 8177675592fc9..0000000000000
--- a/go/arrow/compute/exprs/extension_types.go
+++ /dev/null
@@ -1,149 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs
-
-import (
-	"encoding/json"
-	"fmt"
-	"reflect"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-type simpleExtensionTypeFactory[P comparable] struct {
-	arrow.ExtensionBase
-
-	params     P
-	name       string
-	getStorage func(P) arrow.DataType
-}
-
-func (ef *simpleExtensionTypeFactory[P]) String() string        { return "extension<" + ef.Serialize() + ">" }
-func (ef *simpleExtensionTypeFactory[P]) ExtensionName() string { return ef.name }
-func (ef *simpleExtensionTypeFactory[P]) Serialize() string {
-	s, _ := json.Marshal(ef.params)
-	return ef.name + string(s)
-}
-func (ef *simpleExtensionTypeFactory[P]) Deserialize(storage arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if !strings.HasPrefix(data, ef.name) {
-		return nil, fmt.Errorf("%w: invalid deserialization of extension type %s", arrow.ErrInvalid, ef.name)
-	}
-
-	data = strings.TrimPrefix(data, ef.name)
-	if err := json.Unmarshal([]byte(data), &ef.params); err != nil {
-		return nil, fmt.Errorf("%w: failed parsing parameters for extension type", err)
-	}
-
-	if !arrow.TypeEqual(storage, ef.getStorage(ef.params)) {
-		return nil, fmt.Errorf("%w: invalid storage type for %s: %s (expected: %s)",
-			arrow.ErrInvalid, ef.name, storage, ef.getStorage(ef.params))
-	}
-
-	return &simpleExtensionTypeFactory[P]{
-		name:       ef.name,
-		params:     ef.params,
-		getStorage: ef.getStorage,
-		ExtensionBase: arrow.ExtensionBase{
-			Storage: storage,
-		},
-	}, nil
-}
-func (ef *simpleExtensionTypeFactory[P]) ExtensionEquals(other arrow.ExtensionType) bool {
-	if ef.name != other.ExtensionName() {
-		return false
-	}
-
-	rhs := other.(*simpleExtensionTypeFactory[P])
-	return ef.params == rhs.params
-}
-func (ef *simpleExtensionTypeFactory[P]) ArrayType() reflect.Type {
-	return reflect.TypeOf(array.ExtensionArrayBase{})
-}
-
-func (ef *simpleExtensionTypeFactory[P]) CreateType(params P) arrow.DataType {
-	storage := ef.getStorage(params)
-
-	return &simpleExtensionTypeFactory[P]{
-		name:       ef.name,
-		params:     params,
-		getStorage: ef.getStorage,
-		ExtensionBase: arrow.ExtensionBase{
-			Storage: storage,
-		},
-	}
-}
-
-type uuidExtParams struct{}
-
-var uuidType = simpleExtensionTypeFactory[uuidExtParams]{
-	name: "uuid", getStorage: func(uuidExtParams) arrow.DataType {
-		return &arrow.FixedSizeBinaryType{ByteWidth: 16}
-	}}
-
-type fixedCharExtensionParams struct {
-	Length int32 `json:"length"`
-}
-
-var fixedCharType = simpleExtensionTypeFactory[fixedCharExtensionParams]{
-	name: "fixed_char", getStorage: func(p fixedCharExtensionParams) arrow.DataType {
-		return &arrow.FixedSizeBinaryType{ByteWidth: int(p.Length)}
-	},
-}
-
-type varCharExtensionParams struct {
-	Length int32 `json:"length"`
-}
-
-var varCharType = simpleExtensionTypeFactory[varCharExtensionParams]{
-	name: "varchar", getStorage: func(varCharExtensionParams) arrow.DataType {
-		return arrow.BinaryTypes.String
-	},
-}
-
-type intervalYearExtensionParams struct{}
-
-var intervalYearType = simpleExtensionTypeFactory[intervalYearExtensionParams]{
-	name: "interval_year", getStorage: func(intervalYearExtensionParams) arrow.DataType {
-		return arrow.FixedSizeListOf(2, arrow.PrimitiveTypes.Int32)
-	},
-}
-
-type intervalDayExtensionParams struct{}
-
-var intervalDayType = simpleExtensionTypeFactory[intervalDayExtensionParams]{
-	name: "interval_day", getStorage: func(intervalDayExtensionParams) arrow.DataType {
-		return arrow.FixedSizeListOf(2, arrow.PrimitiveTypes.Int32)
-	},
-}
-
-func uuid() arrow.DataType { return uuidType.CreateType(uuidExtParams{}) }
-func fixedChar(length int32) arrow.DataType {
-	return fixedCharType.CreateType(fixedCharExtensionParams{Length: length})
-}
-func varChar(length int32) arrow.DataType {
-	return varCharType.CreateType(varCharExtensionParams{Length: length})
-}
-func intervalYear() arrow.DataType {
-	return intervalYearType.CreateType(intervalYearExtensionParams{})
-}
-func intervalDay() arrow.DataType {
-	return intervalDayType.CreateType(intervalDayExtensionParams{})
-}
diff --git a/go/arrow/compute/exprs/field_refs.go b/go/arrow/compute/exprs/field_refs.go
deleted file mode 100644
index 0e039d9e26601..0000000000000
--- a/go/arrow/compute/exprs/field_refs.go
+++ /dev/null
@@ -1,254 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/substrait-io/substrait-go/expr"
-)
-
-func getFields(typ arrow.DataType) []arrow.Field {
-	if nested, ok := typ.(arrow.NestedType); ok {
-		return nested.Fields()
-	}
-	return nil
-}
-
-// GetRefField evaluates the substrait field reference to retrieve the
-// referenced field or return an error.
-func GetRefField(ref expr.ReferenceSegment, fields []arrow.Field) (*arrow.Field, error) {
-	if ref == nil {
-		return nil, compute.ErrEmpty
-	}
-
-	var (
-		out *arrow.Field
-	)
-
-	for ref != nil {
-		if len(fields) == 0 {
-			return nil, fmt.Errorf("%w: %s", compute.ErrNoChildren, out.Type)
-		}
-
-		switch f := ref.(type) {
-		case *expr.StructFieldRef:
-			if f.Field < 0 || f.Field >= int32(len(fields)) {
-				return nil, fmt.Errorf("%w: indices=%s", compute.ErrIndexRange, f)
-			}
-
-			out = &fields[f.Field]
-			fields = getFields(out.Type)
-		default:
-			return nil, arrow.ErrNotImplemented
-		}
-
-		ref = ref.GetChild()
-	}
-
-	return out, nil
-}
-
-// GetRefSchema evaluates the provided substrait field reference against
-// the schema to retrieve the referenced (potentially nested) field.
-func GetRefSchema(ref expr.ReferenceSegment, schema *arrow.Schema) (*arrow.Field, error) {
-	return GetRefField(ref, schema.Fields())
-}
-
-// GetScalar returns the evaluated referenced scalar value from the provided
-// scalar which must be appropriate to the type of reference.
-//
-// A StructFieldRef can only reference against a Struct-type scalar, a
-// ListElementRef can only reference against a List or LargeList scalar,
-// and a MapKeyRef will only reference against a Map scalar. An error is
-// returned if following the reference children ends up with an invalid
-// nested reference object.
-func GetScalar(ref expr.ReferenceSegment, s scalar.Scalar, mem memory.Allocator, ext ExtensionIDSet) (scalar.Scalar, error) {
-	if ref == nil {
-		return nil, compute.ErrEmpty
-	}
-
-	var out scalar.Scalar
-	for ref != nil {
-		switch f := ref.(type) {
-		case *expr.StructFieldRef:
-			if s.DataType().ID() != arrow.STRUCT {
-				return nil, fmt.Errorf("%w: attempting to reference field from non-struct scalar %s",
-					arrow.ErrInvalid, s)
-			}
-
-			st := s.(*scalar.Struct)
-			if f.Field < 0 || f.Field >= int32(len(st.Value)) {
-				return nil, fmt.Errorf("%w: indices=%s", compute.ErrIndexRange, ref)
-			}
-
-			out = st.Value[f.Field]
-		case *expr.ListElementRef:
-			switch v := s.(type) {
-			case *scalar.List:
-				sc, err := scalar.GetScalar(v.Value, int(f.Offset))
-				if err != nil {
-					return nil, err
-				}
-				out = sc
-			case *scalar.LargeList:
-				sc, err := scalar.GetScalar(v.Value, int(f.Offset))
-				if err != nil {
-					return nil, err
-				}
-				out = sc
-			default:
-				return nil, fmt.Errorf("%w: cannot get ListElementRef from non-list scalar %s",
-					arrow.ErrInvalid, v)
-			}
-		case *expr.MapKeyRef:
-			v, ok := s.(*scalar.Map)
-			if !ok {
-				return nil, arrow.ErrInvalid
-			}
-
-			dt, _, err := FromSubstraitType(f.MapKey.GetType(), ext)
-			if err != nil {
-				return nil, err
-			}
-
-			if !arrow.TypeEqual(dt, v.Type.(*arrow.MapType).KeyType()) {
-				return nil, arrow.ErrInvalid
-			}
-
-			keyvalDatum, err := literalToDatum(mem, f.MapKey, ext)
-			if err != nil {
-				return nil, err
-			}
-
-			var (
-				keyval      = keyvalDatum.(*compute.ScalarDatum)
-				m           = v.Value.(*array.Struct)
-				keys        = m.Field(0)
-				valueScalar scalar.Scalar
-			)
-			for i := 0; i < v.Value.Len(); i++ {
-				kv, err := scalar.GetScalar(keys, i)
-				if err != nil {
-					return nil, err
-				}
-				if scalar.Equals(kv, keyval.Value) {
-					valueScalar, err = scalar.GetScalar(m.Field(1), i)
-					if err != nil {
-						return nil, err
-					}
-					break
-				}
-			}
-
-			if valueScalar == nil {
-				return nil, arrow.ErrNotFound
-			}
-
-			out = valueScalar
-		}
-		s = out
-		ref = ref.GetChild()
-	}
-
-	return out, nil
-}
-
-// GetReferencedValue retrieves the referenced (potentially nested) value from
-// the provided datum which may be a scalar, array, or record batch.
-func GetReferencedValue(mem memory.Allocator, ref expr.ReferenceSegment, value compute.Datum, ext ExtensionIDSet) (compute.Datum, error) {
-	if ref == nil {
-		return nil, compute.ErrEmpty
-	}
-
-	for ref != nil {
-		// process the rest of the refs for the scalars
-		// since arrays can go down to a scalar, but you
-		// won't get an array from a scalar via ref
-		if v, ok := value.(*compute.ScalarDatum); ok {
-			out, err := GetScalar(ref, v.Value, mem, ext)
-			if err != nil {
-				return nil, err
-			}
-
-			return &compute.ScalarDatum{Value: out}, nil
-		}
-
-		switch r := ref.(type) {
-		case *expr.MapKeyRef:
-			return nil, arrow.ErrNotImplemented
-		case *expr.StructFieldRef:
-			switch v := value.(type) {
-			case *compute.ArrayDatum:
-				if v.Type().ID() != arrow.STRUCT {
-					return nil, fmt.Errorf("%w: struct field ref for non struct type %s",
-						arrow.ErrInvalid, v.Type())
-				}
-
-				if r.Field < 0 || r.Field >= int32(len(v.Value.Children())) {
-					return nil, fmt.Errorf("%w: indices=%s", compute.ErrIndexRange, ref)
-				}
-
-				value = &compute.ArrayDatum{Value: v.Value.Children()[r.Field]}
-			case *compute.RecordDatum:
-				if r.Field < 0 || r.Field >= int32(v.Value.NumCols()) {
-					return nil, fmt.Errorf("%w: indices=%s", compute.ErrIndexRange, ref)
-				}
-
-				value = &compute.ArrayDatum{Value: v.Value.Column(int(r.Field)).Data()}
-			default:
-				return nil, arrow.ErrNotImplemented
-			}
-		case *expr.ListElementRef:
-			switch v := value.(type) {
-			case *compute.ArrayDatum:
-				switch v.Type().ID() {
-				case arrow.LIST, arrow.LARGE_LIST, arrow.FIXED_SIZE_LIST:
-					arr := v.MakeArray()
-					defer arr.Release()
-
-					sc, err := scalar.GetScalar(arr, int(r.Offset))
-					if err != nil {
-						return nil, err
-					}
-					if s, ok := sc.(scalar.Releasable); ok {
-						defer s.Release()
-					}
-
-					value = &compute.ScalarDatum{Value: sc}
-				default:
-					return nil, fmt.Errorf("%w: cannot reference list element in non-list array type %s",
-						arrow.ErrInvalid, v.Type())
-				}
-
-			default:
-				return nil, arrow.ErrNotImplemented
-			}
-		}
-
-		ref = ref.GetChild()
-	}
-
-	return value, nil
-}
diff --git a/go/arrow/compute/exprs/types.go b/go/arrow/compute/exprs/types.go
deleted file mode 100644
index 594a55c9041a8..0000000000000
--- a/go/arrow/compute/exprs/types.go
+++ /dev/null
@@ -1,745 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package exprs
-
-import (
-	"fmt"
-	"hash/maphash"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/substrait-io/substrait-go/expr"
-	"github.com/substrait-io/substrait-go/extensions"
-	"github.com/substrait-io/substrait-go/types"
-)
-
-const (
-	// URI for official Arrow Substrait Extension Types
-	ArrowExtTypesUri          = "https://github.com/apache/arrow/blob/main/format/substrait/extension_types.yaml"
-	SubstraitDefaultURIPrefix = extensions.SubstraitDefaultURIPrefix
-	// URI for official Substrait Arithmetic funcs extensions
-	SubstraitArithmeticFuncsURI = SubstraitDefaultURIPrefix + "functions_arithmetic.yaml"
-	// URI for official Substrait Comparison funcs extensions
-	SubstraitComparisonFuncsURI = SubstraitDefaultURIPrefix + "functions_comparison.yaml"
-
-	TimestampTzTimezone = "UTC"
-)
-
-var hashSeed maphash.Seed
-
-// the default extension registry that will contain the Arrow extension
-// type variations and types.
-var DefaultExtensionIDRegistry = NewExtensionIDRegistry()
-
-func init() {
-	hashSeed = maphash.MakeSeed()
-
-	types := []struct {
-		dt   arrow.DataType
-		name string
-	}{
-		{arrow.PrimitiveTypes.Uint8, "u8"},
-		{arrow.PrimitiveTypes.Uint16, "u16"},
-		{arrow.PrimitiveTypes.Uint32, "u32"},
-		{arrow.PrimitiveTypes.Uint64, "u64"},
-		{arrow.FixedWidthTypes.Float16, "fp16"},
-		{arrow.Null, "null"},
-		{arrow.FixedWidthTypes.MonthInterval, "interval_month"},
-		{arrow.FixedWidthTypes.DayTimeInterval, "interval_day_milli"},
-		{arrow.FixedWidthTypes.MonthDayNanoInterval, "interval_month_day_nano"},
-	}
-
-	for _, t := range types {
-		err := DefaultExtensionIDRegistry.RegisterType(extensions.ID{
-			URI: ArrowExtTypesUri, Name: t.name}, t.dt)
-		if err != nil {
-			panic(err)
-		}
-	}
-
-	for _, fn := range []string{"add", "subtract", "multiply", "divide", "power", "sqrt", "abs"} {
-		err := DefaultExtensionIDRegistry.AddSubstraitScalarToArrow(
-			extensions.ID{URI: SubstraitArithmeticFuncsURI, Name: fn},
-			decodeOptionlessOverflowableArithmetic(fn))
-		if err != nil {
-			panic(err)
-		}
-	}
-
-	for _, fn := range []string{"add", "subtract", "multiply", "divide"} {
-		err := DefaultExtensionIDRegistry.AddArrowToSubstrait(fn,
-			encodeOptionlessOverflowableArithmetic(extensions.ID{
-				URI: SubstraitArithmeticFuncsURI, Name: fn}))
-		if err != nil {
-			panic(err)
-		}
-	}
-
-	for _, fn := range []string{"equal", "not_equal", "lt", "lte", "gt", "gte"} {
-		err := DefaultExtensionIDRegistry.AddSubstraitScalarToArrow(
-			extensions.ID{URI: SubstraitComparisonFuncsURI, Name: fn},
-			simpleMapSubstraitToArrowFunc)
-		if err != nil {
-			panic(err)
-		}
-	}
-
-	for _, fn := range []string{"equal", "not_equal", "less", "less_equal", "greater", "greater_equal"} {
-		err := DefaultExtensionIDRegistry.AddArrowToSubstrait(fn,
-			simpleMapArrowToSubstraitFunc(SubstraitComparisonFuncsURI))
-		if err != nil {
-			panic(err)
-		}
-	}
-}
-
-type overflowBehavior string
-
-const (
-	overflowSILENT   = "SILENT"
-	overflowSATURATE = "SATURATE"
-	overflowERROR    = "ERROR"
-)
-
-type enumParser[typ ~string] struct {
-	values map[typ]struct{}
-}
-
-func (e *enumParser[typ]) parse(v string) (typ, error) {
-	out := typ(v)
-	if _, ok := e.values[out]; ok {
-		return out, nil
-	}
-	return "", arrow.ErrNotFound
-}
-
-var overflowParser = enumParser[overflowBehavior]{
-	values: map[overflowBehavior]struct{}{
-		overflowSILENT:   {},
-		overflowSATURATE: {},
-		overflowERROR:    {},
-	},
-}
-
-func parseOption[typ ~string](sf *expr.ScalarFunction, optionName string, parser *enumParser[typ], implemented []typ, def typ) (typ, error) {
-	opts := sf.GetOption(optionName)
-	if len(opts) == 0 {
-		return def, nil
-	}
-
-	for _, o := range opts {
-		p, err := parser.parse(o)
-		if err != nil {
-			return def, arrow.ErrInvalid
-		}
-		for _, i := range implemented {
-			if i == p {
-				return p, nil
-			}
-		}
-	}
-
-	return def, arrow.ErrNotImplemented
-}
-
-type substraitToArrow = func(*expr.ScalarFunction) (fname string, opts compute.FunctionOptions, err error)
-type arrowToSubstrait = func(fname string) (extensions.ID, []*types.FunctionOption, error)
-
-var substraitToArrowFuncMap = map[string]string{
-	"lt":  "less",
-	"gt":  "greater",
-	"lte": "less_equal",
-	"gte": "greater_equal",
-}
-
-var arrowToSubstraitFuncMap = map[string]string{
-	"less":          "lt",
-	"greater":       "gt",
-	"less_equal":    "lte",
-	"greater_equal": "gte",
-}
-
-func simpleMapSubstraitToArrowFunc(sf *expr.ScalarFunction) (fname string, opts compute.FunctionOptions, err error) {
-	fname, _, _ = strings.Cut(sf.Name(), ":")
-	f, ok := substraitToArrowFuncMap[fname]
-	if ok {
-		fname = f
-	}
-	return
-}
-
-func simpleMapArrowToSubstraitFunc(uri string) arrowToSubstrait {
-	return func(fname string) (extensions.ID, []*types.FunctionOption, error) {
-		f, ok := arrowToSubstraitFuncMap[fname]
-		if ok {
-			fname = f
-		}
-		return extensions.ID{URI: uri, Name: fname}, nil, nil
-	}
-}
-
-func decodeOptionlessOverflowableArithmetic(n string) substraitToArrow {
-	return func(sf *expr.ScalarFunction) (fname string, opts compute.FunctionOptions, err error) {
-		overflow, err := parseOption(sf, "overflow", &overflowParser, []overflowBehavior{overflowSILENT, overflowERROR}, overflowSILENT)
-		if err != nil {
-			return n, nil, err
-		}
-
-		switch overflow {
-		case overflowSILENT:
-			return n + "_unchecked", nil, nil
-		case overflowERROR:
-			return n, nil, nil
-		default:
-			return n, nil, arrow.ErrNotImplemented
-		}
-	}
-}
-
-func encodeOptionlessOverflowableArithmetic(id extensions.ID) arrowToSubstrait {
-	return func(fname string) (extensions.ID, []*types.FunctionOption, error) {
-		fn, _, ok := strings.Cut(fname, ":")
-		if ok {
-			id.Name = fname
-			fname = fn
-		}
-
-		opts := make([]*types.FunctionOption, 0, 1)
-		if strings.HasSuffix(fname, "_unchecked") {
-			opts = append(opts, &types.FunctionOption{
-				Name: "overflow", Preference: []string{"SILENT"}})
-		} else {
-			opts = append(opts, &types.FunctionOption{
-				Name: "overflow", Preference: []string{"ERROR"}})
-		}
-
-		return id, opts, nil
-	}
-}
-
-// NewExtensionSetDefault is a convenience function to create a new extension
-// set using the Default arrow extension ID registry.
-//
-// See NewExtensionSet for more info.
-func NewExtensionSetDefault(set expr.ExtensionRegistry) ExtensionIDSet {
-	return &extensionSet{ExtensionRegistry: set, reg: DefaultExtensionIDRegistry}
-}
-
-// NewExtensionSet creates a new extension set given a substrait extension registry,
-// and an Arrow <--> Substrait registry for mapping substrait extensions to
-// their Arrow equivalents. This extension set can then be used to manage a
-// particular set of extensions in use by an expression or plan, so when
-// serializing you only need to serialize the extensions that have been
-// inserted into the extension set.
-func NewExtensionSet(set expr.ExtensionRegistry, reg *ExtensionIDRegistry) ExtensionIDSet {
-	return &extensionSet{ExtensionRegistry: set, reg: reg}
-}
-
-type extensionSet struct {
-	expr.ExtensionRegistry
-	reg *ExtensionIDRegistry
-}
-
-func (e *extensionSet) GetArrowRegistry() *ExtensionIDRegistry       { return e.reg }
-func (e *extensionSet) GetSubstraitRegistry() expr.ExtensionRegistry { return e.ExtensionRegistry }
-
-func (e *extensionSet) DecodeTypeArrow(anchor uint32) (extensions.ID, arrow.DataType, bool) {
-	id, ok := e.Set.DecodeType(anchor)
-	if !ok {
-		if id, ok = e.Set.DecodeTypeVariation(anchor); !ok {
-			return id, nil, false
-		}
-	}
-
-	dt, ok := e.reg.GetTypeByID(id)
-	return id, dt, ok
-}
-
-func (e *extensionSet) DecodeFunction(ref uint32) (extensions.ID, substraitToArrow, bool) {
-	id, ok := e.Set.DecodeFunc(ref)
-	if !ok {
-		return id, nil, false
-	}
-
-	conv, ok := e.reg.GetSubstraitScalarToArrow(id)
-	if !ok {
-		id.Name, _, ok = strings.Cut(id.Name, ":")
-		if ok {
-			conv, ok = e.reg.GetSubstraitScalarToArrow(id)
-		}
-	}
-	return id, conv, ok
-}
-
-func (e *extensionSet) EncodeTypeVariation(dt arrow.DataType) (extensions.ID, uint32, bool) {
-	id, ok := e.reg.GetIDByType(dt)
-	if !ok {
-		return extensions.ID{}, 0, false
-	}
-
-	return id, e.Set.GetTypeVariationAnchor(id), true
-}
-
-func (e *extensionSet) EncodeType(dt arrow.DataType) (extensions.ID, uint32, bool) {
-	id, ok := e.reg.GetIDByType(dt)
-	if !ok {
-		return extensions.ID{}, 0, false
-	}
-
-	return id, e.Set.GetTypeAnchor(id), true
-}
-
-func (e *extensionSet) EncodeFunction(id extensions.ID) uint32 {
-	return e.Set.GetFuncAnchor(id)
-}
-
-// ExtensionIDRegistry manages a set of mappings between Arrow types
-// and functions and their substrait equivalents.
-type ExtensionIDRegistry struct {
-	typeList []arrow.DataType
-	ids      []extensions.ID
-
-	substraitToIdx map[extensions.ID]int
-	arrowToIdx     map[uint64]int
-
-	substraitToArrowFn map[extensions.ID]substraitToArrow
-	arrowToSubstrait   map[string]arrowToSubstrait
-}
-
-// NewExtensionIDRegistry initializes a new registry for use.
-func NewExtensionIDRegistry() *ExtensionIDRegistry {
-	return &ExtensionIDRegistry{
-		typeList:           make([]arrow.DataType, 0),
-		ids:                make([]extensions.ID, 0),
-		substraitToIdx:     make(map[extensions.ID]int),
-		arrowToIdx:         make(map[uint64]int),
-		substraitToArrowFn: make(map[extensions.ID]substraitToArrow),
-		arrowToSubstrait:   make(map[string]arrowToSubstrait),
-	}
-}
-
-// RegisterType creates a mapping between the given extension ID and the
-// provided Arrow data type. If this extension ID or arrow type are already
-// registered, an arrow.ErrInvalid error will be returned.
-func (e *ExtensionIDRegistry) RegisterType(id extensions.ID, dt arrow.DataType) error {
-	if _, ok := e.substraitToIdx[id]; ok {
-		return fmt.Errorf("%w: type id already registered", arrow.ErrInvalid)
-	}
-
-	dthash := arrow.HashType(hashSeed, dt)
-	if _, ok := e.arrowToIdx[dthash]; ok {
-		return fmt.Errorf("%w: type already registered", arrow.ErrInvalid)
-	}
-
-	idx := len(e.ids)
-	e.typeList = append(e.typeList, dt)
-	e.ids = append(e.ids, id)
-	e.substraitToIdx[id] = idx
-	e.arrowToIdx[dthash] = idx
-	return nil
-}
-
-// AddSubstraitScalarToArrow creates a mapping between a given extension ID
-// and a function which should return the corresponding Arrow compute function
-// name along with any relevant FunctionOptions based on the ScalarFunction
-// instance passed to it.
-//
-// Any relevant options should be parsed from the ScalarFunction's options
-// and used to ensure the correct arrow compute function is used and necessary
-// options are passed.
-func (e *ExtensionIDRegistry) AddSubstraitScalarToArrow(id extensions.ID, toArrow substraitToArrow) error {
-	if _, ok := e.substraitToArrowFn[id]; ok {
-		return fmt.Errorf("%w: extension id already registered as function", arrow.ErrInvalid)
-	}
-
-	e.substraitToArrowFn[id] = toArrow
-	return nil
-}
-
-// AddArrowToSubstrait creates a mapping between the provided arrow compute function
-// and a function which should provide the correct substrait ExtensionID and function
-// options from that name.
-func (e *ExtensionIDRegistry) AddArrowToSubstrait(name string, fn arrowToSubstrait) error {
-	if _, ok := e.arrowToSubstrait[name]; ok {
-		return fmt.Errorf("%w: function name '%s' already registered for conversion to substrait", arrow.ErrInvalid, name)
-	}
-
-	e.arrowToSubstrait[name] = fn
-	return nil
-}
-
-// GetTypeByID returns the mapped arrow data type from the provided substrait
-// extension id. If no mapping exists for this substrait extension id,
-// the second return value will be false.
-func (e *ExtensionIDRegistry) GetTypeByID(id extensions.ID) (arrow.DataType, bool) {
-	idx, ok := e.substraitToIdx[id]
-	if !ok {
-		return nil, false
-	}
-
-	return e.typeList[idx], true
-}
-
-// GetIDByType is the inverse of GetTypeByID, returning the mapped substrait
-// extension ID corresponding to the provided arrow data type. The second
-// return is false if there is no mapping found.
-func (e *ExtensionIDRegistry) GetIDByType(typ arrow.DataType) (extensions.ID, bool) {
-	dthash := arrow.HashType(hashSeed, typ)
-	idx, ok := e.arrowToIdx[dthash]
-	if !ok {
-		return extensions.ID{}, false
-	}
-
-	return e.ids[idx], true
-}
-
-// GetSubstraitScalarToArrow returns the mapped conversion function for a
-// given substrait extension ID to convert a substrait ScalarFunction to
-// the corresponding Arrow compute function call. False is returned as
-// the second value if there is no mapping available.
-func (e *ExtensionIDRegistry) GetSubstraitScalarToArrow(id extensions.ID) (substraitToArrow, bool) {
-	conv, ok := e.substraitToArrowFn[id]
-	if !ok {
-		return nil, ok
-	}
-
-	return conv, true
-}
-
-// GetArrowToSubstrait returns the mapped function to convert an arrow compute
-// function to the corresponding Substrait ScalarFunction extension ID and options.
-// False is returned as the second value if there is no mapping found.
-func (e *ExtensionIDRegistry) GetArrowToSubstrait(name string) (conv arrowToSubstrait, ok bool) {
-	conv, ok = e.arrowToSubstrait[name]
-	if !ok {
-		fn, _, found := strings.Cut(name, ":")
-		if found {
-			conv, ok = e.arrowToSubstrait[fn]
-		}
-	}
-	return
-}
-
-// ExtensionIDSet is an interface for managing the mapping between arrow
-// and substrait types and function extensions.
-type ExtensionIDSet interface {
-	GetArrowRegistry() *ExtensionIDRegistry
-	GetSubstraitRegistry() expr.ExtensionRegistry
-
-	DecodeTypeArrow(anchor uint32) (extensions.ID, arrow.DataType, bool)
-	DecodeFunction(ref uint32) (extensions.ID, substraitToArrow, bool)
-
-	EncodeType(dt arrow.DataType) (extensions.ID, uint32, bool)
-	EncodeTypeVariation(dt arrow.DataType) (extensions.ID, uint32, bool)
-}
-
-// IsNullable is a convenience method to return whether or not
-// a substrait type has Nullability set to NullabilityRequired or not.
-func IsNullable(t types.Type) bool {
-	return t.GetNullability() != types.NullabilityRequired
-}
-
-// FieldsFromSubstrait produces a list of arrow fields from a list of
-// substrait types (such as the fields of a StructType) using nextName
-// to determine the names for the fields.
-func FieldsFromSubstrait(typeList []types.Type, nextName func() string, ext ExtensionIDSet) (out []arrow.Field, err error) {
-	out = make([]arrow.Field, len(typeList))
-	for i, t := range typeList {
-		out[i].Name = nextName()
-		out[i].Nullable = IsNullable(t)
-
-		if st, ok := t.(*types.StructType); ok {
-			fields, err := FieldsFromSubstrait(st.Types, nextName, ext)
-			if err != nil {
-				return nil, err
-			}
-			out[i].Type = arrow.StructOf(fields...)
-		} else {
-			out[i].Type, _, err = FromSubstraitType(t, ext)
-			if err != nil {
-				return nil, err
-			}
-		}
-	}
-	return
-}
-
-// ToSubstraitType converts an arrow data type to a Substrait Type. Since
-// arrow types don't have a nullable flag (it is in the arrow.Field) but
-// Substrait types do, the nullability must be passed in here.
-func ToSubstraitType(dt arrow.DataType, nullable bool, ext ExtensionIDSet) (types.Type, error) {
-	var nullability types.Nullability
-	if nullable {
-		nullability = types.NullabilityNullable
-	} else {
-		nullability = types.NullabilityRequired
-	}
-
-	switch dt.ID() {
-	case arrow.BOOL:
-		return &types.BooleanType{Nullability: nullability}, nil
-	case arrow.INT8:
-		return &types.Int8Type{Nullability: nullability}, nil
-	case arrow.INT16:
-		return &types.Int16Type{Nullability: nullability}, nil
-	case arrow.INT32:
-		return &types.Int32Type{Nullability: nullability}, nil
-	case arrow.INT64:
-		return &types.Int64Type{Nullability: nullability}, nil
-	case arrow.UINT8:
-		_, anchor, ok := ext.EncodeTypeVariation(dt)
-		if !ok {
-			return nil, arrow.ErrNotFound
-		}
-		return &types.Int8Type{
-			Nullability:      nullability,
-			TypeVariationRef: anchor,
-		}, nil
-	case arrow.UINT16:
-		_, anchor, ok := ext.EncodeTypeVariation(dt)
-		if !ok {
-			return nil, arrow.ErrNotFound
-		}
-		return &types.Int16Type{
-			Nullability:      nullability,
-			TypeVariationRef: anchor,
-		}, nil
-	case arrow.UINT32:
-		_, anchor, ok := ext.EncodeTypeVariation(dt)
-		if !ok {
-			return nil, arrow.ErrNotFound
-		}
-		return &types.Int32Type{
-			Nullability:      nullability,
-			TypeVariationRef: anchor,
-		}, nil
-	case arrow.UINT64:
-		_, anchor, ok := ext.EncodeTypeVariation(dt)
-		if !ok {
-			return nil, arrow.ErrNotFound
-		}
-		return &types.Int64Type{
-			Nullability:      nullability,
-			TypeVariationRef: anchor,
-		}, nil
-	case arrow.FLOAT16:
-		_, anchor, ok := ext.EncodeTypeVariation(dt)
-		if !ok {
-			return nil, arrow.ErrNotFound
-		}
-		return &types.Int16Type{
-			Nullability:      nullability,
-			TypeVariationRef: anchor,
-		}, nil
-	case arrow.FLOAT32:
-		return &types.Float32Type{Nullability: nullability}, nil
-	case arrow.FLOAT64:
-		return &types.Float64Type{Nullability: nullability}, nil
-	case arrow.STRING:
-		return &types.StringType{Nullability: nullability}, nil
-	case arrow.BINARY:
-		return &types.BinaryType{Nullability: nullability}, nil
-	case arrow.DATE32:
-		return &types.DateType{Nullability: nullability}, nil
-	case arrow.EXTENSION:
-		dt := dt.(arrow.ExtensionType)
-		switch dt.ExtensionName() {
-		case "uuid":
-			return &types.UUIDType{Nullability: nullability}, nil
-		case "fixed_char":
-			return &types.FixedCharType{
-				Nullability: nullability,
-				Length:      int32(dt.StorageType().(*arrow.FixedSizeBinaryType).ByteWidth),
-			}, nil
-		case "varchar":
-			return &types.VarCharType{Nullability: nullability, Length: -1}, nil
-		case "interval_year":
-			return &types.IntervalYearType{Nullability: nullability}, nil
-		case "interval_day":
-			return &types.IntervalDayType{Nullability: nullability}, nil
-		default:
-			_, anchor, ok := ext.EncodeType(dt)
-			if !ok {
-				return nil, arrow.ErrNotFound
-			}
-			return &types.UserDefinedType{
-				Nullability:   nullability,
-				TypeReference: anchor,
-			}, nil
-		}
-	case arrow.FIXED_SIZE_BINARY:
-		return &types.FixedBinaryType{Nullability: nullability,
-			Length: int32(dt.(*arrow.FixedSizeBinaryType).ByteWidth)}, nil
-	case arrow.DECIMAL128, arrow.DECIMAL256:
-		dt := dt.(arrow.DecimalType)
-		return &types.DecimalType{Nullability: nullability,
-			Precision: dt.GetPrecision(), Scale: dt.GetScale()}, nil
-	case arrow.STRUCT:
-		dt := dt.(*arrow.StructType)
-		fields := make([]types.Type, dt.NumFields())
-		var err error
-		for i, f := range dt.Fields() {
-			fields[i], err = ToSubstraitType(f.Type, f.Nullable, ext)
-			if err != nil {
-				return nil, err
-			}
-		}
-
-		return &types.StructType{
-			Nullability: nullability,
-			Types:       fields,
-		}, nil
-	case arrow.LIST, arrow.FIXED_SIZE_LIST, arrow.LARGE_LIST:
-		dt := dt.(arrow.NestedType)
-		elemType, err := ToSubstraitType(dt.Fields()[0].Type, dt.Fields()[0].Nullable, ext)
-		if err != nil {
-			return nil, err
-		}
-		return &types.ListType{
-			Nullability: nullability,
-			Type:        elemType,
-		}, nil
-	case arrow.MAP:
-		dt := dt.(*arrow.MapType)
-		keyType, err := ToSubstraitType(dt.KeyType(), false, ext)
-		if err != nil {
-			return nil, err
-		}
-		valueType, err := ToSubstraitType(dt.ItemType(), dt.ItemField().Nullable, ext)
-		if err != nil {
-			return nil, err
-		}
-
-		return &types.MapType{
-			Nullability: nullability,
-			Key:         keyType,
-			Value:       valueType,
-		}, nil
-	}
-
-	return nil, arrow.ErrNotImplemented
-}
-
-// FromSubstraitType returns the appropriate Arrow data type for the given
-// substrait type, using the extension set if necessary.
-// Since Substrait types contain their nullability also, the nullability
-// returned along with the data type.
-func FromSubstraitType(t types.Type, ext ExtensionIDSet) (arrow.DataType, bool, error) {
-	nullable := IsNullable(t)
-
-	if t.GetTypeVariationReference() > 0 {
-		_, dt, ok := ext.DecodeTypeArrow(t.GetTypeVariationReference())
-		if ok {
-			return dt, nullable, nil
-		}
-	}
-
-	switch t := t.(type) {
-	case *types.BooleanType:
-		return arrow.FixedWidthTypes.Boolean, nullable, nil
-	case *types.Int8Type:
-		return arrow.PrimitiveTypes.Int8, nullable, nil
-	case *types.Int16Type:
-		return arrow.PrimitiveTypes.Int16, nullable, nil
-	case *types.Int32Type:
-		return arrow.PrimitiveTypes.Int32, nullable, nil
-	case *types.Int64Type:
-		return arrow.PrimitiveTypes.Int64, nullable, nil
-	case *types.Float32Type:
-		return arrow.PrimitiveTypes.Float32, nullable, nil
-	case *types.Float64Type:
-		return arrow.PrimitiveTypes.Float64, nullable, nil
-	case *types.StringType:
-		return arrow.BinaryTypes.String, nullable, nil
-	case *types.BinaryType:
-		return arrow.BinaryTypes.Binary, nullable, nil
-	case *types.TimestampType:
-		return &arrow.TimestampType{Unit: arrow.Microsecond}, nullable, nil
-	case *types.TimestampTzType:
-		return &arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: TimestampTzTimezone},
-			nullable, nil
-	case *types.DateType:
-		return arrow.FixedWidthTypes.Date32, nullable, nil
-	case *types.TimeType:
-		return &arrow.Time64Type{Unit: arrow.Microsecond}, nullable, nil
-	case *types.IntervalYearType:
-		return intervalYear(), nullable, nil
-	case *types.IntervalDayType:
-		return intervalDay(), nullable, nil
-	case *types.UUIDType:
-		return uuid(), nullable, nil
-	case *types.FixedCharType:
-		return fixedChar(t.Length), nullable, nil
-	case *types.VarCharType:
-		return varChar(t.Length), nullable, nil
-	case *types.FixedBinaryType:
-		return &arrow.FixedSizeBinaryType{ByteWidth: int(t.Length)}, nullable, nil
-	case *types.DecimalType:
-		return &arrow.Decimal128Type{
-			Precision: t.Precision,
-			Scale:     t.Scale,
-		}, nullable, nil
-	case *types.StructType:
-		i := 0
-		fields, err := FieldsFromSubstrait(t.Types, func() string {
-			i++
-			return strconv.Itoa(i)
-		}, ext)
-		if err != nil {
-			return nil, false, err
-		}
-
-		return arrow.StructOf(fields...), nullable, nil
-	case *types.ListType:
-		elem, elemNullable, err := FromSubstraitType(t.Type, ext)
-		if err != nil {
-			return nil, false, err
-		}
-		return arrow.ListOfField(arrow.Field{Name: "item", Type: elem, Nullable: elemNullable}),
-			nullable, nil
-	case *types.MapType:
-		key, keyNullable, err := FromSubstraitType(t.Key, ext)
-		if err != nil {
-			return nil, false, err
-		}
-		if keyNullable {
-			return nil, false, fmt.Errorf("%w: encountered nullable key field when converting to arrow.Map",
-				arrow.ErrInvalid)
-		}
-
-		value, valueNullable, err := FromSubstraitType(t.Value, ext)
-		if err != nil {
-			return nil, false, err
-		}
-		ret := arrow.MapOf(key, value)
-		ret.SetItemNullable(valueNullable)
-		return ret, nullable, nil
-	case *types.UserDefinedType:
-		anchor := t.TypeReference
-		_, dt, ok := ext.DecodeTypeArrow(anchor)
-		if !ok {
-			return nil, false, arrow.ErrNotImplemented
-		}
-		return dt, nullable, nil
-	}
-
-	return nil, false, arrow.ErrNotImplemented
-}
diff --git a/go/arrow/compute/fieldref.go b/go/arrow/compute/fieldref.go
deleted file mode 100644
index d69c7d91044c7..0000000000000
--- a/go/arrow/compute/fieldref.go
+++ /dev/null
@@ -1,587 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compute
-
-import (
-	"errors"
-	"fmt"
-	"hash/maphash"
-	"reflect"
-	"strconv"
-	"strings"
-	"unicode"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-var (
-	ErrEmpty           = errors.New("cannot traverse empty field path")
-	ErrNoChildren      = errors.New("trying to get child of type with no children")
-	ErrIndexRange      = errors.New("index out of range")
-	ErrMultipleMatches = errors.New("multiple matches")
-	ErrNoMatch         = errors.New("no match")
-	ErrInvalid         = errors.New("field ref invalid")
-)
-
-func getFields(typ arrow.DataType) []arrow.Field {
-	if nested, ok := typ.(arrow.NestedType); ok {
-		return nested.Fields()
-	}
-	return nil
-}
-
-type listvals interface {
-	ListValues() arrow.Array
-}
-
-func getChildren(arr arrow.Array) (ret []arrow.Array) {
-	switch arr := arr.(type) {
-	case *array.Struct:
-		ret = make([]arrow.Array, arr.NumField())
-		for i := 0; i < arr.NumField(); i++ {
-			ret[i] = arr.Field(i)
-		}
-	case listvals:
-		ret = []arrow.Array{arr.ListValues()}
-	}
-	return
-}
-
-// FieldPath represents a path to a nested field using indices of child fields.
-// For example, given the indices {5, 9, 3} the field could be retrieved with:
-// schema.Field(5).Type().(*arrow.StructType).Field(9).Type().(*arrow.StructType).Field(3)
-//
-// Attempting to retrieve a child field using a FieldPath which is not valid for a given
-// schema will get an error such as an out of range index, or an empty path.
-//
-// FieldPaths provide for drilling down to potentially nested children for convenience
-// of accepting a slice of fields, a schema or a datatype (which should contain child fields).
-//
-// A fieldpath can also be used to retrieve a child arrow.Array or column from a record batch.
-type FieldPath []int
-
-func (f FieldPath) String() string {
-	if len(f) == 0 {
-		return "FieldPath(empty)"
-	}
-
-	var b strings.Builder
-	b.WriteString("FieldPath(")
-	for _, i := range f {
-		fmt.Fprint(&b, i)
-		b.WriteByte(' ')
-	}
-	ret := b.String()
-	return ret[:len(ret)-1] + ")"
-}
-
-// Get retrieves the corresponding nested child field by drilling through the schema's
-// fields as per the field path.
-func (f FieldPath) Get(s *arrow.Schema) (*arrow.Field, error) {
-	return f.GetFieldFromSlice(s.Fields())
-}
-
-// GetFieldFromSlice treats the slice as the top layer of fields, so the first value
-// in the field path will index into the slice, and then drill down from there.
-func (f FieldPath) GetFieldFromSlice(fields []arrow.Field) (*arrow.Field, error) {
-	if len(f) == 0 {
-		return nil, ErrEmpty
-	}
-
-	var (
-		depth = 0
-		out   *arrow.Field
-	)
-	for _, idx := range f {
-		if len(fields) == 0 {
-			return nil, fmt.Errorf("%w: %s", ErrNoChildren, out.Type)
-		}
-
-		if idx < 0 || idx >= len(fields) {
-			return nil, fmt.Errorf("%w: indices=%s", ErrIndexRange, f[:depth+1])
-		}
-
-		out = &fields[idx]
-		fields = getFields(out.Type)
-		depth++
-	}
-
-	return out, nil
-}
-
-func (f FieldPath) getArray(arrs []arrow.Array) (arrow.Array, error) {
-	if len(f) == 0 {
-		return nil, ErrEmpty
-	}
-
-	var (
-		depth = 0
-		out   arrow.Array
-	)
-	for _, idx := range f {
-		if len(arrs) == 0 {
-			return nil, fmt.Errorf("%w: %s", ErrNoChildren, out.DataType())
-		}
-
-		if idx < 0 || idx >= len(arrs) {
-			return nil, fmt.Errorf("%w. indices=%s", ErrIndexRange, f[:depth+1])
-		}
-
-		out = arrs[idx]
-		arrs = getChildren(out)
-		depth++
-	}
-	return out, nil
-}
-
-// GetFieldFromType returns the nested field from a datatype by drilling into it's
-// child fields.
-func (f FieldPath) GetFieldFromType(typ arrow.DataType) (*arrow.Field, error) {
-	return f.GetFieldFromSlice(getFields(typ))
-}
-
-// GetField is equivalent to GetFieldFromType(field.Type)
-func (f FieldPath) GetField(field arrow.Field) (*arrow.Field, error) {
-	return f.GetFieldFromType(field.Type)
-}
-
-// GetColumn will return the correct child array by traversing the fieldpath
-// going to the nested arrays of the columns in the record batch.
-func (f FieldPath) GetColumn(batch arrow.Record) (arrow.Array, error) {
-	return f.getArray(batch.Columns())
-}
-
-func (f FieldPath) findAll(fields []arrow.Field) []FieldPath {
-	_, err := f.GetFieldFromSlice(fields)
-	if err == nil {
-		return []FieldPath{f}
-	}
-	return nil
-}
-
-// a nameref represents a FieldRef by name of the field
-type nameRef string
-
-func (n nameRef) String() string {
-	return "Name(" + string(n) + ")"
-}
-
-func (ref nameRef) findAll(fields []arrow.Field) []FieldPath {
-	out := []FieldPath{}
-	for i, f := range fields {
-		if f.Name == string(ref) {
-			out = append(out, FieldPath{i})
-		}
-	}
-	return out
-}
-
-func (ref nameRef) hash(h *maphash.Hash) { h.WriteString(string(ref)) }
-
-type matches struct {
-	prefixes []FieldPath
-	refs     []*arrow.Field
-}
-
-func (m *matches) add(prefix, suffix FieldPath, fields []arrow.Field) {
-	f, err := suffix.GetFieldFromSlice(fields)
-	if err != nil {
-		panic(err)
-	}
-
-	m.refs = append(m.refs, f)
-	m.prefixes = append(m.prefixes, append(prefix, suffix...))
-}
-
-// refList represents a list of references to use to determine which nested
-// field is being referenced. allowing combinations of field indices and names
-type refList []FieldRef
-
-func (r refList) String() string {
-	var b strings.Builder
-	b.WriteString("Nested(")
-	for _, f := range r {
-		fmt.Fprint(&b, f)
-		b.WriteByte(' ')
-	}
-	ret := b.String()
-	return ret[:len(ret)-1] + ")"
-}
-
-func (ref refList) hash(h *maphash.Hash) {
-	for _, r := range ref {
-		r.hash(h)
-	}
-}
-
-func (ref refList) findAll(fields []arrow.Field) []FieldPath {
-	if len(ref) == 0 {
-		return nil
-	}
-
-	m := matches{}
-	for _, list := range ref[0].FindAll(fields) {
-		m.add(FieldPath{}, list, fields)
-	}
-
-	for _, r := range ref[1:] {
-		next := matches{}
-		for i, f := range m.refs {
-			for _, match := range r.FindAllField(*f) {
-				next.add(m.prefixes[i], match, getFields(f.Type))
-			}
-		}
-		m = next
-	}
-	return m.prefixes
-}
-
-type refImpl interface {
-	fmt.Stringer
-	findAll(fields []arrow.Field) []FieldPath
-	hash(h *maphash.Hash)
-}
-
-// FieldRef is a descriptor of a (potentially nested) field within a schema.
-//
-// Unlike FieldPath (which is exclusively indices of child fields), FieldRef
-// may reference a field by name. It can be constructed from either
-// a field index, field name, or field path.
-//
-// Nested fields can be referenced as well, given the schema:
-//
-//			arrow.NewSchema([]arrow.Field{
-//				{Name: "a", Type: arrow.StructOf(arrow.Field{Name: "n", Type: arrow.Null})},
-//	 		{Name: "b", Type: arrow.PrimitiveTypes.Int32},
-//			})
-//
-// the following all indicate the nested field named "n":
-//
-//	FieldRefPath(FieldPath{0, 0})
-//	FieldRefList("a", 0)
-//	FieldRefList("a", "n")
-//	FieldRefList(0, "n")
-//	NewFieldRefFromDotPath(".a[0]")
-//
-// FieldPaths matching a FieldRef are retrieved with the FindAll* functions
-// Multiple matches are possible because field names may be duplicated within
-// a schema. For example:
-//
-//	aIsAmbiguous := arrow.NewSchema([]arrow.Field{
-//		{Name: "a", Type: arrow.PrimitiveTypes.Int32},
-//		{Name: "a", Type: arrow.PrimitiveTypes.Float32},
-//	})
-//	matches := FieldRefName("a").FindAll(aIsAmbiguous)
-//	assert.Len(matches, 2)
-//	assert.True(matches[0].Get(aIsAmbiguous).Equals(aIsAmbiguous.Field(0))
-//	assert.True(matches[1].Get(aIsAmbiguous).Equals(aIsAmbiguous.Field(1))
-type FieldRef struct {
-	impl refImpl
-}
-
-// FieldRefPath constructs a FieldRef from a given FieldPath
-func FieldRefPath(p FieldPath) FieldRef {
-	return FieldRef{impl: p}
-}
-
-// FieldRefIndex is a convenience function to construct a FieldPath reference
-// of a single index
-func FieldRefIndex(i int) FieldRef {
-	return FieldRef{impl: FieldPath{i}}
-}
-
-// FieldRefName constructs a FieldRef by name
-func FieldRefName(n string) FieldRef {
-	return FieldRef{impl: nameRef(n)}
-}
-
-// FieldRefList takes an arbitrary number of arguments which can be either
-// strings or ints. This will panic if anything other than a string or int
-// is passed in.
-func FieldRefList(elems ...interface{}) FieldRef {
-	list := make(refList, len(elems))
-	for i, e := range elems {
-		switch e := e.(type) {
-		case string:
-			list[i] = FieldRefName(e)
-		case int:
-			list[i] = FieldRefIndex(e)
-		}
-	}
-	return FieldRef{impl: list}
-}
-
-// NewFieldRefFromDotPath parses a dot path into a field ref.
-//
-// dot_path = '.' name
-//
-//	| '[' digit+ ']'
-//	| dot_path+
-//
-// Examples
-//
-//	".alpha" => FieldRefName("alpha")
-//	"[2]" => FieldRefIndex(2)
-//	".beta[3]" => FieldRefList("beta", 3)
-//	"[5].gamma.delta[7]" => FieldRefList(5, "gamma", "delta", 7)
-//	".hello world" => FieldRefName("hello world")
-//	`.\[y\]\\tho\.\` => FieldRef(`[y]\tho.\`)
-//
-// Note: when parsing a name, a '\' preceding any other character will be
-// dropped from the resulting name. therefore if a name must contain the characters
-// '.', '\', '[' or ']' then they must be escaped with a preceding '\'.
-func NewFieldRefFromDotPath(dotpath string) (out FieldRef, err error) {
-	if len(dotpath) == 0 {
-		return out, fmt.Errorf("%w dotpath was empty", ErrInvalid)
-	}
-
-	parseName := func() string {
-		var name string
-		for {
-			idx := strings.IndexAny(dotpath, `\[.`)
-			if idx == -1 {
-				name += dotpath
-				dotpath = ""
-				break
-			}
-
-			if dotpath[idx] != '\\' {
-				// subscript for a new field ref
-				name += dotpath[:idx]
-				dotpath = dotpath[idx:]
-				break
-			}
-
-			if len(dotpath) == idx+1 {
-				// dotpath ends with a backslash; consume it all
-				name += dotpath
-				dotpath = ""
-				break
-			}
-
-			// append all characters before backslash, then the character which follows it
-			name += dotpath[:idx] + string(dotpath[idx+1])
-			dotpath = dotpath[idx+2:]
-		}
-		return name
-	}
-
-	children := make([]FieldRef, 0)
-
-	for len(dotpath) > 0 {
-		subscript := dotpath[0]
-		dotpath = dotpath[1:]
-		switch subscript {
-		case '.':
-			// next element is a name
-			children = append(children, FieldRef{nameRef(parseName())})
-		case '[':
-			subend := strings.IndexFunc(dotpath, func(r rune) bool { return !unicode.IsDigit(r) })
-			if subend == -1 || dotpath[subend] != ']' {
-				return out, fmt.Errorf("%w: dot path '%s' contained an unterminated index", ErrInvalid, dotpath)
-			}
-			idx, _ := strconv.Atoi(dotpath[:subend])
-			children = append(children, FieldRef{FieldPath{idx}})
-			dotpath = dotpath[subend+1:]
-		default:
-			return out, fmt.Errorf("%w: dot path must begin with '[' or '.' got '%s'", ErrInvalid, dotpath)
-		}
-	}
-
-	out.flatten(children)
-	return
-}
-
-func (f FieldRef) hash(h *maphash.Hash) { f.impl.hash(h) }
-
-// Hash produces a hash of this field reference and takes in a seed so that
-// it can maintain consistency across multiple places / processes /etc.
-func (f FieldRef) Hash(seed maphash.Seed) uint64 {
-	h := maphash.Hash{}
-	h.SetSeed(seed)
-	f.hash(&h)
-	return h.Sum64()
-}
-
-// IsName returns true if this fieldref is a name reference
-func (f *FieldRef) IsName() bool {
-	_, ok := f.impl.(nameRef)
-	return ok
-}
-
-// IsFieldPath returns true if this FieldRef uses a fieldpath
-func (f *FieldRef) IsFieldPath() bool {
-	_, ok := f.impl.(FieldPath)
-	return ok
-}
-
-// IsNested returns true if this FieldRef expects to represent
-// a nested field.
-func (f *FieldRef) IsNested() bool {
-	switch impl := f.impl.(type) {
-	case nameRef:
-		return false
-	case FieldPath:
-		return len(impl) > 1
-	default:
-		return true
-	}
-}
-
-// Name returns the name of the field this references if it is
-// a Name reference, otherwise the empty string
-func (f *FieldRef) Name() string {
-	n, _ := f.impl.(nameRef)
-	return string(n)
-}
-
-// FieldPath returns the fieldpath that this FieldRef uses, otherwise
-// an empty FieldPath if it's not a FieldPath reference
-func (f *FieldRef) FieldPath() FieldPath {
-	p, _ := f.impl.(FieldPath)
-	return p
-}
-
-func (f *FieldRef) Equals(other FieldRef) bool {
-	return reflect.DeepEqual(f.impl, other.impl)
-}
-
-func (f *FieldRef) flatten(children []FieldRef) {
-	out := make([]FieldRef, 0, len(children))
-
-	var populate func(refImpl)
-	populate = func(refs refImpl) {
-		switch r := refs.(type) {
-		case nameRef:
-			out = append(out, FieldRef{r})
-		case FieldPath:
-			out = append(out, FieldRef{r})
-		case refList:
-			for _, c := range r {
-				populate(c.impl)
-			}
-		}
-	}
-
-	populate(refList(children))
-
-	if len(out) == 1 {
-		f.impl = out[0].impl
-	} else {
-		f.impl = refList(out)
-	}
-}
-
-// FindAll returns all the fieldpaths which this FieldRef matches in the given
-// slice of fields.
-func (f FieldRef) FindAll(fields []arrow.Field) []FieldPath {
-	return f.impl.findAll(fields)
-}
-
-// FindAllField returns all the fieldpaths that this FieldRef matches against
-// the type of the given field.
-func (f FieldRef) FindAllField(field arrow.Field) []FieldPath {
-	return f.impl.findAll(getFields(field.Type))
-}
-
-// FindOneOrNone is a convenience helper that will either return 1 fieldpath,
-// or an empty fieldpath, and will return an error if there are multiple matches.
-func (f FieldRef) FindOneOrNone(schema *arrow.Schema) (FieldPath, error) {
-	matches := f.FindAll(schema.Fields())
-	if len(matches) > 1 {
-		return nil, fmt.Errorf("%w for %s in %s", ErrMultipleMatches, f, schema)
-	}
-	if len(matches) == 0 {
-		return nil, nil
-	}
-	return matches[0], nil
-}
-
-// FindOneOrNoneRecord is like FindOneOrNone but for the schema of a record,
-// returning an error only if there are multiple matches.
-func (f FieldRef) FindOneOrNoneRecord(root arrow.Record) (FieldPath, error) {
-	return f.FindOneOrNone(root.Schema())
-}
-
-// FindOne returns an error if the field isn't matched or if there are multiple matches
-// otherwise it returns the path to the single valid match.
-func (f FieldRef) FindOne(schema *arrow.Schema) (FieldPath, error) {
-	matches := f.FindAll(schema.Fields())
-	if len(matches) == 0 {
-		return nil, fmt.Errorf("%w for %s in %s", ErrNoMatch, f, schema)
-	}
-	if len(matches) > 1 {
-		return nil, fmt.Errorf("%w for %s in %s", ErrMultipleMatches, f, schema)
-	}
-	return matches[0], nil
-}
-
-// GetAllColumns gets all the matching column arrays from the given record that
-// this FieldRef references.
-func (f FieldRef) GetAllColumns(root arrow.Record) ([]arrow.Array, error) {
-	out := make([]arrow.Array, 0)
-	for _, m := range f.FindAll(root.Schema().Fields()) {
-		n, err := m.GetColumn(root)
-		if err != nil {
-			return nil, err
-		}
-		out = append(out, n)
-	}
-	return out, nil
-}
-
-// GetOneField will return a pointer to a field or an error if it is not found
-// or if there are multiple matches.
-func (f FieldRef) GetOneField(schema *arrow.Schema) (*arrow.Field, error) {
-	match, err := f.FindOne(schema)
-	if err != nil {
-		return nil, err
-	}
-
-	return match.GetFieldFromSlice(schema.Fields())
-}
-
-// GetOneOrNone will return a field or a nil if the field is found or not, and
-// only errors if there are multiple matches.
-func (f FieldRef) GetOneOrNone(schema *arrow.Schema) (*arrow.Field, error) {
-	match, err := f.FindOneOrNone(schema)
-	if err != nil {
-		return nil, err
-	}
-	if len(match) == 0 {
-		return nil, nil
-	}
-	return match.GetFieldFromSlice(schema.Fields())
-}
-
-// GetOneColumnOrNone returns either a nil or the referenced array if it can be
-// found, erroring only if there is an ambiguous multiple matches.
-func (f FieldRef) GetOneColumnOrNone(root arrow.Record) (arrow.Array, error) {
-	match, err := f.FindOneOrNoneRecord(root)
-	if err != nil {
-		return nil, err
-	}
-	if len(match) == 0 {
-		return nil, nil
-	}
-	return match.GetColumn(root)
-}
-
-func (f FieldRef) String() string {
-	return "FieldRef." + f.impl.String()
-}
diff --git a/go/arrow/compute/fieldref_hash.go b/go/arrow/compute/fieldref_hash.go
deleted file mode 100644
index 21ef88f1ecb4f..0000000000000
--- a/go/arrow/compute/fieldref_hash.go
+++ /dev/null
@@ -1,39 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.20 || tinygo
-
-package compute
-
-import (
-	"hash/maphash"
-	"math/bits"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-func (f FieldPath) hash(h *maphash.Hash) {
-	raw := unsafe.Pointer(unsafe.SliceData(f))
-	var byteLen int
-	if bits.UintSize == 32 {
-		byteLen = arrow.Int32Traits.BytesRequired(len(f))
-	} else {
-		byteLen = arrow.Int64Traits.BytesRequired(len(f))
-	}
-
-	h.Write(unsafe.Slice((*byte)(raw), byteLen))
-}
diff --git a/go/arrow/compute/fieldref_test.go b/go/arrow/compute/fieldref_test.go
deleted file mode 100644
index ce2051f942271..0000000000000
--- a/go/arrow/compute/fieldref_test.go
+++ /dev/null
@@ -1,316 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compute_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFieldPathBasics(t *testing.T) {
-	f0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f1 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f2 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f3 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-
-	s := arrow.NewSchema([]arrow.Field{f0, f1, f2, f3}, nil)
-
-	for i := range s.Fields() {
-		f, err := compute.FieldPath{i}.Get(s)
-		assert.NoError(t, err)
-		assert.Equal(t, s.Field(i), *f)
-	}
-
-	f, err := compute.FieldPath{}.Get(s)
-	assert.Nil(t, f)
-	assert.ErrorIs(t, err, compute.ErrEmpty)
-
-	f, err = compute.FieldPath{s.NumFields() * 2}.Get(s)
-	assert.Nil(t, f)
-	assert.ErrorIs(t, err, compute.ErrIndexRange)
-}
-
-func TestFieldRefBasics(t *testing.T) {
-	f0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f1 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f2 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f3 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-
-	s := arrow.NewSchema([]arrow.Field{f0, f1, f2, f3}, nil)
-
-	// lookup by index returns Indices{index}
-	for i := range s.Fields() {
-		assert.ElementsMatch(t, []compute.FieldPath{{i}}, compute.FieldRefIndex(i).FindAll(s.Fields()))
-	}
-
-	// out of range index results in failure to match
-	assert.Empty(t, compute.FieldRefIndex(s.NumFields()*2).FindAll(s.Fields()))
-
-	// lookup by name returns the indices of both matching fields
-	assert.Equal(t, []compute.FieldPath{{0}, {2}}, compute.FieldRefName("alpha").FindAll(s.Fields()))
-	assert.Equal(t, []compute.FieldPath{{1}, {3}}, compute.FieldRefName("beta").FindAll(s.Fields()))
-}
-
-func TestFieldRefDotPath(t *testing.T) {
-	ref, err := compute.NewFieldRefFromDotPath(`.alpha`)
-	assert.True(t, ref.IsName())
-	assert.Equal(t, "alpha", ref.Name())
-	assert.False(t, ref.IsFieldPath())
-	assert.False(t, ref.IsNested())
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefName("alpha"), ref)
-	assert.True(t, ref.Equals(compute.FieldRefName("alpha")))
-
-	ref, err = compute.NewFieldRefFromDotPath(`..`)
-	assert.Empty(t, ref.Name())
-	assert.False(t, ref.IsName())
-	assert.False(t, ref.IsFieldPath())
-	assert.Nil(t, ref.FieldPath())
-	assert.True(t, ref.IsNested())
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefList("", ""), ref)
-
-	ref, err = compute.NewFieldRefFromDotPath(`[2]`)
-	assert.False(t, ref.IsName())
-	assert.True(t, ref.IsFieldPath())
-	assert.Equal(t, compute.FieldPath{2}, ref.FieldPath())
-	assert.False(t, ref.IsNested())
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefIndex(2), ref)
-
-	ref, err = compute.NewFieldRefFromDotPath(`.beta[3]`)
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefList("beta", 3), ref)
-
-	ref, err = compute.NewFieldRefFromDotPath(`[5].gamma.delta[7]`)
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefList(5, "gamma", "delta", 7), ref)
-
-	ref, err = compute.NewFieldRefFromDotPath(`.hello world`)
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefName("hello world"), ref)
-
-	ref, err = compute.NewFieldRefFromDotPath(`.\[y\]\\tho\.\`)
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldRefName(`[y]\tho.\`), ref)
-
-	_, err = compute.NewFieldRefFromDotPath(``)
-	assert.ErrorIs(t, err, compute.ErrInvalid)
-
-	_, err = compute.NewFieldRefFromDotPath(`alpha`)
-	assert.ErrorIs(t, err, compute.ErrInvalid)
-
-	_, err = compute.NewFieldRefFromDotPath(`[134234`)
-	assert.ErrorIs(t, err, compute.ErrInvalid)
-
-	_, err = compute.NewFieldRefFromDotPath(`[1stuf]`)
-	assert.ErrorIs(t, err, compute.ErrInvalid)
-}
-
-func TestFieldPathNested(t *testing.T) {
-	f0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f1_0 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f1 := arrow.Field{Name: "beta", Type: arrow.StructOf(f1_0)}
-	f2_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_1 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f2_1 := arrow.Field{Name: "gamma", Type: arrow.StructOf(f2_1_0, f2_1_1)}
-	f2 := arrow.Field{Name: "beta", Type: arrow.StructOf(f2_0, f2_1)}
-	s := arrow.NewSchema([]arrow.Field{f0, f1, f2}, nil)
-
-	f, err := compute.FieldPath{0}.Get(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f0, *f)
-
-	f, err = compute.FieldPath{0, 0}.Get(s)
-	assert.ErrorIs(t, err, compute.ErrNoChildren)
-	assert.Nil(t, f)
-
-	f, err = compute.FieldPath{1, 0}.Get(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f1_0, *f)
-
-	f, err = compute.FieldPath{2, 0}.Get(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f2_0, *f)
-
-	f, err = compute.FieldPath{2, 1, 0}.Get(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f2_1_0, *f)
-
-	f, err = compute.FieldPath{1, 0}.GetField(s.Field(2))
-	assert.NoError(t, err)
-	assert.Equal(t, f2_1_0, *f)
-
-	f, err = compute.FieldPath{2, 1, 1}.Get(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f2_1_1, *f)
-}
-
-func TestFindFuncs(t *testing.T) {
-	f0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f1_0 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f1 := arrow.Field{Name: "alpha", Type: arrow.StructOf(f1_0)}
-	f2_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_1 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f2_1 := arrow.Field{Name: "gamma", Type: arrow.StructOf(f2_1_0, f2_1_1)}
-	f2 := arrow.Field{Name: "beta", Type: arrow.StructOf(f2_0, f2_1)}
-	s := arrow.NewSchema([]arrow.Field{f0, f1, f2}, nil)
-
-	assert.Equal(t, []compute.FieldPath{{1}}, compute.FieldRefName("gamma").FindAllField(f2))
-	fp, err := compute.FieldRefName("alpha").FindOneOrNone(s)
-	assert.ErrorIs(t, err, compute.ErrMultipleMatches)
-	assert.Len(t, fp, 0)
-	fp, err = compute.FieldRefName("alpha").FindOne(s)
-	assert.ErrorIs(t, err, compute.ErrMultipleMatches)
-	assert.Len(t, fp, 0)
-
-	fp, err = compute.FieldRefName("beta").FindOneOrNone(s)
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldPath{2}, fp)
-	fp, err = compute.FieldRefName("beta").FindOne(s)
-	assert.NoError(t, err)
-	assert.Equal(t, compute.FieldPath{2}, fp)
-
-	fp, err = compute.FieldRefName("gamma").FindOneOrNone(s)
-	assert.NoError(t, err)
-	assert.Len(t, fp, 0)
-
-	fp, err = compute.FieldRefName("gamma").FindOne(s)
-	assert.ErrorIs(t, err, compute.ErrNoMatch)
-	assert.Nil(t, fp)
-}
-
-func TestGetFieldFuncs(t *testing.T) {
-	f0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f1_0 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f1 := arrow.Field{Name: "alpha", Type: arrow.StructOf(f1_0)}
-	f2_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_0 := arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32}
-	f2_1_1 := arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32}
-	f2_1 := arrow.Field{Name: "gamma", Type: arrow.StructOf(f2_1_0, f2_1_1)}
-	f2 := arrow.Field{Name: "beta", Type: arrow.StructOf(f2_0, f2_1)}
-	s := arrow.NewSchema([]arrow.Field{f0, f1, f2}, nil)
-
-	ref, err := compute.NewFieldRefFromDotPath(`[2].alpha`)
-	assert.NoError(t, err)
-
-	f, err := ref.GetOneField(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f2_0, *f)
-	f, err = ref.GetOneOrNone(s)
-	assert.NoError(t, err)
-	assert.Equal(t, f2_0, *f)
-
-	ref = compute.FieldRefList("beta", "gamma", 2)
-	f, err = ref.GetOneField(s)
-	assert.ErrorIs(t, err, compute.ErrNoMatch)
-	assert.Nil(t, f)
-	f, err = ref.GetOneOrNone(s)
-	assert.NoError(t, err)
-	assert.Nil(t, f)
-
-	f, err = compute.FieldRefName("alpha").GetOneOrNone(s)
-	assert.ErrorIs(t, err, compute.ErrMultipleMatches)
-	assert.Nil(t, f)
-}
-
-func TestFieldRefRecord(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	alphaBldr := array.NewInt32Builder(mem)
-	defer alphaBldr.Release()
-
-	betaBldr := array.NewListBuilder(mem, arrow.PrimitiveTypes.Int32)
-	defer betaBldr.Release()
-
-	gammaBldr := array.NewStructBuilder(mem, arrow.StructOf(
-		arrow.Field{Name: "alpha", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "beta", Type: arrow.PrimitiveTypes.Int32, Nullable: true}))
-	defer gammaBldr.Release()
-
-	alphaBldr.AppendValues([]int32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-	betaBldr.AppendValues([]int32{0, 3, 7, 8, 8, 10, 13, 14, 17, 20, 22}, []bool{true, true, true, false, true, true, true, true, true, true})
-	for i := 0; i < 22; i++ {
-		betaBldr.ValueBuilder().(*array.Int32Builder).Append(int32(i * 2))
-	}
-
-	gammaBldr.AppendValues([]bool{true, true, true, true, true, true, true, true, true, true})
-	gammaBldr.FieldBuilder(0).(*array.Int32Builder).AppendValues([]int32{10, 20, 30, 40, 50, 60, 70, 80, 90, 100}, nil)
-	gammaBldr.FieldBuilder(1).(*array.Int32Builder).AppendValues([]int32{-10, -20, -30, -40, -50, -60, -70, -80, -90, -100}, nil)
-
-	alpha := alphaBldr.NewInt32Array()
-	defer alpha.Release()
-	beta := betaBldr.NewListArray()
-	defer beta.Release()
-	gamma := gammaBldr.NewStructArray()
-	defer gamma.Release()
-
-	rec := array.NewRecord(arrow.NewSchema([]arrow.Field{
-		{Name: "alpha", Type: alpha.DataType(), Nullable: true},
-		{Name: "alpha", Type: beta.DataType(), Nullable: true},
-		{Name: "alpha", Type: gamma.DataType(), Nullable: true},
-	}, nil), []arrow.Array{alpha, beta, gamma}, 10)
-	defer rec.Release()
-
-	arr, err := compute.FieldPath{2, 0}.GetColumn(rec)
-	assert.NoError(t, err)
-	assert.Same(t, gamma.Field(0), arr)
-
-	arr, err = compute.FieldPath{}.GetColumn(rec)
-	assert.ErrorIs(t, err, compute.ErrEmpty)
-	assert.Nil(t, arr)
-
-	arr, err = compute.FieldPath{1, 0}.GetColumn(rec)
-	assert.NoError(t, err)
-	assert.Same(t, beta.ListValues(), arr)
-
-	arr, err = compute.FieldPath{1, 0, 0}.GetColumn(rec)
-	assert.ErrorIs(t, err, compute.ErrNoChildren)
-	assert.Nil(t, arr)
-
-	arr, err = compute.FieldPath{2, 2}.GetColumn(rec)
-	assert.ErrorIs(t, err, compute.ErrIndexRange)
-	assert.Nil(t, arr)
-
-	arrs, err := compute.FieldRefName("alpha").GetAllColumns(rec)
-	assert.NoError(t, err)
-	assert.Equal(t, []arrow.Array{alpha, beta, gamma}, arrs)
-
-	arrs, err = compute.FieldRefName("delta").GetAllColumns(rec)
-	assert.NoError(t, err)
-	assert.Len(t, arrs, 0)
-
-	arr, err = compute.FieldRefName("delta").GetOneColumnOrNone(rec)
-	assert.NoError(t, err)
-	assert.Nil(t, arr)
-
-	arr, err = compute.FieldRefName("alpha").GetOneColumnOrNone(rec)
-	assert.ErrorIs(t, err, compute.ErrMultipleMatches)
-	assert.Nil(t, arr)
-
-	arr, err = compute.FieldRefList("alpha", "beta").GetOneColumnOrNone(rec)
-	assert.NoError(t, err)
-	assert.Same(t, gamma.Field(1), arr)
-}
diff --git a/go/arrow/compute/funckind_string.go b/go/arrow/compute/funckind_string.go
deleted file mode 100644
index 204e844133e53..0000000000000
--- a/go/arrow/compute/funckind_string.go
+++ /dev/null
@@ -1,29 +0,0 @@
-// Code generated by "stringer -type=FuncKind -linecomment"; DO NOT EDIT.
-
-//go:build go1.18
-
-package compute
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[FuncScalar-0]
-	_ = x[FuncVector-1]
-	_ = x[FuncScalarAgg-2]
-	_ = x[FuncHashAgg-3]
-	_ = x[FuncMeta-4]
-}
-
-const _FuncKind_name = "ScalarVectorScalarAggregateHashAggregateMeta"
-
-var _FuncKind_index = [...]uint8{0, 6, 12, 27, 40, 44}
-
-func (i FuncKind) String() string {
-	if i < 0 || i >= FuncKind(len(_FuncKind_index)-1) {
-		return "FuncKind(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _FuncKind_name[_FuncKind_index[i]:_FuncKind_index[i+1]]
-}
diff --git a/go/arrow/compute/functions.go b/go/arrow/compute/functions.go
deleted file mode 100644
index ebade11a8e60b..0000000000000
--- a/go/arrow/compute/functions.go
+++ /dev/null
@@ -1,430 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-	"fmt"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-)
-
-type Function interface {
-	Name() string
-	Kind() FuncKind
-	Arity() Arity
-	Doc() FunctionDoc
-	NumKernels() int
-	Execute(context.Context, FunctionOptions, ...Datum) (Datum, error)
-	DispatchExact(...arrow.DataType) (exec.Kernel, error)
-	DispatchBest(...arrow.DataType) (exec.Kernel, error)
-	DefaultOptions() FunctionOptions
-	Validate() error
-}
-
-// Arity defines the number of required arguments for a function.
-//
-// Naming conventions are taken from https://en.wikipedia.org/wiki/Arity
-type Arity struct {
-	NArgs     int
-	IsVarArgs bool
-}
-
-// Convenience functions to generating Arities
-
-func Nullary() Arity            { return Arity{0, false} }
-func Unary() Arity              { return Arity{1, false} }
-func Binary() Arity             { return Arity{2, false} }
-func Ternary() Arity            { return Arity{3, false} }
-func VarArgs(minArgs int) Arity { return Arity{minArgs, true} }
-
-type FunctionDoc struct {
-	// A one-line summary of the function, using a verb.
-	//
-	// For example, "Add two numeric arrays or scalars"
-	Summary string
-	// A detailed description of the function, meant to follow the summary.
-	Description string
-	// Symbolic names (identifiers) for the function arguments.
-	//
-	// Can be used to generate nicer function signatures.
-	ArgNames []string
-	// Name of the options struct type, if any
-	OptionsType string
-	// Whether or not options are required for function execution.
-	//
-	// If false, then either there are no options for this function,
-	// or there is a usable default options value.
-	OptionsRequired bool
-}
-
-// EmptyFuncDoc is a reusable empty function doc definition for convenience.
-var EmptyFuncDoc FunctionDoc
-
-// FuncKind is an enum representing the type of a function
-type FuncKind int8
-
-const (
-	// A function that performs scalar data operations on whole arrays
-	// of data. Can generally process Array or Scalar values. The size
-	// of the output will be the same as the size (or broadcasted size,
-	// in the case of mixing Array and Scalar inputs) of the input.
-	FuncScalar FuncKind = iota // Scalar
-	// A function with array input and output whose behavior depends on
-	// the values of the entire arrays passed, rather than the value of
-	// each scalar value.
-	FuncVector // Vector
-	// A function that computes a scalar summary statistic from array input.
-	FuncScalarAgg // ScalarAggregate
-	// A function that computes grouped summary statistics from array
-	// input and an array of group identifiers.
-	FuncHashAgg // HashAggregate
-	// A function that dispatches to other functions and does not contain
-	// its own kernels.
-	FuncMeta // Meta
-)
-
-func validateFunctionSummary(summary string) error {
-	if strings.Contains(summary, "\n") {
-		return fmt.Errorf("%w: summary contains a newline", arrow.ErrInvalid)
-	}
-	if summary[len(summary)-1] == '.' {
-		return fmt.Errorf("%w: summary ends with a point", arrow.ErrInvalid)
-	}
-	return nil
-}
-
-func validateFunctionDescription(desc string) error {
-	if len(desc) != 0 && desc[len(desc)-1] == '\n' {
-		return fmt.Errorf("%w: description ends with a newline", arrow.ErrInvalid)
-	}
-
-	const maxLineSize = 78
-	for _, ln := range strings.Split(desc, "\n") {
-		if len(ln) > maxLineSize {
-			return fmt.Errorf("%w: description line length exceeds %d characters", arrow.ErrInvalid, maxLineSize)
-		}
-	}
-	return nil
-}
-
-// baseFunction is the base class for compute functions. Function
-// implementations should embed this baseFunction and will contain
-// a collection of "kernels" which are implementations of the function
-// for specific argument types. Selecting a viable kernel for
-// executing the function is referred to as "dispatching".
-type baseFunction struct {
-	name        string
-	kind        FuncKind
-	arity       Arity
-	doc         FunctionDoc
-	defaultOpts FunctionOptions
-}
-
-func (b *baseFunction) Name() string                    { return b.name }
-func (b *baseFunction) Kind() FuncKind                  { return b.kind }
-func (b *baseFunction) Arity() Arity                    { return b.arity }
-func (b *baseFunction) Doc() FunctionDoc                { return b.doc }
-func (b *baseFunction) DefaultOptions() FunctionOptions { return b.defaultOpts }
-func (b *baseFunction) Validate() error {
-	if b.doc.Summary == "" {
-		return nil
-	}
-
-	argCount := len(b.doc.ArgNames)
-	if argCount != b.arity.NArgs && !(b.arity.IsVarArgs && argCount == b.arity.NArgs+1) {
-		return fmt.Errorf("in function '%s': number of argument names for function doc != function arity", b.name)
-	}
-
-	if err := validateFunctionSummary(b.doc.Summary); err != nil {
-		return err
-	}
-	return validateFunctionDescription(b.doc.Description)
-}
-
-func checkOptions(fn Function, opts FunctionOptions) error {
-	if opts == nil && fn.Doc().OptionsRequired {
-		return fmt.Errorf("%w: function '%s' cannot be called without options", arrow.ErrInvalid, fn.Name())
-	}
-	return nil
-}
-
-func (b *baseFunction) checkArity(nargs int) error {
-	switch {
-	case b.arity.IsVarArgs && nargs < b.arity.NArgs:
-		return fmt.Errorf("%w: varargs function '%s' needs at least %d arguments, but only %d passed",
-			arrow.ErrInvalid, b.name, b.arity.NArgs, nargs)
-	case !b.arity.IsVarArgs && nargs != b.arity.NArgs:
-		return fmt.Errorf("%w: function '%s' accepts %d arguments but %d passed",
-			arrow.ErrInvalid, b.name, b.arity.NArgs, nargs)
-	}
-	return nil
-}
-
-// kernelType is a type constraint interface that is used for funcImpl
-// generic definitions. It will be extended as other kernel types
-// are defined.
-//
-// Currently only ScalarKernels are allowed to be used.
-type kernelType interface {
-	exec.ScalarKernel | exec.VectorKernel
-
-	// specifying the Kernel interface here allows us to utilize
-	// the methods of the Kernel interface on the generic
-	// constrained type
-	exec.Kernel
-}
-
-// funcImpl is the basic implementation for any functions that use kernels
-// i.e. all except for Meta functions.
-type funcImpl[KT kernelType] struct {
-	baseFunction
-
-	kernels []KT
-}
-
-func (fi *funcImpl[KT]) DispatchExact(vals ...arrow.DataType) (*KT, error) {
-	if err := fi.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	for i := range fi.kernels {
-		if fi.kernels[i].GetSig().MatchesInputs(vals) {
-			return &fi.kernels[i], nil
-		}
-	}
-
-	return nil, fmt.Errorf("%w: function '%s' has no kernel matching input types %s",
-		arrow.ErrNotImplemented, fi.name, arrow.TypesToString(vals))
-}
-
-func (fi *funcImpl[KT]) NumKernels() int { return len(fi.kernels) }
-func (fi *funcImpl[KT]) Kernels() []*KT {
-	res := make([]*KT, len(fi.kernels))
-	for i := range fi.kernels {
-		res[i] = &fi.kernels[i]
-	}
-	return res
-}
-
-// A ScalarFunction is a function that executes element-wise operations
-// on arrays or scalars, and therefore whose results generally do not
-// depend on the order of the values in the arguments. Accepts and returns
-// arrays that are all of the same size. These functions roughly correspond
-// to the functions used in most SQL expressions.
-type ScalarFunction struct {
-	funcImpl[exec.ScalarKernel]
-}
-
-// NewScalarFunction constructs a new ScalarFunction object with the passed in
-// name, arity and function doc.
-func NewScalarFunction(name string, arity Arity, doc FunctionDoc) *ScalarFunction {
-	return &ScalarFunction{
-		funcImpl: funcImpl[exec.ScalarKernel]{
-			baseFunction: baseFunction{
-				name:  name,
-				arity: arity,
-				doc:   doc,
-				kind:  FuncScalar,
-			},
-		},
-	}
-}
-
-func (s *ScalarFunction) SetDefaultOptions(opts FunctionOptions) {
-	s.defaultOpts = opts
-}
-
-func (s *ScalarFunction) DispatchExact(vals ...arrow.DataType) (exec.Kernel, error) {
-	return s.funcImpl.DispatchExact(vals...)
-}
-
-func (s *ScalarFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	return s.DispatchExact(vals...)
-}
-
-// AddNewKernel constructs a new kernel with the provided signature
-// and execution/init functions and then adds it to the function's list of
-// kernels. This assumes default null handling (intersection of validity bitmaps)
-func (s *ScalarFunction) AddNewKernel(inTypes []exec.InputType, outType exec.OutputType, execFn exec.ArrayKernelExec, init exec.KernelInitFn) error {
-	if err := s.checkArity(len(inTypes)); err != nil {
-		return err
-	}
-
-	if s.arity.IsVarArgs && len(inTypes) != 1 {
-		return fmt.Errorf("%w: varargs signatures must have exactly one input type", arrow.ErrInvalid)
-	}
-
-	sig := &exec.KernelSignature{
-		InputTypes: inTypes,
-		OutType:    outType,
-		IsVarArgs:  s.arity.IsVarArgs,
-	}
-
-	s.kernels = append(s.kernels, exec.NewScalarKernelWithSig(sig, execFn, init))
-	return nil
-}
-
-// AddKernel adds the provided kernel to the list of kernels
-// this function has. A copy of the kernel is added to the slice of kernels,
-// which means that a given kernel object can be created, added and then
-// reused to add other kernels.
-func (s *ScalarFunction) AddKernel(k exec.ScalarKernel) error {
-	if err := s.checkArity(len(k.Signature.InputTypes)); err != nil {
-		return err
-	}
-
-	if s.arity.IsVarArgs && !k.Signature.IsVarArgs {
-		return fmt.Errorf("%w: function accepts varargs but kernel signature does not", arrow.ErrInvalid)
-	}
-
-	s.kernels = append(s.kernels, k)
-	return nil
-}
-
-// Execute uses the passed in context, function options and arguments to eagerly
-// execute the function using kernel dispatch, batch iteration and memory
-// allocation details as defined by the kernel.
-//
-// If opts is nil, then the DefaultOptions() will be used.
-func (s *ScalarFunction) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, s, opts, -1, args...)
-}
-
-type VectorFunction struct {
-	funcImpl[exec.VectorKernel]
-}
-
-func NewVectorFunction(name string, arity Arity, doc FunctionDoc) *VectorFunction {
-	return &VectorFunction{
-		funcImpl: funcImpl[exec.VectorKernel]{
-			baseFunction: baseFunction{
-				name:  name,
-				arity: arity,
-				doc:   doc,
-				kind:  FuncVector,
-			},
-		},
-	}
-}
-
-func (f *VectorFunction) SetDefaultOptions(opts FunctionOptions) {
-	f.defaultOpts = opts
-}
-
-func (f *VectorFunction) DispatchExact(vals ...arrow.DataType) (exec.Kernel, error) {
-	return f.funcImpl.DispatchExact(vals...)
-}
-
-func (f *VectorFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	return f.DispatchExact(vals...)
-}
-
-func (f *VectorFunction) AddNewKernel(inTypes []exec.InputType, outType exec.OutputType, execFn exec.ArrayKernelExec, init exec.KernelInitFn) error {
-	if err := f.checkArity(len(inTypes)); err != nil {
-		return err
-	}
-
-	if f.arity.IsVarArgs && len(inTypes) != 1 {
-		return fmt.Errorf("%w: varags signatures must have exactly one input type", arrow.ErrInvalid)
-	}
-
-	sig := &exec.KernelSignature{
-		InputTypes: inTypes,
-		OutType:    outType,
-		IsVarArgs:  f.arity.IsVarArgs,
-	}
-	f.kernels = append(f.kernels, exec.NewVectorKernelWithSig(sig, execFn, init))
-	return nil
-}
-
-func (f *VectorFunction) AddKernel(kernel exec.VectorKernel) error {
-	if err := f.checkArity(len(kernel.Signature.InputTypes)); err != nil {
-		return err
-	}
-
-	if f.arity.IsVarArgs && !kernel.Signature.IsVarArgs {
-		return fmt.Errorf("%w: function accepts varargs but kernel signature does not", arrow.ErrInvalid)
-	}
-	f.kernels = append(f.kernels, kernel)
-	return nil
-}
-
-func (f *VectorFunction) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, f, opts, -1, args...)
-}
-
-// MetaFunctionImpl is the signature needed for implementing a MetaFunction
-// which is a function that dispatches to another function instead.
-type MetaFunctionImpl func(context.Context, FunctionOptions, ...Datum) (Datum, error)
-
-// MetaFunction is a function which dispatches to other functions, the impl
-// must not be nil.
-//
-// For Array, ChunkedArray and Scalar datums, this may rely on the execution
-// of concrete function types, but this must handle other Datum kinds on its
-// own.
-type MetaFunction struct {
-	baseFunction
-	impl MetaFunctionImpl
-}
-
-// NewMetaFunction constructs a new MetaFunction which will call the provided
-// impl for dispatching with the expected arity.
-//
-// Will panic if impl is nil.
-func NewMetaFunction(name string, arity Arity, doc FunctionDoc, impl MetaFunctionImpl) *MetaFunction {
-	if impl == nil {
-		panic("arrow/compute: cannot construct MetaFunction with nil impl")
-	}
-	return &MetaFunction{
-		baseFunction: baseFunction{
-			name:  name,
-			arity: arity,
-			doc:   doc,
-		},
-		impl: impl,
-	}
-}
-
-func (MetaFunction) NumKernels() int { return 0 }
-func (m *MetaFunction) DispatchExact(...arrow.DataType) (exec.Kernel, error) {
-	return nil, fmt.Errorf("%w: dispatch for metafunction", arrow.ErrNotImplemented)
-}
-
-func (m *MetaFunction) DispatchBest(...arrow.DataType) (exec.Kernel, error) {
-	return nil, fmt.Errorf("%w: dispatch for metafunction", arrow.ErrNotImplemented)
-}
-
-func (m *MetaFunction) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	if err := m.checkArity(len(args)); err != nil {
-		return nil, err
-	}
-	if err := checkOptions(m, opts); err != nil {
-		return nil, err
-	}
-
-	if opts == nil {
-		opts = m.defaultOpts
-	}
-
-	return m.impl(ctx, opts, args...)
-}
diff --git a/go/arrow/compute/functions_test.go b/go/arrow/compute/functions_test.go
deleted file mode 100644
index 31a4cf124e845..0000000000000
--- a/go/arrow/compute/functions_test.go
+++ /dev/null
@@ -1,69 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestArityBasics(t *testing.T) {
-	nullary := compute.Nullary()
-	assert.Equal(t, 0, nullary.NArgs)
-	assert.False(t, nullary.IsVarArgs)
-
-	unary := compute.Unary()
-	assert.Equal(t, 1, unary.NArgs)
-	assert.False(t, unary.IsVarArgs)
-
-	binary := compute.Binary()
-	assert.Equal(t, 2, binary.NArgs)
-	assert.False(t, binary.IsVarArgs)
-
-	ternary := compute.Ternary()
-	assert.Equal(t, 3, ternary.NArgs)
-	assert.False(t, ternary.IsVarArgs)
-
-	varargs := compute.VarArgs(2)
-	assert.Equal(t, 2, varargs.NArgs)
-	assert.True(t, varargs.IsVarArgs)
-}
-
-func CheckDispatchBest(t *testing.T, funcName string, originalTypes, expected []arrow.DataType) {
-	fn, exists := compute.GetFunctionRegistry().GetFunction(funcName)
-	require.True(t, exists)
-
-	vals := make([]arrow.DataType, len(originalTypes))
-	copy(vals, originalTypes)
-
-	actualKernel, err := fn.DispatchBest(vals...)
-	require.NoError(t, err)
-	expKernel, err := fn.DispatchExact(expected...)
-	require.NoError(t, err)
-
-	assert.Same(t, expKernel, actualKernel)
-	assert.Equal(t, len(expected), len(vals))
-	for i, v := range vals {
-		assert.True(t, arrow.TypeEqual(v, expected[i]), v.String(), expected[i].String())
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/Makefile b/go/arrow/compute/internal/kernels/Makefile
deleted file mode 100644
index ac00bd837c0b3..0000000000000
--- a/go/arrow/compute/internal/kernels/Makefile
+++ /dev/null
@@ -1,110 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-
-C2GOASM=c2goasm
-CC=clang-11
-CXX=clang++-11
-C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=5000 \
-				-fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib -I../../../../internal/utils/_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma
-ASM_FLAGS_SSE4=-msse4
-ASM_FLAGS_BMI2=-mbmi2
-ASM_FLAGS_POPCNT=-mpopcnt
-
-C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
-	-fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib -I../../../../internal/utils/_lib
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-.PHONEY: assembly
-
-INTEL_SOURCES := \
-	cast_numeric_avx2_amd64.s cast_numeric_sse4_amd64.s constant_factor_avx2_amd64.s \
-	constant_factor_sse4_amd64.s base_arithmetic_avx2_amd64.s base_arithmetic_sse4_amd64.s \
-	scalar_comparison_avx2_amd64.s scalar_comparison_sse4_amd64.s
-
-#
-# ARROW-15336: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
-# min_max_neon_arm64.s was generated by asm2plan9s.
-# And manually formatted it as the Arm64 Plan9.
-#
-
-assembly: $(INTEL_SOURCES)
-
-_lib/cast_numeric_avx2_amd64.s: _lib/cast_numeric.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@	
-
-_lib/cast_numeric_sse4_amd64.s: _lib/cast_numeric.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/cast_numeric_neon.s: _lib/cast_numeric.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/base_arithmetic_avx2_amd64.s: _lib/base_arithmetic.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/base_arithmetic_sse4_amd64.s: _lib/base_arithmetic.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/scalar_comparison_avx2_amd64.s: _lib/scalar_comparison.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@	
-
-_lib/scalar_comparison_sse4_amd64.s: _lib/scalar_comparison.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/base_arithmetic_neon.s: _lib/base_arithmetic.cc
-	$(CXX) -std=c++17 -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/constant_factor_avx2_amd64.s: _lib/constant_factor.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/constant_factor_sse4_amd64.s: _lib/constant_factor.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/constant_factor_neon.s: _lib/constant_factor.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-cast_numeric_avx2_amd64.s: _lib/cast_numeric_avx2_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-cast_numeric_sse4_amd64.s: _lib/cast_numeric_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-constant_factor_avx2_amd64.s: _lib/constant_factor_avx2_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-constant_factor_sse4_amd64.s: _lib/constant_factor_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-base_arithmetic_avx2_amd64.s: _lib/base_arithmetic_avx2_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-base_arithmetic_sse4_amd64.s: _lib/base_arithmetic_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-scalar_comparison_avx2_amd64.s: _lib/scalar_comparison_avx2_amd64.s	
-	$(C2GOASM) -a -f $^ $@
-
-scalar_comparison_sse4_amd64.s: _lib/scalar_comparison_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-clean:
-	rm -f $(INTEL_SOURCES)
-	rm -f $(addprefix _lib/,$(INTEL_SOURCES))
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc b/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
deleted file mode 100644
index 199c9d48ac631..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
+++ /dev/null
@@ -1,484 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <math.h>
-#include <stdint.h>
-#include <limits.h>
-#include "types.h"
-#include "vendored/safe-math.h"
-
-// Corresponds to equivalent ArithmeticOp enum in base_arithmetic.go
-// for passing across which operation to perform. This allows simpler
-// implementation at the cost of having to pass the extra int8 and
-// perform a switch.
-//
-// In cases of small arrays, this is completely negligible. In cases
-// of large arrays, the time saved by using SIMD here is significantly
-// worth the cost.
-enum class optype : int8_t {
-    ADD,
-    SUB,
-    MUL,
-    DIV,
-    ABSOLUTE_VALUE,
-    NEGATE,
-    SQRT,
-    POWER,
-    SIN,
-    COS,
-    TAN,
-    ASIN,
-    ACOS,
-    ATAN,
-    ATAN2,
-    LN,
-    LOG10,
-    LOG2,
-    LOG1P,
-    LOGB,
-    SIGN,
-
-    // this impl doesn't actually perform any overflow checks as we need
-    // to only run overflow checks on non-null entries
-    ADD_CHECKED,
-    SUB_CHECKED,
-    MUL_CHECKED,
-    DIV_CHECKED,
-    ABSOLUTE_VALUE_CHECKED,
-    NEGATE_CHECKED,
-    SQRT_CHECKED,
-    POWER_CHECKED,
-    SIN_CHECKED,
-    COS_CHECKED,
-    TAN_CHECKED,
-    ASIN_CHECKED,
-    ACOS_CHECKED,    
-    LN_CHECKED,
-    LOG10_CHECKED,
-    LOG2_CHECKED,
-    LOG1P_CHECKED,
-    LOGB_CHECKED,
-};
-
-struct Add {
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr T Call(Arg0 left, Arg1 right) {
-        if constexpr (is_arithmetic_v<T>)
-            return left + right;
-    }
-};
-
-struct Sub {
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr T Call(Arg0 left, Arg1 right) {
-        if constexpr (is_arithmetic_v<T>)
-            return left - right;
-    }
-};
-
-struct AddChecked {
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr T Call(Arg0 left, Arg1 right) {
-        static_assert(is_same<T, Arg0>::value && is_same<T, Arg1>::value, "");
-        if constexpr(is_arithmetic_v<T>) {
-            return left + right;
-        }
-    }
-};
-
-
-struct SubChecked {
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr T Call(Arg0 left, Arg1 right) {
-        static_assert(is_same<T, Arg0>::value && is_same<T, Arg1>::value, "");
-        if constexpr(is_arithmetic_v<T>) {
-            return left - right;
-        }
-    }
-};
-
-template <typename T>
-using maybe_make_unsigned = conditional_t<is_integral_v<T> && !is_same_v<T, bool>, make_unsigned_t<T>, T>;
-
-template <typename T, typename Unsigned = maybe_make_unsigned<T>>
-constexpr Unsigned to_unsigned(T signed_) {
-    return static_cast<Unsigned>(signed_);
-}
-
-struct Multiply {
-    static_assert(is_same_v<decltype(int8_t() * int8_t()), int32_t>, "");
-    static_assert(is_same_v<decltype(uint8_t() * uint8_t()), int32_t>, "");
-    static_assert(is_same_v<decltype(int16_t() * int16_t()), int32_t>, "");
-    static_assert(is_same_v<decltype(uint16_t() * uint16_t()), int32_t>, "");
-    static_assert(is_same_v<decltype(int32_t() * int32_t()), int32_t>, "");
-    static_assert(is_same_v<decltype(uint32_t() * uint32_t()), uint32_t>, "");
-    static_assert(is_same_v<decltype(int64_t() * int64_t()), int64_t>, "");
-    static_assert(is_same_v<decltype(uint64_t() * uint64_t()), uint64_t>, "");
-
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr T Call(Arg0 left, Arg1 right) {
-        static_assert(is_same_v<T, Arg0> && is_same_v<T, Arg1>, "");
-        if constexpr(is_floating_point_v<T>) {
-            return left * right;
-        } else if constexpr(is_unsigned_v<T> && !is_same_v<T, uint16_t>) {
-            return left * right;
-        } else if constexpr(is_signed_v<T> && !is_same_v<T, int16_t>) {
-            return to_unsigned(left) * to_unsigned(right);
-        } else if constexpr(is_same_v<T, int16_t> || is_same_v<T, uint16_t>) {
-            // multiplication of 16 bit integer types implicitly promotes to
-            // signed 32 bit integer. However, some inputs may overflow (which
-            // triggers undefined behavior). Therefore we first cast to 32 bit
-            // unsigned integers where overflow is well defined.
-            return static_cast<uint32_t>(left) * static_cast<uint32_t>(right);
-        }
-    }
-};
-
-struct MultiplyChecked {
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr T Call(Arg0 left, Arg1 right) {
-        static_assert(is_same_v<T, Arg0> && is_same_v<T, Arg1>, "");
-        if constexpr(is_arithmetic_v<T>) {
-            return left * right;
-        }
-    }
-};
-
-struct AbsoluteValue {
-    template <typename T, typename Arg>
-    static constexpr T Call(Arg input) {
-        if constexpr(is_same_v<Arg, float>) {
-            *(((int*)&input)+0) &= 0x7fffffff;
-            return input;
-        } else if constexpr(is_same_v<Arg, double>) {
-            *(((int*)&input)+1) &= 0x7fffffff;
-            return input;
-        } else if constexpr(is_unsigned_v<Arg>) {
-            return input;
-        } else {
-            const auto mask = input >> (sizeof(Arg) * CHAR_BIT - 1);
-            return (input + mask) ^ mask;
-        }
-    }
-};
-
-struct AbsoluteValueChecked {
-    template <typename T, typename Arg>
-    static constexpr T Call(Arg input) {
-        if constexpr(is_same_v<Arg, float>) {
-            *(((int*)&input)+0) &= 0x7fffffff;
-            return input;
-        } else if constexpr(is_same_v<Arg, double>) {
-            *(((int*)&input)+1) &= 0x7fffffff;
-            return input;
-        } else if constexpr(is_unsigned_v<Arg>) {
-            return input;
-        } else {
-            const auto mask = input >> (sizeof(Arg) * CHAR_BIT - 1);
-            return (input + mask) ^ mask;
-        }
-    }
-};
-
-struct Negate {
-    template <typename T, typename Arg>
-    static constexpr T Call(Arg input) {
-        if constexpr(is_floating_point_v<Arg>) {
-            return -input;
-        } else if constexpr(is_unsigned_v<Arg>) {
-            return ~input + 1;
-        } else {
-            return -input;
-        }
-    }
-};
-
-struct NegateChecked {
-    template <typename T, typename Arg>
-    static constexpr T Call(Arg input) {
-        static_assert(is_same_v<T, Arg>, "");
-        if constexpr(is_floating_point_v<Arg>) {
-            return -input;
-        } else if constexpr(is_unsigned_v<Arg>) {
-            return 0;
-        } else {
-            return -input;
-        }
-    }
-};
-
-struct Sign {
-    template <typename T, typename Arg>
-    static constexpr T Call(Arg input) {
-        if constexpr(is_floating_point_v<Arg>) {
-            return isnan(input) ? input : ((input == 0) ? 0 : (signbit(input) ? -1 : 1));
-        } else if constexpr(is_unsigned_v<Arg>) {
-            return input > 0 ? 1 : 0;
-        } else if constexpr(is_signed_v<Arg>) {
-            return input > 0 ? 1 : (input ? -1 : 0);
-        }
-    }
-};
-
-template <typename T, typename Op, typename OutT = T>
-struct arithmetic_op_arr_arr_impl {
-    static inline void exec(const void* in_left, const void* in_right, void* out, const int len) {
-        const T* left = reinterpret_cast<const T*>(in_left);
-        const T* right = reinterpret_cast<const T*>(in_right);
-        OutT* output = reinterpret_cast<OutT*>(out);
-
-        for (int i = 0; i < len; ++i) {
-            output[i] = Op::template Call<OutT, T, T>(left[i], right[i]);
-        }
-    }
-};
-
-template <typename T, typename Op, typename OutT = T>
-struct arithmetic_op_arr_scalar_impl {
-    static inline void exec(const void* in_left, const void* scalar_right, void* out, const int len) {
-        const T* left = reinterpret_cast<const T*>(in_left);
-        const T right = *reinterpret_cast<const T*>(scalar_right);
-        OutT* output = reinterpret_cast<OutT*>(out);
-
-        for (int i = 0; i < len; ++i) {
-            output[i] = Op::template Call<OutT, T, T>(left[i], right);
-        }
-    }
-};
-
-template <typename T, typename Op, typename OutT = T>
-struct arithmetic_op_scalar_arr_impl {
-    static inline void exec(const void* scalar_left, const void* in_right, void* out, const int len) {
-        const T left = *reinterpret_cast<const T*>(scalar_left);
-        const T* right = reinterpret_cast<const T*>(in_right);
-        OutT* output = reinterpret_cast<OutT*>(out);
-
-        for (int i = 0; i < len; ++i) {
-            output[i] = Op::template Call<OutT, T, T>(left, right[i]);
-        }
-    }
-};
-
-template <typename T, typename Op, typename OutT = T>
-struct arithmetic_unary_op_impl {
-    static inline void exec(const void* arg, void* out, const int len) {
-        const T* input = reinterpret_cast<const T*>(arg);
-        OutT* output = reinterpret_cast<OutT*>(out);
-
-        for (int i = 0; i < len; ++i) {
-            output[i] = Op::template Call<OutT, T>(input[i]);
-        }
-    }
-};
-
-template <typename Op, template<typename...> typename Impl>
-static inline void arithmetic_op(const int type, const void* in_left, const void* in_right, void* output, const int len) {
-    const auto intype = static_cast<arrtype>(type);
-
-    switch (intype) {
-    case arrtype::UINT8:
-        return Impl<uint8_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::INT8:
-        return Impl<int8_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::UINT16:
-        return Impl<uint16_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::INT16:
-        return Impl<int16_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::UINT32:
-        return Impl<uint32_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::INT32:
-        return Impl<int32_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::UINT64:
-        return Impl<uint64_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::INT64:
-        return Impl<int64_t, Op>::exec(in_left, in_right, output, len);
-    case arrtype::FLOAT32:
-        return Impl<float, Op>::exec(in_left, in_right, output, len);
-    case arrtype::FLOAT64:
-        return Impl<double, Op>::exec(in_left, in_right, output, len);
-    default:
-        break;
-    }
-}
-
-template <typename Op, template <typename...> typename Impl, typename Input>
-static inline void arithmetic_op(const int otype, const void* input, void* output, const int len) {
-    const auto outtype = static_cast<arrtype>(otype);
-
-    switch (outtype) {
-    case arrtype::UINT8:
-        return Impl<Input, Op, uint8_t>::exec(input, output, len);
-    case arrtype::INT8:
-        return Impl<Input, Op, int8_t>::exec(input, output, len);
-    case arrtype::UINT16:
-        return Impl<Input, Op, uint16_t>::exec(input, output, len);
-    case arrtype::INT16:
-        return Impl<Input, Op, int16_t>::exec(input, output, len);
-    case arrtype::UINT32:
-        return Impl<Input, Op, uint32_t>::exec(input, output, len);
-    case arrtype::INT32:
-        return Impl<Input, Op, int32_t>::exec(input, output, len);
-    case arrtype::UINT64:
-        return Impl<Input, Op, uint64_t>::exec(input, output, len);
-    case arrtype::INT64:
-        return Impl<Input, Op, int64_t>::exec(input, output, len);
-    case arrtype::FLOAT32:
-        return Impl<Input, Op, float>::exec(input, output, len);
-    case arrtype::FLOAT64:
-        return Impl<Input, Op, double>::exec(input, output, len);
-    default:
-        break;
-    }
-}
-
-
-template <typename Op, template <typename...> typename Impl>
-static inline void arithmetic_op(const int type, const void* input, void* output, const int len) {
-    const auto intype = static_cast<arrtype>(type);
-
-    switch (intype) {
-    case arrtype::UINT8:
-        return Impl<uint8_t, Op>::exec(input, output, len);
-    case arrtype::INT8:
-        return Impl<int8_t, Op>::exec(input, output, len);
-    case arrtype::UINT16:
-        return Impl<uint16_t, Op>::exec(input, output, len);
-    case arrtype::INT16:
-        return Impl<int16_t, Op>::exec(input, output, len);
-    case arrtype::UINT32:
-        return Impl<uint32_t, Op>::exec(input, output, len);
-    case arrtype::INT32:
-        return Impl<int32_t, Op>::exec(input, output, len);
-    case arrtype::UINT64:
-        return Impl<uint64_t, Op>::exec(input, output, len);
-    case arrtype::INT64:
-        return Impl<int64_t, Op>::exec(input, output, len);
-    case arrtype::FLOAT32:
-        return Impl<float, Op>::exec(input, output, len);
-    case arrtype::FLOAT64:
-        return Impl<double, Op>::exec(input, output, len);
-    default:
-        break;
-    }
-}
-
-template <typename Op, template <typename...> typename Impl>
-static inline void arithmetic_op(const int itype, const int otype, const void* input, void* output, const int len) {
-    const auto intype = static_cast<arrtype>(itype);
-
-    switch (intype) {
-    case arrtype::UINT8:
-        return arithmetic_op<Op, Impl, uint8_t>(otype, input, output, len);
-    case arrtype::INT8:
-        return arithmetic_op<Op, Impl, int8_t>(otype, input, output, len);
-    case arrtype::UINT16:
-        return arithmetic_op<Op, Impl, uint16_t>(otype, input, output, len);
-    case arrtype::INT16:
-        return arithmetic_op<Op, Impl, int16_t>(otype, input, output, len);
-    case arrtype::UINT32:
-        return arithmetic_op<Op, Impl, uint32_t>(otype, input, output, len);
-    case arrtype::INT32:
-        return arithmetic_op<Op, Impl, int32_t>(otype, input, output, len);
-    case arrtype::UINT64:
-        return arithmetic_op<Op, Impl, uint64_t>(otype, input, output, len);
-    case arrtype::INT64:
-        return arithmetic_op<Op, Impl, int64_t>(otype, input, output, len);
-    case arrtype::FLOAT32:
-        return arithmetic_op<Op, Impl, float>(otype, input, output, len);
-    case arrtype::FLOAT64:
-        return arithmetic_op<Op, Impl, double>(otype, input, output, len);
-    default:
-        break;
-    }
-}
-
-template <template <typename...> class Impl>
-static inline void arithmetic_unary_impl_same_types(const int type, const int8_t op, const void* input, void* output, const int len) {
-    const auto opt = static_cast<optype>(op);
-
-    switch (opt) {
-    case optype::ABSOLUTE_VALUE:
-        return arithmetic_op<AbsoluteValue, Impl>(type, input, output, len);
-    case optype::ABSOLUTE_VALUE_CHECKED:
-        return arithmetic_op<AbsoluteValueChecked, Impl>(type, input, output, len);
-    case optype::NEGATE:
-        return arithmetic_op<Negate, Impl>(type, input, output, len);
-    case optype::NEGATE_CHECKED:
-        return arithmetic_op<NegateChecked, Impl>(type, input, output, len);
-    case optype::SIGN:
-        return arithmetic_op<Sign, Impl>(type, input, output, len);
-    default:
-        break;
-    }
-}
-
-
-template <template <typename...> class Impl>
-static inline void arithmetic_unary_impl(const int itype, const int otype, const int8_t op, const void* input, void* output, const int len) {
-    const auto opt = static_cast<optype>(op);
-
-    switch (opt) {
-    case optype::SIGN:
-        return arithmetic_op<Sign, Impl>(itype, otype, input, output, len);
-    default:
-        break;
-    }
-}
-
-template <template <typename...> class Impl>
-static inline void arithmetic_binary_impl(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
-    const auto opt = static_cast<optype>(op);
-
-    switch (opt) {
-    case optype::ADD:
-        return arithmetic_op<Add, Impl>(type, in_left, in_right, out, len);
-    case optype::ADD_CHECKED:
-        return arithmetic_op<AddChecked, Impl>(type, in_left, in_right, out, len);
-    case optype::SUB:
-        return arithmetic_op<Sub, Impl>(type, in_left, in_right, out, len);
-    case optype::SUB_CHECKED:
-        return arithmetic_op<SubChecked, Impl>(type, in_left, in_right, out, len);
-    case optype::MUL:
-        return arithmetic_op<Multiply, Impl>(type, in_left, in_right, out, len);
-    case optype::MUL_CHECKED:
-        return arithmetic_op<MultiplyChecked, Impl>(type, in_left, in_right, out, len);
-    default:
-        // don't implement divide here as we can only divide on non-null entries
-        // so we can avoid dividing by zero
-        break;
-    }
-}
-
-extern "C" void FULL_NAME(arithmetic_binary)(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
-    arithmetic_binary_impl<arithmetic_op_arr_arr_impl>(type, op, in_left, in_right, out, len);
-}
-
-extern "C" void FULL_NAME(arithmetic_arr_scalar)(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
-    arithmetic_binary_impl<arithmetic_op_arr_scalar_impl>(type, op, in_left, in_right, out, len);
-}
-
-extern "C" void FULL_NAME(arithmetic_scalar_arr)(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
-    arithmetic_binary_impl<arithmetic_op_scalar_arr_impl>(type, op, in_left, in_right, out, len);
-}
-
-extern "C" void FULL_NAME(arithmetic_unary_same_types)(const int type, const int8_t op, const void* input, void* output, const int len) {
-    arithmetic_unary_impl_same_types<arithmetic_unary_op_impl>(type, op, input, output, len);
-}
-
-extern "C" void FULL_NAME(arithmetic_unary_diff_type)(const int itype, const int otype, const int8_t op, const void* input, void* output, const int len) {
-    arithmetic_unary_impl<arithmetic_unary_op_impl>(itype, otype, op, input, output, len);
-}
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
deleted file mode 100644
index 6a89e975170b5..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
+++ /dev/null
@@ -1,34899 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"base_arithmetic.cc"
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function arithmetic_binary_avx2
-.LCPI0_0:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	arithmetic_binary_avx2
-	.p2align	4, 0x90
-	.type	arithmetic_binary_avx2,@function
-arithmetic_binary_avx2:                 # @arithmetic_binary_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 20
-	jg	.LBB0_11
-# %bb.1:
-	test	sil, sil
-	je	.LBB0_21
-# %bb.2:
-	cmp	sil, 1
-	je	.LBB0_287
-# %bb.3:
-	cmp	sil, 2
-	jne	.LBB0_825
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB0_559
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB0_6
-# %bb.553:
-	cmp	edi, 4
-	je	.LBB0_602
-# %bb.554:
-	cmp	edi, 5
-	je	.LBB0_614
-# %bb.555:
-	cmp	edi, 6
-	jne	.LBB0_825
-# %bb.556:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.557:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_626
-# %bb.558:
-	xor	esi, esi
-.LBB0_631:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_633
-.LBB0_632:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	imul	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_632
-.LBB0_633:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_634:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_634
-	jmp	.LBB0_825
-.LBB0_11:
-	cmp	sil, 21
-	je	.LBB0_154
-# %bb.12:
-	cmp	sil, 22
-	je	.LBB0_420
-# %bb.13:
-	cmp	sil, 23
-	jne	.LBB0_825
-# %bb.14:
-	cmp	edi, 6
-	jg	.LBB0_695
-# %bb.15:
-	cmp	edi, 3
-	jle	.LBB0_16
-# %bb.689:
-	cmp	edi, 4
-	je	.LBB0_738
-# %bb.690:
-	cmp	edi, 5
-	je	.LBB0_750
-# %bb.691:
-	cmp	edi, 6
-	jne	.LBB0_825
-# %bb.692:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.693:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_762
-# %bb.694:
-	xor	esi, esi
-.LBB0_767:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_769
-.LBB0_768:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	imul	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_768
-.LBB0_769:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_770:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_770
-	jmp	.LBB0_825
-.LBB0_21:
-	cmp	edi, 6
-	jg	.LBB0_34
-# %bb.22:
-	cmp	edi, 3
-	jle	.LBB0_23
-# %bb.28:
-	cmp	edi, 4
-	je	.LBB0_67
-# %bb.29:
-	cmp	edi, 5
-	je	.LBB0_79
-# %bb.30:
-	cmp	edi, 6
-	jne	.LBB0_825
-# %bb.31:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.32:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_91
-# %bb.33:
-	xor	esi, esi
-	jmp	.LBB0_96
-.LBB0_287:
-	cmp	edi, 6
-	jg	.LBB0_300
-# %bb.288:
-	cmp	edi, 3
-	jle	.LBB0_289
-# %bb.294:
-	cmp	edi, 4
-	je	.LBB0_333
-# %bb.295:
-	cmp	edi, 5
-	je	.LBB0_345
-# %bb.296:
-	cmp	edi, 6
-	jne	.LBB0_825
-# %bb.297:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.298:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_357
-# %bb.299:
-	xor	esi, esi
-.LBB0_362:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_364
-.LBB0_363:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	sub	edi, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_363
-.LBB0_364:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_365:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_365
-	jmp	.LBB0_825
-.LBB0_154:
-	cmp	edi, 6
-	jg	.LBB0_167
-# %bb.155:
-	cmp	edi, 3
-	jle	.LBB0_156
-# %bb.161:
-	cmp	edi, 4
-	je	.LBB0_200
-# %bb.162:
-	cmp	edi, 5
-	je	.LBB0_212
-# %bb.163:
-	cmp	edi, 6
-	jne	.LBB0_825
-# %bb.164:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.165:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_224
-# %bb.166:
-	xor	esi, esi
-	jmp	.LBB0_229
-.LBB0_420:
-	cmp	edi, 6
-	jg	.LBB0_433
-# %bb.421:
-	cmp	edi, 3
-	jle	.LBB0_422
-# %bb.427:
-	cmp	edi, 4
-	je	.LBB0_466
-# %bb.428:
-	cmp	edi, 5
-	je	.LBB0_478
-# %bb.429:
-	cmp	edi, 6
-	jne	.LBB0_825
-# %bb.430:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.431:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_490
-# %bb.432:
-	xor	esi, esi
-.LBB0_495:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_497
-.LBB0_496:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	sub	edi, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_496
-.LBB0_497:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_498:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_498
-	jmp	.LBB0_825
-.LBB0_559:
-	cmp	edi, 8
-	jle	.LBB0_560
-# %bb.565:
-	cmp	edi, 9
-	je	.LBB0_656
-# %bb.566:
-	cmp	edi, 11
-	je	.LBB0_668
-# %bb.567:
-	cmp	edi, 12
-	jne	.LBB0_825
-# %bb.568:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.569:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_680
-# %bb.570:
-	xor	esi, esi
-.LBB0_685:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_687
-.LBB0_686:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_686
-.LBB0_687:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_688:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_688
-	jmp	.LBB0_825
-.LBB0_695:
-	cmp	edi, 8
-	jle	.LBB0_696
-# %bb.701:
-	cmp	edi, 9
-	je	.LBB0_792
-# %bb.702:
-	cmp	edi, 11
-	je	.LBB0_804
-# %bb.703:
-	cmp	edi, 12
-	jne	.LBB0_825
-# %bb.704:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.705:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_816
-# %bb.706:
-	xor	esi, esi
-.LBB0_821:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_823
-.LBB0_822:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_822
-.LBB0_823:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_824:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_824
-	jmp	.LBB0_825
-.LBB0_34:
-	cmp	edi, 8
-	jle	.LBB0_35
-# %bb.40:
-	cmp	edi, 9
-	je	.LBB0_121
-# %bb.41:
-	cmp	edi, 11
-	je	.LBB0_133
-# %bb.42:
-	cmp	edi, 12
-	jne	.LBB0_825
-# %bb.43:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.44:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_145
-# %bb.45:
-	xor	esi, esi
-	jmp	.LBB0_150
-.LBB0_300:
-	cmp	edi, 8
-	jle	.LBB0_301
-# %bb.306:
-	cmp	edi, 9
-	je	.LBB0_387
-# %bb.307:
-	cmp	edi, 11
-	je	.LBB0_399
-# %bb.308:
-	cmp	edi, 12
-	jne	.LBB0_825
-# %bb.309:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.310:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_411
-# %bb.311:
-	xor	esi, esi
-.LBB0_416:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_418
-.LBB0_417:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_417
-.LBB0_418:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_419:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_419
-	jmp	.LBB0_825
-.LBB0_167:
-	cmp	edi, 8
-	jle	.LBB0_168
-# %bb.173:
-	cmp	edi, 9
-	je	.LBB0_254
-# %bb.174:
-	cmp	edi, 11
-	je	.LBB0_266
-# %bb.175:
-	cmp	edi, 12
-	jne	.LBB0_825
-# %bb.176:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.177:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_278
-# %bb.178:
-	xor	esi, esi
-	jmp	.LBB0_283
-.LBB0_433:
-	cmp	edi, 8
-	jle	.LBB0_434
-# %bb.439:
-	cmp	edi, 9
-	je	.LBB0_520
-# %bb.440:
-	cmp	edi, 11
-	je	.LBB0_532
-# %bb.441:
-	cmp	edi, 12
-	jne	.LBB0_825
-# %bb.442:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.443:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_544
-# %bb.444:
-	xor	esi, esi
-.LBB0_549:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_551
-.LBB0_550:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_550
-.LBB0_551:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_552:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_552
-	jmp	.LBB0_825
-.LBB0_6:
-	cmp	edi, 2
-	je	.LBB0_571
-# %bb.7:
-	cmp	edi, 3
-	jne	.LBB0_825
-# %bb.8:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.9:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_588
-# %bb.10:
-	xor	edi, edi
-	jmp	.LBB0_598
-.LBB0_16:
-	cmp	edi, 2
-	je	.LBB0_707
-# %bb.17:
-	cmp	edi, 3
-	jne	.LBB0_825
-# %bb.18:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.19:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_724
-# %bb.20:
-	xor	edi, edi
-	jmp	.LBB0_734
-.LBB0_23:
-	cmp	edi, 2
-	je	.LBB0_46
-# %bb.24:
-	cmp	edi, 3
-	jne	.LBB0_825
-# %bb.25:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.26:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_58
-# %bb.27:
-	xor	esi, esi
-	jmp	.LBB0_63
-.LBB0_289:
-	cmp	edi, 2
-	je	.LBB0_312
-# %bb.290:
-	cmp	edi, 3
-	jne	.LBB0_825
-# %bb.291:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.292:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_324
-# %bb.293:
-	xor	esi, esi
-	jmp	.LBB0_329
-.LBB0_156:
-	cmp	edi, 2
-	je	.LBB0_179
-# %bb.157:
-	cmp	edi, 3
-	jne	.LBB0_825
-# %bb.158:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.159:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_191
-# %bb.160:
-	xor	esi, esi
-	jmp	.LBB0_196
-.LBB0_422:
-	cmp	edi, 2
-	je	.LBB0_445
-# %bb.423:
-	cmp	edi, 3
-	jne	.LBB0_825
-# %bb.424:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.425:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_457
-# %bb.426:
-	xor	esi, esi
-	jmp	.LBB0_462
-.LBB0_560:
-	cmp	edi, 7
-	je	.LBB0_635
-# %bb.561:
-	cmp	edi, 8
-	jne	.LBB0_825
-# %bb.562:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.563:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_647
-# %bb.564:
-	xor	esi, esi
-	jmp	.LBB0_652
-.LBB0_696:
-	cmp	edi, 7
-	je	.LBB0_771
-# %bb.697:
-	cmp	edi, 8
-	jne	.LBB0_825
-# %bb.698:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.699:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_783
-# %bb.700:
-	xor	esi, esi
-	jmp	.LBB0_788
-.LBB0_35:
-	cmp	edi, 7
-	je	.LBB0_100
-# %bb.36:
-	cmp	edi, 8
-	jne	.LBB0_825
-# %bb.37:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.38:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_112
-# %bb.39:
-	xor	esi, esi
-	jmp	.LBB0_117
-.LBB0_301:
-	cmp	edi, 7
-	je	.LBB0_366
-# %bb.302:
-	cmp	edi, 8
-	jne	.LBB0_825
-# %bb.303:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.304:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_378
-# %bb.305:
-	xor	esi, esi
-	jmp	.LBB0_383
-.LBB0_168:
-	cmp	edi, 7
-	je	.LBB0_233
-# %bb.169:
-	cmp	edi, 8
-	jne	.LBB0_825
-# %bb.170:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.171:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_245
-# %bb.172:
-	xor	esi, esi
-	jmp	.LBB0_250
-.LBB0_434:
-	cmp	edi, 7
-	je	.LBB0_499
-# %bb.435:
-	cmp	edi, 8
-	jne	.LBB0_825
-# %bb.436:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.437:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_511
-# %bb.438:
-	xor	esi, esi
-	jmp	.LBB0_516
-.LBB0_602:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.603:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_605
-# %bb.604:
-	xor	esi, esi
-.LBB0_610:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_612
-.LBB0_611:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_611
-.LBB0_612:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_613:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_613
-	jmp	.LBB0_825
-.LBB0_614:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.615:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_617
-# %bb.616:
-	xor	esi, esi
-.LBB0_622:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_624
-.LBB0_623:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_623
-.LBB0_624:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_625:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_625
-	jmp	.LBB0_825
-.LBB0_738:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.739:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_741
-# %bb.740:
-	xor	esi, esi
-.LBB0_746:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_748
-.LBB0_747:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_747
-.LBB0_748:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_749:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_749
-	jmp	.LBB0_825
-.LBB0_750:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.751:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_753
-# %bb.752:
-	xor	esi, esi
-.LBB0_758:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_760
-.LBB0_759:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_759
-.LBB0_760:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_761:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_761
-	jmp	.LBB0_825
-.LBB0_67:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.68:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_70
-# %bb.69:
-	xor	esi, esi
-	jmp	.LBB0_75
-.LBB0_79:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.80:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_82
-# %bb.81:
-	xor	esi, esi
-	jmp	.LBB0_87
-.LBB0_333:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.334:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_336
-# %bb.335:
-	xor	esi, esi
-.LBB0_341:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_343
-.LBB0_342:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_342
-.LBB0_343:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_344:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_344
-	jmp	.LBB0_825
-.LBB0_345:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.346:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_348
-# %bb.347:
-	xor	esi, esi
-.LBB0_353:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_355
-.LBB0_354:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_354
-.LBB0_355:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_356:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_356
-	jmp	.LBB0_825
-.LBB0_200:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.201:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_203
-# %bb.202:
-	xor	esi, esi
-	jmp	.LBB0_208
-.LBB0_212:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.213:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_215
-# %bb.214:
-	xor	esi, esi
-	jmp	.LBB0_220
-.LBB0_466:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.467:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_469
-# %bb.468:
-	xor	esi, esi
-.LBB0_474:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_476
-.LBB0_475:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_475
-.LBB0_476:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_477:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_477
-	jmp	.LBB0_825
-.LBB0_478:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.479:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_481
-# %bb.480:
-	xor	esi, esi
-.LBB0_486:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_488
-.LBB0_487:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_487
-.LBB0_488:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_489:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_489
-	jmp	.LBB0_825
-.LBB0_656:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.657:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_659
-# %bb.658:
-	xor	esi, esi
-.LBB0_664:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_666
-.LBB0_665:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	imul	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_665
-.LBB0_666:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_667:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	imul	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	imul	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	imul	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	imul	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_667
-	jmp	.LBB0_825
-.LBB0_668:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.669:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_671
-# %bb.670:
-	xor	esi, esi
-.LBB0_676:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_678
-.LBB0_677:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_677
-.LBB0_678:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_679:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_679
-	jmp	.LBB0_825
-.LBB0_792:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.793:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_795
-# %bb.794:
-	xor	esi, esi
-.LBB0_800:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_802
-.LBB0_801:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	imul	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_801
-.LBB0_802:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_803:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	imul	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	imul	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	imul	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	imul	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_803
-	jmp	.LBB0_825
-.LBB0_804:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.805:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_807
-# %bb.806:
-	xor	esi, esi
-.LBB0_812:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_814
-.LBB0_813:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_813
-.LBB0_814:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_815:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_815
-	jmp	.LBB0_825
-.LBB0_121:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.122:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_124
-# %bb.123:
-	xor	esi, esi
-	jmp	.LBB0_129
-.LBB0_133:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.134:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_136
-# %bb.135:
-	xor	esi, esi
-	jmp	.LBB0_141
-.LBB0_387:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.388:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_390
-# %bb.389:
-	xor	esi, esi
-.LBB0_395:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_397
-.LBB0_396:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	sub	rdi, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_396
-.LBB0_397:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_398:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_398
-	jmp	.LBB0_825
-.LBB0_399:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.400:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_402
-# %bb.401:
-	xor	esi, esi
-.LBB0_407:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_409
-.LBB0_408:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_408
-.LBB0_409:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_410:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_410
-	jmp	.LBB0_825
-.LBB0_254:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.255:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_257
-# %bb.256:
-	xor	esi, esi
-	jmp	.LBB0_262
-.LBB0_266:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.267:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_269
-# %bb.268:
-	xor	esi, esi
-	jmp	.LBB0_274
-.LBB0_520:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.521:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_523
-# %bb.522:
-	xor	esi, esi
-.LBB0_528:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_530
-.LBB0_529:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	sub	rdi, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_529
-.LBB0_530:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_531:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_531
-	jmp	.LBB0_825
-.LBB0_532:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.533:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_535
-# %bb.534:
-	xor	esi, esi
-.LBB0_540:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_542
-.LBB0_541:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_541
-.LBB0_542:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_543:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_543
-	jmp	.LBB0_825
-.LBB0_571:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.572:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_574
-# %bb.573:
-	xor	edi, edi
-	jmp	.LBB0_584
-.LBB0_707:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.708:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_710
-# %bb.709:
-	xor	edi, edi
-	jmp	.LBB0_720
-.LBB0_46:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.47:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_49
-# %bb.48:
-	xor	esi, esi
-	jmp	.LBB0_54
-.LBB0_312:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.313:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_315
-# %bb.314:
-	xor	esi, esi
-	jmp	.LBB0_320
-.LBB0_179:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.180:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_182
-# %bb.181:
-	xor	esi, esi
-	jmp	.LBB0_187
-.LBB0_445:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.446:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_448
-# %bb.447:
-	xor	esi, esi
-	jmp	.LBB0_453
-.LBB0_635:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.636:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_638
-# %bb.637:
-	xor	esi, esi
-	jmp	.LBB0_643
-.LBB0_771:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.772:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_774
-# %bb.773:
-	xor	esi, esi
-	jmp	.LBB0_779
-.LBB0_100:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.101:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_103
-# %bb.102:
-	xor	esi, esi
-	jmp	.LBB0_108
-.LBB0_366:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.367:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_369
-# %bb.368:
-	xor	esi, esi
-	jmp	.LBB0_374
-.LBB0_233:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.234:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_236
-# %bb.235:
-	xor	esi, esi
-	jmp	.LBB0_241
-.LBB0_499:
-	test	r9d, r9d
-	jle	.LBB0_825
-# %bb.500:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_502
-# %bb.501:
-	xor	esi, esi
-	jmp	.LBB0_507
-.LBB0_91:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_96
-# %bb.92:
-	and	al, dil
-	jne	.LBB0_96
-# %bb.93:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_94:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_94
-# %bb.95:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_96:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_98
-.LBB0_97:                               # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	add	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_97
-.LBB0_98:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_99:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_99
-	jmp	.LBB0_825
-.LBB0_224:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_229
-# %bb.225:
-	and	al, dil
-	jne	.LBB0_229
-# %bb.226:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_227:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_227
-# %bb.228:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_229:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_231
-.LBB0_230:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	add	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_230
-.LBB0_231:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_232:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_232
-	jmp	.LBB0_825
-.LBB0_145:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_150
-# %bb.146:
-	and	al, dil
-	jne	.LBB0_150
-# %bb.147:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_148:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_148
-# %bb.149:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_150:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_152
-.LBB0_151:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_151
-.LBB0_152:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_153:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_153
-	jmp	.LBB0_825
-.LBB0_278:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_283
-# %bb.279:
-	and	al, dil
-	jne	.LBB0_283
-# %bb.280:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_281:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_281
-# %bb.282:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_283:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_285
-.LBB0_284:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_284
-.LBB0_285:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_286:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_286
-	jmp	.LBB0_825
-.LBB0_588:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_598
-# %bb.589:
-	and	al, sil
-	jne	.LBB0_598
-# %bb.590:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB0_592
-# %bb.591:
-	xor	esi, esi
-	jmp	.LBB0_594
-.LBB0_724:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_734
-# %bb.725:
-	and	al, sil
-	jne	.LBB0_734
-# %bb.726:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB0_728
-# %bb.727:
-	xor	esi, esi
-	jmp	.LBB0_730
-.LBB0_58:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_63
-# %bb.59:
-	and	al, dil
-	jne	.LBB0_63
-# %bb.60:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_61:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_61
-# %bb.62:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_63:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_65
-.LBB0_64:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_64
-.LBB0_65:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_66:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_66
-	jmp	.LBB0_825
-.LBB0_324:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_329
-# %bb.325:
-	and	al, dil
-	jne	.LBB0_329
-# %bb.326:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_327:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_327
-# %bb.328:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_329:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_331
-.LBB0_330:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_330
-.LBB0_331:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_332:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_332
-	jmp	.LBB0_825
-.LBB0_191:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_196
-# %bb.192:
-	and	al, dil
-	jne	.LBB0_196
-# %bb.193:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_194:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_194
-# %bb.195:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_196:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_198
-.LBB0_197:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_197
-.LBB0_198:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_199:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_199
-	jmp	.LBB0_825
-.LBB0_457:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_462
-# %bb.458:
-	and	al, dil
-	jne	.LBB0_462
-# %bb.459:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_460:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_460
-# %bb.461:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_462:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_464
-.LBB0_463:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_463
-.LBB0_464:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_465:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_465
-	jmp	.LBB0_825
-.LBB0_647:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_652
-# %bb.648:
-	and	al, dil
-	jne	.LBB0_652
-# %bb.649:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_650:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rdi + 96]
-	vpsrlq	ymm8, ymm4, 32
-	vpmuludq	ymm8, ymm8, ymm1
-	vpsrlq	ymm9, ymm1, 32
-	vpmuludq	ymm9, ymm9, ymm4
-	vpaddq	ymm8, ymm9, ymm8
-	vpsllq	ymm8, ymm8, 32
-	vpmuludq	ymm1, ymm4, ymm1
-	vpaddq	ymm1, ymm8, ymm1
-	vpsrlq	ymm4, ymm5, 32
-	vpmuludq	ymm4, ymm4, ymm2
-	vpsrlq	ymm8, ymm2, 32
-	vpmuludq	ymm8, ymm8, ymm5
-	vpaddq	ymm4, ymm8, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm2, ymm5, ymm2
-	vpaddq	ymm2, ymm2, ymm4
-	vpsrlq	ymm4, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm3
-	vpsrlq	ymm5, ymm3, 32
-	vpmuludq	ymm5, ymm6, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm3, ymm6, ymm3
-	vpaddq	ymm3, ymm3, ymm4
-	vpsrlq	ymm4, ymm7, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpsrlq	ymm5, ymm0, 32
-	vpmuludq	ymm5, ymm7, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm0, ymm7, ymm0
-	vpaddq	ymm0, ymm0, ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_650
-# %bb.651:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_652:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_654
-.LBB0_653:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	imul	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_653
-.LBB0_654:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_655:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	imul	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	imul	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	imul	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	imul	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_655
-	jmp	.LBB0_825
-.LBB0_783:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_788
-# %bb.784:
-	and	al, dil
-	jne	.LBB0_788
-# %bb.785:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_786:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rdi + 96]
-	vpsrlq	ymm8, ymm4, 32
-	vpmuludq	ymm8, ymm8, ymm1
-	vpsrlq	ymm9, ymm1, 32
-	vpmuludq	ymm9, ymm9, ymm4
-	vpaddq	ymm8, ymm9, ymm8
-	vpsllq	ymm8, ymm8, 32
-	vpmuludq	ymm1, ymm4, ymm1
-	vpaddq	ymm1, ymm8, ymm1
-	vpsrlq	ymm4, ymm5, 32
-	vpmuludq	ymm4, ymm4, ymm2
-	vpsrlq	ymm8, ymm2, 32
-	vpmuludq	ymm8, ymm8, ymm5
-	vpaddq	ymm4, ymm8, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm2, ymm5, ymm2
-	vpaddq	ymm2, ymm2, ymm4
-	vpsrlq	ymm4, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm3
-	vpsrlq	ymm5, ymm3, 32
-	vpmuludq	ymm5, ymm6, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm3, ymm6, ymm3
-	vpaddq	ymm3, ymm3, ymm4
-	vpsrlq	ymm4, ymm7, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpsrlq	ymm5, ymm0, 32
-	vpmuludq	ymm5, ymm7, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm0, ymm7, ymm0
-	vpaddq	ymm0, ymm0, ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_786
-# %bb.787:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_788:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_790
-.LBB0_789:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	imul	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_789
-.LBB0_790:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_791:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	imul	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	imul	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	imul	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	imul	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_791
-	jmp	.LBB0_825
-.LBB0_112:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_117
-# %bb.113:
-	and	al, dil
-	jne	.LBB0_117
-# %bb.114:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_115:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_115
-# %bb.116:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_117:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_119
-.LBB0_118:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	add	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_118
-.LBB0_119:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_120:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_120
-	jmp	.LBB0_825
-.LBB0_378:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_383
-# %bb.379:
-	and	al, dil
-	jne	.LBB0_383
-# %bb.380:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_381:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_381
-# %bb.382:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_383:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_385
-.LBB0_384:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	sub	rdi, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_384
-.LBB0_385:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_386:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_386
-	jmp	.LBB0_825
-.LBB0_245:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_250
-# %bb.246:
-	and	al, dil
-	jne	.LBB0_250
-# %bb.247:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_248:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_248
-# %bb.249:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_250:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_252
-.LBB0_251:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	add	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_251
-.LBB0_252:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_253:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_253
-	jmp	.LBB0_825
-.LBB0_511:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_516
-# %bb.512:
-	and	al, dil
-	jne	.LBB0_516
-# %bb.513:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_514:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_514
-# %bb.515:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_516:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_518
-.LBB0_517:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	sub	rdi, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_517
-.LBB0_518:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_519:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_519
-	jmp	.LBB0_825
-.LBB0_70:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_75
-# %bb.71:
-	and	al, dil
-	jne	.LBB0_75
-# %bb.72:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_73:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_73
-# %bb.74:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_75:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_77
-.LBB0_76:                               # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_76
-.LBB0_77:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_78:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_78
-	jmp	.LBB0_825
-.LBB0_82:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_87
-# %bb.83:
-	and	al, dil
-	jne	.LBB0_87
-# %bb.84:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_85:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_85
-# %bb.86:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_87:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_89
-.LBB0_88:                               # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_88
-.LBB0_89:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_90:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_90
-	jmp	.LBB0_825
-.LBB0_203:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_208
-# %bb.204:
-	and	al, dil
-	jne	.LBB0_208
-# %bb.205:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_206:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_206
-# %bb.207:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_208:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_210
-.LBB0_209:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_209
-.LBB0_210:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_211:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_211
-	jmp	.LBB0_825
-.LBB0_215:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_220
-# %bb.216:
-	and	al, dil
-	jne	.LBB0_220
-# %bb.217:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_218:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_218
-# %bb.219:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_220:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_222
-.LBB0_221:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_221
-.LBB0_222:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_223:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_223
-	jmp	.LBB0_825
-.LBB0_124:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_129
-# %bb.125:
-	and	al, dil
-	jne	.LBB0_129
-# %bb.126:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_127:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_127
-# %bb.128:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_129:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_131
-.LBB0_130:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	add	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_130
-.LBB0_131:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_132:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_132
-	jmp	.LBB0_825
-.LBB0_136:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_141
-# %bb.137:
-	and	al, dil
-	jne	.LBB0_141
-# %bb.138:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_139:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_139
-# %bb.140:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_141:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_143
-.LBB0_142:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_142
-.LBB0_143:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_144:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_144
-	jmp	.LBB0_825
-.LBB0_257:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_262
-# %bb.258:
-	and	al, dil
-	jne	.LBB0_262
-# %bb.259:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_260:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_260
-# %bb.261:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_262:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_264
-.LBB0_263:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	add	rdi, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_263
-.LBB0_264:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_265:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_265
-	jmp	.LBB0_825
-.LBB0_269:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_274
-# %bb.270:
-	and	al, dil
-	jne	.LBB0_274
-# %bb.271:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_272:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_272
-# %bb.273:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_274:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_276
-.LBB0_275:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_275
-.LBB0_276:
-	cmp	rdi, 3
-	jb	.LBB0_825
-.LBB0_277:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_277
-	jmp	.LBB0_825
-.LBB0_574:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_584
-# %bb.575:
-	and	al, sil
-	jne	.LBB0_584
-# %bb.576:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB0_578
-# %bb.577:
-	xor	esi, esi
-	jmp	.LBB0_580
-.LBB0_710:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_720
-# %bb.711:
-	and	al, sil
-	jne	.LBB0_720
-# %bb.712:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB0_714
-# %bb.713:
-	xor	esi, esi
-	jmp	.LBB0_716
-.LBB0_49:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_54
-# %bb.50:
-	and	al, dil
-	jne	.LBB0_54
-# %bb.51:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_52:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_52
-# %bb.53:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_54:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_56
-.LBB0_55:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_55
-.LBB0_56:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_57:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_57
-	jmp	.LBB0_825
-.LBB0_315:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_320
-# %bb.316:
-	and	al, dil
-	jne	.LBB0_320
-# %bb.317:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_318:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_318
-# %bb.319:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_320:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_322
-.LBB0_321:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_321
-.LBB0_322:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_323:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_323
-	jmp	.LBB0_825
-.LBB0_182:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_187
-# %bb.183:
-	and	al, dil
-	jne	.LBB0_187
-# %bb.184:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_185:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_185
-# %bb.186:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_187:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_189
-.LBB0_188:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_188
-.LBB0_189:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_190:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_190
-	jmp	.LBB0_825
-.LBB0_448:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_453
-# %bb.449:
-	and	al, dil
-	jne	.LBB0_453
-# %bb.450:
-	mov	esi, r10d
-	and	esi, -128
-	xor	edi, edi
-.LBB0_451:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB0_451
-# %bb.452:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_453:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_455
-.LBB0_454:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_454
-.LBB0_455:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_456:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_456
-	jmp	.LBB0_825
-.LBB0_638:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_643
-# %bb.639:
-	and	al, dil
-	jne	.LBB0_643
-# %bb.640:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_641:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_641
-# %bb.642:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_643:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_645
-.LBB0_644:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	imul	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_644
-.LBB0_645:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_646:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_646
-	jmp	.LBB0_825
-.LBB0_774:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_779
-# %bb.775:
-	and	al, dil
-	jne	.LBB0_779
-# %bb.776:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_777:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_777
-# %bb.778:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_779:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_781
-.LBB0_780:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	imul	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_780
-.LBB0_781:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_782:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_782
-	jmp	.LBB0_825
-.LBB0_103:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_108
-# %bb.104:
-	and	al, dil
-	jne	.LBB0_108
-# %bb.105:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_106:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_106
-# %bb.107:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_108:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_110
-.LBB0_109:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	add	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_109
-.LBB0_110:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_111:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_111
-	jmp	.LBB0_825
-.LBB0_369:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_374
-# %bb.370:
-	and	al, dil
-	jne	.LBB0_374
-# %bb.371:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_372:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_372
-# %bb.373:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_374:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_376
-.LBB0_375:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	sub	edi, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_375
-.LBB0_376:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_377:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_377
-	jmp	.LBB0_825
-.LBB0_236:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_241
-# %bb.237:
-	and	al, dil
-	jne	.LBB0_241
-# %bb.238:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_239:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_239
-# %bb.240:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_241:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_243
-.LBB0_242:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	add	edi, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_242
-.LBB0_243:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_244:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_244
-	jmp	.LBB0_825
-.LBB0_502:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_507
-# %bb.503:
-	and	al, dil
-	jne	.LBB0_507
-# %bb.504:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_505:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_505
-# %bb.506:
-	cmp	rsi, r10
-	je	.LBB0_825
-.LBB0_507:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_509
-.LBB0_508:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	sub	edi, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_508
-.LBB0_509:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_510:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_510
-	jmp	.LBB0_825
-.LBB0_626:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_631
-# %bb.627:
-	and	al, dil
-	jne	.LBB0_631
-# %bb.628:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_629:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_629
-# %bb.630:
-	cmp	rsi, r10
-	jne	.LBB0_631
-	jmp	.LBB0_825
-.LBB0_762:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_767
-# %bb.763:
-	and	al, dil
-	jne	.LBB0_767
-# %bb.764:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_765:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_765
-# %bb.766:
-	cmp	rsi, r10
-	jne	.LBB0_767
-	jmp	.LBB0_825
-.LBB0_357:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_362
-# %bb.358:
-	and	al, dil
-	jne	.LBB0_362
-# %bb.359:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_360:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_360
-# %bb.361:
-	cmp	rsi, r10
-	jne	.LBB0_362
-	jmp	.LBB0_825
-.LBB0_490:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_495
-# %bb.491:
-	and	al, dil
-	jne	.LBB0_495
-# %bb.492:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_493:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_493
-# %bb.494:
-	cmp	rsi, r10
-	jne	.LBB0_495
-	jmp	.LBB0_825
-.LBB0_680:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_685
-# %bb.681:
-	and	al, dil
-	jne	.LBB0_685
-# %bb.682:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_683:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmulpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vmulpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmulpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmulpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_683
-# %bb.684:
-	cmp	rsi, r10
-	jne	.LBB0_685
-	jmp	.LBB0_825
-.LBB0_816:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_821
-# %bb.817:
-	and	al, dil
-	jne	.LBB0_821
-# %bb.818:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_819:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmulpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vmulpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmulpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmulpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_819
-# %bb.820:
-	cmp	rsi, r10
-	jne	.LBB0_821
-	jmp	.LBB0_825
-.LBB0_411:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_416
-# %bb.412:
-	and	al, dil
-	jne	.LBB0_416
-# %bb.413:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_414:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vsubpd	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_414
-# %bb.415:
-	cmp	rsi, r10
-	jne	.LBB0_416
-	jmp	.LBB0_825
-.LBB0_544:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_549
-# %bb.545:
-	and	al, dil
-	jne	.LBB0_549
-# %bb.546:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_547:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vsubpd	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_547
-# %bb.548:
-	cmp	rsi, r10
-	jne	.LBB0_549
-	jmp	.LBB0_825
-.LBB0_605:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_610
-# %bb.606:
-	and	al, dil
-	jne	.LBB0_610
-# %bb.607:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_608:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpmullw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_608
-# %bb.609:
-	cmp	rsi, r10
-	jne	.LBB0_610
-	jmp	.LBB0_825
-.LBB0_617:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_622
-# %bb.618:
-	and	al, dil
-	jne	.LBB0_622
-# %bb.619:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_620:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpmullw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_620
-# %bb.621:
-	cmp	rsi, r10
-	jne	.LBB0_622
-	jmp	.LBB0_825
-.LBB0_741:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_746
-# %bb.742:
-	and	al, dil
-	jne	.LBB0_746
-# %bb.743:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_744:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpmullw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_744
-# %bb.745:
-	cmp	rsi, r10
-	jne	.LBB0_746
-	jmp	.LBB0_825
-.LBB0_753:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_758
-# %bb.754:
-	and	al, dil
-	jne	.LBB0_758
-# %bb.755:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_756:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpmullw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_756
-# %bb.757:
-	cmp	rsi, r10
-	jne	.LBB0_758
-	jmp	.LBB0_825
-.LBB0_336:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_341
-# %bb.337:
-	and	al, dil
-	jne	.LBB0_341
-# %bb.338:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_339:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_339
-# %bb.340:
-	cmp	rsi, r10
-	jne	.LBB0_341
-	jmp	.LBB0_825
-.LBB0_348:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_353
-# %bb.349:
-	and	al, dil
-	jne	.LBB0_353
-# %bb.350:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_351:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_351
-# %bb.352:
-	cmp	rsi, r10
-	jne	.LBB0_353
-	jmp	.LBB0_825
-.LBB0_469:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_474
-# %bb.470:
-	and	al, dil
-	jne	.LBB0_474
-# %bb.471:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_472:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_472
-# %bb.473:
-	cmp	rsi, r10
-	jne	.LBB0_474
-	jmp	.LBB0_825
-.LBB0_481:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_486
-# %bb.482:
-	and	al, dil
-	jne	.LBB0_486
-# %bb.483:
-	mov	esi, r10d
-	and	esi, -64
-	xor	edi, edi
-.LBB0_484:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_484
-# %bb.485:
-	cmp	rsi, r10
-	jne	.LBB0_486
-	jmp	.LBB0_825
-.LBB0_659:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_664
-# %bb.660:
-	and	al, dil
-	jne	.LBB0_664
-# %bb.661:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_662:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rdi + 96]
-	vpsrlq	ymm8, ymm4, 32
-	vpmuludq	ymm8, ymm8, ymm1
-	vpsrlq	ymm9, ymm1, 32
-	vpmuludq	ymm9, ymm9, ymm4
-	vpaddq	ymm8, ymm9, ymm8
-	vpsllq	ymm8, ymm8, 32
-	vpmuludq	ymm1, ymm4, ymm1
-	vpaddq	ymm1, ymm8, ymm1
-	vpsrlq	ymm4, ymm5, 32
-	vpmuludq	ymm4, ymm4, ymm2
-	vpsrlq	ymm8, ymm2, 32
-	vpmuludq	ymm8, ymm8, ymm5
-	vpaddq	ymm4, ymm8, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm2, ymm5, ymm2
-	vpaddq	ymm2, ymm2, ymm4
-	vpsrlq	ymm4, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm3
-	vpsrlq	ymm5, ymm3, 32
-	vpmuludq	ymm5, ymm6, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm3, ymm6, ymm3
-	vpaddq	ymm3, ymm3, ymm4
-	vpsrlq	ymm4, ymm7, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpsrlq	ymm5, ymm0, 32
-	vpmuludq	ymm5, ymm7, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm0, ymm7, ymm0
-	vpaddq	ymm0, ymm0, ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_662
-# %bb.663:
-	cmp	rsi, r10
-	jne	.LBB0_664
-	jmp	.LBB0_825
-.LBB0_671:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_676
-# %bb.672:
-	and	al, dil
-	jne	.LBB0_676
-# %bb.673:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_674:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmulps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vmulps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmulps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmulps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_674
-# %bb.675:
-	cmp	rsi, r10
-	jne	.LBB0_676
-	jmp	.LBB0_825
-.LBB0_795:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_800
-# %bb.796:
-	and	al, dil
-	jne	.LBB0_800
-# %bb.797:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_798:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rdi + 96]
-	vpsrlq	ymm8, ymm4, 32
-	vpmuludq	ymm8, ymm8, ymm1
-	vpsrlq	ymm9, ymm1, 32
-	vpmuludq	ymm9, ymm9, ymm4
-	vpaddq	ymm8, ymm9, ymm8
-	vpsllq	ymm8, ymm8, 32
-	vpmuludq	ymm1, ymm4, ymm1
-	vpaddq	ymm1, ymm8, ymm1
-	vpsrlq	ymm4, ymm5, 32
-	vpmuludq	ymm4, ymm4, ymm2
-	vpsrlq	ymm8, ymm2, 32
-	vpmuludq	ymm8, ymm8, ymm5
-	vpaddq	ymm4, ymm8, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm2, ymm5, ymm2
-	vpaddq	ymm2, ymm2, ymm4
-	vpsrlq	ymm4, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm3
-	vpsrlq	ymm5, ymm3, 32
-	vpmuludq	ymm5, ymm6, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm3, ymm6, ymm3
-	vpaddq	ymm3, ymm3, ymm4
-	vpsrlq	ymm4, ymm7, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpsrlq	ymm5, ymm0, 32
-	vpmuludq	ymm5, ymm7, ymm5
-	vpaddq	ymm4, ymm5, ymm4
-	vpsllq	ymm4, ymm4, 32
-	vpmuludq	ymm0, ymm7, ymm0
-	vpaddq	ymm0, ymm0, ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_798
-# %bb.799:
-	cmp	rsi, r10
-	jne	.LBB0_800
-	jmp	.LBB0_825
-.LBB0_807:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_812
-# %bb.808:
-	and	al, dil
-	jne	.LBB0_812
-# %bb.809:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_810:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmulps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vmulps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmulps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmulps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_810
-# %bb.811:
-	cmp	rsi, r10
-	jne	.LBB0_812
-	jmp	.LBB0_825
-.LBB0_390:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_395
-# %bb.391:
-	and	al, dil
-	jne	.LBB0_395
-# %bb.392:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_393:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_393
-# %bb.394:
-	cmp	rsi, r10
-	jne	.LBB0_395
-	jmp	.LBB0_825
-.LBB0_402:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_407
-# %bb.403:
-	and	al, dil
-	jne	.LBB0_407
-# %bb.404:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_405:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_405
-# %bb.406:
-	cmp	rsi, r10
-	jne	.LBB0_407
-	jmp	.LBB0_825
-.LBB0_523:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_528
-# %bb.524:
-	and	al, dil
-	jne	.LBB0_528
-# %bb.525:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-.LBB0_526:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB0_526
-# %bb.527:
-	cmp	rsi, r10
-	jne	.LBB0_528
-	jmp	.LBB0_825
-.LBB0_535:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_540
-# %bb.536:
-	and	al, dil
-	jne	.LBB0_540
-# %bb.537:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_538:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB0_538
-# %bb.539:
-	cmp	rsi, r10
-	jne	.LBB0_540
-	jmp	.LBB0_825
-.LBB0_592:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_593:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 64]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 96]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm1
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB0_593
-.LBB0_594:
-	test	r9, r9
-	je	.LBB0_597
-# %bb.595:
-	neg	r9
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_596:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	add	rsi, 32
-	inc	r9
-	jne	.LBB0_596
-.LBB0_597:
-	cmp	rdi, r10
-	je	.LBB0_825
-.LBB0_598:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_600
-.LBB0_599:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_599
-.LBB0_600:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_601:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_601
-	jmp	.LBB0_825
-.LBB0_728:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_729:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 64]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 96]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm1
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB0_729
-.LBB0_730:
-	test	r9, r9
-	je	.LBB0_733
-# %bb.731:
-	neg	r9
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_732:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	add	rsi, 32
-	inc	r9
-	jne	.LBB0_732
-.LBB0_733:
-	cmp	rdi, r10
-	je	.LBB0_825
-.LBB0_734:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_736
-.LBB0_735:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_735
-.LBB0_736:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_737:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_737
-	jmp	.LBB0_825
-.LBB0_578:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_579:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 64]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 96]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm1
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB0_579
-.LBB0_580:
-	test	r9, r9
-	je	.LBB0_583
-# %bb.581:
-	neg	r9
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_582:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	add	rsi, 32
-	inc	r9
-	jne	.LBB0_582
-.LBB0_583:
-	cmp	rdi, r10
-	je	.LBB0_825
-.LBB0_584:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_586
-.LBB0_585:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_585
-.LBB0_586:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_587:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_587
-	jmp	.LBB0_825
-.LBB0_714:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_715:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 64]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 96]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm1
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB0_715
-.LBB0_716:
-	test	r9, r9
-	je	.LBB0_719
-# %bb.717:
-	neg	r9
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_718:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
-	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm3, ymm4, ymm3
-	vpand	ymm3, ymm3, ymm0
-	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm1, ymm2, ymm1
-	vpand	ymm1, ymm1, ymm0
-	vpackuswb	ymm1, ymm1, ymm3
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	add	rsi, 32
-	inc	r9
-	jne	.LBB0_718
-.LBB0_719:
-	cmp	rdi, r10
-	je	.LBB0_825
-.LBB0_720:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_722
-.LBB0_721:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_721
-.LBB0_722:
-	cmp	r9, 3
-	jb	.LBB0_825
-.LBB0_723:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_723
-.LBB0_825:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end0:
-	.size	arithmetic_binary_avx2, .Lfunc_end0-arithmetic_binary_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function arithmetic_arr_scalar_avx2
-.LCPI1_0:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	arithmetic_arr_scalar_avx2
-	.p2align	4, 0x90
-	.type	arithmetic_arr_scalar_avx2,@function
-arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 20
-	jg	.LBB1_12
-# %bb.1:
-	test	sil, sil
-	je	.LBB1_23
-# %bb.2:
-	cmp	sil, 1
-	je	.LBB1_31
-# %bb.3:
-	cmp	sil, 2
-	jne	.LBB1_1109
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB1_55
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB1_97
-# %bb.6:
-	cmp	edi, 4
-	je	.LBB1_157
-# %bb.7:
-	cmp	edi, 5
-	je	.LBB1_160
-# %bb.8:
-	cmp	edi, 6
-	jne	.LBB1_1109
-# %bb.9:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.10:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_11
-# %bb.265:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_445
-# %bb.266:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_445
-.LBB1_11:
-	xor	esi, esi
-.LBB1_665:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_667
-.LBB1_666:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_666
-.LBB1_667:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_668:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_668
-	jmp	.LBB1_1109
-.LBB1_12:
-	cmp	sil, 21
-	je	.LBB1_39
-# %bb.13:
-	cmp	sil, 22
-	je	.LBB1_47
-# %bb.14:
-	cmp	sil, 23
-	jne	.LBB1_1109
-# %bb.15:
-	cmp	edi, 6
-	jg	.LBB1_62
-# %bb.16:
-	cmp	edi, 3
-	jle	.LBB1_102
-# %bb.17:
-	cmp	edi, 4
-	je	.LBB1_163
-# %bb.18:
-	cmp	edi, 5
-	je	.LBB1_166
-# %bb.19:
-	cmp	edi, 6
-	jne	.LBB1_1109
-# %bb.20:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.21:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_22
-# %bb.268:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_448
-# %bb.269:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_448
-.LBB1_22:
-	xor	esi, esi
-.LBB1_673:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_675
-.LBB1_674:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_674
-.LBB1_675:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_676:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_676
-	jmp	.LBB1_1109
-.LBB1_23:
-	cmp	edi, 6
-	jg	.LBB1_69
-# %bb.24:
-	cmp	edi, 3
-	jle	.LBB1_107
-# %bb.25:
-	cmp	edi, 4
-	je	.LBB1_169
-# %bb.26:
-	cmp	edi, 5
-	je	.LBB1_172
-# %bb.27:
-	cmp	edi, 6
-	jne	.LBB1_1109
-# %bb.28:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.29:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_30
-# %bb.271:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_451
-# %bb.272:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_451
-.LBB1_30:
-	xor	esi, esi
-.LBB1_681:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_683
-.LBB1_682:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_682
-.LBB1_683:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_684:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_684
-	jmp	.LBB1_1109
-.LBB1_31:
-	cmp	edi, 6
-	jg	.LBB1_76
-# %bb.32:
-	cmp	edi, 3
-	jle	.LBB1_112
-# %bb.33:
-	cmp	edi, 4
-	je	.LBB1_175
-# %bb.34:
-	cmp	edi, 5
-	je	.LBB1_178
-# %bb.35:
-	cmp	edi, 6
-	jne	.LBB1_1109
-# %bb.36:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.37:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_38
-# %bb.274:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_454
-# %bb.275:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_454
-.LBB1_38:
-	xor	esi, esi
-.LBB1_689:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_691
-.LBB1_690:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_690
-.LBB1_691:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_692:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_692
-	jmp	.LBB1_1109
-.LBB1_39:
-	cmp	edi, 6
-	jg	.LBB1_83
-# %bb.40:
-	cmp	edi, 3
-	jle	.LBB1_117
-# %bb.41:
-	cmp	edi, 4
-	je	.LBB1_181
-# %bb.42:
-	cmp	edi, 5
-	je	.LBB1_184
-# %bb.43:
-	cmp	edi, 6
-	jne	.LBB1_1109
-# %bb.44:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.45:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_46
-# %bb.277:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_457
-# %bb.278:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_457
-.LBB1_46:
-	xor	esi, esi
-.LBB1_697:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_699
-.LBB1_698:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_698
-.LBB1_699:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_700:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_700
-	jmp	.LBB1_1109
-.LBB1_47:
-	cmp	edi, 6
-	jg	.LBB1_90
-# %bb.48:
-	cmp	edi, 3
-	jle	.LBB1_122
-# %bb.49:
-	cmp	edi, 4
-	je	.LBB1_187
-# %bb.50:
-	cmp	edi, 5
-	je	.LBB1_190
-# %bb.51:
-	cmp	edi, 6
-	jne	.LBB1_1109
-# %bb.52:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.53:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_54
-# %bb.280:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_460
-# %bb.281:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_460
-.LBB1_54:
-	xor	esi, esi
-.LBB1_705:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_707
-.LBB1_706:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_706
-.LBB1_707:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_708:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_708
-	jmp	.LBB1_1109
-.LBB1_55:
-	cmp	edi, 8
-	jle	.LBB1_127
-# %bb.56:
-	cmp	edi, 9
-	je	.LBB1_193
-# %bb.57:
-	cmp	edi, 11
-	je	.LBB1_196
-# %bb.58:
-	cmp	edi, 12
-	jne	.LBB1_1109
-# %bb.59:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.60:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB1_61
-# %bb.283:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_463
-# %bb.284:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_463
-.LBB1_61:
-	xor	ecx, ecx
-.LBB1_713:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_715
-.LBB1_714:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_714
-.LBB1_715:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_716:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
-	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
-	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
-	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_716
-	jmp	.LBB1_1109
-.LBB1_62:
-	cmp	edi, 8
-	jle	.LBB1_132
-# %bb.63:
-	cmp	edi, 9
-	je	.LBB1_199
-# %bb.64:
-	cmp	edi, 11
-	je	.LBB1_202
-# %bb.65:
-	cmp	edi, 12
-	jne	.LBB1_1109
-# %bb.66:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.67:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB1_68
-# %bb.286:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_466
-# %bb.287:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_466
-.LBB1_68:
-	xor	ecx, ecx
-.LBB1_721:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_723
-.LBB1_722:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_722
-.LBB1_723:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_724:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
-	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
-	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
-	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_724
-	jmp	.LBB1_1109
-.LBB1_69:
-	cmp	edi, 8
-	jle	.LBB1_137
-# %bb.70:
-	cmp	edi, 9
-	je	.LBB1_205
-# %bb.71:
-	cmp	edi, 11
-	je	.LBB1_208
-# %bb.72:
-	cmp	edi, 12
-	jne	.LBB1_1109
-# %bb.73:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.74:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB1_75
-# %bb.289:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_469
-# %bb.290:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_469
-.LBB1_75:
-	xor	ecx, ecx
-.LBB1_729:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_731
-.LBB1_730:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_730
-.LBB1_731:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_732:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
-	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
-	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
-	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_732
-	jmp	.LBB1_1109
-.LBB1_76:
-	cmp	edi, 8
-	jle	.LBB1_142
-# %bb.77:
-	cmp	edi, 9
-	je	.LBB1_211
-# %bb.78:
-	cmp	edi, 11
-	je	.LBB1_214
-# %bb.79:
-	cmp	edi, 12
-	jne	.LBB1_1109
-# %bb.80:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.81:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB1_82
-# %bb.292:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_472
-# %bb.293:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_472
-.LBB1_82:
-	xor	ecx, ecx
-.LBB1_737:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_739
-.LBB1_738:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_738
-.LBB1_739:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_740:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_740
-	jmp	.LBB1_1109
-.LBB1_83:
-	cmp	edi, 8
-	jle	.LBB1_147
-# %bb.84:
-	cmp	edi, 9
-	je	.LBB1_217
-# %bb.85:
-	cmp	edi, 11
-	je	.LBB1_220
-# %bb.86:
-	cmp	edi, 12
-	jne	.LBB1_1109
-# %bb.87:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.88:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB1_89
-# %bb.295:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_475
-# %bb.296:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_475
-.LBB1_89:
-	xor	ecx, ecx
-.LBB1_745:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_747
-.LBB1_746:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_746
-.LBB1_747:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_748:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
-	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
-	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
-	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_748
-	jmp	.LBB1_1109
-.LBB1_90:
-	cmp	edi, 8
-	jle	.LBB1_152
-# %bb.91:
-	cmp	edi, 9
-	je	.LBB1_223
-# %bb.92:
-	cmp	edi, 11
-	je	.LBB1_226
-# %bb.93:
-	cmp	edi, 12
-	jne	.LBB1_1109
-# %bb.94:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.95:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB1_96
-# %bb.298:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_478
-# %bb.299:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_478
-.LBB1_96:
-	xor	ecx, ecx
-.LBB1_753:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_755
-.LBB1_754:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_754
-.LBB1_755:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_756:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_756
-	jmp	.LBB1_1109
-.LBB1_97:
-	cmp	edi, 2
-	je	.LBB1_229
-# %bb.98:
-	cmp	edi, 3
-	jne	.LBB1_1109
-# %bb.99:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.100:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_101
-# %bb.301:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_481
-# %bb.302:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_481
-.LBB1_101:
-	xor	edi, edi
-.LBB1_627:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_629
-.LBB1_628:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_628
-.LBB1_629:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_630:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_630
-	jmp	.LBB1_1109
-.LBB1_102:
-	cmp	edi, 2
-	je	.LBB1_232
-# %bb.103:
-	cmp	edi, 3
-	jne	.LBB1_1109
-# %bb.104:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.105:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_106
-# %bb.304:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_483
-# %bb.305:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_483
-.LBB1_106:
-	xor	edi, edi
-.LBB1_637:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_639
-.LBB1_638:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_638
-.LBB1_639:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_640:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_640
-	jmp	.LBB1_1109
-.LBB1_107:
-	cmp	edi, 2
-	je	.LBB1_235
-# %bb.108:
-	cmp	edi, 3
-	jne	.LBB1_1109
-# %bb.109:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.110:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_111
-# %bb.307:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_485
-# %bb.308:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_485
-.LBB1_111:
-	xor	esi, esi
-.LBB1_761:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_763
-.LBB1_762:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_762
-.LBB1_763:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_764:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_764
-	jmp	.LBB1_1109
-.LBB1_112:
-	cmp	edi, 2
-	je	.LBB1_238
-# %bb.113:
-	cmp	edi, 3
-	jne	.LBB1_1109
-# %bb.114:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.115:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_116
-# %bb.310:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_488
-# %bb.311:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_488
-.LBB1_116:
-	xor	esi, esi
-.LBB1_769:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_771
-.LBB1_770:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_770
-.LBB1_771:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_772:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_772
-	jmp	.LBB1_1109
-.LBB1_117:
-	cmp	edi, 2
-	je	.LBB1_241
-# %bb.118:
-	cmp	edi, 3
-	jne	.LBB1_1109
-# %bb.119:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.120:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_121
-# %bb.313:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_491
-# %bb.314:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_491
-.LBB1_121:
-	xor	esi, esi
-.LBB1_777:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_779
-.LBB1_778:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_778
-.LBB1_779:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_780:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_780
-	jmp	.LBB1_1109
-.LBB1_122:
-	cmp	edi, 2
-	je	.LBB1_244
-# %bb.123:
-	cmp	edi, 3
-	jne	.LBB1_1109
-# %bb.124:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.125:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_126
-# %bb.316:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_494
-# %bb.317:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_494
-.LBB1_126:
-	xor	esi, esi
-.LBB1_785:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_787
-.LBB1_786:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_786
-.LBB1_787:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_788:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_788
-	jmp	.LBB1_1109
-.LBB1_127:
-	cmp	edi, 7
-	je	.LBB1_247
-# %bb.128:
-	cmp	edi, 8
-	jne	.LBB1_1109
-# %bb.129:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.130:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_131
-# %bb.319:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_497
-# %bb.320:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_497
-.LBB1_131:
-	xor	esi, esi
-.LBB1_793:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_795
-.LBB1_794:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_794
-.LBB1_795:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_796:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_796
-	jmp	.LBB1_1109
-.LBB1_132:
-	cmp	edi, 7
-	je	.LBB1_250
-# %bb.133:
-	cmp	edi, 8
-	jne	.LBB1_1109
-# %bb.134:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.135:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_136
-# %bb.322:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_500
-# %bb.323:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_500
-.LBB1_136:
-	xor	esi, esi
-.LBB1_801:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_803
-.LBB1_802:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_802
-.LBB1_803:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_804:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_804
-	jmp	.LBB1_1109
-.LBB1_137:
-	cmp	edi, 7
-	je	.LBB1_253
-# %bb.138:
-	cmp	edi, 8
-	jne	.LBB1_1109
-# %bb.139:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.140:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_141
-# %bb.325:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_503
-# %bb.326:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_503
-.LBB1_141:
-	xor	esi, esi
-.LBB1_809:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_811
-.LBB1_810:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_810
-.LBB1_811:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_812:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_812
-	jmp	.LBB1_1109
-.LBB1_142:
-	cmp	edi, 7
-	je	.LBB1_256
-# %bb.143:
-	cmp	edi, 8
-	jne	.LBB1_1109
-# %bb.144:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.145:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_146
-# %bb.328:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_506
-# %bb.329:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_506
-.LBB1_146:
-	xor	esi, esi
-.LBB1_817:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_819
-.LBB1_818:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_818
-.LBB1_819:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_820:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_820
-	jmp	.LBB1_1109
-.LBB1_147:
-	cmp	edi, 7
-	je	.LBB1_259
-# %bb.148:
-	cmp	edi, 8
-	jne	.LBB1_1109
-# %bb.149:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.150:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_151
-# %bb.331:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_509
-# %bb.332:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_509
-.LBB1_151:
-	xor	esi, esi
-.LBB1_825:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_827
-.LBB1_826:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_826
-.LBB1_827:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_828:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_828
-	jmp	.LBB1_1109
-.LBB1_152:
-	cmp	edi, 7
-	je	.LBB1_262
-# %bb.153:
-	cmp	edi, 8
-	jne	.LBB1_1109
-# %bb.154:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.155:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_156
-# %bb.334:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_512
-# %bb.335:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_512
-.LBB1_156:
-	xor	esi, esi
-.LBB1_833:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_835
-.LBB1_834:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_834
-.LBB1_835:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_836:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_836
-	jmp	.LBB1_1109
-.LBB1_157:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.158:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_159
-# %bb.337:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_515
-# %bb.338:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_515
-.LBB1_159:
-	xor	esi, esi
-.LBB1_841:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_843
-.LBB1_842:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_842
-.LBB1_843:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_844:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_844
-	jmp	.LBB1_1109
-.LBB1_160:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.161:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_162
-# %bb.340:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_518
-# %bb.341:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_518
-.LBB1_162:
-	xor	esi, esi
-.LBB1_849:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_851
-.LBB1_850:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_850
-.LBB1_851:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_852:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_852
-	jmp	.LBB1_1109
-.LBB1_163:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.164:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_165
-# %bb.343:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_521
-# %bb.344:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_521
-.LBB1_165:
-	xor	esi, esi
-.LBB1_857:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_859
-.LBB1_858:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_858
-.LBB1_859:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_860:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_860
-	jmp	.LBB1_1109
-.LBB1_166:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.167:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_168
-# %bb.346:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_524
-# %bb.347:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_524
-.LBB1_168:
-	xor	esi, esi
-.LBB1_865:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_867
-.LBB1_866:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_866
-.LBB1_867:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_868:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_868
-	jmp	.LBB1_1109
-.LBB1_169:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.170:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_171
-# %bb.349:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_527
-# %bb.350:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_527
-.LBB1_171:
-	xor	esi, esi
-.LBB1_873:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_875
-.LBB1_874:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_874
-.LBB1_875:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_876:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_876
-	jmp	.LBB1_1109
-.LBB1_172:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.173:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_174
-# %bb.352:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_530
-# %bb.353:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_530
-.LBB1_174:
-	xor	esi, esi
-.LBB1_881:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_883
-.LBB1_882:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_882
-.LBB1_883:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_884:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_884
-	jmp	.LBB1_1109
-.LBB1_175:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.176:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_177
-# %bb.355:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_533
-# %bb.356:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_533
-.LBB1_177:
-	xor	esi, esi
-.LBB1_889:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_891
-.LBB1_890:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	edi, eax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_890
-.LBB1_891:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_892:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_892
-	jmp	.LBB1_1109
-.LBB1_178:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.179:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_180
-# %bb.358:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_536
-# %bb.359:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_536
-.LBB1_180:
-	xor	esi, esi
-.LBB1_897:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_899
-.LBB1_898:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	edi, eax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_898
-.LBB1_899:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_900:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_900
-	jmp	.LBB1_1109
-.LBB1_181:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.182:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_183
-# %bb.361:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_539
-# %bb.362:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_539
-.LBB1_183:
-	xor	esi, esi
-.LBB1_905:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_907
-.LBB1_906:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_906
-.LBB1_907:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_908:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_908
-	jmp	.LBB1_1109
-.LBB1_184:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.185:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_186
-# %bb.364:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_542
-# %bb.365:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_542
-.LBB1_186:
-	xor	esi, esi
-.LBB1_913:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_915
-.LBB1_914:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_914
-.LBB1_915:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_916:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_916
-	jmp	.LBB1_1109
-.LBB1_187:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.188:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_189
-# %bb.367:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_545
-# %bb.368:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_545
-.LBB1_189:
-	xor	esi, esi
-.LBB1_921:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_923
-.LBB1_922:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	edi, eax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_922
-.LBB1_923:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_924:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_924
-	jmp	.LBB1_1109
-.LBB1_190:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.191:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_192
-# %bb.370:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_548
-# %bb.371:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_548
-.LBB1_192:
-	xor	esi, esi
-.LBB1_929:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_931
-.LBB1_930:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	edi, eax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_930
-.LBB1_931:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_932:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_932
-	jmp	.LBB1_1109
-.LBB1_193:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.194:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_195
-# %bb.373:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_551
-# %bb.374:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_551
-.LBB1_195:
-	xor	esi, esi
-.LBB1_937:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_939
-.LBB1_938:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_938
-.LBB1_939:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_940:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_940
-	jmp	.LBB1_1109
-.LBB1_196:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.197:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB1_198
-# %bb.376:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_554
-# %bb.377:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_554
-.LBB1_198:
-	xor	ecx, ecx
-.LBB1_945:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_947
-.LBB1_946:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_946
-.LBB1_947:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_948:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_948
-	jmp	.LBB1_1109
-.LBB1_199:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.200:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_201
-# %bb.379:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_557
-# %bb.380:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_557
-.LBB1_201:
-	xor	esi, esi
-.LBB1_953:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_955
-.LBB1_954:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_954
-.LBB1_955:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_956:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_956
-	jmp	.LBB1_1109
-.LBB1_202:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.203:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB1_204
-# %bb.382:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_560
-# %bb.383:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_560
-.LBB1_204:
-	xor	ecx, ecx
-.LBB1_961:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_963
-.LBB1_962:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_962
-.LBB1_963:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_964:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_964
-	jmp	.LBB1_1109
-.LBB1_205:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.206:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_207
-# %bb.385:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_563
-# %bb.386:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_563
-.LBB1_207:
-	xor	esi, esi
-.LBB1_969:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_971
-.LBB1_970:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_970
-.LBB1_971:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_972:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_972
-	jmp	.LBB1_1109
-.LBB1_208:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.209:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB1_210
-# %bb.388:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_566
-# %bb.389:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_566
-.LBB1_210:
-	xor	ecx, ecx
-.LBB1_977:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_979
-.LBB1_978:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_978
-.LBB1_979:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_980:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_980
-	jmp	.LBB1_1109
-.LBB1_211:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.212:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_213
-# %bb.391:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_569
-# %bb.392:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_569
-.LBB1_213:
-	xor	esi, esi
-.LBB1_985:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_987
-.LBB1_986:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_986
-.LBB1_987:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_988:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_988
-	jmp	.LBB1_1109
-.LBB1_214:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.215:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB1_216
-# %bb.394:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_572
-# %bb.395:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_572
-.LBB1_216:
-	xor	ecx, ecx
-.LBB1_993:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_995
-.LBB1_994:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_994
-.LBB1_995:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_996:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_996
-	jmp	.LBB1_1109
-.LBB1_217:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.218:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_219
-# %bb.397:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_575
-# %bb.398:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_575
-.LBB1_219:
-	xor	esi, esi
-.LBB1_1001:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1003
-.LBB1_1002:                             # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1002
-.LBB1_1003:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1004:                             # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1004
-	jmp	.LBB1_1109
-.LBB1_220:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.221:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB1_222
-# %bb.400:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_578
-# %bb.401:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_578
-.LBB1_222:
-	xor	ecx, ecx
-.LBB1_1009:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_1011
-.LBB1_1010:                             # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_1010
-.LBB1_1011:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_1012:                             # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_1012
-	jmp	.LBB1_1109
-.LBB1_223:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.224:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_225
-# %bb.403:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_581
-# %bb.404:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_581
-.LBB1_225:
-	xor	esi, esi
-.LBB1_1017:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1019
-.LBB1_1018:                             # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1018
-.LBB1_1019:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1020:                             # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1020
-	jmp	.LBB1_1109
-.LBB1_226:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.227:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB1_228
-# %bb.406:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_584
-# %bb.407:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_584
-.LBB1_228:
-	xor	ecx, ecx
-.LBB1_1025:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_1027
-.LBB1_1026:                             # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_1026
-.LBB1_1027:
-	cmp	rsi, 3
-	jb	.LBB1_1109
-.LBB1_1028:                             # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_1028
-	jmp	.LBB1_1109
-.LBB1_229:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.230:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_231
-# %bb.409:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_587
-# %bb.410:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_587
-.LBB1_231:
-	xor	edi, edi
-.LBB1_647:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_649
-.LBB1_648:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_648
-.LBB1_649:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_650:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_650
-	jmp	.LBB1_1109
-.LBB1_232:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.233:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_234
-# %bb.412:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_589
-# %bb.413:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_589
-.LBB1_234:
-	xor	edi, edi
-.LBB1_657:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_659
-.LBB1_658:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_658
-.LBB1_659:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_660:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_660
-	jmp	.LBB1_1109
-.LBB1_235:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.236:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_237
-# %bb.415:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_591
-# %bb.416:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_591
-.LBB1_237:
-	xor	esi, esi
-.LBB1_1033:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1035
-.LBB1_1034:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1034
-.LBB1_1035:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1036:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1036
-	jmp	.LBB1_1109
-.LBB1_238:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.239:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_240
-# %bb.418:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_594
-# %bb.419:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_594
-.LBB1_240:
-	xor	esi, esi
-.LBB1_1041:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1043
-.LBB1_1042:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1042
-.LBB1_1043:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1044:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1044
-	jmp	.LBB1_1109
-.LBB1_241:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.242:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_243
-# %bb.421:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_597
-# %bb.422:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_597
-.LBB1_243:
-	xor	esi, esi
-.LBB1_1049:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1051
-.LBB1_1050:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1050
-.LBB1_1051:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1052:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1052
-	jmp	.LBB1_1109
-.LBB1_244:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.245:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_246
-# %bb.424:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_600
-# %bb.425:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_600
-.LBB1_246:
-	xor	esi, esi
-.LBB1_1057:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1059
-.LBB1_1058:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1058
-.LBB1_1059:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1060:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1060
-	jmp	.LBB1_1109
-.LBB1_247:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.248:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_249
-# %bb.427:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_603
-# %bb.428:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_603
-.LBB1_249:
-	xor	esi, esi
-.LBB1_1065:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1067
-.LBB1_1066:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1066
-.LBB1_1067:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1068:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1068
-	jmp	.LBB1_1109
-.LBB1_250:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.251:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_252
-# %bb.430:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_606
-# %bb.431:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_606
-.LBB1_252:
-	xor	esi, esi
-.LBB1_1073:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1075
-.LBB1_1074:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1074
-.LBB1_1075:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1076:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1076
-	jmp	.LBB1_1109
-.LBB1_253:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.254:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_255
-# %bb.433:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_609
-# %bb.434:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_609
-.LBB1_255:
-	xor	esi, esi
-.LBB1_1081:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1083
-.LBB1_1082:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1082
-.LBB1_1083:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1084:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1084
-	jmp	.LBB1_1109
-.LBB1_256:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.257:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_258
-# %bb.436:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_612
-# %bb.437:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_612
-.LBB1_258:
-	xor	esi, esi
-.LBB1_1089:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1091
-.LBB1_1090:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1090
-.LBB1_1091:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1092:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1092
-	jmp	.LBB1_1109
-.LBB1_259:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.260:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_261
-# %bb.439:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_615
-# %bb.440:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_615
-.LBB1_261:
-	xor	esi, esi
-.LBB1_1097:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1099
-.LBB1_1098:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1098
-.LBB1_1099:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1100:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1100
-	jmp	.LBB1_1109
-.LBB1_262:
-	test	r9d, r9d
-	jle	.LBB1_1109
-# %bb.263:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_264
-# %bb.442:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_618
-# %bb.443:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_618
-.LBB1_264:
-	xor	esi, esi
-.LBB1_1105:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1107
-.LBB1_1106:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1106
-.LBB1_1107:
-	cmp	r9, 3
-	jb	.LBB1_1109
-.LBB1_1108:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1108
-	jmp	.LBB1_1109
-.LBB1_445:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_661
-# %bb.446:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_447:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_447
-	jmp	.LBB1_662
-.LBB1_448:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_669
-# %bb.449:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_450:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_450
-	jmp	.LBB1_670
-.LBB1_451:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_677
-# %bb.452:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_453:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_453
-	jmp	.LBB1_678
-.LBB1_454:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_685
-# %bb.455:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_456:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_456
-	jmp	.LBB1_686
-.LBB1_457:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_693
-# %bb.458:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_459:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_459
-	jmp	.LBB1_694
-.LBB1_460:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_701
-# %bb.461:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_462:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_462
-	jmp	.LBB1_702
-.LBB1_463:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_709
-# %bb.464:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_465:                              # =>This Inner Loop Header: Depth=1
-	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vmulpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
-	vmulpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB1_465
-	jmp	.LBB1_710
-.LBB1_466:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_717
-# %bb.467:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_468:                              # =>This Inner Loop Header: Depth=1
-	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vmulpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
-	vmulpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB1_468
-	jmp	.LBB1_718
-.LBB1_469:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_725
-# %bb.470:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_471:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB1_471
-	jmp	.LBB1_726
-.LBB1_472:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_733
-# %bb.473:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-.LBB1_474:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi + 128]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 160]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 192]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 224]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 224], ymm5
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB1_474
-	jmp	.LBB1_734
-.LBB1_475:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_741
-# %bb.476:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_477:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB1_477
-	jmp	.LBB1_742
-.LBB1_478:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_749
-# %bb.479:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-.LBB1_480:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi + 128]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 160]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 192]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 224]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 224], ymm5
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB1_480
-	jmp	.LBB1_750
-.LBB1_481:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, ecx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB1_621
-# %bb.482:
-	xor	esi, esi
-	jmp	.LBB1_623
-.LBB1_483:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, ecx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB1_631
-# %bb.484:
-	xor	esi, esi
-	jmp	.LBB1_633
-.LBB1_485:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_757
-# %bb.486:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_487:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_487
-	jmp	.LBB1_758
-.LBB1_488:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_765
-# %bb.489:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_490:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_490
-	jmp	.LBB1_766
-.LBB1_491:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_773
-# %bb.492:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_493:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_493
-	jmp	.LBB1_774
-.LBB1_494:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_781
-# %bb.495:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_496:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_496
-	jmp	.LBB1_782
-.LBB1_497:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rcx, rcx
-	je	.LBB1_789
-# %bb.498:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_499:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_499
-	jmp	.LBB1_790
-.LBB1_500:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rcx, rcx
-	je	.LBB1_797
-# %bb.501:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_502:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_502
-	jmp	.LBB1_798
-.LBB1_503:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_805
-# %bb.504:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_505:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_505
-	jmp	.LBB1_806
-.LBB1_506:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_813
-# %bb.507:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_508:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_508
-	jmp	.LBB1_814
-.LBB1_509:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_821
-# %bb.510:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_511:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_511
-	jmp	.LBB1_822
-.LBB1_512:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_829
-# %bb.513:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_514:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_514
-	jmp	.LBB1_830
-.LBB1_515:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_837
-# %bb.516:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_517:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_517
-	jmp	.LBB1_838
-.LBB1_518:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_845
-# %bb.519:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_520:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_520
-	jmp	.LBB1_846
-.LBB1_521:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_853
-# %bb.522:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_523:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_523
-	jmp	.LBB1_854
-.LBB1_524:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_861
-# %bb.525:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_526:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_526
-	jmp	.LBB1_862
-.LBB1_527:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_869
-# %bb.528:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_529:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_529
-	jmp	.LBB1_870
-.LBB1_530:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_877
-# %bb.531:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_532:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_532
-	jmp	.LBB1_878
-.LBB1_533:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_885
-# %bb.534:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_535:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_535
-	jmp	.LBB1_886
-.LBB1_536:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_893
-# %bb.537:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_538:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_538
-	jmp	.LBB1_894
-.LBB1_539:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_901
-# %bb.540:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_541:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_541
-	jmp	.LBB1_902
-.LBB1_542:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_909
-# %bb.543:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_544:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_544
-	jmp	.LBB1_910
-.LBB1_545:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_917
-# %bb.546:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_547:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_547
-	jmp	.LBB1_918
-.LBB1_548:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_925
-# %bb.549:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_550:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_550
-	jmp	.LBB1_926
-.LBB1_551:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rcx, rcx
-	je	.LBB1_933
-# %bb.552:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_553:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_553
-	jmp	.LBB1_934
-.LBB1_554:
-	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_941
-# %bb.555:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_556:                              # =>This Inner Loop Header: Depth=1
-	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vmulps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
-	vmulps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB1_556
-	jmp	.LBB1_942
-.LBB1_557:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rcx, rcx
-	je	.LBB1_949
-# %bb.558:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_559:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_559
-	jmp	.LBB1_950
-.LBB1_560:
-	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_957
-# %bb.561:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_562:                              # =>This Inner Loop Header: Depth=1
-	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vmulps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
-	vmulps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB1_562
-	jmp	.LBB1_958
-.LBB1_563:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_965
-# %bb.564:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_565:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_565
-	jmp	.LBB1_966
-.LBB1_566:
-	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_973
-# %bb.567:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_568:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB1_568
-	jmp	.LBB1_974
-.LBB1_569:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_981
-# %bb.570:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_571:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_571
-	jmp	.LBB1_982
-.LBB1_572:
-	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_989
-# %bb.573:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-.LBB1_574:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi + 128]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 160]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 192]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 224]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 224], ymm5
-	add	rsi, 64
-	add	rdi, 2
-	jne	.LBB1_574
-	jmp	.LBB1_990
-.LBB1_575:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_997
-# %bb.576:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_577:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_577
-	jmp	.LBB1_998
-.LBB1_578:
-	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_1005
-# %bb.579:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_580:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB1_580
-	jmp	.LBB1_1006
-.LBB1_581:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1013
-# %bb.582:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_583:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_583
-	jmp	.LBB1_1014
-.LBB1_584:
-	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_1021
-# %bb.585:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-.LBB1_586:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi + 128]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 160]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 192]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 224]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 224], ymm5
-	add	rsi, 64
-	add	rdi, 2
-	jne	.LBB1_586
-	jmp	.LBB1_1022
-.LBB1_587:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, ecx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB1_641
-# %bb.588:
-	xor	esi, esi
-	jmp	.LBB1_643
-.LBB1_589:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, ecx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB1_651
-# %bb.590:
-	xor	esi, esi
-	jmp	.LBB1_653
-.LBB1_591:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1029
-# %bb.592:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_593:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_593
-	jmp	.LBB1_1030
-.LBB1_594:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1037
-# %bb.595:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_596:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_596
-	jmp	.LBB1_1038
-.LBB1_597:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1045
-# %bb.598:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_599:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_599
-	jmp	.LBB1_1046
-.LBB1_600:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
-	mov	r9, rcx
-	shr	r9, 7
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1053
-# %bb.601:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_602:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rcx, 2
-	jne	.LBB1_602
-	jmp	.LBB1_1054
-.LBB1_603:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1061
-# %bb.604:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_605:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_605
-	jmp	.LBB1_1062
-.LBB1_606:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1069
-# %bb.607:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_608:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_608
-	jmp	.LBB1_1070
-.LBB1_609:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1077
-# %bb.610:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_611:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_611
-	jmp	.LBB1_1078
-.LBB1_612:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1085
-# %bb.613:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_614:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_614
-	jmp	.LBB1_1086
-.LBB1_615:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1093
-# %bb.616:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_617:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_617
-	jmp	.LBB1_1094
-.LBB1_618:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1101
-# %bb.619:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_620:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_620
-	jmp	.LBB1_1102
-.LBB1_621:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_622:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB1_622
-.LBB1_623:
-	test	r9, r9
-	je	.LBB1_626
-# %bb.624:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_625:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB1_625
-.LBB1_626:
-	cmp	rdi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_627
-.LBB1_631:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_632:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB1_632
-.LBB1_633:
-	test	r9, r9
-	je	.LBB1_636
-# %bb.634:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_635:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB1_635
-.LBB1_636:
-	cmp	rdi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_637
-.LBB1_641:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_642:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB1_642
-.LBB1_643:
-	test	r9, r9
-	je	.LBB1_646
-# %bb.644:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_645:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB1_645
-.LBB1_646:
-	cmp	rdi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_647
-.LBB1_651:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_652:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB1_652
-.LBB1_653:
-	test	r9, r9
-	je	.LBB1_656
-# %bb.654:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB1_655:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB1_655
-.LBB1_656:
-	cmp	rdi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_657
-.LBB1_661:
-	xor	edi, edi
-.LBB1_662:
-	test	r9b, 1
-	je	.LBB1_664
-# %bb.663:
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_664:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_665
-.LBB1_669:
-	xor	edi, edi
-.LBB1_670:
-	test	r9b, 1
-	je	.LBB1_672
-# %bb.671:
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_672:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_673
-.LBB1_677:
-	xor	edi, edi
-.LBB1_678:
-	test	r9b, 1
-	je	.LBB1_680
-# %bb.679:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_680:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_681
-.LBB1_685:
-	xor	edi, edi
-.LBB1_686:
-	test	r9b, 1
-	je	.LBB1_688
-# %bb.687:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_688:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_689
-.LBB1_693:
-	xor	edi, edi
-.LBB1_694:
-	test	r9b, 1
-	je	.LBB1_696
-# %bb.695:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_696:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_697
-.LBB1_701:
-	xor	edi, edi
-.LBB1_702:
-	test	r9b, 1
-	je	.LBB1_704
-# %bb.703:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_704:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_705
-.LBB1_709:
-	xor	edi, edi
-.LBB1_710:
-	test	r9b, 1
-	je	.LBB1_712
-# %bb.711:
-	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vmulpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB1_712:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_713
-.LBB1_717:
-	xor	edi, edi
-.LBB1_718:
-	test	r9b, 1
-	je	.LBB1_720
-# %bb.719:
-	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vmulpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB1_720:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_721
-.LBB1_725:
-	xor	edi, edi
-.LBB1_726:
-	test	r9b, 1
-	je	.LBB1_728
-# %bb.727:
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB1_728:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_729
-.LBB1_733:
-	xor	esi, esi
-.LBB1_734:
-	test	r9b, 1
-	je	.LBB1_736
-# %bb.735:
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm1, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-.LBB1_736:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_737
-.LBB1_741:
-	xor	edi, edi
-.LBB1_742:
-	test	r9b, 1
-	je	.LBB1_744
-# %bb.743:
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB1_744:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_745
-.LBB1_749:
-	xor	esi, esi
-.LBB1_750:
-	test	r9b, 1
-	je	.LBB1_752
-# %bb.751:
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm1, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-.LBB1_752:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_753
-.LBB1_757:
-	xor	edi, edi
-.LBB1_758:
-	test	r9b, 1
-	je	.LBB1_760
-# %bb.759:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_760:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_761
-.LBB1_765:
-	xor	edi, edi
-.LBB1_766:
-	test	r9b, 1
-	je	.LBB1_768
-# %bb.767:
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_768:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_769
-.LBB1_773:
-	xor	edi, edi
-.LBB1_774:
-	test	r9b, 1
-	je	.LBB1_776
-# %bb.775:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_776:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_777
-.LBB1_781:
-	xor	edi, edi
-.LBB1_782:
-	test	r9b, 1
-	je	.LBB1_784
-# %bb.783:
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_784:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_785
-.LBB1_789:
-	xor	edi, edi
-.LBB1_790:
-	test	r9b, 1
-	je	.LBB1_792
-# %bb.791:
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_792:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_793
-.LBB1_797:
-	xor	edi, edi
-.LBB1_798:
-	test	r9b, 1
-	je	.LBB1_800
-# %bb.799:
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_800:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_801
-.LBB1_805:
-	xor	edi, edi
-.LBB1_806:
-	test	r9b, 1
-	je	.LBB1_808
-# %bb.807:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_808:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_809
-.LBB1_813:
-	xor	edi, edi
-.LBB1_814:
-	test	r9b, 1
-	je	.LBB1_816
-# %bb.815:
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_816:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_817
-.LBB1_821:
-	xor	edi, edi
-.LBB1_822:
-	test	r9b, 1
-	je	.LBB1_824
-# %bb.823:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_824:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_825
-.LBB1_829:
-	xor	edi, edi
-.LBB1_830:
-	test	r9b, 1
-	je	.LBB1_832
-# %bb.831:
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_832:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_833
-.LBB1_837:
-	xor	edi, edi
-.LBB1_838:
-	test	r9b, 1
-	je	.LBB1_840
-# %bb.839:
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_840:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_841
-.LBB1_845:
-	xor	edi, edi
-.LBB1_846:
-	test	r9b, 1
-	je	.LBB1_848
-# %bb.847:
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_848:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_849
-.LBB1_853:
-	xor	edi, edi
-.LBB1_854:
-	test	r9b, 1
-	je	.LBB1_856
-# %bb.855:
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_856:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_857
-.LBB1_861:
-	xor	edi, edi
-.LBB1_862:
-	test	r9b, 1
-	je	.LBB1_864
-# %bb.863:
-	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_864:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_865
-.LBB1_869:
-	xor	edi, edi
-.LBB1_870:
-	test	r9b, 1
-	je	.LBB1_872
-# %bb.871:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_872:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_873
-.LBB1_877:
-	xor	edi, edi
-.LBB1_878:
-	test	r9b, 1
-	je	.LBB1_880
-# %bb.879:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_880:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_881
-.LBB1_885:
-	xor	edi, edi
-.LBB1_886:
-	test	r9b, 1
-	je	.LBB1_888
-# %bb.887:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_888:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_889
-.LBB1_893:
-	xor	edi, edi
-.LBB1_894:
-	test	r9b, 1
-	je	.LBB1_896
-# %bb.895:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_896:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_897
-.LBB1_901:
-	xor	edi, edi
-.LBB1_902:
-	test	r9b, 1
-	je	.LBB1_904
-# %bb.903:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_904:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_905
-.LBB1_909:
-	xor	edi, edi
-.LBB1_910:
-	test	r9b, 1
-	je	.LBB1_912
-# %bb.911:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_912:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_913
-.LBB1_917:
-	xor	edi, edi
-.LBB1_918:
-	test	r9b, 1
-	je	.LBB1_920
-# %bb.919:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_920:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_921
-.LBB1_925:
-	xor	edi, edi
-.LBB1_926:
-	test	r9b, 1
-	je	.LBB1_928
-# %bb.927:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB1_928:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_929
-.LBB1_933:
-	xor	edi, edi
-.LBB1_934:
-	test	r9b, 1
-	je	.LBB1_936
-# %bb.935:
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_936:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_937
-.LBB1_941:
-	xor	edi, edi
-.LBB1_942:
-	test	r9b, 1
-	je	.LBB1_944
-# %bb.943:
-	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vmulps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB1_944:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_945
-.LBB1_949:
-	xor	edi, edi
-.LBB1_950:
-	test	r9b, 1
-	je	.LBB1_952
-# %bb.951:
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_952:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_953
-.LBB1_957:
-	xor	edi, edi
-.LBB1_958:
-	test	r9b, 1
-	je	.LBB1_960
-# %bb.959:
-	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vmulps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB1_960:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_961
-.LBB1_965:
-	xor	edi, edi
-.LBB1_966:
-	test	r9b, 1
-	je	.LBB1_968
-# %bb.967:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_968:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_969
-.LBB1_973:
-	xor	edi, edi
-.LBB1_974:
-	test	r9b, 1
-	je	.LBB1_976
-# %bb.975:
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB1_976:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_977
-.LBB1_981:
-	xor	edi, edi
-.LBB1_982:
-	test	r9b, 1
-	je	.LBB1_984
-# %bb.983:
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_984:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_985
-.LBB1_989:
-	xor	esi, esi
-.LBB1_990:
-	test	r9b, 1
-	je	.LBB1_992
-# %bb.991:
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm1, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-.LBB1_992:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_993
-.LBB1_997:
-	xor	edi, edi
-.LBB1_998:
-	test	r9b, 1
-	je	.LBB1_1000
-# %bb.999:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_1000:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1001
-.LBB1_1005:
-	xor	edi, edi
-.LBB1_1006:
-	test	r9b, 1
-	je	.LBB1_1008
-# %bb.1007:
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB1_1008:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_1009
-.LBB1_1013:
-	xor	edi, edi
-.LBB1_1014:
-	test	r9b, 1
-	je	.LBB1_1016
-# %bb.1015:
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_1016:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1017
-.LBB1_1021:
-	xor	esi, esi
-.LBB1_1022:
-	test	r9b, 1
-	je	.LBB1_1024
-# %bb.1023:
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm1, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-.LBB1_1024:
-	cmp	rcx, rax
-	je	.LBB1_1109
-	jmp	.LBB1_1025
-.LBB1_1029:
-	xor	edi, edi
-.LBB1_1030:
-	test	r9b, 1
-	je	.LBB1_1032
-# %bb.1031:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_1032:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1033
-.LBB1_1037:
-	xor	edi, edi
-.LBB1_1038:
-	test	r9b, 1
-	je	.LBB1_1040
-# %bb.1039:
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_1040:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1041
-.LBB1_1045:
-	xor	edi, edi
-.LBB1_1046:
-	test	r9b, 1
-	je	.LBB1_1048
-# %bb.1047:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_1048:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1049
-.LBB1_1053:
-	xor	edi, edi
-.LBB1_1054:
-	test	r9b, 1
-	je	.LBB1_1056
-# %bb.1055:
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_1056:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1057
-.LBB1_1061:
-	xor	edi, edi
-.LBB1_1062:
-	test	r9b, 1
-	je	.LBB1_1064
-# %bb.1063:
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_1064:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1065
-.LBB1_1069:
-	xor	edi, edi
-.LBB1_1070:
-	test	r9b, 1
-	je	.LBB1_1072
-# %bb.1071:
-	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_1072:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1073
-.LBB1_1077:
-	xor	edi, edi
-.LBB1_1078:
-	test	r9b, 1
-	je	.LBB1_1080
-# %bb.1079:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_1080:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1081
-.LBB1_1085:
-	xor	edi, edi
-.LBB1_1086:
-	test	r9b, 1
-	je	.LBB1_1088
-# %bb.1087:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_1088:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1089
-.LBB1_1093:
-	xor	edi, edi
-.LBB1_1094:
-	test	r9b, 1
-	je	.LBB1_1096
-# %bb.1095:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_1096:
-	cmp	rsi, r10
-	je	.LBB1_1109
-	jmp	.LBB1_1097
-.LBB1_1101:
-	xor	edi, edi
-.LBB1_1102:
-	test	r9b, 1
-	je	.LBB1_1104
-# %bb.1103:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_1104:
-	cmp	rsi, r10
-	jne	.LBB1_1105
-.LBB1_1109:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end1:
-	.size	arithmetic_arr_scalar_avx2, .Lfunc_end1-arithmetic_arr_scalar_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function arithmetic_scalar_arr_avx2
-.LCPI2_0:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	arithmetic_scalar_arr_avx2
-	.p2align	4, 0x90
-	.type	arithmetic_scalar_arr_avx2,@function
-arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 20
-	jg	.LBB2_12
-# %bb.1:
-	test	sil, sil
-	je	.LBB2_23
-# %bb.2:
-	cmp	sil, 1
-	je	.LBB2_31
-# %bb.3:
-	cmp	sil, 2
-	jne	.LBB2_1109
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB2_55
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB2_97
-# %bb.6:
-	cmp	edi, 4
-	je	.LBB2_157
-# %bb.7:
-	cmp	edi, 5
-	je	.LBB2_160
-# %bb.8:
-	cmp	edi, 6
-	jne	.LBB2_1109
-# %bb.9:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.10:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_11
-# %bb.265:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_445
-# %bb.266:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_445
-.LBB2_11:
-	xor	esi, esi
-.LBB2_665:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_667
-.LBB2_666:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_666
-.LBB2_667:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_668:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_668
-	jmp	.LBB2_1109
-.LBB2_12:
-	cmp	sil, 21
-	je	.LBB2_39
-# %bb.13:
-	cmp	sil, 22
-	je	.LBB2_47
-# %bb.14:
-	cmp	sil, 23
-	jne	.LBB2_1109
-# %bb.15:
-	cmp	edi, 6
-	jg	.LBB2_62
-# %bb.16:
-	cmp	edi, 3
-	jle	.LBB2_102
-# %bb.17:
-	cmp	edi, 4
-	je	.LBB2_163
-# %bb.18:
-	cmp	edi, 5
-	je	.LBB2_166
-# %bb.19:
-	cmp	edi, 6
-	jne	.LBB2_1109
-# %bb.20:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.21:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_22
-# %bb.268:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_448
-# %bb.269:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_448
-.LBB2_22:
-	xor	esi, esi
-.LBB2_673:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_675
-.LBB2_674:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_674
-.LBB2_675:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_676:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_676
-	jmp	.LBB2_1109
-.LBB2_23:
-	cmp	edi, 6
-	jg	.LBB2_69
-# %bb.24:
-	cmp	edi, 3
-	jle	.LBB2_107
-# %bb.25:
-	cmp	edi, 4
-	je	.LBB2_169
-# %bb.26:
-	cmp	edi, 5
-	je	.LBB2_172
-# %bb.27:
-	cmp	edi, 6
-	jne	.LBB2_1109
-# %bb.28:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.29:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_30
-# %bb.271:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_451
-# %bb.272:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_451
-.LBB2_30:
-	xor	esi, esi
-.LBB2_681:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_683
-.LBB2_682:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_682
-.LBB2_683:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_684:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_684
-	jmp	.LBB2_1109
-.LBB2_31:
-	cmp	edi, 6
-	jg	.LBB2_76
-# %bb.32:
-	cmp	edi, 3
-	jle	.LBB2_112
-# %bb.33:
-	cmp	edi, 4
-	je	.LBB2_175
-# %bb.34:
-	cmp	edi, 5
-	je	.LBB2_178
-# %bb.35:
-	cmp	edi, 6
-	jne	.LBB2_1109
-# %bb.36:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.37:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_38
-# %bb.274:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_454
-# %bb.275:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_454
-.LBB2_38:
-	xor	esi, esi
-.LBB2_689:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_691
-.LBB2_690:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_690
-.LBB2_691:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_692:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_692
-	jmp	.LBB2_1109
-.LBB2_39:
-	cmp	edi, 6
-	jg	.LBB2_83
-# %bb.40:
-	cmp	edi, 3
-	jle	.LBB2_117
-# %bb.41:
-	cmp	edi, 4
-	je	.LBB2_181
-# %bb.42:
-	cmp	edi, 5
-	je	.LBB2_184
-# %bb.43:
-	cmp	edi, 6
-	jne	.LBB2_1109
-# %bb.44:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.45:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_46
-# %bb.277:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_457
-# %bb.278:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_457
-.LBB2_46:
-	xor	esi, esi
-.LBB2_697:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_699
-.LBB2_698:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_698
-.LBB2_699:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_700:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_700
-	jmp	.LBB2_1109
-.LBB2_47:
-	cmp	edi, 6
-	jg	.LBB2_90
-# %bb.48:
-	cmp	edi, 3
-	jle	.LBB2_122
-# %bb.49:
-	cmp	edi, 4
-	je	.LBB2_187
-# %bb.50:
-	cmp	edi, 5
-	je	.LBB2_190
-# %bb.51:
-	cmp	edi, 6
-	jne	.LBB2_1109
-# %bb.52:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.53:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_54
-# %bb.280:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_460
-# %bb.281:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_460
-.LBB2_54:
-	xor	esi, esi
-.LBB2_705:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_707
-.LBB2_706:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_706
-.LBB2_707:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_708:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_708
-	jmp	.LBB2_1109
-.LBB2_55:
-	cmp	edi, 8
-	jle	.LBB2_127
-# %bb.56:
-	cmp	edi, 9
-	je	.LBB2_193
-# %bb.57:
-	cmp	edi, 11
-	je	.LBB2_196
-# %bb.58:
-	cmp	edi, 12
-	jne	.LBB2_1109
-# %bb.59:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.60:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB2_61
-# %bb.283:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_463
-# %bb.284:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_463
-.LBB2_61:
-	xor	edx, edx
-.LBB2_713:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_715
-.LBB2_714:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_714
-.LBB2_715:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_716:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
-	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
-	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_716
-	jmp	.LBB2_1109
-.LBB2_62:
-	cmp	edi, 8
-	jle	.LBB2_132
-# %bb.63:
-	cmp	edi, 9
-	je	.LBB2_199
-# %bb.64:
-	cmp	edi, 11
-	je	.LBB2_202
-# %bb.65:
-	cmp	edi, 12
-	jne	.LBB2_1109
-# %bb.66:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.67:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB2_68
-# %bb.286:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_466
-# %bb.287:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_466
-.LBB2_68:
-	xor	edx, edx
-.LBB2_721:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_723
-.LBB2_722:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_722
-.LBB2_723:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_724:                              # =>This Inner Loop Header: Depth=1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
-	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
-	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_724
-	jmp	.LBB2_1109
-.LBB2_69:
-	cmp	edi, 8
-	jle	.LBB2_137
-# %bb.70:
-	cmp	edi, 9
-	je	.LBB2_205
-# %bb.71:
-	cmp	edi, 11
-	je	.LBB2_208
-# %bb.72:
-	cmp	edi, 12
-	jne	.LBB2_1109
-# %bb.73:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.74:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB2_75
-# %bb.289:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_469
-# %bb.290:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_469
-.LBB2_75:
-	xor	edx, edx
-.LBB2_729:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_731
-.LBB2_730:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_730
-.LBB2_731:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_732:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
-	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
-	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_732
-	jmp	.LBB2_1109
-.LBB2_76:
-	cmp	edi, 8
-	jle	.LBB2_142
-# %bb.77:
-	cmp	edi, 9
-	je	.LBB2_211
-# %bb.78:
-	cmp	edi, 11
-	je	.LBB2_214
-# %bb.79:
-	cmp	edi, 12
-	jne	.LBB2_1109
-# %bb.80:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.81:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB2_82
-# %bb.292:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_472
-# %bb.293:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_472
-.LBB2_82:
-	xor	edx, edx
-.LBB2_737:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_739
-.LBB2_738:                              # =>This Inner Loop Header: Depth=1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_738
-.LBB2_739:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_740:                              # =>This Inner Loop Header: Depth=1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
-	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
-	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_740
-	jmp	.LBB2_1109
-.LBB2_83:
-	cmp	edi, 8
-	jle	.LBB2_147
-# %bb.84:
-	cmp	edi, 9
-	je	.LBB2_217
-# %bb.85:
-	cmp	edi, 11
-	je	.LBB2_220
-# %bb.86:
-	cmp	edi, 12
-	jne	.LBB2_1109
-# %bb.87:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.88:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB2_89
-# %bb.295:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_475
-# %bb.296:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_475
-.LBB2_89:
-	xor	edx, edx
-.LBB2_745:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_747
-.LBB2_746:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_746
-.LBB2_747:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_748:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
-	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
-	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_748
-	jmp	.LBB2_1109
-.LBB2_90:
-	cmp	edi, 8
-	jle	.LBB2_152
-# %bb.91:
-	cmp	edi, 9
-	je	.LBB2_223
-# %bb.92:
-	cmp	edi, 11
-	je	.LBB2_226
-# %bb.93:
-	cmp	edi, 12
-	jne	.LBB2_1109
-# %bb.94:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.95:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB2_96
-# %bb.298:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_478
-# %bb.299:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_478
-.LBB2_96:
-	xor	edx, edx
-.LBB2_753:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_755
-.LBB2_754:                              # =>This Inner Loop Header: Depth=1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_754
-.LBB2_755:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_756:                              # =>This Inner Loop Header: Depth=1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
-	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
-	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
-	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_756
-	jmp	.LBB2_1109
-.LBB2_97:
-	cmp	edi, 2
-	je	.LBB2_229
-# %bb.98:
-	cmp	edi, 3
-	jne	.LBB2_1109
-# %bb.99:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.100:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_101
-# %bb.301:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_481
-# %bb.302:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_481
-.LBB2_101:
-	xor	edi, edi
-.LBB2_627:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_629
-.LBB2_628:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_628
-.LBB2_629:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_630:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_630
-	jmp	.LBB2_1109
-.LBB2_102:
-	cmp	edi, 2
-	je	.LBB2_232
-# %bb.103:
-	cmp	edi, 3
-	jne	.LBB2_1109
-# %bb.104:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.105:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_106
-# %bb.304:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_483
-# %bb.305:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_483
-.LBB2_106:
-	xor	edi, edi
-.LBB2_637:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_639
-.LBB2_638:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_638
-.LBB2_639:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_640:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_640
-	jmp	.LBB2_1109
-.LBB2_107:
-	cmp	edi, 2
-	je	.LBB2_235
-# %bb.108:
-	cmp	edi, 3
-	jne	.LBB2_1109
-# %bb.109:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.110:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_111
-# %bb.307:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_485
-# %bb.308:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_485
-.LBB2_111:
-	xor	esi, esi
-.LBB2_761:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_763
-.LBB2_762:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_762
-.LBB2_763:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_764:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_764
-	jmp	.LBB2_1109
-.LBB2_112:
-	cmp	edi, 2
-	je	.LBB2_238
-# %bb.113:
-	cmp	edi, 3
-	jne	.LBB2_1109
-# %bb.114:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.115:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_116
-# %bb.310:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_488
-# %bb.311:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_488
-.LBB2_116:
-	xor	esi, esi
-.LBB2_769:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_771
-.LBB2_770:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_770
-.LBB2_771:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_772:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_772
-	jmp	.LBB2_1109
-.LBB2_117:
-	cmp	edi, 2
-	je	.LBB2_241
-# %bb.118:
-	cmp	edi, 3
-	jne	.LBB2_1109
-# %bb.119:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.120:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_121
-# %bb.313:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_491
-# %bb.314:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_491
-.LBB2_121:
-	xor	esi, esi
-.LBB2_777:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_779
-.LBB2_778:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_778
-.LBB2_779:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_780:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_780
-	jmp	.LBB2_1109
-.LBB2_122:
-	cmp	edi, 2
-	je	.LBB2_244
-# %bb.123:
-	cmp	edi, 3
-	jne	.LBB2_1109
-# %bb.124:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.125:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_126
-# %bb.316:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_494
-# %bb.317:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_494
-.LBB2_126:
-	xor	esi, esi
-.LBB2_785:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_787
-.LBB2_786:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_786
-.LBB2_787:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_788:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_788
-	jmp	.LBB2_1109
-.LBB2_127:
-	cmp	edi, 7
-	je	.LBB2_247
-# %bb.128:
-	cmp	edi, 8
-	jne	.LBB2_1109
-# %bb.129:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.130:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_131
-# %bb.319:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_497
-# %bb.320:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_497
-.LBB2_131:
-	xor	esi, esi
-.LBB2_793:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_795
-.LBB2_794:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_794
-.LBB2_795:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_796:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_796
-	jmp	.LBB2_1109
-.LBB2_132:
-	cmp	edi, 7
-	je	.LBB2_250
-# %bb.133:
-	cmp	edi, 8
-	jne	.LBB2_1109
-# %bb.134:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.135:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_136
-# %bb.322:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_500
-# %bb.323:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_500
-.LBB2_136:
-	xor	esi, esi
-.LBB2_801:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_803
-.LBB2_802:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_802
-.LBB2_803:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_804:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_804
-	jmp	.LBB2_1109
-.LBB2_137:
-	cmp	edi, 7
-	je	.LBB2_253
-# %bb.138:
-	cmp	edi, 8
-	jne	.LBB2_1109
-# %bb.139:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.140:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_141
-# %bb.325:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_503
-# %bb.326:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_503
-.LBB2_141:
-	xor	esi, esi
-.LBB2_809:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_811
-.LBB2_810:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_810
-.LBB2_811:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_812:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_812
-	jmp	.LBB2_1109
-.LBB2_142:
-	cmp	edi, 7
-	je	.LBB2_256
-# %bb.143:
-	cmp	edi, 8
-	jne	.LBB2_1109
-# %bb.144:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.145:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_146
-# %bb.328:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_506
-# %bb.329:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_506
-.LBB2_146:
-	xor	esi, esi
-.LBB2_817:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_819
-.LBB2_818:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_818
-.LBB2_819:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_820:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_820
-	jmp	.LBB2_1109
-.LBB2_147:
-	cmp	edi, 7
-	je	.LBB2_259
-# %bb.148:
-	cmp	edi, 8
-	jne	.LBB2_1109
-# %bb.149:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.150:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_151
-# %bb.331:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_509
-# %bb.332:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_509
-.LBB2_151:
-	xor	esi, esi
-.LBB2_825:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_827
-.LBB2_826:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_826
-.LBB2_827:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_828:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_828
-	jmp	.LBB2_1109
-.LBB2_152:
-	cmp	edi, 7
-	je	.LBB2_262
-# %bb.153:
-	cmp	edi, 8
-	jne	.LBB2_1109
-# %bb.154:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.155:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_156
-# %bb.334:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_512
-# %bb.335:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_512
-.LBB2_156:
-	xor	esi, esi
-.LBB2_833:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_835
-.LBB2_834:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_834
-.LBB2_835:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_836:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_836
-	jmp	.LBB2_1109
-.LBB2_157:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.158:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_159
-# %bb.337:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_515
-# %bb.338:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_515
-.LBB2_159:
-	xor	esi, esi
-.LBB2_841:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_843
-.LBB2_842:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_842
-.LBB2_843:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_844:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_844
-	jmp	.LBB2_1109
-.LBB2_160:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.161:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_162
-# %bb.340:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_518
-# %bb.341:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_518
-.LBB2_162:
-	xor	esi, esi
-.LBB2_849:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_851
-.LBB2_850:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_850
-.LBB2_851:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_852:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_852
-	jmp	.LBB2_1109
-.LBB2_163:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.164:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_165
-# %bb.343:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_521
-# %bb.344:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_521
-.LBB2_165:
-	xor	esi, esi
-.LBB2_857:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_859
-.LBB2_858:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_858
-.LBB2_859:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_860:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_860
-	jmp	.LBB2_1109
-.LBB2_166:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.167:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_168
-# %bb.346:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_524
-# %bb.347:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_524
-.LBB2_168:
-	xor	esi, esi
-.LBB2_865:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_867
-.LBB2_866:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	imul	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_866
-.LBB2_867:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_868:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_868
-	jmp	.LBB2_1109
-.LBB2_169:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.170:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_171
-# %bb.349:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_527
-# %bb.350:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_527
-.LBB2_171:
-	xor	esi, esi
-.LBB2_873:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_875
-.LBB2_874:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_874
-.LBB2_875:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_876:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_876
-	jmp	.LBB2_1109
-.LBB2_172:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.173:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_174
-# %bb.352:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_530
-# %bb.353:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_530
-.LBB2_174:
-	xor	esi, esi
-.LBB2_881:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_883
-.LBB2_882:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_882
-.LBB2_883:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_884:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_884
-	jmp	.LBB2_1109
-.LBB2_175:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.176:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_177
-# %bb.355:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_533
-# %bb.356:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_533
-.LBB2_177:
-	xor	esi, esi
-.LBB2_889:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_891
-.LBB2_890:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, eax
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_890
-.LBB2_891:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_892:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_892
-	jmp	.LBB2_1109
-.LBB2_178:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.179:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_180
-# %bb.358:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_536
-# %bb.359:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_536
-.LBB2_180:
-	xor	esi, esi
-.LBB2_897:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_899
-.LBB2_898:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, eax
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_898
-.LBB2_899:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_900:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_900
-	jmp	.LBB2_1109
-.LBB2_181:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.182:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_183
-# %bb.361:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_539
-# %bb.362:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_539
-.LBB2_183:
-	xor	esi, esi
-.LBB2_905:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_907
-.LBB2_906:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_906
-.LBB2_907:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_908:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_908
-	jmp	.LBB2_1109
-.LBB2_184:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.185:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_186
-# %bb.364:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_542
-# %bb.365:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_542
-.LBB2_186:
-	xor	esi, esi
-.LBB2_913:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_915
-.LBB2_914:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, ax
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_914
-.LBB2_915:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_916:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_916
-	jmp	.LBB2_1109
-.LBB2_187:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.188:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_189
-# %bb.367:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_545
-# %bb.368:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_545
-.LBB2_189:
-	xor	esi, esi
-.LBB2_921:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_923
-.LBB2_922:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, eax
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_922
-.LBB2_923:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_924:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_924
-	jmp	.LBB2_1109
-.LBB2_190:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.191:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_192
-# %bb.370:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_548
-# %bb.371:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_548
-.LBB2_192:
-	xor	esi, esi
-.LBB2_929:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_931
-.LBB2_930:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, eax
-	sub	di, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_930
-.LBB2_931:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_932:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_932
-	jmp	.LBB2_1109
-.LBB2_193:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.194:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_195
-# %bb.373:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_551
-# %bb.374:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_551
-.LBB2_195:
-	xor	esi, esi
-.LBB2_937:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_939
-.LBB2_938:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_938
-.LBB2_939:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_940:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_940
-	jmp	.LBB2_1109
-.LBB2_196:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.197:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB2_198
-# %bb.376:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_554
-# %bb.377:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_554
-.LBB2_198:
-	xor	edx, edx
-.LBB2_945:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_947
-.LBB2_946:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_946
-.LBB2_947:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_948:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
-	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
-	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_948
-	jmp	.LBB2_1109
-.LBB2_199:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.200:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_201
-# %bb.379:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_557
-# %bb.380:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_557
-.LBB2_201:
-	xor	esi, esi
-.LBB2_953:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_955
-.LBB2_954:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_954
-.LBB2_955:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_956:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_956
-	jmp	.LBB2_1109
-.LBB2_202:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.203:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB2_204
-# %bb.382:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_560
-# %bb.383:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_560
-.LBB2_204:
-	xor	edx, edx
-.LBB2_961:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_963
-.LBB2_962:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_962
-.LBB2_963:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_964:                              # =>This Inner Loop Header: Depth=1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
-	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
-	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_964
-	jmp	.LBB2_1109
-.LBB2_205:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.206:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_207
-# %bb.385:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_563
-# %bb.386:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_563
-.LBB2_207:
-	xor	esi, esi
-.LBB2_969:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_971
-.LBB2_970:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_970
-.LBB2_971:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_972:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_972
-	jmp	.LBB2_1109
-.LBB2_208:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.209:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB2_210
-# %bb.388:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_566
-# %bb.389:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_566
-.LBB2_210:
-	xor	edx, edx
-.LBB2_977:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_979
-.LBB2_978:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_978
-.LBB2_979:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_980:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
-	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
-	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_980
-	jmp	.LBB2_1109
-.LBB2_211:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.212:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_213
-# %bb.391:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_569
-# %bb.392:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_569
-.LBB2_213:
-	xor	esi, esi
-.LBB2_985:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_987
-.LBB2_986:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_986
-.LBB2_987:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_988:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_988
-	jmp	.LBB2_1109
-.LBB2_214:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.215:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB2_216
-# %bb.394:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_572
-# %bb.395:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_572
-.LBB2_216:
-	xor	edx, edx
-.LBB2_993:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_995
-.LBB2_994:                              # =>This Inner Loop Header: Depth=1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_994
-.LBB2_995:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_996:                              # =>This Inner Loop Header: Depth=1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
-	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
-	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_996
-	jmp	.LBB2_1109
-.LBB2_217:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.218:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_219
-# %bb.397:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_575
-# %bb.398:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_575
-.LBB2_219:
-	xor	esi, esi
-.LBB2_1001:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1003
-.LBB2_1002:                             # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1002
-.LBB2_1003:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1004:                             # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1004
-	jmp	.LBB2_1109
-.LBB2_220:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.221:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB2_222
-# %bb.400:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_578
-# %bb.401:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_578
-.LBB2_222:
-	xor	edx, edx
-.LBB2_1009:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_1011
-.LBB2_1010:                             # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_1010
-.LBB2_1011:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_1012:                             # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
-	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
-	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_1012
-	jmp	.LBB2_1109
-.LBB2_223:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.224:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_225
-# %bb.403:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_581
-# %bb.404:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_581
-.LBB2_225:
-	xor	esi, esi
-.LBB2_1017:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1019
-.LBB2_1018:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1018
-.LBB2_1019:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_1020:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1020
-	jmp	.LBB2_1109
-.LBB2_226:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.227:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB2_228
-# %bb.406:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_584
-# %bb.407:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_584
-.LBB2_228:
-	xor	edx, edx
-.LBB2_1025:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_1027
-.LBB2_1026:                             # =>This Inner Loop Header: Depth=1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_1026
-.LBB2_1027:
-	cmp	rsi, 3
-	jb	.LBB2_1109
-.LBB2_1028:                             # =>This Inner Loop Header: Depth=1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
-	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
-	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_1028
-	jmp	.LBB2_1109
-.LBB2_229:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.230:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_231
-# %bb.409:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_587
-# %bb.410:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_587
-.LBB2_231:
-	xor	edi, edi
-.LBB2_647:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_649
-.LBB2_648:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_648
-.LBB2_649:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_650:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_650
-	jmp	.LBB2_1109
-.LBB2_232:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.233:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_234
-# %bb.412:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_589
-# %bb.413:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_589
-.LBB2_234:
-	xor	edi, edi
-.LBB2_657:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_659
-.LBB2_658:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_658
-.LBB2_659:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_660:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_660
-	jmp	.LBB2_1109
-.LBB2_235:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.236:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_237
-# %bb.415:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_591
-# %bb.416:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_591
-.LBB2_237:
-	xor	esi, esi
-.LBB2_1033:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1035
-.LBB2_1034:                             # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1034
-.LBB2_1035:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1036:                             # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1036
-	jmp	.LBB2_1109
-.LBB2_238:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.239:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_240
-# %bb.418:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_594
-# %bb.419:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_594
-.LBB2_240:
-	xor	esi, esi
-.LBB2_1041:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1043
-.LBB2_1042:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1042
-.LBB2_1043:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1044:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1044
-	jmp	.LBB2_1109
-.LBB2_241:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.242:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_243
-# %bb.421:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_597
-# %bb.422:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_597
-.LBB2_243:
-	xor	esi, esi
-.LBB2_1049:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1051
-.LBB2_1050:                             # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1050
-.LBB2_1051:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1052:                             # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1052
-	jmp	.LBB2_1109
-.LBB2_244:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.245:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_246
-# %bb.424:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_600
-# %bb.425:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_600
-.LBB2_246:
-	xor	esi, esi
-.LBB2_1057:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1059
-.LBB2_1058:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1058
-.LBB2_1059:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1060:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1060
-	jmp	.LBB2_1109
-.LBB2_247:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.248:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_249
-# %bb.427:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_603
-# %bb.428:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_603
-.LBB2_249:
-	xor	esi, esi
-.LBB2_1065:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1067
-.LBB2_1066:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1066
-.LBB2_1067:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1068:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1068
-	jmp	.LBB2_1109
-.LBB2_250:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.251:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_252
-# %bb.430:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_606
-# %bb.431:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_606
-.LBB2_252:
-	xor	esi, esi
-.LBB2_1073:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1075
-.LBB2_1074:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1074
-.LBB2_1075:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1076:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1076
-	jmp	.LBB2_1109
-.LBB2_253:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.254:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_255
-# %bb.433:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_609
-# %bb.434:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_609
-.LBB2_255:
-	xor	esi, esi
-.LBB2_1081:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1083
-.LBB2_1082:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1082
-.LBB2_1083:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1084:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1084
-	jmp	.LBB2_1109
-.LBB2_256:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.257:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_258
-# %bb.436:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_612
-# %bb.437:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_612
-.LBB2_258:
-	xor	esi, esi
-.LBB2_1089:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1091
-.LBB2_1090:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1090
-.LBB2_1091:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_1092:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1092
-	jmp	.LBB2_1109
-.LBB2_259:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.260:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_261
-# %bb.439:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_615
-# %bb.440:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_615
-.LBB2_261:
-	xor	esi, esi
-.LBB2_1097:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1099
-.LBB2_1098:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1098
-.LBB2_1099:
-	cmp	r9, 3
-	jb	.LBB2_1109
-.LBB2_1100:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1100
-	jmp	.LBB2_1109
-.LBB2_262:
-	test	r9d, r9d
-	jle	.LBB2_1109
-# %bb.263:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_264
-# %bb.442:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_618
-# %bb.443:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_618
-.LBB2_264:
-	xor	esi, esi
-.LBB2_1105:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1107
-.LBB2_1106:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1106
-.LBB2_1107:
-	cmp	rdx, 3
-	jb	.LBB2_1109
-.LBB2_1108:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1108
-	jmp	.LBB2_1109
-.LBB2_445:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_661
-# %bb.446:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_447:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_447
-	jmp	.LBB2_662
-.LBB2_448:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_669
-# %bb.449:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_450:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_450
-	jmp	.LBB2_670
-.LBB2_451:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_677
-# %bb.452:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_453:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_453
-	jmp	.LBB2_678
-.LBB2_454:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r11d
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_685
-# %bb.455:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_456:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_456
-	jmp	.LBB2_686
-.LBB2_457:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_693
-# %bb.458:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_459:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_459
-	jmp	.LBB2_694
-.LBB2_460:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r11d
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_701
-# %bb.461:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_462:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_462
-	jmp	.LBB2_702
-.LBB2_463:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_709
-# %bb.464:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_465:                              # =>This Inner Loop Header: Depth=1
-	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vmulpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vmulpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_465
-	jmp	.LBB2_710
-.LBB2_466:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_717
-# %bb.467:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_468:                              # =>This Inner Loop Header: Depth=1
-	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vmulpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vmulpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_468
-	jmp	.LBB2_718
-.LBB2_469:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_725
-# %bb.470:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_471:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_471
-	jmp	.LBB2_726
-.LBB2_472:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_733
-# %bb.473:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_474:                              # =>This Inner Loop Header: Depth=1
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_474
-	jmp	.LBB2_734
-.LBB2_475:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_741
-# %bb.476:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_477:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_477
-	jmp	.LBB2_742
-.LBB2_478:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_749
-# %bb.479:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_480:                              # =>This Inner Loop Header: Depth=1
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_480
-	jmp	.LBB2_750
-.LBB2_481:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, edx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB2_621
-# %bb.482:
-	xor	esi, esi
-	jmp	.LBB2_623
-.LBB2_483:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, edx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB2_631
-# %bb.484:
-	xor	esi, esi
-	jmp	.LBB2_633
-.LBB2_485:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_757
-# %bb.486:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_487:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_487
-	jmp	.LBB2_758
-.LBB2_488:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_765
-# %bb.489:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_490:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_490
-	jmp	.LBB2_766
-.LBB2_491:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_773
-# %bb.492:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_493:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_493
-	jmp	.LBB2_774
-.LBB2_494:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_781
-# %bb.495:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_496:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_496
-	jmp	.LBB2_782
-.LBB2_497:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rdx, rdx
-	je	.LBB2_789
-# %bb.498:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_499:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_499
-	jmp	.LBB2_790
-.LBB2_500:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rdx, rdx
-	je	.LBB2_797
-# %bb.501:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_502:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_502
-	jmp	.LBB2_798
-.LBB2_503:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_805
-# %bb.504:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_505:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_505
-	jmp	.LBB2_806
-.LBB2_506:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r11
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_813
-# %bb.507:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_508:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_508
-	jmp	.LBB2_814
-.LBB2_509:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_821
-# %bb.510:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_511:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_511
-	jmp	.LBB2_822
-.LBB2_512:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r11
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_829
-# %bb.513:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_514:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_514
-	jmp	.LBB2_830
-.LBB2_515:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_837
-# %bb.516:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_517:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_517
-	jmp	.LBB2_838
-.LBB2_518:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_845
-# %bb.519:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_520:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_520
-	jmp	.LBB2_846
-.LBB2_521:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_853
-# %bb.522:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_523:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_523
-	jmp	.LBB2_854
-.LBB2_524:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_861
-# %bb.525:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_526:                              # =>This Inner Loop Header: Depth=1
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_526
-	jmp	.LBB2_862
-.LBB2_527:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_869
-# %bb.528:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_529:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_529
-	jmp	.LBB2_870
-.LBB2_530:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_877
-# %bb.531:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_532:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_532
-	jmp	.LBB2_878
-.LBB2_533:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_885
-# %bb.534:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_535:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_535
-	jmp	.LBB2_886
-.LBB2_536:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_893
-# %bb.537:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_538:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_538
-	jmp	.LBB2_894
-.LBB2_539:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_901
-# %bb.540:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_541:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_541
-	jmp	.LBB2_902
-.LBB2_542:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_909
-# %bb.543:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_544:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_544
-	jmp	.LBB2_910
-.LBB2_545:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_917
-# %bb.546:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_547:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_547
-	jmp	.LBB2_918
-.LBB2_548:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_925
-# %bb.549:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_550:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_550
-	jmp	.LBB2_926
-.LBB2_551:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rdx, rdx
-	je	.LBB2_933
-# %bb.552:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_553:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_553
-	jmp	.LBB2_934
-.LBB2_554:
-	mov	edx, eax
-	and	edx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_941
-# %bb.555:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_556:                              # =>This Inner Loop Header: Depth=1
-	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vmulps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vmulps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_556
-	jmp	.LBB2_942
-.LBB2_557:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rdx, rdx
-	je	.LBB2_949
-# %bb.558:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_559:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 128]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 160]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 192]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_559
-	jmp	.LBB2_950
-.LBB2_560:
-	mov	edx, eax
-	and	edx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_957
-# %bb.561:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_562:                              # =>This Inner Loop Header: Depth=1
-	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vmulps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vmulps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_562
-	jmp	.LBB2_958
-.LBB2_563:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_965
-# %bb.564:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_565:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_565
-	jmp	.LBB2_966
-.LBB2_566:
-	mov	edx, eax
-	and	edx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_973
-# %bb.567:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_568:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_568
-	jmp	.LBB2_974
-.LBB2_569:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r11
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_981
-# %bb.570:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_571:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_571
-	jmp	.LBB2_982
-.LBB2_572:
-	mov	edx, eax
-	and	edx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_989
-# %bb.573:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_574:                              # =>This Inner Loop Header: Depth=1
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_574
-	jmp	.LBB2_990
-.LBB2_575:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_997
-# %bb.576:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_577:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_577
-	jmp	.LBB2_998
-.LBB2_578:
-	mov	edx, eax
-	and	edx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_1005
-# %bb.579:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_580:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_580
-	jmp	.LBB2_1006
-.LBB2_581:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r11
-	vpbroadcastq	ymm0, xmm0
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1013
-# %bb.582:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_583:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_583
-	jmp	.LBB2_1014
-.LBB2_584:
-	mov	edx, eax
-	and	edx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_1021
-# %bb.585:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_586:                              # =>This Inner Loop Header: Depth=1
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_586
-	jmp	.LBB2_1022
-.LBB2_587:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, edx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB2_641
-# %bb.588:
-	xor	esi, esi
-	jmp	.LBB2_643
-.LBB2_589:
-	mov	edi, r10d
-	and	edi, -32
-	vmovd	xmm0, edx
-	vpbroadcastb	ymm0, xmm0
-	lea	rsi, [rdi - 32]
-	mov	rax, rsi
-	shr	rax, 5
-	add	rax, 1
-	mov	r9d, eax
-	and	r9d, 3
-	cmp	rsi, 96
-	jae	.LBB2_651
-# %bb.590:
-	xor	esi, esi
-	jmp	.LBB2_653
-.LBB2_591:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1029
-# %bb.592:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_593:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_593
-	jmp	.LBB2_1030
-.LBB2_594:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1037
-# %bb.595:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_596:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_596
-	jmp	.LBB2_1038
-.LBB2_597:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1045
-# %bb.598:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_599:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_599
-	jmp	.LBB2_1046
-.LBB2_600:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
-	mov	r9, rdx
-	shr	r9, 7
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1053
-# %bb.601:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_602:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rdx, 2
-	jne	.LBB2_602
-	jmp	.LBB2_1054
-.LBB2_603:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1061
-# %bb.604:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_605:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_605
-	jmp	.LBB2_1062
-.LBB2_606:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1069
-# %bb.607:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_608:                              # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_608
-	jmp	.LBB2_1070
-.LBB2_609:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1077
-# %bb.610:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_611:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_611
-	jmp	.LBB2_1078
-.LBB2_612:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r11d
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1085
-# %bb.613:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_614:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_614
-	jmp	.LBB2_1086
-.LBB2_615:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1093
-# %bb.616:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_617:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_617
-	jmp	.LBB2_1094
-.LBB2_618:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r11d
-	vpbroadcastd	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1101
-# %bb.619:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_620:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_620
-	jmp	.LBB2_1102
-.LBB2_621:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_622:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB2_622
-.LBB2_623:
-	test	r9, r9
-	je	.LBB2_626
-# %bb.624:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_625:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB2_625
-.LBB2_626:
-	cmp	rdi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_627
-.LBB2_631:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_632:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB2_632
-.LBB2_633:
-	test	r9, r9
-	je	.LBB2_636
-# %bb.634:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_635:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB2_635
-.LBB2_636:
-	cmp	rdi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_637
-.LBB2_641:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_642:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB2_642
-.LBB2_643:
-	test	r9, r9
-	je	.LBB2_646
-# %bb.644:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_645:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB2_645
-.LBB2_646:
-	cmp	rdi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_647
-.LBB2_651:
-	and	rax, -4
-	neg	rax
-	xor	esi, esi
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_652:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 64]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 96]
-	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm2
-	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm2
-	vpackuswb	ymm4, ymm4, ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
-	sub	rsi, -128
-	add	rax, 4
-	jne	.LBB2_652
-.LBB2_653:
-	test	r9, r9
-	je	.LBB2_656
-# %bb.654:
-	neg	r9
-	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-.LBB2_655:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
-	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
-	vpmullw	ymm4, ymm4, ymm1
-	vpand	ymm4, ymm4, ymm2
-	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
-	vpmullw	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm2
-	vpackuswb	ymm3, ymm3, ymm4
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	inc	r9
-	jne	.LBB2_655
-.LBB2_656:
-	cmp	rdi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_657
-.LBB2_661:
-	xor	edi, edi
-.LBB2_662:
-	test	r9b, 1
-	je	.LBB2_664
-# %bb.663:
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_664:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_665
-.LBB2_669:
-	xor	edi, edi
-.LBB2_670:
-	test	r9b, 1
-	je	.LBB2_672
-# %bb.671:
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_672:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_673
-.LBB2_677:
-	xor	edi, edi
-.LBB2_678:
-	test	r9b, 1
-	je	.LBB2_680
-# %bb.679:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_680:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_681
-.LBB2_685:
-	xor	edi, edi
-.LBB2_686:
-	test	r9b, 1
-	je	.LBB2_688
-# %bb.687:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_688:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_689
-.LBB2_693:
-	xor	edi, edi
-.LBB2_694:
-	test	r9b, 1
-	je	.LBB2_696
-# %bb.695:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_696:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_697
-.LBB2_701:
-	xor	edi, edi
-.LBB2_702:
-	test	r9b, 1
-	je	.LBB2_704
-# %bb.703:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_704:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_705
-.LBB2_709:
-	xor	edi, edi
-.LBB2_710:
-	test	r9b, 1
-	je	.LBB2_712
-# %bb.711:
-	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vmulpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_712:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_713
-.LBB2_717:
-	xor	edi, edi
-.LBB2_718:
-	test	r9b, 1
-	je	.LBB2_720
-# %bb.719:
-	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vmulpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_720:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_721
-.LBB2_725:
-	xor	edi, edi
-.LBB2_726:
-	test	r9b, 1
-	je	.LBB2_728
-# %bb.727:
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_728:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_729
-.LBB2_733:
-	xor	edi, edi
-.LBB2_734:
-	test	r9b, 1
-	je	.LBB2_736
-# %bb.735:
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_736:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_737
-.LBB2_741:
-	xor	edi, edi
-.LBB2_742:
-	test	r9b, 1
-	je	.LBB2_744
-# %bb.743:
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_744:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_745
-.LBB2_749:
-	xor	edi, edi
-.LBB2_750:
-	test	r9b, 1
-	je	.LBB2_752
-# %bb.751:
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_752:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_753
-.LBB2_757:
-	xor	edi, edi
-.LBB2_758:
-	test	r9b, 1
-	je	.LBB2_760
-# %bb.759:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_760:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_761
-.LBB2_765:
-	xor	edi, edi
-.LBB2_766:
-	test	r9b, 1
-	je	.LBB2_768
-# %bb.767:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_768:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_769
-.LBB2_773:
-	xor	edi, edi
-.LBB2_774:
-	test	r9b, 1
-	je	.LBB2_776
-# %bb.775:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_776:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_777
-.LBB2_781:
-	xor	edi, edi
-.LBB2_782:
-	test	r9b, 1
-	je	.LBB2_784
-# %bb.783:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_784:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_785
-.LBB2_789:
-	xor	edi, edi
-.LBB2_790:
-	test	r9b, 1
-	je	.LBB2_792
-# %bb.791:
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_792:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_793
-.LBB2_797:
-	xor	edi, edi
-.LBB2_798:
-	test	r9b, 1
-	je	.LBB2_800
-# %bb.799:
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_800:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_801
-.LBB2_805:
-	xor	edi, edi
-.LBB2_806:
-	test	r9b, 1
-	je	.LBB2_808
-# %bb.807:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_808:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_809
-.LBB2_813:
-	xor	edi, edi
-.LBB2_814:
-	test	r9b, 1
-	je	.LBB2_816
-# %bb.815:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_816:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_817
-.LBB2_821:
-	xor	edi, edi
-.LBB2_822:
-	test	r9b, 1
-	je	.LBB2_824
-# %bb.823:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_824:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_825
-.LBB2_829:
-	xor	edi, edi
-.LBB2_830:
-	test	r9b, 1
-	je	.LBB2_832
-# %bb.831:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_832:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_833
-.LBB2_837:
-	xor	edi, edi
-.LBB2_838:
-	test	r9b, 1
-	je	.LBB2_840
-# %bb.839:
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_840:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_841
-.LBB2_845:
-	xor	edi, edi
-.LBB2_846:
-	test	r9b, 1
-	je	.LBB2_848
-# %bb.847:
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_848:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_849
-.LBB2_853:
-	xor	edi, edi
-.LBB2_854:
-	test	r9b, 1
-	je	.LBB2_856
-# %bb.855:
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_856:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_857
-.LBB2_861:
-	xor	edi, edi
-.LBB2_862:
-	test	r9b, 1
-	je	.LBB2_864
-# %bb.863:
-	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpmullw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_864:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_865
-.LBB2_869:
-	xor	edi, edi
-.LBB2_870:
-	test	r9b, 1
-	je	.LBB2_872
-# %bb.871:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_872:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_873
-.LBB2_877:
-	xor	edi, edi
-.LBB2_878:
-	test	r9b, 1
-	je	.LBB2_880
-# %bb.879:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_880:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_881
-.LBB2_885:
-	xor	edi, edi
-.LBB2_886:
-	test	r9b, 1
-	je	.LBB2_888
-# %bb.887:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_888:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_889
-.LBB2_893:
-	xor	edi, edi
-.LBB2_894:
-	test	r9b, 1
-	je	.LBB2_896
-# %bb.895:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_896:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_897
-.LBB2_901:
-	xor	edi, edi
-.LBB2_902:
-	test	r9b, 1
-	je	.LBB2_904
-# %bb.903:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_904:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_905
-.LBB2_909:
-	xor	edi, edi
-.LBB2_910:
-	test	r9b, 1
-	je	.LBB2_912
-# %bb.911:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_912:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_913
-.LBB2_917:
-	xor	edi, edi
-.LBB2_918:
-	test	r9b, 1
-	je	.LBB2_920
-# %bb.919:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_920:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_921
-.LBB2_925:
-	xor	edi, edi
-.LBB2_926:
-	test	r9b, 1
-	je	.LBB2_928
-# %bb.927:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB2_928:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_929
-.LBB2_933:
-	xor	edi, edi
-.LBB2_934:
-	test	r9b, 1
-	je	.LBB2_936
-# %bb.935:
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_936:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_937
-.LBB2_941:
-	xor	edi, edi
-.LBB2_942:
-	test	r9b, 1
-	je	.LBB2_944
-# %bb.943:
-	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vmulps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_944:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_945
-.LBB2_949:
-	xor	edi, edi
-.LBB2_950:
-	test	r9b, 1
-	je	.LBB2_952
-# %bb.951:
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_952:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_953
-.LBB2_957:
-	xor	edi, edi
-.LBB2_958:
-	test	r9b, 1
-	je	.LBB2_960
-# %bb.959:
-	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vmulps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_960:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_961
-.LBB2_965:
-	xor	edi, edi
-.LBB2_966:
-	test	r9b, 1
-	je	.LBB2_968
-# %bb.967:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_968:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_969
-.LBB2_973:
-	xor	edi, edi
-.LBB2_974:
-	test	r9b, 1
-	je	.LBB2_976
-# %bb.975:
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_976:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_977
-.LBB2_981:
-	xor	edi, edi
-.LBB2_982:
-	test	r9b, 1
-	je	.LBB2_984
-# %bb.983:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_984:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_985
-.LBB2_989:
-	xor	edi, edi
-.LBB2_990:
-	test	r9b, 1
-	je	.LBB2_992
-# %bb.991:
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_992:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_993
-.LBB2_997:
-	xor	edi, edi
-.LBB2_998:
-	test	r9b, 1
-	je	.LBB2_1000
-# %bb.999:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_1000:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1001
-.LBB2_1005:
-	xor	edi, edi
-.LBB2_1006:
-	test	r9b, 1
-	je	.LBB2_1008
-# %bb.1007:
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_1008:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_1009
-.LBB2_1013:
-	xor	edi, edi
-.LBB2_1014:
-	test	r9b, 1
-	je	.LBB2_1016
-# %bb.1015:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB2_1016:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1017
-.LBB2_1021:
-	xor	edi, edi
-.LBB2_1022:
-	test	r9b, 1
-	je	.LBB2_1024
-# %bb.1023:
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_1024:
-	cmp	rdx, rax
-	je	.LBB2_1109
-	jmp	.LBB2_1025
-.LBB2_1029:
-	xor	edi, edi
-.LBB2_1030:
-	test	r9b, 1
-	je	.LBB2_1032
-# %bb.1031:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_1032:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1033
-.LBB2_1037:
-	xor	edi, edi
-.LBB2_1038:
-	test	r9b, 1
-	je	.LBB2_1040
-# %bb.1039:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_1040:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1041
-.LBB2_1045:
-	xor	edi, edi
-.LBB2_1046:
-	test	r9b, 1
-	je	.LBB2_1048
-# %bb.1047:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_1048:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1049
-.LBB2_1053:
-	xor	edi, edi
-.LBB2_1054:
-	test	r9b, 1
-	je	.LBB2_1056
-# %bb.1055:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB2_1056:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1057
-.LBB2_1061:
-	xor	edi, edi
-.LBB2_1062:
-	test	r9b, 1
-	je	.LBB2_1064
-# %bb.1063:
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_1064:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1065
-.LBB2_1069:
-	xor	edi, edi
-.LBB2_1070:
-	test	r9b, 1
-	je	.LBB2_1072
-# %bb.1071:
-	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_1072:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1073
-.LBB2_1077:
-	xor	edi, edi
-.LBB2_1078:
-	test	r9b, 1
-	je	.LBB2_1080
-# %bb.1079:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_1080:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1081
-.LBB2_1085:
-	xor	edi, edi
-.LBB2_1086:
-	test	r9b, 1
-	je	.LBB2_1088
-# %bb.1087:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_1088:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1089
-.LBB2_1093:
-	xor	edi, edi
-.LBB2_1094:
-	test	r9b, 1
-	je	.LBB2_1096
-# %bb.1095:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_1096:
-	cmp	rsi, r10
-	je	.LBB2_1109
-	jmp	.LBB2_1097
-.LBB2_1101:
-	xor	edi, edi
-.LBB2_1102:
-	test	r9b, 1
-	je	.LBB2_1104
-# %bb.1103:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB2_1104:
-	cmp	rsi, r10
-	jne	.LBB2_1105
-.LBB2_1109:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end2:
-	.size	arithmetic_scalar_arr_avx2, .Lfunc_end2-arithmetic_scalar_arr_avx2
-                                        # -- End function
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function arithmetic_unary_same_types_avx2
-.LCPI3_0:
-	.quad	0x8000000000000000              # double -0
-.LCPI3_1:
-	.quad	0x3ff0000000000000              # double 1
-.LCPI3_4:
-	.quad	1                               # 0x1
-.LCPI3_8:
-	.quad	9223372036854775807             # 0x7fffffffffffffff
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI3_2:
-	.quad	0x8000000000000000              # double -0
-	.quad	0x8000000000000000              # double -0
-.LCPI3_11:
-	.byte	0                               # 0x0
-	.byte	4                               # 0x4
-	.byte	8                               # 0x8
-	.byte	12                              # 0xc
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2
-.LCPI3_3:
-	.long	1                               # 0x1
-.LCPI3_7:
-	.long	0x80000000                      # float -0
-.LCPI3_9:
-	.long	2147483647                      # 0x7fffffff
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5
-.LCPI3_5:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-.LCPI3_6:
-	.zero	32,1
-.LCPI3_10:
-	.byte	0                               # 0x0
-	.byte	1                               # 0x1
-	.byte	4                               # 0x4
-	.byte	5                               # 0x5
-	.byte	8                               # 0x8
-	.byte	9                               # 0x9
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	8                               # 0x8
-	.byte	9                               # 0x9
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	14                              # 0xe
-	.byte	15                              # 0xf
-	.byte	16                              # 0x10
-	.byte	17                              # 0x11
-	.byte	20                              # 0x14
-	.byte	21                              # 0x15
-	.byte	24                              # 0x18
-	.byte	25                              # 0x19
-	.byte	28                              # 0x1c
-	.byte	29                              # 0x1d
-	.byte	24                              # 0x18
-	.byte	25                              # 0x19
-	.byte	28                              # 0x1c
-	.byte	29                              # 0x1d
-	.byte	28                              # 0x1c
-	.byte	29                              # 0x1d
-	.byte	30                              # 0x1e
-	.byte	31                              # 0x1f
-	.text
-	.globl	arithmetic_unary_same_types_avx2
-	.p2align	4, 0x90
-	.type	arithmetic_unary_same_types_avx2,@function
-arithmetic_unary_same_types_avx2:       # @arithmetic_unary_same_types_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 19
-	jle	.LBB3_12
-# %bb.1:
-	cmp	sil, 20
-	je	.LBB3_22
-# %bb.2:
-	cmp	sil, 25
-	je	.LBB3_30
-# %bb.3:
-	cmp	sil, 26
-	jne	.LBB3_865
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB3_46
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB3_81
-# %bb.6:
-	cmp	edi, 4
-	je	.LBB3_131
-# %bb.7:
-	cmp	edi, 5
-	je	.LBB3_134
-# %bb.8:
-	cmp	edi, 6
-	jne	.LBB3_865
-# %bb.9:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.10:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB3_221
-# %bb.11:
-	xor	edx, edx
-	jmp	.LBB3_373
-.LBB3_12:
-	cmp	sil, 4
-	je	.LBB3_38
-# %bb.13:
-	cmp	sil, 5
-	jne	.LBB3_865
-# %bb.14:
-	cmp	edi, 6
-	jg	.LBB3_53
-# %bb.15:
-	cmp	edi, 3
-	jle	.LBB3_86
-# %bb.16:
-	cmp	edi, 4
-	je	.LBB3_137
-# %bb.17:
-	cmp	edi, 5
-	je	.LBB3_140
-# %bb.18:
-	cmp	edi, 6
-	jne	.LBB3_865
-# %bb.19:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.20:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_21
-# %bb.223:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_374
-# %bb.224:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_374
-.LBB3_21:
-	xor	esi, esi
-.LBB3_616:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_618
-.LBB3_617:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_617
-.LBB3_618:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_619:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_619
-	jmp	.LBB3_865
-.LBB3_22:
-	cmp	edi, 6
-	jg	.LBB3_60
-# %bb.23:
-	cmp	edi, 3
-	jle	.LBB3_91
-# %bb.24:
-	cmp	edi, 4
-	je	.LBB3_143
-# %bb.25:
-	cmp	edi, 5
-	je	.LBB3_146
-# %bb.26:
-	cmp	edi, 6
-	jne	.LBB3_865
-# %bb.27:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.28:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_29
-# %bb.226:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_377
-# %bb.227:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_377
-.LBB3_29:
-	xor	esi, esi
-.LBB3_380:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_382
-.LBB3_381:                              # =>This Inner Loop Header: Depth=1
-	xor	edi, edi
-	cmp	dword ptr [rdx + 4*rsi], 0
-	setne	dil
-	mov	dword ptr [rcx + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_381
-.LBB3_382:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_383:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi + 4], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi + 8], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi + 12], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_383
-	jmp	.LBB3_865
-.LBB3_30:
-	cmp	edi, 6
-	jg	.LBB3_67
-# %bb.31:
-	cmp	edi, 3
-	jle	.LBB3_96
-# %bb.32:
-	cmp	edi, 4
-	je	.LBB3_149
-# %bb.33:
-	cmp	edi, 5
-	je	.LBB3_152
-# %bb.34:
-	cmp	edi, 6
-	jne	.LBB3_865
-# %bb.35:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.36:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_37
-# %bb.229:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_384
-# %bb.230:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_384
-.LBB3_37:
-	xor	esi, esi
-.LBB3_624:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_626
-.LBB3_625:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_625
-.LBB3_626:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_627:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_627
-	jmp	.LBB3_865
-.LBB3_38:
-	cmp	edi, 6
-	jg	.LBB3_74
-# %bb.39:
-	cmp	edi, 3
-	jle	.LBB3_101
-# %bb.40:
-	cmp	edi, 4
-	je	.LBB3_155
-# %bb.41:
-	cmp	edi, 5
-	je	.LBB3_158
-# %bb.42:
-	cmp	edi, 6
-	jne	.LBB3_865
-# %bb.43:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.44:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_45
-# %bb.232:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_387
-# %bb.233:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_387
-.LBB3_45:
-	xor	esi, esi
-.LBB3_632:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_634
-.LBB3_633:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_633
-.LBB3_634:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_635:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_635
-	jmp	.LBB3_865
-.LBB3_46:
-	cmp	edi, 8
-	jle	.LBB3_106
-# %bb.47:
-	cmp	edi, 9
-	je	.LBB3_161
-# %bb.48:
-	cmp	edi, 11
-	je	.LBB3_164
-# %bb.49:
-	cmp	edi, 12
-	jne	.LBB3_865
-# %bb.50:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.51:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_52
-# %bb.235:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_390
-# %bb.236:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_390
-.LBB3_52:
-	xor	esi, esi
-.LBB3_640:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_643
-# %bb.641:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_642:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_642
-.LBB3_643:
-	cmp	rax, 3
-	jb	.LBB3_865
-# %bb.644:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_645:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi + 8], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi + 16], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_645
-	jmp	.LBB3_865
-.LBB3_53:
-	cmp	edi, 8
-	jle	.LBB3_111
-# %bb.54:
-	cmp	edi, 9
-	je	.LBB3_167
-# %bb.55:
-	cmp	edi, 11
-	je	.LBB3_170
-# %bb.56:
-	cmp	edi, 12
-	jne	.LBB3_865
-# %bb.57:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.58:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_59
-# %bb.238:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_393
-# %bb.239:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_393
-.LBB3_59:
-	xor	esi, esi
-.LBB3_650:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_653
-# %bb.651:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_652:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_652
-.LBB3_653:
-	cmp	rax, 3
-	jb	.LBB3_865
-# %bb.654:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_655:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi + 8], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi + 16], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovlpd	qword ptr [rcx + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_655
-	jmp	.LBB3_865
-.LBB3_60:
-	cmp	edi, 8
-	jle	.LBB3_116
-# %bb.61:
-	cmp	edi, 9
-	je	.LBB3_173
-# %bb.62:
-	cmp	edi, 11
-	je	.LBB3_176
-# %bb.63:
-	cmp	edi, 12
-	jne	.LBB3_865
-# %bb.64:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.65:
-	mov	eax, r8d
-	cmp	r8d, 16
-	jb	.LBB3_66
-# %bb.241:
-	lea	rsi, [rdx + 8*rax]
-	cmp	rsi, rcx
-	jbe	.LBB3_396
-# %bb.242:
-	lea	rsi, [rcx + 8*rax]
-	cmp	rsi, rdx
-	jbe	.LBB3_396
-.LBB3_66:
-	xor	esi, esi
-.LBB3_399:
-	mov	rdi, rsi
-	not	rdi
-	test	al, 1
-	je	.LBB3_401
-# %bb.400:
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vandpd	xmm1, xmm0, xmmword ptr [rip + .LCPI3_2]
-	vmovddup	xmm2, qword ptr [rip + .LCPI3_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-	vorpd	xmm1, xmm2, xmm1
-	vxorpd	xmm2, xmm2, xmm2
-	vcmpeqsd	xmm0, xmm0, xmm2
-	vandnpd	xmm0, xmm0, xmm1
-	vmovlpd	qword ptr [rcx + 8*rsi], xmm0
-	or	rsi, 1
-.LBB3_401:
-	add	rdi, rax
-	je	.LBB3_865
-# %bb.402:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm1, qword ptr [rip + .LCPI3_1] # xmm1 = [1.0E+0,1.0E+0]
-                                        # xmm1 = mem[0,0]
-	vxorpd	xmm2, xmm2, xmm2
-.LBB3_403:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rdx + 8*rsi]   # xmm3 = mem[0],zero
-	vandpd	xmm4, xmm3, xmm0
-	vorpd	xmm4, xmm1, xmm4
-	vcmpeqsd	xmm3, xmm3, xmm2
-	vandnpd	xmm3, xmm3, xmm4
-	vmovlpd	qword ptr [rcx + 8*rsi], xmm3
-	vmovsd	xmm3, qword ptr [rdx + 8*rsi + 8] # xmm3 = mem[0],zero
-	vandpd	xmm4, xmm3, xmm0
-	vorpd	xmm4, xmm1, xmm4
-	vcmpeqsd	xmm3, xmm3, xmm2
-	vandnpd	xmm3, xmm3, xmm4
-	vmovlpd	qword ptr [rcx + 8*rsi + 8], xmm3
-	add	rsi, 2
-	cmp	rax, rsi
-	jne	.LBB3_403
-	jmp	.LBB3_865
-.LBB3_67:
-	cmp	edi, 8
-	jle	.LBB3_121
-# %bb.68:
-	cmp	edi, 9
-	je	.LBB3_179
-# %bb.69:
-	cmp	edi, 11
-	je	.LBB3_182
-# %bb.70:
-	cmp	edi, 12
-	jne	.LBB3_865
-# %bb.71:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.72:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_73
-# %bb.244:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_404
-# %bb.245:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_404
-.LBB3_73:
-	xor	esi, esi
-.LBB3_660:
-	movabs	r10, 9223372036854775807
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_662
-.LBB3_661:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	and	rdi, r10
-	mov	qword ptr [rcx + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_661
-.LBB3_662:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_663:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_663
-	jmp	.LBB3_865
-.LBB3_74:
-	cmp	edi, 8
-	jle	.LBB3_126
-# %bb.75:
-	cmp	edi, 9
-	je	.LBB3_185
-# %bb.76:
-	cmp	edi, 11
-	je	.LBB3_188
-# %bb.77:
-	cmp	edi, 12
-	jne	.LBB3_865
-# %bb.78:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.79:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_80
-# %bb.247:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_407
-# %bb.248:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_407
-.LBB3_80:
-	xor	esi, esi
-.LBB3_668:
-	movabs	r10, 9223372036854775807
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_670
-.LBB3_669:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	and	rdi, r10
-	mov	qword ptr [rcx + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_669
-.LBB3_670:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_671:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_671
-	jmp	.LBB3_865
-.LBB3_81:
-	cmp	edi, 2
-	je	.LBB3_191
-# %bb.82:
-	cmp	edi, 3
-	jne	.LBB3_865
-# %bb.83:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.84:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_85
-# %bb.250:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_410
-# %bb.251:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_410
-.LBB3_85:
-	xor	esi, esi
-.LBB3_676:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_678
-.LBB3_677:                              # =>This Inner Loop Header: Depth=1
-	movzx	r10d, byte ptr [rdx + rsi]
-	xor	eax, eax
-	sub	al, r10b
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_677
-.LBB3_678:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_679:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xor	edi, edi
-	sub	dil, al
-	mov	byte ptr [rcx + rsi + 3], dil
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_679
-	jmp	.LBB3_865
-.LBB3_86:
-	cmp	edi, 2
-	je	.LBB3_194
-# %bb.87:
-	cmp	edi, 3
-	jne	.LBB3_865
-# %bb.88:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.89:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_90
-# %bb.253:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_413
-# %bb.254:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_413
-.LBB3_90:
-	xor	esi, esi
-.LBB3_684:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_686
-.LBB3_685:                              # =>This Inner Loop Header: Depth=1
-	movzx	r10d, byte ptr [rdx + rsi]
-	xor	eax, eax
-	sub	al, r10b
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_685
-.LBB3_686:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_687:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xor	edi, edi
-	sub	dil, al
-	mov	byte ptr [rcx + rsi + 3], dil
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_687
-	jmp	.LBB3_865
-.LBB3_91:
-	cmp	edi, 2
-	je	.LBB3_197
-# %bb.92:
-	cmp	edi, 3
-	jne	.LBB3_865
-# %bb.93:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.94:
-	mov	r11d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_95
-# %bb.256:
-	lea	rsi, [rdx + r11]
-	cmp	rsi, rcx
-	jbe	.LBB3_416
-# %bb.257:
-	lea	rsi, [rcx + r11]
-	cmp	rsi, rdx
-	jbe	.LBB3_416
-.LBB3_95:
-	xor	esi, esi
-.LBB3_419:
-	mov	r10, rsi
-	not	r10
-	test	r11b, 1
-	je	.LBB3_421
-# %bb.420:
-	mov	r8b, byte ptr [rdx + rsi]
-	test	r8b, r8b
-	setne	r9b
-	neg	r9b
-	test	r8b, r8b
-	movzx	r8d, r9b
-	mov	edi, 1
-	cmovle	edi, r8d
-	mov	byte ptr [rcx + rsi], dil
-	or	rsi, 1
-.LBB3_421:
-	add	r10, r11
-	je	.LBB3_865
-# %bb.422:
-	mov	edi, 1
-.LBB3_423:                              # =>This Inner Loop Header: Depth=1
-	movzx	r8d, byte ptr [rdx + rsi]
-	test	r8b, r8b
-	setne	al
-	neg	al
-	test	r8b, r8b
-	movzx	eax, al
-	cmovg	eax, edi
-	mov	byte ptr [rcx + rsi], al
-	movzx	r8d, byte ptr [rdx + rsi + 1]
-	test	r8b, r8b
-	setne	al
-	neg	al
-	test	r8b, r8b
-	movzx	eax, al
-	cmovg	eax, edi
-	mov	byte ptr [rcx + rsi + 1], al
-	add	rsi, 2
-	cmp	r11, rsi
-	jne	.LBB3_423
-	jmp	.LBB3_865
-.LBB3_96:
-	cmp	edi, 2
-	je	.LBB3_200
-# %bb.97:
-	cmp	edi, 3
-	jne	.LBB3_865
-# %bb.98:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.99:
-	mov	r10d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_100
-# %bb.259:
-	lea	rsi, [rdx + r10]
-	cmp	rsi, rcx
-	jbe	.LBB3_424
-# %bb.260:
-	lea	rsi, [rcx + r10]
-	cmp	rsi, rdx
-	jbe	.LBB3_424
-.LBB3_100:
-	xor	esi, esi
-.LBB3_427:
-	mov	r8, rsi
-	not	r8
-	test	r10b, 1
-	je	.LBB3_429
-# %bb.428:
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	r9d, edi
-	sar	r9d, 7
-	add	edi, r9d
-	xor	edi, r9d
-	mov	byte ptr [rcx + rsi], dil
-	or	rsi, 1
-.LBB3_429:
-	add	r8, r10
-	je	.LBB3_865
-.LBB3_430:                              # =>This Inner Loop Header: Depth=1
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	eax, edi
-	sar	eax, 7
-	add	edi, eax
-	xor	edi, eax
-	mov	byte ptr [rcx + rsi], dil
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	edi, eax
-	sar	edi, 7
-	add	eax, edi
-	xor	eax, edi
-	mov	byte ptr [rcx + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB3_430
-	jmp	.LBB3_865
-.LBB3_101:
-	cmp	edi, 2
-	je	.LBB3_203
-# %bb.102:
-	cmp	edi, 3
-	jne	.LBB3_865
-# %bb.103:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.104:
-	mov	r10d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_105
-# %bb.262:
-	lea	rsi, [rdx + r10]
-	cmp	rsi, rcx
-	jbe	.LBB3_431
-# %bb.263:
-	lea	rsi, [rcx + r10]
-	cmp	rsi, rdx
-	jbe	.LBB3_431
-.LBB3_105:
-	xor	esi, esi
-.LBB3_434:
-	mov	r8, rsi
-	not	r8
-	test	r10b, 1
-	je	.LBB3_436
-# %bb.435:
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	r9d, edi
-	sar	r9d, 7
-	add	edi, r9d
-	xor	edi, r9d
-	mov	byte ptr [rcx + rsi], dil
-	or	rsi, 1
-.LBB3_436:
-	add	r8, r10
-	je	.LBB3_865
-.LBB3_437:                              # =>This Inner Loop Header: Depth=1
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	eax, edi
-	sar	eax, 7
-	add	edi, eax
-	xor	edi, eax
-	mov	byte ptr [rcx + rsi], dil
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	edi, eax
-	sar	edi, 7
-	add	eax, edi
-	xor	eax, edi
-	mov	byte ptr [rcx + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB3_437
-	jmp	.LBB3_865
-.LBB3_106:
-	cmp	edi, 7
-	je	.LBB3_206
-# %bb.107:
-	cmp	edi, 8
-	jne	.LBB3_865
-# %bb.108:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.109:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB3_265
-# %bb.110:
-	xor	edx, edx
-	jmp	.LBB3_444
-.LBB3_111:
-	cmp	edi, 7
-	je	.LBB3_209
-# %bb.112:
-	cmp	edi, 8
-	jne	.LBB3_865
-# %bb.113:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.114:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_115
-# %bb.267:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_445
-# %bb.268:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_445
-.LBB3_115:
-	xor	esi, esi
-.LBB3_692:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_694
-.LBB3_693:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_693
-.LBB3_694:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_695:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_695
-	jmp	.LBB3_865
-.LBB3_116:
-	cmp	edi, 7
-	je	.LBB3_212
-# %bb.117:
-	cmp	edi, 8
-	jne	.LBB3_865
-# %bb.118:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.119:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_120
-# %bb.270:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_448
-# %bb.271:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_448
-.LBB3_120:
-	xor	esi, esi
-.LBB3_451:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_453
-.LBB3_452:                              # =>This Inner Loop Header: Depth=1
-	xor	edi, edi
-	cmp	qword ptr [rdx + 8*rsi], 0
-	setne	dil
-	mov	qword ptr [rcx + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_452
-.LBB3_453:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_454:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi + 8], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi + 16], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi + 24], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_454
-	jmp	.LBB3_865
-.LBB3_121:
-	cmp	edi, 7
-	je	.LBB3_215
-# %bb.122:
-	cmp	edi, 8
-	jne	.LBB3_865
-# %bb.123:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.124:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_125
-# %bb.273:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_455
-# %bb.274:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_455
-.LBB3_125:
-	xor	esi, esi
-.LBB3_700:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_702
-.LBB3_701:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_701
-.LBB3_702:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_703:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_703
-	jmp	.LBB3_865
-.LBB3_126:
-	cmp	edi, 7
-	je	.LBB3_218
-# %bb.127:
-	cmp	edi, 8
-	jne	.LBB3_865
-# %bb.128:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.129:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_130
-# %bb.276:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_458
-# %bb.277:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_458
-.LBB3_130:
-	xor	esi, esi
-.LBB3_708:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_710
-.LBB3_709:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_709
-.LBB3_710:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_711:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_711
-	jmp	.LBB3_865
-.LBB3_131:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.132:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jae	.LBB3_279
-# %bb.133:
-	xor	edx, edx
-	jmp	.LBB3_467
-.LBB3_134:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.135:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_136
-# %bb.281:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_468
-# %bb.282:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_468
-.LBB3_136:
-	xor	esi, esi
-.LBB3_716:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_718
-.LBB3_717:                              # =>This Inner Loop Header: Depth=1
-	xor	edi, edi
-	sub	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_717
-.LBB3_718:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_719:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_719
-	jmp	.LBB3_865
-.LBB3_137:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.138:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_139
-# %bb.284:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_471
-# %bb.285:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_471
-.LBB3_139:
-	xor	esi, esi
-.LBB3_724:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_726
-.LBB3_725:                              # =>This Inner Loop Header: Depth=1
-	xor	edi, edi
-	sub	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_725
-.LBB3_726:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_727:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_727
-	jmp	.LBB3_865
-.LBB3_140:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.141:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_142
-# %bb.287:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_474
-# %bb.288:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_474
-.LBB3_142:
-	xor	esi, esi
-.LBB3_732:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_734
-.LBB3_733:                              # =>This Inner Loop Header: Depth=1
-	xor	edi, edi
-	sub	di, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_733
-.LBB3_734:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_735:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_735
-	jmp	.LBB3_865
-.LBB3_143:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.144:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_145
-# %bb.290:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_477
-# %bb.291:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_477
-.LBB3_145:
-	xor	esi, esi
-.LBB3_740:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_742
-.LBB3_741:                              # =>This Inner Loop Header: Depth=1
-	xor	edi, edi
-	cmp	word ptr [rdx + 2*rsi], 0
-	setne	dil
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_741
-.LBB3_742:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_743:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi + 2], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi + 4], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi + 6], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_743
-	jmp	.LBB3_865
-.LBB3_146:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.147:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_148
-# %bb.293:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_480
-# %bb.294:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_480
-.LBB3_148:
-	xor	esi, esi
-.LBB3_748:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_750
-# %bb.749:
-	movzx	r8d, word ptr [rdx + 2*rsi]
-	xor	r10d, r10d
-	test	r8w, r8w
-	setne	r10b
-	neg	r10d
-	test	r8w, r8w
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [rcx + 2*rsi], di
-	or	rsi, 1
-.LBB3_750:
-	add	rax, r9
-	je	.LBB3_865
-# %bb.751:
-	mov	r8d, 1
-.LBB3_752:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, r8d
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	xor	edi, edi
-	test	ax, ax
-	setne	dil
-	neg	edi
-	test	ax, ax
-	cmovg	edi, r8d
-	mov	word ptr [rcx + 2*rsi + 2], di
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_752
-	jmp	.LBB3_865
-.LBB3_149:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.150:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_151
-# %bb.296:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_483
-# %bb.297:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_483
-.LBB3_151:
-	xor	esi, esi
-.LBB3_598:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_600
-.LBB3_599:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_599
-.LBB3_600:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_601:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_601
-	jmp	.LBB3_865
-.LBB3_152:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.153:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_154
-# %bb.299:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_485
-# %bb.300:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_485
-.LBB3_154:
-	xor	esi, esi
-.LBB3_757:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_759
-# %bb.758:
-	movsx	edi, word ptr [rdx + 2*rsi]
-	mov	r8d, edi
-	sar	r8d, 15
-	add	edi, r8d
-	xor	edi, r8d
-	mov	word ptr [rcx + 2*rsi], di
-	or	rsi, 1
-.LBB3_759:
-	add	rax, r9
-	je	.LBB3_865
-.LBB3_760:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_760
-	jmp	.LBB3_865
-.LBB3_155:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.156:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_157
-# %bb.302:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_488
-# %bb.303:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_488
-.LBB3_157:
-	xor	esi, esi
-.LBB3_608:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_610
-.LBB3_609:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_609
-.LBB3_610:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_611:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_611
-	jmp	.LBB3_865
-.LBB3_158:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.159:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_160
-# %bb.305:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_490
-# %bb.306:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_490
-.LBB3_160:
-	xor	esi, esi
-.LBB3_765:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_767
-# %bb.766:
-	movsx	edi, word ptr [rdx + 2*rsi]
-	mov	r8d, edi
-	sar	r8d, 15
-	add	edi, r8d
-	xor	edi, r8d
-	mov	word ptr [rcx + 2*rsi], di
-	or	rsi, 1
-.LBB3_767:
-	add	rax, r9
-	je	.LBB3_865
-.LBB3_768:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_768
-	jmp	.LBB3_865
-.LBB3_161:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.162:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_163
-# %bb.308:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_493
-# %bb.309:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_493
-.LBB3_163:
-	xor	esi, esi
-.LBB3_773:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_775
-.LBB3_774:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_774
-.LBB3_775:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_776:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_776
-	jmp	.LBB3_865
-.LBB3_164:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.165:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_166
-# %bb.311:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_496
-# %bb.312:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_496
-.LBB3_166:
-	xor	esi, esi
-.LBB3_781:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_784
-# %bb.782:
-	vbroadcastss	xmm0, dword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_783:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_783
-.LBB3_784:
-	cmp	rax, 3
-	jb	.LBB3_865
-# %bb.785:
-	vbroadcastss	xmm0, dword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_786:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi + 4], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi + 8], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_786
-	jmp	.LBB3_865
-.LBB3_167:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.168:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_169
-# %bb.314:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_499
-# %bb.315:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_499
-.LBB3_169:
-	xor	esi, esi
-.LBB3_791:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_793
-.LBB3_792:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_792
-.LBB3_793:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_794:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_794
-	jmp	.LBB3_865
-.LBB3_170:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.171:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_172
-# %bb.317:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_502
-# %bb.318:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_502
-.LBB3_172:
-	xor	esi, esi
-.LBB3_799:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_802
-# %bb.800:
-	vbroadcastss	xmm0, dword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_801:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_801
-.LBB3_802:
-	cmp	rax, 3
-	jb	.LBB3_865
-# %bb.803:
-	vbroadcastss	xmm0, dword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_804:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi + 4], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi + 8], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	vxorpd	xmm1, xmm1, xmm0
-	vmovss	dword ptr [rcx + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_804
-	jmp	.LBB3_865
-.LBB3_173:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.174:
-	mov	r11d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_175
-# %bb.320:
-	lea	rsi, [rdx + 8*r11]
-	cmp	rsi, rcx
-	jbe	.LBB3_505
-# %bb.321:
-	lea	rsi, [rcx + 8*r11]
-	cmp	rsi, rdx
-	jbe	.LBB3_505
-.LBB3_175:
-	xor	esi, esi
-.LBB3_508:
-	mov	r10, rsi
-	not	r10
-	test	r11b, 1
-	je	.LBB3_510
-# %bb.509:
-	mov	r8, qword ptr [rdx + 8*rsi]
-	xor	r9d, r9d
-	test	r8, r8
-	setne	r9b
-	neg	r9
-	test	r8, r8
-	mov	edi, 1
-	cmovle	rdi, r9
-	mov	qword ptr [rcx + 8*rsi], rdi
-	or	rsi, 1
-.LBB3_510:
-	add	r10, r11
-	je	.LBB3_865
-# %bb.511:
-	mov	r8d, 1
-.LBB3_512:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, r8
-	mov	qword ptr [rcx + 8*rsi], rdi
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, r8
-	mov	qword ptr [rcx + 8*rsi + 8], rdi
-	add	rsi, 2
-	cmp	r11, rsi
-	jne	.LBB3_512
-	jmp	.LBB3_865
-.LBB3_176:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.177:
-	mov	eax, r8d
-	cmp	r8d, 32
-	jb	.LBB3_178
-# %bb.323:
-	lea	rsi, [rdx + 4*rax]
-	cmp	rsi, rcx
-	jbe	.LBB3_513
-# %bb.324:
-	lea	rsi, [rcx + 4*rax]
-	cmp	rsi, rdx
-	jbe	.LBB3_513
-.LBB3_178:
-	xor	esi, esi
-.LBB3_516:
-	mov	r8, rsi
-	not	r8
-	test	al, 1
-	je	.LBB3_518
-# %bb.517:
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vmovmskps	edi, xmm0
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	vcvtsi2ss	xmm1, xmm10, edi
-	vxorps	xmm2, xmm2, xmm2
-	vcmpeqss	xmm0, xmm0, xmm2
-	vandnps	xmm0, xmm0, xmm1
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	or	rsi, 1
-.LBB3_518:
-	add	r8, rax
-	je	.LBB3_865
-# %bb.519:
-	vxorps	xmm0, xmm0, xmm0
-.LBB3_520:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vmovmskps	edi, xmm1
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	vcvtsi2ss	xmm2, xmm10, edi
-	vcmpeqss	xmm1, xmm1, xmm0
-	vandnps	xmm1, xmm1, xmm2
-	vmovss	dword ptr [rcx + 4*rsi], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	vmovmskps	edi, xmm1
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	vcvtsi2ss	xmm2, xmm10, edi
-	vcmpeqss	xmm1, xmm1, xmm0
-	vandnps	xmm1, xmm1, xmm2
-	vmovss	dword ptr [rcx + 4*rsi + 4], xmm1
-	add	rsi, 2
-	cmp	rax, rsi
-	jne	.LBB3_520
-	jmp	.LBB3_865
-.LBB3_179:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.180:
-	mov	r10d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_181
-# %bb.326:
-	lea	rsi, [rdx + 8*r10]
-	cmp	rsi, rcx
-	jbe	.LBB3_521
-# %bb.327:
-	lea	rsi, [rcx + 8*r10]
-	cmp	rsi, rdx
-	jbe	.LBB3_521
-.LBB3_181:
-	xor	esi, esi
-.LBB3_524:
-	mov	r9, rsi
-	not	r9
-	test	r10b, 1
-	je	.LBB3_526
-# %bb.525:
-	mov	r8, qword ptr [rdx + 8*rsi]
-	mov	rdi, r8
-	neg	rdi
-	cmovl	rdi, r8
-	mov	qword ptr [rcx + 8*rsi], rdi
-	or	rsi, 1
-.LBB3_526:
-	add	r9, r10
-	je	.LBB3_865
-.LBB3_527:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi], rdi
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi + 8], rdi
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB3_527
-	jmp	.LBB3_865
-.LBB3_182:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.183:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_184
-# %bb.329:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_528
-# %bb.330:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_528
-.LBB3_184:
-	xor	esi, esi
-.LBB3_809:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_812
-# %bb.810:
-	mov	r10d, 2147483647
-.LBB3_811:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	and	eax, r10d
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_811
-.LBB3_812:
-	cmp	r8, 3
-	jb	.LBB3_865
-# %bb.813:
-	mov	eax, 2147483647
-.LBB3_814:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 4]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 8]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 8], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 12]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 12], edi
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_814
-	jmp	.LBB3_865
-.LBB3_185:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.186:
-	mov	r10d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_187
-# %bb.332:
-	lea	rsi, [rdx + 8*r10]
-	cmp	rsi, rcx
-	jbe	.LBB3_531
-# %bb.333:
-	lea	rsi, [rcx + 8*r10]
-	cmp	rsi, rdx
-	jbe	.LBB3_531
-.LBB3_187:
-	xor	esi, esi
-.LBB3_534:
-	mov	r9, rsi
-	not	r9
-	test	r10b, 1
-	je	.LBB3_536
-# %bb.535:
-	mov	r8, qword ptr [rdx + 8*rsi]
-	mov	rdi, r8
-	neg	rdi
-	cmovl	rdi, r8
-	mov	qword ptr [rcx + 8*rsi], rdi
-	or	rsi, 1
-.LBB3_536:
-	add	r9, r10
-	je	.LBB3_865
-.LBB3_537:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi], rdi
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi + 8], rdi
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB3_537
-	jmp	.LBB3_865
-.LBB3_188:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.189:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_190
-# %bb.335:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_538
-# %bb.336:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_538
-.LBB3_190:
-	xor	esi, esi
-.LBB3_819:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_822
-# %bb.820:
-	mov	r10d, 2147483647
-.LBB3_821:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	and	eax, r10d
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_821
-.LBB3_822:
-	cmp	r8, 3
-	jb	.LBB3_865
-# %bb.823:
-	mov	eax, 2147483647
-.LBB3_824:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 4]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 8]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 8], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 12]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 12], edi
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_824
-	jmp	.LBB3_865
-.LBB3_191:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.192:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jae	.LBB3_338
-# %bb.193:
-	xor	edx, edx
-	jmp	.LBB3_547
-.LBB3_194:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.195:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_196
-# %bb.340:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_548
-# %bb.341:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_548
-.LBB3_196:
-	xor	esi, esi
-.LBB3_829:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_831
-.LBB3_830:                              # =>This Inner Loop Header: Depth=1
-	movzx	r10d, byte ptr [rdx + rsi]
-	xor	eax, eax
-	sub	al, r10b
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_830
-.LBB3_831:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_832:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xor	edi, edi
-	sub	dil, al
-	mov	byte ptr [rcx + rsi + 3], dil
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_832
-	jmp	.LBB3_865
-.LBB3_197:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.198:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_199
-# %bb.343:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_551
-# %bb.344:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_551
-.LBB3_199:
-	xor	esi, esi
-.LBB3_554:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_556
-.LBB3_555:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rdx + rsi], 0
-	setne	byte ptr [rcx + rsi]
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_555
-.LBB3_556:
-	cmp	rdi, 3
-	jb	.LBB3_865
-.LBB3_557:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rdx + rsi], 0
-	setne	byte ptr [rcx + rsi]
-	cmp	byte ptr [rdx + rsi + 1], 0
-	setne	byte ptr [rcx + rsi + 1]
-	cmp	byte ptr [rdx + rsi + 2], 0
-	setne	byte ptr [rcx + rsi + 2]
-	cmp	byte ptr [rdx + rsi + 3], 0
-	setne	byte ptr [rcx + rsi + 3]
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_557
-	jmp	.LBB3_865
-.LBB3_200:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.201:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_202
-# %bb.346:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_558
-# %bb.347:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_558
-.LBB3_202:
-	xor	esi, esi
-.LBB3_837:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_839
-.LBB3_838:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_838
-.LBB3_839:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_840:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_840
-	jmp	.LBB3_865
-.LBB3_203:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.204:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB3_205
-# %bb.349:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_561
-# %bb.350:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_561
-.LBB3_205:
-	xor	esi, esi
-.LBB3_845:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_847
-.LBB3_846:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_846
-.LBB3_847:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_848:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_848
-	jmp	.LBB3_865
-.LBB3_206:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.207:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_208
-# %bb.352:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_564
-# %bb.353:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_564
-.LBB3_208:
-	xor	esi, esi
-.LBB3_853:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_855
-.LBB3_854:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_854
-.LBB3_855:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_856:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_856
-	jmp	.LBB3_865
-.LBB3_209:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.210:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_211
-# %bb.355:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_567
-# %bb.356:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_567
-.LBB3_211:
-	xor	esi, esi
-.LBB3_861:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_863
-.LBB3_862:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_862
-.LBB3_863:
-	cmp	r8, 3
-	jb	.LBB3_865
-.LBB3_864:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_864
-	jmp	.LBB3_865
-.LBB3_212:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.213:
-	mov	r11d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_214
-# %bb.358:
-	lea	rsi, [rdx + 4*r11]
-	cmp	rsi, rcx
-	jbe	.LBB3_570
-# %bb.359:
-	lea	rsi, [rcx + 4*r11]
-	cmp	rsi, rdx
-	jbe	.LBB3_570
-.LBB3_214:
-	xor	esi, esi
-.LBB3_573:
-	mov	r10, rsi
-	not	r10
-	test	r11b, 1
-	je	.LBB3_575
-# %bb.574:
-	mov	r8d, dword ptr [rdx + 4*rsi]
-	xor	r9d, r9d
-	test	r8d, r8d
-	setne	r9b
-	neg	r9d
-	test	r8d, r8d
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	dword ptr [rcx + 4*rsi], edi
-	or	rsi, 1
-.LBB3_575:
-	add	r10, r11
-	je	.LBB3_865
-# %bb.576:
-	mov	r8d, 1
-.LBB3_577:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, r8d
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, r8d
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	add	rsi, 2
-	cmp	r11, rsi
-	jne	.LBB3_577
-	jmp	.LBB3_865
-.LBB3_215:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.216:
-	mov	r10d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_217
-# %bb.361:
-	lea	rsi, [rdx + 4*r10]
-	cmp	rsi, rcx
-	jbe	.LBB3_578
-# %bb.362:
-	lea	rsi, [rcx + 4*r10]
-	cmp	rsi, rdx
-	jbe	.LBB3_578
-.LBB3_217:
-	xor	esi, esi
-.LBB3_581:
-	mov	r9, rsi
-	not	r9
-	test	r10b, 1
-	je	.LBB3_583
-# %bb.582:
-	mov	r8d, dword ptr [rdx + 4*rsi]
-	mov	edi, r8d
-	neg	edi
-	cmovl	edi, r8d
-	mov	dword ptr [rcx + 4*rsi], edi
-	or	rsi, 1
-.LBB3_583:
-	add	r9, r10
-	je	.LBB3_865
-.LBB3_584:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB3_584
-	jmp	.LBB3_865
-.LBB3_218:
-	test	r8d, r8d
-	jle	.LBB3_865
-# %bb.219:
-	mov	r10d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_220
-# %bb.364:
-	lea	rsi, [rdx + 4*r10]
-	cmp	rsi, rcx
-	jbe	.LBB3_585
-# %bb.365:
-	lea	rsi, [rcx + 4*r10]
-	cmp	rsi, rdx
-	jbe	.LBB3_585
-.LBB3_220:
-	xor	esi, esi
-.LBB3_588:
-	mov	r9, rsi
-	not	r9
-	test	r10b, 1
-	je	.LBB3_590
-# %bb.589:
-	mov	r8d, dword ptr [rdx + 4*rsi]
-	mov	edi, r8d
-	neg	edi
-	cmovl	edi, r8d
-	mov	dword ptr [rcx + 4*rsi], edi
-	or	rsi, 1
-.LBB3_590:
-	add	r9, r10
-	je	.LBB3_865
-.LBB3_591:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB3_591
-	jmp	.LBB3_865
-.LBB3_221:
-	mov	edx, r9d
-	and	edx, -32
-	lea	rax, [rdx - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 3
-	cmp	rax, 96
-	jae	.LBB3_367
-# %bb.222:
-	xor	eax, eax
-	jmp	.LBB3_369
-.LBB3_265:
-	mov	edx, r9d
-	and	edx, -16
-	lea	rax, [rdx - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 3
-	cmp	rax, 48
-	jae	.LBB3_438
-# %bb.266:
-	xor	eax, eax
-	jmp	.LBB3_440
-.LBB3_279:
-	mov	edx, r9d
-	and	edx, -64
-	lea	rax, [rdx - 64]
-	mov	rdi, rax
-	shr	rdi, 6
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 3
-	cmp	rax, 192
-	jae	.LBB3_461
-# %bb.280:
-	xor	eax, eax
-	jmp	.LBB3_463
-.LBB3_338:
-	mov	edx, r9d
-	and	edx, -128
-	lea	rax, [rdx - 128]
-	mov	rdi, rax
-	shr	rdi, 7
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 3
-	cmp	rax, 384
-	jae	.LBB3_541
-# %bb.339:
-	xor	eax, eax
-	jmp	.LBB3_543
-.LBB3_374:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_612
-# %bb.375:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_376:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_376
-	jmp	.LBB3_613
-.LBB3_377:
-	mov	esi, r9d
-	and	esi, -32
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI3_3] # ymm1 = [1,1,1,1,1,1,1,1]
-.LBB3_378:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm5
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_378
-# %bb.379:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_380
-.LBB3_384:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_620
-# %bb.385:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_386:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_386
-	jmp	.LBB3_621
-.LBB3_387:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_628
-# %bb.388:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_389:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_389
-	jmp	.LBB3_629
-.LBB3_390:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_636
-# %bb.391:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_392:                              # =>This Inner Loop Header: Depth=1
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_392
-	jmp	.LBB3_637
-.LBB3_393:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_646
-# %bb.394:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_395:                              # =>This Inner Loop Header: Depth=1
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_395
-	jmp	.LBB3_647
-.LBB3_396:
-	mov	esi, eax
-	and	esi, -16
-	xor	edi, edi
-	vxorpd	xmm0, xmm0, xmm0
-	vbroadcastsd	ymm1, qword ptr [rip + .LCPI3_0] # ymm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI3_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB3_397:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm6, ymmword ptr [rdx + 8*rdi + 96]
-	vandpd	ymm7, ymm3, ymm1
-	vorpd	ymm7, ymm2, ymm7
-	vandpd	ymm8, ymm4, ymm1
-	vorpd	ymm8, ymm8, ymm2
-	vandpd	ymm9, ymm5, ymm1
-	vorpd	ymm9, ymm9, ymm2
-	vandpd	ymm10, ymm6, ymm1
-	vorpd	ymm10, ymm10, ymm2
-	vcmpneqpd	ymm3, ymm3, ymm0
-	vandpd	ymm3, ymm3, ymm7
-	vcmpneqpd	ymm4, ymm4, ymm0
-	vandpd	ymm4, ymm8, ymm4
-	vcmpneqpd	ymm5, ymm5, ymm0
-	vandpd	ymm5, ymm9, ymm5
-	vcmpneqpd	ymm6, ymm6, ymm0
-	vandpd	ymm6, ymm10, ymm6
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm5
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm6
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB3_397
-# %bb.398:
-	cmp	rsi, rax
-	je	.LBB3_865
-	jmp	.LBB3_399
-.LBB3_404:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_656
-# %bb.405:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_8] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
-.LBB3_406:                              # =>This Inner Loop Header: Depth=1
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_406
-	jmp	.LBB3_657
-.LBB3_407:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_664
-# %bb.408:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_8] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
-.LBB3_409:                              # =>This Inner Loop Header: Depth=1
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_409
-	jmp	.LBB3_665
-.LBB3_410:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_672
-# %bb.411:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_412:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [rcx + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 224], ymm4
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB3_412
-	jmp	.LBB3_673
-.LBB3_413:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_680
-# %bb.414:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_415:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [rcx + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 224], ymm4
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB3_415
-	jmp	.LBB3_681
-.LBB3_416:
-	mov	esi, r11d
-	and	esi, -128
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_6] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB3_417:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm5, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm6, ymmword ptr [rdx + rdi + 96]
-	vpcmpeqb	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqb	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtb	ymm3, ymm2, ymm3
-	vpcmpgtb	ymm4, ymm2, ymm4
-	vpcmpgtb	ymm5, ymm2, ymm5
-	vpcmpgtb	ymm6, ymm2, ymm6
-	vpblendvb	ymm3, ymm2, ymm7, ymm3
-	vpblendvb	ymm4, ymm2, ymm8, ymm4
-	vpblendvb	ymm5, ymm2, ymm9, ymm5
-	vpblendvb	ymm6, ymm2, ymm10, ymm6
-	vmovdqu	ymmword ptr [rcx + rdi], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm4
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm5
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm6
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB3_417
-# %bb.418:
-	cmp	rsi, r11
-	je	.LBB3_865
-	jmp	.LBB3_419
-.LBB3_424:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI3_11] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB3_425:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm4, qword ptr [rdx + rdi + 24]
-	vpsrad	ymm5, ymm1, 7
-	vpsrad	ymm6, ymm2, 7
-	vpsrad	ymm7, ymm3, 7
-	vpsrad	ymm8, ymm4, 7
-	vpaddd	ymm1, ymm5, ymm1
-	vpaddd	ymm2, ymm6, ymm2
-	vpaddd	ymm3, ymm7, ymm3
-	vpaddd	ymm4, ymm8, ymm4
-	vpxor	ymm1, ymm1, ymm5
-	vpxor	ymm2, ymm2, ymm6
-	vpxor	ymm3, ymm3, ymm7
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm1, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm5        # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1]
-	vextracti128	xmm5, ymm2, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm2, xmm2, xmm0
-	vpunpckldq	xmm2, xmm2, xmm5        # xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1]
-	vextracti128	xmm5, ymm3, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm3, xmm3, xmm5        # xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1]
-	vextracti128	xmm5, ymm4, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_425
-# %bb.426:
-	cmp	rsi, r10
-	je	.LBB3_865
-	jmp	.LBB3_427
-.LBB3_431:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI3_11] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB3_432:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm4, qword ptr [rdx + rdi + 24]
-	vpsrad	ymm5, ymm1, 7
-	vpsrad	ymm6, ymm2, 7
-	vpsrad	ymm7, ymm3, 7
-	vpsrad	ymm8, ymm4, 7
-	vpaddd	ymm1, ymm5, ymm1
-	vpaddd	ymm2, ymm6, ymm2
-	vpaddd	ymm3, ymm7, ymm3
-	vpaddd	ymm4, ymm8, ymm4
-	vpxor	ymm1, ymm1, ymm5
-	vpxor	ymm2, ymm2, ymm6
-	vpxor	ymm3, ymm3, ymm7
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm1, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm5        # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1]
-	vextracti128	xmm5, ymm2, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm2, xmm2, xmm0
-	vpunpckldq	xmm2, xmm2, xmm5        # xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1]
-	vextracti128	xmm5, ymm3, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm3, xmm3, xmm5        # xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1]
-	vextracti128	xmm5, ymm4, 1
-	vpshufb	xmm5, xmm5, xmm0
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_432
-# %bb.433:
-	cmp	rsi, r10
-	je	.LBB3_865
-	jmp	.LBB3_434
-.LBB3_445:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_688
-# %bb.446:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_447:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_447
-	jmp	.LBB3_689
-.LBB3_448:
-	mov	esi, r9d
-	and	esi, -16
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI3_4] # ymm1 = [1,1,1,1]
-.LBB3_449:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm4
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm5
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB3_449
-# %bb.450:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_451
-.LBB3_455:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_696
-# %bb.456:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_457:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_457
-	jmp	.LBB3_697
-.LBB3_458:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_704
-# %bb.459:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_460:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_460
-	jmp	.LBB3_705
-.LBB3_468:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_712
-# %bb.469:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_470:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_470
-	jmp	.LBB3_713
-.LBB3_471:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_720
-# %bb.472:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_473:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_473
-	jmp	.LBB3_721
-.LBB3_474:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_728
-# %bb.475:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_476:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm2
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_476
-	jmp	.LBB3_729
-.LBB3_477:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_736
-# %bb.478:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI3_5] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB3_479:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm3
-	vpcmpeqw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vpandn	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_479
-	jmp	.LBB3_737
-.LBB3_480:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_744
-# %bb.481:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_5] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB3_482:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm4, ymmword ptr [rdx + 2*rdi + 32]
-	vpcmpeqw	ymm5, ymm3, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vpcmpeqw	ymm6, ymm4, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vpcmpgtw	ymm3, ymm2, ymm3
-	vpcmpgtw	ymm4, ymm2, ymm4
-	vpblendvb	ymm3, ymm2, ymm5, ymm3
-	vpblendvb	ymm4, ymm2, ymm6, ymm4
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm3
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm4
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 2*rdi + 96]
-	vpcmpeqw	ymm5, ymm3, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vpcmpeqw	ymm6, ymm4, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vpcmpgtw	ymm3, ymm2, ymm3
-	vpcmpgtw	ymm4, ymm2, ymm4
-	vpblendvb	ymm3, ymm2, ymm5, ymm3
-	vpblendvb	ymm4, ymm2, ymm6, ymm4
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_482
-	jmp	.LBB3_745
-.LBB3_483:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB3_592
-# %bb.484:
-	xor	eax, eax
-	jmp	.LBB3_594
-.LBB3_485:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_753
-# %bb.486:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI3_10] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-.LBB3_487:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 16]
-	vpsrad	ymm3, ymm2, 15
-	vpsrad	ymm4, ymm1, 15
-	vpaddd	ymm1, ymm4, ymm1
-	vpaddd	ymm2, ymm3, ymm2
-	vpxor	ymm2, ymm2, ymm3
-	vpxor	ymm1, ymm1, ymm4
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 48]
-	vpsrad	ymm3, ymm2, 15
-	vpsrad	ymm4, ymm1, 15
-	vpaddd	ymm1, ymm4, ymm1
-	vpaddd	ymm2, ymm3, ymm2
-	vpxor	ymm2, ymm2, ymm3
-	vpxor	ymm1, ymm1, ymm4
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_487
-	jmp	.LBB3_754
-.LBB3_488:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB3_602
-# %bb.489:
-	xor	eax, eax
-	jmp	.LBB3_604
-.LBB3_490:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_761
-# %bb.491:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI3_10] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-.LBB3_492:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 16]
-	vpsrad	ymm3, ymm2, 15
-	vpsrad	ymm4, ymm1, 15
-	vpaddd	ymm1, ymm4, ymm1
-	vpaddd	ymm2, ymm3, ymm2
-	vpxor	ymm2, ymm2, ymm3
-	vpxor	ymm1, ymm1, ymm4
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 48]
-	vpsrad	ymm3, ymm2, 15
-	vpsrad	ymm4, ymm1, 15
-	vpaddd	ymm1, ymm4, ymm1
-	vpaddd	ymm2, ymm3, ymm2
-	vpxor	ymm2, ymm2, ymm3
-	vpxor	ymm1, ymm1, ymm4
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_492
-	jmp	.LBB3_762
-.LBB3_493:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_769
-# %bb.494:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_495:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_495
-	jmp	.LBB3_770
-.LBB3_496:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_777
-# %bb.497:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_7] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_498:                              # =>This Inner Loop Header: Depth=1
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_498
-	jmp	.LBB3_778
-.LBB3_499:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_787
-# %bb.500:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_501:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_501
-	jmp	.LBB3_788
-.LBB3_502:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_795
-# %bb.503:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_7] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_504:                              # =>This Inner Loop Header: Depth=1
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_504
-	jmp	.LBB3_796
-.LBB3_505:
-	mov	esi, r11d
-	and	esi, -16
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI3_4] # ymm2 = [1,1,1,1]
-.LBB3_506:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm6, ymmword ptr [rdx + 8*rdi + 96]
-	vpcmpeqq	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqq	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqq	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqq	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtq	ymm3, ymm2, ymm3
-	vpcmpgtq	ymm4, ymm2, ymm4
-	vpcmpgtq	ymm5, ymm2, ymm5
-	vpcmpgtq	ymm6, ymm2, ymm6
-	vblendvpd	ymm3, ymm2, ymm7, ymm3
-	vblendvpd	ymm4, ymm2, ymm8, ymm4
-	vblendvpd	ymm5, ymm2, ymm9, ymm5
-	vblendvpd	ymm6, ymm2, ymm10, ymm6
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm5
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm6
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB3_506
-# %bb.507:
-	cmp	rsi, r11
-	je	.LBB3_865
-	jmp	.LBB3_508
-.LBB3_513:
-	mov	esi, eax
-	and	esi, -32
-	xor	edi, edi
-	vxorps	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI3_3] # ymm1 = [1,1,1,1,1,1,1,1]
-.LBB3_514:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm5, ymmword ptr [rdx + 4*rdi + 96]
-	vpsrad	ymm6, ymm2, 31
-	vpor	ymm6, ymm6, ymm1
-	vpsrad	ymm7, ymm3, 31
-	vpor	ymm7, ymm7, ymm1
-	vpsrad	ymm8, ymm4, 31
-	vpor	ymm8, ymm8, ymm1
-	vpsrad	ymm9, ymm5, 31
-	vpor	ymm9, ymm9, ymm1
-	vcvtdq2ps	ymm6, ymm6
-	vcvtdq2ps	ymm7, ymm7
-	vcvtdq2ps	ymm8, ymm8
-	vcvtdq2ps	ymm9, ymm9
-	vcmpneqps	ymm2, ymm2, ymm0
-	vandps	ymm2, ymm2, ymm6
-	vcmpneqps	ymm3, ymm3, ymm0
-	vandps	ymm3, ymm3, ymm7
-	vcmpneqps	ymm4, ymm4, ymm0
-	vandps	ymm4, ymm8, ymm4
-	vcmpneqps	ymm5, ymm5, ymm0
-	vandps	ymm5, ymm9, ymm5
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm5
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_514
-# %bb.515:
-	cmp	rsi, rax
-	je	.LBB3_865
-	jmp	.LBB3_516
-.LBB3_521:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_522:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymm1
-	vblendvpd	ymm1, ymm1, ymm4, ymm1
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm5, ymm0, ymm2
-	vblendvpd	ymm2, ymm2, ymm5, ymm2
-	vpsubq	ymm5, ymm0, ymm3
-	vblendvpd	ymm3, ymm3, ymm5, ymm3
-	vpsubq	ymm5, ymm0, ymm4
-	vblendvpd	ymm4, ymm4, ymm5, ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB3_522
-# %bb.523:
-	cmp	rsi, r10
-	je	.LBB3_865
-	jmp	.LBB3_524
-.LBB3_528:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_805
-# %bb.529:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_9] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
-.LBB3_530:                              # =>This Inner Loop Header: Depth=1
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_530
-	jmp	.LBB3_806
-.LBB3_531:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_532:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymm1
-	vblendvpd	ymm1, ymm1, ymm4, ymm1
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm5, ymm0, ymm2
-	vblendvpd	ymm2, ymm2, ymm5, ymm2
-	vpsubq	ymm5, ymm0, ymm3
-	vblendvpd	ymm3, ymm3, ymm5, ymm3
-	vpsubq	ymm5, ymm0, ymm4
-	vblendvpd	ymm4, ymm4, ymm5, ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB3_532
-# %bb.533:
-	cmp	rsi, r10
-	je	.LBB3_865
-	jmp	.LBB3_534
-.LBB3_538:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_815
-# %bb.539:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_9] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
-.LBB3_540:                              # =>This Inner Loop Header: Depth=1
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vandpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_540
-	jmp	.LBB3_816
-.LBB3_548:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_825
-# %bb.549:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_550:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
-	vmovdqu	ymmword ptr [rcx + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 224], ymm4
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB3_550
-	jmp	.LBB3_826
-.LBB3_551:
-	mov	esi, r9d
-	and	esi, -128
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI3_6] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB3_552:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rdx + rdi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rdx + rdi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [rcx + rdi], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm4
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm5
-	sub	rdi, -128
-	cmp	rsi, rdi
-	jne	.LBB3_552
-# %bb.553:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_554
-.LBB3_558:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_833
-# %bb.559:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_560:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + rdi]
-	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovups	ymmword ptr [rcx + rdi], ymm0
-	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
-	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB3_560
-	jmp	.LBB3_834
-.LBB3_561:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_841
-# %bb.562:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_563:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + rdi]
-	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovups	ymmword ptr [rcx + rdi], ymm0
-	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
-	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB3_563
-	jmp	.LBB3_842
-.LBB3_564:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_849
-# %bb.565:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_566:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_566
-	jmp	.LBB3_850
-.LBB3_567:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_857
-# %bb.568:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB3_569:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_569
-	jmp	.LBB3_858
-.LBB3_570:
-	mov	esi, r11d
-	and	esi, -32
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI3_3] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB3_571:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm5, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm6, ymmword ptr [rdx + 4*rdi + 96]
-	vpcmpeqd	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqd	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqd	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqd	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtd	ymm3, ymm2, ymm3
-	vpcmpgtd	ymm4, ymm2, ymm4
-	vpcmpgtd	ymm5, ymm2, ymm5
-	vpcmpgtd	ymm6, ymm2, ymm6
-	vblendvps	ymm3, ymm2, ymm7, ymm3
-	vblendvps	ymm4, ymm2, ymm8, ymm4
-	vblendvps	ymm5, ymm2, ymm9, ymm5
-	vblendvps	ymm6, ymm2, ymm10, ymm6
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm4
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm5
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm6
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_571
-# %bb.572:
-	cmp	rsi, r11
-	je	.LBB3_865
-	jmp	.LBB3_573
-.LBB3_578:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB3_579:                              # =>This Inner Loop Header: Depth=1
-	vpabsd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vpabsd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpabsd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpabsd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_579
-# %bb.580:
-	cmp	rsi, r10
-	je	.LBB3_865
-	jmp	.LBB3_581
-.LBB3_585:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB3_586:                              # =>This Inner Loop Header: Depth=1
-	vpabsd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vpabsd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpabsd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpabsd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB3_586
-# %bb.587:
-	cmp	rsi, r10
-	je	.LBB3_865
-	jmp	.LBB3_588
-.LBB3_367:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_368:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rcx + 4*rax], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 32], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 64], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 96], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 160], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 224], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 256], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 288], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 320], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 352], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 384], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 416], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 448], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rax + 480], ymm0
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB3_368
-.LBB3_369:
-	test	rsi, rsi
-	je	.LBB3_372
-# %bb.370:
-	lea	rax, [rcx + 4*rax]
-	add	rax, 96
-	neg	rsi
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_371:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rax - 96], ymm0
-	vmovupd	ymmword ptr [rax - 64], ymm0
-	vmovupd	ymmword ptr [rax - 32], ymm0
-	vmovupd	ymmword ptr [rax], ymm0
-	sub	rax, -128
-	inc	rsi
-	jne	.LBB3_371
-.LBB3_372:
-	cmp	rdx, r9
-	je	.LBB3_865
-	.p2align	4, 0x90
-.LBB3_373:                              # =>This Inner Loop Header: Depth=1
-	mov	dword ptr [rcx + 4*rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_373
-	jmp	.LBB3_865
-.LBB3_438:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_439:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rcx + 8*rax], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 32], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 64], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 96], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 160], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 224], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 256], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 288], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 320], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 352], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 384], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 416], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 448], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rax + 480], ymm0
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB3_439
-.LBB3_440:
-	test	rsi, rsi
-	je	.LBB3_443
-# %bb.441:
-	lea	rax, [rcx + 8*rax]
-	add	rax, 96
-	neg	rsi
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_442:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rax - 96], ymm0
-	vmovupd	ymmword ptr [rax - 64], ymm0
-	vmovupd	ymmword ptr [rax - 32], ymm0
-	vmovupd	ymmword ptr [rax], ymm0
-	sub	rax, -128
-	inc	rsi
-	jne	.LBB3_442
-.LBB3_443:
-	cmp	rdx, r9
-	je	.LBB3_865
-	.p2align	4, 0x90
-.LBB3_444:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rcx + 8*rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_444
-	jmp	.LBB3_865
-.LBB3_461:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_462:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rcx + 2*rax], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 32], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 96], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 160], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 256], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 288], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 320], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 352], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 384], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 416], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 448], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 480], ymm0
-	add	rax, 256
-	add	rdi, 4
-	jne	.LBB3_462
-.LBB3_463:
-	test	rsi, rsi
-	je	.LBB3_466
-# %bb.464:
-	lea	rax, [rcx + 2*rax]
-	add	rax, 96
-	neg	rsi
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_465:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rax - 96], ymm0
-	vmovupd	ymmword ptr [rax - 64], ymm0
-	vmovupd	ymmword ptr [rax - 32], ymm0
-	vmovupd	ymmword ptr [rax], ymm0
-	sub	rax, -128
-	inc	rsi
-	jne	.LBB3_465
-.LBB3_466:
-	cmp	rdx, r9
-	je	.LBB3_865
-	.p2align	4, 0x90
-.LBB3_467:                              # =>This Inner Loop Header: Depth=1
-	mov	word ptr [rcx + 2*rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_467
-	jmp	.LBB3_865
-.LBB3_541:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_542:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rcx + rax], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 64], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 96], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 160], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 224], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 256], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 288], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 320], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 352], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 384], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 416], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 448], ymm0
-	vmovupd	ymmword ptr [rcx + rax + 480], ymm0
-	add	rax, 512
-	add	rdi, 4
-	jne	.LBB3_542
-.LBB3_543:
-	test	rsi, rsi
-	je	.LBB3_546
-# %bb.544:
-	add	rax, rcx
-	add	rax, 96
-	neg	rsi
-	vxorpd	xmm0, xmm0, xmm0
-.LBB3_545:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymmword ptr [rax - 96], ymm0
-	vmovupd	ymmword ptr [rax - 64], ymm0
-	vmovupd	ymmword ptr [rax - 32], ymm0
-	vmovupd	ymmword ptr [rax], ymm0
-	sub	rax, -128
-	inc	rsi
-	jne	.LBB3_545
-.LBB3_546:
-	cmp	rdx, r9
-	je	.LBB3_865
-	.p2align	4, 0x90
-.LBB3_547:                              # =>This Inner Loop Header: Depth=1
-	mov	byte ptr [rcx + rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_547
-.LBB3_865:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB3_592:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_593:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovups	ymmword ptr [rcx + 2*rax], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
-	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
-	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
-	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
-	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB3_593
-.LBB3_594:
-	test	r8, r8
-	je	.LBB3_597
-# %bb.595:
-	add	rax, rax
-	add	rax, 32
-	neg	r8
-.LBB3_596:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
-	vmovupd	ymm1, ymmword ptr [rdx + rax]
-	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax], ymm1
-	add	rax, 64
-	inc	r8
-	jne	.LBB3_596
-.LBB3_597:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_598
-.LBB3_602:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_603:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovups	ymmword ptr [rcx + 2*rax], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
-	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
-	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
-	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
-	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB3_603
-.LBB3_604:
-	test	r8, r8
-	je	.LBB3_607
-# %bb.605:
-	add	rax, rax
-	add	rax, 32
-	neg	r8
-.LBB3_606:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
-	vmovupd	ymm1, ymmword ptr [rdx + rax]
-	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax], ymm1
-	add	rax, 64
-	inc	r8
-	jne	.LBB3_606
-.LBB3_607:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_608
-.LBB3_612:
-	xor	edi, edi
-.LBB3_613:
-	test	r8b, 1
-	je	.LBB3_615
-# %bb.614:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_615:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_616
-.LBB3_620:
-	xor	edi, edi
-.LBB3_621:
-	test	r8b, 1
-	je	.LBB3_623
-# %bb.622:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB3_623:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_624
-.LBB3_628:
-	xor	edi, edi
-.LBB3_629:
-	test	r8b, 1
-	je	.LBB3_631
-# %bb.630:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB3_631:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_632
-.LBB3_636:
-	xor	edi, edi
-.LBB3_637:
-	test	r8b, 1
-	je	.LBB3_639
-# %bb.638:
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vxorpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_639:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_640
-.LBB3_646:
-	xor	edi, edi
-.LBB3_647:
-	test	r8b, 1
-	je	.LBB3_649
-# %bb.648:
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vxorpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_649:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_650
-.LBB3_656:
-	xor	edi, edi
-.LBB3_657:
-	test	r8b, 1
-	je	.LBB3_659
-# %bb.658:
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_8] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vandpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_659:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_660
-.LBB3_664:
-	xor	edi, edi
-.LBB3_665:
-	test	r8b, 1
-	je	.LBB3_667
-# %bb.666:
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_8] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vandpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_667:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_668
-.LBB3_672:
-	xor	edi, edi
-.LBB3_673:
-	test	r8b, 1
-	je	.LBB3_675
-# %bb.674:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm0
-.LBB3_675:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_676
-.LBB3_680:
-	xor	edi, edi
-.LBB3_681:
-	test	r8b, 1
-	je	.LBB3_683
-# %bb.682:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm0
-.LBB3_683:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_684
-.LBB3_688:
-	xor	edi, edi
-.LBB3_689:
-	test	r8b, 1
-	je	.LBB3_691
-# %bb.690:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_691:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_692
-.LBB3_696:
-	xor	edi, edi
-.LBB3_697:
-	test	r8b, 1
-	je	.LBB3_699
-# %bb.698:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB3_699:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_700
-.LBB3_704:
-	xor	edi, edi
-.LBB3_705:
-	test	r8b, 1
-	je	.LBB3_707
-# %bb.706:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB3_707:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_708
-.LBB3_712:
-	xor	edi, edi
-.LBB3_713:
-	test	r8b, 1
-	je	.LBB3_715
-# %bb.714:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
-.LBB3_715:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_716
-.LBB3_720:
-	xor	edi, edi
-.LBB3_721:
-	test	r8b, 1
-	je	.LBB3_723
-# %bb.722:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
-.LBB3_723:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_724
-.LBB3_728:
-	xor	edi, edi
-.LBB3_729:
-	test	r8b, 1
-	je	.LBB3_731
-# %bb.730:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
-.LBB3_731:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_732
-.LBB3_736:
-	xor	edi, edi
-.LBB3_737:
-	test	r8b, 1
-	je	.LBB3_739
-# %bb.738:
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_5] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpcmpeqw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vpandn	ymm1, ymm1, ymm2
-	vpandn	ymm0, ymm0, ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
-.LBB3_739:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_740
-.LBB3_744:
-	xor	edi, edi
-.LBB3_745:
-	test	r8b, 1
-	je	.LBB3_747
-# %bb.746:
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpxor	xmm2, xmm2, xmm2
-	vpcmpeqw	ymm3, ymm0, ymm2
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpxor	ymm3, ymm3, ymm4
-	vpcmpeqw	ymm2, ymm1, ymm2
-	vpxor	ymm2, ymm2, ymm4
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI3_5] # ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpcmpgtw	ymm0, ymm4, ymm0
-	vpcmpgtw	ymm1, ymm4, ymm1
-	vpblendvb	ymm0, ymm4, ymm3, ymm0
-	vpblendvb	ymm1, ymm4, ymm2, ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-.LBB3_747:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_748
-.LBB3_753:
-	xor	edi, edi
-.LBB3_754:
-	test	r8b, 1
-	je	.LBB3_756
-# %bb.755:
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpsrad	ymm2, ymm1, 15
-	vpsrad	ymm3, ymm0, 15
-	vpaddd	ymm0, ymm3, ymm0
-	vpaddd	ymm1, ymm2, ymm1
-	vpxor	ymm1, ymm1, ymm2
-	vpxor	ymm0, ymm0, ymm3
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_10] # ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-	vpshufb	ymm0, ymm0, ymm2
-	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
-	vpshufb	ymm1, ymm1, ymm2
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB3_756:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_757
-.LBB3_761:
-	xor	edi, edi
-.LBB3_762:
-	test	r8b, 1
-	je	.LBB3_764
-# %bb.763:
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpsrad	ymm2, ymm1, 15
-	vpsrad	ymm3, ymm0, 15
-	vpaddd	ymm0, ymm3, ymm0
-	vpaddd	ymm1, ymm2, ymm1
-	vpxor	ymm1, ymm1, ymm2
-	vpxor	ymm0, ymm0, ymm3
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_10] # ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-	vpshufb	ymm0, ymm0, ymm2
-	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
-	vpshufb	ymm1, ymm1, ymm2
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB3_764:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_765
-.LBB3_769:
-	xor	edi, edi
-.LBB3_770:
-	test	r8b, 1
-	je	.LBB3_772
-# %bb.771:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_772:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_773
-.LBB3_777:
-	xor	edi, edi
-.LBB3_778:
-	test	r8b, 1
-	je	.LBB3_780
-# %bb.779:
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_7] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vxorpd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_780:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_781
-.LBB3_787:
-	xor	edi, edi
-.LBB3_788:
-	test	r8b, 1
-	je	.LBB3_790
-# %bb.789:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm0
-.LBB3_790:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_791
-.LBB3_795:
-	xor	edi, edi
-.LBB3_796:
-	test	r8b, 1
-	je	.LBB3_798
-# %bb.797:
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_7] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vxorpd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_798:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_799
-.LBB3_805:
-	xor	edi, edi
-.LBB3_806:
-	test	r8b, 1
-	je	.LBB3_808
-# %bb.807:
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_9] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vandpd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_808:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_809
-.LBB3_815:
-	xor	edi, edi
-.LBB3_816:
-	test	r8b, 1
-	je	.LBB3_818
-# %bb.817:
-	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_9] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
-	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vandpd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_818:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_819
-.LBB3_825:
-	xor	edi, edi
-.LBB3_826:
-	test	r8b, 1
-	je	.LBB3_828
-# %bb.827:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm0
-.LBB3_828:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_829
-.LBB3_833:
-	xor	edi, edi
-.LBB3_834:
-	test	r8b, 1
-	je	.LBB3_836
-# %bb.835:
-	vmovupd	ymm0, ymmword ptr [rdx + rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovupd	ymmword ptr [rcx + rdi], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
-.LBB3_836:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_837
-.LBB3_841:
-	xor	edi, edi
-.LBB3_842:
-	test	r8b, 1
-	je	.LBB3_844
-# %bb.843:
-	vmovupd	ymm0, ymmword ptr [rdx + rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovupd	ymmword ptr [rcx + rdi], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
-.LBB3_844:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_845
-.LBB3_849:
-	xor	edi, edi
-.LBB3_850:
-	test	r8b, 1
-	je	.LBB3_852
-# %bb.851:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_852:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_853
-.LBB3_857:
-	xor	edi, edi
-.LBB3_858:
-	test	r8b, 1
-	je	.LBB3_860
-# %bb.859:
-	vpxor	xmm0, xmm0, xmm0
-	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm0
-.LBB3_860:
-	cmp	rsi, r9
-	je	.LBB3_865
-	jmp	.LBB3_861
-.Lfunc_end3:
-	.size	arithmetic_unary_same_types_avx2, .Lfunc_end3-arithmetic_unary_same_types_avx2
-                                        # -- End function
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function arithmetic_unary_diff_type_avx2
-.LCPI4_0:
-	.quad	0x8000000000000000              # double -0
-.LCPI4_1:
-	.quad	0x3ff0000000000000              # double 1
-.LCPI4_6:
-	.quad	0x43e0000000000000              # double 9.2233720368547758E+18
-.LCPI4_7:
-	.quad	0x41e0000000000000              # double 2147483648
-.LCPI4_13:
-	.quad	0xbff0000000000000              # double -1
-.LCPI4_15:
-	.quad	1                               # 0x1
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI4_2:
-	.quad	0x8000000000000000              # double -0
-	.quad	0x8000000000000000              # double -0
-.LCPI4_11:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-.LCPI4_12:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_16:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.zero	2
-	.zero	2
-	.zero	2
-	.zero	2
-.LCPI4_17:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_19:
-	.zero	16,1
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2
-.LCPI4_3:
-	.long	0x7fffffff                      # float NaN
-.LCPI4_4:
-	.long	0x80000000                      # float -0
-.LCPI4_5:
-	.long	0x3f800000                      # float 1
-.LCPI4_8:
-	.long	1                               # 0x1
-.LCPI4_9:
-	.long	0x5f000000                      # float 9.22337203E+18
-.LCPI4_10:
-	.long	0x4f000000                      # float 2.14748365E+9
-.LCPI4_14:
-	.long	0xbf800000                      # float -1
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5
-.LCPI4_18:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-.LCPI4_20:
-	.zero	32,1
-	.text
-	.globl	arithmetic_unary_diff_type_avx2
-	.p2align	4, 0x90
-	.type	arithmetic_unary_diff_type_avx2,@function
-arithmetic_unary_diff_type_avx2:        # @arithmetic_unary_diff_type_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r14
-	push	rbx
-	and	rsp, -8
-	cmp	dl, 20
-	jne	.LBB4_1351
-# %bb.1:
-	cmp	edi, 6
-	jg	.LBB4_14
-# %bb.2:
-	cmp	edi, 3
-	jle	.LBB4_26
-# %bb.3:
-	cmp	edi, 4
-	je	.LBB4_46
-# %bb.4:
-	cmp	edi, 5
-	je	.LBB4_54
-# %bb.5:
-	cmp	edi, 6
-	jne	.LBB4_1351
-# %bb.6:
-	cmp	esi, 6
-	jg	.LBB4_94
-# %bb.7:
-	cmp	esi, 3
-	jle	.LBB4_164
-# %bb.8:
-	cmp	esi, 4
-	je	.LBB4_267
-# %bb.9:
-	cmp	esi, 5
-	je	.LBB4_270
-# %bb.10:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.11:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.12:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_13
-# %bb.447:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_870
-# %bb.448:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_870
-.LBB4_13:
-	xor	edx, edx
-.LBB4_873:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_875
-.LBB4_874:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_874
-.LBB4_875:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_876:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 4], esi
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 8], esi
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 12], esi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_876
-	jmp	.LBB4_1351
-.LBB4_14:
-	cmp	edi, 8
-	jle	.LBB4_36
-# %bb.15:
-	cmp	edi, 9
-	je	.LBB4_62
-# %bb.16:
-	cmp	edi, 11
-	je	.LBB4_70
-# %bb.17:
-	cmp	edi, 12
-	jne	.LBB4_1351
-# %bb.18:
-	cmp	esi, 6
-	jg	.LBB4_101
-# %bb.19:
-	cmp	esi, 3
-	jle	.LBB4_169
-# %bb.20:
-	cmp	esi, 4
-	je	.LBB4_273
-# %bb.21:
-	cmp	esi, 5
-	je	.LBB4_276
-# %bb.22:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.23:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.24:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 4
-	jae	.LBB4_450
-# %bb.25:
-	xor	esi, esi
-	jmp	.LBB4_1292
-.LBB4_26:
-	cmp	edi, 2
-	je	.LBB4_78
-# %bb.27:
-	cmp	edi, 3
-	jne	.LBB4_1351
-# %bb.28:
-	cmp	esi, 6
-	jg	.LBB4_108
-# %bb.29:
-	cmp	esi, 3
-	jle	.LBB4_174
-# %bb.30:
-	cmp	esi, 4
-	je	.LBB4_279
-# %bb.31:
-	cmp	esi, 5
-	je	.LBB4_282
-# %bb.32:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.33:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.34:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_35
-# %bb.453:
-	lea	rdx, [rcx + r11]
-	cmp	rdx, r8
-	jbe	.LBB4_877
-# %bb.454:
-	lea	rdx, [r8 + 4*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_877
-.LBB4_35:
-	xor	edx, edx
-.LBB4_880:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_882
-# %bb.881:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	r10d, r10d
-	test	r9b, r9b
-	setne	r10b
-	neg	r10d
-	test	r9b, r9b
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [r8 + 4*rdx], edi
-	or	rdx, 1
-.LBB4_882:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.883:
-	mov	esi, 1
-.LBB4_884:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx], edi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_884
-	jmp	.LBB4_1351
-.LBB4_36:
-	cmp	edi, 7
-	je	.LBB4_86
-# %bb.37:
-	cmp	edi, 8
-	jne	.LBB4_1351
-# %bb.38:
-	cmp	esi, 6
-	jg	.LBB4_115
-# %bb.39:
-	cmp	esi, 3
-	jle	.LBB4_179
-# %bb.40:
-	cmp	esi, 4
-	je	.LBB4_285
-# %bb.41:
-	cmp	esi, 5
-	je	.LBB4_288
-# %bb.42:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.43:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.44:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_456
-# %bb.45:
-	xor	edx, edx
-	jmp	.LBB4_459
-.LBB4_46:
-	cmp	esi, 6
-	jg	.LBB4_122
-# %bb.47:
-	cmp	esi, 3
-	jle	.LBB4_184
-# %bb.48:
-	cmp	esi, 4
-	je	.LBB4_291
-# %bb.49:
-	cmp	esi, 5
-	je	.LBB4_294
-# %bb.50:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.51:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.52:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_460
-# %bb.53:
-	xor	edx, edx
-	jmp	.LBB4_463
-.LBB4_54:
-	cmp	esi, 6
-	jg	.LBB4_129
-# %bb.55:
-	cmp	esi, 3
-	jle	.LBB4_189
-# %bb.56:
-	cmp	esi, 4
-	je	.LBB4_297
-# %bb.57:
-	cmp	esi, 5
-	je	.LBB4_300
-# %bb.58:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.59:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.60:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB4_464
-# %bb.61:
-	xor	edx, edx
-	jmp	.LBB4_467
-.LBB4_62:
-	cmp	esi, 6
-	jg	.LBB4_136
-# %bb.63:
-	cmp	esi, 3
-	jle	.LBB4_194
-# %bb.64:
-	cmp	esi, 4
-	je	.LBB4_303
-# %bb.65:
-	cmp	esi, 5
-	je	.LBB4_306
-# %bb.66:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.67:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.68:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_469
-# %bb.69:
-	xor	edx, edx
-	jmp	.LBB4_472
-.LBB4_70:
-	cmp	esi, 6
-	jg	.LBB4_143
-# %bb.71:
-	cmp	esi, 3
-	jle	.LBB4_199
-# %bb.72:
-	cmp	esi, 4
-	je	.LBB4_309
-# %bb.73:
-	cmp	esi, 5
-	je	.LBB4_312
-# %bb.74:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.75:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.76:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_474
-# %bb.77:
-	xor	edx, edx
-	jmp	.LBB4_1298
-.LBB4_78:
-	cmp	esi, 6
-	jg	.LBB4_150
-# %bb.79:
-	cmp	esi, 3
-	jle	.LBB4_204
-# %bb.80:
-	cmp	esi, 4
-	je	.LBB4_315
-# %bb.81:
-	cmp	esi, 5
-	je	.LBB4_318
-# %bb.82:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.83:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.84:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_85
-# %bb.477:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_885
-# %bb.478:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_885
-.LBB4_85:
-	xor	edx, edx
-.LBB4_888:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_890
-.LBB4_889:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_889
-.LBB4_890:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_891:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 4], esi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 8], esi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 12], esi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_891
-	jmp	.LBB4_1351
-.LBB4_86:
-	cmp	esi, 6
-	jg	.LBB4_157
-# %bb.87:
-	cmp	esi, 3
-	jle	.LBB4_209
-# %bb.88:
-	cmp	esi, 4
-	je	.LBB4_321
-# %bb.89:
-	cmp	esi, 5
-	je	.LBB4_324
-# %bb.90:
-	cmp	esi, 6
-	jne	.LBB4_1351
-# %bb.91:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.92:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_93
-# %bb.480:
-	lea	rdx, [rcx + 4*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_892
-# %bb.481:
-	lea	rdx, [r8 + 4*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_892
-.LBB4_93:
-	xor	edx, edx
-.LBB4_895:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_897
-# %bb.896:
-	mov	r9d, dword ptr [rcx + 4*rdx]
-	xor	r10d, r10d
-	test	r9d, r9d
-	setne	r10b
-	neg	r10d
-	test	r9d, r9d
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [r8 + 4*rdx], edi
-	or	rdx, 1
-.LBB4_897:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.898:
-	mov	esi, 1
-.LBB4_899:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	mov	eax, dword ptr [rcx + 4*rdx + 4]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_899
-	jmp	.LBB4_1351
-.LBB4_94:
-	cmp	esi, 8
-	jle	.LBB4_214
-# %bb.95:
-	cmp	esi, 9
-	je	.LBB4_327
-# %bb.96:
-	cmp	esi, 11
-	je	.LBB4_330
-# %bb.97:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.98:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.99:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_483
-# %bb.100:
-	xor	edx, edx
-	jmp	.LBB4_486
-.LBB4_101:
-	cmp	esi, 8
-	jle	.LBB4_219
-# %bb.102:
-	cmp	esi, 9
-	je	.LBB4_333
-# %bb.103:
-	cmp	esi, 11
-	je	.LBB4_336
-# %bb.104:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.105:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.106:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_107
-# %bb.490:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_900
-# %bb.491:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_900
-.LBB4_107:
-	xor	edx, edx
-.LBB4_903:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_905
-# %bb.904:
-	vmovsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
-	vandpd	xmm1, xmm0, xmmword ptr [rip + .LCPI4_2]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-	vorpd	xmm1, xmm2, xmm1
-	vxorpd	xmm2, xmm2, xmm2
-	vcmpeqsd	xmm0, xmm0, xmm2
-	vandnpd	xmm0, xmm0, xmm1
-	vmovlpd	qword ptr [r8 + 8*rdx], xmm0
-	or	rdx, 1
-.LBB4_905:
-	add	rsi, rax
-	je	.LBB4_1351
-# %bb.906:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI4_2] # xmm0 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = [1.0E+0,1.0E+0]
-                                        # xmm1 = mem[0,0]
-	vxorpd	xmm2, xmm2, xmm2
-.LBB4_907:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	vandpd	xmm4, xmm3, xmm0
-	vorpd	xmm4, xmm1, xmm4
-	vcmpeqsd	xmm3, xmm3, xmm2
-	vandnpd	xmm3, xmm3, xmm4
-	vmovlpd	qword ptr [r8 + 8*rdx], xmm3
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
-	vandpd	xmm4, xmm3, xmm0
-	vorpd	xmm4, xmm1, xmm4
-	vcmpeqsd	xmm3, xmm3, xmm2
-	vandnpd	xmm3, xmm3, xmm4
-	vmovlpd	qword ptr [r8 + 8*rdx + 8], xmm3
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_907
-	jmp	.LBB4_1351
-.LBB4_108:
-	cmp	esi, 8
-	jle	.LBB4_224
-# %bb.109:
-	cmp	esi, 9
-	je	.LBB4_339
-# %bb.110:
-	cmp	esi, 11
-	je	.LBB4_342
-# %bb.111:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.112:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.113:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_114
-# %bb.493:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_908
-# %bb.494:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_908
-.LBB4_114:
-	xor	edx, edx
-.LBB4_911:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1254
-# %bb.912:
-	cmp	byte ptr [rcx + rdx], 0
-	jne	.LBB4_1250
-# %bb.913:
-	vpxor	xmm0, xmm0, xmm0
-	jmp	.LBB4_1251
-.LBB4_115:
-	cmp	esi, 8
-	jle	.LBB4_229
-# %bb.116:
-	cmp	esi, 9
-	je	.LBB4_345
-# %bb.117:
-	cmp	esi, 11
-	je	.LBB4_348
-# %bb.118:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.119:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.120:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_496
-# %bb.121:
-	xor	edx, edx
-	jmp	.LBB4_499
-.LBB4_122:
-	cmp	esi, 8
-	jle	.LBB4_234
-# %bb.123:
-	cmp	esi, 9
-	je	.LBB4_351
-# %bb.124:
-	cmp	esi, 11
-	je	.LBB4_354
-# %bb.125:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.126:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.127:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_503
-# %bb.128:
-	xor	edx, edx
-	jmp	.LBB4_506
-.LBB4_129:
-	cmp	esi, 8
-	jle	.LBB4_239
-# %bb.130:
-	cmp	esi, 9
-	je	.LBB4_357
-# %bb.131:
-	cmp	esi, 11
-	je	.LBB4_360
-# %bb.132:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.133:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.134:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_510
-# %bb.135:
-	xor	edx, edx
-	jmp	.LBB4_513
-.LBB4_136:
-	cmp	esi, 8
-	jle	.LBB4_244
-# %bb.137:
-	cmp	esi, 9
-	je	.LBB4_363
-# %bb.138:
-	cmp	esi, 11
-	je	.LBB4_366
-# %bb.139:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.140:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.141:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_519
-# %bb.142:
-	xor	edx, edx
-	jmp	.LBB4_522
-.LBB4_143:
-	cmp	esi, 8
-	jle	.LBB4_249
-# %bb.144:
-	cmp	esi, 9
-	je	.LBB4_369
-# %bb.145:
-	cmp	esi, 11
-	je	.LBB4_372
-# %bb.146:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.147:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.148:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_528
-# %bb.149:
-	xor	edx, edx
-	jmp	.LBB4_531
-.LBB4_150:
-	cmp	esi, 8
-	jle	.LBB4_257
-# %bb.151:
-	cmp	esi, 9
-	je	.LBB4_375
-# %bb.152:
-	cmp	esi, 11
-	je	.LBB4_378
-# %bb.153:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.154:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.155:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_156
-# %bb.535:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_914
-# %bb.536:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_914
-.LBB4_156:
-	xor	edx, edx
-.LBB4_917:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_922
-# %bb.918:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
-	jmp	.LBB4_920
-.LBB4_919:                              #   in Loop: Header=BB4_920 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	je	.LBB4_922
-.LBB4_920:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_919
-# %bb.921:                              #   in Loop: Header=BB4_920 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_919
-.LBB4_157:
-	cmp	esi, 8
-	jle	.LBB4_262
-# %bb.158:
-	cmp	esi, 9
-	je	.LBB4_381
-# %bb.159:
-	cmp	esi, 11
-	je	.LBB4_384
-# %bb.160:
-	cmp	esi, 12
-	jne	.LBB4_1351
-# %bb.161:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.162:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_538
-# %bb.163:
-	xor	edx, edx
-	jmp	.LBB4_541
-.LBB4_164:
-	cmp	esi, 2
-	je	.LBB4_387
-# %bb.165:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.166:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.167:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_168
-# %bb.547:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_933
-# %bb.548:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_933
-.LBB4_168:
-	xor	edx, edx
-.LBB4_936:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_938
-.LBB4_937:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_937
-.LBB4_938:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_939:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_939
-	jmp	.LBB4_1351
-.LBB4_169:
-	cmp	esi, 2
-	je	.LBB4_390
-# %bb.170:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.171:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.172:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_173
-# %bb.550:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_940
-# %bb.551:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_940
-.LBB4_173:
-	xor	edx, edx
-.LBB4_943:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_945
-# %bb.944:
-	vmovsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
-	xor	edi, edi
-	vpxor	xmm1, xmm1, xmm1
-	vucomisd	xmm1, xmm0
-	vandpd	xmm0, xmm0, xmmword ptr [rip + .LCPI4_2]
-	vmovddup	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = [1.0E+0,1.0E+0]
-                                        # xmm1 = mem[0,0]
-	vorpd	xmm0, xmm1, xmm0
-	vcvttsd2si	ebx, xmm0
-	cmove	ebx, edi
-	mov	byte ptr [r8 + rdx], bl
-	or	rdx, 1
-.LBB4_945:
-	add	rsi, rax
-	je	.LBB4_1351
-# %bb.946:
-	xor	esi, esi
-	vxorpd	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_947:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx], dil
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx + 1], dil
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_947
-	jmp	.LBB4_1351
-.LBB4_174:
-	cmp	esi, 2
-	je	.LBB4_393
-# %bb.175:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.176:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.177:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB4_178
-# %bb.553:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_948
-# %bb.554:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_948
-.LBB4_178:
-	xor	r11d, r11d
-.LBB4_951:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_953
-# %bb.952:
-	mov	dil, byte ptr [rcx + r11]
-	test	dil, dil
-	setne	r9b
-	neg	r9b
-	test	dil, dil
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_953:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.954:
-	mov	esi, 1
-.LBB4_955:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + r11]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	movzx	eax, byte ptr [rcx + r11 + 1]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_955
-	jmp	.LBB4_1351
-.LBB4_179:
-	cmp	esi, 2
-	je	.LBB4_396
-# %bb.180:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.181:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.182:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_183
-# %bb.556:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_956
-# %bb.557:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_956
-.LBB4_183:
-	xor	edx, edx
-.LBB4_959:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_961
-.LBB4_960:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_960
-.LBB4_961:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_962:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_962
-	jmp	.LBB4_1351
-.LBB4_184:
-	cmp	esi, 2
-	je	.LBB4_399
-# %bb.185:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.186:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.187:
-	mov	eax, r9d
-	cmp	r9d, 64
-	jb	.LBB4_188
-# %bb.559:
-	lea	rdx, [rcx + 2*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_963
-# %bb.560:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_963
-.LBB4_188:
-	xor	edx, edx
-.LBB4_966:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_968
-.LBB4_967:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_967
-.LBB4_968:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_969:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_969
-	jmp	.LBB4_1351
-.LBB4_189:
-	cmp	esi, 2
-	je	.LBB4_402
-# %bb.190:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.191:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.192:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jb	.LBB4_193
-# %bb.562:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_970
-# %bb.563:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_970
-.LBB4_193:
-	xor	r11d, r11d
-.LBB4_973:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_975
-# %bb.974:
-	movzx	edi, word ptr [rcx + 2*r11]
-	test	di, di
-	setne	r9b
-	neg	r9b
-	test	di, di
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_975:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.976:
-	mov	esi, 1
-.LBB4_977:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*r11]
-	test	di, di
-	setne	al
-	neg	al
-	test	di, di
-	movzx	eax, al
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	movzx	eax, word ptr [rcx + 2*r11 + 2]
-	test	ax, ax
-	setne	dl
-	neg	dl
-	test	ax, ax
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_977
-	jmp	.LBB4_1351
-.LBB4_194:
-	cmp	esi, 2
-	je	.LBB4_405
-# %bb.195:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.196:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.197:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_198
-# %bb.565:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_978
-# %bb.566:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_978
-.LBB4_198:
-	xor	r11d, r11d
-.LBB4_981:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_983
-# %bb.982:
-	mov	rdi, qword ptr [rcx + 8*r11]
-	test	rdi, rdi
-	setne	r9b
-	neg	r9b
-	test	rdi, rdi
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_983:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.984:
-	mov	esi, 1
-.LBB4_985:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*r11]
-	test	rdi, rdi
-	setne	al
-	neg	al
-	test	rdi, rdi
-	movzx	eax, al
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	mov	rax, qword ptr [rcx + 8*r11 + 8]
-	test	rax, rax
-	setne	dl
-	neg	dl
-	test	rax, rax
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_985
-	jmp	.LBB4_1351
-.LBB4_199:
-	cmp	esi, 2
-	je	.LBB4_408
-# %bb.200:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.201:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.202:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_203
-# %bb.568:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_986
-# %bb.569:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_986
-.LBB4_203:
-	xor	edx, edx
-.LBB4_989:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_991
-# %bb.990:
-	vmovd	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
-	vmovd	edi, xmm0
-	test	edi, edi
-	setns	dil
-	add	dil, dil
-	add	dil, -1
-	xor	r9d, r9d
-	vpxor	xmm1, xmm1, xmm1
-	vucomiss	xmm1, xmm0
-	movzx	edi, dil
-	cmove	edi, r9d
-	mov	byte ptr [r8 + rdx], dil
-	or	rdx, 1
-.LBB4_991:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.992:
-	xor	esi, esi
-	vxorps	xmm0, xmm0, xmm0
-.LBB4_993:                              # =>This Inner Loop Header: Depth=1
-	vmovd	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	vmovd	edi, xmm1
-	test	edi, edi
-	setns	al
-	add	al, al
-	add	al, -1
-	vucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx], al
-	vmovd	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	vmovd	eax, xmm1
-	test	eax, eax
-	setns	al
-	add	al, al
-	add	al, -1
-	vucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx + 1], al
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_993
-	jmp	.LBB4_1351
-.LBB4_204:
-	cmp	esi, 2
-	je	.LBB4_411
-# %bb.205:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.206:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.207:
-	mov	eax, r9d
-	cmp	r9d, 128
-	jb	.LBB4_208
-# %bb.571:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_994
-# %bb.572:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_994
-.LBB4_208:
-	xor	edx, edx
-.LBB4_997:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_999
-.LBB4_998:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_998
-.LBB4_999:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_1000:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1000
-	jmp	.LBB4_1351
-.LBB4_209:
-	cmp	esi, 2
-	je	.LBB4_414
-# %bb.210:
-	cmp	esi, 3
-	jne	.LBB4_1351
-# %bb.211:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.212:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_213
-# %bb.574:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_1001
-# %bb.575:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_1001
-.LBB4_213:
-	xor	r11d, r11d
-.LBB4_1004:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1006
-# %bb.1005:
-	mov	edi, dword ptr [rcx + 4*r11]
-	test	edi, edi
-	setne	r9b
-	neg	r9b
-	test	edi, edi
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_1006:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.1007:
-	mov	esi, 1
-.LBB4_1008:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*r11]
-	test	edi, edi
-	setne	al
-	neg	al
-	test	edi, edi
-	movzx	eax, al
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	mov	eax, dword ptr [rcx + 4*r11 + 4]
-	test	eax, eax
-	setne	dl
-	neg	dl
-	test	eax, eax
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_1008
-	jmp	.LBB4_1351
-.LBB4_214:
-	cmp	esi, 7
-	je	.LBB4_417
-# %bb.215:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.216:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.217:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_577
-# %bb.218:
-	xor	edx, edx
-	jmp	.LBB4_580
-.LBB4_219:
-	cmp	esi, 7
-	je	.LBB4_420
-# %bb.220:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.221:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.222:
-	mov	r10d, r9d
-	movabs	r11, -9223372036854775808
-	cmp	r9d, 4
-	jae	.LBB4_581
-# %bb.223:
-	xor	esi, esi
-	jmp	.LBB4_1286
-.LBB4_224:
-	cmp	esi, 7
-	je	.LBB4_423
-# %bb.225:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.226:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.227:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_228
-# %bb.584:
-	lea	rdx, [rcx + r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1009
-# %bb.585:
-	lea	rdx, [r8 + 8*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1009
-.LBB4_228:
-	xor	edx, edx
-.LBB4_1012:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1014
-# %bb.1013:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	r10d, r10d
-	test	r9b, r9b
-	setne	r10b
-	neg	r10
-	test	r9b, r9b
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [r8 + 8*rdx], rdi
-	or	rdx, 1
-.LBB4_1014:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1015:
-	mov	esi, 1
-.LBB4_1016:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx], rdi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1016
-	jmp	.LBB4_1351
-.LBB4_229:
-	cmp	esi, 7
-	je	.LBB4_426
-# %bb.230:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.231:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.232:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_233
-# %bb.587:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1017
-# %bb.588:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1017
-.LBB4_233:
-	xor	edx, edx
-.LBB4_1020:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1022
-.LBB4_1021:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1021
-.LBB4_1022:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1023:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 8], rsi
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 16], rsi
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 24], rsi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1023
-	jmp	.LBB4_1351
-.LBB4_234:
-	cmp	esi, 7
-	je	.LBB4_429
-# %bb.235:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.236:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.237:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_590
-# %bb.238:
-	xor	edx, edx
-	jmp	.LBB4_593
-.LBB4_239:
-	cmp	esi, 7
-	je	.LBB4_432
-# %bb.240:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.241:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.242:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_594
-# %bb.243:
-	xor	edx, edx
-	jmp	.LBB4_597
-.LBB4_244:
-	cmp	esi, 7
-	je	.LBB4_435
-# %bb.245:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.246:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.247:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_248
-# %bb.599:
-	lea	rdx, [rcx + 8*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1024
-# %bb.600:
-	lea	rdx, [r8 + 8*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1024
-.LBB4_248:
-	xor	edx, edx
-.LBB4_1027:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1029
-# %bb.1028:
-	mov	r9, qword ptr [rcx + 8*rdx]
-	xor	r10d, r10d
-	test	r9, r9
-	setne	r10b
-	neg	r10
-	test	r9, r9
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [r8 + 8*rdx], rdi
-	or	rdx, 1
-.LBB4_1029:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1030:
-	mov	esi, 1
-.LBB4_1031:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	rax
-	test	rdi, rdi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	mov	rax, qword ptr [rcx + 8*rdx + 8]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1031
-	jmp	.LBB4_1351
-.LBB4_249:
-	cmp	esi, 7
-	je	.LBB4_438
-# %bb.250:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.251:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.252:
-	mov	r10d, r9d
-	cmp	r9d, 1
-	jne	.LBB4_602
-# %bb.253:
-	xor	eax, eax
-	jmp	.LBB4_254
-.LBB4_257:
-	cmp	esi, 7
-	je	.LBB4_441
-# %bb.258:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.259:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.260:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_261
-# %bb.610:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1032
-# %bb.611:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1032
-.LBB4_261:
-	xor	edx, edx
-.LBB4_1035:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1037
-.LBB4_1036:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1036
-.LBB4_1037:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1038:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 8], rsi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 16], rsi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 24], rsi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1038
-	jmp	.LBB4_1351
-.LBB4_262:
-	cmp	esi, 7
-	je	.LBB4_444
-# %bb.263:
-	cmp	esi, 8
-	jne	.LBB4_1351
-# %bb.264:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.265:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_613
-# %bb.266:
-	xor	edx, edx
-	jmp	.LBB4_616
-.LBB4_267:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.268:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_618
-# %bb.269:
-	xor	edx, edx
-	jmp	.LBB4_621
-.LBB4_270:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.271:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_622
-# %bb.272:
-	xor	edx, edx
-	jmp	.LBB4_625
-.LBB4_273:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.274:
-	mov	eax, r9d
-	xor	edx, edx
-	cmp	r9d, 16
-	jae	.LBB4_626
-# %bb.275:
-	xor	esi, esi
-	jmp	.LBB4_629
-.LBB4_276:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.277:
-	mov	eax, r9d
-	xor	edx, edx
-	cmp	r9d, 16
-	jae	.LBB4_631
-# %bb.278:
-	xor	esi, esi
-	jmp	.LBB4_634
-.LBB4_279:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.280:
-	mov	r11d, r9d
-	cmp	r9d, 64
-	jb	.LBB4_281
-# %bb.636:
-	lea	rdx, [rcx + r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1039
-# %bb.637:
-	lea	rdx, [r8 + 2*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1039
-.LBB4_281:
-	xor	edx, edx
-.LBB4_1042:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1044
-# %bb.1043:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	r10d, r10d
-	test	r9b, r9b
-	setne	r10b
-	neg	r10d
-	test	r9b, r9b
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [r8 + 2*rdx], di
-	or	rdx, 1
-.LBB4_1044:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1045:
-	mov	esi, 1
-.LBB4_1046:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx], di
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1046
-	jmp	.LBB4_1351
-.LBB4_282:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.283:
-	mov	r11d, r9d
-	cmp	r9d, 64
-	jb	.LBB4_284
-# %bb.639:
-	lea	rdx, [rcx + r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1047
-# %bb.640:
-	lea	rdx, [r8 + 2*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1047
-.LBB4_284:
-	xor	edx, edx
-.LBB4_1050:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1052
-# %bb.1051:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	r10d, r10d
-	test	r9b, r9b
-	setne	r10b
-	neg	r10d
-	test	r9b, r9b
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [r8 + 2*rdx], di
-	or	rdx, 1
-.LBB4_1052:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1053:
-	mov	esi, 1
-.LBB4_1054:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx], di
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1054
-	jmp	.LBB4_1351
-.LBB4_285:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.286:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_642
-# %bb.287:
-	xor	edx, edx
-	jmp	.LBB4_645
-.LBB4_288:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.289:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_646
-# %bb.290:
-	xor	edx, edx
-	jmp	.LBB4_649
-.LBB4_291:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.292:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_293
-# %bb.650:
-	lea	rdx, [rcx + 2*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1055
-# %bb.651:
-	lea	rdx, [r8 + 2*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1055
-.LBB4_293:
-	xor	edx, edx
-.LBB4_1321:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1323
-.LBB4_1322:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1322
-.LBB4_1323:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1324:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 2], si
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 4], si
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 6], si
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1324
-	jmp	.LBB4_1351
-.LBB4_294:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.295:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_296
-# %bb.653:
-	lea	rdx, [rcx + 2*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1058
-# %bb.654:
-	lea	rdx, [r8 + 2*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1058
-.LBB4_296:
-	xor	edx, edx
-.LBB4_1329:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1331
-.LBB4_1330:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1330
-.LBB4_1331:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1332:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 2], si
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 4], si
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 6], si
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1332
-	jmp	.LBB4_1351
-.LBB4_297:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.298:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_299
-# %bb.656:
-	lea	rdx, [rcx + 2*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1061
-# %bb.657:
-	lea	rdx, [r8 + 2*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1061
-.LBB4_299:
-	xor	edx, edx
-.LBB4_1337:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1339
-# %bb.1338:
-	movzx	r9d, word ptr [rcx + 2*rdx]
-	xor	r10d, r10d
-	test	r9w, r9w
-	setne	r10b
-	neg	r10d
-	test	r9w, r9w
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [r8 + 2*rdx], di
-	or	rdx, 1
-.LBB4_1339:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1340:
-	mov	esi, 1
-.LBB4_1341:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	movzx	eax, word ptr [rcx + 2*rdx + 2]
-	xor	edi, edi
-	test	ax, ax
-	setne	dil
-	neg	edi
-	test	ax, ax
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1341
-	jmp	.LBB4_1351
-.LBB4_300:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.301:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_302
-# %bb.659:
-	lea	rdx, [rcx + 2*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1064
-# %bb.660:
-	lea	rdx, [r8 + 2*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1064
-.LBB4_302:
-	xor	edx, edx
-.LBB4_1346:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1348
-# %bb.1347:
-	movzx	r9d, word ptr [rcx + 2*rdx]
-	xor	r10d, r10d
-	test	r9w, r9w
-	setne	r10b
-	neg	r10d
-	test	r9w, r9w
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [r8 + 2*rdx], di
-	or	rdx, 1
-.LBB4_1348:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1349:
-	mov	esi, 1
-.LBB4_1350:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	movzx	eax, word ptr [rcx + 2*rdx + 2]
-	xor	edi, edi
-	test	ax, ax
-	setne	dil
-	neg	edi
-	test	ax, ax
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1350
-	jmp	.LBB4_1351
-.LBB4_303:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.304:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_662
-# %bb.305:
-	xor	edx, edx
-	jmp	.LBB4_665
-.LBB4_306:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.307:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_667
-# %bb.308:
-	xor	edx, edx
-	jmp	.LBB4_670
-.LBB4_309:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.310:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 32
-	jae	.LBB4_672
-# %bb.311:
-	xor	esi, esi
-	jmp	.LBB4_675
-.LBB4_312:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.313:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 32
-	jae	.LBB4_677
-# %bb.314:
-	xor	esi, esi
-	jmp	.LBB4_680
-.LBB4_315:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.316:
-	mov	eax, r9d
-	cmp	r9d, 64
-	jb	.LBB4_317
-# %bb.682:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1067
-# %bb.683:
-	lea	rdx, [r8 + 2*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1067
-.LBB4_317:
-	xor	edx, edx
-.LBB4_1070:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1072
-.LBB4_1071:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1071
-.LBB4_1072:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1073:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 2], si
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 4], si
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 6], si
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1073
-	jmp	.LBB4_1351
-.LBB4_318:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.319:
-	mov	eax, r9d
-	cmp	r9d, 64
-	jb	.LBB4_320
-# %bb.685:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1074
-# %bb.686:
-	lea	rdx, [r8 + 2*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1074
-.LBB4_320:
-	xor	edx, edx
-.LBB4_1077:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1079
-.LBB4_1078:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1078
-.LBB4_1079:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1080:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 2], si
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 4], si
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx + 6], si
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1080
-	jmp	.LBB4_1351
-.LBB4_321:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.322:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB4_688
-# %bb.323:
-	xor	edx, edx
-	jmp	.LBB4_691
-.LBB4_324:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.325:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB4_693
-# %bb.326:
-	xor	edx, edx
-	jmp	.LBB4_696
-.LBB4_327:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.328:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_698
-# %bb.329:
-	xor	edx, edx
-	jmp	.LBB4_701
-.LBB4_330:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.331:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_702
-# %bb.332:
-	xor	edx, edx
-	jmp	.LBB4_705
-.LBB4_333:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.334:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_709
-# %bb.335:
-	xor	edx, edx
-	jmp	.LBB4_1306
-.LBB4_336:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.337:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_712
-# %bb.338:
-	xor	edx, edx
-	jmp	.LBB4_715
-.LBB4_339:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.340:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_341
-# %bb.719:
-	lea	rdx, [rcx + r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1081
-# %bb.720:
-	lea	rdx, [r8 + 8*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1081
-.LBB4_341:
-	xor	edx, edx
-.LBB4_1084:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1086
-# %bb.1085:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	r10d, r10d
-	test	r9b, r9b
-	setne	r10b
-	neg	r10
-	test	r9b, r9b
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [r8 + 8*rdx], rdi
-	or	rdx, 1
-.LBB4_1086:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1087:
-	mov	esi, 1
-.LBB4_1088:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx], rdi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1088
-	jmp	.LBB4_1351
-.LBB4_342:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.343:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_344
-# %bb.722:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1089
-# %bb.723:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1089
-.LBB4_344:
-	xor	edx, edx
-.LBB4_1092:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1269
-# %bb.1093:
-	cmp	byte ptr [rcx + rdx], 0
-	jne	.LBB4_1265
-# %bb.1094:
-	vpxor	xmm0, xmm0, xmm0
-	jmp	.LBB4_1266
-.LBB4_345:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.346:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_347
-# %bb.725:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1095
-# %bb.726:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1095
-.LBB4_347:
-	xor	edx, edx
-.LBB4_1098:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1100
-.LBB4_1099:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1099
-.LBB4_1100:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1101:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 8], rsi
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 16], rsi
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 24], rsi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1101
-	jmp	.LBB4_1351
-.LBB4_348:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.349:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_728
-# %bb.350:
-	xor	edx, edx
-	jmp	.LBB4_731
-.LBB4_351:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.352:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_735
-# %bb.353:
-	xor	edx, edx
-	jmp	.LBB4_738
-.LBB4_354:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.355:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_739
-# %bb.356:
-	xor	edx, edx
-	jmp	.LBB4_742
-.LBB4_357:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.358:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_746
-# %bb.359:
-	xor	edx, edx
-	jmp	.LBB4_749
-.LBB4_360:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.361:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_751
-# %bb.362:
-	xor	edx, edx
-	jmp	.LBB4_754
-.LBB4_363:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.364:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_365
-# %bb.760:
-	lea	rdx, [rcx + 8*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1102
-# %bb.761:
-	lea	rdx, [r8 + 8*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1102
-.LBB4_365:
-	xor	edx, edx
-.LBB4_1105:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1107
-# %bb.1106:
-	mov	r9, qword ptr [rcx + 8*rdx]
-	xor	r10d, r10d
-	test	r9, r9
-	setne	r10b
-	neg	r10
-	test	r9, r9
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [r8 + 8*rdx], rdi
-	or	rdx, 1
-.LBB4_1107:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1108:
-	mov	esi, 1
-.LBB4_1109:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	rax
-	test	rdi, rdi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	mov	rax, qword ptr [rcx + 8*rdx + 8]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1109
-	jmp	.LBB4_1351
-.LBB4_366:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.367:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_763
-# %bb.368:
-	xor	edx, edx
-	jmp	.LBB4_766
-.LBB4_369:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.370:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_772
-# %bb.371:
-	xor	edx, edx
-	jmp	.LBB4_1312
-.LBB4_372:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.373:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_374
-# %bb.775:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1110
-# %bb.776:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1110
-.LBB4_374:
-	xor	edx, edx
-.LBB4_1113:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1115
-# %bb.1114:
-	vmovss	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
-	vmovmskps	edi, xmm0
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	vcvtsi2ss	xmm1, xmm10, edi
-	vxorps	xmm2, xmm2, xmm2
-	vcmpeqss	xmm0, xmm0, xmm2
-	vandnps	xmm0, xmm0, xmm1
-	vmovss	dword ptr [r8 + 4*rdx], xmm0
-	or	rdx, 1
-.LBB4_1115:
-	add	rsi, rax
-	je	.LBB4_1351
-# %bb.1116:
-	vxorps	xmm0, xmm0, xmm0
-.LBB4_1117:                             # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	vmovmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	vcvtsi2ss	xmm2, xmm10, esi
-	vcmpeqss	xmm1, xmm1, xmm0
-	vandnps	xmm1, xmm1, xmm2
-	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vmovss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	vmovmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	vcvtsi2ss	xmm2, xmm10, esi
-	vcmpeqss	xmm1, xmm1, xmm0
-	vandnps	xmm1, xmm1, xmm2
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_1117
-	jmp	.LBB4_1351
-.LBB4_375:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.376:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_377
-# %bb.778:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1118
-# %bb.779:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1118
-.LBB4_377:
-	xor	edx, edx
-.LBB4_1121:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1123
-.LBB4_1122:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1122
-.LBB4_1123:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1124:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 8], rsi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 16], rsi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx + 24], rsi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1124
-	jmp	.LBB4_1351
-.LBB4_378:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.379:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_380
-# %bb.781:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1125
-# %bb.782:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1125
-.LBB4_380:
-	xor	edx, edx
-.LBB4_1128:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1133
-# %bb.1129:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_1131
-.LBB4_1130:                             #   in Loop: Header=BB4_1131 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	je	.LBB4_1133
-.LBB4_1131:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_1130
-# %bb.1132:                             #   in Loop: Header=BB4_1131 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_1130
-.LBB4_381:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.382:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_784
-# %bb.383:
-	xor	edx, edx
-	jmp	.LBB4_787
-.LBB4_384:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.385:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_789
-# %bb.386:
-	xor	edx, edx
-	jmp	.LBB4_792
-.LBB4_387:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.388:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_389
-# %bb.798:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1144
-# %bb.799:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1144
-.LBB4_389:
-	xor	edx, edx
-.LBB4_1147:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1149
-.LBB4_1148:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1148
-.LBB4_1149:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_1150:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1150
-	jmp	.LBB4_1351
-.LBB4_390:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.391:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_392
-# %bb.801:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1151
-# %bb.802:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1151
-.LBB4_392:
-	xor	edx, edx
-.LBB4_1154:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1156
-# %bb.1155:
-	vmovsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
-	xor	edi, edi
-	vpxor	xmm1, xmm1, xmm1
-	vucomisd	xmm1, xmm0
-	vandpd	xmm0, xmm0, xmmword ptr [rip + .LCPI4_2]
-	vmovddup	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = [1.0E+0,1.0E+0]
-                                        # xmm1 = mem[0,0]
-	vorpd	xmm0, xmm1, xmm0
-	vcvttsd2si	ebx, xmm0
-	cmove	ebx, edi
-	mov	byte ptr [r8 + rdx], bl
-	or	rdx, 1
-.LBB4_1156:
-	add	rsi, rax
-	je	.LBB4_1351
-# %bb.1157:
-	xor	esi, esi
-	vxorpd	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_1158:                             # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx], dil
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx + 1], dil
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_1158
-	jmp	.LBB4_1351
-.LBB4_393:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.394:
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB4_395
-# %bb.804:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_1159
-# %bb.805:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_1159
-.LBB4_395:
-	xor	r11d, r11d
-.LBB4_1162:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1164
-# %bb.1163:
-	mov	dil, byte ptr [rcx + r11]
-	test	dil, dil
-	setne	r9b
-	neg	r9b
-	test	dil, dil
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_1164:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.1165:
-	mov	esi, 1
-.LBB4_1166:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + r11]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	movzx	eax, byte ptr [rcx + r11 + 1]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_1166
-	jmp	.LBB4_1351
-.LBB4_396:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.397:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_398
-# %bb.807:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1167
-# %bb.808:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1167
-.LBB4_398:
-	xor	edx, edx
-.LBB4_1170:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1172
-.LBB4_1171:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1171
-.LBB4_1172:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_1173:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1173
-	jmp	.LBB4_1351
-.LBB4_399:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.400:
-	mov	eax, r9d
-	cmp	r9d, 64
-	jb	.LBB4_401
-# %bb.810:
-	lea	rdx, [rcx + 2*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1174
-# %bb.811:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1174
-.LBB4_401:
-	xor	edx, edx
-.LBB4_1177:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1179
-.LBB4_1178:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1178
-.LBB4_1179:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_1180:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1180
-	jmp	.LBB4_1351
-.LBB4_402:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.403:
-	mov	r10d, r9d
-	cmp	r9d, 64
-	jb	.LBB4_404
-# %bb.813:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_1181
-# %bb.814:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_1181
-.LBB4_404:
-	xor	r11d, r11d
-.LBB4_1184:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1186
-# %bb.1185:
-	movzx	edi, word ptr [rcx + 2*r11]
-	test	di, di
-	setne	r9b
-	neg	r9b
-	test	di, di
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_1186:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.1187:
-	mov	esi, 1
-.LBB4_1188:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*r11]
-	test	di, di
-	setne	al
-	neg	al
-	test	di, di
-	movzx	eax, al
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	movzx	eax, word ptr [rcx + 2*r11 + 2]
-	test	ax, ax
-	setne	dl
-	neg	dl
-	test	ax, ax
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_1188
-	jmp	.LBB4_1351
-.LBB4_405:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.406:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_407
-# %bb.816:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_1189
-# %bb.817:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_1189
-.LBB4_407:
-	xor	r11d, r11d
-.LBB4_1192:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1194
-# %bb.1193:
-	mov	rdi, qword ptr [rcx + 8*r11]
-	test	rdi, rdi
-	setne	r9b
-	neg	r9b
-	test	rdi, rdi
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_1194:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.1195:
-	mov	esi, 1
-.LBB4_1196:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*r11]
-	test	rdi, rdi
-	setne	al
-	neg	al
-	test	rdi, rdi
-	movzx	eax, al
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	mov	rax, qword ptr [rcx + 8*r11 + 8]
-	test	rax, rax
-	setne	dl
-	neg	dl
-	test	rax, rax
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_1196
-	jmp	.LBB4_1351
-.LBB4_408:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.409:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_410
-# %bb.819:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_1197
-# %bb.820:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_1197
-.LBB4_410:
-	xor	edx, edx
-.LBB4_1200:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1202
-# %bb.1201:
-	vmovd	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
-	vmovd	edi, xmm0
-	test	edi, edi
-	setns	dil
-	add	dil, dil
-	add	dil, -1
-	xor	r9d, r9d
-	vpxor	xmm1, xmm1, xmm1
-	vucomiss	xmm1, xmm0
-	movzx	edi, dil
-	cmove	edi, r9d
-	mov	byte ptr [r8 + rdx], dil
-	or	rdx, 1
-.LBB4_1202:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.1203:
-	xor	esi, esi
-	vxorps	xmm0, xmm0, xmm0
-.LBB4_1204:                             # =>This Inner Loop Header: Depth=1
-	vmovd	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	vmovd	edi, xmm1
-	test	edi, edi
-	setns	al
-	add	al, al
-	add	al, -1
-	vucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx], al
-	vmovd	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	vmovd	eax, xmm1
-	test	eax, eax
-	setns	al
-	add	al, al
-	add	al, -1
-	vucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx + 1], al
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1204
-	jmp	.LBB4_1351
-.LBB4_411:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.412:
-	mov	eax, r9d
-	cmp	r9d, 128
-	jb	.LBB4_413
-# %bb.822:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1205
-# %bb.823:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1205
-.LBB4_413:
-	xor	edx, edx
-.LBB4_1208:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1210
-.LBB4_1209:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1209
-.LBB4_1210:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-.LBB4_1211:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1211
-	jmp	.LBB4_1351
-.LBB4_414:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.415:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_416
-# %bb.825:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_1212
-# %bb.826:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_1212
-.LBB4_416:
-	xor	r11d, r11d
-.LBB4_1215:
-	mov	rsi, r11
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1217
-# %bb.1216:
-	mov	edi, dword ptr [rcx + 4*r11]
-	test	edi, edi
-	setne	r9b
-	neg	r9b
-	test	edi, edi
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + r11], dil
-	or	r11, 1
-.LBB4_1217:
-	add	rsi, r10
-	je	.LBB4_1351
-# %bb.1218:
-	mov	esi, 1
-.LBB4_1219:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*r11]
-	test	edi, edi
-	setne	al
-	neg	al
-	test	edi, edi
-	movzx	eax, al
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11], al
-	mov	eax, dword ptr [rcx + 4*r11 + 4]
-	test	eax, eax
-	setne	dl
-	neg	dl
-	test	eax, eax
-	movzx	eax, dl
-	cmovg	eax, esi
-	mov	byte ptr [r8 + r11 + 1], al
-	add	r11, 2
-	cmp	r10, r11
-	jne	.LBB4_1219
-	jmp	.LBB4_1351
-.LBB4_417:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.418:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_419
-# %bb.828:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1220
-# %bb.829:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1220
-.LBB4_419:
-	xor	edx, edx
-.LBB4_1223:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1225
-.LBB4_1224:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1224
-.LBB4_1225:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1226:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 4], esi
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 8], esi
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 12], esi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1226
-	jmp	.LBB4_1351
-.LBB4_420:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.421:
-	mov	eax, r9d
-	xor	edx, edx
-	cmp	r9d, 16
-	jae	.LBB4_831
-# %bb.422:
-	xor	esi, esi
-	jmp	.LBB4_834
-.LBB4_423:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.424:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_425
-# %bb.836:
-	lea	rdx, [rcx + r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1227
-# %bb.837:
-	lea	rdx, [r8 + 4*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1227
-.LBB4_425:
-	xor	edx, edx
-.LBB4_1230:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1232
-# %bb.1231:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	r10d, r10d
-	test	r9b, r9b
-	setne	r10b
-	neg	r10d
-	test	r9b, r9b
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [r8 + 4*rdx], edi
-	or	rdx, 1
-.LBB4_1232:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1233:
-	mov	esi, 1
-.LBB4_1234:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx], edi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1234
-	jmp	.LBB4_1351
-.LBB4_426:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.427:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jae	.LBB4_839
-# %bb.428:
-	xor	edx, edx
-	jmp	.LBB4_842
-.LBB4_429:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.430:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_843
-# %bb.431:
-	xor	edx, edx
-	jmp	.LBB4_846
-.LBB4_432:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.433:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB4_847
-# %bb.434:
-	xor	edx, edx
-	jmp	.LBB4_850
-.LBB4_435:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.436:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB4_852
-# %bb.437:
-	xor	edx, edx
-	jmp	.LBB4_855
-.LBB4_438:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.439:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jae	.LBB4_857
-# %bb.440:
-	xor	edx, edx
-	jmp	.LBB4_860
-.LBB4_441:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.442:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_443
-# %bb.864:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_1235
-# %bb.865:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_1235
-.LBB4_443:
-	xor	edx, edx
-.LBB4_1238:
-	mov	r9, rdx
-	not	r9
-	add	r9, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1240
-.LBB4_1239:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1239
-.LBB4_1240:
-	cmp	r9, 3
-	jb	.LBB4_1351
-.LBB4_1241:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 4], esi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 8], esi
-	xor	esi, esi
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx + 12], esi
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1241
-	jmp	.LBB4_1351
-.LBB4_444:
-	test	r9d, r9d
-	jle	.LBB4_1351
-# %bb.445:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_446
-# %bb.867:
-	lea	rdx, [rcx + 4*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_1242
-# %bb.868:
-	lea	rdx, [r8 + 4*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_1242
-.LBB4_446:
-	xor	edx, edx
-.LBB4_1245:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1247
-# %bb.1246:
-	mov	r9d, dword ptr [rcx + 4*rdx]
-	xor	r10d, r10d
-	test	r9d, r9d
-	setne	r10b
-	neg	r10d
-	test	r9d, r9d
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [r8 + 4*rdx], edi
-	or	rdx, 1
-.LBB4_1247:
-	add	rsi, r11
-	je	.LBB4_1351
-# %bb.1248:
-	mov	esi, 1
-.LBB4_1249:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	mov	eax, dword ptr [rcx + 4*rdx + 4]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1249
-	jmp	.LBB4_1351
-.LBB4_922:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-# %bb.923:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
-	jmp	.LBB4_925
-.LBB4_924:                              #   in Loop: Header=BB4_925 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_925:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_926
-# %bb.929:                              #   in Loop: Header=BB4_925 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovdqa	xmm1, xmm0
-	je	.LBB4_930
-.LBB4_927:                              #   in Loop: Header=BB4_925 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx + 8], xmm1
-	cmp	byte ptr [rcx + rdx + 2], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_928
-.LBB4_931:                              #   in Loop: Header=BB4_925 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	vmovq	qword ptr [r8 + 8*rdx + 16], xmm1
-	cmp	byte ptr [rcx + rdx + 3], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_924
-	jmp	.LBB4_932
-.LBB4_926:                              #   in Loop: Header=BB4_925 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_927
-.LBB4_930:                              #   in Loop: Header=BB4_925 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	vmovq	qword ptr [r8 + 8*rdx + 8], xmm1
-	cmp	byte ptr [rcx + rdx + 2], 0
-	vmovdqa	xmm1, xmm0
-	je	.LBB4_931
-.LBB4_928:                              #   in Loop: Header=BB4_925 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx + 16], xmm1
-	cmp	byte ptr [rcx + rdx + 3], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_924
-.LBB4_932:                              #   in Loop: Header=BB4_925 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_924
-.LBB4_1133:
-	cmp	rsi, 3
-	jb	.LBB4_1351
-# %bb.1134:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_1136
-.LBB4_1135:                             #   in Loop: Header=BB4_1136 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_1136:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_1137
-# %bb.1140:                             #   in Loop: Header=BB4_1136 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	vmovd	dword ptr [r8 + 4*rdx], xmm1
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovdqa	xmm1, xmm0
-	je	.LBB4_1141
-.LBB4_1138:                             #   in Loop: Header=BB4_1136 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx + 4], xmm1
-	cmp	byte ptr [rcx + rdx + 2], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_1139
-.LBB4_1142:                             #   in Loop: Header=BB4_1136 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	vmovd	dword ptr [r8 + 4*rdx + 8], xmm1
-	cmp	byte ptr [rcx + rdx + 3], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_1135
-	jmp	.LBB4_1143
-.LBB4_1137:                             #   in Loop: Header=BB4_1136 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx], xmm1
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_1138
-.LBB4_1141:                             #   in Loop: Header=BB4_1136 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	vmovd	dword ptr [r8 + 4*rdx + 4], xmm1
-	cmp	byte ptr [rcx + rdx + 2], 0
-	vmovdqa	xmm1, xmm0
-	je	.LBB4_1142
-.LBB4_1139:                             #   in Loop: Header=BB4_1136 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx + 8], xmm1
-	cmp	byte ptr [rcx + rdx + 3], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_1135
-.LBB4_1143:                             #   in Loop: Header=BB4_1136 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_1135
-.LBB4_450:
-	mov	esi, eax
-	and	esi, -4
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1288
-# %bb.451:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vbroadcastsd	ymm1, qword ptr [rip + .LCPI4_1] # ymm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vxorpd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm3, qword ptr [rip + .LCPI4_7] # ymm3 = [2.147483648E+9,2.147483648E+9,2.147483648E+9,2.147483648E+9]
-	vbroadcastss	xmm4, dword ptr [rip + .LCPI4_4] # xmm4 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB4_452:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm5, ymmword ptr [rcx + 8*rdi]
-	vcmpeqpd	ymm6, ymm8, ymm5
-	vandpd	ymm5, ymm5, ymm0
-	vorpd	ymm5, ymm1, ymm5
-	vcmpltpd	ymm7, ymm5, ymm3
-	vextractf128	xmm2, ymm7, 1
-	vpackssdw	xmm2, xmm7, xmm2
-	vsubpd	ymm7, ymm5, ymm3
-	vcvttpd2dq	xmm7, ymm7
-	vcvttpd2dq	xmm5, ymm5
-	vxorpd	xmm7, xmm7, xmm4
-	vblendvps	xmm2, xmm7, xmm5, xmm2
-	vextractf128	xmm5, ymm6, 1
-	vpackssdw	xmm5, xmm6, xmm5
-	vpandn	xmm2, xmm5, xmm2
-	vmovdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 32]
-	vcmpeqpd	ymm5, ymm8, ymm2
-	vextractf128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vandpd	ymm2, ymm2, ymm0
-	vorpd	ymm2, ymm1, ymm2
-	vcmpltpd	ymm6, ymm2, ymm3
-	vextractf128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vsubpd	ymm7, ymm2, ymm3
-	vcvttpd2dq	xmm7, ymm7
-	vxorpd	xmm7, xmm7, xmm4
-	vcvttpd2dq	xmm2, ymm2
-	vblendvps	xmm2, xmm7, xmm2, xmm6
-	vpandn	xmm2, xmm5, xmm2
-	vmovdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB4_452
-	jmp	.LBB4_1289
-.LBB4_456:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_457:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpand	xmm6, xmm6, xmm2
-	vmovdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_457
-# %bb.458:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_459:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_459
-	jmp	.LBB4_1351
-.LBB4_460:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_461:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	xmm3, xmm0, xmmword ptr [rcx + 2*rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxwd	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	vpcmpeqw	xmm4, xmm0, xmmword ptr [rcx + 2*rsi + 16]
-	vpand	ymm3, ymm3, ymm2
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxwd	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqw	xmm5, xmm0, xmmword ptr [rcx + 2*rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxwd	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqw	xmm6, xmm0, xmmword ptr [rcx + 2*rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxwd	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_461
-# %bb.462:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_463:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_463
-	jmp	.LBB4_1351
-.LBB4_464:
-	mov	edx, r10d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_465:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + 2*rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
-	vpcmpgtw	xmm7, xmm3, xmm0
-	vpmovsxwd	ymm9, xmm7
-	vpcmpgtw	xmm1, xmm4, xmm0
-	vpmovsxwd	ymm10, xmm1
-	vpcmpgtw	xmm7, xmm5, xmm0
-	vpmovsxwd	ymm7, xmm7
-	vpcmpgtw	xmm1, xmm6, xmm0
-	vpmovsxwd	ymm1, xmm1
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxwd	ymm3, xmm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxwd	ymm4, xmm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxwd	ymm5, xmm5
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxwd	ymm6, xmm6
-	vblendvps	ymm3, ymm3, ymm2, ymm9
-	vblendvps	ymm4, ymm4, ymm2, ymm10
-	vblendvps	ymm5, ymm5, ymm2, ymm7
-	vblendvps	ymm1, ymm6, ymm2, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_465
-# %bb.466:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_467:
-	mov	esi, 1
-.LBB4_468:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_468
-	jmp	.LBB4_1351
-.LBB4_469:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vbroadcastss	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_470:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm3, ymm4, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm9, xmm3, xmm1
-	vpcmpgtq	ymm1, ymm5, ymm0
-	vextracti128	xmm3, ymm1, 1
-	vpackssdw	xmm10, xmm1, xmm3
-	vpcmpgtq	ymm3, ymm6, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm11, xmm3, xmm1
-	vpcmpgtq	ymm3, ymm7, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm1, xmm3, xmm1
-	vpcmpeqq	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm8, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpcmpeqq	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpcmpeqq	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm8, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpcmpeqq	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm8, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vblendvps	xmm3, xmm3, xmm2, xmm9
-	vblendvps	xmm4, xmm4, xmm2, xmm10
-	vblendvps	xmm5, xmm5, xmm2, xmm11
-	vblendvps	xmm1, xmm6, xmm2, xmm1
-	vmovups	xmmword ptr [r8 + 4*rsi], xmm3
-	vmovups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	vmovups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	vmovups	xmmword ptr [r8 + 4*rsi + 48], xmm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_470
-# %bb.471:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_472:
-	mov	esi, 1
-.LBB4_473:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_473
-	jmp	.LBB4_1351
-.LBB4_474:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1294
-# %bb.475:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	vpbroadcastd	ymm0, dword ptr [rip + .LCPI4_8] # ymm0 = [1,1,1,1,1,1,1,1]
-	vxorps	xmm1, xmm1, xmm1
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_10] # ymm2 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	vbroadcastss	ymm3, dword ptr [rip + .LCPI4_4] # ymm3 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB4_476:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi]
-	vpsrad	ymm5, ymm4, 31
-	vpor	ymm5, ymm5, ymm0
-	vcvtdq2ps	ymm5, ymm5
-	vcmpltps	ymm6, ymm5, ymm2
-	vsubps	ymm7, ymm5, ymm2
-	vcvttps2dq	ymm7, ymm7
-	vxorps	ymm7, ymm7, ymm3
-	vcvttps2dq	ymm5, ymm5
-	vblendvps	ymm5, ymm7, ymm5, ymm6
-	vcmpneqps	ymm4, ymm4, ymm1
-	vandps	ymm4, ymm4, ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm4
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 32]
-	vpsrad	ymm5, ymm4, 31
-	vpor	ymm5, ymm5, ymm0
-	vcvtdq2ps	ymm5, ymm5
-	vcmpltps	ymm6, ymm5, ymm2
-	vsubps	ymm7, ymm5, ymm2
-	vcvttps2dq	ymm7, ymm7
-	vxorps	ymm7, ymm7, ymm3
-	vcvttps2dq	ymm5, ymm5
-	vblendvps	ymm5, ymm7, ymm5, ymm6
-	vcmpneqps	ymm4, ymm4, ymm1
-	vandps	ymm4, ymm4, ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_476
-	jmp	.LBB4_1295
-.LBB4_483:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastd	xmm1, dword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_484:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	xmm2, xmm0, xmmword ptr [rcx + 4*rsi]
-	vpandn	xmm2, xmm2, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vpcmpeqd	xmm3, xmm0, xmmword ptr [rcx + 4*rsi + 16]
-	vpandn	xmm3, xmm3, xmm1
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqd	xmm4, xmm0, xmmword ptr [rcx + 4*rsi + 32]
-	vpandn	xmm4, xmm4, xmm1
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqd	xmm5, xmm0, xmmword ptr [rcx + 4*rsi + 48]
-	vpandn	xmm5, xmm5, xmm1
-	vcvtdq2pd	ymm5, xmm5
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_484
-# %bb.485:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_486:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
-	jmp	.LBB4_488
-.LBB4_487:                              #   in Loop: Header=BB4_488 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_488:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_487
-# %bb.489:                              #   in Loop: Header=BB4_488 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_487
-.LBB4_496:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_497:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpand	xmm3, xmm3, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpand	xmm4, xmm4, xmm2
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpand	xmm5, xmm5, xmm2
-	vcvtdq2pd	ymm5, xmm5
-	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpand	xmm6, xmm6, xmm2
-	vcvtdq2pd	ymm6, xmm6
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_497
-# %bb.498:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_499:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
-	jmp	.LBB4_501
-.LBB4_500:                              #   in Loop: Header=BB4_501 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_501:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_500
-# %bb.502:                              #   in Loop: Header=BB4_501 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_500
-.LBB4_503:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_504:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxwd	xmm3, xmm3              # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	vpand	xmm3, xmm3, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxwd	xmm4, xmm4              # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	vpand	xmm4, xmm4, xmm2
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxwd	xmm5, xmm5              # xmm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero
-	vpand	xmm5, xmm5, xmm2
-	vcvtdq2pd	ymm5, xmm5
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxwd	xmm6, xmm6              # xmm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero
-	vpand	xmm6, xmm6, xmm2
-	vcvtdq2pd	ymm6, xmm6
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_504
-# %bb.505:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_506:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
-	jmp	.LBB4_508
-.LBB4_507:                              #   in Loop: Header=BB4_508 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_508:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_507
-# %bb.509:                              #   in Loop: Header=BB4_508 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_507
-.LBB4_510:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_511:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	vpcmpgtw	xmm7, xmm3, xmm0
-	vpmovsxwq	ymm9, xmm7
-	vpcmpgtw	xmm1, xmm4, xmm0
-	vpmovsxwq	ymm10, xmm1
-	vpcmpgtw	xmm7, xmm5, xmm0
-	vpmovsxwq	ymm7, xmm7
-	vpcmpgtw	xmm1, xmm6, xmm0
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxwd	xmm3, xmm3
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxwd	xmm4, xmm4
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxwd	xmm5, xmm5
-	vcvtdq2pd	ymm5, xmm5
-	vpmovsxwq	ymm1, xmm1
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxwd	xmm6, xmm6
-	vcvtdq2pd	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_511
-# %bb.512:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_513:
-	vmovsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = mem[0],zero
-	jmp	.LBB4_515
-.LBB4_514:                              #   in Loop: Header=BB4_515 Depth=1
-	vmovsd	qword ptr [r8 + 8*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_515:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	vmovapd	xmm2, xmm0
-	jne	.LBB4_517
-# %bb.516:                              #   in Loop: Header=BB4_515 Depth=1
-	vxorpd	xmm2, xmm2, xmm2
-.LBB4_517:                              #   in Loop: Header=BB4_515 Depth=1
-	vmovapd	xmm3, xmm1
-	jg	.LBB4_514
-# %bb.518:                              #   in Loop: Header=BB4_515 Depth=1
-	vmovapd	xmm3, xmm2
-	jmp	.LBB4_514
-.LBB4_519:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm11, ymm11, ymm11
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_520:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm7, ymm3, ymm0
-	vpcmpgtq	ymm8, ymm4, ymm0
-	vpcmpgtq	ymm9, ymm5, ymm0
-	vpcmpgtq	ymm10, ymm6, ymm0
-	vpcmpeqq	ymm3, ymm3, ymm0
-	vpxor	ymm3, ymm11, ymm3
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm1, xmm3, xmm1
-	vcvtdq2pd	ymm1, xmm1
-	vpcmpeqq	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm11, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqq	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm11, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqq	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm11, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vcvtdq2pd	ymm5, xmm5
-	vblendvpd	ymm1, ymm1, ymm2, ymm7
-	vblendvpd	ymm3, ymm3, ymm2, ymm8
-	vblendvpd	ymm4, ymm4, ymm2, ymm9
-	vblendvpd	ymm5, ymm5, ymm2, ymm10
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_520
-# %bb.521:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_522:
-	vmovsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = mem[0],zero
-	jmp	.LBB4_524
-.LBB4_523:                              #   in Loop: Header=BB4_524 Depth=1
-	vmovsd	qword ptr [r8 + 8*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_524:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	vmovapd	xmm2, xmm0
-	jne	.LBB4_526
-# %bb.525:                              #   in Loop: Header=BB4_524 Depth=1
-	vxorpd	xmm2, xmm2, xmm2
-.LBB4_526:                              #   in Loop: Header=BB4_524 Depth=1
-	vmovapd	xmm3, xmm1
-	jg	.LBB4_523
-# %bb.527:                              #   in Loop: Header=BB4_524 Depth=1
-	vmovapd	xmm3, xmm2
-	jmp	.LBB4_523
-.LBB4_528:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vxorps	xmm8, xmm8, xmm8
-	vpbroadcastd	xmm1, dword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_529:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm2, xmmword ptr [rcx + 4*rsi]
-	vmovups	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	vmovups	xmm4, xmmword ptr [rcx + 4*rsi + 32]
-	vmovups	xmm5, xmmword ptr [rcx + 4*rsi + 48]
-	vcmpeqps	xmm6, xmm8, xmm2
-	vpmovsxdq	ymm6, xmm6
-	vcmpeqps	xmm7, xmm8, xmm3
-	vpmovsxdq	ymm7, xmm7
-	vcmpeqps	xmm0, xmm8, xmm4
-	vpmovsxdq	ymm9, xmm0
-	vcmpeqps	xmm0, xmm8, xmm5
-	vpmovsxdq	ymm0, xmm0
-	vpsrad	xmm2, xmm2, 31
-	vpor	xmm2, xmm2, xmm1
-	vpsrad	xmm3, xmm3, 31
-	vpor	xmm3, xmm3, xmm1
-	vpsrad	xmm4, xmm4, 31
-	vpor	xmm4, xmm4, xmm1
-	vpsrad	xmm5, xmm5, 31
-	vpor	xmm5, xmm5, xmm1
-	vcvtdq2ps	xmm2, xmm2
-	vcvtdq2ps	xmm3, xmm3
-	vcvtdq2ps	xmm4, xmm4
-	vcvtdq2ps	xmm5, xmm5
-	vcvtps2pd	ymm2, xmm2
-	vpandn	ymm2, ymm6, ymm2
-	vcvtps2pd	ymm3, xmm3
-	vpandn	ymm3, ymm7, ymm3
-	vcvtps2pd	ymm4, xmm4
-	vcvtps2pd	ymm5, xmm5
-	vpandn	ymm4, ymm9, ymm4
-	vpandn	ymm0, ymm0, ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm0
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_529
-# %bb.530:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_531:
-	vpxor	xmm0, xmm0, xmm0
-	jmp	.LBB4_533
-.LBB4_532:                              #   in Loop: Header=BB4_533 Depth=1
-	vmovq	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_533:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm2, dword ptr [rcx + 4*rdx]   # xmm2 = mem[0],zero,zero,zero
-	vpxor	xmm1, xmm1, xmm1
-	vucomiss	xmm0, xmm2
-	je	.LBB4_532
-# %bb.534:                              #   in Loop: Header=BB4_533 Depth=1
-	vmovmskps	esi, xmm2
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	vcvtsi2ss	xmm1, xmm10, esi
-	vcvtss2sd	xmm1, xmm1, xmm1
-	jmp	.LBB4_532
-.LBB4_538:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_539:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	vpcmpgtd	xmm7, xmm3, xmm0
-	vpmovsxdq	ymm9, xmm7
-	vpcmpgtd	xmm1, xmm4, xmm0
-	vpmovsxdq	ymm10, xmm1
-	vpcmpgtd	xmm7, xmm5, xmm0
-	vpmovsxdq	ymm7, xmm7
-	vpcmpgtd	xmm1, xmm6, xmm0
-	vpmovsxdq	ymm1, xmm1
-	vpcmpeqd	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqd	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqd	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vcvtdq2pd	ymm5, xmm5
-	vpcmpeqd	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vcvtdq2pd	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_539
-# %bb.540:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_541:
-	vmovsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = mem[0],zero
-	jmp	.LBB4_543
-.LBB4_542:                              #   in Loop: Header=BB4_543 Depth=1
-	vmovsd	qword ptr [r8 + 8*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_543:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	vmovapd	xmm2, xmm0
-	jne	.LBB4_545
-# %bb.544:                              #   in Loop: Header=BB4_543 Depth=1
-	vxorpd	xmm2, xmm2, xmm2
-.LBB4_545:                              #   in Loop: Header=BB4_543 Depth=1
-	vmovapd	xmm3, xmm1
-	jg	.LBB4_542
-# %bb.546:                              #   in Loop: Header=BB4_543 Depth=1
-	vmovapd	xmm3, xmm2
-	jmp	.LBB4_542
-.LBB4_577:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_578:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	xmm3, xmm0, xmmword ptr [rcx + 4*rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxdq	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	vpcmpeqd	xmm4, xmm0, xmmword ptr [rcx + 4*rsi + 16]
-	vpand	ymm3, ymm3, ymm2
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxdq	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqd	xmm5, xmm0, xmmword ptr [rcx + 4*rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxdq	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqd	xmm6, xmm0, xmmword ptr [rcx + 4*rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxdq	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_578
-# %bb.579:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_580:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_580
-	jmp	.LBB4_1351
-.LBB4_581:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1282
-# %bb.582:
-	mov	r14, r9
-	and	r14, -2
-	neg	r14
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vmovsd	xmm3, qword ptr [rip + .LCPI4_6] # xmm3 = mem[0],zero
-.LBB4_583:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi]
-	vandpd	ymm5, ymm4, ymm0
-	vorpd	ymm5, ymm2, ymm5
-	vextractf128	xmm6, ymm5, 1
-	vsubsd	xmm7, xmm6, xmm3
-	vcvttsd2si	rbx, xmm7
-	xor	rbx, r11
-	vcvttsd2si	rdx, xmm6
-	vucomisd	xmm6, xmm3
-	cmovae	rdx, rbx
-	vpermilps	xmm6, xmm6, 78          # xmm6 = xmm6[2,3,0,1]
-	vsubsd	xmm7, xmm6, xmm3
-	vcvttsd2si	rbx, xmm7
-	xor	rbx, r11
-	vcvttsd2si	rax, xmm6
-	vucomisd	xmm6, xmm3
-	vmovq	xmm6, rdx
-	cmovae	rax, rbx
-	vmovq	xmm7, rax
-	vsubsd	xmm1, xmm5, xmm3
-	vcvttsd2si	rax, xmm1
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm5
-	vucomisd	xmm5, xmm3
-	cmovae	rdx, rax
-	vpermilps	xmm1, xmm5, 78          # xmm1 = xmm5[2,3,0,1]
-	vsubsd	xmm5, xmm1, xmm3
-	vcvttsd2si	rax, xmm5
-	vmovq	xmm5, rdx
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm1
-	vucomisd	xmm1, xmm3
-	vpunpcklqdq	xmm1, xmm6, xmm7        # xmm1 = xmm6[0],xmm7[0]
-	cmovae	rdx, rax
-	vmovq	xmm6, rdx
-	vpunpcklqdq	xmm5, xmm5, xmm6        # xmm5 = xmm5[0],xmm6[0]
-	vinserti128	ymm1, ymm5, xmm1, 1
-	vcmpneqpd	ymm4, ymm8, ymm4
-	vandpd	ymm1, ymm4, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi + 32]
-	vandpd	ymm1, ymm4, ymm0
-	vorpd	ymm1, ymm2, ymm1
-	vextractf128	xmm5, ymm1, 1
-	vsubsd	xmm6, xmm5, xmm3
-	vcvttsd2si	rax, xmm6
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm5
-	vucomisd	xmm5, xmm3
-	cmovae	rdx, rax
-	vpermilps	xmm5, xmm5, 78          # xmm5 = xmm5[2,3,0,1]
-	vsubsd	xmm6, xmm5, xmm3
-	vcvttsd2si	rax, xmm6
-	vmovq	xmm6, rdx
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm5
-	vucomisd	xmm5, xmm3
-	cmovae	rdx, rax
-	vmovq	xmm5, rdx
-	vsubsd	xmm7, xmm1, xmm3
-	vcvttsd2si	rax, xmm7
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm1
-	vucomisd	xmm1, xmm3
-	cmovae	rdx, rax
-	vpermilps	xmm1, xmm1, 78          # xmm1 = xmm1[2,3,0,1]
-	vsubsd	xmm6, xmm1, xmm3
-	vcvttsd2si	rax, xmm6
-	vmovq	xmm6, rdx
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm1
-	vucomisd	xmm1, xmm3
-	cmovae	rdx, rax
-	vmovq	xmm1, rdx
-	vpunpcklqdq	xmm1, xmm6, xmm1        # xmm1 = xmm6[0],xmm1[0]
-	vinserti128	ymm1, ymm1, xmm5, 1
-	vcmpneqpd	ymm4, ymm8, ymm4
-	vandpd	ymm1, ymm4, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	add	rdi, 8
-	add	r14, 2
-	jne	.LBB4_583
-	jmp	.LBB4_1283
-.LBB4_590:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_591:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxwq	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxwq	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxwq	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_591
-# %bb.592:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_593:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_593
-	jmp	.LBB4_1351
-.LBB4_594:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_595:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	vpcmpgtw	xmm7, xmm3, xmm0
-	vpmovsxwq	ymm9, xmm7
-	vpcmpgtw	xmm1, xmm4, xmm0
-	vpmovsxwq	ymm10, xmm1
-	vpcmpgtw	xmm7, xmm5, xmm0
-	vpmovsxwq	ymm7, xmm7
-	vpcmpgtw	xmm1, xmm6, xmm0
-	vpmovsxwq	ymm1, xmm1
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxwq	ymm3, xmm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxwq	ymm4, xmm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxwq	ymm5, xmm5
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxwq	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_595
-# %bb.596:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_597:
-	mov	esi, 1
-.LBB4_598:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	rax
-	test	di, di
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_598
-	jmp	.LBB4_1351
-.LBB4_602:
-	mov	esi, r10d
-	and	esi, -2
-	xor	eax, eax
-	vxorps	xmm0, xmm0, xmm0
-	vmovss	xmm1, dword ptr [rip + .LCPI4_9] # xmm1 = mem[0],zero,zero,zero
-	movabs	r9, -9223372036854775808
-	jmp	.LBB4_605
-.LBB4_603:                              #   in Loop: Header=BB4_605 Depth=1
-	vmovmskps	edx, xmm2
-	and	edx, 1
-	neg	edx
-	or	edx, 1
-	vcvtsi2ss	xmm2, xmm4, edx
-	vsubss	xmm3, xmm2, xmm1
-	vcvttss2si	rdi, xmm3
-	xor	rdi, r9
-	vcvttss2si	rdx, xmm2
-	vucomiss	xmm2, xmm1
-	cmovae	rdx, rdi
-	mov	qword ptr [r8 + 8*rax + 8], rdx
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_254
-.LBB4_605:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm2, dword ptr [rcx + 4*rax]   # xmm2 = mem[0],zero,zero,zero
-	vucomiss	xmm0, xmm2
-	jne	.LBB4_607
-# %bb.606:                              #   in Loop: Header=BB4_605 Depth=1
-	xor	edx, edx
-	jmp	.LBB4_608
-.LBB4_607:                              #   in Loop: Header=BB4_605 Depth=1
-	vmovmskps	edx, xmm2
-	and	edx, 1
-	neg	edx
-	or	edx, 1
-	vcvtsi2ss	xmm2, xmm4, edx
-	vsubss	xmm3, xmm2, xmm1
-	vcvttss2si	rdi, xmm3
-	xor	rdi, r9
-	vcvttss2si	rdx, xmm2
-	vucomiss	xmm2, xmm1
-	cmovae	rdx, rdi
-.LBB4_608:                              #   in Loop: Header=BB4_605 Depth=1
-	mov	qword ptr [r8 + 8*rax], rdx
-	vmovss	xmm2, dword ptr [rcx + 4*rax + 4] # xmm2 = mem[0],zero,zero,zero
-	vucomiss	xmm0, xmm2
-	jne	.LBB4_603
-# %bb.609:                              #   in Loop: Header=BB4_605 Depth=1
-	xor	edx, edx
-	mov	qword ptr [r8 + 8*rax + 8], rdx
-	add	rax, 2
-	cmp	rsi, rax
-	jne	.LBB4_605
-.LBB4_254:
-	test	r10b, 1
-	je	.LBB4_1351
-# %bb.255:
-	vmovss	xmm0, dword ptr [rcx + 4*rax]   # xmm0 = mem[0],zero,zero,zero
-	vxorps	xmm1, xmm1, xmm1
-	vucomiss	xmm1, xmm0
-	jne	.LBB4_1280
-# %bb.256:
-	xor	ecx, ecx
-	jmp	.LBB4_1281
-.LBB4_613:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_614:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	vpcmpgtd	xmm7, xmm3, xmm0
-	vpmovsxdq	ymm9, xmm7
-	vpcmpgtd	xmm1, xmm4, xmm0
-	vpmovsxdq	ymm10, xmm1
-	vpcmpgtd	xmm7, xmm5, xmm0
-	vpmovsxdq	ymm7, xmm7
-	vpcmpgtd	xmm1, xmm6, xmm0
-	vpmovsxdq	ymm1, xmm1
-	vpcmpeqd	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxdq	ymm3, xmm3
-	vpcmpeqd	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxdq	ymm4, xmm4
-	vpcmpeqd	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxdq	ymm5, xmm5
-	vpcmpeqd	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxdq	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_614
-# %bb.615:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_616:
-	mov	esi, 1
-.LBB4_617:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	rax
-	test	edi, edi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_617
-	jmp	.LBB4_1351
-.LBB4_618:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-.LBB4_619:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpxor	ymm2, ymm2, ymm1
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpsrlw	xmm2, xmm2, 15
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpsrlw	xmm3, xmm3, 15
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpsrlw	xmm4, xmm4, 15
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpsrlw	xmm5, xmm5, 15
-	vmovdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 32], xmm4
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 48], xmm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_619
-# %bb.620:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_621:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_621
-	jmp	.LBB4_1351
-.LBB4_622:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-.LBB4_623:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpxor	ymm2, ymm2, ymm1
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpsrlw	xmm2, xmm2, 15
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpsrlw	xmm3, xmm3, 15
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpsrlw	xmm4, xmm4, 15
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpsrlw	xmm5, xmm5, 15
-	vmovdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 32], xmm4
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 48], xmm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_623
-# %bb.624:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_625:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_625
-	jmp	.LBB4_1351
-.LBB4_626:
-	mov	esi, eax
-	and	esi, -16
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	xmm9, xmm9, xmm9
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vpxor	xmm10, xmm10, xmm10
-.LBB4_627:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm5, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm7, ymmword ptr [rcx + 8*rdi + 96]
-	vcmpeqpd	ymm8, ymm9, ymm4
-	vextractf128	xmm1, ymm8, 1
-	vpackssdw	xmm1, xmm8, xmm1
-	vpackssdw	xmm11, xmm1, xmm1
-	vcmpeqpd	ymm8, ymm9, ymm5
-	vextractf128	xmm3, ymm8, 1
-	vpackssdw	xmm3, xmm8, xmm3
-	vpackssdw	xmm12, xmm3, xmm3
-	vcmpeqpd	ymm8, ymm9, ymm6
-	vextractf128	xmm1, ymm8, 1
-	vpackssdw	xmm1, xmm8, xmm1
-	vpackssdw	xmm1, xmm1, xmm1
-	vcmpeqpd	ymm8, ymm9, ymm7
-	vextractf128	xmm3, ymm8, 1
-	vpackssdw	xmm3, xmm8, xmm3
-	vpackssdw	xmm3, xmm3, xmm3
-	vandpd	ymm4, ymm4, ymm0
-	vorpd	ymm4, ymm2, ymm4
-	vandpd	ymm5, ymm5, ymm0
-	vorpd	ymm5, ymm2, ymm5
-	vandpd	ymm6, ymm6, ymm0
-	vorpd	ymm6, ymm2, ymm6
-	vandpd	ymm7, ymm7, ymm0
-	vorpd	ymm7, ymm2, ymm7
-	vcvttpd2dq	xmm4, ymm4
-	vcvttpd2dq	xmm5, ymm5
-	vpackusdw	xmm4, xmm4, xmm4
-	vpackusdw	xmm5, xmm5, xmm5
-	vcvttpd2dq	xmm6, ymm6
-	vpackusdw	xmm6, xmm6, xmm6
-	vcvttpd2dq	xmm7, ymm7
-	vpackusdw	xmm7, xmm7, xmm7
-	vpblendvb	xmm4, xmm4, xmm10, xmm11
-	vpblendvb	xmm5, xmm5, xmm10, xmm12
-	vpblendvb	xmm1, xmm6, xmm10, xmm1
-	vpblendvb	xmm3, xmm7, xmm10, xmm3
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vinserti128	ymm3, ymm4, xmm5, 1
-	vpunpcklqdq	ymm1, ymm3, ymm1        # ymm1 = ymm3[0],ymm1[0],ymm3[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB4_627
-# %bb.628:
-	cmp	rsi, rax
-	je	.LBB4_1351
-.LBB4_629:
-	vxorpd	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_630:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, edx
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_630
-	jmp	.LBB4_1351
-.LBB4_631:
-	mov	esi, eax
-	and	esi, -16
-	xor	edi, edi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	xmm9, xmm9, xmm9
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vpxor	xmm10, xmm10, xmm10
-.LBB4_632:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm5, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm7, ymmword ptr [rcx + 8*rdi + 96]
-	vcmpeqpd	ymm8, ymm9, ymm4
-	vextractf128	xmm1, ymm8, 1
-	vpackssdw	xmm1, xmm8, xmm1
-	vpackssdw	xmm11, xmm1, xmm1
-	vcmpeqpd	ymm8, ymm9, ymm5
-	vextractf128	xmm3, ymm8, 1
-	vpackssdw	xmm3, xmm8, xmm3
-	vpackssdw	xmm12, xmm3, xmm3
-	vcmpeqpd	ymm8, ymm9, ymm6
-	vextractf128	xmm1, ymm8, 1
-	vpackssdw	xmm1, xmm8, xmm1
-	vpackssdw	xmm1, xmm1, xmm1
-	vcmpeqpd	ymm8, ymm9, ymm7
-	vextractf128	xmm3, ymm8, 1
-	vpackssdw	xmm3, xmm8, xmm3
-	vpackssdw	xmm3, xmm3, xmm3
-	vandpd	ymm4, ymm4, ymm0
-	vorpd	ymm4, ymm2, ymm4
-	vandpd	ymm5, ymm5, ymm0
-	vorpd	ymm5, ymm2, ymm5
-	vandpd	ymm6, ymm6, ymm0
-	vorpd	ymm6, ymm2, ymm6
-	vandpd	ymm7, ymm7, ymm0
-	vorpd	ymm7, ymm2, ymm7
-	vcvttpd2dq	xmm4, ymm4
-	vcvttpd2dq	xmm5, ymm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpackssdw	xmm5, xmm5, xmm5
-	vcvttpd2dq	xmm6, ymm6
-	vpackssdw	xmm6, xmm6, xmm6
-	vcvttpd2dq	xmm7, ymm7
-	vpackssdw	xmm7, xmm7, xmm7
-	vpblendvb	xmm4, xmm4, xmm10, xmm11
-	vpblendvb	xmm5, xmm5, xmm10, xmm12
-	vpblendvb	xmm1, xmm6, xmm10, xmm1
-	vpblendvb	xmm3, xmm7, xmm10, xmm3
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vinserti128	ymm3, ymm4, xmm5, 1
-	vpunpcklqdq	ymm1, ymm3, ymm1        # ymm1 = ymm3[0],ymm1[0],ymm3[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB4_632
-# %bb.633:
-	cmp	rsi, rax
-	je	.LBB4_1351
-.LBB4_634:
-	vxorpd	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_635:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, edx
-	mov	word ptr [r8 + 2*rsi], di
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_635
-	jmp	.LBB4_1351
-.LBB4_642:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_16] # xmm2 = <1,1,1,1,u,u,u,u>
-.LBB4_643:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpackssdw	xmm3, xmm3, xmm3
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpand	xmm4, xmm4, xmm2
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpackssdw	xmm5, xmm5, xmm5
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpackssdw	xmm6, xmm6, xmm6
-	vpand	xmm6, xmm6, xmm2
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpunpcklqdq	ymm3, ymm3, ymm5        # ymm3 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
-	vpermq	ymm3, ymm3, 216                 # ymm3 = ymm3[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_643
-# %bb.644:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_645:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_645
-	jmp	.LBB4_1351
-.LBB4_646:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_16] # xmm2 = <1,1,1,1,u,u,u,u>
-.LBB4_647:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpackssdw	xmm3, xmm3, xmm3
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpand	xmm4, xmm4, xmm2
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpackssdw	xmm5, xmm5, xmm5
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpackssdw	xmm6, xmm6, xmm6
-	vpand	xmm6, xmm6, xmm2
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpunpcklqdq	ymm3, ymm3, ymm5        # ymm3 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
-	vpermq	ymm3, ymm3, 216                 # ymm3 = ymm3[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_647
-# %bb.648:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_649:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_649
-	jmp	.LBB4_1351
-.LBB4_662:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vmovdqa	xmm10, xmmword ptr [rip + .LCPI4_16] # xmm10 = <1,1,1,1,u,u,u,u>
-.LBB4_663:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm3, ymm7, ymm0
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpackssdw	xmm11, xmm3, xmm3
-	vpcmpgtq	ymm5, ymm8, ymm0
-	vextracti128	xmm1, ymm5, 1
-	vpackssdw	xmm1, xmm5, xmm1
-	vpackssdw	xmm12, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm6, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpackssdw	xmm1, xmm1, xmm1
-	vpcmpgtq	ymm2, ymm4, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpackssdw	xmm2, xmm2, xmm2
-	vpcmpeqq	ymm3, ymm7, ymm0
-	vpxor	ymm3, ymm9, ymm3
-	vextracti128	xmm7, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm7
-	vpackssdw	xmm3, xmm3, xmm3
-	vpcmpeqq	ymm7, ymm8, ymm0
-	vpxor	ymm7, ymm9, ymm7
-	vextracti128	xmm5, ymm7, 1
-	vpackssdw	xmm5, xmm7, xmm5
-	vpackssdw	xmm5, xmm5, xmm5
-	vpcmpeqq	ymm6, ymm6, ymm0
-	vpxor	ymm6, ymm9, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpackssdw	xmm6, xmm6, xmm6
-	vpcmpeqq	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm7, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm7
-	vpackssdw	xmm4, xmm4, xmm4
-	vpblendvb	xmm3, xmm3, xmm10, xmm11
-	vpblendvb	xmm5, xmm5, xmm10, xmm12
-	vpblendvb	xmm1, xmm6, xmm10, xmm1
-	vpblendvb	xmm2, xmm4, xmm10, xmm2
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vinserti128	ymm2, ymm3, xmm5, 1
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_663
-# %bb.664:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_665:
-	mov	esi, 1
-.LBB4_666:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_666
-	jmp	.LBB4_1351
-.LBB4_667:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vmovdqa	xmm10, xmmword ptr [rip + .LCPI4_16] # xmm10 = <1,1,1,1,u,u,u,u>
-.LBB4_668:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm3, ymm7, ymm0
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpackssdw	xmm11, xmm3, xmm3
-	vpcmpgtq	ymm5, ymm8, ymm0
-	vextracti128	xmm1, ymm5, 1
-	vpackssdw	xmm1, xmm5, xmm1
-	vpackssdw	xmm12, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm6, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpackssdw	xmm1, xmm1, xmm1
-	vpcmpgtq	ymm2, ymm4, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpackssdw	xmm2, xmm2, xmm2
-	vpcmpeqq	ymm3, ymm7, ymm0
-	vpxor	ymm3, ymm9, ymm3
-	vextracti128	xmm7, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm7
-	vpackssdw	xmm3, xmm3, xmm3
-	vpcmpeqq	ymm7, ymm8, ymm0
-	vpxor	ymm7, ymm9, ymm7
-	vextracti128	xmm5, ymm7, 1
-	vpackssdw	xmm5, xmm7, xmm5
-	vpackssdw	xmm5, xmm5, xmm5
-	vpcmpeqq	ymm6, ymm6, ymm0
-	vpxor	ymm6, ymm9, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpackssdw	xmm6, xmm6, xmm6
-	vpcmpeqq	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm7, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm7
-	vpackssdw	xmm4, xmm4, xmm4
-	vpblendvb	xmm3, xmm3, xmm10, xmm11
-	vpblendvb	xmm5, xmm5, xmm10, xmm12
-	vpblendvb	xmm1, xmm6, xmm10, xmm1
-	vpblendvb	xmm2, xmm4, xmm10, xmm2
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vinserti128	ymm2, ymm3, xmm5, 1
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_668
-# %bb.669:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_670:
-	mov	esi, 1
-.LBB4_671:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_671
-	jmp	.LBB4_1351
-.LBB4_672:
-	mov	esi, eax
-	and	esi, -32
-	xor	edi, edi
-	vxorps	xmm9, xmm9, xmm9
-	vpcmpeqd	ymm10, ymm10, ymm10
-	vmovdqa	xmm11, xmmword ptr [rip + .LCPI4_11] # xmm11 = [1,1,1,1,1,1,1,1]
-	vpcmpeqd	xmm12, xmm12, xmm12
-.LBB4_673:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm4, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm5, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm6, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm7, ymmword ptr [rcx + 4*rdi + 96]
-	vcmpeqps	ymm8, ymm9, ymm4
-	vextractf128	xmm0, ymm8, 1
-	vpackssdw	xmm13, xmm8, xmm0
-	vcmpeqps	ymm8, ymm9, ymm5
-	vextractf128	xmm1, ymm8, 1
-	vpackssdw	xmm1, xmm8, xmm1
-	vcmpeqps	ymm8, ymm9, ymm6
-	vextractf128	xmm2, ymm8, 1
-	vpackssdw	xmm2, xmm8, xmm2
-	vcmpeqps	ymm8, ymm9, ymm7
-	vextractf128	xmm3, ymm8, 1
-	vpackssdw	xmm3, xmm8, xmm3
-	vpcmpgtd	ymm4, ymm4, ymm10
-	vextracti128	xmm0, ymm4, 1
-	vpackssdw	xmm0, xmm4, xmm0
-	vpcmpgtd	ymm4, ymm5, ymm10
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpcmpgtd	ymm5, ymm6, ymm10
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpcmpgtd	ymm6, ymm7, ymm10
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpblendvb	xmm0, xmm12, xmm11, xmm0
-	vpandn	xmm0, xmm13, xmm0
-	vpblendvb	xmm4, xmm12, xmm11, xmm4
-	vpandn	xmm1, xmm1, xmm4
-	vpblendvb	xmm4, xmm12, xmm11, xmm5
-	vpblendvb	xmm5, xmm12, xmm11, xmm6
-	vpandn	xmm2, xmm2, xmm4
-	vpandn	xmm3, xmm3, xmm5
-	vmovdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [r8 + 2*rdi + 48], xmm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB4_673
-# %bb.674:
-	cmp	rsi, rax
-	je	.LBB4_1351
-.LBB4_675:
-	vpxor	xmm0, xmm0, xmm0
-.LBB4_676:                              # =>This Inner Loop Header: Depth=1
-	vmovd	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vmovd	edi, xmm1
-	xor	edx, edx
-	test	edi, edi
-	setns	dl
-	vucomiss	xmm0, xmm1
-	lea	edx, [rdx + rdx - 1]
-	cmove	edx, r10d
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_676
-	jmp	.LBB4_1351
-.LBB4_677:
-	mov	esi, eax
-	and	esi, -32
-	xor	edi, edi
-	vxorps	xmm9, xmm9, xmm9
-	vpcmpeqd	ymm10, ymm10, ymm10
-	vmovdqa	xmm11, xmmword ptr [rip + .LCPI4_11] # xmm11 = [1,1,1,1,1,1,1,1]
-	vpcmpeqd	xmm12, xmm12, xmm12
-.LBB4_678:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm4, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm5, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm6, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm7, ymmword ptr [rcx + 4*rdi + 96]
-	vcmpeqps	ymm8, ymm9, ymm4
-	vextractf128	xmm0, ymm8, 1
-	vpackssdw	xmm13, xmm8, xmm0
-	vcmpeqps	ymm8, ymm9, ymm5
-	vextractf128	xmm1, ymm8, 1
-	vpackssdw	xmm1, xmm8, xmm1
-	vcmpeqps	ymm8, ymm9, ymm6
-	vextractf128	xmm2, ymm8, 1
-	vpackssdw	xmm2, xmm8, xmm2
-	vcmpeqps	ymm8, ymm9, ymm7
-	vextractf128	xmm3, ymm8, 1
-	vpackssdw	xmm3, xmm8, xmm3
-	vpcmpgtd	ymm4, ymm4, ymm10
-	vextracti128	xmm0, ymm4, 1
-	vpackssdw	xmm0, xmm4, xmm0
-	vpcmpgtd	ymm4, ymm5, ymm10
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpcmpgtd	ymm5, ymm6, ymm10
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpcmpgtd	ymm6, ymm7, ymm10
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpblendvb	xmm0, xmm12, xmm11, xmm0
-	vpandn	xmm0, xmm13, xmm0
-	vpblendvb	xmm4, xmm12, xmm11, xmm4
-	vpandn	xmm1, xmm1, xmm4
-	vpblendvb	xmm4, xmm12, xmm11, xmm5
-	vpblendvb	xmm5, xmm12, xmm11, xmm6
-	vpandn	xmm2, xmm2, xmm4
-	vpandn	xmm3, xmm3, xmm5
-	vmovdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [r8 + 2*rdi + 48], xmm3
-	add	rdi, 32
-	cmp	rsi, rdi
-	jne	.LBB4_678
-# %bb.679:
-	cmp	rsi, rax
-	je	.LBB4_1351
-.LBB4_680:
-	vpxor	xmm0, xmm0, xmm0
-.LBB4_681:                              # =>This Inner Loop Header: Depth=1
-	vmovd	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vmovd	edi, xmm1
-	xor	edx, edx
-	test	edi, edi
-	setns	dl
-	vucomiss	xmm0, xmm1
-	lea	edx, [rdx + rdx - 1]
-	cmove	edx, r10d
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_681
-	jmp	.LBB4_1351
-.LBB4_688:
-	mov	edx, r10d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vmovdqa	xmm9, xmmword ptr [rip + .LCPI4_11] # xmm9 = [1,1,1,1,1,1,1,1]
-.LBB4_689:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpgtd	ymm3, ymm4, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm10, xmm3, xmm1
-	vpcmpgtd	ymm1, ymm5, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm11, xmm1, xmm2
-	vpcmpgtd	ymm2, ymm6, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpcmpgtd	ymm3, ymm7, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm1, xmm3, xmm1
-	vpcmpeqd	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm8, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpcmpeqd	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpcmpeqd	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm8, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpcmpeqd	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm8, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpblendvb	xmm3, xmm3, xmm9, xmm10
-	vpblendvb	xmm4, xmm4, xmm9, xmm11
-	vpblendvb	xmm2, xmm5, xmm9, xmm2
-	vpblendvb	xmm1, xmm6, xmm9, xmm1
-	vmovdqu	xmmword ptr [r8 + 2*rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 32], xmm2
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 48], xmm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_689
-# %bb.690:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_691:
-	mov	esi, 1
-.LBB4_692:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_692
-	jmp	.LBB4_1351
-.LBB4_693:
-	mov	edx, r10d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vmovdqa	xmm9, xmmword ptr [rip + .LCPI4_11] # xmm9 = [1,1,1,1,1,1,1,1]
-.LBB4_694:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpgtd	ymm3, ymm4, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm10, xmm3, xmm1
-	vpcmpgtd	ymm1, ymm5, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm11, xmm1, xmm2
-	vpcmpgtd	ymm2, ymm6, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpcmpgtd	ymm3, ymm7, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm1, xmm3, xmm1
-	vpcmpeqd	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm8, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpcmpeqd	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpcmpeqd	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm8, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpcmpeqd	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm8, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpblendvb	xmm3, xmm3, xmm9, xmm10
-	vpblendvb	xmm4, xmm4, xmm9, xmm11
-	vpblendvb	xmm2, xmm5, xmm9, xmm2
-	vpblendvb	xmm1, xmm6, xmm9, xmm1
-	vmovdqu	xmmword ptr [r8 + 2*rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 32], xmm2
-	vmovdqu	xmmword ptr [r8 + 2*rsi + 48], xmm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_694
-# %bb.695:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_696:
-	mov	esi, 1
-.LBB4_697:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_697
-	jmp	.LBB4_1351
-.LBB4_698:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_699:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	xmm3, xmm0, xmmword ptr [rcx + 4*rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxdq	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	vpcmpeqd	xmm4, xmm0, xmmword ptr [rcx + 4*rsi + 16]
-	vpand	ymm3, ymm3, ymm2
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxdq	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqd	xmm5, xmm0, xmmword ptr [rcx + 4*rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxdq	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqd	xmm6, xmm0, xmmword ptr [rcx + 4*rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxdq	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_699
-# %bb.700:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_701:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_701
-	jmp	.LBB4_1351
-.LBB4_702:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_5] # ymm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_703:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_703
-# %bb.704:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_705:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_707
-.LBB4_706:                              #   in Loop: Header=BB4_707 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_707:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_706
-# %bb.708:                              #   in Loop: Header=BB4_707 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_706
-.LBB4_709:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1302
-# %bb.710:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	vxorpd	xmm0, xmm0, xmm0
-	vbroadcastsd	ymm1, qword ptr [rip + .LCPI4_0] # ymm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_711:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rsi]
-	vandpd	ymm4, ymm3, ymm1
-	vorpd	ymm4, ymm2, ymm4
-	vextractf128	xmm5, ymm4, 1
-	vcvttsd2si	rbx, xmm5
-	vmovq	xmm6, rbx
-	vpermilps	xmm5, xmm5, 78          # xmm5 = xmm5[2,3,0,1]
-	vcvttsd2si	rbx, xmm5
-	vmovq	xmm5, rbx
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	vcvttsd2si	rbx, xmm4
-	vmovq	xmm6, rbx
-	vpermilps	xmm4, xmm4, 78          # xmm4 = xmm4[2,3,0,1]
-	vcvttsd2si	rbx, xmm4
-	vmovq	xmm4, rbx
-	vpunpcklqdq	xmm4, xmm6, xmm4        # xmm4 = xmm6[0],xmm4[0]
-	vinserti128	ymm4, ymm4, xmm5, 1
-	vcmpneqpd	ymm3, ymm3, ymm0
-	vandpd	ymm3, ymm3, ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rsi + 32]
-	vandpd	ymm4, ymm3, ymm1
-	vorpd	ymm4, ymm2, ymm4
-	vextractf128	xmm5, ymm4, 1
-	vcvttsd2si	rbx, xmm5
-	vmovq	xmm6, rbx
-	vpermilps	xmm5, xmm5, 78          # xmm5 = xmm5[2,3,0,1]
-	vcvttsd2si	rbx, xmm5
-	vmovq	xmm5, rbx
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	vcvttsd2si	rbx, xmm4
-	vmovq	xmm6, rbx
-	vpermilps	xmm4, xmm4, 78          # xmm4 = xmm4[2,3,0,1]
-	vcvttsd2si	rbx, xmm4
-	vmovq	xmm4, rbx
-	vpunpcklqdq	xmm4, xmm6, xmm4        # xmm4 = xmm6[0],xmm4[0]
-	vinserti128	ymm4, ymm4, xmm5, 1
-	vcmpneqpd	ymm3, ymm3, ymm0
-	vandpd	ymm3, ymm3, ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_711
-	jmp	.LBB4_1303
-.LBB4_712:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_1] # ymm0 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vcvtpd2ps	xmm2, ymm0
-	vxorpd	xmm8, xmm8, xmm8
-	vbroadcastss	xmm1, dword ptr [rip + .LCPI4_3] # xmm1 = [NaN,NaN,NaN,NaN]
-	vandpd	xmm2, xmm2, xmm1
-.LBB4_713:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rsi]
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rsi + 32]
-	vmovupd	ymm5, ymmword ptr [rcx + 8*rsi + 64]
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rsi + 96]
-	vcmpeqpd	ymm7, ymm8, ymm3
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm9, xmm7, xmm0
-	vcmpeqpd	ymm7, ymm8, ymm4
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm10, xmm7, xmm0
-	vcmpeqpd	ymm7, ymm8, ymm5
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm11, xmm7, xmm0
-	vcmpeqpd	ymm7, ymm8, ymm6
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm0, xmm7, xmm0
-	vcvtpd2ps	xmm3, ymm3
-	vandnpd	xmm3, xmm1, xmm3
-	vorpd	xmm3, xmm2, xmm3
-	vcvtpd2ps	xmm4, ymm4
-	vpandn	xmm3, xmm9, xmm3
-	vandnpd	xmm4, xmm1, xmm4
-	vorpd	xmm4, xmm2, xmm4
-	vpandn	xmm4, xmm10, xmm4
-	vcvtpd2ps	xmm5, ymm5
-	vandnpd	xmm5, xmm1, xmm5
-	vorpd	xmm5, xmm2, xmm5
-	vpandn	xmm5, xmm11, xmm5
-	vcvtpd2ps	xmm6, ymm6
-	vandnpd	xmm6, xmm1, xmm6
-	vorpd	xmm6, xmm2, xmm6
-	vpandn	xmm0, xmm0, xmm6
-	vmovdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 48], xmm0
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_713
-# %bb.714:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_715:
-	vxorpd	xmm0, xmm0, xmm0
-	vpbroadcastd	xmm1, dword ptr [rip + .LCPI4_4] # xmm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_5] # xmm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	jmp	.LBB4_717
-.LBB4_716:                              #   in Loop: Header=BB4_717 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_717:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm4, qword ptr [rcx + 8*rdx]   # xmm4 = mem[0],zero
-	vucomisd	xmm0, xmm4
-	vpxor	xmm3, xmm3, xmm3
-	je	.LBB4_716
-# %bb.718:                              #   in Loop: Header=BB4_717 Depth=1
-	vcvtsd2ss	xmm3, xmm4, xmm4
-	vpand	xmm3, xmm3, xmm1
-	vpor	xmm3, xmm2, xmm3
-	jmp	.LBB4_716
-.LBB4_728:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_5] # xmm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_729:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpand	xmm6, xmm6, xmm2
-	vmovdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_729
-# %bb.730:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_731:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_733
-.LBB4_732:                              #   in Loop: Header=BB4_733 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_733:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_732
-# %bb.734:                              #   in Loop: Header=BB4_733 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_732
-.LBB4_735:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_736:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxwq	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxwq	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxwq	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_736
-# %bb.737:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_738:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_738
-	jmp	.LBB4_1351
-.LBB4_739:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_740:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	xmm3, xmm0, xmmword ptr [rcx + 2*rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxwd	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	vpand	ymm3, ymm3, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vpcmpeqw	xmm4, xmm0, xmmword ptr [rcx + 2*rsi + 16]
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxwd	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	vpand	ymm4, ymm4, ymm2
-	vcvtdq2ps	ymm4, ymm4
-	vpcmpeqw	xmm5, xmm0, xmmword ptr [rcx + 2*rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxwd	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	vpand	ymm5, ymm5, ymm2
-	vcvtdq2ps	ymm5, ymm5
-	vpcmpeqw	xmm6, xmm0, xmmword ptr [rcx + 2*rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxwd	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	vpand	ymm6, ymm6, ymm2
-	vcvtdq2ps	ymm6, ymm6
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_740
-# %bb.741:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_742:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_744
-.LBB4_743:                              #   in Loop: Header=BB4_744 Depth=1
-	vmovd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_744:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	vmovdqa	xmm1, xmm0
-	jne	.LBB4_743
-# %bb.745:                              #   in Loop: Header=BB4_744 Depth=1
-	vpxor	xmm1, xmm1, xmm1
-	jmp	.LBB4_743
-.LBB4_746:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_747:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	vpcmpgtw	xmm7, xmm3, xmm0
-	vpmovsxwq	ymm9, xmm7
-	vpcmpgtw	xmm1, xmm4, xmm0
-	vpmovsxwq	ymm10, xmm1
-	vpcmpgtw	xmm7, xmm5, xmm0
-	vpmovsxwq	ymm7, xmm7
-	vpcmpgtw	xmm1, xmm6, xmm0
-	vpmovsxwq	ymm1, xmm1
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxwq	ymm3, xmm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxwq	ymm4, xmm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxwq	ymm5, xmm5
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxwq	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_747
-# %bb.748:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_749:
-	mov	esi, 1
-.LBB4_750:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	rax
-	test	di, di
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_750
-	jmp	.LBB4_1351
-.LBB4_751:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_5] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_752:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + 2*rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
-	vpcmpgtw	xmm7, xmm3, xmm0
-	vpmovsxwd	ymm9, xmm7
-	vpcmpgtw	xmm1, xmm4, xmm0
-	vpmovsxwd	ymm10, xmm1
-	vpcmpgtw	xmm7, xmm5, xmm0
-	vpmovsxwd	ymm7, xmm7
-	vpcmpgtw	xmm1, xmm6, xmm0
-	vpmovsxwd	ymm1, xmm1
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxwd	ymm3, xmm3
-	vcvtdq2ps	ymm3, ymm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxwd	ymm4, xmm4
-	vcvtdq2ps	ymm4, ymm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxwd	ymm5, xmm5
-	vcvtdq2ps	ymm5, ymm5
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxwd	ymm6, xmm6
-	vcvtdq2ps	ymm6, ymm6
-	vblendvps	ymm3, ymm3, ymm2, ymm9
-	vblendvps	ymm4, ymm4, ymm2, ymm10
-	vblendvps	ymm5, ymm5, ymm2, ymm7
-	vblendvps	ymm1, ymm6, ymm2, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_752
-# %bb.753:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_754:
-	vmovss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_756
-.LBB4_755:                              #   in Loop: Header=BB4_756 Depth=1
-	vmovss	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_756:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	vmovaps	xmm2, xmm0
-	jne	.LBB4_758
-# %bb.757:                              #   in Loop: Header=BB4_756 Depth=1
-	vxorps	xmm2, xmm2, xmm2
-.LBB4_758:                              #   in Loop: Header=BB4_756 Depth=1
-	vmovaps	xmm3, xmm1
-	jg	.LBB4_755
-# %bb.759:                              #   in Loop: Header=BB4_756 Depth=1
-	vmovaps	xmm3, xmm2
-	jmp	.LBB4_755
-.LBB4_763:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vbroadcastss	xmm2, dword ptr [rip + .LCPI4_5] # xmm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_764:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm3, ymm6, ymm0
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm10, xmm3, xmm5
-	vpcmpgtq	ymm5, ymm7, ymm0
-	vextracti128	xmm1, ymm5, 1
-	vpackssdw	xmm11, xmm5, xmm1
-	vpcmpgtq	ymm1, ymm8, ymm0
-	vextracti128	xmm3, ymm1, 1
-	vpackssdw	xmm12, xmm1, xmm3
-	vpcmpgtq	ymm3, ymm4, ymm0
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpcmpeqq	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm9, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vcvtdq2ps	xmm5, xmm5
-	vpcmpeqq	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm9, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vcvtdq2ps	xmm6, xmm6
-	vpcmpeqq	ymm7, ymm8, ymm0
-	vpxor	ymm7, ymm9, ymm7
-	vextracti128	xmm1, ymm7, 1
-	vpackssdw	xmm1, xmm7, xmm1
-	vcvtdq2ps	xmm1, xmm1
-	vpcmpeqq	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm7, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm7
-	vcvtdq2ps	xmm4, xmm4
-	vblendvps	xmm5, xmm5, xmm2, xmm10
-	vblendvps	xmm6, xmm6, xmm2, xmm11
-	vblendvps	xmm1, xmm1, xmm2, xmm12
-	vblendvps	xmm3, xmm4, xmm2, xmm3
-	vmovups	xmmword ptr [r8 + 4*rsi], xmm5
-	vmovups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	vmovups	xmmword ptr [r8 + 4*rsi + 32], xmm1
-	vmovups	xmmword ptr [r8 + 4*rsi + 48], xmm3
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_764
-# %bb.765:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_766:
-	vmovss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_768
-.LBB4_767:                              #   in Loop: Header=BB4_768 Depth=1
-	vmovss	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_768:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	vmovaps	xmm2, xmm0
-	jne	.LBB4_770
-# %bb.769:                              #   in Loop: Header=BB4_768 Depth=1
-	vxorps	xmm2, xmm2, xmm2
-.LBB4_770:                              #   in Loop: Header=BB4_768 Depth=1
-	vmovaps	xmm3, xmm1
-	jg	.LBB4_767
-# %bb.771:                              #   in Loop: Header=BB4_768 Depth=1
-	vmovaps	xmm3, xmm2
-	jmp	.LBB4_767
-.LBB4_772:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1308
-# %bb.773:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	vxorps	xmm0, xmm0, xmm0
-	vpbroadcastd	xmm1, dword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_774:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm2, xmmword ptr [rcx + 4*rsi]
-	vcmpeqps	xmm3, xmm2, xmm0
-	vpmovsxdq	ymm3, xmm3
-	vpsrad	xmm2, xmm2, 31
-	vpor	xmm2, xmm2, xmm1
-	vcvtdq2ps	xmm2, xmm2
-	vpermilps	xmm4, xmm2, 231         # xmm4 = xmm2[3,1,2,3]
-	vcvttss2si	rax, xmm4
-	vmovq	xmm4, rax
-	vpermilpd	xmm5, xmm2, 1           # xmm5 = xmm2[1,0]
-	vcvttss2si	rax, xmm5
-	vmovq	xmm5, rax
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vcvttss2si	rax, xmm2
-	vmovq	xmm5, rax
-	vmovshdup	xmm2, xmm2              # xmm2 = xmm2[1,1,3,3]
-	vcvttss2si	rax, xmm2
-	vmovq	xmm2, rax
-	vpunpcklqdq	xmm2, xmm5, xmm2        # xmm2 = xmm5[0],xmm2[0]
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vpandn	ymm2, ymm3, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovdqu	xmm2, xmmword ptr [rcx + 4*rsi + 16]
-	vpsrad	xmm3, xmm2, 31
-	vpor	xmm3, xmm3, xmm1
-	vcvtdq2ps	xmm3, xmm3
-	vpermilps	xmm4, xmm3, 231         # xmm4 = xmm3[3,1,2,3]
-	vcvttss2si	rax, xmm4
-	vpermilpd	xmm4, xmm3, 1           # xmm4 = xmm3[1,0]
-	vcvttss2si	r11, xmm4
-	vcvttss2si	rbx, xmm3
-	vmovq	xmm4, rax
-	vmovshdup	xmm3, xmm3              # xmm3 = xmm3[1,1,3,3]
-	vcvttss2si	rax, xmm3
-	vmovq	xmm3, r11
-	vmovq	xmm5, rbx
-	vcmpeqps	xmm2, xmm2, xmm0
-	vpmovsxdq	ymm2, xmm2
-	vpunpcklqdq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0]
-	vmovq	xmm4, rax
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpandn	ymm2, ymm2, ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm2
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_774
-	jmp	.LBB4_1309
-.LBB4_784:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_785:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	vpcmpgtd	xmm7, xmm3, xmm0
-	vpmovsxdq	ymm9, xmm7
-	vpcmpgtd	xmm1, xmm4, xmm0
-	vpmovsxdq	ymm10, xmm1
-	vpcmpgtd	xmm7, xmm5, xmm0
-	vpmovsxdq	ymm7, xmm7
-	vpcmpgtd	xmm1, xmm6, xmm0
-	vpmovsxdq	ymm1, xmm1
-	vpcmpeqd	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxdq	ymm3, xmm3
-	vpcmpeqd	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxdq	ymm4, xmm4
-	vpcmpeqd	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxdq	ymm5, xmm5
-	vpcmpeqd	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxdq	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_785
-# %bb.786:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_787:
-	mov	esi, 1
-.LBB4_788:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	rax
-	test	edi, edi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_788
-	jmp	.LBB4_1351
-.LBB4_789:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_5] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_790:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpgtd	ymm7, ymm3, ymm0
-	vpcmpgtd	ymm8, ymm4, ymm0
-	vpcmpgtd	ymm9, ymm5, ymm0
-	vpcmpgtd	ymm10, ymm6, ymm0
-	vpcmpeqd	ymm3, ymm3, ymm0
-	vpxor	ymm3, ymm3, ymm1
-	vcvtdq2ps	ymm3, ymm3
-	vpcmpeqd	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm4, ymm1
-	vcvtdq2ps	ymm4, ymm4
-	vpcmpeqd	ymm5, ymm5, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vcvtdq2ps	ymm5, ymm5
-	vpcmpeqd	ymm6, ymm6, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vcvtdq2ps	ymm6, ymm6
-	vblendvps	ymm3, ymm3, ymm2, ymm7
-	vblendvps	ymm4, ymm4, ymm2, ymm8
-	vblendvps	ymm5, ymm5, ymm2, ymm9
-	vblendvps	ymm6, ymm6, ymm2, ymm10
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_790
-# %bb.791:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_792:
-	vmovss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_794
-.LBB4_793:                              #   in Loop: Header=BB4_794 Depth=1
-	vmovss	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_794:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	vmovaps	xmm2, xmm0
-	jne	.LBB4_796
-# %bb.795:                              #   in Loop: Header=BB4_794 Depth=1
-	vxorps	xmm2, xmm2, xmm2
-.LBB4_796:                              #   in Loop: Header=BB4_794 Depth=1
-	vmovaps	xmm3, xmm1
-	jg	.LBB4_793
-# %bb.797:                              #   in Loop: Header=BB4_794 Depth=1
-	vmovaps	xmm3, xmm2
-	jmp	.LBB4_793
-.LBB4_831:
-	mov	esi, eax
-	and	esi, -16
-	xor	edi, edi
-	vxorpd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm1, qword ptr [rip + .LCPI4_0] # ymm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_832:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm5, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rdi + 96]
-	vcmpeqpd	ymm7, ymm8, ymm3
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm9, xmm7, xmm0
-	vcmpeqpd	ymm7, ymm8, ymm4
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm10, xmm7, xmm0
-	vcmpeqpd	ymm7, ymm8, ymm5
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm11, xmm7, xmm0
-	vcmpeqpd	ymm7, ymm8, ymm6
-	vextractf128	xmm0, ymm7, 1
-	vpackssdw	xmm0, xmm7, xmm0
-	vandpd	ymm3, ymm3, ymm1
-	vorpd	ymm3, ymm2, ymm3
-	vandpd	ymm4, ymm4, ymm1
-	vorpd	ymm4, ymm2, ymm4
-	vandpd	ymm5, ymm5, ymm1
-	vorpd	ymm5, ymm2, ymm5
-	vandpd	ymm6, ymm6, ymm1
-	vorpd	ymm6, ymm2, ymm6
-	vcvttpd2dq	xmm3, ymm3
-	vpandn	xmm3, xmm9, xmm3
-	vcvttpd2dq	xmm4, ymm4
-	vpandn	xmm4, xmm10, xmm4
-	vcvttpd2dq	xmm5, ymm5
-	vcvttpd2dq	xmm6, ymm6
-	vpandn	xmm5, xmm11, xmm5
-	vpandn	xmm0, xmm0, xmm6
-	vmovdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	vmovdqu	xmmword ptr [r8 + 4*rdi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 4*rdi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	cmp	rsi, rdi
-	jne	.LBB4_832
-# %bb.833:
-	cmp	rsi, rax
-	je	.LBB4_1351
-.LBB4_834:
-	vpxor	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_835:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	edi, xmm3
-	cmove	edi, edx
-	mov	dword ptr [r8 + 4*rsi], edi
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_835
-	jmp	.LBB4_1351
-.LBB4_839:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_840:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpand	xmm6, xmm6, xmm2
-	vmovdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_840
-# %bb.841:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_842:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_842
-	jmp	.LBB4_1351
-.LBB4_843:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_844:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	xmm3, xmm0, xmmword ptr [rcx + 2*rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxwd	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	vpcmpeqw	xmm4, xmm0, xmmword ptr [rcx + 2*rsi + 16]
-	vpand	ymm3, ymm3, ymm2
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxwd	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqw	xmm5, xmm0, xmmword ptr [rcx + 2*rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxwd	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqw	xmm6, xmm0, xmmword ptr [rcx + 2*rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxwd	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_844
-# %bb.845:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_846:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_846
-	jmp	.LBB4_1351
-.LBB4_847:
-	mov	edx, r10d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_848:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + 2*rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
-	vpcmpgtw	xmm7, xmm3, xmm0
-	vpmovsxwd	ymm9, xmm7
-	vpcmpgtw	xmm1, xmm4, xmm0
-	vpmovsxwd	ymm10, xmm1
-	vpcmpgtw	xmm7, xmm5, xmm0
-	vpmovsxwd	ymm7, xmm7
-	vpcmpgtw	xmm1, xmm6, xmm0
-	vpmovsxwd	ymm1, xmm1
-	vpcmpeqw	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxwd	ymm3, xmm3
-	vpcmpeqw	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxwd	ymm4, xmm4
-	vpcmpeqw	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxwd	ymm5, xmm5
-	vpcmpeqw	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxwd	ymm6, xmm6
-	vblendvps	ymm3, ymm3, ymm2, ymm9
-	vblendvps	ymm4, ymm4, ymm2, ymm10
-	vblendvps	ymm5, ymm5, ymm2, ymm7
-	vblendvps	ymm1, ymm6, ymm2, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_848
-# %bb.849:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_850:
-	mov	esi, 1
-.LBB4_851:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_851
-	jmp	.LBB4_1351
-.LBB4_852:
-	mov	edx, r10d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vbroadcastss	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_853:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm3, ymm4, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm9, xmm3, xmm1
-	vpcmpgtq	ymm1, ymm5, ymm0
-	vextracti128	xmm3, ymm1, 1
-	vpackssdw	xmm10, xmm1, xmm3
-	vpcmpgtq	ymm3, ymm6, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm11, xmm3, xmm1
-	vpcmpgtq	ymm3, ymm7, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpackssdw	xmm1, xmm3, xmm1
-	vpcmpeqq	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm8, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpcmpeqq	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpcmpeqq	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm8, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpcmpeqq	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm8, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vblendvps	xmm3, xmm3, xmm2, xmm9
-	vblendvps	xmm4, xmm4, xmm2, xmm10
-	vblendvps	xmm5, xmm5, xmm2, xmm11
-	vblendvps	xmm1, xmm6, xmm2, xmm1
-	vmovups	xmmword ptr [r8 + 4*rsi], xmm3
-	vmovups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	vmovups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	vmovups	xmmword ptr [r8 + 4*rsi + 48], xmm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_853
-# %bb.854:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_855:
-	mov	esi, 1
-.LBB4_856:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_856
-	jmp	.LBB4_1351
-.LBB4_857:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vxorps	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_8] # ymm1 = [1,1,1,1,1,1,1,1]
-.LBB4_858:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 96]
-	vpsrad	ymm6, ymm2, 31
-	vpor	ymm6, ymm6, ymm1
-	vpsrad	ymm7, ymm3, 31
-	vpor	ymm7, ymm7, ymm1
-	vpsrad	ymm8, ymm4, 31
-	vpor	ymm8, ymm8, ymm1
-	vpsrad	ymm9, ymm5, 31
-	vpor	ymm9, ymm9, ymm1
-	vcvtdq2ps	ymm6, ymm6
-	vcvtdq2ps	ymm7, ymm7
-	vcvtdq2ps	ymm8, ymm8
-	vcvtdq2ps	ymm9, ymm9
-	vcvttps2dq	ymm6, ymm6
-	vcvttps2dq	ymm7, ymm7
-	vcvttps2dq	ymm8, ymm8
-	vcvttps2dq	ymm9, ymm9
-	vcmpneqps	ymm2, ymm2, ymm0
-	vandps	ymm2, ymm2, ymm6
-	vcmpneqps	ymm3, ymm3, ymm0
-	vandps	ymm3, ymm3, ymm7
-	vcmpneqps	ymm4, ymm4, ymm0
-	vandps	ymm4, ymm8, ymm4
-	vcmpneqps	ymm5, ymm5, ymm0
-	vandps	ymm5, ymm9, ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_858
-# %bb.859:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_860:
-	vxorps	xmm0, xmm0, xmm0
-	jmp	.LBB4_862
-.LBB4_861:                              #   in Loop: Header=BB4_862 Depth=1
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_862:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	xor	esi, esi
-	vucomiss	xmm0, xmm1
-	je	.LBB4_861
-# %bb.863:                              #   in Loop: Header=BB4_862 Depth=1
-	vmovmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	vcvtsi2ss	xmm1, xmm10, esi
-	vcvttss2si	esi, xmm1
-	jmp	.LBB4_861
-.LBB4_870:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_8] # ymm1 = [1,1,1,1,1,1,1,1]
-.LBB4_871:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_871
-# %bb.872:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_873
-.LBB4_877:
-	mov	edx, r11d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_878:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbd	ymm9, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbd	ymm10, xmm1
-	vpcmpgtb	xmm7, xmm5, xmm0
-	vpmovsxbd	ymm7, xmm7
-	vpcmpgtb	xmm1, xmm6, xmm0
-	vpmovsxbd	ymm1, xmm1
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbd	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbd	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbd	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbd	ymm6, xmm6
-	vblendvps	ymm3, ymm3, ymm2, ymm9
-	vblendvps	ymm4, ymm4, ymm2, ymm10
-	vblendvps	ymm5, ymm5, ymm2, ymm7
-	vblendvps	ymm1, ymm6, ymm2, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_878
-# %bb.879:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_880
-.LBB4_885:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_886:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbd	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbd	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero,xmm4[4],zero,zero,zero,xmm4[5],zero,zero,zero,xmm4[6],zero,zero,zero,xmm4[7],zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbd	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero,xmm5[4],zero,zero,zero,xmm5[5],zero,zero,zero,xmm5[6],zero,zero,zero,xmm5[7],zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbd	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_886
-# %bb.887:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_888
-.LBB4_892:
-	mov	edx, r11d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_893:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpeqd	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqd	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqd	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqd	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtd	ymm3, ymm2, ymm3
-	vpcmpgtd	ymm4, ymm2, ymm4
-	vpcmpgtd	ymm5, ymm2, ymm5
-	vpcmpgtd	ymm6, ymm2, ymm6
-	vblendvps	ymm3, ymm2, ymm7, ymm3
-	vblendvps	ymm4, ymm2, ymm8, ymm4
-	vblendvps	ymm5, ymm2, ymm9, ymm5
-	vblendvps	ymm6, ymm2, ymm10, ymm6
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_893
-# %bb.894:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_895
-.LBB4_900:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vxorpd	xmm0, xmm0, xmm0
-	vbroadcastsd	ymm1, qword ptr [rip + .LCPI4_0] # ymm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_901:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rsi]
-	vmovupd	ymm4, ymmword ptr [rcx + 8*rsi + 32]
-	vmovupd	ymm5, ymmword ptr [rcx + 8*rsi + 64]
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rsi + 96]
-	vandpd	ymm7, ymm3, ymm1
-	vorpd	ymm7, ymm2, ymm7
-	vandpd	ymm8, ymm4, ymm1
-	vorpd	ymm8, ymm8, ymm2
-	vandpd	ymm9, ymm5, ymm1
-	vorpd	ymm9, ymm9, ymm2
-	vandpd	ymm10, ymm6, ymm1
-	vorpd	ymm10, ymm10, ymm2
-	vcmpneqpd	ymm3, ymm3, ymm0
-	vandpd	ymm3, ymm3, ymm7
-	vcmpneqpd	ymm4, ymm4, ymm0
-	vandpd	ymm4, ymm8, ymm4
-	vcmpneqpd	ymm5, ymm5, ymm0
-	vandpd	ymm5, ymm9, ymm5
-	vcmpneqpd	ymm6, ymm6, ymm0
-	vandpd	ymm6, ymm10, ymm6
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_901
-# %bb.902:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_903
-.LBB4_908:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_909:                              # =>This Inner Loop Header: Depth=1
-	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbq	ymm9, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbq	ymm10, xmm1
-	vpcmpgtb	xmm7, xmm5, xmm0
-	vpmovsxbq	ymm7, xmm7
-	vpcmpgtb	xmm1, xmm6, xmm0
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbd	xmm3, xmm3
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbd	xmm4, xmm4
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbd	xmm5, xmm5
-	vcvtdq2pd	ymm5, xmm5
-	vpmovsxbq	ymm1, xmm1
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbd	xmm6, xmm6
-	vcvtdq2pd	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_909
-# %bb.910:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_911
-.LBB4_914:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_915:                              # =>This Inner Loop Header: Depth=1
-	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbd	xmm3, xmm3              # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	xmm3, xmm3, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbd	xmm4, xmm4              # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	vpand	xmm4, xmm4, xmm2
-	vcvtdq2pd	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbd	xmm5, xmm5              # xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
-	vpand	xmm5, xmm5, xmm2
-	vcvtdq2pd	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbd	xmm6, xmm6              # xmm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
-	vpand	xmm6, xmm6, xmm2
-	vcvtdq2pd	ymm6, xmm6
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_915
-# %bb.916:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_917
-.LBB4_933:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_12] # xmm2 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_934:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpacksswb	xmm3, xmm3, xmm3
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpacksswb	xmm4, xmm4, xmm4
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpand	xmm4, xmm4, xmm2
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpacksswb	xmm5, xmm5, xmm5
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqd	ymm6, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpacksswb	xmm6, xmm6, xmm6
-	vpand	xmm6, xmm6, xmm2
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpunpcklqdq	ymm3, ymm3, ymm5        # ymm3 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
-	vpermq	ymm3, ymm3, 216                 # ymm3 = ymm3[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_934
-# %bb.935:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_936
-.LBB4_940:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	xmm10, xmm10, xmm10
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vpxor	xmm11, xmm11, xmm11
-.LBB4_941:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rsi]
-	vmovupd	ymm7, ymmword ptr [rcx + 8*rsi + 32]
-	vmovupd	ymm8, ymmword ptr [rcx + 8*rsi + 64]
-	vmovupd	ymm9, ymmword ptr [rcx + 8*rsi + 96]
-	vcmpeqpd	ymm4, ymm10, ymm6
-	vextractf128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm12, xmm4, xmm4
-	vcmpeqpd	ymm5, ymm10, ymm7
-	vextractf128	xmm1, ymm5, 1
-	vpackssdw	xmm1, xmm5, xmm1
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm13, xmm1, xmm1
-	vcmpeqpd	ymm1, ymm8, ymm10
-	vextractf128	xmm3, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm3
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vcmpeqpd	ymm3, ymm9, ymm10
-	vextractf128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpackssdw	xmm3, xmm3, xmm3
-	vpacksswb	xmm3, xmm3, xmm3
-	vandpd	ymm4, ymm6, ymm0
-	vorpd	ymm4, ymm2, ymm4
-	vandpd	ymm6, ymm7, ymm0
-	vorpd	ymm6, ymm2, ymm6
-	vandpd	ymm7, ymm8, ymm0
-	vorpd	ymm7, ymm2, ymm7
-	vandpd	ymm8, ymm9, ymm0
-	vorpd	ymm8, ymm8, ymm2
-	vcvttpd2dq	xmm4, ymm4
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vcvttpd2dq	xmm6, ymm6
-	vpackssdw	xmm6, xmm6, xmm6
-	vpacksswb	xmm6, xmm6, xmm6
-	vcvttpd2dq	xmm7, ymm7
-	vpackssdw	xmm7, xmm7, xmm7
-	vpacksswb	xmm7, xmm7, xmm7
-	vcvttpd2dq	xmm5, ymm8
-	vpackssdw	xmm5, xmm5, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpblendvb	xmm4, xmm4, xmm11, xmm12
-	vpblendvb	xmm6, xmm6, xmm11, xmm13
-	vpblendvb	xmm1, xmm7, xmm11, xmm1
-	vpunpckldq	xmm4, xmm4, xmm6        # xmm4 = xmm4[0],xmm6[0],xmm4[1],xmm6[1]
-	vpblendvb	xmm3, xmm5, xmm11, xmm3
-	vpunpckldq	xmm1, xmm1, xmm3        # xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm4, xmm1        # xmm1 = xmm4[0],xmm1[0]
-	vmovdqu	xmmword ptr [r8 + rsi], xmm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_941
-# %bb.942:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_943
-.LBB4_948:
-	mov	r11d, r10d
-	and	r11d, -128
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_20] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_949:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + rsi + 96]
-	vpcmpeqb	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqb	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtb	ymm3, ymm2, ymm3
-	vpcmpgtb	ymm4, ymm2, ymm4
-	vpcmpgtb	ymm5, ymm2, ymm5
-	vpcmpgtb	ymm6, ymm2, ymm6
-	vpblendvb	ymm3, ymm2, ymm7, ymm3
-	vpblendvb	ymm4, ymm2, ymm8, ymm4
-	vpblendvb	ymm5, ymm2, ymm9, ymm5
-	vpblendvb	ymm6, ymm2, ymm10, ymm6
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm6
-	sub	rsi, -128
-	cmp	r11, rsi
-	jne	.LBB4_949
-# %bb.950:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_951
-.LBB4_956:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_17] # xmm2 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_957:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpackssdw	xmm3, xmm3, xmm3
-	vpacksswb	xmm3, xmm3, xmm3
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpunpckldq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]
-	vpxor	ymm4, ymm5, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpand	xmm4, xmm4, xmm2
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpackssdw	xmm5, xmm5, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpand	xmm5, xmm5, xmm2
-	vpunpckldq	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
-	vpunpcklqdq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0]
-	vmovdqu	xmmword ptr [r8 + rsi], xmm3
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_957
-# %bb.958:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_959
-.LBB4_963:
-	mov	edx, eax
-	and	edx, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_19] # xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_964:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpacksswb	xmm3, xmm3, xmm4
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqw	ymm4, ymm0, ymmword ptr [rcx + 2*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpacksswb	xmm4, xmm4, xmm5
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqw	ymm5, ymm0, ymmword ptr [rcx + 2*rsi + 64]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpacksswb	xmm5, xmm5, xmm6
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqw	ymm6, ymm0, ymmword ptr [rcx + 2*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpacksswb	xmm6, xmm6, xmm7
-	vpand	xmm6, xmm6, xmm2
-	vmovdqu	xmmword ptr [r8 + rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + rsi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + rsi + 48], xmm6
-	add	rsi, 64
-	cmp	rdx, rsi
-	jne	.LBB4_964
-# %bb.965:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_966
-.LBB4_970:
-	mov	r11d, r10d
-	and	r11d, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vmovdqa	xmm9, xmmword ptr [rip + .LCPI4_19] # xmm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_971:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 2*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 2*rsi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 2*rsi + 96]
-	vpcmpgtw	ymm3, ymm4, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpacksswb	xmm10, xmm3, xmm1
-	vpcmpgtw	ymm1, ymm5, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpacksswb	xmm11, xmm1, xmm2
-	vpcmpgtw	ymm2, ymm6, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpacksswb	xmm2, xmm2, xmm3
-	vpcmpgtw	ymm3, ymm7, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpacksswb	xmm1, xmm3, xmm1
-	vpcmpeqw	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm8, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpacksswb	xmm3, xmm3, xmm4
-	vpcmpeqw	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpacksswb	xmm4, xmm4, xmm5
-	vpcmpeqw	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm8, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpacksswb	xmm5, xmm5, xmm6
-	vpcmpeqw	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm8, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpacksswb	xmm6, xmm6, xmm7
-	vpblendvb	xmm3, xmm3, xmm9, xmm10
-	vpblendvb	xmm4, xmm4, xmm9, xmm11
-	vpblendvb	xmm2, xmm5, xmm9, xmm2
-	vpblendvb	xmm1, xmm6, xmm9, xmm1
-	vmovdqu	xmmword ptr [r8 + rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + rsi + 32], xmm2
-	vmovdqu	xmmword ptr [r8 + rsi + 48], xmm1
-	add	rsi, 64
-	cmp	r11, rsi
-	jne	.LBB4_971
-# %bb.972:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_973
-.LBB4_978:
-	mov	r11d, r10d
-	and	r11d, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vmovdqa	xmm11, xmmword ptr [rip + .LCPI4_17] # xmm11 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_979:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm10, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm1, ymm10, ymm0
-	vextracti128	xmm3, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm3
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm12, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm8, ymm0
-	vextracti128	xmm5, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm5
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm13, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm6, ymm0
-	vextracti128	xmm7, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm7
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm7, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm4, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vpcmpeqq	ymm2, ymm10, ymm0
-	vpxor	ymm2, ymm9, ymm2
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpackssdw	xmm2, xmm2, xmm2
-	vpacksswb	xmm2, xmm2, xmm2
-	vpcmpeqq	ymm3, ymm8, ymm0
-	vpxor	ymm3, ymm9, ymm3
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpackssdw	xmm3, xmm3, xmm3
-	vpacksswb	xmm3, xmm3, xmm3
-	vpcmpeqq	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm9, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpackssdw	xmm5, xmm5, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpcmpeqq	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm6, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm6
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vpblendvb	xmm2, xmm2, xmm11, xmm12
-	vpblendvb	xmm3, xmm3, xmm11, xmm13
-	vpblendvb	xmm5, xmm5, xmm11, xmm7
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpblendvb	xmm1, xmm4, xmm11, xmm1
-	vpunpckldq	xmm1, xmm5, xmm1        # xmm1 = xmm5[0],xmm1[0],xmm5[1],xmm1[1]
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovdqu	xmmword ptr [r8 + rsi], xmm1
-	add	rsi, 16
-	cmp	r11, rsi
-	jne	.LBB4_979
-# %bb.980:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_981
-.LBB4_986:
-	mov	edx, r10d
-	and	edx, -32
-	xor	esi, esi
-	vxorps	xmm12, xmm12, xmm12
-	vpcmpeqd	ymm13, ymm13, ymm13
-	vmovdqa	xmm14, xmmword ptr [rip + .LCPI4_12] # xmm14 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	vpcmpeqd	xmm15, xmm15, xmm15
-.LBB4_987:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm9, ymmword ptr [rcx + 4*rsi]
-	vmovups	ymm10, ymmword ptr [rcx + 4*rsi + 32]
-	vmovups	ymm11, ymmword ptr [rcx + 4*rsi + 64]
-	vmovups	ymm7, ymmword ptr [rcx + 4*rsi + 96]
-	vcmpeqps	ymm4, ymm9, ymm12
-	vextractf128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpacksswb	xmm8, xmm4, xmm4
-	vcmpeqps	ymm4, ymm10, ymm12
-	vextractf128	xmm6, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm6
-	vpacksswb	xmm6, xmm4, xmm4
-	vcmpeqps	ymm4, ymm11, ymm12
-	vextractf128	xmm0, ymm4, 1
-	vpackssdw	xmm0, xmm4, xmm0
-	vpacksswb	xmm4, xmm0, xmm0
-	vcmpeqps	ymm0, ymm12, ymm7
-	vextractf128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vpacksswb	xmm0, xmm0, xmm0
-	vpcmpgtd	ymm1, ymm9, ymm13
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpacksswb	xmm1, xmm1, xmm1
-	vpcmpgtd	ymm2, ymm10, ymm13
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpacksswb	xmm2, xmm2, xmm2
-	vpcmpgtd	ymm3, ymm11, ymm13
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpacksswb	xmm3, xmm3, xmm3
-	vpcmpgtd	ymm5, ymm7, ymm13
-	vextracti128	xmm7, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm7
-	vpblendvb	xmm1, xmm15, xmm14, xmm1
-	vpacksswb	xmm5, xmm5, xmm5
-	vpandn	xmm1, xmm8, xmm1
-	vpblendvb	xmm2, xmm15, xmm14, xmm2
-	vpblendvb	xmm3, xmm15, xmm14, xmm3
-	vpblendvb	xmm5, xmm15, xmm14, xmm5
-	vpxor	xmm7, xmm7, xmm7
-	vpblendvb	xmm2, xmm2, xmm7, xmm6
-	vpblendvb	xmm0, xmm5, xmm7, xmm0
-	vpandn	xmm3, xmm4, xmm3
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + rsi], ymm0
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_987
-# %bb.988:
-	cmp	rdx, r10
-	je	.LBB4_1351
-	jmp	.LBB4_989
-.LBB4_994:
-	mov	edx, eax
-	and	edx, -128
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_20] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_995:                              # =>This Inner Loop Header: Depth=1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rcx + rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rcx + rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rcx + rsi + 64]
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rcx + rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm5
-	sub	rsi, -128
-	cmp	rdx, rsi
-	jne	.LBB4_995
-# %bb.996:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_997
-.LBB4_1001:
-	mov	r11d, r10d
-	and	r11d, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vmovdqa	xmm10, xmmword ptr [rip + .LCPI4_12] # xmm10 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_1002:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm7, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm8, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpgtd	ymm3, ymm7, ymm0
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpacksswb	xmm11, xmm3, xmm3
-	vpcmpgtd	ymm5, ymm8, ymm0
-	vextracti128	xmm1, ymm5, 1
-	vpackssdw	xmm1, xmm5, xmm1
-	vpacksswb	xmm12, xmm1, xmm1
-	vpcmpgtd	ymm1, ymm6, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpacksswb	xmm1, xmm1, xmm1
-	vpcmpgtd	ymm2, ymm4, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpacksswb	xmm2, xmm2, xmm2
-	vpcmpeqd	ymm3, ymm7, ymm0
-	vpxor	ymm3, ymm9, ymm3
-	vextracti128	xmm7, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm7
-	vpacksswb	xmm3, xmm3, xmm3
-	vpcmpeqd	ymm7, ymm8, ymm0
-	vpxor	ymm7, ymm9, ymm7
-	vextracti128	xmm5, ymm7, 1
-	vpackssdw	xmm5, xmm7, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpcmpeqd	ymm6, ymm6, ymm0
-	vpxor	ymm6, ymm9, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpacksswb	xmm6, xmm6, xmm6
-	vpcmpeqd	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm7, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm7
-	vpacksswb	xmm4, xmm4, xmm4
-	vpblendvb	xmm3, xmm3, xmm10, xmm11
-	vpblendvb	xmm5, xmm5, xmm10, xmm12
-	vpblendvb	xmm1, xmm6, xmm10, xmm1
-	vpblendvb	xmm2, xmm4, xmm10, xmm2
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vinserti128	ymm2, ymm3, xmm5, 1
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	add	rsi, 32
-	cmp	r11, rsi
-	jne	.LBB4_1002
-# %bb.1003:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_1004
-.LBB4_1009:
-	mov	edx, r11d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_1010:                             # =>This Inner Loop Header: Depth=1
-	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbq	ymm9, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbq	ymm10, xmm1
-	vpcmpgtb	xmm7, xmm5, xmm0
-	vpmovsxbq	ymm7, xmm7
-	vpcmpgtb	xmm1, xmm6, xmm0
-	vpmovsxbq	ymm1, xmm1
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbq	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbq	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbq	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbq	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1010
-# %bb.1011:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1012
-.LBB4_1017:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI4_15] # ymm1 = [1,1,1,1]
-.LBB4_1018:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm2, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1018
-# %bb.1019:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1020
-.LBB4_1024:
-	mov	edx, r11d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_1025:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpeqq	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqq	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqq	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqq	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtq	ymm3, ymm2, ymm3
-	vpcmpgtq	ymm4, ymm2, ymm4
-	vpcmpgtq	ymm5, ymm2, ymm5
-	vpcmpgtq	ymm6, ymm2, ymm6
-	vblendvpd	ymm3, ymm2, ymm7, ymm3
-	vblendvpd	ymm4, ymm2, ymm8, ymm4
-	vblendvpd	ymm5, ymm2, ymm9, ymm5
-	vblendvpd	ymm6, ymm2, ymm10, ymm6
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1025
-# %bb.1026:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1027
-.LBB4_1032:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_1033:                             # =>This Inner Loop Header: Depth=1
-	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero,xmm3[2],zero,zero,zero,zero,zero,zero,zero,xmm3[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbq	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero,xmm4[2],zero,zero,zero,zero,zero,zero,zero,xmm4[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbq	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,zero,zero,zero,zero,xmm5[1],zero,zero,zero,zero,zero,zero,zero,xmm5[2],zero,zero,zero,zero,zero,zero,zero,xmm5[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbq	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,zero,zero,zero,zero,xmm6[1],zero,zero,zero,zero,zero,zero,zero,xmm6[2],zero,zero,zero,zero,zero,zero,zero,xmm6[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1033
-# %bb.1034:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1035
-.LBB4_1039:
-	mov	edx, r11d
-	and	edx, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI4_18] # ymm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1040:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + rsi + 48]
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbw	ymm10, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbw	ymm1, xmm1
-	vpcmpgtb	xmm2, xmm5, xmm0
-	vpmovsxbw	ymm2, xmm2
-	vpcmpgtb	xmm7, xmm6, xmm0
-	vpmovsxbw	ymm7, xmm7
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbw	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbw	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbw	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbw	ymm6, xmm6
-	vpblendvb	ymm3, ymm3, ymm9, ymm10
-	vpblendvb	ymm1, ymm4, ymm9, ymm1
-	vpblendvb	ymm2, ymm5, ymm9, ymm2
-	vpblendvb	ymm4, ymm6, ymm9, ymm7
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm4
-	add	rsi, 64
-	cmp	rdx, rsi
-	jne	.LBB4_1040
-# %bb.1041:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1042
-.LBB4_1047:
-	mov	edx, r11d
-	and	edx, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI4_18] # ymm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1048:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm3, xmmword ptr [rcx + rsi]
-	vmovdqu	xmm4, xmmword ptr [rcx + rsi + 16]
-	vmovdqu	xmm5, xmmword ptr [rcx + rsi + 32]
-	vmovdqu	xmm6, xmmword ptr [rcx + rsi + 48]
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbw	ymm10, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbw	ymm1, xmm1
-	vpcmpgtb	xmm2, xmm5, xmm0
-	vpmovsxbw	ymm2, xmm2
-	vpcmpgtb	xmm7, xmm6, xmm0
-	vpmovsxbw	ymm7, xmm7
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbw	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbw	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbw	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbw	ymm6, xmm6
-	vpblendvb	ymm3, ymm3, ymm9, ymm10
-	vpblendvb	ymm1, ymm4, ymm9, ymm1
-	vpblendvb	ymm2, ymm5, ymm9, ymm2
-	vpblendvb	ymm4, ymm6, ymm9, ymm7
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm4
-	add	rsi, 64
-	cmp	rdx, rsi
-	jne	.LBB4_1048
-# %bb.1049:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1050
-.LBB4_1055:
-	mov	edx, eax
-	and	edx, -32
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1317
-# %bb.1056:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_18] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1057:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm3
-	vpcmpeqw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vpandn	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB4_1057
-	jmp	.LBB4_1318
-.LBB4_1058:
-	mov	edx, eax
-	and	edx, -32
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1325
-# %bb.1059:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_18] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1060:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm3
-	vpcmpeqw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rdi + 96]
-	vpandn	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB4_1060
-	jmp	.LBB4_1326
-.LBB4_1061:
-	mov	edx, r11d
-	and	edx, -32
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1333
-# %bb.1062:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1063:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi + 32]
-	vpcmpeqw	ymm5, ymm3, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vpcmpeqw	ymm6, ymm4, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vpcmpgtw	ymm3, ymm2, ymm3
-	vpcmpgtw	ymm4, ymm2, ymm4
-	vpblendvb	ymm3, ymm2, ymm5, ymm3
-	vpblendvb	ymm4, ymm2, ymm6, ymm4
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm4
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi + 96]
-	vpcmpeqw	ymm5, ymm3, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vpcmpeqw	ymm6, ymm4, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vpcmpgtw	ymm3, ymm2, ymm3
-	vpcmpgtw	ymm4, ymm2, ymm4
-	vpblendvb	ymm3, ymm2, ymm5, ymm3
-	vpblendvb	ymm4, ymm2, ymm6, ymm4
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm4
-	add	rsi, 64
-	add	rdi, 2
-	jne	.LBB4_1063
-	jmp	.LBB4_1334
-.LBB4_1064:
-	mov	edx, r11d
-	and	edx, -32
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1342
-# %bb.1065:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1066:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi + 32]
-	vpcmpeqw	ymm5, ymm3, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vpcmpeqw	ymm6, ymm4, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vpcmpgtw	ymm3, ymm2, ymm3
-	vpcmpgtw	ymm4, ymm2, ymm4
-	vpblendvb	ymm3, ymm2, ymm5, ymm3
-	vpblendvb	ymm4, ymm2, ymm6, ymm4
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm4
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi + 96]
-	vpcmpeqw	ymm5, ymm3, ymm0
-	vpxor	ymm5, ymm5, ymm1
-	vpcmpeqw	ymm6, ymm4, ymm0
-	vpxor	ymm6, ymm6, ymm1
-	vpcmpgtw	ymm3, ymm2, ymm3
-	vpcmpgtw	ymm4, ymm2, ymm4
-	vpblendvb	ymm3, ymm2, ymm5, ymm3
-	vpblendvb	ymm4, ymm2, ymm6, ymm4
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm4
-	add	rsi, 64
-	add	rdi, 2
-	jne	.LBB4_1066
-	jmp	.LBB4_1343
-.LBB4_1067:
-	mov	edx, eax
-	and	edx, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1068:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqb	xmm3, xmm0, xmmword ptr [rcx + rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbw	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero,xmm3[8],zero,xmm3[9],zero,xmm3[10],zero,xmm3[11],zero,xmm3[12],zero,xmm3[13],zero,xmm3[14],zero,xmm3[15],zero
-	vpcmpeqb	xmm4, xmm0, xmmword ptr [rcx + rsi + 16]
-	vpand	ymm3, ymm3, ymm2
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbw	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero,xmm4[8],zero,xmm4[9],zero,xmm4[10],zero,xmm4[11],zero,xmm4[12],zero,xmm4[13],zero,xmm4[14],zero,xmm4[15],zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqb	xmm5, xmm0, xmmword ptr [rcx + rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbw	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero,xmm5[8],zero,xmm5[9],zero,xmm5[10],zero,xmm5[11],zero,xmm5[12],zero,xmm5[13],zero,xmm5[14],zero,xmm5[15],zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqb	xmm6, xmm0, xmmword ptr [rcx + rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbw	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero,xmm6[8],zero,xmm6[9],zero,xmm6[10],zero,xmm6[11],zero,xmm6[12],zero,xmm6[13],zero,xmm6[14],zero,xmm6[15],zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm6
-	add	rsi, 64
-	cmp	rdx, rsi
-	jne	.LBB4_1068
-# %bb.1069:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1070
-.LBB4_1074:
-	mov	edx, eax
-	and	edx, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1075:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqb	xmm3, xmm0, xmmword ptr [rcx + rsi]
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbw	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero,xmm3[8],zero,xmm3[9],zero,xmm3[10],zero,xmm3[11],zero,xmm3[12],zero,xmm3[13],zero,xmm3[14],zero,xmm3[15],zero
-	vpcmpeqb	xmm4, xmm0, xmmword ptr [rcx + rsi + 16]
-	vpand	ymm3, ymm3, ymm2
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbw	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero,xmm4[8],zero,xmm4[9],zero,xmm4[10],zero,xmm4[11],zero,xmm4[12],zero,xmm4[13],zero,xmm4[14],zero,xmm4[15],zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqb	xmm5, xmm0, xmmword ptr [rcx + rsi + 32]
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbw	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero,xmm5[8],zero,xmm5[9],zero,xmm5[10],zero,xmm5[11],zero,xmm5[12],zero,xmm5[13],zero,xmm5[14],zero,xmm5[15],zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqb	xmm6, xmm0, xmmword ptr [rcx + rsi + 48]
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbw	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero,xmm6[8],zero,xmm6[9],zero,xmm6[10],zero,xmm6[11],zero,xmm6[12],zero,xmm6[13],zero,xmm6[14],zero,xmm6[15],zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm6
-	add	rsi, 64
-	cmp	rdx, rsi
-	jne	.LBB4_1075
-# %bb.1076:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1077
-.LBB4_1081:
-	mov	edx, r11d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_1082:                             # =>This Inner Loop Header: Depth=1
-	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbq	ymm9, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbq	ymm10, xmm1
-	vpcmpgtb	xmm7, xmm5, xmm0
-	vpmovsxbq	ymm7, xmm7
-	vpcmpgtb	xmm1, xmm6, xmm0
-	vpmovsxbq	ymm1, xmm1
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbq	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbq	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbq	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbq	ymm6, xmm6
-	vblendvpd	ymm3, ymm3, ymm2, ymm9
-	vblendvpd	ymm4, ymm4, ymm2, ymm10
-	vblendvpd	ymm5, ymm5, ymm2, ymm7
-	vblendvpd	ymm1, ymm6, ymm2, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1082
-# %bb.1083:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1084
-.LBB4_1089:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_5] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_1090:                             # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbd	ymm9, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbd	ymm10, xmm1
-	vpcmpgtb	xmm7, xmm5, xmm0
-	vpmovsxbd	ymm7, xmm7
-	vpcmpgtb	xmm1, xmm6, xmm0
-	vpmovsxbd	ymm1, xmm1
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbd	ymm3, xmm3
-	vcvtdq2ps	ymm3, ymm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbd	ymm4, xmm4
-	vcvtdq2ps	ymm4, ymm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbd	ymm5, xmm5
-	vcvtdq2ps	ymm5, ymm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbd	ymm6, xmm6
-	vcvtdq2ps	ymm6, ymm6
-	vblendvps	ymm3, ymm3, ymm2, ymm9
-	vblendvps	ymm4, ymm4, ymm2, ymm10
-	vblendvps	ymm5, ymm5, ymm2, ymm7
-	vblendvps	ymm1, ymm6, ymm2, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1090
-# %bb.1091:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1092
-.LBB4_1095:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI4_15] # ymm1 = [1,1,1,1]
-.LBB4_1096:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm2, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1096
-# %bb.1097:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1098
-.LBB4_1102:
-	mov	edx, r11d
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_1103:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpeqq	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqq	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqq	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqq	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtq	ymm3, ymm2, ymm3
-	vpcmpgtq	ymm4, ymm2, ymm4
-	vpcmpgtq	ymm5, ymm2, ymm5
-	vpcmpgtq	ymm6, ymm2, ymm6
-	vblendvpd	ymm3, ymm2, ymm7, ymm3
-	vblendvpd	ymm4, ymm2, ymm8, ymm4
-	vblendvpd	ymm5, ymm2, ymm9, ymm5
-	vblendvpd	ymm6, ymm2, ymm10, ymm6
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1103
-# %bb.1104:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1105
-.LBB4_1110:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vxorps	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_8] # ymm1 = [1,1,1,1,1,1,1,1]
-.LBB4_1111:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 96]
-	vpsrad	ymm6, ymm2, 31
-	vpor	ymm6, ymm6, ymm1
-	vpsrad	ymm7, ymm3, 31
-	vpor	ymm7, ymm7, ymm1
-	vpsrad	ymm8, ymm4, 31
-	vpor	ymm8, ymm8, ymm1
-	vpsrad	ymm9, ymm5, 31
-	vpor	ymm9, ymm9, ymm1
-	vcvtdq2ps	ymm6, ymm6
-	vcvtdq2ps	ymm7, ymm7
-	vcvtdq2ps	ymm8, ymm8
-	vcvtdq2ps	ymm9, ymm9
-	vcmpneqps	ymm2, ymm2, ymm0
-	vandps	ymm2, ymm2, ymm6
-	vcmpneqps	ymm3, ymm3, ymm0
-	vandps	ymm3, ymm3, ymm7
-	vcmpneqps	ymm4, ymm4, ymm0
-	vandps	ymm4, ymm8, ymm4
-	vcmpneqps	ymm5, ymm5, ymm0
-	vandps	ymm5, ymm9, ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1111
-# %bb.1112:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1113
-.LBB4_1118:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
-.LBB4_1119:                             # =>This Inner Loop Header: Depth=1
-	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero,xmm3[2],zero,zero,zero,zero,zero,zero,zero,xmm3[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbq	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero,xmm4[2],zero,zero,zero,zero,zero,zero,zero,xmm4[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbq	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,zero,zero,zero,zero,xmm5[1],zero,zero,zero,zero,zero,zero,zero,xmm5[2],zero,zero,zero,zero,zero,zero,zero,xmm5[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbq	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,zero,zero,zero,zero,xmm6[1],zero,zero,zero,zero,zero,zero,zero,xmm6[2],zero,zero,zero,zero,zero,zero,zero,xmm6[3],zero,zero,zero,zero,zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1119
-# %bb.1120:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1121
-.LBB4_1125:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_1126:                             # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbd	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbd	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero,xmm4[4],zero,zero,zero,xmm4[5],zero,zero,zero,xmm4[6],zero,zero,zero,xmm4[7],zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vcvtdq2ps	ymm4, ymm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbd	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero,xmm5[4],zero,zero,zero,xmm5[5],zero,zero,zero,xmm5[6],zero,zero,zero,xmm5[7],zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vcvtdq2ps	ymm5, ymm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbd	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vcvtdq2ps	ymm6, ymm6
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1126
-# %bb.1127:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1128
-.LBB4_1144:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_12] # xmm2 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_1145:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpacksswb	xmm3, xmm3, xmm3
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpacksswb	xmm4, xmm4, xmm4
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpand	xmm4, xmm4, xmm2
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpacksswb	xmm5, xmm5, xmm5
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqd	ymm6, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpacksswb	xmm6, xmm6, xmm6
-	vpand	xmm6, xmm6, xmm2
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpunpcklqdq	ymm3, ymm3, ymm5        # ymm3 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
-	vpermq	ymm3, ymm3, 216                 # ymm3 = ymm3[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1145
-# %bb.1146:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1147
-.LBB4_1151:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorpd	xmm10, xmm10, xmm10
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vpxor	xmm11, xmm11, xmm11
-.LBB4_1152:                             # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm6, ymmword ptr [rcx + 8*rsi]
-	vmovupd	ymm7, ymmword ptr [rcx + 8*rsi + 32]
-	vmovupd	ymm8, ymmword ptr [rcx + 8*rsi + 64]
-	vmovupd	ymm9, ymmword ptr [rcx + 8*rsi + 96]
-	vcmpeqpd	ymm4, ymm10, ymm6
-	vextractf128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm12, xmm4, xmm4
-	vcmpeqpd	ymm5, ymm10, ymm7
-	vextractf128	xmm1, ymm5, 1
-	vpackssdw	xmm1, xmm5, xmm1
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm13, xmm1, xmm1
-	vcmpeqpd	ymm1, ymm8, ymm10
-	vextractf128	xmm3, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm3
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vcmpeqpd	ymm3, ymm9, ymm10
-	vextractf128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpackssdw	xmm3, xmm3, xmm3
-	vpacksswb	xmm3, xmm3, xmm3
-	vandpd	ymm4, ymm6, ymm0
-	vorpd	ymm4, ymm2, ymm4
-	vandpd	ymm6, ymm7, ymm0
-	vorpd	ymm6, ymm2, ymm6
-	vandpd	ymm7, ymm8, ymm0
-	vorpd	ymm7, ymm2, ymm7
-	vandpd	ymm8, ymm9, ymm0
-	vorpd	ymm8, ymm8, ymm2
-	vcvttpd2dq	xmm4, ymm4
-	vpackusdw	xmm4, xmm4, xmm4
-	vpackuswb	xmm4, xmm4, xmm4
-	vcvttpd2dq	xmm6, ymm6
-	vpackusdw	xmm6, xmm6, xmm6
-	vpackuswb	xmm6, xmm6, xmm6
-	vcvttpd2dq	xmm7, ymm7
-	vpackusdw	xmm7, xmm7, xmm7
-	vpackuswb	xmm7, xmm7, xmm7
-	vcvttpd2dq	xmm5, ymm8
-	vpackusdw	xmm5, xmm5, xmm5
-	vpackuswb	xmm5, xmm5, xmm5
-	vpblendvb	xmm4, xmm4, xmm11, xmm12
-	vpblendvb	xmm6, xmm6, xmm11, xmm13
-	vpblendvb	xmm1, xmm7, xmm11, xmm1
-	vpunpckldq	xmm4, xmm4, xmm6        # xmm4 = xmm4[0],xmm6[0],xmm4[1],xmm6[1]
-	vpblendvb	xmm3, xmm5, xmm11, xmm3
-	vpunpckldq	xmm1, xmm1, xmm3        # xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm4, xmm1        # xmm1 = xmm4[0],xmm1[0]
-	vmovdqu	xmmword ptr [r8 + rsi], xmm1
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1152
-# %bb.1153:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1154
-.LBB4_1159:
-	mov	r11d, r10d
-	and	r11d, -128
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_20] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1160:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + rsi + 96]
-	vpcmpeqb	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqb	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtb	ymm3, ymm2, ymm3
-	vpcmpgtb	ymm4, ymm2, ymm4
-	vpcmpgtb	ymm5, ymm2, ymm5
-	vpcmpgtb	ymm6, ymm2, ymm6
-	vpblendvb	ymm3, ymm2, ymm7, ymm3
-	vpblendvb	ymm4, ymm2, ymm8, ymm4
-	vpblendvb	ymm5, ymm2, ymm9, ymm5
-	vpblendvb	ymm6, ymm2, ymm10, ymm6
-	vmovdqu	ymmword ptr [r8 + rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm6
-	sub	rsi, -128
-	cmp	r11, rsi
-	jne	.LBB4_1160
-# %bb.1161:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_1162
-.LBB4_1167:
-	mov	edx, eax
-	and	edx, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_17] # xmm2 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_1168:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vpackssdw	xmm3, xmm3, xmm3
-	vpacksswb	xmm3, xmm3, xmm3
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
-	vpunpckldq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]
-	vpxor	ymm4, ymm5, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 96]
-	vpand	xmm4, xmm4, xmm2
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpackssdw	xmm5, xmm5, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpand	xmm5, xmm5, xmm2
-	vpunpckldq	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
-	vpunpcklqdq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0]
-	vmovdqu	xmmword ptr [r8 + rsi], xmm3
-	add	rsi, 16
-	cmp	rdx, rsi
-	jne	.LBB4_1168
-# %bb.1169:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1170
-.LBB4_1174:
-	mov	edx, eax
-	and	edx, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_19] # xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1175:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rsi]
-	vpxor	ymm3, ymm3, ymm1
-	vextracti128	xmm4, ymm3, 1
-	vpacksswb	xmm3, xmm3, xmm4
-	vpand	xmm3, xmm3, xmm2
-	vpcmpeqw	ymm4, ymm0, ymmword ptr [rcx + 2*rsi + 32]
-	vpxor	ymm4, ymm4, ymm1
-	vextracti128	xmm5, ymm4, 1
-	vpacksswb	xmm4, xmm4, xmm5
-	vpand	xmm4, xmm4, xmm2
-	vpcmpeqw	ymm5, ymm0, ymmword ptr [rcx + 2*rsi + 64]
-	vpxor	ymm5, ymm5, ymm1
-	vextracti128	xmm6, ymm5, 1
-	vpacksswb	xmm5, xmm5, xmm6
-	vpand	xmm5, xmm5, xmm2
-	vpcmpeqw	ymm6, ymm0, ymmword ptr [rcx + 2*rsi + 96]
-	vpxor	ymm6, ymm6, ymm1
-	vextracti128	xmm7, ymm6, 1
-	vpacksswb	xmm6, xmm6, xmm7
-	vpand	xmm6, xmm6, xmm2
-	vmovdqu	xmmword ptr [r8 + rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + rsi + 32], xmm5
-	vmovdqu	xmmword ptr [r8 + rsi + 48], xmm6
-	add	rsi, 64
-	cmp	rdx, rsi
-	jne	.LBB4_1175
-# %bb.1176:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1177
-.LBB4_1181:
-	mov	r11d, r10d
-	and	r11d, -64
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vmovdqa	xmm9, xmmword ptr [rip + .LCPI4_19] # xmm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1182:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi]
-	vmovdqu	ymm5, ymmword ptr [rcx + 2*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 2*rsi + 64]
-	vmovdqu	ymm7, ymmword ptr [rcx + 2*rsi + 96]
-	vpcmpgtw	ymm3, ymm4, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpacksswb	xmm10, xmm3, xmm1
-	vpcmpgtw	ymm1, ymm5, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpacksswb	xmm11, xmm1, xmm2
-	vpcmpgtw	ymm2, ymm6, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpacksswb	xmm2, xmm2, xmm3
-	vpcmpgtw	ymm3, ymm7, ymm0
-	vextracti128	xmm1, ymm3, 1
-	vpacksswb	xmm1, xmm3, xmm1
-	vpcmpeqw	ymm3, ymm4, ymm0
-	vpxor	ymm3, ymm8, ymm3
-	vextracti128	xmm4, ymm3, 1
-	vpacksswb	xmm3, xmm3, xmm4
-	vpcmpeqw	ymm4, ymm5, ymm0
-	vpxor	ymm4, ymm8, ymm4
-	vextracti128	xmm5, ymm4, 1
-	vpacksswb	xmm4, xmm4, xmm5
-	vpcmpeqw	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm8, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpacksswb	xmm5, xmm5, xmm6
-	vpcmpeqw	ymm6, ymm7, ymm0
-	vpxor	ymm6, ymm8, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpacksswb	xmm6, xmm6, xmm7
-	vpblendvb	xmm3, xmm3, xmm9, xmm10
-	vpblendvb	xmm4, xmm4, xmm9, xmm11
-	vpblendvb	xmm2, xmm5, xmm9, xmm2
-	vpblendvb	xmm1, xmm6, xmm9, xmm1
-	vmovdqu	xmmword ptr [r8 + rsi], xmm3
-	vmovdqu	xmmword ptr [r8 + rsi + 16], xmm4
-	vmovdqu	xmmword ptr [r8 + rsi + 32], xmm2
-	vmovdqu	xmmword ptr [r8 + rsi + 48], xmm1
-	add	rsi, 64
-	cmp	r11, rsi
-	jne	.LBB4_1182
-# %bb.1183:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_1184
-.LBB4_1189:
-	mov	r11d, r10d
-	and	r11d, -16
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vmovdqa	xmm11, xmmword ptr [rip + .LCPI4_17] # xmm11 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_1190:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm10, ymmword ptr [rcx + 8*rsi]
-	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
-	vpcmpgtq	ymm1, ymm10, ymm0
-	vextracti128	xmm3, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm3
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm12, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm8, ymm0
-	vextracti128	xmm5, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm5
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm13, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm6, ymm0
-	vextracti128	xmm7, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm7
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm7, xmm1, xmm1
-	vpcmpgtq	ymm1, ymm4, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vpcmpeqq	ymm2, ymm10, ymm0
-	vpxor	ymm2, ymm9, ymm2
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpackssdw	xmm2, xmm2, xmm2
-	vpacksswb	xmm2, xmm2, xmm2
-	vpcmpeqq	ymm3, ymm8, ymm0
-	vpxor	ymm3, ymm9, ymm3
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpackssdw	xmm3, xmm3, xmm3
-	vpacksswb	xmm3, xmm3, xmm3
-	vpcmpeqq	ymm5, ymm6, ymm0
-	vpxor	ymm5, ymm9, ymm5
-	vextracti128	xmm6, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm6
-	vpackssdw	xmm5, xmm5, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpcmpeqq	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm6, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm6
-	vpackssdw	xmm4, xmm4, xmm4
-	vpacksswb	xmm4, xmm4, xmm4
-	vpblendvb	xmm2, xmm2, xmm11, xmm12
-	vpblendvb	xmm3, xmm3, xmm11, xmm13
-	vpblendvb	xmm5, xmm5, xmm11, xmm7
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpblendvb	xmm1, xmm4, xmm11, xmm1
-	vpunpckldq	xmm1, xmm5, xmm1        # xmm1 = xmm5[0],xmm1[0],xmm5[1],xmm1[1]
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovdqu	xmmword ptr [r8 + rsi], xmm1
-	add	rsi, 16
-	cmp	r11, rsi
-	jne	.LBB4_1190
-# %bb.1191:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_1192
-.LBB4_1197:
-	mov	edx, r10d
-	and	edx, -32
-	xor	esi, esi
-	vxorps	xmm12, xmm12, xmm12
-	vpcmpeqd	ymm13, ymm13, ymm13
-	vmovdqa	xmm14, xmmword ptr [rip + .LCPI4_12] # xmm14 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	vpcmpeqd	xmm15, xmm15, xmm15
-.LBB4_1198:                             # =>This Inner Loop Header: Depth=1
-	vmovups	ymm9, ymmword ptr [rcx + 4*rsi]
-	vmovups	ymm10, ymmword ptr [rcx + 4*rsi + 32]
-	vmovups	ymm11, ymmword ptr [rcx + 4*rsi + 64]
-	vmovups	ymm7, ymmword ptr [rcx + 4*rsi + 96]
-	vcmpeqps	ymm4, ymm9, ymm12
-	vextractf128	xmm5, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm5
-	vpacksswb	xmm8, xmm4, xmm4
-	vcmpeqps	ymm4, ymm10, ymm12
-	vextractf128	xmm6, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm6
-	vpacksswb	xmm6, xmm4, xmm4
-	vcmpeqps	ymm4, ymm11, ymm12
-	vextractf128	xmm0, ymm4, 1
-	vpackssdw	xmm0, xmm4, xmm0
-	vpacksswb	xmm4, xmm0, xmm0
-	vcmpeqps	ymm0, ymm12, ymm7
-	vextractf128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vpacksswb	xmm0, xmm0, xmm0
-	vpcmpgtd	ymm1, ymm9, ymm13
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpacksswb	xmm1, xmm1, xmm1
-	vpcmpgtd	ymm2, ymm10, ymm13
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpacksswb	xmm2, xmm2, xmm2
-	vpcmpgtd	ymm3, ymm11, ymm13
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpacksswb	xmm3, xmm3, xmm3
-	vpcmpgtd	ymm5, ymm7, ymm13
-	vextracti128	xmm7, ymm5, 1
-	vpackssdw	xmm5, xmm5, xmm7
-	vpblendvb	xmm1, xmm15, xmm14, xmm1
-	vpacksswb	xmm5, xmm5, xmm5
-	vpandn	xmm1, xmm8, xmm1
-	vpblendvb	xmm2, xmm15, xmm14, xmm2
-	vpblendvb	xmm3, xmm15, xmm14, xmm3
-	vpblendvb	xmm5, xmm15, xmm14, xmm5
-	vpxor	xmm7, xmm7, xmm7
-	vpblendvb	xmm2, xmm2, xmm7, xmm6
-	vpblendvb	xmm0, xmm5, xmm7, xmm0
-	vpandn	xmm3, xmm4, xmm3
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + rsi], ymm0
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1198
-# %bb.1199:
-	cmp	rdx, r10
-	je	.LBB4_1351
-	jmp	.LBB4_1200
-.LBB4_1205:
-	mov	edx, eax
-	and	edx, -128
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_20] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_1206:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rcx + rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rcx + rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rcx + rsi + 64]
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rcx + rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm5
-	sub	rsi, -128
-	cmp	rdx, rsi
-	jne	.LBB4_1206
-# %bb.1207:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1208
-.LBB4_1212:
-	mov	r11d, r10d
-	and	r11d, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm9, ymm9, ymm9
-	vmovdqa	xmm10, xmmword ptr [rip + .LCPI4_12] # xmm10 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_1213:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm7, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm8, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpgtd	ymm3, ymm7, ymm0
-	vextracti128	xmm5, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm5
-	vpacksswb	xmm11, xmm3, xmm3
-	vpcmpgtd	ymm5, ymm8, ymm0
-	vextracti128	xmm1, ymm5, 1
-	vpackssdw	xmm1, xmm5, xmm1
-	vpacksswb	xmm12, xmm1, xmm1
-	vpcmpgtd	ymm1, ymm6, ymm0
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vpacksswb	xmm1, xmm1, xmm1
-	vpcmpgtd	ymm2, ymm4, ymm0
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vpacksswb	xmm2, xmm2, xmm2
-	vpcmpeqd	ymm3, ymm7, ymm0
-	vpxor	ymm3, ymm9, ymm3
-	vextracti128	xmm7, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm7
-	vpacksswb	xmm3, xmm3, xmm3
-	vpcmpeqd	ymm7, ymm8, ymm0
-	vpxor	ymm7, ymm9, ymm7
-	vextracti128	xmm5, ymm7, 1
-	vpackssdw	xmm5, xmm7, xmm5
-	vpacksswb	xmm5, xmm5, xmm5
-	vpcmpeqd	ymm6, ymm6, ymm0
-	vpxor	ymm6, ymm9, ymm6
-	vextracti128	xmm7, ymm6, 1
-	vpackssdw	xmm6, xmm6, xmm7
-	vpacksswb	xmm6, xmm6, xmm6
-	vpcmpeqd	ymm4, ymm4, ymm0
-	vpxor	ymm4, ymm9, ymm4
-	vextracti128	xmm7, ymm4, 1
-	vpackssdw	xmm4, xmm4, xmm7
-	vpacksswb	xmm4, xmm4, xmm4
-	vpblendvb	xmm3, xmm3, xmm10, xmm11
-	vpblendvb	xmm5, xmm5, xmm10, xmm12
-	vpblendvb	xmm1, xmm6, xmm10, xmm1
-	vpblendvb	xmm2, xmm4, xmm10, xmm2
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vinserti128	ymm2, ymm3, xmm5, 1
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [r8 + rsi], ymm1
-	add	rsi, 32
-	cmp	r11, rsi
-	jne	.LBB4_1213
-# %bb.1214:
-	cmp	r11, r10
-	je	.LBB4_1351
-	jmp	.LBB4_1215
-.LBB4_1220:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_8] # ymm1 = [1,1,1,1,1,1,1,1]
-.LBB4_1221:                             # =>This Inner Loop Header: Depth=1
-	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
-	vpandn	ymm2, ymm2, ymm1
-	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
-	vpandn	ymm3, ymm3, ymm1
-	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
-	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
-	vpandn	ymm4, ymm4, ymm1
-	vpandn	ymm5, ymm5, ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1221
-# %bb.1222:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1223
-.LBB4_1227:
-	mov	edx, r11d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm8, xmm8, xmm8
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_1228:                             # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	vpcmpgtb	xmm7, xmm3, xmm0
-	vpmovsxbd	ymm9, xmm7
-	vpcmpgtb	xmm1, xmm4, xmm0
-	vpmovsxbd	ymm10, xmm1
-	vpcmpgtb	xmm7, xmm5, xmm0
-	vpmovsxbd	ymm7, xmm7
-	vpcmpgtb	xmm1, xmm6, xmm0
-	vpmovsxbd	ymm1, xmm1
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm8, xmm3
-	vpmovsxbd	ymm3, xmm3
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm8, xmm4
-	vpmovsxbd	ymm4, xmm4
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm8, xmm5
-	vpmovsxbd	ymm5, xmm5
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm8, xmm6
-	vpmovsxbd	ymm6, xmm6
-	vblendvps	ymm3, ymm3, ymm2, ymm9
-	vblendvps	ymm4, ymm4, ymm2, ymm10
-	vblendvps	ymm5, ymm5, ymm2, ymm7
-	vblendvps	ymm1, ymm6, ymm2, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1228
-# %bb.1229:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1230
-.LBB4_1235:
-	mov	edx, eax
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	xmm1, xmm1, xmm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_1236:                             # =>This Inner Loop Header: Depth=1
-	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	vpcmpeqb	xmm3, xmm3, xmm0
-	vpxor	xmm3, xmm3, xmm1
-	vpmovzxbd	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
-	vpand	ymm3, ymm3, ymm2
-	vpcmpeqb	xmm4, xmm4, xmm0
-	vpxor	xmm4, xmm4, xmm1
-	vpmovzxbd	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero,xmm4[4],zero,zero,zero,xmm4[5],zero,zero,zero,xmm4[6],zero,zero,zero,xmm4[7],zero,zero,zero
-	vpand	ymm4, ymm4, ymm2
-	vpcmpeqb	xmm5, xmm5, xmm0
-	vpxor	xmm5, xmm5, xmm1
-	vpmovzxbd	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero,xmm5[4],zero,zero,zero,xmm5[5],zero,zero,zero,xmm5[6],zero,zero,zero,xmm5[7],zero,zero,zero
-	vpand	ymm5, ymm5, ymm2
-	vpcmpeqb	xmm6, xmm6, xmm0
-	vpxor	xmm6, xmm6, xmm1
-	vpmovzxbd	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
-	vpand	ymm6, ymm6, ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1236
-# %bb.1237:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1238
-.LBB4_1242:
-	mov	edx, r11d
-	and	edx, -32
-	xor	esi, esi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-.LBB4_1243:                             # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi]
-	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 32]
-	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 64]
-	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 96]
-	vpcmpeqd	ymm7, ymm3, ymm0
-	vpxor	ymm7, ymm7, ymm1
-	vpcmpeqd	ymm8, ymm4, ymm0
-	vpxor	ymm8, ymm8, ymm1
-	vpcmpeqd	ymm9, ymm5, ymm0
-	vpxor	ymm9, ymm9, ymm1
-	vpcmpeqd	ymm10, ymm6, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpgtd	ymm3, ymm2, ymm3
-	vpcmpgtd	ymm4, ymm2, ymm4
-	vpcmpgtd	ymm5, ymm2, ymm5
-	vpcmpgtd	ymm6, ymm2, ymm6
-	vblendvps	ymm3, ymm2, ymm7, ymm3
-	vblendvps	ymm4, ymm2, ymm8, ymm4
-	vblendvps	ymm5, ymm2, ymm9, ymm5
-	vblendvps	ymm6, ymm2, ymm10, ymm6
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
-	add	rsi, 32
-	cmp	rdx, rsi
-	jne	.LBB4_1243
-# %bb.1244:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1245
-.LBB4_1250:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-.LBB4_1251:
-	jle	.LBB4_1253
-# %bb.1252:
-	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
-.LBB4_1253:
-	vmovq	qword ptr [r8 + 8*rdx], xmm0
-	or	rdx, 1
-.LBB4_1254:
-	add	rsi, rax
-	je	.LBB4_1351
-# %bb.1255:
-	vmovsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = mem[0],zero
-	jmp	.LBB4_1257
-.LBB4_1256:                             #   in Loop: Header=BB4_1257 Depth=1
-	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm3
-	add	rdx, 2
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_1257:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	vmovapd	xmm2, xmm0
-	jne	.LBB4_1258
-# %bb.1261:                             #   in Loop: Header=BB4_1257 Depth=1
-	vxorpd	xmm2, xmm2, xmm2
-	vmovapd	xmm3, xmm1
-	jle	.LBB4_1262
-.LBB4_1259:                             #   in Loop: Header=BB4_1257 Depth=1
-	vmovsd	qword ptr [r8 + 8*rdx], xmm3
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovapd	xmm2, xmm0
-	jne	.LBB4_1260
-.LBB4_1263:                             #   in Loop: Header=BB4_1257 Depth=1
-	vxorpd	xmm2, xmm2, xmm2
-	vmovapd	xmm3, xmm1
-	jg	.LBB4_1256
-	jmp	.LBB4_1264
-.LBB4_1258:                             #   in Loop: Header=BB4_1257 Depth=1
-	vmovapd	xmm3, xmm1
-	jg	.LBB4_1259
-.LBB4_1262:                             #   in Loop: Header=BB4_1257 Depth=1
-	vmovapd	xmm3, xmm2
-	vmovsd	qword ptr [r8 + 8*rdx], xmm3
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovapd	xmm2, xmm0
-	je	.LBB4_1263
-.LBB4_1260:                             #   in Loop: Header=BB4_1257 Depth=1
-	vmovapd	xmm3, xmm1
-	jg	.LBB4_1256
-.LBB4_1264:                             #   in Loop: Header=BB4_1257 Depth=1
-	vmovapd	xmm3, xmm2
-	jmp	.LBB4_1256
-.LBB4_1265:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-.LBB4_1266:
-	jle	.LBB4_1268
-# %bb.1267:
-	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-.LBB4_1268:
-	vmovd	dword ptr [r8 + 4*rdx], xmm0
-	or	rdx, 1
-.LBB4_1269:
-	add	rsi, rax
-	je	.LBB4_1351
-# %bb.1270:
-	vmovss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_1272
-.LBB4_1271:                             #   in Loop: Header=BB4_1272 Depth=1
-	vmovss	dword ptr [r8 + 4*rdx + 4], xmm3
-	add	rdx, 2
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_1272:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	vmovaps	xmm2, xmm0
-	jne	.LBB4_1273
-# %bb.1276:                             #   in Loop: Header=BB4_1272 Depth=1
-	vxorps	xmm2, xmm2, xmm2
-	vmovaps	xmm3, xmm1
-	jle	.LBB4_1277
-.LBB4_1274:                             #   in Loop: Header=BB4_1272 Depth=1
-	vmovss	dword ptr [r8 + 4*rdx], xmm3
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovaps	xmm2, xmm0
-	jne	.LBB4_1275
-.LBB4_1278:                             #   in Loop: Header=BB4_1272 Depth=1
-	vxorps	xmm2, xmm2, xmm2
-	vmovaps	xmm3, xmm1
-	jg	.LBB4_1271
-	jmp	.LBB4_1279
-.LBB4_1273:                             #   in Loop: Header=BB4_1272 Depth=1
-	vmovaps	xmm3, xmm1
-	jg	.LBB4_1274
-.LBB4_1277:                             #   in Loop: Header=BB4_1272 Depth=1
-	vmovaps	xmm3, xmm2
-	vmovss	dword ptr [r8 + 4*rdx], xmm3
-	cmp	byte ptr [rcx + rdx + 1], 0
-	vmovaps	xmm2, xmm0
-	je	.LBB4_1278
-.LBB4_1275:                             #   in Loop: Header=BB4_1272 Depth=1
-	vmovaps	xmm3, xmm1
-	jg	.LBB4_1271
-.LBB4_1279:                             #   in Loop: Header=BB4_1272 Depth=1
-	vmovaps	xmm3, xmm2
-	jmp	.LBB4_1271
-.LBB4_1282:
-	xor	edi, edi
-.LBB4_1283:
-	test	r9b, 1
-	je	.LBB4_1285
-# %bb.1284:
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vxorpd	xmm1, xmm1, xmm1
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_0] # ymm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vbroadcastsd	ymm3, qword ptr [rip + .LCPI4_1] # ymm3 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vandpd	ymm2, ymm0, ymm2
-	vorpd	ymm3, ymm3, ymm2
-	vextractf128	xmm4, ymm3, 1
-	vmovsd	xmm2, qword ptr [rip + .LCPI4_6] # xmm2 = mem[0],zero
-	vsubsd	xmm5, xmm4, xmm2
-	vcvttsd2si	rax, xmm5
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm4
-	vucomisd	xmm4, xmm2
-	cmovae	rdx, rax
-	vmovq	xmm5, rdx
-	vpermilps	xmm4, xmm4, 78          # xmm4 = xmm4[2,3,0,1]
-	vsubsd	xmm6, xmm4, xmm2
-	vcvttsd2si	rax, xmm6
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm4
-	vucomisd	xmm4, xmm2
-	cmovae	rdx, rax
-	vmovq	xmm4, rdx
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vsubsd	xmm5, xmm3, xmm2
-	vcvttsd2si	rax, xmm5
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm3
-	vucomisd	xmm3, xmm2
-	cmovae	rdx, rax
-	vmovq	xmm5, rdx
-	vpermilps	xmm3, xmm3, 78          # xmm3 = xmm3[2,3,0,1]
-	vsubsd	xmm6, xmm3, xmm2
-	vcvttsd2si	rax, xmm6
-	xor	rax, r11
-	vcvttsd2si	rdx, xmm3
-	vucomisd	xmm3, xmm2
-	cmovae	rdx, rax
-	vmovq	xmm2, rdx
-	vpunpcklqdq	xmm2, xmm5, xmm2        # xmm2 = xmm5[0],xmm2[0]
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vcmpneqpd	ymm0, ymm0, ymm1
-	vandpd	ymm0, ymm0, ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
-.LBB4_1285:
-	cmp	rsi, r10
-	je	.LBB4_1351
-.LBB4_1286:
-	vmovddup	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = [1.0E+0,1.0E+0]
-                                        # xmm0 = mem[0,0]
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovsd	xmm2, qword ptr [rip + .LCPI4_6] # xmm2 = mem[0],zero
-	xor	eax, eax
-	vxorpd	xmm3, xmm3, xmm3
-.LBB4_1287:                             # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm4, qword ptr [rcx + 8*rsi]   # xmm4 = mem[0],zero
-	vandpd	xmm5, xmm4, xmm1
-	vorpd	xmm5, xmm0, xmm5
-	vsubsd	xmm6, xmm5, xmm2
-	vcvttsd2si	rdx, xmm6
-	xor	rdx, r11
-	vcvttsd2si	rdi, xmm5
-	vucomisd	xmm5, xmm2
-	cmovae	rdi, rdx
-	vucomisd	xmm3, xmm4
-	cmove	rdi, rax
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	cmp	r10, rsi
-	jne	.LBB4_1287
-	jmp	.LBB4_1351
-.LBB4_1280:
-	vmovmskps	ecx, xmm0
-	and	ecx, 1
-	neg	ecx
-	or	ecx, 1
-	vcvtsi2ss	xmm0, xmm4, ecx
-	vmovss	xmm1, dword ptr [rip + .LCPI4_9] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm0, xmm1
-	vcvttss2si	rcx, xmm2
-	movabs	rdx, -9223372036854775808
-	xor	rdx, rcx
-	vcvttss2si	rcx, xmm0
-	vucomiss	xmm0, xmm1
-	cmovae	rcx, rdx
-.LBB4_1281:
-	mov	qword ptr [r8 + 8*rax], rcx
-	jmp	.LBB4_1351
-.LBB4_1288:
-	xor	edi, edi
-.LBB4_1289:
-	test	r9b, 1
-	je	.LBB4_1291
-# %bb.1290:
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vxorpd	xmm1, xmm1, xmm1
-	vcmpeqpd	ymm1, ymm0, ymm1
-	vextractf128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_0] # ymm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vandpd	ymm0, ymm0, ymm2
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vorpd	ymm0, ymm2, ymm0
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_7] # ymm2 = [2.147483648E+9,2.147483648E+9,2.147483648E+9,2.147483648E+9]
-	vcmpltpd	ymm3, ymm0, ymm2
-	vextractf128	xmm4, ymm3, 1
-	vsubpd	ymm2, ymm0, ymm2
-	vcvttpd2dq	xmm2, ymm2
-	vbroadcastss	xmm5, dword ptr [rip + .LCPI4_4] # xmm5 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vpackssdw	xmm3, xmm3, xmm4
-	vxorpd	xmm2, xmm2, xmm5
-	vcvttpd2dq	xmm0, ymm0
-	vblendvps	xmm0, xmm2, xmm0, xmm3
-	vpandn	xmm0, xmm1, xmm0
-	vmovdqu	xmmword ptr [r8 + 4*rdi], xmm0
-.LBB4_1291:
-	cmp	rsi, rax
-	je	.LBB4_1351
-.LBB4_1292:
-	vxorpd	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_1293:                             # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	rdx, xmm3
-	cmove	edx, r10d
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_1293
-	jmp	.LBB4_1351
-.LBB4_1294:
-	xor	esi, esi
-.LBB4_1295:
-	test	r9b, 1
-	je	.LBB4_1297
-# %bb.1296:
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rsi]
-	vpsrad	ymm1, ymm0, 31
-	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
-	vpor	ymm1, ymm1, ymm2
-	vcvtdq2ps	ymm1, ymm1
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_10] # ymm2 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	vcmpltps	ymm3, ymm1, ymm2
-	vsubps	ymm2, ymm1, ymm2
-	vcvttps2dq	ymm2, ymm2
-	vbroadcastss	ymm4, dword ptr [rip + .LCPI4_4] # ymm4 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vxorps	ymm2, ymm2, ymm4
-	vcvttps2dq	ymm1, ymm1
-	vblendvps	ymm1, ymm2, ymm1, ymm3
-	vxorps	xmm2, xmm2, xmm2
-	vcmpneqps	ymm0, ymm0, ymm2
-	vandps	ymm0, ymm0, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm0
-.LBB4_1297:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_1298:
-	vpxor	xmm0, xmm0, xmm0
-	jmp	.LBB4_1300
-.LBB4_1299:                             #   in Loop: Header=BB4_1300 Depth=1
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1351
-.LBB4_1300:                             # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	xor	esi, esi
-	vucomiss	xmm0, xmm1
-	je	.LBB4_1299
-# %bb.1301:                             #   in Loop: Header=BB4_1300 Depth=1
-	vmovmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	vcvtsi2ss	xmm1, xmm8, esi
-	vcvttss2si	rsi, xmm1
-	jmp	.LBB4_1299
-.LBB4_1302:
-	xor	esi, esi
-.LBB4_1303:
-	test	r9b, 1
-	je	.LBB4_1305
-# %bb.1304:
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rsi]
-	vxorpd	xmm1, xmm1, xmm1
-	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_0] # ymm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	vandpd	ymm2, ymm0, ymm2
-	vbroadcastsd	ymm3, qword ptr [rip + .LCPI4_1] # ymm3 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	vorpd	ymm2, ymm3, ymm2
-	vextractf128	xmm3, ymm2, 1
-	vcvttsd2si	rdi, xmm3
-	vmovq	xmm4, rdi
-	vpermilps	xmm3, xmm3, 78          # xmm3 = xmm3[2,3,0,1]
-	vcvttsd2si	rdi, xmm3
-	vmovq	xmm3, rdi
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vcvttsd2si	rdi, xmm2
-	vmovq	xmm4, rdi
-	vpermilps	xmm2, xmm2, 78          # xmm2 = xmm2[2,3,0,1]
-	vcvttsd2si	rdi, xmm2
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm4, xmm2        # xmm2 = xmm4[0],xmm2[0]
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vcmpneqpd	ymm0, ymm0, ymm1
-	vandpd	ymm0, ymm0, ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm0
-.LBB4_1305:
-	cmp	rdx, rax
-	je	.LBB4_1351
-.LBB4_1306:
-	xor	esi, esi
-	vxorpd	xmm0, xmm0, xmm0
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
-	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-                                        # xmm2 = mem[0,0]
-.LBB4_1307:                             # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	vucomisd	xmm0, xmm3
-	vandpd	xmm3, xmm3, xmm1
-	vorpd	xmm3, xmm2, xmm3
-	vcvttsd2si	rdi, xmm3
-	cmove	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx], rdi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1307
-	jmp	.LBB4_1351
-.LBB4_1308:
-	xor	esi, esi
-.LBB4_1309:
-	test	r9b, 1
-	je	.LBB4_1311
-# %bb.1310:
-	vmovups	xmm0, xmmword ptr [rcx + 4*rsi]
-	vpxor	xmm1, xmm1, xmm1
-	vcmpeqps	xmm1, xmm0, xmm1
-	vpmovsxdq	ymm1, xmm1
-	vpsrad	xmm0, xmm0, 31
-	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-	vpor	xmm0, xmm0, xmm2
-	vcvtdq2ps	xmm0, xmm0
-	vpermilps	xmm2, xmm0, 231         # xmm2 = xmm0[3,1,2,3]
-	vcvttss2si	rax, xmm2
-	vmovq	xmm2, rax
-	vpermilpd	xmm3, xmm0, 1           # xmm3 = xmm0[1,0]
-	vcvttss2si	rax, xmm3
-	vmovq	xmm3, rax
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vcvttss2si	rax, xmm0
-	vmovq	xmm3, rax
-	vmovshdup	xmm0, xmm0              # xmm0 = xmm0[1,1,3,3]
-	vcvttss2si	rax, xmm0
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm0, xmm3, xmm0        # xmm0 = xmm3[0],xmm0[0]
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vpandn	ymm0, ymm1, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm0
-.LBB4_1311:
-	cmp	rdx, r10
-	je	.LBB4_1351
-.LBB4_1312:
-	vxorps	xmm0, xmm0, xmm0
-	jmp	.LBB4_1315
-.LBB4_1313:                             #   in Loop: Header=BB4_1315 Depth=1
-	vmovmskps	eax, xmm1
-	and	eax, 1
-	neg	eax
-	or	eax, 1
-	vcvtsi2ss	xmm1, xmm6, eax
-	vcvttss2si	rsi, xmm1
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	r10, rdx
-	je	.LBB4_1351
-.LBB4_1315:                             # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	vucomiss	xmm0, xmm1
-	jne	.LBB4_1313
-# %bb.1316:                             #   in Loop: Header=BB4_1315 Depth=1
-	xor	esi, esi
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1315
-	jmp	.LBB4_1351
-.LBB4_1317:
-	xor	edi, edi
-.LBB4_1318:
-	test	r9b, 1
-	je	.LBB4_1320
-# %bb.1319:
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpcmpeqw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vpandn	ymm1, ymm1, ymm2
-	vpandn	ymm0, ymm0, ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB4_1320:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1321
-.LBB4_1325:
-	xor	edi, edi
-.LBB4_1326:
-	test	r9b, 1
-	je	.LBB4_1328
-# %bb.1327:
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpcmpeqw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
-	vpandn	ymm1, ymm1, ymm2
-	vpandn	ymm0, ymm0, ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
-.LBB4_1328:
-	cmp	rdx, rax
-	je	.LBB4_1351
-	jmp	.LBB4_1329
-.LBB4_1333:
-	xor	esi, esi
-.LBB4_1334:
-	test	r9b, 1
-	je	.LBB4_1336
-# %bb.1335:
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rsi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rsi + 32]
-	vpxor	xmm2, xmm2, xmm2
-	vpcmpeqw	ymm3, ymm0, ymm2
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpxor	ymm3, ymm3, ymm4
-	vpcmpeqw	ymm2, ymm1, ymm2
-	vpxor	ymm2, ymm2, ymm4
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI4_18] # ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpcmpgtw	ymm0, ymm4, ymm0
-	vpcmpgtw	ymm1, ymm4, ymm1
-	vpblendvb	ymm0, ymm4, ymm3, ymm0
-	vpblendvb	ymm1, ymm4, ymm2, ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm1
-.LBB4_1336:
-	cmp	rdx, r11
-	je	.LBB4_1351
-	jmp	.LBB4_1337
-.LBB4_1342:
-	xor	esi, esi
-.LBB4_1343:
-	test	r9b, 1
-	je	.LBB4_1345
-# %bb.1344:
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rsi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rsi + 32]
-	vpxor	xmm2, xmm2, xmm2
-	vpcmpeqw	ymm3, ymm0, ymm2
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpxor	ymm3, ymm3, ymm4
-	vpcmpeqw	ymm2, ymm1, ymm2
-	vpxor	ymm2, ymm2, ymm4
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI4_18] # ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpcmpgtw	ymm0, ymm4, ymm0
-	vpcmpgtw	ymm1, ymm4, ymm1
-	vpblendvb	ymm0, ymm4, ymm3, ymm0
-	vpblendvb	ymm1, ymm4, ymm2, ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm1
-.LBB4_1345:
-	cmp	rdx, r11
-	jne	.LBB4_1346
-.LBB4_1351:
-	lea	rsp, [rbp - 16]
-	pop	rbx
-	pop	r14
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end4:
-	.size	arithmetic_unary_diff_type_avx2, .Lfunc_end4-arithmetic_unary_diff_type_avx2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
deleted file mode 100644
index 1b2db4159cf70..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
+++ /dev/null
@@ -1,38194 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"base_arithmetic.cc"
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function arithmetic_binary_sse4
-.LCPI0_0:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	arithmetic_binary_sse4
-	.p2align	4, 0x90
-	.type	arithmetic_binary_sse4,@function
-arithmetic_binary_sse4:                 # @arithmetic_binary_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 20
-	jg	.LBB0_11
-# %bb.1:
-	test	sil, sil
-	je	.LBB0_21
-# %bb.2:
-	cmp	sil, 1
-	je	.LBB0_367
-# %bb.3:
-	cmp	sil, 2
-	jne	.LBB0_1013
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB0_719
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB0_6
-# %bb.713:
-	cmp	edi, 4
-	je	.LBB0_760
-# %bb.714:
-	cmp	edi, 5
-	je	.LBB0_776
-# %bb.715:
-	cmp	edi, 6
-	jne	.LBB0_1013
-# %bb.716:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.717:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_792
-# %bb.718:
-	xor	esi, esi
-.LBB0_801:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_803
-.LBB0_802:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_802
-.LBB0_803:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_804:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_804
-	jmp	.LBB0_1013
-.LBB0_11:
-	cmp	sil, 21
-	je	.LBB0_194
-# %bb.12:
-	cmp	sil, 22
-	je	.LBB0_540
-# %bb.13:
-	cmp	sil, 23
-	jne	.LBB0_1013
-# %bb.14:
-	cmp	edi, 6
-	jg	.LBB0_869
-# %bb.15:
-	cmp	edi, 3
-	jle	.LBB0_16
-# %bb.863:
-	cmp	edi, 4
-	je	.LBB0_910
-# %bb.864:
-	cmp	edi, 5
-	je	.LBB0_926
-# %bb.865:
-	cmp	edi, 6
-	jne	.LBB0_1013
-# %bb.866:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.867:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_942
-# %bb.868:
-	xor	esi, esi
-.LBB0_951:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_953
-.LBB0_952:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_952
-.LBB0_953:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_954:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_954
-	jmp	.LBB0_1013
-.LBB0_21:
-	cmp	edi, 6
-	jg	.LBB0_34
-# %bb.22:
-	cmp	edi, 3
-	jle	.LBB0_23
-# %bb.28:
-	cmp	edi, 4
-	je	.LBB0_75
-# %bb.29:
-	cmp	edi, 5
-	je	.LBB0_91
-# %bb.30:
-	cmp	edi, 6
-	jne	.LBB0_1013
-# %bb.31:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.32:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_107
-# %bb.33:
-	xor	esi, esi
-.LBB0_116:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_118
-.LBB0_117:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_117
-.LBB0_118:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_119:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_119
-	jmp	.LBB0_1013
-.LBB0_367:
-	cmp	edi, 6
-	jg	.LBB0_380
-# %bb.368:
-	cmp	edi, 3
-	jle	.LBB0_369
-# %bb.374:
-	cmp	edi, 4
-	je	.LBB0_421
-# %bb.375:
-	cmp	edi, 5
-	je	.LBB0_437
-# %bb.376:
-	cmp	edi, 6
-	jne	.LBB0_1013
-# %bb.377:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.378:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_453
-# %bb.379:
-	xor	esi, esi
-.LBB0_462:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_464
-.LBB0_463:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_463
-.LBB0_464:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_465:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_465
-	jmp	.LBB0_1013
-.LBB0_194:
-	cmp	edi, 6
-	jg	.LBB0_207
-# %bb.195:
-	cmp	edi, 3
-	jle	.LBB0_196
-# %bb.201:
-	cmp	edi, 4
-	je	.LBB0_248
-# %bb.202:
-	cmp	edi, 5
-	je	.LBB0_264
-# %bb.203:
-	cmp	edi, 6
-	jne	.LBB0_1013
-# %bb.204:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.205:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_280
-# %bb.206:
-	xor	esi, esi
-.LBB0_289:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_291
-.LBB0_290:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_290
-.LBB0_291:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_292:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_292
-	jmp	.LBB0_1013
-.LBB0_540:
-	cmp	edi, 6
-	jg	.LBB0_553
-# %bb.541:
-	cmp	edi, 3
-	jle	.LBB0_542
-# %bb.547:
-	cmp	edi, 4
-	je	.LBB0_594
-# %bb.548:
-	cmp	edi, 5
-	je	.LBB0_610
-# %bb.549:
-	cmp	edi, 6
-	jne	.LBB0_1013
-# %bb.550:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.551:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_626
-# %bb.552:
-	xor	esi, esi
-.LBB0_635:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_637
-.LBB0_636:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_636
-.LBB0_637:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_638:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_638
-	jmp	.LBB0_1013
-.LBB0_719:
-	cmp	edi, 8
-	jle	.LBB0_720
-# %bb.725:
-	cmp	edi, 9
-	je	.LBB0_826
-# %bb.726:
-	cmp	edi, 11
-	je	.LBB0_834
-# %bb.727:
-	cmp	edi, 12
-	jne	.LBB0_1013
-# %bb.728:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.729:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_850
-# %bb.730:
-	xor	esi, esi
-.LBB0_859:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_861
-.LBB0_860:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_860
-.LBB0_861:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_862:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_862
-	jmp	.LBB0_1013
-.LBB0_869:
-	cmp	edi, 8
-	jle	.LBB0_870
-# %bb.875:
-	cmp	edi, 9
-	je	.LBB0_976
-# %bb.876:
-	cmp	edi, 11
-	je	.LBB0_984
-# %bb.877:
-	cmp	edi, 12
-	jne	.LBB0_1013
-# %bb.878:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.879:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_1000
-# %bb.880:
-	xor	esi, esi
-.LBB0_1009:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_1011
-.LBB0_1010:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1010
-.LBB0_1011:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_1012:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	mulsd	xmm0, qword ptr [rdx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_1012
-	jmp	.LBB0_1013
-.LBB0_34:
-	cmp	edi, 8
-	jle	.LBB0_35
-# %bb.40:
-	cmp	edi, 9
-	je	.LBB0_149
-# %bb.41:
-	cmp	edi, 11
-	je	.LBB0_165
-# %bb.42:
-	cmp	edi, 12
-	jne	.LBB0_1013
-# %bb.43:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.44:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_181
-# %bb.45:
-	xor	esi, esi
-.LBB0_190:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_192
-.LBB0_191:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_191
-.LBB0_192:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_193:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_193
-	jmp	.LBB0_1013
-.LBB0_380:
-	cmp	edi, 8
-	jle	.LBB0_381
-# %bb.386:
-	cmp	edi, 9
-	je	.LBB0_495
-# %bb.387:
-	cmp	edi, 11
-	je	.LBB0_511
-# %bb.388:
-	cmp	edi, 12
-	jne	.LBB0_1013
-# %bb.389:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.390:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_527
-# %bb.391:
-	xor	esi, esi
-.LBB0_536:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_538
-.LBB0_537:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_537
-.LBB0_538:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_539:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_539
-	jmp	.LBB0_1013
-.LBB0_207:
-	cmp	edi, 8
-	jle	.LBB0_208
-# %bb.213:
-	cmp	edi, 9
-	je	.LBB0_322
-# %bb.214:
-	cmp	edi, 11
-	je	.LBB0_338
-# %bb.215:
-	cmp	edi, 12
-	jne	.LBB0_1013
-# %bb.216:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.217:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_354
-# %bb.218:
-	xor	esi, esi
-.LBB0_363:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_365
-.LBB0_364:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_364
-.LBB0_365:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_366:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_366
-	jmp	.LBB0_1013
-.LBB0_553:
-	cmp	edi, 8
-	jle	.LBB0_554
-# %bb.559:
-	cmp	edi, 9
-	je	.LBB0_668
-# %bb.560:
-	cmp	edi, 11
-	je	.LBB0_684
-# %bb.561:
-	cmp	edi, 12
-	jne	.LBB0_1013
-# %bb.562:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.563:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_700
-# %bb.564:
-	xor	esi, esi
-.LBB0_709:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_711
-.LBB0_710:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_710
-.LBB0_711:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_712:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_712
-	jmp	.LBB0_1013
-.LBB0_6:
-	cmp	edi, 2
-	je	.LBB0_731
-# %bb.7:
-	cmp	edi, 3
-	jne	.LBB0_1013
-# %bb.8:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.9:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_747
-# %bb.10:
-	xor	edi, edi
-.LBB0_756:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_758
-.LBB0_757:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_757
-.LBB0_758:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_759:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_759
-	jmp	.LBB0_1013
-.LBB0_16:
-	cmp	edi, 2
-	je	.LBB0_881
-# %bb.17:
-	cmp	edi, 3
-	jne	.LBB0_1013
-# %bb.18:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.19:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_897
-# %bb.20:
-	xor	edi, edi
-.LBB0_906:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_908
-.LBB0_907:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_907
-.LBB0_908:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_909:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_909
-	jmp	.LBB0_1013
-.LBB0_23:
-	cmp	edi, 2
-	je	.LBB0_46
-# %bb.24:
-	cmp	edi, 3
-	jne	.LBB0_1013
-# %bb.25:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.26:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_62
-# %bb.27:
-	xor	esi, esi
-.LBB0_71:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_73
-.LBB0_72:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_72
-.LBB0_73:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_74:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_74
-	jmp	.LBB0_1013
-.LBB0_369:
-	cmp	edi, 2
-	je	.LBB0_392
-# %bb.370:
-	cmp	edi, 3
-	jne	.LBB0_1013
-# %bb.371:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.372:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_408
-# %bb.373:
-	xor	esi, esi
-.LBB0_417:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_419
-.LBB0_418:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_418
-.LBB0_419:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_420:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_420
-	jmp	.LBB0_1013
-.LBB0_196:
-	cmp	edi, 2
-	je	.LBB0_219
-# %bb.197:
-	cmp	edi, 3
-	jne	.LBB0_1013
-# %bb.198:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.199:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_235
-# %bb.200:
-	xor	esi, esi
-.LBB0_244:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_246
-.LBB0_245:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_245
-.LBB0_246:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_247:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_247
-	jmp	.LBB0_1013
-.LBB0_542:
-	cmp	edi, 2
-	je	.LBB0_565
-# %bb.543:
-	cmp	edi, 3
-	jne	.LBB0_1013
-# %bb.544:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.545:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_581
-# %bb.546:
-	xor	esi, esi
-.LBB0_590:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_592
-.LBB0_591:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_591
-.LBB0_592:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_593:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_593
-	jmp	.LBB0_1013
-.LBB0_720:
-	cmp	edi, 7
-	je	.LBB0_805
-# %bb.721:
-	cmp	edi, 8
-	jne	.LBB0_1013
-# %bb.722:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.723:
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB0_821
-# %bb.724:
-	xor	edi, edi
-	jmp	.LBB0_823
-.LBB0_870:
-	cmp	edi, 7
-	je	.LBB0_955
-# %bb.871:
-	cmp	edi, 8
-	jne	.LBB0_1013
-# %bb.872:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.873:
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB0_971
-# %bb.874:
-	xor	edi, edi
-	jmp	.LBB0_973
-.LBB0_35:
-	cmp	edi, 7
-	je	.LBB0_120
-# %bb.36:
-	cmp	edi, 8
-	jne	.LBB0_1013
-# %bb.37:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.38:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_136
-# %bb.39:
-	xor	esi, esi
-.LBB0_145:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_147
-.LBB0_146:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_146
-.LBB0_147:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_148:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_148
-	jmp	.LBB0_1013
-.LBB0_381:
-	cmp	edi, 7
-	je	.LBB0_466
-# %bb.382:
-	cmp	edi, 8
-	jne	.LBB0_1013
-# %bb.383:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.384:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_482
-# %bb.385:
-	xor	esi, esi
-.LBB0_491:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_493
-.LBB0_492:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_492
-.LBB0_493:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_494:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_494
-	jmp	.LBB0_1013
-.LBB0_208:
-	cmp	edi, 7
-	je	.LBB0_293
-# %bb.209:
-	cmp	edi, 8
-	jne	.LBB0_1013
-# %bb.210:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.211:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_309
-# %bb.212:
-	xor	esi, esi
-.LBB0_318:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_320
-.LBB0_319:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_319
-.LBB0_320:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_321:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_321
-	jmp	.LBB0_1013
-.LBB0_554:
-	cmp	edi, 7
-	je	.LBB0_639
-# %bb.555:
-	cmp	edi, 8
-	jne	.LBB0_1013
-# %bb.556:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.557:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_655
-# %bb.558:
-	xor	esi, esi
-.LBB0_664:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_666
-.LBB0_665:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_665
-.LBB0_666:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_667:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_667
-	jmp	.LBB0_1013
-.LBB0_760:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.761:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_763
-# %bb.762:
-	xor	esi, esi
-.LBB0_772:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_774
-.LBB0_773:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_773
-.LBB0_774:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_775:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_775
-	jmp	.LBB0_1013
-.LBB0_776:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.777:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_779
-# %bb.778:
-	xor	esi, esi
-.LBB0_788:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_790
-.LBB0_789:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_789
-.LBB0_790:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_791:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_791
-	jmp	.LBB0_1013
-.LBB0_910:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.911:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_913
-# %bb.912:
-	xor	esi, esi
-.LBB0_922:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_924
-.LBB0_923:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_923
-.LBB0_924:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_925:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_925
-	jmp	.LBB0_1013
-.LBB0_926:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.927:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_929
-# %bb.928:
-	xor	esi, esi
-.LBB0_938:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_940
-.LBB0_939:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_939
-.LBB0_940:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_941:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	imul	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	imul	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	imul	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	imul	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_941
-	jmp	.LBB0_1013
-.LBB0_75:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.76:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_78
-# %bb.77:
-	xor	esi, esi
-.LBB0_87:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_89
-.LBB0_88:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_88
-.LBB0_89:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_90:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_90
-	jmp	.LBB0_1013
-.LBB0_91:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.92:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_94
-# %bb.93:
-	xor	esi, esi
-.LBB0_103:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_105
-.LBB0_104:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_104
-.LBB0_105:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_106:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_106
-	jmp	.LBB0_1013
-.LBB0_421:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.422:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_424
-# %bb.423:
-	xor	esi, esi
-.LBB0_433:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_435
-.LBB0_434:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_434
-.LBB0_435:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_436:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_436
-	jmp	.LBB0_1013
-.LBB0_437:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.438:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_440
-# %bb.439:
-	xor	esi, esi
-.LBB0_449:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_451
-.LBB0_450:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_450
-.LBB0_451:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_452:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_452
-	jmp	.LBB0_1013
-.LBB0_248:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.249:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_251
-# %bb.250:
-	xor	esi, esi
-.LBB0_260:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_262
-.LBB0_261:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_261
-.LBB0_262:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_263:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_263
-	jmp	.LBB0_1013
-.LBB0_264:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.265:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_267
-# %bb.266:
-	xor	esi, esi
-.LBB0_276:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_278
-.LBB0_277:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_277
-.LBB0_278:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_279:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_279
-	jmp	.LBB0_1013
-.LBB0_594:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.595:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_597
-# %bb.596:
-	xor	esi, esi
-.LBB0_606:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_608
-.LBB0_607:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_607
-.LBB0_608:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_609:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_609
-	jmp	.LBB0_1013
-.LBB0_610:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.611:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_613
-# %bb.612:
-	xor	esi, esi
-.LBB0_622:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_624
-.LBB0_623:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_623
-.LBB0_624:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_625:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_625
-	jmp	.LBB0_1013
-.LBB0_826:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.827:
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB0_829
-# %bb.828:
-	xor	edi, edi
-	jmp	.LBB0_831
-.LBB0_834:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.835:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_837
-# %bb.836:
-	xor	esi, esi
-.LBB0_846:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_848
-.LBB0_847:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_847
-.LBB0_848:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_849:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_849
-	jmp	.LBB0_1013
-.LBB0_976:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.977:
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB0_979
-# %bb.978:
-	xor	edi, edi
-	jmp	.LBB0_981
-.LBB0_984:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.985:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_987
-# %bb.986:
-	xor	esi, esi
-.LBB0_996:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_998
-.LBB0_997:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_997
-.LBB0_998:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_999:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	mulss	xmm0, dword ptr [rdx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_999
-	jmp	.LBB0_1013
-.LBB0_149:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.150:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_152
-# %bb.151:
-	xor	esi, esi
-.LBB0_161:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_163
-.LBB0_162:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_162
-.LBB0_163:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_164:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_164
-	jmp	.LBB0_1013
-.LBB0_165:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.166:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_168
-# %bb.167:
-	xor	esi, esi
-.LBB0_177:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_179
-.LBB0_178:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_178
-.LBB0_179:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_180:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_180
-	jmp	.LBB0_1013
-.LBB0_495:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.496:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_498
-# %bb.497:
-	xor	esi, esi
-.LBB0_507:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_509
-.LBB0_508:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_508
-.LBB0_509:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_510:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_510
-	jmp	.LBB0_1013
-.LBB0_511:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.512:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_514
-# %bb.513:
-	xor	esi, esi
-.LBB0_523:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_525
-.LBB0_524:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_524
-.LBB0_525:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_526:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_526
-	jmp	.LBB0_1013
-.LBB0_322:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.323:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_325
-# %bb.324:
-	xor	esi, esi
-.LBB0_334:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_336
-.LBB0_335:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_335
-.LBB0_336:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_337:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_337
-	jmp	.LBB0_1013
-.LBB0_338:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.339:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_341
-# %bb.340:
-	xor	esi, esi
-.LBB0_350:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_352
-.LBB0_351:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_351
-.LBB0_352:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_353:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_353
-	jmp	.LBB0_1013
-.LBB0_668:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.669:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_671
-# %bb.670:
-	xor	esi, esi
-.LBB0_680:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_682
-.LBB0_681:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_681
-.LBB0_682:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_683:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_683
-	jmp	.LBB0_1013
-.LBB0_684:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.685:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_687
-# %bb.686:
-	xor	esi, esi
-.LBB0_696:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_698
-.LBB0_697:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_697
-.LBB0_698:
-	cmp	rax, 3
-	jb	.LBB0_1013
-.LBB0_699:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_699
-	jmp	.LBB0_1013
-.LBB0_731:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.732:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_734
-# %bb.733:
-	xor	edi, edi
-.LBB0_743:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_745
-.LBB0_744:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_744
-.LBB0_745:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_746:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_746
-	jmp	.LBB0_1013
-.LBB0_881:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.882:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_884
-# %bb.883:
-	xor	edi, edi
-.LBB0_893:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB0_895
-.LBB0_894:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB0_894
-.LBB0_895:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_896:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	byte ptr [rdx + rdi]
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	byte ptr [rdx + rdi + 1]
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	byte ptr [rdx + rdi + 2]
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	byte ptr [rdx + rdi + 3]
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB0_896
-	jmp	.LBB0_1013
-.LBB0_46:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.47:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_49
-# %bb.48:
-	xor	esi, esi
-.LBB0_58:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_60
-.LBB0_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_59
-.LBB0_60:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_61:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_61
-	jmp	.LBB0_1013
-.LBB0_392:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.393:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_395
-# %bb.394:
-	xor	esi, esi
-.LBB0_404:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_406
-.LBB0_405:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_405
-.LBB0_406:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_407:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_407
-	jmp	.LBB0_1013
-.LBB0_219:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.220:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_222
-# %bb.221:
-	xor	esi, esi
-.LBB0_231:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_233
-.LBB0_232:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_232
-.LBB0_233:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_234:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_234
-	jmp	.LBB0_1013
-.LBB0_565:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.566:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_568
-# %bb.567:
-	xor	esi, esi
-.LBB0_577:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_579
-.LBB0_578:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_578
-.LBB0_579:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_580:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_580
-	jmp	.LBB0_1013
-.LBB0_805:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.806:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_808
-# %bb.807:
-	xor	esi, esi
-.LBB0_817:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_819
-.LBB0_818:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_818
-.LBB0_819:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_820:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_820
-	jmp	.LBB0_1013
-.LBB0_955:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.956:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_958
-# %bb.957:
-	xor	esi, esi
-.LBB0_967:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_969
-.LBB0_968:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_968
-.LBB0_969:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_970:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	imul	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	imul	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	imul	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	imul	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_970
-	jmp	.LBB0_1013
-.LBB0_120:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.121:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_123
-# %bb.122:
-	xor	esi, esi
-.LBB0_132:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_134
-.LBB0_133:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_133
-.LBB0_134:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_135:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_135
-	jmp	.LBB0_1013
-.LBB0_466:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.467:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_469
-# %bb.468:
-	xor	esi, esi
-.LBB0_478:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_480
-.LBB0_479:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_479
-.LBB0_480:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_481:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_481
-	jmp	.LBB0_1013
-.LBB0_293:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.294:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_296
-# %bb.295:
-	xor	esi, esi
-.LBB0_305:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_307
-.LBB0_306:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_306
-.LBB0_307:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_308:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_308
-	jmp	.LBB0_1013
-.LBB0_639:
-	test	r9d, r9d
-	jle	.LBB0_1013
-# %bb.640:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_642
-# %bb.641:
-	xor	esi, esi
-.LBB0_651:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB0_653
-.LBB0_652:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_652
-.LBB0_653:
-	cmp	r9, 3
-	jb	.LBB0_1013
-.LBB0_654:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_654
-	jmp	.LBB0_1013
-.LBB0_792:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_801
-# %bb.793:
-	and	al, dil
-	jne	.LBB0_801
-# %bb.794:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_795
-# %bb.796:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_797:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_797
-	jmp	.LBB0_798
-.LBB0_942:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_951
-# %bb.943:
-	and	al, dil
-	jne	.LBB0_951
-# %bb.944:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_945
-# %bb.946:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_947:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_947
-	jmp	.LBB0_948
-.LBB0_107:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_116
-# %bb.108:
-	and	al, dil
-	jne	.LBB0_116
-# %bb.109:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_110
-# %bb.111:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_112:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_112
-	jmp	.LBB0_113
-.LBB0_453:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_462
-# %bb.454:
-	and	al, dil
-	jne	.LBB0_462
-# %bb.455:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_456
-# %bb.457:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_458:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_458
-	jmp	.LBB0_459
-.LBB0_280:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_289
-# %bb.281:
-	and	al, dil
-	jne	.LBB0_289
-# %bb.282:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_283
-# %bb.284:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_285:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_285
-	jmp	.LBB0_286
-.LBB0_626:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_635
-# %bb.627:
-	and	al, dil
-	jne	.LBB0_635
-# %bb.628:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_629
-# %bb.630:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_631:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_631
-	jmp	.LBB0_632
-.LBB0_850:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_859
-# %bb.851:
-	and	al, dil
-	jne	.LBB0_859
-# %bb.852:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_853
-# %bb.854:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_855:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	mulpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	mulpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	mulpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_855
-	jmp	.LBB0_856
-.LBB0_1000:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_1009
-# %bb.1001:
-	and	al, dil
-	jne	.LBB0_1009
-# %bb.1002:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_1003
-# %bb.1004:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_1005:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	mulpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	mulpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	mulpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_1005
-	jmp	.LBB0_1006
-.LBB0_181:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_190
-# %bb.182:
-	and	al, dil
-	jne	.LBB0_190
-# %bb.183:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_184
-# %bb.185:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_186:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_186
-	jmp	.LBB0_187
-.LBB0_527:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_536
-# %bb.528:
-	and	al, dil
-	jne	.LBB0_536
-# %bb.529:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_530
-# %bb.531:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_532:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_532
-	jmp	.LBB0_533
-.LBB0_354:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_363
-# %bb.355:
-	and	al, dil
-	jne	.LBB0_363
-# %bb.356:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_357
-# %bb.358:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_359:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_359
-	jmp	.LBB0_360
-.LBB0_700:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_709
-# %bb.701:
-	and	al, dil
-	jne	.LBB0_709
-# %bb.702:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_703
-# %bb.704:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_705:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_705
-	jmp	.LBB0_706
-.LBB0_747:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_756
-# %bb.748:
-	and	al, sil
-	jne	.LBB0_756
-# %bb.749:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_750
-# %bb.751:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_0] # xmm0 = [255,255,255,255,255,255,255,255]
-.LBB0_752:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax], xmm6
-	movdqu	xmmword ptr [r8 + rax + 16], xmm3
-	movdqu	xmm1, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax + 32], xmm6
-	movdqu	xmmword ptr [r8 + rax + 48], xmm3
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB0_752
-	jmp	.LBB0_753
-.LBB0_897:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_906
-# %bb.898:
-	and	al, sil
-	jne	.LBB0_906
-# %bb.899:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_900
-# %bb.901:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_0] # xmm0 = [255,255,255,255,255,255,255,255]
-.LBB0_902:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax], xmm6
-	movdqu	xmmword ptr [r8 + rax + 16], xmm3
-	movdqu	xmm1, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax + 32], xmm6
-	movdqu	xmmword ptr [r8 + rax + 48], xmm3
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB0_902
-	jmp	.LBB0_903
-.LBB0_62:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_71
-# %bb.63:
-	and	al, dil
-	jne	.LBB0_71
-# %bb.64:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_65
-# %bb.66:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_67:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_67
-	jmp	.LBB0_68
-.LBB0_408:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_417
-# %bb.409:
-	and	al, dil
-	jne	.LBB0_417
-# %bb.410:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_411
-# %bb.412:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_413:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_413
-	jmp	.LBB0_414
-.LBB0_235:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_244
-# %bb.236:
-	and	al, dil
-	jne	.LBB0_244
-# %bb.237:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_238
-# %bb.239:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_240:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_240
-	jmp	.LBB0_241
-.LBB0_581:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_590
-# %bb.582:
-	and	al, dil
-	jne	.LBB0_590
-# %bb.583:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_584
-# %bb.585:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_586:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_586
-	jmp	.LBB0_587
-.LBB0_821:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_822:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [r8 + 8*rdi], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 8]
-	imul	rax, qword ptr [rdx + 8*rdi + 8]
-	mov	qword ptr [r8 + 8*rdi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 16]
-	imul	rax, qword ptr [rdx + 8*rdi + 16]
-	mov	qword ptr [r8 + 8*rdi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 24]
-	imul	rax, qword ptr [rdx + 8*rdi + 24]
-	mov	qword ptr [r8 + 8*rdi + 24], rax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_822
-.LBB0_823:
-	test	r9, r9
-	je	.LBB0_1013
-# %bb.824:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB0_825:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [rsi + 8*rdi], rax
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB0_825
-	jmp	.LBB0_1013
-.LBB0_971:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_972:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [r8 + 8*rdi], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 8]
-	imul	rax, qword ptr [rdx + 8*rdi + 8]
-	mov	qword ptr [r8 + 8*rdi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 16]
-	imul	rax, qword ptr [rdx + 8*rdi + 16]
-	mov	qword ptr [r8 + 8*rdi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 24]
-	imul	rax, qword ptr [rdx + 8*rdi + 24]
-	mov	qword ptr [r8 + 8*rdi + 24], rax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_972
-.LBB0_973:
-	test	r9, r9
-	je	.LBB0_1013
-# %bb.974:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB0_975:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [rsi + 8*rdi], rax
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB0_975
-	jmp	.LBB0_1013
-.LBB0_136:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_145
-# %bb.137:
-	and	al, dil
-	jne	.LBB0_145
-# %bb.138:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_139
-# %bb.140:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_141:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_141
-	jmp	.LBB0_142
-.LBB0_482:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_491
-# %bb.483:
-	and	al, dil
-	jne	.LBB0_491
-# %bb.484:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_485
-# %bb.486:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_487:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_487
-	jmp	.LBB0_488
-.LBB0_309:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_318
-# %bb.310:
-	and	al, dil
-	jne	.LBB0_318
-# %bb.311:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_312
-# %bb.313:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_314:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_314
-	jmp	.LBB0_315
-.LBB0_655:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_664
-# %bb.656:
-	and	al, dil
-	jne	.LBB0_664
-# %bb.657:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_658
-# %bb.659:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_660:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_660
-	jmp	.LBB0_661
-.LBB0_763:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_772
-# %bb.764:
-	and	al, dil
-	jne	.LBB0_772
-# %bb.765:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_766
-# %bb.767:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_768:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_768
-	jmp	.LBB0_769
-.LBB0_779:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_788
-# %bb.780:
-	and	al, dil
-	jne	.LBB0_788
-# %bb.781:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_782
-# %bb.783:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_784:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_784
-	jmp	.LBB0_785
-.LBB0_913:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_922
-# %bb.914:
-	and	al, dil
-	jne	.LBB0_922
-# %bb.915:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_916
-# %bb.917:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_918:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_918
-	jmp	.LBB0_919
-.LBB0_929:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_938
-# %bb.930:
-	and	al, dil
-	jne	.LBB0_938
-# %bb.931:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_932
-# %bb.933:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_934:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_934
-	jmp	.LBB0_935
-.LBB0_78:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_87
-# %bb.79:
-	and	al, dil
-	jne	.LBB0_87
-# %bb.80:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_81
-# %bb.82:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_83:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_83
-	jmp	.LBB0_84
-.LBB0_94:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_103
-# %bb.95:
-	and	al, dil
-	jne	.LBB0_103
-# %bb.96:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_97
-# %bb.98:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_99:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_99
-	jmp	.LBB0_100
-.LBB0_424:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_433
-# %bb.425:
-	and	al, dil
-	jne	.LBB0_433
-# %bb.426:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_427
-# %bb.428:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_429:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_429
-	jmp	.LBB0_430
-.LBB0_440:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_449
-# %bb.441:
-	and	al, dil
-	jne	.LBB0_449
-# %bb.442:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_443
-# %bb.444:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_445:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_445
-	jmp	.LBB0_446
-.LBB0_251:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_260
-# %bb.252:
-	and	al, dil
-	jne	.LBB0_260
-# %bb.253:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_254
-# %bb.255:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_256:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_256
-	jmp	.LBB0_257
-.LBB0_267:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_276
-# %bb.268:
-	and	al, dil
-	jne	.LBB0_276
-# %bb.269:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_270
-# %bb.271:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_272:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_272
-	jmp	.LBB0_273
-.LBB0_597:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_606
-# %bb.598:
-	and	al, dil
-	jne	.LBB0_606
-# %bb.599:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_600
-# %bb.601:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_602:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_602
-	jmp	.LBB0_603
-.LBB0_613:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_622
-# %bb.614:
-	and	al, dil
-	jne	.LBB0_622
-# %bb.615:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_616
-# %bb.617:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_618:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_618
-	jmp	.LBB0_619
-.LBB0_829:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_830:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [r8 + 8*rdi], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 8]
-	imul	rax, qword ptr [rdx + 8*rdi + 8]
-	mov	qword ptr [r8 + 8*rdi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 16]
-	imul	rax, qword ptr [rdx + 8*rdi + 16]
-	mov	qword ptr [r8 + 8*rdi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 24]
-	imul	rax, qword ptr [rdx + 8*rdi + 24]
-	mov	qword ptr [r8 + 8*rdi + 24], rax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_830
-.LBB0_831:
-	test	r9, r9
-	je	.LBB0_1013
-# %bb.832:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB0_833:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [rsi + 8*rdi], rax
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB0_833
-	jmp	.LBB0_1013
-.LBB0_837:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_846
-# %bb.838:
-	and	al, dil
-	jne	.LBB0_846
-# %bb.839:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_840
-# %bb.841:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_842:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	mulps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	mulps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	mulps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_842
-	jmp	.LBB0_843
-.LBB0_979:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_980:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [r8 + 8*rdi], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 8]
-	imul	rax, qword ptr [rdx + 8*rdi + 8]
-	mov	qword ptr [r8 + 8*rdi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 16]
-	imul	rax, qword ptr [rdx + 8*rdi + 16]
-	mov	qword ptr [r8 + 8*rdi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rdi + 24]
-	imul	rax, qword ptr [rdx + 8*rdi + 24]
-	mov	qword ptr [r8 + 8*rdi + 24], rax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_980
-.LBB0_981:
-	test	r9, r9
-	je	.LBB0_1013
-# %bb.982:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB0_983:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rdi]
-	imul	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [rsi + 8*rdi], rax
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB0_983
-.LBB0_1013:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_987:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_996
-# %bb.988:
-	and	al, dil
-	jne	.LBB0_996
-# %bb.989:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_990
-# %bb.991:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_992:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	mulps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	mulps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	mulps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_992
-	jmp	.LBB0_993
-.LBB0_152:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_161
-# %bb.153:
-	and	al, dil
-	jne	.LBB0_161
-# %bb.154:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_155
-# %bb.156:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_157:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_157
-	jmp	.LBB0_158
-.LBB0_168:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_177
-# %bb.169:
-	and	al, dil
-	jne	.LBB0_177
-# %bb.170:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_171
-# %bb.172:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_173:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_173
-	jmp	.LBB0_174
-.LBB0_498:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_507
-# %bb.499:
-	and	al, dil
-	jne	.LBB0_507
-# %bb.500:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_501
-# %bb.502:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_503:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_503
-	jmp	.LBB0_504
-.LBB0_514:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_523
-# %bb.515:
-	and	al, dil
-	jne	.LBB0_523
-# %bb.516:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_517
-# %bb.518:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_519:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_519
-	jmp	.LBB0_520
-.LBB0_325:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_334
-# %bb.326:
-	and	al, dil
-	jne	.LBB0_334
-# %bb.327:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_328
-# %bb.329:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_330:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_330
-	jmp	.LBB0_331
-.LBB0_341:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_350
-# %bb.342:
-	and	al, dil
-	jne	.LBB0_350
-# %bb.343:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_344
-# %bb.345:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_346:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_346
-	jmp	.LBB0_347
-.LBB0_671:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_680
-# %bb.672:
-	and	al, dil
-	jne	.LBB0_680
-# %bb.673:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_674
-# %bb.675:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_676:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_676
-	jmp	.LBB0_677
-.LBB0_687:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_696
-# %bb.688:
-	and	al, dil
-	jne	.LBB0_696
-# %bb.689:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_690
-# %bb.691:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_692:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_692
-	jmp	.LBB0_693
-.LBB0_734:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_743
-# %bb.735:
-	and	al, sil
-	jne	.LBB0_743
-# %bb.736:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_737
-# %bb.738:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_0] # xmm0 = [255,255,255,255,255,255,255,255]
-.LBB0_739:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax], xmm6
-	movdqu	xmmword ptr [r8 + rax + 16], xmm3
-	movdqu	xmm1, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax + 32], xmm6
-	movdqu	xmmword ptr [r8 + rax + 48], xmm3
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB0_739
-	jmp	.LBB0_740
-.LBB0_884:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	sil
-	xor	edi, edi
-	test	r9b, r11b
-	jne	.LBB0_893
-# %bb.885:
-	and	al, sil
-	jne	.LBB0_893
-# %bb.886:
-	mov	edi, r10d
-	and	edi, -32
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_887
-# %bb.888:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_0] # xmm0 = [255,255,255,255,255,255,255,255]
-.LBB0_889:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax], xmm6
-	movdqu	xmmword ptr [r8 + rax + 16], xmm3
-	movdqu	xmm1, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm4, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	pmullw	xmm6, xmm5
-	pand	xmm6, xmm0
-	packuswb	xmm6, xmm3
-	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm4, xmm2
-	pand	xmm4, xmm0
-	pmullw	xmm3, xmm1
-	pand	xmm3, xmm0
-	packuswb	xmm3, xmm4
-	movdqu	xmmword ptr [r8 + rax + 32], xmm6
-	movdqu	xmmword ptr [r8 + rax + 48], xmm3
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB0_889
-	jmp	.LBB0_890
-.LBB0_49:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_58
-# %bb.50:
-	and	al, dil
-	jne	.LBB0_58
-# %bb.51:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_52
-# %bb.53:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_54:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_54
-	jmp	.LBB0_55
-.LBB0_395:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_404
-# %bb.396:
-	and	al, dil
-	jne	.LBB0_404
-# %bb.397:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_398
-# %bb.399:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_400:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_400
-	jmp	.LBB0_401
-.LBB0_222:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_231
-# %bb.223:
-	and	al, dil
-	jne	.LBB0_231
-# %bb.224:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_225
-# %bb.226:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_227:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_227
-	jmp	.LBB0_228
-.LBB0_568:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_577
-# %bb.569:
-	and	al, dil
-	jne	.LBB0_577
-# %bb.570:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_571
-# %bb.572:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_573:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_573
-	jmp	.LBB0_574
-.LBB0_808:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_817
-# %bb.809:
-	and	al, dil
-	jne	.LBB0_817
-# %bb.810:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_811
-# %bb.812:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_813:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_813
-	jmp	.LBB0_814
-.LBB0_958:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_967
-# %bb.959:
-	and	al, dil
-	jne	.LBB0_967
-# %bb.960:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_961
-# %bb.962:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_963:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_963
-	jmp	.LBB0_964
-.LBB0_123:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_132
-# %bb.124:
-	and	al, dil
-	jne	.LBB0_132
-# %bb.125:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_126
-# %bb.127:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_128:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_128
-	jmp	.LBB0_129
-.LBB0_469:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_478
-# %bb.470:
-	and	al, dil
-	jne	.LBB0_478
-# %bb.471:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_472
-# %bb.473:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_474:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_474
-	jmp	.LBB0_475
-.LBB0_296:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_305
-# %bb.297:
-	and	al, dil
-	jne	.LBB0_305
-# %bb.298:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_299
-# %bb.300:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_301:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_301
-	jmp	.LBB0_302
-.LBB0_642:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	r11b
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, r11b
-	jne	.LBB0_651
-# %bb.643:
-	and	al, dil
-	jne	.LBB0_651
-# %bb.644:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_645
-# %bb.646:
-	mov	rax, r9
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_647:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_647
-	jmp	.LBB0_648
-.LBB0_795:
-	xor	edi, edi
-.LBB0_798:
-	test	r9b, 1
-	je	.LBB0_800
-# %bb.799:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_800:
-	cmp	rsi, r10
-	jne	.LBB0_801
-	jmp	.LBB0_1013
-.LBB0_945:
-	xor	edi, edi
-.LBB0_948:
-	test	r9b, 1
-	je	.LBB0_950
-# %bb.949:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_950:
-	cmp	rsi, r10
-	jne	.LBB0_951
-	jmp	.LBB0_1013
-.LBB0_110:
-	xor	edi, edi
-.LBB0_113:
-	test	r9b, 1
-	je	.LBB0_115
-# %bb.114:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_115:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_116
-.LBB0_456:
-	xor	edi, edi
-.LBB0_459:
-	test	r9b, 1
-	je	.LBB0_461
-# %bb.460:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_461:
-	cmp	rsi, r10
-	jne	.LBB0_462
-	jmp	.LBB0_1013
-.LBB0_283:
-	xor	edi, edi
-.LBB0_286:
-	test	r9b, 1
-	je	.LBB0_288
-# %bb.287:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_288:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_289
-.LBB0_629:
-	xor	edi, edi
-.LBB0_632:
-	test	r9b, 1
-	je	.LBB0_634
-# %bb.633:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_634:
-	cmp	rsi, r10
-	jne	.LBB0_635
-	jmp	.LBB0_1013
-.LBB0_853:
-	xor	edi, edi
-.LBB0_856:
-	test	r9b, 1
-	je	.LBB0_858
-# %bb.857:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	mulpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_858:
-	cmp	rsi, r10
-	jne	.LBB0_859
-	jmp	.LBB0_1013
-.LBB0_1003:
-	xor	edi, edi
-.LBB0_1006:
-	test	r9b, 1
-	je	.LBB0_1008
-# %bb.1007:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	mulpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_1008:
-	cmp	rsi, r10
-	jne	.LBB0_1009
-	jmp	.LBB0_1013
-.LBB0_184:
-	xor	edi, edi
-.LBB0_187:
-	test	r9b, 1
-	je	.LBB0_189
-# %bb.188:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_189:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_190
-.LBB0_530:
-	xor	edi, edi
-.LBB0_533:
-	test	r9b, 1
-	je	.LBB0_535
-# %bb.534:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_535:
-	cmp	rsi, r10
-	jne	.LBB0_536
-	jmp	.LBB0_1013
-.LBB0_357:
-	xor	edi, edi
-.LBB0_360:
-	test	r9b, 1
-	je	.LBB0_362
-# %bb.361:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_362:
-	cmp	rsi, r10
-	jne	.LBB0_363
-	jmp	.LBB0_1013
-.LBB0_703:
-	xor	edi, edi
-.LBB0_706:
-	test	r9b, 1
-	je	.LBB0_708
-# %bb.707:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_708:
-	cmp	rsi, r10
-	jne	.LBB0_709
-	jmp	.LBB0_1013
-.LBB0_750:
-	xor	eax, eax
-.LBB0_753:
-	test	r9b, 1
-	je	.LBB0_755
-# %bb.754:
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm4, xmm1                      # xmm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm3                      # xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [255,255,255,255,255,255,255,255]
-	pand	xmm3, xmm1
-	pmullw	xmm5, xmm4
-	pand	xmm5, xmm1
-	packuswb	xmm5, xmm3
-	pmovzxbw	xmm3, xmm2                      # xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm4, xmm0                      # xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm0, xmm2
-	pand	xmm0, xmm1
-	pmullw	xmm4, xmm3
-	pand	xmm4, xmm1
-	packuswb	xmm4, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm4
-.LBB0_755:
-	cmp	rdi, r10
-	jne	.LBB0_756
-	jmp	.LBB0_1013
-.LBB0_900:
-	xor	eax, eax
-.LBB0_903:
-	test	r9b, 1
-	je	.LBB0_905
-# %bb.904:
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm4, xmm1                      # xmm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm3                      # xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [255,255,255,255,255,255,255,255]
-	pand	xmm3, xmm1
-	pmullw	xmm5, xmm4
-	pand	xmm5, xmm1
-	packuswb	xmm5, xmm3
-	pmovzxbw	xmm3, xmm2                      # xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm4, xmm0                      # xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm0, xmm2
-	pand	xmm0, xmm1
-	pmullw	xmm4, xmm3
-	pand	xmm4, xmm1
-	packuswb	xmm4, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm4
-.LBB0_905:
-	cmp	rdi, r10
-	jne	.LBB0_906
-	jmp	.LBB0_1013
-.LBB0_65:
-	xor	edi, edi
-.LBB0_68:
-	test	r9b, 1
-	je	.LBB0_70
-# %bb.69:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB0_70:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_71
-.LBB0_411:
-	xor	edi, edi
-.LBB0_414:
-	test	r9b, 1
-	je	.LBB0_416
-# %bb.415:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-.LBB0_416:
-	cmp	rsi, r10
-	jne	.LBB0_417
-	jmp	.LBB0_1013
-.LBB0_238:
-	xor	edi, edi
-.LBB0_241:
-	test	r9b, 1
-	je	.LBB0_243
-# %bb.242:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB0_243:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_244
-.LBB0_584:
-	xor	edi, edi
-.LBB0_587:
-	test	r9b, 1
-	je	.LBB0_589
-# %bb.588:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-.LBB0_589:
-	cmp	rsi, r10
-	jne	.LBB0_590
-	jmp	.LBB0_1013
-.LBB0_139:
-	xor	edi, edi
-.LBB0_142:
-	test	r9b, 1
-	je	.LBB0_144
-# %bb.143:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_144:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_145
-.LBB0_485:
-	xor	edi, edi
-.LBB0_488:
-	test	r9b, 1
-	je	.LBB0_490
-# %bb.489:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_490:
-	cmp	rsi, r10
-	jne	.LBB0_491
-	jmp	.LBB0_1013
-.LBB0_312:
-	xor	edi, edi
-.LBB0_315:
-	test	r9b, 1
-	je	.LBB0_317
-# %bb.316:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_317:
-	cmp	rsi, r10
-	jne	.LBB0_318
-	jmp	.LBB0_1013
-.LBB0_658:
-	xor	edi, edi
-.LBB0_661:
-	test	r9b, 1
-	je	.LBB0_663
-# %bb.662:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_663:
-	cmp	rsi, r10
-	jne	.LBB0_664
-	jmp	.LBB0_1013
-.LBB0_766:
-	xor	edi, edi
-.LBB0_769:
-	test	r9b, 1
-	je	.LBB0_771
-# %bb.770:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_771:
-	cmp	rsi, r10
-	jne	.LBB0_772
-	jmp	.LBB0_1013
-.LBB0_782:
-	xor	edi, edi
-.LBB0_785:
-	test	r9b, 1
-	je	.LBB0_787
-# %bb.786:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_787:
-	cmp	rsi, r10
-	jne	.LBB0_788
-	jmp	.LBB0_1013
-.LBB0_916:
-	xor	edi, edi
-.LBB0_919:
-	test	r9b, 1
-	je	.LBB0_921
-# %bb.920:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_921:
-	cmp	rsi, r10
-	jne	.LBB0_922
-	jmp	.LBB0_1013
-.LBB0_932:
-	xor	edi, edi
-.LBB0_935:
-	test	r9b, 1
-	je	.LBB0_937
-# %bb.936:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	pmullw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_937:
-	cmp	rsi, r10
-	jne	.LBB0_938
-	jmp	.LBB0_1013
-.LBB0_81:
-	xor	edi, edi
-.LBB0_84:
-	test	r9b, 1
-	je	.LBB0_86
-# %bb.85:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_86:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_87
-.LBB0_97:
-	xor	edi, edi
-.LBB0_100:
-	test	r9b, 1
-	je	.LBB0_102
-# %bb.101:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_102:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_103
-.LBB0_427:
-	xor	edi, edi
-.LBB0_430:
-	test	r9b, 1
-	je	.LBB0_432
-# %bb.431:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-.LBB0_432:
-	cmp	rsi, r10
-	jne	.LBB0_433
-	jmp	.LBB0_1013
-.LBB0_443:
-	xor	edi, edi
-.LBB0_446:
-	test	r9b, 1
-	je	.LBB0_448
-# %bb.447:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-.LBB0_448:
-	cmp	rsi, r10
-	jne	.LBB0_449
-	jmp	.LBB0_1013
-.LBB0_254:
-	xor	edi, edi
-.LBB0_257:
-	test	r9b, 1
-	je	.LBB0_259
-# %bb.258:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_259:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_260
-.LBB0_270:
-	xor	edi, edi
-.LBB0_273:
-	test	r9b, 1
-	je	.LBB0_275
-# %bb.274:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_275:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_276
-.LBB0_600:
-	xor	edi, edi
-.LBB0_603:
-	test	r9b, 1
-	je	.LBB0_605
-# %bb.604:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-.LBB0_605:
-	cmp	rsi, r10
-	jne	.LBB0_606
-	jmp	.LBB0_1013
-.LBB0_616:
-	xor	edi, edi
-.LBB0_619:
-	test	r9b, 1
-	je	.LBB0_621
-# %bb.620:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-.LBB0_621:
-	cmp	rsi, r10
-	jne	.LBB0_622
-	jmp	.LBB0_1013
-.LBB0_840:
-	xor	edi, edi
-.LBB0_843:
-	test	r9b, 1
-	je	.LBB0_845
-# %bb.844:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	mulps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_845:
-	cmp	rsi, r10
-	jne	.LBB0_846
-	jmp	.LBB0_1013
-.LBB0_990:
-	xor	edi, edi
-.LBB0_993:
-	test	r9b, 1
-	je	.LBB0_995
-# %bb.994:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	mulps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_995:
-	cmp	rsi, r10
-	jne	.LBB0_996
-	jmp	.LBB0_1013
-.LBB0_155:
-	xor	edi, edi
-.LBB0_158:
-	test	r9b, 1
-	je	.LBB0_160
-# %bb.159:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_160:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_161
-.LBB0_171:
-	xor	edi, edi
-.LBB0_174:
-	test	r9b, 1
-	je	.LBB0_176
-# %bb.175:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_176:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_177
-.LBB0_501:
-	xor	edi, edi
-.LBB0_504:
-	test	r9b, 1
-	je	.LBB0_506
-# %bb.505:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_506:
-	cmp	rsi, r10
-	jne	.LBB0_507
-	jmp	.LBB0_1013
-.LBB0_517:
-	xor	edi, edi
-.LBB0_520:
-	test	r9b, 1
-	je	.LBB0_522
-# %bb.521:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_522:
-	cmp	rsi, r10
-	jne	.LBB0_523
-	jmp	.LBB0_1013
-.LBB0_328:
-	xor	edi, edi
-.LBB0_331:
-	test	r9b, 1
-	je	.LBB0_333
-# %bb.332:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_333:
-	cmp	rsi, r10
-	jne	.LBB0_334
-	jmp	.LBB0_1013
-.LBB0_344:
-	xor	edi, edi
-.LBB0_347:
-	test	r9b, 1
-	je	.LBB0_349
-# %bb.348:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_349:
-	cmp	rsi, r10
-	jne	.LBB0_350
-	jmp	.LBB0_1013
-.LBB0_674:
-	xor	edi, edi
-.LBB0_677:
-	test	r9b, 1
-	je	.LBB0_679
-# %bb.678:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_679:
-	cmp	rsi, r10
-	jne	.LBB0_680
-	jmp	.LBB0_1013
-.LBB0_690:
-	xor	edi, edi
-.LBB0_693:
-	test	r9b, 1
-	je	.LBB0_695
-# %bb.694:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_695:
-	cmp	rsi, r10
-	jne	.LBB0_696
-	jmp	.LBB0_1013
-.LBB0_737:
-	xor	eax, eax
-.LBB0_740:
-	test	r9b, 1
-	je	.LBB0_742
-# %bb.741:
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm4, xmm1                      # xmm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm3                      # xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [255,255,255,255,255,255,255,255]
-	pand	xmm3, xmm1
-	pmullw	xmm5, xmm4
-	pand	xmm5, xmm1
-	packuswb	xmm5, xmm3
-	pmovzxbw	xmm3, xmm2                      # xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm4, xmm0                      # xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm0, xmm2
-	pand	xmm0, xmm1
-	pmullw	xmm4, xmm3
-	pand	xmm4, xmm1
-	packuswb	xmm4, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm4
-.LBB0_742:
-	cmp	rdi, r10
-	jne	.LBB0_743
-	jmp	.LBB0_1013
-.LBB0_887:
-	xor	eax, eax
-.LBB0_890:
-	test	r9b, 1
-	je	.LBB0_892
-# %bb.891:
-	movdqu	xmm1, xmmword ptr [rdx + rax]
-	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm3, xmmword ptr [rcx + rax]
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm4, xmm1                      # xmm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm3                      # xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [255,255,255,255,255,255,255,255]
-	pand	xmm3, xmm1
-	pmullw	xmm5, xmm4
-	pand	xmm5, xmm1
-	packuswb	xmm5, xmm3
-	pmovzxbw	xmm3, xmm2                      # xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm4, xmm0                      # xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm0, xmm2
-	pand	xmm0, xmm1
-	pmullw	xmm4, xmm3
-	pand	xmm4, xmm1
-	packuswb	xmm4, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm4
-.LBB0_892:
-	cmp	rdi, r10
-	jne	.LBB0_893
-	jmp	.LBB0_1013
-.LBB0_52:
-	xor	edi, edi
-.LBB0_55:
-	test	r9b, 1
-	je	.LBB0_57
-# %bb.56:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB0_57:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_58
-.LBB0_398:
-	xor	edi, edi
-.LBB0_401:
-	test	r9b, 1
-	je	.LBB0_403
-# %bb.402:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-.LBB0_403:
-	cmp	rsi, r10
-	jne	.LBB0_404
-	jmp	.LBB0_1013
-.LBB0_225:
-	xor	edi, edi
-.LBB0_228:
-	test	r9b, 1
-	je	.LBB0_230
-# %bb.229:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB0_230:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_231
-.LBB0_571:
-	xor	edi, edi
-.LBB0_574:
-	test	r9b, 1
-	je	.LBB0_576
-# %bb.575:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-.LBB0_576:
-	cmp	rsi, r10
-	jne	.LBB0_577
-	jmp	.LBB0_1013
-.LBB0_811:
-	xor	edi, edi
-.LBB0_814:
-	test	r9b, 1
-	je	.LBB0_816
-# %bb.815:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_816:
-	cmp	rsi, r10
-	jne	.LBB0_817
-	jmp	.LBB0_1013
-.LBB0_961:
-	xor	edi, edi
-.LBB0_964:
-	test	r9b, 1
-	je	.LBB0_966
-# %bb.965:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	pmulld	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_966:
-	cmp	rsi, r10
-	jne	.LBB0_967
-	jmp	.LBB0_1013
-.LBB0_126:
-	xor	edi, edi
-.LBB0_129:
-	test	r9b, 1
-	je	.LBB0_131
-# %bb.130:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_131:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_132
-.LBB0_472:
-	xor	edi, edi
-.LBB0_475:
-	test	r9b, 1
-	je	.LBB0_477
-# %bb.476:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_477:
-	cmp	rsi, r10
-	jne	.LBB0_478
-	jmp	.LBB0_1013
-.LBB0_299:
-	xor	edi, edi
-.LBB0_302:
-	test	r9b, 1
-	je	.LBB0_304
-# %bb.303:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_304:
-	cmp	rsi, r10
-	je	.LBB0_1013
-	jmp	.LBB0_305
-.LBB0_645:
-	xor	edi, edi
-.LBB0_648:
-	test	r9b, 1
-	je	.LBB0_650
-# %bb.649:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_650:
-	cmp	rsi, r10
-	jne	.LBB0_651
-	jmp	.LBB0_1013
-.Lfunc_end0:
-	.size	arithmetic_binary_sse4, .Lfunc_end0-arithmetic_binary_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function arithmetic_arr_scalar_sse4
-.LCPI1_0:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	arithmetic_arr_scalar_sse4
-	.p2align	4, 0x90
-	.type	arithmetic_arr_scalar_sse4,@function
-arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 20
-	jg	.LBB1_12
-# %bb.1:
-	test	sil, sil
-	je	.LBB1_23
-# %bb.2:
-	cmp	sil, 1
-	je	.LBB1_31
-# %bb.3:
-	cmp	sil, 2
-	jne	.LBB1_1069
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB1_55
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB1_97
-# %bb.6:
-	cmp	edi, 4
-	je	.LBB1_157
-# %bb.7:
-	cmp	edi, 5
-	je	.LBB1_160
-# %bb.8:
-	cmp	edi, 6
-	jne	.LBB1_1069
-# %bb.9:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.10:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_11
-# %bb.265:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_453
-# %bb.266:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_453
-.LBB1_11:
-	xor	esi, esi
-.LBB1_625:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_627
-.LBB1_626:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_626
-.LBB1_627:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_628:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_628
-	jmp	.LBB1_1069
-.LBB1_12:
-	cmp	sil, 21
-	je	.LBB1_39
-# %bb.13:
-	cmp	sil, 22
-	je	.LBB1_47
-# %bb.14:
-	cmp	sil, 23
-	jne	.LBB1_1069
-# %bb.15:
-	cmp	edi, 6
-	jg	.LBB1_62
-# %bb.16:
-	cmp	edi, 3
-	jle	.LBB1_102
-# %bb.17:
-	cmp	edi, 4
-	je	.LBB1_163
-# %bb.18:
-	cmp	edi, 5
-	je	.LBB1_166
-# %bb.19:
-	cmp	edi, 6
-	jne	.LBB1_1069
-# %bb.20:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.21:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_22
-# %bb.268:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_456
-# %bb.269:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_456
-.LBB1_22:
-	xor	esi, esi
-.LBB1_633:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_635
-.LBB1_634:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_634
-.LBB1_635:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_636:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_636
-	jmp	.LBB1_1069
-.LBB1_23:
-	cmp	edi, 6
-	jg	.LBB1_69
-# %bb.24:
-	cmp	edi, 3
-	jle	.LBB1_107
-# %bb.25:
-	cmp	edi, 4
-	je	.LBB1_169
-# %bb.26:
-	cmp	edi, 5
-	je	.LBB1_172
-# %bb.27:
-	cmp	edi, 6
-	jne	.LBB1_1069
-# %bb.28:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.29:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_30
-# %bb.271:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_459
-# %bb.272:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_459
-.LBB1_30:
-	xor	esi, esi
-.LBB1_641:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_643
-.LBB1_642:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_642
-.LBB1_643:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_644:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_644
-	jmp	.LBB1_1069
-.LBB1_31:
-	cmp	edi, 6
-	jg	.LBB1_76
-# %bb.32:
-	cmp	edi, 3
-	jle	.LBB1_112
-# %bb.33:
-	cmp	edi, 4
-	je	.LBB1_175
-# %bb.34:
-	cmp	edi, 5
-	je	.LBB1_178
-# %bb.35:
-	cmp	edi, 6
-	jne	.LBB1_1069
-# %bb.36:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.37:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_38
-# %bb.274:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_462
-# %bb.275:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_462
-.LBB1_38:
-	xor	esi, esi
-.LBB1_649:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_651
-.LBB1_650:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_650
-.LBB1_651:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_652:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_652
-	jmp	.LBB1_1069
-.LBB1_39:
-	cmp	edi, 6
-	jg	.LBB1_83
-# %bb.40:
-	cmp	edi, 3
-	jle	.LBB1_117
-# %bb.41:
-	cmp	edi, 4
-	je	.LBB1_181
-# %bb.42:
-	cmp	edi, 5
-	je	.LBB1_184
-# %bb.43:
-	cmp	edi, 6
-	jne	.LBB1_1069
-# %bb.44:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.45:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_46
-# %bb.277:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_465
-# %bb.278:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_465
-.LBB1_46:
-	xor	esi, esi
-.LBB1_657:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_659
-.LBB1_658:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_658
-.LBB1_659:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_660:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_660
-	jmp	.LBB1_1069
-.LBB1_47:
-	cmp	edi, 6
-	jg	.LBB1_90
-# %bb.48:
-	cmp	edi, 3
-	jle	.LBB1_122
-# %bb.49:
-	cmp	edi, 4
-	je	.LBB1_187
-# %bb.50:
-	cmp	edi, 5
-	je	.LBB1_190
-# %bb.51:
-	cmp	edi, 6
-	jne	.LBB1_1069
-# %bb.52:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.53:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_54
-# %bb.280:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_468
-# %bb.281:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_468
-.LBB1_54:
-	xor	esi, esi
-.LBB1_665:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_667
-.LBB1_666:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_666
-.LBB1_667:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_668:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_668
-	jmp	.LBB1_1069
-.LBB1_55:
-	cmp	edi, 8
-	jle	.LBB1_127
-# %bb.56:
-	cmp	edi, 9
-	je	.LBB1_193
-# %bb.57:
-	cmp	edi, 11
-	je	.LBB1_196
-# %bb.58:
-	cmp	edi, 12
-	jne	.LBB1_1069
-# %bb.59:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.60:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_61
-# %bb.283:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_471
-# %bb.284:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_471
-.LBB1_61:
-	xor	ecx, ecx
-.LBB1_673:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_675
-.LBB1_674:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_674
-.LBB1_675:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_676:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_676
-	jmp	.LBB1_1069
-.LBB1_62:
-	cmp	edi, 8
-	jle	.LBB1_132
-# %bb.63:
-	cmp	edi, 9
-	je	.LBB1_199
-# %bb.64:
-	cmp	edi, 11
-	je	.LBB1_202
-# %bb.65:
-	cmp	edi, 12
-	jne	.LBB1_1069
-# %bb.66:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.67:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_68
-# %bb.286:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_474
-# %bb.287:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_474
-.LBB1_68:
-	xor	ecx, ecx
-.LBB1_681:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_683
-.LBB1_682:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_682
-.LBB1_683:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_684:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_684
-	jmp	.LBB1_1069
-.LBB1_69:
-	cmp	edi, 8
-	jle	.LBB1_137
-# %bb.70:
-	cmp	edi, 9
-	je	.LBB1_205
-# %bb.71:
-	cmp	edi, 11
-	je	.LBB1_208
-# %bb.72:
-	cmp	edi, 12
-	jne	.LBB1_1069
-# %bb.73:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.74:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_75
-# %bb.289:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_477
-# %bb.290:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_477
-.LBB1_75:
-	xor	ecx, ecx
-.LBB1_689:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_691
-.LBB1_690:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_690
-.LBB1_691:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_692:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_692
-	jmp	.LBB1_1069
-.LBB1_76:
-	cmp	edi, 8
-	jle	.LBB1_142
-# %bb.77:
-	cmp	edi, 9
-	je	.LBB1_211
-# %bb.78:
-	cmp	edi, 11
-	je	.LBB1_214
-# %bb.79:
-	cmp	edi, 12
-	jne	.LBB1_1069
-# %bb.80:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.81:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_82
-# %bb.292:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_480
-# %bb.293:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_480
-.LBB1_82:
-	xor	ecx, ecx
-.LBB1_697:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_699
-.LBB1_698:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_698
-.LBB1_699:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_700:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_700
-	jmp	.LBB1_1069
-.LBB1_83:
-	cmp	edi, 8
-	jle	.LBB1_147
-# %bb.84:
-	cmp	edi, 9
-	je	.LBB1_217
-# %bb.85:
-	cmp	edi, 11
-	je	.LBB1_220
-# %bb.86:
-	cmp	edi, 12
-	jne	.LBB1_1069
-# %bb.87:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.88:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_89
-# %bb.295:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_483
-# %bb.296:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_483
-.LBB1_89:
-	xor	ecx, ecx
-.LBB1_705:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_707
-.LBB1_706:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_706
-.LBB1_707:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_708:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_708
-	jmp	.LBB1_1069
-.LBB1_90:
-	cmp	edi, 8
-	jle	.LBB1_152
-# %bb.91:
-	cmp	edi, 9
-	je	.LBB1_223
-# %bb.92:
-	cmp	edi, 11
-	je	.LBB1_226
-# %bb.93:
-	cmp	edi, 12
-	jne	.LBB1_1069
-# %bb.94:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.95:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_96
-# %bb.298:
-	lea	rcx, [rdx + 8*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_486
-# %bb.299:
-	lea	rcx, [r8 + 8*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_486
-.LBB1_96:
-	xor	ecx, ecx
-.LBB1_713:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_715
-.LBB1_714:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_714
-.LBB1_715:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_716:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_716
-	jmp	.LBB1_1069
-.LBB1_97:
-	cmp	edi, 2
-	je	.LBB1_229
-# %bb.98:
-	cmp	edi, 3
-	jne	.LBB1_1069
-# %bb.99:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.100:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_101
-# %bb.301:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_489
-# %bb.302:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_489
-.LBB1_101:
-	xor	edi, edi
-.LBB1_721:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_723
-.LBB1_722:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_722
-.LBB1_723:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_724:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_724
-	jmp	.LBB1_1069
-.LBB1_102:
-	cmp	edi, 2
-	je	.LBB1_232
-# %bb.103:
-	cmp	edi, 3
-	jne	.LBB1_1069
-# %bb.104:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.105:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_106
-# %bb.304:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_492
-# %bb.305:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_492
-.LBB1_106:
-	xor	edi, edi
-.LBB1_729:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_731
-.LBB1_730:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_730
-.LBB1_731:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_732:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_732
-	jmp	.LBB1_1069
-.LBB1_107:
-	cmp	edi, 2
-	je	.LBB1_235
-# %bb.108:
-	cmp	edi, 3
-	jne	.LBB1_1069
-# %bb.109:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.110:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_111
-# %bb.307:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_495
-# %bb.308:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_495
-.LBB1_111:
-	xor	esi, esi
-.LBB1_737:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_739
-.LBB1_738:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_738
-.LBB1_739:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_740:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_740
-	jmp	.LBB1_1069
-.LBB1_112:
-	cmp	edi, 2
-	je	.LBB1_238
-# %bb.113:
-	cmp	edi, 3
-	jne	.LBB1_1069
-# %bb.114:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.115:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_116
-# %bb.310:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_498
-# %bb.311:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_498
-.LBB1_116:
-	xor	esi, esi
-.LBB1_745:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_747
-.LBB1_746:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_746
-.LBB1_747:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_748:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_748
-	jmp	.LBB1_1069
-.LBB1_117:
-	cmp	edi, 2
-	je	.LBB1_241
-# %bb.118:
-	cmp	edi, 3
-	jne	.LBB1_1069
-# %bb.119:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.120:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_121
-# %bb.313:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_501
-# %bb.314:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_501
-.LBB1_121:
-	xor	esi, esi
-.LBB1_753:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_755
-.LBB1_754:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_754
-.LBB1_755:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_756:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_756
-	jmp	.LBB1_1069
-.LBB1_122:
-	cmp	edi, 2
-	je	.LBB1_244
-# %bb.123:
-	cmp	edi, 3
-	jne	.LBB1_1069
-# %bb.124:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.125:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_126
-# %bb.316:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_504
-# %bb.317:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_504
-.LBB1_126:
-	xor	esi, esi
-.LBB1_761:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_763
-.LBB1_762:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_762
-.LBB1_763:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_764:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_764
-	jmp	.LBB1_1069
-.LBB1_127:
-	cmp	edi, 7
-	je	.LBB1_247
-# %bb.128:
-	cmp	edi, 8
-	jne	.LBB1_1069
-# %bb.129:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.130:
-	mov	rax, qword ptr [rcx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB1_319
-# %bb.131:
-	xor	edi, edi
-	jmp	.LBB1_321
-.LBB1_132:
-	cmp	edi, 7
-	je	.LBB1_250
-# %bb.133:
-	cmp	edi, 8
-	jne	.LBB1_1069
-# %bb.134:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.135:
-	mov	rax, qword ptr [rcx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB1_324
-# %bb.136:
-	xor	edi, edi
-	jmp	.LBB1_326
-.LBB1_137:
-	cmp	edi, 7
-	je	.LBB1_253
-# %bb.138:
-	cmp	edi, 8
-	jne	.LBB1_1069
-# %bb.139:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.140:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_141
-# %bb.329:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_507
-# %bb.330:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_507
-.LBB1_141:
-	xor	esi, esi
-.LBB1_769:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_771
-.LBB1_770:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_770
-.LBB1_771:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_772:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_772
-	jmp	.LBB1_1069
-.LBB1_142:
-	cmp	edi, 7
-	je	.LBB1_256
-# %bb.143:
-	cmp	edi, 8
-	jne	.LBB1_1069
-# %bb.144:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.145:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_146
-# %bb.332:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_510
-# %bb.333:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_510
-.LBB1_146:
-	xor	esi, esi
-.LBB1_777:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_779
-.LBB1_778:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_778
-.LBB1_779:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_780:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_780
-	jmp	.LBB1_1069
-.LBB1_147:
-	cmp	edi, 7
-	je	.LBB1_259
-# %bb.148:
-	cmp	edi, 8
-	jne	.LBB1_1069
-# %bb.149:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.150:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_151
-# %bb.335:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_513
-# %bb.336:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_513
-.LBB1_151:
-	xor	esi, esi
-.LBB1_785:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_787
-.LBB1_786:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_786
-.LBB1_787:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_788:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_788
-	jmp	.LBB1_1069
-.LBB1_152:
-	cmp	edi, 7
-	je	.LBB1_262
-# %bb.153:
-	cmp	edi, 8
-	jne	.LBB1_1069
-# %bb.154:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.155:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_156
-# %bb.338:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_516
-# %bb.339:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_516
-.LBB1_156:
-	xor	esi, esi
-.LBB1_793:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_795
-.LBB1_794:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_794
-.LBB1_795:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_796:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_796
-	jmp	.LBB1_1069
-.LBB1_157:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.158:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_159
-# %bb.341:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_519
-# %bb.342:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_519
-.LBB1_159:
-	xor	esi, esi
-.LBB1_801:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_803
-.LBB1_802:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_802
-.LBB1_803:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_804:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_804
-	jmp	.LBB1_1069
-.LBB1_160:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.161:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_162
-# %bb.344:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_522
-# %bb.345:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_522
-.LBB1_162:
-	xor	esi, esi
-.LBB1_809:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_811
-.LBB1_810:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_810
-.LBB1_811:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_812:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_812
-	jmp	.LBB1_1069
-.LBB1_163:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.164:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_165
-# %bb.347:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_525
-# %bb.348:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_525
-.LBB1_165:
-	xor	esi, esi
-.LBB1_817:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_819
-.LBB1_818:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_818
-.LBB1_819:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_820:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_820
-	jmp	.LBB1_1069
-.LBB1_166:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.167:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_168
-# %bb.350:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_528
-# %bb.351:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_528
-.LBB1_168:
-	xor	esi, esi
-.LBB1_825:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_827
-.LBB1_826:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_826
-.LBB1_827:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_828:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	imul	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_828
-	jmp	.LBB1_1069
-.LBB1_169:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.170:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_171
-# %bb.353:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_531
-# %bb.354:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_531
-.LBB1_171:
-	xor	esi, esi
-.LBB1_833:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_835
-.LBB1_834:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_834
-.LBB1_835:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_836:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_836
-	jmp	.LBB1_1069
-.LBB1_172:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.173:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_174
-# %bb.356:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_534
-# %bb.357:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_534
-.LBB1_174:
-	xor	esi, esi
-.LBB1_841:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_843
-.LBB1_842:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_842
-.LBB1_843:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_844:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_844
-	jmp	.LBB1_1069
-.LBB1_175:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.176:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_177
-# %bb.359:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_537
-# %bb.360:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_537
-.LBB1_177:
-	xor	esi, esi
-.LBB1_849:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_851
-.LBB1_850:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_850
-.LBB1_851:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_852:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_852
-	jmp	.LBB1_1069
-.LBB1_178:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.179:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_180
-# %bb.362:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_540
-# %bb.363:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_540
-.LBB1_180:
-	xor	esi, esi
-.LBB1_857:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_859
-.LBB1_858:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_858
-.LBB1_859:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_860:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_860
-	jmp	.LBB1_1069
-.LBB1_181:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.182:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_183
-# %bb.365:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_543
-# %bb.366:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_543
-.LBB1_183:
-	xor	esi, esi
-.LBB1_865:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_867
-.LBB1_866:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_866
-.LBB1_867:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_868:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_868
-	jmp	.LBB1_1069
-.LBB1_184:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.185:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_186
-# %bb.368:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_546
-# %bb.369:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_546
-.LBB1_186:
-	xor	esi, esi
-.LBB1_873:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_875
-.LBB1_874:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_874
-.LBB1_875:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_876:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_876
-	jmp	.LBB1_1069
-.LBB1_187:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.188:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_189
-# %bb.371:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_549
-# %bb.372:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_549
-.LBB1_189:
-	xor	esi, esi
-.LBB1_881:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_883
-.LBB1_882:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_882
-.LBB1_883:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_884:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_884
-	jmp	.LBB1_1069
-.LBB1_190:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.191:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_192
-# %bb.374:
-	lea	rcx, [rdx + 2*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_552
-# %bb.375:
-	lea	rcx, [r8 + 2*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_552
-.LBB1_192:
-	xor	esi, esi
-.LBB1_889:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_891
-.LBB1_890:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_890
-.LBB1_891:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_892:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_892
-	jmp	.LBB1_1069
-.LBB1_193:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.194:
-	mov	rax, qword ptr [rcx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB1_377
-# %bb.195:
-	xor	edi, edi
-	jmp	.LBB1_379
-.LBB1_196:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.197:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_198
-# %bb.382:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_555
-# %bb.383:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_555
-.LBB1_198:
-	xor	ecx, ecx
-.LBB1_897:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_899
-.LBB1_898:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_898
-.LBB1_899:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_900:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_900
-	jmp	.LBB1_1069
-.LBB1_199:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.200:
-	mov	rax, qword ptr [rcx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB1_385
-# %bb.201:
-	xor	edi, edi
-	jmp	.LBB1_387
-.LBB1_202:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.203:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_204
-# %bb.390:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_558
-# %bb.391:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_558
-.LBB1_204:
-	xor	ecx, ecx
-.LBB1_905:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_907
-.LBB1_906:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_906
-.LBB1_907:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_908:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_908
-	jmp	.LBB1_1069
-.LBB1_205:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.206:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_207
-# %bb.393:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_561
-# %bb.394:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_561
-.LBB1_207:
-	xor	esi, esi
-.LBB1_913:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_915
-.LBB1_914:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_914
-.LBB1_915:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_916:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_916
-	jmp	.LBB1_1069
-.LBB1_208:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.209:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_210
-# %bb.396:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_564
-# %bb.397:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_564
-.LBB1_210:
-	xor	ecx, ecx
-.LBB1_921:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_923
-.LBB1_922:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_922
-.LBB1_923:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_924:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_924
-	jmp	.LBB1_1069
-.LBB1_211:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.212:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_213
-# %bb.399:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_567
-# %bb.400:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_567
-.LBB1_213:
-	xor	esi, esi
-.LBB1_929:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_931
-.LBB1_930:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_930
-.LBB1_931:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_932:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_932
-	jmp	.LBB1_1069
-.LBB1_214:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.215:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_216
-# %bb.402:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_570
-# %bb.403:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_570
-.LBB1_216:
-	xor	ecx, ecx
-.LBB1_937:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_939
-.LBB1_938:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_938
-.LBB1_939:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_940:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_940
-	jmp	.LBB1_1069
-.LBB1_217:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.218:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_219
-# %bb.405:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_573
-# %bb.406:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_573
-.LBB1_219:
-	xor	esi, esi
-.LBB1_945:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_947
-.LBB1_946:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_946
-.LBB1_947:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_948:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_948
-	jmp	.LBB1_1069
-.LBB1_220:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.221:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_222
-# %bb.408:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_576
-# %bb.409:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_576
-.LBB1_222:
-	xor	ecx, ecx
-.LBB1_953:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_955
-.LBB1_954:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_954
-.LBB1_955:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_956:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_956
-	jmp	.LBB1_1069
-.LBB1_223:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.224:
-	mov	rax, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_225
-# %bb.411:
-	lea	rcx, [rdx + 8*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_579
-# %bb.412:
-	lea	rcx, [r8 + 8*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_579
-.LBB1_225:
-	xor	esi, esi
-.LBB1_961:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_963
-.LBB1_962:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_962
-.LBB1_963:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_964:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_964
-	jmp	.LBB1_1069
-.LBB1_226:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.227:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_228
-# %bb.414:
-	lea	rcx, [rdx + 4*rax]
-	cmp	rcx, r8
-	jbe	.LBB1_582
-# %bb.415:
-	lea	rcx, [r8 + 4*rax]
-	cmp	rcx, rdx
-	jbe	.LBB1_582
-.LBB1_228:
-	xor	ecx, ecx
-.LBB1_969:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_971
-.LBB1_970:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_970
-.LBB1_971:
-	cmp	rsi, 3
-	jb	.LBB1_1069
-.LBB1_972:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_972
-	jmp	.LBB1_1069
-.LBB1_229:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.230:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_231
-# %bb.417:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_585
-# %bb.418:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_585
-.LBB1_231:
-	xor	edi, edi
-.LBB1_977:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_979
-.LBB1_978:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_978
-.LBB1_979:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_980:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_980
-	jmp	.LBB1_1069
-.LBB1_232:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.233:
-	mov	cl, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_234
-# %bb.420:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_588
-# %bb.421:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_588
-.LBB1_234:
-	xor	edi, edi
-.LBB1_985:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB1_987
-.LBB1_986:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB1_986
-.LBB1_987:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_988:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	mul	cl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	mul	cl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB1_988
-	jmp	.LBB1_1069
-.LBB1_235:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.236:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_237
-# %bb.423:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_591
-# %bb.424:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_591
-.LBB1_237:
-	xor	esi, esi
-.LBB1_993:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_995
-.LBB1_994:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_994
-.LBB1_995:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_996:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_996
-	jmp	.LBB1_1069
-.LBB1_238:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.239:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_240
-# %bb.426:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_594
-# %bb.427:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_594
-.LBB1_240:
-	xor	esi, esi
-.LBB1_1001:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1003
-.LBB1_1002:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1002
-.LBB1_1003:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1004:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1004
-	jmp	.LBB1_1069
-.LBB1_241:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.242:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_243
-# %bb.429:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_597
-# %bb.430:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_597
-.LBB1_243:
-	xor	esi, esi
-.LBB1_1009:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1011
-.LBB1_1010:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1010
-.LBB1_1011:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1012:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1012
-	jmp	.LBB1_1069
-.LBB1_244:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.245:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_246
-# %bb.432:
-	lea	rcx, [rdx + r10]
-	cmp	rcx, r8
-	jbe	.LBB1_600
-# %bb.433:
-	lea	rcx, [r8 + r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_600
-.LBB1_246:
-	xor	esi, esi
-.LBB1_1017:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1019
-.LBB1_1018:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1018
-.LBB1_1019:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1020:                             # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1020
-	jmp	.LBB1_1069
-.LBB1_247:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.248:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_249
-# %bb.435:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_603
-# %bb.436:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_603
-.LBB1_249:
-	xor	esi, esi
-.LBB1_1025:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1027
-.LBB1_1026:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1026
-.LBB1_1027:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1028:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1028
-	jmp	.LBB1_1069
-.LBB1_250:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.251:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_252
-# %bb.438:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_606
-# %bb.439:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_606
-.LBB1_252:
-	xor	esi, esi
-.LBB1_1033:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1035
-.LBB1_1034:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1034
-.LBB1_1035:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1036:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	imul	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1036
-	jmp	.LBB1_1069
-.LBB1_253:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.254:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_255
-# %bb.441:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_609
-# %bb.442:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_609
-.LBB1_255:
-	xor	esi, esi
-.LBB1_1041:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1043
-.LBB1_1042:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1042
-.LBB1_1043:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1044:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1044
-	jmp	.LBB1_1069
-.LBB1_256:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.257:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_258
-# %bb.444:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_612
-# %bb.445:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_612
-.LBB1_258:
-	xor	esi, esi
-.LBB1_1049:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1051
-.LBB1_1050:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1050
-.LBB1_1051:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1052:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1052
-	jmp	.LBB1_1069
-.LBB1_259:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.260:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_261
-# %bb.447:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_615
-# %bb.448:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_615
-.LBB1_261:
-	xor	esi, esi
-.LBB1_1057:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1059
-.LBB1_1058:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1058
-.LBB1_1059:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1060:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1060
-	jmp	.LBB1_1069
-.LBB1_262:
-	test	r9d, r9d
-	jle	.LBB1_1069
-# %bb.263:
-	mov	eax, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_264
-# %bb.450:
-	lea	rcx, [rdx + 4*r10]
-	cmp	rcx, r8
-	jbe	.LBB1_618
-# %bb.451:
-	lea	rcx, [r8 + 4*r10]
-	cmp	rcx, rdx
-	jbe	.LBB1_618
-.LBB1_264:
-	xor	esi, esi
-.LBB1_1065:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB1_1067
-.LBB1_1066:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB1_1066
-.LBB1_1067:
-	cmp	r9, 3
-	jb	.LBB1_1069
-.LBB1_1068:                             # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_1068
-	jmp	.LBB1_1069
-.LBB1_319:
-	and	esi, -4
-	xor	edi, edi
-.LBB1_320:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rcx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB1_320
-.LBB1_321:
-	test	r9, r9
-	je	.LBB1_1069
-# %bb.322:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB1_323:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [rsi + 8*rdi], rcx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB1_323
-	jmp	.LBB1_1069
-.LBB1_324:
-	and	esi, -4
-	xor	edi, edi
-.LBB1_325:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rcx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB1_325
-.LBB1_326:
-	test	r9, r9
-	je	.LBB1_1069
-# %bb.327:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB1_328:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [rsi + 8*rdi], rcx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB1_328
-	jmp	.LBB1_1069
-.LBB1_377:
-	and	esi, -4
-	xor	edi, edi
-.LBB1_378:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rcx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB1_378
-.LBB1_379:
-	test	r9, r9
-	je	.LBB1_1069
-# %bb.380:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB1_381:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [rsi + 8*rdi], rcx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB1_381
-	jmp	.LBB1_1069
-.LBB1_385:
-	and	esi, -4
-	xor	edi, edi
-.LBB1_386:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 8]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 16]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rdi + 24]
-	imul	rcx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rcx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB1_386
-.LBB1_387:
-	test	r9, r9
-	je	.LBB1_1069
-# %bb.388:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	edi, edi
-.LBB1_389:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rdi]
-	imul	rcx, rax
-	mov	qword ptr [rsi + 8*rdi], rcx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB1_389
-.LBB1_1069:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB1_453:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_621
-# %bb.454:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_455:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_455
-	jmp	.LBB1_622
-.LBB1_456:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_629
-# %bb.457:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_458:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_458
-	jmp	.LBB1_630
-.LBB1_459:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_637
-# %bb.460:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_461:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_461
-	jmp	.LBB1_638
-.LBB1_462:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_645
-# %bb.463:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_464:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_464
-	jmp	.LBB1_646
-.LBB1_465:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_653
-# %bb.466:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_467:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_467
-	jmp	.LBB1_654
-.LBB1_468:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_661
-# %bb.469:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_470:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_470
-	jmp	.LBB1_662
-.LBB1_471:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_669
-# %bb.472:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_473:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_473
-	jmp	.LBB1_670
-.LBB1_474:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_677
-# %bb.475:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_476:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_476
-	jmp	.LBB1_678
-.LBB1_477:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_685
-# %bb.478:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_479:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_479
-	jmp	.LBB1_686
-.LBB1_480:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_693
-# %bb.481:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_482:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_482
-	jmp	.LBB1_694
-.LBB1_483:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_701
-# %bb.484:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_485:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_485
-	jmp	.LBB1_702
-.LBB1_486:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_709
-# %bb.487:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_488:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_488
-	jmp	.LBB1_710
-.LBB1_489:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, cl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB1_717
-# %bb.490:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI1_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB1_491:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + rax]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB1_491
-	jmp	.LBB1_718
-.LBB1_492:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, cl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB1_725
-# %bb.493:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI1_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB1_494:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + rax]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB1_494
-	jmp	.LBB1_726
-.LBB1_495:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_733
-# %bb.496:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_497:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_497
-	jmp	.LBB1_734
-.LBB1_498:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_741
-# %bb.499:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_500:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_500
-	jmp	.LBB1_742
-.LBB1_501:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_749
-# %bb.502:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_503:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_503
-	jmp	.LBB1_750
-.LBB1_504:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_757
-# %bb.505:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_506:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_506
-	jmp	.LBB1_758
-.LBB1_507:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_765
-# %bb.508:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_509:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_509
-	jmp	.LBB1_766
-.LBB1_510:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_773
-# %bb.511:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_512:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_512
-	jmp	.LBB1_774
-.LBB1_513:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_781
-# %bb.514:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_515:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_515
-	jmp	.LBB1_782
-.LBB1_516:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_789
-# %bb.517:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_518:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_518
-	jmp	.LBB1_790
-.LBB1_519:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_797
-# %bb.520:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_521:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_521
-	jmp	.LBB1_798
-.LBB1_522:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_805
-# %bb.523:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_524:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_524
-	jmp	.LBB1_806
-.LBB1_525:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_813
-# %bb.526:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_527:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_527
-	jmp	.LBB1_814
-.LBB1_528:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_821
-# %bb.529:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_530:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_530
-	jmp	.LBB1_822
-.LBB1_531:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_829
-# %bb.532:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_533:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_533
-	jmp	.LBB1_830
-.LBB1_534:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_837
-# %bb.535:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_536:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_536
-	jmp	.LBB1_838
-.LBB1_537:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_845
-# %bb.538:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_539:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_539
-	jmp	.LBB1_846
-.LBB1_540:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_853
-# %bb.541:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_542:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_542
-	jmp	.LBB1_854
-.LBB1_543:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_861
-# %bb.544:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_545:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_545
-	jmp	.LBB1_862
-.LBB1_546:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_869
-# %bb.547:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_548:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_548
-	jmp	.LBB1_870
-.LBB1_549:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_877
-# %bb.550:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_551:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_551
-	jmp	.LBB1_878
-.LBB1_552:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_885
-# %bb.553:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_554:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rcx, 2
-	jne	.LBB1_554
-	jmp	.LBB1_886
-.LBB1_555:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_893
-# %bb.556:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_557:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_557
-	jmp	.LBB1_894
-.LBB1_558:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_901
-# %bb.559:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_560:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_560
-	jmp	.LBB1_902
-.LBB1_561:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_909
-# %bb.562:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_563:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_563
-	jmp	.LBB1_910
-.LBB1_564:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_917
-# %bb.565:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_566:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_566
-	jmp	.LBB1_918
-.LBB1_567:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_925
-# %bb.568:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_569:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_569
-	jmp	.LBB1_926
-.LBB1_570:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_933
-# %bb.571:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_572:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_572
-	jmp	.LBB1_934
-.LBB1_573:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_941
-# %bb.574:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_575:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_575
-	jmp	.LBB1_942
-.LBB1_576:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_949
-# %bb.577:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_578:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_578
-	jmp	.LBB1_950
-.LBB1_579:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_957
-# %bb.580:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_581:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rcx, 2
-	jne	.LBB1_581
-	jmp	.LBB1_958
-.LBB1_582:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB1_965
-# %bb.583:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_584:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_584
-	jmp	.LBB1_966
-.LBB1_585:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, cl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB1_973
-# %bb.586:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI1_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB1_587:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + rax]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB1_587
-	jmp	.LBB1_974
-.LBB1_588:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, cl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB1_981
-# %bb.589:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI1_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB1_590:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + rax]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rdx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB1_590
-	jmp	.LBB1_982
-.LBB1_591:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_989
-# %bb.592:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_593:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_593
-	jmp	.LBB1_990
-.LBB1_594:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_997
-# %bb.595:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_596:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_596
-	jmp	.LBB1_998
-.LBB1_597:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1005
-# %bb.598:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_599:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_599
-	jmp	.LBB1_1006
-.LBB1_600:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1013
-# %bb.601:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_602:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rcx, 2
-	jne	.LBB1_602
-	jmp	.LBB1_1014
-.LBB1_603:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1021
-# %bb.604:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_605:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_605
-	jmp	.LBB1_1022
-.LBB1_606:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1029
-# %bb.607:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_608:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_608
-	jmp	.LBB1_1030
-.LBB1_609:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1037
-# %bb.610:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_611:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_611
-	jmp	.LBB1_1038
-.LBB1_612:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1045
-# %bb.613:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_614:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_614
-	jmp	.LBB1_1046
-.LBB1_615:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1053
-# %bb.616:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_617:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_617
-	jmp	.LBB1_1054
-.LBB1_618:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_1061
-# %bb.619:
-	mov	rcx, r9
-	and	rcx, -2
-	neg	rcx
-	xor	edi, edi
-.LBB1_620:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rcx, 2
-	jne	.LBB1_620
-	jmp	.LBB1_1062
-.LBB1_621:
-	xor	edi, edi
-.LBB1_622:
-	test	r9b, 1
-	je	.LBB1_624
-# %bb.623:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_624:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_625
-.LBB1_629:
-	xor	edi, edi
-.LBB1_630:
-	test	r9b, 1
-	je	.LBB1_632
-# %bb.631:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_632:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_633
-.LBB1_637:
-	xor	edi, edi
-.LBB1_638:
-	test	r9b, 1
-	je	.LBB1_640
-# %bb.639:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_640:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_641
-.LBB1_645:
-	xor	edi, edi
-.LBB1_646:
-	test	r9b, 1
-	je	.LBB1_648
-# %bb.647:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_648:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_649
-.LBB1_653:
-	xor	edi, edi
-.LBB1_654:
-	test	r9b, 1
-	je	.LBB1_656
-# %bb.655:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_656:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_657
-.LBB1_661:
-	xor	edi, edi
-.LBB1_662:
-	test	r9b, 1
-	je	.LBB1_664
-# %bb.663:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_664:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_665
-.LBB1_669:
-	xor	edi, edi
-.LBB1_670:
-	test	r9b, 1
-	je	.LBB1_672
-# %bb.671:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_672:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_673
-.LBB1_677:
-	xor	edi, edi
-.LBB1_678:
-	test	r9b, 1
-	je	.LBB1_680
-# %bb.679:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_680:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_681
-.LBB1_685:
-	xor	edi, edi
-.LBB1_686:
-	test	r9b, 1
-	je	.LBB1_688
-# %bb.687:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_688:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_689
-.LBB1_693:
-	xor	edi, edi
-.LBB1_694:
-	test	r9b, 1
-	je	.LBB1_696
-# %bb.695:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_696:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_697
-.LBB1_701:
-	xor	edi, edi
-.LBB1_702:
-	test	r9b, 1
-	je	.LBB1_704
-# %bb.703:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_704:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_705
-.LBB1_709:
-	xor	edi, edi
-.LBB1_710:
-	test	r9b, 1
-	je	.LBB1_712
-# %bb.711:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_712:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_713
-.LBB1_717:
-	xor	eax, eax
-.LBB1_718:
-	test	r9b, 1
-	je	.LBB1_720
-# %bb.719:
-	movdqu	xmm2, xmmword ptr [rdx + rax]
-	movdqu	xmm3, xmmword ptr [rdx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI1_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB1_720:
-	cmp	rdi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_721
-.LBB1_725:
-	xor	eax, eax
-.LBB1_726:
-	test	r9b, 1
-	je	.LBB1_728
-# %bb.727:
-	movdqu	xmm2, xmmword ptr [rdx + rax]
-	movdqu	xmm3, xmmword ptr [rdx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI1_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB1_728:
-	cmp	rdi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_729
-.LBB1_733:
-	xor	edi, edi
-.LBB1_734:
-	test	r9b, 1
-	je	.LBB1_736
-# %bb.735:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_736:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_737
-.LBB1_741:
-	xor	edi, edi
-.LBB1_742:
-	test	r9b, 1
-	je	.LBB1_744
-# %bb.743:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_744:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_745
-.LBB1_749:
-	xor	edi, edi
-.LBB1_750:
-	test	r9b, 1
-	je	.LBB1_752
-# %bb.751:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_752:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_753
-.LBB1_757:
-	xor	edi, edi
-.LBB1_758:
-	test	r9b, 1
-	je	.LBB1_760
-# %bb.759:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_760:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_761
-.LBB1_765:
-	xor	edi, edi
-.LBB1_766:
-	test	r9b, 1
-	je	.LBB1_768
-# %bb.767:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_768:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_769
-.LBB1_773:
-	xor	edi, edi
-.LBB1_774:
-	test	r9b, 1
-	je	.LBB1_776
-# %bb.775:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_776:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_777
-.LBB1_781:
-	xor	edi, edi
-.LBB1_782:
-	test	r9b, 1
-	je	.LBB1_784
-# %bb.783:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_784:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_785
-.LBB1_789:
-	xor	edi, edi
-.LBB1_790:
-	test	r9b, 1
-	je	.LBB1_792
-# %bb.791:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_792:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_793
-.LBB1_797:
-	xor	edi, edi
-.LBB1_798:
-	test	r9b, 1
-	je	.LBB1_800
-# %bb.799:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_800:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_801
-.LBB1_805:
-	xor	edi, edi
-.LBB1_806:
-	test	r9b, 1
-	je	.LBB1_808
-# %bb.807:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_808:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_809
-.LBB1_813:
-	xor	edi, edi
-.LBB1_814:
-	test	r9b, 1
-	je	.LBB1_816
-# %bb.815:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_816:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_817
-.LBB1_821:
-	xor	edi, edi
-.LBB1_822:
-	test	r9b, 1
-	je	.LBB1_824
-# %bb.823:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_824:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_825
-.LBB1_829:
-	xor	edi, edi
-.LBB1_830:
-	test	r9b, 1
-	je	.LBB1_832
-# %bb.831:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_832:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_833
-.LBB1_837:
-	xor	edi, edi
-.LBB1_838:
-	test	r9b, 1
-	je	.LBB1_840
-# %bb.839:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_840:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_841
-.LBB1_845:
-	xor	edi, edi
-.LBB1_846:
-	test	r9b, 1
-	je	.LBB1_848
-# %bb.847:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_848:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_849
-.LBB1_853:
-	xor	edi, edi
-.LBB1_854:
-	test	r9b, 1
-	je	.LBB1_856
-# %bb.855:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_856:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_857
-.LBB1_861:
-	xor	edi, edi
-.LBB1_862:
-	test	r9b, 1
-	je	.LBB1_864
-# %bb.863:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_864:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_865
-.LBB1_869:
-	xor	edi, edi
-.LBB1_870:
-	test	r9b, 1
-	je	.LBB1_872
-# %bb.871:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_872:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_873
-.LBB1_877:
-	xor	edi, edi
-.LBB1_878:
-	test	r9b, 1
-	je	.LBB1_880
-# %bb.879:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_880:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_881
-.LBB1_885:
-	xor	edi, edi
-.LBB1_886:
-	test	r9b, 1
-	je	.LBB1_888
-# %bb.887:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB1_888:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_889
-.LBB1_893:
-	xor	edi, edi
-.LBB1_894:
-	test	r9b, 1
-	je	.LBB1_896
-# %bb.895:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_896:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_897
-.LBB1_901:
-	xor	edi, edi
-.LBB1_902:
-	test	r9b, 1
-	je	.LBB1_904
-# %bb.903:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_904:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_905
-.LBB1_909:
-	xor	edi, edi
-.LBB1_910:
-	test	r9b, 1
-	je	.LBB1_912
-# %bb.911:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_912:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_913
-.LBB1_917:
-	xor	edi, edi
-.LBB1_918:
-	test	r9b, 1
-	je	.LBB1_920
-# %bb.919:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_920:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_921
-.LBB1_925:
-	xor	edi, edi
-.LBB1_926:
-	test	r9b, 1
-	je	.LBB1_928
-# %bb.927:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_928:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_929
-.LBB1_933:
-	xor	edi, edi
-.LBB1_934:
-	test	r9b, 1
-	je	.LBB1_936
-# %bb.935:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_936:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_937
-.LBB1_941:
-	xor	edi, edi
-.LBB1_942:
-	test	r9b, 1
-	je	.LBB1_944
-# %bb.943:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_944:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_945
-.LBB1_949:
-	xor	edi, edi
-.LBB1_950:
-	test	r9b, 1
-	je	.LBB1_952
-# %bb.951:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_952:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_953
-.LBB1_957:
-	xor	edi, edi
-.LBB1_958:
-	test	r9b, 1
-	je	.LBB1_960
-# %bb.959:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB1_960:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_961
-.LBB1_965:
-	xor	edi, edi
-.LBB1_966:
-	test	r9b, 1
-	je	.LBB1_968
-# %bb.967:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_968:
-	cmp	rcx, rax
-	je	.LBB1_1069
-	jmp	.LBB1_969
-.LBB1_973:
-	xor	eax, eax
-.LBB1_974:
-	test	r9b, 1
-	je	.LBB1_976
-# %bb.975:
-	movdqu	xmm2, xmmword ptr [rdx + rax]
-	movdqu	xmm3, xmmword ptr [rdx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI1_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB1_976:
-	cmp	rdi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_977
-.LBB1_981:
-	xor	eax, eax
-.LBB1_982:
-	test	r9b, 1
-	je	.LBB1_984
-# %bb.983:
-	movdqu	xmm2, xmmword ptr [rdx + rax]
-	movdqu	xmm3, xmmword ptr [rdx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI1_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB1_984:
-	cmp	rdi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_985
-.LBB1_989:
-	xor	edi, edi
-.LBB1_990:
-	test	r9b, 1
-	je	.LBB1_992
-# %bb.991:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_992:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_993
-.LBB1_997:
-	xor	edi, edi
-.LBB1_998:
-	test	r9b, 1
-	je	.LBB1_1000
-# %bb.999:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_1000:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1001
-.LBB1_1005:
-	xor	edi, edi
-.LBB1_1006:
-	test	r9b, 1
-	je	.LBB1_1008
-# %bb.1007:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_1008:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1009
-.LBB1_1013:
-	xor	edi, edi
-.LBB1_1014:
-	test	r9b, 1
-	je	.LBB1_1016
-# %bb.1015:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB1_1016:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1017
-.LBB1_1021:
-	xor	edi, edi
-.LBB1_1022:
-	test	r9b, 1
-	je	.LBB1_1024
-# %bb.1023:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_1024:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1025
-.LBB1_1029:
-	xor	edi, edi
-.LBB1_1030:
-	test	r9b, 1
-	je	.LBB1_1032
-# %bb.1031:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_1032:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1033
-.LBB1_1037:
-	xor	edi, edi
-.LBB1_1038:
-	test	r9b, 1
-	je	.LBB1_1040
-# %bb.1039:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_1040:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1041
-.LBB1_1045:
-	xor	edi, edi
-.LBB1_1046:
-	test	r9b, 1
-	je	.LBB1_1048
-# %bb.1047:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_1048:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1049
-.LBB1_1053:
-	xor	edi, edi
-.LBB1_1054:
-	test	r9b, 1
-	je	.LBB1_1056
-# %bb.1055:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_1056:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1057
-.LBB1_1061:
-	xor	edi, edi
-.LBB1_1062:
-	test	r9b, 1
-	je	.LBB1_1064
-# %bb.1063:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB1_1064:
-	cmp	rsi, r10
-	je	.LBB1_1069
-	jmp	.LBB1_1065
-.Lfunc_end1:
-	.size	arithmetic_arr_scalar_sse4, .Lfunc_end1-arithmetic_arr_scalar_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function arithmetic_scalar_arr_sse4
-.LCPI2_0:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	arithmetic_scalar_arr_sse4
-	.p2align	4, 0x90
-	.type	arithmetic_scalar_arr_sse4,@function
-arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 20
-	jg	.LBB2_12
-# %bb.1:
-	test	sil, sil
-	je	.LBB2_23
-# %bb.2:
-	cmp	sil, 1
-	je	.LBB2_31
-# %bb.3:
-	cmp	sil, 2
-	jne	.LBB2_1069
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB2_55
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB2_97
-# %bb.6:
-	cmp	edi, 4
-	je	.LBB2_157
-# %bb.7:
-	cmp	edi, 5
-	je	.LBB2_160
-# %bb.8:
-	cmp	edi, 6
-	jne	.LBB2_1069
-# %bb.9:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.10:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_11
-# %bb.265:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_453
-# %bb.266:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_453
-.LBB2_11:
-	xor	esi, esi
-.LBB2_625:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_627
-.LBB2_626:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_626
-.LBB2_627:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_628:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_628
-	jmp	.LBB2_1069
-.LBB2_12:
-	cmp	sil, 21
-	je	.LBB2_39
-# %bb.13:
-	cmp	sil, 22
-	je	.LBB2_47
-# %bb.14:
-	cmp	sil, 23
-	jne	.LBB2_1069
-# %bb.15:
-	cmp	edi, 6
-	jg	.LBB2_62
-# %bb.16:
-	cmp	edi, 3
-	jle	.LBB2_102
-# %bb.17:
-	cmp	edi, 4
-	je	.LBB2_163
-# %bb.18:
-	cmp	edi, 5
-	je	.LBB2_166
-# %bb.19:
-	cmp	edi, 6
-	jne	.LBB2_1069
-# %bb.20:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.21:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_22
-# %bb.268:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_456
-# %bb.269:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_456
-.LBB2_22:
-	xor	esi, esi
-.LBB2_633:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_635
-.LBB2_634:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_634
-.LBB2_635:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_636:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_636
-	jmp	.LBB2_1069
-.LBB2_23:
-	cmp	edi, 6
-	jg	.LBB2_69
-# %bb.24:
-	cmp	edi, 3
-	jle	.LBB2_107
-# %bb.25:
-	cmp	edi, 4
-	je	.LBB2_169
-# %bb.26:
-	cmp	edi, 5
-	je	.LBB2_172
-# %bb.27:
-	cmp	edi, 6
-	jne	.LBB2_1069
-# %bb.28:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.29:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_30
-# %bb.271:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_459
-# %bb.272:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_459
-.LBB2_30:
-	xor	esi, esi
-.LBB2_641:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_643
-.LBB2_642:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_642
-.LBB2_643:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_644:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_644
-	jmp	.LBB2_1069
-.LBB2_31:
-	cmp	edi, 6
-	jg	.LBB2_76
-# %bb.32:
-	cmp	edi, 3
-	jle	.LBB2_112
-# %bb.33:
-	cmp	edi, 4
-	je	.LBB2_175
-# %bb.34:
-	cmp	edi, 5
-	je	.LBB2_178
-# %bb.35:
-	cmp	edi, 6
-	jne	.LBB2_1069
-# %bb.36:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.37:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_38
-# %bb.274:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_462
-# %bb.275:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_462
-.LBB2_38:
-	xor	esi, esi
-.LBB2_649:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_651
-.LBB2_650:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_650
-.LBB2_651:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_652:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_652
-	jmp	.LBB2_1069
-.LBB2_39:
-	cmp	edi, 6
-	jg	.LBB2_83
-# %bb.40:
-	cmp	edi, 3
-	jle	.LBB2_117
-# %bb.41:
-	cmp	edi, 4
-	je	.LBB2_181
-# %bb.42:
-	cmp	edi, 5
-	je	.LBB2_184
-# %bb.43:
-	cmp	edi, 6
-	jne	.LBB2_1069
-# %bb.44:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.45:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_46
-# %bb.277:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_465
-# %bb.278:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_465
-.LBB2_46:
-	xor	esi, esi
-.LBB2_657:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_659
-.LBB2_658:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_658
-.LBB2_659:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_660:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_660
-	jmp	.LBB2_1069
-.LBB2_47:
-	cmp	edi, 6
-	jg	.LBB2_90
-# %bb.48:
-	cmp	edi, 3
-	jle	.LBB2_122
-# %bb.49:
-	cmp	edi, 4
-	je	.LBB2_187
-# %bb.50:
-	cmp	edi, 5
-	je	.LBB2_190
-# %bb.51:
-	cmp	edi, 6
-	jne	.LBB2_1069
-# %bb.52:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.53:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_54
-# %bb.280:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_468
-# %bb.281:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_468
-.LBB2_54:
-	xor	esi, esi
-.LBB2_665:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_667
-.LBB2_666:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_666
-.LBB2_667:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_668:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_668
-	jmp	.LBB2_1069
-.LBB2_55:
-	cmp	edi, 8
-	jle	.LBB2_127
-# %bb.56:
-	cmp	edi, 9
-	je	.LBB2_193
-# %bb.57:
-	cmp	edi, 11
-	je	.LBB2_196
-# %bb.58:
-	cmp	edi, 12
-	jne	.LBB2_1069
-# %bb.59:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.60:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_61
-# %bb.283:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_471
-# %bb.284:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_471
-.LBB2_61:
-	xor	edx, edx
-.LBB2_673:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_675
-.LBB2_674:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_674
-.LBB2_675:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_676:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_676
-	jmp	.LBB2_1069
-.LBB2_62:
-	cmp	edi, 8
-	jle	.LBB2_132
-# %bb.63:
-	cmp	edi, 9
-	je	.LBB2_199
-# %bb.64:
-	cmp	edi, 11
-	je	.LBB2_202
-# %bb.65:
-	cmp	edi, 12
-	jne	.LBB2_1069
-# %bb.66:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.67:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_68
-# %bb.286:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_474
-# %bb.287:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_474
-.LBB2_68:
-	xor	edx, edx
-.LBB2_681:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_683
-.LBB2_682:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_682
-.LBB2_683:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_684:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
-	mulsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_684
-	jmp	.LBB2_1069
-.LBB2_69:
-	cmp	edi, 8
-	jle	.LBB2_137
-# %bb.70:
-	cmp	edi, 9
-	je	.LBB2_205
-# %bb.71:
-	cmp	edi, 11
-	je	.LBB2_208
-# %bb.72:
-	cmp	edi, 12
-	jne	.LBB2_1069
-# %bb.73:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.74:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_75
-# %bb.289:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_477
-# %bb.290:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_477
-.LBB2_75:
-	xor	edx, edx
-.LBB2_689:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_691
-.LBB2_690:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_690
-.LBB2_691:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_692:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_692
-	jmp	.LBB2_1069
-.LBB2_76:
-	cmp	edi, 8
-	jle	.LBB2_142
-# %bb.77:
-	cmp	edi, 9
-	je	.LBB2_211
-# %bb.78:
-	cmp	edi, 11
-	je	.LBB2_214
-# %bb.79:
-	cmp	edi, 12
-	jne	.LBB2_1069
-# %bb.80:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.81:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_82
-# %bb.292:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_480
-# %bb.293:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_480
-.LBB2_82:
-	xor	edx, edx
-.LBB2_697:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_699
-.LBB2_698:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx]
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_698
-.LBB2_699:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_700:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx]
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 8]
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 16]
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 24]
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_700
-	jmp	.LBB2_1069
-.LBB2_83:
-	cmp	edi, 8
-	jle	.LBB2_147
-# %bb.84:
-	cmp	edi, 9
-	je	.LBB2_217
-# %bb.85:
-	cmp	edi, 11
-	je	.LBB2_220
-# %bb.86:
-	cmp	edi, 12
-	jne	.LBB2_1069
-# %bb.87:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.88:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_89
-# %bb.295:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_483
-# %bb.296:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_483
-.LBB2_89:
-	xor	edx, edx
-.LBB2_705:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_707
-.LBB2_706:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_706
-.LBB2_707:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_708:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_708
-	jmp	.LBB2_1069
-.LBB2_90:
-	cmp	edi, 8
-	jle	.LBB2_152
-# %bb.91:
-	cmp	edi, 9
-	je	.LBB2_223
-# %bb.92:
-	cmp	edi, 11
-	je	.LBB2_226
-# %bb.93:
-	cmp	edi, 12
-	jne	.LBB2_1069
-# %bb.94:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.95:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_96
-# %bb.298:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_486
-# %bb.299:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_486
-.LBB2_96:
-	xor	edx, edx
-.LBB2_713:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_715
-.LBB2_714:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx]
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_714
-.LBB2_715:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_716:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx]
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 8]
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 16]
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 24]
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_716
-	jmp	.LBB2_1069
-.LBB2_97:
-	cmp	edi, 2
-	je	.LBB2_229
-# %bb.98:
-	cmp	edi, 3
-	jne	.LBB2_1069
-# %bb.99:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.100:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_101
-# %bb.301:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_489
-# %bb.302:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_489
-.LBB2_101:
-	xor	edi, edi
-.LBB2_721:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_723
-.LBB2_722:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_722
-.LBB2_723:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_724:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_724
-	jmp	.LBB2_1069
-.LBB2_102:
-	cmp	edi, 2
-	je	.LBB2_232
-# %bb.103:
-	cmp	edi, 3
-	jne	.LBB2_1069
-# %bb.104:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.105:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_106
-# %bb.304:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_492
-# %bb.305:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_492
-.LBB2_106:
-	xor	edi, edi
-.LBB2_729:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_731
-.LBB2_730:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_730
-.LBB2_731:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_732:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_732
-	jmp	.LBB2_1069
-.LBB2_107:
-	cmp	edi, 2
-	je	.LBB2_235
-# %bb.108:
-	cmp	edi, 3
-	jne	.LBB2_1069
-# %bb.109:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.110:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_111
-# %bb.307:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_495
-# %bb.308:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_495
-.LBB2_111:
-	xor	esi, esi
-.LBB2_737:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_739
-.LBB2_738:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_738
-.LBB2_739:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_740:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_740
-	jmp	.LBB2_1069
-.LBB2_112:
-	cmp	edi, 2
-	je	.LBB2_238
-# %bb.113:
-	cmp	edi, 3
-	jne	.LBB2_1069
-# %bb.114:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.115:
-	mov	r11b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_116
-# %bb.310:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_498
-# %bb.311:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_498
-.LBB2_116:
-	xor	esi, esi
-.LBB2_745:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_747
-.LBB2_746:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_746
-.LBB2_747:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_748:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_748
-	jmp	.LBB2_1069
-.LBB2_117:
-	cmp	edi, 2
-	je	.LBB2_241
-# %bb.118:
-	cmp	edi, 3
-	jne	.LBB2_1069
-# %bb.119:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.120:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_121
-# %bb.313:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_501
-# %bb.314:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_501
-.LBB2_121:
-	xor	esi, esi
-.LBB2_753:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_755
-.LBB2_754:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_754
-.LBB2_755:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_756:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_756
-	jmp	.LBB2_1069
-.LBB2_122:
-	cmp	edi, 2
-	je	.LBB2_244
-# %bb.123:
-	cmp	edi, 3
-	jne	.LBB2_1069
-# %bb.124:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.125:
-	mov	r11b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_126
-# %bb.316:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_504
-# %bb.317:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_504
-.LBB2_126:
-	xor	esi, esi
-.LBB2_761:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_763
-.LBB2_762:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_762
-.LBB2_763:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_764:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_764
-	jmp	.LBB2_1069
-.LBB2_127:
-	cmp	edi, 7
-	je	.LBB2_247
-# %bb.128:
-	cmp	edi, 8
-	jne	.LBB2_1069
-# %bb.129:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.130:
-	mov	rax, qword ptr [rdx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB2_319
-# %bb.131:
-	xor	edi, edi
-	jmp	.LBB2_321
-.LBB2_132:
-	cmp	edi, 7
-	je	.LBB2_250
-# %bb.133:
-	cmp	edi, 8
-	jne	.LBB2_1069
-# %bb.134:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.135:
-	mov	rax, qword ptr [rdx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB2_324
-# %bb.136:
-	xor	edi, edi
-	jmp	.LBB2_326
-.LBB2_137:
-	cmp	edi, 7
-	je	.LBB2_253
-# %bb.138:
-	cmp	edi, 8
-	jne	.LBB2_1069
-# %bb.139:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.140:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_141
-# %bb.329:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_507
-# %bb.330:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_507
-.LBB2_141:
-	xor	esi, esi
-.LBB2_769:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_771
-.LBB2_770:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_770
-.LBB2_771:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_772:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_772
-	jmp	.LBB2_1069
-.LBB2_142:
-	cmp	edi, 7
-	je	.LBB2_256
-# %bb.143:
-	cmp	edi, 8
-	jne	.LBB2_1069
-# %bb.144:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.145:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_146
-# %bb.332:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_510
-# %bb.333:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_510
-.LBB2_146:
-	xor	esi, esi
-.LBB2_777:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_779
-.LBB2_778:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_778
-.LBB2_779:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_780:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_780
-	jmp	.LBB2_1069
-.LBB2_147:
-	cmp	edi, 7
-	je	.LBB2_259
-# %bb.148:
-	cmp	edi, 8
-	jne	.LBB2_1069
-# %bb.149:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.150:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_151
-# %bb.335:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_513
-# %bb.336:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_513
-.LBB2_151:
-	xor	esi, esi
-.LBB2_785:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_787
-.LBB2_786:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_786
-.LBB2_787:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_788:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_788
-	jmp	.LBB2_1069
-.LBB2_152:
-	cmp	edi, 7
-	je	.LBB2_262
-# %bb.153:
-	cmp	edi, 8
-	jne	.LBB2_1069
-# %bb.154:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.155:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_156
-# %bb.338:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_516
-# %bb.339:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_516
-.LBB2_156:
-	xor	esi, esi
-.LBB2_793:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_795
-.LBB2_794:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_794
-.LBB2_795:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_796:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_796
-	jmp	.LBB2_1069
-.LBB2_157:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.158:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_159
-# %bb.341:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_519
-# %bb.342:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_519
-.LBB2_159:
-	xor	esi, esi
-.LBB2_801:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_803
-.LBB2_802:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_802
-.LBB2_803:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_804:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_804
-	jmp	.LBB2_1069
-.LBB2_160:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.161:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_162
-# %bb.344:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_522
-# %bb.345:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_522
-.LBB2_162:
-	xor	esi, esi
-.LBB2_809:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_811
-.LBB2_810:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_810
-.LBB2_811:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_812:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_812
-	jmp	.LBB2_1069
-.LBB2_163:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.164:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_165
-# %bb.347:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_525
-# %bb.348:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_525
-.LBB2_165:
-	xor	esi, esi
-.LBB2_817:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_819
-.LBB2_818:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_818
-.LBB2_819:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_820:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_820
-	jmp	.LBB2_1069
-.LBB2_166:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.167:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_168
-# %bb.350:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_528
-# %bb.351:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_528
-.LBB2_168:
-	xor	esi, esi
-.LBB2_825:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_827
-.LBB2_826:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_826
-.LBB2_827:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_828:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	imul	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_828
-	jmp	.LBB2_1069
-.LBB2_169:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.170:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_171
-# %bb.353:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_531
-# %bb.354:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_531
-.LBB2_171:
-	xor	esi, esi
-.LBB2_833:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_835
-.LBB2_834:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_834
-.LBB2_835:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_836:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_836
-	jmp	.LBB2_1069
-.LBB2_172:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.173:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_174
-# %bb.356:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_534
-# %bb.357:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_534
-.LBB2_174:
-	xor	esi, esi
-.LBB2_841:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_843
-.LBB2_842:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_842
-.LBB2_843:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_844:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_844
-	jmp	.LBB2_1069
-.LBB2_175:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.176:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_177
-# %bb.359:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_537
-# %bb.360:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_537
-.LBB2_177:
-	xor	esi, esi
-.LBB2_849:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_851
-.LBB2_850:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_850
-.LBB2_851:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_852:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_852
-	jmp	.LBB2_1069
-.LBB2_178:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.179:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_180
-# %bb.362:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_540
-# %bb.363:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_540
-.LBB2_180:
-	xor	esi, esi
-.LBB2_857:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_859
-.LBB2_858:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_858
-.LBB2_859:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_860:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_860
-	jmp	.LBB2_1069
-.LBB2_181:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.182:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_183
-# %bb.365:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_543
-# %bb.366:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_543
-.LBB2_183:
-	xor	esi, esi
-.LBB2_865:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_867
-.LBB2_866:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_866
-.LBB2_867:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_868:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_868
-	jmp	.LBB2_1069
-.LBB2_184:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.185:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_186
-# %bb.368:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_546
-# %bb.369:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_546
-.LBB2_186:
-	xor	esi, esi
-.LBB2_873:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_875
-.LBB2_874:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_874
-.LBB2_875:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_876:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_876
-	jmp	.LBB2_1069
-.LBB2_187:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.188:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_189
-# %bb.371:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_549
-# %bb.372:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_549
-.LBB2_189:
-	xor	esi, esi
-.LBB2_881:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_883
-.LBB2_882:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_882
-.LBB2_883:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_884:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_884
-	jmp	.LBB2_1069
-.LBB2_190:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.191:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_192
-# %bb.374:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_552
-# %bb.375:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_552
-.LBB2_192:
-	xor	esi, esi
-.LBB2_889:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_891
-.LBB2_890:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_890
-.LBB2_891:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_892:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_892
-	jmp	.LBB2_1069
-.LBB2_193:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.194:
-	mov	rax, qword ptr [rdx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB2_377
-# %bb.195:
-	xor	edi, edi
-	jmp	.LBB2_379
-.LBB2_196:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.197:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_198
-# %bb.382:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_555
-# %bb.383:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_555
-.LBB2_198:
-	xor	edx, edx
-.LBB2_897:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_899
-.LBB2_898:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_898
-.LBB2_899:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_900:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_900
-	jmp	.LBB2_1069
-.LBB2_199:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.200:
-	mov	rax, qword ptr [rdx]
-	mov	esi, r9d
-	lea	rdi, [rsi - 1]
-	mov	r9d, esi
-	and	r9d, 3
-	cmp	rdi, 3
-	jae	.LBB2_385
-# %bb.201:
-	xor	edi, edi
-	jmp	.LBB2_387
-.LBB2_202:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.203:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_204
-# %bb.390:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_558
-# %bb.391:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_558
-.LBB2_204:
-	xor	edx, edx
-.LBB2_905:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_907
-.LBB2_906:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_906
-.LBB2_907:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_908:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
-	mulss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_908
-	jmp	.LBB2_1069
-.LBB2_205:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.206:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_207
-# %bb.393:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_561
-# %bb.394:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_561
-.LBB2_207:
-	xor	esi, esi
-.LBB2_913:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_915
-.LBB2_914:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_914
-.LBB2_915:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_916:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_916
-	jmp	.LBB2_1069
-.LBB2_208:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.209:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_210
-# %bb.396:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_564
-# %bb.397:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_564
-.LBB2_210:
-	xor	edx, edx
-.LBB2_921:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_923
-.LBB2_922:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_922
-.LBB2_923:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_924:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_924
-	jmp	.LBB2_1069
-.LBB2_211:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.212:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_213
-# %bb.399:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_567
-# %bb.400:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_567
-.LBB2_213:
-	xor	esi, esi
-.LBB2_929:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_931
-.LBB2_930:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_930
-.LBB2_931:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_932:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_932
-	jmp	.LBB2_1069
-.LBB2_214:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.215:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_216
-# %bb.402:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_570
-# %bb.403:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_570
-.LBB2_216:
-	xor	edx, edx
-.LBB2_937:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_939
-.LBB2_938:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx]
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_938
-.LBB2_939:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_940:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx]
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 4]
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 8]
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 12]
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_940
-	jmp	.LBB2_1069
-.LBB2_217:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.218:
-	mov	rax, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_219
-# %bb.405:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_573
-# %bb.406:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_573
-.LBB2_219:
-	xor	esi, esi
-.LBB2_945:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_947
-.LBB2_946:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_946
-.LBB2_947:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_948:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_948
-	jmp	.LBB2_1069
-.LBB2_220:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.221:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_222
-# %bb.408:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_576
-# %bb.409:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_576
-.LBB2_222:
-	xor	edx, edx
-.LBB2_953:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_955
-.LBB2_954:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_954
-.LBB2_955:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_956:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_956
-	jmp	.LBB2_1069
-.LBB2_223:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.224:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_225
-# %bb.411:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_579
-# %bb.412:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_579
-.LBB2_225:
-	xor	esi, esi
-.LBB2_961:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_963
-.LBB2_962:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_962
-.LBB2_963:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_964:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_964
-	jmp	.LBB2_1069
-.LBB2_226:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.227:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_228
-# %bb.414:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_582
-# %bb.415:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_582
-.LBB2_228:
-	xor	edx, edx
-.LBB2_969:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_971
-.LBB2_970:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx]
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_970
-.LBB2_971:
-	cmp	rsi, 3
-	jb	.LBB2_1069
-.LBB2_972:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx]
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 4]
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 8]
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 12]
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_972
-	jmp	.LBB2_1069
-.LBB2_229:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.230:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_231
-# %bb.417:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_585
-# %bb.418:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_585
-.LBB2_231:
-	xor	edi, edi
-.LBB2_977:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_979
-.LBB2_978:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_978
-.LBB2_979:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_980:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_980
-	jmp	.LBB2_1069
-.LBB2_232:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.233:
-	mov	dl, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_234
-# %bb.420:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_588
-# %bb.421:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_588
-.LBB2_234:
-	xor	edi, edi
-.LBB2_985:
-	mov	r9, rdi
-	not	r9
-	add	r9, r10
-	mov	rsi, r10
-	and	rsi, 3
-	je	.LBB2_987
-.LBB2_986:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	add	rdi, 1
-	add	rsi, -1
-	jne	.LBB2_986
-.LBB2_987:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_988:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdi]
-	mul	dl
-	mov	byte ptr [r8 + rdi], al
-	movzx	eax, byte ptr [rcx + rdi + 1]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 1], al
-	movzx	eax, byte ptr [rcx + rdi + 2]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 2], al
-	movzx	eax, byte ptr [rcx + rdi + 3]
-	mul	dl
-	mov	byte ptr [r8 + rdi + 3], al
-	add	rdi, 4
-	cmp	r10, rdi
-	jne	.LBB2_988
-	jmp	.LBB2_1069
-.LBB2_235:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.236:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_237
-# %bb.423:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_591
-# %bb.424:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_591
-.LBB2_237:
-	xor	esi, esi
-.LBB2_993:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_995
-.LBB2_994:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_994
-.LBB2_995:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_996:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_996
-	jmp	.LBB2_1069
-.LBB2_238:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.239:
-	mov	r11b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_240
-# %bb.426:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_594
-# %bb.427:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_594
-.LBB2_240:
-	xor	esi, esi
-.LBB2_1001:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1003
-.LBB2_1002:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1002
-.LBB2_1003:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_1004:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1004
-	jmp	.LBB2_1069
-.LBB2_241:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.242:
-	mov	al, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_243
-# %bb.429:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_597
-# %bb.430:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_597
-.LBB2_243:
-	xor	esi, esi
-.LBB2_1009:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1011
-.LBB2_1010:                             # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1010
-.LBB2_1011:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_1012:                             # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1012
-	jmp	.LBB2_1069
-.LBB2_244:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.245:
-	mov	r11b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_246
-# %bb.432:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_600
-# %bb.433:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_600
-.LBB2_246:
-	xor	esi, esi
-.LBB2_1017:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1019
-.LBB2_1018:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1018
-.LBB2_1019:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_1020:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1020
-	jmp	.LBB2_1069
-.LBB2_247:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.248:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_249
-# %bb.435:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_603
-# %bb.436:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_603
-.LBB2_249:
-	xor	esi, esi
-.LBB2_1025:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1027
-.LBB2_1026:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1026
-.LBB2_1027:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_1028:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1028
-	jmp	.LBB2_1069
-.LBB2_250:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.251:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_252
-# %bb.438:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_606
-# %bb.439:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_606
-.LBB2_252:
-	xor	esi, esi
-.LBB2_1033:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1035
-.LBB2_1034:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1034
-.LBB2_1035:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_1036:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	imul	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1036
-	jmp	.LBB2_1069
-.LBB2_253:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.254:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_255
-# %bb.441:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_609
-# %bb.442:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_609
-.LBB2_255:
-	xor	esi, esi
-.LBB2_1041:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1043
-.LBB2_1042:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1042
-.LBB2_1043:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_1044:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1044
-	jmp	.LBB2_1069
-.LBB2_256:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.257:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_258
-# %bb.444:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_612
-# %bb.445:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_612
-.LBB2_258:
-	xor	esi, esi
-.LBB2_1049:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1051
-.LBB2_1050:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1050
-.LBB2_1051:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_1052:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1052
-	jmp	.LBB2_1069
-.LBB2_259:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.260:
-	mov	eax, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_261
-# %bb.447:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_615
-# %bb.448:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_615
-.LBB2_261:
-	xor	esi, esi
-.LBB2_1057:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1059
-.LBB2_1058:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1058
-.LBB2_1059:
-	cmp	r9, 3
-	jb	.LBB2_1069
-.LBB2_1060:                             # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1060
-	jmp	.LBB2_1069
-.LBB2_262:
-	test	r9d, r9d
-	jle	.LBB2_1069
-# %bb.263:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_264
-# %bb.450:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_618
-# %bb.451:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_618
-.LBB2_264:
-	xor	esi, esi
-.LBB2_1065:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB2_1067
-.LBB2_1066:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_1066
-.LBB2_1067:
-	cmp	rdx, 3
-	jb	.LBB2_1069
-.LBB2_1068:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_1068
-	jmp	.LBB2_1069
-.LBB2_319:
-	and	esi, -4
-	xor	edi, edi
-.LBB2_320:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rdx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB2_320
-.LBB2_321:
-	test	r9, r9
-	je	.LBB2_1069
-# %bb.322:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	xor	edi, edi
-.LBB2_323:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [rsi + 8*rdi], rdx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB2_323
-	jmp	.LBB2_1069
-.LBB2_324:
-	and	esi, -4
-	xor	edi, edi
-.LBB2_325:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rdx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB2_325
-.LBB2_326:
-	test	r9, r9
-	je	.LBB2_1069
-# %bb.327:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	xor	edi, edi
-.LBB2_328:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [rsi + 8*rdi], rdx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB2_328
-	jmp	.LBB2_1069
-.LBB2_377:
-	and	esi, -4
-	xor	edi, edi
-.LBB2_378:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rdx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB2_378
-.LBB2_379:
-	test	r9, r9
-	je	.LBB2_1069
-# %bb.380:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	xor	edi, edi
-.LBB2_381:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [rsi + 8*rdi], rdx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB2_381
-	jmp	.LBB2_1069
-.LBB2_385:
-	and	esi, -4
-	xor	edi, edi
-.LBB2_386:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 8]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 16]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rdi + 24]
-	imul	rdx, rax
-	mov	qword ptr [r8 + 8*rdi + 24], rdx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB2_386
-.LBB2_387:
-	test	r9, r9
-	je	.LBB2_1069
-# %bb.388:
-	lea	rsi, [r8 + 8*rdi]
-	lea	rcx, [rcx + 8*rdi]
-	xor	edi, edi
-.LBB2_389:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rdi]
-	imul	rdx, rax
-	mov	qword ptr [rsi + 8*rdi], rdx
-	add	rdi, 1
-	cmp	r9, rdi
-	jne	.LBB2_389
-.LBB2_1069:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB2_453:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_621
-# %bb.454:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_455:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_455
-	jmp	.LBB2_622
-.LBB2_456:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_629
-# %bb.457:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_458:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_458
-	jmp	.LBB2_630
-.LBB2_459:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_637
-# %bb.460:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_461:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_461
-	jmp	.LBB2_638
-.LBB2_462:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r11d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_645
-# %bb.463:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_464:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_464
-	jmp	.LBB2_646
-.LBB2_465:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_653
-# %bb.466:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_467:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_467
-	jmp	.LBB2_654
-.LBB2_468:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r11d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_661
-# %bb.469:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_470:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_470
-	jmp	.LBB2_662
-.LBB2_471:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_669
-# %bb.472:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_473:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_473
-	jmp	.LBB2_670
-.LBB2_474:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_677
-# %bb.475:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_476:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_476
-	jmp	.LBB2_678
-.LBB2_477:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_685
-# %bb.478:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_479:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_479
-	jmp	.LBB2_686
-.LBB2_480:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_693
-# %bb.481:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_482:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	movapd	xmm2, xmm1
-	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	movapd	xmm2, xmm1
-	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_482
-	jmp	.LBB2_694
-.LBB2_483:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_701
-# %bb.484:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_485:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_485
-	jmp	.LBB2_702
-.LBB2_486:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_709
-# %bb.487:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_488:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	movapd	xmm2, xmm1
-	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	movapd	xmm2, xmm1
-	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_488
-	jmp	.LBB2_710
-.LBB2_489:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, dl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB2_717
-# %bb.490:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI2_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB2_491:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + rax]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB2_491
-	jmp	.LBB2_718
-.LBB2_492:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, dl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB2_725
-# %bb.493:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI2_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB2_494:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + rax]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB2_494
-	jmp	.LBB2_726
-.LBB2_495:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, al
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_733
-# %bb.496:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_497:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_497
-	jmp	.LBB2_734
-.LBB2_498:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, r11b
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_741
-# %bb.499:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_500:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_500
-	jmp	.LBB2_742
-.LBB2_501:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, al
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_749
-# %bb.502:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_503:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_503
-	jmp	.LBB2_750
-.LBB2_504:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, r11b
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_757
-# %bb.505:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_506:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_506
-	jmp	.LBB2_758
-.LBB2_507:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_765
-# %bb.508:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_509:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_509
-	jmp	.LBB2_766
-.LBB2_510:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r11
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_773
-# %bb.511:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_512:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_512
-	jmp	.LBB2_774
-.LBB2_513:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_781
-# %bb.514:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_515:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_515
-	jmp	.LBB2_782
-.LBB2_516:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r11
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_789
-# %bb.517:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_518:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_518
-	jmp	.LBB2_790
-.LBB2_519:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_797
-# %bb.520:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_521:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_521
-	jmp	.LBB2_798
-.LBB2_522:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_805
-# %bb.523:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_524:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_524
-	jmp	.LBB2_806
-.LBB2_525:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_813
-# %bb.526:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_527:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_527
-	jmp	.LBB2_814
-.LBB2_528:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_821
-# %bb.529:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_530:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_530
-	jmp	.LBB2_822
-.LBB2_531:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_829
-# %bb.532:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_533:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_533
-	jmp	.LBB2_830
-.LBB2_534:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_837
-# %bb.535:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_536:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_536
-	jmp	.LBB2_838
-.LBB2_537:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_845
-# %bb.538:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_539:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_539
-	jmp	.LBB2_846
-.LBB2_540:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_853
-# %bb.541:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_542:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_542
-	jmp	.LBB2_854
-.LBB2_543:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_861
-# %bb.544:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_545:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_545
-	jmp	.LBB2_862
-.LBB2_546:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_869
-# %bb.547:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_548:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_548
-	jmp	.LBB2_870
-.LBB2_549:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_877
-# %bb.550:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_551:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_551
-	jmp	.LBB2_878
-.LBB2_552:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_885
-# %bb.553:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_554:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rdx, 2
-	jne	.LBB2_554
-	jmp	.LBB2_886
-.LBB2_555:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_893
-# %bb.556:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_557:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_557
-	jmp	.LBB2_894
-.LBB2_558:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_901
-# %bb.559:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_560:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_560
-	jmp	.LBB2_902
-.LBB2_561:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_909
-# %bb.562:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_563:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_563
-	jmp	.LBB2_910
-.LBB2_564:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_917
-# %bb.565:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_566:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_566
-	jmp	.LBB2_918
-.LBB2_567:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r11
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_925
-# %bb.568:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_569:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_569
-	jmp	.LBB2_926
-.LBB2_570:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_933
-# %bb.571:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_572:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rdi], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_572
-	jmp	.LBB2_934
-.LBB2_573:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_941
-# %bb.574:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_575:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_575
-	jmp	.LBB2_942
-.LBB2_576:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_949
-# %bb.577:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_578:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_578
-	jmp	.LBB2_950
-.LBB2_579:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r11
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_957
-# %bb.580:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_581:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB2_581
-	jmp	.LBB2_958
-.LBB2_582:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB2_965
-# %bb.583:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_584:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rdi], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_584
-	jmp	.LBB2_966
-.LBB2_585:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, dl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB2_973
-# %bb.586:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI2_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB2_587:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + rax]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB2_587
-	jmp	.LBB2_974
-.LBB2_588:
-	mov	edi, r10d
-	and	edi, -32
-	movzx	eax, dl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rdi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	test	rax, rax
-	je	.LBB2_981
-# %bb.589:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI2_0] # xmm3 = [255,255,255,255,255,255,255,255]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-.LBB2_590:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + rax]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
-	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
-	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm5, xmm2
-	pand	xmm5, xmm3
-	pmullw	xmm7, xmm1
-	pand	xmm7, xmm3
-	packuswb	xmm7, xmm5
-	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
-	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm6, xmm4
-	pand	xmm6, xmm3
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm3
-	packuswb	xmm5, xmm6
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB2_590
-	jmp	.LBB2_982
-.LBB2_591:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, al
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_989
-# %bb.592:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_593:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_593
-	jmp	.LBB2_990
-.LBB2_594:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, r11b
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_997
-# %bb.595:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_596:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_596
-	jmp	.LBB2_998
-.LBB2_597:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, al
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1005
-# %bb.598:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_599:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_599
-	jmp	.LBB2_1006
-.LBB2_600:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, r11b
-	movd	xmm0, edx
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1013
-# %bb.601:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_602:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rdx, 2
-	jne	.LBB2_602
-	jmp	.LBB2_1014
-.LBB2_603:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1021
-# %bb.604:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_605:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_605
-	jmp	.LBB2_1022
-.LBB2_606:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1029
-# %bb.607:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_608:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_608
-	jmp	.LBB2_1030
-.LBB2_609:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1037
-# %bb.610:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_611:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_611
-	jmp	.LBB2_1038
-.LBB2_612:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r11d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1045
-# %bb.613:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_614:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_614
-	jmp	.LBB2_1046
-.LBB2_615:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1053
-# %bb.616:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_617:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_617
-	jmp	.LBB2_1054
-.LBB2_618:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r11d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_1061
-# %bb.619:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-.LBB2_620:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB2_620
-	jmp	.LBB2_1062
-.LBB2_621:
-	xor	edi, edi
-.LBB2_622:
-	test	r9b, 1
-	je	.LBB2_624
-# %bb.623:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_624:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_625
-.LBB2_629:
-	xor	edi, edi
-.LBB2_630:
-	test	r9b, 1
-	je	.LBB2_632
-# %bb.631:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_632:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_633
-.LBB2_637:
-	xor	edi, edi
-.LBB2_638:
-	test	r9b, 1
-	je	.LBB2_640
-# %bb.639:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_640:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_641
-.LBB2_645:
-	xor	edi, edi
-.LBB2_646:
-	test	r9b, 1
-	je	.LBB2_648
-# %bb.647:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB2_648:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_649
-.LBB2_653:
-	xor	edi, edi
-.LBB2_654:
-	test	r9b, 1
-	je	.LBB2_656
-# %bb.655:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_656:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_657
-.LBB2_661:
-	xor	edi, edi
-.LBB2_662:
-	test	r9b, 1
-	je	.LBB2_664
-# %bb.663:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB2_664:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_665
-.LBB2_669:
-	xor	edi, edi
-.LBB2_670:
-	test	r9b, 1
-	je	.LBB2_672
-# %bb.671:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB2_672:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_673
-.LBB2_677:
-	xor	edi, edi
-.LBB2_678:
-	test	r9b, 1
-	je	.LBB2_680
-# %bb.679:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	mulpd	xmm2, xmm1
-	mulpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB2_680:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_681
-.LBB2_685:
-	xor	edi, edi
-.LBB2_686:
-	test	r9b, 1
-	je	.LBB2_688
-# %bb.687:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB2_688:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_689
-.LBB2_693:
-	xor	edi, edi
-.LBB2_694:
-	test	r9b, 1
-	je	.LBB2_696
-# %bb.695:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	subpd	xmm1, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB2_696:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_697
-.LBB2_701:
-	xor	edi, edi
-.LBB2_702:
-	test	r9b, 1
-	je	.LBB2_704
-# %bb.703:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB2_704:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_705
-.LBB2_709:
-	xor	edi, edi
-.LBB2_710:
-	test	r9b, 1
-	je	.LBB2_712
-# %bb.711:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	subpd	xmm1, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB2_712:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_713
-.LBB2_717:
-	xor	eax, eax
-.LBB2_718:
-	test	r9b, 1
-	je	.LBB2_720
-# %bb.719:
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI2_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB2_720:
-	cmp	rdi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_721
-.LBB2_725:
-	xor	eax, eax
-.LBB2_726:
-	test	r9b, 1
-	je	.LBB2_728
-# %bb.727:
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI2_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB2_728:
-	cmp	rdi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_729
-.LBB2_733:
-	xor	edi, edi
-.LBB2_734:
-	test	r9b, 1
-	je	.LBB2_736
-# %bb.735:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB2_736:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_737
-.LBB2_741:
-	xor	edi, edi
-.LBB2_742:
-	test	r9b, 1
-	je	.LBB2_744
-# %bb.743:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB2_744:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_745
-.LBB2_749:
-	xor	edi, edi
-.LBB2_750:
-	test	r9b, 1
-	je	.LBB2_752
-# %bb.751:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB2_752:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_753
-.LBB2_757:
-	xor	edi, edi
-.LBB2_758:
-	test	r9b, 1
-	je	.LBB2_760
-# %bb.759:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB2_760:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_761
-.LBB2_765:
-	xor	edi, edi
-.LBB2_766:
-	test	r9b, 1
-	je	.LBB2_768
-# %bb.767:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB2_768:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_769
-.LBB2_773:
-	xor	edi, edi
-.LBB2_774:
-	test	r9b, 1
-	je	.LBB2_776
-# %bb.775:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB2_776:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_777
-.LBB2_781:
-	xor	edi, edi
-.LBB2_782:
-	test	r9b, 1
-	je	.LBB2_784
-# %bb.783:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB2_784:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_785
-.LBB2_789:
-	xor	edi, edi
-.LBB2_790:
-	test	r9b, 1
-	je	.LBB2_792
-# %bb.791:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB2_792:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_793
-.LBB2_797:
-	xor	edi, edi
-.LBB2_798:
-	test	r9b, 1
-	je	.LBB2_800
-# %bb.799:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_800:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_801
-.LBB2_805:
-	xor	edi, edi
-.LBB2_806:
-	test	r9b, 1
-	je	.LBB2_808
-# %bb.807:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_808:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_809
-.LBB2_813:
-	xor	edi, edi
-.LBB2_814:
-	test	r9b, 1
-	je	.LBB2_816
-# %bb.815:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_816:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_817
-.LBB2_821:
-	xor	edi, edi
-.LBB2_822:
-	test	r9b, 1
-	je	.LBB2_824
-# %bb.823:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	pmullw	xmm1, xmm0
-	pmullw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_824:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_825
-.LBB2_829:
-	xor	edi, edi
-.LBB2_830:
-	test	r9b, 1
-	je	.LBB2_832
-# %bb.831:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_832:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_833
-.LBB2_837:
-	xor	edi, edi
-.LBB2_838:
-	test	r9b, 1
-	je	.LBB2_840
-# %bb.839:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_840:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_841
-.LBB2_845:
-	xor	edi, edi
-.LBB2_846:
-	test	r9b, 1
-	je	.LBB2_848
-# %bb.847:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB2_848:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_849
-.LBB2_853:
-	xor	edi, edi
-.LBB2_854:
-	test	r9b, 1
-	je	.LBB2_856
-# %bb.855:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB2_856:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_857
-.LBB2_861:
-	xor	edi, edi
-.LBB2_862:
-	test	r9b, 1
-	je	.LBB2_864
-# %bb.863:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_864:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_865
-.LBB2_869:
-	xor	edi, edi
-.LBB2_870:
-	test	r9b, 1
-	je	.LBB2_872
-# %bb.871:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
-.LBB2_872:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_873
-.LBB2_877:
-	xor	edi, edi
-.LBB2_878:
-	test	r9b, 1
-	je	.LBB2_880
-# %bb.879:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB2_880:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_881
-.LBB2_885:
-	xor	edi, edi
-.LBB2_886:
-	test	r9b, 1
-	je	.LBB2_888
-# %bb.887:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB2_888:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_889
-.LBB2_893:
-	xor	edi, edi
-.LBB2_894:
-	test	r9b, 1
-	je	.LBB2_896
-# %bb.895:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB2_896:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_897
-.LBB2_901:
-	xor	edi, edi
-.LBB2_902:
-	test	r9b, 1
-	je	.LBB2_904
-# %bb.903:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	mulps	xmm2, xmm1
-	mulps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB2_904:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_905
-.LBB2_909:
-	xor	edi, edi
-.LBB2_910:
-	test	r9b, 1
-	je	.LBB2_912
-# %bb.911:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB2_912:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_913
-.LBB2_917:
-	xor	edi, edi
-.LBB2_918:
-	test	r9b, 1
-	je	.LBB2_920
-# %bb.919:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB2_920:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_921
-.LBB2_925:
-	xor	edi, edi
-.LBB2_926:
-	test	r9b, 1
-	je	.LBB2_928
-# %bb.927:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB2_928:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_929
-.LBB2_933:
-	xor	edi, edi
-.LBB2_934:
-	test	r9b, 1
-	je	.LBB2_936
-# %bb.935:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	subps	xmm1, xmm3
-	movups	xmmword ptr [r8 + 4*rdi], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB2_936:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_937
-.LBB2_941:
-	xor	edi, edi
-.LBB2_942:
-	test	r9b, 1
-	je	.LBB2_944
-# %bb.943:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
-.LBB2_944:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_945
-.LBB2_949:
-	xor	edi, edi
-.LBB2_950:
-	test	r9b, 1
-	je	.LBB2_952
-# %bb.951:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB2_952:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_953
-.LBB2_957:
-	xor	edi, edi
-.LBB2_958:
-	test	r9b, 1
-	je	.LBB2_960
-# %bb.959:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB2_960:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_961
-.LBB2_965:
-	xor	edi, edi
-.LBB2_966:
-	test	r9b, 1
-	je	.LBB2_968
-# %bb.967:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	subps	xmm1, xmm3
-	movups	xmmword ptr [r8 + 4*rdi], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB2_968:
-	cmp	rdx, rax
-	je	.LBB2_1069
-	jmp	.LBB2_969
-.LBB2_973:
-	xor	eax, eax
-.LBB2_974:
-	test	r9b, 1
-	je	.LBB2_976
-# %bb.975:
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI2_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB2_976:
-	cmp	rdi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_977
-.LBB2_981:
-	xor	eax, eax
-.LBB2_982:
-	test	r9b, 1
-	je	.LBB2_984
-# %bb.983:
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	movdqu	xmm3, xmmword ptr [rcx + rax + 16]
-	movdqa	xmm4, xmm0
-	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
-	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm2, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI2_0] # xmm4 = [255,255,255,255,255,255,255,255]
-	pand	xmm2, xmm4
-	pmullw	xmm5, xmm1
-	pand	xmm5, xmm4
-	packuswb	xmm5, xmm2
-	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
-	pmullw	xmm3, xmm0
-	pand	xmm3, xmm4
-	pmullw	xmm2, xmm1
-	pand	xmm2, xmm4
-	packuswb	xmm2, xmm3
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmmword ptr [r8 + rax + 16], xmm2
-.LBB2_984:
-	cmp	rdi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_985
-.LBB2_989:
-	xor	edi, edi
-.LBB2_990:
-	test	r9b, 1
-	je	.LBB2_992
-# %bb.991:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB2_992:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_993
-.LBB2_997:
-	xor	edi, edi
-.LBB2_998:
-	test	r9b, 1
-	je	.LBB2_1000
-# %bb.999:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB2_1000:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1001
-.LBB2_1005:
-	xor	edi, edi
-.LBB2_1006:
-	test	r9b, 1
-	je	.LBB2_1008
-# %bb.1007:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
-.LBB2_1008:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1009
-.LBB2_1013:
-	xor	edi, edi
-.LBB2_1014:
-	test	r9b, 1
-	je	.LBB2_1016
-# %bb.1015:
-	movdqu	xmm1, xmmword ptr [rcx + rdi]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB2_1016:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1017
-.LBB2_1021:
-	xor	edi, edi
-.LBB2_1022:
-	test	r9b, 1
-	je	.LBB2_1024
-# %bb.1023:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_1024:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1025
-.LBB2_1029:
-	xor	edi, edi
-.LBB2_1030:
-	test	r9b, 1
-	je	.LBB2_1032
-# %bb.1031:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_1032:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1033
-.LBB2_1037:
-	xor	edi, edi
-.LBB2_1038:
-	test	r9b, 1
-	je	.LBB2_1040
-# %bb.1039:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_1040:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1041
-.LBB2_1045:
-	xor	edi, edi
-.LBB2_1046:
-	test	r9b, 1
-	je	.LBB2_1048
-# %bb.1047:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB2_1048:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1049
-.LBB2_1053:
-	xor	edi, edi
-.LBB2_1054:
-	test	r9b, 1
-	je	.LBB2_1056
-# %bb.1055:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
-.LBB2_1056:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1057
-.LBB2_1061:
-	xor	edi, edi
-.LBB2_1062:
-	test	r9b, 1
-	je	.LBB2_1064
-# %bb.1063:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB2_1064:
-	cmp	rsi, r10
-	je	.LBB2_1069
-	jmp	.LBB2_1065
-.Lfunc_end2:
-	.size	arithmetic_scalar_arr_sse4, .Lfunc_end2-arithmetic_scalar_arr_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function arithmetic_unary_same_types_sse4
-.LCPI3_0:
-	.quad	0x8000000000000000              # double -0
-	.quad	0x8000000000000000              # double -0
-.LCPI3_1:
-	.quad	0x3ff0000000000000              # double 1
-	.quad	0x3ff0000000000000              # double 1
-.LCPI3_3:
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-.LCPI3_4:
-	.quad	1                               # 0x1
-	.quad	1                               # 0x1
-.LCPI3_5:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-.LCPI3_6:
-	.zero	16,1
-.LCPI3_7:
-	.long	0x80000000                      # float -0
-	.long	0x80000000                      # float -0
-	.long	0x80000000                      # float -0
-	.long	0x80000000                      # float -0
-.LCPI3_8:
-	.quad	9223372036854775807             # 0x7fffffffffffffff
-	.quad	9223372036854775807             # 0x7fffffffffffffff
-.LCPI3_9:
-	.long	2147483647                      # 0x7fffffff
-	.long	2147483647                      # 0x7fffffff
-	.long	2147483647                      # 0x7fffffff
-	.long	2147483647                      # 0x7fffffff
-.LCPI3_10:
-	.byte	255                             # 0xff
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	255                             # 0xff
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	255                             # 0xff
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	255                             # 0xff
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.byte	0                               # 0x0
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3
-.LCPI3_2:
-	.quad	0x3ff0000000000000              # double 1
-	.text
-	.globl	arithmetic_unary_same_types_sse4
-	.p2align	4, 0x90
-	.type	arithmetic_unary_same_types_sse4,@function
-arithmetic_unary_same_types_sse4:       # @arithmetic_unary_same_types_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	sil, 19
-	jle	.LBB3_12
-# %bb.1:
-	cmp	sil, 20
-	je	.LBB3_22
-# %bb.2:
-	cmp	sil, 25
-	je	.LBB3_30
-# %bb.3:
-	cmp	sil, 26
-	jne	.LBB3_923
-# %bb.4:
-	cmp	edi, 6
-	jg	.LBB3_46
-# %bb.5:
-	cmp	edi, 3
-	jle	.LBB3_81
-# %bb.6:
-	cmp	edi, 4
-	je	.LBB3_131
-# %bb.7:
-	cmp	edi, 5
-	je	.LBB3_134
-# %bb.8:
-	cmp	edi, 6
-	jne	.LBB3_923
-# %bb.9:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.10:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB3_221
-# %bb.11:
-	xor	edx, edx
-	jmp	.LBB3_373
-.LBB3_12:
-	cmp	sil, 4
-	je	.LBB3_38
-# %bb.13:
-	cmp	sil, 5
-	jne	.LBB3_923
-# %bb.14:
-	cmp	edi, 6
-	jg	.LBB3_53
-# %bb.15:
-	cmp	edi, 3
-	jle	.LBB3_86
-# %bb.16:
-	cmp	edi, 4
-	je	.LBB3_137
-# %bb.17:
-	cmp	edi, 5
-	je	.LBB3_140
-# %bb.18:
-	cmp	edi, 6
-	jne	.LBB3_923
-# %bb.19:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.20:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_21
-# %bb.223:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_374
-# %bb.224:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_374
-.LBB3_21:
-	xor	esi, esi
-.LBB3_614:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_616
-.LBB3_615:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_615
-.LBB3_616:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_617:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_617
-	jmp	.LBB3_923
-.LBB3_22:
-	cmp	edi, 6
-	jg	.LBB3_60
-# %bb.23:
-	cmp	edi, 3
-	jle	.LBB3_91
-# %bb.24:
-	cmp	edi, 4
-	je	.LBB3_143
-# %bb.25:
-	cmp	edi, 5
-	je	.LBB3_146
-# %bb.26:
-	cmp	edi, 6
-	jne	.LBB3_923
-# %bb.27:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.28:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_29
-# %bb.226:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_377
-# %bb.227:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_377
-.LBB3_29:
-	xor	esi, esi
-.LBB3_622:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_624
-.LBB3_623:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_623
-.LBB3_624:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_625:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi + 4], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi + 8], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	cmp	dword ptr [rdx + 4*rsi + 12], 0
-	setne	al
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_625
-	jmp	.LBB3_923
-.LBB3_30:
-	cmp	edi, 6
-	jg	.LBB3_67
-# %bb.31:
-	cmp	edi, 3
-	jle	.LBB3_96
-# %bb.32:
-	cmp	edi, 4
-	je	.LBB3_149
-# %bb.33:
-	cmp	edi, 5
-	je	.LBB3_152
-# %bb.34:
-	cmp	edi, 6
-	jne	.LBB3_923
-# %bb.35:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.36:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_37
-# %bb.229:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_380
-# %bb.230:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_380
-.LBB3_37:
-	xor	esi, esi
-.LBB3_536:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_538
-.LBB3_537:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_537
-.LBB3_538:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_539:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_539
-	jmp	.LBB3_923
-.LBB3_38:
-	cmp	edi, 6
-	jg	.LBB3_74
-# %bb.39:
-	cmp	edi, 3
-	jle	.LBB3_101
-# %bb.40:
-	cmp	edi, 4
-	je	.LBB3_155
-# %bb.41:
-	cmp	edi, 5
-	je	.LBB3_158
-# %bb.42:
-	cmp	edi, 6
-	jne	.LBB3_923
-# %bb.43:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.44:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_45
-# %bb.232:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_382
-# %bb.233:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_382
-.LBB3_45:
-	xor	esi, esi
-.LBB3_546:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_548
-.LBB3_547:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_547
-.LBB3_548:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_549:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_549
-	jmp	.LBB3_923
-.LBB3_46:
-	cmp	edi, 8
-	jle	.LBB3_106
-# %bb.47:
-	cmp	edi, 9
-	je	.LBB3_161
-# %bb.48:
-	cmp	edi, 11
-	je	.LBB3_164
-# %bb.49:
-	cmp	edi, 12
-	jne	.LBB3_923
-# %bb.50:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.51:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_52
-# %bb.235:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_384
-# %bb.236:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_384
-.LBB3_52:
-	xor	esi, esi
-.LBB3_630:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_633
-# %bb.631:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_632:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_632
-.LBB3_633:
-	cmp	rax, 3
-	jb	.LBB3_923
-# %bb.634:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_635:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_635
-	jmp	.LBB3_923
-.LBB3_53:
-	cmp	edi, 8
-	jle	.LBB3_111
-# %bb.54:
-	cmp	edi, 9
-	je	.LBB3_167
-# %bb.55:
-	cmp	edi, 11
-	je	.LBB3_170
-# %bb.56:
-	cmp	edi, 12
-	jne	.LBB3_923
-# %bb.57:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.58:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_59
-# %bb.238:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_387
-# %bb.239:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_387
-.LBB3_59:
-	xor	esi, esi
-.LBB3_640:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_643
-# %bb.641:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_642:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_642
-.LBB3_643:
-	cmp	rax, 3
-	jb	.LBB3_923
-# %bb.644:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_645:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
-	xorpd	xmm1, xmm0
-	movlpd	qword ptr [rcx + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_645
-	jmp	.LBB3_923
-.LBB3_60:
-	cmp	edi, 8
-	jle	.LBB3_116
-# %bb.61:
-	cmp	edi, 9
-	je	.LBB3_173
-# %bb.62:
-	cmp	edi, 11
-	je	.LBB3_176
-# %bb.63:
-	cmp	edi, 12
-	jne	.LBB3_923
-# %bb.64:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.65:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_66
-# %bb.241:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_390
-# %bb.242:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_390
-.LBB3_66:
-	xor	esi, esi
-.LBB3_650:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_652
-# %bb.651:
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	movapd	xmm1, xmmword ptr [rip + .LCPI3_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	andpd	xmm1, xmm0
-	movsd	xmm2, qword ptr [rip + .LCPI3_2] # xmm2 = mem[0],zero
-	orpd	xmm2, xmm1
-	xorpd	xmm1, xmm1
-	cmpeqsd	xmm1, xmm0
-	andnpd	xmm1, xmm2
-	movlpd	qword ptr [rcx + 8*rsi], xmm1
-	or	rsi, 1
-.LBB3_652:
-	add	rax, r9
-	je	.LBB3_923
-# %bb.653:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-	movsd	xmm1, qword ptr [rip + .LCPI3_2] # xmm1 = mem[0],zero
-	xorpd	xmm2, xmm2
-.LBB3_654:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rdx + 8*rsi]   # xmm3 = mem[0],zero
-	movapd	xmm4, xmm3
-	andpd	xmm4, xmm0
-	orpd	xmm4, xmm1
-	cmpeqsd	xmm3, xmm2
-	andnpd	xmm3, xmm4
-	movlpd	qword ptr [rcx + 8*rsi], xmm3
-	movsd	xmm3, qword ptr [rdx + 8*rsi + 8] # xmm3 = mem[0],zero
-	movapd	xmm4, xmm3
-	andpd	xmm4, xmm0
-	orpd	xmm4, xmm1
-	cmpeqsd	xmm3, xmm2
-	andnpd	xmm3, xmm4
-	movlpd	qword ptr [rcx + 8*rsi + 8], xmm3
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_654
-	jmp	.LBB3_923
-.LBB3_67:
-	cmp	edi, 8
-	jle	.LBB3_121
-# %bb.68:
-	cmp	edi, 9
-	je	.LBB3_179
-# %bb.69:
-	cmp	edi, 11
-	je	.LBB3_182
-# %bb.70:
-	cmp	edi, 12
-	jne	.LBB3_923
-# %bb.71:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.72:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_73
-# %bb.244:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_393
-# %bb.245:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_393
-.LBB3_73:
-	xor	esi, esi
-.LBB3_659:
-	movabs	r10, 9223372036854775807
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_661
-.LBB3_660:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	and	rdi, r10
-	mov	qword ptr [rcx + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_660
-.LBB3_661:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_662:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_662
-	jmp	.LBB3_923
-.LBB3_74:
-	cmp	edi, 8
-	jle	.LBB3_126
-# %bb.75:
-	cmp	edi, 9
-	je	.LBB3_185
-# %bb.76:
-	cmp	edi, 11
-	je	.LBB3_188
-# %bb.77:
-	cmp	edi, 12
-	jne	.LBB3_923
-# %bb.78:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.79:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_80
-# %bb.247:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_396
-# %bb.248:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_396
-.LBB3_80:
-	xor	esi, esi
-.LBB3_667:
-	movabs	r10, 9223372036854775807
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB3_669
-.LBB3_668:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	and	rdi, r10
-	mov	qword ptr [rcx + 8*rsi], rdi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB3_668
-.LBB3_669:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_670:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	and	rax, r10
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_670
-	jmp	.LBB3_923
-.LBB3_81:
-	cmp	edi, 2
-	je	.LBB3_191
-# %bb.82:
-	cmp	edi, 3
-	jne	.LBB3_923
-# %bb.83:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.84:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_85
-# %bb.250:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_399
-# %bb.251:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_399
-.LBB3_85:
-	xor	esi, esi
-.LBB3_675:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_677
-.LBB3_676:                              # =>This Inner Loop Header: Depth=1
-	movzx	r10d, byte ptr [rdx + rsi]
-	xor	eax, eax
-	sub	al, r10b
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_676
-.LBB3_677:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_678:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xor	edi, edi
-	sub	dil, al
-	mov	byte ptr [rcx + rsi + 3], dil
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_678
-	jmp	.LBB3_923
-.LBB3_86:
-	cmp	edi, 2
-	je	.LBB3_194
-# %bb.87:
-	cmp	edi, 3
-	jne	.LBB3_923
-# %bb.88:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.89:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_90
-# %bb.253:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_402
-# %bb.254:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_402
-.LBB3_90:
-	xor	esi, esi
-.LBB3_683:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_685
-.LBB3_684:                              # =>This Inner Loop Header: Depth=1
-	movzx	r10d, byte ptr [rdx + rsi]
-	xor	eax, eax
-	sub	al, r10b
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_684
-.LBB3_685:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_686:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xor	edi, edi
-	sub	dil, al
-	mov	byte ptr [rcx + rsi + 3], dil
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_686
-	jmp	.LBB3_923
-.LBB3_91:
-	cmp	edi, 2
-	je	.LBB3_197
-# %bb.92:
-	cmp	edi, 3
-	jne	.LBB3_923
-# %bb.93:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.94:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_95
-# %bb.256:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_405
-# %bb.257:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_405
-.LBB3_95:
-	xor	esi, esi
-.LBB3_691:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_693
-# %bb.692:
-	mov	dil, byte ptr [rdx + rsi]
-	test	dil, dil
-	setne	r8b
-	neg	r8b
-	test	dil, dil
-	movzx	r8d, r8b
-	mov	edi, 1
-	cmovle	edi, r8d
-	mov	byte ptr [rcx + rsi], dil
-	or	rsi, 1
-.LBB3_693:
-	add	rax, r9
-	je	.LBB3_923
-# %bb.694:
-	mov	edi, 1
-.LBB3_695:                              # =>This Inner Loop Header: Depth=1
-	movzx	r8d, byte ptr [rdx + rsi]
-	test	r8b, r8b
-	setne	al
-	neg	al
-	test	r8b, r8b
-	movzx	eax, al
-	cmovg	eax, edi
-	mov	byte ptr [rcx + rsi], al
-	movzx	r8d, byte ptr [rdx + rsi + 1]
-	test	r8b, r8b
-	setne	al
-	neg	al
-	test	r8b, r8b
-	movzx	eax, al
-	cmovg	eax, edi
-	mov	byte ptr [rcx + rsi + 1], al
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_695
-	jmp	.LBB3_923
-.LBB3_96:
-	cmp	edi, 2
-	je	.LBB3_200
-# %bb.97:
-	cmp	edi, 3
-	jne	.LBB3_923
-# %bb.98:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.99:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_100
-# %bb.259:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_408
-# %bb.260:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_408
-.LBB3_100:
-	xor	esi, esi
-.LBB3_700:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_702
-# %bb.701:
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	r8d, edi
-	sar	r8d, 7
-	add	edi, r8d
-	xor	edi, r8d
-	mov	byte ptr [rcx + rsi], dil
-	or	rsi, 1
-.LBB3_702:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_703:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	edi, eax
-	sar	edi, 7
-	add	eax, edi
-	xor	eax, edi
-	mov	byte ptr [rcx + rsi], al
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	edi, eax
-	sar	edi, 7
-	add	eax, edi
-	xor	eax, edi
-	mov	byte ptr [rcx + rsi + 1], al
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_703
-	jmp	.LBB3_923
-.LBB3_101:
-	cmp	edi, 2
-	je	.LBB3_203
-# %bb.102:
-	cmp	edi, 3
-	jne	.LBB3_923
-# %bb.103:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.104:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_105
-# %bb.262:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_411
-# %bb.263:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_411
-.LBB3_105:
-	xor	esi, esi
-.LBB3_708:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_710
-# %bb.709:
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	r8d, edi
-	sar	r8d, 7
-	add	edi, r8d
-	xor	edi, r8d
-	mov	byte ptr [rcx + rsi], dil
-	or	rsi, 1
-.LBB3_710:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_711:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	edi, eax
-	sar	edi, 7
-	add	eax, edi
-	xor	eax, edi
-	mov	byte ptr [rcx + rsi], al
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	edi, eax
-	sar	edi, 7
-	add	eax, edi
-	xor	eax, edi
-	mov	byte ptr [rcx + rsi + 1], al
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_711
-	jmp	.LBB3_923
-.LBB3_106:
-	cmp	edi, 7
-	je	.LBB3_206
-# %bb.107:
-	cmp	edi, 8
-	jne	.LBB3_923
-# %bb.108:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.109:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB3_265
-# %bb.110:
-	xor	edx, edx
-	jmp	.LBB3_420
-.LBB3_111:
-	cmp	edi, 7
-	je	.LBB3_209
-# %bb.112:
-	cmp	edi, 8
-	jne	.LBB3_923
-# %bb.113:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.114:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_115
-# %bb.267:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_421
-# %bb.268:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_421
-.LBB3_115:
-	xor	esi, esi
-.LBB3_716:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_718
-.LBB3_717:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_717
-.LBB3_718:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_719:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_719
-	jmp	.LBB3_923
-.LBB3_116:
-	cmp	edi, 7
-	je	.LBB3_212
-# %bb.117:
-	cmp	edi, 8
-	jne	.LBB3_923
-# %bb.118:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.119:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_120
-# %bb.270:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_424
-# %bb.271:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_424
-.LBB3_120:
-	xor	esi, esi
-.LBB3_724:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_726
-.LBB3_725:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_725
-.LBB3_726:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_727:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi + 8], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi + 16], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	cmp	qword ptr [rdx + 8*rsi + 24], 0
-	setne	al
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_727
-	jmp	.LBB3_923
-.LBB3_121:
-	cmp	edi, 7
-	je	.LBB3_215
-# %bb.122:
-	cmp	edi, 8
-	jne	.LBB3_923
-# %bb.123:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.124:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_125
-# %bb.273:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_427
-# %bb.274:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_427
-.LBB3_125:
-	xor	esi, esi
-.LBB3_556:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_558
-.LBB3_557:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_557
-.LBB3_558:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_559:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_559
-	jmp	.LBB3_923
-.LBB3_126:
-	cmp	edi, 7
-	je	.LBB3_218
-# %bb.127:
-	cmp	edi, 8
-	jne	.LBB3_923
-# %bb.128:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.129:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_130
-# %bb.276:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_429
-# %bb.277:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_429
-.LBB3_130:
-	xor	esi, esi
-.LBB3_566:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_568
-.LBB3_567:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_567
-.LBB3_568:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_569:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_569
-	jmp	.LBB3_923
-.LBB3_131:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.132:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB3_279
-# %bb.133:
-	xor	edx, edx
-	jmp	.LBB3_437
-.LBB3_134:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.135:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_136
-# %bb.281:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_438
-# %bb.282:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_438
-.LBB3_136:
-	xor	esi, esi
-.LBB3_732:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_734
-.LBB3_733:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_733
-.LBB3_734:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_735:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_735
-	jmp	.LBB3_923
-.LBB3_137:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.138:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_139
-# %bb.284:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_441
-# %bb.285:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_441
-.LBB3_139:
-	xor	esi, esi
-.LBB3_740:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_742
-.LBB3_741:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_741
-.LBB3_742:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_743:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_743
-	jmp	.LBB3_923
-.LBB3_140:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.141:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_142
-# %bb.287:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_444
-# %bb.288:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_444
-.LBB3_142:
-	xor	esi, esi
-.LBB3_748:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_750
-.LBB3_749:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_749
-.LBB3_750:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_751:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	sub	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_751
-	jmp	.LBB3_923
-.LBB3_143:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.144:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_145
-# %bb.290:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_447
-# %bb.291:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_447
-.LBB3_145:
-	xor	esi, esi
-.LBB3_756:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_758
-.LBB3_757:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_757
-.LBB3_758:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_759:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi], ax
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi + 2], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi + 4], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	xor	eax, eax
-	cmp	word ptr [rdx + 2*rsi + 6], 0
-	setne	al
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_759
-	jmp	.LBB3_923
-.LBB3_146:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.147:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_148
-# %bb.293:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_450
-# %bb.294:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_450
-.LBB3_148:
-	xor	esi, esi
-.LBB3_764:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_766
-# %bb.765:
-	movzx	r8d, word ptr [rdx + 2*rsi]
-	xor	r10d, r10d
-	test	r8w, r8w
-	setne	r10b
-	neg	r10d
-	test	r8w, r8w
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [rcx + 2*rsi], di
-	or	rsi, 1
-.LBB3_766:
-	add	rax, r9
-	je	.LBB3_923
-# %bb.767:
-	mov	r8d, 1
-.LBB3_768:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, r8d
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	xor	edi, edi
-	test	ax, ax
-	setne	dil
-	neg	edi
-	test	ax, ax
-	cmovg	edi, r8d
-	mov	word ptr [rcx + 2*rsi + 2], di
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_768
-	jmp	.LBB3_923
-.LBB3_149:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.150:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_151
-# %bb.296:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_453
-# %bb.297:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_453
-.LBB3_151:
-	xor	esi, esi
-.LBB3_576:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_578
-.LBB3_577:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_577
-.LBB3_578:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_579:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_579
-	jmp	.LBB3_923
-.LBB3_152:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.153:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_154
-# %bb.299:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_455
-# %bb.300:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_455
-.LBB3_154:
-	xor	esi, esi
-.LBB3_773:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_775
-# %bb.774:
-	movsx	edi, word ptr [rdx + 2*rsi]
-	mov	r8d, edi
-	sar	r8d, 15
-	add	edi, r8d
-	xor	edi, r8d
-	mov	word ptr [rcx + 2*rsi], di
-	or	rsi, 1
-.LBB3_775:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_776:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_776
-	jmp	.LBB3_923
-.LBB3_155:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.156:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB3_157
-# %bb.302:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_458
-# %bb.303:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_458
-.LBB3_157:
-	xor	esi, esi
-.LBB3_586:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_588
-.LBB3_587:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_587
-.LBB3_588:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_589:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_589
-	jmp	.LBB3_923
-.LBB3_158:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.159:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_160
-# %bb.305:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_460
-# %bb.306:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_460
-.LBB3_160:
-	xor	esi, esi
-.LBB3_781:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_783
-# %bb.782:
-	movsx	edi, word ptr [rdx + 2*rsi]
-	mov	r8d, edi
-	sar	r8d, 15
-	add	edi, r8d
-	xor	edi, r8d
-	mov	word ptr [rcx + 2*rsi], di
-	or	rsi, 1
-.LBB3_783:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_784:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	edi, eax
-	sar	edi, 15
-	add	eax, edi
-	xor	eax, edi
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_784
-	jmp	.LBB3_923
-.LBB3_161:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.162:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_163
-# %bb.308:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_463
-# %bb.309:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_463
-.LBB3_163:
-	xor	esi, esi
-.LBB3_789:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_791
-.LBB3_790:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_790
-.LBB3_791:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_792:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_792
-	jmp	.LBB3_923
-.LBB3_164:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.165:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_166
-# %bb.311:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_466
-# %bb.312:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_466
-.LBB3_166:
-	xor	esi, esi
-.LBB3_797:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_800
-# %bb.798:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_799:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_799
-.LBB3_800:
-	cmp	rax, 3
-	jb	.LBB3_923
-# %bb.801:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_802:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_802
-	jmp	.LBB3_923
-.LBB3_167:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.168:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_169
-# %bb.314:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_469
-# %bb.315:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_469
-.LBB3_169:
-	xor	esi, esi
-.LBB3_807:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_809
-.LBB3_808:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_808
-.LBB3_809:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_810:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	xor	eax, eax
-	sub	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_810
-	jmp	.LBB3_923
-.LBB3_170:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.171:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_172
-# %bb.317:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_472
-# %bb.318:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_472
-.LBB3_172:
-	xor	esi, esi
-.LBB3_815:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_818
-# %bb.816:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_817:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi], xmm1
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_817
-.LBB3_818:
-	cmp	rax, 3
-	jb	.LBB3_923
-# %bb.819:
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_820:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm0
-	movss	dword ptr [rcx + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_820
-	jmp	.LBB3_923
-.LBB3_173:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.174:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_175
-# %bb.320:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_475
-# %bb.321:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_475
-.LBB3_175:
-	xor	esi, esi
-.LBB3_825:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_827
-# %bb.826:
-	mov	r8, qword ptr [rdx + 8*rsi]
-	xor	r10d, r10d
-	test	r8, r8
-	setne	r10b
-	neg	r10
-	test	r8, r8
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [rcx + 8*rsi], rdi
-	or	rsi, 1
-.LBB3_827:
-	add	rax, r9
-	je	.LBB3_923
-# %bb.828:
-	mov	r8d, 1
-.LBB3_829:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	rax
-	test	rdi, rdi
-	cmovg	rax, r8
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, r8
-	mov	qword ptr [rcx + 8*rsi + 8], rdi
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_829
-	jmp	.LBB3_923
-.LBB3_176:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.177:
-	mov	eax, r8d
-	cmp	r8d, 8
-	jb	.LBB3_178
-# %bb.323:
-	lea	rsi, [rdx + 4*rax]
-	cmp	rsi, rcx
-	jbe	.LBB3_478
-# %bb.324:
-	lea	rsi, [rcx + 4*rax]
-	cmp	rsi, rdx
-	jbe	.LBB3_478
-.LBB3_178:
-	xor	esi, esi
-.LBB3_481:
-	mov	r8, rsi
-	not	r8
-	test	al, 1
-	je	.LBB3_483
-# %bb.482:
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	movmskps	edi, xmm0
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, edi
-	xorps	xmm2, xmm2
-	cmpeqss	xmm2, xmm0
-	andnps	xmm2, xmm1
-	movss	dword ptr [rcx + 4*rsi], xmm2
-	or	rsi, 1
-.LBB3_483:
-	add	r8, rax
-	je	.LBB3_923
-# %bb.484:
-	xorps	xmm0, xmm0
-.LBB3_485:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	movmskps	edi, xmm1
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, edi
-	cmpeqss	xmm1, xmm0
-	andnps	xmm1, xmm2
-	movss	dword ptr [rcx + 4*rsi], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	movmskps	edi, xmm1
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, edi
-	cmpeqss	xmm1, xmm0
-	andnps	xmm1, xmm2
-	movss	dword ptr [rcx + 4*rsi + 4], xmm1
-	add	rsi, 2
-	cmp	rax, rsi
-	jne	.LBB3_485
-	jmp	.LBB3_923
-.LBB3_179:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.180:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_181
-# %bb.326:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_486
-# %bb.327:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_486
-.LBB3_181:
-	xor	esi, esi
-.LBB3_834:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_836
-# %bb.835:
-	mov	r8, qword ptr [rdx + 8*rsi]
-	mov	rdi, r8
-	neg	rdi
-	cmovl	rdi, r8
-	mov	qword ptr [rcx + 8*rsi], rdi
-	or	rsi, 1
-.LBB3_836:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_837:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi], rdi
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi + 8], rdi
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_837
-	jmp	.LBB3_923
-.LBB3_182:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.183:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_184
-# %bb.329:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_489
-# %bb.330:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_489
-.LBB3_184:
-	xor	esi, esi
-.LBB3_842:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_845
-# %bb.843:
-	mov	r10d, 2147483647
-.LBB3_844:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	and	eax, r10d
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_844
-.LBB3_845:
-	cmp	r8, 3
-	jb	.LBB3_923
-# %bb.846:
-	mov	eax, 2147483647
-.LBB3_847:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 4]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 8]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 8], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 12]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 12], edi
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_847
-	jmp	.LBB3_923
-.LBB3_185:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.186:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB3_187
-# %bb.332:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_492
-# %bb.333:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_492
-.LBB3_187:
-	xor	esi, esi
-.LBB3_852:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_854
-# %bb.853:
-	mov	r8, qword ptr [rdx + 8*rsi]
-	mov	rdi, r8
-	neg	rdi
-	cmovl	rdi, r8
-	mov	qword ptr [rcx + 8*rsi], rdi
-	or	rsi, 1
-.LBB3_854:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_855:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi], rdi
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	rdi, rax
-	neg	rdi
-	cmovl	rdi, rax
-	mov	qword ptr [rcx + 8*rsi + 8], rdi
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_855
-	jmp	.LBB3_923
-.LBB3_188:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.189:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_190
-# %bb.335:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_495
-# %bb.336:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_495
-.LBB3_190:
-	xor	esi, esi
-.LBB3_860:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_863
-# %bb.861:
-	mov	r10d, 2147483647
-.LBB3_862:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	and	eax, r10d
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_862
-.LBB3_863:
-	cmp	r8, 3
-	jb	.LBB3_923
-# %bb.864:
-	mov	eax, 2147483647
-.LBB3_865:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 4]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 8]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 8], edi
-	mov	edi, dword ptr [rdx + 4*rsi + 12]
-	and	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 12], edi
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_865
-	jmp	.LBB3_923
-.LBB3_191:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.192:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB3_338
-# %bb.193:
-	xor	edx, edx
-	jmp	.LBB3_504
-.LBB3_194:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.195:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_196
-# %bb.340:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_505
-# %bb.341:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_505
-.LBB3_196:
-	xor	esi, esi
-.LBB3_870:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_872
-.LBB3_871:                              # =>This Inner Loop Header: Depth=1
-	movzx	r10d, byte ptr [rdx + rsi]
-	xor	eax, eax
-	sub	al, r10b
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_871
-.LBB3_872:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_873:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	xor	eax, eax
-	sub	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xor	edi, edi
-	sub	dil, al
-	mov	byte ptr [rcx + rsi + 3], dil
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_873
-	jmp	.LBB3_923
-.LBB3_197:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.198:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_199
-# %bb.343:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_508
-# %bb.344:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_508
-.LBB3_199:
-	xor	esi, esi
-.LBB3_878:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_880
-.LBB3_879:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rdx + rsi], 0
-	setne	byte ptr [rcx + rsi]
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_879
-.LBB3_880:
-	cmp	rax, 3
-	jb	.LBB3_923
-.LBB3_881:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rdx + rsi], 0
-	setne	byte ptr [rcx + rsi]
-	cmp	byte ptr [rdx + rsi + 1], 0
-	setne	byte ptr [rcx + rsi + 1]
-	cmp	byte ptr [rdx + rsi + 2], 0
-	setne	byte ptr [rcx + rsi + 2]
-	cmp	byte ptr [rdx + rsi + 3], 0
-	setne	byte ptr [rcx + rsi + 3]
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_881
-	jmp	.LBB3_923
-.LBB3_200:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.201:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_202
-# %bb.346:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_511
-# %bb.347:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_511
-.LBB3_202:
-	xor	esi, esi
-.LBB3_596:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_598
-.LBB3_597:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_597
-.LBB3_598:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_599:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_599
-	jmp	.LBB3_923
-.LBB3_203:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.204:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB3_205
-# %bb.349:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB3_513
-# %bb.350:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB3_513
-.LBB3_205:
-	xor	esi, esi
-.LBB3_606:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_608
-.LBB3_607:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_607
-.LBB3_608:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_609:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_609
-	jmp	.LBB3_923
-.LBB3_206:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.207:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_208
-# %bb.352:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_515
-# %bb.353:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_515
-.LBB3_208:
-	xor	esi, esi
-.LBB3_886:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_888
-.LBB3_887:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_887
-.LBB3_888:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_889:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_889
-	jmp	.LBB3_923
-.LBB3_209:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.210:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_211
-# %bb.355:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_518
-# %bb.356:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_518
-.LBB3_211:
-	xor	esi, esi
-.LBB3_894:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB3_896
-.LBB3_895:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB3_895
-.LBB3_896:
-	cmp	r8, 3
-	jb	.LBB3_923
-.LBB3_897:                              # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	xor	eax, eax
-	sub	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB3_897
-	jmp	.LBB3_923
-.LBB3_212:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.213:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_214
-# %bb.358:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_521
-# %bb.359:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_521
-.LBB3_214:
-	xor	esi, esi
-.LBB3_902:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_904
-# %bb.903:
-	mov	r8d, dword ptr [rdx + 4*rsi]
-	xor	r10d, r10d
-	test	r8d, r8d
-	setne	r10b
-	neg	r10d
-	test	r8d, r8d
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [rcx + 4*rsi], edi
-	or	rsi, 1
-.LBB3_904:
-	add	rax, r9
-	je	.LBB3_923
-# %bb.905:
-	mov	r8d, 1
-.LBB3_906:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, r8d
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, r8d
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_906
-	jmp	.LBB3_923
-.LBB3_215:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.216:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_217
-# %bb.361:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_524
-# %bb.362:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_524
-.LBB3_217:
-	xor	esi, esi
-.LBB3_911:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_913
-# %bb.912:
-	mov	r8d, dword ptr [rdx + 4*rsi]
-	mov	edi, r8d
-	neg	edi
-	cmovl	edi, r8d
-	mov	dword ptr [rcx + 4*rsi], edi
-	or	rsi, 1
-.LBB3_913:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_914:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_914
-	jmp	.LBB3_923
-.LBB3_218:
-	test	r8d, r8d
-	jle	.LBB3_923
-# %bb.219:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB3_220
-# %bb.364:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB3_527
-# %bb.365:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB3_527
-.LBB3_220:
-	xor	esi, esi
-.LBB3_919:
-	mov	rax, rsi
-	not	rax
-	test	r9b, 1
-	je	.LBB3_921
-# %bb.920:
-	mov	r8d, dword ptr [rdx + 4*rsi]
-	mov	edi, r8d
-	neg	edi
-	cmovl	edi, r8d
-	mov	dword ptr [rcx + 4*rsi], edi
-	or	rsi, 1
-.LBB3_921:
-	add	rax, r9
-	je	.LBB3_923
-.LBB3_922:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi], edi
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	edi, eax
-	neg	edi
-	cmovl	edi, eax
-	mov	dword ptr [rcx + 4*rsi + 4], edi
-	add	rsi, 2
-	cmp	r9, rsi
-	jne	.LBB3_922
-	jmp	.LBB3_923
-.LBB3_221:
-	mov	edx, r9d
-	and	edx, -8
-	lea	rax, [rdx - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 7
-	cmp	rax, 56
-	jae	.LBB3_367
-# %bb.222:
-	xor	eax, eax
-	jmp	.LBB3_369
-.LBB3_265:
-	mov	edx, r9d
-	and	edx, -4
-	lea	rax, [rdx - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 7
-	cmp	rax, 28
-	jae	.LBB3_414
-# %bb.266:
-	xor	eax, eax
-	jmp	.LBB3_416
-.LBB3_279:
-	mov	edx, r9d
-	and	edx, -16
-	lea	rax, [rdx - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 7
-	cmp	rax, 112
-	jae	.LBB3_431
-# %bb.280:
-	xor	eax, eax
-	jmp	.LBB3_433
-.LBB3_338:
-	mov	edx, r9d
-	and	edx, -32
-	lea	rax, [rdx - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	esi, edi
-	and	esi, 7
-	cmp	rax, 224
-	jae	.LBB3_498
-# %bb.339:
-	xor	eax, eax
-	jmp	.LBB3_500
-.LBB3_374:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_610
-# %bb.375:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_376:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	psubd	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubd	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	pxor	xmm2, xmm2
-	psubd	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubd	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_376
-	jmp	.LBB3_611
-.LBB3_377:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_618
-# %bb.378:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI3_3] # xmm1 = [1,1,1,1]
-.LBB3_379:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_379
-	jmp	.LBB3_619
-.LBB3_380:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB3_530
-# %bb.381:
-	xor	eax, eax
-	jmp	.LBB3_532
-.LBB3_382:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB3_540
-# %bb.383:
-	xor	eax, eax
-	jmp	.LBB3_542
-.LBB3_384:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_626
-# %bb.385:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_386:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_386
-	jmp	.LBB3_627
-.LBB3_387:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_636
-# %bb.388:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
-.LBB3_389:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_389
-	jmp	.LBB3_637
-.LBB3_390:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_646
-# %bb.391:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI3_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_1] # xmm2 = [1.0E+0,1.0E+0]
-.LBB3_392:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm4, xmmword ptr [rdx + 8*rdi + 16]
-	movapd	xmm5, xmm3
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm4
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	cmpneqpd	xmm3, xmm0
-	andpd	xmm3, xmm5
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm6
-	movupd	xmmword ptr [rcx + 8*rdi], xmm3
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm4
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	movapd	xmm5, xmm3
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm4
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	cmpneqpd	xmm3, xmm0
-	andpd	xmm3, xmm5
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm6
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm4
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_392
-	jmp	.LBB3_647
-.LBB3_393:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_655
-# %bb.394:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_8] # xmm0 = [9223372036854775807,9223372036854775807]
-.LBB3_395:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_395
-	jmp	.LBB3_656
-.LBB3_396:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_663
-# %bb.397:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_8] # xmm0 = [9223372036854775807,9223372036854775807]
-.LBB3_398:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_398
-	jmp	.LBB3_664
-.LBB3_399:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_671
-# %bb.400:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_401:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	psubb	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubb	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	pxor	xmm2, xmm2
-	psubb	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubb	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_401
-	jmp	.LBB3_672
-.LBB3_402:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_679
-# %bb.403:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_404:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	psubb	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubb	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	pxor	xmm2, xmm2
-	psubb	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubb	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_404
-	jmp	.LBB3_680
-.LBB3_405:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_687
-# %bb.406:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_6] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB3_407:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + rdi]
-	movdqu	xmm6, xmmword ptr [rdx + rdi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm5
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm6
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [rcx + rdi], xmm7
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm6, xmmword ptr [rdx + rdi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm5
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm6
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [rcx + rdi + 32], xmm7
-	movdqu	xmmword ptr [rcx + rdi + 48], xmm5
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_407
-	jmp	.LBB3_688
-.LBB3_408:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_696
-# %bb.409:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm8, xmmword ptr [rip + .LCPI3_10] # xmm8 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-.LBB3_410:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbd	xmm4, dword ptr [rdx + rdi + 12]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm3, dword ptr [rdx + rdi + 4]
-	pmovsxbd	xmm2, dword ptr [rdx + rdi]
-	movdqa	xmm5, xmm2
-	psrad	xmm5, 7
-	movdqa	xmm6, xmm3
-	psrad	xmm6, 7
-	movdqa	xmm7, xmm1
-	psrad	xmm7, 7
-	movdqa	xmm0, xmm4
-	psrad	xmm0, 7
-	paddd	xmm4, xmm0
-	paddd	xmm1, xmm7
-	paddd	xmm3, xmm6
-	paddd	xmm2, xmm5
-	pxor	xmm2, xmm5
-	pxor	xmm3, xmm6
-	pxor	xmm1, xmm7
-	pxor	xmm4, xmm0
-	pand	xmm4, xmm8
-	pand	xmm1, xmm8
-	packusdw	xmm1, xmm4
-	pand	xmm3, xmm8
-	pand	xmm2, xmm8
-	packusdw	xmm2, xmm3
-	packuswb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	pmovsxbd	xmm4, dword ptr [rdx + rdi + 28]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 24]
-	pmovsxbd	xmm3, dword ptr [rdx + rdi + 20]
-	pmovsxbd	xmm2, dword ptr [rdx + rdi + 16]
-	movdqa	xmm0, xmm2
-	psrad	xmm0, 7
-	movdqa	xmm5, xmm3
-	psrad	xmm5, 7
-	movdqa	xmm6, xmm1
-	psrad	xmm6, 7
-	movdqa	xmm7, xmm4
-	psrad	xmm7, 7
-	paddd	xmm4, xmm7
-	paddd	xmm1, xmm6
-	paddd	xmm3, xmm5
-	paddd	xmm2, xmm0
-	pxor	xmm2, xmm0
-	pxor	xmm3, xmm5
-	pxor	xmm1, xmm6
-	pxor	xmm4, xmm7
-	pand	xmm4, xmm8
-	pand	xmm1, xmm8
-	packusdw	xmm1, xmm4
-	pand	xmm3, xmm8
-	pand	xmm2, xmm8
-	packusdw	xmm2, xmm3
-	packuswb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_410
-	jmp	.LBB3_697
-.LBB3_411:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_704
-# %bb.412:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm8, xmmword ptr [rip + .LCPI3_10] # xmm8 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-.LBB3_413:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbd	xmm4, dword ptr [rdx + rdi + 12]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm3, dword ptr [rdx + rdi + 4]
-	pmovsxbd	xmm2, dword ptr [rdx + rdi]
-	movdqa	xmm5, xmm2
-	psrad	xmm5, 7
-	movdqa	xmm6, xmm3
-	psrad	xmm6, 7
-	movdqa	xmm7, xmm1
-	psrad	xmm7, 7
-	movdqa	xmm0, xmm4
-	psrad	xmm0, 7
-	paddd	xmm4, xmm0
-	paddd	xmm1, xmm7
-	paddd	xmm3, xmm6
-	paddd	xmm2, xmm5
-	pxor	xmm2, xmm5
-	pxor	xmm3, xmm6
-	pxor	xmm1, xmm7
-	pxor	xmm4, xmm0
-	pand	xmm4, xmm8
-	pand	xmm1, xmm8
-	packusdw	xmm1, xmm4
-	pand	xmm3, xmm8
-	pand	xmm2, xmm8
-	packusdw	xmm2, xmm3
-	packuswb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	pmovsxbd	xmm4, dword ptr [rdx + rdi + 28]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 24]
-	pmovsxbd	xmm3, dword ptr [rdx + rdi + 20]
-	pmovsxbd	xmm2, dword ptr [rdx + rdi + 16]
-	movdqa	xmm0, xmm2
-	psrad	xmm0, 7
-	movdqa	xmm5, xmm3
-	psrad	xmm5, 7
-	movdqa	xmm6, xmm1
-	psrad	xmm6, 7
-	movdqa	xmm7, xmm4
-	psrad	xmm7, 7
-	paddd	xmm4, xmm7
-	paddd	xmm1, xmm6
-	paddd	xmm3, xmm5
-	paddd	xmm2, xmm0
-	pxor	xmm2, xmm0
-	pxor	xmm3, xmm5
-	pxor	xmm1, xmm6
-	pxor	xmm4, xmm7
-	pand	xmm4, xmm8
-	pand	xmm1, xmm8
-	packusdw	xmm1, xmm4
-	pand	xmm3, xmm8
-	pand	xmm2, xmm8
-	packusdw	xmm2, xmm3
-	packuswb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_413
-	jmp	.LBB3_705
-.LBB3_421:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_712
-# %bb.422:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_423:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	psubq	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubq	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pxor	xmm2, xmm2
-	psubq	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubq	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_423
-	jmp	.LBB3_713
-.LBB3_424:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_720
-# %bb.425:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI3_4] # xmm1 = [1,1]
-.LBB3_426:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	pcmpeqq	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	pcmpeqq	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_426
-	jmp	.LBB3_721
-.LBB3_427:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB3_550
-# %bb.428:
-	xor	eax, eax
-	jmp	.LBB3_552
-.LBB3_429:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB3_560
-# %bb.430:
-	xor	eax, eax
-	jmp	.LBB3_562
-.LBB3_438:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_728
-# %bb.439:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_440:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	psubw	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	pxor	xmm2, xmm2
-	psubw	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_440
-	jmp	.LBB3_729
-.LBB3_441:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_736
-# %bb.442:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_443:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	psubw	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	pxor	xmm2, xmm2
-	psubw	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_443
-	jmp	.LBB3_737
-.LBB3_444:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_744
-# %bb.445:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_446:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	psubw	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	pxor	xmm2, xmm2
-	psubw	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_446
-	jmp	.LBB3_745
-.LBB3_447:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_752
-# %bb.448:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI3_5] # xmm1 = [1,1,1,1,1,1,1,1]
-.LBB3_449:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm3, xmmword ptr [rdx + 2*rdi + 16]
-	pcmpeqw	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqw	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm3, xmmword ptr [rdx + 2*rdi + 48]
-	pcmpeqw	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqw	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_449
-	jmp	.LBB3_753
-.LBB3_450:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_760
-# %bb.451:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_5] # xmm4 = [1,1,1,1,1,1,1,1]
-.LBB3_452:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm6, xmmword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm5
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm6
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm7
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm6, xmmword ptr [rdx + 2*rdi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm5
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm6
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm7
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm5
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB3_452
-	jmp	.LBB3_761
-.LBB3_453:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 48
-	jae	.LBB3_570
-# %bb.454:
-	xor	eax, eax
-	jmp	.LBB3_572
-.LBB3_455:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_769
-# %bb.456:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-.LBB3_457:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	pmovsxwd	xmm2, qword ptr [rdx + 2*rdi]
-	movdqa	xmm3, xmm2
-	psrad	xmm3, 15
-	movdqa	xmm4, xmm1
-	psrad	xmm4, 15
-	paddd	xmm1, xmm4
-	paddd	xmm2, xmm3
-	pxor	xmm2, xmm3
-	pxor	xmm1, xmm4
-	pblendw	xmm1, xmm0, 170                 # xmm1 = xmm1[0],xmm0[1],xmm1[2],xmm0[3],xmm1[4],xmm0[5],xmm1[6],xmm0[7]
-	pblendw	xmm2, xmm0, 170                 # xmm2 = xmm2[0],xmm0[1],xmm2[2],xmm0[3],xmm2[4],xmm0[5],xmm2[6],xmm0[7]
-	packusdw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
-	pmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm3, xmm2
-	psrad	xmm3, 15
-	movdqa	xmm4, xmm1
-	psrad	xmm4, 15
-	paddd	xmm1, xmm4
-	paddd	xmm2, xmm3
-	pxor	xmm2, xmm3
-	pxor	xmm1, xmm4
-	pblendw	xmm1, xmm0, 170                 # xmm1 = xmm1[0],xmm0[1],xmm1[2],xmm0[3],xmm1[4],xmm0[5],xmm1[6],xmm0[7]
-	pblendw	xmm2, xmm0, 170                 # xmm2 = xmm2[0],xmm0[1],xmm2[2],xmm0[3],xmm2[4],xmm0[5],xmm2[6],xmm0[7]
-	packusdw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_457
-	jmp	.LBB3_770
-.LBB3_458:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 48
-	jae	.LBB3_580
-# %bb.459:
-	xor	eax, eax
-	jmp	.LBB3_582
-.LBB3_460:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_777
-# %bb.461:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-.LBB3_462:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	pmovsxwd	xmm2, qword ptr [rdx + 2*rdi]
-	movdqa	xmm3, xmm2
-	psrad	xmm3, 15
-	movdqa	xmm4, xmm1
-	psrad	xmm4, 15
-	paddd	xmm1, xmm4
-	paddd	xmm2, xmm3
-	pxor	xmm2, xmm3
-	pxor	xmm1, xmm4
-	pblendw	xmm1, xmm0, 170                 # xmm1 = xmm1[0],xmm0[1],xmm1[2],xmm0[3],xmm1[4],xmm0[5],xmm1[6],xmm0[7]
-	pblendw	xmm2, xmm0, 170                 # xmm2 = xmm2[0],xmm0[1],xmm2[2],xmm0[3],xmm2[4],xmm0[5],xmm2[6],xmm0[7]
-	packusdw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
-	pmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm3, xmm2
-	psrad	xmm3, 15
-	movdqa	xmm4, xmm1
-	psrad	xmm4, 15
-	paddd	xmm1, xmm4
-	paddd	xmm2, xmm3
-	pxor	xmm2, xmm3
-	pxor	xmm1, xmm4
-	pblendw	xmm1, xmm0, 170                 # xmm1 = xmm1[0],xmm0[1],xmm1[2],xmm0[3],xmm1[4],xmm0[5],xmm1[6],xmm0[7]
-	pblendw	xmm2, xmm0, 170                 # xmm2 = xmm2[0],xmm0[1],xmm2[2],xmm0[3],xmm2[4],xmm0[5],xmm2[6],xmm0[7]
-	packusdw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_462
-	jmp	.LBB3_778
-.LBB3_463:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_785
-# %bb.464:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_465:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	psubq	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubq	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pxor	xmm2, xmm2
-	psubq	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubq	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_465
-	jmp	.LBB3_786
-.LBB3_466:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_793
-# %bb.467:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_468:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_468
-	jmp	.LBB3_794
-.LBB3_469:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_803
-# %bb.470:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_471:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	psubq	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubq	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pxor	xmm2, xmm2
-	psubq	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubq	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 8*rdi + 48], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_471
-	jmp	.LBB3_804
-.LBB3_472:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_811
-# %bb.473:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB3_474:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	xorpd	xmm1, xmm0
-	xorpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_474
-	jmp	.LBB3_812
-.LBB3_475:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_821
-# %bb.476:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_4] # xmm4 = [1,1]
-.LBB3_477:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm6, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm6
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvpd	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvpd	xmm5, xmm6, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm7
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm6, xmmword ptr [rdx + 8*rdi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm6
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvpd	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvpd	xmm5, xmm6, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm7
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm5
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_477
-	jmp	.LBB3_822
-.LBB3_478:
-	mov	esi, eax
-	and	esi, -8
-	xor	edi, edi
-	xorps	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI3_3] # xmm1 = [1,1,1,1]
-.LBB3_479:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm4, xmm2
-	psrad	xmm4, 31
-	por	xmm4, xmm1
-	movdqa	xmm5, xmm3
-	psrad	xmm5, 31
-	por	xmm5, xmm1
-	cvtdq2ps	xmm4, xmm4
-	cvtdq2ps	xmm5, xmm5
-	cmpneqps	xmm2, xmm0
-	andps	xmm2, xmm4
-	cmpneqps	xmm3, xmm0
-	andps	xmm3, xmm5
-	movups	xmmword ptr [rcx + 4*rdi], xmm2
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm3
-	add	rdi, 8
-	cmp	rsi, rdi
-	jne	.LBB3_479
-# %bb.480:
-	cmp	rsi, rax
-	je	.LBB3_923
-	jmp	.LBB3_481
-.LBB3_486:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_830
-# %bb.487:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_488:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm3, xmm0
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm2
-	movdqa	xmm0, xmm2
-	blendvpd	xmm2, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm3, xmm0
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm2
-	movdqa	xmm0, xmm2
-	blendvpd	xmm2, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_488
-	jmp	.LBB3_831
-.LBB3_489:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_838
-# %bb.490:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_9] # xmm0 = [2147483647,2147483647,2147483647,2147483647]
-.LBB3_491:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_491
-	jmp	.LBB3_839
-.LBB3_492:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_848
-# %bb.493:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_494:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm3, xmm0
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm2
-	movdqa	xmm0, xmm2
-	blendvpd	xmm2, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm3, xmm0
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm2
-	movdqa	xmm0, xmm2
-	blendvpd	xmm2, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB3_494
-	jmp	.LBB3_849
-.LBB3_495:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_856
-# %bb.496:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movapd	xmm0, xmmword ptr [rip + .LCPI3_9] # xmm0 = [2147483647,2147483647,2147483647,2147483647]
-.LBB3_497:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm2
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	andpd	xmm1, xmm0
-	andpd	xmm2, xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_497
-	jmp	.LBB3_857
-.LBB3_505:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_866
-# %bb.506:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_507:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	psubb	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubb	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	pxor	xmm2, xmm2
-	psubb	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubb	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 48], xmm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_507
-	jmp	.LBB3_867
-.LBB3_508:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_874
-# %bb.509:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI3_6] # xmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB3_510:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdx + rdi]
-	movdqu	xmm3, xmmword ptr [rdx + rdi + 16]
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqb	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm3, xmmword ptr [rdx + rdi + 48]
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqb	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [rcx + rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 48], xmm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB3_510
-	jmp	.LBB3_875
-.LBB3_511:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB3_590
-# %bb.512:
-	xor	eax, eax
-	jmp	.LBB3_592
-.LBB3_513:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB3_600
-# %bb.514:
-	xor	eax, eax
-	jmp	.LBB3_602
-.LBB3_515:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_882
-# %bb.516:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_517:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	psubd	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubd	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	pxor	xmm2, xmm2
-	psubd	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubd	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_517
-	jmp	.LBB3_883
-.LBB3_518:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_890
-# %bb.519:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_520:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	psubd	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubd	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	pxor	xmm2, xmm2
-	psubd	xmm2, xmm0
-	pxor	xmm0, xmm0
-	psubd	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_520
-	jmp	.LBB3_891
-.LBB3_521:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_898
-# %bb.522:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_3] # xmm4 = [1,1,1,1]
-.LBB3_523:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm6, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm5
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm6
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvps	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvps	xmm5, xmm6, xmm0
-	movups	xmmword ptr [rcx + 4*rdi], xmm7
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm6, xmmword ptr [rdx + 4*rdi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm5
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm6
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvps	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvps	xmm5, xmm6, xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm7
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm5
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_523
-	jmp	.LBB3_899
-.LBB3_524:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_907
-# %bb.525:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_526:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pabsd	xmm0, xmm0
-	pabsd	xmm1, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	pabsd	xmm0, xmm0
-	pabsd	xmm1, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_526
-	jmp	.LBB3_908
-.LBB3_527:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_915
-# %bb.528:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB3_529:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pabsd	xmm0, xmm0
-	pabsd	xmm1, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	pabsd	xmm0, xmm0
-	pabsd	xmm1, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB3_529
-	jmp	.LBB3_916
-.LBB3_367:
-	and	rdi, -8
-	neg	rdi
-	xor	eax, eax
-	xorpd	xmm0, xmm0
-.LBB3_368:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rcx + 4*rax], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 16], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 48], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 80], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 128], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 144], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 160], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 176], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 192], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 208], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 224], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 240], xmm0
-	add	rax, 64
-	add	rdi, 8
-	jne	.LBB3_368
-.LBB3_369:
-	test	rsi, rsi
-	je	.LBB3_372
-# %bb.370:
-	lea	rax, [rcx + 4*rax]
-	add	rax, 16
-	neg	rsi
-	xorpd	xmm0, xmm0
-.LBB3_371:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rax - 16], xmm0
-	movupd	xmmword ptr [rax], xmm0
-	add	rax, 32
-	inc	rsi
-	jne	.LBB3_371
-.LBB3_372:
-	cmp	rdx, r9
-	je	.LBB3_923
-	.p2align	4, 0x90
-.LBB3_373:                              # =>This Inner Loop Header: Depth=1
-	mov	dword ptr [rcx + 4*rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_373
-	jmp	.LBB3_923
-.LBB3_414:
-	and	rdi, -8
-	neg	rdi
-	xor	eax, eax
-	xorpd	xmm0, xmm0
-.LBB3_415:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rcx + 8*rax], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 16], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 48], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 80], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 128], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 144], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 160], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 176], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 192], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 208], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 224], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 240], xmm0
-	add	rax, 32
-	add	rdi, 8
-	jne	.LBB3_415
-.LBB3_416:
-	test	rsi, rsi
-	je	.LBB3_419
-# %bb.417:
-	lea	rax, [rcx + 8*rax]
-	add	rax, 16
-	neg	rsi
-	xorpd	xmm0, xmm0
-.LBB3_418:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rax - 16], xmm0
-	movupd	xmmword ptr [rax], xmm0
-	add	rax, 32
-	inc	rsi
-	jne	.LBB3_418
-.LBB3_419:
-	cmp	rdx, r9
-	je	.LBB3_923
-	.p2align	4, 0x90
-.LBB3_420:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rcx + 8*rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_420
-	jmp	.LBB3_923
-.LBB3_431:
-	and	rdi, -8
-	neg	rdi
-	xor	eax, eax
-	xorpd	xmm0, xmm0
-.LBB3_432:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rcx + 2*rax], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 16], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 48], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 80], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 128], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 144], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 160], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 176], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 192], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 208], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 224], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 240], xmm0
-	sub	rax, -128
-	add	rdi, 8
-	jne	.LBB3_432
-.LBB3_433:
-	test	rsi, rsi
-	je	.LBB3_436
-# %bb.434:
-	lea	rax, [rcx + 2*rax]
-	add	rax, 16
-	neg	rsi
-	xorpd	xmm0, xmm0
-.LBB3_435:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rax - 16], xmm0
-	movupd	xmmword ptr [rax], xmm0
-	add	rax, 32
-	inc	rsi
-	jne	.LBB3_435
-.LBB3_436:
-	cmp	rdx, r9
-	je	.LBB3_923
-	.p2align	4, 0x90
-.LBB3_437:                              # =>This Inner Loop Header: Depth=1
-	mov	word ptr [rcx + 2*rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_437
-	jmp	.LBB3_923
-.LBB3_498:
-	and	rdi, -8
-	neg	rdi
-	xor	eax, eax
-	xorpd	xmm0, xmm0
-.LBB3_499:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rcx + rax], xmm0
-	movupd	xmmword ptr [rcx + rax + 16], xmm0
-	movupd	xmmword ptr [rcx + rax + 32], xmm0
-	movupd	xmmword ptr [rcx + rax + 48], xmm0
-	movupd	xmmword ptr [rcx + rax + 64], xmm0
-	movupd	xmmword ptr [rcx + rax + 80], xmm0
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm0
-	movupd	xmmword ptr [rcx + rax + 128], xmm0
-	movupd	xmmword ptr [rcx + rax + 144], xmm0
-	movupd	xmmword ptr [rcx + rax + 160], xmm0
-	movupd	xmmword ptr [rcx + rax + 176], xmm0
-	movupd	xmmword ptr [rcx + rax + 192], xmm0
-	movupd	xmmword ptr [rcx + rax + 208], xmm0
-	movupd	xmmword ptr [rcx + rax + 224], xmm0
-	movupd	xmmword ptr [rcx + rax + 240], xmm0
-	add	rax, 256
-	add	rdi, 8
-	jne	.LBB3_499
-.LBB3_500:
-	test	rsi, rsi
-	je	.LBB3_503
-# %bb.501:
-	add	rax, rcx
-	add	rax, 16
-	neg	rsi
-	xorpd	xmm0, xmm0
-.LBB3_502:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmmword ptr [rax - 16], xmm0
-	movupd	xmmword ptr [rax], xmm0
-	add	rax, 32
-	inc	rsi
-	jne	.LBB3_502
-.LBB3_503:
-	cmp	rdx, r9
-	je	.LBB3_923
-	.p2align	4, 0x90
-.LBB3_504:                              # =>This Inner Loop Header: Depth=1
-	mov	byte ptr [rcx + rdx], 0
-	add	rdx, 1
-	cmp	r9, rdx
-	jne	.LBB3_504
-.LBB3_923:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB3_530:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_531:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB3_531
-.LBB3_532:
-	test	r8, r8
-	je	.LBB3_535
-# %bb.533:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB3_534:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_534
-.LBB3_535:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_536
-.LBB3_540:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_541:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB3_541
-.LBB3_542:
-	test	r8, r8
-	je	.LBB3_545
-# %bb.543:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB3_544:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_544
-.LBB3_545:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_546
-.LBB3_550:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_551:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB3_551
-.LBB3_552:
-	test	r8, r8
-	je	.LBB3_555
-# %bb.553:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB3_554:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_554
-.LBB3_555:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_556
-.LBB3_560:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_561:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB3_561
-.LBB3_562:
-	test	r8, r8
-	je	.LBB3_565
-# %bb.563:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB3_564:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_564
-.LBB3_565:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_566
-.LBB3_570:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_571:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 2*rax]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movups	xmmword ptr [rcx + 2*rax], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
-	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB3_571
-.LBB3_572:
-	test	r8, r8
-	je	.LBB3_575
-# %bb.573:
-	add	rax, rax
-	add	rax, 16
-	neg	r8
-.LBB3_574:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_574
-.LBB3_575:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_576
-.LBB3_580:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_581:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 2*rax]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movups	xmmword ptr [rcx + 2*rax], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
-	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB3_581
-.LBB3_582:
-	test	r8, r8
-	je	.LBB3_585
-# %bb.583:
-	add	rax, rax
-	add	rax, 16
-	neg	r8
-.LBB3_584:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_584
-.LBB3_585:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_586
-.LBB3_590:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_591:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + rax]
-	movups	xmm1, xmmword ptr [rdx + rax + 16]
-	movups	xmmword ptr [rcx + rax], xmm0
-	movups	xmmword ptr [rcx + rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 32]
-	movups	xmm1, xmmword ptr [rdx + rax + 48]
-	movups	xmmword ptr [rcx + rax + 32], xmm0
-	movups	xmmword ptr [rcx + rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 64]
-	movups	xmm1, xmmword ptr [rdx + rax + 80]
-	movups	xmmword ptr [rcx + rax + 64], xmm0
-	movups	xmmword ptr [rcx + rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + rax + 112]
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB3_591
-.LBB3_592:
-	test	r8, r8
-	je	.LBB3_595
-# %bb.593:
-	add	rax, 16
-	neg	r8
-.LBB3_594:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_594
-.LBB3_595:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_596
-.LBB3_600:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB3_601:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + rax]
-	movups	xmm1, xmmword ptr [rdx + rax + 16]
-	movups	xmmword ptr [rcx + rax], xmm0
-	movups	xmmword ptr [rcx + rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 32]
-	movups	xmm1, xmmword ptr [rdx + rax + 48]
-	movups	xmmword ptr [rcx + rax + 32], xmm0
-	movups	xmmword ptr [rcx + rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 64]
-	movups	xmm1, xmmword ptr [rdx + rax + 80]
-	movups	xmmword ptr [rcx + rax + 64], xmm0
-	movups	xmmword ptr [rcx + rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + rax + 112]
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB3_601
-.LBB3_602:
-	test	r8, r8
-	je	.LBB3_605
-# %bb.603:
-	add	rax, 16
-	neg	r8
-.LBB3_604:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB3_604
-.LBB3_605:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_606
-.LBB3_610:
-	xor	edi, edi
-.LBB3_611:
-	test	r8b, 1
-	je	.LBB3_613
-# %bb.612:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubd	xmm3, xmm0
-	psubd	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm2
-.LBB3_613:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_614
-.LBB3_618:
-	xor	edi, edi
-.LBB3_619:
-	test	r8b, 1
-	je	.LBB3_621
-# %bb.620:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI3_3] # xmm3 = [1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqd	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_621:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_622
-.LBB3_626:
-	xor	edi, edi
-.LBB3_627:
-	test	r8b, 1
-	je	.LBB3_629
-# %bb.628:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_0] # xmm2 = [-0.0E+0,-0.0E+0]
-	xorpd	xmm0, xmm2
-	xorpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB3_629:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_630
-.LBB3_636:
-	xor	edi, edi
-.LBB3_637:
-	test	r8b, 1
-	je	.LBB3_639
-# %bb.638:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_0] # xmm2 = [-0.0E+0,-0.0E+0]
-	xorpd	xmm0, xmm2
-	xorpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB3_639:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_640
-.LBB3_646:
-	xor	edi, edi
-.LBB3_647:
-	test	r8b, 1
-	je	.LBB3_649
-# %bb.648:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI3_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmm0
-	andpd	xmm4, xmm3
-	movapd	xmm5, xmmword ptr [rip + .LCPI3_1] # xmm5 = [1.0E+0,1.0E+0]
-	orpd	xmm4, xmm5
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm5
-	cmpneqpd	xmm0, xmm2
-	andpd	xmm0, xmm4
-	cmpneqpd	xmm1, xmm2
-	andpd	xmm1, xmm3
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB3_649:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_650
-.LBB3_655:
-	xor	edi, edi
-.LBB3_656:
-	test	r8b, 1
-	je	.LBB3_658
-# %bb.657:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_8] # xmm2 = [9223372036854775807,9223372036854775807]
-	andpd	xmm0, xmm2
-	andpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB3_658:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_659
-.LBB3_663:
-	xor	edi, edi
-.LBB3_664:
-	test	r8b, 1
-	je	.LBB3_666
-# %bb.665:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_8] # xmm2 = [9223372036854775807,9223372036854775807]
-	andpd	xmm0, xmm2
-	andpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB3_666:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_667
-.LBB3_671:
-	xor	edi, edi
-.LBB3_672:
-	test	r8b, 1
-	je	.LBB3_674
-# %bb.673:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubb	xmm3, xmm0
-	psubb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm3
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
-.LBB3_674:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_675
-.LBB3_679:
-	xor	edi, edi
-.LBB3_680:
-	test	r8b, 1
-	je	.LBB3_682
-# %bb.681:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubb	xmm3, xmm0
-	psubb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm3
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
-.LBB3_682:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_683
-.LBB3_687:
-	xor	edi, edi
-.LBB3_688:
-	test	r8b, 1
-	je	.LBB3_690
-# %bb.689:
-	movdqu	xmm1, xmmword ptr [rdx + rdi]
-	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_6] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqb	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqb	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	pblendvb	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm3, xmm0
-	movdqu	xmmword ptr [rcx + rdi], xmm2
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm4
-.LBB3_690:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_691
-.LBB3_696:
-	xor	edi, edi
-.LBB3_697:
-	test	r8b, 1
-	je	.LBB3_699
-# %bb.698:
-	pmovsxbd	xmm3, dword ptr [rdx + rdi + 12]
-	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm2, dword ptr [rdx + rdi + 4]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi]
-	movdqa	xmm4, xmm1
-	psrad	xmm4, 7
-	movdqa	xmm5, xmm2
-	psrad	xmm5, 7
-	movdqa	xmm6, xmm0
-	psrad	xmm6, 7
-	movdqa	xmm7, xmm3
-	psrad	xmm7, 7
-	paddd	xmm3, xmm7
-	paddd	xmm0, xmm6
-	paddd	xmm2, xmm5
-	paddd	xmm1, xmm4
-	pxor	xmm1, xmm4
-	pxor	xmm2, xmm5
-	pxor	xmm0, xmm6
-	pxor	xmm3, xmm7
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_10] # xmm4 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-	pand	xmm3, xmm4
-	pand	xmm0, xmm4
-	packusdw	xmm0, xmm3
-	pand	xmm2, xmm4
-	pand	xmm1, xmm4
-	packusdw	xmm1, xmm2
-	packuswb	xmm1, xmm0
-	movdqu	xmmword ptr [rcx + rdi], xmm1
-.LBB3_699:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_700
-.LBB3_704:
-	xor	edi, edi
-.LBB3_705:
-	test	r8b, 1
-	je	.LBB3_707
-# %bb.706:
-	pmovsxbd	xmm3, dword ptr [rdx + rdi + 12]
-	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm2, dword ptr [rdx + rdi + 4]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi]
-	movdqa	xmm4, xmm1
-	psrad	xmm4, 7
-	movdqa	xmm5, xmm2
-	psrad	xmm5, 7
-	movdqa	xmm6, xmm0
-	psrad	xmm6, 7
-	movdqa	xmm7, xmm3
-	psrad	xmm7, 7
-	paddd	xmm3, xmm7
-	paddd	xmm0, xmm6
-	paddd	xmm2, xmm5
-	paddd	xmm1, xmm4
-	pxor	xmm1, xmm4
-	pxor	xmm2, xmm5
-	pxor	xmm0, xmm6
-	pxor	xmm3, xmm7
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_10] # xmm4 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-	pand	xmm3, xmm4
-	pand	xmm0, xmm4
-	packusdw	xmm0, xmm3
-	pand	xmm2, xmm4
-	pand	xmm1, xmm4
-	packusdw	xmm1, xmm2
-	packuswb	xmm1, xmm0
-	movdqu	xmmword ptr [rcx + rdi], xmm1
-.LBB3_707:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_708
-.LBB3_712:
-	xor	edi, edi
-.LBB3_713:
-	test	r8b, 1
-	je	.LBB3_715
-# %bb.714:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm0
-	psubq	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm2
-.LBB3_715:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_716
-.LBB3_720:
-	xor	edi, edi
-.LBB3_721:
-	test	r8b, 1
-	je	.LBB3_723
-# %bb.722:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI3_4] # xmm3 = [1,1]
-	pandn	xmm0, xmm3
-	pcmpeqq	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB3_723:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_724
-.LBB3_728:
-	xor	edi, edi
-.LBB3_729:
-	test	r8b, 1
-	je	.LBB3_731
-# %bb.730:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubw	xmm3, xmm0
-	psubw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-.LBB3_731:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_732
-.LBB3_736:
-	xor	edi, edi
-.LBB3_737:
-	test	r8b, 1
-	je	.LBB3_739
-# %bb.738:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubw	xmm3, xmm0
-	psubw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-.LBB3_739:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_740
-.LBB3_744:
-	xor	edi, edi
-.LBB3_745:
-	test	r8b, 1
-	je	.LBB3_747
-# %bb.746:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubw	xmm3, xmm0
-	psubw	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-.LBB3_747:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_748
-.LBB3_752:
-	xor	edi, edi
-.LBB3_753:
-	test	r8b, 1
-	je	.LBB3_755
-# %bb.754:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI3_5] # xmm3 = [1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqw	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-.LBB3_755:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_756
-.LBB3_760:
-	xor	edi, edi
-.LBB3_761:
-	test	r8b, 1
-	je	.LBB3_763
-# %bb.762:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_5] # xmm4 = [1,1,1,1,1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqw	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqw	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	pblendvb	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm3, xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm4
-.LBB3_763:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_764
-.LBB3_769:
-	xor	edi, edi
-.LBB3_770:
-	test	r8b, 1
-	je	.LBB3_772
-# %bb.771:
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 8]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi]
-	movdqa	xmm2, xmm1
-	psrad	xmm2, 15
-	movdqa	xmm3, xmm0
-	psrad	xmm3, 15
-	paddd	xmm0, xmm3
-	paddd	xmm1, xmm2
-	pxor	xmm1, xmm2
-	pxor	xmm0, xmm3
-	pxor	xmm2, xmm2
-	pblendw	xmm0, xmm2, 170                 # xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
-	pblendw	xmm1, xmm2, 170                 # xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
-	packusdw	xmm1, xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
-.LBB3_772:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_773
-.LBB3_777:
-	xor	edi, edi
-.LBB3_778:
-	test	r8b, 1
-	je	.LBB3_780
-# %bb.779:
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 8]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi]
-	movdqa	xmm2, xmm1
-	psrad	xmm2, 15
-	movdqa	xmm3, xmm0
-	psrad	xmm3, 15
-	paddd	xmm0, xmm3
-	paddd	xmm1, xmm2
-	pxor	xmm1, xmm2
-	pxor	xmm0, xmm3
-	pxor	xmm2, xmm2
-	pblendw	xmm0, xmm2, 170                 # xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
-	pblendw	xmm1, xmm2, 170                 # xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
-	packusdw	xmm1, xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
-.LBB3_780:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_781
-.LBB3_785:
-	xor	edi, edi
-.LBB3_786:
-	test	r8b, 1
-	je	.LBB3_788
-# %bb.787:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm0
-	psubq	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm2
-.LBB3_788:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_789
-.LBB3_793:
-	xor	edi, edi
-.LBB3_794:
-	test	r8b, 1
-	je	.LBB3_796
-# %bb.795:
-	movupd	xmm0, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_7] # xmm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	xorpd	xmm0, xmm2
-	xorpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_796:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_797
-.LBB3_803:
-	xor	edi, edi
-.LBB3_804:
-	test	r8b, 1
-	je	.LBB3_806
-# %bb.805:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubq	xmm3, xmm0
-	psubq	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 8*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm2
-.LBB3_806:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_807
-.LBB3_811:
-	xor	edi, edi
-.LBB3_812:
-	test	r8b, 1
-	je	.LBB3_814
-# %bb.813:
-	movupd	xmm0, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_7] # xmm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	xorpd	xmm0, xmm2
-	xorpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_814:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_815
-.LBB3_821:
-	xor	edi, edi
-.LBB3_822:
-	test	r8b, 1
-	je	.LBB3_824
-# %bb.823:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_4] # xmm4 = [1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqq	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqq	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	blendvpd	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm4, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm2
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm4
-.LBB3_824:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_825
-.LBB3_830:
-	xor	edi, edi
-.LBB3_831:
-	test	r8b, 1
-	je	.LBB3_833
-# %bb.832:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm3, xmm3
-	pxor	xmm4, xmm4
-	psubq	xmm4, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm4, xmm0
-	psubq	xmm3, xmm2
-	movdqa	xmm0, xmm2
-	blendvpd	xmm2, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-.LBB3_833:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_834
-.LBB3_838:
-	xor	edi, edi
-.LBB3_839:
-	test	r8b, 1
-	je	.LBB3_841
-# %bb.840:
-	movupd	xmm0, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_9] # xmm2 = [2147483647,2147483647,2147483647,2147483647]
-	andpd	xmm0, xmm2
-	andpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_841:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_842
-.LBB3_848:
-	xor	edi, edi
-.LBB3_849:
-	test	r8b, 1
-	je	.LBB3_851
-# %bb.850:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm3, xmm3
-	pxor	xmm4, xmm4
-	psubq	xmm4, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm4, xmm0
-	psubq	xmm3, xmm2
-	movdqa	xmm0, xmm2
-	blendvpd	xmm2, xmm3, xmm0
-	movupd	xmmword ptr [rcx + 8*rdi], xmm1
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
-.LBB3_851:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_852
-.LBB3_856:
-	xor	edi, edi
-.LBB3_857:
-	test	r8b, 1
-	je	.LBB3_859
-# %bb.858:
-	movupd	xmm0, xmmword ptr [rdx + 4*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movapd	xmm2, xmmword ptr [rip + .LCPI3_9] # xmm2 = [2147483647,2147483647,2147483647,2147483647]
-	andpd	xmm0, xmm2
-	andpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_859:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_860
-.LBB3_866:
-	xor	edi, edi
-.LBB3_867:
-	test	r8b, 1
-	je	.LBB3_869
-# %bb.868:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubb	xmm3, xmm0
-	psubb	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + rdi], xmm3
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
-.LBB3_869:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_870
-.LBB3_874:
-	xor	edi, edi
-.LBB3_875:
-	test	r8b, 1
-	je	.LBB3_877
-# %bb.876:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI3_6] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqb	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [rcx + rdi], xmm0
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
-.LBB3_877:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_878
-.LBB3_882:
-	xor	edi, edi
-.LBB3_883:
-	test	r8b, 1
-	je	.LBB3_885
-# %bb.884:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubd	xmm3, xmm0
-	psubd	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm2
-.LBB3_885:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_886
-.LBB3_890:
-	xor	edi, edi
-.LBB3_891:
-	test	r8b, 1
-	je	.LBB3_893
-# %bb.892:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm2, xmm2
-	pxor	xmm3, xmm3
-	psubd	xmm3, xmm0
-	psubd	xmm2, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm3
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm2
-.LBB3_893:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_894
-.LBB3_898:
-	xor	edi, edi
-.LBB3_899:
-	test	r8b, 1
-	je	.LBB3_901
-# %bb.900:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI3_3] # xmm4 = [1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqd	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqd	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	blendvps	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm4, xmm3, xmm0
-	movups	xmmword ptr [rcx + 4*rdi], xmm2
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm4
-.LBB3_901:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_902
-.LBB3_907:
-	xor	edi, edi
-.LBB3_908:
-	test	r8b, 1
-	je	.LBB3_910
-# %bb.909:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pabsd	xmm0, xmm0
-	pabsd	xmm1, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_910:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_911
-.LBB3_915:
-	xor	edi, edi
-.LBB3_916:
-	test	r8b, 1
-	je	.LBB3_918
-# %bb.917:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	pabsd	xmm0, xmm0
-	pabsd	xmm1, xmm1
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB3_918:
-	cmp	rsi, r9
-	je	.LBB3_923
-	jmp	.LBB3_919
-.Lfunc_end3:
-	.size	arithmetic_unary_same_types_sse4, .Lfunc_end3-arithmetic_unary_same_types_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function arithmetic_unary_diff_type_sse4
-.LCPI4_0:
-	.quad	0x8000000000000000              # double -0
-	.quad	0x8000000000000000              # double -0
-.LCPI4_1:
-	.quad	0x3ff0000000000000              # double 1
-	.quad	0x3ff0000000000000              # double 1
-.LCPI4_3:
-	.long	0x7fffffff                      # float NaN
-	.long	0x7fffffff                      # float NaN
-	.long	0x7fffffff                      # float NaN
-	.long	0x7fffffff                      # float NaN
-.LCPI4_4:
-	.long	0x80000000                      # float -0
-	.long	0x80000000                      # float -0
-	.long	0x80000000                      # float -0
-	.long	0x80000000                      # float -0
-.LCPI4_7:
-	.byte	0                               # 0x0
-	.byte	4                               # 0x4
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_8:
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-.LCPI4_10:
-	.long	0x4f000000                      # float 2.14748365E+9
-	.long	0x4f000000                      # float 2.14748365E+9
-	.long	0x4f000000                      # float 2.14748365E+9
-	.long	0x4f000000                      # float 2.14748365E+9
-.LCPI4_11:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.zero	2
-	.zero	2
-	.zero	2
-	.zero	2
-.LCPI4_12:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_15:
-	.quad	1                               # 0x1
-	.quad	1                               # 0x1
-.LCPI4_16:
-	.long	1                               # 0x1
-	.long	1                               # 0x1
-	.zero	4
-	.zero	4
-.LCPI4_17:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.zero	2
-	.zero	2
-	.zero	2
-	.zero	2
-	.zero	2
-	.zero	2
-.LCPI4_18:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_19:
-	.long	0x3f800000                      # float 1
-	.long	0x3f800000                      # float 1
-	.long	0x3f800000                      # float 1
-	.long	0x3f800000                      # float 1
-.LCPI4_20:
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-	.short	1                               # 0x1
-.LCPI4_21:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_22:
-	.zero	16,1
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3
-.LCPI4_2:
-	.quad	0x3ff0000000000000              # double 1
-.LCPI4_6:
-	.quad	0x43e0000000000000              # double 9.2233720368547758E+18
-.LCPI4_13:
-	.quad	0xbff0000000000000              # double -1
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2
-.LCPI4_5:
-	.long	0x3f800000                      # float 1
-.LCPI4_9:
-	.long	0x5f000000                      # float 9.22337203E+18
-.LCPI4_14:
-	.long	0xbf800000                      # float -1
-	.text
-	.globl	arithmetic_unary_diff_type_sse4
-	.p2align	4, 0x90
-	.type	arithmetic_unary_diff_type_sse4,@function
-arithmetic_unary_diff_type_sse4:        # @arithmetic_unary_diff_type_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r14
-	push	rbx
-	and	rsp, -8
-	cmp	dl, 20
-	jne	.LBB4_1655
-# %bb.1:
-	cmp	edi, 6
-	jg	.LBB4_14
-# %bb.2:
-	cmp	edi, 3
-	jle	.LBB4_26
-# %bb.3:
-	cmp	edi, 4
-	je	.LBB4_46
-# %bb.4:
-	cmp	edi, 5
-	je	.LBB4_54
-# %bb.5:
-	cmp	edi, 6
-	jne	.LBB4_1655
-# %bb.6:
-	cmp	esi, 6
-	jg	.LBB4_94
-# %bb.7:
-	cmp	esi, 3
-	jle	.LBB4_200
-# %bb.8:
-	cmp	esi, 4
-	je	.LBB4_303
-# %bb.9:
-	cmp	esi, 5
-	je	.LBB4_306
-# %bb.10:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.11:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.12:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_13
-# %bb.494:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_496
-# %bb.495:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_496
-.LBB4_13:
-	xor	edx, edx
-.LBB4_1232:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1234
-.LBB4_1233:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1233
-.LBB4_1234:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1235:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 4], eax
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 8], eax
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 12], eax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1235
-	jmp	.LBB4_1655
-.LBB4_14:
-	cmp	edi, 8
-	jle	.LBB4_36
-# %bb.15:
-	cmp	edi, 9
-	je	.LBB4_62
-# %bb.16:
-	cmp	edi, 11
-	je	.LBB4_70
-# %bb.17:
-	cmp	edi, 12
-	jne	.LBB4_1655
-# %bb.18:
-	cmp	esi, 6
-	jg	.LBB4_106
-# %bb.19:
-	cmp	esi, 3
-	jle	.LBB4_205
-# %bb.20:
-	cmp	esi, 4
-	je	.LBB4_309
-# %bb.21:
-	cmp	esi, 5
-	je	.LBB4_312
-# %bb.22:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.23:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.24:
-	mov	r11d, r9d
-	xor	r10d, r10d
-	cmp	r9d, 4
-	jae	.LBB4_499
-# %bb.25:
-	xor	esi, esi
-	jmp	.LBB4_1110
-.LBB4_26:
-	cmp	edi, 2
-	je	.LBB4_78
-# %bb.27:
-	cmp	edi, 3
-	jne	.LBB4_1655
-# %bb.28:
-	cmp	esi, 6
-	jg	.LBB4_113
-# %bb.29:
-	cmp	esi, 3
-	jle	.LBB4_210
-# %bb.30:
-	cmp	esi, 4
-	je	.LBB4_315
-# %bb.31:
-	cmp	esi, 5
-	je	.LBB4_318
-# %bb.32:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.33:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.34:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_35
-# %bb.502:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_504
-# %bb.503:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_504
-.LBB4_35:
-	xor	edx, edx
-.LBB4_1240:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1242
-# %bb.1241:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	r9b, r9b
-	setne	dil
-	neg	edi
-	test	r9b, r9b
-	mov	eax, 1
-	cmovle	eax, edi
-	mov	dword ptr [r8 + 4*rdx], eax
-	or	rdx, 1
-.LBB4_1242:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1243:
-	mov	esi, 1
-.LBB4_1244:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx], edi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1244
-	jmp	.LBB4_1655
-.LBB4_36:
-	cmp	edi, 7
-	je	.LBB4_86
-# %bb.37:
-	cmp	edi, 8
-	jne	.LBB4_1655
-# %bb.38:
-	cmp	esi, 6
-	jg	.LBB4_123
-# %bb.39:
-	cmp	esi, 3
-	jle	.LBB4_215
-# %bb.40:
-	cmp	esi, 4
-	je	.LBB4_321
-# %bb.41:
-	cmp	esi, 5
-	je	.LBB4_324
-# %bb.42:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.43:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.44:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_507
-# %bb.45:
-	xor	edx, edx
-	jmp	.LBB4_998
-.LBB4_46:
-	cmp	esi, 6
-	jg	.LBB4_135
-# %bb.47:
-	cmp	esi, 3
-	jle	.LBB4_220
-# %bb.48:
-	cmp	esi, 4
-	je	.LBB4_327
-# %bb.49:
-	cmp	esi, 5
-	je	.LBB4_330
-# %bb.50:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.51:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.52:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_510
-# %bb.53:
-	xor	edx, edx
-	jmp	.LBB4_1116
-.LBB4_54:
-	cmp	esi, 6
-	jg	.LBB4_147
-# %bb.55:
-	cmp	esi, 3
-	jle	.LBB4_225
-# %bb.56:
-	cmp	esi, 4
-	je	.LBB4_333
-# %bb.57:
-	cmp	esi, 5
-	je	.LBB4_336
-# %bb.58:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.59:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.60:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB4_513
-# %bb.61:
-	xor	edx, edx
-	jmp	.LBB4_1121
-.LBB4_62:
-	cmp	esi, 6
-	jg	.LBB4_157
-# %bb.63:
-	cmp	esi, 3
-	jle	.LBB4_230
-# %bb.64:
-	cmp	esi, 4
-	je	.LBB4_339
-# %bb.65:
-	cmp	esi, 5
-	je	.LBB4_342
-# %bb.66:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.67:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.68:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_516
-# %bb.69:
-	xor	edx, edx
-	jmp	.LBB4_1127
-.LBB4_70:
-	cmp	esi, 6
-	jg	.LBB4_167
-# %bb.71:
-	cmp	esi, 3
-	jle	.LBB4_235
-# %bb.72:
-	cmp	esi, 4
-	je	.LBB4_345
-# %bb.73:
-	cmp	esi, 5
-	je	.LBB4_348
-# %bb.74:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.75:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.76:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_519
-# %bb.77:
-	xor	edx, edx
-	jmp	.LBB4_1133
-.LBB4_78:
-	cmp	esi, 6
-	jg	.LBB4_178
-# %bb.79:
-	cmp	esi, 3
-	jle	.LBB4_240
-# %bb.80:
-	cmp	esi, 4
-	je	.LBB4_351
-# %bb.81:
-	cmp	esi, 5
-	je	.LBB4_354
-# %bb.82:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.83:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.84:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_85
-# %bb.522:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_524
-# %bb.523:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_524
-.LBB4_85:
-	xor	edx, edx
-.LBB4_1249:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1251
-.LBB4_1250:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1250
-.LBB4_1251:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1252:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 4], eax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 8], eax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 12], eax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1252
-	jmp	.LBB4_1655
-.LBB4_86:
-	cmp	esi, 6
-	jg	.LBB4_190
-# %bb.87:
-	cmp	esi, 3
-	jle	.LBB4_245
-# %bb.88:
-	cmp	esi, 4
-	je	.LBB4_357
-# %bb.89:
-	cmp	esi, 5
-	je	.LBB4_360
-# %bb.90:
-	cmp	esi, 6
-	jne	.LBB4_1655
-# %bb.91:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.92:
-	mov	r11d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_93
-# %bb.527:
-	lea	rdx, [rcx + 4*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_529
-# %bb.528:
-	lea	rdx, [r8 + 4*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_529
-.LBB4_93:
-	xor	edx, edx
-.LBB4_1257:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1259
-# %bb.1258:
-	mov	r9d, dword ptr [rcx + 4*rdx]
-	xor	r10d, r10d
-	test	r9d, r9d
-	setne	r10b
-	neg	r10d
-	test	r9d, r9d
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [r8 + 4*rdx], edi
-	or	rdx, 1
-.LBB4_1259:
-	add	rsi, r11
-	je	.LBB4_1655
-# %bb.1260:
-	mov	esi, 1
-.LBB4_1261:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	mov	eax, dword ptr [rcx + 4*rdx + 4]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1261
-	jmp	.LBB4_1655
-.LBB4_94:
-	cmp	esi, 8
-	jle	.LBB4_250
-# %bb.95:
-	cmp	esi, 9
-	je	.LBB4_363
-# %bb.96:
-	cmp	esi, 11
-	je	.LBB4_366
-# %bb.97:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.98:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.99:
-	mov	edx, r9d
-	lea	rsi, [rdx - 1]
-	mov	eax, edx
-	and	eax, 3
-	cmp	rsi, 3
-	jae	.LBB4_532
-# %bb.100:
-	xor	esi, esi
-.LBB4_101:
-	test	rax, rax
-	je	.LBB4_1655
-# %bb.102:
-	lea	rdx, [r8 + 8*rsi]
-	lea	rcx, [rcx + 4*rsi]
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_104
-.LBB4_103:                              #   in Loop: Header=BB4_104 Depth=1
-	movsd	qword ptr [rdx + 8*rsi], xmm1
-	add	rsi, 1
-	cmp	rax, rsi
-	je	.LBB4_1655
-.LBB4_104:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_103
-# %bb.105:                              #   in Loop: Header=BB4_104 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_103
-.LBB4_106:
-	cmp	esi, 8
-	jle	.LBB4_255
-# %bb.107:
-	cmp	esi, 9
-	je	.LBB4_369
-# %bb.108:
-	cmp	esi, 11
-	je	.LBB4_372
-# %bb.109:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.110:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.111:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB4_112
-# %bb.542:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_544
-# %bb.543:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_544
-.LBB4_112:
-	xor	edx, edx
-.LBB4_1266:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1268
-# %bb.1267:
-	movsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	andpd	xmm1, xmm0
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-	orpd	xmm2, xmm1
-	xorpd	xmm1, xmm1
-	cmpeqsd	xmm1, xmm0
-	andnpd	xmm1, xmm2
-	movlpd	qword ptr [r8 + 8*rdx], xmm1
-	or	rdx, 1
-.LBB4_1268:
-	add	rsi, rax
-	je	.LBB4_1655
-# %bb.1269:
-	movapd	xmm0, xmmword ptr [rip + .LCPI4_0] # xmm0 = [-0.0E+0,-0.0E+0]
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	xorpd	xmm2, xmm2
-.LBB4_1270:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	movapd	xmm4, xmm3
-	andpd	xmm4, xmm0
-	orpd	xmm4, xmm1
-	cmpeqsd	xmm3, xmm2
-	andnpd	xmm3, xmm4
-	movlpd	qword ptr [r8 + 8*rdx], xmm3
-	movsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
-	movapd	xmm4, xmm3
-	andpd	xmm4, xmm0
-	orpd	xmm4, xmm1
-	cmpeqsd	xmm3, xmm2
-	andnpd	xmm3, xmm4
-	movlpd	qword ptr [r8 + 8*rdx + 8], xmm3
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_1270
-	jmp	.LBB4_1655
-.LBB4_113:
-	cmp	esi, 8
-	jle	.LBB4_260
-# %bb.114:
-	cmp	esi, 9
-	je	.LBB4_375
-# %bb.115:
-	cmp	esi, 11
-	je	.LBB4_378
-# %bb.116:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.117:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.118:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_547
-# %bb.119:
-	xor	eax, eax
-.LBB4_120:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.121:
-	cmp	byte ptr [rcx + rax], 0
-	jne	.LBB4_982
-.LBB4_122:
-	xorpd	xmm0, xmm0
-	jmp	.LBB4_983
-.LBB4_123:
-	cmp	esi, 8
-	jle	.LBB4_265
-# %bb.124:
-	cmp	esi, 9
-	je	.LBB4_381
-# %bb.125:
-	cmp	esi, 11
-	je	.LBB4_384
-# %bb.126:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.127:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.128:
-	mov	edx, r9d
-	lea	rsi, [rdx - 1]
-	mov	eax, edx
-	and	eax, 3
-	cmp	rsi, 3
-	jae	.LBB4_557
-# %bb.129:
-	xor	esi, esi
-.LBB4_130:
-	test	rax, rax
-	je	.LBB4_1655
-# %bb.131:
-	lea	rdx, [r8 + 8*rsi]
-	lea	rcx, [rcx + 8*rsi]
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_133
-.LBB4_132:                              #   in Loop: Header=BB4_133 Depth=1
-	movsd	qword ptr [rdx + 8*rsi], xmm1
-	add	rsi, 1
-	cmp	rax, rsi
-	je	.LBB4_1655
-.LBB4_133:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_132
-# %bb.134:                              #   in Loop: Header=BB4_133 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_132
-.LBB4_135:
-	cmp	esi, 8
-	jle	.LBB4_270
-# %bb.136:
-	cmp	esi, 9
-	je	.LBB4_392
-# %bb.137:
-	cmp	esi, 11
-	je	.LBB4_395
-# %bb.138:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.139:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.140:
-	mov	edx, r9d
-	lea	rsi, [rdx - 1]
-	mov	eax, edx
-	and	eax, 3
-	cmp	rsi, 3
-	jae	.LBB4_567
-# %bb.141:
-	xor	esi, esi
-.LBB4_142:
-	test	rax, rax
-	je	.LBB4_1655
-# %bb.143:
-	lea	rdx, [r8 + 8*rsi]
-	lea	rcx, [rcx + 2*rsi]
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_145
-.LBB4_144:                              #   in Loop: Header=BB4_145 Depth=1
-	movsd	qword ptr [rdx + 8*rsi], xmm1
-	add	rsi, 1
-	cmp	rax, rsi
-	je	.LBB4_1655
-.LBB4_145:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_144
-# %bb.146:                              #   in Loop: Header=BB4_145 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_144
-.LBB4_147:
-	cmp	esi, 8
-	jle	.LBB4_275
-# %bb.148:
-	cmp	esi, 9
-	je	.LBB4_398
-# %bb.149:
-	cmp	esi, 11
-	je	.LBB4_401
-# %bb.150:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.151:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.152:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_577
-# %bb.153:
-	xor	eax, eax
-.LBB4_154:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.155:
-	cmp	word ptr [rcx + 2*rax], 0
-	je	.LBB4_122
-.LBB4_982:
-	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-.LBB4_983:
-	jle	.LBB4_985
-# %bb.984:
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-.LBB4_985:
-	movsd	qword ptr [r8 + 8*rax], xmm0
-	jmp	.LBB4_1655
-.LBB4_157:
-	cmp	esi, 8
-	jle	.LBB4_280
-# %bb.158:
-	cmp	esi, 9
-	je	.LBB4_404
-# %bb.159:
-	cmp	esi, 11
-	je	.LBB4_407
-# %bb.160:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.161:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.162:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_587
-# %bb.163:
-	xor	eax, eax
-.LBB4_164:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.165:
-	cmp	qword ptr [rcx + 8*rax], 0
-	je	.LBB4_122
-	jmp	.LBB4_982
-.LBB4_167:
-	cmp	esi, 8
-	jle	.LBB4_285
-# %bb.168:
-	cmp	esi, 9
-	je	.LBB4_413
-# %bb.169:
-	cmp	esi, 11
-	je	.LBB4_419
-# %bb.170:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.171:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.172:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_597
-# %bb.173:
-	xor	eax, eax
-.LBB4_174:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.175:
-	movss	xmm1, dword ptr [rcx + 4*rax]   # xmm1 = mem[0],zero,zero,zero
-	xorps	xmm0, xmm0
-	xorps	xmm2, xmm2
-	ucomiss	xmm2, xmm1
-	je	.LBB4_177
-# %bb.176:
-	movmskps	ecx, xmm1
-	and	ecx, 1
-	neg	ecx
-	or	ecx, 1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, ecx
-	cvtss2sd	xmm0, xmm0
-.LBB4_177:
-	movsd	qword ptr [r8 + 8*rax], xmm0
-	jmp	.LBB4_1655
-.LBB4_178:
-	cmp	esi, 8
-	jle	.LBB4_293
-# %bb.179:
-	cmp	esi, 9
-	je	.LBB4_422
-# %bb.180:
-	cmp	esi, 11
-	je	.LBB4_425
-# %bb.181:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.182:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.183:
-	mov	edx, r9d
-	lea	rsi, [rdx - 1]
-	mov	eax, edx
-	and	eax, 3
-	cmp	rsi, 3
-	jae	.LBB4_603
-# %bb.184:
-	xor	esi, esi
-.LBB4_185:
-	test	rax, rax
-	je	.LBB4_1655
-# %bb.186:
-	lea	rdx, [r8 + 8*rsi]
-	add	rcx, rsi
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_188
-.LBB4_187:                              #   in Loop: Header=BB4_188 Depth=1
-	movsd	qword ptr [rdx + 8*rsi], xmm1
-	add	rsi, 1
-	cmp	rax, rsi
-	je	.LBB4_1655
-.LBB4_188:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_187
-# %bb.189:                              #   in Loop: Header=BB4_188 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_187
-.LBB4_190:
-	cmp	esi, 8
-	jle	.LBB4_298
-# %bb.191:
-	cmp	esi, 9
-	je	.LBB4_428
-# %bb.192:
-	cmp	esi, 11
-	je	.LBB4_431
-# %bb.193:
-	cmp	esi, 12
-	jne	.LBB4_1655
-# %bb.194:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.195:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_613
-# %bb.196:
-	xor	eax, eax
-.LBB4_197:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.198:
-	cmp	dword ptr [rcx + 4*rax], 0
-	je	.LBB4_122
-	jmp	.LBB4_982
-.LBB4_200:
-	cmp	esi, 2
-	je	.LBB4_434
-# %bb.201:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.202:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.203:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB4_204
-# %bb.623:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_625
-# %bb.624:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_625
-.LBB4_204:
-	xor	edx, edx
-.LBB4_1275:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1277
-.LBB4_1276:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1276
-.LBB4_1277:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1278:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1278
-	jmp	.LBB4_1655
-.LBB4_205:
-	cmp	esi, 2
-	je	.LBB4_437
-# %bb.206:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.207:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.208:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB4_209
-# %bb.628:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_630
-# %bb.629:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_630
-.LBB4_209:
-	xor	edx, edx
-.LBB4_1283:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1285
-# %bb.1284:
-	movsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
-	xor	r9d, r9d
-	pxor	xmm1, xmm1
-	ucomisd	xmm1, xmm0
-	andpd	xmm0, xmmword ptr [rip + .LCPI4_0]
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	orpd	xmm1, xmm0
-	cvttsd2si	edi, xmm1
-	cmove	edi, r9d
-	mov	byte ptr [r8 + rdx], dil
-	or	rdx, 1
-.LBB4_1285:
-	add	rsi, rax
-	je	.LBB4_1655
-# %bb.1286:
-	xor	esi, esi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1287:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx], dil
-	movsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx + 1], dil
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_1287
-	jmp	.LBB4_1655
-.LBB4_210:
-	cmp	esi, 2
-	je	.LBB4_440
-# %bb.211:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.212:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.213:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_214
-# %bb.633:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_635
-# %bb.634:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_635
-.LBB4_214:
-	xor	esi, esi
-.LBB4_1292:
-	mov	rax, rsi
-	not	rax
-	test	r10b, 1
-	je	.LBB4_1294
-# %bb.1293:
-	mov	dil, byte ptr [rcx + rsi]
-	test	dil, dil
-	setne	r9b
-	neg	r9b
-	test	dil, dil
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1294:
-	add	rax, r10
-	je	.LBB4_1655
-# %bb.1295:
-	mov	edi, 1
-.LBB4_1296:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1296
-	jmp	.LBB4_1655
-.LBB4_215:
-	cmp	esi, 2
-	je	.LBB4_443
-# %bb.216:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.217:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.218:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB4_219
-# %bb.638:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_640
-# %bb.639:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_640
-.LBB4_219:
-	xor	edx, edx
-.LBB4_1301:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1303
-.LBB4_1302:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1302
-.LBB4_1303:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1304:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1304
-	jmp	.LBB4_1655
-.LBB4_220:
-	cmp	esi, 2
-	je	.LBB4_446
-# %bb.221:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.222:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.223:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_224
-# %bb.643:
-	lea	rdx, [rcx + 2*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_645
-# %bb.644:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_645
-.LBB4_224:
-	xor	edx, edx
-.LBB4_1309:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1311
-.LBB4_1310:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1310
-.LBB4_1311:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1312:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1312
-	jmp	.LBB4_1655
-.LBB4_225:
-	cmp	esi, 2
-	je	.LBB4_449
-# %bb.226:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.227:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.228:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_229
-# %bb.648:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_650
-# %bb.649:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_650
-.LBB4_229:
-	xor	esi, esi
-.LBB4_1317:
-	mov	rax, rsi
-	not	rax
-	test	r10b, 1
-	je	.LBB4_1319
-# %bb.1318:
-	movzx	edi, word ptr [rcx + 2*rsi]
-	test	di, di
-	setne	r9b
-	neg	r9b
-	test	di, di
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1319:
-	add	rax, r10
-	je	.LBB4_1655
-# %bb.1320:
-	mov	r9d, 1
-.LBB4_1321:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	test	di, di
-	setne	al
-	neg	al
-	test	di, di
-	movzx	eax, al
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	test	ax, ax
-	setne	dl
-	neg	dl
-	test	ax, ax
-	movzx	eax, dl
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1321
-	jmp	.LBB4_1655
-.LBB4_230:
-	cmp	esi, 2
-	je	.LBB4_452
-# %bb.231:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.232:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.233:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_234
-# %bb.653:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_655
-# %bb.654:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_655
-.LBB4_234:
-	xor	esi, esi
-.LBB4_1326:
-	mov	rdx, rsi
-	not	rdx
-	test	r10b, 1
-	je	.LBB4_1328
-# %bb.1327:
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	test	rdi, rdi
-	setne	al
-	neg	al
-	test	rdi, rdi
-	movzx	eax, al
-	mov	edi, 1
-	cmovle	edi, eax
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1328:
-	add	rdx, r10
-	je	.LBB4_1655
-# %bb.1329:
-	mov	edi, 1
-.LBB4_1330:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	test	rax, rax
-	setne	dl
-	neg	dl
-	test	rax, rax
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi], al
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	test	rax, rax
-	setne	dl
-	neg	dl
-	test	rax, rax
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1330
-	jmp	.LBB4_1655
-.LBB4_235:
-	cmp	esi, 2
-	je	.LBB4_455
-# %bb.236:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.237:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.238:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_239
-# %bb.658:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_660
-# %bb.659:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_660
-.LBB4_239:
-	xor	edx, edx
-.LBB4_1335:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1337
-# %bb.1336:
-	movd	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
-	movd	edi, xmm0
-	test	edi, edi
-	setns	al
-	add	al, al
-	add	al, -1
-	xor	edi, edi
-	pxor	xmm1, xmm1
-	ucomiss	xmm1, xmm0
-	movzx	eax, al
-	cmove	eax, edi
-	mov	byte ptr [r8 + rdx], al
-	or	rdx, 1
-.LBB4_1337:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1338:
-	xor	esi, esi
-	xorps	xmm0, xmm0
-.LBB4_1339:                             # =>This Inner Loop Header: Depth=1
-	movd	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	movd	eax, xmm1
-	test	eax, eax
-	setns	al
-	add	al, al
-	add	al, -1
-	ucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx], al
-	movd	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	movd	eax, xmm1
-	test	eax, eax
-	setns	al
-	add	al, al
-	add	al, -1
-	ucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx + 1], al
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1339
-	jmp	.LBB4_1655
-.LBB4_240:
-	cmp	esi, 2
-	je	.LBB4_458
-# %bb.241:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.242:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.243:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_244
-# %bb.663:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_665
-# %bb.664:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_665
-.LBB4_244:
-	xor	edx, edx
-.LBB4_1344:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1346
-.LBB4_1345:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1345
-.LBB4_1346:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1347:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1347
-	jmp	.LBB4_1655
-.LBB4_245:
-	cmp	esi, 2
-	je	.LBB4_461
-# %bb.246:
-	cmp	esi, 3
-	jne	.LBB4_1655
-# %bb.247:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.248:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_249
-# %bb.668:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_670
-# %bb.669:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_670
-.LBB4_249:
-	xor	esi, esi
-.LBB4_1352:
-	mov	rax, rsi
-	not	rax
-	test	r10b, 1
-	je	.LBB4_1354
-# %bb.1353:
-	mov	edi, dword ptr [rcx + 4*rsi]
-	test	edi, edi
-	setne	r9b
-	neg	r9b
-	test	edi, edi
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1354:
-	add	rax, r10
-	je	.LBB4_1655
-# %bb.1355:
-	mov	r9d, 1
-.LBB4_1356:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	test	edi, edi
-	setne	al
-	neg	al
-	test	edi, edi
-	movzx	eax, al
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	test	eax, eax
-	setne	dl
-	neg	dl
-	test	eax, eax
-	movzx	eax, dl
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1356
-	jmp	.LBB4_1655
-.LBB4_250:
-	cmp	esi, 7
-	je	.LBB4_464
-# %bb.251:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.252:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.253:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_673
-# %bb.254:
-	xor	edx, edx
-	jmp	.LBB4_1003
-.LBB4_255:
-	cmp	esi, 7
-	je	.LBB4_467
-# %bb.256:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.257:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.258:
-	mov	r10d, r9d
-	movabs	r11, -9223372036854775808
-	cmp	r9d, 1
-	jne	.LBB4_676
-# %bb.259:
-	xor	esi, esi
-	jmp	.LBB4_1008
-.LBB4_260:
-	cmp	esi, 7
-	je	.LBB4_470
-# %bb.261:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.262:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.263:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_264
-# %bb.679:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_681
-# %bb.680:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_681
-.LBB4_264:
-	xor	edx, edx
-.LBB4_1361:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1363
-# %bb.1362:
-	mov	al, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	mov	eax, 1
-	cmovle	rax, rdi
-	mov	qword ptr [r8 + 8*rdx], rax
-	or	rdx, 1
-.LBB4_1363:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1364:
-	mov	esi, 1
-.LBB4_1365:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx], rdi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1365
-	jmp	.LBB4_1655
-.LBB4_265:
-	cmp	esi, 7
-	je	.LBB4_473
-# %bb.266:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.267:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.268:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_269
-# %bb.684:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_686
-# %bb.685:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_686
-.LBB4_269:
-	xor	edx, edx
-.LBB4_1370:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1372
-.LBB4_1371:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1371
-.LBB4_1372:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1373:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 8], rax
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 16], rax
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 24], rax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1373
-	jmp	.LBB4_1655
-.LBB4_270:
-	cmp	esi, 7
-	je	.LBB4_476
-# %bb.271:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.272:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.273:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_689
-# %bb.274:
-	xor	edx, edx
-	jmp	.LBB4_1014
-.LBB4_275:
-	cmp	esi, 7
-	je	.LBB4_479
-# %bb.276:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.277:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.278:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_692
-# %bb.279:
-	xor	edx, edx
-	jmp	.LBB4_1019
-.LBB4_280:
-	cmp	esi, 7
-	je	.LBB4_482
-# %bb.281:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.282:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.283:
-	mov	r11d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_284
-# %bb.695:
-	lea	rdx, [rcx + 8*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_697
-# %bb.696:
-	lea	rdx, [r8 + 8*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_697
-.LBB4_284:
-	xor	edx, edx
-.LBB4_1378:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1380
-# %bb.1379:
-	mov	r9, qword ptr [rcx + 8*rdx]
-	xor	r10d, r10d
-	test	r9, r9
-	setne	r10b
-	neg	r10
-	test	r9, r9
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [r8 + 8*rdx], rdi
-	or	rdx, 1
-.LBB4_1380:
-	add	rsi, r11
-	je	.LBB4_1655
-# %bb.1381:
-	mov	esi, 1
-.LBB4_1382:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	rax
-	test	rdi, rdi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	mov	rax, qword ptr [rcx + 8*rdx + 8]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1382
-	jmp	.LBB4_1655
-.LBB4_285:
-	cmp	esi, 7
-	je	.LBB4_485
-# %bb.286:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.287:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.288:
-	mov	r10d, r9d
-	cmp	r9d, 1
-	jne	.LBB4_700
-# %bb.289:
-	xor	eax, eax
-	jmp	.LBB4_290
-.LBB4_293:
-	cmp	esi, 7
-	je	.LBB4_488
-# %bb.294:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.295:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.296:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_297
-# %bb.708:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_710
-# %bb.709:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_710
-.LBB4_297:
-	xor	edx, edx
-.LBB4_1387:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1389
-.LBB4_1388:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1388
-.LBB4_1389:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1390:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 8], rax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 16], rax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 24], rax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1390
-	jmp	.LBB4_1655
-.LBB4_298:
-	cmp	esi, 7
-	je	.LBB4_491
-# %bb.299:
-	cmp	esi, 8
-	jne	.LBB4_1655
-# %bb.300:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.301:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_713
-# %bb.302:
-	xor	edx, edx
-	jmp	.LBB4_1025
-.LBB4_303:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.304:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_716
-# %bb.305:
-	xor	edx, edx
-	jmp	.LBB4_1141
-.LBB4_306:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.307:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_719
-# %bb.308:
-	xor	edx, edx
-	jmp	.LBB4_1146
-.LBB4_309:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.310:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 4
-	jae	.LBB4_722
-# %bb.311:
-	xor	esi, esi
-	jmp	.LBB4_1151
-.LBB4_312:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.313:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 4
-	jae	.LBB4_725
-# %bb.314:
-	xor	esi, esi
-	jmp	.LBB4_1157
-.LBB4_315:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.316:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_317
-# %bb.728:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_730
-# %bb.729:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_730
-.LBB4_317:
-	xor	edx, edx
-.LBB4_1395:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1397
-# %bb.1396:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	r9b, r9b
-	setne	dil
-	neg	edi
-	test	r9b, r9b
-	mov	eax, 1
-	cmovle	eax, edi
-	mov	word ptr [r8 + 2*rdx], ax
-	or	rdx, 1
-.LBB4_1397:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1398:
-	mov	esi, 1
-.LBB4_1399:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx], di
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1399
-	jmp	.LBB4_1655
-.LBB4_318:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.319:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_320
-# %bb.733:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_735
-# %bb.734:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_735
-.LBB4_320:
-	xor	edx, edx
-.LBB4_1404:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1406
-# %bb.1405:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	r9b, r9b
-	setne	dil
-	neg	edi
-	test	r9b, r9b
-	mov	eax, 1
-	cmovle	eax, edi
-	mov	word ptr [r8 + 2*rdx], ax
-	or	rdx, 1
-.LBB4_1406:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1407:
-	mov	esi, 1
-.LBB4_1408:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx], di
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1408
-	jmp	.LBB4_1655
-.LBB4_321:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.322:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_738
-# %bb.323:
-	xor	edx, edx
-	jmp	.LBB4_1031
-.LBB4_324:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.325:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_741
-# %bb.326:
-	xor	edx, edx
-	jmp	.LBB4_1036
-.LBB4_327:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.328:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_329
-# %bb.744:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_746
-# %bb.745:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_746
-.LBB4_329:
-	xor	edx, edx
-.LBB4_1413:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1415
-.LBB4_1414:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1414
-.LBB4_1415:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1416:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 2], ax
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 4], ax
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 6], ax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1416
-	jmp	.LBB4_1655
-.LBB4_330:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.331:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_332
-# %bb.749:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_751
-# %bb.750:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_751
-.LBB4_332:
-	xor	edx, edx
-.LBB4_1421:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1423
-.LBB4_1422:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1422
-.LBB4_1423:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1424:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 2], ax
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 4], ax
-	xor	eax, eax
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 6], ax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1424
-	jmp	.LBB4_1655
-.LBB4_333:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.334:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_335
-# %bb.754:
-	lea	rdx, [rcx + 2*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_756
-# %bb.755:
-	lea	rdx, [r8 + 2*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_756
-.LBB4_335:
-	xor	edx, edx
-.LBB4_1429:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1431
-# %bb.1430:
-	movzx	r9d, word ptr [rcx + 2*rdx]
-	xor	r10d, r10d
-	test	r9w, r9w
-	setne	r10b
-	neg	r10d
-	test	r9w, r9w
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [r8 + 2*rdx], di
-	or	rdx, 1
-.LBB4_1431:
-	add	rsi, r11
-	je	.LBB4_1655
-# %bb.1432:
-	mov	esi, 1
-.LBB4_1433:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	movzx	eax, word ptr [rcx + 2*rdx + 2]
-	xor	edi, edi
-	test	ax, ax
-	setne	dil
-	neg	edi
-	test	ax, ax
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1433
-	jmp	.LBB4_1655
-.LBB4_336:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.337:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_338
-# %bb.759:
-	lea	rdx, [rcx + 2*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_761
-# %bb.760:
-	lea	rdx, [r8 + 2*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_761
-.LBB4_338:
-	xor	edx, edx
-.LBB4_1438:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1440
-# %bb.1439:
-	movzx	r9d, word ptr [rcx + 2*rdx]
-	xor	r10d, r10d
-	test	r9w, r9w
-	setne	r10b
-	neg	r10d
-	test	r9w, r9w
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	word ptr [r8 + 2*rdx], di
-	or	rdx, 1
-.LBB4_1440:
-	add	rsi, r11
-	je	.LBB4_1655
-# %bb.1441:
-	mov	esi, 1
-.LBB4_1442:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	movzx	eax, word ptr [rcx + 2*rdx + 2]
-	xor	edi, edi
-	test	ax, ax
-	setne	dil
-	neg	edi
-	test	ax, ax
-	cmovg	edi, esi
-	mov	word ptr [r8 + 2*rdx + 2], di
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1442
-	jmp	.LBB4_1655
-.LBB4_339:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.340:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_764
-# %bb.341:
-	xor	edx, edx
-	jmp	.LBB4_1041
-.LBB4_342:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.343:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_767
-# %bb.344:
-	xor	edx, edx
-	jmp	.LBB4_1163
-.LBB4_345:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.346:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 8
-	jae	.LBB4_770
-# %bb.347:
-	xor	esi, esi
-	jmp	.LBB4_1169
-.LBB4_348:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.349:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 8
-	jae	.LBB4_773
-# %bb.350:
-	xor	esi, esi
-	jmp	.LBB4_1175
-.LBB4_351:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.352:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_353
-# %bb.776:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_778
-# %bb.777:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_778
-.LBB4_353:
-	xor	edx, edx
-.LBB4_1447:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1449
-.LBB4_1448:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1448
-.LBB4_1449:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1450:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 2], ax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 4], ax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 6], ax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1450
-	jmp	.LBB4_1655
-.LBB4_354:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.355:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_356
-# %bb.781:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_783
-# %bb.782:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_783
-.LBB4_356:
-	xor	edx, edx
-.LBB4_1455:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1457
-.LBB4_1456:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1456
-.LBB4_1457:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1458:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx], ax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 2], ax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 4], ax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	al
-	mov	word ptr [r8 + 2*rdx + 6], ax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1458
-	jmp	.LBB4_1655
-.LBB4_357:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.358:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB4_786
-# %bb.359:
-	xor	edx, edx
-	jmp	.LBB4_1047
-.LBB4_360:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.361:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB4_789
-# %bb.362:
-	xor	edx, edx
-	jmp	.LBB4_1053
-.LBB4_363:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.364:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_792
-# %bb.365:
-	xor	edx, edx
-	jmp	.LBB4_1181
-.LBB4_366:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.367:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_795
-# %bb.368:
-	xor	edx, edx
-	jmp	.LBB4_1186
-.LBB4_369:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.370:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_798
-# %bb.371:
-	xor	edx, edx
-	jmp	.LBB4_1194
-.LBB4_372:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.373:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_801
-# %bb.374:
-	xor	edx, edx
-	jmp	.LBB4_1200
-.LBB4_375:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.376:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_377
-# %bb.804:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_806
-# %bb.805:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_806
-.LBB4_377:
-	xor	edx, edx
-.LBB4_1463:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1465
-# %bb.1464:
-	mov	al, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	mov	eax, 1
-	cmovle	rax, rdi
-	mov	qword ptr [r8 + 8*rdx], rax
-	or	rdx, 1
-.LBB4_1465:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1466:
-	mov	esi, 1
-.LBB4_1467:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx], rdi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	rdi
-	test	al, al
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1467
-	jmp	.LBB4_1655
-.LBB4_378:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.379:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB4_380
-# %bb.809:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_811
-# %bb.810:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_811
-.LBB4_380:
-	xor	edx, edx
-.LBB4_1472:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1479
-# %bb.1473:
-	cmp	byte ptr [rcx + rdx], 0
-	jne	.LBB4_1475
-# %bb.1474:
-	pxor	xmm0, xmm0
-	jmp	.LBB4_1476
-.LBB4_381:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.382:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_383
-# %bb.814:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_816
-# %bb.815:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_816
-.LBB4_383:
-	xor	edx, edx
-.LBB4_1494:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1496
-.LBB4_1495:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1495
-.LBB4_1496:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1497:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 8], rax
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 16], rax
-	xor	eax, eax
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 24], rax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1497
-	jmp	.LBB4_1655
-.LBB4_384:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.385:
-	mov	edx, r9d
-	lea	rsi, [rdx - 1]
-	mov	eax, edx
-	and	eax, 3
-	cmp	rsi, 3
-	jae	.LBB4_819
-# %bb.386:
-	xor	esi, esi
-.LBB4_387:
-	test	rax, rax
-	je	.LBB4_1655
-# %bb.388:
-	lea	rdx, [r8 + 4*rsi]
-	lea	rcx, [rcx + 8*rsi]
-	xor	esi, esi
-	movss	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_390
-.LBB4_389:                              #   in Loop: Header=BB4_390 Depth=1
-	movss	dword ptr [rdx + 4*rsi], xmm1
-	add	rsi, 1
-	cmp	rax, rsi
-	je	.LBB4_1655
-.LBB4_390:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_389
-# %bb.391:                              #   in Loop: Header=BB4_390 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_389
-.LBB4_392:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.393:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_829
-# %bb.394:
-	xor	edx, edx
-	jmp	.LBB4_1059
-.LBB4_395:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.396:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_832
-# %bb.397:
-	xor	edx, edx
-	jmp	.LBB4_1208
-.LBB4_398:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.399:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_835
-# %bb.400:
-	xor	edx, edx
-	jmp	.LBB4_1216
-.LBB4_401:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.402:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_838
-# %bb.403:
-	xor	edx, edx
-	jmp	.LBB4_1222
-.LBB4_404:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.405:
-	mov	r11d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_406
-# %bb.841:
-	lea	rdx, [rcx + 8*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_843
-# %bb.842:
-	lea	rdx, [r8 + 8*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_843
-.LBB4_406:
-	xor	edx, edx
-.LBB4_1502:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1504
-# %bb.1503:
-	mov	r9, qword ptr [rcx + 8*rdx]
-	xor	r10d, r10d
-	test	r9, r9
-	setne	r10b
-	neg	r10
-	test	r9, r9
-	mov	edi, 1
-	cmovle	rdi, r10
-	mov	qword ptr [r8 + 8*rdx], rdi
-	or	rdx, 1
-.LBB4_1504:
-	add	rsi, r11
-	je	.LBB4_1655
-# %bb.1505:
-	mov	esi, 1
-.LBB4_1506:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	rax
-	test	rdi, rdi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	mov	rax, qword ptr [rcx + 8*rdx + 8]
-	xor	edi, edi
-	test	rax, rax
-	setne	dil
-	neg	rdi
-	test	rax, rax
-	cmovg	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx + 8], rdi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1506
-	jmp	.LBB4_1655
-.LBB4_407:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.408:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_846
-# %bb.409:
-	xor	eax, eax
-.LBB4_410:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.411:
-	cmp	qword ptr [rcx + 8*rax], 0
-	jne	.LBB4_989
-# %bb.412:
-	xorpd	xmm0, xmm0
-	jmp	.LBB4_990
-.LBB4_413:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.414:
-	mov	edx, r9d
-	cmp	r9d, 1
-	jne	.LBB4_856
-# %bb.415:
-	xor	eax, eax
-	jmp	.LBB4_416
-.LBB4_419:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.420:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB4_421
-# %bb.864:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_866
-# %bb.865:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_866
-.LBB4_421:
-	xor	edx, edx
-.LBB4_869:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_871
-# %bb.870:
-	movss	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
-	movmskps	edi, xmm0
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, edi
-	xorps	xmm2, xmm2
-	cmpeqss	xmm2, xmm0
-	andnps	xmm2, xmm1
-	movss	dword ptr [r8 + 4*rdx], xmm2
-	or	rdx, 1
-.LBB4_871:
-	add	rsi, rax
-	je	.LBB4_1655
-# %bb.872:
-	xorps	xmm0, xmm0
-.LBB4_873:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	movmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, esi
-	cmpeqss	xmm1, xmm0
-	andnps	xmm1, xmm2
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	movmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, esi
-	cmpeqss	xmm1, xmm0
-	andnps	xmm1, xmm2
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_873
-	jmp	.LBB4_1655
-.LBB4_422:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.423:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_424
-# %bb.874:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_876
-# %bb.875:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_876
-.LBB4_424:
-	xor	edx, edx
-.LBB4_1511:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1513
-.LBB4_1512:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1512
-.LBB4_1513:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1514:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx], rax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 8], rax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 16], rax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	al
-	mov	qword ptr [r8 + 8*rdx + 24], rax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1514
-	jmp	.LBB4_1655
-.LBB4_425:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.426:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB4_427
-# %bb.879:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_881
-# %bb.880:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_881
-.LBB4_427:
-	xor	edx, edx
-.LBB4_1519:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1524
-# %bb.1520:
-	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_1522
-.LBB4_1521:                             #   in Loop: Header=BB4_1522 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	je	.LBB4_1524
-.LBB4_1522:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1521
-# %bb.1523:                             #   in Loop: Header=BB4_1522 Depth=1
-	pxor	xmm1, xmm1
-	jmp	.LBB4_1521
-.LBB4_428:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.429:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_884
-# %bb.430:
-	xor	edx, edx
-	jmp	.LBB4_1064
-.LBB4_431:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.432:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_887
-# %bb.433:
-	xor	edx, edx
-	jmp	.LBB4_1070
-.LBB4_434:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.435:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB4_436
-# %bb.890:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_892
-# %bb.891:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_892
-.LBB4_436:
-	xor	edx, edx
-.LBB4_1539:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1541
-.LBB4_1540:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1540
-.LBB4_1541:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1542:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1542
-	jmp	.LBB4_1655
-.LBB4_437:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.438:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB4_439
-# %bb.895:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_897
-# %bb.896:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_897
-.LBB4_439:
-	xor	edx, edx
-.LBB4_1547:
-	mov	rsi, rdx
-	not	rsi
-	test	al, 1
-	je	.LBB4_1549
-# %bb.1548:
-	movsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
-	xor	r9d, r9d
-	pxor	xmm1, xmm1
-	ucomisd	xmm1, xmm0
-	andpd	xmm0, xmmword ptr [rip + .LCPI4_0]
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	orpd	xmm1, xmm0
-	cvttsd2si	edi, xmm1
-	cmove	edi, r9d
-	mov	byte ptr [r8 + rdx], dil
-	or	rdx, 1
-.LBB4_1549:
-	add	rsi, rax
-	je	.LBB4_1655
-# %bb.1550:
-	xor	esi, esi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1551:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx], dil
-	movsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edi, xmm3
-	cmove	edi, esi
-	mov	byte ptr [r8 + rdx + 1], dil
-	add	rdx, 2
-	cmp	rax, rdx
-	jne	.LBB4_1551
-	jmp	.LBB4_1655
-.LBB4_440:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.441:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB4_442
-# %bb.900:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_902
-# %bb.901:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_902
-.LBB4_442:
-	xor	esi, esi
-.LBB4_1556:
-	mov	rax, rsi
-	not	rax
-	test	r10b, 1
-	je	.LBB4_1558
-# %bb.1557:
-	mov	dil, byte ptr [rcx + rsi]
-	test	dil, dil
-	setne	r9b
-	neg	r9b
-	test	dil, dil
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1558:
-	add	rax, r10
-	je	.LBB4_1655
-# %bb.1559:
-	mov	edi, 1
-.LBB4_1560:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	test	al, al
-	setne	dl
-	neg	dl
-	test	al, al
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1560
-	jmp	.LBB4_1655
-.LBB4_443:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.444:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB4_445
-# %bb.905:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_907
-# %bb.906:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_907
-.LBB4_445:
-	xor	edx, edx
-.LBB4_1565:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1567
-.LBB4_1566:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1566
-.LBB4_1567:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1568:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	qword ptr [rcx + 8*rdx + 8], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	qword ptr [rcx + 8*rdx + 16], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	qword ptr [rcx + 8*rdx + 24], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1568
-	jmp	.LBB4_1655
-.LBB4_446:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.447:
-	mov	eax, r9d
-	cmp	r9d, 16
-	jb	.LBB4_448
-# %bb.910:
-	lea	rdx, [rcx + 2*rax]
-	cmp	rdx, r8
-	jbe	.LBB4_912
-# %bb.911:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_912
-.LBB4_448:
-	xor	edx, edx
-.LBB4_1573:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1575
-.LBB4_1574:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1574
-.LBB4_1575:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1576:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	word ptr [rcx + 2*rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	word ptr [rcx + 2*rdx + 4], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	word ptr [rcx + 2*rdx + 6], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1576
-	jmp	.LBB4_1655
-.LBB4_449:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.450:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB4_451
-# %bb.915:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_917
-# %bb.916:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_917
-.LBB4_451:
-	xor	esi, esi
-.LBB4_1581:
-	mov	rax, rsi
-	not	rax
-	test	r10b, 1
-	je	.LBB4_1583
-# %bb.1582:
-	movzx	edi, word ptr [rcx + 2*rsi]
-	test	di, di
-	setne	r9b
-	neg	r9b
-	test	di, di
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1583:
-	add	rax, r10
-	je	.LBB4_1655
-# %bb.1584:
-	mov	r9d, 1
-.LBB4_1585:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	test	di, di
-	setne	al
-	neg	al
-	test	di, di
-	movzx	eax, al
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	test	ax, ax
-	setne	dl
-	neg	dl
-	test	ax, ax
-	movzx	eax, dl
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1585
-	jmp	.LBB4_1655
-.LBB4_452:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.453:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB4_454
-# %bb.920:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_922
-# %bb.921:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_922
-.LBB4_454:
-	xor	esi, esi
-.LBB4_1590:
-	mov	rdx, rsi
-	not	rdx
-	test	r10b, 1
-	je	.LBB4_1592
-# %bb.1591:
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	test	rdi, rdi
-	setne	al
-	neg	al
-	test	rdi, rdi
-	movzx	eax, al
-	mov	edi, 1
-	cmovle	edi, eax
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1592:
-	add	rdx, r10
-	je	.LBB4_1655
-# %bb.1593:
-	mov	edi, 1
-.LBB4_1594:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	test	rax, rax
-	setne	dl
-	neg	dl
-	test	rax, rax
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi], al
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	test	rax, rax
-	setne	dl
-	neg	dl
-	test	rax, rax
-	movzx	eax, dl
-	cmovg	eax, edi
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1594
-	jmp	.LBB4_1655
-.LBB4_455:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.456:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_457
-# %bb.925:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_927
-# %bb.926:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_927
-.LBB4_457:
-	xor	edx, edx
-.LBB4_1599:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1601
-# %bb.1600:
-	movd	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
-	movd	edi, xmm0
-	test	edi, edi
-	setns	al
-	add	al, al
-	add	al, -1
-	xor	edi, edi
-	pxor	xmm1, xmm1
-	ucomiss	xmm1, xmm0
-	movzx	eax, al
-	cmove	eax, edi
-	mov	byte ptr [r8 + rdx], al
-	or	rdx, 1
-.LBB4_1601:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1602:
-	xor	esi, esi
-	xorps	xmm0, xmm0
-.LBB4_1603:                             # =>This Inner Loop Header: Depth=1
-	movd	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	movd	eax, xmm1
-	test	eax, eax
-	setns	al
-	add	al, al
-	add	al, -1
-	ucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx], al
-	movd	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	movd	eax, xmm1
-	test	eax, eax
-	setns	al
-	add	al, al
-	add	al, -1
-	ucomiss	xmm0, xmm1
-	movzx	eax, al
-	cmove	eax, esi
-	mov	byte ptr [r8 + rdx + 1], al
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1603
-	jmp	.LBB4_1655
-.LBB4_458:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.459:
-	mov	eax, r9d
-	cmp	r9d, 32
-	jb	.LBB4_460
-# %bb.930:
-	lea	rdx, [rcx + rax]
-	cmp	rdx, r8
-	jbe	.LBB4_932
-# %bb.931:
-	lea	rdx, [r8 + rax]
-	cmp	rdx, rcx
-	jbe	.LBB4_932
-.LBB4_460:
-	xor	edx, edx
-.LBB4_1608:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB4_1610
-.LBB4_1609:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1609
-.LBB4_1610:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1611:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	setne	byte ptr [r8 + rdx]
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	byte ptr [r8 + rdx + 1]
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	byte ptr [r8 + rdx + 2]
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	byte ptr [r8 + rdx + 3]
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB4_1611
-	jmp	.LBB4_1655
-.LBB4_461:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.462:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_463
-# %bb.935:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_937
-# %bb.936:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_937
-.LBB4_463:
-	xor	esi, esi
-.LBB4_1616:
-	mov	rax, rsi
-	not	rax
-	test	r10b, 1
-	je	.LBB4_1618
-# %bb.1617:
-	mov	edi, dword ptr [rcx + 4*rsi]
-	test	edi, edi
-	setne	r9b
-	neg	r9b
-	test	edi, edi
-	movzx	r9d, r9b
-	mov	edi, 1
-	cmovle	edi, r9d
-	mov	byte ptr [r8 + rsi], dil
-	or	rsi, 1
-.LBB4_1618:
-	add	rax, r10
-	je	.LBB4_1655
-# %bb.1619:
-	mov	r9d, 1
-.LBB4_1620:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	test	edi, edi
-	setne	al
-	neg	al
-	test	edi, edi
-	movzx	eax, al
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	test	eax, eax
-	setne	dl
-	neg	dl
-	test	eax, eax
-	movzx	eax, dl
-	cmovg	eax, r9d
-	mov	byte ptr [r8 + rsi + 1], al
-	add	rsi, 2
-	cmp	r10, rsi
-	jne	.LBB4_1620
-	jmp	.LBB4_1655
-.LBB4_464:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.465:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_466
-# %bb.940:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB4_942
-# %bb.941:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_942
-.LBB4_466:
-	xor	edx, edx
-.LBB4_1625:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1627
-.LBB4_1626:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1626
-.LBB4_1627:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1628:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx + 4], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 4], eax
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx + 8], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 8], eax
-	xor	eax, eax
-	cmp	dword ptr [rcx + 4*rdx + 12], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 12], eax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1628
-	jmp	.LBB4_1655
-.LBB4_467:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.468:
-	mov	eax, r9d
-	xor	r10d, r10d
-	cmp	r9d, 4
-	jae	.LBB4_945
-# %bb.469:
-	xor	esi, esi
-	jmp	.LBB4_1080
-.LBB4_470:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.471:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_472
-# %bb.948:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_950
-# %bb.949:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_950
-.LBB4_472:
-	xor	edx, edx
-.LBB4_1633:
-	mov	rsi, rdx
-	not	rsi
-	test	r10b, 1
-	je	.LBB4_1635
-# %bb.1634:
-	mov	r9b, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	r9b, r9b
-	setne	dil
-	neg	edi
-	test	r9b, r9b
-	mov	eax, 1
-	cmovle	eax, edi
-	mov	dword ptr [r8 + 4*rdx], eax
-	or	rdx, 1
-.LBB4_1635:
-	add	rsi, r10
-	je	.LBB4_1655
-# %bb.1636:
-	mov	esi, 1
-.LBB4_1637:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rdx]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx], edi
-	movzx	eax, byte ptr [rcx + rdx + 1]
-	xor	edi, edi
-	test	al, al
-	setne	dil
-	neg	edi
-	test	al, al
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r10, rdx
-	jne	.LBB4_1637
-	jmp	.LBB4_1655
-.LBB4_473:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.474:
-	mov	eax, r9d
-	cmp	r9d, 4
-	jae	.LBB4_953
-# %bb.475:
-	xor	edx, edx
-	jmp	.LBB4_1086
-.LBB4_476:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.477:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_956
-# %bb.478:
-	xor	edx, edx
-	jmp	.LBB4_1091
-.LBB4_479:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.480:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB4_959
-# %bb.481:
-	xor	edx, edx
-	jmp	.LBB4_1096
-.LBB4_482:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.483:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB4_962
-# %bb.484:
-	xor	edx, edx
-	jmp	.LBB4_1102
-.LBB4_485:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.486:
-	mov	eax, r9d
-	cmp	r9d, 8
-	jae	.LBB4_965
-# %bb.487:
-	xor	edx, edx
-	jmp	.LBB4_968
-.LBB4_488:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.489:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_490
-# %bb.972:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB4_974
-# %bb.973:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB4_974
-.LBB4_490:
-	xor	edx, edx
-.LBB4_1642:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, r10
-	mov	rdi, r10
-	and	rdi, 3
-	je	.LBB4_1644
-.LBB4_1643:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB4_1643
-.LBB4_1644:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-.LBB4_1645:                             # =>This Inner Loop Header: Depth=1
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx], eax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 1], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 4], eax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 2], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 8], eax
-	xor	eax, eax
-	cmp	byte ptr [rcx + rdx + 3], 0
-	setne	al
-	mov	dword ptr [r8 + 4*rdx + 12], eax
-	add	rdx, 4
-	cmp	r10, rdx
-	jne	.LBB4_1645
-	jmp	.LBB4_1655
-.LBB4_491:
-	test	r9d, r9d
-	jle	.LBB4_1655
-# %bb.492:
-	mov	r11d, r9d
-	cmp	r9d, 8
-	jb	.LBB4_493
-# %bb.977:
-	lea	rdx, [rcx + 4*r11]
-	cmp	rdx, r8
-	jbe	.LBB4_979
-# %bb.978:
-	lea	rdx, [r8 + 4*r11]
-	cmp	rdx, rcx
-	jbe	.LBB4_979
-.LBB4_493:
-	xor	edx, edx
-.LBB4_1650:
-	mov	rsi, rdx
-	not	rsi
-	test	r11b, 1
-	je	.LBB4_1652
-# %bb.1651:
-	mov	r9d, dword ptr [rcx + 4*rdx]
-	xor	r10d, r10d
-	test	r9d, r9d
-	setne	r10b
-	neg	r10d
-	test	r9d, r9d
-	mov	edi, 1
-	cmovle	edi, r10d
-	mov	dword ptr [r8 + 4*rdx], edi
-	or	rdx, 1
-.LBB4_1652:
-	add	rsi, r11
-	je	.LBB4_1655
-# %bb.1653:
-	mov	esi, 1
-.LBB4_1654:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	mov	eax, dword ptr [rcx + 4*rdx + 4]
-	xor	edi, edi
-	test	eax, eax
-	setne	dil
-	neg	edi
-	test	eax, eax
-	cmovg	edi, esi
-	mov	dword ptr [r8 + 4*rdx + 4], edi
-	add	rdx, 2
-	cmp	r11, rdx
-	jne	.LBB4_1654
-	jmp	.LBB4_1655
-.LBB4_1524:
-	cmp	rsi, 3
-	jb	.LBB4_1655
-# %bb.1525:
-	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_1527
-.LBB4_1526:                             #   in Loop: Header=BB4_1527 Depth=1
-	movd	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1527:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1528
-# %bb.1531:                             #   in Loop: Header=BB4_1527 Depth=1
-	pxor	xmm1, xmm1
-	movd	dword ptr [r8 + 4*rdx], xmm1
-	cmp	byte ptr [rcx + rdx + 1], 0
-	movdqa	xmm1, xmm0
-	je	.LBB4_1532
-.LBB4_1529:                             #   in Loop: Header=BB4_1527 Depth=1
-	movd	dword ptr [r8 + 4*rdx + 4], xmm1
-	cmp	byte ptr [rcx + rdx + 2], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1530
-.LBB4_1533:                             #   in Loop: Header=BB4_1527 Depth=1
-	pxor	xmm1, xmm1
-	movd	dword ptr [r8 + 4*rdx + 8], xmm1
-	cmp	byte ptr [rcx + rdx + 3], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1526
-	jmp	.LBB4_1534
-.LBB4_1528:                             #   in Loop: Header=BB4_1527 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm1
-	cmp	byte ptr [rcx + rdx + 1], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1529
-.LBB4_1532:                             #   in Loop: Header=BB4_1527 Depth=1
-	pxor	xmm1, xmm1
-	movd	dword ptr [r8 + 4*rdx + 4], xmm1
-	cmp	byte ptr [rcx + rdx + 2], 0
-	movdqa	xmm1, xmm0
-	je	.LBB4_1533
-.LBB4_1530:                             #   in Loop: Header=BB4_1527 Depth=1
-	movd	dword ptr [r8 + 4*rdx + 8], xmm1
-	cmp	byte ptr [rcx + rdx + 3], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1526
-.LBB4_1534:                             #   in Loop: Header=BB4_1527 Depth=1
-	pxor	xmm1, xmm1
-	jmp	.LBB4_1526
-.LBB4_499:
-	mov	esi, r11d
-	and	esi, -4
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1106
-# %bb.500:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-.LBB4_501:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm5, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm3, xmm5
-	cmpeqpd	xmm3, xmm0
-	shufps	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	movapd	xmm4, xmm6
-	cmpeqpd	xmm4, xmm0
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	pshufd	xmm7, xmm5, 238                 # xmm7 = xmm5[2,3,2,3]
-	cvttsd2si	rax, xmm7
-	cvttsd2si	rbx, xmm5
-	movd	xmm5, ebx
-	pinsrd	xmm5, eax, 1
-	pshufd	xmm7, xmm6, 238                 # xmm7 = xmm6[2,3,2,3]
-	cvttsd2si	rax, xmm7
-	cvttsd2si	rbx, xmm6
-	shufps	xmm4, xmm4, 232                 # xmm4 = xmm4[0,2,2,3]
-	movd	xmm6, ebx
-	pinsrd	xmm6, eax, 1
-	andnps	xmm3, xmm5
-	andnps	xmm4, xmm6
-	movlhps	xmm3, xmm4                      # xmm3 = xmm3[0],xmm4[0]
-	movups	xmmword ptr [r8 + 4*rdi], xmm3
-	movupd	xmm5, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm3, xmm5
-	cmpeqpd	xmm3, xmm0
-	shufps	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	movapd	xmm4, xmm6
-	cmpeqpd	xmm4, xmm0
-	shufps	xmm4, xmm4, 232                 # xmm4 = xmm4[0,2,2,3]
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	andpd	xmm6, xmm1
-	pshufd	xmm7, xmm5, 238                 # xmm7 = xmm5[2,3,2,3]
-	cvttsd2si	rax, xmm7
-	orpd	xmm6, xmm2
-	cvttsd2si	rbx, xmm5
-	movd	xmm5, ebx
-	pinsrd	xmm5, eax, 1
-	andnps	xmm3, xmm5
-	pshufd	xmm5, xmm6, 238                 # xmm5 = xmm6[2,3,2,3]
-	cvttsd2si	rax, xmm5
-	cvttsd2si	rbx, xmm6
-	movd	xmm5, ebx
-	pinsrd	xmm5, eax, 1
-	andnps	xmm4, xmm5
-	movlhps	xmm3, xmm4                      # xmm3 = xmm3[0],xmm4[0]
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB4_501
-	jmp	.LBB4_1107
-.LBB4_507:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_994
-# %bb.508:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_16] # xmm1 = <1,1,u,u>
-.LBB4_509:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm2, xmm0
-	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	pandn	xmm3, xmm1
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm2, xmm0
-	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	pandn	xmm3, xmm1
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm2
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_509
-	jmp	.LBB4_995
-.LBB4_510:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1112
-# %bb.511:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_512:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + 2*rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 2*rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_512
-	jmp	.LBB4_1113
-.LBB4_513:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1117
-# %bb.514:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-.LBB4_515:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 2*rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwd	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwd	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_515
-	jmp	.LBB4_1118
-.LBB4_516:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1123
-# %bb.517:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_16] # xmm4 = <1,1,u,u>
-.LBB4_518:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pcmpeqq	xmm5, xmm2
-	pshufd	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
-	pxor	xmm5, xmm3
-	pcmpeqq	xmm6, xmm2
-	pshufd	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	pxor	xmm6, xmm3
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pcmpeqq	xmm5, xmm2
-	pshufd	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
-	pxor	xmm5, xmm3
-	pcmpeqq	xmm6, xmm2
-	pshufd	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	pxor	xmm6, xmm3
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_518
-	jmp	.LBB4_1124
-.LBB4_519:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1129
-# %bb.520:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorps	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-	movaps	xmm3, xmmword ptr [rip + .LCPI4_10] # xmm3 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_4] # xmm4 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-.LBB4_521:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
-	movdqa	xmm0, xmm5
-	psrad	xmm0, 31
-	por	xmm0, xmm2
-	cvtdq2ps	xmm6, xmm0
-	movaps	xmm0, xmm6
-	cmpltps	xmm0, xmm3
-	cvttps2dq	xmm7, xmm6
-	subps	xmm6, xmm3
-	cvttps2dq	xmm6, xmm6
-	xorps	xmm6, xmm4
-	blendvps	xmm6, xmm7, xmm0
-	cmpneqps	xmm5, xmm1
-	andps	xmm5, xmm6
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm0, xmm5
-	psrad	xmm0, 31
-	por	xmm0, xmm2
-	cvtdq2ps	xmm6, xmm0
-	movaps	xmm0, xmm6
-	cmpltps	xmm0, xmm3
-	cvttps2dq	xmm7, xmm6
-	subps	xmm6, xmm3
-	cvttps2dq	xmm6, xmm6
-	xorps	xmm6, xmm4
-	blendvps	xmm6, xmm7, xmm0
-	cmpneqps	xmm5, xmm1
-	andps	xmm5, xmm6
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_521
-	jmp	.LBB4_1130
-.LBB4_532:
-	and	edx, -4
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_534
-.LBB4_533:                              #   in Loop: Header=BB4_534 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	rdx, rsi
-	je	.LBB4_101
-.LBB4_534:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_535
-# %bb.538:                              #   in Loop: Header=BB4_534 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	dword ptr [rcx + 4*rsi + 4], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_539
-.LBB4_536:                              #   in Loop: Header=BB4_534 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	dword ptr [rcx + 4*rsi + 8], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_537
-.LBB4_540:                              #   in Loop: Header=BB4_534 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	dword ptr [rcx + 4*rsi + 12], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_533
-	jmp	.LBB4_541
-.LBB4_535:                              #   in Loop: Header=BB4_534 Depth=1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	dword ptr [rcx + 4*rsi + 4], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_536
-.LBB4_539:                              #   in Loop: Header=BB4_534 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	dword ptr [rcx + 4*rsi + 8], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_540
-.LBB4_537:                              #   in Loop: Header=BB4_534 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	dword ptr [rcx + 4*rsi + 12], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_533
-.LBB4_541:                              #   in Loop: Header=BB4_534 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_533
-.LBB4_547:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	jmp	.LBB4_549
-.LBB4_548:                              #   in Loop: Header=BB4_549 Depth=1
-	movsd	qword ptr [r8 + 8*rax + 8], xmm3
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_120
-.LBB4_549:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rax], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_550
-# %bb.553:                              #   in Loop: Header=BB4_549 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jle	.LBB4_554
-.LBB4_551:                              #   in Loop: Header=BB4_549 Depth=1
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	byte ptr [rcx + rax + 1], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_552
-.LBB4_555:                              #   in Loop: Header=BB4_549 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jg	.LBB4_548
-	jmp	.LBB4_556
-.LBB4_550:                              #   in Loop: Header=BB4_549 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_551
-.LBB4_554:                              #   in Loop: Header=BB4_549 Depth=1
-	movapd	xmm3, xmm2
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	byte ptr [rcx + rax + 1], 0
-	movapd	xmm2, xmm0
-	je	.LBB4_555
-.LBB4_552:                              #   in Loop: Header=BB4_549 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_548
-.LBB4_556:                              #   in Loop: Header=BB4_549 Depth=1
-	movapd	xmm3, xmm2
-	jmp	.LBB4_548
-.LBB4_557:
-	and	edx, -4
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_559
-.LBB4_558:                              #   in Loop: Header=BB4_559 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	rdx, rsi
-	je	.LBB4_130
-.LBB4_559:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_560
-# %bb.563:                              #   in Loop: Header=BB4_559 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 8], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_564
-.LBB4_561:                              #   in Loop: Header=BB4_559 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 16], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_562
-.LBB4_565:                              #   in Loop: Header=BB4_559 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 24], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_558
-	jmp	.LBB4_566
-.LBB4_560:                              #   in Loop: Header=BB4_559 Depth=1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 8], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_561
-.LBB4_564:                              #   in Loop: Header=BB4_559 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 16], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_565
-.LBB4_562:                              #   in Loop: Header=BB4_559 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 24], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_558
-.LBB4_566:                              #   in Loop: Header=BB4_559 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_558
-.LBB4_567:
-	and	edx, -4
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_569
-.LBB4_568:                              #   in Loop: Header=BB4_569 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	rdx, rsi
-	je	.LBB4_142
-.LBB4_569:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_570
-# %bb.573:                              #   in Loop: Header=BB4_569 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	word ptr [rcx + 2*rsi + 2], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_574
-.LBB4_571:                              #   in Loop: Header=BB4_569 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	word ptr [rcx + 2*rsi + 4], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_572
-.LBB4_575:                              #   in Loop: Header=BB4_569 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	word ptr [rcx + 2*rsi + 6], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_568
-	jmp	.LBB4_576
-.LBB4_570:                              #   in Loop: Header=BB4_569 Depth=1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	word ptr [rcx + 2*rsi + 2], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_571
-.LBB4_574:                              #   in Loop: Header=BB4_569 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	word ptr [rcx + 2*rsi + 4], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_575
-.LBB4_572:                              #   in Loop: Header=BB4_569 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	word ptr [rcx + 2*rsi + 6], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_568
-.LBB4_576:                              #   in Loop: Header=BB4_569 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_568
-.LBB4_577:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	jmp	.LBB4_579
-.LBB4_578:                              #   in Loop: Header=BB4_579 Depth=1
-	movsd	qword ptr [r8 + 8*rax + 8], xmm3
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_154
-.LBB4_579:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rax], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_580
-# %bb.583:                              #   in Loop: Header=BB4_579 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jle	.LBB4_584
-.LBB4_581:                              #   in Loop: Header=BB4_579 Depth=1
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	word ptr [rcx + 2*rax + 2], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_582
-.LBB4_585:                              #   in Loop: Header=BB4_579 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jg	.LBB4_578
-	jmp	.LBB4_586
-.LBB4_580:                              #   in Loop: Header=BB4_579 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_581
-.LBB4_584:                              #   in Loop: Header=BB4_579 Depth=1
-	movapd	xmm3, xmm2
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	word ptr [rcx + 2*rax + 2], 0
-	movapd	xmm2, xmm0
-	je	.LBB4_585
-.LBB4_582:                              #   in Loop: Header=BB4_579 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_578
-.LBB4_586:                              #   in Loop: Header=BB4_579 Depth=1
-	movapd	xmm3, xmm2
-	jmp	.LBB4_578
-.LBB4_587:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	jmp	.LBB4_589
-.LBB4_588:                              #   in Loop: Header=BB4_589 Depth=1
-	movsd	qword ptr [r8 + 8*rax + 8], xmm3
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_164
-.LBB4_589:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rax], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_590
-# %bb.593:                              #   in Loop: Header=BB4_589 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jle	.LBB4_594
-.LBB4_591:                              #   in Loop: Header=BB4_589 Depth=1
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	qword ptr [rcx + 8*rax + 8], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_592
-.LBB4_595:                              #   in Loop: Header=BB4_589 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jg	.LBB4_588
-	jmp	.LBB4_596
-.LBB4_590:                              #   in Loop: Header=BB4_589 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_591
-.LBB4_594:                              #   in Loop: Header=BB4_589 Depth=1
-	movapd	xmm3, xmm2
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	qword ptr [rcx + 8*rax + 8], 0
-	movapd	xmm2, xmm0
-	je	.LBB4_595
-.LBB4_592:                              #   in Loop: Header=BB4_589 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_588
-.LBB4_596:                              #   in Loop: Header=BB4_589 Depth=1
-	movapd	xmm3, xmm2
-	jmp	.LBB4_588
-.LBB4_597:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	xorps	xmm0, xmm0
-	jmp	.LBB4_599
-.LBB4_598:                              #   in Loop: Header=BB4_599 Depth=1
-	movsd	qword ptr [r8 + 8*rax + 8], xmm1
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_174
-.LBB4_599:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm2, dword ptr [rcx + 4*rax]   # xmm2 = mem[0],zero,zero,zero
-	xorpd	xmm1, xmm1
-	ucomiss	xmm0, xmm2
-	xorpd	xmm3, xmm3
-	je	.LBB4_601
-# %bb.600:                              #   in Loop: Header=BB4_599 Depth=1
-	movmskps	edi, xmm2
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, edi
-	xorps	xmm3, xmm3
-	cvtss2sd	xmm3, xmm2
-.LBB4_601:                              #   in Loop: Header=BB4_599 Depth=1
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	movss	xmm2, dword ptr [rcx + 4*rax + 4] # xmm2 = mem[0],zero,zero,zero
-	ucomiss	xmm0, xmm2
-	je	.LBB4_598
-# %bb.602:                              #   in Loop: Header=BB4_599 Depth=1
-	movmskps	edi, xmm2
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, edi
-	cvtss2sd	xmm1, xmm1
-	jmp	.LBB4_598
-.LBB4_603:
-	and	edx, -4
-	xor	esi, esi
-	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
-	jmp	.LBB4_605
-.LBB4_604:                              #   in Loop: Header=BB4_605 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	rdx, rsi
-	je	.LBB4_185
-.LBB4_605:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_606
-# %bb.609:                              #   in Loop: Header=BB4_605 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	byte ptr [rcx + rsi + 1], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_610
-.LBB4_607:                              #   in Loop: Header=BB4_605 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	byte ptr [rcx + rsi + 2], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_608
-.LBB4_611:                              #   in Loop: Header=BB4_605 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	byte ptr [rcx + rsi + 3], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_604
-	jmp	.LBB4_612
-.LBB4_606:                              #   in Loop: Header=BB4_605 Depth=1
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	cmp	byte ptr [rcx + rsi + 1], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_607
-.LBB4_610:                              #   in Loop: Header=BB4_605 Depth=1
-	xorpd	xmm1, xmm1
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	cmp	byte ptr [rcx + rsi + 2], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_611
-.LBB4_608:                              #   in Loop: Header=BB4_605 Depth=1
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	cmp	byte ptr [rcx + rsi + 3], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_604
-.LBB4_612:                              #   in Loop: Header=BB4_605 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_604
-.LBB4_613:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	jmp	.LBB4_615
-.LBB4_614:                              #   in Loop: Header=BB4_615 Depth=1
-	movsd	qword ptr [r8 + 8*rax + 8], xmm3
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_197
-.LBB4_615:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rax], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_616
-# %bb.619:                              #   in Loop: Header=BB4_615 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jle	.LBB4_620
-.LBB4_617:                              #   in Loop: Header=BB4_615 Depth=1
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	dword ptr [rcx + 4*rax + 4], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_618
-.LBB4_621:                              #   in Loop: Header=BB4_615 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jg	.LBB4_614
-	jmp	.LBB4_622
-.LBB4_616:                              #   in Loop: Header=BB4_615 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_617
-.LBB4_620:                              #   in Loop: Header=BB4_615 Depth=1
-	movapd	xmm3, xmm2
-	movsd	qword ptr [r8 + 8*rax], xmm3
-	cmp	dword ptr [rcx + 4*rax + 4], 0
-	movapd	xmm2, xmm0
-	je	.LBB4_621
-.LBB4_618:                              #   in Loop: Header=BB4_615 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_614
-.LBB4_622:                              #   in Loop: Header=BB4_615 Depth=1
-	movapd	xmm3, xmm2
-	jmp	.LBB4_614
-.LBB4_673:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_999
-# %bb.674:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
-.LBB4_675:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + 4*rsi]   # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 4*rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxdq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxdq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + 4*rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 4*rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxdq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxdq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_675
-	jmp	.LBB4_1000
-.LBB4_676:
-	mov	esi, r10d
-	and	esi, -2
-	lea	rax, [rsi - 2]
-	mov	r9, rax
-	shr	r9
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1004
-# %bb.677:
-	mov	r14, r9
-	and	r14, -2
-	neg	r14
-	xor	edi, edi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-	movsd	xmm3, qword ptr [rip + .LCPI4_6] # xmm3 = mem[0],zero
-.LBB4_678:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm4, xmmword ptr [rcx + 8*rdi]
-	movapd	xmm5, xmm4
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm5
-	subsd	xmm6, xmm3
-	cvttsd2si	rbx, xmm6
-	xor	rbx, r11
-	cvttsd2si	rdx, xmm5
-	ucomisd	xmm5, xmm3
-	cmovae	rdx, rbx
-	pshufd	xmm5, xmm5, 238                 # xmm5 = xmm5[2,3,2,3]
-	movdqa	xmm6, xmm5
-	subsd	xmm6, xmm3
-	cvttsd2si	rbx, xmm6
-	xor	rbx, r11
-	cvttsd2si	rax, xmm5
-	ucomisd	xmm5, xmm3
-	cmovae	rax, rbx
-	movq	xmm5, rdx
-	movq	xmm6, rax
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm5
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmm4, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm5, xmm4
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm5
-	subsd	xmm6, xmm3
-	cvttsd2si	rax, xmm6
-	xor	rax, r11
-	cvttsd2si	rdx, xmm5
-	ucomisd	xmm5, xmm3
-	cmovae	rdx, rax
-	pshufd	xmm5, xmm5, 238                 # xmm5 = xmm5[2,3,2,3]
-	movdqa	xmm6, xmm5
-	subsd	xmm6, xmm3
-	cvttsd2si	rax, xmm6
-	xor	rax, r11
-	cvttsd2si	rbx, xmm5
-	ucomisd	xmm5, xmm3
-	cmovae	rbx, rax
-	movq	xmm5, rdx
-	movq	xmm6, rbx
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm5
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm4
-	add	rdi, 4
-	add	r14, 2
-	jne	.LBB4_678
-	jmp	.LBB4_1005
-.LBB4_689:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1010
-# %bb.690:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
-.LBB4_691:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm3, dword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + 2*rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movd	xmm3, dword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + 2*rsi + 12] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_691
-	jmp	.LBB4_1011
-.LBB4_692:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1015
-# %bb.693:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_694:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm5, dword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + 2*rsi + 4] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwq	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwq	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
-	movd	xmm5, dword ptr [rcx + 2*rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + 2*rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwq	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwq	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_694
-	jmp	.LBB4_1016
-.LBB4_700:
-	mov	esi, r10d
-	and	esi, -2
-	xor	eax, eax
-	xorps	xmm0, xmm0
-	movss	xmm1, dword ptr [rip + .LCPI4_9] # xmm1 = mem[0],zero,zero,zero
-	movabs	r9, -9223372036854775808
-	jmp	.LBB4_703
-.LBB4_701:                              #   in Loop: Header=BB4_703 Depth=1
-	movmskps	edx, xmm2
-	and	edx, 1
-	neg	edx
-	or	edx, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, edx
-	movaps	xmm3, xmm2
-	subss	xmm3, xmm1
-	cvttss2si	rdi, xmm3
-	xor	rdi, r9
-	cvttss2si	rdx, xmm2
-	ucomiss	xmm2, xmm1
-	cmovae	rdx, rdi
-	mov	qword ptr [r8 + 8*rax + 8], rdx
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_290
-.LBB4_703:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm2, dword ptr [rcx + 4*rax]   # xmm2 = mem[0],zero,zero,zero
-	ucomiss	xmm0, xmm2
-	jne	.LBB4_705
-# %bb.704:                              #   in Loop: Header=BB4_703 Depth=1
-	xor	edx, edx
-	jmp	.LBB4_706
-.LBB4_705:                              #   in Loop: Header=BB4_703 Depth=1
-	movmskps	edx, xmm2
-	and	edx, 1
-	neg	edx
-	or	edx, 1
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, edx
-	movaps	xmm3, xmm2
-	subss	xmm3, xmm1
-	cvttss2si	rdi, xmm3
-	xor	rdi, r9
-	cvttss2si	rdx, xmm2
-	ucomiss	xmm2, xmm1
-	cmovae	rdx, rdi
-.LBB4_706:                              #   in Loop: Header=BB4_703 Depth=1
-	mov	qword ptr [r8 + 8*rax], rdx
-	movss	xmm2, dword ptr [rcx + 4*rax + 4] # xmm2 = mem[0],zero,zero,zero
-	ucomiss	xmm0, xmm2
-	jne	.LBB4_701
-# %bb.707:                              #   in Loop: Header=BB4_703 Depth=1
-	xor	edx, edx
-	mov	qword ptr [r8 + 8*rax + 8], rdx
-	add	rax, 2
-	cmp	rsi, rax
-	jne	.LBB4_703
-.LBB4_290:
-	test	r10b, 1
-	je	.LBB4_1655
-# %bb.291:
-	movss	xmm0, dword ptr [rcx + 4*rax]   # xmm0 = mem[0],zero,zero,zero
-	xorps	xmm1, xmm1
-	ucomiss	xmm1, xmm0
-	jne	.LBB4_993
-# %bb.292:
-	xor	ecx, ecx
-	mov	qword ptr [r8 + 8*rax], rcx
-	jmp	.LBB4_1655
-.LBB4_713:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1021
-# %bb.714:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_715:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + 4*rsi]   # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 4*rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	pmovsxdq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	pmovsxdq	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxdq	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxdq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + 4*rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 4*rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	pmovsxdq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	pmovsxdq	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxdq	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxdq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_715
-	jmp	.LBB4_1022
-.LBB4_716:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1137
-# %bb.717:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_11] # xmm2 = <1,1,1,1,u,u,u,u>
-.LBB4_718:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm3
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_718
-	jmp	.LBB4_1138
-.LBB4_719:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1142
-# %bb.720:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_11] # xmm2 = <1,1,1,1,u,u,u,u>
-.LBB4_721:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm3
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_721
-	jmp	.LBB4_1143
-.LBB4_722:
-	mov	esi, eax
-	and	esi, -4
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1147
-# %bb.723:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_1] # xmm4 = [1.0E+0,1.0E+0]
-.LBB4_724:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm5, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm0, xmm5
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movapd	xmm1, xmm6
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	andpd	xmm5, xmm3
-	orpd	xmm5, xmm4
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	cvttpd2dq	xmm5, xmm5
-	pshuflw	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3,4,5,6,7]
-	cvttpd2dq	xmm6, xmm6
-	pshuflw	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3,4,5,6,7]
-	pblendvb	xmm5, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm2, xmm0
-	movd	dword ptr [r8 + 2*rdi], xmm5
-	movd	dword ptr [r8 + 2*rdi + 4], xmm6
-	movupd	xmm5, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm0, xmm5
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movapd	xmm1, xmm6
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	andpd	xmm5, xmm3
-	orpd	xmm5, xmm4
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	cvttpd2dq	xmm5, xmm5
-	pshuflw	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3,4,5,6,7]
-	cvttpd2dq	xmm6, xmm6
-	pshuflw	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3,4,5,6,7]
-	pblendvb	xmm5, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm2, xmm0
-	movd	dword ptr [r8 + 2*rdi + 8], xmm5
-	movd	dword ptr [r8 + 2*rdi + 12], xmm6
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB4_724
-	jmp	.LBB4_1148
-.LBB4_725:
-	mov	esi, eax
-	and	esi, -4
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1153
-# %bb.726:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_1] # xmm4 = [1.0E+0,1.0E+0]
-.LBB4_727:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm5, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm0, xmm5
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movapd	xmm1, xmm6
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	andpd	xmm5, xmm3
-	orpd	xmm5, xmm4
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	cvttpd2dq	xmm5, xmm5
-	pshuflw	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3,4,5,6,7]
-	cvttpd2dq	xmm6, xmm6
-	pshuflw	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3,4,5,6,7]
-	pblendvb	xmm5, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm2, xmm0
-	movd	dword ptr [r8 + 2*rdi], xmm5
-	movd	dword ptr [r8 + 2*rdi + 4], xmm6
-	movupd	xmm5, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm0, xmm5
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movapd	xmm1, xmm6
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	andpd	xmm5, xmm3
-	orpd	xmm5, xmm4
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	cvttpd2dq	xmm5, xmm5
-	pshuflw	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3,4,5,6,7]
-	cvttpd2dq	xmm6, xmm6
-	pshuflw	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3,4,5,6,7]
-	pblendvb	xmm5, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm2, xmm0
-	movd	dword ptr [r8 + 2*rdi + 8], xmm5
-	movd	dword ptr [r8 + 2*rdi + 12], xmm6
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB4_727
-	jmp	.LBB4_1154
-.LBB4_738:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1027
-# %bb.739:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_17] # xmm2 = <1,1,u,u,u,u,u,u>
-.LBB4_740:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + 2*rsi], xmm3
-	movd	dword ptr [r8 + 2*rsi + 4], xmm4
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + 2*rsi + 8], xmm3
-	movd	dword ptr [r8 + 2*rsi + 12], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_740
-	jmp	.LBB4_1028
-.LBB4_741:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1032
-# %bb.742:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_17] # xmm2 = <1,1,u,u,u,u,u,u>
-.LBB4_743:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + 2*rsi], xmm3
-	movd	dword ptr [r8 + 2*rsi + 4], xmm4
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + 2*rsi + 8], xmm3
-	movd	dword ptr [r8 + 2*rsi + 12], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_743
-	jmp	.LBB4_1033
-.LBB4_764:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1037
-# %bb.765:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
-.LBB4_766:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rsi], xmm5
-	movd	dword ptr [r8 + 2*rsi + 4], xmm6
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rsi + 8], xmm5
-	movd	dword ptr [r8 + 2*rsi + 12], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_766
-	jmp	.LBB4_1038
-.LBB4_767:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1159
-# %bb.768:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
-.LBB4_769:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rsi], xmm5
-	movd	dword ptr [r8 + 2*rsi + 4], xmm6
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rsi + 8], xmm5
-	movd	dword ptr [r8 + 2*rsi + 12], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_769
-	jmp	.LBB4_1160
-.LBB4_770:
-	mov	esi, eax
-	and	esi, -8
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1165
-# %bb.771:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	xorps	xmm4, xmm4
-	pcmpeqd	xmm8, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_11] # xmm6 = <1,1,1,1,u,u,u,u>
-.LBB4_772:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rcx + 4*rdi]
-	movups	xmm1, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	pcmpeqd	xmm5, xmm5
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm7
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rcx + 4*rdi + 48]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	pcmpeqd	xmm5, xmm5
-	pblendvb	xmm5, xmm6, xmm0
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm7, xmm4, xmm0
-	punpcklqdq	xmm5, xmm7              # xmm5 = xmm5[0],xmm7[0]
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm5
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB4_772
-	jmp	.LBB4_1166
-.LBB4_773:
-	mov	esi, eax
-	and	esi, -8
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1171
-# %bb.774:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	xorps	xmm4, xmm4
-	pcmpeqd	xmm8, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_11] # xmm6 = <1,1,1,1,u,u,u,u>
-.LBB4_775:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rcx + 4*rdi]
-	movups	xmm1, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	pcmpeqd	xmm5, xmm5
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm7
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rcx + 4*rdi + 48]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	pcmpeqd	xmm5, xmm5
-	pblendvb	xmm5, xmm6, xmm0
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm7, xmm4, xmm0
-	punpcklqdq	xmm5, xmm7              # xmm5 = xmm5[0],xmm7[0]
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm5
-	add	rdi, 16
-	add	rdx, 2
-	jne	.LBB4_775
-	jmp	.LBB4_1172
-.LBB4_786:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1043
-# %bb.787:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
-.LBB4_788:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm5
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_788
-	jmp	.LBB4_1044
-.LBB4_789:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1049
-# %bb.790:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
-.LBB4_791:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm5
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_791
-	jmp	.LBB4_1050
-.LBB4_792:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1177
-# %bb.793:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
-.LBB4_794:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + 4*rsi]   # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 4*rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxdq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxdq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + 4*rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 4*rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxdq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxdq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_794
-	jmp	.LBB4_1178
-.LBB4_795:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1182
-# %bb.796:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_19] # xmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_797:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm3
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_797
-	jmp	.LBB4_1183
-.LBB4_798:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1190
-# %bb.799:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-.LBB4_800:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm3, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	movapd	xmm5, xmm3
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm4
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	cvttsd2si	rbx, xmm5
-	movq	xmm7, rbx
-	pshufd	xmm5, xmm5, 238                 # xmm5 = xmm5[2,3,2,3]
-	cvttsd2si	rbx, xmm5
-	movq	xmm5, rbx
-	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
-	cvttsd2si	rbx, xmm6
-	movq	xmm5, rbx
-	pshufd	xmm6, xmm6, 238                 # xmm6 = xmm6[2,3,2,3]
-	cvttsd2si	rbx, xmm6
-	movq	xmm6, rbx
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	cmpneqpd	xmm3, xmm0
-	andpd	xmm3, xmm7
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm5
-	movupd	xmmword ptr [r8 + 8*rsi], xmm3
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movupd	xmm3, xmmword ptr [rcx + 8*rsi + 32]
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 48]
-	movapd	xmm5, xmm3
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm4
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	cvttsd2si	rbx, xmm5
-	movq	xmm7, rbx
-	pshufd	xmm5, xmm5, 238                 # xmm5 = xmm5[2,3,2,3]
-	cvttsd2si	rbx, xmm5
-	movq	xmm5, rbx
-	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
-	cvttsd2si	rbx, xmm6
-	movq	xmm5, rbx
-	pshufd	xmm6, xmm6, 238                 # xmm6 = xmm6[2,3,2,3]
-	cvttsd2si	rbx, xmm6
-	movq	xmm6, rbx
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	cmpneqpd	xmm3, xmm0
-	andpd	xmm3, xmm7
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_800
-	jmp	.LBB4_1191
-.LBB4_801:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1196
-# %bb.802:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorpd	xmm8, xmm8
-	cvtpd2ps	xmm1, xmmword ptr [rip + .LCPI4_1]
-	movaps	xmm9, xmmword ptr [rip + .LCPI4_3] # xmm9 = [NaN,NaN,NaN,NaN]
-	movshdup	xmm3, xmm1                      # xmm3 = xmm1[1,1,3,3]
-	andps	xmm3, xmm9
-	andps	xmm1, xmm9
-.LBB4_803:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	xorps	xmm5, xmm5
-	cvtsd2ss	xmm5, xmm4
-	cmpeqpd	xmm4, xmm8
-	shufps	xmm4, xmm4, 232                 # xmm4 = xmm4[0,2,2,3]
-	xorps	xmm7, xmm7
-	cvtsd2ss	xmm7, xmm6
-	cmpeqpd	xmm6, xmm8
-	shufps	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	cvtsd2ss	xmm0, xmm0
-	movaps	xmm2, xmm9
-	andnps	xmm2, xmm0
-	orps	xmm2, xmm3
-	movaps	xmm0, xmm9
-	andnps	xmm0, xmm5
-	orps	xmm0, xmm1
-	unpcklps	xmm0, xmm2                      # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
-	andnps	xmm4, xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	cvtsd2ss	xmm0, xmm0
-	movaps	xmm2, xmm9
-	andnps	xmm2, xmm0
-	orps	xmm2, xmm3
-	movaps	xmm0, xmm9
-	andnps	xmm0, xmm7
-	orps	xmm0, xmm1
-	unpcklps	xmm0, xmm2                      # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
-	andnps	xmm6, xmm0
-	movlhps	xmm4, xmm6                      # xmm4 = xmm4[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rsi], xmm4
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 32]
-	movupd	xmm0, xmmword ptr [rcx + 8*rsi + 48]
-	xorps	xmm2, xmm2
-	cvtsd2ss	xmm2, xmm4
-	cmpeqpd	xmm4, xmm8
-	shufps	xmm4, xmm4, 232                 # xmm4 = xmm4[0,2,2,3]
-	xorps	xmm5, xmm5
-	cvtsd2ss	xmm5, xmm0
-	cmpeqpd	xmm0, xmm8
-	movsd	xmm6, qword ptr [rcx + 8*rsi + 40] # xmm6 = mem[0],zero
-	cvtsd2ss	xmm6, xmm6
-	shufps	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movaps	xmm7, xmm9
-	andnps	xmm7, xmm6
-	orps	xmm7, xmm3
-	movaps	xmm6, xmm9
-	andnps	xmm6, xmm2
-	orps	xmm6, xmm1
-	unpcklps	xmm6, xmm7                      # xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1]
-	andnps	xmm4, xmm6
-	movsd	xmm2, qword ptr [rcx + 8*rsi + 56] # xmm2 = mem[0],zero
-	cvtsd2ss	xmm2, xmm2
-	movaps	xmm6, xmm9
-	andnps	xmm6, xmm2
-	orps	xmm6, xmm3
-	movaps	xmm2, xmm9
-	andnps	xmm2, xmm5
-	orps	xmm2, xmm1
-	unpcklps	xmm2, xmm6                      # xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1]
-	andnps	xmm0, xmm2
-	movlhps	xmm4, xmm0                      # xmm4 = xmm4[0],xmm0[0]
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_803
-	jmp	.LBB4_1197
-.LBB4_819:
-	and	edx, -4
-	xor	esi, esi
-	movss	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_821
-.LBB4_820:                              #   in Loop: Header=BB4_821 Depth=1
-	movss	dword ptr [r8 + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	rdx, rsi
-	je	.LBB4_387
-.LBB4_821:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rsi], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_822
-# %bb.825:                              #   in Loop: Header=BB4_821 Depth=1
-	xorpd	xmm1, xmm1
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 8], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_826
-.LBB4_823:                              #   in Loop: Header=BB4_821 Depth=1
-	movss	dword ptr [r8 + 4*rsi + 4], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 16], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_824
-.LBB4_827:                              #   in Loop: Header=BB4_821 Depth=1
-	xorpd	xmm1, xmm1
-	movss	dword ptr [r8 + 4*rsi + 8], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 24], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_820
-	jmp	.LBB4_828
-.LBB4_822:                              #   in Loop: Header=BB4_821 Depth=1
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 8], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_823
-.LBB4_826:                              #   in Loop: Header=BB4_821 Depth=1
-	xorpd	xmm1, xmm1
-	movss	dword ptr [r8 + 4*rsi + 4], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 16], 0
-	movapd	xmm1, xmm0
-	je	.LBB4_827
-.LBB4_824:                              #   in Loop: Header=BB4_821 Depth=1
-	movss	dword ptr [r8 + 4*rsi + 8], xmm1
-	cmp	qword ptr [rcx + 8*rsi + 24], 0
-	movapd	xmm1, xmm0
-	jne	.LBB4_820
-.LBB4_828:                              #   in Loop: Header=BB4_821 Depth=1
-	xorpd	xmm1, xmm1
-	jmp	.LBB4_820
-.LBB4_829:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1055
-# %bb.830:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
-.LBB4_831:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm3, dword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + 2*rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movd	xmm3, dword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + 2*rsi + 12] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_831
-	jmp	.LBB4_1056
-.LBB4_832:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1204
-# %bb.833:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_834:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	pand	xmm3, xmm2
-	cvtdq2ps	xmm3, xmm3
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	pand	xmm4, xmm2
-	cvtdq2ps	xmm4, xmm4
-	movups	xmmword ptr [r8 + 4*rsi], xmm3
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + 2*rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 2*rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	pand	xmm3, xmm2
-	cvtdq2ps	xmm3, xmm3
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	pand	xmm4, xmm2
-	cvtdq2ps	xmm4, xmm4
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm3
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_834
-	jmp	.LBB4_1205
-.LBB4_835:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1212
-# %bb.836:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_837:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm5, dword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + 2*rsi + 4] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwq	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwq	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
-	movd	xmm5, dword ptr [rcx + 2*rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + 2*rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwq	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwq	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_837
-	jmp	.LBB4_1213
-.LBB4_838:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1218
-# %bb.839:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_840:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 2*rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwd	xmm5, xmm5
-	cvtdq2ps	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwd	xmm6, xmm6
-	cvtdq2ps	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwd	xmm5, xmm5
-	cvtdq2ps	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwd	xmm6, xmm6
-	cvtdq2ps	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_840
-	jmp	.LBB4_1219
-.LBB4_846:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	movss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	movss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_848
-.LBB4_847:                              #   in Loop: Header=BB4_848 Depth=1
-	movss	dword ptr [r8 + 4*rax + 4], xmm3
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_410
-.LBB4_848:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rcx + 8*rax], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_849
-# %bb.852:                              #   in Loop: Header=BB4_848 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jle	.LBB4_853
-.LBB4_850:                              #   in Loop: Header=BB4_848 Depth=1
-	movss	dword ptr [r8 + 4*rax], xmm3
-	cmp	qword ptr [rcx + 8*rax + 8], 0
-	movapd	xmm2, xmm0
-	jne	.LBB4_851
-.LBB4_854:                              #   in Loop: Header=BB4_848 Depth=1
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm1
-	jg	.LBB4_847
-	jmp	.LBB4_855
-.LBB4_849:                              #   in Loop: Header=BB4_848 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_850
-.LBB4_853:                              #   in Loop: Header=BB4_848 Depth=1
-	movapd	xmm3, xmm2
-	movss	dword ptr [r8 + 4*rax], xmm3
-	cmp	qword ptr [rcx + 8*rax + 8], 0
-	movapd	xmm2, xmm0
-	je	.LBB4_854
-.LBB4_851:                              #   in Loop: Header=BB4_848 Depth=1
-	movapd	xmm3, xmm1
-	jg	.LBB4_847
-.LBB4_855:                              #   in Loop: Header=BB4_848 Depth=1
-	movapd	xmm3, xmm2
-	jmp	.LBB4_847
-.LBB4_856:
-	mov	esi, edx
-	and	esi, -2
-	xor	eax, eax
-	xorps	xmm0, xmm0
-	jmp	.LBB4_859
-.LBB4_857:                              #   in Loop: Header=BB4_859 Depth=1
-	movmskps	edi, xmm1
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, edi
-	cvttss2si	rdi, xmm1
-	mov	qword ptr [r8 + 8*rax + 8], rdi
-	add	rax, 2
-	cmp	rsi, rax
-	je	.LBB4_416
-.LBB4_859:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rax]   # xmm1 = mem[0],zero,zero,zero
-	ucomiss	xmm0, xmm1
-	jne	.LBB4_861
-# %bb.860:                              #   in Loop: Header=BB4_859 Depth=1
-	xor	edi, edi
-	jmp	.LBB4_862
-.LBB4_861:                              #   in Loop: Header=BB4_859 Depth=1
-	movmskps	edi, xmm1
-	and	edi, 1
-	neg	edi
-	or	edi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, edi
-	cvttss2si	rdi, xmm1
-.LBB4_862:                              #   in Loop: Header=BB4_859 Depth=1
-	mov	qword ptr [r8 + 8*rax], rdi
-	movss	xmm1, dword ptr [rcx + 4*rax + 4] # xmm1 = mem[0],zero,zero,zero
-	ucomiss	xmm0, xmm1
-	jne	.LBB4_857
-# %bb.863:                              #   in Loop: Header=BB4_859 Depth=1
-	xor	edi, edi
-	mov	qword ptr [r8 + 8*rax + 8], rdi
-	add	rax, 2
-	cmp	rsi, rax
-	jne	.LBB4_859
-.LBB4_416:
-	test	dl, 1
-	je	.LBB4_1655
-# %bb.417:
-	movss	xmm0, dword ptr [rcx + 4*rax]   # xmm0 = mem[0],zero,zero,zero
-	xorps	xmm1, xmm1
-	ucomiss	xmm1, xmm0
-	jne	.LBB4_1104
-# %bb.418:
-	xor	ecx, ecx
-	jmp	.LBB4_1105
-.LBB4_884:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1060
-# %bb.885:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_886:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + 4*rsi]   # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 4*rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	pmovsxdq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	pmovsxdq	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxdq	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxdq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + 4*rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 4*rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	pmovsxdq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	pmovsxdq	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxdq	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxdq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_886
-	jmp	.LBB4_1061
-.LBB4_887:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1066
-# %bb.888:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_889:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	cvtdq2ps	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	cvtdq2ps	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	cvtdq2ps	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	cvtdq2ps	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_889
-	jmp	.LBB4_1067
-.LBB4_945:
-	mov	esi, eax
-	and	esi, -4
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB4_1076
-# %bb.946:
-	mov	rdx, r9
-	and	rdx, -2
-	neg	rdx
-	xor	edi, edi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-.LBB4_947:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm4, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm5, xmm3
-	cmpeqpd	xmm5, xmm0
-	shufps	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
-	movapd	xmm6, xmm4
-	cmpeqpd	xmm6, xmm0
-	shufps	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	andpd	xmm4, xmm1
-	orpd	xmm4, xmm2
-	cvttpd2dq	xmm3, xmm3
-	cvttpd2dq	xmm4, xmm4
-	andnps	xmm5, xmm3
-	andnps	xmm6, xmm4
-	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rdi], xmm5
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm4, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm5, xmm3
-	cmpeqpd	xmm5, xmm0
-	shufps	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
-	movapd	xmm6, xmm4
-	cmpeqpd	xmm6, xmm0
-	shufps	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	andpd	xmm4, xmm1
-	orpd	xmm4, xmm2
-	cvttpd2dq	xmm3, xmm3
-	andnps	xmm5, xmm3
-	cvttpd2dq	xmm3, xmm4
-	andnps	xmm6, xmm3
-	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm5
-	add	rdi, 8
-	add	rdx, 2
-	jne	.LBB4_947
-	jmp	.LBB4_1077
-.LBB4_953:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1082
-# %bb.954:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_16] # xmm1 = <1,1,u,u>
-.LBB4_955:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm2, xmm0
-	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	pandn	xmm3, xmm1
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm2, xmm0
-	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	pandn	xmm3, xmm1
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm2
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_955
-	jmp	.LBB4_1083
-.LBB4_956:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1087
-# %bb.957:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_958:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + 2*rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + 2*rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_958
-	jmp	.LBB4_1088
-.LBB4_959:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1092
-# %bb.960:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-.LBB4_961:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 2*rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwd	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxwd	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxwd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_961
-	jmp	.LBB4_1093
-.LBB4_962:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1098
-# %bb.963:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_16] # xmm4 = <1,1,u,u>
-.LBB4_964:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pcmpeqq	xmm5, xmm2
-	pshufd	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
-	pxor	xmm5, xmm3
-	pcmpeqq	xmm6, xmm2
-	pshufd	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	pxor	xmm6, xmm3
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pcmpeqq	xmm5, xmm2
-	pshufd	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
-	pxor	xmm5, xmm3
-	pcmpeqq	xmm6, xmm2
-	pshufd	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
-	pxor	xmm6, xmm3
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_964
-	jmp	.LBB4_1099
-.LBB4_965:
-	mov	edx, eax
-	and	edx, -8
-	xor	esi, esi
-	xorps	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_966:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm4, xmm2
-	psrad	xmm4, 31
-	por	xmm4, xmm1
-	movdqa	xmm5, xmm3
-	psrad	xmm5, 31
-	por	xmm5, xmm1
-	cvtdq2ps	xmm4, xmm4
-	cvtdq2ps	xmm5, xmm5
-	cvttps2dq	xmm4, xmm4
-	cvttps2dq	xmm5, xmm5
-	cmpneqps	xmm2, xmm0
-	andps	xmm2, xmm4
-	cmpneqps	xmm3, xmm0
-	andps	xmm3, xmm5
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-	add	rsi, 8
-	cmp	rdx, rsi
-	jne	.LBB4_966
-# %bb.967:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_968:
-	xorps	xmm0, xmm0
-	jmp	.LBB4_970
-.LBB4_969:                              #   in Loop: Header=BB4_970 Depth=1
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_970:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	xor	esi, esi
-	ucomiss	xmm0, xmm1
-	je	.LBB4_969
-# %bb.971:                              #   in Loop: Header=BB4_970 Depth=1
-	movmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, esi
-	cvttss2si	esi, xmm1
-	jmp	.LBB4_969
-.LBB4_496:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1228
-# %bb.497:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_498:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm3
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_498
-	jmp	.LBB4_1229
-.LBB4_504:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1236
-# %bb.505:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-.LBB4_506:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm5, dword ptr [rcx + rsi]     # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + rsi + 4] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbd	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbd	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_506
-	jmp	.LBB4_1237
-.LBB4_524:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1245
-# %bb.525:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_526:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	movd	xmm3, dword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + rsi + 12] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_526
-	jmp	.LBB4_1246
-.LBB4_529:
-	mov	edx, r11d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1253
-# %bb.530:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-.LBB4_531:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm5
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm6
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvps	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvps	xmm5, xmm6, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm7
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm5
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm6
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvps	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvps	xmm5, xmm6, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm7
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm5
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_531
-	jmp	.LBB4_1254
-.LBB4_544:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1262
-# %bb.545:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
-.LBB4_546:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm3, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	movapd	xmm5, xmm3
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm4
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	cmpneqpd	xmm3, xmm0
-	andpd	xmm3, xmm5
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm6
-	movupd	xmmword ptr [r8 + 8*rsi], xmm3
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movupd	xmm3, xmmword ptr [rcx + 8*rsi + 32]
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 48]
-	movapd	xmm5, xmm3
-	andpd	xmm5, xmm1
-	orpd	xmm5, xmm2
-	movapd	xmm6, xmm4
-	andpd	xmm6, xmm1
-	orpd	xmm6, xmm2
-	cmpneqpd	xmm3, xmm0
-	andpd	xmm3, xmm5
-	cmpneqpd	xmm4, xmm0
-	andpd	xmm4, xmm6
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_546
-	jmp	.LBB4_1263
-.LBB4_625:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1271
-# %bb.626:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_12] # xmm2 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_627:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + rsi], xmm3
-	movd	dword ptr [r8 + rsi + 4], xmm4
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + rsi + 8], xmm3
-	movd	dword ptr [r8 + rsi + 12], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_627
-	jmp	.LBB4_1272
-.LBB4_630:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1279
-# %bb.631:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_1] # xmm4 = [1.0E+0,1.0E+0]
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_7] # xmm5 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_632:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm6, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm7, xmmword ptr [rcx + 8*rsi + 16]
-	movapd	xmm0, xmm6
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movapd	xmm1, xmm7
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	andpd	xmm7, xmm3
-	orpd	xmm7, xmm4
-	cvttpd2dq	xmm6, xmm6
-	pshufb	xmm6, xmm5
-	cvttpd2dq	xmm7, xmm7
-	pshufb	xmm7, xmm5
-	pblendvb	xmm6, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm2, xmm0
-	pextrw	word ptr [r8 + rsi], xmm6, 0
-	pextrw	word ptr [r8 + rsi + 2], xmm7, 0
-	movupd	xmm6, xmmword ptr [rcx + 8*rsi + 32]
-	movupd	xmm7, xmmword ptr [rcx + 8*rsi + 48]
-	movapd	xmm0, xmm6
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movapd	xmm1, xmm7
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	andpd	xmm7, xmm3
-	orpd	xmm7, xmm4
-	cvttpd2dq	xmm6, xmm6
-	pshufb	xmm6, xmm5
-	cvttpd2dq	xmm7, xmm7
-	pshufb	xmm7, xmm5
-	pblendvb	xmm6, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm2, xmm0
-	pextrw	word ptr [r8 + rsi + 4], xmm6, 0
-	pextrw	word ptr [r8 + rsi + 6], xmm7, 0
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_632
-	jmp	.LBB4_1280
-.LBB4_635:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1288
-# %bb.636:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_22] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_637:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + rax]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm5
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm6
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm5
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm6
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rdi, 2
-	jne	.LBB4_637
-	jmp	.LBB4_1289
-.LBB4_640:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1297
-# %bb.641:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_18] # xmm2 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_642:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pextrw	word ptr [r8 + rsi], xmm3, 0
-	pand	xmm4, xmm2
-	pextrw	word ptr [r8 + rsi + 2], xmm4, 0
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pextrw	word ptr [r8 + rsi + 4], xmm3, 0
-	pand	xmm4, xmm2
-	pextrw	word ptr [r8 + rsi + 6], xmm4, 0
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_642
-	jmp	.LBB4_1298
-.LBB4_645:
-	mov	edx, eax
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1305
-# %bb.646:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_21] # xmm2 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_647:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + rsi], xmm3
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 2*rsi + 48]
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + rsi + 16], xmm3
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_647
-	jmp	.LBB4_1306
-.LBB4_650:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1313
-# %bb.651:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_652:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 2*rax]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rax + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packsswb	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 2*rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rax + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packsswb	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	add	rax, 32
-	add	rdi, 2
-	jne	.LBB4_652
-	jmp	.LBB4_1314
-.LBB4_655:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1322
-# %bb.656:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_657:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rax]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rax + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	pextrw	word ptr [r8 + rax], xmm5, 0
-	pextrw	word ptr [r8 + rax + 2], xmm6, 0
-	movdqu	xmm5, xmmword ptr [rcx + 8*rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rax + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	pextrw	word ptr [r8 + rax + 4], xmm5, 0
-	pextrw	word ptr [r8 + rax + 6], xmm6, 0
-	add	rax, 8
-	add	rdi, 2
-	jne	.LBB4_657
-	jmp	.LBB4_1323
-.LBB4_660:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1331
-# %bb.661:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorps	xmm4, xmm4
-	pcmpeqd	xmm8, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_12] # xmm6 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_662:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rcx + 4*rsi]
-	movups	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	pcmpeqd	xmm5, xmm5
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	movd	dword ptr [r8 + rsi], xmm7
-	movd	dword ptr [r8 + rsi + 4], xmm5
-	movups	xmm0, xmmword ptr [rcx + 4*rsi + 32]
-	movups	xmm1, xmmword ptr [rcx + 4*rsi + 48]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm5, xmm5
-	pblendvb	xmm5, xmm6, xmm0
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm7, xmm4, xmm0
-	movd	dword ptr [r8 + rsi + 8], xmm5
-	movd	dword ptr [r8 + rsi + 12], xmm7
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_662
-	jmp	.LBB4_1332
-.LBB4_665:
-	mov	edx, eax
-	and	edx, -32
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1340
-# %bb.666:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_22] # xmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_667:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + rsi]
-	movdqu	xmm3, xmmword ptr [rcx + rsi + 16]
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqb	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + rsi], xmm2
-	movdqu	xmmword ptr [r8 + rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + rsi + 48]
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqb	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rsi + 48], xmm3
-	add	rsi, 64
-	add	rdi, 2
-	jne	.LBB4_667
-	jmp	.LBB4_1341
-.LBB4_670:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1348
-# %bb.671:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_672:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rax]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rax + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + rax], xmm5
-	movd	dword ptr [r8 + rax + 4], xmm6
-	movdqu	xmm5, xmmword ptr [rcx + 4*rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rax + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + rax + 8], xmm5
-	movd	dword ptr [r8 + rax + 12], xmm6
-	add	rax, 16
-	add	rdi, 2
-	jne	.LBB4_672
-	jmp	.LBB4_1349
-.LBB4_681:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1357
-# %bb.682:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_683:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm6, eax
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbq	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbq	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
-	movzx	eax, word ptr [rcx + rsi + 4]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rcx + rsi + 6]
-	movd	xmm6, eax
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbq	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbq	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_683
-	jmp	.LBB4_1358
-.LBB4_686:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1366
-# %bb.687:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_15] # xmm1 = [1,1]
-.LBB4_688:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm3
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_688
-	jmp	.LBB4_1367
-.LBB4_697:
-	mov	edx, r11d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1374
-# %bb.698:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_699:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm6
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvpd	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvpd	xmm5, xmm6, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm7
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm6
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvpd	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvpd	xmm5, xmm6, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm7
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm5
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_699
-	jmp	.LBB4_1375
-.LBB4_710:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1383
-# %bb.711:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
-.LBB4_712:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm3, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm4, eax
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movzx	eax, word ptr [rcx + rsi + 4]
-	movd	xmm3, eax
-	movzx	eax, word ptr [rcx + rsi + 6]
-	movd	xmm4, eax
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_712
-	jmp	.LBB4_1384
-.LBB4_730:
-	mov	edx, r10d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1391
-# %bb.731:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-.LBB4_732:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + rsi]     # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbw	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbw	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm5
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbw	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbw	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm5
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm6
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_732
-	jmp	.LBB4_1392
-.LBB4_735:
-	mov	edx, r10d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1400
-# %bb.736:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-.LBB4_737:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm5, qword ptr [rcx + rsi]     # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + rsi + 8] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbw	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbw	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm5
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm6
-	movq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
-	movq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbw	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbw	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbw	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbw	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm5
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm6
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_737
-	jmp	.LBB4_1401
-.LBB4_746:
-	mov	edx, r10d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1409
-# %bb.747:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_20] # xmm1 = [1,1,1,1,1,1,1,1]
-.LBB4_748:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 16]
-	pcmpeqw	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqw	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 2*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 48]
-	pcmpeqw	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqw	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm3
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_748
-	jmp	.LBB4_1410
-.LBB4_751:
-	mov	edx, r10d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1417
-# %bb.752:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_20] # xmm1 = [1,1,1,1,1,1,1,1]
-.LBB4_753:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 16]
-	pcmpeqw	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqw	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 2*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 48]
-	pcmpeqw	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqw	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm3
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_753
-	jmp	.LBB4_1418
-.LBB4_756:
-	mov	edx, r11d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1425
-# %bb.757:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-.LBB4_758:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rsi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm5
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm6
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm7
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm5
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm6
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm7
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm5
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_758
-	jmp	.LBB4_1426
-.LBB4_761:
-	mov	edx, r11d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1434
-# %bb.762:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-.LBB4_763:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rsi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm5
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm6
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm7
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm5
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm6
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm7
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm5
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_763
-	jmp	.LBB4_1435
-.LBB4_778:
-	mov	edx, r10d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1443
-# %bb.779:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_20] # xmm2 = [1,1,1,1,1,1,1,1]
-.LBB4_780:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbw	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbw	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbw	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbw	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm4
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_780
-	jmp	.LBB4_1444
-.LBB4_783:
-	mov	edx, r10d
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1451
-# %bb.784:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_20] # xmm2 = [1,1,1,1,1,1,1,1]
-.LBB4_785:                              # =>This Inner Loop Header: Depth=1
-	movq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbw	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbw	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
-	movq	xmm3, qword ptr [rcx + rsi + 16] # xmm3 = mem[0],zero
-	movq	xmm4, qword ptr [rcx + rsi + 24] # xmm4 = mem[0],zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbw	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbw	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm4
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_785
-	jmp	.LBB4_1452
-.LBB4_806:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1459
-# %bb.807:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_808:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm6, eax
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbq	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbq	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
-	movzx	eax, word ptr [rcx + rsi + 4]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rcx + rsi + 6]
-	movd	xmm6, eax
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbq	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbq	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbq	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbq	xmm6, xmm6
-	blendvpd	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm6, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_808
-	jmp	.LBB4_1460
-.LBB4_811:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1468
-# %bb.812:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-.LBB4_813:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm5, dword ptr [rcx + rsi]     # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + rsi + 4] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbd	xmm5, xmm5
-	cvtdq2ps	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbd	xmm6, xmm6
-	cvtdq2ps	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbd	xmm5, xmm5
-	cvtdq2ps	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbd	xmm6, xmm6
-	cvtdq2ps	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_813
-	jmp	.LBB4_1469
-.LBB4_816:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1490
-# %bb.817:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_15] # xmm1 = [1,1]
-.LBB4_818:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqq	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm3
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_818
-	jmp	.LBB4_1491
-.LBB4_843:
-	mov	edx, r11d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1498
-# %bb.844:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-.LBB4_845:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm6
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvpd	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvpd	xmm5, xmm6, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm7
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm6
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvpd	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvpd	xmm5, xmm6, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm7
-	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm5
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_845
-	jmp	.LBB4_1499
-.LBB4_989:
-	movss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-.LBB4_990:
-	jle	.LBB4_992
-# %bb.991:
-	movss	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-.LBB4_992:
-	movss	dword ptr [r8 + 4*rax], xmm0
-	jmp	.LBB4_1655
-.LBB4_866:
-	mov	edx, eax
-	and	edx, -8
-	xor	esi, esi
-	xorps	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_867:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm4, xmm2
-	psrad	xmm4, 31
-	por	xmm4, xmm1
-	movdqa	xmm5, xmm3
-	psrad	xmm5, 31
-	por	xmm5, xmm1
-	cvtdq2ps	xmm4, xmm4
-	cvtdq2ps	xmm5, xmm5
-	cmpneqps	xmm2, xmm0
-	andps	xmm2, xmm4
-	cmpneqps	xmm3, xmm0
-	andps	xmm3, xmm5
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-	add	rsi, 8
-	cmp	rdx, rsi
-	jne	.LBB4_867
-# %bb.868:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_869
-.LBB4_876:
-	mov	edx, r10d
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1507
-# %bb.877:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
-.LBB4_878:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm3, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm4, eax
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
-	movzx	eax, word ptr [rcx + rsi + 4]
-	movd	xmm3, eax
-	movzx	eax, word ptr [rcx + rsi + 6]
-	movd	xmm4, eax
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_878
-	jmp	.LBB4_1508
-.LBB4_881:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1515
-# %bb.882:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_883:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	pand	xmm3, xmm2
-	cvtdq2ps	xmm3, xmm3
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	pand	xmm4, xmm2
-	cvtdq2ps	xmm4, xmm4
-	movups	xmmword ptr [r8 + 4*rsi], xmm3
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	movd	xmm3, dword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + rsi + 12] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	pand	xmm3, xmm2
-	cvtdq2ps	xmm3, xmm3
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	pand	xmm4, xmm2
-	cvtdq2ps	xmm4, xmm4
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm3
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_883
-	jmp	.LBB4_1516
-.LBB4_892:
-	mov	edx, eax
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1535
-# %bb.893:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_12] # xmm2 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_894:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + rsi], xmm3
-	movd	dword ptr [r8 + rsi + 4], xmm4
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqd	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	movd	dword ptr [r8 + rsi + 8], xmm3
-	movd	dword ptr [r8 + rsi + 12], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_894
-	jmp	.LBB4_1536
-.LBB4_897:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1543
-# %bb.898:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_1] # xmm4 = [1.0E+0,1.0E+0]
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_7] # xmm5 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_899:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm6, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm7, xmmword ptr [rcx + 8*rsi + 16]
-	movapd	xmm0, xmm6
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movapd	xmm1, xmm7
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	andpd	xmm7, xmm3
-	orpd	xmm7, xmm4
-	cvttpd2dq	xmm6, xmm6
-	pshufb	xmm6, xmm5
-	cvttpd2dq	xmm7, xmm7
-	pshufb	xmm7, xmm5
-	pblendvb	xmm6, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm2, xmm0
-	pextrw	word ptr [r8 + rsi], xmm6, 0
-	pextrw	word ptr [r8 + rsi + 2], xmm7, 0
-	movupd	xmm6, xmmword ptr [rcx + 8*rsi + 32]
-	movupd	xmm7, xmmword ptr [rcx + 8*rsi + 48]
-	movapd	xmm0, xmm6
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movapd	xmm1, xmm7
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	andpd	xmm6, xmm3
-	orpd	xmm6, xmm4
-	andpd	xmm7, xmm3
-	orpd	xmm7, xmm4
-	cvttpd2dq	xmm6, xmm6
-	pshufb	xmm6, xmm5
-	cvttpd2dq	xmm7, xmm7
-	pshufb	xmm7, xmm5
-	pblendvb	xmm6, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm2, xmm0
-	pextrw	word ptr [r8 + rsi + 4], xmm6, 0
-	pextrw	word ptr [r8 + rsi + 6], xmm7, 0
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_899
-	jmp	.LBB4_1544
-.LBB4_902:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r9, rax
-	shr	r9, 5
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1552
-# %bb.903:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_22] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_904:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + rax]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm5
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm6
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm7
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm5
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm6
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	pblendvb	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqu	xmmword ptr [r8 + rax + 32], xmm7
-	movdqu	xmmword ptr [r8 + rax + 48], xmm5
-	add	rax, 64
-	add	rdi, 2
-	jne	.LBB4_904
-	jmp	.LBB4_1553
-.LBB4_907:
-	mov	edx, eax
-	and	edx, -4
-	lea	rsi, [rdx - 4]
-	mov	r9, rsi
-	shr	r9, 2
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1561
-# %bb.908:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_18] # xmm2 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_909:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pextrw	word ptr [r8 + rsi], xmm3, 0
-	pand	xmm4, xmm2
-	pextrw	word ptr [r8 + rsi + 2], xmm4, 0
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 48]
-	pcmpeqq	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqq	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pextrw	word ptr [r8 + rsi + 4], xmm3, 0
-	pand	xmm4, xmm2
-	pextrw	word ptr [r8 + rsi + 6], xmm4, 0
-	add	rsi, 8
-	add	rdi, 2
-	jne	.LBB4_909
-	jmp	.LBB4_1562
-.LBB4_912:
-	mov	edx, eax
-	and	edx, -16
-	lea	rsi, [rdx - 16]
-	mov	r9, rsi
-	shr	r9, 4
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1569
-# %bb.913:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_21] # xmm2 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_914:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + rsi], xmm3
-	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 32]
-	movdqu	xmm4, xmmword ptr [rcx + 2*rsi + 48]
-	pcmpeqw	xmm3, xmm0
-	pxor	xmm3, xmm1
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm2
-	pcmpeqw	xmm4, xmm0
-	pxor	xmm4, xmm1
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm2
-	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
-	movdqu	xmmword ptr [r8 + rsi + 16], xmm3
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB4_914
-	jmp	.LBB4_1570
-.LBB4_917:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1577
-# %bb.918:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-.LBB4_919:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 2*rax]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rax + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packsswb	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + rax], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 2*rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 2*rax + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtw	xmm0, xmm2
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtw	xmm1, xmm2
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packsswb	xmm5, xmm5
-	pcmpeqw	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqu	xmmword ptr [r8 + rax + 16], xmm5
-	add	rax, 32
-	add	rdi, 2
-	jne	.LBB4_919
-	jmp	.LBB4_1578
-.LBB4_922:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r9, rax
-	shr	r9, 2
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1586
-# %bb.923:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_924:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 8*rax]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rax + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	pextrw	word ptr [r8 + rax], xmm5, 0
-	pextrw	word ptr [r8 + rax + 2], xmm6, 0
-	movdqu	xmm5, xmmword ptr [rcx + 8*rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 8*rax + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtq	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtq	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqq	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqq	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	pextrw	word ptr [r8 + rax + 4], xmm5, 0
-	pextrw	word ptr [r8 + rax + 6], xmm6, 0
-	add	rax, 8
-	add	rdi, 2
-	jne	.LBB4_924
-	jmp	.LBB4_1587
-.LBB4_927:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1595
-# %bb.928:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	xorps	xmm4, xmm4
-	pcmpeqd	xmm8, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_12] # xmm6 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_929:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rcx + 4*rsi]
-	movups	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	pcmpeqd	xmm5, xmm5
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	movd	dword ptr [r8 + rsi], xmm7
-	movd	dword ptr [r8 + rsi + 4], xmm5
-	movups	xmm0, xmmword ptr [rcx + 4*rsi + 32]
-	movups	xmm1, xmmword ptr [rcx + 4*rsi + 48]
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pcmpgtd	xmm0, xmm8
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pcmpgtd	xmm1, xmm8
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm5, xmm5
-	pblendvb	xmm5, xmm6, xmm0
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm7, xmm7
-	movdqa	xmm0, xmm1
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm7, xmm4, xmm0
-	movd	dword ptr [r8 + rsi + 8], xmm5
-	movd	dword ptr [r8 + rsi + 12], xmm7
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_929
-	jmp	.LBB4_1596
-.LBB4_932:
-	mov	edx, eax
-	and	edx, -32
-	lea	rsi, [rdx - 32]
-	mov	r9, rsi
-	shr	r9, 5
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1604
-# %bb.933:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_22] # xmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-.LBB4_934:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + rsi]
-	movdqu	xmm3, xmmword ptr [rcx + rsi + 16]
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqb	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + rsi], xmm2
-	movdqu	xmmword ptr [r8 + rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + rsi + 48]
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqb	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rsi + 48], xmm3
-	add	rsi, 64
-	add	rdi, 2
-	jne	.LBB4_934
-	jmp	.LBB4_1605
-.LBB4_937:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r9, rax
-	shr	r9, 3
-	add	r9, 1
-	test	rax, rax
-	je	.LBB4_1612
-# %bb.938:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	eax, eax
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB4_939:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rax]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rax + 16]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + rax], xmm5
-	movd	dword ptr [r8 + rax + 4], xmm6
-	movdqu	xmm5, xmmword ptr [rcx + 4*rax + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rax + 48]
-	movdqa	xmm0, xmm5
-	pcmpgtd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pblendvb	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm4, xmm0
-	movd	dword ptr [r8 + rax + 8], xmm5
-	movd	dword ptr [r8 + rax + 12], xmm6
-	add	rax, 16
-	add	rdi, 2
-	jne	.LBB4_939
-	jmp	.LBB4_1613
-.LBB4_942:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1621
-# %bb.943:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
-.LBB4_944:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm3
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 48]
-	pcmpeqd	xmm2, xmm0
-	pandn	xmm2, xmm1
-	pcmpeqd	xmm3, xmm0
-	pandn	xmm3, xmm1
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm3
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_944
-	jmp	.LBB4_1622
-.LBB4_950:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1629
-# %bb.951:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-.LBB4_952:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm5, dword ptr [rcx + rsi]     # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + rsi + 4] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbd	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
-	movd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
-	movd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
-	movdqa	xmm0, xmm5
-	pcmpgtb	xmm0, xmm2
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm6
-	pcmpgtb	xmm1, xmm2
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm5, xmm2
-	pxor	xmm5, xmm3
-	pmovsxbd	xmm5, xmm5
-	pcmpeqb	xmm6, xmm2
-	pxor	xmm6, xmm3
-	pmovsxbd	xmm6, xmm6
-	blendvps	xmm5, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm6, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_952
-	jmp	.LBB4_1630
-.LBB4_974:
-	mov	edx, r10d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1638
-# %bb.975:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm0, xmm0
-	pcmpeqd	xmm1, xmm1
-	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
-.LBB4_976:                              # =>This Inner Loop Header: Depth=1
-	movd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
-	movd	xmm3, dword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero,zero,zero
-	movd	xmm4, dword ptr [rcx + rsi + 12] # xmm4 = mem[0],zero,zero,zero
-	pcmpeqb	xmm3, xmm0
-	pxor	xmm3, xmm1
-	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	pand	xmm3, xmm2
-	pcmpeqb	xmm4, xmm0
-	pxor	xmm4, xmm1
-	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
-	pand	xmm4, xmm2
-	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm4
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_976
-	jmp	.LBB4_1639
-.LBB4_979:
-	mov	edx, r11d
-	and	edx, -8
-	lea	rsi, [rdx - 8]
-	mov	r9, rsi
-	shr	r9, 3
-	add	r9, 1
-	test	rsi, rsi
-	je	.LBB4_1646
-# %bb.980:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-.LBB4_981:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm5
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm6
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvps	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvps	xmm5, xmm6, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm7
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
-	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
-	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm5
-	pcmpeqd	xmm5, xmm2
-	pxor	xmm5, xmm3
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm6
-	pcmpeqd	xmm6, xmm2
-	pxor	xmm6, xmm3
-	movdqa	xmm7, xmm4
-	blendvps	xmm7, xmm5, xmm0
-	movdqa	xmm5, xmm4
-	movdqa	xmm0, xmm1
-	blendvps	xmm5, xmm6, xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 32], xmm7
-	movups	xmmword ptr [r8 + 4*rsi + 48], xmm5
-	add	rsi, 16
-	add	rdi, 2
-	jne	.LBB4_981
-	jmp	.LBB4_1647
-.LBB4_1475:
-	movd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-.LBB4_1476:
-	jle	.LBB4_1478
-# %bb.1477:
-	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-.LBB4_1478:
-	movd	dword ptr [r8 + 4*rdx], xmm0
-	or	rdx, 1
-.LBB4_1479:
-	add	rsi, rax
-	je	.LBB4_1655
-# %bb.1480:
-	movd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_1482
-.LBB4_1481:                             #   in Loop: Header=BB4_1482 Depth=1
-	movd	dword ptr [r8 + 4*rdx + 4], xmm3
-	add	rdx, 2
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1482:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rcx + rdx], 0
-	movdqa	xmm2, xmm0
-	jne	.LBB4_1483
-# %bb.1486:                             #   in Loop: Header=BB4_1482 Depth=1
-	pxor	xmm2, xmm2
-	movdqa	xmm3, xmm1
-	jle	.LBB4_1487
-.LBB4_1484:                             #   in Loop: Header=BB4_1482 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm3
-	cmp	byte ptr [rcx + rdx + 1], 0
-	movdqa	xmm2, xmm0
-	jne	.LBB4_1485
-.LBB4_1488:                             #   in Loop: Header=BB4_1482 Depth=1
-	pxor	xmm2, xmm2
-	movdqa	xmm3, xmm1
-	jg	.LBB4_1481
-	jmp	.LBB4_1489
-.LBB4_1483:                             #   in Loop: Header=BB4_1482 Depth=1
-	movdqa	xmm3, xmm1
-	jg	.LBB4_1484
-.LBB4_1487:                             #   in Loop: Header=BB4_1482 Depth=1
-	movdqa	xmm3, xmm2
-	movd	dword ptr [r8 + 4*rdx], xmm3
-	cmp	byte ptr [rcx + rdx + 1], 0
-	movdqa	xmm2, xmm0
-	je	.LBB4_1488
-.LBB4_1485:                             #   in Loop: Header=BB4_1482 Depth=1
-	movdqa	xmm3, xmm1
-	jg	.LBB4_1481
-.LBB4_1489:                             #   in Loop: Header=BB4_1482 Depth=1
-	movdqa	xmm3, xmm2
-	jmp	.LBB4_1481
-.LBB4_994:
-	xor	esi, esi
-.LBB4_995:
-	test	r9b, 1
-	je	.LBB4_997
-# %bb.996:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_16] # xmm3 = <1,1,u,u>
-	pandn	xmm0, xmm3
-	pcmpeqq	xmm1, xmm2
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pandn	xmm1, xmm3
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-.LBB4_997:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_998:                              # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_998
-	jmp	.LBB4_1655
-.LBB4_999:
-	xor	esi, esi
-.LBB4_1000:
-	test	r9b, 1
-	je	.LBB4_1002
-# %bb.1001:
-	movq	xmm0, qword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + 4*rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxdq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	pand	xmm0, xmm4
-	pcmpeqd	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxdq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1002:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1003:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1003
-	jmp	.LBB4_1655
-.LBB4_1004:
-	xor	edi, edi
-.LBB4_1005:
-	test	r9b, 1
-	je	.LBB4_1007
-# %bb.1006:
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi]
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	andpd	xmm1, xmm0
-	orpd	xmm1, xmmword ptr [rip + .LCPI4_1]
-	movsd	xmm2, qword ptr [rip + .LCPI4_6] # xmm2 = mem[0],zero
-	movapd	xmm3, xmm1
-	subsd	xmm3, xmm2
-	cvttsd2si	rax, xmm3
-	xor	rax, r11
-	cvttsd2si	rdx, xmm1
-	ucomisd	xmm1, xmm2
-	cmovae	rdx, rax
-	movq	xmm3, rdx
-	pshufd	xmm1, xmm1, 238                 # xmm1 = xmm1[2,3,2,3]
-	movdqa	xmm4, xmm1
-	subsd	xmm4, xmm2
-	cvttsd2si	rax, xmm4
-	xor	rax, r11
-	cvttsd2si	rdx, xmm1
-	ucomisd	xmm1, xmm2
-	xorpd	xmm1, xmm1
-	cmovae	rdx, rax
-	movq	xmm2, rdx
-	punpcklqdq	xmm3, xmm2              # xmm3 = xmm3[0],xmm2[0]
-	cmpneqpd	xmm1, xmm0
-	andpd	xmm1, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm1
-.LBB4_1007:
-	cmp	rsi, r10
-	je	.LBB4_1655
-.LBB4_1008:
-	movapd	xmm0, xmmword ptr [rip + .LCPI4_0] # xmm0 = [-0.0E+0,-0.0E+0]
-	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
-	movsd	xmm2, qword ptr [rip + .LCPI4_6] # xmm2 = mem[0],zero
-	xor	eax, eax
-	xorpd	xmm3, xmm3
-.LBB4_1009:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm4, qword ptr [rcx + 8*rsi]   # xmm4 = mem[0],zero
-	movapd	xmm5, xmm4
-	andpd	xmm5, xmm0
-	orpd	xmm5, xmm1
-	movapd	xmm6, xmm5
-	subsd	xmm6, xmm2
-	cvttsd2si	rdx, xmm6
-	xor	rdx, r11
-	cvttsd2si	rdi, xmm5
-	ucomisd	xmm5, xmm2
-	cmovae	rdi, rdx
-	ucomisd	xmm3, xmm4
-	cmove	rdi, rax
-	mov	qword ptr [r8 + 8*rsi], rdi
-	add	rsi, 1
-	cmp	r10, rsi
-	jne	.LBB4_1009
-	jmp	.LBB4_1655
-.LBB4_1010:
-	xor	esi, esi
-.LBB4_1011:
-	test	r9b, 1
-	je	.LBB4_1013
-# %bb.1012:
-	movd	xmm0, dword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rcx + 2*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxwq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	pand	xmm0, xmm4
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxwq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1013:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1014:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1014
-	jmp	.LBB4_1655
-.LBB4_1015:
-	xor	esi, esi
-.LBB4_1016:
-	test	r9b, 1
-	je	.LBB4_1018
-# %bb.1017:
-	movd	xmm2, dword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero,zero,zero
-	movd	xmm3, dword ptr [rcx + 2*rsi + 4] # xmm3 = mem[0],zero,zero,zero
-	xorpd	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	pmovsxwq	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	pmovsxwq	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxwq	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxwq	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	blendvpd	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
-.LBB4_1018:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1019:
-	mov	esi, 1
-.LBB4_1020:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	rax
-	test	di, di
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1020
-	jmp	.LBB4_1655
-.LBB4_993:
-	movmskps	ecx, xmm0
-	and	ecx, 1
-	neg	ecx
-	or	ecx, 1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, ecx
-	movss	xmm1, dword ptr [rip + .LCPI4_9] # xmm1 = mem[0],zero,zero,zero
-	movaps	xmm2, xmm0
-	subss	xmm2, xmm1
-	cvttss2si	rcx, xmm2
-	movabs	rdx, -9223372036854775808
-	xor	rdx, rcx
-	cvttss2si	rcx, xmm0
-	ucomiss	xmm0, xmm1
-	cmovae	rcx, rdx
-	mov	qword ptr [r8 + 8*rax], rcx
-	jmp	.LBB4_1655
-.LBB4_1021:
-	xor	esi, esi
-.LBB4_1022:
-	test	r9b, 1
-	je	.LBB4_1024
-# %bb.1023:
-	movq	xmm2, qword ptr [rcx + 4*rsi]   # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + 4*rsi + 8] # xmm3 = mem[0],zero
-	xorpd	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	pmovsxdq	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	pmovsxdq	xmm1, xmm1
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxdq	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxdq	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	blendvpd	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
-.LBB4_1024:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1025:
-	mov	esi, 1
-.LBB4_1026:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	rax
-	test	edi, edi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1026
-	jmp	.LBB4_1655
-.LBB4_1027:
-	xor	esi, esi
-.LBB4_1028:
-	test	r9b, 1
-	je	.LBB4_1030
-# %bb.1029:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqq	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pand	xmm1, xmm4
-	movd	dword ptr [r8 + 2*rsi], xmm0
-	movd	dword ptr [r8 + 2*rsi + 4], xmm1
-.LBB4_1030:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1031:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1031
-	jmp	.LBB4_1655
-.LBB4_1032:
-	xor	esi, esi
-.LBB4_1033:
-	test	r9b, 1
-	je	.LBB4_1035
-# %bb.1034:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqq	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pand	xmm1, xmm4
-	movd	dword ptr [r8 + 2*rsi], xmm0
-	movd	dword ptr [r8 + 2*rsi + 4], xmm1
-.LBB4_1035:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1036:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1036
-	jmp	.LBB4_1655
-.LBB4_1037:
-	xor	esi, esi
-.LBB4_1038:
-	test	r9b, 1
-	je	.LBB4_1040
-# %bb.1039:
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtq	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pcmpeqq	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	packssdw	xmm2, xmm2
-	pcmpeqq	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rsi], xmm2
-	movd	dword ptr [r8 + 2*rsi + 4], xmm3
-.LBB4_1040:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1041:
-	mov	esi, 1
-.LBB4_1042:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1042
-	jmp	.LBB4_1655
-.LBB4_1043:
-	xor	esi, esi
-.LBB4_1044:
-	test	r9b, 1
-	je	.LBB4_1046
-# %bb.1045:
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-.LBB4_1046:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1047:
-	mov	esi, 1
-.LBB4_1048:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1048
-	jmp	.LBB4_1655
-.LBB4_1049:
-	xor	esi, esi
-.LBB4_1050:
-	test	r9b, 1
-	je	.LBB4_1052
-# %bb.1051:
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-.LBB4_1052:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1053:
-	mov	esi, 1
-.LBB4_1054:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	eax
-	test	edi, edi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1054
-	jmp	.LBB4_1655
-.LBB4_1055:
-	xor	esi, esi
-.LBB4_1056:
-	test	r9b, 1
-	je	.LBB4_1058
-# %bb.1057:
-	movd	xmm0, dword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rcx + 2*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxwq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	pand	xmm0, xmm4
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxwq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1058:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1059:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1059
-	jmp	.LBB4_1655
-.LBB4_1060:
-	xor	esi, esi
-.LBB4_1061:
-	test	r9b, 1
-	je	.LBB4_1063
-# %bb.1062:
-	movq	xmm2, qword ptr [rcx + 4*rsi]   # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + 4*rsi + 8] # xmm3 = mem[0],zero
-	xorpd	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	pmovsxdq	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	pmovsxdq	xmm1, xmm1
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxdq	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxdq	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	blendvpd	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
-.LBB4_1063:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1064:
-	mov	esi, 1
-.LBB4_1065:                             # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rdx]
-	xor	eax, eax
-	test	edi, edi
-	setne	al
-	neg	rax
-	test	edi, edi
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1065
-	jmp	.LBB4_1655
-.LBB4_1066:
-	xor	esi, esi
-.LBB4_1067:
-	test	r9b, 1
-	je	.LBB4_1069
-# %bb.1068:
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	cvtdq2ps	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	cvtdq2ps	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1069:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1070:
-	movd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_1072
-.LBB4_1071:                             #   in Loop: Header=BB4_1072 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1072:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	movdqa	xmm2, xmm0
-	jne	.LBB4_1074
-# %bb.1073:                             #   in Loop: Header=BB4_1072 Depth=1
-	pxor	xmm2, xmm2
-.LBB4_1074:                             #   in Loop: Header=BB4_1072 Depth=1
-	movdqa	xmm3, xmm1
-	jg	.LBB4_1071
-# %bb.1075:                             #   in Loop: Header=BB4_1072 Depth=1
-	movdqa	xmm3, xmm2
-	jmp	.LBB4_1071
-.LBB4_1076:
-	xor	edi, edi
-.LBB4_1077:
-	test	r9b, 1
-	je	.LBB4_1079
-# %bb.1078:
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rcx + 8*rdi + 16]
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmm0
-	cmpeqpd	xmm3, xmm2
-	shufps	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	cmpeqpd	xmm2, xmm1
-	shufps	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_0] # xmm4 = [-0.0E+0,-0.0E+0]
-	andpd	xmm0, xmm4
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_1] # xmm5 = [1.0E+0,1.0E+0]
-	orpd	xmm0, xmm5
-	andpd	xmm1, xmm4
-	orpd	xmm1, xmm5
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	andnps	xmm3, xmm0
-	andnps	xmm2, xmm1
-	movlhps	xmm3, xmm2                      # xmm3 = xmm3[0],xmm2[0]
-	movups	xmmword ptr [r8 + 4*rdi], xmm3
-.LBB4_1079:
-	cmp	rsi, rax
-	je	.LBB4_1655
-.LBB4_1080:
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1081:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edx, xmm3
-	cmove	edx, r10d
-	mov	dword ptr [r8 + 4*rsi], edx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_1081
-	jmp	.LBB4_1655
-.LBB4_1082:
-	xor	esi, esi
-.LBB4_1083:
-	test	r9b, 1
-	je	.LBB4_1085
-# %bb.1084:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_16] # xmm3 = <1,1,u,u>
-	pandn	xmm0, xmm3
-	pcmpeqq	xmm1, xmm2
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pandn	xmm1, xmm3
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-.LBB4_1085:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1086:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	qword ptr [rcx + 8*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1086
-	jmp	.LBB4_1655
-.LBB4_1087:
-	xor	esi, esi
-.LBB4_1088:
-	test	r9b, 1
-	je	.LBB4_1090
-# %bb.1089:
-	movq	xmm0, qword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + 2*rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxwd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	pand	xmm0, xmm4
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxwd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1090:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1091:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1091
-	jmp	.LBB4_1655
-.LBB4_1092:
-	xor	esi, esi
-.LBB4_1093:
-	test	r9b, 1
-	je	.LBB4_1095
-# %bb.1094:
-	movq	xmm2, qword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxwd	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxwd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1095:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1096:
-	mov	esi, 1
-.LBB4_1097:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1097
-	jmp	.LBB4_1655
-.LBB4_1098:
-	xor	esi, esi
-.LBB4_1099:
-	test	r9b, 1
-	je	.LBB4_1101
-# %bb.1100:
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm4
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm1, xmm3
-	pcmpgtq	xmm1, xmm4
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pcmpeqq	xmm2, xmm4
-	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pcmpeqq	xmm3, xmm4
-	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	pxor	xmm3, xmm5
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_16] # xmm4 = <1,1,u,u>
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movlhps	xmm2, xmm3                      # xmm2 = xmm2[0],xmm3[0]
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-.LBB4_1101:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1102:
-	mov	esi, 1
-.LBB4_1103:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1103
-	jmp	.LBB4_1655
-.LBB4_1106:
-	xor	edi, edi
-.LBB4_1107:
-	test	r9b, 1
-	je	.LBB4_1109
-# %bb.1108:
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	xorpd	xmm1, xmm1
-	movapd	xmm0, xmm3
-	cmpeqpd	xmm0, xmm1
-	shufps	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	cmpeqpd	xmm1, xmm2
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_0] # xmm4 = [-0.0E+0,-0.0E+0]
-	andpd	xmm3, xmm4
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_1] # xmm5 = [1.0E+0,1.0E+0]
-	orpd	xmm3, xmm5
-	andpd	xmm2, xmm4
-	orpd	xmm2, xmm5
-	pshufd	xmm4, xmm3, 238                 # xmm4 = xmm3[2,3,2,3]
-	cvttsd2si	rax, xmm4
-	cvttsd2si	rdx, xmm3
-	movd	xmm3, edx
-	pinsrd	xmm3, eax, 1
-	pshufd	xmm4, xmm2, 238                 # xmm4 = xmm2[2,3,2,3]
-	cvttsd2si	rax, xmm4
-	cvttsd2si	rdx, xmm2
-	shufps	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	movd	xmm2, edx
-	pinsrd	xmm2, eax, 1
-	andnps	xmm0, xmm3
-	andnps	xmm1, xmm2
-	movlhps	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-.LBB4_1109:
-	cmp	rsi, r11
-	je	.LBB4_1655
-.LBB4_1110:
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1111:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	rax, xmm3
-	cmove	eax, r10d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	cmp	r11, rsi
-	jne	.LBB4_1111
-	jmp	.LBB4_1655
-.LBB4_1112:
-	xor	esi, esi
-.LBB4_1113:
-	test	r9b, 1
-	je	.LBB4_1115
-# %bb.1114:
-	movq	xmm0, qword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + 2*rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxwd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	pand	xmm0, xmm4
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxwd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1115:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1116:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	word ptr [rcx + 2*rdx], 0
-	setne	sil
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1116
-	jmp	.LBB4_1655
-.LBB4_1117:
-	xor	esi, esi
-.LBB4_1118:
-	test	r9b, 1
-	je	.LBB4_1120
-# %bb.1119:
-	movq	xmm2, qword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxwd	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxwd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1120:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1121:
-	mov	esi, 1
-.LBB4_1122:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	eax
-	test	di, di
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1122
-	jmp	.LBB4_1655
-.LBB4_1123:
-	xor	esi, esi
-.LBB4_1124:
-	test	r9b, 1
-	je	.LBB4_1126
-# %bb.1125:
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm4
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movdqa	xmm1, xmm3
-	pcmpgtq	xmm1, xmm4
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pcmpeqq	xmm2, xmm4
-	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pcmpeqq	xmm3, xmm4
-	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
-	pxor	xmm3, xmm5
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_16] # xmm4 = <1,1,u,u>
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movlhps	xmm2, xmm3                      # xmm2 = xmm2[0],xmm3[0]
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-.LBB4_1126:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1127:
-	mov	esi, 1
-.LBB4_1128:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	dword ptr [r8 + 4*rdx], eax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1128
-	jmp	.LBB4_1655
-.LBB4_1129:
-	xor	esi, esi
-.LBB4_1130:
-	test	r9b, 1
-	je	.LBB4_1132
-# %bb.1131:
-	movups	xmm0, xmmword ptr [rcx + 4*rsi]
-	xorps	xmm1, xmm1
-	cmpneqps	xmm1, xmm0
-	psrad	xmm0, 31
-	por	xmm0, xmmword ptr [rip + .LCPI4_8]
-	cvtdq2ps	xmm2, xmm0
-	movaps	xmm3, xmmword ptr [rip + .LCPI4_10] # xmm3 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	movaps	xmm0, xmm2
-	cmpltps	xmm0, xmm3
-	cvttps2dq	xmm4, xmm2
-	subps	xmm2, xmm3
-	cvttps2dq	xmm2, xmm2
-	xorps	xmm2, xmmword ptr [rip + .LCPI4_4]
-	blendvps	xmm2, xmm4, xmm0
-	andps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rsi], xmm1
-.LBB4_1132:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1133:
-	xorps	xmm0, xmm0
-	jmp	.LBB4_1135
-.LBB4_1134:                             #   in Loop: Header=BB4_1135 Depth=1
-	mov	dword ptr [r8 + 4*rdx], esi
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1135:                             # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	xor	esi, esi
-	ucomiss	xmm0, xmm1
-	je	.LBB4_1134
-# %bb.1136:                             #   in Loop: Header=BB4_1135 Depth=1
-	movmskps	esi, xmm1
-	and	esi, 1
-	neg	esi
-	or	esi, 1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, esi
-	cvttss2si	rsi, xmm1
-	jmp	.LBB4_1134
-.LBB4_1137:
-	xor	esi, esi
-.LBB4_1138:
-	test	r9b, 1
-	je	.LBB4_1140
-# %bb.1139:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqd	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	pand	xmm1, xmm4
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
-.LBB4_1140:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1141:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1141
-	jmp	.LBB4_1655
-.LBB4_1142:
-	xor	esi, esi
-.LBB4_1143:
-	test	r9b, 1
-	je	.LBB4_1145
-# %bb.1144:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqd	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	pand	xmm1, xmm4
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
-.LBB4_1145:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1146:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	word ptr [r8 + 2*rdx], si
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1146
-	jmp	.LBB4_1655
-.LBB4_1147:
-	xor	edi, edi
-.LBB4_1148:
-	test	r9b, 1
-	je	.LBB4_1150
-# %bb.1149:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	xorpd	xmm4, xmm4
-	movapd	xmm0, xmm2
-	cmpeqpd	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movapd	xmm1, xmm3
-	cmpeqpd	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_0] # xmm5 = [-0.0E+0,-0.0E+0]
-	andpd	xmm2, xmm5
-	movapd	xmm6, xmmword ptr [rip + .LCPI4_1] # xmm6 = [1.0E+0,1.0E+0]
-	orpd	xmm2, xmm6
-	andpd	xmm3, xmm5
-	orpd	xmm3, xmm6
-	cvttpd2dq	xmm2, xmm2
-	cvttpd2dq	xmm3, xmm3
-	pshuflw	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3,4,5,6,7]
-	pshuflw	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3,4,5,6,7]
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rdi], xmm2
-	movd	dword ptr [r8 + 2*rdi + 4], xmm3
-.LBB4_1150:
-	cmp	rsi, rax
-	je	.LBB4_1655
-.LBB4_1151:
-	pxor	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1152:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edx, xmm3
-	cmove	edx, r10d
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_1152
-	jmp	.LBB4_1655
-.LBB4_1153:
-	xor	edi, edi
-.LBB4_1154:
-	test	r9b, 1
-	je	.LBB4_1156
-# %bb.1155:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	xorpd	xmm4, xmm4
-	movapd	xmm0, xmm2
-	cmpeqpd	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movapd	xmm1, xmm3
-	cmpeqpd	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_0] # xmm5 = [-0.0E+0,-0.0E+0]
-	andpd	xmm2, xmm5
-	movapd	xmm6, xmmword ptr [rip + .LCPI4_1] # xmm6 = [1.0E+0,1.0E+0]
-	orpd	xmm2, xmm6
-	andpd	xmm3, xmm5
-	orpd	xmm3, xmm6
-	cvttpd2dq	xmm2, xmm2
-	cvttpd2dq	xmm3, xmm3
-	pshuflw	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3,4,5,6,7]
-	pshuflw	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3,4,5,6,7]
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rdi], xmm2
-	movd	dword ptr [r8 + 2*rdi + 4], xmm3
-.LBB4_1156:
-	cmp	rsi, rax
-	je	.LBB4_1655
-.LBB4_1157:
-	pxor	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1158:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	edx, xmm3
-	cmove	edx, r10d
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_1158
-	jmp	.LBB4_1655
-.LBB4_1159:
-	xor	esi, esi
-.LBB4_1160:
-	test	r9b, 1
-	je	.LBB4_1162
-# %bb.1161:
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtq	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	pcmpeqq	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	packssdw	xmm2, xmm2
-	pcmpeqq	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movd	dword ptr [r8 + 2*rsi], xmm2
-	movd	dword ptr [r8 + 2*rsi + 4], xmm3
-.LBB4_1162:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1163:
-	mov	esi, 1
-.LBB4_1164:                             # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rdx]
-	xor	eax, eax
-	test	rdi, rdi
-	setne	al
-	neg	eax
-	test	rdi, rdi
-	cmovg	eax, esi
-	mov	word ptr [r8 + 2*rdx], ax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1164
-	jmp	.LBB4_1655
-.LBB4_1165:
-	xor	edi, edi
-.LBB4_1166:
-	test	r9b, 1
-	je	.LBB4_1168
-# %bb.1167:
-	movups	xmm0, xmmword ptr [rcx + 4*rdi]
-	movups	xmm1, xmmword ptr [rcx + 4*rdi + 16]
-	xorps	xmm4, xmm4
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	pcmpeqd	xmm5, xmm5
-	pcmpgtd	xmm0, xmm5
-	packssdw	xmm0, xmm0
-	pcmpgtd	xmm1, xmm5
-	packssdw	xmm1, xmm1
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_11] # xmm6 = <1,1,1,1,u,u,u,u>
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm7
-.LBB4_1168:
-	cmp	rsi, rax
-	je	.LBB4_1655
-.LBB4_1169:
-	pxor	xmm0, xmm0
-.LBB4_1170:                             # =>This Inner Loop Header: Depth=1
-	movd	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	movd	edx, xmm1
-	xor	edi, edi
-	test	edx, edx
-	setns	dil
-	ucomiss	xmm0, xmm1
-	lea	edx, [rdi + rdi - 1]
-	cmove	edx, r10d
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_1170
-	jmp	.LBB4_1655
-.LBB4_1171:
-	xor	edi, edi
-.LBB4_1172:
-	test	r9b, 1
-	je	.LBB4_1174
-# %bb.1173:
-	movups	xmm0, xmmword ptr [rcx + 4*rdi]
-	movups	xmm1, xmmword ptr [rcx + 4*rdi + 16]
-	xorps	xmm4, xmm4
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	pcmpeqd	xmm5, xmm5
-	pcmpgtd	xmm0, xmm5
-	packssdw	xmm0, xmm0
-	pcmpgtd	xmm1, xmm5
-	packssdw	xmm1, xmm1
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_11] # xmm6 = <1,1,1,1,u,u,u,u>
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm7
-.LBB4_1174:
-	cmp	rsi, rax
-	je	.LBB4_1655
-.LBB4_1175:
-	pxor	xmm0, xmm0
-.LBB4_1176:                             # =>This Inner Loop Header: Depth=1
-	movd	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	movd	edx, xmm1
-	xor	edi, edi
-	test	edx, edx
-	setns	dil
-	ucomiss	xmm0, xmm1
-	lea	edx, [rdi + rdi - 1]
-	cmove	edx, r10d
-	mov	word ptr [r8 + 2*rsi], dx
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB4_1176
-	jmp	.LBB4_1655
-.LBB4_1177:
-	xor	esi, esi
-.LBB4_1178:
-	test	r9b, 1
-	je	.LBB4_1180
-# %bb.1179:
-	movq	xmm0, qword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + 4*rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxdq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	pand	xmm0, xmm4
-	pcmpeqd	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxdq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1180:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1181:                             # =>This Inner Loop Header: Depth=1
-	xor	esi, esi
-	cmp	dword ptr [rcx + 4*rdx], 0
-	setne	sil
-	mov	qword ptr [r8 + 8*rdx], rsi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1181
-	jmp	.LBB4_1655
-.LBB4_1182:
-	xor	esi, esi
-.LBB4_1183:
-	test	r9b, 1
-	je	.LBB4_1185
-# %bb.1184:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_19] # xmm3 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	pandn	xmm0, xmm3
-	pcmpeqd	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1185:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1186:
-	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_1188
-.LBB4_1187:                             #   in Loop: Header=BB4_1188 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1188:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rcx + 4*rdx], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1187
-# %bb.1189:                             #   in Loop: Header=BB4_1188 Depth=1
-	pxor	xmm1, xmm1
-	jmp	.LBB4_1187
-.LBB4_1190:
-	xor	esi, esi
-.LBB4_1191:
-	test	r9b, 1
-	je	.LBB4_1193
-# %bb.1192:
-	movupd	xmm0, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmm0
-	andpd	xmm4, xmm3
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_1] # xmm5 = [1.0E+0,1.0E+0]
-	orpd	xmm4, xmm5
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm5
-	cvttsd2si	rdi, xmm4
-	movq	xmm5, rdi
-	pshufd	xmm4, xmm4, 238                 # xmm4 = xmm4[2,3,2,3]
-	cvttsd2si	rdi, xmm4
-	movq	xmm4, rdi
-	punpcklqdq	xmm5, xmm4              # xmm5 = xmm5[0],xmm4[0]
-	cvttsd2si	rdi, xmm3
-	movq	xmm4, rdi
-	pshufd	xmm3, xmm3, 238                 # xmm3 = xmm3[2,3,2,3]
-	cvttsd2si	rdi, xmm3
-	movq	xmm3, rdi
-	punpcklqdq	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0]
-	cmpneqpd	xmm0, xmm2
-	andpd	xmm0, xmm5
-	cmpneqpd	xmm1, xmm2
-	andpd	xmm1, xmm4
-	movupd	xmmword ptr [r8 + 8*rsi], xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1193:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1194:
-	xor	esi, esi
-	xorpd	xmm0, xmm0
-	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
-	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
-.LBB4_1195:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
-	ucomisd	xmm0, xmm3
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm2
-	cvttsd2si	rdi, xmm3
-	cmove	rdi, rsi
-	mov	qword ptr [r8 + 8*rdx], rdi
-	add	rdx, 1
-	cmp	rax, rdx
-	jne	.LBB4_1195
-	jmp	.LBB4_1655
-.LBB4_1196:
-	xor	esi, esi
-.LBB4_1197:
-	test	r9b, 1
-	je	.LBB4_1199
-# %bb.1198:
-	movupd	xmm2, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm8, xmmword ptr [rcx + 8*rsi + 16]
-	xorps	xmm0, xmm0
-	cvtsd2ss	xmm3, xmm2
-	cmpeqpd	xmm2, xmm0
-	shufps	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
-	cvtpd2ps	xmm4, xmmword ptr [rip + .LCPI4_1]
-	cmpeqpd	xmm0, xmm8
-	movsd	xmm5, qword ptr [rcx + 8*rsi + 8] # xmm5 = mem[0],zero
-	cvtsd2ss	xmm5, xmm5
-	shufps	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	movaps	xmm6, xmmword ptr [rip + .LCPI4_3] # xmm6 = [NaN,NaN,NaN,NaN]
-	movaps	xmm7, xmm6
-	andnps	xmm7, xmm5
-	movshdup	xmm5, xmm4                      # xmm5 = xmm4[1,1,3,3]
-	andps	xmm5, xmm6
-	orps	xmm7, xmm5
-	movaps	xmm1, xmm6
-	andnps	xmm1, xmm3
-	andps	xmm4, xmm6
-	orps	xmm1, xmm4
-	unpcklps	xmm1, xmm7                      # xmm1 = xmm1[0],xmm7[0],xmm1[1],xmm7[1]
-	andnps	xmm2, xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rsi + 24] # xmm1 = mem[0],zero
-	cvtsd2ss	xmm1, xmm1
-	movaps	xmm3, xmm6
-	andnps	xmm3, xmm1
-	orps	xmm3, xmm5
-	xorps	xmm1, xmm1
-	cvtsd2ss	xmm1, xmm8
-	andnps	xmm6, xmm1
-	orps	xmm6, xmm4
-	unpcklps	xmm6, xmm3                      # xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1]
-	andnps	xmm0, xmm6
-	movlhps	xmm2, xmm0                      # xmm2 = xmm2[0],xmm0[0]
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-.LBB4_1199:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1200:
-	xorps	xmm0, xmm0
-	movaps	xmm1, xmmword ptr [rip + .LCPI4_4] # xmm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
-	movss	xmm2, dword ptr [rip + .LCPI4_5] # xmm2 = mem[0],zero,zero,zero
-	jmp	.LBB4_1202
-.LBB4_1201:                             #   in Loop: Header=BB4_1202 Depth=1
-	movss	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1202:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm4, qword ptr [rcx + 8*rdx]   # xmm4 = mem[0],zero
-	ucomisd	xmm0, xmm4
-	xorps	xmm3, xmm3
-	je	.LBB4_1201
-# %bb.1203:                             #   in Loop: Header=BB4_1202 Depth=1
-	xorps	xmm3, xmm3
-	cvtsd2ss	xmm3, xmm4
-	andps	xmm3, xmm1
-	orps	xmm3, xmm2
-	jmp	.LBB4_1201
-.LBB4_1204:
-	xor	esi, esi
-.LBB4_1205:
-	test	r9b, 1
-	je	.LBB4_1207
-# %bb.1206:
-	movq	xmm0, qword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + 2*rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxwd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	pand	xmm0, xmm4
-	cvtdq2ps	xmm0, xmm0
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxwd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
-	pand	xmm1, xmm4
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [r8 + 4*rsi], xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1207:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1208:
-	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
-	jmp	.LBB4_1210
-.LBB4_1209:                             #   in Loop: Header=BB4_1210 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1210:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	movdqa	xmm1, xmm0
-	jne	.LBB4_1209
-# %bb.1211:                             #   in Loop: Header=BB4_1210 Depth=1
-	pxor	xmm1, xmm1
-	jmp	.LBB4_1209
-.LBB4_1212:
-	xor	esi, esi
-.LBB4_1213:
-	test	r9b, 1
-	je	.LBB4_1215
-# %bb.1214:
-	movd	xmm2, dword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero,zero,zero
-	movd	xmm3, dword ptr [rcx + 2*rsi + 4] # xmm3 = mem[0],zero,zero,zero
-	xorpd	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	pmovsxwq	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	pmovsxwq	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxwq	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxwq	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	blendvpd	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
-.LBB4_1215:
-	cmp	rdx, r10
-	je	.LBB4_1655
-.LBB4_1216:
-	mov	esi, 1
-.LBB4_1217:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rdx]
-	xor	eax, eax
-	test	di, di
-	setne	al
-	neg	rax
-	test	di, di
-	cmovg	rax, rsi
-	mov	qword ptr [r8 + 8*rdx], rax
-	add	rdx, 1
-	cmp	r10, rdx
-	jne	.LBB4_1217
-	jmp	.LBB4_1655
-.LBB4_1218:
-	xor	esi, esi
-.LBB4_1219:
-	test	r9b, 1
-	je	.LBB4_1221
-# %bb.1220:
-	movq	xmm2, qword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	pmovsxwd	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	pmovsxwd	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxwd	xmm2, xmm2
-	cvtdq2ps	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxwd	xmm3, xmm3
-	cvtdq2ps	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1221:
-	cmp	rdx, rax
-	je	.LBB4_1655
-.LBB4_1222:
-	movd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
-	jmp	.LBB4_1224
-.LBB4_1223:                             #   in Loop: Header=BB4_1224 Depth=1
-	movd	dword ptr [r8 + 4*rdx], xmm3
-	add	rdx, 1
-	cmp	rax, rdx
-	je	.LBB4_1655
-.LBB4_1224:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rcx + 2*rdx], 0
-	movdqa	xmm2, xmm0
-	jne	.LBB4_1226
-# %bb.1225:                             #   in Loop: Header=BB4_1224 Depth=1
-	pxor	xmm2, xmm2
-.LBB4_1226:                             #   in Loop: Header=BB4_1224 Depth=1
-	movdqa	xmm3, xmm1
-	jg	.LBB4_1223
-# %bb.1227:                             #   in Loop: Header=BB4_1224 Depth=1
-	movdqa	xmm3, xmm2
-	jmp	.LBB4_1223
-.LBB4_1104:
-	movmskps	ecx, xmm0
-	and	ecx, 1
-	neg	ecx
-	or	ecx, 1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, ecx
-	cvttss2si	rcx, xmm0
-.LBB4_1105:
-	mov	qword ptr [r8 + 8*rax], rcx
-.LBB4_1655:
-	lea	rsp, [rbp - 16]
-	pop	rbx
-	pop	r14
-	pop	rbp
-	ret
-.LBB4_1228:
-	xor	esi, esi
-.LBB4_1229:
-	test	r9b, 1
-	je	.LBB4_1231
-# %bb.1230:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_8] # xmm3 = [1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqd	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1231:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1232
-.LBB4_1236:
-	xor	esi, esi
-.LBB4_1237:
-	test	r9b, 1
-	je	.LBB4_1239
-# %bb.1238:
-	movd	xmm2, dword ptr [rcx + rsi]     # xmm2 = mem[0],zero,zero,zero
-	movd	xmm3, dword ptr [rcx + rsi + 4] # xmm3 = mem[0],zero,zero,zero
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbd	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1239:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1240
-.LBB4_1245:
-	xor	esi, esi
-.LBB4_1246:
-	test	r9b, 1
-	je	.LBB4_1248
-# %bb.1247:
-	movd	xmm0, dword ptr [rcx + rsi]     # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rcx + rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	pand	xmm0, xmm4
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1248:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1249
-.LBB4_1253:
-	xor	esi, esi
-.LBB4_1254:
-	test	r9b, 1
-	je	.LBB4_1256
-# %bb.1255:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqd	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqd	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	blendvps	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm4, xmm3, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-.LBB4_1256:
-	cmp	rdx, r11
-	je	.LBB4_1655
-	jmp	.LBB4_1257
-.LBB4_1262:
-	xor	esi, esi
-.LBB4_1263:
-	test	r9b, 1
-	je	.LBB4_1265
-# %bb.1264:
-	movupd	xmm0, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	xorpd	xmm2, xmm2
-	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
-	movapd	xmm4, xmm0
-	andpd	xmm4, xmm3
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_1] # xmm5 = [1.0E+0,1.0E+0]
-	orpd	xmm4, xmm5
-	andpd	xmm3, xmm1
-	orpd	xmm3, xmm5
-	cmpneqpd	xmm0, xmm2
-	andpd	xmm0, xmm4
-	cmpneqpd	xmm1, xmm2
-	andpd	xmm1, xmm3
-	movupd	xmmword ptr [r8 + 8*rsi], xmm0
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1265:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1266
-.LBB4_1271:
-	xor	esi, esi
-.LBB4_1272:
-	test	r9b, 1
-	je	.LBB4_1274
-# %bb.1273:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqd	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm4
-	movd	dword ptr [r8 + rsi], xmm0
-	movd	dword ptr [r8 + rsi + 4], xmm1
-.LBB4_1274:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1275
-.LBB4_1279:
-	xor	esi, esi
-.LBB4_1280:
-	test	r9b, 1
-	je	.LBB4_1282
-# %bb.1281:
-	movupd	xmm3, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	xorpd	xmm2, xmm2
-	movapd	xmm0, xmm3
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movapd	xmm1, xmm4
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_0] # xmm5 = [-0.0E+0,-0.0E+0]
-	andpd	xmm3, xmm5
-	movapd	xmm6, xmmword ptr [rip + .LCPI4_1] # xmm6 = [1.0E+0,1.0E+0]
-	orpd	xmm3, xmm6
-	andpd	xmm4, xmm5
-	orpd	xmm4, xmm6
-	cvttpd2dq	xmm3, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_7] # xmm5 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm3, xmm5
-	cvttpd2dq	xmm4, xmm4
-	pshufb	xmm4, xmm5
-	pblendvb	xmm3, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm2, xmm0
-	pextrw	word ptr [r8 + rsi], xmm3, 0
-	pextrw	word ptr [r8 + rsi + 2], xmm4, 0
-.LBB4_1282:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1283
-.LBB4_1288:
-	xor	eax, eax
-.LBB4_1289:
-	test	r9b, 1
-	je	.LBB4_1291
-# %bb.1290:
-	movdqu	xmm1, xmmword ptr [rcx + rax]
-	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_22] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqb	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqb	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	pblendvb	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm3, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm2
-	movdqu	xmmword ptr [r8 + rax + 16], xmm4
-.LBB4_1291:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1292
-.LBB4_1297:
-	xor	esi, esi
-.LBB4_1298:
-	test	r9b, 1
-	je	.LBB4_1300
-# %bb.1299:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqq	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pextrw	word ptr [r8 + rsi], xmm0, 0
-	pand	xmm1, xmm4
-	pextrw	word ptr [r8 + rsi + 2], xmm1, 0
-.LBB4_1300:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1301
-.LBB4_1305:
-	xor	esi, esi
-.LBB4_1306:
-	test	r9b, 1
-	je	.LBB4_1308
-# %bb.1307:
-	movdqu	xmm0, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 2*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm4
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [r8 + rsi], xmm0
-.LBB4_1308:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1309
-.LBB4_1313:
-	xor	eax, eax
-.LBB4_1314:
-	test	r9b, 1
-	je	.LBB4_1316
-# %bb.1315:
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
-	movdqu	xmm3, xmmword ptr [rcx + 2*rax + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packsswb	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packsswb	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + rax], xmm2
-.LBB4_1316:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1317
-.LBB4_1322:
-	xor	eax, eax
-.LBB4_1323:
-	test	r9b, 1
-	je	.LBB4_1325
-# %bb.1324:
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rax + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtq	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqq	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pcmpeqq	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	pextrw	word ptr [r8 + rax], xmm2, 0
-	pextrw	word ptr [r8 + rax + 2], xmm3, 0
-.LBB4_1325:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1326
-.LBB4_1331:
-	xor	esi, esi
-.LBB4_1332:
-	test	r9b, 1
-	je	.LBB4_1334
-# %bb.1333:
-	movups	xmm0, xmmword ptr [rcx + 4*rsi]
-	movups	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	xorps	xmm4, xmm4
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pcmpeqd	xmm5, xmm5
-	pcmpgtd	xmm0, xmm5
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pcmpgtd	xmm1, xmm5
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_12] # xmm6 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	movd	dword ptr [r8 + rsi], xmm7
-	movd	dword ptr [r8 + rsi + 4], xmm5
-.LBB4_1334:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1335
-.LBB4_1340:
-	xor	esi, esi
-.LBB4_1341:
-	test	r9b, 1
-	je	.LBB4_1343
-# %bb.1342:
-	movdqu	xmm0, xmmword ptr [rcx + rsi]
-	movdqu	xmm1, xmmword ptr [rcx + rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_22] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqb	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + rsi], xmm0
-	movdqu	xmmword ptr [r8 + rsi + 16], xmm1
-.LBB4_1343:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1344
-.LBB4_1348:
-	xor	eax, eax
-.LBB4_1349:
-	test	r9b, 1
-	je	.LBB4_1351
-# %bb.1350:
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rax + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movd	dword ptr [r8 + rax], xmm2
-	movd	dword ptr [r8 + rax + 4], xmm3
-.LBB4_1351:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1352
-.LBB4_1357:
-	xor	esi, esi
-.LBB4_1358:
-	test	r9b, 1
-	je	.LBB4_1360
-# %bb.1359:
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm2, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm3, eax
-	xorpd	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbq	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbq	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbq	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbq	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	blendvpd	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
-.LBB4_1360:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1361
-.LBB4_1366:
-	xor	esi, esi
-.LBB4_1367:
-	test	r9b, 1
-	je	.LBB4_1369
-# %bb.1368:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_15] # xmm3 = [1,1]
-	pandn	xmm0, xmm3
-	pcmpeqq	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1369:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1370
-.LBB4_1374:
-	xor	esi, esi
-.LBB4_1375:
-	test	r9b, 1
-	je	.LBB4_1377
-# %bb.1376:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqq	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqq	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	blendvpd	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm4, xmm3, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm4
-.LBB4_1377:
-	cmp	rdx, r11
-	je	.LBB4_1655
-	jmp	.LBB4_1378
-.LBB4_1383:
-	xor	esi, esi
-.LBB4_1384:
-	test	r9b, 1
-	je	.LBB4_1386
-# %bb.1385:
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm0, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm1, eax
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	pand	xmm0, xmm4
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,zero,zero,zero,zero,xmm1[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1386:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1387
-.LBB4_1391:
-	xor	esi, esi
-.LBB4_1392:
-	test	r9b, 1
-	je	.LBB4_1394
-# %bb.1393:
-	movq	xmm2, qword ptr [rcx + rsi]     # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbw	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbw	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbw	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbw	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-.LBB4_1394:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1395
-.LBB4_1400:
-	xor	esi, esi
-.LBB4_1401:
-	test	r9b, 1
-	je	.LBB4_1403
-# %bb.1402:
-	movq	xmm2, qword ptr [rcx + rsi]     # xmm2 = mem[0],zero
-	movq	xmm3, qword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbw	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbw	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbw	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbw	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
-.LBB4_1403:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1404
-.LBB4_1409:
-	xor	esi, esi
-.LBB4_1410:
-	test	r9b, 1
-	je	.LBB4_1412
-# %bb.1411:
-	movdqu	xmm0, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 2*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_20] # xmm3 = [1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqw	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm1
-.LBB4_1412:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1413
-.LBB4_1417:
-	xor	esi, esi
-.LBB4_1418:
-	test	r9b, 1
-	je	.LBB4_1420
-# %bb.1419:
-	movdqu	xmm0, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 2*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_20] # xmm3 = [1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqw	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm1
-.LBB4_1420:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1421
-.LBB4_1425:
-	xor	esi, esi
-.LBB4_1426:
-	test	r9b, 1
-	je	.LBB4_1428
-# %bb.1427:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rsi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqw	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqw	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	pblendvb	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm3, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
-.LBB4_1428:
-	cmp	rdx, r11
-	je	.LBB4_1655
-	jmp	.LBB4_1429
-.LBB4_1434:
-	xor	esi, esi
-.LBB4_1435:
-	test	r9b, 1
-	je	.LBB4_1437
-# %bb.1436:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rsi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtw	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqw	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqw	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	pblendvb	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm3, xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
-.LBB4_1437:
-	cmp	rdx, r11
-	je	.LBB4_1655
-	jmp	.LBB4_1438
-.LBB4_1443:
-	xor	esi, esi
-.LBB4_1444:
-	test	r9b, 1
-	je	.LBB4_1446
-# %bb.1445:
-	movq	xmm0, qword ptr [rcx + rsi]     # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbw	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-	pand	xmm0, xmm4
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbw	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm1
-.LBB4_1446:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1447
-.LBB4_1451:
-	xor	esi, esi
-.LBB4_1452:
-	test	r9b, 1
-	je	.LBB4_1454
-# %bb.1453:
-	movq	xmm0, qword ptr [rcx + rsi]     # xmm0 = mem[0],zero
-	movq	xmm1, qword ptr [rcx + rsi + 8] # xmm1 = mem[0],zero
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbw	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
-	pand	xmm0, xmm4
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbw	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm1
-.LBB4_1454:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1455
-.LBB4_1459:
-	xor	esi, esi
-.LBB4_1460:
-	test	r9b, 1
-	je	.LBB4_1462
-# %bb.1461:
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm2, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm3, eax
-	xorpd	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbq	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbq	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbq	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbq	xmm3, xmm3
-	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	blendvpd	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm4, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
-.LBB4_1462:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1463
-.LBB4_1468:
-	xor	esi, esi
-.LBB4_1469:
-	test	r9b, 1
-	je	.LBB4_1471
-# %bb.1470:
-	movd	xmm2, dword ptr [rcx + rsi]     # xmm2 = mem[0],zero,zero,zero
-	movd	xmm3, dword ptr [rcx + rsi + 4] # xmm3 = mem[0],zero,zero,zero
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbd	xmm2, xmm2
-	cvtdq2ps	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbd	xmm3, xmm3
-	cvtdq2ps	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1471:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1472
-.LBB4_1490:
-	xor	esi, esi
-.LBB4_1491:
-	test	r9b, 1
-	je	.LBB4_1493
-# %bb.1492:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_15] # xmm3 = [1,1]
-	pandn	xmm0, xmm3
-	pcmpeqq	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1493:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1494
-.LBB4_1498:
-	xor	esi, esi
-.LBB4_1499:
-	test	r9b, 1
-	je	.LBB4_1501
-# %bb.1500:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqq	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqq	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtq	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	blendvpd	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm4, xmm3, xmm0
-	movupd	xmmword ptr [r8 + 8*rsi], xmm2
-	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm4
-.LBB4_1501:
-	cmp	rdx, r11
-	je	.LBB4_1655
-	jmp	.LBB4_1502
-.LBB4_1507:
-	xor	esi, esi
-.LBB4_1508:
-	test	r9b, 1
-	je	.LBB4_1510
-# %bb.1509:
-	movzx	eax, word ptr [rcx + rsi]
-	movd	xmm0, eax
-	movzx	eax, word ptr [rcx + rsi + 2]
-	movd	xmm1, eax
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
-	pand	xmm0, xmm4
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,zero,zero,zero,zero,xmm1[1],zero,zero,zero,zero,zero,zero,zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
-.LBB4_1510:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1511
-.LBB4_1515:
-	xor	esi, esi
-.LBB4_1516:
-	test	r9b, 1
-	je	.LBB4_1518
-# %bb.1517:
-	movd	xmm0, dword ptr [rcx + rsi]     # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rcx + rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	pand	xmm0, xmm4
-	cvtdq2ps	xmm0, xmm0
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
-	pand	xmm1, xmm4
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [r8 + 4*rsi], xmm0
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1518:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1519
-.LBB4_1535:
-	xor	esi, esi
-.LBB4_1536:
-	test	r9b, 1
-	je	.LBB4_1538
-# %bb.1537:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqd	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm4
-	movd	dword ptr [r8 + rsi], xmm0
-	movd	dword ptr [r8 + rsi + 4], xmm1
-.LBB4_1538:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1539
-.LBB4_1543:
-	xor	esi, esi
-.LBB4_1544:
-	test	r9b, 1
-	je	.LBB4_1546
-# %bb.1545:
-	movupd	xmm3, xmmword ptr [rcx + 8*rsi]
-	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 16]
-	xorpd	xmm2, xmm2
-	movapd	xmm0, xmm3
-	cmpeqpd	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movapd	xmm1, xmm4
-	cmpeqpd	xmm1, xmm2
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movapd	xmm5, xmmword ptr [rip + .LCPI4_0] # xmm5 = [-0.0E+0,-0.0E+0]
-	andpd	xmm3, xmm5
-	movapd	xmm6, xmmword ptr [rip + .LCPI4_1] # xmm6 = [1.0E+0,1.0E+0]
-	orpd	xmm3, xmm6
-	andpd	xmm4, xmm5
-	orpd	xmm4, xmm6
-	cvttpd2dq	xmm3, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_7] # xmm5 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm3, xmm5
-	cvttpd2dq	xmm4, xmm4
-	pshufb	xmm4, xmm5
-	pblendvb	xmm3, xmm2, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm2, xmm0
-	pextrw	word ptr [r8 + rsi], xmm3, 0
-	pextrw	word ptr [r8 + rsi + 2], xmm4, 0
-.LBB4_1546:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1547
-.LBB4_1552:
-	xor	eax, eax
-.LBB4_1553:
-	test	r9b, 1
-	je	.LBB4_1555
-# %bb.1554:
-	movdqu	xmm1, xmmword ptr [rcx + rax]
-	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_22] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtb	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqb	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqb	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	pblendvb	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm3, xmm0
-	movdqu	xmmword ptr [r8 + rax], xmm2
-	movdqu	xmmword ptr [r8 + rax + 16], xmm4
-.LBB4_1555:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1556
-.LBB4_1561:
-	xor	esi, esi
-.LBB4_1562:
-	test	r9b, 1
-	je	.LBB4_1564
-# %bb.1563:
-	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqq	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqq	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pextrw	word ptr [r8 + rsi], xmm0, 0
-	pand	xmm1, xmm4
-	pextrw	word ptr [r8 + rsi + 2], xmm1, 0
-.LBB4_1564:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1565
-.LBB4_1569:
-	xor	esi, esi
-.LBB4_1570:
-	test	r9b, 1
-	je	.LBB4_1572
-# %bb.1571:
-	movdqu	xmm0, xmmword ptr [rcx + 2*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 2*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqw	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	pand	xmm0, xmm4
-	pcmpeqw	xmm1, xmm2
-	pxor	xmm1, xmm3
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm4
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [r8 + rsi], xmm0
-.LBB4_1572:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1573
-.LBB4_1577:
-	xor	eax, eax
-.LBB4_1578:
-	test	r9b, 1
-	je	.LBB4_1580
-# %bb.1579:
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
-	movdqu	xmm3, xmmword ptr [rcx + 2*rax + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtw	xmm0, xmm4
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtw	xmm1, xmm4
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packsswb	xmm2, xmm2
-	pcmpeqw	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packsswb	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqu	xmmword ptr [r8 + rax], xmm2
-.LBB4_1580:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1581
-.LBB4_1586:
-	xor	eax, eax
-.LBB4_1587:
-	test	r9b, 1
-	je	.LBB4_1589
-# %bb.1588:
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	movdqu	xmm3, xmmword ptr [rcx + 8*rax + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtq	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqq	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pcmpeqq	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	pextrw	word ptr [r8 + rax], xmm2, 0
-	pextrw	word ptr [r8 + rax + 2], xmm3, 0
-.LBB4_1589:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1590
-.LBB4_1595:
-	xor	esi, esi
-.LBB4_1596:
-	test	r9b, 1
-	je	.LBB4_1598
-# %bb.1597:
-	movups	xmm0, xmmword ptr [rcx + 4*rsi]
-	movups	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	xorps	xmm4, xmm4
-	movaps	xmm2, xmm0
-	cmpeqps	xmm2, xmm4
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movaps	xmm3, xmm1
-	cmpeqps	xmm3, xmm4
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pcmpeqd	xmm5, xmm5
-	pcmpgtd	xmm0, xmm5
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pcmpgtd	xmm1, xmm5
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_12] # xmm6 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	pcmpeqd	xmm7, xmm7
-	pblendvb	xmm7, xmm6, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm6, xmm0
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm5, xmm4, xmm0
-	movd	dword ptr [r8 + rsi], xmm7
-	movd	dword ptr [r8 + rsi + 4], xmm5
-.LBB4_1598:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1599
-.LBB4_1604:
-	xor	esi, esi
-.LBB4_1605:
-	test	r9b, 1
-	je	.LBB4_1607
-# %bb.1606:
-	movdqu	xmm0, xmmword ptr [rcx + rsi]
-	movdqu	xmm1, xmmword ptr [rcx + rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_22] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqb	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + rsi], xmm0
-	movdqu	xmmword ptr [r8 + rsi + 16], xmm1
-.LBB4_1607:
-	cmp	rdx, rax
-	je	.LBB4_1655
-	jmp	.LBB4_1608
-.LBB4_1612:
-	xor	eax, eax
-.LBB4_1613:
-	test	r9b, 1
-	je	.LBB4_1615
-# %bb.1614:
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	movdqu	xmm3, xmmword ptr [rcx + 4*rax + 16]
-	pxor	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtd	xmm0, xmm4
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtd	xmm1, xmm4
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pcmpeqd	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pcmpeqd	xmm3, xmm4
-	pxor	xmm3, xmm5
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm3, xmm4, xmm0
-	movd	dword ptr [r8 + rax], xmm2
-	movd	dword ptr [r8 + rax + 4], xmm3
-.LBB4_1615:
-	cmp	rsi, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1616
-.LBB4_1621:
-	xor	esi, esi
-.LBB4_1622:
-	test	r9b, 1
-	je	.LBB4_1624
-# %bb.1623:
-	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm2, xmm2
-	pcmpeqd	xmm0, xmm2
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_8] # xmm3 = [1,1,1,1]
-	pandn	xmm0, xmm3
-	pcmpeqd	xmm1, xmm2
-	pandn	xmm1, xmm3
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1624:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1625
-.LBB4_1629:
-	xor	esi, esi
-.LBB4_1630:
-	test	r9b, 1
-	je	.LBB4_1632
-# %bb.1631:
-	movd	xmm2, dword ptr [rcx + rsi]     # xmm2 = mem[0],zero,zero,zero
-	movd	xmm3, dword ptr [rcx + rsi + 4] # xmm3 = mem[0],zero,zero,zero
-	xorps	xmm4, xmm4
-	movdqa	xmm0, xmm2
-	pcmpgtb	xmm0, xmm4
-	pmovsxbd	xmm0, xmm0
-	movdqa	xmm1, xmm3
-	pcmpgtb	xmm1, xmm4
-	pmovsxbd	xmm1, xmm1
-	pcmpeqb	xmm2, xmm4
-	pcmpeqd	xmm5, xmm5
-	pxor	xmm2, xmm5
-	pmovsxbd	xmm2, xmm2
-	pcmpeqb	xmm3, xmm4
-	pxor	xmm3, xmm5
-	pmovsxbd	xmm3, xmm3
-	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	blendvps	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
-.LBB4_1632:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1633
-.LBB4_1638:
-	xor	esi, esi
-.LBB4_1639:
-	test	r9b, 1
-	je	.LBB4_1641
-# %bb.1640:
-	movd	xmm0, dword ptr [rcx + rsi]     # xmm0 = mem[0],zero,zero,zero
-	movd	xmm1, dword ptr [rcx + rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	pxor	xmm2, xmm2
-	pcmpeqb	xmm0, xmm2
-	pcmpeqd	xmm3, xmm3
-	pxor	xmm0, xmm3
-	pmovzxbd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	pand	xmm0, xmm4
-	pcmpeqb	xmm1, xmm2
-	pxor	xmm1, xmm3
-	pmovzxbd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
-	pand	xmm1, xmm4
-	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
-.LBB4_1641:
-	cmp	rdx, r10
-	je	.LBB4_1655
-	jmp	.LBB4_1642
-.LBB4_1646:
-	xor	esi, esi
-.LBB4_1647:
-	test	r9b, 1
-	je	.LBB4_1649
-# %bb.1648:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rsi]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 16]
-	pxor	xmm3, xmm3
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
-	movdqa	xmm0, xmm4
-	pcmpgtd	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	pcmpeqd	xmm5, xmm3
-	pcmpeqd	xmm1, xmm1
-	pxor	xmm5, xmm1
-	pcmpeqd	xmm3, xmm2
-	pxor	xmm3, xmm1
-	movdqa	xmm1, xmm4
-	pcmpgtd	xmm1, xmm2
-	movdqa	xmm2, xmm4
-	blendvps	xmm2, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	blendvps	xmm4, xmm3, xmm0
-	movups	xmmword ptr [r8 + 4*rsi], xmm2
-	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
-.LBB4_1649:
-	cmp	rdx, r11
-	je	.LBB4_1655
-	jmp	.LBB4_1650
-.Lfunc_end4:
-	.size	arithmetic_unary_diff_type_sse4, .Lfunc_end4-arithmetic_unary_diff_type_sse4
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc b/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc
deleted file mode 100644
index 1e8c821ea5ec4..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc
+++ /dev/null
@@ -1,104 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdint.h>
-#include "types.h"
-
-template <typename I, typename O>
-static inline void FULL_NAME(cast_tmpl_numeric)(const I* in, O* out, const int len) {
-    for (int i = 0; i < len; ++i) {
-        out[i] = static_cast<O>(in[i]);
-    }
-}
-
-template <typename I>
-static inline void FULL_NAME(cast_type_numeric_impl)(const arrtype otype, const I* in, void* out, const int len) {
-    switch (otype) {
-    case arrtype::UINT8:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<uint8_t*>(out), len);
-        break;
-    case arrtype::INT8:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<int8_t*>(out), len);
-        break;
-    case arrtype::UINT16:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<uint16_t*>(out), len);
-        break;
-    case arrtype::INT16:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<int16_t*>(out), len);
-        break;
-    case arrtype::UINT32:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<uint32_t*>(out), len);
-        break;
-    case arrtype::INT32:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<int32_t*>(out), len);
-        break;
-    case arrtype::UINT64:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<uint64_t*>(out), len);
-        break;
-    case arrtype::INT64:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<int64_t*>(out), len);
-        break;
-    case arrtype::FLOAT32:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<float*>(out), len);
-        break;
-    case arrtype::FLOAT64:
-        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<double*>(out), len);
-        break;
-    default:
-        break;
-    }
-}
-
-extern "C" void FULL_NAME(cast_type_numeric)(const int itype, const int otype, const void* input, void* output, const int len) {
-    const auto in = static_cast<arrtype>(itype);
-    const auto out = static_cast<arrtype>(otype);
-
-    switch (in) {    
-    case arrtype::UINT8:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const uint8_t*>(input), output, len);
-        break;
-    case arrtype::INT8:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const int8_t*>(input), output, len);
-        break;
-    case arrtype::UINT16:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const uint16_t*>(input), output, len);
-        break;    
-    case arrtype::INT16:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const int16_t*>(input), output, len);
-        break;    
-    case arrtype::UINT32:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const uint32_t*>(input), output, len);
-        break;
-    case arrtype::INT32:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const int32_t*>(input), output, len);
-        break;    
-    case arrtype::UINT64:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const uint64_t*>(input), output, len);
-        break;    
-    case arrtype::INT64:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const int64_t*>(input), output, len);
-        break;    
-    case arrtype::FLOAT32:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const float*>(input), output, len);
-        break;    
-    case arrtype::FLOAT64:
-        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const double*>(input), output, len);
-        break;    
-    default:
-        break;
-    }
-}
\ No newline at end of file
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/cast_numeric_avx2_amd64.s
deleted file mode 100644
index bed3562e2da7b..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/cast_numeric_avx2_amd64.s
+++ /dev/null
@@ -1,11337 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"cast_numeric.cc"
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function cast_type_numeric_avx2
-.LCPI0_0:
-	.quad	0x43e0000000000000              # double 9.2233720368547758E+18
-.LCPI0_5:
-	.quad	4841369599423283200             # 0x4330000000000000
-.LCPI0_6:
-	.quad	4985484787499139072             # 0x4530000000000000
-.LCPI0_7:
-	.quad	0x4530000000100000              # double 1.9342813118337666E+25
-.LCPI0_10:
-	.quad	1                               # 0x1
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2
-.LCPI0_1:
-	.long	0x5f000000                      # float 9.22337203E+18
-.LCPI0_2:
-	.long	0x4f000000                      # float 2.14748365E+9
-.LCPI0_3:
-	.long	2147483648                      # 0x80000000
-.LCPI0_13:
-	.long	1258291200                      # 0x4b000000
-.LCPI0_14:
-	.long	1392508928                      # 0x53000000
-.LCPI0_15:
-	.long	0x53000080                      # float 5.49764202E+11
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI0_4:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI0_8:
-	.long	1127219200                      # 0x43300000
-	.long	1160773632                      # 0x45300000
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_9:
-	.quad	0x4330000000000000              # double 4503599627370496
-	.quad	0x4530000000000000              # double 1.9342813113834067E+25
-.LCPI0_12:
-	.byte	0                               # 0x0
-	.byte	4                               # 0x4
-	.byte	8                               # 0x8
-	.byte	12                              # 0xc
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5
-.LCPI0_11:
-	.byte	0                               # 0x0
-	.byte	1                               # 0x1
-	.byte	4                               # 0x4
-	.byte	5                               # 0x5
-	.byte	8                               # 0x8
-	.byte	9                               # 0x9
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	8                               # 0x8
-	.byte	9                               # 0x9
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	14                              # 0xe
-	.byte	15                              # 0xf
-	.byte	16                              # 0x10
-	.byte	17                              # 0x11
-	.byte	20                              # 0x14
-	.byte	21                              # 0x15
-	.byte	24                              # 0x18
-	.byte	25                              # 0x19
-	.byte	28                              # 0x1c
-	.byte	29                              # 0x1d
-	.byte	24                              # 0x18
-	.byte	25                              # 0x19
-	.byte	28                              # 0x1c
-	.byte	29                              # 0x1d
-	.byte	28                              # 0x1c
-	.byte	29                              # 0x1d
-	.byte	30                              # 0x1e
-	.byte	31                              # 0x1f
-.LCPI0_16:
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.short	255                             # 0xff
-	.text
-	.globl	cast_type_numeric_avx2
-	.p2align	4, 0x90
-	.type	cast_type_numeric_avx2,@function
-cast_type_numeric_avx2:                 # @cast_type_numeric_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r14
-	push	rbx
-	and	rsp, -8
-	cmp	edi, 6
-	jg	.LBB0_13
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB0_25
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB0_45
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB0_53
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB0_1553
-# %bb.5:
-	cmp	esi, 6
-	jg	.LBB0_93
-# %bb.6:
-	cmp	esi, 3
-	jle	.LBB0_163
-# %bb.7:
-	cmp	esi, 4
-	je	.LBB0_263
-# %bb.8:
-	cmp	esi, 5
-	je	.LBB0_266
-# %bb.9:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.10:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.11:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_12
-# %bb.443:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_742
-# %bb.444:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_742
-.LBB0_12:
-	xor	esi, esi
-.LBB0_1189:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1191
-.LBB0_1190:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1190
-.LBB0_1191:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1192:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1192
-	jmp	.LBB0_1553
-.LBB0_13:
-	cmp	edi, 8
-	jle	.LBB0_35
-# %bb.14:
-	cmp	edi, 9
-	je	.LBB0_61
-# %bb.15:
-	cmp	edi, 11
-	je	.LBB0_69
-# %bb.16:
-	cmp	edi, 12
-	jne	.LBB0_1553
-# %bb.17:
-	cmp	esi, 6
-	jg	.LBB0_100
-# %bb.18:
-	cmp	esi, 3
-	jle	.LBB0_168
-# %bb.19:
-	cmp	esi, 4
-	je	.LBB0_269
-# %bb.20:
-	cmp	esi, 5
-	je	.LBB0_272
-# %bb.21:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.22:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.23:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	eax, esi
-	and	eax, 3
-	cmp	rdi, 3
-	jae	.LBB0_446
-# %bb.24:
-	xor	edi, edi
-	jmp	.LBB0_448
-.LBB0_25:
-	cmp	edi, 2
-	je	.LBB0_77
-# %bb.26:
-	cmp	edi, 3
-	jne	.LBB0_1553
-# %bb.27:
-	cmp	esi, 6
-	jg	.LBB0_107
-# %bb.28:
-	cmp	esi, 3
-	jle	.LBB0_173
-# %bb.29:
-	cmp	esi, 4
-	je	.LBB0_275
-# %bb.30:
-	cmp	esi, 5
-	je	.LBB0_278
-# %bb.31:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.32:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.33:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_34
-# %bb.451:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_745
-# %bb.452:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_745
-.LBB0_34:
-	xor	esi, esi
-.LBB0_1197:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1199
-.LBB0_1198:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1198
-.LBB0_1199:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1200:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1200
-	jmp	.LBB0_1553
-.LBB0_35:
-	cmp	edi, 7
-	je	.LBB0_85
-# %bb.36:
-	cmp	edi, 8
-	jne	.LBB0_1553
-# %bb.37:
-	cmp	esi, 6
-	jg	.LBB0_114
-# %bb.38:
-	cmp	esi, 3
-	jle	.LBB0_178
-# %bb.39:
-	cmp	esi, 4
-	je	.LBB0_281
-# %bb.40:
-	cmp	esi, 5
-	je	.LBB0_284
-# %bb.41:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.42:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.43:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_454
-# %bb.44:
-	xor	esi, esi
-	jmp	.LBB0_918
-.LBB0_45:
-	cmp	esi, 6
-	jg	.LBB0_121
-# %bb.46:
-	cmp	esi, 3
-	jle	.LBB0_183
-# %bb.47:
-	cmp	esi, 4
-	je	.LBB0_287
-# %bb.48:
-	cmp	esi, 5
-	je	.LBB0_290
-# %bb.49:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.50:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.51:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_457
-# %bb.52:
-	xor	esi, esi
-	jmp	.LBB0_1024
-.LBB0_53:
-	cmp	esi, 6
-	jg	.LBB0_128
-# %bb.54:
-	cmp	esi, 3
-	jle	.LBB0_188
-# %bb.55:
-	cmp	esi, 4
-	je	.LBB0_293
-# %bb.56:
-	cmp	esi, 5
-	je	.LBB0_296
-# %bb.57:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.58:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.59:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_460
-# %bb.60:
-	xor	esi, esi
-	jmp	.LBB0_1029
-.LBB0_61:
-	cmp	esi, 6
-	jg	.LBB0_135
-# %bb.62:
-	cmp	esi, 3
-	jle	.LBB0_193
-# %bb.63:
-	cmp	esi, 4
-	je	.LBB0_299
-# %bb.64:
-	cmp	esi, 5
-	je	.LBB0_302
-# %bb.65:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.66:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.67:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_463
-# %bb.68:
-	xor	esi, esi
-	jmp	.LBB0_1034
-.LBB0_69:
-	cmp	esi, 6
-	jg	.LBB0_142
-# %bb.70:
-	cmp	esi, 3
-	jle	.LBB0_198
-# %bb.71:
-	cmp	esi, 4
-	je	.LBB0_305
-# %bb.72:
-	cmp	esi, 5
-	je	.LBB0_308
-# %bb.73:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.74:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.75:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_466
-# %bb.76:
-	xor	esi, esi
-	jmp	.LBB0_1039
-.LBB0_77:
-	cmp	esi, 6
-	jg	.LBB0_149
-# %bb.78:
-	cmp	esi, 3
-	jle	.LBB0_203
-# %bb.79:
-	cmp	esi, 4
-	je	.LBB0_311
-# %bb.80:
-	cmp	esi, 5
-	je	.LBB0_314
-# %bb.81:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.82:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.83:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_84
-# %bb.469:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_748
-# %bb.470:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_748
-.LBB0_84:
-	xor	esi, esi
-.LBB0_1205:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1207
-.LBB0_1206:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1206
-.LBB0_1207:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1208:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1208
-	jmp	.LBB0_1553
-.LBB0_85:
-	cmp	esi, 6
-	jg	.LBB0_156
-# %bb.86:
-	cmp	esi, 3
-	jle	.LBB0_208
-# %bb.87:
-	cmp	esi, 4
-	je	.LBB0_317
-# %bb.88:
-	cmp	esi, 5
-	je	.LBB0_320
-# %bb.89:
-	cmp	esi, 6
-	jne	.LBB0_1553
-# %bb.90:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.91:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_92
-# %bb.472:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_751
-# %bb.473:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_751
-.LBB0_92:
-	xor	esi, esi
-.LBB0_1213:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1215
-.LBB0_1214:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1214
-.LBB0_1215:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1216:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1216
-	jmp	.LBB0_1553
-.LBB0_93:
-	cmp	esi, 8
-	jle	.LBB0_213
-# %bb.94:
-	cmp	esi, 9
-	je	.LBB0_323
-# %bb.95:
-	cmp	esi, 11
-	je	.LBB0_326
-# %bb.96:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.97:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.98:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_475
-# %bb.99:
-	xor	esi, esi
-	jmp	.LBB0_1044
-.LBB0_100:
-	cmp	esi, 8
-	jle	.LBB0_218
-# %bb.101:
-	cmp	esi, 9
-	je	.LBB0_329
-# %bb.102:
-	cmp	esi, 11
-	je	.LBB0_332
-# %bb.103:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.104:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.105:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_106
-# %bb.478:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_754
-# %bb.479:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_754
-.LBB0_106:
-	xor	esi, esi
-.LBB0_1221:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 7
-	je	.LBB0_1223
-.LBB0_1222:                             # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rbx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1222
-.LBB0_1223:
-	cmp	rax, 7
-	jb	.LBB0_1553
-.LBB0_1224:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 32]
-	mov	qword ptr [rcx + 8*rsi + 32], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 40]
-	mov	qword ptr [rcx + 8*rsi + 40], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 48]
-	mov	qword ptr [rcx + 8*rsi + 48], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 56]
-	mov	qword ptr [rcx + 8*rsi + 56], rax
-	add	rsi, 8
-	cmp	r9, rsi
-	jne	.LBB0_1224
-	jmp	.LBB0_1553
-.LBB0_107:
-	cmp	esi, 8
-	jle	.LBB0_223
-# %bb.108:
-	cmp	esi, 9
-	je	.LBB0_335
-# %bb.109:
-	cmp	esi, 11
-	je	.LBB0_338
-# %bb.110:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.111:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.112:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_113
-# %bb.481:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_757
-# %bb.482:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_757
-.LBB0_113:
-	xor	esi, esi
-.LBB0_1229:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1231
-.LBB0_1230:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1230
-.LBB0_1231:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1232:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi + 8], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi + 16], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1232
-	jmp	.LBB0_1553
-.LBB0_114:
-	cmp	esi, 8
-	jle	.LBB0_228
-# %bb.115:
-	cmp	esi, 9
-	je	.LBB0_341
-# %bb.116:
-	cmp	esi, 11
-	je	.LBB0_344
-# %bb.117:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.118:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.119:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_484
-# %bb.120:
-	xor	esi, esi
-	jmp	.LBB0_923
-.LBB0_121:
-	cmp	esi, 8
-	jle	.LBB0_233
-# %bb.122:
-	cmp	esi, 9
-	je	.LBB0_347
-# %bb.123:
-	cmp	esi, 11
-	je	.LBB0_350
-# %bb.124:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.125:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.126:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_487
-# %bb.127:
-	xor	esi, esi
-	jmp	.LBB0_1049
-.LBB0_128:
-	cmp	esi, 8
-	jle	.LBB0_238
-# %bb.129:
-	cmp	esi, 9
-	je	.LBB0_353
-# %bb.130:
-	cmp	esi, 11
-	je	.LBB0_356
-# %bb.131:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.132:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.133:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_490
-# %bb.134:
-	xor	esi, esi
-	jmp	.LBB0_1054
-.LBB0_135:
-	cmp	esi, 8
-	jle	.LBB0_243
-# %bb.136:
-	cmp	esi, 9
-	je	.LBB0_359
-# %bb.137:
-	cmp	esi, 11
-	je	.LBB0_362
-# %bb.138:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.139:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.140:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_493
-# %bb.141:
-	xor	esi, esi
-	jmp	.LBB0_1059
-.LBB0_142:
-	cmp	esi, 8
-	jle	.LBB0_248
-# %bb.143:
-	cmp	esi, 9
-	je	.LBB0_365
-# %bb.144:
-	cmp	esi, 11
-	je	.LBB0_368
-# %bb.145:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.146:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.147:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_496
-# %bb.148:
-	xor	esi, esi
-	jmp	.LBB0_1064
-.LBB0_149:
-	cmp	esi, 8
-	jle	.LBB0_253
-# %bb.150:
-	cmp	esi, 9
-	je	.LBB0_371
-# %bb.151:
-	cmp	esi, 11
-	je	.LBB0_374
-# %bb.152:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.153:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.154:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_155
-# %bb.499:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_760
-# %bb.500:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_760
-.LBB0_155:
-	xor	esi, esi
-.LBB0_1237:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1239
-.LBB0_1238:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1238
-.LBB0_1239:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1240:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi + 8], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi + 16], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1240
-	jmp	.LBB0_1553
-.LBB0_156:
-	cmp	esi, 8
-	jle	.LBB0_258
-# %bb.157:
-	cmp	esi, 9
-	je	.LBB0_377
-# %bb.158:
-	cmp	esi, 11
-	je	.LBB0_380
-# %bb.159:
-	cmp	esi, 12
-	jne	.LBB0_1553
-# %bb.160:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.161:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_502
-# %bb.162:
-	xor	esi, esi
-	jmp	.LBB0_929
-.LBB0_163:
-	cmp	esi, 2
-	je	.LBB0_383
-# %bb.164:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.165:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.166:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_167
-# %bb.505:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_763
-# %bb.506:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_763
-.LBB0_167:
-	xor	esi, esi
-.LBB0_1245:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1247
-.LBB0_1246:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1246
-.LBB0_1247:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1248:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1248
-	jmp	.LBB0_1553
-.LBB0_168:
-	cmp	esi, 2
-	je	.LBB0_386
-# %bb.169:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.170:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.171:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_172
-# %bb.508:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_766
-# %bb.509:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_766
-.LBB0_172:
-	xor	esi, esi
-.LBB0_1253:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1255
-.LBB0_1254:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	ebx, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], bl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1254
-.LBB0_1255:
-	cmp	rax, 3
-	jb	.LBB0_1553
-.LBB0_1256:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1256
-	jmp	.LBB0_1553
-.LBB0_173:
-	cmp	esi, 2
-	je	.LBB0_389
-# %bb.174:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.175:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.176:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB0_177
-# %bb.511:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_769
-# %bb.512:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_769
-.LBB0_177:
-	xor	esi, esi
-.LBB0_1261:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1263
-.LBB0_1262:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1262
-.LBB0_1263:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1264:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1264
-	jmp	.LBB0_1553
-.LBB0_178:
-	cmp	esi, 2
-	je	.LBB0_392
-# %bb.179:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.180:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.181:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_182
-# %bb.514:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_772
-# %bb.515:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_772
-.LBB0_182:
-	xor	esi, esi
-.LBB0_1269:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1271
-.LBB0_1270:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1270
-.LBB0_1271:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1272:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1272
-	jmp	.LBB0_1553
-.LBB0_183:
-	cmp	esi, 2
-	je	.LBB0_395
-# %bb.184:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.185:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.186:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_187
-# %bb.517:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_775
-# %bb.518:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_775
-.LBB0_187:
-	xor	esi, esi
-.LBB0_1277:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1279
-.LBB0_1278:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1278
-.LBB0_1279:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1280:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1280
-	jmp	.LBB0_1553
-.LBB0_188:
-	cmp	esi, 2
-	je	.LBB0_398
-# %bb.189:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.190:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.191:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_192
-# %bb.520:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_778
-# %bb.521:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_778
-.LBB0_192:
-	xor	esi, esi
-.LBB0_1285:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1287
-.LBB0_1286:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1286
-.LBB0_1287:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1288:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1288
-	jmp	.LBB0_1553
-.LBB0_193:
-	cmp	esi, 2
-	je	.LBB0_401
-# %bb.194:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.195:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.196:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_197
-# %bb.523:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_781
-# %bb.524:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_781
-.LBB0_197:
-	xor	esi, esi
-.LBB0_1293:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1295
-.LBB0_1294:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1294
-.LBB0_1295:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1296:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1296
-	jmp	.LBB0_1553
-.LBB0_198:
-	cmp	esi, 2
-	je	.LBB0_404
-# %bb.199:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.200:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.201:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_202
-# %bb.526:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_784
-# %bb.527:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_784
-.LBB0_202:
-	xor	esi, esi
-.LBB0_1301:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1303
-.LBB0_1302:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1302
-.LBB0_1303:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1304:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1304
-	jmp	.LBB0_1553
-.LBB0_203:
-	cmp	esi, 2
-	je	.LBB0_407
-# %bb.204:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.205:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.206:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB0_207
-# %bb.529:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_787
-# %bb.530:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_787
-.LBB0_207:
-	xor	esi, esi
-.LBB0_1309:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1311
-.LBB0_1310:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1310
-.LBB0_1311:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1312:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1312
-	jmp	.LBB0_1553
-.LBB0_208:
-	cmp	esi, 2
-	je	.LBB0_410
-# %bb.209:
-	cmp	esi, 3
-	jne	.LBB0_1553
-# %bb.210:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.211:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_212
-# %bb.532:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_790
-# %bb.533:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_790
-.LBB0_212:
-	xor	esi, esi
-.LBB0_1317:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1319
-.LBB0_1318:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1318
-.LBB0_1319:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1320:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1320
-	jmp	.LBB0_1553
-.LBB0_213:
-	cmp	esi, 7
-	je	.LBB0_413
-# %bb.214:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.215:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.216:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_535
-# %bb.217:
-	xor	esi, esi
-	jmp	.LBB0_934
-.LBB0_218:
-	cmp	esi, 7
-	je	.LBB0_416
-# %bb.219:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.220:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.221:
-	mov	r9d, r8d
-	movabs	r11, -9223372036854775808
-	cmp	r8d, 4
-	jae	.LBB0_538
-# %bb.222:
-	xor	r14d, r14d
-	jmp	.LBB0_799
-.LBB0_223:
-	cmp	esi, 7
-	je	.LBB0_419
-# %bb.224:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.225:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.226:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_227
-# %bb.540:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_801
-# %bb.541:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_801
-.LBB0_227:
-	xor	esi, esi
-.LBB0_1325:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1327
-.LBB0_1326:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1326
-.LBB0_1327:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1328:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movsx	rax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movsx	rax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movsx	rax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1328
-	jmp	.LBB0_1553
-.LBB0_228:
-	cmp	esi, 7
-	je	.LBB0_422
-# %bb.229:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.230:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.231:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_232
-# %bb.543:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_804
-# %bb.544:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_804
-.LBB0_232:
-	xor	esi, esi
-.LBB0_1333:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1335
-.LBB0_1334:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1334
-.LBB0_1335:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1336:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1336
-	jmp	.LBB0_1553
-.LBB0_233:
-	cmp	esi, 7
-	je	.LBB0_425
-# %bb.234:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.235:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.236:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_546
-# %bb.237:
-	xor	esi, esi
-	jmp	.LBB0_939
-.LBB0_238:
-	cmp	esi, 7
-	je	.LBB0_428
-# %bb.239:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.240:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.241:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_549
-# %bb.242:
-	xor	esi, esi
-	jmp	.LBB0_944
-.LBB0_243:
-	cmp	esi, 7
-	je	.LBB0_431
-# %bb.244:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.245:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.246:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_247
-# %bb.552:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_807
-# %bb.553:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_807
-.LBB0_247:
-	xor	esi, esi
-.LBB0_1341:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1343
-.LBB0_1342:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1342
-.LBB0_1343:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1344:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1344
-	jmp	.LBB0_1553
-.LBB0_248:
-	cmp	esi, 7
-	je	.LBB0_434
-# %bb.249:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.250:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.251:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_555
-# %bb.252:
-	xor	r14d, r14d
-	jmp	.LBB0_816
-.LBB0_253:
-	cmp	esi, 7
-	je	.LBB0_437
-# %bb.254:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.255:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.256:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_257
-# %bb.557:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_818
-# %bb.558:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_818
-.LBB0_257:
-	xor	esi, esi
-.LBB0_1349:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1351
-.LBB0_1350:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1350
-.LBB0_1351:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1352:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1352
-	jmp	.LBB0_1553
-.LBB0_258:
-	cmp	esi, 7
-	je	.LBB0_440
-# %bb.259:
-	cmp	esi, 8
-	jne	.LBB0_1553
-# %bb.260:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.261:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_560
-# %bb.262:
-	xor	esi, esi
-	jmp	.LBB0_949
-.LBB0_263:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.264:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_563
-# %bb.265:
-	xor	esi, esi
-	jmp	.LBB0_1069
-.LBB0_266:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.267:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_566
-# %bb.268:
-	xor	esi, esi
-	jmp	.LBB0_1074
-.LBB0_269:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.270:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_569
-# %bb.271:
-	xor	esi, esi
-	jmp	.LBB0_1079
-.LBB0_272:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.273:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_572
-# %bb.274:
-	xor	esi, esi
-	jmp	.LBB0_1084
-.LBB0_275:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.276:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_277
-# %bb.575:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_821
-# %bb.576:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_821
-.LBB0_277:
-	xor	esi, esi
-.LBB0_1357:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1359
-.LBB0_1358:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1358
-.LBB0_1359:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1360:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1360
-	jmp	.LBB0_1553
-.LBB0_278:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.279:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_280
-# %bb.578:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_824
-# %bb.579:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_824
-.LBB0_280:
-	xor	esi, esi
-.LBB0_1365:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1367
-.LBB0_1366:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1366
-.LBB0_1367:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1368:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1368
-	jmp	.LBB0_1553
-.LBB0_281:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.282:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_581
-# %bb.283:
-	xor	esi, esi
-	jmp	.LBB0_954
-.LBB0_284:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.285:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_584
-# %bb.286:
-	xor	esi, esi
-	jmp	.LBB0_959
-.LBB0_287:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.288:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_289
-# %bb.587:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_827
-# %bb.588:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_827
-.LBB0_289:
-	xor	esi, esi
-.LBB0_1151:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1153
-.LBB0_1152:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1152
-.LBB0_1153:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1154:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1154
-	jmp	.LBB0_1553
-.LBB0_290:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.291:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_292
-# %bb.590:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_829
-# %bb.591:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_829
-.LBB0_292:
-	xor	esi, esi
-.LBB0_1161:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1163
-.LBB0_1162:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1162
-.LBB0_1163:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1164:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1164
-	jmp	.LBB0_1553
-.LBB0_293:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.294:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_295
-# %bb.593:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_831
-# %bb.594:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_831
-.LBB0_295:
-	xor	esi, esi
-.LBB0_1171:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1173
-.LBB0_1172:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1172
-.LBB0_1173:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1174:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1174
-	jmp	.LBB0_1553
-.LBB0_296:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.297:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_298
-# %bb.596:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_833
-# %bb.597:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_833
-.LBB0_298:
-	xor	esi, esi
-.LBB0_1181:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1183
-.LBB0_1182:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1182
-.LBB0_1183:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1184:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1184
-	jmp	.LBB0_1553
-.LBB0_299:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.300:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_599
-# %bb.301:
-	xor	esi, esi
-	jmp	.LBB0_964
-.LBB0_302:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.303:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_602
-# %bb.304:
-	xor	esi, esi
-	jmp	.LBB0_1089
-.LBB0_305:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.306:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_605
-# %bb.307:
-	xor	esi, esi
-	jmp	.LBB0_1094
-.LBB0_308:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.309:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_608
-# %bb.310:
-	xor	esi, esi
-	jmp	.LBB0_1099
-.LBB0_311:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.312:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_313
-# %bb.611:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_835
-# %bb.612:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_835
-.LBB0_313:
-	xor	esi, esi
-.LBB0_1373:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1375
-.LBB0_1374:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1374
-.LBB0_1375:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1376:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1376
-	jmp	.LBB0_1553
-.LBB0_314:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.315:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_316
-# %bb.614:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_838
-# %bb.615:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_838
-.LBB0_316:
-	xor	esi, esi
-.LBB0_1381:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1383
-.LBB0_1382:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1382
-.LBB0_1383:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1384:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1384
-	jmp	.LBB0_1553
-.LBB0_317:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.318:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_617
-# %bb.319:
-	xor	esi, esi
-	jmp	.LBB0_969
-.LBB0_320:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.321:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_620
-# %bb.322:
-	xor	esi, esi
-	jmp	.LBB0_974
-.LBB0_323:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.324:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_623
-# %bb.325:
-	xor	esi, esi
-	jmp	.LBB0_1104
-.LBB0_326:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.327:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_626
-# %bb.328:
-	xor	esi, esi
-	jmp	.LBB0_1109
-.LBB0_329:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.330:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_629
-# %bb.331:
-	xor	esi, esi
-	jmp	.LBB0_1114
-.LBB0_332:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.333:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_632
-# %bb.334:
-	xor	esi, esi
-	jmp	.LBB0_1119
-.LBB0_335:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.336:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_337
-# %bb.635:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_841
-# %bb.636:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_841
-.LBB0_337:
-	xor	esi, esi
-.LBB0_1389:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1391
-.LBB0_1390:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1390
-.LBB0_1391:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1392:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movsx	rax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movsx	rax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movsx	rax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1392
-	jmp	.LBB0_1553
-.LBB0_338:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.339:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_340
-# %bb.638:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_844
-# %bb.639:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_844
-.LBB0_340:
-	xor	esi, esi
-.LBB0_1397:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1399
-.LBB0_1398:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1398
-.LBB0_1399:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1400:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi + 4], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi + 8], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1400
-	jmp	.LBB0_1553
-.LBB0_341:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.342:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_343
-# %bb.641:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_847
-# %bb.642:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_847
-.LBB0_343:
-	xor	esi, esi
-.LBB0_1405:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1407
-.LBB0_1406:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1406
-.LBB0_1407:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1408:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1408
-	jmp	.LBB0_1553
-.LBB0_344:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.345:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_644
-# %bb.346:
-	xor	esi, esi
-	jmp	.LBB0_858
-.LBB0_347:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.348:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_646
-# %bb.349:
-	xor	esi, esi
-	jmp	.LBB0_979
-.LBB0_350:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.351:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_649
-# %bb.352:
-	xor	esi, esi
-	jmp	.LBB0_1124
-.LBB0_353:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.354:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_652
-# %bb.355:
-	xor	esi, esi
-	jmp	.LBB0_1129
-.LBB0_356:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.357:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_655
-# %bb.358:
-	xor	esi, esi
-	jmp	.LBB0_1134
-.LBB0_359:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.360:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_361
-# %bb.658:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_860
-# %bb.659:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_860
-.LBB0_361:
-	xor	esi, esi
-.LBB0_1413:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1415
-.LBB0_1414:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1414
-.LBB0_1415:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1416:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1416
-	jmp	.LBB0_1553
-.LBB0_362:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.363:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_661
-# %bb.364:
-	xor	esi, esi
-	jmp	.LBB0_1139
-.LBB0_365:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.366:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_664
-# %bb.367:
-	xor	esi, esi
-	jmp	.LBB0_1144
-.LBB0_368:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.369:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_370
-# %bb.667:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_863
-# %bb.668:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_863
-.LBB0_370:
-	xor	esi, esi
-.LBB0_1421:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 7
-	je	.LBB0_1423
-.LBB0_1422:                             # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], ebx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1422
-.LBB0_1423:
-	cmp	rax, 7
-	jb	.LBB0_1553
-.LBB0_1424:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 16]
-	mov	dword ptr [rcx + 4*rsi + 16], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 20]
-	mov	dword ptr [rcx + 4*rsi + 20], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 24]
-	mov	dword ptr [rcx + 4*rsi + 24], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 28]
-	mov	dword ptr [rcx + 4*rsi + 28], eax
-	add	rsi, 8
-	cmp	r9, rsi
-	jne	.LBB0_1424
-	jmp	.LBB0_1553
-.LBB0_371:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.372:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_373
-# %bb.670:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_866
-# %bb.671:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_866
-.LBB0_373:
-	xor	esi, esi
-.LBB0_1429:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1431
-.LBB0_1430:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1430
-.LBB0_1431:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1432:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1432
-	jmp	.LBB0_1553
-.LBB0_374:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.375:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_376
-# %bb.673:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_869
-# %bb.674:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_869
-.LBB0_376:
-	xor	esi, esi
-.LBB0_1437:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1439
-.LBB0_1438:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1438
-.LBB0_1439:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1440:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi + 4], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi + 8], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1440
-	jmp	.LBB0_1553
-.LBB0_377:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.378:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_676
-# %bb.379:
-	xor	esi, esi
-	jmp	.LBB0_984
-.LBB0_380:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.381:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_679
-# %bb.382:
-	xor	esi, esi
-	jmp	.LBB0_989
-.LBB0_383:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.384:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_385
-# %bb.682:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_872
-# %bb.683:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_872
-.LBB0_385:
-	xor	esi, esi
-.LBB0_1445:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1447
-.LBB0_1446:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1446
-.LBB0_1447:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1448:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1448
-	jmp	.LBB0_1553
-.LBB0_386:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.387:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_388
-# %bb.685:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_875
-# %bb.686:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_875
-.LBB0_388:
-	xor	esi, esi
-.LBB0_1453:
-	mov	rax, rsi
-	not	rax
-	add	rax, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1455
-.LBB0_1454:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	ebx, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], bl
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1454
-.LBB0_1455:
-	cmp	rax, 3
-	jb	.LBB0_1553
-.LBB0_1456:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1456
-	jmp	.LBB0_1553
-.LBB0_389:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.390:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB0_391
-# %bb.688:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_878
-# %bb.689:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_878
-.LBB0_391:
-	xor	esi, esi
-.LBB0_1461:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1463
-.LBB0_1462:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1462
-.LBB0_1463:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1464:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1464
-	jmp	.LBB0_1553
-.LBB0_392:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.393:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_394
-# %bb.691:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_881
-# %bb.692:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_881
-.LBB0_394:
-	xor	esi, esi
-.LBB0_1469:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1471
-.LBB0_1470:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1470
-.LBB0_1471:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1472:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1472
-	jmp	.LBB0_1553
-.LBB0_395:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.396:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_397
-# %bb.694:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_884
-# %bb.695:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_884
-.LBB0_397:
-	xor	esi, esi
-.LBB0_1477:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1479
-.LBB0_1478:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1478
-.LBB0_1479:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1480:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1480
-	jmp	.LBB0_1553
-.LBB0_398:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.399:
-	mov	r9d, r8d
-	cmp	r8d, 64
-	jb	.LBB0_400
-# %bb.697:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_887
-# %bb.698:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_887
-.LBB0_400:
-	xor	esi, esi
-.LBB0_1485:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1487
-.LBB0_1486:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1486
-.LBB0_1487:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1488:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1488
-	jmp	.LBB0_1553
-.LBB0_401:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.402:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_403
-# %bb.700:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_890
-# %bb.701:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_890
-.LBB0_403:
-	xor	esi, esi
-.LBB0_1493:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1495
-.LBB0_1494:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1494
-.LBB0_1495:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1496:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1496
-	jmp	.LBB0_1553
-.LBB0_404:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.405:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_406
-# %bb.703:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_893
-# %bb.704:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_893
-.LBB0_406:
-	xor	esi, esi
-.LBB0_1501:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1503
-.LBB0_1502:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1502
-.LBB0_1503:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1504:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1504
-	jmp	.LBB0_1553
-.LBB0_407:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.408:
-	mov	r9d, r8d
-	cmp	r8d, 128
-	jb	.LBB0_409
-# %bb.706:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_896
-# %bb.707:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_896
-.LBB0_409:
-	xor	esi, esi
-.LBB0_1509:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1511
-.LBB0_1510:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1510
-.LBB0_1511:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1512:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1512
-	jmp	.LBB0_1553
-.LBB0_410:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.411:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_412
-# %bb.709:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_899
-# %bb.710:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_899
-.LBB0_412:
-	xor	esi, esi
-.LBB0_1517:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1519
-.LBB0_1518:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1518
-.LBB0_1519:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1520:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1520
-	jmp	.LBB0_1553
-.LBB0_413:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.414:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_415
-# %bb.712:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_902
-# %bb.713:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_902
-.LBB0_415:
-	xor	esi, esi
-.LBB0_1525:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1527
-.LBB0_1526:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1526
-.LBB0_1527:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1528:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1528
-	jmp	.LBB0_1553
-.LBB0_416:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.417:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_715
-# %bb.418:
-	xor	esi, esi
-	jmp	.LBB0_994
-.LBB0_419:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.420:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_421
-# %bb.718:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_905
-# %bb.719:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_905
-.LBB0_421:
-	xor	esi, esi
-.LBB0_1533:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1535
-.LBB0_1534:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1534
-.LBB0_1535:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1536:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1536
-	jmp	.LBB0_1553
-.LBB0_422:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.423:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_721
-# %bb.424:
-	xor	esi, esi
-	jmp	.LBB0_999
-.LBB0_425:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.426:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_724
-# %bb.427:
-	xor	esi, esi
-	jmp	.LBB0_1004
-.LBB0_428:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.429:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_727
-# %bb.430:
-	xor	esi, esi
-	jmp	.LBB0_1009
-.LBB0_431:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.432:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jae	.LBB0_730
-# %bb.433:
-	xor	esi, esi
-	jmp	.LBB0_1014
-.LBB0_434:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.435:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jae	.LBB0_733
-# %bb.436:
-	xor	esi, esi
-	jmp	.LBB0_1019
-.LBB0_437:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.438:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_439
-# %bb.736:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_908
-# %bb.737:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_908
-.LBB0_439:
-	xor	esi, esi
-.LBB0_1541:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1543
-.LBB0_1542:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1542
-.LBB0_1543:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1544:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1544
-	jmp	.LBB0_1553
-.LBB0_440:
-	test	r8d, r8d
-	jle	.LBB0_1553
-# %bb.441:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_442
-# %bb.739:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_911
-# %bb.740:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_911
-.LBB0_442:
-	xor	esi, esi
-.LBB0_1549:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1551
-.LBB0_1550:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1550
-.LBB0_1551:
-	cmp	r8, 3
-	jb	.LBB0_1553
-.LBB0_1552:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1552
-	jmp	.LBB0_1553
-.LBB0_446:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_447:                              # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi]
-	mov	dword ptr [rcx + 4*rdi], ebx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 8]
-	mov	dword ptr [rcx + 4*rdi + 4], ebx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 16]
-	mov	dword ptr [rcx + 4*rdi + 8], ebx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 24]
-	mov	dword ptr [rcx + 4*rdi + 12], ebx
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_447
-.LBB0_448:
-	test	rax, rax
-	je	.LBB0_1553
-# %bb.449:
-	lea	rcx, [rcx + 4*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	esi, esi
-.LBB0_450:                              # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	rdi, qword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], edi
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB0_450
-	jmp	.LBB0_1553
-.LBB0_454:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_914
-# %bb.455:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_456:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi + 128]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 160]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 192]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 224]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 144], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 176], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 208], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 240], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_456
-	jmp	.LBB0_915
-.LBB0_457:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1020
-# %bb.458:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_459:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_459
-	jmp	.LBB0_1021
-.LBB0_460:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1025
-# %bb.461:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_462:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_462
-	jmp	.LBB0_1026
-.LBB0_463:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1030
-# %bb.464:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_465:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi + 128]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 160]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 192]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 224]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 144], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 176], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 208], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 240], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_465
-	jmp	.LBB0_1031
-.LBB0_466:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1035
-# %bb.467:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vbroadcastss	xmm0, dword ptr [rip + .LCPI0_2] # xmm0 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	vbroadcastss	xmm1, dword ptr [rip + .LCPI0_3] # xmm1 = [2147483648,2147483648,2147483648,2147483648]
-.LBB0_468:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm2, xmmword ptr [rdx + 4*rdi]
-	vmovups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	vmovups	xmm4, xmmword ptr [rdx + 4*rdi + 32]
-	vcmpltps	xmm5, xmm2, xmm0
-	vsubps	xmm6, xmm2, xmm0
-	vcvttps2dq	xmm6, xmm6
-	vxorps	xmm6, xmm6, xmm1
-	vcvttps2dq	xmm2, xmm2
-	vblendvps	xmm2, xmm6, xmm2, xmm5
-	vmovups	xmm5, xmmword ptr [rdx + 4*rdi + 48]
-	vcmpltps	xmm6, xmm3, xmm0
-	vsubps	xmm7, xmm3, xmm0
-	vcvttps2dq	xmm7, xmm7
-	vxorps	xmm7, xmm7, xmm1
-	vcvttps2dq	xmm3, xmm3
-	vblendvps	xmm3, xmm7, xmm3, xmm6
-	vcmpltps	xmm6, xmm4, xmm0
-	vsubps	xmm7, xmm4, xmm0
-	vcvttps2dq	xmm7, xmm7
-	vxorps	xmm7, xmm7, xmm1
-	vcvttps2dq	xmm4, xmm4
-	vblendvps	xmm4, xmm7, xmm4, xmm6
-	vcmpltps	xmm6, xmm5, xmm0
-	vsubps	xmm7, xmm5, xmm0
-	vcvttps2dq	xmm7, xmm7
-	vxorps	xmm7, xmm7, xmm1
-	vcvttps2dq	xmm5, xmm5
-	vblendvps	xmm5, xmm7, xmm5, xmm6
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm3
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm4
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm5
-	vmovups	xmm2, xmmword ptr [rdx + 4*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vmovups	xmm4, xmmword ptr [rdx + 4*rdi + 96]
-	vcmpltps	xmm5, xmm2, xmm0
-	vsubps	xmm6, xmm2, xmm0
-	vcvttps2dq	xmm6, xmm6
-	vxorps	xmm6, xmm6, xmm1
-	vcvttps2dq	xmm2, xmm2
-	vblendvps	xmm2, xmm6, xmm2, xmm5
-	vmovups	xmm5, xmmword ptr [rdx + 4*rdi + 112]
-	vcmpltps	xmm6, xmm3, xmm0
-	vsubps	xmm7, xmm3, xmm0
-	vcvttps2dq	xmm7, xmm7
-	vxorps	xmm7, xmm7, xmm1
-	vcvttps2dq	xmm3, xmm3
-	vblendvps	xmm3, xmm7, xmm3, xmm6
-	vcmpltps	xmm6, xmm4, xmm0
-	vsubps	xmm7, xmm4, xmm0
-	vcvttps2dq	xmm7, xmm7
-	vxorps	xmm7, xmm7, xmm1
-	vcvttps2dq	xmm4, xmm4
-	vblendvps	xmm4, xmm7, xmm4, xmm6
-	vcmpltps	xmm6, xmm5, xmm0
-	vsubps	xmm7, xmm5, xmm0
-	vcvttps2dq	xmm7, xmm7
-	vxorps	xmm7, xmm7, xmm1
-	vcvttps2dq	xmm5, xmm5
-	vblendvps	xmm5, xmm7, xmm5, xmm6
-	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm3
-	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm4
-	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm5
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_468
-	jmp	.LBB0_1036
-.LBB0_475:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1040
-# %bb.476:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_5] # ymm0 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
-.LBB0_477:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 16] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 32] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm4, xmmword ptr [rdx + 4*rdi + 48] # ymm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpor	ymm1, ymm1, ymm0
-	vsubpd	ymm1, ymm1, ymm0
-	vpor	ymm2, ymm2, ymm0
-	vsubpd	ymm2, ymm2, ymm0
-	vpor	ymm3, ymm3, ymm0
-	vsubpd	ymm3, ymm3, ymm0
-	vpor	ymm4, ymm4, ymm0
-	vsubpd	ymm4, ymm4, ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 64] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 80] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 96] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm4, xmmword ptr [rdx + 4*rdi + 112] # ymm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpor	ymm1, ymm1, ymm0
-	vsubpd	ymm1, ymm1, ymm0
-	vpor	ymm2, ymm2, ymm0
-	vsubpd	ymm2, ymm2, ymm0
-	vpor	ymm3, ymm3, ymm0
-	vsubpd	ymm3, ymm3, ymm0
-	vpor	ymm4, ymm4, ymm0
-	vsubpd	ymm4, ymm4, ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_477
-	jmp	.LBB0_1041
-.LBB0_484:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_919
-# %bb.485:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_5] # ymm0 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
-	vpxor	xmm1, xmm1, xmm1
-	vpbroadcastq	ymm2, qword ptr [rip + .LCPI0_6] # ymm2 = [4985484787499139072,4985484787499139072,4985484787499139072,4985484787499139072]
-	vbroadcastsd	ymm3, qword ptr [rip + .LCPI0_7] # ymm3 = [1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25]
-.LBB0_486:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm6, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm7, ymmword ptr [rdx + 8*rdi + 96]
-	vpblendd	ymm8, ymm4, ymm1, 170           # ymm8 = ymm4[0],ymm1[1],ymm4[2],ymm1[3],ymm4[4],ymm1[5],ymm4[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm4, ymm4, 32
-	vpor	ymm4, ymm4, ymm2
-	vsubpd	ymm4, ymm4, ymm3
-	vaddpd	ymm4, ymm8, ymm4
-	vpblendd	ymm8, ymm5, ymm1, 170           # ymm8 = ymm5[0],ymm1[1],ymm5[2],ymm1[3],ymm5[4],ymm1[5],ymm5[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm5, ymm5, 32
-	vpor	ymm5, ymm5, ymm2
-	vsubpd	ymm5, ymm5, ymm3
-	vaddpd	ymm5, ymm8, ymm5
-	vpblendd	ymm8, ymm6, ymm1, 170           # ymm8 = ymm6[0],ymm1[1],ymm6[2],ymm1[3],ymm6[4],ymm1[5],ymm6[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm6, ymm6, 32
-	vpor	ymm6, ymm6, ymm2
-	vsubpd	ymm6, ymm6, ymm3
-	vaddpd	ymm6, ymm8, ymm6
-	vpblendd	ymm8, ymm7, ymm1, 170           # ymm8 = ymm7[0],ymm1[1],ymm7[2],ymm1[3],ymm7[4],ymm1[5],ymm7[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm7, ymm7, 32
-	vpor	ymm7, ymm7, ymm2
-	vsubpd	ymm7, ymm7, ymm3
-	vaddpd	ymm7, ymm8, ymm7
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm5
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm6
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm7
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm6, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm7, ymmword ptr [rdx + 8*rdi + 224]
-	vpblendd	ymm8, ymm4, ymm1, 170           # ymm8 = ymm4[0],ymm1[1],ymm4[2],ymm1[3],ymm4[4],ymm1[5],ymm4[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm4, ymm4, 32
-	vpor	ymm4, ymm4, ymm2
-	vsubpd	ymm4, ymm4, ymm3
-	vaddpd	ymm4, ymm8, ymm4
-	vpblendd	ymm8, ymm5, ymm1, 170           # ymm8 = ymm5[0],ymm1[1],ymm5[2],ymm1[3],ymm5[4],ymm1[5],ymm5[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm5, ymm5, 32
-	vpor	ymm5, ymm5, ymm2
-	vsubpd	ymm5, ymm5, ymm3
-	vaddpd	ymm5, ymm8, ymm5
-	vpblendd	ymm8, ymm6, ymm1, 170           # ymm8 = ymm6[0],ymm1[1],ymm6[2],ymm1[3],ymm6[4],ymm1[5],ymm6[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm6, ymm6, 32
-	vpor	ymm6, ymm6, ymm2
-	vsubpd	ymm6, ymm6, ymm3
-	vaddpd	ymm6, ymm8, ymm6
-	vpblendd	ymm8, ymm7, ymm1, 170           # ymm8 = ymm7[0],ymm1[1],ymm7[2],ymm1[3],ymm7[4],ymm1[5],ymm7[6],ymm1[7]
-	vpor	ymm8, ymm8, ymm0
-	vpsrlq	ymm7, ymm7, 32
-	vpor	ymm7, ymm7, ymm2
-	vsubpd	ymm7, ymm7, ymm3
-	vaddpd	ymm7, ymm8, ymm7
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm5
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm6
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm7
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_486
-	jmp	.LBB0_920
-.LBB0_487:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1045
-# %bb.488:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_489:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxwd	xmm0, qword ptr [rdx + 2*rdi] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm2, qword ptr [rdx + 2*rdi + 16] # xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm3, qword ptr [rdx + 2*rdi + 24] # xmm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxwd	xmm0, qword ptr [rdx + 2*rdi + 32] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 40] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm2, qword ptr [rdx + 2*rdi + 48] # xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm3, qword ptr [rdx + 2*rdi + 56] # xmm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_489
-	jmp	.LBB0_1046
-.LBB0_490:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1050
-# %bb.491:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_492:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	vpmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	vpmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	xmm3, qword ptr [rdx + 2*rdi + 24]
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 40]
-	vpmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 48]
-	vpmovsxwd	xmm3, qword ptr [rdx + 2*rdi + 56]
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_492
-	jmp	.LBB0_1051
-.LBB0_493:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1055
-# %bb.494:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	edi, edi
-.LBB0_495:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	vpextrq	rax, xmm0, 1
-	vcvtsi2sd	xmm2, xmm11, rax
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovq	rax, xmm0
-	vcvtsi2sd	xmm0, xmm11, rax
-	vpextrq	rax, xmm1, 1
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 48]
-	vmovq	rax, xmm1
-	vcvtsi2sd	xmm1, xmm11, rax
-	vpextrq	rax, xmm5, 1
-	vcvtsi2sd	xmm6, xmm11, rax
-	vunpcklpd	xmm8, xmm0, xmm2        # xmm8 = xmm0[0],xmm2[0]
-	vmovq	rax, xmm5
-	vcvtsi2sd	xmm2, xmm11, rax
-	vpextrq	rax, xmm3, 1
-	vcvtsi2sd	xmm5, xmm11, rax
-	vunpcklpd	xmm10, xmm1, xmm4       # xmm10 = xmm1[0],xmm4[0]
-	vmovq	rax, xmm3
-	vcvtsi2sd	xmm3, xmm11, rax
-	vunpcklpd	xmm9, xmm2, xmm6        # xmm9 = xmm2[0],xmm6[0]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 80]
-	vpextrq	rax, xmm4, 1
-	vunpcklpd	xmm3, xmm3, xmm5        # xmm3 = xmm3[0],xmm5[0]
-	vcvtsi2sd	xmm5, xmm11, rax
-	vmovq	rax, xmm4
-	vcvtsi2sd	xmm4, xmm11, rax
-	vunpcklpd	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0]
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 64]
-	vpextrq	rax, xmm5, 1
-	vcvtsi2sd	xmm6, xmm11, rax
-	vmovq	rax, xmm5
-	vcvtsi2sd	xmm5, xmm11, rax
-	vmovdqu	xmm7, xmmword ptr [rdx + 8*rdi + 112]
-	vpextrq	rax, xmm7, 1
-	vcvtsi2sd	xmm0, xmm11, rax
-	vmovq	rax, xmm7
-	vcvtsi2sd	xmm7, xmm11, rax
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 96]
-	vpextrq	rax, xmm2, 1
-	vcvtsi2sd	xmm1, xmm11, rax
-	vunpcklpd	xmm5, xmm5, xmm6        # xmm5 = xmm5[0],xmm6[0]
-	vmovq	rax, xmm2
-	vcvtsi2sd	xmm2, xmm11, rax
-	vunpcklpd	xmm0, xmm7, xmm0        # xmm0 = xmm7[0],xmm0[0]
-	vunpcklpd	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovupd	xmmword ptr [rcx + 8*rdi + 16], xmm10
-	vmovupd	xmmword ptr [rcx + 8*rdi], xmm8
-	vmovupd	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	vmovupd	xmmword ptr [rcx + 8*rdi + 48], xmm9
-	vmovupd	xmmword ptr [rcx + 8*rdi + 64], xmm5
-	vmovupd	xmmword ptr [rcx + 8*rdi + 80], xmm4
-	vmovupd	xmmword ptr [rcx + 8*rdi + 96], xmm1
-	vmovupd	xmmword ptr [rcx + 8*rdi + 112], xmm0
-	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 144]
-	vpextrq	rax, xmm0, 1
-	vcvtsi2sd	xmm2, xmm11, rax
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
-	vmovq	rax, xmm0
-	vcvtsi2sd	xmm0, xmm11, rax
-	vpextrq	rax, xmm1, 1
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 176]
-	vmovq	rax, xmm1
-	vcvtsi2sd	xmm1, xmm11, rax
-	vpextrq	rax, xmm5, 1
-	vcvtsi2sd	xmm6, xmm11, rax
-	vunpcklpd	xmm8, xmm0, xmm2        # xmm8 = xmm0[0],xmm2[0]
-	vmovq	rax, xmm5
-	vcvtsi2sd	xmm2, xmm11, rax
-	vpextrq	rax, xmm3, 1
-	vcvtsi2sd	xmm5, xmm11, rax
-	vunpcklpd	xmm10, xmm1, xmm4       # xmm10 = xmm1[0],xmm4[0]
-	vmovq	rax, xmm3
-	vcvtsi2sd	xmm3, xmm11, rax
-	vunpcklpd	xmm9, xmm2, xmm6        # xmm9 = xmm2[0],xmm6[0]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 208]
-	vpextrq	rax, xmm4, 1
-	vunpcklpd	xmm3, xmm3, xmm5        # xmm3 = xmm3[0],xmm5[0]
-	vcvtsi2sd	xmm5, xmm11, rax
-	vmovq	rax, xmm4
-	vcvtsi2sd	xmm4, xmm11, rax
-	vunpcklpd	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0]
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 192]
-	vpextrq	rax, xmm5, 1
-	vcvtsi2sd	xmm6, xmm11, rax
-	vmovq	rax, xmm5
-	vcvtsi2sd	xmm5, xmm11, rax
-	vmovdqu	xmm7, xmmword ptr [rdx + 8*rdi + 240]
-	vpextrq	rax, xmm7, 1
-	vcvtsi2sd	xmm0, xmm11, rax
-	vmovq	rax, xmm7
-	vcvtsi2sd	xmm7, xmm11, rax
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 224]
-	vpextrq	rax, xmm2, 1
-	vcvtsi2sd	xmm1, xmm11, rax
-	vunpcklpd	xmm5, xmm5, xmm6        # xmm5 = xmm5[0],xmm6[0]
-	vmovq	rax, xmm2
-	vcvtsi2sd	xmm2, xmm11, rax
-	vunpcklpd	xmm0, xmm7, xmm0        # xmm0 = xmm7[0],xmm0[0]
-	vunpcklpd	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovupd	xmmword ptr [rcx + 8*rdi + 144], xmm10
-	vmovupd	xmmword ptr [rcx + 8*rdi + 128], xmm8
-	vmovupd	xmmword ptr [rcx + 8*rdi + 160], xmm3
-	vmovupd	xmmword ptr [rcx + 8*rdi + 176], xmm9
-	vmovupd	xmmword ptr [rcx + 8*rdi + 192], xmm5
-	vmovupd	xmmword ptr [rcx + 8*rdi + 208], xmm4
-	vmovupd	xmmword ptr [rcx + 8*rdi + 224], xmm1
-	vmovupd	xmmword ptr [rcx + 8*rdi + 240], xmm0
-	add	rdi, 32
-	add	r10, 2
-	jne	.LBB0_495
-	jmp	.LBB0_1056
-.LBB0_496:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1060
-# %bb.497:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_498:                              # =>This Inner Loop Header: Depth=1
-	vcvtps2pd	ymm0, xmmword ptr [rdx + 4*rdi]
-	vcvtps2pd	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vcvtps2pd	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vcvtps2pd	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vcvtps2pd	ymm0, xmmword ptr [rdx + 4*rdi + 64]
-	vcvtps2pd	ymm1, xmmword ptr [rdx + 4*rdi + 80]
-	vcvtps2pd	ymm2, xmmword ptr [rdx + 4*rdi + 96]
-	vcvtps2pd	ymm3, xmmword ptr [rdx + 4*rdi + 112]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_498
-	jmp	.LBB0_1061
-.LBB0_502:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_925
-# %bb.503:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_504:                              # =>This Inner Loop Header: Depth=1
-	vcvtdq2pd	ymm0, xmmword ptr [rdx + 4*rdi]
-	vcvtdq2pd	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vcvtdq2pd	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vcvtdq2pd	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vcvtdq2pd	ymm0, xmmword ptr [rdx + 4*rdi + 64]
-	vcvtdq2pd	ymm1, xmmword ptr [rdx + 4*rdi + 80]
-	vcvtdq2pd	ymm2, xmmword ptr [rdx + 4*rdi + 96]
-	vcvtdq2pd	ymm3, xmmword ptr [rdx + 4*rdi + 112]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_504
-	jmp	.LBB0_926
-.LBB0_535:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_930
-# %bb.536:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_537:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_537
-	jmp	.LBB0_931
-.LBB0_538:
-	mov	r14d, r9d
-	and	r14d, -4
-	lea	rax, [r14 - 4]
-	mov	r10, rax
-	shr	r10, 2
-	add	r10, 1
-	mov	r8d, r10d
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_793
-# %bb.539:
-	xor	eax, eax
-	jmp	.LBB0_795
-.LBB0_546:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_935
-# %bb.547:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_548:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_548
-	jmp	.LBB0_936
-.LBB0_549:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_940
-# %bb.550:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_551:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi]
-	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 8]
-	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 16]
-	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi + 32]
-	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 40]
-	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 48]
-	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 56]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_551
-	jmp	.LBB0_941
-.LBB0_555:
-	mov	r14d, r9d
-	and	r14d, -4
-	lea	rax, [r14 - 4]
-	mov	r10, rax
-	shr	r10, 2
-	add	r10, 1
-	mov	r8d, r10d
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_810
-# %bb.556:
-	xor	eax, eax
-	jmp	.LBB0_812
-.LBB0_560:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_945
-# %bb.561:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_562:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi]
-	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi + 64]
-	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 80]
-	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 96]
-	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 112]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_562
-	jmp	.LBB0_946
-.LBB0_563:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1065
-# %bb.564:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_11] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-.LBB0_565:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_565
-	jmp	.LBB0_1066
-.LBB0_566:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1070
-# %bb.567:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_11] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-.LBB0_568:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_568
-	jmp	.LBB0_1071
-.LBB0_569:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1075
-# %bb.570:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_571:                              # =>This Inner Loop Header: Depth=1
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vinsertf128	ymm2, ymm2, xmm3, 1
-	vpackusdw	ymm2, ymm2, ymm0
-	vinsertf128	ymm0, ymm0, xmm1, 1
-	vpackusdw	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 192]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 224]
-	vinsertf128	ymm2, ymm2, xmm3, 1
-	vpackusdw	ymm2, ymm2, ymm0
-	vinsertf128	ymm0, ymm0, xmm1, 1
-	vpackusdw	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_571
-	jmp	.LBB0_1076
-.LBB0_572:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1080
-# %bb.573:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_574:                              # =>This Inner Loop Header: Depth=1
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vinsertf128	ymm2, ymm2, xmm3, 1
-	vpackssdw	ymm2, ymm2, ymm0
-	vinsertf128	ymm0, ymm0, xmm1, 1
-	vpackssdw	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 192]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 224]
-	vinsertf128	ymm2, ymm2, xmm3, 1
-	vpackssdw	ymm2, ymm2, ymm0
-	vinsertf128	ymm0, ymm0, xmm1, 1
-	vpackssdw	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_574
-	jmp	.LBB0_1081
-.LBB0_581:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_950
-# %bb.582:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB0_583:                              # =>This Inner Loop Header: Depth=1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi + 128], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 144], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 160], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 176], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 192], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 208], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 224], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 240], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_583
-	jmp	.LBB0_951
-.LBB0_584:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_955
-# %bb.585:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB0_586:                              # =>This Inner Loop Header: Depth=1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi + 128], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 144], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 160], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 176], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 192], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 208], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 224], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 240], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_586
-	jmp	.LBB0_956
-.LBB0_599:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_960
-# %bb.600:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB0_601:                              # =>This Inner Loop Header: Depth=1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi + 128], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 144], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 160], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 176], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 192], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 208], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 224], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 240], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_601
-	jmp	.LBB0_961
-.LBB0_602:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1085
-# %bb.603:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vpxor	xmm0, xmm0, xmm0
-.LBB0_604:                              # =>This Inner Loop Header: Depth=1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
-	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi + 128], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 144], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 160], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 176], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 192], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 208], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 224], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 240], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm1, ymm6, xmm1, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm1, ymm5, ymm1
-	vpackusdw	ymm1, ymm1, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm3, ymm8, xmm3, 1
-	vpackusdw	ymm2, ymm3, ymm2
-	vpackusdw	ymm2, ymm2, ymm0
-	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_604
-	jmp	.LBB0_1086
-.LBB0_605:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1090
-# %bb.606:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_607:                              # =>This Inner Loop Header: Depth=1
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vpackusdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vextracti128	xmm2, ymm1, 1
-	vpackusdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vextracti128	xmm3, ymm2, 1
-	vpackusdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vextracti128	xmm4, ymm3, 1
-	vpackusdw	xmm3, xmm3, xmm4
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vextracti128	xmm1, ymm0, 1
-	vpackusdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vextracti128	xmm2, ymm1, 1
-	vpackusdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vextracti128	xmm3, ymm2, 1
-	vpackusdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vextracti128	xmm4, ymm3, 1
-	vpackusdw	xmm3, xmm3, xmm4
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_607
-	jmp	.LBB0_1091
-.LBB0_608:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1095
-# %bb.609:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_610:                              # =>This Inner Loop Header: Depth=1
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vextracti128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_610
-	jmp	.LBB0_1096
-.LBB0_617:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_965
-# %bb.618:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_11] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-.LBB0_619:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_619
-	jmp	.LBB0_966
-.LBB0_620:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_970
-# %bb.621:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_11] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-.LBB0_622:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpshufb	ymm1, ymm1, ymm0
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm0
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm0
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vpshufb	ymm4, ymm4, ymm0
-	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm4
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_622
-	jmp	.LBB0_971
-.LBB0_623:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1100
-# %bb.624:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_625:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_625
-	jmp	.LBB0_1101
-.LBB0_626:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1105
-# %bb.627:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	vpbroadcastd	ymm0, dword ptr [rip + .LCPI0_13] # ymm0 = [1258291200,1258291200,1258291200,1258291200,1258291200,1258291200,1258291200,1258291200]
-	xor	edi, edi
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI0_14] # ymm1 = [1392508928,1392508928,1392508928,1392508928,1392508928,1392508928,1392508928,1392508928]
-	vbroadcastss	ymm2, dword ptr [rip + .LCPI0_15] # ymm2 = [5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11]
-.LBB0_628:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm5, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm6, ymmword ptr [rdx + 4*rdi + 96]
-	vpblendw	ymm7, ymm3, ymm0, 170           # ymm7 = ymm3[0],ymm0[1],ymm3[2],ymm0[3],ymm3[4],ymm0[5],ymm3[6],ymm0[7],ymm3[8],ymm0[9],ymm3[10],ymm0[11],ymm3[12],ymm0[13],ymm3[14],ymm0[15]
-	vpsrld	ymm3, ymm3, 16
-	vpblendw	ymm3, ymm3, ymm1, 170           # ymm3 = ymm3[0],ymm1[1],ymm3[2],ymm1[3],ymm3[4],ymm1[5],ymm3[6],ymm1[7],ymm3[8],ymm1[9],ymm3[10],ymm1[11],ymm3[12],ymm1[13],ymm3[14],ymm1[15]
-	vsubps	ymm3, ymm3, ymm2
-	vaddps	ymm3, ymm7, ymm3
-	vpblendw	ymm7, ymm4, ymm0, 170           # ymm7 = ymm4[0],ymm0[1],ymm4[2],ymm0[3],ymm4[4],ymm0[5],ymm4[6],ymm0[7],ymm4[8],ymm0[9],ymm4[10],ymm0[11],ymm4[12],ymm0[13],ymm4[14],ymm0[15]
-	vpsrld	ymm4, ymm4, 16
-	vpblendw	ymm4, ymm4, ymm1, 170           # ymm4 = ymm4[0],ymm1[1],ymm4[2],ymm1[3],ymm4[4],ymm1[5],ymm4[6],ymm1[7],ymm4[8],ymm1[9],ymm4[10],ymm1[11],ymm4[12],ymm1[13],ymm4[14],ymm1[15]
-	vsubps	ymm4, ymm4, ymm2
-	vaddps	ymm4, ymm7, ymm4
-	vpblendw	ymm7, ymm5, ymm0, 170           # ymm7 = ymm5[0],ymm0[1],ymm5[2],ymm0[3],ymm5[4],ymm0[5],ymm5[6],ymm0[7],ymm5[8],ymm0[9],ymm5[10],ymm0[11],ymm5[12],ymm0[13],ymm5[14],ymm0[15]
-	vpsrld	ymm5, ymm5, 16
-	vpblendw	ymm5, ymm5, ymm1, 170           # ymm5 = ymm5[0],ymm1[1],ymm5[2],ymm1[3],ymm5[4],ymm1[5],ymm5[6],ymm1[7],ymm5[8],ymm1[9],ymm5[10],ymm1[11],ymm5[12],ymm1[13],ymm5[14],ymm1[15]
-	vsubps	ymm5, ymm5, ymm2
-	vaddps	ymm5, ymm7, ymm5
-	vpblendw	ymm7, ymm6, ymm0, 170           # ymm7 = ymm6[0],ymm0[1],ymm6[2],ymm0[3],ymm6[4],ymm0[5],ymm6[6],ymm0[7],ymm6[8],ymm0[9],ymm6[10],ymm0[11],ymm6[12],ymm0[13],ymm6[14],ymm0[15]
-	vpsrld	ymm6, ymm6, 16
-	vpblendw	ymm6, ymm6, ymm1, 170           # ymm6 = ymm6[0],ymm1[1],ymm6[2],ymm1[3],ymm6[4],ymm1[5],ymm6[6],ymm1[7],ymm6[8],ymm1[9],ymm6[10],ymm1[11],ymm6[12],ymm1[13],ymm6[14],ymm1[15]
-	vsubps	ymm6, ymm6, ymm2
-	vaddps	ymm6, ymm7, ymm6
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm4
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm5
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm6
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm5, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm6, ymmword ptr [rdx + 4*rdi + 224]
-	vpblendw	ymm7, ymm3, ymm0, 170           # ymm7 = ymm3[0],ymm0[1],ymm3[2],ymm0[3],ymm3[4],ymm0[5],ymm3[6],ymm0[7],ymm3[8],ymm0[9],ymm3[10],ymm0[11],ymm3[12],ymm0[13],ymm3[14],ymm0[15]
-	vpsrld	ymm3, ymm3, 16
-	vpblendw	ymm3, ymm3, ymm1, 170           # ymm3 = ymm3[0],ymm1[1],ymm3[2],ymm1[3],ymm3[4],ymm1[5],ymm3[6],ymm1[7],ymm3[8],ymm1[9],ymm3[10],ymm1[11],ymm3[12],ymm1[13],ymm3[14],ymm1[15]
-	vsubps	ymm3, ymm3, ymm2
-	vaddps	ymm3, ymm7, ymm3
-	vpblendw	ymm7, ymm4, ymm0, 170           # ymm7 = ymm4[0],ymm0[1],ymm4[2],ymm0[3],ymm4[4],ymm0[5],ymm4[6],ymm0[7],ymm4[8],ymm0[9],ymm4[10],ymm0[11],ymm4[12],ymm0[13],ymm4[14],ymm0[15]
-	vpsrld	ymm4, ymm4, 16
-	vpblendw	ymm4, ymm4, ymm1, 170           # ymm4 = ymm4[0],ymm1[1],ymm4[2],ymm1[3],ymm4[4],ymm1[5],ymm4[6],ymm1[7],ymm4[8],ymm1[9],ymm4[10],ymm1[11],ymm4[12],ymm1[13],ymm4[14],ymm1[15]
-	vsubps	ymm4, ymm4, ymm2
-	vaddps	ymm4, ymm7, ymm4
-	vpblendw	ymm7, ymm5, ymm0, 170           # ymm7 = ymm5[0],ymm0[1],ymm5[2],ymm0[3],ymm5[4],ymm0[5],ymm5[6],ymm0[7],ymm5[8],ymm0[9],ymm5[10],ymm0[11],ymm5[12],ymm0[13],ymm5[14],ymm0[15]
-	vpsrld	ymm5, ymm5, 16
-	vpblendw	ymm5, ymm5, ymm1, 170           # ymm5 = ymm5[0],ymm1[1],ymm5[2],ymm1[3],ymm5[4],ymm1[5],ymm5[6],ymm1[7],ymm5[8],ymm1[9],ymm5[10],ymm1[11],ymm5[12],ymm1[13],ymm5[14],ymm1[15]
-	vsubps	ymm5, ymm5, ymm2
-	vaddps	ymm5, ymm7, ymm5
-	vpblendw	ymm7, ymm6, ymm0, 170           # ymm7 = ymm6[0],ymm0[1],ymm6[2],ymm0[3],ymm6[4],ymm0[5],ymm6[6],ymm0[7],ymm6[8],ymm0[9],ymm6[10],ymm0[11],ymm6[12],ymm0[13],ymm6[14],ymm0[15]
-	vpsrld	ymm6, ymm6, 16
-	vpblendw	ymm6, ymm6, ymm1, 170           # ymm6 = ymm6[0],ymm1[1],ymm6[2],ymm1[3],ymm6[4],ymm1[5],ymm6[6],ymm1[7],ymm6[8],ymm1[9],ymm6[10],ymm1[11],ymm6[12],ymm1[13],ymm6[14],ymm1[15]
-	vsubps	ymm6, ymm6, ymm2
-	vaddps	ymm6, ymm7, ymm6
-	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm4
-	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm5
-	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm6
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_628
-	jmp	.LBB0_1106
-.LBB0_629:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1110
-# %bb.630:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	edi, edi
-.LBB0_631:                              # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 8]
-	vmovq	xmm0, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi]
-	vmovq	xmm1, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 24]
-	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 16]
-	vmovq	xmm1, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 56]
-	vmovq	xmm2, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 48]
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovq	xmm2, rbx
-	vmovq	xmm3, rax
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 40]
-	vmovq	xmm3, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 32]
-	vmovq	xmm4, rax
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 88]
-	vmovq	xmm4, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 80]
-	vmovq	xmm5, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 72]
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 64]
-	vmovq	xmm5, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 120]
-	vmovq	xmm6, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 112]
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	vmovq	xmm6, rax
-	vmovq	xmm7, rbx
-	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 104]
-	vmovq	xmm7, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 96]
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm0, xmm0, xmm7        # xmm0 = xmm0[0],xmm7[0]
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 8*rdi], xmm8
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 64], xmm5
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 80], xmm4
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 96], xmm0
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 112], xmm6
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 136]
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 128]
-	vmovq	xmm0, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 152]
-	vmovq	xmm1, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 144]
-	vmovq	xmm2, rax
-	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
-	vmovq	xmm1, rbx
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 184]
-	vmovq	xmm2, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 176]
-	vmovq	xmm3, rax
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 168]
-	vmovq	xmm3, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 160]
-	vmovq	xmm4, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 216]
-	vmovq	xmm5, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 208]
-	vmovq	xmm6, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 200]
-	vmovq	xmm7, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 192]
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vpunpcklqdq	xmm4, xmm6, xmm5        # xmm4 = xmm6[0],xmm5[0]
-	vmovq	xmm5, rax
-	vpunpcklqdq	xmm5, xmm5, xmm7        # xmm5 = xmm5[0],xmm7[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 248]
-	vmovq	xmm6, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 240]
-	vmovq	xmm7, rax
-	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 232]
-	vmovq	xmm7, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 224]
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm0, xmm0, xmm7        # xmm0 = xmm0[0],xmm7[0]
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 144], xmm1
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 128], xmm8
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 160], xmm3
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 176], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 192], xmm5
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 208], xmm4
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 224], xmm0
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 240], xmm6
-	add	rdi, 32
-	add	r10, 2
-	jne	.LBB0_631
-	jmp	.LBB0_1111
-.LBB0_632:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1115
-# %bb.633:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_634:                              # =>This Inner Loop Header: Depth=1
-	vcvtpd2ps	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvtpd2ps	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvtpd2ps	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvtpd2ps	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovupd	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovupd	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vcvtpd2ps	xmm0, ymmword ptr [rdx + 8*rdi + 128]
-	vcvtpd2ps	xmm1, ymmword ptr [rdx + 8*rdi + 160]
-	vcvtpd2ps	xmm2, ymmword ptr [rdx + 8*rdi + 192]
-	vcvtpd2ps	xmm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovupd	xmmword ptr [rcx + 4*rdi + 80], xmm1
-	vmovupd	xmmword ptr [rcx + 4*rdi + 96], xmm2
-	vmovupd	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_634
-	jmp	.LBB0_1116
-.LBB0_644:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r10, rax
-	shr	r10, 2
-	add	r10, 1
-	mov	r8d, r10d
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_850
-# %bb.645:
-	xor	eax, eax
-	jmp	.LBB0_852
-.LBB0_646:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_975
-# %bb.647:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_648:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_648
-	jmp	.LBB0_976
-.LBB0_649:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1120
-# %bb.650:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_651:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_651
-	jmp	.LBB0_1121
-.LBB0_652:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1125
-# %bb.653:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_654:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi]
-	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 8]
-	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 16]
-	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi + 32]
-	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 40]
-	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 48]
-	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 56]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_654
-	jmp	.LBB0_1126
-.LBB0_655:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1130
-# %bb.656:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_657:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112]
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_657
-	jmp	.LBB0_1131
-.LBB0_661:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1135
-# %bb.662:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	edi, edi
-.LBB0_663:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	vpextrq	rax, xmm0, 1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	vcvtsi2ss	xmm2, xmm8, rax
-	vmovq	rax, xmm0
-	vcvtsi2ss	xmm0, xmm8, rax
-	vmovq	rax, xmm1
-	vcvtsi2ss	xmm3, xmm8, rax
-	vpextrq	rax, xmm1, 1
-	vcvtsi2ss	xmm1, xmm8, rax
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 32]
-	vpextrq	rax, xmm4, 1
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 48]
-	vcvtsi2ss	xmm6, xmm8, rax
-	vmovq	rax, xmm4
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovq	rax, xmm5
-	vcvtsi2ss	xmm7, xmm8, rax
-	vinsertps	xmm0, xmm0, xmm2, 16    # xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
-	vinsertps	xmm0, xmm0, xmm3, 32    # xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
-	vpextrq	rax, xmm5, 1
-	vinsertps	xmm0, xmm0, xmm1, 48    # xmm0 = xmm0[0,1,2],xmm1[0]
-	vcvtsi2ss	xmm1, xmm8, rax
-	vinsertps	xmm2, xmm4, xmm6, 16    # xmm2 = xmm4[0],xmm6[0],xmm4[2,3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpextrq	rax, xmm3, 1
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovq	rax, xmm3
-	vcvtsi2ss	xmm3, xmm8, rax
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 80]
-	vmovq	rax, xmm5
-	vcvtsi2ss	xmm6, xmm8, rax
-	vinsertps	xmm2, xmm2, xmm7, 32    # xmm2 = xmm2[0,1],xmm7[0],xmm2[3]
-	vinsertps	xmm1, xmm2, xmm1, 48    # xmm1 = xmm2[0,1,2],xmm1[0]
-	vpextrq	rax, xmm5, 1
-	vinsertps	xmm2, xmm3, xmm4, 16    # xmm2 = xmm3[0],xmm4[0],xmm3[2,3]
-	vcvtsi2ss	xmm3, xmm8, rax
-	vinsertps	xmm2, xmm2, xmm6, 32    # xmm2 = xmm2[0,1],xmm6[0],xmm2[3]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpextrq	rax, xmm4, 1
-	vcvtsi2ss	xmm5, xmm8, rax
-	vmovq	rax, xmm4
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovdqu	xmm6, xmmword ptr [rdx + 8*rdi + 112]
-	vmovq	rax, xmm6
-	vcvtsi2ss	xmm7, xmm8, rax
-	vinsertps	xmm2, xmm2, xmm3, 48    # xmm2 = xmm2[0,1,2],xmm3[0]
-	vinsertps	xmm3, xmm4, xmm5, 16    # xmm3 = xmm4[0],xmm5[0],xmm4[2,3]
-	vpextrq	rax, xmm6, 1
-	vinsertps	xmm3, xmm3, xmm7, 32    # xmm3 = xmm3[0,1],xmm7[0],xmm3[3]
-	vcvtsi2ss	xmm4, xmm8, rax
-	vinsertps	xmm3, xmm3, xmm4, 48    # xmm3 = xmm3[0,1,2],xmm4[0]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi + 128]
-	vpextrq	rax, xmm0, 1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 144]
-	vcvtsi2ss	xmm2, xmm8, rax
-	vmovq	rax, xmm0
-	vcvtsi2ss	xmm0, xmm8, rax
-	vmovq	rax, xmm1
-	vcvtsi2ss	xmm3, xmm8, rax
-	vpextrq	rax, xmm1, 1
-	vcvtsi2ss	xmm1, xmm8, rax
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 160]
-	vpextrq	rax, xmm4, 1
-	vcvtsi2ss	xmm5, xmm8, rax
-	vmovq	rax, xmm4
-	vcvtsi2ss	xmm4, xmm8, rax
-	vinsertps	xmm0, xmm0, xmm2, 16    # xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 176]
-	vpextrq	r11, xmm2, 1
-	vmovq	rax, xmm2
-	vcvtsi2ss	xmm2, xmm8, rax
-	vinsertps	xmm0, xmm0, xmm3, 32    # xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
-	vcvtsi2ss	xmm3, xmm8, r11
-	vinsertps	xmm0, xmm0, xmm1, 48    # xmm0 = xmm0[0,1,2],xmm1[0]
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 192]
-	vpextrq	rax, xmm1, 1
-	vinsertps	xmm4, xmm4, xmm5, 16    # xmm4 = xmm4[0],xmm5[0],xmm4[2,3]
-	vcvtsi2ss	xmm5, xmm8, rax
-	vmovq	rax, xmm1
-	vcvtsi2ss	xmm1, xmm8, rax
-	vinsertps	xmm2, xmm4, xmm2, 32    # xmm2 = xmm4[0,1],xmm2[0],xmm4[3]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 208]
-	vpextrq	r11, xmm4, 1
-	vmovq	rax, xmm4
-	vcvtsi2ss	xmm4, xmm8, rax
-	vinsertps	xmm2, xmm2, xmm3, 48    # xmm2 = xmm2[0,1,2],xmm3[0]
-	vcvtsi2ss	xmm3, xmm8, r11
-	vinsertps	xmm1, xmm1, xmm5, 16    # xmm1 = xmm1[0],xmm5[0],xmm1[2,3]
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 224]
-	vpextrq	rax, xmm5, 1
-	vinsertps	xmm1, xmm1, xmm4, 32    # xmm1 = xmm1[0,1],xmm4[0],xmm1[3]
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovq	rax, xmm5
-	vcvtsi2ss	xmm5, xmm8, rax
-	vinsertps	xmm1, xmm1, xmm3, 48    # xmm1 = xmm1[0,1,2],xmm3[0]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
-	vpextrq	r11, xmm3, 1
-	vmovq	rax, xmm3
-	vcvtsi2ss	xmm3, xmm8, rax
-	vinsertps	xmm4, xmm5, xmm4, 16    # xmm4 = xmm5[0],xmm4[0],xmm5[2,3]
-	vcvtsi2ss	xmm5, xmm8, r11
-	vinsertps	xmm3, xmm4, xmm3, 32    # xmm3 = xmm4[0,1],xmm3[0],xmm4[3]
-	vinsertps	xmm3, xmm3, xmm5, 48    # xmm3 = xmm3[0,1,2],xmm5[0]
-	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	r10, 2
-	jne	.LBB0_663
-	jmp	.LBB0_1136
-.LBB0_664:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1140
-# %bb.665:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	edi, edi
-.LBB0_666:                              # =>This Inner Loop Header: Depth=1
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 4]
-	vmovq	xmm0, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi]
-	vmovq	xmm1, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 12]
-	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 8]
-	vmovq	xmm1, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 28]
-	vmovq	xmm2, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 24]
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovq	xmm2, rbx
-	vmovq	xmm3, rax
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 20]
-	vmovq	xmm3, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 16]
-	vmovq	xmm4, rax
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 44]
-	vmovq	xmm4, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 40]
-	vmovq	xmm5, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 36]
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 32]
-	vmovq	xmm5, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 60]
-	vmovq	xmm6, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 56]
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	vmovq	xmm6, rax
-	vmovq	xmm7, rbx
-	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 52]
-	vmovq	xmm7, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 48]
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm0, xmm0, xmm7        # xmm0 = xmm0[0],xmm7[0]
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 8*rdi], xmm8
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 64], xmm5
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 80], xmm4
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 96], xmm0
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 112], xmm6
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 68]
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 64]
-	vmovq	xmm0, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 76]
-	vmovq	xmm1, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 72]
-	vmovq	xmm2, rax
-	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
-	vmovq	xmm1, rbx
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 92]
-	vmovq	xmm2, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 88]
-	vmovq	xmm3, rax
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 84]
-	vmovq	xmm3, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 80]
-	vmovq	xmm4, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 108]
-	vmovq	xmm5, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 104]
-	vmovq	xmm6, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 100]
-	vmovq	xmm7, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 96]
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vpunpcklqdq	xmm4, xmm6, xmm5        # xmm4 = xmm6[0],xmm5[0]
-	vmovq	xmm5, rax
-	vpunpcklqdq	xmm5, xmm5, xmm7        # xmm5 = xmm5[0],xmm7[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 124]
-	vmovq	xmm6, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 120]
-	vmovq	xmm7, rax
-	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 116]
-	vmovq	xmm7, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 112]
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm0, xmm0, xmm7        # xmm0 = xmm0[0],xmm7[0]
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 144], xmm1
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 128], xmm8
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 160], xmm3
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 176], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 192], xmm5
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 208], xmm4
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 224], xmm0
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 240], xmm6
-	add	rdi, 32
-	add	r10, 2
-	jne	.LBB0_666
-	jmp	.LBB0_1141
-.LBB0_676:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_980
-# %bb.677:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_678:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi]
-	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi + 64]
-	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 80]
-	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 96]
-	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 112]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_678
-	jmp	.LBB0_981
-.LBB0_679:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_985
-# %bb.680:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_681:                              # =>This Inner Loop Header: Depth=1
-	vcvtdq2ps	ymm0, ymmword ptr [rdx + 4*rdi]
-	vcvtdq2ps	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vcvtdq2ps	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vcvtdq2ps	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vcvtdq2ps	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vcvtdq2ps	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vcvtdq2ps	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vcvtdq2ps	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_681
-	jmp	.LBB0_986
-.LBB0_715:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_990
-# %bb.716:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_717:                              # =>This Inner Loop Header: Depth=1
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovupd	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovupd	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 192]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovupd	xmmword ptr [rcx + 4*rdi + 80], xmm1
-	vmovupd	xmmword ptr [rcx + 4*rdi + 96], xmm2
-	vmovupd	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_717
-	jmp	.LBB0_991
-.LBB0_721:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_995
-# %bb.722:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_723:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi + 128]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 160]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 192]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 224]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 144], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 176], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 208], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 240], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_723
-	jmp	.LBB0_996
-.LBB0_724:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1000
-# %bb.725:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_726:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_726
-	jmp	.LBB0_1001
-.LBB0_727:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1005
-# %bb.728:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_729:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_729
-	jmp	.LBB0_1006
-.LBB0_730:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1010
-# %bb.731:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_732:                              # =>This Inner Loop Header: Depth=1
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi + 128]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 160]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 192]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 224]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 144], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 176], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 208], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 240], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_732
-	jmp	.LBB0_1011
-.LBB0_733:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1015
-# %bb.734:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_735:                              # =>This Inner Loop Header: Depth=1
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_735
-	jmp	.LBB0_1016
-.LBB0_742:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1185
-# %bb.743:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_744:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_744
-	jmp	.LBB0_1186
-.LBB0_745:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1193
-# %bb.746:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_747:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi + 32]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 40]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 48]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 56]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_747
-	jmp	.LBB0_1194
-.LBB0_748:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1201
-# %bb.749:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_750:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_750
-	jmp	.LBB0_1202
-.LBB0_751:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1209
-# %bb.752:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_753:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_753
-	jmp	.LBB0_1210
-.LBB0_754:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1217
-# %bb.755:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_756:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_756
-	jmp	.LBB0_1218
-.LBB0_757:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1225
-# %bb.758:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_759:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbd	xmm0, dword ptr [rdx + rdi]
-	vpmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	vpmovsxbd	xmm2, dword ptr [rdx + rdi + 8]
-	vpmovsxbd	xmm3, dword ptr [rdx + rdi + 12]
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxbd	xmm0, dword ptr [rdx + rdi + 16]
-	vpmovsxbd	xmm1, dword ptr [rdx + rdi + 20]
-	vpmovsxbd	xmm2, dword ptr [rdx + rdi + 24]
-	vpmovsxbd	xmm3, dword ptr [rdx + rdi + 28]
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_759
-	jmp	.LBB0_1226
-.LBB0_760:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1233
-# %bb.761:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_762:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbd	xmm0, dword ptr [rdx + rdi] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm2, dword ptr [rdx + rdi + 8] # xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm3, dword ptr [rdx + rdi + 12] # xmm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxbd	xmm0, dword ptr [rdx + rdi + 16] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm1, dword ptr [rdx + rdi + 20] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm2, dword ptr [rdx + rdi + 24] # xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm3, dword ptr [rdx + rdi + 28] # xmm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_762
-	jmp	.LBB0_1234
-.LBB0_763:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1241
-# %bb.764:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_765:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 208]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 192]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 240]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 224]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_765
-	jmp	.LBB0_1242
-.LBB0_766:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1249
-# %bb.767:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_768:                              # =>This Inner Loop Header: Depth=1
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vpackssdw	xmm0, xmm0, xmm0
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpacksswb	xmm0, xmm0, xmm0
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 64]
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 96]
-	vpackssdw	xmm2, xmm2, xmm2
-	vpacksswb	xmm2, xmm2, xmm2
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
-	vpackssdw	xmm0, xmm0, xmm0
-	vpacksswb	xmm0, xmm0, xmm0
-	vpackssdw	xmm1, xmm1, xmm1
-	vpacksswb	xmm1, xmm1, xmm1
-	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 192]
-	vpackssdw	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 224]
-	vpacksswb	xmm1, xmm1, xmm1
-	vpackssdw	xmm2, xmm2, xmm2
-	vpacksswb	xmm2, xmm2, xmm2
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_768
-	jmp	.LBB0_1250
-.LBB0_769:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1257
-# %bb.770:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_771:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + rdi]
-	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovups	ymmword ptr [rcx + rdi], ymm0
-	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
-	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB0_771
-	jmp	.LBB0_1258
-.LBB0_772:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1265
-# %bb.773:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_774:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 208]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 192]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 224]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_774
-	jmp	.LBB0_1266
-.LBB0_775:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1273
-# %bb.776:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_777:                              # =>This Inner Loop Header: Depth=1
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm4
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 128]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 160]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 192]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 224]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 112], xmm4
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_777
-	jmp	.LBB0_1274
-.LBB0_778:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1281
-# %bb.779:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_780:                              # =>This Inner Loop Header: Depth=1
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm4
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 128]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 160]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 192]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 224]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 112], xmm4
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_780
-	jmp	.LBB0_1282
-.LBB0_781:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1289
-# %bb.782:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_783:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 208]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 192]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 224]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_783
-	jmp	.LBB0_1290
-.LBB0_784:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1297
-# %bb.785:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_786:                              # =>This Inner Loop Header: Depth=1
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vpackssdw	xmm0, xmm0, xmm1
-	vextracti128	xmm1, ymm2, 1
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vpackssdw	xmm1, xmm2, xmm1
-	vextracti128	xmm2, ymm3, 1
-	vcvttps2dq	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpackssdw	xmm2, xmm3, xmm2
-	vextracti128	xmm3, ymm4, 1
-	vpackssdw	xmm3, xmm4, xmm3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpacksswb	ymm2, ymm2, ymm0
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vpacksswb	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vextracti128	xmm1, ymm0, 1
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vpackssdw	xmm0, xmm0, xmm1
-	vextracti128	xmm1, ymm2, 1
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vpackssdw	xmm1, xmm2, xmm1
-	vextracti128	xmm2, ymm3, 1
-	vcvttps2dq	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpackssdw	xmm2, xmm3, xmm2
-	vextracti128	xmm3, ymm4, 1
-	vpackssdw	xmm3, xmm4, xmm3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpacksswb	ymm2, ymm2, ymm0
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vpacksswb	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_786
-	jmp	.LBB0_1298
-.LBB0_787:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1305
-# %bb.788:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_789:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + rdi]
-	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovups	ymmword ptr [rcx + rdi], ymm0
-	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
-	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB0_789
-	jmp	.LBB0_1306
-.LBB0_790:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1313
-# %bb.791:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_792:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 208]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 192]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 240]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 224]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_792
-	jmp	.LBB0_1314
-.LBB0_801:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1321
-# %bb.802:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_803:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbq	ymm0, dword ptr [rdx + rdi]
-	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 4]
-	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 8]
-	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 12]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxbq	ymm0, dword ptr [rdx + rdi + 16]
-	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 20]
-	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 24]
-	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 28]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_803
-	jmp	.LBB0_1322
-.LBB0_804:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1329
-# %bb.805:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_806:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_806
-	jmp	.LBB0_1330
-.LBB0_807:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1337
-# %bb.808:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_809:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_809
-	jmp	.LBB0_1338
-.LBB0_818:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1345
-# %bb.819:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_820:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbq	ymm0, dword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 4] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 8] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 12] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxbq	ymm0, dword ptr [rdx + rdi + 16] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 20] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 24] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 28] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_820
-	jmp	.LBB0_1346
-.LBB0_821:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1353
-# %bb.822:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_823:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi]
-	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 16]
-	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 32]
-	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi + 64]
-	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 80]
-	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 96]
-	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 112]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 224], ymm3
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_823
-	jmp	.LBB0_1354
-.LBB0_824:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1361
-# %bb.825:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_826:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi]
-	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 16]
-	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 32]
-	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi + 64]
-	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 80]
-	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 96]
-	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 112]
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 224], ymm3
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_826
-	jmp	.LBB0_1362
-.LBB0_827:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1145
-# %bb.828:
-	xor	eax, eax
-	jmp	.LBB0_1147
-.LBB0_829:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1155
-# %bb.830:
-	xor	eax, eax
-	jmp	.LBB0_1157
-.LBB0_831:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1165
-# %bb.832:
-	xor	eax, eax
-	jmp	.LBB0_1167
-.LBB0_833:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1175
-# %bb.834:
-	xor	eax, eax
-	jmp	.LBB0_1177
-.LBB0_835:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1369
-# %bb.836:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_837:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 224], ymm3
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_837
-	jmp	.LBB0_1370
-.LBB0_838:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1377
-# %bb.839:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_840:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 224], ymm3
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_840
-	jmp	.LBB0_1378
-.LBB0_841:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1385
-# %bb.842:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_843:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbq	ymm0, dword ptr [rdx + rdi]
-	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 4]
-	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 8]
-	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 12]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovsxbq	ymm0, dword ptr [rdx + rdi + 16]
-	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 20]
-	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 24]
-	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 28]
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_843
-	jmp	.LBB0_1386
-.LBB0_844:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1393
-# %bb.845:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_846:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi + 32]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 40]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 48]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 56]
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_846
-	jmp	.LBB0_1394
-.LBB0_847:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1401
-# %bb.848:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_849:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_849
-	jmp	.LBB0_1402
-.LBB0_860:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1409
-# %bb.861:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_862:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_862
-	jmp	.LBB0_1410
-.LBB0_863:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1417
-# %bb.864:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_865:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_865
-	jmp	.LBB0_1418
-.LBB0_866:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1425
-# %bb.867:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_868:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbq	ymm0, dword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 4] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 8] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 12] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-	vpmovzxbq	ymm0, dword ptr [rdx + rdi + 16] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 20] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 24] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 28] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_868
-	jmp	.LBB0_1426
-.LBB0_869:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1433
-# %bb.870:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_871:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_871
-	jmp	.LBB0_1434
-.LBB0_872:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1441
-# %bb.873:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_874:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 208]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 192]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 240]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 224]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_874
-	jmp	.LBB0_1442
-.LBB0_875:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1449
-# %bb.876:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_877:                              # =>This Inner Loop Header: Depth=1
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vpackusdw	xmm0, xmm0, xmm0
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpackuswb	xmm0, xmm0, xmm0
-	vpackusdw	xmm1, xmm1, xmm1
-	vpackuswb	xmm1, xmm1, xmm1
-	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 64]
-	vpackusdw	xmm1, xmm1, xmm1
-	vpackuswb	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 96]
-	vpackusdw	xmm2, xmm2, xmm2
-	vpackuswb	xmm2, xmm2, xmm2
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
-	vpackusdw	xmm0, xmm0, xmm0
-	vpackuswb	xmm0, xmm0, xmm0
-	vpackusdw	xmm1, xmm1, xmm1
-	vpackuswb	xmm1, xmm1, xmm1
-	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 192]
-	vpackusdw	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 224]
-	vpackuswb	xmm1, xmm1, xmm1
-	vpackusdw	xmm2, xmm2, xmm2
-	vpackuswb	xmm2, xmm2, xmm2
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm0
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_877
-	jmp	.LBB0_1450
-.LBB0_878:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1457
-# %bb.879:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_880:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + rdi]
-	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovups	ymmword ptr [rcx + rdi], ymm0
-	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
-	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB0_880
-	jmp	.LBB0_1458
-.LBB0_881:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1465
-# %bb.882:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_883:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 208]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 192]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 224]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_883
-	jmp	.LBB0_1466
-.LBB0_884:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1473
-# %bb.885:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_886:                              # =>This Inner Loop Header: Depth=1
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm4
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 128]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 160]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 192]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 224]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 112], xmm4
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_886
-	jmp	.LBB0_1474
-.LBB0_887:
-	mov	esi, r9d
-	and	esi, -64
-	lea	rax, [rsi - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1481
-# %bb.888:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-.LBB0_889:                              # =>This Inner Loop Header: Depth=1
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm4
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 128]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 160]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 192]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 224]
-	vextracti128	xmm5, ymm4, 1
-	vpackuswb	xmm4, xmm4, xmm5
-	vmovdqu	xmmword ptr [rcx + rdi + 64], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 96], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 112], xmm4
-	sub	rdi, -128
-	add	rax, 2
-	jne	.LBB0_889
-	jmp	.LBB0_1482
-.LBB0_890:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1489
-# %bb.891:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_892:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 208]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 192]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 224]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
-	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_892
-	jmp	.LBB0_1490
-.LBB0_893:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1497
-# %bb.894:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_895:                              # =>This Inner Loop Header: Depth=1
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vpackssdw	xmm0, xmm0, xmm1
-	vextracti128	xmm1, ymm2, 1
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vpackssdw	xmm1, xmm2, xmm1
-	vextracti128	xmm2, ymm3, 1
-	vcvttps2dq	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpackssdw	xmm2, xmm3, xmm2
-	vextracti128	xmm3, ymm4, 1
-	vpackssdw	xmm3, xmm4, xmm3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpackuswb	ymm2, ymm2, ymm0
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vpackuswb	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vextracti128	xmm1, ymm0, 1
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vpackssdw	xmm0, xmm0, xmm1
-	vextracti128	xmm1, ymm2, 1
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vpackssdw	xmm1, xmm2, xmm1
-	vextracti128	xmm2, ymm3, 1
-	vcvttps2dq	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpackssdw	xmm2, xmm3, xmm2
-	vextracti128	xmm3, ymm4, 1
-	vpackssdw	xmm3, xmm4, xmm3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpackuswb	ymm2, ymm2, ymm0
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vpackuswb	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm0
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_895
-	jmp	.LBB0_1498
-.LBB0_896:
-	mov	esi, r9d
-	and	esi, -128
-	lea	rax, [rsi - 128]
-	mov	r8, rax
-	shr	r8, 7
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1505
-# %bb.897:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_898:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + rdi]
-	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovups	ymmword ptr [rcx + rdi], ymm0
-	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
-	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
-	add	rdi, 256
-	add	rax, 2
-	jne	.LBB0_898
-	jmp	.LBB0_1506
-.LBB0_899:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1513
-# %bb.900:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_901:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm1
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 144]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 176]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 208]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 192]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 240]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 224]
-	vpshufb	xmm5, xmm5, xmm0
-	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
-	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm1
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_901
-	jmp	.LBB0_1514
-.LBB0_902:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1521
-# %bb.903:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_904:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_904
-	jmp	.LBB0_1522
-.LBB0_905:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1529
-# %bb.906:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_907:                              # =>This Inner Loop Header: Depth=1
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi + 32]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 40]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 48]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 56]
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_907
-	jmp	.LBB0_1530
-.LBB0_908:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1537
-# %bb.909:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_910:                              # =>This Inner Loop Header: Depth=1
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_910
-	jmp	.LBB0_1538
-.LBB0_911:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1545
-# %bb.912:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_913:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
-	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
-	add	rdi, 64
-	add	rax, 2
-	jne	.LBB0_913
-	jmp	.LBB0_1546
-.LBB0_793:
-	and	r10, -4
-	neg	r10
-	xor	eax, eax
-	vmovsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
-.LBB0_794:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rax + 8] # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rbx, xmm2
-	vmovsd	xmm2, qword ptr [rdx + 8*rax]   # xmm2 = mem[0],zero
-	xor	rbx, r11
-	vcvttsd2si	rsi, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rsi, rbx
-	vsubsd	xmm1, xmm2, xmm0
-	vcvttsd2si	rbx, xmm1
-	xor	rbx, r11
-	vcvttsd2si	rdi, xmm2
-	vucomisd	xmm2, xmm0
-	vmovq	xmm1, rsi
-	cmovae	rdi, rbx
-	vmovq	xmm2, rdi
-	vmovsd	xmm3, qword ptr [rdx + 8*rax + 24] # xmm3 = mem[0],zero
-	vsubsd	xmm4, xmm3, xmm0
-	vcvttsd2si	rsi, xmm4
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm3
-	vucomisd	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovsd	xmm2, qword ptr [rdx + 8*rax + 16] # xmm2 = mem[0],zero
-	vsubsd	xmm3, xmm2, xmm0
-	vcvttsd2si	rsi, xmm3
-	vmovq	xmm3, rdi
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm2
-	vucomisd	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rax + 40] # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rsi, xmm2
-	vmovsd	xmm2, qword ptr [rdx + 8*rax + 32] # xmm2 = mem[0],zero
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rdi, rsi
-	vsubsd	xmm1, xmm2, xmm0
-	vcvttsd2si	rsi, xmm1
-	xor	rsi, r11
-	vcvttsd2si	rbx, xmm2
-	vucomisd	xmm2, xmm0
-	vmovq	xmm1, rdi
-	cmovae	rbx, rsi
-	vmovq	xmm2, rbx
-	vmovsd	xmm3, qword ptr [rdx + 8*rax + 56] # xmm3 = mem[0],zero
-	vsubsd	xmm4, xmm3, xmm0
-	vcvttsd2si	rsi, xmm4
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm3
-	vucomisd	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovsd	xmm2, qword ptr [rdx + 8*rax + 48] # xmm2 = mem[0],zero
-	vsubsd	xmm3, xmm2, xmm0
-	vcvttsd2si	rsi, xmm3
-	vmovq	xmm3, rdi
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm2
-	vucomisd	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax + 32], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rax + 72] # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rsi, xmm2
-	vmovsd	xmm2, qword ptr [rdx + 8*rax + 64] # xmm2 = mem[0],zero
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rdi, rsi
-	vsubsd	xmm1, xmm2, xmm0
-	vcvttsd2si	rsi, xmm1
-	xor	rsi, r11
-	vcvttsd2si	rbx, xmm2
-	vucomisd	xmm2, xmm0
-	vmovq	xmm1, rdi
-	cmovae	rbx, rsi
-	vmovq	xmm2, rbx
-	vmovsd	xmm3, qword ptr [rdx + 8*rax + 88] # xmm3 = mem[0],zero
-	vsubsd	xmm4, xmm3, xmm0
-	vcvttsd2si	rsi, xmm4
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm3
-	vucomisd	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovsd	xmm2, qword ptr [rdx + 8*rax + 80] # xmm2 = mem[0],zero
-	vsubsd	xmm3, xmm2, xmm0
-	vcvttsd2si	rsi, xmm3
-	vmovq	xmm3, rdi
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm2
-	vucomisd	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax + 64], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rax + 104] # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rsi, xmm2
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rdi, rsi
-	vmovsd	xmm1, qword ptr [rdx + 8*rax + 96] # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rsi, xmm2
-	xor	rsi, r11
-	vcvttsd2si	rbx, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rbx, rsi
-	vmovq	xmm1, rdi
-	vmovq	xmm2, rbx
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovsd	xmm2, qword ptr [rdx + 8*rax + 120] # xmm2 = mem[0],zero
-	vsubsd	xmm3, xmm2, xmm0
-	vcvttsd2si	rsi, xmm3
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm2
-	vucomisd	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vmovsd	xmm3, qword ptr [rdx + 8*rax + 112] # xmm3 = mem[0],zero
-	vsubsd	xmm4, xmm3, xmm0
-	vcvttsd2si	rsi, xmm4
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm3
-	vucomisd	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm3, rdi
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 112], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax + 96], xmm1
-	add	rax, 16
-	add	r10, 4
-	jne	.LBB0_794
-.LBB0_795:
-	test	r8, r8
-	je	.LBB0_798
-# %bb.796:
-	shl	rax, 3
-	neg	r8
-	vmovsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
-.LBB0_797:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + rax + 8] # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rsi, xmm2
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rdi, rsi
-	vmovsd	xmm1, qword ptr [rdx + rax]     # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rsi, xmm2
-	xor	rsi, r11
-	vcvttsd2si	rbx, xmm1
-	vucomisd	xmm1, xmm0
-	cmovae	rbx, rsi
-	vmovq	xmm1, rdi
-	vmovq	xmm2, rbx
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovsd	xmm2, qword ptr [rdx + rax + 24] # xmm2 = mem[0],zero
-	vsubsd	xmm3, xmm2, xmm0
-	vcvttsd2si	rsi, xmm3
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm2
-	vucomisd	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vmovsd	xmm3, qword ptr [rdx + rax + 16] # xmm3 = mem[0],zero
-	vsubsd	xmm4, xmm3, xmm0
-	vcvttsd2si	rsi, xmm4
-	xor	rsi, r11
-	vcvttsd2si	rdi, xmm3
-	vucomisd	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm3, rdi
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + rax + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_797
-.LBB0_798:
-	cmp	r14, r9
-	je	.LBB0_1553
-.LBB0_799:
-	vmovsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
-.LBB0_800:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*r14]   # xmm1 = mem[0],zero
-	vsubsd	xmm2, xmm1, xmm0
-	vcvttsd2si	rax, xmm2
-	xor	rax, r11
-	vcvttsd2si	rsi, xmm1
-	vucomisd	xmm0, xmm1
-	cmovbe	rsi, rax
-	mov	qword ptr [rcx + 8*r14], rsi
-	add	r14, 1
-	cmp	r9, r14
-	jne	.LBB0_800
-	jmp	.LBB0_1553
-.LBB0_810:
-	and	r10, -4
-	neg	r10
-	xor	eax, eax
-	vmovss	xmm0, dword ptr [rip + .LCPI0_1] # xmm0 = mem[0],zero,zero,zero
-	movabs	r11, -9223372036854775808
-.LBB0_811:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rax + 4] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rdi, xmm2
-	vmovss	xmm2, dword ptr [rdx + 4*rax]   # xmm2 = mem[0],zero,zero,zero
-	xor	rdi, r11
-	vcvttss2si	rbx, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rbx, rdi
-	vsubss	xmm1, xmm2, xmm0
-	vcvttss2si	rdi, xmm1
-	xor	rdi, r11
-	vcvttss2si	rsi, xmm2
-	vucomiss	xmm2, xmm0
-	vmovq	xmm1, rbx
-	cmovae	rsi, rdi
-	vmovq	xmm2, rsi
-	vmovss	xmm3, dword ptr [rdx + 4*rax + 12] # xmm3 = mem[0],zero,zero,zero
-	vsubss	xmm4, xmm3, xmm0
-	vcvttss2si	rsi, xmm4
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm3
-	vucomiss	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovss	xmm2, dword ptr [rdx + 4*rax + 8] # xmm2 = mem[0],zero,zero,zero
-	vsubss	xmm3, xmm2, xmm0
-	vcvttss2si	rsi, xmm3
-	vmovq	xmm3, rdi
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm2
-	vucomiss	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rax + 20] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	vmovss	xmm2, dword ptr [rdx + 4*rax + 16] # xmm2 = mem[0],zero,zero,zero
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rdi, rsi
-	vsubss	xmm1, xmm2, xmm0
-	vcvttss2si	rsi, xmm1
-	xor	rsi, r11
-	vcvttss2si	rbx, xmm2
-	vucomiss	xmm2, xmm0
-	vmovq	xmm1, rdi
-	cmovae	rbx, rsi
-	vmovq	xmm2, rbx
-	vmovss	xmm3, dword ptr [rdx + 4*rax + 28] # xmm3 = mem[0],zero,zero,zero
-	vsubss	xmm4, xmm3, xmm0
-	vcvttss2si	rsi, xmm4
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm3
-	vucomiss	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovss	xmm2, dword ptr [rdx + 4*rax + 24] # xmm2 = mem[0],zero,zero,zero
-	vsubss	xmm3, xmm2, xmm0
-	vcvttss2si	rsi, xmm3
-	vmovq	xmm3, rdi
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm2
-	vucomiss	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax + 32], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rax + 36] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	vmovss	xmm2, dword ptr [rdx + 4*rax + 32] # xmm2 = mem[0],zero,zero,zero
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rdi, rsi
-	vsubss	xmm1, xmm2, xmm0
-	vcvttss2si	rsi, xmm1
-	xor	rsi, r11
-	vcvttss2si	rbx, xmm2
-	vucomiss	xmm2, xmm0
-	vmovq	xmm1, rdi
-	cmovae	rbx, rsi
-	vmovq	xmm2, rbx
-	vmovss	xmm3, dword ptr [rdx + 4*rax + 44] # xmm3 = mem[0],zero,zero,zero
-	vsubss	xmm4, xmm3, xmm0
-	vcvttss2si	rsi, xmm4
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm3
-	vucomiss	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovss	xmm2, dword ptr [rdx + 4*rax + 40] # xmm2 = mem[0],zero,zero,zero
-	vsubss	xmm3, xmm2, xmm0
-	vcvttss2si	rsi, xmm3
-	vmovq	xmm3, rdi
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm2
-	vucomiss	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 80], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax + 64], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rax + 52] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rdi, rsi
-	vmovss	xmm1, dword ptr [rdx + 4*rax + 48] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	xor	rsi, r11
-	vcvttss2si	rbx, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rbx, rsi
-	vmovq	xmm1, rdi
-	vmovq	xmm2, rbx
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovss	xmm2, dword ptr [rdx + 4*rax + 60] # xmm2 = mem[0],zero,zero,zero
-	vsubss	xmm3, xmm2, xmm0
-	vcvttss2si	rsi, xmm3
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm2
-	vucomiss	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vmovss	xmm3, dword ptr [rdx + 4*rax + 56] # xmm3 = mem[0],zero,zero,zero
-	vsubss	xmm4, xmm3, xmm0
-	vcvttss2si	rsi, xmm4
-	xor	rsi, r11
-	vcvttss2si	rdi, xmm3
-	vucomiss	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm3, rdi
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + 8*rax + 112], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rax + 96], xmm1
-	add	rax, 16
-	add	r10, 4
-	jne	.LBB0_811
-.LBB0_812:
-	test	r8, r8
-	je	.LBB0_815
-# %bb.813:
-	shl	rax, 2
-	neg	r8
-	vmovss	xmm0, dword ptr [rip + .LCPI0_1] # xmm0 = mem[0],zero,zero,zero
-	movabs	r10, -9223372036854775808
-.LBB0_814:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + rax + 4] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	xor	rsi, r10
-	vcvttss2si	rbx, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rbx, rsi
-	vmovss	xmm1, dword ptr [rdx + rax]     # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	xor	rsi, r10
-	vcvttss2si	rdi, xmm1
-	vucomiss	xmm1, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm1, rbx
-	vmovq	xmm2, rdi
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vmovss	xmm2, dword ptr [rdx + rax + 12] # xmm2 = mem[0],zero,zero,zero
-	vsubss	xmm3, xmm2, xmm0
-	vcvttss2si	rsi, xmm3
-	xor	rsi, r10
-	vcvttss2si	rdi, xmm2
-	vucomiss	xmm2, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm2, rdi
-	vmovss	xmm3, dword ptr [rdx + rax + 8] # xmm3 = mem[0],zero,zero,zero
-	vsubss	xmm4, xmm3, xmm0
-	vcvttss2si	rsi, xmm4
-	xor	rsi, r10
-	vcvttss2si	rdi, xmm3
-	vucomiss	xmm3, xmm0
-	cmovae	rdi, rsi
-	vmovq	xmm3, rdi
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vmovdqu	xmmword ptr [rcx + 2*rax + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rax], xmm1
-	add	rax, 16
-	inc	r8
-	jne	.LBB0_814
-.LBB0_815:
-	cmp	r14, r9
-	je	.LBB0_1553
-.LBB0_816:
-	vmovss	xmm0, dword ptr [rip + .LCPI0_1] # xmm0 = mem[0],zero,zero,zero
-	movabs	rax, -9223372036854775808
-.LBB0_817:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*r14]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm2, xmm1, xmm0
-	vcvttss2si	rsi, xmm2
-	xor	rsi, rax
-	vcvttss2si	rdi, xmm1
-	vucomiss	xmm0, xmm1
-	cmovbe	rdi, rsi
-	mov	qword ptr [rcx + 8*r14], rdi
-	add	r14, 1
-	cmp	r9, r14
-	jne	.LBB0_817
-	jmp	.LBB0_1553
-.LBB0_850:
-	and	r10, -4
-	neg	r10
-	xor	eax, eax
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_10] # ymm0 = [1,1,1,1]
-.LBB0_851:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax]
-	vpand	ymm2, ymm1, ymm0
-	vpsrlq	ymm3, ymm1, 1
-	vpor	ymm2, ymm3, ymm2
-	vblendvpd	ymm1, ymm1, ymm2, ymm1
-	vpextrq	rdi, xmm1, 1
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm3, xmm5, rdi
-	vextracti128	xmm1, ymm1, 1
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm4, xmm5, rdi
-	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
-	vpextrq	rdi, xmm1, 1
-	vinsertps	xmm1, xmm2, xmm4, 32    # xmm1 = xmm2[0,1],xmm4[0],xmm2[3]
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vinsertps	xmm1, xmm1, xmm2, 48    # xmm1 = xmm1[0,1,2],xmm2[0]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rax]
-	vpackssdw	xmm2, xmm2, xmmword ptr [rdx + 8*rax + 16]
-	vaddps	xmm3, xmm1, xmm1
-	vblendvps	xmm1, xmm1, xmm3, xmm2
-	vmovups	xmmword ptr [rcx + 4*rax], xmm1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 32]
-	vpand	ymm2, ymm1, ymm0
-	vpsrlq	ymm3, ymm1, 1
-	vpor	ymm2, ymm3, ymm2
-	vblendvpd	ymm1, ymm1, ymm2, ymm1
-	vpextrq	rdi, xmm1, 1
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm3, xmm5, rdi
-	vextracti128	xmm1, ymm1, 1
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm4, xmm5, rdi
-	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
-	vpextrq	rdi, xmm1, 1
-	vinsertps	xmm1, xmm2, xmm4, 32    # xmm1 = xmm2[0,1],xmm4[0],xmm2[3]
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vinsertps	xmm1, xmm1, xmm2, 48    # xmm1 = xmm1[0,1,2],xmm2[0]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rax + 32]
-	vpackssdw	xmm2, xmm2, xmmword ptr [rdx + 8*rax + 48]
-	vaddps	xmm3, xmm1, xmm1
-	vblendvps	xmm1, xmm1, xmm3, xmm2
-	vmovups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 64]
-	vpand	ymm2, ymm1, ymm0
-	vpsrlq	ymm3, ymm1, 1
-	vpor	ymm2, ymm3, ymm2
-	vblendvpd	ymm1, ymm1, ymm2, ymm1
-	vpextrq	rdi, xmm1, 1
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm3, xmm5, rdi
-	vextracti128	xmm1, ymm1, 1
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm4, xmm5, rdi
-	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
-	vpextrq	rdi, xmm1, 1
-	vinsertps	xmm1, xmm2, xmm4, 32    # xmm1 = xmm2[0,1],xmm4[0],xmm2[3]
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vinsertps	xmm1, xmm1, xmm2, 48    # xmm1 = xmm1[0,1,2],xmm2[0]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rax + 64]
-	vpackssdw	xmm2, xmm2, xmmword ptr [rdx + 8*rax + 80]
-	vaddps	xmm3, xmm1, xmm1
-	vblendvps	xmm1, xmm1, xmm3, xmm2
-	vmovups	xmmword ptr [rcx + 4*rax + 32], xmm1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 96]
-	vpand	ymm2, ymm1, ymm0
-	vpsrlq	ymm3, ymm1, 1
-	vpor	ymm2, ymm3, ymm2
-	vblendvpd	ymm1, ymm1, ymm2, ymm1
-	vpextrq	rdi, xmm1, 1
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm3, xmm5, rdi
-	vextracti128	xmm1, ymm1, 1
-	vpextrq	r11, xmm1, 1
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm1, xmm5, rdi
-	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
-	vcvtsi2ss	xmm3, xmm5, r11
-	vinsertps	xmm1, xmm2, xmm1, 32    # xmm1 = xmm2[0,1],xmm1[0],xmm2[3]
-	vinsertps	xmm1, xmm1, xmm3, 48    # xmm1 = xmm1[0,1,2],xmm3[0]
-	vaddps	xmm2, xmm1, xmm1
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rax + 96]
-	vpackssdw	xmm3, xmm3, xmmword ptr [rdx + 8*rax + 112]
-	vblendvps	xmm1, xmm1, xmm2, xmm3
-	vmovups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	add	rax, 16
-	add	r10, 4
-	jne	.LBB0_851
-.LBB0_852:
-	test	r8, r8
-	je	.LBB0_855
-# %bb.853:
-	shl	rax, 2
-	neg	r8
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_10] # ymm0 = [1,1,1,1]
-.LBB0_854:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rax]
-	vpand	ymm2, ymm1, ymm0
-	vpsrlq	ymm3, ymm1, 1
-	vpor	ymm2, ymm3, ymm2
-	vblendvpd	ymm1, ymm1, ymm2, ymm1
-	vpextrq	rdi, xmm1, 1
-	vcvtsi2ss	xmm2, xmm5, rdi
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm3, xmm5, rdi
-	vextracti128	xmm1, ymm1, 1
-	vpextrq	r10, xmm1, 1
-	vmovq	rdi, xmm1
-	vcvtsi2ss	xmm1, xmm5, rdi
-	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
-	vcvtsi2ss	xmm3, xmm5, r10
-	vinsertps	xmm1, xmm2, xmm1, 32    # xmm1 = xmm2[0,1],xmm1[0],xmm2[3]
-	vinsertps	xmm1, xmm1, xmm3, 48    # xmm1 = xmm1[0,1,2],xmm3[0]
-	vaddps	xmm2, xmm1, xmm1
-	vmovdqu	xmm3, xmmword ptr [rdx + 2*rax]
-	vpackssdw	xmm3, xmm3, xmmword ptr [rdx + 2*rax + 16]
-	vblendvps	xmm1, xmm1, xmm2, xmm3
-	vmovups	xmmword ptr [rcx + rax], xmm1
-	add	rax, 16
-	inc	r8
-	jne	.LBB0_854
-.LBB0_855:
-	cmp	rsi, r9
-	jne	.LBB0_858
-	jmp	.LBB0_1553
-.LBB0_856:                              #   in Loop: Header=BB0_858 Depth=1
-	vcvtsi2ss	xmm0, xmm5, rax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	je	.LBB0_1553
-.LBB0_858:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	test	rax, rax
-	jns	.LBB0_856
-# %bb.859:                              #   in Loop: Header=BB0_858 Depth=1
-	mov	rdi, rax
-	shr	rdi
-	and	eax, 1
-	or	rax, rdi
-	vcvtsi2ss	xmm0, xmm5, rax
-	vaddss	xmm0, xmm0, xmm0
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_858
-	jmp	.LBB0_1553
-.LBB0_914:
-	xor	edi, edi
-.LBB0_915:
-	test	r8b, 1
-	je	.LBB0_917
-# %bb.916:
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_917:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_918:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_918
-	jmp	.LBB0_1553
-.LBB0_919:
-	xor	edi, edi
-.LBB0_920:
-	test	r8b, 1
-	je	.LBB0_922
-# %bb.921:
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vxorpd	xmm4, xmm4, xmm4
-	vpblendd	ymm5, ymm0, ymm4, 170           # ymm5 = ymm0[0],ymm4[1],ymm0[2],ymm4[3],ymm0[4],ymm4[5],ymm0[6],ymm4[7]
-	vpbroadcastq	ymm6, qword ptr [rip + .LCPI0_5] # ymm6 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
-	vpor	ymm5, ymm5, ymm6
-	vpsrlq	ymm0, ymm0, 32
-	vpbroadcastq	ymm7, qword ptr [rip + .LCPI0_6] # ymm7 = [4985484787499139072,4985484787499139072,4985484787499139072,4985484787499139072]
-	vpor	ymm0, ymm0, ymm7
-	vbroadcastsd	ymm8, qword ptr [rip + .LCPI0_7] # ymm8 = [1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25]
-	vsubpd	ymm0, ymm0, ymm8
-	vaddpd	ymm0, ymm5, ymm0
-	vpblendd	ymm5, ymm1, ymm4, 170           # ymm5 = ymm1[0],ymm4[1],ymm1[2],ymm4[3],ymm1[4],ymm4[5],ymm1[6],ymm4[7]
-	vpor	ymm5, ymm5, ymm6
-	vpsrlq	ymm1, ymm1, 32
-	vpor	ymm1, ymm1, ymm7
-	vsubpd	ymm1, ymm1, ymm8
-	vaddpd	ymm1, ymm5, ymm1
-	vpblendd	ymm5, ymm2, ymm4, 170           # ymm5 = ymm2[0],ymm4[1],ymm2[2],ymm4[3],ymm2[4],ymm4[5],ymm2[6],ymm4[7]
-	vpor	ymm5, ymm5, ymm6
-	vpsrlq	ymm2, ymm2, 32
-	vpor	ymm2, ymm2, ymm7
-	vsubpd	ymm2, ymm2, ymm8
-	vaddpd	ymm2, ymm5, ymm2
-	vpblendd	ymm4, ymm3, ymm4, 170           # ymm4 = ymm3[0],ymm4[1],ymm3[2],ymm4[3],ymm3[4],ymm4[5],ymm3[6],ymm4[7]
-	vpor	ymm4, ymm4, ymm6
-	vpsrlq	ymm3, ymm3, 32
-	vpor	ymm3, ymm3, ymm7
-	vsubpd	ymm3, ymm3, ymm8
-	vaddpd	ymm3, ymm4, ymm3
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_922:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_923:
-	vmovapd	xmm0, xmmword ptr [rip + .LCPI0_8] # xmm0 = [1127219200,1160773632,0,0]
-	vmovapd	xmm1, xmmword ptr [rip + .LCPI0_9] # xmm1 = [4.503599627370496E+15,1.9342813113834067E+25]
-.LBB0_924:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm2, qword ptr [rdx + 8*rsi]   # xmm2 = mem[0],zero
-	vunpcklps	xmm2, xmm2, xmm0        # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	vsubpd	xmm2, xmm2, xmm1
-	vpermilpd	xmm3, xmm2, 1           # xmm3 = xmm2[1,0]
-	vaddsd	xmm2, xmm3, xmm2
-	vmovsd	qword ptr [rcx + 8*rsi], xmm2
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_924
-	jmp	.LBB0_1553
-.LBB0_925:
-	xor	edi, edi
-.LBB0_926:
-	test	r8b, 1
-	je	.LBB0_928
-# %bb.927:
-	vcvtdq2pd	ymm0, xmmword ptr [rdx + 4*rdi]
-	vcvtdq2pd	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vcvtdq2pd	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vcvtdq2pd	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_928:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_929:                              # =>This Inner Loop Header: Depth=1
-	vcvtsi2sd	xmm0, xmm4, dword ptr [rdx + 4*rsi]
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_929
-	jmp	.LBB0_1553
-.LBB0_930:
-	xor	edi, edi
-.LBB0_931:
-	test	r8b, 1
-	je	.LBB0_933
-# %bb.932:
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_933:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_934:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_934
-	jmp	.LBB0_1553
-.LBB0_935:
-	xor	edi, edi
-.LBB0_936:
-	test	r8b, 1
-	je	.LBB0_938
-# %bb.937:
-	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_938:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_939:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_939
-	jmp	.LBB0_1553
-.LBB0_940:
-	xor	edi, edi
-.LBB0_941:
-	test	r8b, 1
-	je	.LBB0_943
-# %bb.942:
-	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi]
-	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 8]
-	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 16]
-	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_943:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_944:                              # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_944
-	jmp	.LBB0_1553
-.LBB0_945:
-	xor	edi, edi
-.LBB0_946:
-	test	r8b, 1
-	je	.LBB0_948
-# %bb.947:
-	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi]
-	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_948:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_949:                              # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_949
-	jmp	.LBB0_1553
-.LBB0_950:
-	xor	edi, edi
-.LBB0_951:
-	test	r8b, 1
-	je	.LBB0_953
-# %bb.952:
-	vpxor	xmm0, xmm0, xmm0
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm0 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm0, ymm6, xmm0, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm0, ymm5, ymm0
-	vpackusdw	ymm0, ymm0, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vpackusdw	ymm1, ymm1, ymm2
-	vpackusdw	ymm1, ymm1, ymm0
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-.LBB0_953:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_954:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_954
-	jmp	.LBB0_1553
-.LBB0_955:
-	xor	edi, edi
-.LBB0_956:
-	test	r8b, 1
-	je	.LBB0_958
-# %bb.957:
-	vpxor	xmm0, xmm0, xmm0
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm0 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm0, ymm6, xmm0, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm0, ymm5, ymm0
-	vpackusdw	ymm0, ymm0, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vpackusdw	ymm1, ymm1, ymm2
-	vpackusdw	ymm1, ymm1, ymm0
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-.LBB0_958:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_959:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_959
-	jmp	.LBB0_1553
-.LBB0_960:
-	xor	edi, edi
-.LBB0_961:
-	test	r8b, 1
-	je	.LBB0_963
-# %bb.962:
-	vpxor	xmm0, xmm0, xmm0
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm0 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm0, ymm6, xmm0, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm0, ymm5, ymm0
-	vpackusdw	ymm0, ymm0, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vpackusdw	ymm1, ymm1, ymm2
-	vpackusdw	ymm1, ymm1, ymm0
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-.LBB0_963:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_964:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_964
-	jmp	.LBB0_1553
-.LBB0_965:
-	xor	edi, edi
-.LBB0_966:
-	test	r8b, 1
-	je	.LBB0_968
-# %bb.967:
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_11] # ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-	vpshufb	ymm0, ymm0, ymm4
-	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
-	vpshufb	ymm1, ymm1, ymm4
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm4
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm4
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-.LBB0_968:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_969:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_969
-	jmp	.LBB0_1553
-.LBB0_970:
-	xor	edi, edi
-.LBB0_971:
-	test	r8b, 1
-	je	.LBB0_973
-# %bb.972:
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_11] # ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-	vpshufb	ymm0, ymm0, ymm4
-	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
-	vpshufb	ymm1, ymm1, ymm4
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm4
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm4
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-.LBB0_973:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_974:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_974
-	jmp	.LBB0_1553
-.LBB0_975:
-	xor	edi, edi
-.LBB0_976:
-	test	r8b, 1
-	je	.LBB0_978
-# %bb.977:
-	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_978:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_979:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_979
-	jmp	.LBB0_1553
-.LBB0_980:
-	xor	edi, edi
-.LBB0_981:
-	test	r8b, 1
-	je	.LBB0_983
-# %bb.982:
-	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi]
-	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_983:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_984:                              # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_984
-	jmp	.LBB0_1553
-.LBB0_985:
-	xor	edi, edi
-.LBB0_986:
-	test	r8b, 1
-	je	.LBB0_988
-# %bb.987:
-	vcvtdq2ps	ymm0, ymmword ptr [rdx + 4*rdi]
-	vcvtdq2ps	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vcvtdq2ps	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vcvtdq2ps	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_988:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_989:                              # =>This Inner Loop Header: Depth=1
-	vcvtsi2ss	xmm0, xmm4, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_989
-	jmp	.LBB0_1553
-.LBB0_990:
-	xor	edi, edi
-.LBB0_991:
-	test	r8b, 1
-	je	.LBB0_993
-# %bb.992:
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovupd	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovupd	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_993:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_994:                              # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_994
-	jmp	.LBB0_1553
-.LBB0_995:
-	xor	edi, edi
-.LBB0_996:
-	test	r8b, 1
-	je	.LBB0_998
-# %bb.997:
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_998:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_999:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_999
-	jmp	.LBB0_1553
-.LBB0_1000:
-	xor	edi, edi
-.LBB0_1001:
-	test	r8b, 1
-	je	.LBB0_1003
-# %bb.1002:
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1003:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1004:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1004
-	jmp	.LBB0_1553
-.LBB0_1005:
-	xor	edi, edi
-.LBB0_1006:
-	test	r8b, 1
-	je	.LBB0_1008
-# %bb.1007:
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1008:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1009:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1009
-	jmp	.LBB0_1553
-.LBB0_1010:
-	xor	edi, edi
-.LBB0_1011:
-	test	r8b, 1
-	je	.LBB0_1013
-# %bb.1012:
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_1013:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1014:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1014
-	jmp	.LBB0_1553
-.LBB0_1015:
-	xor	edi, edi
-.LBB0_1016:
-	test	r8b, 1
-	je	.LBB0_1018
-# %bb.1017:
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1018:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1019:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1019
-	jmp	.LBB0_1553
-.LBB0_1020:
-	xor	edi, edi
-.LBB0_1021:
-	test	r8b, 1
-	je	.LBB0_1023
-# %bb.1022:
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1023:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1024:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1024
-	jmp	.LBB0_1553
-.LBB0_1025:
-	xor	edi, edi
-.LBB0_1026:
-	test	r8b, 1
-	je	.LBB0_1028
-# %bb.1027:
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1028:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1029:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1029
-	jmp	.LBB0_1553
-.LBB0_1030:
-	xor	edi, edi
-.LBB0_1031:
-	test	r8b, 1
-	je	.LBB0_1033
-# %bb.1032:
-	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
-	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
-	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
-	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_1033:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1034:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1034
-	jmp	.LBB0_1553
-.LBB0_1035:
-	xor	edi, edi
-.LBB0_1036:
-	test	r8b, 1
-	je	.LBB0_1038
-# %bb.1037:
-	vmovups	xmm0, xmmword ptr [rdx + 4*rdi]
-	vbroadcastss	xmm1, dword ptr [rip + .LCPI0_2] # xmm1 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	vcmpltps	xmm2, xmm0, xmm1
-	vsubps	xmm3, xmm0, xmm1
-	vcvttps2dq	xmm3, xmm3
-	vbroadcastss	xmm4, dword ptr [rip + .LCPI0_3] # xmm4 = [2147483648,2147483648,2147483648,2147483648]
-	vxorps	xmm3, xmm3, xmm4
-	vcvttps2dq	xmm0, xmm0
-	vblendvps	xmm0, xmm3, xmm0, xmm2
-	vmovups	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vcmpltps	xmm3, xmm2, xmm1
-	vsubps	xmm5, xmm2, xmm1
-	vcvttps2dq	xmm5, xmm5
-	vxorps	xmm5, xmm5, xmm4
-	vcvttps2dq	xmm2, xmm2
-	vblendvps	xmm2, xmm5, xmm2, xmm3
-	vmovups	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vcmpltps	xmm5, xmm3, xmm1
-	vsubps	xmm6, xmm3, xmm1
-	vcvttps2dq	xmm6, xmm6
-	vxorps	xmm6, xmm6, xmm4
-	vcvttps2dq	xmm3, xmm3
-	vblendvps	xmm3, xmm6, xmm3, xmm5
-	vmovups	xmm5, xmmword ptr [rdx + 4*rdi + 48]
-	vcmpltps	xmm6, xmm5, xmm1
-	vsubps	xmm1, xmm5, xmm1
-	vcvttps2dq	xmm1, xmm1
-	vxorps	xmm1, xmm1, xmm4
-	vcvttps2dq	xmm4, xmm5
-	vblendvps	xmm1, xmm1, xmm4, xmm6
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm3
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm1
-.LBB0_1038:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1039:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	rax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1039
-	jmp	.LBB0_1553
-.LBB0_1040:
-	xor	edi, edi
-.LBB0_1041:
-	test	r8b, 1
-	je	.LBB0_1043
-# %bb.1042:
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpbroadcastq	ymm4, qword ptr [rip + .LCPI0_5] # ymm4 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
-	vpor	ymm0, ymm0, ymm4
-	vsubpd	ymm0, ymm0, ymm4
-	vpor	ymm1, ymm1, ymm4
-	vsubpd	ymm1, ymm1, ymm4
-	vpor	ymm2, ymm2, ymm4
-	vsubpd	ymm2, ymm2, ymm4
-	vpor	ymm3, ymm3, ymm4
-	vsubpd	ymm3, ymm3, ymm4
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1043:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1044:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	vcvtsi2sd	xmm0, xmm5, rax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1044
-	jmp	.LBB0_1553
-.LBB0_1045:
-	xor	edi, edi
-.LBB0_1046:
-	test	r8b, 1
-	je	.LBB0_1048
-# %bb.1047:
-	vpmovzxwd	xmm0, qword ptr [rdx + 2*rdi] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm2, qword ptr [rdx + 2*rdi + 16] # xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxwd	xmm3, qword ptr [rdx + 2*rdi + 24] # xmm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1048:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1049:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1049
-	jmp	.LBB0_1553
-.LBB0_1050:
-	xor	edi, edi
-.LBB0_1051:
-	test	r8b, 1
-	je	.LBB0_1053
-# %bb.1052:
-	vpmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	vpmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	vpmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	xmm3, qword ptr [rdx + 2*rdi + 24]
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1053:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1054:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	vcvtsi2sd	xmm0, xmm4, eax
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1054
-	jmp	.LBB0_1553
-.LBB0_1055:
-	xor	edi, edi
-.LBB0_1056:
-	test	r8b, 1
-	je	.LBB0_1058
-# %bb.1057:
-	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	vpextrq	rax, xmm0, 1
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovq	rax, xmm0
-	vcvtsi2sd	xmm0, xmm11, rax
-	vunpcklpd	xmm8, xmm0, xmm4        # xmm8 = xmm0[0],xmm4[0]
-	vpextrq	rax, xmm1, 1
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovq	rax, xmm1
-	vcvtsi2sd	xmm1, xmm11, rax
-	vunpcklpd	xmm1, xmm1, xmm4        # xmm1 = xmm1[0],xmm4[0]
-	vpextrq	rax, xmm2, 1
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovq	rax, xmm2
-	vcvtsi2sd	xmm2, xmm11, rax
-	vunpcklpd	xmm2, xmm2, xmm4        # xmm2 = xmm2[0],xmm4[0]
-	vpextrq	rax, xmm3, 1
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovq	rax, xmm3
-	vcvtsi2sd	xmm3, xmm11, rax
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 80]
-	vpextrq	rax, xmm5, 1
-	vcvtsi2sd	xmm6, xmm11, rax
-	vmovq	rax, xmm5
-	vcvtsi2sd	xmm5, xmm11, rax
-	vmovdqu	xmm7, xmmword ptr [rdx + 8*rdi + 64]
-	vpextrq	rax, xmm7, 1
-	vcvtsi2sd	xmm0, xmm11, rax
-	vunpcklpd	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0]
-	vmovq	rax, xmm7
-	vcvtsi2sd	xmm4, xmm11, rax
-	vunpcklpd	xmm5, xmm5, xmm6        # xmm5 = xmm5[0],xmm6[0]
-	vmovdqu	xmm6, xmmword ptr [rdx + 8*rdi + 112]
-	vpextrq	rax, xmm6, 1
-	vunpcklpd	xmm0, xmm4, xmm0        # xmm0 = xmm4[0],xmm0[0]
-	vcvtsi2sd	xmm4, xmm11, rax
-	vmovq	rax, xmm6
-	vcvtsi2sd	xmm6, xmm11, rax
-	vunpcklpd	xmm4, xmm6, xmm4        # xmm4 = xmm6[0],xmm4[0]
-	vmovdqu	xmm6, xmmword ptr [rdx + 8*rdi + 96]
-	vpextrq	rax, xmm6, 1
-	vcvtsi2sd	xmm7, xmm11, rax
-	vmovq	rax, xmm6
-	vcvtsi2sd	xmm6, xmm11, rax
-	vunpcklpd	xmm6, xmm6, xmm7        # xmm6 = xmm6[0],xmm7[0]
-	vmovupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-	vmovupd	xmmword ptr [rcx + 8*rdi], xmm8
-	vmovupd	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	vmovupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	vmovupd	xmmword ptr [rcx + 8*rdi + 64], xmm0
-	vmovupd	xmmword ptr [rcx + 8*rdi + 80], xmm5
-	vmovupd	xmmword ptr [rcx + 8*rdi + 96], xmm6
-	vmovupd	xmmword ptr [rcx + 8*rdi + 112], xmm4
-.LBB0_1058:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1059:                             # =>This Inner Loop Header: Depth=1
-	vcvtsi2sd	xmm0, xmm11, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1059
-	jmp	.LBB0_1553
-.LBB0_1060:
-	xor	edi, edi
-.LBB0_1061:
-	test	r8b, 1
-	je	.LBB0_1063
-# %bb.1062:
-	vcvtps2pd	ymm0, xmmword ptr [rdx + 4*rdi]
-	vcvtps2pd	ymm1, xmmword ptr [rdx + 4*rdi + 16]
-	vcvtps2pd	ymm2, xmmword ptr [rdx + 4*rdi + 32]
-	vcvtps2pd	ymm3, xmmword ptr [rdx + 4*rdi + 48]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1063:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1064:                             # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vcvtss2sd	xmm0, xmm0, xmm0
-	vmovsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1064
-	jmp	.LBB0_1553
-.LBB0_1065:
-	xor	edi, edi
-.LBB0_1066:
-	test	r8b, 1
-	je	.LBB0_1068
-# %bb.1067:
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_11] # ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-	vpshufb	ymm0, ymm0, ymm4
-	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
-	vpshufb	ymm1, ymm1, ymm4
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm4
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm4
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-.LBB0_1068:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1069:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1069
-	jmp	.LBB0_1553
-.LBB0_1070:
-	xor	edi, edi
-.LBB0_1071:
-	test	r8b, 1
-	je	.LBB0_1073
-# %bb.1072:
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_11] # ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
-	vpshufb	ymm0, ymm0, ymm4
-	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
-	vpshufb	ymm1, ymm1, ymm4
-	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
-	vpshufb	ymm2, ymm2, ymm4
-	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
-	vpshufb	ymm3, ymm3, ymm4
-	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-.LBB0_1073:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1074:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1074
-	jmp	.LBB0_1553
-.LBB0_1075:
-	xor	edi, edi
-.LBB0_1076:
-	test	r8b, 1
-	je	.LBB0_1078
-# %bb.1077:
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vinsertf128	ymm2, ymm2, xmm3, 1
-	vpackusdw	ymm2, ymm2, ymm0
-	vinsertf128	ymm0, ymm0, xmm1, 1
-	vpackusdw	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-.LBB0_1078:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1079:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1079
-	jmp	.LBB0_1553
-.LBB0_1080:
-	xor	edi, edi
-.LBB0_1081:
-	test	r8b, 1
-	je	.LBB0_1083
-# %bb.1082:
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vinsertf128	ymm2, ymm2, xmm3, 1
-	vpackssdw	ymm2, ymm2, ymm0
-	vinsertf128	ymm0, ymm0, xmm1, 1
-	vpackssdw	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-.LBB0_1083:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1084:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1084
-	jmp	.LBB0_1553
-.LBB0_1085:
-	xor	edi, edi
-.LBB0_1086:
-	test	r8b, 1
-	je	.LBB0_1088
-# %bb.1087:
-	vpxor	xmm0, xmm0, xmm0
-	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vpblendw	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm0 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
-	vinserti128	ymm0, ymm6, xmm0, 1
-	vinserti128	ymm5, ymm5, xmm7, 1
-	vpackusdw	ymm0, ymm5, ymm0
-	vpackusdw	ymm0, ymm0, ymm0
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vpackusdw	ymm1, ymm1, ymm2
-	vpackusdw	ymm1, ymm1, ymm0
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-.LBB0_1088:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1089:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1089
-	jmp	.LBB0_1553
-.LBB0_1090:
-	xor	edi, edi
-.LBB0_1091:
-	test	r8b, 1
-	je	.LBB0_1093
-# %bb.1092:
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vpackusdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vextracti128	xmm2, ymm1, 1
-	vpackusdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vextracti128	xmm3, ymm2, 1
-	vpackusdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vextracti128	xmm4, ymm3, 1
-	vpackusdw	xmm3, xmm3, xmm4
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-.LBB0_1093:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1094:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1094
-	jmp	.LBB0_1553
-.LBB0_1095:
-	xor	edi, edi
-.LBB0_1096:
-	test	r8b, 1
-	je	.LBB0_1098
-# %bb.1097:
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
-	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
-.LBB0_1098:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1099:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1099
-	jmp	.LBB0_1553
-.LBB0_1100:
-	xor	edi, edi
-.LBB0_1101:
-	test	r8b, 1
-	je	.LBB0_1103
-# %bb.1102:
-	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1103:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1104:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1104
-	jmp	.LBB0_1553
-.LBB0_1105:
-	xor	edi, edi
-.LBB0_1106:
-	test	r8b, 1
-	je	.LBB0_1108
-# %bb.1107:
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpbroadcastd	ymm3, dword ptr [rip + .LCPI0_13] # ymm3 = [1258291200,1258291200,1258291200,1258291200,1258291200,1258291200,1258291200,1258291200]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpblendw	ymm5, ymm0, ymm3, 170           # ymm5 = ymm0[0],ymm3[1],ymm0[2],ymm3[3],ymm0[4],ymm3[5],ymm0[6],ymm3[7],ymm0[8],ymm3[9],ymm0[10],ymm3[11],ymm0[12],ymm3[13],ymm0[14],ymm3[15]
-	vpbroadcastd	ymm6, dword ptr [rip + .LCPI0_14] # ymm6 = [1392508928,1392508928,1392508928,1392508928,1392508928,1392508928,1392508928,1392508928]
-	vpsrld	ymm0, ymm0, 16
-	vpblendw	ymm0, ymm0, ymm6, 170           # ymm0 = ymm0[0],ymm6[1],ymm0[2],ymm6[3],ymm0[4],ymm6[5],ymm0[6],ymm6[7],ymm0[8],ymm6[9],ymm0[10],ymm6[11],ymm0[12],ymm6[13],ymm0[14],ymm6[15]
-	vbroadcastss	ymm7, dword ptr [rip + .LCPI0_15] # ymm7 = [5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11]
-	vsubps	ymm0, ymm0, ymm7
-	vaddps	ymm0, ymm5, ymm0
-	vpblendw	ymm5, ymm1, ymm3, 170           # ymm5 = ymm1[0],ymm3[1],ymm1[2],ymm3[3],ymm1[4],ymm3[5],ymm1[6],ymm3[7],ymm1[8],ymm3[9],ymm1[10],ymm3[11],ymm1[12],ymm3[13],ymm1[14],ymm3[15]
-	vpsrld	ymm1, ymm1, 16
-	vpblendw	ymm1, ymm1, ymm6, 170           # ymm1 = ymm1[0],ymm6[1],ymm1[2],ymm6[3],ymm1[4],ymm6[5],ymm1[6],ymm6[7],ymm1[8],ymm6[9],ymm1[10],ymm6[11],ymm1[12],ymm6[13],ymm1[14],ymm6[15]
-	vsubps	ymm1, ymm1, ymm7
-	vaddps	ymm1, ymm5, ymm1
-	vpblendw	ymm5, ymm2, ymm3, 170           # ymm5 = ymm2[0],ymm3[1],ymm2[2],ymm3[3],ymm2[4],ymm3[5],ymm2[6],ymm3[7],ymm2[8],ymm3[9],ymm2[10],ymm3[11],ymm2[12],ymm3[13],ymm2[14],ymm3[15]
-	vpsrld	ymm2, ymm2, 16
-	vpblendw	ymm2, ymm2, ymm6, 170           # ymm2 = ymm2[0],ymm6[1],ymm2[2],ymm6[3],ymm2[4],ymm6[5],ymm2[6],ymm6[7],ymm2[8],ymm6[9],ymm2[10],ymm6[11],ymm2[12],ymm6[13],ymm2[14],ymm6[15]
-	vsubps	ymm2, ymm2, ymm7
-	vaddps	ymm2, ymm5, ymm2
-	vpblendw	ymm3, ymm4, ymm3, 170           # ymm3 = ymm4[0],ymm3[1],ymm4[2],ymm3[3],ymm4[4],ymm3[5],ymm4[6],ymm3[7],ymm4[8],ymm3[9],ymm4[10],ymm3[11],ymm4[12],ymm3[13],ymm4[14],ymm3[15]
-	vpsrld	ymm4, ymm4, 16
-	vpblendw	ymm4, ymm4, ymm6, 170           # ymm4 = ymm4[0],ymm6[1],ymm4[2],ymm6[3],ymm4[4],ymm6[5],ymm4[6],ymm6[7],ymm4[8],ymm6[9],ymm4[10],ymm6[11],ymm4[12],ymm6[13],ymm4[14],ymm6[15]
-	vsubps	ymm4, ymm4, ymm7
-	vaddps	ymm3, ymm3, ymm4
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1108:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1109:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	vcvtsi2ss	xmm0, xmm8, rax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1109
-	jmp	.LBB0_1553
-.LBB0_1110:
-	xor	edi, edi
-.LBB0_1111:
-	test	r8b, 1
-	je	.LBB0_1113
-# %bb.1112:
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 8]
-	vmovq	xmm0, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi]
-	vmovq	xmm1, rax
-	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 24]
-	vmovq	xmm1, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 16]
-	vmovq	xmm2, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 56]
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 48]
-	vmovq	xmm2, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 40]
-	vmovq	xmm3, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 32]
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vmovq	xmm3, rax
-	vmovq	xmm4, rbx
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 88]
-	vmovq	xmm4, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 80]
-	vmovq	xmm5, rax
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 72]
-	vmovq	xmm5, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 64]
-	vmovq	xmm6, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 120]
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 112]
-	vmovq	xmm6, rax
-	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 104]
-	vmovq	xmm7, rbx
-	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 96]
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
-	vmovq	xmm7, rbx
-	vpunpcklqdq	xmm0, xmm7, xmm0        # xmm0 = xmm7[0],xmm0[0]
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 8*rdi], xmm8
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 64], xmm5
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 80], xmm4
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 96], xmm0
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 112], xmm6
-.LBB0_1113:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1114:                             # =>This Inner Loop Header: Depth=1
-	vcvttsd2si	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1114
-	jmp	.LBB0_1553
-.LBB0_1115:
-	xor	edi, edi
-.LBB0_1116:
-	test	r8b, 1
-	je	.LBB0_1118
-# %bb.1117:
-	vcvtpd2ps	xmm0, ymmword ptr [rdx + 8*rdi]
-	vcvtpd2ps	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vcvtpd2ps	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vcvtpd2ps	xmm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovupd	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovupd	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_1118:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1119:                             # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vcvtsd2ss	xmm0, xmm0, xmm0
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1119
-	jmp	.LBB0_1553
-.LBB0_1120:
-	xor	edi, edi
-.LBB0_1121:
-	test	r8b, 1
-	je	.LBB0_1123
-# %bb.1122:
-	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1123:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1124:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1124
-	jmp	.LBB0_1553
-.LBB0_1125:
-	xor	edi, edi
-.LBB0_1126:
-	test	r8b, 1
-	je	.LBB0_1128
-# %bb.1127:
-	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi]
-	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 8]
-	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 16]
-	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1128:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1129:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1129
-	jmp	.LBB0_1553
-.LBB0_1130:
-	xor	edi, edi
-.LBB0_1131:
-	test	r8b, 1
-	je	.LBB0_1133
-# %bb.1132:
-	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
-	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
-	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
-	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1133:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1134:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	vcvtsi2ss	xmm0, xmm4, eax
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1134
-	jmp	.LBB0_1553
-.LBB0_1135:
-	xor	edi, edi
-.LBB0_1136:
-	test	r8b, 1
-	je	.LBB0_1138
-# %bb.1137:
-	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	vpextrq	rax, xmm0, 1
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	vcvtsi2ss	xmm2, xmm8, rax
-	vmovq	rax, xmm0
-	vcvtsi2ss	xmm0, xmm8, rax
-	vmovq	rax, xmm1
-	vcvtsi2ss	xmm3, xmm8, rax
-	vpextrq	rax, xmm1, 1
-	vcvtsi2ss	xmm1, xmm8, rax
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 48]
-	vpextrq	rax, xmm4, 1
-	vinsertps	xmm0, xmm0, xmm2, 16    # xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
-	vcvtsi2ss	xmm2, xmm8, rax
-	vmovq	rax, xmm4
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovq	rax, xmm5
-	vcvtsi2ss	xmm6, xmm8, rax
-	vinsertps	xmm0, xmm0, xmm3, 32    # xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
-	vinsertps	xmm0, xmm0, xmm1, 48    # xmm0 = xmm0[0,1,2],xmm1[0]
-	vpextrq	rax, xmm5, 1
-	vinsertps	xmm1, xmm4, xmm2, 16    # xmm1 = xmm4[0],xmm2[0],xmm4[2,3]
-	vcvtsi2ss	xmm2, xmm8, rax
-	vinsertps	xmm1, xmm1, xmm6, 32    # xmm1 = xmm1[0,1],xmm6[0],xmm1[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpextrq	rax, xmm3, 1
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovq	rax, xmm3
-	vcvtsi2ss	xmm3, xmm8, rax
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 80]
-	vmovq	rax, xmm5
-	vcvtsi2ss	xmm6, xmm8, rax
-	vinsertps	xmm1, xmm1, xmm2, 48    # xmm1 = xmm1[0,1,2],xmm2[0]
-	vinsertps	xmm2, xmm3, xmm4, 16    # xmm2 = xmm3[0],xmm4[0],xmm3[2,3]
-	vpextrq	rax, xmm5, 1
-	vinsertps	xmm2, xmm2, xmm6, 32    # xmm2 = xmm2[0,1],xmm6[0],xmm2[3]
-	vcvtsi2ss	xmm3, xmm8, rax
-	vinsertps	xmm2, xmm2, xmm3, 48    # xmm2 = xmm2[0,1,2],xmm3[0]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 96]
-	vpextrq	rax, xmm3, 1
-	vcvtsi2ss	xmm4, xmm8, rax
-	vmovq	rax, xmm3
-	vcvtsi2ss	xmm3, xmm8, rax
-	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 112]
-	vmovq	rax, xmm5
-	vcvtsi2ss	xmm6, xmm8, rax
-	vinsertps	xmm3, xmm3, xmm4, 16    # xmm3 = xmm3[0],xmm4[0],xmm3[2,3]
-	vinsertps	xmm3, xmm3, xmm6, 32    # xmm3 = xmm3[0,1],xmm6[0],xmm3[3]
-	vpextrq	rax, xmm5, 1
-	vcvtsi2ss	xmm4, xmm8, rax
-	vinsertps	xmm3, xmm3, xmm4, 48    # xmm3 = xmm3[0,1,2],xmm4[0]
-	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
-	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
-	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
-.LBB0_1138:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1139:                             # =>This Inner Loop Header: Depth=1
-	vcvtsi2ss	xmm0, xmm8, qword ptr [rdx + 8*rsi]
-	vmovss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1139
-	jmp	.LBB0_1553
-.LBB0_1140:
-	xor	edi, edi
-.LBB0_1141:
-	test	r8b, 1
-	je	.LBB0_1143
-# %bb.1142:
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 4]
-	vmovq	xmm0, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi]
-	vmovq	xmm1, rax
-	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 12]
-	vmovq	xmm1, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 8]
-	vmovq	xmm2, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 28]
-	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 24]
-	vmovq	xmm2, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 20]
-	vmovq	xmm3, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 16]
-	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
-	vmovq	xmm3, rax
-	vmovq	xmm4, rbx
-	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 44]
-	vmovq	xmm4, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 40]
-	vmovq	xmm5, rax
-	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 36]
-	vmovq	xmm5, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 32]
-	vmovq	xmm6, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 60]
-	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 56]
-	vmovq	xmm6, rax
-	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 52]
-	vmovq	xmm7, rbx
-	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 48]
-	vmovq	xmm0, rax
-	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
-	vmovq	xmm7, rbx
-	vpunpcklqdq	xmm0, xmm7, xmm0        # xmm0 = xmm7[0],xmm0[0]
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
-	vmovdqu	xmmword ptr [rcx + 8*rdi], xmm8
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 48], xmm2
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 64], xmm5
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 80], xmm4
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 96], xmm0
-	vmovdqu	xmmword ptr [rcx + 8*rdi + 112], xmm6
-.LBB0_1143:
-	cmp	rsi, r9
-	je	.LBB0_1553
-.LBB0_1144:                             # =>This Inner Loop Header: Depth=1
-	vcvttss2si	rax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1144
-.LBB0_1553:
-	lea	rsp, [rbp - 16]
-	pop	rbx
-	pop	r14
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_1145:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1146:                             # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovups	ymmword ptr [rcx + 2*rax], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
-	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
-	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
-	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
-	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1146
-.LBB0_1147:
-	test	r8, r8
-	je	.LBB0_1150
-# %bb.1148:
-	add	rax, rax
-	add	rax, 32
-	neg	r8
-.LBB0_1149:                             # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
-	vmovupd	ymm1, ymmword ptr [rdx + rax]
-	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax], ymm1
-	add	rax, 64
-	inc	r8
-	jne	.LBB0_1149
-.LBB0_1150:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1151
-.LBB0_1155:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1156:                             # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovups	ymmword ptr [rcx + 2*rax], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
-	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
-	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
-	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
-	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1156
-.LBB0_1157:
-	test	r8, r8
-	je	.LBB0_1160
-# %bb.1158:
-	add	rax, rax
-	add	rax, 32
-	neg	r8
-.LBB0_1159:                             # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
-	vmovupd	ymm1, ymmword ptr [rdx + rax]
-	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax], ymm1
-	add	rax, 64
-	inc	r8
-	jne	.LBB0_1159
-.LBB0_1160:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1161
-.LBB0_1165:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1166:                             # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovups	ymmword ptr [rcx + 2*rax], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
-	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
-	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
-	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
-	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1166
-.LBB0_1167:
-	test	r8, r8
-	je	.LBB0_1170
-# %bb.1168:
-	add	rax, rax
-	add	rax, 32
-	neg	r8
-.LBB0_1169:                             # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
-	vmovupd	ymm1, ymmword ptr [rdx + rax]
-	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax], ymm1
-	add	rax, 64
-	inc	r8
-	jne	.LBB0_1169
-.LBB0_1170:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1171
-.LBB0_1175:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1176:                             # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovups	ymmword ptr [rcx + 2*rax], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
-	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
-	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
-	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
-	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
-	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
-	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
-	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
-	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
-	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1176
-.LBB0_1177:
-	test	r8, r8
-	je	.LBB0_1180
-# %bb.1178:
-	add	rax, rax
-	add	rax, 32
-	neg	r8
-.LBB0_1179:                             # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
-	vmovupd	ymm1, ymmword ptr [rdx + rax]
-	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
-	vmovupd	ymmword ptr [rcx + rax], ymm1
-	add	rax, 64
-	inc	r8
-	jne	.LBB0_1179
-.LBB0_1180:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1181
-.LBB0_1185:
-	xor	edi, edi
-.LBB0_1186:
-	test	r8b, 1
-	je	.LBB0_1188
-# %bb.1187:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1188:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1189
-.LBB0_1193:
-	xor	edi, edi
-.LBB0_1194:
-	test	r8b, 1
-	je	.LBB0_1196
-# %bb.1195:
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1196:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1197
-.LBB0_1201:
-	xor	edi, edi
-.LBB0_1202:
-	test	r8b, 1
-	je	.LBB0_1204
-# %bb.1203:
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1204:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1205
-.LBB0_1209:
-	xor	edi, edi
-.LBB0_1210:
-	test	r8b, 1
-	je	.LBB0_1212
-# %bb.1211:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1212:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1213
-.LBB0_1217:
-	xor	edi, edi
-.LBB0_1218:
-	test	r8b, 1
-	je	.LBB0_1220
-# %bb.1219:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1220:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1221
-.LBB0_1225:
-	xor	edi, edi
-.LBB0_1226:
-	test	r8b, 1
-	je	.LBB0_1228
-# %bb.1227:
-	vpmovsxbd	xmm0, dword ptr [rdx + rdi]
-	vpmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	vpmovsxbd	xmm2, dword ptr [rdx + rdi + 8]
-	vpmovsxbd	xmm3, dword ptr [rdx + rdi + 12]
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1228:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1229
-.LBB0_1233:
-	xor	edi, edi
-.LBB0_1234:
-	test	r8b, 1
-	je	.LBB0_1236
-# %bb.1235:
-	vpmovzxbd	xmm0, dword ptr [rdx + rdi] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm2, dword ptr [rdx + rdi + 8] # xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vpmovzxbd	xmm3, dword ptr [rdx + rdi + 12] # xmm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	vcvtdq2pd	ymm0, xmm0
-	vcvtdq2pd	ymm1, xmm1
-	vcvtdq2pd	ymm2, xmm2
-	vcvtdq2pd	ymm3, xmm3
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1236:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1237
-.LBB0_1241:
-	xor	edi, edi
-.LBB0_1242:
-	test	r8b, 1
-	je	.LBB0_1244
-# %bb.1243:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm0, xmm5, xmm0
-	vpunpckldq	xmm0, xmm0, xmm4        # xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-.LBB0_1244:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1245
-.LBB0_1249:
-	xor	edi, edi
-.LBB0_1250:
-	test	r8b, 1
-	je	.LBB0_1252
-# %bb.1251:
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vpackssdw	xmm0, xmm0, xmm0
-	vpacksswb	xmm0, xmm0, xmm0
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpackssdw	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpacksswb	xmm1, xmm1, xmm1
-	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-	vpackssdw	xmm1, xmm2, xmm2
-	vpacksswb	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 96]
-	vpackssdw	xmm2, xmm2, xmm2
-	vpacksswb	xmm2, xmm2, xmm2
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1252:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1253
-.LBB0_1257:
-	xor	edi, edi
-.LBB0_1258:
-	test	r8b, 1
-	je	.LBB0_1260
-# %bb.1259:
-	vmovupd	ymm0, ymmword ptr [rdx + rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovupd	ymmword ptr [rcx + rdi], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
-.LBB0_1260:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1261
-.LBB0_1265:
-	xor	edi, edi
-.LBB0_1266:
-	test	r8b, 1
-	je	.LBB0_1268
-# %bb.1267:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm0, xmm4, xmm0
-	vpunpcklwd	xmm0, xmm0, xmm3        # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
-	vpunpckldq	xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	vpunpcklqdq	xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1268:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1269
-.LBB0_1273:
-	xor	edi, edi
-.LBB0_1274:
-	test	r8b, 1
-	je	.LBB0_1276
-# %bb.1275:
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm4, ymm0, 1
-	vpackuswb	xmm0, xmm0, xmm4
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm0
-.LBB0_1276:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1277
-.LBB0_1281:
-	xor	edi, edi
-.LBB0_1282:
-	test	r8b, 1
-	je	.LBB0_1284
-# %bb.1283:
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm4, ymm0, 1
-	vpackuswb	xmm0, xmm0, xmm4
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm0
-.LBB0_1284:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1285
-.LBB0_1289:
-	xor	edi, edi
-.LBB0_1290:
-	test	r8b, 1
-	je	.LBB0_1292
-# %bb.1291:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm0, xmm4, xmm0
-	vpunpcklwd	xmm0, xmm0, xmm3        # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
-	vpunpckldq	xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	vpunpcklqdq	xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1292:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1293
-.LBB0_1297:
-	xor	edi, edi
-.LBB0_1298:
-	test	r8b, 1
-	je	.LBB0_1300
-# %bb.1299:
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpacksswb	ymm2, ymm2, ymm0
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vpacksswb	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-.LBB0_1300:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1301
-.LBB0_1305:
-	xor	edi, edi
-.LBB0_1306:
-	test	r8b, 1
-	je	.LBB0_1308
-# %bb.1307:
-	vmovupd	ymm0, ymmword ptr [rdx + rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovupd	ymmword ptr [rcx + rdi], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
-.LBB0_1308:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1309
-.LBB0_1313:
-	xor	edi, edi
-.LBB0_1314:
-	test	r8b, 1
-	je	.LBB0_1316
-# %bb.1315:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm0, xmm5, xmm0
-	vpunpckldq	xmm0, xmm0, xmm4        # xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-.LBB0_1316:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1317
-.LBB0_1321:
-	xor	edi, edi
-.LBB0_1322:
-	test	r8b, 1
-	je	.LBB0_1324
-# %bb.1323:
-	vpmovsxbq	ymm0, dword ptr [rdx + rdi]
-	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 4]
-	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 8]
-	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 12]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1324:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1325
-.LBB0_1329:
-	xor	edi, edi
-.LBB0_1330:
-	test	r8b, 1
-	je	.LBB0_1332
-# %bb.1331:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1332:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1333
-.LBB0_1337:
-	xor	edi, edi
-.LBB0_1338:
-	test	r8b, 1
-	je	.LBB0_1340
-# %bb.1339:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1340:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1341
-.LBB0_1345:
-	xor	edi, edi
-.LBB0_1346:
-	test	r8b, 1
-	je	.LBB0_1348
-# %bb.1347:
-	vpmovzxbq	ymm0, dword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 4] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 8] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 12] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1348:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1349
-.LBB0_1353:
-	xor	edi, edi
-.LBB0_1354:
-	test	r8b, 1
-	je	.LBB0_1356
-# %bb.1355:
-	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi]
-	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 16]
-	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 32]
-	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-.LBB0_1356:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1357
-.LBB0_1361:
-	xor	edi, edi
-.LBB0_1362:
-	test	r8b, 1
-	je	.LBB0_1364
-# %bb.1363:
-	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi]
-	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 16]
-	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 32]
-	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 48]
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-.LBB0_1364:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1365
-.LBB0_1369:
-	xor	edi, edi
-.LBB0_1370:
-	test	r8b, 1
-	je	.LBB0_1372
-# %bb.1371:
-	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-.LBB0_1372:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1373
-.LBB0_1377:
-	xor	edi, edi
-.LBB0_1378:
-	test	r8b, 1
-	je	.LBB0_1380
-# %bb.1379:
-	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
-	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
-.LBB0_1380:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1381
-.LBB0_1385:
-	xor	edi, edi
-.LBB0_1386:
-	test	r8b, 1
-	je	.LBB0_1388
-# %bb.1387:
-	vpmovsxbq	ymm0, dword ptr [rdx + rdi]
-	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 4]
-	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 8]
-	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 12]
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1388:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1389
-.LBB0_1393:
-	xor	edi, edi
-.LBB0_1394:
-	test	r8b, 1
-	je	.LBB0_1396
-# %bb.1395:
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1396:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1397
-.LBB0_1401:
-	xor	edi, edi
-.LBB0_1402:
-	test	r8b, 1
-	je	.LBB0_1404
-# %bb.1403:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1404:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1405
-.LBB0_1409:
-	xor	edi, edi
-.LBB0_1410:
-	test	r8b, 1
-	je	.LBB0_1412
-# %bb.1411:
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1412:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1413
-.LBB0_1417:
-	xor	edi, edi
-.LBB0_1418:
-	test	r8b, 1
-	je	.LBB0_1420
-# %bb.1419:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1420:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1421
-.LBB0_1425:
-	xor	edi, edi
-.LBB0_1426:
-	test	r8b, 1
-	je	.LBB0_1428
-# %bb.1427:
-	vpmovzxbq	ymm0, dword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 4] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 8] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 12] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
-.LBB0_1428:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1429
-.LBB0_1433:
-	xor	edi, edi
-.LBB0_1434:
-	test	r8b, 1
-	je	.LBB0_1436
-# %bb.1435:
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vcvtdq2ps	ymm0, ymm0
-	vcvtdq2ps	ymm1, ymm1
-	vcvtdq2ps	ymm2, ymm2
-	vcvtdq2ps	ymm3, ymm3
-	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1436:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1437
-.LBB0_1441:
-	xor	edi, edi
-.LBB0_1442:
-	test	r8b, 1
-	je	.LBB0_1444
-# %bb.1443:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm0, xmm5, xmm0
-	vpunpckldq	xmm0, xmm0, xmm4        # xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-.LBB0_1444:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1445
-.LBB0_1449:
-	xor	edi, edi
-.LBB0_1450:
-	test	r8b, 1
-	je	.LBB0_1452
-# %bb.1451:
-	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
-	vpackusdw	xmm0, xmm0, xmm0
-	vpackuswb	xmm0, xmm0, xmm0
-	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpackusdw	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpackuswb	xmm1, xmm1, xmm1
-	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-	vpackusdw	xmm1, xmm2, xmm2
-	vpackuswb	xmm1, xmm1, xmm1
-	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 96]
-	vpackusdw	xmm2, xmm2, xmm2
-	vpackuswb	xmm2, xmm2, xmm2
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1452:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1453
-.LBB0_1457:
-	xor	edi, edi
-.LBB0_1458:
-	test	r8b, 1
-	je	.LBB0_1460
-# %bb.1459:
-	vmovupd	ymm0, ymmword ptr [rdx + rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovupd	ymmword ptr [rcx + rdi], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
-.LBB0_1460:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1461
-.LBB0_1465:
-	xor	edi, edi
-.LBB0_1466:
-	test	r8b, 1
-	je	.LBB0_1468
-# %bb.1467:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm0, xmm4, xmm0
-	vpunpcklwd	xmm0, xmm0, xmm3        # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
-	vpunpckldq	xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	vpunpcklqdq	xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1468:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1469
-.LBB0_1473:
-	xor	edi, edi
-.LBB0_1474:
-	test	r8b, 1
-	je	.LBB0_1476
-# %bb.1475:
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm4, ymm0, 1
-	vpackuswb	xmm0, xmm0, xmm4
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm0
-.LBB0_1476:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1477
-.LBB0_1481:
-	xor	edi, edi
-.LBB0_1482:
-	test	r8b, 1
-	je	.LBB0_1484
-# %bb.1483:
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vextracti128	xmm2, ymm1, 1
-	vpackuswb	xmm1, xmm1, xmm2
-	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
-	vextracti128	xmm3, ymm2, 1
-	vpackuswb	xmm2, xmm2, xmm3
-	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vextracti128	xmm4, ymm3, 1
-	vpackuswb	xmm3, xmm3, xmm4
-	vpand	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 96]
-	vextracti128	xmm4, ymm0, 1
-	vpackuswb	xmm0, xmm0, xmm4
-	vmovdqu	xmmword ptr [rcx + rdi], xmm1
-	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
-	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
-	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm0
-.LBB0_1484:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1485
-.LBB0_1489:
-	xor	edi, edi
-.LBB0_1490:
-	test	r8b, 1
-	je	.LBB0_1492
-# %bb.1491:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
-	vpshufb	xmm2, xmm2, xmm0
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
-	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
-	vpshufb	xmm0, xmm4, xmm0
-	vpunpcklwd	xmm0, xmm0, xmm3        # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
-	vpunpckldq	xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	vpunpcklqdq	xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0]
-	vmovdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1492:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1493
-.LBB0_1497:
-	xor	edi, edi
-.LBB0_1498:
-	test	r8b, 1
-	je	.LBB0_1500
-# %bb.1499:
-	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
-	vextracti128	xmm1, ymm0, 1
-	vpackssdw	xmm0, xmm0, xmm1
-	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vextracti128	xmm2, ymm1, 1
-	vpackssdw	xmm1, xmm1, xmm2
-	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vextracti128	xmm3, ymm2, 1
-	vpackssdw	xmm2, xmm2, xmm3
-	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vextracti128	xmm4, ymm3, 1
-	vpackssdw	xmm3, xmm3, xmm4
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpackuswb	ymm2, ymm2, ymm0
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vpackuswb	ymm0, ymm0, ymm0
-	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-.LBB0_1500:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1501
-.LBB0_1505:
-	xor	edi, edi
-.LBB0_1506:
-	test	r8b, 1
-	je	.LBB0_1508
-# %bb.1507:
-	vmovupd	ymm0, ymmword ptr [rdx + rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
-	vmovupd	ymmword ptr [rcx + rdi], ymm0
-	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
-.LBB0_1508:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1509
-.LBB0_1513:
-	xor	edi, edi
-.LBB0_1514:
-	test	r8b, 1
-	je	.LBB0_1516
-# %bb.1515:
-	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	vpshufb	xmm2, xmm2, xmm0
-	vpshufb	xmm1, xmm1, xmm0
-	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-	vpshufb	xmm2, xmm4, xmm0
-	vpshufb	xmm3, xmm3, xmm0
-	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
-	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
-	vpshufb	xmm3, xmm3, xmm0
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
-	vpshufb	xmm4, xmm4, xmm0
-	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
-	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
-	vpshufb	xmm4, xmm4, xmm0
-	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
-	vpshufb	xmm0, xmm5, xmm0
-	vpunpckldq	xmm0, xmm0, xmm4        # xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
-	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
-	vmovdqu	ymmword ptr [rcx + rdi], ymm0
-.LBB0_1516:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1517
-.LBB0_1521:
-	xor	edi, edi
-.LBB0_1522:
-	test	r8b, 1
-	je	.LBB0_1524
-# %bb.1523:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1524:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1525
-.LBB0_1529:
-	xor	edi, edi
-.LBB0_1530:
-	test	r8b, 1
-	je	.LBB0_1532
-# %bb.1531:
-	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
-	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
-	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
-	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1532:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1533
-.LBB0_1537:
-	xor	edi, edi
-.LBB0_1538:
-	test	r8b, 1
-	je	.LBB0_1540
-# %bb.1539:
-	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
-	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1540:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1541
-.LBB0_1545:
-	xor	edi, edi
-.LBB0_1546:
-	test	r8b, 1
-	je	.LBB0_1548
-# %bb.1547:
-	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
-	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
-	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
-	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
-.LBB0_1548:
-	cmp	rsi, r9
-	je	.LBB0_1553
-	jmp	.LBB0_1549
-.Lfunc_end0:
-	.size	cast_type_numeric_avx2, .Lfunc_end0-cast_type_numeric_avx2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric_neon.s b/go/arrow/compute/internal/kernels/_lib/cast_numeric_neon.s
deleted file mode 100644
index d029bae0fae66..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/cast_numeric_neon.s
+++ /dev/null
@@ -1,6088 +0,0 @@
-	.text
-	.file	"cast_numeric.cc"
-	.globl	cast_type_numeric_neon          // -- Begin function cast_type_numeric_neon
-	.p2align	2
-	.type	cast_type_numeric_neon,@function
-cast_type_numeric_neon:                 // @cast_type_numeric_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!           // 16-byte Folded Spill
-	cmp	w0, #6                          // =6
-	mov	x29, sp
-	b.gt	.LBB0_17
-// %bb.1:
-	cmp	w0, #3                          // =3
-	b.le	.LBB0_29
-// %bb.2:
-	cmp	w0, #4                          // =4
-	b.eq	.LBB0_53
-// %bb.3:
-	cmp	w0, #5                          // =5
-	b.eq	.LBB0_61
-// %bb.4:
-	cmp	w0, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.5:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_109
-// %bb.6:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_191
-// %bb.7:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_347
-// %bb.8:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_350
-// %bb.9:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.10:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.11:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_14
-// %bb.12:
-	lsl	x9, x8, #2
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_894
-// %bb.13:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_894
-.LBB0_14:
-	mov	x9, xzr
-.LBB0_15:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_16:                               // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x10], #4
-	subs	x8, x8, #1                      // =1
-	str	w11, [x9], #4
-	b.ne	.LBB0_16
-	b	.LBB0_893
-.LBB0_17:
-	cmp	w0, #8                          // =8
-	b.le	.LBB0_43
-// %bb.18:
-	cmp	w0, #9                          // =9
-	b.eq	.LBB0_69
-// %bb.19:
-	cmp	w0, #11                         // =11
-	b.eq	.LBB0_77
-// %bb.20:
-	cmp	w0, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.21:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_116
-// %bb.22:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_200
-// %bb.23:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_353
-// %bb.24:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_356
-// %bb.25:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.26:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.27:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_643
-// %bb.28:
-	mov	x9, xzr
-	b	.LBB0_646
-.LBB0_29:
-	cmp	w0, #2                          // =2
-	b.eq	.LBB0_85
-// %bb.30:
-	cmp	w0, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.31:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_127
-// %bb.32:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_209
-// %bb.33:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_359
-// %bb.34:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_366
-// %bb.35:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.36:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.37:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_40
-// %bb.38:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_897
-// %bb.39:
-	add	x9, x3, x8, lsl #2
-	cmp	x9, x2
-	b.ls	.LBB0_897
-.LBB0_40:
-	mov	x9, xzr
-.LBB0_41:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9
-.LBB0_42:                               // =>This Inner Loop Header: Depth=1
-	ldrsb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_42
-	b	.LBB0_893
-.LBB0_43:
-	cmp	w0, #7                          // =7
-	b.eq	.LBB0_97
-// %bb.44:
-	cmp	w0, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.45:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_138
-// %bb.46:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_218
-// %bb.47:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_373
-// %bb.48:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_376
-// %bb.49:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.50:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.51:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_648
-// %bb.52:
-	mov	x9, xzr
-	b	.LBB0_651
-.LBB0_53:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_145
-// %bb.54:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_227
-// %bb.55:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_379
-// %bb.56:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_386
-// %bb.57:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.58:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.59:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_653
-// %bb.60:
-	mov	x9, xzr
-	b	.LBB0_656
-.LBB0_61:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_152
-// %bb.62:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_236
-// %bb.63:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_393
-// %bb.64:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_400
-// %bb.65:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.66:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.67:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_658
-// %bb.68:
-	mov	x9, xzr
-	b	.LBB0_661
-.LBB0_69:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_159
-// %bb.70:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_245
-// %bb.71:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_407
-// %bb.72:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_410
-// %bb.73:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.74:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.75:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_663
-// %bb.76:
-	mov	x9, xzr
-	b	.LBB0_666
-.LBB0_77:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_166
-// %bb.78:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_254
-// %bb.79:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_413
-// %bb.80:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_416
-// %bb.81:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.82:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.83:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_668
-// %bb.84:
-	mov	x9, xzr
-	b	.LBB0_671
-.LBB0_85:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_173
-// %bb.86:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_263
-// %bb.87:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_419
-// %bb.88:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_426
-// %bb.89:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.90:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.91:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_94
-// %bb.92:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_900
-// %bb.93:
-	add	x9, x3, x8, lsl #2
-	cmp	x9, x2
-	b.ls	.LBB0_900
-.LBB0_94:
-	mov	x9, xzr
-.LBB0_95:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9
-.LBB0_96:                               // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_96
-	b	.LBB0_893
-.LBB0_97:
-	cmp	w1, #6                          // =6
-	b.gt	.LBB0_184
-// %bb.98:
-	cmp	w1, #3                          // =3
-	b.le	.LBB0_272
-// %bb.99:
-	cmp	w1, #4                          // =4
-	b.eq	.LBB0_433
-// %bb.100:
-	cmp	w1, #5                          // =5
-	b.eq	.LBB0_436
-// %bb.101:
-	cmp	w1, #6                          // =6
-	b.ne	.LBB0_893
-// %bb.102:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.103:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_106
-// %bb.104:
-	lsl	x9, x8, #2
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_903
-// %bb.105:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_903
-.LBB0_106:
-	mov	x9, xzr
-.LBB0_107:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_108:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x10], #4
-	subs	x8, x8, #1                      // =1
-	str	w11, [x9], #4
-	b.ne	.LBB0_108
-	b	.LBB0_893
-.LBB0_109:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_281
-// %bb.110:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_439
-// %bb.111:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_442
-// %bb.112:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.113:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.114:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_673
-// %bb.115:
-	mov	x9, xzr
-	b	.LBB0_676
-.LBB0_116:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_286
-// %bb.117:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_445
-// %bb.118:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_448
-// %bb.119:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.120:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.121:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_124
-// %bb.122:
-	lsl	x9, x8, #3
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_906
-// %bb.123:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_906
-.LBB0_124:
-	mov	x9, xzr
-.LBB0_125:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_126:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1                      // =1
-	str	x11, [x9], #8
-	b.ne	.LBB0_126
-	b	.LBB0_893
-.LBB0_127:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_291
-// %bb.128:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_451
-// %bb.129:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_458
-// %bb.130:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.131:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.132:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_135
-// %bb.133:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_909
-// %bb.134:
-	add	x9, x3, x8, lsl #3
-	cmp	x9, x2
-	b.ls	.LBB0_909
-.LBB0_135:
-	mov	x9, xzr
-.LBB0_136:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9
-.LBB0_137:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	scvtf	d0, w11
-	str	d0, [x10], #8
-	b.ne	.LBB0_137
-	b	.LBB0_893
-.LBB0_138:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_300
-// %bb.139:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_465
-// %bb.140:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_472
-// %bb.141:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.142:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.143:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_678
-// %bb.144:
-	mov	x9, xzr
-	b	.LBB0_681
-.LBB0_145:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_309
-// %bb.146:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_475
-// %bb.147:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_478
-// %bb.148:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.149:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.150:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_683
-// %bb.151:
-	mov	x9, xzr
-	b	.LBB0_686
-.LBB0_152:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_314
-// %bb.153:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_481
-// %bb.154:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_484
-// %bb.155:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.156:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.157:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_688
-// %bb.158:
-	mov	x9, xzr
-	b	.LBB0_691
-.LBB0_159:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_319
-// %bb.160:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_487
-// %bb.161:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_494
-// %bb.162:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.163:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.164:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_693
-// %bb.165:
-	mov	x9, xzr
-	b	.LBB0_696
-.LBB0_166:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_328
-// %bb.167:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_497
-// %bb.168:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_500
-// %bb.169:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.170:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.171:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_698
-// %bb.172:
-	mov	x9, xzr
-	b	.LBB0_701
-.LBB0_173:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_333
-// %bb.174:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_507
-// %bb.175:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_514
-// %bb.176:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.177:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.178:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_181
-// %bb.179:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_912
-// %bb.180:
-	add	x9, x3, x8, lsl #3
-	cmp	x9, x2
-	b.ls	.LBB0_912
-.LBB0_181:
-	mov	x9, xzr
-.LBB0_182:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9
-.LBB0_183:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	ucvtf	d0, w11
-	str	d0, [x10], #8
-	b.ne	.LBB0_183
-	b	.LBB0_893
-.LBB0_184:
-	cmp	w1, #8                          // =8
-	b.le	.LBB0_342
-// %bb.185:
-	cmp	w1, #9                          // =9
-	b.eq	.LBB0_521
-// %bb.186:
-	cmp	w1, #11                         // =11
-	b.eq	.LBB0_524
-// %bb.187:
-	cmp	w1, #12                         // =12
-	b.ne	.LBB0_893
-// %bb.188:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.189:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_703
-// %bb.190:
-	mov	x9, xzr
-	b	.LBB0_706
-.LBB0_191:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_527
-// %bb.192:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.193:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.194:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_197
-// %bb.195:
-	add	x9, x2, x8, lsl #2
-	cmp	x9, x3
-	b.ls	.LBB0_915
-// %bb.196:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_915
-.LBB0_197:
-	mov	x9, xzr
-.LBB0_198:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #2
-.LBB0_199:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_199
-	b	.LBB0_893
-.LBB0_200:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_534
-// %bb.201:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.202:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.203:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_206
-// %bb.204:
-	add	x9, x2, x8, lsl #3
-	cmp	x9, x3
-	b.ls	.LBB0_918
-// %bb.205:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_918
-.LBB0_206:
-	mov	x9, xzr
-.LBB0_207:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #3
-.LBB0_208:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, d0
-	strb	w11, [x10], #1
-	b.ne	.LBB0_208
-	b	.LBB0_893
-.LBB0_209:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_541
-// %bb.210:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.211:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.212:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_215
-// %bb.213:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_921
-// %bb.214:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_921
-.LBB0_215:
-	mov	x9, xzr
-.LBB0_216:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9
-.LBB0_217:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_217
-	b	.LBB0_893
-.LBB0_218:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_548
-// %bb.219:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.220:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.221:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_224
-// %bb.222:
-	add	x9, x2, x8, lsl #3
-	cmp	x9, x3
-	b.ls	.LBB0_924
-// %bb.223:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_924
-.LBB0_224:
-	mov	x9, xzr
-.LBB0_225:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #3
-.LBB0_226:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_226
-	b	.LBB0_893
-.LBB0_227:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_555
-// %bb.228:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.229:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.230:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_233
-// %bb.231:
-	add	x9, x2, x8, lsl #1
-	cmp	x9, x3
-	b.ls	.LBB0_927
-// %bb.232:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_927
-.LBB0_233:
-	mov	x9, xzr
-.LBB0_234:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #1
-.LBB0_235:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_235
-	b	.LBB0_893
-.LBB0_236:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_562
-// %bb.237:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.238:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.239:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_242
-// %bb.240:
-	add	x9, x2, x8, lsl #1
-	cmp	x9, x3
-	b.ls	.LBB0_930
-// %bb.241:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_930
-.LBB0_242:
-	mov	x9, xzr
-.LBB0_243:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #1
-.LBB0_244:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_244
-	b	.LBB0_893
-.LBB0_245:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_569
-// %bb.246:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.247:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.248:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_251
-// %bb.249:
-	add	x9, x2, x8, lsl #3
-	cmp	x9, x3
-	b.ls	.LBB0_933
-// %bb.250:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_933
-.LBB0_251:
-	mov	x9, xzr
-.LBB0_252:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #3
-.LBB0_253:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_253
-	b	.LBB0_893
-.LBB0_254:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_576
-// %bb.255:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.256:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.257:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_260
-// %bb.258:
-	add	x9, x2, x8, lsl #2
-	cmp	x9, x3
-	b.ls	.LBB0_936
-// %bb.259:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_936
-.LBB0_260:
-	mov	x9, xzr
-.LBB0_261:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #2
-.LBB0_262:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, s0
-	strb	w11, [x10], #1
-	b.ne	.LBB0_262
-	b	.LBB0_893
-.LBB0_263:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_583
-// %bb.264:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.265:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.266:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_269
-// %bb.267:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_939
-// %bb.268:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_939
-.LBB0_269:
-	mov	x9, xzr
-.LBB0_270:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9
-.LBB0_271:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_271
-	b	.LBB0_893
-.LBB0_272:
-	cmp	w1, #2                          // =2
-	b.eq	.LBB0_590
-// %bb.273:
-	cmp	w1, #3                          // =3
-	b.ne	.LBB0_893
-// %bb.274:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.275:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_278
-// %bb.276:
-	add	x9, x2, x8, lsl #2
-	cmp	x9, x3
-	b.ls	.LBB0_942
-// %bb.277:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_942
-.LBB0_278:
-	mov	x9, xzr
-.LBB0_279:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #2
-.LBB0_280:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_280
-	b	.LBB0_893
-.LBB0_281:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_597
-// %bb.282:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.283:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.284:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_708
-// %bb.285:
-	mov	x9, xzr
-	b	.LBB0_711
-.LBB0_286:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_604
-// %bb.287:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.288:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.289:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_713
-// %bb.290:
-	mov	x9, xzr
-	b	.LBB0_716
-.LBB0_291:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_607
-// %bb.292:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.293:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.294:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_297
-// %bb.295:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_945
-// %bb.296:
-	add	x9, x3, x8, lsl #3
-	cmp	x9, x2
-	b.ls	.LBB0_945
-.LBB0_297:
-	mov	x9, xzr
-.LBB0_298:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9
-.LBB0_299:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	x11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_299
-	b	.LBB0_893
-.LBB0_300:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_614
-// %bb.301:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.302:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.303:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_306
-// %bb.304:
-	lsl	x9, x8, #3
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_948
-// %bb.305:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_948
-.LBB0_306:
-	mov	x9, xzr
-.LBB0_307:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_308:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1                      // =1
-	str	x11, [x9], #8
-	b.ne	.LBB0_308
-	b	.LBB0_893
-.LBB0_309:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_617
-// %bb.310:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.311:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.312:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_718
-// %bb.313:
-	mov	x9, xzr
-	b	.LBB0_721
-.LBB0_314:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_620
-// %bb.315:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.316:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.317:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_723
-// %bb.318:
-	mov	x9, xzr
-	b	.LBB0_726
-.LBB0_319:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_623
-// %bb.320:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.321:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.322:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_325
-// %bb.323:
-	lsl	x9, x8, #3
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_951
-// %bb.324:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_951
-.LBB0_325:
-	mov	x9, xzr
-.LBB0_326:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_327:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1                      // =1
-	str	x11, [x9], #8
-	b.ne	.LBB0_327
-	b	.LBB0_893
-.LBB0_328:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_626
-// %bb.329:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.330:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.331:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_728
-// %bb.332:
-	mov	x9, xzr
-	b	.LBB0_731
-.LBB0_333:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_629
-// %bb.334:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.335:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.336:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_339
-// %bb.337:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_954
-// %bb.338:
-	add	x9, x3, x8, lsl #3
-	cmp	x9, x2
-	b.ls	.LBB0_954
-.LBB0_339:
-	mov	x9, xzr
-.LBB0_340:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9
-.LBB0_341:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_341
-	b	.LBB0_893
-.LBB0_342:
-	cmp	w1, #7                          // =7
-	b.eq	.LBB0_636
-// %bb.343:
-	cmp	w1, #8                          // =8
-	b.ne	.LBB0_893
-// %bb.344:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.345:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_733
-// %bb.346:
-	mov	x9, xzr
-	b	.LBB0_736
-.LBB0_347:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.348:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_738
-// %bb.349:
-	mov	x9, xzr
-	b	.LBB0_741
-.LBB0_350:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.351:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_743
-// %bb.352:
-	mov	x9, xzr
-	b	.LBB0_746
-.LBB0_353:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.354:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_748
-// %bb.355:
-	mov	x9, xzr
-	b	.LBB0_751
-.LBB0_356:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.357:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_753
-// %bb.358:
-	mov	x9, xzr
-	b	.LBB0_756
-.LBB0_359:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.360:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_363
-// %bb.361:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_957
-// %bb.362:
-	add	x9, x3, x8, lsl #1
-	cmp	x9, x2
-	b.ls	.LBB0_957
-.LBB0_363:
-	mov	x9, xzr
-.LBB0_364:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9
-.LBB0_365:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_365
-	b	.LBB0_893
-.LBB0_366:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.367:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_370
-// %bb.368:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_960
-// %bb.369:
-	add	x9, x3, x8, lsl #1
-	cmp	x9, x2
-	b.ls	.LBB0_960
-.LBB0_370:
-	mov	x9, xzr
-.LBB0_371:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9
-.LBB0_372:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_372
-	b	.LBB0_893
-.LBB0_373:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.374:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_758
-// %bb.375:
-	mov	x9, xzr
-	b	.LBB0_761
-.LBB0_376:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.377:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_763
-// %bb.378:
-	mov	x9, xzr
-	b	.LBB0_766
-.LBB0_379:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.380:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_383
-// %bb.381:
-	lsl	x9, x8, #1
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_963
-// %bb.382:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_963
-.LBB0_383:
-	mov	x9, xzr
-.LBB0_384:
-	lsl	x10, x9, #1
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_385:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x10], #2
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x9], #2
-	b.ne	.LBB0_385
-	b	.LBB0_893
-.LBB0_386:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.387:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_390
-// %bb.388:
-	lsl	x9, x8, #1
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_966
-// %bb.389:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_966
-.LBB0_390:
-	mov	x9, xzr
-.LBB0_391:
-	lsl	x10, x9, #1
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_392:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x10], #2
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x9], #2
-	b.ne	.LBB0_392
-	b	.LBB0_893
-.LBB0_393:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.394:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_397
-// %bb.395:
-	lsl	x9, x8, #1
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_969
-// %bb.396:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_969
-.LBB0_397:
-	mov	x9, xzr
-.LBB0_398:
-	lsl	x10, x9, #1
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_399:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x10], #2
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x9], #2
-	b.ne	.LBB0_399
-	b	.LBB0_893
-.LBB0_400:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.401:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_404
-// %bb.402:
-	lsl	x9, x8, #1
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_972
-// %bb.403:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_972
-.LBB0_404:
-	mov	x9, xzr
-.LBB0_405:
-	lsl	x10, x9, #1
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_406:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x10], #2
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x9], #2
-	b.ne	.LBB0_406
-	b	.LBB0_893
-.LBB0_407:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.408:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_768
-// %bb.409:
-	mov	x9, xzr
-	b	.LBB0_771
-.LBB0_410:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.411:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_773
-// %bb.412:
-	mov	x9, xzr
-	b	.LBB0_776
-.LBB0_413:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.414:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_778
-// %bb.415:
-	mov	x9, xzr
-	b	.LBB0_781
-.LBB0_416:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.417:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_783
-// %bb.418:
-	mov	x9, xzr
-	b	.LBB0_786
-.LBB0_419:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.420:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_423
-// %bb.421:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_975
-// %bb.422:
-	add	x9, x3, x8, lsl #1
-	cmp	x9, x2
-	b.ls	.LBB0_975
-.LBB0_423:
-	mov	x9, xzr
-.LBB0_424:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9
-.LBB0_425:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_425
-	b	.LBB0_893
-.LBB0_426:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.427:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_430
-// %bb.428:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_978
-// %bb.429:
-	add	x9, x3, x8, lsl #1
-	cmp	x9, x2
-	b.ls	.LBB0_978
-.LBB0_430:
-	mov	x9, xzr
-.LBB0_431:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9
-.LBB0_432:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_432
-	b	.LBB0_893
-.LBB0_433:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.434:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_788
-// %bb.435:
-	mov	x9, xzr
-	b	.LBB0_791
-.LBB0_436:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.437:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_793
-// %bb.438:
-	mov	x9, xzr
-	b	.LBB0_796
-.LBB0_439:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.440:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_798
-// %bb.441:
-	mov	x9, xzr
-	b	.LBB0_801
-.LBB0_442:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.443:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_803
-// %bb.444:
-	mov	x9, xzr
-	b	.LBB0_806
-.LBB0_445:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.446:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_808
-// %bb.447:
-	mov	x9, xzr
-	b	.LBB0_811
-.LBB0_448:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.449:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_813
-// %bb.450:
-	mov	x9, xzr
-	b	.LBB0_816
-.LBB0_451:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.452:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_455
-// %bb.453:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_981
-// %bb.454:
-	add	x9, x3, x8, lsl #3
-	cmp	x9, x2
-	b.ls	.LBB0_981
-.LBB0_455:
-	mov	x9, xzr
-.LBB0_456:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9
-.LBB0_457:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	x11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_457
-	b	.LBB0_893
-.LBB0_458:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.459:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_462
-// %bb.460:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_984
-// %bb.461:
-	add	x9, x3, x8, lsl #2
-	cmp	x9, x2
-	b.ls	.LBB0_984
-.LBB0_462:
-	mov	x9, xzr
-.LBB0_463:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9
-.LBB0_464:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	scvtf	s0, w11
-	str	s0, [x10], #4
-	b.ne	.LBB0_464
-	b	.LBB0_893
-.LBB0_465:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.466:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_469
-// %bb.467:
-	lsl	x9, x8, #3
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_987
-// %bb.468:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_987
-.LBB0_469:
-	mov	x9, xzr
-.LBB0_470:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_471:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1                      // =1
-	str	x11, [x9], #8
-	b.ne	.LBB0_471
-	b	.LBB0_893
-.LBB0_472:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.473:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_818
-// %bb.474:
-	mov	x9, xzr
-	b	.LBB0_821
-.LBB0_475:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.476:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_823
-// %bb.477:
-	mov	x9, xzr
-	b	.LBB0_826
-.LBB0_478:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.479:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_828
-// %bb.480:
-	mov	x9, xzr
-	b	.LBB0_831
-.LBB0_481:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.482:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_833
-// %bb.483:
-	mov	x9, xzr
-	b	.LBB0_836
-.LBB0_484:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.485:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_838
-// %bb.486:
-	mov	x9, xzr
-	b	.LBB0_841
-.LBB0_487:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.488:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_491
-// %bb.489:
-	lsl	x9, x8, #3
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_990
-// %bb.490:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_990
-.LBB0_491:
-	mov	x9, xzr
-.LBB0_492:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_493:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1                      // =1
-	str	x11, [x9], #8
-	b.ne	.LBB0_493
-	b	.LBB0_893
-.LBB0_494:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.495:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_843
-// %bb.496:
-	mov	x9, xzr
-	b	.LBB0_846
-.LBB0_497:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.498:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_848
-// %bb.499:
-	mov	x9, xzr
-	b	.LBB0_851
-.LBB0_500:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.501:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_504
-// %bb.502:
-	lsl	x9, x8, #2
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_993
-// %bb.503:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_993
-.LBB0_504:
-	mov	x9, xzr
-.LBB0_505:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_506:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x10], #4
-	subs	x8, x8, #1                      // =1
-	str	w11, [x9], #4
-	b.ne	.LBB0_506
-	b	.LBB0_893
-.LBB0_507:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.508:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_511
-// %bb.509:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_996
-// %bb.510:
-	add	x9, x3, x8, lsl #3
-	cmp	x9, x2
-	b.ls	.LBB0_996
-.LBB0_511:
-	mov	x9, xzr
-.LBB0_512:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9
-.LBB0_513:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_513
-	b	.LBB0_893
-.LBB0_514:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.515:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_518
-// %bb.516:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_999
-// %bb.517:
-	add	x9, x3, x8, lsl #2
-	cmp	x9, x2
-	b.ls	.LBB0_999
-.LBB0_518:
-	mov	x9, xzr
-.LBB0_519:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9
-.LBB0_520:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	ucvtf	s0, w11
-	str	s0, [x10], #4
-	b.ne	.LBB0_520
-	b	.LBB0_893
-.LBB0_521:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.522:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_853
-// %bb.523:
-	mov	x9, xzr
-	b	.LBB0_856
-.LBB0_524:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.525:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_858
-// %bb.526:
-	mov	x9, xzr
-	b	.LBB0_861
-.LBB0_527:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.528:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_531
-// %bb.529:
-	add	x9, x2, x8, lsl #2
-	cmp	x9, x3
-	b.ls	.LBB0_1002
-// %bb.530:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1002
-.LBB0_531:
-	mov	x9, xzr
-.LBB0_532:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #2
-.LBB0_533:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_533
-	b	.LBB0_893
-.LBB0_534:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.535:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.lo	.LBB0_538
-// %bb.536:
-	add	x9, x2, x8, lsl #3
-	cmp	x9, x3
-	b.ls	.LBB0_1005
-// %bb.537:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1005
-.LBB0_538:
-	mov	x9, xzr
-.LBB0_539:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #3
-.LBB0_540:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, d0
-	strb	w11, [x10], #1
-	b.ne	.LBB0_540
-	b	.LBB0_893
-.LBB0_541:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.542:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_545
-// %bb.543:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_1008
-// %bb.544:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1008
-.LBB0_545:
-	mov	x9, xzr
-.LBB0_546:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9
-.LBB0_547:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_547
-	b	.LBB0_893
-.LBB0_548:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.549:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_552
-// %bb.550:
-	add	x9, x2, x8, lsl #3
-	cmp	x9, x3
-	b.ls	.LBB0_1011
-// %bb.551:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1011
-.LBB0_552:
-	mov	x9, xzr
-.LBB0_553:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #3
-.LBB0_554:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_554
-	b	.LBB0_893
-.LBB0_555:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.556:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_559
-// %bb.557:
-	add	x9, x2, x8, lsl #1
-	cmp	x9, x3
-	b.ls	.LBB0_1014
-// %bb.558:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1014
-.LBB0_559:
-	mov	x9, xzr
-.LBB0_560:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #1
-.LBB0_561:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_561
-	b	.LBB0_893
-.LBB0_562:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.563:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_566
-// %bb.564:
-	add	x9, x2, x8, lsl #1
-	cmp	x9, x3
-	b.ls	.LBB0_1017
-// %bb.565:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1017
-.LBB0_566:
-	mov	x9, xzr
-.LBB0_567:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #1
-.LBB0_568:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_568
-	b	.LBB0_893
-.LBB0_569:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.570:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_573
-// %bb.571:
-	add	x9, x2, x8, lsl #3
-	cmp	x9, x3
-	b.ls	.LBB0_1020
-// %bb.572:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1020
-.LBB0_573:
-	mov	x9, xzr
-.LBB0_574:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #3
-.LBB0_575:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_575
-	b	.LBB0_893
-.LBB0_576:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.577:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_580
-// %bb.578:
-	add	x9, x2, x8, lsl #2
-	cmp	x9, x3
-	b.ls	.LBB0_1023
-// %bb.579:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1023
-.LBB0_580:
-	mov	x9, xzr
-.LBB0_581:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #2
-.LBB0_582:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, s0
-	strb	w11, [x10], #1
-	b.ne	.LBB0_582
-	b	.LBB0_893
-.LBB0_583:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.584:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_587
-// %bb.585:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_1026
-// %bb.586:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1026
-.LBB0_587:
-	mov	x9, xzr
-.LBB0_588:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9
-.LBB0_589:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_589
-	b	.LBB0_893
-.LBB0_590:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.591:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_594
-// %bb.592:
-	add	x9, x2, x8, lsl #2
-	cmp	x9, x3
-	b.ls	.LBB0_1029
-// %bb.593:
-	add	x9, x3, x8
-	cmp	x9, x2
-	b.ls	.LBB0_1029
-.LBB0_594:
-	mov	x9, xzr
-.LBB0_595:
-	sub	x8, x8, x9
-	add	x10, x3, x9
-	add	x9, x2, x9, lsl #2
-.LBB0_596:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strb	w11, [x10], #1
-	b.ne	.LBB0_596
-	b	.LBB0_893
-.LBB0_597:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.598:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_601
-// %bb.599:
-	lsl	x9, x8, #2
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_1032
-// %bb.600:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_1032
-.LBB0_601:
-	mov	x9, xzr
-.LBB0_602:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_603:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x10], #4
-	subs	x8, x8, #1                      // =1
-	str	w11, [x9], #4
-	b.ne	.LBB0_603
-	b	.LBB0_893
-.LBB0_604:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.605:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_863
-// %bb.606:
-	mov	x9, xzr
-	b	.LBB0_866
-.LBB0_607:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.608:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_611
-// %bb.609:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_1035
-// %bb.610:
-	add	x9, x3, x8, lsl #2
-	cmp	x9, x2
-	b.ls	.LBB0_1035
-.LBB0_611:
-	mov	x9, xzr
-.LBB0_612:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9
-.LBB0_613:                              // =>This Inner Loop Header: Depth=1
-	ldrsb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_613
-	b	.LBB0_893
-.LBB0_614:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.615:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_868
-// %bb.616:
-	mov	x9, xzr
-	b	.LBB0_871
-.LBB0_617:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.618:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_873
-// %bb.619:
-	mov	x9, xzr
-	b	.LBB0_876
-.LBB0_620:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.621:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_878
-// %bb.622:
-	mov	x9, xzr
-	b	.LBB0_881
-.LBB0_623:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.624:
-	cmp	w4, #16                         // =16
-	mov	w8, w4
-	b.hs	.LBB0_883
-// %bb.625:
-	mov	x9, xzr
-	b	.LBB0_886
-.LBB0_626:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.627:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.hs	.LBB0_888
-// %bb.628:
-	mov	x9, xzr
-	b	.LBB0_891
-.LBB0_629:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.630:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_633
-// %bb.631:
-	add	x9, x2, x8
-	cmp	x9, x3
-	b.ls	.LBB0_1038
-// %bb.632:
-	add	x9, x3, x8, lsl #2
-	cmp	x9, x2
-	b.ls	.LBB0_1038
-.LBB0_633:
-	mov	x9, xzr
-.LBB0_634:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9
-.LBB0_635:                              // =>This Inner Loop Header: Depth=1
-	ldrb	w11, [x9], #1
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_635
-	b	.LBB0_893
-.LBB0_636:
-	cmp	w4, #1                          // =1
-	b.lt	.LBB0_893
-// %bb.637:
-	cmp	w4, #32                         // =32
-	mov	w8, w4
-	b.lo	.LBB0_640
-// %bb.638:
-	lsl	x9, x8, #2
-	add	x10, x2, x9
-	cmp	x10, x3
-	b.ls	.LBB0_1041
-// %bb.639:
-	add	x9, x3, x9
-	cmp	x9, x2
-	b.ls	.LBB0_1041
-.LBB0_640:
-	mov	x9, xzr
-.LBB0_641:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_642:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x10], #4
-	subs	x8, x8, #1                      // =1
-	str	w11, [x9], #4
-	b.ne	.LBB0_642
-	b	.LBB0_893
-.LBB0_643:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_644:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	fcvtzu	v1.2d, v1.2d
-	fcvtzu	v3.2d, v3.2d
-	fcvtzu	v5.2d, v5.2d
-	fcvtzu	v7.2d, v7.2d
-	fcvtzu	v4.2d, v4.2d
-	fcvtzu	v6.2d, v6.2d
-	fcvtzu	v2.2d, v2.2d
-	fcvtzu	v0.2d, v0.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn	v3.2s, v3.2d
-	xtn	v1.2s, v1.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_644
-// %bb.645:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_646:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_647:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzu	w11, d0
-	str	w11, [x10], #4
-	b.ne	.LBB0_647
-	b	.LBB0_893
-.LBB0_648:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_649:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_649
-// %bb.650:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_651:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_652:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_652
-	b	.LBB0_893
-.LBB0_653:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_654:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	ushll	v4.4s, v1.4h, #0
-	ushll	v5.4s, v0.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v6.4s, v3.4h, #0
-	ushll	v7.4s, v2.4h, #0
-	ushll2	v3.4s, v3.8h, #0
-	ushll2	v2.4s, v2.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q1, [x11, #-64]
-	stp	q7, q2, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_654
-// %bb.655:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_656:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #1
-.LBB0_657:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_657
-	b	.LBB0_893
-.LBB0_658:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_659:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	sshll	v4.4s, v1.4h, #0
-	sshll	v5.4s, v0.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v6.4s, v3.4h, #0
-	sshll	v7.4s, v2.4h, #0
-	sshll2	v3.4s, v3.8h, #0
-	sshll2	v2.4s, v2.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q1, [x11, #-64]
-	stp	q7, q2, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_659
-// %bb.660:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_661:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #1
-.LBB0_662:                              // =>This Inner Loop Header: Depth=1
-	ldrsh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_662
-	b	.LBB0_893
-.LBB0_663:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_664:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_664
-// %bb.665:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_666:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_667:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_667
-	b	.LBB0_893
-.LBB0_668:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_669:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-32]
-	ldp	q2, q3, [x10, #-64]
-	ldp	q4, q5, [x10, #32]
-	ldp	q6, q7, [x10], #128
-	fcvtzu	v1.4s, v1.4s
-	fcvtzu	v3.4s, v3.4s
-	fcvtzu	v2.4s, v2.4s
-	fcvtzu	v0.4s, v0.4s
-	fcvtzu	v7.4s, v7.4s
-	fcvtzu	v6.4s, v6.4s
-	fcvtzu	v5.4s, v5.4s
-	fcvtzu	v4.4s, v4.4s
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-32]
-	stp	q2, q3, [x11, #-64]
-	stp	q4, q5, [x11, #32]
-	stp	q6, q7, [x11], #128
-	b.ne	.LBB0_669
-// %bb.670:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_671:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_672:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x10], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzu	w11, s0
-	str	w11, [x9], #4
-	b.ne	.LBB0_672
-	b	.LBB0_893
-.LBB0_673:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_674:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	ushll	v4.2d, v1.2s, #0
-	ushll	v5.2d, v0.2s, #0
-	ushll	v6.2d, v3.2s, #0
-	ushll	v7.2d, v2.2s, #0
-	ushll2	v1.2d, v1.4s, #0
-	ushll2	v0.2d, v0.4s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll2	v2.2d, v2.4s, #0
-	ucvtf	v4.2d, v4.2d
-	ucvtf	v5.2d, v5.2d
-	ucvtf	v6.2d, v6.2d
-	ucvtf	v7.2d, v7.2d
-	ucvtf	v1.2d, v1.2d
-	ucvtf	v0.2d, v0.2d
-	ucvtf	v3.2d, v3.2d
-	ucvtf	v2.2d, v2.2d
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_674
-// %bb.675:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_676:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_677:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	ucvtf	d0, w11
-	str	d0, [x10], #8
-	b.ne	.LBB0_677
-	b	.LBB0_893
-.LBB0_678:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_679:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12, #96]
-	ldp	q2, q3, [x12, #64]
-	ldp	q4, q5, [x12]
-	ldp	q6, q7, [x12, #32]
-	ucvtf	v1.2d, v1.2d
-	ucvtf	v3.2d, v3.2d
-	ucvtf	v5.2d, v5.2d
-	ucvtf	v4.2d, v4.2d
-	ucvtf	v7.2d, v7.2d
-	ucvtf	v6.2d, v6.2d
-	ucvtf	v2.2d, v2.2d
-	ucvtf	v0.2d, v0.2d
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q0, q1, [x11, #96]
-	stp	q2, q3, [x11, #64]
-	stp	q6, q7, [x11, #32]
-	stp	q4, q5, [x11], #128
-	b.ne	.LBB0_679
-// %bb.680:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_681:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_682:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x10], #8
-	subs	x8, x8, #1                      // =1
-	ucvtf	d0, d0
-	str	d0, [x9], #8
-	b.ne	.LBB0_682
-	b	.LBB0_893
-.LBB0_683:
-	and	x9, x8, #0xfffffff0
-	movi	d0, #0x00ffff0000ffff
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_684:                              // =>This Inner Loop Header: Depth=1
-	ldp	q4, q2, [x12], #32
-	subs	x10, x10, #16                   // =16
-	ext	v1.16b, v4.16b, v4.16b, #8
-	umov	w13, v4.h[0]
-	umov	w15, v4.h[2]
-	ext	v3.16b, v2.16b, v2.16b, #8
-	umov	w14, v4.h[1]
-	umov	w16, v4.h[3]
-	umov	w17, v2.h[0]
-	umov	w18, v2.h[1]
-	umov	w0, v2.h[2]
-	fmov	s4, w13
-	umov	w13, v2.h[3]
-	fmov	s2, w15
-	umov	w15, v1.h[0]
-	fmov	s6, w0
-	umov	w0, v1.h[2]
-	fmov	s7, w15
-	umov	w15, v3.h[0]
-	fmov	s16, w0
-	umov	w0, v3.h[2]
-	fmov	s17, w15
-	mov	v6.s[1], w13
-	umov	w13, v3.h[1]
-	fmov	s5, w17
-	umov	w17, v1.h[1]
-	umov	w15, v1.h[3]
-	fmov	s1, w0
-	mov	v17.s[1], w13
-	umov	w13, v3.h[3]
-	mov	v4.s[1], w14
-	mov	v2.s[1], w16
-	mov	v5.s[1], w18
-	mov	v7.s[1], w17
-	mov	v16.s[1], w15
-	mov	v1.s[1], w13
-	and	v3.8b, v4.8b, v0.8b
-	and	v2.8b, v2.8b, v0.8b
-	and	v4.8b, v5.8b, v0.8b
-	and	v5.8b, v6.8b, v0.8b
-	and	v6.8b, v7.8b, v0.8b
-	and	v7.8b, v16.8b, v0.8b
-	and	v16.8b, v17.8b, v0.8b
-	and	v1.8b, v1.8b, v0.8b
-	ushll	v3.2d, v3.2s, #0
-	ushll	v2.2d, v2.2s, #0
-	ushll	v4.2d, v4.2s, #0
-	ushll	v5.2d, v5.2s, #0
-	ushll	v6.2d, v6.2s, #0
-	ushll	v7.2d, v7.2s, #0
-	ushll	v16.2d, v16.2s, #0
-	ushll	v1.2d, v1.2s, #0
-	ucvtf	v3.2d, v3.2d
-	ucvtf	v2.2d, v2.2d
-	ucvtf	v4.2d, v4.2d
-	ucvtf	v5.2d, v5.2d
-	ucvtf	v6.2d, v6.2d
-	ucvtf	v7.2d, v7.2d
-	ucvtf	v16.2d, v16.2d
-	ucvtf	v1.2d, v1.2d
-	stp	q4, q5, [x11, #64]
-	stp	q3, q2, [x11]
-	stp	q16, q1, [x11, #96]
-	stp	q6, q7, [x11, #32]
-	add	x11, x11, #128                  // =128
-	b.ne	.LBB0_684
-// %bb.685:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_686:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #1
-.LBB0_687:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	ucvtf	d0, w11
-	str	d0, [x10], #8
-	b.ne	.LBB0_687
-	b	.LBB0_893
-.LBB0_688:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_689:                              // =>This Inner Loop Header: Depth=1
-	ldp	q3, q1, [x12], #32
-	subs	x10, x10, #16                   // =16
-	ext	v0.16b, v3.16b, v3.16b, #8
-	umov	w13, v3.h[0]
-	umov	w15, v3.h[2]
-	ext	v2.16b, v1.16b, v1.16b, #8
-	umov	w14, v3.h[1]
-	umov	w16, v3.h[3]
-	umov	w17, v1.h[0]
-	umov	w18, v1.h[1]
-	umov	w0, v1.h[2]
-	fmov	s3, w13
-	umov	w13, v1.h[3]
-	fmov	s1, w15
-	umov	w15, v0.h[0]
-	fmov	s5, w0
-	umov	w0, v0.h[2]
-	fmov	s6, w15
-	umov	w15, v2.h[0]
-	fmov	s7, w0
-	umov	w0, v2.h[2]
-	fmov	s16, w15
-	mov	v5.s[1], w13
-	umov	w13, v2.h[1]
-	fmov	s4, w17
-	umov	w17, v0.h[1]
-	umov	w15, v0.h[3]
-	fmov	s0, w0
-	mov	v16.s[1], w13
-	umov	w13, v2.h[3]
-	mov	v3.s[1], w14
-	mov	v1.s[1], w16
-	mov	v4.s[1], w18
-	mov	v6.s[1], w17
-	mov	v7.s[1], w15
-	mov	v0.s[1], w13
-	shl	v2.2s, v3.2s, #16
-	shl	v1.2s, v1.2s, #16
-	shl	v3.2s, v4.2s, #16
-	shl	v4.2s, v5.2s, #16
-	shl	v5.2s, v6.2s, #16
-	shl	v6.2s, v7.2s, #16
-	shl	v7.2s, v16.2s, #16
-	shl	v0.2s, v0.2s, #16
-	sshr	v2.2s, v2.2s, #16
-	sshr	v1.2s, v1.2s, #16
-	sshr	v3.2s, v3.2s, #16
-	sshr	v4.2s, v4.2s, #16
-	sshr	v5.2s, v5.2s, #16
-	sshr	v6.2s, v6.2s, #16
-	sshr	v7.2s, v7.2s, #16
-	sshr	v0.2s, v0.2s, #16
-	sshll	v2.2d, v2.2s, #0
-	sshll	v1.2d, v1.2s, #0
-	sshll	v3.2d, v3.2s, #0
-	sshll	v4.2d, v4.2s, #0
-	sshll	v5.2d, v5.2s, #0
-	sshll	v6.2d, v6.2s, #0
-	sshll	v7.2d, v7.2s, #0
-	sshll	v0.2d, v0.2s, #0
-	scvtf	v2.2d, v2.2d
-	scvtf	v1.2d, v1.2d
-	scvtf	v3.2d, v3.2d
-	scvtf	v4.2d, v4.2d
-	scvtf	v5.2d, v5.2d
-	scvtf	v6.2d, v6.2d
-	scvtf	v7.2d, v7.2d
-	scvtf	v0.2d, v0.2d
-	stp	q3, q4, [x11, #64]
-	stp	q2, q1, [x11]
-	stp	q7, q0, [x11, #96]
-	stp	q5, q6, [x11, #32]
-	add	x11, x11, #128                  // =128
-	b.ne	.LBB0_689
-// %bb.690:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_691:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #1
-.LBB0_692:                              // =>This Inner Loop Header: Depth=1
-	ldrsh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	scvtf	d0, w11
-	str	d0, [x10], #8
-	b.ne	.LBB0_692
-	b	.LBB0_893
-.LBB0_693:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_694:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12, #96]
-	ldp	q2, q3, [x12, #64]
-	ldp	q4, q5, [x12]
-	ldp	q6, q7, [x12, #32]
-	scvtf	v1.2d, v1.2d
-	scvtf	v3.2d, v3.2d
-	scvtf	v5.2d, v5.2d
-	scvtf	v4.2d, v4.2d
-	scvtf	v7.2d, v7.2d
-	scvtf	v6.2d, v6.2d
-	scvtf	v2.2d, v2.2d
-	scvtf	v0.2d, v0.2d
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q0, q1, [x11, #96]
-	stp	q2, q3, [x11, #64]
-	stp	q6, q7, [x11, #32]
-	stp	q4, q5, [x11], #128
-	b.ne	.LBB0_694
-// %bb.695:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_696:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_697:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x10], #8
-	subs	x8, x8, #1                      // =1
-	scvtf	d0, d0
-	str	d0, [x9], #8
-	b.ne	.LBB0_697
-	b	.LBB0_893
-.LBB0_698:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_699:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	fcvtl	v4.2d, v1.2s
-	fcvtl	v5.2d, v0.2s
-	fcvtl	v6.2d, v3.2s
-	fcvtl	v7.2d, v2.2s
-	fcvtl2	v1.2d, v1.4s
-	fcvtl2	v0.2d, v0.4s
-	fcvtl2	v3.2d, v3.4s
-	fcvtl2	v2.2d, v2.4s
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_699
-// %bb.700:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_701:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_702:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvt	d0, s0
-	str	d0, [x10], #8
-	b.ne	.LBB0_702
-	b	.LBB0_893
-.LBB0_703:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_704:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	sshll	v4.2d, v1.2s, #0
-	sshll	v5.2d, v0.2s, #0
-	sshll	v6.2d, v3.2s, #0
-	sshll	v7.2d, v2.2s, #0
-	sshll2	v1.2d, v1.4s, #0
-	sshll2	v0.2d, v0.4s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll2	v2.2d, v2.4s, #0
-	scvtf	v4.2d, v4.2d
-	scvtf	v5.2d, v5.2d
-	scvtf	v6.2d, v6.2d
-	scvtf	v7.2d, v7.2d
-	scvtf	v1.2d, v1.2d
-	scvtf	v0.2d, v0.2d
-	scvtf	v3.2d, v3.2d
-	scvtf	v2.2d, v2.2d
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_704
-// %bb.705:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_706:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_707:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	scvtf	d0, w11
-	str	d0, [x10], #8
-	b.ne	.LBB0_707
-	b	.LBB0_893
-.LBB0_708:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_709:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	ushll	v4.2d, v1.2s, #0
-	ushll	v5.2d, v0.2s, #0
-	ushll	v6.2d, v3.2s, #0
-	ushll	v7.2d, v2.2s, #0
-	ushll2	v1.2d, v1.4s, #0
-	ushll2	v0.2d, v0.4s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll2	v2.2d, v2.4s, #0
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_709
-// %bb.710:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_711:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_712:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_712
-	b	.LBB0_893
-.LBB0_713:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_714:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12, #96]
-	ldp	q2, q3, [x12, #64]
-	ldp	q4, q5, [x12]
-	ldp	q6, q7, [x12, #32]
-	fcvtzu	v1.2d, v1.2d
-	fcvtzu	v3.2d, v3.2d
-	fcvtzu	v5.2d, v5.2d
-	fcvtzu	v4.2d, v4.2d
-	fcvtzu	v7.2d, v7.2d
-	fcvtzu	v6.2d, v6.2d
-	fcvtzu	v2.2d, v2.2d
-	fcvtzu	v0.2d, v0.2d
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q0, q1, [x11, #96]
-	stp	q2, q3, [x11, #64]
-	stp	q6, q7, [x11, #32]
-	stp	q4, q5, [x11], #128
-	b.ne	.LBB0_714
-// %bb.715:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_716:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_717:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x10], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzu	x11, d0
-	str	x11, [x9], #8
-	b.ne	.LBB0_717
-	b	.LBB0_893
-.LBB0_718:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_719:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12], #32
-	subs	x10, x10, #16                   // =16
-	ushll	v2.4s, v0.4h, #0
-	ushll	v3.4s, v1.4h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll	v4.2d, v2.2s, #0
-	ushll	v5.2d, v3.2s, #0
-	ushll2	v2.2d, v2.4s, #0
-	ushll	v6.2d, v0.2s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll	v7.2d, v1.2s, #0
-	ushll2	v0.2d, v0.4s, #0
-	ushll2	v1.2d, v1.4s, #0
-	stp	q7, q1, [x11, #96]
-	stp	q6, q0, [x11, #32]
-	stp	q5, q3, [x11, #64]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_719
-// %bb.720:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_721:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #1
-.LBB0_722:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_722
-	b	.LBB0_893
-.LBB0_723:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_724:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12], #32
-	subs	x10, x10, #16                   // =16
-	sshll	v2.4s, v0.4h, #0
-	sshll	v3.4s, v1.4h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll	v4.2d, v2.2s, #0
-	sshll	v5.2d, v3.2s, #0
-	sshll2	v2.2d, v2.4s, #0
-	sshll	v6.2d, v0.2s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll	v7.2d, v1.2s, #0
-	sshll2	v0.2d, v0.4s, #0
-	sshll2	v1.2d, v1.4s, #0
-	stp	q7, q1, [x11, #96]
-	stp	q6, q0, [x11, #32]
-	stp	q5, q3, [x11, #64]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_724
-// %bb.725:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_726:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #1
-.LBB0_727:                              // =>This Inner Loop Header: Depth=1
-	ldrsh	x11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_727
-	b	.LBB0_893
-.LBB0_728:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_729:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	fcvtl	v4.2d, v1.2s
-	fcvtl	v5.2d, v0.2s
-	fcvtl	v6.2d, v3.2s
-	fcvtl	v7.2d, v2.2s
-	fcvtl2	v1.2d, v1.4s
-	fcvtl2	v0.2d, v0.4s
-	fcvtl2	v3.2d, v3.4s
-	fcvtl2	v2.2d, v2.4s
-	fcvtzu	v4.2d, v4.2d
-	fcvtzu	v5.2d, v5.2d
-	fcvtzu	v6.2d, v6.2d
-	fcvtzu	v7.2d, v7.2d
-	fcvtzu	v1.2d, v1.2d
-	fcvtzu	v0.2d, v0.2d
-	fcvtzu	v3.2d, v3.2d
-	fcvtzu	v2.2d, v2.2d
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_729
-// %bb.730:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_731:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_732:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzu	x11, s0
-	str	x11, [x10], #8
-	b.ne	.LBB0_732
-	b	.LBB0_893
-.LBB0_733:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_734:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	sshll	v4.2d, v1.2s, #0
-	sshll	v5.2d, v0.2s, #0
-	sshll	v6.2d, v3.2s, #0
-	sshll	v7.2d, v2.2s, #0
-	sshll2	v1.2d, v1.4s, #0
-	sshll2	v0.2d, v0.4s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll2	v2.2d, v2.4s, #0
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_734
-// %bb.735:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_736:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_737:                              // =>This Inner Loop Header: Depth=1
-	ldrsw	x11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_737
-	b	.LBB0_893
-.LBB0_738:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_739:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn	v5.4h, v5.4s
-	xtn	v7.4h, v7.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q1, q3, [x11, #-32]
-	stp	q5, q7, [x11], #64
-	b.ne	.LBB0_739
-// %bb.740:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_741:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #2
-.LBB0_742:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_742
-	b	.LBB0_893
-.LBB0_743:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_744:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn	v5.4h, v5.4s
-	xtn	v7.4h, v7.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q1, q3, [x11, #-32]
-	stp	q5, q7, [x11], #64
-	b.ne	.LBB0_744
-// %bb.745:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_746:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #2
-.LBB0_747:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_747
-	b	.LBB0_893
-.LBB0_748:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_749:                              // =>This Inner Loop Header: Depth=1
-	ldp	q3, q2, [x12]
-	ldp	q7, q6, [x12, #64]
-	ldp	q5, q4, [x12, #32]
-	ldp	q1, q0, [x12, #96]
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v2.2d, v2.2d
-	fcvtzs	v7.2d, v7.2d
-	xtn	v3.2s, v3.2d
-	fcvtzs	v6.2d, v6.2d
-	xtn	v2.2s, v2.2d
-	xtn	v7.2s, v7.2d
-	mov	w13, v3.s[1]
-	fcvtzs	v5.2d, v5.2d
-	xtn	v6.2s, v6.2d
-	fmov	w15, s2
-	mov	v3.h[1], w13
-	mov	w13, v7.s[1]
-	fcvtzs	v1.2d, v1.2d
-	xtn	v5.2s, v5.2d
-	mov	w14, v2.s[1]
-	mov	v7.h[1], w13
-	mov	v3.h[2], w15
-	fmov	w15, s6
-	fcvtzs	v4.2d, v4.2d
-	xtn	v1.2s, v1.2d
-	mov	w13, v6.s[1]
-	mov	v7.h[2], w15
-	mov	v3.h[3], w14
-	fmov	w14, s5
-	fcvtzs	v0.2d, v0.2d
-	xtn	v4.2s, v4.2d
-	mov	w15, v5.s[1]
-	mov	v7.h[3], w13
-	mov	v3.h[4], w14
-	fmov	w14, s1
-	xtn	v0.2s, v0.2d
-	mov	w13, v1.s[1]
-	mov	v7.h[4], w14
-	mov	v3.h[5], w15
-	fmov	w15, s4
-	mov	v7.h[5], w13
-	mov	v3.h[6], w15
-	fmov	w15, s0
-	mov	w14, v4.s[1]
-	mov	w13, v0.s[1]
-	mov	v7.h[6], w15
-	mov	v3.h[7], w14
-	mov	v7.h[7], w13
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q3, q7, [x11], #32
-	b.ne	.LBB0_749
-// %bb.750:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_751:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #3
-.LBB0_752:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, d0
-	strh	w11, [x10], #2
-	b.ne	.LBB0_752
-	b	.LBB0_893
-.LBB0_753:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_754:                              // =>This Inner Loop Header: Depth=1
-	ldp	q3, q2, [x12]
-	ldp	q7, q6, [x12, #64]
-	ldp	q5, q4, [x12, #32]
-	ldp	q1, q0, [x12, #96]
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v2.2d, v2.2d
-	fcvtzs	v7.2d, v7.2d
-	xtn	v3.2s, v3.2d
-	fcvtzs	v6.2d, v6.2d
-	xtn	v2.2s, v2.2d
-	xtn	v7.2s, v7.2d
-	mov	w13, v3.s[1]
-	fcvtzs	v5.2d, v5.2d
-	xtn	v6.2s, v6.2d
-	fmov	w15, s2
-	mov	v3.h[1], w13
-	mov	w13, v7.s[1]
-	fcvtzs	v1.2d, v1.2d
-	xtn	v5.2s, v5.2d
-	mov	w14, v2.s[1]
-	mov	v7.h[1], w13
-	mov	v3.h[2], w15
-	fmov	w15, s6
-	fcvtzs	v4.2d, v4.2d
-	xtn	v1.2s, v1.2d
-	mov	w13, v6.s[1]
-	mov	v7.h[2], w15
-	mov	v3.h[3], w14
-	fmov	w14, s5
-	fcvtzs	v0.2d, v0.2d
-	xtn	v4.2s, v4.2d
-	mov	w15, v5.s[1]
-	mov	v7.h[3], w13
-	mov	v3.h[4], w14
-	fmov	w14, s1
-	xtn	v0.2s, v0.2d
-	mov	w13, v1.s[1]
-	mov	v7.h[4], w14
-	mov	v3.h[5], w15
-	fmov	w15, s4
-	mov	v7.h[5], w13
-	mov	v3.h[6], w15
-	fmov	w15, s0
-	mov	w14, v4.s[1]
-	mov	w13, v0.s[1]
-	mov	v7.h[6], w15
-	mov	v3.h[7], w14
-	mov	v7.h[7], w13
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q3, q7, [x11], #32
-	b.ne	.LBB0_754
-// %bb.755:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_756:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #3
-.LBB0_757:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, d0
-	strh	w11, [x10], #2
-	b.ne	.LBB0_757
-	b	.LBB0_893
-.LBB0_758:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_759:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn	v4.4h, v7.4s
-	xtn2	v4.8h, v5.4s
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	xtn	v0.4h, v1.4s
-	xtn2	v0.8h, v3.4s
-	subs	x10, x10, #16                   // =16
-	stp	q4, q0, [x11], #32
-	b.ne	.LBB0_759
-// %bb.760:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_761:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #3
-.LBB0_762:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_762
-	b	.LBB0_893
-.LBB0_763:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_764:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn	v4.4h, v7.4s
-	xtn2	v4.8h, v5.4s
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	xtn	v0.4h, v1.4s
-	xtn2	v0.8h, v3.4s
-	subs	x10, x10, #16                   // =16
-	stp	q4, q0, [x11], #32
-	b.ne	.LBB0_764
-// %bb.765:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_766:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #3
-.LBB0_767:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_767
-	b	.LBB0_893
-.LBB0_768:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_769:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn	v4.4h, v7.4s
-	xtn2	v4.8h, v5.4s
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	xtn	v0.4h, v1.4s
-	xtn2	v0.8h, v3.4s
-	subs	x10, x10, #16                   // =16
-	stp	q4, q0, [x11], #32
-	b.ne	.LBB0_769
-// %bb.770:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_771:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #3
-.LBB0_772:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_772
-	b	.LBB0_893
-.LBB0_773:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_774:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn	v4.4h, v7.4s
-	xtn2	v4.8h, v5.4s
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	xtn	v0.4h, v1.4s
-	xtn2	v0.8h, v3.4s
-	subs	x10, x10, #16                   // =16
-	stp	q4, q0, [x11], #32
-	b.ne	.LBB0_774
-// %bb.775:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_776:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #3
-.LBB0_777:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_777
-	b	.LBB0_893
-.LBB0_778:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_779:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	fcvtzu	v1.4s, v1.4s
-	fcvtzu	v3.4s, v3.4s
-	fcvtzu	v5.4s, v5.4s
-	fcvtzu	v7.4s, v7.4s
-	fcvtzu	v2.4s, v2.4s
-	fcvtzu	v0.4s, v0.4s
-	fcvtzu	v6.4s, v6.4s
-	fcvtzu	v4.4s, v4.4s
-	xtn	v3.4h, v3.4s
-	xtn	v1.4h, v1.4s
-	xtn	v7.4h, v7.4s
-	xtn	v5.4h, v5.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q1, q3, [x11, #-32]
-	stp	q5, q7, [x11], #64
-	b.ne	.LBB0_779
-// %bb.780:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_781:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #2
-.LBB0_782:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, s0
-	strh	w11, [x10], #2
-	b.ne	.LBB0_782
-	b	.LBB0_893
-.LBB0_783:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_784:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	fcvtzs	v1.4s, v1.4s
-	fcvtzs	v3.4s, v3.4s
-	fcvtzs	v5.4s, v5.4s
-	fcvtzs	v7.4s, v7.4s
-	fcvtzs	v2.4s, v2.4s
-	fcvtzs	v0.4s, v0.4s
-	fcvtzs	v6.4s, v6.4s
-	fcvtzs	v4.4s, v4.4s
-	xtn	v3.4h, v3.4s
-	xtn	v1.4h, v1.4s
-	xtn	v7.4h, v7.4s
-	xtn	v5.4h, v5.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q1, q3, [x11, #-32]
-	stp	q5, q7, [x11], #64
-	b.ne	.LBB0_784
-// %bb.785:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_786:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #2
-.LBB0_787:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, s0
-	strh	w11, [x10], #2
-	b.ne	.LBB0_787
-	b	.LBB0_893
-.LBB0_788:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_789:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn	v5.4h, v5.4s
-	xtn	v7.4h, v7.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q1, q3, [x11, #-32]
-	stp	q5, q7, [x11], #64
-	b.ne	.LBB0_789
-// %bb.790:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_791:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #2
-.LBB0_792:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_792
-	b	.LBB0_893
-.LBB0_793:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_794:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn	v5.4h, v5.4s
-	xtn	v7.4h, v7.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q1, q3, [x11, #-32]
-	stp	q5, q7, [x11], #64
-	b.ne	.LBB0_794
-// %bb.795:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_796:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #1
-	add	x9, x2, x9, lsl #2
-.LBB0_797:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	strh	w11, [x10], #2
-	b.ne	.LBB0_797
-	b	.LBB0_893
-.LBB0_798:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_799:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	ushll	v4.2d, v1.2s, #0
-	ushll	v5.2d, v0.2s, #0
-	ushll	v6.2d, v3.2s, #0
-	ushll	v7.2d, v2.2s, #0
-	ushll2	v1.2d, v1.4s, #0
-	ushll2	v0.2d, v0.4s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll2	v2.2d, v2.4s, #0
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_799
-// %bb.800:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_801:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_802:                              // =>This Inner Loop Header: Depth=1
-	ldr	w11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_802
-	b	.LBB0_893
-.LBB0_803:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_804:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-32]
-	ldp	q2, q3, [x10, #-64]
-	ldp	q4, q5, [x10, #32]
-	ldp	q6, q7, [x10], #128
-	ucvtf	v1.4s, v1.4s
-	ucvtf	v3.4s, v3.4s
-	ucvtf	v2.4s, v2.4s
-	ucvtf	v0.4s, v0.4s
-	ucvtf	v7.4s, v7.4s
-	ucvtf	v6.4s, v6.4s
-	ucvtf	v5.4s, v5.4s
-	ucvtf	v4.4s, v4.4s
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-32]
-	stp	q2, q3, [x11, #-64]
-	stp	q4, q5, [x11, #32]
-	stp	q6, q7, [x11], #128
-	b.ne	.LBB0_804
-// %bb.805:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_806:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_807:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x10], #4
-	subs	x8, x8, #1                      // =1
-	ucvtf	s0, s0
-	str	s0, [x9], #4
-	b.ne	.LBB0_807
-	b	.LBB0_893
-.LBB0_808:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_809:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12, #96]
-	ldp	q2, q3, [x12, #64]
-	ldp	q4, q5, [x12]
-	ldp	q6, q7, [x12, #32]
-	fcvtzs	v1.2d, v1.2d
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v5.2d, v5.2d
-	fcvtzs	v4.2d, v4.2d
-	fcvtzs	v7.2d, v7.2d
-	fcvtzs	v6.2d, v6.2d
-	fcvtzs	v2.2d, v2.2d
-	fcvtzs	v0.2d, v0.2d
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q0, q1, [x11, #96]
-	stp	q2, q3, [x11, #64]
-	stp	q6, q7, [x11, #32]
-	stp	q4, q5, [x11], #128
-	b.ne	.LBB0_809
-// %bb.810:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_811:
-	lsl	x10, x9, #3
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_812:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x10], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzs	x11, d0
-	str	x11, [x9], #8
-	b.ne	.LBB0_812
-	b	.LBB0_893
-.LBB0_813:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_814:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	fcvtn	v1.2s, v1.2d
-	fcvtn	v3.2s, v3.2d
-	fcvtn	v5.2s, v5.2d
-	fcvtn	v7.2s, v7.2d
-	fcvtn2	v5.4s, v4.2d
-	fcvtn2	v7.4s, v6.2d
-	fcvtn2	v3.4s, v2.2d
-	fcvtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_814
-// %bb.815:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_816:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_817:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvt	s0, d0
-	str	s0, [x10], #4
-	b.ne	.LBB0_817
-	b	.LBB0_893
-.LBB0_818:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_819:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	ucvtf	v1.2d, v1.2d
-	ucvtf	v3.2d, v3.2d
-	ucvtf	v5.2d, v5.2d
-	ucvtf	v7.2d, v7.2d
-	ucvtf	v4.2d, v4.2d
-	ucvtf	v6.2d, v6.2d
-	ucvtf	v2.2d, v2.2d
-	ucvtf	v0.2d, v0.2d
-	fcvtn	v5.2s, v5.2d
-	fcvtn	v7.2s, v7.2d
-	fcvtn	v3.2s, v3.2d
-	fcvtn	v1.2s, v1.2d
-	fcvtn2	v5.4s, v4.2d
-	fcvtn2	v7.4s, v6.2d
-	fcvtn2	v3.4s, v2.2d
-	fcvtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_819
-// %bb.820:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_821:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_822:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	ucvtf	s0, x11
-	str	s0, [x10], #4
-	b.ne	.LBB0_822
-	b	.LBB0_893
-.LBB0_823:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_824:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12], #32
-	subs	x10, x10, #16                   // =16
-	ushll	v2.4s, v0.4h, #0
-	ushll	v3.4s, v1.4h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll	v4.2d, v2.2s, #0
-	ushll	v5.2d, v3.2s, #0
-	ushll2	v2.2d, v2.4s, #0
-	ushll	v6.2d, v0.2s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll	v7.2d, v1.2s, #0
-	ushll2	v0.2d, v0.4s, #0
-	ushll2	v1.2d, v1.4s, #0
-	stp	q7, q1, [x11, #96]
-	stp	q6, q0, [x11, #32]
-	stp	q5, q3, [x11, #64]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_824
-// %bb.825:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_826:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #1
-.LBB0_827:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_827
-	b	.LBB0_893
-.LBB0_828:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_829:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	ushll	v4.4s, v1.4h, #0
-	ushll	v5.4s, v0.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v6.4s, v3.4h, #0
-	ushll	v7.4s, v2.4h, #0
-	ushll2	v3.4s, v3.8h, #0
-	ushll2	v2.4s, v2.8h, #0
-	ucvtf	v4.4s, v4.4s
-	ucvtf	v5.4s, v5.4s
-	ucvtf	v1.4s, v1.4s
-	ucvtf	v0.4s, v0.4s
-	ucvtf	v6.4s, v6.4s
-	ucvtf	v7.4s, v7.4s
-	ucvtf	v3.4s, v3.4s
-	ucvtf	v2.4s, v2.4s
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q1, [x11, #-64]
-	stp	q7, q2, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_829
-// %bb.830:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_831:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #1
-.LBB0_832:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	ucvtf	s0, w11
-	str	s0, [x10], #4
-	b.ne	.LBB0_832
-	b	.LBB0_893
-.LBB0_833:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_834:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x12], #32
-	subs	x10, x10, #16                   // =16
-	sshll	v2.4s, v0.4h, #0
-	sshll	v3.4s, v1.4h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll	v4.2d, v2.2s, #0
-	sshll	v5.2d, v3.2s, #0
-	sshll2	v2.2d, v2.4s, #0
-	sshll	v6.2d, v0.2s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll	v7.2d, v1.2s, #0
-	sshll2	v0.2d, v0.4s, #0
-	sshll2	v1.2d, v1.4s, #0
-	stp	q7, q1, [x11, #96]
-	stp	q6, q0, [x11, #32]
-	stp	q5, q3, [x11, #64]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_834
-// %bb.835:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_836:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #1
-.LBB0_837:                              // =>This Inner Loop Header: Depth=1
-	ldrsh	x11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_837
-	b	.LBB0_893
-.LBB0_838:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_839:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	sshll	v4.4s, v1.4h, #0
-	sshll	v5.4s, v0.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v6.4s, v3.4h, #0
-	sshll	v7.4s, v2.4h, #0
-	sshll2	v3.4s, v3.8h, #0
-	sshll2	v2.4s, v2.8h, #0
-	scvtf	v4.4s, v4.4s
-	scvtf	v5.4s, v5.4s
-	scvtf	v1.4s, v1.4s
-	scvtf	v0.4s, v0.4s
-	scvtf	v6.4s, v6.4s
-	scvtf	v7.4s, v7.4s
-	scvtf	v3.4s, v3.4s
-	scvtf	v2.4s, v2.4s
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q1, [x11, #-64]
-	stp	q7, q2, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_839
-// %bb.840:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_841:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #1
-.LBB0_842:                              // =>This Inner Loop Header: Depth=1
-	ldrsh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	scvtf	s0, w11
-	str	s0, [x10], #4
-	b.ne	.LBB0_842
-	b	.LBB0_893
-.LBB0_843:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_844:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	scvtf	v1.2d, v1.2d
-	scvtf	v3.2d, v3.2d
-	scvtf	v5.2d, v5.2d
-	scvtf	v7.2d, v7.2d
-	scvtf	v4.2d, v4.2d
-	scvtf	v6.2d, v6.2d
-	scvtf	v2.2d, v2.2d
-	scvtf	v0.2d, v0.2d
-	fcvtn	v5.2s, v5.2d
-	fcvtn	v7.2s, v7.2d
-	fcvtn	v3.2s, v3.2d
-	fcvtn	v1.2s, v1.2d
-	fcvtn2	v5.4s, v4.2d
-	fcvtn2	v7.4s, v6.2d
-	fcvtn2	v3.4s, v2.2d
-	fcvtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_844
-// %bb.845:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_846:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_847:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	scvtf	s0, x11
-	str	s0, [x10], #4
-	b.ne	.LBB0_847
-	b	.LBB0_893
-.LBB0_848:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_849:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	fcvtl	v4.2d, v1.2s
-	fcvtl	v5.2d, v0.2s
-	fcvtl	v6.2d, v3.2s
-	fcvtl	v7.2d, v2.2s
-	fcvtl2	v1.2d, v1.4s
-	fcvtl2	v0.2d, v0.4s
-	fcvtl2	v3.2d, v3.4s
-	fcvtl2	v2.2d, v2.4s
-	fcvtzs	v4.2d, v4.2d
-	fcvtzs	v5.2d, v5.2d
-	fcvtzs	v6.2d, v6.2d
-	fcvtzs	v7.2d, v7.2d
-	fcvtzs	v1.2d, v1.2d
-	fcvtzs	v0.2d, v0.2d
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v2.2d, v2.2d
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_849
-// %bb.850:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_851:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_852:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x9], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzs	x11, s0
-	str	x11, [x10], #8
-	b.ne	.LBB0_852
-	b	.LBB0_893
-.LBB0_853:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_854:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	add	x12, x12, #64                   // =64
-	subs	x10, x10, #16                   // =16
-	sshll	v4.2d, v1.2s, #0
-	sshll	v5.2d, v0.2s, #0
-	sshll	v6.2d, v3.2s, #0
-	sshll	v7.2d, v2.2s, #0
-	sshll2	v1.2d, v1.4s, #0
-	sshll2	v0.2d, v0.4s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll2	v2.2d, v2.4s, #0
-	stp	q7, q2, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q0, [x11, #32]
-	stp	q4, q1, [x11], #128
-	b.ne	.LBB0_854
-// %bb.855:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_856:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #3
-	add	x9, x2, x9, lsl #2
-.LBB0_857:                              // =>This Inner Loop Header: Depth=1
-	ldrsw	x11, [x9], #4
-	subs	x8, x8, #1                      // =1
-	str	x11, [x10], #8
-	b.ne	.LBB0_857
-	b	.LBB0_893
-.LBB0_858:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_859:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-32]
-	ldp	q2, q3, [x10, #-64]
-	ldp	q4, q5, [x10, #32]
-	ldp	q6, q7, [x10], #128
-	scvtf	v1.4s, v1.4s
-	scvtf	v3.4s, v3.4s
-	scvtf	v2.4s, v2.4s
-	scvtf	v0.4s, v0.4s
-	scvtf	v7.4s, v7.4s
-	scvtf	v6.4s, v6.4s
-	scvtf	v5.4s, v5.4s
-	scvtf	v4.4s, v4.4s
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-32]
-	stp	q2, q3, [x11, #-64]
-	stp	q4, q5, [x11, #32]
-	stp	q6, q7, [x11], #128
-	b.ne	.LBB0_859
-// %bb.860:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_861:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_862:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x10], #4
-	subs	x8, x8, #1                      // =1
-	scvtf	s0, s0
-	str	s0, [x9], #4
-	b.ne	.LBB0_862
-	b	.LBB0_893
-.LBB0_863:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_864:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	fcvtzs	v1.2d, v1.2d
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v5.2d, v5.2d
-	fcvtzs	v7.2d, v7.2d
-	fcvtzs	v4.2d, v4.2d
-	fcvtzs	v6.2d, v6.2d
-	fcvtzs	v2.2d, v2.2d
-	fcvtzs	v0.2d, v0.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn	v3.2s, v3.2d
-	xtn	v1.2s, v1.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_864
-// %bb.865:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_866:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_867:                              // =>This Inner Loop Header: Depth=1
-	ldr	d0, [x9], #8
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, d0
-	str	w11, [x10], #4
-	b.ne	.LBB0_867
-	b	.LBB0_893
-.LBB0_868:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_869:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_869
-// %bb.870:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_871:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_872:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_872
-	b	.LBB0_893
-.LBB0_873:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_874:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	ushll	v4.4s, v1.4h, #0
-	ushll	v5.4s, v0.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v6.4s, v3.4h, #0
-	ushll	v7.4s, v2.4h, #0
-	ushll2	v3.4s, v3.8h, #0
-	ushll2	v2.4s, v2.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q1, [x11, #-64]
-	stp	q7, q2, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_874
-// %bb.875:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_876:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #1
-.LBB0_877:                              // =>This Inner Loop Header: Depth=1
-	ldrh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_877
-	b	.LBB0_893
-.LBB0_878:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_879:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	sshll	v4.4s, v1.4h, #0
-	sshll	v5.4s, v0.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v6.4s, v3.4h, #0
-	sshll	v7.4s, v2.4h, #0
-	sshll2	v3.4s, v3.8h, #0
-	sshll2	v2.4s, v2.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q1, [x11, #-64]
-	stp	q7, q2, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_879
-// %bb.880:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_881:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #1
-.LBB0_882:                              // =>This Inner Loop Header: Depth=1
-	ldrsh	w11, [x9], #2
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_882
-	b	.LBB0_893
-.LBB0_883:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_884:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12, #64]
-	ldp	q3, q2, [x12, #96]
-	ldp	q5, q4, [x12, #32]
-	ldp	q7, q6, [x12], #128
-	xtn	v1.2s, v1.2d
-	xtn	v3.2s, v3.2d
-	xtn	v5.2s, v5.2d
-	xtn	v7.2s, v7.2d
-	xtn2	v5.4s, v4.2d
-	xtn2	v7.4s, v6.2d
-	xtn2	v3.4s, v2.2d
-	xtn2	v1.4s, v0.2d
-	subs	x10, x10, #16                   // =16
-	stp	q1, q3, [x11, #32]
-	stp	q7, q5, [x11], #64
-	b.ne	.LBB0_884
-// %bb.885:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_886:
-	sub	x8, x8, x9
-	add	x10, x3, x9, lsl #2
-	add	x9, x2, x9, lsl #3
-.LBB0_887:                              // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x9], #8
-	subs	x8, x8, #1                      // =1
-	str	w11, [x10], #4
-	b.ne	.LBB0_887
-	b	.LBB0_893
-.LBB0_888:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_889:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-32]
-	ldp	q2, q3, [x10, #-64]
-	ldp	q4, q5, [x10, #32]
-	ldp	q6, q7, [x10], #128
-	fcvtzs	v1.4s, v1.4s
-	fcvtzs	v3.4s, v3.4s
-	fcvtzs	v2.4s, v2.4s
-	fcvtzs	v0.4s, v0.4s
-	fcvtzs	v7.4s, v7.4s
-	fcvtzs	v6.4s, v6.4s
-	fcvtzs	v5.4s, v5.4s
-	fcvtzs	v4.4s, v4.4s
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-32]
-	stp	q2, q3, [x11, #-64]
-	stp	q4, q5, [x11, #32]
-	stp	q6, q7, [x11], #128
-	b.ne	.LBB0_889
-// %bb.890:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-.LBB0_891:
-	lsl	x10, x9, #2
-	sub	x8, x8, x9
-	add	x9, x3, x10
-	add	x10, x2, x10
-.LBB0_892:                              // =>This Inner Loop Header: Depth=1
-	ldr	s0, [x10], #4
-	subs	x8, x8, #1                      // =1
-	fcvtzs	w11, s0
-	str	w11, [x9], #4
-	b.ne	.LBB0_892
-.LBB0_893:
-	ldp	x29, x30, [sp], #16             // 16-byte Folded Reload
-	ret
-.LBB0_894:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_895:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q3, q2, [x11, #-32]
-	stp	q1, q0, [x11, #-64]
-	stp	q7, q6, [x11, #32]
-	stp	q5, q4, [x11], #128
-	b.ne	.LBB0_895
-// %bb.896:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_15
-.LBB0_897:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_898:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	sshll	v2.8h, v0.8b, #0
-	sshll2	v0.8h, v0.16b, #0
-	sshll	v3.8h, v1.8b, #0
-	sshll2	v1.8h, v1.16b, #0
-	sshll	v4.4s, v2.4h, #0
-	sshll2	v2.4s, v2.8h, #0
-	sshll	v5.4s, v0.4h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v6.4s, v3.4h, #0
-	sshll2	v3.4s, v3.8h, #0
-	sshll	v7.4s, v1.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q2, [x11, #-64]
-	stp	q7, q1, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_898
-// %bb.899:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_41
-.LBB0_900:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_901:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	ushll	v2.8h, v0.8b, #0
-	ushll2	v0.8h, v0.16b, #0
-	ushll	v3.8h, v1.8b, #0
-	ushll2	v1.8h, v1.16b, #0
-	ushll	v4.4s, v2.4h, #0
-	ushll2	v2.4s, v2.8h, #0
-	ushll	v5.4s, v0.4h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v6.4s, v3.4h, #0
-	ushll2	v3.4s, v3.8h, #0
-	ushll	v7.4s, v1.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q2, [x11, #-64]
-	stp	q7, q1, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_901
-// %bb.902:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_95
-.LBB0_903:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_904:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q3, q2, [x11, #-32]
-	stp	q1, q0, [x11, #-64]
-	stp	q7, q6, [x11, #32]
-	stp	q5, q4, [x11], #128
-	b.ne	.LBB0_904
-// %bb.905:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_107
-.LBB0_906:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_907:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	ldp	q5, q4, [x12, #96]
-	ldp	q7, q6, [x12, #64]
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q5, q4, [x11, #96]
-	stp	q7, q6, [x11, #64]
-	stp	q3, q2, [x11, #32]
-	stp	q1, q0, [x11], #128
-	b.ne	.LBB0_907
-// %bb.908:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_125
-.LBB0_909:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_910:                              // =>This Inner Loop Header: Depth=1
-	ldr	q1, [x12], #16
-	subs	x10, x10, #16                   // =16
-	ext	v0.16b, v1.16b, v1.16b, #8
-	umov	w13, v1.b[0]
-	umov	w15, v1.b[2]
-	umov	w17, v1.b[4]
-	fmov	s2, w13
-	umov	w13, v1.b[5]
-	fmov	s3, w15
-	umov	w15, v1.b[6]
-	fmov	s4, w17
-	umov	w17, v0.b[0]
-	fmov	s5, w15
-	umov	w15, v0.b[2]
-	fmov	s6, w17
-	mov	v4.s[1], w13
-	umov	w13, v0.b[1]
-	umov	w17, v0.b[4]
-	fmov	s7, w15
-	mov	v6.s[1], w13
-	umov	w13, v0.b[3]
-	umov	w15, v0.b[6]
-	fmov	s16, w17
-	mov	v7.s[1], w13
-	umov	w13, v0.b[5]
-	umov	w14, v1.b[1]
-	umov	w16, v1.b[3]
-	umov	w17, v1.b[7]
-	fmov	s1, w15
-	mov	v16.s[1], w13
-	umov	w13, v0.b[7]
-	mov	v2.s[1], w14
-	mov	v3.s[1], w16
-	mov	v5.s[1], w17
-	mov	v1.s[1], w13
-	shl	v0.2s, v2.2s, #24
-	shl	v2.2s, v3.2s, #24
-	shl	v3.2s, v4.2s, #24
-	shl	v4.2s, v5.2s, #24
-	shl	v5.2s, v6.2s, #24
-	shl	v6.2s, v7.2s, #24
-	shl	v7.2s, v16.2s, #24
-	shl	v1.2s, v1.2s, #24
-	sshr	v0.2s, v0.2s, #24
-	sshr	v2.2s, v2.2s, #24
-	sshr	v3.2s, v3.2s, #24
-	sshr	v4.2s, v4.2s, #24
-	sshr	v5.2s, v5.2s, #24
-	sshr	v6.2s, v6.2s, #24
-	sshr	v7.2s, v7.2s, #24
-	sshr	v1.2s, v1.2s, #24
-	sshll	v0.2d, v0.2s, #0
-	sshll	v2.2d, v2.2s, #0
-	sshll	v3.2d, v3.2s, #0
-	sshll	v4.2d, v4.2s, #0
-	sshll	v5.2d, v5.2s, #0
-	sshll	v6.2d, v6.2s, #0
-	sshll	v7.2d, v7.2s, #0
-	sshll	v1.2d, v1.2s, #0
-	scvtf	v0.2d, v0.2d
-	scvtf	v2.2d, v2.2d
-	scvtf	v3.2d, v3.2d
-	scvtf	v4.2d, v4.2d
-	scvtf	v5.2d, v5.2d
-	scvtf	v6.2d, v6.2d
-	scvtf	v7.2d, v7.2d
-	scvtf	v1.2d, v1.2d
-	stp	q3, q4, [x11, #32]
-	stp	q0, q2, [x11]
-	stp	q7, q1, [x11, #96]
-	stp	q5, q6, [x11, #64]
-	add	x11, x11, #128                  // =128
-	b.ne	.LBB0_910
-// %bb.911:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_136
-.LBB0_912:
-	and	x9, x8, #0xfffffff0
-	movi	d0, #0x0000ff000000ff
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_913:                              // =>This Inner Loop Header: Depth=1
-	ldr	q2, [x12], #16
-	subs	x10, x10, #16                   // =16
-	ext	v1.16b, v2.16b, v2.16b, #8
-	umov	w13, v2.b[0]
-	umov	w15, v2.b[2]
-	umov	w17, v2.b[4]
-	fmov	s3, w13
-	umov	w13, v2.b[5]
-	fmov	s4, w15
-	umov	w15, v2.b[6]
-	fmov	s5, w17
-	umov	w17, v1.b[0]
-	fmov	s6, w15
-	umov	w15, v1.b[2]
-	fmov	s7, w17
-	mov	v5.s[1], w13
-	umov	w13, v1.b[1]
-	umov	w17, v1.b[4]
-	fmov	s16, w15
-	mov	v7.s[1], w13
-	umov	w13, v1.b[3]
-	umov	w15, v1.b[6]
-	fmov	s17, w17
-	mov	v16.s[1], w13
-	umov	w13, v1.b[5]
-	umov	w14, v2.b[1]
-	umov	w16, v2.b[3]
-	umov	w17, v2.b[7]
-	fmov	s2, w15
-	mov	v17.s[1], w13
-	umov	w13, v1.b[7]
-	mov	v3.s[1], w14
-	mov	v4.s[1], w16
-	mov	v6.s[1], w17
-	mov	v2.s[1], w13
-	and	v1.8b, v3.8b, v0.8b
-	and	v3.8b, v4.8b, v0.8b
-	and	v4.8b, v5.8b, v0.8b
-	and	v5.8b, v6.8b, v0.8b
-	and	v6.8b, v7.8b, v0.8b
-	and	v7.8b, v16.8b, v0.8b
-	and	v16.8b, v17.8b, v0.8b
-	and	v2.8b, v2.8b, v0.8b
-	ushll	v1.2d, v1.2s, #0
-	ushll	v3.2d, v3.2s, #0
-	ushll	v4.2d, v4.2s, #0
-	ushll	v5.2d, v5.2s, #0
-	ushll	v6.2d, v6.2s, #0
-	ushll	v7.2d, v7.2s, #0
-	ushll	v16.2d, v16.2s, #0
-	ushll	v2.2d, v2.2s, #0
-	ucvtf	v1.2d, v1.2d
-	ucvtf	v3.2d, v3.2d
-	ucvtf	v4.2d, v4.2d
-	ucvtf	v5.2d, v5.2d
-	ucvtf	v6.2d, v6.2d
-	ucvtf	v7.2d, v7.2d
-	ucvtf	v16.2d, v16.2d
-	ucvtf	v2.2d, v2.2d
-	stp	q4, q5, [x11, #32]
-	stp	q1, q3, [x11]
-	stp	q16, q2, [x11, #96]
-	stp	q6, q7, [x11, #64]
-	add	x11, x11, #128                  // =128
-	b.ne	.LBB0_913
-// %bb.914:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_182
-.LBB0_915:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_916:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn	v7.4h, v7.4s
-	xtn	v5.4h, v5.4s
-	xtn	v0.8b, v1.8h
-	xtn2	v0.16b, v3.8h
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	xtn	v1.8b, v5.8h
-	xtn2	v1.16b, v7.8h
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_916
-// %bb.917:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_198
-.LBB0_918:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_919:                              // =>This Inner Loop Header: Depth=1
-	ldp	q4, q7, [x12]
-	ldp	q0, q1, [x12, #96]
-	ldp	q5, q6, [x12, #32]
-	ldp	q2, q3, [x12, #64]
-	fcvtzs	v7.2d, v7.2d
-	fcvtzs	v4.2d, v4.2d
-	xtn	v7.2s, v7.2d
-	xtn	v4.2s, v4.2d
-	fcvtzs	v1.2d, v1.2d
-	fcvtzs	v0.2d, v0.2d
-	uzp1	v4.4h, v4.4h, v7.4h
-	xtn	v1.2s, v1.2d
-	xtn	v0.2s, v0.2d
-	umov	w13, v4.h[0]
-	fcvtzs	v6.2d, v6.2d
-	fcvtzs	v5.2d, v5.2d
-	uzp1	v0.4h, v0.4h, v1.4h
-	umov	w14, v4.h[1]
-	fmov	s1, w13
-	xtn	v6.2s, v6.2d
-	xtn	v5.2s, v5.2d
-	umov	w13, v4.h[2]
-	mov	v1.b[1], w14
-	uzp1	v5.4h, v5.4h, v6.4h
-	umov	w14, v4.h[3]
-	mov	v1.b[2], w13
-	umov	w13, v5.h[0]
-	mov	v1.b[3], w14
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v2.2d, v2.2d
-	umov	w14, v5.h[1]
-	mov	v1.b[4], w13
-	xtn	v3.2s, v3.2d
-	xtn	v2.2s, v2.2d
-	umov	w13, v5.h[2]
-	mov	v1.b[5], w14
-	uzp1	v2.4h, v2.4h, v3.4h
-	umov	w14, v5.h[3]
-	mov	v1.b[6], w13
-	umov	w13, v2.h[0]
-	mov	v1.b[7], w14
-	umov	w14, v2.h[1]
-	mov	v1.b[8], w13
-	umov	w13, v2.h[2]
-	mov	v1.b[9], w14
-	umov	w14, v2.h[3]
-	mov	v1.b[10], w13
-	umov	w13, v0.h[0]
-	mov	v1.b[11], w14
-	umov	w14, v0.h[1]
-	mov	v1.b[12], w13
-	umov	w13, v0.h[2]
-	mov	v1.b[13], w14
-	umov	w14, v0.h[3]
-	mov	v1.b[14], w13
-	mov	v1.b[15], w14
-	subs	x10, x10, #16                   // =16
-	str	q1, [x11], #16
-	add	x12, x12, #128                  // =128
-	b.ne	.LBB0_919
-// %bb.920:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_207
-.LBB0_921:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_922:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_922
-// %bb.923:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_216
-.LBB0_924:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #128                   // =128
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_925:                              // =>This Inner Loop Header: Depth=1
-	ldp	q17, q5, [x10, #-64]
-	ldp	q20, q7, [x10, #-32]
-	ldp	q4, q0, [x10, #-128]
-	ldp	q6, q1, [x10, #-96]
-	xtn	v17.2s, v17.2d
-	xtn	v20.2s, v20.2d
-	ldp	q19, q2, [x10]
-	ldp	q21, q3, [x10, #32]
-	ldp	q22, q16, [x10, #64]
-	ldp	q23, q18, [x10, #96]
-	xtn2	v20.4s, v7.2d
-	xtn2	v17.4s, v5.2d
-	xtn	v6.2s, v6.2d
-	xtn	v4.2s, v4.2d
-	xtn	v5.4h, v17.4s
-	xtn2	v5.8h, v20.4s
-	xtn2	v6.4s, v1.2d
-	xtn2	v4.4s, v0.2d
-	xtn	v0.4h, v4.4s
-	xtn2	v0.8h, v6.4s
-	xtn	v23.2s, v23.2d
-	xtn	v22.2s, v22.2d
-	xtn	v0.8b, v0.8h
-	xtn2	v0.16b, v5.8h
-	xtn2	v23.4s, v18.2d
-	xtn2	v22.4s, v16.2d
-	xtn	v21.2s, v21.2d
-	xtn	v19.2s, v19.2d
-	xtn	v1.4h, v22.4s
-	xtn2	v1.8h, v23.4s
-	xtn2	v21.4s, v3.2d
-	xtn2	v19.4s, v2.2d
-	xtn	v2.4h, v19.4s
-	xtn2	v2.8h, v21.4s
-	xtn	v2.8b, v2.8h
-	xtn2	v2.16b, v1.8h
-	add	x10, x10, #256                  // =256
-	subs	x12, x12, #32                   // =32
-	stp	q0, q2, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_925
-// %bb.926:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_225
-.LBB0_927:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_928:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	xtn	v1.8b, v1.8h
-	xtn	v3.8b, v3.8h
-	xtn2	v1.16b, v0.8h
-	xtn2	v3.16b, v2.8h
-	stp	q1, q3, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_928
-// %bb.929:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_234
-.LBB0_930:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_931:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	xtn	v1.8b, v1.8h
-	xtn	v3.8b, v3.8h
-	xtn2	v1.16b, v0.8h
-	xtn2	v3.16b, v2.8h
-	stp	q1, q3, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_931
-// %bb.932:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_243
-.LBB0_933:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #128                   // =128
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_934:                              // =>This Inner Loop Header: Depth=1
-	ldp	q17, q5, [x10, #-64]
-	ldp	q20, q7, [x10, #-32]
-	ldp	q4, q0, [x10, #-128]
-	ldp	q6, q1, [x10, #-96]
-	xtn	v17.2s, v17.2d
-	xtn	v20.2s, v20.2d
-	ldp	q19, q2, [x10]
-	ldp	q21, q3, [x10, #32]
-	ldp	q22, q16, [x10, #64]
-	ldp	q23, q18, [x10, #96]
-	xtn2	v20.4s, v7.2d
-	xtn2	v17.4s, v5.2d
-	xtn	v6.2s, v6.2d
-	xtn	v4.2s, v4.2d
-	xtn	v5.4h, v17.4s
-	xtn2	v5.8h, v20.4s
-	xtn2	v6.4s, v1.2d
-	xtn2	v4.4s, v0.2d
-	xtn	v0.4h, v4.4s
-	xtn2	v0.8h, v6.4s
-	xtn	v23.2s, v23.2d
-	xtn	v22.2s, v22.2d
-	xtn	v0.8b, v0.8h
-	xtn2	v0.16b, v5.8h
-	xtn2	v23.4s, v18.2d
-	xtn2	v22.4s, v16.2d
-	xtn	v21.2s, v21.2d
-	xtn	v19.2s, v19.2d
-	xtn	v1.4h, v22.4s
-	xtn2	v1.8h, v23.4s
-	xtn2	v21.4s, v3.2d
-	xtn2	v19.4s, v2.2d
-	xtn	v2.4h, v19.4s
-	xtn2	v2.8h, v21.4s
-	xtn	v2.8b, v2.8h
-	xtn2	v2.16b, v1.8h
-	add	x10, x10, #256                  // =256
-	subs	x12, x12, #32                   // =32
-	stp	q0, q2, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_934
-// %bb.935:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_252
-.LBB0_936:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_937:                              // =>This Inner Loop Header: Depth=1
-	ldp	q4, q0, [x10, #-64]
-	ldp	q5, q1, [x10]
-	ldp	q3, q2, [x10, #-32]
-	subs	x12, x12, #32                   // =32
-	fcvtzs	v4.4s, v4.4s
-	fcvtzs	v5.4s, v5.4s
-	xtn	v7.4h, v4.4s
-	xtn	v6.4h, v5.4s
-	umov	w13, v7.h[0]
-	umov	w14, v6.h[0]
-	fmov	s4, w13
-	umov	w15, v7.h[1]
-	fmov	s5, w14
-	umov	w13, v7.h[2]
-	mov	v4.b[1], w15
-	umov	w14, v6.h[1]
-	fcvtzs	v0.4s, v0.4s
-	mov	v5.b[1], w14
-	umov	w14, v7.h[3]
-	ldp	q16, q7, [x10, #32]
-	fcvtzs	v1.4s, v1.4s
-	xtn	v0.4h, v0.4s
-	mov	v4.b[2], w13
-	umov	w13, v6.h[2]
-	xtn	v1.4h, v1.4s
-	mov	v5.b[2], w13
-	umov	w13, v0.h[0]
-	mov	v4.b[3], w14
-	umov	w14, v6.h[3]
-	mov	v5.b[3], w14
-	umov	w14, v0.h[1]
-	mov	v4.b[4], w13
-	umov	w13, v1.h[0]
-	fcvtzs	v3.4s, v3.4s
-	mov	v5.b[4], w13
-	umov	w13, v0.h[2]
-	mov	v4.b[5], w14
-	umov	w14, v1.h[1]
-	fcvtzs	v16.4s, v16.4s
-	xtn	v3.4h, v3.4s
-	mov	v5.b[5], w14
-	umov	w14, v0.h[3]
-	mov	v4.b[6], w13
-	umov	w13, v1.h[2]
-	xtn	v16.4h, v16.4s
-	mov	v5.b[6], w13
-	umov	w13, v3.h[0]
-	mov	v4.b[7], w14
-	umov	w14, v1.h[3]
-	mov	v5.b[7], w14
-	umov	w14, v3.h[1]
-	mov	v4.b[8], w13
-	umov	w13, v16.h[0]
-	fcvtzs	v2.4s, v2.4s
-	mov	v5.b[8], w13
-	umov	w13, v3.h[2]
-	mov	v4.b[9], w14
-	umov	w14, v16.h[1]
-	fcvtzs	v7.4s, v7.4s
-	xtn	v2.4h, v2.4s
-	mov	v5.b[9], w14
-	umov	w14, v3.h[3]
-	mov	v4.b[10], w13
-	umov	w13, v16.h[2]
-	xtn	v7.4h, v7.4s
-	mov	v5.b[10], w13
-	umov	w13, v2.h[0]
-	mov	v4.b[11], w14
-	umov	w14, v16.h[3]
-	mov	v5.b[11], w14
-	umov	w14, v2.h[1]
-	mov	v4.b[12], w13
-	umov	w13, v7.h[0]
-	mov	v5.b[12], w13
-	umov	w13, v2.h[2]
-	mov	v4.b[13], w14
-	umov	w14, v7.h[1]
-	mov	v5.b[13], w14
-	mov	v4.b[14], w13
-	umov	w13, v7.h[2]
-	umov	w14, v2.h[3]
-	mov	v5.b[14], w13
-	umov	w13, v7.h[3]
-	mov	v4.b[15], w14
-	mov	v5.b[15], w13
-	add	x10, x10, #128                  // =128
-	stp	q4, q5, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_937
-// %bb.938:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_261
-.LBB0_939:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_940:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_940
-// %bb.941:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_270
-.LBB0_942:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_943:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn	v7.4h, v7.4s
-	xtn	v5.4h, v5.4s
-	xtn	v0.8b, v1.8h
-	xtn2	v0.16b, v3.8h
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	xtn	v1.8b, v5.8h
-	xtn2	v1.16b, v7.8h
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_943
-// %bb.944:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_279
-.LBB0_945:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_946:                              // =>This Inner Loop Header: Depth=1
-	ldr	q0, [x12], #16
-	subs	x10, x10, #16                   // =16
-	sshll	v1.8h, v0.8b, #0
-	sshll2	v0.8h, v0.16b, #0
-	sshll	v2.4s, v1.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll	v3.4s, v0.4h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v4.2d, v2.2s, #0
-	sshll2	v2.2d, v2.4s, #0
-	sshll	v5.2d, v1.2s, #0
-	sshll	v6.2d, v3.2s, #0
-	sshll2	v1.2d, v1.4s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll	v7.2d, v0.2s, #0
-	sshll2	v0.2d, v0.4s, #0
-	stp	q7, q0, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q1, [x11, #32]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_946
-// %bb.947:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_298
-.LBB0_948:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_949:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	ldp	q5, q4, [x12, #96]
-	ldp	q7, q6, [x12, #64]
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q5, q4, [x11, #96]
-	stp	q7, q6, [x11, #64]
-	stp	q3, q2, [x11, #32]
-	stp	q1, q0, [x11], #128
-	b.ne	.LBB0_949
-// %bb.950:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_307
-.LBB0_951:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_952:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	ldp	q5, q4, [x12, #96]
-	ldp	q7, q6, [x12, #64]
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q5, q4, [x11, #96]
-	stp	q7, q6, [x11, #64]
-	stp	q3, q2, [x11, #32]
-	stp	q1, q0, [x11], #128
-	b.ne	.LBB0_952
-// %bb.953:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_326
-.LBB0_954:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_955:                              // =>This Inner Loop Header: Depth=1
-	ldr	q0, [x12], #16
-	subs	x10, x10, #16                   // =16
-	ushll	v1.8h, v0.8b, #0
-	ushll2	v0.8h, v0.16b, #0
-	ushll	v2.4s, v1.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll	v3.4s, v0.4h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v4.2d, v2.2s, #0
-	ushll2	v2.2d, v2.4s, #0
-	ushll	v5.2d, v1.2s, #0
-	ushll	v6.2d, v3.2s, #0
-	ushll2	v1.2d, v1.4s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll	v7.2d, v0.2s, #0
-	ushll2	v0.2d, v0.4s, #0
-	stp	q7, q0, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q1, [x11, #32]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_955
-// %bb.956:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_340
-.LBB0_957:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_958:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	sshll	v2.8h, v0.8b, #0
-	sshll2	v0.8h, v0.16b, #0
-	sshll	v3.8h, v1.8b, #0
-	sshll2	v1.8h, v1.16b, #0
-	stp	q2, q0, [x11, #-32]
-	stp	q3, q1, [x11], #64
-	b.ne	.LBB0_958
-// %bb.959:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_364
-.LBB0_960:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_961:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	sshll	v2.8h, v0.8b, #0
-	sshll2	v0.8h, v0.16b, #0
-	sshll	v3.8h, v1.8b, #0
-	sshll2	v1.8h, v1.16b, #0
-	stp	q2, q0, [x11, #-32]
-	stp	q3, q1, [x11], #64
-	b.ne	.LBB0_961
-// %bb.962:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_371
-.LBB0_963:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_964:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	stp	q1, q0, [x11, #-32]
-	stp	q3, q2, [x11], #64
-	b.ne	.LBB0_964
-// %bb.965:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_384
-.LBB0_966:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_967:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	stp	q1, q0, [x11, #-32]
-	stp	q3, q2, [x11], #64
-	b.ne	.LBB0_967
-// %bb.968:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_391
-.LBB0_969:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_970:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	stp	q1, q0, [x11, #-32]
-	stp	q3, q2, [x11], #64
-	b.ne	.LBB0_970
-// %bb.971:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_398
-.LBB0_972:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_973:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	stp	q1, q0, [x11, #-32]
-	stp	q3, q2, [x11], #64
-	b.ne	.LBB0_973
-// %bb.974:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_405
-.LBB0_975:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_976:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	ushll	v2.8h, v0.8b, #0
-	ushll2	v0.8h, v0.16b, #0
-	ushll	v3.8h, v1.8b, #0
-	ushll2	v1.8h, v1.16b, #0
-	stp	q2, q0, [x11, #-32]
-	stp	q3, q1, [x11], #64
-	b.ne	.LBB0_976
-// %bb.977:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_424
-.LBB0_978:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #32                    // =32
-	mov	x12, x9
-.LBB0_979:                              // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	ushll	v2.8h, v0.8b, #0
-	ushll2	v0.8h, v0.16b, #0
-	ushll	v3.8h, v1.8b, #0
-	ushll2	v1.8h, v1.16b, #0
-	stp	q2, q0, [x11, #-32]
-	stp	q3, q1, [x11], #64
-	b.ne	.LBB0_979
-// %bb.980:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_431
-.LBB0_981:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_982:                              // =>This Inner Loop Header: Depth=1
-	ldr	q0, [x12], #16
-	subs	x10, x10, #16                   // =16
-	sshll	v1.8h, v0.8b, #0
-	sshll2	v0.8h, v0.16b, #0
-	sshll	v2.4s, v1.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	sshll	v3.4s, v0.4h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v4.2d, v2.2s, #0
-	sshll2	v2.2d, v2.4s, #0
-	sshll	v5.2d, v1.2s, #0
-	sshll	v6.2d, v3.2s, #0
-	sshll2	v1.2d, v1.4s, #0
-	sshll2	v3.2d, v3.4s, #0
-	sshll	v7.2d, v0.2s, #0
-	sshll2	v0.2d, v0.4s, #0
-	stp	q7, q0, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q1, [x11, #32]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_982
-// %bb.983:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_456
-.LBB0_984:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_985:                              // =>This Inner Loop Header: Depth=1
-	ldr	q0, [x12], #16
-	subs	x10, x10, #16                   // =16
-	ext	v1.16b, v0.16b, v0.16b, #8
-	zip1	v2.8b, v0.8b, v0.8b
-	zip2	v0.8b, v0.8b, v0.8b
-	zip1	v3.8b, v1.8b, v0.8b
-	zip2	v1.8b, v1.8b, v0.8b
-	shl	v2.4h, v2.4h, #8
-	shl	v0.4h, v0.4h, #8
-	shl	v3.4h, v3.4h, #8
-	shl	v1.4h, v1.4h, #8
-	sshr	v2.4h, v2.4h, #8
-	sshr	v0.4h, v0.4h, #8
-	sshr	v3.4h, v3.4h, #8
-	sshr	v1.4h, v1.4h, #8
-	sshll	v2.4s, v2.4h, #0
-	sshll	v0.4s, v0.4h, #0
-	sshll	v3.4s, v3.4h, #0
-	sshll	v1.4s, v1.4h, #0
-	scvtf	v2.4s, v2.4s
-	scvtf	v0.4s, v0.4s
-	scvtf	v3.4s, v3.4s
-	scvtf	v1.4s, v1.4s
-	stp	q2, q0, [x11]
-	stp	q3, q1, [x11, #32]
-	add	x11, x11, #64                   // =64
-	b.ne	.LBB0_985
-// %bb.986:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_463
-.LBB0_987:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_988:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	ldp	q5, q4, [x12, #96]
-	ldp	q7, q6, [x12, #64]
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q5, q4, [x11, #96]
-	stp	q7, q6, [x11, #64]
-	stp	q3, q2, [x11, #32]
-	stp	q1, q0, [x11], #128
-	b.ne	.LBB0_988
-// %bb.989:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_470
-.LBB0_990:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_991:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x12]
-	ldp	q3, q2, [x12, #32]
-	ldp	q5, q4, [x12, #96]
-	ldp	q7, q6, [x12, #64]
-	add	x12, x12, #128                  // =128
-	subs	x10, x10, #16                   // =16
-	stp	q5, q4, [x11, #96]
-	stp	q7, q6, [x11, #64]
-	stp	q3, q2, [x11, #32]
-	stp	q1, q0, [x11], #128
-	b.ne	.LBB0_991
-// %bb.992:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_492
-.LBB0_993:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_994:                              // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q3, q2, [x11, #-32]
-	stp	q1, q0, [x11, #-64]
-	stp	q7, q6, [x11, #32]
-	stp	q5, q4, [x11], #128
-	b.ne	.LBB0_994
-// %bb.995:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_505
-.LBB0_996:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_997:                              // =>This Inner Loop Header: Depth=1
-	ldr	q0, [x12], #16
-	subs	x10, x10, #16                   // =16
-	ushll	v1.8h, v0.8b, #0
-	ushll2	v0.8h, v0.16b, #0
-	ushll	v2.4s, v1.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	ushll	v3.4s, v0.4h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v4.2d, v2.2s, #0
-	ushll2	v2.2d, v2.4s, #0
-	ushll	v5.2d, v1.2s, #0
-	ushll	v6.2d, v3.2s, #0
-	ushll2	v1.2d, v1.4s, #0
-	ushll2	v3.2d, v3.4s, #0
-	ushll	v7.2d, v0.2s, #0
-	ushll2	v0.2d, v0.4s, #0
-	stp	q7, q0, [x11, #96]
-	stp	q6, q3, [x11, #64]
-	stp	q5, q1, [x11, #32]
-	stp	q4, q2, [x11], #128
-	b.ne	.LBB0_997
-// %bb.998:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_512
-.LBB0_999:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_1000:                             // =>This Inner Loop Header: Depth=1
-	ldr	q0, [x12], #16
-	subs	x10, x10, #16                   // =16
-	ext	v1.16b, v0.16b, v0.16b, #8
-	zip1	v2.8b, v0.8b, v0.8b
-	zip2	v0.8b, v0.8b, v0.8b
-	zip1	v3.8b, v1.8b, v0.8b
-	zip2	v1.8b, v1.8b, v0.8b
-	bic	v2.4h, #255, lsl #8
-	bic	v0.4h, #255, lsl #8
-	bic	v3.4h, #255, lsl #8
-	bic	v1.4h, #255, lsl #8
-	ushll	v2.4s, v2.4h, #0
-	ushll	v0.4s, v0.4h, #0
-	ushll	v3.4s, v3.4h, #0
-	ushll	v1.4s, v1.4h, #0
-	ucvtf	v2.4s, v2.4s
-	ucvtf	v0.4s, v0.4s
-	ucvtf	v3.4s, v3.4s
-	ucvtf	v1.4s, v1.4s
-	stp	q2, q0, [x11]
-	stp	q3, q1, [x11, #32]
-	add	x11, x11, #64                   // =64
-	b.ne	.LBB0_1000
-// %bb.1001:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_519
-.LBB0_1002:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1003:                             // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn	v7.4h, v7.4s
-	xtn	v5.4h, v5.4s
-	xtn	v0.8b, v1.8h
-	xtn2	v0.16b, v3.8h
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	xtn	v1.8b, v5.8h
-	xtn2	v1.16b, v7.8h
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1003
-// %bb.1004:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_532
-.LBB0_1005:
-	and	x9, x8, #0xfffffff0
-	mov	x10, x9
-	mov	x11, x3
-	mov	x12, x2
-.LBB0_1006:                             // =>This Inner Loop Header: Depth=1
-	ldp	q4, q7, [x12]
-	ldp	q0, q1, [x12, #96]
-	ldp	q5, q6, [x12, #32]
-	ldp	q2, q3, [x12, #64]
-	fcvtzs	v7.2d, v7.2d
-	fcvtzs	v4.2d, v4.2d
-	xtn	v7.2s, v7.2d
-	xtn	v4.2s, v4.2d
-	fcvtzs	v1.2d, v1.2d
-	fcvtzs	v0.2d, v0.2d
-	uzp1	v4.4h, v4.4h, v7.4h
-	xtn	v1.2s, v1.2d
-	xtn	v0.2s, v0.2d
-	umov	w13, v4.h[0]
-	fcvtzs	v6.2d, v6.2d
-	fcvtzs	v5.2d, v5.2d
-	uzp1	v0.4h, v0.4h, v1.4h
-	umov	w14, v4.h[1]
-	fmov	s1, w13
-	xtn	v6.2s, v6.2d
-	xtn	v5.2s, v5.2d
-	umov	w13, v4.h[2]
-	mov	v1.b[1], w14
-	uzp1	v5.4h, v5.4h, v6.4h
-	umov	w14, v4.h[3]
-	mov	v1.b[2], w13
-	umov	w13, v5.h[0]
-	mov	v1.b[3], w14
-	fcvtzs	v3.2d, v3.2d
-	fcvtzs	v2.2d, v2.2d
-	umov	w14, v5.h[1]
-	mov	v1.b[4], w13
-	xtn	v3.2s, v3.2d
-	xtn	v2.2s, v2.2d
-	umov	w13, v5.h[2]
-	mov	v1.b[5], w14
-	uzp1	v2.4h, v2.4h, v3.4h
-	umov	w14, v5.h[3]
-	mov	v1.b[6], w13
-	umov	w13, v2.h[0]
-	mov	v1.b[7], w14
-	umov	w14, v2.h[1]
-	mov	v1.b[8], w13
-	umov	w13, v2.h[2]
-	mov	v1.b[9], w14
-	umov	w14, v2.h[3]
-	mov	v1.b[10], w13
-	umov	w13, v0.h[0]
-	mov	v1.b[11], w14
-	umov	w14, v0.h[1]
-	mov	v1.b[12], w13
-	umov	w13, v0.h[2]
-	mov	v1.b[13], w14
-	umov	w14, v0.h[3]
-	mov	v1.b[14], w13
-	mov	v1.b[15], w14
-	subs	x10, x10, #16                   // =16
-	str	q1, [x11], #16
-	add	x12, x12, #128                  // =128
-	b.ne	.LBB0_1006
-// %bb.1007:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_539
-.LBB0_1008:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1009:                             // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1009
-// %bb.1010:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_546
-.LBB0_1011:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #128                   // =128
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1012:                             // =>This Inner Loop Header: Depth=1
-	ldp	q17, q5, [x10, #-64]
-	ldp	q20, q7, [x10, #-32]
-	ldp	q4, q0, [x10, #-128]
-	ldp	q6, q1, [x10, #-96]
-	xtn	v17.2s, v17.2d
-	xtn	v20.2s, v20.2d
-	ldp	q19, q2, [x10]
-	ldp	q21, q3, [x10, #32]
-	ldp	q22, q16, [x10, #64]
-	ldp	q23, q18, [x10, #96]
-	xtn2	v20.4s, v7.2d
-	xtn2	v17.4s, v5.2d
-	xtn	v6.2s, v6.2d
-	xtn	v4.2s, v4.2d
-	xtn	v5.4h, v17.4s
-	xtn2	v5.8h, v20.4s
-	xtn2	v6.4s, v1.2d
-	xtn2	v4.4s, v0.2d
-	xtn	v0.4h, v4.4s
-	xtn2	v0.8h, v6.4s
-	xtn	v23.2s, v23.2d
-	xtn	v22.2s, v22.2d
-	xtn	v0.8b, v0.8h
-	xtn2	v0.16b, v5.8h
-	xtn2	v23.4s, v18.2d
-	xtn2	v22.4s, v16.2d
-	xtn	v21.2s, v21.2d
-	xtn	v19.2s, v19.2d
-	xtn	v1.4h, v22.4s
-	xtn2	v1.8h, v23.4s
-	xtn2	v21.4s, v3.2d
-	xtn2	v19.4s, v2.2d
-	xtn	v2.4h, v19.4s
-	xtn2	v2.8h, v21.4s
-	xtn	v2.8b, v2.8h
-	xtn2	v2.16b, v1.8h
-	add	x10, x10, #256                  // =256
-	subs	x12, x12, #32                   // =32
-	stp	q0, q2, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1012
-// %bb.1013:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_553
-.LBB0_1014:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1015:                             // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	xtn	v1.8b, v1.8h
-	xtn	v3.8b, v3.8h
-	xtn2	v1.16b, v0.8h
-	xtn2	v3.16b, v2.8h
-	stp	q1, q3, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1015
-// %bb.1016:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_560
-.LBB0_1017:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #32                    // =32
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1018:                             // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-32]
-	ldp	q3, q2, [x10], #64
-	subs	x12, x12, #32                   // =32
-	xtn	v1.8b, v1.8h
-	xtn	v3.8b, v3.8h
-	xtn2	v1.16b, v0.8h
-	xtn2	v3.16b, v2.8h
-	stp	q1, q3, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1018
-// %bb.1019:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_567
-.LBB0_1020:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #128                   // =128
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1021:                             // =>This Inner Loop Header: Depth=1
-	ldp	q17, q5, [x10, #-64]
-	ldp	q20, q7, [x10, #-32]
-	ldp	q4, q0, [x10, #-128]
-	ldp	q6, q1, [x10, #-96]
-	xtn	v17.2s, v17.2d
-	xtn	v20.2s, v20.2d
-	ldp	q19, q2, [x10]
-	ldp	q21, q3, [x10, #32]
-	ldp	q22, q16, [x10, #64]
-	ldp	q23, q18, [x10, #96]
-	xtn2	v20.4s, v7.2d
-	xtn2	v17.4s, v5.2d
-	xtn	v6.2s, v6.2d
-	xtn	v4.2s, v4.2d
-	xtn	v5.4h, v17.4s
-	xtn2	v5.8h, v20.4s
-	xtn2	v6.4s, v1.2d
-	xtn2	v4.4s, v0.2d
-	xtn	v0.4h, v4.4s
-	xtn2	v0.8h, v6.4s
-	xtn	v23.2s, v23.2d
-	xtn	v22.2s, v22.2d
-	xtn	v0.8b, v0.8h
-	xtn2	v0.16b, v5.8h
-	xtn2	v23.4s, v18.2d
-	xtn2	v22.4s, v16.2d
-	xtn	v21.2s, v21.2d
-	xtn	v19.2s, v19.2d
-	xtn	v1.4h, v22.4s
-	xtn2	v1.8h, v23.4s
-	xtn2	v21.4s, v3.2d
-	xtn2	v19.4s, v2.2d
-	xtn	v2.4h, v19.4s
-	xtn2	v2.8h, v21.4s
-	xtn	v2.8b, v2.8h
-	xtn2	v2.16b, v1.8h
-	add	x10, x10, #256                  // =256
-	subs	x12, x12, #32                   // =32
-	stp	q0, q2, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1021
-// %bb.1022:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_574
-.LBB0_1023:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1024:                             // =>This Inner Loop Header: Depth=1
-	ldp	q4, q0, [x10, #-64]
-	ldp	q5, q1, [x10]
-	ldp	q3, q2, [x10, #-32]
-	subs	x12, x12, #32                   // =32
-	fcvtzs	v4.4s, v4.4s
-	fcvtzs	v5.4s, v5.4s
-	xtn	v7.4h, v4.4s
-	xtn	v6.4h, v5.4s
-	umov	w13, v7.h[0]
-	umov	w14, v6.h[0]
-	fmov	s4, w13
-	umov	w15, v7.h[1]
-	fmov	s5, w14
-	umov	w13, v7.h[2]
-	mov	v4.b[1], w15
-	umov	w14, v6.h[1]
-	fcvtzs	v0.4s, v0.4s
-	mov	v5.b[1], w14
-	umov	w14, v7.h[3]
-	ldp	q16, q7, [x10, #32]
-	fcvtzs	v1.4s, v1.4s
-	xtn	v0.4h, v0.4s
-	mov	v4.b[2], w13
-	umov	w13, v6.h[2]
-	xtn	v1.4h, v1.4s
-	mov	v5.b[2], w13
-	umov	w13, v0.h[0]
-	mov	v4.b[3], w14
-	umov	w14, v6.h[3]
-	mov	v5.b[3], w14
-	umov	w14, v0.h[1]
-	mov	v4.b[4], w13
-	umov	w13, v1.h[0]
-	fcvtzs	v3.4s, v3.4s
-	mov	v5.b[4], w13
-	umov	w13, v0.h[2]
-	mov	v4.b[5], w14
-	umov	w14, v1.h[1]
-	fcvtzs	v16.4s, v16.4s
-	xtn	v3.4h, v3.4s
-	mov	v5.b[5], w14
-	umov	w14, v0.h[3]
-	mov	v4.b[6], w13
-	umov	w13, v1.h[2]
-	xtn	v16.4h, v16.4s
-	mov	v5.b[6], w13
-	umov	w13, v3.h[0]
-	mov	v4.b[7], w14
-	umov	w14, v1.h[3]
-	mov	v5.b[7], w14
-	umov	w14, v3.h[1]
-	mov	v4.b[8], w13
-	umov	w13, v16.h[0]
-	fcvtzs	v2.4s, v2.4s
-	mov	v5.b[8], w13
-	umov	w13, v3.h[2]
-	mov	v4.b[9], w14
-	umov	w14, v16.h[1]
-	fcvtzs	v7.4s, v7.4s
-	xtn	v2.4h, v2.4s
-	mov	v5.b[9], w14
-	umov	w14, v3.h[3]
-	mov	v4.b[10], w13
-	umov	w13, v16.h[2]
-	xtn	v7.4h, v7.4s
-	mov	v5.b[10], w13
-	umov	w13, v2.h[0]
-	mov	v4.b[11], w14
-	umov	w14, v16.h[3]
-	mov	v5.b[11], w14
-	umov	w14, v2.h[1]
-	mov	v4.b[12], w13
-	umov	w13, v7.h[0]
-	mov	v5.b[12], w13
-	umov	w13, v2.h[2]
-	mov	v4.b[13], w14
-	umov	w14, v7.h[1]
-	mov	v5.b[13], w14
-	mov	v4.b[14], w13
-	umov	w13, v7.h[2]
-	umov	w14, v2.h[3]
-	mov	v5.b[14], w13
-	umov	w13, v7.h[3]
-	mov	v4.b[15], w14
-	mov	v5.b[15], w13
-	add	x10, x10, #128                  // =128
-	stp	q4, q5, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1024
-// %bb.1025:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_581
-.LBB0_1026:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1027:                             // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1027
-// %bb.1028:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_588
-.LBB0_1029:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #16                    // =16
-	mov	x12, x9
-.LBB0_1030:                             // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	xtn	v1.4h, v1.4s
-	xtn	v3.4h, v3.4s
-	xtn2	v3.8h, v2.4s
-	xtn2	v1.8h, v0.4s
-	xtn	v7.4h, v7.4s
-	xtn	v5.4h, v5.4s
-	xtn	v0.8b, v1.8h
-	xtn2	v0.16b, v3.8h
-	xtn2	v7.8h, v6.4s
-	xtn2	v5.8h, v4.4s
-	xtn	v1.8b, v5.8h
-	xtn2	v1.16b, v7.8h
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q0, q1, [x11, #-16]
-	add	x11, x11, #32                   // =32
-	b.ne	.LBB0_1030
-// %bb.1031:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_595
-.LBB0_1032:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_1033:                             // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q3, q2, [x11, #-32]
-	stp	q1, q0, [x11, #-64]
-	stp	q7, q6, [x11, #32]
-	stp	q5, q4, [x11], #128
-	b.ne	.LBB0_1033
-// %bb.1034:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_602
-.LBB0_1035:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_1036:                             // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	sshll	v2.8h, v0.8b, #0
-	sshll2	v0.8h, v0.16b, #0
-	sshll	v3.8h, v1.8b, #0
-	sshll2	v1.8h, v1.16b, #0
-	sshll	v4.4s, v2.4h, #0
-	sshll2	v2.4s, v2.8h, #0
-	sshll	v5.4s, v0.4h, #0
-	sshll2	v0.4s, v0.8h, #0
-	sshll	v6.4s, v3.4h, #0
-	sshll2	v3.4s, v3.8h, #0
-	sshll	v7.4s, v1.4h, #0
-	sshll2	v1.4s, v1.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q2, [x11, #-64]
-	stp	q7, q1, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_1036
-// %bb.1037:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_612
-.LBB0_1038:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #16                    // =16
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_1039:                             // =>This Inner Loop Header: Depth=1
-	ldp	q0, q1, [x10, #-16]
-	add	x10, x10, #32                   // =32
-	subs	x12, x12, #32                   // =32
-	ushll	v2.8h, v0.8b, #0
-	ushll2	v0.8h, v0.16b, #0
-	ushll	v3.8h, v1.8b, #0
-	ushll2	v1.8h, v1.16b, #0
-	ushll	v4.4s, v2.4h, #0
-	ushll2	v2.4s, v2.8h, #0
-	ushll	v5.4s, v0.4h, #0
-	ushll2	v0.4s, v0.8h, #0
-	ushll	v6.4s, v3.4h, #0
-	ushll2	v3.4s, v3.8h, #0
-	ushll	v7.4s, v1.4h, #0
-	ushll2	v1.4s, v1.8h, #0
-	stp	q5, q0, [x11, #-32]
-	stp	q4, q2, [x11, #-64]
-	stp	q7, q1, [x11, #32]
-	stp	q6, q3, [x11], #128
-	b.ne	.LBB0_1039
-// %bb.1040:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_634
-.LBB0_1041:
-	and	x9, x8, #0xffffffe0
-	add	x10, x2, #64                    // =64
-	add	x11, x3, #64                    // =64
-	mov	x12, x9
-.LBB0_1042:                             // =>This Inner Loop Header: Depth=1
-	ldp	q1, q0, [x10, #-64]
-	ldp	q3, q2, [x10, #-32]
-	ldp	q5, q4, [x10]
-	ldp	q7, q6, [x10, #32]
-	add	x10, x10, #128                  // =128
-	subs	x12, x12, #32                   // =32
-	stp	q3, q2, [x11, #-32]
-	stp	q1, q0, [x11, #-64]
-	stp	q7, q6, [x11, #32]
-	stp	q5, q4, [x11], #128
-	b.ne	.LBB0_1042
-// %bb.1043:
-	cmp	x9, x8
-	b.eq	.LBB0_893
-	b	.LBB0_641
-.Lfunc_end0:
-	.size	cast_type_numeric_neon, .Lfunc_end0-cast_type_numeric_neon
-                                        // -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	// .addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/cast_numeric_sse4_amd64.s
deleted file mode 100644
index 12c57c96f5ce9..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/cast_numeric_sse4_amd64.s
+++ /dev/null
@@ -1,8837 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"cast_numeric.cc"
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function cast_type_numeric_sse4
-.LCPI0_0:
-	.quad	0x43e0000000000000              # double 9.2233720368547758E+18
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI0_1:
-	.byte	0                               # 0x0
-	.byte	4                               # 0x4
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI0_3:
-	.long	0x4f000000                      # float 2.14748365E+9
-	.long	0x4f000000                      # float 2.14748365E+9
-	.long	0x4f000000                      # float 2.14748365E+9
-	.long	0x4f000000                      # float 2.14748365E+9
-.LCPI0_4:
-	.long	2147483648                      # 0x80000000
-	.long	2147483648                      # 0x80000000
-	.long	2147483648                      # 0x80000000
-	.long	2147483648                      # 0x80000000
-.LCPI0_5:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI0_6:
-	.quad	4841369599423283200             # 0x4330000000000000
-	.quad	4841369599423283200             # 0x4330000000000000
-.LCPI0_7:
-	.quad	4985484787499139072             # 0x4530000000000000
-	.quad	4985484787499139072             # 0x4530000000000000
-.LCPI0_8:
-	.quad	0x4530000000100000              # double 1.9342813118337666E+25
-	.quad	0x4530000000100000              # double 1.9342813118337666E+25
-.LCPI0_9:
-	.long	1127219200                      # 0x43300000
-	.long	1160773632                      # 0x45300000
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_10:
-	.quad	0x4330000000000000              # double 4503599627370496
-	.quad	0x4530000000000000              # double 1.9342813113834067E+25
-.LCPI0_11:
-	.quad	1                               # 0x1
-	.quad	1                               # 0x1
-.LCPI0_12:
-	.byte	0                               # 0x0
-	.byte	1                               # 0x1
-	.byte	4                               # 0x4
-	.byte	5                               # 0x5
-	.byte	8                               # 0x8
-	.byte	9                               # 0x9
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	8                               # 0x8
-	.byte	9                               # 0x9
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	12                              # 0xc
-	.byte	13                              # 0xd
-	.byte	14                              # 0xe
-	.byte	15                              # 0xf
-.LCPI0_13:
-	.byte	0                               # 0x0
-	.byte	4                               # 0x4
-	.byte	8                               # 0x8
-	.byte	12                              # 0xc
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI0_14:
-	.long	1258291200                      # 0x4b000000
-	.long	1258291200                      # 0x4b000000
-	.long	1258291200                      # 0x4b000000
-	.long	1258291200                      # 0x4b000000
-.LCPI0_15:
-	.long	1392508928                      # 0x53000000
-	.long	1392508928                      # 0x53000000
-	.long	1392508928                      # 0x53000000
-	.long	1392508928                      # 0x53000000
-.LCPI0_16:
-	.long	0x53000080                      # float 5.49764202E+11
-	.long	0x53000080                      # float 5.49764202E+11
-	.long	0x53000080                      # float 5.49764202E+11
-	.long	0x53000080                      # float 5.49764202E+11
-.LCPI0_17:
-	.byte	0                               # 0x0
-	.byte	2                               # 0x2
-	.byte	4                               # 0x4
-	.byte	6                               # 0x6
-	.byte	8                               # 0x8
-	.byte	10                              # 0xa
-	.byte	12                              # 0xc
-	.byte	14                              # 0xe
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2
-.LCPI0_2:
-	.long	0x5f000000                      # float 9.22337203E+18
-	.text
-	.globl	cast_type_numeric_sse4
-	.p2align	4, 0x90
-	.type	cast_type_numeric_sse4,@function
-cast_type_numeric_sse4:                 # @cast_type_numeric_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edi, 6
-	jg	.LBB0_13
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB0_25
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB0_45
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB0_53
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB0_1526
-# %bb.5:
-	cmp	esi, 6
-	jg	.LBB0_93
-# %bb.6:
-	cmp	esi, 3
-	jle	.LBB0_163
-# %bb.7:
-	cmp	esi, 4
-	je	.LBB0_263
-# %bb.8:
-	cmp	esi, 5
-	je	.LBB0_266
-# %bb.9:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.10:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.11:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_12
-# %bb.443:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_761
-# %bb.444:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_761
-.LBB0_12:
-	xor	esi, esi
-.LBB0_1104:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1106
-.LBB0_1105:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1105
-.LBB0_1106:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1107:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1107
-	jmp	.LBB0_1526
-.LBB0_13:
-	cmp	edi, 8
-	jle	.LBB0_35
-# %bb.14:
-	cmp	edi, 9
-	je	.LBB0_61
-# %bb.15:
-	cmp	edi, 11
-	je	.LBB0_69
-# %bb.16:
-	cmp	edi, 12
-	jne	.LBB0_1526
-# %bb.17:
-	cmp	esi, 6
-	jg	.LBB0_100
-# %bb.18:
-	cmp	esi, 3
-	jle	.LBB0_168
-# %bb.19:
-	cmp	esi, 4
-	je	.LBB0_269
-# %bb.20:
-	cmp	esi, 5
-	je	.LBB0_272
-# %bb.21:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.22:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.23:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_446
-# %bb.24:
-	xor	edi, edi
-	jmp	.LBB0_448
-.LBB0_25:
-	cmp	edi, 2
-	je	.LBB0_77
-# %bb.26:
-	cmp	edi, 3
-	jne	.LBB0_1526
-# %bb.27:
-	cmp	esi, 6
-	jg	.LBB0_107
-# %bb.28:
-	cmp	esi, 3
-	jle	.LBB0_173
-# %bb.29:
-	cmp	esi, 4
-	je	.LBB0_275
-# %bb.30:
-	cmp	esi, 5
-	je	.LBB0_278
-# %bb.31:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.32:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.33:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_34
-# %bb.451:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_763
-# %bb.452:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_763
-.LBB0_34:
-	xor	esi, esi
-.LBB0_1482:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1484
-.LBB0_1483:                             # =>This Inner Loop Header: Depth=1
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1483
-.LBB0_1484:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1485:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1485
-	jmp	.LBB0_1526
-.LBB0_35:
-	cmp	edi, 7
-	je	.LBB0_85
-# %bb.36:
-	cmp	edi, 8
-	jne	.LBB0_1526
-# %bb.37:
-	cmp	esi, 6
-	jg	.LBB0_114
-# %bb.38:
-	cmp	esi, 3
-	jle	.LBB0_178
-# %bb.39:
-	cmp	esi, 4
-	je	.LBB0_281
-# %bb.40:
-	cmp	esi, 5
-	je	.LBB0_284
-# %bb.41:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.42:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.43:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_454
-# %bb.44:
-	xor	esi, esi
-	jmp	.LBB0_948
-.LBB0_45:
-	cmp	esi, 6
-	jg	.LBB0_121
-# %bb.46:
-	cmp	esi, 3
-	jle	.LBB0_183
-# %bb.47:
-	cmp	esi, 4
-	je	.LBB0_287
-# %bb.48:
-	cmp	esi, 5
-	je	.LBB0_290
-# %bb.49:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.50:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.51:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_457
-# %bb.52:
-	xor	esi, esi
-	jmp	.LBB0_953
-.LBB0_53:
-	cmp	esi, 6
-	jg	.LBB0_128
-# %bb.54:
-	cmp	esi, 3
-	jle	.LBB0_188
-# %bb.55:
-	cmp	esi, 4
-	je	.LBB0_293
-# %bb.56:
-	cmp	esi, 5
-	je	.LBB0_296
-# %bb.57:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.58:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.59:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_460
-# %bb.60:
-	xor	esi, esi
-	jmp	.LBB0_958
-.LBB0_61:
-	cmp	esi, 6
-	jg	.LBB0_135
-# %bb.62:
-	cmp	esi, 3
-	jle	.LBB0_193
-# %bb.63:
-	cmp	esi, 4
-	je	.LBB0_299
-# %bb.64:
-	cmp	esi, 5
-	je	.LBB0_302
-# %bb.65:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.66:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.67:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_463
-# %bb.68:
-	xor	esi, esi
-	jmp	.LBB0_963
-.LBB0_69:
-	cmp	esi, 6
-	jg	.LBB0_142
-# %bb.70:
-	cmp	esi, 3
-	jle	.LBB0_198
-# %bb.71:
-	cmp	esi, 4
-	je	.LBB0_305
-# %bb.72:
-	cmp	esi, 5
-	je	.LBB0_308
-# %bb.73:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.74:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.75:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_466
-# %bb.76:
-	xor	esi, esi
-	jmp	.LBB0_968
-.LBB0_77:
-	cmp	esi, 6
-	jg	.LBB0_149
-# %bb.78:
-	cmp	esi, 3
-	jle	.LBB0_203
-# %bb.79:
-	cmp	esi, 4
-	je	.LBB0_311
-# %bb.80:
-	cmp	esi, 5
-	je	.LBB0_314
-# %bb.81:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.82:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.83:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_84
-# %bb.469:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_766
-# %bb.470:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_766
-.LBB0_84:
-	xor	esi, esi
-.LBB0_1490:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1492
-.LBB0_1491:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1491
-.LBB0_1492:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1493:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1493
-	jmp	.LBB0_1526
-.LBB0_85:
-	cmp	esi, 6
-	jg	.LBB0_156
-# %bb.86:
-	cmp	esi, 3
-	jle	.LBB0_208
-# %bb.87:
-	cmp	esi, 4
-	je	.LBB0_317
-# %bb.88:
-	cmp	esi, 5
-	je	.LBB0_320
-# %bb.89:
-	cmp	esi, 6
-	jne	.LBB0_1526
-# %bb.90:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.91:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_92
-# %bb.472:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_769
-# %bb.473:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_769
-.LBB0_92:
-	xor	esi, esi
-.LBB0_1114:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1116
-.LBB0_1115:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1115
-.LBB0_1116:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1117:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1117
-	jmp	.LBB0_1526
-.LBB0_93:
-	cmp	esi, 8
-	jle	.LBB0_213
-# %bb.94:
-	cmp	esi, 9
-	je	.LBB0_323
-# %bb.95:
-	cmp	esi, 11
-	je	.LBB0_326
-# %bb.96:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.97:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.98:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_475
-# %bb.99:
-	xor	edi, edi
-	jmp	.LBB0_477
-.LBB0_100:
-	cmp	esi, 8
-	jle	.LBB0_218
-# %bb.101:
-	cmp	esi, 9
-	je	.LBB0_329
-# %bb.102:
-	cmp	esi, 11
-	je	.LBB0_332
-# %bb.103:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.104:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.105:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_106
-# %bb.480:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_771
-# %bb.481:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_771
-.LBB0_106:
-	xor	esi, esi
-.LBB0_1124:
-	mov	edi, r9d
-	sub	edi, esi
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	and	rdi, 7
-	je	.LBB0_1126
-.LBB0_1125:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1125
-.LBB0_1126:
-	cmp	r8, 7
-	jb	.LBB0_1526
-.LBB0_1127:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 32]
-	mov	qword ptr [rcx + 8*rsi + 32], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 40]
-	mov	qword ptr [rcx + 8*rsi + 40], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 48]
-	mov	qword ptr [rcx + 8*rsi + 48], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 56]
-	mov	qword ptr [rcx + 8*rsi + 56], rax
-	add	rsi, 8
-	cmp	r9, rsi
-	jne	.LBB0_1127
-	jmp	.LBB0_1526
-.LBB0_107:
-	cmp	esi, 8
-	jle	.LBB0_223
-# %bb.108:
-	cmp	esi, 9
-	je	.LBB0_335
-# %bb.109:
-	cmp	esi, 11
-	je	.LBB0_338
-# %bb.110:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.111:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.112:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_483
-# %bb.113:
-	xor	edi, edi
-	jmp	.LBB0_485
-.LBB0_114:
-	cmp	esi, 8
-	jle	.LBB0_228
-# %bb.115:
-	cmp	esi, 9
-	je	.LBB0_341
-# %bb.116:
-	cmp	esi, 11
-	je	.LBB0_344
-# %bb.117:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.118:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.119:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_488
-# %bb.120:
-	xor	esi, esi
-	jmp	.LBB0_973
-.LBB0_121:
-	cmp	esi, 8
-	jle	.LBB0_233
-# %bb.122:
-	cmp	esi, 9
-	je	.LBB0_347
-# %bb.123:
-	cmp	esi, 11
-	je	.LBB0_350
-# %bb.124:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.125:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.126:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_491
-# %bb.127:
-	xor	edi, edi
-	jmp	.LBB0_493
-.LBB0_128:
-	cmp	esi, 8
-	jle	.LBB0_238
-# %bb.129:
-	cmp	esi, 9
-	je	.LBB0_353
-# %bb.130:
-	cmp	esi, 11
-	je	.LBB0_356
-# %bb.131:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.132:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.133:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_496
-# %bb.134:
-	xor	edi, edi
-	jmp	.LBB0_498
-.LBB0_135:
-	cmp	esi, 8
-	jle	.LBB0_243
-# %bb.136:
-	cmp	esi, 9
-	je	.LBB0_359
-# %bb.137:
-	cmp	esi, 11
-	je	.LBB0_362
-# %bb.138:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.139:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.140:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	eax, esi
-	and	eax, 3
-	cmp	rdi, 3
-	jae	.LBB0_501
-# %bb.141:
-	xor	edi, edi
-	jmp	.LBB0_503
-.LBB0_142:
-	cmp	esi, 8
-	jle	.LBB0_248
-# %bb.143:
-	cmp	esi, 9
-	je	.LBB0_365
-# %bb.144:
-	cmp	esi, 11
-	je	.LBB0_368
-# %bb.145:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.146:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.147:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_506
-# %bb.148:
-	xor	esi, esi
-	jmp	.LBB0_979
-.LBB0_149:
-	cmp	esi, 8
-	jle	.LBB0_253
-# %bb.150:
-	cmp	esi, 9
-	je	.LBB0_371
-# %bb.151:
-	cmp	esi, 11
-	je	.LBB0_374
-# %bb.152:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.153:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.154:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_509
-# %bb.155:
-	xor	edi, edi
-	jmp	.LBB0_511
-.LBB0_156:
-	cmp	esi, 8
-	jle	.LBB0_258
-# %bb.157:
-	cmp	esi, 9
-	je	.LBB0_377
-# %bb.158:
-	cmp	esi, 11
-	je	.LBB0_380
-# %bb.159:
-	cmp	esi, 12
-	jne	.LBB0_1526
-# %bb.160:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.161:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	eax, esi
-	and	eax, 3
-	cmp	rdi, 3
-	jae	.LBB0_514
-# %bb.162:
-	xor	edi, edi
-	jmp	.LBB0_516
-.LBB0_163:
-	cmp	esi, 2
-	je	.LBB0_383
-# %bb.164:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.165:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.166:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_167
-# %bb.519:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_773
-# %bb.520:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_773
-.LBB0_167:
-	xor	esi, esi
-.LBB0_1498:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1500
-.LBB0_1499:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1499
-.LBB0_1500:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1501:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1501
-	jmp	.LBB0_1526
-.LBB0_168:
-	cmp	esi, 2
-	je	.LBB0_386
-# %bb.169:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.170:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.171:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_172
-# %bb.522:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_776
-# %bb.523:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_776
-.LBB0_172:
-	xor	esi, esi
-.LBB0_1506:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1508
-.LBB0_1507:                             # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1507
-.LBB0_1508:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1509:                             # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1509
-	jmp	.LBB0_1526
-.LBB0_173:
-	cmp	esi, 2
-	je	.LBB0_389
-# %bb.174:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.175:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.176:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_177
-# %bb.525:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_779
-# %bb.526:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_779
-.LBB0_177:
-	xor	esi, esi
-.LBB0_1134:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1136
-.LBB0_1135:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1135
-.LBB0_1136:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1137:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1137
-	jmp	.LBB0_1526
-.LBB0_178:
-	cmp	esi, 2
-	je	.LBB0_392
-# %bb.179:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.180:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.181:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_182
-# %bb.528:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_781
-# %bb.529:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_781
-.LBB0_182:
-	xor	esi, esi
-.LBB0_1322:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1324
-.LBB0_1323:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1323
-.LBB0_1324:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1325:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1325
-	jmp	.LBB0_1526
-.LBB0_183:
-	cmp	esi, 2
-	je	.LBB0_395
-# %bb.184:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.185:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.186:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_187
-# %bb.531:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_784
-# %bb.532:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_784
-.LBB0_187:
-	xor	esi, esi
-.LBB0_1330:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1332
-.LBB0_1331:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1331
-.LBB0_1332:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1333:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1333
-	jmp	.LBB0_1526
-.LBB0_188:
-	cmp	esi, 2
-	je	.LBB0_398
-# %bb.189:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.190:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.191:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_192
-# %bb.534:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_787
-# %bb.535:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_787
-.LBB0_192:
-	xor	esi, esi
-.LBB0_1514:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1516
-.LBB0_1515:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1515
-.LBB0_1516:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1517:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1517
-	jmp	.LBB0_1526
-.LBB0_193:
-	cmp	esi, 2
-	je	.LBB0_401
-# %bb.194:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.195:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.196:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_197
-# %bb.537:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_790
-# %bb.538:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_790
-.LBB0_197:
-	xor	esi, esi
-.LBB0_1338:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1340
-.LBB0_1339:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1339
-.LBB0_1340:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1341:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1341
-	jmp	.LBB0_1526
-.LBB0_198:
-	cmp	esi, 2
-	je	.LBB0_404
-# %bb.199:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.200:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.201:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_202
-# %bb.540:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_793
-# %bb.541:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_793
-.LBB0_202:
-	xor	esi, esi
-.LBB0_1522:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1524
-.LBB0_1523:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1523
-.LBB0_1524:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1525:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	cvttss2si	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	cvttss2si	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	cvttss2si	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1525
-	jmp	.LBB0_1526
-.LBB0_203:
-	cmp	esi, 2
-	je	.LBB0_407
-# %bb.204:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.205:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.206:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_207
-# %bb.543:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_796
-# %bb.544:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_796
-.LBB0_207:
-	xor	esi, esi
-.LBB0_1144:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1146
-.LBB0_1145:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1145
-.LBB0_1146:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1147:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1147
-	jmp	.LBB0_1526
-.LBB0_208:
-	cmp	esi, 2
-	je	.LBB0_410
-# %bb.209:
-	cmp	esi, 3
-	jne	.LBB0_1526
-# %bb.210:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.211:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_212
-# %bb.546:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_798
-# %bb.547:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_798
-.LBB0_212:
-	xor	esi, esi
-.LBB0_1346:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1348
-.LBB0_1347:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1347
-.LBB0_1348:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1349:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1349
-	jmp	.LBB0_1526
-.LBB0_213:
-	cmp	esi, 7
-	je	.LBB0_413
-# %bb.214:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.215:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.216:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_549
-# %bb.217:
-	xor	esi, esi
-	jmp	.LBB0_807
-.LBB0_218:
-	cmp	esi, 7
-	je	.LBB0_416
-# %bb.219:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.220:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.221:
-	mov	r9d, r8d
-	lea	rax, [r9 - 1]
-	mov	r8d, r9d
-	and	r8d, 3
-	movabs	r10, -9223372036854775808
-	cmp	rax, 3
-	jae	.LBB0_551
-# %bb.222:
-	xor	eax, eax
-	jmp	.LBB0_553
-.LBB0_223:
-	cmp	esi, 7
-	je	.LBB0_419
-# %bb.224:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.225:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.226:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_227
-# %bb.556:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_808
-# %bb.557:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_808
-.LBB0_227:
-	xor	esi, esi
-.LBB0_1154:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1156
-.LBB0_1155:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1155
-.LBB0_1156:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1157:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movsx	rax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movsx	rax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movsx	rax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1157
-	jmp	.LBB0_1526
-.LBB0_228:
-	cmp	esi, 7
-	je	.LBB0_422
-# %bb.229:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.230:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.231:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_232
-# %bb.559:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_810
-# %bb.560:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_810
-.LBB0_232:
-	xor	esi, esi
-.LBB0_1164:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1166
-.LBB0_1165:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1165
-.LBB0_1166:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1167:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1167
-	jmp	.LBB0_1526
-.LBB0_233:
-	cmp	esi, 7
-	je	.LBB0_425
-# %bb.234:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.235:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.236:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_562
-# %bb.237:
-	xor	esi, esi
-	jmp	.LBB0_818
-.LBB0_238:
-	cmp	esi, 7
-	je	.LBB0_428
-# %bb.239:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.240:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.241:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_564
-# %bb.242:
-	xor	esi, esi
-	jmp	.LBB0_825
-.LBB0_243:
-	cmp	esi, 7
-	je	.LBB0_431
-# %bb.244:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.245:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.246:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_247
-# %bb.566:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_826
-# %bb.567:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_826
-.LBB0_247:
-	xor	esi, esi
-.LBB0_1174:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1176
-.LBB0_1175:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1175
-.LBB0_1176:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1177:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1177
-	jmp	.LBB0_1526
-.LBB0_248:
-	cmp	esi, 7
-	je	.LBB0_434
-# %bb.249:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.250:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.251:
-	mov	r9d, r8d
-	lea	rax, [r9 - 1]
-	mov	r8d, r9d
-	and	r8d, 3
-	cmp	rax, 3
-	jae	.LBB0_569
-# %bb.252:
-	xor	edi, edi
-	jmp	.LBB0_571
-.LBB0_253:
-	cmp	esi, 7
-	je	.LBB0_437
-# %bb.254:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.255:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.256:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_257
-# %bb.574:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_828
-# %bb.575:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_828
-.LBB0_257:
-	xor	esi, esi
-.LBB0_1184:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1186
-.LBB0_1185:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1185
-.LBB0_1186:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1187:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1187
-	jmp	.LBB0_1526
-.LBB0_258:
-	cmp	esi, 7
-	je	.LBB0_440
-# %bb.259:
-	cmp	esi, 8
-	jne	.LBB0_1526
-# %bb.260:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.261:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_577
-# %bb.262:
-	xor	esi, esi
-	jmp	.LBB0_836
-.LBB0_263:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.264:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_579
-# %bb.265:
-	xor	esi, esi
-	jmp	.LBB0_984
-.LBB0_266:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.267:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_582
-# %bb.268:
-	xor	esi, esi
-	jmp	.LBB0_989
-.LBB0_269:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.270:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_585
-# %bb.271:
-	xor	esi, esi
-	jmp	.LBB0_994
-.LBB0_272:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.273:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_588
-# %bb.274:
-	xor	esi, esi
-	jmp	.LBB0_999
-.LBB0_275:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.276:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_277
-# %bb.591:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_837
-# %bb.592:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_837
-.LBB0_277:
-	xor	esi, esi
-.LBB0_1354:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1356
-.LBB0_1355:                             # =>This Inner Loop Header: Depth=1
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1355
-.LBB0_1356:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1357:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1357
-	jmp	.LBB0_1526
-.LBB0_278:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.279:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_280
-# %bb.594:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_840
-# %bb.595:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_840
-.LBB0_280:
-	xor	esi, esi
-.LBB0_1362:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1364
-.LBB0_1363:                             # =>This Inner Loop Header: Depth=1
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1363
-.LBB0_1364:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1365:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1365
-	jmp	.LBB0_1526
-.LBB0_281:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.282:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_597
-# %bb.283:
-	xor	esi, esi
-	jmp	.LBB0_1004
-.LBB0_284:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.285:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_600
-# %bb.286:
-	xor	esi, esi
-	jmp	.LBB0_1009
-.LBB0_287:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.288:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_289
-# %bb.603:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_843
-# %bb.604:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_843
-.LBB0_289:
-	xor	esi, esi
-.LBB0_1194:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1196
-.LBB0_1195:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1195
-.LBB0_1196:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1197:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1197
-	jmp	.LBB0_1526
-.LBB0_290:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.291:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_292
-# %bb.606:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_845
-# %bb.607:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_845
-.LBB0_292:
-	xor	esi, esi
-.LBB0_1204:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1206
-.LBB0_1205:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1205
-.LBB0_1206:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1207:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1207
-	jmp	.LBB0_1526
-.LBB0_293:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.294:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_295
-# %bb.609:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_847
-# %bb.610:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_847
-.LBB0_295:
-	xor	esi, esi
-.LBB0_1214:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1216
-.LBB0_1215:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1215
-.LBB0_1216:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1217:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1217
-	jmp	.LBB0_1526
-.LBB0_296:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.297:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_298
-# %bb.612:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_849
-# %bb.613:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_849
-.LBB0_298:
-	xor	esi, esi
-.LBB0_1224:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1226
-.LBB0_1225:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1225
-.LBB0_1226:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1227:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1227
-	jmp	.LBB0_1526
-.LBB0_299:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.300:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_615
-# %bb.301:
-	xor	esi, esi
-	jmp	.LBB0_1014
-.LBB0_302:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.303:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_618
-# %bb.304:
-	xor	esi, esi
-	jmp	.LBB0_1019
-.LBB0_305:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.306:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_621
-# %bb.307:
-	xor	esi, esi
-	jmp	.LBB0_1024
-.LBB0_308:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.309:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_624
-# %bb.310:
-	xor	esi, esi
-	jmp	.LBB0_1029
-.LBB0_311:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.312:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_313
-# %bb.627:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_851
-# %bb.628:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_851
-.LBB0_313:
-	xor	esi, esi
-.LBB0_1370:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1372
-.LBB0_1371:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1371
-.LBB0_1372:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1373:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1373
-	jmp	.LBB0_1526
-.LBB0_314:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.315:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_316
-# %bb.630:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_854
-# %bb.631:
-	lea	rax, [rcx + 2*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_854
-.LBB0_316:
-	xor	esi, esi
-.LBB0_1378:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1380
-.LBB0_1379:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], di
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1379
-.LBB0_1380:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1381:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	word ptr [rcx + 2*rsi + 2], ax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	word ptr [rcx + 2*rsi + 4], ax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	word ptr [rcx + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1381
-	jmp	.LBB0_1526
-.LBB0_317:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.318:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_633
-# %bb.319:
-	xor	esi, esi
-	jmp	.LBB0_1034
-.LBB0_320:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.321:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_636
-# %bb.322:
-	xor	esi, esi
-	jmp	.LBB0_1039
-.LBB0_323:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.324:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_639
-# %bb.325:
-	xor	esi, esi
-	jmp	.LBB0_863
-.LBB0_326:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.327:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_641
-# %bb.328:
-	xor	esi, esi
-	jmp	.LBB0_1044
-.LBB0_329:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.330:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_644
-# %bb.331:
-	xor	edi, edi
-	jmp	.LBB0_646
-.LBB0_332:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.333:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_649
-# %bb.334:
-	xor	esi, esi
-	jmp	.LBB0_1049
-.LBB0_335:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.336:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_337
-# %bb.652:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_864
-# %bb.653:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_864
-.LBB0_337:
-	xor	esi, esi
-.LBB0_1234:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1236
-.LBB0_1235:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1235
-.LBB0_1236:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1237:                             # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movsx	rax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movsx	rax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movsx	rax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1237
-	jmp	.LBB0_1526
-.LBB0_338:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.339:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_340
-# %bb.655:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_866
-# %bb.656:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_866
-.LBB0_340:
-	xor	esi, esi
-.LBB0_1386:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1388
-.LBB0_1387:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1387
-.LBB0_1388:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1389:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi + 4], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi + 8], xmm0
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1389
-	jmp	.LBB0_1526
-.LBB0_341:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.342:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_343
-# %bb.658:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_869
-# %bb.659:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_869
-.LBB0_343:
-	xor	esi, esi
-.LBB0_1244:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1246
-.LBB0_1245:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1245
-.LBB0_1246:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1247:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1247
-	jmp	.LBB0_1526
-.LBB0_344:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.345:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_661
-# %bb.346:
-	xor	esi, esi
-	jmp	.LBB0_1056
-.LBB0_347:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.348:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_664
-# %bb.349:
-	xor	esi, esi
-	jmp	.LBB0_877
-.LBB0_350:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.351:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_666
-# %bb.352:
-	xor	esi, esi
-	jmp	.LBB0_1062
-.LBB0_353:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.354:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_669
-# %bb.355:
-	xor	esi, esi
-	jmp	.LBB0_884
-.LBB0_356:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.357:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_671
-# %bb.358:
-	xor	esi, esi
-	jmp	.LBB0_1067
-.LBB0_359:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.360:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_361
-# %bb.674:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_885
-# %bb.675:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_885
-.LBB0_361:
-	xor	esi, esi
-.LBB0_1254:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1256
-.LBB0_1255:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1255
-.LBB0_1256:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1257:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1257
-	jmp	.LBB0_1526
-.LBB0_362:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.363:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	eax, esi
-	and	eax, 3
-	cmp	rdi, 3
-	jae	.LBB0_677
-# %bb.364:
-	xor	edi, edi
-	jmp	.LBB0_679
-.LBB0_365:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.366:
-	mov	esi, r8d
-	lea	rdi, [rsi - 1]
-	mov	r8d, esi
-	and	r8d, 3
-	cmp	rdi, 3
-	jae	.LBB0_682
-# %bb.367:
-	xor	edi, edi
-	jmp	.LBB0_684
-.LBB0_368:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.369:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_370
-# %bb.687:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_887
-# %bb.688:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_887
-.LBB0_370:
-	xor	esi, esi
-.LBB0_1264:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 7
-	je	.LBB0_1266
-.LBB0_1265:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1265
-.LBB0_1266:
-	cmp	r8, 7
-	jb	.LBB0_1526
-.LBB0_1267:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 16]
-	mov	dword ptr [rcx + 4*rsi + 16], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 20]
-	mov	dword ptr [rcx + 4*rsi + 20], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 24]
-	mov	dword ptr [rcx + 4*rsi + 24], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 28]
-	mov	dword ptr [rcx + 4*rsi + 28], eax
-	add	rsi, 8
-	cmp	r9, rsi
-	jne	.LBB0_1267
-	jmp	.LBB0_1526
-.LBB0_371:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.372:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_373
-# %bb.690:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_889
-# %bb.691:
-	lea	rax, [rcx + 8*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_889
-.LBB0_373:
-	xor	esi, esi
-.LBB0_1274:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1276
-.LBB0_1275:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1275
-.LBB0_1276:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1277:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	qword ptr [rcx + 8*rsi + 8], rax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	qword ptr [rcx + 8*rsi + 16], rax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	qword ptr [rcx + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1277
-	jmp	.LBB0_1526
-.LBB0_374:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.375:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_376
-# %bb.693:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_891
-# %bb.694:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_891
-.LBB0_376:
-	xor	esi, esi
-.LBB0_1394:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1396
-.LBB0_1395:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1395
-.LBB0_1396:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1397:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi + 4], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi + 8], xmm0
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1397
-	jmp	.LBB0_1526
-.LBB0_377:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.378:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_696
-# %bb.379:
-	xor	esi, esi
-	jmp	.LBB0_900
-.LBB0_380:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.381:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_698
-# %bb.382:
-	xor	esi, esi
-	jmp	.LBB0_1072
-.LBB0_383:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.384:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_385
-# %bb.701:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_901
-# %bb.702:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_901
-.LBB0_385:
-	xor	esi, esi
-.LBB0_1402:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1404
-.LBB0_1403:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1403
-.LBB0_1404:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1405:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1405
-	jmp	.LBB0_1526
-.LBB0_386:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.387:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_388
-# %bb.704:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_904
-# %bb.705:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_904
-.LBB0_388:
-	xor	esi, esi
-.LBB0_1410:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1412
-.LBB0_1411:                             # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1411
-.LBB0_1412:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1413:                             # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1413
-	jmp	.LBB0_1526
-.LBB0_389:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.390:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_391
-# %bb.707:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_907
-# %bb.708:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_907
-.LBB0_391:
-	xor	esi, esi
-.LBB0_1284:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1286
-.LBB0_1285:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1285
-.LBB0_1286:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1287:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1287
-	jmp	.LBB0_1526
-.LBB0_392:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.393:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_394
-# %bb.710:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_909
-# %bb.711:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_909
-.LBB0_394:
-	xor	esi, esi
-.LBB0_1418:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1420
-.LBB0_1419:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1419
-.LBB0_1420:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1421:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1421
-	jmp	.LBB0_1526
-.LBB0_395:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.396:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_397
-# %bb.713:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_912
-# %bb.714:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_912
-.LBB0_397:
-	xor	esi, esi
-.LBB0_1426:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1428
-.LBB0_1427:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1427
-.LBB0_1428:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1429:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1429
-	jmp	.LBB0_1526
-.LBB0_398:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.399:
-	mov	r9d, r8d
-	cmp	r8d, 16
-	jb	.LBB0_400
-# %bb.716:
-	lea	rax, [rdx + 2*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_915
-# %bb.717:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_915
-.LBB0_400:
-	xor	esi, esi
-.LBB0_1434:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1436
-.LBB0_1435:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1435
-.LBB0_1436:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1437:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 2*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 2]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 4]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 2*rsi + 6]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1437
-	jmp	.LBB0_1526
-.LBB0_401:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.402:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jb	.LBB0_403
-# %bb.719:
-	lea	rax, [rdx + 8*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_918
-# %bb.720:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_918
-.LBB0_403:
-	xor	esi, esi
-.LBB0_1442:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1444
-.LBB0_1443:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1443
-.LBB0_1444:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1445:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 8*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 8]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 16]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 8*rsi + 24]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1445
-	jmp	.LBB0_1526
-.LBB0_404:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.405:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_406
-# %bb.722:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_921
-# %bb.723:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_921
-.LBB0_406:
-	xor	esi, esi
-.LBB0_1450:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1452
-.LBB0_1451:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1451
-.LBB0_1452:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1453:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	cvttss2si	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	cvttss2si	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	cvttss2si	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1453
-	jmp	.LBB0_1526
-.LBB0_407:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.408:
-	mov	r9d, r8d
-	cmp	r8d, 32
-	jb	.LBB0_409
-# %bb.725:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_924
-# %bb.726:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_924
-.LBB0_409:
-	xor	esi, esi
-.LBB0_1294:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1296
-.LBB0_1295:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1295
-.LBB0_1296:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1297:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1297
-	jmp	.LBB0_1526
-.LBB0_410:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.411:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_412
-# %bb.728:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_926
-# %bb.729:
-	lea	rax, [rcx + r9]
-	cmp	rax, rdx
-	jbe	.LBB0_926
-.LBB0_412:
-	xor	esi, esi
-.LBB0_1458:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1460
-.LBB0_1459:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1459
-.LBB0_1460:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1461:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + 4*rsi]
-	mov	byte ptr [rcx + rsi], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 4]
-	mov	byte ptr [rcx + rsi + 1], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 8]
-	mov	byte ptr [rcx + rsi + 2], al
-	movzx	eax, byte ptr [rdx + 4*rsi + 12]
-	mov	byte ptr [rcx + rsi + 3], al
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1461
-	jmp	.LBB0_1526
-.LBB0_413:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.414:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_415
-# %bb.731:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_929
-# %bb.732:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_929
-.LBB0_415:
-	xor	esi, esi
-.LBB0_1304:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1306
-.LBB0_1305:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1305
-.LBB0_1306:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1307:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1307
-	jmp	.LBB0_1526
-.LBB0_416:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.417:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_734
-# %bb.418:
-	xor	esi, esi
-	jmp	.LBB0_1077
-.LBB0_419:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.420:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_421
-# %bb.737:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_931
-# %bb.738:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_931
-.LBB0_421:
-	xor	esi, esi
-.LBB0_1466:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1468
-.LBB0_1467:                             # =>This Inner Loop Header: Depth=1
-	movsx	edi, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1467
-.LBB0_1468:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1469:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movsx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movsx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movsx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1469
-	jmp	.LBB0_1526
-.LBB0_422:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.423:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_740
-# %bb.424:
-	xor	esi, esi
-	jmp	.LBB0_943
-.LBB0_425:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.426:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_743
-# %bb.427:
-	xor	esi, esi
-	jmp	.LBB0_1082
-.LBB0_428:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.429:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_746
-# %bb.430:
-	xor	esi, esi
-	jmp	.LBB0_1087
-.LBB0_431:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.432:
-	mov	r9d, r8d
-	cmp	r8d, 4
-	jae	.LBB0_749
-# %bb.433:
-	xor	esi, esi
-	jmp	.LBB0_1092
-.LBB0_434:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.435:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jae	.LBB0_752
-# %bb.436:
-	xor	esi, esi
-	jmp	.LBB0_1097
-.LBB0_437:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.438:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_439
-# %bb.755:
-	lea	rax, [rdx + r9]
-	cmp	rax, rcx
-	jbe	.LBB0_934
-# %bb.756:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_934
-.LBB0_439:
-	xor	esi, esi
-.LBB0_1474:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_1476
-.LBB0_1475:                             # =>This Inner Loop Header: Depth=1
-	movzx	edi, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], edi
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_1475
-.LBB0_1476:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1477:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1477
-	jmp	.LBB0_1526
-.LBB0_440:
-	test	r8d, r8d
-	jle	.LBB0_1526
-# %bb.441:
-	mov	r9d, r8d
-	cmp	r8d, 8
-	jb	.LBB0_442
-# %bb.758:
-	lea	rax, [rdx + 4*r9]
-	cmp	rax, rcx
-	jbe	.LBB0_937
-# %bb.759:
-	lea	rax, [rcx + 4*r9]
-	cmp	rax, rdx
-	jbe	.LBB0_937
-.LBB0_442:
-	xor	esi, esi
-.LBB0_1314:
-	mov	r8, rsi
-	not	r8
-	add	r8, r9
-	mov	rdi, r9
-	and	rdi, 3
-	je	.LBB0_1316
-.LBB0_1315:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_1315
-.LBB0_1316:
-	cmp	r8, 3
-	jb	.LBB0_1526
-.LBB0_1317:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [rcx + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [rcx + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [rcx + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r9, rsi
-	jne	.LBB0_1317
-	jmp	.LBB0_1526
-.LBB0_446:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_447:                              # =>This Inner Loop Header: Depth=1
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi]
-	mov	dword ptr [rcx + 4*rdi], eax
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 8]
-	mov	dword ptr [rcx + 4*rdi + 4], eax
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 16]
-	mov	dword ptr [rcx + 4*rdi + 8], eax
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 24]
-	mov	dword ptr [rcx + 4*rdi + 12], eax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_447
-.LBB0_448:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.449:
-	lea	rcx, [rcx + 4*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	esi, esi
-.LBB0_450:                              # =>This Inner Loop Header: Depth=1
-	cvttsd2si	rax, qword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_450
-	jmp	.LBB0_1526
-.LBB0_454:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_944
-# %bb.455:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_456:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_456
-	jmp	.LBB0_945
-.LBB0_457:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_949
-# %bb.458:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_459:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_459
-	jmp	.LBB0_950
-.LBB0_460:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_954
-# %bb.461:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_462:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 16]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_462
-	jmp	.LBB0_955
-.LBB0_463:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_959
-# %bb.464:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_465:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_465
-	jmp	.LBB0_960
-.LBB0_466:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_964
-# %bb.467:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movaps	xmm1, xmmword ptr [rip + .LCPI0_3] # xmm1 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	movaps	xmm2, xmmword ptr [rip + .LCPI0_4] # xmm2 = [2147483648,2147483648,2147483648,2147483648]
-.LBB0_468:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm3, xmmword ptr [rdx + 4*rdi]
-	movups	xmm4, xmmword ptr [rdx + 4*rdi + 16]
-	movaps	xmm0, xmm3
-	cmpltps	xmm0, xmm1
-	cvttps2dq	xmm5, xmm3
-	subps	xmm3, xmm1
-	cvttps2dq	xmm3, xmm3
-	xorps	xmm3, xmm2
-	blendvps	xmm3, xmm5, xmm0
-	movaps	xmm0, xmm4
-	cmpltps	xmm0, xmm1
-	cvttps2dq	xmm5, xmm4
-	subps	xmm4, xmm1
-	cvttps2dq	xmm4, xmm4
-	xorps	xmm4, xmm2
-	blendvps	xmm4, xmm5, xmm0
-	movups	xmmword ptr [rcx + 4*rdi], xmm3
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm4
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	movaps	xmm0, xmm3
-	cmpltps	xmm0, xmm1
-	cvttps2dq	xmm4, xmm3
-	subps	xmm3, xmm1
-	cvttps2dq	xmm3, xmm3
-	xorps	xmm3, xmm2
-	blendvps	xmm3, xmm4, xmm0
-	movups	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	movaps	xmm0, xmm4
-	cmpltps	xmm0, xmm1
-	cvttps2dq	xmm5, xmm4
-	subps	xmm4, xmm1
-	cvttps2dq	xmm4, xmm4
-	xorps	xmm4, xmm2
-	blendvps	xmm4, xmm5, xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm3
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm4
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_468
-	jmp	.LBB0_965
-.LBB0_475:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_476:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rdi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, rax
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	mov	eax, dword ptr [rdx + 4*rdi + 4]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, rax
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	mov	eax, dword ptr [rdx + 4*rdi + 8]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, rax
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	mov	eax, dword ptr [rdx + 4*rdi + 12]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, rax
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_476
-.LBB0_477:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.478:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 4*rdi]
-	xor	esi, esi
-.LBB0_479:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, rax
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_479
-	jmp	.LBB0_1526
-.LBB0_483:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_484:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rdi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	movsx	eax, byte ptr [rdx + rdi + 1]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	movsx	eax, byte ptr [rdx + rdi + 2]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	movsx	eax, byte ptr [rdx + rdi + 3]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_484
-.LBB0_485:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.486:
-	lea	rcx, [rcx + 8*rdi]
-	add	rdx, rdi
-	xor	esi, esi
-.LBB0_487:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, byte ptr [rdx + rsi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_487
-	jmp	.LBB0_1526
-.LBB0_488:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_969
-# %bb.489:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	pxor	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_6] # xmm1 = [4841369599423283200,4841369599423283200]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_7] # xmm2 = [4985484787499139072,4985484787499139072]
-	movapd	xmm3, xmmword ptr [rip + .LCPI0_8] # xmm3 = [1.9342813118337666E+25,1.9342813118337666E+25]
-.LBB0_490:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm5, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm6, xmm4
-	pblendw	xmm6, xmm0, 204                 # xmm6 = xmm6[0,1],xmm0[2,3],xmm6[4,5],xmm0[6,7]
-	por	xmm6, xmm1
-	psrlq	xmm4, 32
-	por	xmm4, xmm2
-	subpd	xmm4, xmm3
-	addpd	xmm4, xmm6
-	movdqa	xmm6, xmm5
-	pblendw	xmm6, xmm0, 204                 # xmm6 = xmm6[0,1],xmm0[2,3],xmm6[4,5],xmm0[6,7]
-	por	xmm6, xmm1
-	psrlq	xmm5, 32
-	por	xmm5, xmm2
-	subpd	xmm5, xmm3
-	addpd	xmm5, xmm6
-	movupd	xmmword ptr [rcx + 8*rdi], xmm4
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm5
-	movdqu	xmm4, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm5, xmmword ptr [rdx + 8*rdi + 48]
-	movdqa	xmm6, xmm4
-	pblendw	xmm6, xmm0, 204                 # xmm6 = xmm6[0,1],xmm0[2,3],xmm6[4,5],xmm0[6,7]
-	por	xmm6, xmm1
-	psrlq	xmm4, 32
-	por	xmm4, xmm2
-	subpd	xmm4, xmm3
-	addpd	xmm4, xmm6
-	movdqa	xmm6, xmm5
-	pblendw	xmm6, xmm0, 204                 # xmm6 = xmm6[0,1],xmm0[2,3],xmm6[4,5],xmm0[6,7]
-	por	xmm6, xmm1
-	psrlq	xmm5, 32
-	por	xmm5, xmm2
-	subpd	xmm5, xmm3
-	addpd	xmm5, xmm6
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm4
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm5
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_490
-	jmp	.LBB0_970
-.LBB0_491:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_492:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rdi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	movzx	eax, word ptr [rdx + 2*rdi + 2]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	movzx	eax, word ptr [rdx + 2*rdi + 4]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	movzx	eax, word ptr [rdx + 2*rdi + 6]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_492
-.LBB0_493:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.494:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 2*rdi]
-	xor	esi, esi
-.LBB0_495:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_495
-	jmp	.LBB0_1526
-.LBB0_496:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_497:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rdi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	movsx	eax, word ptr [rdx + 2*rdi + 2]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	movsx	eax, word ptr [rdx + 2*rdi + 4]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	movsx	eax, word ptr [rdx + 2*rdi + 6]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_497
-.LBB0_498:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.499:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 2*rdi]
-	xor	esi, esi
-.LBB0_500:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_500
-	jmp	.LBB0_1526
-.LBB0_501:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_502:                              # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, qword ptr [rdx + 8*rdi]
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, qword ptr [rdx + 8*rdi + 8]
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, qword ptr [rdx + 8*rdi + 16]
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, qword ptr [rdx + 8*rdi + 24]
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_502
-.LBB0_503:
-	test	rax, rax
-	je	.LBB0_1526
-# %bb.504:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	esi, esi
-.LBB0_505:                              # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, qword ptr [rdx + 8*rsi]
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB0_505
-	jmp	.LBB0_1526
-.LBB0_506:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_975
-# %bb.507:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_508:                              # =>This Inner Loop Header: Depth=1
-	cvtps2pd	xmm0, qword ptr [rdx + 4*rdi]
-	cvtps2pd	xmm1, qword ptr [rdx + 4*rdi + 8]
-	movups	xmmword ptr [rcx + 8*rdi], xmm0
-	movups	xmmword ptr [rcx + 8*rdi + 16], xmm1
-	cvtps2pd	xmm0, qword ptr [rdx + 4*rdi + 16]
-	cvtps2pd	xmm1, qword ptr [rdx + 4*rdi + 24]
-	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_508
-	jmp	.LBB0_976
-.LBB0_509:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_510:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rdi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	movzx	eax, byte ptr [rdx + rdi + 1]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_510
-.LBB0_511:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.512:
-	lea	rcx, [rcx + 8*rdi]
-	add	rdx, rdi
-	xor	esi, esi
-.LBB0_513:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, eax
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_513
-	jmp	.LBB0_1526
-.LBB0_514:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_515:                              # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, dword ptr [rdx + 4*rdi]
-	movsd	qword ptr [rcx + 8*rdi], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, dword ptr [rdx + 4*rdi + 4]
-	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, dword ptr [rdx + 4*rdi + 8]
-	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, dword ptr [rdx + 4*rdi + 12]
-	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_515
-.LBB0_516:
-	test	rax, rax
-	je	.LBB0_1526
-# %bb.517:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 4*rdi]
-	xor	esi, esi
-.LBB0_518:                              # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2sd	xmm0, dword ptr [rdx + 4*rsi]
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB0_518
-	jmp	.LBB0_1526
-.LBB0_549:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_801
-# %bb.550:
-	xor	eax, eax
-	jmp	.LBB0_803
-.LBB0_551:
-	and	r9d, -4
-	xor	eax, eax
-	movsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
-.LBB0_552:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rax]   # xmm1 = mem[0],zero
-	movapd	xmm2, xmm1
-	subsd	xmm2, xmm0
-	cvttsd2si	rdi, xmm2
-	xor	rdi, r10
-	cvttsd2si	rsi, xmm1
-	ucomisd	xmm0, xmm1
-	cmovbe	rsi, rdi
-	mov	qword ptr [rcx + 8*rax], rsi
-	movsd	xmm1, qword ptr [rdx + 8*rax + 8] # xmm1 = mem[0],zero
-	movapd	xmm2, xmm1
-	subsd	xmm2, xmm0
-	cvttsd2si	rsi, xmm2
-	xor	rsi, r10
-	cvttsd2si	rdi, xmm1
-	ucomisd	xmm0, xmm1
-	cmovbe	rdi, rsi
-	mov	qword ptr [rcx + 8*rax + 8], rdi
-	movsd	xmm1, qword ptr [rdx + 8*rax + 16] # xmm1 = mem[0],zero
-	movapd	xmm2, xmm1
-	subsd	xmm2, xmm0
-	cvttsd2si	rsi, xmm2
-	xor	rsi, r10
-	cvttsd2si	rdi, xmm1
-	ucomisd	xmm0, xmm1
-	cmovbe	rdi, rsi
-	mov	qword ptr [rcx + 8*rax + 16], rdi
-	movsd	xmm1, qword ptr [rdx + 8*rax + 24] # xmm1 = mem[0],zero
-	movapd	xmm2, xmm1
-	subsd	xmm2, xmm0
-	cvttsd2si	rsi, xmm2
-	xor	rsi, r10
-	cvttsd2si	rdi, xmm1
-	ucomisd	xmm0, xmm1
-	cmovbe	rdi, rsi
-	mov	qword ptr [rcx + 8*rax + 24], rdi
-	add	rax, 4
-	cmp	r9, rax
-	jne	.LBB0_552
-.LBB0_553:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.554:
-	lea	rcx, [rcx + 8*rax]
-	lea	rax, [rdx + 8*rax]
-	xor	edx, edx
-	movsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
-.LBB0_555:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rax + 8*rdx]   # xmm1 = mem[0],zero
-	movapd	xmm2, xmm1
-	subsd	xmm2, xmm0
-	cvttsd2si	rsi, xmm2
-	xor	rsi, r10
-	cvttsd2si	rdi, xmm1
-	ucomisd	xmm0, xmm1
-	cmovbe	rdi, rsi
-	mov	qword ptr [rcx + 8*rdx], rdi
-	add	rdx, 1
-	cmp	r8, rdx
-	jne	.LBB0_555
-	jmp	.LBB0_1526
-.LBB0_562:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_812
-# %bb.563:
-	xor	eax, eax
-	jmp	.LBB0_814
-.LBB0_564:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_819
-# %bb.565:
-	xor	eax, eax
-	jmp	.LBB0_821
-.LBB0_569:
-	and	r9d, -4
-	xor	edi, edi
-	movss	xmm0, dword ptr [rip + .LCPI0_2] # xmm0 = mem[0],zero,zero,zero
-	movabs	r10, -9223372036854775808
-.LBB0_570:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rdi]   # xmm1 = mem[0],zero,zero,zero
-	movaps	xmm2, xmm1
-	subss	xmm2, xmm0
-	cvttss2si	rsi, xmm2
-	xor	rsi, r10
-	cvttss2si	rax, xmm1
-	ucomiss	xmm0, xmm1
-	cmovbe	rax, rsi
-	mov	qword ptr [rcx + 8*rdi], rax
-	movss	xmm1, dword ptr [rdx + 4*rdi + 4] # xmm1 = mem[0],zero,zero,zero
-	movaps	xmm2, xmm1
-	subss	xmm2, xmm0
-	cvttss2si	rax, xmm2
-	xor	rax, r10
-	cvttss2si	rsi, xmm1
-	ucomiss	xmm0, xmm1
-	cmovbe	rsi, rax
-	mov	qword ptr [rcx + 8*rdi + 8], rsi
-	movss	xmm1, dword ptr [rdx + 4*rdi + 8] # xmm1 = mem[0],zero,zero,zero
-	movaps	xmm2, xmm1
-	subss	xmm2, xmm0
-	cvttss2si	rax, xmm2
-	xor	rax, r10
-	cvttss2si	rsi, xmm1
-	ucomiss	xmm0, xmm1
-	cmovbe	rsi, rax
-	mov	qword ptr [rcx + 8*rdi + 16], rsi
-	movss	xmm1, dword ptr [rdx + 4*rdi + 12] # xmm1 = mem[0],zero,zero,zero
-	movaps	xmm2, xmm1
-	subss	xmm2, xmm0
-	cvttss2si	rax, xmm2
-	xor	rax, r10
-	cvttss2si	rsi, xmm1
-	ucomiss	xmm0, xmm1
-	cmovbe	rsi, rax
-	mov	qword ptr [rcx + 8*rdi + 24], rsi
-	add	rdi, 4
-	cmp	r9, rdi
-	jne	.LBB0_570
-.LBB0_571:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.572:
-	lea	rax, [rcx + 8*rdi]
-	lea	rcx, [rdx + 4*rdi]
-	xor	edx, edx
-	movss	xmm0, dword ptr [rip + .LCPI0_2] # xmm0 = mem[0],zero,zero,zero
-	movabs	r9, -9223372036854775808
-.LBB0_573:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	movaps	xmm2, xmm1
-	subss	xmm2, xmm0
-	cvttss2si	rdi, xmm2
-	xor	rdi, r9
-	cvttss2si	rsi, xmm1
-	ucomiss	xmm0, xmm1
-	cmovbe	rsi, rdi
-	mov	qword ptr [rax + 8*rdx], rsi
-	add	rdx, 1
-	cmp	r8, rdx
-	jne	.LBB0_573
-	jmp	.LBB0_1526
-.LBB0_577:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_830
-# %bb.578:
-	xor	eax, eax
-	jmp	.LBB0_832
-.LBB0_579:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_980
-# %bb.580:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-.LBB0_581:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_581
-	jmp	.LBB0_981
-.LBB0_582:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_985
-# %bb.583:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-.LBB0_584:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_584
-	jmp	.LBB0_986
-.LBB0_585:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_990
-# %bb.586:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_587:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	cvttpd2dq	xmm0, xmm0
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	cvttpd2dq	xmm1, xmm1
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi + 8], xmm0
-	movd	dword ptr [rcx + 2*rdi + 12], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_587
-	jmp	.LBB0_991
-.LBB0_588:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_995
-# %bb.589:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_590:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	cvttpd2dq	xmm0, xmm0
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	cvttpd2dq	xmm1, xmm1
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi + 8], xmm0
-	movd	dword ptr [rcx + 2*rdi + 12], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_590
-	jmp	.LBB0_996
-.LBB0_597:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1000
-# %bb.598:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_599:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi + 8], xmm0
-	movd	dword ptr [rcx + 2*rdi + 12], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_599
-	jmp	.LBB0_1001
-.LBB0_600:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1005
-# %bb.601:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_602:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi + 8], xmm0
-	movd	dword ptr [rcx + 2*rdi + 12], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_602
-	jmp	.LBB0_1006
-.LBB0_615:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1010
-# %bb.616:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_617:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi + 8], xmm0
-	movd	dword ptr [rcx + 2*rdi + 12], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_617
-	jmp	.LBB0_1011
-.LBB0_618:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1015
-# %bb.619:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_620:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi + 8], xmm0
-	movd	dword ptr [rcx + 2*rdi + 12], xmm1
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_620
-	jmp	.LBB0_1016
-.LBB0_621:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1020
-# %bb.622:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_623:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packusdw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packusdw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_623
-	jmp	.LBB0_1021
-.LBB0_624:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1025
-# %bb.625:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_626:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packssdw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packssdw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_626
-	jmp	.LBB0_1026
-.LBB0_633:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1030
-# %bb.634:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-.LBB0_635:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_635
-	jmp	.LBB0_1031
-.LBB0_636:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1035
-# %bb.637:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-.LBB0_638:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_638
-	jmp	.LBB0_1036
-.LBB0_639:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_857
-# %bb.640:
-	xor	eax, eax
-	jmp	.LBB0_859
-.LBB0_641:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1040
-# %bb.642:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_14] # xmm0 = [1258291200,1258291200,1258291200,1258291200]
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_15] # xmm1 = [1392508928,1392508928,1392508928,1392508928]
-	movaps	xmm2, xmmword ptr [rip + .LCPI0_16] # xmm2 = [5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11]
-.LBB0_643:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm3, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm4, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm5, xmm3
-	pblendw	xmm5, xmm0, 170                 # xmm5 = xmm5[0],xmm0[1],xmm5[2],xmm0[3],xmm5[4],xmm0[5],xmm5[6],xmm0[7]
-	psrld	xmm3, 16
-	pblendw	xmm3, xmm1, 170                 # xmm3 = xmm3[0],xmm1[1],xmm3[2],xmm1[3],xmm3[4],xmm1[5],xmm3[6],xmm1[7]
-	subps	xmm3, xmm2
-	addps	xmm3, xmm5
-	movdqa	xmm5, xmm4
-	pblendw	xmm5, xmm0, 170                 # xmm5 = xmm5[0],xmm0[1],xmm5[2],xmm0[3],xmm5[4],xmm0[5],xmm5[6],xmm0[7]
-	psrld	xmm4, 16
-	pblendw	xmm4, xmm1, 170                 # xmm4 = xmm4[0],xmm1[1],xmm4[2],xmm1[3],xmm4[4],xmm1[5],xmm4[6],xmm1[7]
-	subps	xmm4, xmm2
-	addps	xmm4, xmm5
-	movups	xmmword ptr [rcx + 4*rdi], xmm3
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm4
-	movdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
-	movdqa	xmm5, xmm3
-	pblendw	xmm5, xmm0, 170                 # xmm5 = xmm5[0],xmm0[1],xmm5[2],xmm0[3],xmm5[4],xmm0[5],xmm5[6],xmm0[7]
-	psrld	xmm3, 16
-	pblendw	xmm3, xmm1, 170                 # xmm3 = xmm3[0],xmm1[1],xmm3[2],xmm1[3],xmm3[4],xmm1[5],xmm3[6],xmm1[7]
-	subps	xmm3, xmm2
-	addps	xmm3, xmm5
-	movdqa	xmm5, xmm4
-	pblendw	xmm5, xmm0, 170                 # xmm5 = xmm5[0],xmm0[1],xmm5[2],xmm0[3],xmm5[4],xmm0[5],xmm5[6],xmm0[7]
-	psrld	xmm4, 16
-	pblendw	xmm4, xmm1, 170                 # xmm4 = xmm4[0],xmm1[1],xmm4[2],xmm1[3],xmm4[4],xmm1[5],xmm4[6],xmm1[7]
-	subps	xmm4, xmm2
-	addps	xmm4, xmm5
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm3
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm4
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_643
-	jmp	.LBB0_1041
-.LBB0_644:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_645:                              # =>This Inner Loop Header: Depth=1
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi]
-	mov	qword ptr [rcx + 8*rdi], rax
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 8]
-	mov	qword ptr [rcx + 8*rdi + 8], rax
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 16]
-	mov	qword ptr [rcx + 8*rdi + 16], rax
-	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 24]
-	mov	qword ptr [rcx + 8*rdi + 24], rax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_645
-.LBB0_646:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.647:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	esi, esi
-.LBB0_648:                              # =>This Inner Loop Header: Depth=1
-	cvttsd2si	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_648
-	jmp	.LBB0_1526
-.LBB0_649:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1045
-# %bb.650:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_651:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvtpd2ps	xmm0, xmm0
-	cvtpd2ps	xmm1, xmm1
-	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	cvtpd2ps	xmm0, xmm0
-	cvtpd2ps	xmm1, xmm1
-	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_651
-	jmp	.LBB0_1046
-.LBB0_661:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1050
-# %bb.662:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	edi, edi
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_11] # xmm2 = [1,1]
-.LBB0_663:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm2
-	movdqa	xmm3, xmm0
-	psrlq	xmm3, 1
-	por	xmm3, xmm1
-	pxor	xmm4, xmm4
-	pcmpgtq	xmm4, xmm0
-	blendvpd	xmm0, xmm3, xmm0
-	pextrq	rax, xmm0, 1
-	xorps	xmm5, xmm5
-	cvtsi2ss	xmm5, rax
-	movq	rax, xmm0
-	xorps	xmm3, xmm3
-	cvtsi2ss	xmm3, rax
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	insertps	xmm3, xmm5, 28                  # xmm3 = xmm3[0],xmm5[0],zero,zero
-	movaps	xmm5, xmm3
-	addps	xmm5, xmm3
-	pshufd	xmm0, xmm4, 237                 # xmm0 = xmm4[1,3,2,3]
-	blendvps	xmm3, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pand	xmm0, xmm2
-	movdqa	xmm4, xmm1
-	psrlq	xmm4, 1
-	por	xmm4, xmm0
-	xorps	xmm5, xmm5
-	pcmpgtq	xmm5, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm4, xmm0
-	pextrq	rax, xmm1, 1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, rax
-	movq	rax, xmm1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, rax
-	insertps	xmm1, xmm0, 28                  # xmm1 = xmm1[0],xmm0[0],zero,zero
-	movaps	xmm4, xmm1
-	addps	xmm4, xmm1
-	pshufd	xmm0, xmm5, 237                 # xmm0 = xmm5[1,3,2,3]
-	blendvps	xmm1, xmm4, xmm0
-	movlhps	xmm3, xmm1                      # xmm3 = xmm3[0],xmm1[0]
-	movups	xmmword ptr [rcx + 4*rdi], xmm3
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm2
-	movdqa	xmm3, xmm0
-	psrlq	xmm3, 1
-	por	xmm3, xmm1
-	xorps	xmm4, xmm4
-	pcmpgtq	xmm4, xmm0
-	blendvpd	xmm0, xmm3, xmm0
-	pextrq	rax, xmm0, 1
-	xorps	xmm5, xmm5
-	cvtsi2ss	xmm5, rax
-	movq	rax, xmm0
-	xorps	xmm3, xmm3
-	cvtsi2ss	xmm3, rax
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	insertps	xmm3, xmm5, 28                  # xmm3 = xmm3[0],xmm5[0],zero,zero
-	movaps	xmm5, xmm3
-	addps	xmm5, xmm3
-	pshufd	xmm0, xmm4, 237                 # xmm0 = xmm4[1,3,2,3]
-	blendvps	xmm3, xmm5, xmm0
-	movdqa	xmm0, xmm1
-	pand	xmm0, xmm2
-	movdqa	xmm4, xmm1
-	psrlq	xmm4, 1
-	por	xmm4, xmm0
-	xorps	xmm5, xmm5
-	pcmpgtq	xmm5, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm4, xmm0
-	pextrq	rax, xmm1, 1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, rax
-	movq	rax, xmm1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, rax
-	insertps	xmm1, xmm0, 28                  # xmm1 = xmm1[0],xmm0[0],zero,zero
-	movaps	xmm4, xmm1
-	addps	xmm4, xmm1
-	pshufd	xmm0, xmm5, 237                 # xmm0 = xmm5[1,3,2,3]
-	blendvps	xmm1, xmm4, xmm0
-	movlhps	xmm3, xmm1                      # xmm3 = xmm3[0],xmm1[0]
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm3
-	add	rdi, 8
-	add	r10, 2
-	jne	.LBB0_663
-	jmp	.LBB0_1051
-.LBB0_664:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_871
-# %bb.665:
-	xor	eax, eax
-	jmp	.LBB0_873
-.LBB0_666:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1058
-# %bb.667:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_668:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_668
-	jmp	.LBB0_1059
-.LBB0_669:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_878
-# %bb.670:
-	xor	eax, eax
-	jmp	.LBB0_880
-.LBB0_671:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1063
-# %bb.672:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_673:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 16]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_673
-	jmp	.LBB0_1064
-.LBB0_677:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_678:                              # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, qword ptr [rdx + 8*rdi]
-	movss	dword ptr [rcx + 4*rdi], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, qword ptr [rdx + 8*rdi + 8]
-	movss	dword ptr [rcx + 4*rdi + 4], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, qword ptr [rdx + 8*rdi + 16]
-	movss	dword ptr [rcx + 4*rdi + 8], xmm0
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, qword ptr [rdx + 8*rdi + 24]
-	movss	dword ptr [rcx + 4*rdi + 12], xmm0
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_678
-.LBB0_679:
-	test	rax, rax
-	je	.LBB0_1526
-# %bb.680:
-	lea	rcx, [rcx + 4*rdi]
-	lea	rdx, [rdx + 8*rdi]
-	xor	esi, esi
-.LBB0_681:                              # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, qword ptr [rdx + 8*rsi]
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	rax, rsi
-	jne	.LBB0_681
-	jmp	.LBB0_1526
-.LBB0_682:
-	and	esi, -4
-	xor	edi, edi
-.LBB0_683:                              # =>This Inner Loop Header: Depth=1
-	cvttss2si	rax, dword ptr [rdx + 4*rdi]
-	mov	qword ptr [rcx + 8*rdi], rax
-	cvttss2si	rax, dword ptr [rdx + 4*rdi + 4]
-	mov	qword ptr [rcx + 8*rdi + 8], rax
-	cvttss2si	rax, dword ptr [rdx + 4*rdi + 8]
-	mov	qword ptr [rcx + 8*rdi + 16], rax
-	cvttss2si	rax, dword ptr [rdx + 4*rdi + 12]
-	mov	qword ptr [rcx + 8*rdi + 24], rax
-	add	rdi, 4
-	cmp	rsi, rdi
-	jne	.LBB0_683
-.LBB0_684:
-	test	r8, r8
-	je	.LBB0_1526
-# %bb.685:
-	lea	rcx, [rcx + 8*rdi]
-	lea	rdx, [rdx + 4*rdi]
-	xor	esi, esi
-.LBB0_686:                              # =>This Inner Loop Header: Depth=1
-	cvttss2si	rax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB0_686
-	jmp	.LBB0_1526
-.LBB0_696:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_894
-# %bb.697:
-	xor	eax, eax
-	jmp	.LBB0_896
-.LBB0_698:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1068
-# %bb.699:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_700:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_700
-	jmp	.LBB0_1069
-.LBB0_734:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1073
-# %bb.735:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_736:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_736
-	jmp	.LBB0_1074
-.LBB0_740:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_939
-# %bb.741:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_742:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_742
-	jmp	.LBB0_940
-.LBB0_743:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1078
-# %bb.744:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_745:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_745
-	jmp	.LBB0_1079
-.LBB0_746:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1083
-# %bb.747:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_748:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 16]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_748
-	jmp	.LBB0_1084
-.LBB0_749:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1088
-# %bb.750:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_751:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_751
-	jmp	.LBB0_1089
-.LBB0_752:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1093
-# %bb.753:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_754:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_754
-	jmp	.LBB0_1094
-.LBB0_761:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB0_1098
-# %bb.762:
-	xor	eax, eax
-	jmp	.LBB0_1100
-.LBB0_763:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1478
-# %bb.764:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_765:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbd	xmm0, dword ptr [rdx + rdi]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 12]
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_765
-	jmp	.LBB0_1479
-.LBB0_766:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1486
-# %bb.767:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_768:                              # =>This Inner Loop Header: Depth=1
-	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovzxbd	xmm0, dword ptr [rdx + rdi + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_768
-	jmp	.LBB0_1487
-.LBB0_769:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB0_1108
-# %bb.770:
-	xor	eax, eax
-	jmp	.LBB0_1110
-.LBB0_771:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1118
-# %bb.772:
-	xor	eax, eax
-	jmp	.LBB0_1120
-.LBB0_773:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1494
-# %bb.774:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_13] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_775:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi], xmm1
-	movd	dword ptr [rcx + rdi + 4], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi + 8], xmm1
-	movd	dword ptr [rcx + rdi + 12], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_775
-	jmp	.LBB0_1495
-.LBB0_776:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1502
-# %bb.777:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_1] # xmm0 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_778:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm1, xmm1
-	cvttpd2dq	xmm2, xmm2
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	cvttpd2dq	xmm1, xmm1
-	cvttpd2dq	xmm2, xmm2
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_778
-	jmp	.LBB0_1503
-.LBB0_779:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1128
-# %bb.780:
-	xor	eax, eax
-	jmp	.LBB0_1130
-.LBB0_781:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1318
-# %bb.782:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_5] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_783:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_783
-	jmp	.LBB0_1319
-.LBB0_784:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1326
-# %bb.785:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_17] # xmm0 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-.LBB0_786:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_786
-	jmp	.LBB0_1327
-.LBB0_787:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1510
-# %bb.788:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_17] # xmm0 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-.LBB0_789:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_789
-	jmp	.LBB0_1511
-.LBB0_790:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1334
-# %bb.791:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_5] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_792:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_792
-	jmp	.LBB0_1335
-.LBB0_793:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1518
-# %bb.794:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_795:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	cvttps2dq	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movd	dword ptr [rcx + rdi + 8], xmm0
-	movd	dword ptr [rcx + rdi + 12], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_795
-	jmp	.LBB0_1519
-.LBB0_796:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1138
-# %bb.797:
-	xor	eax, eax
-	jmp	.LBB0_1140
-.LBB0_798:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1342
-# %bb.799:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_13] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_800:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi], xmm1
-	movd	dword ptr [rcx + rdi + 4], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi + 8], xmm1
-	movd	dword ptr [rcx + rdi + 12], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_800
-	jmp	.LBB0_1343
-.LBB0_808:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1148
-# %bb.809:
-	xor	eax, eax
-	jmp	.LBB0_1150
-.LBB0_810:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1158
-# %bb.811:
-	xor	eax, eax
-	jmp	.LBB0_1160
-.LBB0_826:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1168
-# %bb.827:
-	xor	eax, eax
-	jmp	.LBB0_1170
-.LBB0_828:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1178
-# %bb.829:
-	xor	eax, eax
-	jmp	.LBB0_1180
-.LBB0_837:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1350
-# %bb.838:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_839:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbw	xmm0, qword ptr [rdx + rdi]
-	pmovsxbw	xmm1, qword ptr [rdx + rdi + 8]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	pmovsxbw	xmm0, qword ptr [rdx + rdi + 16]
-	pmovsxbw	xmm1, qword ptr [rdx + rdi + 24]
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_839
-	jmp	.LBB0_1351
-.LBB0_840:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1358
-# %bb.841:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_842:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbw	xmm0, qword ptr [rdx + rdi]
-	pmovsxbw	xmm1, qword ptr [rdx + rdi + 8]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	pmovsxbw	xmm0, qword ptr [rdx + rdi + 16]
-	pmovsxbw	xmm1, qword ptr [rdx + rdi + 24]
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_842
-	jmp	.LBB0_1359
-.LBB0_843:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 48
-	jae	.LBB0_1188
-# %bb.844:
-	xor	eax, eax
-	jmp	.LBB0_1190
-.LBB0_845:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 48
-	jae	.LBB0_1198
-# %bb.846:
-	xor	eax, eax
-	jmp	.LBB0_1200
-.LBB0_847:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 48
-	jae	.LBB0_1208
-# %bb.848:
-	xor	eax, eax
-	jmp	.LBB0_1210
-.LBB0_849:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	rdi, rax
-	shr	rdi, 4
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 48
-	jae	.LBB0_1218
-# %bb.850:
-	xor	eax, eax
-	jmp	.LBB0_1220
-.LBB0_851:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1366
-# %bb.852:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_853:                              # =>This Inner Loop Header: Depth=1
-	pmovzxbw	xmm0, qword ptr [rdx + rdi]     # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	pmovzxbw	xmm1, qword ptr [rdx + rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	pmovzxbw	xmm0, qword ptr [rdx + rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	pmovzxbw	xmm1, qword ptr [rdx + rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_853
-	jmp	.LBB0_1367
-.LBB0_854:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1374
-# %bb.855:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_856:                              # =>This Inner Loop Header: Depth=1
-	pmovzxbw	xmm0, qword ptr [rdx + rdi]     # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	pmovzxbw	xmm1, qword ptr [rdx + rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-	pmovzxbw	xmm0, qword ptr [rdx + rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	pmovzxbw	xmm1, qword ptr [rdx + rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_856
-	jmp	.LBB0_1375
-.LBB0_864:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1228
-# %bb.865:
-	xor	eax, eax
-	jmp	.LBB0_1230
-.LBB0_866:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1382
-# %bb.867:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_868:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbd	xmm0, dword ptr [rdx + rdi]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 12]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_868
-	jmp	.LBB0_1383
-.LBB0_869:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1238
-# %bb.870:
-	xor	eax, eax
-	jmp	.LBB0_1240
-.LBB0_885:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1248
-# %bb.886:
-	xor	eax, eax
-	jmp	.LBB0_1250
-.LBB0_887:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB0_1258
-# %bb.888:
-	xor	eax, eax
-	jmp	.LBB0_1260
-.LBB0_889:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	rdi, rax
-	shr	rdi, 2
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 12
-	jae	.LBB0_1268
-# %bb.890:
-	xor	eax, eax
-	jmp	.LBB0_1270
-.LBB0_891:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1390
-# %bb.892:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_893:                              # =>This Inner Loop Header: Depth=1
-	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovzxbd	xmm0, dword ptr [rdx + rdi + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_893
-	jmp	.LBB0_1391
-.LBB0_901:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1398
-# %bb.902:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_13] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_903:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi], xmm1
-	movd	dword ptr [rcx + rdi + 4], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi + 8], xmm1
-	movd	dword ptr [rcx + rdi + 12], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_903
-	jmp	.LBB0_1399
-.LBB0_904:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1406
-# %bb.905:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_1] # xmm0 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_906:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm1, xmm1
-	cvttpd2dq	xmm2, xmm2
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	cvttpd2dq	xmm1, xmm1
-	cvttpd2dq	xmm2, xmm2
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_906
-	jmp	.LBB0_1407
-.LBB0_907:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1278
-# %bb.908:
-	xor	eax, eax
-	jmp	.LBB0_1280
-.LBB0_909:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1414
-# %bb.910:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_5] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_911:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_911
-	jmp	.LBB0_1415
-.LBB0_912:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1422
-# %bb.913:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_17] # xmm0 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-.LBB0_914:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_914
-	jmp	.LBB0_1423
-.LBB0_915:
-	mov	esi, r9d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1430
-# %bb.916:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_17] # xmm0 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-.LBB0_917:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
-	add	rdi, 32
-	add	rax, 2
-	jne	.LBB0_917
-	jmp	.LBB0_1431
-.LBB0_918:
-	mov	esi, r9d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1438
-# %bb.919:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_5] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_920:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	pshufb	xmm1, xmm0
-	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
-	pshufb	xmm2, xmm0
-	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
-	add	rdi, 8
-	add	rax, 2
-	jne	.LBB0_920
-	jmp	.LBB0_1439
-.LBB0_921:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1446
-# %bb.922:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_923:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	packusdw	xmm0, xmm0
-	packuswb	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packusdw	xmm1, xmm1
-	packuswb	xmm1, xmm1
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	cvttps2dq	xmm0, xmm0
-	packusdw	xmm0, xmm0
-	packuswb	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packusdw	xmm1, xmm1
-	packuswb	xmm1, xmm1
-	movd	dword ptr [rcx + rdi + 8], xmm0
-	movd	dword ptr [rcx + rdi + 12], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_923
-	jmp	.LBB0_1447
-.LBB0_924:
-	mov	esi, r9d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	rdi, rax
-	shr	rdi, 5
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 96
-	jae	.LBB0_1288
-# %bb.925:
-	xor	eax, eax
-	jmp	.LBB0_1290
-.LBB0_926:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1454
-# %bb.927:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_13] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-.LBB0_928:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi], xmm1
-	movd	dword ptr [rcx + rdi + 4], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	pshufb	xmm1, xmm0
-	pshufb	xmm2, xmm0
-	movd	dword ptr [rcx + rdi + 8], xmm1
-	movd	dword ptr [rcx + rdi + 12], xmm2
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_928
-	jmp	.LBB0_1455
-.LBB0_929:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB0_1298
-# %bb.930:
-	xor	eax, eax
-	jmp	.LBB0_1300
-.LBB0_931:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1462
-# %bb.932:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_933:                              # =>This Inner Loop Header: Depth=1
-	pmovsxbd	xmm0, dword ptr [rdx + rdi]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 12]
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_933
-	jmp	.LBB0_1463
-.LBB0_934:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_1470
-# %bb.935:
-	mov	rax, r8
-	and	rax, -2
-	neg	rax
-	xor	edi, edi
-.LBB0_936:                              # =>This Inner Loop Header: Depth=1
-	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-	pmovzxbd	xmm0, dword ptr [rdx + rdi + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rax, 2
-	jne	.LBB0_936
-	jmp	.LBB0_1471
-.LBB0_937:
-	mov	esi, r9d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	rdi, rax
-	shr	rdi, 3
-	add	rdi, 1
-	mov	r8d, edi
-	and	r8d, 3
-	cmp	rax, 24
-	jae	.LBB0_1308
-# %bb.938:
-	xor	eax, eax
-	jmp	.LBB0_1310
-.LBB0_801:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_802:                              # =>This Inner Loop Header: Depth=1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax]   # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 8] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 16] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 24] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 32] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 40] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 48] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 56] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_802
-.LBB0_803:
-	test	r8, r8
-	je	.LBB0_806
-# %bb.804:
-	lea	rax, [4*rax + 8]
-	neg	r8
-.LBB0_805:                              # =>This Inner Loop Header: Depth=1
-	pmovzxdq	xmm0, qword ptr [rdx + rax - 8] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + rax]     # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 2*rax - 16], xmm0
-	movdqu	xmmword ptr [rcx + 2*rax], xmm1
-	add	rax, 16
-	inc	r8
-	jne	.LBB0_805
-.LBB0_806:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_807:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_807
-	jmp	.LBB0_1526
-.LBB0_812:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_813:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax]   # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 16] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 20] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 24] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 28] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_813
-.LBB0_814:
-	test	r8, r8
-	je	.LBB0_817
-# %bb.815:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rdx + 2*rax]
-	add	r10, 4
-	xor	eax, eax
-.LBB0_816:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwq	xmm0, dword ptr [r10 + 8*rax - 4] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [r10 + 8*rax]   # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_816
-.LBB0_817:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_818:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_818
-	jmp	.LBB0_1526
-.LBB0_819:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_820:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 4]
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 8]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 12]
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 16]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 20]
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 24]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 28]
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_820
-.LBB0_821:
-	test	r8, r8
-	je	.LBB0_824
-# %bb.822:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rdx + 2*rax]
-	add	r10, 4
-	xor	eax, eax
-.LBB0_823:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwq	xmm0, dword ptr [r10 + 8*rax - 4]
-	pmovsxwq	xmm1, dword ptr [r10 + 8*rax]
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_823
-.LBB0_824:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_825:                              # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_825
-	jmp	.LBB0_1526
-.LBB0_830:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_831:                              # =>This Inner Loop Header: Depth=1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 8]
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 16]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 24]
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 32]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 40]
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 48]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 56]
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_831
-.LBB0_832:
-	test	r8, r8
-	je	.LBB0_835
-# %bb.833:
-	lea	rax, [4*rax + 8]
-	neg	r8
-.LBB0_834:                              # =>This Inner Loop Header: Depth=1
-	pmovsxdq	xmm0, qword ptr [rdx + rax - 8]
-	pmovsxdq	xmm1, qword ptr [rdx + rax]
-	movdqu	xmmword ptr [rcx + 2*rax - 16], xmm0
-	movdqu	xmmword ptr [rcx + 2*rax], xmm1
-	add	rax, 16
-	inc	r8
-	jne	.LBB0_834
-.LBB0_835:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_836:                              # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_836
-	jmp	.LBB0_1526
-.LBB0_857:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_858:                              # =>This Inner Loop Header: Depth=1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax]   # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 8] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 16] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 24] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 32] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 40] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 48] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 56] # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_858
-.LBB0_859:
-	test	r8, r8
-	je	.LBB0_862
-# %bb.860:
-	lea	rax, [4*rax + 8]
-	neg	r8
-.LBB0_861:                              # =>This Inner Loop Header: Depth=1
-	pmovzxdq	xmm0, qword ptr [rdx + rax - 8] # xmm0 = mem[0],zero,mem[1],zero
-	pmovzxdq	xmm1, qword ptr [rdx + rax]     # xmm1 = mem[0],zero,mem[1],zero
-	movdqu	xmmword ptr [rcx + 2*rax - 16], xmm0
-	movdqu	xmmword ptr [rcx + 2*rax], xmm1
-	add	rax, 16
-	inc	r8
-	jne	.LBB0_861
-.LBB0_862:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_863:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_863
-	jmp	.LBB0_1526
-.LBB0_871:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_872:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax]   # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 16] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 20] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 24] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 28] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_872
-.LBB0_873:
-	test	r8, r8
-	je	.LBB0_876
-# %bb.874:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rdx + 2*rax]
-	add	r10, 4
-	xor	eax, eax
-.LBB0_875:                              # =>This Inner Loop Header: Depth=1
-	pmovzxwq	xmm0, dword ptr [r10 + 8*rax - 4] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	pmovzxwq	xmm1, dword ptr [r10 + 8*rax]   # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_875
-.LBB0_876:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_877:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_877
-	jmp	.LBB0_1526
-.LBB0_878:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_879:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 4]
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 8]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 12]
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 16]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 20]
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 24]
-	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 28]
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_879
-.LBB0_880:
-	test	r8, r8
-	je	.LBB0_883
-# %bb.881:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rdx + 2*rax]
-	add	r10, 4
-	xor	eax, eax
-.LBB0_882:                              # =>This Inner Loop Header: Depth=1
-	pmovsxwq	xmm0, dword ptr [r10 + 8*rax - 4]
-	pmovsxwq	xmm1, dword ptr [r10 + 8*rax]
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_882
-.LBB0_883:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_884:                              # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdx + 2*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_884
-	jmp	.LBB0_1526
-.LBB0_894:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_895:                              # =>This Inner Loop Header: Depth=1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 8]
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 16]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 24]
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 32]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 40]
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 48]
-	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 56]
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_895
-.LBB0_896:
-	test	r8, r8
-	je	.LBB0_899
-# %bb.897:
-	lea	rax, [4*rax + 8]
-	neg	r8
-.LBB0_898:                              # =>This Inner Loop Header: Depth=1
-	pmovsxdq	xmm0, qword ptr [rdx + rax - 8]
-	pmovsxdq	xmm1, qword ptr [rdx + rax]
-	movdqu	xmmword ptr [rcx + 2*rax - 16], xmm0
-	movdqu	xmmword ptr [rcx + 2*rax], xmm1
-	add	rax, 16
-	inc	r8
-	jne	.LBB0_898
-.LBB0_899:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_900:                              # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdx + 4*rsi]
-	mov	qword ptr [rcx + 8*rsi], rax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_900
-	jmp	.LBB0_1526
-.LBB0_939:
-	xor	edi, edi
-.LBB0_940:
-	test	r8b, 1
-	je	.LBB0_942
-# %bb.941:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-.LBB0_942:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_943:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_943
-	jmp	.LBB0_1526
-.LBB0_944:
-	xor	edi, edi
-.LBB0_945:
-	test	r8b, 1
-	je	.LBB0_947
-# %bb.946:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-.LBB0_947:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_948:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_948
-	jmp	.LBB0_1526
-.LBB0_949:
-	xor	edi, edi
-.LBB0_950:
-	test	r8b, 1
-	je	.LBB0_952
-# %bb.951:
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_952:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_953:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_953
-	jmp	.LBB0_1526
-.LBB0_954:
-	xor	edi, edi
-.LBB0_955:
-	test	r8b, 1
-	je	.LBB0_957
-# %bb.956:
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_957:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_958:                              # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_958
-	jmp	.LBB0_1526
-.LBB0_959:
-	xor	edi, edi
-.LBB0_960:
-	test	r8b, 1
-	je	.LBB0_962
-# %bb.961:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-.LBB0_962:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_963:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_963
-	jmp	.LBB0_1526
-.LBB0_964:
-	xor	edi, edi
-.LBB0_965:
-	test	r8b, 1
-	je	.LBB0_967
-# %bb.966:
-	movups	xmm1, xmmword ptr [rdx + 4*rdi]
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	movaps	xmm3, xmmword ptr [rip + .LCPI0_3] # xmm3 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
-	movaps	xmm0, xmm1
-	cmpltps	xmm0, xmm3
-	cvttps2dq	xmm4, xmm1
-	subps	xmm1, xmm3
-	cvttps2dq	xmm1, xmm1
-	movaps	xmm5, xmmword ptr [rip + .LCPI0_4] # xmm5 = [2147483648,2147483648,2147483648,2147483648]
-	xorps	xmm1, xmm5
-	blendvps	xmm1, xmm4, xmm0
-	movaps	xmm0, xmm2
-	cmpltps	xmm0, xmm3
-	cvttps2dq	xmm4, xmm2
-	subps	xmm2, xmm3
-	cvttps2dq	xmm2, xmm2
-	xorps	xmm2, xmm5
-	blendvps	xmm2, xmm4, xmm0
-	movups	xmmword ptr [rcx + 4*rdi], xmm1
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm2
-.LBB0_967:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_968:                              # =>This Inner Loop Header: Depth=1
-	cvttss2si	rax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_968
-	jmp	.LBB0_1526
-.LBB0_969:
-	xor	edi, edi
-.LBB0_970:
-	test	r8b, 1
-	je	.LBB0_972
-# %bb.971:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pxor	xmm2, xmm2
-	movdqa	xmm3, xmm0
-	pblendw	xmm3, xmm2, 204                 # xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]
-	movdqa	xmm4, xmmword ptr [rip + .LCPI0_6] # xmm4 = [4841369599423283200,4841369599423283200]
-	por	xmm3, xmm4
-	psrlq	xmm0, 32
-	movdqa	xmm5, xmmword ptr [rip + .LCPI0_7] # xmm5 = [4985484787499139072,4985484787499139072]
-	por	xmm0, xmm5
-	movapd	xmm6, xmmword ptr [rip + .LCPI0_8] # xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]
-	subpd	xmm0, xmm6
-	addpd	xmm0, xmm3
-	pblendw	xmm2, xmm1, 51                  # xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
-	por	xmm2, xmm4
-	psrlq	xmm1, 32
-	por	xmm1, xmm5
-	subpd	xmm1, xmm6
-	addpd	xmm1, xmm2
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB0_972:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_973:
-	movapd	xmm0, xmmword ptr [rip + .LCPI0_9] # xmm0 = [1127219200,1160773632,0,0]
-	movapd	xmm1, xmmword ptr [rip + .LCPI0_10] # xmm1 = [4.503599627370496E+15,1.9342813113834067E+25]
-.LBB0_974:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm2, qword ptr [rdx + 8*rsi]   # xmm2 = mem[0],zero
-	unpcklps	xmm2, xmm0                      # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	subpd	xmm2, xmm1
-	movapd	xmm3, xmm2
-	unpckhpd	xmm3, xmm2                      # xmm3 = xmm3[1],xmm2[1]
-	addsd	xmm3, xmm2
-	movsd	qword ptr [rcx + 8*rsi], xmm3
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_974
-	jmp	.LBB0_1526
-.LBB0_975:
-	xor	edi, edi
-.LBB0_976:
-	test	r8b, 1
-	je	.LBB0_978
-# %bb.977:
-	cvtps2pd	xmm0, qword ptr [rdx + 4*rdi]
-	cvtps2pd	xmm1, qword ptr [rdx + 4*rdi + 8]
-	movupd	xmmword ptr [rcx + 8*rdi], xmm0
-	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
-.LBB0_978:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_979:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	cvtss2sd	xmm0, xmm0
-	movsd	qword ptr [rcx + 8*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_979
-	jmp	.LBB0_1526
-.LBB0_980:
-	xor	edi, edi
-.LBB0_981:
-	test	r8b, 1
-	je	.LBB0_983
-# %bb.982:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_12] # xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB0_983:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_984:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_984
-	jmp	.LBB0_1526
-.LBB0_985:
-	xor	edi, edi
-.LBB0_986:
-	test	r8b, 1
-	je	.LBB0_988
-# %bb.987:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_12] # xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB0_988:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_989:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_989
-	jmp	.LBB0_1526
-.LBB0_990:
-	xor	edi, edi
-.LBB0_991:
-	test	r8b, 1
-	je	.LBB0_993
-# %bb.992:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-.LBB0_993:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_994:                              # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_994
-	jmp	.LBB0_1526
-.LBB0_995:
-	xor	edi, edi
-.LBB0_996:
-	test	r8b, 1
-	je	.LBB0_998
-# %bb.997:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-.LBB0_998:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_999:                              # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_999
-	jmp	.LBB0_1526
-.LBB0_1000:
-	xor	edi, edi
-.LBB0_1001:
-	test	r8b, 1
-	je	.LBB0_1003
-# %bb.1002:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-.LBB0_1003:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1004:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1004
-	jmp	.LBB0_1526
-.LBB0_1005:
-	xor	edi, edi
-.LBB0_1006:
-	test	r8b, 1
-	je	.LBB0_1008
-# %bb.1007:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-.LBB0_1008:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1009:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1009
-	jmp	.LBB0_1526
-.LBB0_1010:
-	xor	edi, edi
-.LBB0_1011:
-	test	r8b, 1
-	je	.LBB0_1013
-# %bb.1012:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-.LBB0_1013:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1014:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1014
-	jmp	.LBB0_1526
-.LBB0_1015:
-	xor	edi, edi
-.LBB0_1016:
-	test	r8b, 1
-	je	.LBB0_1018
-# %bb.1017:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
-	movd	dword ptr [rcx + 2*rdi], xmm0
-	movd	dword ptr [rcx + 2*rdi + 4], xmm1
-.LBB0_1018:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1019:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 8*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1019
-	jmp	.LBB0_1526
-.LBB0_1020:
-	xor	edi, edi
-.LBB0_1021:
-	test	r8b, 1
-	je	.LBB0_1023
-# %bb.1022:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packusdw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB0_1023:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1024:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1024
-	jmp	.LBB0_1526
-.LBB0_1025:
-	xor	edi, edi
-.LBB0_1026:
-	test	r8b, 1
-	je	.LBB0_1028
-# %bb.1027:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packssdw	xmm0, xmm1
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB0_1028:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1029:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1029
-	jmp	.LBB0_1526
-.LBB0_1030:
-	xor	edi, edi
-.LBB0_1031:
-	test	r8b, 1
-	je	.LBB0_1033
-# %bb.1032:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_12] # xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB0_1033:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1034:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1034
-	jmp	.LBB0_1526
-.LBB0_1035:
-	xor	edi, edi
-.LBB0_1036:
-	test	r8b, 1
-	je	.LBB0_1038
-# %bb.1037:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_12] # xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-.LBB0_1038:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1039:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 4*rsi]
-	mov	word ptr [rcx + 2*rsi], ax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1039
-	jmp	.LBB0_1526
-.LBB0_1040:
-	xor	edi, edi
-.LBB0_1041:
-	test	r8b, 1
-	je	.LBB0_1043
-# %bb.1042:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_14] # xmm2 = [1258291200,1258291200,1258291200,1258291200]
-	movdqa	xmm3, xmm0
-	pblendw	xmm3, xmm2, 170                 # xmm3 = xmm3[0],xmm2[1],xmm3[2],xmm2[3],xmm3[4],xmm2[5],xmm3[6],xmm2[7]
-	psrld	xmm0, 16
-	movdqa	xmm4, xmmword ptr [rip + .LCPI0_15] # xmm4 = [1392508928,1392508928,1392508928,1392508928]
-	pblendw	xmm0, xmm4, 170                 # xmm0 = xmm0[0],xmm4[1],xmm0[2],xmm4[3],xmm0[4],xmm4[5],xmm0[6],xmm4[7]
-	movaps	xmm5, xmmword ptr [rip + .LCPI0_16] # xmm5 = [5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11]
-	subps	xmm0, xmm5
-	addps	xmm0, xmm3
-	pblendw	xmm2, xmm1, 85                  # xmm2 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
-	psrld	xmm1, 16
-	pblendw	xmm1, xmm4, 170                 # xmm1 = xmm1[0],xmm4[1],xmm1[2],xmm4[3],xmm1[4],xmm4[5],xmm1[6],xmm4[7]
-	subps	xmm1, xmm5
-	addps	xmm1, xmm2
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1043:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1044:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, rax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1044
-	jmp	.LBB0_1526
-.LBB0_1045:
-	xor	edi, edi
-.LBB0_1046:
-	test	r8b, 1
-	je	.LBB0_1048
-# %bb.1047:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvtpd2ps	xmm0, xmm0
-	cvtpd2ps	xmm1, xmm1
-	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-.LBB0_1048:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1049:                             # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	cvtsd2ss	xmm0, xmm0
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1049
-	jmp	.LBB0_1526
-.LBB0_1050:
-	xor	edi, edi
-.LBB0_1051:
-	test	r8b, 1
-	je	.LBB0_1053
-# %bb.1052:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI0_11] # xmm3 = [1,1]
-	movdqa	xmm1, xmm0
-	movdqa	xmm2, xmm0
-	movdqa	xmm4, xmm0
-	pand	xmm4, xmm3
-	psrlq	xmm1, 1
-	por	xmm1, xmm4
-	blendvpd	xmm2, xmm1, xmm0
-	pextrq	rax, xmm2, 1
-	xorps	xmm4, xmm4
-	cvtsi2ss	xmm4, rax
-	movq	rax, xmm2
-	xorps	xmm2, xmm2
-	cvtsi2ss	xmm2, rax
-	pxor	xmm5, xmm5
-	pcmpgtq	xmm5, xmm0
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	insertps	xmm2, xmm4, 28                  # xmm2 = xmm2[0],xmm4[0],zero,zero
-	movaps	xmm4, xmm2
-	addps	xmm4, xmm2
-	pxor	xmm6, xmm6
-	pshufd	xmm0, xmm5, 237                 # xmm0 = xmm5[1,3,2,3]
-	blendvps	xmm2, xmm4, xmm0
-	pand	xmm3, xmm1
-	movdqa	xmm4, xmm1
-	psrlq	xmm4, 1
-	por	xmm4, xmm3
-	pcmpgtq	xmm6, xmm1
-	movdqa	xmm0, xmm1
-	blendvpd	xmm1, xmm4, xmm0
-	pextrq	rax, xmm1, 1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, rax
-	movq	rax, xmm1
-	xorps	xmm1, xmm1
-	cvtsi2ss	xmm1, rax
-	insertps	xmm1, xmm0, 28                  # xmm1 = xmm1[0],xmm0[0],zero,zero
-	movaps	xmm3, xmm1
-	addps	xmm3, xmm1
-	pshufd	xmm0, xmm6, 237                 # xmm0 = xmm6[1,3,2,3]
-	blendvps	xmm1, xmm3, xmm0
-	movlhps	xmm2, xmm1                      # xmm2 = xmm2[0],xmm1[0]
-	movups	xmmword ptr [rcx + 4*rdi], xmm2
-.LBB0_1053:
-	cmp	rsi, r9
-	jne	.LBB0_1056
-	jmp	.LBB0_1526
-.LBB0_1054:                             #   in Loop: Header=BB0_1056 Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, rax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	je	.LBB0_1526
-.LBB0_1056:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	test	rax, rax
-	jns	.LBB0_1054
-# %bb.1057:                             #   in Loop: Header=BB0_1056 Depth=1
-	mov	rdi, rax
-	shr	rdi
-	and	eax, 1
-	or	rax, rdi
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, rax
-	addss	xmm0, xmm0
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1056
-	jmp	.LBB0_1526
-.LBB0_1058:
-	xor	edi, edi
-.LBB0_1059:
-	test	r8b, 1
-	je	.LBB0_1061
-# %bb.1060:
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1061:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1062:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1062
-	jmp	.LBB0_1526
-.LBB0_1063:
-	xor	edi, edi
-.LBB0_1064:
-	test	r8b, 1
-	je	.LBB0_1066
-# %bb.1065:
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1066:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1067:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, eax
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1067
-	jmp	.LBB0_1526
-.LBB0_1068:
-	xor	edi, edi
-.LBB0_1069:
-	test	r8b, 1
-	je	.LBB0_1071
-# %bb.1070:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1071:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1072:                             # =>This Inner Loop Header: Depth=1
-	xorps	xmm0, xmm0
-	cvtsi2ss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [rcx + 4*rsi], xmm0
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1072
-	jmp	.LBB0_1526
-.LBB0_1073:
-	xor	edi, edi
-.LBB0_1074:
-	test	r8b, 1
-	je	.LBB0_1076
-# %bb.1075:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	cvttpd2dq	xmm0, xmm0
-	cvttpd2dq	xmm1, xmm1
-	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-.LBB0_1076:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1077:                             # =>This Inner Loop Header: Depth=1
-	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1077
-	jmp	.LBB0_1526
-.LBB0_1078:
-	xor	edi, edi
-.LBB0_1079:
-	test	r8b, 1
-	je	.LBB0_1081
-# %bb.1080:
-	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1081:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1082:                             # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1082
-	jmp	.LBB0_1526
-.LBB0_1083:
-	xor	edi, edi
-.LBB0_1084:
-	test	r8b, 1
-	je	.LBB0_1086
-# %bb.1085:
-	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
-	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1086:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1087:                             # =>This Inner Loop Header: Depth=1
-	movsx	eax, word ptr [rdx + 2*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1087
-	jmp	.LBB0_1526
-.LBB0_1088:
-	xor	edi, edi
-.LBB0_1089:
-	test	r8b, 1
-	je	.LBB0_1091
-# %bb.1090:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
-	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-.LBB0_1091:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1092:                             # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 8*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1092
-	jmp	.LBB0_1526
-.LBB0_1093:
-	xor	edi, edi
-.LBB0_1094:
-	test	r8b, 1
-	je	.LBB0_1096
-# %bb.1095:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	movupd	xmmword ptr [rcx + 4*rdi], xmm0
-	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1096:
-	cmp	rsi, r9
-	je	.LBB0_1526
-.LBB0_1097:                             # =>This Inner Loop Header: Depth=1
-	cvttss2si	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [rcx + 4*rsi], eax
-	add	rsi, 1
-	cmp	r9, rsi
-	jne	.LBB0_1097
-.LBB0_1526:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_1098:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1099:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB0_1099
-.LBB0_1100:
-	test	r8, r8
-	je	.LBB0_1103
-# %bb.1101:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB0_1102:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1102
-.LBB0_1103:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1104
-.LBB0_1108:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1109:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB0_1109
-.LBB0_1110:
-	test	r8, r8
-	je	.LBB0_1113
-# %bb.1111:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB0_1112:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1112
-.LBB0_1113:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1114
-.LBB0_1118:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1119:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1119
-.LBB0_1120:
-	test	r8, r8
-	je	.LBB0_1123
-# %bb.1121:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB0_1122:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1122
-.LBB0_1123:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1124
-.LBB0_1128:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1129:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + rax]
-	movups	xmm1, xmmword ptr [rdx + rax + 16]
-	movups	xmmword ptr [rcx + rax], xmm0
-	movups	xmmword ptr [rcx + rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 32]
-	movups	xmm1, xmmword ptr [rdx + rax + 48]
-	movups	xmmword ptr [rcx + rax + 32], xmm0
-	movups	xmmword ptr [rcx + rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 64]
-	movups	xmm1, xmmword ptr [rdx + rax + 80]
-	movups	xmmword ptr [rcx + rax + 64], xmm0
-	movups	xmmword ptr [rcx + rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + rax + 112]
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1129
-.LBB0_1130:
-	test	r8, r8
-	je	.LBB0_1133
-# %bb.1131:
-	add	rax, 16
-	neg	r8
-.LBB0_1132:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1132
-.LBB0_1133:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1134
-.LBB0_1138:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1139:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + rax]
-	movups	xmm1, xmmword ptr [rdx + rax + 16]
-	movups	xmmword ptr [rcx + rax], xmm0
-	movups	xmmword ptr [rcx + rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 32]
-	movups	xmm1, xmmword ptr [rdx + rax + 48]
-	movups	xmmword ptr [rcx + rax + 32], xmm0
-	movups	xmmword ptr [rcx + rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 64]
-	movups	xmm1, xmmword ptr [rdx + rax + 80]
-	movups	xmmword ptr [rcx + rax + 64], xmm0
-	movups	xmmword ptr [rcx + rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + rax + 112]
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1139
-.LBB0_1140:
-	test	r8, r8
-	je	.LBB0_1143
-# %bb.1141:
-	add	rax, 16
-	neg	r8
-.LBB0_1142:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1142
-.LBB0_1143:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1144
-.LBB0_1148:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1149:                             # =>This Inner Loop Header: Depth=1
-	pmovsxbq	xmm0, word ptr [rdx + rax]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 2]
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovsxbq	xmm0, word ptr [rdx + rax + 4]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 6]
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovsxbq	xmm0, word ptr [rdx + rax + 8]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 10]
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovsxbq	xmm0, word ptr [rdx + rax + 12]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 14]
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1149
-.LBB0_1150:
-	test	r8, r8
-	je	.LBB0_1153
-# %bb.1151:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rax + rdx]
-	add	r10, 2
-	xor	eax, eax
-.LBB0_1152:                             # =>This Inner Loop Header: Depth=1
-	pmovsxbq	xmm0, word ptr [r10 + 4*rax - 2]
-	pmovsxbq	xmm1, word ptr [r10 + 4*rax]
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_1152
-.LBB0_1153:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1154
-.LBB0_1158:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1159:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1159
-.LBB0_1160:
-	test	r8, r8
-	je	.LBB0_1163
-# %bb.1161:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB0_1162:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1162
-.LBB0_1163:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1164
-.LBB0_1168:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1169:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1169
-.LBB0_1170:
-	test	r8, r8
-	je	.LBB0_1173
-# %bb.1171:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB0_1172:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1172
-.LBB0_1173:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1174
-.LBB0_1178:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1179:                             # =>This Inner Loop Header: Depth=1
-	pmovzxbq	xmm0, word ptr [rdx + rax]      # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 2]  # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovzxbq	xmm0, word ptr [rdx + rax + 4]  # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 6]  # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovzxbq	xmm0, word ptr [rdx + rax + 8]  # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 10] # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovzxbq	xmm0, word ptr [rdx + rax + 12] # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 14] # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1179
-.LBB0_1180:
-	test	r8, r8
-	je	.LBB0_1183
-# %bb.1181:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rax + rdx]
-	add	r10, 2
-	xor	eax, eax
-.LBB0_1182:                             # =>This Inner Loop Header: Depth=1
-	pmovzxbq	xmm0, word ptr [r10 + 4*rax - 2] # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [r10 + 4*rax]    # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_1182
-.LBB0_1183:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1184
-.LBB0_1188:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1189:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 2*rax]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movups	xmmword ptr [rcx + 2*rax], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
-	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB0_1189
-.LBB0_1190:
-	test	r8, r8
-	je	.LBB0_1193
-# %bb.1191:
-	add	rax, rax
-	add	rax, 16
-	neg	r8
-.LBB0_1192:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1192
-.LBB0_1193:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1194
-.LBB0_1198:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1199:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 2*rax]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movups	xmmword ptr [rcx + 2*rax], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
-	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB0_1199
-.LBB0_1200:
-	test	r8, r8
-	je	.LBB0_1203
-# %bb.1201:
-	add	rax, rax
-	add	rax, 16
-	neg	r8
-.LBB0_1202:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1202
-.LBB0_1203:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1204
-.LBB0_1208:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1209:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 2*rax]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movups	xmmword ptr [rcx + 2*rax], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
-	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB0_1209
-.LBB0_1210:
-	test	r8, r8
-	je	.LBB0_1213
-# %bb.1211:
-	add	rax, rax
-	add	rax, 16
-	neg	r8
-.LBB0_1212:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1212
-.LBB0_1213:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1214
-.LBB0_1218:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1219:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 2*rax]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movups	xmmword ptr [rcx + 2*rax], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
-	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
-	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
-	add	rax, 64
-	add	rdi, 4
-	jne	.LBB0_1219
-.LBB0_1220:
-	test	r8, r8
-	je	.LBB0_1223
-# %bb.1221:
-	add	rax, rax
-	add	rax, 16
-	neg	r8
-.LBB0_1222:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1222
-.LBB0_1223:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1224
-.LBB0_1228:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1229:                             # =>This Inner Loop Header: Depth=1
-	pmovsxbq	xmm0, word ptr [rdx + rax]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 2]
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovsxbq	xmm0, word ptr [rdx + rax + 4]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 6]
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovsxbq	xmm0, word ptr [rdx + rax + 8]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 10]
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovsxbq	xmm0, word ptr [rdx + rax + 12]
-	pmovsxbq	xmm1, word ptr [rdx + rax + 14]
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1229
-.LBB0_1230:
-	test	r8, r8
-	je	.LBB0_1233
-# %bb.1231:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rax + rdx]
-	add	r10, 2
-	xor	eax, eax
-.LBB0_1232:                             # =>This Inner Loop Header: Depth=1
-	pmovsxbq	xmm0, word ptr [r10 + 4*rax - 2]
-	pmovsxbq	xmm1, word ptr [r10 + 4*rax]
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_1232
-.LBB0_1233:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1234
-.LBB0_1238:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1239:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1239
-.LBB0_1240:
-	test	r8, r8
-	je	.LBB0_1243
-# %bb.1241:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB0_1242:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1242
-.LBB0_1243:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1244
-.LBB0_1248:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1249:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 8*rax]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movups	xmmword ptr [rcx + 8*rax], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
-	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
-	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1249
-.LBB0_1250:
-	test	r8, r8
-	je	.LBB0_1253
-# %bb.1251:
-	lea	rax, [8*rax + 16]
-	neg	r8
-.LBB0_1252:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1252
-.LBB0_1253:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1254
-.LBB0_1258:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1259:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB0_1259
-.LBB0_1260:
-	test	r8, r8
-	je	.LBB0_1263
-# %bb.1261:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB0_1262:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1262
-.LBB0_1263:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1264
-.LBB0_1268:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1269:                             # =>This Inner Loop Header: Depth=1
-	pmovzxbq	xmm0, word ptr [rdx + rax]      # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 2]  # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
-	pmovzxbq	xmm0, word ptr [rdx + rax + 4]  # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 6]  # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
-	pmovzxbq	xmm0, word ptr [rdx + rax + 8]  # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 10] # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
-	pmovzxbq	xmm0, word ptr [rdx + rax + 12] # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [rdx + rax + 14] # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
-	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
-	add	rax, 16
-	add	rdi, 4
-	jne	.LBB0_1269
-.LBB0_1270:
-	test	r8, r8
-	je	.LBB0_1273
-# %bb.1271:
-	lea	rdi, [rcx + 8*rax]
-	add	rdi, 16
-	lea	r10, [rax + rdx]
-	add	r10, 2
-	xor	eax, eax
-.LBB0_1272:                             # =>This Inner Loop Header: Depth=1
-	pmovzxbq	xmm0, word ptr [r10 + 4*rax - 2] # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	pmovzxbq	xmm1, word ptr [r10 + 4*rax]    # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
-	movdqu	xmmword ptr [rdi - 16], xmm0
-	movdqu	xmmword ptr [rdi], xmm1
-	add	rdi, 32
-	add	rax, 1
-	cmp	r8, rax
-	jne	.LBB0_1272
-.LBB0_1273:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1274
-.LBB0_1278:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1279:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + rax]
-	movups	xmm1, xmmword ptr [rdx + rax + 16]
-	movups	xmmword ptr [rcx + rax], xmm0
-	movups	xmmword ptr [rcx + rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 32]
-	movups	xmm1, xmmword ptr [rdx + rax + 48]
-	movups	xmmword ptr [rcx + rax + 32], xmm0
-	movups	xmmword ptr [rcx + rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 64]
-	movups	xmm1, xmmword ptr [rdx + rax + 80]
-	movups	xmmword ptr [rcx + rax + 64], xmm0
-	movups	xmmword ptr [rcx + rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + rax + 112]
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1279
-.LBB0_1280:
-	test	r8, r8
-	je	.LBB0_1283
-# %bb.1281:
-	add	rax, 16
-	neg	r8
-.LBB0_1282:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1282
-.LBB0_1283:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1284
-.LBB0_1288:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1289:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + rax]
-	movups	xmm1, xmmword ptr [rdx + rax + 16]
-	movups	xmmword ptr [rcx + rax], xmm0
-	movups	xmmword ptr [rcx + rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 32]
-	movups	xmm1, xmmword ptr [rdx + rax + 48]
-	movups	xmmword ptr [rcx + rax + 32], xmm0
-	movups	xmmword ptr [rcx + rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + rax + 64]
-	movups	xmm1, xmmword ptr [rdx + rax + 80]
-	movups	xmmword ptr [rcx + rax + 64], xmm0
-	movups	xmmword ptr [rcx + rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + rax + 112]
-	movupd	xmmword ptr [rcx + rax + 96], xmm0
-	movupd	xmmword ptr [rcx + rax + 112], xmm1
-	sub	rax, -128
-	add	rdi, 4
-	jne	.LBB0_1289
-.LBB0_1290:
-	test	r8, r8
-	je	.LBB0_1293
-# %bb.1291:
-	add	rax, 16
-	neg	r8
-.LBB0_1292:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1292
-.LBB0_1293:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1294
-.LBB0_1298:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1299:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB0_1299
-.LBB0_1300:
-	test	r8, r8
-	je	.LBB0_1303
-# %bb.1301:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB0_1302:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1302
-.LBB0_1303:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1304
-.LBB0_1308:
-	and	rdi, -4
-	neg	rdi
-	xor	eax, eax
-.LBB0_1309:                             # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmmword ptr [rcx + 4*rax], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
-	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
-	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
-	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
-	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
-	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
-	add	rax, 32
-	add	rdi, 4
-	jne	.LBB0_1309
-.LBB0_1310:
-	test	r8, r8
-	je	.LBB0_1313
-# %bb.1311:
-	lea	rax, [4*rax + 16]
-	neg	r8
-.LBB0_1312:                             # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + rax - 16]
-	movupd	xmm1, xmmword ptr [rdx + rax]
-	movupd	xmmword ptr [rcx + rax - 16], xmm0
-	movupd	xmmword ptr [rcx + rax], xmm1
-	add	rax, 32
-	inc	r8
-	jne	.LBB0_1312
-.LBB0_1313:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1314
-.LBB0_1318:
-	xor	edi, edi
-.LBB0_1319:
-	test	r8b, 1
-	je	.LBB0_1321
-# %bb.1320:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_5] # xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pextrw	word ptr [rcx + rdi], xmm0, 0
-	pshufb	xmm1, xmm2
-	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
-.LBB0_1321:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1322
-.LBB0_1326:
-	xor	edi, edi
-.LBB0_1327:
-	test	r8b, 1
-	je	.LBB0_1329
-# %bb.1328:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_17] # xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1329:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1330
-.LBB0_1334:
-	xor	edi, edi
-.LBB0_1335:
-	test	r8b, 1
-	je	.LBB0_1337
-# %bb.1336:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_5] # xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pextrw	word ptr [rcx + rdi], xmm0, 0
-	pshufb	xmm1, xmm2
-	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
-.LBB0_1337:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1338
-.LBB0_1342:
-	xor	edi, edi
-.LBB0_1343:
-	test	r8b, 1
-	je	.LBB0_1345
-# %bb.1344:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_13] # xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-.LBB0_1345:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1346
-.LBB0_1350:
-	xor	edi, edi
-.LBB0_1351:
-	test	r8b, 1
-	je	.LBB0_1353
-# %bb.1352:
-	pmovsxbw	xmm0, qword ptr [rdx + rdi]
-	pmovsxbw	xmm1, qword ptr [rdx + rdi + 8]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-.LBB0_1353:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1354
-.LBB0_1358:
-	xor	edi, edi
-.LBB0_1359:
-	test	r8b, 1
-	je	.LBB0_1361
-# %bb.1360:
-	pmovsxbw	xmm0, qword ptr [rdx + rdi]
-	pmovsxbw	xmm1, qword ptr [rdx + rdi + 8]
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-.LBB0_1361:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1362
-.LBB0_1366:
-	xor	edi, edi
-.LBB0_1367:
-	test	r8b, 1
-	je	.LBB0_1369
-# %bb.1368:
-	pmovzxbw	xmm0, qword ptr [rdx + rdi]     # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	pmovzxbw	xmm1, qword ptr [rdx + rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-.LBB0_1369:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1370
-.LBB0_1374:
-	xor	edi, edi
-.LBB0_1375:
-	test	r8b, 1
-	je	.LBB0_1377
-# %bb.1376:
-	pmovzxbw	xmm0, qword ptr [rdx + rdi]     # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	pmovzxbw	xmm1, qword ptr [rdx + rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
-	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
-.LBB0_1377:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1378
-.LBB0_1382:
-	xor	edi, edi
-.LBB0_1383:
-	test	r8b, 1
-	je	.LBB0_1385
-# %bb.1384:
-	pmovsxbd	xmm0, dword ptr [rdx + rdi]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1385:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1386
-.LBB0_1390:
-	xor	edi, edi
-.LBB0_1391:
-	test	r8b, 1
-	je	.LBB0_1393
-# %bb.1392:
-	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	cvtdq2ps	xmm0, xmm0
-	cvtdq2ps	xmm1, xmm1
-	movups	xmmword ptr [rcx + 4*rdi], xmm0
-	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1393:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1394
-.LBB0_1398:
-	xor	edi, edi
-.LBB0_1399:
-	test	r8b, 1
-	je	.LBB0_1401
-# %bb.1400:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_13] # xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-.LBB0_1401:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1402
-.LBB0_1406:
-	xor	edi, edi
-.LBB0_1407:
-	test	r8b, 1
-	je	.LBB0_1409
-# %bb.1408:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	cvttpd2dq	xmm0, xmm0
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_1] # xmm2 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	cvttpd2dq	xmm1, xmm1
-	pshufb	xmm0, xmm2
-	pextrw	word ptr [rcx + rdi], xmm0, 0
-	pshufb	xmm1, xmm2
-	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
-.LBB0_1409:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1410
-.LBB0_1414:
-	xor	edi, edi
-.LBB0_1415:
-	test	r8b, 1
-	je	.LBB0_1417
-# %bb.1416:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_5] # xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pextrw	word ptr [rcx + rdi], xmm0, 0
-	pshufb	xmm1, xmm2
-	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
-.LBB0_1417:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1418
-.LBB0_1422:
-	xor	edi, edi
-.LBB0_1423:
-	test	r8b, 1
-	je	.LBB0_1425
-# %bb.1424:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_17] # xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1425:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1426
-.LBB0_1430:
-	xor	edi, edi
-.LBB0_1431:
-	test	r8b, 1
-	je	.LBB0_1433
-# %bb.1432:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_17] # xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1433:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1434
-.LBB0_1438:
-	xor	edi, edi
-.LBB0_1439:
-	test	r8b, 1
-	je	.LBB0_1441
-# %bb.1440:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_5] # xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pextrw	word ptr [rcx + rdi], xmm0, 0
-	pshufb	xmm1, xmm2
-	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
-.LBB0_1441:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1442
-.LBB0_1446:
-	xor	edi, edi
-.LBB0_1447:
-	test	r8b, 1
-	je	.LBB0_1449
-# %bb.1448:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	packusdw	xmm0, xmm0
-	packuswb	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packusdw	xmm1, xmm1
-	packuswb	xmm1, xmm1
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-.LBB0_1449:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1450
-.LBB0_1454:
-	xor	edi, edi
-.LBB0_1455:
-	test	r8b, 1
-	je	.LBB0_1457
-# %bb.1456:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_13] # xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-.LBB0_1457:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1458
-.LBB0_1462:
-	xor	edi, edi
-.LBB0_1463:
-	test	r8b, 1
-	je	.LBB0_1465
-# %bb.1464:
-	pmovsxbd	xmm0, dword ptr [rdx + rdi]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1465:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1466
-.LBB0_1470:
-	xor	edi, edi
-.LBB0_1471:
-	test	r8b, 1
-	je	.LBB0_1473
-# %bb.1472:
-	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1473:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1474
-.LBB0_1478:
-	xor	edi, edi
-.LBB0_1479:
-	test	r8b, 1
-	je	.LBB0_1481
-# %bb.1480:
-	pmovsxbd	xmm0, dword ptr [rdx + rdi]
-	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1481:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1482
-.LBB0_1486:
-	xor	edi, edi
-.LBB0_1487:
-	test	r8b, 1
-	je	.LBB0_1489
-# %bb.1488:
-	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
-	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
-	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
-.LBB0_1489:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1490
-.LBB0_1494:
-	xor	edi, edi
-.LBB0_1495:
-	test	r8b, 1
-	je	.LBB0_1497
-# %bb.1496:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_13] # xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-.LBB0_1497:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1498
-.LBB0_1502:
-	xor	edi, edi
-.LBB0_1503:
-	test	r8b, 1
-	je	.LBB0_1505
-# %bb.1504:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	cvttpd2dq	xmm0, xmm0
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_1] # xmm2 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
-	cvttpd2dq	xmm1, xmm1
-	pshufb	xmm0, xmm2
-	pextrw	word ptr [rcx + rdi], xmm0, 0
-	pshufb	xmm1, xmm2
-	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
-.LBB0_1505:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1506
-.LBB0_1510:
-	xor	edi, edi
-.LBB0_1511:
-	test	r8b, 1
-	je	.LBB0_1513
-# %bb.1512:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqa	xmm2, xmmword ptr [rip + .LCPI0_17] # xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
-	pshufb	xmm0, xmm2
-	pshufb	xmm1, xmm2
-	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
-	movdqu	xmmword ptr [rcx + rdi], xmm0
-.LBB0_1513:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1514
-.LBB0_1518:
-	xor	edi, edi
-.LBB0_1519:
-	test	r8b, 1
-	je	.LBB0_1521
-# %bb.1520:
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	cvttps2dq	xmm0, xmm0
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	cvttps2dq	xmm1, xmm1
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movd	dword ptr [rcx + rdi], xmm0
-	movd	dword ptr [rcx + rdi + 4], xmm1
-.LBB0_1521:
-	cmp	rsi, r9
-	je	.LBB0_1526
-	jmp	.LBB0_1522
-.Lfunc_end0:
-	.size	cast_type_numeric_sse4, .Lfunc_end0-cast_type_numeric_sse4
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/constant_factor.c b/go/arrow/compute/internal/kernels/_lib/constant_factor.c
deleted file mode 100644
index a540f4cd6b649..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/constant_factor.c
+++ /dev/null
@@ -1,35 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdint.h>
-
-#define CREATE_CONSTANT_FACTOR(SRC, DEST) \
-    void FULL_NAME(multiply_constant_##SRC##_##DEST)(const SRC##_t* src, DEST##_t* dest, const int len, const int64_t factor) { \
-        for (int i = 0; i < len; ++i) {            \
-            dest[i] = (DEST##_t)(src[i] * factor); \
-        }                                          \
-    }                                              \
-    void FULL_NAME(divide_constant_##SRC##_##DEST)(const SRC##_t* src, DEST##_t* dest, const int len, const int64_t factor) { \
-        for (int i = 0; i < len; ++i) {            \
-            dest[i] = (DEST##_t)(src[i] / factor); \
-        }                                          \
-    }
-
-CREATE_CONSTANT_FACTOR(int32, int32)
-CREATE_CONSTANT_FACTOR(int32, int64)
-CREATE_CONSTANT_FACTOR(int64, int32)
-CREATE_CONSTANT_FACTOR(int64, int64)
\ No newline at end of file
diff --git a/go/arrow/compute/internal/kernels/_lib/constant_factor_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/constant_factor_avx2_amd64.s
deleted file mode 100644
index f0dfeed8dee89..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/constant_factor_avx2_amd64.s
+++ /dev/null
@@ -1,837 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"constant_factor.c"
-	.globl	multiply_constant_int32_int32_avx2 # -- Begin function multiply_constant_int32_int32_avx2
-	.p2align	4, 0x90
-	.type	multiply_constant_int32_int32_avx2,@function
-multiply_constant_int32_int32_avx2:     # @multiply_constant_int32_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB0_16
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 31
-	jbe	.LBB0_2
-# %bb.7:
-	lea	rax, [rdi + 4*r9]
-	cmp	rax, rsi
-	jbe	.LBB0_9
-# %bb.8:
-	lea	rax, [rsi + 4*r9]
-	cmp	rax, rdi
-	jbe	.LBB0_9
-.LBB0_2:
-	xor	r11d, r11d
-.LBB0_3:
-	mov	r8, r11
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_5
-	.p2align	4, 0x90
-.LBB0_4:                                # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rdi + 4*r11]
-	imul	edx, ecx
-	mov	dword ptr [rsi + 4*r11], edx
-	add	r11, 1
-	add	rax, -1
-	jne	.LBB0_4
-.LBB0_5:
-	cmp	r8, 3
-	jb	.LBB0_16
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r11]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11], eax
-	mov	eax, dword ptr [rdi + 4*r11 + 4]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11 + 4], eax
-	mov	eax, dword ptr [rdi + 4*r11 + 8]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11 + 8], eax
-	mov	eax, dword ptr [rdi + 4*r11 + 12]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11 + 12], eax
-	add	r11, 4
-	cmp	r9, r11
-	jne	.LBB0_6
-	jmp	.LBB0_16
-.LBB0_9:
-	mov	r11d, r9d
-	and	r11d, -32
-	vmovd	xmm0, ecx
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [r11 - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_10
-# %bb.11:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	vpmulld	ymm1, ymm0, ymmword ptr [rdi + 4*rax]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdi + 4*rax + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdi + 4*rax + 64]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdi + 4*rax + 96]
-	vmovdqu	ymmword ptr [rsi + 4*rax], ymm1
-	vmovdqu	ymmword ptr [rsi + 4*rax + 32], ymm2
-	vmovdqu	ymmword ptr [rsi + 4*rax + 64], ymm3
-	vmovdqu	ymmword ptr [rsi + 4*rax + 96], ymm4
-	vpmulld	ymm1, ymm0, ymmword ptr [rdi + 4*rax + 128]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdi + 4*rax + 160]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdi + 4*rax + 192]
-	vpmulld	ymm4, ymm0, ymmword ptr [rdi + 4*rax + 224]
-	vmovdqu	ymmword ptr [rsi + 4*rax + 128], ymm1
-	vmovdqu	ymmword ptr [rsi + 4*rax + 160], ymm2
-	vmovdqu	ymmword ptr [rsi + 4*rax + 192], ymm3
-	vmovdqu	ymmword ptr [rsi + 4*rax + 224], ymm4
-	add	rax, 64
-	add	r10, 2
-	jne	.LBB0_12
-# %bb.13:
-	test	r8b, 1
-	je	.LBB0_15
-.LBB0_14:
-	vpmulld	ymm1, ymm0, ymmword ptr [rdi + 4*rax]
-	vpmulld	ymm2, ymm0, ymmword ptr [rdi + 4*rax + 32]
-	vpmulld	ymm3, ymm0, ymmword ptr [rdi + 4*rax + 64]
-	vpmulld	ymm0, ymm0, ymmword ptr [rdi + 4*rax + 96]
-	vmovdqu	ymmword ptr [rsi + 4*rax], ymm1
-	vmovdqu	ymmword ptr [rsi + 4*rax + 32], ymm2
-	vmovdqu	ymmword ptr [rsi + 4*rax + 64], ymm3
-	vmovdqu	ymmword ptr [rsi + 4*rax + 96], ymm0
-.LBB0_15:
-	cmp	r11, r9
-	jne	.LBB0_3
-.LBB0_16:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_10:
-	xor	eax, eax
-	test	r8b, 1
-	jne	.LBB0_14
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	multiply_constant_int32_int32_avx2, .Lfunc_end0-multiply_constant_int32_int32_avx2
-                                        # -- End function
-	.globl	divide_constant_int32_int32_avx2 # -- Begin function divide_constant_int32_int32_avx2
-	.p2align	4, 0x90
-	.type	divide_constant_int32_int32_avx2,@function
-divide_constant_int32_int32_avx2:       # @divide_constant_int32_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB1_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB1_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB1_3:
-	test	r9b, 1
-	je	.LBB1_8
-# %bb.4:
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB1_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB1_7
-.LBB1_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB1_10
-	.p2align	4, 0x90
-.LBB1_15:                               #   in Loop: Header=BB1_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB1_16:                               #   in Loop: Header=BB1_10 Depth=1
-	mov	dword ptr [rsi + 4*r8 + 4], eax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB1_3
-.LBB1_10:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB1_11
-# %bb.12:                               #   in Loop: Header=BB1_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_11:                               #   in Loop: Header=BB1_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB1_13:                               #   in Loop: Header=BB1_10 Depth=1
-	mov	dword ptr [rsi + 4*r8], eax
-	movsxd	rax, dword ptr [rdi + 4*r8 + 4]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB1_15
-# %bb.14:                               #   in Loop: Header=BB1_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB1_16
-.LBB1_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB1_7:
-	mov	dword ptr [rsi + 4*r8], eax
-.LBB1_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end1:
-	.size	divide_constant_int32_int32_avx2, .Lfunc_end1-divide_constant_int32_int32_avx2
-                                        # -- End function
-	.globl	multiply_constant_int32_int64_avx2 # -- Begin function multiply_constant_int32_int64_avx2
-	.p2align	4, 0x90
-	.type	multiply_constant_int32_int64_avx2,@function
-multiply_constant_int32_int64_avx2:     # @multiply_constant_int32_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB2_7
-# %bb.1:
-	mov	r8d, edx
-	cmp	edx, 15
-	ja	.LBB2_3
-# %bb.2:
-	xor	edx, edx
-	jmp	.LBB2_6
-.LBB2_3:
-	mov	edx, r8d
-	and	edx, -16
-	vmovq	xmm0, rcx
-	vpbroadcastq	ymm0, xmm0
-	xor	eax, eax
-	vpsrlq	ymm1, ymm0, 32
-	.p2align	4, 0x90
-.LBB2_4:                                # =>This Inner Loop Header: Depth=1
-	vpmovsxdq	ymm2, xmmword ptr [rdi + 4*rax]
-	vpmovsxdq	ymm3, xmmword ptr [rdi + 4*rax + 16]
-	vpmovsxdq	ymm4, xmmword ptr [rdi + 4*rax + 32]
-	vpmovsxdq	ymm5, xmmword ptr [rdi + 4*rax + 48]
-	vpmuludq	ymm6, ymm1, ymm2
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm0, ymm7
-	vpaddq	ymm6, ymm7, ymm6
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm0, ymm2
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm1, ymm3
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm0, ymm7
-	vpaddq	ymm6, ymm7, ymm6
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm0, ymm3
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm1, ymm4
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm0, ymm7
-	vpaddq	ymm6, ymm7, ymm6
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm0, ymm4
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm1, ymm5
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm0, ymm7
-	vpaddq	ymm6, ymm7, ymm6
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm0, ymm5
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [rsi + 8*rax], ymm2
-	vmovdqu	ymmword ptr [rsi + 8*rax + 32], ymm3
-	vmovdqu	ymmword ptr [rsi + 8*rax + 64], ymm4
-	vmovdqu	ymmword ptr [rsi + 8*rax + 96], ymm5
-	add	rax, 16
-	cmp	rdx, rax
-	jne	.LBB2_4
-# %bb.5:
-	cmp	rdx, r8
-	je	.LBB2_7
-	.p2align	4, 0x90
-.LBB2_6:                                # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*rdx]
-	imul	rax, rcx
-	mov	qword ptr [rsi + 8*rdx], rax
-	add	rdx, 1
-	cmp	r8, rdx
-	jne	.LBB2_6
-.LBB2_7:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end2:
-	.size	multiply_constant_int32_int64_avx2, .Lfunc_end2-multiply_constant_int32_int64_avx2
-                                        # -- End function
-	.globl	divide_constant_int32_int64_avx2 # -- Begin function divide_constant_int32_int64_avx2
-	.p2align	4, 0x90
-	.type	divide_constant_int32_int64_avx2,@function
-divide_constant_int32_int64_avx2:       # @divide_constant_int32_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB3_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB3_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB3_3:
-	test	r9b, 1
-	je	.LBB3_8
-# %bb.4:
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB3_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB3_7
-.LBB3_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB3_10
-	.p2align	4, 0x90
-.LBB3_15:                               #   in Loop: Header=BB3_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB3_16:                               #   in Loop: Header=BB3_10 Depth=1
-	mov	qword ptr [rsi + 8*r8 + 8], rax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB3_3
-.LBB3_10:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB3_11
-# %bb.12:                               #   in Loop: Header=BB3_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB3_13
-	.p2align	4, 0x90
-.LBB3_11:                               #   in Loop: Header=BB3_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB3_13:                               #   in Loop: Header=BB3_10 Depth=1
-	mov	qword ptr [rsi + 8*r8], rax
-	movsxd	rax, dword ptr [rdi + 4*r8 + 4]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB3_15
-# %bb.14:                               #   in Loop: Header=BB3_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB3_16
-.LBB3_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB3_7:
-	mov	qword ptr [rsi + 8*r8], rax
-.LBB3_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end3:
-	.size	divide_constant_int32_int64_avx2, .Lfunc_end3-divide_constant_int32_int64_avx2
-                                        # -- End function
-	.globl	multiply_constant_int64_int32_avx2 # -- Begin function multiply_constant_int64_int32_avx2
-	.p2align	4, 0x90
-	.type	multiply_constant_int64_int32_avx2,@function
-multiply_constant_int64_int32_avx2:     # @multiply_constant_int64_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB4_7
-# %bb.1:
-	mov	r8d, edx
-	cmp	edx, 15
-	ja	.LBB4_3
-# %bb.2:
-	xor	edx, edx
-	jmp	.LBB4_6
-.LBB4_3:
-	mov	edx, r8d
-	and	edx, -16
-	vmovq	xmm0, rcx
-	vpbroadcastq	ymm0, xmm0
-	xor	eax, eax
-	vextracti128	xmm1, ymm0, 1
-	.p2align	4, 0x90
-.LBB4_4:                                # =>This Inner Loop Header: Depth=1
-	vmovups	xmm2, xmmword ptr [rdi + 8*rax]
-	vmovups	xmm3, xmmword ptr [rdi + 8*rax + 32]
-	vmovups	xmm4, xmmword ptr [rdi + 8*rax + 64]
-	vmovups	xmm5, xmmword ptr [rdi + 8*rax + 96]
-	vshufps	xmm2, xmm2, xmmword ptr [rdi + 8*rax + 16], 136 # xmm2 = xmm2[0,2],mem[0,2]
-	vshufps	xmm6, xmm0, xmm1, 136           # xmm6 = xmm0[0,2],xmm1[0,2]
-	vpmulld	xmm2, xmm2, xmm6
-	vshufps	xmm3, xmm3, xmmword ptr [rdi + 8*rax + 48], 136 # xmm3 = xmm3[0,2],mem[0,2]
-	vshufps	xmm6, xmm0, xmm1, 136           # xmm6 = xmm0[0,2],xmm1[0,2]
-	vpmulld	xmm3, xmm3, xmm6
-	vshufps	xmm4, xmm4, xmmword ptr [rdi + 8*rax + 80], 136 # xmm4 = xmm4[0,2],mem[0,2]
-	vshufps	xmm6, xmm0, xmm1, 136           # xmm6 = xmm0[0,2],xmm1[0,2]
-	vpmulld	xmm4, xmm4, xmm6
-	vshufps	xmm5, xmm5, xmmword ptr [rdi + 8*rax + 112], 136 # xmm5 = xmm5[0,2],mem[0,2]
-	vshufps	xmm6, xmm0, xmm1, 136           # xmm6 = xmm0[0,2],xmm1[0,2]
-	vpmulld	xmm5, xmm5, xmm6
-	vmovdqu	xmmword ptr [rsi + 4*rax], xmm2
-	vmovdqu	xmmword ptr [rsi + 4*rax + 16], xmm3
-	vmovdqu	xmmword ptr [rsi + 4*rax + 32], xmm4
-	vmovdqu	xmmword ptr [rsi + 4*rax + 48], xmm5
-	add	rax, 16
-	cmp	rdx, rax
-	jne	.LBB4_4
-# %bb.5:
-	cmp	rdx, r8
-	je	.LBB4_7
-	.p2align	4, 0x90
-.LBB4_6:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 8*rdx]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*rdx], eax
-	add	rdx, 1
-	cmp	r8, rdx
-	jne	.LBB4_6
-.LBB4_7:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end4:
-	.size	multiply_constant_int64_int32_avx2, .Lfunc_end4-multiply_constant_int64_int32_avx2
-                                        # -- End function
-	.globl	divide_constant_int64_int32_avx2 # -- Begin function divide_constant_int64_int32_avx2
-	.p2align	4, 0x90
-	.type	divide_constant_int64_int32_avx2,@function
-divide_constant_int64_int32_avx2:       # @divide_constant_int64_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB5_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB5_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB5_3:
-	test	r9b, 1
-	je	.LBB5_8
-# %bb.4:
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB5_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB5_7
-.LBB5_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB5_10
-	.p2align	4, 0x90
-.LBB5_15:                               #   in Loop: Header=BB5_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB5_16:                               #   in Loop: Header=BB5_10 Depth=1
-	mov	dword ptr [rsi + 4*r8 + 4], eax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB5_3
-.LBB5_10:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB5_11
-# %bb.12:                               #   in Loop: Header=BB5_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB5_13
-	.p2align	4, 0x90
-.LBB5_11:                               #   in Loop: Header=BB5_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB5_13:                               #   in Loop: Header=BB5_10 Depth=1
-	mov	dword ptr [rsi + 4*r8], eax
-	mov	rax, qword ptr [rdi + 8*r8 + 8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB5_15
-# %bb.14:                               #   in Loop: Header=BB5_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB5_16
-.LBB5_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB5_7:
-	mov	dword ptr [rsi + 4*r8], eax
-.LBB5_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end5:
-	.size	divide_constant_int64_int32_avx2, .Lfunc_end5-divide_constant_int64_int32_avx2
-                                        # -- End function
-	.globl	multiply_constant_int64_int64_avx2 # -- Begin function multiply_constant_int64_int64_avx2
-	.p2align	4, 0x90
-	.type	multiply_constant_int64_int64_avx2,@function
-multiply_constant_int64_int64_avx2:     # @multiply_constant_int64_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB6_16
-# %bb.1:
-	mov	r8d, edx
-	cmp	edx, 15
-	jbe	.LBB6_2
-# %bb.7:
-	lea	rax, [rdi + 8*r8]
-	cmp	rax, rsi
-	jbe	.LBB6_9
-# %bb.8:
-	lea	rax, [rsi + 8*r8]
-	cmp	rax, rdi
-	jbe	.LBB6_9
-.LBB6_2:
-	xor	r11d, r11d
-.LBB6_3:
-	mov	r9, r11
-	not	r9
-	add	r9, r8
-	mov	rax, r8
-	and	rax, 3
-	je	.LBB6_5
-	.p2align	4, 0x90
-.LBB6_4:                                # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rdi + 8*r11]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*r11], rdx
-	add	r11, 1
-	add	rax, -1
-	jne	.LBB6_4
-.LBB6_5:
-	cmp	r9, 3
-	jb	.LBB6_16
-	.p2align	4, 0x90
-.LBB6_6:                                # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r11]
-	imul	rax, rcx
-	mov	qword ptr [rsi + 8*r11], rax
-	mov	rax, qword ptr [rdi + 8*r11 + 8]
-	imul	rax, rcx
-	mov	qword ptr [rsi + 8*r11 + 8], rax
-	mov	rax, qword ptr [rdi + 8*r11 + 16]
-	imul	rax, rcx
-	mov	qword ptr [rsi + 8*r11 + 16], rax
-	mov	rax, qword ptr [rdi + 8*r11 + 24]
-	imul	rax, rcx
-	mov	qword ptr [rsi + 8*r11 + 24], rax
-	add	r11, 4
-	cmp	r8, r11
-	jne	.LBB6_6
-	jmp	.LBB6_16
-.LBB6_9:
-	mov	r11d, r8d
-	and	r11d, -16
-	vmovq	xmm0, rcx
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [r11 - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	vpsrlq	ymm1, ymm0, 32
-	test	rax, rax
-	je	.LBB6_10
-# %bb.11:
-	mov	r10, r9
-	and	r10, -2
-	neg	r10
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB6_12:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm2, ymmword ptr [rdi + 8*rax]
-	vmovdqu	ymm3, ymmword ptr [rdi + 8*rax + 32]
-	vmovdqu	ymm4, ymmword ptr [rdi + 8*rax + 64]
-	vmovdqu	ymm5, ymmword ptr [rdi + 8*rax + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [rsi + 8*rax], ymm2
-	vmovdqu	ymmword ptr [rsi + 8*rax + 32], ymm3
-	vmovdqu	ymmword ptr [rsi + 8*rax + 64], ymm4
-	vmovdqu	ymmword ptr [rsi + 8*rax + 96], ymm5
-	vmovdqu	ymm2, ymmword ptr [rdi + 8*rax + 128]
-	vmovdqu	ymm3, ymmword ptr [rdi + 8*rax + 160]
-	vmovdqu	ymm4, ymmword ptr [rdi + 8*rax + 192]
-	vmovdqu	ymm5, ymmword ptr [rdi + 8*rax + 224]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm6, ymm5, ymm1
-	vpsrlq	ymm7, ymm5, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm5, ymm5, ymm0
-	vpaddq	ymm5, ymm5, ymm6
-	vmovdqu	ymmword ptr [rsi + 8*rax + 128], ymm2
-	vmovdqu	ymmword ptr [rsi + 8*rax + 160], ymm3
-	vmovdqu	ymmword ptr [rsi + 8*rax + 192], ymm4
-	vmovdqu	ymmword ptr [rsi + 8*rax + 224], ymm5
-	add	rax, 32
-	add	r10, 2
-	jne	.LBB6_12
-# %bb.13:
-	test	r9b, 1
-	je	.LBB6_15
-.LBB6_14:
-	vmovdqu	ymm2, ymmword ptr [rdi + 8*rax]
-	vmovdqu	ymm3, ymmword ptr [rdi + 8*rax + 32]
-	vmovdqu	ymm4, ymmword ptr [rdi + 8*rax + 64]
-	vmovdqu	ymm5, ymmword ptr [rdi + 8*rax + 96]
-	vpmuludq	ymm6, ymm2, ymm1
-	vpsrlq	ymm7, ymm2, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm2, ymm2, ymm0
-	vpaddq	ymm2, ymm2, ymm6
-	vpmuludq	ymm6, ymm3, ymm1
-	vpsrlq	ymm7, ymm3, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm3, ymm3, ymm0
-	vpaddq	ymm3, ymm3, ymm6
-	vpmuludq	ymm6, ymm4, ymm1
-	vpsrlq	ymm7, ymm4, 32
-	vpmuludq	ymm7, ymm7, ymm0
-	vpaddq	ymm6, ymm6, ymm7
-	vpsllq	ymm6, ymm6, 32
-	vpmuludq	ymm4, ymm4, ymm0
-	vpaddq	ymm4, ymm4, ymm6
-	vpmuludq	ymm1, ymm5, ymm1
-	vpsrlq	ymm6, ymm5, 32
-	vpmuludq	ymm6, ymm6, ymm0
-	vpaddq	ymm1, ymm1, ymm6
-	vpsllq	ymm1, ymm1, 32
-	vpmuludq	ymm0, ymm5, ymm0
-	vpaddq	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [rsi + 8*rax], ymm2
-	vmovdqu	ymmword ptr [rsi + 8*rax + 32], ymm3
-	vmovdqu	ymmword ptr [rsi + 8*rax + 64], ymm4
-	vmovdqu	ymmword ptr [rsi + 8*rax + 96], ymm0
-.LBB6_15:
-	cmp	r11, r8
-	jne	.LBB6_3
-.LBB6_16:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB6_10:
-	xor	eax, eax
-	test	r9b, 1
-	jne	.LBB6_14
-	jmp	.LBB6_15
-.Lfunc_end6:
-	.size	multiply_constant_int64_int64_avx2, .Lfunc_end6-multiply_constant_int64_int64_avx2
-                                        # -- End function
-	.globl	divide_constant_int64_int64_avx2 # -- Begin function divide_constant_int64_int64_avx2
-	.p2align	4, 0x90
-	.type	divide_constant_int64_int64_avx2,@function
-divide_constant_int64_int64_avx2:       # @divide_constant_int64_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB7_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB7_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB7_3:
-	test	r9b, 1
-	je	.LBB7_8
-# %bb.4:
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB7_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB7_7
-.LBB7_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB7_10
-	.p2align	4, 0x90
-.LBB7_15:                               #   in Loop: Header=BB7_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB7_16:                               #   in Loop: Header=BB7_10 Depth=1
-	mov	qword ptr [rsi + 8*r8 + 8], rax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB7_3
-.LBB7_10:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB7_11
-# %bb.12:                               #   in Loop: Header=BB7_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB7_13
-	.p2align	4, 0x90
-.LBB7_11:                               #   in Loop: Header=BB7_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB7_13:                               #   in Loop: Header=BB7_10 Depth=1
-	mov	qword ptr [rsi + 8*r8], rax
-	mov	rax, qword ptr [rdi + 8*r8 + 8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB7_15
-# %bb.14:                               #   in Loop: Header=BB7_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB7_16
-.LBB7_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB7_7:
-	mov	qword ptr [rsi + 8*r8], rax
-.LBB7_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end7:
-	.size	divide_constant_int64_int64_avx2, .Lfunc_end7-divide_constant_int64_int64_avx2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/constant_factor_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/constant_factor_sse4_amd64.s
deleted file mode 100644
index 9106840a735ed..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/constant_factor_sse4_amd64.s
+++ /dev/null
@@ -1,654 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"constant_factor.c"
-	.globl	multiply_constant_int32_int32_sse4 # -- Begin function multiply_constant_int32_int32_sse4
-	.p2align	4, 0x90
-	.type	multiply_constant_int32_int32_sse4,@function
-multiply_constant_int32_int32_sse4:     # @multiply_constant_int32_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB0_16
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 7
-	jbe	.LBB0_2
-# %bb.7:
-	lea	rax, [rdi + 4*r9]
-	cmp	rax, rsi
-	jbe	.LBB0_9
-# %bb.8:
-	lea	rax, [rsi + 4*r9]
-	cmp	rax, rdi
-	jbe	.LBB0_9
-.LBB0_2:
-	xor	r11d, r11d
-.LBB0_3:
-	mov	r8, r11
-	not	r8
-	add	r8, r9
-	mov	rax, r9
-	and	rax, 3
-	je	.LBB0_5
-	.p2align	4, 0x90
-.LBB0_4:                                # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rdi + 4*r11]
-	imul	edx, ecx
-	mov	dword ptr [rsi + 4*r11], edx
-	add	r11, 1
-	add	rax, -1
-	jne	.LBB0_4
-.LBB0_5:
-	cmp	r8, 3
-	jb	.LBB0_16
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r11]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11], eax
-	mov	eax, dword ptr [rdi + 4*r11 + 4]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11 + 4], eax
-	mov	eax, dword ptr [rdi + 4*r11 + 8]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11 + 8], eax
-	mov	eax, dword ptr [rdi + 4*r11 + 12]
-	imul	eax, ecx
-	mov	dword ptr [rsi + 4*r11 + 12], eax
-	add	r11, 4
-	cmp	r9, r11
-	jne	.LBB0_6
-	jmp	.LBB0_16
-.LBB0_9:
-	mov	r11d, r9d
-	and	r11d, -8
-	movd	xmm0, ecx
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [r11 - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_10
-# %bb.11:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdi + 4*rax]
-	movdqu	xmm2, xmmword ptr [rdi + 4*rax + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [rsi + 4*rax], xmm1
-	movdqu	xmmword ptr [rsi + 4*rax + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdi + 4*rax + 32]
-	movdqu	xmm2, xmmword ptr [rdi + 4*rax + 48]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [rsi + 4*rax + 32], xmm1
-	movdqu	xmmword ptr [rsi + 4*rax + 48], xmm2
-	add	rax, 16
-	add	r10, 2
-	jne	.LBB0_12
-# %bb.13:
-	test	r8b, 1
-	je	.LBB0_15
-.LBB0_14:
-	movdqu	xmm1, xmmword ptr [rdi + 4*rax]
-	movdqu	xmm2, xmmword ptr [rdi + 4*rax + 16]
-	pmulld	xmm1, xmm0
-	pmulld	xmm2, xmm0
-	movdqu	xmmword ptr [rsi + 4*rax], xmm1
-	movdqu	xmmword ptr [rsi + 4*rax + 16], xmm2
-.LBB0_15:
-	cmp	r11, r9
-	jne	.LBB0_3
-.LBB0_16:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_10:
-	xor	eax, eax
-	test	r8b, 1
-	jne	.LBB0_14
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	multiply_constant_int32_int32_sse4, .Lfunc_end0-multiply_constant_int32_int32_sse4
-                                        # -- End function
-	.globl	divide_constant_int32_int32_sse4 # -- Begin function divide_constant_int32_int32_sse4
-	.p2align	4, 0x90
-	.type	divide_constant_int32_int32_sse4,@function
-divide_constant_int32_int32_sse4:       # @divide_constant_int32_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB1_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB1_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB1_3:
-	test	r9b, 1
-	je	.LBB1_8
-# %bb.4:
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB1_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB1_7
-.LBB1_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB1_10
-	.p2align	4, 0x90
-.LBB1_15:                               #   in Loop: Header=BB1_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB1_16:                               #   in Loop: Header=BB1_10 Depth=1
-	mov	dword ptr [rsi + 4*r8 + 4], eax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB1_3
-.LBB1_10:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB1_11
-# %bb.12:                               #   in Loop: Header=BB1_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_11:                               #   in Loop: Header=BB1_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB1_13:                               #   in Loop: Header=BB1_10 Depth=1
-	mov	dword ptr [rsi + 4*r8], eax
-	movsxd	rax, dword ptr [rdi + 4*r8 + 4]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB1_15
-# %bb.14:                               #   in Loop: Header=BB1_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB1_16
-.LBB1_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB1_7:
-	mov	dword ptr [rsi + 4*r8], eax
-.LBB1_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end1:
-	.size	divide_constant_int32_int32_sse4, .Lfunc_end1-divide_constant_int32_int32_sse4
-                                        # -- End function
-	.globl	multiply_constant_int32_int64_sse4 # -- Begin function multiply_constant_int32_int64_sse4
-	.p2align	4, 0x90
-	.type	multiply_constant_int32_int64_sse4,@function
-multiply_constant_int32_int64_sse4:     # @multiply_constant_int32_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB2_6
-# %bb.1:
-	mov	r9d, edx
-	lea	rax, [r9 - 1]
-	mov	r8d, r9d
-	and	r8d, 3
-	cmp	rax, 3
-	jae	.LBB2_7
-# %bb.2:
-	xor	eax, eax
-	jmp	.LBB2_3
-.LBB2_7:
-	and	r9d, -4
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB2_8:                                # =>This Inner Loop Header: Depth=1
-	movsxd	rdx, dword ptr [rdi + 4*rax]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax], rdx
-	movsxd	rdx, dword ptr [rdi + 4*rax + 4]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax + 8], rdx
-	movsxd	rdx, dword ptr [rdi + 4*rax + 8]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax + 16], rdx
-	movsxd	rdx, dword ptr [rdi + 4*rax + 12]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax + 24], rdx
-	add	rax, 4
-	cmp	r9, rax
-	jne	.LBB2_8
-.LBB2_3:
-	test	r8, r8
-	je	.LBB2_6
-# %bb.4:
-	lea	rdx, [rsi + 8*rax]
-	lea	rax, [rdi + 4*rax]
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB2_5:                                # =>This Inner Loop Header: Depth=1
-	movsxd	rdi, dword ptr [rax + 4*rsi]
-	imul	rdi, rcx
-	mov	qword ptr [rdx + 8*rsi], rdi
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB2_5
-.LBB2_6:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end2:
-	.size	multiply_constant_int32_int64_sse4, .Lfunc_end2-multiply_constant_int32_int64_sse4
-                                        # -- End function
-	.globl	divide_constant_int32_int64_sse4 # -- Begin function divide_constant_int32_int64_sse4
-	.p2align	4, 0x90
-	.type	divide_constant_int32_int64_sse4,@function
-divide_constant_int32_int64_sse4:       # @divide_constant_int32_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB3_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB3_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB3_3:
-	test	r9b, 1
-	je	.LBB3_8
-# %bb.4:
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB3_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB3_7
-.LBB3_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB3_10
-	.p2align	4, 0x90
-.LBB3_15:                               #   in Loop: Header=BB3_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB3_16:                               #   in Loop: Header=BB3_10 Depth=1
-	mov	qword ptr [rsi + 8*r8 + 8], rax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB3_3
-.LBB3_10:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB3_11
-# %bb.12:                               #   in Loop: Header=BB3_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB3_13
-	.p2align	4, 0x90
-.LBB3_11:                               #   in Loop: Header=BB3_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB3_13:                               #   in Loop: Header=BB3_10 Depth=1
-	mov	qword ptr [rsi + 8*r8], rax
-	movsxd	rax, dword ptr [rdi + 4*r8 + 4]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB3_15
-# %bb.14:                               #   in Loop: Header=BB3_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB3_16
-.LBB3_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB3_7:
-	mov	qword ptr [rsi + 8*r8], rax
-.LBB3_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end3:
-	.size	divide_constant_int32_int64_sse4, .Lfunc_end3-divide_constant_int32_int64_sse4
-                                        # -- End function
-	.globl	multiply_constant_int64_int32_sse4 # -- Begin function multiply_constant_int64_int32_sse4
-	.p2align	4, 0x90
-	.type	multiply_constant_int64_int32_sse4,@function
-multiply_constant_int64_int32_sse4:     # @multiply_constant_int64_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB4_6
-# %bb.1:
-	mov	r9d, edx
-	lea	rax, [r9 - 1]
-	mov	r8d, r9d
-	and	r8d, 3
-	cmp	rax, 3
-	jae	.LBB4_7
-# %bb.2:
-	xor	eax, eax
-	jmp	.LBB4_3
-.LBB4_7:
-	and	r9d, -4
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB4_8:                                # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rdi + 8*rax]
-	imul	edx, ecx
-	mov	dword ptr [rsi + 4*rax], edx
-	mov	edx, dword ptr [rdi + 8*rax + 8]
-	imul	edx, ecx
-	mov	dword ptr [rsi + 4*rax + 4], edx
-	mov	edx, dword ptr [rdi + 8*rax + 16]
-	imul	edx, ecx
-	mov	dword ptr [rsi + 4*rax + 8], edx
-	mov	edx, dword ptr [rdi + 8*rax + 24]
-	imul	edx, ecx
-	mov	dword ptr [rsi + 4*rax + 12], edx
-	add	rax, 4
-	cmp	r9, rax
-	jne	.LBB4_8
-.LBB4_3:
-	test	r8, r8
-	je	.LBB4_6
-# %bb.4:
-	lea	rdx, [rsi + 4*rax]
-	lea	rax, [rdi + 8*rax]
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB4_5:                                # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rax + 8*rsi]
-	imul	edi, ecx
-	mov	dword ptr [rdx + 4*rsi], edi
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB4_5
-.LBB4_6:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end4:
-	.size	multiply_constant_int64_int32_sse4, .Lfunc_end4-multiply_constant_int64_int32_sse4
-                                        # -- End function
-	.globl	divide_constant_int64_int32_sse4 # -- Begin function divide_constant_int64_int32_sse4
-	.p2align	4, 0x90
-	.type	divide_constant_int64_int32_sse4,@function
-divide_constant_int64_int32_sse4:       # @divide_constant_int64_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB5_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB5_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB5_3:
-	test	r9b, 1
-	je	.LBB5_8
-# %bb.4:
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB5_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB5_7
-.LBB5_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB5_10
-	.p2align	4, 0x90
-.LBB5_15:                               #   in Loop: Header=BB5_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB5_16:                               #   in Loop: Header=BB5_10 Depth=1
-	mov	dword ptr [rsi + 4*r8 + 4], eax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB5_3
-.LBB5_10:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB5_11
-# %bb.12:                               #   in Loop: Header=BB5_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB5_13
-	.p2align	4, 0x90
-.LBB5_11:                               #   in Loop: Header=BB5_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB5_13:                               #   in Loop: Header=BB5_10 Depth=1
-	mov	dword ptr [rsi + 4*r8], eax
-	mov	rax, qword ptr [rdi + 8*r8 + 8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB5_15
-# %bb.14:                               #   in Loop: Header=BB5_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB5_16
-.LBB5_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB5_7:
-	mov	dword ptr [rsi + 4*r8], eax
-.LBB5_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end5:
-	.size	divide_constant_int64_int32_sse4, .Lfunc_end5-divide_constant_int64_int32_sse4
-                                        # -- End function
-	.globl	multiply_constant_int64_int64_sse4 # -- Begin function multiply_constant_int64_int64_sse4
-	.p2align	4, 0x90
-	.type	multiply_constant_int64_int64_sse4,@function
-multiply_constant_int64_int64_sse4:     # @multiply_constant_int64_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB6_6
-# %bb.1:
-	mov	r9d, edx
-	lea	rax, [r9 - 1]
-	mov	r8d, r9d
-	and	r8d, 3
-	cmp	rax, 3
-	jae	.LBB6_7
-# %bb.2:
-	xor	eax, eax
-	jmp	.LBB6_3
-.LBB6_7:
-	and	r9d, -4
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB6_8:                                # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rdi + 8*rax]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax], rdx
-	mov	rdx, qword ptr [rdi + 8*rax + 8]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax + 8], rdx
-	mov	rdx, qword ptr [rdi + 8*rax + 16]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax + 16], rdx
-	mov	rdx, qword ptr [rdi + 8*rax + 24]
-	imul	rdx, rcx
-	mov	qword ptr [rsi + 8*rax + 24], rdx
-	add	rax, 4
-	cmp	r9, rax
-	jne	.LBB6_8
-.LBB6_3:
-	test	r8, r8
-	je	.LBB6_6
-# %bb.4:
-	lea	rdx, [rsi + 8*rax]
-	lea	rax, [rdi + 8*rax]
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB6_5:                                # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rax + 8*rsi]
-	imul	rdi, rcx
-	mov	qword ptr [rdx + 8*rsi], rdi
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB6_5
-.LBB6_6:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end6:
-	.size	multiply_constant_int64_int64_sse4, .Lfunc_end6-multiply_constant_int64_int64_sse4
-                                        # -- End function
-	.globl	divide_constant_int64_int64_sse4 # -- Begin function divide_constant_int64_int64_sse4
-	.p2align	4, 0x90
-	.type	divide_constant_int64_int64_sse4,@function
-divide_constant_int64_int64_sse4:       # @divide_constant_int64_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	edx, edx
-	jle	.LBB7_8
-# %bb.1:
-	mov	r9d, edx
-	cmp	edx, 1
-	jne	.LBB7_9
-# %bb.2:
-	xor	r8d, r8d
-.LBB7_3:
-	test	r9b, 1
-	je	.LBB7_8
-# %bb.4:
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB7_5
-# %bb.6:
-	cqo
-	idiv	rcx
-	jmp	.LBB7_7
-.LBB7_9:
-	mov	r10d, r9d
-	and	r10d, -2
-	xor	r8d, r8d
-	jmp	.LBB7_10
-	.p2align	4, 0x90
-.LBB7_15:                               #   in Loop: Header=BB7_10 Depth=1
-	cqo
-	idiv	rcx
-.LBB7_16:                               #   in Loop: Header=BB7_10 Depth=1
-	mov	qword ptr [rsi + 8*r8 + 8], rax
-	add	r8, 2
-	cmp	r10, r8
-	je	.LBB7_3
-.LBB7_10:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	je	.LBB7_11
-# %bb.12:                               #   in Loop: Header=BB7_10 Depth=1
-	cqo
-	idiv	rcx
-	jmp	.LBB7_13
-	.p2align	4, 0x90
-.LBB7_11:                               #   in Loop: Header=BB7_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB7_13:                               #   in Loop: Header=BB7_10 Depth=1
-	mov	qword ptr [rsi + 8*r8], rax
-	mov	rax, qword ptr [rdi + 8*r8 + 8]
-	mov	rdx, rax
-	or	rdx, rcx
-	shr	rdx, 32
-	jne	.LBB7_15
-# %bb.14:                               #   in Loop: Header=BB7_10 Depth=1
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-	jmp	.LBB7_16
-.LBB7_5:
-                                        # kill: def $eax killed $eax killed $rax
-	xor	edx, edx
-	div	ecx
-                                        # kill: def $eax killed $eax def $rax
-.LBB7_7:
-	mov	qword ptr [rsi + 8*r8], rax
-.LBB7_8:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end7:
-	.size	divide_constant_int64_int64_sse4, .Lfunc_end7-divide_constant_int64_int64_sse4
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/scalar_comparison.cc b/go/arrow/compute/internal/kernels/_lib/scalar_comparison.cc
deleted file mode 100644
index 09540f367973b..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/scalar_comparison.cc
+++ /dev/null
@@ -1,241 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdint.h>
-#include "types.h"
-
-// pack integers into a bitmap in batches of 8
-template <int batch_size>
-inline void pack_bits(const uint32_t* values, uint8_t* out) {
-    for (int i = 0; i < batch_size / 8; ++i) {
-        *out++ = (values[0] | values[1]<<1 | values[2]<<2 | values[3]<<3 |
-                values[4]<<4 | values[5]<<5 | values[6]<<6 | values[7]<<7);
-        values += 8;
-    }
-}
-
-struct Equal {
-    template <typename T>
-    static constexpr bool Call(const T& left, const T& right) {
-        return left == right;
-    }
-};
-
-struct NotEqual {
-    template <typename T>
-    static constexpr bool Call(const T& left, const T& right) {
-        return left != right;
-    }
-};
-
-struct Greater {
-    template <typename T>
-    static constexpr bool Call(const T& left, const T& right) {
-        return left > right;
-    }
-};
-
-struct GreaterEqual {
-    template <typename T>
-    static constexpr bool Call(const T& left, const T& right) {
-        return left >= right;
-    }
-};
-
-static inline void set_bit_to(uint8_t* bits, int64_t i, bool bit_is_set) {
-    bits[i/8] ^= static_cast<uint8_t>(-static_cast<uint8_t>(bit_is_set) ^ bits[i / 8]) & static_cast<uint8_t>(1 << (i % 8));
-}
-
-template <typename T, typename Op>
-struct compare_primitive_arr_arr {
-    static inline void Exec(const void* left_void, const void* right_void, int64_t length, void* out_void, const int offset) {
-        const T* left = reinterpret_cast<const T*>(left_void);
-        const T* right = reinterpret_cast<const T*>(right_void);
-        uint8_t* out_bitmap = reinterpret_cast<uint8_t*>(out_void);
-        static constexpr int kBatchSize = 32;
-        int64_t num_batches = length / kBatchSize;
-        uint32_t temp_output[kBatchSize];
-
-        if (int prefix = offset % 8) {
-            for (int i = prefix; i < 8; ++i) {
-                set_bit_to(out_bitmap, i, Op::template Call<T>(*left++, *right++));
-            }
-            out_bitmap++;
-        }
-
-        for (int64_t j = 0; j < num_batches; ++j) {
-            for (int i = 0; i < kBatchSize; ++i) {
-                temp_output[i] = Op::template Call<T>(*left++, *right++);
-            }
-            pack_bits<kBatchSize>(temp_output, out_bitmap);
-            out_bitmap += kBatchSize / 8;
-        }
-        int64_t bit_index = 0;
-        for (int64_t j = kBatchSize * num_batches; j < length; ++j) {
-            set_bit_to(out_bitmap, bit_index++, Op::template Call<T>(*left++, *right++));
-        }
-    }
-};
-
-template <typename T, typename Op>
-struct compare_primitive_arr_scalar {
-    static inline void Exec(const void* left_void, const void* right_void, int64_t length, void* out_void, const int offset) {
-        const T* left = reinterpret_cast<const T*>(left_void);
-        const T right = *reinterpret_cast<const T*>(right_void);
-        uint8_t* out_bitmap = reinterpret_cast<uint8_t*>(out_void);
-        static constexpr int kBatchSize = 32;
-        int64_t num_batches = length / kBatchSize;
-        uint32_t temp_output[kBatchSize];
-
-        if (int prefix = offset % 8) {
-            for (int i = prefix; i < 8; ++i) {
-                set_bit_to(out_bitmap, i, Op::template Call<T>(*left++, right));
-            }
-            out_bitmap++;
-        }
-
-        for (int64_t j = 0; j < num_batches; ++j) {
-            for (int i = 0; i < kBatchSize; ++i) {
-                temp_output[i] = Op::template Call<T>(*left++, right);
-            }
-            pack_bits<kBatchSize>(temp_output, out_bitmap);
-            out_bitmap += kBatchSize / 8;
-        }
-        int64_t bit_index = 0;
-        for (int64_t j = kBatchSize * num_batches; j < length; ++j) {
-            set_bit_to(out_bitmap, bit_index++, Op::template Call<T>(*left++, right));
-        }
-    }
-};
-
-template <typename T, typename Op>
-struct compare_primitive_scalar_arr {
-    static inline void Exec(const void* left_void, const void* right_void, int64_t length, void* out_void, const int offset) {
-        const T left = *reinterpret_cast<const T*>(left_void);
-        const T* right = reinterpret_cast<const T*>(right_void);
-        uint8_t* out_bitmap = reinterpret_cast<uint8_t*>(out_void);
-        static constexpr int kBatchSize = 32;
-        int64_t num_batches = length / kBatchSize;
-        uint32_t temp_output[kBatchSize];
-
-        if (int prefix = offset % 8) {
-            for (int i = prefix; i < 8; ++i) {
-                set_bit_to(out_bitmap, i, Op::template Call<T>(left, *right++));
-            }
-            out_bitmap++;
-        }
-
-        for (int64_t j = 0; j < num_batches; ++j) {
-            for (int i = 0; i < kBatchSize; ++i) {
-                temp_output[i] = Op::template Call<T>(left, *right++);
-            }
-            pack_bits<kBatchSize>(temp_output, out_bitmap);
-            out_bitmap += kBatchSize / 8;
-        }
-        int64_t bit_index = 0;
-        for (int64_t j = kBatchSize * num_batches; j < length; ++j) {
-            set_bit_to(out_bitmap, bit_index++, Op::template Call<T>(left, *right++));
-        }
-    }
-};
-
-enum class cmpop : int8_t {
-    EQUAL,
-    NOT_EQUAL,
-    GREATER,
-    GREATER_EQUAL,
-    // LESS and LESS_EQUAL are handled by doing flipped
-    // versions of GREATER and GREATER_EQUAL
-};
-
-template <typename Op, template <typename...> typename Impl>
-static inline void comparison_exec(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    const auto ty = static_cast<arrtype>(type);
-
-    switch (ty) {
-    case arrtype::UINT8:
-        return Impl<uint8_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::INT8:
-        return Impl<int8_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::UINT16:
-        return Impl<uint16_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::INT16:
-        return Impl<int16_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::UINT32:
-        return Impl<uint32_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::INT32:
-        return Impl<int32_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::UINT64:
-        return Impl<uint64_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::INT64:
-        return Impl<int64_t, Op>::Exec(left, right, length, out, offset);
-    case arrtype::FLOAT32:
-        return Impl<float, Op>::Exec(left, right, length, out, offset);
-    case arrtype::FLOAT64:
-        return Impl<double, Op>::Exec(left, right, length, out, offset);
-    default:
-        break;
-    }
-}
-
-extern "C" void FULL_NAME(comparison_equal_arr_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<Equal, compare_primitive_arr_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_equal_arr_scalar)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<Equal, compare_primitive_arr_scalar>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_equal_scalar_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<Equal, compare_primitive_scalar_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_not_equal_arr_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<NotEqual, compare_primitive_arr_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_not_equal_arr_scalar)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<NotEqual, compare_primitive_arr_scalar>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_not_equal_scalar_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<NotEqual, compare_primitive_scalar_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_greater_arr_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<Greater, compare_primitive_arr_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_greater_arr_scalar)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<Greater, compare_primitive_arr_scalar>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_greater_scalar_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<Greater, compare_primitive_scalar_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_greater_equal_arr_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<GreaterEqual, compare_primitive_arr_arr>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_greater_equal_arr_scalar)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<GreaterEqual, compare_primitive_arr_scalar>(type, left, right, out, length, offset);
-}
-
-extern "C" void FULL_NAME(comparison_greater_equal_scalar_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
-    comparison_exec<GreaterEqual, compare_primitive_scalar_arr>(type, left, right, out, length, offset);
-}
diff --git a/go/arrow/compute/internal/kernels/_lib/scalar_comparison_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/scalar_comparison_avx2_amd64.s
deleted file mode 100644
index b29d6694a1641..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/scalar_comparison_avx2_amd64.s
+++ /dev/null
@@ -1,67763 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"scalar_comparison.cc"
-	.globl	comparison_equal_arr_arr_avx2   # -- Begin function comparison_equal_arr_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_equal_arr_arr_avx2,@function
-comparison_equal_arr_arr_avx2:          # @comparison_equal_arr_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB0_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB0_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB0_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB0_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB0_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_20
-# %bb.21:
-	add	r14, 1
-.LBB0_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	sete	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	sete	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	sete	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	sete	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	sete	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	sete	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	sete	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	sete	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	sete	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_28:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_28
-	jmp	.LBB0_123
-.LBB0_29:
-	cmp	edi, 8
-	jle	.LBB0_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB0_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB0_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB0_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_48:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	vucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_48
-# %bb.49:
-	add	r14, 1
-.LBB0_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomisd	xmm1, qword ptr [rdx + 8]
-	sete	al
-	vmovsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	vmovsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	vmovsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	vmovsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	sete	r13b
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	sete	r15b
-	vmovsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	vmovsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	sete	cl
-	vmovsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	vmovsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	sete	r9b
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	sete	r11b
-	vmovsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	vmovsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	sete	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	vmovsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	sete	bl
-	vmovsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	vmovsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	vmovsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	sete	r14b
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	vmovsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	sete	r12b
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	vmovsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	vmovsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	vmovsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	vmovsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	vmovsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	sete	r8b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	vmovsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	vmovsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	vmovsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	vmovsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	vmovsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	vmovsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	vmovsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	add	rsi, 256
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	sete	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB0_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB0_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_56:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_56
-	jmp	.LBB0_123
-.LBB0_2:
-	cmp	edi, 2
-	je	.LBB0_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB0_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_6
-# %bb.7:
-	add	r14, 1
-.LBB0_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	sete	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	sete	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	sete	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	sete	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	sete	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	sete	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	sete	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	sete	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	sete	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	sete	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	sete	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB0_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB0_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_14
-	jmp	.LBB0_123
-.LBB0_30:
-	cmp	edi, 7
-	je	.LBB0_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB0_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_34
-# %bb.35:
-	add	r14, 1
-.LBB0_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	sete	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	sete	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	sete	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	sete	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	sete	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	sete	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	sete	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	sete	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	sete	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_42:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_42
-	jmp	.LBB0_123
-.LBB0_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_70
-# %bb.71:
-	add	r14, 1
-.LBB0_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	sete	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	sete	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	sete	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	sete	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	sete	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	sete	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	sete	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	sete	r12b
-	cmp	ax, word ptr [rdx + 40]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	sete	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_78:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_78
-	jmp	.LBB0_123
-.LBB0_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_81
-# %bb.82:
-	add	r14, 1
-.LBB0_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	sete	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	sete	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	sete	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	sete	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	sete	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	sete	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	sete	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	sete	r12b
-	cmp	ax, word ptr [rdx + 40]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	sete	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_89
-	jmp	.LBB0_123
-.LBB0_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_103
-# %bb.104:
-	add	r14, 1
-.LBB0_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	sete	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	sete	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	sete	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	sete	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	sete	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	sete	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	sete	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	sete	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	sete	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_111
-	jmp	.LBB0_123
-.LBB0_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_114:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	vucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_114
-# %bb.115:
-	add	r14, 1
-.LBB0_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomiss	xmm1, dword ptr [rdx + 4]
-	sete	al
-	vmovss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	vmovss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	vmovss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	vmovss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	sete	r13b
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	sete	r15b
-	vmovss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	vmovss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	sete	cl
-	vmovss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	vmovss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	sete	r9b
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	sete	r11b
-	vmovss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	vmovss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	sete	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	vmovss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	sete	bl
-	vmovss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	vmovss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	vmovss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	sete	r14b
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	vmovss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	sete	r12b
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	vmovss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	vmovss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	vmovss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	vmovss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	vmovss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	sete	r8b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	vmovss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	vmovss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	vmovss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	vmovss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	vmovss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	vmovss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	vmovss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	sub	rsi, -128
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	sete	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB0_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB0_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_122:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_122
-	jmp	.LBB0_123
-.LBB0_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_59
-# %bb.60:
-	add	r14, 1
-.LBB0_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	sete	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	sete	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	sete	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	sete	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	sete	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	sete	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	sete	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	sete	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	sete	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	sete	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	sete	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB0_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB0_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_67:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_67
-	jmp	.LBB0_123
-.LBB0_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_92
-# %bb.93:
-	add	r14, 1
-.LBB0_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	sete	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	sete	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	sete	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	sete	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	sete	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	sete	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	sete	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	sete	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	sete	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_100
-.LBB0_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	comparison_equal_arr_arr_avx2, .Lfunc_end0-comparison_equal_arr_arr_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_equal_arr_scalar_avx2
-.LCPI1_0:
-	.zero	32,1
-.LCPI1_1:
-	.zero	32,4
-.LCPI1_2:
-	.zero	32,8
-.LCPI1_3:
-	.zero	32,16
-.LCPI1_4:
-	.zero	32,32
-.LCPI1_5:
-	.zero	32,64
-.LCPI1_6:
-	.zero	32,128
-	.text
-	.globl	comparison_equal_arr_scalar_avx2
-	.p2align	4, 0x90
-	.type	comparison_equal_arr_scalar_avx2,@function
-comparison_equal_arr_scalar_avx2:       # @comparison_equal_arr_scalar_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1280
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r11, rcx
-	cmp	edi, 6
-	jg	.LBB1_13
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB1_25
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB1_49
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB1_57
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB1_164
-# %bb.5:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_7
-# %bb.8:
-	add	r11, 1
-.LBB1_9:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_101
-# %bb.10:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_11:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	sete	dil
-	cmp	dword ptr [rsi + 8], r13d
-	sete	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	sete	al
-	cmp	dword ptr [rsi + 28], r13d
-	sete	bl
-	cmp	dword ptr [rsi + 32], r13d
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	sete	dl
-	cmp	dword ptr [rsi + 40], r13d
-	sete	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	sete	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	sete	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	sete	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	sete	cl
-	cmp	dword ptr [rsi + 64], r13d
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	sete	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB1_11
-# %bb.12:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_102
-	jmp	.LBB1_164
-.LBB1_13:
-	cmp	edi, 8
-	jle	.LBB1_39
-# %bb.14:
-	cmp	edi, 9
-	je	.LBB1_65
-# %bb.15:
-	cmp	edi, 11
-	je	.LBB1_73
-# %bb.16:
-	cmp	edi, 12
-	jne	.LBB1_164
-# %bb.17:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB1_21
-# %bb.18:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_19:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_19
-# %bb.20:
-	add	r11, 1
-.LBB1_21:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_105
-# %bb.22:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_23:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	sete	r9b
-	vucomisd	xmm0, qword ptr [rsi + 16]
-	sete	r14b
-	vucomisd	xmm0, qword ptr [rsi + 24]
-	sete	r13b
-	vucomisd	xmm0, qword ptr [rsi + 32]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 40]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 48]
-	sete	al
-	vucomisd	xmm0, qword ptr [rsi + 56]
-	sete	bl
-	vucomisd	xmm0, qword ptr [rsi + 64]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 72]
-	sete	dl
-	vucomisd	xmm0, qword ptr [rsi + 80]
-	sete	dil
-	vucomisd	xmm0, qword ptr [rsi + 88]
-	sete	r10b
-	vucomisd	xmm0, qword ptr [rsi + 96]
-	sete	r11b
-	vucomisd	xmm0, qword ptr [rsi + 104]
-	sete	r12b
-	vucomisd	xmm0, qword ptr [rsi + 112]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 120]
-	sete	cl
-	vucomisd	xmm0, qword ptr [rsi + 128]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 136]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 144]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 152]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 160]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 168]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 176]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 184]
-	sete	r15b
-	vucomisd	xmm0, qword ptr [rsi + 192]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 200]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 208]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 224]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 232]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 240]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 248]
-	sete	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB1_23
-# %bb.24:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_106
-	jmp	.LBB1_164
-.LBB1_25:
-	cmp	edi, 2
-	je	.LBB1_81
-# %bb.26:
-	cmp	edi, 3
-	jne	.LBB1_164
-# %bb.27:
-	mov	r14b, byte ptr [rdx]
-	lea	r13, [r10 + 31]
-	test	r10, r10
-	mov	r15, r10
-	cmovns	r13, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_31
-# %bb.28:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_29:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_29
-# %bb.30:
-	add	r11, 1
-.LBB1_31:
-	sar	r13, 5
-	cmp	r15, 32
-	jl	.LBB1_108
-# %bb.32:
-	cmp	r13, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 392], r13      # 8-byte Spill
-	jb	.LBB1_35
-# %bb.33:
-	mov	rax, r13
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r11, rax
-	jae	.LBB1_165
-# %bb.34:
-	lea	rax, [r11 + 4*r13]
-	cmp	rsi, rax
-	jae	.LBB1_165
-.LBB1_35:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-.LBB1_36:
-	sub	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_37:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	sete	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	sete	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	sete	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	sete	al
-	cmp	byte ptr [r12 + 7], r14b
-	sete	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	sete	dl
-	cmp	byte ptr [r12 + 10], r14b
-	sete	sil
-	cmp	byte ptr [r12 + 11], r14b
-	sete	dil
-	cmp	byte ptr [r12 + 12], r14b
-	sete	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	sete	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	sete	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	sete	r14b
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	sete	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	sete	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB1_37
-# %bb.38:
-	mov	r15, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r13, qword ptr [rsp + 392]      # 8-byte Reload
-	jmp	.LBB1_109
-.LBB1_39:
-	cmp	edi, 7
-	je	.LBB1_93
-# %bb.40:
-	cmp	edi, 8
-	jne	.LBB1_164
-# %bb.41:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_45
-# %bb.42:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_43:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_43
-# %bb.44:
-	add	r11, 1
-.LBB1_45:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_112
-# %bb.46:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_47:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	sete	dil
-	cmp	qword ptr [rsi + 16], r13
-	sete	r14b
-	cmp	qword ptr [rsi + 24], r13
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	sete	al
-	cmp	qword ptr [rsi + 56], r13
-	sete	bl
-	cmp	qword ptr [rsi + 64], r13
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	sete	dl
-	cmp	qword ptr [rsi + 80], r13
-	sete	r9b
-	cmp	qword ptr [rsi + 88], r13
-	sete	r10b
-	cmp	qword ptr [rsi + 96], r13
-	sete	r11b
-	cmp	qword ptr [rsi + 104], r13
-	sete	r12b
-	cmp	qword ptr [rsi + 112], r13
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	sete	cl
-	cmp	qword ptr [rsi + 128], r13
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	sete	r15b
-	cmp	qword ptr [rsi + 192], r13
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 256
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB1_47
-# %bb.48:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_113
-	jmp	.LBB1_164
-.LBB1_49:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_53
-# %bb.50:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_51:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_51
-# %bb.52:
-	add	r11, 1
-.LBB1_53:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_116
-# %bb.54:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_55:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	sete	al
-	cmp	word ptr [rsi + 2], r13w
-	sete	dil
-	cmp	word ptr [rsi + 4], r13w
-	sete	r14b
-	cmp	word ptr [rsi + 6], r13w
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 14], r13w
-	sete	bl
-	cmp	word ptr [rsi + 16], r13w
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	sete	dl
-	cmp	word ptr [rsi + 20], r13w
-	sete	r9b
-	cmp	word ptr [rsi + 22], r13w
-	sete	r10b
-	cmp	word ptr [rsi + 24], r13w
-	sete	r11b
-	cmp	word ptr [rsi + 26], r13w
-	sete	r12b
-	cmp	word ptr [rsi + 28], r13w
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	sete	cl
-	cmp	word ptr [rsi + 32], r13w
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	sete	r15b
-	cmp	word ptr [rsi + 48], r13w
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	sete	r8b
-	add	dil, dil
-	or	dil, al
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB1_55
-# %bb.56:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_117
-	jmp	.LBB1_164
-.LBB1_57:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_59:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_59
-# %bb.60:
-	add	r11, 1
-.LBB1_61:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_120
-# %bb.62:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_63:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	sete	dil
-	cmp	word ptr [rsi + 4], r13w
-	sete	r14b
-	cmp	word ptr [rsi + 6], r13w
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	sete	al
-	cmp	word ptr [rsi + 14], r13w
-	sete	bl
-	cmp	word ptr [rsi + 16], r13w
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	sete	dl
-	cmp	word ptr [rsi + 20], r13w
-	sete	r9b
-	cmp	word ptr [rsi + 22], r13w
-	sete	r10b
-	cmp	word ptr [rsi + 24], r13w
-	sete	r11b
-	cmp	word ptr [rsi + 26], r13w
-	sete	r12b
-	cmp	word ptr [rsi + 28], r13w
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	sete	cl
-	cmp	word ptr [rsi + 32], r13w
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	sete	r15b
-	cmp	word ptr [rsi + 48], r13w
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB1_63
-# %bb.64:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_121
-	jmp	.LBB1_164
-.LBB1_65:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_69
-# %bb.66:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_67:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_67
-# %bb.68:
-	add	r11, 1
-.LBB1_69:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_123
-# %bb.70:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_71:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	sete	dil
-	cmp	qword ptr [rsi + 16], r13
-	sete	r14b
-	cmp	qword ptr [rsi + 24], r13
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	sete	al
-	cmp	qword ptr [rsi + 56], r13
-	sete	bl
-	cmp	qword ptr [rsi + 64], r13
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	sete	dl
-	cmp	qword ptr [rsi + 80], r13
-	sete	r9b
-	cmp	qword ptr [rsi + 88], r13
-	sete	r10b
-	cmp	qword ptr [rsi + 96], r13
-	sete	r11b
-	cmp	qword ptr [rsi + 104], r13
-	sete	r12b
-	cmp	qword ptr [rsi + 112], r13
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	sete	cl
-	cmp	qword ptr [rsi + 128], r13
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	sete	r15b
-	cmp	qword ptr [rsi + 192], r13
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB1_71
-# %bb.72:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_124
-	jmp	.LBB1_164
-.LBB1_73:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB1_77
-# %bb.74:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_75:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_75
-# %bb.76:
-	add	r11, 1
-.LBB1_77:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_126
-# %bb.78:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_79:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	sete	r9b
-	vucomiss	xmm0, dword ptr [rsi + 8]
-	sete	r14b
-	vucomiss	xmm0, dword ptr [rsi + 12]
-	sete	r13b
-	vucomiss	xmm0, dword ptr [rsi + 16]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 20]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 24]
-	sete	al
-	vucomiss	xmm0, dword ptr [rsi + 28]
-	sete	bl
-	vucomiss	xmm0, dword ptr [rsi + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 36]
-	sete	dl
-	vucomiss	xmm0, dword ptr [rsi + 40]
-	sete	dil
-	vucomiss	xmm0, dword ptr [rsi + 44]
-	sete	r10b
-	vucomiss	xmm0, dword ptr [rsi + 48]
-	sete	r11b
-	vucomiss	xmm0, dword ptr [rsi + 52]
-	sete	r12b
-	vucomiss	xmm0, dword ptr [rsi + 56]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 60]
-	sete	cl
-	vucomiss	xmm0, dword ptr [rsi + 64]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 68]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 72]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 76]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 80]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 84]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 88]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 92]
-	sete	r15b
-	vucomiss	xmm0, dword ptr [rsi + 96]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 100]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 104]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 112]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 116]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 120]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 124]
-	sete	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB1_79
-# %bb.80:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_127
-	jmp	.LBB1_164
-.LBB1_81:
-	mov	r14b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_85
-# %bb.82:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_83:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_83
-# %bb.84:
-	add	r11, 1
-.LBB1_85:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_129
-# %bb.86:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
-	jb	.LBB1_89
-# %bb.87:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r11, rax
-	jae	.LBB1_168
-# %bb.88:
-	lea	rax, [r11 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB1_168
-.LBB1_89:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-.LBB1_90:
-	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_91:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	sete	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	sete	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	sete	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	sete	al
-	cmp	byte ptr [r12 + 7], r14b
-	sete	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	sete	dl
-	cmp	byte ptr [r12 + 10], r14b
-	sete	sil
-	cmp	byte ptr [r12 + 11], r14b
-	sete	dil
-	cmp	byte ptr [r12 + 12], r14b
-	sete	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	sete	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	sete	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	sete	r14b
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	sete	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	sete	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB1_91
-# %bb.92:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	jmp	.LBB1_130
-.LBB1_93:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_97
-# %bb.94:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_95:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_95
-# %bb.96:
-	add	r11, 1
-.LBB1_97:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_133
-# %bb.98:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_99:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	sete	dil
-	cmp	dword ptr [rsi + 8], r13d
-	sete	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	sete	al
-	cmp	dword ptr [rsi + 28], r13d
-	sete	bl
-	cmp	dword ptr [rsi + 32], r13d
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	sete	dl
-	cmp	dword ptr [rsi + 40], r13d
-	sete	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	sete	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	sete	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	sete	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	sete	cl
-	cmp	dword ptr [rsi + 64], r13d
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	sete	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 128
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB1_99
-# %bb.100:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB1_134
-	jmp	.LBB1_164
-.LBB1_101:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_102:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB1_135
-# %bb.103:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_104:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_104
-	jmp	.LBB1_161
-.LBB1_105:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_106:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_136
-# %bb.107:
-	xor	r11d, r11d
-	jmp	.LBB1_138
-.LBB1_108:
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-	mov	r12, rsi
-.LBB1_109:
-	shl	r13, 5
-	cmp	r13, r15
-	jge	.LBB1_164
-# %bb.110:
-	mov	r8, r15
-	sub	r8, r13
-	not	r13
-	add	r13, r15
-	je	.LBB1_132
-# %bb.140:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB1_141:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	sete	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB1_141
-	jmp	.LBB1_156
-.LBB1_112:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_113:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB1_125
-# %bb.114:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_115:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_115
-	jmp	.LBB1_148
-.LBB1_116:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_117:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB1_122
-# %bb.118:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_119:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_119
-	jmp	.LBB1_144
-.LBB1_120:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_121:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_142
-.LBB1_122:
-	xor	r11d, r11d
-	jmp	.LBB1_144
-.LBB1_123:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_124:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_146
-.LBB1_125:
-	xor	r11d, r11d
-	jmp	.LBB1_148
-.LBB1_126:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_127:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_150
-# %bb.128:
-	xor	r11d, r11d
-	jmp	.LBB1_152
-.LBB1_129:
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-	mov	r12, rsi
-.LBB1_130:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-# %bb.131:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_154
-.LBB1_132:
-	xor	esi, esi
-	jmp	.LBB1_157
-.LBB1_133:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_164
-.LBB1_134:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_159
-.LBB1_135:
-	xor	r11d, r11d
-	jmp	.LBB1_161
-.LBB1_136:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_137:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_137
-.LBB1_138:
-	test	r8b, 1
-	je	.LBB1_164
-# %bb.139:
-	vucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB1_163
-.LBB1_142:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_143:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_143
-.LBB1_144:
-	test	r8b, 1
-	je	.LBB1_164
-# %bb.145:
-	cmp	word ptr [rsi], r13w
-	jmp	.LBB1_163
-.LBB1_146:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_147:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_147
-.LBB1_148:
-	test	r8b, 1
-	je	.LBB1_164
-# %bb.149:
-	cmp	qword ptr [rsi], r13
-	jmp	.LBB1_163
-.LBB1_150:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_151:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	lea	rsi, [rsi + 8]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_151
-.LBB1_152:
-	test	r8b, 1
-	je	.LBB1_164
-# %bb.153:
-	vucomiss	xmm0, dword ptr [rsi]
-	jmp	.LBB1_163
-.LBB1_154:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB1_155:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	sete	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB1_155
-.LBB1_156:
-	add	r12, rsi
-.LBB1_157:
-	test	r8b, 1
-	je	.LBB1_164
-# %bb.158:
-	cmp	byte ptr [r12], r14b
-	sete	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 376]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB1_164
-.LBB1_159:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB1_160:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_160
-.LBB1_161:
-	test	r8b, 1
-	je	.LBB1_164
-# %bb.162:
-	cmp	dword ptr [rsi], r13d
-.LBB1_163:
-	sete	al
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-.LBB1_164:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB1_165:
-	and	r13, -32
-	mov	rax, r13
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r13      # 8-byte Spill
-	lea	rax, [r11 + 4*r13]
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_166:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	mov	rdx, rcx
-	vmovd	xmm0, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rdx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rdx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 576
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 608
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 640
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 672
-	mov	qword ptr [rsp + 200], r11      # 8-byte Spill
-	mov	r8, rbx
-	or	r8, 704
-	mov	qword ptr [rsp + 168], r8       # 8-byte Spill
-	mov	rdx, rbx
-	or	rdx, 736
-	mov	qword ptr [rsp + 192], rdx      # 8-byte Spill
-	mov	r12, rbx
-	or	r12, 768
-	mov	qword ptr [rsp + 216], r12      # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 800
-	mov	qword ptr [rsp + 184], r14      # 8-byte Spill
-	mov	r10, rbx
-	or	r10, 832
-	mov	qword ptr [rsp + 80], r10       # 8-byte Spill
-	mov	r9, rbx
-	or	r9, 864
-	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 896
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	rdi, rbx
-	or	rdi, 928
-	mov	qword ptr [rsp + 112], rdi      # 8-byte Spill
-	mov	rax, rbx
-	mov	qword ptr [rsp + 256], rbx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 56], rcx       # 8-byte Spill
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rbx], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 11
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 1
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 2
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 3
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 4
-	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 5
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 6
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 10
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 14
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 4
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 7
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 8
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 14
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 6
-	mov	r8, r9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 14
-	vinserti128	ymm15, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 1
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 2
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 2], 8
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 10
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 2], 6
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 2], 11
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + rdx + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 4
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 5
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 6
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
-	mov	r14, r15
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 3
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 3], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 3], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	mov	r9, rbx
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 1
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 11
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 14
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rsi + rax + 4], 1
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 4
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 6
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 8
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 10
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 11
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 13
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 15
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + r9 + 5], 1
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 2
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 6
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 7
-	mov	r13, rcx
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 11
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + rax + 5], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
-	mov	r10, rdi
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 7
-	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 5], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 5], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 5], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 5], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + rax + 6], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 2
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 3
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 4
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 5
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 7
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 8
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 9
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 11
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 6], 12
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 13
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 15
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rcx + 6], 1
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 6], 6
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 7
-	mov	r10, r14
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 8
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 13
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 14
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 4
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 7], 9
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 7], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 14
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 15
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 1
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 2
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 3
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 6
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 7], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 7], 8
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 11
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 11]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 11]
-	vmovd	xmm2, edi
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rax + 8], 1
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 8], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 4
-	mov	rbx, r14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 8
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 8], 9
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 8], 11
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 15
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rdx + 8], 1
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 8], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 8], 8
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 9
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 15
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r13 + 9], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r8 + 9], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 11
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rax + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
-	mov	r14, rdi
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 9], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 4
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 7
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 8
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 13
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 15
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 5
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 11
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 13
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 4
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 5
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 7
-	mov	r9, rdx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 11], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 11
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 4
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 5
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 6
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 7
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 8
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 10
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 1
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 3
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 5
-	mov	rbx, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 8
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 9
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 11
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 13
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 12], 14
-	mov	r10, r15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 15
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + r13 + 12], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 10
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 11
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 13
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 14
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 15
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 1
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 4
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 6
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 9
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 12
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 4
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 5
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 13], 7
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 13], 11
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r14 + 14]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 1
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 3
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 14], 4
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 10
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 11
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 15
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 5
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 10
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 13
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
-	movzx	edi, byte ptr [rsi + r13 + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 4
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 7
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 9
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 11
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 13
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
-	movzx	edi, byte ptr [rsi + r14 + 15]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 1
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 4
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 6
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 10
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 14
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 16]
-	vmovd	xmm0, edi
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 16], 1
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 2
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 16], 3
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 5
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 7
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 9
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 16]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 5
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 7
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 12
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 13
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 16], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 17]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 1
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 3
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 4
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 8
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 10
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 11
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 17]
-	vmovd	xmm3, edi
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 1
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 17], 2
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 3
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 6
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 8
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 4
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 5
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 9
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 11
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 18]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 4
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 5
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 7
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 4
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 19], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 19], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 19], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 13
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 15
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r10 + 19]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 1
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 7
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 20]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 1
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 3
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 6
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 7
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 8
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 9
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 11
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 14
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 15
-	movzx	edi, byte ptr [rsi + r10 + 20]
-	vmovd	xmm1, edi
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 2
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 4
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 6
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 7
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 14
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
-	movzx	edi, byte ptr [rsi + r11 + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 4
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 11
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 15
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 21]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 7
-	mov	r13, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 9
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 10
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 12
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 13
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r10 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 4
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 7
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 8
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 9
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 13
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
-	movzx	edi, byte ptr [rsi + r11 + 22]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 2
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 4
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 6
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 22], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 11
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 22], 13
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 23]
-	vmovd	xmm2, edi
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 1
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 3
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 4
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 5
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 10
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 11
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 12
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 23], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 14
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 23]
-	vmovd	xmm3, edi
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 4
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 7
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 14
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 24]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 2
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 3
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 4
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 6
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 8
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 9
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 24], 13
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 15
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 24]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 1
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 4
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 6
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 10
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 14
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 15
-	movzx	edi, byte ptr [rsi + rcx + 25]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 1
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 3
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 7
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 9
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 10
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 11
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 15
-	movzx	edi, byte ptr [rsi + rdx + 25]
-	vmovd	xmm3, edi
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 5
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 7
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 8
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 13
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r11 + 25], 15
-	vinserti128	ymm8, ymm0, xmm2, 1
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 26]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 3
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 5
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 11
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 12
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 13
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 26]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 1
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 2
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 4
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 6
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 7
-	mov	r13, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 12
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 13
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 15
-	movzx	edi, byte ptr [rsi + r11 + 27]
-	vmovd	xmm2, edi
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 1
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 4
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 7
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 8
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 9
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 10
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 27], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 14
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 15
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 27]
-	vmovd	xmm3, edi
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 1
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 27], 2
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 3
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 5
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 6
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 10
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 11
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 27], 13
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 14
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 1
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 3
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 11
-	mov	rbx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 13
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 15
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r12 + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 4
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 6
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 7
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 9
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 10
-	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 14
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 29]
-	vmovd	xmm2, edi
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 4
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 8
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 13
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 15
-	movzx	edi, byte ptr [rsi + r12 + 29]
-	vmovd	xmm3, edi
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 1
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 3
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 29], 8
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 12
-	mov	r14, rdx
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 13
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + r10 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + rdx + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 30]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 30], 1
-	movzx	edi, byte ptr [rsi + r8 + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 31], 1
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 3
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 31], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	eax, byte ptr [rsi + rcx + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 1
-	movzx	eax, byte ptr [rsi + rcx + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 4
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 7
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 8
-	mov	rax, r9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
-	mov	rax, r14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 14
-	mov	rax, rdx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm0, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI1_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpand	ymm7, ymm2, ymm1
-	vpsubb	ymm11, ymm7, ymm2
-	vpcmpeqb	ymm7, ymm15, ymm0
-	vpand	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI1_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm12, ymm12, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm7, ymm7, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI1_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI1_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm13
-	vmovdqa	ymm14, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI1_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm7, ymm7, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm15, ymmword ptr [rip + .LCPI1_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm13, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpand	ymm12, ymm7, ymm1
-	vpsubb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm6
-	vpor	ymm11, ymm12, ymm11
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm11, ymm11, ymm12
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm14
-	vmovdqa	ymm3, ymm14
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm12, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpand	ymm11, ymm7, ymm1
-	vpsubb	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm1
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm6
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm11, ymm11, ymm14
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm3
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm10, ymm10, ymm0
-	vmovdqa	ymm14, ymm5
-	vpand	ymm10, ymm10, ymm5
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpsllw	ymm11, ymm11, 7
-	vpand	ymm11, ymm11, ymm15
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm8, ymm8, ymm0
-	vpand	ymm10, ymm8, ymm1
-	vpsubb	ymm8, ymm10, ymm8
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpand	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vpor	ymm5, ymm8, ymm5
-	vpcmpeqb	ymm6, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpand	ymm6, ymm6, ymm2
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm6, ymm3
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI1_4]
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm1, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpand	ymm1, ymm14, ymm1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB1_166
-# %bb.167:
-	mov	r13, qword ptr [rsp + 392]      # 8-byte Reload
-	cmp	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r15, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
-	jne	.LBB1_36
-	jmp	.LBB1_109
-.LBB1_168:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_169:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rcx + 2]
-	mov	rdx, rcx
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 248], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	or	rbx, 576
-	mov	qword ptr [rsp + 256], rbx      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 608
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	r12, rcx
-	or	r12, 640
-	mov	qword ptr [rsp + 208], r12      # 8-byte Spill
-	mov	r14, rcx
-	or	r14, 672
-	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 704
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	rdi, rcx
-	or	rdi, 736
-	mov	r9, rcx
-	or	r9, 768
-	mov	qword ptr [rsp + 224], r9       # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 800
-	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 832
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 864
-	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 896
-	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
-	mov	rdx, rcx
-	or	rdx, 928
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 264], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rbx], 2
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 5
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 7
-	mov	r13, rdi
-	mov	qword ptr [rsp + 160], rdi      # 8-byte Spill
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 1
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 2
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 3
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 4
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 5
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 6
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 10
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 14
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 4
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 7
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 8
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 9
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 12
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 14
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 14
-	vinserti128	ymm15, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 1
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 2
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 6
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 8
-	mov	r12, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 10
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 6
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + r8 + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 7
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 14
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 3], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 5
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 8
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 3], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 1
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 5
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 15
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rsi + rax + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 2
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 5
-	mov	rdi, r14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 6
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 7
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 9
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 10
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 13
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 15
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + r8 + 5], 1
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 2
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 5], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 9
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 5], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 12
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 15
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + r12 + 5], 1
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 5], 8
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 5], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 5], 15
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm4, edi
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + r11 + 6], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 3
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 6
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 9
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 15
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + r12 + 6], 1
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 6
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 7
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 6], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 9
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 11
-	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 6], 12
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 14
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 3
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 5
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 13
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 15
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 1
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 3
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 7], 6
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 8
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 9
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 7], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 11]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 11]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rcx + 8], 1
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 8], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 5
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 6
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 7
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 8
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 8], 9
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 11
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 8], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 15
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rax + 8], 1
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 5
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 10
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 15
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r13 + 9], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r8 + 9], 2
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 4
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 11
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 12
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 14
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r13 + 9], 15
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rcx + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 9], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 6
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 9], 7
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 8
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 9
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 3
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 4
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 5
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 6
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 10], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 12
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 13
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 15
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 1
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 2
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 5
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 10
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 14
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 3
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 11], 5
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 7
-	mov	r12, r9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 11], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 9
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 11], 13
-	mov	r13, r10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 14
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 15
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 11], 1
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 4
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 6
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 11], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 10
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 11], 14
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 1
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 2
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 4
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 12], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 12], 7
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 12], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 13
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 15
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + rdx + 12], 1
-	mov	rdi, r14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 12], 2
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 12], 3
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 4
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 12], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 12], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 8
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 9
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 10
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 12
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 12], 13
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 12], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 15
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 1
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 3
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 5
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 6
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 8
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 9
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 12
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 13], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 15
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 13], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 13], 5
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 6
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 10
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 13], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 1
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 3
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 4
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 14], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 7
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 14], 9
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 14], 13
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 14
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 15
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 1
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 2
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 6
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 8
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 9
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 10
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
-	movzx	edi, byte ptr [rsi + r13 + 15]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 15], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 6
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 7
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 9
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 13
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 15]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 1
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 4
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 10
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 13
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 14
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r10 + 16]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 1
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 3
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 5
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 12
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 15
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rbx + 16]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 1
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 2
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 3
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 5
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 6
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 7
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 8
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 12
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 16], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 15
-	movzx	edi, byte ptr [rsi + r10 + 17]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 1
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 2
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 5
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 7
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 11
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 17], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 15
-	movzx	edi, byte ptr [rsi + rbx + 17]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 1
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 2
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 17], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 4
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 6
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 8
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 9
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 10
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 17], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rdi + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 18]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 3
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 4
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 6
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 9
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 15
-	movzx	edi, byte ptr [rsi + rbx + 18]
-	vmovd	xmm1, edi
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 3
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 4
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 6
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 18], 7
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 10
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 15
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 4
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 5
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 19], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 12
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 13
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 14
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 19], 15
-	movzx	edi, byte ptr [rsi + rbx + 19]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 19], 1
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 2
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 5
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 19], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 9
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 19], 10
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 11
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 19], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 14
-	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r15 + 20]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 3
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 4
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 20], 5
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 20], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 20]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 20], 1
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 20], 4
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 6
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 7
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 8
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 20], 10
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 20], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 12
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 13
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 15
-	movzx	edi, byte ptr [rsi + r15 + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 1
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 21], 5
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 6
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 7
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 8
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 21], 9
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 10
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 12
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 21], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 15
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 21]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 2
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 4
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 5
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 6
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 21], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 3
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 4
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 22], 9
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 22], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 15
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rbx + 22]
-	vmovd	xmm1, edi
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 1
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 2
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 3
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 4
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 7
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 8
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 10
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 22], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 12
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 13
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 14
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 15
-	movzx	edi, byte ptr [rsi + rax + 23]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 1
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 2
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 3
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 5
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 7
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 12
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 14
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 15
-	movzx	edi, byte ptr [rsi + rbx + 23]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 3
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 4
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 6
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 7
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 9
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 11
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 12
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 14
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 24]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 1
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 24], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 5
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 6
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 24]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 1
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 5
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 8
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 10
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 24], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 15
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 25]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 3
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 5
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 7
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 25], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 9
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 12
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 13
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 14
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 15
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 25]
-	vmovd	xmm3, edi
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 1
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 2
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 4
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 6
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 9
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 12
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rdi + 25], 15
-	vinserti128	ymm8, ymm0, xmm2, 1
-	movzx	edi, byte ptr [rsi + r8 + 26]
-	vmovd	xmm0, edi
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 1
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 11
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 13
-	mov	rcx, r14
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 15
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r12 + 26]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 1
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 26], 2
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 4
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 7
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 10
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 26], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 14
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 15
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 27]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 1
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 2
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 3
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 4
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 5
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 7
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 9
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 15
-	movzx	edi, byte ptr [rsi + r12 + 27]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 4
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 5
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 6
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 8
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 9
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 27], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 27], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 28]
-	vmovd	xmm0, edi
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 3
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 6
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 8
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 10
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 12
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 2
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 4
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 6
-	mov	r14, r15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 8
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 28], 10
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 28], 11
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 15
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 29]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 1
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 3
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 4
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 7
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 9
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 15
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 29]
-	vmovd	xmm3, edi
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 3
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 5
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 7
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 13
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + r15 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + rax + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 30]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 1
-	movzx	edi, byte ptr [rsi + rax + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 1
-	mov	rax, r11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 31], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 31], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 31], 12
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	mov	rdx, r8
-	movzx	eax, byte ptr [rsi + r8 + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 1
-	movzx	eax, byte ptr [rsi + r8 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 1
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 31], 4
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, r12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm0, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI1_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpand	ymm7, ymm2, ymm1
-	vpsubb	ymm11, ymm7, ymm2
-	vpcmpeqb	ymm7, ymm15, ymm0
-	vpand	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI1_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm12, ymm12, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm7, ymm7, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI1_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI1_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm13
-	vmovdqa	ymm14, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI1_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm7, ymm7, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm15, ymmword ptr [rip + .LCPI1_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm13, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpand	ymm12, ymm7, ymm1
-	vpsubb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm6
-	vpor	ymm11, ymm12, ymm11
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm11, ymm11, ymm12
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm14
-	vmovdqa	ymm3, ymm14
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm12, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpand	ymm11, ymm7, ymm1
-	vpsubb	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm1
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm6
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm11, ymm11, ymm14
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm3
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm10, ymm10, ymm0
-	vmovdqa	ymm14, ymm5
-	vpand	ymm10, ymm10, ymm5
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpsllw	ymm11, ymm11, 7
-	vpand	ymm11, ymm11, ymm15
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm8, ymm8, ymm0
-	vpand	ymm10, ymm8, ymm1
-	vpsubb	ymm8, ymm10, ymm8
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpand	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vpor	ymm5, ymm8, ymm5
-	vpcmpeqb	ymm6, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpand	ymm6, ymm6, ymm2
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm6, ymm3
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI1_4]
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm1, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpand	ymm1, ymm14, ymm1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB1_169
-# %bb.170:
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
-	jne	.LBB1_90
-	jmp	.LBB1_130
-.Lfunc_end1:
-	.size	comparison_equal_arr_scalar_avx2, .Lfunc_end1-comparison_equal_arr_scalar_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_equal_scalar_arr_avx2
-.LCPI2_0:
-	.zero	32,1
-.LCPI2_1:
-	.zero	32,4
-.LCPI2_2:
-	.zero	32,8
-.LCPI2_3:
-	.zero	32,16
-.LCPI2_4:
-	.zero	32,32
-.LCPI2_5:
-	.zero	32,64
-.LCPI2_6:
-	.zero	32,128
-	.text
-	.globl	comparison_equal_scalar_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_equal_scalar_arr_avx2,@function
-comparison_equal_scalar_arr_avx2:       # @comparison_equal_scalar_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1280
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r11, rcx
-	cmp	edi, 6
-	jg	.LBB2_17
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB2_32
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB2_60
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB2_72
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB2_157
-# %bb.5:
-	mov	r13d, dword ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r9, r11
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_7
-# %bb.8:
-	add	r11, 1
-.LBB2_9:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_13
-# %bb.10:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_11:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	r13d, dword ptr [rdx]
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	sete	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	sete	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	sete	al
-	cmp	r13d, dword ptr [rdx + 28]
-	sete	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	sete	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	sete	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	sete	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	sete	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	sete	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	sete	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	sete	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 128
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB2_11
-# %bb.12:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB2_13:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.14:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	je	.LBB2_127
-# %bb.15:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_16:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_16
-	jmp	.LBB2_154
-.LBB2_17:
-	cmp	edi, 8
-	jle	.LBB2_46
-# %bb.18:
-	cmp	edi, 9
-	je	.LBB2_83
-# %bb.19:
-	cmp	edi, 11
-	je	.LBB2_94
-# %bb.20:
-	cmp	edi, 12
-	jne	.LBB2_157
-# %bb.21:
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB2_25
-# %bb.22:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_23:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r15, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_23
-# %bb.24:
-	add	r11, 1
-.LBB2_25:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_29
-# %bb.26:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_27:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	vucomisd	xmm0, qword ptr [rdx]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	sete	r8b
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	sete	r14b
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	sete	r13b
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	sete	al
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	sete	r11b
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	sete	sil
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	sete	dil
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	sete	r9b
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	sete	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	sete	r12b
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	sete	cl
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	sete	r15b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	sete	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	dil, 2
-	or	dil, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r13b
-	mov	r8d, eax
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 256
-	add	r14, 4
-	mov	r11, r14
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB2_27
-# %bb.28:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-.LBB2_29:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.30:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_136
-# %bb.31:
-	xor	edi, edi
-	jmp	.LBB2_138
-.LBB2_32:
-	cmp	edi, 2
-	je	.LBB2_105
-# %bb.33:
-	cmp	edi, 3
-	jne	.LBB2_157
-# %bb.34:
-	mov	r14b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_38
-# %bb.35:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_36:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r12, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_36
-# %bb.37:
-	add	r11, 1
-.LBB2_38:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB2_128
-# %bb.39:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
-	jb	.LBB2_42
-# %bb.40:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r11, rax
-	jae	.LBB2_165
-# %bb.41:
-	lea	rax, [r11 + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB2_165
-.LBB2_42:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rdx
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-.LBB2_43:
-	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_44:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	r14b, byte ptr [r12]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 1]
-	sete	r10b
-	cmp	r14b, byte ptr [r12 + 2]
-	sete	bl
-	cmp	r14b, byte ptr [r12 + 3]
-	sete	r13b
-	cmp	r14b, byte ptr [r12 + 4]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 5]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 6]
-	sete	al
-	cmp	r14b, byte ptr [r12 + 7]
-	sete	r12b
-	cmp	r14b, byte ptr [rcx + 8]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 9]
-	sete	sil
-	cmp	r14b, byte ptr [rcx + 10]
-	sete	dil
-	cmp	r14b, byte ptr [rcx + 11]
-	sete	r9b
-	cmp	r14b, byte ptr [rcx + 12]
-	sete	r11b
-	cmp	r14b, byte ptr [rcx + 13]
-	sete	r15b
-	cmp	r14b, byte ptr [rcx + 14]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 15]
-	sete	r8b
-	cmp	r14b, byte ptr [rcx + 16]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 17]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 18]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 19]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 20]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 21]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 22]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 23]
-	sete	r14b
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 24]
-	sete	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 25]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 26]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 27]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 28]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 29]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 30]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 31]
-	sete	dl
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 320]      # 1-byte Folded Reload
-	shl	al, 6
-	shl	r12b, 7
-	or	r12b, al
-	shl	bl, 2
-	or	bl, r10b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, bl
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r11b, 4
-	or	r11b, r9b
-	shl	r15b, 5
-	or	r15b, r11b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r12b, bl
-	or	r8b, r15b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, al
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
-	mov	byte ptr [rsi], r12b
-	movzx	edi, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r8b
-	or	r14b, bl
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], dl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB2_44
-# %bb.45:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	jmp	.LBB2_129
-.LBB2_46:
-	cmp	edi, 7
-	je	.LBB2_117
-# %bb.47:
-	cmp	edi, 8
-	jne	.LBB2_157
-# %bb.48:
-	mov	r13, qword ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_52
-# %bb.49:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_50:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r9, r11
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_50
-# %bb.51:
-	add	r11, 1
-.LBB2_52:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_56
-# %bb.53:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_54:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	r13, qword ptr [rdx]
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	sete	dil
-	cmp	r13, qword ptr [rdx + 16]
-	sete	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	sete	al
-	cmp	r13, qword ptr [rdx + 56]
-	sete	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	sete	sil
-	cmp	r13, qword ptr [rdx + 80]
-	sete	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	sete	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	sete	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	sete	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	sete	cl
-	cmp	r13, qword ptr [rdx + 128]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	sete	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 256
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB2_54
-# %bb.55:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB2_56:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.57:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	je	.LBB2_93
-# %bb.58:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_59:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_59
-	jmp	.LBB2_146
-.LBB2_60:
-	movzx	r13d, word ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_64
-# %bb.61:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_62:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r9, r11
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_62
-# %bb.63:
-	add	r11, 1
-.LBB2_64:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_68
-# %bb.65:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_66:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	r13w, word ptr [rdx]
-	sete	al
-	cmp	r13w, word ptr [rdx + 2]
-	sete	dil
-	cmp	r13w, word ptr [rdx + 4]
-	sete	r14b
-	cmp	r13w, word ptr [rdx + 6]
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 8]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 10]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 12]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 14]
-	sete	r11b
-	cmp	r13w, word ptr [rdx + 16]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 18]
-	sete	sil
-	cmp	r13w, word ptr [rdx + 20]
-	sete	r8b
-	cmp	r13w, word ptr [rdx + 22]
-	sete	r9b
-	cmp	r13w, word ptr [rdx + 24]
-	sete	r10b
-	cmp	r13w, word ptr [rdx + 26]
-	sete	r12b
-	cmp	r13w, word ptr [rdx + 28]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 30]
-	sete	cl
-	cmp	r13w, word ptr [rdx + 32]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 34]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 36]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 38]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 40]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 42]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 44]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 46]
-	sete	r15b
-	cmp	r13w, word ptr [rdx + 48]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 50]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 52]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 54]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 56]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 58]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 60]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 62]
-	sete	bl
-	add	dil, dil
-	or	dil, al
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 64
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB2_66
-# %bb.67:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB2_68:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.69:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	je	.LBB2_82
-# %bb.70:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_71:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_71
-	jmp	.LBB2_142
-.LBB2_72:
-	movzx	r13d, word ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_76
-# %bb.73:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_74:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r9, r11
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_74
-# %bb.75:
-	add	r11, 1
-.LBB2_76:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_80
-# %bb.77:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_78:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	r13w, word ptr [rdx]
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 2]
-	sete	dil
-	cmp	r13w, word ptr [rdx + 4]
-	sete	r14b
-	cmp	r13w, word ptr [rdx + 6]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 8]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 10]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 12]
-	sete	al
-	cmp	r13w, word ptr [rdx + 14]
-	sete	r11b
-	cmp	r13w, word ptr [rdx + 16]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 18]
-	sete	sil
-	cmp	r13w, word ptr [rdx + 20]
-	sete	r8b
-	cmp	r13w, word ptr [rdx + 22]
-	sete	r9b
-	cmp	r13w, word ptr [rdx + 24]
-	sete	r10b
-	cmp	r13w, word ptr [rdx + 26]
-	sete	r12b
-	cmp	r13w, word ptr [rdx + 28]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 30]
-	sete	cl
-	cmp	r13w, word ptr [rdx + 32]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 34]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 36]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 38]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 40]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 42]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 44]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 46]
-	sete	r15b
-	cmp	r13w, word ptr [rdx + 48]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 50]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 52]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 54]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 56]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 58]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 60]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 62]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 64
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB2_78
-# %bb.79:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB2_80:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.81:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_140
-.LBB2_82:
-	xor	edi, edi
-	jmp	.LBB2_142
-.LBB2_83:
-	mov	r13, qword ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_87
-# %bb.84:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_85:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r9, r11
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_85
-# %bb.86:
-	add	r11, 1
-.LBB2_87:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_91
-# %bb.88:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_89:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	r13, qword ptr [rdx]
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	sete	dil
-	cmp	r13, qword ptr [rdx + 16]
-	sete	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	sete	al
-	cmp	r13, qword ptr [rdx + 56]
-	sete	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	sete	sil
-	cmp	r13, qword ptr [rdx + 80]
-	sete	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	sete	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	sete	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	sete	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	sete	cl
-	cmp	r13, qword ptr [rdx + 128]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	sete	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 256
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB2_89
-# %bb.90:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB2_91:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.92:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_144
-.LBB2_93:
-	xor	edi, edi
-	jmp	.LBB2_146
-.LBB2_94:
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB2_98
-# %bb.95:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_96:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r15, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_96
-# %bb.97:
-	add	r11, 1
-.LBB2_98:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_102
-# %bb.99:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_100:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	vucomiss	xmm0, dword ptr [rdx]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	sete	r8b
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	sete	r11b
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	sete	r13b
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	sete	al
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	sete	r14b
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	sete	sil
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	sete	dil
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	sete	r9b
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	sete	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	sete	r12b
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	sete	cl
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	sete	r15b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	sete	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r14b, 7
-	or	r14b, al
-	shl	r11b, 2
-	or	r11b, r8b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	dil, 2
-	or	dil, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r13b
-	mov	r8d, eax
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r14b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r11], r14b
-	movzx	esi, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 128
-	add	r11, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB2_100
-# %bb.101:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-.LBB2_102:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.103:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_148
-# %bb.104:
-	xor	edi, edi
-	jmp	.LBB2_150
-.LBB2_105:
-	mov	r14b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_109
-# %bb.106:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_107:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r12, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_107
-# %bb.108:
-	add	r11, 1
-.LBB2_109:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB2_132
-# %bb.110:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
-	jb	.LBB2_113
-# %bb.111:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r11, rax
-	jae	.LBB2_168
-# %bb.112:
-	lea	rax, [r11 + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB2_168
-.LBB2_113:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rdx
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-.LBB2_114:
-	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_115:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	r14b, byte ptr [r12]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 1]
-	sete	r10b
-	cmp	r14b, byte ptr [r12 + 2]
-	sete	bl
-	cmp	r14b, byte ptr [r12 + 3]
-	sete	r13b
-	cmp	r14b, byte ptr [r12 + 4]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 5]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 6]
-	sete	al
-	cmp	r14b, byte ptr [r12 + 7]
-	sete	r12b
-	cmp	r14b, byte ptr [rcx + 8]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 9]
-	sete	sil
-	cmp	r14b, byte ptr [rcx + 10]
-	sete	dil
-	cmp	r14b, byte ptr [rcx + 11]
-	sete	r9b
-	cmp	r14b, byte ptr [rcx + 12]
-	sete	r11b
-	cmp	r14b, byte ptr [rcx + 13]
-	sete	r15b
-	cmp	r14b, byte ptr [rcx + 14]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 15]
-	sete	r8b
-	cmp	r14b, byte ptr [rcx + 16]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 17]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 18]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 19]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 20]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 21]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 22]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 23]
-	sete	r14b
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 24]
-	sete	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 25]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 26]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 27]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 28]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 29]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 30]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 31]
-	sete	dl
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 320]      # 1-byte Folded Reload
-	shl	al, 6
-	shl	r12b, 7
-	or	r12b, al
-	shl	bl, 2
-	or	bl, r10b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, bl
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r11b, 4
-	or	r11b, r9b
-	shl	r15b, 5
-	or	r15b, r11b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r12b, bl
-	or	r8b, r15b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, al
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
-	mov	byte ptr [rsi], r12b
-	movzx	edi, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r8b
-	or	r14b, bl
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], dl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB2_115
-# %bb.116:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	jmp	.LBB2_133
-.LBB2_117:
-	mov	r13d, dword ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_121
-# %bb.118:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB2_119:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	mov	r9, r11
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_119
-# %bb.120:
-	add	r11, 1
-.LBB2_121:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_125
-# %bb.122:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_123:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	r13d, dword ptr [rdx]
-	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	sete	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	sete	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	sete	al
-	cmp	r13d, dword ptr [rdx + 28]
-	sete	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	sete	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	sete	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	sete	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	sete	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	sete	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	sete	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	sete	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 128
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB2_123
-# %bb.124:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB2_125:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_157
-# %bb.126:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_152
-.LBB2_127:
-	xor	edi, edi
-	jmp	.LBB2_154
-.LBB2_128:
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-	mov	r12, rdx
-.LBB2_129:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB2_157
-# %bb.130:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB2_135
-# %bb.158:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_159:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [r12 + rsi]
-	sete	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r14b, byte ptr [r12 + rsi + 1]
-	lea	rsi, [rsi + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB2_159
-	jmp	.LBB2_162
-.LBB2_132:
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-	mov	r12, rdx
-.LBB2_133:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB2_157
-# %bb.134:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB2_160
-.LBB2_135:
-	xor	esi, esi
-	jmp	.LBB2_163
-.LBB2_136:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_137:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	al, r9b
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_137
-.LBB2_138:
-	test	r8b, 1
-	je	.LBB2_157
-# %bb.139:
-	vucomisd	xmm0, qword ptr [rdx]
-	jmp	.LBB2_156
-.LBB2_140:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_141:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_141
-.LBB2_142:
-	test	r8b, 1
-	je	.LBB2_157
-# %bb.143:
-	cmp	r13w, word ptr [rdx]
-	jmp	.LBB2_156
-.LBB2_144:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_145:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_145
-.LBB2_146:
-	test	r8b, 1
-	je	.LBB2_157
-# %bb.147:
-	cmp	r13, qword ptr [rdx]
-	jmp	.LBB2_156
-.LBB2_148:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_149:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	al, r9b
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_149
-.LBB2_150:
-	test	r8b, 1
-	je	.LBB2_157
-# %bb.151:
-	vucomiss	xmm0, dword ptr [rdx]
-	jmp	.LBB2_156
-.LBB2_152:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB2_153:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	mov	r14, r11
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_153
-.LBB2_154:
-	test	r8b, 1
-	je	.LBB2_157
-# %bb.155:
-	cmp	r13d, dword ptr [rdx]
-.LBB2_156:
-	sete	al
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	sil, byte ptr [r11 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r11 + rdx], bl
-.LBB2_157:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB2_160:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_161:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [r12 + rsi]
-	sete	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r14b, byte ptr [r12 + rsi + 1]
-	lea	rsi, [rsi + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB2_161
-.LBB2_162:
-	add	r12, rsi
-.LBB2_163:
-	test	r8b, 1
-	je	.LBB2_157
-# %bb.164:
-	cmp	r14b, byte ptr [r12]
-	sete	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 376]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB2_157
-.LBB2_165:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_166:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rcx + 2]
-	mov	rdi, rcx
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rdi + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rdx + rdi + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rdx + rdi + 6]
-	mov	qword ptr [rsp + 256], rdi      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rdi + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	or	rbx, 576
-	mov	qword ptr [rsp + 168], rbx      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 608
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	r12, rcx
-	or	r12, 640
-	mov	qword ptr [rsp + 240], r12      # 8-byte Spill
-	mov	r14, rcx
-	or	r14, 672
-	mov	qword ptr [rsp + 248], r14      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 704
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 736
-	mov	rdi, rax
-	mov	r9, rcx
-	or	r9, 768
-	mov	qword ptr [rsp + 192], r9       # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 800
-	mov	qword ptr [rsp + 184], r15      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 832
-	mov	qword ptr [rsp + 224], r11      # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 864
-	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 896
-	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
-	mov	rsi, rcx
-	or	rsi, 928
-	mov	qword ptr [rsp + 208], rsi      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 264], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm9, xmm0, byte ptr [rdx + r13], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rbx], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14], 5
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 7
-	mov	r13, rdi
-	mov	qword ptr [rsp + 200], rdi      # 8-byte Spill
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 15
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 1
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 2
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 3
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 5
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 6
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 10
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 11
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 1
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 5
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 7
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 8
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 9
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 12
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm15, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 1], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, esi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, esi
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 2], 2
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 2], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 8
-	mov	r12, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 9
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 10
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rdx + r8 + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 3
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 4
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 13
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 14
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rdx + rax + 3], 1
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 3], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 4
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 5
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 3], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 9]
-	vmovd	xmm8, esi
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 9]
-	vmovd	xmm11, esi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 3
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 4], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rdx + rax + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 2
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 5
-	mov	rsi, r14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 6
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 7
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 10
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 13
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 4], 15
-	vpinsrb	xmm4, xmm14, byte ptr [rdx + r8 + 5], 1
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 12
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 15
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rdx + rdi + 5], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 8
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + r12 + 5], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm3, esi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, esi
-	mov	r14, r8
-	vpinsrb	xmm0, xmm12, byte ptr [rdx + r8 + 6], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 3
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 6], 4
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 6], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 6], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rcx + 6], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 5
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 10
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 11
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 12
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 14
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 2
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 7], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 7
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 13
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 7], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm1, esi
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx + 8], 1
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 8], 3
-	mov	r13, r11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 8], 4
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 8], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 6
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 8], 8
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 9
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + rax + 8], 1
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 2
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 5
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 11
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 14
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 15
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + r12 + 9], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 9], 12
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 14
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 9], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rdx + rcx + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 4
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 6
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 7
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm0, esi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, esi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 2
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 6
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 7
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 10], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 12
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 13
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 3
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 10
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 13
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 14
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 3
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 5
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 8
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 9
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 10
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 14
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 15
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 5
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 6
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 11], 7
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 13]
-	vmovd	xmm3, esi
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 13]
-	vmovd	xmm1, esi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 4
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 12], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 12], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 13
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 15
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + rdi + 12], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 7
-	mov	rax, r12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 8
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 12], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 10
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 13
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 14
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 15
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 1
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 3
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 5
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 6
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 7
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 8
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 9
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 12
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 13], 14
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 5
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 13], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 13], 15
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r13 + 14]
-	vmovd	xmm1, esi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 14]
-	vmovd	xmm0, esi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 2
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 3
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 5
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 15
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 14], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 6
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 14], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 8
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 9
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 12
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 14], 13
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 15
-	movzx	esi, byte ptr [rdx + r13 + 15]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 15], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 15], 6
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 7
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 15], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 9
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 15]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 7
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 10
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 13
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 14
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 16]
-	vmovd	xmm0, esi
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 4
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 5
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 16], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 12
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 15
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rbx + 16]
-	vmovd	xmm1, esi
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 16], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 17]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 17], 1
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 2
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 4
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 17], 5
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 17], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 7
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 8
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 17], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 11
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 12
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 15
-	movzx	esi, byte ptr [rdx + rbx + 17]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 2
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 9
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rsi + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 18]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 6
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 18], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 18], 9
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 18], 12
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 15
-	movzx	esi, byte ptr [rdx + rbx + 18]
-	vmovd	xmm1, esi
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 6
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 13
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 14
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 15
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 19]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 4
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 5
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 6
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 7
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 19], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 19], 14
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 19], 15
-	movzx	esi, byte ptr [rdx + rbx + 19]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 2
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 19], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 5
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 13
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	movzx	esi, byte ptr [rdx + r15 + 20]
-	vmovd	xmm0, esi
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 1
-	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 20], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 3
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 20], 4
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 20], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 20], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 20]
-	vmovd	xmm1, esi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 10
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 20], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 12
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 20], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 15
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 21]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 5
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 6
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 7
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 8
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 10
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 21], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 12
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 21], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 15
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 21]
-	vmovd	xmm3, esi
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 6
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 21], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 21], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 21], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r8 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 22]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 4
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 22], 9
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 22], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 22], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 14
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 15
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r10 + 22]
-	vmovd	xmm1, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 4
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 10
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 22], 11
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 15
-	movzx	esi, byte ptr [rdx + rax + 23]
-	vmovd	xmm2, esi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 2
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 23], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 12
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 14
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 15
-	movzx	esi, byte ptr [rdx + r10 + 23]
-	vmovd	xmm3, esi
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 3
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 5
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 23], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 8
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 9
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 12
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r9 + 24]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 24], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 9
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 12
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 15
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 24]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 7
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 10
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 13
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 15
-	movzx	esi, byte ptr [rdx + r9 + 25]
-	vmovd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 2
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 3
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 4
-	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 25], 5
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 9
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 25], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 25], 11
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 25], 12
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 25]
-	vmovd	xmm3, esi
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 12
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r8 + 25], 15
-	vinserti128	ymm8, ymm0, xmm2, 1
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 26]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 2
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 6
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 15
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rbx + 26]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 2
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 26], 3
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 4
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 26], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 27]
-	vmovd	xmm2, esi
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 3
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 27], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 27], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 8
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 9
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 15
-	movzx	esi, byte ptr [rdx + rbx + 27]
-	vmovd	xmm3, esi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 5
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 12
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r13 + 28]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 2
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 4
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 28], 5
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 6
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 7
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 28], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 11
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 12
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 14
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 15
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 28]
-	vmovd	xmm1, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 2
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 12
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 13
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 15
-	movzx	esi, byte ptr [rdx + r13 + 29]
-	vmovd	xmm2, esi
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 3
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 5
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 9
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 15
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r8 + 29]
-	vmovd	xmm3, esi
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 29], 1
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 3
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 13
-	vpinsrb	xmm4, xmm3, byte ptr [rdx + r12 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rdx + r12 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 30]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 30], 1
-	movzx	esi, byte ptr [rdx + rdi + 31]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 31], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 31], 6
-	mov	rdi, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 31], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
-	mov	rax, rbx
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 31], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
-	mov	rsi, r8
-	movzx	eax, byte ptr [rdx + r8 + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 30], 1
-	movzx	eax, byte ptr [rdx + r8 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 31], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 31], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
-	mov	rax, r12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm0, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI2_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpand	ymm7, ymm2, ymm1
-	vpsubb	ymm11, ymm7, ymm2
-	vpcmpeqb	ymm7, ymm15, ymm0
-	vpand	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI2_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm12, ymm12, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm7, ymm7, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI2_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI2_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm13
-	vmovdqa	ymm14, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI2_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm7, ymm7, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm15, ymmword ptr [rip + .LCPI2_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm13, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpand	ymm12, ymm7, ymm1
-	vpsubb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm6
-	vpor	ymm11, ymm12, ymm11
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm11, ymm11, ymm12
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm14
-	vmovdqa	ymm3, ymm14
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm12, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpand	ymm11, ymm7, ymm1
-	vpsubb	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm1
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm6
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm11, ymm11, ymm14
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm3
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm10, ymm10, ymm0
-	vmovdqa	ymm14, ymm5
-	vpand	ymm10, ymm10, ymm5
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpsllw	ymm11, ymm11, 7
-	vpand	ymm11, ymm11, ymm15
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm8, ymm8, ymm0
-	vpand	ymm10, ymm8, ymm1
-	vpsubb	ymm8, ymm10, ymm8
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpand	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vpor	ymm5, ymm8, ymm5
-	vpcmpeqb	ymm6, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpand	ymm6, ymm6, ymm2
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm6, ymm3
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI2_4]
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm1, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpand	ymm1, ymm14, ymm1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [rdi + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [rdi + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [rdi + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [rdi + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB2_166
-# %bb.167:
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
-	jne	.LBB2_43
-	jmp	.LBB2_129
-.LBB2_168:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_169:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rcx + 2]
-	mov	rdi, rcx
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rdi + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rdx + rdi + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rdx + rdi + 6]
-	mov	qword ptr [rsp + 256], rdi      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rdi + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	or	rbx, 576
-	mov	qword ptr [rsp + 168], rbx      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 608
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	r12, rcx
-	or	r12, 640
-	mov	qword ptr [rsp + 240], r12      # 8-byte Spill
-	mov	r14, rcx
-	or	r14, 672
-	mov	qword ptr [rsp + 248], r14      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 704
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 736
-	mov	rdi, rax
-	mov	r9, rcx
-	or	r9, 768
-	mov	qword ptr [rsp + 192], r9       # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 800
-	mov	qword ptr [rsp + 184], r15      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 832
-	mov	qword ptr [rsp + 224], r11      # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 864
-	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 896
-	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
-	mov	rsi, rcx
-	or	rsi, 928
-	mov	qword ptr [rsp + 208], rsi      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 264], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm9, xmm0, byte ptr [rdx + r13], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rbx], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14], 5
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 7
-	mov	r13, rdi
-	mov	qword ptr [rsp + 200], rdi      # 8-byte Spill
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 15
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 1
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 2
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 3
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 5
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 6
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 10
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 11
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 1
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 5
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 7
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 8
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 9
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 12
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm15, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 1], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, esi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, esi
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 2], 2
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 2], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 8
-	mov	r12, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 9
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 10
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rdx + r8 + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 3
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 4
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 13
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 14
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rdx + rax + 3], 1
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 3], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 4
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 5
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 3], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 9]
-	vmovd	xmm8, esi
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 9]
-	vmovd	xmm11, esi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 3
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 4], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rdx + rax + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 2
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 5
-	mov	rsi, r14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 6
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 7
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 10
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 13
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 4], 15
-	vpinsrb	xmm4, xmm14, byte ptr [rdx + r8 + 5], 1
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 12
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 15
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rdx + rdi + 5], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 8
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + r12 + 5], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm3, esi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, esi
-	mov	r14, r8
-	vpinsrb	xmm0, xmm12, byte ptr [rdx + r8 + 6], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 3
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 6], 4
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 6], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 6], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rcx + 6], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 5
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 10
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 11
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 12
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 14
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 2
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 7], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 7
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 13
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 7], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm1, esi
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx + 8], 1
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 8], 3
-	mov	r13, r11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 8], 4
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 8], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 6
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 8], 8
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 9
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + rax + 8], 1
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 2
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 5
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 11
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 12
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 14
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 15
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + r12 + 9], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 9], 12
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 14
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 9], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rdx + rcx + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 4
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 6
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 7
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm0, esi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, esi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 2
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 6
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 7
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 10], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 12
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 13
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 3
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 10
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 12
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 13
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 14
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 3
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 5
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 8
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 9
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 10
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 14
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 15
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 5
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 6
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 11], 7
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 13]
-	vmovd	xmm3, esi
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 13]
-	vmovd	xmm1, esi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 4
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 12], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 12], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 13
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 15
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + rdi + 12], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 7
-	mov	rax, r12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 8
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 12], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 10
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 13
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 14
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 15
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 1
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 3
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 5
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 6
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 7
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 8
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 9
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 12
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 13], 14
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 5
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 13], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 13], 15
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r13 + 14]
-	vmovd	xmm1, esi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 14]
-	vmovd	xmm0, esi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 2
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 3
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 5
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 15
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 14], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 6
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 14], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 8
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 9
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 12
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 14], 13
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 15
-	movzx	esi, byte ptr [rdx + r13 + 15]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 15], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 15], 6
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 7
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 15], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 9
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 15]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 7
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 10
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 13
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 14
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 16]
-	vmovd	xmm0, esi
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 4
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 5
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 16], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 12
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 15
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rbx + 16]
-	vmovd	xmm1, esi
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 16], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 17]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 17], 1
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 2
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 4
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 17], 5
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 17], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 7
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 8
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 17], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 11
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 12
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 15
-	movzx	esi, byte ptr [rdx + rbx + 17]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 2
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 9
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rsi + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 18]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 6
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 18], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 18], 9
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 18], 12
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 15
-	movzx	esi, byte ptr [rdx + rbx + 18]
-	vmovd	xmm1, esi
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 6
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 13
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 14
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 15
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 19]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 4
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 5
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 6
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 7
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 19], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 19], 14
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 19], 15
-	movzx	esi, byte ptr [rdx + rbx + 19]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 2
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 19], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 5
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 13
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	movzx	esi, byte ptr [rdx + r15 + 20]
-	vmovd	xmm0, esi
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 1
-	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 20], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 3
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 20], 4
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 20], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 9
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 20], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 20]
-	vmovd	xmm1, esi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 10
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 20], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 12
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 20], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 15
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 21]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 5
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 6
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 7
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 8
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 9
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 10
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 21], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 12
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 21], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 15
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 21]
-	vmovd	xmm3, esi
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 6
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 21], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 21], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 21], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r8 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 22]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 3
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 4
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 22], 9
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 22], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 22], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 14
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 15
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r10 + 22]
-	vmovd	xmm1, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 2
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 4
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 10
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 22], 11
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 12
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 13
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 15
-	movzx	esi, byte ptr [rdx + rax + 23]
-	vmovd	xmm2, esi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 2
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 23], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 5
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 12
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 14
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 15
-	movzx	esi, byte ptr [rdx + r10 + 23]
-	vmovd	xmm3, esi
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 3
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 5
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 23], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 8
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 9
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 12
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r9 + 24]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 24], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 9
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 11
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 12
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 15
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 24]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 7
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 10
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 13
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 15
-	movzx	esi, byte ptr [rdx + r9 + 25]
-	vmovd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 2
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 3
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 4
-	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 25], 5
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 9
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 25], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 25], 11
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 25], 12
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 25]
-	vmovd	xmm3, esi
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 12
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r8 + 25], 15
-	vinserti128	ymm8, ymm0, xmm2, 1
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 26]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 1
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 2
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 6
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 8
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 15
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rbx + 26]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 2
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 26], 3
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 4
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 7
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 13
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 26], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 27]
-	vmovd	xmm2, esi
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 3
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 27], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 5
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 27], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 8
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 9
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 15
-	movzx	esi, byte ptr [rdx + rbx + 27]
-	vmovd	xmm3, esi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 5
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 12
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r13 + 28]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 1
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 2
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 4
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 28], 5
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 6
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 7
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 28], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 11
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 12
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 14
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 15
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 28]
-	vmovd	xmm1, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 2
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 3
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 11
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 12
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 13
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 15
-	movzx	esi, byte ptr [rdx + r13 + 29]
-	vmovd	xmm2, esi
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 3
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 5
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 8
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 9
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 15
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r8 + 29]
-	vmovd	xmm3, esi
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 29], 1
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 3
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 5
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 9
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 13
-	vpinsrb	xmm4, xmm3, byte ptr [rdx + r12 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rdx + r12 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 30]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 30], 1
-	movzx	esi, byte ptr [rdx + rdi + 31]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 31], 1
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 31], 6
-	mov	rdi, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 31], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
-	mov	rax, rbx
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 31], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
-	mov	rsi, r8
-	movzx	eax, byte ptr [rdx + r8 + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 30], 1
-	movzx	eax, byte ptr [rdx + r8 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 31], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 2
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 31], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
-	mov	rax, r12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm0, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI2_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpand	ymm7, ymm2, ymm1
-	vpsubb	ymm11, ymm7, ymm2
-	vpcmpeqb	ymm7, ymm15, ymm0
-	vpand	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI2_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm12, ymm12, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm7, ymm7, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI2_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI2_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm13
-	vmovdqa	ymm14, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI2_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm7, ymm7, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm15, ymmword ptr [rip + .LCPI2_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm13, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpand	ymm12, ymm7, ymm1
-	vpsubb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm6
-	vpor	ymm11, ymm12, ymm11
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm11, ymm11, ymm12
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm14
-	vmovdqa	ymm3, ymm14
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm5
-	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm12, ymm11, ymm7
-	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpand	ymm11, ymm7, ymm1
-	vpsubb	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm1
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm6
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm11, ymm11, ymm14
-	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm3
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpeqb	ymm10, ymm10, ymm0
-	vmovdqa	ymm14, ymm5
-	vpand	ymm10, ymm10, ymm5
-	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpsllw	ymm11, ymm11, 7
-	vpand	ymm11, ymm11, ymm15
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm8, ymm8, ymm0
-	vpand	ymm10, ymm8, ymm1
-	vpsubb	ymm8, ymm10, ymm8
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm1
-	vpcmpeqb	ymm5, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpand	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vpor	ymm5, ymm8, ymm5
-	vpcmpeqb	ymm6, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpand	ymm6, ymm6, ymm2
-	vpcmpeqb	ymm3, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm6, ymm3
-	vpcmpeqb	ymm4, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI2_4]
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm1, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpand	ymm1, ymm14, ymm1
-	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [rdi + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [rdi + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [rdi + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [rdi + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB2_169
-# %bb.170:
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
-	jne	.LBB2_114
-	jmp	.LBB2_133
-.Lfunc_end2:
-	.size	comparison_equal_scalar_arr_avx2, .Lfunc_end2-comparison_equal_scalar_arr_avx2
-                                        # -- End function
-	.globl	comparison_not_equal_arr_arr_avx2 # -- Begin function comparison_not_equal_arr_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_not_equal_arr_arr_avx2,@function
-comparison_not_equal_arr_arr_avx2:      # @comparison_not_equal_arr_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB3_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB3_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB3_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB3_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB3_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_20
-# %bb.21:
-	add	r14, 1
-.LBB3_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setne	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setne	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setne	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setne	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setne	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setne	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setne	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setne	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setne	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_28:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_28
-	jmp	.LBB3_123
-.LBB3_29:
-	cmp	edi, 8
-	jle	.LBB3_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB3_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB3_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB3_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_48:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	vucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_48
-# %bb.49:
-	add	r14, 1
-.LBB3_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomisd	xmm1, qword ptr [rdx + 8]
-	setne	al
-	vmovsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	vmovsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	vmovsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	vmovsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	setne	r13b
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	setne	r15b
-	vmovsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	vmovsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	setne	cl
-	vmovsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	vmovsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	setne	r9b
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	setne	r11b
-	vmovsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	vmovsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	setne	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	vmovsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	setne	bl
-	vmovsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	vmovsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	vmovsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	setne	r14b
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	vmovsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	setne	r12b
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	vmovsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	vmovsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	vmovsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	vmovsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	vmovsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	setne	r8b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	vmovsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	vmovsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	vmovsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	vmovsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	vmovsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	vmovsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	vmovsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	add	rsi, 256
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	setne	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB3_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB3_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_56:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_56
-	jmp	.LBB3_123
-.LBB3_2:
-	cmp	edi, 2
-	je	.LBB3_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB3_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_6
-# %bb.7:
-	add	r14, 1
-.LBB3_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setne	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setne	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setne	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setne	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setne	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setne	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setne	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setne	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setne	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setne	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setne	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB3_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB3_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_14
-	jmp	.LBB3_123
-.LBB3_30:
-	cmp	edi, 7
-	je	.LBB3_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB3_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_34
-# %bb.35:
-	add	r14, 1
-.LBB3_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setne	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setne	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setne	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setne	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setne	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setne	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setne	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setne	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setne	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_42:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_42
-	jmp	.LBB3_123
-.LBB3_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_70
-# %bb.71:
-	add	r14, 1
-.LBB3_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setne	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setne	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setne	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setne	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setne	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setne	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setne	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setne	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setne	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_78:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_78
-	jmp	.LBB3_123
-.LBB3_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_81
-# %bb.82:
-	add	r14, 1
-.LBB3_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setne	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setne	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setne	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setne	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setne	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setne	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setne	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setne	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setne	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_89
-	jmp	.LBB3_123
-.LBB3_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_103
-# %bb.104:
-	add	r14, 1
-.LBB3_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setne	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setne	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setne	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setne	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setne	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setne	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setne	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setne	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setne	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_111
-	jmp	.LBB3_123
-.LBB3_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_114:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	vucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_114
-# %bb.115:
-	add	r14, 1
-.LBB3_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomiss	xmm1, dword ptr [rdx + 4]
-	setne	al
-	vmovss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	vmovss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	vmovss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	vmovss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	setne	r13b
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	setne	r15b
-	vmovss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	vmovss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	setne	cl
-	vmovss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	vmovss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	setne	r9b
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	setne	r11b
-	vmovss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	vmovss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	setne	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	vmovss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	setne	bl
-	vmovss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	vmovss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	vmovss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	setne	r14b
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	vmovss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	setne	r12b
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	vmovss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	vmovss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	vmovss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	vmovss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	vmovss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	setne	r8b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	vmovss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	vmovss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	vmovss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	vmovss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	vmovss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	vmovss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	vmovss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	sub	rsi, -128
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	setne	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB3_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB3_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_122:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_122
-	jmp	.LBB3_123
-.LBB3_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_59
-# %bb.60:
-	add	r14, 1
-.LBB3_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setne	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setne	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setne	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setne	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setne	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setne	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setne	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setne	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setne	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setne	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setne	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB3_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB3_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_67:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_67
-	jmp	.LBB3_123
-.LBB3_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_92
-# %bb.93:
-	add	r14, 1
-.LBB3_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setne	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setne	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setne	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setne	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setne	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setne	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setne	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setne	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setne	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_100
-.LBB3_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end3:
-	.size	comparison_not_equal_arr_arr_avx2, .Lfunc_end3-comparison_not_equal_arr_arr_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_not_equal_arr_scalar_avx2
-.LCPI4_0:
-	.zero	32,2
-.LCPI4_1:
-	.zero	32,4
-.LCPI4_2:
-	.zero	32,8
-.LCPI4_3:
-	.zero	32,16
-.LCPI4_4:
-	.zero	32,32
-.LCPI4_5:
-	.zero	32,64
-.LCPI4_6:
-	.zero	32,128
-	.text
-	.globl	comparison_not_equal_arr_scalar_avx2
-	.p2align	4, 0x90
-	.type	comparison_not_equal_arr_scalar_avx2,@function
-comparison_not_equal_arr_scalar_avx2:   # @comparison_not_equal_arr_scalar_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1280
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r11, rcx
-	cmp	edi, 6
-	jg	.LBB4_13
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB4_25
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB4_48
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB4_56
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB4_159
-# %bb.5:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_7
-# %bb.8:
-	add	r11, 1
-.LBB4_9:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_100
-# %bb.10:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_11:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setne	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setne	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setne	al
-	cmp	dword ptr [rsi + 28], r13d
-	setne	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setne	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setne	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setne	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setne	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setne	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setne	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setne	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB4_11
-# %bb.12:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_101
-	jmp	.LBB4_159
-.LBB4_13:
-	cmp	edi, 8
-	jle	.LBB4_38
-# %bb.14:
-	cmp	edi, 9
-	je	.LBB4_64
-# %bb.15:
-	cmp	edi, 11
-	je	.LBB4_72
-# %bb.16:
-	cmp	edi, 12
-	jne	.LBB4_159
-# %bb.17:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB4_21
-# %bb.18:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_19:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_19
-# %bb.20:
-	add	r11, 1
-.LBB4_21:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_104
-# %bb.22:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_23:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	setne	r9b
-	vucomisd	xmm0, qword ptr [rsi + 16]
-	setne	r14b
-	vucomisd	xmm0, qword ptr [rsi + 24]
-	setne	r13b
-	vucomisd	xmm0, qword ptr [rsi + 32]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 40]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 48]
-	setne	al
-	vucomisd	xmm0, qword ptr [rsi + 56]
-	setne	bl
-	vucomisd	xmm0, qword ptr [rsi + 64]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 72]
-	setne	dl
-	vucomisd	xmm0, qword ptr [rsi + 80]
-	setne	dil
-	vucomisd	xmm0, qword ptr [rsi + 88]
-	setne	r10b
-	vucomisd	xmm0, qword ptr [rsi + 96]
-	setne	r11b
-	vucomisd	xmm0, qword ptr [rsi + 104]
-	setne	r12b
-	vucomisd	xmm0, qword ptr [rsi + 112]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 120]
-	setne	cl
-	vucomisd	xmm0, qword ptr [rsi + 128]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 136]
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 144]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 152]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 160]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 168]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 176]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 184]
-	setne	r15b
-	vucomisd	xmm0, qword ptr [rsi + 192]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 200]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 208]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 216]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 224]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 232]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 240]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 248]
-	setne	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 144], -1       # 8-byte Folded Spill
-	jne	.LBB4_23
-# %bb.24:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_105
-	jmp	.LBB4_159
-.LBB4_25:
-	cmp	edi, 2
-	je	.LBB4_80
-# %bb.26:
-	cmp	edi, 3
-	jne	.LBB4_159
-# %bb.27:
-	mov	r14b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_131
-# %bb.28:
-	movsxd	rax, r9d
-	mov	r13, r11
-	.p2align	4, 0x90
-.LBB4_29:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r13 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_29
-# %bb.30:
-	add	r13, 1
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_132
-.LBB4_31:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
-	jb	.LBB4_34
-# %bb.32:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r13, rax
-	jae	.LBB4_165
-# %bb.33:
-	lea	rax, [4*r15]
-	add	rax, r13
-	cmp	rsi, rax
-	jae	.LBB4_165
-.LBB4_34:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 376], r13      # 8-byte Spill
-.LBB4_35:
-	mov	r13, r15
-	sub	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 144], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_36:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	setne	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	setne	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	setne	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	setne	al
-	cmp	byte ptr [r12 + 7], r14b
-	setne	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	setne	dl
-	cmp	byte ptr [r12 + 10], r14b
-	setne	sil
-	cmp	byte ptr [r12 + 11], r14b
-	setne	dil
-	cmp	byte ptr [r12 + 12], r14b
-	setne	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	setne	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	setne	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	setne	r14b
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	setne	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	setne	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 144], -1       # 8-byte Folded Spill
-	jne	.LBB4_36
-# %bb.37:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	jmp	.LBB4_133
-.LBB4_38:
-	cmp	edi, 7
-	je	.LBB4_92
-# %bb.39:
-	cmp	edi, 8
-	jne	.LBB4_159
-# %bb.40:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_44
-# %bb.41:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_42:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_42
-# %bb.43:
-	add	r11, 1
-.LBB4_44:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_107
-# %bb.45:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_46:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setne	dil
-	cmp	qword ptr [rsi + 16], r13
-	setne	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setne	al
-	cmp	qword ptr [rsi + 56], r13
-	setne	bl
-	cmp	qword ptr [rsi + 64], r13
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setne	dl
-	cmp	qword ptr [rsi + 80], r13
-	setne	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setne	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setne	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setne	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setne	cl
-	cmp	qword ptr [rsi + 128], r13
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setne	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 256
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB4_46
-# %bb.47:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_108
-	jmp	.LBB4_159
-.LBB4_48:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_52
-# %bb.49:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_50:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_50
-# %bb.51:
-	add	r11, 1
-.LBB4_52:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_111
-# %bb.53:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_54:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setne	al
-	cmp	word ptr [rsi + 2], r13w
-	setne	dil
-	cmp	word ptr [rsi + 4], r13w
-	setne	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 14], r13w
-	setne	bl
-	cmp	word ptr [rsi + 16], r13w
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setne	dl
-	cmp	word ptr [rsi + 20], r13w
-	setne	r9b
-	cmp	word ptr [rsi + 22], r13w
-	setne	r10b
-	cmp	word ptr [rsi + 24], r13w
-	setne	r11b
-	cmp	word ptr [rsi + 26], r13w
-	setne	r12b
-	cmp	word ptr [rsi + 28], r13w
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	setne	cl
-	cmp	word ptr [rsi + 32], r13w
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	setne	r15b
-	cmp	word ptr [rsi + 48], r13w
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	setne	r8b
-	add	dil, dil
-	or	dil, al
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB4_54
-# %bb.55:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_112
-	jmp	.LBB4_159
-.LBB4_56:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_60
-# %bb.57:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_58:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_58
-# %bb.59:
-	add	r11, 1
-.LBB4_60:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_115
-# %bb.61:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_62:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setne	dil
-	cmp	word ptr [rsi + 4], r13w
-	setne	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setne	al
-	cmp	word ptr [rsi + 14], r13w
-	setne	bl
-	cmp	word ptr [rsi + 16], r13w
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setne	dl
-	cmp	word ptr [rsi + 20], r13w
-	setne	r9b
-	cmp	word ptr [rsi + 22], r13w
-	setne	r10b
-	cmp	word ptr [rsi + 24], r13w
-	setne	r11b
-	cmp	word ptr [rsi + 26], r13w
-	setne	r12b
-	cmp	word ptr [rsi + 28], r13w
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	setne	cl
-	cmp	word ptr [rsi + 32], r13w
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	setne	r15b
-	cmp	word ptr [rsi + 48], r13w
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB4_62
-# %bb.63:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_116
-	jmp	.LBB4_159
-.LBB4_64:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_68
-# %bb.65:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_66:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_66
-# %bb.67:
-	add	r11, 1
-.LBB4_68:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_118
-# %bb.69:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_70:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setne	dil
-	cmp	qword ptr [rsi + 16], r13
-	setne	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setne	al
-	cmp	qword ptr [rsi + 56], r13
-	setne	bl
-	cmp	qword ptr [rsi + 64], r13
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setne	dl
-	cmp	qword ptr [rsi + 80], r13
-	setne	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setne	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setne	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setne	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setne	cl
-	cmp	qword ptr [rsi + 128], r13
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setne	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB4_70
-# %bb.71:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_119
-	jmp	.LBB4_159
-.LBB4_72:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB4_76
-# %bb.73:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_74:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_74
-# %bb.75:
-	add	r11, 1
-.LBB4_76:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_121
-# %bb.77:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_78:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	setne	r9b
-	vucomiss	xmm0, dword ptr [rsi + 8]
-	setne	r14b
-	vucomiss	xmm0, dword ptr [rsi + 12]
-	setne	r13b
-	vucomiss	xmm0, dword ptr [rsi + 16]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 20]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 24]
-	setne	al
-	vucomiss	xmm0, dword ptr [rsi + 28]
-	setne	bl
-	vucomiss	xmm0, dword ptr [rsi + 32]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 36]
-	setne	dl
-	vucomiss	xmm0, dword ptr [rsi + 40]
-	setne	dil
-	vucomiss	xmm0, dword ptr [rsi + 44]
-	setne	r10b
-	vucomiss	xmm0, dword ptr [rsi + 48]
-	setne	r11b
-	vucomiss	xmm0, dword ptr [rsi + 52]
-	setne	r12b
-	vucomiss	xmm0, dword ptr [rsi + 56]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 60]
-	setne	cl
-	vucomiss	xmm0, dword ptr [rsi + 64]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 68]
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 72]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 76]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 80]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 84]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 88]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 92]
-	setne	r15b
-	vucomiss	xmm0, dword ptr [rsi + 96]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 100]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 104]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 108]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 112]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 116]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 120]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 124]
-	setne	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 144], -1       # 8-byte Folded Spill
-	jne	.LBB4_78
-# %bb.79:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_122
-	jmp	.LBB4_159
-.LBB4_80:
-	mov	r14b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_84
-# %bb.81:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_82:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_82
-# %bb.83:
-	add	r11, 1
-.LBB4_84:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_124
-# %bb.85:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
-	jb	.LBB4_88
-# %bb.86:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r11, rax
-	jae	.LBB4_168
-# %bb.87:
-	lea	rax, [r11 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB4_168
-.LBB4_88:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-.LBB4_89:
-	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_90:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	setne	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	setne	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	setne	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	setne	al
-	cmp	byte ptr [r12 + 7], r14b
-	setne	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	setne	dl
-	cmp	byte ptr [r12 + 10], r14b
-	setne	sil
-	cmp	byte ptr [r12 + 11], r14b
-	setne	dil
-	cmp	byte ptr [r12 + 12], r14b
-	setne	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	setne	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	setne	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	setne	r14b
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	setne	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	setne	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 144], -1       # 8-byte Folded Spill
-	jne	.LBB4_90
-# %bb.91:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	jmp	.LBB4_125
-.LBB4_92:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_96
-# %bb.93:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_94:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_94
-# %bb.95:
-	add	r11, 1
-.LBB4_96:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB4_128
-# %bb.97:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_98:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setne	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setne	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setne	al
-	cmp	dword ptr [rsi + 28], r13d
-	setne	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setne	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setne	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setne	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setne	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setne	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setne	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setne	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 128
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB4_98
-# %bb.99:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB4_129
-	jmp	.LBB4_159
-.LBB4_100:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_101:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB4_130
-# %bb.102:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_103:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_103
-	jmp	.LBB4_156
-.LBB4_104:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_105:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB4_136
-# %bb.106:
-	xor	r11d, r11d
-	jmp	.LBB4_138
-.LBB4_107:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_108:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB4_120
-# %bb.109:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_110:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_110
-	jmp	.LBB4_146
-.LBB4_111:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_112:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB4_117
-# %bb.113:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_114:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_114
-	jmp	.LBB4_142
-.LBB4_115:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_116:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB4_140
-.LBB4_117:
-	xor	r11d, r11d
-	jmp	.LBB4_142
-.LBB4_118:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_119:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB4_144
-.LBB4_120:
-	xor	r11d, r11d
-	jmp	.LBB4_146
-.LBB4_121:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_122:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB4_148
-# %bb.123:
-	xor	r11d, r11d
-	jmp	.LBB4_150
-.LBB4_124:
-	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
-	mov	r12, rsi
-.LBB4_125:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-# %bb.126:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB4_127
-# %bb.152:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB4_153:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	setne	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	setne	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB4_153
-	jmp	.LBB4_162
-.LBB4_128:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-.LBB4_129:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB4_154
-.LBB4_130:
-	xor	r11d, r11d
-	jmp	.LBB4_156
-.LBB4_131:
-	mov	r13, r11
-	sar	r15, 5
-	cmp	r10, 32
-	jge	.LBB4_31
-.LBB4_132:
-	mov	qword ptr [rsp + 376], r13      # 8-byte Spill
-	mov	r12, rsi
-.LBB4_133:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB4_159
-# %bb.134:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB4_160
-.LBB4_127:
-	xor	esi, esi
-	jmp	.LBB4_163
-.LBB4_136:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_137:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_137
-.LBB4_138:
-	test	r8b, 1
-	je	.LBB4_159
-# %bb.139:
-	vucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB4_158
-.LBB4_140:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_141:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_141
-.LBB4_142:
-	test	r8b, 1
-	je	.LBB4_159
-# %bb.143:
-	cmp	word ptr [rsi], r13w
-	jmp	.LBB4_158
-.LBB4_144:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_145:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_145
-.LBB4_146:
-	test	r8b, 1
-	je	.LBB4_159
-# %bb.147:
-	cmp	qword ptr [rsi], r13
-	jmp	.LBB4_158
-.LBB4_148:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_149:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	lea	rsi, [rsi + 8]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_149
-.LBB4_150:
-	test	r8b, 1
-	je	.LBB4_159
-# %bb.151:
-	vucomiss	xmm0, dword ptr [rsi]
-	jmp	.LBB4_158
-.LBB4_154:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB4_155:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_155
-.LBB4_156:
-	test	r8b, 1
-	je	.LBB4_159
-# %bb.157:
-	cmp	dword ptr [rsi], r13d
-.LBB4_158:
-	setne	al
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-.LBB4_159:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB4_160:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB4_161:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	setne	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	setne	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB4_161
-.LBB4_162:
-	add	r12, rsi
-.LBB4_163:
-	test	r8b, 1
-	je	.LBB4_159
-# %bb.164:
-	cmp	byte ptr [r12], r14b
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 376]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB4_159
-.LBB4_165:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
-	lea	rax, [4*r15]
-	add	rax, r13
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_166:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rcx + 1]
-	mov	rdx, rcx
-	vmovd	xmm4, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rdx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 256], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	r13, rbx
-	or	r13, 544
-	mov	qword ptr [rsp + 248], r13      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 576
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 608
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	r10, rbx
-	or	r10, 640
-	mov	qword ptr [rsp + 128], r10      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 672
-	mov	r12, rax
-	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
-	mov	rdi, rbx
-	or	rdi, 704
-	mov	qword ptr [rsp + 216], rdi      # 8-byte Spill
-	mov	rdx, rbx
-	or	rdx, 736
-	mov	qword ptr [rsp + 224], rdx      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 768
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 800
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 832
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	mov	r8, rbx
-	or	r8, 864
-	mov	qword ptr [rsp + 264], r8       # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 896
-	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
-	mov	r9, rbx
-	or	r9, 928
-	mov	qword ptr [rsp + 88], r9        # 8-byte Spill
-	mov	rax, rbx
-	mov	qword ptr [rsp + 240], rbx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 32], rcx       # 8-byte Spill
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + r13], 2
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 7
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 1
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 2
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 3
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 4
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 5
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 6
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 14
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 4
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 7
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 8
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 12
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rbx + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 6
-	mov	rbx, r8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 14
-	vinserti128	ymm13, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 1
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 2
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
-	mov	r12, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 8
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 10
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 12
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + rcx + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 4
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 6
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 1
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
-	mov	rax, r10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 5
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 7
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 8
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 9
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 12
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 15
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm15, byte ptr [rsi + rcx + 4], 1
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 3
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 4
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 5
-	mov	rdi, r14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 7
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 9
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 13
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 15
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + r14 + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 2
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 7
-	mov	r15, rax
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 8
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 5], 11
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 15
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + rcx + 5], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 5], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + r12 + 5], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm4, edi
-	mov	r11, r14
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + r14 + 6], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 3
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 5
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 8
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 9
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 10
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 11
-	mov	rax, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 15
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rcx + 6], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 7
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 12
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 14
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 1
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 2
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 4
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 6
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 7
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 15
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 1
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 6
-	mov	r8, r13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 7
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 7], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm2, edi
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + r15 + 8], 1
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 2
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 6
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 8], 8
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 9
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 10
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 12
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 15
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rdx + 8], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 3
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 9
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 11
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 12
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 15
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r15 + 9], 1
-	mov	r13, r15
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 6
-	mov	r9, rax
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 8
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 9
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 11
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rax + 9], 1
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 9], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 9], 12
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 4
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 7
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 10
-	mov	r9, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 12
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 15
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 4
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 10], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 13
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 14
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 4
-	mov	r13, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 5
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 8
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm1, edi
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 1
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 12], 2
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 4
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 5
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 6
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 7
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 9
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 10
-	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 12], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 15
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + rax + 12], 1
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 12], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 14
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 1
-	mov	r15, r11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 5
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 8
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 11
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 12
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 13
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 15
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 3
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 4
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 13], 5
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 13], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 14]
-	vmovd	xmm0, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 2
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 14], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 14], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 5
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 9
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 14], 12
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 4
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 6
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 7
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 9
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 10
-	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
-	movzx	edi, byte ptr [rsi + r13 + 15]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 1
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 4
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 15], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 14
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 16]
-	vmovd	xmm0, edi
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 16], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 3
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 4
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 5
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 16], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 8
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 16]
-	vmovd	xmm1, edi
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 1
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 3
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 5
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 7
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 8
-	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 12
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 14
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 15
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 17]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 2
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 5
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 17], 7
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 8
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 9
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 17]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 3
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 17], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 6
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 17], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 10
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r13 + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 5
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 11
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 18], 14
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 15
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 18]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 1
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 4
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 5
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 8
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 12
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 14
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 15
-	movzx	edi, byte ptr [rsi + r13 + 19]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 2
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 19], 4
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 5
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 6
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 19]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 1
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 4
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 5
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 19], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 14
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 20]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 1
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 4
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 5
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 20], 6
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 7
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 8
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 10
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 20]
-	vmovd	xmm1, edi
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 2
-	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 3
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 14
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
-	movzx	edi, byte ptr [rsi + r11 + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
-	mov	r11, rdx
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 21], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 8
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 21], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 21]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 4
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 6
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 9
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rbx + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 4
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 6
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 7
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 8
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 9
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 10
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 22]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 3
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 5
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 7
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 12
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 15
-	movzx	edi, byte ptr [rsi + rcx + 23]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 6
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 10
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 23]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 23], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 3
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 4
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 5
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 23], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 13
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 14
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm11, ymm3, xmm2, 1
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 24]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 2
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 4
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 5
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 24], 7
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 8
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 24], 11
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 12
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 15
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 24]
-	vmovd	xmm1, edi
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 1
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 24], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 7
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 25]
-	vmovd	xmm2, edi
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 1
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 6
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 9
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 10
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 11
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 14
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 25]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 2
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 3
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 5
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 10
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rcx + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 26]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 2
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 3
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 5
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 6
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 12
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 13
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 15
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 26]
-	vmovd	xmm1, edi
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 1
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 26], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 4
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 5
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 6
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 7
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 26], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 9
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 12
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 14
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 15
-	movzx	edi, byte ptr [rsi + rcx + 27]
-	vmovd	xmm2, edi
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 27], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 2
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 4
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 5
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 6
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 7
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 8
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 9
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 27]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 1
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 3
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 4
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 5
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 10
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 11
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 13
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 14
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 1
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 28], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 3
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 5
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 6
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 7
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 8
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 10
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 11
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 12
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 15
-	movzx	edi, byte ptr [rsi + rax + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 3
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 5
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 10
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 12
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 14
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 29]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 2
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 4
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 29], 8
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 13
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 15
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r15 + 29]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 3
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 29], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 7
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 11
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 29], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + rax + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + r13 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 30]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 1
-	movzx	edi, byte ptr [rsi + rax + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 31], 6
-	mov	r13, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 31], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 31], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	movzx	eax, byte ptr [rsi + r15 + 30]
-	vmovd	xmm1, eax
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
-	movzx	eax, byte ptr [rsi + r15 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 31], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 31], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 14
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm0, ymm13, ymm2
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI4_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpandn	ymm7, ymm7, ymm5
-	vpaddb	ymm0, ymm7, ymm0
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI4_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm6
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI4_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm14, ymm2
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI4_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm12, ymm12, ymm8
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm0, ymm0, ymm1
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm15, ymm2
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI4_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI4_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpandn	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm5
-	vpaddb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm6
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm12, ymm12, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm13
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm12, ymm12, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm5
-	vpaddb	ymm7, ymm15, ymm7
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm6
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm3
-	vpor	ymm14, ymm15, ymm14
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm14, ymm14, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm14, ymm7
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm1
-	vpcmpeqb	ymm10, ymm10, ymm2
-	vpandn	ymm10, ymm10, ymm13
-	vpor	ymm10, ymm14, ymm10
-	vpcmpeqb	ymm11, ymm11, ymm2
-	vmovdqa	ymm14, ymm9
-	vpandn	ymm11, ymm11, ymm9
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm9, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpcmpeqb	ymm8, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpandn	ymm8, ymm8, ymm5
-	vpaddb	ymm8, ymm8, ymm9
-	vpcmpeqb	ymm5, ymm2, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpandn	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm6, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpandn	ymm6, ymm6, ymm3
-	vpor	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm3, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI4_3]
-	vpor	ymm3, ymm5, ymm3
-	vpsubb	ymm5, ymm8, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm4, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpandn	ymm4, ymm4, ymm1
-	vpcmpeqb	ymm1, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpandn	ymm1, ymm1, ymm13
-	vpor	ymm1, ymm4, ymm1
-	vpcmpeqb	ymm2, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpandn	ymm2, ymm2, ymm14
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r13 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r13 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r13 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r13 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB4_166
-# %bb.167:
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
-	jne	.LBB4_35
-	jmp	.LBB4_133
-.LBB4_168:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_169:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rcx + 2]
-	mov	rdx, rcx
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 256], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	rbx, rax
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 576
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	r12, rcx
-	or	r12, 608
-	mov	qword ptr [rsp + 184], r12      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 640
-	mov	r13, rax
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	r9, rcx
-	or	r9, 672
-	mov	qword ptr [rsp + 224], r9       # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 704
-	mov	qword ptr [rsp + 248], r15      # 8-byte Spill
-	mov	rdi, rcx
-	or	rdi, 736
-	mov	qword ptr [rsp + 152], rdi      # 8-byte Spill
-	mov	r14, rcx
-	or	r14, 768
-	mov	qword ptr [rsp + 112], r14      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 800
-	mov	qword ptr [rsp + 216], r11      # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 832
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 864
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 896
-	mov	qword ptr [rsp + 200], r8       # 8-byte Spill
-	mov	rdx, rcx
-	or	rdx, 928
-	mov	qword ptr [rsp + 168], rdx      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 208], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 40], rcx       # 8-byte Spill
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + rbx], 1
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rbx], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 10
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 1
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 2
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 3
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 4
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 5
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 6
-	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 14
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 4
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 7
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 8
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 11
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 12
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 14
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	mov	r9, rdi
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 14
-	vinserti128	ymm13, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 1
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 2
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 6
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 8
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 2], 9
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 10
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 2], 8
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 2], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + r8 + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 4
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 6
-	mov	r10, rcx
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 7
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
-	mov	r12, rax
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
-	mov	r11, rdi
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 3], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 9]
-	vmovd	xmm8, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 1
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 2
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 4], 3
-	mov	r13, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
-	mov	rcx, r8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 6
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 8
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 11
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 15
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm15, byte ptr [rsi + rax + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 4
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 5
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 8
-	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 9
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 11
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 12
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 14
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 15
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + r9 + 5], 1
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
-	mov	r14, r13
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 5], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 9
-	mov	r10, r8
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 10
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 12
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 13
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 15
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + r12 + 5], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 5], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 5], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 5], 12
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 5], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm4, edi
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + r8 + 6], 1
-	mov	rcx, r9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 2
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 4
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 5
-	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 6
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 9
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 11
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 6], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 13
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 15
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + r12 + 6], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 4
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 6
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 7
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 9
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 6], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 12
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 13
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 14
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 2
-	mov	rbx, rcx
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 3
-	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 6
-	mov	r13, r9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 8
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 13
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 14
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 15
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 3
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 10
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 11
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 7], 12
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rdx + 7], 14
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 11]
-	vmovd	xmm1, edi
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 11]
-	vmovd	xmm2, edi
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rdx + 8], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 2
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 3
-	mov	rdx, r15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 8], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 8], 6
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 7
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 8], 9
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 8], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 11
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 12
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 8], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 8], 15
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r10 + 8], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 3
-	mov	rdi, r8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 9
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 10
-	mov	r8, r12
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 8], 12
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 8], 13
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 14
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 15
-	mov	r12, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r12 + 9], 1
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 2
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 4
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r13 + 9], 6
-	mov	rcx, r13
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 7
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 8
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 10
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 11
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 12
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r9 + 9], 13
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 14
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 15
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + r10 + 9], 1
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 9], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 5
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 6
-	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 7
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 9], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 9], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 2
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 3
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 4
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 5
-	mov	rdx, rcx
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 6
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 9
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 11
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 12
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 10], 15
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 7
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 9
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 10], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 11
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 14
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
-	mov	rcx, r13
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 3
-	mov	r13, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 6
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 7
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 9
-	mov	rbx, rax
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 11
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 13
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 15
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 4
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 11], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 12
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm1, edi
-	mov	rax, rcx
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 2
-	mov	rcx, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 3
-	mov	r13, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 5
-	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 6
-	mov	r11, r8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 9
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 10
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 11
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 12
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 13
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 14
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 15
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + r14 + 12], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 3
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 4
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 5
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 6
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 12], 7
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 8
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 9
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 10
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 12
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 13
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 14
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 1
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 13], 4
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 7
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 8
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 11
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 13
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 3
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 13], 9
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 10
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 13], 11
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 13], 12
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 13], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + r12 + 13], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 14]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 1
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 2
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 3
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 14], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 6
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 9
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 10
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 14], 11
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 14], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 14
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 15
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 1
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 4
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 5
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 14], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 15
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 3
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 4
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 5
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 6
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 7
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 8
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 12
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 13
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 15
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r14 + 15]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 4
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 15], 5
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 15], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 9
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 12
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 13
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 14
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r11 + 16]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 1
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 2
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 3
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 16], 4
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 6
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 16], 8
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
-	movzx	edi, byte ptr [rsi + r14 + 16]
-	vmovd	xmm1, edi
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 16], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 12
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 13
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 14
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 15
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rbx + 17]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 1
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 2
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 4
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 5
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 7
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 11
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 12
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 13
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 15
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 17]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 3
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 9
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r13 + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + rbx + 18]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 1
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 18], 3
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 5
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 6
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 11
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 14
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 18], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 18]
-	vmovd	xmm1, edi
-	mov	r8, r12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 18], 1
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 3
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 18], 4
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 18], 5
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 9
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 11
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 12
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 13
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 15
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 19]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 1
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 2
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 3
-	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 4
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 5
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 6
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 7
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 8
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 19], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 13
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 15
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 19], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 6
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 9
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 11
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 19], 12
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 14
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r13 + 20]
-	vmovd	xmm0, edi
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 1
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 4
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 5
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 6
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 7
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 9
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 10
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 11
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 12
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 13
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 15
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 20]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 3
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 4
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 20], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 20], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 1
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 21], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 3
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 5
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 6
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 7
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 21], 11
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 21], 12
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 21], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 14
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 15
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 21]
-	vmovd	xmm3, edi
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 1
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 5
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 7
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 9
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 12
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 13
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rdx + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 22]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 2
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 22], 6
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 22], 7
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 8
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 9
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 22], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 22], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 13
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 22], 14
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 22], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 22]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 2
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 4
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 6
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 22], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 12
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 14
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 15
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 23]
-	vmovd	xmm2, edi
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 1
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 2
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 3
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 4
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 5
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 23], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 11
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 12
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 13
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 23], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 15
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 23]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 3
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 4
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 7
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 12
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 14
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm11, ymm3, xmm2, 1
-	movzx	edi, byte ptr [rsi + r13 + 24]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 24], 1
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 2
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 4
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 5
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 6
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 7
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 8
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 9
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 24], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 24], 14
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 15
-	movzx	edi, byte ptr [rsi + r11 + 24]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 2
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 3
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 24], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 9
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 13
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 14
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 25]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 25], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 2
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 3
-	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 4
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 5
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 11
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 13
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 25], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 15
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r14 + 25]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 1
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 25], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 4
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 25], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 7
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 25], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 25], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 12
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r11 + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 26]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 1
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 2
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 4
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 6
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 7
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 10
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 12
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 14
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 15
-	movzx	edi, byte ptr [rsi + r14 + 26]
-	vmovd	xmm1, edi
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 26], 2
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 3
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 26], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 5
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 26], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 9
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 10
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 12
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 26], 15
-	movzx	edi, byte ptr [rsi + rax + 27]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 1
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 3
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 4
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 5
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 6
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 7
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 11
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 13
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 15
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r9 + 27]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 1
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 2
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 27], 4
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 5
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 7
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 9
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 13
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 14
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 28]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 1
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 2
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 6
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 28], 8
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 9
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 12
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 28], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 15
-	movzx	edi, byte ptr [rsi + r9 + 28]
-	vmovd	xmm1, edi
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 2
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 28], 5
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 6
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 28], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 12
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 28], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 29]
-	vmovd	xmm2, edi
-	mov	r12, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 1
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 2
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 3
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 4
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 6
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 10
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 11
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 29], 13
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 29], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 29]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 29], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 7
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 13
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + r9 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + r15 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rbx + 30]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 30], 1
-	movzx	edi, byte ptr [rsi + rbx + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 31], 1
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 31], 11
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 31], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	eax, byte ptr [rsi + rcx + 30]
-	vmovd	xmm1, eax
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
-	movzx	eax, byte ptr [rsi + rcx + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 31], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 13
-	mov	rax, r9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm0, ymm13, ymm2
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI4_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpandn	ymm7, ymm7, ymm5
-	vpaddb	ymm0, ymm7, ymm0
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI4_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm6
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI4_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm14, ymm2
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI4_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm12, ymm12, ymm8
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm0, ymm0, ymm1
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm15, ymm2
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI4_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI4_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpandn	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm5
-	vpaddb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm6
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm12, ymm12, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm13
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm12, ymm12, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm5
-	vpaddb	ymm7, ymm15, ymm7
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm6
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm3
-	vpor	ymm14, ymm15, ymm14
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm14, ymm14, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm14, ymm7
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm1
-	vpcmpeqb	ymm10, ymm10, ymm2
-	vpandn	ymm10, ymm10, ymm13
-	vpor	ymm10, ymm14, ymm10
-	vpcmpeqb	ymm11, ymm11, ymm2
-	vmovdqa	ymm14, ymm9
-	vpandn	ymm11, ymm11, ymm9
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm9, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpcmpeqb	ymm8, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpandn	ymm8, ymm8, ymm5
-	vpaddb	ymm8, ymm8, ymm9
-	vpcmpeqb	ymm5, ymm2, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpandn	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm6, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpandn	ymm6, ymm6, ymm3
-	vpor	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm3, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI4_3]
-	vpor	ymm3, ymm5, ymm3
-	vpsubb	ymm5, ymm8, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm4, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpandn	ymm4, ymm4, ymm1
-	vpcmpeqb	ymm1, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpandn	ymm1, ymm1, ymm13
-	vpor	ymm1, ymm4, ymm1
-	vpcmpeqb	ymm2, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpandn	ymm2, ymm2, ymm14
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB4_169
-# %bb.170:
-	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
-	jne	.LBB4_89
-	jmp	.LBB4_125
-.Lfunc_end4:
-	.size	comparison_not_equal_arr_scalar_avx2, .Lfunc_end4-comparison_not_equal_arr_scalar_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_not_equal_scalar_arr_avx2
-.LCPI5_0:
-	.zero	32,2
-.LCPI5_1:
-	.zero	32,4
-.LCPI5_2:
-	.zero	32,8
-.LCPI5_3:
-	.zero	32,16
-.LCPI5_4:
-	.zero	32,32
-.LCPI5_5:
-	.zero	32,64
-.LCPI5_6:
-	.zero	32,128
-	.text
-	.globl	comparison_not_equal_scalar_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_not_equal_scalar_arr_avx2,@function
-comparison_not_equal_scalar_arr_avx2:   # @comparison_not_equal_scalar_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1280
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r15, rcx
-	cmp	edi, 6
-	jg	.LBB5_17
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB5_32
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB5_60
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB5_72
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB5_157
-# %bb.5:
-	mov	r14d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_7
-# %bb.8:
-	add	r15, 1
-.LBB5_9:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_13
-# %bb.10:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_11:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14d, dword ptr [rdx + 124]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 120]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 116]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 112]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 108]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 104]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 100]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 92]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 88]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 84]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 76]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 72]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 68]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 60]
-	setne	r8b
-	cmp	r14d, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 48]
-	setne	r11b
-	cmp	r14d, dword ptr [rdx + 44]
-	setne	r10b
-	cmp	r14d, dword ptr [rdx + 40]
-	setne	r9b
-	cmp	r14d, dword ptr [rdx + 36]
-	setne	dil
-	cmp	r14d, dword ptr [rdx + 28]
-	setne	al
-	cmp	r14d, dword ptr [rdx + 24]
-	setne	bl
-	cmp	r14d, dword ptr [rdx + 20]
-	setne	sil
-	cmp	r14d, dword ptr [rdx + 16]
-	setne	cl
-	cmp	r14d, dword ptr [rdx + 12]
-	setne	r13b
-	cmp	r14d, dword ptr [rdx + 8]
-	setne	r12b
-	cmp	r14d, dword ptr [rdx]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 4]
-	setne	r15b
-	cmp	r14d, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 64]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 96]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	rdx, -128
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB5_11
-# %bb.12:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB5_13:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.14:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB5_127
-# %bb.15:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_16:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_16
-	jmp	.LBB5_154
-.LBB5_17:
-	cmp	edi, 8
-	jle	.LBB5_46
-# %bb.18:
-	cmp	edi, 9
-	je	.LBB5_83
-# %bb.19:
-	cmp	edi, 11
-	je	.LBB5_94
-# %bb.20:
-	cmp	edi, 12
-	jne	.LBB5_157
-# %bb.21:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB5_25
-# %bb.22:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_23:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_23
-# %bb.24:
-	add	r15, 1
-.LBB5_25:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_29
-# %bb.26:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_27:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	vucomisd	xmm0, qword ptr [rdx]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	setne	r9b
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	setne	r11b
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	setne	r13b
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	setne	bl
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	setne	r12b
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	setne	sil
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	setne	dil
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	setne	r8b
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	setne	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	setne	r15b
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	setne	cl
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	setne	r14b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	setne	al
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r12b, 7
-	or	r12b, bl
-	shl	r11b, 2
-	or	r11b, r9b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r8b, 3
-	or	r8b, dil
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r10b, 4
-	or	r10b, r8b
-	shl	r15b, 5
-	or	r15b, r10b
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r12b, bl
-	or	cl, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	byte ptr [r15], r12b
-	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r14b, 7
-	or	r14b, sil
-	mov	byte ptr [r15 + 1], cl
-	or	r14b, bl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], r14b
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_27
-# %bb.28:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-.LBB5_29:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.30:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB5_136
-# %bb.31:
-	xor	edi, edi
-	jmp	.LBB5_138
-.LBB5_32:
-	cmp	edi, 2
-	je	.LBB5_105
-# %bb.33:
-	cmp	edi, 3
-	jne	.LBB5_157
-# %bb.34:
-	mov	r11b, byte ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_38
-# %bb.35:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_36:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_36
-# %bb.37:
-	add	r15, 1
-.LBB5_38:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB5_128
-# %bb.39:
-	cmp	r14, 32
-	mov	dword ptr [rsp + 28], r11d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r14      # 8-byte Spill
-	jb	.LBB5_42
-# %bb.40:
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB5_165
-# %bb.41:
-	lea	rax, [r15 + 4*r14]
-	cmp	rdx, rax
-	jae	.LBB5_165
-.LBB5_42:
-	xor	eax, eax
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	mov	r13, r15
-.LBB5_43:
-	sub	r14, qword ptr [rsp + 376]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_44:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx + 31]
-	setne	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 30]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 29]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 28]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 27]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 26]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 25]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 23]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 22]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 21]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 20]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 19]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 18]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 17]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 15]
-	setne	r14b
-	cmp	r11b, byte ptr [rdx + 14]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 13]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 12]
-	setne	r12b
-	cmp	r11b, byte ptr [rdx + 11]
-	setne	r15b
-	cmp	r11b, byte ptr [rdx + 10]
-	setne	r11b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 9]
-	setne	r10b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 7]
-	setne	dil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 6]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 5]
-	setne	r9b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 4]
-	setne	r8b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 3]
-	setne	sil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 2]
-	setne	cl
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx]
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 1]
-	setne	al
-	mov	rbx, r13
-	mov	r13d, dword ptr [rsp + 28]      # 4-byte Reload
-	cmp	r13b, byte ptr [rdx + 8]
-	mov	r13, rbx
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdx + 16]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdx + 24]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	add	al, al
-	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	sil, 3
-	or	sil, cl
-	shl	r8b, 4
-	or	r8b, sil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, r9b
-	mov	byte ptr [r13], dil
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	r11b, 2
-	or	r11b, r10b
-	shl	r15b, 3
-	or	r15b, r11b
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	shl	r12b, 4
-	or	r12b, r15b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r12b
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r14b, 7
-	or	r14b, cl
-	or	r14b, al
-	mov	byte ptr [r13 + 1], r14b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 3], al
-	add	rdx, 32
-	add	r13, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB5_44
-# %bb.45:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 384]      # 8-byte Reload
-	jmp	.LBB5_129
-.LBB5_46:
-	cmp	edi, 7
-	je	.LBB5_117
-# %bb.47:
-	cmp	edi, 8
-	jne	.LBB5_157
-# %bb.48:
-	mov	r14, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_52
-# %bb.49:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_50:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_50
-# %bb.51:
-	add	r15, 1
-.LBB5_52:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_56
-# %bb.53:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_54:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14, qword ptr [rdx + 248]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 240]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 232]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 224]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 216]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 208]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 200]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 184]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 176]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 168]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 152]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 144]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 136]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 120]
-	setne	r8b
-	cmp	r14, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 96]
-	setne	r11b
-	cmp	r14, qword ptr [rdx + 88]
-	setne	r10b
-	cmp	r14, qword ptr [rdx + 80]
-	setne	r9b
-	cmp	r14, qword ptr [rdx + 72]
-	setne	dil
-	cmp	r14, qword ptr [rdx + 56]
-	setne	al
-	cmp	r14, qword ptr [rdx + 48]
-	setne	bl
-	cmp	r14, qword ptr [rdx + 40]
-	setne	sil
-	cmp	r14, qword ptr [rdx + 32]
-	setne	cl
-	cmp	r14, qword ptr [rdx + 24]
-	setne	r13b
-	cmp	r14, qword ptr [rdx + 16]
-	setne	r12b
-	cmp	r14, qword ptr [rdx]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 8]
-	setne	r15b
-	cmp	r14, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 128]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 192]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB5_54
-# %bb.55:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB5_56:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.57:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB5_93
-# %bb.58:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_59:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_59
-	jmp	.LBB5_146
-.LBB5_60:
-	movzx	r14d, word ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_64
-# %bb.61:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_62:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_62
-# %bb.63:
-	add	r15, 1
-.LBB5_64:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_68
-# %bb.65:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_66:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14w, word ptr [rdx + 62]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 60]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 58]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 56]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 54]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 52]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 50]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 46]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 44]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 42]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 40]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 38]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 36]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 34]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 30]
-	setne	r8b
-	cmp	r14w, word ptr [rdx + 28]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 26]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 24]
-	setne	r11b
-	cmp	r14w, word ptr [rdx + 22]
-	setne	r10b
-	cmp	r14w, word ptr [rdx + 20]
-	setne	r9b
-	cmp	r14w, word ptr [rdx + 18]
-	setne	dil
-	cmp	r14w, word ptr [rdx + 14]
-	setne	al
-	cmp	r14w, word ptr [rdx + 12]
-	setne	bl
-	cmp	r14w, word ptr [rdx + 10]
-	setne	sil
-	cmp	r14w, word ptr [rdx + 8]
-	setne	cl
-	cmp	r14w, word ptr [rdx + 6]
-	setne	r13b
-	cmp	r14w, word ptr [rdx + 4]
-	setne	r12b
-	cmp	r14w, word ptr [rdx]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 2]
-	setne	r15b
-	cmp	r14w, word ptr [rdx + 16]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 32]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 48]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 64
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB5_66
-# %bb.67:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB5_68:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.69:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB5_82
-# %bb.70:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_71:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_71
-	jmp	.LBB5_142
-.LBB5_72:
-	movzx	r14d, word ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_76
-# %bb.73:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_74:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_74
-# %bb.75:
-	add	r15, 1
-.LBB5_76:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_80
-# %bb.77:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_78:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14w, word ptr [rdx + 62]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 60]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 58]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 56]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 54]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 52]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 50]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 46]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 44]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 42]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 40]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 38]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 36]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 34]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 30]
-	setne	r8b
-	cmp	r14w, word ptr [rdx + 28]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 26]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 24]
-	setne	r11b
-	cmp	r14w, word ptr [rdx + 22]
-	setne	r10b
-	cmp	r14w, word ptr [rdx + 20]
-	setne	r9b
-	cmp	r14w, word ptr [rdx + 18]
-	setne	dil
-	cmp	r14w, word ptr [rdx + 14]
-	setne	al
-	cmp	r14w, word ptr [rdx + 12]
-	setne	bl
-	cmp	r14w, word ptr [rdx + 10]
-	setne	sil
-	cmp	r14w, word ptr [rdx + 8]
-	setne	cl
-	cmp	r14w, word ptr [rdx + 6]
-	setne	r13b
-	cmp	r14w, word ptr [rdx + 4]
-	setne	r12b
-	cmp	r14w, word ptr [rdx]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 2]
-	setne	r15b
-	cmp	r14w, word ptr [rdx + 16]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 32]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 48]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 64
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB5_78
-# %bb.79:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB5_80:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.81:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB5_140
-.LBB5_82:
-	xor	edi, edi
-	jmp	.LBB5_142
-.LBB5_83:
-	mov	r14, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_87
-# %bb.84:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_85:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_85
-# %bb.86:
-	add	r15, 1
-.LBB5_87:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_91
-# %bb.88:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_89:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14, qword ptr [rdx + 248]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 240]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 232]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 224]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 216]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 208]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 200]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 184]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 176]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 168]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 152]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 144]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 136]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 120]
-	setne	r8b
-	cmp	r14, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 96]
-	setne	r11b
-	cmp	r14, qword ptr [rdx + 88]
-	setne	r10b
-	cmp	r14, qword ptr [rdx + 80]
-	setne	r9b
-	cmp	r14, qword ptr [rdx + 72]
-	setne	dil
-	cmp	r14, qword ptr [rdx + 56]
-	setne	al
-	cmp	r14, qword ptr [rdx + 48]
-	setne	bl
-	cmp	r14, qword ptr [rdx + 40]
-	setne	sil
-	cmp	r14, qword ptr [rdx + 32]
-	setne	cl
-	cmp	r14, qword ptr [rdx + 24]
-	setne	r13b
-	cmp	r14, qword ptr [rdx + 16]
-	setne	r12b
-	cmp	r14, qword ptr [rdx]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 8]
-	setne	r15b
-	cmp	r14, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 128]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 192]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB5_89
-# %bb.90:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB5_91:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.92:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB5_144
-.LBB5_93:
-	xor	edi, edi
-	jmp	.LBB5_146
-.LBB5_94:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB5_98
-# %bb.95:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_96:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_96
-# %bb.97:
-	add	r15, 1
-.LBB5_98:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_102
-# %bb.99:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_100:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	vucomiss	xmm0, dword ptr [rdx]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	setne	r9b
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	setne	r11b
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	setne	r13b
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	setne	bl
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	setne	r12b
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	setne	sil
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	setne	dil
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	setne	r8b
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	setne	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	setne	r15b
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	setne	cl
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	setne	r14b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	setne	al
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r12b, 7
-	or	r12b, bl
-	shl	r11b, 2
-	or	r11b, r9b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r8b, 3
-	or	r8b, dil
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r10b, 4
-	or	r10b, r8b
-	shl	r15b, 5
-	or	r15b, r10b
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r12b, bl
-	or	cl, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	byte ptr [r15], r12b
-	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r14b, 7
-	or	r14b, sil
-	mov	byte ptr [r15 + 1], cl
-	or	r14b, bl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], r14b
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 128
-	add	r15, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_100
-# %bb.101:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-.LBB5_102:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.103:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB5_148
-# %bb.104:
-	xor	edi, edi
-	jmp	.LBB5_150
-.LBB5_105:
-	mov	r11b, byte ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_109
-# %bb.106:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_107:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_107
-# %bb.108:
-	add	r15, 1
-.LBB5_109:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB5_132
-# %bb.110:
-	cmp	r14, 32
-	mov	dword ptr [rsp + 28], r11d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r14      # 8-byte Spill
-	jb	.LBB5_113
-# %bb.111:
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB5_168
-# %bb.112:
-	lea	rax, [r15 + 4*r14]
-	cmp	rdx, rax
-	jae	.LBB5_168
-.LBB5_113:
-	xor	eax, eax
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	mov	r13, r15
-.LBB5_114:
-	sub	r14, qword ptr [rsp + 376]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_115:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx + 31]
-	setne	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 30]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 29]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 28]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 27]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 26]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 25]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 23]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 22]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 21]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 20]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 19]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 18]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 17]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 15]
-	setne	r14b
-	cmp	r11b, byte ptr [rdx + 14]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 13]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 12]
-	setne	r12b
-	cmp	r11b, byte ptr [rdx + 11]
-	setne	r15b
-	cmp	r11b, byte ptr [rdx + 10]
-	setne	r11b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 9]
-	setne	r10b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 7]
-	setne	dil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 6]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 5]
-	setne	r9b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 4]
-	setne	r8b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 3]
-	setne	sil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 2]
-	setne	cl
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx]
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 1]
-	setne	al
-	mov	rbx, r13
-	mov	r13d, dword ptr [rsp + 28]      # 4-byte Reload
-	cmp	r13b, byte ptr [rdx + 8]
-	mov	r13, rbx
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdx + 16]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdx + 24]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	add	al, al
-	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	sil, 3
-	or	sil, cl
-	shl	r8b, 4
-	or	r8b, sil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, r9b
-	mov	byte ptr [r13], dil
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	r11b, 2
-	or	r11b, r10b
-	shl	r15b, 3
-	or	r15b, r11b
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	shl	r12b, 4
-	or	r12b, r15b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r12b
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r14b, 7
-	or	r14b, cl
-	or	r14b, al
-	mov	byte ptr [r13 + 1], r14b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 3], al
-	add	rdx, 32
-	add	r13, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB5_115
-# %bb.116:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 384]      # 8-byte Reload
-	jmp	.LBB5_133
-.LBB5_117:
-	mov	r14d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_121
-# %bb.118:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB5_119:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_119
-# %bb.120:
-	add	r15, 1
-.LBB5_121:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB5_125
-# %bb.122:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_123:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14d, dword ptr [rdx + 124]
-	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 120]
-	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 116]
-	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 112]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 108]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 104]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 100]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 92]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 88]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 84]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 76]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 72]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 68]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 60]
-	setne	r8b
-	cmp	r14d, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 48]
-	setne	r11b
-	cmp	r14d, dword ptr [rdx + 44]
-	setne	r10b
-	cmp	r14d, dword ptr [rdx + 40]
-	setne	r9b
-	cmp	r14d, dword ptr [rdx + 36]
-	setne	dil
-	cmp	r14d, dword ptr [rdx + 28]
-	setne	al
-	cmp	r14d, dword ptr [rdx + 24]
-	setne	bl
-	cmp	r14d, dword ptr [rdx + 20]
-	setne	sil
-	cmp	r14d, dword ptr [rdx + 16]
-	setne	cl
-	cmp	r14d, dword ptr [rdx + 12]
-	setne	r13b
-	cmp	r14d, dword ptr [rdx + 8]
-	setne	r12b
-	cmp	r14d, dword ptr [rdx]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 4]
-	setne	r15b
-	cmp	r14d, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 64]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 96]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	rdx, -128
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB5_123
-# %bb.124:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB5_125:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB5_157
-# %bb.126:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB5_152
-.LBB5_127:
-	xor	edi, edi
-	jmp	.LBB5_154
-.LBB5_128:
-	mov	r13, r15
-.LBB5_129:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB5_157
-# %bb.130:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	je	.LBB5_135
-# %bb.158:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB5_159:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx + rsi]
-	setne	al
-	neg	al
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	movzx	r9d, byte ptr [r13 + rdi]
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	cmp	r11b, byte ptr [rdx + rsi + 1]
-	lea	rsi, [rsi + 2]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r13 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB5_159
-	jmp	.LBB5_162
-.LBB5_132:
-	mov	r13, r15
-.LBB5_133:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB5_157
-# %bb.134:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB5_160
-.LBB5_135:
-	xor	esi, esi
-	jmp	.LBB5_163
-.LBB5_136:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_137:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	al, r9b
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_137
-.LBB5_138:
-	test	r8b, 1
-	je	.LBB5_157
-# %bb.139:
-	vucomisd	xmm0, qword ptr [rdx]
-	jmp	.LBB5_156
-.LBB5_140:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_141:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_141
-.LBB5_142:
-	test	r8b, 1
-	je	.LBB5_157
-# %bb.143:
-	cmp	r14w, word ptr [rdx]
-	jmp	.LBB5_156
-.LBB5_144:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_145:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_145
-.LBB5_146:
-	test	r8b, 1
-	je	.LBB5_157
-# %bb.147:
-	cmp	r14, qword ptr [rdx]
-	jmp	.LBB5_156
-.LBB5_148:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_149:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	al, r9b
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_149
-.LBB5_150:
-	test	r8b, 1
-	je	.LBB5_157
-# %bb.151:
-	vucomiss	xmm0, dword ptr [rdx]
-	jmp	.LBB5_156
-.LBB5_152:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB5_153:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB5_153
-.LBB5_154:
-	test	r8b, 1
-	je	.LBB5_157
-# %bb.155:
-	cmp	r14d, dword ptr [rdx]
-.LBB5_156:
-	setne	al
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	sil, byte ptr [r15 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r15 + rdx], bl
-.LBB5_157:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB5_160:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB5_161:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx + rsi]
-	setne	al
-	neg	al
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	movzx	r9d, byte ptr [r13 + rdi]
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	cmp	r11b, byte ptr [rdx + rsi + 1]
-	lea	rsi, [rsi + 2]
-	setne	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r13 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB5_161
-.LBB5_162:
-	add	rdx, rsi
-.LBB5_163:
-	test	r8b, 1
-	je	.LBB5_157
-# %bb.164:
-	cmp	r11b, byte ptr [rdx]
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r13 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r13 + rdx], bl
-	jmp	.LBB5_157
-.LBB5_165:
-	and	r14, -32
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 392], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 376], r14      # 8-byte Spill
-	lea	rax, [r15 + 4*r14]
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	vmovd	xmm0, r11d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	esi, esi
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_166:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 408], rsi      # 8-byte Spill
-	shl	rsi, 5
-	mov	rax, rsi
-	or	rax, 32
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 64
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 96
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 128
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 160
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 192
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 224
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 256
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 288
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rsi
-	mov	qword ptr [rsp + 264], rsi      # 8-byte Spill
-	or	rax, 320
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rdx + rsi]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rcx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rcx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rcx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rsi + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rdx + rcx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rsi + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rdx + rcx + 6]
-	mov	qword ptr [rsp + 240], rcx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rsi + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rcx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rsi + 7]
-	vmovd	xmm1, eax
-	mov	rax, rsi
-	or	rax, 352
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 384
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 416
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 448
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 480
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 544
-	mov	r13, rax
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	r12, rsi
-	or	r12, 576
-	mov	qword ptr [rsp + 200], r12      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 608
-	mov	r14, rax
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	r15, rsi
-	or	r15, 640
-	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
-	mov	r10, rsi
-	or	r10, 672
-	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 704
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	r8, rsi
-	or	r8, 736
-	mov	qword ptr [rsp + 64], r8        # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 768
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 800
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	r9, rsi
-	or	r9, 832
-	mov	qword ptr [rsp + 176], r9       # 8-byte Spill
-	mov	rdi, rsi
-	or	rdi, 864
-	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
-	mov	rcx, rsi
-	or	rcx, 896
-	mov	qword ptr [rsp + 136], rcx      # 8-byte Spill
-	mov	r11, rsi
-	or	r11, 928
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	mov	rax, rsi
-	or	rax, 960
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	or	rsi, 992
-	mov	qword ptr [rsp + 80], rsi       # 8-byte Spill
-	vpinsrb	xmm9, xmm0, byte ptr [rdx + r13], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + r12], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 5
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 7
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 15
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 1
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 2
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 3
-	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 6
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 7
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 9
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 10
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 14
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13], 15
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 2
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 3
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 4
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 5
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 6
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 9
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 10
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 11
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 12
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 14
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r12 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 1], 2
-	mov	rcx, r14
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 10
-	mov	r11, rax
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 1], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm13, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 1], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, edi
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 2], 1
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 2], 2
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 3
-	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 4
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 9
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 2], 10
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 11
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 2], 12
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 1
-	mov	rax, rcx
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 2
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 3
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 5
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 8
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 2], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 14
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rdx + rsi + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 3], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 5
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 6
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 7
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 8
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 14
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 15
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm8, byte ptr [rdx + rcx + 3], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 2
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 5
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 6
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 8
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 9
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rdi + 3], 14
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 9]
-	vmovd	xmm8, edi
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 4], 1
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 2
-	mov	rbx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 4], 3
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 9
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 10
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 4], 12
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 13
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 4], 15
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm15, byte ptr [rdx + r10 + 4], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 7
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 9
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 15
-	vpinsrb	xmm4, xmm14, byte ptr [rdx + r12 + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 3
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 5], 4
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 5
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 6
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 7
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 11
-	mov	r15, r11
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 5], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 5], 14
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 15
-	vpinsrb	xmm5, xmm6, byte ptr [rdx + r10 + 5], 1
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 2
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 3
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 4
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 5
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + r13 + 5], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, edi
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rdx + r11 + 6], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 2
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 6], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 11
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 12
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 6], 13
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 15
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + r10 + 6], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 2
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 6], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 6], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 7
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 8
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 9
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 11
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 12
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 13
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 14
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 7], 1
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 2
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 3
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 4
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 5
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 7
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 7], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 9
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 10
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 14
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 7], 1
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 7], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 7], 3
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 7], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 9
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 7], 14
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 11]
-	vmovd	xmm1, edi
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 11]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rax + 8], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 2
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 3
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 5
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 6
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 8], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 9
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 8], 10
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 11
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 12
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 15
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r15 + 8], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 2
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 3
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 5
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 6
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 8], 7
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 8
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 10
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 13
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 14
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 15
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + r11 + 9], 1
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 3
-	mov	rbx, rcx
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 4
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 9], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 7
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 9], 10
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 11
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 12
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 15
-	vpinsrb	xmm7, xmm11, byte ptr [rdx + r15 + 9], 1
-	mov	r12, r15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 2
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rdi + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 9], 7
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 8
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 9
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, edi
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 10], 3
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 10], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 8
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 10
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 11
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 15
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 1
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 2
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 3
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 5
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 6
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 7
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 9
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 10
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 14
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 11], 3
-	mov	rax, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 4
-	mov	r11, r13
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 6
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 9
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 12
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 15
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 11], 2
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 5
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 7
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 8
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 9
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 1
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 4
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 12], 5
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 12], 6
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 12], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 10
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 11
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 12
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 13
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 14
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 12], 15
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + rbx + 12], 1
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 2
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 3
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 4
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 6
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 7
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 8
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 9
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 13
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 14
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 13], 2
-	mov	r13, rsi
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 13], 3
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 13], 9
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 10
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 11
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 12
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 15
-	mov	r14, r12
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 3
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 7
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 13], 8
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 13], 9
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 13
-	mov	r15, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rdi + 13], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 14]
-	vmovd	xmm0, edi
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 3
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 14], 7
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 14], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 11
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 12
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 15
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 14], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 2
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 5
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 14], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 9
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 14], 14
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 15]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 2
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 4
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 5
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 15], 6
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 15], 8
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 15], 9
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 15], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 13
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 15
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r10 + 15]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 1
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 15], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 4
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 9
-	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 14
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r9 + 16]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 2
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 3
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 16], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 16], 9
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 16], 10
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 12
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 14
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 15
-	movzx	edi, byte ptr [rdx + r10 + 16]
-	vmovd	xmm1, edi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 2
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 4
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 5
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 7
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 8
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 16], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 16], 13
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 15
-	movzx	edi, byte ptr [rdx + r9 + 17]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 17], 3
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 4
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 5
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 7
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 17], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 10
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 11
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 12
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 17], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 15
-	movzx	edi, byte ptr [rdx + r10 + 17]
-	vmovd	xmm3, edi
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 17], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 2
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 3
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 17], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 7
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 8
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 9
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 12
-	mov	r11, rbx
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 17], 13
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rbx + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 18]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 2
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 3
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 18], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 6
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 18], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 9
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 10
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 11
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 13
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 15
-	movzx	edi, byte ptr [rdx + r10 + 18]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 1
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 3
-	mov	r12, r8
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 4
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 5
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 6
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 18], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 8
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 18], 15
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r15 + 19]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 1
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 19], 2
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 3
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 4
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 5
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 6
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 8
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 19], 9
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 10
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 11
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 12
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 14
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 15
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 19]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 19], 6
-	mov	r14, r8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 7
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 13
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 14
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + r15 + 20]
-	vmovd	xmm0, edi
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 20], 2
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 20], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 20], 4
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 6
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 20], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 10
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 11
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 12
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 20], 15
-	movzx	edi, byte ptr [rdx + rcx + 20]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 3
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 4
-	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 20], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 8
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 9
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 14
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 1
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 21], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 3
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 5
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 21], 7
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 21], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 10
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 11
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 12
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 21]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 2
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 21], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 7
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 9
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 11
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 13
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r12 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 22]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 2
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 6
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 22], 8
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 9
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 22], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 12
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 14
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 22], 15
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 22]
-	vmovd	xmm1, edi
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 2
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 3
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 6
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 22], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 9
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 12
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 14
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 15
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rbx + 23]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 3
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 5
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 23], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 8
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 10
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 11
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 13
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 23], 15
-	movzx	edi, byte ptr [rdx + r11 + 23]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 23], 1
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 2
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 3
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 23], 4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 23], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 9
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 23], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 11
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 13
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm11, ymm3, xmm2, 1
-	movzx	edi, byte ptr [rdx + rbx + 24]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 2
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 24], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 4
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 24], 6
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 24], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 9
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 10
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 11
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 12
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 24], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 15
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 24]
-	vmovd	xmm1, edi
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 2
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 4
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 5
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 6
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 7
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 8
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 24], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 12
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 13
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 14
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 15
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rsi + 25]
-	vmovd	xmm2, edi
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 25], 1
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 25], 3
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 25], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 25], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 11
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 25], 12
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 14
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 15
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 25]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 25], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 3
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 25], 4
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 5
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 25], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 25], 10
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 25], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 25], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rdi + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 26]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 26], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 2
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 3
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 4
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 9
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 10
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 12
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 13
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 15
-	movzx	edi, byte ptr [rdx + rcx + 26]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 2
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 5
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 26], 6
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 9
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 26], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 26], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 13
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 14
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 27]
-	vmovd	xmm2, edi
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 27], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 2
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 8
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 27], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 10
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 11
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 14
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 15
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rsi + 27]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 4
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 7
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 8
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 11
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 12
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 13
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 27], 14
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 1
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 2
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 3
-	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 28], 4
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 7
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 28], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 10
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 11
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 28], 12
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 14
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 15
-	movzx	edi, byte ptr [rdx + rsi + 28]
-	vmovd	xmm1, edi
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 1
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 2
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 5
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 28], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 9
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 12
-	mov	rcx, r11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 28], 14
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 29]
-	vmovd	xmm2, edi
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 2
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 4
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 9
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 10
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 29], 13
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 14
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 15
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 29]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 1
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 4
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 29], 6
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 8
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 9
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 29], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 13
-	vpinsrb	xmm4, xmm3, byte ptr [rdx + r15 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm4, byte ptr [rdx + r11 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + rax + 30]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 30], 1
-	movzx	edi, byte ptr [rdx + rax + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 31], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
-	mov	rax, r10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 31], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 11
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 31], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rdx + r8 + 31], 15
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	eax, byte ptr [rdx + rdi + 30]
-	vmovd	xmm1, eax
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 1
-	movzx	eax, byte ptr [rdx + rdi + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 31], 2
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 31], 5
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 31], 7
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
-	mov	rax, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 31], 12
-	mov	rax, rcx
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 31], 13
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm0, ymm13, ymm2
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI5_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpandn	ymm7, ymm7, ymm5
-	vpaddb	ymm0, ymm7, ymm0
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI5_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm6
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI5_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm14, ymm2
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI5_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm12, ymm12, ymm8
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm0, ymm0, ymm1
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm15, ymm2
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI5_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI5_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI5_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpandn	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm5
-	vpaddb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm6
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm12, ymm12, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm13
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm12, ymm12, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm5
-	vpaddb	ymm7, ymm15, ymm7
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm6
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm3
-	vpor	ymm14, ymm15, ymm14
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm14, ymm14, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm14, ymm7
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm1
-	vpcmpeqb	ymm10, ymm10, ymm2
-	vpandn	ymm10, ymm10, ymm13
-	vpor	ymm10, ymm14, ymm10
-	vpcmpeqb	ymm11, ymm11, ymm2
-	vmovdqa	ymm14, ymm9
-	vpandn	ymm11, ymm11, ymm9
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm9, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpcmpeqb	ymm8, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpandn	ymm8, ymm8, ymm5
-	vpaddb	ymm8, ymm8, ymm9
-	vpcmpeqb	ymm5, ymm2, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpandn	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm6, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpandn	ymm6, ymm6, ymm3
-	vpor	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm3, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI5_3]
-	vpor	ymm3, ymm5, ymm3
-	vpsubb	ymm5, ymm8, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm4, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpandn	ymm4, ymm4, ymm1
-	vpcmpeqb	ymm1, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpandn	ymm1, ymm1, ymm13
-	vpor	ymm1, ymm4, ymm1
-	vpcmpeqb	ymm2, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpandn	ymm2, ymm2, ymm14
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rsi, rcx
-	cmp	rcx, qword ptr [rsp + 376]      # 8-byte Folded Reload
-	jne	.LBB5_166
-# %bb.167:
-	mov	r14, qword ptr [rsp + 384]      # 8-byte Reload
-	cmp	r14, qword ptr [rsp + 376]      # 8-byte Folded Reload
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r13, qword ptr [rsp + 400]      # 8-byte Reload
-	mov	rdx, qword ptr [rsp + 392]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	jne	.LBB5_43
-	jmp	.LBB5_129
-.LBB5_168:
-	and	r14, -32
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 392], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 376], r14      # 8-byte Spill
-	lea	rax, [r15 + 4*r14]
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	vmovd	xmm0, r11d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	xor	ebx, ebx
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_169:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 408], rbx      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rcx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rcx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rcx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	mov	qword ptr [rsp + 256], rbx      # 8-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rdx + rcx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rdx + rcx + 6]
-	mov	qword ptr [rsp + 240], rcx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rcx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 544
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	mov	rcx, rbx
-	or	rcx, 576
-	mov	qword ptr [rsp + 176], rcx      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 608
-	mov	r13, rax
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 640
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	r10, rbx
-	or	r10, 672
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	r9, rbx
-	or	r9, 704
-	mov	qword ptr [rsp + 232], r9       # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 736
-	mov	qword ptr [rsp + 96], r11       # 8-byte Spill
-	mov	r12, rbx
-	or	r12, 768
-	mov	qword ptr [rsp + 112], r12      # 8-byte Spill
-	mov	r8, rbx
-	or	r8, 800
-	mov	qword ptr [rsp + 56], r8        # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 832
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 864
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 896
-	mov	rdi, rax
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 928
-	mov	rsi, rax
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 960
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	or	rbx, 992
-	vpinsrb	xmm9, xmm0, byte ptr [rdx + r14], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 15
-	mov	r12, rbx
-	mov	qword ptr [rsp + 152], rbx      # 8-byte Spill
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 3
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 7
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 14
-	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 15
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 2
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 4
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 5
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 7
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 9
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 1], 11
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 12
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 1], 13
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r11 + 1], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 2
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 5
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 9
-	mov	r13, rdi
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm13, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + r14 + 1], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 6
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 7
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 2], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 2], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 3
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 2], 4
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 8
-	mov	rcx, r13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 9
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 10
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 14
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rdx + r15 + 3], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 2
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 3
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 4
-	mov	rbx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 8
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 9
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 11
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 12
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 14
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rdx + r10 + 3], 1
-	mov	rbx, r10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 3], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 9]
-	vmovd	xmm8, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 1
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 2
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 4], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 4], 4
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 10
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 14
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 4], 15
-	vpinsrb	xmm3, xmm15, byte ptr [rdx + rbx + 4], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 2
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 6
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 15
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rdx + rax + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 6
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 5], 11
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 12
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 5], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 5], 15
-	vpinsrb	xmm5, xmm6, byte ptr [rdx + rbx + 5], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 4
-	mov	r9, r14
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 7
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 8
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 5], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 5], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rdx + rax + 6], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 2
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 3
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 4
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 6], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 6], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 13
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 14
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 15
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + r11 + 6], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 4
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 6], 6
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 9
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 10
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 11
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 14
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 15
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 1
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 5
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 7
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 12
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 1
-	mov	r13, r11
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 6
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 7
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 8
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 9
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rdi + 7], 14
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rdi + 8], 1
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 2
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 4
-	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 8], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 9
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 11
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 13
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 14
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r13 + 8], 1
-	mov	r14, rsi
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 4
-	mov	rdi, r12
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 5
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 6
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 9
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 15
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + rbx + 9], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 9], 3
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 6
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 9], 7
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 9
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 11
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 12
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 14
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 15
-	vpinsrb	xmm7, xmm11, byte ptr [rdx + r13 + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 2
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rdi + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 6
-	mov	r14, rsi
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 9], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 10
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, edi
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 10], 1
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 3
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 5
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 10], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 9
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 4
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 6
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 10], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 12
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 13
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 4
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 13
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 15
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 11], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 11], 8
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 11], 14
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 13]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 1
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 12], 2
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 12], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 15
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + r9 + 12], 1
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 3
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 4
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 5
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 7
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 12], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 5
-	mov	r10, r12
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 6
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 7
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 9
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 11
-	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 12
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 14
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 15
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 3
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 13], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 8
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 13], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 14]
-	vmovd	xmm0, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 1
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 2
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 5
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 7
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 9
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 10
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 14], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 12
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 13
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 15
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 2
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 6
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 9
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 10
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 11
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 15
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r8 + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 4
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 15], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 15], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 15], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 15], 14
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 15
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rbx + 15]
-	vmovd	xmm3, edi
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 2
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 4
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 5
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 6
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 9
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 14
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + r8 + 16]
-	vmovd	xmm0, edi
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 1
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 4
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 16], 6
-	mov	r12, r13
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 7
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 9
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 13
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 15
-	movzx	edi, byte ptr [rdx + rbx + 16]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 1
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 16], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 3
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 9
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 13
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 17]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 1
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 2
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 4
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 6
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 7
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 9
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 17], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 11
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 12
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 17], 14
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 17]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 2
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 5
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 17], 6
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 17], 10
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 11
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rax + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 2
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 3
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 5
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 18], 7
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 8
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 18], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 11
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 13
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 14
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 15
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 18]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 1
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 2
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 18], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 9
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 14
-	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 19]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 2
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 19], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 11
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 15
-	movzx	edi, byte ptr [rdx + r11 + 19]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 3
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 19], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 13
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 20]
-	vmovd	xmm0, edi
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 1
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 2
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 20], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 4
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 5
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 20], 6
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 7
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 9
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 20], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 20], 12
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 20], 13
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 20]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 2
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 6
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 8
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 14
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 15
-	movzx	edi, byte ptr [rdx + rax + 21]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 3
-	mov	r13, r12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 6
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 7
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 9
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 21], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 15
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 21]
-	vmovd	xmm3, edi
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 1
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 3
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 4
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 5
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 6
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 8
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 9
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r9 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 3
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 22], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 10
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 11
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 14
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 15
-	movzx	edi, byte ptr [rdx + r11 + 22]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 22], 6
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 7
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 10
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 23]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 2
-	mov	r14, r13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 4
-	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 5
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 6
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 9
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 11
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 12
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 13
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 23], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 23]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 2
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 8
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 9
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm11, ymm3, xmm2, 1
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 24]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 1
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 24], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 24], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 24], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 7
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 10
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 24], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 15
-	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r14 + 24]
-	vmovd	xmm1, edi
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 3
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 4
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 8
-	mov	r10, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 9
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 25]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 25], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 4
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 7
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 9
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 11
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 13
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 14
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 25], 15
-	movzx	edi, byte ptr [rdx + r14 + 25]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 1
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 2
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 25], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 12
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 25], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rcx + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 26]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 1
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 2
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 4
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 7
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 9
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 13
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 26]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 1
-	mov	rax, r9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 2
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 6
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 7
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 26], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 9
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 26], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 15
-	movzx	edi, byte ptr [rdx + r11 + 27]
-	vmovd	xmm2, edi
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 27], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 3
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 5
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 7
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 27], 10
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 27], 11
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 12
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 27], 14
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 27]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 3
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 27], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 27], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r10 + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 1
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 4
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 28], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 7
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 28], 8
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 9
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 11
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 2
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 4
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 5
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 6
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 9
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 10
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 28], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 15
-	movzx	edi, byte ptr [rdx + r10 + 29]
-	vmovd	xmm2, edi
-	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 2
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 5
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 6
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 9
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 10
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 12
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 14
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 15
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r8 + 29]
-	vmovd	xmm3, edi
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 29], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 11
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 13
-	vpinsrb	xmm4, xmm3, byte ptr [rdx + rcx + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rdx + rax + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 30]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 30], 1
-	movzx	edi, byte ptr [rdx + rcx + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 31], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 31], 6
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 31], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 31], 11
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
-	mov	rcx, r8
-	movzx	eax, byte ptr [rdx + r8 + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 1
-	movzx	eax, byte ptr [rdx + r8 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 31], 1
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 2
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 31], 4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 31], 6
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 31], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpeqb	ymm0, ymm13, ymm2
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI5_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpandn	ymm7, ymm7, ymm5
-	vpaddb	ymm0, ymm7, ymm0
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI5_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm6
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI5_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm14, ymm2
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI5_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm12, ymm12, ymm8
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm0, ymm0, ymm1
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm15, ymm2
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI5_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm7, ymm7, ymm1
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI5_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI5_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpandn	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm5
-	vpaddb	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm6
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm12, ymm12, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm1
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm13
-	vpor	ymm12, ymm12, ymm15
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm12, ymm12, ymm7
-	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm5
-	vpaddb	ymm7, ymm15, ymm7
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm6
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm3
-	vpor	ymm14, ymm15, ymm14
-	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm14, ymm14, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm14, ymm7
-	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm1
-	vpcmpeqb	ymm10, ymm10, ymm2
-	vpandn	ymm10, ymm10, ymm13
-	vpor	ymm10, ymm14, ymm10
-	vpcmpeqb	ymm11, ymm11, ymm2
-	vmovdqa	ymm14, ymm9
-	vpandn	ymm11, ymm11, ymm9
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpeqb	ymm9, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpcmpeqb	ymm8, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpandn	ymm8, ymm8, ymm5
-	vpaddb	ymm8, ymm8, ymm9
-	vpcmpeqb	ymm5, ymm2, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpandn	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm6, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpandn	ymm6, ymm6, ymm3
-	vpor	ymm5, ymm5, ymm6
-	vpcmpeqb	ymm3, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI5_3]
-	vpor	ymm3, ymm5, ymm3
-	vpsubb	ymm5, ymm8, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpeqb	ymm4, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpandn	ymm4, ymm4, ymm1
-	vpcmpeqb	ymm1, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpandn	ymm1, ymm1, ymm13
-	vpor	ymm1, ymm4, ymm1
-	vpcmpeqb	ymm2, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpandn	ymm2, ymm2, ymm14
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rbx, rcx
-	cmp	rcx, qword ptr [rsp + 376]      # 8-byte Folded Reload
-	jne	.LBB5_169
-# %bb.170:
-	mov	r14, qword ptr [rsp + 384]      # 8-byte Reload
-	cmp	r14, qword ptr [rsp + 376]      # 8-byte Folded Reload
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r13, qword ptr [rsp + 400]      # 8-byte Reload
-	mov	rdx, qword ptr [rsp + 392]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	jne	.LBB5_114
-	jmp	.LBB5_133
-.Lfunc_end5:
-	.size	comparison_not_equal_scalar_arr_avx2, .Lfunc_end5-comparison_not_equal_scalar_arr_avx2
-                                        # -- End function
-	.globl	comparison_greater_arr_arr_avx2 # -- Begin function comparison_greater_arr_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_greater_arr_arr_avx2,@function
-comparison_greater_arr_arr_avx2:        # @comparison_greater_arr_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB6_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB6_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB6_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB6_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB6_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx]
-	add	rdx, 4
-	cmp	ecx, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_20
-# %bb.21:
-	add	r14, 1
-.LBB6_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	mov	eax, dword ptr [rsi + 8]
-	seta	r13b
-	cmp	eax, dword ptr [rdx + 8]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	mov	eax, dword ptr [rsi + 16]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	mov	eax, dword ptr [rsi + 24]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 24]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	mov	eax, dword ptr [rsi + 32]
-	seta	r15b
-	cmp	eax, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	mov	eax, dword ptr [rsi + 40]
-	seta	r8b
-	cmp	eax, dword ptr [rdx + 40]
-	seta	bl
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	mov	eax, dword ptr [rsi + 48]
-	seta	r9b
-	cmp	eax, dword ptr [rdx + 48]
-	seta	r12b
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	mov	eax, dword ptr [rsi + 56]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	mov	r11d, dword ptr [rsi + 64]
-	seta	r10b
-	mov	ecx, dword ptr [rsi + 68]
-	mov	eax, dword ptr [rsi + 72]
-	cmp	r11d, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	seta	r14b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 76]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 76]
-	mov	eax, dword ptr [rsi + 80]
-	mov	ecx, dword ptr [rsi + 84]
-	seta	r11b
-	cmp	eax, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 92]
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	seta	dil
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 104]
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 116]
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	seta	al
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r13b
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, cl
-	shl	bl, 2
-	or	bl, r8b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, bl
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r12b, 4
-	or	r12b, r9b
-	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r12b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	r10b, 7
-	or	r10b, r8b
-	or	r15b, cl
-	or	r10b, bl
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	shl	r11b, 3
-	or	r11b, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r11b
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	mov	byte ptr [r14], r15b
-	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	dil, 7
-	or	dil, r8b
-	mov	byte ptr [r14 + 1], r10b
-	or	dil, cl
-	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r14 + 2], dil
-	mov	byte ptr [r14 + 3], al
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_28:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rdx + 4*rcx]
-	cmp	edi, dword ptr [rsi + 4*rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_28
-	jmp	.LBB6_123
-.LBB6_29:
-	cmp	edi, 8
-	jle	.LBB6_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB6_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB6_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB6_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_48:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	vucomisd	xmm0, qword ptr [rdx]
-	seta	r10b
-	add	rdx, 8
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_48
-# %bb.49:
-	add	r14, 1
-.LBB6_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 8]       # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	seta	cl
-	vmovsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	seta	al
-	vmovsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	seta	r15b
-	vmovsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	seta	dil
-	vmovsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	seta	r10b
-	vmovsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	seta	r11b
-	vmovsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	seta	r14b
-	vmovsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	seta	bl
-	vmovsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	seta	r12b
-	vmovsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	seta	r13b
-	vmovsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	seta	r9b
-	vmovsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	vmovsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	seta	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB6_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB6_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_56:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	seta	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_56
-	jmp	.LBB6_123
-.LBB6_2:
-	cmp	edi, 2
-	je	.LBB6_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB6_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_6
-# %bb.7:
-	add	r14, 1
-.LBB6_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setg	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setg	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setg	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setg	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setg	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setg	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setg	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setg	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setg	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setg	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setg	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_14
-	jmp	.LBB6_123
-.LBB6_30:
-	cmp	edi, 7
-	je	.LBB6_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB6_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx]
-	add	rdx, 8
-	cmp	rcx, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_34
-# %bb.35:
-	add	r14, 1
-.LBB6_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	mov	rax, qword ptr [rsi + 16]
-	seta	r13b
-	cmp	rax, qword ptr [rdx + 16]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	mov	rax, qword ptr [rsi + 32]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	mov	rax, qword ptr [rsi + 48]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 48]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	mov	rax, qword ptr [rsi + 64]
-	seta	r15b
-	cmp	rax, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	mov	rax, qword ptr [rsi + 80]
-	seta	r8b
-	cmp	rax, qword ptr [rdx + 80]
-	seta	bl
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	mov	rax, qword ptr [rsi + 96]
-	seta	r9b
-	cmp	rax, qword ptr [rdx + 96]
-	seta	r12b
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	mov	rax, qword ptr [rsi + 112]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	mov	r11, qword ptr [rsi + 128]
-	seta	r10b
-	mov	rcx, qword ptr [rsi + 136]
-	mov	rax, qword ptr [rsi + 144]
-	cmp	r11, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	seta	r14b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 152]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 152]
-	mov	rax, qword ptr [rsi + 160]
-	mov	rcx, qword ptr [rsi + 168]
-	seta	r11b
-	cmp	rax, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 184]
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	seta	dil
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 208]
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 232]
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	seta	al
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r13b
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, cl
-	shl	bl, 2
-	or	bl, r8b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, bl
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r12b, 4
-	or	r12b, r9b
-	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r12b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	r10b, 7
-	or	r10b, r8b
-	or	r15b, cl
-	or	r10b, bl
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	shl	r11b, 3
-	or	r11b, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r11b
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	mov	byte ptr [r14], r15b
-	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	dil, 7
-	or	dil, r8b
-	mov	byte ptr [r14 + 1], r10b
-	or	dil, cl
-	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r14 + 2], dil
-	mov	byte ptr [r14 + 3], al
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_42:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rdx + 8*rcx]
-	cmp	rdi, qword ptr [rsi + 8*rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_42
-	jmp	.LBB6_123
-.LBB6_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx]
-	add	rdx, 2
-	cmp	cx, word ptr [rsi]
-	lea	rsi, [rsi + 2]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_70
-# %bb.71:
-	add	r14, 1
-.LBB6_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	movzx	eax, word ptr [rsi + 4]
-	seta	r13b
-	cmp	ax, word ptr [rdx + 4]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	movzx	eax, word ptr [rsi + 8]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 8]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	movzx	eax, word ptr [rsi + 12]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 12]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	movzx	eax, word ptr [rsi + 16]
-	seta	r15b
-	cmp	ax, word ptr [rdx + 16]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	movzx	eax, word ptr [rsi + 20]
-	seta	r8b
-	cmp	ax, word ptr [rdx + 20]
-	seta	bl
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	movzx	eax, word ptr [rsi + 24]
-	seta	r9b
-	cmp	ax, word ptr [rdx + 24]
-	seta	r12b
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	movzx	eax, word ptr [rsi + 28]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 28]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	movzx	r11d, word ptr [rsi + 32]
-	seta	r10b
-	movzx	ecx, word ptr [rsi + 34]
-	movzx	eax, word ptr [rsi + 36]
-	cmp	r11w, word ptr [rdx + 32]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	seta	r14b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 38]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 38]
-	movzx	eax, word ptr [rsi + 40]
-	movzx	ecx, word ptr [rsi + 42]
-	seta	r11b
-	cmp	ax, word ptr [rdx + 40]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 46]
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	seta	dil
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 52]
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 58]
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	seta	al
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r13b
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, cl
-	shl	bl, 2
-	or	bl, r8b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, bl
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r12b, 4
-	or	r12b, r9b
-	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r12b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	r10b, 7
-	or	r10b, r8b
-	or	r15b, cl
-	or	r10b, bl
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	shl	r11b, 3
-	or	r11b, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r11b
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	mov	byte ptr [r14], r15b
-	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	dil, 7
-	or	dil, r8b
-	mov	byte ptr [r14 + 1], r10b
-	or	dil, cl
-	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r14 + 2], dil
-	mov	byte ptr [r14 + 3], al
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_78:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rdx + 2*rcx]
-	cmp	di, word ptr [rsi + 2*rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_78
-	jmp	.LBB6_123
-.LBB6_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_81
-# %bb.82:
-	add	r14, 1
-.LBB6_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setg	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setg	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setg	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setg	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setg	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setg	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setg	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setg	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setg	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setg	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB6_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB6_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_89
-	jmp	.LBB6_123
-.LBB6_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_103
-# %bb.104:
-	add	r14, 1
-.LBB6_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setg	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setg	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setg	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setg	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setg	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setg	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setg	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setg	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setg	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setg	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB6_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB6_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_111
-	jmp	.LBB6_123
-.LBB6_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_114:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	vucomiss	xmm0, dword ptr [rdx]
-	seta	r10b
-	add	rdx, 4
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_114
-# %bb.115:
-	add	r14, 1
-.LBB6_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 4]       # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	seta	cl
-	vmovss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	seta	al
-	vmovss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	seta	r15b
-	vmovss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	seta	dil
-	vmovss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	seta	r10b
-	vmovss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	seta	r11b
-	vmovss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	seta	r14b
-	vmovss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	seta	bl
-	vmovss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	seta	r12b
-	vmovss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	seta	r13b
-	vmovss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	seta	r9b
-	vmovss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	vmovss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	seta	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB6_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB6_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_122:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	seta	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_122
-	jmp	.LBB6_123
-.LBB6_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx]
-	add	rdx, 1
-	cmp	cl, byte ptr [rsi]
-	lea	rsi, [rsi + 1]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_59
-# %bb.60:
-	add	r14, 1
-.LBB6_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	seta	r13b
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	movzx	eax, byte ptr [rsi + 3]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 3]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	movzx	eax, byte ptr [rsi + 5]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 5]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	movzx	eax, byte ptr [rsi + 7]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 7]
-	seta	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	movzx	eax, byte ptr [rsi + 9]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 9]
-	seta	cl
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	movzx	eax, byte ptr [rsi + 11]
-	seta	r9b
-	cmp	al, byte ptr [rdx + 11]
-	seta	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	movzx	eax, byte ptr [rsi + 13]
-	seta	r10b
-	cmp	al, byte ptr [rdx + 13]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	movzx	eax, byte ptr [rsi + 15]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 15]
-	seta	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	movzx	eax, byte ptr [rsi + 17]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 17]
-	seta	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	movzx	eax, byte ptr [rsi + 19]
-	seta	r14b
-	cmp	al, byte ptr [rdx + 19]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	movzx	eax, byte ptr [rsi + 21]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 21]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	movzx	eax, byte ptr [rsi + 23]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 23]
-	seta	r8b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	movzx	eax, byte ptr [rsi + 25]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 25]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	movzx	eax, byte ptr [rsi + 27]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 27]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	movzx	eax, byte ptr [rsi + 29]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 29]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	seta	dil
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 4]        # 1-byte Folded Reload
-	mov	eax, r13d
-	movzx	r13d, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 20]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 7]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 12]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r12b
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 18]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_67:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rdx + rcx]
-	cmp	bl, byte ptr [rsi + rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_67
-	jmp	.LBB6_123
-.LBB6_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_92
-# %bb.93:
-	add	r14, 1
-.LBB6_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setg	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setg	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setg	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setg	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setg	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setg	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setg	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setg	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setg	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setg	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB6_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB6_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_100
-.LBB6_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end6:
-	.size	comparison_greater_arr_arr_avx2, .Lfunc_end6-comparison_greater_arr_arr_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_greater_arr_scalar_avx2
-.LCPI7_0:
-	.zero	32,1
-.LCPI7_1:
-	.zero	32,4
-.LCPI7_2:
-	.zero	32,8
-.LCPI7_3:
-	.zero	32,16
-.LCPI7_4:
-	.zero	32,32
-.LCPI7_5:
-	.zero	32,64
-.LCPI7_6:
-	.zero	32,128
-	.text
-	.globl	comparison_greater_arr_scalar_avx2
-	.p2align	4, 0x90
-	.type	comparison_greater_arr_scalar_avx2,@function
-comparison_greater_arr_scalar_avx2:     # @comparison_greater_arr_scalar_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1344
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r11, rcx
-	cmp	edi, 6
-	jg	.LBB7_19
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB7_2
-# %bb.10:
-	cmp	edi, 4
-	je	.LBB7_79
-# %bb.11:
-	cmp	edi, 5
-	je	.LBB7_95
-# %bb.12:
-	cmp	edi, 6
-	jne	.LBB7_192
-# %bb.13:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_17
-# %bb.14:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_15:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sbb	edx, edx
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_15
-# %bb.16:
-	add	r11, 1
-.LBB7_17:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_18
-# %bb.112:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_113:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	seta	dil
-	cmp	dword ptr [rsi + 8], r13d
-	seta	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	seta	al
-	cmp	dword ptr [rsi + 28], r13d
-	seta	bl
-	cmp	dword ptr [rsi + 32], r13d
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	seta	dl
-	cmp	dword ptr [rsi + 40], r13d
-	seta	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	seta	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	seta	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	seta	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	seta	cl
-	cmp	dword ptr [rsi + 64], r13d
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	seta	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	seta	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB7_113
-# %bb.114:
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_116
-	jmp	.LBB7_192
-.LBB7_19:
-	cmp	edi, 8
-	jle	.LBB7_20
-# %bb.28:
-	cmp	edi, 9
-	je	.LBB7_148
-# %bb.29:
-	cmp	edi, 11
-	je	.LBB7_164
-# %bb.30:
-	cmp	edi, 12
-	jne	.LBB7_192
-# %bb.31:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB7_35
-# %bb.32:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_33:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sbb	edx, edx
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_33
-# %bb.34:
-	add	r11, 1
-.LBB7_35:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_36
-# %bb.180:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_181:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	setb	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	setb	r9b
-	vucomisd	xmm0, qword ptr [rsi + 16]
-	setb	r14b
-	vucomisd	xmm0, qword ptr [rsi + 24]
-	setb	r13b
-	vucomisd	xmm0, qword ptr [rsi + 32]
-	setb	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 40]
-	setb	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 48]
-	setb	al
-	vucomisd	xmm0, qword ptr [rsi + 56]
-	setb	bl
-	vucomisd	xmm0, qword ptr [rsi + 64]
-	setb	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 72]
-	setb	dl
-	vucomisd	xmm0, qword ptr [rsi + 80]
-	setb	dil
-	vucomisd	xmm0, qword ptr [rsi + 88]
-	setb	r10b
-	vucomisd	xmm0, qword ptr [rsi + 96]
-	setb	r11b
-	vucomisd	xmm0, qword ptr [rsi + 104]
-	setb	r12b
-	vucomisd	xmm0, qword ptr [rsi + 112]
-	setb	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 120]
-	setb	cl
-	vucomisd	xmm0, qword ptr [rsi + 128]
-	setb	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 136]
-	setb	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 144]
-	setb	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 152]
-	setb	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 160]
-	setb	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 168]
-	setb	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 176]
-	setb	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 184]
-	setb	r15b
-	vucomisd	xmm0, qword ptr [rsi + 192]
-	setb	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 200]
-	setb	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 208]
-	setb	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 216]
-	setb	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 224]
-	setb	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 232]
-	setb	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 240]
-	setb	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 248]
-	setb	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 120], -1       # 8-byte Folded Spill
-	jne	.LBB7_181
-# %bb.182:
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_184
-	jmp	.LBB7_192
-.LBB7_2:
-	cmp	edi, 2
-	je	.LBB7_37
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB7_192
-# %bb.4:
-	mov	r14b, byte ptr [rdx]
-	lea	r13, [r10 + 31]
-	test	r10, r10
-	mov	r15, r10
-	cmovns	r13, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_6:                                # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	setg	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_6
-# %bb.7:
-	add	r11, 1
-.LBB7_8:
-	sar	r13, 5
-	cmp	r15, 32
-	jl	.LBB7_9
-# %bb.61:
-	cmp	r13, 32
-	mov	dword ptr [rsp + 4], r14d       # 4-byte Spill
-	mov	qword ptr [rsp + 248], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 360], r13      # 8-byte Spill
-	jb	.LBB7_62
-# %bb.63:
-	mov	rax, r13
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r11, rax
-	jae	.LBB7_65
-# %bb.64:
-	lea	rax, [r11 + 4*r13]
-	cmp	rsi, rax
-	jae	.LBB7_65
-.LBB7_62:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
-.LBB7_68:
-	sub	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 120], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_69:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	setg	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	setg	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	setg	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	setg	al
-	cmp	byte ptr [r12 + 7], r14b
-	setg	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	setg	dl
-	cmp	byte ptr [r12 + 10], r14b
-	setg	sil
-	cmp	byte ptr [r12 + 11], r14b
-	setg	dil
-	cmp	byte ptr [r12 + 12], r14b
-	setg	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	setg	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	setg	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	setg	r14b
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	setg	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	setg	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 256]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 352]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 240]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 352], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 120], -1       # 8-byte Folded Spill
-	jne	.LBB7_69
-# %bb.70:
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r13, qword ptr [rsp + 360]      # 8-byte Reload
-	jmp	.LBB7_71
-.LBB7_20:
-	cmp	edi, 7
-	je	.LBB7_122
-# %bb.21:
-	cmp	edi, 8
-	jne	.LBB7_192
-# %bb.22:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_26
-# %bb.23:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_24:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sbb	edx, edx
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_24
-# %bb.25:
-	add	r11, 1
-.LBB7_26:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_27
-# %bb.138:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_139:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	seta	dil
-	cmp	qword ptr [rsi + 16], r13
-	seta	r14b
-	cmp	qword ptr [rsi + 24], r13
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	seta	al
-	cmp	qword ptr [rsi + 56], r13
-	seta	bl
-	cmp	qword ptr [rsi + 64], r13
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	seta	dl
-	cmp	qword ptr [rsi + 80], r13
-	seta	r9b
-	cmp	qword ptr [rsi + 88], r13
-	seta	r10b
-	cmp	qword ptr [rsi + 96], r13
-	seta	r11b
-	cmp	qword ptr [rsi + 104], r13
-	seta	r12b
-	cmp	qword ptr [rsi + 112], r13
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	seta	cl
-	cmp	qword ptr [rsi + 128], r13
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	seta	r15b
-	cmp	qword ptr [rsi + 192], r13
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	seta	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 256
-	add	r11, 4
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB7_139
-# %bb.140:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_142
-	jmp	.LBB7_192
-.LBB7_79:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_81:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rsi]
-	lea	rsi, [rsi + 2]
-	sbb	edx, edx
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_81
-# %bb.82:
-	add	r11, 1
-.LBB7_83:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_84
-# %bb.85:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_86:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	seta	al
-	cmp	word ptr [rsi + 2], r13w
-	seta	dil
-	cmp	word ptr [rsi + 4], r13w
-	seta	r14b
-	cmp	word ptr [rsi + 6], r13w
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 14], r13w
-	seta	bl
-	cmp	word ptr [rsi + 16], r13w
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	seta	dl
-	cmp	word ptr [rsi + 20], r13w
-	seta	r9b
-	cmp	word ptr [rsi + 22], r13w
-	seta	r10b
-	cmp	word ptr [rsi + 24], r13w
-	seta	r11b
-	cmp	word ptr [rsi + 26], r13w
-	seta	r12b
-	cmp	word ptr [rsi + 28], r13w
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	seta	cl
-	cmp	word ptr [rsi + 32], r13w
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	seta	r15b
-	cmp	word ptr [rsi + 48], r13w
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	seta	r8b
-	add	dil, dil
-	or	dil, al
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB7_86
-# %bb.87:
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_89
-	jmp	.LBB7_192
-.LBB7_95:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_99
-# %bb.96:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_97:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	setg	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_97
-# %bb.98:
-	add	r11, 1
-.LBB7_99:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_100
-# %bb.101:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_102:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setg	dil
-	cmp	word ptr [rsi + 4], r13w
-	setg	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setg	al
-	cmp	word ptr [rsi + 14], r13w
-	setg	bl
-	cmp	word ptr [rsi + 16], r13w
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setg	dl
-	cmp	word ptr [rsi + 20], r13w
-	setg	r9b
-	cmp	word ptr [rsi + 22], r13w
-	setg	r10b
-	cmp	word ptr [rsi + 24], r13w
-	setg	r11b
-	cmp	word ptr [rsi + 26], r13w
-	setg	r12b
-	cmp	word ptr [rsi + 28], r13w
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	setg	cl
-	cmp	word ptr [rsi + 32], r13w
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	setg	r15b
-	cmp	word ptr [rsi + 48], r13w
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	setg	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB7_102
-# %bb.103:
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_105
-	jmp	.LBB7_192
-.LBB7_148:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_152
-# %bb.149:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_150:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setg	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_150
-# %bb.151:
-	add	r11, 1
-.LBB7_152:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_153
-# %bb.154:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_155:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setg	dil
-	cmp	qword ptr [rsi + 16], r13
-	setg	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setg	al
-	cmp	qword ptr [rsi + 56], r13
-	setg	bl
-	cmp	qword ptr [rsi + 64], r13
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setg	dl
-	cmp	qword ptr [rsi + 80], r13
-	setg	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setg	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setg	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setg	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setg	cl
-	cmp	qword ptr [rsi + 128], r13
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setg	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setg	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB7_155
-# %bb.156:
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_158
-	jmp	.LBB7_192
-.LBB7_164:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB7_168
-# %bb.165:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_166:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sbb	edx, edx
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_166
-# %bb.167:
-	add	r11, 1
-.LBB7_168:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_169
-# %bb.170:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_171:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	setb	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	setb	r9b
-	vucomiss	xmm0, dword ptr [rsi + 8]
-	setb	r14b
-	vucomiss	xmm0, dword ptr [rsi + 12]
-	setb	r13b
-	vucomiss	xmm0, dword ptr [rsi + 16]
-	setb	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 20]
-	setb	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 24]
-	setb	al
-	vucomiss	xmm0, dword ptr [rsi + 28]
-	setb	bl
-	vucomiss	xmm0, dword ptr [rsi + 32]
-	setb	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 36]
-	setb	dl
-	vucomiss	xmm0, dword ptr [rsi + 40]
-	setb	dil
-	vucomiss	xmm0, dword ptr [rsi + 44]
-	setb	r10b
-	vucomiss	xmm0, dword ptr [rsi + 48]
-	setb	r11b
-	vucomiss	xmm0, dword ptr [rsi + 52]
-	setb	r12b
-	vucomiss	xmm0, dword ptr [rsi + 56]
-	setb	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 60]
-	setb	cl
-	vucomiss	xmm0, dword ptr [rsi + 64]
-	setb	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 68]
-	setb	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 72]
-	setb	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 76]
-	setb	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 80]
-	setb	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 84]
-	setb	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 88]
-	setb	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 92]
-	setb	r15b
-	vucomiss	xmm0, dword ptr [rsi + 96]
-	setb	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 100]
-	setb	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 104]
-	setb	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 108]
-	setb	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 112]
-	setb	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 116]
-	setb	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 120]
-	setb	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 124]
-	setb	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 120], -1       # 8-byte Folded Spill
-	jne	.LBB7_171
-# %bb.172:
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_174
-	jmp	.LBB7_192
-.LBB7_37:
-	mov	r14b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_41
-# %bb.38:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_39:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rsi]
-	lea	rsi, [rsi + 1]
-	sbb	edx, edx
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_39
-# %bb.40:
-	add	r11, 1
-.LBB7_41:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_42
-# %bb.43:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 4], r14d       # 4-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 376], r15      # 8-byte Spill
-	jb	.LBB7_44
-# %bb.45:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r11, rax
-	jae	.LBB7_47
-# %bb.46:
-	lea	rax, [r11 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB7_47
-.LBB7_44:
-	xor	eax, eax
-	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
-.LBB7_50:
-	sub	r15, qword ptr [rsp + 360]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_51:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	seta	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	seta	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	seta	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	seta	al
-	cmp	byte ptr [r12 + 7], r14b
-	seta	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	seta	dl
-	cmp	byte ptr [r12 + 10], r14b
-	seta	sil
-	cmp	byte ptr [r12 + 11], r14b
-	seta	dil
-	cmp	byte ptr [r12 + 12], r14b
-	seta	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	seta	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	seta	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	seta	r14b
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	seta	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	seta	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 256]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 352]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 240]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 352], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 120], -1       # 8-byte Folded Spill
-	jne	.LBB7_51
-# %bb.52:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 376]      # 8-byte Reload
-	jmp	.LBB7_53
-.LBB7_122:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_126
-# %bb.123:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_124:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setg	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_124
-# %bb.125:
-	add	r11, 1
-.LBB7_126:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB7_127
-# %bb.128:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_129:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setg	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setg	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setg	al
-	cmp	dword ptr [rsi + 28], r13d
-	setg	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setg	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setg	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setg	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setg	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setg	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setg	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setg	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setg	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 128
-	add	r11, 4
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB7_129
-# %bb.130:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB7_132
-	jmp	.LBB7_192
-.LBB7_18:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_116:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_120
-# %bb.117:
-	xor	r11d, r11d
-	jmp	.LBB7_118
-.LBB7_36:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_184:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_186
-# %bb.185:
-	xor	r11d, r11d
-	jmp	.LBB7_188
-.LBB7_9:
-	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
-	mov	r12, rsi
-.LBB7_71:
-	shl	r13, 5
-	cmp	r13, r15
-	jge	.LBB7_192
-# %bb.72:
-	mov	r8, r15
-	sub	r8, r13
-	not	r13
-	add	r13, r15
-	jne	.LBB7_74
-# %bb.73:
-	xor	esi, esi
-	jmp	.LBB7_77
-.LBB7_27:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_142:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_146
-# %bb.143:
-	xor	r11d, r11d
-	jmp	.LBB7_144
-.LBB7_84:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_89:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_93
-# %bb.90:
-	xor	r11d, r11d
-	jmp	.LBB7_91
-.LBB7_100:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_105:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_110
-# %bb.106:
-	xor	r11d, r11d
-	jmp	.LBB7_107
-.LBB7_153:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_158:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_162
-# %bb.159:
-	xor	r11d, r11d
-	jmp	.LBB7_160
-.LBB7_169:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_174:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_178
-# %bb.175:
-	xor	r11d, r11d
-	jmp	.LBB7_176
-.LBB7_42:
-	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
-	mov	r12, rsi
-.LBB7_53:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-# %bb.54:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_56
-# %bb.55:
-	xor	eax, eax
-	jmp	.LBB7_59
-.LBB7_127:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB7_192
-.LBB7_132:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB7_136
-# %bb.133:
-	xor	r11d, r11d
-	jmp	.LBB7_134
-.LBB7_120:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_121:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rsi]
-	sbb	edi, edi
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r15 + rdx]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rdx], al
-	add	r11, 2
-	cmp	r13d, dword ptr [rsi + 4]
-	lea	rsi, [rsi + 8]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB7_121
-.LBB7_118:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.119:
-	cmp	r13d, dword ptr [rsi]
-	jmp	.LBB7_190
-.LBB7_186:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_187:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	sbb	eax, eax
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	sbb	eax, eax
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_187
-.LBB7_188:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.189:
-	vucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB7_190
-.LBB7_74:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 352]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB7_75:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	setg	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	setg	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB7_75
-# %bb.76:
-	add	r12, rsi
-.LBB7_77:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.78:
-	cmp	byte ptr [r12], r14b
-	setg	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 352]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB7_192
-.LBB7_146:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_147:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rsi]
-	sbb	edi, edi
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r15 + rdx]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rdx], al
-	add	r11, 2
-	cmp	r13, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB7_147
-.LBB7_144:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.145:
-	cmp	r13, qword ptr [rsi]
-	jmp	.LBB7_190
-.LBB7_93:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_94:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rsi]
-	sbb	edi, edi
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r15 + rdx]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rdx], al
-	add	r11, 2
-	cmp	r13w, word ptr [rsi + 2]
-	lea	rsi, [rsi + 4]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB7_94
-.LBB7_91:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.92:
-	cmp	r13w, word ptr [rsi]
-	jmp	.LBB7_190
-.LBB7_110:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_111:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setg	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	setg	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_111
-.LBB7_107:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.108:
-	cmp	word ptr [rsi], r13w
-	jmp	.LBB7_109
-.LBB7_162:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_163:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setg	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setg	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_163
-.LBB7_160:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.161:
-	cmp	qword ptr [rsi], r13
-	jmp	.LBB7_109
-.LBB7_178:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_179:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	sbb	eax, eax
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	lea	rsi, [rsi + 8]
-	sbb	eax, eax
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_179
-.LBB7_176:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.177:
-	vucomiss	xmm0, dword ptr [rsi]
-.LBB7_190:
-	sbb	eax, eax
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB7_191
-.LBB7_56:
-	mov	r9, r8
-	and	r9, -2
-	xor	eax, eax
-	mov	r10, qword ptr [rsp + 352]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB7_57:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [r12 + rax]
-	sbb	esi, esi
-	mov	rdi, rax
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	ebx, byte ptr [r10 + rdi]
-	xor	sil, bl
-	and	dl, sil
-	xor	dl, bl
-	mov	byte ptr [r10 + rdi], dl
-	cmp	r14b, byte ptr [r12 + rax + 1]
-	lea	rax, [rax + 2]
-	sbb	esi, esi
-	xor	sil, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, sil
-	xor	bl, dl
-	mov	byte ptr [r10 + rdi], bl
-	cmp	r9, rax
-	jne	.LBB7_57
-# %bb.58:
-	add	r12, rax
-.LBB7_59:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.60:
-	cmp	r14b, byte ptr [r12]
-	sbb	edx, edx
-	mov	rsi, rax
-	shr	rsi, 3
-	mov	r8, qword ptr [rsp + 352]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rsi]
-	and	al, 7
-	mov	bl, 1
-	mov	ecx, eax
-	shl	bl, cl
-	xor	dl, dil
-	and	bl, dl
-	xor	bl, dil
-	mov	byte ptr [r8 + rsi], bl
-	jmp	.LBB7_192
-.LBB7_136:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB7_137:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setg	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setg	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_137
-.LBB7_134:
-	test	r8b, 1
-	je	.LBB7_192
-# %bb.135:
-	cmp	dword ptr [rsi], r13d
-.LBB7_109:
-	setg	al
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB7_191:
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-.LBB7_192:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB7_65:
-	and	r13, -32
-	mov	rax, r13
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 576], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r13      # 8-byte Spill
-	lea	rax, [r11 + 4*r13]
-	mov	qword ptr [rsp + 352], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_66:                               # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	mov	rdx, rcx
-	vmovd	xmm0, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rdx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rdx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 544], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 208], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 576
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 608
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 640
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 672
-	mov	qword ptr [rsp + 184], r11      # 8-byte Spill
-	mov	r8, rbx
-	or	r8, 704
-	mov	qword ptr [rsp + 136], r8       # 8-byte Spill
-	mov	rdx, rbx
-	or	rdx, 736
-	mov	qword ptr [rsp + 176], rdx      # 8-byte Spill
-	mov	r12, rbx
-	or	r12, 768
-	mov	qword ptr [rsp + 160], r12      # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 800
-	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
-	mov	r10, rbx
-	or	r10, 832
-	mov	qword ptr [rsp + 40], r10       # 8-byte Spill
-	mov	r9, rbx
-	or	r9, 864
-	mov	qword ptr [rsp + 64], r9        # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 896
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rdi, rbx
-	or	rdi, 928
-	mov	qword ptr [rsp + 112], rdi      # 8-byte Spill
-	mov	rax, rbx
-	mov	qword ptr [rsp + 224], rbx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rbx], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 11
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 1
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 2
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 3
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 4
-	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 5
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 6
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 4
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 7
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 8
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
-	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 6
-	mov	r8, r9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 14
-	vinserti128	ymm15, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1280], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 544]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 1
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 2
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 2], 8
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 10
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 2], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 2], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + rdx + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 4
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 5
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 6
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
-	mov	r14, r15
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 14
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 3
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 3], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 3], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	mov	r9, rbx
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 1
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 11
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 14
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rsi + rax + 4], 1
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 4
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 5
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 6
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 10
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 11
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 13
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 15
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + r9 + 5], 1
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 2
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 6
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 7
-	mov	r13, rcx
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 11
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + rax + 5], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
-	mov	r10, rdi
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 7
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 5], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 5], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 5], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 5], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + rax + 6], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 2
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 3
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 4
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 5
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 7
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 8
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 9
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 10
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 11
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 6], 12
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 13
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 14
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 15
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rcx + 6], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 6], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 7
-	mov	r10, r14
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 12
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 13
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 14
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 4
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 6
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 7], 9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 10
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 7], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 13
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 15
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 1
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 2
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 3
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 6
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 7], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 7], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 11]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1248], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 11]
-	vmovd	xmm2, edi
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + rax + 8], 1
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 8], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 4
-	mov	rbx, r14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 6
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 8
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 8], 9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 8], 11
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 13
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 15
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rdx + 8], 1
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 8], 2
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 8], 8
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 12
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 15
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r13 + 9], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 6
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 7
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r8 + 9], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 10
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 11
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rax + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
-	mov	r14, rdi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 9], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 4
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 7
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 8
-	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 13
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 15
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 2
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 5
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 11
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 13
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 4
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 5
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 7
-	mov	r9, rdx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 11], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 11
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 7
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm3  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 1
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 3
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 5
-	mov	rbx, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 8
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 9
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 10
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 11
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 13
-	mov	r14, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 12], 14
-	mov	r10, r15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 15
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + r13 + 12], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 13
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 1
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 4
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 6
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 9
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 10
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 12
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 13], 7
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 13], 11
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r14 + 14]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 1
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 3
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 14], 4
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 10
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 11
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 15
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 5
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 13
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
-	movzx	edi, byte ptr [rsi + r13 + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 4
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 6
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 7
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 8
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 9
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 11
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 12
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 13
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 14
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
-	movzx	edi, byte ptr [rsi + r14 + 15]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 6
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 14
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 16]
-	vmovd	xmm0, edi
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 16], 1
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 2
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 16], 3
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 5
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 7
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 9
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 16]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 2
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 7
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 12
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 13
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 16], 15
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 17]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 1
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 3
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 4
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 6
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 8
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 10
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 11
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 13
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 17]
-	vmovd	xmm3, edi
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 1
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 17], 2
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 3
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 6
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 4
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 5
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 7
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 9
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 11
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 15
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 18]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 4
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 5
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 7
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 14
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 15
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 4
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 19], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 19], 6
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 19], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 13
-	mov	r9, qword ptr [rsp + 8]         # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 15
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r10 + 19]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 1
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 20]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 1
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 3
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 5
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 6
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 7
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 8
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 9
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 10
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 11
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 14
-	mov	r14, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 15
-	movzx	edi, byte ptr [rsi + r10 + 20]
-	vmovd	xmm1, edi
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 2
-	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 5
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 6
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 7
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
-	movzx	edi, byte ptr [rsi + r11 + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 4
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 11
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 15
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 21]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 7
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 10
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 12
-	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 13
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r10 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 4
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 6
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 7
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 8
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 9
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 10
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 13
-	mov	r9, qword ptr [rsp + 8]         # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
-	movzx	edi, byte ptr [rsi + r11 + 22]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 2
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 6
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 22], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 22], 13
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 15
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 23]
-	vmovd	xmm2, edi
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 1
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 3
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 4
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 5
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 6
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 7
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 10
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 11
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 12
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 23], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 15
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 23]
-	vmovd	xmm3, edi
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 5
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 7
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 24]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 2
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 3
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 4
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 6
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 7
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 8
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 9
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 10
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 24], 13
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 15
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 24]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 1
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 2
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 5
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 14
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 15
-	movzx	edi, byte ptr [rsi + rcx + 25]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 1
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 3
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 7
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 9
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 10
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 11
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 15
-	movzx	edi, byte ptr [rsi + rdx + 25]
-	vmovd	xmm3, edi
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 5
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 6
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 8
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 12
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 13
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r11 + 25], 15
-	vinserti128	ymm8, ymm0, xmm2, 1
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 26]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 3
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 5
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 6
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 8
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 11
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 12
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 13
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 14
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 15
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 26]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 1
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 2
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 4
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 6
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 7
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 12
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 15
-	movzx	edi, byte ptr [rsi + r11 + 27]
-	vmovd	xmm2, edi
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 1
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 4
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 7
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 8
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 10
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 27], 13
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 15
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 27]
-	vmovd	xmm3, edi
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 1
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 27], 2
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 3
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 5
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 6
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 27], 13
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 1
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 3
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 5
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 7
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 11
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 13
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 15
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r12 + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 4
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 6
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 7
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 9
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 10
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 15
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 29]
-	vmovd	xmm2, edi
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 2
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 4
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 5
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 6
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 7
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 8
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 10
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 12
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 13
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 15
-	movzx	edi, byte ptr [rsi + r12 + 29]
-	vmovd	xmm3, edi
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 1
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 2
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 3
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 5
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 29], 8
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 12
-	mov	r14, rdx
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 13
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + r10 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + rdx + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 30]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 30], 1
-	movzx	edi, byte ptr [rsi + r8 + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 31], 1
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 3
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 31], 5
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	eax, byte ptr [rsi + rcx + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 1
-	movzx	eax, byte ptr [rsi + rcx + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 7
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 8
-	mov	rax, r9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
-	mov	rax, r14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 14
-	mov	rax, rdx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 256], ymm0   # 32-byte Spill
-	vmovdqa	ymm0, ymmword ptr [rsp + 608]   # 32-byte Reload
-	vmovdqa	ymm1, ymmword ptr [rsp + 1280]  # 32-byte Reload
-	vpcmpgtb	ymm2, ymm1, ymm0
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI7_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpand	ymm7, ymm2, ymm1
-	vpsubb	ymm11, ymm7, ymm2
-	vpcmpgtb	ymm7, ymm15, ymm0
-	vpand	ymm7, ymm7, ymm1
-	vmovdqa	ymm2, ymmword ptr [rsp + 544]   # 32-byte Reload
-	vpcmpgtb	ymm12, ymm2, ymm0
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI7_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm12, ymm12, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vmovdqa	ymm2, ymmword ptr [rsp + 448]   # 32-byte Reload
-	vpcmpgtb	ymm7, ymm2, ymm0
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI7_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm7, ymm7, ymm3
-	vpcmpgtb	ymm12, ymm14, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI7_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm12, ymmword ptr [rsp + 416]  # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm0
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI7_4] # ymm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm2
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vmovdqa	ymm7, ymmword ptr [rsp + 512]   # 32-byte Reload
-	vpcmpgtb	ymm7, ymm7, ymm0
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI7_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm7, ymm7, ymm5
-	vmovdqa	ymm12, ymmword ptr [rsp + 1248] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm0
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm15, ymmword ptr [rip + .LCPI7_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm13, ymm11, ymm7
-	vmovdqa	ymm7, ymmword ptr [rsp + 1184]  # 32-byte Reload
-	vpcmpgtb	ymm7, ymm7, ymm0
-	vpand	ymm12, ymm7, ymm1
-	vpsubb	ymm7, ymm12, ymm7
-	vmovdqa	ymm11, ymmword ptr [rsp + 1216] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm11, ymm0
-	vpand	ymm12, ymm12, ymm1
-	vmovdqa	ymm11, ymmword ptr [rsp + 1152] # 32-byte Reload
-	vpcmpgtb	ymm11, ymm11, ymm0
-	vpand	ymm11, ymm11, ymm6
-	vpor	ymm11, ymm12, ymm11
-	vpor	ymm7, ymm11, ymm7
-	vmovdqa	ymm11, ymmword ptr [rsp + 1120] # 32-byte Reload
-	vpcmpgtb	ymm11, ymm11, ymm0
-	vpand	ymm11, ymm11, ymm3
-	vmovdqa	ymm12, ymmword ptr [rsp + 1088] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm0
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm11, ymm11, ymm12
-	vmovdqa	ymm12, ymmword ptr [rsp + 1056] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm0
-	vpand	ymm12, ymm12, ymm2
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm7, ymm11, ymm7
-	vmovdqa	ymm11, ymmword ptr [rsp + 992]  # 32-byte Reload
-	vpcmpgtb	ymm11, ymm11, ymm0
-	vpand	ymm11, ymm11, ymm5
-	vmovdqa	ymm12, ymmword ptr [rsp + 1024] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm0
-	vpsllw	ymm12, ymm12, 7
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm12, ymm11, ymm7
-	vmovdqa	ymm7, ymmword ptr [rsp + 928]   # 32-byte Reload
-	vpcmpgtb	ymm7, ymm7, ymm0
-	vpand	ymm11, ymm7, ymm1
-	vpsubb	ymm7, ymm11, ymm7
-	vmovdqa	ymm11, ymmword ptr [rsp + 960]  # 32-byte Reload
-	vpcmpgtb	ymm11, ymm11, ymm0
-	vpand	ymm11, ymm11, ymm1
-	vmovdqa	ymm14, ymmword ptr [rsp + 864]  # 32-byte Reload
-	vpcmpgtb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm6
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vmovdqa	ymm11, ymmword ptr [rsp + 896]  # 32-byte Reload
-	vpcmpgtb	ymm11, ymm11, ymm0
-	vpand	ymm11, ymm11, ymm3
-	vmovdqa	ymm14, ymmword ptr [rsp + 800]  # 32-byte Reload
-	vpcmpgtb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm11, ymm11, ymm14
-	vmovdqa	ymm14, ymmword ptr [rsp + 832]  # 32-byte Reload
-	vpcmpgtb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm2
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpgtb	ymm10, ymm10, ymm0
-	vmovdqa	ymm14, ymm5
-	vpand	ymm10, ymm10, ymm5
-	vmovdqa	ymm11, ymmword ptr [rsp + 768]  # 32-byte Reload
-	vpcmpgtb	ymm11, ymm11, ymm0
-	vpsllw	ymm11, ymm11, 7
-	vpand	ymm11, ymm11, ymm15
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpgtb	ymm8, ymm8, ymm0
-	vpand	ymm10, ymm8, ymm1
-	vpsubb	ymm8, ymm10, ymm8
-	vpcmpgtb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm1
-	vmovdqa	ymm1, ymmword ptr [rsp + 640]   # 32-byte Reload
-	vpcmpgtb	ymm5, ymm1, ymm0
-	vpand	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vpor	ymm5, ymm8, ymm5
-	vmovdqa	ymm1, ymmword ptr [rsp + 672]   # 32-byte Reload
-	vpcmpgtb	ymm6, ymm1, ymm0
-	vpand	ymm6, ymm6, ymm3
-	vmovdqa	ymm1, ymmword ptr [rsp + 736]   # 32-byte Reload
-	vpcmpgtb	ymm3, ymm1, ymm0
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm6, ymm3
-	vmovdqa	ymm1, ymmword ptr [rsp + 704]   # 32-byte Reload
-	vpcmpgtb	ymm4, ymm1, ymm0
-	vpand	ymm4, ymm4, ymm2
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vmovdqa	ymm1, ymmword ptr [rsp + 288]   # 32-byte Reload
-	vpcmpgtb	ymm1, ymm1, ymm0
-	vpand	ymm1, ymm14, ymm1
-	vmovdqa	ymm2, ymmword ptr [rsp + 256]   # 32-byte Reload
-	vpcmpgtb	ymm2, ymm2, ymm0
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 368]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB7_66
-# %bb.67:
-	mov	r13, qword ptr [rsp + 360]      # 8-byte Reload
-	cmp	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	r12, qword ptr [rsp + 576]      # 8-byte Reload
-	jne	.LBB7_68
-	jmp	.LBB7_71
-.LBB7_47:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 504], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 360], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 352], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	vmovdqa	ymm14, ymmword ptr [rsp + 576]  # 32-byte Reload
-	.p2align	4, 0x90
-.LBB7_48:                               # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rcx + 2]
-	mov	rdx, rcx
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 512], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 184], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	r13, rbx
-	or	r13, 544
-	mov	qword ptr [rsp + 56], r13       # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 576
-	mov	r14, rbx
-	or	r14, 608
-	mov	qword ptr [rsp + 72], r14       # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 640
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	or	rbx, 672
-	mov	qword ptr [rsp + 144], rbx      # 8-byte Spill
-	mov	r12, rcx
-	or	r12, 704
-	mov	qword ptr [rsp + 200], r12      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 736
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 768
-	mov	qword ptr [rsp + 120], r8       # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 800
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	r9, rcx
-	or	r9, 832
-	mov	qword ptr [rsp + 88], r9        # 8-byte Spill
-	mov	rdi, rcx
-	or	rdi, 864
-	mov	qword ptr [rsp + 176], rdi      # 8-byte Spill
-	mov	rdx, rcx
-	or	rdx, 896
-	mov	qword ptr [rsp + 160], rdx      # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 928
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 232], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 208], rcx      # 8-byte Spill
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
-	mov	qword ptr [rsp + 80], r11       # 8-byte Spill
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + r11], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 6
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 8
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 1
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 2
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 3
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 5
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 6
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 10
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 15
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vpminub	ymm3, ymm14, ymm0
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 1], 2
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 3
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 4
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 1], 5
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 1], 7
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 9
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 10
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 11
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 12
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 13
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 14
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r10 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 3
-	mov	r10, r15
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 4
-	mov	r13, r8
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	vpcmpeqb	ymm0, ymm0, ymm3
-	vmovdqa	ymmword ptr [rsp + 1280], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 14
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 1], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 448]   # 16-byte Reload
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 3
-	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 2], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 5
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 6
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 7
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 8
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 11
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 416]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 2], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 2], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 2], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 2], 5
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 6
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 2], 7
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 2], 8
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 2], 9
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 2], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + r8 + 3], 1
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 2
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 4
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 7
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 9
-	mov	r9, r15
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 10
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 12
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 14
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 2
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 3], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 7
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 3], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 14
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 15
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 512]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 1
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 3
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 5
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 6
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 7
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 9
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 10
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 12
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rsi + rax + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 5
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 6
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 7
-	mov	rcx, r10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 11
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 13
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 15
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm15, byte ptr [rsi + rax + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 2
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 4
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 11
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 5], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 15
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + r11 + 5], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 2
-	mov	r9, r14
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 6
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 8
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 9
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 10
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 11
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	vinserti128	ymm13, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + r10 + 5], 14
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 10]
-	vmovd	xmm3, edi
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 5], 15
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 10]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + rax + 6], 1
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 2
-	mov	r8, r12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 6], 3
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 5
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 6
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 6], 7
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 8
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 12
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 14
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 15
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + r11 + 6], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 2
-	mov	r11, r14
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 5
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 6
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 7
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 6], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 14
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 15
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 5
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 7], 7
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 9
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 10
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 11
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 15
-	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 7], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 7], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 4
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 7], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 7], 8
-	mov	r14, r10
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 15
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm0, edi
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1248], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm1, edi
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm2, xmm9, byte ptr [rsi + r8 + 8], 1
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 8], 2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 5
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 8], 6
-	mov	r11, r12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 8], 7
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 8], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 8], 9
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 8], 10
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 8], 11
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 14
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 8], 15
-	mov	rcx, r15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + r15 + 8], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 8], 8
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 8], 9
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 10
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 11
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 15
-	vinserti128	ymm2, ymm5, xmm2, 1
-	vpminub	ymm5, ymm14, ymm2
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r8 + 9], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r9 + 9], 2
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 3
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 4
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 8
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r13 + 9], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 11
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 12
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r9 + 9], 13
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
-	mov	r12, rax
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 15
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rcx + 9], 1
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 9], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 9], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
-	vpcmpeqb	ymm2, ymm2, ymm5
-	vmovdqa	ymmword ptr [rsp + 1216], ymm2  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm2, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
-	mov	r13, r15
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 5
-	mov	r14, r10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 7
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 8
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 11
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 13
-	mov	r9, r12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 15
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 10], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 4
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 6
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 7
-	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 10], 8
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 9
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 10
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 11
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 12
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 13
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 10], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 1
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 2
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 11], 4
-	mov	rbx, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 11], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 11], 6
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 11], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 11], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 11], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 10
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 11], 11
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 11], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 11], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 11], 14
-	mov	r10, r9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 11], 15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 5
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 8
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 9
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 10
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 11
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm3  # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 14
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 13]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 13]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm2, byte ptr [rsi + rdi + 12], 1
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 2
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 12], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 12], 4
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 5
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 12], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 12], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 12], 10
-	mov	r9, r13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 12], 11
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 12], 12
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 12], 14
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 12], 15
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + rcx + 12], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 6
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 12], 10
-	mov	r10, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 12], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 12
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 12], 13
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 15
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 5
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 8
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 13], 12
-	mov	rbx, r13
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 13], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 13], 5
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 13], 7
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 13], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 13], 11
-	mov	r9, r10
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 13], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 13], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 15
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 2
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 14], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 4
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 6
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 7
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 9
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 12
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 14], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 14], 15
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 3
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 5
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 14], 8
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 11
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 15
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 15]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 1
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 3
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 5
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 7
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 11
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 15]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 4
-	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 5
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 6
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 7
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 9
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 10
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 12
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 16]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 2
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 16], 4
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 5
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 7
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 12
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 14
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 16]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 6
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 8
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 16], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 14
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 15
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r15 + 17]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 1
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 2
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 17], 6
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 8
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 10
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 17], 11
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 12
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 15
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r12 + 17]
-	vmovd	xmm3, edi
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 1
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 2
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 3
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 4
-	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 17], 5
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 17], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 10
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vpinsrb	xmm1, xmm3, byte ptr [rsi + r11 + 17], 15
-	vpminub	ymm3, ymm14, ymm0
-	vpcmpeqb	ymm0, ymm0, ymm3
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	vinserti128	ymm0, ymm1, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r15 + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 2
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 4
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 18], 5
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 6
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 7
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 18], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 18], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 15
-	movzx	edi, byte ptr [rsi + r12 + 18]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 1
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 18], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 5
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 7
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 10
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 11
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 14
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 15
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 2
-	mov	r13, r14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 19], 3
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 19], 5
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 19], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 11
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 19], 12
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 14
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 19], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 8
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rcx + 19], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 20]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 20], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 6
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 7
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 20], 8
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 10
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 12
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 14
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 15
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 20]
-	vmovd	xmm1, edi
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 2
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 5
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 6
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 14
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 1
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 2
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 4
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 5
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 21], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 21], 11
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 13
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 21], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 15
-	mov	r9, rax
-	movzx	edi, byte ptr [rsi + r8 + 21]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 5
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 7
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 8
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 9
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 10
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 11
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 14
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 15
-	vinserti128	ymm11, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 2
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 3
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 7
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 22], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 22], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 22]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 2
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 22], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 5
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 10
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 14
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 15
-	movzx	edi, byte ptr [rsi + rcx + 23]
-	vmovd	xmm2, edi
-	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 1
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 2
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 3
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 10
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 14
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 15
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r10 + 23]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 3
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 5
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 6
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 7
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 8
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 9
-	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 11
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 13
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 23], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 24]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 24], 1
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 2
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 3
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 4
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 5
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 6
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 24], 7
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 8
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 11
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 12
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 15
-	movzx	edi, byte ptr [rsi + r10 + 24]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 1
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 24], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 4
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 8
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 10
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 11
-	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 12
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 15
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r9 + 25]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 5
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 7
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 9
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 25], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 11
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 12
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 14
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 15
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 25]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 5
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 7
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 25], 8
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 25], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 13
-	vinserti128	ymm0, ymm1, xmm0, 1
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm3, byte ptr [rsi + rcx + 25], 14
-	vpminub	ymm3, ymm14, ymm0
-	vpcmpeqb	ymm0, ymm0, ymm3
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rcx + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 384], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r9 + 26]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 2
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 3
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 7
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 8
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 11
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 14
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 26]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 1
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 6
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 26], 8
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 10
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 11
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 15
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r12 + 27]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 1
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 3
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 4
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 5
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 6
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 7
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 8
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 12
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 15
-	mov	r9, rdx
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 27]
-	vmovd	xmm3, edi
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 27], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 27], 4
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 5
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 6
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 27], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 9
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 10
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 11
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 13
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 14
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r12 + 28]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 2
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 5
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 6
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 7
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 28], 9
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 10
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 11
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 28], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 13
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 28], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 15
-	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 28]
-	vmovd	xmm1, edi
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 2
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 5
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 6
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 8
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 10
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 11
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 14
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 15
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 29]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 1
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 4
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 6
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 29], 8
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 29], 12
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 14
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 29], 15
-	movzx	edi, byte ptr [rsi + r8 + 29]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 1
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 2
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 3
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 5
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 6
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 7
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 29], 9
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + r15 + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + r10 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 30]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 1
-	movzx	edi, byte ptr [rsi + r11 + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	mov	rax, rbx
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 31], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 31], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + r14 + 31], 15
-	mov	rdx, r8
-	movzx	eax, byte ptr [rsi + r8 + 30]
-	vmovd	xmm1, eax
-	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
-	movzx	eax, byte ptr [rsi + rdx + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
-	mov	rax, r13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 31], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 7
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 31], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 256], ymm0   # 32-byte Spill
-	vmovdqa	ymm1, ymmword ptr [rsp + 544]   # 32-byte Reload
-	vpminub	ymm0, ymm14, ymm1
-	vpcmpeqb	ymm0, ymm1, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI7_0] # ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpandn	ymm7, ymm0, ymm4
-	vpaddb	ymm0, ymm7, ymm0
-	vmovdqa	ymm2, ymmword ptr [rsp + 448]   # 32-byte Reload
-	vpminub	ymm7, ymm14, ymm2
-	vpcmpeqb	ymm7, ymm2, ymm7
-	vmovdqa	ymm2, ymmword ptr [rsp + 1280]  # 32-byte Reload
-	vpandn	ymm12, ymm2, ymm4
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI7_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm2, ymmword ptr [rsp + 416]   # 32-byte Reload
-	vpminub	ymm12, ymm14, ymm2
-	vpcmpeqb	ymm12, ymm12, ymm2
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI7_2] # ymm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm5
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm0, ymm0, ymm1
-	vpor	ymm0, ymm0, ymm7
-	vpminub	ymm7, ymm13, ymm14
-	vpcmpeqb	ymm7, ymm13, ymm7
-	vpminub	ymm12, ymm15, ymm14
-	vpcmpeqb	ymm12, ymm15, ymm12
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI7_3] # ymm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm7, ymm7, ymm3
-	vmovdqa	ymm10, ymmword ptr [rip + .LCPI7_4] # ymm10 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm12, ymm12, ymm10
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm13, ymmword ptr [rsp + 512]  # 32-byte Reload
-	vpminub	ymm12, ymm13, ymm14
-	vpcmpeqb	ymm12, ymm13, ymm12
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI7_5] # ymm2 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm2
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm13, ymmword ptr [rsp + 1248] # 32-byte Reload
-	vpminub	ymm12, ymm13, ymm14
-	vpcmpeqb	ymm12, ymm13, ymm12
-	vpxor	ymm12, ymm12, ymm1
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI7_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vmovdqa	ymm12, ymmword ptr [rsp + 1184] # 32-byte Reload
-	vpminub	ymm7, ymm12, ymm14
-	vpcmpeqb	ymm7, ymm12, ymm7
-	vpandn	ymm12, ymm7, ymm4
-	vpaddb	ymm7, ymm12, ymm7
-	vmovdqa	ymm13, ymmword ptr [rsp + 1152] # 32-byte Reload
-	vpminub	ymm12, ymm13, ymm14
-	vpcmpeqb	ymm12, ymm13, ymm12
-	vmovdqa	ymm13, ymmword ptr [rsp + 1216] # 32-byte Reload
-	vpandn	ymm13, ymm13, ymm4
-	vpandn	ymm12, ymm12, ymm6
-	vpor	ymm12, ymm13, ymm12
-	vmovdqa	ymm15, ymmword ptr [rsp + 1120] # 32-byte Reload
-	vpminub	ymm13, ymm15, ymm14
-	vpcmpeqb	ymm13, ymm15, ymm13
-	vpandn	ymm13, ymm13, ymm5
-	vpor	ymm12, ymm12, ymm13
-	vpsubb	ymm7, ymm7, ymm1
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm13, ymmword ptr [rsp + 1088] # 32-byte Reload
-	vpminub	ymm12, ymm13, ymm14
-	vpcmpeqb	ymm12, ymm13, ymm12
-	vmovdqa	ymm15, ymmword ptr [rsp + 1056] # 32-byte Reload
-	vpminub	ymm13, ymm15, ymm14
-	vpcmpeqb	ymm13, ymm15, ymm13
-	vpandn	ymm12, ymm12, ymm3
-	vpandn	ymm13, ymm13, ymm10
-	vpor	ymm12, ymm12, ymm13
-	vmovdqa	ymm15, ymmword ptr [rsp + 960]  # 32-byte Reload
-	vpminub	ymm13, ymm15, ymm14
-	vpcmpeqb	ymm13, ymm15, ymm13
-	vpandn	ymm13, ymm13, ymm2
-	vpor	ymm12, ymm12, ymm13
-	vmovdqa	ymm15, ymmword ptr [rsp + 992]  # 32-byte Reload
-	vpminub	ymm13, ymm15, ymm14
-	vpcmpeqb	ymm13, ymm15, ymm13
-	vpxor	ymm13, ymm13, ymm1
-	vpsllw	ymm13, ymm13, 7
-	vpand	ymm13, ymm13, ymm9
-	vpor	ymm12, ymm12, ymm13
-	vpor	ymm12, ymm12, ymm7
-	vmovdqa	ymm13, ymmword ptr [rsp + 928]  # 32-byte Reload
-	vpminub	ymm7, ymm13, ymm14
-	vpcmpeqb	ymm7, ymm13, ymm7
-	vpandn	ymm13, ymm7, ymm4
-	vpaddb	ymm7, ymm13, ymm7
-	vmovdqa	ymm0, ymmword ptr [rsp + 864]   # 32-byte Reload
-	vpminub	ymm13, ymm14, ymm0
-	vpcmpeqb	ymm13, ymm13, ymm0
-	vmovdqa	ymm15, ymmword ptr [rsp + 1024] # 32-byte Reload
-	vpandn	ymm15, ymm15, ymm4
-	vpandn	ymm13, ymm13, ymm6
-	vpor	ymm13, ymm15, ymm13
-	vmovdqa	ymm0, ymmword ptr [rsp + 896]   # 32-byte Reload
-	vpminub	ymm15, ymm14, ymm0
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm5
-	vpor	ymm13, ymm13, ymm15
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm7, ymm7, ymm1
-	vpor	ymm7, ymm13, ymm7
-	vpminub	ymm13, ymm11, ymm14
-	vpcmpeqb	ymm11, ymm11, ymm13
-	vmovdqa	ymm0, ymmword ptr [rsp + 832]   # 32-byte Reload
-	vpminub	ymm13, ymm14, ymm0
-	vpcmpeqb	ymm13, ymm13, ymm0
-	vpandn	ymm11, ymm11, ymm3
-	vmovdqa	ymm15, ymm10
-	vpandn	ymm13, ymm13, ymm10
-	vpor	ymm11, ymm11, ymm13
-	vmovdqa	ymm0, ymmword ptr [rsp + 608]   # 32-byte Reload
-	vpminub	ymm13, ymm14, ymm0
-	vpcmpeqb	ymm8, ymm13, ymm0
-	vpandn	ymm8, ymm8, ymm2
-	vpor	ymm8, ymm11, ymm8
-	vmovdqa	ymm0, ymmword ptr [rsp + 640]   # 32-byte Reload
-	vpminub	ymm11, ymm14, ymm0
-	vpcmpeqb	ymm10, ymm11, ymm0
-	vpxor	ymm10, ymm10, ymm1
-	vpcmpeqd	ymm11, ymm11, ymm11
-	vpsllw	ymm10, ymm10, 7
-	vmovdqa	ymm13, ymm9
-	vpand	ymm10, ymm10, ymm9
-	vpor	ymm8, ymm8, ymm10
-	vpor	ymm8, ymm8, ymm7
-	vmovdqa	ymm0, ymmword ptr [rsp + 384]   # 32-byte Reload
-	vpminub	ymm7, ymm14, ymm0
-	vpcmpeqb	ymm7, ymm0, ymm7
-	vpandn	ymm9, ymm7, ymm4
-	vpaddb	ymm7, ymm9, ymm7
-	vmovdqa	ymm0, ymmword ptr [rsp + 672]   # 32-byte Reload
-	vpminub	ymm9, ymm14, ymm0
-	vpcmpeqb	ymm5, ymm9, ymm0
-	vmovdqa	ymm0, ymmword ptr [rsp + 800]   # 32-byte Reload
-	vpandn	ymm9, ymm0, ymm4
-	vpandn	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vmovdqa	ymm0, ymmword ptr [rsp + 704]   # 32-byte Reload
-	vpminub	ymm9, ymm14, ymm0
-	vpcmpeqb	ymm6, ymm9, ymm0
-	vpandn	ymm6, ymm6, ymmword ptr [rip + .LCPI7_2]
-	vpor	ymm5, ymm5, ymm6
-	vpsubb	ymm6, ymm7, ymm11
-	vpor	ymm5, ymm6, ymm5
-	vmovdqa	ymm0, ymmword ptr [rsp + 736]   # 32-byte Reload
-	vpminub	ymm6, ymm14, ymm0
-	vpcmpeqb	ymm3, ymm0, ymm6
-	vmovdqa	ymm0, ymmword ptr [rsp + 768]   # 32-byte Reload
-	vpminub	ymm6, ymm14, ymm0
-	vpcmpeqb	ymm4, ymm0, ymm6
-	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI7_3]
-	vpandn	ymm4, ymm4, ymm15
-	vpor	ymm3, ymm3, ymm4
-	vmovdqa	ymm0, ymmword ptr [rsp + 288]   # 32-byte Reload
-	vpminub	ymm4, ymm14, ymm0
-	vpcmpeqb	ymm1, ymm0, ymm4
-	vpandn	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vmovdqa	ymm0, ymmword ptr [rsp + 256]   # 32-byte Reload
-	vpminub	ymm3, ymm14, ymm0
-	vpcmpeqb	ymm2, ymm0, ymm3
-	vpxor	ymm2, ymm11, ymm2
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm13, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm5, ymm1
-	vmovdqa	ymm0, ymmword ptr [rsp + 320]   # 32-byte Reload
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm8, ymm1        # ymm3 = ymm8[0],ymm1[0],ymm8[1],ymm1[1],ymm8[2],ymm1[2],ymm8[3],ymm1[3],ymm8[4],ymm1[4],ymm8[5],ymm1[5],ymm8[6],ymm1[6],ymm8[7],ymm1[7],ymm8[16],ymm1[16],ymm8[17],ymm1[17],ymm8[18],ymm1[18],ymm8[19],ymm1[19],ymm8[20],ymm1[20],ymm8[21],ymm1[21],ymm8[22],ymm1[22],ymm8[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm8, ymm1        # ymm1 = ymm8[8],ymm1[8],ymm8[9],ymm1[9],ymm8[10],ymm1[10],ymm8[11],ymm1[11],ymm8[12],ymm1[12],ymm8[13],ymm1[13],ymm8[14],ymm1[14],ymm8[15],ymm1[15],ymm8[24],ymm1[24],ymm8[25],ymm1[25],ymm8[26],ymm1[26],ymm8[27],ymm1[27],ymm8[28],ymm1[28],ymm8[29],ymm1[29],ymm8[30],ymm1[30],ymm8[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 368]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 360]      # 8-byte Folded Reload
-	jne	.LBB7_48
-# %bb.49:
-	mov	r15, qword ptr [rsp + 376]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 360]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	r12, qword ptr [rsp + 504]      # 8-byte Reload
-	jne	.LBB7_50
-	jmp	.LBB7_53
-.Lfunc_end7:
-	.size	comparison_greater_arr_scalar_avx2, .Lfunc_end7-comparison_greater_arr_scalar_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_greater_scalar_arr_avx2
-.LCPI8_0:
-	.zero	32,1
-.LCPI8_1:
-	.zero	32,4
-.LCPI8_2:
-	.zero	32,8
-.LCPI8_3:
-	.zero	32,16
-.LCPI8_4:
-	.zero	32,32
-.LCPI8_5:
-	.zero	32,64
-.LCPI8_6:
-	.zero	32,128
-	.text
-	.globl	comparison_greater_scalar_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_greater_scalar_arr_avx2,@function
-comparison_greater_scalar_arr_avx2:     # @comparison_greater_scalar_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1312
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r11, rcx
-	cmp	edi, 6
-	jg	.LBB8_13
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB8_28
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB8_51
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB8_59
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB8_179
-# %bb.5:
-	mov	r13d, dword ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rdx], r13d
-	lea	rdx, [rdx + 4]
-	sbb	esi, esi
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_7
-# %bb.8:
-	add	r11, 1
-.LBB8_9:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_115
-# %bb.10:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_11:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	seta	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	seta	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	seta	al
-	cmp	r13d, dword ptr [rdx + 28]
-	seta	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	seta	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	seta	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	seta	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	seta	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	seta	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	seta	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	seta	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	seta	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB8_11
-# %bb.12:
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB8_116
-	jmp	.LBB8_179
-.LBB8_13:
-	cmp	edi, 8
-	jle	.LBB8_41
-# %bb.14:
-	cmp	edi, 9
-	je	.LBB8_70
-# %bb.15:
-	cmp	edi, 11
-	je	.LBB8_81
-# %bb.16:
-	cmp	edi, 12
-	jne	.LBB8_179
-# %bb.17:
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB8_21
-# %bb.18:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_19:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	seta	bl
-	add	rdx, 8
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_19
-# %bb.20:
-	add	r11, 1
-.LBB8_21:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB8_25
-# %bb.22:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_23:                               # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	seta	r8b
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	seta	r14b
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	seta	r13b
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	seta	al
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	seta	r11b
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	seta	sil
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	seta	dil
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	seta	r9b
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	seta	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	seta	r12b
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	seta	cl
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	seta	r15b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	seta	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r13b
-	mov	r8d, eax
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 256
-	add	rsi, 4
-	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 128], -1       # 8-byte Folded Spill
-	jne	.LBB8_23
-# %bb.24:
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-.LBB8_25:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB8_179
-# %bb.26:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB8_133
-# %bb.27:
-	xor	edi, edi
-	jmp	.LBB8_135
-.LBB8_28:
-	cmp	edi, 2
-	je	.LBB8_92
-# %bb.29:
-	cmp	edi, 3
-	jne	.LBB8_179
-# %bb.30:
-	mov	r14b, byte ptr [rsi]
-	lea	r13, [r10 + 31]
-	test	r10, r10
-	cmovns	r13, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_128
-# %bb.31:
-	movsxd	rax, r9d
-	mov	r15, r11
-	.p2align	4, 0x90
-.LBB8_32:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_32
-# %bb.33:
-	add	r15, 1
-	sar	r13, 5
-	cmp	r10, 32
-	jl	.LBB8_129
-.LBB8_34:
-	cmp	r13, 32
-	mov	dword ptr [rsp + 4], r14d       # 4-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 360], r13      # 8-byte Spill
-	jb	.LBB8_37
-# %bb.35:
-	mov	rax, r13
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB8_180
-# %bb.36:
-	lea	rax, [r15 + 4*r13]
-	cmp	rdx, rax
-	jae	.LBB8_180
-.LBB8_37:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rdx
-	mov	qword ptr [rsp + 352], r15      # 8-byte Spill
-.LBB8_38:
-	sub	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 128], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_39:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	r14b, byte ptr [r12]
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 1]
-	setg	r10b
-	cmp	r14b, byte ptr [r12 + 2]
-	setg	bl
-	cmp	r14b, byte ptr [r12 + 3]
-	setg	r13b
-	cmp	r14b, byte ptr [r12 + 4]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 5]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 6]
-	setg	al
-	cmp	r14b, byte ptr [r12 + 7]
-	setg	r12b
-	cmp	r14b, byte ptr [rcx + 8]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 9]
-	setg	sil
-	cmp	r14b, byte ptr [rcx + 10]
-	setg	dil
-	cmp	r14b, byte ptr [rcx + 11]
-	setg	r9b
-	cmp	r14b, byte ptr [rcx + 12]
-	setg	r11b
-	cmp	r14b, byte ptr [rcx + 13]
-	setg	r15b
-	cmp	r14b, byte ptr [rcx + 14]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 15]
-	setg	r8b
-	cmp	r14b, byte ptr [rcx + 16]
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 17]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 18]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 19]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 20]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 21]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 22]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 23]
-	setg	r14b
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 24]
-	setg	byte ptr [rsp + 232]            # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 25]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 26]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 27]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 28]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 29]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 30]
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 31]
-	setg	dl
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 288]      # 1-byte Folded Reload
-	shl	al, 6
-	shl	r12b, 7
-	or	r12b, al
-	shl	bl, 2
-	or	bl, r10b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, bl
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r11b, 4
-	or	r11b, r9b
-	shl	r15b, 5
-	or	r15b, r11b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r12b, bl
-	or	r8b, r15b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 256]        # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, al
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rsi, qword ptr [rsp + 352]      # 8-byte Reload
-	mov	byte ptr [rsi], r12b
-	movzx	edi, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r8b
-	or	r14b, bl
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 232]        # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	byte ptr [rsi + 3], dl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 352], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 128], -1       # 8-byte Folded Spill
-	jne	.LBB8_39
-# %bb.40:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r13, qword ptr [rsp + 360]      # 8-byte Reload
-	jmp	.LBB8_130
-.LBB8_41:
-	cmp	edi, 7
-	je	.LBB8_104
-# %bb.42:
-	cmp	edi, 8
-	jne	.LBB8_179
-# %bb.43:
-	mov	r13, qword ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_47
-# %bb.44:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_45:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rdx], r13
-	lea	rdx, [rdx + 8]
-	sbb	r9d, r9d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	r9b, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r9b
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_45
-# %bb.46:
-	add	r11, 1
-.LBB8_47:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_118
-# %bb.48:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_49:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	cmp	r13, qword ptr [rdx]
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	seta	dil
-	cmp	r13, qword ptr [rdx + 16]
-	seta	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	seta	al
-	cmp	r13, qword ptr [rdx + 56]
-	seta	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	seta	sil
-	cmp	r13, qword ptr [rdx + 80]
-	seta	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	seta	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	seta	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	seta	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	seta	cl
-	cmp	r13, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	seta	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	seta	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	edi, eax
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dil
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 256
-	add	r11, 4
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB8_49
-# %bb.50:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB8_119
-	jmp	.LBB8_179
-.LBB8_51:
-	movzx	r13d, word ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_55
-# %bb.52:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_53:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rdx], r13w
-	lea	rdx, [rdx + 2]
-	sbb	esi, esi
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_53
-# %bb.54:
-	add	r11, 1
-.LBB8_55:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_121
-# %bb.56:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_57:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	seta	al
-	cmp	r13w, word ptr [rdx + 2]
-	seta	dil
-	cmp	r13w, word ptr [rdx + 4]
-	seta	r14b
-	cmp	r13w, word ptr [rdx + 6]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 8]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 10]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 12]
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 14]
-	seta	r11b
-	cmp	r13w, word ptr [rdx + 16]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 18]
-	seta	sil
-	cmp	r13w, word ptr [rdx + 20]
-	seta	r8b
-	cmp	r13w, word ptr [rdx + 22]
-	seta	r9b
-	cmp	r13w, word ptr [rdx + 24]
-	seta	r10b
-	cmp	r13w, word ptr [rdx + 26]
-	seta	r12b
-	cmp	r13w, word ptr [rdx + 28]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 30]
-	seta	cl
-	cmp	r13w, word ptr [rdx + 32]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 34]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 36]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 38]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 40]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 42]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 44]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 46]
-	seta	r15b
-	cmp	r13w, word ptr [rdx + 48]
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 50]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 52]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 54]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 56]
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 58]
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 60]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 62]
-	seta	bl
-	add	dil, dil
-	or	dil, al
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 64
-	add	rsi, 4
-	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB8_57
-# %bb.58:
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB8_122
-	jmp	.LBB8_179
-.LBB8_59:
-	movzx	r13d, word ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_63
-# %bb.60:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_61:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_61
-# %bb.62:
-	add	r11, 1
-.LBB8_63:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB8_67
-# %bb.64:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_65:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 2]
-	setg	dil
-	cmp	r13w, word ptr [rdx + 4]
-	setg	r14b
-	cmp	r13w, word ptr [rdx + 6]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 8]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 10]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 12]
-	setg	al
-	cmp	r13w, word ptr [rdx + 14]
-	setg	r11b
-	cmp	r13w, word ptr [rdx + 16]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 18]
-	setg	sil
-	cmp	r13w, word ptr [rdx + 20]
-	setg	r8b
-	cmp	r13w, word ptr [rdx + 22]
-	setg	r9b
-	cmp	r13w, word ptr [rdx + 24]
-	setg	r10b
-	cmp	r13w, word ptr [rdx + 26]
-	setg	r12b
-	cmp	r13w, word ptr [rdx + 28]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 30]
-	setg	cl
-	cmp	r13w, word ptr [rdx + 32]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 34]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 36]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 38]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 40]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 42]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 44]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 46]
-	setg	r15b
-	cmp	r13w, word ptr [rdx + 48]
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 50]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 52]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 54]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 56]
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 58]
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 60]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 62]
-	setg	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 64
-	add	rsi, 4
-	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB8_65
-# %bb.66:
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-.LBB8_67:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB8_179
-# %bb.68:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB8_137
-# %bb.69:
-	xor	edi, edi
-	jmp	.LBB8_139
-.LBB8_70:
-	mov	r13, qword ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_74
-# %bb.71:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_72:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_72
-# %bb.73:
-	add	r11, 1
-.LBB8_74:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB8_78
-# %bb.75:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_76:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	setg	dil
-	cmp	r13, qword ptr [rdx + 16]
-	setg	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	setg	al
-	cmp	r13, qword ptr [rdx + 56]
-	setg	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	setg	sil
-	cmp	r13, qword ptr [rdx + 80]
-	setg	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	setg	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	setg	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	setg	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	setg	cl
-	cmp	r13, qword ptr [rdx + 128]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	setg	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	setg	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 256
-	add	rsi, 4
-	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB8_76
-# %bb.77:
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-.LBB8_78:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB8_179
-# %bb.79:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB8_141
-# %bb.80:
-	xor	edi, edi
-	jmp	.LBB8_143
-.LBB8_81:
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB8_85
-# %bb.82:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_83:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	seta	bl
-	add	rdx, 4
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_83
-# %bb.84:
-	add	r11, 1
-.LBB8_85:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB8_89
-# %bb.86:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_87:                               # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	seta	r8b
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	seta	r14b
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	seta	r13b
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	seta	al
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	seta	r11b
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	seta	sil
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	seta	dil
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	seta	r9b
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	seta	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	seta	r12b
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	seta	cl
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	seta	r15b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	seta	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r13b
-	mov	r8d, eax
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 128], -1       # 8-byte Folded Spill
-	jne	.LBB8_87
-# %bb.88:
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-.LBB8_89:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB8_179
-# %bb.90:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB8_145
-# %bb.91:
-	xor	edi, edi
-	jmp	.LBB8_147
-.LBB8_92:
-	mov	r14b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_96
-# %bb.93:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_94:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rdx], r14b
-	lea	rdx, [rdx + 1]
-	sbb	esi, esi
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_94
-# %bb.95:
-	add	r11, 1
-.LBB8_96:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_124
-# %bb.97:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 4], r14d       # 4-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 368], r15      # 8-byte Spill
-	jb	.LBB8_100
-# %bb.98:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r11, rax
-	jae	.LBB8_183
-# %bb.99:
-	lea	rax, [r11 + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB8_183
-.LBB8_100:
-	xor	eax, eax
-	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
-	mov	r12, rdx
-	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
-.LBB8_101:
-	sub	r15, qword ptr [rsp + 360]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 128], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_102:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	r14b, byte ptr [r12]
-	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 1]
-	seta	r10b
-	cmp	r14b, byte ptr [r12 + 2]
-	seta	bl
-	cmp	r14b, byte ptr [r12 + 3]
-	seta	r13b
-	cmp	r14b, byte ptr [r12 + 4]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 5]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [r12 + 6]
-	seta	al
-	cmp	r14b, byte ptr [r12 + 7]
-	seta	r12b
-	cmp	r14b, byte ptr [rcx + 8]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 9]
-	seta	sil
-	cmp	r14b, byte ptr [rcx + 10]
-	seta	dil
-	cmp	r14b, byte ptr [rcx + 11]
-	seta	r9b
-	cmp	r14b, byte ptr [rcx + 12]
-	seta	r11b
-	cmp	r14b, byte ptr [rcx + 13]
-	seta	r15b
-	cmp	r14b, byte ptr [rcx + 14]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 15]
-	seta	r8b
-	cmp	r14b, byte ptr [rcx + 16]
-	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 17]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 18]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 19]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 20]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 21]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 22]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rcx + 23]
-	seta	r14b
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 24]
-	seta	byte ptr [rsp + 232]            # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 25]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 26]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 27]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 28]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 29]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 30]
-	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
-	cmp	dl, byte ptr [rcx + 31]
-	seta	dl
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 320]      # 1-byte Folded Reload
-	shl	al, 6
-	shl	r12b, 7
-	or	r12b, al
-	shl	bl, 2
-	or	bl, r10b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, bl
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r11b, 4
-	or	r11b, r9b
-	shl	r15b, 5
-	or	r15b, r11b
-	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r12b, bl
-	or	r8b, r15b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 256]        # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, al
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rsi, qword ptr [rsp + 352]      # 8-byte Reload
-	mov	byte ptr [rsi], r12b
-	movzx	edi, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r8b
-	or	r14b, bl
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 232]        # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	byte ptr [rsi + 3], dl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 352], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 128], -1       # 8-byte Folded Spill
-	jne	.LBB8_102
-# %bb.103:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 368]      # 8-byte Reload
-	jmp	.LBB8_125
-.LBB8_104:
-	mov	r13d, dword ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_108
-# %bb.105:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_106:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r11 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_106
-# %bb.107:
-	add	r11, 1
-.LBB8_108:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB8_112
-# %bb.109:
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_110:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	cmp	r13d, dword ptr [rdx]
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	setg	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	setg	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	setg	al
-	cmp	r13d, dword ptr [rdx + 28]
-	setg	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	setg	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	setg	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	setg	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	setg	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	setg	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	setg	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	setg	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	setg	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], bl
-	add	rdx, 128
-	add	r11, 4
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB8_110
-# %bb.111:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-.LBB8_112:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB8_179
-# %bb.113:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB8_150
-# %bb.114:
-	xor	edi, edi
-	jmp	.LBB8_152
-.LBB8_115:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_179
-.LBB8_116:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_156
-# %bb.117:
-	xor	r11d, r11d
-	jmp	.LBB8_158
-.LBB8_118:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_179
-.LBB8_119:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_160
-# %bb.120:
-	xor	r11d, r11d
-	jmp	.LBB8_162
-.LBB8_121:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_179
-.LBB8_122:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_164
-# %bb.123:
-	xor	r11d, r11d
-	jmp	.LBB8_166
-.LBB8_124:
-	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
-	mov	r12, rdx
-.LBB8_125:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_179
-# %bb.126:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_169
-# %bb.127:
-	xor	eax, eax
-	jmp	.LBB8_172
-.LBB8_128:
-	mov	r15, r11
-	sar	r13, 5
-	cmp	r10, 32
-	jge	.LBB8_34
-.LBB8_129:
-	mov	qword ptr [rsp + 352], r15      # 8-byte Spill
-	mov	r12, rdx
-.LBB8_130:
-	shl	r13, 5
-	cmp	r13, r10
-	jge	.LBB8_179
-# %bb.131:
-	mov	r8, r10
-	sub	r8, r13
-	not	r13
-	add	r13, r10
-	jne	.LBB8_174
-# %bb.132:
-	xor	esi, esi
-	jmp	.LBB8_177
-.LBB8_133:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB8_134:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	seta	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	seta	r9b
-	add	rdx, 16
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_134
-.LBB8_135:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.136:
-	vucomisd	xmm0, qword ptr [rdx]
-	jmp	.LBB8_149
-.LBB8_137:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB8_138:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	setg	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	cmp	r13w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	setg	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_138
-.LBB8_139:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.140:
-	cmp	r13w, word ptr [rdx]
-	jmp	.LBB8_154
-.LBB8_141:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB8_142:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	setg	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	cmp	r13, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setg	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_142
-.LBB8_143:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.144:
-	cmp	r13, qword ptr [rdx]
-	jmp	.LBB8_154
-.LBB8_145:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB8_146:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	seta	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	seta	r9b
-	add	rdx, 8
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_146
-.LBB8_147:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.148:
-	vucomiss	xmm0, dword ptr [rdx]
-.LBB8_149:
-	seta	al
-	jmp	.LBB8_155
-.LBB8_150:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB8_151:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	setg	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	cmp	r13d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setg	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_151
-.LBB8_152:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.153:
-	cmp	r13d, dword ptr [rdx]
-.LBB8_154:
-	setg	al
-.LBB8_155:
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	sil, byte ptr [r11 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r11 + rdx], bl
-	jmp	.LBB8_179
-.LBB8_156:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB8_157:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rdx], r13d
-	sbb	edi, edi
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	dword ptr [rdx + 4], r13d
-	lea	rdx, [rdx + 8]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB8_157
-.LBB8_158:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.159:
-	cmp	dword ptr [rdx], r13d
-	jmp	.LBB8_168
-.LBB8_160:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB8_161:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rdx], r13
-	sbb	edi, edi
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	qword ptr [rdx + 8], r13
-	lea	rdx, [rdx + 16]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB8_161
-.LBB8_162:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.163:
-	cmp	qword ptr [rdx], r13
-	jmp	.LBB8_168
-.LBB8_164:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB8_165:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rdx], r13w
-	sbb	edi, edi
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	word ptr [rdx + 2], r13w
-	lea	rdx, [rdx + 4]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB8_165
-.LBB8_166:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.167:
-	cmp	word ptr [rdx], r13w
-.LBB8_168:
-	sbb	eax, eax
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-	jmp	.LBB8_179
-.LBB8_169:
-	mov	r9, r8
-	and	r9, -2
-	xor	eax, eax
-	mov	r10, qword ptr [rsp + 352]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB8_170:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rax], r14b
-	sbb	esi, esi
-	mov	rdi, rax
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	ebx, byte ptr [r10 + rdi]
-	xor	sil, bl
-	and	dl, sil
-	xor	dl, bl
-	mov	byte ptr [r10 + rdi], dl
-	cmp	byte ptr [r12 + rax + 1], r14b
-	lea	rax, [rax + 2]
-	sbb	esi, esi
-	xor	sil, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, sil
-	xor	bl, dl
-	mov	byte ptr [r10 + rdi], bl
-	cmp	r9, rax
-	jne	.LBB8_170
-# %bb.171:
-	add	r12, rax
-.LBB8_172:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.173:
-	cmp	byte ptr [r12], r14b
-	sbb	edx, edx
-	mov	rsi, rax
-	shr	rsi, 3
-	mov	r8, qword ptr [rsp + 352]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rsi]
-	and	al, 7
-	mov	bl, 1
-	mov	ecx, eax
-	shl	bl, cl
-	xor	dl, dil
-	and	bl, dl
-	xor	bl, dil
-	mov	byte ptr [r8 + rsi], bl
-	jmp	.LBB8_179
-.LBB8_174:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 352]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB8_175:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [r12 + rsi]
-	setg	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r14b, byte ptr [r12 + rsi + 1]
-	lea	rsi, [rsi + 2]
-	setg	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB8_175
-# %bb.176:
-	add	r12, rsi
-.LBB8_177:
-	test	r8b, 1
-	je	.LBB8_179
-# %bb.178:
-	cmp	r14b, byte ptr [r12]
-	setg	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 352]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-.LBB8_179:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB8_180:
-	and	r13, -32
-	mov	rax, r13
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r13      # 8-byte Spill
-	lea	rax, [r15 + 4*r13]
-	mov	qword ptr [rsp + 352], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_181:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	mov	rsi, rcx
-	vmovd	xmm4, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 544], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rsi + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rdx + rsi + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rdx + rsi + 6]
-	mov	qword ptr [rsp + 216], rsi      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rsi + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	or	rbx, 576
-	mov	qword ptr [rsp + 144], rbx      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 608
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	r12, rcx
-	or	r12, 640
-	mov	r14, rcx
-	or	r14, 672
-	mov	qword ptr [rsp + 24], r14       # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 704
-	mov	qword ptr [rsp + 104], r10      # 8-byte Spill
-	mov	rdi, rcx
-	or	rdi, 736
-	mov	qword ptr [rsp + 176], rdi      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 768
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 800
-	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 832
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	r9, rcx
-	or	r9, 864
-	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 896
-	mov	qword ptr [rsp + 168], r8       # 8-byte Spill
-	mov	rsi, rcx
-	or	rsi, 928
-	mov	qword ptr [rsp + 200], rsi      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 224], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 152], rcx      # 8-byte Spill
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm9, xmm0, byte ptr [rdx + r13], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rbx], 2
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 4
-	mov	r13, r12
-	mov	qword ptr [rsp + 160], r12      # 8-byte Spill
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 15
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 1
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 2
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 3
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 6
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 7
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 9
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 11
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 13
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 14
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 15
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 2
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 4
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 5
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 6
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 11
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 12
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 14
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r14 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 1], 2
-	mov	rdi, r11
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm15, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 1], 15
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, esi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1248], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, esi
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 544]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 2], 2
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 7
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 2], 8
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 9
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 10
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 3
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 4
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 5
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 6
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 9
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 10
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 11
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 13
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 14
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rdx + r8 + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 4
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 5
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 6
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 10
-	mov	r8, r9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 13
-	mov	r12, r15
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 14
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rdx + rax + 3], 1
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 3], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 4
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 3], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 10
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 9]
-	vmovd	xmm8, esi
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 9]
-	vmovd	xmm11, esi
-	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 4], 3
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 5
-	mov	r15, rdi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 4], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 8
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 4], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 10
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 11
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 4], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 4], 15
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm13, byte ptr [rdx + rsi + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 2
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 3
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 4], 4
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 5
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 6
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 7
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 9
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 10
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 11
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 13
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 15
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rdx + r10 + 5], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 2
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 6
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 9
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 11
-	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 12
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rdx + rax + 5], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 5], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 7
-	mov	r12, rbx
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 11
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 5], 15
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm3, esi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, esi
-	vpinsrb	xmm0, xmm12, byte ptr [rdx + r10 + 6], 1
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 6], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 6], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 12
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 15
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + r10 + 6], 1
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 6], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 3
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 4
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 5
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 6], 9
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 10
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 11
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 12
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 13
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 14
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 15
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 2
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 4
-	mov	r14, rax
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 5
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 12
-	mov	rbx, r8
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 7], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 2
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 3
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 6
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 7
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 7], 9
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rcx + 7], 14
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm1, esi
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx + 8], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 2
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 8], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 8], 4
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 5
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 6
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 8
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 9
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 14
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 8], 15
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r11 + 8], 1
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 3
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 4
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 5
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 6
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 7
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 9
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 10
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 11
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 12
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 13
-	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 14
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 15
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + rbx + 9], 1
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 9], 3
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 5
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 6
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 11
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 12
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 13
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 14
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 9], 15
-	vpinsrb	xmm7, xmm11, byte ptr [rdx + r11 + 9], 1
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 4
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 9], 7
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 10
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 9], 11
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + r14 + 9], 15
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm0, esi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, esi
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 1
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 10], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 3
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 7
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 10
-	mov	rcx, rbx
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 10], 11
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 12
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 15
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 10], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 3
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 4
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 5
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 10], 6
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 9
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 11
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 13
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 15
-	mov	r12, r14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 2
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 4
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 5
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 12
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 15
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 1
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 3
-	mov	r14, rsi
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 4
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 11], 6
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 7
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 9
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 11
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm3  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm3, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm1, esi
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 3
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 12], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 5
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 6
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 7
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 11
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 12], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 15
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + r8 + 12], 1
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 3
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 4
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 5
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 6
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 7
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 10
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
-	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 13
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 15
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 2
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 4
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 5
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 13], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 13], 12
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 14
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 13], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
-	mov	r8, rsi
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 4
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 5
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 7
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 10
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 11
-	mov	r14, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + r12 + 13], 15
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 14]
-	vmovd	xmm1, esi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 14]
-	vmovd	xmm0, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 1
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 5
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 10
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 11
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 12
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 14
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 15
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 14], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 14], 2
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 14], 3
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 14], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 14], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 14], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 7
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 14], 8
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 14], 9
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 14], 11
-	mov	rdi, r14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 14], 13
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 14
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 15
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 15]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 1
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 5
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 15], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 8
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 15], 11
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 15]
-	vmovd	xmm3, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 1
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 3
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 4
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 15], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 13
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 15
-	mov	r12, r14
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 16]
-	vmovd	xmm0, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 1
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 16], 2
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 5
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 11
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 12
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 16], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 16]
-	vmovd	xmm1, esi
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 1
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 2
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 16], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 6
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 7
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 9
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 16], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 11
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 14
-	mov	r13, r12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 15
-	mov	rcx, r15
-	movzx	esi, byte ptr [rdx + r15 + 17]
-	vmovd	xmm2, esi
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 17], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 5
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 6
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 7
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 17], 8
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 9
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 11
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 17], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 17], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 15
-	movzx	esi, byte ptr [rdx + rax + 17]
-	vmovd	xmm3, esi
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 17], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 3
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 4
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 7
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 10
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 11
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r13 + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	movzx	esi, byte ptr [rdx + rcx + 18]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 18], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 2
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 4
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 6
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 18], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 18], 10
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 18], 11
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 12
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 18], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 18]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 1
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 2
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 3
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 4
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 5
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 18], 6
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 10
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 11
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 15
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 19]
-	vmovd	xmm2, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 1
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 5
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 6
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 19], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 19], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 14
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 15
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 19]
-	vmovd	xmm3, esi
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 2
-	mov	r8, r12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 4
-	mov	r11, rdi
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 19], 6
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 7
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 8
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 9
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 11
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 13
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 20]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 5
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 20], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 11
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 12
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 20], 15
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rbx + 20]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 1
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 20], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 20], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 5
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 9
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 10
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 11
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 13
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 14
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 15
-	movzx	esi, byte ptr [rdx + r15 + 21]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 1
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 2
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 21], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 5
-	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 6
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 8
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 11
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 12
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 15
-	movzx	esi, byte ptr [rdx + rbx + 21]
-	vmovd	xmm3, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 3
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 4
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 6
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 7
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 21], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r9 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 22]
-	vmovd	xmm0, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 3
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 22], 4
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 6
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 22], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 9
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 22], 11
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 22], 12
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 22], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 22], 14
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 15
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 22]
-	vmovd	xmm1, esi
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 2
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 3
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 4
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 7
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 9
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 10
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 11
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 13
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 14
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 22], 15
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 23]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 1
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 5
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 23], 7
-	mov	r12, rbx
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 23], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 11
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 12
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 23], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 15
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r8 + 23]
-	vmovd	xmm3, esi
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 2
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 3
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 4
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 5
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 7
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 9
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 23], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 13
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 24]
-	vmovd	xmm0, esi
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 24], 1
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 8
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 11
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 12
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 24], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 15
-	movzx	esi, byte ptr [rdx + r8 + 24]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 1
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 7
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 8
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 9
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 10
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 11
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 13
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 15
-	movzx	esi, byte ptr [rdx + rcx + 25]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 25], 1
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 25], 2
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 25], 3
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 4
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 5
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 6
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 7
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 25], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 10
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 11
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 12
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 14
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 25]
-	vmovd	xmm3, esi
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 3
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 4
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 5
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 6
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 10
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 11
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rax + 25], 15
-	vinserti128	ymm8, ymm0, xmm2, 1
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 26]
-	vmovd	xmm0, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 26], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 6
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 11
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 26], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 26], 13
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 14
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 26]
-	vmovd	xmm1, esi
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 26], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 2
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 3
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 4
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 5
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 7
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 8
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 9
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 11
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 12
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 13
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 15
-	movzx	esi, byte ptr [rdx + r15 + 27]
-	vmovd	xmm2, esi
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 27], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 4
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 5
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 6
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 8
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 27], 12
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 27], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 15
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 27]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 1
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 3
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 7
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 9
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 11
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 13
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 28]
-	vmovd	xmm0, esi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 2
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 4
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 5
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 6
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 28], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 9
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 10
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 11
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 15
-	movzx	esi, byte ptr [rdx + r12 + 28]
-	vmovd	xmm1, esi
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 1
-	mov	rdi, r11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 2
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 4
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 5
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 6
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 9
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 10
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 28], 11
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 13
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 15
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 29]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 29], 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 3
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 29], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 29], 5
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 8
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 29], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 11
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 12
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 15
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r13 + 29]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 29], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 2
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 29], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 5
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 6
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 7
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 29], 11
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 29], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rdx + rax + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rdx + rax + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 30]
-	vmovd	xmm0, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 1
-	movzx	esi, byte ptr [rdx + r15 + 31]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 6
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 31], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 31], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
-	movzx	eax, byte ptr [rdx + r13 + 30]
-	vmovd	xmm1, eax
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 30], 1
-	movzx	eax, byte ptr [rdx + r13 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r8 + 31], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 31], 3
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 31], 7
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 31], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 31], 13
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 256], ymm0   # 32-byte Spill
-	vmovdqa	ymm0, ymmword ptr [rsp + 576]   # 32-byte Reload
-	vpcmpgtb	ymm2, ymm0, ymmword ptr [rsp + 1248] # 32-byte Folded Reload
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI8_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpand	ymm7, ymm2, ymm1
-	vpsubb	ymm11, ymm7, ymm2
-	vpcmpgtb	ymm7, ymm0, ymm15
-	vpand	ymm7, ymm7, ymm1
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI8_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm12, ymm12, ymm6
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpgtb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI8_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm7, ymm7, ymm2
-	vpcmpgtb	ymm12, ymm0, ymm14
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI8_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI8_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm13
-	vmovdqa	ymm14, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm11, ymm11, ymm7
-	vpcmpgtb	ymm7, ymm0, ymmword ptr [rsp + 512] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI8_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm7, ymm7, ymm5
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm15, ymmword ptr [rip + .LCPI8_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm13, ymm11, ymm7
-	vpcmpgtb	ymm7, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpand	ymm12, ymm7, ymm1
-	vpsubb	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm1
-	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm6
-	vpor	ymm11, ymm12, ymm11
-	vpor	ymm7, ymm11, ymm7
-	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm11, ymm11, ymm12
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpand	ymm12, ymm12, ymm14
-	vmovdqa	ymm3, ymm14
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm7, ymm11, ymm7
-	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm5
-	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpsllw	ymm12, ymm12, 7
-	vpand	ymm12, ymm12, ymm15
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm12, ymm11, ymm7
-	vpcmpgtb	ymm7, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpand	ymm11, ymm7, ymm1
-	vpsubb	ymm7, ymm11, ymm7
-	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm1
-	vpcmpgtb	ymm14, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm6
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpand	ymm11, ymm11, ymm2
-	vpcmpgtb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm11, ymm11, ymm14
-	vpcmpgtb	ymm14, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpand	ymm14, ymm14, ymm3
-	vpor	ymm11, ymm11, ymm14
-	vpor	ymm7, ymm11, ymm7
-	vpcmpgtb	ymm10, ymm0, ymm10
-	vmovdqa	ymm14, ymm5
-	vpand	ymm10, ymm10, ymm5
-	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpsllw	ymm11, ymm11, 7
-	vpand	ymm11, ymm11, ymm15
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpgtb	ymm8, ymm0, ymm8
-	vpand	ymm10, ymm8, ymm1
-	vpsubb	ymm8, ymm10, ymm8
-	vpcmpgtb	ymm9, ymm0, ymm9
-	vpand	ymm9, ymm9, ymm1
-	vpcmpgtb	ymm5, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpand	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm9, ymm5
-	vpor	ymm5, ymm8, ymm5
-	vpcmpgtb	ymm6, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpand	ymm6, ymm6, ymm2
-	vpcmpgtb	ymm3, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm6, ymm3
-	vpcmpgtb	ymm4, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI8_4]
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpgtb	ymm1, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpand	ymm1, ymm14, ymm1
-	vpcmpgtb	ymm2, ymm0, ymmword ptr [rsp + 256] # 32-byte Folded Reload
-	vpsllw	ymm2, ymm2, 7
-	vpand	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB8_181
-# %bb.182:
-	mov	r13, qword ptr [rsp + 360]      # 8-byte Reload
-	cmp	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	r12, qword ptr [rsp + 368]      # 8-byte Reload
-	jne	.LBB8_38
-	jmp	.LBB8_130
-.LBB8_183:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 504], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 360], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 352], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_184:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	mov	rdi, rcx
-	vmovd	xmm5, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rdi + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rdi + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rdi + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 512], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rdx + rdi + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rdi + 6]
-	mov	qword ptr [rsp + 200], rdi      # 8-byte Spill
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rdi + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 544
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 576
-	mov	rbx, rax
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 608
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 640
-	mov	r14, rax
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	r9, rcx
-	or	r9, 672
-	mov	qword ptr [rsp + 40], r9        # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 704
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 736
-	mov	rdi, rax
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 768
-	mov	r13, rax
-	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 800
-	mov	qword ptr [rsp + 120], r11      # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 832
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 864
-	mov	qword ptr [rsp + 216], r8       # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 896
-	mov	qword ptr [rsp + 88], r15       # 8-byte Spill
-	mov	rsi, rcx
-	or	rsi, 928
-	mov	qword ptr [rsp + 136], rsi      # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 224], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 56], rcx       # 8-byte Spill
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm9, xmm3, byte ptr [rdx + r12], 1
-	vpinsrb	xmm3, xmm9, byte ptr [rdx + rbx], 2
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 15
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14], 1
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10], 2
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11], 3
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12], 4
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8], 5
-	mov	r9, qword ptr [rsp + 8]         # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9], 6
-	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15], 7
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax], 9
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 13
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 14
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 15
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 1
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 2
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 3
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 1], 4
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 5
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 6
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 7
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 8
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 1], 9
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 1], 10
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 11
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 12
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 13
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 14
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 15
-	vpinsrb	xmm6, xmm10, byte ptr [rdx + r14 + 1], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 1], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 1], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 1], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 1], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 1], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 1], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 1], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 1], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1248], ymm3  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm6, byte ptr [rdx + rax + 1], 15
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, esi
-	vinserti128	ymm3, ymm3, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm3   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, esi
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 1
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 2], 2
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 2], 3
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 6
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 8
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 10
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 2], 11
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 2], 12
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 2], 13
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 2], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vmovdqa	xmm4, xmmword ptr [rsp + 416]   # 16-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 2], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 5
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 7
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 8
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 9
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 10
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 13
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 14
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 15
-	vpinsrb	xmm5, xmm11, byte ptr [rdx + rbx + 3], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 3], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 3], 3
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 4
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 3], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 6
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 7
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 3], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 3], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 3], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 12
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 3], 13
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 15
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + rax + 3], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 2
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 3], 3
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 3], 7
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 3], 8
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 9
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 12
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm3   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm6, byte ptr [rdx + rcx + 3], 14
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 9]
-	vmovd	xmm8, esi
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 3], 15
-	vinserti128	ymm3, ymm3, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm3   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 9]
-	vmovd	xmm11, esi
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 512]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 1
-	mov	r11, r9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 2
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 3
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 4
-	mov	rcx, r8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 4], 5
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 7
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 8
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 9
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 11
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 15
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm15, byte ptr [rdx + rsi + 4], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 4], 3
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 4], 4
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 4], 5
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 4], 6
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 4], 8
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 4], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 10
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 4], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 13
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 4], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 4], 15
-	mov	r14, r12
-	vpinsrb	xmm5, xmm14, byte ptr [rdx + rbx + 5], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 2
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 5], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 6
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 8
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 10
-	mov	r13, r9
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm12, byte ptr [rdx + rax + 5], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 2
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 5], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 5], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 5], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 5], 6
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 5], 7
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 5], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 5], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 10
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 5], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 14
-	vinserti128	ymm15, ymm4, xmm3, 1
-	vpinsrb	xmm4, xmm6, byte ptr [rdx + r14 + 5], 15
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm12, esi
-	vinserti128	ymm3, ymm4, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 512], ymm3   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, esi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm13, byte ptr [rdx + rax + 6], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 2
-	mov	r14, r11
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 6], 3
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 5
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 6], 6
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 6], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 14
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 6], 15
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm7, byte ptr [rdx + r13 + 6], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 5
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 6], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 6], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 6], 8
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 6], 9
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 6], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 6], 11
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 6], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 13
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 6], 14
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 6], 15
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 7], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 4
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 11
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 12
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 7], 13
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 7], 1
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 2
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 7], 3
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 5
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 7
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 7], 10
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 12
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 13
-	vinserti128	ymm3, ymm6, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm3  # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm1, byte ptr [rdx + rsi + 7], 14
-	mov	r13, rsi
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 11]
-	vmovd	xmm1, esi
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 7], 15
-	vinserti128	ymm2, ymm5, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm2  # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 11]
-	vmovd	xmm2, esi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm9, byte ptr [rdx + rdi + 8], 1
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 3
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 4
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 5
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 8
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 12
-	mov	r10, r12
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 15
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm10, byte ptr [rdx + rcx + 8], 1
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 2
-	mov	r12, r8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 8], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 6
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 7
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 8], 8
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 8], 9
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 8], 11
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 8], 12
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 13
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 8], 14
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 8], 15
-	vpinsrb	xmm7, xmm8, byte ptr [rdx + rdi + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 2
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 4
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rdi + 9], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 6
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 7
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 10
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 11
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 9], 13
-	mov	rcx, r10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm11, byte ptr [rdx + rax + 9], 1
-	mov	r10, rax
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 9], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 9], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 5
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 9], 6
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 9], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 9], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 10
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 9], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 9], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 14
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, esi
-	vinserti128	ymm3, ymm3, xmm7, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm3  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 12]
-	vmovd	xmm6, esi
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm12, byte ptr [rdx + r9 + 10], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 2
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 10], 3
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 5
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 6
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 9
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 10
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 11
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 13
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 10], 15
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 10], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 3
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 4
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 6
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 8
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 10], 9
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 12
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 13
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 14
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 1
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 4
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 11], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 7
-	mov	r8, r11
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 6
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 7
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 11], 9
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 12
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm3, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm1, esi
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + r11 + 12], 1
-	mov	r10, r9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 2
-	mov	rcx, r14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 3
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 4
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 5
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 8
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 9
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 10
-	mov	r8, r12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 11
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 12
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 15
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm6, byte ptr [rdx + rsi + 12], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 12], 2
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 3
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 6
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 7
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 12], 10
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 12], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 12], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 13
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 14
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 13], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 6
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 13], 7
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 8
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 13
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 15
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
-	mov	r9, rsi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 3
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 6
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 14
-	vinserti128	ymm2, ymm4, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm2  # 32-byte Spill
-	mov	r12, r13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 15
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r14 + 14]
-	vmovd	xmm2, esi
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 14]
-	vmovd	xmm1, esi
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 14], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 14], 2
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 14], 3
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 14], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 14], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 10
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 14], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 13
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 14], 14
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 14], 15
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 2
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 6
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 8
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 9
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 10
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 11
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 12
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 13
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 15
-	movzx	esi, byte ptr [rdx + r14 + 15]
-	vmovd	xmm3, esi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 1
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 4
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 5
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 6
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 7
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 8
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 9
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 11
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 15]
-	vmovd	xmm4, esi
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 15], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 15], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 15], 3
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 15], 4
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 15], 5
-	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 15], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 15], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 8
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 15], 9
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 15], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 15], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 13
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 15], 14
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 15
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 16]
-	vmovd	xmm1, esi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 1
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 3
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 6
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 16], 10
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 11
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 16]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 16], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 16], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 16], 6
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 16], 7
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 16], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 16], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 16], 10
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 16], 12
-	mov	r11, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 16], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 16], 14
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 15
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 17]
-	vmovd	xmm3, esi
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 17], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 3
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 17], 4
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 17], 5
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 17], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 9
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 17], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 17]
-	vmovd	xmm4, esi
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 1
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 17], 2
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 17], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 17], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 17], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 10
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 17], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + rax + 17], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm1   # 32-byte Spill
-	movzx	esi, byte ptr [rdx + rdi + 18]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 2
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 18], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 18], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 6
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 18], 7
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 8
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 9
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 10
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 18], 11
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 13
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 15
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r9 + 18]
-	vmovd	xmm2, esi
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 18], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 18], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 18], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 4
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 18], 5
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 6
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 18], 7
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 8
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 9
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 10
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 11
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 12
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 13
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 18], 14
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 18], 15
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 19]
-	vmovd	xmm3, esi
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 19], 3
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 19], 11
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 19], 12
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 14
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 15
-	movzx	esi, byte ptr [rdx + r9 + 19]
-	vmovd	xmm4, esi
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 1
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 19], 2
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 3
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 19], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 19], 5
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 19], 7
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 19], 8
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 9
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 10
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 11
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 19], 12
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 19], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 19], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm1   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 20]
-	vmovd	xmm1, esi
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 1
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 3
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 4
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 5
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 12
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 13
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 15
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 20]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 20], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 20], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 20], 4
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 20], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 6
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 20], 8
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 9
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 10
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 20], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 20], 12
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 13
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 14
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 15
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 21]
-	vmovd	xmm3, esi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 1
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 2
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 21], 3
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 21], 5
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 8
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 10
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 21], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 15
-	movzx	esi, byte ptr [rdx + r15 + 21]
-	mov	rbx, r15
-	vmovd	xmm4, esi
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 1
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 21], 2
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 21], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 6
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 21], 7
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 21], 8
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 21], 9
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 21], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 21], 11
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 21], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + rax + 21], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 22]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 3
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 4
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 6
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 8
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 9
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 11
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 22], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 13
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 15
-	movzx	esi, byte ptr [rdx + rbx + 22]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 22], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 5
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 22], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 22], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 22], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 22], 10
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 22], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 22], 12
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 22], 13
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 22], 14
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 15
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 23]
-	vmovd	xmm3, esi
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 1
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 9
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 10
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 15
-	movzx	esi, byte ptr [rdx + rbx + 23]
-	vmovd	xmm4, esi
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 1
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 2
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 23], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 5
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 23], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 7
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 8
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 9
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 23], 11
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 23], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 23], 14
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 23], 15
-	vinserti128	ymm11, ymm2, xmm1, 1
-	vinserti128	ymm12, ymm4, xmm3, 1
-	movzx	esi, byte ptr [rdx + r15 + 24]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 3
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 4
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 5
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 8
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 13
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 14
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 24]
-	vmovd	xmm2, esi
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 24], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 4
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 24], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 24], 6
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 9
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 24], 10
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 24], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 24], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 24], 15
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 25]
-	vmovd	xmm3, esi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 6
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 25], 9
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 15
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r10 + 25]
-	vmovd	xmm4, esi
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 25], 1
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 25], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 25], 3
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 25], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 25], 5
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 25], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 25], 7
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 25], 8
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 25], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 25], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 25], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 25], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 13
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 25], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 384], ymm1   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + rcx + 25], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm1   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 26]
-	vmovd	xmm1, esi
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 1
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 2
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 3
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 4
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 5
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 26], 10
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 12
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 26], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 15
-	movzx	esi, byte ptr [rdx + r10 + 26]
-	vmovd	xmm2, esi
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 26], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 26], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 26], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 7
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 26], 9
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 10
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 26], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 26], 12
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 26], 14
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 15
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r15 + 27]
-	vmovd	xmm3, esi
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 27], 1
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 4
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 7
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 8
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 9
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 10
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 27], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 27]
-	vmovd	xmm4, esi
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 1
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 27], 2
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 27], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 6
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 27], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 8
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 27], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 13
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 14
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm1   # 32-byte Spill
-	movzx	esi, byte ptr [rdx + r15 + 28]
-	vmovd	xmm1, esi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 28], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 28], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 5
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 28], 6
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 8
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 11
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 12
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 13
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 14
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 15
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 28]
-	vmovd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 28], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 28], 2
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 28], 3
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 28], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 28], 5
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 28], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 28], 7
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 28], 8
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 28], 9
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 28], 10
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 28], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 28], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 13
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 28], 14
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 15
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 29]
-	vmovd	xmm3, esi
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 1
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 2
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 4
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 29], 6
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 9
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 10
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 29], 11
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 12
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 29]
-	vmovd	xmm4, esi
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 29], 1
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 29], 2
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 29], 3
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 29], 4
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 29], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 29], 6
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 29], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 29], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 29], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 29], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 11
-	mov	r13, rdi
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 29], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 29], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm1   # 32-byte Spill
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + rax + 29], 15
-	mov	r12, rax
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm1   # 32-byte Spill
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r8 + 30]
-	vmovd	xmm1, esi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 1
-	movzx	esi, byte ptr [rdx + r8 + 31]
-	vmovd	xmm2, esi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 1
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 6
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 30], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 31], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 15
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	eax, byte ptr [rdx + rsi + 30]
-	vmovd	xmm3, eax
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 30], 1
-	movzx	eax, byte ptr [rdx + rsi + 31]
-	vmovd	xmm4, eax
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 31], 1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 30], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 31], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 30], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 31], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 6
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 30], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 31], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 30], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 31], 9
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 30], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 31], 11
-	mov	rax, rbx
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 30], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 31], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 30], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 31], 13
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 30], 15
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 31], 15
-	vinserti128	ymm1, ymm3, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 256], ymm1   # 32-byte Spill
-	vpminub	ymm1, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpcmpeqb	ymm1, ymm0, ymm1
-	vmovdqa	ymm7, ymmword ptr [rip + .LCPI8_0] # ymm7 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	vpandn	ymm2, ymm1, ymm7
-	vpaddb	ymm1, ymm2, ymm1
-	vpminub	ymm2, ymm0, ymmword ptr [rsp + 1248] # 32-byte Folded Reload
-	vpcmpeqb	ymm2, ymm0, ymm2
-	vpandn	ymm2, ymm2, ymm7
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI8_1] # ymm9 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm14, ymm14, ymm9
-	vpor	ymm2, ymm14, ymm2
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI8_2] # ymm8 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm14, ymm14, ymm8
-	vpor	ymm2, ymm14, ymm2
-	vpcmpeqd	ymm3, ymm3, ymm3
-	vpsubb	ymm1, ymm1, ymm3
-	vpor	ymm1, ymm1, ymm2
-	vpminub	ymm2, ymm15, ymm0
-	vpcmpeqb	ymm2, ymm0, ymm2
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI8_3] # ymm6 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm2, ymm2, ymm6
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 512] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI8_4] # ymm4 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm14, ymm14, ymm4
-	vpor	ymm2, ymm14, ymm2
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI8_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm14, ymm14, ymm5
-	vpor	ymm2, ymm14, ymm2
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpxor	ymm14, ymm14, ymm3
-	vpsllw	ymm14, ymm14, 7
-	vmovdqa	ymm10, ymmword ptr [rip + .LCPI8_6] # ymm10 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm14, ymm14, ymm10
-	vpor	ymm2, ymm14, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vmovdqa	ymmword ptr [rsp + 320], ymm1   # 32-byte Spill
-	vpminub	ymm1, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpcmpeqb	ymm1, ymm0, ymm1
-	vpandn	ymm14, ymm1, ymm7
-	vpaddb	ymm1, ymm14, ymm1
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpandn	ymm14, ymm14, ymm7
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vmovdqa	ymm3, ymm9
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm14, ymm14, ymm15
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm14, ymm14, ymm15
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpsubb	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm14, ymm1
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpandn	ymm14, ymm14, ymm6
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm4
-	vpor	ymm14, ymm14, ymm15
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm5
-	vpor	ymm14, ymm14, ymm15
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpxor	ymm15, ymm15, ymm2
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpsllw	ymm15, ymm15, 7
-	vpand	ymm15, ymm15, ymm10
-	vpor	ymm14, ymm14, ymm15
-	vpor	ymm1, ymm14, ymm1
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpandn	ymm15, ymm14, ymm7
-	vpaddb	ymm14, ymm15, ymm14
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm7
-	vpminub	ymm13, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpcmpeqb	ymm13, ymm13, ymm0
-	vpandn	ymm13, ymm13, ymm9
-	vpor	ymm13, ymm15, ymm13
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm13, ymm13, ymm15
-	vpsubb	ymm14, ymm14, ymm2
-	vpor	ymm13, ymm14, ymm13
-	vpminub	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpandn	ymm14, ymm14, ymm6
-	vpminub	ymm15, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpandn	ymm15, ymm15, ymm4
-	vpor	ymm14, ymm14, ymm15
-	vpminub	ymm11, ymm11, ymm0
-	vpcmpeqb	ymm11, ymm11, ymm0
-	vmovdqa	ymm15, ymm5
-	vpandn	ymm11, ymm11, ymm5
-	vpor	ymm11, ymm14, ymm11
-	vpminub	ymm12, ymm12, ymm0
-	vpcmpeqb	ymm12, ymm12, ymm0
-	vpxor	ymm12, ymm12, ymm2
-	vpsllw	ymm12, ymm12, 7
-	vmovdqa	ymm14, ymm10
-	vpand	ymm12, ymm12, ymm10
-	vpor	ymm11, ymm11, ymm12
-	vpor	ymm11, ymm13, ymm11
-	vpminub	ymm9, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpandn	ymm12, ymm9, ymm7
-	vpaddb	ymm9, ymm12, ymm9
-	vpminub	ymm10, ymm0, ymmword ptr [rsp + 384] # 32-byte Folded Reload
-	vpcmpeqb	ymm10, ymm10, ymm0
-	vpandn	ymm10, ymm10, ymm7
-	vpminub	ymm7, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpcmpeqb	ymm7, ymm0, ymm7
-	vpandn	ymm7, ymm7, ymm3
-	vpor	ymm7, ymm10, ymm7
-	vpminub	ymm8, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpcmpeqb	ymm8, ymm8, ymm0
-	vpandn	ymm8, ymm8, ymmword ptr [rip + .LCPI8_2]
-	vpor	ymm7, ymm8, ymm7
-	vpsubb	ymm8, ymm9, ymm2
-	vpor	ymm7, ymm8, ymm7
-	vpminub	ymm5, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpcmpeqb	ymm5, ymm0, ymm5
-	vpandn	ymm5, ymm5, ymm6
-	vpminub	ymm6, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpcmpeqb	ymm6, ymm0, ymm6
-	vpandn	ymm6, ymm6, ymm4
-	vpor	ymm5, ymm5, ymm6
-	vpminub	ymm3, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpcmpeqb	ymm3, ymm0, ymm3
-	vpandn	ymm3, ymm3, ymm15
-	vpor	ymm3, ymm5, ymm3
-	vpminub	ymm4, ymm0, ymmword ptr [rsp + 256] # 32-byte Folded Reload
-	vpcmpeqb	ymm4, ymm0, ymm4
-	vpxor	ymm4, ymm4, ymm2
-	vpsllw	ymm4, ymm4, 7
-	vpand	ymm4, ymm14, ymm4
-	vpor	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm7, ymm3
-	vmovdqa	ymm2, ymmword ptr [rsp + 320]   # 32-byte Reload
-	vpunpcklbw	ymm4, ymm2, ymm1        # ymm4 = ymm2[0],ymm1[0],ymm2[1],ymm1[1],ymm2[2],ymm1[2],ymm2[3],ymm1[3],ymm2[4],ymm1[4],ymm2[5],ymm1[5],ymm2[6],ymm1[6],ymm2[7],ymm1[7],ymm2[16],ymm1[16],ymm2[17],ymm1[17],ymm2[18],ymm1[18],ymm2[19],ymm1[19],ymm2[20],ymm1[20],ymm2[21],ymm1[21],ymm2[22],ymm1[22],ymm2[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm2, ymm1        # ymm1 = ymm2[8],ymm1[8],ymm2[9],ymm1[9],ymm2[10],ymm1[10],ymm2[11],ymm1[11],ymm2[12],ymm1[12],ymm2[13],ymm1[13],ymm2[14],ymm1[14],ymm2[15],ymm1[15],ymm2[24],ymm1[24],ymm2[25],ymm1[25],ymm2[26],ymm1[26],ymm2[27],ymm1[27],ymm2[28],ymm1[28],ymm2[29],ymm1[29],ymm2[30],ymm1[30],ymm2[31],ymm1[31]
-	vpunpcklbw	ymm2, ymm11, ymm3       # ymm2 = ymm11[0],ymm3[0],ymm11[1],ymm3[1],ymm11[2],ymm3[2],ymm11[3],ymm3[3],ymm11[4],ymm3[4],ymm11[5],ymm3[5],ymm11[6],ymm3[6],ymm11[7],ymm3[7],ymm11[16],ymm3[16],ymm11[17],ymm3[17],ymm11[18],ymm3[18],ymm11[19],ymm3[19],ymm11[20],ymm3[20],ymm11[21],ymm3[21],ymm11[22],ymm3[22],ymm11[23],ymm3[23]
-	vpunpckhbw	ymm3, ymm11, ymm3       # ymm3 = ymm11[8],ymm3[8],ymm11[9],ymm3[9],ymm11[10],ymm3[10],ymm11[11],ymm3[11],ymm11[12],ymm3[12],ymm11[13],ymm3[13],ymm11[14],ymm3[14],ymm11[15],ymm3[15],ymm11[24],ymm3[24],ymm11[25],ymm3[25],ymm11[26],ymm3[26],ymm11[27],ymm3[27],ymm11[28],ymm3[28],ymm11[29],ymm3[29],ymm11[30],ymm3[30],ymm11[31],ymm3[31]
-	vpunpcklwd	ymm5, ymm4, ymm2        # ymm5 = ymm4[0],ymm2[0],ymm4[1],ymm2[1],ymm4[2],ymm2[2],ymm4[3],ymm2[3],ymm4[8],ymm2[8],ymm4[9],ymm2[9],ymm4[10],ymm2[10],ymm4[11],ymm2[11]
-	vpunpckhwd	ymm2, ymm4, ymm2        # ymm2 = ymm4[4],ymm2[4],ymm4[5],ymm2[5],ymm4[6],ymm2[6],ymm4[7],ymm2[7],ymm4[12],ymm2[12],ymm4[13],ymm2[13],ymm4[14],ymm2[14],ymm4[15],ymm2[15]
-	vpunpcklwd	ymm4, ymm1, ymm3        # ymm4 = ymm1[0],ymm3[0],ymm1[1],ymm3[1],ymm1[2],ymm3[2],ymm1[3],ymm3[3],ymm1[8],ymm3[8],ymm1[9],ymm3[9],ymm1[10],ymm3[10],ymm1[11],ymm3[11]
-	vpunpckhwd	ymm1, ymm1, ymm3        # ymm1 = ymm1[4],ymm3[4],ymm1[5],ymm3[5],ymm1[6],ymm3[6],ymm1[7],ymm3[7],ymm1[12],ymm3[12],ymm1[13],ymm3[13],ymm1[14],ymm3[14],ymm1[15],ymm3[15]
-	vinserti128	ymm3, ymm5, xmm2, 1
-	vperm2i128	ymm2, ymm5, ymm2, 49    # ymm2 = ymm5[2,3],ymm2[2,3]
-	vinserti128	ymm5, ymm4, xmm1, 1
-	vperm2i128	ymm1, ymm4, ymm1, 49    # ymm1 = ymm4[2,3],ymm1[2,3]
-	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm1
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm5
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm3
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 360]      # 8-byte Folded Reload
-	jne	.LBB8_184
-# %bb.185:
-	mov	r15, qword ptr [rsp + 368]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 360]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
-	mov	r12, qword ptr [rsp + 504]      # 8-byte Reload
-	jne	.LBB8_101
-	jmp	.LBB8_125
-.Lfunc_end8:
-	.size	comparison_greater_scalar_arr_avx2, .Lfunc_end8-comparison_greater_scalar_arr_avx2
-                                        # -- End function
-	.globl	comparison_greater_equal_arr_arr_avx2 # -- Begin function comparison_greater_equal_arr_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_greater_equal_arr_arr_avx2,@function
-comparison_greater_equal_arr_arr_avx2:  # @comparison_greater_equal_arr_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB9_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB9_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB9_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB9_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB9_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_20
-# %bb.21:
-	add	r14, 1
-.LBB9_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setae	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setae	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setae	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setae	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setae	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setae	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setae	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setae	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setae	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setae	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_28:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rsi + 4*rcx]
-	cmp	eax, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_28
-	jmp	.LBB9_123
-.LBB9_29:
-	cmp	edi, 8
-	jle	.LBB9_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB9_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB9_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB9_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_48:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	vucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_48
-# %bb.49:
-	add	r14, 1
-.LBB9_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	vmovsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomisd	xmm1, qword ptr [rdx + 8]
-	setae	al
-	vmovsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	vmovsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	vmovsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	vmovsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	setae	r13b
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	setae	r15b
-	vmovsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	vmovsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	setae	cl
-	vmovsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	vmovsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	setae	r9b
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	setae	r11b
-	vmovsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	vmovsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	setae	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	vmovsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	setae	bl
-	vmovsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	vmovsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	vmovsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	setae	r14b
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	vmovsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	setae	r12b
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	vmovsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	vmovsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	vmovsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	vmovsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	vmovsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	setae	r8b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	vmovsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	vmovsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	vmovsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	vmovsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	vmovsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	vmovsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	vmovsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	add	rsi, 256
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	setae	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB9_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB9_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_56:                               # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	vucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_56
-	jmp	.LBB9_123
-.LBB9_2:
-	cmp	edi, 2
-	je	.LBB9_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB9_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_6
-# %bb.7:
-	add	r14, 1
-.LBB9_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setge	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setge	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setge	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setge	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setge	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setge	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setge	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setge	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setge	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setge	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setge	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB9_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB9_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_14
-	jmp	.LBB9_123
-.LBB9_30:
-	cmp	edi, 7
-	je	.LBB9_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB9_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_34
-# %bb.35:
-	add	r14, 1
-.LBB9_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setae	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setae	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setae	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setae	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setae	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setae	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setae	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setae	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setae	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setae	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_42:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rsi + 8*rcx]
-	cmp	rax, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_42
-	jmp	.LBB9_123
-.LBB9_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_70
-# %bb.71:
-	add	r14, 1
-.LBB9_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setae	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setae	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setae	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setae	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setae	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setae	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setae	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setae	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setae	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setae	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_78:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rsi + 2*rcx]
-	cmp	ax, word ptr [rdx + 2*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_78
-	jmp	.LBB9_123
-.LBB9_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_81
-# %bb.82:
-	add	r14, 1
-.LBB9_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setge	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setge	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setge	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setge	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setge	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setge	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setge	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setge	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setge	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setge	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_89
-	jmp	.LBB9_123
-.LBB9_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_103
-# %bb.104:
-	add	r14, 1
-.LBB9_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setge	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setge	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setge	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setge	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setge	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setge	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setge	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setge	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setge	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setge	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_111
-	jmp	.LBB9_123
-.LBB9_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_114:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	vucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_114
-# %bb.115:
-	add	r14, 1
-.LBB9_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	vmovss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	vucomiss	xmm1, dword ptr [rdx + 4]
-	setae	al
-	vmovss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	vmovss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	vmovss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	vmovss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	setae	r13b
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	setae	r15b
-	vmovss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	vmovss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	setae	cl
-	vmovss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	vmovss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	setae	r9b
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	setae	r11b
-	vmovss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	vmovss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	setae	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	vmovss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	vmovss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	setae	bl
-	vmovss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	vmovss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	vmovss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	setae	r14b
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	vmovss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	setae	r12b
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	vmovss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	vmovss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	vmovss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	vmovss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	vmovss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	setae	r8b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	vmovss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	vmovss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	vmovss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	vmovss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	vmovss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	vmovss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	vmovss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	sub	rsi, -128
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	setae	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB9_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB9_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_122:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	vucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_122
-	jmp	.LBB9_123
-.LBB9_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_59
-# %bb.60:
-	add	r14, 1
-.LBB9_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setae	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setae	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setae	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setae	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setae	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setae	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setae	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setae	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setae	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setae	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setae	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB9_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB9_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_67:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + rcx]
-	cmp	al, byte ptr [rdx + rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_67
-	jmp	.LBB9_123
-.LBB9_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_92
-# %bb.93:
-	add	r14, 1
-.LBB9_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setge	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setge	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setge	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setge	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setge	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setge	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setge	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setge	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setge	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setge	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_100
-.LBB9_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end9:
-	.size	comparison_greater_equal_arr_arr_avx2, .Lfunc_end9-comparison_greater_equal_arr_arr_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_greater_equal_arr_scalar_avx2
-.LCPI10_0:
-	.zero	32,2
-.LCPI10_1:
-	.zero	32,4
-.LCPI10_2:
-	.zero	32,8
-.LCPI10_3:
-	.zero	32,16
-.LCPI10_4:
-	.zero	32,32
-.LCPI10_5:
-	.zero	32,64
-.LCPI10_6:
-	.zero	32,128
-	.text
-	.globl	comparison_greater_equal_arr_scalar_avx2
-	.p2align	4, 0x90
-	.type	comparison_greater_equal_arr_scalar_avx2,@function
-comparison_greater_equal_arr_scalar_avx2: # @comparison_greater_equal_arr_scalar_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1344
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r11, rcx
-	cmp	edi, 6
-	jg	.LBB10_13
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB10_25
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB10_48
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB10_56
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB10_175
-# %bb.5:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_7:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_7
-# %bb.8:
-	add	r11, 1
-.LBB10_9:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_100
-# %bb.10:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_11:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setae	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setae	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setae	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setae	al
-	cmp	dword ptr [rsi + 28], r13d
-	setae	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setae	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setae	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setae	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setae	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setae	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setae	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setae	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setae	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB10_11
-# %bb.12:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_101
-	jmp	.LBB10_175
-.LBB10_13:
-	cmp	edi, 8
-	jle	.LBB10_38
-# %bb.14:
-	cmp	edi, 9
-	je	.LBB10_64
-# %bb.15:
-	cmp	edi, 11
-	je	.LBB10_72
-# %bb.16:
-	cmp	edi, 12
-	jne	.LBB10_175
-# %bb.17:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB10_21
-# %bb.18:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_19:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	setbe	dl
-	add	rsi, 8
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_19
-# %bb.20:
-	add	r11, 1
-.LBB10_21:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_103
-# %bb.22:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_23:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	setbe	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	setbe	r9b
-	vucomisd	xmm0, qword ptr [rsi + 16]
-	setbe	r14b
-	vucomisd	xmm0, qword ptr [rsi + 24]
-	setbe	r13b
-	vucomisd	xmm0, qword ptr [rsi + 32]
-	setbe	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 40]
-	setbe	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 48]
-	setbe	al
-	vucomisd	xmm0, qword ptr [rsi + 56]
-	setbe	bl
-	vucomisd	xmm0, qword ptr [rsi + 64]
-	setbe	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 72]
-	setbe	dl
-	vucomisd	xmm0, qword ptr [rsi + 80]
-	setbe	dil
-	vucomisd	xmm0, qword ptr [rsi + 88]
-	setbe	r10b
-	vucomisd	xmm0, qword ptr [rsi + 96]
-	setbe	r11b
-	vucomisd	xmm0, qword ptr [rsi + 104]
-	setbe	r12b
-	vucomisd	xmm0, qword ptr [rsi + 112]
-	setbe	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 120]
-	setbe	cl
-	vucomisd	xmm0, qword ptr [rsi + 128]
-	setbe	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 136]
-	setbe	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 144]
-	setbe	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 152]
-	setbe	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 160]
-	setbe	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 168]
-	setbe	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 176]
-	setbe	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 184]
-	setbe	r15b
-	vucomisd	xmm0, qword ptr [rsi + 192]
-	setbe	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 200]
-	setbe	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 208]
-	setbe	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 216]
-	setbe	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 224]
-	setbe	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 232]
-	setbe	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 240]
-	setbe	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rsi + 248]
-	setbe	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB10_23
-# %bb.24:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_104
-	jmp	.LBB10_175
-.LBB10_25:
-	cmp	edi, 2
-	je	.LBB10_80
-# %bb.26:
-	cmp	edi, 3
-	jne	.LBB10_175
-# %bb.27:
-	mov	r14b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_128
-# %bb.28:
-	movsxd	rax, r9d
-	mov	r13, r11
-	.p2align	4, 0x90
-.LBB10_29:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	setge	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r13 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_29
-# %bb.30:
-	add	r13, 1
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_129
-.LBB10_31:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 608], r15      # 8-byte Spill
-	jb	.LBB10_34
-# %bb.32:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r13, rax
-	jae	.LBB10_182
-# %bb.33:
-	lea	rax, [4*r15]
-	add	rax, r13
-	cmp	rsi, rax
-	jae	.LBB10_182
-.LBB10_34:
-	xor	eax, eax
-	mov	qword ptr [rsp + 416], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 360], r13      # 8-byte Spill
-.LBB10_35:
-	mov	r13, r15
-	sub	r13, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_36:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	setge	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	setge	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	setge	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	setge	al
-	cmp	byte ptr [r12 + 7], r14b
-	setge	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	setge	dl
-	cmp	byte ptr [r12 + 10], r14b
-	setge	sil
-	cmp	byte ptr [r12 + 11], r14b
-	setge	dil
-	cmp	byte ptr [r12 + 12], r14b
-	setge	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	setge	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	setge	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	setge	r14b
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	setge	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 360]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 360], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB10_36
-# %bb.37:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 608]      # 8-byte Reload
-	jmp	.LBB10_130
-.LBB10_38:
-	cmp	edi, 7
-	je	.LBB10_92
-# %bb.39:
-	cmp	edi, 8
-	jne	.LBB10_175
-# %bb.40:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_44
-# %bb.41:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_42:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_42
-# %bb.43:
-	add	r11, 1
-.LBB10_44:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_106
-# %bb.45:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_46:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setae	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setae	dil
-	cmp	qword ptr [rsi + 16], r13
-	setae	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setae	al
-	cmp	qword ptr [rsi + 56], r13
-	setae	bl
-	cmp	qword ptr [rsi + 64], r13
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setae	dl
-	cmp	qword ptr [rsi + 80], r13
-	setae	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setae	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setae	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setae	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setae	cl
-	cmp	qword ptr [rsi + 128], r13
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setae	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setae	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 256
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB10_46
-# %bb.47:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_107
-	jmp	.LBB10_175
-.LBB10_48:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_52
-# %bb.49:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_50:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_50
-# %bb.51:
-	add	r11, 1
-.LBB10_52:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_109
-# %bb.53:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_54:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setae	al
-	cmp	word ptr [rsi + 2], r13w
-	setae	dil
-	cmp	word ptr [rsi + 4], r13w
-	setae	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setae	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 14], r13w
-	setae	bl
-	cmp	word ptr [rsi + 16], r13w
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setae	dl
-	cmp	word ptr [rsi + 20], r13w
-	setae	r9b
-	cmp	word ptr [rsi + 22], r13w
-	setae	r10b
-	cmp	word ptr [rsi + 24], r13w
-	setae	r11b
-	cmp	word ptr [rsi + 26], r13w
-	setae	r12b
-	cmp	word ptr [rsi + 28], r13w
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	setae	cl
-	cmp	word ptr [rsi + 32], r13w
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	setae	r15b
-	cmp	word ptr [rsi + 48], r13w
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	setae	r8b
-	add	dil, dil
-	or	dil, al
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB10_54
-# %bb.55:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_110
-	jmp	.LBB10_175
-.LBB10_56:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_60
-# %bb.57:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_58:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	setge	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_58
-# %bb.59:
-	add	r11, 1
-.LBB10_60:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_112
-# %bb.61:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_62:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setge	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setge	dil
-	cmp	word ptr [rsi + 4], r13w
-	setge	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setge	al
-	cmp	word ptr [rsi + 14], r13w
-	setge	bl
-	cmp	word ptr [rsi + 16], r13w
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setge	dl
-	cmp	word ptr [rsi + 20], r13w
-	setge	r9b
-	cmp	word ptr [rsi + 22], r13w
-	setge	r10b
-	cmp	word ptr [rsi + 24], r13w
-	setge	r11b
-	cmp	word ptr [rsi + 26], r13w
-	setge	r12b
-	cmp	word ptr [rsi + 28], r13w
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	setge	cl
-	cmp	word ptr [rsi + 32], r13w
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	setge	r15b
-	cmp	word ptr [rsi + 48], r13w
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	setge	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 64
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB10_62
-# %bb.63:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_113
-	jmp	.LBB10_175
-.LBB10_64:
-	mov	r13, qword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_68
-# %bb.65:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_66:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setge	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_66
-# %bb.67:
-	add	r11, 1
-.LBB10_68:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_115
-# %bb.69:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_70:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setge	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setge	dil
-	cmp	qword ptr [rsi + 16], r13
-	setge	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setge	al
-	cmp	qword ptr [rsi + 56], r13
-	setge	bl
-	cmp	qword ptr [rsi + 64], r13
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setge	dl
-	cmp	qword ptr [rsi + 80], r13
-	setge	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setge	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setge	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setge	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setge	cl
-	cmp	qword ptr [rsi + 128], r13
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setge	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setge	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 256
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB10_70
-# %bb.71:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_116
-	jmp	.LBB10_175
-.LBB10_72:
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB10_76
-# %bb.73:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_74:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	setbe	dl
-	add	rsi, 4
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_74
-# %bb.75:
-	add	r11, 1
-.LBB10_76:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_118
-# %bb.77:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_78:                              # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	setbe	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	setbe	r9b
-	vucomiss	xmm0, dword ptr [rsi + 8]
-	setbe	r14b
-	vucomiss	xmm0, dword ptr [rsi + 12]
-	setbe	r13b
-	vucomiss	xmm0, dword ptr [rsi + 16]
-	setbe	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 20]
-	setbe	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 24]
-	setbe	al
-	vucomiss	xmm0, dword ptr [rsi + 28]
-	setbe	bl
-	vucomiss	xmm0, dword ptr [rsi + 32]
-	setbe	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 36]
-	setbe	dl
-	vucomiss	xmm0, dword ptr [rsi + 40]
-	setbe	dil
-	vucomiss	xmm0, dword ptr [rsi + 44]
-	setbe	r10b
-	vucomiss	xmm0, dword ptr [rsi + 48]
-	setbe	r11b
-	vucomiss	xmm0, dword ptr [rsi + 52]
-	setbe	r12b
-	vucomiss	xmm0, dword ptr [rsi + 56]
-	setbe	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 60]
-	setbe	cl
-	vucomiss	xmm0, dword ptr [rsi + 64]
-	setbe	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 68]
-	setbe	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 72]
-	setbe	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 76]
-	setbe	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 80]
-	setbe	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 84]
-	setbe	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 88]
-	setbe	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 92]
-	setbe	r15b
-	vucomiss	xmm0, dword ptr [rsi + 96]
-	setbe	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 100]
-	setbe	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 104]
-	setbe	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 108]
-	setbe	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 112]
-	setbe	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 116]
-	setbe	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 120]
-	setbe	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rsi + 124]
-	setbe	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	edi, edx
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	byte ptr [rdx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rdx + 1], cl
-	or	r15b, dil
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r8b, 7
-	or	r8b, bl
-	or	r8b, cl
-	mov	byte ptr [rdx + 2], r15b
-	mov	byte ptr [rdx + 3], r8b
-	add	rsi, 128
-	add	rdx, 4
-	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB10_78
-# %bb.79:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_119
-	jmp	.LBB10_175
-.LBB10_80:
-	mov	r14b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_84
-# %bb.81:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_82:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r11 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_82
-# %bb.83:
-	add	r11, 1
-.LBB10_84:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_121
-# %bb.85:
-	cmp	r15, 32
-	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 368], r15      # 8-byte Spill
-	jb	.LBB10_88
-# %bb.86:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r11, rax
-	jae	.LBB10_185
-# %bb.87:
-	lea	rax, [r11 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB10_185
-.LBB10_88:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	r12, rsi
-	mov	qword ptr [rsp + 360], r11      # 8-byte Spill
-.LBB10_89:
-	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_90:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, r12
-	cmp	byte ptr [r12], r14b
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 1], r14b
-	setae	r8b
-	cmp	byte ptr [r12 + 2], r14b
-	setae	r15b
-	cmp	byte ptr [r12 + 3], r14b
-	setae	r13b
-	cmp	byte ptr [r12 + 4], r14b
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 5], r14b
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 6], r14b
-	setae	al
-	cmp	byte ptr [r12 + 7], r14b
-	setae	r11b
-	cmp	byte ptr [r12 + 8], r14b
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [r12 + 9], r14b
-	setae	dl
-	cmp	byte ptr [r12 + 10], r14b
-	setae	sil
-	cmp	byte ptr [r12 + 11], r14b
-	setae	dil
-	cmp	byte ptr [r12 + 12], r14b
-	setae	r10b
-	cmp	byte ptr [r12 + 13], r14b
-	setae	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	setae	r9b
-	cmp	byte ptr [rcx + 16], r14b
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 18], r14b
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	setae	r14b
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 24], bl
-	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 25], bl
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 26], bl
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 27], bl
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 28], bl
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 29], bl
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 30], bl
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	byte ptr [rcx + 31], bl
-	setae	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r15b, 2
-	or	r15b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 320]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r15b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 360]      # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r14b, dl
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rsi + 2], r14b
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	byte ptr [rsi + 3], bl
-	lea	r12, [rcx + 32]
-	add	rsi, 4
-	mov	qword ptr [rsp + 360], rsi      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB10_90
-# %bb.91:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 368]      # 8-byte Reload
-	jmp	.LBB10_122
-.LBB10_92:
-	mov	r13d, dword ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_96
-# %bb.93:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_94:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setge	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r11 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r11 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_94
-# %bb.95:
-	add	r11, 1
-.LBB10_96:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_125
-# %bb.97:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_98:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setge	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setge	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setge	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setge	al
-	cmp	dword ptr [rsi + 28], r13d
-	setge	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setge	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setge	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setge	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setge	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setge	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setge	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setge	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setge	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r11], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r11 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r11 + 2], r15b
-	mov	byte ptr [r11 + 3], r8b
-	add	rsi, 128
-	add	r11, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB10_98
-# %bb.99:
-	mov	r14, r11
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	shl	r15, 5
-	cmp	r15, r10
-	jl	.LBB10_126
-	jmp	.LBB10_175
-.LBB10_100:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_101:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_133
-# %bb.102:
-	xor	r11d, r11d
-	jmp	.LBB10_135
-.LBB10_103:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_104:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_137
-# %bb.105:
-	xor	r11d, r11d
-	jmp	.LBB10_139
-.LBB10_106:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_107:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_141
-# %bb.108:
-	xor	r11d, r11d
-	jmp	.LBB10_143
-.LBB10_109:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_110:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_145
-# %bb.111:
-	xor	r11d, r11d
-	jmp	.LBB10_147
-.LBB10_112:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_113:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_150
-# %bb.114:
-	xor	r11d, r11d
-	jmp	.LBB10_152
-.LBB10_115:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_116:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_154
-# %bb.117:
-	xor	r11d, r11d
-	jmp	.LBB10_156
-.LBB10_118:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_119:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_158
-# %bb.120:
-	xor	r11d, r11d
-	jmp	.LBB10_160
-.LBB10_121:
-	mov	qword ptr [rsp + 360], r11      # 8-byte Spill
-	mov	r12, rsi
-.LBB10_122:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-# %bb.123:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_163
-# %bb.124:
-	xor	esi, esi
-	jmp	.LBB10_166
-.LBB10_125:
-	mov	r14, r11
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-.LBB10_126:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_168
-# %bb.127:
-	xor	r11d, r11d
-	jmp	.LBB10_170
-.LBB10_128:
-	mov	r13, r11
-	sar	r15, 5
-	cmp	r10, 32
-	jge	.LBB10_31
-.LBB10_129:
-	mov	qword ptr [rsp + 360], r13      # 8-byte Spill
-	mov	r12, rsi
-.LBB10_130:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_175
-# %bb.131:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_176
-# %bb.132:
-	xor	esi, esi
-	jmp	.LBB10_179
-.LBB10_133:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_134:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	mov	edi, 0
-	adc	dil, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r15 + rdx]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rdx], al
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB10_134
-.LBB10_135:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.136:
-	xor	eax, eax
-	cmp	dword ptr [rsi], r13d
-	jmp	.LBB10_149
-.LBB10_137:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_138:                             # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rsi]
-	setbe	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomisd	xmm0, qword ptr [rsi + 8]
-	setbe	al
-	add	rsi, 16
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_138
-.LBB10_139:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.140:
-	vucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB10_162
-.LBB10_141:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_142:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	mov	edi, 0
-	adc	dil, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r15 + rdx]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rdx], al
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB10_142
-.LBB10_143:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.144:
-	xor	eax, eax
-	cmp	qword ptr [rsi], r13
-	jmp	.LBB10_149
-.LBB10_145:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_146:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	mov	edi, 0
-	adc	dil, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r15 + rdx]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rdx], al
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB10_146
-.LBB10_147:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.148:
-	xor	eax, eax
-	cmp	word ptr [rsi], r13w
-.LBB10_149:
-	adc	al, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB10_174
-.LBB10_150:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_151:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	setge	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	setge	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_151
-.LBB10_152:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.153:
-	cmp	word ptr [rsi], r13w
-	jmp	.LBB10_172
-.LBB10_154:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_155:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setge	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setge	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_155
-.LBB10_156:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.157:
-	cmp	qword ptr [rsi], r13
-	jmp	.LBB10_172
-.LBB10_158:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_159:                             # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rsi]
-	setbe	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	vucomiss	xmm0, dword ptr [rsi + 4]
-	setbe	al
-	add	rsi, 8
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_159
-.LBB10_160:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.161:
-	vucomiss	xmm0, dword ptr [rsi]
-.LBB10_162:
-	setbe	al
-	jmp	.LBB10_173
-.LBB10_163:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 360]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB10_164:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	mov	ebx, 0
-	adc	bl, -1
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	mov	ebx, 0
-	adc	bl, -1
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB10_164
-# %bb.165:
-	add	r12, rsi
-.LBB10_166:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.167:
-	xor	eax, eax
-	cmp	byte ptr [r12], r14b
-	adc	al, -1
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 360]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	jmp	.LBB10_181
-.LBB10_168:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	mov	r15, r14
-	.p2align	4, 0x90
-.LBB10_169:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setge	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setge	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r15 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_169
-.LBB10_170:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.171:
-	cmp	dword ptr [rsi], r13d
-.LBB10_172:
-	setge	al
-.LBB10_173:
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB10_174:
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-.LBB10_175:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB10_176:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 360]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB10_177:                             # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [r12 + rsi], r14b
-	setge	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [r12 + rsi + 1], r14b
-	lea	rsi, [rsi + 2]
-	setge	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB10_177
-# %bb.178:
-	add	r12, rsi
-.LBB10_179:
-	test	r8b, 1
-	je	.LBB10_175
-# %bb.180:
-	cmp	byte ptr [r12], r14b
-	setge	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 360]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-.LBB10_181:
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB10_175
-.LBB10_182:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 416], r15      # 8-byte Spill
-	lea	rax, [4*r15]
-	add	rax, r13
-	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 384], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r13      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_183:                             # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rcx + 1]
-	mov	rdx, rcx
-	vmovd	xmm4, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rsi + rdx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 576], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 256], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	or	rbx, 544
-	mov	qword ptr [rsp + 248], rbx      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 576
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 608
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 640
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 672
-	mov	r12, rax
-	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
-	mov	rdi, rcx
-	or	rdi, 704
-	mov	qword ptr [rsp + 240], rdi      # 8-byte Spill
-	mov	rdx, rcx
-	or	rdx, 736
-	mov	qword ptr [rsp + 216], rdx      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 768
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	r15, rcx
-	or	r15, 800
-	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
-	mov	r14, rcx
-	or	r14, 832
-	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
-	mov	r9, rcx
-	or	r9, 864
-	mov	qword ptr [rsp + 264], r9       # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 896
-	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 928
-	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 232], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 32], rcx       # 8-byte Spill
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + rbx], 1
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + r13], 2
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 7
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 1
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 2
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 3
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 4
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 5
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 6
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 14
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 4
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 7
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 12
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rbx + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 6
-	mov	rbx, r8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 14
-	vinserti128	ymm13, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1280], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm10, edi
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 576]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 1
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 2
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
-	mov	r12, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 8
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 10
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 12
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + rcx + 3], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 4
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 6
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 448]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 1
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
-	mov	rax, r10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 5
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 7
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 9
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 12
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 15
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm15, byte ptr [rsi + rcx + 4], 1
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 2
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 4
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 5
-	mov	rdi, r14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 7
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 9
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 11
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 13
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 15
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + r14 + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 2
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 7
-	mov	r15, rax
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 5], 11
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 15
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + rcx + 5], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 5], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + r12 + 5], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 10]
-	vmovd	xmm4, edi
-	mov	r11, r14
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + r14 + 6], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 3
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 5
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 8
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 9
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 10
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 11
-	mov	rax, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 15
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rcx + 6], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 2
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 7
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 9
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 12
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 14
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 1
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 2
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 4
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 6
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 7
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 1
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 6
-	mov	r8, r13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 7
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 7], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm2, edi
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + r15 + 8], 1
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 2
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 6
-	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 8], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 9
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 10
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 12
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 15
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm10, byte ptr [rsi + rdx + 8], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 2
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 9
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 11
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 12
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 15
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r15 + 9], 1
-	mov	r13, r15
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 6
-	mov	r9, rax
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 9
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rax + 9], 1
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 9], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 9], 12
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1248], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 4
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 7
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 10
-	mov	r9, qword ptr [rsp + 264]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 12
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 15
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 2
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 4
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 10], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 13
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 4
-	mov	r13, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 8
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm1, edi
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 1
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 12], 2
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 4
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 6
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 7
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 12], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 9
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 10
-	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 12], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 15
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + rax + 12], 1
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 12], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 14
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 1
-	mov	r15, r11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 3
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 5
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 12
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 13
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 15
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 3
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 4
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 13], 5
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 11
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 13], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 14]
-	vmovd	xmm0, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 2
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
-	mov	r12, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 14], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 14], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 5
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 9
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 14], 12
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 3
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 4
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 6
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 7
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 9
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 10
-	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
-	movzx	edi, byte ptr [rsi + r13 + 15]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 4
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 15], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 16]
-	vmovd	xmm0, edi
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 16], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 3
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 4
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 16], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 16]
-	vmovd	xmm1, edi
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 1
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 2
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 3
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 5
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 7
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 8
-	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 9
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 12
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 14
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 15
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r13 + 17]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 1
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 2
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 5
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 17], 7
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 9
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 17]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 3
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 17], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 6
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 17], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 10
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r13 + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 9
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 11
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 18], 14
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 15
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 18]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 2
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 4
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 5
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 8
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 9
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 11
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 12
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 13
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 15
-	movzx	edi, byte ptr [rsi + r13 + 19]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 2
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 19], 4
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 5
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 6
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 9
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 19]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 1
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 3
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 4
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 5
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 19], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 20]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 1
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 4
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 5
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 20], 6
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 7
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 9
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 10
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 20]
-	vmovd	xmm1, edi
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 2
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 3
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 9
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
-	movzx	edi, byte ptr [rsi + r11 + 21]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
-	mov	r11, rdx
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 21], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 21], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 21]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 4
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 6
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 7
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 9
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rbx + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 4
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 6
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 7
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 9
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 10
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 22]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 2
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 3
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 7
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 12
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 15
-	movzx	edi, byte ptr [rsi + rcx + 23]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 1
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 6
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 10
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 23]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 23], 2
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 3
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 4
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 5
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 23], 6
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 13
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 14
-	mov	r11, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm11, ymm3, xmm2, 1
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 24]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 2
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 3
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 4
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 5
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 24], 7
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 9
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 24], 11
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 12
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 15
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 24]
-	vmovd	xmm1, edi
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 1
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 24], 6
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 7
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 11
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 12
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 25]
-	vmovd	xmm2, edi
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 1
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 6
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 9
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 10
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 11
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 12
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 14
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 25]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 2
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 3
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 4
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 9
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 10
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 13
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rcx + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 26]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 2
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 3
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 5
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 6
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 26], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 12
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 13
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 15
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 26]
-	vmovd	xmm1, edi
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 1
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 26], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 4
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 5
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 6
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 7
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 26], 8
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 9
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 12
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 13
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 15
-	movzx	edi, byte ptr [rsi + rcx + 27]
-	vmovd	xmm2, edi
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 27], 1
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 2
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 3
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 4
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 5
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 6
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 7
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 8
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 9
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 27]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 1
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 2
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 3
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 4
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 5
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 10
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 11
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 13
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 14
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 1
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 28], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 3
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 5
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 6
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 7
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 8
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 10
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 12
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 15
-	movzx	edi, byte ptr [rsi + rax + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 2
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 3
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 5
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 6
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 7
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 9
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 10
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 12
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 14
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 29]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 2
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 4
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
-	mov	r12, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 29], 8
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 11
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 13
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 15
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r15 + 29]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 3
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 29], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 6
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 7
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 11
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 29], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + rax + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + r13 + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 30]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 1
-	movzx	edi, byte ptr [rsi + rax + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 1
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 31], 6
-	mov	r13, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 31], 10
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 31], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	movzx	eax, byte ptr [rsi + r15 + 30]
-	vmovd	xmm1, eax
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
-	movzx	eax, byte ptr [rsi + r15 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 31], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 31], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 12
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymmword ptr [rsp + 384]   # 32-byte Reload
-	vpcmpgtb	ymm0, ymm2, ymm13
-	vpcmpgtb	ymm7, ymm2, ymmword ptr [rsp + 1280] # 32-byte Folded Reload
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI10_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpandn	ymm7, ymm7, ymm5
-	vpaddb	ymm0, ymm7, ymm0
-	vpcmpgtb	ymm7, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI10_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm6
-	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI10_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm2, ymm14
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI10_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm12, ymm12, ymm8
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpsubb	ymm0, ymm0, ymm1
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpor	ymm0, ymm0, ymm7
-	vpcmpgtb	ymm7, ymm2, ymm15
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI10_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm7, ymm7, ymm1
-	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI10_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm13
-	vpor	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI10_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpandn	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vpcmpgtb	ymm7, ymm2, ymmword ptr [rsp + 1248] # 32-byte Folded Reload
-	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm5
-	vpaddb	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm6
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm12, ymm12, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpandn	ymm12, ymm12, ymm1
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm13
-	vpor	ymm12, ymm12, ymm15
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm12, ymm12, ymm7
-	vpcmpgtb	ymm7, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm5
-	vpaddb	ymm7, ymm15, ymm7
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm6
-	vpcmpgtb	ymm14, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm3
-	vpor	ymm14, ymm15, ymm14
-	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpandn	ymm15, ymm15, ymm8
-	vpor	ymm14, ymm14, ymm15
-	vpsubb	ymm7, ymm7, ymm4
-	vpor	ymm7, ymm14, ymm7
-	vpcmpgtb	ymm14, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpandn	ymm14, ymm14, ymm1
-	vpcmpgtb	ymm10, ymm2, ymm10
-	vpandn	ymm10, ymm10, ymm13
-	vpor	ymm10, ymm14, ymm10
-	vpcmpgtb	ymm11, ymm2, ymm11
-	vmovdqa	ymm14, ymm9
-	vpandn	ymm11, ymm11, ymm9
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vpcmpgtb	ymm9, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpcmpgtb	ymm8, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpandn	ymm8, ymm8, ymm5
-	vpaddb	ymm8, ymm8, ymm9
-	vpcmpgtb	ymm5, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpandn	ymm5, ymm5, ymm6
-	vpcmpgtb	ymm6, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpandn	ymm6, ymm6, ymm3
-	vpor	ymm5, ymm5, ymm6
-	vpcmpgtb	ymm3, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI10_3]
-	vpor	ymm3, ymm5, ymm3
-	vpsubb	ymm5, ymm8, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpcmpgtb	ymm4, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpandn	ymm4, ymm4, ymm1
-	vpcmpgtb	ymm1, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpandn	ymm1, ymm1, ymm13
-	vpor	ymm1, ymm4, ymm1
-	vpcmpgtb	ymm2, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpandn	ymm2, ymm2, ymm14
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r13 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r13 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r13 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r13 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	jne	.LBB10_183
-# %bb.184:
-	mov	r15, qword ptr [rsp + 608]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 368]      # 8-byte Reload
-	jne	.LBB10_35
-	jmp	.LBB10_130
-.LBB10_185:
-	and	r15, -32
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 536], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
-	lea	rax, [r11 + 4*r15]
-	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_186:                             # =>This Inner Loop Header: Depth=1
-	mov	rbx, rax
-	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rsi + rax]
-	mov	rdx, rcx
-	vmovd	xmm0, eax
-	mov	rcx, rbx
-	movzx	eax, byte ptr [rsi + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rsi + rdx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rsi + rbx + 1]
-	vmovd	xmm5, eax
-	movzx	eax, byte ptr [rsi + rdx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rdx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rsi + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rsi + rdx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 544], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rsi + rdx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rsi + rbx + 5]
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rsi + rdx + 6]
-	mov	qword ptr [rsp + 264], rdx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rsi + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rsi + rdx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rsi + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	r13, rbx
-	or	r13, 544
-	mov	rax, rbx
-	or	rax, 576
-	mov	r12, rax
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 608
-	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
-	or	rbx, 640
-	mov	qword ptr [rsp + 240], rbx      # 8-byte Spill
-	mov	r9, rcx
-	or	r9, 672
-	mov	qword ptr [rsp + 136], r9       # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 704
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 736
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	r11, rcx
-	or	r11, 768
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	rdi, rcx
-	or	rdi, 800
-	mov	qword ptr [rsp + 88], rdi       # 8-byte Spill
-	mov	r10, rcx
-	or	r10, 832
-	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
-	mov	r8, rcx
-	or	r8, 864
-	mov	qword ptr [rsp + 168], r8       # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 896
-	mov	r15, rax
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	rdx, rcx
-	or	rdx, 928
-	mov	qword ptr [rsp + 40], rdx       # 8-byte Spill
-	mov	rax, rcx
-	mov	qword ptr [rsp + 256], rcx      # 8-byte Spill
-	or	rax, 960
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	or	rcx, 992
-	mov	qword ptr [rsp + 216], rcx      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r13      # 8-byte Spill
-	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rsi + r12], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 5
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 6
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 1
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 2
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 4
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 5
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 6
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 10
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 12
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 13
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 14
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 15
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymm10, ymmword ptr [rsp + 608]  # 32-byte Reload
-	vpmaxub	ymm3, ymm10, ymm0
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 1
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 2
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 3
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 4
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 5
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 6
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 7
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 8
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 9
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 10
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 11
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 13
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 14
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 15
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 1], 3
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
-	mov	r14, r15
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
-	mov	rbx, rax
-	vpcmpeqb	ymm0, ymm0, ymm3
-	vmovdqa	ymmword ptr [rsp + 1280], ymm0  # 32-byte Spill
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + r12 + 1], 14
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm9, edi
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 1], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 8]
-	vmovd	xmm6, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 2
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 4
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 5
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 6
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 8
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 9
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 10
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 11
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 13
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 14
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 4
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 2], 7
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 2], 8
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 2], 9
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 10
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 11
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rsi + r15 + 3], 1
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 2
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 7
-	mov	r15, r8
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 8
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 9
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 10
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 11
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 12
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 3], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 3], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 3], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 14
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm8, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 9]
-	vmovd	xmm11, edi
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vmovdqa	xmm0, xmmword ptr [rsp + 544]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 1
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 2
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 4
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 5
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 4], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 7
-	mov	r12, r13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 8
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 9
-	mov	r10, r11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 10
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 11
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 12
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 14
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm15, byte ptr [rsi + rax + 4], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 8
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 10
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 11
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 14
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 15
-	vpinsrb	xmm4, xmm14, byte ptr [rsi + rcx + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 5], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 4
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 5], 6
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 5], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm13, byte ptr [rsi + rax + 5], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 2
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 5
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 5], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 7
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 8
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 9
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 10
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 5], 12
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 13
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rsi + rdx + 5], 14
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 10]
-	vmovd	xmm3, edi
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 5], 15
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 10]
-	vmovd	xmm4, edi
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rsi + r12 + 6], 1
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 2
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 3
-	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 4
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 6], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 7
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 8
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 10
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 11
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 15
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rdi + 6], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 2
-	mov	r10, r14
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 7
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 6], 8
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 11
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 12
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 13
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 14
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 7], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 7], 2
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 5
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 6
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 8
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 9
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 10
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 11
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 13
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 14
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 15
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 1
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 7], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 4
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 5
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 6
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 7], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 7], 9
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 7], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 7], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm0, edi
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1248], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 11]
-	vmovd	xmm1, edi
-	vpinsrb	xmm2, xmm9, byte ptr [rsi + r12 + 8], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 2
-	mov	r8, r13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 8], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 4
-	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 8], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 6
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 8], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 8], 9
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 10
-	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 8], 11
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 8], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 8], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 14
-	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 8], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm6, byte ptr [rsi + rax + 8], 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 4
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 8
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 9
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 10
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 11
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 12
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 14
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 8], 15
-	vinserti128	ymm2, ymm5, xmm2, 1
-	vpmaxub	ymm5, ymm10, ymm2
-	vpinsrb	xmm6, xmm8, byte ptr [rsi + r12 + 9], 1
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r8 + 9], 3
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r13 + 9], 5
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 7
-	mov	r12, r10
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 8
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 9
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 11
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 12
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 14
-	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 15
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm11, byte ptr [rsi + rcx + 9], 1
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 9], 2
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 9], 5
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 7
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 9
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 9], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
-	vpcmpeqb	ymm2, ymm2, ymm5
-	vmovdqa	ymmword ptr [rsp + 1216], ymm2  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm2, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 12]
-	vmovd	xmm5, edi
-	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 1
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 3
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 4
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 5
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 7
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 9
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 10
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 11
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 14
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 2
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 6
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 8
-	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 10
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 10], 12
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 13
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 14
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 10], 15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 11], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 11], 2
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 11], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 11], 4
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 11], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 11], 6
-	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 11], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 8
-	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 11], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 11], 10
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 11], 11
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 11], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 11], 15
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 5
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 11], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 8
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 11], 11
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm3  # 32-byte Spill
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 14
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 13]
-	vmovd	xmm0, edi
-	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm2, byte ptr [rsi + r12 + 12], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 2
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 12], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 12], 4
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 12], 7
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 12], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 12], 9
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 12], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 12], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 13
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 12], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 12], 15
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm5, byte ptr [rsi + r10 + 12], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 3
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 12], 4
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 5
-	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 6
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 7
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 8
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 12], 9
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 10
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 11
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 12
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 13
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 12], 14
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 1
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 4
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 5
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 6
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 8
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 9
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 10
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 11
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 15
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 13], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 13], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 13], 4
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 13], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 13], 6
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 13], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 13], 9
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 13], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 11
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 13], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 14]
-	vmovd	xmm0, edi
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 14], 1
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 14], 2
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 4
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 6
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 8
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 14], 10
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 13
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 14
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 1
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 5
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 14], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 14], 10
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 13
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
-	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r15 + 15]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 4
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 6
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 8
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 10
-	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 15], 11
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 15], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rbx + 15]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 3
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 6
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 7
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 11
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 13
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 14
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r15 + 16]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 1
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 2
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 3
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 16], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 7
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 16], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 16], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 13
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 14
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 15
-	movzx	edi, byte ptr [rsi + rbx + 16]
-	vmovd	xmm1, edi
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 16], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 4
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 7
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 8
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 9
-	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 10
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 14
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 17]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 1
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 2
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 4
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 5
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 6
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 7
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 8
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 11
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 17], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 17]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 17], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 2
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 5
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 6
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 17], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 11
-	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 12
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 13
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vpinsrb	xmm1, xmm3, byte ptr [rsi + r9 + 17], 15
-	vpmaxub	ymm3, ymm10, ymm0
-	vpcmpeqb	ymm0, ymm0, ymm3
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	vinserti128	ymm0, ymm1, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + rax + 18]
-	vmovd	xmm0, edi
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 1
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 2
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 3
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 18], 4
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 6
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 18], 7
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 8
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 9
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 10
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 11
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 13
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 14
-	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 15
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 18]
-	vmovd	xmm1, edi
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 1
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 2
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 3
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 7
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 8
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 9
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 10
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 18], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 14
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 15
-	movzx	edi, byte ptr [rsi + rax + 19]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 19], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 19], 4
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 5
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 19], 8
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 19], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 11
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 14
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 19]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 2
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 4
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 19], 6
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 7
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 8
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 9
-	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 10
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 11
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
-	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 13
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + r9 + 19], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 20]
-	vmovd	xmm0, edi
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 1
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 6
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 7
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 9
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 10
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 20], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 14
-	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 20]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 6
-	mov	r10, r13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 7
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 9
-	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 10
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 12
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 20], 13
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 15
-	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r14 + 21]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 4
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 5
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 21], 6
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 7
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 21], 8
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 10
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 11
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 21], 15
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rbx + 21]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 2
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 8
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 10
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 11
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 13
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 14
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 15
-	vinserti128	ymm11, ymm1, xmm0, 1
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r14 + 22]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 1
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 2
-	mov	r15, rdx
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
-	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 4
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 8
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 9
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 10
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 11
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 12
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 14
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
-	movzx	edi, byte ptr [rsi + rbx + 22]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 1
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 22], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 3
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 22], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 7
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 8
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 9
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 11
-	mov	rbx, r10
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 22], 14
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 15
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 23]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 1
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 23], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 5
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 6
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 7
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 8
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 23], 9
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 10
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 14
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rcx + 23]
-	vmovd	xmm3, edi
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 6
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 8
-	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 9
-	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 11
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 12
-	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 14
-	vinserti128	ymm9, ymm1, xmm0, 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rsi + rbx + 23], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 24]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 2
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 4
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 6
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 24], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 24], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 11
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 15
-	movzx	edi, byte ptr [rsi + rcx + 24]
-	vmovd	xmm1, edi
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 1
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 2
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 3
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 4
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 5
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 7
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 10
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 11
-	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 13
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 15
-	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r8 + 25]
-	vmovd	xmm2, edi
-	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 2
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 3
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 4
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 5
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 6
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 9
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 10
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 11
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 13
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 14
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 25]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 3
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 8
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 9
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 11
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 12
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 13
-	vinserti128	ymm0, ymm1, xmm0, 1
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm3, byte ptr [rsi + r10 + 25], 14
-	vpmaxub	ymm3, ymm10, ymm0
-	vpcmpeqb	ymm0, ymm0, ymm3
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rsi + rdi + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + r8 + 26]
-	vmovd	xmm0, edi
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 1
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 6
-	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 7
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 8
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 9
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 10
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 13
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 14
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 15
-	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r14 + 26]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 5
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 6
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 8
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 26], 9
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 10
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 26], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 14
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 26], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 27]
-	vmovd	xmm2, edi
-	mov	r10, r8
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 1
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 2
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 3
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 4
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 5
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 6
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 7
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 8
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 14
-	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 15
-	movzx	edi, byte ptr [rsi + r14 + 27]
-	vmovd	xmm3, edi
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 1
-	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 2
-	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 3
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 5
-	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 7
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 10
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 11
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 27], 12
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 13
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rsi + rax + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 2
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 3
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 4
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 5
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 6
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 8
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 9
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 10
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 11
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 12
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 13
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdi + 28]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 1
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 2
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 3
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 5
-	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 28], 6
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 7
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 8
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 10
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 28], 13
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 28], 14
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 15
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rax + 29]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 1
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 2
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 5
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 7
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 8
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 11
-	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 29], 13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 14
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 15
-	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + rdx + 29]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 1
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 6
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 8
-	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 10
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 11
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 13
-	vpinsrb	xmm4, xmm3, byte ptr [rsi + rbx + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm4, byte ptr [rsi + r11 + 29], 15
-	mov	rbx, r11
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	movzx	edi, byte ptr [rsi + r11 + 30]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 1
-	movzx	edi, byte ptr [rsi + r11 + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 31], 6
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 10
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 31], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
-	mov	rax, rcx
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 14
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
-	movzx	eax, byte ptr [rsi + rdx + 30]
-	vmovd	xmm1, eax
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
-	movzx	eax, byte ptr [rsi + rdx + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 2
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 7
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 9
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 31], 12
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 14
-	mov	rax, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymm10
-	vmovdqa	ymm1, ymmword ptr [rsp + 576]   # 32-byte Reload
-	vpmaxub	ymm0, ymm10, ymm1
-	vpcmpeqb	ymm0, ymm1, ymm0
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI10_0] # ymm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpand	ymm0, ymm0, ymm6
-	vpsubb	ymm0, ymm0, ymmword ptr [rsp + 1280] # 32-byte Folded Reload
-	vmovdqa	ymm1, ymmword ptr [rsp + 480]   # 32-byte Reload
-	vpmaxub	ymm7, ymm10, ymm1
-	vpcmpeqb	ymm7, ymm1, ymm7
-	vmovdqa	ymm1, ymmword ptr [rsp + 448]   # 32-byte Reload
-	vpmaxub	ymm12, ymm10, ymm1
-	vpcmpeqb	ymm12, ymm12, ymm1
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI10_1] # ymm8 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm7, ymm8, ymm7
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI10_2] # ymm4 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vpmaxub	ymm7, ymm14, ymm10
-	vpcmpeqb	ymm7, ymm14, ymm7
-	vpmaxub	ymm12, ymm15, ymm10
-	vpcmpeqb	ymm12, ymm15, ymm12
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI10_3] # ymm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm7, ymm7, ymm5
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI10_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm12, ymm12, ymm1
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm14, ymmword ptr [rsp + 544]  # 32-byte Reload
-	vpmaxub	ymm12, ymm14, ymm10
-	vpcmpeqb	ymm12, ymm14, ymm12
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI10_5] # ymm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vmovdqa	ymm12, ymmword ptr [rsp + 1248] # 32-byte Reload
-	vpmaxub	ymm7, ymm12, ymm10
-	vpcmpeqb	ymm7, ymm12, ymm7
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI10_6] # ymm13 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm7, ymm13, ymm7
-	vpor	ymm10, ymm0, ymm7
-	vmovdqa	ymm12, ymmword ptr [rsp + 1184] # 32-byte Reload
-	vpmaxub	ymm7, ymm12, ymm2
-	vpcmpeqb	ymm7, ymm12, ymm7
-	vpand	ymm7, ymm7, ymm6
-	vpsubb	ymm7, ymm7, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vmovdqa	ymm14, ymmword ptr [rsp + 1152] # 32-byte Reload
-	vpmaxub	ymm12, ymm14, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm12
-	vmovdqa	ymm14, ymmword ptr [rsp + 1120] # 32-byte Reload
-	vpmaxub	ymm15, ymm14, ymm2
-	vpcmpeqb	ymm15, ymm14, ymm15
-	vpand	ymm12, ymm12, ymm8
-	vpand	ymm15, ymm15, ymm4
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm14, ymmword ptr [rsp + 1088] # 32-byte Reload
-	vpmaxub	ymm12, ymm14, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm12
-	vmovdqa	ymm14, ymmword ptr [rsp + 1056] # 32-byte Reload
-	vpmaxub	ymm15, ymm14, ymm2
-	vpcmpeqb	ymm15, ymm14, ymm15
-	vpand	ymm12, ymm12, ymm5
-	vpand	ymm15, ymm15, ymm1
-	vpor	ymm12, ymm12, ymm15
-	vmovdqa	ymm14, ymmword ptr [rsp + 960]  # 32-byte Reload
-	vpmaxub	ymm15, ymm14, ymm2
-	vpcmpeqb	ymm15, ymm14, ymm15
-	vpand	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm14, ymmword ptr [rsp + 992]  # 32-byte Reload
-	vpmaxub	ymm12, ymm14, ymm2
-	vpcmpeqb	ymm12, ymm14, ymm12
-	vpand	ymm12, ymm12, ymm13
-	vpor	ymm12, ymm12, ymm7
-	vmovdqa	ymm14, ymmword ptr [rsp + 928]  # 32-byte Reload
-	vpmaxub	ymm7, ymm14, ymm2
-	vpcmpeqb	ymm7, ymm14, ymm7
-	vpand	ymm7, ymm7, ymm6
-	vpsubb	ymm7, ymm7, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vmovdqa	ymm0, ymmword ptr [rsp + 864]   # 32-byte Reload
-	vpmaxub	ymm15, ymm0, ymm2
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vmovdqa	ymm0, ymmword ptr [rsp + 896]   # 32-byte Reload
-	vpmaxub	ymm14, ymm0, ymm2
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpand	ymm15, ymm15, ymm8
-	vpand	ymm14, ymm14, ymm4
-	vpor	ymm14, ymm15, ymm14
-	vpor	ymm7, ymm14, ymm7
-	vpmaxub	ymm14, ymm11, ymm2
-	vpcmpeqb	ymm11, ymm11, ymm14
-	vmovdqa	ymm0, ymmword ptr [rsp + 832]   # 32-byte Reload
-	vpmaxub	ymm14, ymm0, ymm2
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vmovdqa	ymm15, ymm5
-	vpand	ymm11, ymm11, ymm5
-	vpand	ymm14, ymm14, ymm1
-	vpor	ymm11, ymm11, ymm14
-	vpmaxub	ymm14, ymm9, ymm2
-	vpcmpeqb	ymm9, ymm9, ymm14
-	vmovdqa	ymm14, ymm3
-	vpand	ymm9, ymm9, ymm3
-	vpor	ymm9, ymm11, ymm9
-	vpor	ymm7, ymm9, ymm7
-	vmovdqa	ymm0, ymmword ptr [rsp + 800]   # 32-byte Reload
-	vpmaxub	ymm9, ymm0, ymm2
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm13
-	vpor	ymm7, ymm9, ymm7
-	vmovdqa	ymm0, ymmword ptr [rsp + 416]   # 32-byte Reload
-	vpmaxub	ymm9, ymm0, ymm2
-	vpcmpeqb	ymm8, ymm9, ymm0
-	vpand	ymm8, ymm8, ymm6
-	vpsubb	ymm8, ymm8, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vmovdqa	ymm0, ymmword ptr [rsp + 640]   # 32-byte Reload
-	vpmaxub	ymm9, ymm0, ymm2
-	vpcmpeqb	ymm5, ymm9, ymm0
-	vmovdqa	ymm0, ymmword ptr [rsp + 672]   # 32-byte Reload
-	vpmaxub	ymm9, ymm0, ymm2
-	vpcmpeqb	ymm6, ymm9, ymm0
-	vpand	ymm5, ymm5, ymmword ptr [rip + .LCPI10_1]
-	vpand	ymm6, ymm6, ymm4
-	vpor	ymm5, ymm5, ymm6
-	vpor	ymm5, ymm8, ymm5
-	vmovdqa	ymm0, ymmword ptr [rsp + 736]   # 32-byte Reload
-	vpmaxub	ymm6, ymm0, ymm2
-	vpcmpeqb	ymm3, ymm0, ymm6
-	vmovdqa	ymm0, ymmword ptr [rsp + 704]   # 32-byte Reload
-	vpmaxub	ymm6, ymm0, ymm2
-	vpcmpeqb	ymm4, ymm0, ymm6
-	vpand	ymm3, ymm15, ymm3
-	vpand	ymm4, ymm4, ymm1
-	vpor	ymm3, ymm3, ymm4
-	vmovdqa	ymm0, ymmword ptr [rsp + 320]   # 32-byte Reload
-	vpmaxub	ymm4, ymm0, ymm2
-	vpcmpeqb	ymm1, ymm0, ymm4
-	vpand	ymm1, ymm14, ymm1
-	vpor	ymm1, ymm3, ymm1
-	vpor	ymm1, ymm5, ymm1
-	vmovdqa	ymm0, ymmword ptr [rsp + 288]   # 32-byte Reload
-	vpmaxub	ymm3, ymm0, ymm2
-	vpcmpeqb	ymm2, ymm0, ymm3
-	vpand	ymm2, ymm13, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpunpcklbw	ymm2, ymm10, ymm12      # ymm2 = ymm10[0],ymm12[0],ymm10[1],ymm12[1],ymm10[2],ymm12[2],ymm10[3],ymm12[3],ymm10[4],ymm12[4],ymm10[5],ymm12[5],ymm10[6],ymm12[6],ymm10[7],ymm12[7],ymm10[16],ymm12[16],ymm10[17],ymm12[17],ymm10[18],ymm12[18],ymm10[19],ymm12[19],ymm10[20],ymm12[20],ymm10[21],ymm12[21],ymm10[22],ymm12[22],ymm10[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm10, ymm12      # ymm0 = ymm10[8],ymm12[8],ymm10[9],ymm12[9],ymm10[10],ymm12[10],ymm10[11],ymm12[11],ymm10[12],ymm12[12],ymm10[13],ymm12[13],ymm10[14],ymm12[14],ymm10[15],ymm12[15],ymm10[24],ymm12[24],ymm10[25],ymm12[25],ymm10[26],ymm12[26],ymm10[27],ymm12[27],ymm10[28],ymm12[28],ymm10[29],ymm12[29],ymm10[30],ymm12[30],ymm10[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB10_186
-# %bb.187:
-	mov	r15, qword ptr [rsp + 368]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 536]      # 8-byte Reload
-	jne	.LBB10_89
-	jmp	.LBB10_122
-.Lfunc_end10:
-	.size	comparison_greater_equal_arr_scalar_avx2, .Lfunc_end10-comparison_greater_equal_arr_scalar_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function comparison_greater_equal_scalar_arr_avx2
-.LCPI11_0:
-	.zero	32,2
-.LCPI11_1:
-	.zero	32,4
-.LCPI11_2:
-	.zero	32,8
-.LCPI11_3:
-	.zero	32,16
-.LCPI11_4:
-	.zero	32,32
-.LCPI11_5:
-	.zero	32,64
-.LCPI11_6:
-	.zero	32,128
-.LCPI11_7:
-	.zero	32,255
-	.text
-	.globl	comparison_greater_equal_scalar_arr_avx2
-	.p2align	4, 0x90
-	.type	comparison_greater_equal_scalar_arr_avx2,@function
-comparison_greater_equal_scalar_arr_avx2: # @comparison_greater_equal_scalar_arr_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -32
-	sub	rsp, 1280
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r15, rcx
-	cmp	edi, 6
-	jg	.LBB11_26
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB11_2
-# %bb.10:
-	cmp	edi, 4
-	je	.LBB11_99
-# %bb.11:
-	cmp	edi, 5
-	je	.LBB11_114
-# %bb.12:
-	cmp	edi, 6
-	jne	.LBB11_185
-# %bb.13:
-	mov	r14d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_17
-# %bb.14:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_15:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r15 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r15 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_15
-# %bb.16:
-	add	r15, 1
-.LBB11_17:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_21
-# %bb.18:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_19:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14d, dword ptr [rdx + 124]
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 120]
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 116]
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 112]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 108]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 104]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 100]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 92]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 88]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 84]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 80]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 76]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 72]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 68]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 60]
-	setae	r8b
-	cmp	r14d, dword ptr [rdx + 56]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 52]
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 48]
-	setae	r11b
-	cmp	r14d, dword ptr [rdx + 44]
-	setae	r10b
-	cmp	r14d, dword ptr [rdx + 40]
-	setae	r9b
-	cmp	r14d, dword ptr [rdx + 36]
-	setae	dil
-	cmp	r14d, dword ptr [rdx + 28]
-	setae	al
-	cmp	r14d, dword ptr [rdx + 24]
-	setae	bl
-	cmp	r14d, dword ptr [rdx + 20]
-	setae	sil
-	cmp	r14d, dword ptr [rdx + 16]
-	setae	cl
-	cmp	r14d, dword ptr [rdx + 12]
-	setae	r13b
-	cmp	r14d, dword ptr [rdx + 8]
-	setae	r12b
-	cmp	r14d, dword ptr [rdx]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 4]
-	setae	r15b
-	cmp	r14d, dword ptr [rdx + 32]
-	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 64]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 96]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	rdx, -128
-	add	r15, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_19
-# %bb.20:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB11_21:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.22:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_130
-# %bb.23:
-	xor	r11d, r11d
-	jmp	.LBB11_24
-.LBB11_26:
-	cmp	edi, 8
-	jle	.LBB11_27
-# %bb.42:
-	cmp	edi, 9
-	je	.LBB11_149
-# %bb.43:
-	cmp	edi, 11
-	je	.LBB11_164
-# %bb.44:
-	cmp	edi, 12
-	jne	.LBB11_185
-# %bb.45:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB11_49
-# %bb.46:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_47:                              # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_47
-# %bb.48:
-	add	r15, 1
-.LBB11_49:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_53
-# %bb.50:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_51:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	vucomisd	xmm0, qword ptr [rdx]
-	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	setae	r9b
-	vucomisd	xmm0, qword ptr [rdx + 16]
-	setae	r11b
-	vucomisd	xmm0, qword ptr [rdx + 24]
-	setae	r13b
-	vucomisd	xmm0, qword ptr [rdx + 32]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 40]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 48]
-	setae	bl
-	vucomisd	xmm0, qword ptr [rdx + 56]
-	setae	r12b
-	vucomisd	xmm0, qword ptr [rdx + 64]
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 72]
-	setae	sil
-	vucomisd	xmm0, qword ptr [rdx + 80]
-	setae	dil
-	vucomisd	xmm0, qword ptr [rdx + 88]
-	setae	r8b
-	vucomisd	xmm0, qword ptr [rdx + 96]
-	setae	r10b
-	vucomisd	xmm0, qword ptr [rdx + 104]
-	setae	r15b
-	vucomisd	xmm0, qword ptr [rdx + 112]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 120]
-	setae	cl
-	vucomisd	xmm0, qword ptr [rdx + 128]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 136]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 144]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 152]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 160]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 168]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 176]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 184]
-	setae	r14b
-	vucomisd	xmm0, qword ptr [rdx + 192]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 200]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 208]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 216]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 224]
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 232]
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 240]
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomisd	xmm0, qword ptr [rdx + 248]
-	setae	al
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r12b, 7
-	or	r12b, bl
-	shl	r11b, 2
-	or	r11b, r9b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r8b, 3
-	or	r8b, dil
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r10b, 4
-	or	r10b, r8b
-	shl	r15b, 5
-	or	r15b, r10b
-	movzx	esi, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r12b, bl
-	or	cl, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	byte ptr [r15], r12b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r14b, 7
-	or	r14b, sil
-	mov	byte ptr [r15 + 1], cl
-	or	r14b, bl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], r14b
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB11_51
-# %bb.52:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB11_53:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.54:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_179
-# %bb.55:
-	xor	r11d, r11d
-	jmp	.LBB11_181
-.LBB11_2:
-	cmp	edi, 2
-	je	.LBB11_56
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB11_185
-# %bb.4:
-	mov	r11b, byte ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_6:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_6
-# %bb.7:
-	add	r15, 1
-.LBB11_8:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB11_9
-# %bb.81:
-	cmp	r14, 32
-	mov	dword ptr [rsp + 28], r11d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	jb	.LBB11_82
-# %bb.83:
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB11_85
-# %bb.84:
-	lea	rax, [r15 + 4*r14]
-	cmp	rdx, rax
-	jae	.LBB11_85
-.LBB11_82:
-	xor	eax, eax
-	mov	qword ptr [rsp + 416], rax      # 8-byte Spill
-	mov	r13, r15
-.LBB11_88:
-	sub	r14, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_89:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx + 31]
-	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 30]
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 29]
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 28]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 27]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 26]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 25]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 23]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 22]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 21]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 20]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 19]
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 18]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 17]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 15]
-	setge	r14b
-	cmp	r11b, byte ptr [rdx + 14]
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 13]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdx + 12]
-	setge	r12b
-	cmp	r11b, byte ptr [rdx + 11]
-	setge	r15b
-	cmp	r11b, byte ptr [rdx + 10]
-	setge	r11b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 9]
-	setge	r10b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 7]
-	setge	dil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 6]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 5]
-	setge	r9b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 4]
-	setge	r8b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 3]
-	setge	sil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 2]
-	setge	cl
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx]
-	setge	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdx + 1]
-	setge	al
-	mov	rbx, r13
-	mov	r13d, dword ptr [rsp + 28]      # 4-byte Reload
-	cmp	r13b, byte ptr [rdx + 8]
-	mov	r13, rbx
-	setge	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdx + 16]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdx + 24]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	add	al, al
-	add	al, byte ptr [rsp + 152]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	sil, 3
-	or	sil, cl
-	shl	r8b, 4
-	or	r8b, sil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, r9b
-	mov	byte ptr [r13], dil
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 168]      # 1-byte Folded Reload
-	shl	r11b, 2
-	or	r11b, r10b
-	shl	r15b, 3
-	or	r15b, r11b
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	shl	r12b, 4
-	or	r12b, r15b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r12b
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r14b, 7
-	or	r14b, cl
-	or	r14b, al
-	mov	byte ptr [r13 + 1], r14b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 3], al
-	add	rdx, 32
-	add	r13, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB11_89
-# %bb.90:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	jmp	.LBB11_91
-.LBB11_27:
-	cmp	edi, 7
-	je	.LBB11_132
-# %bb.28:
-	cmp	edi, 8
-	jne	.LBB11_185
-# %bb.29:
-	mov	r14, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_33
-# %bb.30:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_31:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r15 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r15 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_31
-# %bb.32:
-	add	r15, 1
-.LBB11_33:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_37
-# %bb.34:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_35:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14, qword ptr [rdx + 248]
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 240]
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 232]
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 224]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 216]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 208]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 200]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 184]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 176]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 168]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 160]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 152]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 144]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 136]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 120]
-	setae	r8b
-	cmp	r14, qword ptr [rdx + 112]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 104]
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 96]
-	setae	r11b
-	cmp	r14, qword ptr [rdx + 88]
-	setae	r10b
-	cmp	r14, qword ptr [rdx + 80]
-	setae	r9b
-	cmp	r14, qword ptr [rdx + 72]
-	setae	dil
-	cmp	r14, qword ptr [rdx + 56]
-	setae	al
-	cmp	r14, qword ptr [rdx + 48]
-	setae	bl
-	cmp	r14, qword ptr [rdx + 40]
-	setae	sil
-	cmp	r14, qword ptr [rdx + 32]
-	setae	cl
-	cmp	r14, qword ptr [rdx + 24]
-	setae	r13b
-	cmp	r14, qword ptr [rdx + 16]
-	setae	r12b
-	cmp	r14, qword ptr [rdx]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 8]
-	setae	r15b
-	cmp	r14, qword ptr [rdx + 64]
-	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 128]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 192]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_35
-# %bb.36:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB11_37:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.38:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_147
-# %bb.39:
-	xor	r11d, r11d
-	jmp	.LBB11_40
-.LBB11_99:
-	movzx	r14d, word ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_103
-# %bb.100:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_101:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r15 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r15 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_101
-# %bb.102:
-	add	r15, 1
-.LBB11_103:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_107
-# %bb.104:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_105:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14w, word ptr [rdx + 62]
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 60]
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 58]
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 56]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 54]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 52]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 50]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 46]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 44]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 42]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 40]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 38]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 36]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 34]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 30]
-	setae	r8b
-	cmp	r14w, word ptr [rdx + 28]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 26]
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 24]
-	setae	r11b
-	cmp	r14w, word ptr [rdx + 22]
-	setae	r10b
-	cmp	r14w, word ptr [rdx + 20]
-	setae	r9b
-	cmp	r14w, word ptr [rdx + 18]
-	setae	dil
-	cmp	r14w, word ptr [rdx + 14]
-	setae	al
-	cmp	r14w, word ptr [rdx + 12]
-	setae	bl
-	cmp	r14w, word ptr [rdx + 10]
-	setae	sil
-	cmp	r14w, word ptr [rdx + 8]
-	setae	cl
-	cmp	r14w, word ptr [rdx + 6]
-	setae	r13b
-	cmp	r14w, word ptr [rdx + 4]
-	setae	r12b
-	cmp	r14w, word ptr [rdx]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 2]
-	setae	r15b
-	cmp	r14w, word ptr [rdx + 16]
-	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 32]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 48]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 64
-	add	r15, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_105
-# %bb.106:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB11_107:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.108:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_112
-# %bb.109:
-	xor	r11d, r11d
-	jmp	.LBB11_110
-.LBB11_114:
-	movzx	r14d, word ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_118
-# %bb.115:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_116:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_116
-# %bb.117:
-	add	r15, 1
-.LBB11_118:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_122
-# %bb.119:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_120:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14w, word ptr [rdx + 62]
-	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 60]
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 58]
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 56]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 54]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 52]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 50]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 46]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 44]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 42]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 40]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 38]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 36]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 34]
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 30]
-	setge	r8b
-	cmp	r14w, word ptr [rdx + 28]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 26]
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 24]
-	setge	r11b
-	cmp	r14w, word ptr [rdx + 22]
-	setge	r10b
-	cmp	r14w, word ptr [rdx + 20]
-	setge	r9b
-	cmp	r14w, word ptr [rdx + 18]
-	setge	dil
-	cmp	r14w, word ptr [rdx + 14]
-	setge	al
-	cmp	r14w, word ptr [rdx + 12]
-	setge	bl
-	cmp	r14w, word ptr [rdx + 10]
-	setge	sil
-	cmp	r14w, word ptr [rdx + 8]
-	setge	cl
-	cmp	r14w, word ptr [rdx + 6]
-	setge	r13b
-	cmp	r14w, word ptr [rdx + 4]
-	setge	r12b
-	cmp	r14w, word ptr [rdx]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 2]
-	setge	r15b
-	cmp	r14w, word ptr [rdx + 16]
-	setge	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 32]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 48]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 64
-	add	r15, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_120
-# %bb.121:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB11_122:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.123:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_128
-# %bb.124:
-	xor	edi, edi
-	jmp	.LBB11_125
-.LBB11_149:
-	mov	r14, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_153
-# %bb.150:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_151:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_151
-# %bb.152:
-	add	r15, 1
-.LBB11_153:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_157
-# %bb.154:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_155:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14, qword ptr [rdx + 248]
-	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 240]
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 232]
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 224]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 216]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 208]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 200]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 184]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 176]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 168]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 160]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 152]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 144]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 136]
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 120]
-	setge	r8b
-	cmp	r14, qword ptr [rdx + 112]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 104]
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 96]
-	setge	r11b
-	cmp	r14, qword ptr [rdx + 88]
-	setge	r10b
-	cmp	r14, qword ptr [rdx + 80]
-	setge	r9b
-	cmp	r14, qword ptr [rdx + 72]
-	setge	dil
-	cmp	r14, qword ptr [rdx + 56]
-	setge	al
-	cmp	r14, qword ptr [rdx + 48]
-	setge	bl
-	cmp	r14, qword ptr [rdx + 40]
-	setge	sil
-	cmp	r14, qword ptr [rdx + 32]
-	setge	cl
-	cmp	r14, qword ptr [rdx + 24]
-	setge	r13b
-	cmp	r14, qword ptr [rdx + 16]
-	setge	r12b
-	cmp	r14, qword ptr [rdx]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 8]
-	setge	r15b
-	cmp	r14, qword ptr [rdx + 64]
-	setge	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 128]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 192]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_155
-# %bb.156:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB11_157:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.158:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_162
-# %bb.159:
-	xor	edi, edi
-	jmp	.LBB11_160
-.LBB11_164:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB11_168
-# %bb.165:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_166:                             # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_166
-# %bb.167:
-	add	r15, 1
-.LBB11_168:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_172
-# %bb.169:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_170:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	vucomiss	xmm0, dword ptr [rdx]
-	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	setae	r9b
-	vucomiss	xmm0, dword ptr [rdx + 8]
-	setae	r11b
-	vucomiss	xmm0, dword ptr [rdx + 12]
-	setae	r13b
-	vucomiss	xmm0, dword ptr [rdx + 16]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 20]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 24]
-	setae	bl
-	vucomiss	xmm0, dword ptr [rdx + 28]
-	setae	r12b
-	vucomiss	xmm0, dword ptr [rdx + 32]
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 36]
-	setae	sil
-	vucomiss	xmm0, dword ptr [rdx + 40]
-	setae	dil
-	vucomiss	xmm0, dword ptr [rdx + 44]
-	setae	r8b
-	vucomiss	xmm0, dword ptr [rdx + 48]
-	setae	r10b
-	vucomiss	xmm0, dword ptr [rdx + 52]
-	setae	r15b
-	vucomiss	xmm0, dword ptr [rdx + 56]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 60]
-	setae	cl
-	vucomiss	xmm0, dword ptr [rdx + 64]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 68]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 72]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 76]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 80]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 84]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 88]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 92]
-	setae	r14b
-	vucomiss	xmm0, dword ptr [rdx + 96]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 100]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 104]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 108]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 112]
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 116]
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 120]
-	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	vucomiss	xmm0, dword ptr [rdx + 124]
-	setae	al
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r12b, 7
-	or	r12b, bl
-	shl	r11b, 2
-	or	r11b, r9b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r8b, 3
-	or	r8b, dil
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r10b, 4
-	or	r10b, r8b
-	shl	r15b, 5
-	or	r15b, r10b
-	movzx	esi, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r12b, bl
-	or	cl, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	byte ptr [r15], r12b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r14b, 7
-	or	r14b, sil
-	mov	byte ptr [r15 + 1], cl
-	or	r14b, bl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], r14b
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 128
-	add	r15, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB11_170
-# %bb.171:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB11_172:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.173:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_177
-# %bb.174:
-	xor	r11d, r11d
-	jmp	.LBB11_175
-.LBB11_56:
-	mov	r11b, byte ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_60
-# %bb.57:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_58:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_58
-# %bb.59:
-	add	r15, 1
-.LBB11_60:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB11_61
-# %bb.62:
-	cmp	r14, 32
-	mov	dword ptr [rsp + 28], r11d      # 4-byte Spill
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	jb	.LBB11_63
-# %bb.64:
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB11_66
-# %bb.65:
-	lea	rax, [r15 + 4*r14]
-	cmp	rdx, rax
-	jae	.LBB11_66
-.LBB11_63:
-	xor	eax, eax
-	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
-	mov	rdi, rdx
-	mov	r13, r15
-.LBB11_69:
-	sub	r14, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_70:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdi + 31]
-	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 30]
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 29]
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 28]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 27]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 26]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 25]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 23]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 22]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 21]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 20]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 19]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 18]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 17]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 15]
-	setae	r14b
-	cmp	r11b, byte ptr [rdi + 14]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 13]
-	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rdi + 12]
-	setae	r12b
-	cmp	r11b, byte ptr [rdi + 11]
-	setae	r15b
-	cmp	r11b, byte ptr [rdi + 10]
-	setae	r11b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 9]
-	setae	r10b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 7]
-	setae	sil
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 6]
-	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 5]
-	setae	r9b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 4]
-	setae	r8b
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 3]
-	setae	dl
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 2]
-	setae	cl
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	al, byte ptr [rdi + 1]
-	setae	al
-	mov	rbx, r13
-	mov	r13d, dword ptr [rsp + 28]      # 4-byte Reload
-	cmp	r13b, byte ptr [rdi + 8]
-	mov	r13, rbx
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdi + 16]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
-	cmp	bl, byte ptr [rdi + 24]
-	setae	bl
-	add	al, al
-	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	dl, 3
-	or	dl, cl
-	shl	r8b, 4
-	or	r8b, dl
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	sil, 7
-	or	sil, al
-	or	sil, r9b
-	mov	byte ptr [r13], sil
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 128]      # 1-byte Folded Reload
-	shl	r11b, 2
-	or	r11b, r10b
-	shl	r15b, 3
-	or	r15b, r11b
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	shl	r12b, 4
-	or	r12b, r15b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r12b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r14b, 7
-	or	r14b, cl
-	or	r14b, al
-	mov	byte ptr [r13 + 1], r14b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r13 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	or	al, bl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r13 + 3], al
-	add	rdi, 32
-	add	r13, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_70
-# %bb.71:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	jmp	.LBB11_72
-.LBB11_132:
-	mov	r14d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_136
-# %bb.133:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_134:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_134
-# %bb.135:
-	add	r15, 1
-.LBB11_136:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB11_140
-# %bb.137:
-	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_138:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	cmp	r14d, dword ptr [rdx + 124]
-	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 120]
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 116]
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 112]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 108]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 104]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 100]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 92]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 88]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 84]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 80]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 76]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 72]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 68]
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 60]
-	setge	r8b
-	cmp	r14d, dword ptr [rdx + 56]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 52]
-	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 48]
-	setge	r11b
-	cmp	r14d, dword ptr [rdx + 44]
-	setge	r10b
-	cmp	r14d, dword ptr [rdx + 40]
-	setge	r9b
-	cmp	r14d, dword ptr [rdx + 36]
-	setge	dil
-	cmp	r14d, dword ptr [rdx + 28]
-	setge	al
-	cmp	r14d, dword ptr [rdx + 24]
-	setge	bl
-	cmp	r14d, dword ptr [rdx + 20]
-	setge	sil
-	cmp	r14d, dword ptr [rdx + 16]
-	setge	cl
-	cmp	r14d, dword ptr [rdx + 12]
-	setge	r13b
-	cmp	r14d, dword ptr [rdx + 8]
-	setge	r12b
-	cmp	r14d, dword ptr [rdx]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 4]
-	setge	r15b
-	cmp	r14d, dword ptr [rdx + 32]
-	setge	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 64]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 96]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	rdx, -128
-	add	r15, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB11_138
-# %bb.139:
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB11_140:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB11_185
-# %bb.141:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB11_145
-# %bb.142:
-	xor	edi, edi
-	jmp	.LBB11_143
-.LBB11_9:
-	mov	r13, r15
-.LBB11_91:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB11_185
-# %bb.92:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB11_94
-# %bb.93:
-	xor	esi, esi
-	jmp	.LBB11_97
-.LBB11_61:
-	mov	r13, r15
-	mov	rdi, rdx
-.LBB11_72:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB11_185
-# %bb.73:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB11_75
-# %bb.74:
-	xor	r9d, r9d
-	jmp	.LBB11_78
-.LBB11_130:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_131:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	r14d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB11_131
-.LBB11_24:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.25:
-	xor	eax, eax
-	cmp	r14d, dword ptr [rdx]
-	jmp	.LBB11_183
-.LBB11_179:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_180:                             # =>This Inner Loop Header: Depth=1
-	vucomisd	xmm0, qword ptr [rdx]
-	mov	eax, 0
-	adc	al, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	r11, 2
-	vucomisd	xmm0, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, r11
-	jne	.LBB11_180
-.LBB11_181:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.182:
-	xor	eax, eax
-	vucomisd	xmm0, qword ptr [rdx]
-	jmp	.LBB11_183
-.LBB11_147:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_148:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	r14, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB11_148
-.LBB11_40:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.41:
-	xor	eax, eax
-	cmp	r14, qword ptr [rdx]
-	jmp	.LBB11_183
-.LBB11_112:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_113:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	r14w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB11_113
-.LBB11_110:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.111:
-	xor	eax, eax
-	cmp	r14w, word ptr [rdx]
-	jmp	.LBB11_183
-.LBB11_128:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB11_129:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	setge	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB11_129
-.LBB11_125:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.126:
-	cmp	r14w, word ptr [rdx]
-	jmp	.LBB11_127
-.LBB11_162:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB11_163:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	setge	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB11_163
-.LBB11_160:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.161:
-	cmp	r14, qword ptr [rdx]
-	jmp	.LBB11_127
-.LBB11_177:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_178:                             # =>This Inner Loop Header: Depth=1
-	vucomiss	xmm0, dword ptr [rdx]
-	mov	eax, 0
-	adc	al, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	r11, 2
-	vucomiss	xmm0, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, r11
-	jne	.LBB11_178
-.LBB11_175:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.176:
-	xor	eax, eax
-	vucomiss	xmm0, dword ptr [rdx]
-.LBB11_183:
-	adc	al, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r15 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB11_184
-.LBB11_145:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB11_146:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	setge	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB11_146
-.LBB11_143:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.144:
-	cmp	r14d, dword ptr [rdx]
-.LBB11_127:
-	setge	al
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	sil, byte ptr [r15 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB11_184:
-	xor	bl, sil
-	mov	byte ptr [r15 + rdx], bl
-.LBB11_185:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.LBB11_94:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB11_95:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx + rsi]
-	setge	al
-	neg	al
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	movzx	r9d, byte ptr [r13 + rdi]
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	cmp	r11b, byte ptr [rdx + rsi + 1]
-	lea	rsi, [rsi + 2]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r13 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB11_95
-# %bb.96:
-	add	rdx, rsi
-.LBB11_97:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.98:
-	cmp	r11b, byte ptr [rdx]
-	setge	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r13 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	jmp	.LBB11_80
-.LBB11_75:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	.p2align	4, 0x90
-.LBB11_76:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	r11b, byte ptr [rdi + r9]
-	mov	ebx, 0
-	adc	bl, -1
-	mov	rsi, r9
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r13 + rsi]
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r13 + rsi], dl
-	cmp	r11b, byte ptr [rdi + rax + 1]
-	lea	r9, [rax + 2]
-	mov	ebx, 0
-	adc	bl, -1
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r13 + rsi], al
-	cmp	r10, r9
-	jne	.LBB11_76
-# %bb.77:
-	add	rdi, r9
-.LBB11_78:
-	test	r8b, 1
-	je	.LBB11_185
-# %bb.79:
-	xor	eax, eax
-	cmp	r11b, byte ptr [rdi]
-	adc	al, -1
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	dil, byte ptr [r13 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-.LBB11_80:
-	xor	bl, dil
-	mov	byte ptr [r13 + rdx], bl
-	jmp	.LBB11_185
-.LBB11_85:
-	and	r14, -32
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 416], r14      # 8-byte Spill
-	lea	rax, [r15 + 4*r14]
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	vmovd	xmm0, r11d
-	vpbroadcastb	ymm0, xmm0
-	vmovdqa	ymmword ptr [rsp + 384], ymm0   # 32-byte Spill
-	xor	ebx, ebx
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_86:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 376], rbx      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 320
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm0, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rcx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 544], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rcx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rcx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	mov	qword ptr [rsp + 248], rbx      # 8-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rdx + rcx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm6, eax
-	movzx	eax, byte ptr [rdx + rcx + 6]
-	mov	qword ptr [rsp + 224], rcx      # 8-byte Spill
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rcx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 544
-	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
-	mov	rcx, rbx
-	or	rcx, 576
-	mov	qword ptr [rsp + 176], rcx      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 608
-	mov	r13, rax
-	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 640
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	r10, rbx
-	or	r10, 672
-	mov	qword ptr [rsp + 256], r10      # 8-byte Spill
-	mov	r9, rbx
-	or	r9, 704
-	mov	qword ptr [rsp + 240], r9       # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 736
-	mov	qword ptr [rsp + 80], r11       # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 768
-	mov	qword ptr [rsp + 128], r15      # 8-byte Spill
-	mov	r8, rbx
-	or	r8, 800
-	mov	qword ptr [rsp + 56], r8        # 8-byte Spill
-	mov	r12, rbx
-	or	r12, 832
-	mov	qword ptr [rsp + 136], r12      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 864
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 896
-	mov	rdi, rax
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 928
-	mov	rsi, rax
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 960
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	or	rbx, 992
-	vpinsrb	xmm9, xmm0, byte ptr [rdx + r14], 1
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13], 3
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 10
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 15
-	mov	r12, rbx
-	mov	qword ptr [rsp + 168], rbx      # 8-byte Spill
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 3
-	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 7
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 14
-	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 15
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 2
-	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 4
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 5
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 6
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 7
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 1], 11
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 12
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 1], 13
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 1], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r11 + 1], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 2
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 5
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 9
-	mov	r13, rdi
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm13, ymm3, xmm0, 1
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + r14 + 1], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 544]   # 16-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 6
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 7
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 2], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
-	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 2], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 3
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 2], 4
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 8
-	mov	rcx, r13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 9
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 10
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 14
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 15
-	vpinsrb	xmm4, xmm11, byte ptr [rdx + r15 + 3], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 2
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 3
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 4
-	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 3], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 8
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 11
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 12
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 13
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 14
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 15
-	vpinsrb	xmm5, xmm8, byte ptr [rdx + r10 + 3], 1
-	mov	rbx, r10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 3], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
-	vinserti128	ymm0, ymm3, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 9]
-	vmovd	xmm8, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 3], 15
-	vinserti128	ymm0, ymm0, xmm4, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm0, xmmword ptr [rsp + 448]   # 16-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 1
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 2
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 4], 3
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 4], 4
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 14
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 4], 15
-	vpinsrb	xmm3, xmm15, byte ptr [rdx + rbx + 4], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 2
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 15
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm14, byte ptr [rdx + rax + 5], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 5], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 5], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 6
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 5], 11
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 12
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 5], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 5], 15
-	vpinsrb	xmm5, xmm6, byte ptr [rdx + rbx + 5], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 5], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 4
-	mov	r9, r14
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 7
-	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 8
-	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 5], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
-	vinserti128	ymm14, ymm3, xmm0, 1
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 5], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm3, edi
-	vinserti128	ymm15, ymm0, xmm4, 1
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm12, byte ptr [rdx + rax + 6], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 2
-	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 3
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 4
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 6], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 7
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 6], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 14
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 15
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + r11 + 6], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 2
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 4
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 6], 6
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 9
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 10
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 11
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 14
-	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 15
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 1
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 5
-	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 6
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 7
-	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 12
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 1
-	mov	r13, r11
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 7
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 8
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 9
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 13
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rdi + 7], 14
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 7], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 11]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm9, byte ptr [rdx + rdi + 8], 1
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 2
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 3
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 4
-	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 8], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 6
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 10
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 11
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 13
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 14
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 15
-	vpinsrb	xmm5, xmm10, byte ptr [rdx + r13 + 8], 1
-	mov	r14, rsi
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 4
-	mov	rdi, r12
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 5
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 6
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 7
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 9
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 15
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + rbx + 9], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 9], 3
-	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 9], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 6
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 9], 7
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 11
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 12
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 13
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 14
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 15
-	vpinsrb	xmm7, xmm11, byte ptr [rdx + r13 + 9], 1
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rdi + 9], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 6
-	mov	r14, rsi
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 9], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 10
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
-	vinserti128	ymm0, ymm5, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm0, edi
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, edi
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 10], 1
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 3
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 5
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 10], 7
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 14
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 15
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 4
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 6
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
-	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 10], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 12
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 13
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 4
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 7
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 13
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 14
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 15
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 11], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 11], 8
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm3  # 32-byte Spill
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 11], 14
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 13]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm1  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 13]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 1
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 12], 2
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 12], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 12], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 7
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 15
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + r9 + 12], 1
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 3
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 4
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 5
-	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 7
-	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 12], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 14
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 5
-	mov	r10, r12
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 6
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 7
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 8
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 11
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 12
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 13
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 14
-	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 15
-	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 3
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 13], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 8
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 14
-	vinserti128	ymm0, ymm2, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 13], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 14]
-	vmovd	xmm1, edi
-	vinserti128	ymm0, ymm0, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 14]
-	vmovd	xmm0, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 1
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 2
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 5
-	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 7
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 9
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 10
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 14], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 12
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 13
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 15
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 9
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 10
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 11
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 12
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 15
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r8 + 15]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 3
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 4
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 6
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 15], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 15], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 15], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 15], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 15], 14
-	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 15
-	mov	rbx, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rbx + 15]
-	vmovd	xmm3, edi
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 1
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 2
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 4
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 5
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 6
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 9
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 13
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 14
-	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 15
-	vinserti128	ymm0, ymm0, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + r8 + 16]
-	vmovd	xmm0, edi
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 1
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 2
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 3
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 4
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 16], 6
-	mov	r12, r13
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 7
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 13
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 15
-	movzx	edi, byte ptr [rdx + rbx + 16]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 1
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 16], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 3
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 9
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 13
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 15
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 17]
-	vmovd	xmm2, edi
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 1
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 2
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 4
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 6
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 7
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 9
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 17], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 11
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 12
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 17], 14
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 15
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 17]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 5
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 17], 6
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 17], 10
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 11
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 17], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rax + 17], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 18]
-	vmovd	xmm0, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 1
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 2
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 3
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 5
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 18], 7
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 8
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 18], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 11
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 13
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 14
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 15
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 18]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 1
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 2
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 18], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 9
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
-	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 14
-	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 15
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 19]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 2
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 19], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 4
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 19], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 10
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 11
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 14
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 15
-	movzx	edi, byte ptr [rdx + r11 + 19]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 3
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 19], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 7
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
-	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 13
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 19], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 20]
-	vmovd	xmm0, edi
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 1
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 2
-	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 20], 3
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 4
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 5
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 20], 6
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 7
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 8
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 9
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 20], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 20], 12
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 20], 13
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 14
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 15
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 20]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 2
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 8
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 14
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 15
-	movzx	edi, byte ptr [rdx + rax + 21]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 3
-	mov	r13, r12
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 6
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 7
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 9
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 21], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 15
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 21]
-	vmovd	xmm3, edi
-	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 1
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 3
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 4
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 5
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 7
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 8
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 9
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + r9 + 21], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 22]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 1
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 3
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 22], 4
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 5
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 7
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 10
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 11
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 12
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 13
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 14
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 15
-	movzx	edi, byte ptr [rdx + r11 + 22]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 22], 6
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 7
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 10
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 23]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 2
-	mov	r14, r13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 4
-	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 5
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 6
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 7
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 9
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 11
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 12
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 13
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 23], 15
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 23]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 1
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 23], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 8
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 9
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 12
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 15
-	vinserti128	ymm10, ymm1, xmm0, 1
-	vinserti128	ymm11, ymm3, xmm2, 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 24]
-	vmovd	xmm0, edi
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 1
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 24], 2
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 24], 3
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 4
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 24], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 6
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 7
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 8
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 10
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 11
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 12
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 24], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 14
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 15
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r14 + 24]
-	vmovd	xmm1, edi
-	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 3
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 4
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 8
-	mov	r10, rbx
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 9
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 10
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 13
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 15
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 25]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 25], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 4
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 5
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 7
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 11
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 12
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 13
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 14
-	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 25], 15
-	movzx	edi, byte ptr [rdx + r14 + 25]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 1
-	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 25], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 12
-	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 25], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm3, byte ptr [rdx + rcx + 25], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
-	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 26]
-	vmovd	xmm0, edi
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 1
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 2
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 4
-	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 7
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 9
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 13
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 14
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 15
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 26]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 1
-	mov	rax, r9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 2
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 3
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 5
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 6
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 7
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 26], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 9
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 26], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 15
-	movzx	edi, byte ptr [rdx + r11 + 27]
-	vmovd	xmm2, edi
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 27], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 3
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 5
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 6
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 7
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 8
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 27], 10
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 27], 11
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 12
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 27], 14
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 15
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 27]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 3
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 5
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 27], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 27], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 12
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm3, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r10 + 28]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 1
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 3
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 4
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 28], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 7
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 28], 8
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 9
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 11
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 13
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 14
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 15
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 28]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 1
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 2
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 5
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 7
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 8
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 9
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 10
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 28], 11
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 14
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 15
-	movzx	edi, byte ptr [rdx + r10 + 29]
-	vmovd	xmm2, edi
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 2
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 3
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 5
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 6
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 9
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 10
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 12
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 14
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 15
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r8 + 29]
-	vmovd	xmm3, edi
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 29], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 11
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 13
-	vpinsrb	xmm4, xmm3, byte ptr [rdx + rcx + 29], 14
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm0, xmm4, byte ptr [rdx + rax + 29], 15
-	vinserti128	ymm0, ymm0, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 30]
-	vmovd	xmm0, edi
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 30], 1
-	movzx	edi, byte ptr [rdx + rcx + 31]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 31], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 30], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 31], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 9
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 30], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 31], 10
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 30], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 31], 11
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
-	mov	rcx, r8
-	movzx	eax, byte ptr [rdx + r8 + 30]
-	vmovd	xmm1, eax
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 1
-	movzx	eax, byte ptr [rdx + r8 + 31]
-	vmovd	xmm7, eax
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 31], 1
-	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 2
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 30], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 31], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 30], 6
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 31], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 7
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 30], 12
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 31], 12
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 15
-	vinserti128	ymm0, ymm1, xmm0, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
-	vinserti128	ymm0, ymm7, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
-	vmovdqa	ymm2, ymmword ptr [rsp + 384]   # 32-byte Reload
-	vpcmpgtb	ymm0, ymm13, ymm2
-	vmovdqa	ymm1, ymmword ptr [rsp + 1216]  # 32-byte Reload
-	vpcmpgtb	ymm7, ymm1, ymm2
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI11_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpandn	ymm7, ymm7, ymm5
-	vpaddb	ymm0, ymm7, ymm0
-	vmovdqa	ymm3, ymmword ptr [rsp + 544]   # 32-byte Reload
-	vpcmpgtb	ymm7, ymm3, ymm2
-	vmovdqa	ymm13, ymmword ptr [rip + .LCPI11_1] # ymm13 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpandn	ymm7, ymm7, ymm13
-	vmovdqa	ymm3, ymmword ptr [rsp + 480]   # 32-byte Reload
-	vpcmpgtb	ymm12, ymm3, ymm2
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI11_2] # ymm9 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpandn	ymm12, ymm12, ymm9
-	vpor	ymm7, ymm12, ymm7
-	vpcmpgtb	ymm12, ymm14, ymm2
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI11_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpandn	ymm12, ymm12, ymm4
-	vpor	ymm7, ymm12, ymm7
-	vpcmpeqd	ymm12, ymm12, ymm12
-	vpsubb	ymm0, ymm0, ymm12
-	vpcmpeqd	ymm8, ymm8, ymm8
-	vpor	ymm0, ymm0, ymm7
-	vpcmpgtb	ymm7, ymm15, ymm2
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI11_4] # ymm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpandn	ymm7, ymm7, ymm6
-	vmovdqa	ymm12, ymmword ptr [rsp + 448]  # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm2
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI11_5] # ymm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpandn	ymm12, ymm12, ymm3
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm12, ymmword ptr [rsp + 512]  # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm2
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI11_6] # ymm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpandn	ymm12, ymm12, ymm1
-	vpor	ymm7, ymm12, ymm7
-	vpor	ymm0, ymm0, ymm7
-	vmovdqa	ymm7, ymmword ptr [rsp + 1184]  # 32-byte Reload
-	vpcmpgtb	ymm7, ymm7, ymm2
-	vmovdqa	ymm12, ymmword ptr [rsp + 1152] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm2
-	vpandn	ymm12, ymm12, ymm5
-	vpaddb	ymm7, ymm12, ymm7
-	vmovdqa	ymm12, ymmword ptr [rsp + 1120] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm2
-	vpandn	ymm12, ymm12, ymm13
-	vmovdqa	ymm14, ymmword ptr [rsp + 1088] # 32-byte Reload
-	vpcmpgtb	ymm15, ymm14, ymm2
-	vpandn	ymm15, ymm15, ymm9
-	vpor	ymm12, ymm12, ymm15
-	vmovdqa	ymm14, ymmword ptr [rsp + 1024] # 32-byte Reload
-	vpcmpgtb	ymm15, ymm14, ymm2
-	vpandn	ymm15, ymm15, ymm4
-	vpor	ymm12, ymm12, ymm15
-	vpsubb	ymm7, ymm7, ymm8
-	vpor	ymm7, ymm12, ymm7
-	vmovdqa	ymm12, ymmword ptr [rsp + 1056] # 32-byte Reload
-	vpcmpgtb	ymm12, ymm12, ymm2
-	vpandn	ymm12, ymm12, ymm6
-	vmovdqa	ymm14, ymmword ptr [rsp + 960]  # 32-byte Reload
-	vpcmpgtb	ymm15, ymm14, ymm2
-	vpandn	ymm15, ymm15, ymm3
-	vpor	ymm12, ymm12, ymm15
-	vmovdqa	ymm14, ymmword ptr [rsp + 992]  # 32-byte Reload
-	vpcmpgtb	ymm15, ymm14, ymm2
-	vpandn	ymm15, ymm15, ymm1
-	vpor	ymm12, ymm12, ymm15
-	vpor	ymm12, ymm12, ymm7
-	vmovdqa	ymm7, ymmword ptr [rsp + 928]   # 32-byte Reload
-	vpcmpgtb	ymm7, ymm7, ymm2
-	vmovdqa	ymm14, ymmword ptr [rsp + 896]  # 32-byte Reload
-	vpcmpgtb	ymm15, ymm14, ymm2
-	vpandn	ymm15, ymm15, ymm5
-	vpaddb	ymm7, ymm15, ymm7
-	vmovdqa	ymm14, ymmword ptr [rsp + 832]  # 32-byte Reload
-	vpcmpgtb	ymm15, ymm14, ymm2
-	vpandn	ymm15, ymm15, ymm13
-	vmovdqa	ymm14, ymmword ptr [rsp + 864]  # 32-byte Reload
-	vpcmpgtb	ymm14, ymm14, ymm2
-	vpandn	ymm14, ymm14, ymm9
-	vpor	ymm14, ymm15, ymm14
-	vmovdqa	ymm15, ymmword ptr [rsp + 768]  # 32-byte Reload
-	vpcmpgtb	ymm15, ymm15, ymm2
-	vpandn	ymm15, ymm15, ymm4
-	vpor	ymm14, ymm14, ymm15
-	vpsubb	ymm7, ymm7, ymm8
-	vpor	ymm7, ymm14, ymm7
-	vmovdqa	ymm14, ymmword ptr [rsp + 800]  # 32-byte Reload
-	vpcmpgtb	ymm14, ymm14, ymm2
-	vmovdqa	ymm15, ymm6
-	vpandn	ymm14, ymm14, ymm6
-	vpcmpgtb	ymm10, ymm10, ymm2
-	vpandn	ymm10, ymm10, ymm3
-	vpor	ymm10, ymm14, ymm10
-	vpcmpgtb	ymm11, ymm11, ymm2
-	vpandn	ymm11, ymm11, ymm1
-	vmovdqa	ymm14, ymm1
-	vpor	ymm10, ymm10, ymm11
-	vpor	ymm7, ymm10, ymm7
-	vmovdqa	ymm1, ymmword ptr [rsp + 576]   # 32-byte Reload
-	vpcmpgtb	ymm9, ymm1, ymm2
-	vmovdqa	ymm1, ymmword ptr [rsp + 608]   # 32-byte Reload
-	vpcmpgtb	ymm8, ymm1, ymm2
-	vpandn	ymm8, ymm8, ymm5
-	vpaddb	ymm8, ymm8, ymm9
-	vmovdqa	ymm1, ymmword ptr [rsp + 640]   # 32-byte Reload
-	vpcmpgtb	ymm5, ymm1, ymm2
-	vpandn	ymm5, ymm5, ymm13
-	vmovdqa	ymm1, ymmword ptr [rsp + 672]   # 32-byte Reload
-	vpcmpgtb	ymm6, ymm1, ymm2
-	vpandn	ymm6, ymm6, ymmword ptr [rip + .LCPI11_2]
-	vpor	ymm5, ymm5, ymm6
-	vmovdqa	ymm1, ymmword ptr [rsp + 704]   # 32-byte Reload
-	vpcmpgtb	ymm3, ymm1, ymm2
-	vpandn	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpsubb	ymm5, ymm8, ymmword ptr [rip + .LCPI11_7]
-	vpor	ymm3, ymm5, ymm3
-	vmovdqa	ymm1, ymmword ptr [rsp + 736]   # 32-byte Reload
-	vpcmpgtb	ymm4, ymm1, ymm2
-	vpandn	ymm4, ymm4, ymm15
-	vmovdqa	ymm1, ymmword ptr [rsp + 320]   # 32-byte Reload
-	vpcmpgtb	ymm1, ymm1, ymm2
-	vpandn	ymm1, ymm1, ymmword ptr [rip + .LCPI11_5]
-	vpor	ymm1, ymm4, ymm1
-	vmovdqa	ymm4, ymmword ptr [rsp + 288]   # 32-byte Reload
-	vpcmpgtb	ymm2, ymm4, ymm2
-	vpandn	ymm2, ymm2, ymm14
-	vpor	ymm1, ymm1, ymm2
-	vpor	ymm1, ymm3, ymm1
-	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
-	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
-	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
-	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
-	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
-	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
-	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
-	vinserti128	ymm4, ymm3, xmm0, 1
-	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
-	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm0
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm4
-	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm1
-	add	rcx, 32
-	mov	rbx, rcx
-	cmp	rcx, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	jne	.LBB11_86
-# %bb.87:
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	cmp	r14, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r13, qword ptr [rsp + 368]      # 8-byte Reload
-	mov	rdx, qword ptr [rsp + 360]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	jne	.LBB11_88
-	jmp	.LBB11_91
-.LBB11_66:
-	and	r14, -32
-	mov	rax, r14
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 384], r14      # 8-byte Spill
-	lea	rax, [r15 + 4*r14]
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	vmovd	xmm0, r11d
-	vpbroadcastb	ymm0, xmm0
-	xor	ebx, ebx
-	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_67:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 376], rbx      # 8-byte Spill
-	shl	rbx, 5
-	mov	rax, rbx
-	or	rax, 32
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 64
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 96
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 128
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 160
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 192
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 224
-	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 256
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 288
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, rbx
-	mov	qword ptr [rsp + 240], rbx      # 8-byte Spill
-	or	rax, 320
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 512
-	mov	rcx, rax
-	movzx	eax, byte ptr [rdx + rax]
-	vmovd	xmm3, eax
-	movzx	eax, byte ptr [rdx + rbx]
-	vmovd	xmm4, eax
-	movzx	eax, byte ptr [rdx + rcx + 1]
-	vmovd	xmm5, eax
-	movzx	eax, byte ptr [rdx + rbx + 1]
-	vmovd	xmm10, eax
-	movzx	eax, byte ptr [rdx + rcx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 2]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rcx + 3]
-	vmovd	xmm11, eax
-	movzx	eax, byte ptr [rdx + rbx + 3]
-	vmovd	xmm8, eax
-	movzx	eax, byte ptr [rdx + rcx + 4]
-	vmovd	xmm1, eax
-	vmovdqa	xmmword ptr [rsp + 512], xmm1   # 16-byte Spill
-	movzx	eax, byte ptr [rdx + rbx + 4]
-	vmovd	xmm15, eax
-	movzx	eax, byte ptr [rdx + rcx + 5]
-	vmovd	xmm14, eax
-	movzx	eax, byte ptr [rdx + rbx + 5]
-	vmovd	xmm12, eax
-	movzx	eax, byte ptr [rdx + rcx + 6]
-	mov	qword ptr [rsp + 256], rcx      # 8-byte Spill
-	vmovd	xmm13, eax
-	movzx	eax, byte ptr [rdx + rbx + 6]
-	vmovd	xmm7, eax
-	movzx	eax, byte ptr [rdx + rcx + 7]
-	vmovd	xmm2, eax
-	movzx	eax, byte ptr [rdx + rbx + 7]
-	vmovd	xmm1, eax
-	mov	rax, rbx
-	or	rax, 352
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 384
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 416
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 448
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 480
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rdi, rbx
-	or	rdi, 544
-	mov	qword ptr [rsp + 200], rdi      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 576
-	mov	r13, rax
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	mov	r11, rbx
-	or	r11, 608
-	mov	qword ptr [rsp + 168], r11      # 8-byte Spill
-	mov	r14, rbx
-	or	r14, 640
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	mov	r10, rbx
-	or	r10, 672
-	mov	qword ptr [rsp + 160], r10      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 704
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	r8, rbx
-	or	r8, 736
-	mov	qword ptr [rsp + 120], r8       # 8-byte Spill
-	mov	r15, rbx
-	or	r15, 768
-	mov	qword ptr [rsp + 192], r15      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 800
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	r9, rbx
-	or	r9, 832
-	mov	qword ptr [rsp + 184], r9       # 8-byte Spill
-	mov	r12, rbx
-	or	r12, 864
-	mov	qword ptr [rsp + 176], r12      # 8-byte Spill
-	mov	rsi, rbx
-	or	rsi, 896
-	mov	qword ptr [rsp + 264], rsi      # 8-byte Spill
-	mov	rcx, rbx
-	or	rcx, 928
-	mov	qword ptr [rsp + 232], rcx      # 8-byte Spill
-	mov	rax, rbx
-	or	rax, 960
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	or	rbx, 992
-	mov	qword ptr [rsp + 248], rbx      # 8-byte Spill
-	vpinsrb	xmm9, xmm3, byte ptr [rdx + rdi], 1
-	vpinsrb	xmm3, xmm9, byte ptr [rdx + r13], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 5
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 15
-	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12], 1
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14], 2
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11], 3
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8], 4
-	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9], 5
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx], 6
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi], 7
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax], 10
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10], 11
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx], 12
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx], 14
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13], 15
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 2
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 4
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 5
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 6
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 7
-	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 1], 8
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 9
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 11
-	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 12
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 13
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 14
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 15
-	vpinsrb	xmm6, xmm10, byte ptr [rdx + r12 + 1], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 1], 2
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 1], 3
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 1], 4
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 1], 5
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 1], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 1], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 1], 8
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 1], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 1], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 13
-	mov	r11, rax
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 14
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1216], ymm3  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm6, byte ptr [rdx + rax + 1], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm9, edi
-	vinserti128	ymm3, ymm3, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 544], ymm3   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 8]
-	vmovd	xmm10, edi
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vmovdqa	xmm3, xmmword ptr [rsp + 480]   # 16-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 2], 1
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 2], 2
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 3
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 2], 4
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 5
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 2], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 9
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 10
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 11
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 13
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 2], 14
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 15
-	vmovdqa	xmm4, xmmword ptr [rsp + 448]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 2], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 2], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 8
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 9
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 10
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 11
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 2], 13
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 14
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 2], 15
-	vpinsrb	xmm5, xmm11, byte ptr [rdx + r9 + 3], 1
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 2
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 3
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 3], 4
-	mov	r11, r15
-	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 3], 8
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 3], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 3], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 3], 12
-	mov	r13, rbx
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 13
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 3], 14
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 15
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm8, byte ptr [rdx + rcx + 3], 1
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 5
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 3], 6
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 7
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 3], 8
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 3], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 480], ymm3   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm6, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 9]
-	vmovd	xmm8, edi
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 3], 15
-	vinserti128	ymm3, ymm3, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 448], ymm3   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 9]
-	vmovd	xmm11, edi
-	vmovdqa	xmm3, xmmword ptr [rsp + 512]   # 16-byte Reload
-	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 4], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 2
-	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 5
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 6
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 9
-	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 10
-	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 12
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 13
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 15
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm15, byte ptr [rdx + r10 + 4], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 4], 6
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 4], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 4], 9
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 4], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 11
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 4], 12
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 4], 13
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 4], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 4], 15
-	vpinsrb	xmm5, xmm14, byte ptr [rdx + r8 + 5], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 2
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 3
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 4
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 5], 5
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 6
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 7
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 8
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 5], 10
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 5], 12
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 13
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 14
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 15
-	vpinsrb	xmm6, xmm12, byte ptr [rdx + r10 + 5], 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 2
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 3
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 4
-	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 5
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 6
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 5], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 5], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 5], 9
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 5], 10
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 11
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 5], 12
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 5], 13
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 5], 14
-	vinserti128	ymm14, ymm4, xmm3, 1
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm6, byte ptr [rdx + rax + 5], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm12, edi
-	vinserti128	ymm3, ymm4, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 512], ymm3   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 10]
-	vmovd	xmm4, edi
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm13, byte ptr [rdx + r15 + 6], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 2
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 4
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 6], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 6
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 8
-	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 6], 9
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 11
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 12
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 6], 13
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 6], 14
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 15
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm7, byte ptr [rdx + r11 + 6], 1
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 6], 2
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 6], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 6], 6
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 9
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 10
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 6], 11
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 6], 12
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 6], 13
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 14
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 1
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 2
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 3
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 4
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 5
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 7
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 9
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 12
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 14
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 7], 3
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 6
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 13
-	vinserti128	ymm3, ymm6, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 1184], ymm3  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm5, xmm1, byte ptr [rdx + rax + 7], 14
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 11]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 7], 15
-	vinserti128	ymm2, ymm5, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 1152], ymm2  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 11]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm5, xmm9, byte ptr [rdx + rax + 8], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 2
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 3
-	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 8], 4
-	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 5
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 8
-	mov	rax, r8
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 8], 9
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 10
-	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 8], 11
-	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 12
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 8], 13
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 8], 14
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 15
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm6, xmm10, byte ptr [rdx + rsi + 8], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 2
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 3
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 8], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 8], 5
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 6
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 7
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 8
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 9
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 10
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 11
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 12
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 8], 13
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 8], 14
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 15
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm7, xmm8, byte ptr [rdx + rsi + 9], 1
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 2
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 3
-	mov	r12, rcx
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 9], 4
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 5
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 6
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 7
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 8
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 9
-	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 10
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r8 + 9], 11
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 12
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 9], 14
-	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 15
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm3, xmm11, byte ptr [rdx + r13 + 9], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 9], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 9], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 6
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 9], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 14
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm5, edi
-	vinserti128	ymm3, ymm3, xmm7, 1
-	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 12]
-	vmovd	xmm6, edi
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm12, byte ptr [rdx + r10 + 10], 1
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 2
-	mov	r9, r12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 3
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 10], 4
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 10
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 10], 11
-	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 10], 12
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 13
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 14
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 15
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 5
-	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 8
-	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 10
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 14
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 11], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 9
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 11], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 12
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 13
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 11], 14
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 15
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 6
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 7
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 9
-	mov	r13, rcx
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 11], 11
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 12
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 13
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 14
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm3, edi
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 13]
-	vmovd	xmm1, edi
-	mov	rcx, r10
-	vpinsrb	xmm2, xmm5, byte ptr [rdx + r10 + 12], 1
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 3
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 4
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 5
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 7
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 9
-	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 12], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 12
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 15
-	vpinsrb	xmm4, xmm6, byte ptr [rdx + rbx + 12], 1
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 12], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 12], 3
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 5
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 12], 6
-	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 12], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 9
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 12], 10
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 11
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 12
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 13
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 14
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 15
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 2
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 5
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 6
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 13], 8
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 11
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 12
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 13
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 14
-	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 15
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 13], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 3
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 4
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 13], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 8
-	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 13
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 14
-	vinserti128	ymm2, ymm4, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 992], ymm2   # 32-byte Spill
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 15
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 14]
-	vmovd	xmm2, edi
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 960], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 14]
-	vmovd	xmm1, edi
-	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 14], 1
-	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 2
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 4
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 5
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 14], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 14], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 9
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 14], 12
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 14], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 14], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 14], 15
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 3
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 5
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 6
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 11
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 12
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 14
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 15]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 1
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 2
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 3
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 4
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 6
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 15], 7
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 9
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 11
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 15], 13
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 14
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 15
-	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rsi + 15]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 15], 6
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 10
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 15], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 15], 12
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 15], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 15], 15
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 896], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 928], ymm1   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + rcx + 16]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 2
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 4
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 5
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 6
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 8
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 9
-	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 16], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 13
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 14
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 15
-	movzx	edi, byte ptr [rdx + rsi + 16]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 1
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 16], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 3
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 5
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 16], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 16], 8
-	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 16], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 16], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 16], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 16], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 16], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 16], 15
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r8 + 17]
-	vmovd	xmm3, edi
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 1
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 17], 2
-	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 17], 3
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 4
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 5
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 6
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 17], 10
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 11
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 12
-	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 17], 14
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 17]
-	vmovd	xmm4, edi
-	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 17], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 17], 2
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 17], 3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 17], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 17], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 17], 6
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 17], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 17], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 17], 9
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 17], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 17], 11
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 17], 12
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 17], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 17], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 864], ymm1   # 32-byte Spill
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + rsi + 17], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 832], ymm1   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + r8 + 18]
-	vmovd	xmm1, edi
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 3
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 4
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 5
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 9
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 12
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 13
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 14
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 15
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 18]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 18], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 18], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 18], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 18], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 18], 5
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 18], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 18], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 18], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 18], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 18], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 18], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 18], 12
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 18], 13
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 18], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 19]
-	vmovd	xmm3, edi
-	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 1
-	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 2
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 5
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 6
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 9
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 10
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 12
-	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 13
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 14
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 19]
-	vmovd	xmm4, edi
-	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 3
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 19], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 19], 6
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 19], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 19], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 19], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 19], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 19], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 19], 14
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 19], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 768], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 800], ymm1   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + rcx + 20]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 2
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 3
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 20], 4
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 5
-	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 20], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 8
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 9
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 11
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 13
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 14
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 15
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 20]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 1
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 20], 2
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 20], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 6
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 7
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 20], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 11
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 12
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 14
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 15
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r12 + 21]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 21], 6
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 21], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 8
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 9
-	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 10
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 11
-	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 12
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 13
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 21], 15
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 21]
-	vmovd	xmm4, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 21], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 21], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 4
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 21], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 6
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 21], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 9
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 21], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 11
-	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 21], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 704], ymm1   # 32-byte Spill
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + rcx + 21], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 736], ymm1   # 32-byte Spill
-	movzx	edi, byte ptr [rdx + r12 + 22]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 2
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 4
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 22], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 22], 8
-	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 12
-	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 13
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 14
-	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 15
-	movzx	edi, byte ptr [rdx + r11 + 22]
-	vmovd	xmm2, edi
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 22], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 2
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 22], 3
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 22], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 22], 5
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 22], 6
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 7
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 22], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 22], 12
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 22], 14
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 22], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 23]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 1
-	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 2
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 4
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 5
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 6
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 9
-	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 13
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 15
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 23]
-	vmovd	xmm4, edi
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 23], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 23], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 23], 4
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 23], 6
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 23], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 8
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 23], 9
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 10
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 23], 11
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 12
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 23], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 23], 15
-	vinserti128	ymm11, ymm2, xmm1, 1
-	vinserti128	ymm12, ymm4, xmm3, 1
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 24]
-	vmovd	xmm1, edi
-	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 2
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 4
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 7
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 9
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 10
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 12
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 13
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 14
-	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 24]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 24], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 24], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 24], 3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 24], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 24], 5
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 24], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 24], 7
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 24], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 24], 9
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 24], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 24], 11
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 24], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 24], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 24], 14
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 24], 15
-	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rcx + 25]
-	vmovd	xmm3, edi
-	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 2
-	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 3
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 4
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 5
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 6
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 9
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 10
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 25], 11
-	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 12
-	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 13
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 14
-	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 25], 15
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 25]
-	vmovd	xmm4, edi
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 25], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 2
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 25], 3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 5
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 6
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 25], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 25], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 25], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 25], 11
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 12
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 25], 13
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 25], 14
-	vinserti128	ymm10, ymm2, xmm1, 1
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + r10 + 25], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 416], ymm1   # 32-byte Spill
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 26]
-	vmovd	xmm1, edi
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 1
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 2
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 3
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 4
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 5
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 7
-	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 8
-	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 9
-	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 10
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 12
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 13
-	mov	rax, rcx
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 14
-	mov	rsi, r11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 26], 15
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r11 + 26]
-	vmovd	xmm2, edi
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 26], 1
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 26], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 26], 3
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 26], 4
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 26], 5
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 26], 6
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 26], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 26], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 26], 9
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 26], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 26], 11
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 26], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 26], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 26], 14
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 26], 15
-	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rdi + 27]
-	vmovd	xmm3, edi
-	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 1
-	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 2
-	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 4
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 5
-	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 8
-	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 27], 9
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 12
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 13
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 15
-	movzx	edi, byte ptr [rdx + r11 + 27]
-	vmovd	xmm4, edi
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 1
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 27], 2
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 27], 4
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 5
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 27], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 8
-	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 27], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 27], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 11
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 12
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 13
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 14
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 15
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 576], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 608], ymm1   # 32-byte Spill
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	movzx	edi, byte ptr [rdx + r8 + 28]
-	vmovd	xmm1, edi
-	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 2
-	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
-	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 28], 4
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 5
-	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 28], 6
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 7
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 8
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 28], 9
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 10
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 11
-	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 12
-	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 13
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 14
-	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 15
-	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rbx + 28]
-	vmovd	xmm2, edi
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 6
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 28], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 28], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 28], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 12
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 28], 13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 28], 14
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 28], 15
-	movzx	edi, byte ptr [rdx + r8 + 29]
-	vmovd	xmm3, edi
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 1
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 2
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 29], 4
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 5
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 6
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
-	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 8
-	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 9
-	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 10
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 11
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 29], 12
-	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 13
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 29], 15
-	movzx	edi, byte ptr [rdx + rbx + 29]
-	vmovd	xmm4, edi
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 29], 1
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 2
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 3
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 29], 4
-	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 5
-	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 29], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 29], 7
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 29], 8
-	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 29], 10
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 29], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 29], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 29], 14
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 640], ymm1   # 32-byte Spill
-	vpinsrb	xmm1, xmm4, byte ptr [rdx + r12 + 29], 15
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vmovdqa	ymmword ptr [rsp + 672], ymm1   # 32-byte Spill
-	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
-	movzx	edi, byte ptr [rdx + rax + 30]
-	vmovd	xmm1, edi
-	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 30], 1
-	movzx	edi, byte ptr [rdx + rax + 31]
-	vmovd	xmm2, edi
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 31], 1
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 30], 2
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 31], 2
-	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 4
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 4
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 5
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 6
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 30], 7
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 31], 7
-	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 8
-	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 10
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 30], 11
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 31], 11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 12
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 31], 12
-	mov	rax, r11
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 13
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 31], 13
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 14
-	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
-	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
-	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 15
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movzx	eax, byte ptr [rdx + rcx + 30]
-	vmovd	xmm3, eax
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 30], 1
-	movzx	eax, byte ptr [rdx + rcx + 31]
-	vmovd	xmm4, eax
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 31], 1
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 30], 2
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 31], 2
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 3
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 3
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 30], 4
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 31], 4
-	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 5
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 5
-	mov	rax, rbx
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 30], 6
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 31], 6
-	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 7
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 7
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 30], 8
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 31], 8
-	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 9
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 10
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 11
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 11
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 12
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 12
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 13
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 13
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 14
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 14
-	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 30], 15
-	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 31], 15
-	vinserti128	ymm1, ymm3, xmm1, 1
-	vmovdqa	ymmword ptr [rsp + 320], ymm1   # 32-byte Spill
-	vinserti128	ymm1, ymm4, xmm2, 1
-	vmovdqa	ymmword ptr [rsp + 288], ymm1   # 32-byte Spill
-	vpmaxub	ymm1, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
-	vpcmpeqb	ymm1, ymm0, ymm1
-	vpmaxub	ymm2, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
-	vpcmpeqb	ymm2, ymm0, ymm2
-	vmovdqa	ymm7, ymmword ptr [rip + .LCPI11_0] # ymm7 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	vpand	ymm2, ymm2, ymm7
-	vpsubb	ymm1, ymm2, ymm1
-	vpmaxub	ymm2, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
-	vpcmpeqb	ymm2, ymm0, ymm2
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI11_1] # ymm8 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	vpand	ymm2, ymm8, ymm2
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI11_2] # ymm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	vpand	ymm15, ymm15, ymm5
-	vpor	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpmaxub	ymm2, ymm14, ymm0
-	vpcmpeqb	ymm2, ymm0, ymm2
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI11_3] # ymm6 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	vpand	ymm2, ymm2, ymm6
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 512] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI11_4] # ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	vpand	ymm15, ymm15, ymm3
-	vpor	ymm2, ymm15, ymm2
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI11_5] # ymm4 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	vpand	ymm15, ymm15, ymm4
-	vpor	ymm2, ymm15, ymm2
-	vpor	ymm1, ymm1, ymm2
-	vpmaxub	ymm2, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
-	vpcmpeqb	ymm2, ymm0, ymm2
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI11_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vpand	ymm2, ymm9, ymm2
-	vpor	ymm2, ymm1, ymm2
-	vpmaxub	ymm1, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
-	vpcmpeqb	ymm1, ymm0, ymm1
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm7
-	vpsubb	ymm1, ymm15, ymm1
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm8
-	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm5
-	vpor	ymm14, ymm15, ymm14
-	vpor	ymm1, ymm14, ymm1
-	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm6
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm3
-	vpor	ymm14, ymm14, ymm15
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm4
-	vpor	ymm14, ymm14, ymm15
-	vpor	ymm1, ymm14, ymm1
-	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm9
-	vpor	ymm1, ymm14, ymm1
-	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm7
-	vpsubb	ymm14, ymm15, ymm14
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm8
-	vpmaxub	ymm13, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
-	vpcmpeqb	ymm13, ymm13, ymm0
-	vpand	ymm13, ymm13, ymm5
-	vpor	ymm13, ymm15, ymm13
-	vpor	ymm13, ymm14, ymm13
-	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
-	vpcmpeqb	ymm14, ymm14, ymm0
-	vpand	ymm14, ymm14, ymm6
-	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
-	vpcmpeqb	ymm15, ymm15, ymm0
-	vpand	ymm15, ymm15, ymm3
-	vpor	ymm14, ymm14, ymm15
-	vpmaxub	ymm11, ymm11, ymm0
-	vpcmpeqb	ymm11, ymm11, ymm0
-	vpand	ymm11, ymm11, ymm4
-	vpor	ymm11, ymm14, ymm11
-	vpor	ymm11, ymm13, ymm11
-	vpmaxub	ymm12, ymm12, ymm0
-	vpcmpeqb	ymm12, ymm12, ymm0
-	vmovdqa	ymm13, ymm9
-	vpand	ymm12, ymm12, ymm9
-	vpor	ymm11, ymm11, ymm12
-	vpmaxub	ymm10, ymm10, ymm0
-	vpcmpeqb	ymm10, ymm10, ymm0
-	vpmaxub	ymm9, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
-	vpcmpeqb	ymm9, ymm9, ymm0
-	vpand	ymm9, ymm9, ymm7
-	vpsubb	ymm9, ymm9, ymm10
-	vpmaxub	ymm7, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
-	vpcmpeqb	ymm7, ymm0, ymm7
-	vpand	ymm7, ymm8, ymm7
-	vpmaxub	ymm8, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
-	vpcmpeqb	ymm8, ymm8, ymm0
-	vpand	ymm8, ymm8, ymm5
-	vpor	ymm7, ymm8, ymm7
-	vpor	ymm7, ymm9, ymm7
-	vpmaxub	ymm5, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
-	vpcmpeqb	ymm5, ymm0, ymm5
-	vpand	ymm5, ymm5, ymm6
-	vpmaxub	ymm6, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
-	vpcmpeqb	ymm6, ymm0, ymm6
-	vpand	ymm6, ymm6, ymm3
-	vpor	ymm5, ymm5, ymm6
-	vpmaxub	ymm3, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
-	vpcmpeqb	ymm3, ymm0, ymm3
-	vpand	ymm3, ymm3, ymm4
-	vpor	ymm3, ymm5, ymm3
-	vpor	ymm3, ymm7, ymm3
-	vpmaxub	ymm4, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
-	vpcmpeqb	ymm4, ymm0, ymm4
-	vpand	ymm4, ymm13, ymm4
-	vpor	ymm3, ymm3, ymm4
-	vpunpcklbw	ymm4, ymm2, ymm1        # ymm4 = ymm2[0],ymm1[0],ymm2[1],ymm1[1],ymm2[2],ymm1[2],ymm2[3],ymm1[3],ymm2[4],ymm1[4],ymm2[5],ymm1[5],ymm2[6],ymm1[6],ymm2[7],ymm1[7],ymm2[16],ymm1[16],ymm2[17],ymm1[17],ymm2[18],ymm1[18],ymm2[19],ymm1[19],ymm2[20],ymm1[20],ymm2[21],ymm1[21],ymm2[22],ymm1[22],ymm2[23],ymm1[23]
-	vpunpckhbw	ymm1, ymm2, ymm1        # ymm1 = ymm2[8],ymm1[8],ymm2[9],ymm1[9],ymm2[10],ymm1[10],ymm2[11],ymm1[11],ymm2[12],ymm1[12],ymm2[13],ymm1[13],ymm2[14],ymm1[14],ymm2[15],ymm1[15],ymm2[24],ymm1[24],ymm2[25],ymm1[25],ymm2[26],ymm1[26],ymm2[27],ymm1[27],ymm2[28],ymm1[28],ymm2[29],ymm1[29],ymm2[30],ymm1[30],ymm2[31],ymm1[31]
-	vpunpcklbw	ymm2, ymm11, ymm3       # ymm2 = ymm11[0],ymm3[0],ymm11[1],ymm3[1],ymm11[2],ymm3[2],ymm11[3],ymm3[3],ymm11[4],ymm3[4],ymm11[5],ymm3[5],ymm11[6],ymm3[6],ymm11[7],ymm3[7],ymm11[16],ymm3[16],ymm11[17],ymm3[17],ymm11[18],ymm3[18],ymm11[19],ymm3[19],ymm11[20],ymm3[20],ymm11[21],ymm3[21],ymm11[22],ymm3[22],ymm11[23],ymm3[23]
-	vpunpckhbw	ymm3, ymm11, ymm3       # ymm3 = ymm11[8],ymm3[8],ymm11[9],ymm3[9],ymm11[10],ymm3[10],ymm11[11],ymm3[11],ymm11[12],ymm3[12],ymm11[13],ymm3[13],ymm11[14],ymm3[14],ymm11[15],ymm3[15],ymm11[24],ymm3[24],ymm11[25],ymm3[25],ymm11[26],ymm3[26],ymm11[27],ymm3[27],ymm11[28],ymm3[28],ymm11[29],ymm3[29],ymm11[30],ymm3[30],ymm11[31],ymm3[31]
-	vpunpcklwd	ymm5, ymm4, ymm2        # ymm5 = ymm4[0],ymm2[0],ymm4[1],ymm2[1],ymm4[2],ymm2[2],ymm4[3],ymm2[3],ymm4[8],ymm2[8],ymm4[9],ymm2[9],ymm4[10],ymm2[10],ymm4[11],ymm2[11]
-	vpunpckhwd	ymm2, ymm4, ymm2        # ymm2 = ymm4[4],ymm2[4],ymm4[5],ymm2[5],ymm4[6],ymm2[6],ymm4[7],ymm2[7],ymm4[12],ymm2[12],ymm4[13],ymm2[13],ymm4[14],ymm2[14],ymm4[15],ymm2[15]
-	vpunpcklwd	ymm4, ymm1, ymm3        # ymm4 = ymm1[0],ymm3[0],ymm1[1],ymm3[1],ymm1[2],ymm3[2],ymm1[3],ymm3[3],ymm1[8],ymm3[8],ymm1[9],ymm3[9],ymm1[10],ymm3[10],ymm1[11],ymm3[11]
-	vpunpckhwd	ymm1, ymm1, ymm3        # ymm1 = ymm1[4],ymm3[4],ymm1[5],ymm3[5],ymm1[6],ymm3[6],ymm1[7],ymm3[7],ymm1[12],ymm3[12],ymm1[13],ymm3[13],ymm1[14],ymm3[14],ymm1[15],ymm3[15]
-	vinserti128	ymm3, ymm5, xmm2, 1
-	vperm2i128	ymm2, ymm5, ymm2, 49    # ymm2 = ymm5[2,3],ymm2[2,3]
-	vinserti128	ymm5, ymm4, xmm1, 1
-	vperm2i128	ymm1, ymm4, ymm1, 49    # ymm1 = ymm4[2,3],ymm1[2,3]
-	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm1
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm5
-	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm3
-	add	rcx, 32
-	mov	rbx, rcx
-	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	jne	.LBB11_67
-# %bb.68:
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	cmp	r14, qword ptr [rsp + 384]      # 8-byte Folded Reload
-	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
-	mov	r13, qword ptr [rsp + 368]      # 8-byte Reload
-	mov	rdi, qword ptr [rsp + 360]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
-	jne	.LBB11_69
-	jmp	.LBB11_72
-.Lfunc_end11:
-	.size	comparison_greater_equal_scalar_arr_avx2, .Lfunc_end11-comparison_greater_equal_scalar_arr_avx2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/scalar_comparison_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/scalar_comparison_sse4_amd64.s
deleted file mode 100644
index 762c9e85c5f0e..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/scalar_comparison_sse4_amd64.s
+++ /dev/null
@@ -1,59819 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"scalar_comparison.cc"
-	.globl	comparison_equal_arr_arr_sse4   # -- Begin function comparison_equal_arr_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_equal_arr_arr_sse4,@function
-comparison_equal_arr_arr_sse4:          # @comparison_equal_arr_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB0_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB0_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB0_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB0_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB0_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_20
-# %bb.21:
-	add	r14, 1
-.LBB0_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	sete	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	sete	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	sete	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	sete	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	sete	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	sete	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	sete	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	sete	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	sete	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_28:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_28
-	jmp	.LBB0_123
-.LBB0_29:
-	cmp	edi, 8
-	jle	.LBB0_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB0_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB0_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB0_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_48:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	ucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_48
-# %bb.49:
-	add	r14, 1
-.LBB0_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	ucomisd	xmm1, qword ptr [rdx + 8]
-	sete	al
-	movsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	movsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	movsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	movsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	sete	r13b
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	sete	r15b
-	movsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	movsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	sete	cl
-	movsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	movsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	sete	r9b
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	sete	r11b
-	movsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	movsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	sete	r10b
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	movsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	sete	bl
-	movsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	movsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	movsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	sete	r14b
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	movsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	sete	r12b
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	movsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	movsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	movsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	movsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	movsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	sete	r8b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	movsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	movsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	movsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	movsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	movsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	movsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	movsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	add	rsi, 256
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	sete	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB0_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB0_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_56:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_56
-	jmp	.LBB0_123
-.LBB0_2:
-	cmp	edi, 2
-	je	.LBB0_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB0_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_6
-# %bb.7:
-	add	r14, 1
-.LBB0_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	sete	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	sete	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	sete	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	sete	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	sete	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	sete	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	sete	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	sete	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	sete	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	sete	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	sete	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB0_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB0_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_14
-	jmp	.LBB0_123
-.LBB0_30:
-	cmp	edi, 7
-	je	.LBB0_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB0_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_34
-# %bb.35:
-	add	r14, 1
-.LBB0_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	sete	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	sete	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	sete	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	sete	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	sete	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	sete	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	sete	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	sete	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	sete	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_42:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_42
-	jmp	.LBB0_123
-.LBB0_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_70
-# %bb.71:
-	add	r14, 1
-.LBB0_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	sete	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	sete	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	sete	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	sete	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	sete	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	sete	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	sete	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	sete	r12b
-	cmp	ax, word ptr [rdx + 40]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	sete	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_78:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_78
-	jmp	.LBB0_123
-.LBB0_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_81
-# %bb.82:
-	add	r14, 1
-.LBB0_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	sete	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	sete	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	sete	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	sete	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	sete	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	sete	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	sete	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	sete	r12b
-	cmp	ax, word ptr [rdx + 40]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	sete	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_89
-	jmp	.LBB0_123
-.LBB0_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_103
-# %bb.104:
-	add	r14, 1
-.LBB0_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	sete	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	sete	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	sete	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	sete	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	sete	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	sete	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	sete	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	sete	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	sete	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_111
-	jmp	.LBB0_123
-.LBB0_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_114:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	ucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_114
-# %bb.115:
-	add	r14, 1
-.LBB0_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	movss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	ucomiss	xmm1, dword ptr [rdx + 4]
-	sete	al
-	movss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 8]
-	movss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 16]
-	movss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 24]
-	movss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	sete	r13b
-	ucomiss	xmm0, dword ptr [rdx + 28]
-	sete	r15b
-	movss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 32]
-	movss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 36]
-	sete	cl
-	movss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 40]
-	movss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	sete	r9b
-	ucomiss	xmm0, dword ptr [rdx + 44]
-	sete	r11b
-	movss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 48]
-	movss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	sete	r10b
-	ucomiss	xmm0, dword ptr [rdx + 52]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 56]
-	movss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 60]
-	sete	bl
-	movss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 64]
-	movss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 68]
-	movss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	sete	r14b
-	ucomiss	xmm0, dword ptr [rdx + 72]
-	movss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	sete	r12b
-	ucomiss	xmm0, dword ptr [rdx + 76]
-	movss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 80]
-	movss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 84]
-	movss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 88]
-	movss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 92]
-	movss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	sete	r8b
-	ucomiss	xmm0, dword ptr [rdx + 96]
-	movss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 100]
-	movss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 104]
-	movss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 108]
-	movss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 112]
-	movss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 116]
-	movss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 120]
-	movss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	sub	rsi, -128
-	ucomiss	xmm0, dword ptr [rdx + 124]
-	sete	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB0_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB0_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_122:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_122
-	jmp	.LBB0_123
-.LBB0_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_59
-# %bb.60:
-	add	r14, 1
-.LBB0_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	sete	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	sete	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	sete	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	sete	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	sete	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	sete	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	sete	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	sete	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	sete	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	sete	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	sete	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB0_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB0_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_67:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_67
-	jmp	.LBB0_123
-.LBB0_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB0_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB0_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB0_92
-# %bb.93:
-	add	r14, 1
-.LBB0_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB0_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB0_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	sete	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	sete	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	sete	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	sete	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	sete	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	sete	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	sete	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	sete	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	sete	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	sete	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB0_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB0_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB0_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	sete	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB0_100
-.LBB0_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	comparison_equal_arr_arr_sse4, .Lfunc_end0-comparison_equal_arr_arr_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_equal_arr_scalar_sse4
-.LCPI1_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI1_1:
-	.zero	16,252
-.LCPI1_2:
-	.zero	16,248
-.LCPI1_3:
-	.zero	16,240
-.LCPI1_4:
-	.zero	16,224
-.LCPI1_5:
-	.zero	16,192
-.LCPI1_6:
-	.zero	16,128
-.LCPI1_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI1_8:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI1_9:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI1_10:
-	.zero	16,1
-.LCPI1_11:
-	.zero	16,4
-.LCPI1_12:
-	.zero	16,8
-.LCPI1_13:
-	.zero	16,16
-.LCPI1_14:
-	.zero	16,32
-.LCPI1_15:
-	.zero	16,64
-	.text
-	.globl	comparison_equal_arr_scalar_sse4
-	.p2align	4, 0x90
-	.type	comparison_equal_arr_scalar_sse4,@function
-comparison_equal_arr_scalar_sse4:       # @comparison_equal_arr_scalar_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 320
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB1_26
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB1_2
-# %bb.10:
-	cmp	edi, 4
-	je	.LBB1_100
-# %bb.11:
-	cmp	edi, 5
-	je	.LBB1_123
-# %bb.12:
-	cmp	edi, 6
-	jne	.LBB1_202
-# %bb.13:
-	mov	r13d, dword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_17
-# %bb.14:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_15:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_15
-# %bb.16:
-	add	r14, 1
-.LBB1_17:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_21
-# %bb.18:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_19:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	sete	dil
-	cmp	dword ptr [rsi + 8], r13d
-	sete	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	sete	al
-	cmp	dword ptr [rsi + 28], r13d
-	sete	bl
-	cmp	dword ptr [rsi + 32], r13d
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	sete	dl
-	cmp	dword ptr [rsi + 40], r13d
-	sete	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	sete	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	sete	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	sete	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	sete	cl
-	cmp	dword ptr [rsi + 64], r13d
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	sete	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 128
-	add	r14, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB1_19
-# %bb.20:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB1_21:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.22:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB1_23
-# %bb.146:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB1_147:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_147
-	jmp	.LBB1_24
-.LBB1_26:
-	cmp	edi, 8
-	jle	.LBB1_27
-# %bb.42:
-	cmp	edi, 9
-	je	.LBB1_162
-# %bb.43:
-	cmp	edi, 11
-	je	.LBB1_174
-# %bb.44:
-	cmp	edi, 12
-	jne	.LBB1_202
-# %bb.45:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB1_49
-# %bb.46:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_47:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_47
-# %bb.48:
-	add	r14, 1
-.LBB1_49:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_53
-# %bb.50:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_51:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	ucomisd	xmm0, qword ptr [rsi]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	sete	r9b
-	ucomisd	xmm0, qword ptr [rsi + 16]
-	sete	r14b
-	ucomisd	xmm0, qword ptr [rsi + 24]
-	sete	r13b
-	ucomisd	xmm0, qword ptr [rsi + 32]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 40]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 48]
-	sete	al
-	ucomisd	xmm0, qword ptr [rsi + 56]
-	sete	bl
-	ucomisd	xmm0, qword ptr [rsi + 64]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 72]
-	sete	dl
-	ucomisd	xmm0, qword ptr [rsi + 80]
-	sete	dil
-	ucomisd	xmm0, qword ptr [rsi + 88]
-	sete	r10b
-	ucomisd	xmm0, qword ptr [rsi + 96]
-	sete	r11b
-	ucomisd	xmm0, qword ptr [rsi + 104]
-	sete	r12b
-	ucomisd	xmm0, qword ptr [rsi + 112]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 120]
-	sete	cl
-	ucomisd	xmm0, qword ptr [rsi + 128]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 136]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 144]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 152]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 160]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 168]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 176]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 184]
-	sete	r15b
-	ucomisd	xmm0, qword ptr [rsi + 192]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 200]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 208]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 216]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 224]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 232]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 240]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 248]
-	sete	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB1_51
-# %bb.52:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-.LBB1_53:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.54:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB1_197
-# %bb.55:
-	xor	r11d, r11d
-	jmp	.LBB1_199
-.LBB1_2:
-	cmp	edi, 2
-	je	.LBB1_56
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB1_202
-# %bb.4:
-	mov	r11b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_6:                                # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r11b
-	lea	rsi, [rsi + 1]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_6
-# %bb.7:
-	add	r14, 1
-.LBB1_8:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_9
-# %bb.82:
-	cmp	r15, 16
-	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
-	jb	.LBB1_83
-# %bb.84:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB1_86
-# %bb.85:
-	lea	rax, [r14 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB1_86
-.LBB1_83:
-	xor	eax, eax
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
-.LBB1_89:
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 248]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_90:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r11b
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r11b
-	sete	sil
-	cmp	byte ptr [rcx + 2], r11b
-	sete	r15b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 3], al
-	sete	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 4], al
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 5], al
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 6], al
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 7], al
-	sete	r9b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 8], al
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 9], al
-	sete	dl
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 10], al
-	sete	dil
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 11], al
-	sete	r10b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 12], al
-	sete	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	sete	r13b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	sete	r8b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	sete	r11b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	sete	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 56]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	r11d, r15d
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 120], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB1_90
-# %bb.91:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	jmp	.LBB1_92
-.LBB1_27:
-	cmp	edi, 7
-	je	.LBB1_148
-# %bb.28:
-	cmp	edi, 8
-	jne	.LBB1_202
-# %bb.29:
-	mov	r13, qword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_33
-# %bb.30:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_31:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_31
-# %bb.32:
-	add	r14, 1
-.LBB1_33:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_37
-# %bb.34:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_35:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	sete	dil
-	cmp	qword ptr [rsi + 16], r13
-	sete	r14b
-	cmp	qword ptr [rsi + 24], r13
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	sete	al
-	cmp	qword ptr [rsi + 56], r13
-	sete	bl
-	cmp	qword ptr [rsi + 64], r13
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	sete	dl
-	cmp	qword ptr [rsi + 80], r13
-	sete	r9b
-	cmp	qword ptr [rsi + 88], r13
-	sete	r10b
-	cmp	qword ptr [rsi + 96], r13
-	sete	r11b
-	cmp	qword ptr [rsi + 104], r13
-	sete	r12b
-	cmp	qword ptr [rsi + 112], r13
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	sete	cl
-	cmp	qword ptr [rsi + 128], r13
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	sete	r15b
-	cmp	qword ptr [rsi + 192], r13
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB1_35
-# %bb.36:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB1_37:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.38:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB1_39
-# %bb.160:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB1_161:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_161
-	jmp	.LBB1_40
-.LBB1_56:
-	mov	r11b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_60
-# %bb.57:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_58:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r11b
-	lea	rsi, [rsi + 1]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_58
-# %bb.59:
-	add	r14, 1
-.LBB1_60:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_61
-# %bb.62:
-	cmp	r15, 16
-	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
-	jb	.LBB1_63
-# %bb.64:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB1_66
-# %bb.65:
-	lea	rax, [r14 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB1_66
-.LBB1_63:
-	xor	eax, eax
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 80], r14       # 8-byte Spill
-.LBB1_69:
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 248]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_70:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r11b
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r11b
-	sete	sil
-	cmp	byte ptr [rcx + 2], r11b
-	sete	r15b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 3], al
-	sete	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 4], al
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 5], al
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 6], al
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 7], al
-	sete	r9b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 8], al
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 9], al
-	sete	dl
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 10], al
-	sete	dil
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 11], al
-	sete	r10b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 12], al
-	sete	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	sete	r13b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	sete	r8b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	sete	r11b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	sete	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 56]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	r11d, r15d
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 80], rdx       # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB1_70
-# %bb.71:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	jmp	.LBB1_72
-.LBB1_148:
-	mov	r13d, dword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_152
-# %bb.149:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_150:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_150
-# %bb.151:
-	add	r14, 1
-.LBB1_152:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_156
-# %bb.153:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_154:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	sete	dil
-	cmp	dword ptr [rsi + 8], r13d
-	sete	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	sete	al
-	cmp	dword ptr [rsi + 28], r13d
-	sete	bl
-	cmp	dword ptr [rsi + 32], r13d
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	sete	dl
-	cmp	dword ptr [rsi + 40], r13d
-	sete	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	sete	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	sete	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	sete	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	sete	cl
-	cmp	dword ptr [rsi + 64], r13d
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	sete	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 128
-	add	r14, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB1_154
-# %bb.155:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB1_156:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.157:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB1_158
-.LBB1_23:
-	xor	r11d, r11d
-	jmp	.LBB1_24
-.LBB1_100:
-	movzx	r13d, word ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_104
-# %bb.101:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_102:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_102
-# %bb.103:
-	add	r14, 1
-.LBB1_104:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_105
-# %bb.106:
-	cmp	r11, 8
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	jb	.LBB1_107
-# %bb.108:
-	mov	rax, r11
-	shl	rax, 6
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB1_110
-# %bb.109:
-	lea	rax, [r14 + 4*r11]
-	cmp	rax, rsi
-	jbe	.LBB1_110
-.LBB1_107:
-	xor	eax, eax
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 8], r14        # 8-byte Spill
-.LBB1_113:
-	sub	r11, qword ptr [rsp + 16]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_114:                              # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	word ptr [rsi], r13w
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	sete	r8b
-	cmp	word ptr [rsi + 4], r13w
-	sete	r14b
-	cmp	word ptr [rsi + 6], r13w
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	sete	al
-	cmp	word ptr [rsi + 14], r13w
-	sete	bl
-	cmp	word ptr [rsi + 16], r13w
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	sete	cl
-	cmp	word ptr [rsi + 20], r13w
-	sete	sil
-	cmp	word ptr [r11 + 22], r13w
-	sete	r9b
-	cmp	word ptr [r11 + 24], r13w
-	sete	r10b
-	cmp	word ptr [r11 + 26], r13w
-	sete	r12b
-	cmp	word ptr [r11 + 28], r13w
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 30], r13w
-	sete	dil
-	cmp	word ptr [r11 + 32], r13w
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 34], r13w
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 36], r13w
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 38], r13w
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 40], r13w
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 42], r13w
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 44], r13w
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 46], r13w
-	sete	r15b
-	cmp	word ptr [r11 + 48], r13w
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 50], r13w
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 52], r13w
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 54], r13w
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 56], r13w
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 58], r13w
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 60], r13w
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 62], r13w
-	sete	dl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	sil, 2
-	or	sil, cl
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, sil
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	bl, cl
-	or	dil, r12b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rcx + 1], dil
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], dl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB1_114
-# %bb.115:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	jmp	.LBB1_116
-.LBB1_123:
-	movzx	r13d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_127
-# %bb.124:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_125:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_125
-# %bb.126:
-	add	r14, 1
-.LBB1_127:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB1_128
-# %bb.129:
-	cmp	r15, 8
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	jb	.LBB1_130
-# %bb.131:
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB1_133
-# %bb.132:
-	lea	rax, [r14 + 4*r15]
-	cmp	rax, rsi
-	jbe	.LBB1_133
-.LBB1_130:
-	xor	eax, eax
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	mov	r12, r14
-.LBB1_136:
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 16]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_137:                              # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	word ptr [rsi], r13w
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	sete	r8b
-	cmp	word ptr [rsi + 4], r13w
-	sete	r14b
-	cmp	word ptr [rsi + 6], r13w
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	sete	al
-	cmp	word ptr [rsi + 14], r13w
-	sete	bl
-	cmp	word ptr [rsi + 16], r13w
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	sete	cl
-	cmp	word ptr [rsi + 20], r13w
-	sete	sil
-	cmp	word ptr [r11 + 22], r13w
-	sete	r9b
-	cmp	word ptr [r11 + 24], r13w
-	sete	r10b
-	cmp	word ptr [r11 + 26], r13w
-	sete	r12b
-	cmp	word ptr [r11 + 28], r13w
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 30], r13w
-	sete	dil
-	cmp	word ptr [r11 + 32], r13w
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 34], r13w
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 36], r13w
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 38], r13w
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 40], r13w
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 42], r13w
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 44], r13w
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 46], r13w
-	sete	r15b
-	cmp	word ptr [r11 + 48], r13w
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 50], r13w
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 52], r13w
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 54], r13w
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 56], r13w
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 58], r13w
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 60], r13w
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 62], r13w
-	sete	dl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	sil, 2
-	or	sil, cl
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, sil
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	bl, cl
-	or	dil, r12b
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rcx + 1], dil
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], dl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB1_137
-# %bb.138:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	jmp	.LBB1_139
-.LBB1_162:
-	mov	r13, qword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB1_166
-# %bb.163:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_164:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	sete	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_164
-# %bb.165:
-	add	r14, 1
-.LBB1_166:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_170
-# %bb.167:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_168:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	sete	dil
-	cmp	qword ptr [rsi + 16], r13
-	sete	r14b
-	cmp	qword ptr [rsi + 24], r13
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	sete	al
-	cmp	qword ptr [rsi + 56], r13
-	sete	bl
-	cmp	qword ptr [rsi + 64], r13
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	sete	dl
-	cmp	qword ptr [rsi + 80], r13
-	sete	r9b
-	cmp	qword ptr [rsi + 88], r13
-	sete	r10b
-	cmp	qword ptr [rsi + 96], r13
-	sete	r11b
-	cmp	qword ptr [rsi + 104], r13
-	sete	r12b
-	cmp	qword ptr [rsi + 112], r13
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	sete	cl
-	cmp	qword ptr [rsi + 128], r13
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	sete	r15b
-	cmp	qword ptr [rsi + 192], r13
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	sete	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB1_168
-# %bb.169:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB1_170:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.171:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB1_172
-.LBB1_39:
-	xor	r11d, r11d
-	jmp	.LBB1_40
-.LBB1_174:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB1_178
-# %bb.175:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB1_176:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB1_176
-# %bb.177:
-	add	r14, 1
-.LBB1_178:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB1_179
-# %bb.180:
-	cmp	r11, 4
-	jb	.LBB1_181
-# %bb.182:
-	mov	rax, r11
-	shl	rax, 7
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB1_184
-# %bb.183:
-	lea	rax, [r14 + 4*r11]
-	cmp	rax, rsi
-	jbe	.LBB1_184
-.LBB1_181:
-	xor	r8d, r8d
-	mov	rbx, rsi
-	mov	r15, r14
-.LBB1_187:
-	mov	qword ptr [rsp + 8], r15        # 8-byte Spill
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	sub	r11, r8
-	mov	qword ptr [rsp + 224], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_188:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	sete	r8b
-	ucomiss	xmm0, dword ptr [rbx + 8]
-	sete	r14b
-	ucomiss	xmm0, dword ptr [rbx + 12]
-	sete	r13b
-	ucomiss	xmm0, dword ptr [rbx + 16]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 20]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 24]
-	sete	al
-	ucomiss	xmm0, dword ptr [rbx + 28]
-	sete	r11b
-	ucomiss	xmm0, dword ptr [rbx + 32]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 36]
-	sete	dl
-	ucomiss	xmm0, dword ptr [rbx + 40]
-	sete	sil
-	ucomiss	xmm0, dword ptr [rbx + 44]
-	sete	dil
-	ucomiss	xmm0, dword ptr [rbx + 48]
-	sete	r10b
-	ucomiss	xmm0, dword ptr [rbx + 52]
-	sete	r12b
-	ucomiss	xmm0, dword ptr [rbx + 56]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 60]
-	sete	r9b
-	ucomiss	xmm0, dword ptr [rbx + 64]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 68]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 72]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 76]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 80]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 84]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 88]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 92]
-	sete	r15b
-	ucomiss	xmm0, dword ptr [rbx + 96]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 100]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 104]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 108]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 112]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 116]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 120]
-	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 124]
-	sete	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], cl
-	add	rbx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB1_188
-# %bb.189:
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	jmp	.LBB1_190
-.LBB1_9:
-	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
-.LBB1_92:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_202
-# %bb.93:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_95
-# %bb.94:
-	xor	r9d, r9d
-	jmp	.LBB1_98
-.LBB1_61:
-	mov	qword ptr [rsp + 80], r14       # 8-byte Spill
-.LBB1_72:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_202
-# %bb.73:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_75
-# %bb.74:
-	xor	r9d, r9d
-	jmp	.LBB1_78
-.LBB1_105:
-	mov	qword ptr [rsp + 8], r14        # 8-byte Spill
-.LBB1_116:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.117:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB1_121
-# %bb.118:
-	xor	r14d, r14d
-	jmp	.LBB1_119
-.LBB1_128:
-	mov	r12, r14
-.LBB1_139:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB1_202
-# %bb.140:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB1_144
-# %bb.141:
-	xor	r14d, r14d
-	jmp	.LBB1_142
-.LBB1_179:
-	mov	r15, r14
-	mov	rbx, rsi
-.LBB1_190:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB1_202
-# %bb.191:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB1_195
-# %bb.192:
-	xor	esi, esi
-	jmp	.LBB1_193
-.LBB1_158:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB1_159:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_159
-.LBB1_24:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.25:
-	cmp	dword ptr [rsi], r13d
-	jmp	.LBB1_201
-.LBB1_95:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB1_96:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	sete	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB1_96
-# %bb.97:
-	add	rsi, r9
-.LBB1_98:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.99:
-	cmp	byte ptr [rsi], r11b
-	sete	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	jmp	.LBB1_80
-.LBB1_75:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	.p2align	4, 0x90
-.LBB1_76:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	sete	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB1_76
-# %bb.77:
-	add	rsi, r9
-.LBB1_78:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.79:
-	cmp	byte ptr [rsi], r11b
-	sete	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-.LBB1_80:
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	jmp	.LBB1_81
-.LBB1_197:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB1_198:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_198
-.LBB1_199:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.200:
-	ucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB1_201
-.LBB1_172:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB1_173:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	sete	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	sete	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB1_173
-.LBB1_40:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.41:
-	cmp	qword ptr [rsi], r13
-.LBB1_201:
-	sete	al
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-	jmp	.LBB1_202
-.LBB1_121:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB1_122:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	word ptr [rsi], r13w
-	sete	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r11 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r11 + rdi], bl
-	add	r14, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r9, r14
-	jne	.LBB1_122
-.LBB1_119:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.120:
-	cmp	word ptr [rsi], r13w
-	sete	al
-	neg	al
-	mov	rdx, r14
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r14b, 7
-	mov	bl, 1
-	mov	ecx, r14d
-.LBB1_81:
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB1_202
-.LBB1_144:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	.p2align	4, 0x90
-.LBB1_145:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	word ptr [rsi], r13w
-	sete	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	r14, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, r14
-	jne	.LBB1_145
-.LBB1_142:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.143:
-	cmp	word ptr [rsi], r13w
-	sete	al
-	neg	al
-	mov	rdx, r14
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	r14b, 7
-	mov	bl, 1
-	mov	ecx, r14d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r12 + rdx], bl
-	jmp	.LBB1_202
-.LBB1_195:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, r15
-	.p2align	4, 0x90
-.LBB1_196:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	sete	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	dl, r9b
-	mov	ecx, esi
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r11 + rdi], al
-	add	rsi, 2
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	lea	rbx, [rbx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r9b
-	xor	dl, al
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r10, rsi
-	jne	.LBB1_196
-.LBB1_193:
-	test	r8b, 1
-	je	.LBB1_202
-# %bb.194:
-	ucomiss	xmm0, dword ptr [rbx]
-	sete	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r14, r15
-	mov	dil, byte ptr [r15 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r15 + rdx], bl
-.LBB1_202:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB1_86:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r15      # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_87:                               # =>This Inner Loop Header: Depth=1
-	mov	rdi, rax
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	shl	rdi, 5
-	mov	r11, rdi
-	mov	r14, rdi
-	mov	rbx, rdi
-	mov	r15, rdi
-	mov	r10, rdi
-	mov	r8, rdi
-	mov	r12, rdi
-	mov	r9, rdi
-	mov	rdx, rdi
-	mov	qword ptr [rsp + 88], rdi       # 8-byte Spill
-	mov	qword ptr [rsp + 56], rdi       # 8-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 1]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 2]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 3]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 4]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 5]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 6]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 7]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi + 9]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 10]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi + 11]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 12]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 13]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 14]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 288], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 32], rdi       # 8-byte Spill
-	mov	r13, rdi
-	or	r13, 32
-	mov	qword ptr [rsp + 40], r13       # 8-byte Spill
-	mov	rcx, rdi
-	or	rcx, 64
-	mov	qword ptr [rsp + 64], rcx       # 8-byte Spill
-	or	r11, 96
-	or	rbx, 128
-	or	r14, 160
-	or	r15, 192
-	or	r10, 224
-	or	r12, 256
-	or	r9, 288
-	mov	qword ptr [rsp + 128], r9       # 8-byte Spill
-	or	rdx, 320
-	mov	qword ptr [rsp + 48], rdx       # 8-byte Spill
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	or	rdx, 352
-	mov	qword ptr [rsp + 88], rdx       # 8-byte Spill
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	or	r8, 384
-	mov	rax, rdi
-	or	rax, 416
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	mov	rax, rdi
-	or	rax, 448
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	rax, rdi
-	or	rax, 480
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r13], 1
-	pinsrb	xmm15, byte ptr [rsi + rcx], 2
-	mov	qword ptr [rsp + 104], r11      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r11], 3
-	mov	qword ptr [rsp + 80], rbx       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + rbx], 4
-	mov	qword ptr [rsp + 96], r14       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r14], 5
-	pinsrb	xmm15, byte ptr [rsi + r15], 6
-	mov	rdi, r10
-	pinsrb	xmm15, byte ptr [rsi + r10], 7
-	pinsrb	xmm15, byte ptr [rsi + r12], 8
-	pinsrb	xmm15, byte ptr [rsi + r9], 9
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r13], 10
-	pinsrb	xmm15, byte ptr [rsi + rdx], 11
-	pinsrb	xmm15, byte ptr [rsi + r8], 12
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r9], 13
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rcx], 14
-	pinsrb	xmm15, byte ptr [rsi + rax], 15
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r10 + 1], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rcx + 1], 2
-	pinsrb	xmm5, byte ptr [rsi + r11 + 1], 3
-	pinsrb	xmm5, byte ptr [rsi + rbx + 1], 4
-	pinsrb	xmm5, byte ptr [rsi + r14 + 1], 5
-	pinsrb	xmm5, byte ptr [rsi + r15 + 1], 6
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + rdi + 1], 7
-	mov	r14, rdi
-	mov	qword ptr [rsp + 160], rdi      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + r12 + 1], 8
-	mov	rbx, r12
-	mov	qword ptr [rsp + 72], r12       # 8-byte Spill
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rcx + 1], 9
-	pinsrb	xmm5, byte ptr [rsi + r13 + 1], 10
-	pinsrb	xmm5, byte ptr [rsi + rdx + 1], 11
-	pinsrb	xmm5, byte ptr [rsi + r8 + 1], 12
-	mov	r10, r8
-	mov	qword ptr [rsp + 56], r8        # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + r9 + 1], 13
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r12 + 1], 14
-	pinsrb	xmm5, byte ptr [rsi + rax + 1], 15
-	movdqa	xmm9, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pcmpeqb	xmm5, xmm9
-	movdqa	xmm7, xmm5
-	movdqa	xmm4, xmmword ptr [rip + .LCPI1_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm7, xmm4
-	psubb	xmm7, xmm5
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 15]
-	movd	xmm14, edx
-	pcmpeqb	xmm15, xmm9
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 1
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 2
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r13 + 2], 3
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 2], 4
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 5
-	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 6
-	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 7
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 8
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 9
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 10
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 11
-	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 12
-	mov	r10, r9
-	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 13
-	pinsrb	xmm6, byte ptr [rsi + r12 + 2], 14
-	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 15
-	pand	xmm15, xmm4
-	pcmpeqb	xmm6, xmm9
-	movdqa	xmm0, xmmword ptr [rip + .LCPI1_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm6, xmm0
-	por	xmm6, xmm15
-	movzx	edx, byte ptr [rsi + rax + 16]
-	movd	xmm15, edx
-	mov	rdx, r8
-	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 1
-	mov	rax, r11
-	pinsrb	xmm2, byte ptr [rsi + r11 + 3], 2
-	pinsrb	xmm2, byte ptr [rsi + r13 + 3], 3
-	pinsrb	xmm2, byte ptr [rsi + rcx + 3], 4
-	mov	r11, rcx
-	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 5
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 3], 6
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 7
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 8
-	pinsrb	xmm2, byte ptr [rsi + rbx + 3], 9
-	pinsrb	xmm2, byte ptr [rsi + r14 + 3], 10
-	mov	r14, r15
-	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 11
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 12
-	pinsrb	xmm2, byte ptr [rsi + r10 + 3], 13
-	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 14
-	pinsrb	xmm2, byte ptr [rsi + r9 + 3], 15
-	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 1
-	pinsrb	xmm1, byte ptr [rsi + rax + 4], 2
-	pinsrb	xmm1, byte ptr [rsi + r13 + 4], 3
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 4
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 5
-	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 6
-	pinsrb	xmm1, byte ptr [rsi + rdi + 4], 7
-	pinsrb	xmm1, byte ptr [rsi + r8 + 4], 8
-	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 9
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 10
-	pinsrb	xmm1, byte ptr [rsi + r14 + 4], 11
-	pinsrb	xmm1, byte ptr [rsi + r15 + 4], 12
-	pinsrb	xmm1, byte ptr [rsi + r10 + 4], 13
-	mov	r15, r10
-	pinsrb	xmm1, byte ptr [rsi + r12 + 4], 14
-	mov	r10, r12
-	pinsrb	xmm1, byte ptr [rsi + r9 + 4], 15
-	por	xmm6, xmm7
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdi + 17]
-	movd	xmm0, edx
-	pcmpeqb	xmm2, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI1_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm2, xmm5
-	pcmpeqb	xmm1, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI1_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm1, xmm5
-	por	xmm1, xmm2
-	movzx	edx, byte ptr [rsi + rdi + 18]
-	movd	xmm5, edx
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r9 + 5], 1
-	pinsrb	xmm8, byte ptr [rsi + rax + 5], 2
-	pinsrb	xmm8, byte ptr [rsi + r13 + 5], 3
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 4
-	pinsrb	xmm8, byte ptr [rsi + r11 + 5], 5
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdi + 5], 6
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r8 + 5], 7
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 8
-	pinsrb	xmm8, byte ptr [rsi + rbx + 5], 9
-	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 5], 11
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 12
-	pinsrb	xmm8, byte ptr [rsi + r15 + 5], 13
-	mov	r12, r15
-	pinsrb	xmm8, byte ptr [rsi + r10 + 5], 14
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r10 + 5], 15
-	pcmpeqb	xmm8, xmm9
-	movdqa	xmm2, xmmword ptr [rip + .LCPI1_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm8, xmm2
-	por	xmm8, xmm1
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 19]
-	movd	xmm7, edx
-	por	xmm8, xmm6
-	movzx	edx, byte ptr [rsi + rcx + 20]
-	movd	xmm6, edx
-	pinsrb	xmm3, byte ptr [rsi + r9 + 6], 1
-	pinsrb	xmm3, byte ptr [rsi + rax + 6], 2
-	pinsrb	xmm3, byte ptr [rsi + r13 + 6], 3
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r11 + 6], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r15 + 6], 5
-	mov	rcx, rdi
-	pinsrb	xmm3, byte ptr [rsi + rdi + 6], 6
-	mov	rdi, r8
-	pinsrb	xmm3, byte ptr [rsi + r8 + 6], 7
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 6], 8
-	pinsrb	xmm3, byte ptr [rsi + rbx + 6], 9
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r8 + 6], 10
-	pinsrb	xmm3, byte ptr [rsi + r14 + 6], 11
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 6], 12
-	pinsrb	xmm3, byte ptr [rsi + r12 + 6], 13
-	mov	r13, r12
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 6], 14
-	pinsrb	xmm3, byte ptr [rsi + r10 + 6], 15
-	movdqa	xmm2, xmmword ptr [rsp + 224]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r9 + 7], 1
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r12 + 7], 2
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdx + 7], 3
-	pinsrb	xmm2, byte ptr [rsi + r11 + 7], 4
-	pinsrb	xmm2, byte ptr [rsi + r15 + 7], 5
-	pinsrb	xmm2, byte ptr [rsi + rcx + 7], 6
-	pinsrb	xmm2, byte ptr [rsi + rdi + 7], 7
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r10 + 7], 8
-	pinsrb	xmm2, byte ptr [rsi + rbx + 7], 9
-	pinsrb	xmm2, byte ptr [rsi + r8 + 7], 10
-	pinsrb	xmm2, byte ptr [rsi + r14 + 7], 11
-	pinsrb	xmm2, byte ptr [rsi + rax + 7], 12
-	pinsrb	xmm2, byte ptr [rsi + r13 + 7], 13
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 7], 14
-	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r9 + 7], 15
-	pcmpeqb	xmm3, xmm9
-	movdqa	xmm1, xmmword ptr [rip + .LCPI1_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm1
-	pcmpeqb	xmm2, xmm9
-	psllw	xmm2, 7
-	movdqa	xmm1, xmmword ptr [rip + .LCPI1_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm2, xmm1
-	por	xmm2, xmm3
-	movdqa	xmm1, xmm2
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rbx + 21]
-	movd	xmm2, edx
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r11 + 9], 1
-	pinsrb	xmm10, byte ptr [rsi + r12 + 9], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 9], 3
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 4
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r15 + 9], 5
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r12 + 9], 6
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 9], 7
-	pinsrb	xmm10, byte ptr [rsi + r10 + 9], 8
-	mov	r14, r10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 9], 9
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 9], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 11
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 12
-	mov	r10, r13
-	pinsrb	xmm10, byte ptr [rsi + r13 + 9], 13
-	pinsrb	xmm10, byte ptr [rsi + rdi + 9], 14
-	pinsrb	xmm10, byte ptr [rsi + r9 + 9], 15
-	por	xmm1, xmm8
-	movdqa	xmmword ptr [rsp + 224], xmm1   # 16-byte Spill
-	pcmpeqb	xmm10, xmm9
-	movdqa	xmm1, xmm10
-	movdqa	xmm8, xmm4
-	pand	xmm1, xmm4
-	psubb	xmm1, xmm10
-	movzx	edx, byte ptr [rsi + rbx + 22]
-	movd	xmm3, edx
-	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r11 + 8], 1
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r13 + 8], 2
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r8 + 8], 3
-	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 4
-	mov	r9, r15
-	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 5
-	pinsrb	xmm4, byte ptr [rsi + r12 + 8], 6
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 7
-	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 8
-	mov	rbx, r14
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 8], 9
-	pinsrb	xmm4, byte ptr [rsi + rax + 8], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 8], 11
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 12
-	pinsrb	xmm4, byte ptr [rsi + r10 + 8], 13
-	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 8], 15
-	pcmpeqb	xmm4, xmm9
-	pand	xmm4, xmm8
-	movdqa	xmm10, xmmword ptr [rsp + 192]  # 16-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r11 + 10], 1
-	pinsrb	xmm10, byte ptr [rsi + r13 + 10], 2
-	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 3
-	mov	r12, r8
-	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 4
-	pinsrb	xmm10, byte ptr [rsi + r9 + 10], 5
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 6
-	mov	r8, r15
-	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 7
-	pinsrb	xmm10, byte ptr [rsi + rbx + 10], 8
-	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 9
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 10
-	mov	rbx, rdx
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 11
-	pinsrb	xmm10, byte ptr [rsi + r14 + 10], 12
-	pinsrb	xmm10, byte ptr [rsi + r10 + 10], 13
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 14
-	pinsrb	xmm10, byte ptr [rsi + rax + 10], 15
-	pcmpeqb	xmm10, xmm9
-	pand	xmm10, xmmword ptr [rip + .LCPI1_11]
-	por	xmm10, xmm4
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 23]
-	movd	xmm8, edx
-	por	xmm10, xmm1
-	movdqa	xmmword ptr [rsp + 192], xmm10  # 16-byte Spill
-	movzx	edx, byte ptr [rsi + rax + 24]
-	movd	xmm10, edx
-	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 1
-	pinsrb	xmm11, byte ptr [rsi + r13 + 11], 2
-	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 3
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rax + 11], 4
-	pinsrb	xmm11, byte ptr [rsi + r9 + 11], 5
-	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 6
-	mov	rdi, r8
-	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 7
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 8
-	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r9 + 11], 9
-	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 10
-	mov	r14, r15
-	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 11
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 12
-	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 13
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 15
-	pinsrb	xmm13, byte ptr [rsi + r11 + 12], 1
-	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 2
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rbx + 12], 3
-	pinsrb	xmm13, byte ptr [rsi + rax + 12], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rax + 12], 5
-	pinsrb	xmm13, byte ptr [rsi + rcx + 12], 6
-	pinsrb	xmm13, byte ptr [rsi + rdi + 12], 7
-	pinsrb	xmm13, byte ptr [rsi + r8 + 12], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 12], 9
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rbx + 12], 10
-	pinsrb	xmm13, byte ptr [rsi + r14 + 12], 11
-	pinsrb	xmm13, byte ptr [rsi + r15 + 12], 12
-	pinsrb	xmm13, byte ptr [rsi + r10 + 12], 13
-	mov	r11, r10
-	pinsrb	xmm13, byte ptr [rsi + r12 + 12], 14
-	pinsrb	xmm13, byte ptr [rsi + rdx + 12], 15
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r10 + 13], 1
-	pinsrb	xmm12, byte ptr [rsi + r13 + 13], 2
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r13 + 13], 3
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rbx + 13], 4
-	pinsrb	xmm12, byte ptr [rsi + rax + 13], 5
-	pinsrb	xmm12, byte ptr [rsi + rcx + 13], 6
-	pinsrb	xmm12, byte ptr [rsi + rdi + 13], 7
-	pinsrb	xmm12, byte ptr [rsi + r8 + 13], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 13], 9
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rbx + 13], 10
-	pinsrb	xmm12, byte ptr [rsi + r14 + 13], 11
-	pinsrb	xmm12, byte ptr [rsi + r15 + 13], 12
-	pinsrb	xmm12, byte ptr [rsi + r11 + 13], 13
-	pinsrb	xmm12, byte ptr [rsi + r12 + 13], 14
-	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 15
-	pcmpeqb	xmm11, xmm9
-	pand	xmm11, xmmword ptr [rip + .LCPI1_12]
-	pcmpeqb	xmm13, xmm9
-	pand	xmm13, xmmword ptr [rip + .LCPI1_13]
-	por	xmm13, xmm11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 25]
-	movd	xmm1, edx
-	pcmpeqb	xmm12, xmm9
-	pand	xmm12, xmmword ptr [rip + .LCPI1_14]
-	por	xmm12, xmm13
-	movzx	edx, byte ptr [rsi + rax + 26]
-	movd	xmm11, edx
-	movdqa	xmm4, xmmword ptr [rsp + 288]   # 16-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 1
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r12 + 14], 2
-	mov	r10, r13
-	pinsrb	xmm4, byte ptr [rsi + r13 + 14], 3
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r11 + 14], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 14], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 6
-	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 7
-	pinsrb	xmm4, byte ptr [rsi + r8 + 14], 8
-	pinsrb	xmm4, byte ptr [rsi + r9 + 14], 9
-	pinsrb	xmm4, byte ptr [rsi + rbx + 14], 10
-	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 11
-	pinsrb	xmm4, byte ptr [rsi + r15 + 14], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 13
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r13 + 14], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 15
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 1
-	pinsrb	xmm14, byte ptr [rsi + r12 + 15], 2
-	pinsrb	xmm14, byte ptr [rsi + r10 + 15], 3
-	pinsrb	xmm14, byte ptr [rsi + r11 + 15], 4
-	pinsrb	xmm14, byte ptr [rsi + rax + 15], 5
-	pinsrb	xmm14, byte ptr [rsi + rcx + 15], 6
-	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 7
-	pinsrb	xmm14, byte ptr [rsi + r8 + 15], 8
-	pinsrb	xmm14, byte ptr [rsi + r9 + 15], 9
-	pinsrb	xmm14, byte ptr [rsi + rbx + 15], 10
-	pinsrb	xmm14, byte ptr [rsi + r14 + 15], 11
-	pinsrb	xmm14, byte ptr [rsi + r15 + 15], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 13
-	pinsrb	xmm14, byte ptr [rsi + r13 + 15], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 15
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 1
-	pinsrb	xmm15, byte ptr [rsi + r12 + 16], 2
-	pinsrb	xmm15, byte ptr [rsi + r10 + 16], 3
-	pinsrb	xmm15, byte ptr [rsi + r11 + 16], 4
-	pinsrb	xmm15, byte ptr [rsi + rax + 16], 5
-	pinsrb	xmm15, byte ptr [rsi + rcx + 16], 6
-	pinsrb	xmm15, byte ptr [rsi + rdi + 16], 7
-	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 8
-	pinsrb	xmm15, byte ptr [rsi + r9 + 16], 9
-	pinsrb	xmm15, byte ptr [rsi + rbx + 16], 10
-	pinsrb	xmm15, byte ptr [rsi + r14 + 16], 11
-	pinsrb	xmm15, byte ptr [rsi + r15 + 16], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 13
-	pinsrb	xmm15, byte ptr [rsi + r13 + 16], 14
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 1
-	pinsrb	xmm0, byte ptr [rsi + r12 + 17], 2
-	pinsrb	xmm0, byte ptr [rsi + r10 + 17], 3
-	pinsrb	xmm0, byte ptr [rsi + r11 + 17], 4
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 5
-	mov	r13, rax
-	pinsrb	xmm0, byte ptr [rsi + rcx + 17], 6
-	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 7
-	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 8
-	pinsrb	xmm0, byte ptr [rsi + r9 + 17], 9
-	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 10
-	pinsrb	xmm0, byte ptr [rsi + r14 + 17], 11
-	pinsrb	xmm0, byte ptr [rsi + r15 + 17], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 13
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 14
-	por	xmm12, xmmword ptr [rsp + 192]  # 16-byte Folded Reload
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + r12 + 27]
-	movd	xmm9, edx
-	movdqa	xmm13, xmmword ptr [rsp + 208]  # 16-byte Reload
-	pcmpeqb	xmm4, xmm13
-	pand	xmm4, xmmword ptr [rip + .LCPI1_15]
-	pcmpeqb	xmm14, xmm13
-	psllw	xmm14, 7
-	pand	xmm14, xmmword ptr [rip + .LCPI1_6]
-	por	xmm14, xmm4
-	movzx	edx, byte ptr [rsi + r12 + 28]
-	movd	xmm4, edx
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 15
-	por	xmm14, xmm12
-	pcmpeqb	xmm0, xmm13
-	movdqa	xmm13, xmm0
-	movdqa	xmm12, xmmword ptr [rip + .LCPI1_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm13, xmm12
-	psubb	xmm13, xmm0
-	movdqa	xmmword ptr [rsp + 192], xmm13  # 16-byte Spill
-	movzx	edx, byte ptr [rsi + r12 + 29]
-	movd	xmm13, edx
-	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 15
-	movdqa	xmm0, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pcmpeqb	xmm15, xmm0
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r12 + 18], 1
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 2
-	pinsrb	xmm5, byte ptr [rsi + r10 + 18], 3
-	pinsrb	xmm5, byte ptr [rsi + r11 + 18], 4
-	pinsrb	xmm5, byte ptr [rsi + r13 + 18], 5
-	pinsrb	xmm5, byte ptr [rsi + rcx + 18], 6
-	pinsrb	xmm5, byte ptr [rsi + rdi + 18], 7
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 8
-	pinsrb	xmm5, byte ptr [rsi + r9 + 18], 9
-	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 10
-	pinsrb	xmm5, byte ptr [rsi + r14 + 18], 11
-	pinsrb	xmm5, byte ptr [rsi + r15 + 18], 12
-	pinsrb	xmm5, byte ptr [rsi + rax + 18], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 18], 14
-	pand	xmm15, xmm12
-	pinsrb	xmm5, byte ptr [rsi + r8 + 18], 15
-	pcmpeqb	xmm5, xmm0
-	pand	xmm5, xmmword ptr [rip + .LCPI1_11]
-	por	xmm5, xmm15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 30]
-	movd	xmm12, edx
-	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 1
-	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 1
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 1
-	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 1
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 1
-	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 1
-	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 1
-	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 1
-	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 1
-	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 1
-	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 1
-	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 1
-	movzx	edx, byte ptr [rsi + rax + 31]
-	movd	xmm0, edx
-	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 1
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 2
-	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 2
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 2
-	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 2
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 2
-	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 2
-	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 2
-	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 2
-	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 2
-	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 2
-	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 2
-	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 2
-	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 2
-	pinsrb	xmm7, byte ptr [rsi + r10 + 19], 3
-	pinsrb	xmm7, byte ptr [rsi + r11 + 19], 4
-	pinsrb	xmm7, byte ptr [rsi + r13 + 19], 5
-	pinsrb	xmm7, byte ptr [rsi + rcx + 19], 6
-	pinsrb	xmm7, byte ptr [rsi + rdi + 19], 7
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 8
-	pinsrb	xmm7, byte ptr [rsi + r9 + 19], 9
-	pinsrb	xmm7, byte ptr [rsi + rbx + 19], 10
-	pinsrb	xmm7, byte ptr [rsi + r14 + 19], 11
-	pinsrb	xmm7, byte ptr [rsi + r15 + 19], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 19], 14
-	pinsrb	xmm7, byte ptr [rsi + r8 + 19], 15
-	pinsrb	xmm6, byte ptr [rsi + r10 + 20], 3
-	pinsrb	xmm6, byte ptr [rsi + r11 + 20], 4
-	pinsrb	xmm6, byte ptr [rsi + r13 + 20], 5
-	pinsrb	xmm6, byte ptr [rsi + rcx + 20], 6
-	pinsrb	xmm6, byte ptr [rsi + rdi + 20], 7
-	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 8
-	pinsrb	xmm6, byte ptr [rsi + r9 + 20], 9
-	pinsrb	xmm6, byte ptr [rsi + rbx + 20], 10
-	pinsrb	xmm6, byte ptr [rsi + r14 + 20], 11
-	pinsrb	xmm6, byte ptr [rsi + r15 + 20], 12
-	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 13
-	pinsrb	xmm6, byte ptr [rsi + rax + 20], 14
-	por	xmm5, xmmword ptr [rsp + 192]   # 16-byte Folded Reload
-	pinsrb	xmm6, byte ptr [rsi + r8 + 20], 15
-	movdqa	xmm15, xmmword ptr [rsp + 208]  # 16-byte Reload
-	pcmpeqb	xmm7, xmm15
-	pand	xmm7, xmmword ptr [rip + .LCPI1_12]
-	pcmpeqb	xmm6, xmm15
-	pand	xmm6, xmmword ptr [rip + .LCPI1_13]
-	por	xmm6, xmm7
-	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 3
-	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 4
-	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 5
-	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 6
-	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 7
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 8
-	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 9
-	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 10
-	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 11
-	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 12
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 13
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 14
-	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 15
-	pcmpeqb	xmm2, xmm15
-	movdqa	xmm7, xmmword ptr [rip + .LCPI1_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm2, xmm7
-	por	xmm2, xmm6
-	por	xmm2, xmm5
-	pinsrb	xmm3, byte ptr [rsi + r10 + 22], 3
-	pinsrb	xmm3, byte ptr [rsi + r11 + 22], 4
-	pinsrb	xmm3, byte ptr [rsi + r13 + 22], 5
-	pinsrb	xmm3, byte ptr [rsi + rcx + 22], 6
-	pinsrb	xmm3, byte ptr [rsi + rdi + 22], 7
-	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 8
-	pinsrb	xmm3, byte ptr [rsi + r9 + 22], 9
-	pinsrb	xmm3, byte ptr [rsi + rbx + 22], 10
-	pinsrb	xmm3, byte ptr [rsi + r14 + 22], 11
-	pinsrb	xmm3, byte ptr [rsi + r15 + 22], 12
-	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 13
-	pinsrb	xmm3, byte ptr [rsi + rax + 22], 14
-	pinsrb	xmm3, byte ptr [rsi + r8 + 22], 15
-	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 3
-	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 4
-	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 5
-	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 6
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 7
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 8
-	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 9
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 11
-	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 12
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 13
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 14
-	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 15
-	pcmpeqb	xmm3, xmm15
-	movdqa	xmm5, xmmword ptr [rip + .LCPI1_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm5
-	pcmpeqb	xmm8, xmm15
-	psllw	xmm8, 7
-	movdqa	xmm6, xmmword ptr [rip + .LCPI1_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm6
-	por	xmm8, xmm3
-	pinsrb	xmm1, byte ptr [rsi + r10 + 25], 3
-	pinsrb	xmm1, byte ptr [rsi + r11 + 25], 4
-	pinsrb	xmm1, byte ptr [rsi + r13 + 25], 5
-	pinsrb	xmm1, byte ptr [rsi + rcx + 25], 6
-	pinsrb	xmm1, byte ptr [rsi + rdi + 25], 7
-	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 8
-	pinsrb	xmm1, byte ptr [rsi + r9 + 25], 9
-	pinsrb	xmm1, byte ptr [rsi + rbx + 25], 10
-	pinsrb	xmm1, byte ptr [rsi + r14 + 25], 11
-	pinsrb	xmm1, byte ptr [rsi + r15 + 25], 12
-	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 13
-	pinsrb	xmm1, byte ptr [rsi + rax + 25], 14
-	pinsrb	xmm1, byte ptr [rsi + r8 + 25], 15
-	por	xmm8, xmm2
-	pcmpeqb	xmm1, xmm15
-	movdqa	xmm2, xmm1
-	movdqa	xmm3, xmmword ptr [rip + .LCPI1_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm2, xmm3
-	psubb	xmm2, xmm1
-	pinsrb	xmm10, byte ptr [rsi + r10 + 24], 3
-	pinsrb	xmm10, byte ptr [rsi + r11 + 24], 4
-	pinsrb	xmm10, byte ptr [rsi + r13 + 24], 5
-	pinsrb	xmm10, byte ptr [rsi + rcx + 24], 6
-	pinsrb	xmm10, byte ptr [rsi + rdi + 24], 7
-	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 8
-	pinsrb	xmm10, byte ptr [rsi + r9 + 24], 9
-	pinsrb	xmm10, byte ptr [rsi + rbx + 24], 10
-	pinsrb	xmm10, byte ptr [rsi + r14 + 24], 11
-	pinsrb	xmm10, byte ptr [rsi + r15 + 24], 12
-	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 13
-	pinsrb	xmm10, byte ptr [rsi + rax + 24], 14
-	pinsrb	xmm10, byte ptr [rsi + r8 + 24], 15
-	pcmpeqb	xmm10, xmm15
-	pand	xmm10, xmm3
-	pinsrb	xmm11, byte ptr [rsi + r10 + 26], 3
-	pinsrb	xmm11, byte ptr [rsi + r11 + 26], 4
-	pinsrb	xmm11, byte ptr [rsi + r13 + 26], 5
-	pinsrb	xmm11, byte ptr [rsi + rcx + 26], 6
-	pinsrb	xmm11, byte ptr [rsi + rdi + 26], 7
-	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 8
-	pinsrb	xmm11, byte ptr [rsi + r9 + 26], 9
-	pinsrb	xmm11, byte ptr [rsi + rbx + 26], 10
-	pinsrb	xmm11, byte ptr [rsi + r14 + 26], 11
-	pinsrb	xmm11, byte ptr [rsi + r15 + 26], 12
-	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 13
-	pinsrb	xmm11, byte ptr [rsi + rax + 26], 14
-	pinsrb	xmm11, byte ptr [rsi + r8 + 26], 15
-	pcmpeqb	xmm11, xmm15
-	pand	xmm11, xmmword ptr [rip + .LCPI1_11]
-	por	xmm11, xmm10
-	por	xmm11, xmm2
-	pinsrb	xmm9, byte ptr [rsi + r10 + 27], 3
-	pinsrb	xmm9, byte ptr [rsi + r11 + 27], 4
-	pinsrb	xmm9, byte ptr [rsi + r13 + 27], 5
-	pinsrb	xmm9, byte ptr [rsi + rcx + 27], 6
-	pinsrb	xmm9, byte ptr [rsi + rdi + 27], 7
-	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 8
-	pinsrb	xmm9, byte ptr [rsi + r9 + 27], 9
-	pinsrb	xmm9, byte ptr [rsi + rbx + 27], 10
-	pinsrb	xmm9, byte ptr [rsi + r14 + 27], 11
-	pinsrb	xmm9, byte ptr [rsi + r15 + 27], 12
-	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 13
-	pinsrb	xmm9, byte ptr [rsi + rax + 27], 14
-	pinsrb	xmm9, byte ptr [rsi + r8 + 27], 15
-	pinsrb	xmm4, byte ptr [rsi + r10 + 28], 3
-	pinsrb	xmm4, byte ptr [rsi + r11 + 28], 4
-	pinsrb	xmm4, byte ptr [rsi + r13 + 28], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 28], 6
-	pinsrb	xmm4, byte ptr [rsi + rdi + 28], 7
-	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 8
-	pinsrb	xmm4, byte ptr [rsi + r9 + 28], 9
-	pinsrb	xmm4, byte ptr [rsi + rbx + 28], 10
-	pinsrb	xmm4, byte ptr [rsi + r14 + 28], 11
-	pinsrb	xmm4, byte ptr [rsi + r15 + 28], 12
-	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 13
-	pinsrb	xmm4, byte ptr [rsi + rax + 28], 14
-	pinsrb	xmm4, byte ptr [rsi + r8 + 28], 15
-	pinsrb	xmm13, byte ptr [rsi + r10 + 29], 3
-	pinsrb	xmm13, byte ptr [rsi + r11 + 29], 4
-	pinsrb	xmm13, byte ptr [rsi + r13 + 29], 5
-	pinsrb	xmm13, byte ptr [rsi + rcx + 29], 6
-	pinsrb	xmm13, byte ptr [rsi + rdi + 29], 7
-	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 29], 9
-	pinsrb	xmm13, byte ptr [rsi + rbx + 29], 10
-	pinsrb	xmm13, byte ptr [rsi + r14 + 29], 11
-	pinsrb	xmm13, byte ptr [rsi + r15 + 29], 12
-	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 13
-	pinsrb	xmm13, byte ptr [rsi + rax + 29], 14
-	movdqa	xmm1, xmm15
-	pcmpeqb	xmm9, xmm15
-	pand	xmm9, xmmword ptr [rip + .LCPI1_12]
-	pcmpeqb	xmm4, xmm15
-	pand	xmm4, xmmword ptr [rip + .LCPI1_13]
-	por	xmm4, xmm9
-	pinsrb	xmm13, byte ptr [rsi + r8 + 29], 15
-	pcmpeqb	xmm13, xmm15
-	pand	xmm13, xmm7
-	por	xmm13, xmm4
-	pinsrb	xmm12, byte ptr [rsi + r10 + 30], 3
-	pinsrb	xmm0, byte ptr [rsi + r10 + 31], 3
-	pinsrb	xmm12, byte ptr [rsi + r11 + 30], 4
-	pinsrb	xmm0, byte ptr [rsi + r11 + 31], 4
-	pinsrb	xmm12, byte ptr [rsi + r13 + 30], 5
-	pinsrb	xmm0, byte ptr [rsi + r13 + 31], 5
-	pinsrb	xmm12, byte ptr [rsi + rcx + 30], 6
-	pinsrb	xmm0, byte ptr [rsi + rcx + 31], 6
-	pinsrb	xmm12, byte ptr [rsi + rdi + 30], 7
-	pinsrb	xmm0, byte ptr [rsi + rdi + 31], 7
-	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 8
-	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 30], 9
-	pinsrb	xmm0, byte ptr [rsi + r9 + 31], 9
-	pinsrb	xmm12, byte ptr [rsi + rbx + 30], 10
-	pinsrb	xmm0, byte ptr [rsi + rbx + 31], 10
-	pinsrb	xmm12, byte ptr [rsi + r14 + 30], 11
-	pinsrb	xmm0, byte ptr [rsi + r14 + 31], 11
-	pinsrb	xmm12, byte ptr [rsi + r15 + 30], 12
-	pinsrb	xmm0, byte ptr [rsi + r15 + 31], 12
-	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 13
-	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 13
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rax + 30], 14
-	pinsrb	xmm0, byte ptr [rsi + rax + 31], 14
-	pinsrb	xmm12, byte ptr [rsi + r8 + 30], 15
-	pinsrb	xmm0, byte ptr [rsi + r8 + 31], 15
-	por	xmm13, xmm11
-	pcmpeqb	xmm12, xmm15
-	pand	xmm12, xmm5
-	pcmpeqb	xmm0, xmm15
-	psllw	xmm0, 7
-	pand	xmm0, xmm6
-	por	xmm0, xmm12
-	por	xmm0, xmm13
-	movdqa	xmm1, xmm8
-	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	movdqa	xmm4, xmmword ptr [rsp + 224]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
-	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
-	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
-	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 248]      # 8-byte Folded Reload
-	jne	.LBB1_87
-# %bb.88:
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 248]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	jne	.LBB1_89
-	jmp	.LBB1_92
-.LBB1_66:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r15      # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_67:                               # =>This Inner Loop Header: Depth=1
-	mov	r15, rax
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	shl	r15, 5
-	mov	rdi, r15
-	mov	rcx, r15
-	mov	r10, r15
-	mov	r8, r15
-	mov	r12, r15
-	mov	r9, r15
-	mov	r11, r15
-	mov	rbx, r15
-	mov	r14, r15
-	mov	rax, r15
-	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
-	movzx	edx, byte ptr [rsi + r15]
-	movd	xmm15, edx
-	movzx	edx, byte ptr [rsi + r15 + 1]
-	movd	xmm5, edx
-	movzx	edx, byte ptr [rsi + r15 + 2]
-	movd	xmm6, edx
-	movzx	edx, byte ptr [rsi + r15 + 3]
-	movd	xmm2, edx
-	movzx	edx, byte ptr [rsi + r15 + 4]
-	movd	xmm1, edx
-	movzx	edx, byte ptr [rsi + r15 + 5]
-	movd	xmm8, edx
-	movzx	edx, byte ptr [rsi + r15 + 6]
-	movd	xmm3, edx
-	movzx	edx, byte ptr [rsi + r15 + 7]
-	movd	xmm0, edx
-	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
-	movzx	edx, byte ptr [rsi + r15 + 8]
-	movd	xmm0, edx
-	movdqa	xmmword ptr [rsp + 288], xmm0   # 16-byte Spill
-	movzx	edx, byte ptr [rsi + r15 + 9]
-	movd	xmm10, edx
-	movzx	edx, byte ptr [rsi + r15 + 10]
-	movd	xmm0, edx
-	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
-	movzx	edx, byte ptr [rsi + r15 + 11]
-	movd	xmm11, edx
-	movzx	edx, byte ptr [rsi + r15 + 12]
-	movd	xmm13, edx
-	movzx	edx, byte ptr [rsi + r15 + 13]
-	movd	xmm12, edx
-	movzx	edx, byte ptr [rsi + r15 + 14]
-	movd	xmm0, edx
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	r13, r15
-	or	r13, 32
-	mov	qword ptr [rsp + 24], r13       # 8-byte Spill
-	or	rdi, 64
-	or	rcx, 96
-	mov	qword ptr [rsp + 128], rcx      # 8-byte Spill
-	or	r10, 128
-	or	r8, 160
-	or	r12, 192
-	or	r9, 224
-	or	r11, 256
-	or	rbx, 288
-	or	r14, 320
-	or	rax, 352
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	or	rdx, 384
-	mov	qword ptr [rsp + 112], rdx      # 8-byte Spill
-	mov	rax, r15
-	or	rax, 416
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rax, r15
-	or	rax, 448
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, r15
-	or	rax, 480
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r13], 1
-	pinsrb	xmm15, byte ptr [rsi + rdi], 2
-	pinsrb	xmm15, byte ptr [rsi + rcx], 3
-	pinsrb	xmm15, byte ptr [rsi + r10], 4
-	mov	r15, r8
-	mov	qword ptr [rsp + 120], r8       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r8], 5
-	mov	qword ptr [rsp + 104], r12      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r12], 6
-	mov	r8, r9
-	pinsrb	xmm15, byte ptr [rsi + r9], 7
-	mov	r9, r11
-	mov	qword ptr [rsp + 16], r11       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r11], 8
-	mov	qword ptr [rsp + 64], rbx       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + rbx], 9
-	mov	qword ptr [rsp + 96], r14       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r14], 10
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r13], 11
-	pinsrb	xmm15, byte ptr [rsi + rdx], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rcx], 13
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rcx], 14
-	pinsrb	xmm15, byte ptr [rsi + rax], 15
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r11 + 1], 1
-	pinsrb	xmm5, byte ptr [rsi + rdi + 1], 2
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r11 + 1], 3
-	pinsrb	xmm5, byte ptr [rsi + r10 + 1], 4
-	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + r15 + 1], 5
-	pinsrb	xmm5, byte ptr [rsi + r12 + 1], 6
-	pinsrb	xmm5, byte ptr [rsi + r8 + 1], 7
-	mov	r15, r8
-	pinsrb	xmm5, byte ptr [rsi + r9 + 1], 8
-	pinsrb	xmm5, byte ptr [rsi + rbx + 1], 9
-	pinsrb	xmm5, byte ptr [rsi + r14 + 1], 10
-	pinsrb	xmm5, byte ptr [rsi + r13 + 1], 11
-	mov	r8, r13
-	pinsrb	xmm5, byte ptr [rsi + rdx + 1], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 1], 13
-	pinsrb	xmm5, byte ptr [rsi + rcx + 1], 14
-	pinsrb	xmm5, byte ptr [rsi + rax + 1], 15
-	movdqa	xmm9, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm5, xmm9
-	movdqa	xmm7, xmm5
-	movdqa	xmm4, xmmword ptr [rip + .LCPI1_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm7, xmm4
-	psubb	xmm7, xmm5
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 15]
-	movd	xmm14, edx
-	pcmpeqb	xmm15, xmm9
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 1
-	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 2
-	mov	r12, r11
-	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 3
-	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 4
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 2], 5
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 6
-	mov	qword ptr [rsp + 192], r15      # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 7
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r13 + 2], 8
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 9
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 10
-	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 11
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 12
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 15
-	pand	xmm15, xmm4
-	pcmpeqb	xmm6, xmm9
-	movdqa	xmm0, xmmword ptr [rip + .LCPI1_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm6, xmm0
-	por	xmm6, xmm15
-	movzx	edx, byte ptr [rsi + rax + 16]
-	movd	xmm15, edx
-	pinsrb	xmm2, byte ptr [rsi + rbx + 3], 1
-	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 2
-	mov	rax, r12
-	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 3
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 4
-	pinsrb	xmm2, byte ptr [rsi + rcx + 3], 5
-	pinsrb	xmm2, byte ptr [rsi + r11 + 3], 6
-	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 7
-	pinsrb	xmm2, byte ptr [rsi + r13 + 3], 8
-	pinsrb	xmm2, byte ptr [rsi + r14 + 3], 9
-	pinsrb	xmm2, byte ptr [rsi + r9 + 3], 10
-	mov	r14, r9
-	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 11
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 12
-	pinsrb	xmm2, byte ptr [rsi + r10 + 3], 13
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r13 + 3], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdx + 3], 15
-	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 1
-	pinsrb	xmm1, byte ptr [rsi + rdi + 4], 2
-	pinsrb	xmm1, byte ptr [rsi + rax + 4], 3
-	pinsrb	xmm1, byte ptr [rsi + r12 + 4], 4
-	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 5
-	mov	rcx, r11
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 6
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 7
-	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r9 + 4], 8
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 9
-	pinsrb	xmm1, byte ptr [rsi + r14 + 4], 10
-	mov	r12, r14
-	pinsrb	xmm1, byte ptr [rsi + r8 + 4], 11
-	mov	r14, r8
-	pinsrb	xmm1, byte ptr [rsi + r15 + 4], 12
-	pinsrb	xmm1, byte ptr [rsi + r10 + 4], 13
-	pinsrb	xmm1, byte ptr [rsi + r13 + 4], 14
-	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 15
-	mov	r10, rdx
-	por	xmm6, xmm7
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rbx + 17]
-	movd	xmm0, edx
-	pcmpeqb	xmm2, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI1_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm2, xmm5
-	pcmpeqb	xmm1, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI1_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm1, xmm5
-	por	xmm1, xmm2
-	movzx	edx, byte ptr [rsi + rbx + 18]
-	movd	xmm5, edx
-	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r8 + 5], 1
-	pinsrb	xmm8, byte ptr [rsi + rdi + 5], 2
-	pinsrb	xmm8, byte ptr [rsi + rax + 5], 3
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 4
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 5
-	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 6
-	pinsrb	xmm8, byte ptr [rsi + r11 + 5], 7
-	pinsrb	xmm8, byte ptr [rsi + r9 + 5], 8
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 9
-	pinsrb	xmm8, byte ptr [rsi + r12 + 5], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 5], 11
-	pinsrb	xmm8, byte ptr [rsi + r15 + 5], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 13
-	pinsrb	xmm8, byte ptr [rsi + r13 + 5], 14
-	pinsrb	xmm8, byte ptr [rsi + r10 + 5], 15
-	pcmpeqb	xmm8, xmm9
-	movdqa	xmm2, xmmword ptr [rip + .LCPI1_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm8, xmm2
-	por	xmm8, xmm1
-	movzx	edx, byte ptr [rsi + rbx + 19]
-	movd	xmm7, edx
-	por	xmm8, xmm6
-	movzx	edx, byte ptr [rsi + rbx + 20]
-	movd	xmm6, edx
-	mov	rdx, r8
-	pinsrb	xmm3, byte ptr [rsi + r8 + 6], 1
-	pinsrb	xmm3, byte ptr [rsi + rdi + 6], 2
-	pinsrb	xmm3, byte ptr [rsi + rax + 6], 3
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r11 + 6], 4
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r9 + 6], 5
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r8 + 6], 6
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r12 + 6], 7
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 6], 8
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rbx + 6], 9
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r14 + 6], 10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 6], 11
-	pinsrb	xmm3, byte ptr [rsi + r15 + 6], 12
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r10 + 6], 13
-	pinsrb	xmm3, byte ptr [rsi + r13 + 6], 14
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 6], 15
-	movdqa	xmm2, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdx + 7], 1
-	pinsrb	xmm2, byte ptr [rsi + rdi + 7], 2
-	mov	qword ptr [rsp + 224], rdi      # 8-byte Spill
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 7], 3
-	pinsrb	xmm2, byte ptr [rsi + r11 + 7], 4
-	pinsrb	xmm2, byte ptr [rsi + r9 + 7], 5
-	pinsrb	xmm2, byte ptr [rsi + r8 + 7], 6
-	pinsrb	xmm2, byte ptr [rsi + r12 + 7], 7
-	mov	r11, r12
-	pinsrb	xmm2, byte ptr [rsi + rax + 7], 8
-	pinsrb	xmm2, byte ptr [rsi + rbx + 7], 9
-	pinsrb	xmm2, byte ptr [rsi + r14 + 7], 10
-	mov	r12, r14
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 7], 11
-	pinsrb	xmm2, byte ptr [rsi + r15 + 7], 12
-	pinsrb	xmm2, byte ptr [rsi + r10 + 7], 13
-	pinsrb	xmm2, byte ptr [rsi + r13 + 7], 14
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r14 + 7], 15
-	pcmpeqb	xmm3, xmm9
-	movdqa	xmm1, xmmword ptr [rip + .LCPI1_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm1
-	pcmpeqb	xmm2, xmm9
-	psllw	xmm2, 7
-	movdqa	xmm1, xmmword ptr [rip + .LCPI1_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm2, xmm1
-	por	xmm2, xmm3
-	movdqa	xmm1, xmm2
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rbx + 21]
-	movd	xmm2, edx
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 1
-	pinsrb	xmm10, byte ptr [rsi + rdi + 9], 2
-	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 3
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdi + 9], 4
-	pinsrb	xmm10, byte ptr [rsi + r9 + 9], 5
-	pinsrb	xmm10, byte ptr [rsi + r8 + 9], 6
-	pinsrb	xmm10, byte ptr [rsi + r11 + 9], 7
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 8
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 9
-	pinsrb	xmm10, byte ptr [rsi + r12 + 9], 10
-	pinsrb	xmm10, byte ptr [rsi + rax + 9], 11
-	pinsrb	xmm10, byte ptr [rsi + r15 + 9], 12
-	pinsrb	xmm10, byte ptr [rsi + r10 + 9], 13
-	pinsrb	xmm10, byte ptr [rsi + r13 + 9], 14
-	pinsrb	xmm10, byte ptr [rsi + r14 + 9], 15
-	por	xmm1, xmm8
-	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
-	pcmpeqb	xmm10, xmm9
-	movdqa	xmm1, xmm10
-	movdqa	xmm8, xmm4
-	pand	xmm1, xmm4
-	psubb	xmm1, xmm10
-	movzx	edx, byte ptr [rsi + rbx + 22]
-	movd	xmm3, edx
-	movdqa	xmm4, xmmword ptr [rsp + 288]   # 16-byte Reload
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r10 + 8], 1
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r12 + 8], 2
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 8], 3
-	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 4
-	pinsrb	xmm4, byte ptr [rsi + r9 + 8], 5
-	pinsrb	xmm4, byte ptr [rsi + r8 + 8], 6
-	mov	rbx, r11
-	pinsrb	xmm4, byte ptr [rsi + r11 + 8], 7
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 8], 8
-	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 9
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 10
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 11
-	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 12
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 13
-	pinsrb	xmm4, byte ptr [rsi + r13 + 8], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 15
-	pcmpeqb	xmm4, xmm9
-	pand	xmm4, xmm8
-	movdqa	xmm10, xmmword ptr [rsp + 160]  # 16-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r10 + 10], 1
-	pinsrb	xmm10, byte ptr [rsi + r12 + 10], 2
-	pinsrb	xmm10, byte ptr [rsi + rax + 10], 3
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r11 + 10], 4
-	pinsrb	xmm10, byte ptr [rsi + r9 + 10], 5
-	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 6
-	pinsrb	xmm10, byte ptr [rsi + rbx + 10], 7
-	mov	r10, rbx
-	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 8
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 9
-	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 10
-	pinsrb	xmm10, byte ptr [rsi + r14 + 10], 11
-	mov	r13, r14
-	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 12
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 14
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 15
-	pcmpeqb	xmm10, xmm9
-	pand	xmm10, xmmword ptr [rip + .LCPI1_11]
-	por	xmm10, xmm4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdi + 23]
-	movd	xmm8, edx
-	por	xmm10, xmm1
-	movdqa	xmmword ptr [rsp + 160], xmm10  # 16-byte Spill
-	movzx	edx, byte ptr [rsi + rdi + 24]
-	movd	xmm10, edx
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 1
-	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 2
-	pinsrb	xmm11, byte ptr [rsi + rax + 11], 3
-	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 4
-	pinsrb	xmm11, byte ptr [rsi + r9 + 11], 5
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 6
-	mov	r14, r10
-	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 7
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 8
-	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 9
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r9 + 11], 10
-	pinsrb	xmm11, byte ptr [rsi + r13 + 11], 11
-	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 12
-	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 13
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 15
-	pinsrb	xmm13, byte ptr [rsi + rdx + 12], 1
-	pinsrb	xmm13, byte ptr [rsi + r12 + 12], 2
-	pinsrb	xmm13, byte ptr [rsi + rax + 12], 3
-	pinsrb	xmm13, byte ptr [rsi + r11 + 12], 4
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 5
-	pinsrb	xmm13, byte ptr [rsi + rbx + 12], 6
-	pinsrb	xmm13, byte ptr [rsi + r14 + 12], 7
-	pinsrb	xmm13, byte ptr [rsi + r10 + 12], 8
-	pinsrb	xmm13, byte ptr [rsi + r8 + 12], 9
-	mov	rbx, r8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 12], 10
-	mov	r8, r9
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 11
-	pinsrb	xmm13, byte ptr [rsi + r15 + 12], 12
-	pinsrb	xmm13, byte ptr [rsi + rcx + 12], 13
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r9 + 12], 14
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rdi + 12], 15
-	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 1
-	pinsrb	xmm12, byte ptr [rsi + r12 + 13], 2
-	pinsrb	xmm12, byte ptr [rsi + rax + 13], 3
-	pinsrb	xmm12, byte ptr [rsi + r11 + 13], 4
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rax + 13], 5
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 6
-	pinsrb	xmm12, byte ptr [rsi + r14 + 13], 7
-	pinsrb	xmm12, byte ptr [rsi + r10 + 13], 8
-	pinsrb	xmm12, byte ptr [rsi + rbx + 13], 9
-	pinsrb	xmm12, byte ptr [rsi + r8 + 13], 10
-	pinsrb	xmm12, byte ptr [rsi + r13 + 13], 11
-	pinsrb	xmm12, byte ptr [rsi + r15 + 13], 12
-	pinsrb	xmm12, byte ptr [rsi + rcx + 13], 13
-	mov	r13, r9
-	pinsrb	xmm12, byte ptr [rsi + r9 + 13], 14
-	pinsrb	xmm12, byte ptr [rsi + rdi + 13], 15
-	pcmpeqb	xmm11, xmm9
-	pand	xmm11, xmmword ptr [rip + .LCPI1_12]
-	pcmpeqb	xmm13, xmm9
-	pand	xmm13, xmmword ptr [rip + .LCPI1_13]
-	por	xmm13, xmm11
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 25]
-	movd	xmm1, edx
-	pcmpeqb	xmm12, xmm9
-	pand	xmm12, xmmword ptr [rip + .LCPI1_14]
-	por	xmm12, xmm13
-	movzx	edx, byte ptr [rsi + rcx + 26]
-	movd	xmm11, edx
-	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 1
-	pinsrb	xmm4, byte ptr [rsi + r12 + 14], 2
-	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 3
-	pinsrb	xmm4, byte ptr [rsi + r11 + 14], 4
-	pinsrb	xmm4, byte ptr [rsi + rax + 14], 5
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 6
-	mov	rdi, r14
-	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 7
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r8 + 14], 8
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r9 + 14], 9
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rbx + 14], 10
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 11
-	pinsrb	xmm4, byte ptr [rsi + r15 + 14], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 13
-	pinsrb	xmm4, byte ptr [rsi + r13 + 14], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 15
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 1
-	pinsrb	xmm14, byte ptr [rsi + r12 + 15], 2
-	pinsrb	xmm14, byte ptr [rsi + r10 + 15], 3
-	pinsrb	xmm14, byte ptr [rsi + r11 + 15], 4
-	pinsrb	xmm14, byte ptr [rsi + rax + 15], 5
-	pinsrb	xmm14, byte ptr [rsi + rcx + 15], 6
-	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 7
-	pinsrb	xmm14, byte ptr [rsi + r8 + 15], 8
-	pinsrb	xmm14, byte ptr [rsi + r9 + 15], 9
-	pinsrb	xmm14, byte ptr [rsi + rbx + 15], 10
-	pinsrb	xmm14, byte ptr [rsi + r14 + 15], 11
-	pinsrb	xmm14, byte ptr [rsi + r15 + 15], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 13
-	pinsrb	xmm14, byte ptr [rsi + r13 + 15], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 15
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 1
-	pinsrb	xmm15, byte ptr [rsi + r12 + 16], 2
-	pinsrb	xmm15, byte ptr [rsi + r10 + 16], 3
-	pinsrb	xmm15, byte ptr [rsi + r11 + 16], 4
-	pinsrb	xmm15, byte ptr [rsi + rax + 16], 5
-	pinsrb	xmm15, byte ptr [rsi + rcx + 16], 6
-	pinsrb	xmm15, byte ptr [rsi + rdi + 16], 7
-	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 8
-	pinsrb	xmm15, byte ptr [rsi + r9 + 16], 9
-	pinsrb	xmm15, byte ptr [rsi + rbx + 16], 10
-	pinsrb	xmm15, byte ptr [rsi + r14 + 16], 11
-	pinsrb	xmm15, byte ptr [rsi + r15 + 16], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 13
-	pinsrb	xmm15, byte ptr [rsi + r13 + 16], 14
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 1
-	pinsrb	xmm0, byte ptr [rsi + r12 + 17], 2
-	pinsrb	xmm0, byte ptr [rsi + r10 + 17], 3
-	pinsrb	xmm0, byte ptr [rsi + r11 + 17], 4
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 5
-	mov	r13, rax
-	pinsrb	xmm0, byte ptr [rsi + rcx + 17], 6
-	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 7
-	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 8
-	pinsrb	xmm0, byte ptr [rsi + r9 + 17], 9
-	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 10
-	pinsrb	xmm0, byte ptr [rsi + r14 + 17], 11
-	pinsrb	xmm0, byte ptr [rsi + r15 + 17], 12
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 13
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 14
-	por	xmm12, xmmword ptr [rsp + 160]  # 16-byte Folded Reload
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + r12 + 27]
-	movd	xmm9, edx
-	movdqa	xmm13, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm4, xmm13
-	pand	xmm4, xmmword ptr [rip + .LCPI1_15]
-	pcmpeqb	xmm14, xmm13
-	psllw	xmm14, 7
-	pand	xmm14, xmmword ptr [rip + .LCPI1_6]
-	por	xmm14, xmm4
-	movzx	edx, byte ptr [rsi + r12 + 28]
-	movd	xmm4, edx
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 15
-	por	xmm14, xmm12
-	pcmpeqb	xmm0, xmm13
-	movdqa	xmm13, xmm0
-	movdqa	xmm12, xmmword ptr [rip + .LCPI1_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm13, xmm12
-	psubb	xmm13, xmm0
-	movdqa	xmmword ptr [rsp + 160], xmm13  # 16-byte Spill
-	movzx	edx, byte ptr [rsi + r12 + 29]
-	movd	xmm13, edx
-	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 15
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm15, xmm0
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r12 + 18], 1
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 2
-	pinsrb	xmm5, byte ptr [rsi + r10 + 18], 3
-	pinsrb	xmm5, byte ptr [rsi + r11 + 18], 4
-	pinsrb	xmm5, byte ptr [rsi + r13 + 18], 5
-	pinsrb	xmm5, byte ptr [rsi + rcx + 18], 6
-	pinsrb	xmm5, byte ptr [rsi + rdi + 18], 7
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 8
-	pinsrb	xmm5, byte ptr [rsi + r9 + 18], 9
-	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 10
-	pinsrb	xmm5, byte ptr [rsi + r14 + 18], 11
-	pinsrb	xmm5, byte ptr [rsi + r15 + 18], 12
-	pinsrb	xmm5, byte ptr [rsi + rax + 18], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 18], 14
-	pand	xmm15, xmm12
-	pinsrb	xmm5, byte ptr [rsi + r8 + 18], 15
-	pcmpeqb	xmm5, xmm0
-	pand	xmm5, xmmword ptr [rip + .LCPI1_11]
-	por	xmm5, xmm15
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 30]
-	movd	xmm12, edx
-	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 1
-	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 1
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 1
-	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 1
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 1
-	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 1
-	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 1
-	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 1
-	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 1
-	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 1
-	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 1
-	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 1
-	movzx	edx, byte ptr [rsi + rax + 31]
-	movd	xmm0, edx
-	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 1
-	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 2
-	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 2
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 2
-	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 2
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 2
-	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 2
-	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 2
-	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 2
-	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 2
-	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 2
-	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 2
-	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 2
-	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 2
-	pinsrb	xmm7, byte ptr [rsi + r10 + 19], 3
-	pinsrb	xmm7, byte ptr [rsi + r11 + 19], 4
-	pinsrb	xmm7, byte ptr [rsi + r13 + 19], 5
-	pinsrb	xmm7, byte ptr [rsi + rcx + 19], 6
-	pinsrb	xmm7, byte ptr [rsi + rdi + 19], 7
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 8
-	pinsrb	xmm7, byte ptr [rsi + r9 + 19], 9
-	pinsrb	xmm7, byte ptr [rsi + rbx + 19], 10
-	pinsrb	xmm7, byte ptr [rsi + r14 + 19], 11
-	pinsrb	xmm7, byte ptr [rsi + r15 + 19], 12
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 13
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 19], 14
-	pinsrb	xmm7, byte ptr [rsi + r8 + 19], 15
-	pinsrb	xmm6, byte ptr [rsi + r10 + 20], 3
-	pinsrb	xmm6, byte ptr [rsi + r11 + 20], 4
-	pinsrb	xmm6, byte ptr [rsi + r13 + 20], 5
-	pinsrb	xmm6, byte ptr [rsi + rcx + 20], 6
-	pinsrb	xmm6, byte ptr [rsi + rdi + 20], 7
-	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 8
-	pinsrb	xmm6, byte ptr [rsi + r9 + 20], 9
-	pinsrb	xmm6, byte ptr [rsi + rbx + 20], 10
-	pinsrb	xmm6, byte ptr [rsi + r14 + 20], 11
-	pinsrb	xmm6, byte ptr [rsi + r15 + 20], 12
-	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 13
-	pinsrb	xmm6, byte ptr [rsi + rax + 20], 14
-	por	xmm5, xmmword ptr [rsp + 160]   # 16-byte Folded Reload
-	pinsrb	xmm6, byte ptr [rsi + r8 + 20], 15
-	movdqa	xmm15, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm7, xmm15
-	pand	xmm7, xmmword ptr [rip + .LCPI1_12]
-	pcmpeqb	xmm6, xmm15
-	pand	xmm6, xmmword ptr [rip + .LCPI1_13]
-	por	xmm6, xmm7
-	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 3
-	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 4
-	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 5
-	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 6
-	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 7
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 8
-	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 9
-	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 10
-	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 11
-	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 12
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 13
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 14
-	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 15
-	pcmpeqb	xmm2, xmm15
-	movdqa	xmm7, xmmword ptr [rip + .LCPI1_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm2, xmm7
-	por	xmm2, xmm6
-	por	xmm2, xmm5
-	pinsrb	xmm3, byte ptr [rsi + r10 + 22], 3
-	pinsrb	xmm3, byte ptr [rsi + r11 + 22], 4
-	pinsrb	xmm3, byte ptr [rsi + r13 + 22], 5
-	pinsrb	xmm3, byte ptr [rsi + rcx + 22], 6
-	pinsrb	xmm3, byte ptr [rsi + rdi + 22], 7
-	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 8
-	pinsrb	xmm3, byte ptr [rsi + r9 + 22], 9
-	pinsrb	xmm3, byte ptr [rsi + rbx + 22], 10
-	pinsrb	xmm3, byte ptr [rsi + r14 + 22], 11
-	pinsrb	xmm3, byte ptr [rsi + r15 + 22], 12
-	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 13
-	pinsrb	xmm3, byte ptr [rsi + rax + 22], 14
-	pinsrb	xmm3, byte ptr [rsi + r8 + 22], 15
-	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 3
-	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 4
-	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 5
-	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 6
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 7
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 8
-	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 9
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 11
-	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 12
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 13
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 14
-	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 15
-	pcmpeqb	xmm3, xmm15
-	movdqa	xmm5, xmmword ptr [rip + .LCPI1_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm5
-	pcmpeqb	xmm8, xmm15
-	psllw	xmm8, 7
-	movdqa	xmm6, xmmword ptr [rip + .LCPI1_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm6
-	por	xmm8, xmm3
-	pinsrb	xmm1, byte ptr [rsi + r10 + 25], 3
-	pinsrb	xmm1, byte ptr [rsi + r11 + 25], 4
-	pinsrb	xmm1, byte ptr [rsi + r13 + 25], 5
-	pinsrb	xmm1, byte ptr [rsi + rcx + 25], 6
-	pinsrb	xmm1, byte ptr [rsi + rdi + 25], 7
-	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 8
-	pinsrb	xmm1, byte ptr [rsi + r9 + 25], 9
-	pinsrb	xmm1, byte ptr [rsi + rbx + 25], 10
-	pinsrb	xmm1, byte ptr [rsi + r14 + 25], 11
-	pinsrb	xmm1, byte ptr [rsi + r15 + 25], 12
-	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 13
-	pinsrb	xmm1, byte ptr [rsi + rax + 25], 14
-	pinsrb	xmm1, byte ptr [rsi + r8 + 25], 15
-	por	xmm8, xmm2
-	pcmpeqb	xmm1, xmm15
-	movdqa	xmm2, xmm1
-	movdqa	xmm3, xmmword ptr [rip + .LCPI1_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm2, xmm3
-	psubb	xmm2, xmm1
-	pinsrb	xmm10, byte ptr [rsi + r10 + 24], 3
-	pinsrb	xmm10, byte ptr [rsi + r11 + 24], 4
-	pinsrb	xmm10, byte ptr [rsi + r13 + 24], 5
-	pinsrb	xmm10, byte ptr [rsi + rcx + 24], 6
-	pinsrb	xmm10, byte ptr [rsi + rdi + 24], 7
-	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 8
-	pinsrb	xmm10, byte ptr [rsi + r9 + 24], 9
-	pinsrb	xmm10, byte ptr [rsi + rbx + 24], 10
-	pinsrb	xmm10, byte ptr [rsi + r14 + 24], 11
-	pinsrb	xmm10, byte ptr [rsi + r15 + 24], 12
-	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 13
-	pinsrb	xmm10, byte ptr [rsi + rax + 24], 14
-	pinsrb	xmm10, byte ptr [rsi + r8 + 24], 15
-	pcmpeqb	xmm10, xmm15
-	pand	xmm10, xmm3
-	pinsrb	xmm11, byte ptr [rsi + r10 + 26], 3
-	pinsrb	xmm11, byte ptr [rsi + r11 + 26], 4
-	pinsrb	xmm11, byte ptr [rsi + r13 + 26], 5
-	pinsrb	xmm11, byte ptr [rsi + rcx + 26], 6
-	pinsrb	xmm11, byte ptr [rsi + rdi + 26], 7
-	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 8
-	pinsrb	xmm11, byte ptr [rsi + r9 + 26], 9
-	pinsrb	xmm11, byte ptr [rsi + rbx + 26], 10
-	pinsrb	xmm11, byte ptr [rsi + r14 + 26], 11
-	pinsrb	xmm11, byte ptr [rsi + r15 + 26], 12
-	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 13
-	pinsrb	xmm11, byte ptr [rsi + rax + 26], 14
-	pinsrb	xmm11, byte ptr [rsi + r8 + 26], 15
-	pcmpeqb	xmm11, xmm15
-	pand	xmm11, xmmword ptr [rip + .LCPI1_11]
-	por	xmm11, xmm10
-	por	xmm11, xmm2
-	pinsrb	xmm9, byte ptr [rsi + r10 + 27], 3
-	pinsrb	xmm9, byte ptr [rsi + r11 + 27], 4
-	pinsrb	xmm9, byte ptr [rsi + r13 + 27], 5
-	pinsrb	xmm9, byte ptr [rsi + rcx + 27], 6
-	pinsrb	xmm9, byte ptr [rsi + rdi + 27], 7
-	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 8
-	pinsrb	xmm9, byte ptr [rsi + r9 + 27], 9
-	pinsrb	xmm9, byte ptr [rsi + rbx + 27], 10
-	pinsrb	xmm9, byte ptr [rsi + r14 + 27], 11
-	pinsrb	xmm9, byte ptr [rsi + r15 + 27], 12
-	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 13
-	pinsrb	xmm9, byte ptr [rsi + rax + 27], 14
-	pinsrb	xmm9, byte ptr [rsi + r8 + 27], 15
-	pinsrb	xmm4, byte ptr [rsi + r10 + 28], 3
-	pinsrb	xmm4, byte ptr [rsi + r11 + 28], 4
-	pinsrb	xmm4, byte ptr [rsi + r13 + 28], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 28], 6
-	pinsrb	xmm4, byte ptr [rsi + rdi + 28], 7
-	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 8
-	pinsrb	xmm4, byte ptr [rsi + r9 + 28], 9
-	pinsrb	xmm4, byte ptr [rsi + rbx + 28], 10
-	pinsrb	xmm4, byte ptr [rsi + r14 + 28], 11
-	pinsrb	xmm4, byte ptr [rsi + r15 + 28], 12
-	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 13
-	pinsrb	xmm4, byte ptr [rsi + rax + 28], 14
-	pinsrb	xmm4, byte ptr [rsi + r8 + 28], 15
-	pinsrb	xmm13, byte ptr [rsi + r10 + 29], 3
-	pinsrb	xmm13, byte ptr [rsi + r11 + 29], 4
-	pinsrb	xmm13, byte ptr [rsi + r13 + 29], 5
-	pinsrb	xmm13, byte ptr [rsi + rcx + 29], 6
-	pinsrb	xmm13, byte ptr [rsi + rdi + 29], 7
-	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 29], 9
-	pinsrb	xmm13, byte ptr [rsi + rbx + 29], 10
-	pinsrb	xmm13, byte ptr [rsi + r14 + 29], 11
-	pinsrb	xmm13, byte ptr [rsi + r15 + 29], 12
-	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 13
-	pinsrb	xmm13, byte ptr [rsi + rax + 29], 14
-	movdqa	xmm1, xmm15
-	pcmpeqb	xmm9, xmm15
-	pand	xmm9, xmmword ptr [rip + .LCPI1_12]
-	pcmpeqb	xmm4, xmm15
-	pand	xmm4, xmmword ptr [rip + .LCPI1_13]
-	por	xmm4, xmm9
-	pinsrb	xmm13, byte ptr [rsi + r8 + 29], 15
-	pcmpeqb	xmm13, xmm15
-	pand	xmm13, xmm7
-	por	xmm13, xmm4
-	pinsrb	xmm12, byte ptr [rsi + r10 + 30], 3
-	pinsrb	xmm0, byte ptr [rsi + r10 + 31], 3
-	pinsrb	xmm12, byte ptr [rsi + r11 + 30], 4
-	pinsrb	xmm0, byte ptr [rsi + r11 + 31], 4
-	pinsrb	xmm12, byte ptr [rsi + r13 + 30], 5
-	pinsrb	xmm0, byte ptr [rsi + r13 + 31], 5
-	pinsrb	xmm12, byte ptr [rsi + rcx + 30], 6
-	pinsrb	xmm0, byte ptr [rsi + rcx + 31], 6
-	pinsrb	xmm12, byte ptr [rsi + rdi + 30], 7
-	pinsrb	xmm0, byte ptr [rsi + rdi + 31], 7
-	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 8
-	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 30], 9
-	pinsrb	xmm0, byte ptr [rsi + r9 + 31], 9
-	pinsrb	xmm12, byte ptr [rsi + rbx + 30], 10
-	pinsrb	xmm0, byte ptr [rsi + rbx + 31], 10
-	pinsrb	xmm12, byte ptr [rsi + r14 + 30], 11
-	pinsrb	xmm0, byte ptr [rsi + r14 + 31], 11
-	pinsrb	xmm12, byte ptr [rsi + r15 + 30], 12
-	pinsrb	xmm0, byte ptr [rsi + r15 + 31], 12
-	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 13
-	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 13
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rax + 30], 14
-	pinsrb	xmm0, byte ptr [rsi + rax + 31], 14
-	pinsrb	xmm12, byte ptr [rsi + r8 + 30], 15
-	pinsrb	xmm0, byte ptr [rsi + r8 + 31], 15
-	por	xmm13, xmm11
-	pcmpeqb	xmm12, xmm15
-	pand	xmm12, xmm5
-	pcmpeqb	xmm0, xmm15
-	psllw	xmm0, 7
-	pand	xmm0, xmm6
-	por	xmm0, xmm12
-	por	xmm0, xmm13
-	movdqa	xmm1, xmm8
-	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	movdqa	xmm4, xmmword ptr [rsp + 208]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
-	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
-	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
-	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 248]      # 8-byte Folded Reload
-	jne	.LBB1_67
-# %bb.68:
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 248]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	jne	.LBB1_69
-	jmp	.LBB1_72
-.LBB1_110:
-	and	r11, -8
-	mov	rax, r11
-	shl	rax, 6
-	add	rax, rsi
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 16], r11       # 8-byte Spill
-	lea	rax, [r14 + 4*r11]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	dword ptr [rsp + 56], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	movdqa	xmm15, xmmword ptr [rip + .LCPI1_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	movdqa	xmm9, xmmword ptr [rip + .LCPI1_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI1_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI1_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI1_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI1_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI1_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_111:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r9, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rcx, r15
-	mov	rdi, r15
-	mov	rbx, r15
-	movzx	r14d, word ptr [rsi + r15]
-	movzx	eax, word ptr [rsi + r15 + 2]
-	movzx	edx, word ptr [rsi + r15 + 4]
-	movzx	r11d, word ptr [rsi + r15 + 6]
-	movzx	r10d, word ptr [rsi + r15 + 8]
-	mov	r8, r15
-	or	r8, 64
-	or	r9, 128
-	or	r12, 192
-	or	r13, 256
-	or	rcx, 320
-	or	rdi, 384
-	or	rbx, 448
-	movd	xmm4, r14d
-	pinsrw	xmm4, word ptr [rsi + r8], 1
-	pinsrw	xmm4, word ptr [rsi + r9], 2
-	pinsrw	xmm4, word ptr [rsi + r12], 3
-	pinsrw	xmm4, word ptr [rsi + r13], 4
-	pinsrw	xmm4, word ptr [rsi + rcx], 5
-	pinsrw	xmm4, word ptr [rsi + rdi], 6
-	pinsrw	xmm4, word ptr [rsi + rbx], 7
-	movzx	r14d, word ptr [rsi + r15 + 10]
-	movd	xmm6, eax
-	pinsrw	xmm6, word ptr [rsi + r8 + 2], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 2], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 2], 3
-	movzx	eax, word ptr [rsi + r15 + 12]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + r13 + 2], 4
-	movd	xmm2, edx
-	movzx	edx, word ptr [rsi + r15 + 14]
-	pinsrw	xmm6, word ptr [rsi + rcx + 2], 5
-	movd	xmm5, r11d
-	movzx	eax, word ptr [rsi + r15 + 16]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + rdi + 2], 6
-	movd	xmm3, r10d
-	movzx	eax, word ptr [rsi + r15 + 18]
-	mov	dword ptr [rsp + 48], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + rbx + 2], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	movdqa	xmm1, xmm6
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm6
-	movd	xmm6, r14d
-	movzx	r11d, word ptr [rsi + r15 + 20]
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	pinsrw	xmm2, word ptr [rsi + r8 + 4], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 4], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 4], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 4], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 4], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 4], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 4], 7
-	pinsrw	xmm5, word ptr [rsi + r8 + 6], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 6], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 6], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 6], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 6], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 6], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 6], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 8], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 8], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 8], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 8], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 8], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 8], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 8], 7
-	por	xmm1, xmm4
-	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 22]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 2
-	pand	xmm2, xmm9
-	por	xmm2, xmm1
-	movd	xmm4, edx
-	movzx	edx, word ptr [rsi + r15 + 24]
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm5
-	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 26]
-	pinsrw	xmm6, word ptr [rsi + r8 + 10], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 10], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 10], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 10], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 10], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 10], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 10], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 12], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 12], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 12], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 12], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 12], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 12], 6
-	pinsrw	xmm7, word ptr [rsi + rbx + 12], 7
-	por	xmm3, xmm2
-	movd	xmm8, dword ptr [rsp + 48]      # 4-byte Folded Reload
-                                        # xmm8 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rsi + r15 + 28]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm5, r11d
-	movzx	r11d, word ptr [rsi + r15 + 30]
-	pinsrw	xmm4, word ptr [rsi + r8 + 14], 1
-	pinsrw	xmm4, word ptr [rsi + r9 + 14], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 14], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 14], 4
-	pinsrw	xmm4, word ptr [rsi + rcx + 14], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 14], 6
-	pinsrw	xmm4, word ptr [rsi + rbx + 14], 7
-	pinsrw	xmm8, word ptr [rsi + r8 + 18], 1
-	pinsrw	xmm8, word ptr [rsi + r9 + 18], 2
-	pinsrw	xmm8, word ptr [rsi + r12 + 18], 3
-	pinsrw	xmm8, word ptr [rsi + r13 + 18], 4
-	pinsrw	xmm8, word ptr [rsi + rcx + 18], 5
-	pinsrw	xmm8, word ptr [rsi + rdi + 18], 6
-	pinsrw	xmm8, word ptr [rsi + rbx + 18], 7
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rsi + r15 + 32]
-	por	xmm4, xmm3
-	pcmpeqw	xmm8, xmm0
-	packsswb	xmm8, xmm8
-	movdqa	xmm7, xmm8
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm8
-	movd	xmm3, edx
-	movzx	edx, word ptr [rsi + r15 + 34]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rsi + r8 + 16], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 16], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 16], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 16], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 16], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 16], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 16], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	por	xmm7, xmm1
-	movd	xmm6, r10d
-	movzx	r10d, word ptr [rsi + r15 + 36]
-	pinsrw	xmm5, word ptr [rsi + r8 + 20], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 20], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 20], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 20], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 20], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 20], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 20], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm9
-	por	xmm5, xmm7
-	movd	xmm7, r14d
-	movzx	edx, word ptr [rsi + r15 + 38]
-	mov	dword ptr [rsp + 24], edx       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r8 + 22], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 22], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 22], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 22], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 22], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 22], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 22], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 24], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 24], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 24], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 24], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 24], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 24], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 24], 7
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm2
-	movd	xmm2, r11d
-	movzx	r14d, word ptr [rsi + r15 + 40]
-	por	xmm3, xmm5
-	movd	xmm5, eax
-	movzx	r11d, word ptr [rsi + r15 + 42]
-	pinsrw	xmm6, word ptr [rsi + r8 + 26], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 26], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 26], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 26], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 26], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 26], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 26], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 28], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 28], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 28], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 28], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 28], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 28], 6
-	pinsrw	xmm7, word ptr [rsi + rbx + 28], 7
-	pinsrw	xmm2, word ptr [rsi + r8 + 30], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 30], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 30], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 30], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 30], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 30], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 30], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 44]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm14
-	por	xmm2, xmm7
-	movd	xmm6, r10d
-	movzx	eax, word ptr [rsi + r15 + 46]
-	pinsrw	xmm5, word ptr [rsi + r8 + 32], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 32], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 32], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 32], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 32], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 32], 6
-	pinsrw	xmm1, word ptr [rsi + r8 + 34], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 34], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 34], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 34], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 34], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 34], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 34], 7
-	por	xmm2, xmm3
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm7, xmm1
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm1
-	movd	xmm3, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 48]
-	pinsrw	xmm5, word ptr [rsi + rbx + 32], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	pinsrw	xmm6, word ptr [rsi + r8 + 36], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 36], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 36], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 36], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 36], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 36], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 36], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 38], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 38], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 38], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 38], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 38], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 38], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 38], 7
-	por	xmm7, xmm5
-	movd	xmm5, r14d
-	pinsrw	xmm5, word ptr [rsi + r8 + 40], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 40], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 40], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 40], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 40], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 40], 6
-	movzx	r14d, word ptr [rsi + r15 + 50]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	pand	xmm6, xmm9
-	por	xmm6, xmm7
-	movd	xmm1, r11d
-	movzx	r11d, word ptr [rsi + r15 + 52]
-	pinsrw	xmm5, word ptr [rsi + rbx + 40], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 3
-	pand	xmm3, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm3
-	movd	xmm7, edx
-	movzx	edx, word ptr [rsi + r15 + 54]
-	pinsrw	xmm1, word ptr [rsi + r8 + 42], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 42], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 42], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 42], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 42], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 42], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 42], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 44], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 44], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 44], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 44], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 44], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 44], 6
-	por	xmm5, xmm6
-	movd	xmm3, eax
-	movzx	eax, word ptr [rsi + r15 + 56]
-	pinsrw	xmm7, word ptr [rsi + rbx + 44], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 5
-	pand	xmm1, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm1
-	movd	xmm6, r10d
-	movzx	r10d, word ptr [rsi + r15 + 58]
-	pinsrw	xmm3, word ptr [rsi + r8 + 46], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 46], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 46], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 46], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 46], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 46], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 46], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm7
-	movd	xmm1, r14d
-	movzx	r14d, word ptr [rsi + r15 + 60]
-	movzx	r15d, word ptr [rsi + r15 + 62]
-	pinsrw	xmm1, word ptr [rsi + r8 + 50], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 50], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 50], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 50], 7
-	por	xmm3, xmm5
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movd	xmm1, r11d
-	pinsrw	xmm6, word ptr [rsi + r8 + 48], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 48], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 48], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 48], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 48], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 48], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 48], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pinsrw	xmm1, word ptr [rsi + r8 + 52], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 52], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 52], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 52], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 52], 5
-	pand	xmm6, xmm15
-	pinsrw	xmm1, word ptr [rsi + rdi + 52], 6
-	por	xmm5, xmm6
-	movd	xmm6, edx
-	pinsrw	xmm1, word ptr [rsi + rbx + 52], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 2
-	pand	xmm1, xmm9
-	por	xmm1, xmm5
-	movd	xmm5, eax
-	pinsrw	xmm6, word ptr [rsi + r8 + 54], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 54], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 54], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 54], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 54], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 54], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 54], 7
-	pinsrw	xmm5, word ptr [rsi + r8 + 56], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 56], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 56], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 56], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 56], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 56], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 56], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 3
-	pand	xmm6, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm6
-	movd	xmm6, r10d
-	pinsrw	xmm6, word ptr [rsi + r8 + 58], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 58], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 58], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 58], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 58], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 58], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 58], 7
-	por	xmm5, xmm1
-	movd	xmm1, r14d
-	pinsrw	xmm1, word ptr [rsi + r8 + 60], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 60], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 60], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 60], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 60], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 60], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 60], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 6
-	pand	xmm1, xmm13
-	por	xmm1, xmm6
-	movd	xmm6, r15d
-	pinsrw	xmm6, word ptr [rsi + r8 + 62], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 62], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 62], 3
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrw	xmm6, word ptr [rsi + r13 + 62], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 62], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 62], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 62], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	psllw	xmm6, 7
-	pand	xmm6, xmm14
-	por	xmm6, xmm1
-	por	xmm6, xmm5
-	movdqa	xmm1, xmm4
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqa	xmm5, xmm3
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqa	xmm7, xmmword ptr [rip + .LCPI1_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm5, xmm7
-	pshufb	xmm1, xmm7
-	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
-	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 16]       # 8-byte Folded Reload
-	jne	.LBB1_111
-# %bb.112:
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	cmp	r11, qword ptr [rsp + 16]       # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 56]      # 4-byte Reload
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	jne	.LBB1_113
-	jmp	.LBB1_116
-.LBB1_133:
-	and	r15, -8
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rsi
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 16], r15       # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	dword ptr [rsp + 56], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	movdqa	xmm15, xmmword ptr [rip + .LCPI1_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	movdqa	xmm9, xmmword ptr [rip + .LCPI1_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI1_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI1_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI1_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI1_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI1_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB1_134:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r9, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rcx, r15
-	mov	rdi, r15
-	mov	rbx, r15
-	movzx	r14d, word ptr [rsi + r15]
-	movzx	eax, word ptr [rsi + r15 + 2]
-	movzx	edx, word ptr [rsi + r15 + 4]
-	movzx	r11d, word ptr [rsi + r15 + 6]
-	movzx	r10d, word ptr [rsi + r15 + 8]
-	mov	r8, r15
-	or	r8, 64
-	or	r9, 128
-	or	r12, 192
-	or	r13, 256
-	or	rcx, 320
-	or	rdi, 384
-	or	rbx, 448
-	movd	xmm4, r14d
-	pinsrw	xmm4, word ptr [rsi + r8], 1
-	pinsrw	xmm4, word ptr [rsi + r9], 2
-	pinsrw	xmm4, word ptr [rsi + r12], 3
-	pinsrw	xmm4, word ptr [rsi + r13], 4
-	pinsrw	xmm4, word ptr [rsi + rcx], 5
-	pinsrw	xmm4, word ptr [rsi + rdi], 6
-	pinsrw	xmm4, word ptr [rsi + rbx], 7
-	movzx	r14d, word ptr [rsi + r15 + 10]
-	movd	xmm6, eax
-	pinsrw	xmm6, word ptr [rsi + r8 + 2], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 2], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 2], 3
-	movzx	eax, word ptr [rsi + r15 + 12]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + r13 + 2], 4
-	movd	xmm2, edx
-	movzx	edx, word ptr [rsi + r15 + 14]
-	pinsrw	xmm6, word ptr [rsi + rcx + 2], 5
-	movd	xmm5, r11d
-	movzx	eax, word ptr [rsi + r15 + 16]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + rdi + 2], 6
-	movd	xmm3, r10d
-	movzx	eax, word ptr [rsi + r15 + 18]
-	mov	dword ptr [rsp + 48], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + rbx + 2], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	movdqa	xmm1, xmm6
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm6
-	movd	xmm6, r14d
-	movzx	r11d, word ptr [rsi + r15 + 20]
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	pinsrw	xmm2, word ptr [rsi + r8 + 4], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 4], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 4], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 4], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 4], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 4], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 4], 7
-	pinsrw	xmm5, word ptr [rsi + r8 + 6], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 6], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 6], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 6], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 6], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 6], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 6], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 8], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 8], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 8], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 8], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 8], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 8], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 8], 7
-	por	xmm1, xmm4
-	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 22]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 2
-	pand	xmm2, xmm9
-	por	xmm2, xmm1
-	movd	xmm4, edx
-	movzx	edx, word ptr [rsi + r15 + 24]
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm5
-	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 26]
-	pinsrw	xmm6, word ptr [rsi + r8 + 10], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 10], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 10], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 10], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 10], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 10], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 10], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 12], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 12], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 12], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 12], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 12], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 12], 6
-	pinsrw	xmm7, word ptr [rsi + rbx + 12], 7
-	por	xmm3, xmm2
-	movd	xmm8, dword ptr [rsp + 48]      # 4-byte Folded Reload
-                                        # xmm8 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rsi + r15 + 28]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm5, r11d
-	movzx	r11d, word ptr [rsi + r15 + 30]
-	pinsrw	xmm4, word ptr [rsi + r8 + 14], 1
-	pinsrw	xmm4, word ptr [rsi + r9 + 14], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 14], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 14], 4
-	pinsrw	xmm4, word ptr [rsi + rcx + 14], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 14], 6
-	pinsrw	xmm4, word ptr [rsi + rbx + 14], 7
-	pinsrw	xmm8, word ptr [rsi + r8 + 18], 1
-	pinsrw	xmm8, word ptr [rsi + r9 + 18], 2
-	pinsrw	xmm8, word ptr [rsi + r12 + 18], 3
-	pinsrw	xmm8, word ptr [rsi + r13 + 18], 4
-	pinsrw	xmm8, word ptr [rsi + rcx + 18], 5
-	pinsrw	xmm8, word ptr [rsi + rdi + 18], 6
-	pinsrw	xmm8, word ptr [rsi + rbx + 18], 7
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rsi + r15 + 32]
-	por	xmm4, xmm3
-	pcmpeqw	xmm8, xmm0
-	packsswb	xmm8, xmm8
-	movdqa	xmm7, xmm8
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm8
-	movd	xmm3, edx
-	movzx	edx, word ptr [rsi + r15 + 34]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rsi + r8 + 16], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 16], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 16], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 16], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 16], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 16], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 16], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	por	xmm7, xmm1
-	movd	xmm6, r10d
-	movzx	r10d, word ptr [rsi + r15 + 36]
-	pinsrw	xmm5, word ptr [rsi + r8 + 20], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 20], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 20], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 20], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 20], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 20], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 20], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm9
-	por	xmm5, xmm7
-	movd	xmm7, r14d
-	movzx	edx, word ptr [rsi + r15 + 38]
-	mov	dword ptr [rsp + 24], edx       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r8 + 22], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 22], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 22], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 22], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 22], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 22], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 22], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 24], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 24], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 24], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 24], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 24], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 24], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 24], 7
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm2
-	movd	xmm2, r11d
-	movzx	r14d, word ptr [rsi + r15 + 40]
-	por	xmm3, xmm5
-	movd	xmm5, eax
-	movzx	r11d, word ptr [rsi + r15 + 42]
-	pinsrw	xmm6, word ptr [rsi + r8 + 26], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 26], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 26], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 26], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 26], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 26], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 26], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 28], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 28], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 28], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 28], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 28], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 28], 6
-	pinsrw	xmm7, word ptr [rsi + rbx + 28], 7
-	pinsrw	xmm2, word ptr [rsi + r8 + 30], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 30], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 30], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 30], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 30], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 30], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 30], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 44]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm14
-	por	xmm2, xmm7
-	movd	xmm6, r10d
-	movzx	eax, word ptr [rsi + r15 + 46]
-	pinsrw	xmm5, word ptr [rsi + r8 + 32], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 32], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 32], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 32], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 32], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 32], 6
-	pinsrw	xmm1, word ptr [rsi + r8 + 34], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 34], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 34], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 34], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 34], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 34], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 34], 7
-	por	xmm2, xmm3
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm7, xmm1
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm1
-	movd	xmm3, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 48]
-	pinsrw	xmm5, word ptr [rsi + rbx + 32], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	pinsrw	xmm6, word ptr [rsi + r8 + 36], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 36], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 36], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 36], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 36], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 36], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 36], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 38], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 38], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 38], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 38], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 38], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 38], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 38], 7
-	por	xmm7, xmm5
-	movd	xmm5, r14d
-	pinsrw	xmm5, word ptr [rsi + r8 + 40], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 40], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 40], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 40], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 40], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 40], 6
-	movzx	r14d, word ptr [rsi + r15 + 50]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	pand	xmm6, xmm9
-	por	xmm6, xmm7
-	movd	xmm1, r11d
-	movzx	r11d, word ptr [rsi + r15 + 52]
-	pinsrw	xmm5, word ptr [rsi + rbx + 40], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 3
-	pand	xmm3, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm3
-	movd	xmm7, edx
-	movzx	edx, word ptr [rsi + r15 + 54]
-	pinsrw	xmm1, word ptr [rsi + r8 + 42], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 42], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 42], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 42], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 42], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 42], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 42], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 44], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 44], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 44], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 44], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 44], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 44], 6
-	por	xmm5, xmm6
-	movd	xmm3, eax
-	movzx	eax, word ptr [rsi + r15 + 56]
-	pinsrw	xmm7, word ptr [rsi + rbx + 44], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 5
-	pand	xmm1, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm1
-	movd	xmm6, r10d
-	movzx	r10d, word ptr [rsi + r15 + 58]
-	pinsrw	xmm3, word ptr [rsi + r8 + 46], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 46], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 46], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 46], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 46], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 46], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 46], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm7
-	movd	xmm1, r14d
-	movzx	r14d, word ptr [rsi + r15 + 60]
-	movzx	r15d, word ptr [rsi + r15 + 62]
-	pinsrw	xmm1, word ptr [rsi + r8 + 50], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 50], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 50], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 50], 7
-	por	xmm3, xmm5
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movd	xmm1, r11d
-	pinsrw	xmm6, word ptr [rsi + r8 + 48], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 48], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 48], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 48], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 48], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 48], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 48], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pinsrw	xmm1, word ptr [rsi + r8 + 52], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 52], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 52], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 52], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 52], 5
-	pand	xmm6, xmm15
-	pinsrw	xmm1, word ptr [rsi + rdi + 52], 6
-	por	xmm5, xmm6
-	movd	xmm6, edx
-	pinsrw	xmm1, word ptr [rsi + rbx + 52], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 2
-	pand	xmm1, xmm9
-	por	xmm1, xmm5
-	movd	xmm5, eax
-	pinsrw	xmm6, word ptr [rsi + r8 + 54], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 54], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 54], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 54], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 54], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 54], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 54], 7
-	pinsrw	xmm5, word ptr [rsi + r8 + 56], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 56], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 56], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 56], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 56], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 56], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 56], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 3
-	pand	xmm6, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm6
-	movd	xmm6, r10d
-	pinsrw	xmm6, word ptr [rsi + r8 + 58], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 58], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 58], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 58], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 58], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 58], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 58], 7
-	por	xmm5, xmm1
-	movd	xmm1, r14d
-	pinsrw	xmm1, word ptr [rsi + r8 + 60], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 60], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 60], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 60], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 60], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 60], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 60], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 6
-	pand	xmm1, xmm13
-	por	xmm1, xmm6
-	movd	xmm6, r15d
-	pinsrw	xmm6, word ptr [rsi + r8 + 62], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 62], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 62], 3
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrw	xmm6, word ptr [rsi + r13 + 62], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 62], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 62], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 62], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	psllw	xmm6, 7
-	pand	xmm6, xmm14
-	por	xmm6, xmm1
-	por	xmm6, xmm5
-	movdqa	xmm1, xmm4
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqa	xmm5, xmm3
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqa	xmm7, xmmword ptr [rip + .LCPI1_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm5, xmm7
-	pshufb	xmm1, xmm7
-	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
-	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 16]       # 8-byte Folded Reload
-	jne	.LBB1_134
-# %bb.135:
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 16]       # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 56]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	jne	.LBB1_136
-	jmp	.LBB1_139
-.LBB1_184:
-	mov	r8, r11
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rsi
-	lea	r15, [r14 + 4*r8]
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	add	rsi, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI1_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	movdqa	xmm8, xmmword ptr [rip + .LCPI1_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI1_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI1_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI1_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI1_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI1_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm9, xmmword ptr [rip + .LCPI1_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	.p2align	4, 0x90
-.LBB1_185:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm6, dword ptr [rsi - 508]     # xmm6 = mem[0],zero,zero,zero
-	movss	xmm7, dword ptr [rsi - 504]     # xmm7 = mem[0],zero,zero,zero
-	movss	xmm5, dword ptr [rsi - 500]     # xmm5 = mem[0],zero,zero,zero
-	movss	xmm4, dword ptr [rsi - 496]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	insertps	xmm7, dword ptr [rsi - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	insertps	xmm5, dword ptr [rsi - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
-	insertps	xmm4, dword ptr [rsi - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rsi - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rsi - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	movdqa	xmm2, xmm7
-	pand	xmm2, xmm15
-	psubb	xmm2, xmm7
-	movss	xmm7, dword ptr [rsi - 492]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rsi - 488]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm8
-	por	xmm5, xmm2
-	movss	xmm3, dword ptr [rsi - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	cmpeqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 3
-	pand	xmm4, xmm10
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 4
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movss	xmm4, dword ptr [rsi - 480]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rsi - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rsi - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rsi - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm5, dword ptr [rsi - 476]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm13
-	por	xmm3, xmm6
-	movss	xmm2, dword ptr [rsi - 472]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packsswb	xmm5, xmm5
-	cmpeqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm3
-	movss	xmm3, dword ptr [rsi - 468]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm5, xmm15
-	insertps	xmm3, dword ptr [rsi - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm4, xmm7
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm7, dword ptr [rsi - 464]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm5
-	movss	xmm5, dword ptr [rsi - 460]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rsi - 456]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 3
-	pand	xmm7, xmm10
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm7
-	movss	xmm2, dword ptr [rsi - 452]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm3
-	movss	xmm7, dword ptr [rsi - 448]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rsi - 444]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	psllw	xmm7, 7
-	pand	xmm7, xmm14
-	por	xmm7, xmm2
-	movss	xmm2, dword ptr [rsi - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm3, dword ptr [rsi - 436]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm6, xmm15
-	insertps	xmm3, dword ptr [rsi - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm7, xmm2
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm2
-	movss	xmm5, dword ptr [rsi - 432]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm7, xmm6
-	movss	xmm6, dword ptr [rsi - 428]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm7
-	movss	xmm7, dword ptr [rsi - 424]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm5
-	movss	xmm2, dword ptr [rsi - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm5, dword ptr [rsi - 416]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm7, dword ptr [rsi - 412]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	psllw	xmm5, 7
-	pand	xmm5, xmm14
-	por	xmm5, xmm2
-	movss	xmm2, dword ptr [rsi - 408]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	pand	xmm7, xmm15
-	insertps	xmm2, dword ptr [rsi - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm6
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm3, dword ptr [rsi - 404]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm6, xmm7
-	movss	xmm2, dword ptr [rsi - 400]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rsi - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm2
-	movss	xmm7, dword ptr [rsi - 392]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm2, dword ptr [rsi - 388]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm3, dword ptr [rsi - 384]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi], 48       # xmm3 = xmm3[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm2
-	por	xmm3, xmm6
-	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
-	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
-	pshufb	xmm4, xmm9
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	add	rcx, 4
-	add	rsi, 512
-	cmp	r8, rcx
-	jne	.LBB1_185
-# %bb.186:
-	cmp	r11, r8
-	jne	.LBB1_187
-	jmp	.LBB1_190
-.Lfunc_end1:
-	.size	comparison_equal_arr_scalar_sse4, .Lfunc_end1-comparison_equal_arr_scalar_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_equal_scalar_arr_sse4
-.LCPI2_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI2_1:
-	.zero	16,252
-.LCPI2_2:
-	.zero	16,248
-.LCPI2_3:
-	.zero	16,240
-.LCPI2_4:
-	.zero	16,224
-.LCPI2_5:
-	.zero	16,192
-.LCPI2_6:
-	.zero	16,128
-.LCPI2_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI2_8:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI2_9:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI2_10:
-	.zero	16,1
-.LCPI2_11:
-	.zero	16,4
-.LCPI2_12:
-	.zero	16,8
-.LCPI2_13:
-	.zero	16,16
-.LCPI2_14:
-	.zero	16,32
-.LCPI2_15:
-	.zero	16,64
-	.text
-	.globl	comparison_equal_scalar_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_equal_scalar_arr_sse4,@function
-comparison_equal_scalar_arr_sse4:       # @comparison_equal_scalar_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 304
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	qword ptr [rsp], rcx            # 8-byte Spill
-	cmp	edi, 6
-	jg	.LBB2_17
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB2_32
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB2_83
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB2_95
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB2_176
-# %bb.5:
-	mov	r13d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_9
-# %bb.6:
-	movsxd	rax, r9d
-	mov	r9, qword ptr [rsp]             # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r9 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r9 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_7
-# %bb.8:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_9:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB2_13
-# %bb.10:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_11:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	sete	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	sete	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	sete	al
-	cmp	r13d, dword ptr [rdx + 28]
-	sete	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	sete	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	sete	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	sete	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	sete	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	sete	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	sete	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	sete	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	edi, eax
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, dil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_11
-# %bb.12:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB2_13:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB2_176
-# %bb.14:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB2_82
-# %bb.15:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_16:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_16
-	jmp	.LBB2_152
-.LBB2_17:
-	cmp	edi, 8
-	jle	.LBB2_46
-# %bb.18:
-	cmp	edi, 9
-	je	.LBB2_107
-# %bb.19:
-	cmp	edi, 11
-	je	.LBB2_118
-# %bb.20:
-	cmp	edi, 12
-	jne	.LBB2_176
-# %bb.21:
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB2_25
-# %bb.22:
-	movsxd	rax, r9d
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_23:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_23
-# %bb.24:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_25:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_29
-# %bb.26:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_27:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	sete	r8b
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	sete	r11b
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	sete	r13b
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	sete	al
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	sete	r14b
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	sete	sil
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	sete	dil
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	sete	r9b
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	sete	r10b
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	sete	r12b
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	sete	cl
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	sete	r15b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	sete	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r14b, 7
-	or	r14b, al
-	shl	r11b, 2
-	or	r11b, r8b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	mov	r8, qword ptr [rsp]             # 8-byte Reload
-	shl	dil, 2
-	or	dil, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r13b
-	mov	r11d, eax
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r14b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r8], r14b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r8 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r8 + 2], r15b
-	mov	byte ptr [r8 + 3], bl
-	add	rdx, 256
-	add	r8, 4
-	mov	qword ptr [rsp], r8             # 8-byte Spill
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB2_27
-# %bb.28:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-.LBB2_29:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_176
-# %bb.30:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_161
-# %bb.31:
-	xor	edi, edi
-	jmp	.LBB2_163
-.LBB2_32:
-	cmp	edi, 2
-	je	.LBB2_60
-# %bb.33:
-	cmp	edi, 3
-	jne	.LBB2_176
-# %bb.34:
-	mov	r14b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_38
-# %bb.35:
-	movsxd	rax, r9d
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_36:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_36
-# %bb.37:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_38:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB2_130
-# %bb.39:
-	cmp	r15, 16
-	mov	byte ptr [rsp + 8], r14b        # 1-byte Spill
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r15      # 8-byte Spill
-	jb	.LBB2_42
-# %bb.40:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
-	jae	.LBB2_185
-# %bb.41:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB2_185
-.LBB2_42:
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rsi, rdx
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-.LBB2_43:
-	sub	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_44:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	r14b, byte ptr [rsi]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 1]
-	sete	dil
-	cmp	r14b, byte ptr [rsi + 2]
-	sete	r11b
-	cmp	r14b, byte ptr [rsi + 3]
-	sete	r15b
-	cmp	r14b, byte ptr [rsi + 4]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 5]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 6]
-	sete	bl
-	cmp	r14b, byte ptr [rsi + 7]
-	sete	r13b
-	cmp	r14b, byte ptr [rsi + 8]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 9]
-	sete	sil
-	cmp	r14b, byte ptr [rcx + 10]
-	sete	r8b
-	cmp	r14b, byte ptr [rcx + 11]
-	sete	r9b
-	cmp	r14b, byte ptr [rcx + 12]
-	sete	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 13]
-	sete	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 14]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 15]
-	sete	al
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 16]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 17]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 18]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 19]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 20]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 21]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 22]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 23]
-	sete	r10b
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 24]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 25]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 26]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 27]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 28]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 29]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 30]
-	sete	byte ptr [rsp]                  # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 31]
-	sete	dl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r13b, 7
-	or	r13b, bl
-	shl	r11b, 2
-	or	r11b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	r15b, 3
-	or	r15b, r11b
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	ebx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r15b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r14b, 4
-	or	r14b, r9b
-	shl	r12b, 5
-	or	r12b, r14b
-	movzx	r14d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	al, 7
-	or	al, sil
-	or	r13b, bl
-	or	al, r12b
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	mov	byte ptr [rdi], r13b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r10b, 7
-	or	r10b, sil
-	mov	byte ptr [rdi + 1], al
-	or	r10b, bl
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 56]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rdi + 2], r10b
-	mov	byte ptr [rdi + 3], dl
-	lea	rsi, [rcx + 32]
-	add	rdi, 4
-	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_44
-# %bb.45:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	jmp	.LBB2_131
-.LBB2_46:
-	cmp	edi, 7
-	je	.LBB2_72
-# %bb.47:
-	cmp	edi, 8
-	jne	.LBB2_176
-# %bb.48:
-	mov	r13, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_52
-# %bb.49:
-	movsxd	rax, r9d
-	mov	r9, qword ptr [rsp]             # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_50:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r9 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r9 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_50
-# %bb.51:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_52:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB2_56
-# %bb.53:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_54:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	sete	dil
-	cmp	r13, qword ptr [rdx + 16]
-	sete	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	sete	al
-	cmp	r13, qword ptr [rdx + 56]
-	sete	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	sete	sil
-	cmp	r13, qword ptr [rdx + 80]
-	sete	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	sete	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	sete	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	sete	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	sete	cl
-	cmp	r13, qword ptr [rdx + 128]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	sete	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	edi, eax
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, dil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 256
-	add	rsi, 4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_54
-# %bb.55:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB2_56:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB2_176
-# %bb.57:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	je	.LBB2_117
-# %bb.58:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_59:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_59
-	jmp	.LBB2_167
-.LBB2_60:
-	mov	r14b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_64
-# %bb.61:
-	movsxd	rax, r9d
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_62:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_62
-# %bb.63:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_64:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB2_134
-# %bb.65:
-	cmp	r15, 16
-	mov	byte ptr [rsp + 8], r14b        # 1-byte Spill
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r15      # 8-byte Spill
-	jb	.LBB2_68
-# %bb.66:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
-	jae	.LBB2_188
-# %bb.67:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB2_188
-.LBB2_68:
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rsi, rdx
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-.LBB2_69:
-	sub	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_70:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	r14b, byte ptr [rsi]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 1]
-	sete	dil
-	cmp	r14b, byte ptr [rsi + 2]
-	sete	r11b
-	cmp	r14b, byte ptr [rsi + 3]
-	sete	r15b
-	cmp	r14b, byte ptr [rsi + 4]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 5]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 6]
-	sete	bl
-	cmp	r14b, byte ptr [rsi + 7]
-	sete	r13b
-	cmp	r14b, byte ptr [rsi + 8]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rsi + 9]
-	sete	sil
-	cmp	r14b, byte ptr [rcx + 10]
-	sete	r8b
-	cmp	r14b, byte ptr [rcx + 11]
-	sete	r9b
-	cmp	r14b, byte ptr [rcx + 12]
-	sete	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 13]
-	sete	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 14]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 15]
-	sete	al
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 16]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 17]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 18]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 19]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 20]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 21]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 22]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 23]
-	sete	r10b
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 24]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 25]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 26]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 27]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 28]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 29]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 30]
-	sete	byte ptr [rsp]                  # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 31]
-	sete	dl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r13b, 7
-	or	r13b, bl
-	shl	r11b, 2
-	or	r11b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	r15b, 3
-	or	r15b, r11b
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	ebx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r15b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r14b, 4
-	or	r14b, r9b
-	shl	r12b, 5
-	or	r12b, r14b
-	movzx	r14d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	al, 7
-	or	al, sil
-	or	r13b, bl
-	or	al, r12b
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	mov	byte ptr [rdi], r13b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r10b, 7
-	or	r10b, sil
-	mov	byte ptr [rdi + 1], al
-	or	r10b, bl
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 56]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rdi + 2], r10b
-	mov	byte ptr [rdi + 3], dl
-	lea	rsi, [rcx + 32]
-	add	rdi, 4
-	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_70
-# %bb.71:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	jmp	.LBB2_135
-.LBB2_72:
-	mov	r13d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_76
-# %bb.73:
-	movsxd	rax, r9d
-	mov	r9, qword ptr [rsp]             # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_74:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r9 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r9 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_74
-# %bb.75:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_76:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB2_80
-# %bb.77:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_78:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	sete	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	sete	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	sete	al
-	cmp	r13d, dword ptr [rdx + 28]
-	sete	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	sete	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	sete	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	sete	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	sete	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	sete	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	sete	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	sete	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	edi, eax
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, dil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_78
-# %bb.79:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB2_80:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB2_176
-# %bb.81:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB2_150
-.LBB2_82:
-	xor	edi, edi
-	jmp	.LBB2_152
-.LBB2_83:
-	movzx	r13d, word ptr [rsi]
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_87
-# %bb.84:
-	movsxd	rax, r9d
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_85:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_85
-# %bb.86:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_87:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_138
-# %bb.88:
-	cmp	r14, 8
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
-	jb	.LBB2_91
-# %bb.89:
-	mov	rax, r14
-	shl	rax, 6
-	add	rax, rdx
-	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
-	jae	.LBB2_191
-# %bb.90:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r14]
-	cmp	rax, rdx
-	jbe	.LBB2_191
-.LBB2_91:
-	xor	eax, eax
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rsi, rdx
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-.LBB2_92:
-	sub	r14, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_93:                               # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	r13w, word ptr [rsi]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 2]
-	sete	dil
-	cmp	r13w, word ptr [rsi + 4]
-	sete	r14b
-	cmp	r13w, word ptr [rsi + 6]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 8]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 10]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 12]
-	sete	al
-	cmp	r13w, word ptr [rsi + 14]
-	sete	r10b
-	cmp	r13w, word ptr [rsi + 16]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 18]
-	sete	cl
-	cmp	r13w, word ptr [rsi + 20]
-	sete	dl
-	cmp	r13w, word ptr [rsi + 22]
-	sete	sil
-	cmp	r13w, word ptr [r11 + 24]
-	sete	r9b
-	cmp	r13w, word ptr [r11 + 26]
-	sete	r12b
-	cmp	r13w, word ptr [r11 + 28]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 30]
-	sete	r8b
-	cmp	r13w, word ptr [r11 + 32]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 34]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 36]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 38]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 40]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 42]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 44]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 46]
-	sete	r15b
-	cmp	r13w, word ptr [r11 + 48]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 50]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 52]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 54]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 56]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 58]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 60]
-	sete	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 62]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r10b, 7
-	or	r10b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	cl, cl
-	add	cl, byte ptr [rsp + 208]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	dl, 2
-	or	dl, cl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	sil, 3
-	or	sil, dl
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r9b, 4
-	or	r9b, sil
-	shl	r12b, 5
-	or	r12b, r9b
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r10b, cl
-	or	r8b, r12b
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], r10b
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r15b, 7
-	or	r15b, dl
-	mov	byte ptr [rcx + 1], r8b
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], bl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_93
-# %bb.94:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	jmp	.LBB2_139
-.LBB2_95:
-	movzx	r13d, word ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_99
-# %bb.96:
-	movsxd	rax, r9d
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_97:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_97
-# %bb.98:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_99:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB2_142
-# %bb.100:
-	cmp	r15, 8
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
-	jb	.LBB2_103
-# %bb.101:
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rdx
-	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
-	jae	.LBB2_194
-# %bb.102:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r15]
-	cmp	rax, rdx
-	jbe	.LBB2_194
-.LBB2_103:
-	xor	eax, eax
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rsi, rdx
-	mov	r14, qword ptr [rsp]            # 8-byte Reload
-.LBB2_104:
-	mov	qword ptr [rsp + 8], r14        # 8-byte Spill
-	sub	r15, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_105:                              # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	r13w, word ptr [rsi]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 2]
-	sete	dil
-	cmp	r13w, word ptr [rsi + 4]
-	sete	r14b
-	cmp	r13w, word ptr [rsi + 6]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 8]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 10]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 12]
-	sete	al
-	cmp	r13w, word ptr [rsi + 14]
-	sete	r10b
-	cmp	r13w, word ptr [rsi + 16]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 18]
-	sete	cl
-	cmp	r13w, word ptr [rsi + 20]
-	sete	dl
-	cmp	r13w, word ptr [rsi + 22]
-	sete	sil
-	cmp	r13w, word ptr [r11 + 24]
-	sete	r9b
-	cmp	r13w, word ptr [r11 + 26]
-	sete	r12b
-	cmp	r13w, word ptr [r11 + 28]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 30]
-	sete	r8b
-	cmp	r13w, word ptr [r11 + 32]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 34]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 36]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 38]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 40]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 42]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 44]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 46]
-	sete	r15b
-	cmp	r13w, word ptr [r11 + 48]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 50]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 52]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 54]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 56]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 58]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 60]
-	sete	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 62]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r10b, 7
-	or	r10b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	cl, cl
-	add	cl, byte ptr [rsp + 208]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	dl, 2
-	or	dl, cl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	sil, 3
-	or	sil, dl
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r9b, 4
-	or	r9b, sil
-	shl	r12b, 5
-	or	r12b, r9b
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r10b, cl
-	or	r8b, r12b
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], r10b
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r15b, 7
-	or	r15b, dl
-	mov	byte ptr [rcx + 1], r8b
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], bl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_105
-# %bb.106:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 8]        # 8-byte Reload
-	jmp	.LBB2_143
-.LBB2_107:
-	mov	r13, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB2_111
-# %bb.108:
-	movsxd	rax, r9d
-	mov	r9, qword ptr [rsp]             # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_109:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r9 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r9 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_109
-# %bb.110:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_111:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB2_115
-# %bb.112:
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_113:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	sete	dil
-	cmp	r13, qword ptr [rdx + 16]
-	sete	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	sete	al
-	cmp	r13, qword ptr [rdx + 56]
-	sete	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	sete	sil
-	cmp	r13, qword ptr [rdx + 80]
-	sete	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	sete	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	sete	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	sete	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	sete	cl
-	cmp	r13, qword ptr [rdx + 128]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	sete	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	sete	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	edi, eax
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rax], r11b
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	mov	byte ptr [rsi + 1], cl
-	or	r15b, dil
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	or	bl, cl
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], bl
-	add	rdx, 256
-	add	rsi, 4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
-	jne	.LBB2_113
-# %bb.114:
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-.LBB2_115:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB2_176
-# %bb.116:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB2_165
-.LBB2_117:
-	xor	edi, edi
-	jmp	.LBB2_167
-.LBB2_118:
-	lea	r14, [r10 + 31]
-	test	r10, r10
-	cmovns	r14, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB2_122
-# %bb.119:
-	movsxd	rax, r9d
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_120:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	sete	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r11 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB2_120
-# %bb.121:
-	add	qword ptr [rsp], 1              # 8-byte Folded Spill
-.LBB2_122:
-	sar	r14, 5
-	cmp	r10, 32
-	jl	.LBB2_146
-# %bb.123:
-	cmp	r14, 4
-	jb	.LBB2_126
-# %bb.124:
-	mov	rax, r14
-	shl	rax, 7
-	add	rax, rdx
-	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
-	jae	.LBB2_197
-# %bb.125:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r14]
-	cmp	rax, rdx
-	jbe	.LBB2_197
-.LBB2_126:
-	xor	r8d, r8d
-	mov	rbx, rdx
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-.LBB2_127:
-	mov	qword ptr [rsp], r11            # 8-byte Spill
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
-	sub	r14, r8
-	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB2_128:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	sete	r8b
-	ucomiss	xmm0, dword ptr [rbx + 8]
-	sete	r14b
-	ucomiss	xmm0, dword ptr [rbx + 12]
-	sete	r13b
-	ucomiss	xmm0, dword ptr [rbx + 16]
-	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 20]
-	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 24]
-	sete	al
-	ucomiss	xmm0, dword ptr [rbx + 28]
-	sete	r11b
-	ucomiss	xmm0, dword ptr [rbx + 32]
-	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 36]
-	sete	dl
-	ucomiss	xmm0, dword ptr [rbx + 40]
-	sete	sil
-	ucomiss	xmm0, dword ptr [rbx + 44]
-	sete	dil
-	ucomiss	xmm0, dword ptr [rbx + 48]
-	sete	r10b
-	ucomiss	xmm0, dword ptr [rbx + 52]
-	sete	r12b
-	ucomiss	xmm0, dword ptr [rbx + 56]
-	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 60]
-	sete	r9b
-	ucomiss	xmm0, dword ptr [rbx + 64]
-	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 68]
-	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 72]
-	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 76]
-	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 80]
-	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 84]
-	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 88]
-	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 92]
-	sete	r15b
-	ucomiss	xmm0, dword ptr [rbx + 96]
-	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 100]
-	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 104]
-	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 108]
-	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 112]
-	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 116]
-	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 120]
-	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 124]
-	sete	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], cl
-	add	rbx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB2_128
-# %bb.129:
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
-	jmp	.LBB2_147
-.LBB2_130:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rsi, rdx
-.LBB2_131:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB2_176
-# %bb.132:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	je	.LBB2_137
-# %bb.154:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_155:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	r14b, byte ptr [rsi + r9]
-	sete	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r14b, byte ptr [rsi + rax + 1]
-	lea	r9, [rax + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, r9
-	jne	.LBB2_155
-	jmp	.LBB2_158
-.LBB2_134:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	mov	rsi, rdx
-.LBB2_135:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB2_176
-# %bb.136:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB2_156
-.LBB2_137:
-	xor	r9d, r9d
-	test	r8b, 1
-	je	.LBB2_176
-	jmp	.LBB2_160
-.LBB2_138:
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	rsi, rdx
-.LBB2_139:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_176
-# %bb.140:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_170
-# %bb.141:
-	xor	r14d, r14d
-	jmp	.LBB2_172
-.LBB2_142:
-	mov	r14, qword ptr [rsp]            # 8-byte Reload
-	mov	rsi, rdx
-.LBB2_143:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB2_176
-# %bb.144:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB2_177
-# %bb.145:
-	xor	r15d, r15d
-	jmp	.LBB2_179
-.LBB2_146:
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	mov	rbx, rdx
-.LBB2_147:
-	shl	r14, 5
-	cmp	r14, r10
-	jge	.LBB2_176
-# %bb.148:
-	mov	r8, r10
-	sub	r8, r14
-	not	r14
-	add	r14, r10
-	jne	.LBB2_181
-# %bb.149:
-	xor	esi, esi
-	jmp	.LBB2_183
-.LBB2_150:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_151:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_151
-.LBB2_152:
-	test	r8b, 1
-	je	.LBB2_176
-# %bb.153:
-	cmp	r13d, dword ptr [rdx]
-	jmp	.LBB2_169
-.LBB2_156:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_157:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	r14b, byte ptr [rsi + r9]
-	sete	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r14b, byte ptr [rsi + rax + 1]
-	lea	r9, [rax + 2]
-	sete	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, r9
-	jne	.LBB2_157
-.LBB2_158:
-	add	rsi, r9
-	test	r8b, 1
-	je	.LBB2_176
-.LBB2_160:
-	cmp	r14b, byte ptr [rsi]
-	sete	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	jmp	.LBB2_174
-.LBB2_161:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_162:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	xor	al, r9b
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_162
-.LBB2_163:
-	test	r8b, 1
-	je	.LBB2_176
-# %bb.164:
-	ucomisd	xmm0, qword ptr [rdx]
-	jmp	.LBB2_169
-.LBB2_165:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	mov	r11, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_166:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	sete	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r11 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r11 + rsi], bl
-	add	rdi, 2
-	cmp	r13, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	sete	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r11 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB2_166
-.LBB2_167:
-	test	r8b, 1
-	je	.LBB2_176
-# %bb.168:
-	cmp	r13, qword ptr [rdx]
-.LBB2_169:
-	sete	al
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp]             # 8-byte Reload
-	mov	sil, byte ptr [r8 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	jmp	.LBB2_175
-.LBB2_170:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_171:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	r13w, word ptr [rsi]
-	sete	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r11 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r11 + rdi], bl
-	add	r14, 2
-	cmp	r13w, word ptr [rsi + 2]
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r9, r14
-	jne	.LBB2_171
-.LBB2_172:
-	test	r8b, 1
-	je	.LBB2_176
-# %bb.173:
-	cmp	r13w, word ptr [rsi]
-	sete	al
-	neg	al
-	mov	rdx, r14
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r14b, 7
-	mov	bl, 1
-	mov	ecx, r14d
-.LBB2_174:
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-.LBB2_175:
-	mov	byte ptr [r8 + rdx], bl
-.LBB2_176:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB2_177:
-	mov	r9, r8
-	and	r9, -2
-	xor	r15d, r15d
-	.p2align	4, 0x90
-.LBB2_178:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	r13w, word ptr [rsi]
-	sete	dl
-	neg	dl
-	mov	rdi, r15
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r14 + rdi]
-	mov	ecx, r15d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r14 + rdi], bl
-	add	r15, 2
-	cmp	r13w, word ptr [rsi + 2]
-	lea	rsi, [rsi + 4]
-	sete	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r9, r15
-	jne	.LBB2_178
-.LBB2_179:
-	test	r8b, 1
-	je	.LBB2_176
-# %bb.180:
-	cmp	r13w, word ptr [rsi]
-	sete	al
-	neg	al
-	mov	rdx, r15
-	shr	rdx, 3
-	mov	dil, byte ptr [r14 + rdx]
-	and	r15b, 7
-	mov	bl, 1
-	mov	ecx, r15d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r14 + rdx], bl
-	jmp	.LBB2_176
-.LBB2_181:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB2_182:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	sete	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	mov	ecx, esi
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	add	rsi, 2
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	lea	rbx, [rbx + 8]
-	sete	r9b
-	neg	r9b
-	xor	r9b, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r9b
-	xor	dl, al
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, rsi
-	jne	.LBB2_182
-.LBB2_183:
-	test	r8b, 1
-	je	.LBB2_176
-# %bb.184:
-	ucomiss	xmm0, dword ptr [rbx]
-	sete	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r11 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r11 + rdx], bl
-	jmp	.LBB2_176
-.LBB2_185:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r15]
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	movzx	eax, r14b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB2_186:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, rax
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	shl	rdi, 5
-	mov	rsi, rdi
-	mov	r10, rdi
-	mov	r14, rdi
-	mov	r15, rdi
-	mov	r12, rdi
-	mov	r11, rdi
-	mov	rax, rdi
-	mov	r9, rdi
-	mov	rbx, rdi
-	mov	qword ptr [rsp + 80], rdi       # 8-byte Spill
-	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
-	movzx	ecx, byte ptr [rdx + rdi]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 1]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 2]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 3]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 4]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 5]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 6]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 7]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rdi + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 256], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rdi + 9]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 10]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rdi + 11]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 12]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 13]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rdx + rdi + 14]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 64], rdi       # 8-byte Spill
-	mov	r13, rdi
-	or	r13, 32
-	mov	qword ptr [rsp + 24], r13       # 8-byte Spill
-	or	rsi, 64
-	mov	qword ptr [rsp + 40], rsi       # 8-byte Spill
-	mov	rcx, rdi
-	or	rcx, 96
-	or	r14, 128
-	or	r15, 160
-	or	r10, 192
-	or	r11, 224
-	or	r12, 256
-	or	r9, 288
-	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
-	or	rbx, 320
-	mov	qword ptr [rsp + 120], rbx      # 8-byte Spill
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	or	rbx, 352
-	mov	qword ptr [rsp + 80], rbx       # 8-byte Spill
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	or	r8, 384
-	mov	qword ptr [rsp + 96], r8        # 8-byte Spill
-	or	rax, 416
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, rdi
-	or	rax, 448
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	mov	rax, rdi
-	or	rax, 480
-	pinsrb	xmm15, byte ptr [rdx + r13], 1
-	pinsrb	xmm15, byte ptr [rdx + rsi], 2
-	mov	qword ptr [rsp + 32], rcx       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + rcx], 3
-	mov	qword ptr [rsp + 112], r14      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r14], 4
-	mov	qword ptr [rsp + 128], r15      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r15], 5
-	mov	rdi, r10
-	pinsrb	xmm15, byte ptr [rdx + r10], 6
-	mov	r10, r11
-	mov	qword ptr [rsp + 88], r11       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r11], 7
-	pinsrb	xmm15, byte ptr [rdx + r12], 8
-	pinsrb	xmm15, byte ptr [rdx + r9], 9
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r13], 10
-	pinsrb	xmm15, byte ptr [rdx + rbx], 11
-	pinsrb	xmm15, byte ptr [rdx + r8], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi], 13
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi], 14
-	pinsrb	xmm15, byte ptr [rdx + rax], 15
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 1
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 1], 2
-	pinsrb	xmm5, byte ptr [rdx + rcx + 1], 3
-	pinsrb	xmm5, byte ptr [rdx + r14 + 1], 4
-	pinsrb	xmm5, byte ptr [rdx + r15 + 1], 5
-	pinsrb	xmm5, byte ptr [rdx + rdi + 1], 6
-	pinsrb	xmm5, byte ptr [rdx + r10 + 1], 7
-	pinsrb	xmm5, byte ptr [rdx + r12 + 1], 8
-	mov	r14, r12
-	mov	qword ptr [rsp + 192], r12      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rdx + r9 + 1], 9
-	pinsrb	xmm5, byte ptr [rdx + r13 + 1], 10
-	mov	r15, r13
-	pinsrb	xmm5, byte ptr [rdx + rbx + 1], 11
-	pinsrb	xmm5, byte ptr [rdx + r8 + 1], 12
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r9 + 1], 13
-	mov	r11, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 14
-	pinsrb	xmm5, byte ptr [rdx + rax + 1], 15
-	movdqa	xmm9, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm5, xmm9
-	movdqa	xmm7, xmm5
-	movdqa	xmm4, xmmword ptr [rip + .LCPI2_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm7, xmm4
-	psubb	xmm7, xmm5
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 15]
-	movd	xmm14, esi
-	pcmpeqb	xmm15, xmm9
-	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r8 + 2], 1
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r10 + 2], 2
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rcx + 2], 3
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rbx + 2], 4
-	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 5
-	pinsrb	xmm6, byte ptr [rdx + rdi + 2], 6
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 7
-	pinsrb	xmm6, byte ptr [rdx + r14 + 2], 8
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r13 + 2], 9
-	pinsrb	xmm6, byte ptr [rdx + r15 + 2], 10
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r14 + 2], 11
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r15 + 2], 12
-	pinsrb	xmm6, byte ptr [rdx + r9 + 2], 13
-	pinsrb	xmm6, byte ptr [rdx + r11 + 2], 14
-	mov	r9, rax
-	pinsrb	xmm6, byte ptr [rdx + rax + 2], 15
-	pand	xmm15, xmm4
-	pcmpeqb	xmm6, xmm9
-	movdqa	xmm0, xmmword ptr [rip + .LCPI2_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm6, xmm0
-	por	xmm6, xmm15
-	movzx	esi, byte ptr [rdx + r12 + 16]
-	movd	xmm15, esi
-	mov	rsi, r8
-	pinsrb	xmm2, byte ptr [rdx + r8 + 3], 1
-	mov	rax, r10
-	pinsrb	xmm2, byte ptr [rdx + r10 + 3], 2
-	pinsrb	xmm2, byte ptr [rdx + rcx + 3], 3
-	pinsrb	xmm2, byte ptr [rdx + rbx + 3], 4
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 3], 5
-	mov	qword ptr [rsp + 136], rdi      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rdx + rdi + 3], 6
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 3], 7
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r10 + 3], 8
-	pinsrb	xmm2, byte ptr [rdx + r13 + 3], 9
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 3], 10
-	pinsrb	xmm2, byte ptr [rdx + r14 + 3], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 3], 12
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r12 + 3], 13
-	pinsrb	xmm2, byte ptr [rdx + r11 + 3], 14
-	pinsrb	xmm2, byte ptr [rdx + r9 + 3], 15
-	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 1
-	pinsrb	xmm1, byte ptr [rdx + rax + 4], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 3
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 4
-	pinsrb	xmm1, byte ptr [rdx + rcx + 4], 5
-	pinsrb	xmm1, byte ptr [rdx + rdi + 4], 6
-	pinsrb	xmm1, byte ptr [rdx + r8 + 4], 7
-	pinsrb	xmm1, byte ptr [rdx + r10 + 4], 8
-	pinsrb	xmm1, byte ptr [rdx + r13 + 4], 9
-	pinsrb	xmm1, byte ptr [rdx + rbx + 4], 10
-	pinsrb	xmm1, byte ptr [rdx + r14 + 4], 11
-	pinsrb	xmm1, byte ptr [rdx + r15 + 4], 12
-	pinsrb	xmm1, byte ptr [rdx + r12 + 4], 13
-	pinsrb	xmm1, byte ptr [rdx + r11 + 4], 14
-	pinsrb	xmm1, byte ptr [rdx + r9 + 4], 15
-	mov	rcx, r9
-	mov	qword ptr [rsp + 56], r9        # 8-byte Spill
-	por	xmm6, xmm7
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r9 + 17]
-	movd	xmm0, esi
-	pcmpeqb	xmm2, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI2_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm2, xmm5
-	pcmpeqb	xmm1, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI2_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm1, xmm5
-	por	xmm1, xmm2
-	movzx	esi, byte ptr [rdx + r9 + 18]
-	movd	xmm5, esi
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r13 + 5], 1
-	pinsrb	xmm8, byte ptr [rdx + rax + 5], 2
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r11 + 5], 3
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax + 5], 4
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rdi + 5], 5
-	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r8 + 5], 6
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r10 + 5], 7
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rbx + 5], 8
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 9
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r14 + 5], 10
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r15 + 5], 11
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r12 + 5], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 13
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 14
-	pinsrb	xmm8, byte ptr [rdx + rcx + 5], 15
-	pcmpeqb	xmm8, xmm9
-	movdqa	xmm2, xmmword ptr [rip + .LCPI2_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm8, xmm2
-	por	xmm8, xmm1
-	movzx	esi, byte ptr [rdx + r9 + 19]
-	movd	xmm7, esi
-	por	xmm8, xmm6
-	movzx	esi, byte ptr [rdx + r9 + 20]
-	movd	xmm6, esi
-	pinsrb	xmm3, byte ptr [rdx + r13 + 6], 1
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r9 + 6], 2
-	pinsrb	xmm3, byte ptr [rdx + r11 + 6], 3
-	pinsrb	xmm3, byte ptr [rdx + rax + 6], 4
-	mov	rcx, rdi
-	pinsrb	xmm3, byte ptr [rdx + rdi + 6], 5
-	mov	rdi, r8
-	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 6
-	pinsrb	xmm3, byte ptr [rdx + r10 + 6], 7
-	mov	r10, rbx
-	pinsrb	xmm3, byte ptr [rdx + rbx + 6], 8
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 6], 9
-	mov	rbx, r14
-	pinsrb	xmm3, byte ptr [rdx + r14 + 6], 10
-	mov	rsi, r15
-	pinsrb	xmm3, byte ptr [rdx + r15 + 6], 11
-	mov	r15, r12
-	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 12
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 13
-	mov	r14, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r14 + 6], 14
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 15
-	movdqa	xmm2, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r13 + 7], 1
-	pinsrb	xmm2, byte ptr [rdx + r9 + 7], 2
-	pinsrb	xmm2, byte ptr [rdx + r11 + 7], 3
-	mov	r13, r11
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r9 + 7], 4
-	pinsrb	xmm2, byte ptr [rdx + rcx + 7], 5
-	pinsrb	xmm2, byte ptr [rdx + rdi + 7], 6
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 7], 7
-	pinsrb	xmm2, byte ptr [rdx + r10 + 7], 8
-	pinsrb	xmm2, byte ptr [rdx + rax + 7], 9
-	pinsrb	xmm2, byte ptr [rdx + rbx + 7], 10
-	pinsrb	xmm2, byte ptr [rdx + rsi + 7], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 7], 12
-	pinsrb	xmm2, byte ptr [rdx + r12 + 7], 13
-	mov	r15, r12
-	pinsrb	xmm2, byte ptr [rdx + r14 + 7], 14
-	pinsrb	xmm2, byte ptr [rdx + r8 + 7], 15
-	pcmpeqb	xmm3, xmm9
-	movdqa	xmm1, xmmword ptr [rip + .LCPI2_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm1
-	pcmpeqb	xmm2, xmm9
-	psllw	xmm2, 7
-	movdqa	xmm1, xmmword ptr [rip + .LCPI2_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm2, xmm1
-	por	xmm2, xmm3
-	movdqa	xmm1, xmm2
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 21]
-	movd	xmm2, esi
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rcx + 9], 1
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r11 + 9], 2
-	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 3
-	pinsrb	xmm10, byte ptr [rdx + r9 + 9], 4
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 5
-	pinsrb	xmm10, byte ptr [rdx + rdi + 9], 6
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r8 + 9], 7
-	pinsrb	xmm10, byte ptr [rdx + r10 + 9], 8
-	mov	r14, r10
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 9
-	pinsrb	xmm10, byte ptr [rdx + rbx + 9], 10
-	mov	r12, rbx
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r10 + 9], 11
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rbx + 9], 12
-	pinsrb	xmm10, byte ptr [rdx + r15 + 9], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rdi + 9], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 15
-	por	xmm1, xmm8
-	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
-	pcmpeqb	xmm10, xmm9
-	movdqa	xmm1, xmm10
-	movdqa	xmm8, xmm4
-	pand	xmm1, xmm4
-	psubb	xmm1, xmm10
-	movzx	esi, byte ptr [rdx + rax + 22]
-	movd	xmm3, esi
-	movdqa	xmm4, xmmword ptr [rsp + 256]   # 16-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rcx + 8], 1
-	pinsrb	xmm4, byte ptr [rdx + r11 + 8], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 8], 3
-	pinsrb	xmm4, byte ptr [rdx + r9 + 8], 4
-	pinsrb	xmm4, byte ptr [rdx + r13 + 8], 5
-	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r15 + 8], 6
-	pinsrb	xmm4, byte ptr [rdx + r8 + 8], 7
-	pinsrb	xmm4, byte ptr [rdx + r14 + 8], 8
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rsi + 8], 9
-	pinsrb	xmm4, byte ptr [rdx + r12 + 8], 10
-	pinsrb	xmm4, byte ptr [rdx + r10 + 8], 11
-	pinsrb	xmm4, byte ptr [rdx + rbx + 8], 12
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rbx + 8], 13
-	pinsrb	xmm4, byte ptr [rdx + rdi + 8], 14
-	mov	r10, rdi
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rcx + 8], 15
-	pcmpeqb	xmm4, xmm9
-	pand	xmm4, xmm8
-	movdqa	xmm10, xmmword ptr [rsp + 160]  # 16-byte Reload
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rdi + 10], 1
-	pinsrb	xmm10, byte ptr [rdx + r11 + 10], 2
-	pinsrb	xmm10, byte ptr [rdx + rax + 10], 3
-	pinsrb	xmm10, byte ptr [rdx + r9 + 10], 4
-	mov	rax, r9
-	mov	r11, r13
-	pinsrb	xmm10, byte ptr [rdx + r13 + 10], 5
-	mov	r9, r15
-	pinsrb	xmm10, byte ptr [rdx + r15 + 10], 6
-	pinsrb	xmm10, byte ptr [rdx + r8 + 10], 7
-	pinsrb	xmm10, byte ptr [rdx + r14 + 10], 8
-	pinsrb	xmm10, byte ptr [rdx + rsi + 10], 9
-	pinsrb	xmm10, byte ptr [rdx + r12 + 10], 10
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r14 + 10], 11
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r15 + 10], 12
-	pinsrb	xmm10, byte ptr [rdx + rbx + 10], 13
-	mov	r13, rbx
-	pinsrb	xmm10, byte ptr [rdx + r10 + 10], 14
-	pinsrb	xmm10, byte ptr [rdx + rcx + 10], 15
-	pcmpeqb	xmm10, xmm9
-	pand	xmm10, xmmword ptr [rip + .LCPI2_11]
-	por	xmm10, xmm4
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 23]
-	movd	xmm8, esi
-	por	xmm10, xmm1
-	movdqa	xmmword ptr [rsp + 160], xmm10  # 16-byte Spill
-	movzx	esi, byte ptr [rdx + rcx + 24]
-	movd	xmm10, esi
-	pinsrb	xmm11, byte ptr [rdx + rdi + 11], 1
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rcx + 11], 2
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rcx + 11], 3
-	pinsrb	xmm11, byte ptr [rdx + rax + 11], 4
-	mov	rcx, r11
-	pinsrb	xmm11, byte ptr [rdx + r11 + 11], 5
-	mov	rdi, r9
-	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 6
-	pinsrb	xmm11, byte ptr [rdx + r8 + 11], 7
-	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 8
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r11 + 11], 9
-	pinsrb	xmm11, byte ptr [rdx + r12 + 11], 10
-	pinsrb	xmm11, byte ptr [rdx + r14 + 11], 11
-	pinsrb	xmm11, byte ptr [rdx + r15 + 11], 12
-	mov	r10, rbx
-	pinsrb	xmm11, byte ptr [rdx + rbx + 11], 13
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r12 + 11], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rsi + 11], 15
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r13 + 12], 1
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 2
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 3
-	pinsrb	xmm13, byte ptr [rdx + rax + 12], 4
-	pinsrb	xmm13, byte ptr [rdx + rcx + 12], 5
-	pinsrb	xmm13, byte ptr [rdx + rdi + 12], 6
-	pinsrb	xmm13, byte ptr [rdx + r8 + 12], 7
-	pinsrb	xmm13, byte ptr [rdx + r9 + 12], 8
-	pinsrb	xmm13, byte ptr [rdx + r11 + 12], 9
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 10
-	pinsrb	xmm13, byte ptr [rdx + r14 + 12], 11
-	pinsrb	xmm13, byte ptr [rdx + r15 + 12], 12
-	pinsrb	xmm13, byte ptr [rdx + r10 + 12], 13
-	mov	r13, r10
-	pinsrb	xmm13, byte ptr [rdx + r12 + 12], 14
-	pinsrb	xmm13, byte ptr [rdx + rsi + 12], 15
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r10 + 13], 1
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rsi + 13], 2
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rsi + 13], 3
-	pinsrb	xmm12, byte ptr [rdx + rax + 13], 4
-	pinsrb	xmm12, byte ptr [rdx + rcx + 13], 5
-	pinsrb	xmm12, byte ptr [rdx + rdi + 13], 6
-	pinsrb	xmm12, byte ptr [rdx + r8 + 13], 7
-	pinsrb	xmm12, byte ptr [rdx + r9 + 13], 8
-	pinsrb	xmm12, byte ptr [rdx + r11 + 13], 9
-	pinsrb	xmm12, byte ptr [rdx + rbx + 13], 10
-	pinsrb	xmm12, byte ptr [rdx + r14 + 13], 11
-	pinsrb	xmm12, byte ptr [rdx + r15 + 13], 12
-	pinsrb	xmm12, byte ptr [rdx + r13 + 13], 13
-	pinsrb	xmm12, byte ptr [rdx + r12 + 13], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rax + 13], 15
-	pcmpeqb	xmm11, xmm9
-	pand	xmm11, xmmword ptr [rip + .LCPI2_12]
-	pcmpeqb	xmm13, xmm9
-	pand	xmm13, xmmword ptr [rip + .LCPI2_13]
-	por	xmm13, xmm11
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 25]
-	movd	xmm1, esi
-	pcmpeqb	xmm12, xmm9
-	pand	xmm12, xmmword ptr [rip + .LCPI2_14]
-	por	xmm12, xmm13
-	movzx	esi, byte ptr [rdx + rax + 26]
-	movd	xmm11, esi
-	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r10 + 14], 1
-	mov	rsi, r10
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r12 + 14], 2
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r10 + 14], 3
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r13 + 14], 4
-	pinsrb	xmm4, byte ptr [rdx + rcx + 14], 5
-	pinsrb	xmm4, byte ptr [rdx + rdi + 14], 6
-	pinsrb	xmm4, byte ptr [rdx + r8 + 14], 7
-	pinsrb	xmm4, byte ptr [rdx + r9 + 14], 8
-	pinsrb	xmm4, byte ptr [rdx + r11 + 14], 9
-	pinsrb	xmm4, byte ptr [rdx + rbx + 14], 10
-	pinsrb	xmm4, byte ptr [rdx + r14 + 14], 11
-	pinsrb	xmm4, byte ptr [rdx + r15 + 14], 12
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 14], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 14], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 14], 15
-	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 1
-	pinsrb	xmm14, byte ptr [rdx + r12 + 15], 2
-	pinsrb	xmm14, byte ptr [rdx + r10 + 15], 3
-	pinsrb	xmm14, byte ptr [rdx + r13 + 15], 4
-	pinsrb	xmm14, byte ptr [rdx + rcx + 15], 5
-	pinsrb	xmm14, byte ptr [rdx + rdi + 15], 6
-	pinsrb	xmm14, byte ptr [rdx + r8 + 15], 7
-	pinsrb	xmm14, byte ptr [rdx + r9 + 15], 8
-	pinsrb	xmm14, byte ptr [rdx + r11 + 15], 9
-	pinsrb	xmm14, byte ptr [rdx + rbx + 15], 10
-	pinsrb	xmm14, byte ptr [rdx + r14 + 15], 11
-	pinsrb	xmm14, byte ptr [rdx + r15 + 15], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rax + 15], 14
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 15
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi + 16], 1
-	pinsrb	xmm15, byte ptr [rdx + r12 + 16], 2
-	pinsrb	xmm15, byte ptr [rdx + r10 + 16], 3
-	pinsrb	xmm15, byte ptr [rdx + r13 + 16], 4
-	pinsrb	xmm15, byte ptr [rdx + rcx + 16], 5
-	pinsrb	xmm15, byte ptr [rdx + rdi + 16], 6
-	pinsrb	xmm15, byte ptr [rdx + r8 + 16], 7
-	pinsrb	xmm15, byte ptr [rdx + r9 + 16], 8
-	pinsrb	xmm15, byte ptr [rdx + r11 + 16], 9
-	pinsrb	xmm15, byte ptr [rdx + rbx + 16], 10
-	pinsrb	xmm15, byte ptr [rdx + r14 + 16], 11
-	pinsrb	xmm15, byte ptr [rdx + r15 + 16], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi + 16], 13
-	pinsrb	xmm15, byte ptr [rdx + rax + 16], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 17], 1
-	pinsrb	xmm0, byte ptr [rdx + r12 + 17], 2
-	pinsrb	xmm0, byte ptr [rdx + r10 + 17], 3
-	pinsrb	xmm0, byte ptr [rdx + r13 + 17], 4
-	pinsrb	xmm0, byte ptr [rdx + rcx + 17], 5
-	pinsrb	xmm0, byte ptr [rdx + rdi + 17], 6
-	pinsrb	xmm0, byte ptr [rdx + r8 + 17], 7
-	mov	rax, r8
-	pinsrb	xmm0, byte ptr [rdx + r9 + 17], 8
-	pinsrb	xmm0, byte ptr [rdx + r11 + 17], 9
-	pinsrb	xmm0, byte ptr [rdx + rbx + 17], 10
-	pinsrb	xmm0, byte ptr [rdx + r14 + 17], 11
-	pinsrb	xmm0, byte ptr [rdx + r15 + 17], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 14
-	por	xmm12, xmmword ptr [rsp + 160]  # 16-byte Folded Reload
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 27]
-	movd	xmm9, esi
-	movdqa	xmm13, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm4, xmm13
-	pand	xmm4, xmmword ptr [rip + .LCPI2_15]
-	pcmpeqb	xmm14, xmm13
-	psllw	xmm14, 7
-	pand	xmm14, xmmword ptr [rip + .LCPI2_6]
-	por	xmm14, xmm4
-	movzx	esi, byte ptr [rdx + r12 + 28]
-	movd	xmm4, esi
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r8 + 17], 15
-	por	xmm14, xmm12
-	pcmpeqb	xmm0, xmm13
-	movdqa	xmm13, xmm0
-	movdqa	xmm12, xmmword ptr [rip + .LCPI2_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm13, xmm12
-	psubb	xmm13, xmm0
-	movdqa	xmmword ptr [rsp + 160], xmm13  # 16-byte Spill
-	movzx	esi, byte ptr [rdx + r12 + 29]
-	movd	xmm13, esi
-	pinsrb	xmm15, byte ptr [rdx + r8 + 16], 15
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm15, xmm0
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r12 + 18], 1
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 2
-	pinsrb	xmm5, byte ptr [rdx + r10 + 18], 3
-	pinsrb	xmm5, byte ptr [rdx + r13 + 18], 4
-	pinsrb	xmm5, byte ptr [rdx + rcx + 18], 5
-	pinsrb	xmm5, byte ptr [rdx + rdi + 18], 6
-	pinsrb	xmm5, byte ptr [rdx + rax + 18], 7
-	pinsrb	xmm5, byte ptr [rdx + r9 + 18], 8
-	pinsrb	xmm5, byte ptr [rdx + r11 + 18], 9
-	pinsrb	xmm5, byte ptr [rdx + rbx + 18], 10
-	pinsrb	xmm5, byte ptr [rdx + r14 + 18], 11
-	pinsrb	xmm5, byte ptr [rdx + r15 + 18], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 13
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 14
-	pand	xmm15, xmm12
-	pinsrb	xmm5, byte ptr [rdx + r8 + 18], 15
-	pcmpeqb	xmm5, xmm0
-	pand	xmm5, xmmword ptr [rip + .LCPI2_11]
-	por	xmm5, xmm15
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 30]
-	movd	xmm12, esi
-	pinsrb	xmm7, byte ptr [rdx + r12 + 19], 1
-	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 1
-	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 1
-	pinsrb	xmm3, byte ptr [rdx + r12 + 22], 1
-	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 1
-	pinsrb	xmm10, byte ptr [rdx + r12 + 24], 1
-	pinsrb	xmm1, byte ptr [rdx + r12 + 25], 1
-	pinsrb	xmm11, byte ptr [rdx + r12 + 26], 1
-	pinsrb	xmm9, byte ptr [rdx + r12 + 27], 1
-	pinsrb	xmm4, byte ptr [rdx + r12 + 28], 1
-	pinsrb	xmm13, byte ptr [rdx + r12 + 29], 1
-	pinsrb	xmm12, byte ptr [rdx + r12 + 30], 1
-	movzx	esi, byte ptr [rdx + rax + 31]
-	movd	xmm0, esi
-	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 1
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 19], 2
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 2
-	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 2
-	pinsrb	xmm3, byte ptr [rdx + rsi + 22], 2
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 2
-	pinsrb	xmm10, byte ptr [rdx + rsi + 24], 2
-	pinsrb	xmm1, byte ptr [rdx + rsi + 25], 2
-	pinsrb	xmm11, byte ptr [rdx + rsi + 26], 2
-	pinsrb	xmm9, byte ptr [rdx + rsi + 27], 2
-	pinsrb	xmm4, byte ptr [rdx + rsi + 28], 2
-	pinsrb	xmm13, byte ptr [rdx + rsi + 29], 2
-	pinsrb	xmm12, byte ptr [rdx + rsi + 30], 2
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 2
-	pinsrb	xmm7, byte ptr [rdx + r10 + 19], 3
-	pinsrb	xmm7, byte ptr [rdx + r13 + 19], 4
-	pinsrb	xmm7, byte ptr [rdx + rcx + 19], 5
-	pinsrb	xmm7, byte ptr [rdx + rdi + 19], 6
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 19], 7
-	pinsrb	xmm7, byte ptr [rdx + r9 + 19], 8
-	pinsrb	xmm7, byte ptr [rdx + r11 + 19], 9
-	pinsrb	xmm7, byte ptr [rdx + rbx + 19], 10
-	pinsrb	xmm7, byte ptr [rdx + r14 + 19], 11
-	pinsrb	xmm7, byte ptr [rdx + r15 + 19], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 19], 13
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r12 + 19], 14
-	pinsrb	xmm7, byte ptr [rdx + r8 + 19], 15
-	pinsrb	xmm6, byte ptr [rdx + r10 + 20], 3
-	pinsrb	xmm6, byte ptr [rdx + r13 + 20], 4
-	pinsrb	xmm6, byte ptr [rdx + rcx + 20], 5
-	pinsrb	xmm6, byte ptr [rdx + rdi + 20], 6
-	pinsrb	xmm6, byte ptr [rdx + rax + 20], 7
-	pinsrb	xmm6, byte ptr [rdx + r9 + 20], 8
-	pinsrb	xmm6, byte ptr [rdx + r11 + 20], 9
-	pinsrb	xmm6, byte ptr [rdx + rbx + 20], 10
-	pinsrb	xmm6, byte ptr [rdx + r14 + 20], 11
-	pinsrb	xmm6, byte ptr [rdx + r15 + 20], 12
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 13
-	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 14
-	por	xmm5, xmmword ptr [rsp + 160]   # 16-byte Folded Reload
-	pinsrb	xmm6, byte ptr [rdx + r8 + 20], 15
-	movdqa	xmm15, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm7, xmm15
-	pand	xmm7, xmmword ptr [rip + .LCPI2_12]
-	pcmpeqb	xmm6, xmm15
-	pand	xmm6, xmmword ptr [rip + .LCPI2_13]
-	por	xmm6, xmm7
-	pinsrb	xmm2, byte ptr [rdx + r10 + 21], 3
-	pinsrb	xmm2, byte ptr [rdx + r13 + 21], 4
-	pinsrb	xmm2, byte ptr [rdx + rcx + 21], 5
-	pinsrb	xmm2, byte ptr [rdx + rdi + 21], 6
-	pinsrb	xmm2, byte ptr [rdx + rax + 21], 7
-	pinsrb	xmm2, byte ptr [rdx + r9 + 21], 8
-	pinsrb	xmm2, byte ptr [rdx + r11 + 21], 9
-	pinsrb	xmm2, byte ptr [rdx + rbx + 21], 10
-	pinsrb	xmm2, byte ptr [rdx + r14 + 21], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 21], 12
-	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 13
-	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 14
-	pinsrb	xmm2, byte ptr [rdx + r8 + 21], 15
-	pcmpeqb	xmm2, xmm15
-	movdqa	xmm7, xmmword ptr [rip + .LCPI2_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm2, xmm7
-	por	xmm2, xmm6
-	por	xmm2, xmm5
-	pinsrb	xmm3, byte ptr [rdx + r10 + 22], 3
-	pinsrb	xmm3, byte ptr [rdx + r13 + 22], 4
-	pinsrb	xmm3, byte ptr [rdx + rcx + 22], 5
-	pinsrb	xmm3, byte ptr [rdx + rdi + 22], 6
-	pinsrb	xmm3, byte ptr [rdx + rax + 22], 7
-	pinsrb	xmm3, byte ptr [rdx + r9 + 22], 8
-	pinsrb	xmm3, byte ptr [rdx + r11 + 22], 9
-	pinsrb	xmm3, byte ptr [rdx + rbx + 22], 10
-	pinsrb	xmm3, byte ptr [rdx + r14 + 22], 11
-	pinsrb	xmm3, byte ptr [rdx + r15 + 22], 12
-	pinsrb	xmm3, byte ptr [rdx + rsi + 22], 13
-	pinsrb	xmm3, byte ptr [rdx + r12 + 22], 14
-	pinsrb	xmm3, byte ptr [rdx + r8 + 22], 15
-	pinsrb	xmm8, byte ptr [rdx + r10 + 23], 3
-	pinsrb	xmm8, byte ptr [rdx + r13 + 23], 4
-	pinsrb	xmm8, byte ptr [rdx + rcx + 23], 5
-	pinsrb	xmm8, byte ptr [rdx + rdi + 23], 6
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 7
-	pinsrb	xmm8, byte ptr [rdx + r9 + 23], 8
-	pinsrb	xmm8, byte ptr [rdx + r11 + 23], 9
-	pinsrb	xmm8, byte ptr [rdx + rbx + 23], 10
-	pinsrb	xmm8, byte ptr [rdx + r14 + 23], 11
-	pinsrb	xmm8, byte ptr [rdx + r15 + 23], 12
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 13
-	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 14
-	pinsrb	xmm8, byte ptr [rdx + r8 + 23], 15
-	pcmpeqb	xmm3, xmm15
-	movdqa	xmm5, xmmword ptr [rip + .LCPI2_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm5
-	pcmpeqb	xmm8, xmm15
-	psllw	xmm8, 7
-	movdqa	xmm6, xmmword ptr [rip + .LCPI2_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm6
-	por	xmm8, xmm3
-	pinsrb	xmm1, byte ptr [rdx + r10 + 25], 3
-	pinsrb	xmm1, byte ptr [rdx + r13 + 25], 4
-	pinsrb	xmm1, byte ptr [rdx + rcx + 25], 5
-	pinsrb	xmm1, byte ptr [rdx + rdi + 25], 6
-	pinsrb	xmm1, byte ptr [rdx + rax + 25], 7
-	pinsrb	xmm1, byte ptr [rdx + r9 + 25], 8
-	pinsrb	xmm1, byte ptr [rdx + r11 + 25], 9
-	pinsrb	xmm1, byte ptr [rdx + rbx + 25], 10
-	pinsrb	xmm1, byte ptr [rdx + r14 + 25], 11
-	pinsrb	xmm1, byte ptr [rdx + r15 + 25], 12
-	pinsrb	xmm1, byte ptr [rdx + rsi + 25], 13
-	pinsrb	xmm1, byte ptr [rdx + r12 + 25], 14
-	pinsrb	xmm1, byte ptr [rdx + r8 + 25], 15
-	por	xmm8, xmm2
-	pcmpeqb	xmm1, xmm15
-	movdqa	xmm2, xmm1
-	movdqa	xmm3, xmmword ptr [rip + .LCPI2_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm2, xmm3
-	psubb	xmm2, xmm1
-	pinsrb	xmm10, byte ptr [rdx + r10 + 24], 3
-	pinsrb	xmm10, byte ptr [rdx + r13 + 24], 4
-	pinsrb	xmm10, byte ptr [rdx + rcx + 24], 5
-	pinsrb	xmm10, byte ptr [rdx + rdi + 24], 6
-	pinsrb	xmm10, byte ptr [rdx + rax + 24], 7
-	pinsrb	xmm10, byte ptr [rdx + r9 + 24], 8
-	pinsrb	xmm10, byte ptr [rdx + r11 + 24], 9
-	pinsrb	xmm10, byte ptr [rdx + rbx + 24], 10
-	pinsrb	xmm10, byte ptr [rdx + r14 + 24], 11
-	pinsrb	xmm10, byte ptr [rdx + r15 + 24], 12
-	pinsrb	xmm10, byte ptr [rdx + rsi + 24], 13
-	pinsrb	xmm10, byte ptr [rdx + r12 + 24], 14
-	pinsrb	xmm10, byte ptr [rdx + r8 + 24], 15
-	pcmpeqb	xmm10, xmm15
-	pand	xmm10, xmm3
-	pinsrb	xmm11, byte ptr [rdx + r10 + 26], 3
-	pinsrb	xmm11, byte ptr [rdx + r13 + 26], 4
-	pinsrb	xmm11, byte ptr [rdx + rcx + 26], 5
-	pinsrb	xmm11, byte ptr [rdx + rdi + 26], 6
-	pinsrb	xmm11, byte ptr [rdx + rax + 26], 7
-	pinsrb	xmm11, byte ptr [rdx + r9 + 26], 8
-	pinsrb	xmm11, byte ptr [rdx + r11 + 26], 9
-	pinsrb	xmm11, byte ptr [rdx + rbx + 26], 10
-	pinsrb	xmm11, byte ptr [rdx + r14 + 26], 11
-	pinsrb	xmm11, byte ptr [rdx + r15 + 26], 12
-	pinsrb	xmm11, byte ptr [rdx + rsi + 26], 13
-	pinsrb	xmm11, byte ptr [rdx + r12 + 26], 14
-	pinsrb	xmm11, byte ptr [rdx + r8 + 26], 15
-	pcmpeqb	xmm11, xmm15
-	pand	xmm11, xmmword ptr [rip + .LCPI2_11]
-	por	xmm11, xmm10
-	por	xmm11, xmm2
-	pinsrb	xmm9, byte ptr [rdx + r10 + 27], 3
-	pinsrb	xmm9, byte ptr [rdx + r13 + 27], 4
-	pinsrb	xmm9, byte ptr [rdx + rcx + 27], 5
-	pinsrb	xmm9, byte ptr [rdx + rdi + 27], 6
-	pinsrb	xmm9, byte ptr [rdx + rax + 27], 7
-	pinsrb	xmm9, byte ptr [rdx + r9 + 27], 8
-	pinsrb	xmm9, byte ptr [rdx + r11 + 27], 9
-	pinsrb	xmm9, byte ptr [rdx + rbx + 27], 10
-	pinsrb	xmm9, byte ptr [rdx + r14 + 27], 11
-	pinsrb	xmm9, byte ptr [rdx + r15 + 27], 12
-	pinsrb	xmm9, byte ptr [rdx + rsi + 27], 13
-	pinsrb	xmm9, byte ptr [rdx + r12 + 27], 14
-	pinsrb	xmm9, byte ptr [rdx + r8 + 27], 15
-	pinsrb	xmm4, byte ptr [rdx + r10 + 28], 3
-	pinsrb	xmm4, byte ptr [rdx + r13 + 28], 4
-	pinsrb	xmm4, byte ptr [rdx + rcx + 28], 5
-	pinsrb	xmm4, byte ptr [rdx + rdi + 28], 6
-	pinsrb	xmm4, byte ptr [rdx + rax + 28], 7
-	pinsrb	xmm4, byte ptr [rdx + r9 + 28], 8
-	pinsrb	xmm4, byte ptr [rdx + r11 + 28], 9
-	pinsrb	xmm4, byte ptr [rdx + rbx + 28], 10
-	pinsrb	xmm4, byte ptr [rdx + r14 + 28], 11
-	pinsrb	xmm4, byte ptr [rdx + r15 + 28], 12
-	pinsrb	xmm4, byte ptr [rdx + rsi + 28], 13
-	pinsrb	xmm4, byte ptr [rdx + r12 + 28], 14
-	pinsrb	xmm4, byte ptr [rdx + r8 + 28], 15
-	pinsrb	xmm13, byte ptr [rdx + r10 + 29], 3
-	pinsrb	xmm13, byte ptr [rdx + r13 + 29], 4
-	pinsrb	xmm13, byte ptr [rdx + rcx + 29], 5
-	pinsrb	xmm13, byte ptr [rdx + rdi + 29], 6
-	pinsrb	xmm13, byte ptr [rdx + rax + 29], 7
-	pinsrb	xmm13, byte ptr [rdx + r9 + 29], 8
-	pinsrb	xmm13, byte ptr [rdx + r11 + 29], 9
-	pinsrb	xmm13, byte ptr [rdx + rbx + 29], 10
-	pinsrb	xmm13, byte ptr [rdx + r14 + 29], 11
-	pinsrb	xmm13, byte ptr [rdx + r15 + 29], 12
-	pinsrb	xmm13, byte ptr [rdx + rsi + 29], 13
-	pinsrb	xmm13, byte ptr [rdx + r12 + 29], 14
-	movdqa	xmm1, xmm15
-	pcmpeqb	xmm9, xmm15
-	pand	xmm9, xmmword ptr [rip + .LCPI2_12]
-	pcmpeqb	xmm4, xmm15
-	pand	xmm4, xmmword ptr [rip + .LCPI2_13]
-	por	xmm4, xmm9
-	pinsrb	xmm13, byte ptr [rdx + r8 + 29], 15
-	pcmpeqb	xmm13, xmm15
-	pand	xmm13, xmm7
-	por	xmm13, xmm4
-	pinsrb	xmm12, byte ptr [rdx + r10 + 30], 3
-	pinsrb	xmm0, byte ptr [rdx + r10 + 31], 3
-	pinsrb	xmm12, byte ptr [rdx + r13 + 30], 4
-	pinsrb	xmm0, byte ptr [rdx + r13 + 31], 4
-	pinsrb	xmm12, byte ptr [rdx + rcx + 30], 5
-	pinsrb	xmm0, byte ptr [rdx + rcx + 31], 5
-	pinsrb	xmm12, byte ptr [rdx + rdi + 30], 6
-	pinsrb	xmm0, byte ptr [rdx + rdi + 31], 6
-	pinsrb	xmm12, byte ptr [rdx + rax + 30], 7
-	pinsrb	xmm0, byte ptr [rdx + rax + 31], 7
-	pinsrb	xmm12, byte ptr [rdx + r9 + 30], 8
-	pinsrb	xmm0, byte ptr [rdx + r9 + 31], 8
-	pinsrb	xmm12, byte ptr [rdx + r11 + 30], 9
-	pinsrb	xmm0, byte ptr [rdx + r11 + 31], 9
-	pinsrb	xmm12, byte ptr [rdx + rbx + 30], 10
-	pinsrb	xmm0, byte ptr [rdx + rbx + 31], 10
-	pinsrb	xmm12, byte ptr [rdx + r14 + 30], 11
-	pinsrb	xmm0, byte ptr [rdx + r14 + 31], 11
-	pinsrb	xmm12, byte ptr [rdx + r15 + 30], 12
-	pinsrb	xmm0, byte ptr [rdx + r15 + 31], 12
-	pinsrb	xmm12, byte ptr [rdx + rsi + 30], 13
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 13
-	pinsrb	xmm12, byte ptr [rdx + r12 + 30], 14
-	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 14
-	pinsrb	xmm12, byte ptr [rdx + r8 + 30], 15
-	pinsrb	xmm0, byte ptr [rdx + r8 + 31], 15
-	por	xmm13, xmm11
-	pcmpeqb	xmm12, xmm15
-	pand	xmm12, xmm5
-	pcmpeqb	xmm0, xmm15
-	psllw	xmm0, 7
-	pand	xmm0, xmm6
-	por	xmm0, xmm12
-	por	xmm0, xmm13
-	movdqa	xmm1, xmm8
-	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	movdqa	xmm4, xmmword ptr [rsp + 208]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
-	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
-	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
-	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [rax + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	jne	.LBB2_186
-# %bb.187:
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	r14b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	jne	.LBB2_43
-	jmp	.LBB2_131
-.LBB2_188:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	rax, [rax + 4*r15]
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	movzx	eax, r14b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB2_189:                              # =>This Inner Loop Header: Depth=1
-	mov	r15, rax
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	shl	r15, 5
-	mov	rbx, r15
-	mov	rax, r15
-	mov	rcx, r15
-	mov	rdi, r15
-	mov	r8, r15
-	mov	r9, r15
-	mov	r11, r15
-	mov	r12, r15
-	mov	r10, r15
-	mov	r13, r15
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	movzx	esi, byte ptr [rdx + r15]
-	movd	xmm15, esi
-	movzx	esi, byte ptr [rdx + r15 + 1]
-	movd	xmm5, esi
-	movzx	esi, byte ptr [rdx + r15 + 2]
-	movd	xmm6, esi
-	movzx	esi, byte ptr [rdx + r15 + 3]
-	movd	xmm2, esi
-	movzx	esi, byte ptr [rdx + r15 + 4]
-	movd	xmm1, esi
-	movzx	esi, byte ptr [rdx + r15 + 5]
-	movd	xmm8, esi
-	movzx	esi, byte ptr [rdx + r15 + 6]
-	movd	xmm3, esi
-	movzx	esi, byte ptr [rdx + r15 + 7]
-	movd	xmm0, esi
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + r15 + 8]
-	movd	xmm0, esi
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + r15 + 9]
-	movd	xmm10, esi
-	movzx	esi, byte ptr [rdx + r15 + 10]
-	movd	xmm0, esi
-	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + r15 + 11]
-	movd	xmm11, esi
-	movzx	esi, byte ptr [rdx + r15 + 12]
-	movd	xmm13, esi
-	movzx	esi, byte ptr [rdx + r15 + 13]
-	movd	xmm12, esi
-	movzx	esi, byte ptr [rdx + r15 + 14]
-	movd	xmm0, esi
-	movdqa	xmmword ptr [rsp + 256], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	r14, r15
-	or	r14, 32
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	or	rbx, 64
-	mov	qword ptr [rsp + 72], rbx       # 8-byte Spill
-	or	rax, 96
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	or	rcx, 128
-	or	rdi, 160
-	or	r8, 192
-	or	r9, 224
-	or	r11, 256
-	or	r12, 288
-	mov	qword ptr [rsp + 64], r12       # 8-byte Spill
-	or	r10, 320
-	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
-	mov	r10, r15
-	or	r10, 352
-	mov	qword ptr [rsp + 80], r10       # 8-byte Spill
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	or	r12, 384
-	mov	rsi, r15
-	or	rsi, 416
-	mov	qword ptr [rsp + 16], rsi       # 8-byte Spill
-	or	r13, 448
-	mov	qword ptr [rsp + 24], r13       # 8-byte Spill
-	mov	rsi, r15
-	or	rsi, 480
-	mov	qword ptr [rsp + 40], rsi       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r14], 1
-	pinsrb	xmm15, byte ptr [rdx + rbx], 2
-	pinsrb	xmm15, byte ptr [rdx + rax], 3
-	mov	qword ptr [rsp + 128], rcx      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + rcx], 4
-	pinsrb	xmm15, byte ptr [rdx + rdi], 5
-	mov	qword ptr [rsp + 96], r8        # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r8], 6
-	mov	qword ptr [rsp + 208], r9       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r9], 7
-	mov	qword ptr [rsp + 120], r11      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r11], 8
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r14], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r15], 10
-	pinsrb	xmm15, byte ptr [rdx + r10], 11
-	mov	qword ptr [rsp + 32], r12       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r12], 12
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r10], 13
-	pinsrb	xmm15, byte ptr [rdx + r13], 14
-	pinsrb	xmm15, byte ptr [rdx + rsi], 15
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rbx + 1], 1
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rbx + 1], 2
-	pinsrb	xmm5, byte ptr [rdx + rax + 1], 3
-	pinsrb	xmm5, byte ptr [rdx + rcx + 1], 4
-	pinsrb	xmm5, byte ptr [rdx + rdi + 1], 5
-	pinsrb	xmm5, byte ptr [rdx + r8 + 1], 6
-	pinsrb	xmm5, byte ptr [rdx + r9 + 1], 7
-	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 8
-	pinsrb	xmm5, byte ptr [rdx + r14 + 1], 9
-	mov	rax, r14
-	pinsrb	xmm5, byte ptr [rdx + r15 + 1], 10
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rcx + 1], 11
-	pinsrb	xmm5, byte ptr [rdx + r12 + 1], 12
-	pinsrb	xmm5, byte ptr [rdx + r10 + 1], 13
-	pinsrb	xmm5, byte ptr [rdx + r13 + 1], 14
-	pinsrb	xmm5, byte ptr [rdx + rsi + 1], 15
-	movdqa	xmm9, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm5, xmm9
-	movdqa	xmm7, xmm5
-	movdqa	xmm4, xmmword ptr [rip + .LCPI2_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm7, xmm4
-	psubb	xmm7, xmm5
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r13 + 15]
-	movd	xmm14, esi
-	pcmpeqb	xmm15, xmm9
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rcx + 2], 1
-	pinsrb	xmm6, byte ptr [rdx + rbx + 2], 2
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r11 + 2], 3
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r8 + 2], 4
-	pinsrb	xmm6, byte ptr [rdx + rdi + 2], 5
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r12 + 2], 6
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r14 + 2], 7
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r15 + 2], 8
-	pinsrb	xmm6, byte ptr [rdx + rax + 2], 9
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 10
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r10 + 2], 11
-	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r9 + 2], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 13
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 15
-	pand	xmm15, xmm4
-	pcmpeqb	xmm6, xmm9
-	movdqa	xmm0, xmmword ptr [rip + .LCPI2_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm6, xmm0
-	por	xmm6, xmm15
-	movzx	esi, byte ptr [rdx + r13 + 16]
-	movd	xmm15, esi
-	pinsrb	xmm2, byte ptr [rdx + rcx + 3], 1
-	pinsrb	xmm2, byte ptr [rdx + rbx + 3], 2
-	mov	rcx, r11
-	pinsrb	xmm2, byte ptr [rdx + r11 + 3], 3
-	pinsrb	xmm2, byte ptr [rdx + r8 + 3], 4
-	mov	qword ptr [rsp + 136], rdi      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rdx + rdi + 3], 5
-	mov	r11, r12
-	pinsrb	xmm2, byte ptr [rdx + r12 + 3], 6
-	pinsrb	xmm2, byte ptr [rdx + r14 + 3], 7
-	mov	rsi, r15
-	pinsrb	xmm2, byte ptr [rdx + r15 + 3], 8
-	pinsrb	xmm2, byte ptr [rdx + rax + 3], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r15 + 3], 10
-	pinsrb	xmm2, byte ptr [rdx + r10 + 3], 11
-	pinsrb	xmm2, byte ptr [rdx + r9 + 3], 12
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r12 + 3], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 3], 15
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r13 + 4], 1
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rbx + 4], 2
-	pinsrb	xmm1, byte ptr [rdx + rcx + 4], 3
-	pinsrb	xmm1, byte ptr [rdx + r8 + 4], 4
-	pinsrb	xmm1, byte ptr [rdx + rdi + 4], 5
-	pinsrb	xmm1, byte ptr [rdx + r11 + 4], 6
-	pinsrb	xmm1, byte ptr [rdx + r14 + 4], 7
-	mov	r8, r14
-	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 8
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 9
-	pinsrb	xmm1, byte ptr [rdx + r15 + 4], 10
-	pinsrb	xmm1, byte ptr [rdx + r10 + 4], 11
-	mov	r15, r10
-	pinsrb	xmm1, byte ptr [rdx + r9 + 4], 12
-	pinsrb	xmm1, byte ptr [rdx + r12 + 4], 13
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rbx + 4], 14
-	pinsrb	xmm1, byte ptr [rdx + rax + 4], 15
-	mov	r10, rax
-	por	xmm6, xmm7
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 17]
-	movd	xmm0, esi
-	pcmpeqb	xmm2, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI2_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm2, xmm5
-	pcmpeqb	xmm1, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI2_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm1, xmm5
-	por	xmm1, xmm2
-	movzx	esi, byte ptr [rdx + rdi + 18]
-	movd	xmm5, esi
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r13 + 5], 1
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r11 + 5], 2
-	pinsrb	xmm8, byte ptr [rdx + rcx + 5], 3
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r14 + 5], 4
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r9 + 5], 5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax + 5], 6
-	mov	rcx, r8
-	pinsrb	xmm8, byte ptr [rdx + r8 + 5], 7
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r8 + 5], 8
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 9
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 10
-	pinsrb	xmm8, byte ptr [rdx + r15 + 5], 11
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r12 + 5], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 13
-	pinsrb	xmm8, byte ptr [rdx + rbx + 5], 14
-	pinsrb	xmm8, byte ptr [rdx + r10 + 5], 15
-	pcmpeqb	xmm8, xmm9
-	movdqa	xmm2, xmmword ptr [rip + .LCPI2_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm8, xmm2
-	por	xmm8, xmm1
-	movzx	esi, byte ptr [rdx + rdi + 19]
-	movd	xmm7, esi
-	por	xmm8, xmm6
-	movzx	esi, byte ptr [rdx + rdi + 20]
-	movd	xmm6, esi
-	pinsrb	xmm3, byte ptr [rdx + r13 + 6], 1
-	mov	rsi, r11
-	pinsrb	xmm3, byte ptr [rdx + r11 + 6], 2
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r10 + 6], 3
-	mov	r11, r14
-	pinsrb	xmm3, byte ptr [rdx + r14 + 6], 4
-	pinsrb	xmm3, byte ptr [rdx + r9 + 6], 5
-	pinsrb	xmm3, byte ptr [rdx + rax + 6], 6
-	pinsrb	xmm3, byte ptr [rdx + rcx + 6], 7
-	mov	r14, rcx
-	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 8
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rdi + 6], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r15 + 6], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 6], 11
-	mov	rbx, r12
-	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 12
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 13
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rcx + 6], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rcx + 6], 15
-	movdqa	xmm2, xmmword ptr [rsp + 192]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r13 + 7], 1
-	pinsrb	xmm2, byte ptr [rdx + rsi + 7], 2
-	mov	r13, rsi
-	pinsrb	xmm2, byte ptr [rdx + r10 + 7], 3
-	mov	r10, r11
-	pinsrb	xmm2, byte ptr [rdx + r11 + 7], 4
-	pinsrb	xmm2, byte ptr [rdx + r9 + 7], 5
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 7], 6
-	pinsrb	xmm2, byte ptr [rdx + r14 + 7], 7
-	pinsrb	xmm2, byte ptr [rdx + r8 + 7], 8
-	mov	rcx, r8
-	pinsrb	xmm2, byte ptr [rdx + rdi + 7], 9
-	pinsrb	xmm2, byte ptr [rdx + r15 + 7], 10
-	pinsrb	xmm2, byte ptr [rdx + rax + 7], 11
-	pinsrb	xmm2, byte ptr [rdx + rbx + 7], 12
-	pinsrb	xmm2, byte ptr [rdx + r12 + 7], 13
-	mov	r11, r12
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r12 + 7], 14
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 7], 15
-	pcmpeqb	xmm3, xmm9
-	movdqa	xmm1, xmmword ptr [rip + .LCPI2_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm1
-	pcmpeqb	xmm2, xmm9
-	psllw	xmm2, 7
-	movdqa	xmm1, xmmword ptr [rip + .LCPI2_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm2, xmm1
-	por	xmm2, xmm3
-	movdqa	xmm1, xmm2
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 21]
-	movd	xmm2, esi
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r9 + 9], 1
-	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 2
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r8 + 9], 3
-	pinsrb	xmm10, byte ptr [rdx + r10 + 9], 4
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rdi + 9], 5
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 6
-	pinsrb	xmm10, byte ptr [rdx + r14 + 9], 7
-	pinsrb	xmm10, byte ptr [rdx + rcx + 9], 8
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 9
-	pinsrb	xmm10, byte ptr [rdx + r15 + 9], 10
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 11
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 12
-	pinsrb	xmm10, byte ptr [rdx + r11 + 9], 13
-	pinsrb	xmm10, byte ptr [rdx + r12 + 9], 14
-	pinsrb	xmm10, byte ptr [rdx + rbx + 9], 15
-	por	xmm1, xmm8
-	movdqa	xmmword ptr [rsp + 192], xmm1   # 16-byte Spill
-	pcmpeqb	xmm10, xmm9
-	movdqa	xmm1, xmm10
-	movdqa	xmm8, xmm4
-	pand	xmm1, xmm4
-	psubb	xmm1, xmm10
-	movzx	esi, byte ptr [rdx + rax + 22]
-	movd	xmm3, esi
-	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r9 + 8], 1
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r12 + 8], 2
-	pinsrb	xmm4, byte ptr [rdx + r8 + 8], 3
-	mov	r8, r10
-	pinsrb	xmm4, byte ptr [rdx + r10 + 8], 4
-	pinsrb	xmm4, byte ptr [rdx + rdi + 8], 5
-	pinsrb	xmm4, byte ptr [rdx + r13 + 8], 6
-	pinsrb	xmm4, byte ptr [rdx + r14 + 8], 7
-	pinsrb	xmm4, byte ptr [rdx + rcx + 8], 8
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rbx + 8], 9
-	pinsrb	xmm4, byte ptr [rdx + r15 + 8], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 8], 11
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rsi + 8], 12
-	pinsrb	xmm4, byte ptr [rdx + r11 + 8], 13
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r10 + 8], 14
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rcx + 8], 15
-	pcmpeqb	xmm4, xmm9
-	pand	xmm4, xmm8
-	movdqa	xmm10, xmmword ptr [rsp + 160]  # 16-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r9 + 10], 1
-	pinsrb	xmm10, byte ptr [rdx + r12 + 10], 2
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r9 + 10], 3
-	pinsrb	xmm10, byte ptr [rdx + r8 + 10], 4
-	pinsrb	xmm10, byte ptr [rdx + rdi + 10], 5
-	pinsrb	xmm10, byte ptr [rdx + r13 + 10], 6
-	mov	r8, r13
-	pinsrb	xmm10, byte ptr [rdx + r14 + 10], 7
-	mov	r13, r14
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r14 + 10], 8
-	pinsrb	xmm10, byte ptr [rdx + rbx + 10], 9
-	pinsrb	xmm10, byte ptr [rdx + r15 + 10], 10
-	mov	rbx, r15
-	pinsrb	xmm10, byte ptr [rdx + rax + 10], 11
-	pinsrb	xmm10, byte ptr [rdx + rsi + 10], 12
-	pinsrb	xmm10, byte ptr [rdx + r11 + 10], 13
-	pinsrb	xmm10, byte ptr [rdx + r10 + 10], 14
-	pinsrb	xmm10, byte ptr [rdx + rcx + 10], 15
-	pcmpeqb	xmm10, xmm9
-	pand	xmm10, xmmword ptr [rip + .LCPI2_11]
-	por	xmm10, xmm4
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 23]
-	movd	xmm8, esi
-	por	xmm10, xmm1
-	movdqa	xmmword ptr [rsp + 160], xmm10  # 16-byte Spill
-	movzx	esi, byte ptr [rdx + rcx + 24]
-	movd	xmm10, esi
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r10 + 11], 1
-	pinsrb	xmm11, byte ptr [rdx + r12 + 11], 2
-	mov	rcx, r9
-	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 3
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r11 + 11], 4
-	pinsrb	xmm11, byte ptr [rdx + rdi + 11], 5
-	pinsrb	xmm11, byte ptr [rdx + r8 + 11], 6
-	mov	r15, r8
-	pinsrb	xmm11, byte ptr [rdx + r13 + 11], 7
-	pinsrb	xmm11, byte ptr [rdx + r14 + 11], 8
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r8 + 11], 9
-	pinsrb	xmm11, byte ptr [rdx + rbx + 11], 10
-	mov	rbx, rax
-	pinsrb	xmm11, byte ptr [rdx + rax + 11], 11
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r13 + 11], 12
-	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 13
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rsi + 11], 14
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rax + 11], 15
-	pinsrb	xmm13, byte ptr [rdx + r10 + 12], 1
-	pinsrb	xmm13, byte ptr [rdx + r12 + 12], 2
-	pinsrb	xmm13, byte ptr [rdx + rcx + 12], 3
-	pinsrb	xmm13, byte ptr [rdx + r11 + 12], 4
-	pinsrb	xmm13, byte ptr [rdx + rdi + 12], 5
-	pinsrb	xmm13, byte ptr [rdx + r15 + 12], 6
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r11 + 12], 7
-	pinsrb	xmm13, byte ptr [rdx + r14 + 12], 8
-	pinsrb	xmm13, byte ptr [rdx + r8 + 12], 9
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r15 + 12], 10
-	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 11
-	pinsrb	xmm13, byte ptr [rdx + r13 + 12], 12
-	pinsrb	xmm13, byte ptr [rdx + r9 + 12], 13
-	pinsrb	xmm13, byte ptr [rdx + rsi + 12], 14
-	pinsrb	xmm13, byte ptr [rdx + rax + 12], 15
-	pinsrb	xmm12, byte ptr [rdx + r10 + 13], 1
-	pinsrb	xmm12, byte ptr [rdx + r12 + 13], 2
-	pinsrb	xmm12, byte ptr [rdx + rcx + 13], 3
-	mov	r10, rcx
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rcx + 13], 4
-	pinsrb	xmm12, byte ptr [rdx + rdi + 13], 5
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rdi + 13], 6
-	pinsrb	xmm12, byte ptr [rdx + r11 + 13], 7
-	pinsrb	xmm12, byte ptr [rdx + r14 + 13], 8
-	mov	r14, r8
-	pinsrb	xmm12, byte ptr [rdx + r8 + 13], 9
-	pinsrb	xmm12, byte ptr [rdx + r15 + 13], 10
-	pinsrb	xmm12, byte ptr [rdx + rbx + 13], 11
-	pinsrb	xmm12, byte ptr [rdx + r13 + 13], 12
-	pinsrb	xmm12, byte ptr [rdx + r9 + 13], 13
-	mov	r13, r9
-	pinsrb	xmm12, byte ptr [rdx + rsi + 13], 14
-	pinsrb	xmm12, byte ptr [rdx + rax + 13], 15
-	pcmpeqb	xmm11, xmm9
-	pand	xmm11, xmmword ptr [rip + .LCPI2_12]
-	pcmpeqb	xmm13, xmm9
-	pand	xmm13, xmmword ptr [rip + .LCPI2_13]
-	por	xmm13, xmm11
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rbx + 25]
-	movd	xmm1, esi
-	pcmpeqb	xmm12, xmm9
-	pand	xmm12, xmmword ptr [rip + .LCPI2_14]
-	por	xmm12, xmm13
-	movzx	esi, byte ptr [rdx + rbx + 26]
-	movd	xmm11, esi
-	movdqa	xmm4, xmmword ptr [rsp + 256]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 14], 1
-	pinsrb	xmm4, byte ptr [rdx + r12 + 14], 2
-	pinsrb	xmm4, byte ptr [rdx + r10 + 14], 3
-	mov	rax, rcx
-	pinsrb	xmm4, byte ptr [rdx + rcx + 14], 4
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rcx + 14], 5
-	pinsrb	xmm4, byte ptr [rdx + rdi + 14], 6
-	mov	r8, r11
-	pinsrb	xmm4, byte ptr [rdx + r11 + 14], 7
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r9 + 14], 8
-	mov	rbx, r14
-	pinsrb	xmm4, byte ptr [rdx + r14 + 14], 9
-	mov	r11, r15
-	pinsrb	xmm4, byte ptr [rdx + r15 + 14], 10
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r14 + 14], 11
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r15 + 14], 12
-	pinsrb	xmm4, byte ptr [rdx + r13 + 14], 13
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r13 + 14], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rsi + 14], 15
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 1
-	pinsrb	xmm14, byte ptr [rdx + r12 + 15], 2
-	pinsrb	xmm14, byte ptr [rdx + r10 + 15], 3
-	pinsrb	xmm14, byte ptr [rdx + rax + 15], 4
-	pinsrb	xmm14, byte ptr [rdx + rcx + 15], 5
-	pinsrb	xmm14, byte ptr [rdx + rdi + 15], 6
-	pinsrb	xmm14, byte ptr [rdx + r8 + 15], 7
-	pinsrb	xmm14, byte ptr [rdx + r9 + 15], 8
-	pinsrb	xmm14, byte ptr [rdx + rbx + 15], 9
-	pinsrb	xmm14, byte ptr [rdx + r11 + 15], 10
-	pinsrb	xmm14, byte ptr [rdx + r14 + 15], 11
-	pinsrb	xmm14, byte ptr [rdx + r15 + 15], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 13
-	pinsrb	xmm14, byte ptr [rdx + r13 + 15], 14
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 15
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi + 16], 1
-	pinsrb	xmm15, byte ptr [rdx + r12 + 16], 2
-	pinsrb	xmm15, byte ptr [rdx + r10 + 16], 3
-	pinsrb	xmm15, byte ptr [rdx + rax + 16], 4
-	pinsrb	xmm15, byte ptr [rdx + rcx + 16], 5
-	pinsrb	xmm15, byte ptr [rdx + rdi + 16], 6
-	pinsrb	xmm15, byte ptr [rdx + r8 + 16], 7
-	pinsrb	xmm15, byte ptr [rdx + r9 + 16], 8
-	pinsrb	xmm15, byte ptr [rdx + rbx + 16], 9
-	pinsrb	xmm15, byte ptr [rdx + r11 + 16], 10
-	pinsrb	xmm15, byte ptr [rdx + r14 + 16], 11
-	pinsrb	xmm15, byte ptr [rdx + r15 + 16], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi + 16], 13
-	pinsrb	xmm15, byte ptr [rdx + r13 + 16], 14
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 1
-	pinsrb	xmm0, byte ptr [rdx + r12 + 17], 2
-	pinsrb	xmm0, byte ptr [rdx + r10 + 17], 3
-	pinsrb	xmm0, byte ptr [rdx + rax + 17], 4
-	mov	r13, rax
-	pinsrb	xmm0, byte ptr [rdx + rcx + 17], 5
-	pinsrb	xmm0, byte ptr [rdx + rdi + 17], 6
-	pinsrb	xmm0, byte ptr [rdx + r8 + 17], 7
-	mov	rax, r8
-	pinsrb	xmm0, byte ptr [rdx + r9 + 17], 8
-	pinsrb	xmm0, byte ptr [rdx + rbx + 17], 9
-	pinsrb	xmm0, byte ptr [rdx + r11 + 17], 10
-	pinsrb	xmm0, byte ptr [rdx + r14 + 17], 11
-	pinsrb	xmm0, byte ptr [rdx + r15 + 17], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 13
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 14
-	por	xmm12, xmmword ptr [rsp + 160]  # 16-byte Folded Reload
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 27]
-	movd	xmm9, esi
-	movdqa	xmm13, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm4, xmm13
-	pand	xmm4, xmmword ptr [rip + .LCPI2_15]
-	pcmpeqb	xmm14, xmm13
-	psllw	xmm14, 7
-	pand	xmm14, xmmword ptr [rip + .LCPI2_6]
-	por	xmm14, xmm4
-	movzx	esi, byte ptr [rdx + r12 + 28]
-	movd	xmm4, esi
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r8 + 17], 15
-	por	xmm14, xmm12
-	pcmpeqb	xmm0, xmm13
-	movdqa	xmm13, xmm0
-	movdqa	xmm12, xmmword ptr [rip + .LCPI2_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm13, xmm12
-	psubb	xmm13, xmm0
-	movdqa	xmmword ptr [rsp + 160], xmm13  # 16-byte Spill
-	movzx	esi, byte ptr [rdx + r12 + 29]
-	movd	xmm13, esi
-	pinsrb	xmm15, byte ptr [rdx + r8 + 16], 15
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm15, xmm0
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r12 + 18], 1
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 2
-	pinsrb	xmm5, byte ptr [rdx + r10 + 18], 3
-	pinsrb	xmm5, byte ptr [rdx + r13 + 18], 4
-	pinsrb	xmm5, byte ptr [rdx + rcx + 18], 5
-	pinsrb	xmm5, byte ptr [rdx + rdi + 18], 6
-	pinsrb	xmm5, byte ptr [rdx + rax + 18], 7
-	pinsrb	xmm5, byte ptr [rdx + r9 + 18], 8
-	pinsrb	xmm5, byte ptr [rdx + rbx + 18], 9
-	pinsrb	xmm5, byte ptr [rdx + r11 + 18], 10
-	pinsrb	xmm5, byte ptr [rdx + r14 + 18], 11
-	pinsrb	xmm5, byte ptr [rdx + r15 + 18], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 13
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 14
-	pand	xmm15, xmm12
-	pinsrb	xmm5, byte ptr [rdx + r8 + 18], 15
-	pcmpeqb	xmm5, xmm0
-	pand	xmm5, xmmword ptr [rip + .LCPI2_11]
-	por	xmm5, xmm15
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 30]
-	movd	xmm12, esi
-	pinsrb	xmm7, byte ptr [rdx + r12 + 19], 1
-	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 1
-	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 1
-	pinsrb	xmm3, byte ptr [rdx + r12 + 22], 1
-	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 1
-	pinsrb	xmm10, byte ptr [rdx + r12 + 24], 1
-	pinsrb	xmm1, byte ptr [rdx + r12 + 25], 1
-	pinsrb	xmm11, byte ptr [rdx + r12 + 26], 1
-	pinsrb	xmm9, byte ptr [rdx + r12 + 27], 1
-	pinsrb	xmm4, byte ptr [rdx + r12 + 28], 1
-	pinsrb	xmm13, byte ptr [rdx + r12 + 29], 1
-	pinsrb	xmm12, byte ptr [rdx + r12 + 30], 1
-	movzx	esi, byte ptr [rdx + rax + 31]
-	movd	xmm0, esi
-	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 1
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 19], 2
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 2
-	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 2
-	pinsrb	xmm3, byte ptr [rdx + rsi + 22], 2
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 2
-	pinsrb	xmm10, byte ptr [rdx + rsi + 24], 2
-	pinsrb	xmm1, byte ptr [rdx + rsi + 25], 2
-	pinsrb	xmm11, byte ptr [rdx + rsi + 26], 2
-	pinsrb	xmm9, byte ptr [rdx + rsi + 27], 2
-	pinsrb	xmm4, byte ptr [rdx + rsi + 28], 2
-	pinsrb	xmm13, byte ptr [rdx + rsi + 29], 2
-	pinsrb	xmm12, byte ptr [rdx + rsi + 30], 2
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 2
-	pinsrb	xmm7, byte ptr [rdx + r10 + 19], 3
-	pinsrb	xmm7, byte ptr [rdx + r13 + 19], 4
-	pinsrb	xmm7, byte ptr [rdx + rcx + 19], 5
-	pinsrb	xmm7, byte ptr [rdx + rdi + 19], 6
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 19], 7
-	pinsrb	xmm7, byte ptr [rdx + r9 + 19], 8
-	pinsrb	xmm7, byte ptr [rdx + rbx + 19], 9
-	pinsrb	xmm7, byte ptr [rdx + r11 + 19], 10
-	pinsrb	xmm7, byte ptr [rdx + r14 + 19], 11
-	pinsrb	xmm7, byte ptr [rdx + r15 + 19], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 19], 13
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r12 + 19], 14
-	pinsrb	xmm7, byte ptr [rdx + r8 + 19], 15
-	pinsrb	xmm6, byte ptr [rdx + r10 + 20], 3
-	pinsrb	xmm6, byte ptr [rdx + r13 + 20], 4
-	pinsrb	xmm6, byte ptr [rdx + rcx + 20], 5
-	pinsrb	xmm6, byte ptr [rdx + rdi + 20], 6
-	pinsrb	xmm6, byte ptr [rdx + rax + 20], 7
-	pinsrb	xmm6, byte ptr [rdx + r9 + 20], 8
-	pinsrb	xmm6, byte ptr [rdx + rbx + 20], 9
-	pinsrb	xmm6, byte ptr [rdx + r11 + 20], 10
-	pinsrb	xmm6, byte ptr [rdx + r14 + 20], 11
-	pinsrb	xmm6, byte ptr [rdx + r15 + 20], 12
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 13
-	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 14
-	por	xmm5, xmmword ptr [rsp + 160]   # 16-byte Folded Reload
-	pinsrb	xmm6, byte ptr [rdx + r8 + 20], 15
-	movdqa	xmm15, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm7, xmm15
-	pand	xmm7, xmmword ptr [rip + .LCPI2_12]
-	pcmpeqb	xmm6, xmm15
-	pand	xmm6, xmmword ptr [rip + .LCPI2_13]
-	por	xmm6, xmm7
-	pinsrb	xmm2, byte ptr [rdx + r10 + 21], 3
-	pinsrb	xmm2, byte ptr [rdx + r13 + 21], 4
-	pinsrb	xmm2, byte ptr [rdx + rcx + 21], 5
-	pinsrb	xmm2, byte ptr [rdx + rdi + 21], 6
-	pinsrb	xmm2, byte ptr [rdx + rax + 21], 7
-	pinsrb	xmm2, byte ptr [rdx + r9 + 21], 8
-	pinsrb	xmm2, byte ptr [rdx + rbx + 21], 9
-	pinsrb	xmm2, byte ptr [rdx + r11 + 21], 10
-	pinsrb	xmm2, byte ptr [rdx + r14 + 21], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 21], 12
-	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 13
-	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 14
-	pinsrb	xmm2, byte ptr [rdx + r8 + 21], 15
-	pcmpeqb	xmm2, xmm15
-	movdqa	xmm7, xmmword ptr [rip + .LCPI2_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm2, xmm7
-	por	xmm2, xmm6
-	por	xmm2, xmm5
-	pinsrb	xmm3, byte ptr [rdx + r10 + 22], 3
-	pinsrb	xmm3, byte ptr [rdx + r13 + 22], 4
-	pinsrb	xmm3, byte ptr [rdx + rcx + 22], 5
-	pinsrb	xmm3, byte ptr [rdx + rdi + 22], 6
-	pinsrb	xmm3, byte ptr [rdx + rax + 22], 7
-	pinsrb	xmm3, byte ptr [rdx + r9 + 22], 8
-	pinsrb	xmm3, byte ptr [rdx + rbx + 22], 9
-	pinsrb	xmm3, byte ptr [rdx + r11 + 22], 10
-	pinsrb	xmm3, byte ptr [rdx + r14 + 22], 11
-	pinsrb	xmm3, byte ptr [rdx + r15 + 22], 12
-	pinsrb	xmm3, byte ptr [rdx + rsi + 22], 13
-	pinsrb	xmm3, byte ptr [rdx + r12 + 22], 14
-	pinsrb	xmm3, byte ptr [rdx + r8 + 22], 15
-	pinsrb	xmm8, byte ptr [rdx + r10 + 23], 3
-	pinsrb	xmm8, byte ptr [rdx + r13 + 23], 4
-	pinsrb	xmm8, byte ptr [rdx + rcx + 23], 5
-	pinsrb	xmm8, byte ptr [rdx + rdi + 23], 6
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 7
-	pinsrb	xmm8, byte ptr [rdx + r9 + 23], 8
-	pinsrb	xmm8, byte ptr [rdx + rbx + 23], 9
-	pinsrb	xmm8, byte ptr [rdx + r11 + 23], 10
-	pinsrb	xmm8, byte ptr [rdx + r14 + 23], 11
-	pinsrb	xmm8, byte ptr [rdx + r15 + 23], 12
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 13
-	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 14
-	pinsrb	xmm8, byte ptr [rdx + r8 + 23], 15
-	pcmpeqb	xmm3, xmm15
-	movdqa	xmm5, xmmword ptr [rip + .LCPI2_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm5
-	pcmpeqb	xmm8, xmm15
-	psllw	xmm8, 7
-	movdqa	xmm6, xmmword ptr [rip + .LCPI2_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm6
-	por	xmm8, xmm3
-	pinsrb	xmm1, byte ptr [rdx + r10 + 25], 3
-	pinsrb	xmm1, byte ptr [rdx + r13 + 25], 4
-	pinsrb	xmm1, byte ptr [rdx + rcx + 25], 5
-	pinsrb	xmm1, byte ptr [rdx + rdi + 25], 6
-	pinsrb	xmm1, byte ptr [rdx + rax + 25], 7
-	pinsrb	xmm1, byte ptr [rdx + r9 + 25], 8
-	pinsrb	xmm1, byte ptr [rdx + rbx + 25], 9
-	pinsrb	xmm1, byte ptr [rdx + r11 + 25], 10
-	pinsrb	xmm1, byte ptr [rdx + r14 + 25], 11
-	pinsrb	xmm1, byte ptr [rdx + r15 + 25], 12
-	pinsrb	xmm1, byte ptr [rdx + rsi + 25], 13
-	pinsrb	xmm1, byte ptr [rdx + r12 + 25], 14
-	pinsrb	xmm1, byte ptr [rdx + r8 + 25], 15
-	por	xmm8, xmm2
-	pcmpeqb	xmm1, xmm15
-	movdqa	xmm2, xmm1
-	movdqa	xmm3, xmmword ptr [rip + .LCPI2_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm2, xmm3
-	psubb	xmm2, xmm1
-	pinsrb	xmm10, byte ptr [rdx + r10 + 24], 3
-	pinsrb	xmm10, byte ptr [rdx + r13 + 24], 4
-	pinsrb	xmm10, byte ptr [rdx + rcx + 24], 5
-	pinsrb	xmm10, byte ptr [rdx + rdi + 24], 6
-	pinsrb	xmm10, byte ptr [rdx + rax + 24], 7
-	pinsrb	xmm10, byte ptr [rdx + r9 + 24], 8
-	pinsrb	xmm10, byte ptr [rdx + rbx + 24], 9
-	pinsrb	xmm10, byte ptr [rdx + r11 + 24], 10
-	pinsrb	xmm10, byte ptr [rdx + r14 + 24], 11
-	pinsrb	xmm10, byte ptr [rdx + r15 + 24], 12
-	pinsrb	xmm10, byte ptr [rdx + rsi + 24], 13
-	pinsrb	xmm10, byte ptr [rdx + r12 + 24], 14
-	pinsrb	xmm10, byte ptr [rdx + r8 + 24], 15
-	pcmpeqb	xmm10, xmm15
-	pand	xmm10, xmm3
-	pinsrb	xmm11, byte ptr [rdx + r10 + 26], 3
-	pinsrb	xmm11, byte ptr [rdx + r13 + 26], 4
-	pinsrb	xmm11, byte ptr [rdx + rcx + 26], 5
-	pinsrb	xmm11, byte ptr [rdx + rdi + 26], 6
-	pinsrb	xmm11, byte ptr [rdx + rax + 26], 7
-	pinsrb	xmm11, byte ptr [rdx + r9 + 26], 8
-	pinsrb	xmm11, byte ptr [rdx + rbx + 26], 9
-	pinsrb	xmm11, byte ptr [rdx + r11 + 26], 10
-	pinsrb	xmm11, byte ptr [rdx + r14 + 26], 11
-	pinsrb	xmm11, byte ptr [rdx + r15 + 26], 12
-	pinsrb	xmm11, byte ptr [rdx + rsi + 26], 13
-	pinsrb	xmm11, byte ptr [rdx + r12 + 26], 14
-	pinsrb	xmm11, byte ptr [rdx + r8 + 26], 15
-	pcmpeqb	xmm11, xmm15
-	pand	xmm11, xmmword ptr [rip + .LCPI2_11]
-	por	xmm11, xmm10
-	por	xmm11, xmm2
-	pinsrb	xmm9, byte ptr [rdx + r10 + 27], 3
-	pinsrb	xmm9, byte ptr [rdx + r13 + 27], 4
-	pinsrb	xmm9, byte ptr [rdx + rcx + 27], 5
-	pinsrb	xmm9, byte ptr [rdx + rdi + 27], 6
-	pinsrb	xmm9, byte ptr [rdx + rax + 27], 7
-	pinsrb	xmm9, byte ptr [rdx + r9 + 27], 8
-	pinsrb	xmm9, byte ptr [rdx + rbx + 27], 9
-	pinsrb	xmm9, byte ptr [rdx + r11 + 27], 10
-	pinsrb	xmm9, byte ptr [rdx + r14 + 27], 11
-	pinsrb	xmm9, byte ptr [rdx + r15 + 27], 12
-	pinsrb	xmm9, byte ptr [rdx + rsi + 27], 13
-	pinsrb	xmm9, byte ptr [rdx + r12 + 27], 14
-	pinsrb	xmm9, byte ptr [rdx + r8 + 27], 15
-	pinsrb	xmm4, byte ptr [rdx + r10 + 28], 3
-	pinsrb	xmm4, byte ptr [rdx + r13 + 28], 4
-	pinsrb	xmm4, byte ptr [rdx + rcx + 28], 5
-	pinsrb	xmm4, byte ptr [rdx + rdi + 28], 6
-	pinsrb	xmm4, byte ptr [rdx + rax + 28], 7
-	pinsrb	xmm4, byte ptr [rdx + r9 + 28], 8
-	pinsrb	xmm4, byte ptr [rdx + rbx + 28], 9
-	pinsrb	xmm4, byte ptr [rdx + r11 + 28], 10
-	pinsrb	xmm4, byte ptr [rdx + r14 + 28], 11
-	pinsrb	xmm4, byte ptr [rdx + r15 + 28], 12
-	pinsrb	xmm4, byte ptr [rdx + rsi + 28], 13
-	pinsrb	xmm4, byte ptr [rdx + r12 + 28], 14
-	pinsrb	xmm4, byte ptr [rdx + r8 + 28], 15
-	pinsrb	xmm13, byte ptr [rdx + r10 + 29], 3
-	pinsrb	xmm13, byte ptr [rdx + r13 + 29], 4
-	pinsrb	xmm13, byte ptr [rdx + rcx + 29], 5
-	pinsrb	xmm13, byte ptr [rdx + rdi + 29], 6
-	pinsrb	xmm13, byte ptr [rdx + rax + 29], 7
-	pinsrb	xmm13, byte ptr [rdx + r9 + 29], 8
-	pinsrb	xmm13, byte ptr [rdx + rbx + 29], 9
-	pinsrb	xmm13, byte ptr [rdx + r11 + 29], 10
-	pinsrb	xmm13, byte ptr [rdx + r14 + 29], 11
-	pinsrb	xmm13, byte ptr [rdx + r15 + 29], 12
-	pinsrb	xmm13, byte ptr [rdx + rsi + 29], 13
-	pinsrb	xmm13, byte ptr [rdx + r12 + 29], 14
-	movdqa	xmm1, xmm15
-	pcmpeqb	xmm9, xmm15
-	pand	xmm9, xmmword ptr [rip + .LCPI2_12]
-	pcmpeqb	xmm4, xmm15
-	pand	xmm4, xmmword ptr [rip + .LCPI2_13]
-	por	xmm4, xmm9
-	pinsrb	xmm13, byte ptr [rdx + r8 + 29], 15
-	pcmpeqb	xmm13, xmm15
-	pand	xmm13, xmm7
-	por	xmm13, xmm4
-	pinsrb	xmm12, byte ptr [rdx + r10 + 30], 3
-	pinsrb	xmm0, byte ptr [rdx + r10 + 31], 3
-	pinsrb	xmm12, byte ptr [rdx + r13 + 30], 4
-	pinsrb	xmm0, byte ptr [rdx + r13 + 31], 4
-	pinsrb	xmm12, byte ptr [rdx + rcx + 30], 5
-	pinsrb	xmm0, byte ptr [rdx + rcx + 31], 5
-	pinsrb	xmm12, byte ptr [rdx + rdi + 30], 6
-	pinsrb	xmm0, byte ptr [rdx + rdi + 31], 6
-	pinsrb	xmm12, byte ptr [rdx + rax + 30], 7
-	pinsrb	xmm0, byte ptr [rdx + rax + 31], 7
-	pinsrb	xmm12, byte ptr [rdx + r9 + 30], 8
-	pinsrb	xmm0, byte ptr [rdx + r9 + 31], 8
-	pinsrb	xmm12, byte ptr [rdx + rbx + 30], 9
-	pinsrb	xmm0, byte ptr [rdx + rbx + 31], 9
-	pinsrb	xmm12, byte ptr [rdx + r11 + 30], 10
-	pinsrb	xmm0, byte ptr [rdx + r11 + 31], 10
-	pinsrb	xmm12, byte ptr [rdx + r14 + 30], 11
-	pinsrb	xmm0, byte ptr [rdx + r14 + 31], 11
-	pinsrb	xmm12, byte ptr [rdx + r15 + 30], 12
-	pinsrb	xmm0, byte ptr [rdx + r15 + 31], 12
-	pinsrb	xmm12, byte ptr [rdx + rsi + 30], 13
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 13
-	pinsrb	xmm12, byte ptr [rdx + r12 + 30], 14
-	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 14
-	pinsrb	xmm12, byte ptr [rdx + r8 + 30], 15
-	pinsrb	xmm0, byte ptr [rdx + r8 + 31], 15
-	por	xmm13, xmm11
-	pcmpeqb	xmm12, xmm15
-	pand	xmm12, xmm5
-	pcmpeqb	xmm0, xmm15
-	psllw	xmm0, 7
-	pand	xmm0, xmm6
-	por	xmm0, xmm12
-	por	xmm0, xmm13
-	movdqa	xmm1, xmm8
-	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	movdqa	xmm4, xmmword ptr [rsp + 192]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
-	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
-	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
-	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [rax + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	jne	.LBB2_189
-# %bb.190:
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	r14b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	jne	.LBB2_69
-	jmp	.LBB2_135
-.LBB2_191:
-	and	r14, -8
-	mov	rax, r14
-	shl	rax, 6
-	add	rax, rdx
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 32], r14       # 8-byte Spill
-	lea	rax, [rax + 4*r14]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	dword ptr [rsp + 56], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	movdqa	xmm15, xmmword ptr [rip + .LCPI2_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	movdqa	xmm9, xmmword ptr [rip + .LCPI2_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI2_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI2_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI2_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI2_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI2_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	.p2align	4, 0x90
-.LBB2_192:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r9, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rcx, r15
-	mov	rdi, r15
-	mov	rbx, r15
-	movzx	eax, word ptr [rdx + r15]
-	movzx	r10d, word ptr [rdx + r15 + 2]
-	movzx	r14d, word ptr [rdx + r15 + 4]
-	movzx	esi, word ptr [rdx + r15 + 6]
-	movzx	r11d, word ptr [rdx + r15 + 8]
-	mov	r8, r15
-	or	r8, 64
-	or	r9, 128
-	or	r12, 192
-	or	r13, 256
-	or	rcx, 320
-	or	rdi, 384
-	or	rbx, 448
-	movd	xmm4, eax
-	pinsrw	xmm4, word ptr [rdx + r8], 1
-	pinsrw	xmm4, word ptr [rdx + r9], 2
-	pinsrw	xmm4, word ptr [rdx + r12], 3
-	pinsrw	xmm4, word ptr [rdx + r13], 4
-	pinsrw	xmm4, word ptr [rdx + rcx], 5
-	pinsrw	xmm4, word ptr [rdx + rdi], 6
-	pinsrw	xmm4, word ptr [rdx + rbx], 7
-	movzx	eax, word ptr [rdx + r15 + 10]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	movd	xmm6, r10d
-	pinsrw	xmm6, word ptr [rdx + r8 + 2], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 2], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 2], 3
-	movzx	eax, word ptr [rdx + r15 + 12]
-	mov	dword ptr [rsp + 16], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rdx + r13 + 2], 4
-	movd	xmm2, r14d
-	movzx	r14d, word ptr [rdx + r15 + 14]
-	pinsrw	xmm6, word ptr [rdx + rcx + 2], 5
-	movd	xmm5, esi
-	movzx	esi, word ptr [rdx + r15 + 16]
-	pinsrw	xmm6, word ptr [rdx + rdi + 2], 6
-	movd	xmm3, r11d
-	movzx	eax, word ptr [rdx + r15 + 18]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rdx + rbx + 2], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	movdqa	xmm1, xmm6
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm6
-	movd	xmm6, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm6 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rdx + r15 + 20]
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	pinsrw	xmm2, word ptr [rdx + r8 + 4], 1
-	pinsrw	xmm2, word ptr [rdx + r9 + 4], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 4], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 4], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 4], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 4], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 4], 7
-	pinsrw	xmm5, word ptr [rdx + r8 + 6], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 6], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 6], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 6], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 6], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 6], 6
-	pinsrw	xmm5, word ptr [rdx + rbx + 6], 7
-	pinsrw	xmm3, word ptr [rdx + r8 + 8], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 8], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 8], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 8], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 8], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 8], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 8], 7
-	por	xmm1, xmm4
-	movd	xmm7, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rdx + r15 + 22]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 2
-	pand	xmm2, xmm9
-	por	xmm2, xmm1
-	movd	xmm4, r14d
-	movzx	r11d, word ptr [rdx + r15 + 24]
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm5
-	movd	xmm1, esi
-	movzx	esi, word ptr [rdx + r15 + 26]
-	pinsrw	xmm6, word ptr [rdx + r8 + 10], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 10], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 10], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 10], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 10], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 10], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 10], 7
-	pinsrw	xmm7, word ptr [rdx + r8 + 12], 1
-	pinsrw	xmm7, word ptr [rdx + r9 + 12], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 12], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 12], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 12], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 12], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 12], 7
-	por	xmm3, xmm2
-	movd	xmm8, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm8 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rdx + r15 + 28]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm5, r10d
-	movzx	r10d, word ptr [rdx + r15 + 30]
-	pinsrw	xmm4, word ptr [rdx + r8 + 14], 1
-	pinsrw	xmm4, word ptr [rdx + r9 + 14], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 14], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 14], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 14], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 14], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 14], 7
-	pinsrw	xmm8, word ptr [rdx + r8 + 18], 1
-	pinsrw	xmm8, word ptr [rdx + r9 + 18], 2
-	pinsrw	xmm8, word ptr [rdx + r12 + 18], 3
-	pinsrw	xmm8, word ptr [rdx + r13 + 18], 4
-	pinsrw	xmm8, word ptr [rdx + rcx + 18], 5
-	pinsrw	xmm8, word ptr [rdx + rdi + 18], 6
-	pinsrw	xmm8, word ptr [rdx + rbx + 18], 7
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rdx + r15 + 32]
-	por	xmm4, xmm3
-	pcmpeqw	xmm8, xmm0
-	packsswb	xmm8, xmm8
-	movdqa	xmm7, xmm8
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm8
-	movd	xmm3, r11d
-	movzx	r11d, word ptr [rdx + r15 + 34]
-	pinsrw	xmm1, word ptr [rdx + r8 + 16], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 16], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 16], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 16], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 16], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 16], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 16], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	por	xmm7, xmm1
-	movd	xmm6, esi
-	movzx	esi, word ptr [rdx + r15 + 36]
-	mov	dword ptr [rsp + 40], esi       # 4-byte Spill
-	pinsrw	xmm5, word ptr [rdx + r8 + 20], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 20], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 20], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 20], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 20], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 20], 6
-	pinsrw	xmm5, word ptr [rdx + rbx + 20], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm9
-	por	xmm5, xmm7
-	movd	xmm7, r14d
-	movzx	esi, word ptr [rdx + r15 + 38]
-	mov	dword ptr [rsp + 16], esi       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rdx + r8 + 22], 1
-	pinsrw	xmm2, word ptr [rdx + r9 + 22], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 22], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 22], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 22], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 22], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 22], 7
-	pinsrw	xmm3, word ptr [rdx + r8 + 24], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 24], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 24], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 24], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 24], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 24], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 24], 7
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm2
-	movd	xmm2, r10d
-	movzx	r14d, word ptr [rdx + r15 + 40]
-	por	xmm3, xmm5
-	movd	xmm5, eax
-	movzx	eax, word ptr [rdx + r15 + 42]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rdx + r8 + 26], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 26], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 26], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 26], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 26], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 26], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 26], 7
-	pinsrw	xmm7, word ptr [rdx + r8 + 28], 1
-	pinsrw	xmm7, word ptr [rdx + r9 + 28], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 28], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 28], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 28], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 28], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 28], 7
-	pinsrw	xmm2, word ptr [rdx + r8 + 30], 1
-	pinsrw	xmm2, word ptr [rdx + r9 + 30], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 30], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 30], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 30], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 30], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 30], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm1, r11d
-	movzx	r10d, word ptr [rdx + r15 + 44]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm14
-	por	xmm2, xmm7
-	movd	xmm6, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm6 = mem[0],zero,zero,zero
-	movzx	esi, word ptr [rdx + r15 + 46]
-	pinsrw	xmm5, word ptr [rdx + r8 + 32], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 32], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 32], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 32], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 32], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 32], 6
-	pinsrw	xmm1, word ptr [rdx + r8 + 34], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 34], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 34], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 34], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 34], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 34], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 34], 7
-	por	xmm2, xmm3
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm7, xmm1
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm1
-	movd	xmm3, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	r11d, word ptr [rdx + r15 + 48]
-	pinsrw	xmm5, word ptr [rdx + rbx + 32], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	pinsrw	xmm6, word ptr [rdx + r8 + 36], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 36], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 36], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 36], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 36], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 36], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 36], 7
-	pinsrw	xmm3, word ptr [rdx + r8 + 38], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 38], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 38], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 38], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 38], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 38], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 38], 7
-	por	xmm7, xmm5
-	movd	xmm5, r14d
-	pinsrw	xmm5, word ptr [rdx + r8 + 40], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 40], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 40], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 40], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 40], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 40], 6
-	movzx	eax, word ptr [rdx + r15 + 50]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	pand	xmm6, xmm9
-	por	xmm6, xmm7
-	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rdx + r15 + 52]
-	pinsrw	xmm5, word ptr [rdx + rbx + 40], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 3
-	pand	xmm3, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm3
-	movd	xmm7, r10d
-	movzx	r10d, word ptr [rdx + r15 + 54]
-	pinsrw	xmm1, word ptr [rdx + r8 + 42], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 42], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 42], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 42], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 42], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 42], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 42], 7
-	pinsrw	xmm7, word ptr [rdx + r8 + 44], 1
-	pinsrw	xmm7, word ptr [rdx + r9 + 44], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 44], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 44], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 44], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 44], 6
-	por	xmm5, xmm6
-	movd	xmm3, esi
-	movzx	esi, word ptr [rdx + r15 + 56]
-	pinsrw	xmm7, word ptr [rdx + rbx + 44], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 5
-	pand	xmm1, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm1
-	movd	xmm6, r11d
-	movzx	r11d, word ptr [rdx + r15 + 58]
-	pinsrw	xmm3, word ptr [rdx + r8 + 46], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 46], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 46], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 46], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 46], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 46], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 46], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm7
-	movd	xmm1, eax
-	movzx	eax, word ptr [rdx + r15 + 60]
-	movzx	r15d, word ptr [rdx + r15 + 62]
-	pinsrw	xmm1, word ptr [rdx + r8 + 50], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 50], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 50], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 50], 7
-	por	xmm3, xmm5
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movd	xmm1, r14d
-	pinsrw	xmm6, word ptr [rdx + r8 + 48], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 48], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 48], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 48], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 48], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 48], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 48], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pinsrw	xmm1, word ptr [rdx + r8 + 52], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 52], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 52], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 52], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 52], 5
-	pand	xmm6, xmm15
-	pinsrw	xmm1, word ptr [rdx + rdi + 52], 6
-	por	xmm5, xmm6
-	movd	xmm6, r10d
-	pinsrw	xmm1, word ptr [rdx + rbx + 52], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 2
-	pand	xmm1, xmm9
-	por	xmm1, xmm5
-	movd	xmm5, esi
-	pinsrw	xmm6, word ptr [rdx + r8 + 54], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 54], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 54], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 54], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 54], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 54], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 54], 7
-	pinsrw	xmm5, word ptr [rdx + r8 + 56], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 56], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 56], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 56], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 56], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 56], 6
-	pinsrw	xmm5, word ptr [rdx + rbx + 56], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 3
-	pand	xmm6, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm6
-	movd	xmm6, r11d
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	pinsrw	xmm6, word ptr [rdx + r8 + 58], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 58], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 58], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 58], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 58], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 58], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 58], 7
-	por	xmm5, xmm1
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rdx + r8 + 60], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 60], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 60], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 60], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 60], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 60], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 60], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 6
-	pand	xmm1, xmm13
-	por	xmm1, xmm6
-	movd	xmm6, r15d
-	pinsrw	xmm6, word ptr [rdx + r8 + 62], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 62], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 62], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 62], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 62], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 62], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 62], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	psllw	xmm6, 7
-	pand	xmm6, xmm14
-	por	xmm6, xmm1
-	por	xmm6, xmm5
-	movdqa	xmm1, xmm4
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqa	xmm5, xmm3
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqa	xmm7, xmmword ptr [rip + .LCPI2_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm5, xmm7
-	pshufb	xmm1, xmm7
-	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
-	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	movdqu	xmmword ptr [rsi + 4*rcx], xmm4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	movdqu	xmmword ptr [rsi + 4*rcx + 16], xmm1
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	jne	.LBB2_192
-# %bb.193:
-	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
-	cmp	r14, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 56]      # 4-byte Reload
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	jne	.LBB2_92
-	jmp	.LBB2_139
-.LBB2_194:
-	and	r15, -8
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rdx
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	lea	rax, [rax + 4*r15]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	dword ptr [rsp + 56], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	movdqa	xmm15, xmmword ptr [rip + .LCPI2_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	movdqa	xmm9, xmmword ptr [rip + .LCPI2_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI2_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI2_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI2_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI2_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI2_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	.p2align	4, 0x90
-.LBB2_195:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r9, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rcx, r15
-	mov	rdi, r15
-	mov	rbx, r15
-	movzx	eax, word ptr [rdx + r15]
-	movzx	r10d, word ptr [rdx + r15 + 2]
-	movzx	r14d, word ptr [rdx + r15 + 4]
-	movzx	esi, word ptr [rdx + r15 + 6]
-	movzx	r11d, word ptr [rdx + r15 + 8]
-	mov	r8, r15
-	or	r8, 64
-	or	r9, 128
-	or	r12, 192
-	or	r13, 256
-	or	rcx, 320
-	or	rdi, 384
-	or	rbx, 448
-	movd	xmm4, eax
-	pinsrw	xmm4, word ptr [rdx + r8], 1
-	pinsrw	xmm4, word ptr [rdx + r9], 2
-	pinsrw	xmm4, word ptr [rdx + r12], 3
-	pinsrw	xmm4, word ptr [rdx + r13], 4
-	pinsrw	xmm4, word ptr [rdx + rcx], 5
-	pinsrw	xmm4, word ptr [rdx + rdi], 6
-	pinsrw	xmm4, word ptr [rdx + rbx], 7
-	movzx	eax, word ptr [rdx + r15 + 10]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	movd	xmm6, r10d
-	pinsrw	xmm6, word ptr [rdx + r8 + 2], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 2], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 2], 3
-	movzx	eax, word ptr [rdx + r15 + 12]
-	mov	dword ptr [rsp + 16], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rdx + r13 + 2], 4
-	movd	xmm2, r14d
-	movzx	r14d, word ptr [rdx + r15 + 14]
-	pinsrw	xmm6, word ptr [rdx + rcx + 2], 5
-	movd	xmm5, esi
-	movzx	esi, word ptr [rdx + r15 + 16]
-	pinsrw	xmm6, word ptr [rdx + rdi + 2], 6
-	movd	xmm3, r11d
-	movzx	eax, word ptr [rdx + r15 + 18]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rdx + rbx + 2], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	movdqa	xmm1, xmm6
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm6
-	movd	xmm6, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm6 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rdx + r15 + 20]
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	pinsrw	xmm2, word ptr [rdx + r8 + 4], 1
-	pinsrw	xmm2, word ptr [rdx + r9 + 4], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 4], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 4], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 4], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 4], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 4], 7
-	pinsrw	xmm5, word ptr [rdx + r8 + 6], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 6], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 6], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 6], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 6], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 6], 6
-	pinsrw	xmm5, word ptr [rdx + rbx + 6], 7
-	pinsrw	xmm3, word ptr [rdx + r8 + 8], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 8], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 8], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 8], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 8], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 8], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 8], 7
-	por	xmm1, xmm4
-	movd	xmm7, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rdx + r15 + 22]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 2
-	pand	xmm2, xmm9
-	por	xmm2, xmm1
-	movd	xmm4, r14d
-	movzx	r11d, word ptr [rdx + r15 + 24]
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm5
-	movd	xmm1, esi
-	movzx	esi, word ptr [rdx + r15 + 26]
-	pinsrw	xmm6, word ptr [rdx + r8 + 10], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 10], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 10], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 10], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 10], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 10], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 10], 7
-	pinsrw	xmm7, word ptr [rdx + r8 + 12], 1
-	pinsrw	xmm7, word ptr [rdx + r9 + 12], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 12], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 12], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 12], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 12], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 12], 7
-	por	xmm3, xmm2
-	movd	xmm8, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm8 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rdx + r15 + 28]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm5, r10d
-	movzx	r10d, word ptr [rdx + r15 + 30]
-	pinsrw	xmm4, word ptr [rdx + r8 + 14], 1
-	pinsrw	xmm4, word ptr [rdx + r9 + 14], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 14], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 14], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 14], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 14], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 14], 7
-	pinsrw	xmm8, word ptr [rdx + r8 + 18], 1
-	pinsrw	xmm8, word ptr [rdx + r9 + 18], 2
-	pinsrw	xmm8, word ptr [rdx + r12 + 18], 3
-	pinsrw	xmm8, word ptr [rdx + r13 + 18], 4
-	pinsrw	xmm8, word ptr [rdx + rcx + 18], 5
-	pinsrw	xmm8, word ptr [rdx + rdi + 18], 6
-	pinsrw	xmm8, word ptr [rdx + rbx + 18], 7
-	pcmpeqw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rdx + r15 + 32]
-	por	xmm4, xmm3
-	pcmpeqw	xmm8, xmm0
-	packsswb	xmm8, xmm8
-	movdqa	xmm7, xmm8
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm8
-	movd	xmm3, r11d
-	movzx	r11d, word ptr [rdx + r15 + 34]
-	pinsrw	xmm1, word ptr [rdx + r8 + 16], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 16], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 16], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 16], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 16], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 16], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 16], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	por	xmm7, xmm1
-	movd	xmm6, esi
-	movzx	esi, word ptr [rdx + r15 + 36]
-	mov	dword ptr [rsp + 40], esi       # 4-byte Spill
-	pinsrw	xmm5, word ptr [rdx + r8 + 20], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 20], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 20], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 20], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 20], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 20], 6
-	pinsrw	xmm5, word ptr [rdx + rbx + 20], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm9
-	por	xmm5, xmm7
-	movd	xmm7, r14d
-	movzx	esi, word ptr [rdx + r15 + 38]
-	mov	dword ptr [rsp + 16], esi       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rdx + r8 + 22], 1
-	pinsrw	xmm2, word ptr [rdx + r9 + 22], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 22], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 22], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 22], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 22], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 22], 7
-	pinsrw	xmm3, word ptr [rdx + r8 + 24], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 24], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 24], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 24], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 24], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 24], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 24], 7
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm2
-	movd	xmm2, r10d
-	movzx	r14d, word ptr [rdx + r15 + 40]
-	por	xmm3, xmm5
-	movd	xmm5, eax
-	movzx	eax, word ptr [rdx + r15 + 42]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rdx + r8 + 26], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 26], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 26], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 26], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 26], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 26], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 26], 7
-	pinsrw	xmm7, word ptr [rdx + r8 + 28], 1
-	pinsrw	xmm7, word ptr [rdx + r9 + 28], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 28], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 28], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 28], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 28], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 28], 7
-	pinsrw	xmm2, word ptr [rdx + r8 + 30], 1
-	pinsrw	xmm2, word ptr [rdx + r9 + 30], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 30], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 30], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 30], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 30], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 30], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm1, r11d
-	movzx	r10d, word ptr [rdx + r15 + 44]
-	pcmpeqw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm14
-	por	xmm2, xmm7
-	movd	xmm6, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm6 = mem[0],zero,zero,zero
-	movzx	esi, word ptr [rdx + r15 + 46]
-	pinsrw	xmm5, word ptr [rdx + r8 + 32], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 32], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 32], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 32], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 32], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 32], 6
-	pinsrw	xmm1, word ptr [rdx + r8 + 34], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 34], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 34], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 34], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 34], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 34], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 34], 7
-	por	xmm2, xmm3
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm7, xmm1
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm1
-	movd	xmm3, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	r11d, word ptr [rdx + r15 + 48]
-	pinsrw	xmm5, word ptr [rdx + rbx + 32], 7
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	pinsrw	xmm6, word ptr [rdx + r8 + 36], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 36], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 36], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 36], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 36], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 36], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 36], 7
-	pinsrw	xmm3, word ptr [rdx + r8 + 38], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 38], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 38], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 38], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 38], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 38], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 38], 7
-	por	xmm7, xmm5
-	movd	xmm5, r14d
-	pinsrw	xmm5, word ptr [rdx + r8 + 40], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 40], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 40], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 40], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 40], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 40], 6
-	movzx	eax, word ptr [rdx + r15 + 50]
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	pand	xmm6, xmm9
-	por	xmm6, xmm7
-	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rdx + r15 + 52]
-	pinsrw	xmm5, word ptr [rdx + rbx + 40], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 3
-	pand	xmm3, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm3
-	movd	xmm7, r10d
-	movzx	r10d, word ptr [rdx + r15 + 54]
-	pinsrw	xmm1, word ptr [rdx + r8 + 42], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 42], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 42], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 42], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 42], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 42], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 42], 7
-	pinsrw	xmm7, word ptr [rdx + r8 + 44], 1
-	pinsrw	xmm7, word ptr [rdx + r9 + 44], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 44], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 44], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 44], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 44], 6
-	por	xmm5, xmm6
-	movd	xmm3, esi
-	movzx	esi, word ptr [rdx + r15 + 56]
-	pinsrw	xmm7, word ptr [rdx + rbx + 44], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 5
-	pand	xmm1, xmm12
-	pcmpeqw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm1
-	movd	xmm6, r11d
-	movzx	r11d, word ptr [rdx + r15 + 58]
-	pinsrw	xmm3, word ptr [rdx + r8 + 46], 1
-	pinsrw	xmm3, word ptr [rdx + r9 + 46], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 46], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 46], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 46], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 46], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 46], 7
-	pcmpeqw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm7
-	movd	xmm1, eax
-	movzx	eax, word ptr [rdx + r15 + 60]
-	movzx	r15d, word ptr [rdx + r15 + 62]
-	pinsrw	xmm1, word ptr [rdx + r8 + 50], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 50], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 50], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 50], 7
-	por	xmm3, xmm5
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movd	xmm1, r14d
-	pinsrw	xmm6, word ptr [rdx + r8 + 48], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 48], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 48], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 48], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 48], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 48], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 48], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pinsrw	xmm1, word ptr [rdx + r8 + 52], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 52], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 52], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 52], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 52], 5
-	pand	xmm6, xmm15
-	pinsrw	xmm1, word ptr [rdx + rdi + 52], 6
-	por	xmm5, xmm6
-	movd	xmm6, r10d
-	pinsrw	xmm1, word ptr [rdx + rbx + 52], 7
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 2
-	pand	xmm1, xmm9
-	por	xmm1, xmm5
-	movd	xmm5, esi
-	pinsrw	xmm6, word ptr [rdx + r8 + 54], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 54], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 54], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 54], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 54], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 54], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 54], 7
-	pinsrw	xmm5, word ptr [rdx + r8 + 56], 1
-	pinsrw	xmm5, word ptr [rdx + r9 + 56], 2
-	pinsrw	xmm5, word ptr [rdx + r12 + 56], 3
-	pinsrw	xmm5, word ptr [rdx + r13 + 56], 4
-	pinsrw	xmm5, word ptr [rdx + rcx + 56], 5
-	pinsrw	xmm5, word ptr [rdx + rdi + 56], 6
-	pinsrw	xmm5, word ptr [rdx + rbx + 56], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 3
-	pand	xmm6, xmm10
-	pcmpeqw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm6
-	movd	xmm6, r11d
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	pinsrw	xmm6, word ptr [rdx + r8 + 58], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 58], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 58], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 58], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 58], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 58], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 58], 7
-	por	xmm5, xmm1
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rdx + r8 + 60], 1
-	pinsrw	xmm1, word ptr [rdx + r9 + 60], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 60], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 60], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 60], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 60], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 60], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpeqw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 6
-	pand	xmm1, xmm13
-	por	xmm1, xmm6
-	movd	xmm6, r15d
-	pinsrw	xmm6, word ptr [rdx + r8 + 62], 1
-	pinsrw	xmm6, word ptr [rdx + r9 + 62], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 62], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 62], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 62], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 62], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 62], 7
-	pcmpeqw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	psllw	xmm6, 7
-	pand	xmm6, xmm14
-	por	xmm6, xmm1
-	por	xmm6, xmm5
-	movdqa	xmm1, xmm4
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqa	xmm5, xmm3
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqa	xmm7, xmmword ptr [rip + .LCPI2_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm5, xmm7
-	pshufb	xmm1, xmm7
-	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
-	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	movdqu	xmmword ptr [rsi + 4*rcx], xmm4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	movdqu	xmmword ptr [rsi + 4*rcx + 16], xmm1
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	jne	.LBB2_195
-# %bb.196:
-	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 56]      # 4-byte Reload
-	mov	r14, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	jne	.LBB2_104
-	jmp	.LBB2_143
-.LBB2_197:
-	mov	r8, r14
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rdx
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	lea	r11, [rax + 4*r8]
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	add	rdx, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI2_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	movdqa	xmm8, xmmword ptr [rip + .LCPI2_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI2_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI2_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI2_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI2_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI2_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm9, xmmword ptr [rip + .LCPI2_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	.p2align	4, 0x90
-.LBB2_198:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm6, dword ptr [rdx - 508]     # xmm6 = mem[0],zero,zero,zero
-	movss	xmm7, dword ptr [rdx - 504]     # xmm7 = mem[0],zero,zero,zero
-	movss	xmm5, dword ptr [rdx - 500]     # xmm5 = mem[0],zero,zero,zero
-	movss	xmm4, dword ptr [rdx - 496]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	insertps	xmm7, dword ptr [rdx - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	insertps	xmm5, dword ptr [rdx - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
-	insertps	xmm4, dword ptr [rdx - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rdx - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rdx - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	movdqa	xmm2, xmm7
-	pand	xmm2, xmm15
-	psubb	xmm2, xmm7
-	movss	xmm7, dword ptr [rdx - 492]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rdx - 488]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm8
-	por	xmm5, xmm2
-	movss	xmm3, dword ptr [rdx - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	cmpeqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 3
-	pand	xmm4, xmm10
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 4
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movss	xmm4, dword ptr [rdx - 480]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rdx - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rdx - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rdx - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm5, dword ptr [rdx - 476]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm13
-	por	xmm3, xmm6
-	movss	xmm2, dword ptr [rdx - 472]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packsswb	xmm5, xmm5
-	cmpeqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm3
-	movss	xmm3, dword ptr [rdx - 468]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm5, xmm15
-	insertps	xmm3, dword ptr [rdx - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm4, xmm7
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm7, dword ptr [rdx - 464]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm5
-	movss	xmm5, dword ptr [rdx - 460]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rdx - 456]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 3
-	pand	xmm7, xmm10
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm7
-	movss	xmm2, dword ptr [rdx - 452]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm3
-	movss	xmm7, dword ptr [rdx - 448]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rdx - 444]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	psllw	xmm7, 7
-	pand	xmm7, xmm14
-	por	xmm7, xmm2
-	movss	xmm2, dword ptr [rdx - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm3, dword ptr [rdx - 436]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm6, xmm15
-	insertps	xmm3, dword ptr [rdx - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm7, xmm2
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm2
-	movss	xmm5, dword ptr [rdx - 432]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm7, xmm6
-	movss	xmm6, dword ptr [rdx - 428]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm7
-	movss	xmm7, dword ptr [rdx - 424]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm5
-	movss	xmm2, dword ptr [rdx - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm5, dword ptr [rdx - 416]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm7, dword ptr [rdx - 412]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	cmpeqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	psllw	xmm5, 7
-	pand	xmm5, xmm14
-	por	xmm5, xmm2
-	movss	xmm2, dword ptr [rdx - 408]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	pand	xmm7, xmm15
-	insertps	xmm2, dword ptr [rdx - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm6
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm3, dword ptr [rdx - 404]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm6, xmm7
-	movss	xmm2, dword ptr [rdx - 400]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rdx - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	cmpeqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm2
-	movss	xmm7, dword ptr [rdx - 392]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm2, dword ptr [rdx - 388]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
-	cmpeqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpeqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm3, dword ptr [rdx - 384]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx], 48       # xmm3 = xmm3[0,1,2],mem[0]
-	cmpeqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm2
-	por	xmm3, xmm6
-	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
-	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
-	pshufb	xmm4, xmm9
-	movdqu	xmmword ptr [rax + 4*rcx], xmm4
-	add	rcx, 4
-	add	rdx, 512
-	cmp	r8, rcx
-	jne	.LBB2_198
-# %bb.199:
-	cmp	r14, r8
-	jne	.LBB2_127
-	jmp	.LBB2_147
-.Lfunc_end2:
-	.size	comparison_equal_scalar_arr_sse4, .Lfunc_end2-comparison_equal_scalar_arr_sse4
-                                        # -- End function
-	.globl	comparison_not_equal_arr_arr_sse4 # -- Begin function comparison_not_equal_arr_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_not_equal_arr_arr_sse4,@function
-comparison_not_equal_arr_arr_sse4:      # @comparison_not_equal_arr_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB3_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB3_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB3_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB3_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB3_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_20
-# %bb.21:
-	add	r14, 1
-.LBB3_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setne	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setne	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setne	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setne	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setne	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setne	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setne	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setne	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setne	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_28:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_28
-	jmp	.LBB3_123
-.LBB3_29:
-	cmp	edi, 8
-	jle	.LBB3_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB3_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB3_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB3_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_48:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	ucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_48
-# %bb.49:
-	add	r14, 1
-.LBB3_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	ucomisd	xmm1, qword ptr [rdx + 8]
-	setne	al
-	movsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	movsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	movsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	movsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	setne	r13b
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	setne	r15b
-	movsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	movsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	setne	cl
-	movsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	movsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	setne	r9b
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	setne	r11b
-	movsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	movsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	setne	r10b
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	movsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	setne	bl
-	movsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	movsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	movsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	setne	r14b
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	movsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	setne	r12b
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	movsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	movsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	movsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	movsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	movsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	setne	r8b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	movsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	movsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	movsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	movsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	movsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	movsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	movsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	add	rsi, 256
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	setne	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB3_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB3_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_56:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_56
-	jmp	.LBB3_123
-.LBB3_2:
-	cmp	edi, 2
-	je	.LBB3_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB3_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_6
-# %bb.7:
-	add	r14, 1
-.LBB3_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setne	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setne	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setne	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setne	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setne	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setne	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setne	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setne	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setne	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setne	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setne	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB3_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB3_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_14
-	jmp	.LBB3_123
-.LBB3_30:
-	cmp	edi, 7
-	je	.LBB3_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB3_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_34
-# %bb.35:
-	add	r14, 1
-.LBB3_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setne	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setne	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setne	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setne	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setne	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setne	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setne	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setne	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setne	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_42:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_42
-	jmp	.LBB3_123
-.LBB3_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_70
-# %bb.71:
-	add	r14, 1
-.LBB3_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setne	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setne	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setne	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setne	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setne	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setne	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setne	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setne	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setne	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_78:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_78
-	jmp	.LBB3_123
-.LBB3_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_81
-# %bb.82:
-	add	r14, 1
-.LBB3_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setne	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setne	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setne	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setne	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setne	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setne	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setne	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setne	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setne	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_89
-	jmp	.LBB3_123
-.LBB3_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_103
-# %bb.104:
-	add	r14, 1
-.LBB3_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setne	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setne	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setne	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setne	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setne	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setne	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setne	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setne	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setne	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_111
-	jmp	.LBB3_123
-.LBB3_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_114:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	ucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_114
-# %bb.115:
-	add	r14, 1
-.LBB3_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	movss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	ucomiss	xmm1, dword ptr [rdx + 4]
-	setne	al
-	movss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 8]
-	movss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 12]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 16]
-	movss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 24]
-	movss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	setne	r13b
-	ucomiss	xmm0, dword ptr [rdx + 28]
-	setne	r15b
-	movss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 32]
-	movss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 36]
-	setne	cl
-	movss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 40]
-	movss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	setne	r9b
-	ucomiss	xmm0, dword ptr [rdx + 44]
-	setne	r11b
-	movss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 48]
-	movss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	setne	r10b
-	ucomiss	xmm0, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 56]
-	movss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 60]
-	setne	bl
-	movss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 64]
-	movss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 68]
-	movss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	setne	r14b
-	ucomiss	xmm0, dword ptr [rdx + 72]
-	movss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	setne	r12b
-	ucomiss	xmm0, dword ptr [rdx + 76]
-	movss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 80]
-	movss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 84]
-	movss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 88]
-	movss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 92]
-	movss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	setne	r8b
-	ucomiss	xmm0, dword ptr [rdx + 96]
-	movss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 100]
-	movss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 104]
-	movss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 108]
-	movss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 112]
-	movss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 116]
-	movss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 120]
-	movss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	sub	rsi, -128
-	ucomiss	xmm0, dword ptr [rdx + 124]
-	setne	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB3_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB3_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_122:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_122
-	jmp	.LBB3_123
-.LBB3_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_59
-# %bb.60:
-	add	r14, 1
-.LBB3_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setne	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setne	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setne	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setne	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setne	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setne	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setne	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setne	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setne	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setne	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setne	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB3_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB3_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_67:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_67
-	jmp	.LBB3_123
-.LBB3_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB3_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB3_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setne	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB3_92
-# %bb.93:
-	add	r14, 1
-.LBB3_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB3_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB3_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setne	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setne	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setne	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setne	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setne	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setne	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setne	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setne	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setne	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setne	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB3_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB3_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB3_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB3_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setne	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB3_100
-.LBB3_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end3:
-	.size	comparison_not_equal_arr_arr_sse4, .Lfunc_end3-comparison_not_equal_arr_arr_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_not_equal_arr_scalar_sse4
-.LCPI4_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_1:
-	.zero	16,252
-.LCPI4_2:
-	.zero	16,248
-.LCPI4_3:
-	.zero	16,240
-.LCPI4_4:
-	.zero	16,224
-.LCPI4_5:
-	.zero	16,192
-.LCPI4_6:
-	.zero	16,128
-.LCPI4_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI4_8:
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_9:
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_10:
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_11:
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_12:
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_13:
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_14:
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_15:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI4_16:
-	.zero	16,2
-.LCPI4_17:
-	.zero	16,4
-.LCPI4_18:
-	.zero	16,8
-.LCPI4_19:
-	.zero	16,16
-.LCPI4_20:
-	.zero	16,32
-.LCPI4_21:
-	.zero	16,64
-.LCPI4_22:
-	.zero	16,255
-	.text
-	.globl	comparison_not_equal_arr_scalar_sse4
-	.p2align	4, 0x90
-	.type	comparison_not_equal_arr_scalar_sse4,@function
-comparison_not_equal_arr_scalar_sse4:   # @comparison_not_equal_arr_scalar_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 304
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r15, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB4_17
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB4_32
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB4_83
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB4_95
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB4_179
-# %bb.5:
-	mov	r13d, dword ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_7
-# %bb.8:
-	add	r14, 1
-.LBB4_9:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_13
-# %bb.10:
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_11:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setne	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setne	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setne	al
-	cmp	dword ptr [rsi + 28], r13d
-	setne	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setne	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setne	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setne	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setne	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setne	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setne	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setne	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 128
-	add	r14, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB4_11
-# %bb.12:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-.LBB4_13:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.14:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB4_82
-# %bb.15:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB4_16:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_16
-	jmp	.LBB4_153
-.LBB4_17:
-	cmp	edi, 8
-	jle	.LBB4_46
-# %bb.18:
-	cmp	edi, 9
-	je	.LBB4_107
-# %bb.19:
-	cmp	edi, 11
-	je	.LBB4_118
-# %bb.20:
-	cmp	edi, 12
-	jne	.LBB4_179
-# %bb.21:
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB4_25
-# %bb.22:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_23:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_23
-# %bb.24:
-	add	r14, 1
-.LBB4_25:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_29
-# %bb.26:
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_27:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	ucomisd	xmm0, qword ptr [rsi]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	setne	r9b
-	ucomisd	xmm0, qword ptr [rsi + 16]
-	setne	r14b
-	ucomisd	xmm0, qword ptr [rsi + 24]
-	setne	r13b
-	ucomisd	xmm0, qword ptr [rsi + 32]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 40]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 48]
-	setne	al
-	ucomisd	xmm0, qword ptr [rsi + 56]
-	setne	bl
-	ucomisd	xmm0, qword ptr [rsi + 64]
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 72]
-	setne	dl
-	ucomisd	xmm0, qword ptr [rsi + 80]
-	setne	dil
-	ucomisd	xmm0, qword ptr [rsi + 88]
-	setne	r10b
-	ucomisd	xmm0, qword ptr [rsi + 96]
-	setne	r11b
-	ucomisd	xmm0, qword ptr [rsi + 104]
-	setne	r12b
-	ucomisd	xmm0, qword ptr [rsi + 112]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 120]
-	setne	cl
-	ucomisd	xmm0, qword ptr [rsi + 128]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 136]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 144]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 152]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 160]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 168]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 176]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 184]
-	setne	r15b
-	ucomisd	xmm0, qword ptr [rsi + 192]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 200]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 208]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 216]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 224]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 232]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 240]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 248]
-	setne	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB4_27
-# %bb.28:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-.LBB4_29:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.30:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB4_162
-# %bb.31:
-	xor	r11d, r11d
-	jmp	.LBB4_164
-.LBB4_32:
-	cmp	edi, 2
-	je	.LBB4_60
-# %bb.33:
-	cmp	edi, 3
-	jne	.LBB4_179
-# %bb.34:
-	mov	r11b, byte ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_38
-# %bb.35:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_36:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r11b
-	lea	rsi, [rsi + 1]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_36
-# %bb.37:
-	add	r14, 1
-.LBB4_38:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_130
-# %bb.39:
-	cmp	r10, 16
-	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	jb	.LBB4_42
-# %bb.40:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB4_180
-# %bb.41:
-	lea	rax, [r14 + 4*r10]
-	cmp	rsi, rax
-	jae	.LBB4_180
-.LBB4_42:
-	xor	eax, eax
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
-.LBB4_43:
-	sub	r10, qword ptr [rsp + 240]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_44:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r11b
-	setne	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r11b
-	setne	sil
-	cmp	byte ptr [rcx + 2], r11b
-	setne	r15b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 3], al
-	setne	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 4], al
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 5], al
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 6], al
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 7], al
-	setne	r9b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 8], al
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 9], al
-	setne	dl
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 10], al
-	setne	dil
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 11], al
-	setne	r10b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 12], al
-	setne	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	setne	r13b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	setne	r8b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	setne	r11b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	setne	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	r11d, r15d
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 104], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB4_44
-# %bb.45:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	jmp	.LBB4_131
-.LBB4_46:
-	cmp	edi, 7
-	je	.LBB4_72
-# %bb.47:
-	cmp	edi, 8
-	jne	.LBB4_179
-# %bb.48:
-	mov	r13, qword ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_52
-# %bb.49:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_50:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_50
-# %bb.51:
-	add	r14, 1
-.LBB4_52:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_56
-# %bb.53:
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_54:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setne	dil
-	cmp	qword ptr [rsi + 16], r13
-	setne	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setne	al
-	cmp	qword ptr [rsi + 56], r13
-	setne	bl
-	cmp	qword ptr [rsi + 64], r13
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setne	dl
-	cmp	qword ptr [rsi + 80], r13
-	setne	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setne	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setne	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setne	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setne	cl
-	cmp	qword ptr [rsi + 128], r13
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setne	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB4_54
-# %bb.55:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-.LBB4_56:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.57:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB4_117
-# %bb.58:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB4_59:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_59
-	jmp	.LBB4_168
-.LBB4_60:
-	mov	r11b, byte ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_64
-# %bb.61:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_62:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r11b
-	lea	rsi, [rsi + 1]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_62
-# %bb.63:
-	add	r14, 1
-.LBB4_64:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_134
-# %bb.65:
-	cmp	r10, 16
-	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r10      # 8-byte Spill
-	jb	.LBB4_68
-# %bb.66:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB4_183
-# %bb.67:
-	lea	rax, [r14 + 4*r10]
-	cmp	rsi, rax
-	jae	.LBB4_183
-.LBB4_68:
-	xor	eax, eax
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
-.LBB4_69:
-	sub	r10, qword ptr [rsp + 240]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_70:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r11b
-	setne	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r11b
-	setne	sil
-	cmp	byte ptr [rcx + 2], r11b
-	setne	r15b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 3], al
-	setne	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 4], al
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 5], al
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 6], al
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 7], al
-	setne	r9b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 8], al
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 9], al
-	setne	dl
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 10], al
-	setne	dil
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 11], al
-	setne	r10b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 12], al
-	setne	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	setne	r13b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	setne	r8b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	setne	r11b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	setne	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	r11d, r15d
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 104], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB4_70
-# %bb.71:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	jmp	.LBB4_135
-.LBB4_72:
-	mov	r13d, dword ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_76
-# %bb.73:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_74:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_74
-# %bb.75:
-	add	r14, 1
-.LBB4_76:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_80
-# %bb.77:
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_78:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setne	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setne	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setne	al
-	cmp	dword ptr [rsi + 28], r13d
-	setne	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setne	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setne	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setne	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setne	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setne	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setne	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setne	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 128
-	add	r14, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB4_78
-# %bb.79:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-.LBB4_80:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.81:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB4_151
-.LBB4_82:
-	xor	r11d, r11d
-	jmp	.LBB4_153
-.LBB4_83:
-	movzx	r13d, word ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_87
-# %bb.84:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_85:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_85
-# %bb.86:
-	add	r14, 1
-.LBB4_87:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_138
-# %bb.88:
-	cmp	r10, 8
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	jb	.LBB4_91
-# %bb.89:
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB4_186
-# %bb.90:
-	lea	rax, [r14 + 4*r10]
-	cmp	rax, rsi
-	jbe	.LBB4_186
-.LBB4_91:
-	xor	eax, eax
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	r12, r14
-.LBB4_92:
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	sub	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_93:                               # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	word ptr [rsi], r13w
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setne	sil
-	cmp	word ptr [r11 + 4], r13w
-	setne	r15b
-	cmp	word ptr [r11 + 6], r13w
-	setne	r12b
-	cmp	word ptr [r11 + 8], r13w
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 10], r13w
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 12], r13w
-	setne	al
-	cmp	word ptr [r11 + 14], r13w
-	setne	bl
-	cmp	word ptr [r11 + 16], r13w
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 18], r13w
-	setne	cl
-	cmp	word ptr [r11 + 20], r13w
-	setne	r8b
-	cmp	word ptr [r11 + 22], r13w
-	setne	r9b
-	cmp	word ptr [r11 + 24], r13w
-	setne	r14b
-	cmp	word ptr [r11 + 26], r13w
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 28], r13w
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 30], r13w
-	setne	dil
-	cmp	word ptr [r11 + 32], r13w
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 34], r13w
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 36], r13w
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 38], r13w
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 40], r13w
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 42], r13w
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 44], r13w
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 46], r13w
-	setne	r10b
-	cmp	word ptr [r11 + 48], r13w
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 50], r13w
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 52], r13w
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 54], r13w
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 56], r13w
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 58], r13w
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 60], r13w
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 62], r13w
-	setne	dl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	cl, cl
-	add	cl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	shl	r8b, 2
-	or	r8b, cl
-	movzx	ecx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r12b
-	mov	esi, ecx
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	shl	r14b, 4
-	or	r14b, r9b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	bl, cl
-	or	dil, al
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r10b, 7
-	or	r10b, bl
-	mov	byte ptr [rcx + 1], dil
-	or	r10b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rcx + 2], r10b
-	mov	byte ptr [rcx + 3], dl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB4_93
-# %bb.94:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	jmp	.LBB4_139
-.LBB4_95:
-	movzx	r13d, word ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_99
-# %bb.96:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_97:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_97
-# %bb.98:
-	add	r14, 1
-.LBB4_99:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_143
-# %bb.100:
-	cmp	r10, 8
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	jb	.LBB4_103
-# %bb.101:
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB4_189
-# %bb.102:
-	lea	rax, [r14 + 4*r10]
-	cmp	rax, rsi
-	jbe	.LBB4_189
-.LBB4_103:
-	xor	eax, eax
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	r12, r14
-.LBB4_104:
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	sub	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_105:                              # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	word ptr [rsi], r13w
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setne	sil
-	cmp	word ptr [r11 + 4], r13w
-	setne	r15b
-	cmp	word ptr [r11 + 6], r13w
-	setne	r12b
-	cmp	word ptr [r11 + 8], r13w
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 10], r13w
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 12], r13w
-	setne	al
-	cmp	word ptr [r11 + 14], r13w
-	setne	bl
-	cmp	word ptr [r11 + 16], r13w
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 18], r13w
-	setne	cl
-	cmp	word ptr [r11 + 20], r13w
-	setne	r8b
-	cmp	word ptr [r11 + 22], r13w
-	setne	r9b
-	cmp	word ptr [r11 + 24], r13w
-	setne	r14b
-	cmp	word ptr [r11 + 26], r13w
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 28], r13w
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 30], r13w
-	setne	dil
-	cmp	word ptr [r11 + 32], r13w
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 34], r13w
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 36], r13w
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 38], r13w
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 40], r13w
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 42], r13w
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 44], r13w
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 46], r13w
-	setne	r10b
-	cmp	word ptr [r11 + 48], r13w
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 50], r13w
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 52], r13w
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 54], r13w
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 56], r13w
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 58], r13w
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 60], r13w
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 62], r13w
-	setne	dl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	cl, cl
-	add	cl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	shl	r8b, 2
-	or	r8b, cl
-	movzx	ecx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r12b
-	mov	esi, ecx
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	shl	r14b, 4
-	or	r14b, r9b
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	bl, cl
-	or	dil, al
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r10b, 7
-	or	r10b, bl
-	mov	byte ptr [rcx + 1], dil
-	or	r10b, sil
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rcx + 2], r10b
-	mov	byte ptr [rcx + 3], dl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB4_105
-# %bb.106:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	jmp	.LBB4_144
-.LBB4_107:
-	mov	r13, qword ptr [rdx]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB4_111
-# %bb.108:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_109:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setne	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_109
-# %bb.110:
-	add	r14, 1
-.LBB4_111:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_115
-# %bb.112:
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_113:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setne	dil
-	cmp	qword ptr [rsi + 16], r13
-	setne	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setne	al
-	cmp	qword ptr [rsi + 56], r13
-	setne	bl
-	cmp	qword ptr [rsi + 64], r13
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setne	dl
-	cmp	qword ptr [rsi + 80], r13
-	setne	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setne	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setne	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setne	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setne	cl
-	cmp	qword ptr [rsi + 128], r13
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setne	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setne	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB4_113
-# %bb.114:
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-.LBB4_115:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.116:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB4_166
-.LBB4_117:
-	xor	r11d, r11d
-	jmp	.LBB4_168
-.LBB4_118:
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB4_122
-# %bb.119:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB4_120:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB4_120
-# %bb.121:
-	add	r14, 1
-.LBB4_122:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB4_147
-# %bb.123:
-	cmp	r10, 4
-	jb	.LBB4_126
-# %bb.124:
-	mov	rax, r10
-	shl	rax, 7
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB4_192
-# %bb.125:
-	lea	rax, [r14 + 4*r10]
-	cmp	rax, rsi
-	jbe	.LBB4_192
-.LBB4_126:
-	xor	r8d, r8d
-	mov	rbx, rsi
-	mov	r11, r14
-.LBB4_127:
-	mov	qword ptr [rsp + 8], r11        # 8-byte Spill
-	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	sub	r10, r8
-	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_128:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	setne	r8b
-	ucomiss	xmm0, dword ptr [rbx + 8]
-	setne	r14b
-	ucomiss	xmm0, dword ptr [rbx + 12]
-	setne	r13b
-	ucomiss	xmm0, dword ptr [rbx + 16]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 20]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 24]
-	setne	al
-	ucomiss	xmm0, dword ptr [rbx + 28]
-	setne	r11b
-	ucomiss	xmm0, dword ptr [rbx + 32]
-	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 36]
-	setne	dl
-	ucomiss	xmm0, dword ptr [rbx + 40]
-	setne	sil
-	ucomiss	xmm0, dword ptr [rbx + 44]
-	setne	dil
-	ucomiss	xmm0, dword ptr [rbx + 48]
-	setne	r10b
-	ucomiss	xmm0, dword ptr [rbx + 52]
-	setne	r12b
-	ucomiss	xmm0, dword ptr [rbx + 56]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 60]
-	setne	r9b
-	ucomiss	xmm0, dword ptr [rbx + 64]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 68]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 72]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 76]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 80]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 84]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 88]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 92]
-	setne	r15b
-	ucomiss	xmm0, dword ptr [rbx + 96]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 100]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 104]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 108]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 112]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 116]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 120]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 124]
-	setne	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], cl
-	add	rbx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB4_128
-# %bb.129:
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	jmp	.LBB4_148
-.LBB4_130:
-	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
-.LBB4_131:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.132:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB4_137
-# %bb.155:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB4_156:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	setne	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	setne	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB4_156
-	jmp	.LBB4_159
-.LBB4_134:
-	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
-.LBB4_135:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.136:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB4_157
-.LBB4_137:
-	xor	r9d, r9d
-	test	r8b, 1
-	je	.LBB4_179
-	jmp	.LBB4_161
-.LBB4_138:
-	mov	r12, r14
-.LBB4_139:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.140:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB4_146
-# %bb.141:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	.p2align	4, 0x90
-.LBB4_142:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	word ptr [rsi], r13w
-	setne	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	r14, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, r14
-	jne	.LBB4_142
-	jmp	.LBB4_173
-.LBB4_143:
-	mov	r12, r14
-.LBB4_144:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.145:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB4_171
-.LBB4_146:
-	xor	r14d, r14d
-	jmp	.LBB4_173
-.LBB4_147:
-	mov	r11, r14
-	mov	rbx, rsi
-.LBB4_148:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB4_179
-# %bb.149:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB4_175
-# %bb.150:
-	xor	esi, esi
-	jmp	.LBB4_177
-.LBB4_151:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB4_152:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_152
-.LBB4_153:
-	test	r8b, 1
-	je	.LBB4_179
-# %bb.154:
-	cmp	dword ptr [rsi], r13d
-	jmp	.LBB4_170
-.LBB4_157:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB4_158:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	setne	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	setne	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB4_158
-.LBB4_159:
-	add	rsi, r9
-	test	r8b, 1
-	je	.LBB4_179
-.LBB4_161:
-	cmp	byte ptr [rsi], r11b
-	setne	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB4_179
-.LBB4_162:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB4_163:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_163
-.LBB4_164:
-	test	r8b, 1
-	je	.LBB4_179
-# %bb.165:
-	ucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB4_170
-.LBB4_166:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB4_167:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setne	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setne	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB4_167
-.LBB4_168:
-	test	r8b, 1
-	je	.LBB4_179
-# %bb.169:
-	cmp	qword ptr [rsi], r13
-.LBB4_170:
-	setne	al
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-	jmp	.LBB4_179
-.LBB4_171:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	.p2align	4, 0x90
-.LBB4_172:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	word ptr [rsi], r13w
-	setne	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	r14, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	setne	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, r14
-	jne	.LBB4_172
-.LBB4_173:
-	test	r8b, 1
-	je	.LBB4_179
-# %bb.174:
-	cmp	word ptr [rsi], r13w
-	setne	al
-	neg	al
-	mov	rdx, r14
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	r14b, 7
-	mov	bl, 1
-	mov	ecx, r14d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r12 + rdx], bl
-	jmp	.LBB4_179
-.LBB4_175:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB4_176:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	setne	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	mov	ecx, esi
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	add	rsi, 2
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	lea	rbx, [rbx + 8]
-	setne	r9b
-	neg	r9b
-	xor	r9b, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r9b
-	xor	dl, al
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, rsi
-	jne	.LBB4_176
-.LBB4_177:
-	test	r8b, 1
-	je	.LBB4_179
-# %bb.178:
-	ucomiss	xmm0, dword ptr [rbx]
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r11 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r11 + rdx], bl
-.LBB4_179:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB4_180:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	lea	rax, [r14 + 4*r10]
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 256], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_181:                              # =>This Inner Loop Header: Depth=1
-	mov	r9, rax
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	mov	rcx, rax
-	shl	rcx, 5
-	mov	r11, rcx
-	mov	r8, rcx
-	mov	r14, rcx
-	mov	r13, rcx
-	mov	rbx, rcx
-	mov	r12, rcx
-	mov	r15, rcx
-	mov	rdi, rcx
-	mov	r9, rcx
-	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
-	mov	rax, rcx
-	mov	rdx, rcx
-	movzx	ecx, byte ptr [rsi + rcx]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 1]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 2]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 3]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 4]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 5]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 6]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 7]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 8]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 9]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdx + 10]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 11]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 12]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdx + 13]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 14]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 15]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 176], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 24], rdx       # 8-byte Spill
-	mov	rcx, rdx
-	or	rcx, 32
-	mov	qword ptr [rsp + 40], rcx       # 8-byte Spill
-	or	r11, 64
-	mov	qword ptr [rsp + 112], r11      # 8-byte Spill
-	or	r8, 96
-	mov	qword ptr [rsp + 64], r8        # 8-byte Spill
-	or	r14, 128
-	or	r13, 160
-	mov	r10, rbx
-	or	r10, 192
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	or	r12, 224
-	or	r15, 256
-	or	rdi, 288
-	mov	qword ptr [rsp + 192], rdi      # 8-byte Spill
-	or	r9, 320
-	mov	qword ptr [rsp + 32], r9        # 8-byte Spill
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	or	rbx, 352
-	mov	qword ptr [rsp + 48], rbx       # 8-byte Spill
-	or	rax, 384
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rax, rdx
-	or	rax, 416
-	mov	rcx, rdx
-	or	rcx, 448
-	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
-	mov	rcx, rdx
-	or	rcx, 480
-	mov	qword ptr [rsp + 56], rcx       # 8-byte Spill
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx], 1
-	pinsrb	xmm4, byte ptr [rsi + r11], 2
-	pinsrb	xmm4, byte ptr [rsi + r8], 3
-	pinsrb	xmm4, byte ptr [rsi + r14], 4
-	pinsrb	xmm4, byte ptr [rsi + r13], 5
-	pinsrb	xmm4, byte ptr [rsi + r10], 6
-	pinsrb	xmm4, byte ptr [rsi + r12], 7
-	pinsrb	xmm4, byte ptr [rsi + r15], 8
-	pinsrb	xmm4, byte ptr [rsi + rdi], 9
-	pinsrb	xmm4, byte ptr [rsi + r9], 10
-	pinsrb	xmm4, byte ptr [rsi + rbx], 11
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx], 12
-	pinsrb	xmm4, byte ptr [rsi + rax], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rbx], 14
-	pinsrb	xmm4, byte ptr [rsi + rcx], 15
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rbx + 1], 1
-	pinsrb	xmm3, byte ptr [rsi + r11 + 1], 2
-	pinsrb	xmm3, byte ptr [rsi + r8 + 1], 3
-	pinsrb	xmm3, byte ptr [rsi + r14 + 1], 4
-	pinsrb	xmm3, byte ptr [rsi + r13 + 1], 5
-	mov	r11, r13
-	pinsrb	xmm3, byte ptr [rsi + r10 + 1], 6
-	pinsrb	xmm3, byte ptr [rsi + r12 + 1], 7
-	mov	r13, r12
-	pinsrb	xmm3, byte ptr [rsi + r15 + 1], 8
-	pinsrb	xmm3, byte ptr [rsi + rdi + 1], 9
-	pinsrb	xmm3, byte ptr [rsi + r9 + 1], 10
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r12 + 1], 11
-	pinsrb	xmm3, byte ptr [rsi + rdx + 1], 12
-	pinsrb	xmm3, byte ptr [rsi + rax + 1], 13
-	mov	r8, rax
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 1], 14
-	movdqa	xmm6, xmmword ptr [rsp + 256]   # 16-byte Reload
-	pcmpeqb	xmm4, xmm6
-	pinsrb	xmm3, byte ptr [rsi + rcx + 1], 15
-	pcmpeqb	xmm3, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm3, xmm0
-	paddb	xmm3, xmm4
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 16]
-	movd	xmm10, edx
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 2], 1
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r10 + 2], 2
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdi + 2], 3
-	pinsrb	xmm5, byte ptr [rsi + r14 + 2], 4
-	pinsrb	xmm5, byte ptr [rsi + r11 + 2], 5
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r9 + 2], 6
-	mov	rbx, r13
-	pinsrb	xmm5, byte ptr [rsi + r13 + 2], 7
-	pinsrb	xmm5, byte ptr [rsi + r15 + 2], 8
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 2], 9
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 2], 10
-	pinsrb	xmm5, byte ptr [rsi + r12 + 2], 11
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rcx + 2], 12
-	pinsrb	xmm5, byte ptr [rsi + r8 + 2], 13
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r13 + 2], 14
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r8 + 2], 15
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 3], 1
-	pinsrb	xmm7, byte ptr [rsi + r10 + 3], 2
-	pinsrb	xmm7, byte ptr [rsi + rdi + 3], 3
-	pinsrb	xmm7, byte ptr [rsi + r14 + 3], 4
-	pinsrb	xmm7, byte ptr [rsi + r11 + 3], 5
-	pinsrb	xmm7, byte ptr [rsi + r9 + 3], 6
-	pinsrb	xmm7, byte ptr [rsi + rbx + 3], 7
-	pinsrb	xmm7, byte ptr [rsi + r15 + 3], 8
-	pinsrb	xmm7, byte ptr [rsi + rdx + 3], 9
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 3], 10
-	pinsrb	xmm7, byte ptr [rsi + r12 + 3], 11
-	pinsrb	xmm7, byte ptr [rsi + rcx + 3], 12
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 3], 13
-	pinsrb	xmm7, byte ptr [rsi + r13 + 3], 14
-	pinsrb	xmm7, byte ptr [rsi + r8 + 3], 15
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rax + 4], 1
-	pinsrb	xmm1, byte ptr [rsi + r10 + 4], 2
-	pinsrb	xmm1, byte ptr [rsi + rdi + 4], 3
-	pinsrb	xmm1, byte ptr [rsi + r14 + 4], 4
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 5
-	mov	rax, r11
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	pinsrb	xmm1, byte ptr [rsi + r9 + 4], 6
-	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 7
-	mov	rdi, rbx
-	pinsrb	xmm1, byte ptr [rsi + r15 + 4], 8
-	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 9
-	mov	rbx, rdx
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 10
-	pinsrb	xmm1, byte ptr [rsi + r12 + 4], 11
-	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 12
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 13
-	pinsrb	xmm1, byte ptr [rsi + r13 + 4], 14
-	pinsrb	xmm1, byte ptr [rsi + r8 + 4], 15
-	pcmpeqb	xmm5, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm5, xmm0
-	pcmpeqb	xmm7, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm7, xmm0
-	por	xmm7, xmm5
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 17]
-	movd	xmm4, edx
-	pcmpeqb	xmm1, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm1, xmm0
-	por	xmm1, xmm7
-	movzx	edx, byte ptr [rsi + rcx + 18]
-	movd	xmm7, edx
-	pcmpeqd	xmm0, xmm0
-	psubb	xmm3, xmm0
-	por	xmm1, xmm3
-	movzx	edx, byte ptr [rsi + rcx + 19]
-	movd	xmm5, edx
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdx + 5], 1
-	pinsrb	xmm2, byte ptr [rsi + r10 + 5], 2
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 5], 3
-	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rsi + r14 + 5], 4
-	pinsrb	xmm2, byte ptr [rsi + rax + 5], 5
-	mov	r12, r9
-	pinsrb	xmm2, byte ptr [rsi + r9 + 5], 6
-	mov	qword ptr [rsp + 160], rdi      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rsi + rdi + 5], 7
-	pinsrb	xmm2, byte ptr [rsi + r15 + 5], 8
-	mov	r9, rbx
-	pinsrb	xmm2, byte ptr [rsi + rbx + 5], 9
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 5], 10
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 5], 11
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r13 + 5], 12
-	mov	r8, r11
-	pinsrb	xmm2, byte ptr [rsi + r11 + 5], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 5], 14
-	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r11 + 5], 15
-	pinsrb	xmm8, byte ptr [rsi + rdx + 6], 1
-	pinsrb	xmm8, byte ptr [rsi + r10 + 6], 2
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rbx + 6], 3
-	pinsrb	xmm8, byte ptr [rsi + r14 + 6], 4
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rbx + 6], 5
-	pinsrb	xmm8, byte ptr [rsi + r12 + 6], 6
-	pinsrb	xmm8, byte ptr [rsi + rdi + 6], 7
-	pinsrb	xmm8, byte ptr [rsi + r15 + 6], 8
-	pinsrb	xmm8, byte ptr [rsi + r9 + 6], 9
-	pinsrb	xmm8, byte ptr [rsi + rax + 6], 10
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rbx + 6], 11
-	pinsrb	xmm8, byte ptr [rsi + r13 + 6], 12
-	pinsrb	xmm8, byte ptr [rsi + r8 + 6], 13
-	pinsrb	xmm8, byte ptr [rsi + rcx + 6], 14
-	pinsrb	xmm8, byte ptr [rsi + r11 + 6], 15
-	mov	rcx, r11
-	pinsrb	xmm14, byte ptr [rsi + rdx + 7], 1
-	pinsrb	xmm14, byte ptr [rsi + r10 + 7], 2
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 7], 3
-	pinsrb	xmm14, byte ptr [rsi + r14 + 7], 4
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r11 + 7], 5
-	pinsrb	xmm14, byte ptr [rsi + r12 + 7], 6
-	pinsrb	xmm14, byte ptr [rsi + rdi + 7], 7
-	pinsrb	xmm14, byte ptr [rsi + r15 + 7], 8
-	mov	r12, r15
-	mov	qword ptr [rsp + 96], r15       # 8-byte Spill
-	pinsrb	xmm14, byte ptr [rsi + r9 + 7], 9
-	pinsrb	xmm14, byte ptr [rsi + rax + 7], 10
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rbx + 7], 11
-	pinsrb	xmm14, byte ptr [rsi + r13 + 7], 12
-	mov	r14, r13
-	mov	rdi, r8
-	pinsrb	xmm14, byte ptr [rsi + r8 + 7], 13
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r13 + 7], 14
-	pcmpeqb	xmm2, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm0
-	pcmpeqb	xmm8, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm8, xmm0
-	por	xmm8, xmm2
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	movzx	edx, byte ptr [rsi + r9 + 20]
-	movd	xmm3, edx
-	mov	rax, rcx
-	pinsrb	xmm14, byte ptr [rsi + rcx + 7], 15
-	pcmpeqb	xmm14, xmm6
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm14, xmm0
-	por	xmm14, xmm8
-	movzx	edx, byte ptr [rsi + r9 + 21]
-	movd	xmm2, edx
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rcx + 8], 1
-	pinsrb	xmm9, byte ptr [rsi + r10 + 8], 2
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r8 + 8], 3
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 8], 4
-	pinsrb	xmm9, byte ptr [rsi + r11 + 8], 5
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 8], 6
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r15 + 8], 7
-	pinsrb	xmm9, byte ptr [rsi + r12 + 8], 8
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r12 + 8], 9
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 8], 10
-	pinsrb	xmm9, byte ptr [rsi + rbx + 8], 11
-	pinsrb	xmm9, byte ptr [rsi + r14 + 8], 12
-	pinsrb	xmm9, byte ptr [rsi + rdi + 8], 13
-	pinsrb	xmm9, byte ptr [rsi + r13 + 8], 14
-	pinsrb	xmm9, byte ptr [rsi + rax + 8], 15
-	por	xmm14, xmm1
-	movdqa	xmmword ptr [rsp + 272], xmm14  # 16-byte Spill
-	movzx	edx, byte ptr [rsi + r9 + 22]
-	movd	xmm1, edx
-	movdqa	xmm0, xmm6
-	pcmpeqb	xmm9, xmm6
-	movdqa	xmm14, xmmword ptr [rsp + 208]  # 16-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rcx + 9], 1
-	pinsrb	xmm14, byte ptr [rsi + r10 + 9], 2
-	pinsrb	xmm14, byte ptr [rsi + r8 + 9], 3
-	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 9], 4
-	pinsrb	xmm14, byte ptr [rsi + r11 + 9], 5
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 9], 6
-	mov	rdi, r15
-	pinsrb	xmm14, byte ptr [rsi + r15 + 9], 7
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r15 + 9], 8
-	mov	r9, r12
-	pinsrb	xmm14, byte ptr [rsi + r12 + 9], 9
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r13 + 9], 10
-	pinsrb	xmm14, byte ptr [rsi + rbx + 9], 11
-	mov	r12, r14
-	pinsrb	xmm14, byte ptr [rsi + r14 + 9], 12
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r14 + 9], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 9], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 9], 15
-	mov	r10, rcx
-	pinsrb	xmm12, byte ptr [rsi + rcx + 10], 1
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rcx + 10], 2
-	pinsrb	xmm12, byte ptr [rsi + r8 + 10], 3
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rcx + 10], 4
-	pinsrb	xmm12, byte ptr [rsi + r11 + 10], 5
-	pinsrb	xmm12, byte ptr [rsi + rdx + 10], 6
-	pinsrb	xmm12, byte ptr [rsi + rdi + 10], 7
-	pinsrb	xmm12, byte ptr [rsi + r15 + 10], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 10], 9
-	pinsrb	xmm12, byte ptr [rsi + r13 + 10], 10
-	pinsrb	xmm12, byte ptr [rsi + rbx + 10], 11
-	pinsrb	xmm12, byte ptr [rsi + r12 + 10], 12
-	pinsrb	xmm12, byte ptr [rsi + r14 + 10], 13
-	mov	r14, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r14 + 10], 14
-	pinsrb	xmm12, byte ptr [rsi + rax + 10], 15
-	pinsrb	xmm13, byte ptr [rsi + r10 + 11], 1
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r10 + 11], 2
-	pinsrb	xmm13, byte ptr [rsi + r8 + 11], 3
-	pinsrb	xmm13, byte ptr [rsi + rcx + 11], 4
-	pinsrb	xmm13, byte ptr [rsi + r11 + 11], 5
-	pinsrb	xmm13, byte ptr [rsi + rdx + 11], 6
-	pinsrb	xmm13, byte ptr [rsi + rdi + 11], 7
-	pinsrb	xmm13, byte ptr [rsi + r15 + 11], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 11], 9
-	pinsrb	xmm13, byte ptr [rsi + r13 + 11], 10
-	pinsrb	xmm13, byte ptr [rsi + rbx + 11], 11
-	mov	r15, rbx
-	pinsrb	xmm13, byte ptr [rsi + r12 + 11], 12
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r13 + 11], 13
-	pinsrb	xmm13, byte ptr [rsi + r14 + 11], 14
-	pinsrb	xmm13, byte ptr [rsi + rax + 11], 15
-	pcmpeqb	xmm14, xmm6
-	pandn	xmm14, xmmword ptr [rip + .LCPI4_16]
-	paddb	xmm14, xmm9
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 23]
-	movd	xmm8, edx
-	pcmpeqb	xmm12, xmm6
-	pandn	xmm12, xmmword ptr [rip + .LCPI4_17]
-	pcmpeqb	xmm13, xmm6
-	pandn	xmm13, xmmword ptr [rip + .LCPI4_18]
-	por	xmm13, xmm12
-	movzx	edx, byte ptr [rsi + rax + 24]
-	movd	xmm12, edx
-	movdqa	xmm9, xmmword ptr [rsp + 224]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rax + 12], 1
-	pinsrb	xmm9, byte ptr [rsi + r10 + 12], 2
-	mov	rax, r8
-	pinsrb	xmm9, byte ptr [rsi + r8 + 12], 3
-	mov	r14, rcx
-	pinsrb	xmm9, byte ptr [rsi + rcx + 12], 4
-	mov	r8, r11
-	pinsrb	xmm9, byte ptr [rsi + r11 + 12], 5
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r11 + 12], 6
-	mov	rbx, rdi
-	pinsrb	xmm9, byte ptr [rsi + rdi + 12], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rcx + 12], 8
-	pinsrb	xmm9, byte ptr [rsi + r9 + 12], 9
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdi + 12], 10
-	pinsrb	xmm9, byte ptr [rsi + r15 + 12], 11
-	pinsrb	xmm9, byte ptr [rsi + r12 + 12], 12
-	pinsrb	xmm9, byte ptr [rsi + r13 + 12], 13
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 12], 14
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 12], 15
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 13], 1
-	pinsrb	xmm11, byte ptr [rsi + r10 + 13], 2
-	pinsrb	xmm11, byte ptr [rsi + rax + 13], 3
-	pinsrb	xmm11, byte ptr [rsi + r14 + 13], 4
-	pinsrb	xmm11, byte ptr [rsi + r8 + 13], 5
-	pinsrb	xmm11, byte ptr [rsi + r11 + 13], 6
-	pinsrb	xmm11, byte ptr [rsi + rbx + 13], 7
-	pinsrb	xmm11, byte ptr [rsi + rcx + 13], 8
-	pinsrb	xmm11, byte ptr [rsi + r9 + 13], 9
-	pinsrb	xmm11, byte ptr [rsi + rdi + 13], 10
-	pinsrb	xmm11, byte ptr [rsi + r15 + 13], 11
-	pinsrb	xmm11, byte ptr [rsi + r12 + 13], 12
-	pinsrb	xmm11, byte ptr [rsi + r13 + 13], 13
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 13], 14
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 13], 15
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 14], 1
-	pinsrb	xmm15, byte ptr [rsi + r10 + 14], 2
-	pinsrb	xmm15, byte ptr [rsi + rax + 14], 3
-	pinsrb	xmm15, byte ptr [rsi + r14 + 14], 4
-	pinsrb	xmm15, byte ptr [rsi + r8 + 14], 5
-	pinsrb	xmm15, byte ptr [rsi + r11 + 14], 6
-	pinsrb	xmm15, byte ptr [rsi + rbx + 14], 7
-	pinsrb	xmm15, byte ptr [rsi + rcx + 14], 8
-	pinsrb	xmm15, byte ptr [rsi + r9 + 14], 9
-	pinsrb	xmm15, byte ptr [rsi + rdi + 14], 10
-	pinsrb	xmm15, byte ptr [rsi + r15 + 14], 11
-	pinsrb	xmm15, byte ptr [rsi + r12 + 14], 12
-	pinsrb	xmm15, byte ptr [rsi + r13 + 14], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r15 + 14], 14
-	pcmpeqb	xmm9, xmm6
-	pandn	xmm9, xmmword ptr [rip + .LCPI4_19]
-	por	xmm9, xmm13
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 25]
-	movd	xmm13, edx
-	psubb	xmm14, xmmword ptr [rip + .LCPI4_22]
-	por	xmm9, xmm14
-	movzx	edx, byte ptr [rsi + rcx + 26]
-	movd	xmm0, edx
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rax + 14], 15
-	pcmpeqb	xmm11, xmm6
-	pandn	xmm11, xmmword ptr [rip + .LCPI4_20]
-	pcmpeqb	xmm15, xmm6
-	movdqa	xmm14, xmm6
-	pandn	xmm15, xmmword ptr [rip + .LCPI4_21]
-	por	xmm15, xmm11
-	movzx	edx, byte ptr [rsi + rcx + 27]
-	movd	xmm11, edx
-	movdqa	xmm6, xmmword ptr [rsp + 176]   # 16-byte Reload
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r11 + 15], 1
-	pinsrb	xmm6, byte ptr [rsi + r10 + 15], 2
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 15], 3
-	pinsrb	xmm6, byte ptr [rsi + r14 + 15], 4
-	pinsrb	xmm6, byte ptr [rsi + r8 + 15], 5
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r12 + 15], 6
-	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 7
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 8
-	pinsrb	xmm6, byte ptr [rsi + r9 + 15], 9
-	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 10
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 11
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r14 + 15], 12
-	pinsrb	xmm6, byte ptr [rsi + r13 + 15], 13
-	pinsrb	xmm6, byte ptr [rsi + r15 + 15], 14
-	pinsrb	xmm6, byte ptr [rsi + rax + 15], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI4_6]
-	por	xmm6, xmm15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 28]
-	movd	xmm15, edx
-	por	xmm6, xmm9
-	movdqa	xmmword ptr [rsp + 176], xmm6   # 16-byte Spill
-	movzx	edx, byte ptr [rsi + rax + 29]
-	movd	xmm9, edx
-	pinsrb	xmm10, byte ptr [rsi + r11 + 16], 1
-	pinsrb	xmm10, byte ptr [rsi + r10 + 16], 2
-	pinsrb	xmm10, byte ptr [rsi + rbx + 16], 3
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r13 + 16], 4
-	pinsrb	xmm10, byte ptr [rsi + r8 + 16], 5
-	pinsrb	xmm10, byte ptr [rsi + r12 + 16], 6
-	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r12 + 16], 7
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 16], 8
-	pinsrb	xmm10, byte ptr [rsi + r9 + 16], 9
-	pinsrb	xmm10, byte ptr [rsi + rdi + 16], 10
-	pinsrb	xmm10, byte ptr [rsi + rcx + 16], 11
-	pinsrb	xmm10, byte ptr [rsi + r14 + 16], 12
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r14 + 16], 13
-	pinsrb	xmm10, byte ptr [rsi + r15 + 16], 14
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 16], 15
-	pinsrb	xmm4, byte ptr [rsi + r11 + 17], 1
-	pinsrb	xmm4, byte ptr [rsi + r10 + 17], 2
-	pinsrb	xmm4, byte ptr [rsi + rbx + 17], 3
-	mov	r10, r13
-	pinsrb	xmm4, byte ptr [rsi + r13 + 17], 4
-	pinsrb	xmm4, byte ptr [rsi + r8 + 17], 5
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r11 + 17], 6
-	mov	rbx, r12
-	pinsrb	xmm4, byte ptr [rsi + r12 + 17], 7
-	pinsrb	xmm4, byte ptr [rsi + rdx + 17], 8
-	pinsrb	xmm4, byte ptr [rsi + r9 + 17], 9
-	pinsrb	xmm4, byte ptr [rsi + rdi + 17], 10
-	pinsrb	xmm4, byte ptr [rsi + rcx + 17], 11
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 17], 12
-	mov	r13, r14
-	pinsrb	xmm4, byte ptr [rsi + r14 + 17], 13
-	pinsrb	xmm4, byte ptr [rsi + r15 + 17], 14
-	mov	r12, r15
-	pinsrb	xmm4, byte ptr [rsi + rax + 17], 15
-	mov	r15, rax
-	movdqa	xmm6, xmm14
-	pcmpeqb	xmm10, xmm14
-	pcmpeqb	xmm4, xmm14
-	pandn	xmm4, xmmword ptr [rip + .LCPI4_16]
-	paddb	xmm4, xmm10
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdi + 30]
-	movd	xmm10, edx
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 18], 1
-	pinsrb	xmm5, byte ptr [rsi + rax + 19], 1
-	pinsrb	xmm3, byte ptr [rsi + rax + 20], 1
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 1
-	pinsrb	xmm1, byte ptr [rsi + rax + 22], 1
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 1
-	pinsrb	xmm12, byte ptr [rsi + rax + 24], 1
-	pinsrb	xmm13, byte ptr [rsi + rax + 25], 1
-	pinsrb	xmm0, byte ptr [rsi + rax + 26], 1
-	pinsrb	xmm11, byte ptr [rsi + rax + 27], 1
-	pinsrb	xmm15, byte ptr [rsi + rax + 28], 1
-	pinsrb	xmm9, byte ptr [rsi + rax + 29], 1
-	pinsrb	xmm10, byte ptr [rsi + rax + 30], 1
-	movzx	edx, byte ptr [rsi + rdi + 31]
-	movd	xmm6, edx
-	pinsrb	xmm6, byte ptr [rsi + rax + 31], 1
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 2
-	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 2
-	pinsrb	xmm3, byte ptr [rsi + rdx + 20], 2
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 2
-	pinsrb	xmm1, byte ptr [rsi + rdx + 22], 2
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 2
-	pinsrb	xmm12, byte ptr [rsi + rdx + 24], 2
-	pinsrb	xmm13, byte ptr [rsi + rdx + 25], 2
-	pinsrb	xmm0, byte ptr [rsi + rdx + 26], 2
-	pinsrb	xmm11, byte ptr [rsi + rdx + 27], 2
-	pinsrb	xmm15, byte ptr [rsi + rdx + 28], 2
-	pinsrb	xmm9, byte ptr [rsi + rdx + 29], 2
-	pinsrb	xmm10, byte ptr [rsi + rdx + 30], 2
-	pinsrb	xmm6, byte ptr [rsi + rdx + 31], 2
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 3
-	mov	r14, r10
-	pinsrb	xmm7, byte ptr [rsi + r10 + 18], 4
-	pinsrb	xmm7, byte ptr [rsi + r8 + 18], 5
-	pinsrb	xmm7, byte ptr [rsi + r11 + 18], 6
-	pinsrb	xmm7, byte ptr [rsi + rbx + 18], 7
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 18], 8
-	pinsrb	xmm7, byte ptr [rsi + r9 + 18], 9
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 18], 10
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r10 + 18], 11
-	pinsrb	xmm7, byte ptr [rsi + rcx + 18], 12
-	pinsrb	xmm7, byte ptr [rsi + r13 + 18], 13
-	pinsrb	xmm7, byte ptr [rsi + r12 + 18], 14
-	pinsrb	xmm7, byte ptr [rsi + r15 + 18], 15
-	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 3
-	pinsrb	xmm5, byte ptr [rsi + r14 + 19], 4
-	pinsrb	xmm5, byte ptr [rsi + r8 + 19], 5
-	pinsrb	xmm5, byte ptr [rsi + r11 + 19], 6
-	pinsrb	xmm5, byte ptr [rsi + rbx + 19], 7
-	pinsrb	xmm5, byte ptr [rsi + rax + 19], 8
-	pinsrb	xmm5, byte ptr [rsi + r9 + 19], 9
-	pinsrb	xmm5, byte ptr [rsi + rdi + 19], 10
-	pinsrb	xmm5, byte ptr [rsi + r10 + 19], 11
-	pinsrb	xmm5, byte ptr [rsi + rcx + 19], 12
-	pinsrb	xmm5, byte ptr [rsi + r13 + 19], 13
-	pinsrb	xmm5, byte ptr [rsi + r12 + 19], 14
-	pinsrb	xmm5, byte ptr [rsi + r15 + 19], 15
-	pinsrb	xmm3, byte ptr [rsi + rdx + 20], 3
-	pinsrb	xmm3, byte ptr [rsi + r14 + 20], 4
-	pinsrb	xmm3, byte ptr [rsi + r8 + 20], 5
-	pinsrb	xmm3, byte ptr [rsi + r11 + 20], 6
-	pinsrb	xmm3, byte ptr [rsi + rbx + 20], 7
-	pinsrb	xmm3, byte ptr [rsi + rax + 20], 8
-	pinsrb	xmm3, byte ptr [rsi + r9 + 20], 9
-	pinsrb	xmm3, byte ptr [rsi + rdi + 20], 10
-	pinsrb	xmm3, byte ptr [rsi + r10 + 20], 11
-	pinsrb	xmm3, byte ptr [rsi + rcx + 20], 12
-	pinsrb	xmm3, byte ptr [rsi + r13 + 20], 13
-	pinsrb	xmm3, byte ptr [rsi + r12 + 20], 14
-	pcmpeqb	xmm7, xmm14
-	pandn	xmm7, xmmword ptr [rip + .LCPI4_17]
-	pcmpeqb	xmm5, xmm14
-	pandn	xmm5, xmmword ptr [rip + .LCPI4_18]
-	por	xmm5, xmm7
-	pinsrb	xmm3, byte ptr [rsi + r15 + 20], 15
-	pcmpeqb	xmm3, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI4_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm3, xmm7
-	por	xmm3, xmm5
-	pcmpeqd	xmm5, xmm5
-	psubb	xmm4, xmm5
-	por	xmm3, xmm4
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 3
-	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 4
-	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 5
-	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 6
-	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 7
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 8
-	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 9
-	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 10
-	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 11
-	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 12
-	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 13
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 14
-	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 15
-	pinsrb	xmm1, byte ptr [rsi + rdx + 22], 3
-	pinsrb	xmm1, byte ptr [rsi + r14 + 22], 4
-	pinsrb	xmm1, byte ptr [rsi + r8 + 22], 5
-	pinsrb	xmm1, byte ptr [rsi + r11 + 22], 6
-	pinsrb	xmm1, byte ptr [rsi + rbx + 22], 7
-	pinsrb	xmm1, byte ptr [rsi + rax + 22], 8
-	pinsrb	xmm1, byte ptr [rsi + r9 + 22], 9
-	pinsrb	xmm1, byte ptr [rsi + rdi + 22], 10
-	pinsrb	xmm1, byte ptr [rsi + r10 + 22], 11
-	pinsrb	xmm1, byte ptr [rsi + rcx + 22], 12
-	pinsrb	xmm1, byte ptr [rsi + r13 + 22], 13
-	pinsrb	xmm1, byte ptr [rsi + r12 + 22], 14
-	pinsrb	xmm1, byte ptr [rsi + r15 + 22], 15
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 3
-	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 4
-	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 5
-	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 6
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 7
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 8
-	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 9
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 10
-	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 11
-	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 12
-	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 13
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 14
-	movdqa	xmm4, xmm14
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm5
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI4_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm1, xmm7
-	por	xmm1, xmm2
-	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 15
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm2, xmm14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm8, xmm4
-	por	xmm8, xmm1
-	pinsrb	xmm12, byte ptr [rsi + rdx + 24], 3
-	pinsrb	xmm12, byte ptr [rsi + r14 + 24], 4
-	pinsrb	xmm12, byte ptr [rsi + r8 + 24], 5
-	pinsrb	xmm12, byte ptr [rsi + r11 + 24], 6
-	pinsrb	xmm12, byte ptr [rsi + rbx + 24], 7
-	pinsrb	xmm12, byte ptr [rsi + rax + 24], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 24], 9
-	pinsrb	xmm12, byte ptr [rsi + rdi + 24], 10
-	pinsrb	xmm12, byte ptr [rsi + r10 + 24], 11
-	pinsrb	xmm12, byte ptr [rsi + rcx + 24], 12
-	pinsrb	xmm12, byte ptr [rsi + r13 + 24], 13
-	pinsrb	xmm12, byte ptr [rsi + r12 + 24], 14
-	pinsrb	xmm12, byte ptr [rsi + r15 + 24], 15
-	por	xmm8, xmm3
-	pcmpeqb	xmm12, xmm14
-	pinsrb	xmm13, byte ptr [rsi + rdx + 25], 3
-	pinsrb	xmm13, byte ptr [rsi + r14 + 25], 4
-	pinsrb	xmm13, byte ptr [rsi + r8 + 25], 5
-	pinsrb	xmm13, byte ptr [rsi + r11 + 25], 6
-	pinsrb	xmm13, byte ptr [rsi + rbx + 25], 7
-	pinsrb	xmm13, byte ptr [rsi + rax + 25], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 25], 9
-	pinsrb	xmm13, byte ptr [rsi + rdi + 25], 10
-	pinsrb	xmm13, byte ptr [rsi + r10 + 25], 11
-	pinsrb	xmm13, byte ptr [rsi + rcx + 25], 12
-	pinsrb	xmm13, byte ptr [rsi + r13 + 25], 13
-	pinsrb	xmm13, byte ptr [rsi + r12 + 25], 14
-	pinsrb	xmm13, byte ptr [rsi + r15 + 25], 15
-	pinsrb	xmm0, byte ptr [rsi + rdx + 26], 3
-	pinsrb	xmm0, byte ptr [rsi + r14 + 26], 4
-	pinsrb	xmm0, byte ptr [rsi + r8 + 26], 5
-	pinsrb	xmm0, byte ptr [rsi + r11 + 26], 6
-	pinsrb	xmm0, byte ptr [rsi + rbx + 26], 7
-	pinsrb	xmm0, byte ptr [rsi + rax + 26], 8
-	pinsrb	xmm0, byte ptr [rsi + r9 + 26], 9
-	pinsrb	xmm0, byte ptr [rsi + rdi + 26], 10
-	pinsrb	xmm0, byte ptr [rsi + r10 + 26], 11
-	pinsrb	xmm0, byte ptr [rsi + rcx + 26], 12
-	pinsrb	xmm0, byte ptr [rsi + r13 + 26], 13
-	pinsrb	xmm0, byte ptr [rsi + r12 + 26], 14
-	pinsrb	xmm0, byte ptr [rsi + r15 + 26], 15
-	pinsrb	xmm11, byte ptr [rsi + rdx + 27], 3
-	pinsrb	xmm11, byte ptr [rsi + r14 + 27], 4
-	pinsrb	xmm11, byte ptr [rsi + r8 + 27], 5
-	pinsrb	xmm11, byte ptr [rsi + r11 + 27], 6
-	pinsrb	xmm11, byte ptr [rsi + rbx + 27], 7
-	pinsrb	xmm11, byte ptr [rsi + rax + 27], 8
-	pinsrb	xmm11, byte ptr [rsi + r9 + 27], 9
-	pinsrb	xmm11, byte ptr [rsi + rdi + 27], 10
-	pinsrb	xmm11, byte ptr [rsi + r10 + 27], 11
-	pinsrb	xmm11, byte ptr [rsi + rcx + 27], 12
-	pinsrb	xmm11, byte ptr [rsi + r13 + 27], 13
-	pinsrb	xmm11, byte ptr [rsi + r12 + 27], 14
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI4_16]
-	paddb	xmm13, xmm12
-	pinsrb	xmm11, byte ptr [rsi + r15 + 27], 15
-	pcmpeqb	xmm0, xmm14
-	pandn	xmm0, xmmword ptr [rip + .LCPI4_17]
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI4_18]
-	por	xmm11, xmm0
-	pinsrb	xmm15, byte ptr [rsi + rdx + 28], 3
-	pinsrb	xmm9, byte ptr [rsi + rdx + 29], 3
-	pinsrb	xmm10, byte ptr [rsi + rdx + 30], 3
-	pinsrb	xmm6, byte ptr [rsi + rdx + 31], 3
-	pinsrb	xmm15, byte ptr [rsi + r14 + 28], 4
-	pinsrb	xmm9, byte ptr [rsi + r14 + 29], 4
-	pinsrb	xmm10, byte ptr [rsi + r14 + 30], 4
-	pinsrb	xmm6, byte ptr [rsi + r14 + 31], 4
-	pinsrb	xmm15, byte ptr [rsi + r8 + 28], 5
-	pinsrb	xmm9, byte ptr [rsi + r8 + 29], 5
-	pinsrb	xmm10, byte ptr [rsi + r8 + 30], 5
-	pinsrb	xmm6, byte ptr [rsi + r8 + 31], 5
-	mov	rdx, r11
-	pinsrb	xmm15, byte ptr [rsi + r11 + 28], 6
-	pinsrb	xmm9, byte ptr [rsi + r11 + 29], 6
-	pinsrb	xmm10, byte ptr [rsi + r11 + 30], 6
-	pinsrb	xmm6, byte ptr [rsi + r11 + 31], 6
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	mov	rdx, rbx
-	pinsrb	xmm15, byte ptr [rsi + rbx + 28], 7
-	pinsrb	xmm9, byte ptr [rsi + rbx + 29], 7
-	pinsrb	xmm10, byte ptr [rsi + rbx + 30], 7
-	pinsrb	xmm6, byte ptr [rsi + rbx + 31], 7
-	pinsrb	xmm15, byte ptr [rsi + rax + 28], 8
-	pinsrb	xmm9, byte ptr [rsi + rax + 29], 8
-	pinsrb	xmm10, byte ptr [rsi + rax + 30], 8
-	pinsrb	xmm6, byte ptr [rsi + rax + 31], 8
-	pinsrb	xmm15, byte ptr [rsi + r9 + 28], 9
-	pinsrb	xmm9, byte ptr [rsi + r9 + 29], 9
-	pinsrb	xmm10, byte ptr [rsi + r9 + 30], 9
-	pinsrb	xmm6, byte ptr [rsi + r9 + 31], 9
-	pinsrb	xmm15, byte ptr [rsi + rdi + 28], 10
-	pinsrb	xmm9, byte ptr [rsi + rdi + 29], 10
-	pinsrb	xmm10, byte ptr [rsi + rdi + 30], 10
-	pinsrb	xmm6, byte ptr [rsi + rdi + 31], 10
-	mov	rax, r10
-	pinsrb	xmm15, byte ptr [rsi + r10 + 28], 11
-	pinsrb	xmm9, byte ptr [rsi + r10 + 29], 11
-	pinsrb	xmm10, byte ptr [rsi + r10 + 30], 11
-	pinsrb	xmm6, byte ptr [rsi + r10 + 31], 11
-	pinsrb	xmm15, byte ptr [rsi + rcx + 28], 12
-	pinsrb	xmm9, byte ptr [rsi + rcx + 29], 12
-	pinsrb	xmm10, byte ptr [rsi + rcx + 30], 12
-	pinsrb	xmm6, byte ptr [rsi + rcx + 31], 12
-	mov	rax, r13
-	pinsrb	xmm15, byte ptr [rsi + r13 + 28], 13
-	pinsrb	xmm9, byte ptr [rsi + r13 + 29], 13
-	pinsrb	xmm10, byte ptr [rsi + r13 + 30], 13
-	pinsrb	xmm6, byte ptr [rsi + r13 + 31], 13
-	mov	rax, r12
-	pinsrb	xmm15, byte ptr [rsi + r12 + 28], 14
-	pinsrb	xmm9, byte ptr [rsi + r12 + 29], 14
-	pinsrb	xmm10, byte ptr [rsi + r12 + 30], 14
-	pinsrb	xmm6, byte ptr [rsi + r12 + 31], 14
-	pinsrb	xmm15, byte ptr [rsi + r15 + 28], 15
-	pinsrb	xmm9, byte ptr [rsi + r15 + 29], 15
-	pinsrb	xmm10, byte ptr [rsi + r15 + 30], 15
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI4_19]
-	por	xmm15, xmm11
-	pinsrb	xmm6, byte ptr [rsi + r15 + 31], 15
-	psubb	xmm13, xmmword ptr [rip + .LCPI4_22]
-	por	xmm15, xmm13
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmm5
-	pcmpeqb	xmm10, xmm14
-	pandn	xmm10, xmm7
-	por	xmm10, xmm9
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmm4
-	por	xmm6, xmm10
-	por	xmm6, xmm15
-	movdqa	xmm0, xmm8
-	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
-	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
-	movdqa	xmm1, xmm4
-	movdqa	xmm3, xmmword ptr [rsp + 176]   # 16-byte Reload
-	punpcklbw	xmm1, xmm3              # xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
-	movdqa	xmm2, xmm1
-	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
-	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
-	punpckhbw	xmm4, xmm3              # xmm4 = xmm4[8],xmm3[8],xmm4[9],xmm3[9],xmm4[10],xmm3[10],xmm4[11],xmm3[11],xmm4[12],xmm3[12],xmm4[13],xmm3[13],xmm4[14],xmm3[14],xmm4[15],xmm3[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm2
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 240]      # 8-byte Folded Reload
-	jne	.LBB4_181
-# %bb.182:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 240]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	jne	.LBB4_43
-	jmp	.LBB4_131
-.LBB4_183:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	lea	rax, [r14 + 4*r10]
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 160], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB4_184:                              # =>This Inner Loop Header: Depth=1
-	mov	r9, rax
-	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
-	shl	r9, 5
-	mov	r12, r9
-	mov	r13, r9
-	mov	r10, r9
-	mov	qword ptr [rsp + 64], r9        # 8-byte Spill
-	mov	r15, r9
-	mov	r11, r9
-	mov	r14, r9
-	mov	rdx, r9
-	mov	r8, r9
-	mov	rbx, r9
-	mov	rdi, r9
-	movzx	eax, byte ptr [rsi + r9]
-	movd	xmm4, eax
-	movzx	eax, byte ptr [rsi + r9 + 1]
-	movd	xmm3, eax
-	movzx	eax, byte ptr [rsi + r9 + 2]
-	movd	xmm5, eax
-	movzx	eax, byte ptr [rsi + r9 + 3]
-	movd	xmm7, eax
-	movzx	eax, byte ptr [rsi + r9 + 4]
-	movd	xmm9, eax
-	movzx	eax, byte ptr [rsi + r9 + 5]
-	movd	xmm2, eax
-	movzx	eax, byte ptr [rsi + r9 + 6]
-	movd	xmm8, eax
-	movzx	eax, byte ptr [rsi + r9 + 7]
-	movd	xmm14, eax
-	movzx	eax, byte ptr [rsi + r9 + 8]
-	movd	xmm0, eax
-	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + r9 + 9]
-	movd	xmm11, eax
-	movzx	eax, byte ptr [rsi + r9 + 10]
-	movd	xmm12, eax
-	movzx	eax, byte ptr [rsi + r9 + 11]
-	movd	xmm13, eax
-	movzx	eax, byte ptr [rsi + r9 + 12]
-	movd	xmm0, eax
-	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
-	movzx	eax, byte ptr [rsi + r9 + 13]
-	movd	xmm6, eax
-	movzx	eax, byte ptr [rsi + r9 + 14]
-	movd	xmm15, eax
-	movzx	eax, byte ptr [rsi + r9 + 15]
-	movd	xmm0, eax
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
-	mov	rcx, r9
-	or	rcx, 32
-	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
-	or	r12, 64
-	or	r13, 96
-	or	r10, 128
-	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	or	r10, 160
-	mov	qword ptr [rsp + 64], r10       # 8-byte Spill
-	or	r15, 192
-	mov	qword ptr [rsp + 24], r15       # 8-byte Spill
-	or	r11, 224
-	or	r14, 256
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	or	rdx, 288
-	or	r8, 320
-	mov	qword ptr [rsp + 120], r8       # 8-byte Spill
-	or	rbx, 352
-	mov	qword ptr [rsp + 88], rbx       # 8-byte Spill
-	or	rdi, 384
-	mov	qword ptr [rsp + 32], rdi       # 8-byte Spill
-	mov	rax, r9
-	or	rax, 416
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	mov	rax, r9
-	or	rax, 448
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	rdi, r9
-	or	rdi, 480
-	pinsrb	xmm4, byte ptr [rsi + rcx], 1
-	mov	qword ptr [rsp + 96], r12       # 8-byte Spill
-	pinsrb	xmm4, byte ptr [rsi + r12], 2
-	pinsrb	xmm4, byte ptr [rsi + r13], 3
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx], 4
-	pinsrb	xmm4, byte ptr [rsi + r10], 5
-	pinsrb	xmm4, byte ptr [rsi + r15], 6
-	pinsrb	xmm4, byte ptr [rsi + r11], 7
-	pinsrb	xmm4, byte ptr [rsi + r14], 8
-	pinsrb	xmm4, byte ptr [rsi + rdx], 9
-	pinsrb	xmm4, byte ptr [rsi + r8], 10
-	pinsrb	xmm4, byte ptr [rsi + rbx], 11
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx], 12
-	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r9], 13
-	pinsrb	xmm4, byte ptr [rsi + rax], 14
-	pinsrb	xmm4, byte ptr [rsi + rdi], 15
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r9 + 1], 1
-	pinsrb	xmm3, byte ptr [rsi + r12 + 1], 2
-	pinsrb	xmm3, byte ptr [rsi + r13 + 1], 3
-	mov	r12, r13
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r13 + 1], 4
-	pinsrb	xmm3, byte ptr [rsi + r10 + 1], 5
-	pinsrb	xmm3, byte ptr [rsi + r15 + 1], 6
-	pinsrb	xmm3, byte ptr [rsi + r11 + 1], 7
-	mov	r10, r11
-	pinsrb	xmm3, byte ptr [rsi + r14 + 1], 8
-	pinsrb	xmm3, byte ptr [rsi + rdx + 1], 9
-	mov	r14, rdx
-	pinsrb	xmm3, byte ptr [rsi + r8 + 1], 10
-	pinsrb	xmm3, byte ptr [rsi + rbx + 1], 11
-	pinsrb	xmm3, byte ptr [rsi + rcx + 1], 12
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 1], 13
-	pinsrb	xmm3, byte ptr [rsi + rax + 1], 14
-	movdqa	xmm1, xmmword ptr [rsp + 160]   # 16-byte Reload
-	pcmpeqb	xmm4, xmm1
-	pinsrb	xmm3, byte ptr [rsi + rdi + 1], 15
-	mov	rcx, rdi
-	pcmpeqb	xmm3, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm3, xmm0
-	paddb	xmm3, xmm4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 16]
-	movd	xmm10, edx
-	mov	rdx, r9
-	pinsrb	xmm5, byte ptr [rsi + r9 + 2], 1
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdi + 2], 2
-	mov	qword ptr [rsp + 56], r12       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + r12 + 2], 3
-	mov	r8, r13
-	pinsrb	xmm5, byte ptr [rsi + r13 + 2], 4
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r11 + 2], 5
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r13 + 2], 6
-	mov	rbx, r10
-	pinsrb	xmm5, byte ptr [rsi + r10 + 2], 7
-	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r15 + 2], 8
-	mov	r9, r14
-	pinsrb	xmm5, byte ptr [rsi + r14 + 2], 9
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r10 + 2], 10
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r14 + 2], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 2], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 2], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 2], 14
-	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + rcx + 2], 15
-	pinsrb	xmm7, byte ptr [rsi + rdx + 3], 1
-	pinsrb	xmm7, byte ptr [rsi + rdi + 3], 2
-	pinsrb	xmm7, byte ptr [rsi + r12 + 3], 3
-	pinsrb	xmm7, byte ptr [rsi + r8 + 3], 4
-	pinsrb	xmm7, byte ptr [rsi + r11 + 3], 5
-	pinsrb	xmm7, byte ptr [rsi + r13 + 3], 6
-	pinsrb	xmm7, byte ptr [rsi + rbx + 3], 7
-	pinsrb	xmm7, byte ptr [rsi + r15 + 3], 8
-	pinsrb	xmm7, byte ptr [rsi + r9 + 3], 9
-	pinsrb	xmm7, byte ptr [rsi + r10 + 3], 10
-	pinsrb	xmm7, byte ptr [rsi + r14 + 3], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 3], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 3], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 3], 14
-	pinsrb	xmm7, byte ptr [rsi + rcx + 3], 15
-	pinsrb	xmm9, byte ptr [rsi + rdx + 4], 1
-	pinsrb	xmm9, byte ptr [rsi + rdi + 4], 2
-	pinsrb	xmm9, byte ptr [rsi + r12 + 4], 3
-	pinsrb	xmm9, byte ptr [rsi + r8 + 4], 4
-	mov	rdi, r8
-	pinsrb	xmm9, byte ptr [rsi + r11 + 4], 5
-	pinsrb	xmm9, byte ptr [rsi + r13 + 4], 6
-	pinsrb	xmm9, byte ptr [rsi + rbx + 4], 7
-	pinsrb	xmm9, byte ptr [rsi + r15 + 4], 8
-	pinsrb	xmm9, byte ptr [rsi + r9 + 4], 9
-	pinsrb	xmm9, byte ptr [rsi + r10 + 4], 10
-	pinsrb	xmm9, byte ptr [rsi + r14 + 4], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rax + 4], 12
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r8 + 4], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 4], 14
-	pinsrb	xmm9, byte ptr [rsi + rcx + 4], 15
-	pcmpeqb	xmm5, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm5, xmm0
-	pcmpeqb	xmm7, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm7, xmm0
-	por	xmm7, xmm5
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 17]
-	movd	xmm4, edx
-	pcmpeqb	xmm9, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm9, xmm0
-	por	xmm9, xmm7
-	movzx	edx, byte ptr [rsi + rcx + 18]
-	movd	xmm7, edx
-	pcmpeqd	xmm0, xmm0
-	psubb	xmm3, xmm0
-	por	xmm9, xmm3
-	movzx	edx, byte ptr [rsi + rcx + 19]
-	movd	xmm5, edx
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r12 + 5], 1
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r13 + 5], 2
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 5], 3
-	pinsrb	xmm2, byte ptr [rsi + rdi + 5], 4
-	mov	rdi, r11
-	pinsrb	xmm2, byte ptr [rsi + r11 + 5], 5
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 5], 6
-	mov	qword ptr [rsp + 272], rbx      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rsi + rbx + 5], 7
-	pinsrb	xmm2, byte ptr [rsi + r15 + 5], 8
-	mov	qword ptr [rsp + 136], r9       # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rsi + r9 + 5], 9
-	pinsrb	xmm2, byte ptr [rsi + r10 + 5], 10
-	pinsrb	xmm2, byte ptr [rsi + r14 + 5], 11
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdx + 5], 12
-	mov	rcx, r8
-	pinsrb	xmm2, byte ptr [rsi + r8 + 5], 13
-	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r8 + 5], 14
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r11 + 5], 15
-	pinsrb	xmm8, byte ptr [rsi + r12 + 6], 1
-	pinsrb	xmm8, byte ptr [rsi + r13 + 6], 2
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rax + 6], 3
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r13 + 6], 4
-	pinsrb	xmm8, byte ptr [rsi + rdi + 6], 5
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rax + 6], 6
-	mov	r13, rax
-	pinsrb	xmm8, byte ptr [rsi + rbx + 6], 7
-	pinsrb	xmm8, byte ptr [rsi + r15 + 6], 8
-	pinsrb	xmm8, byte ptr [rsi + r9 + 6], 9
-	pinsrb	xmm8, byte ptr [rsi + r10 + 6], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 6], 11
-	pinsrb	xmm8, byte ptr [rsi + rdx + 6], 12
-	pinsrb	xmm8, byte ptr [rsi + rcx + 6], 13
-	pinsrb	xmm8, byte ptr [rsi + r8 + 6], 14
-	pinsrb	xmm8, byte ptr [rsi + r11 + 6], 15
-	pinsrb	xmm14, byte ptr [rsi + r12 + 7], 1
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r12 + 7], 2
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 7], 3
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r11 + 7], 4
-	pinsrb	xmm14, byte ptr [rsi + rdi + 7], 5
-	mov	rax, r13
-	pinsrb	xmm14, byte ptr [rsi + r13 + 7], 6
-	pinsrb	xmm14, byte ptr [rsi + rbx + 7], 7
-	pinsrb	xmm14, byte ptr [rsi + r15 + 7], 8
-	mov	rbx, r15
-	pinsrb	xmm14, byte ptr [rsi + r9 + 7], 9
-	pinsrb	xmm14, byte ptr [rsi + r10 + 7], 10
-	pinsrb	xmm14, byte ptr [rsi + r14 + 7], 11
-	pinsrb	xmm14, byte ptr [rsi + rdx + 7], 12
-	pinsrb	xmm14, byte ptr [rsi + rcx + 7], 13
-	mov	r13, rcx
-	pinsrb	xmm14, byte ptr [rsi + r8 + 7], 14
-	movdqa	xmm1, xmm14
-	movdqa	xmm14, xmmword ptr [rsp + 160]  # 16-byte Reload
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm0
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm8, xmm0
-	por	xmm8, xmm2
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdi + 20]
-	movd	xmm3, edx
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rcx + 7], 15
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm1, xmm0
-	por	xmm1, xmm8
-	movzx	edx, byte ptr [rsi + rdi + 21]
-	movd	xmm2, edx
-	movdqa	xmm0, xmmword ptr [rsp + 208]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 8], 1
-	pinsrb	xmm0, byte ptr [rsi + r12 + 8], 2
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r12 + 8], 3
-	pinsrb	xmm0, byte ptr [rsi + r11 + 8], 4
-	mov	r8, r11
-	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r14 + 8], 5
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 8], 6
-	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r11 + 8], 7
-	pinsrb	xmm0, byte ptr [rsi + r15 + 8], 8
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r10 + 8], 9
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r15 + 8], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 8], 11
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 8], 12
-	pinsrb	xmm0, byte ptr [rsi + r13 + 8], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 8], 14
-	pinsrb	xmm0, byte ptr [rsi + rcx + 8], 15
-	por	xmm1, xmm9
-	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
-	movzx	edx, byte ptr [rsi + rdi + 22]
-	movd	xmm1, edx
-	pcmpeqb	xmm0, xmm14
-	pinsrb	xmm11, byte ptr [rsi + rax + 9], 1
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdi + 9], 2
-	pinsrb	xmm11, byte ptr [rsi + r12 + 9], 3
-	pinsrb	xmm11, byte ptr [rsi + r8 + 9], 4
-	pinsrb	xmm11, byte ptr [rsi + r14 + 9], 5
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r13 + 9], 6
-	pinsrb	xmm11, byte ptr [rsi + r11 + 9], 7
-	pinsrb	xmm11, byte ptr [rsi + rbx + 9], 8
-	mov	rcx, r10
-	pinsrb	xmm11, byte ptr [rsi + r10 + 9], 9
-	mov	r9, r15
-	pinsrb	xmm11, byte ptr [rsi + r15 + 9], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r10 + 9], 11
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r15 + 9], 12
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 9], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 9], 14
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 9], 15
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rax + 10], 1
-	pinsrb	xmm12, byte ptr [rsi + rdi + 10], 2
-	pinsrb	xmm12, byte ptr [rsi + r12 + 10], 3
-	pinsrb	xmm12, byte ptr [rsi + r8 + 10], 4
-	pinsrb	xmm12, byte ptr [rsi + r14 + 10], 5
-	pinsrb	xmm12, byte ptr [rsi + r13 + 10], 6
-	pinsrb	xmm12, byte ptr [rsi + r11 + 10], 7
-	pinsrb	xmm12, byte ptr [rsi + rbx + 10], 8
-	pinsrb	xmm12, byte ptr [rsi + rcx + 10], 9
-	pinsrb	xmm12, byte ptr [rsi + r9 + 10], 10
-	pinsrb	xmm12, byte ptr [rsi + r10 + 10], 11
-	pinsrb	xmm12, byte ptr [rsi + r15 + 10], 12
-	mov	r14, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r14 + 10], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rax + 10], 14
-	pinsrb	xmm12, byte ptr [rsi + rdx + 10], 15
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rax + 11], 1
-	pinsrb	xmm13, byte ptr [rsi + rdi + 11], 2
-	mov	r14, rdi
-	pinsrb	xmm13, byte ptr [rsi + r12 + 11], 3
-	pinsrb	xmm13, byte ptr [rsi + r8 + 11], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rax + 11], 5
-	pinsrb	xmm13, byte ptr [rsi + r13 + 11], 6
-	pinsrb	xmm13, byte ptr [rsi + r11 + 11], 7
-	mov	r12, r11
-	pinsrb	xmm13, byte ptr [rsi + rbx + 11], 8
-	pinsrb	xmm13, byte ptr [rsi + rcx + 11], 9
-	pinsrb	xmm13, byte ptr [rsi + r9 + 11], 10
-	pinsrb	xmm13, byte ptr [rsi + r10 + 11], 11
-	pinsrb	xmm13, byte ptr [rsi + r15 + 11], 12
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rdi + 11], 13
-	mov	r13, rdi
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r9 + 11], 14
-	pinsrb	xmm13, byte ptr [rsi + rdx + 11], 15
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI4_16]
-	paddb	xmm11, xmm0
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdi + 23]
-	movd	xmm8, edx
-	pcmpeqb	xmm12, xmm14
-	pandn	xmm12, xmmword ptr [rip + .LCPI4_17]
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI4_18]
-	por	xmm13, xmm12
-	movzx	edx, byte ptr [rsi + rdi + 24]
-	movd	xmm12, edx
-	movdqa	xmm9, xmmword ptr [rsp + 224]   # 16-byte Reload
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r11 + 12], 1
-	mov	r8, r14
-	pinsrb	xmm9, byte ptr [rsi + r14 + 12], 2
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdi + 12], 3
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r14 + 12], 4
-	pinsrb	xmm9, byte ptr [rsi + rax + 12], 5
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdx + 12], 6
-	mov	r15, r12
-	pinsrb	xmm9, byte ptr [rsi + r12 + 12], 7
-	pinsrb	xmm9, byte ptr [rsi + rbx + 12], 8
-	pinsrb	xmm9, byte ptr [rsi + rcx + 12], 9
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r12 + 12], 10
-	pinsrb	xmm9, byte ptr [rsi + r10 + 12], 11
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r10 + 12], 12
-	pinsrb	xmm9, byte ptr [rsi + r13 + 12], 13
-	pinsrb	xmm9, byte ptr [rsi + r9 + 12], 14
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r13 + 12], 15
-	pinsrb	xmm6, byte ptr [rsi + r11 + 13], 1
-	pinsrb	xmm6, byte ptr [rsi + r8 + 13], 2
-	pinsrb	xmm6, byte ptr [rsi + rdi + 13], 3
-	pinsrb	xmm6, byte ptr [rsi + r14 + 13], 4
-	pinsrb	xmm6, byte ptr [rsi + rax + 13], 5
-	pinsrb	xmm6, byte ptr [rsi + rdx + 13], 6
-	pinsrb	xmm6, byte ptr [rsi + r15 + 13], 7
-	pinsrb	xmm6, byte ptr [rsi + rbx + 13], 8
-	pinsrb	xmm6, byte ptr [rsi + rcx + 13], 9
-	pinsrb	xmm6, byte ptr [rsi + r12 + 13], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 13], 11
-	pinsrb	xmm6, byte ptr [rsi + r10 + 13], 12
-	mov	r13, r10
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r10 + 13], 13
-	pinsrb	xmm6, byte ptr [rsi + r9 + 13], 14
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r9 + 13], 15
-	pinsrb	xmm15, byte ptr [rsi + r11 + 14], 1
-	pinsrb	xmm15, byte ptr [rsi + r8 + 14], 2
-	pinsrb	xmm15, byte ptr [rsi + rdi + 14], 3
-	pinsrb	xmm15, byte ptr [rsi + r14 + 14], 4
-	pinsrb	xmm15, byte ptr [rsi + rax + 14], 5
-	pinsrb	xmm15, byte ptr [rsi + rdx + 14], 6
-	pinsrb	xmm15, byte ptr [rsi + r15 + 14], 7
-	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdi + 14], 8
-	pinsrb	xmm15, byte ptr [rsi + rcx + 14], 9
-	mov	r11, r12
-	pinsrb	xmm15, byte ptr [rsi + r12 + 14], 10
-	pinsrb	xmm15, byte ptr [rsi + rbx + 14], 11
-	mov	r12, r13
-	pinsrb	xmm15, byte ptr [rsi + r13 + 14], 12
-	mov	r13, r10
-	pinsrb	xmm15, byte ptr [rsi + r10 + 14], 13
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r10 + 14], 14
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmmword ptr [rip + .LCPI4_19]
-	por	xmm9, xmm13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 25]
-	movd	xmm13, edx
-	psubb	xmm11, xmmword ptr [rip + .LCPI4_22]
-	por	xmm9, xmm11
-	movzx	edx, byte ptr [rsi + rax + 26]
-	movd	xmm0, edx
-	pinsrb	xmm15, byte ptr [rsi + r9 + 14], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI4_20]
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI4_21]
-	por	xmm15, xmm6
-	movzx	edx, byte ptr [rsi + rax + 27]
-	movd	xmm11, edx
-	movdqa	xmm6, xmmword ptr [rsp + 192]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 1
-	pinsrb	xmm6, byte ptr [rsi + r8 + 15], 2
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r9 + 15], 3
-	pinsrb	xmm6, byte ptr [rsi + r14 + 15], 4
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 5
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdx + 15], 6
-	pinsrb	xmm6, byte ptr [rsi + r15 + 15], 7
-	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 8
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 9
-	pinsrb	xmm6, byte ptr [rsi + r11 + 15], 10
-	pinsrb	xmm6, byte ptr [rsi + rbx + 15], 11
-	pinsrb	xmm6, byte ptr [rsi + r12 + 15], 12
-	pinsrb	xmm6, byte ptr [rsi + r13 + 15], 13
-	pinsrb	xmm6, byte ptr [rsi + r10 + 15], 14
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r10 + 15], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI4_6]
-	por	xmm6, xmm15
-	movzx	edx, byte ptr [rsi + rax + 28]
-	movd	xmm15, edx
-	por	xmm6, xmm9
-	movdqa	xmmword ptr [rsp + 192], xmm6   # 16-byte Spill
-	movzx	edx, byte ptr [rsi + rax + 29]
-	movd	xmm9, edx
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 16], 1
-	pinsrb	xmm10, byte ptr [rsi + r8 + 16], 2
-	pinsrb	xmm10, byte ptr [rsi + r9 + 16], 3
-	pinsrb	xmm10, byte ptr [rsi + r14 + 16], 4
-	pinsrb	xmm10, byte ptr [rsi + rcx + 16], 5
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r12 + 16], 6
-	pinsrb	xmm10, byte ptr [rsi + r15 + 16], 7
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 16], 8
-	pinsrb	xmm10, byte ptr [rsi + rdi + 16], 9
-	pinsrb	xmm10, byte ptr [rsi + r11 + 16], 10
-	pinsrb	xmm10, byte ptr [rsi + rbx + 16], 11
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 16], 12
-	mov	rax, r13
-	pinsrb	xmm10, byte ptr [rsi + r13 + 16], 13
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r13 + 16], 14
-	pinsrb	xmm10, byte ptr [rsi + r10 + 16], 15
-	pinsrb	xmm4, byte ptr [rsi + rdx + 17], 1
-	pinsrb	xmm4, byte ptr [rsi + r8 + 17], 2
-	pinsrb	xmm4, byte ptr [rsi + r9 + 17], 3
-	pinsrb	xmm4, byte ptr [rsi + r14 + 17], 4
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r8 + 17], 5
-	mov	r9, r12
-	pinsrb	xmm4, byte ptr [rsi + r12 + 17], 6
-	pinsrb	xmm4, byte ptr [rsi + r15 + 17], 7
-	pinsrb	xmm4, byte ptr [rsi + rcx + 17], 8
-	pinsrb	xmm4, byte ptr [rsi + rdi + 17], 9
-	pinsrb	xmm4, byte ptr [rsi + r11 + 17], 10
-	pinsrb	xmm4, byte ptr [rsi + rbx + 17], 11
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r12 + 17], 12
-	pinsrb	xmm4, byte ptr [rsi + rax + 17], 13
-	pinsrb	xmm4, byte ptr [rsi + r13 + 17], 14
-	pinsrb	xmm4, byte ptr [rsi + r10 + 17], 15
-	mov	rdi, r10
-	pcmpeqb	xmm10, xmm14
-	pcmpeqb	xmm4, xmm14
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_16] # xmm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm4, xmm6
-	paddb	xmm4, xmm10
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 30]
-	movd	xmm10, edx
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 18], 1
-	pinsrb	xmm5, byte ptr [rsi + rax + 19], 1
-	pinsrb	xmm3, byte ptr [rsi + rax + 20], 1
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 1
-	pinsrb	xmm1, byte ptr [rsi + rax + 22], 1
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 1
-	pinsrb	xmm12, byte ptr [rsi + rax + 24], 1
-	pinsrb	xmm13, byte ptr [rsi + rax + 25], 1
-	pinsrb	xmm0, byte ptr [rsi + rax + 26], 1
-	pinsrb	xmm11, byte ptr [rsi + rax + 27], 1
-	pinsrb	xmm15, byte ptr [rsi + rax + 28], 1
-	pinsrb	xmm9, byte ptr [rsi + rax + 29], 1
-	pinsrb	xmm10, byte ptr [rsi + rax + 30], 1
-	movzx	edx, byte ptr [rsi + rcx + 31]
-	movd	xmm6, edx
-	pinsrb	xmm6, byte ptr [rsi + rax + 31], 1
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 2
-	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 2
-	pinsrb	xmm3, byte ptr [rsi + rdx + 20], 2
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 2
-	pinsrb	xmm1, byte ptr [rsi + rdx + 22], 2
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 2
-	pinsrb	xmm12, byte ptr [rsi + rdx + 24], 2
-	pinsrb	xmm13, byte ptr [rsi + rdx + 25], 2
-	pinsrb	xmm0, byte ptr [rsi + rdx + 26], 2
-	pinsrb	xmm11, byte ptr [rsi + rdx + 27], 2
-	pinsrb	xmm15, byte ptr [rsi + rdx + 28], 2
-	pinsrb	xmm9, byte ptr [rsi + rdx + 29], 2
-	pinsrb	xmm10, byte ptr [rsi + rdx + 30], 2
-	pinsrb	xmm6, byte ptr [rsi + rdx + 31], 2
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 3
-	pinsrb	xmm7, byte ptr [rsi + r14 + 18], 4
-	pinsrb	xmm7, byte ptr [rsi + r8 + 18], 5
-	mov	rbx, r9
-	pinsrb	xmm7, byte ptr [rsi + r9 + 18], 6
-	pinsrb	xmm7, byte ptr [rsi + r15 + 18], 7
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r11 + 18], 8
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rcx + 18], 9
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r9 + 18], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r10 + 18], 11
-	mov	rax, r12
-	pinsrb	xmm7, byte ptr [rsi + r12 + 18], 12
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r12 + 18], 13
-	pinsrb	xmm7, byte ptr [rsi + r13 + 18], 14
-	pinsrb	xmm7, byte ptr [rsi + rdi + 18], 15
-	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 3
-	pinsrb	xmm5, byte ptr [rsi + r14 + 19], 4
-	pinsrb	xmm5, byte ptr [rsi + r8 + 19], 5
-	pinsrb	xmm5, byte ptr [rsi + rbx + 19], 6
-	pinsrb	xmm5, byte ptr [rsi + r15 + 19], 7
-	pinsrb	xmm5, byte ptr [rsi + r11 + 19], 8
-	pinsrb	xmm5, byte ptr [rsi + rcx + 19], 9
-	pinsrb	xmm5, byte ptr [rsi + r9 + 19], 10
-	pinsrb	xmm5, byte ptr [rsi + r10 + 19], 11
-	pinsrb	xmm5, byte ptr [rsi + rax + 19], 12
-	pinsrb	xmm5, byte ptr [rsi + r12 + 19], 13
-	pinsrb	xmm5, byte ptr [rsi + r13 + 19], 14
-	pinsrb	xmm5, byte ptr [rsi + rdi + 19], 15
-	pinsrb	xmm3, byte ptr [rsi + rdx + 20], 3
-	pinsrb	xmm3, byte ptr [rsi + r14 + 20], 4
-	pinsrb	xmm3, byte ptr [rsi + r8 + 20], 5
-	pinsrb	xmm3, byte ptr [rsi + rbx + 20], 6
-	pinsrb	xmm3, byte ptr [rsi + r15 + 20], 7
-	pinsrb	xmm3, byte ptr [rsi + r11 + 20], 8
-	pinsrb	xmm3, byte ptr [rsi + rcx + 20], 9
-	pinsrb	xmm3, byte ptr [rsi + r9 + 20], 10
-	pinsrb	xmm3, byte ptr [rsi + r10 + 20], 11
-	pinsrb	xmm3, byte ptr [rsi + rax + 20], 12
-	pinsrb	xmm3, byte ptr [rsi + r12 + 20], 13
-	pinsrb	xmm3, byte ptr [rsi + r13 + 20], 14
-	pcmpeqb	xmm7, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI4_17] # xmm14 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm7, xmm14
-	pcmpeqb	xmm5, xmmword ptr [rsp + 160]   # 16-byte Folded Reload
-	movdqa	xmm14, xmmword ptr [rip + .LCPI4_18] # xmm14 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm5, xmm14
-	por	xmm5, xmm7
-	pinsrb	xmm3, byte ptr [rsi + rdi + 20], 15
-	movdqa	xmm14, xmmword ptr [rsp + 160]  # 16-byte Reload
-	pcmpeqb	xmm3, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI4_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm3, xmm7
-	por	xmm3, xmm5
-	pcmpeqd	xmm5, xmm5
-	psubb	xmm4, xmm5
-	por	xmm3, xmm4
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 3
-	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 4
-	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 5
-	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 6
-	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 7
-	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 8
-	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 9
-	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 10
-	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 11
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 12
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 13
-	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 14
-	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 15
-	pinsrb	xmm1, byte ptr [rsi + rdx + 22], 3
-	pinsrb	xmm1, byte ptr [rsi + r14 + 22], 4
-	pinsrb	xmm1, byte ptr [rsi + r8 + 22], 5
-	pinsrb	xmm1, byte ptr [rsi + rbx + 22], 6
-	pinsrb	xmm1, byte ptr [rsi + r15 + 22], 7
-	pinsrb	xmm1, byte ptr [rsi + r11 + 22], 8
-	pinsrb	xmm1, byte ptr [rsi + rcx + 22], 9
-	pinsrb	xmm1, byte ptr [rsi + r9 + 22], 10
-	pinsrb	xmm1, byte ptr [rsi + r10 + 22], 11
-	pinsrb	xmm1, byte ptr [rsi + rax + 22], 12
-	pinsrb	xmm1, byte ptr [rsi + r12 + 22], 13
-	pinsrb	xmm1, byte ptr [rsi + r13 + 22], 14
-	pinsrb	xmm1, byte ptr [rsi + rdi + 22], 15
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 3
-	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 4
-	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 5
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 6
-	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 7
-	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 8
-	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 9
-	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 10
-	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 11
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 12
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 13
-	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 14
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm5
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI4_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm1, xmm7
-	por	xmm1, xmm2
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 15
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm8, xmm4
-	por	xmm8, xmm1
-	pinsrb	xmm12, byte ptr [rsi + rdx + 24], 3
-	pinsrb	xmm12, byte ptr [rsi + r14 + 24], 4
-	pinsrb	xmm12, byte ptr [rsi + r8 + 24], 5
-	pinsrb	xmm12, byte ptr [rsi + rbx + 24], 6
-	pinsrb	xmm12, byte ptr [rsi + r15 + 24], 7
-	pinsrb	xmm12, byte ptr [rsi + r11 + 24], 8
-	pinsrb	xmm12, byte ptr [rsi + rcx + 24], 9
-	pinsrb	xmm12, byte ptr [rsi + r9 + 24], 10
-	pinsrb	xmm12, byte ptr [rsi + r10 + 24], 11
-	pinsrb	xmm12, byte ptr [rsi + rax + 24], 12
-	pinsrb	xmm12, byte ptr [rsi + r12 + 24], 13
-	pinsrb	xmm12, byte ptr [rsi + r13 + 24], 14
-	pinsrb	xmm12, byte ptr [rsi + rdi + 24], 15
-	por	xmm8, xmm3
-	pcmpeqb	xmm12, xmm14
-	pinsrb	xmm13, byte ptr [rsi + rdx + 25], 3
-	pinsrb	xmm13, byte ptr [rsi + r14 + 25], 4
-	pinsrb	xmm13, byte ptr [rsi + r8 + 25], 5
-	pinsrb	xmm13, byte ptr [rsi + rbx + 25], 6
-	pinsrb	xmm13, byte ptr [rsi + r15 + 25], 7
-	pinsrb	xmm13, byte ptr [rsi + r11 + 25], 8
-	pinsrb	xmm13, byte ptr [rsi + rcx + 25], 9
-	pinsrb	xmm13, byte ptr [rsi + r9 + 25], 10
-	pinsrb	xmm13, byte ptr [rsi + r10 + 25], 11
-	pinsrb	xmm13, byte ptr [rsi + rax + 25], 12
-	pinsrb	xmm13, byte ptr [rsi + r12 + 25], 13
-	pinsrb	xmm13, byte ptr [rsi + r13 + 25], 14
-	pinsrb	xmm13, byte ptr [rsi + rdi + 25], 15
-	pinsrb	xmm0, byte ptr [rsi + rdx + 26], 3
-	pinsrb	xmm0, byte ptr [rsi + r14 + 26], 4
-	pinsrb	xmm0, byte ptr [rsi + r8 + 26], 5
-	pinsrb	xmm0, byte ptr [rsi + rbx + 26], 6
-	pinsrb	xmm0, byte ptr [rsi + r15 + 26], 7
-	pinsrb	xmm0, byte ptr [rsi + r11 + 26], 8
-	pinsrb	xmm0, byte ptr [rsi + rcx + 26], 9
-	pinsrb	xmm0, byte ptr [rsi + r9 + 26], 10
-	pinsrb	xmm0, byte ptr [rsi + r10 + 26], 11
-	pinsrb	xmm0, byte ptr [rsi + rax + 26], 12
-	pinsrb	xmm0, byte ptr [rsi + r12 + 26], 13
-	pinsrb	xmm0, byte ptr [rsi + r13 + 26], 14
-	pinsrb	xmm0, byte ptr [rsi + rdi + 26], 15
-	pinsrb	xmm11, byte ptr [rsi + rdx + 27], 3
-	pinsrb	xmm11, byte ptr [rsi + r14 + 27], 4
-	pinsrb	xmm11, byte ptr [rsi + r8 + 27], 5
-	pinsrb	xmm11, byte ptr [rsi + rbx + 27], 6
-	pinsrb	xmm11, byte ptr [rsi + r15 + 27], 7
-	pinsrb	xmm11, byte ptr [rsi + r11 + 27], 8
-	pinsrb	xmm11, byte ptr [rsi + rcx + 27], 9
-	pinsrb	xmm11, byte ptr [rsi + r9 + 27], 10
-	pinsrb	xmm11, byte ptr [rsi + r10 + 27], 11
-	pinsrb	xmm11, byte ptr [rsi + rax + 27], 12
-	pinsrb	xmm11, byte ptr [rsi + r12 + 27], 13
-	pinsrb	xmm11, byte ptr [rsi + r13 + 27], 14
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI4_16]
-	paddb	xmm13, xmm12
-	pinsrb	xmm11, byte ptr [rsi + rdi + 27], 15
-	pcmpeqb	xmm0, xmm14
-	pandn	xmm0, xmmword ptr [rip + .LCPI4_17]
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI4_18]
-	por	xmm11, xmm0
-	pinsrb	xmm15, byte ptr [rsi + rdx + 28], 3
-	pinsrb	xmm9, byte ptr [rsi + rdx + 29], 3
-	pinsrb	xmm10, byte ptr [rsi + rdx + 30], 3
-	pinsrb	xmm6, byte ptr [rsi + rdx + 31], 3
-	pinsrb	xmm15, byte ptr [rsi + r14 + 28], 4
-	pinsrb	xmm9, byte ptr [rsi + r14 + 29], 4
-	pinsrb	xmm10, byte ptr [rsi + r14 + 30], 4
-	pinsrb	xmm6, byte ptr [rsi + r14 + 31], 4
-	mov	rdx, r8
-	pinsrb	xmm15, byte ptr [rsi + r8 + 28], 5
-	pinsrb	xmm9, byte ptr [rsi + r8 + 29], 5
-	pinsrb	xmm10, byte ptr [rsi + r8 + 30], 5
-	pinsrb	xmm6, byte ptr [rsi + r8 + 31], 5
-	pinsrb	xmm15, byte ptr [rsi + rbx + 28], 6
-	pinsrb	xmm9, byte ptr [rsi + rbx + 29], 6
-	pinsrb	xmm10, byte ptr [rsi + rbx + 30], 6
-	pinsrb	xmm6, byte ptr [rsi + rbx + 31], 6
-	pinsrb	xmm15, byte ptr [rsi + r15 + 28], 7
-	pinsrb	xmm9, byte ptr [rsi + r15 + 29], 7
-	pinsrb	xmm10, byte ptr [rsi + r15 + 30], 7
-	pinsrb	xmm6, byte ptr [rsi + r15 + 31], 7
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r11 + 28], 8
-	pinsrb	xmm9, byte ptr [rsi + r11 + 29], 8
-	pinsrb	xmm10, byte ptr [rsi + r11 + 30], 8
-	pinsrb	xmm6, byte ptr [rsi + r11 + 31], 8
-	pinsrb	xmm15, byte ptr [rsi + rcx + 28], 9
-	pinsrb	xmm9, byte ptr [rsi + rcx + 29], 9
-	pinsrb	xmm10, byte ptr [rsi + rcx + 30], 9
-	pinsrb	xmm6, byte ptr [rsi + rcx + 31], 9
-	mov	rdx, r9
-	pinsrb	xmm15, byte ptr [rsi + r9 + 28], 10
-	pinsrb	xmm9, byte ptr [rsi + r9 + 29], 10
-	pinsrb	xmm10, byte ptr [rsi + r9 + 30], 10
-	pinsrb	xmm6, byte ptr [rsi + r9 + 31], 10
-	mov	rdx, r10
-	pinsrb	xmm15, byte ptr [rsi + r10 + 28], 11
-	pinsrb	xmm9, byte ptr [rsi + r10 + 29], 11
-	pinsrb	xmm10, byte ptr [rsi + r10 + 30], 11
-	pinsrb	xmm6, byte ptr [rsi + r10 + 31], 11
-	pinsrb	xmm15, byte ptr [rsi + rax + 28], 12
-	pinsrb	xmm9, byte ptr [rsi + rax + 29], 12
-	pinsrb	xmm10, byte ptr [rsi + rax + 30], 12
-	pinsrb	xmm6, byte ptr [rsi + rax + 31], 12
-	mov	rax, r12
-	pinsrb	xmm15, byte ptr [rsi + r12 + 28], 13
-	pinsrb	xmm9, byte ptr [rsi + r12 + 29], 13
-	pinsrb	xmm10, byte ptr [rsi + r12 + 30], 13
-	pinsrb	xmm6, byte ptr [rsi + r12 + 31], 13
-	pinsrb	xmm15, byte ptr [rsi + r13 + 28], 14
-	pinsrb	xmm9, byte ptr [rsi + r13 + 29], 14
-	pinsrb	xmm10, byte ptr [rsi + r13 + 30], 14
-	pinsrb	xmm6, byte ptr [rsi + r13 + 31], 14
-	mov	rax, rdi
-	pinsrb	xmm15, byte ptr [rsi + rdi + 28], 15
-	pinsrb	xmm9, byte ptr [rsi + rdi + 29], 15
-	pinsrb	xmm10, byte ptr [rsi + rdi + 30], 15
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI4_19]
-	por	xmm15, xmm11
-	pinsrb	xmm6, byte ptr [rsi + rdi + 31], 15
-	psubb	xmm13, xmmword ptr [rip + .LCPI4_22]
-	por	xmm15, xmm13
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmm5
-	pcmpeqb	xmm10, xmm14
-	pandn	xmm10, xmm7
-	por	xmm10, xmm9
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmm4
-	por	xmm6, xmm10
-	por	xmm6, xmm15
-	movdqa	xmm0, xmm8
-	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
-	movdqa	xmm3, xmmword ptr [rsp + 208]   # 16-byte Reload
-	movdqa	xmm1, xmm3
-	movdqa	xmm4, xmmword ptr [rsp + 192]   # 16-byte Reload
-	punpcklbw	xmm1, xmm4              # xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
-	movdqa	xmm2, xmm1
-	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
-	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
-	punpckhbw	xmm3, xmm4              # xmm3 = xmm3[8],xmm4[8],xmm3[9],xmm4[9],xmm3[10],xmm4[10],xmm3[11],xmm4[11],xmm3[12],xmm4[12],xmm3[13],xmm4[13],xmm3[14],xmm4[14],xmm3[15],xmm4[15]
-	movdqa	xmm0, xmm3
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm3, xmm8              # xmm3 = xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm3
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm2
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 240]      # 8-byte Folded Reload
-	jne	.LBB4_184
-# %bb.185:
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 240]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	jne	.LBB4_69
-	jmp	.LBB4_135
-.LBB4_186:
-	and	r10, -8
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, rsi
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 24], r10       # 8-byte Spill
-	lea	rax, [r14 + 4*r10]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	dword ptr [rsp + 64], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	pxor	xmm15, xmm15
-	.p2align	4, 0x90
-.LBB4_187:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r8, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rbx, r15
-	mov	rdi, r15
-	mov	r9, r15
-	movzx	eax, word ptr [rsi + r15]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rsi + r15 + 2]
-	movd	xmm0, eax
-	movzx	eax, word ptr [rsi + r15 + 4]
-	movd	xmm1, eax
-	movzx	eax, word ptr [rsi + r15 + 6]
-	movd	xmm7, eax
-	movzx	eax, word ptr [rsi + r15 + 8]
-	movd	xmm8, eax
-	movzx	eax, word ptr [rsi + r15 + 10]
-	movd	xmm4, eax
-	movzx	eax, word ptr [rsi + r15 + 12]
-	movzx	r10d, word ptr [rsi + r15 + 14]
-	movzx	r11d, word ptr [rsi + r15 + 16]
-	movzx	edx, word ptr [rsi + r15 + 18]
-	movzx	r14d, word ptr [rsi + r15 + 20]
-	mov	rcx, r15
-	or	rcx, 64
-	or	r8, 128
-	or	r12, 192
-	or	r13, 256
-	or	rbx, 320
-	or	rdi, 384
-	pinsrw	xmm5, word ptr [rsi + rcx], 1
-	pinsrw	xmm5, word ptr [rsi + r8], 2
-	pinsrw	xmm5, word ptr [rsi + r12], 3
-	pinsrw	xmm5, word ptr [rsi + r13], 4
-	pinsrw	xmm5, word ptr [rsi + rbx], 5
-	pinsrw	xmm5, word ptr [rsi + rdi], 6
-	pinsrw	xmm0, word ptr [rsi + rcx + 2], 1
-	pinsrw	xmm0, word ptr [rsi + r8 + 2], 2
-	pinsrw	xmm0, word ptr [rsi + r12 + 2], 3
-	pinsrw	xmm0, word ptr [rsi + r13 + 2], 4
-	pinsrw	xmm0, word ptr [rsi + rbx + 2], 5
-	pinsrw	xmm0, word ptr [rsi + rdi + 2], 6
-	or	r9, 448
-	pinsrw	xmm0, word ptr [rsi + r9 + 2], 7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rsi + r15 + 22]
-	mov	dword ptr [rsp + 16], eax       # 4-byte Spill
-	pcmpeqw	xmm0, xmm11
-	pinsrw	xmm1, word ptr [rsi + rcx + 4], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 4], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 4], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 4], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 4], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 4], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 4], 7
-	packsswb	xmm0, xmm0
-	pcmpeqw	xmm1, xmm11
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_8] # xmm9 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm3, xmm9
-	pblendvb	xmm3, xmm15, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_9] # xmm0 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm0
-	movdqa	xmm14, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm1, r10d
-	movzx	r10d, word ptr [rsi + r15 + 24]
-	pinsrw	xmm5, word ptr [rsi + r9], 7
-	pcmpeqw	xmm5, xmm11
-	pcmpeqd	xmm0, xmm0
-	pxor	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pinsrw	xmm7, word ptr [rsi + rcx + 6], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 6], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 6], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 6], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 6], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 6], 6
-	pinsrw	xmm7, word ptr [rsi + r9 + 6], 7
-	pcmpeqw	xmm7, xmm11
-	packsswb	xmm7, xmm7
-	pinsrw	xmm8, word ptr [rsi + rcx + 8], 1
-	pinsrw	xmm8, word ptr [rsi + r8 + 8], 2
-	pinsrw	xmm8, word ptr [rsi + r12 + 8], 3
-	pinsrw	xmm8, word ptr [rsi + r13 + 8], 4
-	pinsrw	xmm8, word ptr [rsi + rbx + 8], 5
-	pinsrw	xmm8, word ptr [rsi + rdi + 8], 6
-	pinsrw	xmm8, word ptr [rsi + r9 + 8], 7
-	psubb	xmm3, xmm5
-	movdqa	xmm12, xmmword ptr [rip + .LCPI4_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm7
-	pblendvb	xmm12, xmm15, xmm0
-	movd	xmm7, r11d
-	movzx	eax, word ptr [rsi + r15 + 26]
-	pcmpeqw	xmm8, xmm11
-	packsswb	xmm8, xmm8
-	por	xmm12, xmm6
-	movdqa	xmm13, xmmword ptr [rip + .LCPI4_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm8
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm6, edx
-	movzx	r11d, word ptr [rsi + r15 + 28]
-	pinsrw	xmm4, word ptr [rsi + rcx + 10], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 10], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 10], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 10], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 10], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 10], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 10], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	pinsrw	xmm2, word ptr [rsi + rcx + 12], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 12], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 12], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 12], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 12], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 12], 6
-	por	xmm12, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm4, r14d
-	movzx	edx, word ptr [rsi + r15 + 30]
-	mov	dword ptr [rsp + 48], edx       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r9 + 12], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm13
-	movdqa	xmm13, xmmword ptr [rip + .LCPI4_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm3, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 32]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rsi + rcx + 14], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 14], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 14], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 14], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 14], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 14], 6
-	por	xmm13, xmm5
-	movd	xmm2, r10d
-	movzx	edx, word ptr [rsi + r15 + 34]
-	mov	dword ptr [rsp + 16], edx       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rsi + r9 + 14], 7
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm6, word ptr [rsi + rcx + 18], 1
-	pinsrw	xmm6, word ptr [rsi + r8 + 18], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 18], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 18], 4
-	pinsrw	xmm6, word ptr [rsi + rbx + 18], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 18], 6
-	packsswb	xmm1, xmm1
-	pinsrw	xmm6, word ptr [rsi + r9 + 18], 7
-	pcmpeqw	xmm6, xmm11
-	packsswb	xmm6, xmm6
-	por	xmm13, xmm12
-	movdqa	xmm12, xmmword ptr [rip + .LCPI4_14] # xmm12 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm12, xmm15, xmm0
-	movdqa	xmm8, xmm9
-	movdqa	xmm0, xmm6
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm1, eax
-	movzx	r14d, word ptr [rsi + r15 + 36]
-	pinsrw	xmm7, word ptr [rsi + rcx + 16], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 16], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 16], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 16], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 16], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 16], 6
-	pinsrw	xmm4, word ptr [rsi + rcx + 20], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 20], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 20], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 20], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 20], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 20], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 20], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm12, xmm13
-	movdqa	xmm5, xmm14
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm4, r11d
-	movzx	r11d, word ptr [rsi + r15 + 38]
-	pinsrw	xmm7, word ptr [rsi + r9 + 16], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm3, word ptr [rsi + rcx + 22], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 22], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 22], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 22], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 22], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 22], 6
-	pinsrw	xmm3, word ptr [rsi + r9 + 22], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [rsi + rcx + 24], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 24], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 24], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 24], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 24], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 24], 6
-	pinsrw	xmm2, word ptr [rsi + r9 + 24], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm10, xmmword ptr [rip + .LCPI4_10] # xmm10 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm14, xmm10
-	movdqa	xmm0, xmm3
-	pblendvb	xmm14, xmm15, xmm0
-	movd	xmm3, dword ptr [rsp + 48]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 40]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm14, xmm5
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_11] # xmm9 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm13, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 42]
-	pinsrw	xmm1, word ptr [rsi + rcx + 26], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 26], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 26], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 26], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 26], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 26], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 26], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm4, word ptr [rsi + rcx + 28], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 28], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 28], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 28], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 28], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 28], 6
-	por	xmm14, xmm8
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm2, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 44]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm4, word ptr [rsi + r9 + 28], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm5, xmm13
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm4, r14d
-	movzx	edx, word ptr [rsi + r15 + 46]
-	mov	dword ptr [rsp + 16], edx       # 4-byte Spill
-	pinsrw	xmm3, word ptr [rsi + rcx + 30], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 30], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 30], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 30], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 30], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 30], 6
-	por	xmm6, xmm5
-	movd	xmm1, r11d
-	movzx	r11d, word ptr [rsi + r15 + 48]
-	pinsrw	xmm3, word ptr [rsi + r9 + 30], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm2, word ptr [rsi + rcx + 34], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 34], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 34], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 34], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 34], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 34], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [rsi + r9 + 34], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm6, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI4_14] # xmm14 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm13, xmm14
-	movdqa	xmm0, xmm3
-	pblendvb	xmm13, xmm15, xmm0
-	movdqa	xmm8, xmmword ptr [rip + .LCPI4_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm2, eax
-	movzx	r14d, word ptr [rsi + r15 + 50]
-	pinsrw	xmm7, word ptr [rsi + rcx + 32], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 32], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 32], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 32], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 32], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 32], 6
-	pinsrw	xmm4, word ptr [rsi + rcx + 36], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 36], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 36], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 36], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 36], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 36], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 36], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm13, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm3, r10d
-	movzx	edx, word ptr [rsi + r15 + 52]
-	pinsrw	xmm7, word ptr [rsi + r9 + 32], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm1, word ptr [rsi + rcx + 38], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 38], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 38], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 38], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 38], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 38], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 38], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm2, word ptr [rsi + rcx + 40], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 40], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 40], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 40], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 40], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 40], 6
-	pinsrw	xmm2, word ptr [rsi + r9 + 40], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm5, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 54]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm6
-	movdqa	xmm6, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm4, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm4 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 56]
-	pinsrw	xmm3, word ptr [rsi + rcx + 42], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 42], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 42], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 42], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 42], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 42], 6
-	pinsrw	xmm3, word ptr [rsi + r9 + 42], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [rsi + rcx + 44], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 44], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 44], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 44], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 44], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 44], 6
-	por	xmm5, xmm8
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_12] # xmm9 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm2, xmm9
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm15, xmm0
-	movd	xmm7, r11d
-	movzx	r11d, word ptr [rsi + r15 + 58]
-	pinsrw	xmm1, word ptr [rsi + r9 + 44], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm2, xmm6
-	movdqa	xmm10, xmmword ptr [rip + .LCPI4_13] # xmm10 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm1, r14d
-	movzx	r14d, word ptr [rsi + r15 + 60]
-	por	xmm6, xmm2
-	movd	xmm2, edx
-	pinsrw	xmm4, word ptr [rsi + rcx + 46], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 46], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 46], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 46], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 46], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 46], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 46], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm6, xmm5
-	movdqa	xmm8, xmm14
-	movdqa	xmm0, xmm4
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm3, r10d
-	pinsrw	xmm1, word ptr [rsi + rcx + 50], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 50], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 50], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 50], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm8, xmm6
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm15, xmm0
-	movd	xmm1, eax
-	pinsrw	xmm7, word ptr [rsi + rcx + 48], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 48], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 48], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 48], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 48], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 48], 6
-	pinsrw	xmm7, word ptr [rsi + r9 + 48], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
-	pinsrw	xmm2, word ptr [rsi + rcx + 52], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 52], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 52], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 52], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 52], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 52], 6
-	packsswb	xmm7, xmm7
-	pinsrw	xmm2, word ptr [rsi + r9 + 52], 7
-	pcmpeqw	xmm2, xmm11
-	pinsrw	xmm3, word ptr [rsi + rcx + 54], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 54], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 54], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 54], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 54], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 54], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [rsi + r9 + 54], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm1, word ptr [rsi + rcx + 56], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 56], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 56], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 56], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 56], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 56], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [rsi + r9 + 56], 7
-	psubb	xmm4, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm15, xmm0
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm2, r11d
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm2, word ptr [rsi + rcx + 58], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 58], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 58], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 58], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 58], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 58], 6
-	pinsrw	xmm2, word ptr [rsi + r9 + 58], 7
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm2, xmm11
-	por	xmm6, xmm5
-	movd	xmm3, r14d
-	pinsrw	xmm3, word ptr [rsi + rcx + 60], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 60], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 60], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 60], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 60], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 60], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [rsi + r9 + 60], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	por	xmm6, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm15, xmm0
-	movdqa	xmm1, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm15, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm10, xmm15, xmm0
-	por	xmm1, xmm4
-	movzx	eax, word ptr [rsi + r15 + 62]
-	por	xmm10, xmm1
-	movd	xmm0, eax
-	pinsrw	xmm0, word ptr [rsi + rcx + 62], 1
-	pinsrw	xmm0, word ptr [rsi + r8 + 62], 2
-	pinsrw	xmm0, word ptr [rsi + r12 + 62], 3
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrw	xmm0, word ptr [rsi + r13 + 62], 4
-	pinsrw	xmm0, word ptr [rsi + rbx + 62], 5
-	pinsrw	xmm0, word ptr [rsi + rdi + 62], 6
-	pinsrw	xmm0, word ptr [rsi + r9 + 62], 7
-	pcmpeqw	xmm0, xmm11
-	packsswb	xmm0, xmm0
-	por	xmm10, xmm6
-	pblendvb	xmm14, xmm15, xmm0
-	por	xmm14, xmm10
-	movdqa	xmm0, xmm12
-	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
-	movdqa	xmm2, xmm8
-	punpcklqdq	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm2, xmm3
-	pshufb	xmm0, xmm3
-	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
-	punpcklbw	xmm8, xmm14             # xmm8 = xmm8[0],xmm14[0],xmm8[1],xmm14[1],xmm8[2],xmm14[2],xmm8[3],xmm14[3],xmm8[4],xmm14[4],xmm8[5],xmm14[5],xmm8[6],xmm14[6],xmm8[7],xmm14[7]
-	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
-	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm12
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm0
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	jne	.LBB4_187
-# %bb.188:
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 64]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	jne	.LBB4_92
-	jmp	.LBB4_139
-.LBB4_189:
-	and	r10, -8
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, rsi
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 24], r10       # 8-byte Spill
-	lea	rax, [r14 + 4*r10]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	dword ptr [rsp + 64], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	pxor	xmm15, xmm15
-	.p2align	4, 0x90
-.LBB4_190:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r8, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rbx, r15
-	mov	rdi, r15
-	mov	r9, r15
-	movzx	eax, word ptr [rsi + r15]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rsi + r15 + 2]
-	movd	xmm0, eax
-	movzx	eax, word ptr [rsi + r15 + 4]
-	movd	xmm1, eax
-	movzx	eax, word ptr [rsi + r15 + 6]
-	movd	xmm7, eax
-	movzx	eax, word ptr [rsi + r15 + 8]
-	movd	xmm8, eax
-	movzx	eax, word ptr [rsi + r15 + 10]
-	movd	xmm4, eax
-	movzx	eax, word ptr [rsi + r15 + 12]
-	movzx	r10d, word ptr [rsi + r15 + 14]
-	movzx	r11d, word ptr [rsi + r15 + 16]
-	movzx	edx, word ptr [rsi + r15 + 18]
-	movzx	r14d, word ptr [rsi + r15 + 20]
-	mov	rcx, r15
-	or	rcx, 64
-	or	r8, 128
-	or	r12, 192
-	or	r13, 256
-	or	rbx, 320
-	or	rdi, 384
-	pinsrw	xmm5, word ptr [rsi + rcx], 1
-	pinsrw	xmm5, word ptr [rsi + r8], 2
-	pinsrw	xmm5, word ptr [rsi + r12], 3
-	pinsrw	xmm5, word ptr [rsi + r13], 4
-	pinsrw	xmm5, word ptr [rsi + rbx], 5
-	pinsrw	xmm5, word ptr [rsi + rdi], 6
-	pinsrw	xmm0, word ptr [rsi + rcx + 2], 1
-	pinsrw	xmm0, word ptr [rsi + r8 + 2], 2
-	pinsrw	xmm0, word ptr [rsi + r12 + 2], 3
-	pinsrw	xmm0, word ptr [rsi + r13 + 2], 4
-	pinsrw	xmm0, word ptr [rsi + rbx + 2], 5
-	pinsrw	xmm0, word ptr [rsi + rdi + 2], 6
-	or	r9, 448
-	pinsrw	xmm0, word ptr [rsi + r9 + 2], 7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rsi + r15 + 22]
-	mov	dword ptr [rsp + 16], eax       # 4-byte Spill
-	pcmpeqw	xmm0, xmm11
-	pinsrw	xmm1, word ptr [rsi + rcx + 4], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 4], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 4], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 4], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 4], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 4], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 4], 7
-	packsswb	xmm0, xmm0
-	pcmpeqw	xmm1, xmm11
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_8] # xmm9 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm3, xmm9
-	pblendvb	xmm3, xmm15, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_9] # xmm0 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm0
-	movdqa	xmm14, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm1, r10d
-	movzx	r10d, word ptr [rsi + r15 + 24]
-	pinsrw	xmm5, word ptr [rsi + r9], 7
-	pcmpeqw	xmm5, xmm11
-	pcmpeqd	xmm0, xmm0
-	pxor	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pinsrw	xmm7, word ptr [rsi + rcx + 6], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 6], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 6], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 6], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 6], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 6], 6
-	pinsrw	xmm7, word ptr [rsi + r9 + 6], 7
-	pcmpeqw	xmm7, xmm11
-	packsswb	xmm7, xmm7
-	pinsrw	xmm8, word ptr [rsi + rcx + 8], 1
-	pinsrw	xmm8, word ptr [rsi + r8 + 8], 2
-	pinsrw	xmm8, word ptr [rsi + r12 + 8], 3
-	pinsrw	xmm8, word ptr [rsi + r13 + 8], 4
-	pinsrw	xmm8, word ptr [rsi + rbx + 8], 5
-	pinsrw	xmm8, word ptr [rsi + rdi + 8], 6
-	pinsrw	xmm8, word ptr [rsi + r9 + 8], 7
-	psubb	xmm3, xmm5
-	movdqa	xmm12, xmmword ptr [rip + .LCPI4_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm7
-	pblendvb	xmm12, xmm15, xmm0
-	movd	xmm7, r11d
-	movzx	eax, word ptr [rsi + r15 + 26]
-	pcmpeqw	xmm8, xmm11
-	packsswb	xmm8, xmm8
-	por	xmm12, xmm6
-	movdqa	xmm13, xmmword ptr [rip + .LCPI4_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm8
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm6, edx
-	movzx	r11d, word ptr [rsi + r15 + 28]
-	pinsrw	xmm4, word ptr [rsi + rcx + 10], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 10], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 10], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 10], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 10], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 10], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 10], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	pinsrw	xmm2, word ptr [rsi + rcx + 12], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 12], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 12], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 12], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 12], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 12], 6
-	por	xmm12, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm4, r14d
-	movzx	edx, word ptr [rsi + r15 + 30]
-	mov	dword ptr [rsp + 48], edx       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r9 + 12], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm13
-	movdqa	xmm13, xmmword ptr [rip + .LCPI4_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm3, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 32]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rsi + rcx + 14], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 14], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 14], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 14], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 14], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 14], 6
-	por	xmm13, xmm5
-	movd	xmm2, r10d
-	movzx	edx, word ptr [rsi + r15 + 34]
-	mov	dword ptr [rsp + 16], edx       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rsi + r9 + 14], 7
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm6, word ptr [rsi + rcx + 18], 1
-	pinsrw	xmm6, word ptr [rsi + r8 + 18], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 18], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 18], 4
-	pinsrw	xmm6, word ptr [rsi + rbx + 18], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 18], 6
-	packsswb	xmm1, xmm1
-	pinsrw	xmm6, word ptr [rsi + r9 + 18], 7
-	pcmpeqw	xmm6, xmm11
-	packsswb	xmm6, xmm6
-	por	xmm13, xmm12
-	movdqa	xmm12, xmmword ptr [rip + .LCPI4_14] # xmm12 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm12, xmm15, xmm0
-	movdqa	xmm8, xmm9
-	movdqa	xmm0, xmm6
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm1, eax
-	movzx	r14d, word ptr [rsi + r15 + 36]
-	pinsrw	xmm7, word ptr [rsi + rcx + 16], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 16], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 16], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 16], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 16], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 16], 6
-	pinsrw	xmm4, word ptr [rsi + rcx + 20], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 20], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 20], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 20], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 20], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 20], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 20], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm12, xmm13
-	movdqa	xmm5, xmm14
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm4, r11d
-	movzx	r11d, word ptr [rsi + r15 + 38]
-	pinsrw	xmm7, word ptr [rsi + r9 + 16], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm3, word ptr [rsi + rcx + 22], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 22], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 22], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 22], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 22], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 22], 6
-	pinsrw	xmm3, word ptr [rsi + r9 + 22], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [rsi + rcx + 24], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 24], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 24], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 24], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 24], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 24], 6
-	pinsrw	xmm2, word ptr [rsi + r9 + 24], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm10, xmmword ptr [rip + .LCPI4_10] # xmm10 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm14, xmm10
-	movdqa	xmm0, xmm3
-	pblendvb	xmm14, xmm15, xmm0
-	movd	xmm3, dword ptr [rsp + 48]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 40]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm14, xmm5
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_11] # xmm9 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm13, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 42]
-	pinsrw	xmm1, word ptr [rsi + rcx + 26], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 26], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 26], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 26], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 26], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 26], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 26], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm4, word ptr [rsi + rcx + 28], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 28], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 28], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 28], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 28], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 28], 6
-	por	xmm14, xmm8
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm2, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 44]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm4, word ptr [rsi + r9 + 28], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm5, xmm13
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm4, r14d
-	movzx	edx, word ptr [rsi + r15 + 46]
-	mov	dword ptr [rsp + 16], edx       # 4-byte Spill
-	pinsrw	xmm3, word ptr [rsi + rcx + 30], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 30], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 30], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 30], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 30], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 30], 6
-	por	xmm6, xmm5
-	movd	xmm1, r11d
-	movzx	r11d, word ptr [rsi + r15 + 48]
-	pinsrw	xmm3, word ptr [rsi + r9 + 30], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm2, word ptr [rsi + rcx + 34], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 34], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 34], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 34], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 34], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 34], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [rsi + r9 + 34], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm6, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI4_14] # xmm14 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm13, xmm14
-	movdqa	xmm0, xmm3
-	pblendvb	xmm13, xmm15, xmm0
-	movdqa	xmm8, xmmword ptr [rip + .LCPI4_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm2, eax
-	movzx	r14d, word ptr [rsi + r15 + 50]
-	pinsrw	xmm7, word ptr [rsi + rcx + 32], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 32], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 32], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 32], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 32], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 32], 6
-	pinsrw	xmm4, word ptr [rsi + rcx + 36], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 36], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 36], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 36], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 36], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 36], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 36], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm13, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm3, r10d
-	movzx	edx, word ptr [rsi + r15 + 52]
-	pinsrw	xmm7, word ptr [rsi + r9 + 32], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm1, word ptr [rsi + rcx + 38], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 38], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 38], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 38], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 38], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 38], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 38], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm2, word ptr [rsi + rcx + 40], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 40], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 40], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 40], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 40], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 40], 6
-	pinsrw	xmm2, word ptr [rsi + r9 + 40], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm5, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rsi + r15 + 54]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm6
-	movdqa	xmm6, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm4, dword ptr [rsp + 16]      # 4-byte Folded Reload
-                                        # xmm4 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 56]
-	pinsrw	xmm3, word ptr [rsi + rcx + 42], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 42], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 42], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 42], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 42], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 42], 6
-	pinsrw	xmm3, word ptr [rsi + r9 + 42], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [rsi + rcx + 44], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 44], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 44], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 44], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 44], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 44], 6
-	por	xmm5, xmm8
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_12] # xmm9 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm2, xmm9
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm15, xmm0
-	movd	xmm7, r11d
-	movzx	r11d, word ptr [rsi + r15 + 58]
-	pinsrw	xmm1, word ptr [rsi + r9 + 44], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm2, xmm6
-	movdqa	xmm10, xmmword ptr [rip + .LCPI4_13] # xmm10 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm1, r14d
-	movzx	r14d, word ptr [rsi + r15 + 60]
-	por	xmm6, xmm2
-	movd	xmm2, edx
-	pinsrw	xmm4, word ptr [rsi + rcx + 46], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 46], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 46], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 46], 4
-	pinsrw	xmm4, word ptr [rsi + rbx + 46], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 46], 6
-	pinsrw	xmm4, word ptr [rsi + r9 + 46], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm6, xmm5
-	movdqa	xmm8, xmm14
-	movdqa	xmm0, xmm4
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm3, r10d
-	pinsrw	xmm1, word ptr [rsi + rcx + 50], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 50], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 50], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rsi + r9 + 50], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm8, xmm6
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm15, xmm0
-	movd	xmm1, eax
-	pinsrw	xmm7, word ptr [rsi + rcx + 48], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 48], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 48], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 48], 4
-	pinsrw	xmm7, word ptr [rsi + rbx + 48], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 48], 6
-	pinsrw	xmm7, word ptr [rsi + r9 + 48], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
-	pinsrw	xmm2, word ptr [rsi + rcx + 52], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 52], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 52], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 52], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 52], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 52], 6
-	packsswb	xmm7, xmm7
-	pinsrw	xmm2, word ptr [rsi + r9 + 52], 7
-	pcmpeqw	xmm2, xmm11
-	pinsrw	xmm3, word ptr [rsi + rcx + 54], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 54], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 54], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 54], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 54], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 54], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [rsi + r9 + 54], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm1, word ptr [rsi + rcx + 56], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 56], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 56], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 56], 4
-	pinsrw	xmm1, word ptr [rsi + rbx + 56], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 56], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [rsi + r9 + 56], 7
-	psubb	xmm4, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI4_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm15, xmm0
-	movdqa	xmm6, xmmword ptr [rip + .LCPI4_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm2, r11d
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm2, word ptr [rsi + rcx + 58], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 58], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 58], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 58], 4
-	pinsrw	xmm2, word ptr [rsi + rbx + 58], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 58], 6
-	pinsrw	xmm2, word ptr [rsi + r9 + 58], 7
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm2, xmm11
-	por	xmm6, xmm5
-	movd	xmm3, r14d
-	pinsrw	xmm3, word ptr [rsi + rcx + 60], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 60], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 60], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 60], 4
-	pinsrw	xmm3, word ptr [rsi + rbx + 60], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 60], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [rsi + r9 + 60], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	por	xmm6, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm15, xmm0
-	movdqa	xmm1, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm15, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm10, xmm15, xmm0
-	por	xmm1, xmm4
-	movzx	eax, word ptr [rsi + r15 + 62]
-	por	xmm10, xmm1
-	movd	xmm0, eax
-	pinsrw	xmm0, word ptr [rsi + rcx + 62], 1
-	pinsrw	xmm0, word ptr [rsi + r8 + 62], 2
-	pinsrw	xmm0, word ptr [rsi + r12 + 62], 3
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrw	xmm0, word ptr [rsi + r13 + 62], 4
-	pinsrw	xmm0, word ptr [rsi + rbx + 62], 5
-	pinsrw	xmm0, word ptr [rsi + rdi + 62], 6
-	pinsrw	xmm0, word ptr [rsi + r9 + 62], 7
-	pcmpeqw	xmm0, xmm11
-	packsswb	xmm0, xmm0
-	por	xmm10, xmm6
-	pblendvb	xmm14, xmm15, xmm0
-	por	xmm14, xmm10
-	movdqa	xmm0, xmm12
-	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
-	movdqa	xmm2, xmm8
-	punpcklqdq	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI4_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm2, xmm3
-	pshufb	xmm0, xmm3
-	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
-	punpcklbw	xmm8, xmm14             # xmm8 = xmm8[0],xmm14[0],xmm8[1],xmm14[1],xmm8[2],xmm14[2],xmm8[3],xmm14[3],xmm8[4],xmm14[4],xmm8[5],xmm14[5],xmm8[6],xmm14[6],xmm8[7],xmm14[7]
-	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
-	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm12
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm0
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	jne	.LBB4_190
-# %bb.191:
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 64]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	jne	.LBB4_104
-	jmp	.LBB4_144
-.LBB4_192:
-	mov	r8, r10
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rsi
-	lea	r11, [r14 + 4*r8]
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	add	rsi, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI4_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	movdqa	xmm8, xmmword ptr [rip + .LCPI4_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI4_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI4_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI4_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI4_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI4_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm9, xmmword ptr [rip + .LCPI4_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	.p2align	4, 0x90
-.LBB4_193:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm6, dword ptr [rsi - 508]     # xmm6 = mem[0],zero,zero,zero
-	movss	xmm7, dword ptr [rsi - 504]     # xmm7 = mem[0],zero,zero,zero
-	movss	xmm5, dword ptr [rsi - 500]     # xmm5 = mem[0],zero,zero,zero
-	movss	xmm4, dword ptr [rsi - 496]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	insertps	xmm7, dword ptr [rsi - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	insertps	xmm5, dword ptr [rsi - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
-	insertps	xmm4, dword ptr [rsi - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rsi - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rsi - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	movdqa	xmm2, xmm7
-	pand	xmm2, xmm15
-	psubb	xmm2, xmm7
-	movss	xmm7, dword ptr [rsi - 492]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rsi - 488]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm8
-	por	xmm5, xmm2
-	movss	xmm3, dword ptr [rsi - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	cmpneqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 3
-	pand	xmm4, xmm10
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 4
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movss	xmm4, dword ptr [rsi - 480]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rsi - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rsi - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rsi - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm5, dword ptr [rsi - 476]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm13
-	por	xmm3, xmm6
-	movss	xmm2, dword ptr [rsi - 472]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packsswb	xmm5, xmm5
-	cmpneqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm3
-	movss	xmm3, dword ptr [rsi - 468]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm5, xmm15
-	insertps	xmm3, dword ptr [rsi - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm4, xmm7
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm7, dword ptr [rsi - 464]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm5
-	movss	xmm5, dword ptr [rsi - 460]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rsi - 456]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 3
-	pand	xmm7, xmm10
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm7
-	movss	xmm2, dword ptr [rsi - 452]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm3
-	movss	xmm7, dword ptr [rsi - 448]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rsi - 444]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	psllw	xmm7, 7
-	pand	xmm7, xmm14
-	por	xmm7, xmm2
-	movss	xmm2, dword ptr [rsi - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm3, dword ptr [rsi - 436]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm6, xmm15
-	insertps	xmm3, dword ptr [rsi - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm7, xmm2
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm2
-	movss	xmm5, dword ptr [rsi - 432]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm7, xmm6
-	movss	xmm6, dword ptr [rsi - 428]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm7
-	movss	xmm7, dword ptr [rsi - 424]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm5
-	movss	xmm2, dword ptr [rsi - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm5, dword ptr [rsi - 416]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm7, dword ptr [rsi - 412]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	psllw	xmm5, 7
-	pand	xmm5, xmm14
-	por	xmm5, xmm2
-	movss	xmm2, dword ptr [rsi - 408]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	pand	xmm7, xmm15
-	insertps	xmm2, dword ptr [rsi - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm6
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm3, dword ptr [rsi - 404]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm6, xmm7
-	movss	xmm2, dword ptr [rsi - 400]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rsi - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rsi - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm2
-	movss	xmm7, dword ptr [rsi - 392]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rsi - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm2, dword ptr [rsi - 388]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm3, dword ptr [rsi - 384]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi], 48       # xmm3 = xmm3[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm2
-	por	xmm3, xmm6
-	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
-	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
-	pshufb	xmm4, xmm9
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	add	rcx, 4
-	add	rsi, 512
-	cmp	r8, rcx
-	jne	.LBB4_193
-# %bb.194:
-	cmp	r10, r8
-	jne	.LBB4_127
-	jmp	.LBB4_148
-.Lfunc_end4:
-	.size	comparison_not_equal_arr_scalar_sse4, .Lfunc_end4-comparison_not_equal_arr_scalar_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_not_equal_scalar_arr_sse4
-.LCPI5_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_1:
-	.zero	16,252
-.LCPI5_2:
-	.zero	16,248
-.LCPI5_3:
-	.zero	16,240
-.LCPI5_4:
-	.zero	16,224
-.LCPI5_5:
-	.zero	16,192
-.LCPI5_6:
-	.zero	16,128
-.LCPI5_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI5_8:
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_9:
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_10:
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_11:
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_12:
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_13:
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_14:
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_15:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI5_16:
-	.zero	16,2
-.LCPI5_17:
-	.zero	16,4
-.LCPI5_18:
-	.zero	16,8
-.LCPI5_19:
-	.zero	16,16
-.LCPI5_20:
-	.zero	16,32
-.LCPI5_21:
-	.zero	16,64
-.LCPI5_22:
-	.zero	16,255
-	.text
-	.globl	comparison_not_equal_scalar_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_not_equal_scalar_arr_sse4,@function
-comparison_not_equal_scalar_arr_sse4:   # @comparison_not_equal_scalar_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 288
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r15, r8
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	mov	r14, rdx
-	cmp	edi, 6
-	jg	.LBB5_26
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB5_2
-# %bb.10:
-	cmp	edi, 4
-	je	.LBB5_99
-# %bb.11:
-	cmp	edi, 5
-	je	.LBB5_122
-# %bb.12:
-	cmp	edi, 6
-	jne	.LBB5_199
-# %bb.13:
-	mov	r11d, dword ptr [rsi]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_17
-# %bb.14:
-	movsxd	rax, r9d
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_15:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11d, dword ptr [r14]
-	lea	r14, [r14 + 4]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [rdx + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [rdx + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_15
-# %bb.16:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_17:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_21
-# %bb.18:
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_19:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11d, dword ptr [r14 + 124]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 120]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 116]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 112]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 108]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 104]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 100]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 92]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 88]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 84]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 80]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 76]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 72]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 68]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 60]
-	setne	r8b
-	cmp	r11d, dword ptr [r14 + 56]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 52]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 48]
-	setne	dil
-	cmp	r11d, dword ptr [r14 + 44]
-	setne	r10b
-	cmp	r11d, dword ptr [r14 + 40]
-	setne	r9b
-	cmp	r11d, dword ptr [r14 + 36]
-	setne	sil
-	cmp	r11d, dword ptr [r14 + 28]
-	setne	al
-	cmp	r11d, dword ptr [r14 + 24]
-	setne	bl
-	cmp	r11d, dword ptr [r14 + 20]
-	setne	dl
-	cmp	r11d, dword ptr [r14 + 16]
-	setne	cl
-	cmp	r11d, dword ptr [r14 + 12]
-	setne	r12b
-	cmp	r11d, dword ptr [r14 + 8]
-	setne	r15b
-	cmp	r11d, dword ptr [r14]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 4]
-	mov	r13, r14
-	setne	r14b
-	cmp	r11d, dword ptr [r13 + 32]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r13 + 64]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r13 + 96]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	r15b, 2
-	or	r15b, r14b
-	mov	r14, r13
-	shl	r12b, 3
-	or	r12b, r15b
-	shl	cl, 4
-	or	cl, r12b
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	shl	dl, 5
-	or	dl, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, dl
-	mov	byte ptr [r15], al
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, sil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	dil, 4
-	or	dil, r10b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	r14, -128
-	add	r15, 4
-	mov	qword ptr [rsp + 8], r15        # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_19
-# %bb.20:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-.LBB5_21:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.22:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB5_23
-# %bb.142:
-	mov	r9, r8
-	and	r9, -2
-	xor	edi, edi
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_143:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11d, dword ptr [r14]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	al, r10b
-	and	dl, al
-	xor	dl, r10b
-	mov	byte ptr [r15 + rsi], dl
-	add	rdi, 2
-	cmp	r11d, dword ptr [r14 + 4]
-	lea	r14, [r14 + 8]
-	setne	al
-	neg	al
-	xor	al, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, dl
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, rdi
-	jne	.LBB5_143
-	jmp	.LBB5_24
-.LBB5_26:
-	cmp	edi, 8
-	jle	.LBB5_27
-# %bb.42:
-	cmp	edi, 9
-	je	.LBB5_158
-# %bb.43:
-	cmp	edi, 11
-	je	.LBB5_170
-# %bb.44:
-	cmp	edi, 12
-	jne	.LBB5_199
-# %bb.45:
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB5_49
-# %bb.46:
-	movsxd	rax, r9d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_47:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [r14]
-	lea	r14, [r14 + 8]
-	setne	dl
-	neg	dl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	ebx, byte ptr [r8 + rsi]
-	xor	dl, bl
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, bl
-	mov	byte ptr [r8 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_47
-# %bb.48:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_49:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_53
-# %bb.50:
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_51:                               # =>This Inner Loop Header: Depth=1
-	mov	rdx, r14
-	ucomisd	xmm0, qword ptr [r14]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 8]
-	setne	r9b
-	ucomisd	xmm0, qword ptr [r14 + 16]
-	setne	r11b
-	ucomisd	xmm0, qword ptr [r14 + 24]
-	setne	r13b
-	ucomisd	xmm0, qword ptr [r14 + 32]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 40]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 48]
-	setne	bl
-	ucomisd	xmm0, qword ptr [r14 + 56]
-	setne	r12b
-	ucomisd	xmm0, qword ptr [r14 + 64]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 72]
-	setne	sil
-	ucomisd	xmm0, qword ptr [r14 + 80]
-	setne	dil
-	ucomisd	xmm0, qword ptr [r14 + 88]
-	setne	r8b
-	ucomisd	xmm0, qword ptr [r14 + 96]
-	setne	r10b
-	ucomisd	xmm0, qword ptr [r14 + 104]
-	setne	r15b
-	ucomisd	xmm0, qword ptr [r14 + 112]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 120]
-	setne	cl
-	ucomisd	xmm0, qword ptr [r14 + 128]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 136]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 144]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 152]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 160]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 168]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 176]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [r14 + 184]
-	setne	r14b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	setne	al
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r12b, 7
-	or	r12b, bl
-	shl	r11b, 2
-	or	r11b, r9b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	r9d, ebx
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	shl	r8b, 3
-	or	r8b, dil
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r9b
-	shl	r10b, 4
-	or	r10b, r8b
-	shl	r15b, 5
-	or	r15b, r10b
-	movzx	edi, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	r12b, bl
-	or	cl, r15b
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	mov	edi, ebx
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, dil
-	mov	edi, ebx
-	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, dil
-	mov	edi, ebx
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, dil
-	mov	edi, ebx
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, dil
-	mov	byte ptr [rsi], r12b
-	movzx	edi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r14b, 7
-	or	r14b, dil
-	mov	byte ptr [rsi + 1], cl
-	or	r14b, bl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [rsi + 2], r14b
-	mov	byte ptr [rsi + 3], al
-	lea	r14, [rdx + 256]
-	add	rsi, 4
-	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB5_51
-# %bb.52:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-.LBB5_53:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.54:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_193
-# %bb.55:
-	xor	edi, edi
-	jmp	.LBB5_195
-.LBB5_2:
-	cmp	edi, 2
-	je	.LBB5_56
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB5_199
-# %bb.4:
-	mov	al, byte ptr [rsi]
-	mov	byte ptr [rsp + 64], al         # 1-byte Spill
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_8
-# %bb.5:
-	movsxd	rax, r9d
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	cmp	cl, byte ptr [r14]
-	lea	r14, [r14 + 1]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [rdx + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [rdx + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_6
-# %bb.7:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_8:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_9
-# %bb.81:
-	cmp	r10, 16
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	jb	.LBB5_82
-# %bb.83:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, r14
-	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
-	jae	.LBB5_85
-# %bb.84:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	cmp	r14, rax
-	jae	.LBB5_85
-.LBB5_82:
-	xor	eax, eax
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-.LBB5_88:
-	sub	r10, qword ptr [rsp + 216]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_89:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	cmp	al, byte ptr [r14 + 31]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 30]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 29]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 28]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 27]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 26]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 25]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 23]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 22]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 21]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 20]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 19]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 18]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 17]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 15]
-	setne	r10b
-	cmp	al, byte ptr [r14 + 14]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 13]
-	setne	r13b
-	cmp	al, byte ptr [r14 + 12]
-	setne	r12b
-	cmp	al, byte ptr [r14 + 11]
-	setne	r15b
-	cmp	al, byte ptr [r14 + 10]
-	setne	bl
-	cmp	al, byte ptr [r14 + 9]
-	setne	r11b
-	cmp	al, byte ptr [r14 + 7]
-	setne	sil
-	cmp	al, byte ptr [r14 + 6]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 5]
-	setne	r9b
-	cmp	al, byte ptr [r14 + 4]
-	setne	r8b
-	cmp	al, byte ptr [r14 + 3]
-	setne	dil
-	cmp	al, byte ptr [r14 + 2]
-	setne	dl
-	cmp	al, byte ptr [r14]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 1]
-	setne	cl
-	cmp	al, byte ptr [r14 + 8]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 16]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 24]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	cl, cl
-	add	cl, byte ptr [rsp + 168]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, cl
-	shl	dil, 3
-	or	dil, dl
-	shl	r8b, 4
-	or	r8b, dil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	sil, 7
-	or	sil, al
-	or	sil, r9b
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	mov	byte ptr [rax], sil
-	add	r11b, r11b
-	add	r11b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, r11b
-	shl	r15b, 3
-	or	r15b, bl
-	shl	r12b, 4
-	or	r12b, r15b
-	shl	r13b, 5
-	or	r13b, r12b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r10b, 7
-	or	r10b, cl
-	or	r10b, r13b
-	mov	byte ptr [rax + 1], r10b
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 7
-	or	cl, bl
-	or	cl, dl
-	mov	byte ptr [rax + 2], cl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 7
-	or	cl, bl
-	or	cl, dl
-	mov	byte ptr [rax + 3], cl
-	add	r14, 32
-	add	rax, 4
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB5_89
-# %bb.90:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	jmp	.LBB5_91
-.LBB5_27:
-	cmp	edi, 7
-	je	.LBB5_144
-# %bb.28:
-	cmp	edi, 8
-	jne	.LBB5_199
-# %bb.29:
-	mov	r11, qword ptr [rsi]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_33
-# %bb.30:
-	movsxd	rax, r9d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_31:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11, qword ptr [r14]
-	lea	r14, [r14 + 8]
-	setne	dl
-	neg	dl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	ebx, byte ptr [r8 + rsi]
-	xor	dl, bl
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, bl
-	mov	byte ptr [r8 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_31
-# %bb.32:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_33:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_37
-# %bb.34:
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_35:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11, qword ptr [r14 + 248]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 240]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 232]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 224]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 216]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 208]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 200]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 184]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 176]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 168]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 160]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 152]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 144]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 136]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 120]
-	setne	r8b
-	cmp	r11, qword ptr [r14 + 112]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 104]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 96]
-	setne	dil
-	cmp	r11, qword ptr [r14 + 88]
-	setne	r10b
-	cmp	r11, qword ptr [r14 + 80]
-	setne	r9b
-	cmp	r11, qword ptr [r14 + 72]
-	setne	sil
-	cmp	r11, qword ptr [r14 + 56]
-	setne	al
-	cmp	r11, qword ptr [r14 + 48]
-	setne	bl
-	cmp	r11, qword ptr [r14 + 40]
-	setne	cl
-	cmp	r11, qword ptr [r14 + 32]
-	setne	dl
-	cmp	r11, qword ptr [r14 + 24]
-	setne	r15b
-	cmp	r11, qword ptr [r14 + 16]
-	setne	r13b
-	cmp	r11, qword ptr [r14]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 8]
-	setne	r12b
-	cmp	r11, qword ptr [r14 + 64]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 128]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 192]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	shl	r15b, 3
-	or	r15b, r13b
-	shl	dl, 4
-	or	dl, r15b
-	shl	cl, 5
-	or	cl, dl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r12], al
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, sil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	dil, 4
-	or	dil, r10b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r12 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 3], al
-	add	r14, 256
-	add	r12, 4
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_35
-# %bb.36:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-.LBB5_37:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.38:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB5_39
-# %bb.156:
-	mov	r9, r8
-	and	r9, -2
-	xor	edi, edi
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_157:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11, qword ptr [r14]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	al, r10b
-	and	dl, al
-	xor	dl, r10b
-	mov	byte ptr [r15 + rsi], dl
-	add	rdi, 2
-	cmp	r11, qword ptr [r14 + 8]
-	lea	r14, [r14 + 16]
-	setne	al
-	neg	al
-	xor	al, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, dl
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, rdi
-	jne	.LBB5_157
-	jmp	.LBB5_40
-.LBB5_56:
-	mov	al, byte ptr [rsi]
-	mov	byte ptr [rsp + 40], al         # 1-byte Spill
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_60
-# %bb.57:
-	movsxd	rax, r9d
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_58:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	cmp	cl, byte ptr [r14]
-	lea	r14, [r14 + 1]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [rdx + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [rdx + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_58
-# %bb.59:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_60:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_61
-# %bb.62:
-	cmp	r10, 16
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	jb	.LBB5_63
-# %bb.64:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, r14
-	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
-	jae	.LBB5_66
-# %bb.65:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	cmp	r14, rax
-	jae	.LBB5_66
-.LBB5_63:
-	xor	eax, eax
-	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-.LBB5_69:
-	sub	r10, qword ptr [rsp + 216]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	cmp	al, byte ptr [r14 + 31]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 30]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 29]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 28]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 27]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 26]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 25]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 23]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 22]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 21]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 20]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 19]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 18]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 17]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 15]
-	setne	r10b
-	cmp	al, byte ptr [r14 + 14]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 13]
-	setne	r13b
-	cmp	al, byte ptr [r14 + 12]
-	setne	r12b
-	cmp	al, byte ptr [r14 + 11]
-	setne	r15b
-	cmp	al, byte ptr [r14 + 10]
-	setne	bl
-	cmp	al, byte ptr [r14 + 9]
-	setne	r11b
-	cmp	al, byte ptr [r14 + 7]
-	setne	sil
-	cmp	al, byte ptr [r14 + 6]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 5]
-	setne	r9b
-	cmp	al, byte ptr [r14 + 4]
-	setne	r8b
-	cmp	al, byte ptr [r14 + 3]
-	setne	dil
-	cmp	al, byte ptr [r14 + 2]
-	setne	dl
-	cmp	al, byte ptr [r14]
-	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 1]
-	setne	cl
-	cmp	al, byte ptr [r14 + 8]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 16]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	al, byte ptr [r14 + 24]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	add	cl, cl
-	add	cl, byte ptr [rsp + 168]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, cl
-	shl	dil, 3
-	or	dil, dl
-	shl	r8b, 4
-	or	r8b, dil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	sil, 7
-	or	sil, al
-	or	sil, r9b
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	mov	byte ptr [rax], sil
-	add	r11b, r11b
-	add	r11b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, r11b
-	shl	r15b, 3
-	or	r15b, bl
-	shl	r12b, 4
-	or	r12b, r15b
-	shl	r13b, 5
-	or	r13b, r12b
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r10b, 7
-	or	r10b, cl
-	or	r10b, r13b
-	mov	byte ptr [rax + 1], r10b
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	cl, 7
-	or	cl, bl
-	or	cl, dl
-	mov	byte ptr [rax + 2], cl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 136]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 7
-	or	cl, bl
-	or	cl, dl
-	mov	byte ptr [rax + 3], cl
-	add	r14, 32
-	add	rax, 4
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB5_70
-# %bb.71:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	jmp	.LBB5_72
-.LBB5_144:
-	mov	r11d, dword ptr [rsi]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_148
-# %bb.145:
-	movsxd	rax, r9d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_146:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11d, dword ptr [r14]
-	lea	r14, [r14 + 4]
-	setne	dl
-	neg	dl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	ebx, byte ptr [r8 + rsi]
-	xor	dl, bl
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, bl
-	mov	byte ptr [r8 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_146
-# %bb.147:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_148:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_152
-# %bb.149:
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_150:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11d, dword ptr [r14 + 124]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 120]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 116]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 112]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 108]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 104]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 100]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 92]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 88]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 84]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 80]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 76]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 72]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 68]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 60]
-	setne	r8b
-	cmp	r11d, dword ptr [r14 + 56]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 52]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 48]
-	setne	dil
-	cmp	r11d, dword ptr [r14 + 44]
-	setne	r10b
-	cmp	r11d, dword ptr [r14 + 40]
-	setne	r9b
-	cmp	r11d, dword ptr [r14 + 36]
-	setne	sil
-	cmp	r11d, dword ptr [r14 + 28]
-	setne	al
-	cmp	r11d, dword ptr [r14 + 24]
-	setne	bl
-	cmp	r11d, dword ptr [r14 + 20]
-	setne	cl
-	cmp	r11d, dword ptr [r14 + 16]
-	setne	dl
-	cmp	r11d, dword ptr [r14 + 12]
-	setne	r15b
-	cmp	r11d, dword ptr [r14 + 8]
-	setne	r13b
-	cmp	r11d, dword ptr [r14]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 4]
-	setne	r12b
-	cmp	r11d, dword ptr [r14 + 32]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 64]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r11d, dword ptr [r14 + 96]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	shl	r15b, 3
-	or	r15b, r13b
-	shl	dl, 4
-	or	dl, r15b
-	shl	cl, 5
-	or	cl, dl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r12], al
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, sil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	dil, 4
-	or	dil, r10b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r12 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 3], al
-	sub	r14, -128
-	add	r12, 4
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_150
-# %bb.151:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-.LBB5_152:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.153:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_154
-.LBB5_23:
-	xor	edi, edi
-	jmp	.LBB5_24
-.LBB5_99:
-	movzx	r11d, word ptr [rsi]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_103
-# %bb.100:
-	movsxd	rax, r9d
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_101:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11w, word ptr [r14]
-	lea	r14, [r14 + 2]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [rdx + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [rdx + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_101
-# %bb.102:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_103:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_104
-# %bb.105:
-	cmp	r10, 8
-	mov	dword ptr [rsp + 16], r11d      # 4-byte Spill
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	jb	.LBB5_106
-# %bb.107:
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, r14
-	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
-	jae	.LBB5_109
-# %bb.108:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	cmp	rax, r14
-	jbe	.LBB5_109
-.LBB5_106:
-	xor	eax, eax
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-.LBB5_112:
-	sub	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_113:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11w, word ptr [r14 + 62]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 60]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 58]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 56]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 54]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 52]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 50]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 46]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 44]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 42]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 40]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 38]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 36]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 34]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 30]
-	setne	r9b
-	cmp	r11w, word ptr [r14 + 28]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 26]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 24]
-	setne	r13b
-	cmp	r11w, word ptr [r14 + 22]
-	setne	r15b
-	cmp	r11w, word ptr [r14 + 20]
-	setne	r11b
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 18]
-	setne	r10b
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 14]
-	setne	dl
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 12]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 10]
-	setne	r8b
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 8]
-	setne	dil
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 6]
-	setne	sil
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 4]
-	setne	cl
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 2]
-	setne	al
-	mov	rbx, r12
-	mov	r12d, dword ptr [rsp + 16]      # 4-byte Reload
-	cmp	r12w, word ptr [r14 + 16]
-	mov	r12, rbx
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	bx, word ptr [r14 + 32]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	bx, word ptr [r14 + 48]
-	setne	bl
-	add	al, al
-	add	al, byte ptr [rsp + 152]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	sil, 3
-	or	sil, cl
-	shl	dil, 4
-	or	dil, sil
-	shl	r8b, 5
-	or	r8b, dil
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	dl, 7
-	or	dl, al
-	or	dl, r8b
-	mov	byte ptr [r12], dl
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 192]      # 1-byte Folded Reload
-	shl	r11b, 2
-	or	r11b, r10b
-	shl	r15b, 3
-	or	r15b, r11b
-	mov	r11d, dword ptr [rsp + 16]      # 4-byte Reload
-	shl	r13b, 4
-	or	r13b, r15b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r13b
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	or	r9b, al
-	mov	byte ptr [r12 + 1], r9b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	or	al, bl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 3], al
-	add	r14, 64
-	add	r12, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_113
-# %bb.114:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	jmp	.LBB5_115
-.LBB5_122:
-	movzx	r11d, word ptr [rsi]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_126
-# %bb.123:
-	movsxd	rax, r9d
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_124:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11w, word ptr [r14]
-	lea	r14, [r14 + 2]
-	setne	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [rdx + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [rdx + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_124
-# %bb.125:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_126:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_127
-# %bb.128:
-	cmp	r10, 8
-	mov	dword ptr [rsp + 16], r11d      # 4-byte Spill
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	jb	.LBB5_129
-# %bb.130:
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, r14
-	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
-	jae	.LBB5_132
-# %bb.131:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	cmp	rax, r14
-	jbe	.LBB5_132
-.LBB5_129:
-	xor	eax, eax
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-.LBB5_135:
-	sub	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_136:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11w, word ptr [r14 + 62]
-	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 60]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 58]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 56]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 54]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 52]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 50]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 46]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 44]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 42]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 40]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 38]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 36]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 34]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 30]
-	setne	r9b
-	cmp	r11w, word ptr [r14 + 28]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 26]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r11w, word ptr [r14 + 24]
-	setne	r13b
-	cmp	r11w, word ptr [r14 + 22]
-	setne	r15b
-	cmp	r11w, word ptr [r14 + 20]
-	setne	r11b
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 18]
-	setne	r10b
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 14]
-	setne	dl
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 12]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 10]
-	setne	r8b
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 8]
-	setne	dil
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 6]
-	setne	sil
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 4]
-	setne	cl
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	ax, word ptr [r14 + 2]
-	setne	al
-	mov	rbx, r12
-	mov	r12d, dword ptr [rsp + 16]      # 4-byte Reload
-	cmp	r12w, word ptr [r14 + 16]
-	mov	r12, rbx
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	bx, word ptr [r14 + 32]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp + 16]       # 4-byte Reload
-	cmp	bx, word ptr [r14 + 48]
-	setne	bl
-	add	al, al
-	add	al, byte ptr [rsp + 152]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	sil, 3
-	or	sil, cl
-	shl	dil, 4
-	or	dil, sil
-	shl	r8b, 5
-	or	r8b, dil
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	dl, 7
-	or	dl, al
-	or	dl, r8b
-	mov	byte ptr [r12], dl
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 192]      # 1-byte Folded Reload
-	shl	r11b, 2
-	or	r11b, r10b
-	shl	r15b, 3
-	or	r15b, r11b
-	mov	r11d, dword ptr [rsp + 16]      # 4-byte Reload
-	shl	r13b, 4
-	or	r13b, r15b
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r13b
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	or	r9b, al
-	mov	byte ptr [r12 + 1], r9b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	or	al, bl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 3], al
-	add	r14, 64
-	add	r12, 4
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_136
-# %bb.137:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	jmp	.LBB5_138
-.LBB5_158:
-	mov	r11, qword ptr [rsi]
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB5_162
-# %bb.159:
-	movsxd	rax, r9d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_160:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11, qword ptr [r14]
-	lea	r14, [r14 + 8]
-	setne	dl
-	neg	dl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	ebx, byte ptr [r8 + rsi]
-	xor	dl, bl
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, bl
-	mov	byte ptr [r8 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_160
-# %bb.161:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_162:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_166
-# %bb.163:
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_164:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11, qword ptr [r14 + 248]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 240]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 232]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 224]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 216]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 208]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 200]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 184]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 176]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 168]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 160]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 152]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 144]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 136]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 120]
-	setne	r8b
-	cmp	r11, qword ptr [r14 + 112]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 104]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 96]
-	setne	dil
-	cmp	r11, qword ptr [r14 + 88]
-	setne	r10b
-	cmp	r11, qword ptr [r14 + 80]
-	setne	r9b
-	cmp	r11, qword ptr [r14 + 72]
-	setne	sil
-	cmp	r11, qword ptr [r14 + 56]
-	setne	al
-	cmp	r11, qword ptr [r14 + 48]
-	setne	bl
-	cmp	r11, qword ptr [r14 + 40]
-	setne	cl
-	cmp	r11, qword ptr [r14 + 32]
-	setne	dl
-	cmp	r11, qword ptr [r14 + 24]
-	setne	r15b
-	cmp	r11, qword ptr [r14 + 16]
-	setne	r13b
-	cmp	r11, qword ptr [r14]
-	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 8]
-	setne	r12b
-	cmp	r11, qword ptr [r14 + 64]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 128]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r11, qword ptr [r14 + 192]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 152]      # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	shl	r15b, 3
-	or	r15b, r13b
-	shl	dl, 4
-	or	dl, r15b
-	shl	cl, 5
-	or	cl, dl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r12], al
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, sil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	dil, 4
-	or	dil, r10b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r12 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, dl
-	or	al, cl
-	mov	byte ptr [r12 + 3], al
-	add	r14, 256
-	add	r12, 4
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
-	jne	.LBB5_164
-# %bb.165:
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-.LBB5_166:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.167:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_168
-.LBB5_39:
-	xor	edi, edi
-	jmp	.LBB5_40
-.LBB5_170:
-	lea	r10, [r15 + 31]
-	test	r15, r15
-	cmovns	r10, r15
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB5_174
-# %bb.171:
-	movsxd	rax, r9d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_172:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [r14]
-	lea	r14, [r14 + 4]
-	setne	dl
-	neg	dl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	ebx, byte ptr [r8 + rsi]
-	xor	dl, bl
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, bl
-	mov	byte ptr [r8 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB5_172
-# %bb.173:
-	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
-.LBB5_174:
-	sar	r10, 5
-	cmp	r15, 32
-	jl	.LBB5_175
-# %bb.176:
-	cmp	r10, 4
-	jb	.LBB5_177
-# %bb.178:
-	mov	rax, r10
-	shl	rax, 7
-	add	rax, r14
-	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
-	jae	.LBB5_180
-# %bb.179:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	cmp	rax, r14
-	jbe	.LBB5_180
-.LBB5_177:
-	xor	r8d, r8d
-	mov	rbx, r14
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-.LBB5_183:
-	mov	qword ptr [rsp + 8], r11        # 8-byte Spill
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
-	sub	r10, r8
-	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB5_184:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	setne	r8b
-	ucomiss	xmm0, dword ptr [rbx + 8]
-	setne	r14b
-	ucomiss	xmm0, dword ptr [rbx + 12]
-	setne	r13b
-	ucomiss	xmm0, dword ptr [rbx + 16]
-	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 20]
-	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 24]
-	setne	al
-	ucomiss	xmm0, dword ptr [rbx + 28]
-	setne	r11b
-	ucomiss	xmm0, dword ptr [rbx + 32]
-	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 36]
-	setne	dl
-	ucomiss	xmm0, dword ptr [rbx + 40]
-	setne	sil
-	ucomiss	xmm0, dword ptr [rbx + 44]
-	setne	dil
-	ucomiss	xmm0, dword ptr [rbx + 48]
-	setne	r10b
-	ucomiss	xmm0, dword ptr [rbx + 52]
-	setne	r12b
-	ucomiss	xmm0, dword ptr [rbx + 56]
-	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 60]
-	setne	r9b
-	ucomiss	xmm0, dword ptr [rbx + 64]
-	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 68]
-	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 72]
-	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 76]
-	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 80]
-	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 84]
-	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 88]
-	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 92]
-	setne	r15b
-	ucomiss	xmm0, dword ptr [rbx + 96]
-	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 100]
-	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 104]
-	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 108]
-	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 112]
-	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 116]
-	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 120]
-	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 124]
-	setne	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 136]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], cl
-	add	rbx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
-	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
-	jne	.LBB5_184
-# %bb.185:
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
-	jmp	.LBB5_186
-.LBB5_9:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-.LBB5_91:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.92:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_94
-# %bb.93:
-	xor	esi, esi
-	jmp	.LBB5_97
-.LBB5_61:
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-.LBB5_72:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.73:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_75
-# %bb.74:
-	xor	esi, esi
-	jmp	.LBB5_78
-.LBB5_104:
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-.LBB5_115:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.116:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	je	.LBB5_117
-# %bb.120:
-	mov	r9, r8
-	and	r9, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB5_121:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11w, word ptr [r14]
-	setne	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	rsi, 2
-	cmp	r11w, word ptr [r14 + 2]
-	lea	r14, [r14 + 4]
-	setne	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, rsi
-	jne	.LBB5_121
-	jmp	.LBB5_118
-.LBB5_127:
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-.LBB5_138:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.139:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_140
-.LBB5_117:
-	xor	esi, esi
-	jmp	.LBB5_118
-.LBB5_175:
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	rbx, r14
-.LBB5_186:
-	shl	r10, 5
-	cmp	r10, r15
-	jge	.LBB5_199
-# %bb.187:
-	mov	r8, r15
-	sub	r8, r10
-	not	r10
-	add	r10, r15
-	jne	.LBB5_191
-# %bb.188:
-	xor	esi, esi
-	jmp	.LBB5_189
-.LBB5_154:
-	mov	r9, r8
-	and	r9, -2
-	xor	edi, edi
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_155:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11d, dword ptr [r14]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	al, r10b
-	and	dl, al
-	xor	dl, r10b
-	mov	byte ptr [r15 + rsi], dl
-	add	rdi, 2
-	cmp	r11d, dword ptr [r14 + 4]
-	lea	r14, [r14 + 8]
-	setne	al
-	neg	al
-	xor	al, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, dl
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, rdi
-	jne	.LBB5_155
-.LBB5_24:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.25:
-	cmp	r11d, dword ptr [r14]
-	jmp	.LBB5_197
-.LBB5_94:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_95:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	cmp	sil, byte ptr [r14 + rax]
-	setne	bl
-	neg	bl
-	mov	rdi, rax
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	sil, byte ptr [r14 + rax + 1]
-	lea	rsi, [rax + 2]
-	setne	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB5_95
-# %bb.96:
-	add	r14, rsi
-.LBB5_97:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.98:
-	mov	al, byte ptr [rsp + 64]         # 1-byte Reload
-	cmp	al, byte ptr [r14]
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	jmp	.LBB5_80
-.LBB5_75:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_76:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	movzx	esi, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	cmp	sil, byte ptr [r14 + rax]
-	setne	bl
-	neg	bl
-	mov	rdi, rax
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	sil, byte ptr [r14 + rax + 1]
-	lea	rsi, [rax + 2]
-	setne	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB5_76
-# %bb.77:
-	add	r14, rsi
-.LBB5_78:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.79:
-	mov	al, byte ptr [rsp + 40]         # 1-byte Reload
-	cmp	al, byte ptr [r14]
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-.LBB5_80:
-	mov	dil, byte ptr [r8 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	jmp	.LBB5_198
-.LBB5_193:
-	mov	r9, r8
-	and	r9, -2
-	xor	edi, edi
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_194:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [r14]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r11 + rsi]
-	xor	al, r10b
-	mov	ecx, edi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, r10b
-	mov	byte ptr [r11 + rsi], dl
-	add	rdi, 2
-	ucomisd	xmm0, qword ptr [r14 + 8]
-	lea	r14, [r14 + 16]
-	setne	al
-	neg	al
-	xor	al, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, dl
-	mov	byte ptr [r11 + rsi], bl
-	cmp	r9, rdi
-	jne	.LBB5_194
-.LBB5_195:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.196:
-	ucomisd	xmm0, qword ptr [r14]
-	jmp	.LBB5_197
-.LBB5_168:
-	mov	r9, r8
-	and	r9, -2
-	xor	edi, edi
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_169:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11, qword ptr [r14]
-	setne	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	al, r10b
-	and	dl, al
-	xor	dl, r10b
-	mov	byte ptr [r15 + rsi], dl
-	add	rdi, 2
-	cmp	r11, qword ptr [r14 + 8]
-	lea	r14, [r14 + 16]
-	setne	al
-	neg	al
-	xor	al, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, dl
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, rdi
-	jne	.LBB5_169
-.LBB5_40:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.41:
-	cmp	r11, qword ptr [r14]
-.LBB5_197:
-	setne	al
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	mov	sil, byte ptr [r8 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-.LBB5_198:
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB5_199
-.LBB5_140:
-	mov	r9, r8
-	and	r9, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB5_141:                              # =>This Inner Loop Header: Depth=1
-	cmp	r11w, word ptr [r14]
-	setne	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	rsi, 2
-	cmp	r11w, word ptr [r14 + 2]
-	lea	r14, [r14 + 4]
-	setne	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, rsi
-	jne	.LBB5_141
-.LBB5_118:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.119:
-	cmp	r11w, word ptr [r14]
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r12 + rdx], bl
-	jmp	.LBB5_199
-.LBB5_191:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r14, r11
-	.p2align	4, 0x90
-.LBB5_192:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	setne	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	mov	ecx, esi
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	add	rsi, 2
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	lea	rbx, [rbx + 8]
-	setne	r9b
-	neg	r9b
-	xor	r9b, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r9b
-	xor	dl, al
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, rsi
-	jne	.LBB5_192
-.LBB5_189:
-	test	r8b, 1
-	je	.LBB5_199
-# %bb.190:
-	ucomiss	xmm0, dword ptr [rbx]
-	setne	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r11 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r11 + rdx], bl
-.LBB5_199:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB5_85:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, r14
-	mov	qword ptr [rsp + 272], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 216], r10      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB5_86:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	shl	rax, 5
-	mov	r9, rax
-	mov	rbx, rax
-	mov	r15, rax
-	mov	rdx, rax
-	mov	r13, rax
-	mov	r8, rax
-	mov	r12, rax
-	mov	r10, rax
-	mov	r11, rax
-	mov	rsi, rax
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	movzx	ecx, byte ptr [r14 + rax]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [r14 + rax + 1]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [r14 + rax + 2]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [r14 + rax + 3]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [r14 + rax + 4]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [r14 + rax + 5]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [r14 + rax + 6]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [r14 + rax + 7]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [r14 + rax + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 256], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [r14 + rax + 9]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [r14 + rax + 10]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [r14 + rax + 11]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [r14 + rax + 12]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [r14 + rax + 13]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [r14 + rax + 14]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [r14 + rax + 15]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	mov	rcx, rax
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	rdi, rax
-	or	rdi, 32
-	mov	qword ptr [rsp + 24], rdi       # 8-byte Spill
-	or	r9, 64
-	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
-	or	rbx, 96
-	mov	qword ptr [rsp + 32], rbx       # 8-byte Spill
-	or	r15, 128
-	mov	qword ptr [rsp + 48], r15       # 8-byte Spill
-	or	rdx, 160
-	or	r13, 192
-	or	r8, 224
-	or	r12, 256
-	or	r10, 288
-	or	r11, 320
-	or	rsi, 352
-	mov	qword ptr [rsp + 88], rsi       # 8-byte Spill
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	or	rsi, 384
-	mov	qword ptr [rsp + 56], rsi       # 8-byte Spill
-	or	rax, 416
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	mov	rax, rcx
-	or	rax, 448
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	or	rcx, 480
-	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
-	pinsrb	xmm4, byte ptr [r14 + rdi], 1
-	pinsrb	xmm4, byte ptr [r14 + r9], 2
-	pinsrb	xmm4, byte ptr [r14 + rbx], 3
-	pinsrb	xmm4, byte ptr [r14 + r15], 4
-	mov	rdi, rdx
-	pinsrb	xmm4, byte ptr [r14 + rdx], 5
-	mov	rdx, r13
-	mov	qword ptr [rsp + 152], r13      # 8-byte Spill
-	pinsrb	xmm4, byte ptr [r14 + r13], 6
-	mov	r13, r8
-	pinsrb	xmm4, byte ptr [r14 + r8], 7
-	mov	r8, r12
-	pinsrb	xmm4, byte ptr [r14 + r12], 8
-	pinsrb	xmm4, byte ptr [r14 + r10], 9
-	mov	qword ptr [rsp + 112], r11      # 8-byte Spill
-	pinsrb	xmm4, byte ptr [r14 + r11], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rax], 11
-	pinsrb	xmm4, byte ptr [r14 + rsi], 12
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rcx], 13
-	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + r12], 14
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rbx], 15
-	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + r15 + 1], 1
-	pinsrb	xmm3, byte ptr [r14 + r9 + 1], 2
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + rbx + 1], 3
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + r9 + 1], 4
-	pinsrb	xmm3, byte ptr [r14 + rdi + 1], 5
-	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
-	pinsrb	xmm3, byte ptr [r14 + rdx + 1], 6
-	pinsrb	xmm3, byte ptr [r14 + r13 + 1], 7
-	mov	rbx, r13
-	pinsrb	xmm3, byte ptr [r14 + r8 + 1], 8
-	mov	r13, r8
-	pinsrb	xmm3, byte ptr [r14 + r10 + 1], 9
-	mov	rdx, r10
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	pinsrb	xmm3, byte ptr [r14 + r11 + 1], 10
-	pinsrb	xmm3, byte ptr [r14 + rax + 1], 11
-	pinsrb	xmm3, byte ptr [r14 + rsi + 1], 12
-	pinsrb	xmm3, byte ptr [r14 + rcx + 1], 13
-	pinsrb	xmm3, byte ptr [r14 + r12 + 1], 14
-	movdqa	xmm1, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm4, xmm1
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + rax + 1], 15
-	pcmpeqb	xmm3, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm3, xmm0
-	paddb	xmm3, xmm4
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rax + 16]
-	movd	xmm10, esi
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r12 + 2], 1
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rcx + 2], 2
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r15 + 2], 3
-	mov	r11, r9
-	pinsrb	xmm5, byte ptr [r14 + r9 + 2], 4
-	pinsrb	xmm5, byte ptr [r14 + rdi + 2], 5
-	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r10 + 2], 6
-	mov	r8, rbx
-	pinsrb	xmm5, byte ptr [r14 + rbx + 2], 7
-	mov	qword ptr [rsp + 104], r13      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [r14 + r13 + 2], 8
-	pinsrb	xmm5, byte ptr [r14 + rdx + 2], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rdi + 2], 10
-	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rsi + 2], 11
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rax + 2], 12
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rbx + 2], 13
-	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r9 + 2], 14
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rdx + 2], 15
-	pinsrb	xmm7, byte ptr [r14 + r12 + 3], 1
-	pinsrb	xmm7, byte ptr [r14 + rcx + 3], 2
-	pinsrb	xmm7, byte ptr [r14 + r15 + 3], 3
-	pinsrb	xmm7, byte ptr [r14 + r11 + 3], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 3], 5
-	pinsrb	xmm7, byte ptr [r14 + r10 + 3], 6
-	pinsrb	xmm7, byte ptr [r14 + r8 + 3], 7
-	pinsrb	xmm7, byte ptr [r14 + r13 + 3], 8
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 3], 9
-	pinsrb	xmm7, byte ptr [r14 + rdi + 3], 10
-	pinsrb	xmm7, byte ptr [r14 + rsi + 3], 11
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 3], 12
-	pinsrb	xmm7, byte ptr [r14 + rbx + 3], 13
-	pinsrb	xmm7, byte ptr [r14 + r9 + 3], 14
-	pinsrb	xmm7, byte ptr [r14 + rdx + 3], 15
-	pinsrb	xmm9, byte ptr [r14 + r12 + 4], 1
-	pinsrb	xmm9, byte ptr [r14 + rcx + 4], 2
-	pinsrb	xmm9, byte ptr [r14 + r15 + 4], 3
-	pinsrb	xmm9, byte ptr [r14 + r11 + 4], 4
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r12 + 4], 5
-	pinsrb	xmm9, byte ptr [r14 + r10 + 4], 6
-	pinsrb	xmm9, byte ptr [r14 + r8 + 4], 7
-	pinsrb	xmm9, byte ptr [r14 + r13 + 4], 8
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rcx + 4], 9
-	pinsrb	xmm9, byte ptr [r14 + rdi + 4], 10
-	pinsrb	xmm9, byte ptr [r14 + rsi + 4], 11
-	pinsrb	xmm9, byte ptr [r14 + rax + 4], 12
-	pinsrb	xmm9, byte ptr [r14 + rbx + 4], 13
-	pinsrb	xmm9, byte ptr [r14 + r9 + 4], 14
-	pinsrb	xmm9, byte ptr [r14 + rdx + 4], 15
-	pcmpeqb	xmm5, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm5, xmm0
-	pcmpeqb	xmm7, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm7, xmm0
-	por	xmm7, xmm5
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rdx + 17]
-	movd	xmm4, esi
-	pcmpeqb	xmm9, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm9, xmm0
-	por	xmm9, xmm7
-	movzx	esi, byte ptr [r14 + rdx + 18]
-	movd	xmm7, esi
-	pcmpeqd	xmm0, xmm0
-	psubb	xmm3, xmm0
-	por	xmm9, xmm3
-	movzx	esi, byte ptr [r14 + rdx + 19]
-	movd	xmm5, esi
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + rdx + 5], 1
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + rdi + 5], 2
-	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 3
-	pinsrb	xmm2, byte ptr [r14 + r11 + 5], 4
-	mov	r9, r12
-	pinsrb	xmm2, byte ptr [r14 + r12 + 5], 5
-	pinsrb	xmm2, byte ptr [r14 + r10 + 5], 6
-	mov	r13, r8
-	pinsrb	xmm2, byte ptr [r14 + r8 + 5], 7
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r11 + 5], 8
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r12 + 5], 9
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + rsi + 5], 10
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r8 + 5], 11
-	mov	rcx, rax
-	pinsrb	xmm2, byte ptr [r14 + rax + 5], 12
-	pinsrb	xmm2, byte ptr [r14 + rbx + 5], 13
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 14
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 15
-	pinsrb	xmm8, byte ptr [r14 + rdx + 6], 1
-	pinsrb	xmm8, byte ptr [r14 + rdi + 6], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [r14 + rax + 6], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [r14 + rax + 6], 4
-	pinsrb	xmm8, byte ptr [r14 + r9 + 6], 5
-	pinsrb	xmm8, byte ptr [r14 + r10 + 6], 6
-	pinsrb	xmm8, byte ptr [r14 + r13 + 6], 7
-	mov	r10, r13
-	mov	qword ptr [rsp + 136], r13      # 8-byte Spill
-	pinsrb	xmm8, byte ptr [r14 + r11 + 6], 8
-	pinsrb	xmm8, byte ptr [r14 + r12 + 6], 9
-	pinsrb	xmm8, byte ptr [r14 + rsi + 6], 10
-	pinsrb	xmm8, byte ptr [r14 + r8 + 6], 11
-	pinsrb	xmm8, byte ptr [r14 + rcx + 6], 12
-	pinsrb	xmm8, byte ptr [r14 + rbx + 6], 13
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [r14 + r13 + 6], 14
-	mov	r8, r15
-	pinsrb	xmm8, byte ptr [r14 + r15 + 6], 15
-	pinsrb	xmm14, byte ptr [r14 + rdx + 7], 1
-	pinsrb	xmm14, byte ptr [r14 + rdi + 7], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + rax + 7], 3
-	mov	rdx, rax
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + r11 + 7], 4
-	pinsrb	xmm14, byte ptr [r14 + r9 + 7], 5
-	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + r9 + 7], 6
-	pinsrb	xmm14, byte ptr [r14 + r10 + 7], 7
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + rax + 7], 8
-	pinsrb	xmm14, byte ptr [r14 + r12 + 7], 9
-	pinsrb	xmm14, byte ptr [r14 + rsi + 7], 10
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + rax + 7], 11
-	pinsrb	xmm14, byte ptr [r14 + rcx + 7], 12
-	pinsrb	xmm14, byte ptr [r14 + rbx + 7], 13
-	pinsrb	xmm14, byte ptr [r14 + r13 + 7], 14
-	movdqa	xmm1, xmm14
-	movdqa	xmm14, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm0
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm8, xmm0
-	por	xmm8, xmm2
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [r14 + r10 + 20]
-	movd	xmm3, esi
-	pinsrb	xmm1, byte ptr [r14 + r15 + 7], 15
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm1, xmm0
-	por	xmm1, xmm8
-	movzx	esi, byte ptr [r14 + r10 + 21]
-	movd	xmm2, esi
-	movdqa	xmm0, xmmword ptr [rsp + 256]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rcx + 8], 1
-	pinsrb	xmm0, byte ptr [r14 + rdi + 8], 2
-	mov	r13, rdx
-	pinsrb	xmm0, byte ptr [r14 + rdx + 8], 3
-	pinsrb	xmm0, byte ptr [r14 + r11 + 8], 4
-	mov	rdx, r11
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + r8 + 8], 5
-	pinsrb	xmm0, byte ptr [r14 + r9 + 8], 6
-	mov	r15, r9
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rdi + 8], 7
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rbx + 8], 8
-	pinsrb	xmm0, byte ptr [r14 + r12 + 8], 9
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 10
-	pinsrb	xmm0, byte ptr [r14 + rax + 8], 11
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rax + 8], 12
-	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + r9 + 8], 13
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + r11 + 8], 14
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 15
-	por	xmm1, xmm9
-	movdqa	xmmword ptr [rsp + 256], xmm1   # 16-byte Spill
-	movzx	esi, byte ptr [r14 + r10 + 22]
-	movd	xmm1, esi
-	pcmpeqb	xmm0, xmm14
-	pinsrb	xmm11, byte ptr [r14 + rcx + 9], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rax + 9], 2
-	pinsrb	xmm11, byte ptr [r14 + r13 + 9], 3
-	pinsrb	xmm11, byte ptr [r14 + rdx + 9], 4
-	pinsrb	xmm11, byte ptr [r14 + r8 + 9], 5
-	mov	r10, r15
-	pinsrb	xmm11, byte ptr [r14 + r15 + 9], 6
-	pinsrb	xmm11, byte ptr [r14 + rdi + 9], 7
-	mov	r15, rdi
-	pinsrb	xmm11, byte ptr [r14 + rbx + 9], 8
-	pinsrb	xmm11, byte ptr [r14 + r12 + 9], 9
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rsi + 9], 10
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rdx + 9], 11
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rdi + 9], 12
-	pinsrb	xmm11, byte ptr [r14 + r9 + 9], 13
-	pinsrb	xmm11, byte ptr [r14 + r11 + 9], 14
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + r8 + 9], 15
-	pinsrb	xmm12, byte ptr [r14 + rcx + 10], 1
-	pinsrb	xmm12, byte ptr [r14 + rax + 10], 2
-	pinsrb	xmm12, byte ptr [r14 + r13 + 10], 3
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [r14 + rbx + 10], 4
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [r14 + r13 + 10], 5
-	pinsrb	xmm12, byte ptr [r14 + r10 + 10], 6
-	pinsrb	xmm12, byte ptr [r14 + r15 + 10], 7
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [r14 + rbx + 10], 8
-	pinsrb	xmm12, byte ptr [r14 + r12 + 10], 9
-	pinsrb	xmm12, byte ptr [r14 + rsi + 10], 10
-	pinsrb	xmm12, byte ptr [r14 + rdx + 10], 11
-	pinsrb	xmm12, byte ptr [r14 + rdi + 10], 12
-	pinsrb	xmm12, byte ptr [r14 + r9 + 10], 13
-	pinsrb	xmm12, byte ptr [r14 + r11 + 10], 14
-	pinsrb	xmm12, byte ptr [r14 + r8 + 10], 15
-	pinsrb	xmm13, byte ptr [r14 + rcx + 11], 1
-	pinsrb	xmm13, byte ptr [r14 + rax + 11], 2
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + rax + 11], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + rax + 11], 4
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + rax + 11], 5
-	pinsrb	xmm13, byte ptr [r14 + r10 + 11], 6
-	pinsrb	xmm13, byte ptr [r14 + r15 + 11], 7
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + r13 + 11], 8
-	pinsrb	xmm13, byte ptr [r14 + r12 + 11], 9
-	pinsrb	xmm13, byte ptr [r14 + rsi + 11], 10
-	pinsrb	xmm13, byte ptr [r14 + rdx + 11], 11
-	pinsrb	xmm13, byte ptr [r14 + rdi + 11], 12
-	pinsrb	xmm13, byte ptr [r14 + r9 + 11], 13
-	pinsrb	xmm13, byte ptr [r14 + r11 + 11], 14
-	mov	rax, r11
-	pinsrb	xmm13, byte ptr [r14 + r8 + 11], 15
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI5_16]
-	paddb	xmm11, xmm0
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rbx + 23]
-	movd	xmm8, esi
-	pcmpeqb	xmm12, xmm14
-	pandn	xmm12, xmmword ptr [rip + .LCPI5_17]
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI5_18]
-	por	xmm13, xmm12
-	movzx	esi, byte ptr [r14 + rbx + 24]
-	movd	xmm12, esi
-	movdqa	xmm9, xmmword ptr [rsp + 224]   # 16-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rcx + 12], 1
-	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r12 + 12], 2
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r15 + 12], 3
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rbx + 12], 4
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r9 + 12], 5
-	mov	r8, r10
-	pinsrb	xmm9, byte ptr [r14 + r10 + 12], 6
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r11 + 12], 7
-	pinsrb	xmm9, byte ptr [r14 + r13 + 12], 8
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rcx + 12], 9
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r10 + 12], 10
-	pinsrb	xmm9, byte ptr [r14 + rdx + 12], 11
-	pinsrb	xmm9, byte ptr [r14 + rdi + 12], 12
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rsi + 12], 13
-	pinsrb	xmm9, byte ptr [r14 + rax + 12], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rax + 12], 15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rax + 13], 1
-	pinsrb	xmm6, byte ptr [r14 + r12 + 13], 2
-	pinsrb	xmm6, byte ptr [r14 + r15 + 13], 3
-	pinsrb	xmm6, byte ptr [r14 + rbx + 13], 4
-	pinsrb	xmm6, byte ptr [r14 + r9 + 13], 5
-	pinsrb	xmm6, byte ptr [r14 + r8 + 13], 6
-	pinsrb	xmm6, byte ptr [r14 + r11 + 13], 7
-	pinsrb	xmm6, byte ptr [r14 + r13 + 13], 8
-	pinsrb	xmm6, byte ptr [r14 + rcx + 13], 9
-	pinsrb	xmm6, byte ptr [r14 + r10 + 13], 10
-	pinsrb	xmm6, byte ptr [r14 + rdx + 13], 11
-	pinsrb	xmm6, byte ptr [r14 + rdi + 13], 12
-	pinsrb	xmm6, byte ptr [r14 + rsi + 13], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rax + 13], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rax + 13], 15
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [r14 + rax + 14], 1
-	pinsrb	xmm15, byte ptr [r14 + r12 + 14], 2
-	pinsrb	xmm15, byte ptr [r14 + r15 + 14], 3
-	pinsrb	xmm15, byte ptr [r14 + rbx + 14], 4
-	pinsrb	xmm15, byte ptr [r14 + r9 + 14], 5
-	mov	rbx, r9
-	pinsrb	xmm15, byte ptr [r14 + r8 + 14], 6
-	mov	r12, r8
-	pinsrb	xmm15, byte ptr [r14 + r11 + 14], 7
-	pinsrb	xmm15, byte ptr [r14 + r13 + 14], 8
-	pinsrb	xmm15, byte ptr [r14 + rcx + 14], 9
-	mov	r11, rcx
-	pinsrb	xmm15, byte ptr [r14 + r10 + 14], 10
-	pinsrb	xmm15, byte ptr [r14 + rdx + 14], 11
-	pinsrb	xmm15, byte ptr [r14 + rdi + 14], 12
-	pinsrb	xmm15, byte ptr [r14 + rsi + 14], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [r14 + rax + 14], 14
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmmword ptr [rip + .LCPI5_19]
-	por	xmm9, xmm13
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rax + 25]
-	movd	xmm13, esi
-	psubb	xmm11, xmmword ptr [rip + .LCPI5_22]
-	por	xmm9, xmm11
-	movzx	esi, byte ptr [r14 + rax + 26]
-	movd	xmm0, esi
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [r14 + rcx + 14], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI5_20]
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI5_21]
-	por	xmm15, xmm6
-	movzx	esi, byte ptr [r14 + rax + 27]
-	movd	xmm11, esi
-	movdqa	xmm6, xmmword ptr [rsp + 192]   # 16-byte Reload
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rdi + 15], 1
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r9 + 15], 2
-	pinsrb	xmm6, byte ptr [r14 + r15 + 15], 3
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r8 + 15], 4
-	pinsrb	xmm6, byte ptr [r14 + rbx + 15], 5
-	pinsrb	xmm6, byte ptr [r14 + r12 + 15], 6
-	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rsi + 15], 7
-	mov	r15, r13
-	pinsrb	xmm6, byte ptr [r14 + r13 + 15], 8
-	pinsrb	xmm6, byte ptr [r14 + r11 + 15], 9
-	pinsrb	xmm6, byte ptr [r14 + r10 + 15], 10
-	pinsrb	xmm6, byte ptr [r14 + rdx + 15], 11
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r10 + 15], 12
-	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r13 + 15], 13
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rdx + 15], 14
-	pinsrb	xmm6, byte ptr [r14 + rcx + 15], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI5_6]
-	por	xmm6, xmm15
-	movzx	esi, byte ptr [r14 + rax + 28]
-	movd	xmm15, esi
-	por	xmm6, xmm9
-	movdqa	xmmword ptr [rsp + 192], xmm6   # 16-byte Spill
-	movzx	esi, byte ptr [r14 + rax + 29]
-	movd	xmm9, esi
-	mov	rsi, rdi
-	pinsrb	xmm10, byte ptr [r14 + rdi + 16], 1
-	pinsrb	xmm10, byte ptr [r14 + r9 + 16], 2
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rdx + 16], 3
-	pinsrb	xmm10, byte ptr [r14 + r8 + 16], 4
-	pinsrb	xmm10, byte ptr [r14 + rbx + 16], 5
-	pinsrb	xmm10, byte ptr [r14 + r12 + 16], 6
-	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rdi + 16], 7
-	mov	rax, r15
-	pinsrb	xmm10, byte ptr [r14 + r15 + 16], 8
-	pinsrb	xmm10, byte ptr [r14 + r11 + 16], 9
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + r15 + 16], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rcx + 16], 11
-	pinsrb	xmm10, byte ptr [r14 + r10 + 16], 12
-	pinsrb	xmm10, byte ptr [r14 + r13 + 16], 13
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rcx + 16], 14
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + r13 + 16], 15
-	pinsrb	xmm4, byte ptr [r14 + rsi + 17], 1
-	pinsrb	xmm4, byte ptr [r14 + r9 + 17], 2
-	pinsrb	xmm4, byte ptr [r14 + rdx + 17], 3
-	pinsrb	xmm4, byte ptr [r14 + r8 + 17], 4
-	pinsrb	xmm4, byte ptr [r14 + rbx + 17], 5
-	pinsrb	xmm4, byte ptr [r14 + r12 + 17], 6
-	pinsrb	xmm4, byte ptr [r14 + rdi + 17], 7
-	pinsrb	xmm4, byte ptr [r14 + rax + 17], 8
-	mov	r9, r11
-	pinsrb	xmm4, byte ptr [r14 + r11 + 17], 9
-	mov	r10, r15
-	pinsrb	xmm4, byte ptr [r14 + r15 + 17], 10
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + r8 + 17], 11
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rdi + 17], 12
-	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rdx + 17], 13
-	pinsrb	xmm4, byte ptr [r14 + rcx + 17], 14
-	mov	r11, rcx
-	pinsrb	xmm4, byte ptr [r14 + r13 + 17], 15
-	pcmpeqb	xmm10, xmm14
-	pcmpeqb	xmm4, xmm14
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_16] # xmm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm4, xmm6
-	paddb	xmm4, xmm10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rax + 30]
-	movd	xmm10, esi
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rsi + 18], 1
-	pinsrb	xmm5, byte ptr [r14 + rsi + 19], 1
-	pinsrb	xmm3, byte ptr [r14 + rsi + 20], 1
-	pinsrb	xmm2, byte ptr [r14 + rsi + 21], 1
-	pinsrb	xmm1, byte ptr [r14 + rsi + 22], 1
-	pinsrb	xmm8, byte ptr [r14 + rsi + 23], 1
-	pinsrb	xmm12, byte ptr [r14 + rsi + 24], 1
-	pinsrb	xmm13, byte ptr [r14 + rsi + 25], 1
-	pinsrb	xmm0, byte ptr [r14 + rsi + 26], 1
-	pinsrb	xmm11, byte ptr [r14 + rsi + 27], 1
-	pinsrb	xmm15, byte ptr [r14 + rsi + 28], 1
-	pinsrb	xmm9, byte ptr [r14 + rsi + 29], 1
-	pinsrb	xmm10, byte ptr [r14 + rsi + 30], 1
-	movzx	eax, byte ptr [r14 + rax + 31]
-	movd	xmm6, eax
-	pinsrb	xmm6, byte ptr [r14 + rsi + 31], 1
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 18], 2
-	pinsrb	xmm5, byte ptr [r14 + rax + 19], 2
-	pinsrb	xmm3, byte ptr [r14 + rax + 20], 2
-	pinsrb	xmm2, byte ptr [r14 + rax + 21], 2
-	pinsrb	xmm1, byte ptr [r14 + rax + 22], 2
-	pinsrb	xmm8, byte ptr [r14 + rax + 23], 2
-	pinsrb	xmm12, byte ptr [r14 + rax + 24], 2
-	pinsrb	xmm13, byte ptr [r14 + rax + 25], 2
-	pinsrb	xmm0, byte ptr [r14 + rax + 26], 2
-	pinsrb	xmm11, byte ptr [r14 + rax + 27], 2
-	pinsrb	xmm15, byte ptr [r14 + rax + 28], 2
-	pinsrb	xmm9, byte ptr [r14 + rax + 29], 2
-	pinsrb	xmm10, byte ptr [r14 + rax + 30], 2
-	pinsrb	xmm6, byte ptr [r14 + rax + 31], 2
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + r15 + 18], 3
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 18], 4
-	pinsrb	xmm7, byte ptr [r14 + rbx + 18], 5
-	pinsrb	xmm7, byte ptr [r14 + r12 + 18], 6
-	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rcx + 18], 7
-	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rsi + 18], 8
-	pinsrb	xmm7, byte ptr [r14 + r9 + 18], 9
-	pinsrb	xmm7, byte ptr [r14 + r10 + 18], 10
-	pinsrb	xmm7, byte ptr [r14 + r8 + 18], 11
-	pinsrb	xmm7, byte ptr [r14 + rdi + 18], 12
-	pinsrb	xmm7, byte ptr [r14 + rdx + 18], 13
-	pinsrb	xmm7, byte ptr [r14 + r11 + 18], 14
-	pinsrb	xmm7, byte ptr [r14 + r13 + 18], 15
-	pinsrb	xmm5, byte ptr [r14 + r15 + 19], 3
-	pinsrb	xmm5, byte ptr [r14 + rax + 19], 4
-	pinsrb	xmm5, byte ptr [r14 + rbx + 19], 5
-	pinsrb	xmm5, byte ptr [r14 + r12 + 19], 6
-	pinsrb	xmm5, byte ptr [r14 + rcx + 19], 7
-	pinsrb	xmm5, byte ptr [r14 + rsi + 19], 8
-	pinsrb	xmm5, byte ptr [r14 + r9 + 19], 9
-	pinsrb	xmm5, byte ptr [r14 + r10 + 19], 10
-	pinsrb	xmm5, byte ptr [r14 + r8 + 19], 11
-	pinsrb	xmm5, byte ptr [r14 + rdi + 19], 12
-	pinsrb	xmm5, byte ptr [r14 + rdx + 19], 13
-	pinsrb	xmm5, byte ptr [r14 + r11 + 19], 14
-	pinsrb	xmm5, byte ptr [r14 + r13 + 19], 15
-	pinsrb	xmm3, byte ptr [r14 + r15 + 20], 3
-	pinsrb	xmm3, byte ptr [r14 + rax + 20], 4
-	pinsrb	xmm3, byte ptr [r14 + rbx + 20], 5
-	pinsrb	xmm3, byte ptr [r14 + r12 + 20], 6
-	pinsrb	xmm3, byte ptr [r14 + rcx + 20], 7
-	pinsrb	xmm3, byte ptr [r14 + rsi + 20], 8
-	pinsrb	xmm3, byte ptr [r14 + r9 + 20], 9
-	pinsrb	xmm3, byte ptr [r14 + r10 + 20], 10
-	pinsrb	xmm3, byte ptr [r14 + r8 + 20], 11
-	pinsrb	xmm3, byte ptr [r14 + rdi + 20], 12
-	pinsrb	xmm3, byte ptr [r14 + rdx + 20], 13
-	pinsrb	xmm3, byte ptr [r14 + r11 + 20], 14
-	pcmpeqb	xmm7, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_17] # xmm14 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm7, xmm14
-	pcmpeqb	xmm5, xmmword ptr [rsp + 176]   # 16-byte Folded Reload
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_18] # xmm14 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm5, xmm14
-	por	xmm5, xmm7
-	pinsrb	xmm3, byte ptr [r14 + r13 + 20], 15
-	movdqa	xmm14, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm3, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI5_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm3, xmm7
-	por	xmm3, xmm5
-	pcmpeqd	xmm5, xmm5
-	psubb	xmm4, xmm5
-	por	xmm3, xmm4
-	pinsrb	xmm2, byte ptr [r14 + r15 + 21], 3
-	pinsrb	xmm2, byte ptr [r14 + rax + 21], 4
-	pinsrb	xmm2, byte ptr [r14 + rbx + 21], 5
-	pinsrb	xmm2, byte ptr [r14 + r12 + 21], 6
-	pinsrb	xmm2, byte ptr [r14 + rcx + 21], 7
-	pinsrb	xmm2, byte ptr [r14 + rsi + 21], 8
-	pinsrb	xmm2, byte ptr [r14 + r9 + 21], 9
-	pinsrb	xmm2, byte ptr [r14 + r10 + 21], 10
-	pinsrb	xmm2, byte ptr [r14 + r8 + 21], 11
-	pinsrb	xmm2, byte ptr [r14 + rdi + 21], 12
-	pinsrb	xmm2, byte ptr [r14 + rdx + 21], 13
-	pinsrb	xmm2, byte ptr [r14 + r11 + 21], 14
-	pinsrb	xmm2, byte ptr [r14 + r13 + 21], 15
-	pinsrb	xmm1, byte ptr [r14 + r15 + 22], 3
-	pinsrb	xmm1, byte ptr [r14 + rax + 22], 4
-	pinsrb	xmm1, byte ptr [r14 + rbx + 22], 5
-	pinsrb	xmm1, byte ptr [r14 + r12 + 22], 6
-	pinsrb	xmm1, byte ptr [r14 + rcx + 22], 7
-	pinsrb	xmm1, byte ptr [r14 + rsi + 22], 8
-	pinsrb	xmm1, byte ptr [r14 + r9 + 22], 9
-	pinsrb	xmm1, byte ptr [r14 + r10 + 22], 10
-	pinsrb	xmm1, byte ptr [r14 + r8 + 22], 11
-	pinsrb	xmm1, byte ptr [r14 + rdi + 22], 12
-	pinsrb	xmm1, byte ptr [r14 + rdx + 22], 13
-	pinsrb	xmm1, byte ptr [r14 + r11 + 22], 14
-	pinsrb	xmm1, byte ptr [r14 + r13 + 22], 15
-	pinsrb	xmm8, byte ptr [r14 + r15 + 23], 3
-	pinsrb	xmm8, byte ptr [r14 + rax + 23], 4
-	pinsrb	xmm8, byte ptr [r14 + rbx + 23], 5
-	pinsrb	xmm8, byte ptr [r14 + r12 + 23], 6
-	pinsrb	xmm8, byte ptr [r14 + rcx + 23], 7
-	pinsrb	xmm8, byte ptr [r14 + rsi + 23], 8
-	pinsrb	xmm8, byte ptr [r14 + r9 + 23], 9
-	pinsrb	xmm8, byte ptr [r14 + r10 + 23], 10
-	pinsrb	xmm8, byte ptr [r14 + r8 + 23], 11
-	pinsrb	xmm8, byte ptr [r14 + rdi + 23], 12
-	pinsrb	xmm8, byte ptr [r14 + rdx + 23], 13
-	pinsrb	xmm8, byte ptr [r14 + r11 + 23], 14
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm5
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI5_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm1, xmm7
-	por	xmm1, xmm2
-	pinsrb	xmm8, byte ptr [r14 + r13 + 23], 15
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI5_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm8, xmm4
-	por	xmm8, xmm1
-	pinsrb	xmm12, byte ptr [r14 + r15 + 24], 3
-	pinsrb	xmm12, byte ptr [r14 + rax + 24], 4
-	pinsrb	xmm12, byte ptr [r14 + rbx + 24], 5
-	pinsrb	xmm12, byte ptr [r14 + r12 + 24], 6
-	pinsrb	xmm12, byte ptr [r14 + rcx + 24], 7
-	pinsrb	xmm12, byte ptr [r14 + rsi + 24], 8
-	pinsrb	xmm12, byte ptr [r14 + r9 + 24], 9
-	pinsrb	xmm12, byte ptr [r14 + r10 + 24], 10
-	pinsrb	xmm12, byte ptr [r14 + r8 + 24], 11
-	pinsrb	xmm12, byte ptr [r14 + rdi + 24], 12
-	pinsrb	xmm12, byte ptr [r14 + rdx + 24], 13
-	pinsrb	xmm12, byte ptr [r14 + r11 + 24], 14
-	pinsrb	xmm12, byte ptr [r14 + r13 + 24], 15
-	por	xmm8, xmm3
-	pcmpeqb	xmm12, xmm14
-	pinsrb	xmm13, byte ptr [r14 + r15 + 25], 3
-	pinsrb	xmm13, byte ptr [r14 + rax + 25], 4
-	pinsrb	xmm13, byte ptr [r14 + rbx + 25], 5
-	pinsrb	xmm13, byte ptr [r14 + r12 + 25], 6
-	pinsrb	xmm13, byte ptr [r14 + rcx + 25], 7
-	pinsrb	xmm13, byte ptr [r14 + rsi + 25], 8
-	pinsrb	xmm13, byte ptr [r14 + r9 + 25], 9
-	pinsrb	xmm13, byte ptr [r14 + r10 + 25], 10
-	pinsrb	xmm13, byte ptr [r14 + r8 + 25], 11
-	pinsrb	xmm13, byte ptr [r14 + rdi + 25], 12
-	pinsrb	xmm13, byte ptr [r14 + rdx + 25], 13
-	pinsrb	xmm13, byte ptr [r14 + r11 + 25], 14
-	pinsrb	xmm13, byte ptr [r14 + r13 + 25], 15
-	pinsrb	xmm0, byte ptr [r14 + r15 + 26], 3
-	pinsrb	xmm0, byte ptr [r14 + rax + 26], 4
-	pinsrb	xmm0, byte ptr [r14 + rbx + 26], 5
-	pinsrb	xmm0, byte ptr [r14 + r12 + 26], 6
-	pinsrb	xmm0, byte ptr [r14 + rcx + 26], 7
-	pinsrb	xmm0, byte ptr [r14 + rsi + 26], 8
-	pinsrb	xmm0, byte ptr [r14 + r9 + 26], 9
-	pinsrb	xmm0, byte ptr [r14 + r10 + 26], 10
-	pinsrb	xmm0, byte ptr [r14 + r8 + 26], 11
-	pinsrb	xmm0, byte ptr [r14 + rdi + 26], 12
-	pinsrb	xmm0, byte ptr [r14 + rdx + 26], 13
-	pinsrb	xmm0, byte ptr [r14 + r11 + 26], 14
-	pinsrb	xmm0, byte ptr [r14 + r13 + 26], 15
-	pinsrb	xmm11, byte ptr [r14 + r15 + 27], 3
-	pinsrb	xmm11, byte ptr [r14 + rax + 27], 4
-	pinsrb	xmm11, byte ptr [r14 + rbx + 27], 5
-	pinsrb	xmm11, byte ptr [r14 + r12 + 27], 6
-	pinsrb	xmm11, byte ptr [r14 + rcx + 27], 7
-	pinsrb	xmm11, byte ptr [r14 + rsi + 27], 8
-	pinsrb	xmm11, byte ptr [r14 + r9 + 27], 9
-	pinsrb	xmm11, byte ptr [r14 + r10 + 27], 10
-	pinsrb	xmm11, byte ptr [r14 + r8 + 27], 11
-	pinsrb	xmm11, byte ptr [r14 + rdi + 27], 12
-	pinsrb	xmm11, byte ptr [r14 + rdx + 27], 13
-	pinsrb	xmm11, byte ptr [r14 + r11 + 27], 14
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI5_16]
-	paddb	xmm13, xmm12
-	pinsrb	xmm11, byte ptr [r14 + r13 + 27], 15
-	pcmpeqb	xmm0, xmm14
-	pandn	xmm0, xmmword ptr [rip + .LCPI5_17]
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI5_18]
-	por	xmm11, xmm0
-	pinsrb	xmm15, byte ptr [r14 + r15 + 28], 3
-	pinsrb	xmm9, byte ptr [r14 + r15 + 29], 3
-	pinsrb	xmm10, byte ptr [r14 + r15 + 30], 3
-	pinsrb	xmm6, byte ptr [r14 + r15 + 31], 3
-	pinsrb	xmm15, byte ptr [r14 + rax + 28], 4
-	pinsrb	xmm9, byte ptr [r14 + rax + 29], 4
-	pinsrb	xmm10, byte ptr [r14 + rax + 30], 4
-	pinsrb	xmm6, byte ptr [r14 + rax + 31], 4
-	pinsrb	xmm15, byte ptr [r14 + rbx + 28], 5
-	pinsrb	xmm9, byte ptr [r14 + rbx + 29], 5
-	pinsrb	xmm10, byte ptr [r14 + rbx + 30], 5
-	pinsrb	xmm6, byte ptr [r14 + rbx + 31], 5
-	pinsrb	xmm15, byte ptr [r14 + r12 + 28], 6
-	pinsrb	xmm9, byte ptr [r14 + r12 + 29], 6
-	pinsrb	xmm10, byte ptr [r14 + r12 + 30], 6
-	pinsrb	xmm6, byte ptr [r14 + r12 + 31], 6
-	mov	rax, rcx
-	pinsrb	xmm15, byte ptr [r14 + rcx + 28], 7
-	pinsrb	xmm9, byte ptr [r14 + rcx + 29], 7
-	pinsrb	xmm10, byte ptr [r14 + rcx + 30], 7
-	pinsrb	xmm6, byte ptr [r14 + rcx + 31], 7
-	mov	rax, rsi
-	pinsrb	xmm15, byte ptr [r14 + rsi + 28], 8
-	pinsrb	xmm9, byte ptr [r14 + rsi + 29], 8
-	pinsrb	xmm10, byte ptr [r14 + rsi + 30], 8
-	pinsrb	xmm6, byte ptr [r14 + rsi + 31], 8
-	mov	rax, r9
-	pinsrb	xmm15, byte ptr [r14 + r9 + 28], 9
-	pinsrb	xmm9, byte ptr [r14 + r9 + 29], 9
-	pinsrb	xmm10, byte ptr [r14 + r9 + 30], 9
-	pinsrb	xmm6, byte ptr [r14 + r9 + 31], 9
-	mov	rax, r10
-	pinsrb	xmm15, byte ptr [r14 + r10 + 28], 10
-	pinsrb	xmm9, byte ptr [r14 + r10 + 29], 10
-	pinsrb	xmm10, byte ptr [r14 + r10 + 30], 10
-	pinsrb	xmm6, byte ptr [r14 + r10 + 31], 10
-	mov	rax, r8
-	pinsrb	xmm15, byte ptr [r14 + r8 + 28], 11
-	pinsrb	xmm9, byte ptr [r14 + r8 + 29], 11
-	pinsrb	xmm10, byte ptr [r14 + r8 + 30], 11
-	pinsrb	xmm6, byte ptr [r14 + r8 + 31], 11
-	mov	rax, rdi
-	pinsrb	xmm15, byte ptr [r14 + rdi + 28], 12
-	pinsrb	xmm9, byte ptr [r14 + rdi + 29], 12
-	pinsrb	xmm10, byte ptr [r14 + rdi + 30], 12
-	pinsrb	xmm6, byte ptr [r14 + rdi + 31], 12
-	mov	rax, rdx
-	pinsrb	xmm15, byte ptr [r14 + rdx + 28], 13
-	pinsrb	xmm9, byte ptr [r14 + rdx + 29], 13
-	pinsrb	xmm10, byte ptr [r14 + rdx + 30], 13
-	pinsrb	xmm6, byte ptr [r14 + rdx + 31], 13
-	mov	rax, r11
-	pinsrb	xmm15, byte ptr [r14 + r11 + 28], 14
-	pinsrb	xmm9, byte ptr [r14 + r11 + 29], 14
-	pinsrb	xmm10, byte ptr [r14 + r11 + 30], 14
-	pinsrb	xmm6, byte ptr [r14 + r11 + 31], 14
-	pinsrb	xmm15, byte ptr [r14 + r13 + 28], 15
-	pinsrb	xmm9, byte ptr [r14 + r13 + 29], 15
-	pinsrb	xmm10, byte ptr [r14 + r13 + 30], 15
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI5_19]
-	por	xmm15, xmm11
-	pinsrb	xmm6, byte ptr [r14 + r13 + 31], 15
-	psubb	xmm13, xmmword ptr [rip + .LCPI5_22]
-	por	xmm15, xmm13
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmm5
-	pcmpeqb	xmm10, xmm14
-	pandn	xmm10, xmm7
-	por	xmm10, xmm9
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmm4
-	por	xmm6, xmm10
-	por	xmm6, xmm15
-	movdqa	xmm0, xmm8
-	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
-	movdqa	xmm3, xmmword ptr [rsp + 256]   # 16-byte Reload
-	movdqa	xmm1, xmm3
-	movdqa	xmm4, xmmword ptr [rsp + 192]   # 16-byte Reload
-	punpcklbw	xmm1, xmm4              # xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
-	movdqa	xmm2, xmm1
-	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
-	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
-	punpckhbw	xmm3, xmm4              # xmm3 = xmm3[8],xmm4[8],xmm3[9],xmm4[9],xmm3[10],xmm4[10],xmm3[11],xmm4[11],xmm3[12],xmm4[12],xmm3[13],xmm4[13],xmm3[14],xmm4[14],xmm3[15],xmm4[15]
-	movdqa	xmm0, xmm3
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm3, xmm8              # xmm3 = xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm3
-	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm1
-	movdqu	xmmword ptr [rax + 4*rcx], xmm2
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 216]      # 8-byte Folded Reload
-	jne	.LBB5_86
-# %bb.87:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 216]      # 8-byte Folded Reload
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	jne	.LBB5_88
-	jmp	.LBB5_91
-.LBB5_66:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, r14
-	mov	qword ptr [rsp + 272], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 216], r10      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	rax, [rax + 4*r10]
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB5_67:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
-	shl	rax, 5
-	mov	r8, rax
-	mov	r11, rax
-	mov	r9, rax
-	mov	r13, rax
-	mov	r15, rax
-	mov	rdi, rax
-	mov	r10, rax
-	mov	r12, rax
-	mov	rbx, rax
-	mov	rdx, rax
-	mov	rsi, rax
-	movzx	ecx, byte ptr [r14 + rax]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [r14 + rax + 1]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [r14 + rax + 2]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [r14 + rax + 3]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [r14 + rax + 4]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [r14 + rax + 5]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [r14 + rax + 6]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [r14 + rax + 7]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [r14 + rax + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 256], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [r14 + rax + 9]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [r14 + rax + 10]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [r14 + rax + 11]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [r14 + rax + 12]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [r14 + rax + 13]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [r14 + rax + 14]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [r14 + rax + 15]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	mov	rcx, rax
-	or	rcx, 32
-	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
-	or	r8, 64
-	mov	qword ptr [rsp + 32], r8        # 8-byte Spill
-	or	r11, 96
-	mov	qword ptr [rsp + 80], r11       # 8-byte Spill
-	or	r9, 128
-	mov	qword ptr [rsp + 24], r9        # 8-byte Spill
-	or	r13, 160
-	or	r15, 192
-	or	rdi, 224
-	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
-	or	r10, 256
-	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
-	or	r12, 288
-	or	rbx, 320
-	mov	qword ptr [rsp + 144], rbx      # 8-byte Spill
-	or	rdx, 352
-	mov	qword ptr [rsp + 112], rdx      # 8-byte Spill
-	mov	rbx, rax
-	or	rbx, 384
-	mov	qword ptr [rsp + 120], rbx      # 8-byte Spill
-	mov	rdx, rax
-	or	rdx, 416
-	mov	rcx, rax
-	or	rcx, 448
-	mov	qword ptr [rsp + 64], rcx       # 8-byte Spill
-	or	rsi, 480
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rax], 1
-	pinsrb	xmm4, byte ptr [r14 + r8], 2
-	pinsrb	xmm4, byte ptr [r14 + r11], 3
-	pinsrb	xmm4, byte ptr [r14 + r9], 4
-	pinsrb	xmm4, byte ptr [r14 + r13], 5
-	pinsrb	xmm4, byte ptr [r14 + r15], 6
-	pinsrb	xmm4, byte ptr [r14 + rdi], 7
-	pinsrb	xmm4, byte ptr [r14 + r10], 8
-	pinsrb	xmm4, byte ptr [r14 + r12], 9
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rax], 10
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rax], 11
-	pinsrb	xmm4, byte ptr [r14 + rbx], 12
-	pinsrb	xmm4, byte ptr [r14 + rdx], 13
-	pinsrb	xmm4, byte ptr [r14 + rcx], 14
-	pinsrb	xmm4, byte ptr [r14 + rsi], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + rax + 1], 1
-	pinsrb	xmm3, byte ptr [r14 + r8 + 1], 2
-	pinsrb	xmm3, byte ptr [r14 + r11 + 1], 3
-	pinsrb	xmm3, byte ptr [r14 + r9 + 1], 4
-	pinsrb	xmm3, byte ptr [r14 + r13 + 1], 5
-	mov	r9, r13
-	pinsrb	xmm3, byte ptr [r14 + r15 + 1], 6
-	mov	r11, r15
-	pinsrb	xmm3, byte ptr [r14 + rdi + 1], 7
-	pinsrb	xmm3, byte ptr [r14 + r10 + 1], 8
-	pinsrb	xmm3, byte ptr [r14 + r12 + 1], 9
-	mov	rdi, r12
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + r12 + 1], 10
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [r14 + rax + 1], 11
-	pinsrb	xmm3, byte ptr [r14 + rbx + 1], 12
-	pinsrb	xmm3, byte ptr [r14 + rdx + 1], 13
-	mov	qword ptr [rsp + 48], rdx       # 8-byte Spill
-	pinsrb	xmm3, byte ptr [r14 + rcx + 1], 14
-	movdqa	xmm1, xmmword ptr [rsp + 176]   # 16-byte Reload
-	pcmpeqb	xmm4, xmm1
-	pinsrb	xmm3, byte ptr [r14 + rsi + 1], 15
-	mov	r8, rsi
-	pcmpeqb	xmm3, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm3, xmm0
-	paddb	xmm3, xmm4
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rax + 16]
-	movd	xmm10, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rax + 2], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r13 + 2], 2
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r15 + 2], 3
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rbx + 2], 4
-	pinsrb	xmm5, byte ptr [r14 + r9 + 2], 5
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [r14 + r11 + 2], 6
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + r10 + 2], 7
-	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rax + 2], 8
-	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [r14 + rdi + 2], 9
-	pinsrb	xmm5, byte ptr [r14 + r12 + 2], 10
-	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rsi + 2], 11
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rcx + 2], 12
-	pinsrb	xmm5, byte ptr [r14 + rdx + 2], 13
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [r14 + rdx + 2], 14
-	pinsrb	xmm5, byte ptr [r14 + r8 + 2], 15
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rdx + 3], 1
-	pinsrb	xmm7, byte ptr [r14 + r13 + 3], 2
-	pinsrb	xmm7, byte ptr [r14 + r15 + 3], 3
-	pinsrb	xmm7, byte ptr [r14 + rbx + 3], 4
-	pinsrb	xmm7, byte ptr [r14 + r9 + 3], 5
-	pinsrb	xmm7, byte ptr [r14 + r11 + 3], 6
-	pinsrb	xmm7, byte ptr [r14 + r10 + 3], 7
-	pinsrb	xmm7, byte ptr [r14 + rax + 3], 8
-	pinsrb	xmm7, byte ptr [r14 + rdi + 3], 9
-	pinsrb	xmm7, byte ptr [r14 + r12 + 3], 10
-	pinsrb	xmm7, byte ptr [r14 + rsi + 3], 11
-	pinsrb	xmm7, byte ptr [r14 + rcx + 3], 12
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rdx + 3], 13
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rdx + 3], 14
-	pinsrb	xmm7, byte ptr [r14 + r8 + 3], 15
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rdx + 4], 1
-	pinsrb	xmm9, byte ptr [r14 + r13 + 4], 2
-	pinsrb	xmm9, byte ptr [r14 + r15 + 4], 3
-	pinsrb	xmm9, byte ptr [r14 + rbx + 4], 4
-	pinsrb	xmm9, byte ptr [r14 + r9 + 4], 5
-	mov	r15, r9
-	mov	qword ptr [rsp + 56], r9        # 8-byte Spill
-	pinsrb	xmm9, byte ptr [r14 + r11 + 4], 6
-	pinsrb	xmm9, byte ptr [r14 + r10 + 4], 7
-	mov	r9, r10
-	pinsrb	xmm9, byte ptr [r14 + rax + 4], 8
-	pinsrb	xmm9, byte ptr [r14 + rdi + 4], 9
-	pinsrb	xmm9, byte ptr [r14 + r12 + 4], 10
-	pinsrb	xmm9, byte ptr [r14 + rsi + 4], 11
-	mov	rdi, rsi
-	pinsrb	xmm9, byte ptr [r14 + rcx + 4], 12
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r12 + 4], 13
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rdx + 4], 14
-	pinsrb	xmm9, byte ptr [r14 + r8 + 4], 15
-	pcmpeqb	xmm5, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm5, xmm0
-	pcmpeqb	xmm7, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm7, xmm0
-	por	xmm7, xmm5
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rdx + 17]
-	movd	xmm4, esi
-	pcmpeqb	xmm9, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm9, xmm0
-	por	xmm9, xmm7
-	movzx	esi, byte ptr [r14 + rdx + 18]
-	movd	xmm7, esi
-	pcmpeqd	xmm0, xmm0
-	psubb	xmm3, xmm0
-	por	xmm9, xmm3
-	movzx	esi, byte ptr [r14 + rdx + 19]
-	movd	xmm5, esi
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + rdx + 5], 1
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r11 + 5], 2
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r13 + 5], 3
-	pinsrb	xmm2, byte ptr [r14 + rbx + 5], 4
-	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 5
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r10 + 5], 6
-	pinsrb	xmm2, byte ptr [r14 + r9 + 5], 7
-	pinsrb	xmm2, byte ptr [r14 + rax + 5], 8
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + rsi + 5], 9
-	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 10
-	mov	r9, rdi
-	pinsrb	xmm2, byte ptr [r14 + rdi + 5], 11
-	pinsrb	xmm2, byte ptr [r14 + rcx + 5], 12
-	pinsrb	xmm2, byte ptr [r14 + r12 + 5], 13
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [r14 + rdi + 5], 14
-	mov	qword ptr [rsp + 72], r8        # 8-byte Spill
-	pinsrb	xmm2, byte ptr [r14 + r8 + 5], 15
-	pinsrb	xmm8, byte ptr [r14 + rdx + 6], 1
-	pinsrb	xmm8, byte ptr [r14 + r11 + 6], 2
-	mov	r11, r13
-	pinsrb	xmm8, byte ptr [r14 + r13 + 6], 3
-	pinsrb	xmm8, byte ptr [r14 + rbx + 6], 4
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [r14 + r13 + 6], 5
-	pinsrb	xmm8, byte ptr [r14 + r10 + 6], 6
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [r14 + rbx + 6], 7
-	pinsrb	xmm8, byte ptr [r14 + rax + 6], 8
-	pinsrb	xmm8, byte ptr [r14 + rsi + 6], 9
-	pinsrb	xmm8, byte ptr [r14 + r15 + 6], 10
-	pinsrb	xmm8, byte ptr [r14 + r9 + 6], 11
-	pinsrb	xmm8, byte ptr [r14 + rcx + 6], 12
-	pinsrb	xmm8, byte ptr [r14 + r12 + 6], 13
-	pinsrb	xmm8, byte ptr [r14 + rdi + 6], 14
-	pinsrb	xmm8, byte ptr [r14 + r8 + 6], 15
-	pinsrb	xmm14, byte ptr [r14 + rdx + 7], 1
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + rbx + 7], 2
-	mov	r8, r11
-	pinsrb	xmm14, byte ptr [r14 + r11 + 7], 3
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + rdx + 7], 4
-	pinsrb	xmm14, byte ptr [r14 + r13 + 7], 5
-	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + rdx + 7], 6
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + r9 + 7], 7
-	pinsrb	xmm14, byte ptr [r14 + rax + 7], 8
-	mov	r13, rax
-	pinsrb	xmm14, byte ptr [r14 + rsi + 7], 9
-	pinsrb	xmm14, byte ptr [r14 + r15 + 7], 10
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [r14 + r10 + 7], 11
-	pinsrb	xmm14, byte ptr [r14 + rcx + 7], 12
-	pinsrb	xmm14, byte ptr [r14 + r12 + 7], 13
-	pinsrb	xmm14, byte ptr [r14 + rdi + 7], 14
-	movdqa	xmm1, xmm14
-	movdqa	xmm14, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm0
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm8, xmm0
-	por	xmm8, xmm2
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	esi, byte ptr [r14 + r15 + 20]
-	movd	xmm3, esi
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [r14 + rax + 7], 15
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI5_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm1, xmm0
-	por	xmm1, xmm8
-	movzx	esi, byte ptr [r14 + r15 + 21]
-	movd	xmm2, esi
-	movdqa	xmm0, xmmword ptr [rsp + 256]   # 16-byte Reload
-	mov	r11, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + r11 + 8], 1
-	pinsrb	xmm0, byte ptr [r14 + rbx + 8], 2
-	pinsrb	xmm0, byte ptr [r14 + r8 + 8], 3
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rcx + 8], 4
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 5
-	pinsrb	xmm0, byte ptr [r14 + rdx + 8], 6
-	pinsrb	xmm0, byte ptr [r14 + r9 + 8], 7
-	pinsrb	xmm0, byte ptr [r14 + r13 + 8], 8
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 9
-	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + r12 + 8], 10
-	pinsrb	xmm0, byte ptr [r14 + r10 + 8], 11
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 12
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [r14 + rbx + 8], 13
-	pinsrb	xmm0, byte ptr [r14 + rdi + 8], 14
-	pinsrb	xmm0, byte ptr [r14 + rax + 8], 15
-	por	xmm1, xmm9
-	movdqa	xmmword ptr [rsp + 256], xmm1   # 16-byte Spill
-	movzx	esi, byte ptr [r14 + r15 + 22]
-	movd	xmm1, esi
-	pcmpeqb	xmm0, xmm14
-	pinsrb	xmm11, byte ptr [r14 + r11 + 9], 1
-	mov	r15, r11
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + r10 + 9], 2
-	pinsrb	xmm11, byte ptr [r14 + r8 + 9], 3
-	mov	r13, r8
-	pinsrb	xmm11, byte ptr [r14 + rcx + 9], 4
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + r9 + 9], 5
-	pinsrb	xmm11, byte ptr [r14 + rdx + 9], 6
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + r11 + 9], 7
-	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rsi + 9], 8
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + r8 + 9], 9
-	pinsrb	xmm11, byte ptr [r14 + r12 + 9], 10
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rdx + 9], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rdi + 9], 12
-	pinsrb	xmm11, byte ptr [r14 + rbx + 9], 13
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rax + 9], 14
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [r14 + rcx + 9], 15
-	pinsrb	xmm12, byte ptr [r14 + r15 + 10], 1
-	pinsrb	xmm12, byte ptr [r14 + r10 + 10], 2
-	pinsrb	xmm12, byte ptr [r14 + r13 + 10], 3
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [r14 + r10 + 10], 4
-	pinsrb	xmm12, byte ptr [r14 + r9 + 10], 5
-	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [r14 + r9 + 10], 6
-	pinsrb	xmm12, byte ptr [r14 + r11 + 10], 7
-	pinsrb	xmm12, byte ptr [r14 + rsi + 10], 8
-	pinsrb	xmm12, byte ptr [r14 + r8 + 10], 9
-	pinsrb	xmm12, byte ptr [r14 + r12 + 10], 10
-	pinsrb	xmm12, byte ptr [r14 + rdx + 10], 11
-	pinsrb	xmm12, byte ptr [r14 + rdi + 10], 12
-	pinsrb	xmm12, byte ptr [r14 + rbx + 10], 13
-	pinsrb	xmm12, byte ptr [r14 + rax + 10], 14
-	mov	rbx, rax
-	pinsrb	xmm12, byte ptr [r14 + rcx + 10], 15
-	pinsrb	xmm13, byte ptr [r14 + r15 + 11], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + r13 + 11], 2
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + rax + 11], 3
-	pinsrb	xmm13, byte ptr [r14 + r10 + 11], 4
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + rax + 11], 5
-	pinsrb	xmm13, byte ptr [r14 + r9 + 11], 6
-	pinsrb	xmm13, byte ptr [r14 + r11 + 11], 7
-	pinsrb	xmm13, byte ptr [r14 + rsi + 11], 8
-	pinsrb	xmm13, byte ptr [r14 + r8 + 11], 9
-	mov	rax, r8
-	pinsrb	xmm13, byte ptr [r14 + r12 + 11], 10
-	pinsrb	xmm13, byte ptr [r14 + rdx + 11], 11
-	pinsrb	xmm13, byte ptr [r14 + rdi + 11], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [r14 + rsi + 11], 13
-	pinsrb	xmm13, byte ptr [r14 + rbx + 11], 14
-	pinsrb	xmm13, byte ptr [r14 + rcx + 11], 15
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI5_16]
-	paddb	xmm11, xmm0
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rcx + 23]
-	movd	xmm8, esi
-	pcmpeqb	xmm12, xmm14
-	pandn	xmm12, xmmword ptr [rip + .LCPI5_17]
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI5_18]
-	por	xmm13, xmm12
-	movzx	esi, byte ptr [r14 + rcx + 24]
-	movd	xmm12, esi
-	movdqa	xmm9, xmmword ptr [rsp + 224]   # 16-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r15 + 12], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r13 + 12], 2
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r15 + 12], 3
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rbx + 12], 4
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r10 + 12], 5
-	pinsrb	xmm9, byte ptr [r14 + r9 + 12], 6
-	mov	r8, r11
-	pinsrb	xmm9, byte ptr [r14 + r11 + 12], 7
-	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + r11 + 12], 8
-	mov	r12, rax
-	pinsrb	xmm9, byte ptr [r14 + rax + 12], 9
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rcx + 12], 10
-	pinsrb	xmm9, byte ptr [r14 + rdx + 12], 11
-	pinsrb	xmm9, byte ptr [r14 + rdi + 12], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rsi + 12], 13
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rax + 12], 14
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [r14 + rax + 12], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rax + 13], 1
-	pinsrb	xmm6, byte ptr [r14 + r13 + 13], 2
-	pinsrb	xmm6, byte ptr [r14 + r15 + 13], 3
-	pinsrb	xmm6, byte ptr [r14 + rbx + 13], 4
-	pinsrb	xmm6, byte ptr [r14 + r10 + 13], 5
-	pinsrb	xmm6, byte ptr [r14 + r9 + 13], 6
-	pinsrb	xmm6, byte ptr [r14 + r8 + 13], 7
-	pinsrb	xmm6, byte ptr [r14 + r11 + 13], 8
-	pinsrb	xmm6, byte ptr [r14 + r12 + 13], 9
-	pinsrb	xmm6, byte ptr [r14 + rcx + 13], 10
-	pinsrb	xmm6, byte ptr [r14 + rdx + 13], 11
-	pinsrb	xmm6, byte ptr [r14 + rdi + 13], 12
-	pinsrb	xmm6, byte ptr [r14 + rsi + 13], 13
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rax + 13], 14
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rax + 13], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [r14 + rax + 14], 1
-	pinsrb	xmm15, byte ptr [r14 + r13 + 14], 2
-	pinsrb	xmm15, byte ptr [r14 + r15 + 14], 3
-	pinsrb	xmm15, byte ptr [r14 + rbx + 14], 4
-	pinsrb	xmm15, byte ptr [r14 + r10 + 14], 5
-	mov	rbx, r10
-	pinsrb	xmm15, byte ptr [r14 + r9 + 14], 6
-	pinsrb	xmm15, byte ptr [r14 + r8 + 14], 7
-	pinsrb	xmm15, byte ptr [r14 + r11 + 14], 8
-	pinsrb	xmm15, byte ptr [r14 + r12 + 14], 9
-	pinsrb	xmm15, byte ptr [r14 + rcx + 14], 10
-	mov	r12, rcx
-	pinsrb	xmm15, byte ptr [r14 + rdx + 14], 11
-	mov	r10, rdx
-	pinsrb	xmm15, byte ptr [r14 + rdi + 14], 12
-	pinsrb	xmm15, byte ptr [r14 + rsi + 14], 13
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [r14 + rax + 14], 14
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmmword ptr [rip + .LCPI5_19]
-	por	xmm9, xmm13
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rax + 25]
-	movd	xmm13, esi
-	psubb	xmm11, xmmword ptr [rip + .LCPI5_22]
-	por	xmm9, xmm11
-	movzx	esi, byte ptr [r14 + rax + 26]
-	movd	xmm0, esi
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [r14 + rcx + 14], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI5_20]
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI5_21]
-	por	xmm15, xmm6
-	movzx	esi, byte ptr [r14 + rax + 27]
-	movd	xmm11, esi
-	movdqa	xmm6, xmmword ptr [rsp + 192]   # 16-byte Reload
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rdi + 15], 1
-	mov	rdx, r13
-	pinsrb	xmm6, byte ptr [r14 + r13 + 15], 2
-	pinsrb	xmm6, byte ptr [r14 + r15 + 15], 3
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r9 + 15], 4
-	pinsrb	xmm6, byte ptr [r14 + rbx + 15], 5
-	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rbx + 15], 6
-	pinsrb	xmm6, byte ptr [r14 + r8 + 15], 7
-	pinsrb	xmm6, byte ptr [r14 + r11 + 15], 8
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r8 + 15], 9
-	pinsrb	xmm6, byte ptr [r14 + r12 + 15], 10
-	pinsrb	xmm6, byte ptr [r14 + r10 + 15], 11
-	mov	r15, r10
-	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r10 + 15], 12
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + r13 + 15], 13
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [r14 + rsi + 15], 14
-	pinsrb	xmm6, byte ptr [r14 + rcx + 15], 15
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI5_6]
-	por	xmm6, xmm15
-	movzx	esi, byte ptr [r14 + rax + 28]
-	movd	xmm15, esi
-	por	xmm6, xmm9
-	movdqa	xmmword ptr [rsp + 192], xmm6   # 16-byte Spill
-	movzx	esi, byte ptr [r14 + rax + 29]
-	movd	xmm9, esi
-	mov	rsi, rdi
-	pinsrb	xmm10, byte ptr [r14 + rdi + 16], 1
-	mov	rax, rdx
-	pinsrb	xmm10, byte ptr [r14 + rdx + 16], 2
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rdx + 16], 3
-	pinsrb	xmm10, byte ptr [r14 + r9 + 16], 4
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rdi + 16], 5
-	pinsrb	xmm10, byte ptr [r14 + rbx + 16], 6
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rbx + 16], 7
-	pinsrb	xmm10, byte ptr [r14 + r11 + 16], 8
-	pinsrb	xmm10, byte ptr [r14 + r8 + 16], 9
-	pinsrb	xmm10, byte ptr [r14 + r12 + 16], 10
-	pinsrb	xmm10, byte ptr [r14 + r15 + 16], 11
-	pinsrb	xmm10, byte ptr [r14 + r10 + 16], 12
-	pinsrb	xmm10, byte ptr [r14 + r13 + 16], 13
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + rcx + 16], 14
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [r14 + r13 + 16], 15
-	pinsrb	xmm4, byte ptr [r14 + rsi + 17], 1
-	pinsrb	xmm4, byte ptr [r14 + rax + 17], 2
-	pinsrb	xmm4, byte ptr [r14 + rdx + 17], 3
-	pinsrb	xmm4, byte ptr [r14 + r9 + 17], 4
-	pinsrb	xmm4, byte ptr [r14 + rdi + 17], 5
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + r10 + 17], 6
-	mov	r9, rbx
-	pinsrb	xmm4, byte ptr [r14 + rbx + 17], 7
-	pinsrb	xmm4, byte ptr [r14 + r11 + 17], 8
-	pinsrb	xmm4, byte ptr [r14 + r8 + 17], 9
-	pinsrb	xmm4, byte ptr [r14 + r12 + 17], 10
-	mov	r8, r15
-	pinsrb	xmm4, byte ptr [r14 + r15 + 17], 11
-	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rdi + 17], 12
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [r14 + rdx + 17], 13
-	pinsrb	xmm4, byte ptr [r14 + rcx + 17], 14
-	pinsrb	xmm4, byte ptr [r14 + r13 + 17], 15
-	pcmpeqb	xmm10, xmm14
-	pcmpeqb	xmm4, xmm14
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_16] # xmm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm4, xmm6
-	paddb	xmm4, xmm10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	esi, byte ptr [r14 + rax + 30]
-	movd	xmm10, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rsi + 18], 1
-	pinsrb	xmm5, byte ptr [r14 + rsi + 19], 1
-	pinsrb	xmm3, byte ptr [r14 + rsi + 20], 1
-	pinsrb	xmm2, byte ptr [r14 + rsi + 21], 1
-	pinsrb	xmm1, byte ptr [r14 + rsi + 22], 1
-	pinsrb	xmm8, byte ptr [r14 + rsi + 23], 1
-	pinsrb	xmm12, byte ptr [r14 + rsi + 24], 1
-	pinsrb	xmm13, byte ptr [r14 + rsi + 25], 1
-	pinsrb	xmm0, byte ptr [r14 + rsi + 26], 1
-	pinsrb	xmm11, byte ptr [r14 + rsi + 27], 1
-	pinsrb	xmm15, byte ptr [r14 + rsi + 28], 1
-	pinsrb	xmm9, byte ptr [r14 + rsi + 29], 1
-	pinsrb	xmm10, byte ptr [r14 + rsi + 30], 1
-	movzx	eax, byte ptr [r14 + rax + 31]
-	movd	xmm6, eax
-	pinsrb	xmm6, byte ptr [r14 + rsi + 31], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 18], 2
-	pinsrb	xmm5, byte ptr [r14 + rax + 19], 2
-	pinsrb	xmm3, byte ptr [r14 + rax + 20], 2
-	pinsrb	xmm2, byte ptr [r14 + rax + 21], 2
-	pinsrb	xmm1, byte ptr [r14 + rax + 22], 2
-	pinsrb	xmm8, byte ptr [r14 + rax + 23], 2
-	pinsrb	xmm12, byte ptr [r14 + rax + 24], 2
-	pinsrb	xmm13, byte ptr [r14 + rax + 25], 2
-	pinsrb	xmm0, byte ptr [r14 + rax + 26], 2
-	pinsrb	xmm11, byte ptr [r14 + rax + 27], 2
-	pinsrb	xmm15, byte ptr [r14 + rax + 28], 2
-	pinsrb	xmm9, byte ptr [r14 + rax + 29], 2
-	pinsrb	xmm10, byte ptr [r14 + rax + 30], 2
-	pinsrb	xmm6, byte ptr [r14 + rax + 31], 2
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + r15 + 18], 3
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rax + 18], 4
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rbx + 18], 5
-	pinsrb	xmm7, byte ptr [r14 + r10 + 18], 6
-	pinsrb	xmm7, byte ptr [r14 + r9 + 18], 7
-	pinsrb	xmm7, byte ptr [r14 + r11 + 18], 8
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [r14 + rsi + 18], 9
-	pinsrb	xmm7, byte ptr [r14 + r12 + 18], 10
-	pinsrb	xmm7, byte ptr [r14 + r8 + 18], 11
-	pinsrb	xmm7, byte ptr [r14 + rdi + 18], 12
-	pinsrb	xmm7, byte ptr [r14 + rdx + 18], 13
-	pinsrb	xmm7, byte ptr [r14 + rcx + 18], 14
-	pinsrb	xmm7, byte ptr [r14 + r13 + 18], 15
-	pinsrb	xmm5, byte ptr [r14 + r15 + 19], 3
-	pinsrb	xmm5, byte ptr [r14 + rax + 19], 4
-	pinsrb	xmm5, byte ptr [r14 + rbx + 19], 5
-	pinsrb	xmm5, byte ptr [r14 + r10 + 19], 6
-	pinsrb	xmm5, byte ptr [r14 + r9 + 19], 7
-	pinsrb	xmm5, byte ptr [r14 + r11 + 19], 8
-	pinsrb	xmm5, byte ptr [r14 + rsi + 19], 9
-	pinsrb	xmm5, byte ptr [r14 + r12 + 19], 10
-	pinsrb	xmm5, byte ptr [r14 + r8 + 19], 11
-	pinsrb	xmm5, byte ptr [r14 + rdi + 19], 12
-	pinsrb	xmm5, byte ptr [r14 + rdx + 19], 13
-	pinsrb	xmm5, byte ptr [r14 + rcx + 19], 14
-	pinsrb	xmm5, byte ptr [r14 + r13 + 19], 15
-	pinsrb	xmm3, byte ptr [r14 + r15 + 20], 3
-	pinsrb	xmm3, byte ptr [r14 + rax + 20], 4
-	pinsrb	xmm3, byte ptr [r14 + rbx + 20], 5
-	pinsrb	xmm3, byte ptr [r14 + r10 + 20], 6
-	pinsrb	xmm3, byte ptr [r14 + r9 + 20], 7
-	pinsrb	xmm3, byte ptr [r14 + r11 + 20], 8
-	pinsrb	xmm3, byte ptr [r14 + rsi + 20], 9
-	pinsrb	xmm3, byte ptr [r14 + r12 + 20], 10
-	pinsrb	xmm3, byte ptr [r14 + r8 + 20], 11
-	pinsrb	xmm3, byte ptr [r14 + rdi + 20], 12
-	pinsrb	xmm3, byte ptr [r14 + rdx + 20], 13
-	pinsrb	xmm3, byte ptr [r14 + rcx + 20], 14
-	pcmpeqb	xmm7, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_17] # xmm14 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm7, xmm14
-	pcmpeqb	xmm5, xmmword ptr [rsp + 176]   # 16-byte Folded Reload
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_18] # xmm14 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm5, xmm14
-	por	xmm5, xmm7
-	pinsrb	xmm3, byte ptr [r14 + r13 + 20], 15
-	movdqa	xmm14, xmmword ptr [rsp + 176]  # 16-byte Reload
-	pcmpeqb	xmm3, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI5_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm3, xmm7
-	por	xmm3, xmm5
-	pcmpeqd	xmm5, xmm5
-	psubb	xmm4, xmm5
-	por	xmm3, xmm4
-	pinsrb	xmm2, byte ptr [r14 + r15 + 21], 3
-	pinsrb	xmm2, byte ptr [r14 + rax + 21], 4
-	pinsrb	xmm2, byte ptr [r14 + rbx + 21], 5
-	pinsrb	xmm2, byte ptr [r14 + r10 + 21], 6
-	pinsrb	xmm2, byte ptr [r14 + r9 + 21], 7
-	pinsrb	xmm2, byte ptr [r14 + r11 + 21], 8
-	pinsrb	xmm2, byte ptr [r14 + rsi + 21], 9
-	pinsrb	xmm2, byte ptr [r14 + r12 + 21], 10
-	pinsrb	xmm2, byte ptr [r14 + r8 + 21], 11
-	pinsrb	xmm2, byte ptr [r14 + rdi + 21], 12
-	pinsrb	xmm2, byte ptr [r14 + rdx + 21], 13
-	pinsrb	xmm2, byte ptr [r14 + rcx + 21], 14
-	pinsrb	xmm2, byte ptr [r14 + r13 + 21], 15
-	pinsrb	xmm1, byte ptr [r14 + r15 + 22], 3
-	pinsrb	xmm1, byte ptr [r14 + rax + 22], 4
-	pinsrb	xmm1, byte ptr [r14 + rbx + 22], 5
-	pinsrb	xmm1, byte ptr [r14 + r10 + 22], 6
-	pinsrb	xmm1, byte ptr [r14 + r9 + 22], 7
-	pinsrb	xmm1, byte ptr [r14 + r11 + 22], 8
-	pinsrb	xmm1, byte ptr [r14 + rsi + 22], 9
-	pinsrb	xmm1, byte ptr [r14 + r12 + 22], 10
-	pinsrb	xmm1, byte ptr [r14 + r8 + 22], 11
-	pinsrb	xmm1, byte ptr [r14 + rdi + 22], 12
-	pinsrb	xmm1, byte ptr [r14 + rdx + 22], 13
-	pinsrb	xmm1, byte ptr [r14 + rcx + 22], 14
-	pinsrb	xmm1, byte ptr [r14 + r13 + 22], 15
-	pinsrb	xmm8, byte ptr [r14 + r15 + 23], 3
-	pinsrb	xmm8, byte ptr [r14 + rax + 23], 4
-	pinsrb	xmm8, byte ptr [r14 + rbx + 23], 5
-	pinsrb	xmm8, byte ptr [r14 + r10 + 23], 6
-	pinsrb	xmm8, byte ptr [r14 + r9 + 23], 7
-	pinsrb	xmm8, byte ptr [r14 + r11 + 23], 8
-	pinsrb	xmm8, byte ptr [r14 + rsi + 23], 9
-	pinsrb	xmm8, byte ptr [r14 + r12 + 23], 10
-	pinsrb	xmm8, byte ptr [r14 + r8 + 23], 11
-	pinsrb	xmm8, byte ptr [r14 + rdi + 23], 12
-	pinsrb	xmm8, byte ptr [r14 + rdx + 23], 13
-	pinsrb	xmm8, byte ptr [r14 + rcx + 23], 14
-	pcmpeqb	xmm2, xmm14
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm5
-	pcmpeqb	xmm1, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI5_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm1, xmm7
-	por	xmm1, xmm2
-	pinsrb	xmm8, byte ptr [r14 + r13 + 23], 15
-	pcmpeqb	xmm8, xmm14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI5_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm8, xmm4
-	por	xmm8, xmm1
-	pinsrb	xmm12, byte ptr [r14 + r15 + 24], 3
-	pinsrb	xmm12, byte ptr [r14 + rax + 24], 4
-	pinsrb	xmm12, byte ptr [r14 + rbx + 24], 5
-	pinsrb	xmm12, byte ptr [r14 + r10 + 24], 6
-	pinsrb	xmm12, byte ptr [r14 + r9 + 24], 7
-	pinsrb	xmm12, byte ptr [r14 + r11 + 24], 8
-	pinsrb	xmm12, byte ptr [r14 + rsi + 24], 9
-	pinsrb	xmm12, byte ptr [r14 + r12 + 24], 10
-	pinsrb	xmm12, byte ptr [r14 + r8 + 24], 11
-	pinsrb	xmm12, byte ptr [r14 + rdi + 24], 12
-	pinsrb	xmm12, byte ptr [r14 + rdx + 24], 13
-	pinsrb	xmm12, byte ptr [r14 + rcx + 24], 14
-	pinsrb	xmm12, byte ptr [r14 + r13 + 24], 15
-	por	xmm8, xmm3
-	pcmpeqb	xmm12, xmm14
-	pinsrb	xmm13, byte ptr [r14 + r15 + 25], 3
-	pinsrb	xmm13, byte ptr [r14 + rax + 25], 4
-	pinsrb	xmm13, byte ptr [r14 + rbx + 25], 5
-	pinsrb	xmm13, byte ptr [r14 + r10 + 25], 6
-	pinsrb	xmm13, byte ptr [r14 + r9 + 25], 7
-	pinsrb	xmm13, byte ptr [r14 + r11 + 25], 8
-	pinsrb	xmm13, byte ptr [r14 + rsi + 25], 9
-	pinsrb	xmm13, byte ptr [r14 + r12 + 25], 10
-	pinsrb	xmm13, byte ptr [r14 + r8 + 25], 11
-	pinsrb	xmm13, byte ptr [r14 + rdi + 25], 12
-	pinsrb	xmm13, byte ptr [r14 + rdx + 25], 13
-	pinsrb	xmm13, byte ptr [r14 + rcx + 25], 14
-	pinsrb	xmm13, byte ptr [r14 + r13 + 25], 15
-	pinsrb	xmm0, byte ptr [r14 + r15 + 26], 3
-	pinsrb	xmm0, byte ptr [r14 + rax + 26], 4
-	pinsrb	xmm0, byte ptr [r14 + rbx + 26], 5
-	pinsrb	xmm0, byte ptr [r14 + r10 + 26], 6
-	pinsrb	xmm0, byte ptr [r14 + r9 + 26], 7
-	pinsrb	xmm0, byte ptr [r14 + r11 + 26], 8
-	pinsrb	xmm0, byte ptr [r14 + rsi + 26], 9
-	pinsrb	xmm0, byte ptr [r14 + r12 + 26], 10
-	pinsrb	xmm0, byte ptr [r14 + r8 + 26], 11
-	pinsrb	xmm0, byte ptr [r14 + rdi + 26], 12
-	pinsrb	xmm0, byte ptr [r14 + rdx + 26], 13
-	pinsrb	xmm0, byte ptr [r14 + rcx + 26], 14
-	pinsrb	xmm0, byte ptr [r14 + r13 + 26], 15
-	pinsrb	xmm11, byte ptr [r14 + r15 + 27], 3
-	pinsrb	xmm11, byte ptr [r14 + rax + 27], 4
-	pinsrb	xmm11, byte ptr [r14 + rbx + 27], 5
-	pinsrb	xmm11, byte ptr [r14 + r10 + 27], 6
-	pinsrb	xmm11, byte ptr [r14 + r9 + 27], 7
-	pinsrb	xmm11, byte ptr [r14 + r11 + 27], 8
-	pinsrb	xmm11, byte ptr [r14 + rsi + 27], 9
-	pinsrb	xmm11, byte ptr [r14 + r12 + 27], 10
-	pinsrb	xmm11, byte ptr [r14 + r8 + 27], 11
-	pinsrb	xmm11, byte ptr [r14 + rdi + 27], 12
-	pinsrb	xmm11, byte ptr [r14 + rdx + 27], 13
-	pinsrb	xmm11, byte ptr [r14 + rcx + 27], 14
-	pcmpeqb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI5_16]
-	paddb	xmm13, xmm12
-	pinsrb	xmm11, byte ptr [r14 + r13 + 27], 15
-	pcmpeqb	xmm0, xmm14
-	pandn	xmm0, xmmword ptr [rip + .LCPI5_17]
-	pcmpeqb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI5_18]
-	por	xmm11, xmm0
-	pinsrb	xmm15, byte ptr [r14 + r15 + 28], 3
-	pinsrb	xmm9, byte ptr [r14 + r15 + 29], 3
-	pinsrb	xmm10, byte ptr [r14 + r15 + 30], 3
-	pinsrb	xmm6, byte ptr [r14 + r15 + 31], 3
-	pinsrb	xmm15, byte ptr [r14 + rax + 28], 4
-	pinsrb	xmm9, byte ptr [r14 + rax + 29], 4
-	pinsrb	xmm10, byte ptr [r14 + rax + 30], 4
-	pinsrb	xmm6, byte ptr [r14 + rax + 31], 4
-	mov	rax, rbx
-	pinsrb	xmm15, byte ptr [r14 + rbx + 28], 5
-	pinsrb	xmm9, byte ptr [r14 + rbx + 29], 5
-	pinsrb	xmm10, byte ptr [r14 + rbx + 30], 5
-	pinsrb	xmm6, byte ptr [r14 + rbx + 31], 5
-	mov	rax, r10
-	pinsrb	xmm15, byte ptr [r14 + r10 + 28], 6
-	pinsrb	xmm9, byte ptr [r14 + r10 + 29], 6
-	pinsrb	xmm10, byte ptr [r14 + r10 + 30], 6
-	pinsrb	xmm6, byte ptr [r14 + r10 + 31], 6
-	mov	rax, r9
-	pinsrb	xmm15, byte ptr [r14 + r9 + 28], 7
-	pinsrb	xmm9, byte ptr [r14 + r9 + 29], 7
-	pinsrb	xmm10, byte ptr [r14 + r9 + 30], 7
-	pinsrb	xmm6, byte ptr [r14 + r9 + 31], 7
-	pinsrb	xmm15, byte ptr [r14 + r11 + 28], 8
-	pinsrb	xmm9, byte ptr [r14 + r11 + 29], 8
-	pinsrb	xmm10, byte ptr [r14 + r11 + 30], 8
-	pinsrb	xmm6, byte ptr [r14 + r11 + 31], 8
-	mov	rax, rsi
-	pinsrb	xmm15, byte ptr [r14 + rsi + 28], 9
-	pinsrb	xmm9, byte ptr [r14 + rsi + 29], 9
-	pinsrb	xmm10, byte ptr [r14 + rsi + 30], 9
-	pinsrb	xmm6, byte ptr [r14 + rsi + 31], 9
-	pinsrb	xmm15, byte ptr [r14 + r12 + 28], 10
-	pinsrb	xmm9, byte ptr [r14 + r12 + 29], 10
-	pinsrb	xmm10, byte ptr [r14 + r12 + 30], 10
-	pinsrb	xmm6, byte ptr [r14 + r12 + 31], 10
-	mov	rax, r8
-	pinsrb	xmm15, byte ptr [r14 + r8 + 28], 11
-	pinsrb	xmm9, byte ptr [r14 + r8 + 29], 11
-	pinsrb	xmm10, byte ptr [r14 + r8 + 30], 11
-	pinsrb	xmm6, byte ptr [r14 + r8 + 31], 11
-	mov	rax, rdi
-	pinsrb	xmm15, byte ptr [r14 + rdi + 28], 12
-	pinsrb	xmm9, byte ptr [r14 + rdi + 29], 12
-	pinsrb	xmm10, byte ptr [r14 + rdi + 30], 12
-	pinsrb	xmm6, byte ptr [r14 + rdi + 31], 12
-	mov	rax, rdx
-	pinsrb	xmm15, byte ptr [r14 + rdx + 28], 13
-	pinsrb	xmm9, byte ptr [r14 + rdx + 29], 13
-	pinsrb	xmm10, byte ptr [r14 + rdx + 30], 13
-	pinsrb	xmm6, byte ptr [r14 + rdx + 31], 13
-	mov	rax, rcx
-	pinsrb	xmm15, byte ptr [r14 + rcx + 28], 14
-	pinsrb	xmm9, byte ptr [r14 + rcx + 29], 14
-	pinsrb	xmm10, byte ptr [r14 + rcx + 30], 14
-	pinsrb	xmm6, byte ptr [r14 + rcx + 31], 14
-	pinsrb	xmm15, byte ptr [r14 + r13 + 28], 15
-	pinsrb	xmm9, byte ptr [r14 + r13 + 29], 15
-	pinsrb	xmm10, byte ptr [r14 + r13 + 30], 15
-	pcmpeqb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI5_19]
-	por	xmm15, xmm11
-	pinsrb	xmm6, byte ptr [r14 + r13 + 31], 15
-	psubb	xmm13, xmmword ptr [rip + .LCPI5_22]
-	por	xmm15, xmm13
-	pcmpeqb	xmm9, xmm14
-	pandn	xmm9, xmm5
-	pcmpeqb	xmm10, xmm14
-	pandn	xmm10, xmm7
-	por	xmm10, xmm9
-	pcmpeqb	xmm6, xmm14
-	pandn	xmm6, xmm4
-	por	xmm6, xmm10
-	por	xmm6, xmm15
-	movdqa	xmm0, xmm8
-	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
-	movdqa	xmm3, xmmword ptr [rsp + 256]   # 16-byte Reload
-	movdqa	xmm1, xmm3
-	movdqa	xmm4, xmmword ptr [rsp + 192]   # 16-byte Reload
-	punpcklbw	xmm1, xmm4              # xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
-	movdqa	xmm2, xmm1
-	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
-	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
-	punpckhbw	xmm3, xmm4              # xmm3 = xmm3[8],xmm4[8],xmm3[9],xmm4[9],xmm3[10],xmm4[10],xmm3[11],xmm4[11],xmm3[12],xmm4[12],xmm3[13],xmm4[13],xmm3[14],xmm4[14],xmm3[15],xmm4[15]
-	movdqa	xmm0, xmm3
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm3, xmm8              # xmm3 = xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm3
-	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm1
-	movdqu	xmmword ptr [rax + 4*rcx], xmm2
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 216]      # 8-byte Folded Reload
-	jne	.LBB5_67
-# %bb.68:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 216]      # 8-byte Folded Reload
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	jne	.LBB5_69
-	jmp	.LBB5_72
-.LBB5_109:
-	and	r10, -8
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, r14
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	qword ptr [rsp + 24], r10       # 8-byte Spill
-	lea	rax, [rax + 4*r10]
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	movd	xmm0, r11d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
-	xor	edi, edi
-	pxor	xmm9, xmm9
-	.p2align	4, 0x90
-.LBB5_110:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 64], rdi       # 8-byte Spill
-	shl	rdi, 6
-	mov	r15, rdi
-	mov	rsi, rdi
-	mov	rdx, rdi
-	mov	r13, rdi
-	mov	rbx, rdi
-	mov	r9, rdi
-	movzx	eax, word ptr [r14 + rdi]
-	movd	xmm5, eax
-	movzx	eax, word ptr [r14 + rdi + 2]
-	movd	xmm0, eax
-	movzx	eax, word ptr [r14 + rdi + 4]
-	movd	xmm1, eax
-	movzx	eax, word ptr [r14 + rdi + 6]
-	movd	xmm7, eax
-	movzx	eax, word ptr [r14 + rdi + 8]
-	movd	xmm8, eax
-	movzx	eax, word ptr [r14 + rdi + 10]
-	movd	xmm4, eax
-	movzx	eax, word ptr [r14 + rdi + 12]
-	movzx	r8d, word ptr [r14 + rdi + 14]
-	movzx	r10d, word ptr [r14 + rdi + 16]
-	movzx	r12d, word ptr [r14 + rdi + 18]
-	movzx	ecx, word ptr [r14 + rdi + 20]
-	mov	dword ptr [rsp + 40], ecx       # 4-byte Spill
-	mov	rcx, rdi
-	or	rcx, 64
-	or	r15, 128
-	or	rsi, 192
-	or	rdx, 256
-	or	r13, 320
-	or	rbx, 384
-	pinsrw	xmm5, word ptr [r14 + rcx], 1
-	pinsrw	xmm5, word ptr [r14 + r15], 2
-	pinsrw	xmm5, word ptr [r14 + rsi], 3
-	pinsrw	xmm5, word ptr [r14 + rdx], 4
-	pinsrw	xmm5, word ptr [r14 + r13], 5
-	pinsrw	xmm5, word ptr [r14 + rbx], 6
-	pinsrw	xmm0, word ptr [r14 + rcx + 2], 1
-	pinsrw	xmm0, word ptr [r14 + r15 + 2], 2
-	pinsrw	xmm0, word ptr [r14 + rsi + 2], 3
-	pinsrw	xmm0, word ptr [r14 + rdx + 2], 4
-	pinsrw	xmm0, word ptr [r14 + r13 + 2], 5
-	pinsrw	xmm0, word ptr [r14 + rbx + 2], 6
-	or	r9, 448
-	pinsrw	xmm0, word ptr [r14 + r9 + 2], 7
-	movd	xmm2, eax
-	movzx	eax, word ptr [r14 + rdi + 22]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pcmpeqw	xmm0, xmm11
-	pinsrw	xmm1, word ptr [r14 + rcx + 4], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 4], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 4], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 4], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 4], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 4], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 4], 7
-	packsswb	xmm0, xmm0
-	pcmpeqw	xmm1, xmm11
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_8] # xmm14 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm3, xmm14
-	pblendvb	xmm3, xmm9, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_9] # xmm15 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm15
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm1, r8d
-	movzx	r11d, word ptr [r14 + rdi + 24]
-	pinsrw	xmm5, word ptr [r14 + r9], 7
-	pcmpeqw	xmm5, xmm11
-	pcmpeqd	xmm0, xmm0
-	pxor	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pinsrw	xmm7, word ptr [r14 + rcx + 6], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 6], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 6], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 6], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 6], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 6], 6
-	pinsrw	xmm7, word ptr [r14 + r9 + 6], 7
-	pcmpeqw	xmm7, xmm11
-	packsswb	xmm7, xmm7
-	pinsrw	xmm8, word ptr [r14 + rcx + 8], 1
-	pinsrw	xmm8, word ptr [r14 + r15 + 8], 2
-	pinsrw	xmm8, word ptr [r14 + rsi + 8], 3
-	pinsrw	xmm8, word ptr [r14 + rdx + 8], 4
-	pinsrw	xmm8, word ptr [r14 + r13 + 8], 5
-	pinsrw	xmm8, word ptr [r14 + rbx + 8], 6
-	pinsrw	xmm8, word ptr [r14 + r9 + 8], 7
-	psubb	xmm3, xmm5
-	movdqa	xmm12, xmmword ptr [rip + .LCPI5_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm7
-	pblendvb	xmm12, xmm9, xmm0
-	movd	xmm7, r10d
-	movzx	r8d, word ptr [r14 + rdi + 26]
-	pcmpeqw	xmm8, xmm11
-	packsswb	xmm8, xmm8
-	por	xmm12, xmm6
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm8
-	pblendvb	xmm13, xmm9, xmm0
-	movd	xmm6, r12d
-	movzx	r12d, word ptr [r14 + rdi + 28]
-	pinsrw	xmm4, word ptr [r14 + rcx + 10], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 10], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 10], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 10], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 10], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 10], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 10], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	pinsrw	xmm2, word ptr [r14 + rcx + 12], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 12], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 12], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 12], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 12], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 12], 6
-	por	xmm12, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm9, xmm0
-	movd	xmm4, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm4 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [r14 + rdi + 30]
-	pinsrw	xmm2, word ptr [r14 + r9 + 12], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm13
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm9, xmm0
-	movd	xmm3, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [r14 + rdi + 32]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pinsrw	xmm1, word ptr [r14 + rcx + 14], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 14], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 14], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 14], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 14], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 14], 6
-	por	xmm13, xmm5
-	movd	xmm2, r11d
-	movzx	eax, word ptr [r14 + rdi + 34]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm1, word ptr [r14 + r9 + 14], 7
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm6, word ptr [r14 + rcx + 18], 1
-	pinsrw	xmm6, word ptr [r14 + r15 + 18], 2
-	pinsrw	xmm6, word ptr [r14 + rsi + 18], 3
-	pinsrw	xmm6, word ptr [r14 + rdx + 18], 4
-	pinsrw	xmm6, word ptr [r14 + r13 + 18], 5
-	pinsrw	xmm6, word ptr [r14 + rbx + 18], 6
-	packsswb	xmm1, xmm1
-	pinsrw	xmm6, word ptr [r14 + r9 + 18], 7
-	pcmpeqw	xmm6, xmm11
-	packsswb	xmm6, xmm6
-	por	xmm13, xmm12
-	movdqa	xmm10, xmmword ptr [rip + .LCPI5_14] # xmm10 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm12, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm12, xmm9, xmm0
-	movdqa	xmm8, xmm14
-	movdqa	xmm0, xmm6
-	pblendvb	xmm8, xmm9, xmm0
-	movd	xmm1, r8d
-	movzx	r11d, word ptr [r14 + rdi + 36]
-	pinsrw	xmm7, word ptr [r14 + rcx + 16], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 16], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 16], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 16], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 16], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 16], 6
-	pinsrw	xmm4, word ptr [r14 + rcx + 20], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 20], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 20], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 20], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 20], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 20], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 20], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm12, xmm13
-	movdqa	xmm0, xmm4
-	pblendvb	xmm15, xmm9, xmm0
-	movd	xmm4, r12d
-	movzx	r12d, word ptr [r14 + rdi + 38]
-	pinsrw	xmm7, word ptr [r14 + r9 + 16], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI5_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm3, word ptr [r14 + rcx + 22], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 22], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 22], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 22], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 22], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 22], 6
-	pinsrw	xmm3, word ptr [r14 + r9 + 22], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [r14 + rcx + 24], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 24], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 24], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 24], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 24], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 24], 6
-	pinsrw	xmm2, word ptr [r14 + r9 + 24], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_10] # xmm14 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm14, xmm9, xmm0
-	movd	xmm3, r10d
-	movzx	r8d, word ptr [r14 + rdi + 40]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm14, xmm15
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm9, xmm0
-	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [r14 + rdi + 42]
-	pinsrw	xmm1, word ptr [r14 + rcx + 26], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 26], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 26], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 26], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 26], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 26], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 26], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm4, word ptr [r14 + rcx + 28], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 28], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 28], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 28], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 28], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 28], 6
-	por	xmm14, xmm8
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_12] # xmm15 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm5, xmm15
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm9, xmm0
-	movd	xmm2, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [r14 + rdi + 44]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pinsrw	xmm4, word ptr [r14 + r9 + 28], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm5, xmm13
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm4, r11d
-	movzx	r11d, word ptr [r14 + rdi + 46]
-	pinsrw	xmm3, word ptr [r14 + rcx + 30], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 30], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 30], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 30], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 30], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 30], 6
-	por	xmm6, xmm5
-	movd	xmm1, r12d
-	movzx	eax, word ptr [r14 + rdi + 48]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm3, word ptr [r14 + r9 + 30], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm2, word ptr [r14 + rcx + 34], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 34], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 34], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 34], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 34], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 34], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [r14 + r9 + 34], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm6, xmm14
-	movdqa	xmm13, xmm10
-	movdqa	xmm0, xmm3
-	pblendvb	xmm13, xmm9, xmm0
-	movdqa	xmm8, xmmword ptr [rip + .LCPI5_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm8, xmm9, xmm0
-	movd	xmm2, r8d
-	movzx	r12d, word ptr [r14 + rdi + 50]
-	pinsrw	xmm7, word ptr [r14 + rcx + 32], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 32], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 32], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 32], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 32], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 32], 6
-	pinsrw	xmm4, word ptr [r14 + rcx + 36], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 36], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 36], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 36], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 36], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 36], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 36], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm13, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm3, r10d
-	movzx	r10d, word ptr [r14 + rdi + 52]
-	pinsrw	xmm7, word ptr [r14 + r9 + 32], 7
-	pcmpeqw	xmm7, xmm11
-	pcmpeqd	xmm14, xmm14
-	pxor	xmm7, xmm14
-	packsswb	xmm7, xmm7
-	pinsrw	xmm1, word ptr [r14 + rcx + 38], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 38], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 38], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 38], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 38], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 38], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 38], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm2, word ptr [r14 + rcx + 40], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 40], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 40], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 40], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 40], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 40], 6
-	pinsrw	xmm2, word ptr [r14 + r9 + 40], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_10] # xmm5 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm9, xmm0
-	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r8d, word ptr [r14 + rdi + 54]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_11] # xmm6 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm4, r11d
-	movzx	eax, word ptr [r14 + rdi + 56]
-	pinsrw	xmm3, word ptr [r14 + rcx + 42], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 42], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 42], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 42], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 42], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 42], 6
-	pinsrw	xmm3, word ptr [r14 + r9 + 42], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [r14 + rcx + 44], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 44], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 44], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 44], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 44], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 44], 6
-	por	xmm5, xmm8
-	movdqa	xmm2, xmm15
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm9, xmm0
-	movd	xmm7, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r11d, word ptr [r14 + rdi + 58]
-	pinsrw	xmm1, word ptr [r14 + r9 + 44], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm2, xmm6
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_13] # xmm15 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm15
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm1, r12d
-	movzx	r12d, word ptr [r14 + rdi + 60]
-	por	xmm6, xmm2
-	movd	xmm2, r10d
-	pinsrw	xmm4, word ptr [r14 + rcx + 46], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 46], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 46], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 46], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 46], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 46], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 46], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm6, xmm5
-	movdqa	xmm8, xmm10
-	movdqa	xmm0, xmm4
-	pblendvb	xmm8, xmm9, xmm0
-	movd	xmm3, r8d
-	pinsrw	xmm1, word ptr [r14 + rcx + 50], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 50], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 50], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 50], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 50], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 50], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 50], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm8, xmm6
-	movdqa	xmm4, xmmword ptr [rip + .LCPI5_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm9, xmm0
-	movd	xmm1, eax
-	pinsrw	xmm7, word ptr [r14 + rcx + 48], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 48], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 48], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 48], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 48], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 48], 6
-	pinsrw	xmm7, word ptr [r14 + r9 + 48], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmm14
-	pinsrw	xmm2, word ptr [r14 + rcx + 52], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 52], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 52], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 52], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 52], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 52], 6
-	packsswb	xmm7, xmm7
-	pinsrw	xmm2, word ptr [r14 + r9 + 52], 7
-	pcmpeqw	xmm2, xmm11
-	pinsrw	xmm3, word ptr [r14 + rcx + 54], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 54], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 54], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 54], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 54], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 54], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [r14 + r9 + 54], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm1, word ptr [r14 + rcx + 56], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 56], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 56], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 56], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 56], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 56], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [r14 + r9 + 56], 7
-	psubb	xmm4, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm9, xmm0
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm2, r11d
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm2, word ptr [r14 + rcx + 58], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 58], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 58], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 58], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 58], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 58], 6
-	pinsrw	xmm2, word ptr [r14 + r9 + 58], 7
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm2, xmm11
-	por	xmm6, xmm5
-	movd	xmm3, r12d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	pinsrw	xmm3, word ptr [r14 + rcx + 60], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 60], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 60], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 60], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 60], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 60], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [r14 + r9 + 60], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	por	xmm6, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI5_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm9, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI5_12] # xmm1 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm9, xmm0
-	movdqa	xmm2, xmm15
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm9, xmm0
-	por	xmm1, xmm4
-	movzx	eax, word ptr [r14 + rdi + 62]
-	por	xmm2, xmm1
-	movd	xmm0, eax
-	pinsrw	xmm0, word ptr [r14 + rcx + 62], 1
-	pinsrw	xmm0, word ptr [r14 + r15 + 62], 2
-	pinsrw	xmm0, word ptr [r14 + rsi + 62], 3
-	pinsrw	xmm0, word ptr [r14 + rdx + 62], 4
-	pinsrw	xmm0, word ptr [r14 + r13 + 62], 5
-	pinsrw	xmm0, word ptr [r14 + rbx + 62], 6
-	pinsrw	xmm0, word ptr [r14 + r9 + 62], 7
-	pcmpeqw	xmm0, xmm11
-	packsswb	xmm0, xmm0
-	por	xmm2, xmm6
-	pblendvb	xmm10, xmm9, xmm0
-	por	xmm10, xmm2
-	movdqa	xmm0, xmm12
-	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
-	movdqa	xmm2, xmm8
-	punpcklqdq	xmm2, xmm10             # xmm2 = xmm2[0],xmm10[0]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI5_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm2, xmm3
-	pshufb	xmm0, xmm3
-	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
-	punpcklbw	xmm8, xmm10             # xmm8 = xmm8[0],xmm10[0],xmm8[1],xmm10[1],xmm8[2],xmm10[2],xmm8[3],xmm10[3],xmm8[4],xmm10[4],xmm8[5],xmm10[5],xmm8[6],xmm10[6],xmm8[7],xmm10[7]
-	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
-	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	movdqu	xmmword ptr [r8 + 4*rcx], xmm12
-	mov	qword ptr [rsp + 8], r8         # 8-byte Spill
-	movdqu	xmmword ptr [r8 + 4*rcx + 16], xmm0
-	add	rcx, 8
-	mov	rdi, rcx
-	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	jne	.LBB5_110
-# %bb.111:
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r11d, dword ptr [rsp + 16]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	jne	.LBB5_112
-	jmp	.LBB5_115
-.LBB5_132:
-	and	r10, -8
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, r14
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	qword ptr [rsp + 24], r10       # 8-byte Spill
-	lea	rax, [rax + 4*r10]
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	movd	xmm0, r11d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
-	xor	edi, edi
-	pxor	xmm9, xmm9
-	.p2align	4, 0x90
-.LBB5_133:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 64], rdi       # 8-byte Spill
-	shl	rdi, 6
-	mov	r15, rdi
-	mov	rsi, rdi
-	mov	rdx, rdi
-	mov	r13, rdi
-	mov	rbx, rdi
-	mov	r9, rdi
-	movzx	eax, word ptr [r14 + rdi]
-	movd	xmm5, eax
-	movzx	eax, word ptr [r14 + rdi + 2]
-	movd	xmm0, eax
-	movzx	eax, word ptr [r14 + rdi + 4]
-	movd	xmm1, eax
-	movzx	eax, word ptr [r14 + rdi + 6]
-	movd	xmm7, eax
-	movzx	eax, word ptr [r14 + rdi + 8]
-	movd	xmm8, eax
-	movzx	eax, word ptr [r14 + rdi + 10]
-	movd	xmm4, eax
-	movzx	eax, word ptr [r14 + rdi + 12]
-	movzx	r8d, word ptr [r14 + rdi + 14]
-	movzx	r10d, word ptr [r14 + rdi + 16]
-	movzx	r12d, word ptr [r14 + rdi + 18]
-	movzx	ecx, word ptr [r14 + rdi + 20]
-	mov	dword ptr [rsp + 40], ecx       # 4-byte Spill
-	mov	rcx, rdi
-	or	rcx, 64
-	or	r15, 128
-	or	rsi, 192
-	or	rdx, 256
-	or	r13, 320
-	or	rbx, 384
-	pinsrw	xmm5, word ptr [r14 + rcx], 1
-	pinsrw	xmm5, word ptr [r14 + r15], 2
-	pinsrw	xmm5, word ptr [r14 + rsi], 3
-	pinsrw	xmm5, word ptr [r14 + rdx], 4
-	pinsrw	xmm5, word ptr [r14 + r13], 5
-	pinsrw	xmm5, word ptr [r14 + rbx], 6
-	pinsrw	xmm0, word ptr [r14 + rcx + 2], 1
-	pinsrw	xmm0, word ptr [r14 + r15 + 2], 2
-	pinsrw	xmm0, word ptr [r14 + rsi + 2], 3
-	pinsrw	xmm0, word ptr [r14 + rdx + 2], 4
-	pinsrw	xmm0, word ptr [r14 + r13 + 2], 5
-	pinsrw	xmm0, word ptr [r14 + rbx + 2], 6
-	or	r9, 448
-	pinsrw	xmm0, word ptr [r14 + r9 + 2], 7
-	movd	xmm2, eax
-	movzx	eax, word ptr [r14 + rdi + 22]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pcmpeqw	xmm0, xmm11
-	pinsrw	xmm1, word ptr [r14 + rcx + 4], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 4], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 4], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 4], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 4], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 4], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 4], 7
-	packsswb	xmm0, xmm0
-	pcmpeqw	xmm1, xmm11
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_8] # xmm14 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm3, xmm14
-	pblendvb	xmm3, xmm9, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_9] # xmm15 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm15
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm1, r8d
-	movzx	r11d, word ptr [r14 + rdi + 24]
-	pinsrw	xmm5, word ptr [r14 + r9], 7
-	pcmpeqw	xmm5, xmm11
-	pcmpeqd	xmm0, xmm0
-	pxor	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pinsrw	xmm7, word ptr [r14 + rcx + 6], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 6], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 6], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 6], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 6], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 6], 6
-	pinsrw	xmm7, word ptr [r14 + r9 + 6], 7
-	pcmpeqw	xmm7, xmm11
-	packsswb	xmm7, xmm7
-	pinsrw	xmm8, word ptr [r14 + rcx + 8], 1
-	pinsrw	xmm8, word ptr [r14 + r15 + 8], 2
-	pinsrw	xmm8, word ptr [r14 + rsi + 8], 3
-	pinsrw	xmm8, word ptr [r14 + rdx + 8], 4
-	pinsrw	xmm8, word ptr [r14 + r13 + 8], 5
-	pinsrw	xmm8, word ptr [r14 + rbx + 8], 6
-	pinsrw	xmm8, word ptr [r14 + r9 + 8], 7
-	psubb	xmm3, xmm5
-	movdqa	xmm12, xmmword ptr [rip + .LCPI5_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm7
-	pblendvb	xmm12, xmm9, xmm0
-	movd	xmm7, r10d
-	movzx	r8d, word ptr [r14 + rdi + 26]
-	pcmpeqw	xmm8, xmm11
-	packsswb	xmm8, xmm8
-	por	xmm12, xmm6
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm8
-	pblendvb	xmm13, xmm9, xmm0
-	movd	xmm6, r12d
-	movzx	r12d, word ptr [r14 + rdi + 28]
-	pinsrw	xmm4, word ptr [r14 + rcx + 10], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 10], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 10], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 10], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 10], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 10], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 10], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	pinsrw	xmm2, word ptr [r14 + rcx + 12], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 12], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 12], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 12], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 12], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 12], 6
-	por	xmm12, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm9, xmm0
-	movd	xmm4, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm4 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [r14 + rdi + 30]
-	pinsrw	xmm2, word ptr [r14 + r9 + 12], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm13
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm9, xmm0
-	movd	xmm3, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [r14 + rdi + 32]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pinsrw	xmm1, word ptr [r14 + rcx + 14], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 14], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 14], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 14], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 14], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 14], 6
-	por	xmm13, xmm5
-	movd	xmm2, r11d
-	movzx	eax, word ptr [r14 + rdi + 34]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm1, word ptr [r14 + r9 + 14], 7
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm6, word ptr [r14 + rcx + 18], 1
-	pinsrw	xmm6, word ptr [r14 + r15 + 18], 2
-	pinsrw	xmm6, word ptr [r14 + rsi + 18], 3
-	pinsrw	xmm6, word ptr [r14 + rdx + 18], 4
-	pinsrw	xmm6, word ptr [r14 + r13 + 18], 5
-	pinsrw	xmm6, word ptr [r14 + rbx + 18], 6
-	packsswb	xmm1, xmm1
-	pinsrw	xmm6, word ptr [r14 + r9 + 18], 7
-	pcmpeqw	xmm6, xmm11
-	packsswb	xmm6, xmm6
-	por	xmm13, xmm12
-	movdqa	xmm10, xmmword ptr [rip + .LCPI5_14] # xmm10 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm12, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm12, xmm9, xmm0
-	movdqa	xmm8, xmm14
-	movdqa	xmm0, xmm6
-	pblendvb	xmm8, xmm9, xmm0
-	movd	xmm1, r8d
-	movzx	r11d, word ptr [r14 + rdi + 36]
-	pinsrw	xmm7, word ptr [r14 + rcx + 16], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 16], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 16], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 16], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 16], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 16], 6
-	pinsrw	xmm4, word ptr [r14 + rcx + 20], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 20], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 20], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 20], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 20], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 20], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 20], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm12, xmm13
-	movdqa	xmm0, xmm4
-	pblendvb	xmm15, xmm9, xmm0
-	movd	xmm4, r12d
-	movzx	r12d, word ptr [r14 + rdi + 38]
-	pinsrw	xmm7, word ptr [r14 + r9 + 16], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI5_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm3, word ptr [r14 + rcx + 22], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 22], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 22], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 22], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 22], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 22], 6
-	pinsrw	xmm3, word ptr [r14 + r9 + 22], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [r14 + rcx + 24], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 24], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 24], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 24], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 24], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 24], 6
-	pinsrw	xmm2, word ptr [r14 + r9 + 24], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_10] # xmm14 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm14, xmm9, xmm0
-	movd	xmm3, r10d
-	movzx	r8d, word ptr [r14 + rdi + 40]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm14, xmm15
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm9, xmm0
-	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [r14 + rdi + 42]
-	pinsrw	xmm1, word ptr [r14 + rcx + 26], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 26], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 26], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 26], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 26], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 26], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 26], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm4, word ptr [r14 + rcx + 28], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 28], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 28], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 28], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 28], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 28], 6
-	por	xmm14, xmm8
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_12] # xmm15 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm5, xmm15
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm9, xmm0
-	movd	xmm2, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [r14 + rdi + 44]
-	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
-	pinsrw	xmm4, word ptr [r14 + r9 + 28], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm5, xmm13
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm4, r11d
-	movzx	r11d, word ptr [r14 + rdi + 46]
-	pinsrw	xmm3, word ptr [r14 + rcx + 30], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 30], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 30], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 30], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 30], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 30], 6
-	por	xmm6, xmm5
-	movd	xmm1, r12d
-	movzx	eax, word ptr [r14 + rdi + 48]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm3, word ptr [r14 + r9 + 30], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm2, word ptr [r14 + rcx + 34], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 34], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 34], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 34], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 34], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 34], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [r14 + r9 + 34], 7
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm6, xmm14
-	movdqa	xmm13, xmm10
-	movdqa	xmm0, xmm3
-	pblendvb	xmm13, xmm9, xmm0
-	movdqa	xmm8, xmmword ptr [rip + .LCPI5_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm8, xmm9, xmm0
-	movd	xmm2, r8d
-	movzx	r12d, word ptr [r14 + rdi + 50]
-	pinsrw	xmm7, word ptr [r14 + rcx + 32], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 32], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 32], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 32], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 32], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 32], 6
-	pinsrw	xmm4, word ptr [r14 + rcx + 36], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 36], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 36], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 36], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 36], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 36], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 36], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm13, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm3, r10d
-	movzx	r10d, word ptr [r14 + rdi + 52]
-	pinsrw	xmm7, word ptr [r14 + r9 + 32], 7
-	pcmpeqw	xmm7, xmm11
-	pcmpeqd	xmm14, xmm14
-	pxor	xmm7, xmm14
-	packsswb	xmm7, xmm7
-	pinsrw	xmm1, word ptr [r14 + rcx + 38], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 38], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 38], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 38], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 38], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 38], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 38], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm2, word ptr [r14 + rcx + 40], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 40], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 40], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 40], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 40], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 40], 6
-	pinsrw	xmm2, word ptr [r14 + r9 + 40], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_10] # xmm5 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm9, xmm0
-	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r8d, word ptr [r14 + rdi + 54]
-	pcmpeqw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_11] # xmm6 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm4, r11d
-	movzx	eax, word ptr [r14 + rdi + 56]
-	pinsrw	xmm3, word ptr [r14 + rcx + 42], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 42], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 42], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 42], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 42], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 42], 6
-	pinsrw	xmm3, word ptr [r14 + r9 + 42], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [r14 + rcx + 44], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 44], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 44], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 44], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 44], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 44], 6
-	por	xmm5, xmm8
-	movdqa	xmm2, xmm15
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm9, xmm0
-	movd	xmm7, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r11d, word ptr [r14 + rdi + 58]
-	pinsrw	xmm1, word ptr [r14 + r9 + 44], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm2, xmm6
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_13] # xmm15 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm15
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm1, r12d
-	movzx	r12d, word ptr [r14 + rdi + 60]
-	por	xmm6, xmm2
-	movd	xmm2, r10d
-	pinsrw	xmm4, word ptr [r14 + rcx + 46], 1
-	pinsrw	xmm4, word ptr [r14 + r15 + 46], 2
-	pinsrw	xmm4, word ptr [r14 + rsi + 46], 3
-	pinsrw	xmm4, word ptr [r14 + rdx + 46], 4
-	pinsrw	xmm4, word ptr [r14 + r13 + 46], 5
-	pinsrw	xmm4, word ptr [r14 + rbx + 46], 6
-	pinsrw	xmm4, word ptr [r14 + r9 + 46], 7
-	pcmpeqw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm6, xmm5
-	movdqa	xmm8, xmm10
-	movdqa	xmm0, xmm4
-	pblendvb	xmm8, xmm9, xmm0
-	movd	xmm3, r8d
-	pinsrw	xmm1, word ptr [r14 + rcx + 50], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 50], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 50], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 50], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 50], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 50], 6
-	pinsrw	xmm1, word ptr [r14 + r9 + 50], 7
-	pcmpeqw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm8, xmm6
-	movdqa	xmm4, xmmword ptr [rip + .LCPI5_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm9, xmm0
-	movd	xmm1, eax
-	pinsrw	xmm7, word ptr [r14 + rcx + 48], 1
-	pinsrw	xmm7, word ptr [r14 + r15 + 48], 2
-	pinsrw	xmm7, word ptr [r14 + rsi + 48], 3
-	pinsrw	xmm7, word ptr [r14 + rdx + 48], 4
-	pinsrw	xmm7, word ptr [r14 + r13 + 48], 5
-	pinsrw	xmm7, word ptr [r14 + rbx + 48], 6
-	pinsrw	xmm7, word ptr [r14 + r9 + 48], 7
-	pcmpeqw	xmm7, xmm11
-	pxor	xmm7, xmm14
-	pinsrw	xmm2, word ptr [r14 + rcx + 52], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 52], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 52], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 52], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 52], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 52], 6
-	packsswb	xmm7, xmm7
-	pinsrw	xmm2, word ptr [r14 + r9 + 52], 7
-	pcmpeqw	xmm2, xmm11
-	pinsrw	xmm3, word ptr [r14 + rcx + 54], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 54], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 54], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 54], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 54], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 54], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [r14 + r9 + 54], 7
-	pcmpeqw	xmm3, xmm11
-	pinsrw	xmm1, word ptr [r14 + rcx + 56], 1
-	pinsrw	xmm1, word ptr [r14 + r15 + 56], 2
-	pinsrw	xmm1, word ptr [r14 + rsi + 56], 3
-	pinsrw	xmm1, word ptr [r14 + rdx + 56], 4
-	pinsrw	xmm1, word ptr [r14 + r13 + 56], 5
-	pinsrw	xmm1, word ptr [r14 + rbx + 56], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [r14 + r9 + 56], 7
-	psubb	xmm4, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI5_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm9, xmm0
-	movdqa	xmm6, xmmword ptr [rip + .LCPI5_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm6, xmm9, xmm0
-	movd	xmm2, r11d
-	pcmpeqw	xmm1, xmm11
-	pinsrw	xmm2, word ptr [r14 + rcx + 58], 1
-	pinsrw	xmm2, word ptr [r14 + r15 + 58], 2
-	pinsrw	xmm2, word ptr [r14 + rsi + 58], 3
-	pinsrw	xmm2, word ptr [r14 + rdx + 58], 4
-	pinsrw	xmm2, word ptr [r14 + r13 + 58], 5
-	pinsrw	xmm2, word ptr [r14 + rbx + 58], 6
-	pinsrw	xmm2, word ptr [r14 + r9 + 58], 7
-	packsswb	xmm1, xmm1
-	pcmpeqw	xmm2, xmm11
-	por	xmm6, xmm5
-	movd	xmm3, r12d
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	pinsrw	xmm3, word ptr [r14 + rcx + 60], 1
-	pinsrw	xmm3, word ptr [r14 + r15 + 60], 2
-	pinsrw	xmm3, word ptr [r14 + rsi + 60], 3
-	pinsrw	xmm3, word ptr [r14 + rdx + 60], 4
-	pinsrw	xmm3, word ptr [r14 + r13 + 60], 5
-	pinsrw	xmm3, word ptr [r14 + rbx + 60], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [r14 + r9 + 60], 7
-	pcmpeqw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	por	xmm6, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI5_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm9, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI5_12] # xmm1 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm9, xmm0
-	movdqa	xmm2, xmm15
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm9, xmm0
-	por	xmm1, xmm4
-	movzx	eax, word ptr [r14 + rdi + 62]
-	por	xmm2, xmm1
-	movd	xmm0, eax
-	pinsrw	xmm0, word ptr [r14 + rcx + 62], 1
-	pinsrw	xmm0, word ptr [r14 + r15 + 62], 2
-	pinsrw	xmm0, word ptr [r14 + rsi + 62], 3
-	pinsrw	xmm0, word ptr [r14 + rdx + 62], 4
-	pinsrw	xmm0, word ptr [r14 + r13 + 62], 5
-	pinsrw	xmm0, word ptr [r14 + rbx + 62], 6
-	pinsrw	xmm0, word ptr [r14 + r9 + 62], 7
-	pcmpeqw	xmm0, xmm11
-	packsswb	xmm0, xmm0
-	por	xmm2, xmm6
-	pblendvb	xmm10, xmm9, xmm0
-	por	xmm10, xmm2
-	movdqa	xmm0, xmm12
-	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
-	movdqa	xmm2, xmm8
-	punpcklqdq	xmm2, xmm10             # xmm2 = xmm2[0],xmm10[0]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI5_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm2, xmm3
-	pshufb	xmm0, xmm3
-	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
-	punpcklbw	xmm8, xmm10             # xmm8 = xmm8[0],xmm10[0],xmm8[1],xmm10[1],xmm8[2],xmm10[2],xmm8[3],xmm10[3],xmm8[4],xmm10[4],xmm8[5],xmm10[5],xmm8[6],xmm10[6],xmm8[7],xmm10[7]
-	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
-	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	movdqu	xmmword ptr [r8 + 4*rcx], xmm12
-	mov	qword ptr [rsp + 8], r8         # 8-byte Spill
-	movdqu	xmmword ptr [r8 + 4*rcx + 16], xmm0
-	add	rcx, 8
-	mov	rdi, rcx
-	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	jne	.LBB5_133
-# %bb.134:
-	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
-	mov	r11d, dword ptr [rsp + 16]      # 4-byte Reload
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	jne	.LBB5_135
-	jmp	.LBB5_138
-.LBB5_180:
-	mov	r8, r10
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, r14
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	lea	r11, [rax + 4*r8]
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	add	r14, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI5_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	movdqa	xmm8, xmmword ptr [rip + .LCPI5_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI5_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI5_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI5_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI5_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI5_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm9, xmmword ptr [rip + .LCPI5_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	.p2align	4, 0x90
-.LBB5_181:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm6, dword ptr [r14 - 508]     # xmm6 = mem[0],zero,zero,zero
-	movss	xmm7, dword ptr [r14 - 504]     # xmm7 = mem[0],zero,zero,zero
-	movss	xmm5, dword ptr [r14 - 500]     # xmm5 = mem[0],zero,zero,zero
-	movss	xmm4, dword ptr [r14 - 496]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [r14 - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [r14 - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [r14 - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	insertps	xmm7, dword ptr [r14 - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	insertps	xmm5, dword ptr [r14 - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [r14 - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [r14 - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
-	insertps	xmm4, dword ptr [r14 - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [r14 - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [r14 - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	movdqa	xmm2, xmm7
-	pand	xmm2, xmm15
-	psubb	xmm2, xmm7
-	movss	xmm7, dword ptr [r14 - 492]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [r14 - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [r14 - 488]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [r14 - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [r14 - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [r14 - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm8
-	por	xmm5, xmm2
-	movss	xmm3, dword ptr [r14 - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [r14 - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [r14 - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [r14 - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	cmpneqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 3
-	pand	xmm4, xmm10
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 4
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movss	xmm4, dword ptr [r14 - 480]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [r14 - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [r14 - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [r14 - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm5, dword ptr [r14 - 476]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [r14 - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [r14 - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [r14 - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm13
-	por	xmm3, xmm6
-	movss	xmm2, dword ptr [r14 - 472]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [r14 - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packsswb	xmm5, xmm5
-	cmpneqps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm3
-	movss	xmm3, dword ptr [r14 - 468]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [r14 - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [r14 - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm5, xmm15
-	insertps	xmm3, dword ptr [r14 - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm4, xmm7
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm7, dword ptr [r14 - 464]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [r14 - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm5
-	movss	xmm5, dword ptr [r14 - 460]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [r14 - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [r14 - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [r14 - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [r14 - 456]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [r14 - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [r14 - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [r14 - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 3
-	pand	xmm7, xmm10
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm7
-	movss	xmm2, dword ptr [r14 - 452]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [r14 - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm3
-	movss	xmm7, dword ptr [r14 - 448]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [r14 - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [r14 - 444]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [r14 - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [r14 - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [r14 - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	psllw	xmm7, 7
-	pand	xmm7, xmm14
-	por	xmm7, xmm2
-	movss	xmm2, dword ptr [r14 - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [r14 - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm3, dword ptr [r14 - 436]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [r14 - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [r14 - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm6, xmm15
-	insertps	xmm3, dword ptr [r14 - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm7, xmm2
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm2
-	movss	xmm5, dword ptr [r14 - 432]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [r14 - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [r14 - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [r14 - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm7, xmm6
-	movss	xmm6, dword ptr [r14 - 428]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [r14 - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [r14 - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [r14 - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm7
-	movss	xmm7, dword ptr [r14 - 424]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [r14 - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm5
-	movss	xmm2, dword ptr [r14 - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [r14 - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm5, dword ptr [r14 - 416]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [r14 - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [r14 - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [r14 - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm7, dword ptr [r14 - 412]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [r14 - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	cmpneqps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	psllw	xmm5, 7
-	pand	xmm5, xmm14
-	por	xmm5, xmm2
-	movss	xmm2, dword ptr [r14 - 408]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	pand	xmm7, xmm15
-	insertps	xmm2, dword ptr [r14 - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm6
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm3, dword ptr [r14 - 404]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [r14 - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [r14 - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [r14 - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm6, xmm7
-	movss	xmm2, dword ptr [r14 - 400]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [r14 - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [r14 - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [r14 - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [r14 - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [r14 - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	cmpneqps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm2
-	movss	xmm7, dword ptr [r14 - 392]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [r14 - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [r14 - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [r14 - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm2, dword ptr [r14 - 388]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [r14 - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [r14 - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [r14 - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
-	cmpneqps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpneqps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm3, dword ptr [r14 - 384]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [r14 - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [r14 - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [r14], 48       # xmm3 = xmm3[0,1,2],mem[0]
-	cmpneqps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm2
-	por	xmm3, xmm6
-	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
-	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
-	pshufb	xmm4, xmm9
-	movdqu	xmmword ptr [rax + 4*rcx], xmm4
-	add	rcx, 4
-	add	r14, 512
-	cmp	r8, rcx
-	jne	.LBB5_181
-# %bb.182:
-	cmp	r10, r8
-	jne	.LBB5_183
-	jmp	.LBB5_186
-.Lfunc_end5:
-	.size	comparison_not_equal_scalar_arr_sse4, .Lfunc_end5-comparison_not_equal_scalar_arr_sse4
-                                        # -- End function
-	.globl	comparison_greater_arr_arr_sse4 # -- Begin function comparison_greater_arr_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_greater_arr_arr_sse4,@function
-comparison_greater_arr_arr_sse4:        # @comparison_greater_arr_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB6_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB6_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB6_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB6_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB6_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx]
-	add	rdx, 4
-	cmp	ecx, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_20
-# %bb.21:
-	add	r14, 1
-.LBB6_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	mov	eax, dword ptr [rsi + 8]
-	seta	r13b
-	cmp	eax, dword ptr [rdx + 8]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	mov	eax, dword ptr [rsi + 16]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	mov	eax, dword ptr [rsi + 24]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 24]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	mov	eax, dword ptr [rsi + 32]
-	seta	r15b
-	cmp	eax, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	mov	eax, dword ptr [rsi + 40]
-	seta	r8b
-	cmp	eax, dword ptr [rdx + 40]
-	seta	bl
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	mov	eax, dword ptr [rsi + 48]
-	seta	r9b
-	cmp	eax, dword ptr [rdx + 48]
-	seta	r12b
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	mov	eax, dword ptr [rsi + 56]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	mov	r11d, dword ptr [rsi + 64]
-	seta	r10b
-	mov	ecx, dword ptr [rsi + 68]
-	mov	eax, dword ptr [rsi + 72]
-	cmp	r11d, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	seta	r14b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 76]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 76]
-	mov	eax, dword ptr [rsi + 80]
-	mov	ecx, dword ptr [rsi + 84]
-	seta	r11b
-	cmp	eax, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 92]
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	seta	dil
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 104]
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 116]
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	seta	al
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r13b
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, cl
-	shl	bl, 2
-	or	bl, r8b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, bl
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r12b, 4
-	or	r12b, r9b
-	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r12b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	r10b, 7
-	or	r10b, r8b
-	or	r15b, cl
-	or	r10b, bl
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	shl	r11b, 3
-	or	r11b, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r11b
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	mov	byte ptr [r14], r15b
-	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	dil, 7
-	or	dil, r8b
-	mov	byte ptr [r14 + 1], r10b
-	or	dil, cl
-	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r14 + 2], dil
-	mov	byte ptr [r14 + 3], al
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_28:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rdx + 4*rcx]
-	cmp	edi, dword ptr [rsi + 4*rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_28
-	jmp	.LBB6_123
-.LBB6_29:
-	cmp	edi, 8
-	jle	.LBB6_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB6_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB6_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB6_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_48:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	ucomisd	xmm0, qword ptr [rdx]
-	seta	r10b
-	add	rdx, 8
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_48
-# %bb.49:
-	add	r14, 1
-.LBB6_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 8]       # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	seta	cl
-	movsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	seta	al
-	movsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	seta	r15b
-	movsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	seta	dil
-	movsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	seta	r10b
-	movsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	seta	r11b
-	movsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	seta	r14b
-	movsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	seta	bl
-	movsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	seta	r12b
-	movsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	seta	r13b
-	movsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	seta	r9b
-	movsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	movsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	seta	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB6_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB6_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_56:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	seta	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_56
-	jmp	.LBB6_123
-.LBB6_2:
-	cmp	edi, 2
-	je	.LBB6_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB6_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_6
-# %bb.7:
-	add	r14, 1
-.LBB6_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setg	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setg	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setg	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setg	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setg	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setg	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setg	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setg	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setg	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setg	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setg	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_14
-	jmp	.LBB6_123
-.LBB6_30:
-	cmp	edi, 7
-	je	.LBB6_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB6_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx]
-	add	rdx, 8
-	cmp	rcx, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_34
-# %bb.35:
-	add	r14, 1
-.LBB6_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	mov	rax, qword ptr [rsi + 16]
-	seta	r13b
-	cmp	rax, qword ptr [rdx + 16]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	mov	rax, qword ptr [rsi + 32]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	mov	rax, qword ptr [rsi + 48]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 48]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	mov	rax, qword ptr [rsi + 64]
-	seta	r15b
-	cmp	rax, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	mov	rax, qword ptr [rsi + 80]
-	seta	r8b
-	cmp	rax, qword ptr [rdx + 80]
-	seta	bl
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	mov	rax, qword ptr [rsi + 96]
-	seta	r9b
-	cmp	rax, qword ptr [rdx + 96]
-	seta	r12b
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	mov	rax, qword ptr [rsi + 112]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	mov	r11, qword ptr [rsi + 128]
-	seta	r10b
-	mov	rcx, qword ptr [rsi + 136]
-	mov	rax, qword ptr [rsi + 144]
-	cmp	r11, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	seta	r14b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 152]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 152]
-	mov	rax, qword ptr [rsi + 160]
-	mov	rcx, qword ptr [rsi + 168]
-	seta	r11b
-	cmp	rax, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 184]
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	seta	dil
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 208]
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 232]
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	seta	al
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r13b
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, cl
-	shl	bl, 2
-	or	bl, r8b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, bl
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r12b, 4
-	or	r12b, r9b
-	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r12b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	r10b, 7
-	or	r10b, r8b
-	or	r15b, cl
-	or	r10b, bl
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	shl	r11b, 3
-	or	r11b, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r11b
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	mov	byte ptr [r14], r15b
-	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	dil, 7
-	or	dil, r8b
-	mov	byte ptr [r14 + 1], r10b
-	or	dil, cl
-	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r14 + 2], dil
-	mov	byte ptr [r14 + 3], al
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_42:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rdx + 8*rcx]
-	cmp	rdi, qword ptr [rsi + 8*rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_42
-	jmp	.LBB6_123
-.LBB6_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx]
-	add	rdx, 2
-	cmp	cx, word ptr [rsi]
-	lea	rsi, [rsi + 2]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_70
-# %bb.71:
-	add	r14, 1
-.LBB6_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	movzx	eax, word ptr [rsi + 4]
-	seta	r13b
-	cmp	ax, word ptr [rdx + 4]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	movzx	eax, word ptr [rsi + 8]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 8]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	movzx	eax, word ptr [rsi + 12]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 12]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	movzx	eax, word ptr [rsi + 16]
-	seta	r15b
-	cmp	ax, word ptr [rdx + 16]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	movzx	eax, word ptr [rsi + 20]
-	seta	r8b
-	cmp	ax, word ptr [rdx + 20]
-	seta	bl
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	movzx	eax, word ptr [rsi + 24]
-	seta	r9b
-	cmp	ax, word ptr [rdx + 24]
-	seta	r12b
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	movzx	eax, word ptr [rsi + 28]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 28]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	movzx	r11d, word ptr [rsi + 32]
-	seta	r10b
-	movzx	ecx, word ptr [rsi + 34]
-	movzx	eax, word ptr [rsi + 36]
-	cmp	r11w, word ptr [rdx + 32]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	seta	r14b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 38]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 38]
-	movzx	eax, word ptr [rsi + 40]
-	movzx	ecx, word ptr [rsi + 42]
-	seta	r11b
-	cmp	ax, word ptr [rdx + 40]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 46]
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	seta	dil
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 52]
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 58]
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	seta	al
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r13b
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, cl
-	shl	bl, 2
-	or	bl, r8b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, bl
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r12b, 4
-	or	r12b, r9b
-	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, r12b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	r10b, 7
-	or	r10b, r8b
-	or	r15b, cl
-	or	r10b, bl
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	shl	r11b, 3
-	or	r11b, cl
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r11b
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	mov	byte ptr [r14], r15b
-	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	dil, 7
-	or	dil, r8b
-	mov	byte ptr [r14 + 1], r10b
-	or	dil, cl
-	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r14 + 2], dil
-	mov	byte ptr [r14 + 3], al
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_78:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rdx + 2*rcx]
-	cmp	di, word ptr [rsi + 2*rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_78
-	jmp	.LBB6_123
-.LBB6_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_81
-# %bb.82:
-	add	r14, 1
-.LBB6_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setg	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setg	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setg	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setg	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setg	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setg	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setg	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setg	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setg	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setg	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB6_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB6_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_89
-	jmp	.LBB6_123
-.LBB6_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_103
-# %bb.104:
-	add	r14, 1
-.LBB6_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setg	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setg	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setg	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setg	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setg	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setg	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setg	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setg	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setg	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setg	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB6_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB6_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_111
-	jmp	.LBB6_123
-.LBB6_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_114:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	ucomiss	xmm0, dword ptr [rdx]
-	seta	r10b
-	add	rdx, 4
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_114
-# %bb.115:
-	add	r14, 1
-.LBB6_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 4]       # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 4]
-	seta	cl
-	movss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 8]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 12]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 20]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 24]
-	seta	al
-	movss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 28]
-	seta	r15b
-	movss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 36]
-	seta	dil
-	movss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 40]
-	seta	r10b
-	movss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 44]
-	seta	r11b
-	movss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 48]
-	seta	r14b
-	movss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 52]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 60]
-	seta	bl
-	movss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 68]
-	seta	r12b
-	movss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 72]
-	seta	r13b
-	movss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 76]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 84]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 92]
-	seta	r9b
-	movss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 96]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 104]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 108]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 116]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 120]
-	movss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	ucomiss	xmm0, dword ptr [rdx + 124]
-	seta	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	al, 6
-	shl	r15b, 7
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB6_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB6_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_122:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	seta	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_122
-	jmp	.LBB6_123
-.LBB6_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx]
-	add	rdx, 1
-	cmp	cl, byte ptr [rsi]
-	lea	rsi, [rsi + 1]
-	sbb	r10d, r10d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_59
-# %bb.60:
-	add	r14, 1
-.LBB6_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	seta	r13b
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	movzx	eax, byte ptr [rsi + 3]
-	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 3]
-	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	movzx	eax, byte ptr [rsi + 5]
-	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 5]
-	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	movzx	eax, byte ptr [rsi + 7]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 7]
-	seta	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	movzx	eax, byte ptr [rsi + 9]
-	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 9]
-	seta	cl
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	movzx	eax, byte ptr [rsi + 11]
-	seta	r9b
-	cmp	al, byte ptr [rdx + 11]
-	seta	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	movzx	eax, byte ptr [rsi + 13]
-	seta	r10b
-	cmp	al, byte ptr [rdx + 13]
-	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	movzx	eax, byte ptr [rsi + 15]
-	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 15]
-	seta	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	movzx	eax, byte ptr [rsi + 17]
-	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 17]
-	seta	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	movzx	eax, byte ptr [rsi + 19]
-	seta	r14b
-	cmp	al, byte ptr [rdx + 19]
-	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	movzx	eax, byte ptr [rsi + 21]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 21]
-	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	movzx	eax, byte ptr [rsi + 23]
-	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 23]
-	seta	r8b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	movzx	eax, byte ptr [rsi + 25]
-	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 25]
-	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	movzx	eax, byte ptr [rsi + 27]
-	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 27]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	movzx	eax, byte ptr [rsi + 29]
-	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	al, byte ptr [rdx + 29]
-	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	seta	dil
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 4]        # 1-byte Folded Reload
-	mov	eax, r13d
-	movzx	r13d, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 20]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 7]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 12]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r12b
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 18]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB6_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB6_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_67:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rdx + rcx]
-	cmp	bl, byte ptr [rsi + rcx]
-	sbb	edi, edi
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_67
-	jmp	.LBB6_123
-.LBB6_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB6_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB6_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setg	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB6_92
-# %bb.93:
-	add	r14, 1
-.LBB6_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB6_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB6_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setg	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setg	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setg	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setg	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setg	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setg	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setg	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setg	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setg	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setg	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB6_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB6_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB6_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB6_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setg	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB6_100
-.LBB6_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end6:
-	.size	comparison_greater_arr_arr_sse4, .Lfunc_end6-comparison_greater_arr_arr_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_greater_arr_scalar_sse4
-.LCPI7_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI7_1:
-	.zero	16,252
-.LCPI7_2:
-	.zero	16,248
-.LCPI7_3:
-	.zero	16,240
-.LCPI7_4:
-	.zero	16,224
-.LCPI7_5:
-	.zero	16,192
-.LCPI7_6:
-	.zero	16,128
-.LCPI7_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI7_8:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI7_9:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI7_10:
-	.zero	16,1
-.LCPI7_11:
-	.zero	16,4
-.LCPI7_12:
-	.zero	16,8
-.LCPI7_13:
-	.zero	16,16
-.LCPI7_14:
-	.zero	16,32
-.LCPI7_15:
-	.zero	16,64
-.LCPI7_16:
-	.zero	16,255
-	.text
-	.globl	comparison_greater_arr_scalar_sse4
-	.p2align	4, 0x90
-	.type	comparison_greater_arr_scalar_sse4,@function
-comparison_greater_arr_scalar_sse4:     # @comparison_greater_arr_scalar_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 336
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r12, rcx
-	cmp	edi, 6
-	jg	.LBB7_26
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB7_2
-# %bb.10:
-	cmp	edi, 4
-	je	.LBB7_98
-# %bb.11:
-	cmp	edi, 5
-	je	.LBB7_113
-# %bb.12:
-	cmp	edi, 6
-	jne	.LBB7_200
-# %bb.13:
-	mov	r13d, dword ptr [rdx]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_17
-# %bb.14:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_15:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sbb	edx, edx
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	mov	r9, r12
-	movzx	r8d, byte ptr [r12 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r12 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_15
-# %bb.16:
-	add	r12, 1
-.LBB7_17:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_21
-# %bb.18:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_19:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	seta	dil
-	cmp	dword ptr [rsi + 8], r13d
-	seta	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	seta	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	seta	al
-	cmp	dword ptr [rsi + 28], r13d
-	seta	bl
-	cmp	dword ptr [rsi + 32], r13d
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	seta	dl
-	cmp	dword ptr [rsi + 40], r13d
-	seta	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	seta	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	seta	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	seta	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	seta	cl
-	cmp	dword ptr [rsi + 64], r13d
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	seta	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	seta	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r12], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r12 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r12 + 2], r15b
-	mov	byte ptr [r12 + 3], r8b
-	add	rsi, 128
-	add	r12, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_19
-# %bb.20:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB7_21:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.22:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_135
-# %bb.23:
-	xor	r11d, r11d
-	jmp	.LBB7_24
-.LBB7_26:
-	cmp	edi, 8
-	jle	.LBB7_27
-# %bb.42:
-	cmp	edi, 9
-	je	.LBB7_155
-# %bb.43:
-	cmp	edi, 11
-	je	.LBB7_170
-# %bb.44:
-	cmp	edi, 12
-	jne	.LBB7_200
-# %bb.45:
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB7_49
-# %bb.46:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_47:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sbb	edx, edx
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	mov	r14, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_47
-# %bb.48:
-	add	r12, 1
-.LBB7_49:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_53
-# %bb.50:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_51:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	ucomisd	xmm0, qword ptr [rsi]
-	setb	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	setb	r9b
-	ucomisd	xmm0, qword ptr [rsi + 16]
-	setb	r14b
-	ucomisd	xmm0, qword ptr [rsi + 24]
-	setb	r13b
-	ucomisd	xmm0, qword ptr [rsi + 32]
-	setb	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 40]
-	setb	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 48]
-	setb	al
-	ucomisd	xmm0, qword ptr [rsi + 56]
-	setb	bl
-	ucomisd	xmm0, qword ptr [rsi + 64]
-	setb	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 72]
-	setb	dl
-	ucomisd	xmm0, qword ptr [rsi + 80]
-	setb	dil
-	ucomisd	xmm0, qword ptr [rsi + 88]
-	setb	r10b
-	ucomisd	xmm0, qword ptr [rsi + 96]
-	setb	r11b
-	ucomisd	xmm0, qword ptr [rsi + 104]
-	setb	r12b
-	ucomisd	xmm0, qword ptr [rsi + 112]
-	setb	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 120]
-	setb	cl
-	ucomisd	xmm0, qword ptr [rsi + 128]
-	setb	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 136]
-	setb	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 144]
-	setb	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 152]
-	setb	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 160]
-	setb	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 168]
-	setb	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 176]
-	setb	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 184]
-	setb	r15b
-	ucomisd	xmm0, qword ptr [rsi + 192]
-	setb	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 200]
-	setb	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 208]
-	setb	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 216]
-	setb	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 224]
-	setb	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 232]
-	setb	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 240]
-	setb	byte ptr [rsp]                  # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 248]
-	setb	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [rax], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rax + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [rax + 2], r15b
-	mov	byte ptr [rax + 3], r8b
-	add	rsi, 256
-	add	rax, 4
-	mov	r12, rax
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB7_51
-# %bb.52:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-.LBB7_53:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.54:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_193
-# %bb.55:
-	xor	r11d, r11d
-	jmp	.LBB7_195
-.LBB7_2:
-	cmp	edi, 2
-	je	.LBB7_56
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB7_200
-# %bb.4:
-	mov	r14b, byte ptr [rdx]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_6:                                # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r14b
-	lea	rsi, [rsi + 1]
-	setg	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	mov	r15, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_6
-# %bb.7:
-	add	r12, 1
-.LBB7_8:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_9
-# %bb.80:
-	cmp	r10, 16
-	mov	byte ptr [rsp], r14b            # 1-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 288], r10      # 8-byte Spill
-	jb	.LBB7_81
-# %bb.82:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r12, rax
-	jae	.LBB7_84
-# %bb.83:
-	lea	rax, [r12 + 4*r10]
-	cmp	rsi, rax
-	jae	.LBB7_84
-.LBB7_81:
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 88], r12       # 8-byte Spill
-.LBB7_87:
-	sub	r10, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_88:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r14b
-	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r14b
-	setg	sil
-	cmp	byte ptr [rcx + 2], r14b
-	setg	r15b
-	cmp	byte ptr [rcx + 3], r14b
-	setg	r12b
-	cmp	byte ptr [rcx + 4], r14b
-	setg	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 5], r14b
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 6], r14b
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 7], r14b
-	setg	r9b
-	cmp	byte ptr [rcx + 8], r14b
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 9], r14b
-	setg	dl
-	cmp	byte ptr [rcx + 10], r14b
-	setg	dil
-	cmp	byte ptr [rcx + 11], r14b
-	setg	r10b
-	cmp	byte ptr [rcx + 12], r14b
-	setg	r14b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	setg	r13b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	setg	r8b
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	setg	r11b
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	setg	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	r14d, byte ptr [rsp]            # 1-byte Folded Reload
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 120]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 88], rdx       # 8-byte Spill
-	add	qword ptr [rsp + 240], -1       # 8-byte Folded Spill
-	jne	.LBB7_88
-# %bb.89:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	jmp	.LBB7_90
-.LBB7_27:
-	cmp	edi, 7
-	je	.LBB7_137
-# %bb.28:
-	cmp	edi, 8
-	jne	.LBB7_200
-# %bb.29:
-	mov	r13, qword ptr [rdx]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_33
-# %bb.30:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_31:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rsi]
-	lea	rsi, [rsi + 8]
-	sbb	edx, edx
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	mov	r9, r12
-	movzx	r8d, byte ptr [r12 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r12 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_31
-# %bb.32:
-	add	r12, 1
-.LBB7_33:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_37
-# %bb.34:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_35:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	seta	dil
-	cmp	qword ptr [rsi + 16], r13
-	seta	r14b
-	cmp	qword ptr [rsi + 24], r13
-	seta	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	seta	al
-	cmp	qword ptr [rsi + 56], r13
-	seta	bl
-	cmp	qword ptr [rsi + 64], r13
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	seta	dl
-	cmp	qword ptr [rsi + 80], r13
-	seta	r9b
-	cmp	qword ptr [rsi + 88], r13
-	seta	r10b
-	cmp	qword ptr [rsi + 96], r13
-	seta	r11b
-	cmp	qword ptr [rsi + 104], r13
-	seta	r12b
-	cmp	qword ptr [rsi + 112], r13
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	seta	cl
-	cmp	qword ptr [rsi + 128], r13
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	seta	r15b
-	cmp	qword ptr [rsi + 192], r13
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	seta	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r12], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r12 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r12 + 2], r15b
-	mov	byte ptr [r12 + 3], r8b
-	add	rsi, 256
-	add	r12, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_35
-# %bb.36:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB7_37:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.38:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_153
-# %bb.39:
-	xor	r11d, r11d
-	jmp	.LBB7_40
-.LBB7_56:
-	mov	al, byte ptr [rdx]
-	mov	byte ptr [rsp + 40], al         # 1-byte Spill
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_60
-# %bb.57:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_58:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	cmp	cl, byte ptr [rsi]
-	lea	rsi, [rsi + 1]
-	sbb	edx, edx
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	mov	r14, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_58
-# %bb.59:
-	add	r12, 1
-.LBB7_60:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_61
-# %bb.62:
-	cmp	r10, 16
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 264], r10      # 8-byte Spill
-	jb	.LBB7_63
-# %bb.64:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r12, rax
-	jae	.LBB7_66
-# %bb.65:
-	lea	rax, [r12 + 4*r10]
-	cmp	rsi, rax
-	jae	.LBB7_66
-.LBB7_63:
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	r14, rsi
-	mov	qword ptr [rsp + 72], r12       # 8-byte Spill
-.LBB7_69:
-	sub	r10, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_70:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, r14
-	movzx	r14d, byte ptr [rsp + 40]       # 1-byte Folded Reload
-	cmp	byte ptr [rcx], r14b
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 1], r14b
-	seta	sil
-	cmp	byte ptr [rcx + 2], r14b
-	seta	r11b
-	cmp	byte ptr [rcx + 3], r14b
-	seta	r15b
-	cmp	byte ptr [rcx + 4], r14b
-	seta	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 5], r14b
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 6], r14b
-	seta	al
-	cmp	byte ptr [rcx + 7], r14b
-	seta	r8b
-	cmp	byte ptr [rcx + 8], r14b
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 9], r14b
-	seta	dl
-	cmp	byte ptr [rcx + 10], r14b
-	seta	dil
-	cmp	byte ptr [rcx + 11], r14b
-	seta	r9b
-	cmp	byte ptr [rcx + 12], r14b
-	seta	r10b
-	cmp	byte ptr [rcx + 13], r14b
-	seta	r12b
-	cmp	byte ptr [rcx + 14], r14b
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 15], r14b
-	seta	bl
-	cmp	byte ptr [rcx + 16], r14b
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 17], r14b
-	seta	r13b
-	cmp	byte ptr [rcx + 18], r14b
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 19], r14b
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 20], r14b
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 21], r14b
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 22], r14b
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 23], r14b
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 24], r14b
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 25], r14b
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 26], r14b
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 27], r14b
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 28], r14b
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 29], r14b
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 30], r14b
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	byte ptr [rcx + 31], r14b
-	seta	r14b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r8b, 7
-	or	r8b, al
-	shl	r11b, 2
-	or	r11b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	shl	r15b, 3
-	or	r15b, r11b
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	edx, eax
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	r8b, al
-	or	bl, r12b
-	add	r13b, r13b
-	add	r13b, byte ptr [rsp + 104]      # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, r13b
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	mov	esi, eax
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	byte ptr [rax], r8b
-	movzx	edi, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dil, 6
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 7
-	or	dl, dil
-	mov	byte ptr [rax + 1], bl
-	or	dl, sil
-	movzx	ebx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	movzx	esi, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r14b, 7
-	or	r14b, sil
-	or	r14b, bl
-	mov	byte ptr [rax + 2], dl
-	mov	byte ptr [rax + 3], r14b
-	lea	r14, [rcx + 32]
-	add	rax, 4
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_70
-# %bb.71:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	jmp	.LBB7_72
-.LBB7_137:
-	mov	r13d, dword ptr [rdx]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_141
-# %bb.138:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_139:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setg	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	mov	r9, r12
-	movzx	r8d, byte ptr [r12 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r12 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_139
-# %bb.140:
-	add	r12, 1
-.LBB7_141:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_145
-# %bb.142:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_143:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setg	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setg	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setg	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setg	al
-	cmp	dword ptr [rsi + 28], r13d
-	setg	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setg	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setg	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setg	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setg	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setg	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setg	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setg	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setg	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setg	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r12], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r12 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r12 + 2], r15b
-	mov	byte ptr [r12 + 3], r8b
-	add	rsi, 128
-	add	r12, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_143
-# %bb.144:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB7_145:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.146:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_151
-# %bb.147:
-	xor	r11d, r11d
-	jmp	.LBB7_148
-.LBB7_98:
-	movzx	r13d, word ptr [rdx]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_102
-# %bb.99:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_100:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rsi]
-	lea	rsi, [rsi + 2]
-	sbb	r9d, r9d
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	mov	rdx, r12
-	movzx	r8d, byte ptr [r12 + rbx]
-	xor	r9b, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r9b
-	xor	dil, r8b
-	mov	byte ptr [r12 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_100
-# %bb.101:
-	add	r12, 1
-.LBB7_102:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_106
-# %bb.103:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_104:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	cmp	word ptr [rsi], r13w
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	seta	dil
-	cmp	word ptr [rsi + 4], r13w
-	seta	r14b
-	cmp	word ptr [rsi + 6], r13w
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	seta	al
-	cmp	word ptr [rsi + 14], r13w
-	seta	bl
-	cmp	word ptr [rsi + 16], r13w
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	seta	dl
-	cmp	word ptr [rsi + 20], r13w
-	seta	r9b
-	cmp	word ptr [rsi + 22], r13w
-	seta	r10b
-	cmp	word ptr [rsi + 24], r13w
-	seta	r11b
-	cmp	word ptr [rsi + 26], r13w
-	seta	r12b
-	cmp	word ptr [rsi + 28], r13w
-	seta	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	seta	cl
-	cmp	word ptr [rsi + 32], r13w
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	seta	r15b
-	cmp	word ptr [rsi + 48], r13w
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	seta	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 16]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r12], bl
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r12 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp]              # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r12 + 2], r15b
-	mov	byte ptr [r12 + 3], r8b
-	add	rsi, 64
-	add	r12, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_104
-# %bb.105:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB7_106:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.107:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_111
-# %bb.108:
-	xor	r11d, r11d
-	jmp	.LBB7_109
-.LBB7_113:
-	movzx	eax, word ptr [rdx]
-	mov	dword ptr [rsp + 240], eax      # 4-byte Spill
-	lea	r14, [r11 + 31]
-	test	r11, r11
-	cmovns	r14, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_117
-# %bb.114:
-	movsxd	rax, r9d
-	mov	r10d, dword ptr [rsp + 240]     # 4-byte Reload
-	.p2align	4, 0x90
-.LBB7_115:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r10w
-	lea	rsi, [rsi + 2]
-	setg	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	mov	r15, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_115
-# %bb.116:
-	add	r12, 1
-.LBB7_117:
-	sar	r14, 5
-	cmp	r11, 32
-	jl	.LBB7_128
-# %bb.118:
-	cmp	r14, 8
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 272], r14      # 8-byte Spill
-	jb	.LBB7_119
-# %bb.120:
-	mov	rax, r14
-	shl	rax, 6
-	add	rax, rsi
-	cmp	r12, rax
-	jae	.LBB7_122
-# %bb.121:
-	lea	rax, [r12 + 4*r14]
-	cmp	rax, rsi
-	jbe	.LBB7_122
-.LBB7_119:
-	xor	eax, eax
-	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
-.LBB7_125:
-	mov	qword ptr [rsp], r12            # 8-byte Spill
-	sub	r14, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
-	mov	r13d, dword ptr [rsp + 240]     # 4-byte Reload
-	.p2align	4, 0x90
-.LBB7_126:                              # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	word ptr [rsi], r13w
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setg	r8b
-	cmp	word ptr [rsi + 4], r13w
-	setg	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setg	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setg	al
-	cmp	word ptr [rsi + 14], r13w
-	setg	bl
-	cmp	word ptr [rsi + 16], r13w
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setg	cl
-	cmp	word ptr [rsi + 20], r13w
-	setg	sil
-	cmp	word ptr [r11 + 22], r13w
-	setg	r9b
-	cmp	word ptr [r11 + 24], r13w
-	setg	r10b
-	cmp	word ptr [r11 + 26], r13w
-	setg	r12b
-	cmp	word ptr [r11 + 28], r13w
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 30], r13w
-	setg	dil
-	cmp	word ptr [r11 + 32], r13w
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 34], r13w
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 36], r13w
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 38], r13w
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 40], r13w
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 42], r13w
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 44], r13w
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 46], r13w
-	setg	r15b
-	cmp	word ptr [r11 + 48], r13w
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	word ptr [r11 + 50], r13w
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 52], r13w
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 54], r13w
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 56], r13w
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 58], r13w
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 60], r13w
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 62], r13w
-	setg	dl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	sil, 2
-	or	sil, cl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, sil
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	bl, cl
-	or	dil, r12b
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rcx], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rcx + 1], dil
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], dl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp], rcx            # 8-byte Spill
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_126
-# %bb.127:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	mov	r12, qword ptr [rsp]            # 8-byte Reload
-.LBB7_128:
-	shl	r14, 5
-	cmp	r14, r11
-	jge	.LBB7_200
-# %bb.129:
-	mov	r8, r11
-	sub	r8, r14
-	not	r14
-	add	r14, r11
-	jne	.LBB7_133
-# %bb.130:
-	xor	r14d, r14d
-	jmp	.LBB7_131
-.LBB7_155:
-	mov	r13, qword ptr [rdx]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB7_159
-# %bb.156:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_157:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setg	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	mov	r9, r12
-	movzx	r8d, byte ptr [r12 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r12 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_157
-# %bb.158:
-	add	r12, 1
-.LBB7_159:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_163
-# %bb.160:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_161:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setg	dil
-	cmp	qword ptr [rsi + 16], r13
-	setg	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setg	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setg	al
-	cmp	qword ptr [rsi + 56], r13
-	setg	bl
-	cmp	qword ptr [rsi + 64], r13
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setg	dl
-	cmp	qword ptr [rsi + 80], r13
-	setg	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setg	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setg	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setg	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setg	cl
-	cmp	qword ptr [rsi + 128], r13
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setg	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setg	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setg	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r12], bl
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r12 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r12 + 2], r15b
-	mov	byte ptr [r12 + 3], r8b
-	add	rsi, 256
-	add	r12, 4
-	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
-	jne	.LBB7_161
-# %bb.162:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB7_163:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.164:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_168
-# %bb.165:
-	xor	r11d, r11d
-	jmp	.LBB7_166
-.LBB7_170:
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm11, dword ptr [rdx]          # xmm11 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB7_174
-# %bb.171:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB7_172:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm11, dword ptr [rsi]
-	lea	rsi, [rsi + 4]
-	sbb	edx, edx
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	mov	r14, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB7_172
-# %bb.173:
-	add	r12, 1
-.LBB7_174:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB7_175
-# %bb.176:
-	cmp	r10, 4
-	jb	.LBB7_177
-# %bb.178:
-	mov	rax, r10
-	shl	rax, 7
-	add	rax, rsi
-	cmp	r12, rax
-	jae	.LBB7_180
-# %bb.179:
-	lea	rax, [r12 + 4*r10]
-	cmp	rax, rsi
-	jbe	.LBB7_180
-.LBB7_177:
-	xor	r8d, r8d
-	mov	rbx, rsi
-	mov	r14, r12
-.LBB7_183:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	sub	r10, r8
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_184:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp], r14            # 8-byte Spill
-	ucomiss	xmm11, dword ptr [rbx]
-	setb	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 4]
-	setb	r8b
-	ucomiss	xmm11, dword ptr [rbx + 8]
-	setb	r14b
-	ucomiss	xmm11, dword ptr [rbx + 12]
-	setb	r13b
-	ucomiss	xmm11, dword ptr [rbx + 16]
-	setb	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 20]
-	setb	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 24]
-	setb	al
-	ucomiss	xmm11, dword ptr [rbx + 28]
-	setb	r11b
-	ucomiss	xmm11, dword ptr [rbx + 32]
-	setb	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 36]
-	setb	dl
-	ucomiss	xmm11, dword ptr [rbx + 40]
-	setb	sil
-	ucomiss	xmm11, dword ptr [rbx + 44]
-	setb	r9b
-	ucomiss	xmm11, dword ptr [rbx + 48]
-	setb	r10b
-	ucomiss	xmm11, dword ptr [rbx + 52]
-	setb	r12b
-	ucomiss	xmm11, dword ptr [rbx + 56]
-	setb	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 60]
-	setb	dil
-	ucomiss	xmm11, dword ptr [rbx + 64]
-	setb	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 68]
-	setb	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 72]
-	setb	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 76]
-	setb	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 80]
-	setb	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 84]
-	setb	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 88]
-	setb	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 92]
-	setb	r15b
-	ucomiss	xmm11, dword ptr [rbx + 96]
-	setb	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 100]
-	setb	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 104]
-	setb	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 108]
-	setb	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 112]
-	setb	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 116]
-	setb	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 120]
-	setb	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 124]
-	setb	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	r9b, 3
-	or	r9b, sil
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	r11b, dl
-	or	dil, r12b
-	mov	r14, qword ptr [rsp]            # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], dil
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], cl
-	add	rbx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB7_184
-# %bb.185:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	jmp	.LBB7_186
-.LBB7_9:
-	mov	qword ptr [rsp + 88], r12       # 8-byte Spill
-.LBB7_90:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.91:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_93
-# %bb.92:
-	xor	r9d, r9d
-	jmp	.LBB7_96
-.LBB7_61:
-	mov	qword ptr [rsp + 72], r12       # 8-byte Spill
-	mov	r14, rsi
-.LBB7_72:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.73:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_75
-# %bb.74:
-	xor	eax, eax
-	jmp	.LBB7_78
-.LBB7_175:
-	mov	r14, r12
-	mov	rbx, rsi
-.LBB7_186:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB7_200
-# %bb.187:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB7_191
-# %bb.188:
-	xor	r11d, r11d
-	jmp	.LBB7_189
-.LBB7_153:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_154:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rsi]
-	sbb	edi, edi
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	r14, r12
-	movzx	r10d, byte ptr [r12 + rdx]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r12 + rdx], al
-	add	r11, 2
-	cmp	r13, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r12 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB7_154
-.LBB7_40:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.41:
-	cmp	r13, qword ptr [rsi]
-	jmp	.LBB7_197
-.LBB7_151:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_152:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setg	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	mov	r14, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setg	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r12 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_152
-.LBB7_148:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.149:
-	cmp	dword ptr [rsi], r13d
-	jmp	.LBB7_150
-.LBB7_93:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
-	.p2align	4, 0x90
-.LBB7_94:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r14b
-	setg	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r11 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r11 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r14b
-	lea	r9, [rax + 2]
-	setg	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r11 + rdi], al
-	cmp	r10, r9
-	jne	.LBB7_94
-# %bb.95:
-	add	rsi, r9
-.LBB7_96:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.97:
-	cmp	byte ptr [rsi], r14b
-	setg	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB7_200
-.LBB7_75:
-	mov	r9, r8
-	and	r9, -2
-	xor	eax, eax
-	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r10b, byte ptr [rsp + 40]       # 1-byte Reload
-	.p2align	4, 0x90
-.LBB7_76:                               # =>This Inner Loop Header: Depth=1
-	cmp	r10b, byte ptr [r14 + rax]
-	sbb	esi, esi
-	mov	rdi, rax
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	ebx, byte ptr [r11 + rdi]
-	xor	sil, bl
-	and	dl, sil
-	xor	dl, bl
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r10b, byte ptr [r14 + rax + 1]
-	lea	rax, [rax + 2]
-	sbb	esi, esi
-	xor	sil, dl
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, sil
-	xor	bl, dl
-	mov	byte ptr [r11 + rdi], bl
-	cmp	r9, rax
-	jne	.LBB7_76
-# %bb.77:
-	add	r14, rax
-.LBB7_78:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.79:
-	mov	cl, byte ptr [rsp + 40]         # 1-byte Reload
-	cmp	cl, byte ptr [r14]
-	sbb	edx, edx
-	mov	rsi, rax
-	shr	rsi, 3
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	mov	dil, byte ptr [r8 + rsi]
-	and	al, 7
-	mov	bl, 1
-	mov	ecx, eax
-	shl	bl, cl
-	xor	dl, dil
-	and	bl, dl
-	xor	bl, dil
-	mov	byte ptr [r8 + rsi], bl
-	jmp	.LBB7_200
-.LBB7_135:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_136:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rsi]
-	sbb	edi, edi
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	r14, r12
-	movzx	r10d, byte ptr [r12 + rdx]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r12 + rdx], al
-	add	r11, 2
-	cmp	r13d, dword ptr [rsi + 4]
-	lea	rsi, [rsi + 8]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r12 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB7_136
-.LBB7_24:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.25:
-	cmp	r13d, dword ptr [rsi]
-	jmp	.LBB7_197
-.LBB7_193:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_194:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	sbb	eax, eax
-	mov	rdi, r11
-	shr	rdi, 3
-	mov	r14, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	xor	al, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	r11, 2
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	lea	rsi, [rsi + 16]
-	sbb	eax, eax
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r12 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_194
-.LBB7_195:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.196:
-	ucomisd	xmm0, qword ptr [rsi]
-	jmp	.LBB7_197
-.LBB7_111:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_112:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rsi]
-	sbb	edi, edi
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	r14, r12
-	movzx	r10d, byte ptr [r12 + rdx]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r12 + rdx], al
-	add	r11, 2
-	cmp	r13w, word ptr [rsi + 2]
-	lea	rsi, [rsi + 4]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r12 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB7_112
-.LBB7_109:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.110:
-	cmp	r13w, word ptr [rsi]
-.LBB7_197:
-	sbb	eax, eax
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r12 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB7_198
-.LBB7_133:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	mov	r11d, dword ptr [rsp + 240]     # 4-byte Reload
-	.p2align	4, 0x90
-.LBB7_134:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	word ptr [rsi], r11w
-	setg	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	r14, 2
-	cmp	word ptr [rsi + 2], r11w
-	lea	rsi, [rsi + 4]
-	setg	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, r14
-	jne	.LBB7_134
-.LBB7_131:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.132:
-	mov	eax, dword ptr [rsp + 240]      # 4-byte Reload
-	cmp	word ptr [rsi], ax
-	setg	al
-	neg	al
-	mov	rdx, r14
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	r14b, 7
-	mov	bl, 1
-	mov	ecx, r14d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	jmp	.LBB7_199
-.LBB7_168:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_169:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setg	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	mov	r14, r12
-	movzx	r9d, byte ptr [r12 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r12 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setg	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r12 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_169
-.LBB7_166:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.167:
-	cmp	qword ptr [rsi], r13
-.LBB7_150:
-	setg	al
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r12 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB7_198:
-	xor	bl, sil
-.LBB7_199:
-	mov	byte ptr [r12 + rdx], bl
-.LBB7_200:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB7_191:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB7_192:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm11, dword ptr [rbx]
-	sbb	edx, edx
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	add	r11, 2
-	ucomiss	xmm11, dword ptr [rbx + 4]
-	lea	rbx, [rbx + 8]
-	sbb	esi, esi
-	xor	sil, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, sil
-	xor	dl, al
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB7_192
-.LBB7_189:
-	test	r8b, 1
-	je	.LBB7_200
-# %bb.190:
-	ucomiss	xmm11, dword ptr [rbx]
-	sbb	eax, eax
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-	jmp	.LBB7_200
-.LBB7_84:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r10      # 8-byte Spill
-	lea	rax, [r12 + 4*r10]
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	movzx	eax, r14b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 160], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_85:                               # =>This Inner Loop Header: Depth=1
-	mov	rdi, rax
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	shl	rdi, 5
-	mov	r8, rdi
-	mov	rdx, rdi
-	mov	r9, rdi
-	mov	r12, rdi
-	mov	r11, rdi
-	mov	rax, rdi
-	mov	qword ptr [rsp + 32], rdi       # 8-byte Spill
-	mov	r14, rdi
-	mov	r10, rdi
-	mov	r15, rdi
-	mov	rbx, rdi
-	movzx	ecx, byte ptr [rsi + rdi]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 1]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 2]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 3]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 4]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 5]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 6]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 7]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi + 9]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 10]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 144], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdi + 11]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 12]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 13]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rsi + rdi + 14]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 304], xmm0   # 16-byte Spill
-	mov	r13, rdi
-	or	r13, 32
-	mov	qword ptr [rsp + 40], r13       # 8-byte Spill
-	or	r8, 64
-	or	rdx, 96
-	mov	qword ptr [rsp + 120], rdx      # 8-byte Spill
-	or	r9, 128
-	or	r12, 160
-	or	r11, 192
-	mov	qword ptr [rsp + 64], r11       # 8-byte Spill
-	or	rax, 224
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	or	r11, 256
-	or	r14, 288
-	or	r10, 320
-	or	r15, 352
-	mov	qword ptr [rsp + 80], r15       # 8-byte Spill
-	or	rbx, 384
-	mov	rax, rdi
-	or	rax, 416
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	rax, rdi
-	mov	rcx, rdi
-	mov	qword ptr [rsp + 24], rdi       # 8-byte Spill
-	or	rax, 448
-	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
-	or	rcx, 480
-	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r13], 1
-	pinsrb	xmm15, byte ptr [rsi + r8], 2
-	pinsrb	xmm15, byte ptr [rsi + rdx], 3
-	mov	rdi, r9
-	mov	qword ptr [rsp + 56], r9        # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r9], 4
-	pinsrb	xmm15, byte ptr [rsi + r12], 5
-	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r9], 6
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r13], 7
-	mov	qword ptr [rsp + 32], r11       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rsi + r11], 8
-	pinsrb	xmm15, byte ptr [rsi + r14], 9
-	pinsrb	xmm15, byte ptr [rsi + r10], 10
-	pinsrb	xmm15, byte ptr [rsi + r15], 11
-	pinsrb	xmm15, byte ptr [rsi + rbx], 12
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx], 13
-	pinsrb	xmm15, byte ptr [rsi + rax], 14
-	pinsrb	xmm15, byte ptr [rsi + rcx], 15
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r11 + 1], 1
-	pinsrb	xmm5, byte ptr [rsi + r8 + 1], 2
-	mov	r11, r8
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r8 + 1], 3
-	pinsrb	xmm5, byte ptr [rsi + rdi + 1], 4
-	pinsrb	xmm5, byte ptr [rsi + r12 + 1], 5
-	mov	rdi, r12
-	pinsrb	xmm5, byte ptr [rsi + r9 + 1], 6
-	pinsrb	xmm5, byte ptr [rsi + r13 + 1], 7
-	mov	r12, r13
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 1], 8
-	pinsrb	xmm5, byte ptr [rsi + r14 + 1], 9
-	mov	r9, r14
-	pinsrb	xmm5, byte ptr [rsi + r10 + 1], 10
-	pinsrb	xmm5, byte ptr [rsi + r15 + 1], 11
-	pinsrb	xmm5, byte ptr [rsi + rbx + 1], 12
-	mov	r13, rbx
-	mov	qword ptr [rsp + 192], rbx      # 8-byte Spill
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r15 + 1], 13
-	pinsrb	xmm5, byte ptr [rsi + rax + 1], 14
-	pinsrb	xmm5, byte ptr [rsi + rcx + 1], 15
-	movdqa	xmm9, xmmword ptr [rsp + 160]   # 16-byte Reload
-	pcmpgtb	xmm5, xmm9
-	movdqa	xmm7, xmm5
-	movdqa	xmm4, xmmword ptr [rip + .LCPI7_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm7, xmm4
-	psubb	xmm7, xmm5
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rax + 15]
-	movd	xmm14, ebx
-	pcmpgtb	xmm15, xmm9
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 1
-	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 2
-	mov	rcx, r8
-	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 3
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 4
-	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 5
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 6
-	pinsrb	xmm6, byte ptr [rsi + r12 + 2], 7
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 8
-	mov	qword ptr [rsp + 176], r9       # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 9
-	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r12 + 2], 11
-	pinsrb	xmm6, byte ptr [rsi + r13 + 2], 12
-	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 15
-	pand	xmm15, xmm4
-	pcmpgtb	xmm6, xmm9
-	movdqa	xmm0, xmmword ptr [rip + .LCPI7_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm6, xmm0
-	por	xmm6, xmm15
-	movzx	ebx, byte ptr [rsi + rax + 16]
-	movd	xmm15, ebx
-	mov	rax, rdx
-	pinsrb	xmm2, byte ptr [rsi + rdx + 3], 1
-	mov	r13, r11
-	pinsrb	xmm2, byte ptr [rsi + r11 + 3], 2
-	mov	r11, rcx
-	pinsrb	xmm2, byte ptr [rsi + rcx + 3], 3
-	pinsrb	xmm2, byte ptr [rsi + r14 + 3], 4
-	mov	rdx, rdi
-	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 5
-	mov	rcx, r8
-	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 6
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 7
-	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 8
-	pinsrb	xmm2, byte ptr [rsi + r9 + 3], 9
-	pinsrb	xmm2, byte ptr [rsi + r10 + 3], 10
-	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 11
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 12
-	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rbx + 3], 14
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rbx + 3], 15
-	pinsrb	xmm1, byte ptr [rsi + rax + 4], 1
-	pinsrb	xmm1, byte ptr [rsi + r13 + 4], 2
-	mov	qword ptr [rsp + 96], r13       # 8-byte Spill
-	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 3
-	pinsrb	xmm1, byte ptr [rsi + r14 + 4], 4
-	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 5
-	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 6
-	pinsrb	xmm1, byte ptr [rsi + rdi + 4], 7
-	pinsrb	xmm1, byte ptr [rsi + r8 + 4], 8
-	pinsrb	xmm1, byte ptr [rsi + r9 + 4], 9
-	pinsrb	xmm1, byte ptr [rsi + r10 + 4], 10
-	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rax + 4], 11
-	pinsrb	xmm1, byte ptr [rsi + r12 + 4], 12
-	pinsrb	xmm1, byte ptr [rsi + r15 + 4], 13
-	mov	r8, r15
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 14
-	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 15
-	por	xmm6, xmm7
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rax + 17]
-	movd	xmm0, ebx
-	pcmpgtb	xmm2, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI7_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm2, xmm5
-	pcmpgtb	xmm1, xmm9
-	movdqa	xmm5, xmmword ptr [rip + .LCPI7_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm1, xmm5
-	por	xmm1, xmm2
-	movzx	ebx, byte ptr [rsi + rax + 18]
-	movd	xmm5, ebx
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 1
-	pinsrb	xmm8, byte ptr [rsi + r13 + 5], 2
-	pinsrb	xmm8, byte ptr [rsi + r11 + 5], 3
-	pinsrb	xmm8, byte ptr [rsi + r14 + 5], 4
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdi + 5], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rbx + 5], 6
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r9 + 5], 7
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r12 + 5], 8
-	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r13 + 5], 9
-	pinsrb	xmm8, byte ptr [rsi + r10 + 5], 10
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r15 + 5], 11
-	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rbx + 5], 12
-	pinsrb	xmm8, byte ptr [rsi + r8 + 5], 13
-	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 14
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r14 + 5], 15
-	pcmpgtb	xmm8, xmm9
-	movdqa	xmm2, xmmword ptr [rip + .LCPI7_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm8, xmm2
-	por	xmm8, xmm1
-	movzx	ebx, byte ptr [rsi + rax + 19]
-	movd	xmm7, ebx
-	por	xmm8, xmm6
-	movzx	ebx, byte ptr [rsi + rax + 20]
-	movd	xmm6, ebx
-	pinsrb	xmm3, byte ptr [rsi + rcx + 6], 1
-	mov	r10, rcx
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 6], 2
-	pinsrb	xmm3, byte ptr [rsi + r11 + 6], 3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 6], 4
-	mov	r8, rdi
-	pinsrb	xmm3, byte ptr [rsi + rdi + 6], 5
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 6], 6
-	pinsrb	xmm3, byte ptr [rsi + r9 + 6], 7
-	pinsrb	xmm3, byte ptr [rsi + r12 + 6], 8
-	mov	r9, r12
-	mov	rax, r13
-	pinsrb	xmm3, byte ptr [rsi + r13 + 6], 9
-	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdi + 6], 10
-	mov	rbx, r15
-	pinsrb	xmm3, byte ptr [rsi + r15 + 6], 11
-	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r12 + 6], 12
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 6], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r15 + 6], 14
-	pinsrb	xmm3, byte ptr [rsi + r14 + 6], 15
-	movdqa	xmm2, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r10 + 7], 1
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r13 + 7], 2
-	pinsrb	xmm2, byte ptr [rsi + r11 + 7], 3
-	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r10 + 7], 4
-	pinsrb	xmm2, byte ptr [rsi + r8 + 7], 5
-	mov	rdx, r8
-	pinsrb	xmm2, byte ptr [rsi + rcx + 7], 6
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 7], 7
-	pinsrb	xmm2, byte ptr [rsi + r9 + 7], 8
-	pinsrb	xmm2, byte ptr [rsi + rax + 7], 9
-	pinsrb	xmm2, byte ptr [rsi + rdi + 7], 10
-	pinsrb	xmm2, byte ptr [rsi + rbx + 7], 11
-	pinsrb	xmm2, byte ptr [rsi + r12 + 7], 12
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r11 + 7], 13
-	pinsrb	xmm2, byte ptr [rsi + r15 + 7], 14
-	mov	rdi, r14
-	pinsrb	xmm2, byte ptr [rsi + r14 + 7], 15
-	pcmpgtb	xmm3, xmm9
-	movdqa	xmm1, xmmword ptr [rip + .LCPI7_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm1
-	pcmpgtb	xmm2, xmm9
-	psllw	xmm2, 7
-	movdqa	xmm1, xmmword ptr [rip + .LCPI7_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm2, xmm1
-	por	xmm2, xmm3
-	movdqa	xmm1, xmm2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rax + 21]
-	movd	xmm2, ebx
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 1
-	pinsrb	xmm10, byte ptr [rsi + r13 + 9], 2
-	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r8 + 9], 3
-	pinsrb	xmm10, byte ptr [rsi + r10 + 9], 4
-	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 5
-	mov	r14, rdx
-	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 6
-	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r9 + 9], 7
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rbx + 9], 8
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rbx + 9], 9
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r15 + 9], 10
-	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rbx + 9], 11
-	pinsrb	xmm10, byte ptr [rsi + r12 + 9], 12
-	pinsrb	xmm10, byte ptr [rsi + r11 + 9], 13
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r10 + 9], 14
-	pinsrb	xmm10, byte ptr [rsi + rdi + 9], 15
-	por	xmm1, xmm8
-	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
-	pcmpgtb	xmm10, xmm9
-	movdqa	xmm1, xmm10
-	movdqa	xmm8, xmm4
-	pand	xmm1, xmm4
-	psubb	xmm1, xmm10
-	movzx	ebx, byte ptr [rsi + rax + 22]
-	movd	xmm3, ebx
-	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 1
-	mov	r11, rcx
-	pinsrb	xmm4, byte ptr [rsi + r13 + 8], 2
-	pinsrb	xmm4, byte ptr [rsi + r8 + 8], 3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 4
-	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 5
-	pinsrb	xmm4, byte ptr [rsi + rdx + 8], 6
-	mov	rdx, r9
-	pinsrb	xmm4, byte ptr [rsi + r9 + 8], 7
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 8
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 8], 9
-	mov	rbx, r15
-	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 10
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 11
-	pinsrb	xmm4, byte ptr [rsi + r12 + 8], 12
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 13
-	pinsrb	xmm4, byte ptr [rsi + r10 + 8], 14
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r9 + 8], 15
-	pcmpgtb	xmm4, xmm9
-	pand	xmm4, xmm8
-	movdqa	xmm10, xmmword ptr [rsp + 144]  # 16-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r11 + 10], 1
-	pinsrb	xmm10, byte ptr [rsi + r13 + 10], 2
-	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 3
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 4
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 5
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 6
-	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 7
-	mov	r11, r14
-	pinsrb	xmm10, byte ptr [rsi + r14 + 10], 8
-	pinsrb	xmm10, byte ptr [rsi + rax + 10], 9
-	pinsrb	xmm10, byte ptr [rsi + rbx + 10], 10
-	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 11
-	pinsrb	xmm10, byte ptr [rsi + r12 + 10], 12
-	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 13
-	pinsrb	xmm10, byte ptr [rsi + r10 + 10], 14
-	pinsrb	xmm10, byte ptr [rsi + r9 + 10], 15
-	pcmpgtb	xmm10, xmm9
-	pand	xmm10, xmmword ptr [rip + .LCPI7_11]
-	por	xmm10, xmm4
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rcx + 23]
-	movd	xmm8, ebx
-	por	xmm10, xmm1
-	movdqa	xmmword ptr [rsp + 144], xmm10  # 16-byte Spill
-	movzx	ebx, byte ptr [rsi + rcx + 24]
-	movd	xmm10, ebx
-	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 1
-	pinsrb	xmm11, byte ptr [rsi + r13 + 11], 2
-	mov	r14, r13
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 3
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 4
-	mov	r13, rcx
-	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 5
-	mov	rcx, r8
-	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 6
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 7
-	mov	r8, r11
-	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 8
-	mov	r9, rax
-	pinsrb	xmm11, byte ptr [rsi + rax + 11], 9
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 10
-	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 11
-	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rax + 11], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 14
-	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 15
-	pinsrb	xmm13, byte ptr [rsi + rdx + 12], 1
-	pinsrb	xmm13, byte ptr [rsi + r14 + 12], 2
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r14 + 12], 3
-	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 4
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 5
-	pinsrb	xmm13, byte ptr [rsi + rcx + 12], 6
-	pinsrb	xmm13, byte ptr [rsi + rdi + 12], 7
-	pinsrb	xmm13, byte ptr [rsi + r8 + 12], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 12], 9
-	pinsrb	xmm13, byte ptr [rsi + r10 + 12], 10
-	pinsrb	xmm13, byte ptr [rsi + r15 + 12], 11
-	pinsrb	xmm13, byte ptr [rsi + r12 + 12], 12
-	pinsrb	xmm13, byte ptr [rsi + rax + 12], 13
-	mov	r13, rax
-	pinsrb	xmm13, byte ptr [rsi + rbx + 12], 14
-	mov	rax, r11
-	pinsrb	xmm13, byte ptr [rsi + r11 + 12], 15
-	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 1
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r11 + 13], 2
-	pinsrb	xmm12, byte ptr [rsi + r14 + 13], 3
-	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 4
-	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 5
-	pinsrb	xmm12, byte ptr [rsi + rcx + 13], 6
-	pinsrb	xmm12, byte ptr [rsi + rdi + 13], 7
-	pinsrb	xmm12, byte ptr [rsi + r8 + 13], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 13], 9
-	pinsrb	xmm12, byte ptr [rsi + r10 + 13], 10
-	pinsrb	xmm12, byte ptr [rsi + r15 + 13], 11
-	pinsrb	xmm12, byte ptr [rsi + r12 + 13], 12
-	mov	rdi, r13
-	pinsrb	xmm12, byte ptr [rsi + r13 + 13], 13
-	pinsrb	xmm12, byte ptr [rsi + rbx + 13], 14
-	pinsrb	xmm12, byte ptr [rsi + rax + 13], 15
-	pcmpgtb	xmm11, xmm9
-	pand	xmm11, xmmword ptr [rip + .LCPI7_12]
-	pcmpgtb	xmm13, xmm9
-	pand	xmm13, xmmword ptr [rip + .LCPI7_13]
-	por	xmm13, xmm11
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rax + 25]
-	movd	xmm1, ebx
-	pcmpgtb	xmm12, xmm9
-	pand	xmm12, xmmword ptr [rip + .LCPI7_14]
-	por	xmm12, xmm13
-	movzx	ebx, byte ptr [rsi + rax + 26]
-	movd	xmm11, ebx
-	movdqa	xmm4, xmmword ptr [rsp + 304]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 14], 1
-	mov	r13, r11
-	pinsrb	xmm4, byte ptr [rsi + r11 + 14], 2
-	mov	r11, r14
-	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 3
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 4
-	mov	rax, rdx
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 6
-	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 7
-	pinsrb	xmm4, byte ptr [rsi + r8 + 14], 8
-	pinsrb	xmm4, byte ptr [rsi + r9 + 14], 9
-	mov	rbx, r10
-	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 10
-	pinsrb	xmm4, byte ptr [rsi + r15 + 14], 11
-	pinsrb	xmm4, byte ptr [rsi + r12 + 14], 12
-	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 14
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 15
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 1
-	pinsrb	xmm14, byte ptr [rsi + r13 + 15], 2
-	pinsrb	xmm14, byte ptr [rsi + r11 + 15], 3
-	pinsrb	xmm14, byte ptr [rsi + r14 + 15], 4
-	pinsrb	xmm14, byte ptr [rsi + rax + 15], 5
-	pinsrb	xmm14, byte ptr [rsi + rcx + 15], 6
-	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 7
-	pinsrb	xmm14, byte ptr [rsi + r8 + 15], 8
-	pinsrb	xmm14, byte ptr [rsi + r9 + 15], 9
-	pinsrb	xmm14, byte ptr [rsi + rbx + 15], 10
-	pinsrb	xmm14, byte ptr [rsi + r15 + 15], 11
-	pinsrb	xmm14, byte ptr [rsi + r12 + 15], 12
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 14
-	pinsrb	xmm14, byte ptr [rsi + r10 + 15], 15
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdi + 16], 1
-	pinsrb	xmm15, byte ptr [rsi + r13 + 16], 2
-	pinsrb	xmm15, byte ptr [rsi + r11 + 16], 3
-	pinsrb	xmm15, byte ptr [rsi + r14 + 16], 4
-	pinsrb	xmm15, byte ptr [rsi + rax + 16], 5
-	pinsrb	xmm15, byte ptr [rsi + rcx + 16], 6
-	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 7
-	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 8
-	pinsrb	xmm15, byte ptr [rsi + r9 + 16], 9
-	pinsrb	xmm15, byte ptr [rsi + rbx + 16], 10
-	pinsrb	xmm15, byte ptr [rsi + r15 + 16], 11
-	pinsrb	xmm15, byte ptr [rsi + r12 + 16], 12
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdi + 16], 13
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r10 + 16], 14
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 1
-	pinsrb	xmm0, byte ptr [rsi + r13 + 17], 2
-	pinsrb	xmm0, byte ptr [rsi + r11 + 17], 3
-	pinsrb	xmm0, byte ptr [rsi + r14 + 17], 4
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 5
-	mov	r13, rax
-	pinsrb	xmm0, byte ptr [rsi + rcx + 17], 6
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 7
-	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 8
-	pinsrb	xmm0, byte ptr [rsi + r9 + 17], 9
-	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 10
-	pinsrb	xmm0, byte ptr [rsi + r15 + 17], 11
-	pinsrb	xmm0, byte ptr [rsi + r12 + 17], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 14
-	por	xmm12, xmmword ptr [rsp + 144]  # 16-byte Folded Reload
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rax + 27]
-	movd	xmm9, ebx
-	movdqa	xmm13, xmmword ptr [rsp + 160]  # 16-byte Reload
-	pcmpgtb	xmm4, xmm13
-	pand	xmm4, xmmword ptr [rip + .LCPI7_15]
-	pcmpgtb	xmm14, xmm13
-	psllw	xmm14, 7
-	pand	xmm14, xmmword ptr [rip + .LCPI7_6]
-	por	xmm14, xmm4
-	movzx	ebx, byte ptr [rsi + rax + 28]
-	movd	xmm4, ebx
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r10 + 17], 15
-	por	xmm14, xmm12
-	pcmpgtb	xmm0, xmm13
-	movdqa	xmm13, xmm0
-	movdqa	xmm12, xmmword ptr [rip + .LCPI7_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm13, xmm12
-	psubb	xmm13, xmm0
-	movdqa	xmmword ptr [rsp + 144], xmm13  # 16-byte Spill
-	movzx	ebx, byte ptr [rsi + rax + 29]
-	movd	xmm13, ebx
-	pinsrb	xmm15, byte ptr [rsi + r10 + 16], 15
-	movdqa	xmm0, xmmword ptr [rsp + 160]   # 16-byte Reload
-	pcmpgtb	xmm15, xmm0
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 1
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 2
-	pinsrb	xmm5, byte ptr [rsi + r11 + 18], 3
-	pinsrb	xmm5, byte ptr [rsi + r14 + 18], 4
-	pinsrb	xmm5, byte ptr [rsi + r13 + 18], 5
-	pinsrb	xmm5, byte ptr [rsi + rcx + 18], 6
-	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 7
-	pinsrb	xmm5, byte ptr [rsi + r8 + 18], 8
-	pinsrb	xmm5, byte ptr [rsi + r9 + 18], 9
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 18], 10
-	pinsrb	xmm5, byte ptr [rsi + r15 + 18], 11
-	pinsrb	xmm5, byte ptr [rsi + r12 + 18], 12
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 13
-	pinsrb	xmm5, byte ptr [rsi + rdi + 18], 14
-	pand	xmm15, xmm12
-	pinsrb	xmm5, byte ptr [rsi + r10 + 18], 15
-	pcmpgtb	xmm5, xmm0
-	pand	xmm5, xmmword ptr [rip + .LCPI7_11]
-	por	xmm5, xmm15
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	movzx	ebx, byte ptr [rsi + rdi + 30]
-	movd	xmm12, ebx
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rbx + 19], 1
-	pinsrb	xmm6, byte ptr [rsi + rbx + 20], 1
-	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 1
-	pinsrb	xmm3, byte ptr [rsi + rbx + 22], 1
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 1
-	pinsrb	xmm10, byte ptr [rsi + rbx + 24], 1
-	pinsrb	xmm1, byte ptr [rsi + rbx + 25], 1
-	pinsrb	xmm11, byte ptr [rsi + rbx + 26], 1
-	pinsrb	xmm9, byte ptr [rsi + rbx + 27], 1
-	pinsrb	xmm4, byte ptr [rsi + rbx + 28], 1
-	pinsrb	xmm13, byte ptr [rsi + rbx + 29], 1
-	pinsrb	xmm12, byte ptr [rsi + rbx + 30], 1
-	movzx	edi, byte ptr [rsi + rdi + 31]
-	movd	xmm0, edi
-	pinsrb	xmm0, byte ptr [rsi + rbx + 31], 1
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 19], 2
-	pinsrb	xmm6, byte ptr [rsi + rdi + 20], 2
-	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 2
-	pinsrb	xmm3, byte ptr [rsi + rdi + 22], 2
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 2
-	pinsrb	xmm10, byte ptr [rsi + rdi + 24], 2
-	pinsrb	xmm1, byte ptr [rsi + rdi + 25], 2
-	pinsrb	xmm11, byte ptr [rsi + rdi + 26], 2
-	pinsrb	xmm9, byte ptr [rsi + rdi + 27], 2
-	pinsrb	xmm4, byte ptr [rsi + rdi + 28], 2
-	pinsrb	xmm13, byte ptr [rsi + rdi + 29], 2
-	pinsrb	xmm12, byte ptr [rsi + rdi + 30], 2
-	pinsrb	xmm0, byte ptr [rsi + rdi + 31], 2
-	pinsrb	xmm7, byte ptr [rsi + r11 + 19], 3
-	pinsrb	xmm7, byte ptr [rsi + r14 + 19], 4
-	pinsrb	xmm7, byte ptr [rsi + r13 + 19], 5
-	pinsrb	xmm7, byte ptr [rsi + rcx + 19], 6
-	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 7
-	pinsrb	xmm7, byte ptr [rsi + r8 + 19], 8
-	pinsrb	xmm7, byte ptr [rsi + r9 + 19], 9
-	pinsrb	xmm7, byte ptr [rsi + rax + 19], 10
-	pinsrb	xmm7, byte ptr [rsi + r15 + 19], 11
-	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 12
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 19], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rbx + 19], 14
-	pinsrb	xmm7, byte ptr [rsi + r10 + 19], 15
-	pinsrb	xmm6, byte ptr [rsi + r11 + 20], 3
-	pinsrb	xmm6, byte ptr [rsi + r14 + 20], 4
-	pinsrb	xmm6, byte ptr [rsi + r13 + 20], 5
-	pinsrb	xmm6, byte ptr [rsi + rcx + 20], 6
-	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 7
-	pinsrb	xmm6, byte ptr [rsi + r8 + 20], 8
-	pinsrb	xmm6, byte ptr [rsi + r9 + 20], 9
-	pinsrb	xmm6, byte ptr [rsi + rax + 20], 10
-	pinsrb	xmm6, byte ptr [rsi + r15 + 20], 11
-	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 12
-	pinsrb	xmm6, byte ptr [rsi + rdi + 20], 13
-	pinsrb	xmm6, byte ptr [rsi + rbx + 20], 14
-	por	xmm5, xmmword ptr [rsp + 144]   # 16-byte Folded Reload
-	pinsrb	xmm6, byte ptr [rsi + r10 + 20], 15
-	movdqa	xmm15, xmmword ptr [rsp + 160]  # 16-byte Reload
-	pcmpgtb	xmm7, xmm15
-	pand	xmm7, xmmword ptr [rip + .LCPI7_12]
-	pcmpgtb	xmm6, xmm15
-	pand	xmm6, xmmword ptr [rip + .LCPI7_13]
-	por	xmm6, xmm7
-	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 3
-	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 4
-	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 5
-	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 6
-	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 7
-	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 8
-	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 9
-	pinsrb	xmm2, byte ptr [rsi + rax + 21], 10
-	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 11
-	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 12
-	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 13
-	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 14
-	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 15
-	pcmpgtb	xmm2, xmm15
-	movdqa	xmm7, xmmword ptr [rip + .LCPI7_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm2, xmm7
-	por	xmm2, xmm6
-	por	xmm2, xmm5
-	pinsrb	xmm3, byte ptr [rsi + r11 + 22], 3
-	pinsrb	xmm3, byte ptr [rsi + r14 + 22], 4
-	pinsrb	xmm3, byte ptr [rsi + r13 + 22], 5
-	pinsrb	xmm3, byte ptr [rsi + rcx + 22], 6
-	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 7
-	pinsrb	xmm3, byte ptr [rsi + r8 + 22], 8
-	pinsrb	xmm3, byte ptr [rsi + r9 + 22], 9
-	pinsrb	xmm3, byte ptr [rsi + rax + 22], 10
-	pinsrb	xmm3, byte ptr [rsi + r15 + 22], 11
-	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 12
-	pinsrb	xmm3, byte ptr [rsi + rdi + 22], 13
-	pinsrb	xmm3, byte ptr [rsi + rbx + 22], 14
-	pinsrb	xmm3, byte ptr [rsi + r10 + 22], 15
-	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 3
-	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 4
-	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 5
-	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 6
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 7
-	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 8
-	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 9
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 10
-	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 11
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 12
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 13
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 14
-	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 15
-	pcmpgtb	xmm3, xmm15
-	movdqa	xmm5, xmmword ptr [rip + .LCPI7_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm3, xmm5
-	pcmpgtb	xmm8, xmm15
-	psllw	xmm8, 7
-	movdqa	xmm6, xmmword ptr [rip + .LCPI7_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm6
-	por	xmm8, xmm3
-	pinsrb	xmm1, byte ptr [rsi + r11 + 25], 3
-	pinsrb	xmm1, byte ptr [rsi + r14 + 25], 4
-	pinsrb	xmm1, byte ptr [rsi + r13 + 25], 5
-	pinsrb	xmm1, byte ptr [rsi + rcx + 25], 6
-	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 7
-	pinsrb	xmm1, byte ptr [rsi + r8 + 25], 8
-	pinsrb	xmm1, byte ptr [rsi + r9 + 25], 9
-	pinsrb	xmm1, byte ptr [rsi + rax + 25], 10
-	pinsrb	xmm1, byte ptr [rsi + r15 + 25], 11
-	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 12
-	pinsrb	xmm1, byte ptr [rsi + rdi + 25], 13
-	pinsrb	xmm1, byte ptr [rsi + rbx + 25], 14
-	pinsrb	xmm1, byte ptr [rsi + r10 + 25], 15
-	por	xmm8, xmm2
-	pcmpgtb	xmm1, xmm15
-	movdqa	xmm2, xmm1
-	movdqa	xmm3, xmmword ptr [rip + .LCPI7_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm2, xmm3
-	psubb	xmm2, xmm1
-	pinsrb	xmm10, byte ptr [rsi + r11 + 24], 3
-	pinsrb	xmm10, byte ptr [rsi + r14 + 24], 4
-	pinsrb	xmm10, byte ptr [rsi + r13 + 24], 5
-	pinsrb	xmm10, byte ptr [rsi + rcx + 24], 6
-	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 7
-	pinsrb	xmm10, byte ptr [rsi + r8 + 24], 8
-	pinsrb	xmm10, byte ptr [rsi + r9 + 24], 9
-	pinsrb	xmm10, byte ptr [rsi + rax + 24], 10
-	pinsrb	xmm10, byte ptr [rsi + r15 + 24], 11
-	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 12
-	pinsrb	xmm10, byte ptr [rsi + rdi + 24], 13
-	pinsrb	xmm10, byte ptr [rsi + rbx + 24], 14
-	pinsrb	xmm10, byte ptr [rsi + r10 + 24], 15
-	pcmpgtb	xmm10, xmm15
-	pand	xmm10, xmm3
-	pinsrb	xmm11, byte ptr [rsi + r11 + 26], 3
-	pinsrb	xmm11, byte ptr [rsi + r14 + 26], 4
-	pinsrb	xmm11, byte ptr [rsi + r13 + 26], 5
-	pinsrb	xmm11, byte ptr [rsi + rcx + 26], 6
-	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 7
-	pinsrb	xmm11, byte ptr [rsi + r8 + 26], 8
-	pinsrb	xmm11, byte ptr [rsi + r9 + 26], 9
-	pinsrb	xmm11, byte ptr [rsi + rax + 26], 10
-	pinsrb	xmm11, byte ptr [rsi + r15 + 26], 11
-	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 12
-	pinsrb	xmm11, byte ptr [rsi + rdi + 26], 13
-	pinsrb	xmm11, byte ptr [rsi + rbx + 26], 14
-	pinsrb	xmm11, byte ptr [rsi + r10 + 26], 15
-	pcmpgtb	xmm11, xmm15
-	pand	xmm11, xmmword ptr [rip + .LCPI7_11]
-	por	xmm11, xmm10
-	por	xmm11, xmm2
-	pinsrb	xmm9, byte ptr [rsi + r11 + 27], 3
-	pinsrb	xmm9, byte ptr [rsi + r14 + 27], 4
-	pinsrb	xmm9, byte ptr [rsi + r13 + 27], 5
-	pinsrb	xmm9, byte ptr [rsi + rcx + 27], 6
-	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 7
-	pinsrb	xmm9, byte ptr [rsi + r8 + 27], 8
-	pinsrb	xmm9, byte ptr [rsi + r9 + 27], 9
-	pinsrb	xmm9, byte ptr [rsi + rax + 27], 10
-	pinsrb	xmm9, byte ptr [rsi + r15 + 27], 11
-	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 12
-	pinsrb	xmm9, byte ptr [rsi + rdi + 27], 13
-	pinsrb	xmm9, byte ptr [rsi + rbx + 27], 14
-	pinsrb	xmm9, byte ptr [rsi + r10 + 27], 15
-	pinsrb	xmm4, byte ptr [rsi + r11 + 28], 3
-	pinsrb	xmm4, byte ptr [rsi + r14 + 28], 4
-	pinsrb	xmm4, byte ptr [rsi + r13 + 28], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 28], 6
-	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 7
-	pinsrb	xmm4, byte ptr [rsi + r8 + 28], 8
-	pinsrb	xmm4, byte ptr [rsi + r9 + 28], 9
-	pinsrb	xmm4, byte ptr [rsi + rax + 28], 10
-	pinsrb	xmm4, byte ptr [rsi + r15 + 28], 11
-	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 12
-	pinsrb	xmm4, byte ptr [rsi + rdi + 28], 13
-	pinsrb	xmm4, byte ptr [rsi + rbx + 28], 14
-	pinsrb	xmm4, byte ptr [rsi + r10 + 28], 15
-	pinsrb	xmm13, byte ptr [rsi + r11 + 29], 3
-	pinsrb	xmm13, byte ptr [rsi + r14 + 29], 4
-	pinsrb	xmm13, byte ptr [rsi + r13 + 29], 5
-	pinsrb	xmm13, byte ptr [rsi + rcx + 29], 6
-	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 7
-	pinsrb	xmm13, byte ptr [rsi + r8 + 29], 8
-	pinsrb	xmm13, byte ptr [rsi + r9 + 29], 9
-	pinsrb	xmm13, byte ptr [rsi + rax + 29], 10
-	pinsrb	xmm13, byte ptr [rsi + r15 + 29], 11
-	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 12
-	pinsrb	xmm13, byte ptr [rsi + rdi + 29], 13
-	pinsrb	xmm13, byte ptr [rsi + rbx + 29], 14
-	movdqa	xmm1, xmm15
-	pcmpgtb	xmm9, xmm15
-	pand	xmm9, xmmword ptr [rip + .LCPI7_12]
-	pcmpgtb	xmm4, xmm15
-	pand	xmm4, xmmword ptr [rip + .LCPI7_13]
-	por	xmm4, xmm9
-	pinsrb	xmm13, byte ptr [rsi + r10 + 29], 15
-	pcmpgtb	xmm13, xmm15
-	pand	xmm13, xmm7
-	por	xmm13, xmm4
-	pinsrb	xmm12, byte ptr [rsi + r11 + 30], 3
-	pinsrb	xmm0, byte ptr [rsi + r11 + 31], 3
-	pinsrb	xmm12, byte ptr [rsi + r14 + 30], 4
-	pinsrb	xmm0, byte ptr [rsi + r14 + 31], 4
-	pinsrb	xmm12, byte ptr [rsi + r13 + 30], 5
-	pinsrb	xmm0, byte ptr [rsi + r13 + 31], 5
-	pinsrb	xmm12, byte ptr [rsi + rcx + 30], 6
-	pinsrb	xmm0, byte ptr [rsi + rcx + 31], 6
-	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 7
-	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 7
-	pinsrb	xmm12, byte ptr [rsi + r8 + 30], 8
-	pinsrb	xmm0, byte ptr [rsi + r8 + 31], 8
-	pinsrb	xmm12, byte ptr [rsi + r9 + 30], 9
-	pinsrb	xmm0, byte ptr [rsi + r9 + 31], 9
-	pinsrb	xmm12, byte ptr [rsi + rax + 30], 10
-	pinsrb	xmm0, byte ptr [rsi + rax + 31], 10
-	pinsrb	xmm12, byte ptr [rsi + r15 + 30], 11
-	pinsrb	xmm0, byte ptr [rsi + r15 + 31], 11
-	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 12
-	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 12
-	pinsrb	xmm12, byte ptr [rsi + rdi + 30], 13
-	pinsrb	xmm0, byte ptr [rsi + rdi + 31], 13
-	pinsrb	xmm12, byte ptr [rsi + rbx + 30], 14
-	pinsrb	xmm0, byte ptr [rsi + rbx + 31], 14
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r10 + 30], 15
-	pinsrb	xmm0, byte ptr [rsi + r10 + 31], 15
-	por	xmm13, xmm11
-	pcmpgtb	xmm12, xmm15
-	pand	xmm12, xmm5
-	pcmpgtb	xmm0, xmm15
-	psllw	xmm0, 7
-	pand	xmm0, xmm6
-	por	xmm0, xmm12
-	por	xmm0, xmm13
-	movdqa	xmm1, xmm8
-	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	movdqa	xmm4, xmmword ptr [rsp + 208]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
-	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
-	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
-	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [rax + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	jne	.LBB7_85
-# %bb.86:
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	r14b, byte ptr [rsp]            # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	jne	.LBB7_87
-	jmp	.LBB7_90
-.LBB7_66:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r10      # 8-byte Spill
-	lea	rax, [r12 + 4*r10]
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 288], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_67:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	shl	rax, 5
-	mov	rdx, rax
-	mov	r12, rax
-	mov	r11, rax
-	mov	rdi, rax
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	mov	r9, rax
-	mov	r15, rax
-	mov	r10, rax
-	mov	r14, rax
-	mov	r8, rax
-	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
-	movzx	ecx, byte ptr [rsi + rax]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rsi + rax + 1]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [rsi + rax + 2]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rsi + rax + 3]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rsi + rax + 4]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rsi + rax + 5]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rsi + rax + 6]
-	movd	xmm0, ecx
-	movzx	ecx, byte ptr [rsi + rax + 7]
-	movd	xmm1, ecx
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rax + 8]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rsi + rax + 9]
-	movd	xmm1, ecx
-	movdqa	xmmword ptr [rsp + 192], xmm1   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rax + 10]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rsi + rax + 11]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rsi + rax + 12]
-	movd	xmm1, ecx
-	movdqa	xmmword ptr [rsp + 304], xmm1   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rax + 16]
-	movd	xmm13, ecx
-	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
-	movzx	ecx, byte ptr [rsi + rax + 24]
-	movd	xmm15, ecx
-	mov	r13, rax
-	or	r13, 32
-	mov	qword ptr [rsp + 56], r13       # 8-byte Spill
-	or	rdx, 64
-	mov	qword ptr [rsp + 88], rdx       # 8-byte Spill
-	or	r12, 96
-	mov	qword ptr [rsp + 16], r12       # 8-byte Spill
-	or	r11, 128
-	or	rdi, 160
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	or	rcx, 192
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	or	r9, 224
-	or	r15, 256
-	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
-	or	r10, 288
-	mov	qword ptr [rsp + 120], r10      # 8-byte Spill
-	or	r14, 320
-	or	r8, 352
-	mov	qword ptr [rsp + 208], r8       # 8-byte Spill
-	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
-	or	r8, 384
-	mov	rbx, rax
-	or	rbx, 416
-	mov	qword ptr [rsp], rbx            # 8-byte Spill
-	mov	rbx, rax
-	or	rbx, 448
-	mov	qword ptr [rsp + 24], rbx       # 8-byte Spill
-	mov	rbx, rax
-	or	rbx, 480
-	mov	qword ptr [rsp + 32], rbx       # 8-byte Spill
-	pinsrb	xmm10, byte ptr [rsi + r13], 1
-	pinsrb	xmm10, byte ptr [rsi + rdx], 2
-	pinsrb	xmm10, byte ptr [rsi + r12], 3
-	mov	r12, r11
-	mov	qword ptr [rsp + 48], r11       # 8-byte Spill
-	pinsrb	xmm10, byte ptr [rsi + r11], 4
-	pinsrb	xmm10, byte ptr [rsi + rdi], 5
-	mov	qword ptr [rsp + 64], rdi       # 8-byte Spill
-	pinsrb	xmm10, byte ptr [rsi + rcx], 6
-	pinsrb	xmm10, byte ptr [rsi + r9], 7
-	mov	r11, r9
-	pinsrb	xmm10, byte ptr [rsi + r15], 8
-	pinsrb	xmm10, byte ptr [rsi + r10], 9
-	pinsrb	xmm10, byte ptr [rsi + r14], 10
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r13], 11
-	pinsrb	xmm10, byte ptr [rsi + r8], 12
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax], 13
-	mov	r15, rax
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax], 14
-	pinsrb	xmm10, byte ptr [rsi + rbx], 15
-	movdqa	xmm8, xmm10
-	movdqa	xmm12, xmmword ptr [rsp + 288]  # 16-byte Reload
-	pminub	xmm8, xmm12
-	pcmpeqb	xmm8, xmm10
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r9 + 1], 1
-	pinsrb	xmm4, byte ptr [rsi + rdx + 1], 2
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rbx + 1], 3
-	pinsrb	xmm4, byte ptr [rsi + r12 + 1], 4
-	pinsrb	xmm4, byte ptr [rsi + rdi + 1], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 1], 6
-	pinsrb	xmm4, byte ptr [rsi + r11 + 1], 7
-	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r10 + 1], 8
-	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rbx + 1], 9
-	pinsrb	xmm4, byte ptr [rsi + r14 + 1], 10
-	pinsrb	xmm4, byte ptr [rsi + r13 + 1], 11
-	pinsrb	xmm4, byte ptr [rsi + r8 + 1], 12
-	pinsrb	xmm4, byte ptr [rsi + r15 + 1], 13
-	pinsrb	xmm4, byte ptr [rsi + rax + 1], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 1], 15
-	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 1
-	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 2
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 3
-	pinsrb	xmm6, byte ptr [rsi + r12 + 2], 4
-	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 5
-	pinsrb	xmm6, byte ptr [rsi + rcx + 2], 6
-	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 7
-	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 8
-	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 9
-	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 10
-	pinsrb	xmm6, byte ptr [rsi + r13 + 2], 11
-	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 12
-	mov	rdi, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 13
-	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 14
-	pinsrb	xmm6, byte ptr [rsi + rax + 2], 15
-	pinsrb	xmm14, byte ptr [rsi + r9 + 8], 1
-	pinsrb	xmm14, byte ptr [rsi + rdx + 8], 2
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r15 + 8], 3
-	pinsrb	xmm14, byte ptr [rsi + r12 + 8], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdi + 8], 5
-	pinsrb	xmm14, byte ptr [rsi + rcx + 8], 6
-	pinsrb	xmm14, byte ptr [rsi + r11 + 8], 7
-	pinsrb	xmm14, byte ptr [rsi + r10 + 8], 8
-	pinsrb	xmm14, byte ptr [rsi + rbx + 8], 9
-	pinsrb	xmm14, byte ptr [rsi + r14 + 8], 10
-	pinsrb	xmm14, byte ptr [rsi + r13 + 8], 11
-	pinsrb	xmm14, byte ptr [rsi + r8 + 8], 12
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 8], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 8], 14
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r10 + 8], 15
-	movdqa	xmm10, xmm14
-	pminub	xmm10, xmm12
-	pcmpeqb	xmm10, xmm14
-	pinsrb	xmm13, byte ptr [rsi + r9 + 16], 1
-	pinsrb	xmm13, byte ptr [rsi + rdx + 16], 2
-	mov	r9, r15
-	pinsrb	xmm13, byte ptr [rsi + r15 + 16], 3
-	pinsrb	xmm13, byte ptr [rsi + r12 + 16], 4
-	pinsrb	xmm13, byte ptr [rsi + rdi + 16], 5
-	pinsrb	xmm13, byte ptr [rsi + rcx + 16], 6
-	pinsrb	xmm13, byte ptr [rsi + r11 + 16], 7
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r15 + 16], 8
-	pinsrb	xmm13, byte ptr [rsi + rbx + 16], 9
-	pinsrb	xmm13, byte ptr [rsi + r14 + 16], 10
-	pinsrb	xmm13, byte ptr [rsi + r13 + 16], 11
-	pinsrb	xmm13, byte ptr [rsi + r8 + 16], 12
-	mov	r12, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r12 + 16], 13
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rcx + 16], 14
-	pinsrb	xmm13, byte ptr [rsi + r10 + 16], 15
-	movdqa	xmm3, xmm13
-	pminub	xmm3, xmm12
-	pcmpeqb	xmm3, xmm13
-	movdqa	xmmword ptr [rsp + 272], xmm3   # 16-byte Spill
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rax + 24], 1
-	pinsrb	xmm15, byte ptr [rsi + rdx + 24], 2
-	pinsrb	xmm15, byte ptr [rsi + r9 + 24], 3
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r9 + 24], 4
-	pinsrb	xmm15, byte ptr [rsi + rdi + 24], 5
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rax + 24], 6
-	pinsrb	xmm15, byte ptr [rsi + r11 + 24], 7
-	pinsrb	xmm15, byte ptr [rsi + r15 + 24], 8
-	pinsrb	xmm15, byte ptr [rsi + rbx + 24], 9
-	pinsrb	xmm15, byte ptr [rsi + r14 + 24], 10
-	pinsrb	xmm15, byte ptr [rsi + r13 + 24], 11
-	pinsrb	xmm15, byte ptr [rsi + r8 + 24], 12
-	pinsrb	xmm15, byte ptr [rsi + r12 + 24], 13
-	mov	r15, r12
-	pinsrb	xmm15, byte ptr [rsi + rcx + 24], 14
-	mov	rax, rcx
-	pinsrb	xmm15, byte ptr [rsi + r10 + 24], 15
-	movdqa	xmm3, xmm15
-	pminub	xmm3, xmm12
-	pcmpeqb	xmm3, xmm15
-	movdqa	xmmword ptr [rsp + 240], xmm3   # 16-byte Spill
-	movdqa	xmm14, xmm4
-	pminub	xmm14, xmm12
-	pcmpeqb	xmm14, xmm4
-	movdqa	xmm13, xmm14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI7_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm13, xmm4
-	paddb	xmm13, xmm14
-	movdqa	xmm14, xmm6
-	pminub	xmm14, xmm12
-	pcmpeqb	xmm14, xmm6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 13]
-	movd	xmm6, edx
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r12 + 3], 1
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rcx + 3], 2
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 3], 3
-	pinsrb	xmm5, byte ptr [rsi + r9 + 3], 4
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r10 + 3], 5
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 3], 6
-	mov	qword ptr [rsp + 80], r11       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + r11 + 3], 7
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r9 + 3], 8
-	pinsrb	xmm5, byte ptr [rsi + rbx + 3], 9
-	mov	qword ptr [rsp + 160], r14      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rsi + r14 + 3], 10
-	pinsrb	xmm5, byte ptr [rsi + r13 + 3], 11
-	pinsrb	xmm5, byte ptr [rsi + r8 + 3], 12
-	pinsrb	xmm5, byte ptr [rsi + r15 + 3], 13
-	pinsrb	xmm5, byte ptr [rsi + rax + 3], 14
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r15 + 3], 15
-	pinsrb	xmm9, byte ptr [rsi + r12 + 4], 1
-	pinsrb	xmm9, byte ptr [rsi + rcx + 4], 2
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdi + 4], 3
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdi + 4], 4
-	pinsrb	xmm9, byte ptr [rsi + r10 + 4], 5
-	pinsrb	xmm9, byte ptr [rsi + rdx + 4], 6
-	pinsrb	xmm9, byte ptr [rsi + r11 + 4], 7
-	pinsrb	xmm9, byte ptr [rsi + r9 + 4], 8
-	pinsrb	xmm9, byte ptr [rsi + rbx + 4], 9
-	pinsrb	xmm9, byte ptr [rsi + r14 + 4], 10
-	pinsrb	xmm9, byte ptr [rsi + r13 + 4], 11
-	pinsrb	xmm9, byte ptr [rsi + r8 + 4], 12
-	mov	rdi, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rdi + 4], 13
-	pinsrb	xmm9, byte ptr [rsi + rax + 4], 14
-	pinsrb	xmm9, byte ptr [rsi + r15 + 4], 15
-	pinsrb	xmm7, byte ptr [rsi + r12 + 5], 1
-	pinsrb	xmm7, byte ptr [rsi + rcx + 5], 2
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 5], 3
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 5], 4
-	pinsrb	xmm7, byte ptr [rsi + r10 + 5], 5
-	pinsrb	xmm7, byte ptr [rsi + rdx + 5], 6
-	pinsrb	xmm7, byte ptr [rsi + r11 + 5], 7
-	pinsrb	xmm7, byte ptr [rsi + r9 + 5], 8
-	pinsrb	xmm7, byte ptr [rsi + rbx + 5], 9
-	pinsrb	xmm7, byte ptr [rsi + r14 + 5], 10
-	pinsrb	xmm7, byte ptr [rsi + r13 + 5], 11
-	pinsrb	xmm7, byte ptr [rsi + r8 + 5], 12
-	mov	rdi, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 5], 13
-	pinsrb	xmm7, byte ptr [rsi + rax + 5], 14
-	pinsrb	xmm7, byte ptr [rsi + r15 + 5], 15
-	pinsrb	xmm0, byte ptr [rsi + r12 + 6], 1
-	pinsrb	xmm0, byte ptr [rsi + rcx + 6], 2
-	mov	r15, rcx
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r12 + 6], 3
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 6], 4
-	pinsrb	xmm0, byte ptr [rsi + r10 + 6], 5
-	pinsrb	xmm0, byte ptr [rsi + rdx + 6], 6
-	pinsrb	xmm0, byte ptr [rsi + r11 + 6], 7
-	pinsrb	xmm0, byte ptr [rsi + r9 + 6], 8
-	mov	r11, r9
-	pinsrb	xmm0, byte ptr [rsi + rbx + 6], 9
-	pinsrb	xmm0, byte ptr [rsi + r14 + 6], 10
-	pinsrb	xmm0, byte ptr [rsi + r13 + 6], 11
-	mov	r14, r13
-	pinsrb	xmm0, byte ptr [rsi + r8 + 6], 12
-	mov	r13, r8
-	mov	r8, qword ptr [rsp]             # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r8 + 6], 13
-	pandn	xmm8, xmm4
-	pinsrb	xmm0, byte ptr [rsi + rax + 6], 14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI7_11] # xmm4 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm14, xmm4
-	por	xmm14, xmm8
-	movdqa	xmm15, xmm5
-	pminub	xmm15, xmm12
-	pcmpeqb	xmm15, xmm5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 14]
-	movd	xmm5, edx
-	movdqa	xmm4, xmmword ptr [rip + .LCPI7_12] # xmm4 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm15, xmm4
-	por	xmm15, xmm14
-	movzx	edx, byte ptr [rsi + rax + 15]
-	movd	xmm8, edx
-	pcmpeqd	xmm3, xmm3
-	psubb	xmm13, xmm3
-	pcmpeqd	xmm14, xmm14
-	por	xmm15, xmm13
-	movdqa	xmm4, xmm9
-	pminub	xmm4, xmm12
-	pcmpeqb	xmm4, xmm9
-	movdqa	xmm9, xmm7
-	pminub	xmm9, xmm12
-	pcmpeqb	xmm9, xmm7
-	movzx	edx, byte ptr [rsi + rax + 17]
-	movd	xmm7, edx
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdi + 6], 15
-	movdqa	xmm1, xmmword ptr [rip + .LCPI7_13] # xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm4, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI7_14] # xmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm9, xmm1
-	por	xmm9, xmm4
-	movdqa	xmm4, xmm0
-	pminub	xmm4, xmm12
-	pcmpeqb	xmm4, xmm0
-	movzx	edx, byte ptr [rsi + rax + 18]
-	movd	xmm1, edx
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 7], 1
-	pinsrb	xmm0, byte ptr [rsi + r15 + 7], 2
-	mov	rbx, r12
-	pinsrb	xmm0, byte ptr [rsi + r12 + 7], 3
-	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r9 + 7], 4
-	pinsrb	xmm0, byte ptr [rsi + r10 + 7], 5
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r15 + 7], 6
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 7], 7
-	pinsrb	xmm0, byte ptr [rsi + r11 + 7], 8
-	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r12 + 7], 9
-	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r11 + 7], 10
-	pinsrb	xmm0, byte ptr [rsi + r14 + 7], 11
-	pinsrb	xmm0, byte ptr [rsi + r13 + 7], 12
-	pinsrb	xmm0, byte ptr [rsi + r8 + 7], 13
-	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 7], 14
-	pinsrb	xmm0, byte ptr [rsi + rdi + 7], 15
-	movdqa	xmm3, xmmword ptr [rip + .LCPI7_15] # xmm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm4, xmm3
-	por	xmm4, xmm9
-	movdqa	xmm9, xmm0
-	pminub	xmm9, xmm12
-	pcmpeqb	xmm9, xmm0
-	movzx	edx, byte ptr [rsi + rax + 19]
-	movd	xmm3, edx
-	pxor	xmm9, xmm14
-	psllw	xmm9, 7
-	movdqa	xmm0, xmmword ptr [rip + .LCPI7_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm9, xmm0
-	por	xmm9, xmm4
-	movdqa	xmm4, xmm9
-	movzx	edx, byte ptr [rsi + rax + 20]
-	movd	xmm9, edx
-	movdqa	xmm0, xmmword ptr [rsp + 192]   # 16-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 9], 1
-	mov	rax, rcx
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 9], 2
-	pinsrb	xmm0, byte ptr [rsi + rbx + 9], 3
-	pinsrb	xmm0, byte ptr [rsi + r9 + 9], 4
-	pinsrb	xmm0, byte ptr [rsi + r10 + 9], 5
-	pinsrb	xmm0, byte ptr [rsi + r15 + 9], 6
-	mov	r8, r15
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdi + 9], 7
-	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r15 + 9], 8
-	pinsrb	xmm0, byte ptr [rsi + r12 + 9], 9
-	mov	r10, r12
-	pinsrb	xmm0, byte ptr [rsi + r11 + 9], 10
-	pinsrb	xmm0, byte ptr [rsi + r14 + 9], 11
-	pinsrb	xmm0, byte ptr [rsi + r13 + 9], 12
-	mov	qword ptr [rsp + 104], r13      # 8-byte Spill
-	mov	r12, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r12 + 9], 13
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r9 + 9], 14
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 9], 15
-	pinsrb	xmm2, byte ptr [rsi + rax + 10], 1
-	pinsrb	xmm2, byte ptr [rsi + rcx + 10], 2
-	pinsrb	xmm2, byte ptr [rsi + rbx + 10], 3
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rbx + 10], 4
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 10], 5
-	pinsrb	xmm2, byte ptr [rsi + r8 + 10], 6
-	pinsrb	xmm2, byte ptr [rsi + rdi + 10], 7
-	pinsrb	xmm2, byte ptr [rsi + r15 + 10], 8
-	pinsrb	xmm2, byte ptr [rsi + r10 + 10], 9
-	pinsrb	xmm2, byte ptr [rsi + r11 + 10], 10
-	pinsrb	xmm2, byte ptr [rsi + r14 + 10], 11
-	pinsrb	xmm2, byte ptr [rsi + r13 + 10], 12
-	pinsrb	xmm2, byte ptr [rsi + r12 + 10], 13
-	pinsrb	xmm2, byte ptr [rsi + r9 + 10], 14
-	mov	r11, r9
-	pinsrb	xmm2, byte ptr [rsi + rdx + 10], 15
-	mov	r12, rdx
-	por	xmm4, xmm15
-	movdqa	xmmword ptr [rsp + 192], xmm4   # 16-byte Spill
-	movdqa	xmm4, xmm0
-	pminub	xmm4, xmm12
-	pcmpeqb	xmm4, xmm0
-	movdqa	xmm13, xmm4
-	movdqa	xmm14, xmmword ptr [rip + .LCPI7_10] # xmm14 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm13, xmm14
-	paddb	xmm13, xmm4
-	movdqa	xmm0, xmm2
-	pminub	xmm0, xmm12
-	pcmpeqb	xmm0, xmm2
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 21]
-	movd	xmm4, edx
-	pandn	xmm10, xmm14
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 1
-	mov	r13, rcx
-	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 2
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 3
-	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 4
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 5
-	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 6
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 7
-	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 8
-	mov	r9, r10
-	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 9
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 10
-	pinsrb	xmm11, byte ptr [rsi + r14 + 11], 11
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r14 + 11], 12
-	mov	rbx, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 13
-	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 14
-	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 15
-	pandn	xmm0, xmmword ptr [rip + .LCPI7_11]
-	por	xmm0, xmm10
-	movdqa	xmm10, xmm11
-	pminub	xmm10, xmm12
-	pcmpeqb	xmm10, xmm11
-	movzx	edx, byte ptr [rsi + rax + 22]
-	movd	xmm15, edx
-	pandn	xmm10, xmmword ptr [rip + .LCPI7_12]
-	por	xmm10, xmm0
-	movzx	edx, byte ptr [rsi + rax + 23]
-	movd	xmm11, edx
-	movdqa	xmm0, xmmword ptr [rsp + 304]   # 16-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r8 + 12], 1
-	mov	rax, r13
-	pinsrb	xmm0, byte ptr [rsi + r13 + 12], 2
-	mov	rdx, rcx
-	pinsrb	xmm0, byte ptr [rsi + rcx + 12], 3
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r15 + 12], 4
-	pinsrb	xmm0, byte ptr [rsi + rdi + 12], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 12], 6
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdi + 12], 7
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r11 + 12], 8
-	pinsrb	xmm0, byte ptr [rsi + r9 + 12], 9
-	pinsrb	xmm0, byte ptr [rsi + r10 + 12], 10
-	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r13 + 12], 11
-	pinsrb	xmm0, byte ptr [rsi + r14 + 12], 12
-	pinsrb	xmm0, byte ptr [rsi + rbx + 12], 13
-	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r10 + 12], 14
-	pinsrb	xmm0, byte ptr [rsi + r12 + 12], 15
-	pinsrb	xmm6, byte ptr [rsi + r8 + 13], 1
-	pinsrb	xmm6, byte ptr [rsi + rax + 13], 2
-	pinsrb	xmm6, byte ptr [rsi + rdx + 13], 3
-	mov	rax, r15
-	pinsrb	xmm6, byte ptr [rsi + r15 + 13], 4
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r15 + 13], 5
-	pinsrb	xmm6, byte ptr [rsi + rcx + 13], 6
-	pinsrb	xmm6, byte ptr [rsi + rdi + 13], 7
-	pinsrb	xmm6, byte ptr [rsi + r11 + 13], 8
-	pinsrb	xmm6, byte ptr [rsi + r9 + 13], 9
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 13], 10
-	pinsrb	xmm6, byte ptr [rsi + r13 + 13], 11
-	pinsrb	xmm6, byte ptr [rsi + r14 + 13], 12
-	pinsrb	xmm6, byte ptr [rsi + rbx + 13], 13
-	mov	r8, r10
-	pinsrb	xmm6, byte ptr [rsi + r10 + 13], 14
-	pinsrb	xmm6, byte ptr [rsi + r12 + 13], 15
-	psubb	xmm13, xmmword ptr [rip + .LCPI7_16]
-	por	xmm10, xmm13
-	movdqa	xmm2, xmm0
-	movdqa	xmm13, xmm12
-	pminub	xmm2, xmm12
-	pcmpeqb	xmm2, xmm0
-	movdqa	xmm0, xmm6
-	pminub	xmm0, xmm12
-	pcmpeqb	xmm0, xmm6
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 25]
-	movd	xmm12, edx
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rbx + 14], 1
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rcx + 14], 2
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r12 + 14], 3
-	mov	rdx, rax
-	pinsrb	xmm5, byte ptr [rsi + rax + 14], 4
-	mov	r9, r15
-	pinsrb	xmm5, byte ptr [rsi + r15 + 14], 5
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rcx + 14], 6
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r10 + 14], 7
-	mov	r15, r11
-	pinsrb	xmm5, byte ptr [rsi + r11 + 14], 8
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r11 + 14], 9
-	pinsrb	xmm5, byte ptr [rsi + rdi + 14], 10
-	mov	r14, r13
-	pinsrb	xmm5, byte ptr [rsi + r13 + 14], 11
-	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r13 + 14], 12
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 14], 13
-	pinsrb	xmm5, byte ptr [rsi + r8 + 14], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 14], 15
-	pinsrb	xmm8, byte ptr [rsi + rbx + 15], 1
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r8 + 15], 2
-	pinsrb	xmm8, byte ptr [rsi + r12 + 15], 3
-	pinsrb	xmm8, byte ptr [rsi + rdx + 15], 4
-	pinsrb	xmm8, byte ptr [rsi + r9 + 15], 5
-	pinsrb	xmm8, byte ptr [rsi + rcx + 15], 6
-	pinsrb	xmm8, byte ptr [rsi + r10 + 15], 7
-	pinsrb	xmm8, byte ptr [rsi + r15 + 15], 8
-	pinsrb	xmm8, byte ptr [rsi + r11 + 15], 9
-	pinsrb	xmm8, byte ptr [rsi + rdi + 15], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 15], 11
-	pinsrb	xmm8, byte ptr [rsi + r13 + 15], 12
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rax + 15], 13
-	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r8 + 15], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rax + 15], 15
-	pinsrb	xmm7, byte ptr [rsi + rbx + 17], 1
-	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 17], 2
-	pinsrb	xmm7, byte ptr [rsi + r12 + 17], 3
-	pinsrb	xmm7, byte ptr [rsi + rdx + 17], 4
-	pinsrb	xmm7, byte ptr [rsi + r9 + 17], 5
-	pinsrb	xmm7, byte ptr [rsi + rcx + 17], 6
-	pinsrb	xmm7, byte ptr [rsi + r10 + 17], 7
-	pinsrb	xmm7, byte ptr [rsi + r15 + 17], 8
-	pinsrb	xmm7, byte ptr [rsi + r11 + 17], 9
-	pinsrb	xmm7, byte ptr [rsi + rdi + 17], 10
-	pinsrb	xmm7, byte ptr [rsi + r14 + 17], 11
-	pinsrb	xmm7, byte ptr [rsi + r13 + 17], 12
-	mov	rax, qword ptr [rsp]            # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 17], 13
-	pinsrb	xmm7, byte ptr [rsi + r8 + 17], 14
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rax + 17], 15
-	pinsrb	xmm1, byte ptr [rsi + rbx + 18], 1
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rbx + 18], 2
-	pinsrb	xmm1, byte ptr [rsi + r12 + 18], 3
-	pinsrb	xmm1, byte ptr [rsi + rdx + 18], 4
-	pinsrb	xmm1, byte ptr [rsi + r9 + 18], 5
-	pinsrb	xmm1, byte ptr [rsi + rcx + 18], 6
-	pinsrb	xmm1, byte ptr [rsi + r10 + 18], 7
-	pinsrb	xmm1, byte ptr [rsi + r15 + 18], 8
-	mov	r12, r15
-	pinsrb	xmm1, byte ptr [rsi + r11 + 18], 9
-	pinsrb	xmm1, byte ptr [rsi + rdi + 18], 10
-	mov	r10, rdi
-	pinsrb	xmm1, byte ptr [rsi + r14 + 18], 11
-	mov	r15, r14
-	pinsrb	xmm1, byte ptr [rsi + r13 + 18], 12
-	mov	r9, qword ptr [rsp]             # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r9 + 18], 13
-	pandn	xmm2, xmmword ptr [rip + .LCPI7_13]
-	pandn	xmm0, xmmword ptr [rip + .LCPI7_14]
-	por	xmm0, xmm2
-	movdqa	xmm2, xmm5
-	pminub	xmm2, xmm13
-	pcmpeqb	xmm2, xmm5
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 26]
-	movd	xmm5, edx
-	pinsrb	xmm1, byte ptr [rsi + r8 + 18], 14
-	pandn	xmm2, xmmword ptr [rip + .LCPI7_15]
-	por	xmm2, xmm0
-	movdqa	xmm6, xmm8
-	pminub	xmm6, xmm13
-	pcmpeqb	xmm6, xmm8
-	movzx	edx, byte ptr [rsi + rax + 27]
-	movd	xmm0, edx
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rcx + 18], 15
-	pxor	xmm6, xmmword ptr [rip + .LCPI7_16]
-	psllw	xmm6, 7
-	pand	xmm6, xmmword ptr [rip + .LCPI7_6]
-	por	xmm6, xmm2
-	movzx	edx, byte ptr [rsi + rax + 28]
-	movd	xmm8, edx
-	por	xmm6, xmm10
-	movdqa	xmmword ptr [rsp + 176], xmm6   # 16-byte Spill
-	movdqa	xmm2, xmm7
-	pminub	xmm2, xmm13
-	pcmpeqb	xmm2, xmm7
-	movdqa	xmm14, xmm2
-	pandn	xmm14, xmmword ptr [rip + .LCPI7_10]
-	paddb	xmm14, xmm2
-	movdqa	xmm10, xmm1
-	pminub	xmm10, xmm13
-	pcmpeqb	xmm10, xmm1
-	movzx	edx, byte ptr [rsi + rax + 29]
-	movd	xmm6, edx
-	movzx	edx, byte ptr [rsi + rax + 30]
-	movzx	edi, byte ptr [rsi + rax + 31]
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 19], 1
-	pinsrb	xmm9, byte ptr [rsi + rax + 20], 1
-	pinsrb	xmm4, byte ptr [rsi + rax + 21], 1
-	pinsrb	xmm15, byte ptr [rsi + rax + 22], 1
-	pinsrb	xmm11, byte ptr [rsi + rax + 23], 1
-	pinsrb	xmm12, byte ptr [rsi + rax + 25], 1
-	pinsrb	xmm5, byte ptr [rsi + rax + 26], 1
-	pinsrb	xmm0, byte ptr [rsi + rax + 27], 1
-	pinsrb	xmm8, byte ptr [rsi + rax + 28], 1
-	pinsrb	xmm6, byte ptr [rsi + rax + 29], 1
-	movd	xmm1, edx
-	pinsrb	xmm1, byte ptr [rsi + rax + 30], 1
-	movd	xmm7, edi
-	pinsrb	xmm7, byte ptr [rsi + rax + 31], 1
-	mov	rax, rbx
-	pinsrb	xmm3, byte ptr [rsi + rbx + 19], 2
-	pinsrb	xmm9, byte ptr [rsi + rbx + 20], 2
-	pinsrb	xmm4, byte ptr [rsi + rbx + 21], 2
-	pinsrb	xmm15, byte ptr [rsi + rbx + 22], 2
-	pinsrb	xmm11, byte ptr [rsi + rbx + 23], 2
-	pinsrb	xmm12, byte ptr [rsi + rbx + 25], 2
-	pinsrb	xmm5, byte ptr [rsi + rbx + 26], 2
-	pinsrb	xmm0, byte ptr [rsi + rbx + 27], 2
-	pinsrb	xmm8, byte ptr [rsi + rbx + 28], 2
-	pinsrb	xmm6, byte ptr [rsi + rbx + 29], 2
-	pinsrb	xmm1, byte ptr [rsi + rbx + 30], 2
-	pinsrb	xmm7, byte ptr [rsi + rbx + 31], 2
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 19], 3
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 19], 4
-	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r13 + 19], 5
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdi + 19], 6
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r11 + 19], 7
-	pinsrb	xmm3, byte ptr [rsi + r12 + 19], 8
-	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r14 + 19], 9
-	pinsrb	xmm3, byte ptr [rsi + r10 + 19], 10
-	pinsrb	xmm3, byte ptr [rsi + r15 + 19], 11
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rbx + 19], 12
-	pinsrb	xmm3, byte ptr [rsi + r9 + 19], 13
-	pinsrb	xmm3, byte ptr [rsi + r8 + 19], 14
-	pinsrb	xmm3, byte ptr [rsi + rcx + 19], 15
-	pinsrb	xmm9, byte ptr [rsi + rax + 20], 3
-	pinsrb	xmm9, byte ptr [rsi + rdx + 20], 4
-	pinsrb	xmm9, byte ptr [rsi + r13 + 20], 5
-	pinsrb	xmm9, byte ptr [rsi + rdi + 20], 6
-	pinsrb	xmm9, byte ptr [rsi + r11 + 20], 7
-	pinsrb	xmm9, byte ptr [rsi + r12 + 20], 8
-	pinsrb	xmm9, byte ptr [rsi + r14 + 20], 9
-	pinsrb	xmm9, byte ptr [rsi + r10 + 20], 10
-	pinsrb	xmm9, byte ptr [rsi + r15 + 20], 11
-	pinsrb	xmm9, byte ptr [rsi + rbx + 20], 12
-	pinsrb	xmm9, byte ptr [rsi + r9 + 20], 13
-	pinsrb	xmm9, byte ptr [rsi + r8 + 20], 14
-	pinsrb	xmm9, byte ptr [rsi + rcx + 20], 15
-	pinsrb	xmm4, byte ptr [rsi + rax + 21], 3
-	pinsrb	xmm4, byte ptr [rsi + rdx + 21], 4
-	pinsrb	xmm4, byte ptr [rsi + r13 + 21], 5
-	pinsrb	xmm4, byte ptr [rsi + rdi + 21], 6
-	pinsrb	xmm4, byte ptr [rsi + r11 + 21], 7
-	pinsrb	xmm4, byte ptr [rsi + r12 + 21], 8
-	pinsrb	xmm4, byte ptr [rsi + r14 + 21], 9
-	pinsrb	xmm4, byte ptr [rsi + r10 + 21], 10
-	pinsrb	xmm4, byte ptr [rsi + r15 + 21], 11
-	pinsrb	xmm4, byte ptr [rsi + rbx + 21], 12
-	pinsrb	xmm4, byte ptr [rsi + r9 + 21], 13
-	pinsrb	xmm4, byte ptr [rsi + r8 + 21], 14
-	pinsrb	xmm4, byte ptr [rsi + rcx + 21], 15
-	pinsrb	xmm15, byte ptr [rsi + rax + 22], 3
-	pinsrb	xmm15, byte ptr [rsi + rdx + 22], 4
-	pinsrb	xmm15, byte ptr [rsi + r13 + 22], 5
-	pinsrb	xmm15, byte ptr [rsi + rdi + 22], 6
-	pinsrb	xmm15, byte ptr [rsi + r11 + 22], 7
-	pinsrb	xmm15, byte ptr [rsi + r12 + 22], 8
-	pinsrb	xmm15, byte ptr [rsi + r14 + 22], 9
-	pinsrb	xmm15, byte ptr [rsi + r10 + 22], 10
-	movdqa	xmm2, xmmword ptr [rsp + 272]   # 16-byte Reload
-	pandn	xmm2, xmmword ptr [rip + .LCPI7_10]
-	pinsrb	xmm15, byte ptr [rsi + r15 + 22], 11
-	pandn	xmm10, xmmword ptr [rip + .LCPI7_11]
-	por	xmm10, xmm2
-	pinsrb	xmm15, byte ptr [rsi + rbx + 22], 12
-	movdqa	xmm2, xmm3
-	pminub	xmm2, xmm13
-	pcmpeqb	xmm2, xmm3
-	pinsrb	xmm15, byte ptr [rsi + r9 + 22], 13
-	pandn	xmm2, xmmword ptr [rip + .LCPI7_12]
-	por	xmm2, xmm10
-	pinsrb	xmm15, byte ptr [rsi + r8 + 22], 14
-	psubb	xmm14, xmmword ptr [rip + .LCPI7_16]
-	por	xmm2, xmm14
-	movdqa	xmm10, xmm9
-	pminub	xmm10, xmm13
-	pcmpeqb	xmm10, xmm9
-	movdqa	xmm3, xmm4
-	movdqa	xmm9, xmm13
-	pminub	xmm3, xmm13
-	pcmpeqb	xmm3, xmm4
-	pinsrb	xmm15, byte ptr [rsi + rcx + 22], 15
-	movdqa	xmm13, xmmword ptr [rip + .LCPI7_13] # xmm13 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm10, xmm13
-	movdqa	xmm4, xmmword ptr [rip + .LCPI7_14] # xmm4 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm3, xmm4
-	por	xmm3, xmm10
-	movdqa	xmm4, xmm15
-	pminub	xmm4, xmm9
-	movdqa	xmm13, xmm9
-	pcmpeqb	xmm4, xmm15
-	pinsrb	xmm11, byte ptr [rsi + rax + 23], 3
-	pinsrb	xmm11, byte ptr [rsi + rdx + 23], 4
-	pinsrb	xmm11, byte ptr [rsi + r13 + 23], 5
-	pinsrb	xmm11, byte ptr [rsi + rdi + 23], 6
-	pinsrb	xmm11, byte ptr [rsi + r11 + 23], 7
-	pinsrb	xmm11, byte ptr [rsi + r12 + 23], 8
-	pinsrb	xmm11, byte ptr [rsi + r14 + 23], 9
-	pinsrb	xmm11, byte ptr [rsi + r10 + 23], 10
-	pinsrb	xmm11, byte ptr [rsi + r15 + 23], 11
-	pinsrb	xmm11, byte ptr [rsi + rbx + 23], 12
-	pinsrb	xmm11, byte ptr [rsi + r9 + 23], 13
-	pinsrb	xmm11, byte ptr [rsi + r8 + 23], 14
-	pinsrb	xmm11, byte ptr [rsi + rcx + 23], 15
-	movdqa	xmm15, xmmword ptr [rip + .LCPI7_15] # xmm15 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm4, xmm15
-	por	xmm4, xmm3
-	movdqa	xmm3, xmm11
-	pminub	xmm3, xmm9
-	pcmpeqb	xmm3, xmm11
-	pxor	xmm3, xmmword ptr [rip + .LCPI7_16]
-	psllw	xmm3, 7
-	movdqa	xmm11, xmmword ptr [rip + .LCPI7_6] # xmm11 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm3, xmm11
-	por	xmm3, xmm4
-	pinsrb	xmm12, byte ptr [rsi + rax + 25], 3
-	pinsrb	xmm12, byte ptr [rsi + rdx + 25], 4
-	pinsrb	xmm12, byte ptr [rsi + r13 + 25], 5
-	pinsrb	xmm12, byte ptr [rsi + rdi + 25], 6
-	pinsrb	xmm12, byte ptr [rsi + r11 + 25], 7
-	pinsrb	xmm12, byte ptr [rsi + r12 + 25], 8
-	pinsrb	xmm12, byte ptr [rsi + r14 + 25], 9
-	pinsrb	xmm12, byte ptr [rsi + r10 + 25], 10
-	pinsrb	xmm12, byte ptr [rsi + r15 + 25], 11
-	pinsrb	xmm12, byte ptr [rsi + rbx + 25], 12
-	pinsrb	xmm12, byte ptr [rsi + r9 + 25], 13
-	pinsrb	xmm12, byte ptr [rsi + r8 + 25], 14
-	pinsrb	xmm12, byte ptr [rsi + rcx + 25], 15
-	pinsrb	xmm5, byte ptr [rsi + rax + 26], 3
-	pinsrb	xmm5, byte ptr [rsi + rdx + 26], 4
-	pinsrb	xmm5, byte ptr [rsi + r13 + 26], 5
-	pinsrb	xmm5, byte ptr [rsi + rdi + 26], 6
-	pinsrb	xmm5, byte ptr [rsi + r11 + 26], 7
-	pinsrb	xmm5, byte ptr [rsi + r12 + 26], 8
-	pinsrb	xmm5, byte ptr [rsi + r14 + 26], 9
-	pinsrb	xmm5, byte ptr [rsi + r10 + 26], 10
-	pinsrb	xmm5, byte ptr [rsi + r15 + 26], 11
-	pinsrb	xmm5, byte ptr [rsi + rbx + 26], 12
-	pinsrb	xmm5, byte ptr [rsi + r9 + 26], 13
-	pinsrb	xmm5, byte ptr [rsi + r8 + 26], 14
-	pinsrb	xmm5, byte ptr [rsi + rcx + 26], 15
-	por	xmm3, xmm2
-	movdqa	xmm2, xmm12
-	pminub	xmm2, xmm9
-	pcmpeqb	xmm2, xmm12
-	movdqa	xmm9, xmm2
-	movdqa	xmm10, xmmword ptr [rip + .LCPI7_10] # xmm10 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm9, xmm10
-	paddb	xmm9, xmm2
-	movdqa	xmm4, xmm5
-	pminub	xmm4, xmm13
-	pcmpeqb	xmm4, xmm5
-	movdqa	xmm2, xmmword ptr [rsp + 240]   # 16-byte Reload
-	pandn	xmm2, xmm10
-	pinsrb	xmm0, byte ptr [rsi + rax + 27], 3
-	pinsrb	xmm0, byte ptr [rsi + rdx + 27], 4
-	pinsrb	xmm0, byte ptr [rsi + r13 + 27], 5
-	pinsrb	xmm0, byte ptr [rsi + rdi + 27], 6
-	pinsrb	xmm0, byte ptr [rsi + r11 + 27], 7
-	pinsrb	xmm0, byte ptr [rsi + r12 + 27], 8
-	pinsrb	xmm0, byte ptr [rsi + r14 + 27], 9
-	pinsrb	xmm0, byte ptr [rsi + r10 + 27], 10
-	pinsrb	xmm0, byte ptr [rsi + r15 + 27], 11
-	pinsrb	xmm0, byte ptr [rsi + rbx + 27], 12
-	pinsrb	xmm0, byte ptr [rsi + r9 + 27], 13
-	pinsrb	xmm0, byte ptr [rsi + r8 + 27], 14
-	pinsrb	xmm0, byte ptr [rsi + rcx + 27], 15
-	pandn	xmm4, xmmword ptr [rip + .LCPI7_11]
-	por	xmm4, xmm2
-	movdqa	xmm2, xmm0
-	pminub	xmm2, xmm13
-	pcmpeqb	xmm2, xmm0
-	pandn	xmm2, xmmword ptr [rip + .LCPI7_12]
-	por	xmm2, xmm4
-	pinsrb	xmm8, byte ptr [rsi + rax + 28], 3
-	pinsrb	xmm8, byte ptr [rsi + rdx + 28], 4
-	pinsrb	xmm8, byte ptr [rsi + r13 + 28], 5
-	pinsrb	xmm8, byte ptr [rsi + rdi + 28], 6
-	pinsrb	xmm8, byte ptr [rsi + r11 + 28], 7
-	pinsrb	xmm8, byte ptr [rsi + r12 + 28], 8
-	pinsrb	xmm8, byte ptr [rsi + r14 + 28], 9
-	pinsrb	xmm8, byte ptr [rsi + r10 + 28], 10
-	pinsrb	xmm8, byte ptr [rsi + r15 + 28], 11
-	pinsrb	xmm8, byte ptr [rsi + rbx + 28], 12
-	pinsrb	xmm8, byte ptr [rsi + r9 + 28], 13
-	pinsrb	xmm8, byte ptr [rsi + r8 + 28], 14
-	pinsrb	xmm8, byte ptr [rsi + rcx + 28], 15
-	pinsrb	xmm6, byte ptr [rsi + rax + 29], 3
-	pinsrb	xmm6, byte ptr [rsi + rdx + 29], 4
-	pinsrb	xmm6, byte ptr [rsi + r13 + 29], 5
-	pinsrb	xmm6, byte ptr [rsi + rdi + 29], 6
-	pinsrb	xmm6, byte ptr [rsi + r11 + 29], 7
-	pinsrb	xmm6, byte ptr [rsi + r12 + 29], 8
-	pinsrb	xmm6, byte ptr [rsi + r14 + 29], 9
-	pinsrb	xmm6, byte ptr [rsi + r10 + 29], 10
-	pinsrb	xmm6, byte ptr [rsi + r15 + 29], 11
-	pinsrb	xmm6, byte ptr [rsi + rbx + 29], 12
-	pinsrb	xmm6, byte ptr [rsi + r9 + 29], 13
-	pinsrb	xmm6, byte ptr [rsi + r8 + 29], 14
-	pinsrb	xmm6, byte ptr [rsi + rcx + 29], 15
-	pcmpeqd	xmm10, xmm10
-	psubb	xmm9, xmm10
-	por	xmm2, xmm9
-	movdqa	xmm0, xmm8
-	pminub	xmm0, xmm13
-	pcmpeqb	xmm0, xmm8
-	movdqa	xmm4, xmm6
-	pminub	xmm4, xmm13
-	pcmpeqb	xmm4, xmm6
-	pinsrb	xmm1, byte ptr [rsi + rax + 30], 3
-	pinsrb	xmm7, byte ptr [rsi + rax + 31], 3
-	pinsrb	xmm1, byte ptr [rsi + rdx + 30], 4
-	pinsrb	xmm7, byte ptr [rsi + rdx + 31], 4
-	pinsrb	xmm1, byte ptr [rsi + r13 + 30], 5
-	pinsrb	xmm7, byte ptr [rsi + r13 + 31], 5
-	pinsrb	xmm1, byte ptr [rsi + rdi + 30], 6
-	pinsrb	xmm7, byte ptr [rsi + rdi + 31], 6
-	pinsrb	xmm1, byte ptr [rsi + r11 + 30], 7
-	pinsrb	xmm7, byte ptr [rsi + r11 + 31], 7
-	pinsrb	xmm1, byte ptr [rsi + r12 + 30], 8
-	pinsrb	xmm7, byte ptr [rsi + r12 + 31], 8
-	pinsrb	xmm1, byte ptr [rsi + r14 + 30], 9
-	pinsrb	xmm7, byte ptr [rsi + r14 + 31], 9
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r10 + 30], 10
-	pinsrb	xmm7, byte ptr [rsi + r10 + 31], 10
-	pinsrb	xmm1, byte ptr [rsi + r15 + 30], 11
-	pinsrb	xmm7, byte ptr [rsi + r15 + 31], 11
-	pinsrb	xmm1, byte ptr [rsi + rbx + 30], 12
-	pinsrb	xmm7, byte ptr [rsi + rbx + 31], 12
-	pinsrb	xmm1, byte ptr [rsi + r9 + 30], 13
-	pinsrb	xmm7, byte ptr [rsi + r9 + 31], 13
-	pinsrb	xmm1, byte ptr [rsi + r8 + 30], 14
-	pinsrb	xmm7, byte ptr [rsi + r8 + 31], 14
-	pinsrb	xmm1, byte ptr [rsi + rcx + 30], 15
-	pinsrb	xmm7, byte ptr [rsi + rcx + 31], 15
-	pandn	xmm0, xmmword ptr [rip + .LCPI7_13]
-	pandn	xmm4, xmmword ptr [rip + .LCPI7_14]
-	por	xmm4, xmm0
-	movdqa	xmm0, xmm1
-	pminub	xmm0, xmm13
-	pcmpeqb	xmm0, xmm1
-	pandn	xmm0, xmm15
-	por	xmm0, xmm4
-	movdqa	xmm1, xmm7
-	pminub	xmm1, xmm13
-	pcmpeqb	xmm1, xmm7
-	pxor	xmm1, xmm10
-	psllw	xmm1, 7
-	pand	xmm1, xmm11
-	por	xmm1, xmm0
-	por	xmm1, xmm2
-	movdqa	xmm0, xmm3
-	punpcklbw	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
-	movdqa	xmm5, xmmword ptr [rsp + 192]   # 16-byte Reload
-	movdqa	xmm2, xmm5
-	movdqa	xmm6, xmmword ptr [rsp + 176]   # 16-byte Reload
-	punpcklbw	xmm2, xmm6              # xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1],xmm2[2],xmm6[2],xmm2[3],xmm6[3],xmm2[4],xmm6[4],xmm2[5],xmm6[5],xmm2[6],xmm6[6],xmm2[7],xmm6[7]
-	movdqa	xmm4, xmm2
-	punpcklwd	xmm4, xmm0              # xmm4 = xmm4[0],xmm0[0],xmm4[1],xmm0[1],xmm4[2],xmm0[2],xmm4[3],xmm0[3]
-	punpckhwd	xmm2, xmm0              # xmm2 = xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
-	punpckhbw	xmm3, xmm1              # xmm3 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
-	punpckhbw	xmm5, xmm6              # xmm5 = xmm5[8],xmm6[8],xmm5[9],xmm6[9],xmm5[10],xmm6[10],xmm5[11],xmm6[11],xmm5[12],xmm6[12],xmm5[13],xmm6[13],xmm5[14],xmm6[14],xmm5[15],xmm6[15]
-	movdqa	xmm0, xmm5
-	punpcklwd	xmm0, xmm3              # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
-	punpckhwd	xmm5, xmm3              # xmm5 = xmm5[4],xmm3[4],xmm5[5],xmm3[5],xmm5[6],xmm3[6],xmm5[7],xmm3[7]
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm5
-	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [rax + 4*rcx], xmm4
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	jne	.LBB7_67
-# %bb.68:
-	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
-	jne	.LBB7_69
-	jmp	.LBB7_72
-.LBB7_180:
-	mov	r8, r10
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rsi
-	lea	r14, [r12 + 4*r8]
-	movaps	xmm13, xmm11
-	shufps	xmm13, xmm11, 0                 # xmm13 = xmm13[0,0],xmm11[0,0]
-	add	rsi, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI7_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	.p2align	4, 0x90
-.LBB7_181:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm3, dword ptr [rsi - 508]     # xmm3 = mem[0],zero,zero,zero
-	movss	xmm10, dword ptr [rsi - 504]    # xmm10 = mem[0],zero,zero,zero
-	movss	xmm9, dword ptr [rsi - 500]     # xmm9 = mem[0],zero,zero,zero
-	movss	xmm1, dword ptr [rsi - 496]     # xmm1 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 380], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 252], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 124], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	insertps	xmm10, dword ptr [rsi - 376], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
-	insertps	xmm10, dword ptr [rsi - 248], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
-	insertps	xmm10, dword ptr [rsi - 120], 48 # xmm10 = xmm10[0,1,2],mem[0]
-	insertps	xmm9, dword ptr [rsi - 372], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	insertps	xmm9, dword ptr [rsi - 244], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	insertps	xmm9, dword ptr [rsi - 116], 48 # xmm9 = xmm9[0,1,2],mem[0]
-	insertps	xmm1, dword ptr [rsi - 368], 16 # xmm1 = xmm1[0],mem[0],xmm1[2,3]
-	insertps	xmm1, dword ptr [rsi - 240], 32 # xmm1 = xmm1[0,1],mem[0],xmm1[3]
-	insertps	xmm1, dword ptr [rsi - 112], 48 # xmm1 = xmm1[0,1,2],mem[0]
-	movss	xmm8, dword ptr [rsi - 492]     # xmm8 = mem[0],zero,zero,zero
-	insertps	xmm8, dword ptr [rsi - 364], 16 # xmm8 = xmm8[0],mem[0],xmm8[2,3]
-	insertps	xmm8, dword ptr [rsi - 236], 32 # xmm8 = xmm8[0,1],mem[0],xmm8[3]
-	movaps	xmm12, xmm13
-	insertps	xmm8, dword ptr [rsi - 108], 48 # xmm8 = xmm8[0,1,2],mem[0]
-	movss	xmm2, dword ptr [rsi - 488]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 360], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 232], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	cmpltps	xmm12, xmm3
-	insertps	xmm2, dword ptr [rsi - 104], 48 # xmm2 = xmm2[0,1,2],mem[0]
-	movss	xmm3, dword ptr [rsi - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	packssdw	xmm12, xmm12
-	insertps	xmm3, dword ptr [rsi - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	movss	xmm4, dword ptr [rsi - 476]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rsi - 348], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rsi - 220], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	packsswb	xmm12, xmm12
-	insertps	xmm4, dword ptr [rsi - 92], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	movaps	xmm7, xmm13
-	movss	xmm5, dword ptr [rsi - 444]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 316], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 188], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	cmpltps	xmm7, xmm4
-	insertps	xmm5, dword ptr [rsi - 60], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	movaps	xmm6, xmm13
-	movss	xmm0, dword ptr [rsi - 412]     # xmm0 = mem[0],zero,zero,zero
-	insertps	xmm0, dword ptr [rsi - 284], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
-	insertps	xmm0, dword ptr [rsi - 156], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
-	cmpltps	xmm6, xmm5
-	insertps	xmm0, dword ptr [rsi - 28], 48  # xmm0 = xmm0[0,1,2],mem[0]
-	movaps	xmm4, xmm13
-	cmpltps	xmm4, xmm0
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm10
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm14, xmm0
-	pand	xmm14, xmm15
-	psubb	xmm14, xmm0
-	movss	xmm10, dword ptr [rsi - 480]    # xmm10 = mem[0],zero,zero,zero
-	insertps	xmm10, dword ptr [rsi - 352], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
-	pand	xmm12, xmm15
-	insertps	xmm10, dword ptr [rsi - 224], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
-	por	xmm14, xmm12
-	movaps	xmm5, xmm13
-	cmpltps	xmm5, xmm9
-	insertps	xmm10, dword ptr [rsi - 96], 48 # xmm10 = xmm10[0,1,2],mem[0]
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	movdqa	xmm0, xmmword ptr [rip + .LCPI7_1] # xmm0 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	pand	xmm5, xmm0
-	por	xmm5, xmm14
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm1
-	movaps	xmm1, xmm13
-	cmpltps	xmm1, xmm8
-	movss	xmm9, dword ptr [rsi - 472]     # xmm9 = mem[0],zero,zero,zero
-	insertps	xmm9, dword ptr [rsi - 344], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	insertps	xmm9, dword ptr [rsi - 216], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	insertps	xmm9, dword ptr [rsi - 88], 48  # xmm9 = xmm9[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 3
-	movdqa	xmm14, xmmword ptr [rip + .LCPI7_2] # xmm14 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	pand	xmm0, xmm14
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	movdqa	xmm14, xmmword ptr [rip + .LCPI7_3] # xmm14 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	pand	xmm1, xmm14
-	por	xmm1, xmm0
-	movss	xmm12, dword ptr [rsi - 468]    # xmm12 = mem[0],zero,zero,zero
-	insertps	xmm12, dword ptr [rsi - 340], 16 # xmm12 = xmm12[0],mem[0],xmm12[2,3]
-	insertps	xmm12, dword ptr [rsi - 212], 32 # xmm12 = xmm12[0,1],mem[0],xmm12[3]
-	insertps	xmm12, dword ptr [rsi - 84], 48 # xmm12 = xmm12[0,1,2],mem[0]
-	por	xmm1, xmm5
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm2
-	movaps	xmm5, xmm13
-	cmpltps	xmm5, xmm3
-	movss	xmm2, dword ptr [rsi - 464]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 336], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 208], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	packssdw	xmm7, xmm7
-	insertps	xmm2, dword ptr [rsi - 80], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 5
-	movdqa	xmm14, xmmword ptr [rip + .LCPI7_4] # xmm14 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	pand	xmm0, xmm14
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 6
-	movdqa	xmm3, xmmword ptr [rip + .LCPI7_5] # xmm3 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	pand	xmm5, xmm3
-	por	xmm5, xmm0
-	movaps	xmm8, xmm13
-	cmpltps	xmm8, xmm10
-	movss	xmm3, dword ptr [rsi - 460]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 332], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 204], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 76], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm8, xmm8
-	packsswb	xmm8, xmm8
-	psllw	xmm8, 7
-	movdqa	xmm0, xmmword ptr [rip + .LCPI7_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm0
-	por	xmm8, xmm5
-	movss	xmm10, dword ptr [rsi - 456]    # xmm10 = mem[0],zero,zero,zero
-	insertps	xmm10, dword ptr [rsi - 328], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
-	insertps	xmm10, dword ptr [rsi - 200], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
-	packsswb	xmm7, xmm7
-	insertps	xmm10, dword ptr [rsi - 72], 48 # xmm10 = xmm10[0,1,2],mem[0]
-	por	xmm8, xmm1
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm9
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm0
-	movss	xmm9, dword ptr [rsi - 452]     # xmm9 = mem[0],zero,zero,zero
-	insertps	xmm9, dword ptr [rsi - 324], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	pand	xmm7, xmm15
-	insertps	xmm9, dword ptr [rsi - 196], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	por	xmm1, xmm7
-	movaps	xmm5, xmm13
-	cmpltps	xmm5, xmm12
-	insertps	xmm9, dword ptr [rsi - 68], 48  # xmm9 = xmm9[0,1,2],mem[0]
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmmword ptr [rip + .LCPI7_1]
-	por	xmm5, xmm1
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm2
-	movaps	xmm1, xmm13
-	cmpltps	xmm1, xmm3
-	movss	xmm3, dword ptr [rsi - 448]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 320], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 192], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 64], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 3
-	movdqa	xmm12, xmmword ptr [rip + .LCPI7_2] # xmm12 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	pand	xmm0, xmm12
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	pand	xmm1, xmmword ptr [rip + .LCPI7_3]
-	por	xmm1, xmm0
-	movss	xmm2, dword ptr [rsi - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm1, xmm5
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm10
-	movaps	xmm5, xmm13
-	cmpltps	xmm5, xmm9
-	movss	xmm7, dword ptr [rsi - 436]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 308], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 180], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	packssdw	xmm6, xmm6
-	insertps	xmm7, dword ptr [rsi - 52], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 5
-	pand	xmm0, xmm14
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 6
-	pand	xmm5, xmmword ptr [rip + .LCPI7_5]
-	por	xmm5, xmm0
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm3
-	movss	xmm3, dword ptr [rsi - 432]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 304], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 176], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 48], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	psllw	xmm0, 7
-	movdqa	xmm10, xmmword ptr [rip + .LCPI7_6] # xmm10 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm0, xmm10
-	por	xmm0, xmm5
-	movss	xmm5, dword ptr [rsi - 428]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 300], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 172], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 44], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm0, xmm1
-	movss	xmm9, dword ptr [rsi - 424]     # xmm9 = mem[0],zero,zero,zero
-	insertps	xmm9, dword ptr [rsi - 296], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	insertps	xmm9, dword ptr [rsi - 168], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	packsswb	xmm6, xmm6
-	insertps	xmm9, dword ptr [rsi - 40], 48  # xmm9 = xmm9[0,1,2],mem[0]
-	punpckldq	xmm8, xmm0              # xmm8 = xmm8[0],xmm0[0],xmm8[1],xmm0[1]
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm0
-	movss	xmm2, dword ptr [rsi - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	pand	xmm6, xmm15
-	insertps	xmm2, dword ptr [rsi - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	por	xmm1, xmm6
-	movaps	xmm6, xmm13
-	cmpltps	xmm6, xmm7
-	insertps	xmm2, dword ptr [rsi - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	movdqa	xmm0, xmmword ptr [rip + .LCPI7_1] # xmm0 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	pand	xmm6, xmm0
-	por	xmm6, xmm1
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm3
-	movaps	xmm1, xmm13
-	cmpltps	xmm1, xmm5
-	movss	xmm3, dword ptr [rsi - 416]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 288], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 160], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 32], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 3
-	pand	xmm0, xmm12
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	movdqa	xmm12, xmmword ptr [rip + .LCPI7_3] # xmm12 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	pand	xmm1, xmm12
-	por	xmm1, xmm0
-	movss	xmm5, dword ptr [rsi - 408]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 280], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 152], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 24], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm1, xmm6
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm9
-	movaps	xmm6, xmm13
-	cmpltps	xmm6, xmm2
-	movss	xmm7, dword ptr [rsi - 404]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 276], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 148], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	packssdw	xmm4, xmm4
-	insertps	xmm7, dword ptr [rsi - 20], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 5
-	pand	xmm0, xmm14
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 6
-	movdqa	xmm9, xmmword ptr [rip + .LCPI7_5] # xmm9 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	pand	xmm6, xmm9
-	por	xmm6, xmm0
-	movaps	xmm2, xmm13
-	cmpltps	xmm2, xmm3
-	movss	xmm0, dword ptr [rsi - 400]     # xmm0 = mem[0],zero,zero,zero
-	insertps	xmm0, dword ptr [rsi - 272], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
-	insertps	xmm0, dword ptr [rsi - 144], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
-	insertps	xmm0, dword ptr [rsi - 16], 48  # xmm0 = xmm0[0,1,2],mem[0]
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm10
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rsi - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	packsswb	xmm4, xmm4
-	insertps	xmm6, dword ptr [rsi - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	por	xmm2, xmm1
-	movaps	xmm1, xmm13
-	cmpltps	xmm1, xmm5
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movss	xmm3, dword ptr [rsi - 392]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 264], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	pand	xmm4, xmm15
-	insertps	xmm3, dword ptr [rsi - 136], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	por	xmm5, xmm4
-	movaps	xmm4, xmm13
-	cmpltps	xmm4, xmm7
-	insertps	xmm3, dword ptr [rsi - 8], 48   # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 2
-	pand	xmm4, xmmword ptr [rip + .LCPI7_1]
-	por	xmm4, xmm5
-	movaps	xmm5, xmm13
-	cmpltps	xmm5, xmm0
-	movaps	xmm1, xmm13
-	cmpltps	xmm1, xmm6
-	movss	xmm0, dword ptr [rsi - 388]     # xmm0 = mem[0],zero,zero,zero
-	insertps	xmm0, dword ptr [rsi - 260], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
-	insertps	xmm0, dword ptr [rsi - 132], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
-	insertps	xmm0, dword ptr [rsi - 4], 48   # xmm0 = xmm0[0,1,2],mem[0]
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmmword ptr [rip + .LCPI7_2]
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	pand	xmm1, xmm12
-	por	xmm1, xmm5
-	movss	xmm5, dword ptr [rsi - 384]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 256], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 128], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	por	xmm1, xmm4
-	movaps	xmm4, xmm13
-	cmpltps	xmm4, xmm3
-	movaps	xmm3, xmm13
-	cmpltps	xmm3, xmm0
-	insertps	xmm5, dword ptr [rsi], 48       # xmm5 = xmm5[0,1,2],mem[0]
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 5
-	pand	xmm4, xmm14
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm9
-	por	xmm3, xmm4
-	movaps	xmm0, xmm13
-	cmpltps	xmm0, xmm5
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	psllw	xmm0, 7
-	pand	xmm0, xmm10
-	por	xmm0, xmm3
-	por	xmm0, xmm1
-	punpckldq	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	punpcklbw	xmm8, xmm2              # xmm8 = xmm8[0],xmm2[0],xmm8[1],xmm2[1],xmm8[2],xmm2[2],xmm8[3],xmm2[3],xmm8[4],xmm2[4],xmm8[5],xmm2[5],xmm8[6],xmm2[6],xmm8[7],xmm2[7]
-	pshufb	xmm8, xmmword ptr [rip + .LCPI7_7] # xmm8 = xmm8[0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	movdqu	xmmword ptr [r12 + 4*rcx], xmm8
-	add	rcx, 4
-	add	rsi, 512
-	cmp	r8, rcx
-	jne	.LBB7_181
-# %bb.182:
-	cmp	r10, r8
-	jne	.LBB7_183
-	jmp	.LBB7_186
-.LBB7_122:
-	and	r14, -8
-	mov	rax, r14
-	shl	rax, 6
-	add	rax, rsi
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 24], r14       # 8-byte Spill
-	lea	rax, [r12 + 4*r14]
-	mov	qword ptr [rsp], rax            # 8-byte Spill
-	movd	xmm0, dword ptr [rsp + 240]     # 4-byte Folded Reload
-                                        # xmm0 = mem[0],zero,zero,zero
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	xor	r15d, r15d
-	movdqa	xmm15, xmmword ptr [rip + .LCPI7_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	movdqa	xmm9, xmmword ptr [rip + .LCPI7_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI7_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI7_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI7_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI7_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI7_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB7_123:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 16], r15       # 8-byte Spill
-	shl	r15, 6
-	mov	r9, r15
-	mov	r12, r15
-	mov	r13, r15
-	mov	rcx, r15
-	mov	rdi, r15
-	mov	rbx, r15
-	movzx	r14d, word ptr [rsi + r15]
-	movzx	eax, word ptr [rsi + r15 + 2]
-	movzx	r11d, word ptr [rsi + r15 + 4]
-	movzx	edx, word ptr [rsi + r15 + 6]
-	movzx	r10d, word ptr [rsi + r15 + 8]
-	mov	r8, r15
-	or	r8, 64
-	or	r9, 128
-	or	r12, 192
-	or	r13, 256
-	or	rcx, 320
-	or	rdi, 384
-	or	rbx, 448
-	movd	xmm4, r14d
-	pinsrw	xmm4, word ptr [rsi + r8], 1
-	pinsrw	xmm4, word ptr [rsi + r9], 2
-	pinsrw	xmm4, word ptr [rsi + r12], 3
-	pinsrw	xmm4, word ptr [rsi + r13], 4
-	pinsrw	xmm4, word ptr [rsi + rcx], 5
-	pinsrw	xmm4, word ptr [rsi + rdi], 6
-	pinsrw	xmm4, word ptr [rsi + rbx], 7
-	movzx	r14d, word ptr [rsi + r15 + 10]
-	movd	xmm6, eax
-	pinsrw	xmm6, word ptr [rsi + r8 + 2], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 2], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 2], 3
-	movzx	eax, word ptr [rsi + r15 + 12]
-	mov	dword ptr [rsp + 8], eax        # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + r13 + 2], 4
-	movd	xmm2, r11d
-	movzx	r11d, word ptr [rsi + r15 + 14]
-	pinsrw	xmm6, word ptr [rsi + rcx + 2], 5
-	movd	xmm5, edx
-	movzx	edx, word ptr [rsi + r15 + 16]
-	pinsrw	xmm6, word ptr [rsi + rdi + 2], 6
-	movd	xmm3, r10d
-	movzx	eax, word ptr [rsi + r15 + 18]
-	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + rbx + 2], 7
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	movdqa	xmm1, xmm6
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm6
-	movd	xmm6, r14d
-	movzx	r10d, word ptr [rsi + r15 + 20]
-	pcmpgtw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	pinsrw	xmm2, word ptr [rsi + r8 + 4], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 4], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 4], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 4], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 4], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 4], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 4], 7
-	pinsrw	xmm5, word ptr [rsi + r8 + 6], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 6], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 6], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 6], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 6], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 6], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 6], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 8], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 8], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 8], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 8], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 8], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 8], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 8], 7
-	por	xmm1, xmm4
-	movd	xmm7, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rsi + r15 + 22]
-	pcmpgtw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 2
-	pand	xmm2, xmm9
-	por	xmm2, xmm1
-	movd	xmm4, r11d
-	movzx	r11d, word ptr [rsi + r15 + 24]
-	pcmpgtw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	pcmpgtw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm5
-	movd	xmm1, edx
-	movzx	edx, word ptr [rsi + r15 + 26]
-	pinsrw	xmm6, word ptr [rsi + r8 + 10], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 10], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 10], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 10], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 10], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 10], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 10], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 12], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 12], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 12], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 12], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 12], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 12], 6
-	pinsrw	xmm7, word ptr [rsi + rbx + 12], 7
-	por	xmm3, xmm2
-	movd	xmm8, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm8 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rsi + r15 + 28]
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpgtw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm5, r10d
-	movzx	r10d, word ptr [rsi + r15 + 30]
-	pinsrw	xmm4, word ptr [rsi + r8 + 14], 1
-	pinsrw	xmm4, word ptr [rsi + r9 + 14], 2
-	pinsrw	xmm4, word ptr [rsi + r12 + 14], 3
-	pinsrw	xmm4, word ptr [rsi + r13 + 14], 4
-	pinsrw	xmm4, word ptr [rsi + rcx + 14], 5
-	pinsrw	xmm4, word ptr [rsi + rdi + 14], 6
-	pinsrw	xmm4, word ptr [rsi + rbx + 14], 7
-	pinsrw	xmm8, word ptr [rsi + r8 + 18], 1
-	pinsrw	xmm8, word ptr [rsi + r9 + 18], 2
-	pinsrw	xmm8, word ptr [rsi + r12 + 18], 3
-	pinsrw	xmm8, word ptr [rsi + r13 + 18], 4
-	pinsrw	xmm8, word ptr [rsi + rcx + 18], 5
-	pinsrw	xmm8, word ptr [rsi + rdi + 18], 6
-	pinsrw	xmm8, word ptr [rsi + rbx + 18], 7
-	pcmpgtw	xmm4, xmm0
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rsi + r15 + 32]
-	por	xmm4, xmm3
-	pcmpgtw	xmm8, xmm0
-	packsswb	xmm8, xmm8
-	movdqa	xmm7, xmm8
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm8
-	movd	xmm3, r11d
-	movzx	r11d, word ptr [rsi + r15 + 34]
-	pinsrw	xmm1, word ptr [rsi + r8 + 16], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 16], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 16], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 16], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 16], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 16], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 16], 7
-	pcmpgtw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	por	xmm7, xmm1
-	movd	xmm6, edx
-	movzx	edx, word ptr [rsi + r15 + 36]
-	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
-	pinsrw	xmm5, word ptr [rsi + r8 + 20], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 20], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 20], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 20], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 20], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 20], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 20], 7
-	pcmpgtw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm9
-	por	xmm5, xmm7
-	movd	xmm7, r14d
-	movzx	edx, word ptr [rsi + r15 + 38]
-	mov	dword ptr [rsp + 40], edx       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r8 + 22], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 22], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 22], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 22], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 22], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 22], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 22], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 24], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 24], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 24], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 24], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 24], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 24], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 24], 7
-	pcmpgtw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	pcmpgtw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 4
-	pand	xmm3, xmm11
-	por	xmm3, xmm2
-	movd	xmm2, r10d
-	movzx	r14d, word ptr [rsi + r15 + 40]
-	por	xmm3, xmm5
-	movd	xmm5, eax
-	movzx	eax, word ptr [rsi + r15 + 42]
-	mov	dword ptr [rsp + 8], eax        # 4-byte Spill
-	pinsrw	xmm6, word ptr [rsi + r8 + 26], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 26], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 26], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 26], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 26], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 26], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 26], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 28], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 28], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 28], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 28], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 28], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 28], 6
-	pinsrw	xmm7, word ptr [rsi + rbx + 28], 7
-	pinsrw	xmm2, word ptr [rsi + r8 + 30], 1
-	pinsrw	xmm2, word ptr [rsi + r9 + 30], 2
-	pinsrw	xmm2, word ptr [rsi + r12 + 30], 3
-	pinsrw	xmm2, word ptr [rsi + r13 + 30], 4
-	pinsrw	xmm2, word ptr [rsi + rcx + 30], 5
-	pinsrw	xmm2, word ptr [rsi + rdi + 30], 6
-	pinsrw	xmm2, word ptr [rsi + rbx + 30], 7
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpgtw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm6
-	movd	xmm1, r11d
-	movzx	r10d, word ptr [rsi + r15 + 44]
-	pcmpgtw	xmm2, xmm0
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm14
-	por	xmm2, xmm7
-	movd	xmm6, dword ptr [rsp + 32]      # 4-byte Folded Reload
-                                        # xmm6 = mem[0],zero,zero,zero
-	movzx	edx, word ptr [rsi + r15 + 46]
-	pinsrw	xmm5, word ptr [rsi + r8 + 32], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 32], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 32], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 32], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 32], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 32], 6
-	pinsrw	xmm1, word ptr [rsi + r8 + 34], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 34], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 34], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 34], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 34], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 34], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 34], 7
-	por	xmm2, xmm3
-	pcmpgtw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm7, xmm1
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm1
-	movd	xmm3, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	r11d, word ptr [rsi + r15 + 48]
-	pinsrw	xmm5, word ptr [rsi + rbx + 32], 7
-	pcmpgtw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	pinsrw	xmm6, word ptr [rsi + r8 + 36], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 36], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 36], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 36], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 36], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 36], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 36], 7
-	pinsrw	xmm3, word ptr [rsi + r8 + 38], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 38], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 38], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 38], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 38], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 38], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 38], 7
-	por	xmm7, xmm5
-	movd	xmm5, r14d
-	pinsrw	xmm5, word ptr [rsi + r8 + 40], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 40], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 40], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 40], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 40], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 40], 6
-	movzx	eax, word ptr [rsi + r15 + 50]
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	pand	xmm6, xmm9
-	por	xmm6, xmm7
-	movd	xmm1, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rsi + r15 + 52]
-	pinsrw	xmm5, word ptr [rsi + rbx + 40], 7
-	pcmpgtw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 3
-	pand	xmm3, xmm10
-	pcmpgtw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm3
-	movd	xmm7, r10d
-	movzx	r10d, word ptr [rsi + r15 + 54]
-	pinsrw	xmm1, word ptr [rsi + r8 + 42], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 42], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 42], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 42], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 42], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 42], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 42], 7
-	pinsrw	xmm7, word ptr [rsi + r8 + 44], 1
-	pinsrw	xmm7, word ptr [rsi + r9 + 44], 2
-	pinsrw	xmm7, word ptr [rsi + r12 + 44], 3
-	pinsrw	xmm7, word ptr [rsi + r13 + 44], 4
-	pinsrw	xmm7, word ptr [rsi + rcx + 44], 5
-	pinsrw	xmm7, word ptr [rsi + rdi + 44], 6
-	por	xmm5, xmm6
-	movd	xmm3, edx
-	movzx	edx, word ptr [rsi + r15 + 56]
-	pinsrw	xmm7, word ptr [rsi + rbx + 44], 7
-	pcmpgtw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 5
-	pand	xmm1, xmm12
-	pcmpgtw	xmm7, xmm0
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 6
-	pand	xmm7, xmm13
-	por	xmm7, xmm1
-	movd	xmm6, r11d
-	movzx	r11d, word ptr [rsi + r15 + 58]
-	pinsrw	xmm3, word ptr [rsi + r8 + 46], 1
-	pinsrw	xmm3, word ptr [rsi + r9 + 46], 2
-	pinsrw	xmm3, word ptr [rsi + r12 + 46], 3
-	pinsrw	xmm3, word ptr [rsi + r13 + 46], 4
-	pinsrw	xmm3, word ptr [rsi + rcx + 46], 5
-	pinsrw	xmm3, word ptr [rsi + rdi + 46], 6
-	pinsrw	xmm3, word ptr [rsi + rbx + 46], 7
-	pcmpgtw	xmm3, xmm0
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm7
-	movd	xmm1, eax
-	movzx	eax, word ptr [rsi + r15 + 60]
-	movzx	r15d, word ptr [rsi + r15 + 62]
-	pinsrw	xmm1, word ptr [rsi + r8 + 50], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 50], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 50], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 50], 7
-	por	xmm3, xmm5
-	pcmpgtw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movd	xmm1, r14d
-	pinsrw	xmm6, word ptr [rsi + r8 + 48], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 48], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 48], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 48], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 48], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 48], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 48], 7
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pinsrw	xmm1, word ptr [rsi + r8 + 52], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 52], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 52], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 52], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 52], 5
-	pand	xmm6, xmm15
-	pinsrw	xmm1, word ptr [rsi + rdi + 52], 6
-	por	xmm5, xmm6
-	movd	xmm6, r10d
-	pinsrw	xmm1, word ptr [rsi + rbx + 52], 7
-	pcmpgtw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 2
-	pand	xmm1, xmm9
-	por	xmm1, xmm5
-	movd	xmm5, edx
-	pinsrw	xmm6, word ptr [rsi + r8 + 54], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 54], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 54], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 54], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 54], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 54], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 54], 7
-	pinsrw	xmm5, word ptr [rsi + r8 + 56], 1
-	pinsrw	xmm5, word ptr [rsi + r9 + 56], 2
-	pinsrw	xmm5, word ptr [rsi + r12 + 56], 3
-	pinsrw	xmm5, word ptr [rsi + r13 + 56], 4
-	pinsrw	xmm5, word ptr [rsi + rcx + 56], 5
-	pinsrw	xmm5, word ptr [rsi + rdi + 56], 6
-	pinsrw	xmm5, word ptr [rsi + rbx + 56], 7
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 3
-	pand	xmm6, xmm10
-	pcmpgtw	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm6
-	movd	xmm6, r11d
-	pinsrw	xmm6, word ptr [rsi + r8 + 58], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 58], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 58], 3
-	pinsrw	xmm6, word ptr [rsi + r13 + 58], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 58], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 58], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 58], 7
-	por	xmm5, xmm1
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + r8 + 60], 1
-	pinsrw	xmm1, word ptr [rsi + r9 + 60], 2
-	pinsrw	xmm1, word ptr [rsi + r12 + 60], 3
-	pinsrw	xmm1, word ptr [rsi + r13 + 60], 4
-	pinsrw	xmm1, word ptr [rsi + rcx + 60], 5
-	pinsrw	xmm1, word ptr [rsi + rdi + 60], 6
-	pinsrw	xmm1, word ptr [rsi + rbx + 60], 7
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	pcmpgtw	xmm1, xmm0
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 6
-	pand	xmm1, xmm13
-	por	xmm1, xmm6
-	movd	xmm6, r15d
-	pinsrw	xmm6, word ptr [rsi + r8 + 62], 1
-	pinsrw	xmm6, word ptr [rsi + r9 + 62], 2
-	pinsrw	xmm6, word ptr [rsi + r12 + 62], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrw	xmm6, word ptr [rsi + r13 + 62], 4
-	pinsrw	xmm6, word ptr [rsi + rcx + 62], 5
-	pinsrw	xmm6, word ptr [rsi + rdi + 62], 6
-	pinsrw	xmm6, word ptr [rsi + rbx + 62], 7
-	pcmpgtw	xmm6, xmm0
-	packsswb	xmm6, xmm6
-	psllw	xmm6, 7
-	pand	xmm6, xmm14
-	por	xmm6, xmm1
-	por	xmm6, xmm5
-	movdqa	xmm1, xmm4
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqa	xmm5, xmm3
-	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
-	movdqa	xmm7, xmmword ptr [rip + .LCPI7_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm5, xmm7
-	pshufb	xmm1, xmm7
-	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
-	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	movdqu	xmmword ptr [rax + 4*rcx], xmm4
-	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm1
-	add	rcx, 8
-	mov	r15, rcx
-	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	jne	.LBB7_123
-# %bb.124:
-	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
-	cmp	r14, qword ptr [rsp + 24]       # 8-byte Folded Reload
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r12, qword ptr [rsp]            # 8-byte Reload
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	jne	.LBB7_125
-	jmp	.LBB7_128
-.Lfunc_end7:
-	.size	comparison_greater_arr_scalar_sse4, .Lfunc_end7-comparison_greater_arr_scalar_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_greater_scalar_arr_sse4
-.LCPI8_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI8_1:
-	.zero	16,252
-.LCPI8_2:
-	.zero	16,248
-.LCPI8_3:
-	.zero	16,240
-.LCPI8_4:
-	.zero	16,224
-.LCPI8_5:
-	.zero	16,192
-.LCPI8_6:
-	.zero	16,128
-.LCPI8_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI8_8:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI8_9:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI8_10:
-	.zero	16,1
-.LCPI8_11:
-	.zero	16,4
-.LCPI8_12:
-	.zero	16,8
-.LCPI8_13:
-	.zero	16,16
-.LCPI8_14:
-	.zero	16,32
-.LCPI8_15:
-	.zero	16,64
-.LCPI8_16:
-	.zero	16,255
-	.text
-	.globl	comparison_greater_scalar_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_greater_scalar_arr_sse4,@function
-comparison_greater_scalar_arr_sse4:     # @comparison_greater_scalar_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 336
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB8_16
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB8_31
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB8_81
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB8_92
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB8_182
-# %bb.5:
-	mov	r13d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_7:                                # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rdx], r13d
-	lea	rdx, [rdx + 4]
-	sbb	esi, esi
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_7
-# %bb.8:
-	add	r14, 1
-.LBB8_9:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_13
-# %bb.10:
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_11:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	r13d, dword ptr [rdx]
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	seta	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	seta	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	seta	al
-	cmp	r13d, dword ptr [rdx + 28]
-	seta	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	seta	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	seta	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	seta	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	seta	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	seta	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	seta	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	seta	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	seta	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_11
-# %bb.12:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB8_13:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.14:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_162
-# %bb.15:
-	xor	r11d, r11d
-	jmp	.LBB8_164
-.LBB8_16:
-	cmp	edi, 8
-	jle	.LBB8_45
-# %bb.17:
-	cmp	edi, 9
-	je	.LBB8_104
-# %bb.18:
-	cmp	edi, 11
-	je	.LBB8_115
-# %bb.19:
-	cmp	edi, 12
-	jne	.LBB8_182
-# %bb.20:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB8_24
-# %bb.21:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_22:                               # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	seta	bl
-	add	rdx, 8
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r14 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_22
-# %bb.23:
-	add	r14, 1
-.LBB8_24:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_28
-# %bb.25:
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_26:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	ucomisd	xmm0, qword ptr [rdx]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	seta	r8b
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	seta	r14b
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	seta	r13b
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	seta	al
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	seta	r11b
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	seta	sil
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	seta	dil
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	seta	r9b
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	seta	r10b
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	seta	r12b
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	seta	cl
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	seta	r15b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	seta	bl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, sil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r13b
-	mov	r8d, eax
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	shl	r9b, 3
-	or	r9b, dil
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB8_26
-# %bb.27:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-.LBB8_28:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.29:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_166
-# %bb.30:
-	xor	edi, edi
-	jmp	.LBB8_168
-.LBB8_31:
-	cmp	edi, 2
-	je	.LBB8_58
-# %bb.32:
-	cmp	edi, 3
-	jne	.LBB8_182
-# %bb.33:
-	mov	r11b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_37
-# %bb.34:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_35:                               # =>This Inner Loop Header: Depth=1
-	cmp	r11b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r14 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_35
-# %bb.36:
-	add	r14, 1
-.LBB8_37:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_127
-# %bb.38:
-	cmp	r15, 16
-	mov	byte ptr [rsp], r11b            # 1-byte Spill
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
-	jb	.LBB8_41
-# %bb.39:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r14, rax
-	jae	.LBB8_191
-# %bb.40:
-	lea	rax, [r14 + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB8_191
-.LBB8_41:
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rsi, rdx
-	mov	qword ptr [rsp + 88], r14       # 8-byte Spill
-.LBB8_42:
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_43:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	r11b, byte ptr [rsi]
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rsi + 1]
-	setg	dil
-	cmp	r11b, byte ptr [rsi + 2]
-	setg	r11b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 3]
-	setg	r15b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 4]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 5]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 6]
-	setg	bl
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 7]
-	setg	r13b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 8]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 9]
-	setg	sil
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 10]
-	setg	r8b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 11]
-	setg	r9b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 12]
-	setg	r14b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 13]
-	setg	r12b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 14]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 15]
-	setg	al
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 16]
-	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 17]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 18]
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 19]
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 20]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 21]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 22]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 23]
-	setg	r10b
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 24]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 25]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 26]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 27]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 28]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 29]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 30]
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 31]
-	setg	dl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r13b, 7
-	or	r13b, bl
-	shl	r11b, 2
-	or	r11b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	r11d, byte ptr [rsp]            # 1-byte Folded Reload
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	ebx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r15b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r14b, 4
-	or	r14b, r9b
-	shl	r12b, 5
-	or	r12b, r14b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	al, 7
-	or	al, sil
-	or	r13b, bl
-	or	al, r12b
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	mov	byte ptr [rdi], r13b
-	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r10b, 7
-	or	r10b, sil
-	mov	byte ptr [rdi + 1], al
-	or	r10b, bl
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rdi + 2], r10b
-	mov	byte ptr [rdi + 3], dl
-	lea	rsi, [rcx + 32]
-	add	rdi, 4
-	mov	qword ptr [rsp + 88], rdi       # 8-byte Spill
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_43
-# %bb.44:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	jmp	.LBB8_128
-.LBB8_45:
-	cmp	edi, 7
-	je	.LBB8_70
-# %bb.46:
-	cmp	edi, 8
-	jne	.LBB8_182
-# %bb.47:
-	mov	r13, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_51
-# %bb.48:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_49:                               # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rdx], r13
-	lea	rdx, [rdx + 8]
-	sbb	esi, esi
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_49
-# %bb.50:
-	add	r14, 1
-.LBB8_51:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_55
-# %bb.52:
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_53:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	r13, qword ptr [rdx]
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	seta	dil
-	cmp	r13, qword ptr [rdx + 16]
-	seta	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	seta	al
-	cmp	r13, qword ptr [rdx + 56]
-	seta	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	seta	sil
-	cmp	r13, qword ptr [rdx + 80]
-	seta	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	seta	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	seta	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	seta	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	seta	cl
-	cmp	r13, qword ptr [rdx + 128]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	seta	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	seta	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_53
-# %bb.54:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB8_55:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.56:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_143
-# %bb.57:
-	xor	r11d, r11d
-	jmp	.LBB8_145
-.LBB8_58:
-	mov	r11b, byte ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_62
-# %bb.59:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_60:                               # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rdx], r11b
-	lea	rdx, [rdx + 1]
-	sbb	esi, esi
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_60
-# %bb.61:
-	add	r14, 1
-.LBB8_62:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_131
-# %bb.63:
-	cmp	r15, 16
-	mov	byte ptr [rsp], r11b            # 1-byte Spill
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
-	jb	.LBB8_66
-# %bb.64:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r14, rax
-	jae	.LBB8_194
-# %bb.65:
-	lea	rax, [r14 + 4*r15]
-	cmp	rdx, rax
-	jae	.LBB8_194
-.LBB8_66:
-	xor	eax, eax
-	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
-	mov	rsi, rdx
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-.LBB8_67:
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_68:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	r11b, byte ptr [rsi]
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r11b, byte ptr [rsi + 1]
-	seta	dil
-	cmp	r11b, byte ptr [rsi + 2]
-	seta	r11b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 3]
-	seta	r15b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 4]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 5]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 6]
-	seta	bl
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 7]
-	seta	r13b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 8]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rsi + 9]
-	seta	sil
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 10]
-	seta	r8b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 11]
-	seta	r9b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 12]
-	seta	r14b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 13]
-	seta	r12b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 14]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rcx + 15]
-	seta	al
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 16]
-	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 17]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 18]
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 19]
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 20]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 21]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 22]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 23]
-	seta	r10b
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 24]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 25]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 26]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 27]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 28]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 29]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 30]
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	dl, byte ptr [rcx + 31]
-	seta	dl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r13b, 7
-	or	r13b, bl
-	shl	r11b, 2
-	or	r11b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	r11d, byte ptr [rsp]            # 1-byte Folded Reload
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	ebx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r15b
-	mov	esi, ebx
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r14b, 4
-	or	r14b, r9b
-	shl	r12b, 5
-	or	r12b, r14b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	al, 7
-	or	al, sil
-	or	r13b, bl
-	or	al, r12b
-	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	mov	byte ptr [rdi], r13b
-	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r10b, 7
-	or	r10b, sil
-	mov	byte ptr [rdi + 1], al
-	or	r10b, bl
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rdi + 2], r10b
-	mov	byte ptr [rdi + 3], dl
-	lea	rsi, [rcx + 32]
-	add	rdi, 4
-	mov	qword ptr [rsp + 48], rdi       # 8-byte Spill
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_68
-# %bb.69:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	jmp	.LBB8_132
-.LBB8_70:
-	mov	r13d, dword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_74
-# %bb.71:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_72:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r14 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_72
-# %bb.73:
-	add	r14, 1
-.LBB8_74:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_78
-# %bb.75:
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_76:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	r13d, dword ptr [rdx]
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 4]
-	setg	dil
-	cmp	r13d, dword ptr [rdx + 8]
-	setg	r14b
-	cmp	r13d, dword ptr [rdx + 12]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 16]
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 20]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 24]
-	setg	al
-	cmp	r13d, dword ptr [rdx + 28]
-	setg	r11b
-	cmp	r13d, dword ptr [rdx + 32]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 36]
-	setg	sil
-	cmp	r13d, dword ptr [rdx + 40]
-	setg	r8b
-	cmp	r13d, dword ptr [rdx + 44]
-	setg	r9b
-	cmp	r13d, dword ptr [rdx + 48]
-	setg	r10b
-	cmp	r13d, dword ptr [rdx + 52]
-	setg	r12b
-	cmp	r13d, dword ptr [rdx + 56]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 60]
-	setg	cl
-	cmp	r13d, dword ptr [rdx + 64]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 68]
-	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 72]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 76]
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 80]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 84]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 88]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 92]
-	setg	r15b
-	cmp	r13d, dword ptr [rdx + 96]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 100]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 104]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 108]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 112]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 116]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 120]
-	setg	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13d, dword ptr [rdx + 124]
-	setg	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_76
-# %bb.77:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB8_78:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.79:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_147
-# %bb.80:
-	xor	edi, edi
-	jmp	.LBB8_149
-.LBB8_81:
-	movzx	r13d, word ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_85
-# %bb.82:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_83:                               # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rdx], r13w
-	lea	rdx, [rdx + 2]
-	sbb	esi, esi
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_83
-# %bb.84:
-	add	r14, 1
-.LBB8_85:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_89
-# %bb.86:
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_87:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	r13w, word ptr [rdx]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 2]
-	seta	dil
-	cmp	r13w, word ptr [rdx + 4]
-	seta	r14b
-	cmp	r13w, word ptr [rdx + 6]
-	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 8]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 10]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 12]
-	seta	al
-	cmp	r13w, word ptr [rdx + 14]
-	seta	r11b
-	cmp	r13w, word ptr [rdx + 16]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 18]
-	seta	sil
-	cmp	r13w, word ptr [rdx + 20]
-	seta	r8b
-	cmp	r13w, word ptr [rdx + 22]
-	seta	r9b
-	cmp	r13w, word ptr [rdx + 24]
-	seta	r10b
-	cmp	r13w, word ptr [rdx + 26]
-	seta	r12b
-	cmp	r13w, word ptr [rdx + 28]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 30]
-	seta	cl
-	cmp	r13w, word ptr [rdx + 32]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 34]
-	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 36]
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 38]
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 40]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 42]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 44]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 46]
-	seta	r15b
-	cmp	r13w, word ptr [rdx + 48]
-	seta	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 50]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 52]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 54]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 56]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 58]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 60]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rdx + 62]
-	seta	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp]              # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_87
-# %bb.88:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB8_89:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.90:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_170
-# %bb.91:
-	xor	r11d, r11d
-	jmp	.LBB8_172
-.LBB8_92:
-	movzx	r13d, word ptr [rsi]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_96
-# %bb.93:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_94:                               # =>This Inner Loop Header: Depth=1
-	cmp	r13w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r14 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_94
-# %bb.95:
-	add	r14, 1
-.LBB8_96:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB8_135
-# %bb.97:
-	cmp	r15, 8
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r15      # 8-byte Spill
-	jb	.LBB8_100
-# %bb.98:
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rdx
-	cmp	r14, rax
-	jae	.LBB8_197
-# %bb.99:
-	lea	rax, [r14 + 4*r15]
-	cmp	rax, rdx
-	jbe	.LBB8_197
-.LBB8_100:
-	xor	eax, eax
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rsi, rdx
-	mov	r12, r14
-.LBB8_101:
-	mov	qword ptr [rsp], r12            # 8-byte Spill
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_102:                              # =>This Inner Loop Header: Depth=1
-	mov	r11, rsi
-	cmp	r13w, word ptr [rsi]
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 2]
-	setg	dil
-	cmp	r13w, word ptr [rsi + 4]
-	setg	r14b
-	cmp	r13w, word ptr [rsi + 6]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 8]
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 10]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 12]
-	setg	al
-	cmp	r13w, word ptr [rsi + 14]
-	setg	r10b
-	cmp	r13w, word ptr [rsi + 16]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [rsi + 18]
-	setg	cl
-	cmp	r13w, word ptr [rsi + 20]
-	setg	dl
-	cmp	r13w, word ptr [rsi + 22]
-	setg	sil
-	cmp	r13w, word ptr [r11 + 24]
-	setg	r9b
-	cmp	r13w, word ptr [r11 + 26]
-	setg	r12b
-	cmp	r13w, word ptr [r11 + 28]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 30]
-	setg	r8b
-	cmp	r13w, word ptr [r11 + 32]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 34]
-	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 36]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 38]
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 40]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 42]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 44]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 46]
-	setg	r15b
-	cmp	r13w, word ptr [r11 + 48]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 50]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 52]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 54]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 56]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 58]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 60]
-	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r13w, word ptr [r11 + 62]
-	setg	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r10b, 7
-	or	r10b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	cl, cl
-	add	cl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	dl, 2
-	or	dl, cl
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	sil, 3
-	or	sil, dl
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r9b, 4
-	or	r9b, sil
-	shl	r12b, 5
-	or	r12b, r9b
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r10b, cl
-	or	r8b, r12b
-	movzx	ecx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rcx], r10b
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r15b, 7
-	or	r15b, dl
-	mov	byte ptr [rcx + 1], r8b
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	bl, 7
-	or	bl, dl
-	or	bl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], bl
-	lea	rsi, [r11 + 64]
-	add	rcx, 4
-	mov	qword ptr [rsp], rcx            # 8-byte Spill
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_102
-# %bb.103:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	mov	r12, qword ptr [rsp]            # 8-byte Reload
-	jmp	.LBB8_136
-.LBB8_104:
-	mov	r13, qword ptr [rsi]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB8_108
-# %bb.105:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_106:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setg	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r14 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_106
-# %bb.107:
-	add	r14, 1
-.LBB8_108:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_112
-# %bb.109:
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_110:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	cmp	r13, qword ptr [rdx]
-	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 8]
-	setg	dil
-	cmp	r13, qword ptr [rdx + 16]
-	setg	r14b
-	cmp	r13, qword ptr [rdx + 24]
-	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 32]
-	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 40]
-	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 48]
-	setg	al
-	cmp	r13, qword ptr [rdx + 56]
-	setg	r11b
-	cmp	r13, qword ptr [rdx + 64]
-	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 72]
-	setg	sil
-	cmp	r13, qword ptr [rdx + 80]
-	setg	r8b
-	cmp	r13, qword ptr [rdx + 88]
-	setg	r9b
-	cmp	r13, qword ptr [rdx + 96]
-	setg	r10b
-	cmp	r13, qword ptr [rdx + 104]
-	setg	r12b
-	cmp	r13, qword ptr [rdx + 112]
-	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 120]
-	setg	cl
-	cmp	r13, qword ptr [rdx + 128]
-	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 136]
-	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 144]
-	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 152]
-	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 160]
-	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 168]
-	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 176]
-	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 184]
-	setg	r15b
-	cmp	r13, qword ptr [rdx + 192]
-	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 200]
-	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 208]
-	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 216]
-	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 224]
-	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 232]
-	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 240]
-	setg	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r13, qword ptr [rdx + 248]
-	setg	bl
-	add	dil, dil
-	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	mov	edi, eax
-	shl	r8b, 2
-	or	r8b, sil
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dil
-	mov	edi, eax
-	shl	r9b, 3
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dil
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r11b, al
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, al
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	cl, 6
-	shl	bl, 7
-	or	bl, cl
-	or	bl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], bl
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB8_110
-# %bb.111:
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-.LBB8_112:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.113:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_175
-# %bb.114:
-	xor	edi, edi
-	jmp	.LBB8_177
-.LBB8_115:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB8_119
-# %bb.116:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB8_117:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rdx]
-	seta	bl
-	add	rdx, 4
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r14 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB8_117
-# %bb.118:
-	add	r14, 1
-.LBB8_119:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB8_139
-# %bb.120:
-	cmp	r11, 4
-	jb	.LBB8_123
-# %bb.121:
-	mov	rax, r11
-	shl	rax, 7
-	add	rax, rdx
-	cmp	r14, rax
-	jae	.LBB8_200
-# %bb.122:
-	lea	rax, [r14 + 4*r11]
-	cmp	rax, rdx
-	jbe	.LBB8_200
-.LBB8_123:
-	xor	r8d, r8d
-	mov	rbx, rdx
-	mov	r15, r14
-.LBB8_124:
-	mov	qword ptr [rsp], r15            # 8-byte Spill
-	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
-	sub	r11, r8
-	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_125:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	seta	r8b
-	ucomiss	xmm0, dword ptr [rbx + 8]
-	seta	r14b
-	ucomiss	xmm0, dword ptr [rbx + 12]
-	seta	r13b
-	ucomiss	xmm0, dword ptr [rbx + 16]
-	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 20]
-	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 24]
-	seta	al
-	ucomiss	xmm0, dword ptr [rbx + 28]
-	seta	r11b
-	ucomiss	xmm0, dword ptr [rbx + 32]
-	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 36]
-	seta	dl
-	ucomiss	xmm0, dword ptr [rbx + 40]
-	seta	sil
-	ucomiss	xmm0, dword ptr [rbx + 44]
-	seta	dil
-	ucomiss	xmm0, dword ptr [rbx + 48]
-	seta	r10b
-	ucomiss	xmm0, dword ptr [rbx + 52]
-	seta	r12b
-	ucomiss	xmm0, dword ptr [rbx + 56]
-	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 60]
-	seta	r9b
-	ucomiss	xmm0, dword ptr [rbx + 64]
-	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 68]
-	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 72]
-	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 76]
-	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 80]
-	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 84]
-	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 88]
-	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 92]
-	seta	r15b
-	ucomiss	xmm0, dword ptr [rbx + 96]
-	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 100]
-	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 104]
-	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 108]
-	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 112]
-	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 116]
-	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 120]
-	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 124]
-	seta	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp]            # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], cl
-	add	rbx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp], rsi            # 8-byte Spill
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB8_125
-# %bb.126:
-	mov	r15, qword ptr [rsp]            # 8-byte Reload
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
-	jmp	.LBB8_140
-.LBB8_127:
-	mov	qword ptr [rsp + 88], r14       # 8-byte Spill
-	mov	rsi, rdx
-.LBB8_128:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_182
-# %bb.129:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_151
-# %bb.130:
-	xor	r9d, r9d
-	jmp	.LBB8_154
-.LBB8_131:
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rsi, rdx
-.LBB8_132:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_182
-# %bb.133:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_156
-# %bb.134:
-	xor	r9d, r9d
-	jmp	.LBB8_159
-.LBB8_135:
-	mov	r12, r14
-	mov	rsi, rdx
-.LBB8_136:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB8_182
-# %bb.137:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB8_183
-# %bb.138:
-	xor	r14d, r14d
-	jmp	.LBB8_185
-.LBB8_139:
-	mov	r15, r14
-	mov	rbx, rdx
-.LBB8_140:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB8_182
-# %bb.141:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB8_187
-# %bb.142:
-	xor	esi, esi
-	jmp	.LBB8_189
-.LBB8_143:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB8_144:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rdx], r13
-	sbb	edi, edi
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r14 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r14 + rsi], al
-	add	r11, 2
-	cmp	qword ptr [rdx + 8], r13
-	lea	rdx, [rdx + 16]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r14 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB8_144
-.LBB8_145:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.146:
-	cmp	qword ptr [rdx], r13
-	jmp	.LBB8_174
-.LBB8_147:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB8_148:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13d, dword ptr [rdx]
-	setg	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	cmp	r13d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setg	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_148
-.LBB8_149:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.150:
-	cmp	r13d, dword ptr [rdx]
-	jmp	.LBB8_179
-.LBB8_151:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	.p2align	4, 0x90
-.LBB8_152:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	r11b, byte ptr [rsi + r9]
-	setg	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r11b, byte ptr [rsi + rax + 1]
-	lea	r9, [rax + 2]
-	setg	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB8_152
-# %bb.153:
-	add	rsi, r9
-.LBB8_154:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.155:
-	cmp	r11b, byte ptr [rsi]
-	setg	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	jmp	.LBB8_161
-.LBB8_156:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	.p2align	4, 0x90
-.LBB8_157:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	sbb	edi, edi
-	mov	rbx, r9
-	shr	rbx, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	dl, dil
-	xor	dl, r9b
-	mov	byte ptr [r14 + rbx], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	sbb	edi, edi
-	xor	dil, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, dl
-	mov	byte ptr [r14 + rbx], al
-	cmp	r10, r9
-	jne	.LBB8_157
-# %bb.158:
-	add	rsi, r9
-.LBB8_159:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.160:
-	cmp	byte ptr [rsi], r11b
-	sbb	eax, eax
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-.LBB8_161:
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB8_182
-.LBB8_162:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB8_163:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rdx], r13d
-	sbb	edi, edi
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r14 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r14 + rsi], al
-	add	r11, 2
-	cmp	dword ptr [rdx + 4], r13d
-	lea	rdx, [rdx + 8]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r14 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB8_163
-.LBB8_164:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.165:
-	cmp	dword ptr [rdx], r13d
-	jmp	.LBB8_174
-.LBB8_166:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB8_167:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	seta	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	seta	r9b
-	add	rdx, 16
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_167
-.LBB8_168:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.169:
-	ucomisd	xmm0, qword ptr [rdx]
-	seta	al
-	jmp	.LBB8_180
-.LBB8_170:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB8_171:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rdx], r13w
-	sbb	edi, edi
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r14 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dil, r10b
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r14 + rsi], al
-	add	r11, 2
-	cmp	word ptr [rdx + 2], r13w
-	lea	rdx, [rdx + 4]
-	sbb	edi, edi
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r14 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB8_171
-.LBB8_172:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.173:
-	cmp	word ptr [rdx], r13w
-.LBB8_174:
-	sbb	eax, eax
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB8_181
-.LBB8_175:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB8_176:                              # =>This Inner Loop Header: Depth=1
-	cmp	r13, qword ptr [rdx]
-	setg	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r14 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rsi], bl
-	add	rdi, 2
-	cmp	r13, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setg	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r14 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB8_176
-.LBB8_177:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.178:
-	cmp	r13, qword ptr [rdx]
-.LBB8_179:
-	setg	al
-.LBB8_180:
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB8_181:
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-.LBB8_182:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB8_183:
-	mov	r9, r8
-	and	r9, -2
-	xor	r14d, r14d
-	.p2align	4, 0x90
-.LBB8_184:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, rsi
-	cmp	r13w, word ptr [rsi]
-	setg	dl
-	neg	dl
-	mov	rdi, r14
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, r14d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	r14, 2
-	cmp	r13w, word ptr [rsi + 2]
-	lea	rsi, [rsi + 4]
-	setg	dl
-	neg	dl
-	xor	dl, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dl
-	xor	al, bl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r9, r14
-	jne	.LBB8_184
-.LBB8_185:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.186:
-	cmp	r13w, word ptr [rsi]
-	setg	al
-	neg	al
-	mov	rdx, r14
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	r14b, 7
-	mov	bl, 1
-	mov	ecx, r14d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r12 + rdx], bl
-	jmp	.LBB8_182
-.LBB8_187:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, r15
-	.p2align	4, 0x90
-.LBB8_188:                              # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	seta	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dl, r9b
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r11 + rdi], al
-	add	rsi, 2
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	seta	r9b
-	add	rbx, 8
-	neg	r9b
-	xor	r9b, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r9b
-	xor	dl, al
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r10, rsi
-	jne	.LBB8_188
-.LBB8_189:
-	test	r8b, 1
-	je	.LBB8_182
-# %bb.190:
-	ucomiss	xmm0, dword ptr [rbx]
-	seta	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r14, r15
-	mov	dil, byte ptr [r15 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r15 + rdx], bl
-	jmp	.LBB8_182
-.LBB8_191:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 288], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_192:                              # =>This Inner Loop Header: Depth=1
-	mov	r9, rax
-	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
-	shl	rax, 5
-	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
-	mov	r11, rax
-	mov	r9, rax
-	mov	r12, rax
-	mov	r14, rax
-	mov	r13, rax
-	mov	rsi, rax
-	mov	r10, rax
-	mov	r15, rax
-	mov	rbx, rax
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	movzx	ecx, byte ptr [rdx + rax]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rdx + rax + 1]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rdx + rax + 2]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rdx + rax + 3]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rdx + rax + 4]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rdx + rax + 5]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rdx + rax + 6]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rax + 7]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rdx + rax + 8]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rdx + rax + 9]
-	movd	xmm0, ecx
-	movzx	ecx, byte ptr [rdx + rax + 10]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rdx + rax + 11]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rdx + rax + 12]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rdx + rax + 16]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rdx + rax + 24]
-	movd	xmm4, ecx
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	rcx, rax
-	or	rcx, 32
-	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	or	r8, 64
-	mov	qword ptr [rsp + 64], r8        # 8-byte Spill
-	or	r11, 96
-	or	r9, 128
-	or	r12, 160
-	mov	qword ptr [rsp + 160], r12      # 8-byte Spill
-	or	r14, 192
-	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
-	mov	rdi, rax
-	or	rdi, 224
-	or	r13, 256
-	mov	qword ptr [rsp + 32], r13       # 8-byte Spill
-	or	r10, 288
-	or	r15, 320
-	or	rbx, 352
-	or	qword ptr [rsp + 72], 384       # 8-byte Folded Spill
-	mov	rcx, rax
-	or	rcx, 416
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	or	rsi, 448
-	mov	rcx, rax
-	or	rcx, 480
-	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax], 1
-	pinsrb	xmm8, byte ptr [rdx + r8], 2
-	pinsrb	xmm8, byte ptr [rdx + r11], 3
-	pinsrb	xmm8, byte ptr [rdx + r9], 4
-	pinsrb	xmm8, byte ptr [rdx + r12], 5
-	pinsrb	xmm8, byte ptr [rdx + r14], 6
-	pinsrb	xmm8, byte ptr [rdx + rdi], 7
-	pinsrb	xmm8, byte ptr [rdx + r13], 8
-	pinsrb	xmm8, byte ptr [rdx + r10], 9
-	mov	r12, r15
-	mov	qword ptr [rsp + 96], r15       # 8-byte Spill
-	pinsrb	xmm8, byte ptr [rdx + r15], 10
-	pinsrb	xmm8, byte ptr [rdx + rbx], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r15], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax], 13
-	pinsrb	xmm8, byte ptr [rdx + rsi], 14
-	pinsrb	xmm8, byte ptr [rdx + rcx], 15
-	movdqa	xmm13, xmmword ptr [rsp + 288]  # 16-byte Reload
-	movdqa	xmm3, xmm13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 1], 1
-	pinsrb	xmm7, byte ptr [rdx + r8 + 1], 2
-	pinsrb	xmm7, byte ptr [rdx + r11 + 1], 3
-	pinsrb	xmm7, byte ptr [rdx + r9 + 1], 4
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r13 + 1], 5
-	pinsrb	xmm7, byte ptr [rdx + r14 + 1], 6
-	pinsrb	xmm7, byte ptr [rdx + rdi + 1], 7
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 1], 8
-	pinsrb	xmm7, byte ptr [rdx + r10 + 1], 9
-	pinsrb	xmm7, byte ptr [rdx + r12 + 1], 10
-	pinsrb	xmm7, byte ptr [rdx + rbx + 1], 11
-	pinsrb	xmm7, byte ptr [rdx + r15 + 1], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 1], 13
-	pinsrb	xmm7, byte ptr [rdx + rsi + 1], 14
-	pinsrb	xmm7, byte ptr [rdx + rcx + 1], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 2], 1
-	pinsrb	xmm6, byte ptr [rdx + r8 + 2], 2
-	pinsrb	xmm6, byte ptr [rdx + r11 + 2], 3
-	pinsrb	xmm6, byte ptr [rdx + r9 + 2], 4
-	pinsrb	xmm6, byte ptr [rdx + r13 + 2], 5
-	pinsrb	xmm6, byte ptr [rdx + r14 + 2], 6
-	pinsrb	xmm6, byte ptr [rdx + rdi + 2], 7
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 2], 8
-	pinsrb	xmm6, byte ptr [rdx + r10 + 2], 9
-	pinsrb	xmm6, byte ptr [rdx + r12 + 2], 10
-	pinsrb	xmm6, byte ptr [rdx + rbx + 2], 11
-	pinsrb	xmm6, byte ptr [rdx + r15 + 2], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 2], 13
-	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 14
-	pinsrb	xmm6, byte ptr [rdx + rcx + 2], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rax + 8], 1
-	pinsrb	xmm12, byte ptr [rdx + r8 + 8], 2
-	pinsrb	xmm12, byte ptr [rdx + r11 + 8], 3
-	pinsrb	xmm12, byte ptr [rdx + r9 + 8], 4
-	pinsrb	xmm12, byte ptr [rdx + r13 + 8], 5
-	pinsrb	xmm12, byte ptr [rdx + r14 + 8], 6
-	pinsrb	xmm12, byte ptr [rdx + rdi + 8], 7
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rax + 8], 8
-	pinsrb	xmm12, byte ptr [rdx + r10 + 8], 9
-	pinsrb	xmm12, byte ptr [rdx + r12 + 8], 10
-	pinsrb	xmm12, byte ptr [rdx + rbx + 8], 11
-	pinsrb	xmm12, byte ptr [rdx + r15 + 8], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rax + 8], 13
-	pinsrb	xmm12, byte ptr [rdx + rsi + 8], 14
-	pinsrb	xmm12, byte ptr [rdx + rcx + 8], 15
-	pcmpgtb	xmm3, xmm8
-	movdqa	xmmword ptr [rsp + 272], xmm3   # 16-byte Spill
-	movdqa	xmm3, xmm13
-	pcmpgtb	xmm3, xmm12
-	movdqa	xmmword ptr [rsp + 304], xmm3   # 16-byte Spill
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rcx + 16], 1
-	pinsrb	xmm14, byte ptr [rdx + r8 + 16], 2
-	pinsrb	xmm14, byte ptr [rdx + r11 + 16], 3
-	pinsrb	xmm14, byte ptr [rdx + r9 + 16], 4
-	pinsrb	xmm14, byte ptr [rdx + r13 + 16], 5
-	pinsrb	xmm14, byte ptr [rdx + r14 + 16], 6
-	pinsrb	xmm14, byte ptr [rdx + rdi + 16], 7
-	mov	r14, rdi
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rcx + 16], 8
-	pinsrb	xmm14, byte ptr [rdx + r10 + 16], 9
-	pinsrb	xmm14, byte ptr [rdx + r12 + 16], 10
-	pinsrb	xmm14, byte ptr [rdx + rbx + 16], 11
-	pinsrb	xmm14, byte ptr [rdx + r15 + 16], 12
-	mov	rcx, rax
-	pinsrb	xmm14, byte ptr [rdx + rax + 16], 13
-	mov	qword ptr [rsp + 24], rsi       # 8-byte Spill
-	pinsrb	xmm14, byte ptr [rdx + rsi + 16], 14
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rdi + 16], 15
-	movdqa	xmm3, xmm13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 24], 1
-	pinsrb	xmm4, byte ptr [rdx + r8 + 24], 2
-	pinsrb	xmm4, byte ptr [rdx + r11 + 24], 3
-	pinsrb	xmm4, byte ptr [rdx + r9 + 24], 4
-	pinsrb	xmm4, byte ptr [rdx + r13 + 24], 5
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r8 + 24], 6
-	pinsrb	xmm4, byte ptr [rdx + r14 + 24], 7
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 24], 8
-	pinsrb	xmm4, byte ptr [rdx + r10 + 24], 9
-	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax + 24], 10
-	pinsrb	xmm4, byte ptr [rdx + rbx + 24], 11
-	pinsrb	xmm4, byte ptr [rdx + r15 + 24], 12
-	pinsrb	xmm4, byte ptr [rdx + rcx + 24], 13
-	pinsrb	xmm4, byte ptr [rdx + rsi + 24], 14
-	pcmpgtb	xmm3, xmm14
-	movdqa	xmmword ptr [rsp + 240], xmm3   # 16-byte Spill
-	pinsrb	xmm4, byte ptr [rdx + rdi + 24], 15
-	movdqa	xmm3, xmm13
-	pcmpgtb	xmm3, xmm4
-	movdqa	xmmword ptr [rsp + 208], xmm3   # 16-byte Spill
-	movdqa	xmm4, xmm13
-	pcmpgtb	xmm4, xmm7
-	movdqa	xmm12, xmm4
-	movdqa	xmm8, xmmword ptr [rip + .LCPI8_10] # xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm12, xmm8
-	psubb	xmm12, xmm4
-	movdqa	xmm4, xmm13
-	movdqa	xmm14, xmm13
-	pcmpgtb	xmm4, xmm6
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 13]
-	movd	xmm7, esi
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi + 3], 1
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rax + 3], 2
-	mov	qword ptr [rsp + 40], r11       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r11 + 3], 3
-	mov	rcx, r9
-	mov	qword ptr [rsp + 112], r9       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r9 + 3], 4
-	pinsrb	xmm15, byte ptr [rdx + r13 + 3], 5
-	pinsrb	xmm15, byte ptr [rdx + r8 + 3], 6
-	mov	qword ptr [rsp + 80], r14       # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r14 + 3], 7
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r12 + 3], 8
-	pinsrb	xmm15, byte ptr [rdx + r10 + 3], 9
-	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r9 + 3], 10
-	mov	qword ptr [rsp + 104], rbx      # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + rbx + 3], 11
-	pinsrb	xmm15, byte ptr [rdx + r15 + 3], 12
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rdi + 3], 13
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rdi + 3], 14
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r10 + 3], 15
-	pinsrb	xmm5, byte ptr [rdx + rsi + 4], 1
-	mov	r10, rsi
-	pinsrb	xmm5, byte ptr [rdx + rax + 4], 2
-	pinsrb	xmm5, byte ptr [rdx + r11 + 4], 3
-	pinsrb	xmm5, byte ptr [rdx + rcx + 4], 4
-	pinsrb	xmm5, byte ptr [rdx + r13 + 4], 5
-	pinsrb	xmm5, byte ptr [rdx + r8 + 4], 6
-	pinsrb	xmm5, byte ptr [rdx + r14 + 4], 7
-	pinsrb	xmm5, byte ptr [rdx + r12 + 4], 8
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rcx + 4], 9
-	pinsrb	xmm5, byte ptr [rdx + r9 + 4], 10
-	mov	r11, r9
-	pinsrb	xmm5, byte ptr [rdx + rbx + 4], 11
-	pinsrb	xmm5, byte ptr [rdx + r15 + 4], 12
-	mov	r9, qword ptr [rsp + 8]         # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r9 + 4], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 4], 14
-	movdqa	xmm3, xmmword ptr [rsp + 272]   # 16-byte Reload
-	pand	xmm3, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI8_11] # xmm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm4, xmm6
-	por	xmm4, xmm3
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 14]
-	movd	xmm6, esi
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rbx + 4], 15
-	por	xmm4, xmm12
-	movdqa	xmm12, xmm13
-	pcmpgtb	xmm12, xmm15
-	pcmpgtb	xmm13, xmm5
-	movzx	esi, byte ptr [rdx + rdi + 15]
-	movd	xmm5, esi
-	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 1
-	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 5], 2
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rdi + 5], 3
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r13 + 5], 4
-	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 5], 5
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r14 + 5], 6
-	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 7
-	pinsrb	xmm2, byte ptr [rdx + r12 + 5], 8
-	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 9
-	pinsrb	xmm2, byte ptr [rdx + r11 + 5], 10
-	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 5], 12
-	pinsrb	xmm2, byte ptr [rdx + r9 + 5], 13
-	mov	r11, r9
-	pinsrb	xmm2, byte ptr [rdx + rax + 5], 14
-	pinsrb	xmm2, byte ptr [rdx + rbx + 5], 15
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_12] # xmm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm12, xmm3
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_13] # xmm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm13, xmm3
-	por	xmm13, xmm12
-	movdqa	xmm12, xmm14
-	pcmpgtb	xmm12, xmm2
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 17]
-	movd	xmm2, esi
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_14] # xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm12, xmm3
-	por	xmm12, xmm13
-	movzx	esi, byte ptr [rdx + rax + 18]
-	movd	xmm15, esi
-	movdqa	xmm3, xmmword ptr [rsp + 192]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 6], 1
-	mov	r9, r8
-	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 2
-	pinsrb	xmm3, byte ptr [rdx + rdi + 6], 3
-	mov	rcx, r13
-	pinsrb	xmm3, byte ptr [rdx + r13 + 6], 4
-	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r13 + 6], 5
-	pinsrb	xmm3, byte ptr [rdx + r14 + 6], 6
-	pinsrb	xmm3, byte ptr [rdx + r10 + 6], 7
-	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 8
-	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rsi + 6], 9
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 10
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rbx + 6], 11
-	mov	qword ptr [rsp + 72], r15       # 8-byte Spill
-	pinsrb	xmm3, byte ptr [rdx + r15 + 6], 12
-	mov	rdi, r11
-	pinsrb	xmm3, byte ptr [rdx + r11 + 6], 13
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r11 + 6], 14
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r10 + 6], 15
-	pinsrb	xmm1, byte ptr [rdx + rax + 7], 1
-	pinsrb	xmm1, byte ptr [rdx + r9 + 7], 2
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rax + 7], 3
-	pinsrb	xmm1, byte ptr [rdx + rcx + 7], 4
-	pinsrb	xmm1, byte ptr [rdx + r13 + 7], 5
-	pinsrb	xmm1, byte ptr [rdx + r14 + 7], 6
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r14 + 7], 7
-	pinsrb	xmm1, byte ptr [rdx + r12 + 7], 8
-	pinsrb	xmm1, byte ptr [rdx + rsi + 7], 9
-	pinsrb	xmm1, byte ptr [rdx + r8 + 7], 10
-	pinsrb	xmm1, byte ptr [rdx + rbx + 7], 11
-	pinsrb	xmm1, byte ptr [rdx + r15 + 7], 12
-	pinsrb	xmm1, byte ptr [rdx + rdi + 7], 13
-	pinsrb	xmm1, byte ptr [rdx + r11 + 7], 14
-	pinsrb	xmm1, byte ptr [rdx + r10 + 7], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 9], 1
-	pinsrb	xmm0, byte ptr [rdx + r9 + 9], 2
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 9], 3
-	pinsrb	xmm0, byte ptr [rdx + rcx + 9], 4
-	pinsrb	xmm0, byte ptr [rdx + r13 + 9], 5
-	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 9], 6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 9], 7
-	pinsrb	xmm0, byte ptr [rdx + r12 + 9], 8
-	pinsrb	xmm0, byte ptr [rdx + rsi + 9], 9
-	pinsrb	xmm0, byte ptr [rdx + r8 + 9], 10
-	pinsrb	xmm0, byte ptr [rdx + rbx + 9], 11
-	pinsrb	xmm0, byte ptr [rdx + r15 + 9], 12
-	pinsrb	xmm0, byte ptr [rdx + rdi + 9], 13
-	pinsrb	xmm0, byte ptr [rdx + r11 + 9], 14
-	mov	r14, r11
-	pinsrb	xmm0, byte ptr [rdx + r10 + 9], 15
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 10], 1
-	pinsrb	xmm9, byte ptr [rdx + r9 + 10], 2
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 10], 3
-	pinsrb	xmm9, byte ptr [rdx + rcx + 10], 4
-	pinsrb	xmm9, byte ptr [rdx + r13 + 10], 5
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r11 + 10], 6
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rcx + 10], 7
-	pinsrb	xmm9, byte ptr [rdx + r12 + 10], 8
-	pinsrb	xmm9, byte ptr [rdx + rsi + 10], 9
-	pinsrb	xmm9, byte ptr [rdx + r8 + 10], 10
-	pinsrb	xmm9, byte ptr [rdx + rbx + 10], 11
-	pinsrb	xmm9, byte ptr [rdx + r15 + 10], 12
-	pinsrb	xmm9, byte ptr [rdx + rdi + 10], 13
-	por	xmm12, xmm4
-	movdqa	xmm13, xmm14
-	movdqa	xmm4, xmm14
-	pcmpgtb	xmm4, xmm3
-	pcmpgtb	xmm14, xmm1
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 19]
-	movd	xmm1, esi
-	pinsrb	xmm9, byte ptr [rdx + r14 + 10], 14
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_15] # xmm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm4, xmm3
-	psllw	xmm14, 7
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_6] # xmm3 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm14, xmm3
-	por	xmm14, xmm4
-	movzx	esi, byte ptr [rdx + rdi + 20]
-	movd	xmm4, esi
-	mov	r13, r10
-	pinsrb	xmm9, byte ptr [rdx + r10 + 10], 15
-	por	xmm14, xmm12
-	movdqa	xmmword ptr [rsp + 192], xmm14  # 16-byte Spill
-	movdqa	xmm14, xmm13
-	movdqa	xmm3, xmm13
-	pcmpgtb	xmm3, xmm0
-	movdqa	xmm12, xmm3
-	pand	xmm12, xmm8
-	psubb	xmm12, xmm3
-	pcmpgtb	xmm13, xmm9
-	movzx	esi, byte ptr [rdx + rdi + 21]
-	movd	xmm0, esi
-	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r10 + 11], 1
-	mov	rax, r9
-	pinsrb	xmm10, byte ptr [rdx + r9 + 11], 2
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rdi + 11], 3
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r8 + 11], 4
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r9 + 11], 5
-	pinsrb	xmm10, byte ptr [rdx + r11 + 11], 6
-	mov	rbx, rcx
-	pinsrb	xmm10, byte ptr [rdx + rcx + 11], 7
-	pinsrb	xmm10, byte ptr [rdx + r12 + 11], 8
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rcx + 11], 9
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r14 + 11], 10
-	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r15 + 11], 11
-	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 11], 12
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 11], 13
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 11], 14
-	pinsrb	xmm10, byte ptr [rdx + r13 + 11], 15
-	pinsrb	xmm11, byte ptr [rdx + r10 + 12], 1
-	pinsrb	xmm11, byte ptr [rdx + rax + 12], 2
-	pinsrb	xmm11, byte ptr [rdx + rdi + 12], 3
-	pinsrb	xmm11, byte ptr [rdx + r8 + 12], 4
-	pinsrb	xmm11, byte ptr [rdx + r9 + 12], 5
-	pinsrb	xmm11, byte ptr [rdx + r11 + 12], 6
-	pinsrb	xmm11, byte ptr [rdx + rbx + 12], 7
-	pinsrb	xmm11, byte ptr [rdx + r12 + 12], 8
-	pinsrb	xmm11, byte ptr [rdx + rcx + 12], 9
-	mov	r12, rcx
-	mov	r8, r14
-	pinsrb	xmm11, byte ptr [rdx + r14 + 12], 10
-	mov	rbx, r15
-	pinsrb	xmm11, byte ptr [rdx + r15 + 12], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r15 + 12], 12
-	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rdi + 12], 13
-	pinsrb	xmm11, byte ptr [rdx + rsi + 12], 14
-	mov	r10, rsi
-	movdqa	xmm3, xmmword ptr [rsp + 304]   # 16-byte Reload
-	pand	xmm3, xmm8
-	pand	xmm13, xmmword ptr [rip + .LCPI8_11]
-	por	xmm13, xmm3
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 22]
-	movd	xmm8, esi
-	pinsrb	xmm11, byte ptr [rdx + r13 + 12], 15
-	por	xmm13, xmm12
-	movdqa	xmm12, xmm14
-	pcmpgtb	xmm12, xmm10
-	movdqa	xmm3, xmm14
-	pcmpgtb	xmm3, xmm11
-	movzx	esi, byte ptr [rdx + rax + 23]
-	movd	xmm9, esi
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 13], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rcx + 13], 2
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r11 + 13], 3
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rcx + 13], 4
-	pinsrb	xmm7, byte ptr [rdx + r9 + 13], 5
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r14 + 13], 6
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 13], 7
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 13], 8
-	pinsrb	xmm7, byte ptr [rdx + r12 + 13], 9
-	pinsrb	xmm7, byte ptr [rdx + r8 + 13], 10
-	pinsrb	xmm7, byte ptr [rdx + rbx + 13], 11
-	pinsrb	xmm7, byte ptr [rdx + r15 + 13], 12
-	pinsrb	xmm7, byte ptr [rdx + rdi + 13], 13
-	pinsrb	xmm7, byte ptr [rdx + r10 + 13], 14
-	pinsrb	xmm7, byte ptr [rdx + r13 + 13], 15
-	pand	xmm12, xmmword ptr [rip + .LCPI8_12]
-	pand	xmm3, xmmword ptr [rip + .LCPI8_13]
-	por	xmm3, xmm12
-	movdqa	xmm10, xmm14
-	pcmpgtb	xmm10, xmm7
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 25]
-	movd	xmm11, esi
-	pand	xmm10, xmmword ptr [rip + .LCPI8_14]
-	por	xmm10, xmm3
-	movzx	esi, byte ptr [rdx + r12 + 26]
-	movd	xmm7, esi
-	pinsrb	xmm6, byte ptr [rdx + rax + 14], 1
-	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 14], 2
-	mov	r10, r11
-	pinsrb	xmm6, byte ptr [rdx + r11 + 14], 3
-	mov	r12, rcx
-	pinsrb	xmm6, byte ptr [rdx + rcx + 14], 4
-	mov	rdi, r9
-	pinsrb	xmm6, byte ptr [rdx + r9 + 14], 5
-	mov	r11, r14
-	pinsrb	xmm6, byte ptr [rdx + r14 + 14], 6
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r14 + 14], 7
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rcx + 14], 8
-	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r9 + 14], 9
-	pinsrb	xmm6, byte ptr [rdx + r8 + 14], 10
-	pinsrb	xmm6, byte ptr [rdx + rbx + 14], 11
-	pinsrb	xmm6, byte ptr [rdx + r15 + 14], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 14], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 14], 14
-	pinsrb	xmm6, byte ptr [rdx + r13 + 14], 15
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r13 + 15], 1
-	pinsrb	xmm5, byte ptr [rdx + rsi + 15], 2
-	pinsrb	xmm5, byte ptr [rdx + r10 + 15], 3
-	pinsrb	xmm5, byte ptr [rdx + r12 + 15], 4
-	pinsrb	xmm5, byte ptr [rdx + rdi + 15], 5
-	pinsrb	xmm5, byte ptr [rdx + r11 + 15], 6
-	pinsrb	xmm5, byte ptr [rdx + r14 + 15], 7
-	pinsrb	xmm5, byte ptr [rdx + rcx + 15], 8
-	pinsrb	xmm5, byte ptr [rdx + r9 + 15], 9
-	pinsrb	xmm5, byte ptr [rdx + r8 + 15], 10
-	pinsrb	xmm5, byte ptr [rdx + rbx + 15], 11
-	pinsrb	xmm5, byte ptr [rdx + r15 + 15], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 15], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 15], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 15], 15
-	pinsrb	xmm2, byte ptr [rdx + r13 + 17], 1
-	pinsrb	xmm2, byte ptr [rdx + rsi + 17], 2
-	pinsrb	xmm2, byte ptr [rdx + r10 + 17], 3
-	pinsrb	xmm2, byte ptr [rdx + r12 + 17], 4
-	pinsrb	xmm2, byte ptr [rdx + rdi + 17], 5
-	pinsrb	xmm2, byte ptr [rdx + r11 + 17], 6
-	pinsrb	xmm2, byte ptr [rdx + r14 + 17], 7
-	pinsrb	xmm2, byte ptr [rdx + rcx + 17], 8
-	pinsrb	xmm2, byte ptr [rdx + r9 + 17], 9
-	pinsrb	xmm2, byte ptr [rdx + r8 + 17], 10
-	pinsrb	xmm2, byte ptr [rdx + rbx + 17], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 17], 12
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 17], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 17], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 17], 15
-	pinsrb	xmm15, byte ptr [rdx + r13 + 18], 1
-	pinsrb	xmm15, byte ptr [rdx + rsi + 18], 2
-	pinsrb	xmm15, byte ptr [rdx + r10 + 18], 3
-	mov	r13, r10
-	pinsrb	xmm15, byte ptr [rdx + r12 + 18], 4
-	pinsrb	xmm15, byte ptr [rdx + rdi + 18], 5
-	pinsrb	xmm15, byte ptr [rdx + r11 + 18], 6
-	pinsrb	xmm15, byte ptr [rdx + r14 + 18], 7
-	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 8
-	pinsrb	xmm15, byte ptr [rdx + r9 + 18], 9
-	pinsrb	xmm15, byte ptr [rdx + r8 + 18], 10
-	pinsrb	xmm15, byte ptr [rdx + rbx + 18], 11
-	mov	rdi, rbx
-	pinsrb	xmm15, byte ptr [rdx + r15 + 18], 12
-	mov	r10, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r10 + 18], 13
-	por	xmm10, xmm13
-	movdqa	xmm13, xmm14
-	pcmpgtb	xmm13, xmm6
-	movdqa	xmm3, xmm14
-	pcmpgtb	xmm3, xmm5
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 27]
-	movd	xmm5, esi
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 14
-	pand	xmm13, xmmword ptr [rip + .LCPI8_15]
-	psllw	xmm3, 7
-	pand	xmm3, xmmword ptr [rip + .LCPI8_6]
-	por	xmm3, xmm13
-	movzx	esi, byte ptr [rdx + rax + 28]
-	movd	xmm6, esi
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 15
-	por	xmm3, xmm10
-	movdqa	xmmword ptr [rsp + 272], xmm3   # 16-byte Spill
-	movdqa	xmm3, xmm14
-	pcmpgtb	xmm3, xmm2
-	movdqa	xmm13, xmm3
-	movdqa	xmm2, xmmword ptr [rip + .LCPI8_10] # xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm13, xmm2
-	psubb	xmm13, xmm3
-	movdqa	xmm10, xmm14
-	pcmpgtb	xmm10, xmm15
-	movzx	esi, byte ptr [rdx + rax + 29]
-	movd	xmm3, esi
-	movdqa	xmm15, xmmword ptr [rsp + 240]  # 16-byte Reload
-	pand	xmm15, xmm2
-	movdqa	xmm2, xmmword ptr [rip + .LCPI8_11] # xmm2 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm10, xmm2
-	por	xmm10, xmm15
-	movzx	esi, byte ptr [rdx + rax + 30]
-	movd	xmm2, esi
-	movzx	eax, byte ptr [rdx + rax + 31]
-	mov	dword ptr [rsp + 56], eax       # 4-byte Spill
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rax + 19], 1
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rcx + 19], 2
-	pinsrb	xmm1, byte ptr [rdx + r13 + 19], 3
-	pinsrb	xmm1, byte ptr [rdx + r12 + 19], 4
-	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r8 + 19], 5
-	pinsrb	xmm1, byte ptr [rdx + r11 + 19], 6
-	mov	rbx, r11
-	pinsrb	xmm1, byte ptr [rdx + r14 + 19], 7
-	mov	r15, r14
-	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rsi + 19], 8
-	pinsrb	xmm1, byte ptr [rdx + r9 + 19], 9
-	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r11 + 19], 10
-	pinsrb	xmm1, byte ptr [rdx + rdi + 19], 11
-	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rdi + 19], 12
-	pinsrb	xmm1, byte ptr [rdx + r10 + 19], 13
-	mov	r14, r10
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rdi + 19], 14
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r10 + 19], 15
-	pinsrb	xmm4, byte ptr [rdx + rax + 20], 1
-	pinsrb	xmm4, byte ptr [rdx + rcx + 20], 2
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r13 + 20], 3
-	pinsrb	xmm4, byte ptr [rdx + r12 + 20], 4
-	pinsrb	xmm4, byte ptr [rdx + r8 + 20], 5
-	pinsrb	xmm4, byte ptr [rdx + rbx + 20], 6
-	pinsrb	xmm4, byte ptr [rdx + r15 + 20], 7
-	pinsrb	xmm4, byte ptr [rdx + rsi + 20], 8
-	pinsrb	xmm4, byte ptr [rdx + r9 + 20], 9
-	mov	r8, r11
-	pinsrb	xmm4, byte ptr [rdx + r11 + 20], 10
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rbx + 20], 11
-	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r15 + 20], 12
-	pinsrb	xmm4, byte ptr [rdx + r14 + 20], 13
-	pinsrb	xmm4, byte ptr [rdx + rdi + 20], 14
-	mov	r9, r10
-	pinsrb	xmm4, byte ptr [rdx + r10 + 20], 15
-	por	xmm10, xmm13
-	movdqa	xmm13, xmm14
-	pcmpgtb	xmm13, xmm1
-	movdqa	xmm15, xmm14
-	pcmpgtb	xmm15, xmm4
-	movd	xmm1, dword ptr [rsp + 56]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	pinsrb	xmm0, byte ptr [rdx + rax + 21], 1
-	pinsrb	xmm8, byte ptr [rdx + rax + 22], 1
-	pinsrb	xmm9, byte ptr [rdx + rax + 23], 1
-	pinsrb	xmm11, byte ptr [rdx + rax + 25], 1
-	pinsrb	xmm7, byte ptr [rdx + rax + 26], 1
-	pinsrb	xmm5, byte ptr [rdx + rax + 27], 1
-	pinsrb	xmm6, byte ptr [rdx + rax + 28], 1
-	pinsrb	xmm3, byte ptr [rdx + rax + 29], 1
-	pinsrb	xmm2, byte ptr [rdx + rax + 30], 1
-	pinsrb	xmm1, byte ptr [rdx + rax + 31], 1
-	pinsrb	xmm0, byte ptr [rdx + rcx + 21], 2
-	pinsrb	xmm8, byte ptr [rdx + rcx + 22], 2
-	pinsrb	xmm9, byte ptr [rdx + rcx + 23], 2
-	pinsrb	xmm11, byte ptr [rdx + rcx + 25], 2
-	pinsrb	xmm7, byte ptr [rdx + rcx + 26], 2
-	pinsrb	xmm5, byte ptr [rdx + rcx + 27], 2
-	pinsrb	xmm6, byte ptr [rdx + rcx + 28], 2
-	pinsrb	xmm3, byte ptr [rdx + rcx + 29], 2
-	pinsrb	xmm2, byte ptr [rdx + rcx + 30], 2
-	pinsrb	xmm1, byte ptr [rdx + rcx + 31], 2
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r13 + 21], 3
-	pinsrb	xmm0, byte ptr [rdx + r12 + 21], 4
-	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rdi + 21], 5
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r11 + 21], 6
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r14 + 21], 7
-	pinsrb	xmm0, byte ptr [rdx + rsi + 21], 8
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r10 + 21], 9
-	pinsrb	xmm0, byte ptr [rdx + r8 + 21], 10
-	pinsrb	xmm0, byte ptr [rdx + rbx + 21], 11
-	pinsrb	xmm0, byte ptr [rdx + r15 + 21], 12
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rcx + 21], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 21], 14
-	pinsrb	xmm0, byte ptr [rdx + r9 + 21], 15
-	movdqa	xmm4, xmmword ptr [rip + .LCPI8_12] # xmm4 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm13, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI8_13] # xmm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm15, xmm4
-	por	xmm15, xmm13
-	movdqa	xmm13, xmm14
-	pcmpgtb	xmm13, xmm0
-	movdqa	xmm0, xmmword ptr [rip + .LCPI8_14] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm13, xmm0
-	por	xmm13, xmm15
-	pinsrb	xmm8, byte ptr [rdx + r13 + 22], 3
-	pinsrb	xmm8, byte ptr [rdx + r12 + 22], 4
-	pinsrb	xmm8, byte ptr [rdx + rdi + 22], 5
-	pinsrb	xmm8, byte ptr [rdx + r11 + 22], 6
-	pinsrb	xmm8, byte ptr [rdx + r14 + 22], 7
-	pinsrb	xmm8, byte ptr [rdx + rsi + 22], 8
-	pinsrb	xmm8, byte ptr [rdx + r10 + 22], 9
-	pinsrb	xmm8, byte ptr [rdx + r8 + 22], 10
-	pinsrb	xmm8, byte ptr [rdx + rbx + 22], 11
-	pinsrb	xmm8, byte ptr [rdx + r15 + 22], 12
-	pinsrb	xmm8, byte ptr [rdx + rcx + 22], 13
-	pinsrb	xmm8, byte ptr [rdx + rax + 22], 14
-	pinsrb	xmm8, byte ptr [rdx + r9 + 22], 15
-	pinsrb	xmm9, byte ptr [rdx + r13 + 23], 3
-	pinsrb	xmm9, byte ptr [rdx + r12 + 23], 4
-	pinsrb	xmm9, byte ptr [rdx + rdi + 23], 5
-	pinsrb	xmm9, byte ptr [rdx + r11 + 23], 6
-	pinsrb	xmm9, byte ptr [rdx + r14 + 23], 7
-	pinsrb	xmm9, byte ptr [rdx + rsi + 23], 8
-	pinsrb	xmm9, byte ptr [rdx + r10 + 23], 9
-	pinsrb	xmm9, byte ptr [rdx + r8 + 23], 10
-	pinsrb	xmm9, byte ptr [rdx + rbx + 23], 11
-	pinsrb	xmm9, byte ptr [rdx + r15 + 23], 12
-	pinsrb	xmm9, byte ptr [rdx + rcx + 23], 13
-	pinsrb	xmm9, byte ptr [rdx + rax + 23], 14
-	pinsrb	xmm9, byte ptr [rdx + r9 + 23], 15
-	pinsrb	xmm11, byte ptr [rdx + r13 + 25], 3
-	pinsrb	xmm11, byte ptr [rdx + r12 + 25], 4
-	pinsrb	xmm11, byte ptr [rdx + rdi + 25], 5
-	pinsrb	xmm11, byte ptr [rdx + r11 + 25], 6
-	pinsrb	xmm11, byte ptr [rdx + r14 + 25], 7
-	pinsrb	xmm11, byte ptr [rdx + rsi + 25], 8
-	pinsrb	xmm11, byte ptr [rdx + r10 + 25], 9
-	pinsrb	xmm11, byte ptr [rdx + r8 + 25], 10
-	pinsrb	xmm11, byte ptr [rdx + rbx + 25], 11
-	pinsrb	xmm11, byte ptr [rdx + r15 + 25], 12
-	pinsrb	xmm11, byte ptr [rdx + rcx + 25], 13
-	pinsrb	xmm11, byte ptr [rdx + rax + 25], 14
-	pinsrb	xmm11, byte ptr [rdx + r9 + 25], 15
-	pinsrb	xmm7, byte ptr [rdx + r13 + 26], 3
-	pinsrb	xmm7, byte ptr [rdx + r12 + 26], 4
-	pinsrb	xmm7, byte ptr [rdx + rdi + 26], 5
-	pinsrb	xmm7, byte ptr [rdx + r11 + 26], 6
-	pinsrb	xmm7, byte ptr [rdx + r14 + 26], 7
-	pinsrb	xmm7, byte ptr [rdx + rsi + 26], 8
-	pinsrb	xmm7, byte ptr [rdx + r10 + 26], 9
-	pinsrb	xmm7, byte ptr [rdx + r8 + 26], 10
-	pinsrb	xmm7, byte ptr [rdx + rbx + 26], 11
-	pinsrb	xmm7, byte ptr [rdx + r15 + 26], 12
-	pinsrb	xmm7, byte ptr [rdx + rcx + 26], 13
-	pinsrb	xmm7, byte ptr [rdx + rax + 26], 14
-	por	xmm13, xmm10
-	movdqa	xmm12, xmm14
-	movdqa	xmm4, xmm14
-	pcmpgtb	xmm4, xmm8
-	movdqa	xmm0, xmm14
-	pcmpgtb	xmm0, xmm9
-	movdqa	xmm14, xmmword ptr [rip + .LCPI8_15] # xmm14 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm4, xmm14
-	psllw	xmm0, 7
-	movdqa	xmm15, xmmword ptr [rip + .LCPI8_6] # xmm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm0, xmm15
-	por	xmm0, xmm4
-	pinsrb	xmm7, byte ptr [rdx + r9 + 26], 15
-	por	xmm0, xmm13
-	movdqa	xmm4, xmm12
-	pcmpgtb	xmm4, xmm11
-	movdqa	xmm8, xmm4
-	movdqa	xmm11, xmmword ptr [rip + .LCPI8_10] # xmm11 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pand	xmm8, xmm11
-	psubb	xmm8, xmm4
-	movdqa	xmm4, xmm12
-	pcmpgtb	xmm4, xmm7
-	pinsrb	xmm5, byte ptr [rdx + r13 + 27], 3
-	pinsrb	xmm5, byte ptr [rdx + r12 + 27], 4
-	pinsrb	xmm5, byte ptr [rdx + rdi + 27], 5
-	pinsrb	xmm5, byte ptr [rdx + r11 + 27], 6
-	pinsrb	xmm5, byte ptr [rdx + r14 + 27], 7
-	pinsrb	xmm5, byte ptr [rdx + rsi + 27], 8
-	pinsrb	xmm5, byte ptr [rdx + r10 + 27], 9
-	pinsrb	xmm5, byte ptr [rdx + r8 + 27], 10
-	pinsrb	xmm5, byte ptr [rdx + rbx + 27], 11
-	pinsrb	xmm5, byte ptr [rdx + r15 + 27], 12
-	pinsrb	xmm5, byte ptr [rdx + rcx + 27], 13
-	pinsrb	xmm5, byte ptr [rdx + rax + 27], 14
-	pinsrb	xmm5, byte ptr [rdx + r9 + 27], 15
-	pinsrb	xmm6, byte ptr [rdx + r13 + 28], 3
-	pinsrb	xmm6, byte ptr [rdx + r12 + 28], 4
-	pinsrb	xmm6, byte ptr [rdx + rdi + 28], 5
-	pinsrb	xmm6, byte ptr [rdx + r11 + 28], 6
-	pinsrb	xmm6, byte ptr [rdx + r14 + 28], 7
-	pinsrb	xmm6, byte ptr [rdx + rsi + 28], 8
-	pinsrb	xmm6, byte ptr [rdx + r10 + 28], 9
-	pinsrb	xmm6, byte ptr [rdx + r8 + 28], 10
-	pinsrb	xmm6, byte ptr [rdx + rbx + 28], 11
-	pinsrb	xmm6, byte ptr [rdx + r15 + 28], 12
-	pinsrb	xmm6, byte ptr [rdx + rcx + 28], 13
-	movdqa	xmm7, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pand	xmm7, xmm11
-	pinsrb	xmm6, byte ptr [rdx + rax + 28], 14
-	pand	xmm4, xmmword ptr [rip + .LCPI8_11]
-	por	xmm4, xmm7
-	pinsrb	xmm6, byte ptr [rdx + r9 + 28], 15
-	por	xmm4, xmm8
-	movdqa	xmm7, xmm12
-	pcmpgtb	xmm7, xmm5
-	movdqa	xmm5, xmm12
-	pcmpgtb	xmm5, xmm6
-	pinsrb	xmm3, byte ptr [rdx + r13 + 29], 3
-	pinsrb	xmm3, byte ptr [rdx + r12 + 29], 4
-	pinsrb	xmm3, byte ptr [rdx + rdi + 29], 5
-	pinsrb	xmm3, byte ptr [rdx + r11 + 29], 6
-	pinsrb	xmm3, byte ptr [rdx + r14 + 29], 7
-	pinsrb	xmm3, byte ptr [rdx + rsi + 29], 8
-	pinsrb	xmm3, byte ptr [rdx + r10 + 29], 9
-	pinsrb	xmm3, byte ptr [rdx + r8 + 29], 10
-	pinsrb	xmm3, byte ptr [rdx + rbx + 29], 11
-	pinsrb	xmm3, byte ptr [rdx + r15 + 29], 12
-	pinsrb	xmm3, byte ptr [rdx + rcx + 29], 13
-	pinsrb	xmm3, byte ptr [rdx + rax + 29], 14
-	pinsrb	xmm3, byte ptr [rdx + r9 + 29], 15
-	pand	xmm7, xmmword ptr [rip + .LCPI8_12]
-	pand	xmm5, xmmword ptr [rip + .LCPI8_13]
-	por	xmm5, xmm7
-	movdqa	xmm6, xmm12
-	pcmpgtb	xmm6, xmm3
-	pand	xmm6, xmmword ptr [rip + .LCPI8_14]
-	por	xmm6, xmm5
-	pinsrb	xmm2, byte ptr [rdx + r13 + 30], 3
-	pinsrb	xmm1, byte ptr [rdx + r13 + 31], 3
-	pinsrb	xmm2, byte ptr [rdx + r12 + 30], 4
-	pinsrb	xmm1, byte ptr [rdx + r12 + 31], 4
-	pinsrb	xmm2, byte ptr [rdx + rdi + 30], 5
-	pinsrb	xmm1, byte ptr [rdx + rdi + 31], 5
-	pinsrb	xmm2, byte ptr [rdx + r11 + 30], 6
-	pinsrb	xmm1, byte ptr [rdx + r11 + 31], 6
-	pinsrb	xmm2, byte ptr [rdx + r14 + 30], 7
-	pinsrb	xmm1, byte ptr [rdx + r14 + 31], 7
-	pinsrb	xmm2, byte ptr [rdx + rsi + 30], 8
-	pinsrb	xmm1, byte ptr [rdx + rsi + 31], 8
-	pinsrb	xmm2, byte ptr [rdx + r10 + 30], 9
-	pinsrb	xmm1, byte ptr [rdx + r10 + 31], 9
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 30], 10
-	pinsrb	xmm1, byte ptr [rdx + r8 + 31], 10
-	pinsrb	xmm2, byte ptr [rdx + rbx + 30], 11
-	pinsrb	xmm1, byte ptr [rdx + rbx + 31], 11
-	pinsrb	xmm2, byte ptr [rdx + r15 + 30], 12
-	pinsrb	xmm1, byte ptr [rdx + r15 + 31], 12
-	pinsrb	xmm2, byte ptr [rdx + rcx + 30], 13
-	pinsrb	xmm1, byte ptr [rdx + rcx + 31], 13
-	pinsrb	xmm2, byte ptr [rdx + rax + 30], 14
-	pinsrb	xmm1, byte ptr [rdx + rax + 31], 14
-	pinsrb	xmm2, byte ptr [rdx + r9 + 30], 15
-	pinsrb	xmm1, byte ptr [rdx + r9 + 31], 15
-	por	xmm6, xmm4
-	movdqa	xmm3, xmm12
-	pcmpgtb	xmm3, xmm2
-	pand	xmm3, xmm14
-	pcmpgtb	xmm12, xmm1
-	psllw	xmm12, 7
-	pand	xmm12, xmm15
-	por	xmm12, xmm3
-	por	xmm12, xmm6
-	movdqa	xmm1, xmm0
-	punpcklbw	xmm1, xmm12             # xmm1 = xmm1[0],xmm12[0],xmm1[1],xmm12[1],xmm1[2],xmm12[2],xmm1[3],xmm12[3],xmm1[4],xmm12[4],xmm1[5],xmm12[5],xmm1[6],xmm12[6],xmm1[7],xmm12[7]
-	movdqa	xmm5, xmmword ptr [rsp + 192]   # 16-byte Reload
-	movdqa	xmm3, xmm5
-	movdqa	xmm6, xmmword ptr [rsp + 272]   # 16-byte Reload
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	movdqa	xmm4, xmm3
-	punpcklwd	xmm4, xmm1              # xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3]
-	punpckhwd	xmm3, xmm1              # xmm3 = xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
-	punpckhbw	xmm0, xmm12             # xmm0 = xmm0[8],xmm12[8],xmm0[9],xmm12[9],xmm0[10],xmm12[10],xmm0[11],xmm12[11],xmm0[12],xmm12[12],xmm0[13],xmm12[13],xmm0[14],xmm12[14],xmm0[15],xmm12[15]
-	punpckhbw	xmm5, xmm6              # xmm5 = xmm5[8],xmm6[8],xmm5[9],xmm6[9],xmm5[10],xmm6[10],xmm5[11],xmm6[11],xmm5[12],xmm6[12],xmm5[13],xmm6[13],xmm5[14],xmm6[14],xmm5[15],xmm6[15]
-	movdqa	xmm1, xmm5
-	punpcklwd	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
-	punpckhwd	xmm5, xmm0              # xmm5 = xmm5[4],xmm0[4],xmm5[5],xmm0[5],xmm5[6],xmm0[6],xmm5[7],xmm0[7]
-	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm5
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm1
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm3
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	jne	.LBB8_192
-# %bb.193:
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp]            # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	jne	.LBB8_42
-	jmp	.LBB8_128
-.LBB8_194:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 288], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB8_195:                              # =>This Inner Loop Header: Depth=1
-	mov	r9, rax
-	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
-	mov	rcx, rax
-	shl	rcx, 5
-	mov	r14, rcx
-	mov	rbx, rcx
-	mov	rax, rcx
-	mov	r11, rcx
-	mov	r10, rcx
-	mov	r8, rcx
-	mov	r9, rcx
-	mov	qword ptr [rsp + 64], rcx       # 8-byte Spill
-	mov	r12, rcx
-	mov	r15, rcx
-	mov	rdi, rcx
-	mov	rsi, rcx
-	movzx	ecx, byte ptr [rdx + rcx]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 4]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 5]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 6]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 7]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rsi + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rsi + 9]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 10]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 11]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 144], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rsi + 12]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 304], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rsi + 13]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rdx + rsi + 14]
-	movd	xmm13, ecx
-	mov	qword ptr [rsp + 56], rsi       # 8-byte Spill
-	mov	r13, rsi
-	or	r13, 32
-	mov	qword ptr [rsp + 8], r13        # 8-byte Spill
-	or	r14, 64
-	mov	qword ptr [rsp + 32], r14       # 8-byte Spill
-	or	rbx, 96
-	mov	qword ptr [rsp + 88], rbx       # 8-byte Spill
-	or	rax, 128
-	mov	rbx, r11
-	or	rbx, 160
-	mov	r11, r10
-	or	r11, 192
-	mov	qword ptr [rsp + 96], r11       # 8-byte Spill
-	or	r8, 224
-	or	r9, 256
-	mov	qword ptr [rsp + 80], r9        # 8-byte Spill
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	or	rcx, 288
-	or	r12, 320
-	or	r15, 352
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	mov	r10, rdi
-	or	r10, 384
-	mov	rdi, rsi
-	or	rdi, 416
-	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
-	mov	rdi, rsi
-	or	rdi, 448
-	mov	qword ptr [rsp + 16], rdi       # 8-byte Spill
-	mov	rdi, rsi
-	or	rdi, 480
-	mov	qword ptr [rsp + 24], rdi       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rdx + r13 + 1], 1
-	pinsrb	xmm5, byte ptr [rdx + r14 + 1], 2
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r13 + 1], 3
-	pinsrb	xmm5, byte ptr [rdx + rax + 1], 4
-	mov	r14, rax
-	pinsrb	xmm5, byte ptr [rdx + rbx + 1], 5
-	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 6
-	pinsrb	xmm5, byte ptr [rdx + r8 + 1], 7
-	pinsrb	xmm5, byte ptr [rdx + r9 + 1], 8
-	pinsrb	xmm5, byte ptr [rdx + rcx + 1], 9
-	pinsrb	xmm5, byte ptr [rdx + r12 + 1], 10
-	pinsrb	xmm5, byte ptr [rdx + r15 + 1], 11
-	pinsrb	xmm5, byte ptr [rdx + r10 + 1], 12
-	mov	r9, r10
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 1], 14
-	pinsrb	xmm5, byte ptr [rdx + rdi + 1], 15
-	movdqa	xmm10, xmmword ptr [rsp + 288]  # 16-byte Reload
-	pminub	xmm5, xmm10
-	pcmpeqb	xmm5, xmm10
-	movdqa	xmm6, xmm5
-	movdqa	xmm1, xmmword ptr [rip + .LCPI8_10] # xmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm6, xmm1
-	paddb	xmm6, xmm5
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rsi + 15]
-	movd	xmm0, esi
-	movdqa	xmmword ptr [rsp + 176], xmm0   # 16-byte Spill
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax], 1
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r10], 2
-	pinsrb	xmm9, byte ptr [rdx + r13], 3
-	mov	rsi, r14
-	pinsrb	xmm9, byte ptr [rdx + r14], 4
-	mov	r14, rbx
-	pinsrb	xmm9, byte ptr [rdx + rbx], 5
-	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rbx], 6
-	pinsrb	xmm9, byte ptr [rdx + r8], 7
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r15], 8
-	mov	qword ptr [rsp + 64], rcx       # 8-byte Spill
-	pinsrb	xmm9, byte ptr [rdx + rcx], 9
-	mov	qword ptr [rsp + 72], r12       # 8-byte Spill
-	pinsrb	xmm9, byte ptr [rdx + r12], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rdi], 11
-	pinsrb	xmm9, byte ptr [rdx + r9], 12
-	pinsrb	xmm9, byte ptr [rdx + r11], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax], 14
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r13], 15
-	pminub	xmm9, xmm10
-	pcmpeqb	xmm9, xmm10
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 2], 1
-	pinsrb	xmm7, byte ptr [rdx + r10 + 2], 2
-	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r13 + 2], 3
-	pinsrb	xmm7, byte ptr [rdx + rsi + 2], 4
-	pinsrb	xmm7, byte ptr [rdx + r14 + 2], 5
-	pinsrb	xmm7, byte ptr [rdx + rbx + 2], 6
-	pinsrb	xmm7, byte ptr [rdx + r8 + 2], 7
-	pinsrb	xmm7, byte ptr [rdx + r15 + 2], 8
-	pinsrb	xmm7, byte ptr [rdx + rcx + 2], 9
-	pinsrb	xmm7, byte ptr [rdx + r12 + 2], 10
-	pinsrb	xmm7, byte ptr [rdx + rdi + 2], 11
-	pinsrb	xmm7, byte ptr [rdx + r9 + 2], 12
-	pinsrb	xmm7, byte ptr [rdx + r11 + 2], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 2], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 2], 15
-	movdqa	xmm0, xmm15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 3], 1
-	pinsrb	xmm0, byte ptr [rdx + r10 + 3], 2
-	pinsrb	xmm0, byte ptr [rdx + r13 + 3], 3
-	pinsrb	xmm0, byte ptr [rdx + rsi + 3], 4
-	pinsrb	xmm0, byte ptr [rdx + r14 + 3], 5
-	pinsrb	xmm0, byte ptr [rdx + rbx + 3], 6
-	pinsrb	xmm0, byte ptr [rdx + r8 + 3], 7
-	pinsrb	xmm0, byte ptr [rdx + r15 + 3], 8
-	pinsrb	xmm0, byte ptr [rdx + rcx + 3], 9
-	pinsrb	xmm0, byte ptr [rdx + r12 + 3], 10
-	pinsrb	xmm0, byte ptr [rdx + rdi + 3], 11
-	pinsrb	xmm0, byte ptr [rdx + r9 + 3], 12
-	pinsrb	xmm0, byte ptr [rdx + r11 + 3], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 3], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 3], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 4], 1
-	pinsrb	xmm3, byte ptr [rdx + r10 + 4], 2
-	pinsrb	xmm3, byte ptr [rdx + r13 + 4], 3
-	pinsrb	xmm3, byte ptr [rdx + rsi + 4], 4
-	pinsrb	xmm3, byte ptr [rdx + r14 + 4], 5
-	pinsrb	xmm3, byte ptr [rdx + rbx + 4], 6
-	pinsrb	xmm3, byte ptr [rdx + r8 + 4], 7
-	pinsrb	xmm3, byte ptr [rdx + r15 + 4], 8
-	pinsrb	xmm3, byte ptr [rdx + rcx + 4], 9
-	pinsrb	xmm3, byte ptr [rdx + r12 + 4], 10
-	pinsrb	xmm3, byte ptr [rdx + rdi + 4], 11
-	pinsrb	xmm3, byte ptr [rdx + r9 + 4], 12
-	pinsrb	xmm3, byte ptr [rdx + r11 + 4], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 4], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 4], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 5], 1
-	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 2
-	pinsrb	xmm2, byte ptr [rdx + r13 + 5], 3
-	pinsrb	xmm2, byte ptr [rdx + rsi + 5], 4
-	mov	r10, rsi
-	mov	qword ptr [rsp + 192], rsi      # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rdx + r14 + 5], 5
-	pinsrb	xmm2, byte ptr [rdx + rbx + 5], 6
-	pinsrb	xmm2, byte ptr [rdx + r8 + 5], 7
-	pinsrb	xmm2, byte ptr [rdx + r15 + 5], 8
-	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 9
-	pinsrb	xmm2, byte ptr [rdx + r12 + 5], 10
-	pinsrb	xmm2, byte ptr [rdx + rdi + 5], 11
-	pinsrb	xmm2, byte ptr [rdx + r9 + 5], 12
-	pinsrb	xmm2, byte ptr [rdx + r11 + 5], 13
-	mov	rdi, r11
-	pandn	xmm9, xmm1
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 5], 14
-	pminub	xmm7, xmm10
-	pcmpeqb	xmm7, xmm10
-	movdqa	xmm1, xmmword ptr [rip + .LCPI8_11] # xmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm7, xmm1
-	por	xmm7, xmm9
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 16]
-	movd	xmm5, esi
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 15
-	pminub	xmm0, xmm10
-	pcmpeqb	xmm0, xmm10
-	movdqa	xmm1, xmmword ptr [rip + .LCPI8_12] # xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm0, xmm1
-	por	xmm0, xmm7
-	movzx	esi, byte ptr [rdx + r12 + 17]
-	movd	xmm1, esi
-	pcmpeqd	xmm7, xmm7
-	psubb	xmm6, xmm7
-	pcmpeqd	xmm9, xmm9
-	por	xmm0, xmm6
-	movzx	esi, byte ptr [rdx + r12 + 18]
-	movd	xmm7, esi
-	pminub	xmm3, xmm10
-	pcmpeqb	xmm3, xmm10
-	movdqa	xmm6, xmmword ptr [rip + .LCPI8_13] # xmm6 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm3, xmm6
-	pminub	xmm2, xmm10
-	pcmpeqb	xmm2, xmm10
-	movdqa	xmm6, xmmword ptr [rip + .LCPI8_14] # xmm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm6
-	por	xmm2, xmm3
-	movzx	esi, byte ptr [rdx + r12 + 19]
-	movd	xmm15, esi
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rcx + 6], 1
-	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r11 + 6], 2
-	pinsrb	xmm8, byte ptr [rdx + r13 + 6], 3
-	pinsrb	xmm8, byte ptr [rdx + r10 + 6], 4
-	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
-	pinsrb	xmm8, byte ptr [rdx + r14 + 6], 5
-	pinsrb	xmm8, byte ptr [rdx + rbx + 6], 6
-	mov	qword ptr [rsp + 208], r8       # 8-byte Spill
-	pinsrb	xmm8, byte ptr [rdx + r8 + 6], 7
-	pinsrb	xmm8, byte ptr [rdx + r15 + 6], 8
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r15 + 6], 9
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax + 6], 10
-	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r10 + 6], 11
-	pinsrb	xmm8, byte ptr [rdx + r9 + 6], 12
-	pinsrb	xmm8, byte ptr [rdx + rdi + 6], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rbx + 6], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax + 6], 15
-	pminub	xmm8, xmm10
-	pcmpeqb	xmm8, xmm10
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_15] # xmm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm8, xmm3
-	por	xmm8, xmm2
-	movzx	esi, byte ptr [rdx + r12 + 20]
-	movd	xmm4, esi
-	movdqa	xmm6, xmmword ptr [rsp + 160]   # 16-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rcx + 7], 1
-	pinsrb	xmm6, byte ptr [rdx + r11 + 7], 2
-	pinsrb	xmm6, byte ptr [rdx + r13 + 7], 3
-	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rcx + 7], 4
-	pinsrb	xmm6, byte ptr [rdx + r14 + 7], 5
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r14 + 7], 6
-	pinsrb	xmm6, byte ptr [rdx + r8 + 7], 7
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r12 + 7], 8
-	pinsrb	xmm6, byte ptr [rdx + r15 + 7], 9
-	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r8 + 7], 10
-	pinsrb	xmm6, byte ptr [rdx + r10 + 7], 11
-	pinsrb	xmm6, byte ptr [rdx + r9 + 7], 12
-	pinsrb	xmm6, byte ptr [rdx + rdi + 7], 13
-	mov	r15, rdi
-	pinsrb	xmm6, byte ptr [rdx + rbx + 7], 14
-	pinsrb	xmm6, byte ptr [rdx + rax + 7], 15
-	pminub	xmm6, xmm10
-	pcmpeqb	xmm6, xmm10
-	pxor	xmm6, xmm9
-	pcmpeqd	xmm3, xmm3
-	psllw	xmm6, 7
-	movdqa	xmm2, xmmword ptr [rip + .LCPI8_6] # xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm6, xmm2
-	por	xmm6, xmm8
-	movdqa	xmm8, xmm6
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 21]
-	movd	xmm6, esi
-	movdqa	xmm2, xmmword ptr [rsp + 272]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 8], 1
-	mov	rax, r11
-	pinsrb	xmm2, byte ptr [rdx + r11 + 8], 2
-	mov	rdi, r13
-	pinsrb	xmm2, byte ptr [rdx + r13 + 8], 3
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r10 + 8], 4
-	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r11 + 8], 5
-	mov	r13, r14
-	pinsrb	xmm2, byte ptr [rdx + r14 + 8], 6
-	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 8], 7
-	mov	r14, r12
-	pinsrb	xmm2, byte ptr [rdx + r12 + 8], 8
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 8], 9
-	mov	r12, r8
-	pinsrb	xmm2, byte ptr [rdx + r8 + 8], 10
-	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 8], 11
-	mov	qword ptr [rsp + 112], r9       # 8-byte Spill
-	pinsrb	xmm2, byte ptr [rdx + r9 + 8], 12
-	mov	r8, r15
-	pinsrb	xmm2, byte ptr [rdx + r15 + 8], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r15 + 8], 14
-	pinsrb	xmm11, byte ptr [rdx + rcx + 9], 1
-	pinsrb	xmm11, byte ptr [rdx + rax + 9], 2
-	pinsrb	xmm11, byte ptr [rdx + rdi + 9], 3
-	pinsrb	xmm11, byte ptr [rdx + r10 + 9], 4
-	mov	rbx, r10
-	pinsrb	xmm11, byte ptr [rdx + r11 + 9], 5
-	mov	rdi, r11
-	pinsrb	xmm11, byte ptr [rdx + r13 + 9], 6
-	mov	r10, r13
-	pinsrb	xmm11, byte ptr [rdx + rsi + 9], 7
-	pinsrb	xmm11, byte ptr [rdx + r14 + 9], 8
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rax + 9], 9
-	pinsrb	xmm11, byte ptr [rdx + r12 + 9], 10
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r11 + 9], 11
-	pinsrb	xmm11, byte ptr [rdx + r9 + 9], 12
-	pinsrb	xmm11, byte ptr [rdx + r8 + 9], 13
-	mov	r13, r8
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r8 + 9], 14
-	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r15 + 9], 15
-	por	xmm8, xmm0
-	movdqa	xmmword ptr [rsp + 160], xmm8   # 16-byte Spill
-	pminub	xmm11, xmm10
-	pcmpeqb	xmm11, xmm10
-	movdqa	xmm0, xmm11
-	movdqa	xmm8, xmmword ptr [rip + .LCPI8_10] # xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm8
-	paddb	xmm0, xmm11
-	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r9 + 22]
-	movd	xmm9, esi
-	pinsrb	xmm2, byte ptr [rdx + r15 + 8], 15
-	pminub	xmm2, xmm10
-	pcmpeqb	xmm2, xmm10
-	pandn	xmm2, xmm8
-	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 1
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 2
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 3
-	pinsrb	xmm12, byte ptr [rdx + rbx + 10], 4
-	pinsrb	xmm12, byte ptr [rdx + rdi + 10], 5
-	pinsrb	xmm12, byte ptr [rdx + r10 + 10], 6
-	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rbx + 10], 7
-	pinsrb	xmm12, byte ptr [rdx + r14 + 10], 8
-	pinsrb	xmm12, byte ptr [rdx + rax + 10], 9
-	mov	r14, rax
-	pinsrb	xmm12, byte ptr [rdx + r12 + 10], 10
-	pinsrb	xmm12, byte ptr [rdx + r11 + 10], 11
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rax + 10], 12
-	pinsrb	xmm12, byte ptr [rdx + r13 + 10], 13
-	pinsrb	xmm12, byte ptr [rdx + r8 + 10], 14
-	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 15
-	mov	r12, r15
-	pminub	xmm12, xmm10
-	pcmpeqb	xmm12, xmm10
-	pandn	xmm12, xmmword ptr [rip + .LCPI8_11]
-	por	xmm12, xmm2
-	mov	rax, r9
-	movzx	esi, byte ptr [rdx + r9 + 23]
-	movd	xmm8, esi
-	movdqa	xmm2, xmmword ptr [rsp + 144]   # 16-byte Reload
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 11], 1
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r15 + 11], 2
-	pinsrb	xmm2, byte ptr [rdx + rcx + 11], 3
-	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r11 + 11], 4
-	pinsrb	xmm2, byte ptr [rdx + rdi + 11], 5
-	pinsrb	xmm2, byte ptr [rdx + r10 + 11], 6
-	pinsrb	xmm2, byte ptr [rdx + rbx + 11], 7
-	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 11], 8
-	pinsrb	xmm2, byte ptr [rdx + r14 + 11], 9
-	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r14 + 11], 10
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rdi + 11], 11
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r9 + 11], 12
-	pinsrb	xmm2, byte ptr [rdx + r13 + 11], 13
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 11], 14
-	pinsrb	xmm2, byte ptr [rdx + r12 + 11], 15
-	mov	r13, r12
-	pminub	xmm2, xmm10
-	pcmpeqb	xmm2, xmm10
-	pandn	xmm2, xmmword ptr [rip + .LCPI8_12]
-	por	xmm2, xmm12
-	movzx	esi, byte ptr [rdx + rax + 24]
-	movd	xmm11, esi
-	psubb	xmm0, xmm3
-	por	xmm2, xmm0
-	movdqa	xmmword ptr [rsp + 144], xmm2   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + rax + 25]
-	movd	xmm3, esi
-	movdqa	xmm2, xmmword ptr [rsp + 304]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 12], 1
-	pinsrb	xmm2, byte ptr [rdx + r15 + 12], 2
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 12], 3
-	mov	r10, r11
-	pinsrb	xmm2, byte ptr [rdx + r11 + 12], 4
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 12], 5
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r15 + 12], 6
-	pinsrb	xmm2, byte ptr [rdx + rbx + 12], 7
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r11 + 12], 8
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 12], 9
-	pinsrb	xmm2, byte ptr [rdx + r14 + 12], 10
-	pinsrb	xmm2, byte ptr [rdx + rdi + 12], 11
-	pinsrb	xmm2, byte ptr [rdx + r9 + 12], 12
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r12 + 12], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 12], 14
-	pinsrb	xmm2, byte ptr [rdx + r13 + 12], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rax + 13], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + r13 + 13], 2
-	pinsrb	xmm14, byte ptr [rdx + r8 + 13], 3
-	pinsrb	xmm14, byte ptr [rdx + r10 + 13], 4
-	pinsrb	xmm14, byte ptr [rdx + rsi + 13], 5
-	pinsrb	xmm14, byte ptr [rdx + r15 + 13], 6
-	pinsrb	xmm14, byte ptr [rdx + rbx + 13], 7
-	pinsrb	xmm14, byte ptr [rdx + r11 + 13], 8
-	pinsrb	xmm14, byte ptr [rdx + rcx + 13], 9
-	pinsrb	xmm14, byte ptr [rdx + r14 + 13], 10
-	pinsrb	xmm14, byte ptr [rdx + rdi + 13], 11
-	pinsrb	xmm14, byte ptr [rdx + r9 + 13], 12
-	pinsrb	xmm14, byte ptr [rdx + r12 + 13], 13
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + r13 + 13], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rax + 13], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 14], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 14], 2
-	pinsrb	xmm13, byte ptr [rdx + r8 + 14], 3
-	pinsrb	xmm13, byte ptr [rdx + r10 + 14], 4
-	pinsrb	xmm13, byte ptr [rdx + rsi + 14], 5
-	pinsrb	xmm13, byte ptr [rdx + r15 + 14], 6
-	pinsrb	xmm13, byte ptr [rdx + rbx + 14], 7
-	pinsrb	xmm13, byte ptr [rdx + r11 + 14], 8
-	pinsrb	xmm13, byte ptr [rdx + rcx + 14], 9
-	pinsrb	xmm13, byte ptr [rdx + r14 + 14], 10
-	pinsrb	xmm13, byte ptr [rdx + rdi + 14], 11
-	pinsrb	xmm13, byte ptr [rdx + r9 + 14], 12
-	pinsrb	xmm13, byte ptr [rdx + r12 + 14], 13
-	pinsrb	xmm13, byte ptr [rdx + r13 + 14], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 14], 15
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 15], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r13 + 15], 2
-	pinsrb	xmm0, byte ptr [rdx + r8 + 15], 3
-	pinsrb	xmm0, byte ptr [rdx + r10 + 15], 4
-	pinsrb	xmm0, byte ptr [rdx + rsi + 15], 5
-	pinsrb	xmm0, byte ptr [rdx + r15 + 15], 6
-	pinsrb	xmm0, byte ptr [rdx + rbx + 15], 7
-	pinsrb	xmm0, byte ptr [rdx + r11 + 15], 8
-	pinsrb	xmm0, byte ptr [rdx + rcx + 15], 9
-	pinsrb	xmm0, byte ptr [rdx + r14 + 15], 10
-	pinsrb	xmm0, byte ptr [rdx + rdi + 15], 11
-	pinsrb	xmm0, byte ptr [rdx + r9 + 15], 12
-	pinsrb	xmm0, byte ptr [rdx + r12 + 15], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 15], 14
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 15], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rax + 17], 1
-	pinsrb	xmm1, byte ptr [rdx + r13 + 17], 2
-	pinsrb	xmm1, byte ptr [rdx + r8 + 17], 3
-	pinsrb	xmm1, byte ptr [rdx + r10 + 17], 4
-	pinsrb	xmm1, byte ptr [rdx + rsi + 17], 5
-	pinsrb	xmm1, byte ptr [rdx + r15 + 17], 6
-	pinsrb	xmm1, byte ptr [rdx + rbx + 17], 7
-	pinsrb	xmm1, byte ptr [rdx + r11 + 17], 8
-	pinsrb	xmm1, byte ptr [rdx + rcx + 17], 9
-	pinsrb	xmm1, byte ptr [rdx + r14 + 17], 10
-	pinsrb	xmm1, byte ptr [rdx + rdi + 17], 11
-	mov	r14, rdi
-	pinsrb	xmm1, byte ptr [rdx + r9 + 17], 12
-	pinsrb	xmm1, byte ptr [rdx + r12 + 17], 13
-	pminub	xmm2, xmm10
-	pcmpeqb	xmm2, xmm10
-	pandn	xmm2, xmmword ptr [rip + .LCPI8_13]
-	pminub	xmm14, xmm10
-	pcmpeqb	xmm14, xmm10
-	pandn	xmm14, xmmword ptr [rip + .LCPI8_14]
-	por	xmm14, xmm2
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rdi + 26]
-	movd	xmm2, esi
-	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r9 + 17], 14
-	pminub	xmm13, xmm10
-	pcmpeqb	xmm13, xmm10
-	pandn	xmm13, xmmword ptr [rip + .LCPI8_15]
-	por	xmm13, xmm14
-	movzx	esi, byte ptr [rdx + rdi + 27]
-	movd	xmm12, esi
-	pminub	xmm0, xmm10
-	pcmpeqb	xmm0, xmm10
-	pxor	xmm0, xmmword ptr [rip + .LCPI8_16]
-	psllw	xmm0, 7
-	pand	xmm0, xmmword ptr [rip + .LCPI8_6]
-	por	xmm0, xmm13
-	movzx	esi, byte ptr [rdx + rdi + 28]
-	movd	xmm13, esi
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r13 + 17], 15
-	por	xmm0, xmmword ptr [rsp + 144]   # 16-byte Folded Reload
-	movdqa	xmmword ptr [rsp + 176], xmm0   # 16-byte Spill
-	pminub	xmm1, xmm10
-	pcmpeqb	xmm1, xmm10
-	movdqa	xmm0, xmm10
-	movdqa	xmm14, xmm1
-	movdqa	xmm10, xmmword ptr [rip + .LCPI8_10] # xmm10 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm14, xmm10
-	paddb	xmm14, xmm1
-	movdqa	xmmword ptr [rsp + 144], xmm14  # 16-byte Spill
-	movzx	esi, byte ptr [rdx + rdi + 29]
-	movd	xmm10, esi
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 16], 1
-	pinsrb	xmm7, byte ptr [rdx + rax + 18], 1
-	pinsrb	xmm15, byte ptr [rdx + rax + 19], 1
-	pinsrb	xmm4, byte ptr [rdx + rax + 20], 1
-	pinsrb	xmm6, byte ptr [rdx + rax + 21], 1
-	pinsrb	xmm9, byte ptr [rdx + rax + 22], 1
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 1
-	pinsrb	xmm11, byte ptr [rdx + rax + 24], 1
-	pinsrb	xmm3, byte ptr [rdx + rax + 25], 1
-	pinsrb	xmm2, byte ptr [rdx + rax + 26], 1
-	pinsrb	xmm12, byte ptr [rdx + rax + 27], 1
-	pinsrb	xmm13, byte ptr [rdx + rax + 28], 1
-	pinsrb	xmm10, byte ptr [rdx + rax + 29], 1
-	movzx	esi, byte ptr [rdx + rdi + 30]
-	movd	xmm14, esi
-	pinsrb	xmm14, byte ptr [rdx + rax + 30], 1
-	movzx	esi, byte ptr [rdx + rdi + 31]
-	movd	xmm1, esi
-	pinsrb	xmm1, byte ptr [rdx + rax + 31], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 16], 2
-	pinsrb	xmm7, byte ptr [rdx + rax + 18], 2
-	pinsrb	xmm15, byte ptr [rdx + rax + 19], 2
-	pinsrb	xmm4, byte ptr [rdx + rax + 20], 2
-	pinsrb	xmm6, byte ptr [rdx + rax + 21], 2
-	pinsrb	xmm9, byte ptr [rdx + rax + 22], 2
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 2
-	pinsrb	xmm11, byte ptr [rdx + rax + 24], 2
-	pinsrb	xmm3, byte ptr [rdx + rax + 25], 2
-	pinsrb	xmm2, byte ptr [rdx + rax + 26], 2
-	pinsrb	xmm12, byte ptr [rdx + rax + 27], 2
-	pinsrb	xmm13, byte ptr [rdx + rax + 28], 2
-	pinsrb	xmm10, byte ptr [rdx + rax + 29], 2
-	pinsrb	xmm14, byte ptr [rdx + rax + 30], 2
-	pinsrb	xmm1, byte ptr [rdx + rax + 31], 2
-	pinsrb	xmm5, byte ptr [rdx + r8 + 16], 3
-	pinsrb	xmm5, byte ptr [rdx + r10 + 16], 4
-	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 16], 5
-	pinsrb	xmm5, byte ptr [rdx + r15 + 16], 6
-	pinsrb	xmm5, byte ptr [rdx + rbx + 16], 7
-	pinsrb	xmm5, byte ptr [rdx + r11 + 16], 8
-	pinsrb	xmm5, byte ptr [rdx + rcx + 16], 9
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 16], 10
-	pinsrb	xmm5, byte ptr [rdx + r14 + 16], 11
-	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r12 + 16], 12
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rdi + 16], 13
-	pinsrb	xmm5, byte ptr [rdx + r9 + 16], 14
-	pinsrb	xmm5, byte ptr [rdx + r13 + 16], 15
-	pminub	xmm5, xmm0
-	pcmpeqb	xmm5, xmm0
-	pinsrb	xmm7, byte ptr [rdx + r8 + 18], 3
-	pinsrb	xmm7, byte ptr [rdx + r10 + 18], 4
-	pinsrb	xmm7, byte ptr [rdx + rsi + 18], 5
-	pinsrb	xmm7, byte ptr [rdx + r15 + 18], 6
-	pinsrb	xmm7, byte ptr [rdx + rbx + 18], 7
-	pinsrb	xmm7, byte ptr [rdx + r11 + 18], 8
-	pinsrb	xmm7, byte ptr [rdx + rcx + 18], 9
-	pinsrb	xmm7, byte ptr [rdx + rax + 18], 10
-	pinsrb	xmm7, byte ptr [rdx + r14 + 18], 11
-	pinsrb	xmm7, byte ptr [rdx + r12 + 18], 12
-	pinsrb	xmm7, byte ptr [rdx + rdi + 18], 13
-	pinsrb	xmm7, byte ptr [rdx + r9 + 18], 14
-	pinsrb	xmm7, byte ptr [rdx + r13 + 18], 15
-	pinsrb	xmm15, byte ptr [rdx + r8 + 19], 3
-	pinsrb	xmm15, byte ptr [rdx + r10 + 19], 4
-	pinsrb	xmm15, byte ptr [rdx + rsi + 19], 5
-	pinsrb	xmm15, byte ptr [rdx + r15 + 19], 6
-	pinsrb	xmm15, byte ptr [rdx + rbx + 19], 7
-	pinsrb	xmm15, byte ptr [rdx + r11 + 19], 8
-	pinsrb	xmm15, byte ptr [rdx + rcx + 19], 9
-	pinsrb	xmm15, byte ptr [rdx + rax + 19], 10
-	pinsrb	xmm15, byte ptr [rdx + r14 + 19], 11
-	pinsrb	xmm15, byte ptr [rdx + r12 + 19], 12
-	pinsrb	xmm15, byte ptr [rdx + rdi + 19], 13
-	pinsrb	xmm15, byte ptr [rdx + r9 + 19], 14
-	pinsrb	xmm15, byte ptr [rdx + r13 + 19], 15
-	pinsrb	xmm4, byte ptr [rdx + r8 + 20], 3
-	pinsrb	xmm4, byte ptr [rdx + r10 + 20], 4
-	pinsrb	xmm4, byte ptr [rdx + rsi + 20], 5
-	pinsrb	xmm4, byte ptr [rdx + r15 + 20], 6
-	pinsrb	xmm4, byte ptr [rdx + rbx + 20], 7
-	pinsrb	xmm4, byte ptr [rdx + r11 + 20], 8
-	pinsrb	xmm4, byte ptr [rdx + rcx + 20], 9
-	pinsrb	xmm4, byte ptr [rdx + rax + 20], 10
-	pinsrb	xmm4, byte ptr [rdx + r14 + 20], 11
-	pinsrb	xmm4, byte ptr [rdx + r12 + 20], 12
-	pinsrb	xmm4, byte ptr [rdx + rdi + 20], 13
-	pinsrb	xmm4, byte ptr [rdx + r9 + 20], 14
-	pinsrb	xmm4, byte ptr [rdx + r13 + 20], 15
-	pinsrb	xmm6, byte ptr [rdx + r8 + 21], 3
-	pinsrb	xmm6, byte ptr [rdx + r10 + 21], 4
-	mov	rax, r10
-	pinsrb	xmm6, byte ptr [rdx + rsi + 21], 5
-	pinsrb	xmm6, byte ptr [rdx + r15 + 21], 6
-	pinsrb	xmm6, byte ptr [rdx + rbx + 21], 7
-	pinsrb	xmm6, byte ptr [rdx + r11 + 21], 8
-	pinsrb	xmm6, byte ptr [rdx + rcx + 21], 9
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r10 + 21], 10
-	pinsrb	xmm6, byte ptr [rdx + r14 + 21], 11
-	pinsrb	xmm6, byte ptr [rdx + r12 + 21], 12
-	pinsrb	xmm6, byte ptr [rdx + rdi + 21], 13
-	pinsrb	xmm6, byte ptr [rdx + r9 + 21], 14
-	pandn	xmm5, xmmword ptr [rip + .LCPI8_10]
-	pminub	xmm7, xmm0
-	pcmpeqb	xmm7, xmm0
-	pandn	xmm7, xmmword ptr [rip + .LCPI8_11]
-	por	xmm7, xmm5
-	pminub	xmm15, xmm0
-	pcmpeqb	xmm15, xmm0
-	movdqa	xmm5, xmmword ptr [rip + .LCPI8_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm15, xmm5
-	por	xmm15, xmm7
-	pinsrb	xmm6, byte ptr [rdx + r13 + 21], 15
-	pcmpeqd	xmm5, xmm5
-	movdqa	xmm7, xmmword ptr [rsp + 144]   # 16-byte Reload
-	psubb	xmm7, xmm5
-	por	xmm15, xmm7
-	pminub	xmm4, xmm0
-	pcmpeqb	xmm4, xmm0
-	movdqa	xmm7, xmmword ptr [rip + .LCPI8_13] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm4, xmm7
-	pminub	xmm6, xmm0
-	pcmpeqb	xmm6, xmm0
-	movdqa	xmm7, xmmword ptr [rip + .LCPI8_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm6, xmm7
-	por	xmm6, xmm4
-	pinsrb	xmm9, byte ptr [rdx + r8 + 22], 3
-	pinsrb	xmm9, byte ptr [rdx + rax + 22], 4
-	pinsrb	xmm9, byte ptr [rdx + rsi + 22], 5
-	pinsrb	xmm9, byte ptr [rdx + r15 + 22], 6
-	pinsrb	xmm9, byte ptr [rdx + rbx + 22], 7
-	pinsrb	xmm9, byte ptr [rdx + r11 + 22], 8
-	pinsrb	xmm9, byte ptr [rdx + rcx + 22], 9
-	pinsrb	xmm9, byte ptr [rdx + r10 + 22], 10
-	pinsrb	xmm9, byte ptr [rdx + r14 + 22], 11
-	pinsrb	xmm9, byte ptr [rdx + r12 + 22], 12
-	pinsrb	xmm9, byte ptr [rdx + rdi + 22], 13
-	pinsrb	xmm9, byte ptr [rdx + r9 + 22], 14
-	pinsrb	xmm9, byte ptr [rdx + r13 + 22], 15
-	pminub	xmm9, xmm0
-	pcmpeqb	xmm9, xmm0
-	movdqa	xmm7, xmmword ptr [rip + .LCPI8_15] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm9, xmm7
-	por	xmm9, xmm6
-	pinsrb	xmm8, byte ptr [rdx + r8 + 23], 3
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 4
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 5
-	pinsrb	xmm8, byte ptr [rdx + r15 + 23], 6
-	pinsrb	xmm8, byte ptr [rdx + rbx + 23], 7
-	pinsrb	xmm8, byte ptr [rdx + r11 + 23], 8
-	pinsrb	xmm8, byte ptr [rdx + rcx + 23], 9
-	pinsrb	xmm8, byte ptr [rdx + r10 + 23], 10
-	pinsrb	xmm8, byte ptr [rdx + r14 + 23], 11
-	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 12
-	pinsrb	xmm8, byte ptr [rdx + rdi + 23], 13
-	pinsrb	xmm8, byte ptr [rdx + r9 + 23], 14
-	pinsrb	xmm8, byte ptr [rdx + r13 + 23], 15
-	pminub	xmm8, xmm0
-	pcmpeqb	xmm8, xmm0
-	pxor	xmm8, xmm5
-	pcmpeqd	xmm5, xmm5
-	psllw	xmm8, 7
-	movdqa	xmm6, xmmword ptr [rip + .LCPI8_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm6
-	por	xmm8, xmm9
-	pinsrb	xmm11, byte ptr [rdx + r8 + 24], 3
-	pinsrb	xmm11, byte ptr [rdx + rax + 24], 4
-	pinsrb	xmm11, byte ptr [rdx + rsi + 24], 5
-	pinsrb	xmm11, byte ptr [rdx + r15 + 24], 6
-	pinsrb	xmm11, byte ptr [rdx + rbx + 24], 7
-	pinsrb	xmm11, byte ptr [rdx + r11 + 24], 8
-	pinsrb	xmm11, byte ptr [rdx + rcx + 24], 9
-	pinsrb	xmm11, byte ptr [rdx + r10 + 24], 10
-	pinsrb	xmm11, byte ptr [rdx + r14 + 24], 11
-	pinsrb	xmm11, byte ptr [rdx + r12 + 24], 12
-	pinsrb	xmm11, byte ptr [rdx + rdi + 24], 13
-	pinsrb	xmm11, byte ptr [rdx + r9 + 24], 14
-	pinsrb	xmm3, byte ptr [rdx + r8 + 25], 3
-	pinsrb	xmm3, byte ptr [rdx + rax + 25], 4
-	pinsrb	xmm3, byte ptr [rdx + rsi + 25], 5
-	pinsrb	xmm3, byte ptr [rdx + r15 + 25], 6
-	pinsrb	xmm3, byte ptr [rdx + rbx + 25], 7
-	pinsrb	xmm3, byte ptr [rdx + r11 + 25], 8
-	pinsrb	xmm3, byte ptr [rdx + rcx + 25], 9
-	pinsrb	xmm3, byte ptr [rdx + r10 + 25], 10
-	pinsrb	xmm3, byte ptr [rdx + r14 + 25], 11
-	pinsrb	xmm3, byte ptr [rdx + r12 + 25], 12
-	pinsrb	xmm3, byte ptr [rdx + rdi + 25], 13
-	pinsrb	xmm3, byte ptr [rdx + r9 + 25], 14
-	pinsrb	xmm3, byte ptr [rdx + r13 + 25], 15
-	por	xmm8, xmm15
-	movdqa	xmm4, xmm0
-	pminub	xmm3, xmm0
-	pcmpeqb	xmm3, xmm0
-	movdqa	xmm0, xmm3
-	movdqa	xmm9, xmmword ptr [rip + .LCPI8_10] # xmm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
-	pandn	xmm0, xmm9
-	paddb	xmm0, xmm3
-	pinsrb	xmm11, byte ptr [rdx + r13 + 24], 15
-	pminub	xmm11, xmm4
-	pcmpeqb	xmm11, xmm4
-	pandn	xmm11, xmm9
-	pinsrb	xmm2, byte ptr [rdx + r8 + 26], 3
-	pinsrb	xmm2, byte ptr [rdx + rax + 26], 4
-	pinsrb	xmm2, byte ptr [rdx + rsi + 26], 5
-	pinsrb	xmm2, byte ptr [rdx + r15 + 26], 6
-	pinsrb	xmm2, byte ptr [rdx + rbx + 26], 7
-	pinsrb	xmm2, byte ptr [rdx + r11 + 26], 8
-	pinsrb	xmm2, byte ptr [rdx + rcx + 26], 9
-	pinsrb	xmm2, byte ptr [rdx + r10 + 26], 10
-	pinsrb	xmm2, byte ptr [rdx + r14 + 26], 11
-	pinsrb	xmm2, byte ptr [rdx + r12 + 26], 12
-	pinsrb	xmm2, byte ptr [rdx + rdi + 26], 13
-	pinsrb	xmm2, byte ptr [rdx + r9 + 26], 14
-	pinsrb	xmm2, byte ptr [rdx + r13 + 26], 15
-	pminub	xmm2, xmm4
-	pcmpeqb	xmm2, xmm4
-	pandn	xmm2, xmmword ptr [rip + .LCPI8_11]
-	por	xmm2, xmm11
-	pinsrb	xmm12, byte ptr [rdx + r8 + 27], 3
-	pinsrb	xmm12, byte ptr [rdx + rax + 27], 4
-	pinsrb	xmm12, byte ptr [rdx + rsi + 27], 5
-	pinsrb	xmm12, byte ptr [rdx + r15 + 27], 6
-	pinsrb	xmm12, byte ptr [rdx + rbx + 27], 7
-	pinsrb	xmm12, byte ptr [rdx + r11 + 27], 8
-	pinsrb	xmm12, byte ptr [rdx + rcx + 27], 9
-	pinsrb	xmm12, byte ptr [rdx + r10 + 27], 10
-	pinsrb	xmm12, byte ptr [rdx + r14 + 27], 11
-	pinsrb	xmm12, byte ptr [rdx + r12 + 27], 12
-	pinsrb	xmm12, byte ptr [rdx + rdi + 27], 13
-	pinsrb	xmm12, byte ptr [rdx + r9 + 27], 14
-	pinsrb	xmm12, byte ptr [rdx + r13 + 27], 15
-	pminub	xmm12, xmm4
-	pcmpeqb	xmm12, xmm4
-	movdqa	xmm3, xmm4
-	pandn	xmm12, xmmword ptr [rip + .LCPI8_12]
-	por	xmm12, xmm2
-	psubb	xmm0, xmm5
-	por	xmm12, xmm0
-	pinsrb	xmm13, byte ptr [rdx + r8 + 28], 3
-	pinsrb	xmm10, byte ptr [rdx + r8 + 29], 3
-	pinsrb	xmm14, byte ptr [rdx + r8 + 30], 3
-	pinsrb	xmm1, byte ptr [rdx + r8 + 31], 3
-	pinsrb	xmm13, byte ptr [rdx + rax + 28], 4
-	pinsrb	xmm10, byte ptr [rdx + rax + 29], 4
-	pinsrb	xmm14, byte ptr [rdx + rax + 30], 4
-	pinsrb	xmm1, byte ptr [rdx + rax + 31], 4
-	pinsrb	xmm13, byte ptr [rdx + rsi + 28], 5
-	pinsrb	xmm10, byte ptr [rdx + rsi + 29], 5
-	pinsrb	xmm14, byte ptr [rdx + rsi + 30], 5
-	pinsrb	xmm1, byte ptr [rdx + rsi + 31], 5
-	pinsrb	xmm13, byte ptr [rdx + r15 + 28], 6
-	pinsrb	xmm10, byte ptr [rdx + r15 + 29], 6
-	pinsrb	xmm14, byte ptr [rdx + r15 + 30], 6
-	pinsrb	xmm1, byte ptr [rdx + r15 + 31], 6
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rbx + 28], 7
-	pinsrb	xmm10, byte ptr [rdx + rbx + 29], 7
-	pinsrb	xmm14, byte ptr [rdx + rbx + 30], 7
-	pinsrb	xmm1, byte ptr [rdx + rbx + 31], 7
-	pinsrb	xmm13, byte ptr [rdx + r11 + 28], 8
-	pinsrb	xmm10, byte ptr [rdx + r11 + 29], 8
-	pinsrb	xmm14, byte ptr [rdx + r11 + 30], 8
-	pinsrb	xmm1, byte ptr [rdx + r11 + 31], 8
-	pinsrb	xmm13, byte ptr [rdx + rcx + 28], 9
-	pinsrb	xmm10, byte ptr [rdx + rcx + 29], 9
-	pinsrb	xmm14, byte ptr [rdx + rcx + 30], 9
-	pinsrb	xmm1, byte ptr [rdx + rcx + 31], 9
-	mov	rax, r10
-	pinsrb	xmm13, byte ptr [rdx + r10 + 28], 10
-	pinsrb	xmm10, byte ptr [rdx + r10 + 29], 10
-	pinsrb	xmm14, byte ptr [rdx + r10 + 30], 10
-	pinsrb	xmm1, byte ptr [rdx + r10 + 31], 10
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 28], 11
-	pinsrb	xmm10, byte ptr [rdx + rax + 29], 11
-	pinsrb	xmm14, byte ptr [rdx + rax + 30], 11
-	pinsrb	xmm1, byte ptr [rdx + rax + 31], 11
-	mov	rax, r12
-	pinsrb	xmm13, byte ptr [rdx + r12 + 28], 12
-	pinsrb	xmm10, byte ptr [rdx + r12 + 29], 12
-	pinsrb	xmm14, byte ptr [rdx + r12 + 30], 12
-	pinsrb	xmm1, byte ptr [rdx + r12 + 31], 12
-	pinsrb	xmm13, byte ptr [rdx + rdi + 28], 13
-	pinsrb	xmm10, byte ptr [rdx + rdi + 29], 13
-	pinsrb	xmm14, byte ptr [rdx + rdi + 30], 13
-	pinsrb	xmm1, byte ptr [rdx + rdi + 31], 13
-	pinsrb	xmm13, byte ptr [rdx + r9 + 28], 14
-	pinsrb	xmm10, byte ptr [rdx + r9 + 29], 14
-	pinsrb	xmm14, byte ptr [rdx + r9 + 30], 14
-	pinsrb	xmm1, byte ptr [rdx + r9 + 31], 14
-	mov	rax, r13
-	pinsrb	xmm13, byte ptr [rdx + r13 + 28], 15
-	pinsrb	xmm10, byte ptr [rdx + r13 + 29], 15
-	pinsrb	xmm14, byte ptr [rdx + r13 + 30], 15
-	movdqa	xmm0, xmm4
-	pminub	xmm13, xmm4
-	pcmpeqb	xmm13, xmm4
-	pandn	xmm13, xmmword ptr [rip + .LCPI8_13]
-	pminub	xmm10, xmm4
-	pcmpeqb	xmm10, xmm4
-	pandn	xmm10, xmmword ptr [rip + .LCPI8_14]
-	por	xmm10, xmm13
-	pinsrb	xmm1, byte ptr [rdx + r13 + 31], 15
-	pminub	xmm14, xmm4
-	pcmpeqb	xmm14, xmm4
-	pandn	xmm14, xmm7
-	por	xmm14, xmm10
-	pminub	xmm1, xmm4
-	pcmpeqb	xmm1, xmm4
-	pxor	xmm1, xmm5
-	psllw	xmm1, 7
-	pand	xmm1, xmm6
-	por	xmm1, xmm14
-	por	xmm1, xmm12
-	movdqa	xmm0, xmm8
-	punpcklbw	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
-	movdqa	xmm4, xmmword ptr [rsp + 160]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	movdqa	xmm5, xmmword ptr [rsp + 176]   # 16-byte Reload
-	punpcklbw	xmm2, xmm5              # xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1],xmm2[2],xmm5[2],xmm2[3],xmm5[3],xmm2[4],xmm5[4],xmm2[5],xmm5[5],xmm2[6],xmm5[6],xmm2[7],xmm5[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm0              # xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]
-	punpckhwd	xmm2, xmm0              # xmm2 = xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
-	punpckhbw	xmm8, xmm1              # xmm8 = xmm8[8],xmm1[8],xmm8[9],xmm1[9],xmm8[10],xmm1[10],xmm8[11],xmm1[11],xmm8[12],xmm1[12],xmm8[13],xmm1[13],xmm8[14],xmm1[14],xmm8[15],xmm1[15]
-	punpckhbw	xmm4, xmm5              # xmm4 = xmm4[8],xmm5[8],xmm4[9],xmm5[9],xmm4[10],xmm5[10],xmm4[11],xmm5[11],xmm4[12],xmm5[12],xmm4[13],xmm5[13],xmm4[14],xmm5[14],xmm4[15],xmm5[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	jne	.LBB8_195
-# %bb.196:
-	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp]            # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	jne	.LBB8_67
-	jmp	.LBB8_132
-.LBB8_197:
-	and	r15, -8
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rdx
-	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp], rax            # 8-byte Spill
-	mov	dword ptr [rsp + 48], r13d      # 4-byte Spill
-	movd	xmm0, r13d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm15, xmm0, 0                  # xmm15 = xmm0[0,0,0,0]
-	xor	r9d, r9d
-	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
-	movdqa	xmm8, xmmword ptr [rip + .LCPI8_8] # xmm8 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
-	.p2align	4, 0x90
-.LBB8_198:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 16], r9        # 8-byte Spill
-	shl	r9, 6
-	mov	r8, r9
-	mov	r12, r9
-	mov	r13, r9
-	mov	rcx, r9
-	mov	rdi, r9
-	mov	rbx, r9
-	movzx	eax, word ptr [rdx + r9]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rdx + r9 + 2]
-	movd	xmm3, eax
-	movzx	eax, word ptr [rdx + r9 + 4]
-	movd	xmm2, eax
-	movzx	eax, word ptr [rdx + r9 + 6]
-	movd	xmm4, eax
-	movzx	r10d, word ptr [rdx + r9 + 8]
-	movzx	esi, word ptr [rdx + r9 + 10]
-	movzx	r11d, word ptr [rdx + r9 + 12]
-	movzx	eax, word ptr [rdx + r9 + 14]
-	mov	dword ptr [rsp + 8], eax        # 4-byte Spill
-	movzx	eax, word ptr [rdx + r9 + 16]
-	movd	xmm6, eax
-	movzx	eax, word ptr [rdx + r9 + 32]
-	movd	xmm1, eax
-	movzx	eax, word ptr [rdx + r9 + 48]
-	mov	r15, r9
-	or	r15, 64
-	or	r8, 128
-	or	r12, 192
-	or	r13, 256
-	or	rcx, 320
-	or	rdi, 384
-	pinsrw	xmm5, word ptr [rdx + r15], 1
-	pinsrw	xmm5, word ptr [rdx + r8], 2
-	pinsrw	xmm5, word ptr [rdx + r12], 3
-	pinsrw	xmm5, word ptr [rdx + r13], 4
-	pinsrw	xmm5, word ptr [rdx + rcx], 5
-	pinsrw	xmm5, word ptr [rdx + rdi], 6
-	or	rbx, 448
-	pinsrw	xmm5, word ptr [rdx + rbx], 7
-	movd	xmm9, eax
-	movzx	eax, word ptr [rdx + r9 + 18]
-	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
-	movdqa	xmm0, xmm15
-	pcmpgtw	xmm0, xmm5
-	pinsrw	xmm3, word ptr [rdx + r15 + 2], 1
-	pinsrw	xmm3, word ptr [rdx + r8 + 2], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 2], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 2], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 2], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 2], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 2], 7
-	pinsrw	xmm6, word ptr [rdx + r15 + 16], 1
-	pinsrw	xmm6, word ptr [rdx + r8 + 16], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 16], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 16], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 16], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 16], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 16], 7
-	movdqa	xmm10, xmm15
-	pinsrw	xmm1, word ptr [rdx + r15 + 32], 1
-	pinsrw	xmm1, word ptr [rdx + r8 + 32], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 32], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 32], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 32], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 32], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 32], 7
-	pcmpgtw	xmm10, xmm6
-	movdqa	xmm6, xmm15
-	pcmpgtw	xmm6, xmm1
-	pinsrw	xmm9, word ptr [rdx + r15 + 48], 1
-	pinsrw	xmm9, word ptr [rdx + r8 + 48], 2
-	pinsrw	xmm9, word ptr [rdx + r12 + 48], 3
-	pinsrw	xmm9, word ptr [rdx + r13 + 48], 4
-	pinsrw	xmm9, word ptr [rdx + rcx + 48], 5
-	pinsrw	xmm9, word ptr [rdx + rdi + 48], 6
-	pinsrw	xmm9, word ptr [rdx + rbx + 48], 7
-	movdqa	xmm5, xmm15
-	pcmpgtw	xmm5, xmm9
-	movdqa	xmm1, xmm15
-	pcmpgtw	xmm1, xmm3
-	packsswb	xmm1, xmm1
-	movdqa	xmm3, xmm1
-	pand	xmm3, xmm8
-	psubb	xmm3, xmm1
-	movd	xmm1, r10d
-	movzx	r14d, word ptr [rdx + r9 + 20]
-	packsswb	xmm0, xmm0
-	pinsrw	xmm2, word ptr [rdx + r15 + 4], 1
-	pinsrw	xmm2, word ptr [rdx + r8 + 4], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 4], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 4], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 4], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 4], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 4], 7
-	pinsrw	xmm4, word ptr [rdx + r15 + 6], 1
-	pinsrw	xmm4, word ptr [rdx + r8 + 6], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 6], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 6], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 6], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 6], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 6], 7
-	pinsrw	xmm1, word ptr [rdx + r15 + 8], 1
-	pinsrw	xmm1, word ptr [rdx + r8 + 8], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 8], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 8], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 8], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 8], 6
-	pand	xmm0, xmm8
-	por	xmm3, xmm0
-	movdqa	xmm7, xmm15
-	pcmpgtw	xmm7, xmm2
-	movd	xmm2, esi
-	movzx	esi, word ptr [rdx + r9 + 22]
-	pinsrw	xmm1, word ptr [rdx + rbx + 8], 7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm8
-	psllw	xmm7, 2
-	movdqa	xmm11, xmmword ptr [rip + .LCPI8_1] # xmm11 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	pand	xmm7, xmm11
-	por	xmm7, xmm3
-	movdqa	xmm3, xmm15
-	pcmpgtw	xmm3, xmm4
-	movdqa	xmm0, xmm15
-	pcmpgtw	xmm0, xmm1
-	movd	xmm1, r11d
-	movzx	r11d, word ptr [rdx + r9 + 24]
-	pinsrw	xmm2, word ptr [rdx + r15 + 10], 1
-	pinsrw	xmm2, word ptr [rdx + r8 + 10], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 10], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 10], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 10], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 10], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 10], 7
-	pinsrw	xmm1, word ptr [rdx + r15 + 12], 1
-	pinsrw	xmm1, word ptr [rdx + r8 + 12], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 12], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 12], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 12], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 12], 6
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm8
-	psllw	xmm3, 3
-	movdqa	xmm12, xmmword ptr [rip + .LCPI8_2] # xmm12 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	pand	xmm3, xmm12
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm8
-	psllw	xmm0, 4
-	movdqa	xmm13, xmmword ptr [rip + .LCPI8_3] # xmm13 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	pand	xmm0, xmm13
-	por	xmm0, xmm3
-	movd	xmm3, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rdx + r9 + 26]
-	pinsrw	xmm1, word ptr [rdx + rbx + 12], 7
-	por	xmm0, xmm7
-	movdqa	xmm4, xmm15
-	pcmpgtw	xmm4, xmm2
-	movdqa	xmm7, xmm15
-	pcmpgtw	xmm7, xmm1
-	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rdx + r9 + 28]
-	pinsrw	xmm3, word ptr [rdx + r15 + 14], 1
-	pinsrw	xmm3, word ptr [rdx + r8 + 14], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 14], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 14], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 14], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 14], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 14], 7
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm8
-	psllw	xmm4, 5
-	movdqa	xmm14, xmmword ptr [rip + .LCPI8_4] # xmm14 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	pand	xmm4, xmm14
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm8
-	psllw	xmm7, 6
-	movdqa	xmm11, xmmword ptr [rip + .LCPI8_5] # xmm11 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movdqa	xmm9, xmm15
-	pcmpgtw	xmm9, xmm3
-	movd	xmm3, r14d
-	movzx	r14d, word ptr [rdx + r9 + 30]
-	packsswb	xmm9, xmm9
-	psllw	xmm9, 7
-	movdqa	xmm2, xmmword ptr [rip + .LCPI8_6] # xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm9, xmm2
-	por	xmm9, xmm7
-	movd	xmm4, esi
-	movzx	esi, word ptr [rdx + r9 + 34]
-	mov	dword ptr [rsp + 24], esi       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rdx + r15 + 18], 1
-	pinsrw	xmm1, word ptr [rdx + r8 + 18], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 18], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 18], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 18], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 18], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 18], 7
-	por	xmm9, xmm0
-	movdqa	xmm0, xmm15
-	pcmpgtw	xmm0, xmm1
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm8
-	psubb	xmm1, xmm0
-	movd	xmm7, r11d
-	movzx	esi, word ptr [rdx + r9 + 36]
-	mov	dword ptr [rsp + 8], esi        # 4-byte Spill
-	packsswb	xmm10, xmm10
-	pinsrw	xmm3, word ptr [rdx + r15 + 20], 1
-	pinsrw	xmm3, word ptr [rdx + r8 + 20], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 20], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 20], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 20], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 20], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 20], 7
-	pinsrw	xmm4, word ptr [rdx + r15 + 22], 1
-	pinsrw	xmm4, word ptr [rdx + r8 + 22], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 22], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 22], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 22], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 22], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 22], 7
-	pinsrw	xmm7, word ptr [rdx + r15 + 24], 1
-	pinsrw	xmm7, word ptr [rdx + r8 + 24], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 24], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 24], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 24], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 24], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 24], 7
-	pand	xmm10, xmm8
-	por	xmm1, xmm10
-	movdqa	xmm2, xmm15
-	pcmpgtw	xmm2, xmm3
-	movd	xmm3, eax
-	movzx	r11d, word ptr [rdx + r9 + 38]
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm8
-	psllw	xmm2, 2
-	movdqa	xmm13, xmmword ptr [rip + .LCPI8_1] # xmm13 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	pand	xmm2, xmm13
-	por	xmm2, xmm1
-	movdqa	xmm1, xmm15
-	pcmpgtw	xmm1, xmm4
-	movdqa	xmm0, xmm15
-	pcmpgtw	xmm0, xmm7
-	movd	xmm4, r10d
-	movzx	r10d, word ptr [rdx + r9 + 40]
-	pinsrw	xmm3, word ptr [rdx + r15 + 26], 1
-	pinsrw	xmm3, word ptr [rdx + r8 + 26], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 26], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 26], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 26], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 26], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 26], 7
-	pinsrw	xmm4, word ptr [rdx + r15 + 28], 1
-	pinsrw	xmm4, word ptr [rdx + r8 + 28], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 28], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 28], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 28], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 28], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 28], 7
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm8
-	psllw	xmm1, 3
-	movdqa	xmm11, xmm12
-	pand	xmm1, xmm12
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm8
-	psllw	xmm0, 4
-	movdqa	xmm12, xmmword ptr [rip + .LCPI8_3] # xmm12 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	pand	xmm0, xmm12
-	por	xmm0, xmm1
-	movd	xmm1, r14d
-	movzx	eax, word ptr [rdx + r9 + 42]
-	por	xmm0, xmm2
-	movdqa	xmm2, xmm15
-	pcmpgtw	xmm2, xmm3
-	movdqa	xmm7, xmm15
-	pcmpgtw	xmm7, xmm4
-	movd	xmm4, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm4 = mem[0],zero,zero,zero
-	movzx	r14d, word ptr [rdx + r9 + 44]
-	pinsrw	xmm1, word ptr [rdx + r15 + 30], 1
-	pinsrw	xmm1, word ptr [rdx + r8 + 30], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 30], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 30], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 30], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 30], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 30], 7
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm8
-	psllw	xmm2, 5
-	pand	xmm2, xmm14
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm8
-	psllw	xmm7, 6
-	movdqa	xmm3, xmmword ptr [rip + .LCPI8_5] # xmm3 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	pand	xmm7, xmm3
-	por	xmm7, xmm2
-	movdqa	xmm10, xmm15
-	pcmpgtw	xmm10, xmm1
-	movd	xmm1, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm1 = mem[0],zero,zero,zero
-	movzx	esi, word ptr [rdx + r9 + 46]
-	mov	dword ptr [rsp + 24], esi       # 4-byte Spill
-	packsswb	xmm10, xmm10
-	psllw	xmm10, 7
-	movdqa	xmm14, xmmword ptr [rip + .LCPI8_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm10, xmm14
-	por	xmm10, xmm7
-	movd	xmm2, r11d
-	movzx	r11d, word ptr [rdx + r9 + 50]
-	pinsrw	xmm4, word ptr [rdx + r15 + 34], 1
-	pinsrw	xmm4, word ptr [rdx + r8 + 34], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 34], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 34], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 34], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 34], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 34], 7
-	por	xmm10, xmm0
-	movdqa	xmm0, xmm15
-	pcmpgtw	xmm0, xmm4
-	packsswb	xmm0, xmm0
-	movdqa	xmm4, xmm0
-	pand	xmm4, xmm8
-	psubb	xmm4, xmm0
-	movd	xmm0, r10d
-	movzx	esi, word ptr [rdx + r9 + 52]
-	mov	dword ptr [rsp + 8], esi        # 4-byte Spill
-	packsswb	xmm6, xmm6
-	pinsrw	xmm1, word ptr [rdx + r15 + 36], 1
-	pinsrw	xmm1, word ptr [rdx + r8 + 36], 2
-	pinsrw	xmm1, word ptr [rdx + r12 + 36], 3
-	pinsrw	xmm1, word ptr [rdx + r13 + 36], 4
-	pinsrw	xmm1, word ptr [rdx + rcx + 36], 5
-	pinsrw	xmm1, word ptr [rdx + rdi + 36], 6
-	pinsrw	xmm1, word ptr [rdx + rbx + 36], 7
-	pinsrw	xmm2, word ptr [rdx + r15 + 38], 1
-	pinsrw	xmm2, word ptr [rdx + r8 + 38], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 38], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 38], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 38], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 38], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 38], 7
-	pinsrw	xmm0, word ptr [rdx + r15 + 40], 1
-	pinsrw	xmm0, word ptr [rdx + r8 + 40], 2
-	pinsrw	xmm0, word ptr [rdx + r12 + 40], 3
-	pinsrw	xmm0, word ptr [rdx + r13 + 40], 4
-	pinsrw	xmm0, word ptr [rdx + rcx + 40], 5
-	pinsrw	xmm0, word ptr [rdx + rdi + 40], 6
-	pand	xmm6, xmm8
-	por	xmm4, xmm6
-	movdqa	xmm6, xmm15
-	pcmpgtw	xmm6, xmm1
-	movd	xmm7, eax
-	movzx	r10d, word ptr [rdx + r9 + 54]
-	pinsrw	xmm0, word ptr [rdx + rbx + 40], 7
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm8
-	psllw	xmm6, 2
-	pand	xmm6, xmm13
-	por	xmm6, xmm4
-	movdqa	xmm4, xmm15
-	pcmpgtw	xmm4, xmm2
-	movdqa	xmm1, xmm15
-	pcmpgtw	xmm1, xmm0
-	movd	xmm0, r14d
-	movzx	eax, word ptr [rdx + r9 + 56]
-	pinsrw	xmm7, word ptr [rdx + r15 + 42], 1
-	pinsrw	xmm7, word ptr [rdx + r8 + 42], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 42], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 42], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 42], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 42], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 42], 7
-	pinsrw	xmm0, word ptr [rdx + r15 + 44], 1
-	pinsrw	xmm0, word ptr [rdx + r8 + 44], 2
-	pinsrw	xmm0, word ptr [rdx + r12 + 44], 3
-	pinsrw	xmm0, word ptr [rdx + r13 + 44], 4
-	pinsrw	xmm0, word ptr [rdx + rcx + 44], 5
-	pinsrw	xmm0, word ptr [rdx + rdi + 44], 6
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm8
-	psllw	xmm4, 3
-	pand	xmm4, xmm11
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm8
-	psllw	xmm1, 4
-	pand	xmm1, xmm12
-	movdqa	xmm13, xmm12
-	por	xmm1, xmm4
-	movd	xmm2, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	movzx	esi, word ptr [rdx + r9 + 58]
-	pinsrw	xmm0, word ptr [rdx + rbx + 44], 7
-	por	xmm1, xmm6
-	movdqa	xmm4, xmm15
-	pcmpgtw	xmm4, xmm7
-	movdqa	xmm6, xmm15
-	pcmpgtw	xmm6, xmm0
-	movd	xmm7, r11d
-	movzx	r11d, word ptr [rdx + r9 + 60]
-	pinsrw	xmm2, word ptr [rdx + r15 + 46], 1
-	pinsrw	xmm2, word ptr [rdx + r8 + 46], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 46], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 46], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 46], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 46], 6
-	movzx	r9d, word ptr [rdx + r9 + 62]
-	pinsrw	xmm2, word ptr [rdx + rbx + 46], 7
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm8
-	psllw	xmm4, 5
-	pand	xmm4, xmmword ptr [rip + .LCPI8_4]
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm8
-	psllw	xmm6, 6
-	pand	xmm6, xmm3
-	movdqa	xmm12, xmm3
-	por	xmm6, xmm4
-	movdqa	xmm0, xmm15
-	pcmpgtw	xmm0, xmm2
-	movd	xmm2, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	pinsrw	xmm7, word ptr [rdx + r15 + 50], 1
-	pinsrw	xmm7, word ptr [rdx + r8 + 50], 2
-	pinsrw	xmm7, word ptr [rdx + r12 + 50], 3
-	pinsrw	xmm7, word ptr [rdx + r13 + 50], 4
-	pinsrw	xmm7, word ptr [rdx + rcx + 50], 5
-	pinsrw	xmm7, word ptr [rdx + rdi + 50], 6
-	pinsrw	xmm7, word ptr [rdx + rbx + 50], 7
-	packsswb	xmm0, xmm0
-	psllw	xmm0, 7
-	pand	xmm0, xmm14
-	por	xmm0, xmm6
-	movd	xmm6, r10d
-	por	xmm0, xmm1
-	movdqa	xmm1, xmm15
-	pcmpgtw	xmm1, xmm7
-	packsswb	xmm1, xmm1
-	movdqa	xmm7, xmm1
-	pand	xmm7, xmm8
-	psubb	xmm7, xmm1
-	movd	xmm3, eax
-	packsswb	xmm5, xmm5
-	pinsrw	xmm2, word ptr [rdx + r15 + 52], 1
-	pinsrw	xmm2, word ptr [rdx + r8 + 52], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 52], 3
-	pinsrw	xmm2, word ptr [rdx + r13 + 52], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 52], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 52], 6
-	pand	xmm5, xmm8
-	pinsrw	xmm2, word ptr [rdx + rbx + 52], 7
-	por	xmm7, xmm5
-	movdqa	xmm5, xmm15
-	pcmpgtw	xmm5, xmm2
-	movd	xmm4, esi
-	pinsrw	xmm6, word ptr [rdx + r15 + 54], 1
-	pinsrw	xmm6, word ptr [rdx + r8 + 54], 2
-	pinsrw	xmm6, word ptr [rdx + r12 + 54], 3
-	pinsrw	xmm6, word ptr [rdx + r13 + 54], 4
-	pinsrw	xmm6, word ptr [rdx + rcx + 54], 5
-	pinsrw	xmm6, word ptr [rdx + rdi + 54], 6
-	pinsrw	xmm6, word ptr [rdx + rbx + 54], 7
-	pinsrw	xmm3, word ptr [rdx + r15 + 56], 1
-	pinsrw	xmm3, word ptr [rdx + r8 + 56], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 56], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 56], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 56], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 56], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 56], 7
-	pinsrw	xmm4, word ptr [rdx + r15 + 58], 1
-	pinsrw	xmm4, word ptr [rdx + r8 + 58], 2
-	pinsrw	xmm4, word ptr [rdx + r12 + 58], 3
-	pinsrw	xmm4, word ptr [rdx + r13 + 58], 4
-	pinsrw	xmm4, word ptr [rdx + rcx + 58], 5
-	pinsrw	xmm4, word ptr [rdx + rdi + 58], 6
-	pinsrw	xmm4, word ptr [rdx + rbx + 58], 7
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm8
-	psllw	xmm5, 2
-	pand	xmm5, xmmword ptr [rip + .LCPI8_1]
-	por	xmm5, xmm7
-	movdqa	xmm2, xmm15
-	pcmpgtw	xmm2, xmm6
-	movdqa	xmm1, xmm15
-	pcmpgtw	xmm1, xmm3
-	movd	xmm3, r11d
-	pinsrw	xmm3, word ptr [rdx + r15 + 60], 1
-	pinsrw	xmm3, word ptr [rdx + r8 + 60], 2
-	pinsrw	xmm3, word ptr [rdx + r12 + 60], 3
-	pinsrw	xmm3, word ptr [rdx + r13 + 60], 4
-	pinsrw	xmm3, word ptr [rdx + rcx + 60], 5
-	pinsrw	xmm3, word ptr [rdx + rdi + 60], 6
-	pinsrw	xmm3, word ptr [rdx + rbx + 60], 7
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm8
-	psllw	xmm2, 3
-	pand	xmm2, xmm11
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm8
-	psllw	xmm1, 4
-	pand	xmm1, xmm13
-	por	xmm1, xmm2
-	movd	xmm2, r9d
-	pinsrw	xmm2, word ptr [rdx + r15 + 62], 1
-	pinsrw	xmm2, word ptr [rdx + r8 + 62], 2
-	pinsrw	xmm2, word ptr [rdx + r12 + 62], 3
-	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrw	xmm2, word ptr [rdx + r13 + 62], 4
-	pinsrw	xmm2, word ptr [rdx + rcx + 62], 5
-	pinsrw	xmm2, word ptr [rdx + rdi + 62], 6
-	pinsrw	xmm2, word ptr [rdx + rbx + 62], 7
-	por	xmm1, xmm5
-	movdqa	xmm5, xmm15
-	pcmpgtw	xmm5, xmm4
-	movdqa	xmm4, xmm15
-	pcmpgtw	xmm4, xmm3
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm8
-	psllw	xmm5, 5
-	pand	xmm5, xmmword ptr [rip + .LCPI8_4]
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm8
-	psllw	xmm4, 6
-	pand	xmm4, xmm12
-	por	xmm4, xmm5
-	movdqa	xmm3, xmm15
-	pcmpgtw	xmm3, xmm2
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm4
-	por	xmm3, xmm1
-	movdqa	xmm1, xmm9
-	punpcklqdq	xmm1, xmm10             # xmm1 = xmm1[0],xmm10[0]
-	movdqa	xmm2, xmm0
-	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
-	movdqa	xmm4, xmmword ptr [rip + .LCPI8_9] # xmm4 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm2, xmm4
-	pshufb	xmm1, xmm4
-	punpcklwd	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
-	punpcklbw	xmm0, xmm3              # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
-	punpcklbw	xmm9, xmm10             # xmm9 = xmm9[0],xmm10[0],xmm9[1],xmm10[1],xmm9[2],xmm10[2],xmm9[3],xmm10[3],xmm9[4],xmm10[4],xmm9[5],xmm10[5],xmm9[6],xmm10[6],xmm9[7],xmm10[7]
-	punpcklwd	xmm9, xmm0              # xmm9 = xmm9[0],xmm0[0],xmm9[1],xmm0[1],xmm9[2],xmm0[2],xmm9[3],xmm0[3]
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm9
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
-	add	rcx, 8
-	mov	r9, rcx
-	cmp	rcx, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	jne	.LBB8_198
-# %bb.199:
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r13d, dword ptr [rsp + 48]      # 4-byte Reload
-	mov	r12, qword ptr [rsp]            # 8-byte Reload
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	jne	.LBB8_101
-	jmp	.LBB8_136
-.LBB8_200:
-	mov	r8, r11
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rdx
-	lea	r15, [r14 + 4*r8]
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	add	rdx, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI8_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	movdqa	xmm8, xmmword ptr [rip + .LCPI8_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI8_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI8_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI8_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI8_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI8_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm9, xmmword ptr [rip + .LCPI8_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	.p2align	4, 0x90
-.LBB8_201:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm6, dword ptr [rdx - 508]     # xmm6 = mem[0],zero,zero,zero
-	movss	xmm7, dword ptr [rdx - 504]     # xmm7 = mem[0],zero,zero,zero
-	movss	xmm5, dword ptr [rdx - 500]     # xmm5 = mem[0],zero,zero,zero
-	movss	xmm4, dword ptr [rdx - 496]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpltps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	insertps	xmm7, dword ptr [rdx - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	insertps	xmm5, dword ptr [rdx - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
-	insertps	xmm4, dword ptr [rdx - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rdx - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rdx - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	movdqa	xmm2, xmm7
-	pand	xmm2, xmm15
-	psubb	xmm2, xmm7
-	movss	xmm7, dword ptr [rdx - 492]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rdx - 488]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpltps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm8
-	por	xmm5, xmm2
-	movss	xmm3, dword ptr [rdx - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	cmpltps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 3
-	pand	xmm4, xmm10
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 4
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movss	xmm4, dword ptr [rdx - 480]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rdx - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rdx - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rdx - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm5, dword ptr [rdx - 476]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpltps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	cmpltps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpltps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm13
-	por	xmm3, xmm6
-	movss	xmm2, dword ptr [rdx - 472]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packsswb	xmm5, xmm5
-	cmpltps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm3
-	movss	xmm3, dword ptr [rdx - 468]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm5, xmm15
-	insertps	xmm3, dword ptr [rdx - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm4, xmm7
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm7, dword ptr [rdx - 464]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm5
-	movss	xmm5, dword ptr [rdx - 460]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpltps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rdx - 456]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 3
-	pand	xmm7, xmm10
-	cmpltps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm7
-	movss	xmm2, dword ptr [rdx - 452]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm3
-	movss	xmm7, dword ptr [rdx - 448]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpltps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rdx - 444]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpltps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	psllw	xmm7, 7
-	pand	xmm7, xmm14
-	por	xmm7, xmm2
-	movss	xmm2, dword ptr [rdx - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm3, dword ptr [rdx - 436]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm6, xmm15
-	insertps	xmm3, dword ptr [rdx - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm7, xmm2
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm2
-	movss	xmm5, dword ptr [rdx - 432]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm7, xmm6
-	movss	xmm6, dword ptr [rdx - 428]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpltps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm7
-	movss	xmm7, dword ptr [rdx - 424]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpltps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	cmpltps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm5
-	movss	xmm2, dword ptr [rdx - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm5, dword ptr [rdx - 416]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm7, dword ptr [rdx - 412]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	cmpltps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	psllw	xmm5, 7
-	pand	xmm5, xmm14
-	por	xmm5, xmm2
-	movss	xmm2, dword ptr [rdx - 408]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	pand	xmm7, xmm15
-	insertps	xmm2, dword ptr [rdx - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm6
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm3, dword ptr [rdx - 404]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm6, xmm7
-	movss	xmm2, dword ptr [rdx - 400]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	cmpltps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rdx - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	cmpltps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm2
-	movss	xmm7, dword ptr [rdx - 392]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm2, dword ptr [rdx - 388]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
-	cmpltps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpltps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm3, dword ptr [rdx - 384]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx], 48       # xmm3 = xmm3[0,1,2],mem[0]
-	cmpltps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm2
-	por	xmm3, xmm6
-	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
-	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
-	pshufb	xmm4, xmm9
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	add	rcx, 4
-	add	rdx, 512
-	cmp	r8, rcx
-	jne	.LBB8_201
-# %bb.202:
-	cmp	r11, r8
-	jne	.LBB8_124
-	jmp	.LBB8_140
-.Lfunc_end8:
-	.size	comparison_greater_scalar_arr_sse4, .Lfunc_end8-comparison_greater_scalar_arr_sse4
-                                        # -- End function
-	.globl	comparison_greater_equal_arr_arr_sse4 # -- Begin function comparison_greater_equal_arr_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_greater_equal_arr_arr_sse4,@function
-comparison_greater_equal_arr_arr_sse4:  # @comparison_greater_equal_arr_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -8
-	sub	rsp, 72
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB9_29
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB9_2
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB9_68
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB9_79
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB9_123
-# %bb.18:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_22
-# %bb.19:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_20:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_20
-# %bb.21:
-	add	r14, 1
-.LBB9_22:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_26
-# %bb.23:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_24:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setae	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setae	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setae	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setae	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setae	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setae	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setae	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setae	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setae	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setae	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_24
-# %bb.25:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_26:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.27:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_28:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rsi + 4*rcx]
-	cmp	eax, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_28
-	jmp	.LBB9_123
-.LBB9_29:
-	cmp	edi, 8
-	jle	.LBB9_30
-# %bb.43:
-	cmp	edi, 9
-	je	.LBB9_101
-# %bb.44:
-	cmp	edi, 11
-	je	.LBB9_112
-# %bb.45:
-	cmp	edi, 12
-	jne	.LBB9_123
-# %bb.46:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_50
-# %bb.47:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_48:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	add	rsi, 8
-	ucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_48
-# %bb.49:
-	add	r14, 1
-.LBB9_50:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_54
-# %bb.51:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_52:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	movsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	ucomisd	xmm1, qword ptr [rdx + 8]
-	setae	al
-	movsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	movsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	movsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	movsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
-	setae	r13b
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	setae	r15b
-	movsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	movsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	setae	cl
-	movsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	movsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
-	setae	r9b
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	setae	r11b
-	movsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	movsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
-	setae	r10b
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	movsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	setae	bl
-	movsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	movsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	movsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
-	setae	r14b
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	movsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
-	setae	r12b
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	movsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	movsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	movsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	movsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	movsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
-	setae	r8b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	movsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	movsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	movsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	movsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	movsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	movsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	movsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	add	rsi, 256
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	setae	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB9_52
-# %bb.53:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB9_54:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.55:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_56:                               # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
-	ucomisd	xmm0, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_56
-	jmp	.LBB9_123
-.LBB9_2:
-	cmp	edi, 2
-	je	.LBB9_57
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB9_123
-# %bb.4:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_6:                                # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_6
-# %bb.7:
-	add	r14, 1
-.LBB9_8:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_12
-# %bb.9:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_10:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setge	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setge	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setge	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setge	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setge	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setge	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setge	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setge	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setge	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setge	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setge	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB9_10
-# %bb.11:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB9_12:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.13:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_14:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	ebx, byte ptr [rsi + rcx]
-	cmp	bl, byte ptr [rdx + rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_14
-	jmp	.LBB9_123
-.LBB9_30:
-	cmp	edi, 7
-	je	.LBB9_90
-# %bb.31:
-	cmp	edi, 8
-	jne	.LBB9_123
-# %bb.32:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_36
-# %bb.33:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_34:                               # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_34
-# %bb.35:
-	add	r14, 1
-.LBB9_36:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_40
-# %bb.37:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_38:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setae	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setae	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setae	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setae	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setae	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setae	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setae	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setae	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setae	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setae	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_38
-# %bb.39:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_40:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.41:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_42:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rsi + 8*rcx]
-	cmp	rax, qword ptr [rdx + 8*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_42
-	jmp	.LBB9_123
-.LBB9_68:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_72
-# %bb.69:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_70:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_70
-# %bb.71:
-	add	r14, 1
-.LBB9_72:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_76
-# %bb.73:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_74:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setae	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setae	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setae	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setae	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setae	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setae	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setae	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setae	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setae	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setae	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_74
-# %bb.75:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_76:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.77:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_78:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rsi + 2*rcx]
-	cmp	ax, word ptr [rdx + 2*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_78
-	jmp	.LBB9_123
-.LBB9_79:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_83
-# %bb.80:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_81:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rsi]
-	add	rsi, 2
-	cmp	cx, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_81
-# %bb.82:
-	add	r14, 1
-.LBB9_83:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_87
-# %bb.84:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_85:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, word ptr [rsi]
-	movzx	ecx, word ptr [rsi + 2]
-	cmp	ax, word ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 2]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 4]
-	cmp	ax, word ptr [rdx + 4]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 6]
-	cmp	ax, word ptr [rdx + 6]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 8]
-	cmp	ax, word ptr [rdx + 8]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 10]
-	cmp	ax, word ptr [rdx + 10]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 12]
-	cmp	ax, word ptr [rdx + 12]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 14]
-	cmp	ax, word ptr [rdx + 14]
-	setge	r13b
-	movzx	eax, word ptr [rsi + 16]
-	cmp	ax, word ptr [rdx + 16]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 18]
-	cmp	ax, word ptr [rdx + 18]
-	setge	r8b
-	movzx	eax, word ptr [rsi + 20]
-	cmp	ax, word ptr [rdx + 20]
-	setge	r11b
-	movzx	eax, word ptr [rsi + 22]
-	cmp	ax, word ptr [rdx + 22]
-	setge	r15b
-	movzx	eax, word ptr [rsi + 24]
-	cmp	ax, word ptr [rdx + 24]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 26]
-	cmp	ax, word ptr [rdx + 26]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 28]
-	cmp	ax, word ptr [rdx + 28]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, word ptr [rsi + 30]
-	cmp	ax, word ptr [rdx + 30]
-	setge	bl
-	movzx	eax, word ptr [rsi + 32]
-	movzx	ecx, word ptr [rsi + 34]
-	cmp	ax, word ptr [rdx + 32]
-	movzx	eax, word ptr [rsi + 36]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 34]
-	movzx	ecx, word ptr [rsi + 38]
-	setge	r10b
-	cmp	ax, word ptr [rdx + 36]
-	movzx	eax, word ptr [rsi + 40]
-	setge	r14b
-	cmp	cx, word ptr [rdx + 38]
-	movzx	ecx, word ptr [rsi + 42]
-	setge	r12b
-	cmp	ax, word ptr [rdx + 40]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	cx, word ptr [rdx + 42]
-	movzx	eax, word ptr [rsi + 44]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 44]
-	movzx	eax, word ptr [rsi + 46]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 46]
-	movzx	eax, word ptr [rsi + 48]
-	setge	r9b
-	cmp	ax, word ptr [rdx + 48]
-	movzx	eax, word ptr [rsi + 50]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 50]
-	movzx	eax, word ptr [rsi + 52]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 52]
-	movzx	eax, word ptr [rsi + 54]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 54]
-	movzx	eax, word ptr [rsi + 56]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 56]
-	movzx	eax, word ptr [rsi + 58]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 58]
-	movzx	eax, word ptr [rsi + 60]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	ax, word ptr [rdx + 60]
-	movzx	eax, word ptr [rsi + 62]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 64
-	cmp	ax, word ptr [rdx + 62]
-	setge	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 64
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_85
-# %bb.86:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_87:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.88:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_89:                               # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	movzx	edi, word ptr [rsi + 2*rcx]
-	cmp	di, word ptr [rdx + 2*rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_89
-	jmp	.LBB9_123
-.LBB9_101:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_105
-# %bb.102:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_103:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rsi]
-	add	rsi, 8
-	cmp	rcx, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_103
-# %bb.104:
-	add	r14, 1
-.LBB9_105:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_109
-# %bb.106:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_107:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	rax, qword ptr [rsi]
-	mov	rcx, qword ptr [rsi + 8]
-	cmp	rax, qword ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 8]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 16]
-	cmp	rax, qword ptr [rdx + 16]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 24]
-	cmp	rax, qword ptr [rdx + 24]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 32]
-	cmp	rax, qword ptr [rdx + 32]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 40]
-	cmp	rax, qword ptr [rdx + 40]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 48]
-	cmp	rax, qword ptr [rdx + 48]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 56]
-	cmp	rax, qword ptr [rdx + 56]
-	setge	r13b
-	mov	rax, qword ptr [rsi + 64]
-	cmp	rax, qword ptr [rdx + 64]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 72]
-	cmp	rax, qword ptr [rdx + 72]
-	setge	r8b
-	mov	rax, qword ptr [rsi + 80]
-	cmp	rax, qword ptr [rdx + 80]
-	setge	r11b
-	mov	rax, qword ptr [rsi + 88]
-	cmp	rax, qword ptr [rdx + 88]
-	setge	r15b
-	mov	rax, qword ptr [rsi + 96]
-	cmp	rax, qword ptr [rdx + 96]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 104]
-	cmp	rax, qword ptr [rdx + 104]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 112]
-	cmp	rax, qword ptr [rdx + 112]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	rax, qword ptr [rsi + 120]
-	cmp	rax, qword ptr [rdx + 120]
-	setge	bl
-	mov	rax, qword ptr [rsi + 128]
-	mov	rcx, qword ptr [rsi + 136]
-	cmp	rax, qword ptr [rdx + 128]
-	mov	rax, qword ptr [rsi + 144]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 136]
-	mov	rcx, qword ptr [rsi + 152]
-	setge	r10b
-	cmp	rax, qword ptr [rdx + 144]
-	mov	rax, qword ptr [rsi + 160]
-	setge	r14b
-	cmp	rcx, qword ptr [rdx + 152]
-	mov	rcx, qword ptr [rsi + 168]
-	setge	r12b
-	cmp	rax, qword ptr [rdx + 160]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	rcx, qword ptr [rdx + 168]
-	mov	rax, qword ptr [rsi + 176]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 176]
-	mov	rax, qword ptr [rsi + 184]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 184]
-	mov	rax, qword ptr [rsi + 192]
-	setge	r9b
-	cmp	rax, qword ptr [rdx + 192]
-	mov	rax, qword ptr [rsi + 200]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 200]
-	mov	rax, qword ptr [rsi + 208]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 208]
-	mov	rax, qword ptr [rsi + 216]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 216]
-	mov	rax, qword ptr [rsi + 224]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 224]
-	mov	rax, qword ptr [rsi + 232]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 232]
-	mov	rax, qword ptr [rsi + 240]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	rax, qword ptr [rdx + 240]
-	mov	rax, qword ptr [rsi + 248]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	add	rsi, 256
-	cmp	rax, qword ptr [rdx + 248]
-	setge	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 256
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_107
-# %bb.108:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_109:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.110:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_111:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	rdi, qword ptr [rsi + 8*rcx]
-	cmp	rdi, qword ptr [rdx + 8*rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_111
-	jmp	.LBB9_123
-.LBB9_112:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_116
-# %bb.113:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_114:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	add	rsi, 4
-	ucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_114
-# %bb.115:
-	add	r14, 1
-.LBB9_116:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_120
-# %bb.117:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_118:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	movss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	ucomiss	xmm1, dword ptr [rdx + 4]
-	setae	al
-	movss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 8]
-	movss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 12]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 16]
-	movss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 20]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 24]
-	movss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
-	setae	r13b
-	ucomiss	xmm0, dword ptr [rdx + 28]
-	setae	r15b
-	movss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 32]
-	movss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 36]
-	setae	cl
-	movss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 40]
-	movss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
-	setae	r9b
-	ucomiss	xmm0, dword ptr [rdx + 44]
-	setae	r11b
-	movss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 48]
-	movss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
-	setae	r10b
-	ucomiss	xmm0, dword ptr [rdx + 52]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 56]
-	movss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 60]
-	setae	bl
-	movss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 64]
-	movss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 68]
-	movss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
-	setae	r14b
-	ucomiss	xmm0, dword ptr [rdx + 72]
-	movss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
-	setae	r12b
-	ucomiss	xmm0, dword ptr [rdx + 76]
-	movss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 80]
-	movss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 84]
-	movss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 88]
-	movss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 92]
-	movss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
-	setae	r8b
-	ucomiss	xmm0, dword ptr [rdx + 96]
-	movss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 100]
-	movss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 104]
-	movss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 108]
-	movss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 112]
-	movss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 116]
-	movss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rdx + 120]
-	movss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	sub	rsi, -128
-	ucomiss	xmm0, dword ptr [rdx + 124]
-	setae	dil
-	add	al, al
-	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
-	shl	r13b, 6
-	shl	r15b, 7
-	or	r15b, r13b
-	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, al
-	mov	eax, r13d
-	add	cl, cl
-	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
-	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, al
-	shl	r9b, 2
-	or	r9b, cl
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, r13b
-	mov	r13d, ecx
-	shl	r11b, 3
-	or	r11b, r9b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r13b
-	shl	r10b, 4
-	or	r10b, r11b
-	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r10b
-	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	r9b, 6
-	shl	bl, 7
-	or	bl, r9b
-	or	r15b, cl
-	or	bl, al
-	add	r14b, r14b
-	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r14b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r12b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r8b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, al
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 6
-	shl	dil, 7
-	or	dil, al
-	or	dil, cl
-	mov	byte ptr [r14 + 2], r8b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
-	jne	.LBB9_118
-# %bb.119:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-.LBB9_120:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.121:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_122:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
-	ucomiss	xmm0, dword ptr [rdx + 4*rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_122
-	jmp	.LBB9_123
-.LBB9_57:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_61
-# %bb.58:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_59:                               # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rsi]
-	add	rsi, 1
-	cmp	cl, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	mov	r10d, 0
-	adc	r10b, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	r10b, r8b
-	lea	r9d, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, r10b
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_59
-# %bb.60:
-	add	r14, 1
-.LBB9_61:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_65
-# %bb.62:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_63:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	movzx	eax, byte ptr [rsi]
-	movzx	ecx, byte ptr [rsi + 1]
-	cmp	al, byte ptr [rdx]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	cl, byte ptr [rdx + 1]
-	setae	cl
-	movzx	eax, byte ptr [rsi + 2]
-	cmp	al, byte ptr [rdx + 2]
-	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 3]
-	cmp	al, byte ptr [rdx + 3]
-	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 4]
-	cmp	al, byte ptr [rdx + 4]
-	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 5]
-	cmp	al, byte ptr [rdx + 5]
-	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 6]
-	cmp	al, byte ptr [rdx + 6]
-	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 7]
-	cmp	al, byte ptr [rdx + 7]
-	setae	r15b
-	movzx	eax, byte ptr [rsi + 8]
-	cmp	al, byte ptr [rdx + 8]
-	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 9]
-	cmp	al, byte ptr [rdx + 9]
-	setae	dil
-	movzx	eax, byte ptr [rsi + 10]
-	cmp	al, byte ptr [rdx + 10]
-	setae	r10b
-	movzx	eax, byte ptr [rsi + 11]
-	cmp	al, byte ptr [rdx + 11]
-	setae	r11b
-	movzx	eax, byte ptr [rsi + 12]
-	cmp	al, byte ptr [rdx + 12]
-	setae	r14b
-	movzx	eax, byte ptr [rsi + 13]
-	cmp	al, byte ptr [rdx + 13]
-	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 14]
-	cmp	al, byte ptr [rdx + 14]
-	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 15]
-	cmp	al, byte ptr [rdx + 15]
-	setae	bl
-	movzx	eax, byte ptr [rsi + 16]
-	cmp	al, byte ptr [rdx + 16]
-	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 17]
-	cmp	al, byte ptr [rdx + 17]
-	setae	r12b
-	movzx	eax, byte ptr [rsi + 18]
-	cmp	al, byte ptr [rdx + 18]
-	setae	r13b
-	movzx	eax, byte ptr [rsi + 19]
-	cmp	al, byte ptr [rdx + 19]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 20]
-	cmp	al, byte ptr [rdx + 20]
-	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 21]
-	cmp	al, byte ptr [rdx + 21]
-	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 22]
-	cmp	al, byte ptr [rdx + 22]
-	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 23]
-	cmp	al, byte ptr [rdx + 23]
-	setae	r9b
-	movzx	eax, byte ptr [rsi + 24]
-	cmp	al, byte ptr [rdx + 24]
-	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 25]
-	cmp	al, byte ptr [rdx + 25]
-	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 26]
-	cmp	al, byte ptr [rdx + 26]
-	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 27]
-	cmp	al, byte ptr [rdx + 27]
-	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 28]
-	cmp	al, byte ptr [rdx + 28]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 29]
-	cmp	al, byte ptr [rdx + 29]
-	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 30]
-	cmp	al, byte ptr [rdx + 30]
-	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsi + 31]
-	add	rsi, 32
-	cmp	al, byte ptr [rdx + 31]
-	setae	r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	eax, ecx
-	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r15b, 7
-	or	r15b, cl
-	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	mov	eax, ecx
-	add	dil, dil
-	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r10b, 2
-	or	r10b, dil
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	edi, ecx
-	shl	r11b, 3
-	or	r11b, r10b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dil
-	shl	r14b, 4
-	or	r14b, r11b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r14b
-	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	dil, 6
-	shl	bl, 7
-	or	bl, dil
-	or	r15b, cl
-	or	bl, al
-	add	r12b, r12b
-	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
-	shl	r13b, 2
-	or	r13b, r12b
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r13b
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r15b
-	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], r8b
-	add	rdx, 32
-	add	r14, 4
-	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
-	jne	.LBB9_63
-# %bb.64:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-.LBB9_65:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.66:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_67:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rsi + rcx]
-	cmp	al, byte ptr [rdx + rcx]
-	lea	r8, [rcx + 1]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rbx, rcx
-	shr	rbx, 3
-	movzx	r9d, byte ptr [r14 + rbx]
-	xor	dil, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, dil
-	xor	al, r9b
-	mov	byte ptr [r14 + rbx], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_67
-	jmp	.LBB9_123
-.LBB9_90:
-	lea	r15, [r11 + 31]
-	test	r11, r11
-	cmovns	r15, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB9_94
-# %bb.91:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB9_92:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rsi]
-	add	rsi, 4
-	cmp	ecx, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setge	r10b
-	neg	r10b
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r8d, byte ptr [r14 + rdi]
-	xor	r10b, r8b
-	lea	r9d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r9d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, r10b
-	xor	bl, r8b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB9_92
-# %bb.93:
-	add	r14, 1
-.LBB9_94:
-	sar	r15, 5
-	cmp	r11, 32
-	jl	.LBB9_98
-# %bb.95:
-	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
-	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
-	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
-	.p2align	4, 0x90
-.LBB9_96:                               # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	mov	eax, dword ptr [rsi]
-	mov	ecx, dword ptr [rsi + 4]
-	cmp	eax, dword ptr [rdx]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 4]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 8]
-	cmp	eax, dword ptr [rdx + 8]
-	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 12]
-	cmp	eax, dword ptr [rdx + 12]
-	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 16]
-	cmp	eax, dword ptr [rdx + 16]
-	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 20]
-	cmp	eax, dword ptr [rdx + 20]
-	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 24]
-	cmp	eax, dword ptr [rdx + 24]
-	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 28]
-	cmp	eax, dword ptr [rdx + 28]
-	setge	r13b
-	mov	eax, dword ptr [rsi + 32]
-	cmp	eax, dword ptr [rdx + 32]
-	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 36]
-	cmp	eax, dword ptr [rdx + 36]
-	setge	r8b
-	mov	eax, dword ptr [rsi + 40]
-	cmp	eax, dword ptr [rdx + 40]
-	setge	r11b
-	mov	eax, dword ptr [rsi + 44]
-	cmp	eax, dword ptr [rdx + 44]
-	setge	r15b
-	mov	eax, dword ptr [rsi + 48]
-	cmp	eax, dword ptr [rdx + 48]
-	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 52]
-	cmp	eax, dword ptr [rdx + 52]
-	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 56]
-	cmp	eax, dword ptr [rdx + 56]
-	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
-	mov	eax, dword ptr [rsi + 60]
-	cmp	eax, dword ptr [rdx + 60]
-	setge	bl
-	mov	eax, dword ptr [rsi + 64]
-	mov	ecx, dword ptr [rsi + 68]
-	cmp	eax, dword ptr [rdx + 64]
-	mov	eax, dword ptr [rsi + 72]
-	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 68]
-	mov	ecx, dword ptr [rsi + 76]
-	setge	r10b
-	cmp	eax, dword ptr [rdx + 72]
-	mov	eax, dword ptr [rsi + 80]
-	setge	r14b
-	cmp	ecx, dword ptr [rdx + 76]
-	mov	ecx, dword ptr [rsi + 84]
-	setge	r12b
-	cmp	eax, dword ptr [rdx + 80]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	ecx, dword ptr [rdx + 84]
-	mov	eax, dword ptr [rsi + 88]
-	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 88]
-	mov	eax, dword ptr [rsi + 92]
-	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 92]
-	mov	eax, dword ptr [rsi + 96]
-	setge	r9b
-	cmp	eax, dword ptr [rdx + 96]
-	mov	eax, dword ptr [rsi + 100]
-	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 100]
-	mov	eax, dword ptr [rsi + 104]
-	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 104]
-	mov	eax, dword ptr [rsi + 108]
-	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 108]
-	mov	eax, dword ptr [rsi + 112]
-	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 112]
-	mov	eax, dword ptr [rsi + 116]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 116]
-	mov	eax, dword ptr [rsi + 120]
-	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
-	cmp	eax, dword ptr [rdx + 120]
-	mov	eax, dword ptr [rsi + 124]
-	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
-	sub	rsi, -128
-	cmp	eax, dword ptr [rdx + 124]
-	setge	dil
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
-	shl	al, 6
-	shl	r13b, 7
-	or	r13b, al
-	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, al
-	mov	eax, ecx
-	shl	r11b, 2
-	or	r11b, r8b
-	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r15b, 3
-	or	r15b, r11b
-	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r15b
-	mov	r8d, eax
-	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r8b
-	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
-	shl	r8b, 6
-	shl	bl, 7
-	or	bl, r8b
-	or	r13b, cl
-	or	bl, al
-	add	r10b, r10b
-	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r10b
-	shl	r12b, 3
-	or	r12b, r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	mov	ecx, eax
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	byte ptr [r14], r13b
-	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r9b, 7
-	or	r9b, cl
-	mov	byte ptr [r14 + 1], bl
-	or	r9b, al
-	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
-	shl	cl, 6
-	shl	dil, 7
-	or	dil, cl
-	or	dil, al
-	mov	byte ptr [r14 + 2], r9b
-	mov	byte ptr [r14 + 3], dil
-	add	rdx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
-	jne	.LBB9_96
-# %bb.97:
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
-.LBB9_98:
-	shl	r15, 5
-	cmp	r15, r11
-	jge	.LBB9_123
-# %bb.99:
-	sub	r11, r15
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB9_100:                              # =>This Inner Loop Header: Depth=1
-	lea	r8, [rcx + 1]
-	mov	edi, dword ptr [rsi + 4*rcx]
-	cmp	edi, dword ptr [rdx + 4*rcx]
-	setge	bl
-	neg	bl
-	mov	rdi, rcx
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	cl, 7
-	mov	al, 1
-                                        # kill: def $cl killed $cl killed $rcx
-	shl	al, cl
-	and	al, bl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	mov	rcx, r8
-	cmp	r11, r8
-	jne	.LBB9_100
-.LBB9_123:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.Lfunc_end9:
-	.size	comparison_greater_equal_arr_arr_sse4, .Lfunc_end9-comparison_greater_equal_arr_arr_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_greater_equal_arr_scalar_sse4
-.LCPI10_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_1:
-	.zero	16,252
-.LCPI10_2:
-	.zero	16,248
-.LCPI10_3:
-	.zero	16,240
-.LCPI10_4:
-	.zero	16,224
-.LCPI10_5:
-	.zero	16,192
-.LCPI10_6:
-	.zero	16,128
-.LCPI10_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI10_8:
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_9:
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_10:
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_11:
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_12:
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_13:
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_14:
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_15:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI10_16:
-	.zero	16,2
-.LCPI10_17:
-	.zero	16,4
-.LCPI10_18:
-	.zero	16,8
-.LCPI10_19:
-	.zero	16,16
-.LCPI10_20:
-	.zero	16,32
-.LCPI10_21:
-	.zero	16,64
-.LCPI10_22:
-	.zero	16,255
-	.text
-	.globl	comparison_greater_equal_arr_scalar_sse4
-	.p2align	4, 0x90
-	.type	comparison_greater_equal_arr_scalar_sse4,@function
-comparison_greater_equal_arr_scalar_sse4: # @comparison_greater_equal_arr_scalar_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 496
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r10, r8
-	mov	r14, rcx
-	cmp	edi, 6
-	jg	.LBB10_16
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB10_31
-# %bb.2:
-	cmp	edi, 4
-	je	.LBB10_81
-# %bb.3:
-	cmp	edi, 5
-	je	.LBB10_92
-# %bb.4:
-	cmp	edi, 6
-	jne	.LBB10_182
-# %bb.5:
-	mov	r13d, dword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_9
-# %bb.6:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_7:                               # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_7
-# %bb.8:
-	add	r14, 1
-.LBB10_9:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_13
-# %bb.10:
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_11:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setae	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setae	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setae	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setae	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setae	al
-	cmp	dword ptr [rsi + 28], r13d
-	setae	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setae	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setae	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setae	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setae	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setae	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setae	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setae	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setae	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setae	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setae	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setae	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setae	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 128
-	add	r14, 4
-	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
-	jne	.LBB10_11
-# %bb.12:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
-.LBB10_13:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.14:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_162
-# %bb.15:
-	xor	r11d, r11d
-	jmp	.LBB10_164
-.LBB10_16:
-	cmp	edi, 8
-	jle	.LBB10_45
-# %bb.17:
-	cmp	edi, 9
-	je	.LBB10_104
-# %bb.18:
-	cmp	edi, 11
-	je	.LBB10_115
-# %bb.19:
-	cmp	edi, 12
-	jne	.LBB10_182
-# %bb.20:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB10_24
-# %bb.21:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_22:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	setbe	dl
-	add	rsi, 8
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_22
-# %bb.23:
-	add	r14, 1
-.LBB10_24:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_28
-# %bb.25:
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_26:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	ucomisd	xmm0, qword ptr [rsi]
-	setbe	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	setbe	r9b
-	ucomisd	xmm0, qword ptr [rsi + 16]
-	setbe	r14b
-	ucomisd	xmm0, qword ptr [rsi + 24]
-	setbe	r13b
-	ucomisd	xmm0, qword ptr [rsi + 32]
-	setbe	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 40]
-	setbe	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 48]
-	setbe	al
-	ucomisd	xmm0, qword ptr [rsi + 56]
-	setbe	bl
-	ucomisd	xmm0, qword ptr [rsi + 64]
-	setbe	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 72]
-	setbe	dl
-	ucomisd	xmm0, qword ptr [rsi + 80]
-	setbe	dil
-	ucomisd	xmm0, qword ptr [rsi + 88]
-	setbe	r10b
-	ucomisd	xmm0, qword ptr [rsi + 96]
-	setbe	r11b
-	ucomisd	xmm0, qword ptr [rsi + 104]
-	setbe	r12b
-	ucomisd	xmm0, qword ptr [rsi + 112]
-	setbe	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 120]
-	setbe	cl
-	ucomisd	xmm0, qword ptr [rsi + 128]
-	setbe	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 136]
-	setbe	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 144]
-	setbe	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 152]
-	setbe	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 160]
-	setbe	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 168]
-	setbe	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 176]
-	setbe	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 184]
-	setbe	r15b
-	ucomisd	xmm0, qword ptr [rsi + 192]
-	setbe	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 200]
-	setbe	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 208]
-	setbe	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 216]
-	setbe	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 224]
-	setbe	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 232]
-	setbe	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 240]
-	setbe	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rsi + 248]
-	setbe	r8b
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r9b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 256]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	dil, 2
-	or	dil, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r9d, edx
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	movzx	eax, byte ptr [rsp + 304]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB10_26
-# %bb.27:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-.LBB10_28:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.29:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_166
-# %bb.30:
-	xor	r11d, r11d
-	jmp	.LBB10_168
-.LBB10_31:
-	cmp	edi, 2
-	je	.LBB10_58
-# %bb.32:
-	cmp	edi, 3
-	jne	.LBB10_182
-# %bb.33:
-	mov	r11b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_37
-# %bb.34:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_35:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r11b
-	lea	rsi, [rsi + 1]
-	setge	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_35
-# %bb.36:
-	add	r14, 1
-.LBB10_37:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_127
-# %bb.38:
-	cmp	r15, 16
-	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 432], r15      # 8-byte Spill
-	jb	.LBB10_41
-# %bb.39:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB10_191
-# %bb.40:
-	lea	rax, [r14 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB10_191
-.LBB10_41:
-	xor	eax, eax
-	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 112], r14      # 8-byte Spill
-.LBB10_42:
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 160]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 368], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_43:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r11b
-	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r11b
-	setge	sil
-	cmp	byte ptr [rcx + 2], r11b
-	setge	r15b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 3], al
-	setge	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 4], al
-	setge	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 5], al
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 6], al
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 7], al
-	setge	r9b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 8], al
-	setge	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 9], al
-	setge	dl
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 10], al
-	setge	dil
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 11], al
-	setge	r10b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 12], al
-	setge	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	setge	r13b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	setge	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	setge	r8b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	setge	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	setge	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	setge	r11b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	setge	byte ptr [rsp + 352]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	setge	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	esi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 352]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	r11d, r15d
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 112], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 368], -1       # 8-byte Folded Spill
-	jne	.LBB10_43
-# %bb.44:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 432]      # 8-byte Reload
-	jmp	.LBB10_128
-.LBB10_45:
-	cmp	edi, 7
-	je	.LBB10_70
-# %bb.46:
-	cmp	edi, 8
-	jne	.LBB10_182
-# %bb.47:
-	mov	r13, qword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_51
-# %bb.48:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_49:                              # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_49
-# %bb.50:
-	add	r14, 1
-.LBB10_51:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_55
-# %bb.52:
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_53:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setae	dil
-	cmp	qword ptr [rsi + 16], r13
-	setae	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setae	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setae	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setae	al
-	cmp	qword ptr [rsi + 56], r13
-	setae	bl
-	cmp	qword ptr [rsi + 64], r13
-	setae	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setae	dl
-	cmp	qword ptr [rsi + 80], r13
-	setae	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setae	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setae	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setae	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setae	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setae	cl
-	cmp	qword ptr [rsi + 128], r13
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setae	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setae	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setae	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setae	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
-	jne	.LBB10_53
-# %bb.54:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
-.LBB10_55:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.56:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_143
-# %bb.57:
-	xor	r11d, r11d
-	jmp	.LBB10_145
-.LBB10_58:
-	mov	r11b, byte ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_62
-# %bb.59:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_60:                              # =>This Inner Loop Header: Depth=1
-	cmp	byte ptr [rsi], r11b
-	lea	rsi, [rsi + 1]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_60
-# %bb.61:
-	add	r14, 1
-.LBB10_62:
-	sar	r15, 5
-	cmp	r10, 32
-	jl	.LBB10_131
-# %bb.63:
-	cmp	r15, 16
-	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 464], r15      # 8-byte Spill
-	jb	.LBB10_66
-# %bb.64:
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB10_194
-# %bb.65:
-	lea	rax, [r14 + 4*r15]
-	cmp	rsi, rax
-	jae	.LBB10_194
-.LBB10_66:
-	xor	eax, eax
-	mov	qword ptr [rsp + 416], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
-.LBB10_67:
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 368], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_68:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, rsi
-	cmp	byte ptr [rsi], r11b
-	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
-	cmp	byte ptr [rsi + 1], r11b
-	setae	sil
-	cmp	byte ptr [rcx + 2], r11b
-	setae	r15b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 3], al
-	setae	r12b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 4], al
-	setae	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 5], al
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 6], al
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 7], al
-	setae	r9b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 8], al
-	setae	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 9], al
-	setae	dl
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 10], al
-	setae	dil
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 11], al
-	setae	r10b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 12], al
-	setae	r14b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 13], al
-	setae	r13b
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 14], al
-	setae	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 15], al
-	setae	r8b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 16], bl
-	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 17], bl
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 18], bl
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 19], bl
-	setae	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 20], bl
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 21], bl
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 22], bl
-	setae	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 23], bl
-	setae	r11b
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 24], bl
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 25], bl
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 26], bl
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 27], bl
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 28], bl
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 29], bl
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 30], bl
-	setae	byte ptr [rsp + 352]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	cmp	byte ptr [rcx + 31], bl
-	setae	bl
-	add	sil, sil
-	add	sil, byte ptr [rsp + 320]       # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r9b, 7
-	or	r9b, al
-	shl	r15b, 2
-	or	r15b, sil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	shl	r12b, 3
-	or	r12b, r15b
-	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
-	shl	dil, 2
-	or	dil, dl
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 4
-	or	al, r12b
-	shl	r10b, 3
-	or	r10b, dil
-	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, al
-	shl	r14b, 4
-	or	r14b, r10b
-	shl	r13b, 5
-	or	r13b, r14b
-	movzx	esi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r8b, 7
-	or	r8b, sil
-	or	r9b, dl
-	or	r8b, r13b
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 272]        # 1-byte Folded Reload
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	esi, edx
-	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
-	mov	byte ptr [rdx], r9b
-	movzx	edi, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r11b, 7
-	or	r11b, dil
-	mov	byte ptr [rdx + 1], r8b
-	or	r11b, sil
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, sil
-	mov	esi, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, sil
-	movzx	esi, byte ptr [rsp + 352]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	bl, 7
-	or	bl, sil
-	or	bl, al
-	mov	byte ptr [rdx + 2], r11b
-	mov	r11d, r15d
-	mov	byte ptr [rdx + 3], bl
-	lea	rsi, [rcx + 32]
-	add	rdx, 4
-	mov	qword ptr [rsp + 208], rdx      # 8-byte Spill
-	add	qword ptr [rsp + 368], -1       # 8-byte Folded Spill
-	jne	.LBB10_68
-# %bb.69:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 464]      # 8-byte Reload
-	jmp	.LBB10_132
-.LBB10_70:
-	mov	r13d, dword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_74
-# %bb.71:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_72:                              # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	lea	rsi, [rsi + 4]
-	setge	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_72
-# %bb.73:
-	add	r14, 1
-.LBB10_74:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_78
-# %bb.75:
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_76:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	cmp	dword ptr [rsi], r13d
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 4], r13d
-	setge	dil
-	cmp	dword ptr [rsi + 8], r13d
-	setge	r14b
-	cmp	dword ptr [rsi + 12], r13d
-	setge	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 16], r13d
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 20], r13d
-	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 24], r13d
-	setge	al
-	cmp	dword ptr [rsi + 28], r13d
-	setge	bl
-	cmp	dword ptr [rsi + 32], r13d
-	setge	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 36], r13d
-	setge	dl
-	cmp	dword ptr [rsi + 40], r13d
-	setge	r9b
-	cmp	dword ptr [rsi + 44], r13d
-	setge	r10b
-	cmp	dword ptr [rsi + 48], r13d
-	setge	r11b
-	cmp	dword ptr [rsi + 52], r13d
-	setge	r12b
-	cmp	dword ptr [rsi + 56], r13d
-	setge	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 60], r13d
-	setge	cl
-	cmp	dword ptr [rsi + 64], r13d
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 68], r13d
-	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 72], r13d
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 76], r13d
-	setge	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 80], r13d
-	setge	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 84], r13d
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 88], r13d
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 92], r13d
-	setge	r15b
-	cmp	dword ptr [rsi + 96], r13d
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 100], r13d
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 104], r13d
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 108], r13d
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 112], r13d
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 116], r13d
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 120], r13d
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	dword ptr [rsi + 124], r13d
-	setge	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 128
-	add	r14, 4
-	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
-	jne	.LBB10_76
-# %bb.77:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
-.LBB10_78:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.79:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_147
-# %bb.80:
-	xor	r11d, r11d
-	jmp	.LBB10_149
-.LBB10_81:
-	movzx	r13d, word ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_85
-# %bb.82:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_83:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	lea	rsi, [rsi + 2]
-	mov	edx, 0
-	adc	dl, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_83
-# %bb.84:
-	add	r14, 1
-.LBB10_85:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_89
-# %bb.86:
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_87:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	cmp	word ptr [rsi], r13w
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 2], r13w
-	setae	dil
-	cmp	word ptr [rsi + 4], r13w
-	setae	r14b
-	cmp	word ptr [rsi + 6], r13w
-	setae	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 8], r13w
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 10], r13w
-	setae	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 12], r13w
-	setae	al
-	cmp	word ptr [rsi + 14], r13w
-	setae	bl
-	cmp	word ptr [rsi + 16], r13w
-	setae	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 18], r13w
-	setae	dl
-	cmp	word ptr [rsi + 20], r13w
-	setae	r9b
-	cmp	word ptr [rsi + 22], r13w
-	setae	r10b
-	cmp	word ptr [rsi + 24], r13w
-	setae	r11b
-	cmp	word ptr [rsi + 26], r13w
-	setae	r12b
-	cmp	word ptr [rsi + 28], r13w
-	setae	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 30], r13w
-	setae	cl
-	cmp	word ptr [rsi + 32], r13w
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 34], r13w
-	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 36], r13w
-	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 38], r13w
-	setae	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 40], r13w
-	setae	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 42], r13w
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 44], r13w
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 46], r13w
-	setae	r15b
-	cmp	word ptr [rsi + 48], r13w
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 50], r13w
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [rsi + 52], r13w
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 54], r13w
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 56], r13w
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 58], r13w
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [rsi + 60], r13w
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	word ptr [rsi + 62], r13w
-	setae	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 64
-	add	r14, 4
-	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
-	jne	.LBB10_87
-# %bb.88:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
-.LBB10_89:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.90:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_170
-# %bb.91:
-	xor	r11d, r11d
-	jmp	.LBB10_172
-.LBB10_92:
-	movzx	r11d, word ptr [rdx]
-	lea	r15, [r10 + 31]
-	test	r10, r10
-	cmovns	r15, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_96
-# %bb.93:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_94:                              # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r11w
-	lea	rsi, [rsi + 2]
-	setge	dl
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_94
-# %bb.95:
-	add	r14, 1
-.LBB10_96:
-	sar	r15, 5
-	cmp	r10, 32
-	mov	dword ptr [rsp + 392], r11d     # 4-byte Spill
-	jl	.LBB10_135
-# %bb.97:
-	cmp	r15, 8
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 456], r15      # 8-byte Spill
-	jb	.LBB10_100
-# %bb.98:
-	mov	rax, r15
-	shl	rax, 6
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB10_197
-# %bb.99:
-	lea	rax, [r14 + 4*r15]
-	cmp	rax, rsi
-	jbe	.LBB10_197
-.LBB10_100:
-	xor	eax, eax
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	mov	r11, rsi
-	mov	r12, r14
-.LBB10_101:
-	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
-	mov	r14, r15
-	sub	r14, qword ptr [rsp + 400]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 320], r14      # 8-byte Spill
-	mov	r13d, dword ptr [rsp + 392]     # 4-byte Reload
-	.p2align	4, 0x90
-.LBB10_102:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [r11], r13w
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 2], r13w
-	setge	r8b
-	cmp	word ptr [r11 + 4], r13w
-	setge	r14b
-	cmp	word ptr [r11 + 6], r13w
-	setge	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 8], r13w
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 10], r13w
-	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 12], r13w
-	setge	al
-	cmp	word ptr [r11 + 14], r13w
-	setge	bl
-	cmp	word ptr [r11 + 16], r13w
-	setge	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 18], r13w
-	setge	cl
-	cmp	word ptr [r11 + 20], r13w
-	setge	sil
-	cmp	word ptr [r11 + 22], r13w
-	setge	r9b
-	cmp	word ptr [r11 + 24], r13w
-	setge	r10b
-	cmp	word ptr [r11 + 26], r13w
-	setge	r12b
-	cmp	word ptr [r11 + 28], r13w
-	setge	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 30], r13w
-	setge	dil
-	cmp	word ptr [r11 + 32], r13w
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 34], r13w
-	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 36], r13w
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 38], r13w
-	setge	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 40], r13w
-	setge	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 42], r13w
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 44], r13w
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 46], r13w
-	setge	r15b
-	cmp	word ptr [r11 + 48], r13w
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 50], r13w
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 52], r13w
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 54], r13w
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 56], r13w
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 58], r13w
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	word ptr [r11 + 60], r13w
-	setge	byte ptr [rsp + 352]            # 1-byte Folded Spill
-	cmp	word ptr [r11 + 62], r13w
-	setge	dl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	cl, cl
-	add	cl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	sil, 2
-	or	sil, cl
-	movzx	ecx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, al
-	mov	r8d, ecx
-	shl	r9b, 3
-	or	r9b, sil
-	movzx	ecx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	bl, cl
-	or	dil, r12b
-	movzx	ecx, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, sil
-	mov	esi, ecx
-	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, sil
-	mov	esi, ecx
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rcx], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [rcx + 1], dil
-	or	r15b, sil
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, bl
-	mov	ebx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, bl
-	movzx	ebx, byte ptr [rsp + 352]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	dl, 7
-	or	dl, bl
-	or	dl, al
-	mov	byte ptr [rcx + 2], r15b
-	mov	byte ptr [rcx + 3], dl
-	add	r11, 64
-	add	rcx, 4
-	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
-	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
-	jne	.LBB10_102
-# %bb.103:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r15, qword ptr [rsp + 456]      # 8-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	jmp	.LBB10_136
-.LBB10_104:
-	mov	r13, qword ptr [rdx]
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB10_108
-# %bb.105:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_106:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	lea	rsi, [rsi + 8]
-	setge	dl
-	neg	dl
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r14 + rbx]
-	xor	dl, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, dl
-	xor	dil, r8b
-	mov	byte ptr [r14 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_106
-# %bb.107:
-	add	r14, 1
-.LBB10_108:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_112
-# %bb.109:
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_110:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	cmp	qword ptr [rsi], r13
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 8], r13
-	setge	dil
-	cmp	qword ptr [rsi + 16], r13
-	setge	r14b
-	cmp	qword ptr [rsi + 24], r13
-	setge	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 32], r13
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 40], r13
-	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 48], r13
-	setge	al
-	cmp	qword ptr [rsi + 56], r13
-	setge	bl
-	cmp	qword ptr [rsi + 64], r13
-	setge	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 72], r13
-	setge	dl
-	cmp	qword ptr [rsi + 80], r13
-	setge	r9b
-	cmp	qword ptr [rsi + 88], r13
-	setge	r10b
-	cmp	qword ptr [rsi + 96], r13
-	setge	r11b
-	cmp	qword ptr [rsi + 104], r13
-	setge	r12b
-	cmp	qword ptr [rsi + 112], r13
-	setge	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 120], r13
-	setge	cl
-	cmp	qword ptr [rsi + 128], r13
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 136], r13
-	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 144], r13
-	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 152], r13
-	setge	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 160], r13
-	setge	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 168], r13
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 176], r13
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 184], r13
-	setge	r15b
-	cmp	qword ptr [rsi + 192], r13
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 200], r13
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 208], r13
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 216], r13
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 224], r13
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 232], r13
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 240], r13
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	qword ptr [rsi + 248], r13
-	setge	r8b
-	add	dil, dil
-	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	bl, 7
-	or	bl, al
-	shl	r14b, 2
-	or	r14b, dil
-	add	dl, dl
-	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
-	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, r14b
-	shl	r9b, 2
-	or	r9b, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, al
-	mov	edi, edx
-	shl	r10b, 3
-	or	r10b, r9b
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	shl	r11b, 4
-	or	r11b, r10b
-	shl	r12b, 5
-	or	r12b, r11b
-	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	cl, 7
-	or	cl, dil
-	or	bl, dl
-	or	cl, r12b
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	add	dl, dl
-	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, dil
-	mov	edi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, dil
-	mov	byte ptr [r14], bl
-	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r15b, 7
-	or	r15b, bl
-	mov	byte ptr [r14 + 1], cl
-	or	r15b, dl
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r8b, 7
-	or	r8b, dl
-	or	r8b, cl
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], r8b
-	add	rsi, 256
-	add	r14, 4
-	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
-	jne	.LBB10_110
-# %bb.111:
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
-.LBB10_112:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.113:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_175
-# %bb.114:
-	xor	r11d, r11d
-	jmp	.LBB10_177
-.LBB10_115:
-	lea	r11, [r10 + 31]
-	test	r10, r10
-	cmovns	r11, r10
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm11, dword ptr [rdx]          # xmm11 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB10_119
-# %bb.116:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB10_117:                             # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm11, dword ptr [rsi]
-	setbe	dl
-	add	rsi, 4
-	neg	dl
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	dl, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, dl
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB10_117
-# %bb.118:
-	add	r14, 1
-.LBB10_119:
-	sar	r11, 5
-	cmp	r10, 32
-	jl	.LBB10_139
-# %bb.120:
-	cmp	r11, 4
-	jb	.LBB10_123
-# %bb.121:
-	mov	rax, r11
-	shl	rax, 7
-	add	rax, rsi
-	cmp	r14, rax
-	jae	.LBB10_200
-# %bb.122:
-	lea	rax, [r14 + 4*r11]
-	cmp	rax, rsi
-	jbe	.LBB10_200
-.LBB10_123:
-	xor	r8d, r8d
-	mov	rbx, rsi
-	mov	r15, r14
-.LBB10_124:
-	mov	qword ptr [rsp + 8], r15        # 8-byte Spill
-	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
-	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
-	sub	r11, r8
-	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_125:                             # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm11, dword ptr [rbx]
-	setbe	byte ptr [rsp + 336]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 4]
-	setbe	r8b
-	ucomiss	xmm11, dword ptr [rbx + 8]
-	setbe	r14b
-	ucomiss	xmm11, dword ptr [rbx + 12]
-	setbe	r13b
-	ucomiss	xmm11, dword ptr [rbx + 16]
-	setbe	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 20]
-	setbe	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 24]
-	setbe	al
-	ucomiss	xmm11, dword ptr [rbx + 28]
-	setbe	r11b
-	ucomiss	xmm11, dword ptr [rbx + 32]
-	setbe	byte ptr [rsp + 256]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 36]
-	setbe	dl
-	ucomiss	xmm11, dword ptr [rbx + 40]
-	setbe	sil
-	ucomiss	xmm11, dword ptr [rbx + 44]
-	setbe	dil
-	ucomiss	xmm11, dword ptr [rbx + 48]
-	setbe	r10b
-	ucomiss	xmm11, dword ptr [rbx + 52]
-	setbe	r12b
-	ucomiss	xmm11, dword ptr [rbx + 56]
-	setbe	byte ptr [rsp + 272]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 60]
-	setbe	r9b
-	ucomiss	xmm11, dword ptr [rbx + 64]
-	setbe	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 68]
-	setbe	byte ptr [rsp + 304]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 72]
-	setbe	byte ptr [rsp + 288]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 76]
-	setbe	byte ptr [rsp + 240]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 80]
-	setbe	byte ptr [rsp + 192]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 84]
-	setbe	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 88]
-	setbe	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 92]
-	setbe	r15b
-	ucomiss	xmm11, dword ptr [rbx + 96]
-	setbe	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 100]
-	setbe	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 104]
-	setbe	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 108]
-	setbe	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 112]
-	setbe	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 116]
-	setbe	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 120]
-	setbe	byte ptr [rsp + 352]            # 1-byte Folded Spill
-	ucomiss	xmm11, dword ptr [rbx + 124]
-	setbe	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 336]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 256]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	shl	dil, 3
-	or	dil, sil
-	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, dil
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 272]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r9b, 7
-	or	r9b, sil
-	or	r11b, dl
-	or	r9b, r12b
-	movzx	eax, byte ptr [rsp + 304]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	byte ptr [rsi], r11b
-	movzx	edi, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	dil, 6
-	shl	r15b, 7
-	or	r15b, dil
-	mov	byte ptr [rsi + 1], r9b
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 352]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [rsi + 2], r15b
-	mov	byte ptr [rsi + 3], cl
-	add	rbx, 128
-	add	rsi, 4
-	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
-	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
-	jne	.LBB10_125
-# %bb.126:
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
-	jmp	.LBB10_140
-.LBB10_127:
-	mov	qword ptr [rsp + 112], r14      # 8-byte Spill
-.LBB10_128:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_182
-# %bb.129:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_151
-# %bb.130:
-	xor	r9d, r9d
-	jmp	.LBB10_154
-.LBB10_131:
-	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
-.LBB10_132:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_182
-# %bb.133:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_156
-# %bb.134:
-	xor	r9d, r9d
-	jmp	.LBB10_159
-.LBB10_135:
-	mov	r12, r14
-	mov	r11, rsi
-.LBB10_136:
-	shl	r15, 5
-	cmp	r15, r10
-	jge	.LBB10_182
-# %bb.137:
-	mov	r8, r10
-	sub	r8, r15
-	not	r15
-	add	r15, r10
-	jne	.LBB10_183
-# %bb.138:
-	xor	esi, esi
-	jmp	.LBB10_185
-.LBB10_139:
-	mov	r15, r14
-	mov	rbx, rsi
-.LBB10_140:
-	shl	r11, 5
-	cmp	r11, r10
-	jge	.LBB10_182
-# %bb.141:
-	mov	r8, r10
-	sub	r8, r11
-	not	r11
-	add	r11, r10
-	jne	.LBB10_187
-# %bb.142:
-	xor	esi, esi
-	jmp	.LBB10_189
-.LBB10_143:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB10_144:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	mov	edi, 0
-	adc	dil, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r14 + rdx]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r14 + rdx], al
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r14 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB10_144
-.LBB10_145:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.146:
-	xor	eax, eax
-	cmp	qword ptr [rsi], r13
-	jmp	.LBB10_174
-.LBB10_147:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB10_148:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	setge	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	setge	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_148
-.LBB10_149:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.150:
-	cmp	dword ptr [rsi], r13d
-	jmp	.LBB10_179
-.LBB10_151:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB10_152:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	setge	bl
-	neg	bl
-	mov	rdi, r9
-	shr	rdi, 3
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	movzx	r9d, byte ptr [r14 + rdi]
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	setge	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB10_152
-# %bb.153:
-	add	rsi, r9
-.LBB10_154:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.155:
-	cmp	byte ptr [rsi], r11b
-	setge	al
-	neg	al
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	jmp	.LBB10_161
-.LBB10_156:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
-	.p2align	4, 0x90
-.LBB10_157:                             # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	byte ptr [rsi + r9], r11b
-	mov	ebx, 0
-	adc	bl, -1
-	mov	rdi, r9
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, eax
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r14 + rdi], dl
-	cmp	byte ptr [rsi + rax + 1], r11b
-	lea	r9, [rax + 2]
-	mov	ebx, 0
-	adc	bl, -1
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r14 + rdi], al
-	cmp	r10, r9
-	jne	.LBB10_157
-# %bb.158:
-	add	rsi, r9
-.LBB10_159:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.160:
-	xor	eax, eax
-	cmp	byte ptr [rsi], r11b
-	adc	al, -1
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
-	mov	dil, byte ptr [r8 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-.LBB10_161:
-	xor	bl, dil
-	mov	byte ptr [r8 + rdx], bl
-	jmp	.LBB10_182
-.LBB10_162:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB10_163:                             # =>This Inner Loop Header: Depth=1
-	cmp	dword ptr [rsi], r13d
-	mov	edi, 0
-	adc	dil, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r14 + rdx]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r14 + rdx], al
-	add	r11, 2
-	cmp	dword ptr [rsi + 4], r13d
-	lea	rsi, [rsi + 8]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r14 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB10_163
-.LBB10_164:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.165:
-	xor	eax, eax
-	cmp	dword ptr [rsi], r13d
-	jmp	.LBB10_174
-.LBB10_166:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB10_167:                             # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rsi]
-	setbe	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	ucomisd	xmm0, qword ptr [rsi + 8]
-	setbe	al
-	add	rsi, 16
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_167
-.LBB10_168:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.169:
-	ucomisd	xmm0, qword ptr [rsi]
-	setbe	al
-	jmp	.LBB10_180
-.LBB10_170:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB10_171:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [rsi], r13w
-	mov	edi, 0
-	adc	dil, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	movzx	r10d, byte ptr [r14 + rdx]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r14 + rdx], al
-	add	r11, 2
-	cmp	word ptr [rsi + 2], r13w
-	lea	rsi, [rsi + 4]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r14 + rdx], bl
-	cmp	r9, r11
-	jne	.LBB10_171
-.LBB10_172:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.173:
-	xor	eax, eax
-	cmp	word ptr [rsi], r13w
-.LBB10_174:
-	adc	al, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB10_181
-.LBB10_175:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB10_176:                             # =>This Inner Loop Header: Depth=1
-	cmp	qword ptr [rsi], r13
-	setge	al
-	neg	al
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r14 + rdi], bl
-	add	r11, 2
-	cmp	qword ptr [rsi + 8], r13
-	lea	rsi, [rsi + 16]
-	setge	al
-	neg	al
-	xor	al, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, al
-	xor	dl, bl
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB10_176
-.LBB10_177:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.178:
-	cmp	qword ptr [rsi], r13
-.LBB10_179:
-	setge	al
-.LBB10_180:
-	neg	al
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB10_181:
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-.LBB10_182:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB10_183:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r14d, dword ptr [rsp + 392]     # 4-byte Reload
-	.p2align	4, 0x90
-.LBB10_184:                             # =>This Inner Loop Header: Depth=1
-	cmp	word ptr [r11], r14w
-	setge	bl
-	neg	bl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r12 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	dl, 1
-	shl	dl, cl
-	xor	bl, r9b
-	and	dl, bl
-	xor	dl, r9b
-	mov	byte ptr [r12 + rdi], dl
-	add	rsi, 2
-	cmp	word ptr [r11 + 2], r14w
-	lea	r11, [r11 + 4]
-	setge	bl
-	neg	bl
-	xor	bl, dl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, bl
-	xor	al, dl
-	mov	byte ptr [r12 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB10_184
-.LBB10_185:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.186:
-	mov	eax, dword ptr [rsp + 392]      # 4-byte Reload
-	cmp	word ptr [r11], ax
-	setge	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r12 + rdx], bl
-	jmp	.LBB10_182
-.LBB10_187:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	mov	r11, r15
-	.p2align	4, 0x90
-.LBB10_188:                             # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm11, dword ptr [rbx]
-	setbe	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r11 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dl, r9b
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r11 + rdi], al
-	add	rsi, 2
-	ucomiss	xmm11, dword ptr [rbx + 4]
-	setbe	r9b
-	add	rbx, 8
-	neg	r9b
-	xor	r9b, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r9b
-	xor	dl, al
-	mov	byte ptr [r11 + rdi], dl
-	cmp	r10, rsi
-	jne	.LBB10_188
-.LBB10_189:
-	test	r8b, 1
-	je	.LBB10_182
-# %bb.190:
-	ucomiss	xmm11, dword ptr [rbx]
-	setbe	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	r14, r15
-	mov	dil, byte ptr [r15 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r15 + rdx], bl
-	jmp	.LBB10_182
-.LBB10_191:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 320], xmm1   # 16-byte Spill
-	xor	r8d, r8d
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_192:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 288], r8       # 8-byte Spill
-	shl	r8, 5
-	mov	r9, r8
-	mov	rdi, r8
-	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
-	mov	r12, r8
-	mov	r15, r8
-	mov	qword ptr [rsp + 16], r8        # 8-byte Spill
-	mov	r11, r8
-	mov	r10, r8
-	mov	rax, r8
-	mov	rdx, r8
-	mov	r14, r8
-	movzx	ecx, byte ptr [rsi + r8]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 1]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 2]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 3]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 4]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 5]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 144], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + r8 + 6]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 7]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + r8 + 8]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 9]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 10]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 11]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 12]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rsi + r8 + 16]
-	movd	xmm14, ecx
-	mov	qword ptr [rsp + 208], r8       # 8-byte Spill
-	movzx	ecx, byte ptr [rsi + r8 + 24]
-	movd	xmm5, ecx
-	mov	rcx, r8
-	or	rcx, 32
-	mov	r13, rcx
-	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
-	or	r9, 64
-	mov	qword ptr [rsp + 32], r9        # 8-byte Spill
-	mov	rcx, r9
-	mov	r9, r8
-	or	r9, 96
-	or	qword ptr [rsp + 128], 128      # 8-byte Folded Spill
-	or	r12, 160
-	or	r15, 192
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	or	rbx, 224
-	or	r11, 256
-	or	r10, 288
-	or	rax, 320
-	or	rdx, 352
-	mov	qword ptr [rsp + 48], rdx       # 8-byte Spill
-	or	r14, 384
-	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
-	or	rdi, 416
-	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
-	mov	rdi, r8
-	or	rdi, 448
-	mov	qword ptr [rsp + 16], rdi       # 8-byte Spill
-	mov	rdi, r8
-	or	rdi, 480
-	pinsrb	xmm9, byte ptr [rsi + r13], 1
-	pinsrb	xmm9, byte ptr [rsi + rcx], 2
-	pinsrb	xmm9, byte ptr [rsi + r9], 3
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r8], 4
-	pinsrb	xmm9, byte ptr [rsi + r12], 5
-	pinsrb	xmm9, byte ptr [rsi + r15], 6
-	pinsrb	xmm9, byte ptr [rsi + rbx], 7
-	pinsrb	xmm9, byte ptr [rsi + r11], 8
-	pinsrb	xmm9, byte ptr [rsi + r10], 9
-	pinsrb	xmm9, byte ptr [rsi + rax], 10
-	pinsrb	xmm9, byte ptr [rsi + rdx], 11
-	pinsrb	xmm9, byte ptr [rsi + r14], 12
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + r13], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rsi + rcx], 14
-	mov	qword ptr [rsp + 224], rdi      # 8-byte Spill
-	pinsrb	xmm9, byte ptr [rsi + rdi], 15
-	movdqa	xmm15, xmmword ptr [rsp + 320]  # 16-byte Reload
-	movdqa	xmm11, xmm15
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 1], 1
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 1], 2
-	pinsrb	xmm2, byte ptr [rsi + r9 + 1], 3
-	pinsrb	xmm2, byte ptr [rsi + r8 + 1], 4
-	pinsrb	xmm2, byte ptr [rsi + r12 + 1], 5
-	pinsrb	xmm2, byte ptr [rsi + r15 + 1], 6
-	pinsrb	xmm2, byte ptr [rsi + rbx + 1], 7
-	pinsrb	xmm2, byte ptr [rsi + r11 + 1], 8
-	pinsrb	xmm2, byte ptr [rsi + r10 + 1], 9
-	pinsrb	xmm2, byte ptr [rsi + rax + 1], 10
-	pinsrb	xmm2, byte ptr [rsi + rdx + 1], 11
-	pinsrb	xmm2, byte ptr [rsi + r14 + 1], 12
-	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r13 + 1], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 1], 14
-	pinsrb	xmm2, byte ptr [rsi + rdi + 1], 15
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 2], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r13 + 2], 2
-	pinsrb	xmm3, byte ptr [rsi + r9 + 2], 3
-	pinsrb	xmm3, byte ptr [rsi + r8 + 2], 4
-	pinsrb	xmm3, byte ptr [rsi + r12 + 2], 5
-	pinsrb	xmm3, byte ptr [rsi + r15 + 2], 6
-	pinsrb	xmm3, byte ptr [rsi + rbx + 2], 7
-	pinsrb	xmm3, byte ptr [rsi + r11 + 2], 8
-	pinsrb	xmm3, byte ptr [rsi + r10 + 2], 9
-	pinsrb	xmm3, byte ptr [rsi + rax + 2], 10
-	pinsrb	xmm3, byte ptr [rsi + rdx + 2], 11
-	pinsrb	xmm3, byte ptr [rsi + r14 + 2], 12
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 2], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 2], 14
-	pinsrb	xmm3, byte ptr [rsi + rdi + 2], 15
-	movdqa	xmm0, xmm3
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 3], 1
-	pinsrb	xmm4, byte ptr [rsi + r13 + 3], 2
-	pinsrb	xmm4, byte ptr [rsi + r9 + 3], 3
-	pinsrb	xmm4, byte ptr [rsi + r8 + 3], 4
-	pinsrb	xmm4, byte ptr [rsi + r12 + 3], 5
-	pinsrb	xmm4, byte ptr [rsi + r15 + 3], 6
-	pinsrb	xmm4, byte ptr [rsi + rbx + 3], 7
-	pinsrb	xmm4, byte ptr [rsi + r11 + 3], 8
-	pinsrb	xmm4, byte ptr [rsi + r10 + 3], 9
-	pinsrb	xmm4, byte ptr [rsi + rax + 3], 10
-	pinsrb	xmm4, byte ptr [rsi + rdx + 3], 11
-	pinsrb	xmm4, byte ptr [rsi + r14 + 3], 12
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 3], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rcx + 3], 14
-	pinsrb	xmm4, byte ptr [rsi + rdi + 3], 15
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 4], 1
-	pinsrb	xmm6, byte ptr [rsi + r13 + 4], 2
-	pinsrb	xmm6, byte ptr [rsi + r9 + 4], 3
-	pinsrb	xmm6, byte ptr [rsi + r8 + 4], 4
-	pinsrb	xmm6, byte ptr [rsi + r12 + 4], 5
-	pinsrb	xmm6, byte ptr [rsi + r15 + 4], 6
-	pinsrb	xmm6, byte ptr [rsi + rbx + 4], 7
-	pinsrb	xmm6, byte ptr [rsi + r11 + 4], 8
-	pinsrb	xmm6, byte ptr [rsi + r10 + 4], 9
-	pinsrb	xmm6, byte ptr [rsi + rax + 4], 10
-	pinsrb	xmm6, byte ptr [rsi + rdx + 4], 11
-	pinsrb	xmm6, byte ptr [rsi + r14 + 4], 12
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 4], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rcx + 4], 14
-	pinsrb	xmm6, byte ptr [rsi + rdi + 4], 15
-	movdqa	xmm3, xmmword ptr [rsp + 144]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 5], 1
-	pinsrb	xmm3, byte ptr [rsi + r13 + 5], 2
-	pinsrb	xmm3, byte ptr [rsi + r9 + 5], 3
-	pinsrb	xmm3, byte ptr [rsi + r8 + 5], 4
-	pinsrb	xmm3, byte ptr [rsi + r12 + 5], 5
-	pinsrb	xmm3, byte ptr [rsi + r15 + 5], 6
-	pinsrb	xmm3, byte ptr [rsi + rbx + 5], 7
-	pinsrb	xmm3, byte ptr [rsi + r11 + 5], 8
-	pinsrb	xmm3, byte ptr [rsi + r10 + 5], 9
-	pinsrb	xmm3, byte ptr [rsi + rax + 5], 10
-	pinsrb	xmm3, byte ptr [rsi + rdx + 5], 11
-	pinsrb	xmm3, byte ptr [rsi + r14 + 5], 12
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 5], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rcx + 5], 14
-	pinsrb	xmm3, byte ptr [rsi + rdi + 5], 15
-	movdqa	xmmword ptr [rsp + 144], xmm3   # 16-byte Spill
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 6], 1
-	mov	rcx, r13
-	pinsrb	xmm7, byte ptr [rsi + r13 + 6], 2
-	pinsrb	xmm7, byte ptr [rsi + r9 + 6], 3
-	pinsrb	xmm7, byte ptr [rsi + r8 + 6], 4
-	pinsrb	xmm7, byte ptr [rsi + r12 + 6], 5
-	pinsrb	xmm7, byte ptr [rsi + r15 + 6], 6
-	pinsrb	xmm7, byte ptr [rsi + rbx + 6], 7
-	pinsrb	xmm7, byte ptr [rsi + r11 + 6], 8
-	pinsrb	xmm7, byte ptr [rsi + r10 + 6], 9
-	pinsrb	xmm7, byte ptr [rsi + rax + 6], 10
-	pinsrb	xmm7, byte ptr [rsi + rdx + 6], 11
-	pinsrb	xmm7, byte ptr [rsi + r14 + 6], 12
-	pinsrb	xmm13, byte ptr [rsi + rdi + 8], 1
-	mov	r13, rdi
-	pinsrb	xmm13, byte ptr [rsi + rcx + 8], 2
-	pinsrb	xmm13, byte ptr [rsi + r9 + 8], 3
-	pinsrb	xmm13, byte ptr [rsi + r8 + 8], 4
-	pinsrb	xmm13, byte ptr [rsi + r12 + 8], 5
-	pinsrb	xmm13, byte ptr [rsi + r15 + 8], 6
-	pinsrb	xmm13, byte ptr [rsi + rbx + 8], 7
-	pinsrb	xmm13, byte ptr [rsi + r11 + 8], 8
-	pinsrb	xmm13, byte ptr [rsi + r10 + 8], 9
-	pinsrb	xmm13, byte ptr [rsi + rax + 8], 10
-	pinsrb	xmm13, byte ptr [rsi + rdx + 8], 11
-	pinsrb	xmm13, byte ptr [rsi + r14 + 8], 12
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r8 + 8], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rcx + 8], 14
-	pcmpgtb	xmm11, xmm9
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rdi + 8], 15
-	movdqa	xmm9, xmm15
-	pcmpgtb	xmm9, xmm13
-	pinsrb	xmm14, byte ptr [rsi + r13 + 16], 1
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rcx + 16], 2
-	pinsrb	xmm14, byte ptr [rsi + r9 + 16], 3
-	mov	r14, r9
-	mov	qword ptr [rsp + 176], r9       # 8-byte Spill
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rcx + 16], 4
-	pinsrb	xmm14, byte ptr [rsi + r12 + 16], 5
-	mov	qword ptr [rsp + 240], r12      # 8-byte Spill
-	pinsrb	xmm14, byte ptr [rsi + r15 + 16], 6
-	pinsrb	xmm14, byte ptr [rsi + rbx + 16], 7
-	pinsrb	xmm14, byte ptr [rsi + r11 + 16], 8
-	pinsrb	xmm14, byte ptr [rsi + r10 + 16], 9
-	pinsrb	xmm14, byte ptr [rsi + rax + 16], 10
-	mov	r9, rax
-	pinsrb	xmm14, byte ptr [rsi + rdx + 16], 11
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdx + 16], 12
-	pinsrb	xmm14, byte ptr [rsi + r8 + 16], 13
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r13 + 16], 14
-	pinsrb	xmm14, byte ptr [rsi + rdi + 16], 15
-	movdqa	xmm3, xmm15
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 24], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 24], 2
-	pinsrb	xmm5, byte ptr [rsi + r14 + 24], 3
-	pinsrb	xmm5, byte ptr [rsi + rcx + 24], 4
-	pinsrb	xmm5, byte ptr [rsi + r12 + 24], 5
-	pinsrb	xmm5, byte ptr [rsi + r15 + 24], 6
-	mov	r14, r15
-	pinsrb	xmm5, byte ptr [rsi + rbx + 24], 7
-	pinsrb	xmm5, byte ptr [rsi + r11 + 24], 8
-	pinsrb	xmm5, byte ptr [rsi + r10 + 24], 9
-	pinsrb	xmm5, byte ptr [rsi + r9 + 24], 10
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 24], 11
-	pinsrb	xmm5, byte ptr [rsi + rdx + 24], 12
-	pinsrb	xmm5, byte ptr [rsi + r8 + 24], 13
-	pinsrb	xmm5, byte ptr [rsi + r13 + 24], 14
-	pinsrb	xmm5, byte ptr [rsi + rdi + 24], 15
-	pcmpgtb	xmm3, xmm14
-	movdqa	xmmword ptr [rsp + 304], xmm3   # 16-byte Spill
-	movdqa	xmm3, xmm15
-	pcmpgtb	xmm3, xmm5
-	movdqa	xmmword ptr [rsp + 256], xmm3   # 16-byte Spill
-	movdqa	xmm5, xmm15
-	pcmpgtb	xmm5, xmm2
-	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 13]
-	movd	xmm2, edx
-	pinsrb	xmm7, byte ptr [rsi + r8 + 6], 13
-	movdqa	xmm3, xmmword ptr [rip + .LCPI10_16] # xmm3 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm5, xmm3
-	paddb	xmm5, xmm11
-	movdqa	xmm13, xmm15
-	pcmpgtb	xmm13, xmm0
-	movdqa	xmm3, xmm15
-	pcmpgtb	xmm3, xmm4
-	movzx	edx, byte ptr [rsi + rcx + 14]
-	movd	xmm4, edx
-	pinsrb	xmm7, byte ptr [rsi + r13 + 6], 14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm13, xmm0
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm3, xmm0
-	por	xmm3, xmm13
-	movdqa	xmm14, xmm15
-	pcmpgtb	xmm14, xmm6
-	movzx	edx, byte ptr [rsi + rcx + 15]
-	movd	xmm6, edx
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm14, xmm0
-	por	xmm14, xmm3
-	movzx	edx, byte ptr [rsi + rcx + 17]
-	movd	xmm3, edx
-	pinsrb	xmm7, byte ptr [rsi + rdi + 6], 15
-	pcmpeqd	xmm0, xmm0
-	psubb	xmm5, xmm0
-	por	xmm14, xmm5
-	movdqa	xmm5, xmm15
-	pcmpgtb	xmm5, xmmword ptr [rsp + 144]   # 16-byte Folded Reload
-	movdqa	xmm13, xmm15
-	movdqa	xmm11, xmm15
-	pcmpgtb	xmm13, xmm7
-	movzx	edx, byte ptr [rsi + rcx + 18]
-	movd	xmm7, edx
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm5, xmm0
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm13, xmm0
-	por	xmm13, xmm5
-	movzx	edx, byte ptr [rsi + rcx + 19]
-	movd	xmm15, edx
-	movdqa	xmm0, xmmword ptr [rsp + 272]   # 16-byte Reload
-	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdi + 7], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 7], 2
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 7], 3
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 7], 4
-	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r15 + 7], 5
-	pinsrb	xmm0, byte ptr [rsi + r14 + 7], 6
-	pinsrb	xmm0, byte ptr [rsi + rbx + 7], 7
-	pinsrb	xmm0, byte ptr [rsi + r11 + 7], 8
-	pinsrb	xmm0, byte ptr [rsi + r10 + 7], 9
-	pinsrb	xmm0, byte ptr [rsi + r9 + 7], 10
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 7], 11
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 7], 12
-	pinsrb	xmm0, byte ptr [rsi + r8 + 7], 13
-	pinsrb	xmm0, byte ptr [rsi + r13 + 7], 14
-	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r12 + 7], 15
-	pinsrb	xmm8, byte ptr [rsi + rdi + 9], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r13 + 9], 2
-	pinsrb	xmm8, byte ptr [rsi + rcx + 9], 3
-	pinsrb	xmm8, byte ptr [rsi + rax + 9], 4
-	pinsrb	xmm8, byte ptr [rsi + r15 + 9], 5
-	pinsrb	xmm8, byte ptr [rsi + r14 + 9], 6
-	pinsrb	xmm8, byte ptr [rsi + rbx + 9], 7
-	pinsrb	xmm8, byte ptr [rsi + r11 + 9], 8
-	pinsrb	xmm8, byte ptr [rsi + r10 + 9], 9
-	pinsrb	xmm8, byte ptr [rsi + r9 + 9], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdi + 9], 11
-	pinsrb	xmm8, byte ptr [rsi + rdx + 9], 12
-	pinsrb	xmm8, byte ptr [rsi + r8 + 9], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdi + 9], 14
-	pinsrb	xmm8, byte ptr [rsi + r12 + 9], 15
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r13 + 10], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 2
-	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 3
-	pinsrb	xmm10, byte ptr [rsi + rax + 10], 4
-	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 5
-	pinsrb	xmm10, byte ptr [rsi + r14 + 10], 6
-	pinsrb	xmm10, byte ptr [rsi + rbx + 10], 7
-	pinsrb	xmm10, byte ptr [rsi + r11 + 10], 8
-	pinsrb	xmm10, byte ptr [rsi + r10 + 10], 9
-	pinsrb	xmm10, byte ptr [rsi + r9 + 10], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 11
-	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 12
-	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 14
-	pinsrb	xmm10, byte ptr [rsi + r12 + 10], 15
-	pinsrb	xmm1, byte ptr [rsi + r13 + 11], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rdi + 11], 2
-	pinsrb	xmm1, byte ptr [rsi + rcx + 11], 3
-	pinsrb	xmm1, byte ptr [rsi + rax + 11], 4
-	pinsrb	xmm1, byte ptr [rsi + r15 + 11], 5
-	pinsrb	xmm1, byte ptr [rsi + r14 + 11], 6
-	pinsrb	xmm1, byte ptr [rsi + rbx + 11], 7
-	pinsrb	xmm1, byte ptr [rsi + r11 + 11], 8
-	pinsrb	xmm1, byte ptr [rsi + r10 + 11], 9
-	pinsrb	xmm1, byte ptr [rsi + r9 + 11], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rdi + 11], 11
-	pinsrb	xmm1, byte ptr [rsi + rdx + 11], 12
-	pinsrb	xmm1, byte ptr [rsi + r8 + 11], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rdi + 11], 14
-	pinsrb	xmm1, byte ptr [rsi + r12 + 11], 15
-	pinsrb	xmm12, byte ptr [rsi + r13 + 12], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdi + 12], 2
-	pinsrb	xmm12, byte ptr [rsi + rcx + 12], 3
-	pinsrb	xmm12, byte ptr [rsi + rax + 12], 4
-	pinsrb	xmm12, byte ptr [rsi + r15 + 12], 5
-	pinsrb	xmm12, byte ptr [rsi + r14 + 12], 6
-	pinsrb	xmm12, byte ptr [rsi + rbx + 12], 7
-	pinsrb	xmm12, byte ptr [rsi + r11 + 12], 8
-	pinsrb	xmm12, byte ptr [rsi + r10 + 12], 9
-	pinsrb	xmm12, byte ptr [rsi + r9 + 12], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdi + 12], 11
-	pinsrb	xmm12, byte ptr [rsi + rdx + 12], 12
-	pinsrb	xmm12, byte ptr [rsi + r8 + 12], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdi + 12], 14
-	pinsrb	xmm12, byte ptr [rsi + r12 + 12], 15
-	pinsrb	xmm2, byte ptr [rsi + r13 + 13], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 13], 2
-	pinsrb	xmm2, byte ptr [rsi + rcx + 13], 3
-	pinsrb	xmm2, byte ptr [rsi + rax + 13], 4
-	pinsrb	xmm2, byte ptr [rsi + r15 + 13], 5
-	pinsrb	xmm2, byte ptr [rsi + r14 + 13], 6
-	pinsrb	xmm2, byte ptr [rsi + rbx + 13], 7
-	pinsrb	xmm2, byte ptr [rsi + r11 + 13], 8
-	pinsrb	xmm2, byte ptr [rsi + r10 + 13], 9
-	pinsrb	xmm2, byte ptr [rsi + r9 + 13], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 13], 11
-	pinsrb	xmm2, byte ptr [rsi + rdx + 13], 12
-	pinsrb	xmm2, byte ptr [rsi + r8 + 13], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 13], 14
-	pinsrb	xmm2, byte ptr [rsi + r12 + 13], 15
-	pinsrb	xmm4, byte ptr [rsi + r13 + 14], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 2
-	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 3
-	pinsrb	xmm4, byte ptr [rsi + rax + 14], 4
-	pinsrb	xmm4, byte ptr [rsi + r15 + 14], 5
-	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 6
-	pinsrb	xmm4, byte ptr [rsi + rbx + 14], 7
-	pinsrb	xmm4, byte ptr [rsi + r11 + 14], 8
-	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 9
-	pinsrb	xmm4, byte ptr [rsi + r9 + 14], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 11
-	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 12
-	pinsrb	xmm4, byte ptr [rsi + r8 + 14], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 14
-	pinsrb	xmm4, byte ptr [rsi + r12 + 14], 15
-	pinsrb	xmm6, byte ptr [rsi + r13 + 15], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 2
-	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 3
-	pinsrb	xmm6, byte ptr [rsi + rax + 15], 4
-	pinsrb	xmm6, byte ptr [rsi + r15 + 15], 5
-	pinsrb	xmm6, byte ptr [rsi + r14 + 15], 6
-	pinsrb	xmm6, byte ptr [rsi + rbx + 15], 7
-	pinsrb	xmm6, byte ptr [rsi + r11 + 15], 8
-	pinsrb	xmm6, byte ptr [rsi + r10 + 15], 9
-	pinsrb	xmm6, byte ptr [rsi + r9 + 15], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 11
-	pinsrb	xmm6, byte ptr [rsi + rdx + 15], 12
-	pinsrb	xmm6, byte ptr [rsi + r8 + 15], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 14
-	pinsrb	xmm6, byte ptr [rsi + r12 + 15], 15
-	pinsrb	xmm3, byte ptr [rsi + r13 + 17], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdi + 17], 2
-	pinsrb	xmm3, byte ptr [rsi + rcx + 17], 3
-	pinsrb	xmm3, byte ptr [rsi + rax + 17], 4
-	pinsrb	xmm3, byte ptr [rsi + r15 + 17], 5
-	pinsrb	xmm3, byte ptr [rsi + r14 + 17], 6
-	pinsrb	xmm3, byte ptr [rsi + rbx + 17], 7
-	pinsrb	xmm3, byte ptr [rsi + r11 + 17], 8
-	pinsrb	xmm3, byte ptr [rsi + r10 + 17], 9
-	pinsrb	xmm3, byte ptr [rsi + r9 + 17], 10
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdi + 17], 11
-	pinsrb	xmm3, byte ptr [rsi + rdx + 17], 12
-	pinsrb	xmm3, byte ptr [rsi + r8 + 17], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdi + 17], 14
-	pinsrb	xmm3, byte ptr [rsi + r12 + 17], 15
-	pinsrb	xmm7, byte ptr [rsi + r13 + 18], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 18], 2
-	pinsrb	xmm7, byte ptr [rsi + rcx + 18], 3
-	pinsrb	xmm7, byte ptr [rsi + rax + 18], 4
-	pinsrb	xmm7, byte ptr [rsi + r15 + 18], 5
-	pinsrb	xmm7, byte ptr [rsi + r14 + 18], 6
-	pinsrb	xmm7, byte ptr [rsi + rbx + 18], 7
-	pinsrb	xmm7, byte ptr [rsi + r11 + 18], 8
-	pinsrb	xmm7, byte ptr [rsi + r10 + 18], 9
-	pinsrb	xmm7, byte ptr [rsi + r9 + 18], 10
-	mov	qword ptr [rsp + 336], r9       # 8-byte Spill
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + rdi + 18], 11
-	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 12
-	mov	r15, rdx
-	pinsrb	xmm7, byte ptr [rsi + r8 + 18], 13
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rsi + r8 + 18], 14
-	pinsrb	xmm7, byte ptr [rsi + r12 + 18], 15
-	pinsrb	xmm15, byte ptr [rsi + r13 + 19], 1
-	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r13 + 19], 2
-	pinsrb	xmm15, byte ptr [rsi + rcx + 19], 3
-	pinsrb	xmm15, byte ptr [rsi + rax + 19], 4
-	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rcx + 19], 5
-	pinsrb	xmm15, byte ptr [rsi + r14 + 19], 6
-	pinsrb	xmm15, byte ptr [rsi + rbx + 19], 7
-	pinsrb	xmm15, byte ptr [rsi + r11 + 19], 8
-	pinsrb	xmm15, byte ptr [rsi + r10 + 19], 9
-	pinsrb	xmm15, byte ptr [rsi + r9 + 19], 10
-	pinsrb	xmm15, byte ptr [rsi + rdi + 19], 11
-	movdqa	xmm5, xmm11
-	pcmpgtb	xmm5, xmm0
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm5, xmm0
-	por	xmm5, xmm13
-	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 20]
-	movd	xmm0, edx
-	por	xmm5, xmm14
-	movdqa	xmmword ptr [rsp + 144], xmm5   # 16-byte Spill
-	movdqa	xmm13, xmm11
-	pcmpgtb	xmm13, xmm8
-	movzx	edx, byte ptr [rsi + rax + 21]
-	movd	xmm8, edx
-	pinsrb	xmm15, byte ptr [rsi + r15 + 19], 12
-	pandn	xmm13, xmmword ptr [rip + .LCPI10_16]
-	paddb	xmm13, xmm9
-	movdqa	xmm5, xmm11
-	pcmpgtb	xmm5, xmm10
-	movdqa	xmm9, xmm11
-	pcmpgtb	xmm9, xmm1
-	movzx	edx, byte ptr [rsi + rax + 22]
-	movd	xmm10, edx
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 19], 13
-	pandn	xmm5, xmmword ptr [rip + .LCPI10_17]
-	pandn	xmm9, xmmword ptr [rip + .LCPI10_18]
-	por	xmm9, xmm5
-	movdqa	xmm1, xmm11
-	pcmpgtb	xmm1, xmm12
-	movzx	edx, byte ptr [rsi + rax + 23]
-	movd	xmm5, edx
-	pandn	xmm1, xmmword ptr [rip + .LCPI10_19]
-	por	xmm1, xmm9
-	movzx	edx, byte ptr [rsi + rax + 25]
-	movd	xmm9, edx
-	pinsrb	xmm15, byte ptr [rsi + r8 + 19], 14
-	psubb	xmm13, xmmword ptr [rip + .LCPI10_22]
-	por	xmm1, xmm13
-	movdqa	xmm14, xmm11
-	pcmpgtb	xmm14, xmm2
-	movdqa	xmm13, xmm11
-	pcmpgtb	xmm13, xmm4
-	movzx	edx, byte ptr [rsi + rax + 26]
-	movd	xmm12, edx
-	pinsrb	xmm15, byte ptr [rsi + r12 + 19], 15
-	pandn	xmm14, xmmword ptr [rip + .LCPI10_20]
-	pandn	xmm13, xmmword ptr [rip + .LCPI10_21]
-	por	xmm13, xmm14
-	movdqa	xmm4, xmm11
-	movdqa	xmm14, xmm11
-	pcmpgtb	xmm14, xmm6
-	movzx	edx, byte ptr [rsi + rax + 27]
-	movd	xmm2, edx
-	pandn	xmm14, xmmword ptr [rip + .LCPI10_6]
-	por	xmm14, xmm13
-	movzx	edx, byte ptr [rsi + rax + 28]
-	movd	xmm6, edx
-	por	xmm14, xmm1
-	pcmpgtb	xmm11, xmm3
-	movzx	edx, byte ptr [rsi + rax + 29]
-	movd	xmm3, edx
-	pandn	xmm11, xmmword ptr [rip + .LCPI10_16]
-	paddb	xmm11, xmmword ptr [rsp + 304]  # 16-byte Folded Reload
-	movdqa	xmm1, xmm4
-	pcmpgtb	xmm1, xmm7
-	movdqa	xmm13, xmm4
-	movdqa	xmm7, xmm4
-	pcmpgtb	xmm13, xmm15
-	movzx	edx, byte ptr [rsi + rax + 30]
-	movd	xmm4, edx
-	movzx	edx, byte ptr [rsi + rax + 31]
-	pandn	xmm1, xmmword ptr [rip + .LCPI10_17]
-	pandn	xmm13, xmmword ptr [rip + .LCPI10_18]
-	por	xmm13, xmm1
-	movd	xmm15, edx
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 20], 1
-	pinsrb	xmm8, byte ptr [rsi + rax + 21], 1
-	pinsrb	xmm10, byte ptr [rsi + rax + 22], 1
-	pinsrb	xmm5, byte ptr [rsi + rax + 23], 1
-	pinsrb	xmm9, byte ptr [rsi + rax + 25], 1
-	pinsrb	xmm12, byte ptr [rsi + rax + 26], 1
-	pinsrb	xmm2, byte ptr [rsi + rax + 27], 1
-	pinsrb	xmm6, byte ptr [rsi + rax + 28], 1
-	pinsrb	xmm3, byte ptr [rsi + rax + 29], 1
-	pinsrb	xmm4, byte ptr [rsi + rax + 30], 1
-	pinsrb	xmm15, byte ptr [rsi + rax + 31], 1
-	pinsrb	xmm0, byte ptr [rsi + r13 + 20], 2
-	pinsrb	xmm8, byte ptr [rsi + r13 + 21], 2
-	pinsrb	xmm10, byte ptr [rsi + r13 + 22], 2
-	pinsrb	xmm5, byte ptr [rsi + r13 + 23], 2
-	pinsrb	xmm9, byte ptr [rsi + r13 + 25], 2
-	pinsrb	xmm12, byte ptr [rsi + r13 + 26], 2
-	pinsrb	xmm2, byte ptr [rsi + r13 + 27], 2
-	pinsrb	xmm6, byte ptr [rsi + r13 + 28], 2
-	pinsrb	xmm3, byte ptr [rsi + r13 + 29], 2
-	pinsrb	xmm4, byte ptr [rsi + r13 + 30], 2
-	pinsrb	xmm15, byte ptr [rsi + r13 + 31], 2
-	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 20], 3
-	pinsrb	xmm8, byte ptr [rsi + rdx + 21], 3
-	pinsrb	xmm10, byte ptr [rsi + rdx + 22], 3
-	pinsrb	xmm5, byte ptr [rsi + rdx + 23], 3
-	pinsrb	xmm9, byte ptr [rsi + rdx + 25], 3
-	pinsrb	xmm12, byte ptr [rsi + rdx + 26], 3
-	pinsrb	xmm2, byte ptr [rsi + rdx + 27], 3
-	pinsrb	xmm6, byte ptr [rsi + rdx + 28], 3
-	pinsrb	xmm3, byte ptr [rsi + rdx + 29], 3
-	pinsrb	xmm4, byte ptr [rsi + rdx + 30], 3
-	pinsrb	xmm15, byte ptr [rsi + rdx + 31], 3
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 20], 4
-	pinsrb	xmm8, byte ptr [rsi + rdx + 21], 4
-	pinsrb	xmm10, byte ptr [rsi + rdx + 22], 4
-	pinsrb	xmm5, byte ptr [rsi + rdx + 23], 4
-	pinsrb	xmm9, byte ptr [rsi + rdx + 25], 4
-	pinsrb	xmm12, byte ptr [rsi + rdx + 26], 4
-	pinsrb	xmm2, byte ptr [rsi + rdx + 27], 4
-	pinsrb	xmm6, byte ptr [rsi + rdx + 28], 4
-	pinsrb	xmm3, byte ptr [rsi + rdx + 29], 4
-	pinsrb	xmm4, byte ptr [rsi + rdx + 30], 4
-	pinsrb	xmm15, byte ptr [rsi + rdx + 31], 4
-	pinsrb	xmm0, byte ptr [rsi + rcx + 20], 5
-	pinsrb	xmm8, byte ptr [rsi + rcx + 21], 5
-	pinsrb	xmm10, byte ptr [rsi + rcx + 22], 5
-	pinsrb	xmm5, byte ptr [rsi + rcx + 23], 5
-	pinsrb	xmm9, byte ptr [rsi + rcx + 25], 5
-	pinsrb	xmm12, byte ptr [rsi + rcx + 26], 5
-	pinsrb	xmm2, byte ptr [rsi + rcx + 27], 5
-	pinsrb	xmm6, byte ptr [rsi + rcx + 28], 5
-	pinsrb	xmm3, byte ptr [rsi + rcx + 29], 5
-	pinsrb	xmm4, byte ptr [rsi + rcx + 30], 5
-	pinsrb	xmm15, byte ptr [rsi + rcx + 31], 5
-	pinsrb	xmm0, byte ptr [rsi + r14 + 20], 6
-	pinsrb	xmm8, byte ptr [rsi + r14 + 21], 6
-	pinsrb	xmm10, byte ptr [rsi + r14 + 22], 6
-	pinsrb	xmm5, byte ptr [rsi + r14 + 23], 6
-	pinsrb	xmm9, byte ptr [rsi + r14 + 25], 6
-	pinsrb	xmm12, byte ptr [rsi + r14 + 26], 6
-	pinsrb	xmm2, byte ptr [rsi + r14 + 27], 6
-	pinsrb	xmm6, byte ptr [rsi + r14 + 28], 6
-	pinsrb	xmm3, byte ptr [rsi + r14 + 29], 6
-	pinsrb	xmm4, byte ptr [rsi + r14 + 30], 6
-	pinsrb	xmm15, byte ptr [rsi + r14 + 31], 6
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rbx + 20], 7
-	pinsrb	xmm8, byte ptr [rsi + rbx + 21], 7
-	pinsrb	xmm10, byte ptr [rsi + rbx + 22], 7
-	pinsrb	xmm5, byte ptr [rsi + rbx + 23], 7
-	pinsrb	xmm9, byte ptr [rsi + rbx + 25], 7
-	pinsrb	xmm12, byte ptr [rsi + rbx + 26], 7
-	pinsrb	xmm2, byte ptr [rsi + rbx + 27], 7
-	pinsrb	xmm6, byte ptr [rsi + rbx + 28], 7
-	pinsrb	xmm3, byte ptr [rsi + rbx + 29], 7
-	pinsrb	xmm4, byte ptr [rsi + rbx + 30], 7
-	pinsrb	xmm15, byte ptr [rsi + rbx + 31], 7
-	pinsrb	xmm0, byte ptr [rsi + r11 + 20], 8
-	pinsrb	xmm8, byte ptr [rsi + r11 + 21], 8
-	pinsrb	xmm10, byte ptr [rsi + r11 + 22], 8
-	pinsrb	xmm5, byte ptr [rsi + r11 + 23], 8
-	pinsrb	xmm9, byte ptr [rsi + r11 + 25], 8
-	pinsrb	xmm12, byte ptr [rsi + r11 + 26], 8
-	pinsrb	xmm2, byte ptr [rsi + r11 + 27], 8
-	pinsrb	xmm6, byte ptr [rsi + r11 + 28], 8
-	pinsrb	xmm3, byte ptr [rsi + r11 + 29], 8
-	pinsrb	xmm4, byte ptr [rsi + r11 + 30], 8
-	pinsrb	xmm15, byte ptr [rsi + r11 + 31], 8
-	pinsrb	xmm0, byte ptr [rsi + r10 + 20], 9
-	pinsrb	xmm8, byte ptr [rsi + r10 + 21], 9
-	pinsrb	xmm10, byte ptr [rsi + r10 + 22], 9
-	pinsrb	xmm5, byte ptr [rsi + r10 + 23], 9
-	pinsrb	xmm9, byte ptr [rsi + r10 + 25], 9
-	pinsrb	xmm12, byte ptr [rsi + r10 + 26], 9
-	pinsrb	xmm2, byte ptr [rsi + r10 + 27], 9
-	pinsrb	xmm6, byte ptr [rsi + r10 + 28], 9
-	pinsrb	xmm3, byte ptr [rsi + r10 + 29], 9
-	pinsrb	xmm4, byte ptr [rsi + r10 + 30], 9
-	pinsrb	xmm15, byte ptr [rsi + r10 + 31], 9
-	mov	r10, qword ptr [rsp + 336]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r10 + 20], 10
-	pinsrb	xmm8, byte ptr [rsi + r10 + 21], 10
-	pinsrb	xmm10, byte ptr [rsi + r10 + 22], 10
-	pinsrb	xmm5, byte ptr [rsi + r10 + 23], 10
-	pinsrb	xmm9, byte ptr [rsi + r10 + 25], 10
-	pinsrb	xmm12, byte ptr [rsi + r10 + 26], 10
-	pinsrb	xmm2, byte ptr [rsi + r10 + 27], 10
-	pinsrb	xmm6, byte ptr [rsi + r10 + 28], 10
-	pinsrb	xmm3, byte ptr [rsi + r10 + 29], 10
-	pinsrb	xmm4, byte ptr [rsi + r10 + 30], 10
-	pinsrb	xmm15, byte ptr [rsi + r10 + 31], 10
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r10 + 20], 11
-	pinsrb	xmm8, byte ptr [rsi + r10 + 21], 11
-	pinsrb	xmm10, byte ptr [rsi + r10 + 22], 11
-	pinsrb	xmm5, byte ptr [rsi + r10 + 23], 11
-	pinsrb	xmm9, byte ptr [rsi + r10 + 25], 11
-	pinsrb	xmm12, byte ptr [rsi + r10 + 26], 11
-	pinsrb	xmm2, byte ptr [rsi + r10 + 27], 11
-	pinsrb	xmm6, byte ptr [rsi + r10 + 28], 11
-	pinsrb	xmm3, byte ptr [rsi + r10 + 29], 11
-	pinsrb	xmm4, byte ptr [rsi + r10 + 30], 11
-	pinsrb	xmm15, byte ptr [rsi + r10 + 31], 11
-	pinsrb	xmm0, byte ptr [rsi + r15 + 20], 12
-	pinsrb	xmm8, byte ptr [rsi + r15 + 21], 12
-	pinsrb	xmm10, byte ptr [rsi + r15 + 22], 12
-	pinsrb	xmm5, byte ptr [rsi + r15 + 23], 12
-	pinsrb	xmm9, byte ptr [rsi + r15 + 25], 12
-	pinsrb	xmm12, byte ptr [rsi + r15 + 26], 12
-	pinsrb	xmm2, byte ptr [rsi + r15 + 27], 12
-	pinsrb	xmm6, byte ptr [rsi + r15 + 28], 12
-	pinsrb	xmm3, byte ptr [rsi + r15 + 29], 12
-	pinsrb	xmm4, byte ptr [rsi + r15 + 30], 12
-	pinsrb	xmm15, byte ptr [rsi + r15 + 31], 12
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 20], 13
-	pinsrb	xmm8, byte ptr [rsi + rax + 21], 13
-	pinsrb	xmm10, byte ptr [rsi + rax + 22], 13
-	pinsrb	xmm5, byte ptr [rsi + rax + 23], 13
-	pinsrb	xmm9, byte ptr [rsi + rax + 25], 13
-	pinsrb	xmm12, byte ptr [rsi + rax + 26], 13
-	pinsrb	xmm2, byte ptr [rsi + rax + 27], 13
-	pinsrb	xmm6, byte ptr [rsi + rax + 28], 13
-	pinsrb	xmm3, byte ptr [rsi + rax + 29], 13
-	pinsrb	xmm4, byte ptr [rsi + rax + 30], 13
-	pinsrb	xmm15, byte ptr [rsi + rax + 31], 13
-	pinsrb	xmm0, byte ptr [rsi + r8 + 20], 14
-	pinsrb	xmm8, byte ptr [rsi + r8 + 21], 14
-	pinsrb	xmm10, byte ptr [rsi + r8 + 22], 14
-	pinsrb	xmm5, byte ptr [rsi + r8 + 23], 14
-	pinsrb	xmm9, byte ptr [rsi + r8 + 25], 14
-	pinsrb	xmm12, byte ptr [rsi + r8 + 26], 14
-	pinsrb	xmm2, byte ptr [rsi + r8 + 27], 14
-	pinsrb	xmm6, byte ptr [rsi + r8 + 28], 14
-	pinsrb	xmm3, byte ptr [rsi + r8 + 29], 14
-	pinsrb	xmm4, byte ptr [rsi + r8 + 30], 14
-	pinsrb	xmm15, byte ptr [rsi + r8 + 31], 14
-	pinsrb	xmm0, byte ptr [rsi + r12 + 20], 15
-	pinsrb	xmm8, byte ptr [rsi + r12 + 21], 15
-	pinsrb	xmm10, byte ptr [rsi + r12 + 22], 15
-	pinsrb	xmm5, byte ptr [rsi + r12 + 23], 15
-	pinsrb	xmm9, byte ptr [rsi + r12 + 25], 15
-	pinsrb	xmm12, byte ptr [rsi + r12 + 26], 15
-	movdqa	xmm1, xmm7
-	pcmpgtb	xmm1, xmm0
-	pinsrb	xmm2, byte ptr [rsi + r12 + 27], 15
-	pandn	xmm1, xmmword ptr [rip + .LCPI10_19]
-	por	xmm1, xmm13
-	pcmpeqd	xmm13, xmm13
-	psubb	xmm11, xmm13
-	por	xmm1, xmm11
-	movdqa	xmm0, xmm7
-	pcmpgtb	xmm0, xmm8
-	movdqa	xmm8, xmm7
-	pcmpgtb	xmm7, xmm10
-	movdqa	xmm10, xmmword ptr [rip + .LCPI10_20] # xmm10 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm0, xmm10
-	movdqa	xmm11, xmmword ptr [rip + .LCPI10_21] # xmm11 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm7, xmm11
-	por	xmm7, xmm0
-	movdqa	xmm0, xmm8
-	pcmpgtb	xmm0, xmm5
-	pinsrb	xmm6, byte ptr [rsi + r12 + 28], 15
-	movdqa	xmm5, xmmword ptr [rip + .LCPI10_6] # xmm5 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm0, xmm5
-	por	xmm0, xmm7
-	pinsrb	xmm3, byte ptr [rsi + r12 + 29], 15
-	por	xmm0, xmm1
-	movdqa	xmm1, xmm8
-	pcmpgtb	xmm1, xmm9
-	pandn	xmm1, xmmword ptr [rip + .LCPI10_16]
-	paddb	xmm1, xmmword ptr [rsp + 256]   # 16-byte Folded Reload
-	movdqa	xmm5, xmm8
-	pcmpgtb	xmm5, xmm12
-	movdqa	xmm7, xmm8
-	pcmpgtb	xmm7, xmm2
-	pandn	xmm5, xmmword ptr [rip + .LCPI10_17]
-	pandn	xmm7, xmmword ptr [rip + .LCPI10_18]
-	por	xmm7, xmm5
-	movdqa	xmm2, xmm8
-	pcmpgtb	xmm2, xmm6
-	pinsrb	xmm4, byte ptr [rsi + r12 + 30], 15
-	pandn	xmm2, xmmword ptr [rip + .LCPI10_19]
-	por	xmm2, xmm7
-	psubb	xmm1, xmm13
-	por	xmm2, xmm1
-	movdqa	xmm1, xmm8
-	pcmpgtb	xmm1, xmm3
-	movdqa	xmm3, xmm8
-	pcmpgtb	xmm3, xmm4
-	pinsrb	xmm15, byte ptr [rsi + r12 + 31], 15
-	pandn	xmm1, xmm10
-	pandn	xmm3, xmm11
-	por	xmm3, xmm1
-	movdqa	xmm1, xmm8
-	pcmpgtb	xmm1, xmm15
-	pandn	xmm1, xmmword ptr [rip + .LCPI10_6]
-	por	xmm1, xmm3
-	por	xmm1, xmm2
-	movdqa	xmm2, xmm0
-	punpcklbw	xmm2, xmm1              # xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
-	movdqa	xmm5, xmmword ptr [rsp + 144]   # 16-byte Reload
-	movdqa	xmm3, xmm5
-	punpcklbw	xmm3, xmm14             # xmm3 = xmm3[0],xmm14[0],xmm3[1],xmm14[1],xmm3[2],xmm14[2],xmm3[3],xmm14[3],xmm3[4],xmm14[4],xmm3[5],xmm14[5],xmm3[6],xmm14[6],xmm3[7],xmm14[7]
-	movdqa	xmm4, xmm3
-	punpcklwd	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3]
-	punpckhwd	xmm3, xmm2              # xmm3 = xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
-	punpckhbw	xmm0, xmm1              # xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
-	punpckhbw	xmm5, xmm14             # xmm5 = xmm5[8],xmm14[8],xmm5[9],xmm14[9],xmm5[10],xmm14[10],xmm5[11],xmm14[11],xmm5[12],xmm14[12],xmm5[13],xmm14[13],xmm5[14],xmm14[14],xmm5[15],xmm14[15]
-	movdqa	xmm1, xmm5
-	punpcklwd	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
-	punpckhwd	xmm5, xmm0              # xmm5 = xmm5[4],xmm0[4],xmm5[5],xmm0[5],xmm5[6],xmm0[6],xmm5[7],xmm0[7]
-	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm5
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm1
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm3
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
-	add	rcx, 16
-	mov	r8, rcx
-	cmp	rcx, qword ptr [rsp + 160]      # 8-byte Folded Reload
-	jne	.LBB10_192
-# %bb.193:
-	mov	r15, qword ptr [rsp + 432]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 160]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 368]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	jne	.LBB10_42
-	jmp	.LBB10_128
-.LBB10_194:
-	and	r15, -16
-	mov	rax, r15
-	shl	rax, 5
-	add	rax, rsi
-	mov	qword ptr [rsp + 392], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 416], r15      # 8-byte Spill
-	lea	rax, [r14 + 4*r15]
-	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
-	movzx	eax, r11b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 400], xmm1   # 16-byte Spill
-	xor	edx, edx
-	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB10_195:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 336], rdx      # 8-byte Spill
-	shl	rdx, 5
-	mov	rbx, rdx
-	mov	r11, rdx
-	mov	r12, rdx
-	mov	qword ptr [rsp + 144], rdx      # 8-byte Spill
-	mov	r8, rdx
-	mov	r13, rdx
-	mov	r9, rdx
-	mov	r10, rdx
-	mov	r14, rdx
-	mov	rdi, rdx
-	mov	r15, rdx
-	movzx	ecx, byte ptr [rsi + rdx]
-	movd	xmm0, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 1]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 2]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 3]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 4]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 5]
-	movd	xmm1, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 6]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 7]
-	movd	xmm2, ecx
-	movdqa	xmmword ptr [rsp + 368], xmm2   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdx + 8]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 9]
-	movd	xmm2, ecx
-	movdqa	xmmword ptr [rsp + 160], xmm2   # 16-byte Spill
-	movzx	ecx, byte ptr [rsi + rdx + 10]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 11]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 12]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 16]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rsi + rdx + 24]
-	movd	xmm2, ecx
-	mov	qword ptr [rsp + 128], rdx      # 8-byte Spill
-	mov	rax, rdx
-	or	rax, 32
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	or	rbx, 64
-	or	r11, 96
-	mov	qword ptr [rsp + 288], r11      # 8-byte Spill
-	or	r12, 128
-	mov	qword ptr [rsp + 96], r12       # 8-byte Spill
-	or	qword ptr [rsp + 144], 160      # 8-byte Folded Spill
-	or	r8, 192
-	or	r13, 224
-	mov	qword ptr [rsp + 304], r13      # 8-byte Spill
-	or	r9, 256
-	or	r10, 288
-	mov	qword ptr [rsp + 272], r10      # 8-byte Spill
-	or	r14, 320
-	or	rdi, 352
-	mov	qword ptr [rsp + 80], rdi       # 8-byte Spill
-	or	r15, 384
-	mov	rax, rdx
-	or	rax, 416
-	mov	rcx, rdx
-	mov	qword ptr [rsp + 16], rdx       # 8-byte Spill
-	or	qword ptr [rsp + 16], 448       # 8-byte Folded Spill
-	or	rdx, 480
-	mov	qword ptr [rsp + 48], rdx       # 8-byte Spill
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx], 1
-	pinsrb	xmm0, byte ptr [rsi + rbx], 2
-	pinsrb	xmm0, byte ptr [rsi + r11], 3
-	pinsrb	xmm0, byte ptr [rsi + r12], 4
-	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r11], 5
-	mov	rdx, r8
-	pinsrb	xmm0, byte ptr [rsi + r8], 6
-	pinsrb	xmm0, byte ptr [rsi + r13], 7
-	pinsrb	xmm0, byte ptr [rsi + r9], 8
-	mov	r8, r9
-	mov	qword ptr [rsp + 224], r9       # 8-byte Spill
-	pinsrb	xmm0, byte ptr [rsi + r10], 9
-	mov	r9, r14
-	pinsrb	xmm0, byte ptr [rsi + r14], 10
-	pinsrb	xmm0, byte ptr [rsi + rdi], 11
-	pinsrb	xmm0, byte ptr [rsi + r15], 12
-	pinsrb	xmm0, byte ptr [rsi + rax], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx], 14
-	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx], 15
-	movdqa	xmm9, xmm0
-	movdqa	xmm7, xmmword ptr [rsp + 400]   # 16-byte Reload
-	pmaxub	xmm9, xmm7
-	movdqa	xmm15, xmm7
-	pcmpeqb	xmm9, xmm0
-	movdqa	xmm0, xmm9
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rcx + 1], 1
-	pinsrb	xmm11, byte ptr [rsi + rbx + 1], 2
-	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r14 + 1], 3
-	pinsrb	xmm11, byte ptr [rsi + r12 + 1], 4
-	pinsrb	xmm11, byte ptr [rsi + r11 + 1], 5
-	pinsrb	xmm11, byte ptr [rsi + rdx + 1], 6
-	pinsrb	xmm11, byte ptr [rsi + r13 + 1], 7
-	pinsrb	xmm11, byte ptr [rsi + r8 + 1], 8
-	pinsrb	xmm11, byte ptr [rsi + r10 + 1], 9
-	pinsrb	xmm11, byte ptr [rsi + r9 + 1], 10
-	pinsrb	xmm11, byte ptr [rsi + rdi + 1], 11
-	pinsrb	xmm11, byte ptr [rsi + r15 + 1], 12
-	pinsrb	xmm11, byte ptr [rsi + rax + 1], 13
-	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r8 + 1], 14
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + r8 + 1], 15
-	pinsrb	xmm13, byte ptr [rsi + rcx + 8], 1
-	pinsrb	xmm13, byte ptr [rsi + rbx + 8], 2
-	pinsrb	xmm13, byte ptr [rsi + r14 + 8], 3
-	pinsrb	xmm13, byte ptr [rsi + r12 + 8], 4
-	pinsrb	xmm13, byte ptr [rsi + r11 + 8], 5
-	pinsrb	xmm13, byte ptr [rsi + rdx + 8], 6
-	pinsrb	xmm13, byte ptr [rsi + r13 + 8], 7
-	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + r13 + 8], 8
-	pinsrb	xmm13, byte ptr [rsi + r10 + 8], 9
-	pinsrb	xmm13, byte ptr [rsi + r9 + 8], 10
-	pinsrb	xmm13, byte ptr [rsi + rdi + 8], 11
-	pinsrb	xmm13, byte ptr [rsi + r15 + 8], 12
-	pinsrb	xmm13, byte ptr [rsi + rax + 8], 13
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rsi + rcx + 8], 14
-	pinsrb	xmm13, byte ptr [rsi + r8 + 8], 15
-	movdqa	xmm9, xmm13
-	pmaxub	xmm9, xmm7
-	pcmpeqb	xmm9, xmm13
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdi + 16], 1
-	pinsrb	xmm12, byte ptr [rsi + rbx + 16], 2
-	mov	r10, rbx
-	pinsrb	xmm12, byte ptr [rsi + r14 + 16], 3
-	pinsrb	xmm12, byte ptr [rsi + r12 + 16], 4
-	pinsrb	xmm12, byte ptr [rsi + r11 + 16], 5
-	pinsrb	xmm12, byte ptr [rsi + rdx + 16], 6
-	mov	rcx, rdx
-	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
-	mov	r11, qword ptr [rsp + 304]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r11 + 16], 7
-	pinsrb	xmm12, byte ptr [rsi + r13 + 16], 8
-	mov	r8, r13
-	mov	r13, qword ptr [rsp + 272]      # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r13 + 16], 9
-	pinsrb	xmm12, byte ptr [rsi + r9 + 16], 10
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rdx + 16], 11
-	pinsrb	xmm12, byte ptr [rsi + r15 + 16], 12
-	pinsrb	xmm12, byte ptr [rsi + rax + 16], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + rbx + 16], 14
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rsi + r12 + 16], 15
-	movdqa	xmm7, xmm12
-	pmaxub	xmm7, xmm15
-	pcmpeqb	xmm7, xmm12
-	movdqa	xmmword ptr [rsp + 432], xmm7   # 16-byte Spill
-	pinsrb	xmm2, byte ptr [rsi + rdi + 24], 1
-	pinsrb	xmm2, byte ptr [rsi + r10 + 24], 2
-	pinsrb	xmm2, byte ptr [rsi + r14 + 24], 3
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdi + 24], 4
-	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + r14 + 24], 5
-	pinsrb	xmm2, byte ptr [rsi + rcx + 24], 6
-	pinsrb	xmm2, byte ptr [rsi + r11 + 24], 7
-	pinsrb	xmm2, byte ptr [rsi + r8 + 24], 8
-	pinsrb	xmm2, byte ptr [rsi + r13 + 24], 9
-	pinsrb	xmm2, byte ptr [rsi + r9 + 24], 10
-	pinsrb	xmm2, byte ptr [rsi + rdx + 24], 11
-	pinsrb	xmm2, byte ptr [rsi + r15 + 24], 12
-	pinsrb	xmm2, byte ptr [rsi + rax + 24], 13
-	pinsrb	xmm2, byte ptr [rsi + rbx + 24], 14
-	pinsrb	xmm2, byte ptr [rsi + r12 + 24], 15
-	movdqa	xmm7, xmm2
-	pmaxub	xmm7, xmm15
-	pcmpeqb	xmm7, xmm2
-	movdqa	xmmword ptr [rsp + 320], xmm7   # 16-byte Spill
-	movdqa	xmm12, xmm11
-	movdqa	xmm13, xmm15
-	pmaxub	xmm12, xmm15
-	pcmpeqb	xmm12, xmm11
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdx + 13]
-	movd	xmm15, edx
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rcx + 2], 1
-	mov	rbx, r10
-	pinsrb	xmm14, byte ptr [rsi + r10 + 2], 2
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r10 + 2], 3
-	mov	rdx, rdi
-	pinsrb	xmm14, byte ptr [rsi + rdi + 2], 4
-	mov	rcx, r14
-	pinsrb	xmm14, byte ptr [rsi + r14 + 2], 5
-	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rdi + 2], 6
-	pinsrb	xmm14, byte ptr [rsi + r11 + 2], 7
-	pinsrb	xmm14, byte ptr [rsi + r8 + 2], 8
-	pinsrb	xmm14, byte ptr [rsi + r13 + 2], 9
-	pinsrb	xmm14, byte ptr [rsi + r9 + 2], 10
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r14 + 2], 11
-	pinsrb	xmm14, byte ptr [rsi + r15 + 2], 12
-	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
-	pinsrb	xmm14, byte ptr [rsi + rax + 2], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rax + 2], 14
-	pinsrb	xmm14, byte ptr [rsi + r12 + 2], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 3], 1
-	pinsrb	xmm5, byte ptr [rsi + rbx + 3], 2
-	pinsrb	xmm5, byte ptr [rsi + r10 + 3], 3
-	pinsrb	xmm5, byte ptr [rsi + rdx + 3], 4
-	mov	rax, rdx
-	pinsrb	xmm5, byte ptr [rsi + rcx + 3], 5
-	pinsrb	xmm5, byte ptr [rsi + rdi + 3], 6
-	pinsrb	xmm5, byte ptr [rsi + r11 + 3], 7
-	pinsrb	xmm5, byte ptr [rsi + r8 + 3], 8
-	pinsrb	xmm5, byte ptr [rsi + r13 + 3], 9
-	pinsrb	xmm5, byte ptr [rsi + r9 + 3], 10
-	pinsrb	xmm5, byte ptr [rsi + r14 + 3], 11
-	pinsrb	xmm5, byte ptr [rsi + r15 + 3], 12
-	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r14 + 3], 13
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rdx + 3], 14
-	pinsrb	xmm5, byte ptr [rsi + r12 + 3], 15
-	movdqa	xmm2, xmmword ptr [rip + .LCPI10_16] # xmm2 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pand	xmm12, xmm2
-	psubb	xmm12, xmm0
-	movdqa	xmm11, xmm14
-	pmaxub	xmm11, xmm13
-	pcmpeqb	xmm11, xmm14
-	movdqa	xmm2, xmm5
-	pmaxub	xmm2, xmm13
-	pcmpeqb	xmm2, xmm5
-	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rdx + 14]
-	movd	xmm14, edx
-	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r12 + 4], 1
-	pinsrb	xmm3, byte ptr [rsi + rbx + 4], 2
-	pinsrb	xmm3, byte ptr [rsi + r10 + 4], 3
-	pinsrb	xmm3, byte ptr [rsi + rax + 4], 4
-	pinsrb	xmm3, byte ptr [rsi + rcx + 4], 5
-	pinsrb	xmm3, byte ptr [rsi + rdi + 4], 6
-	pinsrb	xmm3, byte ptr [rsi + r11 + 4], 7
-	pinsrb	xmm3, byte ptr [rsi + r8 + 4], 8
-	pinsrb	xmm3, byte ptr [rsi + r13 + 4], 9
-	pinsrb	xmm3, byte ptr [rsi + r9 + 4], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 4], 11
-	mov	qword ptr [rsp + 192], r15      # 8-byte Spill
-	pinsrb	xmm3, byte ptr [rsi + r15 + 4], 12
-	pinsrb	xmm3, byte ptr [rsi + r14 + 4], 13
-	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 4], 14
-	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r14 + 4], 15
-	pinsrb	xmm1, byte ptr [rsi + r12 + 5], 1
-	pinsrb	xmm1, byte ptr [rsi + rbx + 5], 2
-	pinsrb	xmm1, byte ptr [rsi + r10 + 5], 3
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + r12 + 5], 4
-	pinsrb	xmm1, byte ptr [rsi + rcx + 5], 5
-	pinsrb	xmm1, byte ptr [rsi + rdi + 5], 6
-	pinsrb	xmm1, byte ptr [rsi + r11 + 5], 7
-	pinsrb	xmm1, byte ptr [rsi + r8 + 5], 8
-	pinsrb	xmm1, byte ptr [rsi + r13 + 5], 9
-	pinsrb	xmm1, byte ptr [rsi + r9 + 5], 10
-	pinsrb	xmm1, byte ptr [rsi + rax + 5], 11
-	pinsrb	xmm1, byte ptr [rsi + r15 + 5], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rsi + rax + 5], 13
-	pinsrb	xmm1, byte ptr [rsi + rdx + 5], 14
-	movdqa	xmm5, xmmword ptr [rip + .LCPI10_17] # xmm5 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm11, xmm5
-	movdqa	xmm5, xmmword ptr [rip + .LCPI10_18] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm2, xmm5
-	por	xmm2, xmm11
-	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + r15 + 15]
-	movd	xmm11, edx
-	pinsrb	xmm1, byte ptr [rsi + r14 + 5], 15
-	por	xmm2, xmm12
-	movdqa	xmm12, xmm3
-	pmaxub	xmm12, xmm13
-	pcmpeqb	xmm12, xmm3
-	movdqa	xmm5, xmm1
-	pmaxub	xmm5, xmm13
-	pcmpeqb	xmm5, xmm1
-	movzx	edx, byte ptr [rsi + r15 + 17]
-	movd	xmm0, edx
-	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 6], 1
-	mov	qword ptr [rsp + 176], rbx      # 8-byte Spill
-	pinsrb	xmm4, byte ptr [rsi + rbx + 6], 2
-	pinsrb	xmm4, byte ptr [rsi + r10 + 6], 3
-	pinsrb	xmm4, byte ptr [rsi + r12 + 6], 4
-	pinsrb	xmm4, byte ptr [rsi + rcx + 6], 5
-	pinsrb	xmm4, byte ptr [rsi + rdi + 6], 6
-	pinsrb	xmm4, byte ptr [rsi + r11 + 6], 7
-	pinsrb	xmm4, byte ptr [rsi + r8 + 6], 8
-	pinsrb	xmm4, byte ptr [rsi + r13 + 6], 9
-	mov	qword ptr [rsp + 256], r9       # 8-byte Spill
-	pinsrb	xmm4, byte ptr [rsi + r9 + 6], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r12 + 6], 11
-	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r14 + 6], 12
-	pinsrb	xmm4, byte ptr [rsi + rax + 6], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r15 + 6], 14
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r15 + 6], 15
-	movdqa	xmm3, xmmword ptr [rsp + 368]   # 16-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 7], 1
-	pinsrb	xmm3, byte ptr [rsi + rbx + 7], 2
-	pinsrb	xmm3, byte ptr [rsi + r10 + 7], 3
-	mov	rbx, r10
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 7], 4
-	pinsrb	xmm3, byte ptr [rsi + rcx + 7], 5
-	pinsrb	xmm3, byte ptr [rsi + rdi + 7], 6
-	pinsrb	xmm3, byte ptr [rsi + r11 + 7], 7
-	pinsrb	xmm3, byte ptr [rsi + r8 + 7], 8
-	pinsrb	xmm3, byte ptr [rsi + r13 + 7], 9
-	pinsrb	xmm3, byte ptr [rsi + r9 + 7], 10
-	pinsrb	xmm3, byte ptr [rsi + r12 + 7], 11
-	pinsrb	xmm3, byte ptr [rsi + r14 + 7], 12
-	pinsrb	xmm3, byte ptr [rsi + rax + 7], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdi + 7], 14
-	mov	rcx, r15
-	pinsrb	xmm3, byte ptr [rsi + r15 + 7], 15
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_19] # xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm12, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_20] # xmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm5, xmm1
-	por	xmm5, xmm12
-	movdqa	xmm1, xmm4
-	pmaxub	xmm1, xmm13
-	pcmpeqb	xmm1, xmm4
-	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
-	movzx	edx, byte ptr [rsi + r8 + 18]
-	movd	xmm4, edx
-	movdqa	xmm7, xmmword ptr [rip + .LCPI10_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm1, xmm7
-	por	xmm1, xmm5
-	movzx	edx, byte ptr [rsi + r8 + 19]
-	movd	xmm5, edx
-	por	xmm1, xmm2
-	movdqa	xmm2, xmm3
-	pmaxub	xmm2, xmm13
-	pcmpeqb	xmm2, xmm3
-	movdqa	xmm12, xmm2
-	movzx	edx, byte ptr [rsi + r8 + 20]
-	movd	xmm2, edx
-	movdqa	xmm3, xmmword ptr [rsp + 160]   # 16-byte Reload
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r14 + 9], 1
-	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r10 + 9], 2
-	pinsrb	xmm3, byte ptr [rsi + rbx + 9], 3
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rax + 9], 4
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r9 + 9], 5
-	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r11 + 9], 6
-	mov	rbx, qword ptr [rsp + 304]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rbx + 9], 7
-	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r15 + 9], 8
-	pinsrb	xmm3, byte ptr [rsi + r13 + 9], 9
-	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r12 + 9], 10
-	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 9], 11
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 9], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + rdx + 9], 13
-	pinsrb	xmm3, byte ptr [rsi + rdi + 9], 14
-	pinsrb	xmm3, byte ptr [rsi + rcx + 9], 15
-	movdqa	xmm7, xmmword ptr [rip + .LCPI10_6] # xmm7 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm12, xmm7
-	por	xmm12, xmm1
-	movdqa	xmmword ptr [rsp + 160], xmm12  # 16-byte Spill
-	movdqa	xmm7, xmm3
-	pmaxub	xmm7, xmm13
-	pcmpeqb	xmm7, xmm3
-	movzx	edx, byte ptr [rsi + r8 + 21]
-	movd	xmm3, edx
-	pinsrb	xmm8, byte ptr [rsi + r14 + 10], 1
-	mov	r14, r10
-	pinsrb	xmm8, byte ptr [rsi + r10 + 10], 2
-	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r10 + 10], 3
-	pinsrb	xmm8, byte ptr [rsi + rax + 10], 4
-	mov	rcx, r9
-	pinsrb	xmm8, byte ptr [rsi + r9 + 10], 5
-	mov	rdi, r11
-	pinsrb	xmm8, byte ptr [rsi + r11 + 10], 6
-	mov	r11, rbx
-	pinsrb	xmm8, byte ptr [rsi + rbx + 10], 7
-	mov	r8, r15
-	pinsrb	xmm8, byte ptr [rsi + r15 + 10], 8
-	pinsrb	xmm8, byte ptr [rsi + r13 + 10], 9
-	mov	r9, r12
-	pinsrb	xmm8, byte ptr [rsi + r12 + 10], 10
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r12 + 10], 11
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + r15 + 10], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rax + 10], 13
-	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rbx + 10], 14
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rsi + rdx + 10], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 11], 1
-	pinsrb	xmm10, byte ptr [rsi + r14 + 11], 2
-	pinsrb	xmm10, byte ptr [rsi + r10 + 11], 3
-	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + r14 + 11], 4
-	pinsrb	xmm10, byte ptr [rsi + rcx + 11], 5
-	pinsrb	xmm10, byte ptr [rsi + rdi + 11], 6
-	pinsrb	xmm10, byte ptr [rsi + r11 + 11], 7
-	pinsrb	xmm10, byte ptr [rsi + r8 + 11], 8
-	pinsrb	xmm10, byte ptr [rsi + r13 + 11], 9
-	pinsrb	xmm10, byte ptr [rsi + r9 + 11], 10
-	pinsrb	xmm10, byte ptr [rsi + r12 + 11], 11
-	pinsrb	xmm10, byte ptr [rsi + r15 + 11], 12
-	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rax + 11], 13
-	pinsrb	xmm10, byte ptr [rsi + rbx + 11], 14
-	pinsrb	xmm10, byte ptr [rsi + rdx + 11], 15
-	pand	xmm7, xmmword ptr [rip + .LCPI10_16]
-	psubb	xmm7, xmm9
-	movdqa	xmm1, xmm8
-	pmaxub	xmm1, xmm13
-	pcmpeqb	xmm1, xmm8
-	movdqa	xmm9, xmm10
-	pmaxub	xmm9, xmm13
-	pcmpeqb	xmm9, xmm10
-	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rax + 22]
-	movd	xmm10, edx
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rax + 12], 1
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r12 + 12], 2
-	pinsrb	xmm6, byte ptr [rsi + r10 + 12], 3
-	mov	rdx, r14
-	pinsrb	xmm6, byte ptr [rsi + r14 + 12], 4
-	pinsrb	xmm6, byte ptr [rsi + rcx + 12], 5
-	pinsrb	xmm6, byte ptr [rsi + rdi + 12], 6
-	pinsrb	xmm6, byte ptr [rsi + r11 + 12], 7
-	pinsrb	xmm6, byte ptr [rsi + r8 + 12], 8
-	pinsrb	xmm6, byte ptr [rsi + r13 + 12], 9
-	pinsrb	xmm6, byte ptr [rsi + r9 + 12], 10
-	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + r14 + 12], 11
-	pinsrb	xmm6, byte ptr [rsi + r15 + 12], 12
-	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rbx + 12], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rax + 12], 14
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rsi + rax + 12], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rax + 13], 1
-	pinsrb	xmm15, byte ptr [rsi + r12 + 13], 2
-	pinsrb	xmm15, byte ptr [rsi + r10 + 13], 3
-	pinsrb	xmm15, byte ptr [rsi + rdx + 13], 4
-	pinsrb	xmm15, byte ptr [rsi + rcx + 13], 5
-	pinsrb	xmm15, byte ptr [rsi + rdi + 13], 6
-	pinsrb	xmm15, byte ptr [rsi + r11 + 13], 7
-	pinsrb	xmm15, byte ptr [rsi + r8 + 13], 8
-	pinsrb	xmm15, byte ptr [rsi + r13 + 13], 9
-	pinsrb	xmm15, byte ptr [rsi + r9 + 13], 10
-	pinsrb	xmm15, byte ptr [rsi + r14 + 13], 11
-	pinsrb	xmm15, byte ptr [rsi + r15 + 13], 12
-	mov	rax, r15
-	pinsrb	xmm15, byte ptr [rsi + rbx + 13], 13
-	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + r15 + 13], 14
-	pand	xmm1, xmmword ptr [rip + .LCPI10_17]
-	pand	xmm9, xmmword ptr [rip + .LCPI10_18]
-	por	xmm9, xmm1
-	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rbx + 23]
-	movd	xmm8, edx
-	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rsi + rdx + 13], 15
-	por	xmm9, xmm7
-	movdqa	xmm1, xmm6
-	pmaxub	xmm1, xmm13
-	pcmpeqb	xmm1, xmm6
-	movdqa	xmm7, xmm15
-	pmaxub	xmm7, xmm13
-	pcmpeqb	xmm7, xmm15
-	movzx	edx, byte ptr [rsi + rbx + 25]
-	movd	xmm15, edx
-	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + rbx + 14], 1
-	pinsrb	xmm14, byte ptr [rsi + r12 + 14], 2
-	pinsrb	xmm14, byte ptr [rsi + r10 + 14], 3
-	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r12 + 14], 4
-	pinsrb	xmm14, byte ptr [rsi + rcx + 14], 5
-	pinsrb	xmm14, byte ptr [rsi + rdi + 14], 6
-	pinsrb	xmm14, byte ptr [rsi + r11 + 14], 7
-	pinsrb	xmm14, byte ptr [rsi + r8 + 14], 8
-	mov	rdx, r13
-	pinsrb	xmm14, byte ptr [rsi + r13 + 14], 9
-	pinsrb	xmm14, byte ptr [rsi + r9 + 14], 10
-	pinsrb	xmm14, byte ptr [rsi + r14 + 14], 11
-	pinsrb	xmm14, byte ptr [rsi + rax + 14], 12
-	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r13 + 14], 13
-	pinsrb	xmm14, byte ptr [rsi + r15 + 14], 14
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rsi + r15 + 14], 15
-	pinsrb	xmm11, byte ptr [rsi + rbx + 15], 1
-	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rbx + 15], 2
-	pinsrb	xmm11, byte ptr [rsi + r10 + 15], 3
-	pinsrb	xmm11, byte ptr [rsi + r12 + 15], 4
-	pinsrb	xmm11, byte ptr [rsi + rcx + 15], 5
-	pinsrb	xmm11, byte ptr [rsi + rdi + 15], 6
-	pinsrb	xmm11, byte ptr [rsi + r11 + 15], 7
-	pinsrb	xmm11, byte ptr [rsi + r8 + 15], 8
-	pinsrb	xmm11, byte ptr [rsi + rdx + 15], 9
-	pinsrb	xmm11, byte ptr [rsi + r9 + 15], 10
-	pinsrb	xmm11, byte ptr [rsi + r14 + 15], 11
-	pinsrb	xmm11, byte ptr [rsi + rax + 15], 12
-	pinsrb	xmm11, byte ptr [rsi + r13 + 15], 13
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rsi + rdi + 15], 14
-	pinsrb	xmm11, byte ptr [rsi + r15 + 15], 15
-	mov	r12, r15
-	pand	xmm1, xmmword ptr [rip + .LCPI10_19]
-	pand	xmm7, xmmword ptr [rip + .LCPI10_20]
-	por	xmm7, xmm1
-	movdqa	xmm1, xmm14
-	pmaxub	xmm1, xmm13
-	pcmpeqb	xmm1, xmm14
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + r13 + 26]
-	movd	xmm6, edx
-	pand	xmm1, xmmword ptr [rip + .LCPI10_21]
-	por	xmm1, xmm7
-	movzx	edx, byte ptr [rsi + r13 + 27]
-	movd	xmm7, edx
-	por	xmm1, xmm9
-	movdqa	xmm14, xmm11
-	pmaxub	xmm14, xmm13
-	pcmpeqb	xmm14, xmm11
-	movzx	edx, byte ptr [rsi + r13 + 28]
-	movd	xmm9, edx
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rcx + 17], 1
-	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 2
-	pinsrb	xmm0, byte ptr [rsi + r10 + 17], 3
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rax + 17], 4
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 5
-	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r9 + 17], 6
-	pinsrb	xmm0, byte ptr [rsi + r11 + 17], 7
-	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 8
-	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 9
-	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r14 + 17], 10
-	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + r15 + 17], 11
-	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 13
-	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 14
-	pinsrb	xmm0, byte ptr [rsi + r12 + 17], 15
-	pand	xmm14, xmmword ptr [rip + .LCPI10_6]
-	por	xmm14, xmm1
-	movdqa	xmm1, xmm0
-	movdqa	xmm12, xmm13
-	pmaxub	xmm1, xmm13
-	pcmpeqb	xmm1, xmm0
-	movzx	edx, byte ptr [rsi + r13 + 29]
-	movd	xmm0, edx
-	pinsrb	xmm4, byte ptr [rsi + rcx + 18], 1
-	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r12 + 18], 2
-	pinsrb	xmm4, byte ptr [rsi + r10 + 18], 3
-	pinsrb	xmm4, byte ptr [rsi + rax + 18], 4
-	mov	rcx, r8
-	pinsrb	xmm4, byte ptr [rsi + r8 + 18], 5
-	mov	rdi, r9
-	pinsrb	xmm4, byte ptr [rsi + r9 + 18], 6
-	pinsrb	xmm4, byte ptr [rsi + r11 + 18], 7
-	mov	r8, rbx
-	pinsrb	xmm4, byte ptr [rsi + rbx + 18], 8
-	mov	rbx, qword ptr [rsp + 272]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rbx + 18], 9
-	mov	r9, r14
-	pinsrb	xmm4, byte ptr [rsi + r14 + 18], 10
-	mov	r14, r15
-	pinsrb	xmm4, byte ptr [rsi + r15 + 18], 11
-	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r15 + 18], 12
-	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rdx + 18], 13
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 18], 14
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + r13 + 18], 15
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 19], 1
-	pinsrb	xmm5, byte ptr [rsi + r12 + 19], 2
-	pinsrb	xmm5, byte ptr [rsi + r10 + 19], 3
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + rax + 19], 4
-	pinsrb	xmm5, byte ptr [rsi + rcx + 19], 5
-	pinsrb	xmm5, byte ptr [rsi + rdi + 19], 6
-	pinsrb	xmm5, byte ptr [rsi + r11 + 19], 7
-	pinsrb	xmm5, byte ptr [rsi + r8 + 19], 8
-	pinsrb	xmm5, byte ptr [rsi + rbx + 19], 9
-	pinsrb	xmm5, byte ptr [rsi + r9 + 19], 10
-	pinsrb	xmm5, byte ptr [rsi + r14 + 19], 11
-	pinsrb	xmm5, byte ptr [rsi + r15 + 19], 12
-	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 13
-	mov	rdi, rdx
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rsi + r12 + 19], 14
-	pinsrb	xmm5, byte ptr [rsi + r13 + 19], 15
-	pand	xmm1, xmmword ptr [rip + .LCPI10_16]
-	psubb	xmm1, xmmword ptr [rsp + 432]   # 16-byte Folded Reload
-	movdqa	xmm13, xmm4
-	pmaxub	xmm13, xmm12
-	pcmpeqb	xmm13, xmm4
-	movdqa	xmm11, xmm5
-	pmaxub	xmm11, xmm12
-	pcmpeqb	xmm11, xmm5
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	movzx	edx, byte ptr [rsi + rcx + 30]
-	movd	xmm4, edx
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 20], 1
-	pinsrb	xmm3, byte ptr [rsi + rax + 21], 1
-	pinsrb	xmm10, byte ptr [rsi + rax + 22], 1
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 1
-	pinsrb	xmm15, byte ptr [rsi + rax + 25], 1
-	pinsrb	xmm6, byte ptr [rsi + rax + 26], 1
-	pinsrb	xmm7, byte ptr [rsi + rax + 27], 1
-	pinsrb	xmm9, byte ptr [rsi + rax + 28], 1
-	pinsrb	xmm0, byte ptr [rsi + rax + 29], 1
-	movzx	edx, byte ptr [rsi + rcx + 31]
-	pinsrb	xmm4, byte ptr [rsi + rax + 30], 1
-	movd	xmm5, edx
-	pinsrb	xmm5, byte ptr [rsi + rax + 31], 1
-	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 20], 2
-	pinsrb	xmm3, byte ptr [rsi + rax + 21], 2
-	pinsrb	xmm10, byte ptr [rsi + rax + 22], 2
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 2
-	pinsrb	xmm15, byte ptr [rsi + rax + 25], 2
-	pinsrb	xmm6, byte ptr [rsi + rax + 26], 2
-	pinsrb	xmm7, byte ptr [rsi + rax + 27], 2
-	pinsrb	xmm9, byte ptr [rsi + rax + 28], 2
-	pinsrb	xmm0, byte ptr [rsi + rax + 29], 2
-	pinsrb	xmm4, byte ptr [rsi + rax + 30], 2
-	pinsrb	xmm5, byte ptr [rsi + rax + 31], 2
-	pinsrb	xmm2, byte ptr [rsi + r10 + 20], 3
-	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rdx + 20], 4
-	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rcx + 20], 5
-	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rsi + rax + 20], 6
-	pinsrb	xmm2, byte ptr [rsi + r11 + 20], 7
-	pinsrb	xmm2, byte ptr [rsi + r8 + 20], 8
-	pinsrb	xmm2, byte ptr [rsi + rbx + 20], 9
-	pinsrb	xmm2, byte ptr [rsi + r9 + 20], 10
-	pinsrb	xmm2, byte ptr [rsi + r14 + 20], 11
-	pinsrb	xmm2, byte ptr [rsi + r15 + 20], 12
-	pinsrb	xmm2, byte ptr [rsi + rdi + 20], 13
-	pinsrb	xmm2, byte ptr [rsi + r12 + 20], 14
-	pinsrb	xmm2, byte ptr [rsi + r13 + 20], 15
-	pinsrb	xmm3, byte ptr [rsi + r10 + 21], 3
-	mov	r9, r10
-	pinsrb	xmm3, byte ptr [rsi + rdx + 21], 4
-	pinsrb	xmm3, byte ptr [rsi + rcx + 21], 5
-	pinsrb	xmm3, byte ptr [rsi + rax + 21], 6
-	pinsrb	xmm3, byte ptr [rsi + r11 + 21], 7
-	pinsrb	xmm3, byte ptr [rsi + r8 + 21], 8
-	pinsrb	xmm3, byte ptr [rsi + rbx + 21], 9
-	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rsi + r8 + 21], 10
-	pinsrb	xmm3, byte ptr [rsi + r14 + 21], 11
-	pinsrb	xmm3, byte ptr [rsi + r15 + 21], 12
-	mov	r10, rdi
-	pinsrb	xmm3, byte ptr [rsi + rdi + 21], 13
-	pinsrb	xmm3, byte ptr [rsi + r12 + 21], 14
-	pand	xmm13, xmmword ptr [rip + .LCPI10_17]
-	pand	xmm11, xmmword ptr [rip + .LCPI10_18]
-	por	xmm11, xmm13
-	pinsrb	xmm3, byte ptr [rsi + r13 + 21], 15
-	por	xmm11, xmm1
-	movdqa	xmm1, xmm2
-	pmaxub	xmm1, xmm12
-	pcmpeqb	xmm1, xmm2
-	movdqa	xmm2, xmm3
-	pmaxub	xmm2, xmm12
-	pcmpeqb	xmm2, xmm3
-	pinsrb	xmm10, byte ptr [rsi + r9 + 22], 3
-	pinsrb	xmm10, byte ptr [rsi + rdx + 22], 4
-	pinsrb	xmm10, byte ptr [rsi + rcx + 22], 5
-	pinsrb	xmm10, byte ptr [rsi + rax + 22], 6
-	pinsrb	xmm10, byte ptr [rsi + r11 + 22], 7
-	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rsi + rdi + 22], 8
-	pinsrb	xmm10, byte ptr [rsi + rbx + 22], 9
-	pinsrb	xmm10, byte ptr [rsi + r8 + 22], 10
-	pinsrb	xmm10, byte ptr [rsi + r14 + 22], 11
-	pinsrb	xmm10, byte ptr [rsi + r15 + 22], 12
-	pinsrb	xmm10, byte ptr [rsi + r10 + 22], 13
-	pinsrb	xmm10, byte ptr [rsi + r12 + 22], 14
-	pinsrb	xmm10, byte ptr [rsi + r13 + 22], 15
-	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 3
-	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 4
-	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 5
-	pinsrb	xmm8, byte ptr [rsi + rax + 23], 6
-	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 7
-	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 8
-	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 9
-	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 10
-	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 11
-	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 12
-	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 13
-	pand	xmm1, xmmword ptr [rip + .LCPI10_19]
-	pand	xmm2, xmmword ptr [rip + .LCPI10_20]
-	por	xmm2, xmm1
-	movdqa	xmm1, xmm10
-	pmaxub	xmm1, xmm12
-	pcmpeqb	xmm1, xmm10
-	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 14
-	pand	xmm1, xmmword ptr [rip + .LCPI10_21]
-	por	xmm1, xmm2
-	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 15
-	por	xmm1, xmm11
-	movdqa	xmm10, xmm8
-	pmaxub	xmm10, xmm12
-	pcmpeqb	xmm10, xmm8
-	pinsrb	xmm15, byte ptr [rsi + r9 + 25], 3
-	pinsrb	xmm15, byte ptr [rsi + rdx + 25], 4
-	pinsrb	xmm15, byte ptr [rsi + rcx + 25], 5
-	pinsrb	xmm15, byte ptr [rsi + rax + 25], 6
-	pinsrb	xmm15, byte ptr [rsi + r11 + 25], 7
-	pinsrb	xmm15, byte ptr [rsi + rdi + 25], 8
-	pinsrb	xmm15, byte ptr [rsi + rbx + 25], 9
-	pinsrb	xmm15, byte ptr [rsi + r8 + 25], 10
-	pinsrb	xmm15, byte ptr [rsi + r14 + 25], 11
-	pinsrb	xmm15, byte ptr [rsi + r15 + 25], 12
-	pinsrb	xmm15, byte ptr [rsi + r10 + 25], 13
-	pinsrb	xmm15, byte ptr [rsi + r12 + 25], 14
-	pinsrb	xmm15, byte ptr [rsi + r13 + 25], 15
-	movdqa	xmm11, xmmword ptr [rip + .LCPI10_6] # xmm11 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm10, xmm11
-	por	xmm10, xmm1
-	movdqa	xmm3, xmm15
-	pmaxub	xmm3, xmm12
-	pcmpeqb	xmm3, xmm15
-	pinsrb	xmm6, byte ptr [rsi + r9 + 26], 3
-	pinsrb	xmm6, byte ptr [rsi + rdx + 26], 4
-	pinsrb	xmm6, byte ptr [rsi + rcx + 26], 5
-	pinsrb	xmm6, byte ptr [rsi + rax + 26], 6
-	pinsrb	xmm6, byte ptr [rsi + r11 + 26], 7
-	pinsrb	xmm6, byte ptr [rsi + rdi + 26], 8
-	pinsrb	xmm6, byte ptr [rsi + rbx + 26], 9
-	pinsrb	xmm6, byte ptr [rsi + r8 + 26], 10
-	pinsrb	xmm6, byte ptr [rsi + r14 + 26], 11
-	pinsrb	xmm6, byte ptr [rsi + r15 + 26], 12
-	pinsrb	xmm6, byte ptr [rsi + r10 + 26], 13
-	pinsrb	xmm6, byte ptr [rsi + r12 + 26], 14
-	pinsrb	xmm6, byte ptr [rsi + r13 + 26], 15
-	pinsrb	xmm7, byte ptr [rsi + r9 + 27], 3
-	pinsrb	xmm7, byte ptr [rsi + rdx + 27], 4
-	pinsrb	xmm7, byte ptr [rsi + rcx + 27], 5
-	pinsrb	xmm7, byte ptr [rsi + rax + 27], 6
-	pinsrb	xmm7, byte ptr [rsi + r11 + 27], 7
-	pinsrb	xmm7, byte ptr [rsi + rdi + 27], 8
-	pinsrb	xmm7, byte ptr [rsi + rbx + 27], 9
-	pinsrb	xmm7, byte ptr [rsi + r8 + 27], 10
-	pinsrb	xmm7, byte ptr [rsi + r14 + 27], 11
-	pinsrb	xmm7, byte ptr [rsi + r15 + 27], 12
-	pinsrb	xmm7, byte ptr [rsi + r10 + 27], 13
-	pinsrb	xmm7, byte ptr [rsi + r12 + 27], 14
-	pinsrb	xmm7, byte ptr [rsi + r13 + 27], 15
-	pand	xmm3, xmmword ptr [rip + .LCPI10_16]
-	psubb	xmm3, xmmword ptr [rsp + 320]   # 16-byte Folded Reload
-	movdqa	xmm2, xmm6
-	pmaxub	xmm2, xmm12
-	pcmpeqb	xmm2, xmm6
-	movdqa	xmm1, xmm7
-	pmaxub	xmm1, xmm12
-	pcmpeqb	xmm1, xmm7
-	pinsrb	xmm9, byte ptr [rsi + r9 + 28], 3
-	pinsrb	xmm9, byte ptr [rsi + rdx + 28], 4
-	pinsrb	xmm9, byte ptr [rsi + rcx + 28], 5
-	pinsrb	xmm9, byte ptr [rsi + rax + 28], 6
-	pinsrb	xmm9, byte ptr [rsi + r11 + 28], 7
-	pinsrb	xmm9, byte ptr [rsi + rdi + 28], 8
-	pinsrb	xmm9, byte ptr [rsi + rbx + 28], 9
-	pinsrb	xmm9, byte ptr [rsi + r8 + 28], 10
-	pinsrb	xmm9, byte ptr [rsi + r14 + 28], 11
-	pinsrb	xmm9, byte ptr [rsi + r15 + 28], 12
-	pinsrb	xmm9, byte ptr [rsi + r10 + 28], 13
-	pinsrb	xmm9, byte ptr [rsi + r12 + 28], 14
-	pinsrb	xmm9, byte ptr [rsi + r13 + 28], 15
-	pinsrb	xmm0, byte ptr [rsi + r9 + 29], 3
-	pinsrb	xmm0, byte ptr [rsi + rdx + 29], 4
-	pinsrb	xmm0, byte ptr [rsi + rcx + 29], 5
-	pinsrb	xmm0, byte ptr [rsi + rax + 29], 6
-	pinsrb	xmm0, byte ptr [rsi + r11 + 29], 7
-	pinsrb	xmm0, byte ptr [rsi + rdi + 29], 8
-	pinsrb	xmm0, byte ptr [rsi + rbx + 29], 9
-	pinsrb	xmm0, byte ptr [rsi + r8 + 29], 10
-	pinsrb	xmm0, byte ptr [rsi + r14 + 29], 11
-	pinsrb	xmm0, byte ptr [rsi + r15 + 29], 12
-	pinsrb	xmm0, byte ptr [rsi + r10 + 29], 13
-	pinsrb	xmm0, byte ptr [rsi + r12 + 29], 14
-	pinsrb	xmm0, byte ptr [rsi + r13 + 29], 15
-	pand	xmm2, xmmword ptr [rip + .LCPI10_17]
-	pand	xmm1, xmmword ptr [rip + .LCPI10_18]
-	por	xmm1, xmm2
-	por	xmm1, xmm3
-	movdqa	xmm2, xmm9
-	pmaxub	xmm2, xmm12
-	pcmpeqb	xmm2, xmm9
-	movdqa	xmm3, xmm0
-	pmaxub	xmm3, xmm12
-	pcmpeqb	xmm3, xmm0
-	pinsrb	xmm4, byte ptr [rsi + r9 + 30], 3
-	pinsrb	xmm5, byte ptr [rsi + r9 + 31], 3
-	pinsrb	xmm4, byte ptr [rsi + rdx + 30], 4
-	pinsrb	xmm5, byte ptr [rsi + rdx + 31], 4
-	pinsrb	xmm4, byte ptr [rsi + rcx + 30], 5
-	pinsrb	xmm5, byte ptr [rsi + rcx + 31], 5
-	pinsrb	xmm4, byte ptr [rsi + rax + 30], 6
-	pinsrb	xmm5, byte ptr [rsi + rax + 31], 6
-	pinsrb	xmm4, byte ptr [rsi + r11 + 30], 7
-	pinsrb	xmm5, byte ptr [rsi + r11 + 31], 7
-	mov	rax, rdi
-	pinsrb	xmm4, byte ptr [rsi + rdi + 30], 8
-	pinsrb	xmm5, byte ptr [rsi + rdi + 31], 8
-	pinsrb	xmm4, byte ptr [rsi + rbx + 30], 9
-	pinsrb	xmm5, byte ptr [rsi + rbx + 31], 9
-	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
-	mov	rax, r8
-	pinsrb	xmm4, byte ptr [rsi + r8 + 30], 10
-	pinsrb	xmm5, byte ptr [rsi + r8 + 31], 10
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rsi + rax + 30], 11
-	pinsrb	xmm5, byte ptr [rsi + rax + 31], 11
-	pinsrb	xmm4, byte ptr [rsi + r15 + 30], 12
-	pinsrb	xmm5, byte ptr [rsi + r15 + 31], 12
-	pinsrb	xmm4, byte ptr [rsi + r10 + 30], 13
-	pinsrb	xmm5, byte ptr [rsi + r10 + 31], 13
-	pinsrb	xmm4, byte ptr [rsi + r12 + 30], 14
-	pinsrb	xmm5, byte ptr [rsi + r12 + 31], 14
-	pinsrb	xmm4, byte ptr [rsi + r13 + 30], 15
-	pand	xmm2, xmmword ptr [rip + .LCPI10_19]
-	pand	xmm3, xmmword ptr [rip + .LCPI10_20]
-	por	xmm3, xmm2
-	movdqa	xmm0, xmm4
-	pmaxub	xmm0, xmm12
-	pcmpeqb	xmm0, xmm4
-	pinsrb	xmm5, byte ptr [rsi + r13 + 31], 15
-	pand	xmm0, xmmword ptr [rip + .LCPI10_21]
-	por	xmm0, xmm3
-	por	xmm0, xmm1
-	movdqa	xmm1, xmm5
-	pmaxub	xmm1, xmm12
-	pcmpeqb	xmm1, xmm5
-	pand	xmm1, xmm11
-	por	xmm1, xmm0
-	movdqa	xmm0, xmm10
-	punpcklbw	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
-	movdqa	xmm4, xmmword ptr [rsp + 160]   # 16-byte Reload
-	movdqa	xmm2, xmm4
-	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
-	movdqa	xmm3, xmm2
-	punpcklwd	xmm3, xmm0              # xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]
-	punpckhwd	xmm2, xmm0              # xmm2 = xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
-	punpckhbw	xmm10, xmm1             # xmm10 = xmm10[8],xmm1[8],xmm10[9],xmm1[9],xmm10[10],xmm1[10],xmm10[11],xmm1[11],xmm10[12],xmm1[12],xmm10[13],xmm1[13],xmm10[14],xmm1[14],xmm10[15],xmm1[15]
-	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
-	movdqa	xmm0, xmm4
-	punpcklwd	xmm0, xmm10             # xmm0 = xmm0[0],xmm10[0],xmm0[1],xmm10[1],xmm0[2],xmm10[2],xmm0[3],xmm10[3]
-	punpckhwd	xmm4, xmm10             # xmm4 = xmm4[4],xmm10[4],xmm4[5],xmm10[5],xmm4[6],xmm10[6],xmm4[7],xmm10[7]
-	mov	rcx, qword ptr [rsp + 336]      # 8-byte Reload
-	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
-	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm2
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm3
-	add	rcx, 16
-	mov	rdx, rcx
-	cmp	rcx, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	jne	.LBB10_195
-# %bb.196:
-	mov	r15, qword ptr [rsp + 464]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 416]      # 8-byte Folded Reload
-	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
-	mov	rsi, qword ptr [rsp + 392]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	jne	.LBB10_67
-	jmp	.LBB10_132
-.LBB10_197:
-	mov	rax, r15
-	and	rax, -8
-	mov	r11, rax
-	shl	r11, 6
-	add	r11, rsi
-	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
-	lea	rax, [r14 + 4*rax]
-	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
-	movd	xmm0, dword ptr [rsp + 392]     # 4-byte Folded Reload
-                                        # xmm0 = mem[0],zero,zero,zero
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	movdqa	xmmword ptr [rsp + 464], xmm0   # 16-byte Spill
-	xor	r10d, r10d
-	.p2align	4, 0x90
-.LBB10_198:                             # =>This Inner Loop Header: Depth=1
-	mov	r9, r10
-	shl	r9, 6
-	mov	r8, r9
-	mov	rdi, r9
-	mov	rbx, r9
-	mov	r15, r9
-	mov	r12, r9
-	mov	r13, r9
-	movzx	ecx, word ptr [rsi + r9]
-	movd	xmm11, ecx
-	movzx	ecx, word ptr [rsi + r9 + 2]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 16], xmm0    # 16-byte Spill
-	movzx	ecx, word ptr [rsi + r9 + 4]
-	movd	xmm9, ecx
-	movzx	ecx, word ptr [rsi + r9 + 6]
-	movd	xmm10, ecx
-	movzx	ecx, word ptr [rsi + r9 + 8]
-	movd	xmm12, ecx
-	movzx	ecx, word ptr [rsi + r9 + 10]
-	movd	xmm13, ecx
-	movzx	ecx, word ptr [rsi + r9 + 12]
-	movd	xmm14, ecx
-	movzx	ecx, word ptr [rsi + r9 + 14]
-	movd	xmm8, ecx
-	movzx	ecx, word ptr [rsi + r9 + 16]
-	movd	xmm1, ecx
-	movzx	ecx, word ptr [rsi + r9 + 18]
-	movd	xmm2, ecx
-	movzx	ecx, word ptr [rsi + r9 + 20]
-	movd	xmm3, ecx
-	movzx	ecx, word ptr [rsi + r9 + 22]
-	movd	xmm4, ecx
-	movzx	ecx, word ptr [rsi + r9 + 24]
-	movd	xmm5, ecx
-	movzx	ecx, word ptr [rsi + r9 + 26]
-	movd	xmm6, ecx
-	movzx	eax, word ptr [rsi + r9 + 28]
-	movzx	edx, word ptr [rsi + r9 + 30]
-	mov	rcx, r9
-	or	rcx, 64
-	or	r8, 128
-	or	rdi, 192
-	or	rbx, 256
-	or	r15, 320
-	or	r12, 384
-	or	r13, 448
-	pinsrw	xmm11, word ptr [rsi + rcx], 1
-	pinsrw	xmm11, word ptr [rsi + r8], 2
-	pinsrw	xmm11, word ptr [rsi + rdi], 3
-	pinsrw	xmm11, word ptr [rsi + rbx], 4
-	pinsrw	xmm11, word ptr [rsi + r15], 5
-	pinsrw	xmm11, word ptr [rsi + r12], 6
-	pinsrw	xmm11, word ptr [rsi + r13], 7
-	movd	xmm15, eax
-	movdqa	xmm0, xmmword ptr [rsp + 464]   # 16-byte Reload
-	movdqa	xmm7, xmm0
-	pcmpgtw	xmm7, xmm11
-	movdqa	xmmword ptr [rsp + 352], xmm7   # 16-byte Spill
-	movdqa	xmm7, xmmword ptr [rsp + 16]    # 16-byte Reload
-	pinsrw	xmm7, word ptr [rsi + rcx + 2], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 2], 2
-	pinsrw	xmm7, word ptr [rsi + rdi + 2], 3
-	pinsrw	xmm7, word ptr [rsi + rbx + 2], 4
-	pinsrw	xmm7, word ptr [rsi + r15 + 2], 5
-	pinsrw	xmm7, word ptr [rsi + r12 + 2], 6
-	pinsrw	xmm7, word ptr [rsi + r13 + 2], 7
-	movdqa	xmm11, xmm0
-	pinsrw	xmm9, word ptr [rsi + rcx + 4], 1
-	pinsrw	xmm9, word ptr [rsi + r8 + 4], 2
-	pinsrw	xmm9, word ptr [rsi + rdi + 4], 3
-	pinsrw	xmm9, word ptr [rsi + rbx + 4], 4
-	pinsrw	xmm9, word ptr [rsi + r15 + 4], 5
-	pinsrw	xmm9, word ptr [rsi + r12 + 4], 6
-	pcmpgtw	xmm11, xmm7
-	pinsrw	xmm9, word ptr [rsi + r13 + 4], 7
-	movdqa	xmm7, xmm0
-	pcmpgtw	xmm7, xmm9
-	movdqa	xmmword ptr [rsp + 80], xmm7    # 16-byte Spill
-	pinsrw	xmm10, word ptr [rsi + rcx + 6], 1
-	pinsrw	xmm10, word ptr [rsi + r8 + 6], 2
-	pinsrw	xmm10, word ptr [rsi + rdi + 6], 3
-	pinsrw	xmm10, word ptr [rsi + rbx + 6], 4
-	pinsrw	xmm10, word ptr [rsi + r15 + 6], 5
-	pinsrw	xmm10, word ptr [rsi + r12 + 6], 6
-	pinsrw	xmm10, word ptr [rsi + r13 + 6], 7
-	movdqa	xmm7, xmm0
-	pinsrw	xmm12, word ptr [rsi + rcx + 8], 1
-	pinsrw	xmm12, word ptr [rsi + r8 + 8], 2
-	pinsrw	xmm12, word ptr [rsi + rdi + 8], 3
-	pinsrw	xmm12, word ptr [rsi + rbx + 8], 4
-	pinsrw	xmm12, word ptr [rsi + r15 + 8], 5
-	pinsrw	xmm12, word ptr [rsi + r12 + 8], 6
-	pinsrw	xmm12, word ptr [rsi + r13 + 8], 7
-	pcmpgtw	xmm7, xmm10
-	movdqa	xmmword ptr [rsp + 112], xmm7   # 16-byte Spill
-	movdqa	xmm7, xmm0
-	pcmpgtw	xmm7, xmm12
-	movdqa	xmmword ptr [rsp + 32], xmm7    # 16-byte Spill
-	pinsrw	xmm13, word ptr [rsi + rcx + 10], 1
-	pinsrw	xmm13, word ptr [rsi + r8 + 10], 2
-	pinsrw	xmm13, word ptr [rsi + rdi + 10], 3
-	pinsrw	xmm13, word ptr [rsi + rbx + 10], 4
-	pinsrw	xmm13, word ptr [rsi + r15 + 10], 5
-	pinsrw	xmm13, word ptr [rsi + r12 + 10], 6
-	pinsrw	xmm13, word ptr [rsi + r13 + 10], 7
-	movdqa	xmm7, xmm0
-	pinsrw	xmm14, word ptr [rsi + rcx + 12], 1
-	pinsrw	xmm14, word ptr [rsi + r8 + 12], 2
-	pinsrw	xmm14, word ptr [rsi + rdi + 12], 3
-	pinsrw	xmm14, word ptr [rsi + rbx + 12], 4
-	pinsrw	xmm14, word ptr [rsi + r15 + 12], 5
-	pinsrw	xmm14, word ptr [rsi + r12 + 12], 6
-	pcmpgtw	xmm7, xmm13
-	movdqa	xmmword ptr [rsp + 128], xmm7   # 16-byte Spill
-	pinsrw	xmm14, word ptr [rsi + r13 + 12], 7
-	movdqa	xmm7, xmm0
-	pcmpgtw	xmm7, xmm14
-	movdqa	xmm14, xmm7
-	pinsrw	xmm8, word ptr [rsi + rcx + 14], 1
-	pinsrw	xmm8, word ptr [rsi + r8 + 14], 2
-	pinsrw	xmm8, word ptr [rsi + rdi + 14], 3
-	pinsrw	xmm8, word ptr [rsi + rbx + 14], 4
-	pinsrw	xmm8, word ptr [rsi + r15 + 14], 5
-	pinsrw	xmm8, word ptr [rsi + r12 + 14], 6
-	pinsrw	xmm8, word ptr [rsi + r13 + 14], 7
-	movdqa	xmm7, xmm0
-	pinsrw	xmm1, word ptr [rsi + rcx + 16], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 16], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 16], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 16], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 16], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 16], 6
-	pinsrw	xmm1, word ptr [rsi + r13 + 16], 7
-	pcmpgtw	xmm7, xmm8
-	movdqa	xmmword ptr [rsp + 96], xmm7    # 16-byte Spill
-	movdqa	xmm7, xmm0
-	pcmpgtw	xmm7, xmm1
-	movdqa	xmmword ptr [rsp + 432], xmm7   # 16-byte Spill
-	pinsrw	xmm2, word ptr [rsi + rcx + 18], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 18], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 18], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 18], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 18], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 18], 6
-	pinsrw	xmm2, word ptr [rsi + r13 + 18], 7
-	movdqa	xmm1, xmm0
-	pinsrw	xmm3, word ptr [rsi + rcx + 20], 1
-	pinsrw	xmm3, word ptr [rsi + r8 + 20], 2
-	pinsrw	xmm3, word ptr [rsi + rdi + 20], 3
-	pinsrw	xmm3, word ptr [rsi + rbx + 20], 4
-	pinsrw	xmm3, word ptr [rsi + r15 + 20], 5
-	pinsrw	xmm3, word ptr [rsi + r12 + 20], 6
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	pinsrw	xmm3, word ptr [rsi + r13 + 20], 7
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm3
-	movdqa	xmmword ptr [rsp + 48], xmm1    # 16-byte Spill
-	pinsrw	xmm4, word ptr [rsi + rcx + 22], 1
-	pinsrw	xmm4, word ptr [rsi + r8 + 22], 2
-	pinsrw	xmm4, word ptr [rsi + rdi + 22], 3
-	pinsrw	xmm4, word ptr [rsi + rbx + 22], 4
-	pinsrw	xmm4, word ptr [rsi + r15 + 22], 5
-	pinsrw	xmm4, word ptr [rsi + r12 + 22], 6
-	pinsrw	xmm4, word ptr [rsi + r13 + 22], 7
-	movdqa	xmm1, xmm0
-	pinsrw	xmm5, word ptr [rsi + rcx + 24], 1
-	pinsrw	xmm5, word ptr [rsi + r8 + 24], 2
-	pinsrw	xmm5, word ptr [rsi + rdi + 24], 3
-	pinsrw	xmm5, word ptr [rsi + rbx + 24], 4
-	pinsrw	xmm5, word ptr [rsi + r15 + 24], 5
-	pinsrw	xmm5, word ptr [rsi + r12 + 24], 6
-	pinsrw	xmm5, word ptr [rsi + r13 + 24], 7
-	pcmpgtw	xmm1, xmm4
-	movdqa	xmmword ptr [rsp + 192], xmm1   # 16-byte Spill
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm5
-	movdqa	xmmword ptr [rsp + 16], xmm1    # 16-byte Spill
-	pinsrw	xmm6, word ptr [rsi + rcx + 26], 1
-	pinsrw	xmm6, word ptr [rsi + r8 + 26], 2
-	pinsrw	xmm6, word ptr [rsi + rdi + 26], 3
-	pinsrw	xmm6, word ptr [rsi + rbx + 26], 4
-	pinsrw	xmm6, word ptr [rsi + r15 + 26], 5
-	pinsrw	xmm6, word ptr [rsi + r12 + 26], 6
-	pinsrw	xmm6, word ptr [rsi + r13 + 26], 7
-	movdqa	xmm1, xmm0
-	pinsrw	xmm15, word ptr [rsi + rcx + 28], 1
-	pinsrw	xmm15, word ptr [rsi + r8 + 28], 2
-	pinsrw	xmm15, word ptr [rsi + rdi + 28], 3
-	pinsrw	xmm15, word ptr [rsi + rbx + 28], 4
-	pinsrw	xmm15, word ptr [rsi + r15 + 28], 5
-	pinsrw	xmm15, word ptr [rsi + r12 + 28], 6
-	pcmpgtw	xmm1, xmm6
-	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
-	pinsrw	xmm15, word ptr [rsi + r13 + 28], 7
-	movd	xmm1, edx
-	pinsrw	xmm1, word ptr [rsi + rcx + 30], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 30], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 30], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 30], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 30], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 30], 6
-	movdqa	xmm2, xmm0
-	pcmpgtw	xmm2, xmm15
-	movdqa	xmmword ptr [rsp + 240], xmm2   # 16-byte Spill
-	pinsrw	xmm1, word ptr [rsi + r13 + 30], 7
-	movdqa	xmm2, xmm0
-	pcmpgtw	xmm2, xmm1
-	movdqa	xmmword ptr [rsp + 144], xmm2   # 16-byte Spill
-	movzx	eax, word ptr [rsi + r9 + 32]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 32], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 32], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 32], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 32], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 32], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 32], 6
-	pinsrw	xmm1, word ptr [rsi + r13 + 32], 7
-	movzx	eax, word ptr [rsi + r9 + 34]
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 34], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 34], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 34], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 34], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 34], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 34], 6
-	pinsrw	xmm2, word ptr [rsi + r13 + 34], 7
-	movdqa	xmm3, xmm0
-	pcmpgtw	xmm3, xmm1
-	movdqa	xmmword ptr [rsp + 224], xmm3   # 16-byte Spill
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmmword ptr [rsp + 288], xmm1   # 16-byte Spill
-	movzx	eax, word ptr [rsi + r9 + 36]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 36], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 36], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 36], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 36], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 36], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 36], 6
-	movzx	eax, word ptr [rsi + r9 + 38]
-	pinsrw	xmm1, word ptr [rsi + r13 + 36], 7
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 38], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 38], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 38], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 38], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 38], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 38], 6
-	movdqa	xmm3, xmm0
-	pcmpgtw	xmm3, xmm1
-	movdqa	xmmword ptr [rsp + 256], xmm3   # 16-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r13 + 38], 7
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmmword ptr [rsp + 272], xmm1   # 16-byte Spill
-	movzx	eax, word ptr [rsi + r9 + 40]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 40], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 40], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 40], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 40], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 40], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 40], 6
-	pinsrw	xmm1, word ptr [rsi + r13 + 40], 7
-	movzx	eax, word ptr [rsi + r9 + 42]
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 42], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 42], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 42], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 42], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 42], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 42], 6
-	pinsrw	xmm2, word ptr [rsi + r13 + 42], 7
-	movdqa	xmm3, xmm0
-	pcmpgtw	xmm3, xmm1
-	movdqa	xmmword ptr [rsp + 304], xmm3   # 16-byte Spill
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmmword ptr [rsp + 336], xmm1   # 16-byte Spill
-	movzx	eax, word ptr [rsi + r9 + 44]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 44], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 44], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 44], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 44], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 44], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 44], 6
-	movzx	eax, word ptr [rsi + r9 + 46]
-	pinsrw	xmm1, word ptr [rsi + r13 + 44], 7
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 46], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 46], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 46], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 46], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 46], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 46], 6
-	movdqa	xmm3, xmm0
-	pcmpgtw	xmm3, xmm1
-	movdqa	xmmword ptr [rsp + 320], xmm3   # 16-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r13 + 46], 7
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmmword ptr [rsp + 160], xmm1   # 16-byte Spill
-	movzx	eax, word ptr [rsi + r9 + 48]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 48], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 48], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 48], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 48], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 48], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 48], 6
-	pinsrw	xmm1, word ptr [rsi + r13 + 48], 7
-	movzx	eax, word ptr [rsi + r9 + 50]
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 50], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 50], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 50], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 50], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 50], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 50], 6
-	pinsrw	xmm2, word ptr [rsi + r13 + 50], 7
-	movdqa	xmm13, xmm0
-	pcmpgtw	xmm13, xmm1
-	movdqa	xmm1, xmm0
-	pcmpgtw	xmm1, xmm2
-	movdqa	xmmword ptr [rsp + 368], xmm1   # 16-byte Spill
-	movzx	eax, word ptr [rsi + r9 + 52]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 52], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 52], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 52], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 52], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 52], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 52], 6
-	movzx	eax, word ptr [rsi + r9 + 54]
-	pinsrw	xmm1, word ptr [rsi + r13 + 52], 7
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 54], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 54], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 54], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 54], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 54], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 54], 6
-	movdqa	xmm3, xmm0
-	pcmpgtw	xmm3, xmm1
-	movdqa	xmmword ptr [rsp + 416], xmm3   # 16-byte Spill
-	pinsrw	xmm2, word ptr [rsi + r13 + 54], 7
-	movdqa	xmm15, xmm0
-	pcmpgtw	xmm15, xmm2
-	movzx	eax, word ptr [rsi + r9 + 56]
-	movd	xmm1, eax
-	pinsrw	xmm1, word ptr [rsi + rcx + 56], 1
-	pinsrw	xmm1, word ptr [rsi + r8 + 56], 2
-	pinsrw	xmm1, word ptr [rsi + rdi + 56], 3
-	pinsrw	xmm1, word ptr [rsi + rbx + 56], 4
-	pinsrw	xmm1, word ptr [rsi + r15 + 56], 5
-	pinsrw	xmm1, word ptr [rsi + r12 + 56], 6
-	pinsrw	xmm1, word ptr [rsi + r13 + 56], 7
-	movzx	eax, word ptr [rsi + r9 + 58]
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 58], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 58], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 58], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 58], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 58], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 58], 6
-	pinsrw	xmm2, word ptr [rsi + r13 + 58], 7
-	movdqa	xmm9, xmm0
-	pcmpgtw	xmm9, xmm1
-	movdqa	xmm12, xmm0
-	pcmpgtw	xmm12, xmm2
-	movzx	eax, word ptr [rsi + r9 + 60]
-	movd	xmm2, eax
-	pinsrw	xmm2, word ptr [rsi + rcx + 60], 1
-	pinsrw	xmm2, word ptr [rsi + r8 + 60], 2
-	pinsrw	xmm2, word ptr [rsi + rdi + 60], 3
-	pinsrw	xmm2, word ptr [rsi + rbx + 60], 4
-	pinsrw	xmm2, word ptr [rsi + r15 + 60], 5
-	pinsrw	xmm2, word ptr [rsi + r12 + 60], 6
-	movzx	eax, word ptr [rsi + r9 + 62]
-	pinsrw	xmm2, word ptr [rsi + r13 + 60], 7
-	movd	xmm7, eax
-	pinsrw	xmm7, word ptr [rsi + rcx + 62], 1
-	pinsrw	xmm7, word ptr [rsi + r8 + 62], 2
-	pinsrw	xmm7, word ptr [rsi + rdi + 62], 3
-	pinsrw	xmm7, word ptr [rsi + rbx + 62], 4
-	pinsrw	xmm7, word ptr [rsi + r15 + 62], 5
-	pinsrw	xmm7, word ptr [rsi + r12 + 62], 6
-	movdqa	xmm5, xmm0
-	pcmpgtw	xmm5, xmm2
-	pinsrw	xmm7, word ptr [rsi + r13 + 62], 7
-	movdqa	xmm6, xmm0
-	pcmpgtw	xmm6, xmm7
-	packsswb	xmm11, xmm11
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_8] # xmm1 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm7, xmm1
-	movdqa	xmm3, xmm1
-	movdqa	xmm0, xmm11
-	pxor	xmm4, xmm4
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm2, xmmword ptr [rsp + 80]    # 16-byte Reload
-	packsswb	xmm2, xmm2
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_9] # xmm1 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm4, xmm0
-	pcmpeqd	xmm2, xmm2
-	movdqa	xmm0, xmmword ptr [rsp + 352]   # 16-byte Reload
-	pxor	xmm0, xmm2
-	pcmpeqd	xmm8, xmm8
-	packsswb	xmm0, xmm0
-	psubb	xmm7, xmm0
-	movdqa	xmm2, xmmword ptr [rsp + 112]   # 16-byte Reload
-	packsswb	xmm2, xmm2
-	movdqa	xmm11, xmmword ptr [rip + .LCPI10_10] # xmm11 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm11, xmm4, xmm0
-	por	xmm11, xmm1
-	movdqa	xmm2, xmmword ptr [rsp + 32]    # 16-byte Reload
-	packsswb	xmm2, xmm2
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_11] # xmm1 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm4, xmm0
-	por	xmm11, xmm7
-	movdqa	xmm2, xmmword ptr [rsp + 128]   # 16-byte Reload
-	packsswb	xmm2, xmm2
-	movdqa	xmm10, xmmword ptr [rip + .LCPI10_12] # xmm10 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm7, xmm10
-	movdqa	xmm0, xmm2
-	pblendvb	xmm7, xmm4, xmm0
-	por	xmm7, xmm1
-	packsswb	xmm14, xmm14
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_13] # xmm1 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm14
-	pblendvb	xmm1, xmm4, xmm0
-	por	xmm1, xmm7
-	movdqa	xmm2, xmmword ptr [rsp + 96]    # 16-byte Reload
-	packsswb	xmm2, xmm2
-	movdqa	xmm14, xmmword ptr [rip + .LCPI10_14] # xmm14 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm14, xmm4, xmm0
-	por	xmm1, xmm11
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm11, xmm3
-	movdqa	xmm7, xmm3
-	pblendvb	xmm7, xmm4, xmm0
-	por	xmm14, xmm1
-	movdqa	xmm0, xmmword ptr [rsp + 432]   # 16-byte Reload
-	pxor	xmm0, xmm8
-	packsswb	xmm0, xmm0
-	psubb	xmm7, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 48]    # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm3, xmmword ptr [rip + .LCPI10_9] # xmm3 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm1, xmm3
-	pblendvb	xmm1, xmm4, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 192]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm8, xmmword ptr [rip + .LCPI10_10] # xmm8 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm2, xmm8
-	pblendvb	xmm2, xmm4, xmm0
-	por	xmm2, xmm1
-	por	xmm2, xmm7
-	movdqa	xmm0, xmmword ptr [rsp + 16]    # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_11] # xmm1 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	pblendvb	xmm1, xmm4, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 208]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	pblendvb	xmm10, xmm4, xmm0
-	por	xmm10, xmm1
-	movdqa	xmm0, xmmword ptr [rsp + 240]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_13] # xmm1 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	pblendvb	xmm1, xmm4, xmm0
-	por	xmm1, xmm10
-	por	xmm1, xmm2
-	movdqa	xmm0, xmmword ptr [rsp + 144]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm10, xmmword ptr [rip + .LCPI10_14] # xmm10 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	pblendvb	xmm10, xmm4, xmm0
-	por	xmm10, xmm1
-	movdqa	xmm0, xmmword ptr [rsp + 288]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm11
-	pblendvb	xmm1, xmm4, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 256]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm2, xmm3
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 224]   # 16-byte Reload
-	pxor	xmm0, xmmword ptr [rip + .LCPI10_22]
-	pcmpeqd	xmm3, xmm3
-	packsswb	xmm0, xmm0
-	psubb	xmm1, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 272]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm7, xmm8
-	pblendvb	xmm7, xmm4, xmm0
-	por	xmm7, xmm2
-	movdqa	xmm0, xmmword ptr [rsp + 304]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm11, xmmword ptr [rsp + 336]  # 16-byte Reload
-	packsswb	xmm11, xmm11
-	por	xmm7, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_11] # xmm1 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	pblendvb	xmm1, xmm4, xmm0
-	movdqa	xmm2, xmmword ptr [rip + .LCPI10_12] # xmm2 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm11
-	pblendvb	xmm2, xmm4, xmm0
-	movdqa	xmm0, xmmword ptr [rsp + 320]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	por	xmm2, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_13] # xmm1 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	pblendvb	xmm1, xmm4, xmm0
-	por	xmm1, xmm2
-	movdqa	xmm0, xmmword ptr [rsp + 160]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	movdqa	xmm11, xmmword ptr [rsp + 368]  # 16-byte Reload
-	packsswb	xmm11, xmm11
-	por	xmm1, xmm7
-	movdqa	xmm7, xmmword ptr [rip + .LCPI10_14] # xmm7 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	pblendvb	xmm7, xmm4, xmm0
-	movdqa	xmm2, xmmword ptr [rip + .LCPI10_8] # xmm2 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm11
-	pblendvb	xmm2, xmm4, xmm0
-	por	xmm7, xmm1
-	pxor	xmm13, xmm3
-	packsswb	xmm13, xmm13
-	movdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
-	packsswb	xmm0, xmm0
-	packsswb	xmm15, xmm15
-	psubb	xmm2, xmm13
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_9] # xmm1 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	pblendvb	xmm1, xmm4, xmm0
-	movdqa	xmm0, xmm15
-	pblendvb	xmm8, xmm4, xmm0
-	por	xmm8, xmm1
-	packsswb	xmm9, xmm9
-	packsswb	xmm12, xmm12
-	por	xmm8, xmm2
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_11] # xmm1 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm9
-	pblendvb	xmm1, xmm4, xmm0
-	movdqa	xmm2, xmmword ptr [rip + .LCPI10_12] # xmm2 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm12
-	pblendvb	xmm2, xmm4, xmm0
-	packsswb	xmm5, xmm5
-	por	xmm2, xmm1
-	movdqa	xmm1, xmmword ptr [rip + .LCPI10_13] # xmm1 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm5
-	pblendvb	xmm1, xmm4, xmm0
-	por	xmm1, xmm2
-	packsswb	xmm6, xmm6
-	por	xmm1, xmm8
-	movdqa	xmm2, xmmword ptr [rip + .LCPI10_14] # xmm2 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm6
-	pblendvb	xmm2, xmm4, xmm0
-	por	xmm2, xmm1
-	movdqa	xmm0, xmm14
-	punpcklqdq	xmm0, xmm10             # xmm0 = xmm0[0],xmm10[0]
-	movdqa	xmm1, xmm7
-	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI10_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm1, xmm3
-	pshufb	xmm0, xmm3
-	punpcklwd	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
-	punpcklbw	xmm7, xmm2              # xmm7 = xmm7[0],xmm2[0],xmm7[1],xmm2[1],xmm7[2],xmm2[2],xmm7[3],xmm2[3],xmm7[4],xmm2[4],xmm7[5],xmm2[5],xmm7[6],xmm2[6],xmm7[7],xmm2[7]
-	punpcklbw	xmm14, xmm10            # xmm14 = xmm14[0],xmm10[0],xmm14[1],xmm10[1],xmm14[2],xmm10[2],xmm14[3],xmm10[3],xmm14[4],xmm10[4],xmm14[5],xmm10[5],xmm14[6],xmm10[6],xmm14[7],xmm10[7]
-	punpcklwd	xmm14, xmm7             # xmm14 = xmm14[0],xmm7[0],xmm14[1],xmm7[1],xmm14[2],xmm7[2],xmm14[3],xmm7[3]
-	movdqu	xmmword ptr [r14 + 4*r10], xmm14
-	movdqu	xmmword ptr [r14 + 4*r10 + 16], xmm0
-	add	r10, 8
-	cmp	r10, qword ptr [rsp + 400]      # 8-byte Folded Reload
-	jne	.LBB10_198
-# %bb.199:
-	mov	r15, qword ptr [rsp + 456]      # 8-byte Reload
-	cmp	r15, qword ptr [rsp + 400]      # 8-byte Folded Reload
-	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	jne	.LBB10_101
-	jmp	.LBB10_136
-.LBB10_200:
-	mov	r8, r11
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rsi
-	lea	r15, [r14 + 4*r8]
-	movaps	xmm13, xmm11
-	shufps	xmm13, xmm11, 0                 # xmm13 = xmm13[0,0],xmm11[0,0]
-	add	rsi, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI10_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	.p2align	4, 0x90
-.LBB10_201:                             # =>This Inner Loop Header: Depth=1
-	movss	xmm3, dword ptr [rsi - 508]     # xmm3 = mem[0],zero,zero,zero
-	movss	xmm10, dword ptr [rsi - 504]    # xmm10 = mem[0],zero,zero,zero
-	movss	xmm9, dword ptr [rsi - 500]     # xmm9 = mem[0],zero,zero,zero
-	movss	xmm1, dword ptr [rsi - 496]     # xmm1 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 380], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 252], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 124], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	insertps	xmm10, dword ptr [rsi - 376], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
-	insertps	xmm10, dword ptr [rsi - 248], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
-	insertps	xmm10, dword ptr [rsi - 120], 48 # xmm10 = xmm10[0,1,2],mem[0]
-	insertps	xmm9, dword ptr [rsi - 372], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	insertps	xmm9, dword ptr [rsi - 244], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	insertps	xmm9, dword ptr [rsi - 116], 48 # xmm9 = xmm9[0,1,2],mem[0]
-	insertps	xmm1, dword ptr [rsi - 368], 16 # xmm1 = xmm1[0],mem[0],xmm1[2,3]
-	insertps	xmm1, dword ptr [rsi - 240], 32 # xmm1 = xmm1[0,1],mem[0],xmm1[3]
-	insertps	xmm1, dword ptr [rsi - 112], 48 # xmm1 = xmm1[0,1,2],mem[0]
-	movss	xmm8, dword ptr [rsi - 492]     # xmm8 = mem[0],zero,zero,zero
-	insertps	xmm8, dword ptr [rsi - 364], 16 # xmm8 = xmm8[0],mem[0],xmm8[2,3]
-	insertps	xmm8, dword ptr [rsi - 236], 32 # xmm8 = xmm8[0,1],mem[0],xmm8[3]
-	movaps	xmm12, xmm13
-	insertps	xmm8, dword ptr [rsi - 108], 48 # xmm8 = xmm8[0,1,2],mem[0]
-	movss	xmm2, dword ptr [rsi - 488]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 360], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 232], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	cmpleps	xmm12, xmm3
-	insertps	xmm2, dword ptr [rsi - 104], 48 # xmm2 = xmm2[0,1,2],mem[0]
-	movss	xmm3, dword ptr [rsi - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	packssdw	xmm12, xmm12
-	insertps	xmm3, dword ptr [rsi - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	movss	xmm4, dword ptr [rsi - 476]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rsi - 348], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rsi - 220], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	packsswb	xmm12, xmm12
-	insertps	xmm4, dword ptr [rsi - 92], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	movaps	xmm7, xmm13
-	movss	xmm5, dword ptr [rsi - 444]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 316], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 188], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	cmpleps	xmm7, xmm4
-	insertps	xmm5, dword ptr [rsi - 60], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	movaps	xmm6, xmm13
-	movss	xmm0, dword ptr [rsi - 412]     # xmm0 = mem[0],zero,zero,zero
-	insertps	xmm0, dword ptr [rsi - 284], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
-	insertps	xmm0, dword ptr [rsi - 156], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
-	cmpleps	xmm6, xmm5
-	insertps	xmm0, dword ptr [rsi - 28], 48  # xmm0 = xmm0[0,1,2],mem[0]
-	movaps	xmm4, xmm13
-	cmpleps	xmm4, xmm0
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm10
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm14, xmm0
-	pand	xmm14, xmm15
-	psubb	xmm14, xmm0
-	movss	xmm10, dword ptr [rsi - 480]    # xmm10 = mem[0],zero,zero,zero
-	insertps	xmm10, dword ptr [rsi - 352], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
-	pand	xmm12, xmm15
-	insertps	xmm10, dword ptr [rsi - 224], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
-	por	xmm14, xmm12
-	movaps	xmm5, xmm13
-	cmpleps	xmm5, xmm9
-	insertps	xmm10, dword ptr [rsi - 96], 48 # xmm10 = xmm10[0,1,2],mem[0]
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_1] # xmm0 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	pand	xmm5, xmm0
-	por	xmm5, xmm14
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm1
-	movaps	xmm1, xmm13
-	cmpleps	xmm1, xmm8
-	movss	xmm9, dword ptr [rsi - 472]     # xmm9 = mem[0],zero,zero,zero
-	insertps	xmm9, dword ptr [rsi - 344], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	insertps	xmm9, dword ptr [rsi - 216], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	insertps	xmm9, dword ptr [rsi - 88], 48  # xmm9 = xmm9[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 3
-	movdqa	xmm14, xmmword ptr [rip + .LCPI10_2] # xmm14 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	pand	xmm0, xmm14
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	movdqa	xmm14, xmmword ptr [rip + .LCPI10_3] # xmm14 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	pand	xmm1, xmm14
-	por	xmm1, xmm0
-	movss	xmm12, dword ptr [rsi - 468]    # xmm12 = mem[0],zero,zero,zero
-	insertps	xmm12, dword ptr [rsi - 340], 16 # xmm12 = xmm12[0],mem[0],xmm12[2,3]
-	insertps	xmm12, dword ptr [rsi - 212], 32 # xmm12 = xmm12[0,1],mem[0],xmm12[3]
-	insertps	xmm12, dword ptr [rsi - 84], 48 # xmm12 = xmm12[0,1,2],mem[0]
-	por	xmm1, xmm5
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm2
-	movaps	xmm5, xmm13
-	cmpleps	xmm5, xmm3
-	movss	xmm2, dword ptr [rsi - 464]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 336], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 208], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	packssdw	xmm7, xmm7
-	insertps	xmm2, dword ptr [rsi - 80], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 5
-	movdqa	xmm14, xmmword ptr [rip + .LCPI10_4] # xmm14 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	pand	xmm0, xmm14
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 6
-	movdqa	xmm3, xmmword ptr [rip + .LCPI10_5] # xmm3 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	pand	xmm5, xmm3
-	por	xmm5, xmm0
-	movaps	xmm8, xmm13
-	cmpleps	xmm8, xmm10
-	movss	xmm3, dword ptr [rsi - 460]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 332], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 204], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 76], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm8, xmm8
-	packsswb	xmm8, xmm8
-	psllw	xmm8, 7
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm8, xmm0
-	por	xmm8, xmm5
-	movss	xmm10, dword ptr [rsi - 456]    # xmm10 = mem[0],zero,zero,zero
-	insertps	xmm10, dword ptr [rsi - 328], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
-	insertps	xmm10, dword ptr [rsi - 200], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
-	packsswb	xmm7, xmm7
-	insertps	xmm10, dword ptr [rsi - 72], 48 # xmm10 = xmm10[0,1,2],mem[0]
-	por	xmm8, xmm1
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm9
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm0
-	movss	xmm9, dword ptr [rsi - 452]     # xmm9 = mem[0],zero,zero,zero
-	insertps	xmm9, dword ptr [rsi - 324], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	pand	xmm7, xmm15
-	insertps	xmm9, dword ptr [rsi - 196], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	por	xmm1, xmm7
-	movaps	xmm5, xmm13
-	cmpleps	xmm5, xmm12
-	insertps	xmm9, dword ptr [rsi - 68], 48  # xmm9 = xmm9[0,1,2],mem[0]
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmmword ptr [rip + .LCPI10_1]
-	por	xmm5, xmm1
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm2
-	movaps	xmm1, xmm13
-	cmpleps	xmm1, xmm3
-	movss	xmm3, dword ptr [rsi - 448]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 320], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 192], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 64], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 3
-	movdqa	xmm12, xmmword ptr [rip + .LCPI10_2] # xmm12 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	pand	xmm0, xmm12
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	pand	xmm1, xmmword ptr [rip + .LCPI10_3]
-	por	xmm1, xmm0
-	movss	xmm2, dword ptr [rsi - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rsi - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rsi - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm1, xmm5
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm10
-	movaps	xmm5, xmm13
-	cmpleps	xmm5, xmm9
-	movss	xmm7, dword ptr [rsi - 436]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 308], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 180], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	packssdw	xmm6, xmm6
-	insertps	xmm7, dword ptr [rsi - 52], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 5
-	pand	xmm0, xmm14
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 6
-	pand	xmm5, xmmword ptr [rip + .LCPI10_5]
-	por	xmm5, xmm0
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm3
-	movss	xmm3, dword ptr [rsi - 432]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 304], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 176], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 48], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	psllw	xmm0, 7
-	movdqa	xmm10, xmmword ptr [rip + .LCPI10_6] # xmm10 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm0, xmm10
-	por	xmm0, xmm5
-	movss	xmm5, dword ptr [rsi - 428]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 300], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 172], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 44], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm0, xmm1
-	movss	xmm9, dword ptr [rsi - 424]     # xmm9 = mem[0],zero,zero,zero
-	insertps	xmm9, dword ptr [rsi - 296], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
-	insertps	xmm9, dword ptr [rsi - 168], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
-	packsswb	xmm6, xmm6
-	insertps	xmm9, dword ptr [rsi - 40], 48  # xmm9 = xmm9[0,1,2],mem[0]
-	punpckldq	xmm8, xmm0              # xmm8 = xmm8[0],xmm0[0],xmm8[1],xmm0[1]
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm2
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	movdqa	xmm1, xmm0
-	pand	xmm1, xmm15
-	psubb	xmm1, xmm0
-	movss	xmm2, dword ptr [rsi - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rsi - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	pand	xmm6, xmm15
-	insertps	xmm2, dword ptr [rsi - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	por	xmm1, xmm6
-	movaps	xmm6, xmm13
-	cmpleps	xmm6, xmm7
-	insertps	xmm2, dword ptr [rsi - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 2
-	movdqa	xmm0, xmmword ptr [rip + .LCPI10_1] # xmm0 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	pand	xmm6, xmm0
-	por	xmm6, xmm1
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm3
-	movaps	xmm1, xmm13
-	cmpleps	xmm1, xmm5
-	movss	xmm3, dword ptr [rsi - 416]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 288], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rsi - 160], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rsi - 32], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 3
-	pand	xmm0, xmm12
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	movdqa	xmm12, xmmword ptr [rip + .LCPI10_3] # xmm12 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	pand	xmm1, xmm12
-	por	xmm1, xmm0
-	movss	xmm5, dword ptr [rsi - 408]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 280], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 152], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rsi - 24], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm1, xmm6
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm9
-	movaps	xmm6, xmm13
-	cmpleps	xmm6, xmm2
-	movss	xmm7, dword ptr [rsi - 404]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rsi - 276], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rsi - 148], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	packssdw	xmm4, xmm4
-	insertps	xmm7, dword ptr [rsi - 20], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	pand	xmm0, xmm15
-	psllw	xmm0, 5
-	pand	xmm0, xmm14
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 6
-	movdqa	xmm9, xmmword ptr [rip + .LCPI10_5] # xmm9 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	pand	xmm6, xmm9
-	por	xmm6, xmm0
-	movaps	xmm2, xmm13
-	cmpleps	xmm2, xmm3
-	movss	xmm0, dword ptr [rsi - 400]     # xmm0 = mem[0],zero,zero,zero
-	insertps	xmm0, dword ptr [rsi - 272], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
-	insertps	xmm0, dword ptr [rsi - 144], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
-	insertps	xmm0, dword ptr [rsi - 16], 48  # xmm0 = xmm0[0,1,2],mem[0]
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	psllw	xmm2, 7
-	pand	xmm2, xmm10
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rsi - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rsi - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rsi - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	packsswb	xmm4, xmm4
-	insertps	xmm6, dword ptr [rsi - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	por	xmm2, xmm1
-	movaps	xmm1, xmm13
-	cmpleps	xmm1, xmm5
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	movdqa	xmm5, xmm1
-	pand	xmm5, xmm15
-	psubb	xmm5, xmm1
-	movss	xmm3, dword ptr [rsi - 392]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rsi - 264], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	pand	xmm4, xmm15
-	insertps	xmm3, dword ptr [rsi - 136], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	por	xmm5, xmm4
-	movaps	xmm4, xmm13
-	cmpleps	xmm4, xmm7
-	insertps	xmm3, dword ptr [rsi - 8], 48   # xmm3 = xmm3[0,1,2],mem[0]
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 2
-	pand	xmm4, xmmword ptr [rip + .LCPI10_1]
-	por	xmm4, xmm5
-	movaps	xmm5, xmm13
-	cmpleps	xmm5, xmm0
-	movaps	xmm1, xmm13
-	cmpleps	xmm1, xmm6
-	movss	xmm0, dword ptr [rsi - 388]     # xmm0 = mem[0],zero,zero,zero
-	insertps	xmm0, dword ptr [rsi - 260], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
-	insertps	xmm0, dword ptr [rsi - 132], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
-	insertps	xmm0, dword ptr [rsi - 4], 48   # xmm0 = xmm0[0,1,2],mem[0]
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmmword ptr [rip + .LCPI10_2]
-	packssdw	xmm1, xmm1
-	packsswb	xmm1, xmm1
-	pand	xmm1, xmm15
-	psllw	xmm1, 4
-	pand	xmm1, xmm12
-	por	xmm1, xmm5
-	movss	xmm5, dword ptr [rsi - 384]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rsi - 256], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rsi - 128], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	por	xmm1, xmm4
-	movaps	xmm4, xmm13
-	cmpleps	xmm4, xmm3
-	movaps	xmm3, xmm13
-	cmpleps	xmm3, xmm0
-	insertps	xmm5, dword ptr [rsi], 48       # xmm5 = xmm5[0,1,2],mem[0]
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 5
-	pand	xmm4, xmm14
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm9
-	por	xmm3, xmm4
-	movaps	xmm0, xmm13
-	cmpleps	xmm0, xmm5
-	packssdw	xmm0, xmm0
-	packsswb	xmm0, xmm0
-	psllw	xmm0, 7
-	pand	xmm0, xmm10
-	por	xmm0, xmm3
-	por	xmm0, xmm1
-	punpckldq	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
-	punpcklbw	xmm8, xmm2              # xmm8 = xmm8[0],xmm2[0],xmm8[1],xmm2[1],xmm8[2],xmm2[2],xmm8[3],xmm2[3],xmm8[4],xmm2[4],xmm8[5],xmm2[5],xmm8[6],xmm2[6],xmm8[7],xmm2[7]
-	pshufb	xmm8, xmmword ptr [rip + .LCPI10_7] # xmm8 = xmm8[0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	movdqu	xmmword ptr [r14 + 4*rcx], xmm8
-	add	rcx, 4
-	add	rsi, 512
-	cmp	r8, rcx
-	jne	.LBB10_201
-# %bb.202:
-	cmp	r11, r8
-	jne	.LBB10_124
-	jmp	.LBB10_140
-.Lfunc_end10:
-	.size	comparison_greater_equal_arr_scalar_sse4, .Lfunc_end10-comparison_greater_equal_arr_scalar_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function comparison_greater_equal_scalar_arr_sse4
-.LCPI11_0:
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.byte	1                               # 0x1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_1:
-	.zero	16,252
-.LCPI11_2:
-	.zero	16,248
-.LCPI11_3:
-	.zero	16,240
-.LCPI11_4:
-	.zero	16,224
-.LCPI11_5:
-	.zero	16,192
-.LCPI11_6:
-	.zero	16,128
-.LCPI11_7:
-	.byte	0                               # 0x0
-	.byte	8                               # 0x8
-	.byte	1                               # 0x1
-	.byte	9                               # 0x9
-	.byte	2                               # 0x2
-	.byte	10                              # 0xa
-	.byte	3                               # 0x3
-	.byte	11                              # 0xb
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-.LCPI11_8:
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.byte	2                               # 0x2
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_9:
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.byte	4                               # 0x4
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_10:
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.byte	8                               # 0x8
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_11:
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.byte	16                              # 0x10
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_12:
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.byte	32                              # 0x20
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_13:
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.byte	64                              # 0x40
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_14:
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.byte	128                             # 0x80
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_15:
-	.byte	4                               # 0x4
-	.byte	12                              # 0xc
-	.byte	5                               # 0x5
-	.byte	13                              # 0xd
-	.byte	6                               # 0x6
-	.byte	14                              # 0xe
-	.byte	7                               # 0x7
-	.byte	15                              # 0xf
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-	.zero	1
-.LCPI11_16:
-	.zero	16,2
-.LCPI11_17:
-	.zero	16,4
-.LCPI11_18:
-	.zero	16,8
-.LCPI11_19:
-	.zero	16,16
-.LCPI11_20:
-	.zero	16,32
-.LCPI11_21:
-	.zero	16,64
-.LCPI11_22:
-	.zero	16,255
-	.text
-	.globl	comparison_greater_equal_scalar_arr_sse4
-	.p2align	4, 0x90
-	.type	comparison_greater_equal_scalar_arr_sse4,@function
-comparison_greater_equal_scalar_arr_sse4: # @comparison_greater_equal_scalar_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r13
-	push	r12
-	push	rbx
-	and	rsp, -16
-	sub	rsp, 304
-                                        # kill: def $r9d killed $r9d def $r9
-	mov	r11, r8
-	mov	r15, rcx
-	cmp	edi, 6
-	jg	.LBB11_26
-# %bb.1:
-	cmp	edi, 3
-	jle	.LBB11_2
-# %bb.10:
-	cmp	edi, 4
-	je	.LBB11_99
-# %bb.11:
-	cmp	edi, 5
-	je	.LBB11_114
-# %bb.12:
-	cmp	edi, 6
-	jne	.LBB11_201
-# %bb.13:
-	mov	r14d, dword ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_17
-# %bb.14:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_15:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r15 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r15 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_15
-# %bb.16:
-	add	r15, 1
-.LBB11_17:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_21
-# %bb.18:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_19:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	cmp	r14d, dword ptr [rdx + 124]
-	setae	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 120]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 116]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 112]
-	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 108]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 104]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 100]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 92]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 88]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 84]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 80]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 76]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 72]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 68]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 60]
-	setae	r8b
-	cmp	r14d, dword ptr [rdx + 56]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 52]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 48]
-	setae	r11b
-	cmp	r14d, dword ptr [rdx + 44]
-	setae	r10b
-	cmp	r14d, dword ptr [rdx + 40]
-	setae	r9b
-	cmp	r14d, dword ptr [rdx + 36]
-	setae	dil
-	cmp	r14d, dword ptr [rdx + 28]
-	setae	al
-	cmp	r14d, dword ptr [rdx + 24]
-	setae	bl
-	cmp	r14d, dword ptr [rdx + 20]
-	setae	sil
-	cmp	r14d, dword ptr [rdx + 16]
-	setae	cl
-	cmp	r14d, dword ptr [rdx + 12]
-	setae	r13b
-	cmp	r14d, dword ptr [rdx + 8]
-	setae	r12b
-	cmp	r14d, dword ptr [rdx]
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 4]
-	setae	r15b
-	cmp	r14d, dword ptr [rdx + 32]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 64]
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 96]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	rdx, -128
-	add	r15, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB11_19
-# %bb.20:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-.LBB11_21:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.22:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_137
-# %bb.23:
-	xor	r11d, r11d
-	jmp	.LBB11_24
-.LBB11_26:
-	cmp	edi, 8
-	jle	.LBB11_27
-# %bb.42:
-	cmp	edi, 9
-	je	.LBB11_157
-# %bb.43:
-	cmp	edi, 11
-	je	.LBB11_172
-# %bb.44:
-	cmp	edi, 12
-	jne	.LBB11_201
-# %bb.45:
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
-	sub	r9d, eax
-	je	.LBB11_49
-# %bb.46:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_47:                              # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_47
-# %bb.48:
-	add	r15, 1
-.LBB11_49:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_53
-# %bb.50:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_51:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	ucomisd	xmm0, qword ptr [rdx]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	setae	r9b
-	ucomisd	xmm0, qword ptr [rdx + 16]
-	setae	r11b
-	ucomisd	xmm0, qword ptr [rdx + 24]
-	setae	r13b
-	ucomisd	xmm0, qword ptr [rdx + 32]
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 40]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 48]
-	setae	bl
-	ucomisd	xmm0, qword ptr [rdx + 56]
-	setae	r12b
-	ucomisd	xmm0, qword ptr [rdx + 64]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 72]
-	setae	sil
-	ucomisd	xmm0, qword ptr [rdx + 80]
-	setae	dil
-	ucomisd	xmm0, qword ptr [rdx + 88]
-	setae	r8b
-	ucomisd	xmm0, qword ptr [rdx + 96]
-	setae	r10b
-	ucomisd	xmm0, qword ptr [rdx + 104]
-	setae	r15b
-	ucomisd	xmm0, qword ptr [rdx + 112]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 120]
-	setae	cl
-	ucomisd	xmm0, qword ptr [rdx + 128]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 136]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 144]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 152]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 160]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 168]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 176]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 184]
-	setae	r14b
-	ucomisd	xmm0, qword ptr [rdx + 192]
-	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 200]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 208]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 216]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 224]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 232]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 240]
-	setae	byte ptr [rsp]                  # 1-byte Folded Spill
-	ucomisd	xmm0, qword ptr [rdx + 248]
-	setae	al
-	add	r9b, r9b
-	add	r9b, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	bl, 6
-	shl	r12b, 7
-	or	r12b, bl
-	shl	r11b, 2
-	or	r11b, r9b
-	add	sil, sil
-	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r11b
-	shl	dil, 2
-	or	dil, sil
-	movzx	ebx, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, r13b
-	mov	esi, ebx
-	shl	r8b, 3
-	or	r8b, dil
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	shl	r10b, 4
-	or	r10b, r8b
-	shl	r15b, 5
-	or	r15b, r10b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	cl, 7
-	or	cl, sil
-	or	r12b, bl
-	or	cl, r15b
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	add	bl, bl
-	add	bl, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	bl, 2
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	bl, 3
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	bl, 4
-	or	bl, sil
-	mov	esi, ebx
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 5
-	or	bl, sil
-	mov	byte ptr [r15], r12b
-	movzx	esi, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r14b, 7
-	or	r14b, sil
-	mov	byte ptr [r15 + 1], cl
-	or	r14b, bl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, bl
-	mov	ebx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, bl
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], r14b
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB11_51
-# %bb.52:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-.LBB11_53:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.54:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_195
-# %bb.55:
-	xor	r11d, r11d
-	jmp	.LBB11_197
-.LBB11_2:
-	cmp	edi, 2
-	je	.LBB11_56
-# %bb.3:
-	cmp	edi, 3
-	jne	.LBB11_201
-# %bb.4:
-	mov	r14b, byte ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_8
-# %bb.5:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_6:                               # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_6
-# %bb.7:
-	add	r15, 1
-.LBB11_8:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_9
-# %bb.81:
-	cmp	r10, 16
-	mov	byte ptr [rsp], r14b            # 1-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	jb	.LBB11_82
-# %bb.83:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB11_85
-# %bb.84:
-	lea	rax, [r15 + 4*r10]
-	cmp	rdx, rax
-	jae	.LBB11_85
-.LBB11_82:
-	xor	eax, eax
-	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
-	mov	r13, r15
-.LBB11_88:
-	sub	r10, qword ptr [rsp + 256]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_89:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx + 31]
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 30]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 29]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 28]
-	setge	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 27]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 26]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 25]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 23]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 22]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 21]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 20]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 19]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 18]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 17]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 15]
-	setge	r10b
-	cmp	r14b, byte ptr [rdx + 14]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 13]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 12]
-	setge	r12b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 11]
-	setge	r15b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 10]
-	setge	r14b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 9]
-	setge	r11b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 7]
-	setge	sil
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 6]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 5]
-	setge	r9b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 4]
-	setge	r8b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 3]
-	setge	dil
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 2]
-	setge	cl
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx]
-	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 1]
-	setge	al
-	mov	rbx, r13
-	movzx	r13d, byte ptr [rsp]            # 1-byte Folded Reload
-	cmp	r13b, byte ptr [rdx + 8]
-	mov	r13, rbx
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	bl, byte ptr [rdx + 16]
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	bl, byte ptr [rdx + 24]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	add	al, al
-	add	al, byte ptr [rsp + 208]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	dil, 3
-	or	dil, cl
-	shl	r8b, 4
-	or	r8b, dil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	sil, 7
-	or	sil, al
-	or	sil, r9b
-	mov	byte ptr [r13], sil
-	add	r11b, r11b
-	add	r11b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r11b
-	shl	r15b, 3
-	or	r15b, r14b
-	shl	r12b, 4
-	or	r12b, r15b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r12b
-	movzx	r14d, byte ptr [rsp]            # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r10b, 7
-	or	r10b, cl
-	or	r10b, al
-	mov	byte ptr [r13 + 1], r10b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 2], al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 3], al
-	add	rdx, 32
-	add	r13, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB11_89
-# %bb.90:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	jmp	.LBB11_91
-.LBB11_27:
-	cmp	edi, 7
-	je	.LBB11_139
-# %bb.28:
-	cmp	edi, 8
-	jne	.LBB11_201
-# %bb.29:
-	mov	r14, qword ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_33
-# %bb.30:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_31:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r15 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r15 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_31
-# %bb.32:
-	add	r15, 1
-.LBB11_33:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_37
-# %bb.34:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_35:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	cmp	r14, qword ptr [rdx + 248]
-	setae	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 240]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 232]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 224]
-	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 216]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 208]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 200]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 184]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 176]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 168]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 160]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 152]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 144]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 136]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 120]
-	setae	r8b
-	cmp	r14, qword ptr [rdx + 112]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 104]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 96]
-	setae	r11b
-	cmp	r14, qword ptr [rdx + 88]
-	setae	r10b
-	cmp	r14, qword ptr [rdx + 80]
-	setae	r9b
-	cmp	r14, qword ptr [rdx + 72]
-	setae	dil
-	cmp	r14, qword ptr [rdx + 56]
-	setae	al
-	cmp	r14, qword ptr [rdx + 48]
-	setae	bl
-	cmp	r14, qword ptr [rdx + 40]
-	setae	sil
-	cmp	r14, qword ptr [rdx + 32]
-	setae	cl
-	cmp	r14, qword ptr [rdx + 24]
-	setae	r13b
-	cmp	r14, qword ptr [rdx + 16]
-	setae	r12b
-	cmp	r14, qword ptr [rdx]
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 8]
-	setae	r15b
-	cmp	r14, qword ptr [rdx + 64]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 128]
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 192]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB11_35
-# %bb.36:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-.LBB11_37:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.38:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_155
-# %bb.39:
-	xor	r11d, r11d
-	jmp	.LBB11_40
-.LBB11_56:
-	mov	r14b, byte ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_60
-# %bb.57:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_58:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx]
-	lea	rdx, [rdx + 1]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_58
-# %bb.59:
-	add	r15, 1
-.LBB11_60:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_61
-# %bb.62:
-	cmp	r10, 16
-	mov	byte ptr [rsp], r14b            # 1-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
-	jb	.LBB11_63
-# %bb.64:
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB11_66
-# %bb.65:
-	lea	rax, [r15 + 4*r10]
-	cmp	rdx, rax
-	jae	.LBB11_66
-.LBB11_63:
-	xor	eax, eax
-	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
-	mov	r13, r15
-.LBB11_69:
-	sub	r10, qword ptr [rsp + 192]      # 8-byte Folded Reload
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_70:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx + 31]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 30]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 29]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 28]
-	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 27]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 26]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 25]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 23]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 22]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 21]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 20]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 19]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 18]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 17]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 15]
-	setae	r10b
-	cmp	r14b, byte ptr [rdx + 14]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 13]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14b, byte ptr [rdx + 12]
-	setae	r12b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 11]
-	setae	r15b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 10]
-	setae	r14b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 9]
-	setae	r11b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 7]
-	setae	sil
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 6]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 5]
-	setae	r9b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 4]
-	setae	r8b
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 3]
-	setae	dil
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 2]
-	setae	cl
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx]
-	setae	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	al, byte ptr [rdx + 1]
-	setae	al
-	mov	rbx, r13
-	movzx	r13d, byte ptr [rsp]            # 1-byte Folded Reload
-	cmp	r13b, byte ptr [rdx + 8]
-	mov	r13, rbx
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	bl, byte ptr [rdx + 16]
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
-	cmp	bl, byte ptr [rdx + 24]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	add	al, al
-	add	al, byte ptr [rsp + 208]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, al
-	shl	dil, 3
-	or	dil, cl
-	shl	r8b, 4
-	or	r8b, dil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	sil, 7
-	or	sil, al
-	or	sil, r9b
-	mov	byte ptr [r13], sil
-	add	r11b, r11b
-	add	r11b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r11b
-	shl	r15b, 3
-	or	r15b, r14b
-	shl	r12b, 4
-	or	r12b, r15b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r12b
-	movzx	r14d, byte ptr [rsp]            # 1-byte Folded Reload
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r10b, 7
-	or	r10b, cl
-	or	r10b, al
-	mov	byte ptr [r13 + 1], r10b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 2], al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r13 + 3], al
-	add	rdx, 32
-	add	r13, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB11_70
-# %bb.71:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	jmp	.LBB11_72
-.LBB11_139:
-	mov	r14d, dword ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_143
-# %bb.140:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_141:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_141
-# %bb.142:
-	add	r15, 1
-.LBB11_143:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_147
-# %bb.144:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_145:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	cmp	r14d, dword ptr [rdx + 124]
-	setge	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 120]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 116]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 112]
-	setge	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 108]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 104]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 100]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 92]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 88]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 84]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 80]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 76]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 72]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 68]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 60]
-	setge	r8b
-	cmp	r14d, dword ptr [rdx + 56]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 52]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 48]
-	setge	r11b
-	cmp	r14d, dword ptr [rdx + 44]
-	setge	r10b
-	cmp	r14d, dword ptr [rdx + 40]
-	setge	r9b
-	cmp	r14d, dword ptr [rdx + 36]
-	setge	dil
-	cmp	r14d, dword ptr [rdx + 28]
-	setge	al
-	cmp	r14d, dword ptr [rdx + 24]
-	setge	bl
-	cmp	r14d, dword ptr [rdx + 20]
-	setge	sil
-	cmp	r14d, dword ptr [rdx + 16]
-	setge	cl
-	cmp	r14d, dword ptr [rdx + 12]
-	setge	r13b
-	cmp	r14d, dword ptr [rdx + 8]
-	setge	r12b
-	cmp	r14d, dword ptr [rdx]
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 4]
-	setge	r15b
-	cmp	r14d, dword ptr [rdx + 32]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 64]
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r14d, dword ptr [rdx + 96]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	sub	rdx, -128
-	add	r15, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB11_145
-# %bb.146:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-.LBB11_147:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.148:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_153
-# %bb.149:
-	xor	edi, edi
-	jmp	.LBB11_150
-.LBB11_99:
-	movzx	r14d, word ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_103
-# %bb.100:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_101:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rbx, [rax + 7]
-	test	rax, rax
-	cmovns	rbx, rax
-	sar	rbx, 3
-	movzx	r8d, byte ptr [r15 + rbx]
-	xor	sil, r8b
-	lea	edi, [8*rbx]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, sil
-	xor	dil, r8b
-	mov	byte ptr [r15 + rbx], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_101
-# %bb.102:
-	add	r15, 1
-.LBB11_103:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_107
-# %bb.104:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_105:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	cmp	r14w, word ptr [rdx + 62]
-	setae	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 60]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 58]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 56]
-	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 54]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 52]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 50]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 46]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 44]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 42]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 40]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 38]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 36]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 34]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 30]
-	setae	r8b
-	cmp	r14w, word ptr [rdx + 28]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 26]
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 24]
-	setae	r11b
-	cmp	r14w, word ptr [rdx + 22]
-	setae	r10b
-	cmp	r14w, word ptr [rdx + 20]
-	setae	r9b
-	cmp	r14w, word ptr [rdx + 18]
-	setae	dil
-	cmp	r14w, word ptr [rdx + 14]
-	setae	al
-	cmp	r14w, word ptr [rdx + 12]
-	setae	bl
-	cmp	r14w, word ptr [rdx + 10]
-	setae	sil
-	cmp	r14w, word ptr [rdx + 8]
-	setae	cl
-	cmp	r14w, word ptr [rdx + 6]
-	setae	r13b
-	cmp	r14w, word ptr [rdx + 4]
-	setae	r12b
-	cmp	r14w, word ptr [rdx]
-	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 2]
-	setae	r15b
-	cmp	r14w, word ptr [rdx + 16]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 32]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rdx + 48]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 64
-	add	r15, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB11_105
-# %bb.106:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-.LBB11_107:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.108:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_112
-# %bb.109:
-	xor	r11d, r11d
-	jmp	.LBB11_110
-.LBB11_114:
-	movzx	r14d, word ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_118
-# %bb.115:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_116:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	lea	rdx, [rdx + 2]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	xor	bl, r9b
-	lea	r8d, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r9b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_116
-# %bb.117:
-	add	r15, 1
-.LBB11_118:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_119
-# %bb.120:
-	cmp	r10, 8
-	mov	dword ptr [rsp], r14d           # 4-byte Spill
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r10      # 8-byte Spill
-	jb	.LBB11_121
-# %bb.122:
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB11_124
-# %bb.123:
-	lea	rax, [r15 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB11_124
-.LBB11_121:
-	xor	eax, eax
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	rax, rdx
-	mov	r12, r15
-.LBB11_127:
-	sub	r10, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_128:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rax + 62]
-	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 60]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 58]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 56]
-	setge	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 54]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 52]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 50]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 46]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 44]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 42]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 40]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 38]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 36]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 34]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 30]
-	setge	r10b
-	cmp	r14w, word ptr [rax + 28]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 26]
-	mov	rcx, rax
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	cmp	r14w, word ptr [rax + 24]
-	setge	r13b
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 22]
-	setge	r15b
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 20]
-	setge	r14b
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 18]
-	setge	r11b
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 14]
-	setge	sil
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 12]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 10]
-	setge	r9b
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 8]
-	setge	r8b
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 6]
-	setge	dil
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 4]
-	setge	dl
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx]
-	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
-	mov	eax, dword ptr [rsp]            # 4-byte Reload
-	cmp	ax, word ptr [rcx + 2]
-	setge	al
-	mov	rbx, r12
-	mov	r12d, dword ptr [rsp]           # 4-byte Reload
-	cmp	r12w, word ptr [rcx + 16]
-	mov	r12, rbx
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp]            # 4-byte Reload
-	cmp	bx, word ptr [rcx + 32]
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	mov	ebx, dword ptr [rsp]            # 4-byte Reload
-	cmp	bx, word ptr [rcx + 48]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	add	al, al
-	add	al, byte ptr [rsp + 208]        # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	shl	dil, 3
-	or	dil, dl
-	shl	r8b, 4
-	or	r8b, dil
-	shl	r9b, 5
-	or	r9b, r8b
-	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	sil, 7
-	or	sil, al
-	or	sil, r9b
-	mov	byte ptr [r12], sil
-	add	r11b, r11b
-	add	r11b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r14b, 2
-	or	r14b, r11b
-	shl	r15b, 3
-	or	r15b, r14b
-	shl	r13b, 4
-	or	r13b, r15b
-	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r13b
-	mov	r14d, dword ptr [rsp]           # 4-byte Reload
-	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	r10b, 7
-	or	r10b, dl
-	or	r10b, al
-	mov	rax, rcx
-	mov	byte ptr [r12 + 1], r10b
-	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	cl, 7
-	or	cl, bl
-	or	cl, dl
-	mov	byte ptr [r12 + 2], cl
-	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	cl, cl
-	add	cl, byte ptr [rsp + 160]        # 1-byte Folded Reload
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	cl, 2
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	cl, 3
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	cl, 4
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	cl, 5
-	or	cl, dl
-	mov	edx, ecx
-	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	cl, 7
-	or	cl, bl
-	or	cl, dl
-	mov	byte ptr [r12 + 3], cl
-	add	rax, 64
-	add	r12, 4
-	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
-	jne	.LBB11_128
-# %bb.129:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	jmp	.LBB11_130
-.LBB11_157:
-	mov	r14, qword ptr [rsi]
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	sub	r9d, eax
-	je	.LBB11_161
-# %bb.158:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_159:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	lea	rdx, [rdx + 8]
-	setge	bl
-	neg	bl
-	lea	rsi, [rax + 7]
-	test	rax, rax
-	cmovns	rsi, rax
-	sar	rsi, 3
-	movzx	r8d, byte ptr [r15 + rsi]
-	xor	bl, r8b
-	lea	edi, [8*rsi]
-	mov	ecx, eax
-	sub	ecx, edi
-	mov	edi, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	edi, cl
-	and	dil, bl
-	xor	dil, r8b
-	mov	byte ptr [r15 + rsi], dil
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_159
-# %bb.160:
-	add	r15, 1
-.LBB11_161:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_165
-# %bb.162:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_163:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	cmp	r14, qword ptr [rdx + 248]
-	setge	byte ptr [rsp]                  # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 240]
-	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 232]
-	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 224]
-	setge	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 216]
-	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 208]
-	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 200]
-	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 184]
-	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 176]
-	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 168]
-	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 160]
-	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 152]
-	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 144]
-	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 136]
-	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 120]
-	setge	r8b
-	cmp	r14, qword ptr [rdx + 112]
-	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 104]
-	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 96]
-	setge	r11b
-	cmp	r14, qword ptr [rdx + 88]
-	setge	r10b
-	cmp	r14, qword ptr [rdx + 80]
-	setge	r9b
-	cmp	r14, qword ptr [rdx + 72]
-	setge	dil
-	cmp	r14, qword ptr [rdx + 56]
-	setge	al
-	cmp	r14, qword ptr [rdx + 48]
-	setge	bl
-	cmp	r14, qword ptr [rdx + 40]
-	setge	sil
-	cmp	r14, qword ptr [rdx + 32]
-	setge	cl
-	cmp	r14, qword ptr [rdx + 24]
-	setge	r13b
-	cmp	r14, qword ptr [rdx + 16]
-	setge	r12b
-	cmp	r14, qword ptr [rdx]
-	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 8]
-	setge	r15b
-	cmp	r14, qword ptr [rdx + 64]
-	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 128]
-	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	cmp	r14, qword ptr [rdx + 192]
-	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	add	r15b, r15b
-	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
-	shl	r12b, 2
-	or	r12b, r15b
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	shl	r13b, 3
-	or	r13b, r12b
-	shl	cl, 4
-	or	cl, r13b
-	shl	sil, 5
-	or	sil, cl
-	shl	bl, 6
-	shl	al, 7
-	or	al, bl
-	or	al, sil
-	mov	byte ptr [r15], al
-	add	dil, dil
-	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	r9b, 2
-	or	r9b, dil
-	shl	r10b, 3
-	or	r10b, r9b
-	shl	r11b, 4
-	or	r11b, r10b
-	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
-	shl	al, 5
-	or	al, r11b
-	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	cl, 6
-	shl	r8b, 7
-	or	r8b, cl
-	or	r8b, al
-	mov	byte ptr [r15 + 1], r8b
-	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 2], al
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
-	shl	al, 4
-	or	al, cl
-	mov	ecx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 5
-	or	al, cl
-	mov	ecx, eax
-	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	bl, 6
-	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
-	shl	al, 7
-	or	al, bl
-	or	al, cl
-	mov	byte ptr [r15 + 3], al
-	add	rdx, 256
-	add	r15, 4
-	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
-	jne	.LBB11_163
-# %bb.164:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
-.LBB11_165:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.166:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_170
-# %bb.167:
-	xor	edi, edi
-	jmp	.LBB11_168
-.LBB11_172:
-	lea	r10, [r11 + 31]
-	test	r11, r11
-	cmovns	r10, r11
-	lea	eax, [r9 + 7]
-	test	r9d, r9d
-	cmovns	eax, r9d
-	and	eax, -8
-	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
-	sub	r9d, eax
-	je	.LBB11_176
-# %bb.173:
-	movsxd	rax, r9d
-	.p2align	4, 0x90
-.LBB11_174:                             # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rdx]
-	lea	rdx, [rdx + 4]
-	mov	esi, 0
-	adc	sil, -1
-	lea	rdi, [rax + 7]
-	test	rax, rax
-	cmovns	rdi, rax
-	sar	rdi, 3
-	movzx	r9d, byte ptr [r15 + rdi]
-	xor	sil, r9b
-	lea	r8d, [8*rdi]
-	mov	ecx, eax
-	sub	ecx, r8d
-	mov	ebx, 1
-                                        # kill: def $cl killed $cl killed $ecx
-	shl	ebx, cl
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r15 + rdi], bl
-	add	rax, 1
-	cmp	rax, 8
-	jne	.LBB11_174
-# %bb.175:
-	add	r15, 1
-.LBB11_176:
-	sar	r10, 5
-	cmp	r11, 32
-	jl	.LBB11_177
-# %bb.178:
-	cmp	r10, 4
-	jb	.LBB11_179
-# %bb.180:
-	mov	rax, r10
-	shl	rax, 7
-	add	rax, rdx
-	cmp	r15, rax
-	jae	.LBB11_182
-# %bb.181:
-	lea	rax, [r15 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB11_182
-.LBB11_179:
-	xor	r8d, r8d
-	mov	rbx, rdx
-	mov	r14, r15
-.LBB11_185:
-	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
-	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
-	sub	r10, r8
-	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_186:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp], r14            # 8-byte Spill
-	ucomiss	xmm0, dword ptr [rbx]
-	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	setae	r8b
-	ucomiss	xmm0, dword ptr [rbx + 8]
-	setae	r14b
-	ucomiss	xmm0, dword ptr [rbx + 12]
-	setae	r13b
-	ucomiss	xmm0, dword ptr [rbx + 16]
-	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 20]
-	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 24]
-	setae	al
-	ucomiss	xmm0, dword ptr [rbx + 28]
-	setae	r11b
-	ucomiss	xmm0, dword ptr [rbx + 32]
-	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 36]
-	setae	dl
-	ucomiss	xmm0, dword ptr [rbx + 40]
-	setae	sil
-	ucomiss	xmm0, dword ptr [rbx + 44]
-	setae	r9b
-	ucomiss	xmm0, dword ptr [rbx + 48]
-	setae	r10b
-	ucomiss	xmm0, dword ptr [rbx + 52]
-	setae	r12b
-	ucomiss	xmm0, dword ptr [rbx + 56]
-	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 60]
-	setae	dil
-	ucomiss	xmm0, dword ptr [rbx + 64]
-	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 68]
-	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 72]
-	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 76]
-	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 80]
-	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 84]
-	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 88]
-	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 92]
-	setae	r15b
-	ucomiss	xmm0, dword ptr [rbx + 96]
-	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 100]
-	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 104]
-	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 108]
-	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 112]
-	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 116]
-	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 120]
-	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
-	ucomiss	xmm0, dword ptr [rbx + 124]
-	setae	cl
-	add	r8b, r8b
-	add	r8b, byte ptr [rsp + 128]       # 1-byte Folded Reload
-	shl	al, 6
-	shl	r11b, 7
-	or	r11b, al
-	shl	r14b, 2
-	or	r14b, r8b
-	add	dl, dl
-	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
-	shl	r13b, 3
-	or	r13b, r14b
-	shl	sil, 2
-	or	sil, dl
-	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, r13b
-	mov	r8d, edx
-	mov	r14, qword ptr [rsp]            # 8-byte Reload
-	shl	r9b, 3
-	or	r9b, sil
-	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, r8b
-	shl	r10b, 4
-	or	r10b, r9b
-	shl	r12b, 5
-	or	r12b, r10b
-	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
-	shl	sil, 6
-	shl	dil, 7
-	or	dil, sil
-	or	r11b, dl
-	or	dil, r12b
-	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
-	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
-	shl	dl, 2
-	or	dl, al
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
-	shl	dl, 3
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
-	shl	dl, 4
-	or	dl, sil
-	mov	esi, edx
-	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
-	shl	dl, 5
-	or	dl, sil
-	mov	byte ptr [r14], r11b
-	movzx	esi, byte ptr [rsp + 48]        # 1-byte Folded Reload
-	shl	sil, 6
-	shl	r15b, 7
-	or	r15b, sil
-	mov	byte ptr [r14 + 1], dil
-	or	r15b, dl
-	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
-	add	al, al
-	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
-	shl	al, 2
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
-	shl	al, 3
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
-	shl	al, 4
-	or	al, dl
-	mov	edx, eax
-	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
-	shl	al, 5
-	or	al, dl
-	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
-	shl	dl, 6
-	shl	cl, 7
-	or	cl, dl
-	or	cl, al
-	mov	byte ptr [r14 + 2], r15b
-	mov	byte ptr [r14 + 3], cl
-	add	rbx, 128
-	add	r14, 4
-	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
-	jne	.LBB11_186
-# %bb.187:
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
-	jmp	.LBB11_188
-.LBB11_9:
-	mov	r13, r15
-.LBB11_91:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.92:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_94
-# %bb.93:
-	xor	esi, esi
-	jmp	.LBB11_97
-.LBB11_61:
-	mov	r13, r15
-.LBB11_72:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.73:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_75
-# %bb.74:
-	xor	r9d, r9d
-	jmp	.LBB11_78
-.LBB11_119:
-	mov	r12, r15
-	mov	rax, rdx
-.LBB11_130:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.131:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_135
-# %bb.132:
-	xor	esi, esi
-	jmp	.LBB11_133
-.LBB11_177:
-	mov	r14, r15
-	mov	rbx, rdx
-.LBB11_188:
-	shl	r10, 5
-	cmp	r10, r11
-	jge	.LBB11_201
-# %bb.189:
-	mov	r8, r11
-	sub	r8, r10
-	not	r10
-	add	r10, r11
-	jne	.LBB11_193
-# %bb.190:
-	xor	r11d, r11d
-	jmp	.LBB11_191
-.LBB11_155:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_156:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	r14, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB11_156
-.LBB11_40:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.41:
-	xor	eax, eax
-	cmp	r14, qword ptr [rdx]
-	jmp	.LBB11_199
-.LBB11_153:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB11_154:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	setge	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB11_154
-.LBB11_150:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.151:
-	cmp	r14d, dword ptr [rdx]
-	jmp	.LBB11_152
-.LBB11_94:
-	mov	r10, r8
-	and	r10, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB11_95:                              # =>This Inner Loop Header: Depth=1
-	cmp	r14b, byte ptr [rdx + rsi]
-	setge	al
-	neg	al
-	mov	rdi, rsi
-	shr	rdi, 3
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	movzx	r9d, byte ptr [r13 + rdi]
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	cmp	r14b, byte ptr [rdx + rsi + 1]
-	lea	rsi, [rsi + 2]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r13 + rdi], al
-	cmp	r10, rsi
-	jne	.LBB11_95
-# %bb.96:
-	add	rdx, rsi
-.LBB11_97:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.98:
-	cmp	r14b, byte ptr [rdx]
-	setge	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r13 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	jmp	.LBB11_80
-.LBB11_75:
-	mov	r10, r8
-	and	r10, -2
-	xor	r9d, r9d
-	.p2align	4, 0x90
-.LBB11_76:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r9
-	cmp	r14b, byte ptr [rdx + r9]
-	mov	esi, 0
-	adc	sil, -1
-	mov	rdi, r9
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r13 + rdi]
-	mov	ecx, eax
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	sil, r9b
-	and	bl, sil
-	xor	bl, r9b
-	mov	byte ptr [r13 + rdi], bl
-	cmp	r14b, byte ptr [rdx + rax + 1]
-	lea	r9, [rax + 2]
-	mov	esi, 0
-	adc	sil, -1
-	xor	sil, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, sil
-	xor	al, bl
-	mov	byte ptr [r13 + rdi], al
-	cmp	r10, r9
-	jne	.LBB11_76
-# %bb.77:
-	add	rdx, r9
-.LBB11_78:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.79:
-	xor	eax, eax
-	cmp	r14b, byte ptr [rdx]
-	adc	al, -1
-	mov	rdx, r9
-	shr	rdx, 3
-	mov	dil, byte ptr [r13 + rdx]
-	and	r9b, 7
-	mov	bl, 1
-	mov	ecx, r9d
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-.LBB11_80:
-	xor	bl, dil
-	mov	byte ptr [r13 + rdx], bl
-	jmp	.LBB11_201
-.LBB11_137:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_138:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14d, dword ptr [rdx]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	r14d, dword ptr [rdx + 4]
-	lea	rdx, [rdx + 8]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB11_138
-.LBB11_24:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.25:
-	xor	eax, eax
-	cmp	r14d, dword ptr [rdx]
-	jmp	.LBB11_199
-.LBB11_195:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_196:                             # =>This Inner Loop Header: Depth=1
-	ucomisd	xmm0, qword ptr [rdx]
-	mov	eax, 0
-	adc	al, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	r11, 2
-	ucomisd	xmm0, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, r11
-	jne	.LBB11_196
-.LBB11_197:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.198:
-	xor	eax, eax
-	ucomisd	xmm0, qword ptr [rdx]
-	jmp	.LBB11_199
-.LBB11_112:
-	mov	r9, r8
-	and	r9, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_113:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rdx]
-	mov	edi, 0
-	adc	dil, -1
-	mov	rsi, r11
-	shr	rsi, 3
-	movzx	r10d, byte ptr [r15 + rsi]
-	xor	dil, r10b
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	and	al, dil
-	xor	al, r10b
-	mov	byte ptr [r15 + rsi], al
-	add	r11, 2
-	cmp	r14w, word ptr [rdx + 2]
-	lea	rdx, [rdx + 4]
-	mov	edi, 0
-	adc	dil, -1
-	xor	dil, al
-	or	cl, 1
-	mov	bl, 1
-	shl	bl, cl
-	and	bl, dil
-	xor	bl, al
-	mov	byte ptr [r15 + rsi], bl
-	cmp	r9, r11
-	jne	.LBB11_113
-.LBB11_110:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.111:
-	xor	eax, eax
-	cmp	r14w, word ptr [rdx]
-.LBB11_199:
-	adc	al, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r15 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	jmp	.LBB11_200
-.LBB11_170:
-	mov	r10, r8
-	and	r10, -2
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB11_171:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14, qword ptr [rdx]
-	setge	al
-	neg	al
-	mov	rsi, rdi
-	shr	rsi, 3
-	movzx	r9d, byte ptr [r15 + rsi]
-	mov	ecx, edi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	al, r9b
-	and	bl, al
-	xor	bl, r9b
-	mov	byte ptr [r15 + rsi], bl
-	add	rdi, 2
-	cmp	r14, qword ptr [rdx + 8]
-	lea	rdx, [rdx + 16]
-	setge	r9b
-	neg	r9b
-	xor	r9b, bl
-	or	cl, 1
-	mov	al, 1
-	shl	al, cl
-	and	al, r9b
-	xor	al, bl
-	mov	byte ptr [r15 + rsi], al
-	cmp	r10, rdi
-	jne	.LBB11_171
-.LBB11_168:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.169:
-	cmp	r14, qword ptr [rdx]
-.LBB11_152:
-	setge	al
-	neg	al
-	mov	rdx, rdi
-	shr	rdx, 3
-	mov	sil, byte ptr [r15 + rdx]
-	and	dil, 7
-	mov	bl, 1
-	mov	ecx, edi
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-.LBB11_200:
-	xor	bl, sil
-	mov	byte ptr [r15 + rdx], bl
-.LBB11_201:
-	lea	rsp, [rbp - 40]
-	pop	rbx
-	pop	r12
-	pop	r13
-	pop	r14
-	pop	r15
-	pop	rbp
-	ret
-.LBB11_135:
-	mov	r9, r8
-	and	r9, -2
-	xor	esi, esi
-	.p2align	4, 0x90
-.LBB11_136:                             # =>This Inner Loop Header: Depth=1
-	cmp	r14w, word ptr [rax]
-	setge	dl
-	neg	dl
-	mov	rdi, rsi
-	shr	rdi, 3
-	movzx	r10d, byte ptr [r12 + rdi]
-	mov	ecx, esi
-	and	cl, 6
-	mov	bl, 1
-	shl	bl, cl
-	xor	dl, r10b
-	and	bl, dl
-	xor	bl, r10b
-	mov	byte ptr [r12 + rdi], bl
-	add	rsi, 2
-	cmp	r14w, word ptr [rax + 2]
-	lea	rax, [rax + 4]
-	setge	r10b
-	neg	r10b
-	xor	r10b, bl
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, r10b
-	xor	dl, bl
-	mov	byte ptr [r12 + rdi], dl
-	cmp	r9, rsi
-	jne	.LBB11_136
-.LBB11_133:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.134:
-	cmp	r14w, word ptr [rax]
-	setge	al
-	neg	al
-	mov	rdx, rsi
-	shr	rdx, 3
-	mov	dil, byte ptr [r12 + rdx]
-	and	sil, 7
-	mov	bl, 1
-	mov	ecx, esi
-	shl	bl, cl
-	xor	al, dil
-	and	bl, al
-	xor	bl, dil
-	mov	byte ptr [r12 + rdx], bl
-	jmp	.LBB11_201
-.LBB11_193:
-	mov	r10, r8
-	and	r10, -2
-	xor	r11d, r11d
-	.p2align	4, 0x90
-.LBB11_194:                             # =>This Inner Loop Header: Depth=1
-	ucomiss	xmm0, dword ptr [rbx]
-	mov	edx, 0
-	adc	dl, -1
-	mov	rdi, r11
-	shr	rdi, 3
-	movzx	r9d, byte ptr [r14 + rdi]
-	mov	ecx, r11d
-	and	cl, 6
-	mov	al, 1
-	shl	al, cl
-	xor	dl, r9b
-	and	al, dl
-	xor	al, r9b
-	mov	byte ptr [r14 + rdi], al
-	add	r11, 2
-	ucomiss	xmm0, dword ptr [rbx + 4]
-	lea	rbx, [rbx + 8]
-	mov	esi, 0
-	adc	sil, -1
-	xor	sil, al
-	or	cl, 1
-	mov	dl, 1
-	shl	dl, cl
-	and	dl, sil
-	xor	dl, al
-	mov	byte ptr [r14 + rdi], dl
-	cmp	r10, r11
-	jne	.LBB11_194
-.LBB11_191:
-	test	r8b, 1
-	je	.LBB11_201
-# %bb.192:
-	xor	eax, eax
-	ucomiss	xmm0, dword ptr [rbx]
-	adc	al, -1
-	mov	rdx, r11
-	shr	rdx, 3
-	mov	sil, byte ptr [r14 + rdx]
-	and	r11b, 7
-	mov	bl, 1
-	mov	ecx, r11d
-	shl	bl, cl
-	xor	al, sil
-	and	bl, al
-	xor	bl, sil
-	mov	byte ptr [r14 + rdx], bl
-	jmp	.LBB11_201
-.LBB11_85:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 280], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 256], r10      # 8-byte Spill
-	lea	rax, [r15 + 4*r10]
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	movzx	eax, r14b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 144], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	.p2align	4, 0x90
-.LBB11_86:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
-	shl	rax, 5
-	mov	rdi, rax
-	mov	rsi, rax
-	mov	r9, rax
-	mov	r10, rax
-	mov	r12, rax
-	mov	r14, rax
-	mov	r15, rax
-	mov	r13, rax
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	mov	r11, rax
-	mov	r8, rax
-	movzx	ecx, byte ptr [rdx + rax]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [rdx + rax + 1]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rdx + rax + 2]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rdx + rax + 3]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rdx + rax + 4]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rdx + rax + 5]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rdx + rax + 6]
-	movd	xmm8, ecx
-	movzx	ecx, byte ptr [rdx + rax + 7]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rdx + rax + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rax + 9]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rdx + rax + 10]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rdx + rax + 11]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rdx + rax + 12]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rax + 13]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rdx + rax + 14]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rdx + rax + 15]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
-	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
-	mov	rbx, rax
-	or	rbx, 32
-	mov	qword ptr [rsp + 8], rbx        # 8-byte Spill
-	or	rdi, 64
-	mov	qword ptr [rsp + 32], rdi       # 8-byte Spill
-	or	rsi, 96
-	mov	qword ptr [rsp + 24], rsi       # 8-byte Spill
-	or	r9, 128
-	or	r10, 160
-	or	r12, 192
-	mov	qword ptr [rsp + 64], r12       # 8-byte Spill
-	or	r14, 224
-	or	r15, 256
-	mov	qword ptr [rsp + 88], r15       # 8-byte Spill
-	or	r13, 288
-	mov	qword ptr [rsp + 80], r13       # 8-byte Spill
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	or	r12, 320
-	or	r11, 352
-	or	r8, 384
-	mov	qword ptr [rsp + 96], r8        # 8-byte Spill
-	mov	rcx, rax
-	or	rcx, 416
-	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
-	mov	rcx, rax
-	or	rcx, 448
-	mov	qword ptr [rsp + 40], rcx       # 8-byte Spill
-	mov	rsi, rax
-	or	rsi, 480
-	mov	qword ptr [rsp + 16], rsi       # 8-byte Spill
-	pinsrb	xmm4, byte ptr [rdx + rbx], 1
-	pinsrb	xmm4, byte ptr [rdx + rdi], 2
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rbx], 3
-	pinsrb	xmm4, byte ptr [rdx + r9], 4
-	pinsrb	xmm4, byte ptr [rdx + r10], 5
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax], 6
-	pinsrb	xmm4, byte ptr [rdx + r14], 7
-	pinsrb	xmm4, byte ptr [rdx + r15], 8
-	pinsrb	xmm4, byte ptr [rdx + r13], 9
-	mov	r15, r12
-	mov	qword ptr [rsp + 56], r12       # 8-byte Spill
-	pinsrb	xmm4, byte ptr [rdx + r12], 10
-	pinsrb	xmm4, byte ptr [rdx + r11], 11
-	pinsrb	xmm4, byte ptr [rdx + r8], 12
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + rax], 13
-	pinsrb	xmm4, byte ptr [rdx + rcx], 14
-	pinsrb	xmm4, byte ptr [rdx + rsi], 15
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r12 + 1], 1
-	pinsrb	xmm3, byte ptr [rdx + rdi + 1], 2
-	pinsrb	xmm3, byte ptr [rdx + rbx + 1], 3
-	pinsrb	xmm3, byte ptr [rdx + r9 + 1], 4
-	pinsrb	xmm3, byte ptr [rdx + r10 + 1], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rbx + 1], 6
-	pinsrb	xmm3, byte ptr [rdx + r14 + 1], 7
-	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rdi + 1], 8
-	pinsrb	xmm3, byte ptr [rdx + r13 + 1], 9
-	pinsrb	xmm3, byte ptr [rdx + r15 + 1], 10
-	pinsrb	xmm3, byte ptr [rdx + r11 + 1], 11
-	mov	r15, r11
-	pinsrb	xmm3, byte ptr [rdx + r8 + 1], 12
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r13 + 1], 13
-	pinsrb	xmm3, byte ptr [rdx + rcx + 1], 14
-	movdqa	xmm1, xmmword ptr [rsp + 144]   # 16-byte Reload
-	pcmpgtb	xmm4, xmm1
-	pinsrb	xmm3, byte ptr [rdx + rsi + 1], 15
-	pcmpgtb	xmm3, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm3, xmm0
-	paddb	xmm3, xmm4
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 16]
-	movd	xmm10, esi
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 2], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 2], 2
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r11 + 2], 3
-	pinsrb	xmm5, byte ptr [rdx + r9 + 2], 4
-	pinsrb	xmm5, byte ptr [rdx + r10 + 2], 5
-	pinsrb	xmm5, byte ptr [rdx + rbx + 2], 6
-	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rdx + r14 + 2], 7
-	mov	r12, rdi
-	pinsrb	xmm5, byte ptr [rdx + rdi + 2], 8
-	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r8 + 2], 9
-	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rdi + 2], 10
-	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rdx + r15 + 2], 11
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rcx + 2], 12
-	mov	rsi, r13
-	pinsrb	xmm5, byte ptr [rdx + r13 + 2], 13
-	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r13 + 2], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 2], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 3], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 3], 2
-	pinsrb	xmm7, byte ptr [rdx + r11 + 3], 3
-	pinsrb	xmm7, byte ptr [rdx + r9 + 3], 4
-	pinsrb	xmm7, byte ptr [rdx + r10 + 3], 5
-	pinsrb	xmm7, byte ptr [rdx + rbx + 3], 6
-	pinsrb	xmm7, byte ptr [rdx + r14 + 3], 7
-	pinsrb	xmm7, byte ptr [rdx + r12 + 3], 8
-	pinsrb	xmm7, byte ptr [rdx + r8 + 3], 9
-	pinsrb	xmm7, byte ptr [rdx + rdi + 3], 10
-	pinsrb	xmm7, byte ptr [rdx + r15 + 3], 11
-	pinsrb	xmm7, byte ptr [rdx + rcx + 3], 12
-	pinsrb	xmm7, byte ptr [rdx + rsi + 3], 13
-	pinsrb	xmm7, byte ptr [rdx + r13 + 3], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 3], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 4], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 4], 2
-	pinsrb	xmm9, byte ptr [rdx + r11 + 4], 3
-	pinsrb	xmm9, byte ptr [rdx + r9 + 4], 4
-	mov	qword ptr [rsp + 128], r9       # 8-byte Spill
-	pinsrb	xmm9, byte ptr [rdx + r10 + 4], 5
-	pinsrb	xmm9, byte ptr [rdx + rbx + 4], 6
-	pinsrb	xmm9, byte ptr [rdx + r14 + 4], 7
-	pinsrb	xmm9, byte ptr [rdx + r12 + 4], 8
-	pinsrb	xmm9, byte ptr [rdx + r8 + 4], 9
-	pinsrb	xmm9, byte ptr [rdx + rdi + 4], 10
-	pinsrb	xmm9, byte ptr [rdx + r15 + 4], 11
-	pinsrb	xmm9, byte ptr [rdx + rcx + 4], 12
-	pinsrb	xmm9, byte ptr [rdx + rsi + 4], 13
-	pinsrb	xmm9, byte ptr [rdx + r13 + 4], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 4], 15
-	mov	r13, rax
-	pcmpgtb	xmm5, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm5, xmm0
-	pcmpgtb	xmm7, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm7, xmm0
-	por	xmm7, xmm5
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 17]
-	movd	xmm4, esi
-	pcmpgtb	xmm9, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm9, xmm0
-	por	xmm9, xmm7
-	movzx	esi, byte ptr [rdx + rax + 18]
-	movd	xmm7, esi
-	pcmpeqd	xmm0, xmm0
-	psubb	xmm3, xmm0
-	por	xmm9, xmm3
-	movzx	esi, byte ptr [rdx + rax + 19]
-	movd	xmm5, esi
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r8 + 5], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rdi + 5], 2
-	pinsrb	xmm2, byte ptr [rdx + r11 + 5], 3
-	pinsrb	xmm2, byte ptr [rdx + r9 + 5], 4
-	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 5
-	mov	r12, r10
-	mov	r14, rbx
-	pinsrb	xmm2, byte ptr [rdx + rbx + 5], 6
-	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 5], 7
-	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r15 + 5], 8
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r9 + 5], 9
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 5], 10
-	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r11 + 5], 11
-	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 12
-	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 5], 14
-	pinsrb	xmm2, byte ptr [rdx + r13 + 5], 15
-	pinsrb	xmm8, byte ptr [rdx + r8 + 6], 1
-	pinsrb	xmm8, byte ptr [rdx + rdi + 6], 2
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r13 + 6], 3
-	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + r13 + 6], 4
-	pinsrb	xmm8, byte ptr [rdx + r12 + 6], 5
-	pinsrb	xmm8, byte ptr [rdx + r14 + 6], 6
-	pinsrb	xmm8, byte ptr [rdx + rbx + 6], 7
-	pinsrb	xmm8, byte ptr [rdx + r15 + 6], 8
-	pinsrb	xmm8, byte ptr [rdx + r9 + 6], 9
-	pinsrb	xmm8, byte ptr [rdx + rsi + 6], 10
-	pinsrb	xmm8, byte ptr [rdx + r11 + 6], 11
-	mov	r15, r11
-	pinsrb	xmm8, byte ptr [rdx + rcx + 6], 12
-	pinsrb	xmm8, byte ptr [rdx + r10 + 6], 13
-	pinsrb	xmm8, byte ptr [rdx + rax + 6], 14
-	mov	r10, rax
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm8, byte ptr [rdx + rax + 6], 15
-	pinsrb	xmm14, byte ptr [rdx + r8 + 7], 1
-	pinsrb	xmm14, byte ptr [rdx + rdi + 7], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rax + 7], 3
-	mov	r9, r13
-	pinsrb	xmm14, byte ptr [rdx + r13 + 7], 4
-	mov	rdi, r12
-	pinsrb	xmm14, byte ptr [rdx + r12 + 7], 5
-	pinsrb	xmm14, byte ptr [rdx + r14 + 7], 6
-	pinsrb	xmm14, byte ptr [rdx + rbx + 7], 7
-	mov	r11, rbx
-	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + r12 + 7], 8
-	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + r13 + 7], 9
-	pinsrb	xmm14, byte ptr [rdx + rsi + 7], 10
-	pinsrb	xmm14, byte ptr [rdx + r15 + 7], 11
-	pinsrb	xmm14, byte ptr [rdx + rcx + 7], 12
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rbx + 7], 13
-	pinsrb	xmm14, byte ptr [rdx + r10 + 7], 14
-	movdqa	xmm1, xmm14
-	movdqa	xmm14, xmmword ptr [rsp + 144]  # 16-byte Reload
-	pcmpgtb	xmm2, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm0
-	pcmpgtb	xmm8, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm8, xmm0
-	por	xmm8, xmm2
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 20]
-	movd	xmm3, esi
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rcx + 7], 15
-	pcmpgtb	xmm1, xmm14
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm1, xmm0
-	por	xmm1, xmm8
-	movzx	esi, byte ptr [rdx + rax + 21]
-	movd	xmm2, esi
-	movdqa	xmm0, xmmword ptr [rsp + 192]   # 16-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r8 + 8], 1
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r14 + 8], 2
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 8], 3
-	pinsrb	xmm0, byte ptr [rdx + r9 + 8], 4
-	pinsrb	xmm0, byte ptr [rdx + rdi + 8], 5
-	mov	r10, rdi
-	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rdi + 8], 6
-	pinsrb	xmm0, byte ptr [rdx + r11 + 8], 7
-	pinsrb	xmm0, byte ptr [rdx + r12 + 8], 8
-	pinsrb	xmm0, byte ptr [rdx + r13 + 8], 9
-	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r8 + 8], 10
-	pinsrb	xmm0, byte ptr [rdx + r15 + 8], 11
-	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 8], 12
-	pinsrb	xmm0, byte ptr [rdx + rbx + 8], 13
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 8], 14
-	pinsrb	xmm0, byte ptr [rdx + rcx + 8], 15
-	por	xmm1, xmm9
-	movdqa	xmmword ptr [rsp + 192], xmm1   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + rax + 22]
-	movd	xmm1, esi
-	pcmpgtb	xmm0, xmm14
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r11 + 9], 1
-	mov	rbx, r11
-	mov	rax, r14
-	pinsrb	xmm11, byte ptr [rdx + r14 + 9], 2
-	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r11 + 9], 3
-	pinsrb	xmm11, byte ptr [rdx + r9 + 9], 4
-	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
-	pinsrb	xmm11, byte ptr [rdx + r10 + 9], 5
-	pinsrb	xmm11, byte ptr [rdx + rdi + 9], 6
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r14 + 9], 7
-	pinsrb	xmm11, byte ptr [rdx + r12 + 9], 8
-	pinsrb	xmm11, byte ptr [rdx + r13 + 9], 9
-	mov	rsi, r8
-	pinsrb	xmm11, byte ptr [rdx + r8 + 9], 10
-	mov	rcx, r15
-	pinsrb	xmm11, byte ptr [rdx + r15 + 9], 11
-	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r8 + 9], 12
-	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r15 + 9], 13
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rdi + 9], 14
-	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rdi + 9], 15
-	pinsrb	xmm12, byte ptr [rdx + rbx + 10], 1
-	pinsrb	xmm12, byte ptr [rdx + rax + 10], 2
-	pinsrb	xmm12, byte ptr [rdx + r11 + 10], 3
-	pinsrb	xmm12, byte ptr [rdx + r9 + 10], 4
-	pinsrb	xmm12, byte ptr [rdx + r10 + 10], 5
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rbx + 10], 6
-	pinsrb	xmm12, byte ptr [rdx + r14 + 10], 7
-	pinsrb	xmm12, byte ptr [rdx + r12 + 10], 8
-	pinsrb	xmm12, byte ptr [rdx + r13 + 10], 9
-	pinsrb	xmm12, byte ptr [rdx + rsi + 10], 10
-	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 11
-	pinsrb	xmm12, byte ptr [rdx + r8 + 10], 12
-	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 13
-	mov	r11, r15
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 14
-	pinsrb	xmm12, byte ptr [rdx + rdi + 10], 15
-	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rbx + 11], 1
-	pinsrb	xmm13, byte ptr [rdx + rax + 11], 2
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 11], 3
-	pinsrb	xmm13, byte ptr [rdx + r9 + 11], 4
-	pinsrb	xmm13, byte ptr [rdx + r10 + 11], 5
-	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r10 + 11], 6
-	pinsrb	xmm13, byte ptr [rdx + r14 + 11], 7
-	pinsrb	xmm13, byte ptr [rdx + r12 + 11], 8
-	pinsrb	xmm13, byte ptr [rdx + r13 + 11], 9
-	pinsrb	xmm13, byte ptr [rdx + rsi + 11], 10
-	pinsrb	xmm13, byte ptr [rdx + rcx + 11], 11
-	pinsrb	xmm13, byte ptr [rdx + r8 + 11], 12
-	pinsrb	xmm13, byte ptr [rdx + r11 + 11], 13
-	pinsrb	xmm13, byte ptr [rdx + r15 + 11], 14
-	pinsrb	xmm13, byte ptr [rdx + rdi + 11], 15
-	pcmpgtb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI11_16]
-	paddb	xmm11, xmm0
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 23]
-	movd	xmm8, esi
-	pcmpgtb	xmm12, xmm14
-	pandn	xmm12, xmmword ptr [rip + .LCPI11_17]
-	pcmpgtb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI11_18]
-	por	xmm13, xmm12
-	movzx	esi, byte ptr [rdx + rcx + 24]
-	movd	xmm12, esi
-	movdqa	xmm9, xmmword ptr [rsp + 208]   # 16-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rbx + 12], 1
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r15 + 12], 2
-	mov	r11, rax
-	pinsrb	xmm9, byte ptr [rdx + rax + 12], 3
-	mov	rdi, r9
-	pinsrb	xmm9, byte ptr [rdx + r9 + 12], 4
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r9 + 12], 5
-	mov	rbx, r10
-	pinsrb	xmm9, byte ptr [rdx + r10 + 12], 6
-	mov	r10, r14
-	pinsrb	xmm9, byte ptr [rdx + r14 + 12], 7
-	mov	r14, r12
-	pinsrb	xmm9, byte ptr [rdx + r12 + 12], 8
-	mov	r12, r13
-	pinsrb	xmm9, byte ptr [rdx + r13 + 12], 9
-	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r13 + 12], 10
-	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rcx + 12], 11
-	pinsrb	xmm9, byte ptr [rdx + r8 + 12], 12
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rsi + 12], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 12], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 12], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 13], 1
-	pinsrb	xmm6, byte ptr [rdx + r15 + 13], 2
-	pinsrb	xmm6, byte ptr [rdx + r11 + 13], 3
-	pinsrb	xmm6, byte ptr [rdx + rdi + 13], 4
-	pinsrb	xmm6, byte ptr [rdx + r9 + 13], 5
-	pinsrb	xmm6, byte ptr [rdx + rbx + 13], 6
-	pinsrb	xmm6, byte ptr [rdx + r10 + 13], 7
-	pinsrb	xmm6, byte ptr [rdx + r14 + 13], 8
-	pinsrb	xmm6, byte ptr [rdx + r12 + 13], 9
-	pinsrb	xmm6, byte ptr [rdx + r13 + 13], 10
-	pinsrb	xmm6, byte ptr [rdx + rcx + 13], 11
-	pinsrb	xmm6, byte ptr [rdx + r8 + 13], 12
-	pinsrb	xmm6, byte ptr [rdx + rsi + 13], 13
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 13], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 13], 15
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rax + 14], 1
-	pinsrb	xmm15, byte ptr [rdx + r15 + 14], 2
-	pinsrb	xmm15, byte ptr [rdx + r11 + 14], 3
-	pinsrb	xmm15, byte ptr [rdx + rdi + 14], 4
-	mov	r11, rdi
-	pinsrb	xmm15, byte ptr [rdx + r9 + 14], 5
-	pinsrb	xmm15, byte ptr [rdx + rbx + 14], 6
-	pinsrb	xmm15, byte ptr [rdx + r10 + 14], 7
-	pinsrb	xmm15, byte ptr [rdx + r14 + 14], 8
-	pinsrb	xmm15, byte ptr [rdx + r12 + 14], 9
-	pinsrb	xmm15, byte ptr [rdx + r13 + 14], 10
-	pinsrb	xmm15, byte ptr [rdx + rcx + 14], 11
-	mov	r13, rcx
-	pinsrb	xmm15, byte ptr [rdx + r8 + 14], 12
-	mov	r12, r8
-	pinsrb	xmm15, byte ptr [rdx + rsi + 14], 13
-	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r15 + 14], 14
-	pcmpgtb	xmm9, xmm14
-	pandn	xmm9, xmmword ptr [rip + .LCPI11_19]
-	por	xmm9, xmm13
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 25]
-	movd	xmm13, esi
-	psubb	xmm11, xmmword ptr [rip + .LCPI11_22]
-	por	xmm9, xmm11
-	movzx	esi, byte ptr [rdx + rax + 26]
-	movd	xmm0, esi
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rcx + 14], 15
-	pcmpgtb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI11_20]
-	pcmpgtb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI11_21]
-	por	xmm15, xmm6
-	movzx	esi, byte ptr [rdx + rax + 27]
-	movd	xmm11, esi
-	movdqa	xmm6, xmmword ptr [rsp + 160]   # 16-byte Reload
-	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r8 + 15], 1
-	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rdi + 15], 2
-	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 15], 3
-	pinsrb	xmm6, byte ptr [rdx + r11 + 15], 4
-	pinsrb	xmm6, byte ptr [rdx + r9 + 15], 5
-	mov	r9, rbx
-	pinsrb	xmm6, byte ptr [rdx + rbx + 15], 6
-	pinsrb	xmm6, byte ptr [rdx + r10 + 15], 7
-	pinsrb	xmm6, byte ptr [rdx + r14 + 15], 8
-	mov	r10, r14
-	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r11 + 15], 9
-	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rbx + 15], 10
-	pinsrb	xmm6, byte ptr [rdx + r13 + 15], 11
-	pinsrb	xmm6, byte ptr [rdx + r12 + 15], 12
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r12 + 15], 13
-	pinsrb	xmm6, byte ptr [rdx + r15 + 15], 14
-	pinsrb	xmm6, byte ptr [rdx + rcx + 15], 15
-	pcmpgtb	xmm6, xmm14
-	pandn	xmm6, xmmword ptr [rip + .LCPI11_6]
-	por	xmm6, xmm15
-	movzx	esi, byte ptr [rdx + rax + 28]
-	movd	xmm15, esi
-	por	xmm6, xmm9
-	movdqa	xmmword ptr [rsp + 160], xmm6   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + rax + 29]
-	movd	xmm9, esi
-	mov	rax, r8
-	pinsrb	xmm10, byte ptr [rdx + r8 + 16], 1
-	mov	r14, rdi
-	pinsrb	xmm10, byte ptr [rdx + rdi + 16], 2
-	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rcx + 16], 3
-	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rdi + 16], 4
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r8 + 16], 5
-	pinsrb	xmm10, byte ptr [rdx + r9 + 16], 6
-	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r9 + 16], 7
-	pinsrb	xmm10, byte ptr [rdx + r10 + 16], 8
-	pinsrb	xmm10, byte ptr [rdx + r11 + 16], 9
-	pinsrb	xmm10, byte ptr [rdx + rbx + 16], 10
-	pinsrb	xmm10, byte ptr [rdx + r13 + 16], 11
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + r15 + 16], 12
-	pinsrb	xmm10, byte ptr [rdx + r12 + 16], 13
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rcx + 16], 14
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rsi + 16], 15
-	pinsrb	xmm4, byte ptr [rdx + rax + 17], 1
-	pinsrb	xmm4, byte ptr [rdx + r14 + 17], 2
-	mov	r14, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r14 + 17], 3
-	pinsrb	xmm4, byte ptr [rdx + rdi + 17], 4
-	pinsrb	xmm4, byte ptr [rdx + r8 + 17], 5
-	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r12 + 17], 6
-	pinsrb	xmm4, byte ptr [rdx + r9 + 17], 7
-	pinsrb	xmm4, byte ptr [rdx + r10 + 17], 8
-	pinsrb	xmm4, byte ptr [rdx + r11 + 17], 9
-	pinsrb	xmm4, byte ptr [rdx + rbx + 17], 10
-	pinsrb	xmm4, byte ptr [rdx + r13 + 17], 11
-	mov	rbx, r15
-	pinsrb	xmm4, byte ptr [rdx + r15 + 17], 12
-	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r8 + 17], 13
-	pinsrb	xmm4, byte ptr [rdx + rcx + 17], 14
-	mov	r9, rcx
-	pinsrb	xmm4, byte ptr [rdx + rsi + 17], 15
-	mov	r15, rsi
-	pcmpgtb	xmm10, xmm14
-	pcmpgtb	xmm4, xmm14
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_16] # xmm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pandn	xmm4, xmm6
-	paddb	xmm4, xmm10
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 30]
-	movd	xmm10, esi
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 18], 1
-	pinsrb	xmm5, byte ptr [rdx + rsi + 19], 1
-	pinsrb	xmm3, byte ptr [rdx + rsi + 20], 1
-	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 1
-	pinsrb	xmm1, byte ptr [rdx + rsi + 22], 1
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 1
-	pinsrb	xmm12, byte ptr [rdx + rsi + 24], 1
-	pinsrb	xmm13, byte ptr [rdx + rsi + 25], 1
-	pinsrb	xmm0, byte ptr [rdx + rsi + 26], 1
-	pinsrb	xmm11, byte ptr [rdx + rsi + 27], 1
-	pinsrb	xmm15, byte ptr [rdx + rsi + 28], 1
-	pinsrb	xmm9, byte ptr [rdx + rsi + 29], 1
-	pinsrb	xmm10, byte ptr [rdx + rsi + 30], 1
-	movzx	eax, byte ptr [rdx + rax + 31]
-	movd	xmm6, eax
-	pinsrb	xmm6, byte ptr [rdx + rsi + 31], 1
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 18], 2
-	pinsrb	xmm5, byte ptr [rdx + rax + 19], 2
-	pinsrb	xmm3, byte ptr [rdx + rax + 20], 2
-	pinsrb	xmm2, byte ptr [rdx + rax + 21], 2
-	pinsrb	xmm1, byte ptr [rdx + rax + 22], 2
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 2
-	pinsrb	xmm12, byte ptr [rdx + rax + 24], 2
-	pinsrb	xmm13, byte ptr [rdx + rax + 25], 2
-	pinsrb	xmm0, byte ptr [rdx + rax + 26], 2
-	pinsrb	xmm11, byte ptr [rdx + rax + 27], 2
-	pinsrb	xmm15, byte ptr [rdx + rax + 28], 2
-	pinsrb	xmm9, byte ptr [rdx + rax + 29], 2
-	pinsrb	xmm10, byte ptr [rdx + rax + 30], 2
-	pinsrb	xmm6, byte ptr [rdx + rax + 31], 2
-	mov	r11, r14
-	pinsrb	xmm7, byte ptr [rdx + r14 + 18], 3
-	pinsrb	xmm7, byte ptr [rdx + rdi + 18], 4
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rcx + 18], 5
-	pinsrb	xmm7, byte ptr [rdx + r12 + 18], 6
-	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r10 + 18], 7
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + r14 + 18], 8
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rax + 18], 9
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rsi + 18], 10
-	pinsrb	xmm7, byte ptr [rdx + r13 + 18], 11
-	pinsrb	xmm7, byte ptr [rdx + rbx + 18], 12
-	pinsrb	xmm7, byte ptr [rdx + r8 + 18], 13
-	pinsrb	xmm7, byte ptr [rdx + r9 + 18], 14
-	pinsrb	xmm7, byte ptr [rdx + r15 + 18], 15
-	pinsrb	xmm5, byte ptr [rdx + r11 + 19], 3
-	pinsrb	xmm5, byte ptr [rdx + rdi + 19], 4
-	pinsrb	xmm5, byte ptr [rdx + rcx + 19], 5
-	pinsrb	xmm5, byte ptr [rdx + r12 + 19], 6
-	pinsrb	xmm5, byte ptr [rdx + r10 + 19], 7
-	pinsrb	xmm5, byte ptr [rdx + r14 + 19], 8
-	pinsrb	xmm5, byte ptr [rdx + rax + 19], 9
-	pinsrb	xmm5, byte ptr [rdx + rsi + 19], 10
-	pinsrb	xmm5, byte ptr [rdx + r13 + 19], 11
-	pinsrb	xmm5, byte ptr [rdx + rbx + 19], 12
-	pinsrb	xmm5, byte ptr [rdx + r8 + 19], 13
-	pinsrb	xmm5, byte ptr [rdx + r9 + 19], 14
-	pinsrb	xmm5, byte ptr [rdx + r15 + 19], 15
-	pinsrb	xmm3, byte ptr [rdx + r11 + 20], 3
-	pinsrb	xmm3, byte ptr [rdx + rdi + 20], 4
-	pinsrb	xmm3, byte ptr [rdx + rcx + 20], 5
-	pinsrb	xmm3, byte ptr [rdx + r12 + 20], 6
-	pinsrb	xmm3, byte ptr [rdx + r10 + 20], 7
-	pinsrb	xmm3, byte ptr [rdx + r14 + 20], 8
-	pinsrb	xmm3, byte ptr [rdx + rax + 20], 9
-	pinsrb	xmm3, byte ptr [rdx + rsi + 20], 10
-	pinsrb	xmm3, byte ptr [rdx + r13 + 20], 11
-	pinsrb	xmm3, byte ptr [rdx + rbx + 20], 12
-	pinsrb	xmm3, byte ptr [rdx + r8 + 20], 13
-	pinsrb	xmm3, byte ptr [rdx + r9 + 20], 14
-	pcmpgtb	xmm7, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI11_17] # xmm14 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pandn	xmm7, xmm14
-	pcmpgtb	xmm5, xmmword ptr [rsp + 144]   # 16-byte Folded Reload
-	movdqa	xmm14, xmmword ptr [rip + .LCPI11_18] # xmm14 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pandn	xmm5, xmm14
-	por	xmm5, xmm7
-	pinsrb	xmm3, byte ptr [rdx + r15 + 20], 15
-	movdqa	xmm14, xmmword ptr [rsp + 144]  # 16-byte Reload
-	pcmpgtb	xmm3, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI11_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pandn	xmm3, xmm7
-	por	xmm3, xmm5
-	pcmpeqd	xmm5, xmm5
-	psubb	xmm4, xmm5
-	por	xmm3, xmm4
-	pinsrb	xmm2, byte ptr [rdx + r11 + 21], 3
-	pinsrb	xmm2, byte ptr [rdx + rdi + 21], 4
-	pinsrb	xmm2, byte ptr [rdx + rcx + 21], 5
-	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 6
-	pinsrb	xmm2, byte ptr [rdx + r10 + 21], 7
-	pinsrb	xmm2, byte ptr [rdx + r14 + 21], 8
-	pinsrb	xmm2, byte ptr [rdx + rax + 21], 9
-	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 10
-	pinsrb	xmm2, byte ptr [rdx + r13 + 21], 11
-	pinsrb	xmm2, byte ptr [rdx + rbx + 21], 12
-	pinsrb	xmm2, byte ptr [rdx + r8 + 21], 13
-	pinsrb	xmm2, byte ptr [rdx + r9 + 21], 14
-	pinsrb	xmm2, byte ptr [rdx + r15 + 21], 15
-	pinsrb	xmm1, byte ptr [rdx + r11 + 22], 3
-	pinsrb	xmm1, byte ptr [rdx + rdi + 22], 4
-	pinsrb	xmm1, byte ptr [rdx + rcx + 22], 5
-	pinsrb	xmm1, byte ptr [rdx + r12 + 22], 6
-	pinsrb	xmm1, byte ptr [rdx + r10 + 22], 7
-	pinsrb	xmm1, byte ptr [rdx + r14 + 22], 8
-	pinsrb	xmm1, byte ptr [rdx + rax + 22], 9
-	pinsrb	xmm1, byte ptr [rdx + rsi + 22], 10
-	pinsrb	xmm1, byte ptr [rdx + r13 + 22], 11
-	pinsrb	xmm1, byte ptr [rdx + rbx + 22], 12
-	pinsrb	xmm1, byte ptr [rdx + r8 + 22], 13
-	pinsrb	xmm1, byte ptr [rdx + r9 + 22], 14
-	pinsrb	xmm1, byte ptr [rdx + r15 + 22], 15
-	pinsrb	xmm8, byte ptr [rdx + r11 + 23], 3
-	pinsrb	xmm8, byte ptr [rdx + rdi + 23], 4
-	pinsrb	xmm8, byte ptr [rdx + rcx + 23], 5
-	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 6
-	pinsrb	xmm8, byte ptr [rdx + r10 + 23], 7
-	pinsrb	xmm8, byte ptr [rdx + r14 + 23], 8
-	pinsrb	xmm8, byte ptr [rdx + rax + 23], 9
-	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 10
-	pinsrb	xmm8, byte ptr [rdx + r13 + 23], 11
-	pinsrb	xmm8, byte ptr [rdx + rbx + 23], 12
-	pinsrb	xmm8, byte ptr [rdx + r8 + 23], 13
-	pinsrb	xmm8, byte ptr [rdx + r9 + 23], 14
-	pcmpgtb	xmm2, xmm14
-	movdqa	xmm5, xmmword ptr [rip + .LCPI11_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pandn	xmm2, xmm5
-	pcmpgtb	xmm1, xmm14
-	movdqa	xmm7, xmmword ptr [rip + .LCPI11_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pandn	xmm1, xmm7
-	por	xmm1, xmm2
-	pinsrb	xmm8, byte ptr [rdx + r15 + 23], 15
-	pcmpgtb	xmm8, xmm14
-	movdqa	xmm4, xmmword ptr [rip + .LCPI11_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pandn	xmm8, xmm4
-	por	xmm8, xmm1
-	pinsrb	xmm12, byte ptr [rdx + r11 + 24], 3
-	pinsrb	xmm12, byte ptr [rdx + rdi + 24], 4
-	pinsrb	xmm12, byte ptr [rdx + rcx + 24], 5
-	pinsrb	xmm12, byte ptr [rdx + r12 + 24], 6
-	pinsrb	xmm12, byte ptr [rdx + r10 + 24], 7
-	pinsrb	xmm12, byte ptr [rdx + r14 + 24], 8
-	pinsrb	xmm12, byte ptr [rdx + rax + 24], 9
-	pinsrb	xmm12, byte ptr [rdx + rsi + 24], 10
-	pinsrb	xmm12, byte ptr [rdx + r13 + 24], 11
-	pinsrb	xmm12, byte ptr [rdx + rbx + 24], 12
-	pinsrb	xmm12, byte ptr [rdx + r8 + 24], 13
-	pinsrb	xmm12, byte ptr [rdx + r9 + 24], 14
-	pinsrb	xmm12, byte ptr [rdx + r15 + 24], 15
-	por	xmm8, xmm3
-	pcmpgtb	xmm12, xmm14
-	pinsrb	xmm13, byte ptr [rdx + r11 + 25], 3
-	pinsrb	xmm13, byte ptr [rdx + rdi + 25], 4
-	pinsrb	xmm13, byte ptr [rdx + rcx + 25], 5
-	pinsrb	xmm13, byte ptr [rdx + r12 + 25], 6
-	pinsrb	xmm13, byte ptr [rdx + r10 + 25], 7
-	pinsrb	xmm13, byte ptr [rdx + r14 + 25], 8
-	pinsrb	xmm13, byte ptr [rdx + rax + 25], 9
-	pinsrb	xmm13, byte ptr [rdx + rsi + 25], 10
-	pinsrb	xmm13, byte ptr [rdx + r13 + 25], 11
-	pinsrb	xmm13, byte ptr [rdx + rbx + 25], 12
-	pinsrb	xmm13, byte ptr [rdx + r8 + 25], 13
-	pinsrb	xmm13, byte ptr [rdx + r9 + 25], 14
-	pinsrb	xmm13, byte ptr [rdx + r15 + 25], 15
-	pinsrb	xmm0, byte ptr [rdx + r11 + 26], 3
-	pinsrb	xmm0, byte ptr [rdx + rdi + 26], 4
-	pinsrb	xmm0, byte ptr [rdx + rcx + 26], 5
-	pinsrb	xmm0, byte ptr [rdx + r12 + 26], 6
-	pinsrb	xmm0, byte ptr [rdx + r10 + 26], 7
-	pinsrb	xmm0, byte ptr [rdx + r14 + 26], 8
-	pinsrb	xmm0, byte ptr [rdx + rax + 26], 9
-	pinsrb	xmm0, byte ptr [rdx + rsi + 26], 10
-	pinsrb	xmm0, byte ptr [rdx + r13 + 26], 11
-	pinsrb	xmm0, byte ptr [rdx + rbx + 26], 12
-	pinsrb	xmm0, byte ptr [rdx + r8 + 26], 13
-	pinsrb	xmm0, byte ptr [rdx + r9 + 26], 14
-	pinsrb	xmm0, byte ptr [rdx + r15 + 26], 15
-	pinsrb	xmm11, byte ptr [rdx + r11 + 27], 3
-	pinsrb	xmm11, byte ptr [rdx + rdi + 27], 4
-	pinsrb	xmm11, byte ptr [rdx + rcx + 27], 5
-	pinsrb	xmm11, byte ptr [rdx + r12 + 27], 6
-	pinsrb	xmm11, byte ptr [rdx + r10 + 27], 7
-	pinsrb	xmm11, byte ptr [rdx + r14 + 27], 8
-	pinsrb	xmm11, byte ptr [rdx + rax + 27], 9
-	pinsrb	xmm11, byte ptr [rdx + rsi + 27], 10
-	pinsrb	xmm11, byte ptr [rdx + r13 + 27], 11
-	pinsrb	xmm11, byte ptr [rdx + rbx + 27], 12
-	pinsrb	xmm11, byte ptr [rdx + r8 + 27], 13
-	pinsrb	xmm11, byte ptr [rdx + r9 + 27], 14
-	pcmpgtb	xmm13, xmm14
-	pandn	xmm13, xmmword ptr [rip + .LCPI11_16]
-	paddb	xmm13, xmm12
-	pinsrb	xmm11, byte ptr [rdx + r15 + 27], 15
-	pcmpgtb	xmm0, xmm14
-	pandn	xmm0, xmmword ptr [rip + .LCPI11_17]
-	pcmpgtb	xmm11, xmm14
-	pandn	xmm11, xmmword ptr [rip + .LCPI11_18]
-	por	xmm11, xmm0
-	pinsrb	xmm15, byte ptr [rdx + r11 + 28], 3
-	pinsrb	xmm9, byte ptr [rdx + r11 + 29], 3
-	pinsrb	xmm10, byte ptr [rdx + r11 + 30], 3
-	pinsrb	xmm6, byte ptr [rdx + r11 + 31], 3
-	pinsrb	xmm15, byte ptr [rdx + rdi + 28], 4
-	pinsrb	xmm9, byte ptr [rdx + rdi + 29], 4
-	pinsrb	xmm10, byte ptr [rdx + rdi + 30], 4
-	pinsrb	xmm6, byte ptr [rdx + rdi + 31], 4
-	mov	rdi, rcx
-	pinsrb	xmm15, byte ptr [rdx + rcx + 28], 5
-	pinsrb	xmm9, byte ptr [rdx + rcx + 29], 5
-	pinsrb	xmm10, byte ptr [rdx + rcx + 30], 5
-	pinsrb	xmm6, byte ptr [rdx + rcx + 31], 5
-	pinsrb	xmm15, byte ptr [rdx + r12 + 28], 6
-	pinsrb	xmm9, byte ptr [rdx + r12 + 29], 6
-	pinsrb	xmm10, byte ptr [rdx + r12 + 30], 6
-	pinsrb	xmm6, byte ptr [rdx + r12 + 31], 6
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	mov	rdi, r10
-	pinsrb	xmm15, byte ptr [rdx + r10 + 28], 7
-	pinsrb	xmm9, byte ptr [rdx + r10 + 29], 7
-	pinsrb	xmm10, byte ptr [rdx + r10 + 30], 7
-	pinsrb	xmm6, byte ptr [rdx + r10 + 31], 7
-	mov	rdi, r14
-	pinsrb	xmm15, byte ptr [rdx + r14 + 28], 8
-	pinsrb	xmm9, byte ptr [rdx + r14 + 29], 8
-	pinsrb	xmm10, byte ptr [rdx + r14 + 30], 8
-	pinsrb	xmm6, byte ptr [rdx + r14 + 31], 8
-	pinsrb	xmm15, byte ptr [rdx + rax + 28], 9
-	pinsrb	xmm9, byte ptr [rdx + rax + 29], 9
-	pinsrb	xmm10, byte ptr [rdx + rax + 30], 9
-	pinsrb	xmm6, byte ptr [rdx + rax + 31], 9
-	mov	rax, rsi
-	pinsrb	xmm15, byte ptr [rdx + rsi + 28], 10
-	pinsrb	xmm9, byte ptr [rdx + rsi + 29], 10
-	pinsrb	xmm10, byte ptr [rdx + rsi + 30], 10
-	pinsrb	xmm6, byte ptr [rdx + rsi + 31], 10
-	pinsrb	xmm15, byte ptr [rdx + r13 + 28], 11
-	pinsrb	xmm9, byte ptr [rdx + r13 + 29], 11
-	pinsrb	xmm10, byte ptr [rdx + r13 + 30], 11
-	pinsrb	xmm6, byte ptr [rdx + r13 + 31], 11
-	pinsrb	xmm15, byte ptr [rdx + rbx + 28], 12
-	pinsrb	xmm9, byte ptr [rdx + rbx + 29], 12
-	pinsrb	xmm10, byte ptr [rdx + rbx + 30], 12
-	pinsrb	xmm6, byte ptr [rdx + rbx + 31], 12
-	mov	rax, r8
-	pinsrb	xmm15, byte ptr [rdx + r8 + 28], 13
-	pinsrb	xmm9, byte ptr [rdx + r8 + 29], 13
-	pinsrb	xmm10, byte ptr [rdx + r8 + 30], 13
-	pinsrb	xmm6, byte ptr [rdx + r8 + 31], 13
-	mov	rax, r9
-	pinsrb	xmm15, byte ptr [rdx + r9 + 28], 14
-	pinsrb	xmm9, byte ptr [rdx + r9 + 29], 14
-	pinsrb	xmm10, byte ptr [rdx + r9 + 30], 14
-	pinsrb	xmm6, byte ptr [rdx + r9 + 31], 14
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rax + 28], 15
-	pinsrb	xmm9, byte ptr [rdx + rax + 29], 15
-	pinsrb	xmm10, byte ptr [rdx + rax + 30], 15
-	pcmpgtb	xmm15, xmm14
-	pandn	xmm15, xmmword ptr [rip + .LCPI11_19]
-	por	xmm15, xmm11
-	pinsrb	xmm6, byte ptr [rdx + rax + 31], 15
-	psubb	xmm13, xmmword ptr [rip + .LCPI11_22]
-	por	xmm15, xmm13
-	pcmpgtb	xmm9, xmm14
-	pandn	xmm9, xmm5
-	pcmpgtb	xmm10, xmm14
-	pandn	xmm10, xmm7
-	por	xmm10, xmm9
-	pcmpgtb	xmm6, xmm14
-	pandn	xmm6, xmm4
-	por	xmm6, xmm10
-	por	xmm6, xmm15
-	movdqa	xmm0, xmm8
-	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
-	movdqa	xmm3, xmmword ptr [rsp + 192]   # 16-byte Reload
-	movdqa	xmm1, xmm3
-	movdqa	xmm4, xmmword ptr [rsp + 160]   # 16-byte Reload
-	punpcklbw	xmm1, xmm4              # xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
-	movdqa	xmm2, xmm1
-	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
-	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
-	punpckhbw	xmm3, xmm4              # xmm3 = xmm3[8],xmm4[8],xmm3[9],xmm4[9],xmm3[10],xmm4[10],xmm3[11],xmm4[11],xmm3[12],xmm4[12],xmm3[13],xmm4[13],xmm3[14],xmm4[14],xmm3[15],xmm4[15]
-	movdqa	xmm0, xmm3
-	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
-	punpckhwd	xmm3, xmm8              # xmm3 = xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
-	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
-	movdqu	xmmword ptr [r15 + 4*rcx + 48], xmm3
-	movdqu	xmmword ptr [r15 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r15 + 4*rcx + 16], xmm1
-	movdqu	xmmword ptr [r15 + 4*rcx], xmm2
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 256]      # 8-byte Folded Reload
-	jne	.LBB11_86
-# %bb.87:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 256]      # 8-byte Folded Reload
-	mov	r14b, byte ptr [rsp]            # 1-byte Reload
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	mov	rdx, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	jne	.LBB11_88
-	jmp	.LBB11_91
-.LBB11_66:
-	and	r10, -16
-	mov	rax, r10
-	shl	rax, 5
-	add	rax, rdx
-	mov	qword ptr [rsp + 280], rax      # 8-byte Spill
-	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
-	lea	rax, [r15 + 4*r10]
-	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
-	movzx	eax, r14b
-	movd	xmm1, eax
-	pxor	xmm0, xmm0
-	pshufb	xmm1, xmm0
-	movdqa	xmmword ptr [rsp + 256], xmm1   # 16-byte Spill
-	xor	eax, eax
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	movdqa	xmm8, xmmword ptr [rsp + 256]   # 16-byte Reload
-	.p2align	4, 0x90
-.LBB11_67:                              # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
-	shl	rax, 5
-	mov	r14, rax
-	mov	rbx, rax
-	mov	r15, rax
-	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
-	mov	r12, rax
-	mov	r8, rax
-	mov	r11, rax
-	mov	r9, rax
-	mov	r10, rax
-	mov	rsi, rax
-	mov	rdi, rax
-	movzx	ecx, byte ptr [rdx + rax]
-	movd	xmm6, ecx
-	movzx	ecx, byte ptr [rdx + rax + 1]
-	movd	xmm15, ecx
-	movzx	ecx, byte ptr [rdx + rax + 2]
-	movd	xmm5, ecx
-	movzx	ecx, byte ptr [rdx + rax + 3]
-	movd	xmm4, ecx
-	movzx	ecx, byte ptr [rdx + rax + 4]
-	movd	xmm3, ecx
-	movzx	ecx, byte ptr [rdx + rax + 5]
-	movd	xmm7, ecx
-	movzx	ecx, byte ptr [rdx + rax + 6]
-	movd	xmm2, ecx
-	movzx	ecx, byte ptr [rdx + rax + 7]
-	movd	xmm9, ecx
-	movzx	ecx, byte ptr [rdx + rax + 8]
-	movd	xmm0, ecx
-	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
-	movzx	ecx, byte ptr [rdx + rax + 9]
-	movd	xmm10, ecx
-	movzx	ecx, byte ptr [rdx + rax + 10]
-	movd	xmm12, ecx
-	movzx	ecx, byte ptr [rdx + rax + 11]
-	movd	xmm11, ecx
-	movzx	ecx, byte ptr [rdx + rax + 12]
-	movd	xmm13, ecx
-	movzx	ecx, byte ptr [rdx + rax + 13]
-	movd	xmm0, ecx
-	movzx	ecx, byte ptr [rdx + rax + 14]
-	movd	xmm14, ecx
-	movzx	ecx, byte ptr [rdx + rax + 15]
-	movd	xmm1, ecx
-	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
-	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
-	mov	r13, rax
-	or	r13, 32
-	mov	qword ptr [rsp + 40], r13       # 8-byte Spill
-	or	r14, 64
-	or	rbx, 96
-	or	r15, 128
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	or	rcx, 160
-	mov	qword ptr [rsp + 32], rcx       # 8-byte Spill
-	or	r12, 192
-	or	r8, 224
-	or	r11, 256
-	or	r9, 288
-	or	r10, 320
-	or	rsi, 352
-	mov	qword ptr [rsp + 88], rsi       # 8-byte Spill
-	mov	rsi, rax
-	or	rsi, 384
-	mov	qword ptr [rsp + 112], rsi      # 8-byte Spill
-	or	rdi, 416
-	mov	qword ptr [rsp + 16], rdi       # 8-byte Spill
-	mov	rdi, rax
-	or	rdi, 448
-	mov	qword ptr [rsp + 24], rdi       # 8-byte Spill
-	mov	rdi, rax
-	or	rdi, 480
-	mov	qword ptr [rsp + 8], rdi        # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rdx + r13], 1
-	pinsrb	xmm6, byte ptr [rdx + r14], 2
-	mov	qword ptr [rsp + 104], rbx      # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rdx + rbx], 3
-	pinsrb	xmm6, byte ptr [rdx + r15], 4
-	pinsrb	xmm6, byte ptr [rdx + rcx], 5
-	pinsrb	xmm6, byte ptr [rdx + r12], 6
-	mov	qword ptr [rsp + 56], r8        # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rdx + r8], 7
-	mov	qword ptr [rsp + 72], r11       # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rdx + r11], 8
-	mov	r11, r9
-	mov	qword ptr [rsp + 96], r9        # 8-byte Spill
-	pinsrb	xmm6, byte ptr [rdx + r9], 9
-	mov	r9, r10
-	pinsrb	xmm6, byte ptr [rdx + r10], 10
-	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r10], 11
-	pinsrb	xmm6, byte ptr [rdx + rsi], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax], 13
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r13], 14
-	pinsrb	xmm6, byte ptr [rdx + rdi], 15
-	pmaxub	xmm6, xmm8
-	pcmpeqb	xmm6, xmm8
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rdi + 1], 1
-	pinsrb	xmm15, byte ptr [rdx + r14 + 1], 2
-	pinsrb	xmm15, byte ptr [rdx + rbx + 1], 3
-	pinsrb	xmm15, byte ptr [rdx + r15 + 1], 4
-	mov	rbx, r15
-	pinsrb	xmm15, byte ptr [rdx + rcx + 1], 5
-	pinsrb	xmm15, byte ptr [rdx + r12 + 1], 6
-	mov	r15, r12
-	pinsrb	xmm15, byte ptr [rdx + r8 + 1], 7
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r13 + 1], 8
-	pinsrb	xmm15, byte ptr [rdx + r11 + 1], 9
-	pinsrb	xmm15, byte ptr [rdx + r9 + 1], 10
-	mov	qword ptr [rsp + 64], r9        # 8-byte Spill
-	pinsrb	xmm15, byte ptr [rdx + r10 + 1], 11
-	mov	rcx, r10
-	pinsrb	xmm15, byte ptr [rdx + rsi + 1], 12
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r12 + 1], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rax + 1], 14
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rax + 1], 15
-	pmaxub	xmm15, xmm8
-	pcmpeqb	xmm15, xmm8
-	movdqa	xmm1, xmmword ptr [rip + .LCPI11_16] # xmm1 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
-	pand	xmm15, xmm1
-	psubb	xmm15, xmm6
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 16]
-	movd	xmm1, esi
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rdi + 2], 1
-	mov	r8, r14
-	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
-	pinsrb	xmm5, byte ptr [rdx + r14 + 2], 2
-	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r14 + 2], 3
-	mov	r10, rbx
-	pinsrb	xmm5, byte ptr [rdx + rbx + 2], 4
-	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rax + 2], 5
-	mov	rbx, r15
-	pinsrb	xmm5, byte ptr [rdx + r15 + 2], 6
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rsi + 2], 7
-	mov	r11, r13
-	pinsrb	xmm5, byte ptr [rdx + r13 + 2], 8
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r15 + 2], 9
-	pinsrb	xmm5, byte ptr [rdx + r9 + 2], 10
-	pinsrb	xmm5, byte ptr [rdx + rcx + 2], 11
-	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rcx + 2], 12
-	mov	r13, r12
-	pinsrb	xmm5, byte ptr [rdx + r12 + 2], 13
-	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r9 + 2], 14
-	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r12 + 2], 15
-	pinsrb	xmm4, byte ptr [rdx + rdi + 3], 1
-	pinsrb	xmm4, byte ptr [rdx + r8 + 3], 2
-	pinsrb	xmm4, byte ptr [rdx + r14 + 3], 3
-	pinsrb	xmm4, byte ptr [rdx + r10 + 3], 4
-	pinsrb	xmm4, byte ptr [rdx + rax + 3], 5
-	pinsrb	xmm4, byte ptr [rdx + rbx + 3], 6
-	pinsrb	xmm4, byte ptr [rdx + rsi + 3], 7
-	pinsrb	xmm4, byte ptr [rdx + r11 + 3], 8
-	pinsrb	xmm4, byte ptr [rdx + r15 + 3], 9
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r11 + 3], 10
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm4, byte ptr [rdx + r8 + 3], 11
-	pinsrb	xmm4, byte ptr [rdx + rcx + 3], 12
-	pinsrb	xmm4, byte ptr [rdx + r13 + 3], 13
-	pinsrb	xmm4, byte ptr [rdx + r9 + 3], 14
-	pinsrb	xmm4, byte ptr [rdx + r12 + 3], 15
-	pmaxub	xmm5, xmm8
-	pcmpeqb	xmm5, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_17] # xmm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
-	pand	xmm5, xmm6
-	pmaxub	xmm4, xmm8
-	pcmpeqb	xmm4, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_18] # xmm6 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
-	pand	xmm4, xmm6
-	por	xmm4, xmm5
-	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rcx + 17]
-	movd	xmm5, esi
-	por	xmm4, xmm15
-	movzx	esi, byte ptr [rdx + rcx + 18]
-	movd	xmm15, esi
-	mov	r14, rdi
-	pinsrb	xmm3, byte ptr [rdx + rdi + 4], 1
-	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r13 + 4], 2
-	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r12 + 4], 3
-	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
-	pinsrb	xmm3, byte ptr [rdx + r10 + 4], 4
-	pinsrb	xmm3, byte ptr [rdx + rax + 4], 5
-	pinsrb	xmm3, byte ptr [rdx + rbx + 4], 6
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rcx + 4], 7
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rcx + 4], 8
-	pinsrb	xmm3, byte ptr [rdx + r15 + 4], 9
-	mov	rsi, r11
-	pinsrb	xmm3, byte ptr [rdx + r11 + 4], 10
-	pinsrb	xmm3, byte ptr [rdx + r8 + 4], 11
-	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r9 + 4], 12
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rcx + 4], 13
-	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rdi + 4], 14
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r11 + 4], 15
-	pinsrb	xmm7, byte ptr [rdx + r14 + 5], 1
-	pinsrb	xmm7, byte ptr [rdx + r13 + 5], 2
-	pinsrb	xmm7, byte ptr [rdx + r12 + 5], 3
-	pinsrb	xmm7, byte ptr [rdx + r10 + 5], 4
-	pinsrb	xmm7, byte ptr [rdx + rax + 5], 5
-	pinsrb	xmm7, byte ptr [rdx + rbx + 5], 6
-	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rcx + 5], 7
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rcx + 5], 8
-	pinsrb	xmm7, byte ptr [rdx + r15 + 5], 9
-	pinsrb	xmm7, byte ptr [rdx + rsi + 5], 10
-	pinsrb	xmm7, byte ptr [rdx + r8 + 5], 11
-	pinsrb	xmm7, byte ptr [rdx + r9 + 5], 12
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm7, byte ptr [rdx + rcx + 5], 13
-	pinsrb	xmm7, byte ptr [rdx + rdi + 5], 14
-	pinsrb	xmm7, byte ptr [rdx + r11 + 5], 15
-	pinsrb	xmm2, byte ptr [rdx + r14 + 6], 1
-	pinsrb	xmm2, byte ptr [rdx + r13 + 6], 2
-	pinsrb	xmm2, byte ptr [rdx + r12 + 6], 3
-	pinsrb	xmm2, byte ptr [rdx + r10 + 6], 4
-	pinsrb	xmm2, byte ptr [rdx + rax + 6], 5
-	mov	r10, rax
-	pinsrb	xmm2, byte ptr [rdx + rbx + 6], 6
-	mov	r13, rbx
-	mov	qword ptr [rsp + 160], rbx      # 8-byte Spill
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 6], 7
-	mov	r14, rax
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 6], 8
-	pinsrb	xmm2, byte ptr [rdx + r15 + 6], 9
-	mov	r11, r15
-	pinsrb	xmm2, byte ptr [rdx + rsi + 6], 10
-	pinsrb	xmm2, byte ptr [rdx + r8 + 6], 11
-	mov	r12, r8
-	pinsrb	xmm2, byte ptr [rdx + r9 + 6], 12
-	pinsrb	xmm2, byte ptr [rdx + rcx + 6], 13
-	pinsrb	xmm2, byte ptr [rdx + rdi + 6], 14
-	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r15 + 6], 15
-	pmaxub	xmm3, xmm8
-	pcmpeqb	xmm3, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_19] # xmm6 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm3, xmm6
-	pmaxub	xmm7, xmm8
-	pcmpeqb	xmm7, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_20] # xmm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm7, xmm6
-	por	xmm7, xmm3
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 19]
-	movd	xmm3, esi
-	pmaxub	xmm2, xmm8
-	pcmpeqb	xmm2, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_21] # xmm6 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm2, xmm6
-	por	xmm2, xmm7
-	movzx	esi, byte ptr [rdx + rax + 20]
-	movd	xmm6, esi
-	por	xmm2, xmm4
-	movzx	esi, byte ptr [rdx + rax + 21]
-	movd	xmm4, esi
-	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rdi + 7], 1
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 7], 2
-	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + rax + 7], 3
-	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r8 + 7], 4
-	pinsrb	xmm9, byte ptr [rdx + r10 + 7], 5
-	pinsrb	xmm9, byte ptr [rdx + r13 + 7], 6
-	pinsrb	xmm9, byte ptr [rdx + r14 + 7], 7
-	pinsrb	xmm9, byte ptr [rdx + rbx + 7], 8
-	pinsrb	xmm9, byte ptr [rdx + r11 + 7], 9
-	mov	rcx, r11
-	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r11 + 7], 10
-	pinsrb	xmm9, byte ptr [rdx + r12 + 7], 11
-	pinsrb	xmm9, byte ptr [rdx + r9 + 7], 12
-	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r13 + 7], 13
-	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm9, byte ptr [rdx + r12 + 7], 14
-	pinsrb	xmm9, byte ptr [rdx + r15 + 7], 15
-	pmaxub	xmm9, xmm8
-	pcmpeqb	xmm9, xmm8
-	movdqa	xmm7, xmmword ptr [rip + .LCPI11_6] # xmm7 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm9, xmm7
-	por	xmm9, xmm2
-	movdqa	xmmword ptr [rsp + 208], xmm9   # 16-byte Spill
-	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r9 + 22]
-	movd	xmm7, esi
-	movdqa	xmm2, xmmword ptr [rsp + 224]   # 16-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rdi + 8], 1
-	mov	r14, rdi
-	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rdi + 8], 2
-	pinsrb	xmm2, byte ptr [rdx + rax + 8], 3
-	mov	r15, rax
-	pinsrb	xmm2, byte ptr [rdx + r8 + 8], 4
-	pinsrb	xmm2, byte ptr [rdx + r10 + 8], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rax + 8], 6
-	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rsi + 8], 7
-	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rbx + 8], 8
-	pinsrb	xmm2, byte ptr [rdx + rcx + 8], 9
-	pinsrb	xmm2, byte ptr [rdx + r11 + 8], 10
-	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + rcx + 8], 11
-	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r11 + 8], 12
-	mov	rsi, r13
-	pinsrb	xmm2, byte ptr [rdx + r13 + 8], 13
-	pinsrb	xmm2, byte ptr [rdx + r12 + 8], 14
-	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm2, byte ptr [rdx + r13 + 8], 15
-	pmaxub	xmm2, xmm8
-	pcmpeqb	xmm2, xmm8
-	pinsrb	xmm10, byte ptr [rdx + r14 + 9], 1
-	pinsrb	xmm10, byte ptr [rdx + rdi + 9], 2
-	pinsrb	xmm10, byte ptr [rdx + r15 + 9], 3
-	mov	r14, r15
-	pinsrb	xmm10, byte ptr [rdx + r8 + 9], 4
-	mov	r15, r8
-	pinsrb	xmm10, byte ptr [rdx + r10 + 9], 5
-	pinsrb	xmm10, byte ptr [rdx + rax + 9], 6
-	mov	r8, rax
-	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rax + 9], 7
-	pinsrb	xmm10, byte ptr [rdx + rbx + 9], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rax + 9], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm10, byte ptr [rdx + rax + 9], 10
-	pinsrb	xmm10, byte ptr [rdx + rcx + 9], 11
-	mov	rcx, r11
-	pinsrb	xmm10, byte ptr [rdx + r11 + 9], 12
-	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 13
-	pinsrb	xmm10, byte ptr [rdx + r12 + 9], 14
-	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 15
-	pmaxub	xmm10, xmm8
-	pcmpeqb	xmm10, xmm8
-	pand	xmm10, xmmword ptr [rip + .LCPI11_16]
-	psubb	xmm10, xmm2
-	movzx	esi, byte ptr [rdx + r9 + 23]
-	movd	xmm2, esi
-	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r11 + 10], 1
-	pinsrb	xmm12, byte ptr [rdx + rdi + 10], 2
-	mov	r10, rdi
-	mov	rsi, r14
-	pinsrb	xmm12, byte ptr [rdx + r14 + 10], 3
-	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 4
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r14 + 10], 5
-	pinsrb	xmm12, byte ptr [rdx + r8 + 10], 6
-	mov	rbx, r8
-	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 7
-	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r13 + 10], 8
-	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rdi + 10], 9
-	pinsrb	xmm12, byte ptr [rdx + rax + 10], 10
-	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + r8 + 10], 11
-	mov	r9, rcx
-	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rax + 10], 13
-	pinsrb	xmm12, byte ptr [rdx + r12 + 10], 14
-	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 15
-	pinsrb	xmm11, byte ptr [rdx + r11 + 11], 1
-	pinsrb	xmm11, byte ptr [rdx + r10 + 11], 2
-	pinsrb	xmm11, byte ptr [rdx + rsi + 11], 3
-	mov	r10, rsi
-	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rsi + 11], 4
-	pinsrb	xmm11, byte ptr [rdx + r14 + 11], 5
-	pinsrb	xmm11, byte ptr [rdx + rbx + 11], 6
-	pinsrb	xmm11, byte ptr [rdx + r15 + 11], 7
-	mov	r14, r15
-	pinsrb	xmm11, byte ptr [rdx + r13 + 11], 8
-	pinsrb	xmm11, byte ptr [rdx + rdi + 11], 9
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rbx + 11], 10
-	pinsrb	xmm11, byte ptr [rdx + r8 + 11], 11
-	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 12
-	pinsrb	xmm11, byte ptr [rdx + rax + 11], 13
-	pinsrb	xmm11, byte ptr [rdx + r12 + 11], 14
-	pinsrb	xmm11, byte ptr [rdx + rcx + 11], 15
-	pmaxub	xmm12, xmm8
-	pcmpeqb	xmm12, xmm8
-	pand	xmm12, xmmword ptr [rip + .LCPI11_17]
-	pmaxub	xmm11, xmm8
-	pcmpeqb	xmm11, xmm8
-	pand	xmm11, xmmword ptr [rip + .LCPI11_18]
-	por	xmm11, xmm12
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 24]
-	movd	xmm9, esi
-	por	xmm11, xmm10
-	movzx	esi, byte ptr [rdx + rax + 25]
-	movd	xmm12, esi
-	pinsrb	xmm13, byte ptr [rdx + r11 + 12], 1
-	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r12 + 12], 2
-	mov	r11, r10
-	pinsrb	xmm13, byte ptr [rdx + r10 + 12], 3
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rdi + 12], 4
-	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r15 + 12], 5
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + r10 + 12], 6
-	pinsrb	xmm13, byte ptr [rdx + r14 + 12], 7
-	pinsrb	xmm13, byte ptr [rdx + r13 + 12], 8
-	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rcx + 12], 9
-	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 10
-	pinsrb	xmm13, byte ptr [rdx + r8 + 12], 11
-	pinsrb	xmm13, byte ptr [rdx + r9 + 12], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 12], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rax + 12], 14
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm13, byte ptr [rdx + rsi + 12], 15
-	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 13], 1
-	pinsrb	xmm0, byte ptr [rdx + r12 + 13], 2
-	pinsrb	xmm0, byte ptr [rdx + r11 + 13], 3
-	pinsrb	xmm0, byte ptr [rdx + rdi + 13], 4
-	pinsrb	xmm0, byte ptr [rdx + r15 + 13], 5
-	pinsrb	xmm0, byte ptr [rdx + r10 + 13], 6
-	pinsrb	xmm0, byte ptr [rdx + r14 + 13], 7
-	pinsrb	xmm0, byte ptr [rdx + r13 + 13], 8
-	pinsrb	xmm0, byte ptr [rdx + rcx + 13], 9
-	pinsrb	xmm0, byte ptr [rdx + rbx + 13], 10
-	pinsrb	xmm0, byte ptr [rdx + r8 + 13], 11
-	pinsrb	xmm0, byte ptr [rdx + r9 + 13], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 13], 13
-	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 13], 14
-	pinsrb	xmm0, byte ptr [rdx + rsi + 13], 15
-	mov	rax, rsi
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rsi + 14], 1
-	pinsrb	xmm14, byte ptr [rdx + r12 + 14], 2
-	pinsrb	xmm14, byte ptr [rdx + r11 + 14], 3
-	pinsrb	xmm14, byte ptr [rdx + rdi + 14], 4
-	pinsrb	xmm14, byte ptr [rdx + r15 + 14], 5
-	pinsrb	xmm14, byte ptr [rdx + r10 + 14], 6
-	pinsrb	xmm14, byte ptr [rdx + r14 + 14], 7
-	mov	r15, r14
-	pinsrb	xmm14, byte ptr [rdx + r13 + 14], 8
-	pinsrb	xmm14, byte ptr [rdx + rcx + 14], 9
-	mov	r14, rcx
-	pinsrb	xmm14, byte ptr [rdx + rbx + 14], 10
-	pinsrb	xmm14, byte ptr [rdx + r8 + 14], 11
-	pinsrb	xmm14, byte ptr [rdx + r9 + 14], 12
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + rcx + 14], 13
-	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm14, byte ptr [rdx + r13 + 14], 14
-	pinsrb	xmm14, byte ptr [rdx + rax + 14], 15
-	pmaxub	xmm13, xmm8
-	pcmpeqb	xmm13, xmm8
-	pand	xmm13, xmmword ptr [rip + .LCPI11_19]
-	pmaxub	xmm0, xmm8
-	pcmpeqb	xmm0, xmm8
-	pand	xmm0, xmmword ptr [rip + .LCPI11_20]
-	por	xmm0, xmm13
-	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + r12 + 26]
-	movd	xmm13, esi
-	pmaxub	xmm14, xmm8
-	pcmpeqb	xmm14, xmm8
-	pand	xmm14, xmmword ptr [rip + .LCPI11_21]
-	por	xmm14, xmm0
-	movzx	esi, byte ptr [rdx + r12 + 27]
-	movd	xmm10, esi
-	por	xmm14, xmm11
-	movzx	esi, byte ptr [rdx + r12 + 28]
-	movd	xmm11, esi
-	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
-	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rcx + 15], 1
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 15], 2
-	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rdi + 15], 3
-	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r9 + 15], 4
-	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r10 + 15], 5
-	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 15], 6
-	pinsrb	xmm0, byte ptr [rdx + r15 + 15], 7
-	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rax + 15], 8
-	pinsrb	xmm0, byte ptr [rdx + r14 + 15], 9
-	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rbx + 15], 10
-	pinsrb	xmm0, byte ptr [rdx + r8 + 15], 11
-	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r8 + 15], 12
-	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + rsi + 15], 13
-	pinsrb	xmm0, byte ptr [rdx + r13 + 15], 14
-	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm0, byte ptr [rdx + r11 + 15], 15
-	pmaxub	xmm0, xmm8
-	pcmpeqb	xmm0, xmm8
-	pand	xmm0, xmmword ptr [rip + .LCPI11_6]
-	por	xmm0, xmm14
-	movdqa	xmmword ptr [rsp + 176], xmm0   # 16-byte Spill
-	movzx	esi, byte ptr [rdx + r12 + 29]
-	movd	xmm14, esi
-	pinsrb	xmm1, byte ptr [rdx + rcx + 16], 1
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rsi + 16], 2
-	mov	r12, rsi
-	pinsrb	xmm1, byte ptr [rdx + rdi + 16], 3
-	pinsrb	xmm1, byte ptr [rdx + r9 + 16], 4
-	pinsrb	xmm1, byte ptr [rdx + r10 + 16], 5
-	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r9 + 16], 6
-	pinsrb	xmm1, byte ptr [rdx + r15 + 16], 7
-	pinsrb	xmm1, byte ptr [rdx + rax + 16], 8
-	pinsrb	xmm1, byte ptr [rdx + r14 + 16], 9
-	pinsrb	xmm1, byte ptr [rdx + rbx + 16], 10
-	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + r14 + 16], 11
-	pinsrb	xmm1, byte ptr [rdx + r8 + 16], 12
-	mov	r10, r8
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm1, byte ptr [rdx + rax + 16], 13
-	pinsrb	xmm1, byte ptr [rdx + r13 + 16], 14
-	mov	rsi, r11
-	pinsrb	xmm1, byte ptr [rdx + r11 + 16], 15
-	pmaxub	xmm1, xmm8
-	pcmpeqb	xmm1, xmm8
-	pinsrb	xmm5, byte ptr [rdx + rcx + 17], 1
-	pinsrb	xmm5, byte ptr [rdx + r12 + 17], 2
-	mov	r11, r12
-	pinsrb	xmm5, byte ptr [rdx + rdi + 17], 3
-	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rdi + 17], 4
-	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rcx + 17], 5
-	pinsrb	xmm5, byte ptr [rdx + r9 + 17], 6
-	pinsrb	xmm5, byte ptr [rdx + r15 + 17], 7
-	mov	r9, r15
-	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + rcx + 17], 8
-	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm5, byte ptr [rdx + r15 + 17], 9
-	pinsrb	xmm5, byte ptr [rdx + rbx + 17], 10
-	mov	r8, r14
-	pinsrb	xmm5, byte ptr [rdx + r14 + 17], 11
-	pinsrb	xmm5, byte ptr [rdx + r10 + 17], 12
-	mov	r12, r10
-	pinsrb	xmm5, byte ptr [rdx + rax + 17], 13
-	pinsrb	xmm5, byte ptr [rdx + r13 + 17], 14
-	pinsrb	xmm5, byte ptr [rdx + rsi + 17], 15
-	pmaxub	xmm5, xmm8
-	pcmpeqb	xmm5, xmm8
-	pand	xmm5, xmmword ptr [rip + .LCPI11_16]
-	psubb	xmm5, xmm1
-	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
-	movzx	esi, byte ptr [rdx + rax + 30]
-	movd	xmm1, esi
-	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rsi + 18], 1
-	pinsrb	xmm3, byte ptr [rdx + rsi + 19], 1
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 1
-	pinsrb	xmm4, byte ptr [rdx + rsi + 21], 1
-	pinsrb	xmm7, byte ptr [rdx + rsi + 22], 1
-	pinsrb	xmm2, byte ptr [rdx + rsi + 23], 1
-	pinsrb	xmm9, byte ptr [rdx + rsi + 24], 1
-	pinsrb	xmm12, byte ptr [rdx + rsi + 25], 1
-	pinsrb	xmm13, byte ptr [rdx + rsi + 26], 1
-	pinsrb	xmm10, byte ptr [rdx + rsi + 27], 1
-	pinsrb	xmm11, byte ptr [rdx + rsi + 28], 1
-	pinsrb	xmm14, byte ptr [rdx + rsi + 29], 1
-	pinsrb	xmm1, byte ptr [rdx + rsi + 30], 1
-	movzx	eax, byte ptr [rdx + rax + 31]
-	movd	xmm0, eax
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 1
-	pinsrb	xmm15, byte ptr [rdx + r11 + 18], 2
-	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r11 + 18], 3
-	pinsrb	xmm15, byte ptr [rdx + rdi + 18], 4
-	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r14 + 18], 5
-	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r10 + 18], 6
-	pinsrb	xmm15, byte ptr [rdx + r9 + 18], 7
-	mov	rsi, rcx
-	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 8
-	pinsrb	xmm15, byte ptr [rdx + r15 + 18], 9
-	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 10
-	pinsrb	xmm15, byte ptr [rdx + r8 + 18], 11
-	pinsrb	xmm15, byte ptr [rdx + r12 + 18], 12
-	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rax + 18], 13
-	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + rbx + 18], 14
-	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm15, byte ptr [rdx + r13 + 18], 15
-	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rbx + 19], 2
-	pinsrb	xmm3, byte ptr [rdx + r11 + 19], 3
-	pinsrb	xmm3, byte ptr [rdx + rdi + 19], 4
-	pinsrb	xmm3, byte ptr [rdx + r14 + 19], 5
-	pinsrb	xmm3, byte ptr [rdx + r10 + 19], 6
-	mov	r13, r10
-	pinsrb	xmm3, byte ptr [rdx + r9 + 19], 7
-	pinsrb	xmm3, byte ptr [rdx + rsi + 19], 8
-	mov	r10, rsi
-	pinsrb	xmm3, byte ptr [rdx + r15 + 19], 9
-	pinsrb	xmm3, byte ptr [rdx + rcx + 19], 10
-	pinsrb	xmm3, byte ptr [rdx + r8 + 19], 11
-	mov	rcx, r12
-	pinsrb	xmm3, byte ptr [rdx + r12 + 19], 12
-	pinsrb	xmm3, byte ptr [rdx + rax + 19], 13
-	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + r8 + 19], 14
-	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm3, byte ptr [rdx + rax + 19], 15
-	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 2
-	pinsrb	xmm4, byte ptr [rdx + rsi + 21], 2
-	pinsrb	xmm7, byte ptr [rdx + rsi + 22], 2
-	pinsrb	xmm2, byte ptr [rdx + rsi + 23], 2
-	pinsrb	xmm9, byte ptr [rdx + rsi + 24], 2
-	pinsrb	xmm12, byte ptr [rdx + rsi + 25], 2
-	pinsrb	xmm13, byte ptr [rdx + rsi + 26], 2
-	pinsrb	xmm10, byte ptr [rdx + rsi + 27], 2
-	pinsrb	xmm11, byte ptr [rdx + rsi + 28], 2
-	pinsrb	xmm14, byte ptr [rdx + rsi + 29], 2
-	pinsrb	xmm1, byte ptr [rdx + rsi + 30], 2
-	pmaxub	xmm15, xmm8
-	pcmpeqb	xmm15, xmm8
-	pand	xmm15, xmmword ptr [rip + .LCPI11_17]
-	pmaxub	xmm3, xmm8
-	pcmpeqb	xmm3, xmm8
-	pand	xmm3, xmmword ptr [rip + .LCPI11_18]
-	por	xmm3, xmm15
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 2
-	por	xmm3, xmm5
-	pinsrb	xmm6, byte ptr [rdx + r11 + 20], 3
-	pinsrb	xmm6, byte ptr [rdx + rdi + 20], 4
-	mov	r9, r14
-	pinsrb	xmm6, byte ptr [rdx + r14 + 20], 5
-	pinsrb	xmm6, byte ptr [rdx + r13 + 20], 6
-	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r14 + 20], 7
-	pinsrb	xmm6, byte ptr [rdx + r10 + 20], 8
-	pinsrb	xmm6, byte ptr [rdx + r15 + 20], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rax + 20], 10
-	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rbx + 20], 11
-	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 12
-	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 13
-	pinsrb	xmm6, byte ptr [rdx + r8 + 20], 14
-	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
-	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 15
-	pinsrb	xmm4, byte ptr [rdx + r11 + 21], 3
-	pinsrb	xmm4, byte ptr [rdx + rdi + 21], 4
-	pinsrb	xmm4, byte ptr [rdx + r9 + 21], 5
-	pinsrb	xmm4, byte ptr [rdx + r13 + 21], 6
-	pinsrb	xmm4, byte ptr [rdx + r14 + 21], 7
-	pinsrb	xmm4, byte ptr [rdx + r10 + 21], 8
-	pinsrb	xmm4, byte ptr [rdx + r15 + 21], 9
-	pinsrb	xmm4, byte ptr [rdx + rax + 21], 10
-	pinsrb	xmm4, byte ptr [rdx + rbx + 21], 11
-	pinsrb	xmm4, byte ptr [rdx + rcx + 21], 12
-	pinsrb	xmm4, byte ptr [rdx + r12 + 21], 13
-	pinsrb	xmm4, byte ptr [rdx + r8 + 21], 14
-	pinsrb	xmm4, byte ptr [rdx + rsi + 21], 15
-	pinsrb	xmm7, byte ptr [rdx + r11 + 22], 3
-	pinsrb	xmm7, byte ptr [rdx + rdi + 22], 4
-	pinsrb	xmm7, byte ptr [rdx + r9 + 22], 5
-	pinsrb	xmm7, byte ptr [rdx + r13 + 22], 6
-	pinsrb	xmm7, byte ptr [rdx + r14 + 22], 7
-	pinsrb	xmm7, byte ptr [rdx + r10 + 22], 8
-	pinsrb	xmm7, byte ptr [rdx + r15 + 22], 9
-	pinsrb	xmm7, byte ptr [rdx + rax + 22], 10
-	pinsrb	xmm7, byte ptr [rdx + rbx + 22], 11
-	pinsrb	xmm7, byte ptr [rdx + rcx + 22], 12
-	pinsrb	xmm7, byte ptr [rdx + r12 + 22], 13
-	pinsrb	xmm7, byte ptr [rdx + r8 + 22], 14
-	pinsrb	xmm7, byte ptr [rdx + rsi + 22], 15
-	pmaxub	xmm6, xmm8
-	pcmpeqb	xmm6, xmm8
-	movdqa	xmm5, xmmword ptr [rip + .LCPI11_19] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
-	pand	xmm6, xmm5
-	pmaxub	xmm4, xmm8
-	pcmpeqb	xmm4, xmm8
-	movdqa	xmm15, xmmword ptr [rip + .LCPI11_20] # xmm15 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
-	pand	xmm4, xmm15
-	por	xmm4, xmm6
-	pmaxub	xmm7, xmm8
-	pcmpeqb	xmm7, xmm8
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_21] # xmm6 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
-	pand	xmm7, xmm6
-	por	xmm7, xmm4
-	por	xmm7, xmm3
-	pinsrb	xmm2, byte ptr [rdx + r11 + 23], 3
-	pinsrb	xmm2, byte ptr [rdx + rdi + 23], 4
-	pinsrb	xmm2, byte ptr [rdx + r9 + 23], 5
-	pinsrb	xmm2, byte ptr [rdx + r13 + 23], 6
-	pinsrb	xmm2, byte ptr [rdx + r14 + 23], 7
-	pinsrb	xmm2, byte ptr [rdx + r10 + 23], 8
-	pinsrb	xmm2, byte ptr [rdx + r15 + 23], 9
-	pinsrb	xmm2, byte ptr [rdx + rax + 23], 10
-	pinsrb	xmm2, byte ptr [rdx + rbx + 23], 11
-	pinsrb	xmm2, byte ptr [rdx + rcx + 23], 12
-	pinsrb	xmm2, byte ptr [rdx + r12 + 23], 13
-	pinsrb	xmm2, byte ptr [rdx + r8 + 23], 14
-	pinsrb	xmm2, byte ptr [rdx + rsi + 23], 15
-	pmaxub	xmm2, xmm8
-	pcmpeqb	xmm2, xmm8
-	movdqa	xmm3, xmmword ptr [rip + .LCPI11_6] # xmm3 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	pand	xmm2, xmm3
-	por	xmm2, xmm7
-	pinsrb	xmm9, byte ptr [rdx + r11 + 24], 3
-	pinsrb	xmm9, byte ptr [rdx + rdi + 24], 4
-	pinsrb	xmm9, byte ptr [rdx + r9 + 24], 5
-	pinsrb	xmm9, byte ptr [rdx + r13 + 24], 6
-	pinsrb	xmm9, byte ptr [rdx + r14 + 24], 7
-	pinsrb	xmm9, byte ptr [rdx + r10 + 24], 8
-	pinsrb	xmm9, byte ptr [rdx + r15 + 24], 9
-	pinsrb	xmm9, byte ptr [rdx + rax + 24], 10
-	pinsrb	xmm9, byte ptr [rdx + rbx + 24], 11
-	pinsrb	xmm9, byte ptr [rdx + rcx + 24], 12
-	pinsrb	xmm9, byte ptr [rdx + r12 + 24], 13
-	pinsrb	xmm9, byte ptr [rdx + r8 + 24], 14
-	pinsrb	xmm9, byte ptr [rdx + rsi + 24], 15
-	pmaxub	xmm9, xmm8
-	pcmpeqb	xmm9, xmm8
-	pinsrb	xmm12, byte ptr [rdx + r11 + 25], 3
-	pinsrb	xmm12, byte ptr [rdx + rdi + 25], 4
-	pinsrb	xmm12, byte ptr [rdx + r9 + 25], 5
-	pinsrb	xmm12, byte ptr [rdx + r13 + 25], 6
-	pinsrb	xmm12, byte ptr [rdx + r14 + 25], 7
-	pinsrb	xmm12, byte ptr [rdx + r10 + 25], 8
-	pinsrb	xmm12, byte ptr [rdx + r15 + 25], 9
-	pinsrb	xmm12, byte ptr [rdx + rax + 25], 10
-	pinsrb	xmm12, byte ptr [rdx + rbx + 25], 11
-	pinsrb	xmm12, byte ptr [rdx + rcx + 25], 12
-	pinsrb	xmm12, byte ptr [rdx + r12 + 25], 13
-	pinsrb	xmm12, byte ptr [rdx + r8 + 25], 14
-	pinsrb	xmm12, byte ptr [rdx + rsi + 25], 15
-	pmaxub	xmm12, xmm8
-	pcmpeqb	xmm12, xmm8
-	pand	xmm12, xmmword ptr [rip + .LCPI11_16]
-	psubb	xmm12, xmm9
-	pinsrb	xmm13, byte ptr [rdx + r11 + 26], 3
-	pinsrb	xmm13, byte ptr [rdx + rdi + 26], 4
-	pinsrb	xmm13, byte ptr [rdx + r9 + 26], 5
-	pinsrb	xmm13, byte ptr [rdx + r13 + 26], 6
-	pinsrb	xmm13, byte ptr [rdx + r14 + 26], 7
-	pinsrb	xmm13, byte ptr [rdx + r10 + 26], 8
-	pinsrb	xmm13, byte ptr [rdx + r15 + 26], 9
-	pinsrb	xmm13, byte ptr [rdx + rax + 26], 10
-	pinsrb	xmm13, byte ptr [rdx + rbx + 26], 11
-	pinsrb	xmm13, byte ptr [rdx + rcx + 26], 12
-	pinsrb	xmm13, byte ptr [rdx + r12 + 26], 13
-	pinsrb	xmm13, byte ptr [rdx + r8 + 26], 14
-	pinsrb	xmm13, byte ptr [rdx + rsi + 26], 15
-	pinsrb	xmm10, byte ptr [rdx + r11 + 27], 3
-	pinsrb	xmm10, byte ptr [rdx + rdi + 27], 4
-	pinsrb	xmm10, byte ptr [rdx + r9 + 27], 5
-	pinsrb	xmm10, byte ptr [rdx + r13 + 27], 6
-	pinsrb	xmm10, byte ptr [rdx + r14 + 27], 7
-	pinsrb	xmm10, byte ptr [rdx + r10 + 27], 8
-	pinsrb	xmm10, byte ptr [rdx + r15 + 27], 9
-	pinsrb	xmm10, byte ptr [rdx + rax + 27], 10
-	pinsrb	xmm10, byte ptr [rdx + rbx + 27], 11
-	pinsrb	xmm10, byte ptr [rdx + rcx + 27], 12
-	pinsrb	xmm10, byte ptr [rdx + r12 + 27], 13
-	pinsrb	xmm10, byte ptr [rdx + r8 + 27], 14
-	pinsrb	xmm10, byte ptr [rdx + rsi + 27], 15
-	pmaxub	xmm13, xmm8
-	pcmpeqb	xmm13, xmm8
-	pand	xmm13, xmmword ptr [rip + .LCPI11_17]
-	pmaxub	xmm10, xmm8
-	pcmpeqb	xmm10, xmm8
-	pand	xmm10, xmmword ptr [rip + .LCPI11_18]
-	por	xmm10, xmm13
-	por	xmm10, xmm12
-	pinsrb	xmm11, byte ptr [rdx + r11 + 28], 3
-	pinsrb	xmm14, byte ptr [rdx + r11 + 29], 3
-	pinsrb	xmm1, byte ptr [rdx + r11 + 30], 3
-	pinsrb	xmm0, byte ptr [rdx + r11 + 31], 3
-	pinsrb	xmm11, byte ptr [rdx + rdi + 28], 4
-	pinsrb	xmm14, byte ptr [rdx + rdi + 29], 4
-	pinsrb	xmm1, byte ptr [rdx + rdi + 30], 4
-	pinsrb	xmm0, byte ptr [rdx + rdi + 31], 4
-	pinsrb	xmm11, byte ptr [rdx + r9 + 28], 5
-	pinsrb	xmm14, byte ptr [rdx + r9 + 29], 5
-	pinsrb	xmm1, byte ptr [rdx + r9 + 30], 5
-	pinsrb	xmm0, byte ptr [rdx + r9 + 31], 5
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + r13 + 28], 6
-	pinsrb	xmm14, byte ptr [rdx + r13 + 29], 6
-	pinsrb	xmm1, byte ptr [rdx + r13 + 30], 6
-	pinsrb	xmm0, byte ptr [rdx + r13 + 31], 6
-	mov	rax, r14
-	pinsrb	xmm11, byte ptr [rdx + r14 + 28], 7
-	pinsrb	xmm14, byte ptr [rdx + r14 + 29], 7
-	pinsrb	xmm1, byte ptr [rdx + r14 + 30], 7
-	pinsrb	xmm0, byte ptr [rdx + r14 + 31], 7
-	pinsrb	xmm11, byte ptr [rdx + r10 + 28], 8
-	pinsrb	xmm14, byte ptr [rdx + r10 + 29], 8
-	pinsrb	xmm1, byte ptr [rdx + r10 + 30], 8
-	pinsrb	xmm0, byte ptr [rdx + r10 + 31], 8
-	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rax + 28], 9
-	pinsrb	xmm14, byte ptr [rdx + rax + 29], 9
-	pinsrb	xmm1, byte ptr [rdx + rax + 30], 9
-	pinsrb	xmm0, byte ptr [rdx + rax + 31], 9
-	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
-	pinsrb	xmm11, byte ptr [rdx + rax + 28], 10
-	pinsrb	xmm14, byte ptr [rdx + rax + 29], 10
-	pinsrb	xmm1, byte ptr [rdx + rax + 30], 10
-	pinsrb	xmm0, byte ptr [rdx + rax + 31], 10
-	mov	rax, rbx
-	pinsrb	xmm11, byte ptr [rdx + rbx + 28], 11
-	pinsrb	xmm14, byte ptr [rdx + rbx + 29], 11
-	pinsrb	xmm1, byte ptr [rdx + rbx + 30], 11
-	pinsrb	xmm0, byte ptr [rdx + rbx + 31], 11
-	pinsrb	xmm11, byte ptr [rdx + rcx + 28], 12
-	pinsrb	xmm14, byte ptr [rdx + rcx + 29], 12
-	pinsrb	xmm1, byte ptr [rdx + rcx + 30], 12
-	pinsrb	xmm0, byte ptr [rdx + rcx + 31], 12
-	mov	rax, r12
-	pinsrb	xmm11, byte ptr [rdx + r12 + 28], 13
-	pinsrb	xmm14, byte ptr [rdx + r12 + 29], 13
-	pinsrb	xmm1, byte ptr [rdx + r12 + 30], 13
-	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 13
-	mov	rax, r8
-	pinsrb	xmm11, byte ptr [rdx + r8 + 28], 14
-	pinsrb	xmm14, byte ptr [rdx + r8 + 29], 14
-	pinsrb	xmm1, byte ptr [rdx + r8 + 30], 14
-	pinsrb	xmm0, byte ptr [rdx + r8 + 31], 14
-	mov	rax, rsi
-	pinsrb	xmm11, byte ptr [rdx + rsi + 28], 15
-	pinsrb	xmm14, byte ptr [rdx + rsi + 29], 15
-	pinsrb	xmm1, byte ptr [rdx + rsi + 30], 15
-	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 15
-	pmaxub	xmm11, xmm8
-	pcmpeqb	xmm11, xmm8
-	pand	xmm11, xmm5
-	pmaxub	xmm14, xmm8
-	pcmpeqb	xmm14, xmm8
-	pand	xmm14, xmm15
-	por	xmm14, xmm11
-	pmaxub	xmm1, xmm8
-	pcmpeqb	xmm1, xmm8
-	pand	xmm1, xmm6
-	por	xmm1, xmm14
-	por	xmm1, xmm10
-	pmaxub	xmm0, xmm8
-	pcmpeqb	xmm0, xmm8
-	pand	xmm0, xmm3
-	por	xmm0, xmm1
-	movdqa	xmm1, xmm2
-	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-	movdqa	xmm5, xmmword ptr [rsp + 208]   # 16-byte Reload
-	movdqa	xmm3, xmm5
-	movdqa	xmm6, xmmword ptr [rsp + 176]   # 16-byte Reload
-	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
-	movdqa	xmm4, xmm3
-	punpcklwd	xmm4, xmm1              # xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3]
-	punpckhwd	xmm3, xmm1              # xmm3 = xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
-	punpckhbw	xmm2, xmm0              # xmm2 = xmm2[8],xmm0[8],xmm2[9],xmm0[9],xmm2[10],xmm0[10],xmm2[11],xmm0[11],xmm2[12],xmm0[12],xmm2[13],xmm0[13],xmm2[14],xmm0[14],xmm2[15],xmm0[15]
-	punpckhbw	xmm5, xmm6              # xmm5 = xmm5[8],xmm6[8],xmm5[9],xmm6[9],xmm5[10],xmm6[10],xmm5[11],xmm6[11],xmm5[12],xmm6[12],xmm5[13],xmm6[13],xmm5[14],xmm6[14],xmm5[15],xmm6[15]
-	movdqa	xmm0, xmm5
-	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
-	punpckhwd	xmm5, xmm2              # xmm5 = xmm5[4],xmm2[4],xmm5[5],xmm2[5],xmm5[6],xmm2[6],xmm5[7],xmm2[7]
-	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
-	movdqu	xmmword ptr [r15 + 4*rcx + 48], xmm5
-	movdqu	xmmword ptr [r15 + 4*rcx + 32], xmm0
-	movdqu	xmmword ptr [r15 + 4*rcx + 16], xmm3
-	movdqu	xmmword ptr [r15 + 4*rcx], xmm4
-	add	rcx, 16
-	mov	rax, rcx
-	cmp	rcx, qword ptr [rsp + 192]      # 8-byte Folded Reload
-	jne	.LBB11_67
-# %bb.68:
-	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 192]      # 8-byte Folded Reload
-	mov	r14b, byte ptr [rsp]            # 1-byte Reload
-	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
-	mov	rdx, qword ptr [rsp + 280]      # 8-byte Reload
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	jne	.LBB11_69
-	jmp	.LBB11_72
-.LBB11_124:
-	and	r10, -8
-	mov	rax, r10
-	shl	rax, 6
-	add	rax, rdx
-	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
-	mov	qword ptr [rsp + 32], r10       # 8-byte Spill
-	lea	rax, [r15 + 4*r10]
-	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
-	movd	xmm0, r14d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
-	xor	r14d, r14d
-	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
-	pxor	xmm15, xmm15
-	.p2align	4, 0x90
-.LBB11_125:                             # =>This Inner Loop Header: Depth=1
-	mov	qword ptr [rsp + 16], r14       # 8-byte Spill
-	shl	r14, 6
-	mov	rdi, r14
-	mov	r15, r14
-	mov	r12, r14
-	mov	r13, r14
-	mov	rbx, r14
-	mov	r9, r14
-	movzx	eax, word ptr [rdx + r14]
-	movd	xmm5, eax
-	movzx	eax, word ptr [rdx + r14 + 2]
-	movd	xmm0, eax
-	movzx	eax, word ptr [rdx + r14 + 4]
-	movd	xmm1, eax
-	movzx	eax, word ptr [rdx + r14 + 6]
-	movd	xmm7, eax
-	movzx	eax, word ptr [rdx + r14 + 8]
-	movd	xmm8, eax
-	movzx	eax, word ptr [rdx + r14 + 10]
-	movd	xmm4, eax
-	movzx	eax, word ptr [rdx + r14 + 12]
-	movzx	esi, word ptr [rdx + r14 + 14]
-	movzx	ecx, word ptr [rdx + r14 + 16]
-	mov	dword ptr [rsp + 24], ecx       # 4-byte Spill
-	movzx	r10d, word ptr [rdx + r14 + 18]
-	movzx	r11d, word ptr [rdx + r14 + 20]
-	mov	rcx, r14
-	or	rcx, 64
-	or	rdi, 128
-	or	r15, 192
-	or	r12, 256
-	or	r13, 320
-	or	rbx, 384
-	pinsrw	xmm5, word ptr [rdx + rcx], 1
-	pinsrw	xmm5, word ptr [rdx + rdi], 2
-	pinsrw	xmm5, word ptr [rdx + r15], 3
-	pinsrw	xmm5, word ptr [rdx + r12], 4
-	pinsrw	xmm5, word ptr [rdx + r13], 5
-	pinsrw	xmm5, word ptr [rdx + rbx], 6
-	pinsrw	xmm0, word ptr [rdx + rcx + 2], 1
-	pinsrw	xmm0, word ptr [rdx + rdi + 2], 2
-	pinsrw	xmm0, word ptr [rdx + r15 + 2], 3
-	pinsrw	xmm0, word ptr [rdx + r12 + 2], 4
-	pinsrw	xmm0, word ptr [rdx + r13 + 2], 5
-	pinsrw	xmm0, word ptr [rdx + rbx + 2], 6
-	or	r9, 448
-	pinsrw	xmm0, word ptr [rdx + r9 + 2], 7
-	movd	xmm2, eax
-	movzx	eax, word ptr [rdx + r14 + 22]
-	mov	dword ptr [rsp + 8], eax        # 4-byte Spill
-	pcmpgtw	xmm0, xmm11
-	pinsrw	xmm1, word ptr [rdx + rcx + 4], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 4], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 4], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 4], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 4], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 4], 6
-	pinsrw	xmm1, word ptr [rdx + r9 + 4], 7
-	packsswb	xmm0, xmm0
-	pcmpgtw	xmm1, xmm11
-	movdqa	xmm9, xmmword ptr [rip + .LCPI11_8] # xmm9 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm3, xmm9
-	pblendvb	xmm3, xmm15, xmm0
-	packsswb	xmm1, xmm1
-	movdqa	xmm0, xmmword ptr [rip + .LCPI11_9] # xmm0 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm0
-	movdqa	xmm14, xmm0
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm1, esi
-	movzx	r8d, word ptr [rdx + r14 + 24]
-	pinsrw	xmm5, word ptr [rdx + r9], 7
-	pcmpgtw	xmm5, xmm11
-	pcmpeqd	xmm0, xmm0
-	pxor	xmm5, xmm0
-	packsswb	xmm5, xmm5
-	pinsrw	xmm7, word ptr [rdx + rcx + 6], 1
-	pinsrw	xmm7, word ptr [rdx + rdi + 6], 2
-	pinsrw	xmm7, word ptr [rdx + r15 + 6], 3
-	pinsrw	xmm7, word ptr [rdx + r12 + 6], 4
-	pinsrw	xmm7, word ptr [rdx + r13 + 6], 5
-	pinsrw	xmm7, word ptr [rdx + rbx + 6], 6
-	pinsrw	xmm7, word ptr [rdx + r9 + 6], 7
-	pcmpgtw	xmm7, xmm11
-	packsswb	xmm7, xmm7
-	pinsrw	xmm8, word ptr [rdx + rcx + 8], 1
-	pinsrw	xmm8, word ptr [rdx + rdi + 8], 2
-	pinsrw	xmm8, word ptr [rdx + r15 + 8], 3
-	pinsrw	xmm8, word ptr [rdx + r12 + 8], 4
-	pinsrw	xmm8, word ptr [rdx + r13 + 8], 5
-	pinsrw	xmm8, word ptr [rdx + rbx + 8], 6
-	pinsrw	xmm8, word ptr [rdx + r9 + 8], 7
-	psubb	xmm3, xmm5
-	movdqa	xmm12, xmmword ptr [rip + .LCPI11_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm7
-	pblendvb	xmm12, xmm15, xmm0
-	movd	xmm7, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rdx + r14 + 26]
-	pcmpgtw	xmm8, xmm11
-	packsswb	xmm8, xmm8
-	por	xmm12, xmm6
-	movdqa	xmm13, xmmword ptr [rip + .LCPI11_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm8
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm6, r10d
-	movzx	r10d, word ptr [rdx + r14 + 28]
-	pinsrw	xmm4, word ptr [rdx + rcx + 10], 1
-	pinsrw	xmm4, word ptr [rdx + rdi + 10], 2
-	pinsrw	xmm4, word ptr [rdx + r15 + 10], 3
-	pinsrw	xmm4, word ptr [rdx + r12 + 10], 4
-	pinsrw	xmm4, word ptr [rdx + r13 + 10], 5
-	pinsrw	xmm4, word ptr [rdx + rbx + 10], 6
-	pinsrw	xmm4, word ptr [rdx + r9 + 10], 7
-	pcmpgtw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	pinsrw	xmm2, word ptr [rdx + rcx + 12], 1
-	pinsrw	xmm2, word ptr [rdx + rdi + 12], 2
-	pinsrw	xmm2, word ptr [rdx + r15 + 12], 3
-	pinsrw	xmm2, word ptr [rdx + r12 + 12], 4
-	pinsrw	xmm2, word ptr [rdx + r13 + 12], 5
-	pinsrw	xmm2, word ptr [rdx + rbx + 12], 6
-	por	xmm12, xmm3
-	movdqa	xmm5, xmmword ptr [rip + .LCPI11_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm4, r11d
-	movzx	esi, word ptr [rdx + r14 + 30]
-	mov	dword ptr [rsp + 40], esi       # 4-byte Spill
-	pinsrw	xmm2, word ptr [rdx + r9 + 12], 7
-	pcmpgtw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm13
-	movdqa	xmm13, xmmword ptr [rip + .LCPI11_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm3, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	esi, word ptr [rdx + r14 + 32]
-	mov	dword ptr [rsp + 24], esi       # 4-byte Spill
-	pinsrw	xmm1, word ptr [rdx + rcx + 14], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 14], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 14], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 14], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 14], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 14], 6
-	por	xmm13, xmm5
-	movd	xmm2, r8d
-	movzx	esi, word ptr [rdx + r14 + 34]
-	mov	dword ptr [rsp + 8], esi        # 4-byte Spill
-	pinsrw	xmm1, word ptr [rdx + r9 + 14], 7
-	pcmpgtw	xmm1, xmm11
-	pinsrw	xmm6, word ptr [rdx + rcx + 18], 1
-	pinsrw	xmm6, word ptr [rdx + rdi + 18], 2
-	pinsrw	xmm6, word ptr [rdx + r15 + 18], 3
-	pinsrw	xmm6, word ptr [rdx + r12 + 18], 4
-	pinsrw	xmm6, word ptr [rdx + r13 + 18], 5
-	pinsrw	xmm6, word ptr [rdx + rbx + 18], 6
-	packsswb	xmm1, xmm1
-	pinsrw	xmm6, word ptr [rdx + r9 + 18], 7
-	pcmpgtw	xmm6, xmm11
-	packsswb	xmm6, xmm6
-	por	xmm13, xmm12
-	movdqa	xmm12, xmmword ptr [rip + .LCPI11_14] # xmm12 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm12, xmm15, xmm0
-	movdqa	xmm8, xmm9
-	movdqa	xmm0, xmm6
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm1, eax
-	movzx	r11d, word ptr [rdx + r14 + 36]
-	pinsrw	xmm7, word ptr [rdx + rcx + 16], 1
-	pinsrw	xmm7, word ptr [rdx + rdi + 16], 2
-	pinsrw	xmm7, word ptr [rdx + r15 + 16], 3
-	pinsrw	xmm7, word ptr [rdx + r12 + 16], 4
-	pinsrw	xmm7, word ptr [rdx + r13 + 16], 5
-	pinsrw	xmm7, word ptr [rdx + rbx + 16], 6
-	pinsrw	xmm4, word ptr [rdx + rcx + 20], 1
-	pinsrw	xmm4, word ptr [rdx + rdi + 20], 2
-	pinsrw	xmm4, word ptr [rdx + r15 + 20], 3
-	pinsrw	xmm4, word ptr [rdx + r12 + 20], 4
-	pinsrw	xmm4, word ptr [rdx + r13 + 20], 5
-	pinsrw	xmm4, word ptr [rdx + rbx + 20], 6
-	pinsrw	xmm4, word ptr [rdx + r9 + 20], 7
-	pcmpgtw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm12, xmm13
-	movdqa	xmm5, xmm14
-	movdqa	xmm0, xmm4
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm4, r10d
-	movzx	esi, word ptr [rdx + r14 + 38]
-	pinsrw	xmm7, word ptr [rdx + r9 + 16], 7
-	pcmpgtw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI11_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm3, word ptr [rdx + rcx + 22], 1
-	pinsrw	xmm3, word ptr [rdx + rdi + 22], 2
-	pinsrw	xmm3, word ptr [rdx + r15 + 22], 3
-	pinsrw	xmm3, word ptr [rdx + r12 + 22], 4
-	pinsrw	xmm3, word ptr [rdx + r13 + 22], 5
-	pinsrw	xmm3, word ptr [rdx + rbx + 22], 6
-	pinsrw	xmm3, word ptr [rdx + r9 + 22], 7
-	pcmpgtw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [rdx + rcx + 24], 1
-	pinsrw	xmm2, word ptr [rdx + rdi + 24], 2
-	pinsrw	xmm2, word ptr [rdx + r15 + 24], 3
-	pinsrw	xmm2, word ptr [rdx + r12 + 24], 4
-	pinsrw	xmm2, word ptr [rdx + r13 + 24], 5
-	pinsrw	xmm2, word ptr [rdx + rbx + 24], 6
-	pinsrw	xmm2, word ptr [rdx + r9 + 24], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm10, xmmword ptr [rip + .LCPI11_10] # xmm10 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm14, xmm10
-	movdqa	xmm0, xmm3
-	pblendvb	xmm14, xmm15, xmm0
-	movd	xmm3, dword ptr [rsp + 40]      # 4-byte Folded Reload
-                                        # xmm3 = mem[0],zero,zero,zero
-	movzx	eax, word ptr [rdx + r14 + 40]
-	pcmpgtw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm14, xmm5
-	movdqa	xmm9, xmmword ptr [rip + .LCPI11_11] # xmm9 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm13, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm13, xmm15, xmm0
-	movd	xmm7, dword ptr [rsp + 24]      # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r10d, word ptr [rdx + r14 + 42]
-	pinsrw	xmm1, word ptr [rdx + rcx + 26], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 26], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 26], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 26], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 26], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 26], 6
-	pinsrw	xmm1, word ptr [rdx + r9 + 26], 7
-	pcmpgtw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm4, word ptr [rdx + rcx + 28], 1
-	pinsrw	xmm4, word ptr [rdx + rdi + 28], 2
-	pinsrw	xmm4, word ptr [rdx + r15 + 28], 3
-	pinsrw	xmm4, word ptr [rdx + r12 + 28], 4
-	pinsrw	xmm4, word ptr [rdx + r13 + 28], 5
-	pinsrw	xmm4, word ptr [rdx + rbx + 28], 6
-	por	xmm14, xmm8
-	movdqa	xmm5, xmmword ptr [rip + .LCPI11_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm2, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm2 = mem[0],zero,zero,zero
-	movzx	r8d, word ptr [rdx + r14 + 44]
-	pinsrw	xmm4, word ptr [rdx + r9 + 28], 7
-	pcmpgtw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm5, xmm13
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm4, r11d
-	movzx	r11d, word ptr [rdx + r14 + 46]
-	pinsrw	xmm3, word ptr [rdx + rcx + 30], 1
-	pinsrw	xmm3, word ptr [rdx + rdi + 30], 2
-	pinsrw	xmm3, word ptr [rdx + r15 + 30], 3
-	pinsrw	xmm3, word ptr [rdx + r12 + 30], 4
-	pinsrw	xmm3, word ptr [rdx + r13 + 30], 5
-	pinsrw	xmm3, word ptr [rdx + rbx + 30], 6
-	por	xmm6, xmm5
-	movd	xmm1, esi
-	movzx	esi, word ptr [rdx + r14 + 48]
-	mov	dword ptr [rsp + 8], esi        # 4-byte Spill
-	pinsrw	xmm3, word ptr [rdx + r9 + 30], 7
-	pcmpgtw	xmm3, xmm11
-	pinsrw	xmm2, word ptr [rdx + rcx + 34], 1
-	pinsrw	xmm2, word ptr [rdx + rdi + 34], 2
-	pinsrw	xmm2, word ptr [rdx + r15 + 34], 3
-	pinsrw	xmm2, word ptr [rdx + r12 + 34], 4
-	pinsrw	xmm2, word ptr [rdx + r13 + 34], 5
-	pinsrw	xmm2, word ptr [rdx + rbx + 34], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm2, word ptr [rdx + r9 + 34], 7
-	pcmpgtw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm6, xmm14
-	movdqa	xmm14, xmmword ptr [rip + .LCPI11_14] # xmm14 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
-	movdqa	xmm13, xmm14
-	movdqa	xmm0, xmm3
-	pblendvb	xmm13, xmm15, xmm0
-	movdqa	xmm8, xmmword ptr [rip + .LCPI11_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm2, eax
-	movzx	esi, word ptr [rdx + r14 + 50]
-	pinsrw	xmm7, word ptr [rdx + rcx + 32], 1
-	pinsrw	xmm7, word ptr [rdx + rdi + 32], 2
-	pinsrw	xmm7, word ptr [rdx + r15 + 32], 3
-	pinsrw	xmm7, word ptr [rdx + r12 + 32], 4
-	pinsrw	xmm7, word ptr [rdx + r13 + 32], 5
-	pinsrw	xmm7, word ptr [rdx + rbx + 32], 6
-	pinsrw	xmm4, word ptr [rdx + rcx + 36], 1
-	pinsrw	xmm4, word ptr [rdx + rdi + 36], 2
-	pinsrw	xmm4, word ptr [rdx + r15 + 36], 3
-	pinsrw	xmm4, word ptr [rdx + r12 + 36], 4
-	pinsrw	xmm4, word ptr [rdx + r13 + 36], 5
-	pinsrw	xmm4, word ptr [rdx + rbx + 36], 6
-	pinsrw	xmm4, word ptr [rdx + r9 + 36], 7
-	pcmpgtw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm13, xmm6
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm4
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm3, r10d
-	movzx	r10d, word ptr [rdx + r14 + 52]
-	pinsrw	xmm7, word ptr [rdx + r9 + 32], 7
-	pcmpgtw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI11_22]
-	packsswb	xmm7, xmm7
-	pinsrw	xmm1, word ptr [rdx + rcx + 38], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 38], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 38], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 38], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 38], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 38], 6
-	pinsrw	xmm1, word ptr [rdx + r9 + 38], 7
-	pcmpgtw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	pinsrw	xmm2, word ptr [rdx + rcx + 40], 1
-	pinsrw	xmm2, word ptr [rdx + rdi + 40], 2
-	pinsrw	xmm2, word ptr [rdx + r15 + 40], 3
-	pinsrw	xmm2, word ptr [rdx + r12 + 40], 4
-	pinsrw	xmm2, word ptr [rdx + r13 + 40], 5
-	pinsrw	xmm2, word ptr [rdx + rbx + 40], 6
-	pinsrw	xmm2, word ptr [rdx + r9 + 40], 7
-	psubb	xmm8, xmm7
-	movdqa	xmm5, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm5, xmm15, xmm0
-	movd	xmm1, r8d
-	movzx	r8d, word ptr [rdx + r14 + 54]
-	pcmpgtw	xmm2, xmm11
-	packsswb	xmm2, xmm2
-	por	xmm5, xmm6
-	movdqa	xmm6, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm4, r11d
-	movzx	eax, word ptr [rdx + r14 + 56]
-	pinsrw	xmm3, word ptr [rdx + rcx + 42], 1
-	pinsrw	xmm3, word ptr [rdx + rdi + 42], 2
-	pinsrw	xmm3, word ptr [rdx + r15 + 42], 3
-	pinsrw	xmm3, word ptr [rdx + r12 + 42], 4
-	pinsrw	xmm3, word ptr [rdx + r13 + 42], 5
-	pinsrw	xmm3, word ptr [rdx + rbx + 42], 6
-	pinsrw	xmm3, word ptr [rdx + r9 + 42], 7
-	pcmpgtw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [rdx + rcx + 44], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 44], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 44], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 44], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 44], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 44], 6
-	por	xmm5, xmm8
-	movdqa	xmm9, xmmword ptr [rip + .LCPI11_12] # xmm9 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
-	movdqa	xmm2, xmm9
-	movdqa	xmm0, xmm3
-	pblendvb	xmm2, xmm15, xmm0
-	movd	xmm7, dword ptr [rsp + 8]       # 4-byte Folded Reload
-                                        # xmm7 = mem[0],zero,zero,zero
-	movzx	r11d, word ptr [rdx + r14 + 58]
-	pinsrw	xmm1, word ptr [rdx + r9 + 44], 7
-	pcmpgtw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm2, xmm6
-	movdqa	xmm10, xmmword ptr [rip + .LCPI11_13] # xmm10 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
-	movdqa	xmm6, xmm10
-	movdqa	xmm0, xmm1
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm1, esi
-	movzx	esi, word ptr [rdx + r14 + 60]
-	por	xmm6, xmm2
-	movd	xmm2, r10d
-	pinsrw	xmm4, word ptr [rdx + rcx + 46], 1
-	pinsrw	xmm4, word ptr [rdx + rdi + 46], 2
-	pinsrw	xmm4, word ptr [rdx + r15 + 46], 3
-	pinsrw	xmm4, word ptr [rdx + r12 + 46], 4
-	pinsrw	xmm4, word ptr [rdx + r13 + 46], 5
-	pinsrw	xmm4, word ptr [rdx + rbx + 46], 6
-	pinsrw	xmm4, word ptr [rdx + r9 + 46], 7
-	pcmpgtw	xmm4, xmm11
-	packsswb	xmm4, xmm4
-	por	xmm6, xmm5
-	movdqa	xmm8, xmm14
-	movdqa	xmm0, xmm4
-	pblendvb	xmm8, xmm15, xmm0
-	movd	xmm3, r8d
-	pinsrw	xmm1, word ptr [rdx + rcx + 50], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 50], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 50], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 50], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 50], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 50], 6
-	pinsrw	xmm1, word ptr [rdx + r9 + 50], 7
-	pcmpgtw	xmm1, xmm11
-	packsswb	xmm1, xmm1
-	por	xmm8, xmm6
-	movdqa	xmm4, xmmword ptr [rip + .LCPI11_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm15, xmm0
-	movd	xmm1, eax
-	pinsrw	xmm7, word ptr [rdx + rcx + 48], 1
-	pinsrw	xmm7, word ptr [rdx + rdi + 48], 2
-	pinsrw	xmm7, word ptr [rdx + r15 + 48], 3
-	pinsrw	xmm7, word ptr [rdx + r12 + 48], 4
-	pinsrw	xmm7, word ptr [rdx + r13 + 48], 5
-	pinsrw	xmm7, word ptr [rdx + rbx + 48], 6
-	pinsrw	xmm7, word ptr [rdx + r9 + 48], 7
-	pcmpgtw	xmm7, xmm11
-	pxor	xmm7, xmmword ptr [rip + .LCPI11_22]
-	pinsrw	xmm2, word ptr [rdx + rcx + 52], 1
-	pinsrw	xmm2, word ptr [rdx + rdi + 52], 2
-	pinsrw	xmm2, word ptr [rdx + r15 + 52], 3
-	pinsrw	xmm2, word ptr [rdx + r12 + 52], 4
-	pinsrw	xmm2, word ptr [rdx + r13 + 52], 5
-	pinsrw	xmm2, word ptr [rdx + rbx + 52], 6
-	packsswb	xmm7, xmm7
-	pinsrw	xmm2, word ptr [rdx + r9 + 52], 7
-	pcmpgtw	xmm2, xmm11
-	pinsrw	xmm3, word ptr [rdx + rcx + 54], 1
-	pinsrw	xmm3, word ptr [rdx + rdi + 54], 2
-	pinsrw	xmm3, word ptr [rdx + r15 + 54], 3
-	pinsrw	xmm3, word ptr [rdx + r12 + 54], 4
-	pinsrw	xmm3, word ptr [rdx + r13 + 54], 5
-	pinsrw	xmm3, word ptr [rdx + rbx + 54], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [rdx + r9 + 54], 7
-	pcmpgtw	xmm3, xmm11
-	pinsrw	xmm1, word ptr [rdx + rcx + 56], 1
-	pinsrw	xmm1, word ptr [rdx + rdi + 56], 2
-	pinsrw	xmm1, word ptr [rdx + r15 + 56], 3
-	pinsrw	xmm1, word ptr [rdx + r12 + 56], 4
-	pinsrw	xmm1, word ptr [rdx + r13 + 56], 5
-	pinsrw	xmm1, word ptr [rdx + rbx + 56], 6
-	packsswb	xmm3, xmm3
-	pinsrw	xmm1, word ptr [rdx + r9 + 56], 7
-	psubb	xmm4, xmm7
-	movdqa	xmm5, xmmword ptr [rip + .LCPI11_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm2
-	pblendvb	xmm5, xmm15, xmm0
-	movdqa	xmm6, xmmword ptr [rip + .LCPI11_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm3
-	pblendvb	xmm6, xmm15, xmm0
-	movd	xmm2, r11d
-	pcmpgtw	xmm1, xmm11
-	pinsrw	xmm2, word ptr [rdx + rcx + 58], 1
-	pinsrw	xmm2, word ptr [rdx + rdi + 58], 2
-	pinsrw	xmm2, word ptr [rdx + r15 + 58], 3
-	pinsrw	xmm2, word ptr [rdx + r12 + 58], 4
-	pinsrw	xmm2, word ptr [rdx + r13 + 58], 5
-	pinsrw	xmm2, word ptr [rdx + rbx + 58], 6
-	pinsrw	xmm2, word ptr [rdx + r9 + 58], 7
-	packsswb	xmm1, xmm1
-	pcmpgtw	xmm2, xmm11
-	por	xmm6, xmm5
-	movd	xmm3, esi
-	pinsrw	xmm3, word ptr [rdx + rcx + 60], 1
-	pinsrw	xmm3, word ptr [rdx + rdi + 60], 2
-	pinsrw	xmm3, word ptr [rdx + r15 + 60], 3
-	pinsrw	xmm3, word ptr [rdx + r12 + 60], 4
-	pinsrw	xmm3, word ptr [rdx + r13 + 60], 5
-	pinsrw	xmm3, word ptr [rdx + rbx + 60], 6
-	packsswb	xmm2, xmm2
-	pinsrw	xmm3, word ptr [rdx + r9 + 60], 7
-	pcmpgtw	xmm3, xmm11
-	packsswb	xmm3, xmm3
-	por	xmm6, xmm4
-	movdqa	xmm4, xmmword ptr [rip + .LCPI11_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
-	movdqa	xmm0, xmm1
-	pblendvb	xmm4, xmm15, xmm0
-	movdqa	xmm1, xmm9
-	movdqa	xmm0, xmm2
-	pblendvb	xmm1, xmm15, xmm0
-	movdqa	xmm0, xmm3
-	pblendvb	xmm10, xmm15, xmm0
-	por	xmm1, xmm4
-	movzx	eax, word ptr [rdx + r14 + 62]
-	por	xmm10, xmm1
-	movd	xmm0, eax
-	pinsrw	xmm0, word ptr [rdx + rcx + 62], 1
-	pinsrw	xmm0, word ptr [rdx + rdi + 62], 2
-	pinsrw	xmm0, word ptr [rdx + r15 + 62], 3
-	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
-	pinsrw	xmm0, word ptr [rdx + r12 + 62], 4
-	pinsrw	xmm0, word ptr [rdx + r13 + 62], 5
-	pinsrw	xmm0, word ptr [rdx + rbx + 62], 6
-	pinsrw	xmm0, word ptr [rdx + r9 + 62], 7
-	pcmpgtw	xmm0, xmm11
-	packsswb	xmm0, xmm0
-	por	xmm10, xmm6
-	pblendvb	xmm14, xmm15, xmm0
-	por	xmm14, xmm10
-	movdqa	xmm0, xmm12
-	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
-	movdqa	xmm2, xmm8
-	punpcklqdq	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0]
-	movdqa	xmm3, xmmword ptr [rip + .LCPI11_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
-	pshufb	xmm2, xmm3
-	pshufb	xmm0, xmm3
-	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
-	punpcklbw	xmm8, xmm14             # xmm8 = xmm8[0],xmm14[0],xmm8[1],xmm14[1],xmm8[2],xmm14[2],xmm8[3],xmm14[3],xmm8[4],xmm14[4],xmm8[5],xmm14[5],xmm8[6],xmm14[6],xmm8[7],xmm14[7]
-	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
-	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
-	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
-	movdqu	xmmword ptr [r15 + 4*rcx], xmm12
-	movdqu	xmmword ptr [r15 + 4*rcx + 16], xmm0
-	add	rcx, 8
-	mov	r14, rcx
-	cmp	rcx, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	jne	.LBB11_125
-# %bb.126:
-	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
-	cmp	r10, qword ptr [rsp + 32]       # 8-byte Folded Reload
-	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
-	mov	r14d, dword ptr [rsp]           # 4-byte Reload
-	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
-	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
-	jne	.LBB11_127
-	jmp	.LBB11_130
-.LBB11_182:
-	mov	r8, r10
-	and	r8, -4
-	mov	rbx, r8
-	shl	rbx, 7
-	add	rbx, rdx
-	lea	r14, [r15 + 4*r8]
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	add	rdx, 508
-	xor	ecx, ecx
-	movdqa	xmm15, xmmword ptr [rip + .LCPI11_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
-	movdqa	xmm8, xmmword ptr [rip + .LCPI11_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
-	movdqa	xmm10, xmmword ptr [rip + .LCPI11_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
-	movdqa	xmm11, xmmword ptr [rip + .LCPI11_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
-	movdqa	xmm12, xmmword ptr [rip + .LCPI11_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
-	movdqa	xmm13, xmmword ptr [rip + .LCPI11_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
-	movdqa	xmm14, xmmword ptr [rip + .LCPI11_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm9, xmmword ptr [rip + .LCPI11_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
-	.p2align	4, 0x90
-.LBB11_183:                             # =>This Inner Loop Header: Depth=1
-	movss	xmm6, dword ptr [rdx - 508]     # xmm6 = mem[0],zero,zero,zero
-	movss	xmm7, dword ptr [rdx - 504]     # xmm7 = mem[0],zero,zero,zero
-	movss	xmm5, dword ptr [rdx - 500]     # xmm5 = mem[0],zero,zero,zero
-	movss	xmm4, dword ptr [rdx - 496]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpleps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	insertps	xmm7, dword ptr [rdx - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	insertps	xmm5, dword ptr [rdx - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
-	insertps	xmm4, dword ptr [rdx - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rdx - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rdx - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	movdqa	xmm2, xmm7
-	pand	xmm2, xmm15
-	psubb	xmm2, xmm7
-	movss	xmm7, dword ptr [rdx - 492]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rdx - 488]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
-	cmpleps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 2
-	pand	xmm5, xmm8
-	por	xmm5, xmm2
-	movss	xmm3, dword ptr [rdx - 484]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
-	cmpleps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	pand	xmm4, xmm15
-	psllw	xmm4, 3
-	pand	xmm4, xmm10
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 4
-	pand	xmm7, xmm11
-	por	xmm7, xmm4
-	movss	xmm4, dword ptr [rdx - 480]     # xmm4 = mem[0],zero,zero,zero
-	insertps	xmm4, dword ptr [rdx - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
-	insertps	xmm4, dword ptr [rdx - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
-	insertps	xmm4, dword ptr [rdx - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm5, dword ptr [rdx - 476]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpleps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	cmpleps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpleps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 6
-	pand	xmm3, xmm13
-	por	xmm3, xmm6
-	movss	xmm2, dword ptr [rdx - 472]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	packsswb	xmm5, xmm5
-	cmpleps	xmm4, xmm1
-	packssdw	xmm4, xmm4
-	packsswb	xmm4, xmm4
-	psllw	xmm4, 7
-	pand	xmm4, xmm14
-	por	xmm4, xmm3
-	movss	xmm3, dword ptr [rdx - 468]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm5, xmm15
-	insertps	xmm3, dword ptr [rdx - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm4, xmm7
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm7, dword ptr [rdx - 464]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm5
-	movss	xmm5, dword ptr [rdx - 460]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpleps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rdx - 456]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 3
-	pand	xmm7, xmm10
-	cmpleps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 4
-	pand	xmm5, xmm11
-	por	xmm5, xmm7
-	movss	xmm2, dword ptr [rdx - 452]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm3
-	movss	xmm7, dword ptr [rdx - 448]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpleps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 5
-	pand	xmm6, xmm12
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm6
-	movss	xmm6, dword ptr [rdx - 444]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpleps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	psllw	xmm7, 7
-	pand	xmm7, xmm14
-	por	xmm7, xmm2
-	movss	xmm2, dword ptr [rdx - 440]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm7, xmm5
-	movss	xmm3, dword ptr [rdx - 436]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	pand	xmm6, xmm15
-	insertps	xmm3, dword ptr [rdx - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm7, xmm2
-	pand	xmm7, xmm15
-	psubb	xmm7, xmm2
-	movss	xmm5, dword ptr [rdx - 432]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	por	xmm7, xmm6
-	movss	xmm6, dword ptr [rdx - 428]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpleps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm7
-	movss	xmm7, dword ptr [rdx - 424]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpleps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	pand	xmm5, xmm15
-	psllw	xmm5, 3
-	pand	xmm5, xmm10
-	cmpleps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm5
-	movss	xmm2, dword ptr [rdx - 420]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm5, dword ptr [rdx - 416]     # xmm5 = mem[0],zero,zero,zero
-	insertps	xmm5, dword ptr [rdx - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
-	insertps	xmm5, dword ptr [rdx - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
-	insertps	xmm5, dword ptr [rdx - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm7, dword ptr [rdx - 412]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	cmpleps	xmm5, xmm1
-	packssdw	xmm5, xmm5
-	packsswb	xmm5, xmm5
-	psllw	xmm5, 7
-	pand	xmm5, xmm14
-	por	xmm5, xmm2
-	movss	xmm2, dword ptr [rdx - 408]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	pand	xmm7, xmm15
-	insertps	xmm2, dword ptr [rdx - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	por	xmm5, xmm6
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	movdqa	xmm6, xmm2
-	pand	xmm6, xmm15
-	psubb	xmm6, xmm2
-	movss	xmm3, dword ptr [rdx - 404]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
-	por	xmm6, xmm7
-	movss	xmm2, dword ptr [rdx - 400]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
-	cmpleps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	pand	xmm3, xmm15
-	psllw	xmm3, 2
-	pand	xmm3, xmm8
-	por	xmm3, xmm6
-	movss	xmm6, dword ptr [rdx - 396]     # xmm6 = mem[0],zero,zero,zero
-	insertps	xmm6, dword ptr [rdx - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
-	insertps	xmm6, dword ptr [rdx - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
-	insertps	xmm6, dword ptr [rdx - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 3
-	pand	xmm2, xmm10
-	cmpleps	xmm6, xmm1
-	packssdw	xmm6, xmm6
-	packsswb	xmm6, xmm6
-	pand	xmm6, xmm15
-	psllw	xmm6, 4
-	pand	xmm6, xmm11
-	por	xmm6, xmm2
-	movss	xmm7, dword ptr [rdx - 392]     # xmm7 = mem[0],zero,zero,zero
-	insertps	xmm7, dword ptr [rdx - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
-	insertps	xmm7, dword ptr [rdx - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
-	insertps	xmm7, dword ptr [rdx - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
-	por	xmm6, xmm3
-	movss	xmm2, dword ptr [rdx - 388]     # xmm2 = mem[0],zero,zero,zero
-	insertps	xmm2, dword ptr [rdx - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
-	insertps	xmm2, dword ptr [rdx - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
-	insertps	xmm2, dword ptr [rdx - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
-	cmpleps	xmm7, xmm1
-	packssdw	xmm7, xmm7
-	packsswb	xmm7, xmm7
-	pand	xmm7, xmm15
-	psllw	xmm7, 5
-	pand	xmm7, xmm12
-	cmpleps	xmm2, xmm1
-	packssdw	xmm2, xmm2
-	packsswb	xmm2, xmm2
-	pand	xmm2, xmm15
-	psllw	xmm2, 6
-	pand	xmm2, xmm13
-	por	xmm2, xmm7
-	movss	xmm3, dword ptr [rdx - 384]     # xmm3 = mem[0],zero,zero,zero
-	insertps	xmm3, dword ptr [rdx - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
-	insertps	xmm3, dword ptr [rdx - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
-	insertps	xmm3, dword ptr [rdx], 48       # xmm3 = xmm3[0,1,2],mem[0]
-	cmpleps	xmm3, xmm1
-	packssdw	xmm3, xmm3
-	packsswb	xmm3, xmm3
-	psllw	xmm3, 7
-	pand	xmm3, xmm14
-	por	xmm3, xmm2
-	por	xmm3, xmm6
-	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
-	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
-	pshufb	xmm4, xmm9
-	movdqu	xmmword ptr [r15 + 4*rcx], xmm4
-	add	rcx, 4
-	add	rdx, 512
-	cmp	r8, rcx
-	jne	.LBB11_183
-# %bb.184:
-	cmp	r10, r8
-	jne	.LBB11_185
-	jmp	.LBB11_188
-.Lfunc_end11:
-	.size	comparison_greater_equal_scalar_arr_sse4, .Lfunc_end11-comparison_greater_equal_scalar_arr_sse4
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-6"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/types.h b/go/arrow/compute/internal/kernels/_lib/types.h
deleted file mode 100644
index 4a8d637d9727a..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/types.h
+++ /dev/null
@@ -1,708 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#pragma once
-
-// corresponds to datatype.go's arrow.Type
-enum class arrtype : int {
-    NULL,
-    BOOL,
-    UINT8,
-    INT8,
-    UINT16,
-    INT16,
-    UINT32,
-    INT32,
-    UINT64,
-    INT64,
-    FLOAT16,
-    FLOAT32,
-    FLOAT64
-};
-
-
-#define _LIBCPP_TEMPLATE_VIS
-#define _LIBCPP_CONSTEXPR constexpr
-#define _LIBCPP_INLINE_VISIBILITY
-#define _LIBCPP_STD_VER 17
-#define _LIBCPP_NODEBUG
-#define _LIBCPP_HAS_NO_CHAR8_T
-#define _NOEXCEPT noexcept
-#define _NOEXCEPT_(x) noexcept(x)
-#define _LIBCPP_HIDE_FROM_ABI
-
-using size_t = uint64_t;
-
-// copied from libcxx/include/__type_traits/integral_constant.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-template <class _Tp, _Tp __v>
-struct _LIBCPP_TEMPLATE_VIS integral_constant
-{
-  static _LIBCPP_CONSTEXPR const _Tp      value = __v;
-  typedef _Tp               value_type;
-  typedef integral_constant type;
-  _LIBCPP_INLINE_VISIBILITY
-  _LIBCPP_CONSTEXPR operator value_type() const _NOEXCEPT {return value;}
-#if _LIBCPP_STD_VER > 11
-  _LIBCPP_INLINE_VISIBILITY
-  constexpr value_type operator ()() const _NOEXCEPT {return value;}
-#endif
-};
-
-template <class _Tp, _Tp __v>
-_LIBCPP_CONSTEXPR const _Tp integral_constant<_Tp, __v>::value;
-
-typedef integral_constant<bool, true>  true_type;
-typedef integral_constant<bool, false> false_type;
-
-template <bool _Val>
-using _BoolConstant _LIBCPP_NODEBUG = integral_constant<bool, _Val>;
-
-#if _LIBCPP_STD_VER > 14
-template <bool __b>
-using bool_constant = integral_constant<bool, __b>;
-#endif
-
-// copied from libcxx/include/__type_traits/remove_const.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__remove_const)
-template <class _Tp>
-struct remove_const {
-  using type _LIBCPP_NODEBUG = __remove_const(_Tp);
-};
-
-template <class _Tp>
-using __remove_const_t = __remove_const(_Tp);
-#else
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_const            {typedef _Tp type;};
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_const<const _Tp> {typedef _Tp type;};
-
-template <class _Tp>
-using __remove_const_t = typename remove_const<_Tp>::type;
-#endif // __has_builtin(__remove_const)
-
-#if _LIBCPP_STD_VER > 11
-template <class _Tp> using remove_const_t = __remove_const_t<_Tp>;
-#endif
-
-// copied from libcxx/include/__type_traits/remove_volatile.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__remove_volatile)
-template <class _Tp>
-struct remove_volatile {
-  using type _LIBCPP_NODEBUG = __remove_volatile(_Tp);
-};
-
-template <class _Tp>
-using __remove_volatile_t = __remove_volatile(_Tp);
-#else
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_volatile               {typedef _Tp type;};
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_volatile<volatile _Tp> {typedef _Tp type;};
-
-template <class _Tp>
-using __remove_volatile_t = typename remove_volatile<_Tp>::type;
-#endif // __has_builtin(__remove_volatile)
-
-#if _LIBCPP_STD_VER > 11
-template <class _Tp> using remove_volatile_t = __remove_volatile_t<_Tp>;
-#endif
-
-// copied from libcxx/include/__type_traits/remove_cv.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__remove_cv)
-template <class _Tp>
-struct remove_cv {
-  using type _LIBCPP_NODEBUG = __remove_cv(_Tp);
-};
-
-template <class _Tp>
-using __remove_cv_t = __remove_cv(_Tp);
-#else
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_cv
-{typedef __remove_volatile_t<__remove_const_t<_Tp> > type;};
-
-template <class _Tp>
-using __remove_cv_t = __remove_volatile_t<__remove_const_t<_Tp> >;
-#endif // __has_builtin(__remove_cv)
-
-#if _LIBCPP_STD_VER > 11
-template <class _Tp> using remove_cv_t = __remove_cv_t<_Tp>;
-#endif
-
-// copied from libcxx/include/__type_traits/is_floating_point.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-
-template <class _Tp> struct __libcpp_is_floating_point              : public false_type {};
-template <>          struct __libcpp_is_floating_point<float>       : public true_type {};
-template <>          struct __libcpp_is_floating_point<double>      : public true_type {};
-template <>          struct __libcpp_is_floating_point<long double> : public true_type {};
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_floating_point
-    : public __libcpp_is_floating_point<__remove_cv_t<_Tp> > {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_floating_point_v = is_floating_point<_Tp>::value;
-#endif
-
-// copied from libcxx/include/__type_traits/is_integral.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-
-template <class _Tp> struct __libcpp_is_integral                     { enum { value = 0 }; };
-template <>          struct __libcpp_is_integral<bool>               { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<char>               { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<signed char>        { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<unsigned char>      { enum { value = 1 }; };
-#ifndef _LIBCPP_HAS_NO_WIDE_CHARACTERS
-template <>          struct __libcpp_is_integral<wchar_t>            { enum { value = 1 }; };
-#endif
-#ifndef _LIBCPP_HAS_NO_CHAR8_T
-template <>          struct __libcpp_is_integral<char8_t>            { enum { value = 1 }; };
-#endif
-template <>          struct __libcpp_is_integral<char16_t>           { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<char32_t>           { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<short>              { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<unsigned short>     { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<int>                { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<unsigned int>       { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<long>               { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<unsigned long>      { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<long long>          { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<unsigned long long> { enum { value = 1 }; };
-#ifndef _LIBCPP_HAS_NO_INT128
-template <>          struct __libcpp_is_integral<__int128_t>         { enum { value = 1 }; };
-template <>          struct __libcpp_is_integral<__uint128_t>        { enum { value = 1 }; };
-#endif
-
-#if __has_builtin(__is_integral)
-
-template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_integral : _BoolConstant<__is_integral(_Tp)> { };
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_integral_v = __is_integral(_Tp);
-#endif
-
-#else
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_integral
-    : public _BoolConstant<__libcpp_is_integral<__remove_cv_t<_Tp> >::value> {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_integral_v = is_integral<_Tp>::value;
-#endif
-
-#endif // __has_builtin(__is_integral)
-
-// copied from libcxx/include/__type_traits/is_arithmetic.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_arithmetic
-    : public integral_constant<bool, is_integral<_Tp>::value      ||
-                                     is_floating_point<_Tp>::value> {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_arithmetic_v = is_arithmetic<_Tp>::value;
-#endif
-
-// copied from libcxx/include/__type_traits/is_signed.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__is_signed)
-
-template<class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_signed : _BoolConstant<__is_signed(_Tp)> { };
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_signed_v = __is_signed(_Tp);
-#endif
-
-#else // __has_builtin(__is_signed)
-
-template <class _Tp, bool = is_integral<_Tp>::value>
-struct __libcpp_is_signed_impl : public _BoolConstant<(_Tp(-1) < _Tp(0))> {};
-
-template <class _Tp>
-struct __libcpp_is_signed_impl<_Tp, false> : public true_type {};  // floating point
-
-template <class _Tp, bool = is_arithmetic<_Tp>::value>
-struct __libcpp_is_signed : public __libcpp_is_signed_impl<_Tp> {};
-
-template <class _Tp> struct __libcpp_is_signed<_Tp, false> : public false_type {};
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_signed : public __libcpp_is_signed<_Tp> {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_signed_v = is_signed<_Tp>::value;
-#endif
-
-#endif // __has_builtin(__is_signed)
-
-
-// copied from libcxx/include/__type_traits/is_unsigned.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-
-// Before AppleClang 14, __is_unsigned returned true for enums with signed underlying type.
-#if __has_builtin(__is_unsigned) && !(defined(_LIBCPP_APPLE_CLANG_VER) && _LIBCPP_APPLE_CLANG_VER < 1400)
-
-template<class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_unsigned : _BoolConstant<__is_unsigned(_Tp)> { };
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_unsigned_v = __is_unsigned(_Tp);
-#endif
-
-#else // __has_builtin(__is_unsigned)
-
-template <class _Tp, bool = is_integral<_Tp>::value>
-struct __libcpp_is_unsigned_impl : public _BoolConstant<(_Tp(0) < _Tp(-1))> {};
-
-template <class _Tp>
-struct __libcpp_is_unsigned_impl<_Tp, false> : public false_type {};  // floating point
-
-template <class _Tp, bool = is_arithmetic<_Tp>::value>
-struct __libcpp_is_unsigned : public __libcpp_is_unsigned_impl<_Tp> {};
-
-template <class _Tp> struct __libcpp_is_unsigned<_Tp, false> : public false_type {};
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_unsigned : public __libcpp_is_unsigned<_Tp> {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_unsigned_v = is_unsigned<_Tp>::value;
-#endif
-
-#endif // __has_builtin(__is_unsigned)
-
-// copied from libcxx/include/__type_traits/is_same.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-template <class _Tp, class _Up>
-struct _LIBCPP_TEMPLATE_VIS is_same : _BoolConstant<__is_same(_Tp, _Up)> { };
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp, class _Up>
-inline constexpr bool is_same_v = __is_same(_Tp, _Up);
-#endif
-
-// copied from libcxx/include/__type_traits/conditional.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-template <bool>
-struct _IfImpl;
-
-template <>
-struct _IfImpl<true> {
-  template <class _IfRes, class _ElseRes>
-  using _Select _LIBCPP_NODEBUG = _IfRes;
-};
-
-template <>
-struct _IfImpl<false> {
-  template <class _IfRes, class _ElseRes>
-  using _Select _LIBCPP_NODEBUG = _ElseRes;
-};
-
-template <bool _Cond, class _IfRes, class _ElseRes>
-using _If _LIBCPP_NODEBUG = typename _IfImpl<_Cond>::template _Select<_IfRes, _ElseRes>;
-
-template <bool _Bp, class _If, class _Then>
-    struct _LIBCPP_TEMPLATE_VIS conditional {typedef _If type;};
-template <class _If, class _Then>
-    struct _LIBCPP_TEMPLATE_VIS conditional<false, _If, _Then> {typedef _Then type;};
-
-#if _LIBCPP_STD_VER > 11
-template <bool _Bp, class _IfRes, class _ElseRes>
-using conditional_t = typename conditional<_Bp, _IfRes, _ElseRes>::type;
-#endif
-
-// Helper so we can use "conditional_t" in all language versions.
-template <bool _Bp, class _If, class _Then> using __conditional_t = typename conditional<_Bp, _If, _Then>::type;
-
-// copied from libcxx/include/__type_traits/is_const.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__is_const)
-
-template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_const : _BoolConstant<__is_const(_Tp)> { };
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_const_v = __is_const(_Tp);
-#endif
-
-#else
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_const            : public false_type {};
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_const<_Tp const> : public true_type {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_const_v = is_const<_Tp>::value;
-#endif
-
-#endif // __has_builtin(__is_const)
-
-// copied from libcxx/include/__type_traits/is_volatile.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__is_volatile)
-
-template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_volatile : _BoolConstant<__is_volatile(_Tp)> { };
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_volatile_v = __is_volatile(_Tp);
-#endif
-
-#else
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_volatile               : public false_type {};
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_volatile<_Tp volatile> : public true_type {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_volatile_v = is_volatile<_Tp>::value;
-#endif
-
-#endif // __has_builtin(__is_volatile)
-
-// copied from libcxx/include/__type_traits/remove_reference.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__remove_reference_t)
-template <class _Tp>
-struct remove_reference {
-  using type _LIBCPP_NODEBUG = __remove_reference_t(_Tp);
-};
-
-template <class _Tp>
-using __libcpp_remove_reference_t = __remove_reference_t(_Tp);
-#else
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_reference        {typedef _LIBCPP_NODEBUG _Tp type;};
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_reference<_Tp&>  {typedef _LIBCPP_NODEBUG _Tp type;};
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_reference<_Tp&&> {typedef _LIBCPP_NODEBUG _Tp type;};
-
-template <class _Tp>
-using __libcpp_remove_reference_t = typename remove_reference<_Tp>::type;
-#endif // __has_builtin(__remove_reference_t)
-
-#if _LIBCPP_STD_VER > 11
-template <class _Tp> using remove_reference_t = __libcpp_remove_reference_t<_Tp>;
-#endif
-
-// copied from libcxx/include/__type_traits/apply_cv.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-template <class _Tp, class _Up, bool = is_const<__libcpp_remove_reference_t<_Tp> >::value,
-                             bool = is_volatile<__libcpp_remove_reference_t<_Tp> >::value>
-struct __apply_cv
-{
-    typedef _LIBCPP_NODEBUG _Up type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp, _Up, true, false>
-{
-    typedef _LIBCPP_NODEBUG const _Up type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp, _Up, false, true>
-{
-    typedef volatile _Up type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp, _Up, true, true>
-{
-    typedef const volatile _Up type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp&, _Up, false, false>
-{
-    typedef _Up& type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp&, _Up, true, false>
-{
-    typedef const _Up& type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp&, _Up, false, true>
-{
-    typedef volatile _Up& type;
-};
-
-template <class _Tp, class _Up>
-struct __apply_cv<_Tp&, _Up, true, true>
-{
-    typedef const volatile _Up& type;
-};
-
-// copied from libcxx/include/__type_traits/apply_cv.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-struct __nat
-{
-#ifndef _LIBCPP_CXX03_LANG
-    __nat() = delete;
-    __nat(const __nat&) = delete;
-    __nat& operator=(const __nat&) = delete;
-    ~__nat() = delete;
-#endif
-};
-
-// copied from libcxx/include/__type_traits/type_list.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-
-template <class _Hp, class _Tp>
-struct __type_list
-{
-    typedef _Hp _Head;
-    typedef _Tp _Tail;
-};
-
-template <class _TypeList, size_t _Size, bool = _Size <= sizeof(typename _TypeList::_Head)> struct __find_first;
-
-template <class _Hp, class _Tp, size_t _Size>
-struct __find_first<__type_list<_Hp, _Tp>, _Size, true>
-{
-    typedef _LIBCPP_NODEBUG _Hp type;
-};
-
-template <class _Hp, class _Tp, size_t _Size>
-struct __find_first<__type_list<_Hp, _Tp>, _Size, false>
-{
-    typedef _LIBCPP_NODEBUG typename __find_first<_Tp, _Size>::type type;
-};
-
-// copied from libcxx/include/__type_traits/is_enum.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_enum
-    : public integral_constant<bool, __is_enum(_Tp)> {};
-
-#if _LIBCPP_STD_VER > 14
-template <class _Tp>
-inline constexpr bool is_enum_v = __is_enum(_Tp);
-#endif
-
-// copied from libcxx/include/__type_traits/make_unsigned.h
-//===----------------------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-#if __has_builtin(__make_unsigned)
-
-template <class _Tp>
-using __make_unsigned_t = __make_unsigned(_Tp);
-
-#else
-typedef
-    __type_list<unsigned char,
-    __type_list<unsigned short,
-    __type_list<unsigned int,
-    __type_list<unsigned long,
-    __type_list<unsigned long long,
-#  ifndef _LIBCPP_HAS_NO_INT128
-    __type_list<__uint128_t,
-#  endif
-    __nat
-#  ifndef _LIBCPP_HAS_NO_INT128
-    >
-#  endif
-    > > > > > __unsigned_types;
-
-template <class _Tp, bool = is_integral<_Tp>::value || is_enum<_Tp>::value>
-struct __make_unsigned {};
-
-template <class _Tp>
-struct __make_unsigned<_Tp, true>
-{
-    typedef typename __find_first<__unsigned_types, sizeof(_Tp)>::type type;
-};
-
-template <> struct __make_unsigned<bool,               true> {};
-template <> struct __make_unsigned<  signed short,     true> {typedef unsigned short     type;};
-template <> struct __make_unsigned<unsigned short,     true> {typedef unsigned short     type;};
-template <> struct __make_unsigned<  signed int,       true> {typedef unsigned int       type;};
-template <> struct __make_unsigned<unsigned int,       true> {typedef unsigned int       type;};
-template <> struct __make_unsigned<  signed long,      true> {typedef unsigned long      type;};
-template <> struct __make_unsigned<unsigned long,      true> {typedef unsigned long      type;};
-template <> struct __make_unsigned<  signed long long, true> {typedef unsigned long long type;};
-template <> struct __make_unsigned<unsigned long long, true> {typedef unsigned long long type;};
-#  ifndef _LIBCPP_HAS_NO_INT128
-template <> struct __make_unsigned<__int128_t,         true> {typedef __uint128_t        type;};
-template <> struct __make_unsigned<__uint128_t,        true> {typedef __uint128_t        type;};
-#  endif
-
-template <class _Tp>
-using __make_unsigned_t = typename __apply_cv<_Tp, typename __make_unsigned<__remove_cv_t<_Tp> >::type>::type;
-
-#endif // __has_builtin(__make_unsigned)
-
-template <class _Tp>
-struct make_unsigned {
-  using type _LIBCPP_NODEBUG = __make_unsigned_t<_Tp>;
-};
-
-#if _LIBCPP_STD_VER > 11
-template <class _Tp> using make_unsigned_t = __make_unsigned_t<_Tp>;
-#endif
-
-#ifndef _LIBCPP_CXX03_LANG
-template <class _Tp>
-_LIBCPP_HIDE_FROM_ABI constexpr
-__make_unsigned_t<_Tp> __to_unsigned_like(_Tp __x) noexcept {
-    return static_cast<__make_unsigned_t<_Tp> >(__x);
-}
-#endif
-
-template <class _Tp, class _Up>
-using __copy_unsigned_t = __conditional_t<is_unsigned<_Tp>::value, __make_unsigned_t<_Up>, _Up>;
diff --git a/go/arrow/compute/internal/kernels/_lib/vendored/safe-math.h b/go/arrow/compute/internal/kernels/_lib/vendored/safe-math.h
deleted file mode 100644
index 7f6426ac76571..0000000000000
--- a/go/arrow/compute/internal/kernels/_lib/vendored/safe-math.h
+++ /dev/null
@@ -1,1072 +0,0 @@
-/* Overflow-safe math functions
- * Portable Snippets - https://github.com/nemequ/portable-snippets
- * Created by Evan Nemerson <evan@nemerson.com>
- *
- *   To the extent possible under law, the authors have waived all
- *   copyright and related or neighboring rights to this code.  For
- *   details, see the Creative Commons Zero 1.0 Universal license at
- *   https://creativecommons.org/publicdomain/zero/1.0/
- */
-
-#if !defined(PSNIP_SAFE_H)
-#define PSNIP_SAFE_H
-
-#if !defined(PSNIP_SAFE_FORCE_PORTABLE)
-#  if defined(__has_builtin)
-#    if __has_builtin(__builtin_add_overflow) && !defined(__ibmxl__)
-#      define PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW
-#    endif
-#  elif defined(__GNUC__) && (__GNUC__ >= 5) && !defined(__INTEL_COMPILER)
-#    define PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW
-#  endif
-#  if defined(__has_include)
-#    if __has_include(<intsafe.h>)
-#      define PSNIP_SAFE_HAVE_INTSAFE_H
-#    endif
-#  elif defined(_WIN32)
-#    define PSNIP_SAFE_HAVE_INTSAFE_H
-#  endif
-#endif /* !defined(PSNIP_SAFE_FORCE_PORTABLE) */
-
-#if defined(__GNUC__)
-#  define PSNIP_SAFE_LIKELY(expr)   __builtin_expect(!!(expr), 1)
-#  define PSNIP_SAFE_UNLIKELY(expr) __builtin_expect(!!(expr), 0)
-#else
-#  define PSNIP_SAFE_LIKELY(expr) !!(expr)
-#  define PSNIP_SAFE_UNLIKELY(expr) !!(expr)
-#endif /* defined(__GNUC__) */
-
-#if !defined(PSNIP_SAFE_STATIC_INLINE)
-#  if defined(__GNUC__)
-#    define PSNIP_SAFE__COMPILER_ATTRIBUTES __attribute__((__unused__))
-#  else
-#    define PSNIP_SAFE__COMPILER_ATTRIBUTES
-#  endif
-
-#  if defined(HEDLEY_INLINE)
-#    define PSNIP_SAFE__INLINE HEDLEY_INLINE
-#  elif defined(__STDC_VERSION__) && __STDC_VERSION__ >= 199901L
-#    define PSNIP_SAFE__INLINE inline
-#  elif defined(__GNUC_STDC_INLINE__)
-#    define PSNIP_SAFE__INLINE __inline__
-#  elif defined(_MSC_VER) && _MSC_VER >= 1200
-#    define PSNIP_SAFE__INLINE __inline
-#  else
-#    define PSNIP_SAFE__INLINE
-#  endif
-
-#  define PSNIP_SAFE__FUNCTION PSNIP_SAFE__COMPILER_ATTRIBUTES static PSNIP_SAFE__INLINE
-#endif
-
-// !defined(__cplusplus) added for Solaris support
-#if !defined(__cplusplus) && defined(__STDC_VERSION__) && __STDC_VERSION__ >= 199901L
-#  define psnip_safe_bool _Bool
-#else
-#  define psnip_safe_bool int
-#endif
-
-#if !defined(PSNIP_SAFE_NO_FIXED)
-/* For maximum portability include the exact-int module from
-   portable snippets. */
-#  if \
-    !defined(psnip_int64_t) || !defined(psnip_uint64_t) || \
-    !defined(psnip_int32_t) || !defined(psnip_uint32_t) || \
-    !defined(psnip_int16_t) || !defined(psnip_uint16_t) || \
-    !defined(psnip_int8_t)  || !defined(psnip_uint8_t)
-#    include <stdint.h>
-#    if !defined(psnip_int64_t)
-#      define psnip_int64_t int64_t
-#    endif
-#    if !defined(psnip_uint64_t)
-#      define psnip_uint64_t uint64_t
-#    endif
-#    if !defined(psnip_int32_t)
-#      define psnip_int32_t int32_t
-#    endif
-#    if !defined(psnip_uint32_t)
-#      define psnip_uint32_t uint32_t
-#    endif
-#    if !defined(psnip_int16_t)
-#      define psnip_int16_t int16_t
-#    endif
-#    if !defined(psnip_uint16_t)
-#      define psnip_uint16_t uint16_t
-#    endif
-#    if !defined(psnip_int8_t)
-#      define psnip_int8_t int8_t
-#    endif
-#    if !defined(psnip_uint8_t)
-#      define psnip_uint8_t uint8_t
-#    endif
-#  endif
-#endif /* !defined(PSNIP_SAFE_NO_FIXED) */
-#include <limits.h>
-#include <stdlib.h>
-
-#if !defined(PSNIP_SAFE_SIZE_MAX)
-#  if defined(__SIZE_MAX__)
-#    define PSNIP_SAFE_SIZE_MAX __SIZE_MAX__
-#  elif defined(PSNIP_EXACT_INT_HAVE_STDINT)
-#    include <stdint.h>
-#  endif
-#endif
-
-#if defined(PSNIP_SAFE_SIZE_MAX)
-#  define PSNIP_SAFE__SIZE_MAX_RT PSNIP_SAFE_SIZE_MAX
-#else
-#  define PSNIP_SAFE__SIZE_MAX_RT (~((size_t) 0))
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_INTSAFE_H)
-/* In VS 10, stdint.h and intsafe.h both define (U)INTN_MIN/MAX, which
-   triggers warning C4005 (level 1). */
-#  if defined(_MSC_VER) && (_MSC_VER == 1600)
-#    pragma warning(push)
-#    pragma warning(disable:4005)
-#  endif
-#  include <intsafe.h>
-#  if defined(_MSC_VER) && (_MSC_VER == 1600)
-#    pragma warning(pop)
-#  endif
-#endif /* defined(PSNIP_SAFE_HAVE_INTSAFE_H) */
-
-/* If there is a type larger than the one we're concerned with it's
- * likely much faster to simply promote the operands, perform the
- * requested operation, verify that the result falls within the
- * original type, then cast the result back to the original type. */
-
-#if !defined(PSNIP_SAFE_NO_PROMOTIONS)
-
-#define PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, op_name, op) \
-  PSNIP_SAFE__FUNCTION psnip_safe_##name##_larger \
-  psnip_safe_larger_##name##_##op_name (T a, T b) { \
-    return ((psnip_safe_##name##_larger) a) op ((psnip_safe_##name##_larger) b); \
-  }
-
-#define PSNIP_SAFE_DEFINE_LARGER_UNARY_OP(T, name, op_name, op) \
-  PSNIP_SAFE__FUNCTION psnip_safe_##name##_larger \
-  psnip_safe_larger_##name##_##op_name (T value) { \
-    return (op ((psnip_safe_##name##_larger) value)); \
-  }
-
-#define PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(T, name) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, add, +) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, sub, -) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mul, *) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, div, /) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mod, %) \
-  PSNIP_SAFE_DEFINE_LARGER_UNARY_OP (T, name, neg, -)
-
-#define PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(T, name) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, add, +) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, sub, -) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mul, *) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, div, /) \
-  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mod, %)
-
-#define PSNIP_SAFE_IS_LARGER(ORIG_MAX, DEST_MAX) ((DEST_MAX / ORIG_MAX) >= ORIG_MAX)
-
-#if defined(__GNUC__) && ((__GNUC__ >= 4) || (__GNUC__ == 4 && __GNUC_MINOR__ >= 6)) && defined(__SIZEOF_INT128__) && !defined(__ibmxl__)
-#define PSNIP_SAFE_HAVE_128
-typedef __int128  psnip_safe_int128_t;
-typedef unsigned __int128 psnip_safe_uint128_t;
-#endif /* defined(__GNUC__) */
-
-#if !defined(PSNIP_SAFE_NO_FIXED)
-#define PSNIP_SAFE_HAVE_INT8_LARGER
-#define PSNIP_SAFE_HAVE_UINT8_LARGER
-typedef psnip_int16_t  psnip_safe_int8_larger;
-typedef psnip_uint16_t psnip_safe_uint8_larger;
-
-#define PSNIP_SAFE_HAVE_INT16_LARGER
-typedef psnip_int32_t  psnip_safe_int16_larger;
-typedef psnip_uint32_t psnip_safe_uint16_larger;
-
-#define PSNIP_SAFE_HAVE_INT32_LARGER
-typedef psnip_int64_t  psnip_safe_int32_larger;
-typedef psnip_uint64_t psnip_safe_uint32_larger;
-
-#if defined(PSNIP_SAFE_HAVE_128)
-#define PSNIP_SAFE_HAVE_INT64_LARGER
-typedef psnip_safe_int128_t psnip_safe_int64_larger;
-typedef psnip_safe_uint128_t psnip_safe_uint64_larger;
-#endif /* defined(PSNIP_SAFE_HAVE_128) */
-#endif /* !defined(PSNIP_SAFE_NO_FIXED) */
-
-#define PSNIP_SAFE_HAVE_LARGER_SCHAR
-#if PSNIP_SAFE_IS_LARGER(SCHAR_MAX, SHRT_MAX)
-typedef short psnip_safe_schar_larger;
-#elif PSNIP_SAFE_IS_LARGER(SCHAR_MAX, INT_MAX)
-typedef int psnip_safe_schar_larger;
-#elif PSNIP_SAFE_IS_LARGER(SCHAR_MAX, LONG_MAX)
-typedef long psnip_safe_schar_larger;
-#elif PSNIP_SAFE_IS_LARGER(SCHAR_MAX, LLONG_MAX)
-typedef long long psnip_safe_schar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SCHAR_MAX, 0x7fff)
-typedef psnip_int16_t psnip_safe_schar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SCHAR_MAX, 0x7fffffffLL)
-typedef psnip_int32_t psnip_safe_schar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SCHAR_MAX, 0x7fffffffffffffffLL)
-typedef psnip_int64_t psnip_safe_schar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (SCHAR_MAX <= 0x7fffffffffffffffLL)
-typedef psnip_safe_int128_t psnip_safe_schar_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_SCHAR
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_UCHAR
-#if PSNIP_SAFE_IS_LARGER(UCHAR_MAX, USHRT_MAX)
-typedef unsigned short psnip_safe_uchar_larger;
-#elif PSNIP_SAFE_IS_LARGER(UCHAR_MAX, UINT_MAX)
-typedef unsigned int psnip_safe_uchar_larger;
-#elif PSNIP_SAFE_IS_LARGER(UCHAR_MAX, ULONG_MAX)
-typedef unsigned long psnip_safe_uchar_larger;
-#elif PSNIP_SAFE_IS_LARGER(UCHAR_MAX, ULLONG_MAX)
-typedef unsigned long long psnip_safe_uchar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UCHAR_MAX, 0xffffU)
-typedef psnip_uint16_t psnip_safe_uchar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UCHAR_MAX, 0xffffffffUL)
-typedef psnip_uint32_t psnip_safe_uchar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UCHAR_MAX, 0xffffffffffffffffULL)
-typedef psnip_uint64_t psnip_safe_uchar_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (UCHAR_MAX <= 0xffffffffffffffffULL)
-typedef psnip_safe_uint128_t psnip_safe_uchar_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_UCHAR
-#endif
-
-#if CHAR_MIN == 0 && defined(PSNIP_SAFE_HAVE_LARGER_UCHAR)
-#define PSNIP_SAFE_HAVE_LARGER_CHAR
-typedef psnip_safe_uchar_larger psnip_safe_char_larger;
-#elif CHAR_MIN < 0 && defined(PSNIP_SAFE_HAVE_LARGER_SCHAR)
-#define PSNIP_SAFE_HAVE_LARGER_CHAR
-typedef psnip_safe_schar_larger psnip_safe_char_larger;
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_SHRT
-#if PSNIP_SAFE_IS_LARGER(SHRT_MAX, INT_MAX)
-typedef int psnip_safe_short_larger;
-#elif PSNIP_SAFE_IS_LARGER(SHRT_MAX, LONG_MAX)
-typedef long psnip_safe_short_larger;
-#elif PSNIP_SAFE_IS_LARGER(SHRT_MAX, LLONG_MAX)
-typedef long long psnip_safe_short_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SHRT_MAX, 0x7fff)
-typedef psnip_int16_t psnip_safe_short_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SHRT_MAX, 0x7fffffffLL)
-typedef psnip_int32_t psnip_safe_short_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SHRT_MAX, 0x7fffffffffffffffLL)
-typedef psnip_int64_t psnip_safe_short_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (SHRT_MAX <= 0x7fffffffffffffffLL)
-typedef psnip_safe_int128_t psnip_safe_short_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_SHRT
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_USHRT
-#if PSNIP_SAFE_IS_LARGER(USHRT_MAX, UINT_MAX)
-typedef unsigned int psnip_safe_ushort_larger;
-#elif PSNIP_SAFE_IS_LARGER(USHRT_MAX, ULONG_MAX)
-typedef unsigned long psnip_safe_ushort_larger;
-#elif PSNIP_SAFE_IS_LARGER(USHRT_MAX, ULLONG_MAX)
-typedef unsigned long long psnip_safe_ushort_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(USHRT_MAX, 0xffff)
-typedef psnip_uint16_t psnip_safe_ushort_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(USHRT_MAX, 0xffffffffUL)
-typedef psnip_uint32_t psnip_safe_ushort_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(USHRT_MAX, 0xffffffffffffffffULL)
-typedef psnip_uint64_t psnip_safe_ushort_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (USHRT_MAX <= 0xffffffffffffffffULL)
-typedef psnip_safe_uint128_t psnip_safe_ushort_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_USHRT
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_INT
-#if PSNIP_SAFE_IS_LARGER(INT_MAX, LONG_MAX)
-typedef long psnip_safe_int_larger;
-#elif PSNIP_SAFE_IS_LARGER(INT_MAX, LLONG_MAX)
-typedef long long psnip_safe_int_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(INT_MAX, 0x7fff)
-typedef psnip_int16_t psnip_safe_int_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(INT_MAX, 0x7fffffffLL)
-typedef psnip_int32_t psnip_safe_int_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(INT_MAX, 0x7fffffffffffffffLL)
-typedef psnip_int64_t psnip_safe_int_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (INT_MAX <= 0x7fffffffffffffffLL)
-typedef psnip_safe_int128_t psnip_safe_int_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_INT
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_UINT
-#if PSNIP_SAFE_IS_LARGER(UINT_MAX, ULONG_MAX)
-typedef unsigned long psnip_safe_uint_larger;
-#elif PSNIP_SAFE_IS_LARGER(UINT_MAX, ULLONG_MAX)
-typedef unsigned long long psnip_safe_uint_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UINT_MAX, 0xffff)
-typedef psnip_uint16_t psnip_safe_uint_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UINT_MAX, 0xffffffffUL)
-typedef psnip_uint32_t psnip_safe_uint_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UINT_MAX, 0xffffffffffffffffULL)
-typedef psnip_uint64_t psnip_safe_uint_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (UINT_MAX <= 0xffffffffffffffffULL)
-typedef psnip_safe_uint128_t psnip_safe_uint_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_UINT
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_LONG
-#if PSNIP_SAFE_IS_LARGER(LONG_MAX, LLONG_MAX)
-typedef long long psnip_safe_long_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LONG_MAX, 0x7fff)
-typedef psnip_int16_t psnip_safe_long_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LONG_MAX, 0x7fffffffLL)
-typedef psnip_int32_t psnip_safe_long_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LONG_MAX, 0x7fffffffffffffffLL)
-typedef psnip_int64_t psnip_safe_long_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (LONG_MAX <= 0x7fffffffffffffffLL)
-typedef psnip_safe_int128_t psnip_safe_long_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_LONG
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_ULONG
-#if PSNIP_SAFE_IS_LARGER(ULONG_MAX, ULLONG_MAX)
-typedef unsigned long long psnip_safe_ulong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULONG_MAX, 0xffff)
-typedef psnip_uint16_t psnip_safe_ulong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULONG_MAX, 0xffffffffUL)
-typedef psnip_uint32_t psnip_safe_ulong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULONG_MAX, 0xffffffffffffffffULL)
-typedef psnip_uint64_t psnip_safe_ulong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (ULONG_MAX <= 0xffffffffffffffffULL)
-typedef psnip_safe_uint128_t psnip_safe_ulong_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_ULONG
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_LLONG
-#if !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LLONG_MAX, 0x7fff)
-typedef psnip_int16_t psnip_safe_llong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LLONG_MAX, 0x7fffffffLL)
-typedef psnip_int32_t psnip_safe_llong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LLONG_MAX, 0x7fffffffffffffffLL)
-typedef psnip_int64_t psnip_safe_llong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (LLONG_MAX <= 0x7fffffffffffffffLL)
-typedef psnip_safe_int128_t psnip_safe_llong_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_LLONG
-#endif
-
-#define PSNIP_SAFE_HAVE_LARGER_ULLONG
-#if !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULLONG_MAX, 0xffff)
-typedef psnip_uint16_t psnip_safe_ullong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULLONG_MAX, 0xffffffffUL)
-typedef psnip_uint32_t psnip_safe_ullong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULLONG_MAX, 0xffffffffffffffffULL)
-typedef psnip_uint64_t psnip_safe_ullong_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (ULLONG_MAX <= 0xffffffffffffffffULL)
-typedef psnip_safe_uint128_t psnip_safe_ullong_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_ULLONG
-#endif
-
-#if defined(PSNIP_SAFE_SIZE_MAX)
-#define PSNIP_SAFE_HAVE_LARGER_SIZE
-#if PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, USHRT_MAX)
-typedef unsigned short psnip_safe_size_larger;
-#elif PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, UINT_MAX)
-typedef unsigned int psnip_safe_size_larger;
-#elif PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, ULONG_MAX)
-typedef unsigned long psnip_safe_size_larger;
-#elif PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, ULLONG_MAX)
-typedef unsigned long long psnip_safe_size_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, 0xffff)
-typedef psnip_uint16_t psnip_safe_size_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, 0xffffffffUL)
-typedef psnip_uint32_t psnip_safe_size_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, 0xffffffffffffffffULL)
-typedef psnip_uint64_t psnip_safe_size_larger;
-#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (PSNIP_SAFE_SIZE_MAX <= 0xffffffffffffffffULL)
-typedef psnip_safe_uint128_t psnip_safe_size_larger;
-#else
-#undef PSNIP_SAFE_HAVE_LARGER_SIZE
-#endif
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_SCHAR)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(signed char, schar)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_UCHAR)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned char, uchar)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_CHAR)
-#if CHAR_MIN == 0
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(char, char)
-#else
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(char, char)
-#endif
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_SHORT)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(short, short)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_USHORT)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned short, ushort)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_INT)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(int, int)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_UINT)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned int, uint)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_LONG)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(long, long)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_ULONG)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned long, ulong)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_LLONG)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(long long, llong)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_ULLONG)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned long long, ullong)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_LARGER_SIZE)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(size_t, size)
-#endif
-
-#if !defined(PSNIP_SAFE_NO_FIXED)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int8_t,   int8)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint8_t,  uint8)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int16_t,  int16)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint16_t, uint16)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int32_t,  int32)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint32_t, uint32)
-#if defined(PSNIP_SAFE_HAVE_128)
-PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int64_t,  int64)
-PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint64_t, uint64)
-#endif
-#endif
-
-#endif /* !defined(PSNIP_SAFE_NO_PROMOTIONS) */
-
-#define PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(T, name, op_name) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_##op_name(T* res, T a, T b) { \
-    return !__builtin_##op_name##_overflow(a, b, res); \
-  }
-
-#define PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(T, name, op_name, min, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_##op_name(T* res, T a, T b) { \
-    const psnip_safe_##name##_larger r = psnip_safe_larger_##name##_##op_name(a, b); \
-    *res = (T) r; \
-    return (r >= min) && (r <= max); \
-  }
-
-#define PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(T, name, op_name, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_##op_name(T* res, T a, T b) { \
-    const psnip_safe_##name##_larger r = psnip_safe_larger_##name##_##op_name(a, b); \
-    *res = (T) r; \
-    return (r <= max); \
-  }
-
-#define PSNIP_SAFE_DEFINE_SIGNED_ADD(T, name, min, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_add (T* res, T a, T b) { \
-    psnip_safe_bool r = !( ((b > 0) && (a > (max - b))) ||   \
-                 ((b < 0) && (a < (min - b))) ); \
-    if(PSNIP_SAFE_LIKELY(r)) \
-        *res = a + b; \
-    return r; \
-  }
-
-#define PSNIP_SAFE_DEFINE_UNSIGNED_ADD(T, name, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_add (T* res, T a, T b) { \
-    *res = (T) (a + b); \
-    return !PSNIP_SAFE_UNLIKELY((b > 0) && (a > (max - b))); \
-  }
-
-#define PSNIP_SAFE_DEFINE_SIGNED_SUB(T, name, min, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_sub (T* res, T a, T b) { \
-      psnip_safe_bool r = !((b > 0 && a < (min + b)) || \
-                  (b < 0 && a > (max + b))); \
-      if(PSNIP_SAFE_LIKELY(r)) \
-          *res = a - b; \
-      return r; \
-  }
-
-#define PSNIP_SAFE_DEFINE_UNSIGNED_SUB(T, name, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_sub (T* res, T a, T b) { \
-      *res = a - b; \
-      return !PSNIP_SAFE_UNLIKELY(b > a); \
-  }
-
-#define PSNIP_SAFE_DEFINE_SIGNED_MUL(T, name, min, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_mul (T* res, T a, T b) { \
-    psnip_safe_bool r = 1;  \
-    if (a > 0) { \
-      if (b > 0) { \
-        if (a > (max / b)) { \
-          r = 0; \
-        } \
-      } else { \
-        if (b < (min / a)) { \
-          r = 0; \
-        } \
-      } \
-    } else { \
-      if (b > 0) { \
-        if (a < (min / b)) { \
-          r = 0; \
-        } \
-      } else { \
-        if ( (a != 0) && (b < (max / a))) { \
-          r = 0; \
-        } \
-      } \
-    } \
-    if(PSNIP_SAFE_LIKELY(r)) \
-        *res = a * b; \
-    return r; \
-  }
-
-#define PSNIP_SAFE_DEFINE_UNSIGNED_MUL(T, name, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_mul (T* res, T a, T b) { \
-    *res = (T) (a * b); \
-    return !PSNIP_SAFE_UNLIKELY((a > 0) && (b > 0) && (a > (max / b))); \
-  }
-
-#define PSNIP_SAFE_DEFINE_SIGNED_DIV(T, name, min, max)   \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_div (T* res, T a, T b) { \
-    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
-      *res = 0; \
-      return 0; \
-    } else if (PSNIP_SAFE_UNLIKELY(a == min && b == -1)) {    \
-      *res = min; \
-      return 0; \
-    } else { \
-      *res = (T) (a / b); \
-      return 1; \
-    } \
-  }
-
-#define PSNIP_SAFE_DEFINE_UNSIGNED_DIV(T, name, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_div (T* res, T a, T b) { \
-    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
-      *res = 0; \
-      return 0; \
-    } else { \
-      *res = a / b; \
-      return 1; \
-    } \
-  }
-
-#define PSNIP_SAFE_DEFINE_SIGNED_MOD(T, name, min, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_mod (T* res, T a, T b) { \
-    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
-      *res = 0; \
-      return 0; \
-    } else if (PSNIP_SAFE_UNLIKELY(a == min && b == -1)) { \
-      *res = min; \
-      return 0; \
-    } else { \
-      *res = (T) (a % b); \
-      return 1; \
-    } \
-  }
-
-#define PSNIP_SAFE_DEFINE_UNSIGNED_MOD(T, name, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_mod (T* res, T a, T b) { \
-    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
-      *res = 0; \
-      return 0; \
-    } else { \
-      *res = a % b; \
-      return 1; \
-    } \
-  }
-
-#define PSNIP_SAFE_DEFINE_SIGNED_NEG(T, name, min, max) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_neg (T* res, T value) { \
-    psnip_safe_bool r = value != min; \
-    *res = PSNIP_SAFE_LIKELY(r) ? -value : max; \
-    return r; \
-  }
-
-#define PSNIP_SAFE_DEFINE_INTSAFE(T, name, op, isf) \
-  PSNIP_SAFE__FUNCTION psnip_safe_bool \
-  psnip_safe_##name##_##op (T* res, T a, T b) { \
-    return isf(a, b, res) == S_OK; \
-  }
-
-#if CHAR_MIN == 0
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_CHAR)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(char, char, add, CHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(char, char, sub, CHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(char, char, mul, CHAR_MAX)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(char, char, CHAR_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(char, char, CHAR_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(char, char, CHAR_MAX)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(char, char, CHAR_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(char, char, CHAR_MAX)
-#else /* CHAR_MIN != 0 */
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_CHAR)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(char, char, add, CHAR_MIN, CHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(char, char, sub, CHAR_MIN, CHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(char, char, mul, CHAR_MIN, CHAR_MAX)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(char, char, CHAR_MIN, CHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(char, char, CHAR_MIN, CHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(char, char, CHAR_MIN, CHAR_MAX)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(char, char, CHAR_MIN, CHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(char, char, CHAR_MIN, CHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(char, char, CHAR_MIN, CHAR_MAX)
-#endif
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(signed char, schar, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(signed char, schar, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(signed char, schar, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_SCHAR)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(signed char, schar, add, SCHAR_MIN, SCHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(signed char, schar, sub, SCHAR_MIN, SCHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(signed char, schar, mul, SCHAR_MIN, SCHAR_MAX)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(signed char, schar, SCHAR_MIN, SCHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(signed char, schar, SCHAR_MIN, SCHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(signed char, schar, SCHAR_MIN, SCHAR_MAX)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(signed char, schar, SCHAR_MIN, SCHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(signed char, schar, SCHAR_MIN, SCHAR_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(signed char, schar, SCHAR_MIN, SCHAR_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned char, uchar, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned char, uchar, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned char, uchar, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_UCHAR)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned char, uchar, add, UCHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned char, uchar, sub, UCHAR_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned char, uchar, mul, UCHAR_MAX)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned char, uchar, UCHAR_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned char, uchar, UCHAR_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned char, uchar, UCHAR_MAX)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned char, uchar, UCHAR_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned char, uchar, UCHAR_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(short, short, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(short, short, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(short, short, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_SHORT)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(short, short, add, SHRT_MIN, SHRT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(short, short, sub, SHRT_MIN, SHRT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(short, short, mul, SHRT_MIN, SHRT_MAX)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(short, short, SHRT_MIN, SHRT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(short, short, SHRT_MIN, SHRT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(short, short, SHRT_MIN, SHRT_MAX)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(short, short, SHRT_MIN, SHRT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(short, short, SHRT_MIN, SHRT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(short, short, SHRT_MIN, SHRT_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned short, ushort, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned short, ushort, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned short, ushort, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned short, ushort, add, UShortAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned short, ushort, sub, UShortSub)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned short, ushort, mul, UShortMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_USHORT)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned short, ushort, add, USHRT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned short, ushort, sub, USHRT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned short, ushort, mul, USHRT_MAX)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned short, ushort, USHRT_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned short, ushort, USHRT_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned short, ushort, USHRT_MAX)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned short, ushort, USHRT_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned short, ushort, USHRT_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(int, int, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(int, int, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(int, int, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_INT)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(int, int, add, INT_MIN, INT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(int, int, sub, INT_MIN, INT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(int, int, mul, INT_MIN, INT_MAX)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(int, int, INT_MIN, INT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(int, int, INT_MIN, INT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(int, int, INT_MIN, INT_MAX)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(int, int, INT_MIN, INT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(int, int, INT_MIN, INT_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(int, int, INT_MIN, INT_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned int, uint, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned int, uint, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned int, uint, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned int, uint, add, UIntAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned int, uint, sub, UIntSub)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned int, uint, mul, UIntMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned int, uint, add, UINT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned int, uint, sub, UINT_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned int, uint, mul, UINT_MAX)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned int, uint, UINT_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned int, uint, UINT_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned int, uint, UINT_MAX)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned int, uint, UINT_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned int, uint, UINT_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long, long, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long, long, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long, long, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_LONG)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long, long, add, LONG_MIN, LONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long, long, sub, LONG_MIN, LONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long, long, mul, LONG_MIN, LONG_MAX)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(long, long, LONG_MIN, LONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(long, long, LONG_MIN, LONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(long, long, LONG_MIN, LONG_MAX)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(long, long, LONG_MIN, LONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(long, long, LONG_MIN, LONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(long, long, LONG_MIN, LONG_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long, ulong, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long, ulong, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long, ulong, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned long, ulong, add, ULongAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned long, ulong, sub, ULongSub)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned long, ulong, mul, ULongMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_ULONG)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long, ulong, add, ULONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long, ulong, sub, ULONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long, ulong, mul, ULONG_MAX)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned long, ulong, ULONG_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned long, ulong, ULONG_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned long, ulong, ULONG_MAX)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned long, ulong, ULONG_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned long, ulong, ULONG_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long long, llong, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long long, llong, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long long, llong, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_LLONG)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long long, llong, add, LLONG_MIN, LLONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long long, llong, sub, LLONG_MIN, LLONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long long, llong, mul, LLONG_MIN, LLONG_MAX)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(long long, llong, LLONG_MIN, LLONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(long long, llong, LLONG_MIN, LLONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(long long, llong, LLONG_MIN, LLONG_MAX)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(long long, llong, LLONG_MIN, LLONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(long long, llong, LLONG_MIN, LLONG_MAX)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(long long, llong, LLONG_MIN, LLONG_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long long, ullong, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long long, ullong, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long long, ullong, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned long long, ullong, add, ULongLongAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned long long, ullong, sub, ULongLongSub)
-PSNIP_SAFE_DEFINE_INTSAFE(unsigned long long, ullong, mul, ULongLongMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_ULLONG)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long long, ullong, add, ULLONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long long, ullong, sub, ULLONG_MAX)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long long, ullong, mul, ULLONG_MAX)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned long long, ullong, ULLONG_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned long long, ullong, ULLONG_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned long long, ullong, ULLONG_MAX)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned long long, ullong, ULLONG_MAX)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned long long, ullong, ULLONG_MAX)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(size_t, size, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(size_t, size, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(size_t, size, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
-PSNIP_SAFE_DEFINE_INTSAFE(size_t, size, add, SizeTAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(size_t, size, sub, SizeTSub)
-PSNIP_SAFE_DEFINE_INTSAFE(size_t, size, mul, SizeTMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_SIZE)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(size_t, size, add, PSNIP_SAFE__SIZE_MAX_RT)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(size_t, size, sub, PSNIP_SAFE__SIZE_MAX_RT)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(size_t, size, mul, PSNIP_SAFE__SIZE_MAX_RT)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
-
-#if !defined(PSNIP_SAFE_NO_FIXED)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int8_t, int8, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int8_t, int8, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int8_t, int8, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_INT8)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int8_t, int8, add, (-0x7fLL-1), 0x7f)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int8_t, int8, sub, (-0x7fLL-1), 0x7f)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int8_t, int8, mul, (-0x7fLL-1), 0x7f)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint8_t, uint8, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint8_t, uint8, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint8_t, uint8, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT8)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint8_t, uint8, add, 0xff)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint8_t, uint8, sub, 0xff)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint8_t, uint8, mul, 0xff)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint8_t, uint8, 0xff)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint8_t, uint8, 0xff)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint8_t, uint8, 0xff)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint8_t, uint8, 0xff)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint8_t, uint8, 0xff)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int16_t, int16, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int16_t, int16, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int16_t, int16, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_INT16)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int16_t, int16, add, (-32767-1), 0x7fff)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int16_t, int16, sub, (-32767-1), 0x7fff)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int16_t, int16, mul, (-32767-1), 0x7fff)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int16_t, int16, (-32767-1), 0x7fff)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int16_t, int16, (-32767-1), 0x7fff)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int16_t, int16, (-32767-1), 0x7fff)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int16_t, int16, (-32767-1), 0x7fff)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int16_t, int16, (-32767-1), 0x7fff)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int16_t, int16, (-32767-1), 0x7fff)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint16_t, uint16, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint16_t, uint16, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint16_t, uint16, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H) && defined(_WIN32)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint16_t, uint16, add, UShortAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint16_t, uint16, sub, UShortSub)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint16_t, uint16, mul, UShortMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT16)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint16_t, uint16, add, 0xffff)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint16_t, uint16, sub, 0xffff)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint16_t, uint16, mul, 0xffff)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint16_t, uint16, 0xffff)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint16_t, uint16, 0xffff)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint16_t, uint16, 0xffff)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint16_t, uint16, 0xffff)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint16_t, uint16, 0xffff)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int32_t, int32, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int32_t, int32, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int32_t, int32, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_INT32)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int32_t, int32, add, (-0x7fffffffLL-1), 0x7fffffffLL)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int32_t, int32, sub, (-0x7fffffffLL-1), 0x7fffffffLL)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int32_t, int32, mul, (-0x7fffffffLL-1), 0x7fffffffLL)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint32_t, uint32, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint32_t, uint32, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint32_t, uint32, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H) && defined(_WIN32)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint32_t, uint32, add, UIntAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint32_t, uint32, sub, UIntSub)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint32_t, uint32, mul, UIntMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT32)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint32_t, uint32, add, 0xffffffffUL)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint32_t, uint32, sub, 0xffffffffUL)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint32_t, uint32, mul, 0xffffffffUL)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint32_t, uint32, 0xffffffffUL)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint32_t, uint32, 0xffffffffUL)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint32_t, uint32, 0xffffffffUL)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint32_t, uint32, 0xffffffffUL)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint32_t, uint32, 0xffffffffUL)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int64_t, int64, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int64_t, int64, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int64_t, int64, mul)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_INT64)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int64_t, int64, add, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int64_t, int64, sub, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int64_t, int64, mul, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-#else
-PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-#endif
-PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint64_t, uint64, add)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint64_t, uint64, sub)
-PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint64_t, uint64, mul)
-#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H) && defined(_WIN32)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint64_t, uint64, add, ULongLongAdd)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint64_t, uint64, sub, ULongLongSub)
-PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint64_t, uint64, mul, ULongLongMult)
-#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT64)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint64_t, uint64, add, 0xffffffffffffffffULL)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint64_t, uint64, sub, 0xffffffffffffffffULL)
-PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint64_t, uint64, mul, 0xffffffffffffffffULL)
-#else
-PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
-PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
-PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
-#endif
-PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
-PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
-
-#endif /* !defined(PSNIP_SAFE_NO_FIXED) */
-
-#define PSNIP_SAFE_C11_GENERIC_SELECTION(res, op) \
-  _Generic((*res), \
-	   char: psnip_safe_char_##op, \
-	   unsigned char: psnip_safe_uchar_##op, \
-	   short: psnip_safe_short_##op, \
-	   unsigned short: psnip_safe_ushort_##op, \
-	   int: psnip_safe_int_##op, \
-	   unsigned int: psnip_safe_uint_##op, \
-	   long: psnip_safe_long_##op, \
-	   unsigned long: psnip_safe_ulong_##op, \
-	   long long: psnip_safe_llong_##op, \
-	   unsigned long long: psnip_safe_ullong_##op)
-
-#define PSNIP_SAFE_C11_GENERIC_BINARY_OP(op, res, a, b) \
-  PSNIP_SAFE_C11_GENERIC_SELECTION(res, op)(res, a, b)
-#define PSNIP_SAFE_C11_GENERIC_UNARY_OP(op, res, v) \
-  PSNIP_SAFE_C11_GENERIC_SELECTION(res, op)(res, v)
-
-#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
-#define psnip_safe_add(res, a, b) !__builtin_add_overflow(a, b, res)
-#define psnip_safe_sub(res, a, b) !__builtin_sub_overflow(a, b, res)
-#define psnip_safe_mul(res, a, b) !__builtin_mul_overflow(a, b, res)
-#define psnip_safe_div(res, a, b) !__builtin_div_overflow(a, b, res)
-#define psnip_safe_mod(res, a, b) !__builtin_mod_overflow(a, b, res)
-#define psnip_safe_neg(res, v)    PSNIP_SAFE_C11_GENERIC_UNARY_OP (neg, res, v)
-
-#elif defined(__STDC_VERSION__) && (__STDC_VERSION__ >= 201112L)
-/* The are no fixed-length or size selections because they cause an
- * error about _Generic specifying two compatible types.  Hopefully
- * this doesn't cause problems on exotic platforms, but if it does
- * please let me know and I'll try to figure something out. */
-
-#define psnip_safe_add(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(add, res, a, b)
-#define psnip_safe_sub(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(sub, res, a, b)
-#define psnip_safe_mul(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(mul, res, a, b)
-#define psnip_safe_div(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(div, res, a, b)
-#define psnip_safe_mod(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(mod, res, a, b)
-#define psnip_safe_neg(res, v)    PSNIP_SAFE_C11_GENERIC_UNARY_OP (neg, res, v)
-#endif
-
-#if !defined(PSNIP_SAFE_HAVE_BUILTINS) && (defined(PSNIP_SAFE_EMULATE_NATIVE) || defined(PSNIP_BUILTIN_EMULATE_NATIVE))
-#  define __builtin_sadd_overflow(a, b, res)   (!psnip_safe_int_add(res, a, b))
-#  define __builtin_saddl_overflow(a, b, res)  (!psnip_safe_long_add(res, a, b))
-#  define __builtin_saddll_overflow(a, b, res) (!psnip_safe_llong_add(res, a, b))
-#  define __builtin_uadd_overflow(a, b, res)   (!psnip_safe_uint_add(res, a, b))
-#  define __builtin_uaddl_overflow(a, b, res)  (!psnip_safe_ulong_add(res, a, b))
-#  define __builtin_uaddll_overflow(a, b, res) (!psnip_safe_ullong_add(res, a, b))
-
-#  define __builtin_ssub_overflow(a, b, res)   (!psnip_safe_int_sub(res, a, b))
-#  define __builtin_ssubl_overflow(a, b, res)  (!psnip_safe_long_sub(res, a, b))
-#  define __builtin_ssubll_overflow(a, b, res) (!psnip_safe_llong_sub(res, a, b))
-#  define __builtin_usub_overflow(a, b, res)   (!psnip_safe_uint_sub(res, a, b))
-#  define __builtin_usubl_overflow(a, b, res)  (!psnip_safe_ulong_sub(res, a, b))
-#  define __builtin_usubll_overflow(a, b, res) (!psnip_safe_ullong_sub(res, a, b))
-
-#  define __builtin_smul_overflow(a, b, res)   (!psnip_safe_int_mul(res, a, b))
-#  define __builtin_smull_overflow(a, b, res)  (!psnip_safe_long_mul(res, a, b))
-#  define __builtin_smulll_overflow(a, b, res) (!psnip_safe_llong_mul(res, a, b))
-#  define __builtin_umul_overflow(a, b, res)   (!psnip_safe_uint_mul(res, a, b))
-#  define __builtin_umull_overflow(a, b, res)  (!psnip_safe_ulong_mul(res, a, b))
-#  define __builtin_umulll_overflow(a, b, res) (!psnip_safe_ullong_mul(res, a, b))
-#endif
-
-#endif /* !defined(PSNIP_SAFE_H) */
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic.go b/go/arrow/compute/internal/kernels/base_arithmetic.go
deleted file mode 100644
index 169fbba2f02af..0000000000000
--- a/go/arrow/compute/internal/kernels/base_arithmetic.go
+++ /dev/null
@@ -1,897 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"math"
-	"math/bits"
-
-	"github.com/JohnCGriffin/overflow"
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"golang.org/x/exp/constraints"
-)
-
-type ArithmeticOp int8
-
-const (
-	OpAdd ArithmeticOp = iota
-	OpSub
-	OpMul
-	OpDiv
-	OpAbsoluteValue
-	OpNegate
-	// NO SIMD for the following yet
-	OpSqrt
-	OpPower
-	OpSin
-	OpCos
-	OpTan
-	OpAsin
-	OpAcos
-	OpAtan
-	OpAtan2
-	OpLn
-	OpLog10
-	OpLog2
-	OpLog1p
-	OpLogb
-	// End NO SIMD
-	OpSign
-
-	// Checked versions will not use SIMD except for float32/float64 impls
-	OpAddChecked
-	OpSubChecked
-	OpMulChecked
-	OpDivChecked
-	OpAbsoluteValueChecked
-	OpNegateChecked
-	// No SIMD impls for the rest of these yet
-	OpSqrtChecked
-	OpPowerChecked
-	OpSinChecked
-	OpCosChecked
-	OpTanChecked
-	OpAsinChecked
-	OpAcosChecked
-	OpLnChecked
-	OpLog10Checked
-	OpLog2Checked
-	OpLog1pChecked
-	OpLogbChecked
-)
-
-func mulWithOverflow[T arrow.IntType | arrow.UintType](a, b T) (T, error) {
-	min, max := MinOf[T](), MaxOf[T]()
-	switch {
-	case a > 0:
-		if b > 0 {
-			if a > (max / b) {
-				return 0, errOverflow
-			}
-		} else {
-			if b < (min / a) {
-				return 0, errOverflow
-			}
-		}
-	case b > 0:
-		if a < (min / b) {
-			return 0, errOverflow
-		}
-	default:
-		if (a != 0) && (b < (max / a)) {
-			return 0, errOverflow
-		}
-	}
-
-	return a * b, nil
-}
-
-func getGoArithmeticBinary[OutT, Arg0T, Arg1T arrow.NumericType](op func(a Arg0T, b Arg1T, e *error) OutT) binaryOps[OutT, Arg0T, Arg1T] {
-	return binaryOps[OutT, Arg0T, Arg1T]{
-		arrArr: func(_ *exec.KernelCtx, left []Arg0T, right []Arg1T, out []OutT) error {
-			var err error
-			for i := range out {
-				out[i] = op(left[i], right[i], &err)
-			}
-			return err
-		},
-		arrScalar: func(_ *exec.KernelCtx, left []Arg0T, right Arg1T, out []OutT) error {
-			var err error
-			for i := range out {
-				out[i] = op(left[i], right, &err)
-			}
-			return err
-		},
-		scalarArr: func(_ *exec.KernelCtx, left Arg0T, right []Arg1T, out []OutT) error {
-			var err error
-			for i := range out {
-				out[i] = op(left, right[i], &err)
-			}
-			return err
-		},
-	}
-}
-
-var (
-	errOverflow      = fmt.Errorf("%w: overflow", arrow.ErrInvalid)
-	errDivByZero     = fmt.Errorf("%w: divide by zero", arrow.ErrInvalid)
-	errNegativeSqrt  = fmt.Errorf("%w: square root of negative number", arrow.ErrInvalid)
-	errNegativePower = fmt.Errorf("%w: integers to negative integer powers are not allowed", arrow.ErrInvalid)
-	errDomainErr     = fmt.Errorf("%w: domain error", arrow.ErrInvalid)
-	errLogZero       = fmt.Errorf("%w: logarithm of zero", arrow.ErrInvalid)
-	errLogNeg        = fmt.Errorf("%w: logarithm of negative number", arrow.ErrInvalid)
-)
-
-func getGoArithmeticOpIntegral[InT, OutT arrow.UintType | arrow.IntType](op ArithmeticOp) exec.ArrayKernelExec {
-	switch op {
-	case OpAdd:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a + b) }))
-	case OpSub:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a - b) }))
-	case OpMul:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a * b) }))
-	case OpDiv:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) OutT {
-			if b == 0 {
-				*e = errDivByZero
-				return 0
-			}
-			return OutT(a / b)
-		})
-	case OpAbsoluteValue:
-		if ones := ^InT(0); ones < 0 {
-			shiftBy := (SizeOf[InT]() * 8) - 1
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				// get abs without branching
-				for i, v := range arg {
-					// right shift (sign check)
-					mask := v >> shiftBy
-					// add the mask '+' and '-' balance
-					v = v + mask
-					// invert and return
-					out[i] = OutT(v ^ mask)
-				}
-				return nil
-			})
-		}
-
-		if SizeOf[InT]() == SizeOf[OutT]() {
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				in, output := arrow.GetBytes(arg), arrow.GetBytes(out)
-				copy(output, in)
-				return nil
-			})
-		} else {
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				DoStaticCast(arg, out)
-				return nil
-			})
-		}
-	case OpNegate:
-		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-			for i, v := range arg {
-				out[i] = OutT(-v)
-			}
-			return nil
-		})
-	case OpSign:
-		if ^InT(0) < 0 {
-			var neg int8 = -1
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				neg := OutT(neg)
-				for i, v := range arg {
-					switch {
-					case v > 0:
-						out[i] = 1
-					case v < 0:
-						out[i] = neg
-					default:
-						out[i] = 0
-					}
-				}
-				return nil
-			})
-		}
-		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-			for i, v := range arg {
-				if v > 0 {
-					out[i] = 1
-				} else {
-					out[i] = 0
-				}
-			}
-			return nil
-		})
-	case OpPower:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, err *error) OutT {
-			if b < 0 {
-				*err = errNegativePower
-				return 0
-			}
-			// integer power
-			var (
-				base        = uint64(a)
-				exp         = uint64(b)
-				pow  uint64 = 1
-			)
-
-			// right to left 0(logn) power
-			for exp != 0 {
-				if exp&1 != 0 {
-					pow *= base
-				}
-				base *= base
-				exp >>= 1
-			}
-			return OutT(pow)
-		}))
-	case OpAddChecked:
-		shiftBy := (SizeOf[InT]() * 8) - 1
-		// ie: uint32 does a >> 31 at the end, int32 does >> 30
-		if ^InT(0) < 0 {
-			shiftBy--
-		}
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
-			out = OutT(a + b)
-			// see math/bits/bits.go Add64 for explanation of logic
-			carry := (OutT(a&b) | (OutT(a|b) &^ out)) >> shiftBy
-			if carry > 0 {
-				*e = errOverflow
-			}
-			return
-		})
-	case OpSubChecked:
-		shiftBy := (SizeOf[InT]() * 8) - 1
-		// ie: uint32 does a >> 31 at the end, int32 does >> 30
-		if ^InT(0) < 0 {
-			shiftBy--
-		}
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
-			out = OutT(a - b)
-			// see math/bits/bits.go Sub64 for explanation of bit logic
-			carry := (OutT(^a&b) | (^OutT(a^b) & out)) >> shiftBy
-			if carry > 0 {
-				*e = errOverflow
-			}
-			return
-		})
-	case OpMulChecked:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, e *error) (out OutT) {
-			o, err := mulWithOverflow(a, b)
-			if err != nil {
-				*e = err
-			}
-			return OutT(o)
-		}))
-	case OpDivChecked:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
-			if b == 0 {
-				*e = errDivByZero
-				return
-			}
-			return OutT(a / b)
-		})
-	case OpAbsoluteValueChecked:
-		if ones := ^InT(0); ones < 0 {
-			shiftBy := (SizeOf[InT]() * 8) - 1
-			min := MinOf[InT]()
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				for i, v := range arg {
-					if v == min {
-						return errOverflow
-					}
-
-					// right shift (sign check)
-					mask := v >> shiftBy
-					// add the mask '+' and '-' balance
-					v = v + mask
-					// invert and return
-					out[i] = OutT(v ^ mask)
-				}
-				return nil
-			})
-		}
-		if SizeOf[InT]() == SizeOf[OutT]() {
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				in, output := arrow.GetBytes(arg), arrow.GetBytes(out)
-				copy(output, in)
-				return nil
-			})
-		} else {
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				DoStaticCast(arg, out)
-				return nil
-			})
-		}
-	case OpNegateChecked:
-		if ones := ^InT(0); ones < 0 {
-			min := MinOf[InT]()
-			// signed
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				for i, v := range arg {
-					if v != min {
-						out[i] = OutT(-v)
-					} else {
-						return errOverflow
-					}
-				}
-				return nil
-			})
-		}
-	case OpPowerChecked:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, base, exp InT, e *error) OutT {
-			if exp < 0 {
-				*e = errNegativePower
-				return 0
-			} else if exp == 0 {
-				return 1
-			}
-
-			// left to right 0(logn) power with overflow checks
-			var (
-				overflow bool
-				bitmask      = uint64(1) << (63 - bits.LeadingZeros64(uint64(exp)))
-				pow      InT = 1
-				err      error
-			)
-
-			for bitmask != 0 {
-				pow, err = mulWithOverflow(pow, pow)
-				overflow = overflow || (err != nil)
-				if uint64(exp)&bitmask != 0 {
-					pow, err = mulWithOverflow(pow, base)
-					overflow = overflow || (err != nil)
-				}
-				bitmask >>= 1
-			}
-			if overflow {
-				*e = errOverflow
-			}
-			return OutT(pow)
-		})
-	}
-	debug.Assert(false, "invalid arithmetic op")
-	return nil
-}
-
-func getGoArithmeticOpFloating[InT, OutT constraints.Float](op ArithmeticOp) exec.ArrayKernelExec {
-	switch op {
-	case OpAdd, OpAddChecked:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a + b) }))
-	case OpSub, OpSubChecked:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a - b) }))
-	case OpMul, OpMulChecked:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a * b) }))
-	case OpDiv:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
-			return OutT(a / b)
-		})
-	case OpDivChecked:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
-			if b == 0 {
-				*e = errDivByZero
-				return
-			}
-			return OutT(a / b)
-		})
-	case OpAbsoluteValue, OpAbsoluteValueChecked:
-		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-			for i, v := range arg {
-				out[i] = OutT(math.Abs(float64(v)))
-			}
-			return nil
-		})
-	case OpNegate, OpNegateChecked:
-		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-			for i, v := range arg {
-				out[i] = OutT(-v)
-			}
-			return nil
-		})
-	case OpSqrt:
-		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-			for i, v := range arg {
-				out[i] = OutT(math.Sqrt(float64(v)))
-			}
-			return nil
-		})
-	case OpSqrtChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			if arg < 0 {
-				*e = errNegativeSqrt
-				return OutT(math.NaN())
-			}
-			return OutT(math.Sqrt(float64(arg)))
-		})
-	case OpSign:
-		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-			for i, v := range arg {
-				switch {
-				case math.IsNaN(float64(v)):
-					out[i] = OutT(v)
-				case v == 0:
-					out[i] = 0
-				case math.Signbit(float64(v)):
-					out[i] = -1
-				default:
-					out[i] = 1
-				}
-			}
-			return nil
-		})
-	case OpPower, OpPowerChecked:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT {
-			return OutT(math.Pow(float64(a), float64(b)))
-		}))
-	case OpSin:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Sin(float64(v)))
-			}
-			return nil
-		})
-	case OpSinChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			if math.IsInf(float64(arg), 0) {
-				*e = errDomainErr
-				return OutT(arg)
-			}
-			return OutT(math.Sin(float64(arg)))
-		})
-	case OpCos:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Cos(float64(v)))
-			}
-			return nil
-		})
-	case OpCosChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			if math.IsInf(float64(arg), 0) {
-				*e = errDomainErr
-				return OutT(arg)
-			}
-			return OutT(math.Cos(float64(arg)))
-		})
-	case OpTan:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Tan(float64(v)))
-			}
-			return nil
-		})
-	case OpTanChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			if math.IsInf(float64(arg), 0) {
-				*e = errDomainErr
-				return OutT(arg)
-			}
-			return OutT(math.Tan(float64(arg)))
-		})
-	case OpAsin:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Asin(float64(v)))
-			}
-			return nil
-		})
-	case OpAsinChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			if arg < -1 || arg > 1 {
-				*e = errDomainErr
-				return OutT(arg)
-			}
-			return OutT(math.Asin(float64(arg)))
-		})
-	case OpAcos:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Acos(float64(v)))
-			}
-			return nil
-		})
-	case OpAcosChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			if arg < -1 || arg > 1 {
-				*e = errDomainErr
-				return OutT(arg)
-			}
-			return OutT(math.Acos(float64(arg)))
-		})
-	case OpAtan:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Atan(float64(v)))
-			}
-			return nil
-		})
-	case OpAtan2:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT {
-			return OutT(math.Atan2(float64(a), float64(b)))
-		}))
-	case OpLn:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Log(float64(v)))
-			}
-			return nil
-		})
-	case OpLnChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			switch {
-			case arg == 0:
-				*e = errLogZero
-				return OutT(arg)
-			case arg < 0:
-				*e = errLogNeg
-				return OutT(arg)
-			}
-
-			return OutT(math.Log(float64(arg)))
-		})
-	case OpLog10:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Log10(float64(v)))
-			}
-			return nil
-		})
-	case OpLog10Checked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			switch {
-			case arg == 0:
-				*e = errLogZero
-				return OutT(arg)
-			case arg < 0:
-				*e = errLogNeg
-				return OutT(arg)
-			}
-
-			return OutT(math.Log10(float64(arg)))
-		})
-	case OpLog2:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Log2(float64(v)))
-			}
-			return nil
-		})
-	case OpLog2Checked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			switch {
-			case arg == 0:
-				*e = errLogZero
-				return OutT(arg)
-			case arg < 0:
-				*e = errLogNeg
-				return OutT(arg)
-			}
-
-			return OutT(math.Log2(float64(arg)))
-		})
-	case OpLog1p:
-		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
-			for i, v := range vals {
-				out[i] = OutT(math.Log1p(float64(v)))
-			}
-			return nil
-		})
-	case OpLog1pChecked:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
-			switch {
-			case arg == -1:
-				*e = errLogZero
-				return OutT(arg)
-			case arg < -1:
-				*e = errLogNeg
-				return OutT(arg)
-			}
-
-			return OutT(math.Log1p(float64(arg)))
-		})
-	case OpLogb:
-		return ScalarBinary(getGoArithmeticBinary(func(x, base InT, _ *error) OutT {
-			if x == 0 {
-				if base == 0 || base < 0 {
-					return OutT(math.NaN())
-				} else {
-					return OutT(math.Inf(-1))
-				}
-			} else if x < 0 {
-				return OutT(math.NaN())
-			}
-			return OutT(math.Log(float64(x)) / math.Log(float64(base)))
-		}))
-	case OpLogbChecked:
-		return ScalarBinaryNotNull((func(_ *exec.KernelCtx, x, base InT, e *error) OutT {
-			if x == 0 || base == 0 {
-				*e = errLogZero
-				return OutT(x)
-			} else if x < 0 || base < 0 {
-				*e = errLogNeg
-				return OutT(x)
-			}
-			return OutT(math.Log(float64(x)) / math.Log(float64(base)))
-		}))
-	}
-	debug.Assert(false, "invalid arithmetic op")
-	return nil
-}
-
-func timeDurationOp[OutT, Arg0T, Arg1T ~int32 | ~int64](multiple int64, op ArithmeticOp) exec.ArrayKernelExec {
-	switch op {
-	case OpAdd:
-		return ScalarBinary(getGoArithmeticBinary(func(a Arg0T, b Arg1T, e *error) OutT {
-			result := OutT(a) + OutT(b)
-			if result < 0 || multiple <= int64(result) {
-				*e = fmt.Errorf("%w: %d is not within acceptable range of [0, %d) s", arrow.ErrInvalid, result, multiple)
-			}
-			return result
-		}))
-	case OpSub:
-		return ScalarBinary(getGoArithmeticBinary(func(a Arg0T, b Arg1T, e *error) OutT {
-			result := OutT(a) - OutT(b)
-			if result < 0 || multiple <= int64(result) {
-				*e = fmt.Errorf("%w: %d is not within acceptable range of [0, %d) s", arrow.ErrInvalid, result, multiple)
-			}
-			return result
-		}))
-	case OpAddChecked:
-		shiftBy := (SizeOf[OutT]() * 8) - 1
-		// ie: uint32 does a >> 31 at the end, int32 does >> 30
-		if ^OutT(0) < 0 {
-			shiftBy--
-		}
-		return ScalarBinary(getGoArithmeticBinary(func(a Arg0T, b Arg1T, e *error) (result OutT) {
-			left, right := OutT(a), OutT(b)
-			result = left + right
-			carry := ((left & right) | ((left | right) &^ result)) >> shiftBy
-			if carry > 0 {
-				*e = errOverflow
-				return
-			}
-			if result < 0 || multiple <= int64(result) {
-				*e = fmt.Errorf("%w: %d is not within acceptable range of [0, %d) s", arrow.ErrInvalid, result, multiple)
-			}
-			return
-		}))
-	case OpSubChecked:
-		shiftBy := (SizeOf[OutT]() * 8) - 1
-		// ie: uint32 does a >> 31 at the end, int32 does >> 30
-		if ^OutT(0) < 0 {
-			shiftBy--
-		}
-		return ScalarBinary(getGoArithmeticBinary(func(a Arg0T, b Arg1T, e *error) (result OutT) {
-			left, right := OutT(a), OutT(b)
-			result = left - right
-			carry := ((^left & right) | (^(left ^ right) & result)) >> shiftBy
-			if carry > 0 {
-				*e = errOverflow
-				return
-			}
-			if result < 0 || multiple <= int64(result) {
-				*e = fmt.Errorf("%w: %d is not within acceptable range of [0, %d) s", arrow.ErrInvalid, result, multiple)
-			}
-			return
-		}))
-	}
-	return nil
-}
-
-func SubtractDate32(op ArithmeticOp) exec.ArrayKernelExec {
-	const secondsPerDay = 86400
-	switch op {
-	case OpSub:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b arrow.Time32, e *error) (result arrow.Duration) {
-			return arrow.Duration((a - b) * secondsPerDay)
-		}))
-	case OpSubChecked:
-		return ScalarBinary(getGoArithmeticBinary(func(a, b arrow.Time32, e *error) (result arrow.Duration) {
-			result = arrow.Duration(a) - arrow.Duration(b)
-			val, ok := overflow.Mul64(int64(result), secondsPerDay)
-			if !ok {
-				*e = errOverflow
-			}
-			return arrow.Duration(val)
-		}))
-	}
-	panic("invalid op for subtractDate32")
-}
-
-type decOps[T decimal128.Num | decimal256.Num] struct {
-	Add  func(T, T) T
-	Sub  func(T, T) T
-	Div  func(T, T) T
-	Mul  func(T, T) T
-	Abs  func(T) T
-	Neg  func(T) T
-	Sign func(T) int
-}
-
-var dec128Ops = decOps[decimal128.Num]{
-	Add: func(a, b decimal128.Num) decimal128.Num { return a.Add(b) },
-	Sub: func(a, b decimal128.Num) decimal128.Num { return a.Sub(b) },
-	Mul: func(a, b decimal128.Num) decimal128.Num { return a.Mul(b) },
-	Div: func(a, b decimal128.Num) decimal128.Num {
-		a, _ = a.Div(b)
-		return a
-	},
-	Abs:  func(a decimal128.Num) decimal128.Num { return a.Abs() },
-	Neg:  func(a decimal128.Num) decimal128.Num { return a.Negate() },
-	Sign: func(a decimal128.Num) int { return a.Sign() },
-}
-
-var dec256Ops = decOps[decimal256.Num]{
-	Add: func(a, b decimal256.Num) decimal256.Num { return a.Add(b) },
-	Sub: func(a, b decimal256.Num) decimal256.Num { return a.Sub(b) },
-	Mul: func(a, b decimal256.Num) decimal256.Num { return a.Mul(b) },
-	Div: func(a, b decimal256.Num) decimal256.Num {
-		a, _ = a.Div(b)
-		return a
-	},
-	Abs:  func(a decimal256.Num) decimal256.Num { return a.Abs() },
-	Neg:  func(a decimal256.Num) decimal256.Num { return a.Negate() },
-	Sign: func(a decimal256.Num) int { return a.Sign() },
-}
-
-func getArithmeticOpDecimalImpl[T decimal128.Num | decimal256.Num](op ArithmeticOp, fns decOps[T]) exec.ArrayKernelExec {
-	if op >= OpAddChecked {
-		op -= OpAddChecked // decimal128/256 checked is the same as unchecked
-	}
-
-	switch op {
-	case OpAdd:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, arg0, arg1 T, _ *error) T {
-			return fns.Add(arg0, arg1)
-		})
-	case OpSub:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, arg0, arg1 T, _ *error) T {
-			return fns.Sub(arg0, arg1)
-		})
-	case OpMul:
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, arg0, arg1 T, _ *error) T {
-			return fns.Mul(arg0, arg1)
-		})
-	case OpDiv:
-		var z T
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, arg0, arg1 T, e *error) (out T) {
-			if arg1 == z {
-				*e = errDivByZero
-				return
-			}
-			return fns.Div(arg0, arg1)
-		})
-	case OpAbsoluteValue:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg T, _ *error) T {
-			return fns.Abs(arg)
-		})
-	case OpNegate:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg T, _ *error) T {
-			return fns.Neg(arg)
-		})
-	case OpSign:
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg T, _ *error) int64 {
-			return int64(fns.Sign(arg))
-		})
-	}
-	debug.Assert(false, "unimplemented arithmetic op")
-	return nil
-}
-
-func getArithmeticDecimal[T decimal128.Num | decimal256.Num](op ArithmeticOp) exec.ArrayKernelExec {
-	var def T
-	switch any(def).(type) {
-	case decimal128.Num:
-		return getArithmeticOpDecimalImpl(op, dec128Ops)
-	case decimal256.Num:
-		return getArithmeticOpDecimalImpl(op, dec256Ops)
-	}
-	panic("should never get here")
-}
-
-func ArithmeticExecSameType(ty arrow.Type, op ArithmeticOp) exec.ArrayKernelExec {
-	switch ty {
-	case arrow.INT8:
-		return getArithmeticOpIntegral[int8, int8](op)
-	case arrow.UINT8:
-		return getArithmeticOpIntegral[uint8, uint8](op)
-	case arrow.INT16:
-		return getArithmeticOpIntegral[int16, int16](op)
-	case arrow.UINT16:
-		return getArithmeticOpIntegral[uint16, uint16](op)
-	case arrow.INT32, arrow.TIME32:
-		return getArithmeticOpIntegral[int32, int32](op)
-	case arrow.UINT32:
-		return getArithmeticOpIntegral[uint32, uint32](op)
-	case arrow.INT64, arrow.TIME64, arrow.DATE64, arrow.TIMESTAMP, arrow.DURATION:
-		return getArithmeticOpIntegral[int64, int64](op)
-	case arrow.UINT64:
-		return getArithmeticOpIntegral[uint64, uint64](op)
-	case arrow.FLOAT32:
-		return getArithmeticOpFloating[float32, float32](op)
-	case arrow.FLOAT64:
-		return getArithmeticOpFloating[float64, float64](op)
-	}
-	debug.Assert(false, "invalid arithmetic type")
-	return nil
-}
-
-func arithmeticExec[InT arrow.IntType | arrow.UintType](oty arrow.Type, op ArithmeticOp) exec.ArrayKernelExec {
-	switch oty {
-	case arrow.INT8:
-		return getArithmeticOpIntegral[InT, int8](op)
-	case arrow.UINT8:
-		return getArithmeticOpIntegral[InT, uint8](op)
-	case arrow.INT16:
-		return getArithmeticOpIntegral[InT, int16](op)
-	case arrow.UINT16:
-		return getArithmeticOpIntegral[InT, uint16](op)
-	case arrow.INT32, arrow.TIME32:
-		return getArithmeticOpIntegral[InT, int32](op)
-	case arrow.UINT32:
-		return getArithmeticOpIntegral[InT, uint32](op)
-	case arrow.INT64, arrow.TIME64, arrow.DATE64, arrow.TIMESTAMP, arrow.DURATION:
-		return getArithmeticOpIntegral[InT, int64](op)
-	case arrow.UINT64:
-		return getArithmeticOpIntegral[InT, uint64](op)
-	}
-	debug.Assert(false, "arithmetic integral to floating not implemented")
-	return nil
-}
-
-func ArithmeticExec(ity, oty arrow.Type, op ArithmeticOp) exec.ArrayKernelExec {
-	if ity == oty {
-		return ArithmeticExecSameType(ity, op)
-	}
-
-	switch ity {
-	case arrow.INT8:
-		return arithmeticExec[int8](oty, op)
-	case arrow.UINT8:
-		return arithmeticExec[uint8](oty, op)
-	case arrow.INT16:
-		return arithmeticExec[int16](oty, op)
-	case arrow.UINT16:
-		return arithmeticExec[uint16](oty, op)
-	case arrow.INT32, arrow.TIME32:
-		return arithmeticExec[int32](oty, op)
-	case arrow.UINT32:
-		return arithmeticExec[uint32](oty, op)
-	case arrow.INT64, arrow.TIME64, arrow.DATE64, arrow.TIMESTAMP, arrow.DURATION:
-		return arithmeticExec[int64](oty, op)
-	case arrow.UINT64:
-		return arithmeticExec[uint64](oty, op)
-	case arrow.FLOAT32:
-		if oty == arrow.FLOAT32 {
-			return getArithmeticOpFloating[float32, float32](op)
-		}
-		return getArithmeticOpFloating[float32, float64](op)
-	case arrow.FLOAT64:
-		if oty == arrow.FLOAT32 {
-			return getArithmeticOpFloating[float64, float32](op)
-		}
-		return getArithmeticOpFloating[float64, float64](op)
-	}
-	return nil
-}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
deleted file mode 100644
index b818e45dc1bb4..0000000000000
--- a/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
+++ /dev/null
@@ -1,152 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"golang.org/x/exp/constraints"
-	"golang.org/x/sys/cpu"
-)
-
-func getAvx2ArithmeticBinaryNumeric[T arrow.NumericType](op ArithmeticOp) binaryOps[T, T, T] {
-	typ := arrow.GetType[T]()
-	return binaryOps[T, T, T]{
-		arrArr: func(_ *exec.KernelCtx, Arg0, Arg1, Out []T) error {
-			arithmeticAvx2(typ, op, arrow.GetBytes(Arg0), arrow.GetBytes(Arg1), arrow.GetBytes(Out), len(Arg0))
-			return nil
-		},
-		arrScalar: func(_ *exec.KernelCtx, Arg0 []T, Arg1 T, Out []T) error {
-			arithmeticArrScalarAvx2(typ, op, arrow.GetBytes(Arg0), unsafe.Pointer(&Arg1), arrow.GetBytes(Out), len(Arg0))
-			return nil
-		},
-		scalarArr: func(_ *exec.KernelCtx, Arg0 T, Arg1, Out []T) error {
-			arithmeticScalarArrAvx2(typ, op, unsafe.Pointer(&Arg0), arrow.GetBytes(Arg1), arrow.GetBytes(Out), len(Arg1))
-			return nil
-		},
-	}
-}
-
-func getSSE4ArithmeticBinaryNumeric[T arrow.NumericType](op ArithmeticOp) binaryOps[T, T, T] {
-	typ := arrow.GetType[T]()
-	return binaryOps[T, T, T]{
-		arrArr: func(_ *exec.KernelCtx, Arg0, Arg1, Out []T) error {
-			arithmeticSSE4(typ, op, arrow.GetBytes(Arg0), arrow.GetBytes(Arg1), arrow.GetBytes(Out), len(Arg0))
-			return nil
-		},
-		arrScalar: func(_ *exec.KernelCtx, Arg0 []T, Arg1 T, Out []T) error {
-			arithmeticArrScalarSSE4(typ, op, arrow.GetBytes(Arg0), unsafe.Pointer(&Arg1), arrow.GetBytes(Out), len(Arg0))
-			return nil
-		},
-		scalarArr: func(_ *exec.KernelCtx, Arg0 T, Arg1, Out []T) error {
-			arithmeticScalarArrSSE4(typ, op, unsafe.Pointer(&Arg0), arrow.GetBytes(Arg1), arrow.GetBytes(Out), len(Arg1))
-			return nil
-		},
-	}
-}
-
-func getArithmeticOpIntegral[InT, OutT arrow.UintType | arrow.IntType](op ArithmeticOp) exec.ArrayKernelExec {
-	if cpu.X86.HasAVX2 {
-		switch op {
-		case OpAdd, OpSub, OpMul:
-			return ScalarBinary(getAvx2ArithmeticBinaryNumeric[InT](op))
-		case OpAbsoluteValue, OpNegate:
-			typ := arrow.GetType[InT]()
-			return ScalarUnary(func(_ *exec.KernelCtx, arg, out []InT) error {
-				arithmeticUnaryAvx2(typ, op, arrow.GetBytes(arg), arrow.GetBytes(out), len(arg))
-				return nil
-			})
-		case OpSign:
-			inType, outType := arrow.GetType[InT](), arrow.GetType[OutT]()
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				arithmeticUnaryDiffTypesAvx2(inType, outType, op, arrow.GetBytes(arg), arrow.GetBytes(out), len(arg))
-				return nil
-			})
-		}
-	} else if cpu.X86.HasSSE42 {
-		switch op {
-		case OpAdd, OpSub, OpMul:
-			return ScalarBinary(getSSE4ArithmeticBinaryNumeric[InT](op))
-		case OpAbsoluteValue, OpNegate:
-			typ := arrow.GetType[InT]()
-			return ScalarUnary(func(ctx *exec.KernelCtx, arg, out []InT) error {
-				arithmeticUnarySSE4(typ, op, arrow.GetBytes(arg), arrow.GetBytes(out), len(arg))
-				return nil
-			})
-		case OpSign:
-			inType, outType := arrow.GetType[InT](), arrow.GetType[OutT]()
-			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
-				arithmeticUnaryDiffTypesSSE4(inType, outType, op, arrow.GetBytes(arg), arrow.GetBytes(out), len(arg))
-				return nil
-			})
-		}
-	}
-
-	// no SIMD for POWER or SQRT functions
-	// integral checked funcs need to use NotNull versions
-	return getGoArithmeticOpIntegral[InT, OutT](op)
-}
-
-func getArithmeticOpFloating[InT, OutT constraints.Float](op ArithmeticOp) exec.ArrayKernelExec {
-	if cpu.X86.HasAVX2 {
-		switch op {
-		case OpAdd, OpSub, OpAddChecked, OpSubChecked, OpMul, OpMulChecked:
-			if arrow.GetType[InT]() != arrow.GetType[OutT]() {
-				debug.Assert(false, "not implemented")
-				return nil
-			}
-			return ScalarBinary(getAvx2ArithmeticBinaryNumeric[InT](op))
-		case OpAbsoluteValue, OpAbsoluteValueChecked, OpNegate, OpNegateChecked, OpSign:
-			if arrow.GetType[InT]() != arrow.GetType[OutT]() {
-				debug.Assert(false, "not implemented")
-				return nil
-			}
-			typ := arrow.GetType[InT]()
-			return ScalarUnary(func(_ *exec.KernelCtx, arg, out []InT) error {
-				arithmeticUnaryAvx2(typ, op, arrow.GetBytes(arg), arrow.GetBytes(out), len(arg))
-				return nil
-			})
-		}
-	} else if cpu.X86.HasSSE42 {
-		switch op {
-		case OpAdd, OpSub, OpAddChecked, OpSubChecked, OpMul, OpMulChecked:
-			if arrow.GetType[InT]() != arrow.GetType[OutT]() {
-				debug.Assert(false, "not implemented")
-				return nil
-			}
-			return ScalarBinary(getSSE4ArithmeticBinaryNumeric[InT](op))
-		case OpAbsoluteValue, OpAbsoluteValueChecked, OpNegate, OpNegateChecked, OpSign:
-			if arrow.GetType[InT]() != arrow.GetType[OutT]() {
-				debug.Assert(false, "not implemented")
-				return nil
-			}
-			typ := arrow.GetType[InT]()
-			return ScalarUnary(func(_ *exec.KernelCtx, arg, out []InT) error {
-				arithmeticUnarySSE4(typ, op, arrow.GetBytes(arg), arrow.GetBytes(out), len(arg))
-				return nil
-			})
-		}
-	}
-
-	// no SIMD for POWER or SQRT functions
-	return getGoArithmeticOpFloating[InT, OutT](op)
-}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go
deleted file mode 100644
index 89384aa09fc73..0000000000000
--- a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go
+++ /dev/null
@@ -1,60 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:noescape
-func _arithmetic_unary_same_types_avx2(typ int, op int8, input, output unsafe.Pointer, len int)
-
-func arithmeticUnaryAvx2(typ arrow.Type, op ArithmeticOp, input, out []byte, len int) {
-	_arithmetic_unary_same_types_avx2(int(typ), int8(op), unsafe.Pointer(&input[0]), unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_binary_avx2(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
-
-func arithmeticAvx2(typ arrow.Type, op ArithmeticOp, left, right, out []byte, len int) {
-	_arithmetic_binary_avx2(int(typ), int8(op), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_arr_scalar_avx2(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
-
-func arithmeticArrScalarAvx2(typ arrow.Type, op ArithmeticOp, left []byte, right unsafe.Pointer, out []byte, len int) {
-	_arithmetic_arr_scalar_avx2(int(typ), int8(op), unsafe.Pointer(&left[0]), right, unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_scalar_arr_avx2(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
-
-func arithmeticScalarArrAvx2(typ arrow.Type, op ArithmeticOp, left unsafe.Pointer, right, out []byte, len int) {
-	_arithmetic_scalar_arr_avx2(int(typ), int8(op), left, unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_unary_diff_type_avx2(itype, otype int, op int8, input, output unsafe.Pointer, len int)
-
-func arithmeticUnaryDiffTypesAvx2(ityp, otyp arrow.Type, op ArithmeticOp, input, output []byte, len int) {
-	_arithmetic_unary_diff_type_avx2(int(ityp), int(otyp), int8(op), unsafe.Pointer(&input[0]), unsafe.Pointer(&output[0]), len)
-}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
deleted file mode 100644
index 420b64d59b23a..0000000000000
--- a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
+++ /dev/null
@@ -1,35529 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x008(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x010(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x018(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA1<>(SB), 8, $32
-
-TEXT ·_arithmetic_binary_avx2(SB), $0-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA1<>(SB), BP
-
-	LONG $0x14fe8040         // cmp    sil, 20
-	JG   LBB0_11
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB0_21
-	LONG $0x01fe8040         // cmp    sil, 1
-	JE   LBB0_287
-	LONG $0x02fe8040         // cmp    sil, 2
-	JNE  LBB0_825
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_559
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_6
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_602
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_614
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_626
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_631:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_633
-
-LBB0_632:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	LONG $0xb23caf0f         // imul    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_632
-
-LBB0_633:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_634:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_634
-	JMP  LBB0_825
-
-LBB0_11:
-	LONG $0x15fe8040         // cmp    sil, 21
-	JE   LBB0_154
-	LONG $0x16fe8040         // cmp    sil, 22
-	JE   LBB0_420
-	LONG $0x17fe8040         // cmp    sil, 23
-	JNE  LBB0_825
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_695
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_16
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_738
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_750
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_762
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_767:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_769
-
-LBB0_768:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	LONG $0xb23caf0f         // imul    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_768
-
-LBB0_769:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_770:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_770
-	JMP  LBB0_825
-
-LBB0_21:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_34
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_23
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_67
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_91
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_96
-
-LBB0_287:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_300
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_289
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_333
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_345
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_357
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_362:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_364
-
-LBB0_363:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_363
-
-LBB0_364:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_365:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_365
-	JMP  LBB0_825
-
-LBB0_154:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_167
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_156
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_200
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_212
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_224
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_229
-
-LBB0_420:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_433
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_422
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_466
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_478
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_490
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_495:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_497
-
-LBB0_496:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_496
-
-LBB0_497:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_498:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_498
-	JMP  LBB0_825
-
-LBB0_559:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_560
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_656
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_668
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_680
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_685:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_687
-
-LBB0_686:
-	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0459fbc5; BYTE $0xf2   // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_686
-
-LBB0_687:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_688:
-	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0459fbc5; BYTE $0xf2               // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x4459fbc5; WORD $0x08f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x4459fbc5; WORD $0x10f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x4459fbc5; WORD $0x18f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_688
-	JMP  LBB0_825
-
-LBB0_695:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_696
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_792
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_804
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_816
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_821:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_823
-
-LBB0_822:
-	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0459fbc5; BYTE $0xf2   // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_822
-
-LBB0_823:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_824:
-	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0459fbc5; BYTE $0xf2               // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x4459fbc5; WORD $0x08f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x4459fbc5; WORD $0x10f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x4459fbc5; WORD $0x18f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_824
-	JMP  LBB0_825
-
-LBB0_34:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_35
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_121
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_133
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_145
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_150
-
-LBB0_300:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_301
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_387
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_399
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_411
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_416:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_418
-
-LBB0_417:
-	LONG $0x0410fbc5; BYTE $0xf2   // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045cfbc5; BYTE $0xf1   // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_417
-
-LBB0_418:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_419:
-	LONG $0x0410fbc5; BYTE $0xf2               // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045cfbc5; BYTE $0xf1               // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x445cfbc5; WORD $0x08f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x445cfbc5; WORD $0x10f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x445cfbc5; WORD $0x18f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_419
-	JMP  LBB0_825
-
-LBB0_167:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_168
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_254
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_266
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_278
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_283
-
-LBB0_433:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_434
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_520
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_532
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_544
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_549:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_551
-
-LBB0_550:
-	LONG $0x0410fbc5; BYTE $0xf2   // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045cfbc5; BYTE $0xf1   // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_550
-
-LBB0_551:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_552:
-	LONG $0x0410fbc5; BYTE $0xf2               // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045cfbc5; BYTE $0xf1               // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x445cfbc5; WORD $0x08f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x445cfbc5; WORD $0x10f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x445cfbc5; WORD $0x18f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_552
-	JMP  LBB0_825
-
-LBB0_6:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_571
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_588
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_598
-
-LBB0_16:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_707
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_724
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_734
-
-LBB0_23:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_46
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_58
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_63
-
-LBB0_289:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_312
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_324
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_329
-
-LBB0_156:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_179
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_191
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_196
-
-LBB0_422:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_445
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_457
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_462
-
-LBB0_560:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_635
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_647
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_652
-
-LBB0_696:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_771
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_783
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_788
-
-LBB0_35:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_100
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_112
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_117
-
-LBB0_301:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_366
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_378
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_383
-
-LBB0_168:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_233
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_245
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_250
-
-LBB0_434:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_499
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_825
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_511
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_516
-
-LBB0_602:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_605
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_610:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_612
-
-LBB0_611:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x3caf0f66; BYTE $0x72 // imul    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_611
-
-LBB0_612:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_613:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_613
-	JMP  LBB0_825
-
-LBB0_614:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_617
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_622:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_624
-
-LBB0_623:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x3caf0f66; BYTE $0x72 // imul    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_623
-
-LBB0_624:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_625:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_625
-	JMP  LBB0_825
-
-LBB0_738:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_741
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_746:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_748
-
-LBB0_747:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x3caf0f66; BYTE $0x72 // imul    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_747
-
-LBB0_748:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_749:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_749
-	JMP  LBB0_825
-
-LBB0_750:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_753
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_758:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_760
-
-LBB0_759:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x3caf0f66; BYTE $0x72 // imul    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_759
-
-LBB0_760:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_761:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_761
-	JMP  LBB0_825
-
-LBB0_67:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_70
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_75
-
-LBB0_79:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_82
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_87
-
-LBB0_333:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_336
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_341:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_343
-
-LBB0_342:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_342
-
-LBB0_343:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_344:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_344
-	JMP  LBB0_825
-
-LBB0_345:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_348
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_353:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_355
-
-LBB0_354:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_354
-
-LBB0_355:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_356:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_356
-	JMP  LBB0_825
-
-LBB0_200:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_203
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_208
-
-LBB0_212:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_215
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_220
-
-LBB0_466:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_469
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_474:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_476
-
-LBB0_475:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_475
-
-LBB0_476:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_477:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_477
-	JMP  LBB0_825
-
-LBB0_478:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_481
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_486:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_488
-
-LBB0_487:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_487
-
-LBB0_488:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_489:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_489
-	JMP  LBB0_825
-
-LBB0_656:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_659
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_664:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_666
-
-LBB0_665:
-	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0x3caf0f48; BYTE $0xf2 // imul    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_665
-
-LBB0_666:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_667:
-	LONG $0xf1048b48               // mov    rax, qword [rcx + 8*rsi]
-	LONG $0x04af0f48; BYTE $0xf2   // imul    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949               // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0x44af0f48; WORD $0x08f2 // imul    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08   // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0x44af0f48; WORD $0x10f2 // imul    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10   // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0x44af0f48; WORD $0x18f2 // imul    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18   // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_667
-	JMP  LBB0_825
-
-LBB0_668:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_671
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_676:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_678
-
-LBB0_677:
-	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0459fac5; BYTE $0xb2   // vmulss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_677
-
-LBB0_678:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_679:
-	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0459fac5; BYTE $0xb2               // vmulss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x4459fac5; WORD $0x04b2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x4459fac5; WORD $0x08b2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x4459fac5; WORD $0x0cb2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_679
-	JMP  LBB0_825
-
-LBB0_792:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_795
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_800:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_802
-
-LBB0_801:
-	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0x3caf0f48; BYTE $0xf2 // imul    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_801
-
-LBB0_802:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_803:
-	LONG $0xf1048b48               // mov    rax, qword [rcx + 8*rsi]
-	LONG $0x04af0f48; BYTE $0xf2   // imul    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949               // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0x44af0f48; WORD $0x08f2 // imul    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08   // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0x44af0f48; WORD $0x10f2 // imul    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10   // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0x44af0f48; WORD $0x18f2 // imul    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18   // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_803
-	JMP  LBB0_825
-
-LBB0_804:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_807
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_812:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_814
-
-LBB0_813:
-	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0459fac5; BYTE $0xb2   // vmulss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_813
-
-LBB0_814:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_815:
-	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0459fac5; BYTE $0xb2               // vmulss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x4459fac5; WORD $0x04b2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x4459fac5; WORD $0x08b2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x4459fac5; WORD $0x0cb2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_815
-	JMP  LBB0_825
-
-LBB0_121:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_124
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_129
-
-LBB0_133:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_136
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_141
-
-LBB0_387:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_390
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_395:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_397
-
-LBB0_396:
-	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
-	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_396
-
-LBB0_397:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_398:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_398
-	JMP  LBB0_825
-
-LBB0_399:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_402
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_407:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_409
-
-LBB0_408:
-	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_408
-
-LBB0_409:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_410:
-	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_410
-	JMP  LBB0_825
-
-LBB0_254:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_257
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_262
-
-LBB0_266:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_269
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_274
-
-LBB0_520:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_523
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_528:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_530
-
-LBB0_529:
-	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
-	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_529
-
-LBB0_530:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_531:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_531
-	JMP  LBB0_825
-
-LBB0_532:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_535
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_540:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_542
-
-LBB0_541:
-	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_541
-
-LBB0_542:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_543:
-	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_543
-	JMP  LBB0_825
-
-LBB0_571:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_574
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_584
-
-LBB0_707:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_710
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_720
-
-LBB0_46:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_49
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_54
-
-LBB0_312:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_315
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_320
-
-LBB0_179:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_182
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_187
-
-LBB0_445:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_448
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_453
-
-LBB0_635:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_638
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_643
-
-LBB0_771:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_774
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_779
-
-LBB0_100:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_103
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_108
-
-LBB0_366:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_369
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_374
-
-LBB0_233:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_236
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_241
-
-LBB0_499:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_825
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_502
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_507
-
-LBB0_91:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_96
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_96
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_94:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_94
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_96:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_98
-
-LBB0_97:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_97
-
-LBB0_98:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_99:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_99
-	JMP  LBB0_825
-
-LBB0_224:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_229
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_229
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_227:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_227
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_229:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_231
-
-LBB0_230:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_230
-
-LBB0_231:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_232:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_232
-	JMP  LBB0_825
-
-LBB0_145:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_150
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_150
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_148:
-	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x0458fdc5; BYTE $0xfa               // vaddpd    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c58f5c5; WORD $0x20fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5458edc5; WORD $0x40fa             // vaddpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c58e5c5; WORD $0x60fa             // vaddpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_148
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_150:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_152
-
-LBB0_151:
-	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_151
-
-LBB0_152:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_153:
-	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_153
-	JMP  LBB0_825
-
-LBB0_278:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_283
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_283
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_281:
-	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x0458fdc5; BYTE $0xfa               // vaddpd    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c58f5c5; WORD $0x20fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5458edc5; WORD $0x40fa             // vaddpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c58e5c5; WORD $0x60fa             // vaddpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_281
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_283:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_285
-
-LBB0_284:
-	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_284
-
-LBB0_285:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_286:
-	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_286
-	JMP  LBB0_825
-
-LBB0_588:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd6970f40         // seta    sil
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_598
-	WORD $0x2040; BYTE $0xf0 // and    al, sil
-	JNE  LBB0_598
-	WORD $0x8944; BYTE $0xd7 // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0 // and    edi, -32
-	LONG $0xe0778d48         // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	LONG $0x05e8c148         // shr    rax, 5
-	LONG $0x01c08348         // add    rax, 1
-	WORD $0x8941; BYTE $0xc1 // mov    r9d, eax
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x60fe8348         // cmp    rsi, 96
-	JAE  LBB0_592
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_594
-
-LBB0_724:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd6970f40         // seta    sil
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_734
-	WORD $0x2040; BYTE $0xf0 // and    al, sil
-	JNE  LBB0_734
-	WORD $0x8944; BYTE $0xd7 // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0 // and    edi, -32
-	LONG $0xe0778d48         // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	LONG $0x05e8c148         // shr    rax, 5
-	LONG $0x01c08348         // add    rax, 1
-	WORD $0x8941; BYTE $0xc1 // mov    r9d, eax
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x60fe8348         // cmp    rsi, 96
-	JAE  LBB0_728
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_730
-
-LBB0_58:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_63
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_63
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_61:
-	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
-	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
-	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
-	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
-	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
-	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_61
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_63:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_65
-
-LBB0_64:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_64
-
-LBB0_65:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_66:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_66
-	JMP  LBB0_825
-
-LBB0_324:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_329
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_329
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_327:
-	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
-	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
-	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
-	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
-	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
-	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_327
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_329:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_331
-
-LBB0_330:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_330
-
-LBB0_331:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_332:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_332
-	JMP  LBB0_825
-
-LBB0_191:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_196
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_196
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_194:
-	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
-	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
-	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
-	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
-	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
-	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_194
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_196:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_198
-
-LBB0_197:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_197
-
-LBB0_198:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_199:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_199
-	JMP  LBB0_825
-
-LBB0_457:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_462
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_462
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_460:
-	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
-	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
-	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
-	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
-	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
-	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_460
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_462:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_464
-
-LBB0_463:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_463
-
-LBB0_464:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_465:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_465
-	JMP  LBB0_825
-
-LBB0_647:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_652
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_652
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_650:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x446ffec5; WORD $0x60fa             // vmovdqu    ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x246ffec5; BYTE $0xf9               // vmovdqu    ymm4, yword [rcx + 8*rdi]
-	LONG $0x6c6ffec5; WORD $0x20f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 32]
-	LONG $0x746ffec5; WORD $0x40f9             // vmovdqu    ymm6, yword [rcx + 8*rdi + 64]
-	LONG $0x7c6ffec5; WORD $0x60f9             // vmovdqu    ymm7, yword [rcx + 8*rdi + 96]
-	LONG $0xd473bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm4, 32
-	LONG $0xc1f43dc5                           // vpmuludq    ymm8, ymm8, ymm1
-	LONG $0xd173b5c5; BYTE $0x20               // vpsrlq    ymm9, ymm1, 32
-	LONG $0xccf435c5                           // vpmuludq    ymm9, ymm9, ymm4
-	LONG $0xd43541c4; BYTE $0xc0               // vpaddq    ymm8, ymm9, ymm8
-	LONG $0x733dc1c4; WORD $0x20f0             // vpsllq    ymm8, ymm8, 32
-	LONG $0xc9f4ddc5                           // vpmuludq    ymm1, ymm4, ymm1
-	LONG $0xc9d4bdc5                           // vpaddq    ymm1, ymm8, ymm1
-	LONG $0xd573ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm5, 32
-	LONG $0xe2f4ddc5                           // vpmuludq    ymm4, ymm4, ymm2
-	LONG $0xd273bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm2, 32
-	LONG $0xc5f43dc5                           // vpmuludq    ymm8, ymm8, ymm5
-	LONG $0xe4d4bdc5                           // vpaddq    ymm4, ymm8, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xd2f4d5c5                           // vpmuludq    ymm2, ymm5, ymm2
-	LONG $0xd4d4edc5                           // vpaddq    ymm2, ymm2, ymm4
-	LONG $0xd673ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm6, 32
-	LONG $0xe3f4ddc5                           // vpmuludq    ymm4, ymm4, ymm3
-	LONG $0xd373d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm3, 32
-	LONG $0xedf4cdc5                           // vpmuludq    ymm5, ymm6, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xdbf4cdc5                           // vpmuludq    ymm3, ymm6, ymm3
-	LONG $0xdcd4e5c5                           // vpaddq    ymm3, ymm3, ymm4
-	LONG $0xd773ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm7, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xd073d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm0, 32
-	LONG $0xedf4c5c5                           // vpmuludq    ymm5, ymm7, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xc0f4c5c5                           // vpmuludq    ymm0, ymm7, ymm0
-	LONG $0xc4d4fdc5                           // vpaddq    ymm0, ymm0, ymm4
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_650
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_652:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_654
-
-LBB0_653:
-	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0x3caf0f48; BYTE $0xf2 // imul    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_653
-
-LBB0_654:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_655:
-	LONG $0xf1048b48               // mov    rax, qword [rcx + 8*rsi]
-	LONG $0x04af0f48; BYTE $0xf2   // imul    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949               // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0x44af0f48; WORD $0x08f2 // imul    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08   // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0x44af0f48; WORD $0x10f2 // imul    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10   // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0x44af0f48; WORD $0x18f2 // imul    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18   // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_655
-	JMP  LBB0_825
-
-LBB0_783:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_788
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_788
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_786:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x446ffec5; WORD $0x60fa             // vmovdqu    ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x246ffec5; BYTE $0xf9               // vmovdqu    ymm4, yword [rcx + 8*rdi]
-	LONG $0x6c6ffec5; WORD $0x20f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 32]
-	LONG $0x746ffec5; WORD $0x40f9             // vmovdqu    ymm6, yword [rcx + 8*rdi + 64]
-	LONG $0x7c6ffec5; WORD $0x60f9             // vmovdqu    ymm7, yword [rcx + 8*rdi + 96]
-	LONG $0xd473bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm4, 32
-	LONG $0xc1f43dc5                           // vpmuludq    ymm8, ymm8, ymm1
-	LONG $0xd173b5c5; BYTE $0x20               // vpsrlq    ymm9, ymm1, 32
-	LONG $0xccf435c5                           // vpmuludq    ymm9, ymm9, ymm4
-	LONG $0xd43541c4; BYTE $0xc0               // vpaddq    ymm8, ymm9, ymm8
-	LONG $0x733dc1c4; WORD $0x20f0             // vpsllq    ymm8, ymm8, 32
-	LONG $0xc9f4ddc5                           // vpmuludq    ymm1, ymm4, ymm1
-	LONG $0xc9d4bdc5                           // vpaddq    ymm1, ymm8, ymm1
-	LONG $0xd573ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm5, 32
-	LONG $0xe2f4ddc5                           // vpmuludq    ymm4, ymm4, ymm2
-	LONG $0xd273bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm2, 32
-	LONG $0xc5f43dc5                           // vpmuludq    ymm8, ymm8, ymm5
-	LONG $0xe4d4bdc5                           // vpaddq    ymm4, ymm8, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xd2f4d5c5                           // vpmuludq    ymm2, ymm5, ymm2
-	LONG $0xd4d4edc5                           // vpaddq    ymm2, ymm2, ymm4
-	LONG $0xd673ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm6, 32
-	LONG $0xe3f4ddc5                           // vpmuludq    ymm4, ymm4, ymm3
-	LONG $0xd373d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm3, 32
-	LONG $0xedf4cdc5                           // vpmuludq    ymm5, ymm6, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xdbf4cdc5                           // vpmuludq    ymm3, ymm6, ymm3
-	LONG $0xdcd4e5c5                           // vpaddq    ymm3, ymm3, ymm4
-	LONG $0xd773ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm7, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xd073d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm0, 32
-	LONG $0xedf4c5c5                           // vpmuludq    ymm5, ymm7, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xc0f4c5c5                           // vpmuludq    ymm0, ymm7, ymm0
-	LONG $0xc4d4fdc5                           // vpaddq    ymm0, ymm0, ymm4
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_786
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_788:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_790
-
-LBB0_789:
-	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0x3caf0f48; BYTE $0xf2 // imul    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_789
-
-LBB0_790:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_791:
-	LONG $0xf1048b48               // mov    rax, qword [rcx + 8*rsi]
-	LONG $0x04af0f48; BYTE $0xf2   // imul    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949               // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0x44af0f48; WORD $0x08f2 // imul    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08   // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0x44af0f48; WORD $0x10f2 // imul    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10   // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0x44af0f48; WORD $0x18f2 // imul    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18   // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_791
-	JMP  LBB0_825
-
-LBB0_112:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_117
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_117
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_115:
-	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_115
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_117:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_119
-
-LBB0_118:
-	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_118
-
-LBB0_119:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_120:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_120
-	JMP  LBB0_825
-
-LBB0_378:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_383
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_383
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_381:
-	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_381
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_383:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_385
-
-LBB0_384:
-	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
-	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_384
-
-LBB0_385:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_386:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_386
-	JMP  LBB0_825
-
-LBB0_245:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_250
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_250
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_248:
-	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_248
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_250:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_252
-
-LBB0_251:
-	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_251
-
-LBB0_252:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_253:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_253
-	JMP  LBB0_825
-
-LBB0_511:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_516
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_516
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_514:
-	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_514
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_516:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_518
-
-LBB0_517:
-	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
-	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_517
-
-LBB0_518:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_519:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_519
-	JMP  LBB0_825
-
-LBB0_70:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_75
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_75
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_73:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_73
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_75:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_77
-
-LBB0_76:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_76
-
-LBB0_77:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_78:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_78
-	JMP  LBB0_825
-
-LBB0_82:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_87
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_87
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_85:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_85
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_87:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_89
-
-LBB0_88:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_88
-
-LBB0_89:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_90:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_90
-	JMP  LBB0_825
-
-LBB0_203:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_208
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_208
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_206:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_206
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_208:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_210
-
-LBB0_209:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_209
-
-LBB0_210:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_211:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_211
-	JMP  LBB0_825
-
-LBB0_215:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_220
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_220
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_218:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_218
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_220:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_222
-
-LBB0_221:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_221
-
-LBB0_222:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_223:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_223
-	JMP  LBB0_825
-
-LBB0_124:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_129
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_129
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_127:
-	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_127
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_129:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_131
-
-LBB0_130:
-	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_130
-
-LBB0_131:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_132:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_132
-	JMP  LBB0_825
-
-LBB0_136:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_141
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_141
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_139:
-	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x0458fcc5; BYTE $0xba               // vaddps    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c58f4c5; WORD $0x20ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5458ecc5; WORD $0x40ba             // vaddps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c58e4c5; WORD $0x60ba             // vaddps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_139
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_141:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_143
-
-LBB0_142:
-	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_142
-
-LBB0_143:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_144:
-	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x4458fac5; WORD $0x04b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x4458fac5; WORD $0x08b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_144
-	JMP  LBB0_825
-
-LBB0_257:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_262
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_262
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_260:
-	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_260
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_262:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_264
-
-LBB0_263:
-	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
-	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_263
-
-LBB0_264:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_265:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_265
-	JMP  LBB0_825
-
-LBB0_269:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_274
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_274
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_272:
-	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x0458fcc5; BYTE $0xba               // vaddps    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c58f4c5; WORD $0x20ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5458ecc5; WORD $0x40ba             // vaddps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c58e4c5; WORD $0x60ba             // vaddps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_272
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_274:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_276
-
-LBB0_275:
-	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_275
-
-LBB0_276:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_825
-
-LBB0_277:
-	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x4458fac5; WORD $0x04b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x4458fac5; WORD $0x08b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_277
-	JMP  LBB0_825
-
-LBB0_574:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd6970f40         // seta    sil
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_584
-	WORD $0x2040; BYTE $0xf0 // and    al, sil
-	JNE  LBB0_584
-	WORD $0x8944; BYTE $0xd7 // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0 // and    edi, -32
-	LONG $0xe0778d48         // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	LONG $0x05e8c148         // shr    rax, 5
-	LONG $0x01c08348         // add    rax, 1
-	WORD $0x8941; BYTE $0xc1 // mov    r9d, eax
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x60fe8348         // cmp    rsi, 96
-	JAE  LBB0_578
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_580
-
-LBB0_710:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd6970f40         // seta    sil
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_720
-	WORD $0x2040; BYTE $0xf0 // and    al, sil
-	JNE  LBB0_720
-	WORD $0x8944; BYTE $0xd7 // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0 // and    edi, -32
-	LONG $0xe0778d48         // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	LONG $0x05e8c148         // shr    rax, 5
-	LONG $0x01c08348         // add    rax, 1
-	WORD $0x8941; BYTE $0xc1 // mov    r9d, eax
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x60fe8348         // cmp    rsi, 96
-	JAE  LBB0_714
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_716
-
-LBB0_49:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_54
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_54
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_52:
-	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
-	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
-	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
-	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
-	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
-	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_52
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_54:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_56
-
-LBB0_55:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_55
-
-LBB0_56:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_57:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_57
-	JMP  LBB0_825
-
-LBB0_315:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_320
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_320
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_318:
-	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
-	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
-	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
-	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
-	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
-	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_318
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_320:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_322
-
-LBB0_321:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_321
-
-LBB0_322:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_323:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_323
-	JMP  LBB0_825
-
-LBB0_182:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_187
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_187
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_185:
-	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
-	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
-	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
-	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
-	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
-	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_185
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_187:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_189
-
-LBB0_188:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_188
-
-LBB0_189:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_190:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_190
-	JMP  LBB0_825
-
-LBB0_448:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_453
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_453
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_451:
-	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
-	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
-	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
-	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
-	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
-	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_451
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_453:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_455
-
-LBB0_454:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_454
-
-LBB0_455:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_456:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_456
-	JMP  LBB0_825
-
-LBB0_638:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_643
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_643
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_641:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x407de2c4; WORD $0xba04             // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4075e2c4; WORD $0xba4c; BYTE $0x20 // vpmulld    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x406de2c4; WORD $0xba54; BYTE $0x40 // vpmulld    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x4065e2c4; WORD $0xba5c; BYTE $0x60 // vpmulld    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_641
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_643:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_645
-
-LBB0_644:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	LONG $0xb23caf0f         // imul    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_644
-
-LBB0_645:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_646:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_646
-	JMP  LBB0_825
-
-LBB0_774:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_779
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_779
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_777:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x407de2c4; WORD $0xba04             // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4075e2c4; WORD $0xba4c; BYTE $0x20 // vpmulld    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x406de2c4; WORD $0xba54; BYTE $0x40 // vpmulld    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x4065e2c4; WORD $0xba5c; BYTE $0x60 // vpmulld    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_777
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_779:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_781
-
-LBB0_780:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	LONG $0xb23caf0f         // imul    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_780
-
-LBB0_781:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_782:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_782
-	JMP  LBB0_825
-
-LBB0_103:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_108
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_108
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_106:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_106
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_108:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_110
-
-LBB0_109:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_109
-
-LBB0_110:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_111:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_111
-	JMP  LBB0_825
-
-LBB0_369:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_374
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_374
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_372:
-	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_372
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_374:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_376
-
-LBB0_375:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_375
-
-LBB0_376:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_377:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_377
-	JMP  LBB0_825
-
-LBB0_236:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_241
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_241
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_239:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_239
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_241:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_243
-
-LBB0_242:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_242
-
-LBB0_243:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_244:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_244
-	JMP  LBB0_825
-
-LBB0_502:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_507
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_507
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_505:
-	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_505
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_825
-
-LBB0_507:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_509
-
-LBB0_508:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
-	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_508
-
-LBB0_509:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_510:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_510
-	JMP  LBB0_825
-
-LBB0_626:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_631
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_631
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_629:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x407de2c4; WORD $0xba04             // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4075e2c4; WORD $0xba4c; BYTE $0x20 // vpmulld    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x406de2c4; WORD $0xba54; BYTE $0x40 // vpmulld    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x4065e2c4; WORD $0xba5c; BYTE $0x60 // vpmulld    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_629
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_631
-	JMP  LBB0_825
-
-LBB0_762:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_767
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_767
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_765:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x407de2c4; WORD $0xba04             // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4075e2c4; WORD $0xba4c; BYTE $0x20 // vpmulld    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x406de2c4; WORD $0xba54; BYTE $0x40 // vpmulld    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x4065e2c4; WORD $0xba5c; BYTE $0x60 // vpmulld    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_765
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_767
-	JMP  LBB0_825
-
-LBB0_357:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_362
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_362
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_360:
-	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_360
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_362
-	JMP  LBB0_825
-
-LBB0_490:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_495
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_495
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_493:
-	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_493
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_495
-	JMP  LBB0_825
-
-LBB0_680:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_685
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_685
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_683:
-	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x0459fdc5; BYTE $0xfa               // vmulpd    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c59f5c5; WORD $0x20fa             // vmulpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5459edc5; WORD $0x40fa             // vmulpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c59e5c5; WORD $0x60fa             // vmulpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_683
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_685
-	JMP  LBB0_825
-
-LBB0_816:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_821
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_821
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_819:
-	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x0459fdc5; BYTE $0xfa               // vmulpd    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c59f5c5; WORD $0x20fa             // vmulpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5459edc5; WORD $0x40fa             // vmulpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c59e5c5; WORD $0x60fa             // vmulpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_819
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_821
-	JMP  LBB0_825
-
-LBB0_411:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_416
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_416
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_414:
-	LONG $0x0410fdc5; BYTE $0xfa               // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa             // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa             // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa             // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x045cfdc5; BYTE $0xf9               // vsubpd    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c5cf5c5; WORD $0x20f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x545cedc5; WORD $0x40f9             // vsubpd    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c5ce5c5; WORD $0x60f9             // vsubpd    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_414
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_416
-	JMP  LBB0_825
-
-LBB0_544:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_549
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_549
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_547:
-	LONG $0x0410fdc5; BYTE $0xfa               // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa             // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa             // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa             // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x045cfdc5; BYTE $0xf9               // vsubpd    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c5cf5c5; WORD $0x20f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x545cedc5; WORD $0x40f9             // vsubpd    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c5ce5c5; WORD $0x60f9             // vsubpd    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_547
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_549
-	JMP  LBB0_825
-
-LBB0_605:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_610
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_610
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_608:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04d5fdc5; BYTE $0x7a               // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cd5f5c5; WORD $0x207a             // vpmullw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54d5edc5; WORD $0x407a             // vpmullw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cd5e5c5; WORD $0x607a             // vpmullw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_608
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_610
-	JMP  LBB0_825
-
-LBB0_617:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_622
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_622
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_620:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04d5fdc5; BYTE $0x7a               // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cd5f5c5; WORD $0x207a             // vpmullw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54d5edc5; WORD $0x407a             // vpmullw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cd5e5c5; WORD $0x607a             // vpmullw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_620
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_622
-	JMP  LBB0_825
-
-LBB0_741:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_746
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_746
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_744:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04d5fdc5; BYTE $0x7a               // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cd5f5c5; WORD $0x207a             // vpmullw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54d5edc5; WORD $0x407a             // vpmullw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cd5e5c5; WORD $0x607a             // vpmullw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_744
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_746
-	JMP  LBB0_825
-
-LBB0_753:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_758
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_758
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_756:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04d5fdc5; BYTE $0x7a               // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cd5f5c5; WORD $0x207a             // vpmullw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54d5edc5; WORD $0x407a             // vpmullw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cd5e5c5; WORD $0x607a             // vpmullw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_756
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_758
-	JMP  LBB0_825
-
-LBB0_336:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_341
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_341
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_339:
-	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
-	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_339
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_341
-	JMP  LBB0_825
-
-LBB0_348:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_353
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_353
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_351:
-	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
-	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_351
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_353
-	JMP  LBB0_825
-
-LBB0_469:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_474
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_474
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_472:
-	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
-	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_472
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_474
-	JMP  LBB0_825
-
-LBB0_481:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_486
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_486
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_484:
-	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
-	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_484
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_486
-	JMP  LBB0_825
-
-LBB0_659:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_664
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_664
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_662:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x446ffec5; WORD $0x60fa             // vmovdqu    ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x246ffec5; BYTE $0xf9               // vmovdqu    ymm4, yword [rcx + 8*rdi]
-	LONG $0x6c6ffec5; WORD $0x20f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 32]
-	LONG $0x746ffec5; WORD $0x40f9             // vmovdqu    ymm6, yword [rcx + 8*rdi + 64]
-	LONG $0x7c6ffec5; WORD $0x60f9             // vmovdqu    ymm7, yword [rcx + 8*rdi + 96]
-	LONG $0xd473bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm4, 32
-	LONG $0xc1f43dc5                           // vpmuludq    ymm8, ymm8, ymm1
-	LONG $0xd173b5c5; BYTE $0x20               // vpsrlq    ymm9, ymm1, 32
-	LONG $0xccf435c5                           // vpmuludq    ymm9, ymm9, ymm4
-	LONG $0xd43541c4; BYTE $0xc0               // vpaddq    ymm8, ymm9, ymm8
-	LONG $0x733dc1c4; WORD $0x20f0             // vpsllq    ymm8, ymm8, 32
-	LONG $0xc9f4ddc5                           // vpmuludq    ymm1, ymm4, ymm1
-	LONG $0xc9d4bdc5                           // vpaddq    ymm1, ymm8, ymm1
-	LONG $0xd573ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm5, 32
-	LONG $0xe2f4ddc5                           // vpmuludq    ymm4, ymm4, ymm2
-	LONG $0xd273bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm2, 32
-	LONG $0xc5f43dc5                           // vpmuludq    ymm8, ymm8, ymm5
-	LONG $0xe4d4bdc5                           // vpaddq    ymm4, ymm8, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xd2f4d5c5                           // vpmuludq    ymm2, ymm5, ymm2
-	LONG $0xd4d4edc5                           // vpaddq    ymm2, ymm2, ymm4
-	LONG $0xd673ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm6, 32
-	LONG $0xe3f4ddc5                           // vpmuludq    ymm4, ymm4, ymm3
-	LONG $0xd373d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm3, 32
-	LONG $0xedf4cdc5                           // vpmuludq    ymm5, ymm6, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xdbf4cdc5                           // vpmuludq    ymm3, ymm6, ymm3
-	LONG $0xdcd4e5c5                           // vpaddq    ymm3, ymm3, ymm4
-	LONG $0xd773ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm7, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xd073d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm0, 32
-	LONG $0xedf4c5c5                           // vpmuludq    ymm5, ymm7, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xc0f4c5c5                           // vpmuludq    ymm0, ymm7, ymm0
-	LONG $0xc4d4fdc5                           // vpaddq    ymm0, ymm0, ymm4
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_662
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_664
-	JMP  LBB0_825
-
-LBB0_671:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_676
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_676
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_674:
-	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x0459fcc5; BYTE $0xba               // vmulps    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c59f4c5; WORD $0x20ba             // vmulps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5459ecc5; WORD $0x40ba             // vmulps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c59e4c5; WORD $0x60ba             // vmulps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_674
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_676
-	JMP  LBB0_825
-
-LBB0_795:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_800
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_800
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_798:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x446ffec5; WORD $0x60fa             // vmovdqu    ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x246ffec5; BYTE $0xf9               // vmovdqu    ymm4, yword [rcx + 8*rdi]
-	LONG $0x6c6ffec5; WORD $0x20f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 32]
-	LONG $0x746ffec5; WORD $0x40f9             // vmovdqu    ymm6, yword [rcx + 8*rdi + 64]
-	LONG $0x7c6ffec5; WORD $0x60f9             // vmovdqu    ymm7, yword [rcx + 8*rdi + 96]
-	LONG $0xd473bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm4, 32
-	LONG $0xc1f43dc5                           // vpmuludq    ymm8, ymm8, ymm1
-	LONG $0xd173b5c5; BYTE $0x20               // vpsrlq    ymm9, ymm1, 32
-	LONG $0xccf435c5                           // vpmuludq    ymm9, ymm9, ymm4
-	LONG $0xd43541c4; BYTE $0xc0               // vpaddq    ymm8, ymm9, ymm8
-	LONG $0x733dc1c4; WORD $0x20f0             // vpsllq    ymm8, ymm8, 32
-	LONG $0xc9f4ddc5                           // vpmuludq    ymm1, ymm4, ymm1
-	LONG $0xc9d4bdc5                           // vpaddq    ymm1, ymm8, ymm1
-	LONG $0xd573ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm5, 32
-	LONG $0xe2f4ddc5                           // vpmuludq    ymm4, ymm4, ymm2
-	LONG $0xd273bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm2, 32
-	LONG $0xc5f43dc5                           // vpmuludq    ymm8, ymm8, ymm5
-	LONG $0xe4d4bdc5                           // vpaddq    ymm4, ymm8, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xd2f4d5c5                           // vpmuludq    ymm2, ymm5, ymm2
-	LONG $0xd4d4edc5                           // vpaddq    ymm2, ymm2, ymm4
-	LONG $0xd673ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm6, 32
-	LONG $0xe3f4ddc5                           // vpmuludq    ymm4, ymm4, ymm3
-	LONG $0xd373d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm3, 32
-	LONG $0xedf4cdc5                           // vpmuludq    ymm5, ymm6, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xdbf4cdc5                           // vpmuludq    ymm3, ymm6, ymm3
-	LONG $0xdcd4e5c5                           // vpaddq    ymm3, ymm3, ymm4
-	LONG $0xd773ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm7, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xd073d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm0, 32
-	LONG $0xedf4c5c5                           // vpmuludq    ymm5, ymm7, ymm5
-	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
-	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
-	LONG $0xc0f4c5c5                           // vpmuludq    ymm0, ymm7, ymm0
-	LONG $0xc4d4fdc5                           // vpaddq    ymm0, ymm0, ymm4
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_798
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_800
-	JMP  LBB0_825
-
-LBB0_807:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_812
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_812
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_810:
-	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x0459fcc5; BYTE $0xba               // vmulps    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c59f4c5; WORD $0x20ba             // vmulps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5459ecc5; WORD $0x40ba             // vmulps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c59e4c5; WORD $0x60ba             // vmulps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_810
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_812
-	JMP  LBB0_825
-
-LBB0_390:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_395
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_395
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_393:
-	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_393
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_395
-	JMP  LBB0_825
-
-LBB0_402:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_407
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_407
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_405:
-	LONG $0x0410fcc5; BYTE $0xba               // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba             // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba             // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba             // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x045cfcc5; BYTE $0xb9               // vsubps    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c5cf4c5; WORD $0x20b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x545cecc5; WORD $0x40b9             // vsubps    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c5ce4c5; WORD $0x60b9             // vsubps    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_405
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_407
-	JMP  LBB0_825
-
-LBB0_523:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_528
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_528
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_526:
-	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_526
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_528
-	JMP  LBB0_825
-
-LBB0_535:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_540
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_540
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_538:
-	LONG $0x0410fcc5; BYTE $0xba               // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba             // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba             // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba             // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x045cfcc5; BYTE $0xb9               // vsubps    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c5cf4c5; WORD $0x20b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x545cecc5; WORD $0x40b9             // vsubps    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c5ce4c5; WORD $0x60b9             // vsubps    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_538
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JNE  LBB0_540
-	JMP  LBB0_825
-
-LBB0_592:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_593:
-	LONG $0x0c6ffec5; BYTE $0x32               // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31               // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c             // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x4c6ffec5; WORD $0x2032             // vmovdqu    ymm1, yword [rdx + rsi + 32]
-	LONG $0x546ffec5; WORD $0x2031             // vmovdqu    ymm2, yword [rcx + rsi + 32]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm1
-	LONG $0x4c6ffec5; WORD $0x4032             // vmovdqu    ymm1, yword [rdx + rsi + 64]
-	LONG $0x546ffec5; WORD $0x4031             // vmovdqu    ymm2, yword [rcx + rsi + 64]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm1
-	LONG $0x4c6ffec5; WORD $0x6032             // vmovdqu    ymm1, yword [rdx + rsi + 96]
-	LONG $0x546ffec5; WORD $0x6031             // vmovdqu    ymm2, yword [rcx + rsi + 96]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm1
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB0_593
-
-LBB0_594:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB0_597
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_596:
-	LONG $0x0c6ffec5; BYTE $0x32   // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31   // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5               // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5               // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5               // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5               // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5               // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5               // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5               // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5               // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB0_596
-
-LBB0_597:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB0_825
-
-LBB0_598:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_600
-
-LBB0_599:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_599
-
-LBB0_600:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_601:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_601
-	JMP  LBB0_825
-
-LBB0_728:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_729:
-	LONG $0x0c6ffec5; BYTE $0x32               // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31               // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c             // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x4c6ffec5; WORD $0x2032             // vmovdqu    ymm1, yword [rdx + rsi + 32]
-	LONG $0x546ffec5; WORD $0x2031             // vmovdqu    ymm2, yword [rcx + rsi + 32]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm1
-	LONG $0x4c6ffec5; WORD $0x4032             // vmovdqu    ymm1, yword [rdx + rsi + 64]
-	LONG $0x546ffec5; WORD $0x4031             // vmovdqu    ymm2, yword [rcx + rsi + 64]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm1
-	LONG $0x4c6ffec5; WORD $0x6032             // vmovdqu    ymm1, yword [rdx + rsi + 96]
-	LONG $0x546ffec5; WORD $0x6031             // vmovdqu    ymm2, yword [rcx + rsi + 96]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm1
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB0_729
-
-LBB0_730:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB0_733
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_732:
-	LONG $0x0c6ffec5; BYTE $0x32   // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31   // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5               // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5               // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5               // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5               // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5               // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5               // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5               // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5               // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB0_732
-
-LBB0_733:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB0_825
-
-LBB0_734:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_736
-
-LBB0_735:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_735
-
-LBB0_736:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_737:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_737
-	JMP  LBB0_825
-
-LBB0_578:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_579:
-	LONG $0x0c6ffec5; BYTE $0x32               // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31               // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c             // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x4c6ffec5; WORD $0x2032             // vmovdqu    ymm1, yword [rdx + rsi + 32]
-	LONG $0x546ffec5; WORD $0x2031             // vmovdqu    ymm2, yword [rcx + rsi + 32]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm1
-	LONG $0x4c6ffec5; WORD $0x4032             // vmovdqu    ymm1, yword [rdx + rsi + 64]
-	LONG $0x546ffec5; WORD $0x4031             // vmovdqu    ymm2, yword [rcx + rsi + 64]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm1
-	LONG $0x4c6ffec5; WORD $0x6032             // vmovdqu    ymm1, yword [rdx + rsi + 96]
-	LONG $0x546ffec5; WORD $0x6031             // vmovdqu    ymm2, yword [rcx + rsi + 96]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm1
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB0_579
-
-LBB0_580:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB0_583
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_582:
-	LONG $0x0c6ffec5; BYTE $0x32   // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31   // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5               // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5               // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5               // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5               // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5               // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5               // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5               // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5               // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB0_582
-
-LBB0_583:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB0_825
-
-LBB0_584:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_586
-
-LBB0_585:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_585
-
-LBB0_586:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_587:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_587
-	JMP  LBB0_825
-
-LBB0_714:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_715:
-	LONG $0x0c6ffec5; BYTE $0x32               // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31               // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c             // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x4c6ffec5; WORD $0x2032             // vmovdqu    ymm1, yword [rdx + rsi + 32]
-	LONG $0x546ffec5; WORD $0x2031             // vmovdqu    ymm2, yword [rcx + rsi + 32]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm1
-	LONG $0x4c6ffec5; WORD $0x4032             // vmovdqu    ymm1, yword [rdx + rsi + 64]
-	LONG $0x546ffec5; WORD $0x4031             // vmovdqu    ymm2, yword [rcx + rsi + 64]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm1
-	LONG $0x4c6ffec5; WORD $0x6032             // vmovdqu    ymm1, yword [rdx + rsi + 96]
-	LONG $0x546ffec5; WORD $0x6031             // vmovdqu    ymm2, yword [rcx + rsi + 96]
-	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm1
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB0_715
-
-LBB0_716:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB0_719
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_718:
-	LONG $0x0c6ffec5; BYTE $0x32   // vmovdqu    ymm1, yword [rdx + rsi]
-	LONG $0x146ffec5; BYTE $0x31   // vmovdqu    ymm2, yword [rcx + rsi]
-	LONG $0xd968f5c5               // vpunpckhbw    ymm3, ymm1, ymm1
-	LONG $0xe268edc5               // vpunpckhbw    ymm4, ymm2, ymm2
-	LONG $0xdbd5ddc5               // vpmullw    ymm3, ymm4, ymm3
-	LONG $0xd8dbe5c5               // vpand    ymm3, ymm3, ymm0
-	LONG $0xc960f5c5               // vpunpcklbw    ymm1, ymm1, ymm1
-	LONG $0xd260edc5               // vpunpcklbw    ymm2, ymm2, ymm2
-	LONG $0xc9d5edc5               // vpmullw    ymm1, ymm2, ymm1
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0xcb67f5c5               // vpackuswb    ymm1, ymm1, ymm3
-	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB0_718
-
-LBB0_719:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB0_825
-
-LBB0_720:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_722
-
-LBB0_721:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_721
-
-LBB0_722:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_825
-
-LBB0_723:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_723
-
-LBB0_825:
-	VZEROUPPER
-	RET
-
-DATA LCDATA2<>+0x000(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA2<>+0x008(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA2<>+0x010(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA2<>+0x018(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA2<>(SB), 8, $32
-
-TEXT ·_arithmetic_arr_scalar_avx2(SB), $0-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA2<>(SB), BP
-
-	LONG $0x14fe8040         // cmp    sil, 20
-	JG   LBB1_12
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB1_23
-	LONG $0x01fe8040         // cmp    sil, 1
-	JE   LBB1_31
-	LONG $0x02fe8040         // cmp    sil, 2
-	JNE  LBB1_1109
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_55
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_97
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_157
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_160
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_11
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_445
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_445
-
-LBB1_11:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_665:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_667
-
-LBB1_666:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_666
-
-LBB1_667:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_668:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_668
-	JMP  LBB1_1109
-
-LBB1_12:
-	LONG $0x15fe8040         // cmp    sil, 21
-	JE   LBB1_39
-	LONG $0x16fe8040         // cmp    sil, 22
-	JE   LBB1_47
-	LONG $0x17fe8040         // cmp    sil, 23
-	JNE  LBB1_1109
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_62
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_102
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_163
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_166
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_22
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_448
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_448
-
-LBB1_22:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_673:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_675
-
-LBB1_674:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_674
-
-LBB1_675:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_676:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_676
-	JMP  LBB1_1109
-
-LBB1_23:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_69
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_107
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_169
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_172
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_30
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_451
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_451
-
-LBB1_30:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_681:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_683
-
-LBB1_682:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_682
-
-LBB1_683:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_684:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_684
-	JMP  LBB1_1109
-
-LBB1_31:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_76
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_112
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_175
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_178
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_38
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_454
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_454
-
-LBB1_38:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_689:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_691
-
-LBB1_690:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_690
-
-LBB1_691:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_692:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_692
-	JMP  LBB1_1109
-
-LBB1_39:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_83
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_117
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_181
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_184
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_46
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_457
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_457
-
-LBB1_46:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_697:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_699
-
-LBB1_698:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_698
-
-LBB1_699:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_700:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_700
-	JMP  LBB1_1109
-
-LBB1_47:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_90
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_122
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_187
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_190
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_54
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_460
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_460
-
-LBB1_54:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_705:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_707
-
-LBB1_706:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_706
-
-LBB1_707:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_708:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_708
-	JMP  LBB1_1109
-
-LBB1_55:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_127
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_193
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_196
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_61
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_463
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_463
-
-LBB1_61:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_713:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_715
-
-LBB1_714:
-	LONG $0x0c59fbc5; BYTE $0xca   // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_714
-
-LBB1_715:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_716:
-	LONG $0x0c59fbc5; BYTE $0xca               // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c59fbc5; WORD $0x08ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c59fbc5; WORD $0x10ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c59fbc5; WORD $0x18ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_716
-	JMP  LBB1_1109
-
-LBB1_62:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_132
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_199
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_202
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_68
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_466
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_466
-
-LBB1_68:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_721:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_723
-
-LBB1_722:
-	LONG $0x0c59fbc5; BYTE $0xca   // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_722
-
-LBB1_723:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_724:
-	LONG $0x0c59fbc5; BYTE $0xca               // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c59fbc5; WORD $0x08ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c59fbc5; WORD $0x10ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c59fbc5; WORD $0x18ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_724
-	JMP  LBB1_1109
-
-LBB1_69:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_137
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_205
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_208
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_75
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_469
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_469
-
-LBB1_75:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_729:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_731
-
-LBB1_730:
-	LONG $0x0c58fbc5; BYTE $0xca   // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_730
-
-LBB1_731:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_732:
-	LONG $0x0c58fbc5; BYTE $0xca               // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c58fbc5; WORD $0x08ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_732
-	JMP  LBB1_1109
-
-LBB1_76:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_142
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_211
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_214
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_82
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_472
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_472
-
-LBB1_82:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_737:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_739
-
-LBB1_738:
-	LONG $0x0c10fbc5; BYTE $0xca   // vmovsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_738
-
-LBB1_739:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_740:
-	LONG $0x0c10fbc5; BYTE $0xca               // vmovsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c10fbc5; WORD $0x08ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c10fbc5; WORD $0x10ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c10fbc5; WORD $0x18ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_740
-	JMP  LBB1_1109
-
-LBB1_83:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_147
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_217
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_220
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_89
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_475
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_475
-
-LBB1_89:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_745:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_747
-
-LBB1_746:
-	LONG $0x0c58fbc5; BYTE $0xca   // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_746
-
-LBB1_747:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_748:
-	LONG $0x0c58fbc5; BYTE $0xca               // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c58fbc5; WORD $0x08ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_748
-	JMP  LBB1_1109
-
-LBB1_90:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_152
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_223
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_226
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_96
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_478
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_478
-
-LBB1_96:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_753:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_755
-
-LBB1_754:
-	LONG $0x0c10fbc5; BYTE $0xca   // vmovsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_754
-
-LBB1_755:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_756:
-	LONG $0x0c10fbc5; BYTE $0xca               // vmovsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c10fbc5; WORD $0x08ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c10fbc5; WORD $0x10ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c10fbc5; WORD $0x18ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_756
-	JMP  LBB1_1109
-
-LBB1_97:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_229
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_101
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_481
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_481
-
-LBB1_101:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_627:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_629
-
-LBB1_628:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_628
-
-LBB1_629:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_630:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_630
-	JMP  LBB1_1109
-
-LBB1_102:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_232
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_106
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_483
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_483
-
-LBB1_106:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_637:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_639
-
-LBB1_638:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_638
-
-LBB1_639:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_640:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_640
-	JMP  LBB1_1109
-
-LBB1_107:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB1_235
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_111
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_485
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_485
-
-LBB1_111:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_761:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_763
-
-LBB1_762:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_762
-
-LBB1_763:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_764:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_764
-	JMP  LBB1_1109
-
-LBB1_112:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB1_238
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_116
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_488
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_488
-
-LBB1_116:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_769:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_771
-
-LBB1_770:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_770
-
-LBB1_771:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_772:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_772
-	JMP  LBB1_1109
-
-LBB1_117:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB1_241
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_121
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_491
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_491
-
-LBB1_121:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_777:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_779
-
-LBB1_778:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_778
-
-LBB1_779:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_780:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_780
-	JMP  LBB1_1109
-
-LBB1_122:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB1_244
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_126
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_494
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_494
-
-LBB1_126:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_785:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_787
-
-LBB1_786:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_786
-
-LBB1_787:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_788:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_788
-	JMP  LBB1_1109
-
-LBB1_127:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_247
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_131
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_497
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_497
-
-LBB1_131:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_793:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_795
-
-LBB1_794:
-	LONG $0xf20c8b48 // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48 // imul    rcx, rax
-	LONG $0xf00c8949 // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_794
-
-LBB1_795:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_796:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_796
-	JMP  LBB1_1109
-
-LBB1_132:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_250
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_136
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_500
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_500
-
-LBB1_136:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_801:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_803
-
-LBB1_802:
-	LONG $0xf20c8b48 // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48 // imul    rcx, rax
-	LONG $0xf00c8949 // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_802
-
-LBB1_803:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_804:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_804
-	JMP  LBB1_1109
-
-LBB1_137:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_253
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_141
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_503
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_503
-
-LBB1_141:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_809:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_811
-
-LBB1_810:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_810
-
-LBB1_811:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_812:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_812
-	JMP  LBB1_1109
-
-LBB1_142:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_256
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_146
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_506
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_506
-
-LBB1_146:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_817:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_819
-
-LBB1_818:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_818
-
-LBB1_819:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_820:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_820
-	JMP  LBB1_1109
-
-LBB1_147:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_259
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_151
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_509
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_509
-
-LBB1_151:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_825:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_827
-
-LBB1_826:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_826
-
-LBB1_827:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_828:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_828
-	JMP  LBB1_1109
-
-LBB1_152:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_262
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_156
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_512
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_512
-
-LBB1_156:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_833:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_835
-
-LBB1_834:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_834
-
-LBB1_835:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_836:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_836
-	JMP  LBB1_1109
-
-LBB1_157:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_159
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_515
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_515
-
-LBB1_159:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_841:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_843
-
-LBB1_842:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_842
-
-LBB1_843:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_844:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_844
-	JMP  LBB1_1109
-
-LBB1_160:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_162
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_518
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_518
-
-LBB1_162:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_849:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_851
-
-LBB1_850:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_850
-
-LBB1_851:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_852:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_852
-	JMP  LBB1_1109
-
-LBB1_163:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_165
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_521
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_521
-
-LBB1_165:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_857:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_859
-
-LBB1_858:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_858
-
-LBB1_859:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_860:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_860
-	JMP  LBB1_1109
-
-LBB1_166:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_168
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_524
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_524
-
-LBB1_168:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_865:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_867
-
-LBB1_866:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_866
-
-LBB1_867:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_868:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_868
-	JMP  LBB1_1109
-
-LBB1_169:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_171
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_527
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_527
-
-LBB1_171:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_873:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_875
-
-LBB1_874:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_874
-
-LBB1_875:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_876:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_876
-	JMP  LBB1_1109
-
-LBB1_172:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_174
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_530
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_530
-
-LBB1_174:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_881:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_883
-
-LBB1_882:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_882
-
-LBB1_883:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_884:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_884
-	JMP  LBB1_1109
-
-LBB1_175:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_177
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_533
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_533
-
-LBB1_177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_889:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_891
-
-LBB1_890:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc729                 // sub    edi, eax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_890
-
-LBB1_891:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_892:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_892
-	JMP  LBB1_1109
-
-LBB1_178:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_180
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_536
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_536
-
-LBB1_180:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_897:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_899
-
-LBB1_898:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc729                 // sub    edi, eax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_898
-
-LBB1_899:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_900:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_900
-	JMP  LBB1_1109
-
-LBB1_181:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_183
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_539
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_539
-
-LBB1_183:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_905:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_907
-
-LBB1_906:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_906
-
-LBB1_907:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_908:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_908
-	JMP  LBB1_1109
-
-LBB1_184:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_186
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_542
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_542
-
-LBB1_186:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_913:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_915
-
-LBB1_914:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_914
-
-LBB1_915:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_916:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_916
-	JMP  LBB1_1109
-
-LBB1_187:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_189
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_545
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_545
-
-LBB1_189:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_921:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_923
-
-LBB1_922:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc729                 // sub    edi, eax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_922
-
-LBB1_923:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_924:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_924
-	JMP  LBB1_1109
-
-LBB1_190:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_192
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_548
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_548
-
-LBB1_192:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_929:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_931
-
-LBB1_930:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc729                 // sub    edi, eax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_930
-
-LBB1_931:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_932:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_932
-	JMP  LBB1_1109
-
-LBB1_193:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_195
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_551
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_551
-
-LBB1_195:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_937:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_939
-
-LBB1_938:
-	LONG $0xf20c8b48 // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48 // imul    rcx, rax
-	LONG $0xf00c8949 // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_938
-
-LBB1_939:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_940:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_940
-	JMP  LBB1_1109
-
-LBB1_196:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_198
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_554
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_554
-
-LBB1_198:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_945:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_947
-
-LBB1_946:
-	LONG $0x0c59fac5; BYTE $0x8a   // vmulss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_946
-
-LBB1_947:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_948:
-	LONG $0x0c59fac5; BYTE $0x8a               // vmulss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c59fac5; WORD $0x048a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c59fac5; WORD $0x088a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c59fac5; WORD $0x0c8a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_948
-	JMP  LBB1_1109
-
-LBB1_199:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_201
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_557
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_557
-
-LBB1_201:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_953:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_955
-
-LBB1_954:
-	LONG $0xf20c8b48 // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48 // imul    rcx, rax
-	LONG $0xf00c8949 // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_954
-
-LBB1_955:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_956:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_956
-	JMP  LBB1_1109
-
-LBB1_202:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_204
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_560
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_560
-
-LBB1_204:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_961:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_963
-
-LBB1_962:
-	LONG $0x0c59fac5; BYTE $0x8a   // vmulss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_962
-
-LBB1_963:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_964:
-	LONG $0x0c59fac5; BYTE $0x8a               // vmulss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c59fac5; WORD $0x048a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c59fac5; WORD $0x088a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c59fac5; WORD $0x0c8a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_964
-	JMP  LBB1_1109
-
-LBB1_205:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_207
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_563
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_563
-
-LBB1_207:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_969:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_971
-
-LBB1_970:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_970
-
-LBB1_971:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_972:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_972
-	JMP  LBB1_1109
-
-LBB1_208:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_210
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_566
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_566
-
-LBB1_210:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_977:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_979
-
-LBB1_978:
-	LONG $0x0c58fac5; BYTE $0x8a   // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_978
-
-LBB1_979:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_980:
-	LONG $0x0c58fac5; BYTE $0x8a               // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c58fac5; WORD $0x048a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x088a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0c8a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_980
-	JMP  LBB1_1109
-
-LBB1_211:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_213
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_569
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_569
-
-LBB1_213:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_985:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_987
-
-LBB1_986:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_986
-
-LBB1_987:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_988:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_988
-	JMP  LBB1_1109
-
-LBB1_214:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_216
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_572
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_572
-
-LBB1_216:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_993:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_995
-
-LBB1_994:
-	LONG $0x0c10fac5; BYTE $0x8a   // vmovss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_994
-
-LBB1_995:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_996:
-	LONG $0x0c10fac5; BYTE $0x8a               // vmovss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c10fac5; WORD $0x048a             // vmovss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c10fac5; WORD $0x088a             // vmovss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c10fac5; WORD $0x0c8a             // vmovss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_996
-	JMP  LBB1_1109
-
-LBB1_217:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_219
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_575
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_575
-
-LBB1_219:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1001:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1003
-
-LBB1_1002:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1002
-
-LBB1_1003:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1004:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1004
-	JMP  LBB1_1109
-
-LBB1_220:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_222
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_578
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_578
-
-LBB1_222:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_1009:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1011
-
-LBB1_1010:
-	LONG $0x0c58fac5; BYTE $0x8a   // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_1010
-
-LBB1_1011:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_1012:
-	LONG $0x0c58fac5; BYTE $0x8a               // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c58fac5; WORD $0x048a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x088a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0c8a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_1012
-	JMP  LBB1_1109
-
-LBB1_223:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_225
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_581
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_581
-
-LBB1_225:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1017:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1019
-
-LBB1_1018:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1018
-
-LBB1_1019:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1020:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1020
-	JMP  LBB1_1109
-
-LBB1_226:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_228
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_584
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_584
-
-LBB1_228:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_1025:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1027
-
-LBB1_1026:
-	LONG $0x0c10fac5; BYTE $0x8a   // vmovss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_1026
-
-LBB1_1027:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1109
-
-LBB1_1028:
-	LONG $0x0c10fac5; BYTE $0x8a               // vmovss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c10fac5; WORD $0x048a             // vmovss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c10fac5; WORD $0x088a             // vmovss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c10fac5; WORD $0x0c8a             // vmovss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_1028
-	JMP  LBB1_1109
-
-LBB1_229:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_231
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_587
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_587
-
-LBB1_231:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_647:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_649
-
-LBB1_648:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_648
-
-LBB1_649:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_650:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_650
-	JMP  LBB1_1109
-
-LBB1_232:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_234
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_589
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_589
-
-LBB1_234:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_657:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_659
-
-LBB1_658:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_658
-
-LBB1_659:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_660:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_660
-	JMP  LBB1_1109
-
-LBB1_235:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_237
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_591
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_591
-
-LBB1_237:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1033:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1035
-
-LBB1_1034:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1034
-
-LBB1_1035:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1036:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1036
-	JMP  LBB1_1109
-
-LBB1_238:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_240
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_594
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_594
-
-LBB1_240:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1041:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1043
-
-LBB1_1042:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1042
-
-LBB1_1043:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1044:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1044
-	JMP  LBB1_1109
-
-LBB1_241:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_243
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_597
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_597
-
-LBB1_243:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1049:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1051
-
-LBB1_1050:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1050
-
-LBB1_1051:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1052:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1052
-	JMP  LBB1_1109
-
-LBB1_244:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_246
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_600
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_600
-
-LBB1_246:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1057:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1059
-
-LBB1_1058:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1058
-
-LBB1_1059:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1060:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1060
-	JMP  LBB1_1109
-
-LBB1_247:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_249
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_603
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_603
-
-LBB1_249:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1065:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1067
-
-LBB1_1066:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1066
-
-LBB1_1067:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1068:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1068
-	JMP  LBB1_1109
-
-LBB1_250:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_252
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_606
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_606
-
-LBB1_252:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1073:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1075
-
-LBB1_1074:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1074
-
-LBB1_1075:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1076:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1076
-	JMP  LBB1_1109
-
-LBB1_253:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_255
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_609
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_609
-
-LBB1_255:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1081:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1083
-
-LBB1_1082:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1082
-
-LBB1_1083:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1084:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1084
-	JMP  LBB1_1109
-
-LBB1_256:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_258
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_612
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_612
-
-LBB1_258:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1089:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1091
-
-LBB1_1090:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1090
-
-LBB1_1091:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1092:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1092
-	JMP  LBB1_1109
-
-LBB1_259:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_261
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_615
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_615
-
-LBB1_261:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1097:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1099
-
-LBB1_1098:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1098
-
-LBB1_1099:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1100:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1100
-	JMP  LBB1_1109
-
-LBB1_262:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1109
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_264
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_618
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_618
-
-LBB1_264:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1105:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1107
-
-LBB1_1106:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1106
-
-LBB1_1107:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1109
-
-LBB1_1108:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1108
-	JMP  LBB1_1109
-
-LBB1_445:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_661
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_447:
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba64; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080ba8c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x00a0ba94407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x00c0ba9c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x00e0baa4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_447
-	JMP  LBB1_662
-
-LBB1_448:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_669
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_450:
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba64; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080ba8c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x00a0ba94407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x00c0ba9c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x00e0baa4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_450
-	JMP  LBB1_670
-
-LBB1_451:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_677
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_453:
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_453
-	JMP  LBB1_678
-
-LBB1_454:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_685
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_456:
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_456
-	JMP  LBB1_686
-
-LBB1_457:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_693
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_459:
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_459
-	JMP  LBB1_694
-
-LBB1_460:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_701
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_462:
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_462
-	JMP  LBB1_702
-
-LBB1_463:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_709
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_465:
-	LONG $0x1459f5c5; BYTE $0xfa               // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20fa             // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40fa             // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x6c59f5c5; WORD $0x60fa             // vmulpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa9459f5c5; BYTE $0x00       // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c59f5c5; BYTE $0x00       // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa459f5c5; BYTE $0x00       // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac59f5c5; BYTE $0x00       // vmulpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_465
-	JMP  LBB1_710
-
-LBB1_466:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_717
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_468:
-	LONG $0x1459f5c5; BYTE $0xfa               // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20fa             // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40fa             // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x6c59f5c5; WORD $0x60fa             // vmulpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa9459f5c5; BYTE $0x00       // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c59f5c5; BYTE $0x00       // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa459f5c5; BYTE $0x00       // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac59f5c5; BYTE $0x00       // vmulpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_468
-	JMP  LBB1_718
-
-LBB1_469:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_725
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_471:
-	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x6c58f5c5; WORD $0x60fa             // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_471
-	JMP  LBB1_726
-
-LBB1_472:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_733
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-
-LBB1_474:
-	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
-	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
-	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
-	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
-	QUAD $0x000080f29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rsi + 128]
-	QUAD $0x0000a0f29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rsi + 160]
-	QUAD $0x0000c0f2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rsi + 192]
-	QUAD $0x0000e0f2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rsi + 224]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	QUAD $0x0080f094117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 128], ymm2
-	QUAD $0x00a0f09c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 160], ymm3
-	QUAD $0x00c0f0a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 192], ymm4
-	QUAD $0x00e0f0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 224], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_474
-	JMP  LBB1_734
-
-LBB1_475:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_741
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_477:
-	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x6c58f5c5; WORD $0x60fa             // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_477
-	JMP  LBB1_742
-
-LBB1_478:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_749
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-
-LBB1_480:
-	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
-	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
-	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
-	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
-	QUAD $0x000080f29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rsi + 128]
-	QUAD $0x0000a0f29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rsi + 160]
-	QUAD $0x0000c0f2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rsi + 192]
-	QUAD $0x0000e0f2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rsi + 224]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	QUAD $0x0080f094117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 128], ymm2
-	QUAD $0x00a0f09c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 160], ymm3
-	QUAD $0x00c0f0a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 192], ymm4
-	QUAD $0x00e0f0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 224], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_480
-	JMP  LBB1_750
-
-LBB1_481:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB1_621
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB1_623
-
-LBB1_483:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB1_631
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB1_633
-
-LBB1_485:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_757
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_487:
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_487
-	JMP  LBB1_758
-
-LBB1_488:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_765
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_490:
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_490
-	JMP  LBB1_766
-
-LBB1_491:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_773
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_493:
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_493
-	JMP  LBB1_774
-
-LBB1_494:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_781
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_496:
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_496
-	JMP  LBB1_782
-
-LBB1_497:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_789
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_499:
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rdx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_499
-	JMP  LBB1_790
-
-LBB1_500:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_797
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_502:
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rdx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_502
-	JMP  LBB1_798
-
-LBB1_503:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_805
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_505:
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_505
-	JMP  LBB1_806
-
-LBB1_506:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_813
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_508:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_508
-	JMP  LBB1_814
-
-LBB1_509:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_821
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_511:
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_511
-	JMP  LBB1_822
-
-LBB1_512:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_829
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_514:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_514
-	JMP  LBB1_830
-
-LBB1_515:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_837
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_517:
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x207a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x407a             // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x607a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_517
-	JMP  LBB1_838
-
-LBB1_518:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_845
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_520:
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x207a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x407a             // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x607a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_520
-	JMP  LBB1_846
-
-LBB1_521:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_853
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_523:
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x207a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x407a             // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x607a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_523
-	JMP  LBB1_854
-
-LBB1_524:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_861
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_526:
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x207a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x407a             // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x607a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_526
-	JMP  LBB1_862
-
-LBB1_527:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_869
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_529:
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_529
-	JMP  LBB1_870
-
-LBB1_530:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_877
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_532:
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_532
-	JMP  LBB1_878
-
-LBB1_533:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_885
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_535:
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
-	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_535
-	JMP  LBB1_886
-
-LBB1_536:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_893
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_538:
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
-	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_538
-	JMP  LBB1_894
-
-LBB1_539:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_901
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_541:
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_541
-	JMP  LBB1_902
-
-LBB1_542:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_909
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_544:
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_544
-	JMP  LBB1_910
-
-LBB1_545:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_917
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_547:
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
-	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_547
-	JMP  LBB1_918
-
-LBB1_548:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_925
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_550:
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
-	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_550
-	JMP  LBB1_926
-
-LBB1_551:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_933
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_553:
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rdx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_553
-	JMP  LBB1_934
-
-LBB1_554:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_941
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_556:
-	LONG $0x1459f4c5; BYTE $0xba               // vmulps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20ba             // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40ba             // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x6c59f4c5; WORD $0x60ba             // vmulps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080ba9459f4c5; BYTE $0x00       // vmulps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9c59f4c5; BYTE $0x00       // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0baa459f4c5; BYTE $0x00       // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baac59f4c5; BYTE $0x00       // vmulps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_556
-	JMP  LBB1_942
-
-LBB1_557:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_949
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_559:
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rdx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_559
-	JMP  LBB1_950
-
-LBB1_560:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_957
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_562:
-	LONG $0x1459f4c5; BYTE $0xba               // vmulps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20ba             // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40ba             // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x6c59f4c5; WORD $0x60ba             // vmulps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080ba9459f4c5; BYTE $0x00       // vmulps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9c59f4c5; BYTE $0x00       // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0baa459f4c5; BYTE $0x00       // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baac59f4c5; BYTE $0x00       // vmulps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_562
-	JMP  LBB1_958
-
-LBB1_563:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_965
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_565:
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_565
-	JMP  LBB1_966
-
-LBB1_566:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_973
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_568:
-	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x6c58f4c5; WORD $0x60ba             // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080ba9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0baa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_568
-	JMP  LBB1_974
-
-LBB1_569:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_981
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_571:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_571
-	JMP  LBB1_982
-
-LBB1_572:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_989
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-
-LBB1_574:
-	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
-	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
-	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
-	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
-	QUAD $0x000080b29410fcc5; BYTE $0x00       // vmovups    ymm2, yword [rdx + 4*rsi + 128]
-	QUAD $0x0000a0b29c10fcc5; BYTE $0x00       // vmovups    ymm3, yword [rdx + 4*rsi + 160]
-	QUAD $0x0000c0b2a410fcc5; BYTE $0x00       // vmovups    ymm4, yword [rdx + 4*rsi + 192]
-	QUAD $0x0000e0b2ac10fcc5; BYTE $0x00       // vmovups    ymm5, yword [rdx + 4*rsi + 224]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
-	QUAD $0x0080b094117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 128], ymm2
-	QUAD $0x00a0b09c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 160], ymm3
-	QUAD $0x00c0b0a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 192], ymm4
-	QUAD $0x00e0b0ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 224], ymm5
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_574
-	JMP  LBB1_990
-
-LBB1_575:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_997
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_577:
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_577
-	JMP  LBB1_998
-
-LBB1_578:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_1005
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_580:
-	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x6c58f4c5; WORD $0x60ba             // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080ba9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0baa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_580
-	JMP  LBB1_1006
-
-LBB1_581:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1013
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_583:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_583
-	JMP  LBB1_1014
-
-LBB1_584:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_1021
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-
-LBB1_586:
-	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
-	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
-	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
-	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
-	QUAD $0x000080b29410fcc5; BYTE $0x00       // vmovups    ymm2, yword [rdx + 4*rsi + 128]
-	QUAD $0x0000a0b29c10fcc5; BYTE $0x00       // vmovups    ymm3, yword [rdx + 4*rsi + 160]
-	QUAD $0x0000c0b2a410fcc5; BYTE $0x00       // vmovups    ymm4, yword [rdx + 4*rsi + 192]
-	QUAD $0x0000e0b2ac10fcc5; BYTE $0x00       // vmovups    ymm5, yword [rdx + 4*rsi + 224]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
-	QUAD $0x0080b094117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 128], ymm2
-	QUAD $0x00a0b09c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 160], ymm3
-	QUAD $0x00c0b0a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 192], ymm4
-	QUAD $0x00e0b0ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 224], ymm5
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_586
-	JMP  LBB1_1022
-
-LBB1_587:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB1_641
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB1_643
-
-LBB1_589:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB1_651
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB1_653
-
-LBB1_591:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1029
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_593:
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_593
-	JMP  LBB1_1030
-
-LBB1_594:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1037
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_596:
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_596
-	JMP  LBB1_1038
-
-LBB1_597:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1045
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_599:
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_599
-	JMP  LBB1_1046
-
-LBB1_600:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1053
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_602:
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_602
-	JMP  LBB1_1054
-
-LBB1_603:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1061
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_605:
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba64; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080ba8c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x00a0ba94407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x00c0ba9c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x00e0baa4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_605
-	JMP  LBB1_1062
-
-LBB1_606:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1069
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_608:
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba64; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080ba8c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x00a0ba94407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x00c0ba9c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x00e0baa4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_608
-	JMP  LBB1_1070
-
-LBB1_609:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1077
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_611:
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_611
-	JMP  LBB1_1078
-
-LBB1_612:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1085
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_614:
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_614
-	JMP  LBB1_1086
-
-LBB1_615:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1093
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_617:
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_617
-	JMP  LBB1_1094
-
-LBB1_618:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1101
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_620:
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_620
-	JMP  LBB1_1102
-
-LBB1_621:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB1_622:
-	LONG $0x246ffec5; BYTE $0x32               // vmovdqu    ymm4, yword [rdx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2032             // vmovdqu    ymm4, yword [rdx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4032             // vmovdqu    ymm4, yword [rdx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6032             // vmovdqu    ymm4, yword [rdx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB1_622
-
-LBB1_623:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB1_626
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB1_625:
-	LONG $0x1c6ffec5; BYTE $0x32   // vmovdqu    ymm3, yword [rdx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB1_625
-
-LBB1_626:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1109
-	JMP  LBB1_627
-
-LBB1_631:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB1_632:
-	LONG $0x246ffec5; BYTE $0x32               // vmovdqu    ymm4, yword [rdx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2032             // vmovdqu    ymm4, yword [rdx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4032             // vmovdqu    ymm4, yword [rdx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6032             // vmovdqu    ymm4, yword [rdx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB1_632
-
-LBB1_633:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB1_636
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB1_635:
-	LONG $0x1c6ffec5; BYTE $0x32   // vmovdqu    ymm3, yword [rdx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB1_635
-
-LBB1_636:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1109
-	JMP  LBB1_637
-
-LBB1_641:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB1_642:
-	LONG $0x246ffec5; BYTE $0x32               // vmovdqu    ymm4, yword [rdx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2032             // vmovdqu    ymm4, yword [rdx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4032             // vmovdqu    ymm4, yword [rdx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6032             // vmovdqu    ymm4, yword [rdx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB1_642
-
-LBB1_643:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB1_646
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB1_645:
-	LONG $0x1c6ffec5; BYTE $0x32   // vmovdqu    ymm3, yword [rdx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB1_645
-
-LBB1_646:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1109
-	JMP  LBB1_647
-
-LBB1_651:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB1_652:
-	LONG $0x246ffec5; BYTE $0x32               // vmovdqu    ymm4, yword [rdx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2032             // vmovdqu    ymm4, yword [rdx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4032             // vmovdqu    ymm4, yword [rdx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6032             // vmovdqu    ymm4, yword [rdx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB1_652
-
-LBB1_653:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB1_656
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB1_655:
-	LONG $0x1c6ffec5; BYTE $0x32   // vmovdqu    ymm3, yword [rdx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB1_655
-
-LBB1_656:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1109
-	JMP  LBB1_657
-
-LBB1_661:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_662:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_664
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba44; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_664:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_665
-
-LBB1_669:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_670:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_672
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba44; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_672:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_673
-
-LBB1_677:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_678:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_680
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_680:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_681
-
-LBB1_685:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_686:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_688
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_688:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_689
-
-LBB1_693:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_694:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_696
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_696:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_697
-
-LBB1_701:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_702:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_704
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_704:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_705
-
-LBB1_709:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_710:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_712
-	LONG $0x1459f5c5; BYTE $0xfa               // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20fa             // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40fa             // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x4c59f5c5; WORD $0x60fa             // vmulpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB1_712:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_713
-
-LBB1_717:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_718:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_720
-	LONG $0x1459f5c5; BYTE $0xfa               // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20fa             // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40fa             // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x4c59f5c5; WORD $0x60fa             // vmulpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB1_720:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_721
-
-LBB1_725:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_726:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_728
-	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x4c58f5c5; WORD $0x60fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB1_728:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_729
-
-LBB1_733:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_734:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_736
-	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
-	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
-	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
-	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xc95cd5c5                           // vsubpd    ymm1, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-
-LBB1_736:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_737
-
-LBB1_741:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_742:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_744
-	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x4c58f5c5; WORD $0x60fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB1_744:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_745
-
-LBB1_749:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_750:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_752
-	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
-	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
-	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
-	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xc95cd5c5                           // vsubpd    ymm1, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-
-LBB1_752:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_753
-
-LBB1_757:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_758:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_760
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_760:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_761
-
-LBB1_765:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_766:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_768
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_768:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_769
-
-LBB1_773:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_774:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_776
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_776:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_777
-
-LBB1_781:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_782:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_784
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_784:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_785
-
-LBB1_789:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_790:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_792
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_792:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_793
-
-LBB1_797:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_798:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_800
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_800:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_801
-
-LBB1_805:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_806:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_808
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_808:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_809
-
-LBB1_813:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_814:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_816
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_816:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_817
-
-LBB1_821:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_822:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_824
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_824:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_825
-
-LBB1_829:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_830:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_832
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_832:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_833
-
-LBB1_837:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_838:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_840
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x207a             // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_840:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_841
-
-LBB1_845:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_846:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_848
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x207a             // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_848:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_849
-
-LBB1_853:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_854:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_856
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x207a             // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_856:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_857
-
-LBB1_861:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_862:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_864
-	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x207a             // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_864:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_865
-
-LBB1_869:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_870:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_872
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_872:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_873
-
-LBB1_877:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_878:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_880
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_880:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_881
-
-LBB1_885:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_886:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_888
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_888:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_889
-
-LBB1_893:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_894:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_896
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_896:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_897
-
-LBB1_901:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_902:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_904
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_904:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_905
-
-LBB1_909:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_910:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_912
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_912:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_913
-
-LBB1_917:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_918:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_920
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_920:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_921
-
-LBB1_925:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_926:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_928
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB1_928:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_929
-
-LBB1_933:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_934:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_936
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_936:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_937
-
-LBB1_941:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_942:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_944
-	LONG $0x1459f4c5; BYTE $0xba               // vmulps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20ba             // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40ba             // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x4c59f4c5; WORD $0x60ba             // vmulps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB1_944:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_945
-
-LBB1_949:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_950:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_952
-	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_952:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_953
-
-LBB1_957:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_958:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_960
-	LONG $0x1459f4c5; BYTE $0xba               // vmulps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20ba             // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40ba             // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x4c59f4c5; WORD $0x60ba             // vmulps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB1_960:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_961
-
-LBB1_965:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_966:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_968
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_968:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_969
-
-LBB1_973:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_974:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_976
-	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x4c58f4c5; WORD $0x60ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB1_976:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_977
-
-LBB1_981:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_982:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_984
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_984:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_985
-
-LBB1_989:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_990:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_992
-	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
-	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
-	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
-	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-
-LBB1_992:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_993
-
-LBB1_997:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_998:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1000
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_1000:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1001
-
-LBB1_1005:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1006:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1008
-	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x4c58f4c5; WORD $0x60ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB1_1008:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_1009
-
-LBB1_1013:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1014:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1016
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB1_1016:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1017
-
-LBB1_1021:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1022:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1024
-	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
-	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
-	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
-	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-
-LBB1_1024:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1109
-	JMP  LBB1_1025
-
-LBB1_1029:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1030:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1032
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_1032:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1033
-
-LBB1_1037:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1038:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1040
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_1040:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1041
-
-LBB1_1045:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1046:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1048
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_1048:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1049
-
-LBB1_1053:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1054:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1056
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB1_1056:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1057
-
-LBB1_1061:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1062:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1064
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba44; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_1064:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1065
-
-LBB1_1069:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1070:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1072
-	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xba44; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_1072:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1073
-
-LBB1_1077:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1078:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1080
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_1080:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1081
-
-LBB1_1085:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1086:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1088
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_1088:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1089
-
-LBB1_1093:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1094:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1096
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_1096:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1109
-	JMP  LBB1_1097
-
-LBB1_1101:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1102:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1104
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB1_1104:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB1_1105
-
-LBB1_1109:
-	VZEROUPPER
-	RET
-
-DATA LCDATA3<>+0x000(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA3<>+0x008(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA3<>+0x010(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA3<>+0x018(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA3<>(SB), 8, $32
-
-TEXT ·_arithmetic_scalar_arr_avx2(SB), $0-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA3<>(SB), BP
-
-	LONG $0x14fe8040         // cmp    sil, 20
-	JG   LBB2_12
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB2_23
-	LONG $0x01fe8040         // cmp    sil, 1
-	JE   LBB2_31
-	LONG $0x02fe8040         // cmp    sil, 2
-	JNE  LBB2_1109
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_55
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_97
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_157
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_160
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_11
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_445
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_445
-
-LBB2_11:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_665:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_667
-
-LBB2_666:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_666
-
-LBB2_667:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_668:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_668
-	JMP  LBB2_1109
-
-LBB2_12:
-	LONG $0x15fe8040         // cmp    sil, 21
-	JE   LBB2_39
-	LONG $0x16fe8040         // cmp    sil, 22
-	JE   LBB2_47
-	LONG $0x17fe8040         // cmp    sil, 23
-	JNE  LBB2_1109
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_62
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_102
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_163
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_166
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_22
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_448
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_448
-
-LBB2_22:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_673:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_675
-
-LBB2_674:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_674
-
-LBB2_675:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_676:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_676
-	JMP  LBB2_1109
-
-LBB2_23:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_69
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_107
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_169
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_172
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_30
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_451
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_451
-
-LBB2_30:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_681:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_683
-
-LBB2_682:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_682
-
-LBB2_683:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_684:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_684
-	JMP  LBB2_1109
-
-LBB2_31:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_76
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_112
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_175
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_178
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_38
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_454
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_454
-
-LBB2_38:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_689:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_691
-
-LBB2_690:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_690
-
-LBB2_691:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_692:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_692
-	JMP  LBB2_1109
-
-LBB2_39:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_83
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_117
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_181
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_184
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_46
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_457
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_457
-
-LBB2_46:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_697:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_699
-
-LBB2_698:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_698
-
-LBB2_699:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_700:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_700
-	JMP  LBB2_1109
-
-LBB2_47:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_90
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_122
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_187
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_190
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_54
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_460
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_460
-
-LBB2_54:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_705:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_707
-
-LBB2_706:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_706
-
-LBB2_707:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_708:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_708
-	JMP  LBB2_1109
-
-LBB2_55:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_127
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_193
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_196
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_61
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_463
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_463
-
-LBB2_61:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_713:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_715
-
-LBB2_714:
-	LONG $0x0c59fbc5; BYTE $0xd1   // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_714
-
-LBB2_715:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_716:
-	LONG $0x0c59fbc5; BYTE $0xd1               // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c59fbc5; WORD $0x08d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c59fbc5; WORD $0x10d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c59fbc5; WORD $0x18d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_716
-	JMP  LBB2_1109
-
-LBB2_62:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_132
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_199
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_202
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_68
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_466
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_466
-
-LBB2_68:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_721:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_723
-
-LBB2_722:
-	LONG $0x0c59fbc5; BYTE $0xd1   // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_722
-
-LBB2_723:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_724:
-	LONG $0x0c59fbc5; BYTE $0xd1               // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c59fbc5; WORD $0x08d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c59fbc5; WORD $0x10d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c59fbc5; WORD $0x18d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_724
-	JMP  LBB2_1109
-
-LBB2_69:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_137
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_205
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_208
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_75
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_469
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_469
-
-LBB2_75:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_729:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_731
-
-LBB2_730:
-	LONG $0x0c58fbc5; BYTE $0xd1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_730
-
-LBB2_731:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_732:
-	LONG $0x0c58fbc5; BYTE $0xd1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c58fbc5; WORD $0x08d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_732
-	JMP  LBB2_1109
-
-LBB2_76:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_142
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_211
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_214
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_82
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_472
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_472
-
-LBB2_82:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_737:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_739
-
-LBB2_738:
-	LONG $0x0c5cfbc5; BYTE $0xd1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_738
-
-LBB2_739:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_740:
-	LONG $0x0c5cfbc5; BYTE $0xd1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c5cfbc5; WORD $0x08d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c5cfbc5; WORD $0x10d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c5cfbc5; WORD $0x18d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_740
-	JMP  LBB2_1109
-
-LBB2_83:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_147
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_217
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_220
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_89
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_475
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_475
-
-LBB2_89:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_745:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_747
-
-LBB2_746:
-	LONG $0x0c58fbc5; BYTE $0xd1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_746
-
-LBB2_747:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_748:
-	LONG $0x0c58fbc5; BYTE $0xd1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c58fbc5; WORD $0x08d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_748
-	JMP  LBB2_1109
-
-LBB2_90:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_152
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_223
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_226
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_96
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_478
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_478
-
-LBB2_96:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_753:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_755
-
-LBB2_754:
-	LONG $0x0c5cfbc5; BYTE $0xd1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_754
-
-LBB2_755:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_756:
-	LONG $0x0c5cfbc5; BYTE $0xd1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c5cfbc5; WORD $0x08d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c5cfbc5; WORD $0x10d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c5cfbc5; WORD $0x18d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_756
-	JMP  LBB2_1109
-
-LBB2_97:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_229
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_101
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_481
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_481
-
-LBB2_101:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_627:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_629
-
-LBB2_628:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_628
-
-LBB2_629:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_630:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_630
-	JMP  LBB2_1109
-
-LBB2_102:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_232
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_106
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_483
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_483
-
-LBB2_106:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_637:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_639
-
-LBB2_638:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_638
-
-LBB2_639:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_640:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_640
-	JMP  LBB2_1109
-
-LBB2_107:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB2_235
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_111
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_485
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_485
-
-LBB2_111:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_761:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_763
-
-LBB2_762:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_762
-
-LBB2_763:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_764:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_764
-	JMP  LBB2_1109
-
-LBB2_112:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB2_238
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_116
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_488
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_488
-
-LBB2_116:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_769:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_771
-
-LBB2_770:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841         // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_770
-
-LBB2_771:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_772:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_772
-	JMP  LBB2_1109
-
-LBB2_117:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB2_241
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_121
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_491
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_491
-
-LBB2_121:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_777:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_779
-
-LBB2_778:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_778
-
-LBB2_779:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_780:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_780
-	JMP  LBB2_1109
-
-LBB2_122:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB2_244
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_126
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_494
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_494
-
-LBB2_126:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_785:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_787
-
-LBB2_786:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841         // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_786
-
-LBB2_787:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_788:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_788
-	JMP  LBB2_1109
-
-LBB2_127:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_247
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_131
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_497
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_497
-
-LBB2_131:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_793:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_795
-
-LBB2_794:
-	LONG $0xf1148b48 // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48 // imul    rdx, rax
-	LONG $0xf0148949 // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_794
-
-LBB2_795:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_796:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_796
-	JMP  LBB2_1109
-
-LBB2_132:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_250
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_136
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_500
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_500
-
-LBB2_136:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_801:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_803
-
-LBB2_802:
-	LONG $0xf1148b48 // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48 // imul    rdx, rax
-	LONG $0xf0148949 // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_802
-
-LBB2_803:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_804:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_804
-	JMP  LBB2_1109
-
-LBB2_137:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_253
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_141
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_503
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_503
-
-LBB2_141:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_809:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_811
-
-LBB2_810:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_810
-
-LBB2_811:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_812:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_812
-	JMP  LBB2_1109
-
-LBB2_142:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_256
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_146
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_506
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_506
-
-LBB2_146:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_817:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_819
-
-LBB2_818:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_818
-
-LBB2_819:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_820:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_820
-	JMP  LBB2_1109
-
-LBB2_147:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_259
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_151
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_509
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_509
-
-LBB2_151:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_825:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_827
-
-LBB2_826:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_826
-
-LBB2_827:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_828:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_828
-	JMP  LBB2_1109
-
-LBB2_152:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_262
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1109
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_156
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_512
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_512
-
-LBB2_156:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_833:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_835
-
-LBB2_834:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_834
-
-LBB2_835:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_836:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_836
-	JMP  LBB2_1109
-
-LBB2_157:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_159
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_515
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_515
-
-LBB2_159:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_841:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_843
-
-LBB2_842:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_842
-
-LBB2_843:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_844:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_844
-	JMP  LBB2_1109
-
-LBB2_160:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_162
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_518
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_518
-
-LBB2_162:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_849:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_851
-
-LBB2_850:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_850
-
-LBB2_851:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_852:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_852
-	JMP  LBB2_1109
-
-LBB2_163:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_165
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_521
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_521
-
-LBB2_165:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_857:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_859
-
-LBB2_858:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_858
-
-LBB2_859:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_860:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_860
-	JMP  LBB2_1109
-
-LBB2_166:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_168
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_524
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_524
-
-LBB2_168:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_865:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_867
-
-LBB2_866:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0xf8af0f66             // imul    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_866
-
-LBB2_867:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_868:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_868
-	JMP  LBB2_1109
-
-LBB2_169:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_171
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_527
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_527
-
-LBB2_171:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_873:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_875
-
-LBB2_874:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_874
-
-LBB2_875:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_876:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_876
-	JMP  LBB2_1109
-
-LBB2_172:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_174
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_530
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_530
-
-LBB2_174:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_881:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_883
-
-LBB2_882:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_882
-
-LBB2_883:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_884:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_884
-	JMP  LBB2_1109
-
-LBB2_175:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_177
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_533
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_533
-
-LBB2_177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_889:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_891
-
-LBB2_890:
-	WORD $0xc789                 // mov    edi, eax
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_890
-
-LBB2_891:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_892:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_892
-	JMP  LBB2_1109
-
-LBB2_178:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_180
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_536
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_536
-
-LBB2_180:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_897:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_899
-
-LBB2_898:
-	WORD $0xc789                 // mov    edi, eax
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_898
-
-LBB2_899:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_900:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_900
-	JMP  LBB2_1109
-
-LBB2_181:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_183
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_539
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_539
-
-LBB2_183:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_905:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_907
-
-LBB2_906:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_906
-
-LBB2_907:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_908:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_908
-	JMP  LBB2_1109
-
-LBB2_184:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_186
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_542
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_542
-
-LBB2_186:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_913:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_915
-
-LBB2_914:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_914
-
-LBB2_915:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_916:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_916
-	JMP  LBB2_1109
-
-LBB2_187:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_189
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_545
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_545
-
-LBB2_189:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_921:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_923
-
-LBB2_922:
-	WORD $0xc789                 // mov    edi, eax
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_922
-
-LBB2_923:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_924:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_924
-	JMP  LBB2_1109
-
-LBB2_190:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_192
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_548
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_548
-
-LBB2_192:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_929:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_931
-
-LBB2_930:
-	WORD $0xc789                 // mov    edi, eax
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_930
-
-LBB2_931:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_932:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_932
-	JMP  LBB2_1109
-
-LBB2_193:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_195
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_551
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_551
-
-LBB2_195:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_937:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_939
-
-LBB2_938:
-	LONG $0xf1148b48 // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48 // imul    rdx, rax
-	LONG $0xf0148949 // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_938
-
-LBB2_939:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_940:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_940
-	JMP  LBB2_1109
-
-LBB2_196:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_198
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_554
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_554
-
-LBB2_198:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_945:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_947
-
-LBB2_946:
-	LONG $0x0c59fac5; BYTE $0x91   // vmulss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_946
-
-LBB2_947:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_948:
-	LONG $0x0c59fac5; BYTE $0x91               // vmulss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c59fac5; WORD $0x0491             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c59fac5; WORD $0x0891             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c59fac5; WORD $0x0c91             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_948
-	JMP  LBB2_1109
-
-LBB2_199:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_201
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_557
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_557
-
-LBB2_201:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_953:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_955
-
-LBB2_954:
-	LONG $0xf1148b48 // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48 // imul    rdx, rax
-	LONG $0xf0148949 // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_954
-
-LBB2_955:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_956:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_956
-	JMP  LBB2_1109
-
-LBB2_202:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_204
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_560
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_560
-
-LBB2_204:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_961:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_963
-
-LBB2_962:
-	LONG $0x0c59fac5; BYTE $0x91   // vmulss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_962
-
-LBB2_963:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_964:
-	LONG $0x0c59fac5; BYTE $0x91               // vmulss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c59fac5; WORD $0x0491             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c59fac5; WORD $0x0891             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c59fac5; WORD $0x0c91             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_964
-	JMP  LBB2_1109
-
-LBB2_205:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_207
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_563
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_563
-
-LBB2_207:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_969:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_971
-
-LBB2_970:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_970
-
-LBB2_971:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_972:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_972
-	JMP  LBB2_1109
-
-LBB2_208:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_210
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_566
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_566
-
-LBB2_210:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_977:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_979
-
-LBB2_978:
-	LONG $0x0c58fac5; BYTE $0x91   // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_978
-
-LBB2_979:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_980:
-	LONG $0x0c58fac5; BYTE $0x91               // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c58fac5; WORD $0x0491             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x0891             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0c91             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_980
-	JMP  LBB2_1109
-
-LBB2_211:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_213
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_569
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_569
-
-LBB2_213:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_985:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_987
-
-LBB2_986:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_986
-
-LBB2_987:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_988:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_988
-	JMP  LBB2_1109
-
-LBB2_214:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_216
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_572
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_572
-
-LBB2_216:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_993:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_995
-
-LBB2_994:
-	LONG $0x0c5cfac5; BYTE $0x91   // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_994
-
-LBB2_995:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_996:
-	LONG $0x0c5cfac5; BYTE $0x91               // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c5cfac5; WORD $0x0491             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c5cfac5; WORD $0x0891             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c5cfac5; WORD $0x0c91             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_996
-	JMP  LBB2_1109
-
-LBB2_217:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_219
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_575
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_575
-
-LBB2_219:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1001:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1003
-
-LBB2_1002:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1002
-
-LBB2_1003:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1004:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1004
-	JMP  LBB2_1109
-
-LBB2_220:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_222
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_578
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_578
-
-LBB2_222:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_1009:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1011
-
-LBB2_1010:
-	LONG $0x0c58fac5; BYTE $0x91   // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_1010
-
-LBB2_1011:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_1012:
-	LONG $0x0c58fac5; BYTE $0x91               // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c58fac5; WORD $0x0491             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x0891             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0c91             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_1012
-	JMP  LBB2_1109
-
-LBB2_223:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_225
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_581
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_581
-
-LBB2_225:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1017:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1019
-
-LBB2_1018:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1018
-
-LBB2_1019:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_1020:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1020
-	JMP  LBB2_1109
-
-LBB2_226:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_228
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_584
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_584
-
-LBB2_228:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_1025:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1027
-
-LBB2_1026:
-	LONG $0x0c5cfac5; BYTE $0x91   // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_1026
-
-LBB2_1027:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1109
-
-LBB2_1028:
-	LONG $0x0c5cfac5; BYTE $0x91               // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c5cfac5; WORD $0x0491             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c5cfac5; WORD $0x0891             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c5cfac5; WORD $0x0c91             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_1028
-	JMP  LBB2_1109
-
-LBB2_229:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_231
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_587
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_587
-
-LBB2_231:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_647:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_649
-
-LBB2_648:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_648
-
-LBB2_649:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_650:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_650
-	JMP  LBB2_1109
-
-LBB2_232:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_234
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_589
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_589
-
-LBB2_234:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_657:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_659
-
-LBB2_658:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_658
-
-LBB2_659:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_660:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_660
-	JMP  LBB2_1109
-
-LBB2_235:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_237
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_591
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_591
-
-LBB2_237:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1033:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1035
-
-LBB2_1034:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_1034
-
-LBB2_1035:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1036:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1036
-	JMP  LBB2_1109
-
-LBB2_238:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_240
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_594
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_594
-
-LBB2_240:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1041:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1043
-
-LBB2_1042:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841         // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1042
-
-LBB2_1043:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1044:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1044
-	JMP  LBB2_1109
-
-LBB2_241:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_243
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_597
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_597
-
-LBB2_243:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1049:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1051
-
-LBB2_1050:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_1050
-
-LBB2_1051:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1052:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1052
-	JMP  LBB2_1109
-
-LBB2_244:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_246
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_600
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_600
-
-LBB2_246:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1057:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1059
-
-LBB2_1058:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841         // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1058
-
-LBB2_1059:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1060:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1060
-	JMP  LBB2_1109
-
-LBB2_247:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_249
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_603
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_603
-
-LBB2_249:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1065:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1067
-
-LBB2_1066:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1066
-
-LBB2_1067:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1068:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1068
-	JMP  LBB2_1109
-
-LBB2_250:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_252
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_606
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_606
-
-LBB2_252:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1073:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1075
-
-LBB2_1074:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1074
-
-LBB2_1075:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1076:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1076
-	JMP  LBB2_1109
-
-LBB2_253:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_255
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_609
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_609
-
-LBB2_255:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1081:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1083
-
-LBB2_1082:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1082
-
-LBB2_1083:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1084:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1084
-	JMP  LBB2_1109
-
-LBB2_256:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_258
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_612
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_612
-
-LBB2_258:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1089:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1091
-
-LBB2_1090:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1090
-
-LBB2_1091:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_1092:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1092
-	JMP  LBB2_1109
-
-LBB2_259:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_261
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_615
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_615
-
-LBB2_261:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1097:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1099
-
-LBB2_1098:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1098
-
-LBB2_1099:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1109
-
-LBB2_1100:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1100
-	JMP  LBB2_1109
-
-LBB2_262:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1109
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_264
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_618
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_618
-
-LBB2_264:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1105:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1107
-
-LBB2_1106:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1106
-
-LBB2_1107:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1109
-
-LBB2_1108:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1108
-	JMP  LBB2_1109
-
-LBB2_445:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_661
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_447:
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb964; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080b98c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x00a0b994407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x00c0b99c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x00e0b9a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_447
-	JMP  LBB2_662
-
-LBB2_448:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_669
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_450:
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb964; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080b98c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x00a0b994407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x00c0b99c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x00e0b9a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_450
-	JMP  LBB2_670
-
-LBB2_451:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_677
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_453:
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_453
-	JMP  LBB2_678
-
-LBB2_454:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_685
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_456:
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_456
-	JMP  LBB2_686
-
-LBB2_457:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_693
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_459:
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_459
-	JMP  LBB2_694
-
-LBB2_460:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_701
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_462:
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_462
-	JMP  LBB2_702
-
-LBB2_463:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_709
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_465:
-	LONG $0x1459f5c5; BYTE $0xf9               // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20f9             // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40f9             // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c59f5c5; WORD $0x60f9             // vmulpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f99459f5c5; BYTE $0x00       // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c59f5c5; BYTE $0x00       // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a459f5c5; BYTE $0x00       // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac59f5c5; BYTE $0x00       // vmulpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_465
-	JMP  LBB2_710
-
-LBB2_466:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_717
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_468:
-	LONG $0x1459f5c5; BYTE $0xf9               // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20f9             // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40f9             // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c59f5c5; WORD $0x60f9             // vmulpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f99459f5c5; BYTE $0x00       // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c59f5c5; BYTE $0x00       // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a459f5c5; BYTE $0x00       // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac59f5c5; BYTE $0x00       // vmulpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_468
-	JMP  LBB2_718
-
-LBB2_469:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_725
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_471:
-	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c58f5c5; WORD $0x60f9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_471
-	JMP  LBB2_726
-
-LBB2_472:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_733
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_474:
-	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c5cf5c5; WORD $0x60f9             // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9945cf5c5; BYTE $0x00       // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c5cf5c5; BYTE $0x00       // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a45cf5c5; BYTE $0x00       // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac5cf5c5; BYTE $0x00       // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_474
-	JMP  LBB2_734
-
-LBB2_475:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_741
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_477:
-	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c58f5c5; WORD $0x60f9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_477
-	JMP  LBB2_742
-
-LBB2_478:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_749
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_480:
-	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c5cf5c5; WORD $0x60f9             // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9945cf5c5; BYTE $0x00       // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c5cf5c5; BYTE $0x00       // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a45cf5c5; BYTE $0x00       // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac5cf5c5; BYTE $0x00       // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_480
-	JMP  LBB2_750
-
-LBB2_481:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc26ef9c5             // vmovd    xmm0, edx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB2_621
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB2_623
-
-LBB2_483:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc26ef9c5             // vmovd    xmm0, edx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB2_631
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB2_633
-
-LBB2_485:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_757
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_487:
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_487
-	JMP  LBB2_758
-
-LBB2_488:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_765
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_490:
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_490
-	JMP  LBB2_766
-
-LBB2_491:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_773
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_493:
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_493
-	JMP  LBB2_774
-
-LBB2_494:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_781
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_496:
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_496
-	JMP  LBB2_782
-
-LBB2_497:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_789
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_499:
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rcx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_499
-	JMP  LBB2_790
-
-LBB2_500:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_797
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_502:
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rcx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_502
-	JMP  LBB2_798
-
-LBB2_503:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_805
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_505:
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_505
-	JMP  LBB2_806
-
-LBB2_506:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_813
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_508:
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_508
-	JMP  LBB2_814
-
-LBB2_509:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_821
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_511:
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_511
-	JMP  LBB2_822
-
-LBB2_512:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_829
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_514:
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_514
-	JMP  LBB2_830
-
-LBB2_515:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_837
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_517:
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x2079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x4079             // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x6079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_517
-	JMP  LBB2_838
-
-LBB2_518:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_845
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_520:
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x2079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x4079             // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x6079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_520
-	JMP  LBB2_846
-
-LBB2_521:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_853
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_523:
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x2079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x4079             // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x6079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_523
-	JMP  LBB2_854
-
-LBB2_524:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_861
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_526:
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54d5fdc5; WORD $0x2079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cd5fdc5; WORD $0x4079             // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54d5fdc5; WORD $0x6079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_526
-	JMP  LBB2_862
-
-LBB2_527:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_869
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_529:
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_529
-	JMP  LBB2_870
-
-LBB2_530:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_877
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_532:
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_532
-	JMP  LBB2_878
-
-LBB2_533:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_885
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_535:
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_535
-	JMP  LBB2_886
-
-LBB2_536:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_893
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_538:
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_538
-	JMP  LBB2_894
-
-LBB2_539:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_901
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_541:
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_541
-	JMP  LBB2_902
-
-LBB2_542:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_909
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_544:
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_544
-	JMP  LBB2_910
-
-LBB2_545:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_917
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_547:
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_547
-	JMP  LBB2_918
-
-LBB2_548:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_925
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_550:
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_550
-	JMP  LBB2_926
-
-LBB2_551:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_933
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_553:
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rcx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_553
-	JMP  LBB2_934
-
-LBB2_554:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_941
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_556:
-	LONG $0x1459f4c5; BYTE $0xb9               // vmulps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20b9             // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40b9             // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c59f4c5; WORD $0x60b9             // vmulps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b99459f4c5; BYTE $0x00       // vmulps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c59f4c5; BYTE $0x00       // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a459f4c5; BYTE $0x00       // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac59f4c5; BYTE $0x00       // vmulps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_556
-	JMP  LBB2_942
-
-LBB2_557:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_949
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_559:
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rcx + 8*rdi + 224]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_559
-	JMP  LBB2_950
-
-LBB2_560:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_957
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_562:
-	LONG $0x1459f4c5; BYTE $0xb9               // vmulps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20b9             // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40b9             // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c59f4c5; WORD $0x60b9             // vmulps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b99459f4c5; BYTE $0x00       // vmulps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c59f4c5; BYTE $0x00       // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a459f4c5; BYTE $0x00       // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac59f4c5; BYTE $0x00       // vmulps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_562
-	JMP  LBB2_958
-
-LBB2_563:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_965
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_565:
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_565
-	JMP  LBB2_966
-
-LBB2_566:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_973
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_568:
-	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c58f4c5; WORD $0x60b9             // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b99458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_568
-	JMP  LBB2_974
-
-LBB2_569:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_981
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_571:
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_571
-	JMP  LBB2_982
-
-LBB2_572:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_989
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_574:
-	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c5cf4c5; WORD $0x60b9             // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b9945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_574
-	JMP  LBB2_990
-
-LBB2_575:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_997
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_577:
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_577
-	JMP  LBB2_998
-
-LBB2_578:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_1005
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_580:
-	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c58f4c5; WORD $0x60b9             // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b99458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_580
-	JMP  LBB2_1006
-
-LBB2_581:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1013
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_583:
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
-	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
-	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
-	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
-	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_583
-	JMP  LBB2_1014
-
-LBB2_584:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_1021
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_586:
-	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c5cf4c5; WORD $0x60b9             // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b9945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_586
-	JMP  LBB2_1022
-
-LBB2_587:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc26ef9c5             // vmovd    xmm0, edx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB2_641
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB2_643
-
-LBB2_589:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xc26ef9c5             // vmovd    xmm0, edx
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x05e8c148             // shr    rax, 5
-	LONG $0x01c08348             // add    rax, 1
-	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
-	LONG $0x03e18341             // and    r9d, 3
-	LONG $0x60fe8348             // cmp    rsi, 96
-	JAE  LBB2_651
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB2_653
-
-LBB2_591:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1029
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_593:
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_593
-	JMP  LBB2_1030
-
-LBB2_594:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1037
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_596:
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_596
-	JMP  LBB2_1038
-
-LBB2_597:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1045
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_599:
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_599
-	JMP  LBB2_1046
-
-LBB2_600:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1053
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_602:
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_602
-	JMP  LBB2_1054
-
-LBB2_603:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1061
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_605:
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb964; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080b98c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x00a0b994407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x00c0b99c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x00e0b9a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_605
-	JMP  LBB2_1062
-
-LBB2_606:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1069
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_608:
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb964; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x0080b98c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x00a0b994407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x00c0b99c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x00e0b9a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_608
-	JMP  LBB2_1070
-
-LBB2_609:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1077
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_611:
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_611
-	JMP  LBB2_1078
-
-LBB2_612:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1085
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_614:
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_614
-	JMP  LBB2_1086
-
-LBB2_615:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1093
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_617:
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_617
-	JMP  LBB2_1094
-
-LBB2_618:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1101
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_620:
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_620
-	JMP  LBB2_1102
-
-LBB2_621:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB2_622:
-	LONG $0x246ffec5; BYTE $0x31               // vmovdqu    ymm4, yword [rcx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4031             // vmovdqu    ymm4, yword [rcx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6031             // vmovdqu    ymm4, yword [rcx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB2_622
-
-LBB2_623:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB2_626
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB2_625:
-	LONG $0x1c6ffec5; BYTE $0x31   // vmovdqu    ymm3, yword [rcx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB2_625
-
-LBB2_626:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1109
-	JMP  LBB2_627
-
-LBB2_631:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB2_632:
-	LONG $0x246ffec5; BYTE $0x31               // vmovdqu    ymm4, yword [rcx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4031             // vmovdqu    ymm4, yword [rcx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6031             // vmovdqu    ymm4, yword [rcx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB2_632
-
-LBB2_633:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB2_636
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB2_635:
-	LONG $0x1c6ffec5; BYTE $0x31   // vmovdqu    ymm3, yword [rcx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB2_635
-
-LBB2_636:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1109
-	JMP  LBB2_637
-
-LBB2_641:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB2_642:
-	LONG $0x246ffec5; BYTE $0x31               // vmovdqu    ymm4, yword [rcx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4031             // vmovdqu    ymm4, yword [rcx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6031             // vmovdqu    ymm4, yword [rcx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB2_642
-
-LBB2_643:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB2_646
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB2_645:
-	LONG $0x1c6ffec5; BYTE $0x31   // vmovdqu    ymm3, yword [rcx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB2_645
-
-LBB2_646:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1109
-	JMP  LBB2_647
-
-LBB2_651:
-	LONG $0xfce08348             // and    rax, -4
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
-
-LBB2_652:
-	LONG $0x246ffec5; BYTE $0x31               // vmovdqu    ymm4, yword [rcx + rsi]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
-	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x646ffec5; WORD $0x4031             // vmovdqu    ymm4, yword [rcx + rsi + 64]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x646ffec5; WORD $0x6031             // vmovdqu    ymm4, yword [rcx + rsi + 96]
-	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
-	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
-	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x04c08348                           // add    rax, 4
-	JNE  LBB2_652
-
-LBB2_653:
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	JE   LBB2_656
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
-	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
-
-LBB2_655:
-	LONG $0x1c6ffec5; BYTE $0x31   // vmovdqu    ymm3, yword [rcx + rsi]
-	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
-	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
-	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
-	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
-	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
-	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
-	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0xff49; BYTE $0xc1       // inc    r9
-	JNE  LBB2_655
-
-LBB2_656:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1109
-	JMP  LBB2_657
-
-LBB2_661:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_662:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_664
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb944; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_664:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_665
-
-LBB2_669:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_670:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_672
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb944; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_672:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_673
-
-LBB2_677:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_678:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_680
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_680:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_681
-
-LBB2_685:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_686:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_688
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_688:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_689
-
-LBB2_693:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_694:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_696
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_696:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_697
-
-LBB2_701:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_702:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_704
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_704:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_705
-
-LBB2_709:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_710:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_712
-	LONG $0x1459f5c5; BYTE $0xf9               // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20f9             // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40f9             // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c59f5c5; WORD $0x60f9             // vmulpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_712:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_713
-
-LBB2_717:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_718:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_720
-	LONG $0x1459f5c5; BYTE $0xf9               // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c59f5c5; WORD $0x20f9             // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6459f5c5; WORD $0x40f9             // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c59f5c5; WORD $0x60f9             // vmulpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_720:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_721
-
-LBB2_725:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_726:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_728
-	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c58f5c5; WORD $0x60f9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_728:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_729
-
-LBB2_733:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_734:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_736
-	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c5cf5c5; WORD $0x60f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_736:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_737
-
-LBB2_741:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_742:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_744
-	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c58f5c5; WORD $0x60f9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_744:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_745
-
-LBB2_749:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_750:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_752
-	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c5cf5c5; WORD $0x60f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_752:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_753
-
-LBB2_757:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_758:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_760
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_760:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_761
-
-LBB2_765:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_766:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_768
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_768:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_769
-
-LBB2_773:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_774:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_776
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_776:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_777
-
-LBB2_781:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_782:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_784
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_784:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_785
-
-LBB2_789:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_790:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_792
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_792:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_793
-
-LBB2_797:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_798:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_800
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_800:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_801
-
-LBB2_805:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_806:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_808
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_808:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_809
-
-LBB2_813:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_814:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_816
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_816:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_817
-
-LBB2_821:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_822:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_824
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_824:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_825
-
-LBB2_829:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_830:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_832
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_832:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_833
-
-LBB2_837:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_838:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_840
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x2079             // vpmullw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_840:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_841
-
-LBB2_845:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_846:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_848
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x2079             // vpmullw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_848:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_849
-
-LBB2_853:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_854:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_856
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x2079             // vpmullw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_856:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_857
-
-LBB2_861:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_862:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_864
-	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44d5fdc5; WORD $0x2079             // vpmullw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_864:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_865
-
-LBB2_869:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_870:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_872
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_872:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_873
-
-LBB2_877:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_878:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_880
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_880:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_881
-
-LBB2_885:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_886:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_888
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_888:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_889
-
-LBB2_893:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_894:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_896
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_896:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_897
-
-LBB2_901:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_902:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_904
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_904:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_905
-
-LBB2_909:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_910:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_912
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_912:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_913
-
-LBB2_917:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_918:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_920
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_920:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_921
-
-LBB2_925:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_926:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_928
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB2_928:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_929
-
-LBB2_933:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_934:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_936
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_936:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_937
-
-LBB2_941:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_942:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_944
-	LONG $0x1459f4c5; BYTE $0xb9               // vmulps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20b9             // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40b9             // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c59f4c5; WORD $0x60b9             // vmulps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_944:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_945
-
-LBB2_949:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_950:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_952
-	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
-	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
-	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_952:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_953
-
-LBB2_957:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_958:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_960
-	LONG $0x1459f4c5; BYTE $0xb9               // vmulps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c59f4c5; WORD $0x20b9             // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6459f4c5; WORD $0x40b9             // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c59f4c5; WORD $0x60b9             // vmulps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_960:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_961
-
-LBB2_965:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_966:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_968
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_968:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_969
-
-LBB2_973:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_974:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_976
-	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c58f4c5; WORD $0x60b9             // vaddps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_976:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_977
-
-LBB2_981:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_982:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_984
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_984:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_985
-
-LBB2_989:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_990:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_992
-	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c5cf4c5; WORD $0x60b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_992:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_993
-
-LBB2_997:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_998:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1000
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_1000:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1001
-
-LBB2_1005:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1006:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1008
-	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c58f4c5; WORD $0x60b9             // vaddps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_1008:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_1009
-
-LBB2_1013:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1014:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1016
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
-
-LBB2_1016:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1017
-
-LBB2_1021:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1022:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1024
-	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c5cf4c5; WORD $0x60b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_1024:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1109
-	JMP  LBB2_1025
-
-LBB2_1029:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1030:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1032
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_1032:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1033
-
-LBB2_1037:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1038:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1040
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_1040:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1041
-
-LBB2_1045:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1046:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1048
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_1048:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1049
-
-LBB2_1053:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1054:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1056
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
-
-LBB2_1056:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1057
-
-LBB2_1061:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1062:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1064
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb944; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_1064:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1065
-
-LBB2_1069:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1070:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1072
-	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x407de2c4; WORD $0xb944; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_1072:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1073
-
-LBB2_1077:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1078:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1080
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_1080:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1081
-
-LBB2_1085:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1086:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1088
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_1088:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1089
-
-LBB2_1093:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1094:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1096
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_1096:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1109
-	JMP  LBB2_1097
-
-LBB2_1101:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1102:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1104
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
-
-LBB2_1104:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB2_1105
-
-LBB2_1109:
-	VZEROUPPER
-	RET
-
-DATA LCDATA4<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x008(SB)/8, $0x3ff0000000000000
-DATA LCDATA4<>+0x010(SB)/8, $0x0000000000000001
-DATA LCDATA4<>+0x018(SB)/8, $0x7fffffffffffffff
-DATA LCDATA4<>+0x020(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x028(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x030(SB)/8, $0x000000000c080400
-DATA LCDATA4<>+0x038(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x040(SB)/8, $0x8000000000000001
-DATA LCDATA4<>+0x048(SB)/8, $0x000000007fffffff
-DATA LCDATA4<>+0x050(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x058(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x060(SB)/8, $0x0001000100010001
-DATA LCDATA4<>+0x068(SB)/8, $0x0001000100010001
-DATA LCDATA4<>+0x070(SB)/8, $0x0001000100010001
-DATA LCDATA4<>+0x078(SB)/8, $0x0001000100010001
-DATA LCDATA4<>+0x080(SB)/8, $0x0101010101010101
-DATA LCDATA4<>+0x088(SB)/8, $0x0101010101010101
-DATA LCDATA4<>+0x090(SB)/8, $0x0101010101010101
-DATA LCDATA4<>+0x098(SB)/8, $0x0101010101010101
-DATA LCDATA4<>+0x0a0(SB)/8, $0x0d0c090805040100
-DATA LCDATA4<>+0x0a8(SB)/8, $0x0f0e0d0c0d0c0908
-DATA LCDATA4<>+0x0b0(SB)/8, $0x1d1c191815141110
-DATA LCDATA4<>+0x0b8(SB)/8, $0x1f1e1d1c1d1c1918
-GLOBL LCDATA4<>(SB), 8, $192
-
-TEXT ·_arithmetic_unary_same_types_avx2(SB), $0-40
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ input+16(FP), DX
-	MOVQ output+24(FP), CX
-	MOVQ len+32(FP), R8
-	LEAQ LCDATA4<>(SB), BP
-
-	LONG $0x13fe8040         // cmp    sil, 19
-	JLE  LBB3_12
-	LONG $0x14fe8040         // cmp    sil, 20
-	JE   LBB3_22
-	LONG $0x19fe8040         // cmp    sil, 25
-	JE   LBB3_30
-	LONG $0x1afe8040         // cmp    sil, 26
-	JNE  LBB3_865
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_46
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_81
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_131
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_134
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB3_221
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_373
-
-LBB3_12:
-	LONG $0x04fe8040         // cmp    sil, 4
-	JE   LBB3_38
-	LONG $0x05fe8040         // cmp    sil, 5
-	JNE  LBB3_865
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_53
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_86
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_137
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_140
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_21
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_374
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_374
-
-LBB3_21:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_616:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_618
-
-LBB3_617:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_617
-
-LBB3_618:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_619:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_619
-	JMP  LBB3_865
-
-LBB3_22:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_60
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_91
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_143
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_146
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_29
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_377
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_377
-
-LBB3_29:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_380:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_382
-
-LBB3_381:
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x00b23c83         // cmp    dword [rdx + 4*rsi], 0
-	LONG $0xd7950f40         // setne    dil
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB3_381
-
-LBB3_382:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_383:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00b23c83             // cmp    dword [rdx + 4*rsi], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x04b27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 4], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x08b27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 8], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0cb27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 12], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_383
-	JMP  LBB3_865
-
-LBB3_30:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_67
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_96
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_149
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_152
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_37
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_384
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_384
-
-LBB3_37:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_624:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_626
-
-LBB3_625:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_625
-
-LBB3_626:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_627:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_627
-	JMP  LBB3_865
-
-LBB3_38:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_74
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_101
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_155
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_158
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_45
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_387
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_387
-
-LBB3_45:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_632:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_634
-
-LBB3_633:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_633
-
-LBB3_634:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_635:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_635
-	JMP  LBB3_865
-
-LBB3_46:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_106
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_161
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_164
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_52
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_390
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_390
-
-LBB3_52:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_640:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB3_643
-	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
-
-LBB3_642:
-	LONG $0x0c10fbc5; BYTE $0xf2 // vmovsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc857f1c5             // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c13f9c5; BYTE $0xf1 // vmovlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_642
-
-LBB3_643:
-	LONG $0x03f88348             // cmp    rax, 3
-	JB   LBB3_865
-	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
-
-LBB3_645:
-	LONG $0x0c10fbc5; BYTE $0xf2   // vmovsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c13f9c5; BYTE $0xf1   // vmovlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x4c10fbc5; WORD $0x08f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 8]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c13f9c5; WORD $0x08f1 // vmovlpd    qword [rcx + 8*rsi + 8], xmm1
-	LONG $0x4c10fbc5; WORD $0x10f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 16]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c13f9c5; WORD $0x10f1 // vmovlpd    qword [rcx + 8*rsi + 16], xmm1
-	LONG $0x4c10fbc5; WORD $0x18f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 24]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c13f9c5; WORD $0x18f1 // vmovlpd    qword [rcx + 8*rsi + 24], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_645
-	JMP  LBB3_865
-
-LBB3_53:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_111
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_167
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_170
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_59
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_393
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_393
-
-LBB3_59:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_650:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB3_653
-	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
-
-LBB3_652:
-	LONG $0x0c10fbc5; BYTE $0xf2 // vmovsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc857f1c5             // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c13f9c5; BYTE $0xf1 // vmovlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_652
-
-LBB3_653:
-	LONG $0x03f88348             // cmp    rax, 3
-	JB   LBB3_865
-	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
-
-LBB3_655:
-	LONG $0x0c10fbc5; BYTE $0xf2   // vmovsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c13f9c5; BYTE $0xf1   // vmovlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x4c10fbc5; WORD $0x08f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 8]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c13f9c5; WORD $0x08f1 // vmovlpd    qword [rcx + 8*rsi + 8], xmm1
-	LONG $0x4c10fbc5; WORD $0x10f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 16]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c13f9c5; WORD $0x10f1 // vmovlpd    qword [rcx + 8*rsi + 16], xmm1
-	LONG $0x4c10fbc5; WORD $0x18f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 24]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c13f9c5; WORD $0x18f1 // vmovlpd    qword [rcx + 8*rsi + 24], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_655
-	JMP  LBB3_865
-
-LBB3_60:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_116
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_173
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_176
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_66
-	LONG $0xc2348d48         // lea    rsi, [rdx + 8*rax]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_396
-	LONG $0xc1348d48         // lea    rsi, [rcx + 8*rax]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_396
-
-LBB3_66:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_399:
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7     // not    rdi
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB3_401
-	LONG $0x0410fbc5; BYTE $0xf2 // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x4d54f9c5; BYTE $0x20 // vandpd    xmm1, xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI3_1] */
-	LONG $0xc956e9c5             // vorpd    xmm1, xmm2, xmm1
-	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
-	LONG $0xc2c2fbc5; BYTE $0x00 // vcmpeqsd    xmm0, xmm0, xmm2
-	LONG $0xc155f9c5             // vandnpd    xmm0, xmm0, xmm1
-	LONG $0x0413f9c5; BYTE $0xf1 // vmovlpd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_401:
-	WORD $0x0148; BYTE $0xc7     // add    rdi, rax
-	JE   LBB3_865
-	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
-	LONG $0x4d12fbc5; BYTE $0x08 // vmovddup    xmm1, qword 8[rbp] /* [rip + .LCPI3_1] */
-	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
-
-LBB3_403:
-	LONG $0x1c10fbc5; BYTE $0xf2   // vmovsd    xmm3, qword [rdx + 8*rsi]
-	LONG $0xe054e1c5               // vandpd    xmm4, xmm3, xmm0
-	LONG $0xe456f1c5               // vorpd    xmm4, xmm1, xmm4
-	LONG $0xdac2e3c5; BYTE $0x00   // vcmpeqsd    xmm3, xmm3, xmm2
-	LONG $0xdc55e1c5               // vandnpd    xmm3, xmm3, xmm4
-	LONG $0x1c13f9c5; BYTE $0xf1   // vmovlpd    qword [rcx + 8*rsi], xmm3
-	LONG $0x5c10fbc5; WORD $0x08f2 // vmovsd    xmm3, qword [rdx + 8*rsi + 8]
-	LONG $0xe054e1c5               // vandpd    xmm4, xmm3, xmm0
-	LONG $0xe456f1c5               // vorpd    xmm4, xmm1, xmm4
-	LONG $0xdac2e3c5; BYTE $0x00   // vcmpeqsd    xmm3, xmm3, xmm2
-	LONG $0xdc55e1c5               // vandnpd    xmm3, xmm3, xmm4
-	LONG $0x5c13f9c5; WORD $0x08f1 // vmovlpd    qword [rcx + 8*rsi + 8], xmm3
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
-	JNE  LBB3_403
-	JMP  LBB3_865
-
-LBB3_67:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_121
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_179
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_182
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_73
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_404
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_404
-
-LBB3_73:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_660:
-	QUAD $0xffffffffffffba49; WORD $0x7fff // mov    r10, 9223372036854775807
-	WORD $0x8949; BYTE $0xf0               // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0               // not    r8
-	WORD $0x014d; BYTE $0xc8               // add    r8, r9
-	WORD $0x894c; BYTE $0xc8               // mov    rax, r9
-	LONG $0x03e08348                       // and    rax, 3
-	JE   LBB3_662
-
-LBB3_661:
-	LONG $0xf23c8b48         // mov    rdi, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd7 // and    rdi, r10
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB3_661
-
-LBB3_662:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_663:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_663
-	JMP  LBB3_865
-
-LBB3_74:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_126
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_185
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_188
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_80
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_407
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_407
-
-LBB3_80:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_668:
-	QUAD $0xffffffffffffba49; WORD $0x7fff // mov    r10, 9223372036854775807
-	WORD $0x8949; BYTE $0xf0               // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0               // not    r8
-	WORD $0x014d; BYTE $0xc8               // add    r8, r9
-	WORD $0x894c; BYTE $0xc8               // mov    rax, r9
-	LONG $0x03e08348                       // and    rax, 3
-	JE   LBB3_670
-
-LBB3_669:
-	LONG $0xf23c8b48         // mov    rdi, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd7 // and    rdi, r10
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB3_669
-
-LBB3_670:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_671:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_671
-	JMP  LBB3_865
-
-LBB3_81:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB3_191
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_85
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB3_410
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB3_410
-
-LBB3_85:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_676:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_678
-
-LBB3_677:
-	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_677
-
-LBB3_678:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_679:
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x2840; BYTE $0xc7     // sub    dil, al
-	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_679
-	JMP  LBB3_865
-
-LBB3_86:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB3_194
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_90
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB3_413
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB3_413
-
-LBB3_90:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_684:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_686
-
-LBB3_685:
-	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_685
-
-LBB3_686:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_687:
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x2840; BYTE $0xc7     // sub    dil, al
-	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_687
-	JMP  LBB3_865
-
-LBB3_91:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB3_197
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc3                   // mov    r11d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_95
-	LONG $0x1a348d4a                           // lea    rsi, [rdx + r11]
-	WORD $0x3948; BYTE $0xce                   // cmp    rsi, rcx
-	JBE  LBB3_416
-	LONG $0x19348d4a                           // lea    rsi, [rcx + r11]
-	WORD $0x3948; BYTE $0xd6                   // cmp    rsi, rdx
-	JBE  LBB3_416
-
-LBB3_95:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_419:
-	WORD $0x8949; BYTE $0xf2     // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2     // not    r10
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB3_421
-	LONG $0x32048a44             // mov    r8b, byte [rdx + rsi]
-	WORD $0x8445; BYTE $0xc0     // test    r8b, r8b
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8445; BYTE $0xc0     // test    r8b, r8b
-	LONG $0xc1b60f45             // movzx    r8d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf84e0f41             // cmovle    edi, r8d
-	LONG $0x313c8840             // mov    byte [rcx + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_421:
-	WORD $0x014d; BYTE $0xda     // add    r10, r11
-	JE   LBB3_865
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-
-LBB3_423:
-	LONG $0x04b60f44; BYTE $0x32   // movzx    r8d, byte [rdx + rsi]
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc7       // cmovg    eax, edi
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x44b60f44; WORD $0x0132 // movzx    r8d, byte [rdx + rsi + 1]
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc7       // cmovg    eax, edi
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB3_423
-	JMP  LBB3_865
-
-LBB3_96:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_200
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_100
-	LONG $0x12348d4a         // lea    rsi, [rdx + r10]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_424
-	LONG $0x11348d4a         // lea    rsi, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_424
-
-LBB3_100:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_427:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	LONG $0x01c2f641         // test    r10b, 1
-	JE   LBB3_429
-	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
-	WORD $0x8941; BYTE $0xf9 // mov    r9d, edi
-	LONG $0x07f9c141         // sar    r9d, 7
-	WORD $0x0144; BYTE $0xcf // add    edi, r9d
-	WORD $0x3144; BYTE $0xcf // xor    edi, r9d
-	LONG $0x313c8840         // mov    byte [rcx + rsi], dil
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_429:
-	WORD $0x014d; BYTE $0xd0 // add    r8, r10
-	JE   LBB3_865
-
-LBB3_430:
-	LONG $0x323cbe0f             // movsx    edi, byte [rdx + rsi]
-	WORD $0xf889                 // mov    eax, edi
-	WORD $0xf8c1; BYTE $0x07     // sar    eax, 7
-	WORD $0xc701                 // add    edi, eax
-	WORD $0xc731                 // xor    edi, eax
-	LONG $0x313c8840             // mov    byte [rcx + rsi], dil
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB3_430
-	JMP  LBB3_865
-
-LBB3_101:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_203
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_105
-	LONG $0x12348d4a         // lea    rsi, [rdx + r10]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_431
-	LONG $0x11348d4a         // lea    rsi, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_431
-
-LBB3_105:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_434:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	LONG $0x01c2f641         // test    r10b, 1
-	JE   LBB3_436
-	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
-	WORD $0x8941; BYTE $0xf9 // mov    r9d, edi
-	LONG $0x07f9c141         // sar    r9d, 7
-	WORD $0x0144; BYTE $0xcf // add    edi, r9d
-	WORD $0x3144; BYTE $0xcf // xor    edi, r9d
-	LONG $0x313c8840         // mov    byte [rcx + rsi], dil
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_436:
-	WORD $0x014d; BYTE $0xd0 // add    r8, r10
-	JE   LBB3_865
-
-LBB3_437:
-	LONG $0x323cbe0f             // movsx    edi, byte [rdx + rsi]
-	WORD $0xf889                 // mov    eax, edi
-	WORD $0xf8c1; BYTE $0x07     // sar    eax, 7
-	WORD $0xc701                 // add    edi, eax
-	WORD $0xc731                 // xor    edi, eax
-	LONG $0x313c8840             // mov    byte [rcx + rsi], dil
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB3_437
-	JMP  LBB3_865
-
-LBB3_106:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_206
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB3_265
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_444
-
-LBB3_111:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_209
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_115
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_445
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_445
-
-LBB3_115:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_692:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_694
-
-LBB3_693:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_693
-
-LBB3_694:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_695:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_695
-	JMP  LBB3_865
-
-LBB3_116:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_212
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_120
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_448
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_448
-
-LBB3_120:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_451:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_453
-
-LBB3_452:
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xf23c8348; BYTE $0x00 // cmp    qword [rdx + 8*rsi], 0
-	LONG $0xd7950f40             // setne    dil
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB3_452
-
-LBB3_453:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_454:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf23c8348; BYTE $0x00   // cmp    qword [rdx + 8*rsi], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf27c8348; WORD $0x0008 // cmp    qword [rdx + 8*rsi + 8], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf27c8348; WORD $0x0010 // cmp    qword [rdx + 8*rsi + 16], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf27c8348; WORD $0x0018 // cmp    qword [rdx + 8*rsi + 24], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_454
-	JMP  LBB3_865
-
-LBB3_121:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_215
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_125
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_455
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_455
-
-LBB3_125:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_700:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_702
-
-LBB3_701:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_701
-
-LBB3_702:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_703:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_703
-	JMP  LBB3_865
-
-LBB3_126:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_218
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_865
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_130
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_458
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_458
-
-LBB3_130:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_708:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_710
-
-LBB3_709:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_709
-
-LBB3_710:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_711:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_711
-	JMP  LBB3_865
-
-LBB3_131:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JAE  LBB3_279
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_467
-
-LBB3_134:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_136
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_468
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_468
-
-LBB3_136:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_716:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_718
-
-LBB3_717:
-	WORD $0xff31     // xor    edi, edi
-	LONG $0x723c2b66 // sub    di, word [rdx + 2*rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB3_717
-
-LBB3_718:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_719:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_719
-	JMP  LBB3_865
-
-LBB3_137:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_139
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_471
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_471
-
-LBB3_139:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_724:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_726
-
-LBB3_725:
-	WORD $0xff31     // xor    edi, edi
-	LONG $0x723c2b66 // sub    di, word [rdx + 2*rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB3_725
-
-LBB3_726:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_727:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_727
-	JMP  LBB3_865
-
-LBB3_140:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_142
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_474
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_474
-
-LBB3_142:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_732:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_734
-
-LBB3_733:
-	WORD $0xff31     // xor    edi, edi
-	LONG $0x723c2b66 // sub    di, word [rdx + 2*rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB3_733
-
-LBB3_734:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_735:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_735
-	JMP  LBB3_865
-
-LBB3_143:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_145
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_477
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_477
-
-LBB3_145:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_740:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_742
-
-LBB3_741:
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x723c8366; BYTE $0x00 // cmp    word [rdx + 2*rsi], 0
-	LONG $0xd7950f40             // setne    dil
-	LONG $0x713c8966             // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB3_741
-
-LBB3_742:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_743:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x723c8366; BYTE $0x00   // cmp    word [rdx + 2*rsi], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71048966               // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x727c8366; WORD $0x0002 // cmp    word [rdx + 2*rsi + 2], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71448966; BYTE $0x02   // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x727c8366; WORD $0x0004 // cmp    word [rdx + 2*rsi + 4], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71448966; BYTE $0x04   // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x727c8366; WORD $0x0006 // cmp    word [rdx + 2*rsi + 6], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71448966; BYTE $0x06   // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_743
-	JMP  LBB3_865
-
-LBB3_146:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_148
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_480
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_480
-
-LBB3_148:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_748:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB3_750
-	LONG $0x04b70f44; BYTE $0x72 // movzx    r8d, word [rdx + 2*rsi]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	LONG $0xc0854566             // test    r8w, r8w
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	LONG $0xc0854566             // test    r8w, r8w
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x713c8966             // mov    word [rcx + 2*rsi], di
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_750:
-	WORD $0x014c; BYTE $0xc8       // add    rax, r9
-	JE   LBB3_865
-	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
-
-LBB3_752:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xc04f0f41             // cmovg    eax, r8d
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	LONG $0xf84f0f41             // cmovg    edi, r8d
-	LONG $0x717c8966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], di
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_752
-	JMP  LBB3_865
-
-LBB3_149:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_151
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_483
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_483
-
-LBB3_151:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_598:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_600
-
-LBB3_599:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_599
-
-LBB3_600:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_601:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_601
-	JMP  LBB3_865
-
-LBB3_152:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_154
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_485
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_485
-
-LBB3_154:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_757:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_759
-	LONG $0x723cbf0f         // movsx    edi, word [rdx + 2*rsi]
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x0ff8c141         // sar    r8d, 15
-	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
-	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
-	LONG $0x713c8966         // mov    word [rcx + 2*rsi], di
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_759:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_865
-
-LBB3_760:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244bf0f; BYTE $0x02 // movsx    eax, word [rdx + 2*rsi + 2]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_760
-	JMP  LBB3_865
-
-LBB3_155:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_157
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_488
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_488
-
-LBB3_157:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_608:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_610
-
-LBB3_609:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_609
-
-LBB3_610:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_611:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_611
-	JMP  LBB3_865
-
-LBB3_158:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_160
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_490
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_490
-
-LBB3_160:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_765:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_767
-	LONG $0x723cbf0f         // movsx    edi, word [rdx + 2*rsi]
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x0ff8c141         // sar    r8d, 15
-	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
-	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
-	LONG $0x713c8966         // mov    word [rcx + 2*rsi], di
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_767:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_865
-
-LBB3_768:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244bf0f; BYTE $0x02 // movsx    eax, word [rdx + 2*rsi + 2]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_768
-	JMP  LBB3_865
-
-LBB3_161:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_163
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_493
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_493
-
-LBB3_163:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_773:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_775
-
-LBB3_774:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_774
-
-LBB3_775:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_776:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_776
-	JMP  LBB3_865
-
-LBB3_164:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_166
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_496
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_496
-
-LBB3_166:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_781:
-	WORD $0x8948; BYTE $0xf0       // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0       // not    rax
-	WORD $0x014c; BYTE $0xc8       // add    rax, r9
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03e78348               // and    rdi, 3
-	JE   LBB3_784
-	LONG $0x1879e2c4; WORD $0x4445 // vbroadcastss    xmm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_783:
-	LONG $0x0c10fac5; BYTE $0xb2 // vmovss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc857f1c5             // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c11fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_783
-
-LBB3_784:
-	LONG $0x03f88348               // cmp    rax, 3
-	JB   LBB3_865
-	LONG $0x1879e2c4; WORD $0x4445 // vbroadcastss    xmm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_786:
-	LONG $0x0c10fac5; BYTE $0xb2   // vmovss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c11fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm1
-	LONG $0x4c10fac5; WORD $0x04b2 // vmovss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c11fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm1
-	LONG $0x4c10fac5; WORD $0x08b2 // vmovss    xmm1, dword [rdx + 4*rsi + 8]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c11fac5; WORD $0x08b1 // vmovss    dword [rcx + 4*rsi + 8], xmm1
-	LONG $0x4c10fac5; WORD $0x0cb2 // vmovss    xmm1, dword [rdx + 4*rsi + 12]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c11fac5; WORD $0x0cb1 // vmovss    dword [rcx + 4*rsi + 12], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_786
-	JMP  LBB3_865
-
-LBB3_167:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_169
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_499
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_499
-
-LBB3_169:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_791:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_793
-
-LBB3_792:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_792
-
-LBB3_793:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_794:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_794
-	JMP  LBB3_865
-
-LBB3_170:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_172
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_502
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_502
-
-LBB3_172:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_799:
-	WORD $0x8948; BYTE $0xf0       // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0       // not    rax
-	WORD $0x014c; BYTE $0xc8       // add    rax, r9
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03e78348               // and    rdi, 3
-	JE   LBB3_802
-	LONG $0x1879e2c4; WORD $0x4445 // vbroadcastss    xmm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_801:
-	LONG $0x0c10fac5; BYTE $0xb2 // vmovss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc857f1c5             // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c11fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_801
-
-LBB3_802:
-	LONG $0x03f88348               // cmp    rax, 3
-	JB   LBB3_865
-	LONG $0x1879e2c4; WORD $0x4445 // vbroadcastss    xmm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_804:
-	LONG $0x0c10fac5; BYTE $0xb2   // vmovss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x0c11fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm1
-	LONG $0x4c10fac5; WORD $0x04b2 // vmovss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c11fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm1
-	LONG $0x4c10fac5; WORD $0x08b2 // vmovss    xmm1, dword [rdx + 4*rsi + 8]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c11fac5; WORD $0x08b1 // vmovss    dword [rcx + 4*rsi + 8], xmm1
-	LONG $0x4c10fac5; WORD $0x0cb2 // vmovss    xmm1, dword [rdx + 4*rsi + 12]
-	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
-	LONG $0x4c11fac5; WORD $0x0cb1 // vmovss    dword [rcx + 4*rsi + 12], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_804
-	JMP  LBB3_865
-
-LBB3_173:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc3 // mov    r11d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_175
-	LONG $0xda348d4a         // lea    rsi, [rdx + 8*r11]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_505
-	LONG $0xd9348d4a         // lea    rsi, [rcx + 8*r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_505
-
-LBB3_175:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_508:
-	WORD $0x8949; BYTE $0xf2     // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2     // not    r10
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB3_510
-	LONG $0xf2048b4c             // mov    r8, qword [rdx + 8*rsi]
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	WORD $0x854d; BYTE $0xc0     // test    r8, r8
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf749; BYTE $0xd9     // neg    r9
-	WORD $0x854d; BYTE $0xc0     // test    r8, r8
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f49             // cmovle    rdi, r9
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_510:
-	WORD $0x014d; BYTE $0xda       // add    r10, r11
-	JE   LBB3_865
-	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
-
-LBB3_512:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf84f0f49             // cmovg    rdi, r8
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf84f0f49             // cmovg    rdi, r8
-	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB3_512
-	JMP  LBB3_865
-
-LBB3_176:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_178
-	LONG $0x82348d48         // lea    rsi, [rdx + 4*rax]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_513
-	LONG $0x81348d48         // lea    rsi, [rcx + 4*rax]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_513
-
-LBB3_178:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_516:
-	WORD $0x8949; BYTE $0xf0     // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0     // not    r8
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB3_518
-	LONG $0x0410fac5; BYTE $0xb2 // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0xf850f8c5             // vmovmskps    edi, xmm0
-	WORD $0xe783; BYTE $0x01     // and    edi, 1
-	WORD $0xdff7                 // neg    edi
-	WORD $0xcf83; BYTE $0x01     // or    edi, 1
-	LONG $0xcf2aaac5             // vcvtsi2ss    xmm1, xmm10, edi
-	LONG $0xd257e8c5             // vxorps    xmm2, xmm2, xmm2
-	LONG $0xc2c2fac5; BYTE $0x00 // vcmpeqss    xmm0, xmm0, xmm2
-	LONG $0xc155f8c5             // vandnps    xmm0, xmm0, xmm1
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_518:
-	WORD $0x0149; BYTE $0xc0 // add    r8, rax
-	JE   LBB3_865
-	LONG $0xc057f8c5         // vxorps    xmm0, xmm0, xmm0
-
-LBB3_520:
-	LONG $0x0c10fac5; BYTE $0xb2   // vmovss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xf950f8c5               // vmovmskps    edi, xmm1
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	LONG $0xd72aaac5               // vcvtsi2ss    xmm2, xmm10, edi
-	LONG $0xc8c2f2c5; BYTE $0x00   // vcmpeqss    xmm1, xmm1, xmm0
-	LONG $0xca55f0c5               // vandnps    xmm1, xmm1, xmm2
-	LONG $0x0c11fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm1
-	LONG $0x4c10fac5; WORD $0x04b2 // vmovss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xf950f8c5               // vmovmskps    edi, xmm1
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	LONG $0xd72aaac5               // vcvtsi2ss    xmm2, xmm10, edi
-	LONG $0xc8c2f2c5; BYTE $0x00   // vcmpeqss    xmm1, xmm1, xmm0
-	LONG $0xca55f0c5               // vandnps    xmm1, xmm1, xmm2
-	LONG $0x4c11fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm1
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
-	JNE  LBB3_520
-	JMP  LBB3_865
-
-LBB3_179:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_181
-	LONG $0xd2348d4a         // lea    rsi, [rdx + 8*r10]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_521
-	LONG $0xd1348d4a         // lea    rsi, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_521
-
-LBB3_181:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_524:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	LONG $0x01c2f641         // test    r10b, 1
-	JE   LBB3_526
-	LONG $0xf2048b4c         // mov    r8, qword [rdx + 8*rsi]
-	WORD $0x894c; BYTE $0xc7 // mov    rdi, r8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	LONG $0xf84c0f49         // cmovl    rdi, r8
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_526:
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	JE   LBB3_865
-
-LBB3_527:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB3_527
-	JMP  LBB3_865
-
-LBB3_182:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_184
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_528
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_528
-
-LBB3_184:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_809:
-	WORD $0x8949; BYTE $0xf0       // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0       // not    r8
-	WORD $0x014d; BYTE $0xc8       // add    r8, r9
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03e78348               // and    rdi, 3
-	JE   LBB3_812
-	LONG $0xffffba41; WORD $0x7fff // mov    r10d, 2147483647
-
-LBB3_811:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2144; BYTE $0xd0 // and    eax, r10d
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_811
-
-LBB3_812:
-	LONG $0x03f88349             // cmp    r8, 3
-	JB   LBB3_865
-	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
-
-LBB3_814:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0xc721             // and    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b27c8b         // mov    edi, dword [rdx + 4*rsi + 4]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x08b27c8b         // mov    edi, dword [rdx + 4*rsi + 8]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x08b17c89         // mov    dword [rcx + 4*rsi + 8], edi
-	LONG $0x0cb27c8b         // mov    edi, dword [rdx + 4*rsi + 12]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x0cb17c89         // mov    dword [rcx + 4*rsi + 12], edi
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_814
-	JMP  LBB3_865
-
-LBB3_185:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_187
-	LONG $0xd2348d4a         // lea    rsi, [rdx + 8*r10]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_531
-	LONG $0xd1348d4a         // lea    rsi, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_531
-
-LBB3_187:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_534:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	LONG $0x01c2f641         // test    r10b, 1
-	JE   LBB3_536
-	LONG $0xf2048b4c         // mov    r8, qword [rdx + 8*rsi]
-	WORD $0x894c; BYTE $0xc7 // mov    rdi, r8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	LONG $0xf84c0f49         // cmovl    rdi, r8
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_536:
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	JE   LBB3_865
-
-LBB3_537:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB3_537
-	JMP  LBB3_865
-
-LBB3_188:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_190
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_538
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_538
-
-LBB3_190:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_819:
-	WORD $0x8949; BYTE $0xf0       // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0       // not    r8
-	WORD $0x014d; BYTE $0xc8       // add    r8, r9
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03e78348               // and    rdi, 3
-	JE   LBB3_822
-	LONG $0xffffba41; WORD $0x7fff // mov    r10d, 2147483647
-
-LBB3_821:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2144; BYTE $0xd0 // and    eax, r10d
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_821
-
-LBB3_822:
-	LONG $0x03f88349             // cmp    r8, 3
-	JB   LBB3_865
-	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
-
-LBB3_824:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0xc721             // and    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b27c8b         // mov    edi, dword [rdx + 4*rsi + 4]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x08b27c8b         // mov    edi, dword [rdx + 4*rsi + 8]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x08b17c89         // mov    dword [rcx + 4*rsi + 8], edi
-	LONG $0x0cb27c8b         // mov    edi, dword [rdx + 4*rsi + 12]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x0cb17c89         // mov    dword [rcx + 4*rsi + 12], edi
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_824
-	JMP  LBB3_865
-
-LBB3_191:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JAE  LBB3_338
-	WORD $0xd231                               // xor    edx, edx
-	JMP  LBB3_547
-
-LBB3_194:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_196
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB3_548
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB3_548
-
-LBB3_196:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_829:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_831
-
-LBB3_830:
-	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_830
-
-LBB3_831:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_832:
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x2840; BYTE $0xc7     // sub    dil, al
-	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_832
-	JMP  LBB3_865
-
-LBB3_197:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_199
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB3_551
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB3_551
-
-LBB3_199:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_554:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xcf // add    rdi, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB3_556
-
-LBB3_555:
-	LONG $0x00323c80 // cmp    byte [rdx + rsi], 0
-	LONG $0x3114950f // setne    byte [rcx + rsi]
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB3_555
-
-LBB3_556:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB3_865
-
-LBB3_557:
-	LONG $0x00323c80             // cmp    byte [rdx + rsi], 0
-	LONG $0x3114950f             // setne    byte [rcx + rsi]
-	LONG $0x01327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 1], 0
-	LONG $0x3154950f; BYTE $0x01 // setne    byte [rcx + rsi + 1]
-	LONG $0x02327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 2], 0
-	LONG $0x3154950f; BYTE $0x02 // setne    byte [rcx + rsi + 2]
-	LONG $0x03327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 3], 0
-	LONG $0x3154950f; BYTE $0x03 // setne    byte [rcx + rsi + 3]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_557
-	JMP  LBB3_865
-
-LBB3_200:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_202
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB3_558
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB3_558
-
-LBB3_202:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_837:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_839
-
-LBB3_838:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_838
-
-LBB3_839:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_840:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_840
-	JMP  LBB3_865
-
-LBB3_203:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB3_205
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB3_561
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB3_561
-
-LBB3_205:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_845:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_847
-
-LBB3_846:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_846
-
-LBB3_847:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_848:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_848
-	JMP  LBB3_865
-
-LBB3_206:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_208
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_564
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_564
-
-LBB3_208:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_853:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_855
-
-LBB3_854:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_854
-
-LBB3_855:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_856:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_856
-	JMP  LBB3_865
-
-LBB3_209:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_211
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_567
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_567
-
-LBB3_211:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_861:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_863
-
-LBB3_862:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_862
-
-LBB3_863:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_865
-
-LBB3_864:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_864
-	JMP  LBB3_865
-
-LBB3_212:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc3 // mov    r11d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_214
-	LONG $0x9a348d4a         // lea    rsi, [rdx + 4*r11]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_570
-	LONG $0x99348d4a         // lea    rsi, [rcx + 4*r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_570
-
-LBB3_214:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_573:
-	WORD $0x8949; BYTE $0xf2     // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2     // not    r10
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB3_575
-	LONG $0xb2048b44             // mov    r8d, dword [rdx + 4*rsi]
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	WORD $0x8545; BYTE $0xc0     // test    r8d, r8d
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf741; BYTE $0xd9     // neg    r9d
-	WORD $0x8545; BYTE $0xc0     // test    r8d, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	WORD $0x3c89; BYTE $0xb1     // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_575:
-	WORD $0x014d; BYTE $0xda       // add    r10, r11
-	JE   LBB3_865
-	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
-
-LBB3_577:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0xff31             // xor    edi, edi
-	WORD $0xc085             // test    eax, eax
-	LONG $0xd7950f40         // setne    dil
-	WORD $0xdff7             // neg    edi
-	WORD $0xc085             // test    eax, eax
-	LONG $0xf84f0f41         // cmovg    edi, r8d
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0xff31             // xor    edi, edi
-	WORD $0xc085             // test    eax, eax
-	LONG $0xd7950f40         // setne    dil
-	WORD $0xdff7             // neg    edi
-	WORD $0xc085             // test    eax, eax
-	LONG $0xf84f0f41         // cmovg    edi, r8d
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x02c68348         // add    rsi, 2
-	WORD $0x3949; BYTE $0xf3 // cmp    r11, rsi
-	JNE  LBB3_577
-	JMP  LBB3_865
-
-LBB3_215:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_217
-	LONG $0x92348d4a         // lea    rsi, [rdx + 4*r10]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_578
-	LONG $0x91348d4a         // lea    rsi, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_578
-
-LBB3_217:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_581:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	LONG $0x01c2f641         // test    r10b, 1
-	JE   LBB3_583
-	LONG $0xb2048b44         // mov    r8d, dword [rdx + 4*rsi]
-	WORD $0x8944; BYTE $0xc7 // mov    edi, r8d
-	WORD $0xdff7             // neg    edi
-	LONG $0xf84c0f41         // cmovl    edi, r8d
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_583:
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	JE   LBB3_865
-
-LBB3_584:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x02c68348         // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
-	JNE  LBB3_584
-	JMP  LBB3_865
-
-LBB3_218:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_865
-	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_220
-	LONG $0x92348d4a         // lea    rsi, [rdx + 4*r10]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_585
-	LONG $0x91348d4a         // lea    rsi, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_585
-
-LBB3_220:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_588:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	LONG $0x01c2f641         // test    r10b, 1
-	JE   LBB3_590
-	LONG $0xb2048b44         // mov    r8d, dword [rdx + 4*rsi]
-	WORD $0x8944; BYTE $0xc7 // mov    edi, r8d
-	WORD $0xdff7             // neg    edi
-	LONG $0xf84c0f41         // cmovl    edi, r8d
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_590:
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	JE   LBB3_865
-
-LBB3_591:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x02c68348         // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
-	JNE  LBB3_591
-	JMP  LBB3_865
-
-LBB3_221:
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0428d48         // lea    rax, [rdx - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0xfe89             // mov    esi, edi
-	WORD $0xe683; BYTE $0x03 // and    esi, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB3_367
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_369
-
-LBB3_265:
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0428d48         // lea    rax, [rdx - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0xfe89             // mov    esi, edi
-	WORD $0xe683; BYTE $0x03 // and    esi, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB3_438
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_440
-
-LBB3_279:
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	WORD $0xe283; BYTE $0xc0       // and    edx, -64
-	LONG $0xc0428d48               // lea    rax, [rdx - 64]
-	WORD $0x8948; BYTE $0xc7       // mov    rdi, rax
-	LONG $0x06efc148               // shr    rdi, 6
-	LONG $0x01c78348               // add    rdi, 1
-	WORD $0xfe89                   // mov    esi, edi
-	WORD $0xe683; BYTE $0x03       // and    esi, 3
-	LONG $0x00c03d48; WORD $0x0000 // cmp    rax, 192
-	JAE  LBB3_461
-	WORD $0xc031                   // xor    eax, eax
-	JMP  LBB3_463
-
-LBB3_338:
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	WORD $0xe283; BYTE $0x80       // and    edx, -128
-	LONG $0x80428d48               // lea    rax, [rdx - 128]
-	WORD $0x8948; BYTE $0xc7       // mov    rdi, rax
-	LONG $0x07efc148               // shr    rdi, 7
-	LONG $0x01c78348               // add    rdi, 1
-	WORD $0xfe89                   // mov    esi, edi
-	WORD $0xe683; BYTE $0x03       // and    esi, 3
-	LONG $0x01803d48; WORD $0x0000 // cmp    rax, 384
-	JAE  LBB3_541
-	WORD $0xc031                   // xor    eax, eax
-	JMP  LBB3_543
-
-LBB3_374:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_612
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_376:
-	LONG $0x0cfafdc5; BYTE $0xba         // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20ba       // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40ba       // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60ba       // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xb9         // vmovdqu    yword [rcx + 4*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20b9       // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40b9       // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x60b9       // vmovdqu    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfafdc5; BYTE $0x00 // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fafdc5; BYTE $0x00 // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfafdc5; BYTE $0x00 // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fafdc5; BYTE $0x00 // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_376
-	JMP  LBB3_613
-
-LBB3_377:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x587de2c4; WORD $0x404d // vpbroadcastd    ymm1, dword 64[rbp] /* [rip + .LCPI3_3] */
-
-LBB3_378:
-	LONG $0x1476fdc5; BYTE $0xba   // vpcmpeqd    ymm2, ymm0, yword [rdx + 4*rdi]
-	LONG $0xd1dfedc5               // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c76fdc5; WORD $0x20ba // vpcmpeqd    ymm3, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0xd9dfe5c5               // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6476fdc5; WORD $0x40ba // vpcmpeqd    ymm4, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x6c76fdc5; WORD $0x60ba // vpcmpeqd    ymm5, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0xe1dfddc5               // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5               // vpandn    ymm5, ymm5, ymm1
-	LONG $0x147ffec5; BYTE $0xb9   // vmovdqu    yword [rcx + 4*rdi], ymm2
-	LONG $0x5c7ffec5; WORD $0x20b9 // vmovdqu    yword [rcx + 4*rdi + 32], ymm3
-	LONG $0x647ffec5; WORD $0x40b9 // vmovdqu    yword [rcx + 4*rdi + 64], ymm4
-	LONG $0x6c7ffec5; WORD $0x60b9 // vmovdqu    yword [rcx + 4*rdi + 96], ymm5
-	LONG $0x20c78348               // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_378
-	WORD $0x394c; BYTE $0xce       // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_380
-
-LBB3_384:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_620
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_386:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_386
-	JMP  LBB3_621
-
-LBB3_387:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_628
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_389:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_389
-	JMP  LBB3_629
-
-LBB3_390:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_636
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_392:
-	LONG $0x0c57fdc5; BYTE $0xfa         // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5457fdc5; WORD $0x20fa       // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40fa       // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x6457fdc5; WORD $0x60fa       // vxorpd    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c57fdc5; BYTE $0x00 // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9457fdc5; BYTE $0x00 // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c57fdc5; BYTE $0x00 // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa457fdc5; BYTE $0x00 // vxorpd    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_392
-	JMP  LBB3_637
-
-LBB3_393:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_646
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_395:
-	LONG $0x0c57fdc5; BYTE $0xfa         // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5457fdc5; WORD $0x20fa       // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40fa       // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x6457fdc5; WORD $0x60fa       // vxorpd    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c57fdc5; BYTE $0x00 // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9457fdc5; BYTE $0x00 // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c57fdc5; BYTE $0x00 // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa457fdc5; BYTE $0x00 // vxorpd    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_395
-	JMP  LBB3_647
-
-LBB3_396:
-	WORD $0xc689                   // mov    esi, eax
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc057f9c5               // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x197de2c4; WORD $0x004d // vbroadcastsd    ymm1, qword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI3_1] */
-
-LBB3_397:
-	LONG $0x1c10fdc5; BYTE $0xfa   // vmovupd    ymm3, yword [rdx + 8*rdi]
-	LONG $0x6410fdc5; WORD $0x20fa // vmovupd    ymm4, yword [rdx + 8*rdi + 32]
-	LONG $0x6c10fdc5; WORD $0x40fa // vmovupd    ymm5, yword [rdx + 8*rdi + 64]
-	LONG $0x7410fdc5; WORD $0x60fa // vmovupd    ymm6, yword [rdx + 8*rdi + 96]
-	LONG $0xf954e5c5               // vandpd    ymm7, ymm3, ymm1
-	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
-	LONG $0xc1545dc5               // vandpd    ymm8, ymm4, ymm1
-	LONG $0xc2563dc5               // vorpd    ymm8, ymm8, ymm2
-	LONG $0xc95455c5               // vandpd    ymm9, ymm5, ymm1
-	LONG $0xca5635c5               // vorpd    ymm9, ymm9, ymm2
-	LONG $0xd1544dc5               // vandpd    ymm10, ymm6, ymm1
-	LONG $0xd2562dc5               // vorpd    ymm10, ymm10, ymm2
-	LONG $0xd8c2e5c5; BYTE $0x04   // vcmpneqpd    ymm3, ymm3, ymm0
-	LONG $0xdf54e5c5               // vandpd    ymm3, ymm3, ymm7
-	LONG $0xe0c2ddc5; BYTE $0x04   // vcmpneqpd    ymm4, ymm4, ymm0
-	LONG $0xe454bdc5               // vandpd    ymm4, ymm8, ymm4
-	LONG $0xe8c2d5c5; BYTE $0x04   // vcmpneqpd    ymm5, ymm5, ymm0
-	LONG $0xed54b5c5               // vandpd    ymm5, ymm9, ymm5
-	LONG $0xf0c2cdc5; BYTE $0x04   // vcmpneqpd    ymm6, ymm6, ymm0
-	LONG $0xf654adc5               // vandpd    ymm6, ymm10, ymm6
-	LONG $0x1c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm3
-	LONG $0x6411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm4
-	LONG $0x6c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm5
-	LONG $0x7411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm6
-	LONG $0x10c78348               // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_397
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JE   LBB3_865
-	JMP  LBB3_399
-
-LBB3_404:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_656
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x1845 // vbroadcastsd    ymm0, qword 24[rbp] /* [rip + .LCPI3_8] */
-
-LBB3_406:
-	LONG $0x0c54fdc5; BYTE $0xfa         // vandpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5454fdc5; WORD $0x20fa       // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40fa       // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x6454fdc5; WORD $0x60fa       // vandpd    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c54fdc5; BYTE $0x00 // vandpd    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9454fdc5; BYTE $0x00 // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c54fdc5; BYTE $0x00 // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa454fdc5; BYTE $0x00 // vandpd    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_406
-	JMP  LBB3_657
-
-LBB3_407:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_664
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x1845 // vbroadcastsd    ymm0, qword 24[rbp] /* [rip + .LCPI3_8] */
-
-LBB3_409:
-	LONG $0x0c54fdc5; BYTE $0xfa         // vandpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5454fdc5; WORD $0x20fa       // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40fa       // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x6454fdc5; WORD $0x60fa       // vandpd    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c54fdc5; BYTE $0x00 // vandpd    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9454fdc5; BYTE $0x00 // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c54fdc5; BYTE $0x00 // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa454fdc5; BYTE $0x00 // vandpd    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_409
-	JMP  LBB3_665
-
-LBB3_410:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_672
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_412:
-	LONG $0x0cf8fdc5; BYTE $0x3a               // vpsubb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54f8fdc5; WORD $0x203a             // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x403a             // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x603a             // vpsubb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2039             // vmovdqu    yword [rcx + rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4039             // vmovdqu    yword [rcx + rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x6039             // vmovdqu    yword [rcx + rdi + 96], ymm4
-	QUAD $0x0000803a8cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x000080398c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 128], ymm1
-	QUAD $0x0000a039947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 160], ymm2
-	QUAD $0x0000c0399c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 192], ymm3
-	QUAD $0x0000e039a47ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_412
-	JMP  LBB3_673
-
-LBB3_413:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_680
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_415:
-	LONG $0x0cf8fdc5; BYTE $0x3a               // vpsubb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54f8fdc5; WORD $0x203a             // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x403a             // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x603a             // vpsubb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2039             // vmovdqu    yword [rcx + rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4039             // vmovdqu    yword [rcx + rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x6039             // vmovdqu    yword [rcx + rdi + 96], ymm4
-	QUAD $0x0000803a8cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x000080398c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 128], ymm1
-	QUAD $0x0000a039947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 160], ymm2
-	QUAD $0x0000c0399c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 192], ymm3
-	QUAD $0x0000e039a47ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_415
-	JMP  LBB3_681
-
-LBB3_416:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00000080956ffdc5 // vmovdqa    ymm2, yword 128[rbp] /* [rip + .LCPI3_6] */
-
-LBB3_417:
-	LONG $0x1c6ffec5; BYTE $0x3a   // vmovdqu    ymm3, yword [rdx + rdi]
-	LONG $0x646ffec5; WORD $0x203a // vmovdqu    ymm4, yword [rdx + rdi + 32]
-	LONG $0x6c6ffec5; WORD $0x403a // vmovdqu    ymm5, yword [rdx + rdi + 64]
-	LONG $0x746ffec5; WORD $0x603a // vmovdqu    ymm6, yword [rdx + rdi + 96]
-	LONG $0xf874e5c5               // vpcmpeqb    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5               // vpxor    ymm7, ymm7, ymm1
-	LONG $0xc0745dc5               // vpcmpeqb    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5               // vpxor    ymm8, ymm8, ymm1
-	LONG $0xc87455c5               // vpcmpeqb    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5               // vpxor    ymm9, ymm9, ymm1
-	LONG $0xd0744dc5               // vpcmpeqb    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5               // vpxor    ymm10, ymm10, ymm1
-	LONG $0xdb64edc5               // vpcmpgtb    ymm3, ymm2, ymm3
-	LONG $0xe464edc5               // vpcmpgtb    ymm4, ymm2, ymm4
-	LONG $0xed64edc5               // vpcmpgtb    ymm5, ymm2, ymm5
-	LONG $0xf664edc5               // vpcmpgtb    ymm6, ymm2, ymm6
-	LONG $0x4c6de3c4; WORD $0x30df // vpblendvb    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4c6dc3c4; WORD $0x40e0 // vpblendvb    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4c6dc3c4; WORD $0x50e9 // vpblendvb    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4c6dc3c4; WORD $0x60f2 // vpblendvb    ymm6, ymm2, ymm10, ymm6
-	LONG $0x1c7ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm3
-	LONG $0x647ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm4
-	LONG $0x6c7ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm5
-	LONG $0x747ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm6
-	LONG $0x80ef8348               // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_417
-	WORD $0x394c; BYTE $0xde       // cmp    rsi, r11
-	JE   LBB3_865
-	JMP  LBB3_419
-
-LBB3_424:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x30 // vmovdqa    xmm0, oword 48[rbp] /* [rip + .LCPI3_11] */
-
-LBB3_425:
-	LONG $0x217de2c4; WORD $0x3a0c             // vpmovsxbd    ymm1, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbd    ymm2, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x10 // vpmovsxbd    ymm3, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a64; BYTE $0x18 // vpmovsxbd    ymm4, qword [rdx + rdi + 24]
-	LONG $0xe172d5c5; BYTE $0x07               // vpsrad    ymm5, ymm1, 7
-	LONG $0xe272cdc5; BYTE $0x07               // vpsrad    ymm6, ymm2, 7
-	LONG $0xe372c5c5; BYTE $0x07               // vpsrad    ymm7, ymm3, 7
-	LONG $0xe472bdc5; BYTE $0x07               // vpsrad    ymm8, ymm4, 7
-	LONG $0xc9fed5c5                           // vpaddd    ymm1, ymm5, ymm1
-	LONG $0xd2fecdc5                           // vpaddd    ymm2, ymm6, ymm2
-	LONG $0xdbfec5c5                           // vpaddd    ymm3, ymm7, ymm3
-	LONG $0xe4febdc5                           // vpaddd    ymm4, ymm8, ymm4
-	LONG $0xcdeff5c5                           // vpxor    ymm1, ymm1, ymm5
-	LONG $0xd6efedc5                           // vpxor    ymm2, ymm2, ymm6
-	LONG $0xdfefe5c5                           // vpxor    ymm3, ymm3, ymm7
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01cd             // vextracti128    xmm5, ymm1, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8               // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xcd62f1c5                           // vpunpckldq    xmm1, xmm1, xmm5
-	LONG $0x397de3c4; WORD $0x01d5             // vextracti128    xmm5, ymm2, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0069e2c4; BYTE $0xd0               // vpshufb    xmm2, xmm2, xmm0
-	LONG $0xd562e9c5                           // vpunpckldq    xmm2, xmm2, xmm5
-	LONG $0x397de3c4; WORD $0x01dd             // vextracti128    xmm5, ymm3, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8               // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xdd62e1c5                           // vpunpckldq    xmm3, xmm3, xmm5
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0059e2c4; BYTE $0xe0               // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xe562d9c5                           // vpunpckldq    xmm4, xmm4, xmm5
-	LONG $0x3865e3c4; WORD $0x01dc             // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                           // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9             // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB3_425
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB3_865
-	JMP  LBB3_427
-
-LBB3_431:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x30 // vmovdqa    xmm0, oword 48[rbp] /* [rip + .LCPI3_11] */
-
-LBB3_432:
-	LONG $0x217de2c4; WORD $0x3a0c             // vpmovsxbd    ymm1, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbd    ymm2, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x10 // vpmovsxbd    ymm3, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a64; BYTE $0x18 // vpmovsxbd    ymm4, qword [rdx + rdi + 24]
-	LONG $0xe172d5c5; BYTE $0x07               // vpsrad    ymm5, ymm1, 7
-	LONG $0xe272cdc5; BYTE $0x07               // vpsrad    ymm6, ymm2, 7
-	LONG $0xe372c5c5; BYTE $0x07               // vpsrad    ymm7, ymm3, 7
-	LONG $0xe472bdc5; BYTE $0x07               // vpsrad    ymm8, ymm4, 7
-	LONG $0xc9fed5c5                           // vpaddd    ymm1, ymm5, ymm1
-	LONG $0xd2fecdc5                           // vpaddd    ymm2, ymm6, ymm2
-	LONG $0xdbfec5c5                           // vpaddd    ymm3, ymm7, ymm3
-	LONG $0xe4febdc5                           // vpaddd    ymm4, ymm8, ymm4
-	LONG $0xcdeff5c5                           // vpxor    ymm1, ymm1, ymm5
-	LONG $0xd6efedc5                           // vpxor    ymm2, ymm2, ymm6
-	LONG $0xdfefe5c5                           // vpxor    ymm3, ymm3, ymm7
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01cd             // vextracti128    xmm5, ymm1, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8               // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xcd62f1c5                           // vpunpckldq    xmm1, xmm1, xmm5
-	LONG $0x397de3c4; WORD $0x01d5             // vextracti128    xmm5, ymm2, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0069e2c4; BYTE $0xd0               // vpshufb    xmm2, xmm2, xmm0
-	LONG $0xd562e9c5                           // vpunpckldq    xmm2, xmm2, xmm5
-	LONG $0x397de3c4; WORD $0x01dd             // vextracti128    xmm5, ymm3, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8               // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xdd62e1c5                           // vpunpckldq    xmm3, xmm3, xmm5
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
-	LONG $0x0059e2c4; BYTE $0xe0               // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xe562d9c5                           // vpunpckldq    xmm4, xmm4, xmm5
-	LONG $0x3865e3c4; WORD $0x01dc             // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                           // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9             // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB3_432
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB3_865
-	JMP  LBB3_434
-
-LBB3_445:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_688
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_447:
-	LONG $0x0cfbfdc5; BYTE $0xfa         // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20fa       // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40fa       // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60fa       // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xf9         // vmovdqu    yword [rcx + 8*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20f9       // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40f9       // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x60f9       // vmovdqu    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cfbfdc5; BYTE $0x00 // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94fbfdc5; BYTE $0x00 // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cfbfdc5; BYTE $0x00 // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4fbfdc5; BYTE $0x00 // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_447
-	JMP  LBB3_689
-
-LBB3_448:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x597de2c4; WORD $0x104d // vpbroadcastq    ymm1, qword 16[rbp] /* [rip + .LCPI3_4] */
-
-LBB3_449:
-	LONG $0x297de2c4; WORD $0xfa14             // vpcmpeqq    ymm2, ymm0, yword [rdx + 8*rdi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x297de2c4; WORD $0xfa5c; BYTE $0x20 // vpcmpeqq    ymm3, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x297de2c4; WORD $0xfa64; BYTE $0x40 // vpcmpeqq    ymm4, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x297de2c4; WORD $0xfa6c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x147ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm2
-	LONG $0x5c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm3
-	LONG $0x647ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm4
-	LONG $0x6c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm5
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB3_449
-	WORD $0x394c; BYTE $0xce                   // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_451
-
-LBB3_455:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_696
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_457:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_457
-	JMP  LBB3_697
-
-LBB3_458:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_704
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_460:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_460
-	JMP  LBB3_705
-
-LBB3_468:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_712
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_470:
-	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x207a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x407a // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x607a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x4c7ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm1
-	LONG $0x547ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm2
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_470
-	JMP  LBB3_713
-
-LBB3_471:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_720
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_473:
-	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x207a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x407a // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x607a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x4c7ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm1
-	LONG $0x547ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm2
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_473
-	JMP  LBB3_721
-
-LBB3_474:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_728
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_476:
-	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x207a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x407a // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x607a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x4c7ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm1
-	LONG $0x547ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm2
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_476
-	JMP  LBB3_729
-
-LBB3_477:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_736
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x4d6ffdc5; BYTE $0x60 // vmovdqa    ymm1, yword 96[rbp] /* [rip + .LCPI3_5] */
-
-LBB3_479:
-	LONG $0x1475fdc5; BYTE $0x7a   // vpcmpeqw    ymm2, ymm0, yword [rdx + 2*rdi]
-	LONG $0xd1dfedc5               // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c75fdc5; WORD $0x207a // vpcmpeqw    ymm3, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0xd9dfe5c5               // vpandn    ymm3, ymm3, ymm1
-	LONG $0x147ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm2
-	LONG $0x5c7ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm3
-	LONG $0x5475fdc5; WORD $0x407a // vpcmpeqw    ymm2, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0xd1dfedc5               // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c75fdc5; WORD $0x607a // vpcmpeqw    ymm3, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0xd9dfe5c5               // vpandn    ymm3, ymm3, ymm1
-	LONG $0x547ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_479
-	JMP  LBB3_737
-
-LBB3_480:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_744
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ffdc5; BYTE $0x60 // vmovdqa    ymm2, yword 96[rbp] /* [rip + .LCPI3_5] */
-
-LBB3_482:
-	LONG $0x1c6ffec5; BYTE $0x7a   // vmovdqu    ymm3, yword [rdx + 2*rdi]
-	LONG $0x646ffec5; WORD $0x207a // vmovdqu    ymm4, yword [rdx + 2*rdi + 32]
-	LONG $0xe875e5c5               // vpcmpeqw    ymm5, ymm3, ymm0
-	LONG $0xe9efd5c5               // vpxor    ymm5, ymm5, ymm1
-	LONG $0xf075ddc5               // vpcmpeqw    ymm6, ymm4, ymm0
-	LONG $0xf1efcdc5               // vpxor    ymm6, ymm6, ymm1
-	LONG $0xdb65edc5               // vpcmpgtw    ymm3, ymm2, ymm3
-	LONG $0xe465edc5               // vpcmpgtw    ymm4, ymm2, ymm4
-	LONG $0x4c6de3c4; WORD $0x30dd // vpblendvb    ymm3, ymm2, ymm5, ymm3
-	LONG $0x4c6de3c4; WORD $0x40e6 // vpblendvb    ymm4, ymm2, ymm6, ymm4
-	LONG $0x1c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm3
-	LONG $0x647ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm4
-	LONG $0x5c6ffec5; WORD $0x407a // vmovdqu    ymm3, yword [rdx + 2*rdi + 64]
-	LONG $0x646ffec5; WORD $0x607a // vmovdqu    ymm4, yword [rdx + 2*rdi + 96]
-	LONG $0xe875e5c5               // vpcmpeqw    ymm5, ymm3, ymm0
-	LONG $0xe9efd5c5               // vpxor    ymm5, ymm5, ymm1
-	LONG $0xf075ddc5               // vpcmpeqw    ymm6, ymm4, ymm0
-	LONG $0xf1efcdc5               // vpxor    ymm6, ymm6, ymm1
-	LONG $0xdb65edc5               // vpcmpgtw    ymm3, ymm2, ymm3
-	LONG $0xe465edc5               // vpcmpgtw    ymm4, ymm2, ymm4
-	LONG $0x4c6de3c4; WORD $0x30dd // vpblendvb    ymm3, ymm2, ymm5, ymm3
-	LONG $0x4c6de3c4; WORD $0x40e6 // vpblendvb    ymm4, ymm2, ymm6, ymm4
-	LONG $0x5c7ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm4
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_482
-	JMP  LBB3_745
-
-LBB3_483:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB3_592
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_594
-
-LBB3_485:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_753
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI3_10] */
-
-LBB3_487:
-	LONG $0x237de2c4; WORD $0x7a0c             // vpmovsxwd    ymm1, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 16]
-	LONG $0xe272e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm2, 15
-	LONG $0xe172ddc5; BYTE $0x0f               // vpsrad    ymm4, ymm1, 15
-	LONG $0xc9feddc5                           // vpaddd    ymm1, ymm4, ymm1
-	LONG $0xd2fee5c5                           // vpaddd    ymm2, ymm3, ymm2
-	LONG $0xd3efedc5                           // vpxor    ymm2, ymm2, ymm3
-	LONG $0xcceff5c5                           // vpxor    ymm1, ymm1, ymm4
-	LONG $0x0075e2c4; BYTE $0xc8               // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0               // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2             // vpermq    ymm2, ymm2, 232
-	LONG $0x547ffac5; WORD $0x1079             // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x0c7ffac5; BYTE $0x79               // vmovdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x20 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 48]
-	LONG $0xe272e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm2, 15
-	LONG $0xe172ddc5; BYTE $0x0f               // vpsrad    ymm4, ymm1, 15
-	LONG $0xc9feddc5                           // vpaddd    ymm1, ymm4, ymm1
-	LONG $0xd2fee5c5                           // vpaddd    ymm2, ymm3, ymm2
-	LONG $0xd3efedc5                           // vpxor    ymm2, ymm2, ymm3
-	LONG $0xcceff5c5                           // vpxor    ymm1, ymm1, ymm4
-	LONG $0x0075e2c4; BYTE $0xc8               // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0               // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2             // vpermq    ymm2, ymm2, 232
-	LONG $0x547ffac5; WORD $0x3079             // vmovdqu    oword [rcx + 2*rdi + 48], xmm2
-	LONG $0x4c7ffac5; WORD $0x2079             // vmovdqu    oword [rcx + 2*rdi + 32], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_487
-	JMP  LBB3_754
-
-LBB3_488:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB3_602
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_604
-
-LBB3_490:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_761
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI3_10] */
-
-LBB3_492:
-	LONG $0x237de2c4; WORD $0x7a0c             // vpmovsxwd    ymm1, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 16]
-	LONG $0xe272e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm2, 15
-	LONG $0xe172ddc5; BYTE $0x0f               // vpsrad    ymm4, ymm1, 15
-	LONG $0xc9feddc5                           // vpaddd    ymm1, ymm4, ymm1
-	LONG $0xd2fee5c5                           // vpaddd    ymm2, ymm3, ymm2
-	LONG $0xd3efedc5                           // vpxor    ymm2, ymm2, ymm3
-	LONG $0xcceff5c5                           // vpxor    ymm1, ymm1, ymm4
-	LONG $0x0075e2c4; BYTE $0xc8               // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0               // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2             // vpermq    ymm2, ymm2, 232
-	LONG $0x547ffac5; WORD $0x1079             // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x0c7ffac5; BYTE $0x79               // vmovdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x20 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 48]
-	LONG $0xe272e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm2, 15
-	LONG $0xe172ddc5; BYTE $0x0f               // vpsrad    ymm4, ymm1, 15
-	LONG $0xc9feddc5                           // vpaddd    ymm1, ymm4, ymm1
-	LONG $0xd2fee5c5                           // vpaddd    ymm2, ymm3, ymm2
-	LONG $0xd3efedc5                           // vpxor    ymm2, ymm2, ymm3
-	LONG $0xcceff5c5                           // vpxor    ymm1, ymm1, ymm4
-	LONG $0x0075e2c4; BYTE $0xc8               // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0               // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2             // vpermq    ymm2, ymm2, 232
-	LONG $0x547ffac5; WORD $0x3079             // vmovdqu    oword [rcx + 2*rdi + 48], xmm2
-	LONG $0x4c7ffac5; WORD $0x2079             // vmovdqu    oword [rcx + 2*rdi + 32], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_492
-	JMP  LBB3_762
-
-LBB3_493:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_769
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_495:
-	LONG $0x0cfbfdc5; BYTE $0xfa         // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20fa       // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40fa       // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60fa       // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xf9         // vmovdqu    yword [rcx + 8*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20f9       // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40f9       // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x60f9       // vmovdqu    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cfbfdc5; BYTE $0x00 // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94fbfdc5; BYTE $0x00 // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cfbfdc5; BYTE $0x00 // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4fbfdc5; BYTE $0x00 // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_495
-	JMP  LBB3_770
-
-LBB3_496:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	LONG $0xe0468d48               // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x05e8c149               // shr    r8, 5
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_777
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x187de2c4; WORD $0x4445 // vbroadcastss    ymm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_498:
-	LONG $0x0c57fdc5; BYTE $0xba         // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5457fdc5; WORD $0x20ba       // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40ba       // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x6457fdc5; WORD $0x60ba       // vxorpd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9         // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9       // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9       // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60b9       // vmovupd    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c57fdc5; BYTE $0x00 // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9457fdc5; BYTE $0x00 // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c57fdc5; BYTE $0x00 // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa457fdc5; BYTE $0x00 // vxorpd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_498
-	JMP  LBB3_778
-
-LBB3_499:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_787
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_501:
-	LONG $0x0cfbfdc5; BYTE $0xfa         // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20fa       // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40fa       // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60fa       // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xf9         // vmovdqu    yword [rcx + 8*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20f9       // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40f9       // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x60f9       // vmovdqu    yword [rcx + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cfbfdc5; BYTE $0x00 // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94fbfdc5; BYTE $0x00 // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cfbfdc5; BYTE $0x00 // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4fbfdc5; BYTE $0x00 // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_501
-	JMP  LBB3_788
-
-LBB3_502:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	LONG $0xe0468d48               // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x05e8c149               // shr    r8, 5
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_795
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x187de2c4; WORD $0x4445 // vbroadcastss    ymm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_504:
-	LONG $0x0c57fdc5; BYTE $0xba         // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5457fdc5; WORD $0x20ba       // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40ba       // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x6457fdc5; WORD $0x60ba       // vxorpd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9         // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9       // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9       // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60b9       // vmovupd    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c57fdc5; BYTE $0x00 // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9457fdc5; BYTE $0x00 // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c57fdc5; BYTE $0x00 // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa457fdc5; BYTE $0x00 // vxorpd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_504
-	JMP  LBB3_796
-
-LBB3_505:
-	WORD $0x8944; BYTE $0xde       // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x597de2c4; WORD $0x1055 // vpbroadcastq    ymm2, qword 16[rbp] /* [rip + .LCPI3_4] */
-
-LBB3_506:
-	LONG $0x1c6ffec5; BYTE $0xfa   // vmovdqu    ymm3, yword [rdx + 8*rdi]
-	LONG $0x646ffec5; WORD $0x20fa // vmovdqu    ymm4, yword [rdx + 8*rdi + 32]
-	LONG $0x6c6ffec5; WORD $0x40fa // vmovdqu    ymm5, yword [rdx + 8*rdi + 64]
-	LONG $0x746ffec5; WORD $0x60fa // vmovdqu    ymm6, yword [rdx + 8*rdi + 96]
-	LONG $0x2965e2c4; BYTE $0xf8   // vpcmpeqq    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5               // vpxor    ymm7, ymm7, ymm1
-	LONG $0x295d62c4; BYTE $0xc0   // vpcmpeqq    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5               // vpxor    ymm8, ymm8, ymm1
-	LONG $0x295562c4; BYTE $0xc8   // vpcmpeqq    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5               // vpxor    ymm9, ymm9, ymm1
-	LONG $0x294d62c4; BYTE $0xd0   // vpcmpeqq    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5               // vpxor    ymm10, ymm10, ymm1
-	LONG $0x376de2c4; BYTE $0xdb   // vpcmpgtq    ymm3, ymm2, ymm3
-	LONG $0x376de2c4; BYTE $0xe4   // vpcmpgtq    ymm4, ymm2, ymm4
-	LONG $0x376de2c4; BYTE $0xed   // vpcmpgtq    ymm5, ymm2, ymm5
-	LONG $0x376de2c4; BYTE $0xf6   // vpcmpgtq    ymm6, ymm2, ymm6
-	LONG $0x4b6de3c4; WORD $0x30df // vblendvpd    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4b6dc3c4; WORD $0x40e0 // vblendvpd    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4b6dc3c4; WORD $0x50e9 // vblendvpd    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4b6dc3c4; WORD $0x60f2 // vblendvpd    ymm6, ymm2, ymm10, ymm6
-	LONG $0x1c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm3
-	LONG $0x6411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm4
-	LONG $0x6c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm5
-	LONG $0x7411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm6
-	LONG $0x10c78348               // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_506
-	WORD $0x394c; BYTE $0xde       // cmp    rsi, r11
-	JE   LBB3_865
-	JMP  LBB3_508
-
-LBB3_513:
-	WORD $0xc689                   // mov    esi, eax
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc057f8c5               // vxorps    xmm0, xmm0, xmm0
-	LONG $0x587de2c4; WORD $0x404d // vpbroadcastd    ymm1, dword 64[rbp] /* [rip + .LCPI3_3] */
-
-LBB3_514:
-	LONG $0x146ffec5; BYTE $0xba   // vmovdqu    ymm2, yword [rdx + 4*rdi]
-	LONG $0x5c6ffec5; WORD $0x20ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 32]
-	LONG $0x646ffec5; WORD $0x40ba // vmovdqu    ymm4, yword [rdx + 4*rdi + 64]
-	LONG $0x6c6ffec5; WORD $0x60ba // vmovdqu    ymm5, yword [rdx + 4*rdi + 96]
-	LONG $0xe272cdc5; BYTE $0x1f   // vpsrad    ymm6, ymm2, 31
-	LONG $0xf1ebcdc5               // vpor    ymm6, ymm6, ymm1
-	LONG $0xe372c5c5; BYTE $0x1f   // vpsrad    ymm7, ymm3, 31
-	LONG $0xf9ebc5c5               // vpor    ymm7, ymm7, ymm1
-	LONG $0xe472bdc5; BYTE $0x1f   // vpsrad    ymm8, ymm4, 31
-	LONG $0xc1eb3dc5               // vpor    ymm8, ymm8, ymm1
-	LONG $0xe572b5c5; BYTE $0x1f   // vpsrad    ymm9, ymm5, 31
-	LONG $0xc9eb35c5               // vpor    ymm9, ymm9, ymm1
-	LONG $0xf65bfcc5               // vcvtdq2ps    ymm6, ymm6
-	LONG $0xff5bfcc5               // vcvtdq2ps    ymm7, ymm7
-	LONG $0x5b7c41c4; BYTE $0xc0   // vcvtdq2ps    ymm8, ymm8
-	LONG $0x5b7c41c4; BYTE $0xc9   // vcvtdq2ps    ymm9, ymm9
-	LONG $0xd0c2ecc5; BYTE $0x04   // vcmpneqps    ymm2, ymm2, ymm0
-	LONG $0xd654ecc5               // vandps    ymm2, ymm2, ymm6
-	LONG $0xd8c2e4c5; BYTE $0x04   // vcmpneqps    ymm3, ymm3, ymm0
-	LONG $0xdf54e4c5               // vandps    ymm3, ymm3, ymm7
-	LONG $0xe0c2dcc5; BYTE $0x04   // vcmpneqps    ymm4, ymm4, ymm0
-	LONG $0xe454bcc5               // vandps    ymm4, ymm8, ymm4
-	LONG $0xe8c2d4c5; BYTE $0x04   // vcmpneqps    ymm5, ymm5, ymm0
-	LONG $0xed54b4c5               // vandps    ymm5, ymm9, ymm5
-	LONG $0x1411fcc5; BYTE $0xb9   // vmovups    yword [rcx + 4*rdi], ymm2
-	LONG $0x5c11fcc5; WORD $0x20b9 // vmovups    yword [rcx + 4*rdi + 32], ymm3
-	LONG $0x6411fcc5; WORD $0x40b9 // vmovups    yword [rcx + 4*rdi + 64], ymm4
-	LONG $0x6c11fcc5; WORD $0x60b9 // vmovups    yword [rcx + 4*rdi + 96], ymm5
-	LONG $0x20c78348               // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_514
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JE   LBB3_865
-	JMP  LBB3_516
-
-LBB3_521:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_522:
-	LONG $0x0c6ffec5; BYTE $0xfa   // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0xe1fbfdc5               // vpsubq    ymm4, ymm0, ymm1
-	LONG $0x4b75e3c4; WORD $0x10cc // vblendvpd    ymm1, ymm1, ymm4, ymm1
-	LONG $0x646ffec5; WORD $0x60fa // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xeafbfdc5               // vpsubq    ymm5, ymm0, ymm2
-	LONG $0x4b6de3c4; WORD $0x20d5 // vblendvpd    ymm2, ymm2, ymm5, ymm2
-	LONG $0xebfbfdc5               // vpsubq    ymm5, ymm0, ymm3
-	LONG $0x4b65e3c4; WORD $0x30dd // vblendvpd    ymm3, ymm3, ymm5, ymm3
-	LONG $0xecfbfdc5               // vpsubq    ymm5, ymm0, ymm4
-	LONG $0x4b5de3c4; WORD $0x40e5 // vblendvpd    ymm4, ymm4, ymm5, ymm4
-	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	LONG $0x10c78348               // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_522
-	WORD $0x394c; BYTE $0xd6       // cmp    rsi, r10
-	JE   LBB3_865
-	JMP  LBB3_524
-
-LBB3_528:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	LONG $0xe0468d48               // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x05e8c149               // shr    r8, 5
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_805
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x187de2c4; WORD $0x4845 // vbroadcastss    ymm0, dword 72[rbp] /* [rip + .LCPI3_9] */
-
-LBB3_530:
-	LONG $0x0c54fdc5; BYTE $0xba         // vandpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5454fdc5; WORD $0x20ba       // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40ba       // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x6454fdc5; WORD $0x60ba       // vandpd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9         // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9       // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9       // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60b9       // vmovupd    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c54fdc5; BYTE $0x00 // vandpd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9454fdc5; BYTE $0x00 // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c54fdc5; BYTE $0x00 // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa454fdc5; BYTE $0x00 // vandpd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_530
-	JMP  LBB3_806
-
-LBB3_531:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_532:
-	LONG $0x0c6ffec5; BYTE $0xfa   // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0xe1fbfdc5               // vpsubq    ymm4, ymm0, ymm1
-	LONG $0x4b75e3c4; WORD $0x10cc // vblendvpd    ymm1, ymm1, ymm4, ymm1
-	LONG $0x646ffec5; WORD $0x60fa // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xeafbfdc5               // vpsubq    ymm5, ymm0, ymm2
-	LONG $0x4b6de3c4; WORD $0x20d5 // vblendvpd    ymm2, ymm2, ymm5, ymm2
-	LONG $0xebfbfdc5               // vpsubq    ymm5, ymm0, ymm3
-	LONG $0x4b65e3c4; WORD $0x30dd // vblendvpd    ymm3, ymm3, ymm5, ymm3
-	LONG $0xecfbfdc5               // vpsubq    ymm5, ymm0, ymm4
-	LONG $0x4b5de3c4; WORD $0x40e5 // vblendvpd    ymm4, ymm4, ymm5, ymm4
-	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	LONG $0x10c78348               // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_532
-	WORD $0x394c; BYTE $0xd6       // cmp    rsi, r10
-	JE   LBB3_865
-	JMP  LBB3_534
-
-LBB3_538:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	LONG $0xe0468d48               // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x05e8c149               // shr    r8, 5
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB3_815
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x187de2c4; WORD $0x4845 // vbroadcastss    ymm0, dword 72[rbp] /* [rip + .LCPI3_9] */
-
-LBB3_540:
-	LONG $0x0c54fdc5; BYTE $0xba         // vandpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5454fdc5; WORD $0x20ba       // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40ba       // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x6454fdc5; WORD $0x60ba       // vandpd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9         // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9       // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9       // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60b9       // vmovupd    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c54fdc5; BYTE $0x00 // vandpd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9454fdc5; BYTE $0x00 // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c54fdc5; BYTE $0x00 // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa454fdc5; BYTE $0x00 // vandpd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_540
-	JMP  LBB3_816
-
-LBB3_548:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_825
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_550:
-	LONG $0x0cf8fdc5; BYTE $0x3a               // vpsubb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54f8fdc5; WORD $0x203a             // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x403a             // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x603a             // vpsubb    ymm4, ymm0, yword [rdx + rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2039             // vmovdqu    yword [rcx + rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4039             // vmovdqu    yword [rcx + rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x6039             // vmovdqu    yword [rcx + rdi + 96], ymm4
-	QUAD $0x0000803a8cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rdx + rdi + 224]
-	QUAD $0x000080398c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 128], ymm1
-	QUAD $0x0000a039947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 160], ymm2
-	QUAD $0x0000c0399c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 192], ymm3
-	QUAD $0x0000e039a47ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_550
-	JMP  LBB3_826
-
-LBB3_551:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x000000808d6ffdc5 // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI3_6] */
-
-LBB3_552:
-	LONG $0x1474fdc5; BYTE $0x3a   // vpcmpeqb    ymm2, ymm0, yword [rdx + rdi]
-	LONG $0xd1dfedc5               // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c74fdc5; WORD $0x203a // vpcmpeqb    ymm3, ymm0, yword [rdx + rdi + 32]
-	LONG $0xd9dfe5c5               // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6474fdc5; WORD $0x403a // vpcmpeqb    ymm4, ymm0, yword [rdx + rdi + 64]
-	LONG $0x6c74fdc5; WORD $0x603a // vpcmpeqb    ymm5, ymm0, yword [rdx + rdi + 96]
-	LONG $0xe1dfddc5               // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5               // vpandn    ymm5, ymm5, ymm1
-	LONG $0x147ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm2
-	LONG $0x5c7ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm3
-	LONG $0x647ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm4
-	LONG $0x6c7ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm5
-	LONG $0x80ef8348               // sub    rdi, -128
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_552
-	WORD $0x394c; BYTE $0xce       // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_554
-
-LBB3_558:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_833
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_560:
-	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
-	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
-	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
-	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
-	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
-	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
-	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_560
-	JMP  LBB3_834
-
-LBB3_561:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_841
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_563:
-	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
-	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
-	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
-	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
-	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
-	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
-	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_563
-	JMP  LBB3_842
-
-LBB3_564:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_849
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_566:
-	LONG $0x0cfafdc5; BYTE $0xba         // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20ba       // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40ba       // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60ba       // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xb9         // vmovdqu    yword [rcx + 4*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20b9       // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40b9       // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x60b9       // vmovdqu    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfafdc5; BYTE $0x00 // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fafdc5; BYTE $0x00 // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfafdc5; BYTE $0x00 // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fafdc5; BYTE $0x00 // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_566
-	JMP  LBB3_850
-
-LBB3_567:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_857
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB3_569:
-	LONG $0x0cfafdc5; BYTE $0xba         // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20ba       // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40ba       // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60ba       // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xb9         // vmovdqu    yword [rcx + 4*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20b9       // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40b9       // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x647ffec5; WORD $0x60b9       // vmovdqu    yword [rcx + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfafdc5; BYTE $0x00 // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fafdc5; BYTE $0x00 // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfafdc5; BYTE $0x00 // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fafdc5; BYTE $0x00 // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 128], ymm1
-	QUAD $0x0000a0b9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 160], ymm2
-	QUAD $0x0000c0b99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 192], ymm3
-	QUAD $0x0000e0b9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 224], ymm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB3_569
-	JMP  LBB3_858
-
-LBB3_570:
-	WORD $0x8944; BYTE $0xde       // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x587de2c4; WORD $0x4055 // vpbroadcastd    ymm2, dword 64[rbp] /* [rip + .LCPI3_3] */
-
-LBB3_571:
-	LONG $0x1c6ffec5; BYTE $0xba   // vmovdqu    ymm3, yword [rdx + 4*rdi]
-	LONG $0x646ffec5; WORD $0x20ba // vmovdqu    ymm4, yword [rdx + 4*rdi + 32]
-	LONG $0x6c6ffec5; WORD $0x40ba // vmovdqu    ymm5, yword [rdx + 4*rdi + 64]
-	LONG $0x746ffec5; WORD $0x60ba // vmovdqu    ymm6, yword [rdx + 4*rdi + 96]
-	LONG $0xf876e5c5               // vpcmpeqd    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5               // vpxor    ymm7, ymm7, ymm1
-	LONG $0xc0765dc5               // vpcmpeqd    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5               // vpxor    ymm8, ymm8, ymm1
-	LONG $0xc87655c5               // vpcmpeqd    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5               // vpxor    ymm9, ymm9, ymm1
-	LONG $0xd0764dc5               // vpcmpeqd    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5               // vpxor    ymm10, ymm10, ymm1
-	LONG $0xdb66edc5               // vpcmpgtd    ymm3, ymm2, ymm3
-	LONG $0xe466edc5               // vpcmpgtd    ymm4, ymm2, ymm4
-	LONG $0xed66edc5               // vpcmpgtd    ymm5, ymm2, ymm5
-	LONG $0xf666edc5               // vpcmpgtd    ymm6, ymm2, ymm6
-	LONG $0x4a6de3c4; WORD $0x30df // vblendvps    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4a6dc3c4; WORD $0x40e0 // vblendvps    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4a6dc3c4; WORD $0x50e9 // vblendvps    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4a6dc3c4; WORD $0x60f2 // vblendvps    ymm6, ymm2, ymm10, ymm6
-	LONG $0x1c11fcc5; BYTE $0xb9   // vmovups    yword [rcx + 4*rdi], ymm3
-	LONG $0x6411fcc5; WORD $0x20b9 // vmovups    yword [rcx + 4*rdi + 32], ymm4
-	LONG $0x6c11fcc5; WORD $0x40b9 // vmovups    yword [rcx + 4*rdi + 64], ymm5
-	LONG $0x7411fcc5; WORD $0x60b9 // vmovups    yword [rcx + 4*rdi + 96], ymm6
-	LONG $0x20c78348               // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_571
-	WORD $0x394c; BYTE $0xde       // cmp    rsi, r11
-	JE   LBB3_865
-	JMP  LBB3_573
-
-LBB3_578:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_579:
-	LONG $0x1e7de2c4; WORD $0xba04             // vpabsd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x1e7de2c4; WORD $0xba4c; BYTE $0x20 // vpabsd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x1e7de2c4; WORD $0xba54; BYTE $0x40 // vpabsd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x1e7de2c4; WORD $0xba5c; BYTE $0x60 // vpabsd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB3_579
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB3_865
-	JMP  LBB3_581
-
-LBB3_585:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_586:
-	LONG $0x1e7de2c4; WORD $0xba04             // vpabsd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x1e7de2c4; WORD $0xba4c; BYTE $0x20 // vpabsd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x1e7de2c4; WORD $0xba54; BYTE $0x40 // vpabsd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x1e7de2c4; WORD $0xba5c; BYTE $0x60 // vpabsd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB3_586
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB3_865
-	JMP  LBB3_588
-
-LBB3_367:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_368:
-	LONG $0x0411fdc5; BYTE $0x81         // vmovupd    yword [rcx + 4*rax], ymm0
-	LONG $0x4411fdc5; WORD $0x2081       // vmovupd    yword [rcx + 4*rax + 32], ymm0
-	LONG $0x4411fdc5; WORD $0x4081       // vmovupd    yword [rcx + 4*rax + 64], ymm0
-	LONG $0x4411fdc5; WORD $0x6081       // vmovupd    yword [rcx + 4*rax + 96], ymm0
-	QUAD $0x000080818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 128], ymm0
-	QUAD $0x0000a0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 160], ymm0
-	QUAD $0x0000c0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 192], ymm0
-	QUAD $0x0000e0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 224], ymm0
-	QUAD $0x000100818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 256], ymm0
-	QUAD $0x000120818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 288], ymm0
-	QUAD $0x000140818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 320], ymm0
-	QUAD $0x000160818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 352], ymm0
-	QUAD $0x000180818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 384], ymm0
-	QUAD $0x0001a0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 416], ymm0
-	QUAD $0x0001c0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 448], ymm0
-	QUAD $0x0001e0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 480], ymm0
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB3_368
-
-LBB3_369:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_372
-	LONG $0x81048d48         // lea    rax, [rcx + 4*rax]
-	LONG $0x60c08348         // add    rax, 96
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_371:
-	LONG $0x4011fdc5; BYTE $0xa0 // vmovupd    yword [rax - 96], ymm0
-	LONG $0x4011fdc5; BYTE $0xc0 // vmovupd    yword [rax - 64], ymm0
-	LONG $0x4011fdc5; BYTE $0xe0 // vmovupd    yword [rax - 32], ymm0
-	LONG $0x0011fdc5             // vmovupd    yword [rax], ymm0
-	LONG $0x80e88348             // sub    rax, -128
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_371
-
-LBB3_372:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_865
-
-LBB3_373:
-	LONG $0x009104c7; WORD $0x0000; BYTE $0x00 // mov    dword [rcx + 4*rdx], 0
-	LONG $0x01c28348                           // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1                   // cmp    r9, rdx
-	JNE  LBB3_373
-	JMP  LBB3_865
-
-LBB3_438:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_439:
-	LONG $0x0411fdc5; BYTE $0xc1         // vmovupd    yword [rcx + 8*rax], ymm0
-	LONG $0x4411fdc5; WORD $0x20c1       // vmovupd    yword [rcx + 8*rax + 32], ymm0
-	LONG $0x4411fdc5; WORD $0x40c1       // vmovupd    yword [rcx + 8*rax + 64], ymm0
-	LONG $0x4411fdc5; WORD $0x60c1       // vmovupd    yword [rcx + 8*rax + 96], ymm0
-	QUAD $0x000080c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 128], ymm0
-	QUAD $0x0000a0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 160], ymm0
-	QUAD $0x0000c0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 192], ymm0
-	QUAD $0x0000e0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 224], ymm0
-	QUAD $0x000100c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 256], ymm0
-	QUAD $0x000120c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 288], ymm0
-	QUAD $0x000140c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 320], ymm0
-	QUAD $0x000160c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 352], ymm0
-	QUAD $0x000180c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 384], ymm0
-	QUAD $0x0001a0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 416], ymm0
-	QUAD $0x0001c0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 448], ymm0
-	QUAD $0x0001e0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 480], ymm0
-	LONG $0x40c08348                     // add    rax, 64
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB3_439
-
-LBB3_440:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_443
-	LONG $0xc1048d48         // lea    rax, [rcx + 8*rax]
-	LONG $0x60c08348         // add    rax, 96
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_442:
-	LONG $0x4011fdc5; BYTE $0xa0 // vmovupd    yword [rax - 96], ymm0
-	LONG $0x4011fdc5; BYTE $0xc0 // vmovupd    yword [rax - 64], ymm0
-	LONG $0x4011fdc5; BYTE $0xe0 // vmovupd    yword [rax - 32], ymm0
-	LONG $0x0011fdc5             // vmovupd    yword [rax], ymm0
-	LONG $0x80e88348             // sub    rax, -128
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_442
-
-LBB3_443:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_865
-
-LBB3_444:
-	QUAD $0x00000000d104c748 // mov    qword [rcx + 8*rdx], 0
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1 // cmp    r9, rdx
-	JNE  LBB3_444
-	JMP  LBB3_865
-
-LBB3_461:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_462:
-	LONG $0x0411fdc5; BYTE $0x41         // vmovupd    yword [rcx + 2*rax], ymm0
-	LONG $0x4411fdc5; WORD $0x2041       // vmovupd    yword [rcx + 2*rax + 32], ymm0
-	LONG $0x4411fdc5; WORD $0x4041       // vmovupd    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4411fdc5; WORD $0x6041       // vmovupd    yword [rcx + 2*rax + 96], ymm0
-	QUAD $0x000080418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 160], ymm0
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm0
-	QUAD $0x000100418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 256], ymm0
-	QUAD $0x000120418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 288], ymm0
-	QUAD $0x000140418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 320], ymm0
-	QUAD $0x000160418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 352], ymm0
-	QUAD $0x000180418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 384], ymm0
-	QUAD $0x0001a0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 416], ymm0
-	QUAD $0x0001c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 448], ymm0
-	QUAD $0x0001e0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 480], ymm0
-	LONG $0x01000548; WORD $0x0000       // add    rax, 256
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB3_462
-
-LBB3_463:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_466
-	LONG $0x41048d48         // lea    rax, [rcx + 2*rax]
-	LONG $0x60c08348         // add    rax, 96
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_465:
-	LONG $0x4011fdc5; BYTE $0xa0 // vmovupd    yword [rax - 96], ymm0
-	LONG $0x4011fdc5; BYTE $0xc0 // vmovupd    yword [rax - 64], ymm0
-	LONG $0x4011fdc5; BYTE $0xe0 // vmovupd    yword [rax - 32], ymm0
-	LONG $0x0011fdc5             // vmovupd    yword [rax], ymm0
-	LONG $0x80e88348             // sub    rax, -128
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_465
-
-LBB3_466:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_865
-
-LBB3_467:
-	LONG $0x5104c766; WORD $0x0000 // mov    word [rcx + 2*rdx], 0
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1       // cmp    r9, rdx
-	JNE  LBB3_467
-	JMP  LBB3_865
-
-LBB3_541:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_542:
-	LONG $0x0411fdc5; BYTE $0x01         // vmovupd    yword [rcx + rax], ymm0
-	LONG $0x4411fdc5; WORD $0x2001       // vmovupd    yword [rcx + rax + 32], ymm0
-	LONG $0x4411fdc5; WORD $0x4001       // vmovupd    yword [rcx + rax + 64], ymm0
-	LONG $0x4411fdc5; WORD $0x6001       // vmovupd    yword [rcx + rax + 96], ymm0
-	QUAD $0x000080018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 128], ymm0
-	QUAD $0x0000a0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 160], ymm0
-	QUAD $0x0000c0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 192], ymm0
-	QUAD $0x0000e0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 224], ymm0
-	QUAD $0x000100018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 256], ymm0
-	QUAD $0x000120018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 288], ymm0
-	QUAD $0x000140018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 320], ymm0
-	QUAD $0x000160018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 352], ymm0
-	QUAD $0x000180018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 384], ymm0
-	QUAD $0x0001a0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 416], ymm0
-	QUAD $0x0001c0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 448], ymm0
-	QUAD $0x0001e0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 480], ymm0
-	LONG $0x02000548; WORD $0x0000       // add    rax, 512
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB3_542
-
-LBB3_543:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_546
-	WORD $0x0148; BYTE $0xc8 // add    rax, rcx
-	LONG $0x60c08348         // add    rax, 96
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-
-LBB3_545:
-	LONG $0x4011fdc5; BYTE $0xa0 // vmovupd    yword [rax - 96], ymm0
-	LONG $0x4011fdc5; BYTE $0xc0 // vmovupd    yword [rax - 64], ymm0
-	LONG $0x4011fdc5; BYTE $0xe0 // vmovupd    yword [rax - 32], ymm0
-	LONG $0x0011fdc5             // vmovupd    yword [rax], ymm0
-	LONG $0x80e88348             // sub    rax, -128
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_545
-
-LBB3_546:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_865
-
-LBB3_547:
-	LONG $0x001104c6         // mov    byte [rcx + rdx], 0
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1 // cmp    r9, rdx
-	JNE  LBB3_547
-
-LBB3_865:
-	VZEROUPPER
-	RET
-
-LBB3_592:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_593:
-	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
-	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
-	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
-	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
-	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
-	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
-	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
-	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
-	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB3_593
-
-LBB3_594:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_597
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x20c08348         // add    rax, 32
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_596:
-	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
-	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
-	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
-	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
-	LONG $0x40c08348               // add    rax, 64
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_596
-
-LBB3_597:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_598
-
-LBB3_602:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_603:
-	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
-	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
-	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
-	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
-	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
-	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
-	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
-	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
-	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB3_603
-
-LBB3_604:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_607
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x20c08348         // add    rax, 32
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_606:
-	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
-	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
-	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
-	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
-	LONG $0x40c08348               // add    rax, 64
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_606
-
-LBB3_607:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_608
-
-LBB3_612:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_613:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_615
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cfafdc5; BYTE $0xba   // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20ba // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40ba // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60ba // vpsubd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xb9   // vmovdqu    yword [rcx + 4*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20b9 // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40b9 // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x60b9 // vmovdqu    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_615:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_616
-
-LBB3_620:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_621:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_623
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB3_623:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_624
-
-LBB3_628:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_629:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_631
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB3_631:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_632
-
-LBB3_636:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_637:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_639
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0x0c57fdc5; BYTE $0xfa   // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5457fdc5; WORD $0x20fa // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40fa // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x4457fdc5; WORD $0x60fa // vxorpd    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_639:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_640
-
-LBB3_646:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_647:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_649
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0x0c57fdc5; BYTE $0xfa   // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5457fdc5; WORD $0x20fa // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40fa // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x4457fdc5; WORD $0x60fa // vxorpd    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_649:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_650
-
-LBB3_656:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_657:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_659
-	LONG $0x197de2c4; WORD $0x1845 // vbroadcastsd    ymm0, qword 24[rbp] /* [rip + .LCPI3_8] */
-	LONG $0x0c54fdc5; BYTE $0xfa   // vandpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5454fdc5; WORD $0x20fa // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40fa // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x4454fdc5; WORD $0x60fa // vandpd    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_659:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_660
-
-LBB3_664:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_665:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_667
-	LONG $0x197de2c4; WORD $0x1845 // vbroadcastsd    ymm0, qword 24[rbp] /* [rip + .LCPI3_8] */
-	LONG $0x0c54fdc5; BYTE $0xfa   // vandpd    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x5454fdc5; WORD $0x20fa // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40fa // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x4454fdc5; WORD $0x60fa // vandpd    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_667:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_668
-
-LBB3_672:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_673:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_675
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cf8fdc5; BYTE $0x3a   // vpsubb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54f8fdc5; WORD $0x203a // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x403a // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x603a // vpsubb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm0
-
-LBB3_675:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_676
-
-LBB3_680:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_681:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_683
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cf8fdc5; BYTE $0x3a   // vpsubb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54f8fdc5; WORD $0x203a // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x403a // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x603a // vpsubb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm0
-
-LBB3_683:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_684
-
-LBB3_688:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_689:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_691
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cfbfdc5; BYTE $0xfa   // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20fa // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40fa // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60fa // vpsubq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xf9   // vmovdqu    yword [rcx + 8*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20f9 // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40f9 // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x60f9 // vmovdqu    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_691:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_692
-
-LBB3_696:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_697:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_699
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB3_699:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_700
-
-LBB3_704:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_705:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_707
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB3_707:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_708
-
-LBB3_712:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_713:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_715
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x207a // vpsubw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x447ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
-
-LBB3_715:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_716
-
-LBB3_720:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_721:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_723
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x207a // vpsubw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x447ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
-
-LBB3_723:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_724
-
-LBB3_728:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_729:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_731
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x207a // vpsubw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x447ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
-
-LBB3_731:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_732
-
-LBB3_736:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_737:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_739
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0c75fdc5; BYTE $0x7a   // vpcmpeqw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x556ffdc5; BYTE $0x60   // vmovdqa    ymm2, yword 96[rbp] /* [rip + .LCPI3_5] */
-	LONG $0x4475fdc5; WORD $0x207a // vpcmpeqw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0xcadff5c5               // vpandn    ymm1, ymm1, ymm2
-	LONG $0xc2dffdc5               // vpandn    ymm0, ymm0, ymm2
-	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
-	LONG $0x447ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
-
-LBB3_739:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_740
-
-LBB3_744:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_745:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_747
-	LONG $0x046ffec5; BYTE $0x7a   // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0xd2efe9c5               // vpxor    xmm2, xmm2, xmm2
-	LONG $0xda75fdc5               // vpcmpeqw    ymm3, ymm0, ymm2
-	LONG $0xe476ddc5               // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xdcefe5c5               // vpxor    ymm3, ymm3, ymm4
-	LONG $0xd275f5c5               // vpcmpeqw    ymm2, ymm1, ymm2
-	LONG $0xd4efedc5               // vpxor    ymm2, ymm2, ymm4
-	LONG $0x656ffdc5; BYTE $0x60   // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI3_5] */
-	LONG $0xc065ddc5               // vpcmpgtw    ymm0, ymm4, ymm0
-	LONG $0xc965ddc5               // vpcmpgtw    ymm1, ymm4, ymm1
-	LONG $0x4c5de3c4; WORD $0x00c3 // vpblendvb    ymm0, ymm4, ymm3, ymm0
-	LONG $0x4c5de3c4; WORD $0x10ca // vpblendvb    ymm1, ymm4, ymm2, ymm1
-	LONG $0x047ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-
-LBB3_747:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_748
-
-LBB3_753:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_754:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB3_756
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0xe172edc5; BYTE $0x0f               // vpsrad    ymm2, ymm1, 15
-	LONG $0xe072e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm0, 15
-	LONG $0xc0fee5c5                           // vpaddd    ymm0, ymm3, ymm0
-	LONG $0xc9feedc5                           // vpaddd    ymm1, ymm2, ymm1
-	LONG $0xcaeff5c5                           // vpxor    ymm1, ymm1, ymm2
-	LONG $0xc3effdc5                           // vpxor    ymm0, ymm0, ymm3
-	QUAD $0x000000a0956ffdc5                   // vmovdqa    ymm2, yword 160[rbp] /* [rip + .LCPI3_10] */
-	LONG $0x007de2c4; BYTE $0xc2               // vpshufb    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xe8c0             // vpermq    ymm0, ymm0, 232
-	LONG $0x0075e2c4; BYTE $0xca               // vpshufb    ymm1, ymm1, ymm2
-	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
-	LONG $0x4c7ffac5; WORD $0x1079             // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x047ffac5; BYTE $0x79               // vmovdqu    oword [rcx + 2*rdi], xmm0
-
-LBB3_756:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_757
-
-LBB3_761:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_762:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB3_764
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0xe172edc5; BYTE $0x0f               // vpsrad    ymm2, ymm1, 15
-	LONG $0xe072e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm0, 15
-	LONG $0xc0fee5c5                           // vpaddd    ymm0, ymm3, ymm0
-	LONG $0xc9feedc5                           // vpaddd    ymm1, ymm2, ymm1
-	LONG $0xcaeff5c5                           // vpxor    ymm1, ymm1, ymm2
-	LONG $0xc3effdc5                           // vpxor    ymm0, ymm0, ymm3
-	QUAD $0x000000a0956ffdc5                   // vmovdqa    ymm2, yword 160[rbp] /* [rip + .LCPI3_10] */
-	LONG $0x007de2c4; BYTE $0xc2               // vpshufb    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xe8c0             // vpermq    ymm0, ymm0, 232
-	LONG $0x0075e2c4; BYTE $0xca               // vpshufb    ymm1, ymm1, ymm2
-	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
-	LONG $0x4c7ffac5; WORD $0x1079             // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x047ffac5; BYTE $0x79               // vmovdqu    oword [rcx + 2*rdi], xmm0
-
-LBB3_764:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_765
-
-LBB3_769:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_770:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_772
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cfbfdc5; BYTE $0xfa   // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20fa // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40fa // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60fa // vpsubq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xf9   // vmovdqu    yword [rcx + 8*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20f9 // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40f9 // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x60f9 // vmovdqu    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_772:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_773
-
-LBB3_777:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_778:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_780
-	LONG $0x187de2c4; WORD $0x4445 // vbroadcastss    ymm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-	LONG $0x0c57fdc5; BYTE $0xba   // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5457fdc5; WORD $0x20ba // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40ba // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x4457fdc5; WORD $0x60ba // vxorpd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_780:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_781
-
-LBB3_787:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_788:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_790
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cfbfdc5; BYTE $0xfa   // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20fa // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40fa // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60fa // vpsubq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xf9   // vmovdqu    yword [rcx + 8*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20f9 // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40f9 // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x60f9 // vmovdqu    yword [rcx + 8*rdi + 96], ymm0
-
-LBB3_790:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_791
-
-LBB3_795:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_796:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_798
-	LONG $0x187de2c4; WORD $0x4445 // vbroadcastss    ymm0, dword 68[rbp] /* [rip + .LCPI3_7] */
-	LONG $0x0c57fdc5; BYTE $0xba   // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5457fdc5; WORD $0x20ba // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c57fdc5; WORD $0x40ba // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x4457fdc5; WORD $0x60ba // vxorpd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_798:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_799
-
-LBB3_805:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_806:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_808
-	LONG $0x187de2c4; WORD $0x4845 // vbroadcastss    ymm0, dword 72[rbp] /* [rip + .LCPI3_9] */
-	LONG $0x0c54fdc5; BYTE $0xba   // vandpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5454fdc5; WORD $0x20ba // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40ba // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x4454fdc5; WORD $0x60ba // vandpd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_808:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_809
-
-LBB3_815:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_816:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_818
-	LONG $0x187de2c4; WORD $0x4845 // vbroadcastss    ymm0, dword 72[rbp] /* [rip + .LCPI3_9] */
-	LONG $0x0c54fdc5; BYTE $0xba   // vandpd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x5454fdc5; WORD $0x20ba // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5c54fdc5; WORD $0x40ba // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x4454fdc5; WORD $0x60ba // vandpd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c11fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x4411fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_818:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_819
-
-LBB3_825:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_826:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_828
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cf8fdc5; BYTE $0x3a   // vpsubb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54f8fdc5; WORD $0x203a // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x403a // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x603a // vpsubb    ymm0, ymm0, yword [rdx + rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm1
-	LONG $0x547ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm0
-
-LBB3_828:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_829
-
-LBB3_833:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_834:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_836
-	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
-
-LBB3_836:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_837
-
-LBB3_841:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_842:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_844
-	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
-
-LBB3_844:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_845
-
-LBB3_849:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_850:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_852
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cfafdc5; BYTE $0xba   // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20ba // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40ba // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60ba // vpsubd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xb9   // vmovdqu    yword [rcx + 4*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20b9 // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40b9 // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x60b9 // vmovdqu    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_852:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_853
-
-LBB3_857:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_858:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_860
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0cfafdc5; BYTE $0xba   // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20ba // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40ba // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60ba // vpsubd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
-	LONG $0x0c7ffec5; BYTE $0xb9   // vmovdqu    yword [rcx + 4*rdi], ymm1
-	LONG $0x547ffec5; WORD $0x20b9 // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x40b9 // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
-	LONG $0x447ffec5; WORD $0x60b9 // vmovdqu    yword [rcx + 4*rdi + 96], ymm0
-
-LBB3_860:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_865
-	JMP  LBB3_861
-
-DATA LCDATA5<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA5<>+0x008(SB)/8, $0x3ff0000000000000
-DATA LCDATA5<>+0x010(SB)/8, $0x43e0000000000000
-DATA LCDATA5<>+0x018(SB)/8, $0x41e0000000000000
-DATA LCDATA5<>+0x020(SB)/8, $0xbff0000000000000
-DATA LCDATA5<>+0x028(SB)/8, $0x0000000000000001
-DATA LCDATA5<>+0x030(SB)/8, $0x8000000000000000
-DATA LCDATA5<>+0x038(SB)/8, $0x8000000000000000
-DATA LCDATA5<>+0x040(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x048(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x050(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x058(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x060(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x068(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x070(SB)/8, $0x0000000001010101
-DATA LCDATA5<>+0x078(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x080(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x088(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x090(SB)/8, $0x800000007fffffff
-DATA LCDATA5<>+0x098(SB)/8, $0x000000013f800000
-DATA LCDATA5<>+0x0a0(SB)/8, $0x4f0000005f000000
-DATA LCDATA5<>+0x0a8(SB)/8, $0x00000000bf800000
-DATA LCDATA5<>+0x0b0(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x0b8(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x0c0(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x0c8(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x0d0(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x0d8(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x0e0(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x0e8(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x0f0(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x0f8(SB)/8, $0x0101010101010101
-GLOBL LCDATA5<>(SB), 8, $256
-
-TEXT ·_arithmetic_unary_diff_type_avx2(SB), $0-48
-
-	MOVQ itype+0(FP), DI
-	MOVQ otype+8(FP), SI
-	MOVQ op+16(FP), DX
-	MOVQ input+24(FP), CX
-	MOVQ output+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA5<>(SB), BP
-
-	WORD $0xfa80; BYTE $0x14 // cmp    dl, 20
-	JNE  LBB4_1351
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB4_14
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB4_26
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB4_46
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB4_54
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB4_1351
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_94
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_164
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_267
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_270
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_13
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_870
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_870
-
-LBB4_13:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_873:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_875
-
-LBB4_874:
-	WORD $0xf631     // xor    esi, esi
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40 // setne    sil
-	LONG $0x90348941 // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348 // add    rdx, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB4_874
-
-LBB4_875:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_876:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x04917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 4], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x08917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 8], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x0c917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 12], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], esi
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_876
-	JMP  LBB4_1351
-
-LBB4_14:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB4_36
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB4_62
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB4_70
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB4_1351
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_101
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_169
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_273
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_276
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_450
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1292
-
-LBB4_26:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB4_78
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB4_1351
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_108
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_174
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_279
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_282
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_35
-	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_877
-	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_877
-
-LBB4_35:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_880:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_882
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_882:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_884:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_884
-	JMP  LBB4_1351
-
-LBB4_36:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB4_86
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB4_1351
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_115
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_179
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_285
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_288
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_456
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_459
-
-LBB4_46:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_122
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_184
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_291
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_294
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_460
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_463
-
-LBB4_54:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_129
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_189
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_297
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_300
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_464
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_467
-
-LBB4_62:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_136
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_194
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_303
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_306
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_469
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_472
-
-LBB4_70:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_143
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_199
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_309
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_312
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_474
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1298
-
-LBB4_78:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_150
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_204
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_315
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_318
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_85
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_885
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_885
-
-LBB4_85:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_888:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_890
-
-LBB4_889:
-	WORD $0xf631     // xor    esi, esi
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40 // setne    sil
-	LONG $0x90348941 // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348 // add    rdx, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB4_889
-
-LBB4_890:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_891:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], esi
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_891
-	JMP  LBB4_1351
-
-LBB4_86:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_157
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_209
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_321
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_324
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_93
-	LONG $0x99148d4a         // lea    rdx, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_892
-	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_892
-
-LBB4_93:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_895:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_897
-	LONG $0x910c8b44             // mov    r9d, dword [rcx + 4*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_897:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_899:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	LONG $0x0491448b             // mov    eax, dword [rcx + 4*rdx + 4]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc085                 // test    eax, eax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_899
-	JMP  LBB4_1351
-
-LBB4_94:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_214
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_327
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_330
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_483
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_486
-
-LBB4_101:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_219
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_333
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_336
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_107
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_900
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_900
-
-LBB4_107:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_903:
-	WORD $0x8948; BYTE $0xd6       // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6       // not    rsi
-	WORD $0x01a8                   // test    al, 1
-	JE   LBB4_905
-	LONG $0x0410fbc5; BYTE $0xd1   // vmovsd    xmm0, qword [rcx + 8*rdx]
-	LONG $0x4d54f9c5; BYTE $0x30   // vandpd    xmm1, xmm0, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08   // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xc956e9c5               // vorpd    xmm1, xmm2, xmm1
-	LONG $0xd257e9c5               // vxorpd    xmm2, xmm2, xmm2
-	LONG $0xc2c2fbc5; BYTE $0x00   // vcmpeqsd    xmm0, xmm0, xmm2
-	LONG $0xc155f9c5               // vandnpd    xmm0, xmm0, xmm1
-	LONG $0x1379c1c4; WORD $0xd004 // vmovlpd    qword [r8 + 8*rdx], xmm0
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_905:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1351
-	LONG $0x4528f9c5; BYTE $0x30 // vmovapd    xmm0, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x4d12fbc5; BYTE $0x08 // vmovddup    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
-
-LBB4_907:
-	LONG $0x1c10fbc5; BYTE $0xd1               // vmovsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xe054e1c5                           // vandpd    xmm4, xmm3, xmm0
-	LONG $0xe456f1c5                           // vorpd    xmm4, xmm1, xmm4
-	LONG $0xdac2e3c5; BYTE $0x00               // vcmpeqsd    xmm3, xmm3, xmm2
-	LONG $0xdc55e1c5                           // vandnpd    xmm3, xmm3, xmm4
-	LONG $0x1379c1c4; WORD $0xd01c             // vmovlpd    qword [r8 + 8*rdx], xmm3
-	LONG $0x5c10fbc5; WORD $0x08d1             // vmovsd    xmm3, qword [rcx + 8*rdx + 8]
-	LONG $0xe054e1c5                           // vandpd    xmm4, xmm3, xmm0
-	LONG $0xe456f1c5                           // vorpd    xmm4, xmm1, xmm4
-	LONG $0xdac2e3c5; BYTE $0x00               // vcmpeqsd    xmm3, xmm3, xmm2
-	LONG $0xdc55e1c5                           // vandnpd    xmm3, xmm3, xmm4
-	LONG $0x1379c1c4; WORD $0xd05c; BYTE $0x08 // vmovlpd    qword [r8 + 8*rdx + 8], xmm3
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB4_907
-	JMP  LBB4_1351
-
-LBB4_108:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_224
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_339
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_342
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_114
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_908
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_908
-
-LBB4_114:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_911:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x01a8             // test    al, 1
-	JE   LBB4_1254
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	JNE  LBB4_1250
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	JMP  LBB4_1251
-
-LBB4_115:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_229
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_345
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_348
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_496
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_499
-
-LBB4_122:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_234
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_351
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_354
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_503
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_506
-
-LBB4_129:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_239
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_357
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_360
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_510
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_513
-
-LBB4_136:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_244
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_363
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_366
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_519
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_522
-
-LBB4_143:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_249
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_369
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_372
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_528
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_531
-
-LBB4_150:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_257
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_375
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_378
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_156
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_914
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_914
-
-LBB4_156:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_917:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB4_922
-	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_920
-
-LBB4_919:
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JE   LBB4_922
-
-LBB4_920:
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xc86ff9c5 // vmovdqa    xmm1, xmm0
-	JNE  LBB4_919
-	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_919
-
-LBB4_157:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_262
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_381
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_384
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_538
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_541
-
-LBB4_164:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_387
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_168
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_933
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_933
-
-LBB4_168:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_936:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_938
-
-LBB4_937:
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_937
-
-LBB4_938:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_939:
-	LONG $0x00913c83               // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x04917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x08917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x0c917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 12], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_939
-	JMP  LBB4_1351
-
-LBB4_169:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_390
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_173
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_940
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_940
-
-LBB4_173:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_943:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB4_945
-	LONG $0x0410fbc5; BYTE $0xd1 // vmovsd    xmm0, qword [rcx + 8*rdx]
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	LONG $0xc82ef9c5             // vucomisd    xmm1, xmm0
-	LONG $0x4554f9c5; BYTE $0x30 // vandpd    xmm0, xmm0, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x4d12fbc5; BYTE $0x08 // vmovddup    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xc056f1c5             // vorpd    xmm0, xmm1, xmm0
-	LONG $0xd82cfbc5             // vcvttsd2si    ebx, xmm0
-	WORD $0x440f; BYTE $0xdf     // cmove    ebx, edi
-	LONG $0x101c8841             // mov    byte [r8 + rdx], bl
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_945:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1351
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_947:
-	LONG $0x1c10fbc5; BYTE $0xd1   // vmovsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xc32ef9c5               // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5               // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5               // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5               // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x103c8841               // mov    byte [r8 + rdx], dil
-	LONG $0x5c10fbc5; WORD $0x08d1 // vmovsd    xmm3, qword [rcx + 8*rdx + 8]
-	LONG $0xc32ef9c5               // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5               // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5               // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5               // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x107c8841; BYTE $0x01   // mov    byte [r8 + rdx + 1], dil
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_947
-	JMP  LBB4_1351
-
-LBB4_174:
-	WORD $0xfe83; BYTE $0x02                   // cmp    esi, 2
-	JE   LBB4_393
-	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB4_178
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB4_948
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB4_948
-
-LBB4_178:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_951:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_953
-	LONG $0x193c8a42             // mov    dil, byte [rcx + r11]
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_953:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_955:
-	LONG $0x04b60f42; BYTE $0x19   // movzx    eax, byte [rcx + r11]
-	WORD $0xc084                   // test    al, al
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	WORD $0xc084                   // test    al, al
-	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18048843               // mov    byte [r8 + r11], al
-	LONG $0x44b60f42; WORD $0x0119 // movzx    eax, byte [rcx + r11 + 1]
-	WORD $0xc084                   // test    al, al
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	WORD $0xc084                   // test    al, al
-	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01   // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349               // add    r11, 2
-	WORD $0x394d; BYTE $0xda       // cmp    r10, r11
-	JNE  LBB4_955
-	JMP  LBB4_1351
-
-LBB4_179:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_396
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_183
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_956
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_956
-
-LBB4_183:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_959:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_961
-
-LBB4_960:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_960
-
-LBB4_961:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_962:
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_962
-	JMP  LBB4_1351
-
-LBB4_184:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_399
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_188
-	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_963
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_963
-
-LBB4_188:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_966:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_968
-
-LBB4_967:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_967
-
-LBB4_968:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_969:
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_969
-	JMP  LBB4_1351
-
-LBB4_189:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_402
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_193
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_970
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_970
-
-LBB4_193:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_973:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_975
-	LONG $0x3cb70f42; BYTE $0x59 // movzx    edi, word [rcx + 2*r11]
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_975:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_977:
-	LONG $0x3cb70f42; BYTE $0x59   // movzx    edi, word [rcx + 2*r11]
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18048843               // mov    byte [r8 + r11], al
-	LONG $0x44b70f42; WORD $0x0259 // movzx    eax, word [rcx + 2*r11 + 2]
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01   // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349               // add    r11, 2
-	WORD $0x394d; BYTE $0xda       // cmp    r10, r11
-	JNE  LBB4_977
-	JMP  LBB4_1351
-
-LBB4_194:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_405
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_198
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_978
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_978
-
-LBB4_198:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_981:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_983
-	LONG $0xd93c8b4a             // mov    rdi, qword [rcx + 8*r11]
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_983:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_985:
-	LONG $0xd93c8b4a             // mov    rdi, qword [rcx + 8*r11]
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18048843             // mov    byte [r8 + r11], al
-	LONG $0xd9448b4a; BYTE $0x08 // mov    rax, qword [rcx + 8*r11 + 8]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01 // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349             // add    r11, 2
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_985
-	JMP  LBB4_1351
-
-LBB4_199:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_408
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_203
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_986
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_986
-
-LBB4_203:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_989:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_991
-	LONG $0x046ef9c5; BYTE $0x91 // vmovd    xmm0, dword [rcx + 4*rdx]
-	LONG $0xc77ef9c5             // vmovd    edi, xmm0
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xd7990f40             // setns    dil
-	WORD $0x0040; BYTE $0xff     // add    dil, dil
-	LONG $0xffc78040             // add    dil, -1
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	LONG $0xc82ef8c5             // vucomiss    xmm1, xmm0
-	LONG $0xffb60f40             // movzx    edi, dil
-	LONG $0xf9440f41             // cmove    edi, r9d
-	LONG $0x103c8841             // mov    byte [r8 + rdx], dil
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_991:
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	JE   LBB4_1351
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc057f8c5         // vxorps    xmm0, xmm0, xmm0
-
-LBB4_993:
-	LONG $0x0c6ef9c5; BYTE $0x91   // vmovd    xmm1, dword [rcx + 4*rdx]
-	LONG $0xcf7ef9c5               // vmovd    edi, xmm1
-	WORD $0xff85                   // test    edi, edi
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10048841               // mov    byte [r8 + rdx], al
-	LONG $0x4c6ef9c5; WORD $0x0491 // vmovd    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc87ef9c5               // vmovd    eax, xmm1
-	WORD $0xc085                   // test    eax, eax
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10448841; BYTE $0x01   // mov    byte [r8 + rdx + 1], al
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_993
-	JMP  LBB4_1351
-
-LBB4_204:
-	WORD $0xfe83; BYTE $0x02                   // cmp    esi, 2
-	JE   LBB4_411
-	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8                   // mov    eax, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB4_208
-	LONG $0x01148d48                           // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB4_994
-	LONG $0x00148d49                           // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB4_994
-
-LBB4_208:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_997:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_999
-
-LBB4_998:
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_998
-
-LBB4_999:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_1000:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1000
-	JMP  LBB4_1351
-
-LBB4_209:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_414
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_213
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1001
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1001
-
-LBB4_213:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_1004:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1006
-	LONG $0x993c8b42             // mov    edi, dword [rcx + 4*r11]
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_1006:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1008:
-	LONG $0x993c8b42             // mov    edi, dword [rcx + 4*r11]
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xff85                 // test    edi, edi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18048843             // mov    byte [r8 + r11], al
-	LONG $0x99448b42; BYTE $0x04 // mov    eax, dword [rcx + 4*r11 + 4]
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc085                 // test    eax, eax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01 // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349             // add    r11, 2
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_1008
-	JMP  LBB4_1351
-
-LBB4_214:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_417
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_577
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_580
-
-LBB4_219:
-	WORD $0xfe83; BYTE $0x07               // cmp    esi, 7
-	JE   LBB4_420
-	WORD $0xfe83; BYTE $0x08               // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9               // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca               // mov    r10d, r9d
-	QUAD $0x000000000000bb49; WORD $0x8000 // mov    r11, -9223372036854775808
-	LONG $0x04f98341                       // cmp    r9d, 4
-	JAE  LBB4_581
-	WORD $0xf631                           // xor    esi, esi
-	JMP  LBB4_1286
-
-LBB4_224:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_423
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_228
-	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1009
-	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1009
-
-LBB4_228:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1012:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1014
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1014:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1016:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1016
-	JMP  LBB4_1351
-
-LBB4_229:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_426
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_233
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1017
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1017
-
-LBB4_233:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1020:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1022
-
-LBB4_1021:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1021
-
-LBB4_1022:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1023:
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0348949               // mov    qword [r8 + 8*rdx], rsi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0748949; BYTE $0x08   // mov    qword [r8 + 8*rdx + 8], rsi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0748949; BYTE $0x10   // mov    qword [r8 + 8*rdx + 16], rsi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0748949; BYTE $0x18   // mov    qword [r8 + 8*rdx + 24], rsi
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1023
-	JMP  LBB4_1351
-
-LBB4_234:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_429
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_590
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_593
-
-LBB4_239:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_432
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_594
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_597
-
-LBB4_244:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_435
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_248
-	LONG $0xd9148d4a         // lea    rdx, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1024
-	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1024
-
-LBB4_248:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1027:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1029
-	LONG $0xd10c8b4c             // mov    r9, qword [rcx + 8*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1029:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1031:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc64f0f48             // cmovg    rax, rsi
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0xd1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rdx + 8]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1031
-	JMP  LBB4_1351
-
-LBB4_249:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_438
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_602
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB4_254
-
-LBB4_257:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_441
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_261
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1032
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1032
-
-LBB4_261:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1035:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1037
-
-LBB4_1036:
-	WORD $0xf631     // xor    esi, esi
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40 // setne    sil
-	LONG $0xd0348949 // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348 // add    rdx, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB4_1036
-
-LBB4_1037:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1038:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0748949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rsi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0748949; BYTE $0x10 // mov    qword [r8 + 8*rdx + 16], rsi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0748949; BYTE $0x18 // mov    qword [r8 + 8*rdx + 24], rsi
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1038
-	JMP  LBB4_1351
-
-LBB4_262:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_444
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1351
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_613
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_616
-
-LBB4_267:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_618
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_621
-
-LBB4_270:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_622
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_625
-
-LBB4_273:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0xd231             // xor    edx, edx
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_626
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_629
-
-LBB4_276:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0xd231             // xor    edx, edx
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_631
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_634
-
-LBB4_279:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_281
-	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1039
-	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1039
-
-LBB4_281:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1042:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1044
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1044:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1046:
-	LONG $0x1104b60f               // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x3c894166; BYTE $0x50   // mov    word [r8 + 2*rdx], di
-	LONG $0x1144b60f; BYTE $0x01   // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
-	JNE  LBB4_1046
-	JMP  LBB4_1351
-
-LBB4_282:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_284
-	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1047
-	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1047
-
-LBB4_284:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1050:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1052
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1052:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1054:
-	LONG $0x1104b60f               // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x3c894166; BYTE $0x50   // mov    word [r8 + 2*rdx], di
-	LONG $0x1144b60f; BYTE $0x01   // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
-	JNE  LBB4_1054
-	JMP  LBB4_1351
-
-LBB4_285:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_642
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_645
-
-LBB4_288:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_646
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_649
-
-LBB4_291:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_293
-	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1055
-	LONG $0x40148d49         // lea    rdx, [r8 + 2*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1055
-
-LBB4_293:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1321:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1323
-
-LBB4_1322:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1322
-
-LBB4_1323:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1324:
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x34894166; BYTE $0x50   // mov    word [r8 + 2*rdx], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], si
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1324
-	JMP  LBB4_1351
-
-LBB4_294:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_296
-	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1058
-	LONG $0x40148d49         // lea    rdx, [r8 + 2*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1058
-
-LBB4_296:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1329:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1331
-
-LBB4_1330:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1330
-
-LBB4_1331:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1332:
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x34894166; BYTE $0x50   // mov    word [r8 + 2*rdx], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], si
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1332
-	JMP  LBB4_1351
-
-LBB4_297:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_299
-	LONG $0x59148d4a         // lea    rdx, [rcx + 2*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1061
-	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1061
-
-LBB4_299:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1337:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1339
-	LONG $0x0cb70f44; BYTE $0x51 // movzx    r9d, word [rcx + 2*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1339:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1341:
-	LONG $0x513cb70f               // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031                   // xor    eax, eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f7                   // neg    eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	LONG $0x5144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rdx + 2]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
-	JNE  LBB4_1341
-	JMP  LBB4_1351
-
-LBB4_300:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_302
-	LONG $0x59148d4a         // lea    rdx, [rcx + 2*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1064
-	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1064
-
-LBB4_302:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1346:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1348
-	LONG $0x0cb70f44; BYTE $0x51 // movzx    r9d, word [rcx + 2*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1348:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1350:
-	LONG $0x513cb70f               // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031                   // xor    eax, eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f7                   // neg    eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	LONG $0x5144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rdx + 2]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
-	JNE  LBB4_1350
-	JMP  LBB4_1351
-
-LBB4_303:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_662
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_665
-
-LBB4_306:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_667
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_670
-
-LBB4_309:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_672
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_675
-
-LBB4_312:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_677
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_680
-
-LBB4_315:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_317
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1067
-	LONG $0x40148d49         // lea    rdx, [r8 + 2*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1067
-
-LBB4_317:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1070:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1072
-
-LBB4_1071:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1071
-
-LBB4_1072:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1073:
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x34894166; BYTE $0x50   // mov    word [r8 + 2*rdx], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], si
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1073
-	JMP  LBB4_1351
-
-LBB4_318:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_320
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1074
-	LONG $0x40148d49         // lea    rdx, [r8 + 2*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1074
-
-LBB4_320:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1077:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1079
-
-LBB4_1078:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1078
-
-LBB4_1079:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1080:
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x34894166; BYTE $0x50   // mov    word [r8 + 2*rdx], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], si
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0x74894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], si
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1080
-	JMP  LBB4_1351
-
-LBB4_321:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_688
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_691
-
-LBB4_324:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_693
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_696
-
-LBB4_327:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_698
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_701
-
-LBB4_330:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_702
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_705
-
-LBB4_333:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_709
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1306
-
-LBB4_336:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_712
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_715
-
-LBB4_339:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_341
-	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1081
-	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1081
-
-LBB4_341:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1084:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1086
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1086:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1088:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1088
-	JMP  LBB4_1351
-
-LBB4_342:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_344
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1089
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1089
-
-LBB4_344:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1092:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x01a8             // test    al, 1
-	JE   LBB4_1269
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	JNE  LBB4_1265
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	JMP  LBB4_1266
-
-LBB4_345:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_347
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1095
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1095
-
-LBB4_347:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1098:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1100
-
-LBB4_1099:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1099
-
-LBB4_1100:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1101:
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0348949               // mov    qword [r8 + 8*rdx], rsi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0748949; BYTE $0x08   // mov    qword [r8 + 8*rdx + 8], rsi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0748949; BYTE $0x10   // mov    qword [r8 + 8*rdx + 16], rsi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	LONG $0xd6950f40               // setne    sil
-	LONG $0xd0748949; BYTE $0x18   // mov    qword [r8 + 8*rdx + 24], rsi
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1101
-	JMP  LBB4_1351
-
-LBB4_348:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_728
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_731
-
-LBB4_351:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_735
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_738
-
-LBB4_354:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_739
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_742
-
-LBB4_357:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_746
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_749
-
-LBB4_360:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_751
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_754
-
-LBB4_363:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_365
-	LONG $0xd9148d4a         // lea    rdx, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1102
-	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1102
-
-LBB4_365:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1105:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1107
-	LONG $0xd10c8b4c             // mov    r9, qword [rcx + 8*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1107:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1109:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc64f0f48             // cmovg    rax, rsi
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0xd1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rdx + 8]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1109
-	JMP  LBB4_1351
-
-LBB4_366:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_763
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_766
-
-LBB4_369:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_772
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1312
-
-LBB4_372:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_374
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1110
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1110
-
-LBB4_374:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1113:
-	WORD $0x8948; BYTE $0xd6       // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6       // not    rsi
-	WORD $0x01a8                   // test    al, 1
-	JE   LBB4_1115
-	LONG $0x0410fac5; BYTE $0x91   // vmovss    xmm0, dword [rcx + 4*rdx]
-	LONG $0xf850f8c5               // vmovmskps    edi, xmm0
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	LONG $0xcf2aaac5               // vcvtsi2ss    xmm1, xmm10, edi
-	LONG $0xd257e8c5               // vxorps    xmm2, xmm2, xmm2
-	LONG $0xc2c2fac5; BYTE $0x00   // vcmpeqss    xmm0, xmm0, xmm2
-	LONG $0xc155f8c5               // vandnps    xmm0, xmm0, xmm1
-	LONG $0x117ac1c4; WORD $0x9004 // vmovss    dword [r8 + 4*rdx], xmm0
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_1115:
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	JE   LBB4_1351
-	LONG $0xc057f8c5         // vxorps    xmm0, xmm0, xmm0
-
-LBB4_1117:
-	LONG $0x0c10fac5; BYTE $0x91               // vmovss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xf150f8c5                           // vmovmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01                   // and    esi, 1
-	WORD $0xdef7                               // neg    esi
-	WORD $0xce83; BYTE $0x01                   // or    esi, 1
-	LONG $0xd62aaac5                           // vcvtsi2ss    xmm2, xmm10, esi
-	LONG $0xc8c2f2c5; BYTE $0x00               // vcmpeqss    xmm1, xmm1, xmm0
-	LONG $0xca55f0c5                           // vandnps    xmm1, xmm1, xmm2
-	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c10fac5; WORD $0x0491             // vmovss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xf150f8c5                           // vmovmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01                   // and    esi, 1
-	WORD $0xdef7                               // neg    esi
-	WORD $0xce83; BYTE $0x01                   // or    esi, 1
-	LONG $0xd62aaac5                           // vcvtsi2ss    xmm2, xmm10, esi
-	LONG $0xc8c2f2c5; BYTE $0x00               // vcmpeqss    xmm1, xmm1, xmm0
-	LONG $0xca55f0c5                           // vandnps    xmm1, xmm1, xmm2
-	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB4_1117
-	JMP  LBB4_1351
-
-LBB4_375:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_377
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1118
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1118
-
-LBB4_377:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1121:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1123
-
-LBB4_1122:
-	WORD $0xf631     // xor    esi, esi
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40 // setne    sil
-	LONG $0xd0348949 // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348 // add    rdx, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB4_1122
-
-LBB4_1123:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1124:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0748949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rsi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0748949; BYTE $0x10 // mov    qword [r8 + 8*rdx + 16], rsi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0748949; BYTE $0x18 // mov    qword [r8 + 8*rdx + 24], rsi
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1124
-	JMP  LBB4_1351
-
-LBB4_378:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_380
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1125
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1125
-
-LBB4_380:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1128:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1133
-	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1131
-
-LBB4_1130:
-	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JE   LBB4_1133
-
-LBB4_1131:
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xc86ff9c5 // vmovdqa    xmm1, xmm0
-	JNE  LBB4_1130
-	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_1130
-
-LBB4_381:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_784
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_787
-
-LBB4_384:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_789
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_792
-
-LBB4_387:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_389
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1144
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1144
-
-LBB4_389:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1147:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1149
-
-LBB4_1148:
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1148
-
-LBB4_1149:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_1150:
-	LONG $0x00913c83               // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x04917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x08917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x0c917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 12], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1150
-	JMP  LBB4_1351
-
-LBB4_390:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_392
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1151
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1151
-
-LBB4_392:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1154:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB4_1156
-	LONG $0x0410fbc5; BYTE $0xd1 // vmovsd    xmm0, qword [rcx + 8*rdx]
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	LONG $0xc82ef9c5             // vucomisd    xmm1, xmm0
-	LONG $0x4554f9c5; BYTE $0x30 // vandpd    xmm0, xmm0, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x4d12fbc5; BYTE $0x08 // vmovddup    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xc056f1c5             // vorpd    xmm0, xmm1, xmm0
-	LONG $0xd82cfbc5             // vcvttsd2si    ebx, xmm0
-	WORD $0x440f; BYTE $0xdf     // cmove    ebx, edi
-	LONG $0x101c8841             // mov    byte [r8 + rdx], bl
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1156:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1351
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_1158:
-	LONG $0x1c10fbc5; BYTE $0xd1   // vmovsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xc32ef9c5               // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5               // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5               // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5               // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x103c8841               // mov    byte [r8 + rdx], dil
-	LONG $0x5c10fbc5; WORD $0x08d1 // vmovsd    xmm3, qword [rcx + 8*rdx + 8]
-	LONG $0xc32ef9c5               // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5               // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5               // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5               // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x107c8841; BYTE $0x01   // mov    byte [r8 + rdx + 1], dil
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1158
-	JMP  LBB4_1351
-
-LBB4_393:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB4_395
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB4_1159
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB4_1159
-
-LBB4_395:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_1162:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1164
-	LONG $0x193c8a42             // mov    dil, byte [rcx + r11]
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_1164:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1166:
-	LONG $0x04b60f42; BYTE $0x19   // movzx    eax, byte [rcx + r11]
-	WORD $0xc084                   // test    al, al
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	WORD $0xc084                   // test    al, al
-	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18048843               // mov    byte [r8 + r11], al
-	LONG $0x44b60f42; WORD $0x0119 // movzx    eax, byte [rcx + r11 + 1]
-	WORD $0xc084                   // test    al, al
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	WORD $0xc084                   // test    al, al
-	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01   // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349               // add    r11, 2
-	WORD $0x394d; BYTE $0xda       // cmp    r10, r11
-	JNE  LBB4_1166
-	JMP  LBB4_1351
-
-LBB4_396:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_398
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1167
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1167
-
-LBB4_398:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1170:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1172
-
-LBB4_1171:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1171
-
-LBB4_1172:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_1173:
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1173
-	JMP  LBB4_1351
-
-LBB4_399:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_401
-	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1174
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1174
-
-LBB4_401:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1177:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1179
-
-LBB4_1178:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1178
-
-LBB4_1179:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_1180:
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1180
-	JMP  LBB4_1351
-
-LBB4_402:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JB   LBB4_404
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1181
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1181
-
-LBB4_404:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_1184:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1186
-	LONG $0x3cb70f42; BYTE $0x59 // movzx    edi, word [rcx + 2*r11]
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_1186:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1188:
-	LONG $0x3cb70f42; BYTE $0x59   // movzx    edi, word [rcx + 2*r11]
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18048843               // mov    byte [r8 + r11], al
-	LONG $0x44b70f42; WORD $0x0259 // movzx    eax, word [rcx + 2*r11 + 2]
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01   // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349               // add    r11, 2
-	WORD $0x394d; BYTE $0xda       // cmp    r10, r11
-	JNE  LBB4_1188
-	JMP  LBB4_1351
-
-LBB4_405:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_407
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1189
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1189
-
-LBB4_407:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_1192:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1194
-	LONG $0xd93c8b4a             // mov    rdi, qword [rcx + 8*r11]
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_1194:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1196:
-	LONG $0xd93c8b4a             // mov    rdi, qword [rcx + 8*r11]
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18048843             // mov    byte [r8 + r11], al
-	LONG $0xd9448b4a; BYTE $0x08 // mov    rax, qword [rcx + 8*r11 + 8]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01 // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349             // add    r11, 2
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_1196
-	JMP  LBB4_1351
-
-LBB4_408:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_410
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1197
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1197
-
-LBB4_410:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1200:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1202
-	LONG $0x046ef9c5; BYTE $0x91 // vmovd    xmm0, dword [rcx + 4*rdx]
-	LONG $0xc77ef9c5             // vmovd    edi, xmm0
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xd7990f40             // setns    dil
-	WORD $0x0040; BYTE $0xff     // add    dil, dil
-	LONG $0xffc78040             // add    dil, -1
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	LONG $0xc82ef8c5             // vucomiss    xmm1, xmm0
-	LONG $0xffb60f40             // movzx    edi, dil
-	LONG $0xf9440f41             // cmove    edi, r9d
-	LONG $0x103c8841             // mov    byte [r8 + rdx], dil
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1202:
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	JE   LBB4_1351
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc057f8c5         // vxorps    xmm0, xmm0, xmm0
-
-LBB4_1204:
-	LONG $0x0c6ef9c5; BYTE $0x91   // vmovd    xmm1, dword [rcx + 4*rdx]
-	LONG $0xcf7ef9c5               // vmovd    edi, xmm1
-	WORD $0xff85                   // test    edi, edi
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10048841               // mov    byte [r8 + rdx], al
-	LONG $0x4c6ef9c5; WORD $0x0491 // vmovd    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc87ef9c5               // vmovd    eax, xmm1
-	WORD $0xc085                   // test    eax, eax
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10448841; BYTE $0x01   // mov    byte [r8 + rdx + 1], al
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1204
-	JMP  LBB4_1351
-
-LBB4_411:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8                   // mov    eax, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB4_413
-	LONG $0x01148d48                           // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB4_1205
-	LONG $0x00148d49                           // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB4_1205
-
-LBB4_413:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1208:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1210
-
-LBB4_1209:
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1209
-
-LBB4_1210:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1351
-
-LBB4_1211:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1211
-	JMP  LBB4_1351
-
-LBB4_414:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_416
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1212
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1212
-
-LBB4_416:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_1215:
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1217
-	LONG $0x993c8b42             // mov    edi, dword [rcx + 4*r11]
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x183c8843             // mov    byte [r8 + r11], dil
-	LONG $0x01cb8349             // or    r11, 1
-
-LBB4_1217:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1219:
-	LONG $0x993c8b42             // mov    edi, dword [rcx + 4*r11]
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xff85                 // test    edi, edi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18048843             // mov    byte [r8 + r11], al
-	LONG $0x99448b42; BYTE $0x04 // mov    eax, dword [rcx + 4*r11 + 4]
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc085                 // test    eax, eax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x18448843; BYTE $0x01 // mov    byte [r8 + r11 + 1], al
-	LONG $0x02c38349             // add    r11, 2
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_1219
-	JMP  LBB4_1351
-
-LBB4_417:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_419
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1220
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1220
-
-LBB4_419:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1223:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1225
-
-LBB4_1224:
-	WORD $0xf631     // xor    esi, esi
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40 // setne    sil
-	LONG $0x90348941 // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348 // add    rdx, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB4_1224
-
-LBB4_1225:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1226:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x04917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 4], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x08917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 8], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x0c917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 12], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], esi
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1226
-	JMP  LBB4_1351
-
-LBB4_420:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0xd231             // xor    edx, edx
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_831
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_834
-
-LBB4_423:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_425
-	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1227
-	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1227
-
-LBB4_425:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1230:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1232
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1232:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1234:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1234
-	JMP  LBB4_1351
-
-LBB4_426:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_839
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_842
-
-LBB4_429:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_843
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_846
-
-LBB4_432:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_847
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_850
-
-LBB4_435:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB4_852
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_855
-
-LBB4_438:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB4_857
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_860
-
-LBB4_441:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_443
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1235
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1235
-
-LBB4_443:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1238:
-	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x0149; BYTE $0xc1 // add    r9, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1240
-
-LBB4_1239:
-	WORD $0xf631     // xor    esi, esi
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40 // setne    sil
-	LONG $0x90348941 // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348 // add    rdx, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB4_1239
-
-LBB4_1240:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB4_1351
-
-LBB4_1241:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], esi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90748941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], esi
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1241
-	JMP  LBB4_1351
-
-LBB4_444:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1351
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_446
-	LONG $0x99148d4a         // lea    rdx, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_1242
-	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_1242
-
-LBB4_446:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1245:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1247
-	LONG $0x910c8b44             // mov    r9d, dword [rcx + 4*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1247:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1351
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1249:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	LONG $0x0491448b             // mov    eax, dword [rcx + 4*rdx + 4]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc085                 // test    eax, eax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1249
-	JMP  LBB4_1351
-
-LBB4_922:
-	LONG $0x03fe8348             // cmp    rsi, 3
-	JB   LBB4_1351
-	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_925
-
-LBB4_924:
-	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x18 // vmovq    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_925:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
-	JNE  LBB4_926
-	LONG $0xc9eff1c5               // vpxor    xmm1, xmm1, xmm1
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
-	JE   LBB4_930
-
-LBB4_927:
-	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x08 // vmovq    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JNE  LBB4_928
-
-LBB4_931:
-	LONG $0xc9eff1c5                           // vpxor    xmm1, xmm1, xmm1
-	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x10 // vmovq    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JNE  LBB4_924
-	JMP  LBB4_932
-
-LBB4_926:
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
-	JNE  LBB4_927
-
-LBB4_930:
-	LONG $0xc9eff1c5                           // vpxor    xmm1, xmm1, xmm1
-	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x08 // vmovq    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JE   LBB4_931
-
-LBB4_928:
-	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x10 // vmovq    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JNE  LBB4_924
-
-LBB4_932:
-	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_924
-
-LBB4_1133:
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JB   LBB4_1351
-	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1136
-
-LBB4_1135:
-	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x0c // vmovd    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_1136:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
-	JNE  LBB4_1137
-	LONG $0xc9eff1c5               // vpxor    xmm1, xmm1, xmm1
-	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
-	JE   LBB4_1141
-
-LBB4_1138:
-	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x04 // vmovd    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JNE  LBB4_1139
-
-LBB4_1142:
-	LONG $0xc9eff1c5                           // vpxor    xmm1, xmm1, xmm1
-	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x08 // vmovd    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JNE  LBB4_1135
-	JMP  LBB4_1143
-
-LBB4_1137:
-	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
-	JNE  LBB4_1138
-
-LBB4_1141:
-	LONG $0xc9eff1c5                           // vpxor    xmm1, xmm1, xmm1
-	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x04 // vmovd    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JE   LBB4_1142
-
-LBB4_1139:
-	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x08 // vmovd    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
-	JNE  LBB4_1135
-
-LBB4_1143:
-	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_1135
-
-LBB4_450:
-	WORD $0xc689                         // mov    esi, eax
-	WORD $0xe683; BYTE $0xfc             // and    esi, -4
-	LONG $0xfc568d48                     // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1             // mov    r9, rdx
-	LONG $0x02e9c149                     // shr    r9, 2
-	LONG $0x01c18349                     // add    r9, 1
-	WORD $0x8548; BYTE $0xd2             // test    rdx, rdx
-	JE   LBB4_1288
-	WORD $0x894c; BYTE $0xca             // mov    rdx, r9
-	LONG $0xfee28348                     // and    rdx, -2
-	WORD $0xf748; BYTE $0xda             // neg    rdx
-	WORD $0xff31                         // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x0045       // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x197de2c4; WORD $0x084d       // vbroadcastsd    ymm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x573941c4; BYTE $0xc0         // vxorpd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x185d       // vbroadcastsd    ymm3, qword 24[rbp] /* [rip + .LCPI4_7] */
-	QUAD $0x000094a51879e2c4; BYTE $0x00 // vbroadcastss    xmm4, dword 148[rbp] /* [rip + .LCPI4_4] */
-
-LBB4_452:
-	LONG $0x2c10fdc5; BYTE $0xf9               // vmovupd    ymm5, yword [rcx + 8*rdi]
-	LONG $0xf5c2bdc5; BYTE $0x00               // vcmpeqpd    ymm6, ymm8, ymm5
-	LONG $0xe854d5c5                           // vandpd    ymm5, ymm5, ymm0
-	LONG $0xed56f5c5                           // vorpd    ymm5, ymm1, ymm5
-	LONG $0xfbc2d5c5; BYTE $0x01               // vcmpltpd    ymm7, ymm5, ymm3
-	LONG $0x197de3c4; WORD $0x01fa             // vextractf128    xmm2, ymm7, 1
-	LONG $0xd26bc1c5                           // vpackssdw    xmm2, xmm7, xmm2
-	LONG $0xfb5cd5c5                           // vsubpd    ymm7, ymm5, ymm3
-	LONG $0xffe6fdc5                           // vcvttpd2dq    xmm7, ymm7
-	LONG $0xede6fdc5                           // vcvttpd2dq    xmm5, ymm5
-	LONG $0xfc57c1c5                           // vxorpd    xmm7, xmm7, xmm4
-	LONG $0x4a41e3c4; WORD $0x20d5             // vblendvps    xmm2, xmm7, xmm5, xmm2
-	LONG $0x197de3c4; WORD $0x01f5             // vextractf128    xmm5, ymm6, 1
-	LONG $0xed6bc9c5                           // vpackssdw    xmm5, xmm6, xmm5
-	LONG $0xd2dfd1c5                           // vpandn    xmm2, xmm5, xmm2
-	LONG $0x7f7ac1c4; WORD $0xb814             // vmovdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x5410fdc5; WORD $0x20f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 32]
-	LONG $0xeac2bdc5; BYTE $0x00               // vcmpeqpd    ymm5, ymm8, ymm2
-	LONG $0x197de3c4; WORD $0x01ee             // vextractf128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xd054edc5                           // vandpd    ymm2, ymm2, ymm0
-	LONG $0xd256f5c5                           // vorpd    ymm2, ymm1, ymm2
-	LONG $0xf3c2edc5; BYTE $0x01               // vcmpltpd    ymm6, ymm2, ymm3
-	LONG $0x197de3c4; WORD $0x01f7             // vextractf128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xfb5cedc5                           // vsubpd    ymm7, ymm2, ymm3
-	LONG $0xffe6fdc5                           // vcvttpd2dq    xmm7, ymm7
-	LONG $0xfc57c1c5                           // vxorpd    xmm7, xmm7, xmm4
-	LONG $0xd2e6fdc5                           // vcvttpd2dq    xmm2, ymm2
-	LONG $0x4a41e3c4; WORD $0x60d2             // vblendvps    xmm2, xmm7, xmm2, xmm6
-	LONG $0xd2dfd1c5                           // vpandn    xmm2, xmm5, xmm2
-	LONG $0x7f7ac1c4; WORD $0xb854; BYTE $0x10 // vmovdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB4_452
-	JMP  LBB4_1289
-
-LBB4_456:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_457:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x7f7ac1c4; WORD $0xb01c             // vmovdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0xb064; BYTE $0x10 // vmovdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0xb06c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0xb074; BYTE $0x30 // vmovdqu    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_457
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_459:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_459
-	JMP  LBB4_1351
-
-LBB4_460:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_461:
-	LONG $0x1c75f9c5; BYTE $0x71               // vpcmpeqw    xmm3, xmm0, oword [rcx + 2*rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x337de2c4; BYTE $0xdb               // vpmovzxwd    ymm3, xmm3
-	LONG $0x6475f9c5; WORD $0x1071             // vpcmpeqw    xmm4, xmm0, oword [rcx + 2*rsi + 16]
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x337de2c4; BYTE $0xe4               // vpmovzxwd    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0x6c75f9c5; WORD $0x2071             // vpcmpeqw    xmm5, xmm0, oword [rcx + 2*rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x337de2c4; BYTE $0xed               // vpmovzxwd    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0x7475f9c5; WORD $0x3071             // vpcmpeqw    xmm6, xmm0, oword [rcx + 2*rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x337de2c4; BYTE $0xf6               // vpmovzxwd    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xb01c             // vmovdqu    yword [r8 + 4*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xb074; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_461
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_463:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_463
-	JMP  LBB4_1351
-
-LBB4_464:
-	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x00009c95187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_465:
-	LONG $0x1c6ffac5; BYTE $0x71               // vmovdqu    xmm3, oword [rcx + 2*rsi]
-	LONG $0x646ffac5; WORD $0x1071             // vmovdqu    xmm4, oword [rcx + 2*rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x2071             // vmovdqu    xmm5, oword [rcx + 2*rsi + 32]
-	LONG $0x746ffac5; WORD $0x3071             // vmovdqu    xmm6, oword [rcx + 2*rsi + 48]
-	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
-	LONG $0x237d62c4; BYTE $0xcf               // vpmovsxwd    ymm9, xmm7
-	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
-	LONG $0x237d62c4; BYTE $0xd1               // vpmovsxwd    ymm10, xmm1
-	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
-	LONG $0x237de2c4; BYTE $0xff               // vpmovsxwd    ymm7, xmm7
-	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
-	LONG $0x237de2c4; BYTE $0xc9               // vpmovsxwd    ymm1, xmm1
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x237de2c4; BYTE $0xdb               // vpmovsxwd    ymm3, xmm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x237de2c4; BYTE $0xe4               // vpmovsxwd    ymm4, xmm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x237de2c4; BYTE $0xed               // vpmovsxwd    ymm5, xmm5
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x237de2c4; BYTE $0xf6               // vpmovsxwd    ymm6, xmm6
-	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_465
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_467:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_468:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_468
-	JMP  LBB4_1351
-
-LBB4_469:
-	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763d41c4; BYTE $0xc0         // vpcmpeqd    ymm8, ymm8, ymm8
-	QUAD $0x00009c951879e2c4; BYTE $0x00 // vbroadcastss    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_470:
-	LONG $0x246ffec5; BYTE $0xf1               // vmovdqu    ymm4, yword [rcx + 8*rsi]
-	LONG $0x6c6ffec5; WORD $0x20f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
-	LONG $0x7c6ffec5; WORD $0x60f1             // vmovdqu    ymm7, yword [rcx + 8*rsi + 96]
-	LONG $0x375de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96b61c5                           // vpackssdw    xmm9, xmm3, xmm1
-	LONG $0x3755e2c4; BYTE $0xc8               // vpcmpgtq    ymm1, ymm5, ymm0
-	LONG $0x397de3c4; WORD $0x01cb             // vextracti128    xmm3, ymm1, 1
-	LONG $0xd36b71c5                           // vpackssdw    xmm10, xmm1, xmm3
-	LONG $0x374de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xd96b61c5                           // vpackssdw    xmm11, xmm3, xmm1
-	LONG $0x3745e2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
-	LONG $0x295de2c4; BYTE $0xd8               // vpcmpeqq    ymm3, ymm4, ymm0
-	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x2955e2c4; BYTE $0xe0               // vpcmpeqq    ymm4, ymm5, ymm0
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0x294de2c4; BYTE $0xe8               // vpcmpeqq    ymm5, ymm6, ymm0
-	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0x2945e2c4; BYTE $0xf0               // vpcmpeqq    ymm6, ymm7, ymm0
-	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0x4a61e3c4; WORD $0x90da             // vblendvps    xmm3, xmm3, xmm2, xmm9
-	LONG $0x4a59e3c4; WORD $0xa0e2             // vblendvps    xmm4, xmm4, xmm2, xmm10
-	LONG $0x4a51e3c4; WORD $0xb0ea             // vblendvps    xmm5, xmm5, xmm2, xmm11
-	LONG $0x4a49e3c4; WORD $0x10ca             // vblendvps    xmm1, xmm6, xmm2, xmm1
-	LONG $0x1178c1c4; WORD $0xb01c             // vmovups    oword [r8 + 4*rsi], xmm3
-	LONG $0x1178c1c4; WORD $0xb064; BYTE $0x10 // vmovups    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x1178c1c4; WORD $0xb06c; BYTE $0x20 // vmovups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x1178c1c4; WORD $0xb04c; BYTE $0x30 // vmovups    oword [r8 + 4*rsi + 48], xmm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_470
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_472:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_473:
-	LONG $0xd13c8b48         // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_473
-	JMP  LBB4_1351
-
-LBB4_474:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8             // and    edx, -8
-	LONG $0xf8728d48                     // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1             // mov    r9, rsi
-	LONG $0x03e9c149                     // shr    r9, 3
-	LONG $0x01c18349                     // add    r9, 1
-	WORD $0x8548; BYTE $0xf6             // test    rsi, rsi
-	JE   LBB4_1294
-	WORD $0x894c; BYTE $0xcf             // mov    rdi, r9
-	LONG $0xfee78348                     // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf             // neg    rdi
-	WORD $0xf631                         // xor    esi, esi
-	QUAD $0x00009c85587de2c4; BYTE $0x00 // vpbroadcastd    ymm0, dword 156[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc957f0c5                     // vxorps    xmm1, xmm1, xmm1
-	QUAD $0x0000a495187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 164[rbp] /* [rip + .LCPI4_10] */
-	QUAD $0x0000949d187de2c4; BYTE $0x00 // vbroadcastss    ymm3, dword 148[rbp] /* [rip + .LCPI4_4] */
-
-LBB4_476:
-	LONG $0x246ffec5; BYTE $0xb1               // vmovdqu    ymm4, yword [rcx + 4*rsi]
-	LONG $0xe472d5c5; BYTE $0x1f               // vpsrad    ymm5, ymm4, 31
-	LONG $0xe8ebd5c5                           // vpor    ymm5, ymm5, ymm0
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0xf2c2d4c5; BYTE $0x01               // vcmpltps    ymm6, ymm5, ymm2
-	LONG $0xfa5cd4c5                           // vsubps    ymm7, ymm5, ymm2
-	LONG $0xff5bfec5                           // vcvttps2dq    ymm7, ymm7
-	LONG $0xfb57c4c5                           // vxorps    ymm7, ymm7, ymm3
-	LONG $0xed5bfec5                           // vcvttps2dq    ymm5, ymm5
-	LONG $0x4a45e3c4; WORD $0x60ed             // vblendvps    ymm5, ymm7, ymm5, ymm6
-	LONG $0xe1c2dcc5; BYTE $0x04               // vcmpneqps    ymm4, ymm4, ymm1
-	LONG $0xe554dcc5                           // vandps    ymm4, ymm4, ymm5
-	LONG $0x117cc1c4; WORD $0xb024             // vmovups    yword [r8 + 4*rsi], ymm4
-	LONG $0x646ffec5; WORD $0x20b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 32]
-	LONG $0xe472d5c5; BYTE $0x1f               // vpsrad    ymm5, ymm4, 31
-	LONG $0xe8ebd5c5                           // vpor    ymm5, ymm5, ymm0
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0xf2c2d4c5; BYTE $0x01               // vcmpltps    ymm6, ymm5, ymm2
-	LONG $0xfa5cd4c5                           // vsubps    ymm7, ymm5, ymm2
-	LONG $0xff5bfec5                           // vcvttps2dq    ymm7, ymm7
-	LONG $0xfb57c4c5                           // vxorps    ymm7, ymm7, ymm3
-	LONG $0xed5bfec5                           // vcvttps2dq    ymm5, ymm5
-	LONG $0x4a45e3c4; WORD $0x60ed             // vblendvps    ymm5, ymm7, ymm5, ymm6
-	LONG $0xe1c2dcc5; BYTE $0x04               // vcmpneqps    ymm4, ymm4, ymm1
-	LONG $0xe554dcc5                           // vandps    ymm4, ymm4, ymm5
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_476
-	JMP  LBB4_1295
-
-LBB4_483:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x00009c8d5879e2c4; BYTE $0x00 // vpbroadcastd    xmm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_484:
-	LONG $0x1476f9c5; BYTE $0xb1               // vpcmpeqd    xmm2, xmm0, oword [rcx + 4*rsi]
-	LONG $0xd1dfe9c5                           // vpandn    xmm2, xmm2, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0x5c76f9c5; WORD $0x10b1             // vpcmpeqd    xmm3, xmm0, oword [rcx + 4*rsi + 16]
-	LONG $0xd9dfe1c5                           // vpandn    xmm3, xmm3, xmm1
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x6476f9c5; WORD $0x20b1             // vpcmpeqd    xmm4, xmm0, oword [rcx + 4*rsi + 32]
-	LONG $0xe1dfd9c5                           // vpandn    xmm4, xmm4, xmm1
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0x6c76f9c5; WORD $0x30b1             // vpcmpeqd    xmm5, xmm0, oword [rcx + 4*rsi + 48]
-	LONG $0xe9dfd1c5                           // vpandn    xmm5, xmm5, xmm1
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_484
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_486:
-	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_488
-
-LBB4_487:
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_488:
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xc86ff9c5 // vmovdqa    xmm1, xmm0
-	JNE  LBB4_487
-	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_487
-
-LBB4_496:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_497:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_497
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_499:
-	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_501
-
-LBB4_500:
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_501:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xc86ff9c5             // vmovdqa    xmm1, xmm0
-	JNE  LBB4_500
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_500
-
-LBB4_503:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_504:
-	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x3379e2c4; BYTE $0xdb               // vpmovzxwd    xmm3, xmm3
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x3379e2c4; BYTE $0xe4               // vpmovzxwd    xmm4, xmm4
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x3379e2c4; BYTE $0xed               // vpmovzxwd    xmm5, xmm5
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x3379e2c4; BYTE $0xf6               // vpmovzxwd    xmm6, xmm6
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_504
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_506:
-	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_508
-
-LBB4_507:
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_508:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xc86ff9c5             // vmovdqa    xmm1, xmm0
-	JNE  LBB4_507
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_507
-
-LBB4_510:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_511:
-	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
-	LONG $0x247d62c4; BYTE $0xcf               // vpmovsxwq    ymm9, xmm7
-	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
-	LONG $0x247d62c4; BYTE $0xd1               // vpmovsxwq    ymm10, xmm1
-	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
-	LONG $0x247de2c4; BYTE $0xff               // vpmovsxwq    ymm7, xmm7
-	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x2379e2c4; BYTE $0xdb               // vpmovsxwd    xmm3, xmm3
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x2379e2c4; BYTE $0xe4               // vpmovsxwd    xmm4, xmm4
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x2379e2c4; BYTE $0xed               // vpmovsxwd    xmm5, xmm5
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0x247de2c4; BYTE $0xc9               // vpmovsxwq    ymm1, xmm1
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x2379e2c4; BYTE $0xf6               // vpmovsxwd    xmm6, xmm6
-	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_511
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_513:
-	LONG $0x4510fbc5; BYTE $0x20 // vmovsd    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
-	LONG $0x4d10fbc5; BYTE $0x08 // vmovsd    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_515
-
-LBB4_514:
-	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_515:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd028f9c5             // vmovapd    xmm2, xmm0
-	JNE  LBB4_517
-	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
-
-LBB4_517:
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JG   LBB4_514
-	LONG $0xda28f9c5 // vmovapd    xmm3, xmm2
-	JMP  LBB4_514
-
-LBB4_519:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x762541c4; BYTE $0xdb   // vpcmpeqd    ymm11, ymm11, ymm11
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_520:
-	LONG $0x1c6ffec5; BYTE $0xf1               // vmovdqu    ymm3, yword [rcx + 8*rsi]
-	LONG $0x646ffec5; WORD $0x20f1             // vmovdqu    ymm4, yword [rcx + 8*rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x40f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 64]
-	LONG $0x746ffec5; WORD $0x60f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 96]
-	LONG $0x3765e2c4; BYTE $0xf8               // vpcmpgtq    ymm7, ymm3, ymm0
-	LONG $0x375d62c4; BYTE $0xc0               // vpcmpgtq    ymm8, ymm4, ymm0
-	LONG $0x375562c4; BYTE $0xc8               // vpcmpgtq    ymm9, ymm5, ymm0
-	LONG $0x374d62c4; BYTE $0xd0               // vpcmpgtq    ymm10, ymm6, ymm0
-	LONG $0x2965e2c4; BYTE $0xd8               // vpcmpeqq    ymm3, ymm3, ymm0
-	LONG $0xdbefa5c5                           // vpxor    ymm3, ymm11, ymm3
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0x295de2c4; BYTE $0xd8               // vpcmpeqq    ymm3, ymm4, ymm0
-	LONG $0xdbefa5c5                           // vpxor    ymm3, ymm11, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x2955e2c4; BYTE $0xe0               // vpcmpeqq    ymm4, ymm5, ymm0
-	LONG $0xe4efa5c5                           // vpxor    ymm4, ymm11, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0x294de2c4; BYTE $0xe8               // vpcmpeqq    ymm5, ymm6, ymm0
-	LONG $0xedefa5c5                           // vpxor    ymm5, ymm11, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0x4b75e3c4; WORD $0x70ca             // vblendvpd    ymm1, ymm1, ymm2, ymm7
-	LONG $0x4b65e3c4; WORD $0x80da             // vblendvpd    ymm3, ymm3, ymm2, ymm8
-	LONG $0x4b5de3c4; WORD $0x90e2             // vblendvpd    ymm4, ymm4, ymm2, ymm9
-	LONG $0x4b55e3c4; WORD $0xa0ea             // vblendvpd    ymm5, ymm5, ymm2, ymm10
-	LONG $0x117dc1c4; WORD $0xf00c             // vmovupd    yword [r8 + 8*rsi], ymm1
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_520
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_522:
-	LONG $0x4510fbc5; BYTE $0x20 // vmovsd    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
-	LONG $0x4d10fbc5; BYTE $0x08 // vmovsd    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_524
-
-LBB4_523:
-	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_524:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd028f9c5             // vmovapd    xmm2, xmm0
-	JNE  LBB4_526
-	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
-
-LBB4_526:
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JG   LBB4_523
-	LONG $0xda28f9c5 // vmovapd    xmm3, xmm2
-	JMP  LBB4_523
-
-LBB4_528:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0x573841c4; BYTE $0xc0         // vxorps    xmm8, xmm8, xmm8
-	QUAD $0x00009c8d5879e2c4; BYTE $0x00 // vpbroadcastd    xmm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_529:
-	LONG $0x1410f8c5; BYTE $0xb1               // vmovups    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c10f8c5; WORD $0x10b1             // vmovups    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0x6410f8c5; WORD $0x20b1             // vmovups    xmm4, oword [rcx + 4*rsi + 32]
-	LONG $0x6c10f8c5; WORD $0x30b1             // vmovups    xmm5, oword [rcx + 4*rsi + 48]
-	LONG $0xf2c2b8c5; BYTE $0x00               // vcmpeqps    xmm6, xmm8, xmm2
-	LONG $0x257de2c4; BYTE $0xf6               // vpmovsxdq    ymm6, xmm6
-	LONG $0xfbc2b8c5; BYTE $0x00               // vcmpeqps    xmm7, xmm8, xmm3
-	LONG $0x257de2c4; BYTE $0xff               // vpmovsxdq    ymm7, xmm7
-	LONG $0xc4c2b8c5; BYTE $0x00               // vcmpeqps    xmm0, xmm8, xmm4
-	LONG $0x257d62c4; BYTE $0xc8               // vpmovsxdq    ymm9, xmm0
-	LONG $0xc5c2b8c5; BYTE $0x00               // vcmpeqps    xmm0, xmm8, xmm5
-	LONG $0x257de2c4; BYTE $0xc0               // vpmovsxdq    ymm0, xmm0
-	LONG $0xe272e9c5; BYTE $0x1f               // vpsrad    xmm2, xmm2, 31
-	LONG $0xd1ebe9c5                           // vpor    xmm2, xmm2, xmm1
-	LONG $0xe372e1c5; BYTE $0x1f               // vpsrad    xmm3, xmm3, 31
-	LONG $0xd9ebe1c5                           // vpor    xmm3, xmm3, xmm1
-	LONG $0xe472d9c5; BYTE $0x1f               // vpsrad    xmm4, xmm4, 31
-	LONG $0xe1ebd9c5                           // vpor    xmm4, xmm4, xmm1
-	LONG $0xe572d1c5; BYTE $0x1f               // vpsrad    xmm5, xmm5, 31
-	LONG $0xe9ebd1c5                           // vpor    xmm5, xmm5, xmm1
-	LONG $0xd25bf8c5                           // vcvtdq2ps    xmm2, xmm2
-	LONG $0xdb5bf8c5                           // vcvtdq2ps    xmm3, xmm3
-	LONG $0xe45bf8c5                           // vcvtdq2ps    xmm4, xmm4
-	LONG $0xed5bf8c5                           // vcvtdq2ps    xmm5, xmm5
-	LONG $0xd25afcc5                           // vcvtps2pd    ymm2, xmm2
-	LONG $0xd2dfcdc5                           // vpandn    ymm2, ymm6, ymm2
-	LONG $0xdb5afcc5                           // vcvtps2pd    ymm3, xmm3
-	LONG $0xdbdfc5c5                           // vpandn    ymm3, ymm7, ymm3
-	LONG $0xe45afcc5                           // vcvtps2pd    ymm4, xmm4
-	LONG $0xed5afcc5                           // vcvtps2pd    ymm5, xmm5
-	LONG $0xe4dfb5c5                           // vpandn    ymm4, ymm9, ymm4
-	LONG $0xc5dffdc5                           // vpandn    ymm0, ymm0, ymm5
-	LONG $0x7f7ec1c4; WORD $0xf014             // vmovdqu    yword [r8 + 8*rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf05c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf044; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm0
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_529
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_531:
-	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
-	JMP  LBB4_533
-
-LBB4_532:
-	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_533:
-	LONG $0x1410fac5; BYTE $0x91 // vmovss    xmm2, dword [rcx + 4*rdx]
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	LONG $0xc22ef8c5             // vucomiss    xmm0, xmm2
-	JE   LBB4_532
-	LONG $0xf250f8c5             // vmovmskps    esi, xmm2
-	WORD $0xe683; BYTE $0x01     // and    esi, 1
-	WORD $0xdef7                 // neg    esi
-	WORD $0xce83; BYTE $0x01     // or    esi, 1
-	LONG $0xce2aaac5             // vcvtsi2ss    xmm1, xmm10, esi
-	LONG $0xc95af2c5             // vcvtss2sd    xmm1, xmm1, xmm1
-	JMP  LBB4_532
-
-LBB4_538:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_539:
-	LONG $0x1c6ffac5; BYTE $0xb1               // vmovdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646ffac5; WORD $0x10b1             // vmovdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x20b1             // vmovdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746ffac5; WORD $0x30b1             // vmovdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xf866e1c5                           // vpcmpgtd    xmm7, xmm3, xmm0
-	LONG $0x257d62c4; BYTE $0xcf               // vpmovsxdq    ymm9, xmm7
-	LONG $0xc866d9c5                           // vpcmpgtd    xmm1, xmm4, xmm0
-	LONG $0x257d62c4; BYTE $0xd1               // vpmovsxdq    ymm10, xmm1
-	LONG $0xf866d1c5                           // vpcmpgtd    xmm7, xmm5, xmm0
-	LONG $0x257de2c4; BYTE $0xff               // vpmovsxdq    ymm7, xmm7
-	LONG $0xc866c9c5                           // vpcmpgtd    xmm1, xmm6, xmm0
-	LONG $0x257de2c4; BYTE $0xc9               // vpmovsxdq    ymm1, xmm1
-	LONG $0xd876e1c5                           // vpcmpeqd    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0xe076d9c5                           // vpcmpeqd    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0xe876d1c5                           // vpcmpeqd    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0xf076c9c5                           // vpcmpeqd    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_539
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_541:
-	LONG $0x4510fbc5; BYTE $0x20 // vmovsd    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
-	LONG $0x4d10fbc5; BYTE $0x08 // vmovsd    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_543
-
-LBB4_542:
-	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_543:
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd028f9c5 // vmovapd    xmm2, xmm0
-	JNE  LBB4_545
-	LONG $0xd257e9c5 // vxorpd    xmm2, xmm2, xmm2
-
-LBB4_545:
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JG   LBB4_542
-	LONG $0xda28f9c5 // vmovapd    xmm3, xmm2
-	JMP  LBB4_542
-
-LBB4_577:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_578:
-	LONG $0x1c76f9c5; BYTE $0xb1               // vpcmpeqd    xmm3, xmm0, oword [rcx + 4*rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x357de2c4; BYTE $0xdb               // vpmovzxdq    ymm3, xmm3
-	LONG $0x6476f9c5; WORD $0x10b1             // vpcmpeqd    xmm4, xmm0, oword [rcx + 4*rsi + 16]
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x357de2c4; BYTE $0xe4               // vpmovzxdq    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0x6c76f9c5; WORD $0x20b1             // vpcmpeqd    xmm5, xmm0, oword [rcx + 4*rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x357de2c4; BYTE $0xed               // vpmovzxdq    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0x7476f9c5; WORD $0x30b1             // vpcmpeqd    xmm6, xmm0, oword [rcx + 4*rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x357de2c4; BYTE $0xf6               // vpmovzxdq    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_578
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_580:
-	WORD $0xf631             // xor    esi, esi
-	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40         // setne    sil
-	LONG $0xd0348949         // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JNE  LBB4_580
-	JMP  LBB4_1351
-
-LBB4_581:
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc       // and    esi, -4
-	LONG $0xfc468d48               // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1       // mov    r9, rax
-	LONG $0x02e9c149               // shr    r9, 2
-	LONG $0x01c18349               // add    r9, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB4_1282
-	WORD $0x894d; BYTE $0xce       // mov    r14, r9
-	LONG $0xfee68349               // and    r14, -2
-	WORD $0xf749; BYTE $0xde       // neg    r14
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x573941c4; BYTE $0xc0   // vxorpd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x5d10fbc5; BYTE $0x10   // vmovsd    xmm3, qword 16[rbp] /* [rip + .LCPI4_6] */
-
-LBB4_583:
-	LONG $0x2410fdc5; BYTE $0xf9               // vmovupd    ymm4, yword [rcx + 8*rdi]
-	LONG $0xe854ddc5                           // vandpd    ymm5, ymm4, ymm0
-	LONG $0xed56edc5                           // vorpd    ymm5, ymm2, ymm5
-	LONG $0x197de3c4; WORD $0x01ee             // vextractf128    xmm6, ymm5, 1
-	LONG $0xfb5ccbc5                           // vsubsd    xmm7, xmm6, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xdf               // vcvttsd2si    rbx, xmm7
-	WORD $0x314c; BYTE $0xdb                   // xor    rbx, r11
-	LONG $0x2cfbe1c4; BYTE $0xd6               // vcvttsd2si    rdx, xmm6
-	LONG $0xf32ef9c5                           // vucomisd    xmm6, xmm3
-	LONG $0xd3430f48                           // cmovae    rdx, rbx
-	LONG $0x0479e3c4; WORD $0x4ef6             // vpermilps    xmm6, xmm6, 78
-	LONG $0xfb5ccbc5                           // vsubsd    xmm7, xmm6, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xdf               // vcvttsd2si    rbx, xmm7
-	WORD $0x314c; BYTE $0xdb                   // xor    rbx, r11
-	LONG $0x2cfbe1c4; BYTE $0xc6               // vcvttsd2si    rax, xmm6
-	LONG $0xf32ef9c5                           // vucomisd    xmm6, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xf2               // vmovq    xmm6, rdx
-	LONG $0xc3430f48                           // cmovae    rax, rbx
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0xcb5cd3c5                           // vsubsd    xmm1, xmm5, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xc1               // vcvttsd2si    rax, xmm1
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd5               // vcvttsd2si    rdx, xmm5
-	LONG $0xeb2ef9c5                           // vucomisd    xmm5, xmm3
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0x0479e3c4; WORD $0x4ecd             // vpermilps    xmm1, xmm5, 78
-	LONG $0xeb5cf3c5                           // vsubsd    xmm5, xmm1, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xc5               // vcvttsd2si    rax, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xea               // vmovq    xmm5, rdx
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd1               // vcvttsd2si    rdx, xmm1
-	LONG $0xcb2ef9c5                           // vucomisd    xmm1, xmm3
-	LONG $0xcf6cc9c5                           // vpunpcklqdq    xmm1, xmm6, xmm7
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xf2               // vmovq    xmm6, rdx
-	LONG $0xee6cd1c5                           // vpunpcklqdq    xmm5, xmm5, xmm6
-	LONG $0x3855e3c4; WORD $0x01c9             // vinserti128    ymm1, ymm5, xmm1, 1
-	LONG $0xe4c2bdc5; BYTE $0x04               // vcmpneqpd    ymm4, ymm8, ymm4
-	LONG $0xc954ddc5                           // vandpd    ymm1, ymm4, ymm1
-	LONG $0x117dc1c4; WORD $0xf80c             // vmovupd    yword [r8 + 8*rdi], ymm1
-	LONG $0x6410fdc5; WORD $0x20f9             // vmovupd    ymm4, yword [rcx + 8*rdi + 32]
-	LONG $0xc854ddc5                           // vandpd    ymm1, ymm4, ymm0
-	LONG $0xc956edc5                           // vorpd    ymm1, ymm2, ymm1
-	LONG $0x197de3c4; WORD $0x01cd             // vextractf128    xmm5, ymm1, 1
-	LONG $0xf35cd3c5                           // vsubsd    xmm6, xmm5, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xc6               // vcvttsd2si    rax, xmm6
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd5               // vcvttsd2si    rdx, xmm5
-	LONG $0xeb2ef9c5                           // vucomisd    xmm5, xmm3
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0x0479e3c4; WORD $0x4eed             // vpermilps    xmm5, xmm5, 78
-	LONG $0xf35cd3c5                           // vsubsd    xmm6, xmm5, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xc6               // vcvttsd2si    rax, xmm6
-	LONG $0x6ef9e1c4; BYTE $0xf2               // vmovq    xmm6, rdx
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd5               // vcvttsd2si    rdx, xmm5
-	LONG $0xeb2ef9c5                           // vucomisd    xmm5, xmm3
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xea               // vmovq    xmm5, rdx
-	LONG $0xfb5cf3c5                           // vsubsd    xmm7, xmm1, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xc7               // vcvttsd2si    rax, xmm7
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd1               // vcvttsd2si    rdx, xmm1
-	LONG $0xcb2ef9c5                           // vucomisd    xmm1, xmm3
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0x0479e3c4; WORD $0x4ec9             // vpermilps    xmm1, xmm1, 78
-	LONG $0xf35cf3c5                           // vsubsd    xmm6, xmm1, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xc6               // vcvttsd2si    rax, xmm6
-	LONG $0x6ef9e1c4; BYTE $0xf2               // vmovq    xmm6, rdx
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd1               // vcvttsd2si    rdx, xmm1
-	LONG $0xcb2ef9c5                           // vucomisd    xmm1, xmm3
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xca               // vmovq    xmm1, rdx
-	LONG $0xc96cc9c5                           // vpunpcklqdq    xmm1, xmm6, xmm1
-	LONG $0x3875e3c4; WORD $0x01cd             // vinserti128    ymm1, ymm1, xmm5, 1
-	LONG $0xe4c2bdc5; BYTE $0x04               // vcmpneqpd    ymm4, ymm8, ymm4
-	LONG $0xc954ddc5                           // vandpd    ymm1, ymm4, ymm1
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68349                           // add    r14, 2
-	JNE  LBB4_583
-	JMP  LBB4_1283
-
-LBB4_590:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_591:
-	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x347de2c4; BYTE $0xdb               // vpmovzxwq    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x347de2c4; BYTE $0xe4               // vpmovzxwq    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x347de2c4; BYTE $0xed               // vpmovzxwq    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x347de2c4; BYTE $0xf6               // vpmovzxwq    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_591
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_593:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_593
-	JMP  LBB4_1351
-
-LBB4_594:
-	WORD $0x8944; BYTE $0xd2       // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_595:
-	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
-	LONG $0x247d62c4; BYTE $0xcf               // vpmovsxwq    ymm9, xmm7
-	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
-	LONG $0x247d62c4; BYTE $0xd1               // vpmovsxwq    ymm10, xmm1
-	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
-	LONG $0x247de2c4; BYTE $0xff               // vpmovsxwq    ymm7, xmm7
-	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
-	LONG $0x247de2c4; BYTE $0xc9               // vpmovsxwq    ymm1, xmm1
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x247de2c4; BYTE $0xdb               // vpmovsxwq    ymm3, xmm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x247de2c4; BYTE $0xe4               // vpmovsxwq    ymm4, xmm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x247de2c4; BYTE $0xed               // vpmovsxwq    ymm5, xmm5
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x247de2c4; BYTE $0xf6               // vpmovsxwq    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_595
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_597:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_598:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_598
-	JMP  LBB4_1351
-
-LBB4_602:
-	WORD $0x8944; BYTE $0xd6               // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfe               // and    esi, -2
-	WORD $0xc031                           // xor    eax, eax
-	LONG $0xc057f8c5                       // vxorps    xmm0, xmm0, xmm0
-	QUAD $0x000000a08d10fac5               // vmovss    xmm1, dword 160[rbp] /* [rip + .LCPI4_9] */
-	QUAD $0x000000000000b949; WORD $0x8000 // mov    r9, -9223372036854775808
-	JMP  LBB4_605
-
-LBB4_603:
-	LONG $0xd250f8c5             // vmovmskps    edx, xmm2
-	WORD $0xe283; BYTE $0x01     // and    edx, 1
-	WORD $0xdaf7                 // neg    edx
-	WORD $0xca83; BYTE $0x01     // or    edx, 1
-	LONG $0xd22adac5             // vcvtsi2ss    xmm2, xmm4, edx
-	LONG $0xd95ceac5             // vsubss    xmm3, xmm2, xmm1
-	LONG $0x2cfae1c4; BYTE $0xfb // vcvttss2si    rdi, xmm3
-	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
-	LONG $0x2cfae1c4; BYTE $0xd2 // vcvttss2si    rdx, xmm2
-	LONG $0xd12ef8c5             // vucomiss    xmm2, xmm1
-	LONG $0xd7430f48             // cmovae    rdx, rdi
-	LONG $0xc0548949; BYTE $0x08 // mov    qword [r8 + 8*rax + 8], rdx
-	LONG $0x02c08348             // add    rax, 2
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JE   LBB4_254
-
-LBB4_605:
-	LONG $0x1410fac5; BYTE $0x81 // vmovss    xmm2, dword [rcx + 4*rax]
-	LONG $0xc22ef8c5             // vucomiss    xmm0, xmm2
-	JNE  LBB4_607
-	WORD $0xd231                 // xor    edx, edx
-	JMP  LBB4_608
-
-LBB4_607:
-	LONG $0xd250f8c5             // vmovmskps    edx, xmm2
-	WORD $0xe283; BYTE $0x01     // and    edx, 1
-	WORD $0xdaf7                 // neg    edx
-	WORD $0xca83; BYTE $0x01     // or    edx, 1
-	LONG $0xd22adac5             // vcvtsi2ss    xmm2, xmm4, edx
-	LONG $0xd95ceac5             // vsubss    xmm3, xmm2, xmm1
-	LONG $0x2cfae1c4; BYTE $0xfb // vcvttss2si    rdi, xmm3
-	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
-	LONG $0x2cfae1c4; BYTE $0xd2 // vcvttss2si    rdx, xmm2
-	LONG $0xd12ef8c5             // vucomiss    xmm2, xmm1
-	LONG $0xd7430f48             // cmovae    rdx, rdi
-
-LBB4_608:
-	LONG $0xc0148949               // mov    qword [r8 + 8*rax], rdx
-	LONG $0x5410fac5; WORD $0x0481 // vmovss    xmm2, dword [rcx + 4*rax + 4]
-	LONG $0xc22ef8c5               // vucomiss    xmm0, xmm2
-	JNE  LBB4_603
-	WORD $0xd231                   // xor    edx, edx
-	LONG $0xc0548949; BYTE $0x08   // mov    qword [r8 + 8*rax + 8], rdx
-	LONG $0x02c08348               // add    rax, 2
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JNE  LBB4_605
-
-LBB4_254:
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1351
-	LONG $0x0410fac5; BYTE $0x81 // vmovss    xmm0, dword [rcx + 4*rax]
-	LONG $0xc957f0c5             // vxorps    xmm1, xmm1, xmm1
-	LONG $0xc82ef8c5             // vucomiss    xmm1, xmm0
-	JNE  LBB4_1280
-	WORD $0xc931                 // xor    ecx, ecx
-	JMP  LBB4_1281
-
-LBB4_613:
-	WORD $0x8944; BYTE $0xd2       // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_614:
-	LONG $0x1c6ffac5; BYTE $0xb1               // vmovdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646ffac5; WORD $0x10b1             // vmovdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x20b1             // vmovdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746ffac5; WORD $0x30b1             // vmovdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xf866e1c5                           // vpcmpgtd    xmm7, xmm3, xmm0
-	LONG $0x257d62c4; BYTE $0xcf               // vpmovsxdq    ymm9, xmm7
-	LONG $0xc866d9c5                           // vpcmpgtd    xmm1, xmm4, xmm0
-	LONG $0x257d62c4; BYTE $0xd1               // vpmovsxdq    ymm10, xmm1
-	LONG $0xf866d1c5                           // vpcmpgtd    xmm7, xmm5, xmm0
-	LONG $0x257de2c4; BYTE $0xff               // vpmovsxdq    ymm7, xmm7
-	LONG $0xc866c9c5                           // vpcmpgtd    xmm1, xmm6, xmm0
-	LONG $0x257de2c4; BYTE $0xc9               // vpmovsxdq    ymm1, xmm1
-	LONG $0xd876e1c5                           // vpcmpeqd    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x257de2c4; BYTE $0xdb               // vpmovsxdq    ymm3, xmm3
-	LONG $0xe076d9c5                           // vpcmpeqd    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x257de2c4; BYTE $0xe4               // vpmovsxdq    ymm4, xmm4
-	LONG $0xe876d1c5                           // vpcmpeqd    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x257de2c4; BYTE $0xed               // vpmovsxdq    ymm5, xmm5
-	LONG $0xf076c9c5                           // vpcmpeqd    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x257de2c4; BYTE $0xf6               // vpmovsxdq    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_614
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_616:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_617:
-	WORD $0x3c8b; BYTE $0x91 // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0xff85             // test    edi, edi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff85             // test    edi, edi
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_617
-	JMP  LBB4_1351
-
-LBB4_618:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-
-LBB4_619:
-	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd1efedc5                           // vpxor    ymm2, ymm2, ymm1
-	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5                           // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd271e9c5; BYTE $0x0f               // vpsrlw    xmm2, xmm2, 15
-	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xd371e1c5; BYTE $0x0f               // vpsrlw    xmm3, xmm3, 15
-	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xd471d9c5; BYTE $0x0f               // vpsrlw    xmm4, xmm4, 15
-	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xd571d1c5; BYTE $0x0f               // vpsrlw    xmm5, xmm5, 15
-	LONG $0x7f7ac1c4; WORD $0x7014             // vmovdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f7ac1c4; WORD $0x705c; BYTE $0x10 // vmovdqu    oword [r8 + 2*rsi + 16], xmm3
-	LONG $0x7f7ac1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    oword [r8 + 2*rsi + 32], xmm4
-	LONG $0x7f7ac1c4; WORD $0x706c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rsi + 48], xmm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_619
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_621:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_621
-	JMP  LBB4_1351
-
-LBB4_622:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-
-LBB4_623:
-	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd1efedc5                           // vpxor    ymm2, ymm2, ymm1
-	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5                           // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd271e9c5; BYTE $0x0f               // vpsrlw    xmm2, xmm2, 15
-	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xd371e1c5; BYTE $0x0f               // vpsrlw    xmm3, xmm3, 15
-	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xd471d9c5; BYTE $0x0f               // vpsrlw    xmm4, xmm4, 15
-	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xd571d1c5; BYTE $0x0f               // vpsrlw    xmm5, xmm5, 15
-	LONG $0x7f7ac1c4; WORD $0x7014             // vmovdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f7ac1c4; WORD $0x705c; BYTE $0x10 // vmovdqu    oword [r8 + 2*rsi + 16], xmm3
-	LONG $0x7f7ac1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    oword [r8 + 2*rsi + 32], xmm4
-	LONG $0x7f7ac1c4; WORD $0x706c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rsi + 48], xmm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_623
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_625:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_625
-	JMP  LBB4_1351
-
-LBB4_626:
-	WORD $0xc689                   // mov    esi, eax
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x573141c4; BYTE $0xc9   // vxorpd    xmm9, xmm9, xmm9
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xef2941c4; BYTE $0xd2   // vpxor    xmm10, xmm10, xmm10
-
-LBB4_627:
-	LONG $0x2410fdc5; BYTE $0xf9   // vmovupd    ymm4, yword [rcx + 8*rdi]
-	LONG $0x6c10fdc5; WORD $0x20f9 // vmovupd    ymm5, yword [rcx + 8*rdi + 32]
-	LONG $0x7410fdc5; WORD $0x40f9 // vmovupd    ymm6, yword [rcx + 8*rdi + 64]
-	LONG $0x7c10fdc5; WORD $0x60f9 // vmovupd    ymm7, yword [rcx + 8*rdi + 96]
-	LONG $0xc4c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm4
-	LONG $0x197d63c4; WORD $0x01c1 // vextractf128    xmm1, ymm8, 1
-	LONG $0xc96bb9c5               // vpackssdw    xmm1, xmm8, xmm1
-	LONG $0xd96b71c5               // vpackssdw    xmm11, xmm1, xmm1
-	LONG $0xc5c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm5
-	LONG $0x197d63c4; WORD $0x01c3 // vextractf128    xmm3, ymm8, 1
-	LONG $0xdb6bb9c5               // vpackssdw    xmm3, xmm8, xmm3
-	LONG $0xe36b61c5               // vpackssdw    xmm12, xmm3, xmm3
-	LONG $0xc6c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm6
-	LONG $0x197d63c4; WORD $0x01c1 // vextractf128    xmm1, ymm8, 1
-	LONG $0xc96bb9c5               // vpackssdw    xmm1, xmm8, xmm1
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc7c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm7
-	LONG $0x197d63c4; WORD $0x01c3 // vextractf128    xmm3, ymm8, 1
-	LONG $0xdb6bb9c5               // vpackssdw    xmm3, xmm8, xmm3
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xe054ddc5               // vandpd    ymm4, ymm4, ymm0
-	LONG $0xe456edc5               // vorpd    ymm4, ymm2, ymm4
-	LONG $0xe854d5c5               // vandpd    ymm5, ymm5, ymm0
-	LONG $0xed56edc5               // vorpd    ymm5, ymm2, ymm5
-	LONG $0xf054cdc5               // vandpd    ymm6, ymm6, ymm0
-	LONG $0xf656edc5               // vorpd    ymm6, ymm2, ymm6
-	LONG $0xf854c5c5               // vandpd    ymm7, ymm7, ymm0
-	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
-	LONG $0xe4e6fdc5               // vcvttpd2dq    xmm4, ymm4
-	LONG $0xede6fdc5               // vcvttpd2dq    xmm5, ymm5
-	LONG $0x2b59e2c4; BYTE $0xe4   // vpackusdw    xmm4, xmm4, xmm4
-	LONG $0x2b51e2c4; BYTE $0xed   // vpackusdw    xmm5, xmm5, xmm5
-	LONG $0xf6e6fdc5               // vcvttpd2dq    xmm6, ymm6
-	LONG $0x2b49e2c4; BYTE $0xf6   // vpackusdw    xmm6, xmm6, xmm6
-	LONG $0xffe6fdc5               // vcvttpd2dq    xmm7, ymm7
-	LONG $0x2b41e2c4; BYTE $0xff   // vpackusdw    xmm7, xmm7, xmm7
-	LONG $0x4c59c3c4; WORD $0xb0e2 // vpblendvb    xmm4, xmm4, xmm10, xmm11
-	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
-	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
-	LONG $0x4c41c3c4; WORD $0x30da // vpblendvb    xmm3, xmm7, xmm10, xmm3
-	LONG $0x3875e3c4; WORD $0x01cb // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x385de3c4; WORD $0x01dd // vinserti128    ymm3, ymm4, xmm5, 1
-	LONG $0xc96ce5c5               // vpunpcklqdq    ymm1, ymm3, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
-	LONG $0x7f7ec1c4; WORD $0x780c // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x10c78348               // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB4_627
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JE   LBB4_1351
-
-LBB4_629:
-	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_630:
-	LONG $0x1c10fbc5; BYTE $0xf1 // vmovsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5             // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfa     // cmove    edi, edx
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_630
-	JMP  LBB4_1351
-
-LBB4_631:
-	WORD $0xc689                   // mov    esi, eax
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x573141c4; BYTE $0xc9   // vxorpd    xmm9, xmm9, xmm9
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xef2941c4; BYTE $0xd2   // vpxor    xmm10, xmm10, xmm10
-
-LBB4_632:
-	LONG $0x2410fdc5; BYTE $0xf9   // vmovupd    ymm4, yword [rcx + 8*rdi]
-	LONG $0x6c10fdc5; WORD $0x20f9 // vmovupd    ymm5, yword [rcx + 8*rdi + 32]
-	LONG $0x7410fdc5; WORD $0x40f9 // vmovupd    ymm6, yword [rcx + 8*rdi + 64]
-	LONG $0x7c10fdc5; WORD $0x60f9 // vmovupd    ymm7, yword [rcx + 8*rdi + 96]
-	LONG $0xc4c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm4
-	LONG $0x197d63c4; WORD $0x01c1 // vextractf128    xmm1, ymm8, 1
-	LONG $0xc96bb9c5               // vpackssdw    xmm1, xmm8, xmm1
-	LONG $0xd96b71c5               // vpackssdw    xmm11, xmm1, xmm1
-	LONG $0xc5c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm5
-	LONG $0x197d63c4; WORD $0x01c3 // vextractf128    xmm3, ymm8, 1
-	LONG $0xdb6bb9c5               // vpackssdw    xmm3, xmm8, xmm3
-	LONG $0xe36b61c5               // vpackssdw    xmm12, xmm3, xmm3
-	LONG $0xc6c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm6
-	LONG $0x197d63c4; WORD $0x01c1 // vextractf128    xmm1, ymm8, 1
-	LONG $0xc96bb9c5               // vpackssdw    xmm1, xmm8, xmm1
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc7c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm7
-	LONG $0x197d63c4; WORD $0x01c3 // vextractf128    xmm3, ymm8, 1
-	LONG $0xdb6bb9c5               // vpackssdw    xmm3, xmm8, xmm3
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xe054ddc5               // vandpd    ymm4, ymm4, ymm0
-	LONG $0xe456edc5               // vorpd    ymm4, ymm2, ymm4
-	LONG $0xe854d5c5               // vandpd    ymm5, ymm5, ymm0
-	LONG $0xed56edc5               // vorpd    ymm5, ymm2, ymm5
-	LONG $0xf054cdc5               // vandpd    ymm6, ymm6, ymm0
-	LONG $0xf656edc5               // vorpd    ymm6, ymm2, ymm6
-	LONG $0xf854c5c5               // vandpd    ymm7, ymm7, ymm0
-	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
-	LONG $0xe4e6fdc5               // vcvttpd2dq    xmm4, ymm4
-	LONG $0xede6fdc5               // vcvttpd2dq    xmm5, ymm5
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xf6e6fdc5               // vcvttpd2dq    xmm6, ymm6
-	LONG $0xf66bc9c5               // vpackssdw    xmm6, xmm6, xmm6
-	LONG $0xffe6fdc5               // vcvttpd2dq    xmm7, ymm7
-	LONG $0xff6bc1c5               // vpackssdw    xmm7, xmm7, xmm7
-	LONG $0x4c59c3c4; WORD $0xb0e2 // vpblendvb    xmm4, xmm4, xmm10, xmm11
-	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
-	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
-	LONG $0x4c41c3c4; WORD $0x30da // vpblendvb    xmm3, xmm7, xmm10, xmm3
-	LONG $0x3875e3c4; WORD $0x01cb // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x385de3c4; WORD $0x01dd // vinserti128    ymm3, ymm4, xmm5, 1
-	LONG $0xc96ce5c5               // vpunpcklqdq    ymm1, ymm3, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
-	LONG $0x7f7ec1c4; WORD $0x780c // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x10c78348               // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB4_632
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JE   LBB4_1351
-
-LBB4_634:
-	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_635:
-	LONG $0x1c10fbc5; BYTE $0xf1 // vmovsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5             // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfa     // cmove    edi, edx
-	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_635
-	JMP  LBB4_1351
-
-LBB4_642:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ff9c5; BYTE $0x60 // vmovdqa    xmm2, oword 96[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_643:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb6be1c5                           // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed6bd1c5                           // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf66bc9c5                           // vpackssdw    xmm6, xmm6, xmm6
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x3865e3c4; WORD $0x01dc             // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0xdd6ce5c5                           // vpunpcklqdq    ymm3, ymm3, ymm5
-	LONG $0x00fde3c4; WORD $0xd8db             // vpermq    ymm3, ymm3, 216
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_643
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_645:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_645
-	JMP  LBB4_1351
-
-LBB4_646:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ff9c5; BYTE $0x60 // vmovdqa    xmm2, oword 96[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_647:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb6be1c5                           // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed6bd1c5                           // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf66bc9c5                           // vpackssdw    xmm6, xmm6, xmm6
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x3865e3c4; WORD $0x01dc             // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0xdd6ce5c5                           // vpunpcklqdq    ymm3, ymm3, ymm5
-	LONG $0x00fde3c4; WORD $0xd8db             // vpermq    ymm3, ymm3, 216
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_647
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_649:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_649
-	JMP  LBB4_1351
-
-LBB4_662:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
-	LONG $0x556f79c5; BYTE $0x60 // vmovdqa    xmm10, oword 96[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_663:
-	LONG $0x3c6ffec5; BYTE $0xf1   // vmovdqu    ymm7, yword [rcx + 8*rsi]
-	LONG $0x446f7ec5; WORD $0x20f1 // vmovdqu    ymm8, yword [rcx + 8*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40f1 // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60f1 // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
-	LONG $0x3745e2c4; BYTE $0xd8   // vpcmpgtq    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb6b61c5               // vpackssdw    xmm11, xmm3, xmm3
-	LONG $0x373de2c4; BYTE $0xe8   // vpcmpgtq    ymm5, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01e9 // vextracti128    xmm1, ymm5, 1
-	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
-	LONG $0xe16b71c5               // vpackssdw    xmm12, xmm1, xmm1
-	LONG $0x374de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0x375de2c4; BYTE $0xd0   // vpcmpgtq    ymm2, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0x2945e2c4; BYTE $0xd8   // vpcmpeqq    ymm3, ymm7, ymm0
-	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
-	LONG $0x397de3c4; WORD $0x01df // vextracti128    xmm7, ymm3, 1
-	LONG $0xdf6be1c5               // vpackssdw    xmm3, xmm3, xmm7
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0x293de2c4; BYTE $0xf8   // vpcmpeqq    ymm7, ymm8, ymm0
-	LONG $0xffefb5c5               // vpxor    ymm7, ymm9, ymm7
-	LONG $0x397de3c4; WORD $0x01fd // vextracti128    xmm5, ymm7, 1
-	LONG $0xed6bc1c5               // vpackssdw    xmm5, xmm7, xmm5
-	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0x294de2c4; BYTE $0xf0   // vpcmpeqq    ymm6, ymm6, ymm0
-	LONG $0xf6efb5c5               // vpxor    ymm6, ymm9, ymm6
-	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf66bc9c5               // vpackssdw    xmm6, xmm6, xmm6
-	LONG $0x295de2c4; BYTE $0xe0   // vpcmpeqq    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e7 // vextracti128    xmm7, ymm4, 1
-	LONG $0xe76bd9c5               // vpackssdw    xmm4, xmm4, xmm7
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0x4c61c3c4; WORD $0xb0da // vpblendvb    xmm3, xmm3, xmm10, xmm11
-	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
-	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
-	LONG $0x4c59c3c4; WORD $0x20d2 // vpblendvb    xmm2, xmm4, xmm10, xmm2
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x3865e3c4; WORD $0x01d5 // vinserti128    ymm2, ymm3, xmm5, 1
-	LONG $0xc96cedc5               // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
-	LONG $0x7f7ec1c4; WORD $0x700c // vmovdqu    yword [r8 + 2*rsi], ymm1
-	LONG $0x10c68348               // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_663
-	WORD $0x394c; BYTE $0xd2       // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_665:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_666:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_666
-	JMP  LBB4_1351
-
-LBB4_667:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
-	LONG $0x556f79c5; BYTE $0x60 // vmovdqa    xmm10, oword 96[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_668:
-	LONG $0x3c6ffec5; BYTE $0xf1   // vmovdqu    ymm7, yword [rcx + 8*rsi]
-	LONG $0x446f7ec5; WORD $0x20f1 // vmovdqu    ymm8, yword [rcx + 8*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40f1 // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60f1 // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
-	LONG $0x3745e2c4; BYTE $0xd8   // vpcmpgtq    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb6b61c5               // vpackssdw    xmm11, xmm3, xmm3
-	LONG $0x373de2c4; BYTE $0xe8   // vpcmpgtq    ymm5, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01e9 // vextracti128    xmm1, ymm5, 1
-	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
-	LONG $0xe16b71c5               // vpackssdw    xmm12, xmm1, xmm1
-	LONG $0x374de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0x375de2c4; BYTE $0xd0   // vpcmpgtq    ymm2, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0x2945e2c4; BYTE $0xd8   // vpcmpeqq    ymm3, ymm7, ymm0
-	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
-	LONG $0x397de3c4; WORD $0x01df // vextracti128    xmm7, ymm3, 1
-	LONG $0xdf6be1c5               // vpackssdw    xmm3, xmm3, xmm7
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0x293de2c4; BYTE $0xf8   // vpcmpeqq    ymm7, ymm8, ymm0
-	LONG $0xffefb5c5               // vpxor    ymm7, ymm9, ymm7
-	LONG $0x397de3c4; WORD $0x01fd // vextracti128    xmm5, ymm7, 1
-	LONG $0xed6bc1c5               // vpackssdw    xmm5, xmm7, xmm5
-	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0x294de2c4; BYTE $0xf0   // vpcmpeqq    ymm6, ymm6, ymm0
-	LONG $0xf6efb5c5               // vpxor    ymm6, ymm9, ymm6
-	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf66bc9c5               // vpackssdw    xmm6, xmm6, xmm6
-	LONG $0x295de2c4; BYTE $0xe0   // vpcmpeqq    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e7 // vextracti128    xmm7, ymm4, 1
-	LONG $0xe76bd9c5               // vpackssdw    xmm4, xmm4, xmm7
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0x4c61c3c4; WORD $0xb0da // vpblendvb    xmm3, xmm3, xmm10, xmm11
-	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
-	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
-	LONG $0x4c59c3c4; WORD $0x20d2 // vpblendvb    xmm2, xmm4, xmm10, xmm2
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x3865e3c4; WORD $0x01d5 // vinserti128    ymm2, ymm3, xmm5, 1
-	LONG $0xc96cedc5               // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
-	LONG $0x7f7ec1c4; WORD $0x700c // vmovdqu    yword [r8 + 2*rsi], ymm1
-	LONG $0x10c68348               // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_668
-	WORD $0x394c; BYTE $0xd2       // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_670:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_671:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_671
-	JMP  LBB4_1351
-
-LBB4_672:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x573041c4; BYTE $0xc9 // vxorps    xmm9, xmm9, xmm9
-	LONG $0x762d41c4; BYTE $0xd2 // vpcmpeqd    ymm10, ymm10, ymm10
-	LONG $0x5d6f79c5; BYTE $0x40 // vmovdqa    xmm11, oword 64[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x761941c4; BYTE $0xe4 // vpcmpeqd    xmm12, xmm12, xmm12
-
-LBB4_673:
-	LONG $0x2410fcc5; BYTE $0xb9               // vmovups    ymm4, yword [rcx + 4*rdi]
-	LONG $0x6c10fcc5; WORD $0x20b9             // vmovups    ymm5, yword [rcx + 4*rdi + 32]
-	LONG $0x7410fcc5; WORD $0x40b9             // vmovups    ymm6, yword [rcx + 4*rdi + 64]
-	LONG $0x7c10fcc5; WORD $0x60b9             // vmovups    ymm7, yword [rcx + 4*rdi + 96]
-	LONG $0xc4c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm4
-	LONG $0x197d63c4; WORD $0x01c0             // vextractf128    xmm0, ymm8, 1
-	LONG $0xe86b39c5                           // vpackssdw    xmm13, xmm8, xmm0
-	LONG $0xc5c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm5
-	LONG $0x197d63c4; WORD $0x01c1             // vextractf128    xmm1, ymm8, 1
-	LONG $0xc96bb9c5                           // vpackssdw    xmm1, xmm8, xmm1
-	LONG $0xc6c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm6
-	LONG $0x197d63c4; WORD $0x01c2             // vextractf128    xmm2, ymm8, 1
-	LONG $0xd26bb9c5                           // vpackssdw    xmm2, xmm8, xmm2
-	LONG $0xc7c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm7
-	LONG $0x197d63c4; WORD $0x01c3             // vextractf128    xmm3, ymm8, 1
-	LONG $0xdb6bb9c5                           // vpackssdw    xmm3, xmm8, xmm3
-	LONG $0x665dc1c4; BYTE $0xe2               // vpcmpgtd    ymm4, ymm4, ymm10
-	LONG $0x397de3c4; WORD $0x01e0             // vextracti128    xmm0, ymm4, 1
-	LONG $0xc06bd9c5                           // vpackssdw    xmm0, xmm4, xmm0
-	LONG $0x6655c1c4; BYTE $0xe2               // vpcmpgtd    ymm4, ymm5, ymm10
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0x664dc1c4; BYTE $0xea               // vpcmpgtd    ymm5, ymm6, ymm10
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0x6645c1c4; BYTE $0xf2               // vpcmpgtd    ymm6, ymm7, ymm10
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0x4c19c3c4; WORD $0x00c3             // vpblendvb    xmm0, xmm12, xmm11, xmm0
-	LONG $0xc0df91c5                           // vpandn    xmm0, xmm13, xmm0
-	LONG $0x4c19c3c4; WORD $0x40e3             // vpblendvb    xmm4, xmm12, xmm11, xmm4
-	LONG $0xccdff1c5                           // vpandn    xmm1, xmm1, xmm4
-	LONG $0x4c19c3c4; WORD $0x50e3             // vpblendvb    xmm4, xmm12, xmm11, xmm5
-	LONG $0x4c19c3c4; WORD $0x60eb             // vpblendvb    xmm5, xmm12, xmm11, xmm6
-	LONG $0xd4dfe9c5                           // vpandn    xmm2, xmm2, xmm4
-	LONG $0xdddfe1c5                           // vpandn    xmm3, xmm3, xmm5
-	LONG $0x7f7ac1c4; WORD $0x7804             // vmovdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f7ac1c4; WORD $0x784c; BYTE $0x10 // vmovdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x7f7ac1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f7ac1c4; WORD $0x785c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rdi + 48], xmm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB4_673
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_1351
-
-LBB4_675:
-	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
-
-LBB4_676:
-	LONG $0x0c6ef9c5; BYTE $0xb1 // vmovd    xmm1, dword [rcx + 4*rsi]
-	LONG $0xcf7ef9c5             // vmovd    edi, xmm1
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x990f; BYTE $0xd2     // setns    dl
-	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
-	LONG $0xff12548d             // lea    edx, [rdx + rdx - 1]
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_676
-	JMP  LBB4_1351
-
-LBB4_677:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x573041c4; BYTE $0xc9 // vxorps    xmm9, xmm9, xmm9
-	LONG $0x762d41c4; BYTE $0xd2 // vpcmpeqd    ymm10, ymm10, ymm10
-	LONG $0x5d6f79c5; BYTE $0x40 // vmovdqa    xmm11, oword 64[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x761941c4; BYTE $0xe4 // vpcmpeqd    xmm12, xmm12, xmm12
-
-LBB4_678:
-	LONG $0x2410fcc5; BYTE $0xb9               // vmovups    ymm4, yword [rcx + 4*rdi]
-	LONG $0x6c10fcc5; WORD $0x20b9             // vmovups    ymm5, yword [rcx + 4*rdi + 32]
-	LONG $0x7410fcc5; WORD $0x40b9             // vmovups    ymm6, yword [rcx + 4*rdi + 64]
-	LONG $0x7c10fcc5; WORD $0x60b9             // vmovups    ymm7, yword [rcx + 4*rdi + 96]
-	LONG $0xc4c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm4
-	LONG $0x197d63c4; WORD $0x01c0             // vextractf128    xmm0, ymm8, 1
-	LONG $0xe86b39c5                           // vpackssdw    xmm13, xmm8, xmm0
-	LONG $0xc5c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm5
-	LONG $0x197d63c4; WORD $0x01c1             // vextractf128    xmm1, ymm8, 1
-	LONG $0xc96bb9c5                           // vpackssdw    xmm1, xmm8, xmm1
-	LONG $0xc6c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm6
-	LONG $0x197d63c4; WORD $0x01c2             // vextractf128    xmm2, ymm8, 1
-	LONG $0xd26bb9c5                           // vpackssdw    xmm2, xmm8, xmm2
-	LONG $0xc7c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm7
-	LONG $0x197d63c4; WORD $0x01c3             // vextractf128    xmm3, ymm8, 1
-	LONG $0xdb6bb9c5                           // vpackssdw    xmm3, xmm8, xmm3
-	LONG $0x665dc1c4; BYTE $0xe2               // vpcmpgtd    ymm4, ymm4, ymm10
-	LONG $0x397de3c4; WORD $0x01e0             // vextracti128    xmm0, ymm4, 1
-	LONG $0xc06bd9c5                           // vpackssdw    xmm0, xmm4, xmm0
-	LONG $0x6655c1c4; BYTE $0xe2               // vpcmpgtd    ymm4, ymm5, ymm10
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0x664dc1c4; BYTE $0xea               // vpcmpgtd    ymm5, ymm6, ymm10
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0x6645c1c4; BYTE $0xf2               // vpcmpgtd    ymm6, ymm7, ymm10
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0x4c19c3c4; WORD $0x00c3             // vpblendvb    xmm0, xmm12, xmm11, xmm0
-	LONG $0xc0df91c5                           // vpandn    xmm0, xmm13, xmm0
-	LONG $0x4c19c3c4; WORD $0x40e3             // vpblendvb    xmm4, xmm12, xmm11, xmm4
-	LONG $0xccdff1c5                           // vpandn    xmm1, xmm1, xmm4
-	LONG $0x4c19c3c4; WORD $0x50e3             // vpblendvb    xmm4, xmm12, xmm11, xmm5
-	LONG $0x4c19c3c4; WORD $0x60eb             // vpblendvb    xmm5, xmm12, xmm11, xmm6
-	LONG $0xd4dfe9c5                           // vpandn    xmm2, xmm2, xmm4
-	LONG $0xdddfe1c5                           // vpandn    xmm3, xmm3, xmm5
-	LONG $0x7f7ac1c4; WORD $0x7804             // vmovdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f7ac1c4; WORD $0x784c; BYTE $0x10 // vmovdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x7f7ac1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f7ac1c4; WORD $0x785c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rdi + 48], xmm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB4_678
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_1351
-
-LBB4_680:
-	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
-
-LBB4_681:
-	LONG $0x0c6ef9c5; BYTE $0xb1 // vmovd    xmm1, dword [rcx + 4*rsi]
-	LONG $0xcf7ef9c5             // vmovd    edi, xmm1
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x990f; BYTE $0xd2     // setns    dl
-	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
-	LONG $0xff12548d             // lea    edx, [rdx + rdx - 1]
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_681
-	JMP  LBB4_1351
-
-LBB4_688:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763d41c4; BYTE $0xc0 // vpcmpeqd    ymm8, ymm8, ymm8
-	LONG $0x4d6f79c5; BYTE $0x40 // vmovdqa    xmm9, oword 64[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_689:
-	LONG $0x246ffec5; BYTE $0xb1               // vmovdqu    ymm4, yword [rcx + 4*rsi]
-	LONG $0x6c6ffec5; WORD $0x20b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 64]
-	LONG $0x7c6ffec5; WORD $0x60b1             // vmovdqu    ymm7, yword [rcx + 4*rsi + 96]
-	LONG $0xd866ddc5                           // vpcmpgtd    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xd16b61c5                           // vpackssdw    xmm10, xmm3, xmm1
-	LONG $0xc866d5c5                           // vpcmpgtd    ymm1, ymm5, ymm0
-	LONG $0x397de3c4; WORD $0x01ca             // vextracti128    xmm2, ymm1, 1
-	LONG $0xda6b71c5                           // vpackssdw    xmm11, xmm1, xmm2
-	LONG $0xd066cdc5                           // vpcmpgtd    ymm2, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5                           // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd866c5c5                           // vpcmpgtd    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
-	LONG $0xd876ddc5                           // vpcmpeqd    ymm3, ymm4, ymm0
-	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xe076d5c5                           // vpcmpeqd    ymm4, ymm5, ymm0
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe876cdc5                           // vpcmpeqd    ymm5, ymm6, ymm0
-	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xf076c5c5                           // vpcmpeqd    ymm6, ymm7, ymm0
-	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0x4c61c3c4; WORD $0xa0d9             // vpblendvb    xmm3, xmm3, xmm9, xmm10
-	LONG $0x4c59c3c4; WORD $0xb0e1             // vpblendvb    xmm4, xmm4, xmm9, xmm11
-	LONG $0x4c51c3c4; WORD $0x20d1             // vpblendvb    xmm2, xmm5, xmm9, xmm2
-	LONG $0x4c49c3c4; WORD $0x10c9             // vpblendvb    xmm1, xmm6, xmm9, xmm1
-	LONG $0x7f7ac1c4; WORD $0x701c             // vmovdqu    oword [r8 + 2*rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0x7064; BYTE $0x10 // vmovdqu    oword [r8 + 2*rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0x7054; BYTE $0x20 // vmovdqu    oword [r8 + 2*rsi + 32], xmm2
-	LONG $0x7f7ac1c4; WORD $0x704c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rsi + 48], xmm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_689
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_691:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_692:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_692
-	JMP  LBB4_1351
-
-LBB4_693:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763d41c4; BYTE $0xc0 // vpcmpeqd    ymm8, ymm8, ymm8
-	LONG $0x4d6f79c5; BYTE $0x40 // vmovdqa    xmm9, oword 64[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_694:
-	LONG $0x246ffec5; BYTE $0xb1               // vmovdqu    ymm4, yword [rcx + 4*rsi]
-	LONG $0x6c6ffec5; WORD $0x20b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 64]
-	LONG $0x7c6ffec5; WORD $0x60b1             // vmovdqu    ymm7, yword [rcx + 4*rsi + 96]
-	LONG $0xd866ddc5                           // vpcmpgtd    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xd16b61c5                           // vpackssdw    xmm10, xmm3, xmm1
-	LONG $0xc866d5c5                           // vpcmpgtd    ymm1, ymm5, ymm0
-	LONG $0x397de3c4; WORD $0x01ca             // vextracti128    xmm2, ymm1, 1
-	LONG $0xda6b71c5                           // vpackssdw    xmm11, xmm1, xmm2
-	LONG $0xd066cdc5                           // vpcmpgtd    ymm2, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5                           // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd866c5c5                           // vpcmpgtd    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
-	LONG $0xd876ddc5                           // vpcmpeqd    ymm3, ymm4, ymm0
-	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xe076d5c5                           // vpcmpeqd    ymm4, ymm5, ymm0
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe876cdc5                           // vpcmpeqd    ymm5, ymm6, ymm0
-	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xf076c5c5                           // vpcmpeqd    ymm6, ymm7, ymm0
-	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0x4c61c3c4; WORD $0xa0d9             // vpblendvb    xmm3, xmm3, xmm9, xmm10
-	LONG $0x4c59c3c4; WORD $0xb0e1             // vpblendvb    xmm4, xmm4, xmm9, xmm11
-	LONG $0x4c51c3c4; WORD $0x20d1             // vpblendvb    xmm2, xmm5, xmm9, xmm2
-	LONG $0x4c49c3c4; WORD $0x10c9             // vpblendvb    xmm1, xmm6, xmm9, xmm1
-	LONG $0x7f7ac1c4; WORD $0x701c             // vmovdqu    oword [r8 + 2*rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0x7064; BYTE $0x10 // vmovdqu    oword [r8 + 2*rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0x7054; BYTE $0x20 // vmovdqu    oword [r8 + 2*rsi + 32], xmm2
-	LONG $0x7f7ac1c4; WORD $0x704c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rsi + 48], xmm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_694
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_696:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_697:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_697
-	JMP  LBB4_1351
-
-LBB4_698:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_699:
-	LONG $0x1c76f9c5; BYTE $0xb1               // vpcmpeqd    xmm3, xmm0, oword [rcx + 4*rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x357de2c4; BYTE $0xdb               // vpmovzxdq    ymm3, xmm3
-	LONG $0x6476f9c5; WORD $0x10b1             // vpcmpeqd    xmm4, xmm0, oword [rcx + 4*rsi + 16]
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x357de2c4; BYTE $0xe4               // vpmovzxdq    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0x6c76f9c5; WORD $0x20b1             // vpcmpeqd    xmm5, xmm0, oword [rcx + 4*rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x357de2c4; BYTE $0xed               // vpmovzxdq    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0x7476f9c5; WORD $0x30b1             // vpcmpeqd    xmm6, xmm0, oword [rcx + 4*rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x357de2c4; BYTE $0xf6               // vpmovzxdq    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_699
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_701:
-	WORD $0xf631             // xor    esi, esi
-	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40         // setne    sil
-	LONG $0xd0348949         // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JNE  LBB4_701
-	JMP  LBB4_1351
-
-LBB4_702:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x0000988d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_703:
-	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0xb014             // vmovdqu    yword [r8 + 4*rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb05c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_703
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_705:
-	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_707
-
-LBB4_706:
-	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_707:
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xc86ff9c5 // vmovdqa    xmm1, xmm0
-	JNE  LBB4_706
-	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_706
-
-LBB4_709:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc       // and    edx, -4
-	LONG $0xfc728d48               // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1       // mov    r9, rsi
-	LONG $0x02e9c149               // shr    r9, 2
-	LONG $0x01c18349               // add    r9, 1
-	WORD $0x8548; BYTE $0xf6       // test    rsi, rsi
-	JE   LBB4_1302
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0xfee78348               // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf       // neg    rdi
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc057f9c5               // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x197de2c4; WORD $0x004d // vbroadcastsd    ymm1, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_711:
-	LONG $0x1c10fdc5; BYTE $0xf1               // vmovupd    ymm3, yword [rcx + 8*rsi]
-	LONG $0xe154e5c5                           // vandpd    ymm4, ymm3, ymm1
-	LONG $0xe456edc5                           // vorpd    ymm4, ymm2, ymm4
-	LONG $0x197de3c4; WORD $0x01e5             // vextractf128    xmm5, ymm4, 1
-	LONG $0x2cfbe1c4; BYTE $0xdd               // vcvttsd2si    rbx, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
-	LONG $0x0479e3c4; WORD $0x4eed             // vpermilps    xmm5, xmm5, 78
-	LONG $0x2cfbe1c4; BYTE $0xdd               // vcvttsd2si    rbx, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xeb               // vmovq    xmm5, rbx
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	LONG $0x2cfbe1c4; BYTE $0xdc               // vcvttsd2si    rbx, xmm4
-	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
-	LONG $0x0479e3c4; WORD $0x4ee4             // vpermilps    xmm4, xmm4, 78
-	LONG $0x2cfbe1c4; BYTE $0xdc               // vcvttsd2si    rbx, xmm4
-	LONG $0x6ef9e1c4; BYTE $0xe3               // vmovq    xmm4, rbx
-	LONG $0xe46cc9c5                           // vpunpcklqdq    xmm4, xmm6, xmm4
-	LONG $0x385de3c4; WORD $0x01e5             // vinserti128    ymm4, ymm4, xmm5, 1
-	LONG $0xd8c2e5c5; BYTE $0x04               // vcmpneqpd    ymm3, ymm3, ymm0
-	LONG $0xdc54e5c5                           // vandpd    ymm3, ymm3, ymm4
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x5c10fdc5; WORD $0x20f1             // vmovupd    ymm3, yword [rcx + 8*rsi + 32]
-	LONG $0xe154e5c5                           // vandpd    ymm4, ymm3, ymm1
-	LONG $0xe456edc5                           // vorpd    ymm4, ymm2, ymm4
-	LONG $0x197de3c4; WORD $0x01e5             // vextractf128    xmm5, ymm4, 1
-	LONG $0x2cfbe1c4; BYTE $0xdd               // vcvttsd2si    rbx, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
-	LONG $0x0479e3c4; WORD $0x4eed             // vpermilps    xmm5, xmm5, 78
-	LONG $0x2cfbe1c4; BYTE $0xdd               // vcvttsd2si    rbx, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xeb               // vmovq    xmm5, rbx
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	LONG $0x2cfbe1c4; BYTE $0xdc               // vcvttsd2si    rbx, xmm4
-	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
-	LONG $0x0479e3c4; WORD $0x4ee4             // vpermilps    xmm4, xmm4, 78
-	LONG $0x2cfbe1c4; BYTE $0xdc               // vcvttsd2si    rbx, xmm4
-	LONG $0x6ef9e1c4; BYTE $0xe3               // vmovq    xmm4, rbx
-	LONG $0xe46cc9c5                           // vpunpcklqdq    xmm4, xmm6, xmm4
-	LONG $0x385de3c4; WORD $0x01e5             // vinserti128    ymm4, ymm4, xmm5, 1
-	LONG $0xd8c2e5c5; BYTE $0x04               // vcmpneqpd    ymm3, ymm3, ymm0
-	LONG $0xdc54e5c5                           // vandpd    ymm3, ymm3, ymm4
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_711
-	JMP  LBB4_1303
-
-LBB4_712:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0x197de2c4; WORD $0x0845       // vbroadcastsd    ymm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xd05afdc5                     // vcvtpd2ps    xmm2, ymm0
-	LONG $0x573941c4; BYTE $0xc0         // vxorpd    xmm8, xmm8, xmm8
-	QUAD $0x0000908d1879e2c4; BYTE $0x00 // vbroadcastss    xmm1, dword 144[rbp] /* [rip + .LCPI4_3] */
-	LONG $0xd154e9c5                     // vandpd    xmm2, xmm2, xmm1
-
-LBB4_713:
-	LONG $0x1c10fdc5; BYTE $0xf1               // vmovupd    ymm3, yword [rcx + 8*rsi]
-	LONG $0x6410fdc5; WORD $0x20f1             // vmovupd    ymm4, yword [rcx + 8*rsi + 32]
-	LONG $0x6c10fdc5; WORD $0x40f1             // vmovupd    ymm5, yword [rcx + 8*rsi + 64]
-	LONG $0x7410fdc5; WORD $0x60f1             // vmovupd    ymm6, yword [rcx + 8*rsi + 96]
-	LONG $0xfbc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm3
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xc86b41c5                           // vpackssdw    xmm9, xmm7, xmm0
-	LONG $0xfcc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm4
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xd06b41c5                           // vpackssdw    xmm10, xmm7, xmm0
-	LONG $0xfdc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm5
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xd86b41c5                           // vpackssdw    xmm11, xmm7, xmm0
-	LONG $0xfec2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm6
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xc06bc1c5                           // vpackssdw    xmm0, xmm7, xmm0
-	LONG $0xdb5afdc5                           // vcvtpd2ps    xmm3, ymm3
-	LONG $0xdb55f1c5                           // vandnpd    xmm3, xmm1, xmm3
-	LONG $0xdb56e9c5                           // vorpd    xmm3, xmm2, xmm3
-	LONG $0xe45afdc5                           // vcvtpd2ps    xmm4, ymm4
-	LONG $0xdbdfb1c5                           // vpandn    xmm3, xmm9, xmm3
-	LONG $0xe455f1c5                           // vandnpd    xmm4, xmm1, xmm4
-	LONG $0xe456e9c5                           // vorpd    xmm4, xmm2, xmm4
-	LONG $0xe4dfa9c5                           // vpandn    xmm4, xmm10, xmm4
-	LONG $0xed5afdc5                           // vcvtpd2ps    xmm5, ymm5
-	LONG $0xed55f1c5                           // vandnpd    xmm5, xmm1, xmm5
-	LONG $0xed56e9c5                           // vorpd    xmm5, xmm2, xmm5
-	LONG $0xeddfa1c5                           // vpandn    xmm5, xmm11, xmm5
-	LONG $0xf65afdc5                           // vcvtpd2ps    xmm6, ymm6
-	LONG $0xf655f1c5                           // vandnpd    xmm6, xmm1, xmm6
-	LONG $0xf656e9c5                           // vorpd    xmm6, xmm2, xmm6
-	LONG $0xc6dff9c5                           // vpandn    xmm0, xmm0, xmm6
-	LONG $0x7f7ac1c4; WORD $0xb01c             // vmovdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0xb064; BYTE $0x10 // vmovdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0xb06c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0xb044; BYTE $0x30 // vmovdqu    oword [r8 + 4*rsi + 48], xmm0
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_713
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_715:
-	LONG $0xc057f9c5                     // vxorpd    xmm0, xmm0, xmm0
-	QUAD $0x0000948d5879e2c4; BYTE $0x00 // vpbroadcastd    xmm1, dword 148[rbp] /* [rip + .LCPI4_4] */
-	QUAD $0x000098955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_717
-
-LBB4_716:
-	LONG $0x7e79c1c4; WORD $0x901c // vmovd    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_717:
-	LONG $0x2410fbc5; BYTE $0xd1 // vmovsd    xmm4, qword [rcx + 8*rdx]
-	LONG $0xc42ef9c5             // vucomisd    xmm0, xmm4
-	LONG $0xdbefe1c5             // vpxor    xmm3, xmm3, xmm3
-	JE   LBB4_716
-	LONG $0xdc5adbc5             // vcvtsd2ss    xmm3, xmm4, xmm4
-	LONG $0xd9dbe1c5             // vpand    xmm3, xmm3, xmm1
-	LONG $0xdbebe9c5             // vpor    xmm3, xmm2, xmm3
-	JMP  LBB4_716
-
-LBB4_728:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x000098955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_729:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x7f7ac1c4; WORD $0xb01c             // vmovdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0xb064; BYTE $0x10 // vmovdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0xb06c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0xb074; BYTE $0x30 // vmovdqu    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_729
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_731:
-	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_733
-
-LBB4_732:
-	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_733:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xc86ff9c5             // vmovdqa    xmm1, xmm0
-	JNE  LBB4_732
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_732
-
-LBB4_735:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_736:
-	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x347de2c4; BYTE $0xdb               // vpmovzxwq    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x347de2c4; BYTE $0xe4               // vpmovzxwq    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x347de2c4; BYTE $0xed               // vpmovzxwq    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x347de2c4; BYTE $0xf6               // vpmovzxwq    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_736
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_738:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_738
-	JMP  LBB4_1351
-
-LBB4_739:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_740:
-	LONG $0x1c75f9c5; BYTE $0x71               // vpcmpeqw    xmm3, xmm0, oword [rcx + 2*rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x337de2c4; BYTE $0xdb               // vpmovzxwd    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x6475f9c5; WORD $0x1071             // vpcmpeqw    xmm4, xmm0, oword [rcx + 2*rsi + 16]
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x337de2c4; BYTE $0xe4               // vpmovzxwd    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
-	LONG $0x6c75f9c5; WORD $0x2071             // vpcmpeqw    xmm5, xmm0, oword [rcx + 2*rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x337de2c4; BYTE $0xed               // vpmovzxwd    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0x7475f9c5; WORD $0x3071             // vpcmpeqw    xmm6, xmm0, oword [rcx + 2*rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x337de2c4; BYTE $0xf6               // vpmovzxwd    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_740
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_742:
-	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_744
-
-LBB4_743:
-	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_744:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xc86ff9c5             // vmovdqa    xmm1, xmm0
-	JNE  LBB4_743
-	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
-	JMP  LBB4_743
-
-LBB4_746:
-	WORD $0x8944; BYTE $0xd2       // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_747:
-	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
-	LONG $0x247d62c4; BYTE $0xcf               // vpmovsxwq    ymm9, xmm7
-	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
-	LONG $0x247d62c4; BYTE $0xd1               // vpmovsxwq    ymm10, xmm1
-	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
-	LONG $0x247de2c4; BYTE $0xff               // vpmovsxwq    ymm7, xmm7
-	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
-	LONG $0x247de2c4; BYTE $0xc9               // vpmovsxwq    ymm1, xmm1
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x247de2c4; BYTE $0xdb               // vpmovsxwq    ymm3, xmm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x247de2c4; BYTE $0xe4               // vpmovsxwq    ymm4, xmm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x247de2c4; BYTE $0xed               // vpmovsxwq    ymm5, xmm5
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x247de2c4; BYTE $0xf6               // vpmovsxwq    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_747
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_749:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_750:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_750
-	JMP  LBB4_1351
-
-LBB4_751:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x00009895187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_752:
-	LONG $0x1c6ffac5; BYTE $0x71               // vmovdqu    xmm3, oword [rcx + 2*rsi]
-	LONG $0x646ffac5; WORD $0x1071             // vmovdqu    xmm4, oword [rcx + 2*rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x2071             // vmovdqu    xmm5, oword [rcx + 2*rsi + 32]
-	LONG $0x746ffac5; WORD $0x3071             // vmovdqu    xmm6, oword [rcx + 2*rsi + 48]
-	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
-	LONG $0x237d62c4; BYTE $0xcf               // vpmovsxwd    ymm9, xmm7
-	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
-	LONG $0x237d62c4; BYTE $0xd1               // vpmovsxwd    ymm10, xmm1
-	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
-	LONG $0x237de2c4; BYTE $0xff               // vpmovsxwd    ymm7, xmm7
-	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
-	LONG $0x237de2c4; BYTE $0xc9               // vpmovsxwd    ymm1, xmm1
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x237de2c4; BYTE $0xdb               // vpmovsxwd    ymm3, xmm3
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x237de2c4; BYTE $0xe4               // vpmovsxwd    ymm4, xmm4
-	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x237de2c4; BYTE $0xed               // vpmovsxwd    ymm5, xmm5
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x237de2c4; BYTE $0xf6               // vpmovsxwd    ymm6, xmm6
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_752
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_754:
-	QUAD $0x000000a88510fac5 // vmovss    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000000988d10fac5 // vmovss    xmm1, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_756
-
-LBB4_755:
-	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_756:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd028f8c5             // vmovaps    xmm2, xmm0
-	JNE  LBB4_758
-	LONG $0xd257e8c5             // vxorps    xmm2, xmm2, xmm2
-
-LBB4_758:
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JG   LBB4_755
-	LONG $0xda28f8c5 // vmovaps    xmm3, xmm2
-	JMP  LBB4_755
-
-LBB4_763:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9         // vpcmpeqd    ymm9, ymm9, ymm9
-	QUAD $0x000098951879e2c4; BYTE $0x00 // vbroadcastss    xmm2, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_764:
-	LONG $0x346ffec5; BYTE $0xf1               // vmovdqu    ymm6, yword [rcx + 8*rsi]
-	LONG $0x7c6ffec5; WORD $0x20f1             // vmovdqu    ymm7, yword [rcx + 8*rsi + 32]
-	LONG $0x446f7ec5; WORD $0x40f1             // vmovdqu    ymm8, yword [rcx + 8*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60f1             // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
-	LONG $0x374de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01dd             // vextracti128    xmm5, ymm3, 1
-	LONG $0xd56b61c5                           // vpackssdw    xmm10, xmm3, xmm5
-	LONG $0x3745e2c4; BYTE $0xe8               // vpcmpgtq    ymm5, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01e9             // vextracti128    xmm1, ymm5, 1
-	LONG $0xd96b51c5                           // vpackssdw    xmm11, xmm5, xmm1
-	LONG $0x373de2c4; BYTE $0xc8               // vpcmpgtq    ymm1, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01cb             // vextracti128    xmm3, ymm1, 1
-	LONG $0xe36b71c5                           // vpackssdw    xmm12, xmm1, xmm3
-	LONG $0x375de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01dd             // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5                           // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0x294de2c4; BYTE $0xe8               // vpcmpeqq    ymm5, ymm6, ymm0
-	LONG $0xedefb5c5                           // vpxor    ymm5, ymm9, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed5bf8c5                           // vcvtdq2ps    xmm5, xmm5
-	LONG $0x2945e2c4; BYTE $0xf0               // vpcmpeqq    ymm6, ymm7, ymm0
-	LONG $0xf6efb5c5                           // vpxor    ymm6, ymm9, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf65bf8c5                           // vcvtdq2ps    xmm6, xmm6
-	LONG $0x293de2c4; BYTE $0xf8               // vpcmpeqq    ymm7, ymm8, ymm0
-	LONG $0xffefb5c5                           // vpxor    ymm7, ymm9, ymm7
-	LONG $0x397de3c4; WORD $0x01f9             // vextracti128    xmm1, ymm7, 1
-	LONG $0xc96bc1c5                           // vpackssdw    xmm1, xmm7, xmm1
-	LONG $0xc95bf8c5                           // vcvtdq2ps    xmm1, xmm1
-	LONG $0x295de2c4; BYTE $0xe0               // vpcmpeqq    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5                           // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e7             // vextracti128    xmm7, ymm4, 1
-	LONG $0xe76bd9c5                           // vpackssdw    xmm4, xmm4, xmm7
-	LONG $0xe45bf8c5                           // vcvtdq2ps    xmm4, xmm4
-	LONG $0x4a51e3c4; WORD $0xa0ea             // vblendvps    xmm5, xmm5, xmm2, xmm10
-	LONG $0x4a49e3c4; WORD $0xb0f2             // vblendvps    xmm6, xmm6, xmm2, xmm11
-	LONG $0x4a71e3c4; WORD $0xc0ca             // vblendvps    xmm1, xmm1, xmm2, xmm12
-	LONG $0x4a59e3c4; WORD $0x30da             // vblendvps    xmm3, xmm4, xmm2, xmm3
-	LONG $0x1178c1c4; WORD $0xb02c             // vmovups    oword [r8 + 4*rsi], xmm5
-	LONG $0x1178c1c4; WORD $0xb074; BYTE $0x10 // vmovups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x1178c1c4; WORD $0xb04c; BYTE $0x20 // vmovups    oword [r8 + 4*rsi + 32], xmm1
-	LONG $0x1178c1c4; WORD $0xb05c; BYTE $0x30 // vmovups    oword [r8 + 4*rsi + 48], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_764
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_766:
-	QUAD $0x000000a88510fac5 // vmovss    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000000988d10fac5 // vmovss    xmm1, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_768
-
-LBB4_767:
-	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_768:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd028f8c5             // vmovaps    xmm2, xmm0
-	JNE  LBB4_770
-	LONG $0xd257e8c5             // vxorps    xmm2, xmm2, xmm2
-
-LBB4_770:
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JG   LBB4_767
-	LONG $0xda28f8c5 // vmovaps    xmm3, xmm2
-	JMP  LBB4_767
-
-LBB4_772:
-	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc             // and    edx, -4
-	LONG $0xfc728d48                     // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1             // mov    r9, rsi
-	LONG $0x02e9c149                     // shr    r9, 2
-	LONG $0x01c18349                     // add    r9, 1
-	WORD $0x8548; BYTE $0xf6             // test    rsi, rsi
-	JE   LBB4_1308
-	WORD $0x894c; BYTE $0xcf             // mov    rdi, r9
-	LONG $0xfee78348                     // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf             // neg    rdi
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc057f8c5                     // vxorps    xmm0, xmm0, xmm0
-	QUAD $0x00009c8d5879e2c4; BYTE $0x00 // vpbroadcastd    xmm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_774:
-	LONG $0x1410f8c5; BYTE $0xb1               // vmovups    xmm2, oword [rcx + 4*rsi]
-	LONG $0xd8c2e8c5; BYTE $0x00               // vcmpeqps    xmm3, xmm2, xmm0
-	LONG $0x257de2c4; BYTE $0xdb               // vpmovsxdq    ymm3, xmm3
-	LONG $0xe272e9c5; BYTE $0x1f               // vpsrad    xmm2, xmm2, 31
-	LONG $0xd1ebe9c5                           // vpor    xmm2, xmm2, xmm1
-	LONG $0xd25bf8c5                           // vcvtdq2ps    xmm2, xmm2
-	LONG $0x0479e3c4; WORD $0xe7e2             // vpermilps    xmm4, xmm2, 231
-	LONG $0x2cfae1c4; BYTE $0xc4               // vcvttss2si    rax, xmm4
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0x0579e3c4; WORD $0x01ea             // vpermilpd    xmm5, xmm2, 1
-	LONG $0x2cfae1c4; BYTE $0xc5               // vcvttss2si    rax, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0x2cfae1c4; BYTE $0xc2               // vcvttss2si    rax, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0xd216fac5                           // vmovshdup    xmm2, xmm2
-	LONG $0x2cfae1c4; BYTE $0xc2               // vcvttss2si    rax, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0xd26cd1c5                           // vpunpcklqdq    xmm2, xmm5, xmm2
-	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0xd2dfe5c5                           // vpandn    ymm2, ymm3, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf014             // vmovdqu    yword [r8 + 8*rsi], ymm2
-	LONG $0x546ffac5; WORD $0x10b1             // vmovdqu    xmm2, oword [rcx + 4*rsi + 16]
-	LONG $0xe272e1c5; BYTE $0x1f               // vpsrad    xmm3, xmm2, 31
-	LONG $0xd9ebe1c5                           // vpor    xmm3, xmm3, xmm1
-	LONG $0xdb5bf8c5                           // vcvtdq2ps    xmm3, xmm3
-	LONG $0x0479e3c4; WORD $0xe7e3             // vpermilps    xmm4, xmm3, 231
-	LONG $0x2cfae1c4; BYTE $0xc4               // vcvttss2si    rax, xmm4
-	LONG $0x0579e3c4; WORD $0x01e3             // vpermilpd    xmm4, xmm3, 1
-	LONG $0x2cfa61c4; BYTE $0xdc               // vcvttss2si    r11, xmm4
-	LONG $0x2cfae1c4; BYTE $0xdb               // vcvttss2si    rbx, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0xdb16fac5                           // vmovshdup    xmm3, xmm3
-	LONG $0x2cfae1c4; BYTE $0xc3               // vcvttss2si    rax, xmm3
-	LONG $0x6ef9c1c4; BYTE $0xdb               // vmovq    xmm3, r11
-	LONG $0x6ef9e1c4; BYTE $0xeb               // vmovq    xmm5, rbx
-	LONG $0xd0c2e8c5; BYTE $0x00               // vcmpeqps    xmm2, xmm2, xmm0
-	LONG $0x257de2c4; BYTE $0xd2               // vpmovsxdq    ymm2, xmm2
-	LONG $0xdc6ce1c5                           // vpunpcklqdq    xmm3, xmm3, xmm4
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0xd3dfedc5                           // vpandn    ymm2, ymm2, ymm3
-	LONG $0x7f7ec1c4; WORD $0xf054; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm2
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_774
-	JMP  LBB4_1309
-
-LBB4_784:
-	WORD $0x8944; BYTE $0xd2       // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_785:
-	LONG $0x1c6ffac5; BYTE $0xb1               // vmovdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646ffac5; WORD $0x10b1             // vmovdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x20b1             // vmovdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746ffac5; WORD $0x30b1             // vmovdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xf866e1c5                           // vpcmpgtd    xmm7, xmm3, xmm0
-	LONG $0x257d62c4; BYTE $0xcf               // vpmovsxdq    ymm9, xmm7
-	LONG $0xc866d9c5                           // vpcmpgtd    xmm1, xmm4, xmm0
-	LONG $0x257d62c4; BYTE $0xd1               // vpmovsxdq    ymm10, xmm1
-	LONG $0xf866d1c5                           // vpcmpgtd    xmm7, xmm5, xmm0
-	LONG $0x257de2c4; BYTE $0xff               // vpmovsxdq    ymm7, xmm7
-	LONG $0xc866c9c5                           // vpcmpgtd    xmm1, xmm6, xmm0
-	LONG $0x257de2c4; BYTE $0xc9               // vpmovsxdq    ymm1, xmm1
-	LONG $0xd876e1c5                           // vpcmpeqd    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x257de2c4; BYTE $0xdb               // vpmovsxdq    ymm3, xmm3
-	LONG $0xe076d9c5                           // vpcmpeqd    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x257de2c4; BYTE $0xe4               // vpmovsxdq    ymm4, xmm4
-	LONG $0xe876d1c5                           // vpcmpeqd    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x257de2c4; BYTE $0xed               // vpmovsxdq    ymm5, xmm5
-	LONG $0xf076c9c5                           // vpcmpeqd    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x257de2c4; BYTE $0xf6               // vpmovsxdq    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_785
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_787:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_788:
-	WORD $0x3c8b; BYTE $0x91 // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0xff85             // test    edi, edi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff85             // test    edi, edi
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_788
-	JMP  LBB4_1351
-
-LBB4_789:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00009895187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_790:
-	LONG $0x1c6ffec5; BYTE $0xb1               // vmovdqu    ymm3, yword [rcx + 4*rsi]
-	LONG $0x646ffec5; WORD $0x20b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x40b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 64]
-	LONG $0x746ffec5; WORD $0x60b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 96]
-	LONG $0xf866e5c5                           // vpcmpgtd    ymm7, ymm3, ymm0
-	LONG $0xc0665dc5                           // vpcmpgtd    ymm8, ymm4, ymm0
-	LONG $0xc86655c5                           // vpcmpgtd    ymm9, ymm5, ymm0
-	LONG $0xd0664dc5                           // vpcmpgtd    ymm10, ymm6, ymm0
-	LONG $0xd876e5c5                           // vpcmpeqd    ymm3, ymm3, ymm0
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0xe076ddc5                           // vpcmpeqd    ymm4, ymm4, ymm0
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
-	LONG $0xe876d5c5                           // vpcmpeqd    ymm5, ymm5, ymm0
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0xf076cdc5                           // vpcmpeqd    ymm6, ymm6, ymm0
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0x4a65e3c4; WORD $0x70da             // vblendvps    ymm3, ymm3, ymm2, ymm7
-	LONG $0x4a5de3c4; WORD $0x80e2             // vblendvps    ymm4, ymm4, ymm2, ymm8
-	LONG $0x4a55e3c4; WORD $0x90ea             // vblendvps    ymm5, ymm5, ymm2, ymm9
-	LONG $0x4a4de3c4; WORD $0xa0f2             // vblendvps    ymm6, ymm6, ymm2, ymm10
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_790
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_792:
-	QUAD $0x000000a88510fac5 // vmovss    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000000988d10fac5 // vmovss    xmm1, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_794
-
-LBB4_793:
-	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_794:
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd028f8c5 // vmovaps    xmm2, xmm0
-	JNE  LBB4_796
-	LONG $0xd257e8c5 // vxorps    xmm2, xmm2, xmm2
-
-LBB4_796:
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JG   LBB4_793
-	LONG $0xda28f8c5 // vmovaps    xmm3, xmm2
-	JMP  LBB4_793
-
-LBB4_831:
-	WORD $0xc689                   // mov    esi, eax
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x573941c4; BYTE $0xc0   // vxorpd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x004d // vbroadcastsd    ymm1, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_832:
-	LONG $0x1c10fdc5; BYTE $0xf9               // vmovupd    ymm3, yword [rcx + 8*rdi]
-	LONG $0x6410fdc5; WORD $0x20f9             // vmovupd    ymm4, yword [rcx + 8*rdi + 32]
-	LONG $0x6c10fdc5; WORD $0x40f9             // vmovupd    ymm5, yword [rcx + 8*rdi + 64]
-	LONG $0x7410fdc5; WORD $0x60f9             // vmovupd    ymm6, yword [rcx + 8*rdi + 96]
-	LONG $0xfbc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm3
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xc86b41c5                           // vpackssdw    xmm9, xmm7, xmm0
-	LONG $0xfcc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm4
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xd06b41c5                           // vpackssdw    xmm10, xmm7, xmm0
-	LONG $0xfdc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm5
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xd86b41c5                           // vpackssdw    xmm11, xmm7, xmm0
-	LONG $0xfec2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm6
-	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
-	LONG $0xc06bc1c5                           // vpackssdw    xmm0, xmm7, xmm0
-	LONG $0xd954e5c5                           // vandpd    ymm3, ymm3, ymm1
-	LONG $0xdb56edc5                           // vorpd    ymm3, ymm2, ymm3
-	LONG $0xe154ddc5                           // vandpd    ymm4, ymm4, ymm1
-	LONG $0xe456edc5                           // vorpd    ymm4, ymm2, ymm4
-	LONG $0xe954d5c5                           // vandpd    ymm5, ymm5, ymm1
-	LONG $0xed56edc5                           // vorpd    ymm5, ymm2, ymm5
-	LONG $0xf154cdc5                           // vandpd    ymm6, ymm6, ymm1
-	LONG $0xf656edc5                           // vorpd    ymm6, ymm2, ymm6
-	LONG $0xdbe6fdc5                           // vcvttpd2dq    xmm3, ymm3
-	LONG $0xdbdfb1c5                           // vpandn    xmm3, xmm9, xmm3
-	LONG $0xe4e6fdc5                           // vcvttpd2dq    xmm4, ymm4
-	LONG $0xe4dfa9c5                           // vpandn    xmm4, xmm10, xmm4
-	LONG $0xede6fdc5                           // vcvttpd2dq    xmm5, ymm5
-	LONG $0xf6e6fdc5                           // vcvttpd2dq    xmm6, ymm6
-	LONG $0xeddfa1c5                           // vpandn    xmm5, xmm11, xmm5
-	LONG $0xc6dff9c5                           // vpandn    xmm0, xmm0, xmm6
-	LONG $0x7f7ac1c4; WORD $0xb81c             // vmovdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f7ac1c4; WORD $0xb864; BYTE $0x10 // vmovdqu    oword [r8 + 4*rdi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0xb86c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rdi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0xb844; BYTE $0x30 // vmovdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB4_832
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_1351
-
-LBB4_834:
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_835:
-	LONG $0x1c10fbc5; BYTE $0xf1 // vmovsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
-	LONG $0xfb2cfbc5             // vcvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfa     // cmove    edi, edx
-	LONG $0xb03c8941             // mov    dword [r8 + 4*rsi], edi
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_835
-	JMP  LBB4_1351
-
-LBB4_839:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_840:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x7f7ac1c4; WORD $0xb01c             // vmovdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0xb064; BYTE $0x10 // vmovdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0xb06c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0xb074; BYTE $0x30 // vmovdqu    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_840
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_842:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_842
-	JMP  LBB4_1351
-
-LBB4_843:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_844:
-	LONG $0x1c75f9c5; BYTE $0x71               // vpcmpeqw    xmm3, xmm0, oword [rcx + 2*rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x337de2c4; BYTE $0xdb               // vpmovzxwd    ymm3, xmm3
-	LONG $0x6475f9c5; WORD $0x1071             // vpcmpeqw    xmm4, xmm0, oword [rcx + 2*rsi + 16]
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x337de2c4; BYTE $0xe4               // vpmovzxwd    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0x6c75f9c5; WORD $0x2071             // vpcmpeqw    xmm5, xmm0, oword [rcx + 2*rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x337de2c4; BYTE $0xed               // vpmovzxwd    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0x7475f9c5; WORD $0x3071             // vpcmpeqw    xmm6, xmm0, oword [rcx + 2*rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x337de2c4; BYTE $0xf6               // vpmovzxwd    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xb01c             // vmovdqu    yword [r8 + 4*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xb074; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_844
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_846:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_846
-	JMP  LBB4_1351
-
-LBB4_847:
-	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x00009c95187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_848:
-	LONG $0x1c6ffac5; BYTE $0x71               // vmovdqu    xmm3, oword [rcx + 2*rsi]
-	LONG $0x646ffac5; WORD $0x1071             // vmovdqu    xmm4, oword [rcx + 2*rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x2071             // vmovdqu    xmm5, oword [rcx + 2*rsi + 32]
-	LONG $0x746ffac5; WORD $0x3071             // vmovdqu    xmm6, oword [rcx + 2*rsi + 48]
-	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
-	LONG $0x237d62c4; BYTE $0xcf               // vpmovsxwd    ymm9, xmm7
-	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
-	LONG $0x237d62c4; BYTE $0xd1               // vpmovsxwd    ymm10, xmm1
-	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
-	LONG $0x237de2c4; BYTE $0xff               // vpmovsxwd    ymm7, xmm7
-	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
-	LONG $0x237de2c4; BYTE $0xc9               // vpmovsxwd    ymm1, xmm1
-	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x237de2c4; BYTE $0xdb               // vpmovsxwd    ymm3, xmm3
-	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x237de2c4; BYTE $0xe4               // vpmovsxwd    ymm4, xmm4
-	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x237de2c4; BYTE $0xed               // vpmovsxwd    ymm5, xmm5
-	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x237de2c4; BYTE $0xf6               // vpmovsxwd    ymm6, xmm6
-	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_848
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_850:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_851:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_851
-	JMP  LBB4_1351
-
-LBB4_852:
-	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763d41c4; BYTE $0xc0         // vpcmpeqd    ymm8, ymm8, ymm8
-	QUAD $0x00009c951879e2c4; BYTE $0x00 // vbroadcastss    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_853:
-	LONG $0x246ffec5; BYTE $0xf1               // vmovdqu    ymm4, yword [rcx + 8*rsi]
-	LONG $0x6c6ffec5; WORD $0x20f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
-	LONG $0x7c6ffec5; WORD $0x60f1             // vmovdqu    ymm7, yword [rcx + 8*rsi + 96]
-	LONG $0x375de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96b61c5                           // vpackssdw    xmm9, xmm3, xmm1
-	LONG $0x3755e2c4; BYTE $0xc8               // vpcmpgtq    ymm1, ymm5, ymm0
-	LONG $0x397de3c4; WORD $0x01cb             // vextracti128    xmm3, ymm1, 1
-	LONG $0xd36b71c5                           // vpackssdw    xmm10, xmm1, xmm3
-	LONG $0x374de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xd96b61c5                           // vpackssdw    xmm11, xmm3, xmm1
-	LONG $0x3745e2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
-	LONG $0x295de2c4; BYTE $0xd8               // vpcmpeqq    ymm3, ymm4, ymm0
-	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x2955e2c4; BYTE $0xe0               // vpcmpeqq    ymm4, ymm5, ymm0
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0x294de2c4; BYTE $0xe8               // vpcmpeqq    ymm5, ymm6, ymm0
-	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0x2945e2c4; BYTE $0xf0               // vpcmpeqq    ymm6, ymm7, ymm0
-	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0x4a61e3c4; WORD $0x90da             // vblendvps    xmm3, xmm3, xmm2, xmm9
-	LONG $0x4a59e3c4; WORD $0xa0e2             // vblendvps    xmm4, xmm4, xmm2, xmm10
-	LONG $0x4a51e3c4; WORD $0xb0ea             // vblendvps    xmm5, xmm5, xmm2, xmm11
-	LONG $0x4a49e3c4; WORD $0x10ca             // vblendvps    xmm1, xmm6, xmm2, xmm1
-	LONG $0x1178c1c4; WORD $0xb01c             // vmovups    oword [r8 + 4*rsi], xmm3
-	LONG $0x1178c1c4; WORD $0xb064; BYTE $0x10 // vmovups    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x1178c1c4; WORD $0xb06c; BYTE $0x20 // vmovups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x1178c1c4; WORD $0xb04c; BYTE $0x30 // vmovups    oword [r8 + 4*rsi + 48], xmm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_853
-	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_855:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_856:
-	LONG $0xd13c8b48         // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_856
-	JMP  LBB4_1351
-
-LBB4_857:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc057f8c5                     // vxorps    xmm0, xmm0, xmm0
-	QUAD $0x00009c8d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_858:
-	LONG $0x146ffec5; BYTE $0xb1               // vmovdqu    ymm2, yword [rcx + 4*rsi]
-	LONG $0x5c6ffec5; WORD $0x20b1             // vmovdqu    ymm3, yword [rcx + 4*rsi + 32]
-	LONG $0x646ffec5; WORD $0x40b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 64]
-	LONG $0x6c6ffec5; WORD $0x60b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 96]
-	LONG $0xe272cdc5; BYTE $0x1f               // vpsrad    ymm6, ymm2, 31
-	LONG $0xf1ebcdc5                           // vpor    ymm6, ymm6, ymm1
-	LONG $0xe372c5c5; BYTE $0x1f               // vpsrad    ymm7, ymm3, 31
-	LONG $0xf9ebc5c5                           // vpor    ymm7, ymm7, ymm1
-	LONG $0xe472bdc5; BYTE $0x1f               // vpsrad    ymm8, ymm4, 31
-	LONG $0xc1eb3dc5                           // vpor    ymm8, ymm8, ymm1
-	LONG $0xe572b5c5; BYTE $0x1f               // vpsrad    ymm9, ymm5, 31
-	LONG $0xc9eb35c5                           // vpor    ymm9, ymm9, ymm1
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0xff5bfcc5                           // vcvtdq2ps    ymm7, ymm7
-	LONG $0x5b7c41c4; BYTE $0xc0               // vcvtdq2ps    ymm8, ymm8
-	LONG $0x5b7c41c4; BYTE $0xc9               // vcvtdq2ps    ymm9, ymm9
-	LONG $0xf65bfec5                           // vcvttps2dq    ymm6, ymm6
-	LONG $0xff5bfec5                           // vcvttps2dq    ymm7, ymm7
-	LONG $0x5b7e41c4; BYTE $0xc0               // vcvttps2dq    ymm8, ymm8
-	LONG $0x5b7e41c4; BYTE $0xc9               // vcvttps2dq    ymm9, ymm9
-	LONG $0xd0c2ecc5; BYTE $0x04               // vcmpneqps    ymm2, ymm2, ymm0
-	LONG $0xd654ecc5                           // vandps    ymm2, ymm2, ymm6
-	LONG $0xd8c2e4c5; BYTE $0x04               // vcmpneqps    ymm3, ymm3, ymm0
-	LONG $0xdf54e4c5                           // vandps    ymm3, ymm3, ymm7
-	LONG $0xe0c2dcc5; BYTE $0x04               // vcmpneqps    ymm4, ymm4, ymm0
-	LONG $0xe454bcc5                           // vandps    ymm4, ymm8, ymm4
-	LONG $0xe8c2d4c5; BYTE $0x04               // vcmpneqps    ymm5, ymm5, ymm0
-	LONG $0xed54b4c5                           // vandps    ymm5, ymm9, ymm5
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_858
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_860:
-	LONG $0xc057f8c5 // vxorps    xmm0, xmm0, xmm0
-	JMP  LBB4_862
-
-LBB4_861:
-	LONG $0x90348941         // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_862:
-	LONG $0x0c10fac5; BYTE $0x91 // vmovss    xmm1, dword [rcx + 4*rdx]
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
-	JE   LBB4_861
-	LONG $0xf150f8c5             // vmovmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01     // and    esi, 1
-	WORD $0xdef7                 // neg    esi
-	WORD $0xce83; BYTE $0x01     // or    esi, 1
-	LONG $0xce2aaac5             // vcvtsi2ss    xmm1, xmm10, esi
-	LONG $0xf12cfac5             // vcvttss2si    esi, xmm1
-	JMP  LBB4_861
-
-LBB4_870:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x00009c8d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_871:
-	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0xb014             // vmovdqu    yword [r8 + 4*rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb05c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_871
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_873
-
-LBB4_877:
-	WORD $0x8944; BYTE $0xda             // mov    edx, r11d
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x00009c95187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_878:
-	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
-	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x217d62c4; BYTE $0xcf               // vpmovsxbd    ymm9, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x217d62c4; BYTE $0xd1               // vpmovsxbd    ymm10, xmm1
-	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
-	LONG $0x217de2c4; BYTE $0xff               // vpmovsxbd    ymm7, xmm7
-	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
-	LONG $0x217de2c4; BYTE $0xc9               // vpmovsxbd    ymm1, xmm1
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x217de2c4; BYTE $0xdb               // vpmovsxbd    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x217de2c4; BYTE $0xe4               // vpmovsxbd    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x217de2c4; BYTE $0xed               // vpmovsxbd    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x217de2c4; BYTE $0xf6               // vpmovsxbd    ymm6, xmm6
-	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_878
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_880
-
-LBB4_885:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_886:
-	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
-	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x317de2c4; BYTE $0xdb               // vpmovzxbd    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x317de2c4; BYTE $0xe4               // vpmovzxbd    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x317de2c4; BYTE $0xed               // vpmovzxbd    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x317de2c4; BYTE $0xf6               // vpmovzxbd    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xb01c             // vmovdqu    yword [r8 + 4*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xb074; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_886
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_888
-
-LBB4_892:
-	WORD $0x8944; BYTE $0xda             // mov    edx, r11d
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_893:
-	LONG $0x1c6ffec5; BYTE $0xb1               // vmovdqu    ymm3, yword [rcx + 4*rsi]
-	LONG $0x646ffec5; WORD $0x20b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x40b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 64]
-	LONG $0x746ffec5; WORD $0x60b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 96]
-	LONG $0xf876e5c5                           // vpcmpeqd    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
-	LONG $0xc0765dc5                           // vpcmpeqd    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
-	LONG $0xc87655c5                           // vpcmpeqd    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
-	LONG $0xd0764dc5                           // vpcmpeqd    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0xdb66edc5                           // vpcmpgtd    ymm3, ymm2, ymm3
-	LONG $0xe466edc5                           // vpcmpgtd    ymm4, ymm2, ymm4
-	LONG $0xed66edc5                           // vpcmpgtd    ymm5, ymm2, ymm5
-	LONG $0xf666edc5                           // vpcmpgtd    ymm6, ymm2, ymm6
-	LONG $0x4a6de3c4; WORD $0x30df             // vblendvps    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4a6dc3c4; WORD $0x40e0             // vblendvps    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4a6dc3c4; WORD $0x50e9             // vblendvps    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4a6dc3c4; WORD $0x60f2             // vblendvps    ymm6, ymm2, ymm10, ymm6
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_893
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_895
-
-LBB4_900:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc057f9c5               // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x197de2c4; WORD $0x004d // vbroadcastsd    ymm1, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_901:
-	LONG $0x1c10fdc5; BYTE $0xf1               // vmovupd    ymm3, yword [rcx + 8*rsi]
-	LONG $0x6410fdc5; WORD $0x20f1             // vmovupd    ymm4, yword [rcx + 8*rsi + 32]
-	LONG $0x6c10fdc5; WORD $0x40f1             // vmovupd    ymm5, yword [rcx + 8*rsi + 64]
-	LONG $0x7410fdc5; WORD $0x60f1             // vmovupd    ymm6, yword [rcx + 8*rsi + 96]
-	LONG $0xf954e5c5                           // vandpd    ymm7, ymm3, ymm1
-	LONG $0xff56edc5                           // vorpd    ymm7, ymm2, ymm7
-	LONG $0xc1545dc5                           // vandpd    ymm8, ymm4, ymm1
-	LONG $0xc2563dc5                           // vorpd    ymm8, ymm8, ymm2
-	LONG $0xc95455c5                           // vandpd    ymm9, ymm5, ymm1
-	LONG $0xca5635c5                           // vorpd    ymm9, ymm9, ymm2
-	LONG $0xd1544dc5                           // vandpd    ymm10, ymm6, ymm1
-	LONG $0xd2562dc5                           // vorpd    ymm10, ymm10, ymm2
-	LONG $0xd8c2e5c5; BYTE $0x04               // vcmpneqpd    ymm3, ymm3, ymm0
-	LONG $0xdf54e5c5                           // vandpd    ymm3, ymm3, ymm7
-	LONG $0xe0c2ddc5; BYTE $0x04               // vcmpneqpd    ymm4, ymm4, ymm0
-	LONG $0xe454bdc5                           // vandpd    ymm4, ymm8, ymm4
-	LONG $0xe8c2d5c5; BYTE $0x04               // vcmpneqpd    ymm5, ymm5, ymm0
-	LONG $0xed54b5c5                           // vandpd    ymm5, ymm9, ymm5
-	LONG $0xf0c2cdc5; BYTE $0x04               // vcmpneqpd    ymm6, ymm6, ymm0
-	LONG $0xf654adc5                           // vandpd    ymm6, ymm10, ymm6
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_901
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_903
-
-LBB4_908:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_909:
-	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
-	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
-	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x227d62c4; BYTE $0xcf               // vpmovsxbq    ymm9, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x227d62c4; BYTE $0xd1               // vpmovsxbq    ymm10, xmm1
-	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
-	LONG $0x227de2c4; BYTE $0xff               // vpmovsxbq    ymm7, xmm7
-	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x2179e2c4; BYTE $0xdb               // vpmovsxbd    xmm3, xmm3
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x2179e2c4; BYTE $0xe4               // vpmovsxbd    xmm4, xmm4
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x2179e2c4; BYTE $0xed               // vpmovsxbd    xmm5, xmm5
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0x227de2c4; BYTE $0xc9               // vpmovsxbq    ymm1, xmm1
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x2179e2c4; BYTE $0xf6               // vpmovsxbd    xmm6, xmm6
-	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_909
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_911
-
-LBB4_914:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0             // and    edx, -16
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_915:
-	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
-	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
-	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x3179e2c4; BYTE $0xdb               // vpmovzxbd    xmm3, xmm3
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x3179e2c4; BYTE $0xe4               // vpmovzxbd    xmm4, xmm4
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x3179e2c4; BYTE $0xed               // vpmovzxbd    xmm5, xmm5
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x3179e2c4; BYTE $0xf6               // vpmovzxbd    xmm6, xmm6
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_915
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_917
-
-LBB4_933:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ff9c5; BYTE $0x50 // vmovdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_934:
-	LONG $0x1c76fdc5; BYTE $0xb1   // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd9efe5c5               // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xdadbe1c5               // vpand    xmm3, xmm3, xmm2
-	LONG $0x6476fdc5; WORD $0x20b1 // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xe1efddc5               // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5 // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x6c76fdc5; WORD $0x40b1 // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0xe2dbd9c5               // vpand    xmm4, xmm4, xmm2
-	LONG $0xe9efd5c5               // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5               // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xeadbd1c5               // vpand    xmm5, xmm5, xmm2
-	LONG $0x7476fdc5; WORD $0x60b1 // vpcmpeqd    ymm6, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xf1efcdc5               // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
-	LONG $0xf2dbc9c5               // vpand    xmm6, xmm6, xmm2
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0xdd6ce5c5               // vpunpcklqdq    ymm3, ymm3, ymm5
-	LONG $0x00fde3c4; WORD $0xd8db // vpermq    ymm3, ymm3, 216
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_934
-	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_936
-
-LBB4_940:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x597de2c4; WORD $0x0045 // vpbroadcastq    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x572941c4; BYTE $0xd2   // vxorpd    xmm10, xmm10, xmm10
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xef2141c4; BYTE $0xdb   // vpxor    xmm11, xmm11, xmm11
-
-LBB4_941:
-	LONG $0x3410fdc5; BYTE $0xf1   // vmovupd    ymm6, yword [rcx + 8*rsi]
-	LONG $0x7c10fdc5; WORD $0x20f1 // vmovupd    ymm7, yword [rcx + 8*rsi + 32]
-	LONG $0x44107dc5; WORD $0x40f1 // vmovupd    ymm8, yword [rcx + 8*rsi + 64]
-	LONG $0x4c107dc5; WORD $0x60f1 // vmovupd    ymm9, yword [rcx + 8*rsi + 96]
-	LONG $0xe6c2adc5; BYTE $0x00   // vcmpeqpd    ymm4, ymm10, ymm6
-	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe46359c5               // vpacksswb    xmm12, xmm4, xmm4
-	LONG $0xefc2adc5; BYTE $0x00   // vcmpeqpd    ymm5, ymm10, ymm7
-	LONG $0x197de3c4; WORD $0x01e9 // vextractf128    xmm1, ymm5, 1
-	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xe96371c5               // vpacksswb    xmm13, xmm1, xmm1
-	LONG $0xc23dc1c4; WORD $0x00ca // vcmpeqpd    ymm1, ymm8, ymm10
-	LONG $0x197de3c4; WORD $0x01cb // vextractf128    xmm3, ymm1, 1
-	LONG $0xcb6bf1c5               // vpackssdw    xmm1, xmm1, xmm3
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xc235c1c4; WORD $0x00da // vcmpeqpd    ymm3, ymm9, ymm10
-	LONG $0x197de3c4; WORD $0x01dc // vextractf128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xe054cdc5               // vandpd    ymm4, ymm6, ymm0
-	LONG $0xe456edc5               // vorpd    ymm4, ymm2, ymm4
-	LONG $0xf054c5c5               // vandpd    ymm6, ymm7, ymm0
-	LONG $0xf656edc5               // vorpd    ymm6, ymm2, ymm6
-	LONG $0xf854bdc5               // vandpd    ymm7, ymm8, ymm0
-	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
-	LONG $0xc05435c5               // vandpd    ymm8, ymm9, ymm0
-	LONG $0xc2563dc5               // vorpd    ymm8, ymm8, ymm2
-	LONG $0xe4e6fdc5               // vcvttpd2dq    xmm4, ymm4
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0xf6e6fdc5               // vcvttpd2dq    xmm6, ymm6
-	LONG $0xf66bc9c5               // vpackssdw    xmm6, xmm6, xmm6
-	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
-	LONG $0xffe6fdc5               // vcvttpd2dq    xmm7, ymm7
-	LONG $0xff6bc1c5               // vpackssdw    xmm7, xmm7, xmm7
-	LONG $0xff63c1c5               // vpacksswb    xmm7, xmm7, xmm7
-	LONG $0xe67dc1c4; BYTE $0xe8   // vcvttpd2dq    xmm5, ymm8
-	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0x4c59c3c4; WORD $0xc0e3 // vpblendvb    xmm4, xmm4, xmm11, xmm12
-	LONG $0x4c49c3c4; WORD $0xd0f3 // vpblendvb    xmm6, xmm6, xmm11, xmm13
-	LONG $0x4c41c3c4; WORD $0x10cb // vpblendvb    xmm1, xmm7, xmm11, xmm1
-	LONG $0xe662d9c5               // vpunpckldq    xmm4, xmm4, xmm6
-	LONG $0x4c51c3c4; WORD $0x30db // vpblendvb    xmm3, xmm5, xmm11, xmm3
-	LONG $0xcb62f1c5               // vpunpckldq    xmm1, xmm1, xmm3
-	LONG $0xc96cd9c5               // vpunpcklqdq    xmm1, xmm4, xmm1
-	LONG $0x7f7ac1c4; WORD $0x300c // vmovdqu    oword [r8 + rsi], xmm1
-	LONG $0x10c68348               // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_941
-	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_943
-
-LBB4_948:
-	WORD $0x8945; BYTE $0xd3 // mov    r11d, r10d
-	LONG $0x80e38341         // and    r11d, -128
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x000000e0956ffdc5 // vmovdqa    ymm2, yword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_949:
-	LONG $0x1c6ffec5; BYTE $0x31               // vmovdqu    ymm3, yword [rcx + rsi]
-	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x4031             // vmovdqu    ymm5, yword [rcx + rsi + 64]
-	LONG $0x746ffec5; WORD $0x6031             // vmovdqu    ymm6, yword [rcx + rsi + 96]
-	LONG $0xf874e5c5                           // vpcmpeqb    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
-	LONG $0xc0745dc5                           // vpcmpeqb    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
-	LONG $0xc87455c5                           // vpcmpeqb    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
-	LONG $0xd0744dc5                           // vpcmpeqb    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0xdb64edc5                           // vpcmpgtb    ymm3, ymm2, ymm3
-	LONG $0xe464edc5                           // vpcmpgtb    ymm4, ymm2, ymm4
-	LONG $0xed64edc5                           // vpcmpgtb    ymm5, ymm2, ymm5
-	LONG $0xf664edc5                           // vpcmpgtb    ymm6, ymm2, ymm6
-	LONG $0x4c6de3c4; WORD $0x30df             // vpblendvb    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4c6dc3c4; WORD $0x40e0             // vpblendvb    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4c6dc3c4; WORD $0x50e9             // vpblendvb    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4c6dc3c4; WORD $0x60f2             // vpblendvb    ymm6, ymm2, ymm10, ymm6
-	LONG $0x7f7ec1c4; WORD $0x301c             // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x306c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0x3074; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm6
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB4_949
-	WORD $0x394d; BYTE $0xd3                   // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_951
-
-LBB4_956:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ff9c5; BYTE $0x70 // vmovdqa    xmm2, oword 112[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_957:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb6be1c5                           // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdb63e1c5                           // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5                           // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xdc62e1c5                           // vpunpckldq    xmm3, xmm3, xmm4
-	LONG $0xe1efd5c5                           // vpxor    ymm4, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5                           // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed6bd1c5                           // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xed63d1c5                           // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0xe562d9c5                           // vpunpckldq    xmm4, xmm4, xmm5
-	LONG $0xdc6ce1c5                           // vpunpcklqdq    xmm3, xmm3, xmm4
-	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_957
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_959
-
-LBB4_963:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xc0 // and    edx, -64
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00000080956ff9c5 // vmovdqa    xmm2, oword 128[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_964:
-	LONG $0x1c75fdc5; BYTE $0x71               // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc63e1c5                           // vpacksswb    xmm3, xmm3, xmm4
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x6475fdc5; WORD $0x2071             // vpcmpeqw    ymm4, ymm0, yword [rcx + 2*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe563d9c5                           // vpacksswb    xmm4, xmm4, xmm5
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x6c75fdc5; WORD $0x4071             // vpcmpeqw    ymm5, ymm0, yword [rcx + 2*rsi + 64]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee63d1c5                           // vpacksswb    xmm5, xmm5, xmm6
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x7475fdc5; WORD $0x6071             // vpcmpeqw    ymm6, ymm0, yword [rcx + 2*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf763c9c5                           // vpacksswb    xmm6, xmm6, xmm7
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0x3064; BYTE $0x10 // vmovdqu    oword [r8 + rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0x306c; BYTE $0x20 // vmovdqu    oword [r8 + rsi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0x3074; BYTE $0x30 // vmovdqu    oword [r8 + rsi + 48], xmm6
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_964
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_966
-
-LBB4_970:
-	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
-	LONG $0xc0e38341             // and    r11d, -64
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763d41c4; BYTE $0xc0 // vpcmpeqd    ymm8, ymm8, ymm8
-	QUAD $0x000000808d6f79c5     // vmovdqa    xmm9, oword 128[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_971:
-	LONG $0x246ffec5; BYTE $0x71               // vmovdqu    ymm4, yword [rcx + 2*rsi]
-	LONG $0x6c6ffec5; WORD $0x2071             // vmovdqu    ymm5, yword [rcx + 2*rsi + 32]
-	LONG $0x746ffec5; WORD $0x4071             // vmovdqu    ymm6, yword [rcx + 2*rsi + 64]
-	LONG $0x7c6ffec5; WORD $0x6071             // vmovdqu    ymm7, yword [rcx + 2*rsi + 96]
-	LONG $0xd865ddc5                           // vpcmpgtw    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xd16361c5                           // vpacksswb    xmm10, xmm3, xmm1
-	LONG $0xc865d5c5                           // vpcmpgtw    ymm1, ymm5, ymm0
-	LONG $0x397de3c4; WORD $0x01ca             // vextracti128    xmm2, ymm1, 1
-	LONG $0xda6371c5                           // vpacksswb    xmm11, xmm1, xmm2
-	LONG $0xd065cdc5                           // vpcmpgtw    ymm2, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
-	LONG $0xd363e9c5                           // vpacksswb    xmm2, xmm2, xmm3
-	LONG $0xd865c5c5                           // vpcmpgtw    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc963e1c5                           // vpacksswb    xmm1, xmm3, xmm1
-	LONG $0xd875ddc5                           // vpcmpeqw    ymm3, ymm4, ymm0
-	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc63e1c5                           // vpacksswb    xmm3, xmm3, xmm4
-	LONG $0xe075d5c5                           // vpcmpeqw    ymm4, ymm5, ymm0
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe563d9c5                           // vpacksswb    xmm4, xmm4, xmm5
-	LONG $0xe875cdc5                           // vpcmpeqw    ymm5, ymm6, ymm0
-	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee63d1c5                           // vpacksswb    xmm5, xmm5, xmm6
-	LONG $0xf075c5c5                           // vpcmpeqw    ymm6, ymm7, ymm0
-	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf763c9c5                           // vpacksswb    xmm6, xmm6, xmm7
-	LONG $0x4c61c3c4; WORD $0xa0d9             // vpblendvb    xmm3, xmm3, xmm9, xmm10
-	LONG $0x4c59c3c4; WORD $0xb0e1             // vpblendvb    xmm4, xmm4, xmm9, xmm11
-	LONG $0x4c51c3c4; WORD $0x20d1             // vpblendvb    xmm2, xmm5, xmm9, xmm2
-	LONG $0x4c49c3c4; WORD $0x10c9             // vpblendvb    xmm1, xmm6, xmm9, xmm1
-	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0x3064; BYTE $0x10 // vmovdqu    oword [r8 + rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0x3054; BYTE $0x20 // vmovdqu    oword [r8 + rsi + 32], xmm2
-	LONG $0x7f7ac1c4; WORD $0x304c; BYTE $0x30 // vmovdqu    oword [r8 + rsi + 48], xmm1
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB4_971
-	WORD $0x394d; BYTE $0xd3                   // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_973
-
-LBB4_978:
-	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
-	LONG $0xf0e38341             // and    r11d, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
-	LONG $0x5d6f79c5; BYTE $0x70 // vmovdqa    xmm11, oword 112[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_979:
-	LONG $0x146f7ec5; BYTE $0xf1   // vmovdqu    ymm10, yword [rcx + 8*rsi]
-	LONG $0x446f7ec5; WORD $0x20f1 // vmovdqu    ymm8, yword [rcx + 8*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40f1 // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60f1 // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
-	LONG $0x372de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm10, ymm0
-	LONG $0x397de3c4; WORD $0x01cb // vextracti128    xmm3, ymm1, 1
-	LONG $0xcb6bf1c5               // vpackssdw    xmm1, xmm1, xmm3
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xe16371c5               // vpacksswb    xmm12, xmm1, xmm1
-	LONG $0x373de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01cd // vextracti128    xmm5, ymm1, 1
-	LONG $0xcd6bf1c5               // vpackssdw    xmm1, xmm1, xmm5
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xe96371c5               // vpacksswb    xmm13, xmm1, xmm1
-	LONG $0x374de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01cf // vextracti128    xmm7, ymm1, 1
-	LONG $0xcf6bf1c5               // vpackssdw    xmm1, xmm1, xmm7
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xf963f1c5               // vpacksswb    xmm7, xmm1, xmm1
-	LONG $0x375de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0x292de2c4; BYTE $0xd0   // vpcmpeqq    ymm2, ymm10, ymm0
-	LONG $0xd2efb5c5               // vpxor    ymm2, ymm9, ymm2
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0x293de2c4; BYTE $0xd8   // vpcmpeqq    ymm3, ymm8, ymm0
-	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0x294de2c4; BYTE $0xe8   // vpcmpeqq    ymm5, ymm6, ymm0
-	LONG $0xedefb5c5               // vpxor    ymm5, ymm9, ymm5
-	LONG $0x397de3c4; WORD $0x01ee // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5               // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0x295de2c4; BYTE $0xe0   // vpcmpeqq    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e6 // vextracti128    xmm6, ymm4, 1
-	LONG $0xe66bd9c5               // vpackssdw    xmm4, xmm4, xmm6
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x4c69c3c4; WORD $0xc0d3 // vpblendvb    xmm2, xmm2, xmm11, xmm12
-	LONG $0x4c61c3c4; WORD $0xd0db // vpblendvb    xmm3, xmm3, xmm11, xmm13
-	LONG $0x4c51c3c4; WORD $0x70eb // vpblendvb    xmm5, xmm5, xmm11, xmm7
-	LONG $0xd362e9c5               // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0x4c59c3c4; WORD $0x10cb // vpblendvb    xmm1, xmm4, xmm11, xmm1
-	LONG $0xc962d1c5               // vpunpckldq    xmm1, xmm5, xmm1
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x7f7ac1c4; WORD $0x300c // vmovdqu    oword [r8 + rsi], xmm1
-	LONG $0x10c68348               // add    rsi, 16
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB4_979
-	WORD $0x394d; BYTE $0xd3       // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_981
-
-LBB4_986:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x571841c4; BYTE $0xe4 // vxorps    xmm12, xmm12, xmm12
-	LONG $0x761541c4; BYTE $0xed // vpcmpeqd    ymm13, ymm13, ymm13
-	LONG $0x756f79c5; BYTE $0x50 // vmovdqa    xmm14, oword 80[rbp] /* [rip + .LCPI4_12] */
-	LONG $0x760141c4; BYTE $0xff // vpcmpeqd    xmm15, xmm15, xmm15
-
-LBB4_987:
-	LONG $0x0c107cc5; BYTE $0xb1   // vmovups    ymm9, yword [rcx + 4*rsi]
-	LONG $0x54107cc5; WORD $0x20b1 // vmovups    ymm10, yword [rcx + 4*rsi + 32]
-	LONG $0x5c107cc5; WORD $0x40b1 // vmovups    ymm11, yword [rcx + 4*rsi + 64]
-	LONG $0x7c10fcc5; WORD $0x60b1 // vmovups    ymm7, yword [rcx + 4*rsi + 96]
-	LONG $0xc234c1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm9, ymm12
-	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xc46359c5               // vpacksswb    xmm8, xmm4, xmm4
-	LONG $0xc22cc1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm10, ymm12
-	LONG $0x197de3c4; WORD $0x01e6 // vextractf128    xmm6, ymm4, 1
-	LONG $0xe66bd9c5               // vpackssdw    xmm4, xmm4, xmm6
-	LONG $0xf463d9c5               // vpacksswb    xmm6, xmm4, xmm4
-	LONG $0xc224c1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm11, ymm12
-	LONG $0x197de3c4; WORD $0x01e0 // vextractf128    xmm0, ymm4, 1
-	LONG $0xc06bd9c5               // vpackssdw    xmm0, xmm4, xmm0
-	LONG $0xe063f9c5               // vpacksswb    xmm4, xmm0, xmm0
-	LONG $0xc7c29cc5; BYTE $0x00   // vcmpeqps    ymm0, ymm12, ymm7
-	LONG $0x197de3c4; WORD $0x01c1 // vextractf128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0xc063f9c5               // vpacksswb    xmm0, xmm0, xmm0
-	LONG $0x6635c1c4; BYTE $0xcd   // vpcmpgtd    ymm1, ymm9, ymm13
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0x662dc1c4; BYTE $0xd5   // vpcmpgtd    ymm2, ymm10, ymm13
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0x6625c1c4; BYTE $0xdd   // vpcmpgtd    ymm3, ymm11, ymm13
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0x6645c1c4; BYTE $0xed   // vpcmpgtd    ymm5, ymm7, ymm13
-	LONG $0x397de3c4; WORD $0x01ef // vextracti128    xmm7, ymm5, 1
-	LONG $0xef6bd1c5               // vpackssdw    xmm5, xmm5, xmm7
-	LONG $0x4c01c3c4; WORD $0x10ce // vpblendvb    xmm1, xmm15, xmm14, xmm1
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xc9dfb9c5               // vpandn    xmm1, xmm8, xmm1
-	LONG $0x4c01c3c4; WORD $0x20d6 // vpblendvb    xmm2, xmm15, xmm14, xmm2
-	LONG $0x4c01c3c4; WORD $0x30de // vpblendvb    xmm3, xmm15, xmm14, xmm3
-	LONG $0x4c01c3c4; WORD $0x50ee // vpblendvb    xmm5, xmm15, xmm14, xmm5
-	LONG $0xffefc1c5               // vpxor    xmm7, xmm7, xmm7
-	LONG $0x4c69e3c4; WORD $0x60d7 // vpblendvb    xmm2, xmm2, xmm7, xmm6
-	LONG $0x4c51e3c4; WORD $0x00c7 // vpblendvb    xmm0, xmm5, xmm7, xmm0
-	LONG $0xdbdfd9c5               // vpandn    xmm3, xmm4, xmm3
-	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x7f7ec1c4; WORD $0x3004 // vmovdqu    yword [r8 + rsi], ymm0
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_987
-	WORD $0x394c; BYTE $0xd2       // cmp    rdx, r10
-	JE   LBB4_1351
-	JMP  LBB4_989
-
-LBB4_994:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0x80 // and    edx, -128
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x000000e08d6ffdc5 // vmovdqa    ymm1, yword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_995:
-	LONG $0x1474fdc5; BYTE $0x31               // vpcmpeqb    ymm2, ymm0, yword [rcx + rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c74fdc5; WORD $0x2031             // vpcmpeqb    ymm3, ymm0, yword [rcx + rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6474fdc5; WORD $0x4031             // vpcmpeqb    ymm4, ymm0, yword [rcx + rsi + 64]
-	LONG $0x6c74fdc5; WORD $0x6031             // vpcmpeqb    ymm5, ymm0, yword [rcx + rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0x3014             // vmovdqu    yword [r8 + rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0x305c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0x306c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm5
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_995
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_997
-
-LBB4_1001:
-	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
-	LONG $0xe0e38341             // and    r11d, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
-	LONG $0x556f79c5; BYTE $0x50 // vmovdqa    xmm10, oword 80[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_1002:
-	LONG $0x3c6ffec5; BYTE $0xb1   // vmovdqu    ymm7, yword [rcx + 4*rsi]
-	LONG $0x446f7ec5; WORD $0x20b1 // vmovdqu    ymm8, yword [rcx + 4*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40b1 // vmovdqu    ymm6, yword [rcx + 4*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60b1 // vmovdqu    ymm4, yword [rcx + 4*rsi + 96]
-	LONG $0xd866c5c5               // vpcmpgtd    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb6361c5               // vpacksswb    xmm11, xmm3, xmm3
-	LONG $0xe866bdc5               // vpcmpgtd    ymm5, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01e9 // vextracti128    xmm1, ymm5, 1
-	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
-	LONG $0xe16371c5               // vpacksswb    xmm12, xmm1, xmm1
-	LONG $0xc866cdc5               // vpcmpgtd    ymm1, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xd066ddc5               // vpcmpgtd    ymm2, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0xd876c5c5               // vpcmpeqd    ymm3, ymm7, ymm0
-	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
-	LONG $0x397de3c4; WORD $0x01df // vextracti128    xmm7, ymm3, 1
-	LONG $0xdf6be1c5               // vpackssdw    xmm3, xmm3, xmm7
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xf876bdc5               // vpcmpeqd    ymm7, ymm8, ymm0
-	LONG $0xffefb5c5               // vpxor    ymm7, ymm9, ymm7
-	LONG $0x397de3c4; WORD $0x01fd // vextracti128    xmm5, ymm7, 1
-	LONG $0xed6bc1c5               // vpackssdw    xmm5, xmm7, xmm5
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xf076cdc5               // vpcmpeqd    ymm6, ymm6, ymm0
-	LONG $0xf6efb5c5               // vpxor    ymm6, ymm9, ymm6
-	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
-	LONG $0xe076ddc5               // vpcmpeqd    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e7 // vextracti128    xmm7, ymm4, 1
-	LONG $0xe76bd9c5               // vpackssdw    xmm4, xmm4, xmm7
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x4c61c3c4; WORD $0xb0da // vpblendvb    xmm3, xmm3, xmm10, xmm11
-	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
-	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
-	LONG $0x4c59c3c4; WORD $0x20d2 // vpblendvb    xmm2, xmm4, xmm10, xmm2
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x3865e3c4; WORD $0x01d5 // vinserti128    ymm2, ymm3, xmm5, 1
-	LONG $0xc96cedc5               // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
-	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB4_1002
-	WORD $0x394d; BYTE $0xd3       // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_1004
-
-LBB4_1009:
-	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1010:
-	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
-	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
-	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x227d62c4; BYTE $0xcf               // vpmovsxbq    ymm9, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x227d62c4; BYTE $0xd1               // vpmovsxbq    ymm10, xmm1
-	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
-	LONG $0x227de2c4; BYTE $0xff               // vpmovsxbq    ymm7, xmm7
-	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
-	LONG $0x227de2c4; BYTE $0xc9               // vpmovsxbq    ymm1, xmm1
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x227de2c4; BYTE $0xdb               // vpmovsxbq    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x227de2c4; BYTE $0xe4               // vpmovsxbq    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x227de2c4; BYTE $0xed               // vpmovsxbq    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x227de2c4; BYTE $0xf6               // vpmovsxbq    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1010
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1012
-
-LBB4_1017:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x597de2c4; WORD $0x284d // vpbroadcastq    ymm1, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1018:
-	LONG $0x297de2c4; WORD $0xf114             // vpcmpeqq    ymm2, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x297de2c4; WORD $0xf15c; BYTE $0x20 // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x40 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf014             // vmovdqu    yword [r8 + 8*rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf05c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm5
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1018
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1020
-
-LBB4_1024:
-	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1025:
-	LONG $0x1c6ffec5; BYTE $0xf1               // vmovdqu    ymm3, yword [rcx + 8*rsi]
-	LONG $0x646ffec5; WORD $0x20f1             // vmovdqu    ymm4, yword [rcx + 8*rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x40f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 64]
-	LONG $0x746ffec5; WORD $0x60f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 96]
-	LONG $0x2965e2c4; BYTE $0xf8               // vpcmpeqq    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
-	LONG $0x295d62c4; BYTE $0xc0               // vpcmpeqq    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
-	LONG $0x295562c4; BYTE $0xc8               // vpcmpeqq    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
-	LONG $0x294d62c4; BYTE $0xd0               // vpcmpeqq    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0x376de2c4; BYTE $0xdb               // vpcmpgtq    ymm3, ymm2, ymm3
-	LONG $0x376de2c4; BYTE $0xe4               // vpcmpgtq    ymm4, ymm2, ymm4
-	LONG $0x376de2c4; BYTE $0xed               // vpcmpgtq    ymm5, ymm2, ymm5
-	LONG $0x376de2c4; BYTE $0xf6               // vpcmpgtq    ymm6, ymm2, ymm6
-	LONG $0x4b6de3c4; WORD $0x30df             // vblendvpd    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4b6dc3c4; WORD $0x40e0             // vblendvpd    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4b6dc3c4; WORD $0x50e9             // vblendvpd    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4b6dc3c4; WORD $0x60f2             // vblendvpd    ymm6, ymm2, ymm10, ymm6
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1025
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1027
-
-LBB4_1032:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1033:
-	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
-	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
-	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x327de2c4; BYTE $0xdb               // vpmovzxbq    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x327de2c4; BYTE $0xe4               // vpmovzxbq    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x327de2c4; BYTE $0xed               // vpmovzxbq    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x327de2c4; BYTE $0xf6               // vpmovzxbq    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1033
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1035
-
-LBB4_1039:
-	WORD $0x8944; BYTE $0xda     // mov    edx, r11d
-	WORD $0xe283; BYTE $0xc0     // and    edx, -64
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0 // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x000000c08d6f7dc5     // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1040:
-	LONG $0x1c6ffac5; BYTE $0x31               // vmovdqu    xmm3, oword [rcx + rsi]
-	LONG $0x646ffac5; WORD $0x1031             // vmovdqu    xmm4, oword [rcx + rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x2031             // vmovdqu    xmm5, oword [rcx + rsi + 32]
-	LONG $0x746ffac5; WORD $0x3031             // vmovdqu    xmm6, oword [rcx + rsi + 48]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x207d62c4; BYTE $0xd7               // vpmovsxbw    ymm10, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x207de2c4; BYTE $0xc9               // vpmovsxbw    ymm1, xmm1
-	LONG $0xd064d1c5                           // vpcmpgtb    xmm2, xmm5, xmm0
-	LONG $0x207de2c4; BYTE $0xd2               // vpmovsxbw    ymm2, xmm2
-	LONG $0xf864c9c5                           // vpcmpgtb    xmm7, xmm6, xmm0
-	LONG $0x207de2c4; BYTE $0xff               // vpmovsxbw    ymm7, xmm7
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x207de2c4; BYTE $0xdb               // vpmovsxbw    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x207de2c4; BYTE $0xe4               // vpmovsxbw    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x207de2c4; BYTE $0xed               // vpmovsxbw    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x207de2c4; BYTE $0xf6               // vpmovsxbw    ymm6, xmm6
-	LONG $0x4c65c3c4; WORD $0xa0d9             // vpblendvb    ymm3, ymm3, ymm9, ymm10
-	LONG $0x4c5dc3c4; WORD $0x10c9             // vpblendvb    ymm1, ymm4, ymm9, ymm1
-	LONG $0x4c55c3c4; WORD $0x20d1             // vpblendvb    ymm2, ymm5, ymm9, ymm2
-	LONG $0x4c4dc3c4; WORD $0x70e1             // vpblendvb    ymm4, ymm6, ymm9, ymm7
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x704c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm4
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1040
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1042
-
-LBB4_1047:
-	WORD $0x8944; BYTE $0xda     // mov    edx, r11d
-	WORD $0xe283; BYTE $0xc0     // and    edx, -64
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0 // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x000000c08d6f7dc5     // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1048:
-	LONG $0x1c6ffac5; BYTE $0x31               // vmovdqu    xmm3, oword [rcx + rsi]
-	LONG $0x646ffac5; WORD $0x1031             // vmovdqu    xmm4, oword [rcx + rsi + 16]
-	LONG $0x6c6ffac5; WORD $0x2031             // vmovdqu    xmm5, oword [rcx + rsi + 32]
-	LONG $0x746ffac5; WORD $0x3031             // vmovdqu    xmm6, oword [rcx + rsi + 48]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x207d62c4; BYTE $0xd7               // vpmovsxbw    ymm10, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x207de2c4; BYTE $0xc9               // vpmovsxbw    ymm1, xmm1
-	LONG $0xd064d1c5                           // vpcmpgtb    xmm2, xmm5, xmm0
-	LONG $0x207de2c4; BYTE $0xd2               // vpmovsxbw    ymm2, xmm2
-	LONG $0xf864c9c5                           // vpcmpgtb    xmm7, xmm6, xmm0
-	LONG $0x207de2c4; BYTE $0xff               // vpmovsxbw    ymm7, xmm7
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x207de2c4; BYTE $0xdb               // vpmovsxbw    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x207de2c4; BYTE $0xe4               // vpmovsxbw    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x207de2c4; BYTE $0xed               // vpmovsxbw    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x207de2c4; BYTE $0xf6               // vpmovsxbw    ymm6, xmm6
-	LONG $0x4c65c3c4; WORD $0xa0d9             // vpblendvb    ymm3, ymm3, ymm9, ymm10
-	LONG $0x4c5dc3c4; WORD $0x10c9             // vpblendvb    ymm1, ymm4, ymm9, ymm1
-	LONG $0x4c55c3c4; WORD $0x20d1             // vpblendvb    ymm2, ymm5, ymm9, ymm2
-	LONG $0x4c4dc3c4; WORD $0x70e1             // vpblendvb    ymm4, ymm6, ymm9, ymm7
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x704c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm4
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1048
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1050
-
-LBB4_1055:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1317
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x000000c08d6ffdc5 // vmovdqa    ymm1, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1057:
-	LONG $0x1475fdc5; BYTE $0x79               // vpcmpeqw    ymm2, ymm0, yword [rcx + 2*rdi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c75fdc5; WORD $0x2079             // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0x7814             // vmovdqu    yword [r8 + 2*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm3
-	LONG $0x5475fdc5; WORD $0x4079             // vpcmpeqw    ymm2, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c75fdc5; WORD $0x6079             // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB4_1057
-	JMP  LBB4_1318
-
-LBB4_1058:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1325
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x000000c08d6ffdc5 // vmovdqa    ymm1, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1060:
-	LONG $0x1475fdc5; BYTE $0x79               // vpcmpeqw    ymm2, ymm0, yword [rcx + 2*rdi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c75fdc5; WORD $0x2079             // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0x7814             // vmovdqu    yword [r8 + 2*rdi], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm3
-	LONG $0x5475fdc5; WORD $0x4079             // vpcmpeqw    ymm2, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c75fdc5; WORD $0x6079             // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rdi + 96]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB4_1060
-	JMP  LBB4_1326
-
-LBB4_1061:
-	WORD $0x8944; BYTE $0xda // mov    edx, r11d
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1333
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x000000c0956ffdc5 // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1063:
-	LONG $0x1c6ffec5; BYTE $0x71               // vmovdqu    ymm3, yword [rcx + 2*rsi]
-	LONG $0x646ffec5; WORD $0x2071             // vmovdqu    ymm4, yword [rcx + 2*rsi + 32]
-	LONG $0xe875e5c5                           // vpcmpeqw    ymm5, ymm3, ymm0
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0xf075ddc5                           // vpcmpeqw    ymm6, ymm4, ymm0
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0xdb65edc5                           // vpcmpgtw    ymm3, ymm2, ymm3
-	LONG $0xe465edc5                           // vpcmpgtw    ymm4, ymm2, ymm4
-	LONG $0x4c6de3c4; WORD $0x30dd             // vpblendvb    ymm3, ymm2, ymm5, ymm3
-	LONG $0x4c6de3c4; WORD $0x40e6             // vpblendvb    ymm4, ymm2, ymm6, ymm4
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm4
-	LONG $0x5c6ffec5; WORD $0x4071             // vmovdqu    ymm3, yword [rcx + 2*rsi + 64]
-	LONG $0x646ffec5; WORD $0x6071             // vmovdqu    ymm4, yword [rcx + 2*rsi + 96]
-	LONG $0xe875e5c5                           // vpcmpeqw    ymm5, ymm3, ymm0
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0xf075ddc5                           // vpcmpeqw    ymm6, ymm4, ymm0
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0xdb65edc5                           // vpcmpgtw    ymm3, ymm2, ymm3
-	LONG $0xe465edc5                           // vpcmpgtw    ymm4, ymm2, ymm4
-	LONG $0x4c6de3c4; WORD $0x30dd             // vpblendvb    ymm3, ymm2, ymm5, ymm3
-	LONG $0x4c6de3c4; WORD $0x40e6             // vpblendvb    ymm4, ymm2, ymm6, ymm4
-	LONG $0x7f7ec1c4; WORD $0x705c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm4
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_1063
-	JMP  LBB4_1334
-
-LBB4_1064:
-	WORD $0x8944; BYTE $0xda // mov    edx, r11d
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1342
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x000000c0956ffdc5 // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1066:
-	LONG $0x1c6ffec5; BYTE $0x71               // vmovdqu    ymm3, yword [rcx + 2*rsi]
-	LONG $0x646ffec5; WORD $0x2071             // vmovdqu    ymm4, yword [rcx + 2*rsi + 32]
-	LONG $0xe875e5c5                           // vpcmpeqw    ymm5, ymm3, ymm0
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0xf075ddc5                           // vpcmpeqw    ymm6, ymm4, ymm0
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0xdb65edc5                           // vpcmpgtw    ymm3, ymm2, ymm3
-	LONG $0xe465edc5                           // vpcmpgtw    ymm4, ymm2, ymm4
-	LONG $0x4c6de3c4; WORD $0x30dd             // vpblendvb    ymm3, ymm2, ymm5, ymm3
-	LONG $0x4c6de3c4; WORD $0x40e6             // vpblendvb    ymm4, ymm2, ymm6, ymm4
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm4
-	LONG $0x5c6ffec5; WORD $0x4071             // vmovdqu    ymm3, yword [rcx + 2*rsi + 64]
-	LONG $0x646ffec5; WORD $0x6071             // vmovdqu    ymm4, yword [rcx + 2*rsi + 96]
-	LONG $0xe875e5c5                           // vpcmpeqw    ymm5, ymm3, ymm0
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0xf075ddc5                           // vpcmpeqw    ymm6, ymm4, ymm0
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0xdb65edc5                           // vpcmpgtw    ymm3, ymm2, ymm3
-	LONG $0xe465edc5                           // vpcmpgtw    ymm4, ymm2, ymm4
-	LONG $0x4c6de3c4; WORD $0x30dd             // vpblendvb    ymm3, ymm2, ymm5, ymm3
-	LONG $0x4c6de3c4; WORD $0x40e6             // vpblendvb    ymm4, ymm2, ymm6, ymm4
-	LONG $0x7f7ec1c4; WORD $0x705c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm4
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_1066
-	JMP  LBB4_1343
-
-LBB4_1067:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xc0 // and    edx, -64
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5         // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x000000c0956ffdc5 // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1068:
-	LONG $0x1c74f9c5; BYTE $0x31               // vpcmpeqb    xmm3, xmm0, oword [rcx + rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x307de2c4; BYTE $0xdb               // vpmovzxbw    ymm3, xmm3
-	LONG $0x6474f9c5; WORD $0x1031             // vpcmpeqb    xmm4, xmm0, oword [rcx + rsi + 16]
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x307de2c4; BYTE $0xe4               // vpmovzxbw    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0x6c74f9c5; WORD $0x2031             // vpcmpeqb    xmm5, xmm0, oword [rcx + rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x307de2c4; BYTE $0xed               // vpmovzxbw    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0x7474f9c5; WORD $0x3031             // vpcmpeqb    xmm6, xmm0, oword [rcx + rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x307de2c4; BYTE $0xf6               // vpmovzxbw    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x706c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0x7074; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm6
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1068
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1070
-
-LBB4_1074:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xc0 // and    edx, -64
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5         // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x000000c0956ffdc5 // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_1075:
-	LONG $0x1c74f9c5; BYTE $0x31               // vpcmpeqb    xmm3, xmm0, oword [rcx + rsi]
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x307de2c4; BYTE $0xdb               // vpmovzxbw    ymm3, xmm3
-	LONG $0x6474f9c5; WORD $0x1031             // vpcmpeqb    xmm4, xmm0, oword [rcx + rsi + 16]
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x307de2c4; BYTE $0xe4               // vpmovzxbw    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0x6c74f9c5; WORD $0x2031             // vpcmpeqb    xmm5, xmm0, oword [rcx + rsi + 32]
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x307de2c4; BYTE $0xed               // vpmovzxbw    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0x7474f9c5; WORD $0x3031             // vpcmpeqb    xmm6, xmm0, oword [rcx + rsi + 48]
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x307de2c4; BYTE $0xf6               // vpmovzxbw    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x706c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0x7074; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm6
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1075
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1077
-
-LBB4_1081:
-	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
-	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1082:
-	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
-	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
-	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x227d62c4; BYTE $0xcf               // vpmovsxbq    ymm9, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x227d62c4; BYTE $0xd1               // vpmovsxbq    ymm10, xmm1
-	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
-	LONG $0x227de2c4; BYTE $0xff               // vpmovsxbq    ymm7, xmm7
-	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
-	LONG $0x227de2c4; BYTE $0xc9               // vpmovsxbq    ymm1, xmm1
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x227de2c4; BYTE $0xdb               // vpmovsxbq    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x227de2c4; BYTE $0xe4               // vpmovsxbq    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x227de2c4; BYTE $0xed               // vpmovsxbq    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x227de2c4; BYTE $0xf6               // vpmovsxbq    ymm6, xmm6
-	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1082
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1084
-
-LBB4_1089:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x00009895187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_1090:
-	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
-	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x217d62c4; BYTE $0xcf               // vpmovsxbd    ymm9, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x217d62c4; BYTE $0xd1               // vpmovsxbd    ymm10, xmm1
-	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
-	LONG $0x217de2c4; BYTE $0xff               // vpmovsxbd    ymm7, xmm7
-	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
-	LONG $0x217de2c4; BYTE $0xc9               // vpmovsxbd    ymm1, xmm1
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x217de2c4; BYTE $0xdb               // vpmovsxbd    ymm3, xmm3
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x217de2c4; BYTE $0xe4               // vpmovsxbd    ymm4, xmm4
-	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x217de2c4; BYTE $0xed               // vpmovsxbd    ymm5, xmm5
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x217de2c4; BYTE $0xf6               // vpmovsxbd    ymm6, xmm6
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1090
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1092
-
-LBB4_1095:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x597de2c4; WORD $0x284d // vpbroadcastq    ymm1, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1096:
-	LONG $0x297de2c4; WORD $0xf114             // vpcmpeqq    ymm2, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x297de2c4; WORD $0xf15c; BYTE $0x20 // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x40 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0xf014             // vmovdqu    yword [r8 + 8*rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf05c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm5
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1096
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1098
-
-LBB4_1102:
-	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1103:
-	LONG $0x1c6ffec5; BYTE $0xf1               // vmovdqu    ymm3, yword [rcx + 8*rsi]
-	LONG $0x646ffec5; WORD $0x20f1             // vmovdqu    ymm4, yword [rcx + 8*rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x40f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 64]
-	LONG $0x746ffec5; WORD $0x60f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 96]
-	LONG $0x2965e2c4; BYTE $0xf8               // vpcmpeqq    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
-	LONG $0x295d62c4; BYTE $0xc0               // vpcmpeqq    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
-	LONG $0x295562c4; BYTE $0xc8               // vpcmpeqq    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
-	LONG $0x294d62c4; BYTE $0xd0               // vpcmpeqq    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0x376de2c4; BYTE $0xdb               // vpcmpgtq    ymm3, ymm2, ymm3
-	LONG $0x376de2c4; BYTE $0xe4               // vpcmpgtq    ymm4, ymm2, ymm4
-	LONG $0x376de2c4; BYTE $0xed               // vpcmpgtq    ymm5, ymm2, ymm5
-	LONG $0x376de2c4; BYTE $0xf6               // vpcmpgtq    ymm6, ymm2, ymm6
-	LONG $0x4b6de3c4; WORD $0x30df             // vblendvpd    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4b6dc3c4; WORD $0x40e0             // vblendvpd    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4b6dc3c4; WORD $0x50e9             // vblendvpd    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4b6dc3c4; WORD $0x60f2             // vblendvpd    ymm6, ymm2, ymm10, ymm6
-	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1103
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1105
-
-LBB4_1110:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc057f8c5                     // vxorps    xmm0, xmm0, xmm0
-	QUAD $0x00009c8d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_1111:
-	LONG $0x146ffec5; BYTE $0xb1               // vmovdqu    ymm2, yword [rcx + 4*rsi]
-	LONG $0x5c6ffec5; WORD $0x20b1             // vmovdqu    ymm3, yword [rcx + 4*rsi + 32]
-	LONG $0x646ffec5; WORD $0x40b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 64]
-	LONG $0x6c6ffec5; WORD $0x60b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 96]
-	LONG $0xe272cdc5; BYTE $0x1f               // vpsrad    ymm6, ymm2, 31
-	LONG $0xf1ebcdc5                           // vpor    ymm6, ymm6, ymm1
-	LONG $0xe372c5c5; BYTE $0x1f               // vpsrad    ymm7, ymm3, 31
-	LONG $0xf9ebc5c5                           // vpor    ymm7, ymm7, ymm1
-	LONG $0xe472bdc5; BYTE $0x1f               // vpsrad    ymm8, ymm4, 31
-	LONG $0xc1eb3dc5                           // vpor    ymm8, ymm8, ymm1
-	LONG $0xe572b5c5; BYTE $0x1f               // vpsrad    ymm9, ymm5, 31
-	LONG $0xc9eb35c5                           // vpor    ymm9, ymm9, ymm1
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0xff5bfcc5                           // vcvtdq2ps    ymm7, ymm7
-	LONG $0x5b7c41c4; BYTE $0xc0               // vcvtdq2ps    ymm8, ymm8
-	LONG $0x5b7c41c4; BYTE $0xc9               // vcvtdq2ps    ymm9, ymm9
-	LONG $0xd0c2ecc5; BYTE $0x04               // vcmpneqps    ymm2, ymm2, ymm0
-	LONG $0xd654ecc5                           // vandps    ymm2, ymm2, ymm6
-	LONG $0xd8c2e4c5; BYTE $0x04               // vcmpneqps    ymm3, ymm3, ymm0
-	LONG $0xdf54e4c5                           // vandps    ymm3, ymm3, ymm7
-	LONG $0xe0c2dcc5; BYTE $0x04               // vcmpneqps    ymm4, ymm4, ymm0
-	LONG $0xe454bcc5                           // vandps    ymm4, ymm8, ymm4
-	LONG $0xe8c2d4c5; BYTE $0x04               // vcmpneqps    ymm5, ymm5, ymm0
-	LONG $0xed54b4c5                           // vandps    ymm5, ymm9, ymm5
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1111
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1113
-
-LBB4_1118:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_1119:
-	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
-	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
-	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x327de2c4; BYTE $0xdb               // vpmovzxbq    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x327de2c4; BYTE $0xe4               // vpmovzxbq    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x327de2c4; BYTE $0xed               // vpmovzxbq    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x327de2c4; BYTE $0xf6               // vpmovzxbq    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1119
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1121
-
-LBB4_1125:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_1126:
-	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
-	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x317de2c4; BYTE $0xdb               // vpmovzxbd    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x317de2c4; BYTE $0xe4               // vpmovzxbd    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x317de2c4; BYTE $0xed               // vpmovzxbd    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x317de2c4; BYTE $0xf6               // vpmovzxbd    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1126
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1128
-
-LBB4_1144:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ff9c5; BYTE $0x50 // vmovdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_1145:
-	LONG $0x1c76fdc5; BYTE $0xb1   // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd9efe5c5               // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xdadbe1c5               // vpand    xmm3, xmm3, xmm2
-	LONG $0x6476fdc5; WORD $0x20b1 // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xe1efddc5               // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5 // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x6c76fdc5; WORD $0x40b1 // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0xe2dbd9c5               // vpand    xmm4, xmm4, xmm2
-	LONG $0xe9efd5c5               // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5               // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xeadbd1c5               // vpand    xmm5, xmm5, xmm2
-	LONG $0x7476fdc5; WORD $0x60b1 // vpcmpeqd    ymm6, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xf1efcdc5               // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
-	LONG $0xf2dbc9c5               // vpand    xmm6, xmm6, xmm2
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0xdd6ce5c5               // vpunpcklqdq    ymm3, ymm3, ymm5
-	LONG $0x00fde3c4; WORD $0xd8db // vpermq    ymm3, ymm3, 216
-	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_1145
-	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1147
-
-LBB4_1151:
-	WORD $0xc289                   // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	WORD $0xf631                   // xor    esi, esi
-	LONG $0x597de2c4; WORD $0x0045 // vpbroadcastq    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x572941c4; BYTE $0xd2   // vxorpd    xmm10, xmm10, xmm10
-	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xef2141c4; BYTE $0xdb   // vpxor    xmm11, xmm11, xmm11
-
-LBB4_1152:
-	LONG $0x3410fdc5; BYTE $0xf1   // vmovupd    ymm6, yword [rcx + 8*rsi]
-	LONG $0x7c10fdc5; WORD $0x20f1 // vmovupd    ymm7, yword [rcx + 8*rsi + 32]
-	LONG $0x44107dc5; WORD $0x40f1 // vmovupd    ymm8, yword [rcx + 8*rsi + 64]
-	LONG $0x4c107dc5; WORD $0x60f1 // vmovupd    ymm9, yword [rcx + 8*rsi + 96]
-	LONG $0xe6c2adc5; BYTE $0x00   // vcmpeqpd    ymm4, ymm10, ymm6
-	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe46359c5               // vpacksswb    xmm12, xmm4, xmm4
-	LONG $0xefc2adc5; BYTE $0x00   // vcmpeqpd    ymm5, ymm10, ymm7
-	LONG $0x197de3c4; WORD $0x01e9 // vextractf128    xmm1, ymm5, 1
-	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xe96371c5               // vpacksswb    xmm13, xmm1, xmm1
-	LONG $0xc23dc1c4; WORD $0x00ca // vcmpeqpd    ymm1, ymm8, ymm10
-	LONG $0x197de3c4; WORD $0x01cb // vextractf128    xmm3, ymm1, 1
-	LONG $0xcb6bf1c5               // vpackssdw    xmm1, xmm1, xmm3
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xc235c1c4; WORD $0x00da // vcmpeqpd    ymm3, ymm9, ymm10
-	LONG $0x197de3c4; WORD $0x01dc // vextractf128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xe054cdc5               // vandpd    ymm4, ymm6, ymm0
-	LONG $0xe456edc5               // vorpd    ymm4, ymm2, ymm4
-	LONG $0xf054c5c5               // vandpd    ymm6, ymm7, ymm0
-	LONG $0xf656edc5               // vorpd    ymm6, ymm2, ymm6
-	LONG $0xf854bdc5               // vandpd    ymm7, ymm8, ymm0
-	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
-	LONG $0xc05435c5               // vandpd    ymm8, ymm9, ymm0
-	LONG $0xc2563dc5               // vorpd    ymm8, ymm8, ymm2
-	LONG $0xe4e6fdc5               // vcvttpd2dq    xmm4, ymm4
-	LONG $0x2b59e2c4; BYTE $0xe4   // vpackusdw    xmm4, xmm4, xmm4
-	LONG $0xe467d9c5               // vpackuswb    xmm4, xmm4, xmm4
-	LONG $0xf6e6fdc5               // vcvttpd2dq    xmm6, ymm6
-	LONG $0x2b49e2c4; BYTE $0xf6   // vpackusdw    xmm6, xmm6, xmm6
-	LONG $0xf667c9c5               // vpackuswb    xmm6, xmm6, xmm6
-	LONG $0xffe6fdc5               // vcvttpd2dq    xmm7, ymm7
-	LONG $0x2b41e2c4; BYTE $0xff   // vpackusdw    xmm7, xmm7, xmm7
-	LONG $0xff67c1c5               // vpackuswb    xmm7, xmm7, xmm7
-	LONG $0xe67dc1c4; BYTE $0xe8   // vcvttpd2dq    xmm5, ymm8
-	LONG $0x2b51e2c4; BYTE $0xed   // vpackusdw    xmm5, xmm5, xmm5
-	LONG $0xed67d1c5               // vpackuswb    xmm5, xmm5, xmm5
-	LONG $0x4c59c3c4; WORD $0xc0e3 // vpblendvb    xmm4, xmm4, xmm11, xmm12
-	LONG $0x4c49c3c4; WORD $0xd0f3 // vpblendvb    xmm6, xmm6, xmm11, xmm13
-	LONG $0x4c41c3c4; WORD $0x10cb // vpblendvb    xmm1, xmm7, xmm11, xmm1
-	LONG $0xe662d9c5               // vpunpckldq    xmm4, xmm4, xmm6
-	LONG $0x4c51c3c4; WORD $0x30db // vpblendvb    xmm3, xmm5, xmm11, xmm3
-	LONG $0xcb62f1c5               // vpunpckldq    xmm1, xmm1, xmm3
-	LONG $0xc96cd9c5               // vpunpcklqdq    xmm1, xmm4, xmm1
-	LONG $0x7f7ac1c4; WORD $0x300c // vmovdqu    oword [r8 + rsi], xmm1
-	LONG $0x10c68348               // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_1152
-	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1154
-
-LBB4_1159:
-	WORD $0x8945; BYTE $0xd3 // mov    r11d, r10d
-	LONG $0x80e38341         // and    r11d, -128
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x000000e0956ffdc5 // vmovdqa    ymm2, yword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_1160:
-	LONG $0x1c6ffec5; BYTE $0x31               // vmovdqu    ymm3, yword [rcx + rsi]
-	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x4031             // vmovdqu    ymm5, yword [rcx + rsi + 64]
-	LONG $0x746ffec5; WORD $0x6031             // vmovdqu    ymm6, yword [rcx + rsi + 96]
-	LONG $0xf874e5c5                           // vpcmpeqb    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
-	LONG $0xc0745dc5                           // vpcmpeqb    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
-	LONG $0xc87455c5                           // vpcmpeqb    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
-	LONG $0xd0744dc5                           // vpcmpeqb    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0xdb64edc5                           // vpcmpgtb    ymm3, ymm2, ymm3
-	LONG $0xe464edc5                           // vpcmpgtb    ymm4, ymm2, ymm4
-	LONG $0xed64edc5                           // vpcmpgtb    ymm5, ymm2, ymm5
-	LONG $0xf664edc5                           // vpcmpgtb    ymm6, ymm2, ymm6
-	LONG $0x4c6de3c4; WORD $0x30df             // vpblendvb    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4c6dc3c4; WORD $0x40e0             // vpblendvb    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4c6dc3c4; WORD $0x50e9             // vpblendvb    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4c6dc3c4; WORD $0x60f2             // vpblendvb    ymm6, ymm2, ymm10, ymm6
-	LONG $0x7f7ec1c4; WORD $0x301c             // vmovdqu    yword [r8 + rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x306c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0x3074; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm6
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB4_1160
-	WORD $0x394d; BYTE $0xd3                   // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_1162
-
-LBB4_1167:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0x556ff9c5; BYTE $0x70 // vmovdqa    xmm2, oword 112[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_1168:
-	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xdb6be1c5                           // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdb63e1c5                           // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5                           // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
-	LONG $0xdc62e1c5                           // vpunpckldq    xmm3, xmm3, xmm4
-	LONG $0xe1efd5c5                           // vpxor    ymm4, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5                           // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 96]
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed6bd1c5                           // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xed63d1c5                           // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0xe562d9c5                           // vpunpckldq    xmm4, xmm4, xmm5
-	LONG $0xdc6ce1c5                           // vpunpcklqdq    xmm3, xmm3, xmm4
-	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1168
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1170
-
-LBB4_1174:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xc0 // and    edx, -64
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00000080956ff9c5 // vmovdqa    xmm2, oword 128[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_1175:
-	LONG $0x1c75fdc5; BYTE $0x71               // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rsi]
-	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc63e1c5                           // vpacksswb    xmm3, xmm3, xmm4
-	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
-	LONG $0x6475fdc5; WORD $0x2071             // vpcmpeqw    ymm4, ymm0, yword [rcx + 2*rsi + 32]
-	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe563d9c5                           // vpacksswb    xmm4, xmm4, xmm5
-	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
-	LONG $0x6c75fdc5; WORD $0x4071             // vpcmpeqw    ymm5, ymm0, yword [rcx + 2*rsi + 64]
-	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee63d1c5                           // vpacksswb    xmm5, xmm5, xmm6
-	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
-	LONG $0x7475fdc5; WORD $0x6071             // vpcmpeqw    ymm6, ymm0, yword [rcx + 2*rsi + 96]
-	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf763c9c5                           // vpacksswb    xmm6, xmm6, xmm7
-	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
-	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0x3064; BYTE $0x10 // vmovdqu    oword [r8 + rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0x306c; BYTE $0x20 // vmovdqu    oword [r8 + rsi + 32], xmm5
-	LONG $0x7f7ac1c4; WORD $0x3074; BYTE $0x30 // vmovdqu    oword [r8 + rsi + 48], xmm6
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1175
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1177
-
-LBB4_1181:
-	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
-	LONG $0xc0e38341             // and    r11d, -64
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763d41c4; BYTE $0xc0 // vpcmpeqd    ymm8, ymm8, ymm8
-	QUAD $0x000000808d6f79c5     // vmovdqa    xmm9, oword 128[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_1182:
-	LONG $0x246ffec5; BYTE $0x71               // vmovdqu    ymm4, yword [rcx + 2*rsi]
-	LONG $0x6c6ffec5; WORD $0x2071             // vmovdqu    ymm5, yword [rcx + 2*rsi + 32]
-	LONG $0x746ffec5; WORD $0x4071             // vmovdqu    ymm6, yword [rcx + 2*rsi + 64]
-	LONG $0x7c6ffec5; WORD $0x6071             // vmovdqu    ymm7, yword [rcx + 2*rsi + 96]
-	LONG $0xd865ddc5                           // vpcmpgtw    ymm3, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xd16361c5                           // vpacksswb    xmm10, xmm3, xmm1
-	LONG $0xc865d5c5                           // vpcmpgtw    ymm1, ymm5, ymm0
-	LONG $0x397de3c4; WORD $0x01ca             // vextracti128    xmm2, ymm1, 1
-	LONG $0xda6371c5                           // vpacksswb    xmm11, xmm1, xmm2
-	LONG $0xd065cdc5                           // vpcmpgtw    ymm2, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
-	LONG $0xd363e9c5                           // vpacksswb    xmm2, xmm2, xmm3
-	LONG $0xd865c5c5                           // vpcmpgtw    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
-	LONG $0xc963e1c5                           // vpacksswb    xmm1, xmm3, xmm1
-	LONG $0xd875ddc5                           // vpcmpeqw    ymm3, ymm4, ymm0
-	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
-	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc63e1c5                           // vpacksswb    xmm3, xmm3, xmm4
-	LONG $0xe075d5c5                           // vpcmpeqw    ymm4, ymm5, ymm0
-	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
-	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
-	LONG $0xe563d9c5                           // vpacksswb    xmm4, xmm4, xmm5
-	LONG $0xe875cdc5                           // vpcmpeqw    ymm5, ymm6, ymm0
-	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
-	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
-	LONG $0xee63d1c5                           // vpacksswb    xmm5, xmm5, xmm6
-	LONG $0xf075c5c5                           // vpcmpeqw    ymm6, ymm7, ymm0
-	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
-	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
-	LONG $0xf763c9c5                           // vpacksswb    xmm6, xmm6, xmm7
-	LONG $0x4c61c3c4; WORD $0xa0d9             // vpblendvb    xmm3, xmm3, xmm9, xmm10
-	LONG $0x4c59c3c4; WORD $0xb0e1             // vpblendvb    xmm4, xmm4, xmm9, xmm11
-	LONG $0x4c51c3c4; WORD $0x20d1             // vpblendvb    xmm2, xmm5, xmm9, xmm2
-	LONG $0x4c49c3c4; WORD $0x10c9             // vpblendvb    xmm1, xmm6, xmm9, xmm1
-	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
-	LONG $0x7f7ac1c4; WORD $0x3064; BYTE $0x10 // vmovdqu    oword [r8 + rsi + 16], xmm4
-	LONG $0x7f7ac1c4; WORD $0x3054; BYTE $0x20 // vmovdqu    oword [r8 + rsi + 32], xmm2
-	LONG $0x7f7ac1c4; WORD $0x304c; BYTE $0x30 // vmovdqu    oword [r8 + rsi + 48], xmm1
-	LONG $0x40c68348                           // add    rsi, 64
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB4_1182
-	WORD $0x394d; BYTE $0xd3                   // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_1184
-
-LBB4_1189:
-	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
-	LONG $0xf0e38341             // and    r11d, -16
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
-	LONG $0x5d6f79c5; BYTE $0x70 // vmovdqa    xmm11, oword 112[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_1190:
-	LONG $0x146f7ec5; BYTE $0xf1   // vmovdqu    ymm10, yword [rcx + 8*rsi]
-	LONG $0x446f7ec5; WORD $0x20f1 // vmovdqu    ymm8, yword [rcx + 8*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40f1 // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60f1 // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
-	LONG $0x372de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm10, ymm0
-	LONG $0x397de3c4; WORD $0x01cb // vextracti128    xmm3, ymm1, 1
-	LONG $0xcb6bf1c5               // vpackssdw    xmm1, xmm1, xmm3
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xe16371c5               // vpacksswb    xmm12, xmm1, xmm1
-	LONG $0x373de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01cd // vextracti128    xmm5, ymm1, 1
-	LONG $0xcd6bf1c5               // vpackssdw    xmm1, xmm1, xmm5
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xe96371c5               // vpacksswb    xmm13, xmm1, xmm1
-	LONG $0x374de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01cf // vextracti128    xmm7, ymm1, 1
-	LONG $0xcf6bf1c5               // vpackssdw    xmm1, xmm1, xmm7
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xf963f1c5               // vpacksswb    xmm7, xmm1, xmm1
-	LONG $0x375de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0x292de2c4; BYTE $0xd0   // vpcmpeqq    ymm2, ymm10, ymm0
-	LONG $0xd2efb5c5               // vpxor    ymm2, ymm9, ymm2
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0x293de2c4; BYTE $0xd8   // vpcmpeqq    ymm3, ymm8, ymm0
-	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0x294de2c4; BYTE $0xe8   // vpcmpeqq    ymm5, ymm6, ymm0
-	LONG $0xedefb5c5               // vpxor    ymm5, ymm9, ymm5
-	LONG $0x397de3c4; WORD $0x01ee // vextracti128    xmm6, ymm5, 1
-	LONG $0xee6bd1c5               // vpackssdw    xmm5, xmm5, xmm6
-	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0x295de2c4; BYTE $0xe0   // vpcmpeqq    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e6 // vextracti128    xmm6, ymm4, 1
-	LONG $0xe66bd9c5               // vpackssdw    xmm4, xmm4, xmm6
-	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x4c69c3c4; WORD $0xc0d3 // vpblendvb    xmm2, xmm2, xmm11, xmm12
-	LONG $0x4c61c3c4; WORD $0xd0db // vpblendvb    xmm3, xmm3, xmm11, xmm13
-	LONG $0x4c51c3c4; WORD $0x70eb // vpblendvb    xmm5, xmm5, xmm11, xmm7
-	LONG $0xd362e9c5               // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0x4c59c3c4; WORD $0x10cb // vpblendvb    xmm1, xmm4, xmm11, xmm1
-	LONG $0xc962d1c5               // vpunpckldq    xmm1, xmm5, xmm1
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x7f7ac1c4; WORD $0x300c // vmovdqu    oword [r8 + rsi], xmm1
-	LONG $0x10c68348               // add    rsi, 16
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB4_1190
-	WORD $0x394d; BYTE $0xd3       // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_1192
-
-LBB4_1197:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x571841c4; BYTE $0xe4 // vxorps    xmm12, xmm12, xmm12
-	LONG $0x761541c4; BYTE $0xed // vpcmpeqd    ymm13, ymm13, ymm13
-	LONG $0x756f79c5; BYTE $0x50 // vmovdqa    xmm14, oword 80[rbp] /* [rip + .LCPI4_12] */
-	LONG $0x760141c4; BYTE $0xff // vpcmpeqd    xmm15, xmm15, xmm15
-
-LBB4_1198:
-	LONG $0x0c107cc5; BYTE $0xb1   // vmovups    ymm9, yword [rcx + 4*rsi]
-	LONG $0x54107cc5; WORD $0x20b1 // vmovups    ymm10, yword [rcx + 4*rsi + 32]
-	LONG $0x5c107cc5; WORD $0x40b1 // vmovups    ymm11, yword [rcx + 4*rsi + 64]
-	LONG $0x7c10fcc5; WORD $0x60b1 // vmovups    ymm7, yword [rcx + 4*rsi + 96]
-	LONG $0xc234c1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm9, ymm12
-	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
-	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
-	LONG $0xc46359c5               // vpacksswb    xmm8, xmm4, xmm4
-	LONG $0xc22cc1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm10, ymm12
-	LONG $0x197de3c4; WORD $0x01e6 // vextractf128    xmm6, ymm4, 1
-	LONG $0xe66bd9c5               // vpackssdw    xmm4, xmm4, xmm6
-	LONG $0xf463d9c5               // vpacksswb    xmm6, xmm4, xmm4
-	LONG $0xc224c1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm11, ymm12
-	LONG $0x197de3c4; WORD $0x01e0 // vextractf128    xmm0, ymm4, 1
-	LONG $0xc06bd9c5               // vpackssdw    xmm0, xmm4, xmm0
-	LONG $0xe063f9c5               // vpacksswb    xmm4, xmm0, xmm0
-	LONG $0xc7c29cc5; BYTE $0x00   // vcmpeqps    ymm0, ymm12, ymm7
-	LONG $0x197de3c4; WORD $0x01c1 // vextractf128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0xc063f9c5               // vpacksswb    xmm0, xmm0, xmm0
-	LONG $0x6635c1c4; BYTE $0xcd   // vpcmpgtd    ymm1, ymm9, ymm13
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0x662dc1c4; BYTE $0xd5   // vpcmpgtd    ymm2, ymm10, ymm13
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0x6625c1c4; BYTE $0xdd   // vpcmpgtd    ymm3, ymm11, ymm13
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0x6645c1c4; BYTE $0xed   // vpcmpgtd    ymm5, ymm7, ymm13
-	LONG $0x397de3c4; WORD $0x01ef // vextracti128    xmm7, ymm5, 1
-	LONG $0xef6bd1c5               // vpackssdw    xmm5, xmm5, xmm7
-	LONG $0x4c01c3c4; WORD $0x10ce // vpblendvb    xmm1, xmm15, xmm14, xmm1
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xc9dfb9c5               // vpandn    xmm1, xmm8, xmm1
-	LONG $0x4c01c3c4; WORD $0x20d6 // vpblendvb    xmm2, xmm15, xmm14, xmm2
-	LONG $0x4c01c3c4; WORD $0x30de // vpblendvb    xmm3, xmm15, xmm14, xmm3
-	LONG $0x4c01c3c4; WORD $0x50ee // vpblendvb    xmm5, xmm15, xmm14, xmm5
-	LONG $0xffefc1c5               // vpxor    xmm7, xmm7, xmm7
-	LONG $0x4c69e3c4; WORD $0x60d7 // vpblendvb    xmm2, xmm2, xmm7, xmm6
-	LONG $0x4c51e3c4; WORD $0x00c7 // vpblendvb    xmm0, xmm5, xmm7, xmm0
-	LONG $0xdbdfd9c5               // vpandn    xmm3, xmm4, xmm3
-	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x7f7ec1c4; WORD $0x3004 // vmovdqu    yword [r8 + rsi], ymm0
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_1198
-	WORD $0x394c; BYTE $0xd2       // cmp    rdx, r10
-	JE   LBB4_1351
-	JMP  LBB4_1200
-
-LBB4_1205:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0x80 // and    edx, -128
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x000000e08d6ffdc5 // vmovdqa    ymm1, yword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_1206:
-	LONG $0x1474fdc5; BYTE $0x31               // vpcmpeqb    ymm2, ymm0, yword [rcx + rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c74fdc5; WORD $0x2031             // vpcmpeqb    ymm3, ymm0, yword [rcx + rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6474fdc5; WORD $0x4031             // vpcmpeqb    ymm4, ymm0, yword [rcx + rsi + 64]
-	LONG $0x6c74fdc5; WORD $0x6031             // vpcmpeqb    ymm5, ymm0, yword [rcx + rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0x3014             // vmovdqu    yword [r8 + rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0x305c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0x306c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm5
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1206
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1208
-
-LBB4_1212:
-	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
-	LONG $0xe0e38341             // and    r11d, -32
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
-	LONG $0x556f79c5; BYTE $0x50 // vmovdqa    xmm10, oword 80[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_1213:
-	LONG $0x3c6ffec5; BYTE $0xb1   // vmovdqu    ymm7, yword [rcx + 4*rsi]
-	LONG $0x446f7ec5; WORD $0x20b1 // vmovdqu    ymm8, yword [rcx + 4*rsi + 32]
-	LONG $0x746ffec5; WORD $0x40b1 // vmovdqu    ymm6, yword [rcx + 4*rsi + 64]
-	LONG $0x646ffec5; WORD $0x60b1 // vmovdqu    ymm4, yword [rcx + 4*rsi + 96]
-	LONG $0xd866c5c5               // vpcmpgtd    ymm3, ymm7, ymm0
-	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
-	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
-	LONG $0xdb6361c5               // vpacksswb    xmm11, xmm3, xmm3
-	LONG $0xe866bdc5               // vpcmpgtd    ymm5, ymm8, ymm0
-	LONG $0x397de3c4; WORD $0x01e9 // vextracti128    xmm1, ymm5, 1
-	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
-	LONG $0xe16371c5               // vpacksswb    xmm12, xmm1, xmm1
-	LONG $0xc866cdc5               // vpcmpgtd    ymm1, ymm6, ymm0
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xd066ddc5               // vpcmpgtd    ymm2, ymm4, ymm0
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0xd876c5c5               // vpcmpeqd    ymm3, ymm7, ymm0
-	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
-	LONG $0x397de3c4; WORD $0x01df // vextracti128    xmm7, ymm3, 1
-	LONG $0xdf6be1c5               // vpackssdw    xmm3, xmm3, xmm7
-	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
-	LONG $0xf876bdc5               // vpcmpeqd    ymm7, ymm8, ymm0
-	LONG $0xffefb5c5               // vpxor    ymm7, ymm9, ymm7
-	LONG $0x397de3c4; WORD $0x01fd // vextracti128    xmm5, ymm7, 1
-	LONG $0xed6bc1c5               // vpackssdw    xmm5, xmm7, xmm5
-	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
-	LONG $0xf076cdc5               // vpcmpeqd    ymm6, ymm6, ymm0
-	LONG $0xf6efb5c5               // vpxor    ymm6, ymm9, ymm6
-	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
-	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
-	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
-	LONG $0xe076ddc5               // vpcmpeqd    ymm4, ymm4, ymm0
-	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
-	LONG $0x397de3c4; WORD $0x01e7 // vextracti128    xmm7, ymm4, 1
-	LONG $0xe76bd9c5               // vpackssdw    xmm4, xmm4, xmm7
-	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
-	LONG $0x4c61c3c4; WORD $0xb0da // vpblendvb    xmm3, xmm3, xmm10, xmm11
-	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
-	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
-	LONG $0x4c59c3c4; WORD $0x20d2 // vpblendvb    xmm2, xmm4, xmm10, xmm2
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x3865e3c4; WORD $0x01d5 // vinserti128    ymm2, ymm3, xmm5, 1
-	LONG $0xc96cedc5               // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
-	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB4_1213
-	WORD $0x394d; BYTE $0xd3       // cmp    r11, r10
-	JE   LBB4_1351
-	JMP  LBB4_1215
-
-LBB4_1220:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	QUAD $0x00009c8d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_1221:
-	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
-	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
-	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
-	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
-	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
-	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
-	LONG $0x7f7ec1c4; WORD $0xb014             // vmovdqu    yword [r8 + 4*rsi], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb05c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1221
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1223
-
-LBB4_1227:
-	WORD $0x8944; BYTE $0xda             // mov    edx, r11d
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
-	QUAD $0x00009c95187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_1228:
-	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
-	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
-	LONG $0x217d62c4; BYTE $0xcf               // vpmovsxbd    ymm9, xmm7
-	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
-	LONG $0x217d62c4; BYTE $0xd1               // vpmovsxbd    ymm10, xmm1
-	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
-	LONG $0x217de2c4; BYTE $0xff               // vpmovsxbd    ymm7, xmm7
-	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
-	LONG $0x217de2c4; BYTE $0xc9               // vpmovsxbd    ymm1, xmm1
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
-	LONG $0x217de2c4; BYTE $0xdb               // vpmovsxbd    ymm3, xmm3
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
-	LONG $0x217de2c4; BYTE $0xe4               // vpmovsxbd    ymm4, xmm4
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
-	LONG $0x217de2c4; BYTE $0xed               // vpmovsxbd    ymm5, xmm5
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
-	LONG $0x217de2c4; BYTE $0xf6               // vpmovsxbd    ymm6, xmm6
-	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
-	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
-	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
-	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1228
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1230
-
-LBB4_1235:
-	WORD $0xc289                         // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_1236:
-	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
-	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
-	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
-	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
-	LONG $0x317de2c4; BYTE $0xdb               // vpmovzxbd    ymm3, xmm3
-	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
-	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
-	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
-	LONG $0x317de2c4; BYTE $0xe4               // vpmovzxbd    ymm4, xmm4
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
-	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
-	LONG $0x317de2c4; BYTE $0xed               // vpmovzxbd    ymm5, xmm5
-	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
-	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
-	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
-	LONG $0x317de2c4; BYTE $0xf6               // vpmovzxbd    ymm6, xmm6
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	LONG $0x7f7ec1c4; WORD $0xb01c             // vmovdqu    yword [r8 + 4*rsi], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x7f7ec1c4; WORD $0xb074; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1236
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1238
-
-LBB4_1242:
-	WORD $0x8944; BYTE $0xda             // mov    edx, r11d
-	WORD $0xe283; BYTE $0xe0             // and    edx, -32
-	WORD $0xf631                         // xor    esi, esi
-	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_1243:
-	LONG $0x1c6ffec5; BYTE $0xb1               // vmovdqu    ymm3, yword [rcx + 4*rsi]
-	LONG $0x646ffec5; WORD $0x20b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 32]
-	LONG $0x6c6ffec5; WORD $0x40b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 64]
-	LONG $0x746ffec5; WORD $0x60b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 96]
-	LONG $0xf876e5c5                           // vpcmpeqd    ymm7, ymm3, ymm0
-	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
-	LONG $0xc0765dc5                           // vpcmpeqd    ymm8, ymm4, ymm0
-	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
-	LONG $0xc87655c5                           // vpcmpeqd    ymm9, ymm5, ymm0
-	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
-	LONG $0xd0764dc5                           // vpcmpeqd    ymm10, ymm6, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0xdb66edc5                           // vpcmpgtd    ymm3, ymm2, ymm3
-	LONG $0xe466edc5                           // vpcmpgtd    ymm4, ymm2, ymm4
-	LONG $0xed66edc5                           // vpcmpgtd    ymm5, ymm2, ymm5
-	LONG $0xf666edc5                           // vpcmpgtd    ymm6, ymm2, ymm6
-	LONG $0x4a6de3c4; WORD $0x30df             // vblendvps    ymm3, ymm2, ymm7, ymm3
-	LONG $0x4a6dc3c4; WORD $0x40e0             // vblendvps    ymm4, ymm2, ymm8, ymm4
-	LONG $0x4a6dc3c4; WORD $0x50e9             // vblendvps    ymm5, ymm2, ymm9, ymm5
-	LONG $0x4a6dc3c4; WORD $0x60f2             // vblendvps    ymm6, ymm2, ymm10, ymm6
-	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
-	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
-	LONG $0x20c68348                           // add    rsi, 32
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JNE  LBB4_1243
-	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1245
-
-LBB4_1250:
-	LONG $0x457efac5; BYTE $0x20 // vmovq    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
-
-LBB4_1251:
-	JLE  LBB4_1253
-	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_1253:
-	LONG $0xd679c1c4; WORD $0xd004 // vmovq    qword [r8 + 8*rdx], xmm0
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_1254:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1351
-	LONG $0x4510fbc5; BYTE $0x20 // vmovsd    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
-	LONG $0x4d10fbc5; BYTE $0x08 // vmovsd    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
-	JMP  LBB4_1257
-
-LBB4_1256:
-	LONG $0x117bc1c4; WORD $0xd05c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm3
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_1257:
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd028f9c5 // vmovapd    xmm2, xmm0
-	JNE  LBB4_1258
-	LONG $0xd257e9c5 // vxorpd    xmm2, xmm2, xmm2
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JLE  LBB4_1262
-
-LBB4_1259:
-	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd028f9c5               // vmovapd    xmm2, xmm0
-	JNE  LBB4_1260
-
-LBB4_1263:
-	LONG $0xd257e9c5 // vxorpd    xmm2, xmm2, xmm2
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JG   LBB4_1256
-	JMP  LBB4_1264
-
-LBB4_1258:
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JG   LBB4_1259
-
-LBB4_1262:
-	LONG $0xda28f9c5               // vmovapd    xmm3, xmm2
-	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd028f9c5               // vmovapd    xmm2, xmm0
-	JE   LBB4_1263
-
-LBB4_1260:
-	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
-	JG   LBB4_1256
-
-LBB4_1264:
-	LONG $0xda28f9c5 // vmovapd    xmm3, xmm2
-	JMP  LBB4_1256
-
-LBB4_1265:
-	QUAD $0x000000a8856ef9c5 // vmovd    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
-
-LBB4_1266:
-	JLE  LBB4_1268
-	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_1268:
-	LONG $0x7e79c1c4; WORD $0x9004 // vmovd    dword [r8 + 4*rdx], xmm0
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_1269:
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	JE   LBB4_1351
-	QUAD $0x000000a88510fac5 // vmovss    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000000988d10fac5 // vmovss    xmm1, dword 152[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1272
-
-LBB4_1271:
-	LONG $0x117ac1c4; WORD $0x905c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm3
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_1272:
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd028f8c5 // vmovaps    xmm2, xmm0
-	JNE  LBB4_1273
-	LONG $0xd257e8c5 // vxorps    xmm2, xmm2, xmm2
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JLE  LBB4_1277
-
-LBB4_1274:
-	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd028f8c5               // vmovaps    xmm2, xmm0
-	JNE  LBB4_1275
-
-LBB4_1278:
-	LONG $0xd257e8c5 // vxorps    xmm2, xmm2, xmm2
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JG   LBB4_1271
-	JMP  LBB4_1279
-
-LBB4_1273:
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JG   LBB4_1274
-
-LBB4_1277:
-	LONG $0xda28f8c5               // vmovaps    xmm3, xmm2
-	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd028f8c5               // vmovaps    xmm2, xmm0
-	JE   LBB4_1278
-
-LBB4_1275:
-	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
-	JG   LBB4_1271
-
-LBB4_1279:
-	LONG $0xda28f8c5 // vmovaps    xmm3, xmm2
-	JMP  LBB4_1271
-
-LBB4_1282:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1283:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1285
-	LONG $0x0410fdc5; BYTE $0xf9   // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0xc957f1c5               // vxorpd    xmm1, xmm1, xmm1
-	LONG $0x197de2c4; WORD $0x0055 // vbroadcastsd    ymm2, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x197de2c4; WORD $0x085d // vbroadcastsd    ymm3, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xd254fdc5               // vandpd    ymm2, ymm0, ymm2
-	LONG $0xda56e5c5               // vorpd    ymm3, ymm3, ymm2
-	LONG $0x197de3c4; WORD $0x01dc // vextractf128    xmm4, ymm3, 1
-	LONG $0x5510fbc5; BYTE $0x10   // vmovsd    xmm2, qword 16[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xea5cdbc5               // vsubsd    xmm5, xmm4, xmm2
-	LONG $0x2cfbe1c4; BYTE $0xc5   // vcvttsd2si    rax, xmm5
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd4   // vcvttsd2si    rdx, xmm4
-	LONG $0xe22ef9c5               // vucomisd    xmm4, xmm2
-	LONG $0xd0430f48               // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xea   // vmovq    xmm5, rdx
-	LONG $0x0479e3c4; WORD $0x4ee4 // vpermilps    xmm4, xmm4, 78
-	LONG $0xf25cdbc5               // vsubsd    xmm6, xmm4, xmm2
-	LONG $0x2cfbe1c4; BYTE $0xc6   // vcvttsd2si    rax, xmm6
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd4   // vcvttsd2si    rdx, xmm4
-	LONG $0xe22ef9c5               // vucomisd    xmm4, xmm2
-	LONG $0xd0430f48               // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xe2   // vmovq    xmm4, rdx
-	LONG $0xe46cd1c5               // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0xea5ce3c5               // vsubsd    xmm5, xmm3, xmm2
-	LONG $0x2cfbe1c4; BYTE $0xc5   // vcvttsd2si    rax, xmm5
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd3   // vcvttsd2si    rdx, xmm3
-	LONG $0xda2ef9c5               // vucomisd    xmm3, xmm2
-	LONG $0xd0430f48               // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xea   // vmovq    xmm5, rdx
-	LONG $0x0479e3c4; WORD $0x4edb // vpermilps    xmm3, xmm3, 78
-	LONG $0xf25ce3c5               // vsubsd    xmm6, xmm3, xmm2
-	LONG $0x2cfbe1c4; BYTE $0xc6   // vcvttsd2si    rax, xmm6
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xd3   // vcvttsd2si    rdx, xmm3
-	LONG $0xda2ef9c5               // vucomisd    xmm3, xmm2
-	LONG $0xd0430f48               // cmovae    rdx, rax
-	LONG $0x6ef9e1c4; BYTE $0xd2   // vmovq    xmm2, rdx
-	LONG $0xd26cd1c5               // vpunpcklqdq    xmm2, xmm5, xmm2
-	LONG $0x386de3c4; WORD $0x01d4 // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0xc1c2fdc5; BYTE $0x04   // vcmpneqpd    ymm0, ymm0, ymm1
-	LONG $0xc254fdc5               // vandpd    ymm0, ymm0, ymm2
-	LONG $0x117dc1c4; WORD $0xf804 // vmovupd    yword [r8 + 8*rdi], ymm0
-
-LBB4_1285:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1351
-
-LBB4_1286:
-	LONG $0x4512fbc5; BYTE $0x08 // vmovddup    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5510fbc5; BYTE $0x10 // vmovsd    xmm2, qword 16[rbp] /* [rip + .LCPI4_6] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xdb57e1c5             // vxorpd    xmm3, xmm3, xmm3
-
-LBB4_1287:
-	LONG $0x2410fbc5; BYTE $0xf1 // vmovsd    xmm4, qword [rcx + 8*rsi]
-	LONG $0xe954d9c5             // vandpd    xmm5, xmm4, xmm1
-	LONG $0xed56f9c5             // vorpd    xmm5, xmm0, xmm5
-	LONG $0xf25cd3c5             // vsubsd    xmm6, xmm5, xmm2
-	LONG $0x2cfbe1c4; BYTE $0xd6 // vcvttsd2si    rdx, xmm6
-	WORD $0x314c; BYTE $0xda     // xor    rdx, r11
-	LONG $0x2cfbe1c4; BYTE $0xfd // vcvttsd2si    rdi, xmm5
-	LONG $0xea2ef9c5             // vucomisd    xmm5, xmm2
-	LONG $0xfa430f48             // cmovae    rdi, rdx
-	LONG $0xdc2ef9c5             // vucomisd    xmm3, xmm4
-	LONG $0xf8440f48             // cmove    rdi, rax
-	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1287
-	JMP  LBB4_1351
-
-LBB4_1280:
-	LONG $0xc850f8c5                       // vmovmskps    ecx, xmm0
-	WORD $0xe183; BYTE $0x01               // and    ecx, 1
-	WORD $0xd9f7                           // neg    ecx
-	WORD $0xc983; BYTE $0x01               // or    ecx, 1
-	LONG $0xc12adac5                       // vcvtsi2ss    xmm0, xmm4, ecx
-	QUAD $0x000000a08d10fac5               // vmovss    xmm1, dword 160[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xd15cfac5                       // vsubss    xmm2, xmm0, xmm1
-	LONG $0x2cfae1c4; BYTE $0xca           // vcvttss2si    rcx, xmm2
-	QUAD $0x000000000000ba48; WORD $0x8000 // mov    rdx, -9223372036854775808
-	WORD $0x3148; BYTE $0xca               // xor    rdx, rcx
-	LONG $0x2cfae1c4; BYTE $0xc8           // vcvttss2si    rcx, xmm0
-	LONG $0xc12ef8c5                       // vucomiss    xmm0, xmm1
-	LONG $0xca430f48                       // cmovae    rcx, rdx
-
-LBB4_1281:
-	LONG $0xc00c8949 // mov    qword [r8 + 8*rax], rcx
-	JMP  LBB4_1351
-
-LBB4_1288:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1289:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1291
-	LONG $0x0410fdc5; BYTE $0xf9         // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0xc957f1c5                     // vxorpd    xmm1, xmm1, xmm1
-	LONG $0xc9c2fdc5; BYTE $0x00         // vcmpeqpd    ymm1, ymm0, ymm1
-	LONG $0x197de3c4; WORD $0x01ca       // vextractf128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5                     // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0x197de2c4; WORD $0x0055       // vbroadcastsd    ymm2, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xc254fdc5                     // vandpd    ymm0, ymm0, ymm2
-	LONG $0x197de2c4; WORD $0x0855       // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xc056edc5                     // vorpd    ymm0, ymm2, ymm0
-	LONG $0x197de2c4; WORD $0x1855       // vbroadcastsd    ymm2, qword 24[rbp] /* [rip + .LCPI4_7] */
-	LONG $0xdac2fdc5; BYTE $0x01         // vcmpltpd    ymm3, ymm0, ymm2
-	LONG $0x197de3c4; WORD $0x01dc       // vextractf128    xmm4, ymm3, 1
-	LONG $0xd25cfdc5                     // vsubpd    ymm2, ymm0, ymm2
-	LONG $0xd2e6fdc5                     // vcvttpd2dq    xmm2, ymm2
-	QUAD $0x000094ad1879e2c4; BYTE $0x00 // vbroadcastss    xmm5, dword 148[rbp] /* [rip + .LCPI4_4] */
-	LONG $0xdc6be1c5                     // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0xd557e9c5                     // vxorpd    xmm2, xmm2, xmm5
-	LONG $0xc0e6fdc5                     // vcvttpd2dq    xmm0, ymm0
-	LONG $0x4a69e3c4; WORD $0x30c0       // vblendvps    xmm0, xmm2, xmm0, xmm3
-	LONG $0xc0dff1c5                     // vpandn    xmm0, xmm1, xmm0
-	LONG $0x7f7ac1c4; WORD $0xb804       // vmovdqu    oword [r8 + 4*rdi], xmm0
-
-LBB4_1291:
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JE   LBB4_1351
-
-LBB4_1292:
-	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_1293:
-	LONG $0x1c10fbc5; BYTE $0xf1 // vmovsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xd3 // vcvttsd2si    rdx, xmm3
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_1293
-	JMP  LBB4_1351
-
-LBB4_1294:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1295:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1297
-	LONG $0x046ffec5; BYTE $0xb1         // vmovdqu    ymm0, yword [rcx + 4*rsi]
-	LONG $0xe072f5c5; BYTE $0x1f         // vpsrad    ymm1, ymm0, 31
-	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xcaebf5c5                     // vpor    ymm1, ymm1, ymm2
-	LONG $0xc95bfcc5                     // vcvtdq2ps    ymm1, ymm1
-	QUAD $0x0000a495187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 164[rbp] /* [rip + .LCPI4_10] */
-	LONG $0xdac2f4c5; BYTE $0x01         // vcmpltps    ymm3, ymm1, ymm2
-	LONG $0xd25cf4c5                     // vsubps    ymm2, ymm1, ymm2
-	LONG $0xd25bfec5                     // vcvttps2dq    ymm2, ymm2
-	QUAD $0x000094a5187de2c4; BYTE $0x00 // vbroadcastss    ymm4, dword 148[rbp] /* [rip + .LCPI4_4] */
-	LONG $0xd457ecc5                     // vxorps    ymm2, ymm2, ymm4
-	LONG $0xc95bfec5                     // vcvttps2dq    ymm1, ymm1
-	LONG $0x4a6de3c4; WORD $0x30c9       // vblendvps    ymm1, ymm2, ymm1, ymm3
-	LONG $0xd257e8c5                     // vxorps    xmm2, xmm2, xmm2
-	LONG $0xc2c2fcc5; BYTE $0x04         // vcmpneqps    ymm0, ymm0, ymm2
-	LONG $0xc154fcc5                     // vandps    ymm0, ymm0, ymm1
-	LONG $0x117cc1c4; WORD $0xb004       // vmovups    yword [r8 + 4*rsi], ymm0
-
-LBB4_1297:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_1298:
-	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
-	JMP  LBB4_1300
-
-LBB4_1299:
-	LONG $0x90348941         // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JE   LBB4_1351
-
-LBB4_1300:
-	LONG $0x0c10fac5; BYTE $0x91 // vmovss    xmm1, dword [rcx + 4*rdx]
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
-	JE   LBB4_1299
-	LONG $0xf150f8c5             // vmovmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01     // and    esi, 1
-	WORD $0xdef7                 // neg    esi
-	WORD $0xce83; BYTE $0x01     // or    esi, 1
-	LONG $0xce2abac5             // vcvtsi2ss    xmm1, xmm8, esi
-	LONG $0x2cfae1c4; BYTE $0xf1 // vcvttss2si    rsi, xmm1
-	JMP  LBB4_1299
-
-LBB4_1302:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1303:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1305
-	LONG $0x0410fdc5; BYTE $0xf1   // vmovupd    ymm0, yword [rcx + 8*rsi]
-	LONG $0xc957f1c5               // vxorpd    xmm1, xmm1, xmm1
-	LONG $0x197de2c4; WORD $0x0055 // vbroadcastsd    ymm2, qword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xd254fdc5               // vandpd    ymm2, ymm0, ymm2
-	LONG $0x197de2c4; WORD $0x085d // vbroadcastsd    ymm3, qword 8[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xd256e5c5               // vorpd    ymm2, ymm3, ymm2
-	LONG $0x197de3c4; WORD $0x01d3 // vextractf128    xmm3, ymm2, 1
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xe7   // vmovq    xmm4, rdi
-	LONG $0x0479e3c4; WORD $0x4edb // vpermilps    xmm3, xmm3, 78
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	LONG $0xdb6cd9c5               // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xe7   // vmovq    xmm4, rdi
-	LONG $0x0479e3c4; WORD $0x4ed2 // vpermilps    xmm2, xmm2, 78
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd26cd9c5               // vpunpcklqdq    xmm2, xmm4, xmm2
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xc1c2fdc5; BYTE $0x04   // vcmpneqpd    ymm0, ymm0, ymm1
-	LONG $0xc254fdc5               // vandpd    ymm0, ymm0, ymm2
-	LONG $0x117dc1c4; WORD $0xf004 // vmovupd    yword [r8 + 8*rsi], ymm0
-
-LBB4_1305:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1351
-
-LBB4_1306:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
-	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_1307:
-	LONG $0x1c10fbc5; BYTE $0xd1 // vmovsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
-	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
-	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
-	LONG $0x2cfbe1c4; BYTE $0xfb // vcvttsd2si    rdi, xmm3
-	LONG $0xfe440f48             // cmove    rdi, rsi
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1307
-	JMP  LBB4_1351
-
-LBB4_1308:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1309:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1311
-	LONG $0x0410f8c5; BYTE $0xb1         // vmovups    xmm0, oword [rcx + 4*rsi]
-	LONG $0xc9eff1c5                     // vpxor    xmm1, xmm1, xmm1
-	LONG $0xc9c2f8c5; BYTE $0x00         // vcmpeqps    xmm1, xmm0, xmm1
-	LONG $0x257de2c4; BYTE $0xc9         // vpmovsxdq    ymm1, xmm1
-	LONG $0xe072f9c5; BYTE $0x1f         // vpsrad    xmm0, xmm0, 31
-	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc2ebf9c5                     // vpor    xmm0, xmm0, xmm2
-	LONG $0xc05bf8c5                     // vcvtdq2ps    xmm0, xmm0
-	LONG $0x0479e3c4; WORD $0xe7d0       // vpermilps    xmm2, xmm0, 231
-	LONG $0x2cfae1c4; BYTE $0xc2         // vcvttss2si    rax, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xd0         // vmovq    xmm2, rax
-	LONG $0x0579e3c4; WORD $0x01d8       // vpermilpd    xmm3, xmm0, 1
-	LONG $0x2cfae1c4; BYTE $0xc3         // vcvttss2si    rax, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xd8         // vmovq    xmm3, rax
-	LONG $0xd26ce1c5                     // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x2cfae1c4; BYTE $0xc0         // vcvttss2si    rax, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xd8         // vmovq    xmm3, rax
-	LONG $0xc016fac5                     // vmovshdup    xmm0, xmm0
-	LONG $0x2cfae1c4; BYTE $0xc0         // vcvttss2si    rax, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xc0         // vmovq    xmm0, rax
-	LONG $0xc06ce1c5                     // vpunpcklqdq    xmm0, xmm3, xmm0
-	LONG $0x387de3c4; WORD $0x01c2       // vinserti128    ymm0, ymm0, xmm2, 1
-	LONG $0xc0dff5c5                     // vpandn    ymm0, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xf004       // vmovdqu    yword [r8 + 8*rsi], ymm0
-
-LBB4_1311:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1351
-
-LBB4_1312:
-	LONG $0xc057f8c5 // vxorps    xmm0, xmm0, xmm0
-	JMP  LBB4_1315
-
-LBB4_1313:
-	LONG $0xc150f8c5             // vmovmskps    eax, xmm1
-	WORD $0xe083; BYTE $0x01     // and    eax, 1
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xc883; BYTE $0x01     // or    eax, 1
-	LONG $0xc82acac5             // vcvtsi2ss    xmm1, xmm6, eax
-	LONG $0x2cfae1c4; BYTE $0xf1 // vcvttss2si    rsi, xmm1
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JE   LBB4_1351
-
-LBB4_1315:
-	LONG $0x0c10fac5; BYTE $0x91 // vmovss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
-	JNE  LBB4_1313
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1315
-	JMP  LBB4_1351
-
-LBB4_1317:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1318:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1320
-	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0c75fdc5; BYTE $0x79               // vpcmpeqw    ymm1, ymm0, yword [rcx + 2*rdi]
-	QUAD $0x000000c0956ffdc5                   // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0x4475fdc5; WORD $0x2079             // vpcmpeqw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0xcadff5c5                           // vpandn    ymm1, ymm1, ymm2
-	LONG $0xc2dffdc5                           // vpandn    ymm0, ymm0, ymm2
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB4_1320:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1321
-
-LBB4_1325:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1326:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1328
-	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0c75fdc5; BYTE $0x79               // vpcmpeqw    ymm1, ymm0, yword [rcx + 2*rdi]
-	QUAD $0x000000c0956ffdc5                   // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0x4475fdc5; WORD $0x2079             // vpcmpeqw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
-	LONG $0xcadff5c5                           // vpandn    ymm1, ymm1, ymm2
-	LONG $0xc2dffdc5                           // vpandn    ymm0, ymm0, ymm2
-	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
-
-LBB4_1328:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1351
-	JMP  LBB4_1329
-
-LBB4_1333:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1334:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1336
-	LONG $0x046ffec5; BYTE $0x71               // vmovdqu    ymm0, yword [rcx + 2*rsi]
-	LONG $0x4c6ffec5; WORD $0x2071             // vmovdqu    ymm1, yword [rcx + 2*rsi + 32]
-	LONG $0xd2efe9c5                           // vpxor    xmm2, xmm2, xmm2
-	LONG $0xda75fdc5                           // vpcmpeqw    ymm3, ymm0, ymm2
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xdcefe5c5                           // vpxor    ymm3, ymm3, ymm4
-	LONG $0xd275f5c5                           // vpcmpeqw    ymm2, ymm1, ymm2
-	LONG $0xd4efedc5                           // vpxor    ymm2, ymm2, ymm4
-	QUAD $0x000000c0a56ffdc5                   // vmovdqa    ymm4, yword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xc065ddc5                           // vpcmpgtw    ymm0, ymm4, ymm0
-	LONG $0xc965ddc5                           // vpcmpgtw    ymm1, ymm4, ymm1
-	LONG $0x4c5de3c4; WORD $0x00c3             // vpblendvb    ymm0, ymm4, ymm3, ymm0
-	LONG $0x4c5de3c4; WORD $0x10ca             // vpblendvb    ymm1, ymm4, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0x7004             // vmovdqu    yword [r8 + 2*rsi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x704c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm1
-
-LBB4_1336:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1351
-	JMP  LBB4_1337
-
-LBB4_1342:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1343:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1345
-	LONG $0x046ffec5; BYTE $0x71               // vmovdqu    ymm0, yword [rcx + 2*rsi]
-	LONG $0x4c6ffec5; WORD $0x2071             // vmovdqu    ymm1, yword [rcx + 2*rsi + 32]
-	LONG $0xd2efe9c5                           // vpxor    xmm2, xmm2, xmm2
-	LONG $0xda75fdc5                           // vpcmpeqw    ymm3, ymm0, ymm2
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xdcefe5c5                           // vpxor    ymm3, ymm3, ymm4
-	LONG $0xd275f5c5                           // vpcmpeqw    ymm2, ymm1, ymm2
-	LONG $0xd4efedc5                           // vpxor    ymm2, ymm2, ymm4
-	QUAD $0x000000c0a56ffdc5                   // vmovdqa    ymm4, yword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xc065ddc5                           // vpcmpgtw    ymm0, ymm4, ymm0
-	LONG $0xc965ddc5                           // vpcmpgtw    ymm1, ymm4, ymm1
-	LONG $0x4c5de3c4; WORD $0x00c3             // vpblendvb    ymm0, ymm4, ymm3, ymm0
-	LONG $0x4c5de3c4; WORD $0x10ca             // vpblendvb    ymm1, ymm4, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0x7004             // vmovdqu    yword [r8 + 2*rsi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x704c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm1
-
-LBB4_1345:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JNE  LBB4_1346
-
-LBB4_1351:
-	VZEROUPPER
-	RET
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go
deleted file mode 100644
index fff54292e3b4b..0000000000000
--- a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go
+++ /dev/null
@@ -1,60 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:noescape
-func _arithmetic_unary_same_types_sse4(typ int, op int8, input, output unsafe.Pointer, len int)
-
-func arithmeticUnarySSE4(typ arrow.Type, op ArithmeticOp, input, out []byte, len int) {
-	_arithmetic_unary_same_types_sse4(int(typ), int8(op), unsafe.Pointer(&input[0]), unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_binary_sse4(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
-
-func arithmeticSSE4(typ arrow.Type, op ArithmeticOp, left, right, out []byte, len int) {
-	_arithmetic_binary_sse4(int(typ), int8(op), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_arr_scalar_sse4(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
-
-func arithmeticArrScalarSSE4(typ arrow.Type, op ArithmeticOp, left []byte, right unsafe.Pointer, out []byte, len int) {
-	_arithmetic_arr_scalar_sse4(int(typ), int8(op), unsafe.Pointer(&left[0]), right, unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_scalar_arr_sse4(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
-
-func arithmeticScalarArrSSE4(typ arrow.Type, op ArithmeticOp, left unsafe.Pointer, right, out []byte, len int) {
-	_arithmetic_scalar_arr_sse4(int(typ), int8(op), left, unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
-}
-
-//go:noescape
-func _arithmetic_unary_diff_type_sse4(itype, otype int, op int8, input, output unsafe.Pointer, len int)
-
-func arithmeticUnaryDiffTypesSSE4(ityp, otyp arrow.Type, op ArithmeticOp, input, output []byte, len int) {
-	_arithmetic_unary_diff_type_sse4(int(ityp), int(otyp), int8(op), unsafe.Pointer(&input[0]), unsafe.Pointer(&output[0]), len)
-}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
deleted file mode 100644
index 82c279ebfdebc..0000000000000
--- a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
+++ /dev/null
@@ -1,39139 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x008(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA1<>(SB), 8, $16
-
-TEXT ·_arithmetic_binary_sse4(SB), $0-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA1<>(SB), BP
-
-	LONG $0x14fe8040         // cmp    sil, 20
-	JG   LBB0_11
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB0_21
-	LONG $0x01fe8040         // cmp    sil, 1
-	JE   LBB0_367
-	LONG $0x02fe8040         // cmp    sil, 2
-	JNE  LBB0_1013
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_719
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_6
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_760
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_776
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_792
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_801:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_803
-
-LBB0_802:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f         // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_802
-
-LBB0_803:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_804:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_804
-	JMP  LBB0_1013
-
-LBB0_11:
-	LONG $0x15fe8040         // cmp    sil, 21
-	JE   LBB0_194
-	LONG $0x16fe8040         // cmp    sil, 22
-	JE   LBB0_540
-	LONG $0x17fe8040         // cmp    sil, 23
-	JNE  LBB0_1013
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_869
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_16
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_910
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_926
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_942
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_951:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_953
-
-LBB0_952:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f         // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_952
-
-LBB0_953:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_954:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_954
-	JMP  LBB0_1013
-
-LBB0_21:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_34
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_23
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_75
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_91
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_107
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_116:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_118
-
-LBB0_117:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_117
-
-LBB0_118:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_119:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_119
-	JMP  LBB0_1013
-
-LBB0_367:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_380
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_369
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_421
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_437
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_453
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_462:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_464
-
-LBB0_463:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_463
-
-LBB0_464:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_465:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_465
-	JMP  LBB0_1013
-
-LBB0_194:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_207
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_196
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_248
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_264
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_280
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_289:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_291
-
-LBB0_290:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_290
-
-LBB0_291:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_292:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_292
-	JMP  LBB0_1013
-
-LBB0_540:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_553
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_542
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_594
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_610
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_626
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_635:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_637
-
-LBB0_636:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_636
-
-LBB0_637:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_638:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_638
-	JMP  LBB0_1013
-
-LBB0_719:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_720
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_826
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_834
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_850
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_859:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_861
-
-LBB0_860:
-	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04590ff2; BYTE $0xf2   // mulsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_860
-
-LBB0_861:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_862:
-	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04590ff2; BYTE $0xf2               // mulsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x44590ff2; WORD $0x08f2             // mulsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x44590ff2; WORD $0x10f2             // mulsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x44590ff2; WORD $0x18f2             // mulsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_862
-	JMP  LBB0_1013
-
-LBB0_869:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_870
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_976
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_984
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_1000
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_1009:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1011
-
-LBB0_1010:
-	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04590ff2; BYTE $0xf2   // mulsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_1010
-
-LBB0_1011:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_1012:
-	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04590ff2; BYTE $0xf2               // mulsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x44590ff2; WORD $0x08f2             // mulsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x44590ff2; WORD $0x10f2             // mulsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x44590ff2; WORD $0x18f2             // mulsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_1012
-	JMP  LBB0_1013
-
-LBB0_34:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_35
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_149
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_165
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_181
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_190:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_192
-
-LBB0_191:
-	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_191
-
-LBB0_192:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_193:
-	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x44580ff2; WORD $0x08f2             // addsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x44580ff2; WORD $0x10f2             // addsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x44580ff2; WORD $0x18f2             // addsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_193
-	JMP  LBB0_1013
-
-LBB0_380:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_381
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_495
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_511
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_527
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_536:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_538
-
-LBB0_537:
-	LONG $0x04100ff2; BYTE $0xf2   // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_537
-
-LBB0_538:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_539:
-	LONG $0x04100ff2; BYTE $0xf2               // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045c0ff2; BYTE $0xf1               // subsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f2             // movsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x445c0ff2; WORD $0x08f1             // subsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f2             // movsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x445c0ff2; WORD $0x10f1             // subsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f2             // movsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x445c0ff2; WORD $0x18f1             // subsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_539
-	JMP  LBB0_1013
-
-LBB0_207:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_208
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_322
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_338
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_354
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_363:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_365
-
-LBB0_364:
-	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_364
-
-LBB0_365:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_366:
-	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x44580ff2; WORD $0x08f2             // addsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x44580ff2; WORD $0x10f2             // addsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x44580ff2; WORD $0x18f2             // addsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_366
-	JMP  LBB0_1013
-
-LBB0_553:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_554
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_668
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_684
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_700
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_709:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_711
-
-LBB0_710:
-	LONG $0x04100ff2; BYTE $0xf2   // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_710
-
-LBB0_711:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_712:
-	LONG $0x04100ff2; BYTE $0xf2               // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045c0ff2; BYTE $0xf1               // subsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f2             // movsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x445c0ff2; WORD $0x08f1             // subsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f2             // movsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x445c0ff2; WORD $0x10f1             // subsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f2             // movsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x445c0ff2; WORD $0x18f1             // subsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_712
-	JMP  LBB0_1013
-
-LBB0_6:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_731
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_747
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_756:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_758
-
-LBB0_757:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_757
-
-LBB0_758:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_759:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_759
-	JMP  LBB0_1013
-
-LBB0_16:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_881
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_897
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_906:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_908
-
-LBB0_907:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_907
-
-LBB0_908:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_909:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_909
-	JMP  LBB0_1013
-
-LBB0_23:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_46
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_62
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_71:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_73
-
-LBB0_72:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_72
-
-LBB0_73:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_74:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_74
-	JMP  LBB0_1013
-
-LBB0_369:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_392
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_408
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_417:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_419
-
-LBB0_418:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_418
-
-LBB0_419:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_420:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_420
-	JMP  LBB0_1013
-
-LBB0_196:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_219
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_235
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_244:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_246
-
-LBB0_245:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_245
-
-LBB0_246:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_247:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_247
-	JMP  LBB0_1013
-
-LBB0_542:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_565
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_581
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_590:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_592
-
-LBB0_591:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_591
-
-LBB0_592:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_593:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_593
-	JMP  LBB0_1013
-
-LBB0_720:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_805
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_821
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_823
-
-LBB0_870:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_955
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_971
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_973
-
-LBB0_35:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_120
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_136
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_145:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_147
-
-LBB0_146:
-	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_146
-
-LBB0_147:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_148:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_148
-	JMP  LBB0_1013
-
-LBB0_381:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_466
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_482
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_491:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_493
-
-LBB0_492:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_492
-
-LBB0_493:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_494:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_494
-	JMP  LBB0_1013
-
-LBB0_208:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_293
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_309
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_318:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_320
-
-LBB0_319:
-	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_319
-
-LBB0_320:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_321:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_321
-	JMP  LBB0_1013
-
-LBB0_554:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_639
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1013
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_655
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_664:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_666
-
-LBB0_665:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_665
-
-LBB0_666:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_667:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_667
-	JMP  LBB0_1013
-
-LBB0_760:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_763
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_772:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_774
-
-LBB0_773:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72 // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_773
-
-LBB0_774:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_775:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_775
-	JMP  LBB0_1013
-
-LBB0_776:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_779
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_788:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_790
-
-LBB0_789:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72 // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_789
-
-LBB0_790:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_791:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_791
-	JMP  LBB0_1013
-
-LBB0_910:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_913
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_922:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_924
-
-LBB0_923:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72 // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_923
-
-LBB0_924:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_925:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_925
-	JMP  LBB0_1013
-
-LBB0_926:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_929
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_938:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_940
-
-LBB0_939:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72 // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_939
-
-LBB0_940:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_941:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_941
-	JMP  LBB0_1013
-
-LBB0_75:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_78
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_87:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_89
-
-LBB0_88:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_88
-
-LBB0_89:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_90:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_90
-	JMP  LBB0_1013
-
-LBB0_91:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_94
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_103:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_105
-
-LBB0_104:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_104
-
-LBB0_105:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_106:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_106
-	JMP  LBB0_1013
-
-LBB0_421:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_424
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_433:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_435
-
-LBB0_434:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_434
-
-LBB0_435:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_436:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_436
-	JMP  LBB0_1013
-
-LBB0_437:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_440
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_449:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_451
-
-LBB0_450:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_450
-
-LBB0_451:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_452:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_452
-	JMP  LBB0_1013
-
-LBB0_248:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_251
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_260:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_262
-
-LBB0_261:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_261
-
-LBB0_262:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_263:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_263
-	JMP  LBB0_1013
-
-LBB0_264:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_267
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_276:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_278
-
-LBB0_277:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_277
-
-LBB0_278:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_279:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_279
-	JMP  LBB0_1013
-
-LBB0_594:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_597
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_606:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_608
-
-LBB0_607:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_607
-
-LBB0_608:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_609:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_609
-	JMP  LBB0_1013
-
-LBB0_610:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_613
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_622:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_624
-
-LBB0_623:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_623
-
-LBB0_624:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_625:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_625
-	JMP  LBB0_1013
-
-LBB0_826:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_829
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_831
-
-LBB0_834:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_837
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_846:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_848
-
-LBB0_847:
-	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04590ff3; BYTE $0xb2   // mulss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_847
-
-LBB0_848:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_849:
-	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04590ff3; BYTE $0xb2               // mulss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x44590ff3; WORD $0x04b2             // mulss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x44590ff3; WORD $0x08b2             // mulss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x44590ff3; WORD $0x0cb2             // mulss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_849
-	JMP  LBB0_1013
-
-LBB0_976:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_979
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_981
-
-LBB0_984:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_987
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_996:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_998
-
-LBB0_997:
-	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04590ff3; BYTE $0xb2   // mulss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_997
-
-LBB0_998:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_999:
-	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04590ff3; BYTE $0xb2               // mulss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x44590ff3; WORD $0x04b2             // mulss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x44590ff3; WORD $0x08b2             // mulss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x44590ff3; WORD $0x0cb2             // mulss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_999
-	JMP  LBB0_1013
-
-LBB0_149:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_152
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_161:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_163
-
-LBB0_162:
-	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_162
-
-LBB0_163:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_164:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_164
-	JMP  LBB0_1013
-
-LBB0_165:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_168
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_177:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_179
-
-LBB0_178:
-	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_178
-
-LBB0_179:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_180:
-	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x44580ff3; WORD $0x04b2             // addss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x44580ff3; WORD $0x08b2             // addss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x44580ff3; WORD $0x0cb2             // addss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_180
-	JMP  LBB0_1013
-
-LBB0_495:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_498
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_507:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_509
-
-LBB0_508:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_508
-
-LBB0_509:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_510:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_510
-	JMP  LBB0_1013
-
-LBB0_511:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_514
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_523:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_525
-
-LBB0_524:
-	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_524
-
-LBB0_525:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_526:
-	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_526
-	JMP  LBB0_1013
-
-LBB0_322:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_325
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_334:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_336
-
-LBB0_335:
-	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_335
-
-LBB0_336:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_337:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_337
-	JMP  LBB0_1013
-
-LBB0_338:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_341
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_350:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_352
-
-LBB0_351:
-	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_351
-
-LBB0_352:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_353:
-	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x44580ff3; WORD $0x04b2             // addss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x44580ff3; WORD $0x08b2             // addss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x44580ff3; WORD $0x0cb2             // addss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_353
-	JMP  LBB0_1013
-
-LBB0_668:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_671
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_680:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_682
-
-LBB0_681:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_681
-
-LBB0_682:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_683:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_683
-	JMP  LBB0_1013
-
-LBB0_684:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_687
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_696:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_698
-
-LBB0_697:
-	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_697
-
-LBB0_698:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1013
-
-LBB0_699:
-	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_699
-	JMP  LBB0_1013
-
-LBB0_731:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_734
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_743:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_745
-
-LBB0_744:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_744
-
-LBB0_745:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_746:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_746
-	JMP  LBB0_1013
-
-LBB0_881:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_884
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_893:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB0_895
-
-LBB0_894:
-	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
-	LONG $0x38048841         // mov    byte [r8 + rdi], al
-	LONG $0x01c78348         // add    rdi, 1
-	LONG $0xffc68348         // add    rsi, -1
-	JNE  LBB0_894
-
-LBB0_895:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_896:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB0_896
-	JMP  LBB0_1013
-
-LBB0_46:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_49
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_58:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_60
-
-LBB0_59:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_59
-
-LBB0_60:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_61:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_61
-	JMP  LBB0_1013
-
-LBB0_392:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_395
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_404:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_406
-
-LBB0_405:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_405
-
-LBB0_406:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_407:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_407
-	JMP  LBB0_1013
-
-LBB0_219:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_222
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_231:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_233
-
-LBB0_232:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_232
-
-LBB0_233:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_234:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_234
-	JMP  LBB0_1013
-
-LBB0_565:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_568
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_577:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_579
-
-LBB0_578:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_578
-
-LBB0_579:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_580:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_580
-	JMP  LBB0_1013
-
-LBB0_805:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_808
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_817:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_819
-
-LBB0_818:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f         // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_818
-
-LBB0_819:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_820:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_820
-	JMP  LBB0_1013
-
-LBB0_955:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_958
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_967:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_969
-
-LBB0_968:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f         // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_968
-
-LBB0_969:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_970:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_970
-	JMP  LBB0_1013
-
-LBB0_120:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_123
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_132:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_134
-
-LBB0_133:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_133
-
-LBB0_134:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_135:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_135
-	JMP  LBB0_1013
-
-LBB0_466:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_469
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_478:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_480
-
-LBB0_479:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_479
-
-LBB0_480:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_481:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_481
-	JMP  LBB0_1013
-
-LBB0_293:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_296
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_305:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_307
-
-LBB0_306:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_306
-
-LBB0_307:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_308:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_308
-	JMP  LBB0_1013
-
-LBB0_639:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_1013
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_642
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_651:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_653
-
-LBB0_652:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_652
-
-LBB0_653:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB0_1013
-
-LBB0_654:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_654
-	JMP  LBB0_1013
-
-LBB0_792:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_801
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_801
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_795
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_797:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_797
-	JMP  LBB0_798
-
-LBB0_942:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_951
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_951
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_945
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_947:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_947
-	JMP  LBB0_948
-
-LBB0_107:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_116
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_116
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_110
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_112:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_112
-	JMP  LBB0_113
-
-LBB0_453:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_462
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_462
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_456
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_458:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_458
-	JMP  LBB0_459
-
-LBB0_280:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_289
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_289
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_283
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_285:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_285
-	JMP  LBB0_286
-
-LBB0_626:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_635
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_635
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_629
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_631:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_631
-	JMP  LBB0_632
-
-LBB0_850:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_859
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_859
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_853
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_855:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_855
-	JMP  LBB0_856
-
-LBB0_1000:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_1009
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_1009
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1003
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_1005:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_1005
-	JMP  LBB0_1006
-
-LBB0_181:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_190
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_190
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_184
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_186:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_186
-	JMP  LBB0_187
-
-LBB0_527:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_536
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_536
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_530
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_532:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x30f9             // movupd    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_532
-	JMP  LBB0_533
-
-LBB0_354:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_363
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_363
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_357
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_359:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_359
-	JMP  LBB0_360
-
-LBB0_700:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_709
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_709
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_703
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_705:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x30f9             // movupd    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_705
-	JMP  LBB0_706
-
-LBB0_747:
-	LONG $0x10348d4b             // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a             // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x11048d4a             // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6     // cmp    rsi, rdx
-	LONG $0xd3970f41             // seta    r11b
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0x3948; BYTE $0xce     // cmp    rsi, rcx
-	LONG $0xd6970f40             // seta    sil
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9     // test    r9b, r11b
-	JNE  LBB0_756
-	WORD $0x2040; BYTE $0xf0     // and    al, sil
-	JNE  LBB0_756
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_750
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x456f0f66; BYTE $0x00 // movdqa    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_752:
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x646f0ff3; WORD $0x1001             // movdqu    xmm4, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0034             // movdqu    oword [r8 + rax], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm3
-	LONG $0x4c6f0ff3; WORD $0x2002             // movdqu    xmm1, oword [rdx + rax + 32]
-	LONG $0x546f0ff3; WORD $0x3002             // movdqu    xmm2, oword [rdx + rax + 48]
-	LONG $0x5c6f0ff3; WORD $0x2001             // movdqu    xmm3, oword [rcx + rax + 32]
-	LONG $0x646f0ff3; WORD $0x3001             // movdqu    xmm4, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0074; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm3
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB0_752
-	JMP  LBB0_753
-
-LBB0_897:
-	LONG $0x10348d4b             // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a             // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x11048d4a             // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6     // cmp    rsi, rdx
-	LONG $0xd3970f41             // seta    r11b
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0x3948; BYTE $0xce     // cmp    rsi, rcx
-	LONG $0xd6970f40             // seta    sil
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9     // test    r9b, r11b
-	JNE  LBB0_906
-	WORD $0x2040; BYTE $0xf0     // and    al, sil
-	JNE  LBB0_906
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_900
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x456f0f66; BYTE $0x00 // movdqa    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_902:
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x646f0ff3; WORD $0x1001             // movdqu    xmm4, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0034             // movdqu    oword [r8 + rax], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm3
-	LONG $0x4c6f0ff3; WORD $0x2002             // movdqu    xmm1, oword [rdx + rax + 32]
-	LONG $0x546f0ff3; WORD $0x3002             // movdqu    xmm2, oword [rdx + rax + 48]
-	LONG $0x5c6f0ff3; WORD $0x2001             // movdqu    xmm3, oword [rcx + rax + 32]
-	LONG $0x646f0ff3; WORD $0x3001             // movdqu    xmm4, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0074; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm3
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB0_902
-	JMP  LBB0_903
-
-LBB0_62:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_71
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_71
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_65
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_67:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_67
-	JMP  LBB0_68
-
-LBB0_408:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_417
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_417
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_411
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_413:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_413
-	JMP  LBB0_414
-
-LBB0_235:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_244
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_244
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_238
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_240:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_240
-	JMP  LBB0_241
-
-LBB0_581:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_590
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_590
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_584
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_586:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_586
-	JMP  LBB0_587
-
-LBB0_821:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_822:
-	LONG $0xf9048b48               // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa   // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xf8048949               // mov    qword [r8 + 8*rdi], rax
-	LONG $0xf9448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rdi + 8]
-	LONG $0x44af0f48; WORD $0x08fa // imul    rax, qword [rdx + 8*rdi + 8]
-	LONG $0xf8448949; BYTE $0x08   // mov    qword [r8 + 8*rdi + 8], rax
-	LONG $0xf9448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rdi + 16]
-	LONG $0x44af0f48; WORD $0x10fa // imul    rax, qword [rdx + 8*rdi + 16]
-	LONG $0xf8448949; BYTE $0x10   // mov    qword [r8 + 8*rdi + 16], rax
-	LONG $0xf9448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rdi + 24]
-	LONG $0x44af0f48; WORD $0x18fa // imul    rax, qword [rdx + 8*rdi + 24]
-	LONG $0xf8448949; BYTE $0x18   // mov    qword [r8 + 8*rdi + 24], rax
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_822
-
-LBB0_823:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB0_1013
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_825:
-	LONG $0xf9048b48             // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xfe048948             // mov    qword [rsi + 8*rdi], rax
-	LONG $0x01c78348             // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB0_825
-	JMP  LBB0_1013
-
-LBB0_971:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_972:
-	LONG $0xf9048b48               // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa   // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xf8048949               // mov    qword [r8 + 8*rdi], rax
-	LONG $0xf9448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rdi + 8]
-	LONG $0x44af0f48; WORD $0x08fa // imul    rax, qword [rdx + 8*rdi + 8]
-	LONG $0xf8448949; BYTE $0x08   // mov    qword [r8 + 8*rdi + 8], rax
-	LONG $0xf9448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rdi + 16]
-	LONG $0x44af0f48; WORD $0x10fa // imul    rax, qword [rdx + 8*rdi + 16]
-	LONG $0xf8448949; BYTE $0x10   // mov    qword [r8 + 8*rdi + 16], rax
-	LONG $0xf9448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rdi + 24]
-	LONG $0x44af0f48; WORD $0x18fa // imul    rax, qword [rdx + 8*rdi + 24]
-	LONG $0xf8448949; BYTE $0x18   // mov    qword [r8 + 8*rdi + 24], rax
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_972
-
-LBB0_973:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB0_1013
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_975:
-	LONG $0xf9048b48             // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xfe048948             // mov    qword [rsi + 8*rdi], rax
-	LONG $0x01c78348             // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB0_975
-	JMP  LBB0_1013
-
-LBB0_136:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_145
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_145
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_139
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_141:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_141
-	JMP  LBB0_142
-
-LBB0_482:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_491
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_491
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_485
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_487:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_487
-	JMP  LBB0_488
-
-LBB0_309:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_318
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_318
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_312
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_314:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_314
-	JMP  LBB0_315
-
-LBB0_655:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_664
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_664
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_658
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_660:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_660
-	JMP  LBB0_661
-
-LBB0_763:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_772
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_772
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_766
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_768:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_768
-	JMP  LBB0_769
-
-LBB0_779:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_788
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_788
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_782
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_784:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_784
-	JMP  LBB0_785
-
-LBB0_913:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_922
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_922
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_916
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_918:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_918
-	JMP  LBB0_919
-
-LBB0_929:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_938
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_938
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_932
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_934:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_934
-	JMP  LBB0_935
-
-LBB0_78:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_87
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_87
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_81
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_83:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_83
-	JMP  LBB0_84
-
-LBB0_94:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_103
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_103
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_97
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_99:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_99
-	JMP  LBB0_100
-
-LBB0_424:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_433
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_433
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_427
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_429:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_429
-	JMP  LBB0_430
-
-LBB0_440:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_449
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_449
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_443
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_445:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_445
-	JMP  LBB0_446
-
-LBB0_251:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_260
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_260
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_254
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_256:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_256
-	JMP  LBB0_257
-
-LBB0_267:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_276
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_276
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_270
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_272:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_272
-	JMP  LBB0_273
-
-LBB0_597:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_606
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_606
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_600
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_602:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_602
-	JMP  LBB0_603
-
-LBB0_613:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_622
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_622
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_616
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_618:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_618
-	JMP  LBB0_619
-
-LBB0_829:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_830:
-	LONG $0xf9048b48               // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa   // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xf8048949               // mov    qword [r8 + 8*rdi], rax
-	LONG $0xf9448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rdi + 8]
-	LONG $0x44af0f48; WORD $0x08fa // imul    rax, qword [rdx + 8*rdi + 8]
-	LONG $0xf8448949; BYTE $0x08   // mov    qword [r8 + 8*rdi + 8], rax
-	LONG $0xf9448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rdi + 16]
-	LONG $0x44af0f48; WORD $0x10fa // imul    rax, qword [rdx + 8*rdi + 16]
-	LONG $0xf8448949; BYTE $0x10   // mov    qword [r8 + 8*rdi + 16], rax
-	LONG $0xf9448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rdi + 24]
-	LONG $0x44af0f48; WORD $0x18fa // imul    rax, qword [rdx + 8*rdi + 24]
-	LONG $0xf8448949; BYTE $0x18   // mov    qword [r8 + 8*rdi + 24], rax
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_830
-
-LBB0_831:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB0_1013
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_833:
-	LONG $0xf9048b48             // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xfe048948             // mov    qword [rsi + 8*rdi], rax
-	LONG $0x01c78348             // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB0_833
-	JMP  LBB0_1013
-
-LBB0_837:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_846
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_846
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_840
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_842:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
-	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_842
-	JMP  LBB0_843
-
-LBB0_979:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_980:
-	LONG $0xf9048b48               // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa   // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xf8048949               // mov    qword [r8 + 8*rdi], rax
-	LONG $0xf9448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rdi + 8]
-	LONG $0x44af0f48; WORD $0x08fa // imul    rax, qword [rdx + 8*rdi + 8]
-	LONG $0xf8448949; BYTE $0x08   // mov    qword [r8 + 8*rdi + 8], rax
-	LONG $0xf9448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rdi + 16]
-	LONG $0x44af0f48; WORD $0x10fa // imul    rax, qword [rdx + 8*rdi + 16]
-	LONG $0xf8448949; BYTE $0x10   // mov    qword [r8 + 8*rdi + 16], rax
-	LONG $0xf9448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rdi + 24]
-	LONG $0x44af0f48; WORD $0x18fa // imul    rax, qword [rdx + 8*rdi + 24]
-	LONG $0xf8448949; BYTE $0x18   // mov    qword [r8 + 8*rdi + 24], rax
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_980
-
-LBB0_981:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB0_1013
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_983:
-	LONG $0xf9048b48             // mov    rax, qword [rcx + 8*rdi]
-	LONG $0x04af0f48; BYTE $0xfa // imul    rax, qword [rdx + 8*rdi]
-	LONG $0xfe048948             // mov    qword [rsi + 8*rdi], rax
-	LONG $0x01c78348             // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB0_983
-
-LBB0_1013:
-	RET
-
-LBB0_987:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_996
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_996
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_990
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_992:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
-	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_992
-	JMP  LBB0_993
-
-LBB0_152:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_161
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_161
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_155
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_157:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_157
-	JMP  LBB0_158
-
-LBB0_168:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_177
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_177
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_171
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_173:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_173
-	JMP  LBB0_174
-
-LBB0_498:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_507
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_507
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_501
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_503:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_503
-	JMP  LBB0_504
-
-LBB0_514:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_523
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_523
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_517
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_519:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rdi + 48]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x44110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x4c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_519
-	JMP  LBB0_520
-
-LBB0_325:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_334
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_334
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_328
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_330:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_330
-	JMP  LBB0_331
-
-LBB0_341:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_350
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_350
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_344
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_346:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_346
-	JMP  LBB0_347
-
-LBB0_671:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_680
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_680
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_674
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_676:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_676
-	JMP  LBB0_677
-
-LBB0_687:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_696
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_696
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_690
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_692:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rdi + 48]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x44110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x4c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_692
-	JMP  LBB0_693
-
-LBB0_734:
-	LONG $0x10348d4b             // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a             // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x11048d4a             // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6     // cmp    rsi, rdx
-	LONG $0xd3970f41             // seta    r11b
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0x3948; BYTE $0xce     // cmp    rsi, rcx
-	LONG $0xd6970f40             // seta    sil
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9     // test    r9b, r11b
-	JNE  LBB0_743
-	WORD $0x2040; BYTE $0xf0     // and    al, sil
-	JNE  LBB0_743
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_737
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x456f0f66; BYTE $0x00 // movdqa    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_739:
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x646f0ff3; WORD $0x1001             // movdqu    xmm4, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0034             // movdqu    oword [r8 + rax], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm3
-	LONG $0x4c6f0ff3; WORD $0x2002             // movdqu    xmm1, oword [rdx + rax + 32]
-	LONG $0x546f0ff3; WORD $0x3002             // movdqu    xmm2, oword [rdx + rax + 48]
-	LONG $0x5c6f0ff3; WORD $0x2001             // movdqu    xmm3, oword [rcx + rax + 32]
-	LONG $0x646f0ff3; WORD $0x3001             // movdqu    xmm4, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0074; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm3
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB0_739
-	JMP  LBB0_740
-
-LBB0_884:
-	LONG $0x10348d4b             // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a             // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x11048d4a             // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6     // cmp    rsi, rdx
-	LONG $0xd3970f41             // seta    r11b
-	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0x3948; BYTE $0xce     // cmp    rsi, rcx
-	LONG $0xd6970f40             // seta    sil
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xd9     // test    r9b, r11b
-	JNE  LBB0_893
-	WORD $0x2040; BYTE $0xf0     // and    al, sil
-	JNE  LBB0_893
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_887
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x456f0f66; BYTE $0x00 // movdqa    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_889:
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x646f0ff3; WORD $0x1001             // movdqu    xmm4, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0034             // movdqu    oword [r8 + rax], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm3
-	LONG $0x4c6f0ff3; WORD $0x2002             // movdqu    xmm1, oword [rdx + rax + 32]
-	LONG $0x546f0ff3; WORD $0x3002             // movdqu    xmm2, oword [rdx + rax + 48]
-	LONG $0x5c6f0ff3; WORD $0x2001             // movdqu    xmm3, oword [rcx + rax + 32]
-	LONG $0x646f0ff3; WORD $0x3001             // movdqu    xmm4, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
-	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
-	LONG $0xe0db0f66                           // pand    xmm4, xmm0
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0xd8db0f66                           // pand    xmm3, xmm0
-	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x0074; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm6
-	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm3
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB0_889
-	JMP  LBB0_890
-
-LBB0_49:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_58
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_58
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_52
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_54:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_54
-	JMP  LBB0_55
-
-LBB0_395:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_404
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_404
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_398
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_400:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_400
-	JMP  LBB0_401
-
-LBB0_222:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_231
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_231
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_225
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_227:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_227
-	JMP  LBB0_228
-
-LBB0_568:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_577
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_577
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_571
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_573:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_573
-	JMP  LBB0_574
-
-LBB0_808:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_817
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_817
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_811
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_813:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_813
-	JMP  LBB0_814
-
-LBB0_958:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_967
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_967
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_961
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_963:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_963
-	JMP  LBB0_964
-
-LBB0_123:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_132
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_132
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_126
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_128:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_128
-	JMP  LBB0_129
-
-LBB0_469:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_478
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_478
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_472
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_474:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_474
-	JMP  LBB0_475
-
-LBB0_296:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_305
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_305
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_299
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_301:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_301
-	JMP  LBB0_302
-
-LBB0_642:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_651
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_651
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_645
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_647:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_647
-	JMP  LBB0_648
-
-LBB0_795:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_798:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_800
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_800:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_801
-	JMP  LBB0_1013
-
-LBB0_945:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_948:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_950
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_950:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_951
-	JMP  LBB0_1013
-
-LBB0_110:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_113:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_115
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_115:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_116
-
-LBB0_456:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_459:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_461
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_461:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_462
-	JMP  LBB0_1013
-
-LBB0_283:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_286:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_288
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_288:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_289
-
-LBB0_629:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_632:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_634
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_634:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_635
-	JMP  LBB0_1013
-
-LBB0_853:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_856:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_858
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_858:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_859
-	JMP  LBB0_1013
-
-LBB0_1003:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1006:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_1008
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_1008:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_1009
-	JMP  LBB0_1013
-
-LBB0_184:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_187:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_189
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_189:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_190
-
-LBB0_530:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_533:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_535
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_535:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_536
-	JMP  LBB0_1013
-
-LBB0_357:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_360:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_362
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_362:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_363
-	JMP  LBB0_1013
-
-LBB0_703:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_706:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_708
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_708:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_709
-	JMP  LBB0_1013
-
-LBB0_750:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_753:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_755
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe1               // pmovzxbw    xmm4, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xeb               // pmovzxbw    xmm5, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0x4d6f0f66; BYTE $0x00               // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0xecd50f66                           // pmullw    xmm5, xmm4
-	LONG $0xe9db0f66                           // pand    xmm5, xmm1
-	LONG $0xeb670f66                           // packuswb    xmm5, xmm3
-	LONG $0x30380f66; BYTE $0xda               // pmovzxbw    xmm3, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xe0               // pmovzxbw    xmm4, xmm0
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0xc2d50f66                           // pmullw    xmm0, xmm2
-	LONG $0xc1db0f66                           // pand    xmm0, xmm1
-	LONG $0xe3d50f66                           // pmullw    xmm4, xmm3
-	LONG $0xe1db0f66                           // pand    xmm4, xmm1
-	LONG $0xe0670f66                           // packuswb    xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
-
-LBB0_755:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JNE  LBB0_756
-	JMP  LBB0_1013
-
-LBB0_900:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_903:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_905
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe1               // pmovzxbw    xmm4, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xeb               // pmovzxbw    xmm5, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0x4d6f0f66; BYTE $0x00               // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0xecd50f66                           // pmullw    xmm5, xmm4
-	LONG $0xe9db0f66                           // pand    xmm5, xmm1
-	LONG $0xeb670f66                           // packuswb    xmm5, xmm3
-	LONG $0x30380f66; BYTE $0xda               // pmovzxbw    xmm3, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xe0               // pmovzxbw    xmm4, xmm0
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0xc2d50f66                           // pmullw    xmm0, xmm2
-	LONG $0xc1db0f66                           // pand    xmm0, xmm1
-	LONG $0xe3d50f66                           // pmullw    xmm4, xmm3
-	LONG $0xe1db0f66                           // pand    xmm4, xmm1
-	LONG $0xe0670f66                           // packuswb    xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
-
-LBB0_905:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JNE  LBB0_906
-	JMP  LBB0_1013
-
-LBB0_65:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_68:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_70
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB0_70:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_71
-
-LBB0_411:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_414:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_416
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-
-LBB0_416:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_417
-	JMP  LBB0_1013
-
-LBB0_238:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_241:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_243
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB0_243:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_244
-
-LBB0_584:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_587:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_589
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-
-LBB0_589:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_590
-	JMP  LBB0_1013
-
-LBB0_139:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_142:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_144
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_144:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_145
-
-LBB0_485:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_488:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_490
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_490:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_491
-	JMP  LBB0_1013
-
-LBB0_312:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_315:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_317
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_317:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_318
-	JMP  LBB0_1013
-
-LBB0_658:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_661:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_663
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_663:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_664
-	JMP  LBB0_1013
-
-LBB0_766:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_769:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_771
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_771:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_772
-	JMP  LBB0_1013
-
-LBB0_782:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_785:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_787
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_787:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_788
-	JMP  LBB0_1013
-
-LBB0_916:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_919:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_921
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_921:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_922
-	JMP  LBB0_1013
-
-LBB0_932:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_935:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_937
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_937:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_938
-	JMP  LBB0_1013
-
-LBB0_81:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_84:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_86
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_86:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_87
-
-LBB0_97:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_100:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_102
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_102:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_103
-
-LBB0_427:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_430:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_432
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-
-LBB0_432:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_433
-	JMP  LBB0_1013
-
-LBB0_443:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_446:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_448
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-
-LBB0_448:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_449
-	JMP  LBB0_1013
-
-LBB0_254:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_257:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_259
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_259:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_260
-
-LBB0_270:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_273:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_275
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB0_275:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_276
-
-LBB0_600:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_603:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_605
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-
-LBB0_605:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_606
-	JMP  LBB0_1013
-
-LBB0_616:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_619:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_621
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-
-LBB0_621:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_622
-	JMP  LBB0_1013
-
-LBB0_840:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_843:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_845
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_845:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_846
-	JMP  LBB0_1013
-
-LBB0_990:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_993:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_995
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_995:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_996
-	JMP  LBB0_1013
-
-LBB0_155:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_158:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_160
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_160:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_161
-
-LBB0_171:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_174:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_176
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_176:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_177
-
-LBB0_501:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_504:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_506
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_506:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_507
-	JMP  LBB0_1013
-
-LBB0_517:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_520:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_522
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_522:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_523
-	JMP  LBB0_1013
-
-LBB0_328:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_331:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_333
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB0_333:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_334
-	JMP  LBB0_1013
-
-LBB0_344:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_347:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_349
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_349:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_350
-	JMP  LBB0_1013
-
-LBB0_674:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_677:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_679
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_679:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_680
-	JMP  LBB0_1013
-
-LBB0_690:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_693:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_695
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_695:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_696
-	JMP  LBB0_1013
-
-LBB0_737:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_740:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_742
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe1               // pmovzxbw    xmm4, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xeb               // pmovzxbw    xmm5, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0x4d6f0f66; BYTE $0x00               // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0xecd50f66                           // pmullw    xmm5, xmm4
-	LONG $0xe9db0f66                           // pand    xmm5, xmm1
-	LONG $0xeb670f66                           // packuswb    xmm5, xmm3
-	LONG $0x30380f66; BYTE $0xda               // pmovzxbw    xmm3, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xe0               // pmovzxbw    xmm4, xmm0
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0xc2d50f66                           // pmullw    xmm0, xmm2
-	LONG $0xc1db0f66                           // pand    xmm0, xmm1
-	LONG $0xe3d50f66                           // pmullw    xmm4, xmm3
-	LONG $0xe1db0f66                           // pand    xmm4, xmm1
-	LONG $0xe0670f66                           // packuswb    xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
-
-LBB0_742:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JNE  LBB0_743
-	JMP  LBB0_1013
-
-LBB0_887:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_890:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_892
-	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
-	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
-	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xe1               // pmovzxbw    xmm4, xmm1
-	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
-	LONG $0x30380f66; BYTE $0xeb               // pmovzxbw    xmm5, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
-	LONG $0x4d6f0f66; BYTE $0x00               // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0xecd50f66                           // pmullw    xmm5, xmm4
-	LONG $0xe9db0f66                           // pand    xmm5, xmm1
-	LONG $0xeb670f66                           // packuswb    xmm5, xmm3
-	LONG $0x30380f66; BYTE $0xda               // pmovzxbw    xmm3, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0x30380f66; BYTE $0xe0               // pmovzxbw    xmm4, xmm0
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0xc2d50f66                           // pmullw    xmm0, xmm2
-	LONG $0xc1db0f66                           // pand    xmm0, xmm1
-	LONG $0xe3d50f66                           // pmullw    xmm4, xmm3
-	LONG $0xe1db0f66                           // pand    xmm4, xmm1
-	LONG $0xe0670f66                           // packuswb    xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
-
-LBB0_892:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JNE  LBB0_893
-	JMP  LBB0_1013
-
-LBB0_52:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_55:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_57
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB0_57:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_58
-
-LBB0_398:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_401:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_403
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-
-LBB0_403:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_404
-	JMP  LBB0_1013
-
-LBB0_225:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_228:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_230
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB0_230:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_231
-
-LBB0_571:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_574:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_576
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-
-LBB0_576:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_577
-	JMP  LBB0_1013
-
-LBB0_811:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_814:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_816
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_816:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_817
-	JMP  LBB0_1013
-
-LBB0_961:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_964:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_966
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_966:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_967
-	JMP  LBB0_1013
-
-LBB0_126:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_129:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_131
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_131:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_132
-
-LBB0_472:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_475:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_477
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_477:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_478
-	JMP  LBB0_1013
-
-LBB0_299:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_302:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_304
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB0_304:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_1013
-	JMP  LBB0_305
-
-LBB0_645:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_648:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_650
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_650:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_651
-	JMP  LBB0_1013
-
-DATA LCDATA2<>+0x000(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA2<>+0x008(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA2<>(SB), 8, $16
-
-TEXT ·_arithmetic_arr_scalar_sse4(SB), $0-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA2<>(SB), BP
-
-	LONG $0x14fe8040         // cmp    sil, 20
-	JG   LBB1_12
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB1_23
-	LONG $0x01fe8040         // cmp    sil, 1
-	JE   LBB1_31
-	LONG $0x02fe8040         // cmp    sil, 2
-	JNE  LBB1_1069
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_55
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_97
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_157
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_160
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_11
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_453
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_453
-
-LBB1_11:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_625:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_627
-
-LBB1_626:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_626
-
-LBB1_627:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_628:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_628
-	JMP  LBB1_1069
-
-LBB1_12:
-	LONG $0x15fe8040         // cmp    sil, 21
-	JE   LBB1_39
-	LONG $0x16fe8040         // cmp    sil, 22
-	JE   LBB1_47
-	LONG $0x17fe8040         // cmp    sil, 23
-	JNE  LBB1_1069
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_62
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_102
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_163
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_166
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_22
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_456
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_456
-
-LBB1_22:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_633:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_635
-
-LBB1_634:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_634
-
-LBB1_635:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_636:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_636
-	JMP  LBB1_1069
-
-LBB1_23:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_69
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_107
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_169
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_172
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_30
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_459
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_459
-
-LBB1_30:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_641:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_643
-
-LBB1_642:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_642
-
-LBB1_643:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_644:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_644
-	JMP  LBB1_1069
-
-LBB1_31:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_76
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_112
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_175
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_178
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_38
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_462
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_462
-
-LBB1_38:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_649:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_651
-
-LBB1_650:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_650
-
-LBB1_651:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_652:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_652
-	JMP  LBB1_1069
-
-LBB1_39:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_83
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_117
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_181
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_184
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_46
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_465
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_465
-
-LBB1_46:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_657:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_659
-
-LBB1_658:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_658
-
-LBB1_659:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_660:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_660
-	JMP  LBB1_1069
-
-LBB1_47:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_90
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_122
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_187
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_190
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_54
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_468
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_468
-
-LBB1_54:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_665:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_667
-
-LBB1_666:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_666
-
-LBB1_667:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_668:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_668
-	JMP  LBB1_1069
-
-LBB1_55:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_127
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_193
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_196
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_61
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_471
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_471
-
-LBB1_61:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_673:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_675
-
-LBB1_674:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8590ff2               // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_674
-
-LBB1_675:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_676:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_676
-	JMP  LBB1_1069
-
-LBB1_62:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_132
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_199
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_202
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_68
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_474
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_474
-
-LBB1_68:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_681:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_683
-
-LBB1_682:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8590ff2               // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_682
-
-LBB1_683:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_684:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_684
-	JMP  LBB1_1069
-
-LBB1_69:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_137
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_205
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_208
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_75
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_477
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_477
-
-LBB1_75:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_689:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_691
-
-LBB1_690:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_690
-
-LBB1_691:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_692:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_692
-	JMP  LBB1_1069
-
-LBB1_76:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_142
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_211
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_214
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_82
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_480
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_480
-
-LBB1_82:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_697:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_699
-
-LBB1_698:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_698
-
-LBB1_699:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_700:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_700
-	JMP  LBB1_1069
-
-LBB1_83:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_147
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_217
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_220
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_89
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_483
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_483
-
-LBB1_89:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_705:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_707
-
-LBB1_706:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_706
-
-LBB1_707:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_708:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_708
-	JMP  LBB1_1069
-
-LBB1_90:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_152
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_223
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_226
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_96
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_486
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_486
-
-LBB1_96:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_713:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_715
-
-LBB1_714:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_714
-
-LBB1_715:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_716:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_716
-	JMP  LBB1_1069
-
-LBB1_97:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_229
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_101
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_489
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_489
-
-LBB1_101:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_721:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_723
-
-LBB1_722:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_722
-
-LBB1_723:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_724:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_724
-	JMP  LBB1_1069
-
-LBB1_102:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_232
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_106
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_492
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_492
-
-LBB1_106:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_729:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_731
-
-LBB1_730:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_730
-
-LBB1_731:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_732:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_732
-	JMP  LBB1_1069
-
-LBB1_107:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_235
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_111
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_495
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_495
-
-LBB1_111:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_737:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_739
-
-LBB1_738:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_738
-
-LBB1_739:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_740:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_740
-	JMP  LBB1_1069
-
-LBB1_112:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_238
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_116
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_498
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_498
-
-LBB1_116:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_745:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_747
-
-LBB1_746:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_746
-
-LBB1_747:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_748:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_748
-	JMP  LBB1_1069
-
-LBB1_117:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_241
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_121
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_501
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_501
-
-LBB1_121:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_753:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_755
-
-LBB1_754:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_754
-
-LBB1_755:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_756:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_756
-	JMP  LBB1_1069
-
-LBB1_122:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_244
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_126
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_504
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_504
-
-LBB1_126:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_761:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_763
-
-LBB1_762:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_762
-
-LBB1_763:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_764:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_764
-	JMP  LBB1_1069
-
-LBB1_127:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_247
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB1_319
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB1_321
-
-LBB1_132:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_250
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB1_324
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB1_326
-
-LBB1_137:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_253
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_141
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_507
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_507
-
-LBB1_141:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_769:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_771
-
-LBB1_770:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_770
-
-LBB1_771:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_772:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_772
-	JMP  LBB1_1069
-
-LBB1_142:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_256
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_146
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_510
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_510
-
-LBB1_146:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_777:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_779
-
-LBB1_778:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_778
-
-LBB1_779:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_780:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_780
-	JMP  LBB1_1069
-
-LBB1_147:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_259
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_151
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_513
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_513
-
-LBB1_151:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_785:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_787
-
-LBB1_786:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_786
-
-LBB1_787:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_788:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_788
-	JMP  LBB1_1069
-
-LBB1_152:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_262
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_156
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_516
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_516
-
-LBB1_156:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_793:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_795
-
-LBB1_794:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_794
-
-LBB1_795:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_796:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_796
-	JMP  LBB1_1069
-
-LBB1_157:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_159
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_519
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_519
-
-LBB1_159:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_801:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_803
-
-LBB1_802:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66             // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_802
-
-LBB1_803:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_804:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_804
-	JMP  LBB1_1069
-
-LBB1_160:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_162
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_522
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_522
-
-LBB1_162:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_809:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_811
-
-LBB1_810:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66             // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_810
-
-LBB1_811:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_812:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_812
-	JMP  LBB1_1069
-
-LBB1_163:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_165
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_525
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_525
-
-LBB1_165:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_817:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_819
-
-LBB1_818:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66             // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_818
-
-LBB1_819:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_820:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_820
-	JMP  LBB1_1069
-
-LBB1_166:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_168
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_528
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_528
-
-LBB1_168:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_825:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_827
-
-LBB1_826:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66             // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_826
-
-LBB1_827:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_828:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	LONG $0xc8af0f66               // imul    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_828
-	JMP  LBB1_1069
-
-LBB1_169:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_171
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_531
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_531
-
-LBB1_171:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_833:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_835
-
-LBB1_834:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1     // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_834
-
-LBB1_835:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_836:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_836
-	JMP  LBB1_1069
-
-LBB1_172:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_174
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_534
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_534
-
-LBB1_174:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_841:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_843
-
-LBB1_842:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1     // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_842
-
-LBB1_843:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_844:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_844
-	JMP  LBB1_1069
-
-LBB1_175:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_177
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_537
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_537
-
-LBB1_177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_849:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_851
-
-LBB1_850:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_850
-
-LBB1_851:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_852:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_852
-	JMP  LBB1_1069
-
-LBB1_178:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_180
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_540
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_540
-
-LBB1_180:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_857:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_859
-
-LBB1_858:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_858
-
-LBB1_859:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_860:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_860
-	JMP  LBB1_1069
-
-LBB1_181:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_183
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_543
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_543
-
-LBB1_183:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_865:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_867
-
-LBB1_866:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1     // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_866
-
-LBB1_867:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_868:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_868
-	JMP  LBB1_1069
-
-LBB1_184:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_186
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_546
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_546
-
-LBB1_186:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_873:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_875
-
-LBB1_874:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1     // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_874
-
-LBB1_875:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_876:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_876
-	JMP  LBB1_1069
-
-LBB1_187:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_189
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_549
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_549
-
-LBB1_189:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_881:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_883
-
-LBB1_882:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_882
-
-LBB1_883:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_884:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_884
-	JMP  LBB1_1069
-
-LBB1_190:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_192
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_552
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_552
-
-LBB1_192:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_889:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_891
-
-LBB1_890:
-	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB1_890
-
-LBB1_891:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_892:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_892
-	JMP  LBB1_1069
-
-LBB1_193:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB1_377
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB1_379
-
-LBB1_196:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_198
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_555
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_555
-
-LBB1_198:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_897:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_899
-
-LBB1_898:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8590ff3               // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_898
-
-LBB1_899:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_900:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_900
-	JMP  LBB1_1069
-
-LBB1_199:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB1_385
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB1_387
-
-LBB1_202:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_204
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_558
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_558
-
-LBB1_204:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_905:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_907
-
-LBB1_906:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8590ff3               // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_906
-
-LBB1_907:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_908:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_908
-	JMP  LBB1_1069
-
-LBB1_205:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_207
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_561
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_561
-
-LBB1_207:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_913:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_915
-
-LBB1_914:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_914
-
-LBB1_915:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_916:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_916
-	JMP  LBB1_1069
-
-LBB1_208:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_210
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_564
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_564
-
-LBB1_210:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_921:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_923
-
-LBB1_922:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_922
-
-LBB1_923:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_924:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_924
-	JMP  LBB1_1069
-
-LBB1_211:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_213
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_567
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_567
-
-LBB1_213:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_929:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_931
-
-LBB1_930:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_930
-
-LBB1_931:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_932:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_932
-	JMP  LBB1_1069
-
-LBB1_214:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_216
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_570
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_570
-
-LBB1_216:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_937:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_939
-
-LBB1_938:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85c0ff3               // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_938
-
-LBB1_939:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_940:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_940
-	JMP  LBB1_1069
-
-LBB1_217:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_219
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_573
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_573
-
-LBB1_219:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_945:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_947
-
-LBB1_946:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_946
-
-LBB1_947:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_948:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_948
-	JMP  LBB1_1069
-
-LBB1_220:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_222
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_576
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_576
-
-LBB1_222:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_953:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_955
-
-LBB1_954:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_954
-
-LBB1_955:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_956:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_956
-	JMP  LBB1_1069
-
-LBB1_223:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_225
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_579
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_579
-
-LBB1_225:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_961:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_963
-
-LBB1_962:
-	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
-	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_962
-
-LBB1_963:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_964:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_964
-	JMP  LBB1_1069
-
-LBB1_226:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_228
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_582
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_582
-
-LBB1_228:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_969:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_971
-
-LBB1_970:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85c0ff3               // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_970
-
-LBB1_971:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_1069
-
-LBB1_972:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_972
-	JMP  LBB1_1069
-
-LBB1_229:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_231
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_585
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_585
-
-LBB1_231:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_977:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_979
-
-LBB1_978:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_978
-
-LBB1_979:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_980:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_980
-	JMP  LBB1_1069
-
-LBB1_232:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x098a             // mov    cl, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_234
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_588
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_588
-
-LBB1_234:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_985:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB1_987
-
-LBB1_986:
-	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6     // mul    cl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB1_986
-
-LBB1_987:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_988:
-	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0xe1f6                 // mul    cl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB1_988
-	JMP  LBB1_1069
-
-LBB1_235:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_237
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_591
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_591
-
-LBB1_237:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_993:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_995
-
-LBB1_994:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_994
-
-LBB1_995:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_996:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_996
-	JMP  LBB1_1069
-
-LBB1_238:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_240
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_594
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_594
-
-LBB1_240:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1001:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1003
-
-LBB1_1002:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1002
-
-LBB1_1003:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1004:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1004
-	JMP  LBB1_1069
-
-LBB1_241:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_243
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_597
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_597
-
-LBB1_243:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1009:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1011
-
-LBB1_1010:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1010
-
-LBB1_1011:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1012:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1012
-	JMP  LBB1_1069
-
-LBB1_244:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_246
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_600
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_600
-
-LBB1_246:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1017:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1019
-
-LBB1_1018:
-	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
-	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB1_1018
-
-LBB1_1019:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1020:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1020
-	JMP  LBB1_1069
-
-LBB1_247:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_249
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_603
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_603
-
-LBB1_249:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1025:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1027
-
-LBB1_1026:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1026
-
-LBB1_1027:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1028:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1028
-	JMP  LBB1_1069
-
-LBB1_250:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_252
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_606
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_606
-
-LBB1_252:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1033:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1035
-
-LBB1_1034:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1034
-
-LBB1_1035:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1036:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1036
-	JMP  LBB1_1069
-
-LBB1_253:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_255
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_609
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_609
-
-LBB1_255:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1041:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1043
-
-LBB1_1042:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1042
-
-LBB1_1043:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1044:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1044
-	JMP  LBB1_1069
-
-LBB1_256:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_258
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_612
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_612
-
-LBB1_258:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1049:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1051
-
-LBB1_1050:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1050
-
-LBB1_1051:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1052:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1052
-	JMP  LBB1_1069
-
-LBB1_259:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_261
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_615
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_615
-
-LBB1_261:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1057:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1059
-
-LBB1_1058:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1058
-
-LBB1_1059:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1060:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1060
-	JMP  LBB1_1069
-
-LBB1_262:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_1069
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_264
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_618
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_618
-
-LBB1_264:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_1065:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_1067
-
-LBB1_1066:
-	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
-	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB1_1066
-
-LBB1_1067:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB1_1069
-
-LBB1_1068:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_1068
-	JMP  LBB1_1069
-
-LBB1_319:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_320:
-	LONG $0xfa0c8b48             // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf80c8949             // mov    qword [r8 + 8*rdi], rcx
-	LONG $0xfa4c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rdi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rcx
-	LONG $0xfa4c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rdi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rcx
-	LONG $0xfa4c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rdi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rcx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB1_320
-
-LBB1_321:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB1_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_323:
-	LONG $0xfa0c8b48         // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48         // imul    rcx, rax
-	LONG $0xfe0c8948         // mov    qword [rsi + 8*rdi], rcx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB1_323
-	JMP  LBB1_1069
-
-LBB1_324:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_325:
-	LONG $0xfa0c8b48             // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf80c8949             // mov    qword [r8 + 8*rdi], rcx
-	LONG $0xfa4c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rdi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rcx
-	LONG $0xfa4c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rdi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rcx
-	LONG $0xfa4c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rdi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rcx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB1_325
-
-LBB1_326:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB1_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_328:
-	LONG $0xfa0c8b48         // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48         // imul    rcx, rax
-	LONG $0xfe0c8948         // mov    qword [rsi + 8*rdi], rcx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB1_328
-	JMP  LBB1_1069
-
-LBB1_377:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_378:
-	LONG $0xfa0c8b48             // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf80c8949             // mov    qword [r8 + 8*rdi], rcx
-	LONG $0xfa4c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rdi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rcx
-	LONG $0xfa4c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rdi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rcx
-	LONG $0xfa4c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rdi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rcx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB1_378
-
-LBB1_379:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB1_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_381:
-	LONG $0xfa0c8b48         // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48         // imul    rcx, rax
-	LONG $0xfe0c8948         // mov    qword [rsi + 8*rdi], rcx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB1_381
-	JMP  LBB1_1069
-
-LBB1_385:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_386:
-	LONG $0xfa0c8b48             // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf80c8949             // mov    qword [r8 + 8*rdi], rcx
-	LONG $0xfa4c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rdi + 8]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rcx
-	LONG $0xfa4c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rdi + 16]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rcx
-	LONG $0xfa4c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rdi + 24]
-	LONG $0xc8af0f48             // imul    rcx, rax
-	LONG $0xf84c8949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rcx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB1_386
-
-LBB1_387:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB1_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_389:
-	LONG $0xfa0c8b48         // mov    rcx, qword [rdx + 8*rdi]
-	LONG $0xc8af0f48         // imul    rcx, rax
-	LONG $0xfe0c8948         // mov    qword [rsi + 8*rdi], rcx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB1_389
-
-LBB1_1069:
-	RET
-
-LBB1_453:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_621
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_455:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_455
-	JMP  LBB1_622
-
-LBB1_456:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_629
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_458:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_458
-	JMP  LBB1_630
-
-LBB1_459:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_637
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_461:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_461
-	JMP  LBB1_638
-
-LBB1_462:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_645
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_464:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_464
-	JMP  LBB1_646
-
-LBB1_465:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_653
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_467:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_467
-	JMP  LBB1_654
-
-LBB1_468:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_661
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_470:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_470
-	JMP  LBB1_662
-
-LBB1_471:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_669
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_473:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_473
-	JMP  LBB1_670
-
-LBB1_474:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_677
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_476:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_476
-	JMP  LBB1_678
-
-LBB1_477:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_685
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_479:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_479
-	JMP  LBB1_686
-
-LBB1_480:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_693
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_482:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_482
-	JMP  LBB1_694
-
-LBB1_483:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_701
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_485:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_485
-	JMP  LBB1_702
-
-LBB1_486:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_709
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_488:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_488
-	JMP  LBB1_710
-
-LBB1_489:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc1     // movzx    eax, cl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_717
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB1_491:
-	LONG $0x2c6f0ff3; BYTE $0x02               // movdqu    xmm5, oword [rdx + rax]
-	LONG $0x746f0ff3; WORD $0x1002             // movdqu    xmm6, oword [rdx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2002             // movdqu    xmm5, oword [rdx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3002             // movdqu    xmm6, oword [rdx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_491
-	JMP  LBB1_718
-
-LBB1_492:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc1     // movzx    eax, cl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_725
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB1_494:
-	LONG $0x2c6f0ff3; BYTE $0x02               // movdqu    xmm5, oword [rdx + rax]
-	LONG $0x746f0ff3; WORD $0x1002             // movdqu    xmm6, oword [rdx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2002             // movdqu    xmm5, oword [rdx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3002             // movdqu    xmm6, oword [rdx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_494
-	JMP  LBB1_726
-
-LBB1_495:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_733
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_497:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_497
-	JMP  LBB1_734
-
-LBB1_498:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_741
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_500:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_500
-	JMP  LBB1_742
-
-LBB1_501:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_749
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_503:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_503
-	JMP  LBB1_750
-
-LBB1_504:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_757
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_506:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_506
-	JMP  LBB1_758
-
-LBB1_507:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_765
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_509:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_509
-	JMP  LBB1_766
-
-LBB1_510:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_773
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_512:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_512
-	JMP  LBB1_774
-
-LBB1_513:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_781
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_515:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_515
-	JMP  LBB1_782
-
-LBB1_516:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_789
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_518:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_518
-	JMP  LBB1_790
-
-LBB1_519:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_797
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_521:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_521
-	JMP  LBB1_798
-
-LBB1_522:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_805
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_524:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_524
-	JMP  LBB1_806
-
-LBB1_525:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_813
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_527:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_527
-	JMP  LBB1_814
-
-LBB1_528:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_821
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_530:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_530
-	JMP  LBB1_822
-
-LBB1_531:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_829
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_533:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_533
-	JMP  LBB1_830
-
-LBB1_534:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_837
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_536:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_536
-	JMP  LBB1_838
-
-LBB1_537:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_845
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_539:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_539
-	JMP  LBB1_846
-
-LBB1_540:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_853
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_542:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_542
-	JMP  LBB1_854
-
-LBB1_543:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_861
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_545:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_545
-	JMP  LBB1_862
-
-LBB1_546:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_869
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_548:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_548
-	JMP  LBB1_870
-
-LBB1_549:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_877
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_551:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_551
-	JMP  LBB1_878
-
-LBB1_552:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_885
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_554:
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_554
-	JMP  LBB1_886
-
-LBB1_555:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_893
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_557:
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_557
-	JMP  LBB1_894
-
-LBB1_558:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_901
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_560:
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_560
-	JMP  LBB1_902
-
-LBB1_561:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_909
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_563:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_563
-	JMP  LBB1_910
-
-LBB1_564:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_917
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_566:
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_566
-	JMP  LBB1_918
-
-LBB1_567:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_925
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_569:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_569
-	JMP  LBB1_926
-
-LBB1_570:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_933
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_572:
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_572
-	JMP  LBB1_934
-
-LBB1_573:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_941
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_575:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_575
-	JMP  LBB1_942
-
-LBB1_576:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_949
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_578:
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_578
-	JMP  LBB1_950
-
-LBB1_579:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_957
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_581:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_581
-	JMP  LBB1_958
-
-LBB1_582:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_965
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB1_584:
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_584
-	JMP  LBB1_966
-
-LBB1_585:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc1     // movzx    eax, cl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_973
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB1_587:
-	LONG $0x2c6f0ff3; BYTE $0x02               // movdqu    xmm5, oword [rdx + rax]
-	LONG $0x746f0ff3; WORD $0x1002             // movdqu    xmm6, oword [rdx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2002             // movdqu    xmm5, oword [rdx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3002             // movdqu    xmm6, oword [rdx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_587
-	JMP  LBB1_974
-
-LBB1_588:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc1     // movzx    eax, cl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_981
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB1_590:
-	LONG $0x2c6f0ff3; BYTE $0x02               // movdqu    xmm5, oword [rdx + rax]
-	LONG $0x746f0ff3; WORD $0x1002             // movdqu    xmm6, oword [rdx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2002             // movdqu    xmm5, oword [rdx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3002             // movdqu    xmm6, oword [rdx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_590
-	JMP  LBB1_982
-
-LBB1_591:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_989
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_593:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_593
-	JMP  LBB1_990
-
-LBB1_594:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_997
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_596:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_596
-	JMP  LBB1_998
-
-LBB1_597:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1005
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_599:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_599
-	JMP  LBB1_1006
-
-LBB1_600:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1013
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_602:
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_602
-	JMP  LBB1_1014
-
-LBB1_603:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1021
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_605:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_605
-	JMP  LBB1_1022
-
-LBB1_606:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1029
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_608:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_608
-	JMP  LBB1_1030
-
-LBB1_609:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1037
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_611:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_611
-	JMP  LBB1_1038
-
-LBB1_612:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1045
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_614:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_614
-	JMP  LBB1_1046
-
-LBB1_615:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1053
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_617:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_617
-	JMP  LBB1_1054
-
-LBB1_618:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_1061
-	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
-	LONG $0xfee18348             // and    rcx, -2
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB1_620:
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c18348                           // add    rcx, 2
-	JNE  LBB1_620
-	JMP  LBB1_1062
-
-LBB1_621:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_622:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_624
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_624:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_625
-
-LBB1_629:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_630:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_632
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_632:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_633
-
-LBB1_637:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_638:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_640
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_640:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_641
-
-LBB1_645:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_646:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_648
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_648:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_649
-
-LBB1_653:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_654:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_656
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_656:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_657
-
-LBB1_661:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_662:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_664
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_664:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_665
-
-LBB1_669:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_670:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_672
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_672:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_673
-
-LBB1_677:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_678:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_680
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_680:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_681
-
-LBB1_685:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_686:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_688
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_688:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_689
-
-LBB1_693:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_694:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_696
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_696:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_697
-
-LBB1_701:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_702:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_704
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_704:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_705
-
-LBB1_709:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_710:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_712
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_712:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_713
-
-LBB1_717:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_718:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_720
-	LONG $0x146f0ff3; BYTE $0x02               // movdqu    xmm2, oword [rdx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1002             // movdqu    xmm3, oword [rdx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB1_720:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1069
-	JMP  LBB1_721
-
-LBB1_725:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_726:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_728
-	LONG $0x146f0ff3; BYTE $0x02               // movdqu    xmm2, oword [rdx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1002             // movdqu    xmm3, oword [rdx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB1_728:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1069
-	JMP  LBB1_729
-
-LBB1_733:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_734:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_736
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_736:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_737
-
-LBB1_741:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_742:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_744
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_744:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_745
-
-LBB1_749:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_750:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_752
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_752:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_753
-
-LBB1_757:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_758:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_760
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_760:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_761
-
-LBB1_765:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_766:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_768
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_768:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_769
-
-LBB1_773:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_774:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_776
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_776:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_777
-
-LBB1_781:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_782:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_784
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_784:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_785
-
-LBB1_789:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_790:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_792
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_792:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_793
-
-LBB1_797:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_798:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_800
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_800:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_801
-
-LBB1_805:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_806:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_808
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_808:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_809
-
-LBB1_813:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_814:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_816
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_816:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_817
-
-LBB1_821:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_822:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_824
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_824:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_825
-
-LBB1_829:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_830:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_832
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_832:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_833
-
-LBB1_837:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_838:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_840
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_840:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_841
-
-LBB1_845:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_846:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_848
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_848:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_849
-
-LBB1_853:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_854:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_856
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_856:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_857
-
-LBB1_861:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_862:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_864
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_864:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_865
-
-LBB1_869:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_870:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_872
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_872:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_873
-
-LBB1_877:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_878:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_880
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_880:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_881
-
-LBB1_885:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_886:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_888
-	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB1_888:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_889
-
-LBB1_893:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_894:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_896
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_896:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_897
-
-LBB1_901:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_902:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_904
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_904:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_905
-
-LBB1_909:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_910:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_912
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_912:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_913
-
-LBB1_917:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_918:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_920
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_920:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_921
-
-LBB1_925:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_926:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_928
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_928:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_929
-
-LBB1_933:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_934:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_936
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_936:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_937
-
-LBB1_941:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_942:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_944
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_944:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_945
-
-LBB1_949:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_950:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_952
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_952:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_953
-
-LBB1_957:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_958:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_960
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB1_960:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_961
-
-LBB1_965:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_966:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB1_968
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_968:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_1069
-	JMP  LBB1_969
-
-LBB1_973:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_974:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_976
-	LONG $0x146f0ff3; BYTE $0x02               // movdqu    xmm2, oword [rdx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1002             // movdqu    xmm3, oword [rdx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB1_976:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1069
-	JMP  LBB1_977
-
-LBB1_981:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_982:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_984
-	LONG $0x146f0ff3; BYTE $0x02               // movdqu    xmm2, oword [rdx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1002             // movdqu    xmm3, oword [rdx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB1_984:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB1_1069
-	JMP  LBB1_985
-
-LBB1_989:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_990:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_992
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_992:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_993
-
-LBB1_997:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_998:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1000
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_1000:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1001
-
-LBB1_1005:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1006:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1008
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_1008:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1009
-
-LBB1_1013:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1014:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1016
-	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB1_1016:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1017
-
-LBB1_1021:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1022:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1024
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_1024:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1025
-
-LBB1_1029:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1030:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1032
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_1032:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1033
-
-LBB1_1037:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1038:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1040
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_1040:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1041
-
-LBB1_1045:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1046:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1048
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_1048:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1049
-
-LBB1_1053:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1054:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1056
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_1056:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1057
-
-LBB1_1061:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_1062:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_1064
-	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB1_1064:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_1069
-	JMP  LBB1_1065
-
-DATA LCDATA3<>+0x000(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA3<>+0x008(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA3<>(SB), 8, $16
-
-TEXT ·_arithmetic_scalar_arr_sse4(SB), $0-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA3<>(SB), BP
-
-	LONG $0x14fe8040         // cmp    sil, 20
-	JG   LBB2_12
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB2_23
-	LONG $0x01fe8040         // cmp    sil, 1
-	JE   LBB2_31
-	LONG $0x02fe8040         // cmp    sil, 2
-	JNE  LBB2_1069
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_55
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_97
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_157
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_160
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_11
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_453
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_453
-
-LBB2_11:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_625:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_627
-
-LBB2_626:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_626
-
-LBB2_627:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_628:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_628
-	JMP  LBB2_1069
-
-LBB2_12:
-	LONG $0x15fe8040         // cmp    sil, 21
-	JE   LBB2_39
-	LONG $0x16fe8040         // cmp    sil, 22
-	JE   LBB2_47
-	LONG $0x17fe8040         // cmp    sil, 23
-	JNE  LBB2_1069
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_62
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_102
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_163
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_166
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_22
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_456
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_456
-
-LBB2_22:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_633:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_635
-
-LBB2_634:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_634
-
-LBB2_635:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_636:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_636
-	JMP  LBB2_1069
-
-LBB2_23:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_69
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_107
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_169
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_172
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_30
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_459
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_459
-
-LBB2_30:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_641:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_643
-
-LBB2_642:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_642
-
-LBB2_643:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_644:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_644
-	JMP  LBB2_1069
-
-LBB2_31:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_76
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_112
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_175
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_178
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_38
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_462
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_462
-
-LBB2_38:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_649:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_651
-
-LBB2_650:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_650
-
-LBB2_651:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_652:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_652
-	JMP  LBB2_1069
-
-LBB2_39:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_83
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_117
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_181
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_184
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_46
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_465
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_465
-
-LBB2_46:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_657:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_659
-
-LBB2_658:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_658
-
-LBB2_659:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_660:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_660
-	JMP  LBB2_1069
-
-LBB2_47:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_90
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_122
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_187
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_190
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_54
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_468
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_468
-
-LBB2_54:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_665:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_667
-
-LBB2_666:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_666
-
-LBB2_667:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_668:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_668
-	JMP  LBB2_1069
-
-LBB2_55:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_127
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_193
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_196
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_61
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_471
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_471
-
-LBB2_61:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_673:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_675
-
-LBB2_674:
-	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8590ff2               // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_674
-
-LBB2_675:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_676:
-	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_676
-	JMP  LBB2_1069
-
-LBB2_62:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_132
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_199
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_202
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_68
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_474
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_474
-
-LBB2_68:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_681:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_683
-
-LBB2_682:
-	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8590ff2               // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_682
-
-LBB2_683:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_684:
-	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_684
-	JMP  LBB2_1069
-
-LBB2_69:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_137
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_205
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_208
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_75
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_477
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_477
-
-LBB2_75:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_689:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_691
-
-LBB2_690:
-	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_690
-
-LBB2_691:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_692:
-	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_692
-	JMP  LBB2_1069
-
-LBB2_76:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_142
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_211
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_214
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_82
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_480
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_480
-
-LBB2_82:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_697:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_699
-
-LBB2_698:
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xd1   // subsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_698
-
-LBB2_699:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_700:
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xd1               // subsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x08d1             // subsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x10d1             // subsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x18d1             // subsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_700
-	JMP  LBB2_1069
-
-LBB2_83:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_147
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_217
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_220
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_89
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_483
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_483
-
-LBB2_89:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_705:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_707
-
-LBB2_706:
-	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_706
-
-LBB2_707:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_708:
-	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_708
-	JMP  LBB2_1069
-
-LBB2_90:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_152
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_223
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_226
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_96
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_486
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_486
-
-LBB2_96:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_713:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_715
-
-LBB2_714:
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xd1   // subsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_714
-
-LBB2_715:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_716:
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xd1               // subsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x08d1             // subsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x10d1             // subsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x18d1             // subsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_716
-	JMP  LBB2_1069
-
-LBB2_97:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_229
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_101
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_489
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_489
-
-LBB2_101:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_721:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_723
-
-LBB2_722:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_722
-
-LBB2_723:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_724:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_724
-	JMP  LBB2_1069
-
-LBB2_102:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_232
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_106
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_492
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_492
-
-LBB2_106:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_729:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_731
-
-LBB2_730:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_730
-
-LBB2_731:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_732:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_732
-	JMP  LBB2_1069
-
-LBB2_107:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_235
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028a             // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_111
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_495
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_495
-
-LBB2_111:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_737:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_739
-
-LBB2_738:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_738
-
-LBB2_739:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_740:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_740
-	JMP  LBB2_1069
-
-LBB2_112:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_238
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_116
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_498
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_498
-
-LBB2_116:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_745:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_747
-
-LBB2_746:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_746
-
-LBB2_747:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_748:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_748
-	JMP  LBB2_1069
-
-LBB2_117:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_241
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028a             // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_121
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_501
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_501
-
-LBB2_121:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_753:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_755
-
-LBB2_754:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_754
-
-LBB2_755:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_756:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_756
-	JMP  LBB2_1069
-
-LBB2_122:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_244
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_126
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_504
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_504
-
-LBB2_126:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_761:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_763
-
-LBB2_762:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_762
-
-LBB2_763:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_764:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_764
-	JMP  LBB2_1069
-
-LBB2_127:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_247
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB2_319
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_321
-
-LBB2_132:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_250
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB2_324
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_326
-
-LBB2_137:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_253
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_141
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_507
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_507
-
-LBB2_141:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_769:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_771
-
-LBB2_770:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_770
-
-LBB2_771:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_772:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_772
-	JMP  LBB2_1069
-
-LBB2_142:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_256
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_146
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_510
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_510
-
-LBB2_146:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_777:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_779
-
-LBB2_778:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_778
-
-LBB2_779:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_780:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_780
-	JMP  LBB2_1069
-
-LBB2_147:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_259
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_151
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_513
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_513
-
-LBB2_151:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_785:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_787
-
-LBB2_786:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_786
-
-LBB2_787:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_788:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_788
-	JMP  LBB2_1069
-
-LBB2_152:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_262
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_1069
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_156
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_516
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_516
-
-LBB2_156:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_793:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_795
-
-LBB2_794:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_794
-
-LBB2_795:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_796:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_796
-	JMP  LBB2_1069
-
-LBB2_157:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_159
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_519
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_519
-
-LBB2_159:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_801:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_803
-
-LBB2_802:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66             // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_802
-
-LBB2_803:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_804:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_804
-	JMP  LBB2_1069
-
-LBB2_160:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_162
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_522
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_522
-
-LBB2_162:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_809:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_811
-
-LBB2_810:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66             // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_810
-
-LBB2_811:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_812:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_812
-	JMP  LBB2_1069
-
-LBB2_163:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_165
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_525
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_525
-
-LBB2_165:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_817:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_819
-
-LBB2_818:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66             // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_818
-
-LBB2_819:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_820:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_820
-	JMP  LBB2_1069
-
-LBB2_166:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_168
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_528
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_528
-
-LBB2_168:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_825:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_827
-
-LBB2_826:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66             // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_826
-
-LBB2_827:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_828:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	LONG $0xd0af0f66               // imul    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_828
-	JMP  LBB2_1069
-
-LBB2_169:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_171
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_531
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_531
-
-LBB2_171:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_833:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_835
-
-LBB2_834:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2     // add    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_834
-
-LBB2_835:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_836:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_836
-	JMP  LBB2_1069
-
-LBB2_172:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_174
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_534
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_534
-
-LBB2_174:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_841:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_843
-
-LBB2_842:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2     // add    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_842
-
-LBB2_843:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_844:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_844
-	JMP  LBB2_1069
-
-LBB2_175:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_177
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_537
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_537
-
-LBB2_177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_849:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_851
-
-LBB2_850:
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_850
-
-LBB2_851:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_852:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_852
-	JMP  LBB2_1069
-
-LBB2_178:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_180
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_540
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_540
-
-LBB2_180:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_857:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_859
-
-LBB2_858:
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_858
-
-LBB2_859:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_860:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_860
-	JMP  LBB2_1069
-
-LBB2_181:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_183
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_543
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_543
-
-LBB2_183:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_865:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_867
-
-LBB2_866:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2     // add    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_866
-
-LBB2_867:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_868:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_868
-	JMP  LBB2_1069
-
-LBB2_184:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_186
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_546
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_546
-
-LBB2_186:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_873:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_875
-
-LBB2_874:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2     // add    dx, ax
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_874
-
-LBB2_875:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_876:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_876
-	JMP  LBB2_1069
-
-LBB2_187:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_189
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_549
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_549
-
-LBB2_189:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_881:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_883
-
-LBB2_882:
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_882
-
-LBB2_883:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_884:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_884
-	JMP  LBB2_1069
-
-LBB2_190:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_192
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_552
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_552
-
-LBB2_192:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_889:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_891
-
-LBB2_890:
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB2_890
-
-LBB2_891:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_892:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_892
-	JMP  LBB2_1069
-
-LBB2_193:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB2_377
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_379
-
-LBB2_196:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_198
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_555
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_555
-
-LBB2_198:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_897:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_899
-
-LBB2_898:
-	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8590ff3               // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_898
-
-LBB2_899:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_900:
-	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_900
-	JMP  LBB2_1069
-
-LBB2_199:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	LONG $0x03e18341         // and    r9d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB2_385
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_387
-
-LBB2_202:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_204
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_558
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_558
-
-LBB2_204:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_905:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_907
-
-LBB2_906:
-	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8590ff3               // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_906
-
-LBB2_907:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_908:
-	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_908
-	JMP  LBB2_1069
-
-LBB2_205:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_207
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_561
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_561
-
-LBB2_207:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_913:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_915
-
-LBB2_914:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_914
-
-LBB2_915:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_916:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_916
-	JMP  LBB2_1069
-
-LBB2_208:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_210
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_564
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_564
-
-LBB2_210:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_921:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_923
-
-LBB2_922:
-	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_922
-
-LBB2_923:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_924:
-	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_924
-	JMP  LBB2_1069
-
-LBB2_211:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_213
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_567
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_567
-
-LBB2_213:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_929:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_931
-
-LBB2_930:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_930
-
-LBB2_931:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_932:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_932
-	JMP  LBB2_1069
-
-LBB2_214:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_216
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_570
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_570
-
-LBB2_216:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_937:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_939
-
-LBB2_938:
-	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
-	LONG $0x0c5c0ff3; BYTE $0x91   // subss    xmm1, dword [rcx + 4*rdx]
-	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_938
-
-LBB2_939:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_940:
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x0c5c0ff3; BYTE $0x91               // subss    xmm1, dword [rcx + 4*rdx]
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0491             // subss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0891             // subss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0c91             // subss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_940
-	JMP  LBB2_1069
-
-LBB2_217:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_219
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_573
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_573
-
-LBB2_219:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_945:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_947
-
-LBB2_946:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_946
-
-LBB2_947:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_948:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_948
-	JMP  LBB2_1069
-
-LBB2_220:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_222
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_576
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_576
-
-LBB2_222:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_953:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_955
-
-LBB2_954:
-	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_954
-
-LBB2_955:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_956:
-	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_956
-	JMP  LBB2_1069
-
-LBB2_223:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_225
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_579
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_579
-
-LBB2_225:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_961:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_963
-
-LBB2_962:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_962
-
-LBB2_963:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_964:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_964
-	JMP  LBB2_1069
-
-LBB2_226:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_228
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_582
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_582
-
-LBB2_228:
-	WORD $0xd231 // xor    edx, edx
-
-LBB2_969:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_971
-
-LBB2_970:
-	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
-	LONG $0x0c5c0ff3; BYTE $0x91   // subss    xmm1, dword [rcx + 4*rdx]
-	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_970
-
-LBB2_971:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_1069
-
-LBB2_972:
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x0c5c0ff3; BYTE $0x91               // subss    xmm1, dword [rcx + 4*rdx]
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0491             // subss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0891             // subss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0c91             // subss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_972
-	JMP  LBB2_1069
-
-LBB2_229:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_231
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_585
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_585
-
-LBB2_231:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_977:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_979
-
-LBB2_978:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_978
-
-LBB2_979:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_980:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_980
-	JMP  LBB2_1069
-
-LBB2_232:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x128a             // mov    dl, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_234
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_588
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_588
-
-LBB2_234:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_985:
-	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
-	LONG $0x03e68348         // and    rsi, 3
-	JE   LBB2_987
-
-LBB2_986:
-	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6     // mul    dl
-	LONG $0x38048841 // mov    byte [r8 + rdi], al
-	LONG $0x01c78348 // add    rdi, 1
-	LONG $0xffc68348 // add    rsi, -1
-	JNE  LBB2_986
-
-LBB2_987:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_988:
-	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38048841             // mov    byte [r8 + rdi], al
-	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
-	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
-	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
-	WORD $0xe2f6                 // mul    dl
-	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_988
-	JMP  LBB2_1069
-
-LBB2_235:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028a             // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_237
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_591
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_591
-
-LBB2_237:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_993:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_995
-
-LBB2_994:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_994
-
-LBB2_995:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_996:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_996
-	JMP  LBB2_1069
-
-LBB2_238:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_240
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_594
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_594
-
-LBB2_240:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1001:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1003
-
-LBB2_1002:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1002
-
-LBB2_1003:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_1004:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1004
-	JMP  LBB2_1069
-
-LBB2_241:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028a             // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_243
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_597
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_597
-
-LBB2_243:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1009:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1011
-
-LBB2_1010:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB2_1010
-
-LBB2_1011:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_1012:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1012
-	JMP  LBB2_1069
-
-LBB2_244:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_246
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_600
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_600
-
-LBB2_246:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1017:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1019
-
-LBB2_1018:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1018
-
-LBB2_1019:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_1020:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1020
-	JMP  LBB2_1069
-
-LBB2_247:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_249
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_603
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_603
-
-LBB2_249:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1025:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1027
-
-LBB2_1026:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1026
-
-LBB2_1027:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_1028:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1028
-	JMP  LBB2_1069
-
-LBB2_250:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_252
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_606
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_606
-
-LBB2_252:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1033:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1035
-
-LBB2_1034:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1034
-
-LBB2_1035:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_1036:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1036
-	JMP  LBB2_1069
-
-LBB2_253:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_255
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_609
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_609
-
-LBB2_255:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1041:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1043
-
-LBB2_1042:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1042
-
-LBB2_1043:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_1044:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1044
-	JMP  LBB2_1069
-
-LBB2_256:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_258
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_612
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_612
-
-LBB2_258:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1049:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1051
-
-LBB2_1050:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1050
-
-LBB2_1051:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_1052:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1052
-	JMP  LBB2_1069
-
-LBB2_259:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x028b             // mov    eax, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_261
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_615
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_615
-
-LBB2_261:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1057:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1059
-
-LBB2_1058:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1058
-
-LBB2_1059:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB2_1069
-
-LBB2_1060:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1060
-	JMP  LBB2_1069
-
-LBB2_262:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_1069
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_264
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_618
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_618
-
-LBB2_264:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_1065:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_1067
-
-LBB2_1066:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB2_1066
-
-LBB2_1067:
-	LONG $0x03fa8348 // cmp    rdx, 3
-	JB   LBB2_1069
-
-LBB2_1068:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_1068
-	JMP  LBB2_1069
-
-LBB2_319:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_320:
-	LONG $0xf9148b48             // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8148949             // mov    qword [r8 + 8*rdi], rdx
-	LONG $0xf9548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rdi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rdx
-	LONG $0xf9548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rdi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rdx
-	LONG $0xf9548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rdi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rdx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB2_320
-
-LBB2_321:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB2_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_323:
-	LONG $0xf9148b48         // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48         // imul    rdx, rax
-	LONG $0xfe148948         // mov    qword [rsi + 8*rdi], rdx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB2_323
-	JMP  LBB2_1069
-
-LBB2_324:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_325:
-	LONG $0xf9148b48             // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8148949             // mov    qword [r8 + 8*rdi], rdx
-	LONG $0xf9548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rdi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rdx
-	LONG $0xf9548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rdi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rdx
-	LONG $0xf9548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rdi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rdx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB2_325
-
-LBB2_326:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB2_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_328:
-	LONG $0xf9148b48         // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48         // imul    rdx, rax
-	LONG $0xfe148948         // mov    qword [rsi + 8*rdi], rdx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB2_328
-	JMP  LBB2_1069
-
-LBB2_377:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_378:
-	LONG $0xf9148b48             // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8148949             // mov    qword [r8 + 8*rdi], rdx
-	LONG $0xf9548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rdi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rdx
-	LONG $0xf9548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rdi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rdx
-	LONG $0xf9548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rdi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rdx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB2_378
-
-LBB2_379:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB2_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_381:
-	LONG $0xf9148b48         // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48         // imul    rdx, rax
-	LONG $0xfe148948         // mov    qword [rsi + 8*rdi], rdx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB2_381
-	JMP  LBB2_1069
-
-LBB2_385:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_386:
-	LONG $0xf9148b48             // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8148949             // mov    qword [r8 + 8*rdi], rdx
-	LONG $0xf9548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rdi + 8]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rdx
-	LONG $0xf9548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rdi + 16]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rdx
-	LONG $0xf9548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rdi + 24]
-	LONG $0xd0af0f48             // imul    rdx, rax
-	LONG $0xf8548949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rdx
-	LONG $0x04c78348             // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
-	JNE  LBB2_386
-
-LBB2_387:
-	WORD $0x854d; BYTE $0xc9 // test    r9, r9
-	JE   LBB2_1069
-	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_389:
-	LONG $0xf9148b48         // mov    rdx, qword [rcx + 8*rdi]
-	LONG $0xd0af0f48         // imul    rdx, rax
-	LONG $0xfe148948         // mov    qword [rsi + 8*rdi], rdx
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
-	JNE  LBB2_389
-
-LBB2_1069:
-	RET
-
-LBB2_453:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_621
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_455:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_455
-	JMP  LBB2_622
-
-LBB2_456:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_629
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_458:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_458
-	JMP  LBB2_630
-
-LBB2_459:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_637
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_461:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_461
-	JMP  LBB2_638
-
-LBB2_462:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_645
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_464:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_464
-	JMP  LBB2_646
-
-LBB2_465:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_653
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_467:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_467
-	JMP  LBB2_654
-
-LBB2_468:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_661
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_470:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_470
-	JMP  LBB2_662
-
-LBB2_471:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_669
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_473:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_473
-	JMP  LBB2_670
-
-LBB2_474:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_677
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_476:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_476
-	JMP  LBB2_678
-
-LBB2_477:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_685
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_479:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_479
-	JMP  LBB2_686
-
-LBB2_480:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_693
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_482:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xf864; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm4
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_482
-	JMP  LBB2_694
-
-LBB2_483:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_701
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_485:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_485
-	JMP  LBB2_702
-
-LBB2_486:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_709
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_488:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xf864; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm4
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_488
-	JMP  LBB2_710
-
-LBB2_489:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_717
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB2_491:
-	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
-	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_491
-	JMP  LBB2_718
-
-LBB2_492:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_725
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB2_494:
-	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
-	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_494
-	JMP  LBB2_726
-
-LBB2_495:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_733
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_497:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_497
-	JMP  LBB2_734
-
-LBB2_498:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xd3b60f41             // movzx    edx, r11b
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_741
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_500:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_500
-	JMP  LBB2_742
-
-LBB2_501:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_749
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_503:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_503
-	JMP  LBB2_750
-
-LBB2_504:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xd3b60f41             // movzx    edx, r11b
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_757
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_506:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_506
-	JMP  LBB2_758
-
-LBB2_507:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_765
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_509:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_509
-	JMP  LBB2_766
-
-LBB2_510:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_773
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_512:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_512
-	JMP  LBB2_774
-
-LBB2_513:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_781
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_515:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_515
-	JMP  LBB2_782
-
-LBB2_516:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_789
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_518:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_518
-	JMP  LBB2_790
-
-LBB2_519:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_797
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_521:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_521
-	JMP  LBB2_798
-
-LBB2_522:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_805
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_524:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_524
-	JMP  LBB2_806
-
-LBB2_525:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_813
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_527:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_527
-	JMP  LBB2_814
-
-LBB2_528:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_821
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_530:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_530
-	JMP  LBB2_822
-
-LBB2_531:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_829
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_533:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_533
-	JMP  LBB2_830
-
-LBB2_534:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_837
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_536:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_536
-	JMP  LBB2_838
-
-LBB2_537:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_845
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_539:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_539
-	JMP  LBB2_846
-
-LBB2_540:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_853
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_542:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_542
-	JMP  LBB2_854
-
-LBB2_543:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_861
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_545:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_545
-	JMP  LBB2_862
-
-LBB2_546:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_869
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_548:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_548
-	JMP  LBB2_870
-
-LBB2_549:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_877
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_551:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_551
-	JMP  LBB2_878
-
-LBB2_552:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_885
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_554:
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_554
-	JMP  LBB2_886
-
-LBB2_555:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_893
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_557:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_557
-	JMP  LBB2_894
-
-LBB2_558:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_901
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_560:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_560
-	JMP  LBB2_902
-
-LBB2_561:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_909
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_563:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_563
-	JMP  LBB2_910
-
-LBB2_564:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_917
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_566:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_566
-	JMP  LBB2_918
-
-LBB2_567:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_925
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_569:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_569
-	JMP  LBB2_926
-
-LBB2_570:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_933
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_572:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
-	LONG $0x54110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x64110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm4
-	LONG $0x54110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_572
-	JMP  LBB2_934
-
-LBB2_573:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_941
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_575:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_575
-	JMP  LBB2_942
-
-LBB2_576:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_949
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_578:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_578
-	JMP  LBB2_950
-
-LBB2_579:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_957
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_581:
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_581
-	JMP  LBB2_958
-
-LBB2_582:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_965
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_584:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
-	LONG $0x54110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x64110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm4
-	LONG $0x54110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_584
-	JMP  LBB2_966
-
-LBB2_585:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_973
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB2_587:
-	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
-	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_587
-	JMP  LBB2_974
-
-LBB2_588:
-	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
-	WORD $0xe783; BYTE $0xe0     // and    edi, -32
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0478d48             // lea    rax, [rdi - 32]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_981
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
-	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
-	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
-
-LBB2_590:
-	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
-	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
-	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
-	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
-	LONG $0xead50f66                           // pmullw    xmm5, xmm2
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
-	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
-	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
-	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xebdb0f66                           // pand    xmm5, xmm3
-	LONG $0xee670f66                           // packuswb    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_590
-	JMP  LBB2_982
-
-LBB2_591:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_989
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_593:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_593
-	JMP  LBB2_990
-
-LBB2_594:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xd3b60f41             // movzx    edx, r11b
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_997
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_596:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_596
-	JMP  LBB2_998
-
-LBB2_597:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1005
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_599:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_599
-	JMP  LBB2_1006
-
-LBB2_600:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xd3b60f41             // movzx    edx, r11b
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1013
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_602:
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_602
-	JMP  LBB2_1014
-
-LBB2_603:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1021
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_605:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_605
-	JMP  LBB2_1022
-
-LBB2_606:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1029
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_608:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_608
-	JMP  LBB2_1030
-
-LBB2_609:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1037
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_611:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_611
-	JMP  LBB2_1038
-
-LBB2_612:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1045
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_614:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_614
-	JMP  LBB2_1046
-
-LBB2_615:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1053
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_617:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_617
-	JMP  LBB2_1054
-
-LBB2_618:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_1061
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-
-LBB2_620:
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB2_620
-	JMP  LBB2_1062
-
-LBB2_621:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_622:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_624
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_624:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_625
-
-LBB2_629:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_630:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_632
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_632:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_633
-
-LBB2_637:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_638:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_640
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_640:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_641
-
-LBB2_645:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_646:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_648
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB2_648:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_649
-
-LBB2_653:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_654:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_656
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_656:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_657
-
-LBB2_661:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_662:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_664
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB2_664:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_665
-
-LBB2_669:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_670:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_672
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB2_672:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_673
-
-LBB2_677:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_678:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_680
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
-	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB2_680:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_681
-
-LBB2_685:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_686:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_688
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB2_688:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_689
-
-LBB2_693:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_694:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_696
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-
-LBB2_696:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_697
-
-LBB2_701:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_702:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_704
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB2_704:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_705
-
-LBB2_709:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_710:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_712
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-
-LBB2_712:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_713
-
-LBB2_717:
-	WORD $0xc031 // xor    eax, eax
-
-LBB2_718:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_720
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1001             // movdqu    xmm3, oword [rcx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB2_720:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1069
-	JMP  LBB2_721
-
-LBB2_725:
-	WORD $0xc031 // xor    eax, eax
-
-LBB2_726:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_728
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1001             // movdqu    xmm3, oword [rcx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB2_728:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1069
-	JMP  LBB2_729
-
-LBB2_733:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_734:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_736
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB2_736:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_737
-
-LBB2_741:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_742:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_744
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB2_744:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_745
-
-LBB2_749:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_750:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_752
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB2_752:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_753
-
-LBB2_757:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_758:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_760
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB2_760:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_761
-
-LBB2_765:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_766:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_768
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB2_768:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_769
-
-LBB2_773:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_774:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_776
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB2_776:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_777
-
-LBB2_781:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_782:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_784
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB2_784:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_785
-
-LBB2_789:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_790:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_792
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB2_792:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_793
-
-LBB2_797:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_798:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_800
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_800:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_801
-
-LBB2_805:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_806:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_808
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_808:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_809
-
-LBB2_813:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_814:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_816
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_816:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_817
-
-LBB2_821:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_822:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_824
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
-	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_824:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_825
-
-LBB2_829:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_830:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_832
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_832:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_833
-
-LBB2_837:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_838:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_840
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_840:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_841
-
-LBB2_845:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_846:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_848
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB2_848:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_849
-
-LBB2_853:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_854:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_856
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB2_856:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_857
-
-LBB2_861:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_862:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_864
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_864:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_865
-
-LBB2_869:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_870:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_872
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
-
-LBB2_872:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_873
-
-LBB2_877:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_878:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_880
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB2_880:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_881
-
-LBB2_885:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_886:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_888
-	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
-
-LBB2_888:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_889
-
-LBB2_893:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_894:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_896
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB2_896:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_897
-
-LBB2_901:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_902:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_904
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
-	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB2_904:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_905
-
-LBB2_909:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_910:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_912
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB2_912:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_913
-
-LBB2_917:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_918:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_920
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB2_920:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_921
-
-LBB2_925:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_926:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_928
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB2_928:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_929
-
-LBB2_933:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_934:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_936
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
-	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-
-LBB2_936:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_937
-
-LBB2_941:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_942:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_944
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
-
-LBB2_944:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_945
-
-LBB2_949:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_950:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_952
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB2_952:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_953
-
-LBB2_957:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_958:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_960
-	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
-
-LBB2_960:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_961
-
-LBB2_965:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_966:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB2_968
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
-	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-
-LBB2_968:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_1069
-	JMP  LBB2_969
-
-LBB2_973:
-	WORD $0xc031 // xor    eax, eax
-
-LBB2_974:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_976
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1001             // movdqu    xmm3, oword [rcx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB2_976:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1069
-	JMP  LBB2_977
-
-LBB2_981:
-	WORD $0xc031 // xor    eax, eax
-
-LBB2_982:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_984
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0x5c6f0ff3; WORD $0x1001             // movdqu    xmm3, oword [rcx + rax + 16]
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
-	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
-	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
-	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
-	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
-	LONG $0xecdb0f66                           // pand    xmm5, xmm4
-	LONG $0xea670f66                           // packuswb    xmm5, xmm2
-	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
-	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
-	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
-	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
-
-LBB2_984:
-	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
-	JE   LBB2_1069
-	JMP  LBB2_985
-
-LBB2_989:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_990:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_992
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB2_992:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_993
-
-LBB2_997:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_998:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1000
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB2_1000:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1001
-
-LBB2_1005:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1006:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1008
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
-
-LBB2_1008:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1009
-
-LBB2_1013:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1014:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1016
-	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
-
-LBB2_1016:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1017
-
-LBB2_1021:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1022:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1024
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_1024:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1025
-
-LBB2_1029:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1030:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1032
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_1032:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1033
-
-LBB2_1037:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1038:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1040
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_1040:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1041
-
-LBB2_1045:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1046:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1048
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB2_1048:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1049
-
-LBB2_1053:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1054:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1056
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
-
-LBB2_1056:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1057
-
-LBB2_1061:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_1062:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_1064
-	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
-
-LBB2_1064:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_1069
-	JMP  LBB2_1065
-
-DATA LCDATA4<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x008(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x010(SB)/8, $0x3ff0000000000000
-DATA LCDATA4<>+0x018(SB)/8, $0x3ff0000000000000
-DATA LCDATA4<>+0x020(SB)/8, $0x0000000100000001
-DATA LCDATA4<>+0x028(SB)/8, $0x0000000100000001
-DATA LCDATA4<>+0x030(SB)/8, $0x0000000000000001
-DATA LCDATA4<>+0x038(SB)/8, $0x0000000000000001
-DATA LCDATA4<>+0x040(SB)/8, $0x0001000100010001
-DATA LCDATA4<>+0x048(SB)/8, $0x0001000100010001
-DATA LCDATA4<>+0x050(SB)/8, $0x0101010101010101
-DATA LCDATA4<>+0x058(SB)/8, $0x0101010101010101
-DATA LCDATA4<>+0x060(SB)/8, $0x8000000080000000
-DATA LCDATA4<>+0x068(SB)/8, $0x8000000080000000
-DATA LCDATA4<>+0x070(SB)/8, $0x7fffffffffffffff
-DATA LCDATA4<>+0x078(SB)/8, $0x7fffffffffffffff
-DATA LCDATA4<>+0x080(SB)/8, $0x7fffffff7fffffff
-DATA LCDATA4<>+0x088(SB)/8, $0x7fffffff7fffffff
-DATA LCDATA4<>+0x090(SB)/8, $0x000000ff000000ff
-DATA LCDATA4<>+0x098(SB)/8, $0x000000ff000000ff
-DATA LCDATA4<>+0x0a0(SB)/8, $0x3ff0000000000000
-GLOBL LCDATA4<>(SB), 8, $168
-
-TEXT ·_arithmetic_unary_same_types_sse4(SB), $0-40
-
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ input+16(FP), DX
-	MOVQ output+24(FP), CX
-	MOVQ len+32(FP), R8
-	LEAQ LCDATA4<>(SB), BP
-
-	LONG $0x13fe8040         // cmp    sil, 19
-	JLE  LBB3_12
-	LONG $0x14fe8040         // cmp    sil, 20
-	JE   LBB3_22
-	LONG $0x19fe8040         // cmp    sil, 25
-	JE   LBB3_30
-	LONG $0x1afe8040         // cmp    sil, 26
-	JNE  LBB3_923
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_46
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_81
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_131
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_134
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB3_221
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_373
-
-LBB3_12:
-	LONG $0x04fe8040         // cmp    sil, 4
-	JE   LBB3_38
-	LONG $0x05fe8040         // cmp    sil, 5
-	JNE  LBB3_923
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_53
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_86
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_137
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_140
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_21
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_374
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_374
-
-LBB3_21:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_614:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_616
-
-LBB3_615:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_615
-
-LBB3_616:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_617:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_617
-	JMP  LBB3_923
-
-LBB3_22:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_60
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_91
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_143
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_146
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_29
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_377
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_377
-
-LBB3_29:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_622:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_624
-
-LBB3_623:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00b23c83         // cmp    dword [rdx + 4*rsi], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_623
-
-LBB3_624:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_625:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00b23c83             // cmp    dword [rdx + 4*rsi], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x04b27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 4], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x08b27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 8], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0cb27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 12], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_625
-	JMP  LBB3_923
-
-LBB3_30:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_67
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_96
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_149
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_152
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_37
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_380
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_380
-
-LBB3_37:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_536:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_538
-
-LBB3_537:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_537
-
-LBB3_538:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_539:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_539
-	JMP  LBB3_923
-
-LBB3_38:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_74
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_101
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_155
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_158
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_45
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_382
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_382
-
-LBB3_45:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_546:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_548
-
-LBB3_547:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_547
-
-LBB3_548:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_549:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_549
-	JMP  LBB3_923
-
-LBB3_46:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_106
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_161
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_164
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_52
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_384
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_384
-
-LBB3_52:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_630:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB3_633
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_632:
-	LONG $0x0c100ff2; BYTE $0xf2 // movsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc8570f66             // xorpd    xmm1, xmm0
-	LONG $0x0c130f66; BYTE $0xf1 // movlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_632
-
-LBB3_633:
-	LONG $0x03f88348             // cmp    rax, 3
-	JB   LBB3_923
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_635:
-	LONG $0x0c100ff2; BYTE $0xf2   // movsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x0c130f66; BYTE $0xf1   // movlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x4c100ff2; WORD $0x08f2 // movsd    xmm1, qword [rdx + 8*rsi + 8]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c130f66; WORD $0x08f1 // movlpd    qword [rcx + 8*rsi + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10f2 // movsd    xmm1, qword [rdx + 8*rsi + 16]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c130f66; WORD $0x10f1 // movlpd    qword [rcx + 8*rsi + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18f2 // movsd    xmm1, qword [rdx + 8*rsi + 24]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c130f66; WORD $0x18f1 // movlpd    qword [rcx + 8*rsi + 24], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_635
-	JMP  LBB3_923
-
-LBB3_53:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_111
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_167
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_170
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_59
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_387
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_387
-
-LBB3_59:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_640:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB3_643
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_642:
-	LONG $0x0c100ff2; BYTE $0xf2 // movsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc8570f66             // xorpd    xmm1, xmm0
-	LONG $0x0c130f66; BYTE $0xf1 // movlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_642
-
-LBB3_643:
-	LONG $0x03f88348             // cmp    rax, 3
-	JB   LBB3_923
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_645:
-	LONG $0x0c100ff2; BYTE $0xf2   // movsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x0c130f66; BYTE $0xf1   // movlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x4c100ff2; WORD $0x08f2 // movsd    xmm1, qword [rdx + 8*rsi + 8]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c130f66; WORD $0x08f1 // movlpd    qword [rcx + 8*rsi + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10f2 // movsd    xmm1, qword [rdx + 8*rsi + 16]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c130f66; WORD $0x10f1 // movlpd    qword [rcx + 8*rsi + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18f2 // movsd    xmm1, qword [rdx + 8*rsi + 24]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c130f66; WORD $0x18f1 // movlpd    qword [rcx + 8*rsi + 24], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_645
-	JMP  LBB3_923
-
-LBB3_60:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_116
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_173
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_176
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_66
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_390
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_390
-
-LBB3_66:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_650:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB3_652
-	LONG $0x04100ff2; BYTE $0xf2 // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0xc8540f66             // andpd    xmm1, xmm0
-	QUAD $0x000000a095100ff2     // movsd    xmm2, qword 160[rbp] /* [rip + .LCPI3_2] */
-	LONG $0xd1560f66             // orpd    xmm2, xmm1
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0xc8c20ff2; BYTE $0x00 // cmpeqsd    xmm1, xmm0
-	LONG $0xca550f66             // andnpd    xmm1, xmm2
-	LONG $0x0c130f66; BYTE $0xf1 // movlpd    qword [rcx + 8*rsi], xmm1
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_652:
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	JE   LBB3_923
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-	QUAD $0x000000a08d100ff2     // movsd    xmm1, qword 160[rbp] /* [rip + .LCPI3_2] */
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-
-LBB3_654:
-	LONG $0x1c100ff2; BYTE $0xf2   // movsd    xmm3, qword [rdx + 8*rsi]
-	LONG $0xe3280f66               // movapd    xmm4, xmm3
-	LONG $0xe0540f66               // andpd    xmm4, xmm0
-	LONG $0xe1560f66               // orpd    xmm4, xmm1
-	LONG $0xdac20ff2; BYTE $0x00   // cmpeqsd    xmm3, xmm2
-	LONG $0xdc550f66               // andnpd    xmm3, xmm4
-	LONG $0x1c130f66; BYTE $0xf1   // movlpd    qword [rcx + 8*rsi], xmm3
-	LONG $0x5c100ff2; WORD $0x08f2 // movsd    xmm3, qword [rdx + 8*rsi + 8]
-	LONG $0xe3280f66               // movapd    xmm4, xmm3
-	LONG $0xe0540f66               // andpd    xmm4, xmm0
-	LONG $0xe1560f66               // orpd    xmm4, xmm1
-	LONG $0xdac20ff2; BYTE $0x00   // cmpeqsd    xmm3, xmm2
-	LONG $0xdc550f66               // andnpd    xmm3, xmm4
-	LONG $0x5c130f66; WORD $0x08f1 // movlpd    qword [rcx + 8*rsi + 8], xmm3
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_654
-	JMP  LBB3_923
-
-LBB3_67:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_121
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_179
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_182
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_73
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_393
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_393
-
-LBB3_73:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_659:
-	QUAD $0xffffffffffffba49; WORD $0x7fff // mov    r10, 9223372036854775807
-	WORD $0x8949; BYTE $0xf0               // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0               // not    r8
-	WORD $0x014d; BYTE $0xc8               // add    r8, r9
-	WORD $0x894c; BYTE $0xc8               // mov    rax, r9
-	LONG $0x03e08348                       // and    rax, 3
-	JE   LBB3_661
-
-LBB3_660:
-	LONG $0xf23c8b48         // mov    rdi, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd7 // and    rdi, r10
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB3_660
-
-LBB3_661:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_662:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_662
-	JMP  LBB3_923
-
-LBB3_74:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_126
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_185
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_188
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_80
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_396
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_396
-
-LBB3_80:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_667:
-	QUAD $0xffffffffffffba49; WORD $0x7fff // mov    r10, 9223372036854775807
-	WORD $0x8949; BYTE $0xf0               // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0               // not    r8
-	WORD $0x014d; BYTE $0xc8               // add    r8, r9
-	WORD $0x894c; BYTE $0xc8               // mov    rax, r9
-	LONG $0x03e08348                       // and    rax, 3
-	JE   LBB3_669
-
-LBB3_668:
-	LONG $0xf23c8b48         // mov    rdi, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd7 // and    rdi, r10
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB3_668
-
-LBB3_669:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_670:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x214c; BYTE $0xd0     // and    rax, r10
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_670
-	JMP  LBB3_923
-
-LBB3_81:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_191
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_85
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_399
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_399
-
-LBB3_85:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_675:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_677
-
-LBB3_676:
-	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_676
-
-LBB3_677:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_678:
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x2840; BYTE $0xc7     // sub    dil, al
-	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_678
-	JMP  LBB3_923
-
-LBB3_86:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_194
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_90
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_402
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_402
-
-LBB3_90:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_683:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_685
-
-LBB3_684:
-	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_684
-
-LBB3_685:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_686:
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x2840; BYTE $0xc7     // sub    dil, al
-	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_686
-	JMP  LBB3_923
-
-LBB3_91:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_197
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_95
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_405
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_405
-
-LBB3_95:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_691:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB3_693
-	LONG $0x323c8a40             // mov    dil, byte [rdx + rsi]
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xd0950f41             // setne    r8b
-	WORD $0xf641; BYTE $0xd8     // neg    r8b
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xc0b60f45             // movzx    r8d, r8b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf84e0f41             // cmovle    edi, r8d
-	LONG $0x313c8840             // mov    byte [rcx + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_693:
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	JE   LBB3_923
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-
-LBB3_695:
-	LONG $0x04b60f44; BYTE $0x32   // movzx    r8d, byte [rdx + rsi]
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc7       // cmovg    eax, edi
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x44b60f44; WORD $0x0132 // movzx    r8d, byte [rdx + rsi + 1]
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x4f0f; BYTE $0xc7       // cmovg    eax, edi
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_695
-	JMP  LBB3_923
-
-LBB3_96:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_200
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_100
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_408
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_408
-
-LBB3_100:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_700:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_702
-	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x07f8c141         // sar    r8d, 7
-	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
-	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
-	LONG $0x313c8840         // mov    byte [rcx + rsi], dil
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_702:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_703:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_703
-	JMP  LBB3_923
-
-LBB3_101:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_203
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_105
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_411
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_411
-
-LBB3_105:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_708:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_710
-	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x07f8c141         // sar    r8d, 7
-	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
-	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
-	LONG $0x313c8840         // mov    byte [rcx + rsi], dil
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_710:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_711:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_711
-	JMP  LBB3_923
-
-LBB3_106:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_206
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB3_265
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_420
-
-LBB3_111:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_209
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_115
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_421
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_421
-
-LBB3_115:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_716:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_718
-
-LBB3_717:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_717
-
-LBB3_718:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_719:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_719
-	JMP  LBB3_923
-
-LBB3_116:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_212
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_120
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_424
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_424
-
-LBB3_120:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_724:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_726
-
-LBB3_725:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf23c8348; BYTE $0x00 // cmp    qword [rdx + 8*rsi], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_725
-
-LBB3_726:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_727:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf23c8348; BYTE $0x00   // cmp    qword [rdx + 8*rsi], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf27c8348; WORD $0x0008 // cmp    qword [rdx + 8*rsi + 8], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf27c8348; WORD $0x0010 // cmp    qword [rdx + 8*rsi + 16], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xf27c8348; WORD $0x0018 // cmp    qword [rdx + 8*rsi + 24], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_727
-	JMP  LBB3_923
-
-LBB3_121:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_215
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_125
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_427
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_427
-
-LBB3_125:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_556:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_558
-
-LBB3_557:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_557
-
-LBB3_558:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_559:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_559
-	JMP  LBB3_923
-
-LBB3_126:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_218
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_923
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_130
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_429
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_429
-
-LBB3_130:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_566:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_568
-
-LBB3_567:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_567
-
-LBB3_568:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_569:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_569
-	JMP  LBB3_923
-
-LBB3_131:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB3_279
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_437
-
-LBB3_134:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_136
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_438
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_438
-
-LBB3_136:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_732:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_734
-
-LBB3_733:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x72042b66 // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_733
-
-LBB3_734:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_735:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_735
-	JMP  LBB3_923
-
-LBB3_137:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_139
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_441
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_441
-
-LBB3_139:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_740:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_742
-
-LBB3_741:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x72042b66 // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_741
-
-LBB3_742:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_743:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_743
-	JMP  LBB3_923
-
-LBB3_140:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_142
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_444
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_444
-
-LBB3_142:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_748:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_750
-
-LBB3_749:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x72042b66 // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_749
-
-LBB3_750:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_751:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_751
-	JMP  LBB3_923
-
-LBB3_143:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_145
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_447
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_447
-
-LBB3_145:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_756:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_758
-
-LBB3_757:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x723c8366; BYTE $0x00 // cmp    word [rdx + 2*rsi], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_757
-
-LBB3_758:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_759:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x723c8366; BYTE $0x00   // cmp    word [rdx + 2*rsi], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71048966               // mov    word [rcx + 2*rsi], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x727c8366; WORD $0x0002 // cmp    word [rdx + 2*rsi + 2], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71448966; BYTE $0x02   // mov    word [rcx + 2*rsi + 2], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x727c8366; WORD $0x0004 // cmp    word [rdx + 2*rsi + 4], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71448966; BYTE $0x04   // mov    word [rcx + 2*rsi + 4], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x727c8366; WORD $0x0006 // cmp    word [rdx + 2*rsi + 6], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x71448966; BYTE $0x06   // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_759
-	JMP  LBB3_923
-
-LBB3_146:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_148
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_450
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_450
-
-LBB3_148:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_764:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB3_766
-	LONG $0x04b70f44; BYTE $0x72 // movzx    r8d, word [rdx + 2*rsi]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	LONG $0xc0854566             // test    r8w, r8w
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	LONG $0xc0854566             // test    r8w, r8w
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x713c8966             // mov    word [rcx + 2*rsi], di
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_766:
-	WORD $0x014c; BYTE $0xc8       // add    rax, r9
-	JE   LBB3_923
-	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
-
-LBB3_768:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xc04f0f41             // cmovg    eax, r8d
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	LONG $0xf84f0f41             // cmovg    edi, r8d
-	LONG $0x717c8966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], di
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_768
-	JMP  LBB3_923
-
-LBB3_149:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_151
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_453
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_453
-
-LBB3_151:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_576:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_578
-
-LBB3_577:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_577
-
-LBB3_578:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_579:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_579
-	JMP  LBB3_923
-
-LBB3_152:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_154
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_455
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_455
-
-LBB3_154:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_773:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_775
-	LONG $0x723cbf0f         // movsx    edi, word [rdx + 2*rsi]
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x0ff8c141         // sar    r8d, 15
-	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
-	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
-	LONG $0x713c8966         // mov    word [rcx + 2*rsi], di
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_775:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_776:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244bf0f; BYTE $0x02 // movsx    eax, word [rdx + 2*rsi + 2]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_776
-	JMP  LBB3_923
-
-LBB3_155:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB3_157
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_458
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_458
-
-LBB3_157:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_586:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_588
-
-LBB3_587:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_587
-
-LBB3_588:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_589:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_589
-	JMP  LBB3_923
-
-LBB3_158:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_160
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_460
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_460
-
-LBB3_160:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_781:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_783
-	LONG $0x723cbf0f         // movsx    edi, word [rdx + 2*rsi]
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x0ff8c141         // sar    r8d, 15
-	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
-	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
-	LONG $0x713c8966         // mov    word [rcx + 2*rsi], di
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_783:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_784:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244bf0f; BYTE $0x02 // movsx    eax, word [rdx + 2*rsi + 2]
-	WORD $0xc789                 // mov    edi, eax
-	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
-	WORD $0xf801                 // add    eax, edi
-	WORD $0xf831                 // xor    eax, edi
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_784
-	JMP  LBB3_923
-
-LBB3_161:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_163
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_463
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_463
-
-LBB3_163:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_789:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_791
-
-LBB3_790:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_790
-
-LBB3_791:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_792:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_792
-	JMP  LBB3_923
-
-LBB3_164:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_166
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_466
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_466
-
-LBB3_166:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_797:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB3_800
-	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_799:
-	LONG $0x0c100ff3; BYTE $0xb2 // movss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc8570f66             // xorpd    xmm1, xmm0
-	LONG $0x0c110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_799
-
-LBB3_800:
-	LONG $0x03f88348             // cmp    rax, 3
-	JB   LBB3_923
-	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_802:
-	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x0c110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm1
-	LONG $0x4c100ff3; WORD $0x04b2 // movss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x08b2 // movss    xmm1, dword [rdx + 4*rsi + 8]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c110ff3; WORD $0x08b1 // movss    dword [rcx + 4*rsi + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0cb2 // movss    xmm1, dword [rdx + 4*rsi + 12]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c110ff3; WORD $0x0cb1 // movss    dword [rcx + 4*rsi + 12], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_802
-	JMP  LBB3_923
-
-LBB3_167:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_169
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_469
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_469
-
-LBB3_169:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_807:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_809
-
-LBB3_808:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_808
-
-LBB3_809:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_810:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_810
-	JMP  LBB3_923
-
-LBB3_170:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_172
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_472
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_472
-
-LBB3_172:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_815:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	WORD $0x014c; BYTE $0xc8     // add    rax, r9
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03e78348             // and    rdi, 3
-	JE   LBB3_818
-	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_817:
-	LONG $0x0c100ff3; BYTE $0xb2 // movss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc8570f66             // xorpd    xmm1, xmm0
-	LONG $0x0c110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_817
-
-LBB3_818:
-	LONG $0x03f88348             // cmp    rax, 3
-	JB   LBB3_923
-	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_820:
-	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x0c110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm1
-	LONG $0x4c100ff3; WORD $0x04b2 // movss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x08b2 // movss    xmm1, dword [rdx + 4*rsi + 8]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c110ff3; WORD $0x08b1 // movss    dword [rcx + 4*rsi + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0cb2 // movss    xmm1, dword [rdx + 4*rsi + 12]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0x4c110ff3; WORD $0x0cb1 // movss    dword [rcx + 4*rsi + 12], xmm1
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB3_820
-	JMP  LBB3_923
-
-LBB3_173:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_175
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_475
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_475
-
-LBB3_175:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_825:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB3_827
-	LONG $0xf2048b4c             // mov    r8, qword [rdx + 8*rsi]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x854d; BYTE $0xc0     // test    r8, r8
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x854d; BYTE $0xc0     // test    r8, r8
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_827:
-	WORD $0x014c; BYTE $0xc8       // add    rax, r9
-	JE   LBB3_923
-	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
-
-LBB3_829:
-	LONG $0xf23c8b48             // mov    rdi, qword [rdx + 8*rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc04f0f49             // cmovg    rax, r8
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf84f0f49             // cmovg    rdi, r8
-	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_829
-	JMP  LBB3_923
-
-LBB3_176:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_178
-	LONG $0x82348d48         // lea    rsi, [rdx + 4*rax]
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	JBE  LBB3_478
-	LONG $0x81348d48         // lea    rsi, [rcx + 4*rax]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	JBE  LBB3_478
-
-LBB3_178:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_481:
-	WORD $0x8949; BYTE $0xf0     // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0     // not    r8
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB3_483
-	LONG $0x04100ff3; BYTE $0xb2 // movss    xmm0, dword [rdx + 4*rsi]
-	WORD $0x500f; BYTE $0xf8     // movmskps    edi, xmm0
-	WORD $0xe783; BYTE $0x01     // and    edi, 1
-	WORD $0xdff7                 // neg    edi
-	WORD $0xcf83; BYTE $0x01     // or    edi, 1
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0xcf2a0ff3             // cvtsi2ss    xmm1, edi
-	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
-	LONG $0xd0c20ff3; BYTE $0x00 // cmpeqss    xmm2, xmm0
-	WORD $0x550f; BYTE $0xd1     // andnps    xmm2, xmm1
-	LONG $0x14110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm2
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_483:
-	WORD $0x0149; BYTE $0xc0 // add    r8, rax
-	JE   LBB3_923
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-
-LBB3_485:
-	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
-	WORD $0x500f; BYTE $0xf9       // movmskps    edi, xmm1
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	WORD $0x570f; BYTE $0xd2       // xorps    xmm2, xmm2
-	LONG $0xd72a0ff3               // cvtsi2ss    xmm2, edi
-	LONG $0xc8c20ff3; BYTE $0x00   // cmpeqss    xmm1, xmm0
-	WORD $0x550f; BYTE $0xca       // andnps    xmm1, xmm2
-	LONG $0x0c110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm1
-	LONG $0x4c100ff3; WORD $0x04b2 // movss    xmm1, dword [rdx + 4*rsi + 4]
-	WORD $0x500f; BYTE $0xf9       // movmskps    edi, xmm1
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	WORD $0x570f; BYTE $0xd2       // xorps    xmm2, xmm2
-	LONG $0xd72a0ff3               // cvtsi2ss    xmm2, edi
-	LONG $0xc8c20ff3; BYTE $0x00   // cmpeqss    xmm1, xmm0
-	WORD $0x550f; BYTE $0xca       // andnps    xmm1, xmm2
-	LONG $0x4c110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm1
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
-	JNE  LBB3_485
-	JMP  LBB3_923
-
-LBB3_179:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_181
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_486
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_486
-
-LBB3_181:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_834:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_836
-	LONG $0xf2048b4c         // mov    r8, qword [rdx + 8*rsi]
-	WORD $0x894c; BYTE $0xc7 // mov    rdi, r8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	LONG $0xf84c0f49         // cmovl    rdi, r8
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_836:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_837:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_837
-	JMP  LBB3_923
-
-LBB3_182:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_184
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_489
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_489
-
-LBB3_184:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_842:
-	WORD $0x8949; BYTE $0xf0       // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0       // not    r8
-	WORD $0x014d; BYTE $0xc8       // add    r8, r9
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03e78348               // and    rdi, 3
-	JE   LBB3_845
-	LONG $0xffffba41; WORD $0x7fff // mov    r10d, 2147483647
-
-LBB3_844:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2144; BYTE $0xd0 // and    eax, r10d
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_844
-
-LBB3_845:
-	LONG $0x03f88349             // cmp    r8, 3
-	JB   LBB3_923
-	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
-
-LBB3_847:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0xc721             // and    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b27c8b         // mov    edi, dword [rdx + 4*rsi + 4]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x08b27c8b         // mov    edi, dword [rdx + 4*rsi + 8]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x08b17c89         // mov    dword [rcx + 4*rsi + 8], edi
-	LONG $0x0cb27c8b         // mov    edi, dword [rdx + 4*rsi + 12]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x0cb17c89         // mov    dword [rcx + 4*rsi + 12], edi
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_847
-	JMP  LBB3_923
-
-LBB3_185:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB3_187
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_492
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_492
-
-LBB3_187:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_852:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_854
-	LONG $0xf2048b4c         // mov    r8, qword [rdx + 8*rsi]
-	WORD $0x894c; BYTE $0xc7 // mov    rdi, r8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	LONG $0xf84c0f49         // cmovl    rdi, r8
-	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_854:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_855:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	LONG $0xf84c0f48             // cmovl    rdi, rax
-	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_855
-	JMP  LBB3_923
-
-LBB3_188:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_190
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_495
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_495
-
-LBB3_190:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_860:
-	WORD $0x8949; BYTE $0xf0       // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0       // not    r8
-	WORD $0x014d; BYTE $0xc8       // add    r8, r9
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03e78348               // and    rdi, 3
-	JE   LBB3_863
-	LONG $0xffffba41; WORD $0x7fff // mov    r10d, 2147483647
-
-LBB3_862:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2144; BYTE $0xd0 // and    eax, r10d
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_862
-
-LBB3_863:
-	LONG $0x03f88349             // cmp    r8, 3
-	JB   LBB3_923
-	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
-
-LBB3_865:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0xc721             // and    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b27c8b         // mov    edi, dword [rdx + 4*rsi + 4]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x08b27c8b         // mov    edi, dword [rdx + 4*rsi + 8]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x08b17c89         // mov    dword [rcx + 4*rsi + 8], edi
-	LONG $0x0cb27c8b         // mov    edi, dword [rdx + 4*rsi + 12]
-	WORD $0xc721             // and    edi, eax
-	LONG $0x0cb17c89         // mov    dword [rcx + 4*rsi + 12], edi
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_865
-	JMP  LBB3_923
-
-LBB3_191:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB3_338
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB3_504
-
-LBB3_194:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_196
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_505
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_505
-
-LBB3_196:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_870:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_872
-
-LBB3_871:
-	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB3_871
-
-LBB3_872:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_873:
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x2840; BYTE $0xc7     // sub    dil, al
-	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_873
-	JMP  LBB3_923
-
-LBB3_197:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_199
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_508
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_508
-
-LBB3_199:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_878:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_880
-
-LBB3_879:
-	LONG $0x00323c80 // cmp    byte [rdx + rsi], 0
-	LONG $0x3114950f // setne    byte [rcx + rsi]
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB3_879
-
-LBB3_880:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB3_923
-
-LBB3_881:
-	LONG $0x00323c80             // cmp    byte [rdx + rsi], 0
-	LONG $0x3114950f             // setne    byte [rcx + rsi]
-	LONG $0x01327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 1], 0
-	LONG $0x3154950f; BYTE $0x01 // setne    byte [rcx + rsi + 1]
-	LONG $0x02327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 2], 0
-	LONG $0x3154950f; BYTE $0x02 // setne    byte [rcx + rsi + 2]
-	LONG $0x03327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 3], 0
-	LONG $0x3154950f; BYTE $0x03 // setne    byte [rcx + rsi + 3]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_881
-	JMP  LBB3_923
-
-LBB3_200:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_202
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_511
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_511
-
-LBB3_202:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_596:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_598
-
-LBB3_597:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_597
-
-LBB3_598:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_599:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_599
-	JMP  LBB3_923
-
-LBB3_203:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB3_205
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_513
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_513
-
-LBB3_205:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_606:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_608
-
-LBB3_607:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_607
-
-LBB3_608:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_609:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB3_609
-	JMP  LBB3_923
-
-LBB3_206:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_208
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_515
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_515
-
-LBB3_208:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_886:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_888
-
-LBB3_887:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_887
-
-LBB3_888:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_889:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_889
-	JMP  LBB3_923
-
-LBB3_209:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_211
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_518
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_518
-
-LBB3_211:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_894:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB3_896
-
-LBB3_895:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB3_895
-
-LBB3_896:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB3_923
-
-LBB3_897:
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_897
-	JMP  LBB3_923
-
-LBB3_212:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_214
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_521
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_521
-
-LBB3_214:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_902:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB3_904
-	LONG $0xb2048b44             // mov    r8d, dword [rdx + 4*rsi]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8545; BYTE $0xc0     // test    r8d, r8d
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8545; BYTE $0xc0     // test    r8d, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	WORD $0x3c89; BYTE $0xb1     // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB3_904:
-	WORD $0x014c; BYTE $0xc8       // add    rax, r9
-	JE   LBB3_923
-	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
-
-LBB3_906:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0xff85             // test    edi, edi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0xff85             // test    edi, edi
-	LONG $0xc04f0f41         // cmovg    eax, r8d
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0xff31             // xor    edi, edi
-	WORD $0xc085             // test    eax, eax
-	LONG $0xd7950f40         // setne    dil
-	WORD $0xdff7             // neg    edi
-	WORD $0xc085             // test    eax, eax
-	LONG $0xf84f0f41         // cmovg    edi, r8d
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x02c68348         // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_906
-	JMP  LBB3_923
-
-LBB3_215:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_217
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_524
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_524
-
-LBB3_217:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_911:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_913
-	LONG $0xb2048b44         // mov    r8d, dword [rdx + 4*rsi]
-	WORD $0x8944; BYTE $0xc7 // mov    edi, r8d
-	WORD $0xdff7             // neg    edi
-	LONG $0xf84c0f41         // cmovl    edi, r8d
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_913:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_914:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x02c68348         // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_914
-	JMP  LBB3_923
-
-LBB3_218:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB3_923
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB3_220
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB3_527
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB3_527
-
-LBB3_220:
-	WORD $0xf631 // xor    esi, esi
-
-LBB3_919:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_921
-	LONG $0xb2048b44         // mov    r8d, dword [rdx + 4*rsi]
-	WORD $0x8944; BYTE $0xc7 // mov    edi, r8d
-	WORD $0xdff7             // neg    edi
-	LONG $0xf84c0f41         // cmovl    edi, r8d
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01ce8348         // or    rsi, 1
-
-LBB3_921:
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	JE   LBB3_923
-
-LBB3_922:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0xc789             // mov    edi, eax
-	WORD $0xdff7             // neg    edi
-	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
-	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
-	LONG $0x02c68348         // add    rsi, 2
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB3_922
-	JMP  LBB3_923
-
-LBB3_221:
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8428d48         // lea    rax, [rdx - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0xfe89             // mov    esi, edi
-	WORD $0xe683; BYTE $0x07 // and    esi, 7
-	LONG $0x38f88348         // cmp    rax, 56
-	JAE  LBB3_367
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_369
-
-LBB3_265:
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc428d48         // lea    rax, [rdx - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0xfe89             // mov    esi, edi
-	WORD $0xe683; BYTE $0x07 // and    esi, 7
-	LONG $0x1cf88348         // cmp    rax, 28
-	JAE  LBB3_414
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_416
-
-LBB3_279:
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0428d48         // lea    rax, [rdx - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0xfe89             // mov    esi, edi
-	WORD $0xe683; BYTE $0x07 // and    esi, 7
-	LONG $0x70f88348         // cmp    rax, 112
-	JAE  LBB3_431
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_433
-
-LBB3_338:
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	WORD $0xe283; BYTE $0xe0       // and    edx, -32
-	LONG $0xe0428d48               // lea    rax, [rdx - 32]
-	WORD $0x8948; BYTE $0xc7       // mov    rdi, rax
-	LONG $0x05efc148               // shr    rdi, 5
-	LONG $0x01c78348               // add    rdi, 1
-	WORD $0xfe89                   // mov    esi, edi
-	WORD $0xe683; BYTE $0x07       // and    esi, 7
-	LONG $0x00e03d48; WORD $0x0000 // cmp    rax, 224
-	JAE  LBB3_498
-	WORD $0xc031                   // xor    eax, eax
-	JMP  LBB3_500
-
-LBB3_374:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_610
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_376:
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_376
-	JMP  LBB3_611
-
-LBB3_377:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x03e8c149             // shr    r8, 3
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_618
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x20 // movdqa    xmm1, oword 32[rbp] /* [rip + .LCPI3_3] */
-
-LBB3_379:
-	LONG $0x146f0ff3; BYTE $0xba   // movdqu    xmm2, oword [rdx + 4*rdi]
-	LONG $0x5c6f0ff3; WORD $0x10ba // movdqu    xmm3, oword [rdx + 4*rdi + 16]
-	LONG $0xd0760f66               // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0xd8760f66               // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x147f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm2
-	LONG $0x5c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20ba // movdqu    xmm2, oword [rdx + 4*rdi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30ba // movdqu    xmm3, oword [rdx + 4*rdi + 48]
-	LONG $0xd0760f66               // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0xd8760f66               // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x547f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c7f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm3
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_379
-	JMP  LBB3_619
-
-LBB3_380:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB3_530
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_532
-
-LBB3_382:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB3_540
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_542
-
-LBB3_384:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_626
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_386:
-	LONG $0x0c100f66; BYTE $0xfa   // movupd    xmm1, oword [rdx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10fa // movupd    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20fa // movupd    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x54100f66; WORD $0x30fa // movupd    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_386
-	JMP  LBB3_627
-
-LBB3_387:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_636
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
-
-LBB3_389:
-	LONG $0x0c100f66; BYTE $0xfa   // movupd    xmm1, oword [rdx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10fa // movupd    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20fa // movupd    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x54100f66; WORD $0x30fa // movupd    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_389
-	JMP  LBB3_637
-
-LBB3_390:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_646
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI3_1] */
-
-LBB3_392:
-	LONG $0x1c100f66; BYTE $0xfa   // movupd    xmm3, oword [rdx + 8*rdi]
-	LONG $0x64100f66; WORD $0x10fa // movupd    xmm4, oword [rdx + 8*rdi + 16]
-	LONG $0xeb280f66               // movapd    xmm5, xmm3
-	LONG $0xe9540f66               // andpd    xmm5, xmm1
-	LONG $0xea560f66               // orpd    xmm5, xmm2
-	LONG $0xf4280f66               // movapd    xmm6, xmm4
-	LONG $0xf1540f66               // andpd    xmm6, xmm1
-	LONG $0xf2560f66               // orpd    xmm6, xmm2
-	LONG $0xd8c20f66; BYTE $0x04   // cmpneqpd    xmm3, xmm0
-	LONG $0xdd540f66               // andpd    xmm3, xmm5
-	LONG $0xe0c20f66; BYTE $0x04   // cmpneqpd    xmm4, xmm0
-	LONG $0xe6540f66               // andpd    xmm4, xmm6
-	LONG $0x1c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm3
-	LONG $0x64110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm4
-	LONG $0x5c100f66; WORD $0x20fa // movupd    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x64100f66; WORD $0x30fa // movupd    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0xeb280f66               // movapd    xmm5, xmm3
-	LONG $0xe9540f66               // andpd    xmm5, xmm1
-	LONG $0xea560f66               // orpd    xmm5, xmm2
-	LONG $0xf4280f66               // movapd    xmm6, xmm4
-	LONG $0xf1540f66               // andpd    xmm6, xmm1
-	LONG $0xf2560f66               // orpd    xmm6, xmm2
-	LONG $0xd8c20f66; BYTE $0x04   // cmpneqpd    xmm3, xmm0
-	LONG $0xdd540f66               // andpd    xmm3, xmm5
-	LONG $0xe0c20f66; BYTE $0x04   // cmpneqpd    xmm4, xmm0
-	LONG $0xe6540f66               // andpd    xmm4, xmm6
-	LONG $0x5c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x64110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm4
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_392
-	JMP  LBB3_647
-
-LBB3_393:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_655
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x45280f66; BYTE $0x70 // movapd    xmm0, oword 112[rbp] /* [rip + .LCPI3_8] */
-
-LBB3_395:
-	LONG $0x0c100f66; BYTE $0xfa   // movupd    xmm1, oword [rdx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10fa // movupd    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20fa // movupd    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x54100f66; WORD $0x30fa // movupd    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_395
-	JMP  LBB3_656
-
-LBB3_396:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_663
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x45280f66; BYTE $0x70 // movapd    xmm0, oword 112[rbp] /* [rip + .LCPI3_8] */
-
-LBB3_398:
-	LONG $0x0c100f66; BYTE $0xfa   // movupd    xmm1, oword [rdx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10fa // movupd    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20fa // movupd    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x54100f66; WORD $0x30fa // movupd    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_398
-	JMP  LBB3_664
-
-LBB3_399:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_671
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_401:
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f80f66               // psubb    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f80f66               // psubb    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f80f66               // psubb    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f80f66               // psubb    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm0
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_401
-	JMP  LBB3_672
-
-LBB3_402:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_679
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_404:
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f80f66               // psubb    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f80f66               // psubb    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f80f66               // psubb    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f80f66               // psubb    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm0
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_404
-	JMP  LBB3_680
-
-LBB3_405:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_687
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x50 // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI3_6] */
-
-LBB3_407:
-	LONG $0x2c6f0ff3; BYTE $0x3a   // movdqu    xmm5, oword [rdx + rdi]
-	LONG $0x746f0ff3; WORD $0x103a // movdqu    xmm6, oword [rdx + rdi + 16]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5640f66               // pcmpgtb    xmm0, xmm5
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce640f66               // pcmpgtb    xmm1, xmm6
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd   // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x3c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm7
-	LONG $0x6c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x203a // movdqu    xmm5, oword [rdx + rdi + 32]
-	LONG $0x746f0ff3; WORD $0x303a // movdqu    xmm6, oword [rdx + rdi + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5640f66               // pcmpgtb    xmm0, xmm5
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce640f66               // pcmpgtb    xmm1, xmm6
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd   // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7c7f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm7
-	LONG $0x6c7f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm5
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_407
-	JMP  LBB3_688
-
-LBB3_408:
-	WORD $0x8944; BYTE $0xce             // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0             // and    esi, -16
-	LONG $0xf0468d48                     // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0             // mov    r8, rax
-	LONG $0x04e8c149                     // shr    r8, 4
-	LONG $0x01c08349                     // add    r8, 1
-	WORD $0x8548; BYTE $0xc0             // test    rax, rax
-	JE   LBB3_696
-	WORD $0x894c; BYTE $0xc0             // mov    rax, r8
-	LONG $0xfee08348                     // and    rax, -2
-	WORD $0xf748; BYTE $0xd8             // neg    rax
-	WORD $0xff31                         // xor    edi, edi
-	QUAD $0x000090856f0f4466; BYTE $0x00 // movdqa    xmm8, oword 144[rbp] /* [rip + .LCPI3_10] */
-
-LBB3_410:
-	LONG $0x21380f66; WORD $0x3a64; BYTE $0x0c // pmovsxbd    xmm4, dword [rdx + rdi + 12]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbd    xmm1, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x04 // pmovsxbd    xmm3, dword [rdx + rdi + 4]
-	LONG $0x21380f66; WORD $0x3a14             // pmovsxbd    xmm2, dword [rdx + rdi]
-	LONG $0xea6f0f66                           // movdqa    xmm5, xmm2
-	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
-	LONG $0xf36f0f66                           // movdqa    xmm6, xmm3
-	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xe0720f66; BYTE $0x07               // psrad    xmm0, 7
-	LONG $0xe0fe0f66                           // paddd    xmm4, xmm0
-	LONG $0xcffe0f66                           // paddd    xmm1, xmm7
-	LONG $0xdefe0f66                           // paddd    xmm3, xmm6
-	LONG $0xd5fe0f66                           // paddd    xmm2, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xdeef0f66                           // pxor    xmm3, xmm6
-	LONG $0xcfef0f66                           // pxor    xmm1, xmm7
-	LONG $0xe0ef0f66                           // pxor    xmm4, xmm0
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0x2b380f66; BYTE $0xcc               // packusdw    xmm1, xmm4
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0x2b380f66; BYTE $0xd3               // packusdw    xmm2, xmm3
-	LONG $0xd1670f66                           // packuswb    xmm2, xmm1
-	LONG $0x147f0ff3; BYTE $0x39               // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x21380f66; WORD $0x3a64; BYTE $0x1c // pmovsxbd    xmm4, dword [rdx + rdi + 28]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x18 // pmovsxbd    xmm1, dword [rdx + rdi + 24]
-	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x14 // pmovsxbd    xmm3, dword [rdx + rdi + 20]
-	LONG $0x21380f66; WORD $0x3a54; BYTE $0x10 // pmovsxbd    xmm2, dword [rdx + rdi + 16]
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xe0720f66; BYTE $0x07               // psrad    xmm0, 7
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
-	LONG $0xf16f0f66                           // movdqa    xmm6, xmm1
-	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
-	LONG $0xe7fe0f66                           // paddd    xmm4, xmm7
-	LONG $0xcefe0f66                           // paddd    xmm1, xmm6
-	LONG $0xddfe0f66                           // paddd    xmm3, xmm5
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0xd0ef0f66                           // pxor    xmm2, xmm0
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xceef0f66                           // pxor    xmm1, xmm6
-	LONG $0xe7ef0f66                           // pxor    xmm4, xmm7
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0x2b380f66; BYTE $0xcc               // packusdw    xmm1, xmm4
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0x2b380f66; BYTE $0xd3               // packusdw    xmm2, xmm3
-	LONG $0xd1670f66                           // packuswb    xmm2, xmm1
-	LONG $0x547f0ff3; WORD $0x1039             // movdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_410
-	JMP  LBB3_697
-
-LBB3_411:
-	WORD $0x8944; BYTE $0xce             // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0             // and    esi, -16
-	LONG $0xf0468d48                     // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0             // mov    r8, rax
-	LONG $0x04e8c149                     // shr    r8, 4
-	LONG $0x01c08349                     // add    r8, 1
-	WORD $0x8548; BYTE $0xc0             // test    rax, rax
-	JE   LBB3_704
-	WORD $0x894c; BYTE $0xc0             // mov    rax, r8
-	LONG $0xfee08348                     // and    rax, -2
-	WORD $0xf748; BYTE $0xd8             // neg    rax
-	WORD $0xff31                         // xor    edi, edi
-	QUAD $0x000090856f0f4466; BYTE $0x00 // movdqa    xmm8, oword 144[rbp] /* [rip + .LCPI3_10] */
-
-LBB3_413:
-	LONG $0x21380f66; WORD $0x3a64; BYTE $0x0c // pmovsxbd    xmm4, dword [rdx + rdi + 12]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbd    xmm1, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x04 // pmovsxbd    xmm3, dword [rdx + rdi + 4]
-	LONG $0x21380f66; WORD $0x3a14             // pmovsxbd    xmm2, dword [rdx + rdi]
-	LONG $0xea6f0f66                           // movdqa    xmm5, xmm2
-	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
-	LONG $0xf36f0f66                           // movdqa    xmm6, xmm3
-	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xe0720f66; BYTE $0x07               // psrad    xmm0, 7
-	LONG $0xe0fe0f66                           // paddd    xmm4, xmm0
-	LONG $0xcffe0f66                           // paddd    xmm1, xmm7
-	LONG $0xdefe0f66                           // paddd    xmm3, xmm6
-	LONG $0xd5fe0f66                           // paddd    xmm2, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xdeef0f66                           // pxor    xmm3, xmm6
-	LONG $0xcfef0f66                           // pxor    xmm1, xmm7
-	LONG $0xe0ef0f66                           // pxor    xmm4, xmm0
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0x2b380f66; BYTE $0xcc               // packusdw    xmm1, xmm4
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0x2b380f66; BYTE $0xd3               // packusdw    xmm2, xmm3
-	LONG $0xd1670f66                           // packuswb    xmm2, xmm1
-	LONG $0x147f0ff3; BYTE $0x39               // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x21380f66; WORD $0x3a64; BYTE $0x1c // pmovsxbd    xmm4, dword [rdx + rdi + 28]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x18 // pmovsxbd    xmm1, dword [rdx + rdi + 24]
-	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x14 // pmovsxbd    xmm3, dword [rdx + rdi + 20]
-	LONG $0x21380f66; WORD $0x3a54; BYTE $0x10 // pmovsxbd    xmm2, dword [rdx + rdi + 16]
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xe0720f66; BYTE $0x07               // psrad    xmm0, 7
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
-	LONG $0xf16f0f66                           // movdqa    xmm6, xmm1
-	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
-	LONG $0xe7fe0f66                           // paddd    xmm4, xmm7
-	LONG $0xcefe0f66                           // paddd    xmm1, xmm6
-	LONG $0xddfe0f66                           // paddd    xmm3, xmm5
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0xd0ef0f66                           // pxor    xmm2, xmm0
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xceef0f66                           // pxor    xmm1, xmm6
-	LONG $0xe7ef0f66                           // pxor    xmm4, xmm7
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0x2b380f66; BYTE $0xcc               // packusdw    xmm1, xmm4
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0x2b380f66; BYTE $0xd3               // packusdw    xmm2, xmm3
-	LONG $0xd1670f66                           // packuswb    xmm2, xmm1
-	LONG $0x547f0ff3; WORD $0x1039             // movdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_413
-	JMP  LBB3_705
-
-LBB3_421:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_712
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_423:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x20f9 // movdqu    oword [rcx + 8*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x30f9 // movdqu    oword [rcx + 8*rdi + 48], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_423
-	JMP  LBB3_713
-
-LBB3_424:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_720
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x30 // movdqa    xmm1, oword 48[rbp] /* [rip + .LCPI3_4] */
-
-LBB3_426:
-	LONG $0x146f0ff3; BYTE $0xfa   // movdqu    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c6f0ff3; WORD $0x10fa // movdqu    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0x29380f66; BYTE $0xd0   // pcmpeqq    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8   // pcmpeqq    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x147f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm2
-	LONG $0x5c7f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20fa // movdqu    xmm2, oword [rdx + 8*rdi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30fa // movdqu    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0x29380f66; BYTE $0xd0   // pcmpeqq    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8   // pcmpeqq    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x547f0ff3; WORD $0x20f9 // movdqu    oword [rcx + 8*rdi + 32], xmm2
-	LONG $0x5c7f0ff3; WORD $0x30f9 // movdqu    oword [rcx + 8*rdi + 48], xmm3
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_426
-	JMP  LBB3_721
-
-LBB3_427:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB3_550
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_552
-
-LBB3_429:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB3_560
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_562
-
-LBB3_438:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_728
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_440:
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f90f66               // psubw    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f90f66               // psubw    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f90f66               // psubw    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f90f66               // psubw    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm0
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_440
-	JMP  LBB3_729
-
-LBB3_441:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_736
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_443:
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f90f66               // psubw    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f90f66               // psubw    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f90f66               // psubw    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f90f66               // psubw    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm0
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_443
-	JMP  LBB3_737
-
-LBB3_444:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_744
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_446:
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f90f66               // psubw    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f90f66               // psubw    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x207a // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f90f66               // psubw    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f90f66               // psubw    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm0
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_446
-	JMP  LBB3_745
-
-LBB3_447:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_752
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x40 // movdqa    xmm1, oword 64[rbp] /* [rip + .LCPI3_5] */
-
-LBB3_449:
-	LONG $0x146f0ff3; BYTE $0x7a   // movdqu    xmm2, oword [rdx + 2*rdi]
-	LONG $0x5c6f0ff3; WORD $0x107a // movdqu    xmm3, oword [rdx + 2*rdi + 16]
-	LONG $0xd0750f66               // pcmpeqw    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0xd8750f66               // pcmpeqw    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x5c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x207a // movdqu    xmm2, oword [rdx + 2*rdi + 32]
-	LONG $0x5c6f0ff3; WORD $0x307a // movdqu    xmm3, oword [rdx + 2*rdi + 48]
-	LONG $0xd0750f66               // pcmpeqw    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0xd8750f66               // pcmpeqw    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x547f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm3
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_449
-	JMP  LBB3_753
-
-LBB3_450:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_760
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x40 // movdqa    xmm4, oword 64[rbp] /* [rip + .LCPI3_5] */
-
-LBB3_452:
-	LONG $0x2c6f0ff3; BYTE $0x7a   // movdqu    xmm5, oword [rdx + 2*rdi]
-	LONG $0x746f0ff3; WORD $0x107a // movdqu    xmm6, oword [rdx + 2*rdi + 16]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5650f66               // pcmpgtw    xmm0, xmm5
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce650f66               // pcmpgtw    xmm1, xmm6
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd   // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x3c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm7
-	LONG $0x6c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x207a // movdqu    xmm5, oword [rdx + 2*rdi + 32]
-	LONG $0x746f0ff3; WORD $0x307a // movdqu    xmm6, oword [rdx + 2*rdi + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5650f66               // pcmpgtw    xmm0, xmm5
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce650f66               // pcmpgtw    xmm1, xmm6
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd   // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7c7f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm7
-	LONG $0x6c7f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm5
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_452
-	JMP  LBB3_761
-
-LBB3_453:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB3_570
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_572
-
-LBB3_455:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_769
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-
-LBB3_457:
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x23380f66; WORD $0x7a14             // pmovsxwd    xmm2, qword [rdx + 2*rdi]
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xe4720f66; BYTE $0x0f               // psrad    xmm4, 15
-	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
-	LONG $0xd3fe0f66                           // paddd    xmm2, xmm3
-	LONG $0xd3ef0f66                           // pxor    xmm2, xmm3
-	LONG $0xccef0f66                           // pxor    xmm1, xmm4
-	LONG $0x0e3a0f66; WORD $0xaac8             // pblendw    xmm1, xmm0, 170
-	LONG $0x0e3a0f66; WORD $0xaad0             // pblendw    xmm2, xmm0, 170
-	LONG $0x2b380f66; BYTE $0xd1               // packusdw    xmm2, xmm1
-	LONG $0x147f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
-	LONG $0x23380f66; WORD $0x7a54; BYTE $0x10 // pmovsxwd    xmm2, qword [rdx + 2*rdi + 16]
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xe4720f66; BYTE $0x0f               // psrad    xmm4, 15
-	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
-	LONG $0xd3fe0f66                           // paddd    xmm2, xmm3
-	LONG $0xd3ef0f66                           // pxor    xmm2, xmm3
-	LONG $0xccef0f66                           // pxor    xmm1, xmm4
-	LONG $0x0e3a0f66; WORD $0xaac8             // pblendw    xmm1, xmm0, 170
-	LONG $0x0e3a0f66; WORD $0xaad0             // pblendw    xmm2, xmm0, 170
-	LONG $0x2b380f66; BYTE $0xd1               // packusdw    xmm2, xmm1
-	LONG $0x547f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_457
-	JMP  LBB3_770
-
-LBB3_458:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB3_580
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_582
-
-LBB3_460:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_777
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-
-LBB3_462:
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x23380f66; WORD $0x7a14             // pmovsxwd    xmm2, qword [rdx + 2*rdi]
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xe4720f66; BYTE $0x0f               // psrad    xmm4, 15
-	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
-	LONG $0xd3fe0f66                           // paddd    xmm2, xmm3
-	LONG $0xd3ef0f66                           // pxor    xmm2, xmm3
-	LONG $0xccef0f66                           // pxor    xmm1, xmm4
-	LONG $0x0e3a0f66; WORD $0xaac8             // pblendw    xmm1, xmm0, 170
-	LONG $0x0e3a0f66; WORD $0xaad0             // pblendw    xmm2, xmm0, 170
-	LONG $0x2b380f66; BYTE $0xd1               // packusdw    xmm2, xmm1
-	LONG $0x147f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
-	LONG $0x23380f66; WORD $0x7a54; BYTE $0x10 // pmovsxwd    xmm2, qword [rdx + 2*rdi + 16]
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xe4720f66; BYTE $0x0f               // psrad    xmm4, 15
-	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
-	LONG $0xd3fe0f66                           // paddd    xmm2, xmm3
-	LONG $0xd3ef0f66                           // pxor    xmm2, xmm3
-	LONG $0xccef0f66                           // pxor    xmm1, xmm4
-	LONG $0x0e3a0f66; WORD $0xaac8             // pblendw    xmm1, xmm0, 170
-	LONG $0x0e3a0f66; WORD $0xaad0             // pblendw    xmm2, xmm0, 170
-	LONG $0x2b380f66; BYTE $0xd1               // packusdw    xmm2, xmm1
-	LONG $0x547f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB3_462
-	JMP  LBB3_778
-
-LBB3_463:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_785
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_465:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x20f9 // movdqu    oword [rcx + 8*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x30f9 // movdqu    oword [rcx + 8*rdi + 48], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_465
-	JMP  LBB3_786
-
-LBB3_466:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x03e8c149             // shr    r8, 3
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_793
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_468:
-	LONG $0x0c100f66; BYTE $0xba   // movupd    xmm1, oword [rdx + 4*rdi]
-	LONG $0x54100f66; WORD $0x10ba // movupd    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20ba // movupd    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x54100f66; WORD $0x30ba // movupd    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_468
-	JMP  LBB3_794
-
-LBB3_469:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_803
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_471:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x20f9 // movdqu    oword [rcx + 8*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x30f9 // movdqu    oword [rcx + 8*rdi + 48], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_471
-	JMP  LBB3_804
-
-LBB3_472:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x03e8c149             // shr    r8, 3
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_811
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
-
-LBB3_474:
-	LONG $0x0c100f66; BYTE $0xba   // movupd    xmm1, oword [rdx + 4*rdi]
-	LONG $0x54100f66; WORD $0x10ba // movupd    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20ba // movupd    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x54100f66; WORD $0x30ba // movupd    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8570f66               // xorpd    xmm1, xmm0
-	LONG $0xd0570f66               // xorpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_474
-	JMP  LBB3_812
-
-LBB3_475:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_821
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x30 // movdqa    xmm4, oword 48[rbp] /* [rip + .LCPI3_4] */
-
-LBB3_477:
-	LONG $0x2c6f0ff3; BYTE $0xfa   // movdqu    xmm5, oword [rdx + 8*rdi]
-	LONG $0x746f0ff3; WORD $0x10fa // movdqu    xmm6, oword [rdx + 8*rdi + 16]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5   // pcmpgtq    xmm0, xmm5
-	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xce   // pcmpgtq    xmm1, xmm6
-	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x15380f66; BYTE $0xfd   // blendvpd    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xee   // blendvpd    xmm5, xmm6, xmm0
-	LONG $0x3c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm7
-	LONG $0x6c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20fa // movdqu    xmm5, oword [rdx + 8*rdi + 32]
-	LONG $0x746f0ff3; WORD $0x30fa // movdqu    xmm6, oword [rdx + 8*rdi + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5   // pcmpgtq    xmm0, xmm5
-	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xce   // pcmpgtq    xmm1, xmm6
-	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x15380f66; BYTE $0xfd   // blendvpd    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xee   // blendvpd    xmm5, xmm6, xmm0
-	LONG $0x7c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm7
-	LONG $0x6c110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm5
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_477
-	JMP  LBB3_822
-
-LBB3_478:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x20 // movdqa    xmm1, oword 32[rbp] /* [rip + .LCPI3_3] */
-
-LBB3_479:
-	LONG $0x146f0ff3; BYTE $0xba   // movdqu    xmm2, oword [rdx + 4*rdi]
-	LONG $0x5c6f0ff3; WORD $0x10ba // movdqu    xmm3, oword [rdx + 4*rdi + 16]
-	LONG $0xe26f0f66               // movdqa    xmm4, xmm2
-	LONG $0xe4720f66; BYTE $0x1f   // psrad    xmm4, 31
-	LONG $0xe1eb0f66               // por    xmm4, xmm1
-	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
-	LONG $0xe5720f66; BYTE $0x1f   // psrad    xmm5, 31
-	LONG $0xe9eb0f66               // por    xmm5, xmm1
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0x04d0c20f               // cmpneqps    xmm2, xmm0
-	WORD $0x540f; BYTE $0xd4       // andps    xmm2, xmm4
-	LONG $0x04d8c20f               // cmpneqps    xmm3, xmm0
-	WORD $0x540f; BYTE $0xdd       // andps    xmm3, xmm5
-	LONG $0xb914110f               // movups    oword [rcx + 4*rdi], xmm2
-	LONG $0xb95c110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm3
-	LONG $0x08c78348               // add    rdi, 8
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB3_479
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JE   LBB3_923
-	JMP  LBB3_481
-
-LBB3_486:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_830
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_488:
-	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd9fb0f66               // psubq    xmm3, xmm1
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcb   // blendvpd    xmm1, xmm3, xmm0
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xdafb0f66               // psubq    xmm3, xmm2
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd9fb0f66               // psubq    xmm3, xmm1
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcb   // blendvpd    xmm1, xmm3, xmm0
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xdafb0f66               // psubq    xmm3, xmm2
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
-	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_488
-	JMP  LBB3_831
-
-LBB3_489:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_838
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x0000008085280f66 // movapd    xmm0, oword 128[rbp] /* [rip + .LCPI3_9] */
-
-LBB3_491:
-	LONG $0x0c100f66; BYTE $0xba   // movupd    xmm1, oword [rdx + 4*rdi]
-	LONG $0x54100f66; WORD $0x10ba // movupd    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20ba // movupd    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x54100f66; WORD $0x30ba // movupd    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_491
-	JMP  LBB3_839
-
-LBB3_492:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_848
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_494:
-	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd9fb0f66               // psubq    xmm3, xmm1
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcb   // blendvpd    xmm1, xmm3, xmm0
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xdafb0f66               // psubq    xmm3, xmm2
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20fa // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd9fb0f66               // psubq    xmm3, xmm1
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcb   // blendvpd    xmm1, xmm3, xmm0
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xdafb0f66               // psubq    xmm3, xmm2
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
-	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_494
-	JMP  LBB3_849
-
-LBB3_495:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_856
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x0000008085280f66 // movapd    xmm0, oword 128[rbp] /* [rip + .LCPI3_9] */
-
-LBB3_497:
-	LONG $0x0c100f66; BYTE $0xba   // movupd    xmm1, oword [rdx + 4*rdi]
-	LONG $0x54100f66; WORD $0x10ba // movupd    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x0c110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm2
-	LONG $0x4c100f66; WORD $0x20ba // movupd    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x54100f66; WORD $0x30ba // movupd    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0xd0540f66               // andpd    xmm2, xmm0
-	LONG $0x4c110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm1
-	LONG $0x54110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_497
-	JMP  LBB3_857
-
-LBB3_505:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_866
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_507:
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f80f66               // psubb    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f80f66               // psubb    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x203a // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0f80f66               // psubb    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1f80f66               // psubb    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm0
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_507
-	JMP  LBB3_867
-
-LBB3_508:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_874
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI3_6] */
-
-LBB3_510:
-	LONG $0x146f0ff3; BYTE $0x3a   // movdqu    xmm2, oword [rdx + rdi]
-	LONG $0x5c6f0ff3; WORD $0x103a // movdqu    xmm3, oword [rdx + rdi + 16]
-	LONG $0xd0740f66               // pcmpeqb    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0xd8740f66               // pcmpeqb    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x5c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x203a // movdqu    xmm2, oword [rdx + rdi + 32]
-	LONG $0x5c6f0ff3; WORD $0x303a // movdqu    xmm3, oword [rdx + rdi + 48]
-	LONG $0xd0740f66               // pcmpeqb    xmm2, xmm0
-	LONG $0xd1df0f66               // pandn    xmm2, xmm1
-	LONG $0xd8740f66               // pcmpeqb    xmm3, xmm0
-	LONG $0xd9df0f66               // pandn    xmm3, xmm1
-	LONG $0x547f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm2
-	LONG $0x5c7f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm3
-	LONG $0x40c78348               // add    rdi, 64
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_510
-	JMP  LBB3_875
-
-LBB3_511:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB3_590
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_592
-
-LBB3_513:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB3_600
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB3_602
-
-LBB3_515:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_882
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_517:
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_517
-	JMP  LBB3_883
-
-LBB3_518:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_890
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_520:
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
-	LONG $0x147f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm2
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
-	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
-	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
-	LONG $0x547f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x447f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_520
-	JMP  LBB3_891
-
-LBB3_521:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x03e8c149             // shr    r8, 3
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB3_898
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x20 // movdqa    xmm4, oword 32[rbp] /* [rip + .LCPI3_3] */
-
-LBB3_523:
-	LONG $0x2c6f0ff3; BYTE $0xba   // movdqu    xmm5, oword [rdx + 4*rdi]
-	LONG $0x746f0ff3; WORD $0x10ba // movdqu    xmm6, oword [rdx + 4*rdi + 16]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
-	LONG $0xb93c110f               // movups    oword [rcx + 4*rdi], xmm7
-	LONG $0xb96c110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20ba // movdqu    xmm5, oword [rdx + 4*rdi + 32]
-	LONG $0x746f0ff3; WORD $0x30ba // movdqu    xmm6, oword [rdx + 4*rdi + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
-	LONG $0xb97c110f; BYTE $0x20   // movups    oword [rcx + 4*rdi + 32], xmm7
-	LONG $0xb96c110f; BYTE $0x30   // movups    oword [rcx + 4*rdi + 48], xmm5
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_523
-	JMP  LBB3_899
-
-LBB3_524:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_907
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_526:
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
-	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
-	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
-	LONG $0x447f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_526
-	JMP  LBB3_908
-
-LBB3_527:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_915
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB3_529:
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
-	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
-	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
-	LONG $0x447f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB3_529
-	JMP  LBB3_916
-
-LBB3_367:
-	LONG $0xf8e78348         // and    rdi, -8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_368:
-	LONG $0x04110f66; BYTE $0x81         // movupd    oword [rcx + 4*rax], xmm0
-	LONG $0x44110f66; WORD $0x1081       // movupd    oword [rcx + 4*rax + 16], xmm0
-	LONG $0x44110f66; WORD $0x2081       // movupd    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x44110f66; WORD $0x3081       // movupd    oword [rcx + 4*rax + 48], xmm0
-	LONG $0x44110f66; WORD $0x4081       // movupd    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x44110f66; WORD $0x5081       // movupd    oword [rcx + 4*rax + 80], xmm0
-	LONG $0x44110f66; WORD $0x6081       // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x44110f66; WORD $0x7081       // movupd    oword [rcx + 4*rax + 112], xmm0
-	QUAD $0x0000808184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 128], xmm0
-	QUAD $0x0000908184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 144], xmm0
-	QUAD $0x0000a08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 160], xmm0
-	QUAD $0x0000b08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 176], xmm0
-	QUAD $0x0000c08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 192], xmm0
-	QUAD $0x0000d08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 208], xmm0
-	QUAD $0x0000e08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 224], xmm0
-	QUAD $0x0000f08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 240], xmm0
-	LONG $0x40c08348                     // add    rax, 64
-	LONG $0x08c78348                     // add    rdi, 8
-	JNE  LBB3_368
-
-LBB3_369:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_372
-	LONG $0x81048d48         // lea    rax, [rcx + 4*rax]
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_371:
-	LONG $0x40110f66; BYTE $0xf0 // movupd    oword [rax - 16], xmm0
-	LONG $0x00110f66             // movupd    oword [rax], xmm0
-	LONG $0x20c08348             // add    rax, 32
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_371
-
-LBB3_372:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_923
-
-LBB3_373:
-	LONG $0x009104c7; WORD $0x0000; BYTE $0x00 // mov    dword [rcx + 4*rdx], 0
-	LONG $0x01c28348                           // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1                   // cmp    r9, rdx
-	JNE  LBB3_373
-	JMP  LBB3_923
-
-LBB3_414:
-	LONG $0xf8e78348         // and    rdi, -8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_415:
-	LONG $0x04110f66; BYTE $0xc1         // movupd    oword [rcx + 8*rax], xmm0
-	LONG $0x44110f66; WORD $0x10c1       // movupd    oword [rcx + 8*rax + 16], xmm0
-	LONG $0x44110f66; WORD $0x20c1       // movupd    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x44110f66; WORD $0x30c1       // movupd    oword [rcx + 8*rax + 48], xmm0
-	LONG $0x44110f66; WORD $0x40c1       // movupd    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x44110f66; WORD $0x50c1       // movupd    oword [rcx + 8*rax + 80], xmm0
-	LONG $0x44110f66; WORD $0x60c1       // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x44110f66; WORD $0x70c1       // movupd    oword [rcx + 8*rax + 112], xmm0
-	QUAD $0x000080c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 128], xmm0
-	QUAD $0x000090c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 144], xmm0
-	QUAD $0x0000a0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 160], xmm0
-	QUAD $0x0000b0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 176], xmm0
-	QUAD $0x0000c0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 192], xmm0
-	QUAD $0x0000d0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 208], xmm0
-	QUAD $0x0000e0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 224], xmm0
-	QUAD $0x0000f0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 240], xmm0
-	LONG $0x20c08348                     // add    rax, 32
-	LONG $0x08c78348                     // add    rdi, 8
-	JNE  LBB3_415
-
-LBB3_416:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_419
-	LONG $0xc1048d48         // lea    rax, [rcx + 8*rax]
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_418:
-	LONG $0x40110f66; BYTE $0xf0 // movupd    oword [rax - 16], xmm0
-	LONG $0x00110f66             // movupd    oword [rax], xmm0
-	LONG $0x20c08348             // add    rax, 32
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_418
-
-LBB3_419:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_923
-
-LBB3_420:
-	QUAD $0x00000000d104c748 // mov    qword [rcx + 8*rdx], 0
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1 // cmp    r9, rdx
-	JNE  LBB3_420
-	JMP  LBB3_923
-
-LBB3_431:
-	LONG $0xf8e78348         // and    rdi, -8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_432:
-	LONG $0x04110f66; BYTE $0x41         // movupd    oword [rcx + 2*rax], xmm0
-	LONG $0x44110f66; WORD $0x1041       // movupd    oword [rcx + 2*rax + 16], xmm0
-	LONG $0x44110f66; WORD $0x2041       // movupd    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x44110f66; WORD $0x3041       // movupd    oword [rcx + 2*rax + 48], xmm0
-	LONG $0x44110f66; WORD $0x4041       // movupd    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x44110f66; WORD $0x5041       // movupd    oword [rcx + 2*rax + 80], xmm0
-	LONG $0x44110f66; WORD $0x6041       // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x44110f66; WORD $0x7041       // movupd    oword [rcx + 2*rax + 112], xmm0
-	QUAD $0x0000804184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 128], xmm0
-	QUAD $0x0000904184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 144], xmm0
-	QUAD $0x0000a04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 160], xmm0
-	QUAD $0x0000b04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 176], xmm0
-	QUAD $0x0000c04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 192], xmm0
-	QUAD $0x0000d04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 208], xmm0
-	QUAD $0x0000e04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 224], xmm0
-	QUAD $0x0000f04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 240], xmm0
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x08c78348                     // add    rdi, 8
-	JNE  LBB3_432
-
-LBB3_433:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_436
-	LONG $0x41048d48         // lea    rax, [rcx + 2*rax]
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_435:
-	LONG $0x40110f66; BYTE $0xf0 // movupd    oword [rax - 16], xmm0
-	LONG $0x00110f66             // movupd    oword [rax], xmm0
-	LONG $0x20c08348             // add    rax, 32
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_435
-
-LBB3_436:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_923
-
-LBB3_437:
-	LONG $0x5104c766; WORD $0x0000 // mov    word [rcx + 2*rdx], 0
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1       // cmp    r9, rdx
-	JNE  LBB3_437
-	JMP  LBB3_923
-
-LBB3_498:
-	LONG $0xf8e78348         // and    rdi, -8
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_499:
-	LONG $0x04110f66; BYTE $0x01         // movupd    oword [rcx + rax], xmm0
-	LONG $0x44110f66; WORD $0x1001       // movupd    oword [rcx + rax + 16], xmm0
-	LONG $0x44110f66; WORD $0x2001       // movupd    oword [rcx + rax + 32], xmm0
-	LONG $0x44110f66; WORD $0x3001       // movupd    oword [rcx + rax + 48], xmm0
-	LONG $0x44110f66; WORD $0x4001       // movupd    oword [rcx + rax + 64], xmm0
-	LONG $0x44110f66; WORD $0x5001       // movupd    oword [rcx + rax + 80], xmm0
-	LONG $0x44110f66; WORD $0x6001       // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x44110f66; WORD $0x7001       // movupd    oword [rcx + rax + 112], xmm0
-	QUAD $0x0000800184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 128], xmm0
-	QUAD $0x0000900184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 144], xmm0
-	QUAD $0x0000a00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 160], xmm0
-	QUAD $0x0000b00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 176], xmm0
-	QUAD $0x0000c00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 192], xmm0
-	QUAD $0x0000d00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 208], xmm0
-	QUAD $0x0000e00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 224], xmm0
-	QUAD $0x0000f00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 240], xmm0
-	LONG $0x01000548; WORD $0x0000       // add    rax, 256
-	LONG $0x08c78348                     // add    rdi, 8
-	JNE  LBB3_499
-
-LBB3_500:
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB3_503
-	WORD $0x0148; BYTE $0xc8 // add    rax, rcx
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-
-LBB3_502:
-	LONG $0x40110f66; BYTE $0xf0 // movupd    oword [rax - 16], xmm0
-	LONG $0x00110f66             // movupd    oword [rax], xmm0
-	LONG $0x20c08348             // add    rax, 32
-	WORD $0xff48; BYTE $0xc6     // inc    rsi
-	JNE  LBB3_502
-
-LBB3_503:
-	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
-	JE   LBB3_923
-
-LBB3_504:
-	LONG $0x001104c6         // mov    byte [rcx + rdx], 0
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd1 // cmp    r9, rdx
-	JNE  LBB3_504
-
-LBB3_923:
-	RET
-
-LBB3_530:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_531:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_531
-
-LBB3_532:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_535
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_534:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_534
-
-LBB3_535:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_536
-
-LBB3_540:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_541:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_541
-
-LBB3_542:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_545
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_544:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_544
-
-LBB3_545:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_546
-
-LBB3_550:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_551:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_551
-
-LBB3_552:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_555
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_554:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_554
-
-LBB3_555:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_556
-
-LBB3_560:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_561:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_561
-
-LBB3_562:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_565
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_564:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_564
-
-LBB3_565:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_566
-
-LBB3_570:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_571:
-	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
-	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
-	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
-	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
-	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
-	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
-	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
-	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
-	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_571
-
-LBB3_572:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_575
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_574:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_574
-
-LBB3_575:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_576
-
-LBB3_580:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_581:
-	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
-	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
-	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
-	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
-	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
-	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
-	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
-	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
-	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_581
-
-LBB3_582:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_585
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_584:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_584
-
-LBB3_585:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_586
-
-LBB3_590:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_591:
-	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
-	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
-	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
-	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
-	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
-	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
-	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
-	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
-	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
-	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
-	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
-	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
-	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
-	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_591
-
-LBB3_592:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_595
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_594:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_594
-
-LBB3_595:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_596
-
-LBB3_600:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB3_601:
-	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
-	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
-	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
-	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
-	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
-	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
-	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
-	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
-	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
-	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
-	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
-	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
-	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
-	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB3_601
-
-LBB3_602:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB3_605
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB3_604:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB3_604
-
-LBB3_605:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_606
-
-LBB3_610:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_611:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_613
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8fa0f66               // psubd    xmm3, xmm0
-	LONG $0xd1fa0f66               // psubd    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm2
-
-LBB3_613:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_614
-
-LBB3_618:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_619:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_621
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2760f66               // pcmpeqd    xmm0, xmm2
-	LONG $0x5d6f0f66; BYTE $0x20   // movdqa    xmm3, oword 32[rbp] /* [rip + .LCPI3_3] */
-	LONG $0xc3df0f66               // pandn    xmm0, xmm3
-	LONG $0xca760f66               // pcmpeqd    xmm1, xmm2
-	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_621:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_622
-
-LBB3_626:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_627:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_629
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x55280f66; BYTE $0x00   // movapd    xmm2, oword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0xc2570f66               // xorpd    xmm0, xmm2
-	LONG $0xca570f66               // xorpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB3_629:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_630
-
-LBB3_636:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_637:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_639
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x55280f66; BYTE $0x00   // movapd    xmm2, oword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0xc2570f66               // xorpd    xmm0, xmm2
-	LONG $0xca570f66               // xorpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB3_639:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_640
-
-LBB3_646:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_647:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_649
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2570f66               // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00   // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI3_0] */
-	LONG $0xe0280f66               // movapd    xmm4, xmm0
-	LONG $0xe3540f66               // andpd    xmm4, xmm3
-	LONG $0x6d280f66; BYTE $0x10   // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI3_1] */
-	LONG $0xe5560f66               // orpd    xmm4, xmm5
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xdd560f66               // orpd    xmm3, xmm5
-	LONG $0xc2c20f66; BYTE $0x04   // cmpneqpd    xmm0, xmm2
-	LONG $0xc4540f66               // andpd    xmm0, xmm4
-	LONG $0xcac20f66; BYTE $0x04   // cmpneqpd    xmm1, xmm2
-	LONG $0xcb540f66               // andpd    xmm1, xmm3
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB3_649:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_650
-
-LBB3_655:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_656:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_658
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x55280f66; BYTE $0x70   // movapd    xmm2, oword 112[rbp] /* [rip + .LCPI3_8] */
-	LONG $0xc2540f66               // andpd    xmm0, xmm2
-	LONG $0xca540f66               // andpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB3_658:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_659
-
-LBB3_663:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_664:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_666
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x55280f66; BYTE $0x70   // movapd    xmm2, oword 112[rbp] /* [rip + .LCPI3_8] */
-	LONG $0xc2540f66               // andpd    xmm0, xmm2
-	LONG $0xca540f66               // andpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB3_666:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_667
-
-LBB3_671:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_672:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_674
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8f80f66               // psubb    xmm3, xmm0
-	LONG $0xd1f80f66               // psubb    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm2
-
-LBB3_674:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_675
-
-LBB3_679:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_680:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_682
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8f80f66               // psubb    xmm3, xmm0
-	LONG $0xd1f80f66               // psubb    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm2
-
-LBB3_682:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_683
-
-LBB3_687:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_688:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_690
-	LONG $0x0c6f0ff3; BYTE $0x3a   // movdqu    xmm1, oword [rdx + rdi]
-	LONG $0x546f0ff3; WORD $0x103a // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI3_6] */
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc1640f66               // pcmpgtb    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0xeb740f66               // pcmpeqb    xmm5, xmm3
-	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
-	LONG $0xda740f66               // pcmpeqb    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x10380f66; BYTE $0xd5   // pblendvb    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe3   // pblendvb    xmm4, xmm3, xmm0
-	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
-	LONG $0x647f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm4
-
-LBB3_690:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_691
-
-LBB3_696:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_697:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB3_699
-	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x0c // pmovsxbd    xmm3, dword [rdx + rdi + 12]
-	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a54; BYTE $0x04 // pmovsxbd    xmm2, dword [rdx + rdi + 4]
-	LONG $0x21380f66; WORD $0x3a0c             // pmovsxbd    xmm1, dword [rdx + rdi]
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xe4720f66; BYTE $0x07               // psrad    xmm4, 7
-	LONG $0xea6f0f66                           // movdqa    xmm5, xmm2
-	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
-	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
-	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
-	LONG $0xfb6f0f66                           // movdqa    xmm7, xmm3
-	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
-	LONG $0xdffe0f66                           // paddd    xmm3, xmm7
-	LONG $0xc6fe0f66                           // paddd    xmm0, xmm6
-	LONG $0xd5fe0f66                           // paddd    xmm2, xmm5
-	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
-	LONG $0xccef0f66                           // pxor    xmm1, xmm4
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xc6ef0f66                           // pxor    xmm0, xmm6
-	LONG $0xdfef0f66                           // pxor    xmm3, xmm7
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI3_10] */
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0x2b380f66; BYTE $0xc3               // packusdw    xmm0, xmm3
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x2b380f66; BYTE $0xca               // packusdw    xmm1, xmm2
-	LONG $0xc8670f66                           // packuswb    xmm1, xmm0
-	LONG $0x0c7f0ff3; BYTE $0x39               // movdqu    oword [rcx + rdi], xmm1
-
-LBB3_699:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_700
-
-LBB3_704:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_705:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB3_707
-	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x0c // pmovsxbd    xmm3, dword [rdx + rdi + 12]
-	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a54; BYTE $0x04 // pmovsxbd    xmm2, dword [rdx + rdi + 4]
-	LONG $0x21380f66; WORD $0x3a0c             // pmovsxbd    xmm1, dword [rdx + rdi]
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xe4720f66; BYTE $0x07               // psrad    xmm4, 7
-	LONG $0xea6f0f66                           // movdqa    xmm5, xmm2
-	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
-	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
-	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
-	LONG $0xfb6f0f66                           // movdqa    xmm7, xmm3
-	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
-	LONG $0xdffe0f66                           // paddd    xmm3, xmm7
-	LONG $0xc6fe0f66                           // paddd    xmm0, xmm6
-	LONG $0xd5fe0f66                           // paddd    xmm2, xmm5
-	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
-	LONG $0xccef0f66                           // pxor    xmm1, xmm4
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xc6ef0f66                           // pxor    xmm0, xmm6
-	LONG $0xdfef0f66                           // pxor    xmm3, xmm7
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI3_10] */
-	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0x2b380f66; BYTE $0xc3               // packusdw    xmm0, xmm3
-	LONG $0xd4db0f66                           // pand    xmm2, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x2b380f66; BYTE $0xca               // packusdw    xmm1, xmm2
-	LONG $0xc8670f66                           // packuswb    xmm1, xmm0
-	LONG $0x0c7f0ff3; BYTE $0x39               // movdqu    oword [rcx + rdi], xmm1
-
-LBB3_707:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_708
-
-LBB3_712:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_713:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_715
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8fb0f66               // psubq    xmm3, xmm0
-	LONG $0xd1fb0f66               // psubq    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm2
-
-LBB3_715:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_716
-
-LBB3_720:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_721:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_723
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2   // pcmpeqq    xmm0, xmm2
-	LONG $0x5d6f0f66; BYTE $0x30   // movdqa    xmm3, oword 48[rbp] /* [rip + .LCPI3_4] */
-	LONG $0xc3df0f66               // pandn    xmm0, xmm3
-	LONG $0x29380f66; BYTE $0xca   // pcmpeqq    xmm1, xmm2
-	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
-	LONG $0x047f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm1
-
-LBB3_723:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_724
-
-LBB3_728:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_729:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_731
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8f90f66               // psubw    xmm3, xmm0
-	LONG $0xd1f90f66               // psubw    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm2
-
-LBB3_731:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_732
-
-LBB3_736:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_737:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_739
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8f90f66               // psubw    xmm3, xmm0
-	LONG $0xd1f90f66               // psubw    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm2
-
-LBB3_739:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_740
-
-LBB3_744:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_745:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_747
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8f90f66               // psubw    xmm3, xmm0
-	LONG $0xd1f90f66               // psubw    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm2
-
-LBB3_747:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_748
-
-LBB3_752:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_753:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_755
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2750f66               // pcmpeqw    xmm0, xmm2
-	LONG $0x5d6f0f66; BYTE $0x40   // movdqa    xmm3, oword 64[rbp] /* [rip + .LCPI3_5] */
-	LONG $0xc3df0f66               // pandn    xmm0, xmm3
-	LONG $0xca750f66               // pcmpeqw    xmm1, xmm2
-	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
-
-LBB3_755:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_756
-
-LBB3_760:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_761:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_763
-	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x40   // movdqa    xmm4, oword 64[rbp] /* [rip + .LCPI3_5] */
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc1650f66               // pcmpgtw    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0xeb750f66               // pcmpeqw    xmm5, xmm3
-	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
-	LONG $0xda750f66               // pcmpeqw    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x10380f66; BYTE $0xd5   // pblendvb    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe3   // pblendvb    xmm4, xmm3, xmm0
-	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
-	LONG $0x647f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm4
-
-LBB3_763:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_764
-
-LBB3_769:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_770:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB3_772
-	LONG $0x23380f66; WORD $0x7a44; BYTE $0x08 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 8]
-	LONG $0x23380f66; WORD $0x7a0c             // pmovsxwd    xmm1, qword [rdx + 2*rdi]
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xe2720f66; BYTE $0x0f               // psrad    xmm2, 15
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
-	LONG $0xc3fe0f66                           // paddd    xmm0, xmm3
-	LONG $0xcafe0f66                           // paddd    xmm1, xmm2
-	LONG $0xcaef0f66                           // pxor    xmm1, xmm2
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0x0e3a0f66; WORD $0xaac2             // pblendw    xmm0, xmm2, 170
-	LONG $0x0e3a0f66; WORD $0xaaca             // pblendw    xmm1, xmm2, 170
-	LONG $0x2b380f66; BYTE $0xc8               // packusdw    xmm1, xmm0
-	LONG $0x0c7f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm1
-
-LBB3_772:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_773
-
-LBB3_777:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_778:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB3_780
-	LONG $0x23380f66; WORD $0x7a44; BYTE $0x08 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 8]
-	LONG $0x23380f66; WORD $0x7a0c             // pmovsxwd    xmm1, qword [rdx + 2*rdi]
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xe2720f66; BYTE $0x0f               // psrad    xmm2, 15
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
-	LONG $0xc3fe0f66                           // paddd    xmm0, xmm3
-	LONG $0xcafe0f66                           // paddd    xmm1, xmm2
-	LONG $0xcaef0f66                           // pxor    xmm1, xmm2
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0x0e3a0f66; WORD $0xaac2             // pblendw    xmm0, xmm2, 170
-	LONG $0x0e3a0f66; WORD $0xaaca             // pblendw    xmm1, xmm2, 170
-	LONG $0x2b380f66; BYTE $0xc8               // packusdw    xmm1, xmm0
-	LONG $0x0c7f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm1
-
-LBB3_780:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_781
-
-LBB3_785:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_786:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_788
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8fb0f66               // psubq    xmm3, xmm0
-	LONG $0xd1fb0f66               // psubq    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm2
-
-LBB3_788:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_789
-
-LBB3_793:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_794:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_796
-	LONG $0x04100f66; BYTE $0xba   // movupd    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c100f66; WORD $0x10ba // movupd    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x55280f66; BYTE $0x60   // movapd    xmm2, oword 96[rbp] /* [rip + .LCPI3_7] */
-	LONG $0xc2570f66               // xorpd    xmm0, xmm2
-	LONG $0xca570f66               // xorpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_796:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_797
-
-LBB3_803:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_804:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_806
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8fb0f66               // psubq    xmm3, xmm0
-	LONG $0xd1fb0f66               // psubq    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm2
-
-LBB3_806:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_807
-
-LBB3_811:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_812:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_814
-	LONG $0x04100f66; BYTE $0xba   // movupd    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c100f66; WORD $0x10ba // movupd    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x55280f66; BYTE $0x60   // movapd    xmm2, oword 96[rbp] /* [rip + .LCPI3_7] */
-	LONG $0xc2570f66               // xorpd    xmm0, xmm2
-	LONG $0xca570f66               // xorpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_814:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_815
-
-LBB3_821:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_822:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_824
-	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x30   // movdqa    xmm4, oword 48[rbp] /* [rip + .LCPI3_4] */
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc1   // pcmpgtq    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0x29380f66; BYTE $0xeb   // pcmpeqq    xmm5, xmm3
-	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
-	LONG $0x29380f66; BYTE $0xda   // pcmpeqq    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x15380f66; BYTE $0xd5   // blendvpd    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xe3   // blendvpd    xmm4, xmm3, xmm0
-	LONG $0x14110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm2
-	LONG $0x64110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm4
-
-LBB3_824:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_825
-
-LBB3_830:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_831:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_833
-	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
-	LONG $0xe1fb0f66               // psubq    xmm4, xmm1
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcc   // blendvpd    xmm1, xmm4, xmm0
-	LONG $0xdafb0f66               // psubq    xmm3, xmm2
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-
-LBB3_833:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_834
-
-LBB3_838:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_839:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_841
-	LONG $0x04100f66; BYTE $0xba   // movupd    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c100f66; WORD $0x10ba // movupd    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x0000008095280f66       // movapd    xmm2, oword 128[rbp] /* [rip + .LCPI3_9] */
-	LONG $0xc2540f66               // andpd    xmm0, xmm2
-	LONG $0xca540f66               // andpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_841:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_842
-
-LBB3_848:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_849:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_851
-	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
-	LONG $0xe1fb0f66               // psubq    xmm4, xmm1
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcc   // blendvpd    xmm1, xmm4, xmm0
-	LONG $0xdafb0f66               // psubq    xmm3, xmm2
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
-	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
-	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
-
-LBB3_851:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_852
-
-LBB3_856:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_857:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_859
-	LONG $0x04100f66; BYTE $0xba   // movupd    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c100f66; WORD $0x10ba // movupd    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x0000008095280f66       // movapd    xmm2, oword 128[rbp] /* [rip + .LCPI3_9] */
-	LONG $0xc2540f66               // andpd    xmm0, xmm2
-	LONG $0xca540f66               // andpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_859:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_860
-
-LBB3_866:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_867:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_869
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8f80f66               // psubb    xmm3, xmm0
-	LONG $0xd1f80f66               // psubb    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm2
-
-LBB3_869:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_870
-
-LBB3_874:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_875:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_877
-	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2740f66               // pcmpeqb    xmm0, xmm2
-	LONG $0x5d6f0f66; BYTE $0x50   // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI3_6] */
-	LONG $0xc3df0f66               // pandn    xmm0, xmm3
-	LONG $0xca740f66               // pcmpeqb    xmm1, xmm2
-	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
-	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
-
-LBB3_877:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_878
-
-LBB3_882:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_883:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_885
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8fa0f66               // psubd    xmm3, xmm0
-	LONG $0xd1fa0f66               // psubd    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm2
-
-LBB3_885:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_886
-
-LBB3_890:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_891:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_893
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0xd8fa0f66               // psubd    xmm3, xmm0
-	LONG $0xd1fa0f66               // psubd    xmm2, xmm1
-	LONG $0x1c7f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm3
-	LONG $0x547f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm2
-
-LBB3_893:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_894
-
-LBB3_898:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_899:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_901
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x20   // movdqa    xmm4, oword 32[rbp] /* [rip + .LCPI3_3] */
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc1660f66               // pcmpgtd    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0xeb760f66               // pcmpeqd    xmm5, xmm3
-	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
-	LONG $0xda760f66               // pcmpeqd    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x14380f66; BYTE $0xd5   // blendvps    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xe3   // blendvps    xmm4, xmm3, xmm0
-	LONG $0xb914110f               // movups    oword [rcx + 4*rdi], xmm2
-	LONG $0xb964110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm4
-
-LBB3_901:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_902
-
-LBB3_907:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_908:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_910
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
-	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_910:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_911
-
-LBB3_915:
-	WORD $0xff31 // xor    edi, edi
-
-LBB3_916:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_918
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
-	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB3_918:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB3_923
-	JMP  LBB3_919
-
-DATA LCDATA5<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA5<>+0x008(SB)/8, $0x8000000000000000
-DATA LCDATA5<>+0x010(SB)/8, $0x3ff0000000000000
-DATA LCDATA5<>+0x018(SB)/8, $0x3ff0000000000000
-DATA LCDATA5<>+0x020(SB)/8, $0x7fffffff7fffffff
-DATA LCDATA5<>+0x028(SB)/8, $0x7fffffff7fffffff
-DATA LCDATA5<>+0x030(SB)/8, $0x8000000080000000
-DATA LCDATA5<>+0x038(SB)/8, $0x8000000080000000
-DATA LCDATA5<>+0x040(SB)/8, $0x0000000000000400
-DATA LCDATA5<>+0x048(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x050(SB)/8, $0x0000000100000001
-DATA LCDATA5<>+0x058(SB)/8, $0x0000000100000001
-DATA LCDATA5<>+0x060(SB)/8, $0x4f0000004f000000
-DATA LCDATA5<>+0x068(SB)/8, $0x4f0000004f000000
-DATA LCDATA5<>+0x070(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x078(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x080(SB)/8, $0x0000000001010101
-DATA LCDATA5<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x090(SB)/8, $0x0000000000000001
-DATA LCDATA5<>+0x098(SB)/8, $0x0000000000000001
-DATA LCDATA5<>+0x0a0(SB)/8, $0x0000000100000001
-DATA LCDATA5<>+0x0a8(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x0b0(SB)/8, $0x0000000000010001
-DATA LCDATA5<>+0x0b8(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x0c0(SB)/8, $0x0000000000000101
-DATA LCDATA5<>+0x0c8(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x0d0(SB)/8, $0x3f8000003f800000
-DATA LCDATA5<>+0x0d8(SB)/8, $0x3f8000003f800000
-DATA LCDATA5<>+0x0e0(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x0e8(SB)/8, $0x0001000100010001
-DATA LCDATA5<>+0x0f0(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x0f8(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x100(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x108(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x110(SB)/8, $0x3ff0000000000000
-DATA LCDATA5<>+0x118(SB)/8, $0x43e0000000000000
-DATA LCDATA5<>+0x120(SB)/8, $0xbff0000000000000
-DATA LCDATA5<>+0x128(SB)/8, $0x5f0000003f800000
-DATA LCDATA5<>+0x130(SB)/8, $0x00000000bf800000
-GLOBL LCDATA5<>(SB), 8, $312
-
-TEXT ·_arithmetic_unary_diff_type_sse4(SB), $0-48
-
-	MOVQ itype+0(FP), DI
-	MOVQ otype+8(FP), SI
-	MOVQ op+16(FP), DX
-	MOVQ input+24(FP), CX
-	MOVQ output+32(FP), R8
-	MOVQ len+40(FP), R9
-	LEAQ LCDATA5<>(SB), BP
-
-	WORD $0xfa80; BYTE $0x14 // cmp    dl, 20
-	JNE  LBB4_1655
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB4_14
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB4_26
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB4_46
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB4_54
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB4_1655
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_94
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_200
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_303
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_306
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_13
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_496
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_496
-
-LBB4_13:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1232:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1234
-
-LBB4_1233:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB4_1233
-
-LBB4_1234:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1235:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x04917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 4], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x08917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 8], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0c917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 12], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], eax
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1235
-	JMP  LBB4_1655
-
-LBB4_14:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB4_36
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB4_62
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB4_70
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB4_1655
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_106
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_205
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_309
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_312
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_499
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1110
-
-LBB4_26:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB4_78
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB4_1655
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_113
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_210
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_315
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_318
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_35
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_504
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_504
-
-LBB4_35:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1240:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1242
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
-	WORD $0x4e0f; BYTE $0xc7     // cmovle    eax, edi
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1242:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1244:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1244
-	JMP  LBB4_1655
-
-LBB4_36:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB4_86
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB4_1655
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_123
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_215
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_321
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_324
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_507
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_998
-
-LBB4_46:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_135
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_220
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_327
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_330
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_510
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1116
-
-LBB4_54:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_147
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_225
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_333
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_336
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_513
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1121
-
-LBB4_62:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_157
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_230
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_339
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_342
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_516
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1127
-
-LBB4_70:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_167
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_235
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_345
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_348
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_519
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1133
-
-LBB4_78:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_178
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_240
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_351
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_354
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_85
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_524
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_524
-
-LBB4_85:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1249:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1251
-
-LBB4_1250:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB4_1250
-
-LBB4_1251:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1252:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], eax
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1252
-	JMP  LBB4_1655
-
-LBB4_86:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB4_190
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB4_245
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB4_357
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB4_360
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_93
-	LONG $0x99148d4a         // lea    rdx, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_529
-	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_529
-
-LBB4_93:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1257:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1259
-	LONG $0x910c8b44             // mov    r9d, dword [rcx + 4*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1259:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1261:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	LONG $0x0491448b             // mov    eax, dword [rcx + 4*rdx + 4]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc085                 // test    eax, eax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1261
-	JMP  LBB4_1655
-
-LBB4_94:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_250
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_363
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_366
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0xff728d48         // lea    rsi, [rdx - 1]
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JAE  LBB4_532
-	WORD $0xf631             // xor    esi, esi
-
-LBB4_101:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1655
-	LONG $0xf0148d49         // lea    rdx, [r8 + 8*rsi]
-	LONG $0xb10c8d48         // lea    rcx, [rcx + 4*rsi]
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_104
-
-LBB4_103:
-	LONG $0x0c110ff2; BYTE $0xf2 // movsd    qword [rdx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JE   LBB4_1655
-
-LBB4_104:
-	LONG $0x00b13c83 // cmp    dword [rcx + 4*rsi], 0
-	LONG $0xc8280f66 // movapd    xmm1, xmm0
-	JNE  LBB4_103
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_103
-
-LBB4_106:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_255
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_369
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_372
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_112
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_544
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_544
-
-LBB4_112:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1266:
-	WORD $0x8948; BYTE $0xd6       // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6       // not    rsi
-	WORD $0x01a8                   // test    al, 1
-	JE   LBB4_1268
-	LONG $0x04100ff2; BYTE $0xd1   // movsd    xmm0, qword [rcx + 8*rdx]
-	LONG $0x4d280f66; BYTE $0x00   // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	QUAD $0x0000011095100ff2       // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-	LONG $0xd1560f66               // orpd    xmm2, xmm1
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0xc8c20ff2; BYTE $0x00   // cmpeqsd    xmm1, xmm0
-	LONG $0xca550f66               // andnpd    xmm1, xmm2
-	LONG $0x130f4166; WORD $0xd00c // movlpd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_1268:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1655
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x000001108d100ff2     // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-
-LBB4_1270:
-	LONG $0x1c100ff2; BYTE $0xd1               // movsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xe3280f66                           // movapd    xmm4, xmm3
-	LONG $0xe0540f66                           // andpd    xmm4, xmm0
-	LONG $0xe1560f66                           // orpd    xmm4, xmm1
-	LONG $0xdac20ff2; BYTE $0x00               // cmpeqsd    xmm3, xmm2
-	LONG $0xdc550f66                           // andnpd    xmm3, xmm4
-	LONG $0x130f4166; WORD $0xd01c             // movlpd    qword [r8 + 8*rdx], xmm3
-	LONG $0x5c100ff2; WORD $0x08d1             // movsd    xmm3, qword [rcx + 8*rdx + 8]
-	LONG $0xe3280f66                           // movapd    xmm4, xmm3
-	LONG $0xe0540f66                           // andpd    xmm4, xmm0
-	LONG $0xe1560f66                           // orpd    xmm4, xmm1
-	LONG $0xdac20ff2; BYTE $0x00               // cmpeqsd    xmm3, xmm2
-	LONG $0xdc550f66                           // andnpd    xmm3, xmm4
-	LONG $0x130f4166; WORD $0xd05c; BYTE $0x08 // movlpd    qword [r8 + 8*rdx + 8], xmm3
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB4_1270
-	JMP  LBB4_1655
-
-LBB4_113:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_260
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_375
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_378
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_547
-	WORD $0xc031             // xor    eax, eax
-
-LBB4_120:
-	WORD $0xc2f6; BYTE $0x01 // test    dl, 1
-	JE   LBB4_1655
-	LONG $0x00013c80         // cmp    byte [rcx + rax], 0
-	JNE  LBB4_982
-
-LBB4_122:
-	LONG $0xc0570f66 // xorpd    xmm0, xmm0
-	JMP  LBB4_983
-
-LBB4_123:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_265
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_381
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_384
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0xff728d48         // lea    rsi, [rdx - 1]
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JAE  LBB4_557
-	WORD $0xf631             // xor    esi, esi
-
-LBB4_130:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1655
-	LONG $0xf0148d49         // lea    rdx, [r8 + 8*rsi]
-	LONG $0xf10c8d48         // lea    rcx, [rcx + 8*rsi]
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_133
-
-LBB4_132:
-	LONG $0x0c110ff2; BYTE $0xf2 // movsd    qword [rdx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JE   LBB4_1655
-
-LBB4_133:
-	LONG $0xf13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rsi], 0
-	LONG $0xc8280f66             // movapd    xmm1, xmm0
-	JNE  LBB4_132
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	JMP  LBB4_132
-
-LBB4_135:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_270
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_392
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_395
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0xff728d48         // lea    rsi, [rdx - 1]
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JAE  LBB4_567
-	WORD $0xf631             // xor    esi, esi
-
-LBB4_142:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1655
-	LONG $0xf0148d49         // lea    rdx, [r8 + 8*rsi]
-	LONG $0x710c8d48         // lea    rcx, [rcx + 2*rsi]
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_145
-
-LBB4_144:
-	LONG $0x0c110ff2; BYTE $0xf2 // movsd    qword [rdx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JE   LBB4_1655
-
-LBB4_145:
-	LONG $0x713c8366; BYTE $0x00 // cmp    word [rcx + 2*rsi], 0
-	LONG $0xc8280f66             // movapd    xmm1, xmm0
-	JNE  LBB4_144
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	JMP  LBB4_144
-
-LBB4_147:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_275
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_398
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_401
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_577
-	WORD $0xc031             // xor    eax, eax
-
-LBB4_154:
-	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
-	JE   LBB4_1655
-	LONG $0x413c8366; BYTE $0x00 // cmp    word [rcx + 2*rax], 0
-	JE   LBB4_122
-
-LBB4_982:
-	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
-
-LBB4_983:
-	JLE  LBB4_985
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_985:
-	LONG $0x110f41f2; WORD $0xc004 // movsd    qword [r8 + 8*rax], xmm0
-	JMP  LBB4_1655
-
-LBB4_157:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_280
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_404
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_407
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_587
-	WORD $0xc031             // xor    eax, eax
-
-LBB4_164:
-	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
-	JE   LBB4_1655
-	LONG $0xc13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rax], 0
-	JE   LBB4_122
-	JMP  LBB4_982
-
-LBB4_167:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_285
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_413
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_419
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_597
-	WORD $0xc031             // xor    eax, eax
-
-LBB4_174:
-	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
-	JE   LBB4_1655
-	LONG $0x0c100ff3; BYTE $0x81 // movss    xmm1, dword [rcx + 4*rax]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
-	WORD $0x2e0f; BYTE $0xd1     // ucomiss    xmm2, xmm1
-	JE   LBB4_177
-	WORD $0x500f; BYTE $0xc9     // movmskps    ecx, xmm1
-	WORD $0xe183; BYTE $0x01     // and    ecx, 1
-	WORD $0xd9f7                 // neg    ecx
-	WORD $0xc983; BYTE $0x01     // or    ecx, 1
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc12a0ff3             // cvtsi2ss    xmm0, ecx
-	LONG $0xc05a0ff3             // cvtss2sd    xmm0, xmm0
-
-LBB4_177:
-	LONG $0x110f41f2; WORD $0xc004 // movsd    qword [r8 + 8*rax], xmm0
-	JMP  LBB4_1655
-
-LBB4_178:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_293
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_422
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_425
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0xff728d48         // lea    rsi, [rdx - 1]
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JAE  LBB4_603
-	WORD $0xf631             // xor    esi, esi
-
-LBB4_185:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1655
-	LONG $0xf0148d49         // lea    rdx, [r8 + 8*rsi]
-	WORD $0x0148; BYTE $0xf1 // add    rcx, rsi
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_188
-
-LBB4_187:
-	LONG $0x0c110ff2; BYTE $0xf2 // movsd    qword [rdx + 8*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JE   LBB4_1655
-
-LBB4_188:
-	LONG $0x00313c80 // cmp    byte [rcx + rsi], 0
-	LONG $0xc8280f66 // movapd    xmm1, xmm0
-	JNE  LBB4_187
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_187
-
-LBB4_190:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB4_298
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB4_428
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB4_431
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_613
-	WORD $0xc031             // xor    eax, eax
-
-LBB4_197:
-	WORD $0xc2f6; BYTE $0x01 // test    dl, 1
-	JE   LBB4_1655
-	LONG $0x00813c83         // cmp    dword [rcx + 4*rax], 0
-	JE   LBB4_122
-	JMP  LBB4_982
-
-LBB4_200:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_434
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_204
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_625
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_625
-
-LBB4_204:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1275:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1277
-
-LBB4_1276:
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1276
-
-LBB4_1277:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1278:
-	LONG $0x00913c83               // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x04917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x08917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x0c917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 12], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1278
-	JMP  LBB4_1655
-
-LBB4_205:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_437
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_209
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_630
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_630
-
-LBB4_209:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1283:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB4_1285
-	LONG $0x04100ff2; BYTE $0xd1 // movsd    xmm0, qword [rcx + 8*rdx]
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0xc82e0f66             // ucomisd    xmm1, xmm0
-	LONG $0x45540f66; BYTE $0x00 // andpd    xmm0, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x000001108d100ff2     // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	LONG $0xc8560f66             // orpd    xmm1, xmm0
-	LONG $0xf92c0ff2             // cvttsd2si    edi, xmm1
-	LONG $0xf9440f41             // cmove    edi, r9d
-	LONG $0x103c8841             // mov    byte [r8 + rdx], dil
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1285:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1655
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1287:
-	LONG $0x1c100ff2; BYTE $0xd1   // movsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xc32e0f66               // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xda560f66               // orpd    xmm3, xmm2
-	LONG $0xfb2c0ff2               // cvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x103c8841               // mov    byte [r8 + rdx], dil
-	LONG $0x5c100ff2; WORD $0x08d1 // movsd    xmm3, qword [rcx + 8*rdx + 8]
-	LONG $0xc32e0f66               // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xda560f66               // orpd    xmm3, xmm2
-	LONG $0xfb2c0ff2               // cvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x107c8841; BYTE $0x01   // mov    byte [r8 + rdx + 1], dil
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1287
-	JMP  LBB4_1655
-
-LBB4_210:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_440
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_214
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_635
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_635
-
-LBB4_214:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1292:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1294
-	LONG $0x313c8a40             // mov    dil, byte [rcx + rsi]
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1294:
-	WORD $0x014c; BYTE $0xd0     // add    rax, r10
-	JE   LBB4_1655
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-
-LBB4_1296:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0xc084                 // test    al, al
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc084                 // test    al, al
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	WORD $0xc084                 // test    al, al
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc084                 // test    al, al
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1296
-	JMP  LBB4_1655
-
-LBB4_215:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_443
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_219
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_640
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_640
-
-LBB4_219:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1301:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1303
-
-LBB4_1302:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1302
-
-LBB4_1303:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1304:
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1304
-	JMP  LBB4_1655
-
-LBB4_220:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_446
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_224
-	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_645
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_645
-
-LBB4_224:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1309:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1311
-
-LBB4_1310:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1310
-
-LBB4_1311:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1312:
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1312
-	JMP  LBB4_1655
-
-LBB4_225:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_449
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_229
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_650
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_650
-
-LBB4_229:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1317:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1319
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1319:
-	WORD $0x014c; BYTE $0xd0       // add    rax, r10
-	JE   LBB4_1655
-	LONG $0x0001b941; WORD $0x0000 // mov    r9d, 1
-
-LBB4_1321:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x7144b70f; BYTE $0x02 // movzx    eax, word [rcx + 2*rsi + 2]
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1321
-	JMP  LBB4_1655
-
-LBB4_230:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_452
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_234
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_655
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_655
-
-LBB4_234:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1326:
-	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2     // not    rdx
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1328
-	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0x4e0f; BYTE $0xf8     // cmovle    edi, eax
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1328:
-	WORD $0x014c; BYTE $0xd2     // add    rdx, r10
-	JE   LBB4_1655
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-
-LBB4_1330:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1330
-	JMP  LBB4_1655
-
-LBB4_235:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_455
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_239
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_660
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_660
-
-LBB4_239:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1335:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1337
-	LONG $0x046e0f66; BYTE $0x91 // movd    xmm0, dword [rcx + 4*rdx]
-	LONG $0xc77e0f66             // movd    edi, xmm0
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x990f; BYTE $0xd0     // setns    al
-	WORD $0xc000                 // add    al, al
-	WORD $0xff04                 // add    al, -1
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	WORD $0x2e0f; BYTE $0xc8     // ucomiss    xmm1, xmm0
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	WORD $0x440f; BYTE $0xc7     // cmove    eax, edi
-	LONG $0x10048841             // mov    byte [r8 + rdx], al
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1337:
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	JE   LBB4_1655
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-
-LBB4_1339:
-	LONG $0x0c6e0f66; BYTE $0x91   // movd    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc87e0f66               // movd    eax, xmm1
-	WORD $0xc085                   // test    eax, eax
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10048841               // mov    byte [r8 + rdx], al
-	LONG $0x4c6e0f66; WORD $0x0491 // movd    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc87e0f66               // movd    eax, xmm1
-	WORD $0xc085                   // test    eax, eax
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10448841; BYTE $0x01   // mov    byte [r8 + rdx + 1], al
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1339
-	JMP  LBB4_1655
-
-LBB4_240:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_458
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_244
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_665
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_665
-
-LBB4_244:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1344:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1346
-
-LBB4_1345:
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1345
-
-LBB4_1346:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1347:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1347
-	JMP  LBB4_1655
-
-LBB4_245:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB4_461
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_249
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_670
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_670
-
-LBB4_249:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1352:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1354
-	WORD $0x3c8b; BYTE $0xb1     // mov    edi, dword [rcx + 4*rsi]
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1354:
-	WORD $0x014c; BYTE $0xd0       // add    rax, r10
-	JE   LBB4_1655
-	LONG $0x0001b941; WORD $0x0000 // mov    r9d, 1
-
-LBB4_1356:
-	WORD $0x3c8b; BYTE $0xb1     // mov    edi, dword [rcx + 4*rsi]
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xff85                 // test    edi, edi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc085                 // test    eax, eax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1356
-	JMP  LBB4_1655
-
-LBB4_250:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_464
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_673
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1003
-
-LBB4_255:
-	WORD $0xfe83; BYTE $0x07               // cmp    esi, 7
-	JE   LBB4_467
-	WORD $0xfe83; BYTE $0x08               // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9               // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca               // mov    r10d, r9d
-	QUAD $0x000000000000bb49; WORD $0x8000 // mov    r11, -9223372036854775808
-	LONG $0x01f98341                       // cmp    r9d, 1
-	JNE  LBB4_676
-	WORD $0xf631                           // xor    esi, esi
-	JMP  LBB4_1008
-
-LBB4_260:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_470
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_264
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_681
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_681
-
-LBB4_264:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1361:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1363
-	WORD $0x048a; BYTE $0x11     // mov    al, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
-	LONG $0xc74e0f48             // cmovle    rax, rdi
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1363:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1365:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1365
-	JMP  LBB4_1655
-
-LBB4_265:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_473
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_269
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_686
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_686
-
-LBB4_269:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1370:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1372
-
-LBB4_1371:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1371
-
-LBB4_1372:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1373:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0048949               // mov    qword [r8 + 8*rdx], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0448949; BYTE $0x08   // mov    qword [r8 + 8*rdx + 8], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0448949; BYTE $0x10   // mov    qword [r8 + 8*rdx + 16], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0448949; BYTE $0x18   // mov    qword [r8 + 8*rdx + 24], rax
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1373
-	JMP  LBB4_1655
-
-LBB4_270:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_476
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_689
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1014
-
-LBB4_275:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_479
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_692
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1019
-
-LBB4_280:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_482
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_284
-	LONG $0xd9148d4a         // lea    rdx, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_697
-	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_697
-
-LBB4_284:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1378:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1380
-	LONG $0xd10c8b4c             // mov    r9, qword [rcx + 8*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1380:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1382:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc64f0f48             // cmovg    rax, rsi
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0xd1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rdx + 8]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1382
-	JMP  LBB4_1655
-
-LBB4_285:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_485
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_700
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB4_290
-
-LBB4_293:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_488
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_297
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_710
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_710
-
-LBB4_297:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1387:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1389
-
-LBB4_1388:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB4_1388
-
-LBB4_1389:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1390:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0448949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0448949; BYTE $0x10 // mov    qword [r8 + 8*rdx + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0448949; BYTE $0x18 // mov    qword [r8 + 8*rdx + 24], rax
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1390
-	JMP  LBB4_1655
-
-LBB4_298:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB4_491
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB4_1655
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_713
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1025
-
-LBB4_303:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_716
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1141
-
-LBB4_306:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_719
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1146
-
-LBB4_309:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_722
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1151
-
-LBB4_312:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_725
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1157
-
-LBB4_315:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_317
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_730
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_730
-
-LBB4_317:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1395:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1397
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
-	WORD $0x4e0f; BYTE $0xc7     // cmovle    eax, edi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1397:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1399:
-	LONG $0x1104b60f               // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x3c894166; BYTE $0x50   // mov    word [r8 + 2*rdx], di
-	LONG $0x1144b60f; BYTE $0x01   // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1399
-	JMP  LBB4_1655
-
-LBB4_318:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_320
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_735
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_735
-
-LBB4_320:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1404:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1406
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
-	WORD $0x4e0f; BYTE $0xc7     // cmovle    eax, edi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1406:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1408:
-	LONG $0x1104b60f               // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x3c894166; BYTE $0x50   // mov    word [r8 + 2*rdx], di
-	LONG $0x1144b60f; BYTE $0x01   // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0xc084                   // test    al, al
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0xc084                   // test    al, al
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1408
-	JMP  LBB4_1655
-
-LBB4_321:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_738
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1031
-
-LBB4_324:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_741
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1036
-
-LBB4_327:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_329
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_746
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_746
-
-LBB4_329:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1413:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1415
-
-LBB4_1414:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1414
-
-LBB4_1415:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1416:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], ax
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1416
-	JMP  LBB4_1655
-
-LBB4_330:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_332
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_751
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_751
-
-LBB4_332:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1421:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1423
-
-LBB4_1422:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1422
-
-LBB4_1423:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1424:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], ax
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1424
-	JMP  LBB4_1655
-
-LBB4_333:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_335
-	LONG $0x59148d4a         // lea    rdx, [rcx + 2*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_756
-	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_756
-
-LBB4_335:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1429:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1431
-	LONG $0x0cb70f44; BYTE $0x51 // movzx    r9d, word [rcx + 2*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1431:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1433:
-	LONG $0x513cb70f               // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031                   // xor    eax, eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f7                   // neg    eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	LONG $0x5144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rdx + 2]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
-	JNE  LBB4_1433
-	JMP  LBB4_1655
-
-LBB4_336:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_338
-	LONG $0x59148d4a         // lea    rdx, [rcx + 2*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_761
-	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_761
-
-LBB4_338:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1438:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1440
-	LONG $0x0cb70f44; BYTE $0x51 // movzx    r9d, word [rcx + 2*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	LONG $0xc9854566             // test    r9w, r9w
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1440:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1442:
-	LONG $0x513cb70f               // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031                   // xor    eax, eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f7                   // neg    eax
-	WORD $0x8566; BYTE $0xff       // test    di, di
-	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	LONG $0x5144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rdx + 2]
-	WORD $0xff31                   // xor    edi, edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	LONG $0xd7950f40               // setne    dil
-	WORD $0xdff7                   // neg    edi
-	WORD $0x8566; BYTE $0xc0       // test    ax, ax
-	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
-	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
-	JNE  LBB4_1442
-	JMP  LBB4_1655
-
-LBB4_339:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_764
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1041
-
-LBB4_342:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_767
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1163
-
-LBB4_345:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_770
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1169
-
-LBB4_348:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_773
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1175
-
-LBB4_351:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_353
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_778
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_778
-
-LBB4_353:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1447:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1449
-
-LBB4_1448:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1448
-
-LBB4_1449:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1450:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], ax
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1450
-	JMP  LBB4_1655
-
-LBB4_354:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_356
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_783
-	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_783
-
-LBB4_356:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1455:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1457
-
-LBB4_1456:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1456
-
-LBB4_1457:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1458:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], ax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0x44894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], ax
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1458
-	JMP  LBB4_1655
-
-LBB4_357:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_786
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1047
-
-LBB4_360:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_789
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1053
-
-LBB4_363:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_792
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1181
-
-LBB4_366:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_795
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1186
-
-LBB4_369:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_798
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1194
-
-LBB4_372:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_801
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1200
-
-LBB4_375:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_377
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_806
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_806
-
-LBB4_377:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1463:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1465
-	WORD $0x048a; BYTE $0x11     // mov    al, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
-	LONG $0xc74e0f48             // cmovle    rax, rdi
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1465:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1467:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xc084                 // test    al, al
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1467
-	JMP  LBB4_1655
-
-LBB4_378:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_380
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_811
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_811
-
-LBB4_380:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1472:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x01a8             // test    al, 1
-	JE   LBB4_1479
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	JNE  LBB4_1475
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	JMP  LBB4_1476
-
-LBB4_381:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_383
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_816
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_816
-
-LBB4_383:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1494:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1496
-
-LBB4_1495:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1495
-
-LBB4_1496:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1497:
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0048949               // mov    qword [r8 + 8*rdx], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0448949; BYTE $0x08   // mov    qword [r8 + 8*rdx + 8], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0448949; BYTE $0x10   // mov    qword [r8 + 8*rdx + 16], rax
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	LONG $0xd0448949; BYTE $0x18   // mov    qword [r8 + 8*rdx + 24], rax
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1497
-	JMP  LBB4_1655
-
-LBB4_384:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0xff728d48         // lea    rsi, [rdx - 1]
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JAE  LBB4_819
-	WORD $0xf631             // xor    esi, esi
-
-LBB4_387:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1655
-	LONG $0xb0148d49         // lea    rdx, [r8 + 4*rsi]
-	LONG $0xf10c8d48         // lea    rcx, [rcx + 8*rsi]
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000012885100ff3 // movss    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_390
-
-LBB4_389:
-	LONG $0x0c110ff3; BYTE $0xb2 // movss    dword [rdx + 4*rsi], xmm1
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JE   LBB4_1655
-
-LBB4_390:
-	LONG $0xf13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rsi], 0
-	LONG $0xc8280f66             // movapd    xmm1, xmm0
-	JNE  LBB4_389
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	JMP  LBB4_389
-
-LBB4_392:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_829
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1059
-
-LBB4_395:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_832
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1208
-
-LBB4_398:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_835
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1216
-
-LBB4_401:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_838
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1222
-
-LBB4_404:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_406
-	LONG $0xd9148d4a         // lea    rdx, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_843
-	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_843
-
-LBB4_406:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1502:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1504
-	LONG $0xd10c8b4c             // mov    r9, qword [rcx + 8*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0x854d; BYTE $0xc9     // test    r9, r9
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f49             // cmovle    rdi, r10
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1504:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1506:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	LONG $0xc64f0f48             // cmovg    rax, rsi
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	LONG $0xd1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rdx + 8]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xfe4f0f48             // cmovg    rdi, rsi
-	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1506
-	JMP  LBB4_1655
-
-LBB4_407:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_846
-	WORD $0xc031             // xor    eax, eax
-
-LBB4_410:
-	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
-	JE   LBB4_1655
-	LONG $0xc13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rax], 0
-	JNE  LBB4_989
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	JMP  LBB4_990
-
-LBB4_413:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xca // mov    edx, r9d
-	LONG $0x01f98341         // cmp    r9d, 1
-	JNE  LBB4_856
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB4_416
-
-LBB4_419:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_421
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_866
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_866
-
-LBB4_421:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_869:
-	WORD $0x8948; BYTE $0xd6       // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6       // not    rsi
-	WORD $0x01a8                   // test    al, 1
-	JE   LBB4_871
-	LONG $0x04100ff3; BYTE $0x91   // movss    xmm0, dword [rcx + 4*rdx]
-	WORD $0x500f; BYTE $0xf8       // movmskps    edi, xmm0
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	WORD $0x570f; BYTE $0xc9       // xorps    xmm1, xmm1
-	LONG $0xcf2a0ff3               // cvtsi2ss    xmm1, edi
-	WORD $0x570f; BYTE $0xd2       // xorps    xmm2, xmm2
-	LONG $0xd0c20ff3; BYTE $0x00   // cmpeqss    xmm2, xmm0
-	WORD $0x550f; BYTE $0xd1       // andnps    xmm2, xmm1
-	LONG $0x110f41f3; WORD $0x9014 // movss    dword [r8 + 4*rdx], xmm2
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_871:
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	JE   LBB4_1655
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-
-LBB4_873:
-	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
-	WORD $0x500f; BYTE $0xf1                   // movmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01                   // and    esi, 1
-	WORD $0xdef7                               // neg    esi
-	WORD $0xce83; BYTE $0x01                   // or    esi, 1
-	WORD $0x570f; BYTE $0xd2                   // xorps    xmm2, xmm2
-	LONG $0xd62a0ff3                           // cvtsi2ss    xmm2, esi
-	LONG $0xc8c20ff3; BYTE $0x00               // cmpeqss    xmm1, xmm0
-	WORD $0x550f; BYTE $0xca                   // andnps    xmm1, xmm2
-	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
-	WORD $0x500f; BYTE $0xf1                   // movmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01                   // and    esi, 1
-	WORD $0xdef7                               // neg    esi
-	WORD $0xce83; BYTE $0x01                   // or    esi, 1
-	WORD $0x570f; BYTE $0xd2                   // xorps    xmm2, xmm2
-	LONG $0xd62a0ff3                           // cvtsi2ss    xmm2, esi
-	LONG $0xc8c20ff3; BYTE $0x00               // cmpeqss    xmm1, xmm0
-	WORD $0x550f; BYTE $0xca                   // andnps    xmm1, xmm2
-	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB4_873
-	JMP  LBB4_1655
-
-LBB4_422:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_424
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_876
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_876
-
-LBB4_424:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1511:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1513
-
-LBB4_1512:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB4_1512
-
-LBB4_1513:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1514:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0448949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0448949; BYTE $0x10 // mov    qword [r8 + 8*rdx + 16], rax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0xd0448949; BYTE $0x18 // mov    qword [r8 + 8*rdx + 24], rax
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1514
-	JMP  LBB4_1655
-
-LBB4_425:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_427
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_881
-	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_881
-
-LBB4_427:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1519:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1524
-	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1522
-
-LBB4_1521:
-	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JE   LBB4_1524
-
-LBB4_1522:
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xc86f0f66 // movdqa    xmm1, xmm0
-	JNE  LBB4_1521
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-	JMP  LBB4_1521
-
-LBB4_428:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_884
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1064
-
-LBB4_431:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_887
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1070
-
-LBB4_434:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_436
-	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_892
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_892
-
-LBB4_436:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1539:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1541
-
-LBB4_1540:
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1540
-
-LBB4_1541:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1542:
-	LONG $0x00913c83               // cmp    dword [rcx + 4*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x04917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x08917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x0c917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 12], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1542
-	JMP  LBB4_1655
-
-LBB4_437:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_439
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_897
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_897
-
-LBB4_439:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1547:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	WORD $0x01a8                 // test    al, 1
-	JE   LBB4_1549
-	LONG $0x04100ff2; BYTE $0xd1 // movsd    xmm0, qword [rcx + 8*rdx]
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0xc82e0f66             // ucomisd    xmm1, xmm0
-	LONG $0x45540f66; BYTE $0x00 // andpd    xmm0, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x000001108d100ff2     // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	LONG $0xc8560f66             // orpd    xmm1, xmm0
-	LONG $0xf92c0ff2             // cvttsd2si    edi, xmm1
-	LONG $0xf9440f41             // cmove    edi, r9d
-	LONG $0x103c8841             // mov    byte [r8 + rdx], dil
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1549:
-	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
-	JE   LBB4_1655
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1551:
-	LONG $0x1c100ff2; BYTE $0xd1   // movsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xc32e0f66               // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xda560f66               // orpd    xmm3, xmm2
-	LONG $0xfb2c0ff2               // cvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x103c8841               // mov    byte [r8 + rdx], dil
-	LONG $0x5c100ff2; WORD $0x08d1 // movsd    xmm3, qword [rcx + 8*rdx + 8]
-	LONG $0xc32e0f66               // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xda560f66               // orpd    xmm3, xmm2
-	LONG $0xfb2c0ff2               // cvttsd2si    edi, xmm3
-	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
-	LONG $0x107c8841; BYTE $0x01   // mov    byte [r8 + rdx + 1], dil
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1551
-	JMP  LBB4_1655
-
-LBB4_440:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_442
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_902
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_902
-
-LBB4_442:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1556:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1558
-	LONG $0x313c8a40             // mov    dil, byte [rcx + rsi]
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8440; BYTE $0xff     // test    dil, dil
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1558:
-	WORD $0x014c; BYTE $0xd0     // add    rax, r10
-	JE   LBB4_1655
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-
-LBB4_1560:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0xc084                 // test    al, al
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc084                 // test    al, al
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	WORD $0xc084                 // test    al, al
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc084                 // test    al, al
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1560
-	JMP  LBB4_1655
-
-LBB4_443:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_445
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_907
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_907
-
-LBB4_445:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1565:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1567
-
-LBB4_1566:
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1566
-
-LBB4_1567:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1568:
-	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1568
-	JMP  LBB4_1655
-
-LBB4_446:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_448
-	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_912
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_912
-
-LBB4_448:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1573:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1575
-
-LBB4_1574:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1574
-
-LBB4_1575:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1576:
-	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1576
-	JMP  LBB4_1655
-
-LBB4_449:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB4_451
-	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_917
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_917
-
-LBB4_451:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1581:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1583
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1583:
-	WORD $0x014c; BYTE $0xd0       // add    rax, r10
-	JE   LBB4_1655
-	LONG $0x0001b941; WORD $0x0000 // mov    r9d, 1
-
-LBB4_1585:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8566; BYTE $0xff     // test    di, di
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x7144b70f; BYTE $0x02 // movzx    eax, word [rcx + 2*rsi + 2]
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8566; BYTE $0xc0     // test    ax, ax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1585
-	JMP  LBB4_1655
-
-LBB4_452:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB4_454
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_922
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_922
-
-LBB4_454:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1590:
-	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2     // not    rdx
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1592
-	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0x4e0f; BYTE $0xf8     // cmovle    edi, eax
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1592:
-	WORD $0x014c; BYTE $0xd2     // add    rdx, r10
-	JE   LBB4_1655
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-
-LBB4_1594:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1594
-	JMP  LBB4_1655
-
-LBB4_455:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_457
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_927
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_927
-
-LBB4_457:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1599:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1601
-	LONG $0x046e0f66; BYTE $0x91 // movd    xmm0, dword [rcx + 4*rdx]
-	LONG $0xc77e0f66             // movd    edi, xmm0
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x990f; BYTE $0xd0     // setns    al
-	WORD $0xc000                 // add    al, al
-	WORD $0xff04                 // add    al, -1
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	WORD $0x2e0f; BYTE $0xc8     // ucomiss    xmm1, xmm0
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	WORD $0x440f; BYTE $0xc7     // cmove    eax, edi
-	LONG $0x10048841             // mov    byte [r8 + rdx], al
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1601:
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	JE   LBB4_1655
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-
-LBB4_1603:
-	LONG $0x0c6e0f66; BYTE $0x91   // movd    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc87e0f66               // movd    eax, xmm1
-	WORD $0xc085                   // test    eax, eax
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10048841               // mov    byte [r8 + rdx], al
-	LONG $0x4c6e0f66; WORD $0x0491 // movd    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc87e0f66               // movd    eax, xmm1
-	WORD $0xc085                   // test    eax, eax
-	WORD $0x990f; BYTE $0xd0       // setns    al
-	WORD $0xc000                   // add    al, al
-	WORD $0xff04                   // add    al, -1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
-	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
-	LONG $0x10448841; BYTE $0x01   // mov    byte [r8 + rdx + 1], al
-	LONG $0x02c28348               // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
-	JNE  LBB4_1603
-	JMP  LBB4_1655
-
-LBB4_458:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB4_460
-	LONG $0x01148d48         // lea    rdx, [rcx + rax]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_932
-	LONG $0x00148d49         // lea    rdx, [r8 + rax]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_932
-
-LBB4_460:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1608:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1610
-
-LBB4_1609:
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB4_1609
-
-LBB4_1610:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1611:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
-	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
-	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
-	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
-	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
-	LONG $0x04c28348               // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JNE  LBB4_1611
-	JMP  LBB4_1655
-
-LBB4_461:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_463
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_937
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_937
-
-LBB4_463:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1616:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0     // not    rax
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1618
-	WORD $0x3c8b; BYTE $0xb1     // mov    edi, dword [rcx + 4*rsi]
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0xff85                 // test    edi, edi
-	LONG $0xc9b60f45             // movzx    r9d, r9b
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xf94e0f41             // cmovle    edi, r9d
-	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
-	LONG $0x01ce8348             // or    rsi, 1
-
-LBB4_1618:
-	WORD $0x014c; BYTE $0xd0       // add    rax, r10
-	JE   LBB4_1655
-	LONG $0x0001b941; WORD $0x0000 // mov    r9d, 1
-
-LBB4_1620:
-	WORD $0x3c8b; BYTE $0xb1     // mov    edi, dword [rcx + 4*rsi]
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xff85                 // test    edi, edi
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xc085                 // test    eax, eax
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc14f0f41             // cmovg    eax, r9d
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1620
-	JMP  LBB4_1655
-
-LBB4_464:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_466
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_942
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_942
-
-LBB4_466:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1625:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1627
-
-LBB4_1626:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB4_1626
-
-LBB4_1627:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1628:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x04917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 4], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x08917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 8], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x0c917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 12], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], eax
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1628
-	JMP  LBB4_1655
-
-LBB4_467:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_945
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_1080
-
-LBB4_470:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_472
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_950
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_950
-
-LBB4_472:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1633:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1635
-	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
-	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
-	WORD $0x4e0f; BYTE $0xc7     // cmovle    eax, edi
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1635:
-	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1637:
-	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc084                 // test    al, al
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc084                 // test    al, al
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1637
-	JMP  LBB4_1655
-
-LBB4_473:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_953
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1086
-
-LBB4_476:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_956
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1091
-
-LBB4_479:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_959
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1096
-
-LBB4_482:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB4_962
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_1102
-
-LBB4_485:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB4_965
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_968
-
-LBB4_488:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_490
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_974
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_974
-
-LBB4_490:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1642:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
-	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB4_1644
-
-LBB4_1643:
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB4_1643
-
-LBB4_1644:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB4_1655
-
-LBB4_1645:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], eax
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	LONG $0x90448941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], eax
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1645
-	JMP  LBB4_1655
-
-LBB4_491:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB4_1655
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB4_493
-	LONG $0x99148d4a         // lea    rdx, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB4_979
-	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB4_979
-
-LBB4_493:
-	WORD $0xd231 // xor    edx, edx
-
-LBB4_1650:
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6     // not    rsi
-	LONG $0x01c3f641             // test    r11b, 1
-	JE   LBB4_1652
-	LONG $0x910c8b44             // mov    r9d, dword [rcx + 4*rdx]
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf741; BYTE $0xda     // neg    r10d
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	LONG $0xfa4e0f41             // cmovle    edi, r10d
-	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
-	LONG $0x01ca8348             // or    rdx, 1
-
-LBB4_1652:
-	WORD $0x014c; BYTE $0xde     // add    rsi, r11
-	JE   LBB4_1655
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1654:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
-	LONG $0x0491448b             // mov    eax, dword [rcx + 4*rdx + 4]
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xc085                 // test    eax, eax
-	LONG $0xd7950f40             // setne    dil
-	WORD $0xdff7                 // neg    edi
-	WORD $0xc085                 // test    eax, eax
-	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
-	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
-	JNE  LBB4_1654
-	JMP  LBB4_1655
-
-LBB4_1524:
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JB   LBB4_1655
-	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1527
-
-LBB4_1526:
-	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x0c // movd    dword [r8 + 4*rdx + 12], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1527:
-	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
-	LONG $0xc86f0f66               // movdqa    xmm1, xmm0
-	JNE  LBB4_1528
-	LONG $0xc9ef0f66               // pxor    xmm1, xmm1
-	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xc86f0f66               // movdqa    xmm1, xmm0
-	JE   LBB4_1532
-
-LBB4_1529:
-	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x04 // movd    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	JNE  LBB4_1530
-
-LBB4_1533:
-	LONG $0xc9ef0f66                           // pxor    xmm1, xmm1
-	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x08 // movd    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	JNE  LBB4_1526
-	JMP  LBB4_1534
-
-LBB4_1528:
-	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xc86f0f66               // movdqa    xmm1, xmm0
-	JNE  LBB4_1529
-
-LBB4_1532:
-	LONG $0xc9ef0f66                           // pxor    xmm1, xmm1
-	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x04 // movd    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	JE   LBB4_1533
-
-LBB4_1530:
-	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x08 // movd    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	JNE  LBB4_1526
-
-LBB4_1534:
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-	JMP  LBB4_1526
-
-LBB4_499:
-	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB4_1106
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_501:
-	LONG $0x2c100f66; BYTE $0xf9   // movupd    xmm5, oword [rcx + 8*rdi]
-	LONG $0x74100f66; WORD $0x10f9 // movupd    xmm6, oword [rcx + 8*rdi + 16]
-	LONG $0xdd280f66               // movapd    xmm3, xmm5
-	LONG $0xd8c20f66; BYTE $0x00   // cmpeqpd    xmm3, xmm0
-	LONG $0xe8dbc60f               // shufps    xmm3, xmm3, 232
-	LONG $0xe6280f66               // movapd    xmm4, xmm6
-	LONG $0xe0c20f66; BYTE $0x00   // cmpeqpd    xmm4, xmm0
-	LONG $0xe9540f66               // andpd    xmm5, xmm1
-	LONG $0xea560f66               // orpd    xmm5, xmm2
-	LONG $0xf1540f66               // andpd    xmm6, xmm1
-	LONG $0xf2560f66               // orpd    xmm6, xmm2
-	LONG $0xfd700f66; BYTE $0xee   // pshufd    xmm7, xmm5, 238
-	LONG $0x2c0f48f2; BYTE $0xc7   // cvttsd2si    rax, xmm7
-	LONG $0x2c0f48f2; BYTE $0xdd   // cvttsd2si    rbx, xmm5
-	LONG $0xeb6e0f66               // movd    xmm5, ebx
-	LONG $0x223a0f66; WORD $0x01e8 // pinsrd    xmm5, eax, 1
-	LONG $0xfe700f66; BYTE $0xee   // pshufd    xmm7, xmm6, 238
-	LONG $0x2c0f48f2; BYTE $0xc7   // cvttsd2si    rax, xmm7
-	LONG $0x2c0f48f2; BYTE $0xde   // cvttsd2si    rbx, xmm6
-	LONG $0xe8e4c60f               // shufps    xmm4, xmm4, 232
-	LONG $0xf36e0f66               // movd    xmm6, ebx
-	LONG $0x223a0f66; WORD $0x01f0 // pinsrd    xmm6, eax, 1
-	WORD $0x550f; BYTE $0xdd       // andnps    xmm3, xmm5
-	WORD $0x550f; BYTE $0xe6       // andnps    xmm4, xmm6
-	WORD $0x160f; BYTE $0xdc       // movlhps    xmm3, xmm4
-	LONG $0x1c110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm3
-	LONG $0x6c100f66; WORD $0x20f9 // movupd    xmm5, oword [rcx + 8*rdi + 32]
-	LONG $0x74100f66; WORD $0x30f9 // movupd    xmm6, oword [rcx + 8*rdi + 48]
-	LONG $0xdd280f66               // movapd    xmm3, xmm5
-	LONG $0xd8c20f66; BYTE $0x00   // cmpeqpd    xmm3, xmm0
-	LONG $0xe8dbc60f               // shufps    xmm3, xmm3, 232
-	LONG $0xe6280f66               // movapd    xmm4, xmm6
-	LONG $0xe0c20f66; BYTE $0x00   // cmpeqpd    xmm4, xmm0
-	LONG $0xe8e4c60f               // shufps    xmm4, xmm4, 232
-	LONG $0xe9540f66               // andpd    xmm5, xmm1
-	LONG $0xea560f66               // orpd    xmm5, xmm2
-	LONG $0xf1540f66               // andpd    xmm6, xmm1
-	LONG $0xfd700f66; BYTE $0xee   // pshufd    xmm7, xmm5, 238
-	LONG $0x2c0f48f2; BYTE $0xc7   // cvttsd2si    rax, xmm7
-	LONG $0xf2560f66               // orpd    xmm6, xmm2
-	LONG $0x2c0f48f2; BYTE $0xdd   // cvttsd2si    rbx, xmm5
-	LONG $0xeb6e0f66               // movd    xmm5, ebx
-	LONG $0x223a0f66; WORD $0x01e8 // pinsrd    xmm5, eax, 1
-	WORD $0x550f; BYTE $0xdd       // andnps    xmm3, xmm5
-	LONG $0xee700f66; BYTE $0xee   // pshufd    xmm5, xmm6, 238
-	LONG $0x2c0f48f2; BYTE $0xc5   // cvttsd2si    rax, xmm5
-	LONG $0x2c0f48f2; BYTE $0xde   // cvttsd2si    rbx, xmm6
-	LONG $0xeb6e0f66               // movd    xmm5, ebx
-	LONG $0x223a0f66; WORD $0x01e8 // pinsrd    xmm5, eax, 1
-	WORD $0x550f; BYTE $0xe5       // andnps    xmm4, xmm5
-	WORD $0x160f; BYTE $0xdc       // movlhps    xmm3, xmm4
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c28348               // add    rdx, 2
-	JNE  LBB4_501
-	JMP  LBB4_1107
-
-LBB4_507:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_994
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000a08d6f0f66 // movdqa    xmm1, oword 160[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_509:
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
-	LONG $0x546f0ff3; WORD $0x20f1             // movdqu    xmm2, oword [rcx + 8*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30f1             // movdqu    xmm3, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm2
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_509
-	JMP  LBB4_995
-
-LBB4_510:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1112
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_512:
-	LONG $0x1c7e0ff3; BYTE $0x71               // movq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647e0ff3; WORD $0x0871             // movq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x33380f66; BYTE $0xdb               // pmovzxwd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x33380f66; BYTE $0xe4               // pmovzxwd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb01c             // movdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x1071             // movq    xmm3, qword [rcx + 2*rsi + 16]
-	LONG $0x647e0ff3; WORD $0x1871             // movq    xmm4, qword [rcx + 2*rsi + 24]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x33380f66; BYTE $0xdb               // pmovzxwd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x33380f66; BYTE $0xe4               // pmovzxwd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_512
-	JMP  LBB4_1113
-
-LBB4_513:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1117
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	LONG $0x5065280f         // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_515:
-	LONG $0x2c7e0ff3; BYTE $0x71   // movq    xmm5, qword [rcx + 2*rsi]
-	LONG $0x747e0ff3; WORD $0x0871 // movq    xmm6, qword [rcx + 2*rsi + 8]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x1071 // movq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747e0ff3; WORD $0x1871 // movq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_515
-	JMP  LBB4_1118
-
-LBB4_516:
-	WORD $0x8944; BYTE $0xd2                   // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc                   // and    edx, -4
-	LONG $0xfc728d48                           // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	LONG $0x02e9c149                           // shr    r9, 2
-	LONG $0x01c18349                           // add    r9, 1
-	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
-	JE   LBB4_1123
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0xfee78348                           // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf                   // neg    rdi
-	WORD $0xf631                               // xor    esi, esi
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xa0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 160[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_518:
-	LONG $0x2c6f0ff3; BYTE $0xf1   // movdqu    xmm5, oword [rcx + 8*rsi]
-	LONG $0x746f0ff3; WORD $0x10f1 // movdqu    xmm6, oword [rcx + 8*rsi + 16]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
-	LONG $0xed700f66; BYTE $0xe8   // pshufd    xmm5, xmm5, 232
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
-	LONG $0xf6700f66; BYTE $0xe8   // pshufd    xmm6, xmm6, 232
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20f1 // movdqu    xmm5, oword [rcx + 8*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30f1 // movdqu    xmm6, oword [rcx + 8*rsi + 48]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
-	LONG $0xed700f66; BYTE $0xe8   // pshufd    xmm5, xmm5, 232
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
-	LONG $0xf6700f66; BYTE $0xe8   // pshufd    xmm6, xmm6, 232
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
-	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
-	LONG $0x08c68348               // add    rsi, 8
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_518
-	JMP  LBB4_1124
-
-LBB4_519:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc     // and    edx, -4
-	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1129
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x605d280f             // movaps    xmm3, oword 96[rbp] /* [rip + .LCPI4_10] */
-	LONG $0x3065280f             // movaps    xmm4, oword 48[rbp] /* [rip + .LCPI4_4] */
-
-LBB4_521:
-	LONG $0x2c6f0ff3; BYTE $0xb1   // movdqu    xmm5, oword [rcx + 4*rsi]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xe0720f66; BYTE $0x1f   // psrad    xmm0, 31
-	LONG $0xc2eb0f66               // por    xmm0, xmm2
-	WORD $0x5b0f; BYTE $0xf0       // cvtdq2ps    xmm6, xmm0
-	WORD $0x280f; BYTE $0xc6       // movaps    xmm0, xmm6
-	LONG $0x01c3c20f               // cmpltps    xmm0, xmm3
-	LONG $0xfe5b0ff3               // cvttps2dq    xmm7, xmm6
-	WORD $0x5c0f; BYTE $0xf3       // subps    xmm6, xmm3
-	LONG $0xf65b0ff3               // cvttps2dq    xmm6, xmm6
-	WORD $0x570f; BYTE $0xf4       // xorps    xmm6, xmm4
-	LONG $0x14380f66; BYTE $0xf7   // blendvps    xmm6, xmm7, xmm0
-	LONG $0x04e9c20f               // cmpneqps    xmm5, xmm1
-	WORD $0x540f; BYTE $0xee       // andps    xmm5, xmm6
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x6c6f0ff3; WORD $0x10b1 // movdqu    xmm5, oword [rcx + 4*rsi + 16]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xe0720f66; BYTE $0x1f   // psrad    xmm0, 31
-	LONG $0xc2eb0f66               // por    xmm0, xmm2
-	WORD $0x5b0f; BYTE $0xf0       // cvtdq2ps    xmm6, xmm0
-	WORD $0x280f; BYTE $0xc6       // movaps    xmm0, xmm6
-	LONG $0x01c3c20f               // cmpltps    xmm0, xmm3
-	LONG $0xfe5b0ff3               // cvttps2dq    xmm7, xmm6
-	WORD $0x5c0f; BYTE $0xf3       // subps    xmm6, xmm3
-	LONG $0xf65b0ff3               // cvttps2dq    xmm6, xmm6
-	WORD $0x570f; BYTE $0xf4       // xorps    xmm6, xmm4
-	LONG $0x14380f66; BYTE $0xf7   // blendvps    xmm6, xmm7, xmm0
-	LONG $0x04e9c20f               // cmpneqps    xmm5, xmm1
-	WORD $0x540f; BYTE $0xee       // andps    xmm5, xmm6
-	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
-	LONG $0x08c68348               // add    rsi, 8
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_521
-	JMP  LBB4_1130
-
-LBB4_532:
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_534
-
-LBB4_533:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JE   LBB4_101
-
-LBB4_534:
-	LONG $0x00b13c83               // cmp    dword [rcx + 4*rsi], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_535
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x04b17c83; BYTE $0x00   // cmp    dword [rcx + 4*rsi + 4], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JE   LBB4_539
-
-LBB4_536:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x08b17c83; BYTE $0x00               // cmp    dword [rcx + 4*rsi + 8], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_537
-
-LBB4_540:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x0cb17c83; BYTE $0x00               // cmp    dword [rcx + 4*rsi + 12], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_533
-	JMP  LBB4_541
-
-LBB4_535:
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x04b17c83; BYTE $0x00   // cmp    dword [rcx + 4*rsi + 4], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_536
-
-LBB4_539:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x08b17c83; BYTE $0x00               // cmp    dword [rcx + 4*rsi + 8], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JE   LBB4_540
-
-LBB4_537:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x0cb17c83; BYTE $0x00               // cmp    dword [rcx + 4*rsi + 12], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_533
-
-LBB4_541:
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_533
-
-LBB4_547:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
-	QUAD $0x000001108d100ff2 // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_549
-
-LBB4_548:
-	LONG $0x110f41f2; WORD $0xc05c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm3
-	LONG $0x02c08348                           // add    rax, 2
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_120
-
-LBB4_549:
-	LONG $0x00013c80 // cmp    byte [rcx + rax], 0
-	LONG $0xd0280f66 // movapd    xmm2, xmm0
-	JNE  LBB4_550
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JLE  LBB4_554
-
-LBB4_551:
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x01017c80; BYTE $0x00   // cmp    byte [rcx + rax + 1], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JNE  LBB4_552
-
-LBB4_555:
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_548
-	JMP  LBB4_556
-
-LBB4_550:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_551
-
-LBB4_554:
-	LONG $0xda280f66               // movapd    xmm3, xmm2
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x01017c80; BYTE $0x00   // cmp    byte [rcx + rax + 1], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JE   LBB4_555
-
-LBB4_552:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_548
-
-LBB4_556:
-	LONG $0xda280f66 // movapd    xmm3, xmm2
-	JMP  LBB4_548
-
-LBB4_557:
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_559
-
-LBB4_558:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JE   LBB4_130
-
-LBB4_559:
-	LONG $0xf13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rsi], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_560
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0xf17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rsi + 8], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JE   LBB4_564
-
-LBB4_561:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0xf17c8348; WORD $0x0010             // cmp    qword [rcx + 8*rsi + 16], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_562
-
-LBB4_565:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0xf17c8348; WORD $0x0018             // cmp    qword [rcx + 8*rsi + 24], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_558
-	JMP  LBB4_566
-
-LBB4_560:
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0xf17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rsi + 8], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_561
-
-LBB4_564:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0xf17c8348; WORD $0x0010             // cmp    qword [rcx + 8*rsi + 16], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JE   LBB4_565
-
-LBB4_562:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0xf17c8348; WORD $0x0018             // cmp    qword [rcx + 8*rsi + 24], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_558
-
-LBB4_566:
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_558
-
-LBB4_567:
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_569
-
-LBB4_568:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JE   LBB4_142
-
-LBB4_569:
-	LONG $0x713c8366; BYTE $0x00   // cmp    word [rcx + 2*rsi], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_570
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x717c8366; WORD $0x0002 // cmp    word [rcx + 2*rsi + 2], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JE   LBB4_574
-
-LBB4_571:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x717c8366; WORD $0x0004             // cmp    word [rcx + 2*rsi + 4], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_572
-
-LBB4_575:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x717c8366; WORD $0x0006             // cmp    word [rcx + 2*rsi + 6], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_568
-	JMP  LBB4_576
-
-LBB4_570:
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x717c8366; WORD $0x0002 // cmp    word [rcx + 2*rsi + 2], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_571
-
-LBB4_574:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x717c8366; WORD $0x0004             // cmp    word [rcx + 2*rsi + 4], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JE   LBB4_575
-
-LBB4_572:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x717c8366; WORD $0x0006             // cmp    word [rcx + 2*rsi + 6], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_568
-
-LBB4_576:
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_568
-
-LBB4_577:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
-	QUAD $0x000001108d100ff2 // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_579
-
-LBB4_578:
-	LONG $0x110f41f2; WORD $0xc05c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm3
-	LONG $0x02c08348                           // add    rax, 2
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_154
-
-LBB4_579:
-	LONG $0x413c8366; BYTE $0x00 // cmp    word [rcx + 2*rax], 0
-	LONG $0xd0280f66             // movapd    xmm2, xmm0
-	JNE  LBB4_580
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0xd9280f66             // movapd    xmm3, xmm1
-	JLE  LBB4_584
-
-LBB4_581:
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x417c8366; WORD $0x0002 // cmp    word [rcx + 2*rax + 2], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JNE  LBB4_582
-
-LBB4_585:
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_578
-	JMP  LBB4_586
-
-LBB4_580:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_581
-
-LBB4_584:
-	LONG $0xda280f66               // movapd    xmm3, xmm2
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x417c8366; WORD $0x0002 // cmp    word [rcx + 2*rax + 2], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JE   LBB4_585
-
-LBB4_582:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_578
-
-LBB4_586:
-	LONG $0xda280f66 // movapd    xmm3, xmm2
-	JMP  LBB4_578
-
-LBB4_587:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
-	QUAD $0x000001108d100ff2 // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_589
-
-LBB4_588:
-	LONG $0x110f41f2; WORD $0xc05c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm3
-	LONG $0x02c08348                           // add    rax, 2
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_164
-
-LBB4_589:
-	LONG $0xc13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rax], 0
-	LONG $0xd0280f66             // movapd    xmm2, xmm0
-	JNE  LBB4_590
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0xd9280f66             // movapd    xmm3, xmm1
-	JLE  LBB4_594
-
-LBB4_591:
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0xc17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rax + 8], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JNE  LBB4_592
-
-LBB4_595:
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_588
-	JMP  LBB4_596
-
-LBB4_590:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_591
-
-LBB4_594:
-	LONG $0xda280f66               // movapd    xmm3, xmm2
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0xc17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rax + 8], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JE   LBB4_595
-
-LBB4_592:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_588
-
-LBB4_596:
-	LONG $0xda280f66 // movapd    xmm3, xmm2
-	JMP  LBB4_588
-
-LBB4_597:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-	JMP  LBB4_599
-
-LBB4_598:
-	LONG $0x110f41f2; WORD $0xc04c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm1
-	LONG $0x02c08348                           // add    rax, 2
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_174
-
-LBB4_599:
-	LONG $0x14100ff3; BYTE $0x81 // movss    xmm2, dword [rcx + 4*rax]
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	WORD $0x2e0f; BYTE $0xc2     // ucomiss    xmm0, xmm2
-	LONG $0xdb570f66             // xorpd    xmm3, xmm3
-	JE   LBB4_601
-	WORD $0x500f; BYTE $0xfa     // movmskps    edi, xmm2
-	WORD $0xe783; BYTE $0x01     // and    edi, 1
-	WORD $0xdff7                 // neg    edi
-	WORD $0xcf83; BYTE $0x01     // or    edi, 1
-	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
-	LONG $0xd72a0ff3             // cvtsi2ss    xmm2, edi
-	WORD $0x570f; BYTE $0xdb     // xorps    xmm3, xmm3
-	LONG $0xda5a0ff3             // cvtss2sd    xmm3, xmm2
-
-LBB4_601:
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x54100ff3; WORD $0x0481 // movss    xmm2, dword [rcx + 4*rax + 4]
-	WORD $0x2e0f; BYTE $0xc2       // ucomiss    xmm0, xmm2
-	JE   LBB4_598
-	WORD $0x500f; BYTE $0xfa       // movmskps    edi, xmm2
-	WORD $0xe783; BYTE $0x01       // and    edi, 1
-	WORD $0xdff7                   // neg    edi
-	WORD $0xcf83; BYTE $0x01       // or    edi, 1
-	WORD $0x570f; BYTE $0xc9       // xorps    xmm1, xmm1
-	LONG $0xcf2a0ff3               // cvtsi2ss    xmm1, edi
-	LONG $0xc95a0ff3               // cvtss2sd    xmm1, xmm1
-	JMP  LBB4_598
-
-LBB4_603:
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_605
-
-LBB4_604:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JE   LBB4_185
-
-LBB4_605:
-	LONG $0x00313c80               // cmp    byte [rcx + rsi], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_606
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01317c80; BYTE $0x00   // cmp    byte [rcx + rsi + 1], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JE   LBB4_610
-
-LBB4_607:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x02317c80; BYTE $0x00               // cmp    byte [rcx + rsi + 2], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_608
-
-LBB4_611:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x03317c80; BYTE $0x00               // cmp    byte [rcx + rsi + 3], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_604
-	JMP  LBB4_612
-
-LBB4_606:
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01317c80; BYTE $0x00   // cmp    byte [rcx + rsi + 1], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_607
-
-LBB4_610:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x02317c80; BYTE $0x00               // cmp    byte [rcx + rsi + 2], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JE   LBB4_611
-
-LBB4_608:
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x03317c80; BYTE $0x00               // cmp    byte [rcx + rsi + 3], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_604
-
-LBB4_612:
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_604
-
-LBB4_613:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
-	QUAD $0x000001108d100ff2 // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	JMP  LBB4_615
-
-LBB4_614:
-	LONG $0x110f41f2; WORD $0xc05c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm3
-	LONG $0x02c08348                           // add    rax, 2
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_197
-
-LBB4_615:
-	LONG $0x00813c83 // cmp    dword [rcx + 4*rax], 0
-	LONG $0xd0280f66 // movapd    xmm2, xmm0
-	JNE  LBB4_616
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JLE  LBB4_620
-
-LBB4_617:
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x04817c83; BYTE $0x00   // cmp    dword [rcx + 4*rax + 4], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JNE  LBB4_618
-
-LBB4_621:
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_614
-	JMP  LBB4_622
-
-LBB4_616:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_617
-
-LBB4_620:
-	LONG $0xda280f66               // movapd    xmm3, xmm2
-	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
-	LONG $0x04817c83; BYTE $0x00   // cmp    dword [rcx + 4*rax + 4], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JE   LBB4_621
-
-LBB4_618:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_614
-
-LBB4_622:
-	LONG $0xda280f66 // movapd    xmm3, xmm2
-	JMP  LBB4_614
-
-LBB4_673:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_999
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_675:
-	LONG $0x1c7e0ff3; BYTE $0xb1               // movq    xmm3, qword [rcx + 4*rsi]
-	LONG $0x647e0ff3; WORD $0x08b1             // movq    xmm4, qword [rcx + 4*rsi + 8]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x35380f66; BYTE $0xdb               // pmovzxdq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x35380f66; BYTE $0xe4               // pmovzxdq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x10b1             // movq    xmm3, qword [rcx + 4*rsi + 16]
-	LONG $0x647e0ff3; WORD $0x18b1             // movq    xmm4, qword [rcx + 4*rsi + 24]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x35380f66; BYTE $0xdb               // pmovzxdq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x35380f66; BYTE $0xe4               // pmovzxdq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_675
-	JMP  LBB4_1000
-
-LBB4_676:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfe     // and    esi, -2
-	LONG $0xfe468d48             // lea    rax, [rsi - 2]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	WORD $0xd149; BYTE $0xe9     // shr    r9, 1
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB4_1004
-	WORD $0x894d; BYTE $0xce     // mov    r14, r9
-	LONG $0xfee68349             // and    r14, -2
-	WORD $0xf749; BYTE $0xde     // neg    r14
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
-	QUAD $0x000001189d100ff2     // movsd    xmm3, qword 280[rbp] /* [rip + .LCPI4_6] */
-
-LBB4_678:
-	LONG $0x24100f66; BYTE $0xf9               // movupd    xmm4, oword [rcx + 8*rdi]
-	LONG $0xec280f66                           // movapd    xmm5, xmm4
-	LONG $0xe9540f66                           // andpd    xmm5, xmm1
-	LONG $0xea560f66                           // orpd    xmm5, xmm2
-	LONG $0xf5280f66                           // movapd    xmm6, xmm5
-	LONG $0xf35c0ff2                           // subsd    xmm6, xmm3
-	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
-	WORD $0x314c; BYTE $0xdb                   // xor    rbx, r11
-	LONG $0x2c0f48f2; BYTE $0xd5               // cvttsd2si    rdx, xmm5
-	LONG $0xeb2e0f66                           // ucomisd    xmm5, xmm3
-	LONG $0xd3430f48                           // cmovae    rdx, rbx
-	LONG $0xed700f66; BYTE $0xee               // pshufd    xmm5, xmm5, 238
-	LONG $0xf56f0f66                           // movdqa    xmm6, xmm5
-	LONG $0xf35c0ff2                           // subsd    xmm6, xmm3
-	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
-	WORD $0x314c; BYTE $0xdb                   // xor    rbx, r11
-	LONG $0x2c0f48f2; BYTE $0xc5               // cvttsd2si    rax, xmm5
-	LONG $0xeb2e0f66                           // ucomisd    xmm5, xmm3
-	LONG $0xc3430f48                           // cmovae    rax, rbx
-	LONG $0x6e0f4866; BYTE $0xea               // movq    xmm5, rdx
-	LONG $0x6e0f4866; BYTE $0xf0               // movq    xmm6, rax
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
-	LONG $0xe5540f66                           // andpd    xmm4, xmm5
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x64100f66; WORD $0x10f9             // movupd    xmm4, oword [rcx + 8*rdi + 16]
-	LONG $0xec280f66                           // movapd    xmm5, xmm4
-	LONG $0xe9540f66                           // andpd    xmm5, xmm1
-	LONG $0xea560f66                           // orpd    xmm5, xmm2
-	LONG $0xf5280f66                           // movapd    xmm6, xmm5
-	LONG $0xf35c0ff2                           // subsd    xmm6, xmm3
-	LONG $0x2c0f48f2; BYTE $0xc6               // cvttsd2si    rax, xmm6
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2c0f48f2; BYTE $0xd5               // cvttsd2si    rdx, xmm5
-	LONG $0xeb2e0f66                           // ucomisd    xmm5, xmm3
-	LONG $0xd0430f48                           // cmovae    rdx, rax
-	LONG $0xed700f66; BYTE $0xee               // pshufd    xmm5, xmm5, 238
-	LONG $0xf56f0f66                           // movdqa    xmm6, xmm5
-	LONG $0xf35c0ff2                           // subsd    xmm6, xmm3
-	LONG $0x2c0f48f2; BYTE $0xc6               // cvttsd2si    rax, xmm6
-	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
-	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
-	LONG $0xeb2e0f66                           // ucomisd    xmm5, xmm3
-	LONG $0xd8430f48                           // cmovae    rbx, rax
-	LONG $0x6e0f4866; BYTE $0xea               // movq    xmm5, rdx
-	LONG $0x6e0f4866; BYTE $0xf3               // movq    xmm6, rbx
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
-	LONG $0xe5540f66                           // andpd    xmm4, xmm5
-	LONG $0x110f4166; WORD $0xf864; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm4
-	LONG $0x04c78348                           // add    rdi, 4
-	LONG $0x02c68349                           // add    r14, 2
-	JNE  LBB4_678
-	JMP  LBB4_1005
-
-LBB4_689:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1010
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_691:
-	LONG $0x1c6e0f66; BYTE $0x71               // movd    xmm3, dword [rcx + 2*rsi]
-	LONG $0x646e0f66; WORD $0x0471             // movd    xmm4, dword [rcx + 2*rsi + 4]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x34380f66; BYTE $0xdb               // pmovzxwq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x34380f66; BYTE $0xe4               // pmovzxwq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x5c6e0f66; WORD $0x0871             // movd    xmm3, dword [rcx + 2*rsi + 8]
-	LONG $0x646e0f66; WORD $0x0c71             // movd    xmm4, dword [rcx + 2*rsi + 12]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x34380f66; BYTE $0xdb               // pmovzxwq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x34380f66; BYTE $0xe4               // pmovzxwq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_691
-	JMP  LBB4_1011
-
-LBB4_692:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1015
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_694:
-	LONG $0x2c6e0f66; BYTE $0x71               // movd    xmm5, dword [rcx + 2*rsi]
-	LONG $0x746e0f66; WORD $0x0471             // movd    xmm6, dword [rcx + 2*rsi + 4]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x24380f66; BYTE $0xed               // pmovsxwq    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x24380f66; BYTE $0xf6               // pmovsxwq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
-	LONG $0x6c6e0f66; WORD $0x0871             // movd    xmm5, dword [rcx + 2*rsi + 8]
-	LONG $0x746e0f66; WORD $0x0c71             // movd    xmm6, dword [rcx + 2*rsi + 12]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x24380f66; BYTE $0xed               // pmovsxwq    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x24380f66; BYTE $0xf6               // pmovsxwq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_694
-	JMP  LBB4_1016
-
-LBB4_700:
-	WORD $0x8944; BYTE $0xd6               // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfe               // and    esi, -2
-	WORD $0xc031                           // xor    eax, eax
-	WORD $0x570f; BYTE $0xc0               // xorps    xmm0, xmm0
-	QUAD $0x0000012c8d100ff3               // movss    xmm1, dword 300[rbp] /* [rip + .LCPI4_9] */
-	QUAD $0x000000000000b949; WORD $0x8000 // mov    r9, -9223372036854775808
-	JMP  LBB4_703
-
-LBB4_701:
-	WORD $0x500f; BYTE $0xd2     // movmskps    edx, xmm2
-	WORD $0xe283; BYTE $0x01     // and    edx, 1
-	WORD $0xdaf7                 // neg    edx
-	WORD $0xca83; BYTE $0x01     // or    edx, 1
-	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
-	LONG $0xd22a0ff3             // cvtsi2ss    xmm2, edx
-	WORD $0x280f; BYTE $0xda     // movaps    xmm3, xmm2
-	LONG $0xd95c0ff3             // subss    xmm3, xmm1
-	LONG $0x2c0f48f3; BYTE $0xfb // cvttss2si    rdi, xmm3
-	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
-	LONG $0x2c0f48f3; BYTE $0xd2 // cvttss2si    rdx, xmm2
-	WORD $0x2e0f; BYTE $0xd1     // ucomiss    xmm2, xmm1
-	LONG $0xd7430f48             // cmovae    rdx, rdi
-	LONG $0xc0548949; BYTE $0x08 // mov    qword [r8 + 8*rax + 8], rdx
-	LONG $0x02c08348             // add    rax, 2
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JE   LBB4_290
-
-LBB4_703:
-	LONG $0x14100ff3; BYTE $0x81 // movss    xmm2, dword [rcx + 4*rax]
-	WORD $0x2e0f; BYTE $0xc2     // ucomiss    xmm0, xmm2
-	JNE  LBB4_705
-	WORD $0xd231                 // xor    edx, edx
-	JMP  LBB4_706
-
-LBB4_705:
-	WORD $0x500f; BYTE $0xd2     // movmskps    edx, xmm2
-	WORD $0xe283; BYTE $0x01     // and    edx, 1
-	WORD $0xdaf7                 // neg    edx
-	WORD $0xca83; BYTE $0x01     // or    edx, 1
-	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
-	LONG $0xd22a0ff3             // cvtsi2ss    xmm2, edx
-	WORD $0x280f; BYTE $0xda     // movaps    xmm3, xmm2
-	LONG $0xd95c0ff3             // subss    xmm3, xmm1
-	LONG $0x2c0f48f3; BYTE $0xfb // cvttss2si    rdi, xmm3
-	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
-	LONG $0x2c0f48f3; BYTE $0xd2 // cvttss2si    rdx, xmm2
-	WORD $0x2e0f; BYTE $0xd1     // ucomiss    xmm2, xmm1
-	LONG $0xd7430f48             // cmovae    rdx, rdi
-
-LBB4_706:
-	LONG $0xc0148949               // mov    qword [r8 + 8*rax], rdx
-	LONG $0x54100ff3; WORD $0x0481 // movss    xmm2, dword [rcx + 4*rax + 4]
-	WORD $0x2e0f; BYTE $0xc2       // ucomiss    xmm0, xmm2
-	JNE  LBB4_701
-	WORD $0xd231                   // xor    edx, edx
-	LONG $0xc0548949; BYTE $0x08   // mov    qword [r8 + 8*rax + 8], rdx
-	LONG $0x02c08348               // add    rax, 2
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JNE  LBB4_703
-
-LBB4_290:
-	LONG $0x01c2f641             // test    r10b, 1
-	JE   LBB4_1655
-	LONG $0x04100ff3; BYTE $0x81 // movss    xmm0, dword [rcx + 4*rax]
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	WORD $0x2e0f; BYTE $0xc8     // ucomiss    xmm1, xmm0
-	JNE  LBB4_993
-	WORD $0xc931                 // xor    ecx, ecx
-	LONG $0xc00c8949             // mov    qword [r8 + 8*rax], rcx
-	JMP  LBB4_1655
-
-LBB4_713:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1021
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_715:
-	LONG $0x2c7e0ff3; BYTE $0xb1               // movq    xmm5, qword [rcx + 4*rsi]
-	LONG $0x747e0ff3; WORD $0x08b1             // movq    xmm6, qword [rcx + 4*rsi + 8]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x25380f66; BYTE $0xed               // pmovsxdq    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x25380f66; BYTE $0xf6               // pmovsxdq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x10b1             // movq    xmm5, qword [rcx + 4*rsi + 16]
-	LONG $0x747e0ff3; WORD $0x18b1             // movq    xmm6, qword [rcx + 4*rsi + 24]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x25380f66; BYTE $0xed               // pmovsxdq    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x25380f66; BYTE $0xf6               // pmovsxdq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_715
-	JMP  LBB4_1022
-
-LBB4_716:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1137
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x70 // movdqa    xmm2, oword 112[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_718:
-	LONG $0x1c6f0ff3; BYTE $0xb1               // movdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646f0ff3; WORD $0x10b1             // movdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x701c             // movdqu    oword [r8 + 2*rsi], xmm3
-	LONG $0x5c6f0ff3; WORD $0x20b1             // movdqu    xmm3, oword [rcx + 4*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30b1             // movdqu    xmm4, oword [rcx + 4*rsi + 48]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_718
-	JMP  LBB4_1138
-
-LBB4_719:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1142
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x70 // movdqa    xmm2, oword 112[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_721:
-	LONG $0x1c6f0ff3; BYTE $0xb1               // movdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646f0ff3; WORD $0x10b1             // movdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x701c             // movdqu    oword [r8 + 2*rsi], xmm3
-	LONG $0x5c6f0ff3; WORD $0x20b1             // movdqu    xmm3, oword [rcx + 4*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30b1             // movdqu    xmm4, oword [rcx + 4*rsi + 48]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_721
-	JMP  LBB4_1143
-
-LBB4_722:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB4_1147
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00 // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x65280f66; BYTE $0x10 // movapd    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_724:
-	LONG $0x2c100f66; BYTE $0xf9               // movupd    xmm5, oword [rcx + 8*rdi]
-	LONG $0x74100f66; WORD $0x10f9             // movupd    xmm6, oword [rcx + 8*rdi + 16]
-	LONG $0xc5280f66                           // movapd    xmm0, xmm5
-	LONG $0xc2c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce280f66                           // movapd    xmm1, xmm6
-	LONG $0xcac20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xeb540f66                           // andpd    xmm5, xmm3
-	LONG $0xec560f66                           // orpd    xmm5, xmm4
-	LONG $0xf3540f66                           // andpd    xmm6, xmm3
-	LONG $0xf4560f66                           // orpd    xmm6, xmm4
-	LONG $0xede60f66                           // cvttpd2dq    xmm5, xmm5
-	LONG $0xed700ff2; BYTE $0xe8               // pshuflw    xmm5, xmm5, 232
-	LONG $0xf6e60f66                           // cvttpd2dq    xmm6, xmm6
-	LONG $0xf6700ff2; BYTE $0xe8               // pshuflw    xmm6, xmm6, 232
-	LONG $0x10380f66; BYTE $0xea               // pblendvb    xmm5, xmm2, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf2               // pblendvb    xmm6, xmm2, xmm0
-	LONG $0x7e0f4166; WORD $0x782c             // movd    dword [r8 + 2*rdi], xmm5
-	LONG $0x7e0f4166; WORD $0x7874; BYTE $0x04 // movd    dword [r8 + 2*rdi + 4], xmm6
-	LONG $0x6c100f66; WORD $0x20f9             // movupd    xmm5, oword [rcx + 8*rdi + 32]
-	LONG $0x74100f66; WORD $0x30f9             // movupd    xmm6, oword [rcx + 8*rdi + 48]
-	LONG $0xc5280f66                           // movapd    xmm0, xmm5
-	LONG $0xc2c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce280f66                           // movapd    xmm1, xmm6
-	LONG $0xcac20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xeb540f66                           // andpd    xmm5, xmm3
-	LONG $0xec560f66                           // orpd    xmm5, xmm4
-	LONG $0xf3540f66                           // andpd    xmm6, xmm3
-	LONG $0xf4560f66                           // orpd    xmm6, xmm4
-	LONG $0xede60f66                           // cvttpd2dq    xmm5, xmm5
-	LONG $0xed700ff2; BYTE $0xe8               // pshuflw    xmm5, xmm5, 232
-	LONG $0xf6e60f66                           // cvttpd2dq    xmm6, xmm6
-	LONG $0xf6700ff2; BYTE $0xe8               // pshuflw    xmm6, xmm6, 232
-	LONG $0x10380f66; BYTE $0xea               // pblendvb    xmm5, xmm2, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf2               // pblendvb    xmm6, xmm2, xmm0
-	LONG $0x7e0f4166; WORD $0x786c; BYTE $0x08 // movd    dword [r8 + 2*rdi + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x7874; BYTE $0x0c // movd    dword [r8 + 2*rdi + 12], xmm6
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB4_724
-	JMP  LBB4_1148
-
-LBB4_725:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB4_1153
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00 // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x65280f66; BYTE $0x10 // movapd    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_727:
-	LONG $0x2c100f66; BYTE $0xf9               // movupd    xmm5, oword [rcx + 8*rdi]
-	LONG $0x74100f66; WORD $0x10f9             // movupd    xmm6, oword [rcx + 8*rdi + 16]
-	LONG $0xc5280f66                           // movapd    xmm0, xmm5
-	LONG $0xc2c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce280f66                           // movapd    xmm1, xmm6
-	LONG $0xcac20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xeb540f66                           // andpd    xmm5, xmm3
-	LONG $0xec560f66                           // orpd    xmm5, xmm4
-	LONG $0xf3540f66                           // andpd    xmm6, xmm3
-	LONG $0xf4560f66                           // orpd    xmm6, xmm4
-	LONG $0xede60f66                           // cvttpd2dq    xmm5, xmm5
-	LONG $0xed700ff2; BYTE $0xe8               // pshuflw    xmm5, xmm5, 232
-	LONG $0xf6e60f66                           // cvttpd2dq    xmm6, xmm6
-	LONG $0xf6700ff2; BYTE $0xe8               // pshuflw    xmm6, xmm6, 232
-	LONG $0x10380f66; BYTE $0xea               // pblendvb    xmm5, xmm2, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf2               // pblendvb    xmm6, xmm2, xmm0
-	LONG $0x7e0f4166; WORD $0x782c             // movd    dword [r8 + 2*rdi], xmm5
-	LONG $0x7e0f4166; WORD $0x7874; BYTE $0x04 // movd    dword [r8 + 2*rdi + 4], xmm6
-	LONG $0x6c100f66; WORD $0x20f9             // movupd    xmm5, oword [rcx + 8*rdi + 32]
-	LONG $0x74100f66; WORD $0x30f9             // movupd    xmm6, oword [rcx + 8*rdi + 48]
-	LONG $0xc5280f66                           // movapd    xmm0, xmm5
-	LONG $0xc2c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce280f66                           // movapd    xmm1, xmm6
-	LONG $0xcac20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xeb540f66                           // andpd    xmm5, xmm3
-	LONG $0xec560f66                           // orpd    xmm5, xmm4
-	LONG $0xf3540f66                           // andpd    xmm6, xmm3
-	LONG $0xf4560f66                           // orpd    xmm6, xmm4
-	LONG $0xede60f66                           // cvttpd2dq    xmm5, xmm5
-	LONG $0xed700ff2; BYTE $0xe8               // pshuflw    xmm5, xmm5, 232
-	LONG $0xf6e60f66                           // cvttpd2dq    xmm6, xmm6
-	LONG $0xf6700ff2; BYTE $0xe8               // pshuflw    xmm6, xmm6, 232
-	LONG $0x10380f66; BYTE $0xea               // pblendvb    xmm5, xmm2, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf2               // pblendvb    xmm6, xmm2, xmm0
-	LONG $0x7e0f4166; WORD $0x786c; BYTE $0x08 // movd    dword [r8 + 2*rdi + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x7874; BYTE $0x0c // movd    dword [r8 + 2*rdi + 12], xmm6
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB4_727
-	JMP  LBB4_1154
-
-LBB4_738:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1027
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000b0956f0f66 // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_740:
-	LONG $0x1c6f0ff3; BYTE $0xf1               // movdqu    xmm3, oword [rcx + 8*rsi]
-	LONG $0x646f0ff3; WORD $0x10f1             // movdqu    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0               // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x701c             // movd    dword [r8 + 2*rsi], xmm3
-	LONG $0x7e0f4166; WORD $0x7064; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm4
-	LONG $0x5c6f0ff3; WORD $0x20f1             // movdqu    xmm3, oword [rcx + 8*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30f1             // movdqu    xmm4, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0               // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x705c; BYTE $0x08 // movd    dword [r8 + 2*rsi + 8], xmm3
-	LONG $0x7e0f4166; WORD $0x7064; BYTE $0x0c // movd    dword [r8 + 2*rsi + 12], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_740
-	JMP  LBB4_1028
-
-LBB4_741:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1032
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000b0956f0f66 // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_743:
-	LONG $0x1c6f0ff3; BYTE $0xf1               // movdqu    xmm3, oword [rcx + 8*rsi]
-	LONG $0x646f0ff3; WORD $0x10f1             // movdqu    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0               // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x701c             // movd    dword [r8 + 2*rsi], xmm3
-	LONG $0x7e0f4166; WORD $0x7064; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm4
-	LONG $0x5c6f0ff3; WORD $0x20f1             // movdqu    xmm3, oword [rcx + 8*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30f1             // movdqu    xmm4, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0               // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x705c; BYTE $0x08 // movd    dword [r8 + 2*rsi + 8], xmm3
-	LONG $0x7e0f4166; WORD $0x7064; BYTE $0x0c // movd    dword [r8 + 2*rsi + 12], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_743
-	JMP  LBB4_1033
-
-LBB4_764:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1037
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000b0a56f0f66 // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_766:
-	LONG $0x2c6f0ff3; BYTE $0xf1               // movdqu    xmm5, oword [rcx + 8*rsi]
-	LONG $0x746f0ff3; WORD $0x10f1             // movdqu    xmm6, oword [rcx + 8*rsi + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x702c             // movd    dword [r8 + 2*rsi], xmm5
-	LONG $0x7e0f4166; WORD $0x7074; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm6
-	LONG $0x6c6f0ff3; WORD $0x20f1             // movdqu    xmm5, oword [rcx + 8*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30f1             // movdqu    xmm6, oword [rcx + 8*rsi + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x706c; BYTE $0x08 // movd    dword [r8 + 2*rsi + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x7074; BYTE $0x0c // movd    dword [r8 + 2*rsi + 12], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_766
-	JMP  LBB4_1038
-
-LBB4_767:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1159
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000b0a56f0f66 // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
-
-LBB4_769:
-	LONG $0x2c6f0ff3; BYTE $0xf1               // movdqu    xmm5, oword [rcx + 8*rsi]
-	LONG $0x746f0ff3; WORD $0x10f1             // movdqu    xmm6, oword [rcx + 8*rsi + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x702c             // movd    dword [r8 + 2*rsi], xmm5
-	LONG $0x7e0f4166; WORD $0x7074; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm6
-	LONG $0x6c6f0ff3; WORD $0x20f1             // movdqu    xmm5, oword [rcx + 8*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30f1             // movdqu    xmm6, oword [rcx + 8*rsi + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x706c; BYTE $0x08 // movd    dword [r8 + 2*rsi + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x7074; BYTE $0x0c // movd    dword [r8 + 2*rsi + 12], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_769
-	JMP  LBB4_1160
-
-LBB4_770:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB4_1165
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x570f; BYTE $0xe4     // xorps    xmm4, xmm4
-	LONG $0x760f4566; BYTE $0xc0 // pcmpeqd    xmm8, xmm8
-	LONG $0x756f0f66; BYTE $0x70 // movdqa    xmm6, oword 112[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_772:
-	LONG $0xb904100f                           // movups    xmm0, oword [rcx + 4*rdi]
-	LONG $0xb94c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xfd6c0f66                           // punpcklqdq    xmm7, xmm5
-	LONG $0x7f0f41f3; WORD $0x783c             // movdqu    oword [r8 + 2*rdi], xmm7
-	LONG $0xb944100f; BYTE $0x20               // movups    xmm0, oword [rcx + 4*rdi + 32]
-	LONG $0xb94c100f; BYTE $0x30               // movups    xmm1, oword [rcx + 4*rdi + 48]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xef6c0f66                           // punpcklqdq    xmm5, xmm7
-	LONG $0x7f0f41f3; WORD $0x786c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm5
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB4_772
-	JMP  LBB4_1166
-
-LBB4_773:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB4_1171
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0x570f; BYTE $0xe4     // xorps    xmm4, xmm4
-	LONG $0x760f4566; BYTE $0xc0 // pcmpeqd    xmm8, xmm8
-	LONG $0x756f0f66; BYTE $0x70 // movdqa    xmm6, oword 112[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_775:
-	LONG $0xb904100f                           // movups    xmm0, oword [rcx + 4*rdi]
-	LONG $0xb94c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xfd6c0f66                           // punpcklqdq    xmm7, xmm5
-	LONG $0x7f0f41f3; WORD $0x783c             // movdqu    oword [r8 + 2*rdi], xmm7
-	LONG $0xb944100f; BYTE $0x20               // movups    xmm0, oword [rcx + 4*rdi + 32]
-	LONG $0xb94c100f; BYTE $0x30               // movups    xmm1, oword [rcx + 4*rdi + 48]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xef6c0f66                           // punpcklqdq    xmm5, xmm7
-	LONG $0x7f0f41f3; WORD $0x786c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm5
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c28348                           // add    rdx, 2
-	JNE  LBB4_775
-	JMP  LBB4_1172
-
-LBB4_786:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1043
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x70 // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_788:
-	LONG $0x2c6f0ff3; BYTE $0xb1               // movdqu    xmm5, oword [rcx + 4*rsi]
-	LONG $0x746f0ff3; WORD $0x10b1             // movdqu    xmm6, oword [rcx + 4*rsi + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x702c             // movdqu    oword [r8 + 2*rsi], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20b1             // movdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30b1             // movdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm5
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_788
-	JMP  LBB4_1044
-
-LBB4_789:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1049
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x70 // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
-
-LBB4_791:
-	LONG $0x2c6f0ff3; BYTE $0xb1               // movdqu    xmm5, oword [rcx + 4*rsi]
-	LONG $0x746f0ff3; WORD $0x10b1             // movdqu    xmm6, oword [rcx + 4*rsi + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x702c             // movdqu    oword [r8 + 2*rsi], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20b1             // movdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30b1             // movdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm5
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_791
-	JMP  LBB4_1050
-
-LBB4_792:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1177
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_794:
-	LONG $0x1c7e0ff3; BYTE $0xb1               // movq    xmm3, qword [rcx + 4*rsi]
-	LONG $0x647e0ff3; WORD $0x08b1             // movq    xmm4, qword [rcx + 4*rsi + 8]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x35380f66; BYTE $0xdb               // pmovzxdq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x35380f66; BYTE $0xe4               // pmovzxdq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x10b1             // movq    xmm3, qword [rcx + 4*rsi + 16]
-	LONG $0x647e0ff3; WORD $0x18b1             // movq    xmm4, qword [rcx + 4*rsi + 24]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x35380f66; BYTE $0xdb               // pmovzxdq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x35380f66; BYTE $0xe4               // pmovzxdq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_794
-	JMP  LBB4_1178
-
-LBB4_795:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1182
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000d08d6f0f66 // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_797:
-	LONG $0x146f0ff3; BYTE $0xb1               // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1             // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20b1             // movdqu    xmm2, oword [rcx + 4*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30b1             // movdqu    xmm3, oword [rcx + 4*rsi + 48]
-	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_797
-	JMP  LBB4_1183
-
-LBB4_798:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc     // and    edx, -4
-	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1190
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_800:
-	LONG $0x1c100f66; BYTE $0xf1               // movupd    xmm3, oword [rcx + 8*rsi]
-	LONG $0x64100f66; WORD $0x10f1             // movupd    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0xeb280f66                           // movapd    xmm5, xmm3
-	LONG $0xe9540f66                           // andpd    xmm5, xmm1
-	LONG $0xea560f66                           // orpd    xmm5, xmm2
-	LONG $0xf4280f66                           // movapd    xmm6, xmm4
-	LONG $0xf1540f66                           // andpd    xmm6, xmm1
-	LONG $0xf2560f66                           // orpd    xmm6, xmm2
-	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
-	LONG $0x6e0f4866; BYTE $0xfb               // movq    xmm7, rbx
-	LONG $0xed700f66; BYTE $0xee               // pshufd    xmm5, xmm5, 238
-	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
-	LONG $0x6e0f4866; BYTE $0xeb               // movq    xmm5, rbx
-	LONG $0xfd6c0f66                           // punpcklqdq    xmm7, xmm5
-	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
-	LONG $0x6e0f4866; BYTE $0xeb               // movq    xmm5, rbx
-	LONG $0xf6700f66; BYTE $0xee               // pshufd    xmm6, xmm6, 238
-	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
-	LONG $0x6e0f4866; BYTE $0xf3               // movq    xmm6, rbx
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0xd8c20f66; BYTE $0x04               // cmpneqpd    xmm3, xmm0
-	LONG $0xdf540f66                           // andpd    xmm3, xmm7
-	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
-	LONG $0xe5540f66                           // andpd    xmm4, xmm5
-	LONG $0x110f4166; WORD $0xf01c             // movupd    oword [r8 + 8*rsi], xmm3
-	LONG $0x110f4166; WORD $0xf064; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x5c100f66; WORD $0x20f1             // movupd    xmm3, oword [rcx + 8*rsi + 32]
-	LONG $0x64100f66; WORD $0x30f1             // movupd    xmm4, oword [rcx + 8*rsi + 48]
-	LONG $0xeb280f66                           // movapd    xmm5, xmm3
-	LONG $0xe9540f66                           // andpd    xmm5, xmm1
-	LONG $0xea560f66                           // orpd    xmm5, xmm2
-	LONG $0xf4280f66                           // movapd    xmm6, xmm4
-	LONG $0xf1540f66                           // andpd    xmm6, xmm1
-	LONG $0xf2560f66                           // orpd    xmm6, xmm2
-	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
-	LONG $0x6e0f4866; BYTE $0xfb               // movq    xmm7, rbx
-	LONG $0xed700f66; BYTE $0xee               // pshufd    xmm5, xmm5, 238
-	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
-	LONG $0x6e0f4866; BYTE $0xeb               // movq    xmm5, rbx
-	LONG $0xfd6c0f66                           // punpcklqdq    xmm7, xmm5
-	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
-	LONG $0x6e0f4866; BYTE $0xeb               // movq    xmm5, rbx
-	LONG $0xf6700f66; BYTE $0xee               // pshufd    xmm6, xmm6, 238
-	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
-	LONG $0x6e0f4866; BYTE $0xf3               // movq    xmm6, rbx
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0xd8c20f66; BYTE $0x04               // cmpneqpd    xmm3, xmm0
-	LONG $0xdf540f66                           // andpd    xmm3, xmm7
-	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
-	LONG $0xe5540f66                           // andpd    xmm4, xmm5
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x110f4166; WORD $0xf064; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_800
-	JMP  LBB4_1191
-
-LBB4_801:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc     // and    edx, -4
-	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1196
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x570f4566; BYTE $0xc0 // xorpd    xmm8, xmm8
-	LONG $0x4d5a0f66; BYTE $0x10 // cvtpd2ps    xmm1, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x4d280f44; BYTE $0x20 // movaps    xmm9, oword 32[rbp] /* [rip + .LCPI4_3] */
-	LONG $0xd9160ff3             // movshdup    xmm3, xmm1
-	LONG $0xd9540f41             // andps    xmm3, xmm9
-	LONG $0xc9540f41             // andps    xmm1, xmm9
-
-LBB4_803:
-	LONG $0x24100f66; BYTE $0xf1   // movupd    xmm4, oword [rcx + 8*rsi]
-	LONG $0x74100f66; WORD $0x10f1 // movupd    xmm6, oword [rcx + 8*rsi + 16]
-	WORD $0x570f; BYTE $0xed       // xorps    xmm5, xmm5
-	LONG $0xec5a0ff2               // cvtsd2ss    xmm5, xmm4
-	LONG $0xc20f4166; WORD $0x00e0 // cmpeqpd    xmm4, xmm8
-	LONG $0xe8e4c60f               // shufps    xmm4, xmm4, 232
-	WORD $0x570f; BYTE $0xff       // xorps    xmm7, xmm7
-	LONG $0xfe5a0ff2               // cvtsd2ss    xmm7, xmm6
-	LONG $0xc20f4166; WORD $0x00f0 // cmpeqpd    xmm6, xmm8
-	LONG $0xe8f6c60f               // shufps    xmm6, xmm6, 232
-	LONG $0x44100ff2; WORD $0x08f1 // movsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0xc05a0ff2               // cvtsd2ss    xmm0, xmm0
-	LONG $0xd1280f41               // movaps    xmm2, xmm9
-	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
-	WORD $0x560f; BYTE $0xd3       // orps    xmm2, xmm3
-	LONG $0xc1280f41               // movaps    xmm0, xmm9
-	WORD $0x550f; BYTE $0xc5       // andnps    xmm0, xmm5
-	WORD $0x560f; BYTE $0xc1       // orps    xmm0, xmm1
-	WORD $0x140f; BYTE $0xc2       // unpcklps    xmm0, xmm2
-	WORD $0x550f; BYTE $0xe0       // andnps    xmm4, xmm0
-	LONG $0x44100ff2; WORD $0x18f1 // movsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0xc05a0ff2               // cvtsd2ss    xmm0, xmm0
-	LONG $0xd1280f41               // movaps    xmm2, xmm9
-	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
-	WORD $0x560f; BYTE $0xd3       // orps    xmm2, xmm3
-	LONG $0xc1280f41               // movaps    xmm0, xmm9
-	WORD $0x550f; BYTE $0xc7       // andnps    xmm0, xmm7
-	WORD $0x560f; BYTE $0xc1       // orps    xmm0, xmm1
-	WORD $0x140f; BYTE $0xc2       // unpcklps    xmm0, xmm2
-	WORD $0x550f; BYTE $0xf0       // andnps    xmm6, xmm0
-	WORD $0x160f; BYTE $0xe6       // movlhps    xmm4, xmm6
-	LONG $0x24110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm4
-	LONG $0x64100f66; WORD $0x20f1 // movupd    xmm4, oword [rcx + 8*rsi + 32]
-	LONG $0x44100f66; WORD $0x30f1 // movupd    xmm0, oword [rcx + 8*rsi + 48]
-	WORD $0x570f; BYTE $0xd2       // xorps    xmm2, xmm2
-	LONG $0xd45a0ff2               // cvtsd2ss    xmm2, xmm4
-	LONG $0xc20f4166; WORD $0x00e0 // cmpeqpd    xmm4, xmm8
-	LONG $0xe8e4c60f               // shufps    xmm4, xmm4, 232
-	WORD $0x570f; BYTE $0xed       // xorps    xmm5, xmm5
-	LONG $0xe85a0ff2               // cvtsd2ss    xmm5, xmm0
-	LONG $0xc20f4166; WORD $0x00c0 // cmpeqpd    xmm0, xmm8
-	LONG $0x74100ff2; WORD $0x28f1 // movsd    xmm6, qword [rcx + 8*rsi + 40]
-	LONG $0xf65a0ff2               // cvtsd2ss    xmm6, xmm6
-	LONG $0xe8c0c60f               // shufps    xmm0, xmm0, 232
-	LONG $0xf9280f41               // movaps    xmm7, xmm9
-	WORD $0x550f; BYTE $0xfe       // andnps    xmm7, xmm6
-	WORD $0x560f; BYTE $0xfb       // orps    xmm7, xmm3
-	LONG $0xf1280f41               // movaps    xmm6, xmm9
-	WORD $0x550f; BYTE $0xf2       // andnps    xmm6, xmm2
-	WORD $0x560f; BYTE $0xf1       // orps    xmm6, xmm1
-	WORD $0x140f; BYTE $0xf7       // unpcklps    xmm6, xmm7
-	WORD $0x550f; BYTE $0xe6       // andnps    xmm4, xmm6
-	LONG $0x54100ff2; WORD $0x38f1 // movsd    xmm2, qword [rcx + 8*rsi + 56]
-	LONG $0xd25a0ff2               // cvtsd2ss    xmm2, xmm2
-	LONG $0xf1280f41               // movaps    xmm6, xmm9
-	WORD $0x550f; BYTE $0xf2       // andnps    xmm6, xmm2
-	WORD $0x560f; BYTE $0xf3       // orps    xmm6, xmm3
-	LONG $0xd1280f41               // movaps    xmm2, xmm9
-	WORD $0x550f; BYTE $0xd5       // andnps    xmm2, xmm5
-	WORD $0x560f; BYTE $0xd1       // orps    xmm2, xmm1
-	WORD $0x140f; BYTE $0xd6       // unpcklps    xmm2, xmm6
-	WORD $0x550f; BYTE $0xc2       // andnps    xmm0, xmm2
-	WORD $0x160f; BYTE $0xe0       // movlhps    xmm4, xmm0
-	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x08c68348               // add    rsi, 8
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_803
-	JMP  LBB4_1197
-
-LBB4_819:
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000012885100ff3 // movss    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_821
-
-LBB4_820:
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
-	JE   LBB4_387
-
-LBB4_821:
-	LONG $0xf13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rsi], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_822
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0xf17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rsi + 8], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JE   LBB4_826
-
-LBB4_823:
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0xf17c8348; WORD $0x0010             // cmp    qword [rcx + 8*rsi + 16], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_824
-
-LBB4_827:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0xf17c8348; WORD $0x0018             // cmp    qword [rcx + 8*rsi + 24], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_820
-	JMP  LBB4_828
-
-LBB4_822:
-	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0xf17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rsi + 8], 0
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	JNE  LBB4_823
-
-LBB4_826:
-	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0xf17c8348; WORD $0x0010             // cmp    qword [rcx + 8*rsi + 16], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JE   LBB4_827
-
-LBB4_824:
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0xf17c8348; WORD $0x0018             // cmp    qword [rcx + 8*rsi + 24], 0
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	JNE  LBB4_820
-
-LBB4_828:
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-	JMP  LBB4_820
-
-LBB4_829:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1055
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_831:
-	LONG $0x1c6e0f66; BYTE $0x71               // movd    xmm3, dword [rcx + 2*rsi]
-	LONG $0x646e0f66; WORD $0x0471             // movd    xmm4, dword [rcx + 2*rsi + 4]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x34380f66; BYTE $0xdb               // pmovzxwq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x34380f66; BYTE $0xe4               // pmovzxwq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x5c6e0f66; WORD $0x0871             // movd    xmm3, dword [rcx + 2*rsi + 8]
-	LONG $0x646e0f66; WORD $0x0c71             // movd    xmm4, dword [rcx + 2*rsi + 12]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x34380f66; BYTE $0xdb               // pmovzxwq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x34380f66; BYTE $0xe4               // pmovzxwq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_831
-	JMP  LBB4_1056
-
-LBB4_832:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1204
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_834:
-	LONG $0x1c7e0ff3; BYTE $0x71   // movq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647e0ff3; WORD $0x0871 // movq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0xd8750f66               // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0x33380f66; BYTE $0xdb   // pmovzxwd    xmm3, xmm3
-	LONG $0xdadb0f66               // pand    xmm3, xmm2
-	WORD $0x5b0f; BYTE $0xdb       // cvtdq2ps    xmm3, xmm3
-	LONG $0xe0750f66               // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66               // pxor    xmm4, xmm1
-	LONG $0x33380f66; BYTE $0xe4   // pmovzxwd    xmm4, xmm4
-	LONG $0xe2db0f66               // pand    xmm4, xmm2
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	LONG $0x1c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm3
-	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x1071 // movq    xmm3, qword [rcx + 2*rsi + 16]
-	LONG $0x647e0ff3; WORD $0x1871 // movq    xmm4, qword [rcx + 2*rsi + 24]
-	LONG $0xd8750f66               // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0x33380f66; BYTE $0xdb   // pmovzxwd    xmm3, xmm3
-	LONG $0xdadb0f66               // pand    xmm3, xmm2
-	WORD $0x5b0f; BYTE $0xdb       // cvtdq2ps    xmm3, xmm3
-	LONG $0xe0750f66               // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66               // pxor    xmm4, xmm1
-	LONG $0x33380f66; BYTE $0xe4   // pmovzxwd    xmm4, xmm4
-	LONG $0xe2db0f66               // pand    xmm4, xmm2
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	LONG $0x5c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm3
-	LONG $0x64110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm4
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_834
-	JMP  LBB4_1205
-
-LBB4_835:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1212
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_837:
-	LONG $0x2c6e0f66; BYTE $0x71               // movd    xmm5, dword [rcx + 2*rsi]
-	LONG $0x746e0f66; WORD $0x0471             // movd    xmm6, dword [rcx + 2*rsi + 4]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x24380f66; BYTE $0xed               // pmovsxwq    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x24380f66; BYTE $0xf6               // pmovsxwq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
-	LONG $0x6c6e0f66; WORD $0x0871             // movd    xmm5, dword [rcx + 2*rsi + 8]
-	LONG $0x746e0f66; WORD $0x0c71             // movd    xmm6, dword [rcx + 2*rsi + 12]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x24380f66; BYTE $0xed               // pmovsxwq    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x24380f66; BYTE $0xf6               // pmovsxwq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_837
-	JMP  LBB4_1213
-
-LBB4_838:
-	WORD $0xc289                               // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8                   // and    edx, -8
-	LONG $0xf8728d48                           // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	LONG $0x03e9c149                           // shr    r9, 3
-	LONG $0x01c18349                           // add    r9, 1
-	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
-	JE   LBB4_1218
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0xfee78348                           // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf                   // neg    rdi
-	WORD $0xf631                               // xor    esi, esi
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_840:
-	LONG $0x2c7e0ff3; BYTE $0x71   // movq    xmm5, qword [rcx + 2*rsi]
-	LONG $0x747e0ff3; WORD $0x0871 // movq    xmm6, qword [rcx + 2*rsi + 8]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
-	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x1071 // movq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747e0ff3; WORD $0x1871 // movq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
-	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_840
-	JMP  LBB4_1219
-
-LBB4_846:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000013085100ff3 // movss    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000001288d100ff3 // movss    xmm1, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_848
-
-LBB4_847:
-	LONG $0x110f41f3; WORD $0x805c; BYTE $0x04 // movss    dword [r8 + 4*rax + 4], xmm3
-	LONG $0x02c08348                           // add    rax, 2
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JE   LBB4_410
-
-LBB4_848:
-	LONG $0xc13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rax], 0
-	LONG $0xd0280f66             // movapd    xmm2, xmm0
-	JNE  LBB4_849
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0xd9280f66             // movapd    xmm3, xmm1
-	JLE  LBB4_853
-
-LBB4_850:
-	LONG $0x110f41f3; WORD $0x801c // movss    dword [r8 + 4*rax], xmm3
-	LONG $0xc17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rax + 8], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JNE  LBB4_851
-
-LBB4_854:
-	LONG $0xd2570f66 // xorpd    xmm2, xmm2
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_847
-	JMP  LBB4_855
-
-LBB4_849:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_850
-
-LBB4_853:
-	LONG $0xda280f66               // movapd    xmm3, xmm2
-	LONG $0x110f41f3; WORD $0x801c // movss    dword [r8 + 4*rax], xmm3
-	LONG $0xc17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rax + 8], 0
-	LONG $0xd0280f66               // movapd    xmm2, xmm0
-	JE   LBB4_854
-
-LBB4_851:
-	LONG $0xd9280f66 // movapd    xmm3, xmm1
-	JG   LBB4_847
-
-LBB4_855:
-	LONG $0xda280f66 // movapd    xmm3, xmm2
-	JMP  LBB4_847
-
-LBB4_856:
-	WORD $0xd689             // mov    esi, edx
-	WORD $0xe683; BYTE $0xfe // and    esi, -2
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-	JMP  LBB4_859
-
-LBB4_857:
-	WORD $0x500f; BYTE $0xf9     // movmskps    edi, xmm1
-	WORD $0xe783; BYTE $0x01     // and    edi, 1
-	WORD $0xdff7                 // neg    edi
-	WORD $0xcf83; BYTE $0x01     // or    edi, 1
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0xcf2a0ff3             // cvtsi2ss    xmm1, edi
-	LONG $0x2c0f48f3; BYTE $0xf9 // cvttss2si    rdi, xmm1
-	LONG $0xc07c8949; BYTE $0x08 // mov    qword [r8 + 8*rax + 8], rdi
-	LONG $0x02c08348             // add    rax, 2
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JE   LBB4_416
-
-LBB4_859:
-	LONG $0x0c100ff3; BYTE $0x81 // movss    xmm1, dword [rcx + 4*rax]
-	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
-	JNE  LBB4_861
-	WORD $0xff31                 // xor    edi, edi
-	JMP  LBB4_862
-
-LBB4_861:
-	WORD $0x500f; BYTE $0xf9     // movmskps    edi, xmm1
-	WORD $0xe783; BYTE $0x01     // and    edi, 1
-	WORD $0xdff7                 // neg    edi
-	WORD $0xcf83; BYTE $0x01     // or    edi, 1
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0xcf2a0ff3             // cvtsi2ss    xmm1, edi
-	LONG $0x2c0f48f3; BYTE $0xf9 // cvttss2si    rdi, xmm1
-
-LBB4_862:
-	LONG $0xc03c8949               // mov    qword [r8 + 8*rax], rdi
-	LONG $0x4c100ff3; WORD $0x0481 // movss    xmm1, dword [rcx + 4*rax + 4]
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	JNE  LBB4_857
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xc07c8949; BYTE $0x08   // mov    qword [r8 + 8*rax + 8], rdi
-	LONG $0x02c08348               // add    rax, 2
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JNE  LBB4_859
-
-LBB4_416:
-	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
-	JE   LBB4_1655
-	LONG $0x04100ff3; BYTE $0x81 // movss    xmm0, dword [rcx + 4*rax]
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	WORD $0x2e0f; BYTE $0xc8     // ucomiss    xmm1, xmm0
-	JNE  LBB4_1104
-	WORD $0xc931                 // xor    ecx, ecx
-	JMP  LBB4_1105
-
-LBB4_884:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1060
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_886:
-	LONG $0x2c7e0ff3; BYTE $0xb1               // movq    xmm5, qword [rcx + 4*rsi]
-	LONG $0x747e0ff3; WORD $0x08b1             // movq    xmm6, qword [rcx + 4*rsi + 8]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x25380f66; BYTE $0xed               // pmovsxdq    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x25380f66; BYTE $0xf6               // pmovsxdq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x10b1             // movq    xmm5, qword [rcx + 4*rsi + 16]
-	LONG $0x747e0ff3; WORD $0x18b1             // movq    xmm6, qword [rcx + 4*rsi + 24]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x25380f66; BYTE $0xed               // pmovsxdq    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x25380f66; BYTE $0xf6               // pmovsxdq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_886
-	JMP  LBB4_1061
-
-LBB4_887:
-	WORD $0xc289                               // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8                   // and    edx, -8
-	LONG $0xf8728d48                           // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	LONG $0x03e9c149                           // shr    r9, 3
-	LONG $0x01c18349                           // add    r9, 1
-	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
-	JE   LBB4_1066
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0xfee78348                           // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf                   // neg    rdi
-	WORD $0xf631                               // xor    esi, esi
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_889:
-	LONG $0x2c6f0ff3; BYTE $0xb1   // movdqu    xmm5, oword [rcx + 4*rsi]
-	LONG $0x746f0ff3; WORD $0x10b1 // movdqu    xmm6, oword [rcx + 4*rsi + 16]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2660f66               // pcmpgtd    xmm0, xmm2
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c6f0ff3; WORD $0x20b1 // movdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30b1 // movdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2660f66               // pcmpgtd    xmm0, xmm2
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_889
-	JMP  LBB4_1067
-
-LBB4_945:
-	WORD $0xc689                 // mov    esi, eax
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB4_1076
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0xfee28348             // and    rdx, -2
-	WORD $0xf748; BYTE $0xda     // neg    rdx
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_947:
-	LONG $0x1c100f66; BYTE $0xf9   // movupd    xmm3, oword [rcx + 8*rdi]
-	LONG $0x64100f66; WORD $0x10f9 // movupd    xmm4, oword [rcx + 8*rdi + 16]
-	LONG $0xeb280f66               // movapd    xmm5, xmm3
-	LONG $0xe8c20f66; BYTE $0x00   // cmpeqpd    xmm5, xmm0
-	LONG $0xe8edc60f               // shufps    xmm5, xmm5, 232
-	LONG $0xf4280f66               // movapd    xmm6, xmm4
-	LONG $0xf0c20f66; BYTE $0x00   // cmpeqpd    xmm6, xmm0
-	LONG $0xe8f6c60f               // shufps    xmm6, xmm6, 232
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xda560f66               // orpd    xmm3, xmm2
-	LONG $0xe1540f66               // andpd    xmm4, xmm1
-	LONG $0xe2560f66               // orpd    xmm4, xmm2
-	LONG $0xdbe60f66               // cvttpd2dq    xmm3, xmm3
-	LONG $0xe4e60f66               // cvttpd2dq    xmm4, xmm4
-	WORD $0x550f; BYTE $0xeb       // andnps    xmm5, xmm3
-	WORD $0x550f; BYTE $0xf4       // andnps    xmm6, xmm4
-	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
-	LONG $0x2c110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm5
-	LONG $0x5c100f66; WORD $0x20f9 // movupd    xmm3, oword [rcx + 8*rdi + 32]
-	LONG $0x64100f66; WORD $0x30f9 // movupd    xmm4, oword [rcx + 8*rdi + 48]
-	LONG $0xeb280f66               // movapd    xmm5, xmm3
-	LONG $0xe8c20f66; BYTE $0x00   // cmpeqpd    xmm5, xmm0
-	LONG $0xe8edc60f               // shufps    xmm5, xmm5, 232
-	LONG $0xf4280f66               // movapd    xmm6, xmm4
-	LONG $0xf0c20f66; BYTE $0x00   // cmpeqpd    xmm6, xmm0
-	LONG $0xe8f6c60f               // shufps    xmm6, xmm6, 232
-	LONG $0xd9540f66               // andpd    xmm3, xmm1
-	LONG $0xda560f66               // orpd    xmm3, xmm2
-	LONG $0xe1540f66               // andpd    xmm4, xmm1
-	LONG $0xe2560f66               // orpd    xmm4, xmm2
-	LONG $0xdbe60f66               // cvttpd2dq    xmm3, xmm3
-	WORD $0x550f; BYTE $0xeb       // andnps    xmm5, xmm3
-	LONG $0xdce60f66               // cvttpd2dq    xmm3, xmm4
-	WORD $0x550f; BYTE $0xf3       // andnps    xmm6, xmm3
-	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
-	LONG $0x6c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm5
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c28348               // add    rdx, 2
-	JNE  LBB4_947
-	JMP  LBB4_1077
-
-LBB4_953:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1082
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000a08d6f0f66 // movdqa    xmm1, oword 160[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_955:
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
-	LONG $0x546f0ff3; WORD $0x20f1             // movdqu    xmm2, oword [rcx + 8*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30f1             // movdqu    xmm3, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm2
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_955
-	JMP  LBB4_1083
-
-LBB4_956:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1087
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_958:
-	LONG $0x1c7e0ff3; BYTE $0x71               // movq    xmm3, qword [rcx + 2*rsi]
-	LONG $0x647e0ff3; WORD $0x0871             // movq    xmm4, qword [rcx + 2*rsi + 8]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x33380f66; BYTE $0xdb               // pmovzxwd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x33380f66; BYTE $0xe4               // pmovzxwd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb01c             // movdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x1071             // movq    xmm3, qword [rcx + 2*rsi + 16]
-	LONG $0x647e0ff3; WORD $0x1871             // movq    xmm4, qword [rcx + 2*rsi + 24]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x33380f66; BYTE $0xdb               // pmovzxwd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x33380f66; BYTE $0xe4               // pmovzxwd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_958
-	JMP  LBB4_1088
-
-LBB4_959:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1092
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	LONG $0x5065280f         // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_961:
-	LONG $0x2c7e0ff3; BYTE $0x71   // movq    xmm5, qword [rcx + 2*rsi]
-	LONG $0x747e0ff3; WORD $0x0871 // movq    xmm6, qword [rcx + 2*rsi + 8]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x1071 // movq    xmm5, qword [rcx + 2*rsi + 16]
-	LONG $0x747e0ff3; WORD $0x1871 // movq    xmm6, qword [rcx + 2*rsi + 24]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
-	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_961
-	JMP  LBB4_1093
-
-LBB4_962:
-	WORD $0x8944; BYTE $0xd2                   // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc                   // and    edx, -4
-	LONG $0xfc728d48                           // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	LONG $0x02e9c149                           // shr    r9, 2
-	LONG $0x01c18349                           // add    r9, 1
-	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
-	JE   LBB4_1098
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0xfee78348                           // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf                   // neg    rdi
-	WORD $0xf631                               // xor    esi, esi
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xa0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 160[rbp] /* [rip + .LCPI4_16] */
-
-LBB4_964:
-	LONG $0x2c6f0ff3; BYTE $0xf1   // movdqu    xmm5, oword [rcx + 8*rsi]
-	LONG $0x746f0ff3; WORD $0x10f1 // movdqu    xmm6, oword [rcx + 8*rsi + 16]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
-	LONG $0xed700f66; BYTE $0xe8   // pshufd    xmm5, xmm5, 232
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
-	LONG $0xf6700f66; BYTE $0xe8   // pshufd    xmm6, xmm6, 232
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20f1 // movdqu    xmm5, oword [rcx + 8*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30f1 // movdqu    xmm6, oword [rcx + 8*rsi + 48]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
-	LONG $0xed700f66; BYTE $0xe8   // pshufd    xmm5, xmm5, 232
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
-	LONG $0xf6700f66; BYTE $0xe8   // pshufd    xmm6, xmm6, 232
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
-	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
-	LONG $0x08c68348               // add    rsi, 8
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_964
-	JMP  LBB4_1099
-
-LBB4_965:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_966:
-	LONG $0x146f0ff3; BYTE $0xb1   // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1 // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xe26f0f66               // movdqa    xmm4, xmm2
-	LONG $0xe4720f66; BYTE $0x1f   // psrad    xmm4, 31
-	LONG $0xe1eb0f66               // por    xmm4, xmm1
-	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
-	LONG $0xe5720f66; BYTE $0x1f   // psrad    xmm5, 31
-	LONG $0xe9eb0f66               // por    xmm5, xmm1
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xe45b0ff3               // cvttps2dq    xmm4, xmm4
-	LONG $0xed5b0ff3               // cvttps2dq    xmm5, xmm5
-	LONG $0x04d0c20f               // cmpneqps    xmm2, xmm0
-	WORD $0x540f; BYTE $0xd4       // andps    xmm2, xmm4
-	LONG $0x04d8c20f               // cmpneqps    xmm3, xmm0
-	WORD $0x540f; BYTE $0xdd       // andps    xmm3, xmm5
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
-	LONG $0x08c68348               // add    rsi, 8
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_966
-	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_968:
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-	JMP  LBB4_970
-
-LBB4_969:
-	LONG $0x90348941         // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_970:
-	LONG $0x0c100ff3; BYTE $0x91 // movss    xmm1, dword [rcx + 4*rdx]
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
-	JE   LBB4_969
-	WORD $0x500f; BYTE $0xf1     // movmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01     // and    esi, 1
-	WORD $0xdef7                 // neg    esi
-	WORD $0xce83; BYTE $0x01     // or    esi, 1
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0xce2a0ff3             // cvtsi2ss    xmm1, esi
-	LONG $0xf12c0ff3             // cvttss2si    esi, xmm1
-	JMP  LBB4_969
-
-LBB4_496:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1228
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_498:
-	LONG $0x146f0ff3; BYTE $0xb1               // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1             // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20b1             // movdqu    xmm2, oword [rcx + 4*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30b1             // movdqu    xmm3, oword [rcx + 4*rsi + 48]
-	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_498
-	JMP  LBB4_1229
-
-LBB4_504:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1236
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	LONG $0x5065280f         // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_506:
-	LONG $0x2c6e0f66; BYTE $0x31   // movd    xmm5, dword [rcx + rsi]
-	LONG $0x746e0f66; WORD $0x0431 // movd    xmm6, dword [rcx + rsi + 4]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c6e0f66; WORD $0x0831 // movd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746e0f66; WORD $0x0c31 // movd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_506
-	JMP  LBB4_1237
-
-LBB4_524:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1245
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_526:
-	LONG $0x1c6e0f66; BYTE $0x31               // movd    xmm3, dword [rcx + rsi]
-	LONG $0x646e0f66; WORD $0x0431             // movd    xmm4, dword [rcx + rsi + 4]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x31380f66; BYTE $0xdb               // pmovzxbd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x31380f66; BYTE $0xe4               // pmovzxbd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb01c             // movdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x5c6e0f66; WORD $0x0831             // movd    xmm3, dword [rcx + rsi + 8]
-	LONG $0x646e0f66; WORD $0x0c31             // movd    xmm4, dword [rcx + rsi + 12]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x31380f66; BYTE $0xdb               // pmovzxbd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x31380f66; BYTE $0xe4               // pmovzxbd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_526
-	JMP  LBB4_1246
-
-LBB4_529:
-	WORD $0x8944; BYTE $0xda     // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1253
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x50 // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_531:
-	LONG $0x2c6f0ff3; BYTE $0xb1   // movdqu    xmm5, oword [rcx + 4*rsi]
-	LONG $0x746f0ff3; WORD $0x10b1 // movdqu    xmm6, oword [rcx + 4*rsi + 16]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
-	LONG $0x3c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm7
-	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20b1 // movdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30b1 // movdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
-	LONG $0x7c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm7
-	LONG $0x6c110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm5
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_531
-	JMP  LBB4_1254
-
-LBB4_544:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc     // and    edx, -4
-	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1262
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
-
-LBB4_546:
-	LONG $0x1c100f66; BYTE $0xf1               // movupd    xmm3, oword [rcx + 8*rsi]
-	LONG $0x64100f66; WORD $0x10f1             // movupd    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0xeb280f66                           // movapd    xmm5, xmm3
-	LONG $0xe9540f66                           // andpd    xmm5, xmm1
-	LONG $0xea560f66                           // orpd    xmm5, xmm2
-	LONG $0xf4280f66                           // movapd    xmm6, xmm4
-	LONG $0xf1540f66                           // andpd    xmm6, xmm1
-	LONG $0xf2560f66                           // orpd    xmm6, xmm2
-	LONG $0xd8c20f66; BYTE $0x04               // cmpneqpd    xmm3, xmm0
-	LONG $0xdd540f66                           // andpd    xmm3, xmm5
-	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
-	LONG $0xe6540f66                           // andpd    xmm4, xmm6
-	LONG $0x110f4166; WORD $0xf01c             // movupd    oword [r8 + 8*rsi], xmm3
-	LONG $0x110f4166; WORD $0xf064; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x5c100f66; WORD $0x20f1             // movupd    xmm3, oword [rcx + 8*rsi + 32]
-	LONG $0x64100f66; WORD $0x30f1             // movupd    xmm4, oword [rcx + 8*rsi + 48]
-	LONG $0xeb280f66                           // movapd    xmm5, xmm3
-	LONG $0xe9540f66                           // andpd    xmm5, xmm1
-	LONG $0xea560f66                           // orpd    xmm5, xmm2
-	LONG $0xf4280f66                           // movapd    xmm6, xmm4
-	LONG $0xf1540f66                           // andpd    xmm6, xmm1
-	LONG $0xf2560f66                           // orpd    xmm6, xmm2
-	LONG $0xd8c20f66; BYTE $0x04               // cmpneqpd    xmm3, xmm0
-	LONG $0xdd540f66                           // andpd    xmm3, xmm5
-	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
-	LONG $0xe6540f66                           // andpd    xmm4, xmm6
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x110f4166; WORD $0xf064; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_546
-	JMP  LBB4_1263
-
-LBB4_625:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1271
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000080956f0f66 // movdqa    xmm2, oword 128[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_627:
-	LONG $0x1c6f0ff3; BYTE $0xb1               // movdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646f0ff3; WORD $0x10b1             // movdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x301c             // movd    dword [r8 + rsi], xmm3
-	LONG $0x7e0f4166; WORD $0x3064; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm4
-	LONG $0x5c6f0ff3; WORD $0x20b1             // movdqu    xmm3, oword [rcx + 4*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30b1             // movdqu    xmm4, oword [rcx + 4*rsi + 48]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x305c; BYTE $0x08 // movd    dword [r8 + rsi + 8], xmm3
-	LONG $0x7e0f4166; WORD $0x3064; BYTE $0x0c // movd    dword [r8 + rsi + 12], xmm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_627
-	JMP  LBB4_1272
-
-LBB4_630:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc     // and    edx, -4
-	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1279
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00 // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x65280f66; BYTE $0x10 // movapd    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x6d6f0f66; BYTE $0x40 // movdqa    xmm5, oword 64[rbp] /* [rip + .LCPI4_7] */
-
-LBB4_632:
-	LONG $0x34100f66; BYTE $0xf1         // movupd    xmm6, oword [rcx + 8*rsi]
-	LONG $0x7c100f66; WORD $0x10f1       // movupd    xmm7, oword [rcx + 8*rsi + 16]
-	LONG $0xc6280f66                     // movapd    xmm0, xmm6
-	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcf280f66                     // movapd    xmm1, xmm7
-	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0xf3540f66                     // andpd    xmm6, xmm3
-	LONG $0xf4560f66                     // orpd    xmm6, xmm4
-	LONG $0xfb540f66                     // andpd    xmm7, xmm3
-	LONG $0xfc560f66                     // orpd    xmm7, xmm4
-	LONG $0xf6e60f66                     // cvttpd2dq    xmm6, xmm6
-	LONG $0x00380f66; BYTE $0xf5         // pshufb    xmm6, xmm5
-	LONG $0xffe60f66                     // cvttpd2dq    xmm7, xmm7
-	LONG $0x00380f66; BYTE $0xfd         // pshufb    xmm7, xmm5
-	LONG $0x10380f66; BYTE $0xf2         // pblendvb    xmm6, xmm2, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfa         // pblendvb    xmm7, xmm2, xmm0
-	QUAD $0x003034153a0f4166             // pextrw    word [r8 + rsi], xmm6, 0
-	QUAD $0x02307c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm7, 0
-	LONG $0x74100f66; WORD $0x20f1       // movupd    xmm6, oword [rcx + 8*rsi + 32]
-	LONG $0x7c100f66; WORD $0x30f1       // movupd    xmm7, oword [rcx + 8*rsi + 48]
-	LONG $0xc6280f66                     // movapd    xmm0, xmm6
-	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcf280f66                     // movapd    xmm1, xmm7
-	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0xf3540f66                     // andpd    xmm6, xmm3
-	LONG $0xf4560f66                     // orpd    xmm6, xmm4
-	LONG $0xfb540f66                     // andpd    xmm7, xmm3
-	LONG $0xfc560f66                     // orpd    xmm7, xmm4
-	LONG $0xf6e60f66                     // cvttpd2dq    xmm6, xmm6
-	LONG $0x00380f66; BYTE $0xf5         // pshufb    xmm6, xmm5
-	LONG $0xffe60f66                     // cvttpd2dq    xmm7, xmm7
-	LONG $0x00380f66; BYTE $0xfd         // pshufb    xmm7, xmm5
-	LONG $0x10380f66; BYTE $0xf2         // pblendvb    xmm6, xmm2, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfa         // pblendvb    xmm7, xmm2, xmm0
-	QUAD $0x043074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 4], xmm6, 0
-	QUAD $0x06307c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 6], xmm7, 0
-	LONG $0x08c68348                     // add    rsi, 8
-	LONG $0x02c78348                     // add    rdi, 2
-	JNE  LBB4_632
-	JMP  LBB4_1280
-
-LBB4_635:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1288
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000100a56f0f66 // movdqa    xmm4, oword 256[rbp] /* [rip + .LCPI4_22] */
-
-LBB4_637:
-	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
-	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce640f66                           // pcmpgtb    xmm1, xmm6
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce640f66                           // pcmpgtb    xmm1, xmm6
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_637
-	JMP  LBB4_1289
-
-LBB4_640:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1297
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000c0956f0f66 // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_642:
-	LONG $0x1c6f0ff3; BYTE $0xf1         // movdqu    xmm3, oword [rcx + 8*rsi]
-	LONG $0x646f0ff3; WORD $0x10f1       // movdqu    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd8         // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                     // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                     // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0         // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                     // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                     // packsswb    xmm4, xmm4
-	QUAD $0x00301c153a0f4166             // pextrw    word [r8 + rsi], xmm3, 0
-	LONG $0xe2db0f66                     // pand    xmm4, xmm2
-	QUAD $0x023064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm4, 0
-	LONG $0x5c6f0ff3; WORD $0x20f1       // movdqu    xmm3, oword [rcx + 8*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30f1       // movdqu    xmm4, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd8         // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                     // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                     // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0         // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                     // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                     // packsswb    xmm4, xmm4
-	QUAD $0x04305c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 4], xmm3, 0
-	LONG $0xe2db0f66                     // pand    xmm4, xmm2
-	QUAD $0x063064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 6], xmm4, 0
-	LONG $0x08c68348                     // add    rsi, 8
-	LONG $0x02c78348                     // add    rdi, 2
-	JNE  LBB4_642
-	JMP  LBB4_1298
-
-LBB4_645:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1305
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000f0956f0f66 // movdqa    xmm2, oword 240[rbp] /* [rip + .LCPI4_21] */
-
-LBB4_647:
-	LONG $0x1c6f0ff3; BYTE $0x71               // movdqu    xmm3, oword [rcx + 2*rsi]
-	LONG $0x646f0ff3; WORD $0x1071             // movdqu    xmm4, oword [rcx + 2*rsi + 16]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x301c             // movdqu    oword [r8 + rsi], xmm3
-	LONG $0x5c6f0ff3; WORD $0x2071             // movdqu    xmm3, oword [rcx + 2*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x3071             // movdqu    xmm4, oword [rcx + 2*rsi + 48]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm3
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_647
-	JMP  LBB4_1306
-
-LBB4_650:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1313
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000f0a56f0f66 // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
-
-LBB4_652:
-	LONG $0x2c6f0ff3; BYTE $0x41               // movdqu    xmm5, oword [rcx + 2*rax]
-	LONG $0x746f0ff3; WORD $0x1041             // movdqu    xmm6, oword [rcx + 2*rax + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2041             // movdqu    xmm5, oword [rcx + 2*rax + 32]
-	LONG $0x746f0ff3; WORD $0x3041             // movdqu    xmm6, oword [rcx + 2*rax + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_652
-	JMP  LBB4_1314
-
-LBB4_655:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1322
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000c0a56f0f66 // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_657:
-	LONG $0x2c6f0ff3; BYTE $0xc1         // movdqu    xmm5, oword [rcx + 8*rax]
-	LONG $0x746f0ff3; WORD $0x10c1       // movdqu    xmm6, oword [rcx + 8*rax + 16]
-	LONG $0xc56f0f66                     // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2         // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                     // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca         // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea         // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                     // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed630f66                     // packsswb    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2         // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                     // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                     // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec         // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4         // pblendvb    xmm6, xmm4, xmm0
-	QUAD $0x00002c153a0f4166             // pextrw    word [r8 + rax], xmm5, 0
-	QUAD $0x020074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 2], xmm6, 0
-	LONG $0x6c6f0ff3; WORD $0x20c1       // movdqu    xmm5, oword [rcx + 8*rax + 32]
-	LONG $0x746f0ff3; WORD $0x30c1       // movdqu    xmm6, oword [rcx + 8*rax + 48]
-	LONG $0xc56f0f66                     // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2         // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                     // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca         // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea         // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                     // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed630f66                     // packsswb    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2         // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                     // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                     // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec         // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4         // pblendvb    xmm6, xmm4, xmm0
-	QUAD $0x04006c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 4], xmm5, 0
-	QUAD $0x060074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 6], xmm6, 0
-	LONG $0x08c08348                     // add    rax, 8
-	LONG $0x02c78348                     // add    rdi, 2
-	JNE  LBB4_657
-	JMP  LBB4_1323
-
-LBB4_660:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1331
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x570f; BYTE $0xe4     // xorps    xmm4, xmm4
-	LONG $0x760f4566; BYTE $0xc0 // pcmpeqd    xmm8, xmm8
-	QUAD $0x00000080b56f0f66     // movdqa    xmm6, oword 128[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_662:
-	LONG $0xb104100f                           // movups    xmm0, oword [rcx + 4*rsi]
-	LONG $0xb14c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rsi + 16]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x303c             // movd    dword [r8 + rsi], xmm7
-	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm5
-	LONG $0xb144100f; BYTE $0x20               // movups    xmm0, oword [rcx + 4*rsi + 32]
-	LONG $0xb14c100f; BYTE $0x30               // movups    xmm1, oword [rcx + 4*rsi + 48]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x08 // movd    dword [r8 + rsi + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x307c; BYTE $0x0c // movd    dword [r8 + rsi + 12], xmm7
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_662
-	JMP  LBB4_1332
-
-LBB4_665:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1340
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000001008d6f0f66 // movdqa    xmm1, oword 256[rbp] /* [rip + .LCPI4_22] */
-
-LBB4_667:
-	LONG $0x146f0ff3; BYTE $0x31               // movdqu    xmm2, oword [rcx + rsi]
-	LONG $0x5c6f0ff3; WORD $0x1031             // movdqu    xmm3, oword [rcx + rsi + 16]
-	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x3014             // movdqu    oword [r8 + rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x2031             // movdqu    xmm2, oword [rcx + rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x3031             // movdqu    xmm3, oword [rcx + rsi + 48]
-	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x3054; BYTE $0x20 // movdqu    oword [r8 + rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x30 // movdqu    oword [r8 + rsi + 48], xmm3
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_667
-	JMP  LBB4_1341
-
-LBB4_670:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1348
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000080a56f0f66 // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_672:
-	LONG $0x2c6f0ff3; BYTE $0x81               // movdqu    xmm5, oword [rcx + 4*rax]
-	LONG $0x746f0ff3; WORD $0x1081             // movdqu    xmm6, oword [rcx + 4*rax + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x002c             // movd    dword [r8 + rax], xmm5
-	LONG $0x7e0f4166; WORD $0x0074; BYTE $0x04 // movd    dword [r8 + rax + 4], xmm6
-	LONG $0x6c6f0ff3; WORD $0x2081             // movdqu    xmm5, oword [rcx + 4*rax + 32]
-	LONG $0x746f0ff3; WORD $0x3081             // movdqu    xmm6, oword [rcx + 4*rax + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x006c; BYTE $0x08 // movd    dword [r8 + rax + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x0074; BYTE $0x0c // movd    dword [r8 + rax + 12], xmm6
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_672
-	JMP  LBB4_1349
-
-LBB4_681:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1357
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_683:
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x22380f66; BYTE $0xed               // pmovsxbq    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x22380f66; BYTE $0xf6               // pmovsxbq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
-	LONG $0x3144b70f; BYTE $0x04               // movzx    eax, word [rcx + rsi + 4]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x3144b70f; BYTE $0x06               // movzx    eax, word [rcx + rsi + 6]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x22380f66; BYTE $0xed               // pmovsxbq    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x22380f66; BYTE $0xf6               // pmovsxbq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_683
-	JMP  LBB4_1358
-
-LBB4_686:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1366
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000908d6f0f66 // movdqa    xmm1, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_688:
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xf014             // movdqu    oword [r8 + 8*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20f1             // movdqu    xmm2, oword [rcx + 8*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30f1             // movdqu    xmm3, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xf054; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm3
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_688
-	JMP  LBB4_1367
-
-LBB4_697:
-	WORD $0x8944; BYTE $0xda // mov    edx, r11d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1374
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a56f0f66 // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_699:
-	LONG $0x2c6f0ff3; BYTE $0xf1               // movdqu    xmm5, oword [rcx + 8*rsi]
-	LONG $0x746f0ff3; WORD $0x10f1             // movdqu    xmm6, oword [rcx + 8*rsi + 16]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5               // pcmpgtq    xmm0, xmm5
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xce               // pcmpgtq    xmm1, xmm6
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x15380f66; BYTE $0xfd               // blendvpd    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xee               // blendvpd    xmm5, xmm6, xmm0
-	LONG $0x110f4166; WORD $0xf03c             // movupd    oword [r8 + 8*rsi], xmm7
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20f1             // movdqu    xmm5, oword [rcx + 8*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30f1             // movdqu    xmm6, oword [rcx + 8*rsi + 48]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5               // pcmpgtq    xmm0, xmm5
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xce               // pcmpgtq    xmm1, xmm6
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x15380f66; BYTE $0xfd               // blendvpd    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xee               // blendvpd    xmm5, xmm6, xmm0
-	LONG $0x110f4166; WORD $0xf07c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm7
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm5
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_699
-	JMP  LBB4_1375
-
-LBB4_710:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1383
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_712:
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x32380f66; BYTE $0xdb               // pmovzxbq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x32380f66; BYTE $0xe4               // pmovzxbq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x3144b70f; BYTE $0x04               // movzx    eax, word [rcx + rsi + 4]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x3144b70f; BYTE $0x06               // movzx    eax, word [rcx + rsi + 6]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x32380f66; BYTE $0xdb               // pmovzxbq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x32380f66; BYTE $0xe4               // pmovzxbq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_712
-	JMP  LBB4_1384
-
-LBB4_730:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1391
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66 // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_732:
-	LONG $0x2c7e0ff3; BYTE $0x31               // movq    xmm5, qword [rcx + rsi]
-	LONG $0x747e0ff3; WORD $0x0831             // movq    xmm6, qword [rcx + rsi + 8]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x20380f66; BYTE $0xed               // pmovsxbw    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x20380f66; BYTE $0xf6               // pmovsxbw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x702c             // movdqu    oword [r8 + 2*rsi], xmm5
-	LONG $0x7f0f41f3; WORD $0x7074; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x1031             // movq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747e0ff3; WORD $0x1831             // movq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x20380f66; BYTE $0xed               // pmovsxbw    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x20380f66; BYTE $0xf6               // pmovsxbw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm5
-	LONG $0x7f0f41f3; WORD $0x7074; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm6
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_732
-	JMP  LBB4_1392
-
-LBB4_735:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1400
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66 // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_737:
-	LONG $0x2c7e0ff3; BYTE $0x31               // movq    xmm5, qword [rcx + rsi]
-	LONG $0x747e0ff3; WORD $0x0831             // movq    xmm6, qword [rcx + rsi + 8]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x20380f66; BYTE $0xed               // pmovsxbw    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x20380f66; BYTE $0xf6               // pmovsxbw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x702c             // movdqu    oword [r8 + 2*rsi], xmm5
-	LONG $0x7f0f41f3; WORD $0x7074; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm6
-	LONG $0x6c7e0ff3; WORD $0x1031             // movq    xmm5, qword [rcx + rsi + 16]
-	LONG $0x747e0ff3; WORD $0x1831             // movq    xmm6, qword [rcx + rsi + 24]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x20380f66; BYTE $0xed               // pmovsxbw    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x20380f66; BYTE $0xf6               // pmovsxbw    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm5
-	LONG $0x7f0f41f3; WORD $0x7074; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm6
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_737
-	JMP  LBB4_1401
-
-LBB4_746:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1409
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000e08d6f0f66 // movdqa    xmm1, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_748:
-	LONG $0x146f0ff3; BYTE $0x71               // movdqu    xmm2, oword [rcx + 2*rsi]
-	LONG $0x5c6f0ff3; WORD $0x1071             // movdqu    xmm3, oword [rcx + 2*rsi + 16]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x2071             // movdqu    xmm2, oword [rcx + 2*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x3071             // movdqu    xmm3, oword [rcx + 2*rsi + 48]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x7054; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm3
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_748
-	JMP  LBB4_1410
-
-LBB4_751:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1417
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000e08d6f0f66 // movdqa    xmm1, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_753:
-	LONG $0x146f0ff3; BYTE $0x71               // movdqu    xmm2, oword [rcx + 2*rsi]
-	LONG $0x5c6f0ff3; WORD $0x1071             // movdqu    xmm3, oword [rcx + 2*rsi + 16]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x2071             // movdqu    xmm2, oword [rcx + 2*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x3071             // movdqu    xmm3, oword [rcx + 2*rsi + 48]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x7054; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm3
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_753
-	JMP  LBB4_1418
-
-LBB4_756:
-	WORD $0x8944; BYTE $0xda // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1425
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66 // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_758:
-	LONG $0x2c6f0ff3; BYTE $0x71               // movdqu    xmm5, oword [rcx + 2*rsi]
-	LONG $0x746f0ff3; WORD $0x1071             // movdqu    xmm6, oword [rcx + 2*rsi + 16]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x703c             // movdqu    oword [r8 + 2*rsi], xmm7
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2071             // movdqu    xmm5, oword [rcx + 2*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x3071             // movdqu    xmm6, oword [rcx + 2*rsi + 48]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x707c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm5
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_758
-	JMP  LBB4_1426
-
-LBB4_761:
-	WORD $0x8944; BYTE $0xda // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1434
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66 // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_763:
-	LONG $0x2c6f0ff3; BYTE $0x71               // movdqu    xmm5, oword [rcx + 2*rsi]
-	LONG $0x746f0ff3; WORD $0x1071             // movdqu    xmm6, oword [rcx + 2*rsi + 16]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x703c             // movdqu    oword [r8 + 2*rsi], xmm7
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2071             // movdqu    xmm5, oword [rcx + 2*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x3071             // movdqu    xmm6, oword [rcx + 2*rsi + 48]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x707c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm5
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_763
-	JMP  LBB4_1435
-
-LBB4_778:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1443
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000e0956f0f66 // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_780:
-	LONG $0x1c7e0ff3; BYTE $0x31               // movq    xmm3, qword [rcx + rsi]
-	LONG $0x647e0ff3; WORD $0x0831             // movq    xmm4, qword [rcx + rsi + 8]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x30380f66; BYTE $0xdb               // pmovzxbw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x30380f66; BYTE $0xe4               // pmovzxbw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0x701c             // movdqu    oword [r8 + 2*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x1031             // movq    xmm3, qword [rcx + rsi + 16]
-	LONG $0x647e0ff3; WORD $0x1831             // movq    xmm4, qword [rcx + rsi + 24]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x30380f66; BYTE $0xdb               // pmovzxbw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x30380f66; BYTE $0xe4               // pmovzxbw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm4
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_780
-	JMP  LBB4_1444
-
-LBB4_783:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1451
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000e0956f0f66 // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI4_20] */
-
-LBB4_785:
-	LONG $0x1c7e0ff3; BYTE $0x31               // movq    xmm3, qword [rcx + rsi]
-	LONG $0x647e0ff3; WORD $0x0831             // movq    xmm4, qword [rcx + rsi + 8]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x30380f66; BYTE $0xdb               // pmovzxbw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x30380f66; BYTE $0xe4               // pmovzxbw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0x701c             // movdqu    oword [r8 + 2*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm4
-	LONG $0x5c7e0ff3; WORD $0x1031             // movq    xmm3, qword [rcx + rsi + 16]
-	LONG $0x647e0ff3; WORD $0x1831             // movq    xmm4, qword [rcx + rsi + 24]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x30380f66; BYTE $0xdb               // pmovzxbw    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x30380f66; BYTE $0xe4               // pmovzxbw    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm4
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_785
-	JMP  LBB4_1452
-
-LBB4_806:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1459
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_808:
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x22380f66; BYTE $0xed               // pmovsxbq    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x22380f66; BYTE $0xf6               // pmovsxbq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
-	LONG $0x3144b70f; BYTE $0x04               // movzx    eax, word [rcx + rsi + 4]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x3144b70f; BYTE $0x06               // movzx    eax, word [rcx + rsi + 6]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
-	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0x22380f66; BYTE $0xed               // pmovsxbq    xmm5, xmm5
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0x22380f66; BYTE $0xf6               // pmovsxbq    xmm6, xmm6
-	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
-	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_808
-	JMP  LBB4_1460
-
-LBB4_811:
-	WORD $0xc289                               // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8                   // and    edx, -8
-	LONG $0xf8728d48                           // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	LONG $0x03e9c149                           // shr    r9, 3
-	LONG $0x01c18349                           // add    r9, 1
-	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
-	JE   LBB4_1468
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0xfee78348                           // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf                   // neg    rdi
-	WORD $0xf631                               // xor    esi, esi
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
-
-LBB4_813:
-	LONG $0x2c6e0f66; BYTE $0x31   // movd    xmm5, dword [rcx + rsi]
-	LONG $0x746e0f66; WORD $0x0431 // movd    xmm6, dword [rcx + rsi + 4]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
-	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c6e0f66; WORD $0x0831 // movd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746e0f66; WORD $0x0c31 // movd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
-	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_813
-	JMP  LBB4_1469
-
-LBB4_816:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1490
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000000908d6f0f66 // movdqa    xmm1, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_818:
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xf014             // movdqu    oword [r8 + 8*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20f1             // movdqu    xmm2, oword [rcx + 8*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30f1             // movdqu    xmm3, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xf054; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm3
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_818
-	JMP  LBB4_1491
-
-LBB4_843:
-	WORD $0x8944; BYTE $0xda // mov    edx, r11d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1498
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000090a56f0f66 // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_845:
-	LONG $0x2c6f0ff3; BYTE $0xf1               // movdqu    xmm5, oword [rcx + 8*rsi]
-	LONG $0x746f0ff3; WORD $0x10f1             // movdqu    xmm6, oword [rcx + 8*rsi + 16]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5               // pcmpgtq    xmm0, xmm5
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xce               // pcmpgtq    xmm1, xmm6
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x15380f66; BYTE $0xfd               // blendvpd    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xee               // blendvpd    xmm5, xmm6, xmm0
-	LONG $0x110f4166; WORD $0xf03c             // movupd    oword [r8 + 8*rsi], xmm7
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20f1             // movdqu    xmm5, oword [rcx + 8*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30f1             // movdqu    xmm6, oword [rcx + 8*rsi + 48]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5               // pcmpgtq    xmm0, xmm5
-	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xce               // pcmpgtq    xmm1, xmm6
-	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x15380f66; BYTE $0xfd               // blendvpd    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xee               // blendvpd    xmm5, xmm6, xmm0
-	LONG $0x110f4166; WORD $0xf07c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm7
-	LONG $0x110f4166; WORD $0xf06c; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm5
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_845
-	JMP  LBB4_1499
-
-LBB4_989:
-	QUAD $0x0000013085100ff3 // movss    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
-
-LBB4_990:
-	JLE  LBB4_992
-	QUAD $0x0000012885100ff3 // movss    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_992:
-	LONG $0x110f41f3; WORD $0x8004 // movss    dword [r8 + 4*rax], xmm0
-	JMP  LBB4_1655
-
-LBB4_866:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_867:
-	LONG $0x146f0ff3; BYTE $0xb1   // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1 // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xe26f0f66               // movdqa    xmm4, xmm2
-	LONG $0xe4720f66; BYTE $0x1f   // psrad    xmm4, 31
-	LONG $0xe1eb0f66               // por    xmm4, xmm1
-	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
-	LONG $0xe5720f66; BYTE $0x1f   // psrad    xmm5, 31
-	LONG $0xe9eb0f66               // por    xmm5, xmm1
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
-	LONG $0x04d0c20f               // cmpneqps    xmm2, xmm0
-	WORD $0x540f; BYTE $0xd4       // andps    xmm2, xmm4
-	LONG $0x04d8c20f               // cmpneqps    xmm3, xmm0
-	WORD $0x540f; BYTE $0xdd       // andps    xmm3, xmm5
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
-	LONG $0x08c68348               // add    rsi, 8
-	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
-	JNE  LBB4_867
-	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_869
-
-LBB4_876:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1507
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
-
-LBB4_878:
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x32380f66; BYTE $0xdb               // pmovzxbq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x32380f66; BYTE $0xe4               // pmovzxbq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
-	LONG $0x3144b70f; BYTE $0x04               // movzx    eax, word [rcx + rsi + 4]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x3144b70f; BYTE $0x06               // movzx    eax, word [rcx + rsi + 6]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x32380f66; BYTE $0xdb               // pmovzxbq    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x32380f66; BYTE $0xe4               // pmovzxbq    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
-	LONG $0x08c68348                           // add    rsi, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_878
-	JMP  LBB4_1508
-
-LBB4_881:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1515
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_883:
-	LONG $0x1c6e0f66; BYTE $0x31   // movd    xmm3, dword [rcx + rsi]
-	LONG $0x646e0f66; WORD $0x0431 // movd    xmm4, dword [rcx + rsi + 4]
-	LONG $0xd8740f66               // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0x31380f66; BYTE $0xdb   // pmovzxbd    xmm3, xmm3
-	LONG $0xdadb0f66               // pand    xmm3, xmm2
-	WORD $0x5b0f; BYTE $0xdb       // cvtdq2ps    xmm3, xmm3
-	LONG $0xe0740f66               // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66               // pxor    xmm4, xmm1
-	LONG $0x31380f66; BYTE $0xe4   // pmovzxbd    xmm4, xmm4
-	LONG $0xe2db0f66               // pand    xmm4, xmm2
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	LONG $0x1c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm3
-	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x5c6e0f66; WORD $0x0831 // movd    xmm3, dword [rcx + rsi + 8]
-	LONG $0x646e0f66; WORD $0x0c31 // movd    xmm4, dword [rcx + rsi + 12]
-	LONG $0xd8740f66               // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0x31380f66; BYTE $0xdb   // pmovzxbd    xmm3, xmm3
-	LONG $0xdadb0f66               // pand    xmm3, xmm2
-	WORD $0x5b0f; BYTE $0xdb       // cvtdq2ps    xmm3, xmm3
-	LONG $0xe0740f66               // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66               // pxor    xmm4, xmm1
-	LONG $0x31380f66; BYTE $0xe4   // pmovzxbd    xmm4, xmm4
-	LONG $0xe2db0f66               // pand    xmm4, xmm2
-	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
-	LONG $0x5c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm3
-	LONG $0x64110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm4
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_883
-	JMP  LBB4_1516
-
-LBB4_892:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1535
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x00000080956f0f66 // movdqa    xmm2, oword 128[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_894:
-	LONG $0x1c6f0ff3; BYTE $0xb1               // movdqu    xmm3, oword [rcx + 4*rsi]
-	LONG $0x646f0ff3; WORD $0x10b1             // movdqu    xmm4, oword [rcx + 4*rsi + 16]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x301c             // movd    dword [r8 + rsi], xmm3
-	LONG $0x7e0f4166; WORD $0x3064; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm4
-	LONG $0x5c6f0ff3; WORD $0x20b1             // movdqu    xmm3, oword [rcx + 4*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30b1             // movdqu    xmm4, oword [rcx + 4*rsi + 48]
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7e0f4166; WORD $0x305c; BYTE $0x08 // movd    dword [r8 + rsi + 8], xmm3
-	LONG $0x7e0f4166; WORD $0x3064; BYTE $0x0c // movd    dword [r8 + rsi + 12], xmm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_894
-	JMP  LBB4_1536
-
-LBB4_897:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc     // and    edx, -4
-	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1543
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd2570f66             // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00 // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x65280f66; BYTE $0x10 // movapd    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x6d6f0f66; BYTE $0x40 // movdqa    xmm5, oword 64[rbp] /* [rip + .LCPI4_7] */
-
-LBB4_899:
-	LONG $0x34100f66; BYTE $0xf1         // movupd    xmm6, oword [rcx + 8*rsi]
-	LONG $0x7c100f66; WORD $0x10f1       // movupd    xmm7, oword [rcx + 8*rsi + 16]
-	LONG $0xc6280f66                     // movapd    xmm0, xmm6
-	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcf280f66                     // movapd    xmm1, xmm7
-	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0xf3540f66                     // andpd    xmm6, xmm3
-	LONG $0xf4560f66                     // orpd    xmm6, xmm4
-	LONG $0xfb540f66                     // andpd    xmm7, xmm3
-	LONG $0xfc560f66                     // orpd    xmm7, xmm4
-	LONG $0xf6e60f66                     // cvttpd2dq    xmm6, xmm6
-	LONG $0x00380f66; BYTE $0xf5         // pshufb    xmm6, xmm5
-	LONG $0xffe60f66                     // cvttpd2dq    xmm7, xmm7
-	LONG $0x00380f66; BYTE $0xfd         // pshufb    xmm7, xmm5
-	LONG $0x10380f66; BYTE $0xf2         // pblendvb    xmm6, xmm2, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfa         // pblendvb    xmm7, xmm2, xmm0
-	QUAD $0x003034153a0f4166             // pextrw    word [r8 + rsi], xmm6, 0
-	QUAD $0x02307c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm7, 0
-	LONG $0x74100f66; WORD $0x20f1       // movupd    xmm6, oword [rcx + 8*rsi + 32]
-	LONG $0x7c100f66; WORD $0x30f1       // movupd    xmm7, oword [rcx + 8*rsi + 48]
-	LONG $0xc6280f66                     // movapd    xmm0, xmm6
-	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcf280f66                     // movapd    xmm1, xmm7
-	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0xf3540f66                     // andpd    xmm6, xmm3
-	LONG $0xf4560f66                     // orpd    xmm6, xmm4
-	LONG $0xfb540f66                     // andpd    xmm7, xmm3
-	LONG $0xfc560f66                     // orpd    xmm7, xmm4
-	LONG $0xf6e60f66                     // cvttpd2dq    xmm6, xmm6
-	LONG $0x00380f66; BYTE $0xf5         // pshufb    xmm6, xmm5
-	LONG $0xffe60f66                     // cvttpd2dq    xmm7, xmm7
-	LONG $0x00380f66; BYTE $0xfd         // pshufb    xmm7, xmm5
-	LONG $0x10380f66; BYTE $0xf2         // pblendvb    xmm6, xmm2, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfa         // pblendvb    xmm7, xmm2, xmm0
-	QUAD $0x043074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 4], xmm6, 0
-	QUAD $0x06307c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 6], xmm7, 0
-	LONG $0x08c68348                     // add    rsi, 8
-	LONG $0x02c78348                     // add    rdi, 2
-	JNE  LBB4_899
-	JMP  LBB4_1544
-
-LBB4_902:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1552
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000100a56f0f66 // movdqa    xmm4, oword 256[rbp] /* [rip + .LCPI4_22] */
-
-LBB4_904:
-	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
-	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce640f66                           // pcmpgtb    xmm1, xmm6
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
-	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
-	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xce640f66                           // pcmpgtb    xmm1, xmm6
-	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_904
-	JMP  LBB4_1553
-
-LBB4_907:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1561
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000c0956f0f66 // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_909:
-	LONG $0x1c6f0ff3; BYTE $0xf1         // movdqu    xmm3, oword [rcx + 8*rsi]
-	LONG $0x646f0ff3; WORD $0x10f1       // movdqu    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0x29380f66; BYTE $0xd8         // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                     // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                     // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0         // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                     // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                     // packsswb    xmm4, xmm4
-	QUAD $0x00301c153a0f4166             // pextrw    word [r8 + rsi], xmm3, 0
-	LONG $0xe2db0f66                     // pand    xmm4, xmm2
-	QUAD $0x023064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm4, 0
-	LONG $0x5c6f0ff3; WORD $0x20f1       // movdqu    xmm3, oword [rcx + 8*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x30f1       // movdqu    xmm4, oword [rcx + 8*rsi + 48]
-	LONG $0x29380f66; BYTE $0xd8         // pcmpeqq    xmm3, xmm0
-	LONG $0xd9ef0f66                     // pxor    xmm3, xmm1
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                     // pand    xmm3, xmm2
-	LONG $0x29380f66; BYTE $0xe0         // pcmpeqq    xmm4, xmm0
-	LONG $0xe1ef0f66                     // pxor    xmm4, xmm1
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                     // packsswb    xmm4, xmm4
-	QUAD $0x04305c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 4], xmm3, 0
-	LONG $0xe2db0f66                     // pand    xmm4, xmm2
-	QUAD $0x063064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 6], xmm4, 0
-	LONG $0x08c68348                     // add    rsi, 8
-	LONG $0x02c78348                     // add    rdi, 2
-	JNE  LBB4_909
-	JMP  LBB4_1562
-
-LBB4_912:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf0 // and    edx, -16
-	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1569
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
-	QUAD $0x000000f0956f0f66 // movdqa    xmm2, oword 240[rbp] /* [rip + .LCPI4_21] */
-
-LBB4_914:
-	LONG $0x1c6f0ff3; BYTE $0x71               // movdqu    xmm3, oword [rcx + 2*rsi]
-	LONG $0x646f0ff3; WORD $0x1071             // movdqu    xmm4, oword [rcx + 2*rsi + 16]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x301c             // movdqu    oword [r8 + rsi], xmm3
-	LONG $0x5c6f0ff3; WORD $0x2071             // movdqu    xmm3, oword [rcx + 2*rsi + 32]
-	LONG $0x646f0ff3; WORD $0x3071             // movdqu    xmm4, oword [rcx + 2*rsi + 48]
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
-	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm3
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_914
-	JMP  LBB4_1570
-
-LBB4_917:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1577
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000f0a56f0f66 // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
-
-LBB4_919:
-	LONG $0x2c6f0ff3; BYTE $0x41               // movdqu    xmm5, oword [rcx + 2*rax]
-	LONG $0x746f0ff3; WORD $0x1041             // movdqu    xmm6, oword [rcx + 2*rax + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
-	LONG $0x6c6f0ff3; WORD $0x2041             // movdqu    xmm5, oword [rcx + 2*rax + 32]
-	LONG $0x746f0ff3; WORD $0x3041             // movdqu    xmm6, oword [rcx + 2*rax + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_919
-	JMP  LBB4_1578
-
-LBB4_922:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1586
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x000000c0a56f0f66 // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
-
-LBB4_924:
-	LONG $0x2c6f0ff3; BYTE $0xc1         // movdqu    xmm5, oword [rcx + 8*rax]
-	LONG $0x746f0ff3; WORD $0x10c1       // movdqu    xmm6, oword [rcx + 8*rax + 16]
-	LONG $0xc56f0f66                     // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2         // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                     // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca         // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea         // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                     // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed630f66                     // packsswb    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2         // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                     // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                     // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec         // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4         // pblendvb    xmm6, xmm4, xmm0
-	QUAD $0x00002c153a0f4166             // pextrw    word [r8 + rax], xmm5, 0
-	QUAD $0x020074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 2], xmm6, 0
-	LONG $0x6c6f0ff3; WORD $0x20c1       // movdqu    xmm5, oword [rcx + 8*rax + 32]
-	LONG $0x746f0ff3; WORD $0x30c1       // movdqu    xmm6, oword [rcx + 8*rax + 48]
-	LONG $0xc56f0f66                     // movdqa    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc2         // pcmpgtq    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                     // movdqa    xmm1, xmm6
-	LONG $0x37380f66; BYTE $0xca         // pcmpgtq    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xea         // pcmpeqq    xmm5, xmm2
-	LONG $0xebef0f66                     // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
-	LONG $0xed630f66                     // packsswb    xmm5, xmm5
-	LONG $0x29380f66; BYTE $0xf2         // pcmpeqq    xmm6, xmm2
-	LONG $0xf3ef0f66                     // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                     // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec         // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4         // pblendvb    xmm6, xmm4, xmm0
-	QUAD $0x04006c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 4], xmm5, 0
-	QUAD $0x060074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 6], xmm6, 0
-	LONG $0x08c08348                     // add    rax, 8
-	LONG $0x02c78348                     // add    rdi, 2
-	JNE  LBB4_924
-	JMP  LBB4_1587
-
-LBB4_927:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1595
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x570f; BYTE $0xe4     // xorps    xmm4, xmm4
-	LONG $0x760f4566; BYTE $0xc0 // pcmpeqd    xmm8, xmm8
-	QUAD $0x00000080b56f0f66     // movdqa    xmm6, oword 128[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_929:
-	LONG $0xb104100f                           // movups    xmm0, oword [rcx + 4*rsi]
-	LONG $0xb14c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rsi + 16]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x303c             // movd    dword [r8 + rsi], xmm7
-	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm5
-	LONG $0xb144100f; BYTE $0x20               // movups    xmm0, oword [rcx + 4*rsi + 32]
-	LONG $0xb14c100f; BYTE $0x30               // movups    xmm1, oword [rcx + 4*rsi + 48]
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x08 // movd    dword [r8 + rsi + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x307c; BYTE $0x0c // movd    dword [r8 + rsi + 12], xmm7
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_929
-	JMP  LBB4_1596
-
-LBB4_932:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0 // and    edx, -32
-	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x05e9c149         // shr    r9, 5
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1604
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	QUAD $0x000001008d6f0f66 // movdqa    xmm1, oword 256[rbp] /* [rip + .LCPI4_22] */
-
-LBB4_934:
-	LONG $0x146f0ff3; BYTE $0x31               // movdqu    xmm2, oword [rcx + rsi]
-	LONG $0x5c6f0ff3; WORD $0x1031             // movdqu    xmm3, oword [rcx + rsi + 16]
-	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x3014             // movdqu    oword [r8 + rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x2031             // movdqu    xmm2, oword [rcx + rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x3031             // movdqu    xmm3, oword [rcx + rsi + 48]
-	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0x3054; BYTE $0x20 // movdqu    oword [r8 + rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x30 // movdqu    oword [r8 + rsi + 48], xmm3
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_934
-	JMP  LBB4_1605
-
-LBB4_937:
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB4_1612
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	QUAD $0x00000080a56f0f66 // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
-
-LBB4_939:
-	LONG $0x2c6f0ff3; BYTE $0x81               // movdqu    xmm5, oword [rcx + 4*rax]
-	LONG $0x746f0ff3; WORD $0x1081             // movdqu    xmm6, oword [rcx + 4*rax + 16]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x002c             // movd    dword [r8 + rax], xmm5
-	LONG $0x7e0f4166; WORD $0x0074; BYTE $0x04 // movd    dword [r8 + rax + 4], xmm6
-	LONG $0x6c6f0ff3; WORD $0x2081             // movdqu    xmm5, oword [rcx + 4*rax + 32]
-	LONG $0x746f0ff3; WORD $0x3081             // movdqu    xmm6, oword [rcx + 4*rax + 48]
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66                           // pxor    xmm5, xmm3
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x006c; BYTE $0x08 // movd    dword [r8 + rax + 8], xmm5
-	LONG $0x7e0f4166; WORD $0x0074; BYTE $0x0c // movd    dword [r8 + rax + 12], xmm6
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_939
-	JMP  LBB4_1613
-
-LBB4_942:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1621
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_944:
-	LONG $0x146f0ff3; BYTE $0xb1               // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1             // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm3
-	LONG $0x546f0ff3; WORD $0x20b1             // movdqu    xmm2, oword [rcx + 4*rsi + 32]
-	LONG $0x5c6f0ff3; WORD $0x30b1             // movdqu    xmm3, oword [rcx + 4*rsi + 48]
-	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
-	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
-	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
-	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
-	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm3
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_944
-	JMP  LBB4_1622
-
-LBB4_950:
-	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0x03e9c149         // shr    r9, 3
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB4_1629
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0xfee78348         // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xf631             // xor    esi, esi
-	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
-	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
-	LONG $0x5065280f         // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_952:
-	LONG $0x2c6e0f66; BYTE $0x31   // movd    xmm5, dword [rcx + rsi]
-	LONG $0x746e0f66; WORD $0x0431 // movd    xmm6, dword [rcx + rsi + 4]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
-	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
-	LONG $0x6c6e0f66; WORD $0x0831 // movd    xmm5, dword [rcx + rsi + 8]
-	LONG $0x746e0f66; WORD $0x0c31 // movd    xmm6, dword [rcx + rsi + 12]
-	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
-	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
-	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
-	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
-	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
-	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
-	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_952
-	JMP  LBB4_1630
-
-LBB4_974:
-	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1638
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
-	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_976:
-	LONG $0x1c6e0f66; BYTE $0x31               // movd    xmm3, dword [rcx + rsi]
-	LONG $0x646e0f66; WORD $0x0431             // movd    xmm4, dword [rcx + rsi + 4]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x31380f66; BYTE $0xdb               // pmovzxbd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x31380f66; BYTE $0xe4               // pmovzxbd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb01c             // movdqu    oword [r8 + 4*rsi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm4
-	LONG $0x5c6e0f66; WORD $0x0831             // movd    xmm3, dword [rcx + rsi + 8]
-	LONG $0x646e0f66; WORD $0x0c31             // movd    xmm4, dword [rcx + rsi + 12]
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0x31380f66; BYTE $0xdb               // pmovzxbd    xmm3, xmm3
-	LONG $0xdadb0f66                           // pand    xmm3, xmm2
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
-	LONG $0x31380f66; BYTE $0xe4               // pmovzxbd    xmm4, xmm4
-	LONG $0xe2db0f66                           // pand    xmm4, xmm2
-	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm4
-	LONG $0x10c68348                           // add    rsi, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB4_976
-	JMP  LBB4_1639
-
-LBB4_979:
-	WORD $0x8944; BYTE $0xda     // mov    edx, r11d
-	WORD $0xe283; BYTE $0xf8     // and    edx, -8
-	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
-	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB4_1646
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x50 // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-
-LBB4_981:
-	LONG $0x2c6f0ff3; BYTE $0xb1   // movdqu    xmm5, oword [rcx + 4*rsi]
-	LONG $0x746f0ff3; WORD $0x10b1 // movdqu    xmm6, oword [rcx + 4*rsi + 16]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
-	LONG $0x3c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm7
-	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
-	LONG $0x6c6f0ff3; WORD $0x20b1 // movdqu    xmm5, oword [rcx + 4*rsi + 32]
-	LONG $0x746f0ff3; WORD $0x30b1 // movdqu    xmm6, oword [rcx + 4*rsi + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
-	LONG $0xebef0f66               // pxor    xmm5, xmm3
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
-	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
-	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
-	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
-	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
-	LONG $0x7c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm7
-	LONG $0x6c110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm5
-	LONG $0x10c68348               // add    rsi, 16
-	LONG $0x02c78348               // add    rdi, 2
-	JNE  LBB4_981
-	JMP  LBB4_1647
-
-LBB4_1475:
-	QUAD $0x00000130856e0f66 // movd    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
-
-LBB4_1476:
-	JLE  LBB4_1478
-	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-
-LBB4_1478:
-	LONG $0x7e0f4166; WORD $0x9004 // movd    dword [r8 + 4*rdx], xmm0
-	LONG $0x01ca8348               // or    rdx, 1
-
-LBB4_1479:
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	JE   LBB4_1655
-	QUAD $0x00000130856e0f66 // movd    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000001288d6e0f66 // movd    xmm1, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1482
-
-LBB4_1481:
-	LONG $0x7e0f4166; WORD $0x905c; BYTE $0x04 // movd    dword [r8 + 4*rdx + 4], xmm3
-	LONG $0x02c28348                           // add    rdx, 2
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1482:
-	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
-	LONG $0xd06f0f66 // movdqa    xmm2, xmm0
-	JNE  LBB4_1483
-	LONG $0xd2ef0f66 // pxor    xmm2, xmm2
-	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
-	JLE  LBB4_1487
-
-LBB4_1484:
-	LONG $0x7e0f4166; WORD $0x901c // movd    dword [r8 + 4*rdx], xmm3
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd06f0f66               // movdqa    xmm2, xmm0
-	JNE  LBB4_1485
-
-LBB4_1488:
-	LONG $0xd2ef0f66 // pxor    xmm2, xmm2
-	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
-	JG   LBB4_1481
-	JMP  LBB4_1489
-
-LBB4_1483:
-	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
-	JG   LBB4_1484
-
-LBB4_1487:
-	LONG $0xda6f0f66               // movdqa    xmm3, xmm2
-	LONG $0x7e0f4166; WORD $0x901c // movd    dword [r8 + 4*rdx], xmm3
-	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
-	LONG $0xd06f0f66               // movdqa    xmm2, xmm0
-	JE   LBB4_1488
-
-LBB4_1485:
-	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
-	JG   LBB4_1481
-
-LBB4_1489:
-	LONG $0xda6f0f66 // movdqa    xmm3, xmm2
-	JMP  LBB4_1481
-
-LBB4_994:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_995:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_997
-	LONG $0x046f0ff3; BYTE $0xf1   // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1 // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2   // pcmpeqq    xmm0, xmm2
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	QUAD $0x000000a09d6f0f66       // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xc3df0f66               // pandn    xmm0, xmm3
-	LONG $0x29380f66; BYTE $0xca   // pcmpeqq    xmm1, xmm2
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb004 // movdqu    oword [r8 + 4*rsi], xmm0
-
-LBB4_997:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_998:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_998
-	JMP  LBB4_1655
-
-LBB4_999:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1000:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1002
-	LONG $0x047e0ff3; BYTE $0xb1               // movq    xmm0, qword [rcx + 4*rsi]
-	LONG $0x4c7e0ff3; WORD $0x08b1             // movq    xmm1, qword [rcx + 4*rsi + 8]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x35380f66; BYTE $0xc0               // pmovzxdq    xmm0, xmm0
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x35380f66; BYTE $0xc9               // pmovzxdq    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1002:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1003:
-	WORD $0xf631             // xor    esi, esi
-	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40         // setne    sil
-	LONG $0xd0348949         // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JNE  LBB4_1003
-	JMP  LBB4_1655
-
-LBB4_1004:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1005:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1007
-	LONG $0x04100f66; BYTE $0xf9   // movupd    xmm0, oword [rcx + 8*rdi]
-	LONG $0x4d280f66; BYTE $0x00   // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xc8540f66               // andpd    xmm1, xmm0
-	LONG $0x4d560f66; BYTE $0x10   // orpd    xmm1, oword 16[rbp] /* [rip + .LCPI4_1] */
-	QUAD $0x0000011895100ff2       // movsd    xmm2, qword 280[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xd9280f66               // movapd    xmm3, xmm1
-	LONG $0xda5c0ff2               // subsd    xmm3, xmm2
-	LONG $0x2c0f48f2; BYTE $0xc3   // cvttsd2si    rax, xmm3
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2c0f48f2; BYTE $0xd1   // cvttsd2si    rdx, xmm1
-	LONG $0xca2e0f66               // ucomisd    xmm1, xmm2
-	LONG $0xd0430f48               // cmovae    rdx, rax
-	LONG $0x6e0f4866; BYTE $0xda   // movq    xmm3, rdx
-	LONG $0xc9700f66; BYTE $0xee   // pshufd    xmm1, xmm1, 238
-	LONG $0xe16f0f66               // movdqa    xmm4, xmm1
-	LONG $0xe25c0ff2               // subsd    xmm4, xmm2
-	LONG $0x2c0f48f2; BYTE $0xc4   // cvttsd2si    rax, xmm4
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2c0f48f2; BYTE $0xd1   // cvttsd2si    rdx, xmm1
-	LONG $0xca2e0f66               // ucomisd    xmm1, xmm2
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0xd0430f48               // cmovae    rdx, rax
-	LONG $0x6e0f4866; BYTE $0xd2   // movq    xmm2, rdx
-	LONG $0xda6c0f66               // punpcklqdq    xmm3, xmm2
-	LONG $0xc8c20f66; BYTE $0x04   // cmpneqpd    xmm1, xmm0
-	LONG $0xcb540f66               // andpd    xmm1, xmm3
-	LONG $0x110f4166; WORD $0xf80c // movupd    oword [r8 + 8*rdi], xmm1
-
-LBB4_1007:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-
-LBB4_1008:
-	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x000001108d100ff2     // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
-	QUAD $0x0000011895100ff2     // movsd    xmm2, qword 280[rbp] /* [rip + .LCPI4_6] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xdb570f66             // xorpd    xmm3, xmm3
-
-LBB4_1009:
-	LONG $0x24100ff2; BYTE $0xf1 // movsd    xmm4, qword [rcx + 8*rsi]
-	LONG $0xec280f66             // movapd    xmm5, xmm4
-	LONG $0xe8540f66             // andpd    xmm5, xmm0
-	LONG $0xe9560f66             // orpd    xmm5, xmm1
-	LONG $0xf5280f66             // movapd    xmm6, xmm5
-	LONG $0xf25c0ff2             // subsd    xmm6, xmm2
-	LONG $0x2c0f48f2; BYTE $0xd6 // cvttsd2si    rdx, xmm6
-	WORD $0x314c; BYTE $0xda     // xor    rdx, r11
-	LONG $0x2c0f48f2; BYTE $0xfd // cvttsd2si    rdi, xmm5
-	LONG $0xea2e0f66             // ucomisd    xmm5, xmm2
-	LONG $0xfa430f48             // cmovae    rdi, rdx
-	LONG $0xdc2e0f66             // ucomisd    xmm3, xmm4
-	LONG $0xf8440f48             // cmove    rdi, rax
-	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_1009
-	JMP  LBB4_1655
-
-LBB4_1010:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1011:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1013
-	LONG $0x046e0f66; BYTE $0x71               // movd    xmm0, dword [rcx + 2*rsi]
-	LONG $0x4c6e0f66; WORD $0x0471             // movd    xmm1, dword [rcx + 2*rsi + 4]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x34380f66; BYTE $0xc0               // pmovzxwq    xmm0, xmm0
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x34380f66; BYTE $0xc9               // pmovzxwq    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1013:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1014:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1014
-	JMP  LBB4_1655
-
-LBB4_1015:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1016:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1018
-	LONG $0x146e0f66; BYTE $0x71               // movd    xmm2, dword [rcx + 2*rsi]
-	LONG $0x5c6e0f66; WORD $0x0471             // movd    xmm3, dword [rcx + 2*rsi + 4]
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4650f66                           // pcmpgtw    xmm0, xmm4
-	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
-	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
-	LONG $0xd4750f66                           // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x24380f66; BYTE $0xd2               // pmovsxwq    xmm2, xmm2
-	LONG $0xdc750f66                           // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x24380f66; BYTE $0xdb               // pmovsxwq    xmm3, xmm3
-	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
-
-LBB4_1018:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1019:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1020:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1020
-	JMP  LBB4_1655
-
-LBB4_993:
-	WORD $0x500f; BYTE $0xc8               // movmskps    ecx, xmm0
-	WORD $0xe183; BYTE $0x01               // and    ecx, 1
-	WORD $0xd9f7                           // neg    ecx
-	WORD $0xc983; BYTE $0x01               // or    ecx, 1
-	WORD $0x570f; BYTE $0xc0               // xorps    xmm0, xmm0
-	LONG $0xc12a0ff3                       // cvtsi2ss    xmm0, ecx
-	QUAD $0x0000012c8d100ff3               // movss    xmm1, dword 300[rbp] /* [rip + .LCPI4_9] */
-	WORD $0x280f; BYTE $0xd0               // movaps    xmm2, xmm0
-	LONG $0xd15c0ff3                       // subss    xmm2, xmm1
-	LONG $0x2c0f48f3; BYTE $0xca           // cvttss2si    rcx, xmm2
-	QUAD $0x000000000000ba48; WORD $0x8000 // mov    rdx, -9223372036854775808
-	WORD $0x3148; BYTE $0xca               // xor    rdx, rcx
-	LONG $0x2c0f48f3; BYTE $0xc8           // cvttss2si    rcx, xmm0
-	WORD $0x2e0f; BYTE $0xc1               // ucomiss    xmm0, xmm1
-	LONG $0xca430f48                       // cmovae    rcx, rdx
-	LONG $0xc00c8949                       // mov    qword [r8 + 8*rax], rcx
-	JMP  LBB4_1655
-
-LBB4_1021:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1022:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1024
-	LONG $0x147e0ff3; BYTE $0xb1               // movq    xmm2, qword [rcx + 4*rsi]
-	LONG $0x5c7e0ff3; WORD $0x08b1             // movq    xmm3, qword [rcx + 4*rsi + 8]
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
-	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
-	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
-	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x25380f66; BYTE $0xd2               // pmovsxdq    xmm2, xmm2
-	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x25380f66; BYTE $0xdb               // pmovsxdq    xmm3, xmm3
-	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
-
-LBB4_1024:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1025:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1026:
-	WORD $0x3c8b; BYTE $0x91 // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0xff85             // test    edi, edi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff85             // test    edi, edi
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1026
-	JMP  LBB4_1655
-
-LBB4_1027:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1028:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1030
-	LONG $0x046f0ff3; BYTE $0xf1               // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1             // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2               // pcmpeqq    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0x29380f66; BYTE $0xca               // pcmpeqq    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7e0f4166; WORD $0x7004             // movd    dword [r8 + 2*rsi], xmm0
-	LONG $0x7e0f4166; WORD $0x704c; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm1
-
-LBB4_1030:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1031:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1031
-	JMP  LBB4_1655
-
-LBB4_1032:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1033:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1035
-	LONG $0x046f0ff3; BYTE $0xf1               // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1             // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2               // pcmpeqq    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0x29380f66; BYTE $0xca               // pcmpeqq    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7e0f4166; WORD $0x7004             // movd    dword [r8 + 2*rsi], xmm0
-	LONG $0x7e0f4166; WORD $0x704c; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm1
-
-LBB4_1035:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1036:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1036
-	JMP  LBB4_1655
-
-LBB4_1037:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1038:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1040
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x37380f66; BYTE $0xc4               // pcmpgtq    xmm0, xmm4
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0x37380f66; BYTE $0xcc               // pcmpgtq    xmm1, xmm4
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xd4               // pcmpeqq    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xdc               // pcmpeqq    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x7014             // movd    dword [r8 + 2*rsi], xmm2
-	LONG $0x7e0f4166; WORD $0x705c; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm3
-
-LBB4_1040:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1041:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1042:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1042
-	JMP  LBB4_1655
-
-LBB4_1043:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1044:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1046
-	LONG $0x146f0ff3; BYTE $0xb1   // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1 // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4660f66               // pcmpgtd    xmm0, xmm4
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc660f66               // pcmpgtd    xmm1, xmm4
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xd4760f66               // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0xd26b0f66               // packssdw    xmm2, xmm2
-	LONG $0xdc760f66               // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66               // packssdw    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x70   // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x10380f66; BYTE $0xd4   // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc   // pblendvb    xmm3, xmm4, xmm0
-	LONG $0xd36c0f66               // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x7014 // movdqu    oword [r8 + 2*rsi], xmm2
-
-LBB4_1046:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1047:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1048:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1048
-	JMP  LBB4_1655
-
-LBB4_1049:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1050:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1052
-	LONG $0x146f0ff3; BYTE $0xb1   // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1 // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4660f66               // pcmpgtd    xmm0, xmm4
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc660f66               // pcmpgtd    xmm1, xmm4
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xd4760f66               // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0xd26b0f66               // packssdw    xmm2, xmm2
-	LONG $0xdc760f66               // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66               // packssdw    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x70   // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x10380f66; BYTE $0xd4   // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc   // pblendvb    xmm3, xmm4, xmm0
-	LONG $0xd36c0f66               // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x7014 // movdqu    oword [r8 + 2*rsi], xmm2
-
-LBB4_1052:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1053:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1054:
-	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0xff85                 // test    edi, edi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1054
-	JMP  LBB4_1655
-
-LBB4_1055:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1056:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1058
-	LONG $0x046e0f66; BYTE $0x71               // movd    xmm0, dword [rcx + 2*rsi]
-	LONG $0x4c6e0f66; WORD $0x0471             // movd    xmm1, dword [rcx + 2*rsi + 4]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x34380f66; BYTE $0xc0               // pmovzxwq    xmm0, xmm0
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x34380f66; BYTE $0xc9               // pmovzxwq    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1058:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1059:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1059
-	JMP  LBB4_1655
-
-LBB4_1060:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1061:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1063
-	LONG $0x147e0ff3; BYTE $0xb1               // movq    xmm2, qword [rcx + 4*rsi]
-	LONG $0x5c7e0ff3; WORD $0x08b1             // movq    xmm3, qword [rcx + 4*rsi + 8]
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
-	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
-	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
-	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x25380f66; BYTE $0xd2               // pmovsxdq    xmm2, xmm2
-	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x25380f66; BYTE $0xdb               // pmovsxdq    xmm3, xmm3
-	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
-
-LBB4_1063:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1064:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1065:
-	WORD $0x3c8b; BYTE $0x91 // mov    edi, dword [rcx + 4*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0xff85             // test    edi, edi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff85             // test    edi, edi
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1065
-	JMP  LBB4_1655
-
-LBB4_1066:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1067:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1069
-	LONG $0x146f0ff3; BYTE $0xb1               // movdqu    xmm2, oword [rcx + 4*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10b1             // movdqu    xmm3, oword [rcx + 4*rsi + 16]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
-	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	WORD $0x5b0f; BYTE $0xd2                   // cvtdq2ps    xmm2, xmm2
-	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	WORD $0x5b0f; BYTE $0xdb                   // cvtdq2ps    xmm3, xmm3
-	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
-	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0             // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1069:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1070:
-	QUAD $0x00000130856e0f66 // movd    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000001288d6e0f66 // movd    xmm1, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1072
-
-LBB4_1071:
-	LONG $0x7e0f4166; WORD $0x901c // movd    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1072:
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd06f0f66 // movdqa    xmm2, xmm0
-	JNE  LBB4_1074
-	LONG $0xd2ef0f66 // pxor    xmm2, xmm2
-
-LBB4_1074:
-	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
-	JG   LBB4_1071
-	LONG $0xda6f0f66 // movdqa    xmm3, xmm2
-	JMP  LBB4_1071
-
-LBB4_1076:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1077:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1079
-	LONG $0x04100f66; BYTE $0xf9   // movupd    xmm0, oword [rcx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10f9 // movupd    xmm1, oword [rcx + 8*rdi + 16]
-	LONG $0xd2570f66               // xorpd    xmm2, xmm2
-	LONG $0xd8280f66               // movapd    xmm3, xmm0
-	LONG $0xdac20f66; BYTE $0x00   // cmpeqpd    xmm3, xmm2
-	LONG $0xe8dbc60f               // shufps    xmm3, xmm3, 232
-	LONG $0xd1c20f66; BYTE $0x00   // cmpeqpd    xmm2, xmm1
-	LONG $0xe8d2c60f               // shufps    xmm2, xmm2, 232
-	LONG $0x65280f66; BYTE $0x00   // movapd    xmm4, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xc4540f66               // andpd    xmm0, xmm4
-	LONG $0x6d280f66; BYTE $0x10   // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xc5560f66               // orpd    xmm0, xmm5
-	LONG $0xcc540f66               // andpd    xmm1, xmm4
-	LONG $0xcd560f66               // orpd    xmm1, xmm5
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	WORD $0x550f; BYTE $0xd8       // andnps    xmm3, xmm0
-	WORD $0x550f; BYTE $0xd1       // andnps    xmm2, xmm1
-	WORD $0x160f; BYTE $0xda       // movlhps    xmm3, xmm2
-	LONG $0x1c110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm3
-
-LBB4_1079:
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JE   LBB4_1655
-
-LBB4_1080:
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1081:
-	LONG $0x1c100ff2; BYTE $0xf1 // movsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66             // andpd    xmm3, xmm1
-	LONG $0xda560f66             // orpd    xmm3, xmm2
-	LONG $0xd32c0ff2             // cvttsd2si    edx, xmm3
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_1081
-	JMP  LBB4_1655
-
-LBB4_1082:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1083:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1085
-	LONG $0x046f0ff3; BYTE $0xf1   // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1 // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2   // pcmpeqq    xmm0, xmm2
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	QUAD $0x000000a09d6f0f66       // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xc3df0f66               // pandn    xmm0, xmm3
-	LONG $0x29380f66; BYTE $0xca   // pcmpeqq    xmm1, xmm2
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb004 // movdqu    oword [r8 + 4*rsi], xmm0
-
-LBB4_1085:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1086:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1086
-	JMP  LBB4_1655
-
-LBB4_1087:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1088:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1090
-	LONG $0x047e0ff3; BYTE $0x71               // movq    xmm0, qword [rcx + 2*rsi]
-	LONG $0x4c7e0ff3; WORD $0x0871             // movq    xmm1, qword [rcx + 2*rsi + 8]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x33380f66; BYTE $0xc0               // pmovzxwd    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x50               // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x33380f66; BYTE $0xc9               // pmovzxwd    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1090:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1091:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1091
-	JMP  LBB4_1655
-
-LBB4_1092:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1093:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1095
-	LONG $0x147e0ff3; BYTE $0x71   // movq    xmm2, qword [rcx + 2*rsi]
-	LONG $0x5c7e0ff3; WORD $0x0871 // movq    xmm3, qword [rcx + 2*rsi + 8]
-	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4650f66               // pcmpgtw    xmm0, xmm4
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc650f66               // pcmpgtw    xmm1, xmm4
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xd4750f66               // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0x23380f66; BYTE $0xd2   // pmovsxwd    xmm2, xmm2
-	LONG $0xdc750f66               // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0x23380f66; BYTE $0xdb   // pmovsxwd    xmm3, xmm3
-	LONG $0x5065280f               // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x14380f66; BYTE $0xd4   // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc   // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1095:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1096:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1097:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1097
-	JMP  LBB4_1655
-
-LBB4_1098:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1099:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1101
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x37380f66; BYTE $0xc4               // pcmpgtq    xmm0, xmm4
-	LONG $0xc0700f66; BYTE $0xe8               // pshufd    xmm0, xmm0, 232
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0x37380f66; BYTE $0xcc               // pcmpgtq    xmm1, xmm4
-	LONG $0xc9700f66; BYTE $0xe8               // pshufd    xmm1, xmm1, 232
-	LONG $0x29380f66; BYTE $0xd4               // pcmpeqq    xmm2, xmm4
-	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x29380f66; BYTE $0xdc               // pcmpeqq    xmm3, xmm4
-	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xa0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 160[rbp] /* [rip + .LCPI4_16] */
-	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
-	WORD $0x160f; BYTE $0xd3                   // movlhps    xmm2, xmm3
-	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
-
-LBB4_1101:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1102:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1103:
-	LONG $0xd13c8b48         // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1103
-	JMP  LBB4_1655
-
-LBB4_1106:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1107:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1109
-	LONG $0x1c100f66; BYTE $0xf9   // movupd    xmm3, oword [rcx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10f9 // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc9570f66               // xorpd    xmm1, xmm1
-	LONG $0xc3280f66               // movapd    xmm0, xmm3
-	LONG $0xc1c20f66; BYTE $0x00   // cmpeqpd    xmm0, xmm1
-	LONG $0xe8c0c60f               // shufps    xmm0, xmm0, 232
-	LONG $0xcac20f66; BYTE $0x00   // cmpeqpd    xmm1, xmm2
-	LONG $0x65280f66; BYTE $0x00   // movapd    xmm4, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xdc540f66               // andpd    xmm3, xmm4
-	LONG $0x6d280f66; BYTE $0x10   // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xdd560f66               // orpd    xmm3, xmm5
-	LONG $0xd4540f66               // andpd    xmm2, xmm4
-	LONG $0xd5560f66               // orpd    xmm2, xmm5
-	LONG $0xe3700f66; BYTE $0xee   // pshufd    xmm4, xmm3, 238
-	LONG $0x2c0f48f2; BYTE $0xc4   // cvttsd2si    rax, xmm4
-	LONG $0x2c0f48f2; BYTE $0xd3   // cvttsd2si    rdx, xmm3
-	LONG $0xda6e0f66               // movd    xmm3, edx
-	LONG $0x223a0f66; WORD $0x01d8 // pinsrd    xmm3, eax, 1
-	LONG $0xe2700f66; BYTE $0xee   // pshufd    xmm4, xmm2, 238
-	LONG $0x2c0f48f2; BYTE $0xc4   // cvttsd2si    rax, xmm4
-	LONG $0x2c0f48f2; BYTE $0xd2   // cvttsd2si    rdx, xmm2
-	LONG $0xe8c9c60f               // shufps    xmm1, xmm1, 232
-	LONG $0xd26e0f66               // movd    xmm2, edx
-	LONG $0x223a0f66; WORD $0x01d0 // pinsrd    xmm2, eax, 1
-	WORD $0x550f; BYTE $0xc3       // andnps    xmm0, xmm3
-	WORD $0x550f; BYTE $0xca       // andnps    xmm1, xmm2
-	WORD $0x160f; BYTE $0xc1       // movlhps    xmm0, xmm1
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-
-LBB4_1109:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB4_1655
-
-LBB4_1110:
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1111:
-	LONG $0x1c100ff2; BYTE $0xf1 // movsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66             // andpd    xmm3, xmm1
-	LONG $0xda560f66             // orpd    xmm3, xmm2
-	LONG $0x2c0f48f2; BYTE $0xc3 // cvttsd2si    rax, xmm3
-	LONG $0xc2440f41             // cmove    eax, r10d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB4_1111
-	JMP  LBB4_1655
-
-LBB4_1112:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1113:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1115
-	LONG $0x047e0ff3; BYTE $0x71               // movq    xmm0, qword [rcx + 2*rsi]
-	LONG $0x4c7e0ff3; WORD $0x0871             // movq    xmm1, qword [rcx + 2*rsi + 8]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x33380f66; BYTE $0xc0               // pmovzxwd    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x50               // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x33380f66; BYTE $0xc9               // pmovzxwd    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1115:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1116:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1116
-	JMP  LBB4_1655
-
-LBB4_1117:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1118:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1120
-	LONG $0x147e0ff3; BYTE $0x71   // movq    xmm2, qword [rcx + 2*rsi]
-	LONG $0x5c7e0ff3; WORD $0x0871 // movq    xmm3, qword [rcx + 2*rsi + 8]
-	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4650f66               // pcmpgtw    xmm0, xmm4
-	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc650f66               // pcmpgtw    xmm1, xmm4
-	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
-	LONG $0xd4750f66               // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0x23380f66; BYTE $0xd2   // pmovsxwd    xmm2, xmm2
-	LONG $0xdc750f66               // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0x23380f66; BYTE $0xdb   // pmovsxwd    xmm3, xmm3
-	LONG $0x5065280f               // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x14380f66; BYTE $0xd4   // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc   // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1120:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1121:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1122:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1122
-	JMP  LBB4_1655
-
-LBB4_1123:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1124:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1126
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x37380f66; BYTE $0xc4               // pcmpgtq    xmm0, xmm4
-	LONG $0xc0700f66; BYTE $0xe8               // pshufd    xmm0, xmm0, 232
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0x37380f66; BYTE $0xcc               // pcmpgtq    xmm1, xmm4
-	LONG $0xc9700f66; BYTE $0xe8               // pshufd    xmm1, xmm1, 232
-	LONG $0x29380f66; BYTE $0xd4               // pcmpeqq    xmm2, xmm4
-	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x29380f66; BYTE $0xdc               // pcmpeqq    xmm3, xmm4
-	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xa0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 160[rbp] /* [rip + .LCPI4_16] */
-	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
-	WORD $0x160f; BYTE $0xd3                   // movlhps    xmm2, xmm3
-	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
-
-LBB4_1126:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1127:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1128:
-	LONG $0xd13c8b48         // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f7             // neg    eax
-	WORD $0x8548; BYTE $0xff // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1128
-	JMP  LBB4_1655
-
-LBB4_1129:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1130:
-	LONG $0x01c1f641             // test    r9b, 1
-	JE   LBB4_1132
-	LONG $0xb104100f             // movups    xmm0, oword [rcx + 4*rsi]
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0x04c8c20f             // cmpneqps    xmm1, xmm0
-	LONG $0xe0720f66; BYTE $0x1f // psrad    xmm0, 31
-	LONG $0x45eb0f66; BYTE $0x50 // por    xmm0, oword 80[rbp] /* [rip + .LCPI4_8] */
-	WORD $0x5b0f; BYTE $0xd0     // cvtdq2ps    xmm2, xmm0
-	LONG $0x605d280f             // movaps    xmm3, oword 96[rbp] /* [rip + .LCPI4_10] */
-	WORD $0x280f; BYTE $0xc2     // movaps    xmm0, xmm2
-	LONG $0x01c3c20f             // cmpltps    xmm0, xmm3
-	LONG $0xe25b0ff3             // cvttps2dq    xmm4, xmm2
-	WORD $0x5c0f; BYTE $0xd3     // subps    xmm2, xmm3
-	LONG $0xd25b0ff3             // cvttps2dq    xmm2, xmm2
-	LONG $0x3055570f             // xorps    xmm2, oword 48[rbp] /* [rip + .LCPI4_4] */
-	LONG $0x14380f66; BYTE $0xd4 // blendvps    xmm2, xmm4, xmm0
-	WORD $0x540f; BYTE $0xca     // andps    xmm1, xmm2
-	LONG $0x0c110f41; BYTE $0xb0 // movups    oword [r8 + 4*rsi], xmm1
-
-LBB4_1132:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1133:
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-	JMP  LBB4_1135
-
-LBB4_1134:
-	LONG $0x90348941         // mov    dword [r8 + 4*rdx], esi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1135:
-	LONG $0x0c100ff3; BYTE $0x91 // movss    xmm1, dword [rcx + 4*rdx]
-	WORD $0xf631                 // xor    esi, esi
-	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
-	JE   LBB4_1134
-	WORD $0x500f; BYTE $0xf1     // movmskps    esi, xmm1
-	WORD $0xe683; BYTE $0x01     // and    esi, 1
-	WORD $0xdef7                 // neg    esi
-	WORD $0xce83; BYTE $0x01     // or    esi, 1
-	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
-	LONG $0xce2a0ff3             // cvtsi2ss    xmm1, esi
-	LONG $0x2c0f48f3; BYTE $0xf1 // cvttss2si    rsi, xmm1
-	JMP  LBB4_1134
-
-LBB4_1137:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1138:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1140
-	LONG $0x046f0ff3; BYTE $0xb1   // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1 // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2760f66               // pcmpeqd    xmm0, xmm2
-	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x70   // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
-	LONG $0xc4db0f66               // pand    xmm0, xmm4
-	LONG $0xca760f66               // pcmpeqd    xmm1, xmm2
-	LONG $0xcbef0f66               // pxor    xmm1, xmm3
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xccdb0f66               // pand    xmm1, xmm4
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7004 // movdqu    oword [r8 + 2*rsi], xmm0
-
-LBB4_1140:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1141:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1141
-	JMP  LBB4_1655
-
-LBB4_1142:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1143:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1145
-	LONG $0x046f0ff3; BYTE $0xb1   // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1 // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2760f66               // pcmpeqd    xmm0, xmm2
-	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x70   // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
-	LONG $0xc4db0f66               // pand    xmm0, xmm4
-	LONG $0xca760f66               // pcmpeqd    xmm1, xmm2
-	LONG $0xcbef0f66               // pxor    xmm1, xmm3
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xccdb0f66               // pand    xmm1, xmm4
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7004 // movdqu    oword [r8 + 2*rsi], xmm0
-
-LBB4_1145:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1146:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40             // setne    sil
-	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1146
-	JMP  LBB4_1655
-
-LBB4_1147:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1148:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1150
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc2280f66                           // movapd    xmm0, xmm2
-	LONG $0xc4c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm4
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xcb280f66                           // movapd    xmm1, xmm3
-	LONG $0xccc20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm4
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x6d280f66; BYTE $0x00               // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xd5540f66                           // andpd    xmm2, xmm5
-	LONG $0x75280f66; BYTE $0x10               // movapd    xmm6, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xd6560f66                           // orpd    xmm2, xmm6
-	LONG $0xdd540f66                           // andpd    xmm3, xmm5
-	LONG $0xde560f66                           // orpd    xmm3, xmm6
-	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
-	LONG $0xdbe60f66                           // cvttpd2dq    xmm3, xmm3
-	LONG $0xd2700ff2; BYTE $0xe8               // pshuflw    xmm2, xmm2, 232
-	LONG $0xdb700ff2; BYTE $0xe8               // pshuflw    xmm3, xmm3, 232
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x7814             // movd    dword [r8 + 2*rdi], xmm2
-	LONG $0x7e0f4166; WORD $0x785c; BYTE $0x04 // movd    dword [r8 + 2*rdi + 4], xmm3
-
-LBB4_1150:
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JE   LBB4_1655
-
-LBB4_1151:
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1152:
-	LONG $0x1c100ff2; BYTE $0xf1 // movsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66             // andpd    xmm3, xmm1
-	LONG $0xda560f66             // orpd    xmm3, xmm2
-	LONG $0xd32c0ff2             // cvttsd2si    edx, xmm3
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_1152
-	JMP  LBB4_1655
-
-LBB4_1153:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1154:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1156
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc2280f66                           // movapd    xmm0, xmm2
-	LONG $0xc4c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm4
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xcb280f66                           // movapd    xmm1, xmm3
-	LONG $0xccc20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm4
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x6d280f66; BYTE $0x00               // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xd5540f66                           // andpd    xmm2, xmm5
-	LONG $0x75280f66; BYTE $0x10               // movapd    xmm6, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xd6560f66                           // orpd    xmm2, xmm6
-	LONG $0xdd540f66                           // andpd    xmm3, xmm5
-	LONG $0xde560f66                           // orpd    xmm3, xmm6
-	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
-	LONG $0xdbe60f66                           // cvttpd2dq    xmm3, xmm3
-	LONG $0xd2700ff2; BYTE $0xe8               // pshuflw    xmm2, xmm2, 232
-	LONG $0xdb700ff2; BYTE $0xe8               // pshuflw    xmm3, xmm3, 232
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x7814             // movd    dword [r8 + 2*rdi], xmm2
-	LONG $0x7e0f4166; WORD $0x785c; BYTE $0x04 // movd    dword [r8 + 2*rdi + 4], xmm3
-
-LBB4_1156:
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JE   LBB4_1655
-
-LBB4_1157:
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1158:
-	LONG $0x1c100ff2; BYTE $0xf1 // movsd    xmm3, qword [rcx + 8*rsi]
-	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66             // andpd    xmm3, xmm1
-	LONG $0xda560f66             // orpd    xmm3, xmm2
-	LONG $0xd32c0ff2             // cvttsd2si    edx, xmm3
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_1158
-	JMP  LBB4_1655
-
-LBB4_1159:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1160:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1162
-	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
-	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x37380f66; BYTE $0xc4               // pcmpgtq    xmm0, xmm4
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0x37380f66; BYTE $0xcc               // pcmpgtq    xmm1, xmm4
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xd4               // pcmpeqq    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xdc               // pcmpeqq    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x7014             // movd    dword [r8 + 2*rsi], xmm2
-	LONG $0x7e0f4166; WORD $0x705c; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm3
-
-LBB4_1162:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1163:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1164:
-	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f7                 // neg    eax
-	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
-	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
-	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
-	JNE  LBB4_1164
-	JMP  LBB4_1655
-
-LBB4_1165:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1166:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1168
-	LONG $0xb904100f               // movups    xmm0, oword [rcx + 4*rdi]
-	LONG $0xb94c100f; BYTE $0x10   // movups    xmm1, oword [rcx + 4*rdi + 16]
-	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
-	WORD $0x280f; BYTE $0xd0       // movaps    xmm2, xmm0
-	LONG $0x00d4c20f               // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66               // packssdw    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9       // movaps    xmm3, xmm1
-	LONG $0x00dcc20f               // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66               // packssdw    xmm3, xmm3
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xcd660f66               // pcmpgtd    xmm1, xmm5
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0x756f0f66; BYTE $0x70   // movdqa    xmm6, oword 112[rbp] /* [rip + .LCPI4_11] */
-	LONG $0xff760f66               // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe   // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc   // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66               // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec   // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xfd6c0f66               // punpcklqdq    xmm7, xmm5
-	LONG $0x7f0f41f3; WORD $0x783c // movdqu    oword [r8 + 2*rdi], xmm7
-
-LBB4_1168:
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JE   LBB4_1655
-
-LBB4_1169:
-	LONG $0xc0ef0f66 // pxor    xmm0, xmm0
-
-LBB4_1170:
-	LONG $0x0c6e0f66; BYTE $0xb1 // movd    xmm1, dword [rcx + 4*rsi]
-	LONG $0xca7e0f66             // movd    edx, xmm1
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xd285                 // test    edx, edx
-	LONG $0xd7990f40             // setns    dil
-	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
-	LONG $0xff3f548d             // lea    edx, [rdi + rdi - 1]
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_1170
-	JMP  LBB4_1655
-
-LBB4_1171:
-	WORD $0xff31 // xor    edi, edi
-
-LBB4_1172:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1174
-	LONG $0xb904100f               // movups    xmm0, oword [rcx + 4*rdi]
-	LONG $0xb94c100f; BYTE $0x10   // movups    xmm1, oword [rcx + 4*rdi + 16]
-	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
-	WORD $0x280f; BYTE $0xd0       // movaps    xmm2, xmm0
-	LONG $0x00d4c20f               // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66               // packssdw    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9       // movaps    xmm3, xmm1
-	LONG $0x00dcc20f               // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66               // packssdw    xmm3, xmm3
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xcd660f66               // pcmpgtd    xmm1, xmm5
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0x756f0f66; BYTE $0x70   // movdqa    xmm6, oword 112[rbp] /* [rip + .LCPI4_11] */
-	LONG $0xff760f66               // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe   // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc   // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66               // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec   // pblendvb    xmm5, xmm4, xmm0
-	LONG $0xfd6c0f66               // punpcklqdq    xmm7, xmm5
-	LONG $0x7f0f41f3; WORD $0x783c // movdqu    oword [r8 + 2*rdi], xmm7
-
-LBB4_1174:
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JE   LBB4_1655
-
-LBB4_1175:
-	LONG $0xc0ef0f66 // pxor    xmm0, xmm0
-
-LBB4_1176:
-	LONG $0x0c6e0f66; BYTE $0xb1 // movd    xmm1, dword [rcx + 4*rsi]
-	LONG $0xca7e0f66             // movd    edx, xmm1
-	WORD $0xff31                 // xor    edi, edi
-	WORD $0xd285                 // test    edx, edx
-	LONG $0xd7990f40             // setns    dil
-	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
-	LONG $0xff3f548d             // lea    edx, [rdi + rdi - 1]
-	LONG $0xd2440f41             // cmove    edx, r10d
-	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB4_1176
-	JMP  LBB4_1655
-
-LBB4_1177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1178:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1180
-	LONG $0x047e0ff3; BYTE $0xb1               // movq    xmm0, qword [rcx + 4*rsi]
-	LONG $0x4c7e0ff3; WORD $0x08b1             // movq    xmm1, qword [rcx + 4*rsi + 8]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x35380f66; BYTE $0xc0               // pmovzxdq    xmm0, xmm0
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x35380f66; BYTE $0xc9               // pmovzxdq    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1180:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1181:
-	WORD $0xf631             // xor    esi, esi
-	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xd6950f40         // setne    sil
-	LONG $0xd0348949         // mov    qword [r8 + 8*rdx], rsi
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JNE  LBB4_1181
-	JMP  LBB4_1655
-
-LBB4_1182:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1183:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1185
-	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	QUAD $0x000000d09d6f0f66                   // movdqa    xmm3, oword 208[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1185:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1186:
-	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1188
-
-LBB4_1187:
-	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1188:
-	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
-	LONG $0xc86f0f66 // movdqa    xmm1, xmm0
-	JNE  LBB4_1187
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-	JMP  LBB4_1187
-
-LBB4_1190:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1191:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1193
-	LONG $0x04100f66; BYTE $0xf1               // movupd    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c100f66; WORD $0x10f1             // movupd    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2570f66                           // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00               // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xe0280f66                           // movapd    xmm4, xmm0
-	LONG $0xe3540f66                           // andpd    xmm4, xmm3
-	LONG $0x6d280f66; BYTE $0x10               // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xe5560f66                           // orpd    xmm4, xmm5
-	LONG $0xd9540f66                           // andpd    xmm3, xmm1
-	LONG $0xdd560f66                           // orpd    xmm3, xmm5
-	LONG $0x2c0f48f2; BYTE $0xfc               // cvttsd2si    rdi, xmm4
-	LONG $0x6e0f4866; BYTE $0xef               // movq    xmm5, rdi
-	LONG $0xe4700f66; BYTE $0xee               // pshufd    xmm4, xmm4, 238
-	LONG $0x2c0f48f2; BYTE $0xfc               // cvttsd2si    rdi, xmm4
-	LONG $0x6e0f4866; BYTE $0xe7               // movq    xmm4, rdi
-	LONG $0xec6c0f66                           // punpcklqdq    xmm5, xmm4
-	LONG $0x2c0f48f2; BYTE $0xfb               // cvttsd2si    rdi, xmm3
-	LONG $0x6e0f4866; BYTE $0xe7               // movq    xmm4, rdi
-	LONG $0xdb700f66; BYTE $0xee               // pshufd    xmm3, xmm3, 238
-	LONG $0x2c0f48f2; BYTE $0xfb               // cvttsd2si    rdi, xmm3
-	LONG $0x6e0f4866; BYTE $0xdf               // movq    xmm3, rdi
-	LONG $0xe36c0f66                           // punpcklqdq    xmm4, xmm3
-	LONG $0xc2c20f66; BYTE $0x04               // cmpneqpd    xmm0, xmm2
-	LONG $0xc5540f66                           // andpd    xmm0, xmm5
-	LONG $0xcac20f66; BYTE $0x04               // cmpneqpd    xmm1, xmm2
-	LONG $0xcc540f66                           // andpd    xmm1, xmm4
-	LONG $0x110f4166; WORD $0xf004             // movupd    oword [r8 + 8*rsi], xmm0
-	LONG $0x110f4166; WORD $0xf04c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1193:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1194:
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0xc0570f66             // xorpd    xmm0, xmm0
-	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
-
-LBB4_1195:
-	LONG $0x1c100ff2; BYTE $0xd1 // movsd    xmm3, qword [rcx + 8*rdx]
-	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
-	LONG $0xd9540f66             // andpd    xmm3, xmm1
-	LONG $0xda560f66             // orpd    xmm3, xmm2
-	LONG $0x2c0f48f2; BYTE $0xfb // cvttsd2si    rdi, xmm3
-	LONG $0xfe440f48             // cmove    rdi, rsi
-	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
-	JNE  LBB4_1195
-	JMP  LBB4_1655
-
-LBB4_1196:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1197:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1199
-	LONG $0x14100f66; BYTE $0xf1               // movupd    xmm2, oword [rcx + 8*rsi]
-	LONG $0x100f4466; WORD $0xf144; BYTE $0x10 // movupd    xmm8, oword [rcx + 8*rsi + 16]
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0xda5a0ff2                           // cvtsd2ss    xmm3, xmm2
-	LONG $0xd0c20f66; BYTE $0x00               // cmpeqpd    xmm2, xmm0
-	LONG $0xe8d2c60f                           // shufps    xmm2, xmm2, 232
-	LONG $0x655a0f66; BYTE $0x10               // cvtpd2ps    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xc20f4166; WORD $0x00c0             // cmpeqpd    xmm0, xmm8
-	LONG $0x6c100ff2; WORD $0x08f1             // movsd    xmm5, qword [rcx + 8*rsi + 8]
-	LONG $0xed5a0ff2                           // cvtsd2ss    xmm5, xmm5
-	LONG $0xe8c0c60f                           // shufps    xmm0, xmm0, 232
-	LONG $0x2075280f                           // movaps    xmm6, oword 32[rbp] /* [rip + .LCPI4_3] */
-	WORD $0x280f; BYTE $0xfe                   // movaps    xmm7, xmm6
-	WORD $0x550f; BYTE $0xfd                   // andnps    xmm7, xmm5
-	LONG $0xec160ff3                           // movshdup    xmm5, xmm4
-	WORD $0x540f; BYTE $0xee                   // andps    xmm5, xmm6
-	WORD $0x560f; BYTE $0xfd                   // orps    xmm7, xmm5
-	WORD $0x280f; BYTE $0xce                   // movaps    xmm1, xmm6
-	WORD $0x550f; BYTE $0xcb                   // andnps    xmm1, xmm3
-	WORD $0x540f; BYTE $0xe6                   // andps    xmm4, xmm6
-	WORD $0x560f; BYTE $0xcc                   // orps    xmm1, xmm4
-	WORD $0x140f; BYTE $0xcf                   // unpcklps    xmm1, xmm7
-	WORD $0x550f; BYTE $0xd1                   // andnps    xmm2, xmm1
-	LONG $0x4c100ff2; WORD $0x18f1             // movsd    xmm1, qword [rcx + 8*rsi + 24]
-	LONG $0xc95a0ff2                           // cvtsd2ss    xmm1, xmm1
-	WORD $0x280f; BYTE $0xde                   // movaps    xmm3, xmm6
-	WORD $0x550f; BYTE $0xd9                   // andnps    xmm3, xmm1
-	WORD $0x560f; BYTE $0xdd                   // orps    xmm3, xmm5
-	WORD $0x570f; BYTE $0xc9                   // xorps    xmm1, xmm1
-	LONG $0x5a0f41f2; BYTE $0xc8               // cvtsd2ss    xmm1, xmm8
-	WORD $0x550f; BYTE $0xf1                   // andnps    xmm6, xmm1
-	WORD $0x560f; BYTE $0xf4                   // orps    xmm6, xmm4
-	WORD $0x140f; BYTE $0xf3                   // unpcklps    xmm6, xmm3
-	WORD $0x550f; BYTE $0xc6                   // andnps    xmm0, xmm6
-	WORD $0x160f; BYTE $0xd0                   // movlhps    xmm2, xmm0
-	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
-
-LBB4_1199:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1200:
-	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
-	LONG $0x304d280f         // movaps    xmm1, oword 48[rbp] /* [rip + .LCPI4_4] */
-	QUAD $0x0000012895100ff3 // movss    xmm2, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1202
-
-LBB4_1201:
-	LONG $0x110f41f3; WORD $0x901c // movss    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1202:
-	LONG $0x24100ff2; BYTE $0xd1 // movsd    xmm4, qword [rcx + 8*rdx]
-	LONG $0xc42e0f66             // ucomisd    xmm0, xmm4
-	WORD $0x570f; BYTE $0xdb     // xorps    xmm3, xmm3
-	JE   LBB4_1201
-	WORD $0x570f; BYTE $0xdb     // xorps    xmm3, xmm3
-	LONG $0xdc5a0ff2             // cvtsd2ss    xmm3, xmm4
-	WORD $0x540f; BYTE $0xd9     // andps    xmm3, xmm1
-	WORD $0x560f; BYTE $0xda     // orps    xmm3, xmm2
-	JMP  LBB4_1201
-
-LBB4_1204:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1205:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1207
-	LONG $0x047e0ff3; BYTE $0x71   // movq    xmm0, qword [rcx + 2*rsi]
-	LONG $0x4c7e0ff3; WORD $0x0871 // movq    xmm1, qword [rcx + 2*rsi + 8]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2750f66               // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
-	LONG $0x33380f66; BYTE $0xc0   // pmovzxwd    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc4db0f66               // pand    xmm0, xmm4
-	WORD $0x5b0f; BYTE $0xc0       // cvtdq2ps    xmm0, xmm0
-	LONG $0xca750f66               // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66               // pxor    xmm1, xmm3
-	LONG $0x33380f66; BYTE $0xc9   // pmovzxwd    xmm1, xmm1
-	LONG $0xccdb0f66               // pand    xmm1, xmm4
-	WORD $0x5b0f; BYTE $0xc9       // cvtdq2ps    xmm1, xmm1
-	LONG $0x04110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm0
-	LONG $0x4c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1207:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1208:
-	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1210
-
-LBB4_1209:
-	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1210:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xc86f0f66             // movdqa    xmm1, xmm0
-	JNE  LBB4_1209
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	JMP  LBB4_1209
-
-LBB4_1212:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1213:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1215
-	LONG $0x146e0f66; BYTE $0x71               // movd    xmm2, dword [rcx + 2*rsi]
-	LONG $0x5c6e0f66; WORD $0x0471             // movd    xmm3, dword [rcx + 2*rsi + 4]
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4650f66                           // pcmpgtw    xmm0, xmm4
-	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
-	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
-	LONG $0xd4750f66                           // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x24380f66; BYTE $0xd2               // pmovsxwq    xmm2, xmm2
-	LONG $0xdc750f66                           // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x24380f66; BYTE $0xdb               // pmovsxwq    xmm3, xmm3
-	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
-
-LBB4_1215:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-
-LBB4_1216:
-	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
-
-LBB4_1217:
-	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0x8566; BYTE $0xff // test    di, di
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
-	JNE  LBB4_1217
-	JMP  LBB4_1655
-
-LBB4_1218:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1219:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1221
-	LONG $0x147e0ff3; BYTE $0x71               // movq    xmm2, qword [rcx + 2*rsi]
-	LONG $0x5c7e0ff3; WORD $0x0871             // movq    xmm3, qword [rcx + 2*rsi + 8]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4650f66                           // pcmpgtw    xmm0, xmm4
-	LONG $0x23380f66; BYTE $0xc0               // pmovsxwd    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
-	LONG $0x23380f66; BYTE $0xc9               // pmovsxwd    xmm1, xmm1
-	LONG $0xd4750f66                           // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x23380f66; BYTE $0xd2               // pmovsxwd    xmm2, xmm2
-	WORD $0x5b0f; BYTE $0xd2                   // cvtdq2ps    xmm2, xmm2
-	LONG $0xdc750f66                           // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x23380f66; BYTE $0xdb               // pmovsxwd    xmm3, xmm3
-	WORD $0x5b0f; BYTE $0xdb                   // cvtdq2ps    xmm3, xmm3
-	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
-	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0             // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1221:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-
-LBB4_1222:
-	QUAD $0x00000130856e0f66 // movd    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
-	QUAD $0x000001288d6e0f66 // movd    xmm1, dword 296[rbp] /* [rip + .LCPI4_5] */
-	JMP  LBB4_1224
-
-LBB4_1223:
-	LONG $0x7e0f4166; WORD $0x901c // movd    dword [r8 + 4*rdx], xmm3
-	LONG $0x01c28348               // add    rdx, 1
-	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
-	JE   LBB4_1655
-
-LBB4_1224:
-	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	JNE  LBB4_1226
-	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
-
-LBB4_1226:
-	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
-	JG   LBB4_1223
-	LONG $0xda6f0f66 // movdqa    xmm3, xmm2
-	JMP  LBB4_1223
-
-LBB4_1104:
-	WORD $0x500f; BYTE $0xc8     // movmskps    ecx, xmm0
-	WORD $0xe183; BYTE $0x01     // and    ecx, 1
-	WORD $0xd9f7                 // neg    ecx
-	WORD $0xc983; BYTE $0x01     // or    ecx, 1
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc12a0ff3             // cvtsi2ss    xmm0, ecx
-	LONG $0x2c0f48f3; BYTE $0xc8 // cvttss2si    rcx, xmm0
-
-LBB4_1105:
-	LONG $0xc00c8949 // mov    qword [r8 + 8*rax], rcx
-
-LBB4_1655:
-	RET
-
-LBB4_1228:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1229:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1231
-	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	LONG $0x5d6f0f66; BYTE $0x50               // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1231:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1232
-
-LBB4_1236:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1237:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1239
-	LONG $0x146e0f66; BYTE $0x31   // movd    xmm2, dword [rcx + rsi]
-	LONG $0x5c6e0f66; WORD $0x0431 // movd    xmm3, dword [rcx + rsi + 4]
-	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4640f66               // pcmpgtb    xmm0, xmm4
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc640f66               // pcmpgtb    xmm1, xmm4
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xd4740f66               // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0x21380f66; BYTE $0xd2   // pmovsxbd    xmm2, xmm2
-	LONG $0xdc740f66               // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0x21380f66; BYTE $0xdb   // pmovsxbd    xmm3, xmm3
-	LONG $0x5065280f               // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x14380f66; BYTE $0xd4   // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc   // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1239:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1240
-
-LBB4_1245:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1246:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1248
-	LONG $0x046e0f66; BYTE $0x31               // movd    xmm0, dword [rcx + rsi]
-	LONG $0x4c6e0f66; WORD $0x0431             // movd    xmm1, dword [rcx + rsi + 4]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x31380f66; BYTE $0xc0               // pmovzxbd    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x50               // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x31380f66; BYTE $0xc9               // pmovzxbd    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1248:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1249
-
-LBB4_1253:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1254:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1256
-	LONG $0x0c6f0ff3; BYTE $0xb1   // movdqu    xmm1, oword [rcx + 4*rsi]
-	LONG $0x546f0ff3; WORD $0x10b1 // movdqu    xmm2, oword [rcx + 4*rsi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc1660f66               // pcmpgtd    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0xeb760f66               // pcmpeqd    xmm5, xmm3
-	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
-	LONG $0xda760f66               // pcmpeqd    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x14380f66; BYTE $0xd5   // blendvps    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xe3   // blendvps    xmm4, xmm3, xmm0
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
-
-LBB4_1256:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1655
-	JMP  LBB4_1257
-
-LBB4_1262:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1263:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1265
-	LONG $0x04100f66; BYTE $0xf1               // movupd    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c100f66; WORD $0x10f1             // movupd    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2570f66                           // xorpd    xmm2, xmm2
-	LONG $0x5d280f66; BYTE $0x00               // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xe0280f66                           // movapd    xmm4, xmm0
-	LONG $0xe3540f66                           // andpd    xmm4, xmm3
-	LONG $0x6d280f66; BYTE $0x10               // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xe5560f66                           // orpd    xmm4, xmm5
-	LONG $0xd9540f66                           // andpd    xmm3, xmm1
-	LONG $0xdd560f66                           // orpd    xmm3, xmm5
-	LONG $0xc2c20f66; BYTE $0x04               // cmpneqpd    xmm0, xmm2
-	LONG $0xc4540f66                           // andpd    xmm0, xmm4
-	LONG $0xcac20f66; BYTE $0x04               // cmpneqpd    xmm1, xmm2
-	LONG $0xcb540f66                           // andpd    xmm1, xmm3
-	LONG $0x110f4166; WORD $0xf004             // movupd    oword [r8 + 8*rsi], xmm0
-	LONG $0x110f4166; WORD $0xf04c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1265:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1266
-
-LBB4_1271:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1272:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1274
-	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7e0f4166; WORD $0x3004             // movd    dword [r8 + rsi], xmm0
-	LONG $0x7e0f4166; WORD $0x304c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm1
-
-LBB4_1274:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1275
-
-LBB4_1279:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1280:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1282
-	LONG $0x1c100f66; BYTE $0xf1         // movupd    xmm3, oword [rcx + 8*rsi]
-	LONG $0x64100f66; WORD $0x10f1       // movupd    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0xd2570f66                     // xorpd    xmm2, xmm2
-	LONG $0xc3280f66                     // movapd    xmm0, xmm3
-	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcc280f66                     // movapd    xmm1, xmm4
-	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x6d280f66; BYTE $0x00         // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xdd540f66                     // andpd    xmm3, xmm5
-	LONG $0x75280f66; BYTE $0x10         // movapd    xmm6, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xde560f66                     // orpd    xmm3, xmm6
-	LONG $0xe5540f66                     // andpd    xmm4, xmm5
-	LONG $0xe6560f66                     // orpd    xmm4, xmm6
-	LONG $0xdbe60f66                     // cvttpd2dq    xmm3, xmm3
-	LONG $0x6d6f0f66; BYTE $0x40         // movdqa    xmm5, oword 64[rbp] /* [rip + .LCPI4_7] */
-	LONG $0x00380f66; BYTE $0xdd         // pshufb    xmm3, xmm5
-	LONG $0xe4e60f66                     // cvttpd2dq    xmm4, xmm4
-	LONG $0x00380f66; BYTE $0xe5         // pshufb    xmm4, xmm5
-	LONG $0x10380f66; BYTE $0xda         // pblendvb    xmm3, xmm2, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe2         // pblendvb    xmm4, xmm2, xmm0
-	QUAD $0x00301c153a0f4166             // pextrw    word [r8 + rsi], xmm3, 0
-	QUAD $0x023064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm4, 0
-
-LBB4_1282:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1283
-
-LBB4_1288:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1289:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1291
-	LONG $0x0c6f0ff3; BYTE $0x01               // movdqu    xmm1, oword [rcx + rax]
-	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
-	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
-	QUAD $0x00000100a56f0f66                   // movdqa    xmm4, oword 256[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc1640f66                           // pcmpgtb    xmm0, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xeb740f66                           // pcmpeqb    xmm5, xmm3
-	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
-	LONG $0xda740f66                           // pcmpeqb    xmm3, xmm2
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x10380f66; BYTE $0xd5               // pblendvb    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe3               // pblendvb    xmm4, xmm3, xmm0
-	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
-
-LBB4_1291:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1292
-
-LBB4_1297:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1298:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1300
-	LONG $0x046f0ff3; BYTE $0xf1         // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1       // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66                     // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2         // pcmpeqq    xmm0, xmm2
-	LONG $0xdb760f66                     // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                     // pxor    xmm0, xmm3
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	QUAD $0x000000c0a56f0f66             // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xc4db0f66                     // pand    xmm0, xmm4
-	LONG $0x29380f66; BYTE $0xca         // pcmpeqq    xmm1, xmm2
-	LONG $0xcbef0f66                     // pxor    xmm1, xmm3
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	QUAD $0x003004153a0f4166             // pextrw    word [r8 + rsi], xmm0, 0
-	LONG $0xccdb0f66                     // pand    xmm1, xmm4
-	QUAD $0x02304c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm1, 0
-
-LBB4_1300:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1301
-
-LBB4_1305:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1306:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1308
-	LONG $0x046f0ff3; BYTE $0x71   // movdqu    xmm0, oword [rcx + 2*rsi]
-	LONG $0x4c6f0ff3; WORD $0x1071 // movdqu    xmm1, oword [rcx + 2*rsi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2750f66               // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	QUAD $0x000000f0a56f0f66       // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xc4db0f66               // pand    xmm0, xmm4
-	LONG $0xca750f66               // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66               // pxor    xmm1, xmm3
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0xccdb0f66               // pand    xmm1, xmm4
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3004 // movdqu    oword [r8 + rsi], xmm0
-
-LBB4_1308:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1309
-
-LBB4_1313:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1314:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1316
-	LONG $0x146f0ff3; BYTE $0x41   // movdqu    xmm2, oword [rcx + 2*rax]
-	LONG $0x5c6f0ff3; WORD $0x1041 // movdqu    xmm3, oword [rcx + 2*rax + 16]
-	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4650f66               // pcmpgtw    xmm0, xmm4
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc650f66               // pcmpgtw    xmm1, xmm4
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0xd4750f66               // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0xd2630f66               // packsswb    xmm2, xmm2
-	LONG $0xdc750f66               // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0xdb630f66               // packsswb    xmm3, xmm3
-	QUAD $0x000000f0a56f0f66       // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
-	LONG $0x10380f66; BYTE $0xd4   // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc   // pblendvb    xmm3, xmm4, xmm0
-	LONG $0xd36c0f66               // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x0014 // movdqu    oword [r8 + rax], xmm2
-
-LBB4_1316:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1317
-
-LBB4_1322:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1323:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1325
-	LONG $0x146f0ff3; BYTE $0xc1         // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0x5c6f0ff3; WORD $0x10c1       // movdqu    xmm3, oword [rcx + 8*rax + 16]
-	LONG $0xe4ef0f66                     // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                     // movdqa    xmm0, xmm2
-	LONG $0x37380f66; BYTE $0xc4         // pcmpgtq    xmm0, xmm4
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcb6f0f66                     // movdqa    xmm1, xmm3
-	LONG $0x37380f66; BYTE $0xcc         // pcmpgtq    xmm1, xmm4
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xd4         // pcmpeqq    xmm2, xmm4
-	LONG $0xed760f66                     // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                     // pxor    xmm2, xmm5
-	LONG $0xd26b0f66                     // packssdw    xmm2, xmm2
-	LONG $0xd26b0f66                     // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                     // packsswb    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xdc         // pcmpeqq    xmm3, xmm4
-	LONG $0xddef0f66                     // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
-	QUAD $0x000000c0a56f0f66             // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0x10380f66; BYTE $0xd4         // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc         // pblendvb    xmm3, xmm4, xmm0
-	QUAD $0x000014153a0f4166             // pextrw    word [r8 + rax], xmm2, 0
-	QUAD $0x02005c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 2], xmm3, 0
-
-LBB4_1325:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1326
-
-LBB4_1331:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1332:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1334
-	LONG $0xb104100f                           // movups    xmm0, oword [rcx + 4*rsi]
-	LONG $0xb14c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rsi + 16]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xc5660f66                           // pcmpgtd    xmm0, xmm5
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xcd660f66                           // pcmpgtd    xmm1, xmm5
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x00000080b56f0f66                   // movdqa    xmm6, oword 128[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x303c             // movd    dword [r8 + rsi], xmm7
-	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm5
-
-LBB4_1334:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1335
-
-LBB4_1340:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1341:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1343
-	LONG $0x046f0ff3; BYTE $0x31               // movdqu    xmm0, oword [rcx + rsi]
-	LONG $0x4c6f0ff3; WORD $0x1031             // movdqu    xmm1, oword [rcx + rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	QUAD $0x000001009d6f0f66                   // movdqa    xmm3, oword 256[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0x3004             // movdqu    oword [r8 + rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0x304c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm1
-
-LBB4_1343:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1344
-
-LBB4_1348:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1349:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1351
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0x5c6f0ff3; WORD $0x1081             // movdqu    xmm3, oword [rcx + 4*rax + 16]
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x0014             // movd    dword [r8 + rax], xmm2
-	LONG $0x7e0f4166; WORD $0x005c; BYTE $0x04 // movd    dword [r8 + rax + 4], xmm3
-
-LBB4_1351:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1352
-
-LBB4_1357:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1358:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1360
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
-	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
-	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
-	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x22380f66; BYTE $0xd2               // pmovsxbq    xmm2, xmm2
-	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x22380f66; BYTE $0xdb               // pmovsxbq    xmm3, xmm3
-	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
-
-LBB4_1360:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1361
-
-LBB4_1366:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1367:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1369
-	LONG $0x046f0ff3; BYTE $0xf1               // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1             // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2               // pcmpeqq    xmm0, xmm2
-	QUAD $0x000000909d6f0f66                   // movdqa    xmm3, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0x29380f66; BYTE $0xca               // pcmpeqq    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1369:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1370
-
-LBB4_1374:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1375:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1377
-	LONG $0x0c6f0ff3; BYTE $0xf1               // movdqu    xmm1, oword [rcx + 8*rsi]
-	LONG $0x546f0ff3; WORD $0x10f1             // movdqu    xmm2, oword [rcx + 8*rsi + 16]
-	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc1               // pcmpgtq    xmm0, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0x29380f66; BYTE $0xeb               // pcmpeqq    xmm5, xmm3
-	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
-	LONG $0x29380f66; BYTE $0xda               // pcmpeqq    xmm3, xmm2
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x15380f66; BYTE $0xd5               // blendvpd    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xe3               // blendvpd    xmm4, xmm3, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf064; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm4
-
-LBB4_1377:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1655
-	JMP  LBB4_1378
-
-LBB4_1383:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1384:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1386
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x32380f66; BYTE $0xc0               // pmovzxbq    xmm0, xmm0
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x32380f66; BYTE $0xc9               // pmovzxbq    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1386:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1387
-
-LBB4_1391:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1392:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1394
-	LONG $0x147e0ff3; BYTE $0x31               // movq    xmm2, qword [rcx + rsi]
-	LONG $0x5c7e0ff3; WORD $0x0831             // movq    xmm3, qword [rcx + rsi + 8]
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
-	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
-	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
-	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x20380f66; BYTE $0xd2               // pmovsxbw    xmm2, xmm2
-	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x20380f66; BYTE $0xdb               // pmovsxbw    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
-
-LBB4_1394:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1395
-
-LBB4_1400:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1401:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1403
-	LONG $0x147e0ff3; BYTE $0x31               // movq    xmm2, qword [rcx + rsi]
-	LONG $0x5c7e0ff3; WORD $0x0831             // movq    xmm3, qword [rcx + rsi + 8]
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
-	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
-	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
-	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x20380f66; BYTE $0xd2               // pmovsxbw    xmm2, xmm2
-	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x20380f66; BYTE $0xdb               // pmovsxbw    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
-
-LBB4_1403:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1404
-
-LBB4_1409:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1410:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1412
-	LONG $0x046f0ff3; BYTE $0x71               // movdqu    xmm0, oword [rcx + 2*rsi]
-	LONG $0x4c6f0ff3; WORD $0x1071             // movdqu    xmm1, oword [rcx + 2*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
-	QUAD $0x000000e09d6f0f66                   // movdqa    xmm3, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0x7004             // movdqu    oword [r8 + 2*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0x704c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm1
-
-LBB4_1412:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1413
-
-LBB4_1417:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1418:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1420
-	LONG $0x046f0ff3; BYTE $0x71               // movdqu    xmm0, oword [rcx + 2*rsi]
-	LONG $0x4c6f0ff3; WORD $0x1071             // movdqu    xmm1, oword [rcx + 2*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
-	QUAD $0x000000e09d6f0f66                   // movdqa    xmm3, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0x7004             // movdqu    oword [r8 + 2*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0x704c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm1
-
-LBB4_1420:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1421
-
-LBB4_1425:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1426:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1428
-	LONG $0x0c6f0ff3; BYTE $0x71               // movdqu    xmm1, oword [rcx + 2*rsi]
-	LONG $0x546f0ff3; WORD $0x1071             // movdqu    xmm2, oword [rcx + 2*rsi + 16]
-	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc1650f66                           // pcmpgtw    xmm0, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xeb750f66                           // pcmpeqw    xmm5, xmm3
-	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
-	LONG $0xda750f66                           // pcmpeqw    xmm3, xmm2
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x10380f66; BYTE $0xd5               // pblendvb    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe3               // pblendvb    xmm4, xmm3, xmm0
-	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm4
-
-LBB4_1428:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1655
-	JMP  LBB4_1429
-
-LBB4_1434:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1435:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1437
-	LONG $0x0c6f0ff3; BYTE $0x71               // movdqu    xmm1, oword [rcx + 2*rsi]
-	LONG $0x546f0ff3; WORD $0x1071             // movdqu    xmm2, oword [rcx + 2*rsi + 16]
-	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc1650f66                           // pcmpgtw    xmm0, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xeb750f66                           // pcmpeqw    xmm5, xmm3
-	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
-	LONG $0xda750f66                           // pcmpeqw    xmm3, xmm2
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x10380f66; BYTE $0xd5               // pblendvb    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe3               // pblendvb    xmm4, xmm3, xmm0
-	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm4
-
-LBB4_1437:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1655
-	JMP  LBB4_1438
-
-LBB4_1443:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1444:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1446
-	LONG $0x047e0ff3; BYTE $0x31               // movq    xmm0, qword [rcx + rsi]
-	LONG $0x4c7e0ff3; WORD $0x0831             // movq    xmm1, qword [rcx + rsi + 8]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x30380f66; BYTE $0xc0               // pmovzxbw    xmm0, xmm0
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x30380f66; BYTE $0xc9               // pmovzxbw    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0x7004             // movdqu    oword [r8 + 2*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0x704c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm1
-
-LBB4_1446:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1447
-
-LBB4_1451:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1452:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1454
-	LONG $0x047e0ff3; BYTE $0x31               // movq    xmm0, qword [rcx + rsi]
-	LONG $0x4c7e0ff3; WORD $0x0831             // movq    xmm1, qword [rcx + rsi + 8]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x30380f66; BYTE $0xc0               // pmovzxbw    xmm0, xmm0
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x30380f66; BYTE $0xc9               // pmovzxbw    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0x7004             // movdqu    oword [r8 + 2*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0x704c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm1
-
-LBB4_1454:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1455
-
-LBB4_1459:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1460:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1462
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
-	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
-	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
-	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x22380f66; BYTE $0xd2               // pmovsxbq    xmm2, xmm2
-	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x22380f66; BYTE $0xdb               // pmovsxbq    xmm3, xmm3
-	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
-
-LBB4_1462:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1463
-
-LBB4_1468:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1469:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1471
-	LONG $0x146e0f66; BYTE $0x31               // movd    xmm2, dword [rcx + rsi]
-	LONG $0x5c6e0f66; WORD $0x0431             // movd    xmm3, dword [rcx + rsi + 4]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
-	LONG $0x21380f66; BYTE $0xc0               // pmovsxbd    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
-	LONG $0x21380f66; BYTE $0xc9               // pmovsxbd    xmm1, xmm1
-	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0x21380f66; BYTE $0xd2               // pmovsxbd    xmm2, xmm2
-	WORD $0x5b0f; BYTE $0xd2                   // cvtdq2ps    xmm2, xmm2
-	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0x21380f66; BYTE $0xdb               // pmovsxbd    xmm3, xmm3
-	WORD $0x5b0f; BYTE $0xdb                   // cvtdq2ps    xmm3, xmm3
-	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
-	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0             // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1471:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1472
-
-LBB4_1490:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1491:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1493
-	LONG $0x046f0ff3; BYTE $0xf1               // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1             // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2               // pcmpeqq    xmm0, xmm2
-	QUAD $0x000000909d6f0f66                   // movdqa    xmm3, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0x29380f66; BYTE $0xca               // pcmpeqq    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1493:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1494
-
-LBB4_1498:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1499:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1501
-	LONG $0x0c6f0ff3; BYTE $0xf1               // movdqu    xmm1, oword [rcx + 8*rsi]
-	LONG $0x546f0ff3; WORD $0x10f1             // movdqu    xmm2, oword [rcx + 8*rsi + 16]
-	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc1               // pcmpgtq    xmm0, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0x29380f66; BYTE $0xeb               // pcmpeqq    xmm5, xmm3
-	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
-	LONG $0x29380f66; BYTE $0xda               // pcmpeqq    xmm3, xmm2
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x15380f66; BYTE $0xd5               // blendvpd    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xe3               // blendvpd    xmm4, xmm3, xmm0
-	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
-	LONG $0x110f4166; WORD $0xf064; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm4
-
-LBB4_1501:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1655
-	JMP  LBB4_1502
-
-LBB4_1507:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1508:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1510
-	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x32380f66; BYTE $0xc0               // pmovzxbq    xmm0, xmm0
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x32380f66; BYTE $0xc9               // pmovzxbq    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
-
-LBB4_1510:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1511
-
-LBB4_1515:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1516:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1518
-	LONG $0x046e0f66; BYTE $0x31   // movd    xmm0, dword [rcx + rsi]
-	LONG $0x4c6e0f66; WORD $0x0431 // movd    xmm1, dword [rcx + rsi + 4]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2740f66               // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
-	LONG $0x31380f66; BYTE $0xc0   // pmovzxbd    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc4db0f66               // pand    xmm0, xmm4
-	WORD $0x5b0f; BYTE $0xc0       // cvtdq2ps    xmm0, xmm0
-	LONG $0xca740f66               // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66               // pxor    xmm1, xmm3
-	LONG $0x31380f66; BYTE $0xc9   // pmovzxbd    xmm1, xmm1
-	LONG $0xccdb0f66               // pand    xmm1, xmm4
-	WORD $0x5b0f; BYTE $0xc9       // cvtdq2ps    xmm1, xmm1
-	LONG $0x04110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm0
-	LONG $0x4c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1518:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1519
-
-LBB4_1535:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1536:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1538
-	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7e0f4166; WORD $0x3004             // movd    dword [r8 + rsi], xmm0
-	LONG $0x7e0f4166; WORD $0x304c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm1
-
-LBB4_1538:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1539
-
-LBB4_1543:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1544:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1546
-	LONG $0x1c100f66; BYTE $0xf1         // movupd    xmm3, oword [rcx + 8*rsi]
-	LONG $0x64100f66; WORD $0x10f1       // movupd    xmm4, oword [rcx + 8*rsi + 16]
-	LONG $0xd2570f66                     // xorpd    xmm2, xmm2
-	LONG $0xc3280f66                     // movapd    xmm0, xmm3
-	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcc280f66                     // movapd    xmm1, xmm4
-	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x6d280f66; BYTE $0x00         // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xdd540f66                     // andpd    xmm3, xmm5
-	LONG $0x75280f66; BYTE $0x10         // movapd    xmm6, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xde560f66                     // orpd    xmm3, xmm6
-	LONG $0xe5540f66                     // andpd    xmm4, xmm5
-	LONG $0xe6560f66                     // orpd    xmm4, xmm6
-	LONG $0xdbe60f66                     // cvttpd2dq    xmm3, xmm3
-	LONG $0x6d6f0f66; BYTE $0x40         // movdqa    xmm5, oword 64[rbp] /* [rip + .LCPI4_7] */
-	LONG $0x00380f66; BYTE $0xdd         // pshufb    xmm3, xmm5
-	LONG $0xe4e60f66                     // cvttpd2dq    xmm4, xmm4
-	LONG $0x00380f66; BYTE $0xe5         // pshufb    xmm4, xmm5
-	LONG $0x10380f66; BYTE $0xda         // pblendvb    xmm3, xmm2, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe2         // pblendvb    xmm4, xmm2, xmm0
-	QUAD $0x00301c153a0f4166             // pextrw    word [r8 + rsi], xmm3, 0
-	QUAD $0x023064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm4, 0
-
-LBB4_1546:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1547
-
-LBB4_1552:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1553:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1555
-	LONG $0x0c6f0ff3; BYTE $0x01               // movdqu    xmm1, oword [rcx + rax]
-	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
-	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
-	QUAD $0x00000100a56f0f66                   // movdqa    xmm4, oword 256[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xc1640f66                           // pcmpgtb    xmm0, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xeb740f66                           // pcmpeqb    xmm5, xmm3
-	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
-	LONG $0xda740f66                           // pcmpeqb    xmm3, xmm2
-	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x10380f66; BYTE $0xd5               // pblendvb    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xe3               // pblendvb    xmm4, xmm3, xmm0
-	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
-
-LBB4_1555:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1556
-
-LBB4_1561:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1562:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1564
-	LONG $0x046f0ff3; BYTE $0xf1         // movdqu    xmm0, oword [rcx + 8*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10f1       // movdqu    xmm1, oword [rcx + 8*rsi + 16]
-	LONG $0xd2ef0f66                     // pxor    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xc2         // pcmpeqq    xmm0, xmm2
-	LONG $0xdb760f66                     // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                     // pxor    xmm0, xmm3
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	QUAD $0x000000c0a56f0f66             // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xc4db0f66                     // pand    xmm0, xmm4
-	LONG $0x29380f66; BYTE $0xca         // pcmpeqq    xmm1, xmm2
-	LONG $0xcbef0f66                     // pxor    xmm1, xmm3
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	QUAD $0x003004153a0f4166             // pextrw    word [r8 + rsi], xmm0, 0
-	LONG $0xccdb0f66                     // pand    xmm1, xmm4
-	QUAD $0x02304c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm1, 0
-
-LBB4_1564:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1565
-
-LBB4_1569:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1570:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1572
-	LONG $0x046f0ff3; BYTE $0x71   // movdqu    xmm0, oword [rcx + 2*rsi]
-	LONG $0x4c6f0ff3; WORD $0x1071 // movdqu    xmm1, oword [rcx + 2*rsi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xc2750f66               // pcmpeqw    xmm0, xmm2
-	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	QUAD $0x000000f0a56f0f66       // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xc4db0f66               // pand    xmm0, xmm4
-	LONG $0xca750f66               // pcmpeqw    xmm1, xmm2
-	LONG $0xcbef0f66               // pxor    xmm1, xmm3
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0xccdb0f66               // pand    xmm1, xmm4
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3004 // movdqu    oword [r8 + rsi], xmm0
-
-LBB4_1572:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1573
-
-LBB4_1577:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1578:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1580
-	LONG $0x146f0ff3; BYTE $0x41   // movdqu    xmm2, oword [rcx + 2*rax]
-	LONG $0x5c6f0ff3; WORD $0x1041 // movdqu    xmm3, oword [rcx + 2*rax + 16]
-	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4650f66               // pcmpgtw    xmm0, xmm4
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc650f66               // pcmpgtw    xmm1, xmm4
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0xd4750f66               // pcmpeqw    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0xd2630f66               // packsswb    xmm2, xmm2
-	LONG $0xdc750f66               // pcmpeqw    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0xdb630f66               // packsswb    xmm3, xmm3
-	QUAD $0x000000f0a56f0f66       // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
-	LONG $0x10380f66; BYTE $0xd4   // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc   // pblendvb    xmm3, xmm4, xmm0
-	LONG $0xd36c0f66               // punpcklqdq    xmm2, xmm3
-	LONG $0x7f0f41f3; WORD $0x0014 // movdqu    oword [r8 + rax], xmm2
-
-LBB4_1580:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1581
-
-LBB4_1586:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1587:
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB4_1589
-	LONG $0x146f0ff3; BYTE $0xc1         // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0x5c6f0ff3; WORD $0x10c1       // movdqu    xmm3, oword [rcx + 8*rax + 16]
-	LONG $0xe4ef0f66                     // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                     // movdqa    xmm0, xmm2
-	LONG $0x37380f66; BYTE $0xc4         // pcmpgtq    xmm0, xmm4
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
-	LONG $0xcb6f0f66                     // movdqa    xmm1, xmm3
-	LONG $0x37380f66; BYTE $0xcc         // pcmpgtq    xmm1, xmm4
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
-	LONG $0x29380f66; BYTE $0xd4         // pcmpeqq    xmm2, xmm4
-	LONG $0xed760f66                     // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                     // pxor    xmm2, xmm5
-	LONG $0xd26b0f66                     // packssdw    xmm2, xmm2
-	LONG $0xd26b0f66                     // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                     // packsswb    xmm2, xmm2
-	LONG $0x29380f66; BYTE $0xdc         // pcmpeqq    xmm3, xmm4
-	LONG $0xddef0f66                     // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
-	QUAD $0x000000c0a56f0f66             // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
-	LONG $0x10380f66; BYTE $0xd4         // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc         // pblendvb    xmm3, xmm4, xmm0
-	QUAD $0x000014153a0f4166             // pextrw    word [r8 + rax], xmm2, 0
-	QUAD $0x02005c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 2], xmm3, 0
-
-LBB4_1589:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1590
-
-LBB4_1595:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1596:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1598
-	LONG $0xb104100f                           // movups    xmm0, oword [rcx + 4*rsi]
-	LONG $0xb14c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rsi + 16]
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
-	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xc5660f66                           // pcmpgtd    xmm0, xmm5
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xcd660f66                           // pcmpgtd    xmm1, xmm5
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x00000080b56f0f66                   // movdqa    xmm6, oword 128[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x303c             // movd    dword [r8 + rsi], xmm7
-	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm5
-
-LBB4_1598:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1599
-
-LBB4_1604:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1605:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1607
-	LONG $0x046f0ff3; BYTE $0x31               // movdqu    xmm0, oword [rcx + rsi]
-	LONG $0x4c6f0ff3; WORD $0x1031             // movdqu    xmm1, oword [rcx + rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	QUAD $0x000001009d6f0f66                   // movdqa    xmm3, oword 256[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0x3004             // movdqu    oword [r8 + rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0x304c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm1
-
-LBB4_1607:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB4_1655
-	JMP  LBB4_1608
-
-LBB4_1612:
-	WORD $0xc031 // xor    eax, eax
-
-LBB4_1613:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1615
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0x5c6f0ff3; WORD $0x1081             // movdqu    xmm3, oword [rcx + 4*rax + 16]
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
-	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
-	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
-	LONG $0xddef0f66                           // pxor    xmm3, xmm5
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
-	LONG $0x7e0f4166; WORD $0x0014             // movd    dword [r8 + rax], xmm2
-	LONG $0x7e0f4166; WORD $0x005c; BYTE $0x04 // movd    dword [r8 + rax + 4], xmm3
-
-LBB4_1615:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB4_1655
-	JMP  LBB4_1616
-
-LBB4_1621:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1622:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1624
-	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
-	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
-	LONG $0x5d6f0f66; BYTE $0x50               // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
-	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
-	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1624:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1625
-
-LBB4_1629:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1630:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1632
-	LONG $0x146e0f66; BYTE $0x31   // movd    xmm2, dword [rcx + rsi]
-	LONG $0x5c6e0f66; WORD $0x0431 // movd    xmm3, dword [rcx + rsi + 4]
-	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0xc4640f66               // pcmpgtb    xmm0, xmm4
-	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
-	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
-	LONG $0xcc640f66               // pcmpgtb    xmm1, xmm4
-	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
-	LONG $0xd4740f66               // pcmpeqb    xmm2, xmm4
-	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
-	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
-	LONG $0x21380f66; BYTE $0xd2   // pmovsxbd    xmm2, xmm2
-	LONG $0xdc740f66               // pcmpeqb    xmm3, xmm4
-	LONG $0xddef0f66               // pxor    xmm3, xmm5
-	LONG $0x21380f66; BYTE $0xdb   // pmovsxbd    xmm3, xmm3
-	LONG $0x5065280f               // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x14380f66; BYTE $0xd4   // blendvps    xmm2, xmm4, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xdc   // blendvps    xmm3, xmm4, xmm0
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
-
-LBB4_1632:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1633
-
-LBB4_1638:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1639:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB4_1641
-	LONG $0x046e0f66; BYTE $0x31               // movd    xmm0, dword [rcx + rsi]
-	LONG $0x4c6e0f66; WORD $0x0431             // movd    xmm1, dword [rcx + rsi + 4]
-	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
-	LONG $0x31380f66; BYTE $0xc0               // pmovzxbd    xmm0, xmm0
-	LONG $0x656f0f66; BYTE $0x50               // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc4db0f66                           // pand    xmm0, xmm4
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
-	LONG $0x31380f66; BYTE $0xc9               // pmovzxbd    xmm1, xmm1
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
-
-LBB4_1641:
-	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
-	JE   LBB4_1655
-	JMP  LBB4_1642
-
-LBB4_1646:
-	WORD $0xf631 // xor    esi, esi
-
-LBB4_1647:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB4_1649
-	LONG $0x0c6f0ff3; BYTE $0xb1   // movdqu    xmm1, oword [rcx + 4*rsi]
-	LONG $0x546f0ff3; WORD $0x10b1 // movdqu    xmm2, oword [rcx + 4*rsi + 16]
-	LONG $0xdbef0f66               // pxor    xmm3, xmm3
-	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0xc1660f66               // pcmpgtd    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0xeb760f66               // pcmpeqd    xmm5, xmm3
-	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
-	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
-	LONG $0xda760f66               // pcmpeqd    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
-	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x14380f66; BYTE $0xd5   // blendvps    xmm2, xmm5, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x14380f66; BYTE $0xe3   // blendvps    xmm4, xmm3, xmm0
-	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
-	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
-
-LBB4_1649:
-	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
-	JE   LBB4_1655
-	JMP  LBB4_1650
diff --git a/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go b/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
deleted file mode 100644
index 36619106c93cf..0000000000000
--- a/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && (noasm || !amd64)
-
-package kernels
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"golang.org/x/exp/constraints"
-)
-
-func getArithmeticOpFloating[InT, OutT constraints.Float](op ArithmeticOp) exec.ArrayKernelExec {
-	return getGoArithmeticOpFloating[InT, OutT](op)
-}
-
-func getArithmeticOpIntegral[InT, OutT arrow.UintType | arrow.IntType](op ArithmeticOp) exec.ArrayKernelExec {
-	return getGoArithmeticOpIntegral[InT, OutT](op)
-}
diff --git a/go/arrow/compute/internal/kernels/boolean_cast.go b/go/arrow/compute/internal/kernels/boolean_cast.go
deleted file mode 100644
index 66a49f2be0294..0000000000000
--- a/go/arrow/compute/internal/kernels/boolean_cast.go
+++ /dev/null
@@ -1,107 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"strconv"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-)
-
-func isNonZero[T arrow.FixedWidthType](ctx *exec.KernelCtx, in []T, out []byte) error {
-	var zero T
-	for i, v := range in {
-		bitutil.SetBitTo(out, i, v != zero)
-	}
-	return nil
-}
-
-// GetBooleanCastKernels returns the slice of scalar kernels for casting
-// values *to* a boolean type.
-func GetBooleanCastKernels() []exec.ScalarKernel {
-	kernels := GetCommonCastKernels(arrow.BOOL, exec.NewOutputType(arrow.FixedWidthTypes.Boolean))
-	kernels = append(kernels, GetZeroCastKernel(arrow.BOOL,
-		exec.NewExactInput(arrow.FixedWidthTypes.Boolean), exec.NewOutputType(arrow.FixedWidthTypes.Boolean)))
-
-	out := exec.NewOutputType(arrow.FixedWidthTypes.Boolean)
-	for _, ty := range numericTypes {
-		var ex exec.ArrayKernelExec
-		switch ty.ID() {
-		case arrow.INT8:
-			ex = ScalarUnaryBoolOutput(isNonZero[int8])
-		case arrow.UINT8:
-			ex = ScalarUnaryBoolOutput(isNonZero[uint8])
-		case arrow.INT16:
-			ex = ScalarUnaryBoolOutput(isNonZero[int16])
-		case arrow.UINT16:
-			ex = ScalarUnaryBoolOutput(isNonZero[uint16])
-		case arrow.INT32:
-			ex = ScalarUnaryBoolOutput(isNonZero[int32])
-		case arrow.UINT32:
-			ex = ScalarUnaryBoolOutput(isNonZero[uint32])
-		case arrow.INT64:
-			ex = ScalarUnaryBoolOutput(isNonZero[int64])
-		case arrow.UINT64:
-			ex = ScalarUnaryBoolOutput(isNonZero[uint64])
-		case arrow.FLOAT32:
-			ex = ScalarUnaryBoolOutput(isNonZero[float32])
-		case arrow.FLOAT64:
-			ex = ScalarUnaryBoolOutput(isNonZero[float64])
-		}
-		k := exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, out, ex, nil)
-		k.NullHandling = exec.NullIntersection
-		k.MemAlloc = exec.MemPrealloc
-		kernels = append(kernels, k)
-	}
-
-	for _, ty := range baseBinaryTypes {
-		var ex exec.ArrayKernelExec
-		switch ty.ID() {
-		case arrow.BINARY, arrow.STRING:
-			ex = ScalarUnaryNotNullBinaryArgBoolOut[int32](false, func(_ *exec.KernelCtx, b []byte, err *error) bool {
-				v := *(*string)(unsafe.Pointer(&b))
-				o, e := strconv.ParseBool(v)
-				if e != nil {
-					*err = e
-				}
-				return o
-			})
-		case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-			ex = ScalarUnaryNotNullBinaryArgBoolOut[int64](false, func(_ *exec.KernelCtx, b []byte, err *error) bool {
-				v := *(*string)(unsafe.Pointer(&b))
-				o, e := strconv.ParseBool(v)
-				if e != nil {
-					*err = e
-				}
-				return o
-			})
-		}
-		k := exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, out, ex, nil)
-		k.NullHandling = exec.NullIntersection
-		k.MemAlloc = exec.MemPrealloc
-		kernels = append(kernels, k)
-	}
-
-	return kernels
-}
diff --git a/go/arrow/compute/internal/kernels/cast.go b/go/arrow/compute/internal/kernels/cast.go
deleted file mode 100644
index 8603d3ad1891f..0000000000000
--- a/go/arrow/compute/internal/kernels/cast.go
+++ /dev/null
@@ -1,116 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-)
-
-type CastOptions struct {
-	ToType               arrow.DataType `compute:"to_type"`
-	AllowIntOverflow     bool           `compute:"allow_int_overflow"`
-	AllowTimeTruncate    bool           `compute:"allow_time_truncate"`
-	AllowTimeOverflow    bool           `compute:"allow_time_overflow"`
-	AllowDecimalTruncate bool           `compute:"allow_decimal_truncate"`
-	AllowFloatTruncate   bool           `compute:"allow_float_truncate"`
-	AllowInvalidUtf8     bool           `compute:"allow_invalid_utf8"`
-}
-
-func (CastOptions) TypeName() string { return "CastOptions" }
-
-// CastState is the kernel state for Cast functions, it is an alias to
-// the CastOptions object.
-type CastState = CastOptions
-
-// ZeroCopyCastExec is a kernel for performing a cast which can be executed
-// as a zero-copy operation. It simply forwards the buffers to the output.
-//
-// This can be used for casting a type to itself, or for casts between
-// equivalent representations such as Int32 and Date32.
-func ZeroCopyCastExec(_ *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	out.Release()
-	dt := out.Type
-	*out = batch.Values[0].Array
-	out.Type = dt
-	return nil
-}
-
-func recursiveSetSelfAlloc(arr *exec.ArraySpan) {
-	for i := range arr.Buffers {
-		if len(arr.Buffers[i].Buf) > 0 {
-			arr.Buffers[i].SelfAlloc = true
-			if arr.Buffers[i].Owner != nil {
-				arr.Buffers[i].Owner.Retain()
-			}
-		}
-	}
-
-	for i := range arr.Children {
-		recursiveSetSelfAlloc(&arr.Children[i])
-	}
-}
-
-// CastFromNull is a simple kernel for constructing an array of null values
-// for the requested data type, allowing casting of an arrow.Null typed value
-// to any other arbitrary data type.
-func CastFromNull(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	arr := array.MakeArrayOfNull(exec.GetAllocator(ctx.Ctx), out.Type, int(batch.Len))
-	defer arr.Release()
-
-	out.SetMembers(arr.Data())
-	recursiveSetSelfAlloc(out)
-	return nil
-}
-
-// OutputAllNull is a simple kernel that initializes the output as an array
-// whose output is all null by setting nulls to the length.
-func OutputAllNull(_ *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	out.Nulls = batch.Len
-	return nil
-}
-
-func CanCastFromDict(id arrow.Type) bool {
-	return arrow.IsPrimitive(id) || arrow.IsBaseBinary(id) || arrow.IsFixedSizeBinary(id)
-}
-
-// GetZeroCastKernel returns a kernel for performing ZeroCast execution using
-// the ZeroCopyCastExec kernel function.
-func GetZeroCastKernel(inID arrow.Type, inType exec.InputType, out exec.OutputType) exec.ScalarKernel {
-	k := exec.NewScalarKernel([]exec.InputType{inType}, out, ZeroCopyCastExec, nil)
-	k.NullHandling = exec.NullComputedNoPrealloc
-	k.MemAlloc = exec.MemNoPrealloc
-	return k
-}
-
-// GetCommonCastKernels returns the list of kernels common to all types
-// such as casting from null or from Extension types of the appropriate
-// underlying type.
-func GetCommonCastKernels(outID arrow.Type, outType exec.OutputType) (out []exec.ScalarKernel) {
-	out = make([]exec.ScalarKernel, 0, 2)
-
-	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(arrow.Null)}, outType,
-		CastFromNull, nil)
-	kernel.NullHandling = exec.NullComputedNoPrealloc
-	kernel.MemAlloc = exec.MemNoPrealloc
-	out = append(out, kernel)
-
-	return
-}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric.go b/go/arrow/compute/internal/kernels/cast_numeric.go
deleted file mode 100644
index 41ad94d83e68b..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric.go
+++ /dev/null
@@ -1,87 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-var castNumericUnsafe func(itype, otype arrow.Type, in, out []byte, len int) = castNumericGo
-
-func DoStaticCast[InT, OutT numeric](in []InT, out []OutT) {
-	for i, v := range in {
-		out[i] = OutT(v)
-	}
-}
-
-func reinterpret[T numeric](b []byte, len int) (res []T) {
-	return unsafe.Slice((*T)(unsafe.Pointer(&b[0])), len)
-}
-
-func castNumberToNumberUnsafeImpl[T numeric](outT arrow.Type, in []T, out []byte) {
-	switch outT {
-	case arrow.INT8:
-		DoStaticCast(in, reinterpret[int8](out, len(in)))
-	case arrow.UINT8:
-		DoStaticCast(in, reinterpret[uint8](out, len(in)))
-	case arrow.INT16:
-		DoStaticCast(in, reinterpret[int16](out, len(in)))
-	case arrow.UINT16:
-		DoStaticCast(in, reinterpret[uint16](out, len(in)))
-	case arrow.INT32:
-		DoStaticCast(in, reinterpret[int32](out, len(in)))
-	case arrow.UINT32:
-		DoStaticCast(in, reinterpret[uint32](out, len(in)))
-	case arrow.INT64:
-		DoStaticCast(in, reinterpret[int64](out, len(in)))
-	case arrow.UINT64:
-		DoStaticCast(in, reinterpret[uint64](out, len(in)))
-	case arrow.FLOAT32:
-		DoStaticCast(in, reinterpret[float32](out, len(in)))
-	case arrow.FLOAT64:
-		DoStaticCast(in, reinterpret[float64](out, len(in)))
-	}
-}
-
-func castNumericGo(itype, otype arrow.Type, in, out []byte, len int) {
-	switch itype {
-	case arrow.INT8:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[int8](in, len), out)
-	case arrow.UINT8:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[uint8](in, len), out)
-	case arrow.INT16:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[int16](in, len), out)
-	case arrow.UINT16:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[uint16](in, len), out)
-	case arrow.INT32:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[int32](in, len), out)
-	case arrow.UINT32:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[uint32](in, len), out)
-	case arrow.INT64:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[int64](in, len), out)
-	case arrow.UINT64:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[uint64](in, len), out)
-	case arrow.FLOAT32:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[float32](in, len), out)
-	case arrow.FLOAT64:
-		castNumberToNumberUnsafeImpl(otype, reinterpret[float64](in, len), out)
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_amd64.go b/go/arrow/compute/internal/kernels/cast_numeric_amd64.go
deleted file mode 100644
index 68ef28a97f8fd..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_amd64.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		castNumericUnsafe = castNumericAvx2
-	} else if cpu.X86.HasSSE42 {
-		castNumericUnsafe = castNumericSSE4
-	} else {
-		castNumericUnsafe = castNumericGo
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.go b/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.go
deleted file mode 100644
index 925b4328002d0..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:noescape
-func _cast_type_numeric_avx2(itype, otype int, in, out unsafe.Pointer, len int)
-
-func castNumericAvx2(itype, otype arrow.Type, in, out []byte, len int) {
-	_cast_type_numeric_avx2(int(itype), int(otype), unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len)
-}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.s b/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.s
deleted file mode 100644
index ffedf7a4f5f3a..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.s
+++ /dev/null
@@ -1,11545 +0,0 @@
-//go:build !noasm && !appengine && go1.18
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x43e0000000000000
-DATA LCDATA1<>+0x008(SB)/8, $0x4330000000000000
-DATA LCDATA1<>+0x010(SB)/8, $0x4530000000000000
-DATA LCDATA1<>+0x018(SB)/8, $0x4530000000100000
-DATA LCDATA1<>+0x020(SB)/8, $0x0000000000000001
-DATA LCDATA1<>+0x028(SB)/8, $0x4f0000005f000000
-DATA LCDATA1<>+0x030(SB)/8, $0x4b00000080000000
-DATA LCDATA1<>+0x038(SB)/8, $0x5300008053000000
-DATA LCDATA1<>+0x040(SB)/8, $0x0000000000000800
-DATA LCDATA1<>+0x048(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x050(SB)/8, $0x4530000043300000
-DATA LCDATA1<>+0x058(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x060(SB)/8, $0x4330000000000000
-DATA LCDATA1<>+0x068(SB)/8, $0x4530000000000000
-DATA LCDATA1<>+0x070(SB)/8, $0x000000000c080400
-DATA LCDATA1<>+0x078(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x080(SB)/8, $0x0d0c090805040100
-DATA LCDATA1<>+0x088(SB)/8, $0x0f0e0d0c0d0c0908
-DATA LCDATA1<>+0x090(SB)/8, $0x1d1c191815141110
-DATA LCDATA1<>+0x098(SB)/8, $0x1f1e1d1c1d1c1918
-DATA LCDATA1<>+0x0a0(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x0a8(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x0b0(SB)/8, $0x00ff00ff00ff00ff
-DATA LCDATA1<>+0x0b8(SB)/8, $0x00ff00ff00ff00ff
-GLOBL LCDATA1<>(SB), 8, $192
-
-TEXT ·_cast_type_numeric_avx2(SB), $0-40
-
-	MOVQ itype+0(FP), DI
-	MOVQ otype+8(FP), SI
-	MOVQ in+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ len+32(FP), R8
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_13
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_25
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_45
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_53
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1553
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_93
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_163
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_263
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_266
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_12
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_742
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_742
-
-LBB0_12:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1189:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1191
-
-LBB0_1190:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1190
-
-LBB0_1191:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1192:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1192
-	JMP  LBB0_1553
-
-LBB0_13:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_35
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_61
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_69
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1553
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_100
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_168
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_269
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_272
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0xf089             // mov    eax, esi
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_446
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_448
-
-LBB0_25:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_77
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1553
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_107
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_173
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_275
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_278
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_34
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_745
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_745
-
-LBB0_34:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1197:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1199
-
-LBB0_1198:
-	LONG $0x3204be0f         // movsx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1198
-
-LBB0_1199:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1200:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1200
-	JMP  LBB0_1553
-
-LBB0_35:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_85
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1553
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_114
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_178
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_281
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_284
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_454
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_918
-
-LBB0_45:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_121
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_183
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_287
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_290
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_457
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1024
-
-LBB0_53:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_128
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_188
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_293
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_296
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_460
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1029
-
-LBB0_61:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_135
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_193
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_299
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_302
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_463
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1034
-
-LBB0_69:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_142
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_198
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_305
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_308
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_466
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1039
-
-LBB0_77:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_149
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_203
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_311
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_314
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_84
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_748
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_748
-
-LBB0_84:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1205:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1207
-
-LBB0_1206:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1206
-
-LBB0_1207:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1208:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1208
-	JMP  LBB0_1553
-
-LBB0_85:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_156
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_208
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_317
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_320
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_92
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_751
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_751
-
-LBB0_92:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1213:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1215
-
-LBB0_1214:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1214
-
-LBB0_1215:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1216:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1216
-	JMP  LBB0_1553
-
-LBB0_93:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_213
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_323
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_326
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_475
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1044
-
-LBB0_100:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_218
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_329
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_332
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_106
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_754
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_754
-
-LBB0_106:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1221:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x07e78348         // and    rdi, 7
-	JE   LBB0_1223
-
-LBB0_1222:
-	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
-	LONG $0xf11c8948 // mov    qword [rcx + 8*rsi], rbx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1222
-
-LBB0_1223:
-	LONG $0x07f88348 // cmp    rax, 7
-	JB   LBB0_1553
-
-LBB0_1224:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0xf2448b48; BYTE $0x20 // mov    rax, qword [rdx + 8*rsi + 32]
-	LONG $0xf1448948; BYTE $0x20 // mov    qword [rcx + 8*rsi + 32], rax
-	LONG $0xf2448b48; BYTE $0x28 // mov    rax, qword [rdx + 8*rsi + 40]
-	LONG $0xf1448948; BYTE $0x28 // mov    qword [rcx + 8*rsi + 40], rax
-	LONG $0xf2448b48; BYTE $0x30 // mov    rax, qword [rdx + 8*rsi + 48]
-	LONG $0xf1448948; BYTE $0x30 // mov    qword [rcx + 8*rsi + 48], rax
-	LONG $0xf2448b48; BYTE $0x38 // mov    rax, qword [rdx + 8*rsi + 56]
-	LONG $0xf1448948; BYTE $0x38 // mov    qword [rcx + 8*rsi + 56], rax
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1224
-	JMP  LBB0_1553
-
-LBB0_107:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_223
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_335
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_338
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_113
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_757
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_757
-
-LBB0_113:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1229:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1231
-
-LBB0_1230:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	LONG $0xc02adbc5             // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1230
-
-LBB0_1231:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1232:
-	LONG $0x3204be0f               // movsx    eax, byte [rdx + rsi]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x0411fbc5; BYTE $0xf1   // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x3244be0f; BYTE $0x01   // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x4411fbc5; WORD $0x08f1 // vmovsd    qword [rcx + 8*rsi + 8], xmm0
-	LONG $0x3244be0f; BYTE $0x02   // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x4411fbc5; WORD $0x10f1 // vmovsd    qword [rcx + 8*rsi + 16], xmm0
-	LONG $0x3244be0f; BYTE $0x03   // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x4411fbc5; WORD $0x18f1 // vmovsd    qword [rcx + 8*rsi + 24], xmm0
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1232
-	JMP  LBB0_1553
-
-LBB0_114:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_228
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_341
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_344
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_484
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_923
-
-LBB0_121:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_233
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_347
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_350
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_487
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1049
-
-LBB0_128:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_238
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_353
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_356
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_490
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1054
-
-LBB0_135:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_243
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_359
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_362
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_493
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1059
-
-LBB0_142:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_248
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_365
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_368
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_496
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1064
-
-LBB0_149:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_253
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_371
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_374
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_155
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_760
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_760
-
-LBB0_155:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1237:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1239
-
-LBB0_1238:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0xc02adbc5             // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1238
-
-LBB0_1239:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1240:
-	LONG $0x3204b60f               // movzx    eax, byte [rdx + rsi]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x0411fbc5; BYTE $0xf1   // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x3244b60f; BYTE $0x01   // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x4411fbc5; WORD $0x08f1 // vmovsd    qword [rcx + 8*rsi + 8], xmm0
-	LONG $0x3244b60f; BYTE $0x02   // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x4411fbc5; WORD $0x10f1 // vmovsd    qword [rcx + 8*rsi + 16], xmm0
-	LONG $0x3244b60f; BYTE $0x03   // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x4411fbc5; WORD $0x18f1 // vmovsd    qword [rcx + 8*rsi + 24], xmm0
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1240
-	JMP  LBB0_1553
-
-LBB0_156:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_258
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_377
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_380
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_502
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_929
-
-LBB0_163:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_383
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_167
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_763
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_763
-
-LBB0_167:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1245:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1247
-
-LBB0_1246:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1246
-
-LBB0_1247:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1248:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1248
-	JMP  LBB0_1553
-
-LBB0_168:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_386
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_172
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_766
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_766
-
-LBB0_172:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1253:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1255
-
-LBB0_1254:
-	LONG $0x1c2cfbc5; BYTE $0xf2 // vcvttsd2si    ebx, qword [rdx + 8*rsi]
-	WORD $0x1c88; BYTE $0x31     // mov    byte [rcx + rsi], bl
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1254
-
-LBB0_1255:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1553
-
-LBB0_1256:
-	LONG $0x042cfbc5; BYTE $0xf2   // vcvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442cfbc5; WORD $0x08f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 8]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442cfbc5; WORD $0x10f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 16]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442cfbc5; WORD $0x18f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 24]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1256
-	JMP  LBB0_1553
-
-LBB0_173:
-	WORD $0xfe83; BYTE $0x02                   // cmp    esi, 2
-	JE   LBB0_389
-	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB0_177
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB0_769
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB0_769
-
-LBB0_177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1261:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1263
-
-LBB0_1262:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1262
-
-LBB0_1263:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1264:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1264
-	JMP  LBB0_1553
-
-LBB0_178:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_392
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_182
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_772
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_772
-
-LBB0_182:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1269:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1271
-
-LBB0_1270:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1270
-
-LBB0_1271:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1272:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1272
-	JMP  LBB0_1553
-
-LBB0_183:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_395
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_187
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_775
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_775
-
-LBB0_187:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1277:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1279
-
-LBB0_1278:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1278
-
-LBB0_1279:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1280:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1280
-	JMP  LBB0_1553
-
-LBB0_188:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_398
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_192
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_778
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_778
-
-LBB0_192:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1285:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1287
-
-LBB0_1286:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1286
-
-LBB0_1287:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1288:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1288
-	JMP  LBB0_1553
-
-LBB0_193:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_401
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_197
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_781
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_781
-
-LBB0_197:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1293:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1295
-
-LBB0_1294:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1294
-
-LBB0_1295:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1296:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1296
-	JMP  LBB0_1553
-
-LBB0_198:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_404
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_202
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_784
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_784
-
-LBB0_202:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1301:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1303
-
-LBB0_1302:
-	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1302
-
-LBB0_1303:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1304:
-	LONG $0x042cfac5; BYTE $0xb2   // vcvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442cfac5; WORD $0x04b2 // vcvttss2si    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442cfac5; WORD $0x08b2 // vcvttss2si    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442cfac5; WORD $0x0cb2 // vcvttss2si    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1304
-	JMP  LBB0_1553
-
-LBB0_203:
-	WORD $0xfe83; BYTE $0x02                   // cmp    esi, 2
-	JE   LBB0_407
-	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB0_207
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB0_787
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB0_787
-
-LBB0_207:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1309:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1311
-
-LBB0_1310:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1310
-
-LBB0_1311:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1312:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1312
-	JMP  LBB0_1553
-
-LBB0_208:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_410
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_212
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_790
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_790
-
-LBB0_212:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1317:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1319
-
-LBB0_1318:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1318
-
-LBB0_1319:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1320:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1320
-	JMP  LBB0_1553
-
-LBB0_213:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_413
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_535
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_934
-
-LBB0_218:
-	WORD $0xfe83; BYTE $0x07               // cmp    esi, 7
-	JE   LBB0_416
-	WORD $0xfe83; BYTE $0x08               // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0               // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1               // mov    r9d, r8d
-	QUAD $0x000000000000bb49; WORD $0x8000 // mov    r11, -9223372036854775808
-	LONG $0x04f88341                       // cmp    r8d, 4
-	JAE  LBB0_538
-	WORD $0x3145; BYTE $0xf6               // xor    r14d, r14d
-	JMP  LBB0_799
-
-LBB0_223:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_419
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_227
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_801
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_801
-
-LBB0_227:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1325:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1327
-
-LBB0_1326:
-	LONG $0x04be0f48; BYTE $0x32 // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1326
-
-LBB0_1327:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1328:
-	LONG $0x04be0f48; BYTE $0x32   // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x44be0f48; WORD $0x0132 // movsx    rax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x44be0f48; WORD $0x0232 // movsx    rax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x44be0f48; WORD $0x0332 // movsx    rax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1328
-	JMP  LBB0_1553
-
-LBB0_228:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_422
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_232
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_804
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_804
-
-LBB0_232:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1333:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1335
-
-LBB0_1334:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1334
-
-LBB0_1335:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1336:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1336
-	JMP  LBB0_1553
-
-LBB0_233:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_425
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_546
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_939
-
-LBB0_238:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_428
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_549
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_944
-
-LBB0_243:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_431
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_247
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_807
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_807
-
-LBB0_247:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1341:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1343
-
-LBB0_1342:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1342
-
-LBB0_1343:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1344:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1344
-	JMP  LBB0_1553
-
-LBB0_248:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_434
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_555
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB0_816
-
-LBB0_253:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_437
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_257
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_818
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_818
-
-LBB0_257:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1349:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1351
-
-LBB0_1350:
-	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1350
-
-LBB0_1351:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1352:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1352
-	JMP  LBB0_1553
-
-LBB0_258:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_440
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1553
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_560
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_949
-
-LBB0_263:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_563
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1069
-
-LBB0_266:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_566
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1074
-
-LBB0_269:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_569
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1079
-
-LBB0_272:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_572
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1084
-
-LBB0_275:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_277
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_821
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_821
-
-LBB0_277:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1357:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1359
-
-LBB0_1358:
-	LONG $0x3204be0f // movsx    eax, byte [rdx + rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1358
-
-LBB0_1359:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1360:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1360
-	JMP  LBB0_1553
-
-LBB0_278:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_280
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_824
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_824
-
-LBB0_280:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1365:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1367
-
-LBB0_1366:
-	LONG $0x3204be0f // movsx    eax, byte [rdx + rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1366
-
-LBB0_1367:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1368:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1368
-	JMP  LBB0_1553
-
-LBB0_281:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_581
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_954
-
-LBB0_284:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_584
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_959
-
-LBB0_287:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_289
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_827
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_827
-
-LBB0_289:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1151:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1153
-
-LBB0_1152:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1152
-
-LBB0_1153:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1154:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1154
-	JMP  LBB0_1553
-
-LBB0_290:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_292
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_829
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_829
-
-LBB0_292:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1161:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1163
-
-LBB0_1162:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1162
-
-LBB0_1163:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1164:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1164
-	JMP  LBB0_1553
-
-LBB0_293:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_295
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_831
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_831
-
-LBB0_295:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1171:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1173
-
-LBB0_1172:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1172
-
-LBB0_1173:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1174:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1174
-	JMP  LBB0_1553
-
-LBB0_296:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_298
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_833
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_833
-
-LBB0_298:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1181:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1183
-
-LBB0_1182:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1182
-
-LBB0_1183:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1184:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1184
-	JMP  LBB0_1553
-
-LBB0_299:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_599
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_964
-
-LBB0_302:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_602
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1089
-
-LBB0_305:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_605
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1094
-
-LBB0_308:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_608
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1099
-
-LBB0_311:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_313
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_835
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_835
-
-LBB0_313:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1373:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1375
-
-LBB0_1374:
-	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1374
-
-LBB0_1375:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1376:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1376
-	JMP  LBB0_1553
-
-LBB0_314:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_316
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_838
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_838
-
-LBB0_316:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1381:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1383
-
-LBB0_1382:
-	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1382
-
-LBB0_1383:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1384:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1384
-	JMP  LBB0_1553
-
-LBB0_317:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_617
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_969
-
-LBB0_320:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_620
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_974
-
-LBB0_323:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_623
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1104
-
-LBB0_326:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_626
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1109
-
-LBB0_329:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_629
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1114
-
-LBB0_332:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_632
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1119
-
-LBB0_335:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_337
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_841
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_841
-
-LBB0_337:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1389:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1391
-
-LBB0_1390:
-	LONG $0x04be0f48; BYTE $0x32 // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1390
-
-LBB0_1391:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1392:
-	LONG $0x04be0f48; BYTE $0x32   // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x44be0f48; WORD $0x0132 // movsx    rax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x44be0f48; WORD $0x0232 // movsx    rax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x44be0f48; WORD $0x0332 // movsx    rax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1392
-	JMP  LBB0_1553
-
-LBB0_338:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_340
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_844
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_844
-
-LBB0_340:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1397:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1399
-
-LBB0_1398:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	LONG $0xc02adac5             // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1398
-
-LBB0_1399:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1400:
-	LONG $0x3204be0f               // movsx    eax, byte [rdx + rsi]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x0411fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x3244be0f; BYTE $0x01   // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x4411fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm0
-	LONG $0x3244be0f; BYTE $0x02   // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x4411fac5; WORD $0x08b1 // vmovss    dword [rcx + 4*rsi + 8], xmm0
-	LONG $0x3244be0f; BYTE $0x03   // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x4411fac5; WORD $0x0cb1 // vmovss    dword [rcx + 4*rsi + 12], xmm0
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1400
-	JMP  LBB0_1553
-
-LBB0_341:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_343
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_847
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_847
-
-LBB0_343:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1405:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1407
-
-LBB0_1406:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1406
-
-LBB0_1407:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1408:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1408
-	JMP  LBB0_1553
-
-LBB0_344:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_644
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_858
-
-LBB0_347:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_646
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_979
-
-LBB0_350:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_649
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1124
-
-LBB0_353:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_652
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1129
-
-LBB0_356:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_655
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1134
-
-LBB0_359:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_361
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_860
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_860
-
-LBB0_361:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1413:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1415
-
-LBB0_1414:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1414
-
-LBB0_1415:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1416:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1416
-	JMP  LBB0_1553
-
-LBB0_362:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_661
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1139
-
-LBB0_365:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_664
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1144
-
-LBB0_368:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_370
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_863
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_863
-
-LBB0_370:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1421:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x07e78348         // and    rdi, 7
-	JE   LBB0_1423
-
-LBB0_1422:
-	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
-	WORD $0x1c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], ebx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1422
-
-LBB0_1423:
-	LONG $0x07f88348 // cmp    rax, 7
-	JB   LBB0_1553
-
-LBB0_1424:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x10b2448b         // mov    eax, dword [rdx + 4*rsi + 16]
-	LONG $0x10b14489         // mov    dword [rcx + 4*rsi + 16], eax
-	LONG $0x14b2448b         // mov    eax, dword [rdx + 4*rsi + 20]
-	LONG $0x14b14489         // mov    dword [rcx + 4*rsi + 20], eax
-	LONG $0x18b2448b         // mov    eax, dword [rdx + 4*rsi + 24]
-	LONG $0x18b14489         // mov    dword [rcx + 4*rsi + 24], eax
-	LONG $0x1cb2448b         // mov    eax, dword [rdx + 4*rsi + 28]
-	LONG $0x1cb14489         // mov    dword [rcx + 4*rsi + 28], eax
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1424
-	JMP  LBB0_1553
-
-LBB0_371:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_373
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_866
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_866
-
-LBB0_373:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1429:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1431
-
-LBB0_1430:
-	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1430
-
-LBB0_1431:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1432:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1432
-	JMP  LBB0_1553
-
-LBB0_374:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_376
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_869
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_869
-
-LBB0_376:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1437:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1439
-
-LBB0_1438:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0xc02adac5             // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1438
-
-LBB0_1439:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1440:
-	LONG $0x3204b60f               // movzx    eax, byte [rdx + rsi]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x0411fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x3244b60f; BYTE $0x01   // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x4411fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm0
-	LONG $0x3244b60f; BYTE $0x02   // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x4411fac5; WORD $0x08b1 // vmovss    dword [rcx + 4*rsi + 8], xmm0
-	LONG $0x3244b60f; BYTE $0x03   // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x4411fac5; WORD $0x0cb1 // vmovss    dword [rcx + 4*rsi + 12], xmm0
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1440
-	JMP  LBB0_1553
-
-LBB0_377:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_676
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_984
-
-LBB0_380:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_679
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_989
-
-LBB0_383:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_385
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_872
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_872
-
-LBB0_385:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1445:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1447
-
-LBB0_1446:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1446
-
-LBB0_1447:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1448:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1448
-	JMP  LBB0_1553
-
-LBB0_386:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_388
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_875
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_875
-
-LBB0_388:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1453:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xc8 // add    rax, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1455
-
-LBB0_1454:
-	LONG $0x1c2cfbc5; BYTE $0xf2 // vcvttsd2si    ebx, qword [rdx + 8*rsi]
-	WORD $0x1c88; BYTE $0x31     // mov    byte [rcx + rsi], bl
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1454
-
-LBB0_1455:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_1553
-
-LBB0_1456:
-	LONG $0x042cfbc5; BYTE $0xf2   // vcvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442cfbc5; WORD $0x08f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 8]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442cfbc5; WORD $0x10f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 16]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442cfbc5; WORD $0x18f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 24]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1456
-	JMP  LBB0_1553
-
-LBB0_389:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB0_391
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB0_878
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB0_878
-
-LBB0_391:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1461:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1463
-
-LBB0_1462:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1462
-
-LBB0_1463:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1464:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1464
-	JMP  LBB0_1553
-
-LBB0_392:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_394
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_881
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_881
-
-LBB0_394:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1469:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1471
-
-LBB0_1470:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1470
-
-LBB0_1471:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1472:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1472
-	JMP  LBB0_1553
-
-LBB0_395:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_397
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_884
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_884
-
-LBB0_397:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1477:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1479
-
-LBB0_1478:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1478
-
-LBB0_1479:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1480:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1480
-	JMP  LBB0_1553
-
-LBB0_398:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x40f88341         // cmp    r8d, 64
-	JB   LBB0_400
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_887
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_887
-
-LBB0_400:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1485:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1487
-
-LBB0_1486:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1486
-
-LBB0_1487:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1488:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1488
-	JMP  LBB0_1553
-
-LBB0_401:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_403
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_890
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_890
-
-LBB0_403:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1493:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1495
-
-LBB0_1494:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1494
-
-LBB0_1495:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1496:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1496
-	JMP  LBB0_1553
-
-LBB0_404:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_406
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_893
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_893
-
-LBB0_406:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1501:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1503
-
-LBB0_1502:
-	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1502
-
-LBB0_1503:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1504:
-	LONG $0x042cfac5; BYTE $0xb2   // vcvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442cfac5; WORD $0x04b2 // vcvttss2si    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442cfac5; WORD $0x08b2 // vcvttss2si    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442cfac5; WORD $0x0cb2 // vcvttss2si    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1504
-	JMP  LBB0_1553
-
-LBB0_407:
-	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
-	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
-	JB   LBB0_409
-	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB0_896
-	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB0_896
-
-LBB0_409:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1509:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1511
-
-LBB0_1510:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1510
-
-LBB0_1511:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1512:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1512
-	JMP  LBB0_1553
-
-LBB0_410:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_412
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_899
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_899
-
-LBB0_412:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1517:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1519
-
-LBB0_1518:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1518
-
-LBB0_1519:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1520:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1520
-	JMP  LBB0_1553
-
-LBB0_413:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_415
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_902
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_902
-
-LBB0_415:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1525:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1527
-
-LBB0_1526:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1526
-
-LBB0_1527:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1528:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1528
-	JMP  LBB0_1553
-
-LBB0_416:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_715
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_994
-
-LBB0_419:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_421
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_905
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_905
-
-LBB0_421:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1533:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1535
-
-LBB0_1534:
-	LONG $0x3204be0f         // movsx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1534
-
-LBB0_1535:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1536:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1536
-	JMP  LBB0_1553
-
-LBB0_422:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_721
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_999
-
-LBB0_425:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_724
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1004
-
-LBB0_428:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_727
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1009
-
-LBB0_431:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JAE  LBB0_730
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1014
-
-LBB0_434:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JAE  LBB0_733
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1019
-
-LBB0_437:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_439
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_908
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_908
-
-LBB0_439:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1541:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1543
-
-LBB0_1542:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1542
-
-LBB0_1543:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1544:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1544
-	JMP  LBB0_1553
-
-LBB0_440:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1553
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_442
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_911
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_911
-
-LBB0_442:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1549:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1551
-
-LBB0_1550:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1550
-
-LBB0_1551:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1553
-
-LBB0_1552:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1552
-	JMP  LBB0_1553
-
-LBB0_446:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_447:
-	LONG $0x2cfbe1c4; WORD $0xfa1c             // vcvttsd2si    rbx, qword [rdx + 8*rdi]
-	WORD $0x1c89; BYTE $0xb9                   // mov    dword [rcx + 4*rdi], ebx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x08 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 8]
-	LONG $0x04b95c89                           // mov    dword [rcx + 4*rdi + 4], ebx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x10 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 16]
-	LONG $0x08b95c89                           // mov    dword [rcx + 4*rdi + 8], ebx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x18 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 24]
-	LONG $0x0cb95c89                           // mov    dword [rcx + 4*rdi + 12], ebx
-	LONG $0x04c78348                           // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_447
-
-LBB0_448:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1553
-	LONG $0xb90c8d48         // lea    rcx, [rcx + 4*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_450:
-	LONG $0x2cfbe1c4; WORD $0xf23c // vcvttsd2si    rdi, qword [rdx + 8*rsi]
-	WORD $0x3c89; BYTE $0xb1       // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
-	JNE  LBB0_450
-	JMP  LBB0_1553
-
-LBB0_454:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_914
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_456:
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa8410f8c5; BYTE $0x00       // vmovups    xmm0, oword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10f8c5; BYTE $0x00       // vmovups    xmm1, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410f8c5; BYTE $0x00       // vmovups    xmm2, oword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10f8c5; BYTE $0x00       // vmovups    xmm3, oword [rdx + 8*rdi + 224]
-	QUAD $0x000090fa84c6f8c5; WORD $0x8800     // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 144], 136
-	QUAD $0x0000b0fa8cc6f0c5; WORD $0x8800     // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 176], 136
-	QUAD $0x0000d0fa94c6e8c5; WORD $0x8800     // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 208], 136
-	QUAD $0x0000f0fa9cc6e0c5; WORD $0x8800     // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 240], 136
-	LONG $0x4411f8c5; WORD $0x40b9             // vmovups    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x4c11f8c5; WORD $0x50b9             // vmovups    oword [rcx + 4*rdi + 80], xmm1
-	LONG $0x5411f8c5; WORD $0x60b9             // vmovups    oword [rcx + 4*rdi + 96], xmm2
-	LONG $0x5c11f8c5; WORD $0x70b9             // vmovups    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_456
-	JMP  LBB0_915
-
-LBB0_457:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1020
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_459:
-	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x337de2c4; WORD $0x7a44; BYTE $0x40 // vpmovzxwd    ymm0, oword [rdx + 2*rdi + 64]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 80]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x60 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 96]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 112]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_459
-	JMP  LBB0_1021
-
-LBB0_460:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1025
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_462:
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x237de2c4; WORD $0x7a44; BYTE $0x40 // vpmovsxwd    ymm0, oword [rdx + 2*rdi + 64]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 80]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x60 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 96]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 112]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_462
-	JMP  LBB0_1026
-
-LBB0_463:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1030
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_465:
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa8410f8c5; BYTE $0x00       // vmovups    xmm0, oword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10f8c5; BYTE $0x00       // vmovups    xmm1, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410f8c5; BYTE $0x00       // vmovups    xmm2, oword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10f8c5; BYTE $0x00       // vmovups    xmm3, oword [rdx + 8*rdi + 224]
-	QUAD $0x000090fa84c6f8c5; WORD $0x8800     // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 144], 136
-	QUAD $0x0000b0fa8cc6f0c5; WORD $0x8800     // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 176], 136
-	QUAD $0x0000d0fa94c6e8c5; WORD $0x8800     // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 208], 136
-	QUAD $0x0000f0fa9cc6e0c5; WORD $0x8800     // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 240], 136
-	LONG $0x4411f8c5; WORD $0x40b9             // vmovups    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x4c11f8c5; WORD $0x50b9             // vmovups    oword [rcx + 4*rdi + 80], xmm1
-	LONG $0x5411f8c5; WORD $0x60b9             // vmovups    oword [rcx + 4*rdi + 96], xmm2
-	LONG $0x5c11f8c5; WORD $0x70b9             // vmovups    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_465
-	JMP  LBB0_1031
-
-LBB0_466:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB0_1035
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x1879e2c4; WORD $0x2c45 // vbroadcastss    xmm0, dword 44[rbp] /* [rip + .LCPI0_2] */
-	LONG $0x1879e2c4; WORD $0x304d // vbroadcastss    xmm1, dword 48[rbp] /* [rip + .LCPI0_3] */
-
-LBB0_468:
-	LONG $0x1410f8c5; BYTE $0xba   // vmovups    xmm2, oword [rdx + 4*rdi]
-	LONG $0x5c10f8c5; WORD $0x10ba // vmovups    xmm3, oword [rdx + 4*rdi + 16]
-	LONG $0x6410f8c5; WORD $0x20ba // vmovups    xmm4, oword [rdx + 4*rdi + 32]
-	LONG $0xe8c2e8c5; BYTE $0x01   // vcmpltps    xmm5, xmm2, xmm0
-	LONG $0xf05ce8c5               // vsubps    xmm6, xmm2, xmm0
-	LONG $0xf65bfac5               // vcvttps2dq    xmm6, xmm6
-	LONG $0xf157c8c5               // vxorps    xmm6, xmm6, xmm1
-	LONG $0xd25bfac5               // vcvttps2dq    xmm2, xmm2
-	LONG $0x4a49e3c4; WORD $0x50d2 // vblendvps    xmm2, xmm6, xmm2, xmm5
-	LONG $0x6c10f8c5; WORD $0x30ba // vmovups    xmm5, oword [rdx + 4*rdi + 48]
-	LONG $0xf0c2e0c5; BYTE $0x01   // vcmpltps    xmm6, xmm3, xmm0
-	LONG $0xf85ce0c5               // vsubps    xmm7, xmm3, xmm0
-	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
-	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
-	LONG $0xdb5bfac5               // vcvttps2dq    xmm3, xmm3
-	LONG $0x4a41e3c4; WORD $0x60db // vblendvps    xmm3, xmm7, xmm3, xmm6
-	LONG $0xf0c2d8c5; BYTE $0x01   // vcmpltps    xmm6, xmm4, xmm0
-	LONG $0xf85cd8c5               // vsubps    xmm7, xmm4, xmm0
-	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
-	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
-	LONG $0xe45bfac5               // vcvttps2dq    xmm4, xmm4
-	LONG $0x4a41e3c4; WORD $0x60e4 // vblendvps    xmm4, xmm7, xmm4, xmm6
-	LONG $0xf0c2d0c5; BYTE $0x01   // vcmpltps    xmm6, xmm5, xmm0
-	LONG $0xf85cd0c5               // vsubps    xmm7, xmm5, xmm0
-	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
-	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
-	LONG $0xed5bfac5               // vcvttps2dq    xmm5, xmm5
-	LONG $0x4a41e3c4; WORD $0x60ed // vblendvps    xmm5, xmm7, xmm5, xmm6
-	LONG $0x1411f8c5; BYTE $0xb9   // vmovups    oword [rcx + 4*rdi], xmm2
-	LONG $0x5c11f8c5; WORD $0x10b9 // vmovups    oword [rcx + 4*rdi + 16], xmm3
-	LONG $0x6411f8c5; WORD $0x20b9 // vmovups    oword [rcx + 4*rdi + 32], xmm4
-	LONG $0x6c11f8c5; WORD $0x30b9 // vmovups    oword [rcx + 4*rdi + 48], xmm5
-	LONG $0x5410f8c5; WORD $0x40ba // vmovups    xmm2, oword [rdx + 4*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x50ba // vmovups    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x6410f8c5; WORD $0x60ba // vmovups    xmm4, oword [rdx + 4*rdi + 96]
-	LONG $0xe8c2e8c5; BYTE $0x01   // vcmpltps    xmm5, xmm2, xmm0
-	LONG $0xf05ce8c5               // vsubps    xmm6, xmm2, xmm0
-	LONG $0xf65bfac5               // vcvttps2dq    xmm6, xmm6
-	LONG $0xf157c8c5               // vxorps    xmm6, xmm6, xmm1
-	LONG $0xd25bfac5               // vcvttps2dq    xmm2, xmm2
-	LONG $0x4a49e3c4; WORD $0x50d2 // vblendvps    xmm2, xmm6, xmm2, xmm5
-	LONG $0x6c10f8c5; WORD $0x70ba // vmovups    xmm5, oword [rdx + 4*rdi + 112]
-	LONG $0xf0c2e0c5; BYTE $0x01   // vcmpltps    xmm6, xmm3, xmm0
-	LONG $0xf85ce0c5               // vsubps    xmm7, xmm3, xmm0
-	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
-	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
-	LONG $0xdb5bfac5               // vcvttps2dq    xmm3, xmm3
-	LONG $0x4a41e3c4; WORD $0x60db // vblendvps    xmm3, xmm7, xmm3, xmm6
-	LONG $0xf0c2d8c5; BYTE $0x01   // vcmpltps    xmm6, xmm4, xmm0
-	LONG $0xf85cd8c5               // vsubps    xmm7, xmm4, xmm0
-	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
-	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
-	LONG $0xe45bfac5               // vcvttps2dq    xmm4, xmm4
-	LONG $0x4a41e3c4; WORD $0x60e4 // vblendvps    xmm4, xmm7, xmm4, xmm6
-	LONG $0xf0c2d0c5; BYTE $0x01   // vcmpltps    xmm6, xmm5, xmm0
-	LONG $0xf85cd0c5               // vsubps    xmm7, xmm5, xmm0
-	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
-	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
-	LONG $0xed5bfac5               // vcvttps2dq    xmm5, xmm5
-	LONG $0x4a41e3c4; WORD $0x60ed // vblendvps    xmm5, xmm7, xmm5, xmm6
-	LONG $0x5411f8c5; WORD $0x40b9 // vmovups    oword [rcx + 4*rdi + 64], xmm2
-	LONG $0x5c11f8c5; WORD $0x50b9 // vmovups    oword [rcx + 4*rdi + 80], xmm3
-	LONG $0x6411f8c5; WORD $0x60b9 // vmovups    oword [rcx + 4*rdi + 96], xmm4
-	LONG $0x6c11f8c5; WORD $0x70b9 // vmovups    oword [rcx + 4*rdi + 112], xmm5
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_468
-	JMP  LBB0_1036
-
-LBB0_475:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB0_1040
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x597de2c4; WORD $0x0845 // vpbroadcastq    ymm0, qword 8[rbp] /* [rip + .LCPI0_5] */
-
-LBB0_477:
-	LONG $0x357de2c4; WORD $0xba0c             // vpmovzxdq    ymm1, oword [rdx + 4*rdi]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x10 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 16]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x20 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 32]
-	LONG $0x357de2c4; WORD $0xba64; BYTE $0x30 // vpmovzxdq    ymm4, oword [rdx + 4*rdi + 48]
-	LONG $0xc8ebf5c5                           // vpor    ymm1, ymm1, ymm0
-	LONG $0xc85cf5c5                           // vsubpd    ymm1, ymm1, ymm0
-	LONG $0xd0ebedc5                           // vpor    ymm2, ymm2, ymm0
-	LONG $0xd05cedc5                           // vsubpd    ymm2, ymm2, ymm0
-	LONG $0xd8ebe5c5                           // vpor    ymm3, ymm3, ymm0
-	LONG $0xd85ce5c5                           // vsubpd    ymm3, ymm3, ymm0
-	LONG $0xe0ebddc5                           // vpor    ymm4, ymm4, ymm0
-	LONG $0xe05cddc5                           // vsubpd    ymm4, ymm4, ymm0
-	LONG $0x0c11fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm1
-	LONG $0x5411fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm2
-	LONG $0x5c11fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm3
-	LONG $0x6411fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm4
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x40 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 64]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x50 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 80]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x60 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 96]
-	LONG $0x357de2c4; WORD $0xba64; BYTE $0x70 // vpmovzxdq    ymm4, oword [rdx + 4*rdi + 112]
-	LONG $0xc8ebf5c5                           // vpor    ymm1, ymm1, ymm0
-	LONG $0xc85cf5c5                           // vsubpd    ymm1, ymm1, ymm0
-	LONG $0xd0ebedc5                           // vpor    ymm2, ymm2, ymm0
-	LONG $0xd05cedc5                           // vsubpd    ymm2, ymm2, ymm0
-	LONG $0xd8ebe5c5                           // vpor    ymm3, ymm3, ymm0
-	LONG $0xd85ce5c5                           // vsubpd    ymm3, ymm3, ymm0
-	LONG $0xe0ebddc5                           // vpor    ymm4, ymm4, ymm0
-	LONG $0xe05cddc5                           // vsubpd    ymm4, ymm4, ymm0
-	QUAD $0x000080f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm1
-	QUAD $0x0000a0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm2
-	QUAD $0x0000c0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm3
-	QUAD $0x0000e0f9a411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm4
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_477
-	JMP  LBB0_1041
-
-LBB0_484:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xf0468d48               // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x04e8c149               // shr    r8, 4
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB0_919
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x597de2c4; WORD $0x0845 // vpbroadcastq    ymm0, qword 8[rbp] /* [rip + .LCPI0_5] */
-	LONG $0xc9eff1c5               // vpxor    xmm1, xmm1, xmm1
-	LONG $0x597de2c4; WORD $0x1055 // vpbroadcastq    ymm2, qword 16[rbp] /* [rip + .LCPI0_6] */
-	LONG $0x197de2c4; WORD $0x185d // vbroadcastsd    ymm3, qword 24[rbp] /* [rip + .LCPI0_7] */
-
-LBB0_486:
-	LONG $0x246ffec5; BYTE $0xfa         // vmovdqu    ymm4, yword [rdx + 8*rdi]
-	LONG $0x6c6ffec5; WORD $0x20fa       // vmovdqu    ymm5, yword [rdx + 8*rdi + 32]
-	LONG $0x746ffec5; WORD $0x40fa       // vmovdqu    ymm6, yword [rdx + 8*rdi + 64]
-	LONG $0x7c6ffec5; WORD $0x60fa       // vmovdqu    ymm7, yword [rdx + 8*rdi + 96]
-	LONG $0x025d63c4; WORD $0xaac1       // vpblendd    ymm8, ymm4, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd473ddc5; BYTE $0x20         // vpsrlq    ymm4, ymm4, 32
-	LONG $0xe2ebddc5                     // vpor    ymm4, ymm4, ymm2
-	LONG $0xe35cddc5                     // vsubpd    ymm4, ymm4, ymm3
-	LONG $0xe458bdc5                     // vaddpd    ymm4, ymm8, ymm4
-	LONG $0x025563c4; WORD $0xaac1       // vpblendd    ymm8, ymm5, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd573d5c5; BYTE $0x20         // vpsrlq    ymm5, ymm5, 32
-	LONG $0xeaebd5c5                     // vpor    ymm5, ymm5, ymm2
-	LONG $0xeb5cd5c5                     // vsubpd    ymm5, ymm5, ymm3
-	LONG $0xed58bdc5                     // vaddpd    ymm5, ymm8, ymm5
-	LONG $0x024d63c4; WORD $0xaac1       // vpblendd    ymm8, ymm6, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd673cdc5; BYTE $0x20         // vpsrlq    ymm6, ymm6, 32
-	LONG $0xf2ebcdc5                     // vpor    ymm6, ymm6, ymm2
-	LONG $0xf35ccdc5                     // vsubpd    ymm6, ymm6, ymm3
-	LONG $0xf658bdc5                     // vaddpd    ymm6, ymm8, ymm6
-	LONG $0x024563c4; WORD $0xaac1       // vpblendd    ymm8, ymm7, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd773c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm7, 32
-	LONG $0xfaebc5c5                     // vpor    ymm7, ymm7, ymm2
-	LONG $0xfb5cc5c5                     // vsubpd    ymm7, ymm7, ymm3
-	LONG $0xff58bdc5                     // vaddpd    ymm7, ymm8, ymm7
-	LONG $0x2411fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm4
-	LONG $0x6c11fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm5
-	LONG $0x7411fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm6
-	LONG $0x7c11fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm7
-	QUAD $0x000080faa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0faac6ffec5; BYTE $0x00 // vmovdqu    ymm5, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fab46ffec5; BYTE $0x00 // vmovdqu    ymm6, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fabc6ffec5; BYTE $0x00 // vmovdqu    ymm7, yword [rdx + 8*rdi + 224]
-	LONG $0x025d63c4; WORD $0xaac1       // vpblendd    ymm8, ymm4, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd473ddc5; BYTE $0x20         // vpsrlq    ymm4, ymm4, 32
-	LONG $0xe2ebddc5                     // vpor    ymm4, ymm4, ymm2
-	LONG $0xe35cddc5                     // vsubpd    ymm4, ymm4, ymm3
-	LONG $0xe458bdc5                     // vaddpd    ymm4, ymm8, ymm4
-	LONG $0x025563c4; WORD $0xaac1       // vpblendd    ymm8, ymm5, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd573d5c5; BYTE $0x20         // vpsrlq    ymm5, ymm5, 32
-	LONG $0xeaebd5c5                     // vpor    ymm5, ymm5, ymm2
-	LONG $0xeb5cd5c5                     // vsubpd    ymm5, ymm5, ymm3
-	LONG $0xed58bdc5                     // vaddpd    ymm5, ymm8, ymm5
-	LONG $0x024d63c4; WORD $0xaac1       // vpblendd    ymm8, ymm6, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd673cdc5; BYTE $0x20         // vpsrlq    ymm6, ymm6, 32
-	LONG $0xf2ebcdc5                     // vpor    ymm6, ymm6, ymm2
-	LONG $0xf35ccdc5                     // vsubpd    ymm6, ymm6, ymm3
-	LONG $0xf658bdc5                     // vaddpd    ymm6, ymm8, ymm6
-	LONG $0x024563c4; WORD $0xaac1       // vpblendd    ymm8, ymm7, ymm1, 170
-	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
-	LONG $0xd773c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm7, 32
-	LONG $0xfaebc5c5                     // vpor    ymm7, ymm7, ymm2
-	LONG $0xfb5cc5c5                     // vsubpd    ymm7, ymm7, ymm3
-	LONG $0xff58bdc5                     // vaddpd    ymm7, ymm8, ymm7
-	QUAD $0x000080f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm4
-	QUAD $0x0000a0f9ac11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm5
-	QUAD $0x0000c0f9b411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm6
-	QUAD $0x0000e0f9bc11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm7
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_486
-	JMP  LBB0_920
-
-LBB0_487:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1045
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_489:
-	LONG $0x3379e2c4; WORD $0x7a04             // vpmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x3379e2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x3379e2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwd    xmm2, qword [rdx + 2*rdi + 16]
-	LONG $0x3379e2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwd    xmm3, qword [rdx + 2*rdi + 24]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fcc5; BYTE $0xf9               // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9             // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9             // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9             // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x3379e2c4; WORD $0x7a44; BYTE $0x20 // vpmovzxwd    xmm0, qword [rdx + 2*rdi + 32]
-	LONG $0x3379e2c4; WORD $0x7a4c; BYTE $0x28 // vpmovzxwd    xmm1, qword [rdx + 2*rdi + 40]
-	LONG $0x3379e2c4; WORD $0x7a54; BYTE $0x30 // vpmovzxwd    xmm2, qword [rdx + 2*rdi + 48]
-	LONG $0x3379e2c4; WORD $0x7a5c; BYTE $0x38 // vpmovzxwd    xmm3, qword [rdx + 2*rdi + 56]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	QUAD $0x000080f98411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_489
-	JMP  LBB0_1046
-
-LBB0_490:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1050
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_492:
-	LONG $0x2379e2c4; WORD $0x7a04             // vpmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x2379e2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x2379e2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwd    xmm2, qword [rdx + 2*rdi + 16]
-	LONG $0x2379e2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwd    xmm3, qword [rdx + 2*rdi + 24]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fcc5; BYTE $0xf9               // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9             // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9             // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9             // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x2379e2c4; WORD $0x7a44; BYTE $0x20 // vpmovsxwd    xmm0, qword [rdx + 2*rdi + 32]
-	LONG $0x2379e2c4; WORD $0x7a4c; BYTE $0x28 // vpmovsxwd    xmm1, qword [rdx + 2*rdi + 40]
-	LONG $0x2379e2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwd    xmm2, qword [rdx + 2*rdi + 48]
-	LONG $0x2379e2c4; WORD $0x7a5c; BYTE $0x38 // vpmovsxwd    xmm3, qword [rdx + 2*rdi + 56]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	QUAD $0x000080f98411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_492
-	JMP  LBB0_1051
-
-LBB0_493:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1055
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_495:
-	LONG $0x046ffac5; BYTE $0xfa         // vmovdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6ffac5; WORD $0x10fa       // vmovdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x16f9e3c4; WORD $0x01c0       // vpextrq    rax, xmm0, 1
-	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
-	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x7ef9e1c4; BYTE $0xc0         // vmovq    rax, xmm0
-	LONG $0x2aa3e1c4; BYTE $0xc0         // vcvtsi2sd    xmm0, xmm11, rax
-	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
-	LONG $0x2aa3e1c4; BYTE $0xe0         // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0x6c6ffac5; WORD $0x30fa       // vmovdqu    xmm5, oword [rdx + 8*rdi + 48]
-	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
-	LONG $0x2aa3e1c4; BYTE $0xc8         // vcvtsi2sd    xmm1, xmm11, rax
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2aa3e1c4; BYTE $0xf0         // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0xc21479c5                     // vunpcklpd    xmm8, xmm0, xmm2
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
-	LONG $0x16f9e3c4; WORD $0x01d8       // vpextrq    rax, xmm3, 1
-	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
-	LONG $0xd41471c5                     // vunpcklpd    xmm10, xmm1, xmm4
-	LONG $0x7ef9e1c4; BYTE $0xd8         // vmovq    rax, xmm3
-	LONG $0x2aa3e1c4; BYTE $0xd8         // vcvtsi2sd    xmm3, xmm11, rax
-	LONG $0xce1469c5                     // vunpcklpd    xmm9, xmm2, xmm6
-	LONG $0x646ffac5; WORD $0x50fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 80]
-	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
-	LONG $0xdd14e1c5                     // vunpcklpd    xmm3, xmm3, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
-	LONG $0x2aa3e1c4; BYTE $0xe0         // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0xe514d9c5                     // vunpcklpd    xmm4, xmm4, xmm5
-	LONG $0x6c6ffac5; WORD $0x40fa       // vmovdqu    xmm5, oword [rdx + 8*rdi + 64]
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2aa3e1c4; BYTE $0xf0         // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
-	LONG $0x7c6ffac5; WORD $0x70fa       // vmovdqu    xmm7, oword [rdx + 8*rdi + 112]
-	LONG $0x16f9e3c4; WORD $0x01f8       // vpextrq    rax, xmm7, 1
-	LONG $0x2aa3e1c4; BYTE $0xc0         // vcvtsi2sd    xmm0, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xf8         // vmovq    rax, xmm7
-	LONG $0x2aa3e1c4; BYTE $0xf8         // vcvtsi2sd    xmm7, xmm11, rax
-	LONG $0x546ffac5; WORD $0x60fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 96]
-	LONG $0x16f9e3c4; WORD $0x01d0       // vpextrq    rax, xmm2, 1
-	LONG $0x2aa3e1c4; BYTE $0xc8         // vcvtsi2sd    xmm1, xmm11, rax
-	LONG $0xee14d1c5                     // vunpcklpd    xmm5, xmm5, xmm6
-	LONG $0x7ef9e1c4; BYTE $0xd0         // vmovq    rax, xmm2
-	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
-	LONG $0xc014c1c5                     // vunpcklpd    xmm0, xmm7, xmm0
-	LONG $0xc914e9c5                     // vunpcklpd    xmm1, xmm2, xmm1
-	LONG $0x541179c5; WORD $0x10f9       // vmovupd    oword [rcx + 8*rdi + 16], xmm10
-	LONG $0x041179c5; BYTE $0xf9         // vmovupd    oword [rcx + 8*rdi], xmm8
-	LONG $0x5c11f9c5; WORD $0x20f9       // vmovupd    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x4c1179c5; WORD $0x30f9       // vmovupd    oword [rcx + 8*rdi + 48], xmm9
-	LONG $0x6c11f9c5; WORD $0x40f9       // vmovupd    oword [rcx + 8*rdi + 64], xmm5
-	LONG $0x6411f9c5; WORD $0x50f9       // vmovupd    oword [rcx + 8*rdi + 80], xmm4
-	LONG $0x4c11f9c5; WORD $0x60f9       // vmovupd    oword [rcx + 8*rdi + 96], xmm1
-	LONG $0x4411f9c5; WORD $0x70f9       // vmovupd    oword [rcx + 8*rdi + 112], xmm0
-	QUAD $0x000080fa846ffac5; BYTE $0x00 // vmovdqu    xmm0, oword [rdx + 8*rdi + 128]
-	QUAD $0x000090fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 144]
-	LONG $0x16f9e3c4; WORD $0x01c0       // vpextrq    rax, xmm0, 1
-	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
-	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
-	LONG $0x7ef9e1c4; BYTE $0xc0         // vmovq    rax, xmm0
-	LONG $0x2aa3e1c4; BYTE $0xc0         // vcvtsi2sd    xmm0, xmm11, rax
-	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
-	LONG $0x2aa3e1c4; BYTE $0xe0         // vcvtsi2sd    xmm4, xmm11, rax
-	QUAD $0x0000b0faac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 8*rdi + 176]
-	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
-	LONG $0x2aa3e1c4; BYTE $0xc8         // vcvtsi2sd    xmm1, xmm11, rax
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2aa3e1c4; BYTE $0xf0         // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0xc21479c5                     // vunpcklpd    xmm8, xmm0, xmm2
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
-	LONG $0x16f9e3c4; WORD $0x01d8       // vpextrq    rax, xmm3, 1
-	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
-	LONG $0xd41471c5                     // vunpcklpd    xmm10, xmm1, xmm4
-	LONG $0x7ef9e1c4; BYTE $0xd8         // vmovq    rax, xmm3
-	LONG $0x2aa3e1c4; BYTE $0xd8         // vcvtsi2sd    xmm3, xmm11, rax
-	LONG $0xce1469c5                     // vunpcklpd    xmm9, xmm2, xmm6
-	QUAD $0x0000d0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 208]
-	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
-	LONG $0xdd14e1c5                     // vunpcklpd    xmm3, xmm3, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
-	LONG $0x2aa3e1c4; BYTE $0xe0         // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0xe514d9c5                     // vunpcklpd    xmm4, xmm4, xmm5
-	QUAD $0x0000c0faac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 8*rdi + 192]
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2aa3e1c4; BYTE $0xf0         // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
-	QUAD $0x0000f0fabc6ffac5; BYTE $0x00 // vmovdqu    xmm7, oword [rdx + 8*rdi + 240]
-	LONG $0x16f9e3c4; WORD $0x01f8       // vpextrq    rax, xmm7, 1
-	LONG $0x2aa3e1c4; BYTE $0xc0         // vcvtsi2sd    xmm0, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xf8         // vmovq    rax, xmm7
-	LONG $0x2aa3e1c4; BYTE $0xf8         // vcvtsi2sd    xmm7, xmm11, rax
-	QUAD $0x0000e0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 224]
-	LONG $0x16f9e3c4; WORD $0x01d0       // vpextrq    rax, xmm2, 1
-	LONG $0x2aa3e1c4; BYTE $0xc8         // vcvtsi2sd    xmm1, xmm11, rax
-	LONG $0xee14d1c5                     // vunpcklpd    xmm5, xmm5, xmm6
-	LONG $0x7ef9e1c4; BYTE $0xd0         // vmovq    rax, xmm2
-	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
-	LONG $0xc014c1c5                     // vunpcklpd    xmm0, xmm7, xmm0
-	LONG $0xc914e9c5                     // vunpcklpd    xmm1, xmm2, xmm1
-	QUAD $0x000090f9941179c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 144], xmm10
-	QUAD $0x000080f9841179c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 128], xmm8
-	QUAD $0x0000a0f99c11f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 160], xmm3
-	QUAD $0x0000b0f98c1179c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 176], xmm9
-	QUAD $0x0000c0f9ac11f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 192], xmm5
-	QUAD $0x0000d0f9a411f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 208], xmm4
-	QUAD $0x0000e0f98c11f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 224], xmm1
-	QUAD $0x0000f0f98411f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 240], xmm0
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c28349                     // add    r10, 2
-	JNE  LBB0_495
-	JMP  LBB0_1056
-
-LBB0_496:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1060
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_498:
-	LONG $0x045afcc5; BYTE $0xba         // vcvtps2pd    ymm0, oword [rdx + 4*rdi]
-	LONG $0x4c5afcc5; WORD $0x10ba       // vcvtps2pd    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x545afcc5; WORD $0x20ba       // vcvtps2pd    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x5c5afcc5; WORD $0x30ba       // vcvtps2pd    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x445afcc5; WORD $0x40ba       // vcvtps2pd    ymm0, oword [rdx + 4*rdi + 64]
-	LONG $0x4c5afcc5; WORD $0x50ba       // vcvtps2pd    ymm1, oword [rdx + 4*rdi + 80]
-	LONG $0x545afcc5; WORD $0x60ba       // vcvtps2pd    ymm2, oword [rdx + 4*rdi + 96]
-	LONG $0x5c5afcc5; WORD $0x70ba       // vcvtps2pd    ymm3, oword [rdx + 4*rdi + 112]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_498
-	JMP  LBB0_1061
-
-LBB0_502:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_925
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_504:
-	LONG $0x04e6fec5; BYTE $0xba         // vcvtdq2pd    ymm0, oword [rdx + 4*rdi]
-	LONG $0x4ce6fec5; WORD $0x10ba       // vcvtdq2pd    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x54e6fec5; WORD $0x20ba       // vcvtdq2pd    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x5ce6fec5; WORD $0x30ba       // vcvtdq2pd    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x44e6fec5; WORD $0x40ba       // vcvtdq2pd    ymm0, oword [rdx + 4*rdi + 64]
-	LONG $0x4ce6fec5; WORD $0x50ba       // vcvtdq2pd    ymm1, oword [rdx + 4*rdi + 80]
-	LONG $0x54e6fec5; WORD $0x60ba       // vcvtdq2pd    ymm2, oword [rdx + 4*rdi + 96]
-	LONG $0x5ce6fec5; WORD $0x70ba       // vcvtdq2pd    ymm3, oword [rdx + 4*rdi + 112]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_504
-	JMP  LBB0_926
-
-LBB0_535:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_930
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_537:
-	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x357de2c4; WORD $0xba44; BYTE $0x40 // vpmovzxdq    ymm0, oword [rdx + 4*rdi + 64]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x50 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 80]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x60 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 96]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x70 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 112]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_537
-	JMP  LBB0_931
-
-LBB0_538:
-	WORD $0x8945; BYTE $0xce // mov    r14d, r9d
-	LONG $0xfce68341         // and    r14d, -4
-	LONG $0xfc468d49         // lea    rax, [r14 - 4]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x02eac149         // shr    r10, 2
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8945; BYTE $0xd0 // mov    r8d, r10d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_793
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_795
-
-LBB0_546:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_935
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_548:
-	LONG $0x347de2c4; WORD $0x7a04             // vpmovzxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x347de2c4; WORD $0x7a44; BYTE $0x20 // vpmovzxwq    ymm0, qword [rdx + 2*rdi + 32]
-	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x28 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 40]
-	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x30 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 48]
-	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x38 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 56]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_548
-	JMP  LBB0_936
-
-LBB0_549:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_940
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_551:
-	LONG $0x247de2c4; WORD $0x7a04             // vpmovsxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x247de2c4; WORD $0x7a44; BYTE $0x20 // vpmovsxwq    ymm0, qword [rdx + 2*rdi + 32]
-	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x28 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 40]
-	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 48]
-	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x38 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 56]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_551
-	JMP  LBB0_941
-
-LBB0_555:
-	WORD $0x8945; BYTE $0xce // mov    r14d, r9d
-	LONG $0xfce68341         // and    r14d, -4
-	LONG $0xfc468d49         // lea    rax, [r14 - 4]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x02eac149         // shr    r10, 2
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8945; BYTE $0xd0 // mov    r8d, r10d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_810
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_812
-
-LBB0_560:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_945
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_562:
-	LONG $0x257de2c4; WORD $0xba04             // vpmovsxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x10 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x257de2c4; WORD $0xba54; BYTE $0x20 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x30 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x257de2c4; WORD $0xba44; BYTE $0x40 // vpmovsxdq    ymm0, oword [rdx + 4*rdi + 64]
-	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x50 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 80]
-	LONG $0x257de2c4; WORD $0xba54; BYTE $0x60 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 96]
-	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x70 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 112]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_562
-	JMP  LBB0_946
-
-LBB0_563:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1065
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000080856ffdc5 // vmovdqa    ymm0, yword 128[rbp] /* [rip + .LCPI0_11] */
-
-LBB0_565:
-	LONG $0x0c6ffec5; BYTE $0xba         // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba       // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba       // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x0c7ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00 // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x4c7ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_565
-	JMP  LBB0_1066
-
-LBB0_566:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1070
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000080856ffdc5 // vmovdqa    ymm0, yword 128[rbp] /* [rip + .LCPI0_11] */
-
-LBB0_568:
-	LONG $0x0c6ffec5; BYTE $0xba         // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba       // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba       // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x0c7ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00 // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x4c7ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_568
-	JMP  LBB0_1071
-
-LBB0_569:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1075
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_571:
-	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54e6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5ce6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x186de3c4; WORD $0x01d3       // vinsertf128    ymm2, ymm2, xmm3, 1
-	LONG $0x2b6de2c4; BYTE $0xd0         // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0x187de3c4; WORD $0x01c1       // vinsertf128    ymm0, ymm0, xmm1, 1
-	LONG $0x2b7de2c4; BYTE $0xc0         // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79         // vmovdqu    yword [rcx + 2*rdi], ymm0
-	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 224]
-	LONG $0x186de3c4; WORD $0x01d3       // vinsertf128    ymm2, ymm2, xmm3, 1
-	LONG $0x2b6de2c4; BYTE $0xd0         // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0x187de3c4; WORD $0x01c1       // vinsertf128    ymm0, ymm0, xmm1, 1
-	LONG $0x2b7de2c4; BYTE $0xc0         // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x447ffec5; WORD $0x2079       // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_571
-	JMP  LBB0_1076
-
-LBB0_572:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1080
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_574:
-	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54e6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5ce6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x186de3c4; WORD $0x01d3       // vinsertf128    ymm2, ymm2, xmm3, 1
-	LONG $0xd06bedc5                     // vpackssdw    ymm2, ymm2, ymm0
-	LONG $0x187de3c4; WORD $0x01c1       // vinsertf128    ymm0, ymm0, xmm1, 1
-	LONG $0xc06bfdc5                     // vpackssdw    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79         // vmovdqu    yword [rcx + 2*rdi], ymm0
-	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 224]
-	LONG $0x186de3c4; WORD $0x01d3       // vinsertf128    ymm2, ymm2, xmm3, 1
-	LONG $0xd06bedc5                     // vpackssdw    ymm2, ymm2, ymm0
-	LONG $0x187de3c4; WORD $0x01c1       // vinsertf128    ymm0, ymm0, xmm1, 1
-	LONG $0xc06bfdc5                     // vpackssdw    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x447ffec5; WORD $0x2079       // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_574
-	JMP  LBB0_1081
-
-LBB0_581:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_950
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB0_583:
-	LONG $0x0e7963c4; WORD $0xfa04; BYTE $0x11         // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                           // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                           // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                           // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                           // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                           // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                           // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa4c0e79e3c4                           // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x79                       // vmovdqu    yword [rcx + 2*rdi], ymm1
-	QUAD $0x0080fa840e7963c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi + 128], 17
-	QUAD $0x0090fa940e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 144], 17
-	QUAD $0x00a0fa9c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 160], 17
-	QUAD $0x00b0faa40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 176], 17
-	QUAD $0x00c0faac0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 192], 17
-	QUAD $0x00d0fab40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 208], 17
-	QUAD $0x00e0fabc0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 224], 17
-	QUAD $0x00f0fa8c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 240], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2079                     // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x20c78348                                   // add    rdi, 32
-	LONG $0x02c08348                                   // add    rax, 2
-	JNE  LBB0_583
-	JMP  LBB0_951
-
-LBB0_584:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_955
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB0_586:
-	LONG $0x0e7963c4; WORD $0xfa04; BYTE $0x11         // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                           // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                           // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                           // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                           // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                           // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                           // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa4c0e79e3c4                           // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x79                       // vmovdqu    yword [rcx + 2*rdi], ymm1
-	QUAD $0x0080fa840e7963c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi + 128], 17
-	QUAD $0x0090fa940e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 144], 17
-	QUAD $0x00a0fa9c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 160], 17
-	QUAD $0x00b0faa40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 176], 17
-	QUAD $0x00c0faac0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 192], 17
-	QUAD $0x00d0fab40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 208], 17
-	QUAD $0x00e0fabc0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 224], 17
-	QUAD $0x00f0fa8c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 240], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2079                     // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x20c78348                                   // add    rdi, 32
-	LONG $0x02c08348                                   // add    rax, 2
-	JNE  LBB0_586
-	JMP  LBB0_956
-
-LBB0_599:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_960
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB0_601:
-	LONG $0x0e7963c4; WORD $0xfa04; BYTE $0x11         // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                           // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                           // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                           // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                           // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                           // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                           // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa4c0e79e3c4                           // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x79                       // vmovdqu    yword [rcx + 2*rdi], ymm1
-	QUAD $0x0080fa840e7963c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi + 128], 17
-	QUAD $0x0090fa940e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 144], 17
-	QUAD $0x00a0fa9c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 160], 17
-	QUAD $0x00b0faa40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 176], 17
-	QUAD $0x00c0faac0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 192], 17
-	QUAD $0x00d0fab40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 208], 17
-	QUAD $0x00e0fabc0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 224], 17
-	QUAD $0x00f0fa8c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 240], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2079                     // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x20c78348                                   // add    rdi, 32
-	LONG $0x02c08348                                   // add    rax, 2
-	JNE  LBB0_601
-	JMP  LBB0_961
-
-LBB0_602:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1085
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-
-LBB0_604:
-	LONG $0x0e7963c4; WORD $0xfa04; BYTE $0x11         // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                           // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                           // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                           // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                           // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                           // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                           // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa4c0e79e3c4                           // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x79                       // vmovdqu    yword [rcx + 2*rdi], ymm1
-	QUAD $0x0080fa840e7963c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi + 128], 17
-	QUAD $0x0090fa940e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 144], 17
-	QUAD $0x00a0fa9c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 160], 17
-	QUAD $0x00b0faa40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 176], 17
-	QUAD $0x00c0faac0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 192], 17
-	QUAD $0x00d0fab40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 208], 17
-	QUAD $0x00e0fabc0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 224], 17
-	QUAD $0x00f0fa8c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 240], 17
-	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
-	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
-	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
-	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
-	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
-	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2079                     // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x20c78348                                   // add    rdi, 32
-	LONG $0x02c08348                                   // add    rax, 2
-	JNE  LBB0_604
-	JMP  LBB0_1086
-
-LBB0_605:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1090
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_607:
-	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	LONG $0x2b79e2c4; BYTE $0xc1         // vpackusdw    xmm0, xmm0, xmm1
-	LONG $0x4c5bfec5; WORD $0x20ba       // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0x2b71e2c4; BYTE $0xca         // vpackusdw    xmm1, xmm1, xmm2
-	LONG $0x545bfec5; WORD $0x40ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0x2b69e2c4; BYTE $0xd3         // vpackusdw    xmm2, xmm2, xmm3
-	LONG $0x5c5bfec5; WORD $0x60ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0x2b61e2c4; BYTE $0xdc         // vpackusdw    xmm3, xmm3, xmm4
-	LONG $0x047ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	LONG $0x2b79e2c4; BYTE $0xc1         // vpackusdw    xmm0, xmm0, xmm1
-	QUAD $0x0000a0ba8c5bfec5; BYTE $0x00 // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 160]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0x2b71e2c4; BYTE $0xca         // vpackusdw    xmm1, xmm1, xmm2
-	QUAD $0x0000c0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 192]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0x2b69e2c4; BYTE $0xd3         // vpackusdw    xmm2, xmm2, xmm3
-	QUAD $0x0000e0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 224]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0x2b61e2c4; BYTE $0xdc         // vpackusdw    xmm3, xmm3, xmm4
-	LONG $0x447ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm0
-	LONG $0x4c7ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm1
-	LONG $0x547ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm2
-	LONG $0x5c7ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_607
-	JMP  LBB0_1091
-
-LBB0_608:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1095
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_610:
-	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x4c5bfec5; WORD $0x20ba       // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5                     // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0x545bfec5; WORD $0x40ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5                     // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0x5c5bfec5; WORD $0x60ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                     // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x047ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
-	QUAD $0x0000a0ba8c5bfec5; BYTE $0x00 // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 160]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5                     // vpackssdw    xmm1, xmm1, xmm2
-	QUAD $0x0000c0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 192]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5                     // vpackssdw    xmm2, xmm2, xmm3
-	QUAD $0x0000e0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 224]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5                     // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x447ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm0
-	LONG $0x4c7ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm1
-	LONG $0x547ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm2
-	LONG $0x5c7ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_610
-	JMP  LBB0_1096
-
-LBB0_617:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_965
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000080856ffdc5 // vmovdqa    ymm0, yword 128[rbp] /* [rip + .LCPI0_11] */
-
-LBB0_619:
-	LONG $0x0c6ffec5; BYTE $0xba         // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba       // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba       // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x0c7ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00 // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x4c7ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_619
-	JMP  LBB0_966
-
-LBB0_620:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_970
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000080856ffdc5 // vmovdqa    ymm0, yword 128[rbp] /* [rip + .LCPI0_11] */
-
-LBB0_622:
-	LONG $0x0c6ffec5; BYTE $0xba         // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba       // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba       // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x0c7ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00 // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
-	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
-	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
-	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
-	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
-	LONG $0x4c7ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm4
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_622
-	JMP  LBB0_971
-
-LBB0_623:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1100
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_625:
-	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x357de2c4; WORD $0xba44; BYTE $0x40 // vpmovzxdq    ymm0, oword [rdx + 4*rdi + 64]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x50 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 80]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x60 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 96]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x70 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 112]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_625
-	JMP  LBB0_1101
-
-LBB0_626:
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0       // and    esi, -32
-	LONG $0xe0468d48               // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x05e8c149               // shr    r8, 5
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB0_1105
-	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
-	LONG $0xfee08348               // and    rax, -2
-	WORD $0xf748; BYTE $0xd8       // neg    rax
-	LONG $0x587de2c4; WORD $0x3445 // vpbroadcastd    ymm0, dword 52[rbp] /* [rip + .LCPI0_13] */
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0x587de2c4; WORD $0x384d // vpbroadcastd    ymm1, dword 56[rbp] /* [rip + .LCPI0_14] */
-	LONG $0x187de2c4; WORD $0x3c55 // vbroadcastss    ymm2, dword 60[rbp] /* [rip + .LCPI0_15] */
-
-LBB0_628:
-	LONG $0x1c6ffec5; BYTE $0xba         // vmovdqu    ymm3, yword [rdx + 4*rdi]
-	LONG $0x646ffec5; WORD $0x20ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 32]
-	LONG $0x6c6ffec5; WORD $0x40ba       // vmovdqu    ymm5, yword [rdx + 4*rdi + 64]
-	LONG $0x746ffec5; WORD $0x60ba       // vmovdqu    ymm6, yword [rdx + 4*rdi + 96]
-	LONG $0x0e65e3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm3, ymm0, 170
-	LONG $0xd372e5c5; BYTE $0x10         // vpsrld    ymm3, ymm3, 16
-	LONG $0x0e65e3c4; WORD $0xaad9       // vpblendw    ymm3, ymm3, ymm1, 170
-	LONG $0xda5ce4c5                     // vsubps    ymm3, ymm3, ymm2
-	LONG $0xdb58c4c5                     // vaddps    ymm3, ymm7, ymm3
-	LONG $0x0e5de3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm4, ymm0, 170
-	LONG $0xd472ddc5; BYTE $0x10         // vpsrld    ymm4, ymm4, 16
-	LONG $0x0e5de3c4; WORD $0xaae1       // vpblendw    ymm4, ymm4, ymm1, 170
-	LONG $0xe25cdcc5                     // vsubps    ymm4, ymm4, ymm2
-	LONG $0xe458c4c5                     // vaddps    ymm4, ymm7, ymm4
-	LONG $0x0e55e3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm5, ymm0, 170
-	LONG $0xd572d5c5; BYTE $0x10         // vpsrld    ymm5, ymm5, 16
-	LONG $0x0e55e3c4; WORD $0xaae9       // vpblendw    ymm5, ymm5, ymm1, 170
-	LONG $0xea5cd4c5                     // vsubps    ymm5, ymm5, ymm2
-	LONG $0xed58c4c5                     // vaddps    ymm5, ymm7, ymm5
-	LONG $0x0e4de3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm6, ymm0, 170
-	LONG $0xd672cdc5; BYTE $0x10         // vpsrld    ymm6, ymm6, 16
-	LONG $0x0e4de3c4; WORD $0xaaf1       // vpblendw    ymm6, ymm6, ymm1, 170
-	LONG $0xf25cccc5                     // vsubps    ymm6, ymm6, ymm2
-	LONG $0xf658c4c5                     // vaddps    ymm6, ymm7, ymm6
-	LONG $0x1c11fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm3
-	LONG $0x6411fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm4
-	LONG $0x6c11fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm5
-	LONG $0x7411fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm6
-	QUAD $0x000080ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0baac6ffec5; BYTE $0x00 // vmovdqu    ymm5, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0bab46ffec5; BYTE $0x00 // vmovdqu    ymm6, yword [rdx + 4*rdi + 224]
-	LONG $0x0e65e3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm3, ymm0, 170
-	LONG $0xd372e5c5; BYTE $0x10         // vpsrld    ymm3, ymm3, 16
-	LONG $0x0e65e3c4; WORD $0xaad9       // vpblendw    ymm3, ymm3, ymm1, 170
-	LONG $0xda5ce4c5                     // vsubps    ymm3, ymm3, ymm2
-	LONG $0xdb58c4c5                     // vaddps    ymm3, ymm7, ymm3
-	LONG $0x0e5de3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm4, ymm0, 170
-	LONG $0xd472ddc5; BYTE $0x10         // vpsrld    ymm4, ymm4, 16
-	LONG $0x0e5de3c4; WORD $0xaae1       // vpblendw    ymm4, ymm4, ymm1, 170
-	LONG $0xe25cdcc5                     // vsubps    ymm4, ymm4, ymm2
-	LONG $0xe458c4c5                     // vaddps    ymm4, ymm7, ymm4
-	LONG $0x0e55e3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm5, ymm0, 170
-	LONG $0xd572d5c5; BYTE $0x10         // vpsrld    ymm5, ymm5, 16
-	LONG $0x0e55e3c4; WORD $0xaae9       // vpblendw    ymm5, ymm5, ymm1, 170
-	LONG $0xea5cd4c5                     // vsubps    ymm5, ymm5, ymm2
-	LONG $0xed58c4c5                     // vaddps    ymm5, ymm7, ymm5
-	LONG $0x0e4de3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm6, ymm0, 170
-	LONG $0xd672cdc5; BYTE $0x10         // vpsrld    ymm6, ymm6, 16
-	LONG $0x0e4de3c4; WORD $0xaaf1       // vpblendw    ymm6, ymm6, ymm1, 170
-	LONG $0xf25cccc5                     // vsubps    ymm6, ymm6, ymm2
-	LONG $0xf658c4c5                     // vaddps    ymm6, ymm7, ymm6
-	QUAD $0x000080b99c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 128], ymm3
-	QUAD $0x0000a0b9a411fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 160], ymm4
-	QUAD $0x0000c0b9ac11fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 192], ymm5
-	QUAD $0x0000e0b9b411fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 224], ymm6
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_628
-	JMP  LBB0_1106
-
-LBB0_629:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1110
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_631:
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x08 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 8]
-	LONG $0x6ef9e1c4; BYTE $0xc3               // vmovq    xmm0, rbx
-	LONG $0x2cfbe1c4; WORD $0xfa1c             // vcvttsd2si    rbx, qword [rdx + 8*rdi]
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x18 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 24]
-	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x10 // vcvttsd2si    rax, qword [rdx + 8*rdi + 16]
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x38 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 56]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x30 // vcvttsd2si    rax, qword [rdx + 8*rdi + 48]
-	LONG $0xc96ce9c5                           // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x6ef9e1c4; BYTE $0xd3               // vmovq    xmm2, rbx
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x28 // vcvttsd2si    rax, qword [rdx + 8*rdi + 40]
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x20 // vcvttsd2si    rax, qword [rdx + 8*rdi + 32]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x58 // vcvttsd2si    rax, qword [rdx + 8*rdi + 88]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x50 // vcvttsd2si    rax, qword [rdx + 8*rdi + 80]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x48 // vcvttsd2si    rax, qword [rdx + 8*rdi + 72]
-	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x40 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 64]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x78 // vcvttsd2si    rax, qword [rdx + 8*rdi + 120]
-	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x70 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 112]
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
-	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x68 // vcvttsd2si    rax, qword [rdx + 8*rdi + 104]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x60 // vcvttsd2si    rax, qword [rdx + 8*rdi + 96]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0xc76cf9c5                           // vpunpcklqdq    xmm0, xmm0, xmm7
-	LONG $0x4c7ffac5; WORD $0x10f9             // vmovdqu    oword [rcx + 8*rdi + 16], xmm1
-	LONG $0x047f7ac5; BYTE $0xf9               // vmovdqu    oword [rcx + 8*rdi], xmm8
-	LONG $0x5c7ffac5; WORD $0x20f9             // vmovdqu    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x547ffac5; WORD $0x30f9             // vmovdqu    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x6c7ffac5; WORD $0x40f9             // vmovdqu    oword [rcx + 8*rdi + 64], xmm5
-	LONG $0x647ffac5; WORD $0x50f9             // vmovdqu    oword [rcx + 8*rdi + 80], xmm4
-	LONG $0x447ffac5; WORD $0x60f9             // vmovdqu    oword [rcx + 8*rdi + 96], xmm0
-	LONG $0x747ffac5; WORD $0x70f9             // vmovdqu    oword [rcx + 8*rdi + 112], xmm6
-	QUAD $0x0088fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 136]
-	QUAD $0x0080fa9c2cfbe1c4; WORD $0x0000     // vcvttsd2si    rbx, qword [rdx + 8*rdi + 128]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	QUAD $0x0098fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 152]
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	QUAD $0x0090fa9c2cfbe1c4; WORD $0x0000     // vcvttsd2si    rbx, qword [rdx + 8*rdi + 144]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0xca6cf1c5                           // vpunpcklqdq    xmm1, xmm1, xmm2
-	QUAD $0x00b8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 184]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	QUAD $0x00b0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 176]
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
-	QUAD $0x00a8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 168]
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	QUAD $0x00a0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 160]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	QUAD $0x00d8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 216]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	QUAD $0x00d0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 208]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	QUAD $0x00c8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 200]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	QUAD $0x00c0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 192]
-	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0xe56cc9c5                           // vpunpcklqdq    xmm4, xmm6, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0xef6cd1c5                           // vpunpcklqdq    xmm5, xmm5, xmm7
-	QUAD $0x00f8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 248]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	QUAD $0x00f0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 240]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
-	QUAD $0x00e8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 232]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	QUAD $0x00e0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 224]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0xc76cf9c5                           // vpunpcklqdq    xmm0, xmm0, xmm7
-	QUAD $0x000090f98c7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 144], xmm1
-	QUAD $0x000080f9847f7ac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 128], xmm8
-	QUAD $0x0000a0f99c7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 160], xmm3
-	QUAD $0x0000b0f9947ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 176], xmm2
-	QUAD $0x0000c0f9ac7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 192], xmm5
-	QUAD $0x0000d0f9a47ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 208], xmm4
-	QUAD $0x0000e0f9847ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 224], xmm0
-	QUAD $0x0000f0f9b47ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 240], xmm6
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28349                           // add    r10, 2
-	JNE  LBB0_631
-	JMP  LBB0_1111
-
-LBB0_632:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1115
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_634:
-	LONG $0x045afdc5; BYTE $0xfa         // vcvtpd2ps    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4c5afdc5; WORD $0x20fa       // vcvtpd2ps    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x545afdc5; WORD $0x40fa       // vcvtpd2ps    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c5afdc5; WORD $0x60fa       // vcvtpd2ps    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411f9c5; BYTE $0xb9         // vmovupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f9c5; WORD $0x10b9       // vmovupd    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f9c5; WORD $0x20b9       // vmovupd    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f9c5; WORD $0x30b9       // vmovupd    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa845afdc5; BYTE $0x00 // vcvtpd2ps    xmm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c5afdc5; BYTE $0x00 // vcvtpd2ps    xmm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa945afdc5; BYTE $0x00 // vcvtpd2ps    xmm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c5afdc5; BYTE $0x00 // vcvtpd2ps    xmm3, yword [rdx + 8*rdi + 224]
-	LONG $0x4411f9c5; WORD $0x40b9       // vmovupd    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x4c11f9c5; WORD $0x50b9       // vmovupd    oword [rcx + 4*rdi + 80], xmm1
-	LONG $0x5411f9c5; WORD $0x60b9       // vmovupd    oword [rcx + 4*rdi + 96], xmm2
-	LONG $0x5c11f9c5; WORD $0x70b9       // vmovupd    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_634
-	JMP  LBB0_1116
-
-LBB0_644:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x02eac149         // shr    r10, 2
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8945; BYTE $0xd0 // mov    r8d, r10d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_850
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_852
-
-LBB0_646:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_975
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_648:
-	LONG $0x347de2c4; WORD $0x7a04             // vpmovzxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x347de2c4; WORD $0x7a44; BYTE $0x20 // vpmovzxwq    ymm0, qword [rdx + 2*rdi + 32]
-	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x28 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 40]
-	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x30 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 48]
-	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x38 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 56]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_648
-	JMP  LBB0_976
-
-LBB0_649:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1120
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_651:
-	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x337de2c4; WORD $0x7a44; BYTE $0x40 // vpmovzxwd    ymm0, oword [rdx + 2*rdi + 64]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 80]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x60 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 96]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 112]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	QUAD $0x000080b98411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_651
-	JMP  LBB0_1121
-
-LBB0_652:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1125
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_654:
-	LONG $0x247de2c4; WORD $0x7a04             // vpmovsxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x247de2c4; WORD $0x7a44; BYTE $0x20 // vpmovsxwq    ymm0, qword [rdx + 2*rdi + 32]
-	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x28 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 40]
-	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 48]
-	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x38 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 56]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_654
-	JMP  LBB0_1126
-
-LBB0_655:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1130
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_657:
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x237de2c4; WORD $0x7a44; BYTE $0x40 // vpmovsxwd    ymm0, oword [rdx + 2*rdi + 64]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 80]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x60 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 96]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 112]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	QUAD $0x000080b98411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_657
-	JMP  LBB0_1131
-
-LBB0_661:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1135
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_663:
-	LONG $0x046ffac5; BYTE $0xfa         // vmovdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x16f9e3c4; WORD $0x01c0       // vpextrq    rax, xmm0, 1
-	LONG $0x4c6ffac5; WORD $0x10fa       // vmovdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x2abae1c4; BYTE $0xd0         // vcvtsi2ss    xmm2, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc0         // vmovq    rax, xmm0
-	LONG $0x2abae1c4; BYTE $0xc0         // vcvtsi2ss    xmm0, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
-	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
-	LONG $0x2abae1c4; BYTE $0xc8         // vcvtsi2ss    xmm1, xmm8, rax
-	LONG $0x646ffac5; WORD $0x20fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 32]
-	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
-	LONG $0x6c6ffac5; WORD $0x30fa       // vmovdqu    xmm5, oword [rdx + 8*rdi + 48]
-	LONG $0x2abae1c4; BYTE $0xf0         // vcvtsi2ss    xmm6, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2abae1c4; BYTE $0xf8         // vcvtsi2ss    xmm7, xmm8, rax
-	LONG $0x2179e3c4; WORD $0x10c2       // vinsertps    xmm0, xmm0, xmm2, 16
-	LONG $0x2179e3c4; WORD $0x20c3       // vinsertps    xmm0, xmm0, xmm3, 32
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2179e3c4; WORD $0x30c1       // vinsertps    xmm0, xmm0, xmm1, 48
-	LONG $0x2abae1c4; BYTE $0xc8         // vcvtsi2ss    xmm1, xmm8, rax
-	LONG $0x2159e3c4; WORD $0x10d6       // vinsertps    xmm2, xmm4, xmm6, 16
-	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x16f9e3c4; WORD $0x01d8       // vpextrq    rax, xmm3, 1
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xd8         // vmovq    rax, xmm3
-	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x6c6ffac5; WORD $0x50fa       // vmovdqu    xmm5, oword [rdx + 8*rdi + 80]
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2abae1c4; BYTE $0xf0         // vcvtsi2ss    xmm6, xmm8, rax
-	LONG $0x2169e3c4; WORD $0x20d7       // vinsertps    xmm2, xmm2, xmm7, 32
-	LONG $0x2169e3c4; WORD $0x30c9       // vinsertps    xmm1, xmm2, xmm1, 48
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2161e3c4; WORD $0x10d4       // vinsertps    xmm2, xmm3, xmm4, 16
-	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x2169e3c4; WORD $0x20d6       // vinsertps    xmm2, xmm2, xmm6, 32
-	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
-	LONG $0x2abae1c4; BYTE $0xe8         // vcvtsi2ss    xmm5, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x746ffac5; WORD $0x70fa       // vmovdqu    xmm6, oword [rdx + 8*rdi + 112]
-	LONG $0x7ef9e1c4; BYTE $0xf0         // vmovq    rax, xmm6
-	LONG $0x2abae1c4; BYTE $0xf8         // vcvtsi2ss    xmm7, xmm8, rax
-	LONG $0x2169e3c4; WORD $0x30d3       // vinsertps    xmm2, xmm2, xmm3, 48
-	LONG $0x2159e3c4; WORD $0x10dd       // vinsertps    xmm3, xmm4, xmm5, 16
-	LONG $0x16f9e3c4; WORD $0x01f0       // vpextrq    rax, xmm6, 1
-	LONG $0x2161e3c4; WORD $0x20df       // vinsertps    xmm3, xmm3, xmm7, 32
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x2161e3c4; WORD $0x30dc       // vinsertps    xmm3, xmm3, xmm4, 48
-	LONG $0x0411f8c5; BYTE $0xb9         // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9       // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9       // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9       // vmovups    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa846ffac5; BYTE $0x00 // vmovdqu    xmm0, oword [rdx + 8*rdi + 128]
-	LONG $0x16f9e3c4; WORD $0x01c0       // vpextrq    rax, xmm0, 1
-	QUAD $0x000090fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 144]
-	LONG $0x2abae1c4; BYTE $0xd0         // vcvtsi2ss    xmm2, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc0         // vmovq    rax, xmm0
-	LONG $0x2abae1c4; BYTE $0xc0         // vcvtsi2ss    xmm0, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
-	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
-	LONG $0x2abae1c4; BYTE $0xc8         // vcvtsi2ss    xmm1, xmm8, rax
-	QUAD $0x0000a0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 160]
-	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
-	LONG $0x2abae1c4; BYTE $0xe8         // vcvtsi2ss    xmm5, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x2179e3c4; WORD $0x10c2       // vinsertps    xmm0, xmm0, xmm2, 16
-	QUAD $0x0000b0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 176]
-	LONG $0x16f9c3c4; WORD $0x01d3       // vpextrq    r11, xmm2, 1
-	LONG $0x7ef9e1c4; BYTE $0xd0         // vmovq    rax, xmm2
-	LONG $0x2abae1c4; BYTE $0xd0         // vcvtsi2ss    xmm2, xmm8, rax
-	LONG $0x2179e3c4; WORD $0x20c3       // vinsertps    xmm0, xmm0, xmm3, 32
-	LONG $0x2abac1c4; BYTE $0xdb         // vcvtsi2ss    xmm3, xmm8, r11
-	LONG $0x2179e3c4; WORD $0x30c1       // vinsertps    xmm0, xmm0, xmm1, 48
-	QUAD $0x0000c0fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 192]
-	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
-	LONG $0x2159e3c4; WORD $0x10e5       // vinsertps    xmm4, xmm4, xmm5, 16
-	LONG $0x2abae1c4; BYTE $0xe8         // vcvtsi2ss    xmm5, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
-	LONG $0x2abae1c4; BYTE $0xc8         // vcvtsi2ss    xmm1, xmm8, rax
-	LONG $0x2159e3c4; WORD $0x20d2       // vinsertps    xmm2, xmm4, xmm2, 32
-	QUAD $0x0000d0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 208]
-	LONG $0x16f9c3c4; WORD $0x01e3       // vpextrq    r11, xmm4, 1
-	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x2169e3c4; WORD $0x30d3       // vinsertps    xmm2, xmm2, xmm3, 48
-	LONG $0x2abac1c4; BYTE $0xdb         // vcvtsi2ss    xmm3, xmm8, r11
-	LONG $0x2171e3c4; WORD $0x10cd       // vinsertps    xmm1, xmm1, xmm5, 16
-	QUAD $0x0000e0faac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 8*rdi + 224]
-	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
-	LONG $0x2171e3c4; WORD $0x20cc       // vinsertps    xmm1, xmm1, xmm4, 32
-	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
-	LONG $0x2abae1c4; BYTE $0xe8         // vcvtsi2ss    xmm5, xmm8, rax
-	LONG $0x2171e3c4; WORD $0x30cb       // vinsertps    xmm1, xmm1, xmm3, 48
-	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
-	LONG $0x16f9c3c4; WORD $0x01db       // vpextrq    r11, xmm3, 1
-	LONG $0x7ef9e1c4; BYTE $0xd8         // vmovq    rax, xmm3
-	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x2151e3c4; WORD $0x10e4       // vinsertps    xmm4, xmm5, xmm4, 16
-	LONG $0x2abac1c4; BYTE $0xeb         // vcvtsi2ss    xmm5, xmm8, r11
-	LONG $0x2159e3c4; WORD $0x20db       // vinsertps    xmm3, xmm4, xmm3, 32
-	LONG $0x2161e3c4; WORD $0x30dd       // vinsertps    xmm3, xmm3, xmm5, 48
-	LONG $0x4411f8c5; WORD $0x40b9       // vmovups    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x5411f8c5; WORD $0x50b9       // vmovups    oword [rcx + 4*rdi + 80], xmm2
-	LONG $0x4c11f8c5; WORD $0x60b9       // vmovups    oword [rcx + 4*rdi + 96], xmm1
-	LONG $0x5c11f8c5; WORD $0x70b9       // vmovups    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c28349                     // add    r10, 2
-	JNE  LBB0_663
-	JMP  LBB0_1136
-
-LBB0_664:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1140
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_666:
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x04 // vcvttss2si    rbx, dword [rdx + 4*rdi + 4]
-	LONG $0x6ef9e1c4; BYTE $0xc3               // vmovq    xmm0, rbx
-	LONG $0x2cfae1c4; WORD $0xba1c             // vcvttss2si    rbx, dword [rdx + 4*rdi]
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x0c // vcvttss2si    rbx, dword [rdx + 4*rdi + 12]
-	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x08 // vcvttss2si    rax, dword [rdx + 4*rdi + 8]
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x1c // vcvttss2si    rbx, dword [rdx + 4*rdi + 28]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x18 // vcvttss2si    rax, dword [rdx + 4*rdi + 24]
-	LONG $0xc96ce9c5                           // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x6ef9e1c4; BYTE $0xd3               // vmovq    xmm2, rbx
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x14 // vcvttss2si    rax, dword [rdx + 4*rdi + 20]
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x10 // vcvttss2si    rax, dword [rdx + 4*rdi + 16]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x2c // vcvttss2si    rax, dword [rdx + 4*rdi + 44]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x28 // vcvttss2si    rax, dword [rdx + 4*rdi + 40]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x24 // vcvttss2si    rax, dword [rdx + 4*rdi + 36]
-	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x20 // vcvttss2si    rbx, dword [rdx + 4*rdi + 32]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x3c // vcvttss2si    rax, dword [rdx + 4*rdi + 60]
-	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x38 // vcvttss2si    rbx, dword [rdx + 4*rdi + 56]
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
-	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x34 // vcvttss2si    rax, dword [rdx + 4*rdi + 52]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x30 // vcvttss2si    rax, dword [rdx + 4*rdi + 48]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0xc76cf9c5                           // vpunpcklqdq    xmm0, xmm0, xmm7
-	LONG $0x4c7ffac5; WORD $0x10f9             // vmovdqu    oword [rcx + 8*rdi + 16], xmm1
-	LONG $0x047f7ac5; BYTE $0xf9               // vmovdqu    oword [rcx + 8*rdi], xmm8
-	LONG $0x5c7ffac5; WORD $0x20f9             // vmovdqu    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x547ffac5; WORD $0x30f9             // vmovdqu    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x6c7ffac5; WORD $0x40f9             // vmovdqu    oword [rcx + 8*rdi + 64], xmm5
-	LONG $0x647ffac5; WORD $0x50f9             // vmovdqu    oword [rcx + 8*rdi + 80], xmm4
-	LONG $0x447ffac5; WORD $0x60f9             // vmovdqu    oword [rcx + 8*rdi + 96], xmm0
-	LONG $0x747ffac5; WORD $0x70f9             // vmovdqu    oword [rcx + 8*rdi + 112], xmm6
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x44 // vcvttss2si    rax, dword [rdx + 4*rdi + 68]
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x40 // vcvttss2si    rbx, dword [rdx + 4*rdi + 64]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x4c // vcvttss2si    rax, dword [rdx + 4*rdi + 76]
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x48 // vcvttss2si    rbx, dword [rdx + 4*rdi + 72]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
-	LONG $0xca6cf1c5                           // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x5c // vcvttss2si    rax, dword [rdx + 4*rdi + 92]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x58 // vcvttss2si    rax, dword [rdx + 4*rdi + 88]
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x54 // vcvttss2si    rax, dword [rdx + 4*rdi + 84]
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x50 // vcvttss2si    rax, dword [rdx + 4*rdi + 80]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x6c // vcvttss2si    rax, dword [rdx + 4*rdi + 108]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x68 // vcvttss2si    rax, dword [rdx + 4*rdi + 104]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x64 // vcvttss2si    rax, dword [rdx + 4*rdi + 100]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x60 // vcvttss2si    rax, dword [rdx + 4*rdi + 96]
-	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0xe56cc9c5                           // vpunpcklqdq    xmm4, xmm6, xmm5
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0xef6cd1c5                           // vpunpcklqdq    xmm5, xmm5, xmm7
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x7c // vcvttss2si    rax, dword [rdx + 4*rdi + 124]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x78 // vcvttss2si    rax, dword [rdx + 4*rdi + 120]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x74 // vcvttss2si    rax, dword [rdx + 4*rdi + 116]
-	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x70 // vcvttss2si    rax, dword [rdx + 4*rdi + 112]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0xc76cf9c5                           // vpunpcklqdq    xmm0, xmm0, xmm7
-	QUAD $0x000090f98c7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 144], xmm1
-	QUAD $0x000080f9847f7ac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 128], xmm8
-	QUAD $0x0000a0f99c7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 160], xmm3
-	QUAD $0x0000b0f9947ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 176], xmm2
-	QUAD $0x0000c0f9ac7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 192], xmm5
-	QUAD $0x0000d0f9a47ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 208], xmm4
-	QUAD $0x0000e0f9847ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 224], xmm0
-	QUAD $0x0000f0f9b47ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 240], xmm6
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c28349                           // add    r10, 2
-	JNE  LBB0_666
-	JMP  LBB0_1141
-
-LBB0_676:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_980
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_678:
-	LONG $0x257de2c4; WORD $0xba04             // vpmovsxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x10 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x257de2c4; WORD $0xba54; BYTE $0x20 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x30 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x257de2c4; WORD $0xba44; BYTE $0x40 // vpmovsxdq    ymm0, oword [rdx + 4*rdi + 64]
-	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x50 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 80]
-	LONG $0x257de2c4; WORD $0xba54; BYTE $0x60 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 96]
-	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x70 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 112]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_678
-	JMP  LBB0_981
-
-LBB0_679:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_985
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_681:
-	LONG $0x045bfcc5; BYTE $0xba         // vcvtdq2ps    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c5bfcc5; WORD $0x20ba       // vcvtdq2ps    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x545bfcc5; WORD $0x40ba       // vcvtdq2ps    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c5bfcc5; WORD $0x60ba       // vcvtdq2ps    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba845bfcc5; BYTE $0x00 // vcvtdq2ps    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c5bfcc5; BYTE $0x00 // vcvtdq2ps    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba945bfcc5; BYTE $0x00 // vcvtdq2ps    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c5bfcc5; BYTE $0x00 // vcvtdq2ps    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_681
-	JMP  LBB0_986
-
-LBB0_715:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_990
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_717:
-	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54e6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5ce6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411f9c5; BYTE $0xb9         // vmovupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f9c5; WORD $0x10b9       // vmovupd    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f9c5; WORD $0x20b9       // vmovupd    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f9c5; WORD $0x30b9       // vmovupd    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 224]
-	LONG $0x4411f9c5; WORD $0x40b9       // vmovupd    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x4c11f9c5; WORD $0x50b9       // vmovupd    oword [rcx + 4*rdi + 80], xmm1
-	LONG $0x5411f9c5; WORD $0x60b9       // vmovupd    oword [rcx + 4*rdi + 96], xmm2
-	LONG $0x5c11f9c5; WORD $0x70b9       // vmovupd    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_717
-	JMP  LBB0_991
-
-LBB0_721:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_995
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_723:
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa8410f8c5; BYTE $0x00       // vmovups    xmm0, oword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10f8c5; BYTE $0x00       // vmovups    xmm1, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410f8c5; BYTE $0x00       // vmovups    xmm2, oword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10f8c5; BYTE $0x00       // vmovups    xmm3, oword [rdx + 8*rdi + 224]
-	QUAD $0x000090fa84c6f8c5; WORD $0x8800     // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 144], 136
-	QUAD $0x0000b0fa8cc6f0c5; WORD $0x8800     // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 176], 136
-	QUAD $0x0000d0fa94c6e8c5; WORD $0x8800     // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 208], 136
-	QUAD $0x0000f0fa9cc6e0c5; WORD $0x8800     // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 240], 136
-	LONG $0x4411f8c5; WORD $0x40b9             // vmovups    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x4c11f8c5; WORD $0x50b9             // vmovups    oword [rcx + 4*rdi + 80], xmm1
-	LONG $0x5411f8c5; WORD $0x60b9             // vmovups    oword [rcx + 4*rdi + 96], xmm2
-	LONG $0x5c11f8c5; WORD $0x70b9             // vmovups    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_723
-	JMP  LBB0_996
-
-LBB0_724:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1000
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_726:
-	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x337de2c4; WORD $0x7a44; BYTE $0x40 // vpmovzxwd    ymm0, oword [rdx + 2*rdi + 64]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 80]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x60 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 96]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 112]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_726
-	JMP  LBB0_1001
-
-LBB0_727:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1005
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_729:
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x237de2c4; WORD $0x7a44; BYTE $0x40 // vpmovsxwd    ymm0, oword [rdx + 2*rdi + 64]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 80]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x60 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 96]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 112]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_729
-	JMP  LBB0_1006
-
-LBB0_730:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1010
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_732:
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-	QUAD $0x000080fa8410f8c5; BYTE $0x00       // vmovups    xmm0, oword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10f8c5; BYTE $0x00       // vmovups    xmm1, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410f8c5; BYTE $0x00       // vmovups    xmm2, oword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10f8c5; BYTE $0x00       // vmovups    xmm3, oword [rdx + 8*rdi + 224]
-	QUAD $0x000090fa84c6f8c5; WORD $0x8800     // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 144], 136
-	QUAD $0x0000b0fa8cc6f0c5; WORD $0x8800     // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 176], 136
-	QUAD $0x0000d0fa94c6e8c5; WORD $0x8800     // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 208], 136
-	QUAD $0x0000f0fa9cc6e0c5; WORD $0x8800     // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 240], 136
-	LONG $0x4411f8c5; WORD $0x40b9             // vmovups    oword [rcx + 4*rdi + 64], xmm0
-	LONG $0x4c11f8c5; WORD $0x50b9             // vmovups    oword [rcx + 4*rdi + 80], xmm1
-	LONG $0x5411f8c5; WORD $0x60b9             // vmovups    oword [rcx + 4*rdi + 96], xmm2
-	LONG $0x5c11f8c5; WORD $0x70b9             // vmovups    oword [rcx + 4*rdi + 112], xmm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_732
-	JMP  LBB0_1011
-
-LBB0_733:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1015
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_735:
-	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c5bfec5; WORD $0x20ba       // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x545bfec5; WORD $0x40ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c5bfec5; WORD $0x60ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c5bfec5; BYTE $0x00 // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_735
-	JMP  LBB0_1016
-
-LBB0_742:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1185
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_744:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_744
-	JMP  LBB0_1186
-
-LBB0_745:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1193
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_747:
-	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x217de2c4; WORD $0x3a44; BYTE $0x20 // vpmovsxbd    ymm0, qword [rdx + rdi + 32]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovsxbd    ymm1, qword [rdx + rdi + 40]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x30 // vpmovsxbd    ymm2, qword [rdx + rdi + 48]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovsxbd    ymm3, qword [rdx + rdi + 56]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_747
-	JMP  LBB0_1194
-
-LBB0_748:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1201
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_750:
-	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x317de2c4; WORD $0x3a44; BYTE $0x20 // vpmovzxbd    ymm0, qword [rdx + rdi + 32]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovzxbd    ymm1, qword [rdx + rdi + 40]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x30 // vpmovzxbd    ymm2, qword [rdx + rdi + 48]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovzxbd    ymm3, qword [rdx + rdi + 56]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_750
-	JMP  LBB0_1202
-
-LBB0_751:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1209
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_753:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_753
-	JMP  LBB0_1210
-
-LBB0_754:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1217
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_756:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_756
-	JMP  LBB0_1218
-
-LBB0_757:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1225
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_759:
-	LONG $0x2179e2c4; WORD $0x3a04             // vpmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x2179e2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x2179e2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbd    xmm2, dword [rdx + rdi + 8]
-	LONG $0x2179e2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbd    xmm3, dword [rdx + rdi + 12]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fcc5; BYTE $0xf9               // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9             // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9             // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9             // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x2179e2c4; WORD $0x3a44; BYTE $0x10 // vpmovsxbd    xmm0, dword [rdx + rdi + 16]
-	LONG $0x2179e2c4; WORD $0x3a4c; BYTE $0x14 // vpmovsxbd    xmm1, dword [rdx + rdi + 20]
-	LONG $0x2179e2c4; WORD $0x3a54; BYTE $0x18 // vpmovsxbd    xmm2, dword [rdx + rdi + 24]
-	LONG $0x2179e2c4; WORD $0x3a5c; BYTE $0x1c // vpmovsxbd    xmm3, dword [rdx + rdi + 28]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	QUAD $0x000080f98411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_759
-	JMP  LBB0_1226
-
-LBB0_760:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1233
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_762:
-	LONG $0x3179e2c4; WORD $0x3a04             // vpmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x3179e2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x3179e2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbd    xmm2, dword [rdx + rdi + 8]
-	LONG $0x3179e2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbd    xmm3, dword [rdx + rdi + 12]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fcc5; BYTE $0xf9               // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9             // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9             // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9             // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x3179e2c4; WORD $0x3a44; BYTE $0x10 // vpmovzxbd    xmm0, dword [rdx + rdi + 16]
-	LONG $0x3179e2c4; WORD $0x3a4c; BYTE $0x14 // vpmovzxbd    xmm1, dword [rdx + rdi + 20]
-	LONG $0x3179e2c4; WORD $0x3a54; BYTE $0x18 // vpmovzxbd    xmm2, dword [rdx + rdi + 24]
-	LONG $0x3179e2c4; WORD $0x3a5c; BYTE $0x1c // vpmovzxbd    xmm3, dword [rdx + rdi + 28]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	QUAD $0x000080f98411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_762
-	JMP  LBB0_1234
-
-LBB0_763:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1241
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x70 // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_765:
-	LONG $0x0c6ffac5; BYTE $0xba         // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba       // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba       // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm1
-	QUAD $0x000080ba8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 4*rdi + 128]
-	QUAD $0x000090ba946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 4*rdi + 144]
-	QUAD $0x0000a0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 160]
-	QUAD $0x0000b0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	QUAD $0x0000d0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 208]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000c0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 192]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	QUAD $0x0000f0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 240]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	QUAD $0x0000e0baac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 4*rdi + 224]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm1
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_765
-	JMP  LBB0_1242
-
-LBB0_766:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1249
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_768:
-	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0xc06bf9c5                     // vpackssdw    xmm0, xmm0, xmm0
-	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0xc063f9c5                     // vpacksswb    xmm0, xmm0, xmm0
-	LONG $0xc96bf1c5                     // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5                     // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xc162f9c5                     // vpunpckldq    xmm0, xmm0, xmm1
-	LONG $0x4ce6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 64]
-	LONG $0xc96bf1c5                     // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5                     // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0x54e6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 96]
-	LONG $0xd26be9c5                     // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0xd263e9c5                     // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0xc16cf9c5                     // vpunpcklqdq    xmm0, xmm0, xmm1
-	LONG $0x047ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm0
-	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
-	LONG $0xc06bf9c5                     // vpackssdw    xmm0, xmm0, xmm0
-	LONG $0xc063f9c5                     // vpacksswb    xmm0, xmm0, xmm0
-	LONG $0xc96bf1c5                     // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0xc963f1c5                     // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xc162f9c5                     // vpunpckldq    xmm0, xmm0, xmm1
-	QUAD $0x0000c0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 192]
-	LONG $0xc96bf1c5                     // vpackssdw    xmm1, xmm1, xmm1
-	QUAD $0x0000e0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 224]
-	LONG $0xc963f1c5                     // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xd26be9c5                     // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0xd263e9c5                     // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0xc16cf9c5                     // vpunpcklqdq    xmm0, xmm0, xmm1
-	LONG $0x447ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm0
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_768
-	JMP  LBB0_1250
-
-LBB0_769:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1257
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_771:
-	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
-	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
-	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
-	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
-	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
-	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
-	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_771
-	JMP  LBB0_1258
-
-LBB0_772:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1265
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x40 // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-
-LBB0_774:
-	LONG $0x0c6ffac5; BYTE $0xfa         // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	QUAD $0x000080fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 128]
-	QUAD $0x000090fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 144]
-	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000b0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	QUAD $0x0000d0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 208]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	QUAD $0x0000c0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 192]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000e0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 224]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x4c7ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_774
-	JMP  LBB0_1266
-
-LBB0_775:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1273
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-
-LBB0_777:
-	LONG $0x0cdbfdc5; BYTE $0x7a         // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a       // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a       // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x64dbfdc5; WORD $0x607a       // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039       // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3039       // vmovdqu    oword [rcx + rdi + 48], xmm4
-	QUAD $0x0000807a8cdbfdc5; BYTE $0x00 // vpand    ymm1, ymm0, yword [rdx + 2*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	QUAD $0x0000a07a94dbfdc5; BYTE $0x00 // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 160]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	QUAD $0x0000c07a9cdbfdc5; BYTE $0x00 // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 192]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	QUAD $0x0000e07aa4dbfdc5; BYTE $0x00 // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 224]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x4c7ffac5; WORD $0x4039       // vmovdqu    oword [rcx + rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5039       // vmovdqu    oword [rcx + rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6039       // vmovdqu    oword [rcx + rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7039       // vmovdqu    oword [rcx + rdi + 112], xmm4
-	LONG $0x80ef8348                     // sub    rdi, -128
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_777
-	JMP  LBB0_1274
-
-LBB0_778:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1281
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-
-LBB0_780:
-	LONG $0x0cdbfdc5; BYTE $0x7a         // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a       // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a       // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x64dbfdc5; WORD $0x607a       // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039       // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3039       // vmovdqu    oword [rcx + rdi + 48], xmm4
-	QUAD $0x0000807a8cdbfdc5; BYTE $0x00 // vpand    ymm1, ymm0, yword [rdx + 2*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	QUAD $0x0000a07a94dbfdc5; BYTE $0x00 // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 160]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	QUAD $0x0000c07a9cdbfdc5; BYTE $0x00 // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 192]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	QUAD $0x0000e07aa4dbfdc5; BYTE $0x00 // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 224]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x4c7ffac5; WORD $0x4039       // vmovdqu    oword [rcx + rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5039       // vmovdqu    oword [rcx + rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6039       // vmovdqu    oword [rcx + rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7039       // vmovdqu    oword [rcx + rdi + 112], xmm4
-	LONG $0x80ef8348                     // sub    rdi, -128
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_780
-	JMP  LBB0_1282
-
-LBB0_781:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1289
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x40 // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-
-LBB0_783:
-	LONG $0x0c6ffac5; BYTE $0xfa         // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	QUAD $0x000080fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 128]
-	QUAD $0x000090fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 144]
-	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000b0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	QUAD $0x0000d0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 208]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	QUAD $0x0000c0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 192]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000e0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 224]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x4c7ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_783
-	JMP  LBB0_1290
-
-LBB0_784:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1297
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_786:
-	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	LONG $0x545bfec5; WORD $0x20ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x397de3c4; WORD $0x01d1       // vextracti128    xmm1, ymm2, 1
-	LONG $0x5c5bfec5; WORD $0x40ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0xc96be9c5                     // vpackssdw    xmm1, xmm2, xmm1
-	LONG $0x397de3c4; WORD $0x01da       // vextracti128    xmm2, ymm3, 1
-	LONG $0x645bfec5; WORD $0x60ba       // vcvttps2dq    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xd26be1c5                     // vpackssdw    xmm2, xmm3, xmm2
-	LONG $0x397de3c4; WORD $0x01e3       // vextracti128    xmm3, ymm4, 1
-	LONG $0xdb6bd9c5                     // vpackssdw    xmm3, xmm4, xmm3
-	LONG $0x386de3c4; WORD $0x01d3       // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd063edc5                     // vpacksswb    ymm2, ymm2, ymm0
-	LONG $0x387de3c4; WORD $0x01c1       // vinserti128    ymm0, ymm0, xmm1, 1
-	LONG $0xc063fdc5                     // vpacksswb    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm0
-	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	QUAD $0x0000a0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 160]
-	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x397de3c4; WORD $0x01d1       // vextracti128    xmm1, ymm2, 1
-	QUAD $0x0000c0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 192]
-	LONG $0xc96be9c5                     // vpackssdw    xmm1, xmm2, xmm1
-	LONG $0x397de3c4; WORD $0x01da       // vextracti128    xmm2, ymm3, 1
-	QUAD $0x0000e0baa45bfec5; BYTE $0x00 // vcvttps2dq    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xd26be1c5                     // vpackssdw    xmm2, xmm3, xmm2
-	LONG $0x397de3c4; WORD $0x01e3       // vextracti128    xmm3, ymm4, 1
-	LONG $0xdb6bd9c5                     // vpackssdw    xmm3, xmm4, xmm3
-	LONG $0x386de3c4; WORD $0x01d3       // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd063edc5                     // vpacksswb    ymm2, ymm2, ymm0
-	LONG $0x387de3c4; WORD $0x01c1       // vinserti128    ymm0, ymm0, xmm1, 1
-	LONG $0xc063fdc5                     // vpacksswb    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x447ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm0
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_786
-	JMP  LBB0_1298
-
-LBB0_787:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1305
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_789:
-	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
-	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
-	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
-	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
-	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
-	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
-	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_789
-	JMP  LBB0_1306
-
-LBB0_790:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1313
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x70 // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_792:
-	LONG $0x0c6ffac5; BYTE $0xba         // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba       // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba       // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm1
-	QUAD $0x000080ba8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 4*rdi + 128]
-	QUAD $0x000090ba946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 4*rdi + 144]
-	QUAD $0x0000a0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 160]
-	QUAD $0x0000b0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	QUAD $0x0000d0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 208]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000c0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 192]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	QUAD $0x0000f0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 240]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	QUAD $0x0000e0baac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 4*rdi + 224]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm1
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_792
-	JMP  LBB0_1314
-
-LBB0_801:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1321
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_803:
-	LONG $0x227de2c4; WORD $0x3a04             // vpmovsxbq    ymm0, dword [rdx + rdi]
-	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x227de2c4; WORD $0x3a44; BYTE $0x10 // vpmovsxbq    ymm0, dword [rdx + rdi + 16]
-	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x14 // vpmovsxbq    ymm1, dword [rdx + rdi + 20]
-	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x18 // vpmovsxbq    ymm2, dword [rdx + rdi + 24]
-	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x1c // vpmovsxbq    ymm3, dword [rdx + rdi + 28]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_803
-	JMP  LBB0_1322
-
-LBB0_804:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1329
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_806:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_806
-	JMP  LBB0_1330
-
-LBB0_807:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1337
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_809:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_809
-	JMP  LBB0_1338
-
-LBB0_818:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1345
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_820:
-	LONG $0x327de2c4; WORD $0x3a04             // vpmovzxbq    ymm0, dword [rdx + rdi]
-	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x327de2c4; WORD $0x3a44; BYTE $0x10 // vpmovzxbq    ymm0, dword [rdx + rdi + 16]
-	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x14 // vpmovzxbq    ymm1, dword [rdx + rdi + 20]
-	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x18 // vpmovzxbq    ymm2, dword [rdx + rdi + 24]
-	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x1c // vpmovzxbq    ymm3, dword [rdx + rdi + 28]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_820
-	JMP  LBB0_1346
-
-LBB0_821:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1353
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_823:
-	LONG $0x207de2c4; WORD $0x3a04             // vpmovsxbw    ymm0, oword [rdx + rdi]
-	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovsxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x20 // vpmovsxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovsxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-	LONG $0x207de2c4; WORD $0x3a44; BYTE $0x40 // vpmovsxbw    ymm0, oword [rdx + rdi + 64]
-	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x50 // vpmovsxbw    ymm1, oword [rdx + rdi + 80]
-	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x60 // vpmovsxbw    ymm2, oword [rdx + rdi + 96]
-	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x70 // vpmovsxbw    ymm3, oword [rdx + rdi + 112]
-	QUAD $0x00008079847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 128], ymm0
-	QUAD $0x0000a0798c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 160], ymm1
-	QUAD $0x0000c079947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 192], ymm2
-	QUAD $0x0000e0799c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 224], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_823
-	JMP  LBB0_1354
-
-LBB0_824:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1361
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_826:
-	LONG $0x207de2c4; WORD $0x3a04             // vpmovsxbw    ymm0, oword [rdx + rdi]
-	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovsxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x20 // vpmovsxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovsxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-	LONG $0x207de2c4; WORD $0x3a44; BYTE $0x40 // vpmovsxbw    ymm0, oword [rdx + rdi + 64]
-	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x50 // vpmovsxbw    ymm1, oword [rdx + rdi + 80]
-	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x60 // vpmovsxbw    ymm2, oword [rdx + rdi + 96]
-	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x70 // vpmovsxbw    ymm3, oword [rdx + rdi + 112]
-	QUAD $0x00008079847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 128], ymm0
-	QUAD $0x0000a0798c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 160], ymm1
-	QUAD $0x0000c079947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 192], ymm2
-	QUAD $0x0000e0799c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 224], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_826
-	JMP  LBB0_1362
-
-LBB0_827:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1145
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1147
-
-LBB0_829:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1155
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1157
-
-LBB0_831:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1165
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1167
-
-LBB0_833:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1175
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1177
-
-LBB0_835:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1369
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_837:
-	LONG $0x307de2c4; WORD $0x3a04             // vpmovzxbw    ymm0, oword [rdx + rdi]
-	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovzxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x20 // vpmovzxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovzxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-	LONG $0x307de2c4; WORD $0x3a44; BYTE $0x40 // vpmovzxbw    ymm0, oword [rdx + rdi + 64]
-	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x50 // vpmovzxbw    ymm1, oword [rdx + rdi + 80]
-	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x60 // vpmovzxbw    ymm2, oword [rdx + rdi + 96]
-	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x70 // vpmovzxbw    ymm3, oword [rdx + rdi + 112]
-	QUAD $0x00008079847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 128], ymm0
-	QUAD $0x0000a0798c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 160], ymm1
-	QUAD $0x0000c079947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 192], ymm2
-	QUAD $0x0000e0799c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 224], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_837
-	JMP  LBB0_1370
-
-LBB0_838:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1377
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_840:
-	LONG $0x307de2c4; WORD $0x3a04             // vpmovzxbw    ymm0, oword [rdx + rdi]
-	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovzxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x20 // vpmovzxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovzxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-	LONG $0x307de2c4; WORD $0x3a44; BYTE $0x40 // vpmovzxbw    ymm0, oword [rdx + rdi + 64]
-	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x50 // vpmovzxbw    ymm1, oword [rdx + rdi + 80]
-	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x60 // vpmovzxbw    ymm2, oword [rdx + rdi + 96]
-	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x70 // vpmovzxbw    ymm3, oword [rdx + rdi + 112]
-	QUAD $0x00008079847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 128], ymm0
-	QUAD $0x0000a0798c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 160], ymm1
-	QUAD $0x0000c079947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 192], ymm2
-	QUAD $0x0000e0799c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 224], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_840
-	JMP  LBB0_1378
-
-LBB0_841:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1385
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_843:
-	LONG $0x227de2c4; WORD $0x3a04             // vpmovsxbq    ymm0, dword [rdx + rdi]
-	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x227de2c4; WORD $0x3a44; BYTE $0x10 // vpmovsxbq    ymm0, dword [rdx + rdi + 16]
-	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x14 // vpmovsxbq    ymm1, dword [rdx + rdi + 20]
-	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x18 // vpmovsxbq    ymm2, dword [rdx + rdi + 24]
-	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x1c // vpmovsxbq    ymm3, dword [rdx + rdi + 28]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_843
-	JMP  LBB0_1386
-
-LBB0_844:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1393
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_846:
-	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x217de2c4; WORD $0x3a44; BYTE $0x20 // vpmovsxbd    ymm0, qword [rdx + rdi + 32]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovsxbd    ymm1, qword [rdx + rdi + 40]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x30 // vpmovsxbd    ymm2, qword [rdx + rdi + 48]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovsxbd    ymm3, qword [rdx + rdi + 56]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	QUAD $0x000080b98411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_846
-	JMP  LBB0_1394
-
-LBB0_847:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1401
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_849:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_849
-	JMP  LBB0_1402
-
-LBB0_860:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1409
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_862:
-	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
-	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
-	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_862
-	JMP  LBB0_1410
-
-LBB0_863:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1417
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_865:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_865
-	JMP  LBB0_1418
-
-LBB0_866:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1425
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_868:
-	LONG $0x327de2c4; WORD $0x3a04             // vpmovzxbq    ymm0, dword [rdx + rdi]
-	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-	LONG $0x327de2c4; WORD $0x3a44; BYTE $0x10 // vpmovzxbq    ymm0, dword [rdx + rdi + 16]
-	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x14 // vpmovzxbq    ymm1, dword [rdx + rdi + 20]
-	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x18 // vpmovzxbq    ymm2, dword [rdx + rdi + 24]
-	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x1c // vpmovzxbq    ymm3, dword [rdx + rdi + 28]
-	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
-	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
-	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
-	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_868
-	JMP  LBB0_1426
-
-LBB0_869:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1433
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_871:
-	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x317de2c4; WORD $0x3a44; BYTE $0x20 // vpmovzxbd    ymm0, qword [rdx + rdi + 32]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovzxbd    ymm1, qword [rdx + rdi + 40]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x30 // vpmovzxbd    ymm2, qword [rdx + rdi + 48]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovzxbd    ymm3, qword [rdx + rdi + 56]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	QUAD $0x000080b98411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_871
-	JMP  LBB0_1434
-
-LBB0_872:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1441
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x70 // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_874:
-	LONG $0x0c6ffac5; BYTE $0xba         // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba       // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba       // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm1
-	QUAD $0x000080ba8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 4*rdi + 128]
-	QUAD $0x000090ba946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 4*rdi + 144]
-	QUAD $0x0000a0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 160]
-	QUAD $0x0000b0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	QUAD $0x0000d0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 208]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000c0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 192]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	QUAD $0x0000f0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 240]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	QUAD $0x0000e0baac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 4*rdi + 224]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm1
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_874
-	JMP  LBB0_1442
-
-LBB0_875:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1449
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_877:
-	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x2b79e2c4; BYTE $0xc0         // vpackusdw    xmm0, xmm0, xmm0
-	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0xc067f9c5                     // vpackuswb    xmm0, xmm0, xmm0
-	LONG $0x2b71e2c4; BYTE $0xc9         // vpackusdw    xmm1, xmm1, xmm1
-	LONG $0xc967f1c5                     // vpackuswb    xmm1, xmm1, xmm1
-	LONG $0xc162f9c5                     // vpunpckldq    xmm0, xmm0, xmm1
-	LONG $0x4ce6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 64]
-	LONG $0x2b71e2c4; BYTE $0xc9         // vpackusdw    xmm1, xmm1, xmm1
-	LONG $0xc967f1c5                     // vpackuswb    xmm1, xmm1, xmm1
-	LONG $0x54e6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 96]
-	LONG $0x2b69e2c4; BYTE $0xd2         // vpackusdw    xmm2, xmm2, xmm2
-	LONG $0xd267e9c5                     // vpackuswb    xmm2, xmm2, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0xc16cf9c5                     // vpunpcklqdq    xmm0, xmm0, xmm1
-	LONG $0x047ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm0
-	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
-	LONG $0x2b79e2c4; BYTE $0xc0         // vpackusdw    xmm0, xmm0, xmm0
-	LONG $0xc067f9c5                     // vpackuswb    xmm0, xmm0, xmm0
-	LONG $0x2b71e2c4; BYTE $0xc9         // vpackusdw    xmm1, xmm1, xmm1
-	LONG $0xc967f1c5                     // vpackuswb    xmm1, xmm1, xmm1
-	LONG $0xc162f9c5                     // vpunpckldq    xmm0, xmm0, xmm1
-	QUAD $0x0000c0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 192]
-	LONG $0x2b71e2c4; BYTE $0xc9         // vpackusdw    xmm1, xmm1, xmm1
-	QUAD $0x0000e0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 224]
-	LONG $0xc967f1c5                     // vpackuswb    xmm1, xmm1, xmm1
-	LONG $0x2b69e2c4; BYTE $0xd2         // vpackusdw    xmm2, xmm2, xmm2
-	LONG $0xd267e9c5                     // vpackuswb    xmm2, xmm2, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0xc16cf9c5                     // vpunpcklqdq    xmm0, xmm0, xmm1
-	LONG $0x447ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm0
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_877
-	JMP  LBB0_1450
-
-LBB0_878:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1457
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_880:
-	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
-	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
-	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
-	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
-	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
-	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
-	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_880
-	JMP  LBB0_1458
-
-LBB0_881:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1465
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x40 // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-
-LBB0_883:
-	LONG $0x0c6ffac5; BYTE $0xfa         // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	QUAD $0x000080fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 128]
-	QUAD $0x000090fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 144]
-	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000b0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	QUAD $0x0000d0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 208]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	QUAD $0x0000c0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 192]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000e0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 224]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x4c7ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_883
-	JMP  LBB0_1466
-
-LBB0_884:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1473
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-
-LBB0_886:
-	LONG $0x0cdbfdc5; BYTE $0x7a         // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a       // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a       // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x64dbfdc5; WORD $0x607a       // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039       // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3039       // vmovdqu    oword [rcx + rdi + 48], xmm4
-	QUAD $0x0000807a8cdbfdc5; BYTE $0x00 // vpand    ymm1, ymm0, yword [rdx + 2*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	QUAD $0x0000a07a94dbfdc5; BYTE $0x00 // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 160]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	QUAD $0x0000c07a9cdbfdc5; BYTE $0x00 // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 192]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	QUAD $0x0000e07aa4dbfdc5; BYTE $0x00 // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 224]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x4c7ffac5; WORD $0x4039       // vmovdqu    oword [rcx + rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5039       // vmovdqu    oword [rcx + rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6039       // vmovdqu    oword [rcx + rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7039       // vmovdqu    oword [rcx + rdi + 112], xmm4
-	LONG $0x80ef8348                     // sub    rdi, -128
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_886
-	JMP  LBB0_1474
-
-LBB0_887:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	LONG $0xc0468d48         // lea    rax, [rsi - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1481
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-
-LBB0_889:
-	LONG $0x0cdbfdc5; BYTE $0x7a         // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a       // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a       // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x64dbfdc5; WORD $0x607a       // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039       // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x647ffac5; WORD $0x3039       // vmovdqu    oword [rcx + rdi + 48], xmm4
-	QUAD $0x0000807a8cdbfdc5; BYTE $0x00 // vpand    ymm1, ymm0, yword [rdx + 2*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
-	QUAD $0x0000a07a94dbfdc5; BYTE $0x00 // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 160]
-	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
-	QUAD $0x0000c07a9cdbfdc5; BYTE $0x00 // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 192]
-	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
-	QUAD $0x0000e07aa4dbfdc5; BYTE $0x00 // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 224]
-	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
-	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
-	LONG $0x4c7ffac5; WORD $0x4039       // vmovdqu    oword [rcx + rdi + 64], xmm1
-	LONG $0x547ffac5; WORD $0x5039       // vmovdqu    oword [rcx + rdi + 80], xmm2
-	LONG $0x5c7ffac5; WORD $0x6039       // vmovdqu    oword [rcx + rdi + 96], xmm3
-	LONG $0x647ffac5; WORD $0x7039       // vmovdqu    oword [rcx + rdi + 112], xmm4
-	LONG $0x80ef8348                     // sub    rdi, -128
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_889
-	JMP  LBB0_1482
-
-LBB0_890:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1489
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x40 // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-
-LBB0_892:
-	LONG $0x0c6ffac5; BYTE $0xfa         // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
-	QUAD $0x000080fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 128]
-	QUAD $0x000090fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 144]
-	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
-	QUAD $0x0000b0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	QUAD $0x0000d0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 208]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	QUAD $0x0000c0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 192]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
-	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000e0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 224]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
-	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
-	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
-	LONG $0x4c7ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348                     // add    rdi, 32
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_892
-	JMP  LBB0_1490
-
-LBB0_893:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1497
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_895:
-	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	LONG $0x545bfec5; WORD $0x20ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x397de3c4; WORD $0x01d1       // vextracti128    xmm1, ymm2, 1
-	LONG $0x5c5bfec5; WORD $0x40ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0xc96be9c5                     // vpackssdw    xmm1, xmm2, xmm1
-	LONG $0x397de3c4; WORD $0x01da       // vextracti128    xmm2, ymm3, 1
-	LONG $0x645bfec5; WORD $0x60ba       // vcvttps2dq    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xd26be1c5                     // vpackssdw    xmm2, xmm3, xmm2
-	LONG $0x397de3c4; WORD $0x01e3       // vextracti128    xmm3, ymm4, 1
-	LONG $0xdb6bd9c5                     // vpackssdw    xmm3, xmm4, xmm3
-	LONG $0x386de3c4; WORD $0x01d3       // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd067edc5                     // vpackuswb    ymm2, ymm2, ymm0
-	LONG $0x387de3c4; WORD $0x01c1       // vinserti128    ymm0, ymm0, xmm1, 1
-	LONG $0xc067fdc5                     // vpackuswb    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm0
-	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
-	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
-	QUAD $0x0000a0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 160]
-	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x397de3c4; WORD $0x01d1       // vextracti128    xmm1, ymm2, 1
-	QUAD $0x0000c0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 192]
-	LONG $0xc96be9c5                     // vpackssdw    xmm1, xmm2, xmm1
-	LONG $0x397de3c4; WORD $0x01da       // vextracti128    xmm2, ymm3, 1
-	QUAD $0x0000e0baa45bfec5; BYTE $0x00 // vcvttps2dq    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xd26be1c5                     // vpackssdw    xmm2, xmm3, xmm2
-	LONG $0x397de3c4; WORD $0x01e3       // vextracti128    xmm3, ymm4, 1
-	LONG $0xdb6bd9c5                     // vpackssdw    xmm3, xmm4, xmm3
-	LONG $0x386de3c4; WORD $0x01d3       // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd067edc5                     // vpackuswb    ymm2, ymm2, ymm0
-	LONG $0x387de3c4; WORD $0x01c1       // vinserti128    ymm0, ymm0, xmm1, 1
-	LONG $0xc067fdc5                     // vpackuswb    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
-	LONG $0x447ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm0
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_895
-	JMP  LBB0_1498
-
-LBB0_896:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	LONG $0x80468d48         // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x07e8c149         // shr    r8, 7
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1505
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_898:
-	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
-	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
-	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
-	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
-	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
-	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
-	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_898
-	JMP  LBB0_1506
-
-LBB0_899:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1513
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456ff9c5; BYTE $0x70 // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_901:
-	LONG $0x0c6ffac5; BYTE $0xba         // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba       // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba       // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x0c7ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm1
-	QUAD $0x000080ba8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 4*rdi + 128]
-	QUAD $0x000090ba946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 4*rdi + 144]
-	QUAD $0x0000a0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 160]
-	QUAD $0x0000b0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 176]
-	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
-	QUAD $0x0000d0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 208]
-	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
-	QUAD $0x0000c0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 192]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
-	QUAD $0x0000f0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 240]
-	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
-	QUAD $0x0000e0baac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 4*rdi + 224]
-	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
-	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
-	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
-	LONG $0x4c7ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm1
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_901
-	JMP  LBB0_1514
-
-LBB0_902:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1521
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_904:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_904
-	JMP  LBB0_1522
-
-LBB0_905:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1529
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_907:
-	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x217de2c4; WORD $0x3a44; BYTE $0x20 // vpmovsxbd    ymm0, qword [rdx + rdi + 32]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovsxbd    ymm1, qword [rdx + rdi + 40]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x30 // vpmovsxbd    ymm2, qword [rdx + rdi + 48]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovsxbd    ymm3, qword [rdx + rdi + 56]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_907
-	JMP  LBB0_1530
-
-LBB0_908:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1537
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_910:
-	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-	LONG $0x317de2c4; WORD $0x3a44; BYTE $0x20 // vpmovzxbd    ymm0, qword [rdx + rdi + 32]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovzxbd    ymm1, qword [rdx + rdi + 40]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x30 // vpmovzxbd    ymm2, qword [rdx + rdi + 48]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovzxbd    ymm3, qword [rdx + rdi + 56]
-	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_910
-	JMP  LBB0_1538
-
-LBB0_911:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1545
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_913:
-	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
-	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
-	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
-	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
-	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
-	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
-	LONG $0x40c78348                     // add    rdi, 64
-	LONG $0x02c08348                     // add    rax, 2
-	JNE  LBB0_913
-	JMP  LBB0_1546
-
-LBB0_793:
-	LONG $0xfce28349             // and    r10, -4
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x4510fbc5; BYTE $0x00 // vmovsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_794:
-	LONG $0x4c10fbc5; WORD $0x08c2 // vmovsd    xmm1, qword [rdx + 8*rax + 8]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xda   // vcvttsd2si    rbx, xmm2
-	LONG $0x1410fbc5; BYTE $0xc2   // vmovsd    xmm2, qword [rdx + 8*rax]
-	WORD $0x314c; BYTE $0xdb       // xor    rbx, r11
-	LONG $0x2cfbe1c4; BYTE $0xf1   // vcvttsd2si    rsi, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xf3430f48               // cmovae    rsi, rbx
-	LONG $0xc85cebc5               // vsubsd    xmm1, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xd9   // vcvttsd2si    rbx, xmm1
-	WORD $0x314c; BYTE $0xdb       // xor    rbx, r11
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xce   // vmovq    xmm1, rsi
-	LONG $0xfb430f48               // cmovae    rdi, rbx
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0x5c10fbc5; WORD $0x18c2 // vmovsd    xmm3, qword [rdx + 8*rax + 24]
-	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x5410fbc5; WORD $0x10c2 // vmovsd    xmm2, qword [rdx + 8*rax + 16]
-	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
-	LONG $0x547ffac5; WORD $0x10c1 // vmovdqu    oword [rcx + 8*rax + 16], xmm2
-	LONG $0x0c7ffac5; BYTE $0xc1   // vmovdqu    oword [rcx + 8*rax], xmm1
-	LONG $0x4c10fbc5; WORD $0x28c2 // vmovsd    xmm1, qword [rdx + 8*rax + 40]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
-	LONG $0x5410fbc5; WORD $0x20c2 // vmovsd    xmm2, qword [rdx + 8*rax + 32]
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xf9   // vcvttsd2si    rdi, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0xc85cebc5               // vsubsd    xmm1, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf1   // vcvttsd2si    rsi, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xda   // vcvttsd2si    rbx, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0x5c10fbc5; WORD $0x38c2 // vmovsd    xmm3, qword [rdx + 8*rax + 56]
-	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x5410fbc5; WORD $0x30c2 // vmovsd    xmm2, qword [rdx + 8*rax + 48]
-	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
-	LONG $0x547ffac5; WORD $0x30c1 // vmovdqu    oword [rcx + 8*rax + 48], xmm2
-	LONG $0x4c7ffac5; WORD $0x20c1 // vmovdqu    oword [rcx + 8*rax + 32], xmm1
-	LONG $0x4c10fbc5; WORD $0x48c2 // vmovsd    xmm1, qword [rdx + 8*rax + 72]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
-	LONG $0x5410fbc5; WORD $0x40c2 // vmovsd    xmm2, qword [rdx + 8*rax + 64]
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xf9   // vcvttsd2si    rdi, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0xc85cebc5               // vsubsd    xmm1, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf1   // vcvttsd2si    rsi, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xda   // vcvttsd2si    rbx, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0x5c10fbc5; WORD $0x58c2 // vmovsd    xmm3, qword [rdx + 8*rax + 88]
-	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x5410fbc5; WORD $0x50c2 // vmovsd    xmm2, qword [rdx + 8*rax + 80]
-	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
-	LONG $0x547ffac5; WORD $0x50c1 // vmovdqu    oword [rcx + 8*rax + 80], xmm2
-	LONG $0x4c7ffac5; WORD $0x40c1 // vmovdqu    oword [rcx + 8*rax + 64], xmm1
-	LONG $0x4c10fbc5; WORD $0x68c2 // vmovsd    xmm1, qword [rdx + 8*rax + 104]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xf9   // vcvttsd2si    rdi, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x4c10fbc5; WORD $0x60c2 // vmovsd    xmm1, qword [rdx + 8*rax + 96]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xd9   // vcvttsd2si    rbx, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x5410fbc5; WORD $0x78c2 // vmovsd    xmm2, qword [rdx + 8*rax + 120]
-	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0x5c10fbc5; WORD $0x70c2 // vmovsd    xmm3, qword [rdx + 8*rax + 112]
-	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	LONG $0xd26ce1c5               // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x547ffac5; WORD $0x70c1 // vmovdqu    oword [rcx + 8*rax + 112], xmm2
-	LONG $0x4c7ffac5; WORD $0x60c1 // vmovdqu    oword [rcx + 8*rax + 96], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c28349               // add    r10, 4
-	JNE  LBB0_794
-
-LBB0_795:
-	WORD $0x854d; BYTE $0xc0     // test    r8, r8
-	JE   LBB0_798
-	LONG $0x03e0c148             // shl    rax, 3
-	WORD $0xf749; BYTE $0xd8     // neg    r8
-	LONG $0x4510fbc5; BYTE $0x00 // vmovsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_797:
-	LONG $0x4c10fbc5; WORD $0x0802 // vmovsd    xmm1, qword [rdx + rax + 8]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xf9   // vcvttsd2si    rdi, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x0c10fbc5; BYTE $0x02   // vmovsd    xmm1, qword [rdx + rax]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xd9   // vcvttsd2si    rbx, xmm1
-	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x5410fbc5; WORD $0x1802 // vmovsd    xmm2, qword [rdx + rax + 24]
-	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
-	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0x5c10fbc5; WORD $0x1002 // vmovsd    xmm3, qword [rdx + rax + 16]
-	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
-	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	LONG $0xd26ce1c5               // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x547ffac5; WORD $0x1001 // vmovdqu    oword [rcx + rax + 16], xmm2
-	LONG $0x0c7ffac5; BYTE $0x01   // vmovdqu    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_797
-
-LBB0_798:
-	WORD $0x394d; BYTE $0xce // cmp    r14, r9
-	JE   LBB0_1553
-
-LBB0_799:
-	LONG $0x4510fbc5; BYTE $0x00 // vmovsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_800:
-	LONG $0x107ba1c4; WORD $0xf20c // vmovsd    xmm1, qword [rdx + 8*r14]
-	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
-	LONG $0x2cfbe1c4; BYTE $0xc2   // vcvttsd2si    rax, xmm2
-	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
-	LONG $0x2cfbe1c4; BYTE $0xf1   // vcvttsd2si    rsi, xmm1
-	LONG $0xc12ef9c5               // vucomisd    xmm0, xmm1
-	LONG $0xf0460f48               // cmovbe    rsi, rax
-	LONG $0xf134894a               // mov    qword [rcx + 8*r14], rsi
-	LONG $0x01c68349               // add    r14, 1
-	WORD $0x394d; BYTE $0xf1       // cmp    r9, r14
-	JNE  LBB0_800
-	JMP  LBB0_1553
-
-LBB0_810:
-	LONG $0xfce28349                       // and    r10, -4
-	WORD $0xf749; BYTE $0xda               // neg    r10
-	WORD $0xc031                           // xor    eax, eax
-	LONG $0x4510fac5; BYTE $0x28           // vmovss    xmm0, dword 40[rbp] /* [rip + .LCPI0_1] */
-	QUAD $0x000000000000bb49; WORD $0x8000 // mov    r11, -9223372036854775808
-
-LBB0_811:
-	LONG $0x4c10fac5; WORD $0x0482 // vmovss    xmm1, dword [rdx + 4*rax + 4]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
-	LONG $0x1410fac5; BYTE $0x82   // vmovss    xmm2, dword [rdx + 4*rax]
-	WORD $0x314c; BYTE $0xdf       // xor    rdi, r11
-	LONG $0x2cfae1c4; BYTE $0xd9   // vcvttss2si    rbx, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xdf430f48               // cmovae    rbx, rdi
-	LONG $0xc85ceac5               // vsubss    xmm1, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
-	WORD $0x314c; BYTE $0xdf       // xor    rdi, r11
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcb   // vmovq    xmm1, rbx
-	LONG $0xf7430f48               // cmovae    rsi, rdi
-	LONG $0x6ef9e1c4; BYTE $0xd6   // vmovq    xmm2, rsi
-	LONG $0x5c10fac5; WORD $0x0c82 // vmovss    xmm3, dword [rdx + 4*rax + 12]
-	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
-	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x5410fac5; WORD $0x0882 // vmovss    xmm2, dword [rdx + 4*rax + 8]
-	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
-	LONG $0x547ffac5; WORD $0x10c1 // vmovdqu    oword [rcx + 8*rax + 16], xmm2
-	LONG $0x0c7ffac5; BYTE $0xc1   // vmovdqu    oword [rcx + 8*rax], xmm1
-	LONG $0x4c10fac5; WORD $0x1482 // vmovss    xmm1, dword [rdx + 4*rax + 20]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	LONG $0x5410fac5; WORD $0x1082 // vmovss    xmm2, dword [rdx + 4*rax + 16]
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0xc85ceac5               // vsubss    xmm1, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf1   // vcvttss2si    rsi, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xda   // vcvttss2si    rbx, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0x5c10fac5; WORD $0x1c82 // vmovss    xmm3, dword [rdx + 4*rax + 28]
-	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
-	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x5410fac5; WORD $0x1882 // vmovss    xmm2, dword [rdx + 4*rax + 24]
-	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
-	LONG $0x547ffac5; WORD $0x30c1 // vmovdqu    oword [rcx + 8*rax + 48], xmm2
-	LONG $0x4c7ffac5; WORD $0x20c1 // vmovdqu    oword [rcx + 8*rax + 32], xmm1
-	LONG $0x4c10fac5; WORD $0x2482 // vmovss    xmm1, dword [rdx + 4*rax + 36]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	LONG $0x5410fac5; WORD $0x2082 // vmovss    xmm2, dword [rdx + 4*rax + 32]
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0xc85ceac5               // vsubss    xmm1, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf1   // vcvttss2si    rsi, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xda   // vcvttss2si    rbx, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0x5c10fac5; WORD $0x2c82 // vmovss    xmm3, dword [rdx + 4*rax + 44]
-	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
-	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x5410fac5; WORD $0x2882 // vmovss    xmm2, dword [rdx + 4*rax + 40]
-	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
-	LONG $0x547ffac5; WORD $0x50c1 // vmovdqu    oword [rcx + 8*rax + 80], xmm2
-	LONG $0x4c7ffac5; WORD $0x40c1 // vmovdqu    oword [rcx + 8*rax + 64], xmm1
-	LONG $0x4c10fac5; WORD $0x3482 // vmovss    xmm1, dword [rdx + 4*rax + 52]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x4c10fac5; WORD $0x3082 // vmovss    xmm1, dword [rdx + 4*rax + 48]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xd9   // vcvttss2si    rbx, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
-	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x5410fac5; WORD $0x3c82 // vmovss    xmm2, dword [rdx + 4*rax + 60]
-	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0x5c10fac5; WORD $0x3882 // vmovss    xmm3, dword [rdx + 4*rax + 56]
-	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
-	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
-	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
-	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	LONG $0xd26ce1c5               // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x547ffac5; WORD $0x70c1 // vmovdqu    oword [rcx + 8*rax + 112], xmm2
-	LONG $0x4c7ffac5; WORD $0x60c1 // vmovdqu    oword [rcx + 8*rax + 96], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c28349               // add    r10, 4
-	JNE  LBB0_811
-
-LBB0_812:
-	WORD $0x854d; BYTE $0xc0               // test    r8, r8
-	JE   LBB0_815
-	LONG $0x02e0c148                       // shl    rax, 2
-	WORD $0xf749; BYTE $0xd8               // neg    r8
-	LONG $0x4510fac5; BYTE $0x28           // vmovss    xmm0, dword 40[rbp] /* [rip + .LCPI0_1] */
-	QUAD $0x000000000000ba49; WORD $0x8000 // mov    r10, -9223372036854775808
-
-LBB0_814:
-	LONG $0x4c10fac5; WORD $0x0402 // vmovss    xmm1, dword [rdx + rax + 4]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2cfae1c4; BYTE $0xd9   // vcvttss2si    rbx, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xde430f48               // cmovae    rbx, rsi
-	LONG $0x0c10fac5; BYTE $0x02   // vmovss    xmm1, dword [rdx + rax]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
-	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xcb   // vmovq    xmm1, rbx
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x5410fac5; WORD $0x0c02 // vmovss    xmm2, dword [rdx + rax + 12]
-	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
-	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
-	LONG $0x5c10fac5; WORD $0x0802 // vmovss    xmm3, dword [rdx + rax + 8]
-	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
-	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
-	LONG $0xfe430f48               // cmovae    rdi, rsi
-	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
-	LONG $0xd26ce1c5               // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x547ffac5; WORD $0x1041 // vmovdqu    oword [rcx + 2*rax + 16], xmm2
-	LONG $0x0c7ffac5; BYTE $0x41   // vmovdqu    oword [rcx + 2*rax], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_814
-
-LBB0_815:
-	WORD $0x394d; BYTE $0xce // cmp    r14, r9
-	JE   LBB0_1553
-
-LBB0_816:
-	LONG $0x4510fac5; BYTE $0x28           // vmovss    xmm0, dword 40[rbp] /* [rip + .LCPI0_1] */
-	QUAD $0x000000000000b848; WORD $0x8000 // mov    rax, -9223372036854775808
-
-LBB0_817:
-	LONG $0x107aa1c4; WORD $0xb20c // vmovss    xmm1, dword [rdx + 4*r14]
-	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
-	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
-	WORD $0x3148; BYTE $0xc6       // xor    rsi, rax
-	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
-	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
-	LONG $0xfe460f48               // cmovbe    rdi, rsi
-	LONG $0xf13c894a               // mov    qword [rcx + 8*r14], rdi
-	LONG $0x01c68349               // add    r14, 1
-	WORD $0x394d; BYTE $0xf1       // cmp    r9, r14
-	JNE  LBB0_817
-	JMP  LBB0_1553
-
-LBB0_850:
-	LONG $0xfce28349               // and    r10, -4
-	WORD $0xf749; BYTE $0xda       // neg    r10
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x597de2c4; WORD $0x2045 // vpbroadcastq    ymm0, qword 32[rbp] /* [rip + .LCPI0_10] */
-
-LBB0_851:
-	LONG $0x0c6ffec5; BYTE $0xc2   // vmovdqu    ymm1, yword [rdx + 8*rax]
-	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
-	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
-	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
-	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
-	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xe7   // vcvtsi2ss    xmm4, xmm5, rdi
-	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2169e3c4; WORD $0x20cc // vinsertps    xmm1, xmm2, xmm4, 32
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x2171e3c4; WORD $0x30ca // vinsertps    xmm1, xmm1, xmm2, 48
-	LONG $0x146ffac5; BYTE $0xc2   // vmovdqu    xmm2, oword [rdx + 8*rax]
-	LONG $0x546be9c5; WORD $0x10c2 // vpackssdw    xmm2, xmm2, oword [rdx + 8*rax + 16]
-	LONG $0xd958f0c5               // vaddps    xmm3, xmm1, xmm1
-	LONG $0x4a71e3c4; WORD $0x20cb // vblendvps    xmm1, xmm1, xmm3, xmm2
-	LONG $0x0c11f8c5; BYTE $0x81   // vmovups    oword [rcx + 4*rax], xmm1
-	LONG $0x4c6ffec5; WORD $0x20c2 // vmovdqu    ymm1, yword [rdx + 8*rax + 32]
-	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
-	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
-	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
-	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
-	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xe7   // vcvtsi2ss    xmm4, xmm5, rdi
-	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2169e3c4; WORD $0x20cc // vinsertps    xmm1, xmm2, xmm4, 32
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x2171e3c4; WORD $0x30ca // vinsertps    xmm1, xmm1, xmm2, 48
-	LONG $0x546ffac5; WORD $0x20c2 // vmovdqu    xmm2, oword [rdx + 8*rax + 32]
-	LONG $0x546be9c5; WORD $0x30c2 // vpackssdw    xmm2, xmm2, oword [rdx + 8*rax + 48]
-	LONG $0xd958f0c5               // vaddps    xmm3, xmm1, xmm1
-	LONG $0x4a71e3c4; WORD $0x20cb // vblendvps    xmm1, xmm1, xmm3, xmm2
-	LONG $0x4c11f8c5; WORD $0x1081 // vmovups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x4c6ffec5; WORD $0x40c2 // vmovdqu    ymm1, yword [rdx + 8*rax + 64]
-	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
-	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
-	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
-	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
-	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xe7   // vcvtsi2ss    xmm4, xmm5, rdi
-	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2169e3c4; WORD $0x20cc // vinsertps    xmm1, xmm2, xmm4, 32
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x2171e3c4; WORD $0x30ca // vinsertps    xmm1, xmm1, xmm2, 48
-	LONG $0x546ffac5; WORD $0x40c2 // vmovdqu    xmm2, oword [rdx + 8*rax + 64]
-	LONG $0x546be9c5; WORD $0x50c2 // vpackssdw    xmm2, xmm2, oword [rdx + 8*rax + 80]
-	LONG $0xd958f0c5               // vaddps    xmm3, xmm1, xmm1
-	LONG $0x4a71e3c4; WORD $0x20cb // vblendvps    xmm1, xmm1, xmm3, xmm2
-	LONG $0x4c11f8c5; WORD $0x2081 // vmovups    oword [rcx + 4*rax + 32], xmm1
-	LONG $0x4c6ffec5; WORD $0x60c2 // vmovdqu    ymm1, yword [rdx + 8*rax + 96]
-	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
-	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
-	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
-	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
-	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
-	LONG $0x16f9c3c4; WORD $0x01cb // vpextrq    r11, xmm1, 1
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xcf   // vcvtsi2ss    xmm1, xmm5, rdi
-	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
-	LONG $0x2ad2c1c4; BYTE $0xdb   // vcvtsi2ss    xmm3, xmm5, r11
-	LONG $0x2169e3c4; WORD $0x20c9 // vinsertps    xmm1, xmm2, xmm1, 32
-	LONG $0x2171e3c4; WORD $0x30cb // vinsertps    xmm1, xmm1, xmm3, 48
-	LONG $0xd158f0c5               // vaddps    xmm2, xmm1, xmm1
-	LONG $0x5c6ffac5; WORD $0x60c2 // vmovdqu    xmm3, oword [rdx + 8*rax + 96]
-	LONG $0x5c6be1c5; WORD $0x70c2 // vpackssdw    xmm3, xmm3, oword [rdx + 8*rax + 112]
-	LONG $0x4a71e3c4; WORD $0x30ca // vblendvps    xmm1, xmm1, xmm2, xmm3
-	LONG $0x4c11f8c5; WORD $0x3081 // vmovups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c28349               // add    r10, 4
-	JNE  LBB0_851
-
-LBB0_852:
-	WORD $0x854d; BYTE $0xc0       // test    r8, r8
-	JE   LBB0_855
-	LONG $0x02e0c148               // shl    rax, 2
-	WORD $0xf749; BYTE $0xd8       // neg    r8
-	LONG $0x597de2c4; WORD $0x2045 // vpbroadcastq    ymm0, qword 32[rbp] /* [rip + .LCPI0_10] */
-
-LBB0_854:
-	LONG $0x0c6ffec5; BYTE $0x42   // vmovdqu    ymm1, yword [rdx + 2*rax]
-	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
-	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
-	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
-	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
-	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
-	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
-	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
-	LONG $0x16f9c3c4; WORD $0x01ca // vpextrq    r10, xmm1, 1
-	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
-	LONG $0x2ad2e1c4; BYTE $0xcf   // vcvtsi2ss    xmm1, xmm5, rdi
-	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
-	LONG $0x2ad2c1c4; BYTE $0xda   // vcvtsi2ss    xmm3, xmm5, r10
-	LONG $0x2169e3c4; WORD $0x20c9 // vinsertps    xmm1, xmm2, xmm1, 32
-	LONG $0x2171e3c4; WORD $0x30cb // vinsertps    xmm1, xmm1, xmm3, 48
-	LONG $0xd158f0c5               // vaddps    xmm2, xmm1, xmm1
-	LONG $0x1c6ffac5; BYTE $0x42   // vmovdqu    xmm3, oword [rdx + 2*rax]
-	LONG $0x5c6be1c5; WORD $0x1042 // vpackssdw    xmm3, xmm3, oword [rdx + 2*rax + 16]
-	LONG $0x4a71e3c4; WORD $0x30ca // vblendvps    xmm1, xmm1, xmm2, xmm3
-	LONG $0x0c11f8c5; BYTE $0x01   // vmovups    oword [rcx + rax], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_854
-
-LBB0_855:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JNE  LBB0_858
-	JMP  LBB0_1553
-
-LBB0_856:
-	LONG $0x2ad2e1c4; BYTE $0xc0 // vcvtsi2ss    xmm0, xmm5, rax
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JE   LBB0_1553
-
-LBB0_858:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JNS  LBB0_856
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xd148; BYTE $0xef     // shr    rdi, 1
-	WORD $0xe083; BYTE $0x01     // and    eax, 1
-	WORD $0x0948; BYTE $0xf8     // or    rax, rdi
-	LONG $0x2ad2e1c4; BYTE $0xc0 // vcvtsi2ss    xmm0, xmm5, rax
-	LONG $0xc058fac5             // vaddss    xmm0, xmm0, xmm0
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_858
-	JMP  LBB0_1553
-
-LBB0_914:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_915:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_917
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_917:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_918:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_918
-	JMP  LBB0_1553
-
-LBB0_919:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_920:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_922
-	LONG $0x046ffec5; BYTE $0xfa   // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0xe457d9c5               // vxorpd    xmm4, xmm4, xmm4
-	LONG $0x027de3c4; WORD $0xaaec // vpblendd    ymm5, ymm0, ymm4, 170
-	LONG $0x597de2c4; WORD $0x0875 // vpbroadcastq    ymm6, qword 8[rbp] /* [rip + .LCPI0_5] */
-	LONG $0xeeebd5c5               // vpor    ymm5, ymm5, ymm6
-	LONG $0xd073fdc5; BYTE $0x20   // vpsrlq    ymm0, ymm0, 32
-	LONG $0x597de2c4; WORD $0x107d // vpbroadcastq    ymm7, qword 16[rbp] /* [rip + .LCPI0_6] */
-	LONG $0xc7ebfdc5               // vpor    ymm0, ymm0, ymm7
-	LONG $0x197d62c4; WORD $0x1845 // vbroadcastsd    ymm8, qword 24[rbp] /* [rip + .LCPI0_7] */
-	LONG $0x5c7dc1c4; BYTE $0xc0   // vsubpd    ymm0, ymm0, ymm8
-	LONG $0xc058d5c5               // vaddpd    ymm0, ymm5, ymm0
-	LONG $0x0275e3c4; WORD $0xaaec // vpblendd    ymm5, ymm1, ymm4, 170
-	LONG $0xeeebd5c5               // vpor    ymm5, ymm5, ymm6
-	LONG $0xd173f5c5; BYTE $0x20   // vpsrlq    ymm1, ymm1, 32
-	LONG $0xcfebf5c5               // vpor    ymm1, ymm1, ymm7
-	LONG $0x5c75c1c4; BYTE $0xc8   // vsubpd    ymm1, ymm1, ymm8
-	LONG $0xc958d5c5               // vaddpd    ymm1, ymm5, ymm1
-	LONG $0x026de3c4; WORD $0xaaec // vpblendd    ymm5, ymm2, ymm4, 170
-	LONG $0xeeebd5c5               // vpor    ymm5, ymm5, ymm6
-	LONG $0xd273edc5; BYTE $0x20   // vpsrlq    ymm2, ymm2, 32
-	LONG $0xd7ebedc5               // vpor    ymm2, ymm2, ymm7
-	LONG $0x5c6dc1c4; BYTE $0xd0   // vsubpd    ymm2, ymm2, ymm8
-	LONG $0xd258d5c5               // vaddpd    ymm2, ymm5, ymm2
-	LONG $0x0265e3c4; WORD $0xaae4 // vpblendd    ymm4, ymm3, ymm4, 170
-	LONG $0xe6ebddc5               // vpor    ymm4, ymm4, ymm6
-	LONG $0xd373e5c5; BYTE $0x20   // vpsrlq    ymm3, ymm3, 32
-	LONG $0xdfebe5c5               // vpor    ymm3, ymm3, ymm7
-	LONG $0x5c65c1c4; BYTE $0xd8   // vsubpd    ymm3, ymm3, ymm8
-	LONG $0xdb58ddc5               // vaddpd    ymm3, ymm4, ymm3
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_922:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_923:
-	LONG $0x4528f9c5; BYTE $0x50 // vmovapd    xmm0, oword 80[rbp] /* [rip + .LCPI0_8] */
-	LONG $0x4d28f9c5; BYTE $0x60 // vmovapd    xmm1, oword 96[rbp] /* [rip + .LCPI0_9] */
-
-LBB0_924:
-	LONG $0x1410fbc5; BYTE $0xf2   // vmovsd    xmm2, qword [rdx + 8*rsi]
-	LONG $0xd014e8c5               // vunpcklps    xmm2, xmm2, xmm0
-	LONG $0xd15ce9c5               // vsubpd    xmm2, xmm2, xmm1
-	LONG $0x0579e3c4; WORD $0x01da // vpermilpd    xmm3, xmm2, 1
-	LONG $0xd258e3c5               // vaddsd    xmm2, xmm3, xmm2
-	LONG $0x1411fbc5; BYTE $0xf1   // vmovsd    qword [rcx + 8*rsi], xmm2
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_924
-	JMP  LBB0_1553
-
-LBB0_925:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_926:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_928
-	LONG $0x04e6fec5; BYTE $0xba   // vcvtdq2pd    ymm0, oword [rdx + 4*rdi]
-	LONG $0x4ce6fec5; WORD $0x10ba // vcvtdq2pd    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x54e6fec5; WORD $0x20ba // vcvtdq2pd    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x5ce6fec5; WORD $0x30ba // vcvtdq2pd    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_928:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_929:
-	LONG $0x042adbc5; BYTE $0xb2 // vcvtsi2sd    xmm0, xmm4, dword [rdx + 4*rsi]
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_929
-	JMP  LBB0_1553
-
-LBB0_930:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_931:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_933
-	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_933:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_934:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_934
-	JMP  LBB0_1553
-
-LBB0_935:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_936:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_938
-	LONG $0x347de2c4; WORD $0x7a04             // vpmovzxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_938:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_939:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_939
-	JMP  LBB0_1553
-
-LBB0_940:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_941:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_943
-	LONG $0x247de2c4; WORD $0x7a04             // vpmovsxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_943:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_944:
-	LONG $0x04bf0f48; BYTE $0x72 // movsx    rax, word [rdx + 2*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_944
-	JMP  LBB0_1553
-
-LBB0_945:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_946:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_948
-	LONG $0x257de2c4; WORD $0xba04             // vpmovsxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x10 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x257de2c4; WORD $0xba54; BYTE $0x20 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x30 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_948:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_949:
-	LONG $0xb2046348         // movsxd    rax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_949
-	JMP  LBB0_1553
-
-LBB0_950:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_951:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_953
-	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0e79e3c4; WORD $0xfa0c; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                   // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                   // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                   // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                   // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                   // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                   // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa440e79e3c4                   // vpblendw    xmm0, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm6, xmm0, 1
-	LONG $0x3855e3c4; WORD $0x01ef             // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm5, ymm0
-	LONG $0x2b7de2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x2b75e2c4; BYTE $0xca               // vpackusdw    ymm1, ymm1, ymm2
-	LONG $0x2b75e2c4; BYTE $0xc8               // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0xc06cf5c5                           // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0             // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-
-LBB0_953:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_954:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_954
-	JMP  LBB0_1553
-
-LBB0_955:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_956:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_958
-	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0e79e3c4; WORD $0xfa0c; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                   // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                   // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                   // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                   // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                   // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                   // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa440e79e3c4                   // vpblendw    xmm0, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm6, xmm0, 1
-	LONG $0x3855e3c4; WORD $0x01ef             // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm5, ymm0
-	LONG $0x2b7de2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x2b75e2c4; BYTE $0xca               // vpackusdw    ymm1, ymm1, ymm2
-	LONG $0x2b75e2c4; BYTE $0xc8               // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0xc06cf5c5                           // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0             // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-
-LBB0_958:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_959:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_959
-	JMP  LBB0_1553
-
-LBB0_960:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_961:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_963
-	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0e79e3c4; WORD $0xfa0c; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                   // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                   // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                   // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                   // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                   // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                   // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa440e79e3c4                   // vpblendw    xmm0, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm6, xmm0, 1
-	LONG $0x3855e3c4; WORD $0x01ef             // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm5, ymm0
-	LONG $0x2b7de2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x2b75e2c4; BYTE $0xca               // vpackusdw    ymm1, ymm1, ymm2
-	LONG $0x2b75e2c4; BYTE $0xc8               // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0xc06cf5c5                           // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0             // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-
-LBB0_963:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_964:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_964
-	JMP  LBB0_1553
-
-LBB0_965:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_966:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_968
-	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	QUAD $0x00000080a56ffdc5       // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI0_11] */
-	LONG $0x007de2c4; BYTE $0xc4   // vpshufb    ymm0, ymm0, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c0 // vpermq    ymm0, ymm0, 232
-	LONG $0x0075e2c4; BYTE $0xcc   // vpshufb    ymm1, ymm1, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c9 // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd4   // vpshufb    ymm2, ymm2, ymm4
-	LONG $0x00fde3c4; WORD $0xe8d2 // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xdc   // vpshufb    ymm3, ymm3, ymm4
-	LONG $0x00fde3c4; WORD $0xe8db // vpermq    ymm3, ymm3, 232
-	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-
-LBB0_968:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_969:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_969
-	JMP  LBB0_1553
-
-LBB0_970:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_971:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_973
-	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	QUAD $0x00000080a56ffdc5       // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI0_11] */
-	LONG $0x007de2c4; BYTE $0xc4   // vpshufb    ymm0, ymm0, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c0 // vpermq    ymm0, ymm0, 232
-	LONG $0x0075e2c4; BYTE $0xcc   // vpshufb    ymm1, ymm1, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c9 // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd4   // vpshufb    ymm2, ymm2, ymm4
-	LONG $0x00fde3c4; WORD $0xe8d2 // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xdc   // vpshufb    ymm3, ymm3, ymm4
-	LONG $0x00fde3c4; WORD $0xe8db // vpermq    ymm3, ymm3, 232
-	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-
-LBB0_973:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_974:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_974
-	JMP  LBB0_1553
-
-LBB0_975:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_976:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_978
-	LONG $0x347de2c4; WORD $0x7a04             // vpmovzxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_978:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_979:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_979
-	JMP  LBB0_1553
-
-LBB0_980:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_981:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_983
-	LONG $0x257de2c4; WORD $0xba04             // vpmovsxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x10 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x257de2c4; WORD $0xba54; BYTE $0x20 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x30 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_983:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_984:
-	LONG $0xb2046348         // movsxd    rax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_984
-	JMP  LBB0_1553
-
-LBB0_985:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_986:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_988
-	LONG $0x045bfcc5; BYTE $0xba   // vcvtdq2ps    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c5bfcc5; WORD $0x20ba // vcvtdq2ps    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x545bfcc5; WORD $0x40ba // vcvtdq2ps    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c5bfcc5; WORD $0x60ba // vcvtdq2ps    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fcc5; BYTE $0xb9   // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9 // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9 // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9 // vmovups    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_988:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_989:
-	LONG $0x042adac5; BYTE $0xb2 // vcvtsi2ss    xmm0, xmm4, dword [rdx + 4*rsi]
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_989
-	JMP  LBB0_1553
-
-LBB0_990:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_991:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_993
-	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5ce6fdc5; WORD $0x60fa // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411f9c5; BYTE $0xb9   // vmovupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f9c5; WORD $0x10b9 // vmovupd    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f9c5; WORD $0x20b9 // vmovupd    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f9c5; WORD $0x30b9 // vmovupd    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_993:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_994:
-	LONG $0x042cfbc5; BYTE $0xf2 // vcvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_994
-	JMP  LBB0_1553
-
-LBB0_995:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_996:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_998
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_998:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_999:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_999
-	JMP  LBB0_1553
-
-LBB0_1000:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1001:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1003
-	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1003:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1004:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1004
-	JMP  LBB0_1553
-
-LBB0_1005:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1006:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1008
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1008:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1009:
-	LONG $0x7204bf0f         // movsx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1009
-	JMP  LBB0_1553
-
-LBB0_1010:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1011:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1013
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_1013:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1014:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1014
-	JMP  LBB0_1553
-
-LBB0_1015:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1016:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1018
-	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1018:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1019:
-	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1019
-	JMP  LBB0_1553
-
-LBB0_1020:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1021:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1023
-	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1023:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1024:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1024
-	JMP  LBB0_1553
-
-LBB0_1025:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1026:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1028
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1028:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1029:
-	LONG $0x7204bf0f         // movsx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1029
-	JMP  LBB0_1553
-
-LBB0_1030:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1031:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1033
-	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
-	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
-	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
-	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
-	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
-	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_1033:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1034:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1034
-	JMP  LBB0_1553
-
-LBB0_1035:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1036:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1038
-	LONG $0x0410f8c5; BYTE $0xba   // vmovups    xmm0, oword [rdx + 4*rdi]
-	LONG $0x1879e2c4; WORD $0x2c4d // vbroadcastss    xmm1, dword 44[rbp] /* [rip + .LCPI0_2] */
-	LONG $0xd1c2f8c5; BYTE $0x01   // vcmpltps    xmm2, xmm0, xmm1
-	LONG $0xd95cf8c5               // vsubps    xmm3, xmm0, xmm1
-	LONG $0xdb5bfac5               // vcvttps2dq    xmm3, xmm3
-	LONG $0x1879e2c4; WORD $0x3065 // vbroadcastss    xmm4, dword 48[rbp] /* [rip + .LCPI0_3] */
-	LONG $0xdc57e0c5               // vxorps    xmm3, xmm3, xmm4
-	LONG $0xc05bfac5               // vcvttps2dq    xmm0, xmm0
-	LONG $0x4a61e3c4; WORD $0x20c0 // vblendvps    xmm0, xmm3, xmm0, xmm2
-	LONG $0x5410f8c5; WORD $0x10ba // vmovups    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xd9c2e8c5; BYTE $0x01   // vcmpltps    xmm3, xmm2, xmm1
-	LONG $0xe95ce8c5               // vsubps    xmm5, xmm2, xmm1
-	LONG $0xed5bfac5               // vcvttps2dq    xmm5, xmm5
-	LONG $0xec57d0c5               // vxorps    xmm5, xmm5, xmm4
-	LONG $0xd25bfac5               // vcvttps2dq    xmm2, xmm2
-	LONG $0x4a51e3c4; WORD $0x30d2 // vblendvps    xmm2, xmm5, xmm2, xmm3
-	LONG $0x5c10f8c5; WORD $0x20ba // vmovups    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0xe9c2e0c5; BYTE $0x01   // vcmpltps    xmm5, xmm3, xmm1
-	LONG $0xf15ce0c5               // vsubps    xmm6, xmm3, xmm1
-	LONG $0xf65bfac5               // vcvttps2dq    xmm6, xmm6
-	LONG $0xf457c8c5               // vxorps    xmm6, xmm6, xmm4
-	LONG $0xdb5bfac5               // vcvttps2dq    xmm3, xmm3
-	LONG $0x4a49e3c4; WORD $0x50db // vblendvps    xmm3, xmm6, xmm3, xmm5
-	LONG $0x6c10f8c5; WORD $0x30ba // vmovups    xmm5, oword [rdx + 4*rdi + 48]
-	LONG $0xf1c2d0c5; BYTE $0x01   // vcmpltps    xmm6, xmm5, xmm1
-	LONG $0xc95cd0c5               // vsubps    xmm1, xmm5, xmm1
-	LONG $0xc95bfac5               // vcvttps2dq    xmm1, xmm1
-	LONG $0xcc57f0c5               // vxorps    xmm1, xmm1, xmm4
-	LONG $0xe55bfac5               // vcvttps2dq    xmm4, xmm5
-	LONG $0x4a71e3c4; WORD $0x60cc // vblendvps    xmm1, xmm1, xmm4, xmm6
-	LONG $0x0411f8c5; BYTE $0xb9   // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x5411f8c5; WORD $0x10b9 // vmovups    oword [rcx + 4*rdi + 16], xmm2
-	LONG $0x5c11f8c5; WORD $0x20b9 // vmovups    oword [rcx + 4*rdi + 32], xmm3
-	LONG $0x4c11f8c5; WORD $0x30b9 // vmovups    oword [rcx + 4*rdi + 48], xmm1
-
-LBB0_1038:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1039:
-	LONG $0x2cfae1c4; WORD $0xb204 // vcvttss2si    rax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1       // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1039
-	JMP  LBB0_1553
-
-LBB0_1040:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1041:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1043
-	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x597de2c4; WORD $0x0865             // vpbroadcastq    ymm4, qword 8[rbp] /* [rip + .LCPI0_5] */
-	LONG $0xc4ebfdc5                           // vpor    ymm0, ymm0, ymm4
-	LONG $0xc45cfdc5                           // vsubpd    ymm0, ymm0, ymm4
-	LONG $0xccebf5c5                           // vpor    ymm1, ymm1, ymm4
-	LONG $0xcc5cf5c5                           // vsubpd    ymm1, ymm1, ymm4
-	LONG $0xd4ebedc5                           // vpor    ymm2, ymm2, ymm4
-	LONG $0xd45cedc5                           // vsubpd    ymm2, ymm2, ymm4
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdc5ce5c5                           // vsubpd    ymm3, ymm3, ymm4
-	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1043:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1044:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	LONG $0x2ad3e1c4; BYTE $0xc0 // vcvtsi2sd    xmm0, xmm5, rax
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1044
-	JMP  LBB0_1553
-
-LBB0_1045:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1046:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1048
-	LONG $0x3379e2c4; WORD $0x7a04             // vpmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x3379e2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x3379e2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwd    xmm2, qword [rdx + 2*rdi + 16]
-	LONG $0x3379e2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwd    xmm3, qword [rdx + 2*rdi + 24]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1048:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1049:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xc02adbc5             // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1049
-	JMP  LBB0_1553
-
-LBB0_1050:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1051:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1053
-	LONG $0x2379e2c4; WORD $0x7a04             // vpmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x2379e2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x2379e2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwd    xmm2, qword [rdx + 2*rdi + 16]
-	LONG $0x2379e2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwd    xmm3, qword [rdx + 2*rdi + 24]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1053:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1054:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	LONG $0xc02adbc5             // vcvtsi2sd    xmm0, xmm4, eax
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1054
-	JMP  LBB0_1553
-
-LBB0_1055:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1056:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1058
-	LONG $0x046ffac5; BYTE $0xfa   // vmovdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6ffac5; WORD $0x10fa // vmovdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x546ffac5; WORD $0x30fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0x16f9e3c4; WORD $0x01c0 // vpextrq    rax, xmm0, 1
-	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	LONG $0x2aa3e1c4; BYTE $0xc0   // vcvtsi2sd    xmm0, xmm11, rax
-	LONG $0xc41479c5               // vunpcklpd    xmm8, xmm0, xmm4
-	LONG $0x16f9e3c4; WORD $0x01c8 // vpextrq    rax, xmm1, 1
-	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xc8   // vmovq    rax, xmm1
-	LONG $0x2aa3e1c4; BYTE $0xc8   // vcvtsi2sd    xmm1, xmm11, rax
-	LONG $0xcc14f1c5               // vunpcklpd    xmm1, xmm1, xmm4
-	LONG $0x16f9e3c4; WORD $0x01d0 // vpextrq    rax, xmm2, 1
-	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xd0   // vmovq    rax, xmm2
-	LONG $0x2aa3e1c4; BYTE $0xd0   // vcvtsi2sd    xmm2, xmm11, rax
-	LONG $0xd414e9c5               // vunpcklpd    xmm2, xmm2, xmm4
-	LONG $0x16f9e3c4; WORD $0x01d8 // vpextrq    rax, xmm3, 1
-	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xd8   // vmovq    rax, xmm3
-	LONG $0x2aa3e1c4; BYTE $0xd8   // vcvtsi2sd    xmm3, xmm11, rax
-	LONG $0x6c6ffac5; WORD $0x50fa // vmovdqu    xmm5, oword [rdx + 8*rdi + 80]
-	LONG $0x16f9e3c4; WORD $0x01e8 // vpextrq    rax, xmm5, 1
-	LONG $0x2aa3e1c4; BYTE $0xf0   // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xe8   // vmovq    rax, xmm5
-	LONG $0x2aa3e1c4; BYTE $0xe8   // vcvtsi2sd    xmm5, xmm11, rax
-	LONG $0x7c6ffac5; WORD $0x40fa // vmovdqu    xmm7, oword [rdx + 8*rdi + 64]
-	LONG $0x16f9e3c4; WORD $0x01f8 // vpextrq    rax, xmm7, 1
-	LONG $0x2aa3e1c4; BYTE $0xc0   // vcvtsi2sd    xmm0, xmm11, rax
-	LONG $0xdc14e1c5               // vunpcklpd    xmm3, xmm3, xmm4
-	LONG $0x7ef9e1c4; BYTE $0xf8   // vmovq    rax, xmm7
-	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0xee14d1c5               // vunpcklpd    xmm5, xmm5, xmm6
-	LONG $0x746ffac5; WORD $0x70fa // vmovdqu    xmm6, oword [rdx + 8*rdi + 112]
-	LONG $0x16f9e3c4; WORD $0x01f0 // vpextrq    rax, xmm6, 1
-	LONG $0xc014d9c5               // vunpcklpd    xmm0, xmm4, xmm0
-	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xf0   // vmovq    rax, xmm6
-	LONG $0x2aa3e1c4; BYTE $0xf0   // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0xe414c9c5               // vunpcklpd    xmm4, xmm6, xmm4
-	LONG $0x746ffac5; WORD $0x60fa // vmovdqu    xmm6, oword [rdx + 8*rdi + 96]
-	LONG $0x16f9e3c4; WORD $0x01f0 // vpextrq    rax, xmm6, 1
-	LONG $0x2aa3e1c4; BYTE $0xf8   // vcvtsi2sd    xmm7, xmm11, rax
-	LONG $0x7ef9e1c4; BYTE $0xf0   // vmovq    rax, xmm6
-	LONG $0x2aa3e1c4; BYTE $0xf0   // vcvtsi2sd    xmm6, xmm11, rax
-	LONG $0xf714c9c5               // vunpcklpd    xmm6, xmm6, xmm7
-	LONG $0x4c11f9c5; WORD $0x10f9 // vmovupd    oword [rcx + 8*rdi + 16], xmm1
-	LONG $0x041179c5; BYTE $0xf9   // vmovupd    oword [rcx + 8*rdi], xmm8
-	LONG $0x5c11f9c5; WORD $0x20f9 // vmovupd    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x5411f9c5; WORD $0x30f9 // vmovupd    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x4411f9c5; WORD $0x40f9 // vmovupd    oword [rcx + 8*rdi + 64], xmm0
-	LONG $0x6c11f9c5; WORD $0x50f9 // vmovupd    oword [rcx + 8*rdi + 80], xmm5
-	LONG $0x7411f9c5; WORD $0x60f9 // vmovupd    oword [rcx + 8*rdi + 96], xmm6
-	LONG $0x6411f9c5; WORD $0x70f9 // vmovupd    oword [rcx + 8*rdi + 112], xmm4
-
-LBB0_1058:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1059:
-	LONG $0x2aa3e1c4; WORD $0xf204 // vcvtsi2sd    xmm0, xmm11, qword [rdx + 8*rsi]
-	LONG $0x0411fbc5; BYTE $0xf1   // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1059
-	JMP  LBB0_1553
-
-LBB0_1060:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1061:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1063
-	LONG $0x045afcc5; BYTE $0xba   // vcvtps2pd    ymm0, oword [rdx + 4*rdi]
-	LONG $0x4c5afcc5; WORD $0x10ba // vcvtps2pd    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x545afcc5; WORD $0x20ba // vcvtps2pd    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x5c5afcc5; WORD $0x30ba // vcvtps2pd    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1063:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1064:
-	LONG $0x0410fac5; BYTE $0xb2 // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0xc05afac5             // vcvtss2sd    xmm0, xmm0, xmm0
-	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1064
-	JMP  LBB0_1553
-
-LBB0_1065:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1066:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1068
-	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	QUAD $0x00000080a56ffdc5       // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI0_11] */
-	LONG $0x007de2c4; BYTE $0xc4   // vpshufb    ymm0, ymm0, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c0 // vpermq    ymm0, ymm0, 232
-	LONG $0x0075e2c4; BYTE $0xcc   // vpshufb    ymm1, ymm1, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c9 // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd4   // vpshufb    ymm2, ymm2, ymm4
-	LONG $0x00fde3c4; WORD $0xe8d2 // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xdc   // vpshufb    ymm3, ymm3, ymm4
-	LONG $0x00fde3c4; WORD $0xe8db // vpermq    ymm3, ymm3, 232
-	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-
-LBB0_1068:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1069:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1069
-	JMP  LBB0_1553
-
-LBB0_1070:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1071:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1073
-	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	QUAD $0x00000080a56ffdc5       // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI0_11] */
-	LONG $0x007de2c4; BYTE $0xc4   // vpshufb    ymm0, ymm0, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c0 // vpermq    ymm0, ymm0, 232
-	LONG $0x0075e2c4; BYTE $0xcc   // vpshufb    ymm1, ymm1, ymm4
-	LONG $0x00fde3c4; WORD $0xe8c9 // vpermq    ymm1, ymm1, 232
-	LONG $0x006de2c4; BYTE $0xd4   // vpshufb    ymm2, ymm2, ymm4
-	LONG $0x00fde3c4; WORD $0xe8d2 // vpermq    ymm2, ymm2, 232
-	LONG $0x0065e2c4; BYTE $0xdc   // vpshufb    ymm3, ymm3, ymm4
-	LONG $0x00fde3c4; WORD $0xe8db // vpermq    ymm3, ymm3, 232
-	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-
-LBB0_1073:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1074:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1074
-	JMP  LBB0_1553
-
-LBB0_1075:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1076:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1078
-	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5ce6fdc5; WORD $0x60fa // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x186de3c4; WORD $0x01d3 // vinsertf128    ymm2, ymm2, xmm3, 1
-	LONG $0x2b6de2c4; BYTE $0xd0   // vpackusdw    ymm2, ymm2, ymm0
-	LONG $0x187de3c4; WORD $0x01c1 // vinsertf128    ymm0, ymm0, xmm1, 1
-	LONG $0x2b7de2c4; BYTE $0xc0   // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5               // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm0
-
-LBB0_1078:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1079:
-	LONG $0x042cfbc5; BYTE $0xf2 // vcvttsd2si    eax, qword [rdx + 8*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1079
-	JMP  LBB0_1553
-
-LBB0_1080:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1081:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1083
-	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5ce6fdc5; WORD $0x60fa // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x186de3c4; WORD $0x01d3 // vinsertf128    ymm2, ymm2, xmm3, 1
-	LONG $0xd06bedc5               // vpackssdw    ymm2, ymm2, ymm0
-	LONG $0x187de3c4; WORD $0x01c1 // vinsertf128    ymm0, ymm0, xmm1, 1
-	LONG $0xc06bfdc5               // vpackssdw    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5               // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm0
-
-LBB0_1083:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1084:
-	LONG $0x042cfbc5; BYTE $0xf2 // vcvttsd2si    eax, qword [rdx + 8*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1084
-	JMP  LBB0_1553
-
-LBB0_1085:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1086:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1088
-	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
-	LONG $0x0e79e3c4; WORD $0xfa0c; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi], 17
-	QUAD $0x1110fa540e79e3c4                   // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
-	QUAD $0x1120fa5c0e79e3c4                   // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
-	QUAD $0x1130fa640e79e3c4                   // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
-	QUAD $0x1140fa6c0e79e3c4                   // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
-	QUAD $0x1150fa740e79e3c4                   // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
-	QUAD $0x1160fa7c0e79e3c4                   // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
-	QUAD $0x1170fa440e79e3c4                   // vpblendw    xmm0, xmm0, oword [rdx + 8*rdi + 112], 17
-	LONG $0x384de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm6, xmm0, 1
-	LONG $0x3855e3c4; WORD $0x01ef             // vinserti128    ymm5, ymm5, xmm7, 1
-	LONG $0x2b55e2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm5, ymm0
-	LONG $0x2b7de2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm0, ymm0
-	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x2b75e2c4; BYTE $0xca               // vpackusdw    ymm1, ymm1, ymm2
-	LONG $0x2b75e2c4; BYTE $0xc8               // vpackusdw    ymm1, ymm1, ymm0
-	LONG $0xc06cf5c5                           // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0             // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-
-LBB0_1088:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1089:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1089
-	JMP  LBB0_1553
-
-LBB0_1090:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1091:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1093
-	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0x2b79e2c4; BYTE $0xc1   // vpackusdw    xmm0, xmm0, xmm1
-	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0x2b71e2c4; BYTE $0xca   // vpackusdw    xmm1, xmm1, xmm2
-	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0x2b69e2c4; BYTE $0xd3   // vpackusdw    xmm2, xmm2, xmm3
-	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0x2b61e2c4; BYTE $0xdc   // vpackusdw    xmm3, xmm3, xmm4
-	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-
-LBB0_1093:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1094:
-	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1094
-	JMP  LBB0_1553
-
-LBB0_1095:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1096:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1098
-	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
-	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
-
-LBB0_1098:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1099:
-	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1099
-	JMP  LBB0_1553
-
-LBB0_1100:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1101:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1103
-	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
-	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
-	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
-	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1103:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1104:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1104
-	JMP  LBB0_1553
-
-LBB0_1105:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1106:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1108
-	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x587de2c4; WORD $0x345d // vpbroadcastd    ymm3, dword 52[rbp] /* [rip + .LCPI0_13] */
-	LONG $0x646ffec5; WORD $0x60ba // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0x0e7de3c4; WORD $0xaaeb // vpblendw    ymm5, ymm0, ymm3, 170
-	LONG $0x587de2c4; WORD $0x3875 // vpbroadcastd    ymm6, dword 56[rbp] /* [rip + .LCPI0_14] */
-	LONG $0xd072fdc5; BYTE $0x10   // vpsrld    ymm0, ymm0, 16
-	LONG $0x0e7de3c4; WORD $0xaac6 // vpblendw    ymm0, ymm0, ymm6, 170
-	LONG $0x187de2c4; WORD $0x3c7d // vbroadcastss    ymm7, dword 60[rbp] /* [rip + .LCPI0_15] */
-	LONG $0xc75cfcc5               // vsubps    ymm0, ymm0, ymm7
-	LONG $0xc058d4c5               // vaddps    ymm0, ymm5, ymm0
-	LONG $0x0e75e3c4; WORD $0xaaeb // vpblendw    ymm5, ymm1, ymm3, 170
-	LONG $0xd172f5c5; BYTE $0x10   // vpsrld    ymm1, ymm1, 16
-	LONG $0x0e75e3c4; WORD $0xaace // vpblendw    ymm1, ymm1, ymm6, 170
-	LONG $0xcf5cf4c5               // vsubps    ymm1, ymm1, ymm7
-	LONG $0xc958d4c5               // vaddps    ymm1, ymm5, ymm1
-	LONG $0x0e6de3c4; WORD $0xaaeb // vpblendw    ymm5, ymm2, ymm3, 170
-	LONG $0xd272edc5; BYTE $0x10   // vpsrld    ymm2, ymm2, 16
-	LONG $0x0e6de3c4; WORD $0xaad6 // vpblendw    ymm2, ymm2, ymm6, 170
-	LONG $0xd75cecc5               // vsubps    ymm2, ymm2, ymm7
-	LONG $0xd258d4c5               // vaddps    ymm2, ymm5, ymm2
-	LONG $0x0e5de3c4; WORD $0xaadb // vpblendw    ymm3, ymm4, ymm3, 170
-	LONG $0xd472ddc5; BYTE $0x10   // vpsrld    ymm4, ymm4, 16
-	LONG $0x0e5de3c4; WORD $0xaae6 // vpblendw    ymm4, ymm4, ymm6, 170
-	LONG $0xe75cdcc5               // vsubps    ymm4, ymm4, ymm7
-	LONG $0xdc58e4c5               // vaddps    ymm3, ymm3, ymm4
-	LONG $0x0411fcc5; BYTE $0xb9   // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9 // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9 // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9 // vmovups    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1108:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1109:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	LONG $0x2abae1c4; BYTE $0xc0 // vcvtsi2ss    xmm0, xmm8, rax
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1109
-	JMP  LBB0_1553
-
-LBB0_1110:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1111:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1113
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x08 // vcvttsd2si    rax, qword [rdx + 8*rdi + 8]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0x2cfbe1c4; WORD $0xfa04             // vcvttsd2si    rax, qword [rdx + 8*rdi]
-	LONG $0x6ef9e1c4; BYTE $0xc8               // vmovq    xmm1, rax
-	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x18 // vcvttsd2si    rax, qword [rdx + 8*rdi + 24]
-	LONG $0x6ef9e1c4; BYTE $0xc8               // vmovq    xmm1, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x10 // vcvttsd2si    rax, qword [rdx + 8*rdi + 16]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x38 // vcvttsd2si    rax, qword [rdx + 8*rdi + 56]
-	LONG $0xc96ce9c5                           // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x30 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 48]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x28 // vcvttsd2si    rax, qword [rdx + 8*rdi + 40]
-	LONG $0x6ef9e1c4; BYTE $0xdb               // vmovq    xmm3, rbx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x20 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 32]
-	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0x6ef9e1c4; BYTE $0xe3               // vmovq    xmm4, rbx
-	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x58 // vcvttsd2si    rax, qword [rdx + 8*rdi + 88]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x50 // vcvttsd2si    rax, qword [rdx + 8*rdi + 80]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x48 // vcvttsd2si    rax, qword [rdx + 8*rdi + 72]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x40 // vcvttsd2si    rax, qword [rdx + 8*rdi + 64]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x78 // vcvttsd2si    rax, qword [rdx + 8*rdi + 120]
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x70 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 112]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x68 // vcvttsd2si    rax, qword [rdx + 8*rdi + 104]
-	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
-	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x60 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 96]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
-	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
-	LONG $0xc06cc1c5                           // vpunpcklqdq    xmm0, xmm7, xmm0
-	LONG $0x4c7ffac5; WORD $0x10f9             // vmovdqu    oword [rcx + 8*rdi + 16], xmm1
-	LONG $0x047f7ac5; BYTE $0xf9               // vmovdqu    oword [rcx + 8*rdi], xmm8
-	LONG $0x5c7ffac5; WORD $0x20f9             // vmovdqu    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x547ffac5; WORD $0x30f9             // vmovdqu    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x6c7ffac5; WORD $0x40f9             // vmovdqu    oword [rcx + 8*rdi + 64], xmm5
-	LONG $0x647ffac5; WORD $0x50f9             // vmovdqu    oword [rcx + 8*rdi + 80], xmm4
-	LONG $0x447ffac5; WORD $0x60f9             // vmovdqu    oword [rcx + 8*rdi + 96], xmm0
-	LONG $0x747ffac5; WORD $0x70f9             // vmovdqu    oword [rcx + 8*rdi + 112], xmm6
-
-LBB0_1113:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1114:
-	LONG $0x2cfbe1c4; WORD $0xf204 // vcvttsd2si    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1114
-	JMP  LBB0_1553
-
-LBB0_1115:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1116:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1118
-	LONG $0x045afdc5; BYTE $0xfa   // vcvtpd2ps    xmm0, yword [rdx + 8*rdi]
-	LONG $0x4c5afdc5; WORD $0x20fa // vcvtpd2ps    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x545afdc5; WORD $0x40fa // vcvtpd2ps    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c5afdc5; WORD $0x60fa // vcvtpd2ps    xmm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411f9c5; BYTE $0xb9   // vmovupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f9c5; WORD $0x10b9 // vmovupd    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f9c5; WORD $0x20b9 // vmovupd    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f9c5; WORD $0x30b9 // vmovupd    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_1118:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1119:
-	LONG $0x0410fbc5; BYTE $0xf2 // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0xc05afbc5             // vcvtsd2ss    xmm0, xmm0, xmm0
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1119
-	JMP  LBB0_1553
-
-LBB0_1120:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1121:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1123
-	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1123:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1124:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xc02adac5             // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1124
-	JMP  LBB0_1553
-
-LBB0_1125:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1126:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1128
-	LONG $0x247de2c4; WORD $0x7a04             // vpmovsxwq    ymm0, qword [rdx + 2*rdi]
-	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 8]
-	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 16]
-	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 24]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1128:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1129:
-	LONG $0x04bf0f48; BYTE $0x72 // movsx    rax, word [rdx + 2*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1129
-	JMP  LBB0_1553
-
-LBB0_1130:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1131:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1133
-	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
-	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
-	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
-	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1133:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1134:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	LONG $0xc02adac5             // vcvtsi2ss    xmm0, xmm4, eax
-	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1134
-	JMP  LBB0_1553
-
-LBB0_1135:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1136:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1138
-	LONG $0x046ffac5; BYTE $0xfa   // vmovdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x16f9e3c4; WORD $0x01c0 // vpextrq    rax, xmm0, 1
-	LONG $0x4c6ffac5; WORD $0x10fa // vmovdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x2abae1c4; BYTE $0xd0   // vcvtsi2ss    xmm2, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	LONG $0x2abae1c4; BYTE $0xc0   // vcvtsi2ss    xmm0, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xc8   // vmovq    rax, xmm1
-	LONG $0x2abae1c4; BYTE $0xd8   // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x16f9e3c4; WORD $0x01c8 // vpextrq    rax, xmm1, 1
-	LONG $0x2abae1c4; BYTE $0xc8   // vcvtsi2ss    xmm1, xmm8, rax
-	LONG $0x646ffac5; WORD $0x20fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 32]
-	LONG $0x6c6ffac5; WORD $0x30fa // vmovdqu    xmm5, oword [rdx + 8*rdi + 48]
-	LONG $0x16f9e3c4; WORD $0x01e0 // vpextrq    rax, xmm4, 1
-	LONG $0x2179e3c4; WORD $0x10c2 // vinsertps    xmm0, xmm0, xmm2, 16
-	LONG $0x2abae1c4; BYTE $0xd0   // vcvtsi2ss    xmm2, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe0   // vmovq    rax, xmm4
-	LONG $0x2abae1c4; BYTE $0xe0   // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xe8   // vmovq    rax, xmm5
-	LONG $0x2abae1c4; BYTE $0xf0   // vcvtsi2ss    xmm6, xmm8, rax
-	LONG $0x2179e3c4; WORD $0x20c3 // vinsertps    xmm0, xmm0, xmm3, 32
-	LONG $0x2179e3c4; WORD $0x30c1 // vinsertps    xmm0, xmm0, xmm1, 48
-	LONG $0x16f9e3c4; WORD $0x01e8 // vpextrq    rax, xmm5, 1
-	LONG $0x2159e3c4; WORD $0x10ca // vinsertps    xmm1, xmm4, xmm2, 16
-	LONG $0x2abae1c4; BYTE $0xd0   // vcvtsi2ss    xmm2, xmm8, rax
-	LONG $0x2171e3c4; WORD $0x20ce // vinsertps    xmm1, xmm1, xmm6, 32
-	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x16f9e3c4; WORD $0x01d8 // vpextrq    rax, xmm3, 1
-	LONG $0x2abae1c4; BYTE $0xe0   // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xd8   // vmovq    rax, xmm3
-	LONG $0x2abae1c4; BYTE $0xd8   // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x6c6ffac5; WORD $0x50fa // vmovdqu    xmm5, oword [rdx + 8*rdi + 80]
-	LONG $0x7ef9e1c4; BYTE $0xe8   // vmovq    rax, xmm5
-	LONG $0x2abae1c4; BYTE $0xf0   // vcvtsi2ss    xmm6, xmm8, rax
-	LONG $0x2171e3c4; WORD $0x30ca // vinsertps    xmm1, xmm1, xmm2, 48
-	LONG $0x2161e3c4; WORD $0x10d4 // vinsertps    xmm2, xmm3, xmm4, 16
-	LONG $0x16f9e3c4; WORD $0x01e8 // vpextrq    rax, xmm5, 1
-	LONG $0x2169e3c4; WORD $0x20d6 // vinsertps    xmm2, xmm2, xmm6, 32
-	LONG $0x2abae1c4; BYTE $0xd8   // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x2169e3c4; WORD $0x30d3 // vinsertps    xmm2, xmm2, xmm3, 48
-	LONG $0x5c6ffac5; WORD $0x60fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 96]
-	LONG $0x16f9e3c4; WORD $0x01d8 // vpextrq    rax, xmm3, 1
-	LONG $0x2abae1c4; BYTE $0xe0   // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x7ef9e1c4; BYTE $0xd8   // vmovq    rax, xmm3
-	LONG $0x2abae1c4; BYTE $0xd8   // vcvtsi2ss    xmm3, xmm8, rax
-	LONG $0x6c6ffac5; WORD $0x70fa // vmovdqu    xmm5, oword [rdx + 8*rdi + 112]
-	LONG $0x7ef9e1c4; BYTE $0xe8   // vmovq    rax, xmm5
-	LONG $0x2abae1c4; BYTE $0xf0   // vcvtsi2ss    xmm6, xmm8, rax
-	LONG $0x2161e3c4; WORD $0x10dc // vinsertps    xmm3, xmm3, xmm4, 16
-	LONG $0x2161e3c4; WORD $0x20de // vinsertps    xmm3, xmm3, xmm6, 32
-	LONG $0x16f9e3c4; WORD $0x01e8 // vpextrq    rax, xmm5, 1
-	LONG $0x2abae1c4; BYTE $0xe0   // vcvtsi2ss    xmm4, xmm8, rax
-	LONG $0x2161e3c4; WORD $0x30dc // vinsertps    xmm3, xmm3, xmm4, 48
-	LONG $0x0411f8c5; BYTE $0xb9   // vmovups    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c11f8c5; WORD $0x10b9 // vmovups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x5411f8c5; WORD $0x20b9 // vmovups    oword [rcx + 4*rdi + 32], xmm2
-	LONG $0x5c11f8c5; WORD $0x30b9 // vmovups    oword [rcx + 4*rdi + 48], xmm3
-
-LBB0_1138:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1139:
-	LONG $0x2abae1c4; WORD $0xf204 // vcvtsi2ss    xmm0, xmm8, qword [rdx + 8*rsi]
-	LONG $0x0411fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1139
-	JMP  LBB0_1553
-
-LBB0_1140:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1141:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1143
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x04 // vcvttss2si    rax, dword [rdx + 4*rdi + 4]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0x2cfae1c4; WORD $0xba04             // vcvttss2si    rax, dword [rdx + 4*rdi]
-	LONG $0x6ef9e1c4; BYTE $0xc8               // vmovq    xmm1, rax
-	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x0c // vcvttss2si    rax, dword [rdx + 4*rdi + 12]
-	LONG $0x6ef9e1c4; BYTE $0xc8               // vmovq    xmm1, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x08 // vcvttss2si    rax, dword [rdx + 4*rdi + 8]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x1c // vcvttss2si    rax, dword [rdx + 4*rdi + 28]
-	LONG $0xc96ce9c5                           // vpunpcklqdq    xmm1, xmm2, xmm1
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x18 // vcvttss2si    rbx, dword [rdx + 4*rdi + 24]
-	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x14 // vcvttss2si    rax, dword [rdx + 4*rdi + 20]
-	LONG $0x6ef9e1c4; BYTE $0xdb               // vmovq    xmm3, rbx
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x10 // vcvttss2si    rbx, dword [rdx + 4*rdi + 16]
-	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
-	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
-	LONG $0x6ef9e1c4; BYTE $0xe3               // vmovq    xmm4, rbx
-	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x2c // vcvttss2si    rax, dword [rdx + 4*rdi + 44]
-	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x28 // vcvttss2si    rax, dword [rdx + 4*rdi + 40]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x24 // vcvttss2si    rax, dword [rdx + 4*rdi + 36]
-	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x20 // vcvttss2si    rax, dword [rdx + 4*rdi + 32]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x3c // vcvttss2si    rax, dword [rdx + 4*rdi + 60]
-	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x38 // vcvttss2si    rbx, dword [rdx + 4*rdi + 56]
-	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
-	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x34 // vcvttss2si    rax, dword [rdx + 4*rdi + 52]
-	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
-	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x30 // vcvttss2si    rbx, dword [rdx + 4*rdi + 48]
-	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
-	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
-	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
-	LONG $0xc06cc1c5                           // vpunpcklqdq    xmm0, xmm7, xmm0
-	LONG $0x4c7ffac5; WORD $0x10f9             // vmovdqu    oword [rcx + 8*rdi + 16], xmm1
-	LONG $0x047f7ac5; BYTE $0xf9               // vmovdqu    oword [rcx + 8*rdi], xmm8
-	LONG $0x5c7ffac5; WORD $0x20f9             // vmovdqu    oword [rcx + 8*rdi + 32], xmm3
-	LONG $0x547ffac5; WORD $0x30f9             // vmovdqu    oword [rcx + 8*rdi + 48], xmm2
-	LONG $0x6c7ffac5; WORD $0x40f9             // vmovdqu    oword [rcx + 8*rdi + 64], xmm5
-	LONG $0x647ffac5; WORD $0x50f9             // vmovdqu    oword [rcx + 8*rdi + 80], xmm4
-	LONG $0x447ffac5; WORD $0x60f9             // vmovdqu    oword [rcx + 8*rdi + 96], xmm0
-	LONG $0x747ffac5; WORD $0x70f9             // vmovdqu    oword [rcx + 8*rdi + 112], xmm6
-
-LBB0_1143:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-
-LBB0_1144:
-	LONG $0x2cfae1c4; WORD $0xb204 // vcvttss2si    rax, dword [rdx + 4*rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1144
-
-LBB0_1553:
-	VZEROUPPER
-	RET
-
-LBB0_1145:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1146:
-	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
-	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
-	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
-	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
-	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
-	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
-	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
-	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
-	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB0_1146
-
-LBB0_1147:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1150
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x20c08348         // add    rax, 32
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1149:
-	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
-	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
-	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
-	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
-	LONG $0x40c08348               // add    rax, 64
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1149
-
-LBB0_1150:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1151
-
-LBB0_1155:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1156:
-	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
-	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
-	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
-	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
-	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
-	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
-	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
-	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
-	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB0_1156
-
-LBB0_1157:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1160
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x20c08348         // add    rax, 32
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1159:
-	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
-	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
-	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
-	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
-	LONG $0x40c08348               // add    rax, 64
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1159
-
-LBB0_1160:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1161
-
-LBB0_1165:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1166:
-	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
-	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
-	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
-	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
-	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
-	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
-	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
-	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
-	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB0_1166
-
-LBB0_1167:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1170
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x20c08348         // add    rax, 32
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1169:
-	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
-	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
-	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
-	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
-	LONG $0x40c08348               // add    rax, 64
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1169
-
-LBB0_1170:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1171
-
-LBB0_1175:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1176:
-	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
-	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
-	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
-	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
-	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
-	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
-	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
-	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
-	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
-	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
-	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
-	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
-	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
-	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
-	LONG $0x80e88348                     // sub    rax, -128
-	LONG $0x04c78348                     // add    rdi, 4
-	JNE  LBB0_1176
-
-LBB0_1177:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1180
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x20c08348         // add    rax, 32
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1179:
-	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
-	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
-	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
-	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
-	LONG $0x40c08348               // add    rax, 64
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1179
-
-LBB0_1180:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1181
-
-LBB0_1185:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1186:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1188
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1188:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1189
-
-LBB0_1193:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1194:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1196
-	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1196:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1197
-
-LBB0_1201:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1202:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1204
-	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1204:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1205
-
-LBB0_1209:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1210:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1212
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1212:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1213
-
-LBB0_1217:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1218:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1220
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1220:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1221
-
-LBB0_1225:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1226:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1228
-	LONG $0x2179e2c4; WORD $0x3a04             // vpmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x2179e2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x2179e2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbd    xmm2, dword [rdx + rdi + 8]
-	LONG $0x2179e2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbd    xmm3, dword [rdx + rdi + 12]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1228:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1229
-
-LBB0_1233:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1234:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1236
-	LONG $0x3179e2c4; WORD $0x3a04             // vpmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x3179e2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x3179e2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbd    xmm2, dword [rdx + rdi + 8]
-	LONG $0x3179e2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbd    xmm3, dword [rdx + rdi + 12]
-	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
-	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
-	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
-	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
-	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1236:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1237
-
-LBB0_1241:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1242:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1244
-	LONG $0x456ff9c5; BYTE $0x70   // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x0c6ffac5; BYTE $0xba   // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5               // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5               // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm5, xmm0
-	LONG $0xc462f9c5               // vpunpckldq    xmm0, xmm0, xmm4
-	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
-
-LBB0_1244:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1245
-
-LBB0_1249:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1250:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1252
-	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0xc06bf9c5               // vpackssdw    xmm0, xmm0, xmm0
-	LONG $0xc063f9c5               // vpacksswb    xmm0, xmm0, xmm0
-	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
-	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0xc162f9c5               // vpunpckldq    xmm0, xmm0, xmm1
-	LONG $0xca6be9c5               // vpackssdw    xmm1, xmm2, xmm2
-	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
-	LONG $0x54e6fdc5; WORD $0x60fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 96]
-	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
-	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0xc16cf9c5               // vpunpcklqdq    xmm0, xmm0, xmm1
-	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
-
-LBB0_1252:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1253
-
-LBB0_1257:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1258:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1260
-	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
-
-LBB0_1260:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1261
-
-LBB0_1265:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1266:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1268
-	LONG $0x456ff9c5; BYTE $0x40   // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-	LONG $0x0c6ffac5; BYTE $0xfa   // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5               // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm4, xmm0
-	LONG $0xc361f9c5               // vpunpcklwd    xmm0, xmm0, xmm3
-	LONG $0xc062e9c5               // vpunpckldq    xmm0, xmm2, xmm0
-	LONG $0xc06cf1c5               // vpunpcklqdq    xmm0, xmm1, xmm0
-	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
-
-LBB0_1268:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1269
-
-LBB0_1273:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1274:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1276
-	QUAD $0x000000a0856ffdc5       // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-	LONG $0x0cdbfdc5; BYTE $0x7a   // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5               // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5               // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5               // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x44dbfdc5; WORD $0x607a // vpand    ymm0, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01c4 // vextracti128    xmm4, ymm0, 1
-	LONG $0xc467f9c5               // vpackuswb    xmm0, xmm0, xmm4
-	LONG $0x0c7ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039 // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039 // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x447ffac5; WORD $0x3039 // vmovdqu    oword [rcx + rdi + 48], xmm0
-
-LBB0_1276:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1277
-
-LBB0_1281:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1282:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1284
-	QUAD $0x000000a0856ffdc5       // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-	LONG $0x0cdbfdc5; BYTE $0x7a   // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5               // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5               // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5               // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x44dbfdc5; WORD $0x607a // vpand    ymm0, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01c4 // vextracti128    xmm4, ymm0, 1
-	LONG $0xc467f9c5               // vpackuswb    xmm0, xmm0, xmm4
-	LONG $0x0c7ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039 // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039 // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x447ffac5; WORD $0x3039 // vmovdqu    oword [rcx + rdi + 48], xmm0
-
-LBB0_1284:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1285
-
-LBB0_1289:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1290:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1292
-	LONG $0x456ff9c5; BYTE $0x40   // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-	LONG $0x0c6ffac5; BYTE $0xfa   // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5               // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm4, xmm0
-	LONG $0xc361f9c5               // vpunpcklwd    xmm0, xmm0, xmm3
-	LONG $0xc062e9c5               // vpunpckldq    xmm0, xmm2, xmm0
-	LONG $0xc06cf1c5               // vpunpcklqdq    xmm0, xmm1, xmm0
-	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
-
-LBB0_1292:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1293
-
-LBB0_1297:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1298:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1300
-	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd063edc5               // vpacksswb    ymm2, ymm2, ymm0
-	LONG $0x387de3c4; WORD $0x01c1 // vinserti128    ymm0, ymm0, xmm1, 1
-	LONG $0xc063fdc5               // vpacksswb    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5               // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
-
-LBB0_1300:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1301
-
-LBB0_1305:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1306:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1308
-	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
-
-LBB0_1308:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1309
-
-LBB0_1313:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1314:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1316
-	LONG $0x456ff9c5; BYTE $0x70   // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x0c6ffac5; BYTE $0xba   // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5               // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5               // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm5, xmm0
-	LONG $0xc462f9c5               // vpunpckldq    xmm0, xmm0, xmm4
-	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
-
-LBB0_1316:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1317
-
-LBB0_1321:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1322:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1324
-	LONG $0x227de2c4; WORD $0x3a04             // vpmovsxbq    ymm0, dword [rdx + rdi]
-	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1324:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1325
-
-LBB0_1329:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1330:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1332
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1332:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1333
-
-LBB0_1337:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1338:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1340
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1340:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1341
-
-LBB0_1345:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1346:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1348
-	LONG $0x327de2c4; WORD $0x3a04             // vpmovzxbq    ymm0, dword [rdx + rdi]
-	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1348:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1349
-
-LBB0_1353:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1354:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1356
-	LONG $0x207de2c4; WORD $0x3a04             // vpmovsxbw    ymm0, oword [rdx + rdi]
-	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovsxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x20 // vpmovsxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovsxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-
-LBB0_1356:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1357
-
-LBB0_1361:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1362:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1364
-	LONG $0x207de2c4; WORD $0x3a04             // vpmovsxbw    ymm0, oword [rdx + rdi]
-	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovsxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x20 // vpmovsxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovsxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-
-LBB0_1364:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1365
-
-LBB0_1369:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1370:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1372
-	LONG $0x307de2c4; WORD $0x3a04             // vpmovzxbw    ymm0, oword [rdx + rdi]
-	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovzxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x20 // vpmovzxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovzxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-
-LBB0_1372:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1373
-
-LBB0_1377:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1378:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1380
-	LONG $0x307de2c4; WORD $0x3a04             // vpmovzxbw    ymm0, oword [rdx + rdi]
-	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovzxbw    ymm1, oword [rdx + rdi + 16]
-	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x20 // vpmovzxbw    ymm2, oword [rdx + rdi + 32]
-	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovzxbw    ymm3, oword [rdx + rdi + 48]
-	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
-
-LBB0_1380:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1381
-
-LBB0_1385:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1386:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1388
-	LONG $0x227de2c4; WORD $0x3a04             // vpmovsxbq    ymm0, dword [rdx + rdi]
-	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1388:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1389
-
-LBB0_1393:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1394:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1396
-	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1396:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1397
-
-LBB0_1401:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1402:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1404
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1404:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1405
-
-LBB0_1409:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1410:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1412
-	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1412:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1413
-
-LBB0_1417:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1418:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1420
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1420:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1421
-
-LBB0_1425:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1426:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1428
-	LONG $0x327de2c4; WORD $0x3a04             // vpmovzxbq    ymm0, dword [rdx + rdi]
-	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbq    ymm1, dword [rdx + rdi + 4]
-	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbq    ymm2, dword [rdx + rdi + 8]
-	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbq    ymm3, dword [rdx + rdi + 12]
-	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
-
-LBB0_1428:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1429
-
-LBB0_1433:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1434:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1436
-	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
-	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
-	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
-	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
-	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1436:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1437
-
-LBB0_1441:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1442:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1444
-	LONG $0x456ff9c5; BYTE $0x70   // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x0c6ffac5; BYTE $0xba   // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5               // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5               // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm5, xmm0
-	LONG $0xc462f9c5               // vpunpckldq    xmm0, xmm0, xmm4
-	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
-
-LBB0_1444:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1445
-
-LBB0_1449:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1450:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1452
-	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
-	LONG $0x2b79e2c4; BYTE $0xc0   // vpackusdw    xmm0, xmm0, xmm0
-	LONG $0xc067f9c5               // vpackuswb    xmm0, xmm0, xmm0
-	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
-	LONG $0x2b71e2c4; BYTE $0xc9   // vpackusdw    xmm1, xmm1, xmm1
-	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
-	LONG $0xc967f1c5               // vpackuswb    xmm1, xmm1, xmm1
-	LONG $0xc162f9c5               // vpunpckldq    xmm0, xmm0, xmm1
-	LONG $0x2b69e2c4; BYTE $0xca   // vpackusdw    xmm1, xmm2, xmm2
-	LONG $0xc967f1c5               // vpackuswb    xmm1, xmm1, xmm1
-	LONG $0x54e6fdc5; WORD $0x60fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 96]
-	LONG $0x2b69e2c4; BYTE $0xd2   // vpackusdw    xmm2, xmm2, xmm2
-	LONG $0xd267e9c5               // vpackuswb    xmm2, xmm2, xmm2
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0xc16cf9c5               // vpunpcklqdq    xmm0, xmm0, xmm1
-	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
-
-LBB0_1452:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1453
-
-LBB0_1457:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1458:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1460
-	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
-
-LBB0_1460:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1461
-
-LBB0_1465:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1466:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1468
-	LONG $0x456ff9c5; BYTE $0x40   // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-	LONG $0x0c6ffac5; BYTE $0xfa   // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5               // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm4, xmm0
-	LONG $0xc361f9c5               // vpunpcklwd    xmm0, xmm0, xmm3
-	LONG $0xc062e9c5               // vpunpckldq    xmm0, xmm2, xmm0
-	LONG $0xc06cf1c5               // vpunpcklqdq    xmm0, xmm1, xmm0
-	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
-
-LBB0_1468:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1469
-
-LBB0_1473:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1474:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1476
-	QUAD $0x000000a0856ffdc5       // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-	LONG $0x0cdbfdc5; BYTE $0x7a   // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5               // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5               // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5               // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x44dbfdc5; WORD $0x607a // vpand    ymm0, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01c4 // vextracti128    xmm4, ymm0, 1
-	LONG $0xc467f9c5               // vpackuswb    xmm0, xmm0, xmm4
-	LONG $0x0c7ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039 // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039 // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x447ffac5; WORD $0x3039 // vmovdqu    oword [rcx + rdi + 48], xmm0
-
-LBB0_1476:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1477
-
-LBB0_1481:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1482:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1484
-	QUAD $0x000000a0856ffdc5       // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
-	LONG $0x0cdbfdc5; BYTE $0x7a   // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca67f1c5               // vpackuswb    xmm1, xmm1, xmm2
-	LONG $0x54dbfdc5; WORD $0x207a // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd367e9c5               // vpackuswb    xmm2, xmm2, xmm3
-	LONG $0x5cdbfdc5; WORD $0x407a // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc67e1c5               // vpackuswb    xmm3, xmm3, xmm4
-	LONG $0x44dbfdc5; WORD $0x607a // vpand    ymm0, ymm0, yword [rdx + 2*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01c4 // vextracti128    xmm4, ymm0, 1
-	LONG $0xc467f9c5               // vpackuswb    xmm0, xmm0, xmm4
-	LONG $0x0c7ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm1
-	LONG $0x547ffac5; WORD $0x1039 // vmovdqu    oword [rcx + rdi + 16], xmm2
-	LONG $0x5c7ffac5; WORD $0x2039 // vmovdqu    oword [rcx + rdi + 32], xmm3
-	LONG $0x447ffac5; WORD $0x3039 // vmovdqu    oword [rcx + rdi + 48], xmm0
-
-LBB0_1484:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1485
-
-LBB0_1489:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1490:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1492
-	LONG $0x456ff9c5; BYTE $0x40   // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
-	LONG $0x0c6ffac5; BYTE $0xfa   // vmovdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546ffac5; WORD $0x10fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca61f1c5               // vpunpcklwd    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x546ffac5; WORD $0x50fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x70fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x60fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
-	LONG $0x0059e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm4, xmm0
-	LONG $0xc361f9c5               // vpunpcklwd    xmm0, xmm0, xmm3
-	LONG $0xc062e9c5               // vpunpckldq    xmm0, xmm2, xmm0
-	LONG $0xc06cf1c5               // vpunpcklqdq    xmm0, xmm1, xmm0
-	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
-
-LBB0_1492:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1493
-
-LBB0_1497:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1498:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1500
-	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
-	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
-	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
-	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
-	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
-	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
-	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd067edc5               // vpackuswb    ymm2, ymm2, ymm0
-	LONG $0x387de3c4; WORD $0x01c1 // vinserti128    ymm0, ymm0, xmm1, 1
-	LONG $0xc067fdc5               // vpackuswb    ymm0, ymm0, ymm0
-	LONG $0xc26cfdc5               // vpunpcklqdq    ymm0, ymm0, ymm2
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
-
-LBB0_1500:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1501
-
-LBB0_1505:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1506:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1508
-	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
-	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
-	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
-	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
-
-LBB0_1508:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1509
-
-LBB0_1513:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1514:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1516
-	LONG $0x456ff9c5; BYTE $0x70   // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x0c6ffac5; BYTE $0xba   // vmovdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546ffac5; WORD $0x10ba // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x5c6ffac5; WORD $0x20ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646ffac5; WORD $0x30ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
-	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
-	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
-	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0xd262e1c5               // vpunpckldq    xmm2, xmm3, xmm2
-	LONG $0x5c6ffac5; WORD $0x50ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
-	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
-	LONG $0x646ffac5; WORD $0x40ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0xdb62d9c5               // vpunpckldq    xmm3, xmm4, xmm3
-	LONG $0x646ffac5; WORD $0x70ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
-	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
-	LONG $0x6c6ffac5; WORD $0x60ba // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
-	LONG $0x0051e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm5, xmm0
-	LONG $0xc462f9c5               // vpunpckldq    xmm0, xmm0, xmm4
-	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
-	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
-	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
-
-LBB0_1516:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1517
-
-LBB0_1521:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1522:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1524
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1524:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1525
-
-LBB0_1529:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1530:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1532
-	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
-	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1532:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1533
-
-LBB0_1537:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1538:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1540
-	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
-	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
-	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
-	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
-	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1540:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1541
-
-LBB0_1545:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1546:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1548
-	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
-	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
-	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
-	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
-
-LBB0_1548:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1553
-	JMP  LBB0_1549
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.go b/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.go
deleted file mode 100644
index 0b491244dcc44..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.go
+++ /dev/null
@@ -1,41 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"golang.org/x/sys/cpu"
-)
-
-//go:noescape
-func _cast_type_numeric_neon(itype, otype int, in, out unsafe.Pointer, len int)
-
-func castNumericNeon(itype, otype arrow.Type, in, out []byte, len int) {
-	_cast_type_numeric_neon(int(itype), int(otype), unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len)
-}
-
-func init() {
-	if cpu.ARM64.HasASIMD {
-		castNumericUnsafe = castNumericNeon
-	} else {
-		castNumericUnsafe = castNumericGo
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.s b/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.s
deleted file mode 100644
index c54eac4403c43..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.s
+++ /dev/null
@@ -1,6087 +0,0 @@
-//go:build go1.18 && !noasm && !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_cast_type_numeric_neon(SB), $0-40
-
-    MOVD itype+0(FP), R0
-    MOVD otype+8(FP), R1
-    MOVD in+16(FP), R2
-    MOVD out+24(FP), R3
-    MOVD len+32(FP), R4
-
-
-    WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
-    WORD $0x7100181f // cmp    w0, #6
-    WORD $0x910003fd // mov    x29, sp
-    BGT LBB0_17
-
-    WORD $0x71000c1f // cmp    w0, #3
-    BLE LBB0_29    
-
-    WORD $0x7100101f // cmp    w0, #4
-    BEQ LBB0_53    
-
-    WORD $0x7100141f // cmp    w0, #5
-    BEQ LBB0_61
-    
-    WORD $0x7100181f // cmp    w0, #6
-    BNE LBB0_893    
-
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_109    
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_191    
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_347
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_350
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_14
-
-    WORD $0xd37ef509 // lsl    x9, x8, #2
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_894
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_894
-LBB0_14:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_15:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_16:
-    WORD $0xb840454b // ldr    w11, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_16
-    JMP LBB0_893
-LBB0_17:
-    WORD $0x7100201f // cmp    w0, #8
-    BLE LBB0_43
-
-    WORD $0x7100241f // cmp    w0, #9
-    BEQ LBB0_69
-
-    WORD $0x71002c1f // cmp    w0, #11
-    BEQ LBB0_77
-
-    WORD $0x7100301f // cmp    w0, #12
-    BNE LBB0_893
-
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_116
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_200
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_353
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_356
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_643
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_646
-LBB0_29:
-    WORD $0x7100081f // cmp    w0, #2
-    BEQ LBB0_85
-
-    WORD $0x71000c1f // cmp    w0, #3
-    BNE LBB0_893
-
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_127
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_209
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_359
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_366
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_40
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_897
-
-    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_897
-LBB0_40:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_41:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_42:
-    WORD $0x38c0152b // ldrsb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_42
-    JMP LBB0_893
-LBB0_43:
-    WORD $0x71001c1f // cmp    w0, #7
-    BEQ LBB0_97
-
-    WORD $0x7100201f // cmp    w0, #8
-    BNE LBB0_893
-
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_138
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_218
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_373
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_376
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_648
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_651
-LBB0_53:
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_145
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_227
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_379
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_386
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_653
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_656
-LBB0_61:
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_152
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_236
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_393
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_400
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_658
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_661
-LBB0_69:
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_159
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_245
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_407
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_410
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_663
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_666
-LBB0_77:
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_166
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_254
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_413
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_416
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_668
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_671
-LBB0_85:
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_173
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_263
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_419
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_426
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_94
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_900
-
-    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_900
-LBB0_94:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_95:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_96:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_96
-    JMP LBB0_893
-LBB0_97:
-    WORD $0x7100183f // cmp    w1, #6
-    BGT LBB0_184
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BLE LBB0_272
-
-    WORD $0x7100103f // cmp    w1, #4
-    BEQ LBB0_433
-
-    WORD $0x7100143f // cmp    w1, #5
-    BEQ LBB0_436
-
-    WORD $0x7100183f // cmp    w1, #6
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_106
-
-    WORD $0xd37ef509 // lsl    x9, x8, #2
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_903
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_903
-LBB0_106:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_107:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_108:
-    WORD $0xb840454b // ldr    w11, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_108
-    JMP LBB0_893
-LBB0_109:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_281
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_439
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_442
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_673
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_676
-LBB0_116:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_286
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_445
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_448
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_124
-
-    WORD $0xd37df109 // lsl    x9, x8, #3
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_906
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_906
-LBB0_124:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_125:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_126:
-    WORD $0xf840854b // ldr    x11, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_126
-    JMP LBB0_893
-LBB0_127:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_291
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_451
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_458
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_135
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_909
-
-    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_909
-LBB0_135:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_136:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_137:
-    WORD $0x38c0152b // ldrsb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e620160 // scvtf    d0, w11
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_137
-    JMP LBB0_893
-LBB0_138:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_300
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_465
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_472
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_678
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_681
-LBB0_145:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_309
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_475
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_478
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_683
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_686
-LBB0_152:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_314
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_481
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_484
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_688
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_691
-LBB0_159:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_319
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_487
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_494
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_693
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_696
-LBB0_166:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_328
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_497
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_500
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_698
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_701
-LBB0_173:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_333
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_507
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_514
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_181
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_912
-
-    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_912
-LBB0_181:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_182:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_183:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e630160 // ucvtf    d0, w11
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_183
-    JMP LBB0_893
-LBB0_184:
-    WORD $0x7100203f // cmp    w1, #8
-    BLE LBB0_342
-
-    WORD $0x7100243f // cmp    w1, #9
-    BEQ LBB0_521
-
-    WORD $0x71002c3f // cmp    w1, #11
-    BEQ LBB0_524
-
-    WORD $0x7100303f // cmp    w1, #12
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_703
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_706
-LBB0_191:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_527
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_197
-
-    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_915
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_915
-LBB0_197:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_198:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_199:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_199
-    JMP LBB0_893
-LBB0_200:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_534
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_206
-
-    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_918
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_918
-LBB0_206:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_207:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_208:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e78000b // fcvtzs    w11, d0
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_208
-    JMP LBB0_893
-LBB0_209:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_541
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_215
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_921
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_921
-LBB0_215:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_216:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_217:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_217
-    JMP LBB0_893
-LBB0_218:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_548
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_224
-
-    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_924
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_924
-LBB0_224:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_225:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_226:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_226
-    JMP LBB0_893
-LBB0_227:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_555
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_233
-
-    WORD $0x8b080449 // add    x9, x2, x8, lsl #1
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_927
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_927
-LBB0_233:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_234:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_235:
-    WORD $0x3840252b // ldrb    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_235
-    JMP LBB0_893
-LBB0_236:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_562
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_242
-
-    WORD $0x8b080449 // add    x9, x2, x8, lsl #1
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_930
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_930
-LBB0_242:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_243:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_244:
-    WORD $0x3840252b // ldrb    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_244
-    JMP LBB0_893
-LBB0_245:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_569
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_251
-
-    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_933
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_933
-LBB0_251:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_252:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_253:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_253
-    JMP LBB0_893
-LBB0_254:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_576
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_260
-
-    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_936
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_936
-LBB0_260:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_261:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_262:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e38000b // fcvtzs    w11, s0
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_262
-    JMP LBB0_893
-LBB0_263:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_583
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_269
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_939
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_939
-LBB0_269:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_270:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_271:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_271
-    JMP LBB0_893
-LBB0_272:
-    WORD $0x7100083f // cmp    w1, #2
-    BEQ LBB0_590
-
-    WORD $0x71000c3f // cmp    w1, #3
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_278
-
-    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_942
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_942
-LBB0_278:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_279:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_280:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_280
-    JMP LBB0_893
-LBB0_281:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_597
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_708
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_711
-LBB0_286:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_604
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_713
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_716
-LBB0_291:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_607
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_297
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_945
-
-    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_945
-LBB0_297:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_298:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_299:
-    WORD $0x3880152b // ldrsb    x11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_299
-    JMP LBB0_893
-LBB0_300:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_614
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_306
-
-    WORD $0xd37df109 // lsl    x9, x8, #3
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_948
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_948
-LBB0_306:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_307:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_308:
-    WORD $0xf840854b // ldr    x11, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_308
-    JMP LBB0_893
-LBB0_309:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_617
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_718
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_721
-LBB0_314:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_620
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_723
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_726
-LBB0_319:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_623
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_325
-
-    WORD $0xd37df109 // lsl    x9, x8, #3
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_951
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_951
-LBB0_325:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_326:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_327:
-    WORD $0xf840854b // ldr    x11, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_327
-    JMP LBB0_893
-LBB0_328:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_626
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_728
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_731
-LBB0_333:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_629
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_339
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_954
-
-    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_954
-LBB0_339:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_340:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_341:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_341
-    JMP LBB0_893
-LBB0_342:
-    WORD $0x71001c3f // cmp    w1, #7
-    BEQ LBB0_636
-
-    WORD $0x7100203f // cmp    w1, #8
-    BNE LBB0_893
-
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_733
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_736
-LBB0_347:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_738
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_741
-LBB0_350:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_743
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_746
-LBB0_353:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_748
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_751
-LBB0_356:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_753
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_756
-LBB0_359:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_363
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_957
-
-    WORD $0x8b080469 // add    x9, x3, x8, lsl #1
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_957
-LBB0_363:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_364:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_365:
-    WORD $0x38c0152b // ldrsb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_365
-    JMP LBB0_893
-LBB0_366:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_370
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_960
-
-    WORD $0x8b080469 // add    x9, x3, x8, lsl #1
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_960
-LBB0_370:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_371:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_372:
-    WORD $0x38c0152b // ldrsb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_372
-    JMP LBB0_893
-LBB0_373:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_758
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_761
-LBB0_376:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_763
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_766
-LBB0_379:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_383
-
-    WORD $0xd37ff909 // lsl    x9, x8, #1
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_963
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_963
-LBB0_383:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_384:
-    WORD $0xd37ff92a // lsl    x10, x9, #1
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_385:
-    WORD $0x7840254b // ldrh    w11, [x10], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800252b // strh    w11, [x9], #2
-    BNE LBB0_385
-    JMP LBB0_893
-LBB0_386:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_390
-
-    WORD $0xd37ff909 // lsl    x9, x8, #1
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_966
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_966
-LBB0_390:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_391:
-    WORD $0xd37ff92a // lsl    x10, x9, #1
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_392:
-    WORD $0x7840254b // ldrh    w11, [x10], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800252b // strh    w11, [x9], #2
-    BNE LBB0_392
-    JMP LBB0_893
-LBB0_393:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_397
-
-    WORD $0xd37ff909 // lsl    x9, x8, #1
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_969
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_969
-LBB0_397:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_398:
-    WORD $0xd37ff92a // lsl    x10, x9, #1
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_399:
-    WORD $0x7840254b // ldrh    w11, [x10], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800252b // strh    w11, [x9], #2
-    BNE LBB0_399
-    JMP LBB0_893
-LBB0_400:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_404
-
-    WORD $0xd37ff909 // lsl    x9, x8, #1
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_972
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_972
-LBB0_404:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_405:
-    WORD $0xd37ff92a // lsl    x10, x9, #1
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_406:
-    WORD $0x7840254b // ldrh    w11, [x10], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800252b // strh    w11, [x9], #2
-    BNE LBB0_406
-    JMP LBB0_893
-LBB0_407:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_768
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_771
-LBB0_410:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_773
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_776
-LBB0_413:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_778
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_781
-LBB0_416:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_783
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_786
-LBB0_419:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_423
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_975
-
-    WORD $0x8b080469 // add    x9, x3, x8, lsl #1
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_975
-LBB0_423:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_424:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_425:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_425
-    JMP LBB0_893
-LBB0_426:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_430
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_978
-
-    WORD $0x8b080469 // add    x9, x3, x8, lsl #1
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_978
-LBB0_430:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_431:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_432:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_432
-    JMP LBB0_893
-LBB0_433:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_788
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_791
-LBB0_436:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_793
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_796
-LBB0_439:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_798
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_801
-LBB0_442:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_803
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_806
-LBB0_445:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_808
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_811
-LBB0_448:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_813
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_816
-LBB0_451:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_455
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_981
-
-    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_981
-LBB0_455:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_456:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_457:
-    WORD $0x3880152b // ldrsb    x11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_457
-    JMP LBB0_893
-LBB0_458:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_462
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_984
-
-    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_984
-LBB0_462:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_463:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_464:
-    WORD $0x38c0152b // ldrsb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e220160 // scvtf    s0, w11
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_464
-    JMP LBB0_893
-LBB0_465:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_469
-
-    WORD $0xd37df109 // lsl    x9, x8, #3
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_987
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_987
-LBB0_469:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_470:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_471:
-    WORD $0xf840854b // ldr    x11, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_471
-    JMP LBB0_893
-LBB0_472:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_818
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_821
-LBB0_475:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_823
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_826
-LBB0_478:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_828
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_831
-LBB0_481:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_833
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_836
-LBB0_484:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_838
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_841
-LBB0_487:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_491
-
-    WORD $0xd37df109 // lsl    x9, x8, #3
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_990
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_990
-LBB0_491:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_492:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_493:
-    WORD $0xf840854b // ldr    x11, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_493
-    JMP LBB0_893
-LBB0_494:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_843
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_846
-LBB0_497:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_848
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_851
-LBB0_500:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_504
-
-    WORD $0xd37ef509 // lsl    x9, x8, #2
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_993
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_993
-LBB0_504:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_505:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_506:
-    WORD $0xb840454b // ldr    w11, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_506
-    JMP LBB0_893
-LBB0_507:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_511
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_996
-
-    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_996
-LBB0_511:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_512:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_513:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_513
-    JMP LBB0_893
-LBB0_514:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_518
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_999
-
-    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_999
-LBB0_518:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_519:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_520:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e230160 // ucvtf    s0, w11
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_520
-    JMP LBB0_893
-LBB0_521:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_853
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_856
-LBB0_524:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_858
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_861
-LBB0_527:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_531
-
-    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1002
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1002
-LBB0_531:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_532:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_533:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_533
-    JMP LBB0_893
-LBB0_534:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_538
-
-    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1005
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1005
-LBB0_538:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_539:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_540:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e78000b // fcvtzs    w11, d0
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_540
-    JMP LBB0_893
-LBB0_541:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_545
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1008
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1008
-LBB0_545:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_546:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_547:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_547
-    JMP LBB0_893
-LBB0_548:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_552
-
-    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1011
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1011
-LBB0_552:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_553:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_554:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_554
-    JMP LBB0_893
-LBB0_555:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_559
-
-    WORD $0x8b080449 // add    x9, x2, x8, lsl #1
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1014
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1014
-LBB0_559:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_560:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_561:
-    WORD $0x3840252b // ldrb    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_561
-    JMP LBB0_893
-LBB0_562:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_566
-
-    WORD $0x8b080449 // add    x9, x2, x8, lsl #1
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1017
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1017
-LBB0_566:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_567:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_568:
-    WORD $0x3840252b // ldrb    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_568
-    JMP LBB0_893
-LBB0_569:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_573
-
-    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1020
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1020
-LBB0_573:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_574:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_575:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_575
-    JMP LBB0_893
-LBB0_576:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_580
-
-    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1023
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1023
-LBB0_580:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_581:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_582:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e38000b // fcvtzs    w11, s0
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_582
-    JMP LBB0_893
-LBB0_583:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_587
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1026
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1026
-LBB0_587:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_588:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_589:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_589
-    JMP LBB0_893
-LBB0_590:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_594
-
-    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1029
-
-    WORD $0x8b080069 // add    x9, x3, x8
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1029
-LBB0_594:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_595:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09006a // add    x10, x3, x9
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_596:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x3800154b // strb    w11, [x10], #1
-    BNE LBB0_596
-    JMP LBB0_893
-LBB0_597:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_601
-
-    WORD $0xd37ef509 // lsl    x9, x8, #2
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_1032
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1032
-LBB0_601:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_602:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_603:
-    WORD $0xb840454b // ldr    w11, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_603
-    JMP LBB0_893
-LBB0_604:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_863
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_866
-LBB0_607:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_611
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1035
-
-    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1035
-LBB0_611:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_612:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_613:
-    WORD $0x38c0152b // ldrsb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_613
-    JMP LBB0_893
-LBB0_614:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_868
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_871
-LBB0_617:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_873
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_876
-LBB0_620:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_878
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_881
-LBB0_623:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100409f // cmp    w4, #16
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_883
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_886
-LBB0_626:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BHS LBB0_888
-
-    WORD $0xaa1f03e9 // mov    x9, xzr
-    JMP LBB0_891
-LBB0_629:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_633
-
-    WORD $0x8b080049 // add    x9, x2, x8
-    WORD $0xeb03013f // cmp    x9, x3
-    BLS LBB0_1038
-
-    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1038
-LBB0_633:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_634:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090049 // add    x9, x2, x9
-LBB0_635:
-    WORD $0x3840152b // ldrb    w11, [x9], #1
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_635
-    JMP LBB0_893
-LBB0_636:
-    WORD $0x7100049f // cmp    w4, #1
-    BLT LBB0_893
-
-    WORD $0x7100809f // cmp    w4, #32
-    WORD $0x2a0403e8 // mov    w8, w4
-    BLO LBB0_640
-
-    WORD $0xd37ef509 // lsl    x9, x8, #2
-    WORD $0x8b09004a // add    x10, x2, x9
-    WORD $0xeb03015f // cmp    x10, x3
-    BLS LBB0_1041
-
-    WORD $0x8b090069 // add    x9, x3, x9
-    WORD $0xeb02013f // cmp    x9, x2
-    BLS LBB0_1041
-LBB0_640:
-    WORD $0xaa1f03e9 // mov    x9, xzr
-LBB0_641:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_642:
-    WORD $0xb840454b // ldr    w11, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_642
-    JMP LBB0_893
-LBB0_643:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_644:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x6ee1b821 // fcvtzu    v1.2d, v1.2d
-    WORD $0x6ee1b863 // fcvtzu    v3.2d, v3.2d
-    WORD $0x6ee1b8a5 // fcvtzu    v5.2d, v5.2d
-    WORD $0x6ee1b8e7 // fcvtzu    v7.2d, v7.2d
-    WORD $0x6ee1b884 // fcvtzu    v4.2d, v4.2d
-    WORD $0x6ee1b8c6 // fcvtzu    v6.2d, v6.2d
-    WORD $0x6ee1b842 // fcvtzu    v2.2d, v2.2d
-    WORD $0x6ee1b800 // fcvtzu    v0.2d, v0.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_644
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_646:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_647:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e79000b // fcvtzu    w11, d0
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_647
-    JMP LBB0_893
-LBB0_648:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_649:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_649
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_651:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_652:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_652
-    JMP LBB0_893
-LBB0_653:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100804a // add    x10, x2, #32
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_654:
-    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0x2f10a424 // ushll    v4.4s, v1.4h, #0
-    WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
-    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-    WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
-    WORD $0x2f10a447 // ushll    v7.4s, v2.4h, #0
-    WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
-    WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
-    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
-    WORD $0xad010967 // stp    q7, q2, [x11, #32]
-    WORD $0xac840d66 // stp    q6, q3, [x11], #128
-    BNE LBB0_654
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_656:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_657:
-    WORD $0x7840252b // ldrh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_657
-    JMP LBB0_893
-LBB0_658:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100804a // add    x10, x2, #32
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_659:
-    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0x0f10a424 // sshll    v4.4s, v1.4h, #0
-    WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
-    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-    WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
-    WORD $0x0f10a447 // sshll    v7.4s, v2.4h, #0
-    WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
-    WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
-    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
-    WORD $0xad010967 // stp    q7, q2, [x11, #32]
-    WORD $0xac840d66 // stp    q6, q3, [x11], #128
-    BNE LBB0_659
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_661:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_662:
-    WORD $0x78c0252b // ldrsh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_662
-    JMP LBB0_893
-LBB0_663:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_664:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_664
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_666:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_667:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_667
-    JMP LBB0_893
-LBB0_668:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_669:
-    WORD $0xad7f0540 // ldp    q0, q1, [x10, #-32]
-    WORD $0xad7e0d42 // ldp    q2, q3, [x10, #-64]
-    WORD $0xad411544 // ldp    q4, q5, [x10, #32]
-    WORD $0xacc41d46 // ldp    q6, q7, [x10], #128
-    WORD $0x6ea1b821 // fcvtzu    v1.4s, v1.4s
-    WORD $0x6ea1b863 // fcvtzu    v3.4s, v3.4s
-    WORD $0x6ea1b842 // fcvtzu    v2.4s, v2.4s
-    WORD $0x6ea1b800 // fcvtzu    v0.4s, v0.4s
-    WORD $0x6ea1b8e7 // fcvtzu    v7.4s, v7.4s
-    WORD $0x6ea1b8c6 // fcvtzu    v6.4s, v6.4s
-    WORD $0x6ea1b8a5 // fcvtzu    v5.4s, v5.4s
-    WORD $0x6ea1b884 // fcvtzu    v4.4s, v4.4s
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0560 // stp    q0, q1, [x11, #-32]
-    WORD $0xad3e0d62 // stp    q2, q3, [x11, #-64]
-    WORD $0xad011564 // stp    q4, q5, [x11, #32]
-    WORD $0xac841d66 // stp    q6, q7, [x11], #128
-    BNE LBB0_669
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_671:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_672:
-    WORD $0xbc404540 // ldr    s0, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e39000b // fcvtzu    w11, s0
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_672
-    JMP LBB0_893
-LBB0_673:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_674:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x2f20a424 // ushll    v4.2d, v1.2s, #0
-    WORD $0x2f20a405 // ushll    v5.2d, v0.2s, #0
-    WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
-    WORD $0x2f20a447 // ushll    v7.2d, v2.2s, #0
-    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-    WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
-    WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
-    WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
-    WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
-    WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
-    WORD $0x6e61d800 // ucvtf    v0.2d, v0.2d
-    WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
-    WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_674
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_676:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_677:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e630160 // ucvtf    d0, w11
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_677
-    JMP LBB0_893
-LBB0_678:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_679:
-    WORD $0xad430580 // ldp    q0, q1, [x12, #96]
-    WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
-    WORD $0xad401584 // ldp    q4, q5, [x12]
-    WORD $0xad411d86 // ldp    q6, q7, [x12, #32]
-    WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
-    WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
-    WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
-    WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
-    WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
-    WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
-    WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
-    WORD $0x6e61d800 // ucvtf    v0.2d, v0.2d
-    WORD $0x9102018c // add    x12, x12, #128
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad030560 // stp    q0, q1, [x11, #96]
-    WORD $0xad020d62 // stp    q2, q3, [x11, #64]
-    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
-    WORD $0xac841564 // stp    q4, q5, [x11], #128
-    BNE LBB0_679
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_681:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_682:
-    WORD $0xfc408540 // ldr    d0, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7e61d800 // ucvtf    d0, d0
-    WORD $0xfc008520 // str    d0, [x9], #8
-    BNE LBB0_682
-    JMP LBB0_893
-LBB0_683:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0x2f01e660 // movi    d0, #0x00ffff0000ffff
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_684:
-    WORD $0xacc10984 // ldp    q4, q2, [x12], #32
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x6e044081 // ext    v1.16b, v4.16b, v4.16b, #8
-    WORD $0x0e023c8d // umov    w13, v4.h[0]
-    WORD $0x0e0a3c8f // umov    w15, v4.h[2]
-    WORD $0x6e024043 // ext    v3.16b, v2.16b, v2.16b, #8
-    WORD $0x0e063c8e // umov    w14, v4.h[1]
-    WORD $0x0e0e3c90 // umov    w16, v4.h[3]
-    WORD $0x0e023c51 // umov    w17, v2.h[0]
-    WORD $0x0e063c52 // umov    w18, v2.h[1]
-    WORD $0x0e0a3c40 // umov    w0, v2.h[2]
-    WORD $0x1e2701a4 // fmov    s4, w13
-    WORD $0x0e0e3c4d // umov    w13, v2.h[3]
-    WORD $0x1e2701e2 // fmov    s2, w15
-    WORD $0x0e023c2f // umov    w15, v1.h[0]
-    WORD $0x1e270006 // fmov    s6, w0
-    WORD $0x0e0a3c20 // umov    w0, v1.h[2]
-    WORD $0x1e2701e7 // fmov    s7, w15
-    WORD $0x0e023c6f // umov    w15, v3.h[0]
-    WORD $0x1e270010 // fmov    s16, w0
-    WORD $0x0e0a3c60 // umov    w0, v3.h[2]
-    WORD $0x1e2701f1 // fmov    s17, w15
-    WORD $0x4e0c1da6 // mov    v6.s[1], w13
-    WORD $0x0e063c6d // umov    w13, v3.h[1]
-    WORD $0x1e270225 // fmov    s5, w17
-    WORD $0x0e063c31 // umov    w17, v1.h[1]
-    WORD $0x0e0e3c2f // umov    w15, v1.h[3]
-    WORD $0x1e270001 // fmov    s1, w0
-    WORD $0x4e0c1db1 // mov    v17.s[1], w13
-    WORD $0x0e0e3c6d // umov    w13, v3.h[3]
-    WORD $0x4e0c1dc4 // mov    v4.s[1], w14
-    WORD $0x4e0c1e02 // mov    v2.s[1], w16
-    WORD $0x4e0c1e45 // mov    v5.s[1], w18
-    WORD $0x4e0c1e27 // mov    v7.s[1], w17
-    WORD $0x4e0c1df0 // mov    v16.s[1], w15
-    WORD $0x4e0c1da1 // mov    v1.s[1], w13
-    WORD $0x0e201c83 // and    v3.8b, v4.8b, v0.8b
-    WORD $0x0e201c42 // and    v2.8b, v2.8b, v0.8b
-    WORD $0x0e201ca4 // and    v4.8b, v5.8b, v0.8b
-    WORD $0x0e201cc5 // and    v5.8b, v6.8b, v0.8b
-    WORD $0x0e201ce6 // and    v6.8b, v7.8b, v0.8b
-    WORD $0x0e201e07 // and    v7.8b, v16.8b, v0.8b
-    WORD $0x0e201e30 // and    v16.8b, v17.8b, v0.8b
-    WORD $0x0e201c21 // and    v1.8b, v1.8b, v0.8b
-    WORD $0x2f20a463 // ushll    v3.2d, v3.2s, #0
-    WORD $0x2f20a442 // ushll    v2.2d, v2.2s, #0
-    WORD $0x2f20a484 // ushll    v4.2d, v4.2s, #0
-    WORD $0x2f20a4a5 // ushll    v5.2d, v5.2s, #0
-    WORD $0x2f20a4c6 // ushll    v6.2d, v6.2s, #0
-    WORD $0x2f20a4e7 // ushll    v7.2d, v7.2s, #0
-    WORD $0x2f20a610 // ushll    v16.2d, v16.2s, #0
-    WORD $0x2f20a421 // ushll    v1.2d, v1.2s, #0
-    WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
-    WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
-    WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
-    WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
-    WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
-    WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
-    WORD $0x6e61da10 // ucvtf    v16.2d, v16.2d
-    WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
-    WORD $0xad021564 // stp    q4, q5, [x11, #64]
-    WORD $0xad000963 // stp    q3, q2, [x11]
-    WORD $0xad030570 // stp    q16, q1, [x11, #96]
-    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
-    WORD $0x9102016b // add    x11, x11, #128
-    BNE LBB0_684
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_686:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_687:
-    WORD $0x7840252b // ldrh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e630160 // ucvtf    d0, w11
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_687
-    JMP LBB0_893
-LBB0_688:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_689:
-    WORD $0xacc10583 // ldp    q3, q1, [x12], #32
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x6e034060 // ext    v0.16b, v3.16b, v3.16b, #8
-    WORD $0x0e023c6d // umov    w13, v3.h[0]
-    WORD $0x0e0a3c6f // umov    w15, v3.h[2]
-    WORD $0x6e014022 // ext    v2.16b, v1.16b, v1.16b, #8
-    WORD $0x0e063c6e // umov    w14, v3.h[1]
-    WORD $0x0e0e3c70 // umov    w16, v3.h[3]
-    WORD $0x0e023c31 // umov    w17, v1.h[0]
-    WORD $0x0e063c32 // umov    w18, v1.h[1]
-    WORD $0x0e0a3c20 // umov    w0, v1.h[2]
-    WORD $0x1e2701a3 // fmov    s3, w13
-    WORD $0x0e0e3c2d // umov    w13, v1.h[3]
-    WORD $0x1e2701e1 // fmov    s1, w15
-    WORD $0x0e023c0f // umov    w15, v0.h[0]
-    WORD $0x1e270005 // fmov    s5, w0
-    WORD $0x0e0a3c00 // umov    w0, v0.h[2]
-    WORD $0x1e2701e6 // fmov    s6, w15
-    WORD $0x0e023c4f // umov    w15, v2.h[0]
-    WORD $0x1e270007 // fmov    s7, w0
-    WORD $0x0e0a3c40 // umov    w0, v2.h[2]
-    WORD $0x1e2701f0 // fmov    s16, w15
-    WORD $0x4e0c1da5 // mov    v5.s[1], w13
-    WORD $0x0e063c4d // umov    w13, v2.h[1]
-    WORD $0x1e270224 // fmov    s4, w17
-    WORD $0x0e063c11 // umov    w17, v0.h[1]
-    WORD $0x0e0e3c0f // umov    w15, v0.h[3]
-    WORD $0x1e270000 // fmov    s0, w0
-    WORD $0x4e0c1db0 // mov    v16.s[1], w13
-    WORD $0x0e0e3c4d // umov    w13, v2.h[3]
-    WORD $0x4e0c1dc3 // mov    v3.s[1], w14
-    WORD $0x4e0c1e01 // mov    v1.s[1], w16
-    WORD $0x4e0c1e44 // mov    v4.s[1], w18
-    WORD $0x4e0c1e26 // mov    v6.s[1], w17
-    WORD $0x4e0c1de7 // mov    v7.s[1], w15
-    WORD $0x4e0c1da0 // mov    v0.s[1], w13
-    WORD $0x0f305462 // shl    v2.2s, v3.2s, #16
-    WORD $0x0f305421 // shl    v1.2s, v1.2s, #16
-    WORD $0x0f305483 // shl    v3.2s, v4.2s, #16
-    WORD $0x0f3054a4 // shl    v4.2s, v5.2s, #16
-    WORD $0x0f3054c5 // shl    v5.2s, v6.2s, #16
-    WORD $0x0f3054e6 // shl    v6.2s, v7.2s, #16
-    WORD $0x0f305607 // shl    v7.2s, v16.2s, #16
-    WORD $0x0f305400 // shl    v0.2s, v0.2s, #16
-    WORD $0x0f300442 // sshr    v2.2s, v2.2s, #16
-    WORD $0x0f300421 // sshr    v1.2s, v1.2s, #16
-    WORD $0x0f300463 // sshr    v3.2s, v3.2s, #16
-    WORD $0x0f300484 // sshr    v4.2s, v4.2s, #16
-    WORD $0x0f3004a5 // sshr    v5.2s, v5.2s, #16
-    WORD $0x0f3004c6 // sshr    v6.2s, v6.2s, #16
-    WORD $0x0f3004e7 // sshr    v7.2s, v7.2s, #16
-    WORD $0x0f300400 // sshr    v0.2s, v0.2s, #16
-    WORD $0x0f20a442 // sshll    v2.2d, v2.2s, #0
-    WORD $0x0f20a421 // sshll    v1.2d, v1.2s, #0
-    WORD $0x0f20a463 // sshll    v3.2d, v3.2s, #0
-    WORD $0x0f20a484 // sshll    v4.2d, v4.2s, #0
-    WORD $0x0f20a4a5 // sshll    v5.2d, v5.2s, #0
-    WORD $0x0f20a4c6 // sshll    v6.2d, v6.2s, #0
-    WORD $0x0f20a4e7 // sshll    v7.2d, v7.2s, #0
-    WORD $0x0f20a400 // sshll    v0.2d, v0.2s, #0
-    WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
-    WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
-    WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
-    WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
-    WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
-    WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
-    WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
-    WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
-    WORD $0xad021163 // stp    q3, q4, [x11, #64]
-    WORD $0xad000562 // stp    q2, q1, [x11]
-    WORD $0xad030167 // stp    q7, q0, [x11, #96]
-    WORD $0xad011965 // stp    q5, q6, [x11, #32]
-    WORD $0x9102016b // add    x11, x11, #128
-    BNE LBB0_689
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_691:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_692:
-    WORD $0x78c0252b // ldrsh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e620160 // scvtf    d0, w11
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_692
-    JMP LBB0_893
-LBB0_693:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_694:
-    WORD $0xad430580 // ldp    q0, q1, [x12, #96]
-    WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
-    WORD $0xad401584 // ldp    q4, q5, [x12]
-    WORD $0xad411d86 // ldp    q6, q7, [x12, #32]
-    WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
-    WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
-    WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
-    WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
-    WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
-    WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
-    WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
-    WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
-    WORD $0x9102018c // add    x12, x12, #128
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad030560 // stp    q0, q1, [x11, #96]
-    WORD $0xad020d62 // stp    q2, q3, [x11, #64]
-    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
-    WORD $0xac841564 // stp    q4, q5, [x11], #128
-    BNE LBB0_694
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_696:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_697:
-    WORD $0xfc408540 // ldr    d0, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x5e61d800 // scvtf    d0, d0
-    WORD $0xfc008520 // str    d0, [x9], #8
-    BNE LBB0_697
-    JMP LBB0_893
-LBB0_698:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_699:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0e617824 // fcvtl    v4.2d, v1.2s
-    WORD $0x0e617805 // fcvtl    v5.2d, v0.2s
-    WORD $0x0e617866 // fcvtl    v6.2d, v3.2s
-    WORD $0x0e617847 // fcvtl    v7.2d, v2.2s
-    WORD $0x4e617821 // fcvtl2    v1.2d, v1.4s
-    WORD $0x4e617800 // fcvtl2    v0.2d, v0.4s
-    WORD $0x4e617863 // fcvtl2    v3.2d, v3.4s
-    WORD $0x4e617842 // fcvtl2    v2.2d, v2.4s
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_699
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_701:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_702:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e22c000 // fcvt    d0, s0
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_702
-    JMP LBB0_893
-LBB0_703:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_704:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0f20a424 // sshll    v4.2d, v1.2s, #0
-    WORD $0x0f20a405 // sshll    v5.2d, v0.2s, #0
-    WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
-    WORD $0x0f20a447 // sshll    v7.2d, v2.2s, #0
-    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-    WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
-    WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
-    WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
-    WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
-    WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
-    WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
-    WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
-    WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_704
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_706:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_707:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e620160 // scvtf    d0, w11
-    WORD $0xfc008540 // str    d0, [x10], #8
-    BNE LBB0_707
-    JMP LBB0_893
-LBB0_708:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_709:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x2f20a424 // ushll    v4.2d, v1.2s, #0
-    WORD $0x2f20a405 // ushll    v5.2d, v0.2s, #0
-    WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
-    WORD $0x2f20a447 // ushll    v7.2d, v2.2s, #0
-    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_709
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_711:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_712:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_712
-    JMP LBB0_893
-LBB0_713:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_714:
-    WORD $0xad430580 // ldp    q0, q1, [x12, #96]
-    WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
-    WORD $0xad401584 // ldp    q4, q5, [x12]
-    WORD $0xad411d86 // ldp    q6, q7, [x12, #32]
-    WORD $0x6ee1b821 // fcvtzu    v1.2d, v1.2d
-    WORD $0x6ee1b863 // fcvtzu    v3.2d, v3.2d
-    WORD $0x6ee1b8a5 // fcvtzu    v5.2d, v5.2d
-    WORD $0x6ee1b884 // fcvtzu    v4.2d, v4.2d
-    WORD $0x6ee1b8e7 // fcvtzu    v7.2d, v7.2d
-    WORD $0x6ee1b8c6 // fcvtzu    v6.2d, v6.2d
-    WORD $0x6ee1b842 // fcvtzu    v2.2d, v2.2d
-    WORD $0x6ee1b800 // fcvtzu    v0.2d, v0.2d
-    WORD $0x9102018c // add    x12, x12, #128
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad030560 // stp    q0, q1, [x11, #96]
-    WORD $0xad020d62 // stp    q2, q3, [x11, #64]
-    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
-    WORD $0xac841564 // stp    q4, q5, [x11], #128
-    BNE LBB0_714
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_716:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_717:
-    WORD $0xfc408540 // ldr    d0, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x9e79000b // fcvtzu    x11, d0
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_717
-    JMP LBB0_893
-LBB0_718:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_719:
-    WORD $0xacc10580 // ldp    q0, q1, [x12], #32
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x2f10a402 // ushll    v2.4s, v0.4h, #0
-    WORD $0x2f10a423 // ushll    v3.4s, v1.4h, #0
-    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-    WORD $0x2f20a444 // ushll    v4.2d, v2.2s, #0
-    WORD $0x2f20a465 // ushll    v5.2d, v3.2s, #0
-    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-    WORD $0x2f20a406 // ushll    v6.2d, v0.2s, #0
-    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-    WORD $0x2f20a427 // ushll    v7.2d, v1.2s, #0
-    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-    WORD $0xad030567 // stp    q7, q1, [x11, #96]
-    WORD $0xad010166 // stp    q6, q0, [x11, #32]
-    WORD $0xad020d65 // stp    q5, q3, [x11, #64]
-    WORD $0xac840964 // stp    q4, q2, [x11], #128
-    BNE LBB0_719
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_721:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_722:
-    WORD $0x7840252b // ldrh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_722
-    JMP LBB0_893
-LBB0_723:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_724:
-    WORD $0xacc10580 // ldp    q0, q1, [x12], #32
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0f10a402 // sshll    v2.4s, v0.4h, #0
-    WORD $0x0f10a423 // sshll    v3.4s, v1.4h, #0
-    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-    WORD $0x0f20a444 // sshll    v4.2d, v2.2s, #0
-    WORD $0x0f20a465 // sshll    v5.2d, v3.2s, #0
-    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-    WORD $0x0f20a406 // sshll    v6.2d, v0.2s, #0
-    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-    WORD $0x0f20a427 // sshll    v7.2d, v1.2s, #0
-    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-    WORD $0xad030567 // stp    q7, q1, [x11, #96]
-    WORD $0xad010166 // stp    q6, q0, [x11, #32]
-    WORD $0xad020d65 // stp    q5, q3, [x11, #64]
-    WORD $0xac840964 // stp    q4, q2, [x11], #128
-    BNE LBB0_724
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_726:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_727:
-    WORD $0x7880252b // ldrsh    x11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_727
-    JMP LBB0_893
-LBB0_728:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_729:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0e617824 // fcvtl    v4.2d, v1.2s
-    WORD $0x0e617805 // fcvtl    v5.2d, v0.2s
-    WORD $0x0e617866 // fcvtl    v6.2d, v3.2s
-    WORD $0x0e617847 // fcvtl    v7.2d, v2.2s
-    WORD $0x4e617821 // fcvtl2    v1.2d, v1.4s
-    WORD $0x4e617800 // fcvtl2    v0.2d, v0.4s
-    WORD $0x4e617863 // fcvtl2    v3.2d, v3.4s
-    WORD $0x4e617842 // fcvtl2    v2.2d, v2.4s
-    WORD $0x6ee1b884 // fcvtzu    v4.2d, v4.2d
-    WORD $0x6ee1b8a5 // fcvtzu    v5.2d, v5.2d
-    WORD $0x6ee1b8c6 // fcvtzu    v6.2d, v6.2d
-    WORD $0x6ee1b8e7 // fcvtzu    v7.2d, v7.2d
-    WORD $0x6ee1b821 // fcvtzu    v1.2d, v1.2d
-    WORD $0x6ee1b800 // fcvtzu    v0.2d, v0.2d
-    WORD $0x6ee1b863 // fcvtzu    v3.2d, v3.2d
-    WORD $0x6ee1b842 // fcvtzu    v2.2d, v2.2d
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_729
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_731:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_732:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x9e39000b // fcvtzu    x11, s0
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_732
-    JMP LBB0_893
-LBB0_733:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_734:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0f20a424 // sshll    v4.2d, v1.2s, #0
-    WORD $0x0f20a405 // sshll    v5.2d, v0.2s, #0
-    WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
-    WORD $0x0f20a447 // sshll    v7.2d, v2.2s, #0
-    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_734
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_736:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_737:
-    WORD $0xb880452b // ldrsw    x11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_737
-    JMP LBB0_893
-LBB0_738:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9100806b // add    x11, x3, #32
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_739:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x0e612821 // xtn    v1.4h, v1.4s
-    WORD $0x0e612863 // xtn    v3.4h, v3.4s
-    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
-    WORD $0xac821d65 // stp    q5, q7, [x11], #64
-    BNE LBB0_739
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_741:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_742:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_742
-    JMP LBB0_893
-LBB0_743:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9100806b // add    x11, x3, #32
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_744:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x0e612821 // xtn    v1.4h, v1.4s
-    WORD $0x0e612863 // xtn    v3.4h, v3.4s
-    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
-    WORD $0xac821d65 // stp    q5, q7, [x11], #64
-    BNE LBB0_744
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_746:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_747:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_747
-    JMP LBB0_893
-LBB0_748:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_749:
-    WORD $0xad400983 // ldp    q3, q2, [x12]
-    WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xad430181 // ldp    q1, q0, [x12, #96]
-    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-    WORD $0x0ea12842 // xtn    v2.2s, v2.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x0e0c3c6d // mov    w13, v3.s[1]
-    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-    WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-    WORD $0x1e26004f // fmov    w15, s2
-    WORD $0x4e061da3 // mov    v3.h[1], w13
-    WORD $0x0e0c3ced // mov    w13, v7.s[1]
-    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0e0c3c4e // mov    w14, v2.s[1]
-    WORD $0x4e061da7 // mov    v7.h[1], w13
-    WORD $0x4e0a1de3 // mov    v3.h[2], w15
-    WORD $0x1e2600cf // fmov    w15, s6
-    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0e0c3ccd // mov    w13, v6.s[1]
-    WORD $0x4e0a1de7 // mov    v7.h[2], w15
-    WORD $0x4e0e1dc3 // mov    v3.h[3], w14
-    WORD $0x1e2600ae // fmov    w14, s5
-    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-    WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-    WORD $0x0e0c3caf // mov    w15, v5.s[1]
-    WORD $0x4e0e1da7 // mov    v7.h[3], w13
-    WORD $0x4e121dc3 // mov    v3.h[4], w14
-    WORD $0x1e26002e // fmov    w14, s1
-    WORD $0x0ea12800 // xtn    v0.2s, v0.2d
-    WORD $0x0e0c3c2d // mov    w13, v1.s[1]
-    WORD $0x4e121dc7 // mov    v7.h[4], w14
-    WORD $0x4e161de3 // mov    v3.h[5], w15
-    WORD $0x1e26008f // fmov    w15, s4
-    WORD $0x4e161da7 // mov    v7.h[5], w13
-    WORD $0x4e1a1de3 // mov    v3.h[6], w15
-    WORD $0x1e26000f // fmov    w15, s0
-    WORD $0x0e0c3c8e // mov    w14, v4.s[1]
-    WORD $0x0e0c3c0d // mov    w13, v0.s[1]
-    WORD $0x4e1a1de7 // mov    v7.h[6], w15
-    WORD $0x4e1e1dc3 // mov    v3.h[7], w14
-    WORD $0x4e1e1da7 // mov    v7.h[7], w13
-    WORD $0x9102018c // add    x12, x12, #128
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xac811d63 // stp    q3, q7, [x11], #32
-    BNE LBB0_749
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_751:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_752:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e78000b // fcvtzs    w11, d0
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_752
-    JMP LBB0_893
-LBB0_753:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_754:
-    WORD $0xad400983 // ldp    q3, q2, [x12]
-    WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xad430181 // ldp    q1, q0, [x12, #96]
-    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-    WORD $0x0ea12842 // xtn    v2.2s, v2.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x0e0c3c6d // mov    w13, v3.s[1]
-    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-    WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-    WORD $0x1e26004f // fmov    w15, s2
-    WORD $0x4e061da3 // mov    v3.h[1], w13
-    WORD $0x0e0c3ced // mov    w13, v7.s[1]
-    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0e0c3c4e // mov    w14, v2.s[1]
-    WORD $0x4e061da7 // mov    v7.h[1], w13
-    WORD $0x4e0a1de3 // mov    v3.h[2], w15
-    WORD $0x1e2600cf // fmov    w15, s6
-    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0e0c3ccd // mov    w13, v6.s[1]
-    WORD $0x4e0a1de7 // mov    v7.h[2], w15
-    WORD $0x4e0e1dc3 // mov    v3.h[3], w14
-    WORD $0x1e2600ae // fmov    w14, s5
-    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-    WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-    WORD $0x0e0c3caf // mov    w15, v5.s[1]
-    WORD $0x4e0e1da7 // mov    v7.h[3], w13
-    WORD $0x4e121dc3 // mov    v3.h[4], w14
-    WORD $0x1e26002e // fmov    w14, s1
-    WORD $0x0ea12800 // xtn    v0.2s, v0.2d
-    WORD $0x0e0c3c2d // mov    w13, v1.s[1]
-    WORD $0x4e121dc7 // mov    v7.h[4], w14
-    WORD $0x4e161de3 // mov    v3.h[5], w15
-    WORD $0x1e26008f // fmov    w15, s4
-    WORD $0x4e161da7 // mov    v7.h[5], w13
-    WORD $0x4e1a1de3 // mov    v3.h[6], w15
-    WORD $0x1e26000f // fmov    w15, s0
-    WORD $0x0e0c3c8e // mov    w14, v4.s[1]
-    WORD $0x0e0c3c0d // mov    w13, v0.s[1]
-    WORD $0x4e1a1de7 // mov    v7.h[6], w15
-    WORD $0x4e1e1dc3 // mov    v3.h[7], w14
-    WORD $0x4e1e1da7 // mov    v7.h[7], w13
-    WORD $0x9102018c // add    x12, x12, #128
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xac811d63 // stp    q3, q7, [x11], #32
-    BNE LBB0_754
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_756:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_757:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e78000b // fcvtzs    w11, d0
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_757
-    JMP LBB0_893
-LBB0_758:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_759:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x0e6128e4 // xtn    v4.4h, v7.4s
-    WORD $0x4e6128a4 // xtn2    v4.8h, v5.4s
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0x0e612820 // xtn    v0.4h, v1.4s
-    WORD $0x4e612860 // xtn2    v0.8h, v3.4s
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xac810164 // stp    q4, q0, [x11], #32
-    BNE LBB0_759
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_761:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_762:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_762
-    JMP LBB0_893
-LBB0_763:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_764:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x0e6128e4 // xtn    v4.4h, v7.4s
-    WORD $0x4e6128a4 // xtn2    v4.8h, v5.4s
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0x0e612820 // xtn    v0.4h, v1.4s
-    WORD $0x4e612860 // xtn2    v0.8h, v3.4s
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xac810164 // stp    q4, q0, [x11], #32
-    BNE LBB0_764
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_766:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_767:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_767
-    JMP LBB0_893
-LBB0_768:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_769:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x0e6128e4 // xtn    v4.4h, v7.4s
-    WORD $0x4e6128a4 // xtn2    v4.8h, v5.4s
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0x0e612820 // xtn    v0.4h, v1.4s
-    WORD $0x4e612860 // xtn2    v0.8h, v3.4s
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xac810164 // stp    q4, q0, [x11], #32
-    BNE LBB0_769
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_771:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_772:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_772
-    JMP LBB0_893
-LBB0_773:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_774:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x0e6128e4 // xtn    v4.4h, v7.4s
-    WORD $0x4e6128a4 // xtn2    v4.8h, v5.4s
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0x0e612820 // xtn    v0.4h, v1.4s
-    WORD $0x4e612860 // xtn2    v0.8h, v3.4s
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xac810164 // stp    q4, q0, [x11], #32
-    BNE LBB0_774
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_776:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_777:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_777
-    JMP LBB0_893
-LBB0_778:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9100806b // add    x11, x3, #32
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_779:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x6ea1b821 // fcvtzu    v1.4s, v1.4s
-    WORD $0x6ea1b863 // fcvtzu    v3.4s, v3.4s
-    WORD $0x6ea1b8a5 // fcvtzu    v5.4s, v5.4s
-    WORD $0x6ea1b8e7 // fcvtzu    v7.4s, v7.4s
-    WORD $0x6ea1b842 // fcvtzu    v2.4s, v2.4s
-    WORD $0x6ea1b800 // fcvtzu    v0.4s, v0.4s
-    WORD $0x6ea1b8c6 // fcvtzu    v6.4s, v6.4s
-    WORD $0x6ea1b884 // fcvtzu    v4.4s, v4.4s
-    WORD $0x0e612863 // xtn    v3.4h, v3.4s
-    WORD $0x0e612821 // xtn    v1.4h, v1.4s
-    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
-    WORD $0xac821d65 // stp    q5, q7, [x11], #64
-    BNE LBB0_779
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_781:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_782:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e38000b // fcvtzs    w11, s0
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_782
-    JMP LBB0_893
-LBB0_783:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9100806b // add    x11, x3, #32
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_784:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x4ea1b821 // fcvtzs    v1.4s, v1.4s
-    WORD $0x4ea1b863 // fcvtzs    v3.4s, v3.4s
-    WORD $0x4ea1b8a5 // fcvtzs    v5.4s, v5.4s
-    WORD $0x4ea1b8e7 // fcvtzs    v7.4s, v7.4s
-    WORD $0x4ea1b842 // fcvtzs    v2.4s, v2.4s
-    WORD $0x4ea1b800 // fcvtzs    v0.4s, v0.4s
-    WORD $0x4ea1b8c6 // fcvtzs    v6.4s, v6.4s
-    WORD $0x4ea1b884 // fcvtzs    v4.4s, v4.4s
-    WORD $0x0e612863 // xtn    v3.4h, v3.4s
-    WORD $0x0e612821 // xtn    v1.4h, v1.4s
-    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
-    WORD $0xac821d65 // stp    q5, q7, [x11], #64
-    BNE LBB0_784
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_786:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_787:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e38000b // fcvtzs    w11, s0
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_787
-    JMP LBB0_893
-LBB0_788:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9100806b // add    x11, x3, #32
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_789:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x0e612821 // xtn    v1.4h, v1.4s
-    WORD $0x0e612863 // xtn    v3.4h, v3.4s
-    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
-    WORD $0xac821d65 // stp    q5, q7, [x11], #64
-    BNE LBB0_789
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_791:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_792:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_792
-    JMP LBB0_893
-LBB0_793:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9100806b // add    x11, x3, #32
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_794:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x0e612821 // xtn    v1.4h, v1.4s
-    WORD $0x0e612863 // xtn    v3.4h, v3.4s
-    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
-    WORD $0xac821d65 // stp    q5, q7, [x11], #64
-    BNE LBB0_794
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_796:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_797:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7800254b // strh    w11, [x10], #2
-    BNE LBB0_797
-    JMP LBB0_893
-LBB0_798:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_799:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x2f20a424 // ushll    v4.2d, v1.2s, #0
-    WORD $0x2f20a405 // ushll    v5.2d, v0.2s, #0
-    WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
-    WORD $0x2f20a447 // ushll    v7.2d, v2.2s, #0
-    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_799
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_801:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_802:
-    WORD $0xb840452b // ldr    w11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_802
-    JMP LBB0_893
-LBB0_803:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_804:
-    WORD $0xad7f0540 // ldp    q0, q1, [x10, #-32]
-    WORD $0xad7e0d42 // ldp    q2, q3, [x10, #-64]
-    WORD $0xad411544 // ldp    q4, q5, [x10, #32]
-    WORD $0xacc41d46 // ldp    q6, q7, [x10], #128
-    WORD $0x6e21d821 // ucvtf    v1.4s, v1.4s
-    WORD $0x6e21d863 // ucvtf    v3.4s, v3.4s
-    WORD $0x6e21d842 // ucvtf    v2.4s, v2.4s
-    WORD $0x6e21d800 // ucvtf    v0.4s, v0.4s
-    WORD $0x6e21d8e7 // ucvtf    v7.4s, v7.4s
-    WORD $0x6e21d8c6 // ucvtf    v6.4s, v6.4s
-    WORD $0x6e21d8a5 // ucvtf    v5.4s, v5.4s
-    WORD $0x6e21d884 // ucvtf    v4.4s, v4.4s
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0560 // stp    q0, q1, [x11, #-32]
-    WORD $0xad3e0d62 // stp    q2, q3, [x11, #-64]
-    WORD $0xad011564 // stp    q4, q5, [x11, #32]
-    WORD $0xac841d66 // stp    q6, q7, [x11], #128
-    BNE LBB0_804
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_806:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_807:
-    WORD $0xbc404540 // ldr    s0, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x7e21d800 // ucvtf    s0, s0
-    WORD $0xbc004520 // str    s0, [x9], #4
-    BNE LBB0_807
-    JMP LBB0_893
-LBB0_808:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_809:
-    WORD $0xad430580 // ldp    q0, q1, [x12, #96]
-    WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
-    WORD $0xad401584 // ldp    q4, q5, [x12]
-    WORD $0xad411d86 // ldp    q6, q7, [x12, #32]
-    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-    WORD $0x9102018c // add    x12, x12, #128
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad030560 // stp    q0, q1, [x11, #96]
-    WORD $0xad020d62 // stp    q2, q3, [x11, #64]
-    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
-    WORD $0xac841564 // stp    q4, q5, [x11], #128
-    BNE LBB0_809
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_811:
-    WORD $0xd37df12a // lsl    x10, x9, #3
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_812:
-    WORD $0xfc408540 // ldr    d0, [x10], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x9e78000b // fcvtzs    x11, d0
-    WORD $0xf800852b // str    x11, [x9], #8
-    BNE LBB0_812
-    JMP LBB0_893
-LBB0_813:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_814:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0e616821 // fcvtn    v1.2s, v1.2d
-    WORD $0x0e616863 // fcvtn    v3.2s, v3.2d
-    WORD $0x0e6168a5 // fcvtn    v5.2s, v5.2d
-    WORD $0x0e6168e7 // fcvtn    v7.2s, v7.2d
-    WORD $0x4e616885 // fcvtn2    v5.4s, v4.2d
-    WORD $0x4e6168c7 // fcvtn2    v7.4s, v6.2d
-    WORD $0x4e616843 // fcvtn2    v3.4s, v2.2d
-    WORD $0x4e616801 // fcvtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_814
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_816:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_817:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e624000 // fcvt    s0, d0
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_817
-    JMP LBB0_893
-LBB0_818:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_819:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
-    WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
-    WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
-    WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
-    WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
-    WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
-    WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
-    WORD $0x6e61d800 // ucvtf    v0.2d, v0.2d
-    WORD $0x0e6168a5 // fcvtn    v5.2s, v5.2d
-    WORD $0x0e6168e7 // fcvtn    v7.2s, v7.2d
-    WORD $0x0e616863 // fcvtn    v3.2s, v3.2d
-    WORD $0x0e616821 // fcvtn    v1.2s, v1.2d
-    WORD $0x4e616885 // fcvtn2    v5.4s, v4.2d
-    WORD $0x4e6168c7 // fcvtn2    v7.4s, v6.2d
-    WORD $0x4e616843 // fcvtn2    v3.4s, v2.2d
-    WORD $0x4e616801 // fcvtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_819
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_821:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_822:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x9e230160 // ucvtf    s0, x11
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_822
-    JMP LBB0_893
-LBB0_823:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_824:
-    WORD $0xacc10580 // ldp    q0, q1, [x12], #32
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x2f10a402 // ushll    v2.4s, v0.4h, #0
-    WORD $0x2f10a423 // ushll    v3.4s, v1.4h, #0
-    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-    WORD $0x2f20a444 // ushll    v4.2d, v2.2s, #0
-    WORD $0x2f20a465 // ushll    v5.2d, v3.2s, #0
-    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-    WORD $0x2f20a406 // ushll    v6.2d, v0.2s, #0
-    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-    WORD $0x2f20a427 // ushll    v7.2d, v1.2s, #0
-    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-    WORD $0xad030567 // stp    q7, q1, [x11, #96]
-    WORD $0xad010166 // stp    q6, q0, [x11, #32]
-    WORD $0xad020d65 // stp    q5, q3, [x11, #64]
-    WORD $0xac840964 // stp    q4, q2, [x11], #128
-    BNE LBB0_824
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_826:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_827:
-    WORD $0x7840252b // ldrh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_827
-    JMP LBB0_893
-LBB0_828:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100804a // add    x10, x2, #32
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_829:
-    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0x2f10a424 // ushll    v4.4s, v1.4h, #0
-    WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
-    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-    WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
-    WORD $0x2f10a447 // ushll    v7.4s, v2.4h, #0
-    WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
-    WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
-    WORD $0x6e21d884 // ucvtf    v4.4s, v4.4s
-    WORD $0x6e21d8a5 // ucvtf    v5.4s, v5.4s
-    WORD $0x6e21d821 // ucvtf    v1.4s, v1.4s
-    WORD $0x6e21d800 // ucvtf    v0.4s, v0.4s
-    WORD $0x6e21d8c6 // ucvtf    v6.4s, v6.4s
-    WORD $0x6e21d8e7 // ucvtf    v7.4s, v7.4s
-    WORD $0x6e21d863 // ucvtf    v3.4s, v3.4s
-    WORD $0x6e21d842 // ucvtf    v2.4s, v2.4s
-    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
-    WORD $0xad010967 // stp    q7, q2, [x11, #32]
-    WORD $0xac840d66 // stp    q6, q3, [x11], #128
-    BNE LBB0_829
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_831:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_832:
-    WORD $0x7840252b // ldrh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e230160 // ucvtf    s0, w11
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_832
-    JMP LBB0_893
-LBB0_833:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_834:
-    WORD $0xacc10580 // ldp    q0, q1, [x12], #32
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0f10a402 // sshll    v2.4s, v0.4h, #0
-    WORD $0x0f10a423 // sshll    v3.4s, v1.4h, #0
-    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-    WORD $0x0f20a444 // sshll    v4.2d, v2.2s, #0
-    WORD $0x0f20a465 // sshll    v5.2d, v3.2s, #0
-    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-    WORD $0x0f20a406 // sshll    v6.2d, v0.2s, #0
-    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-    WORD $0x0f20a427 // sshll    v7.2d, v1.2s, #0
-    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-    WORD $0xad030567 // stp    q7, q1, [x11, #96]
-    WORD $0xad010166 // stp    q6, q0, [x11, #32]
-    WORD $0xad020d65 // stp    q5, q3, [x11, #64]
-    WORD $0xac840964 // stp    q4, q2, [x11], #128
-    BNE LBB0_834
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_836:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_837:
-    WORD $0x7880252b // ldrsh    x11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_837
-    JMP LBB0_893
-LBB0_838:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100804a // add    x10, x2, #32
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_839:
-    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0x0f10a424 // sshll    v4.4s, v1.4h, #0
-    WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
-    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-    WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
-    WORD $0x0f10a447 // sshll    v7.4s, v2.4h, #0
-    WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
-    WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
-    WORD $0x4e21d884 // scvtf    v4.4s, v4.4s
-    WORD $0x4e21d8a5 // scvtf    v5.4s, v5.4s
-    WORD $0x4e21d821 // scvtf    v1.4s, v1.4s
-    WORD $0x4e21d800 // scvtf    v0.4s, v0.4s
-    WORD $0x4e21d8c6 // scvtf    v6.4s, v6.4s
-    WORD $0x4e21d8e7 // scvtf    v7.4s, v7.4s
-    WORD $0x4e21d863 // scvtf    v3.4s, v3.4s
-    WORD $0x4e21d842 // scvtf    v2.4s, v2.4s
-    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
-    WORD $0xad010967 // stp    q7, q2, [x11, #32]
-    WORD $0xac840d66 // stp    q6, q3, [x11], #128
-    BNE LBB0_839
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_841:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_842:
-    WORD $0x78c0252b // ldrsh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e220160 // scvtf    s0, w11
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_842
-    JMP LBB0_893
-LBB0_843:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_844:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
-    WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
-    WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
-    WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
-    WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
-    WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
-    WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
-    WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
-    WORD $0x0e6168a5 // fcvtn    v5.2s, v5.2d
-    WORD $0x0e6168e7 // fcvtn    v7.2s, v7.2d
-    WORD $0x0e616863 // fcvtn    v3.2s, v3.2d
-    WORD $0x0e616821 // fcvtn    v1.2s, v1.2d
-    WORD $0x4e616885 // fcvtn2    v5.4s, v4.2d
-    WORD $0x4e6168c7 // fcvtn2    v7.4s, v6.2d
-    WORD $0x4e616843 // fcvtn2    v3.4s, v2.2d
-    WORD $0x4e616801 // fcvtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_844
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_846:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_847:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x9e220160 // scvtf    s0, x11
-    WORD $0xbc004540 // str    s0, [x10], #4
-    BNE LBB0_847
-    JMP LBB0_893
-LBB0_848:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_849:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0e617824 // fcvtl    v4.2d, v1.2s
-    WORD $0x0e617805 // fcvtl    v5.2d, v0.2s
-    WORD $0x0e617866 // fcvtl    v6.2d, v3.2s
-    WORD $0x0e617847 // fcvtl    v7.2d, v2.2s
-    WORD $0x4e617821 // fcvtl2    v1.2d, v1.4s
-    WORD $0x4e617800 // fcvtl2    v0.2d, v0.4s
-    WORD $0x4e617863 // fcvtl2    v3.2d, v3.4s
-    WORD $0x4e617842 // fcvtl2    v2.2d, v2.4s
-    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_849
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_851:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_852:
-    WORD $0xbc404520 // ldr    s0, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x9e38000b // fcvtzs    x11, s0
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_852
-    JMP LBB0_893
-LBB0_853:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_854:
-    WORD $0xad400181 // ldp    q1, q0, [x12]
-    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-    WORD $0x9101018c // add    x12, x12, #64
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0x0f20a424 // sshll    v4.2d, v1.2s, #0
-    WORD $0x0f20a405 // sshll    v5.2d, v0.2s, #0
-    WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
-    WORD $0x0f20a447 // sshll    v7.2d, v2.2s, #0
-    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-    WORD $0xad030967 // stp    q7, q2, [x11, #96]
-    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-    WORD $0xad010165 // stp    q5, q0, [x11, #32]
-    WORD $0xac840564 // stp    q4, q1, [x11], #128
-    BNE LBB0_854
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_856:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
-    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
-LBB0_857:
-    WORD $0xb880452b // ldrsw    x11, [x9], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xf800854b // str    x11, [x10], #8
-    BNE LBB0_857
-    JMP LBB0_893
-LBB0_858:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_859:
-    WORD $0xad7f0540 // ldp    q0, q1, [x10, #-32]
-    WORD $0xad7e0d42 // ldp    q2, q3, [x10, #-64]
-    WORD $0xad411544 // ldp    q4, q5, [x10, #32]
-    WORD $0xacc41d46 // ldp    q6, q7, [x10], #128
-    WORD $0x4e21d821 // scvtf    v1.4s, v1.4s
-    WORD $0x4e21d863 // scvtf    v3.4s, v3.4s
-    WORD $0x4e21d842 // scvtf    v2.4s, v2.4s
-    WORD $0x4e21d800 // scvtf    v0.4s, v0.4s
-    WORD $0x4e21d8e7 // scvtf    v7.4s, v7.4s
-    WORD $0x4e21d8c6 // scvtf    v6.4s, v6.4s
-    WORD $0x4e21d8a5 // scvtf    v5.4s, v5.4s
-    WORD $0x4e21d884 // scvtf    v4.4s, v4.4s
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0560 // stp    q0, q1, [x11, #-32]
-    WORD $0xad3e0d62 // stp    q2, q3, [x11, #-64]
-    WORD $0xad011564 // stp    q4, q5, [x11, #32]
-    WORD $0xac841d66 // stp    q6, q7, [x11], #128
-    BNE LBB0_859
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_861:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_862:
-    WORD $0xbc404540 // ldr    s0, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x5e21d800 // scvtf    s0, s0
-    WORD $0xbc004520 // str    s0, [x9], #4
-    BNE LBB0_862
-    JMP LBB0_893
-LBB0_863:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_864:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_864
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_866:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_867:
-    WORD $0xfc408520 // ldr    d0, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e78000b // fcvtzs    w11, d0
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_867
-    JMP LBB0_893
-LBB0_868:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_869:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_869
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_871:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_872:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_872
-    JMP LBB0_893
-LBB0_873:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100804a // add    x10, x2, #32
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_874:
-    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0x2f10a424 // ushll    v4.4s, v1.4h, #0
-    WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
-    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-    WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
-    WORD $0x2f10a447 // ushll    v7.4s, v2.4h, #0
-    WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
-    WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
-    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
-    WORD $0xad010967 // stp    q7, q2, [x11, #32]
-    WORD $0xac840d66 // stp    q6, q3, [x11], #128
-    BNE LBB0_874
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_876:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_877:
-    WORD $0x7840252b // ldrh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_877
-    JMP LBB0_893
-LBB0_878:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100804a // add    x10, x2, #32
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_879:
-    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0x0f10a424 // sshll    v4.4s, v1.4h, #0
-    WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
-    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-    WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
-    WORD $0x0f10a447 // sshll    v7.4s, v2.4h, #0
-    WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
-    WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
-    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
-    WORD $0xad010967 // stp    q7, q2, [x11, #32]
-    WORD $0xac840d66 // stp    q6, q3, [x11], #128
-    BNE LBB0_879
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_881:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
-LBB0_882:
-    WORD $0x78c0252b // ldrsh    w11, [x9], #2
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_882
-    JMP LBB0_893
-LBB0_883:
-    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-    WORD $0xaa0903ea // mov    x10, x9
-    WORD $0xaa0303eb // mov    x11, x3
-    WORD $0xaa0203ec // mov    x12, x2
-LBB0_884:
-    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
-    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
-    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
-    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
-    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
-    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
-    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
-    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
-    WORD $0xf100414a // subs    x10, x10, #16
-    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
-    WORD $0xac821567 // stp    q7, q5, [x11], #64
-    BNE LBB0_884
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_886:
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
-    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
-LBB0_887:
-    WORD $0xf840852b // ldr    x11, [x9], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0xb800454b // str    w11, [x10], #4
-    BNE LBB0_887
-    JMP LBB0_893
-LBB0_888:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_889:
-    WORD $0xad7f0540 // ldp    q0, q1, [x10, #-32]
-    WORD $0xad7e0d42 // ldp    q2, q3, [x10, #-64]
-    WORD $0xad411544 // ldp    q4, q5, [x10, #32]
-    WORD $0xacc41d46 // ldp    q6, q7, [x10], #128
-    WORD $0x4ea1b821 // fcvtzs    v1.4s, v1.4s
-    WORD $0x4ea1b863 // fcvtzs    v3.4s, v3.4s
-    WORD $0x4ea1b842 // fcvtzs    v2.4s, v2.4s
-    WORD $0x4ea1b800 // fcvtzs    v0.4s, v0.4s
-    WORD $0x4ea1b8e7 // fcvtzs    v7.4s, v7.4s
-    WORD $0x4ea1b8c6 // fcvtzs    v6.4s, v6.4s
-    WORD $0x4ea1b8a5 // fcvtzs    v5.4s, v5.4s
-    WORD $0x4ea1b884 // fcvtzs    v4.4s, v4.4s
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0560 // stp    q0, q1, [x11, #-32]
-    WORD $0xad3e0d62 // stp    q2, q3, [x11, #-64]
-    WORD $0xad011564 // stp    q4, q5, [x11, #32]
-    WORD $0xac841d66 // stp    q6, q7, [x11], #128
-    BNE LBB0_889
-
-    WORD $0xeb08013f // cmp    x9, x8
-    BEQ LBB0_893
-LBB0_891:
-    WORD $0xd37ef52a // lsl    x10, x9, #2
-    WORD $0xcb090108 // sub    x8, x8, x9
-    WORD $0x8b0a0069 // add    x9, x3, x10
-    WORD $0x8b0a004a // add    x10, x2, x10
-LBB0_892:
-    WORD $0xbc404540 // ldr    s0, [x10], #4
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e38000b // fcvtzs    w11, s0
-    WORD $0xb800452b // str    w11, [x9], #4
-    BNE LBB0_892
-LBB0_893:
-    WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-    RET
-LBB0_894:
-    WORD $0x927b6909 // and x9, x8, #0xffffffe0
-	WORD $0x9101004a // add x10, x2, #64
-	WORD $0x9101006b // add x11, x3, #64
-	WORD $0xaa0903ec // mov x12, x9
-LBB0_895:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
-	WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
-	WORD $0xad011967 // stp    q7, q6, [x11, #32]
-	WORD $0xac841165 // stp    q5, q4, [x11], #128
-	BNE LBB0_895
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_15
-LBB0_897:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9101006b // add    x11, x3, #64
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_898:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0f08a402 // sshll    v2.8h, v0.8b, #0
-	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
-	WORD $0x0f08a423 // sshll    v3.8h, v1.8b, #0
-	WORD $0x4f08a421 // sshll2    v1.8h, v1.16b, #0
-	WORD $0x0f10a444 // sshll    v4.4s, v2.4h, #0
-	WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
-	WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
-	WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-	WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
-	WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
-	WORD $0x0f10a427 // sshll    v7.4s, v1.4h, #0
-	WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-	WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-	WORD $0xad3e0964 // stp    q4, q2, [x11, #-64]
-	WORD $0xad010567 // stp    q7, q1, [x11, #32]
-	WORD $0xac840d66 // stp    q6, q3, [x11], #128
-	BNE LBB0_898
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_41
-LBB0_900:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9101006b // add    x11, x3, #64
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_901:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x2f08a402 // ushll    v2.8h, v0.8b, #0
-	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
-	WORD $0x2f08a423 // ushll    v3.8h, v1.8b, #0
-	WORD $0x6f08a421 // ushll2    v1.8h, v1.16b, #0
-	WORD $0x2f10a444 // ushll    v4.4s, v2.4h, #0
-	WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
-	WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
-	WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-	WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
-	WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
-	WORD $0x2f10a427 // ushll    v7.4s, v1.4h, #0
-	WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-	WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-	WORD $0xad3e0964 // stp    q4, q2, [x11, #-64]
-	WORD $0xad010567 // stp    q7, q1, [x11, #32]
-	WORD $0xac840d66 // stp    q6, q3, [x11], #128
-	BNE LBB0_901
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_95
-LBB0_903:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9101006b // add    x11, x3, #64
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_904:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
-	WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
-	WORD $0xad011967 // stp    q7, q6, [x11, #32]
-	WORD $0xac841165 // stp    q5, q4, [x11], #128
-	BNE LBB0_904
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_107
-LBB0_906:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_907:
-	WORD $0xad400181 // ldp    q1, q0, [x12]
-	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
-	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-	WORD $0x9102018c // add    x12, x12, #128
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0xad031165 // stp    q5, q4, [x11, #96]
-	WORD $0xad021967 // stp    q7, q6, [x11, #64]
-	WORD $0xad010963 // stp    q3, q2, [x11, #32]
-	WORD $0xac840161 // stp    q1, q0, [x11], #128
-	BNE LBB0_907
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_125
-LBB0_909:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_910:
-	WORD $0x3cc10581 // ldr    q1, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x6e014020 // ext    v0.16b, v1.16b, v1.16b, #8
-	WORD $0x0e013c2d // umov    w13, v1.b[0]
-	WORD $0x0e053c2f // umov    w15, v1.b[2]
-	WORD $0x0e093c31 // umov    w17, v1.b[4]
-	WORD $0x1e2701a2 // fmov    s2, w13
-	WORD $0x0e0b3c2d // umov    w13, v1.b[5]
-	WORD $0x1e2701e3 // fmov    s3, w15
-	WORD $0x0e0d3c2f // umov    w15, v1.b[6]
-	WORD $0x1e270224 // fmov    s4, w17
-	WORD $0x0e013c11 // umov    w17, v0.b[0]
-	WORD $0x1e2701e5 // fmov    s5, w15
-	WORD $0x0e053c0f // umov    w15, v0.b[2]
-	WORD $0x1e270226 // fmov    s6, w17
-	WORD $0x4e0c1da4 // mov    v4.s[1], w13
-	WORD $0x0e033c0d // umov    w13, v0.b[1]
-	WORD $0x0e093c11 // umov    w17, v0.b[4]
-	WORD $0x1e2701e7 // fmov    s7, w15
-	WORD $0x4e0c1da6 // mov    v6.s[1], w13
-	WORD $0x0e073c0d // umov    w13, v0.b[3]
-	WORD $0x0e0d3c0f // umov    w15, v0.b[6]
-	WORD $0x1e270230 // fmov    s16, w17
-	WORD $0x4e0c1da7 // mov    v7.s[1], w13
-	WORD $0x0e0b3c0d // umov    w13, v0.b[5]
-	WORD $0x0e033c2e // umov    w14, v1.b[1]
-	WORD $0x0e073c30 // umov    w16, v1.b[3]
-	WORD $0x0e0f3c31 // umov    w17, v1.b[7]
-	WORD $0x1e2701e1 // fmov    s1, w15
-	WORD $0x4e0c1db0 // mov    v16.s[1], w13
-	WORD $0x0e0f3c0d // umov    w13, v0.b[7]
-	WORD $0x4e0c1dc2 // mov    v2.s[1], w14
-	WORD $0x4e0c1e03 // mov    v3.s[1], w16
-	WORD $0x4e0c1e25 // mov    v5.s[1], w17
-	WORD $0x4e0c1da1 // mov    v1.s[1], w13
-	WORD $0x0f385440 // shl    v0.2s, v2.2s, #24
-	WORD $0x0f385462 // shl    v2.2s, v3.2s, #24
-	WORD $0x0f385483 // shl    v3.2s, v4.2s, #24
-	WORD $0x0f3854a4 // shl    v4.2s, v5.2s, #24
-	WORD $0x0f3854c5 // shl    v5.2s, v6.2s, #24
-	WORD $0x0f3854e6 // shl    v6.2s, v7.2s, #24
-	WORD $0x0f385607 // shl    v7.2s, v16.2s, #24
-	WORD $0x0f385421 // shl    v1.2s, v1.2s, #24
-	WORD $0x0f280400 // sshr    v0.2s, v0.2s, #24
-	WORD $0x0f280442 // sshr    v2.2s, v2.2s, #24
-	WORD $0x0f280463 // sshr    v3.2s, v3.2s, #24
-	WORD $0x0f280484 // sshr    v4.2s, v4.2s, #24
-	WORD $0x0f2804a5 // sshr    v5.2s, v5.2s, #24
-	WORD $0x0f2804c6 // sshr    v6.2s, v6.2s, #24
-	WORD $0x0f2804e7 // sshr    v7.2s, v7.2s, #24
-	WORD $0x0f280421 // sshr    v1.2s, v1.2s, #24
-	WORD $0x0f20a400 // sshll    v0.2d, v0.2s, #0
-	WORD $0x0f20a442 // sshll    v2.2d, v2.2s, #0
-	WORD $0x0f20a463 // sshll    v3.2d, v3.2s, #0
-	WORD $0x0f20a484 // sshll    v4.2d, v4.2s, #0
-	WORD $0x0f20a4a5 // sshll    v5.2d, v5.2s, #0
-	WORD $0x0f20a4c6 // sshll    v6.2d, v6.2s, #0
-	WORD $0x0f20a4e7 // sshll    v7.2d, v7.2s, #0
-	WORD $0x0f20a421 // sshll    v1.2d, v1.2s, #0
-	WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
-	WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
-	WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
-	WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
-	WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
-	WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
-	WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
-	WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
-	WORD $0xad011163 // stp    q3, q4, [x11, #32]
-	WORD $0xad000960 // stp    q0, q2, [x11]
-	WORD $0xad030567 // stp    q7, q1, [x11, #96]
-	WORD $0xad021965 // stp    q5, q6, [x11, #64]
-	WORD $0x9102016b // add    x11, x11, #128
-	BNE LBB0_910
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_136
-LBB0_912:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0x2f00e620 // movi    d0, #0x0000ff000000ff
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_913:
-	WORD $0x3cc10582 // ldr    q2, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x6e024041 // ext    v1.16b, v2.16b, v2.16b, #8
-	WORD $0x0e013c4d // umov    w13, v2.b[0]
-	WORD $0x0e053c4f // umov    w15, v2.b[2]
-	WORD $0x0e093c51 // umov    w17, v2.b[4]
-	WORD $0x1e2701a3 // fmov    s3, w13
-	WORD $0x0e0b3c4d // umov    w13, v2.b[5]
-	WORD $0x1e2701e4 // fmov    s4, w15
-	WORD $0x0e0d3c4f // umov    w15, v2.b[6]
-	WORD $0x1e270225 // fmov    s5, w17
-	WORD $0x0e013c31 // umov    w17, v1.b[0]
-	WORD $0x1e2701e6 // fmov    s6, w15
-	WORD $0x0e053c2f // umov    w15, v1.b[2]
-	WORD $0x1e270227 // fmov    s7, w17
-	WORD $0x4e0c1da5 // mov    v5.s[1], w13
-	WORD $0x0e033c2d // umov    w13, v1.b[1]
-	WORD $0x0e093c31 // umov    w17, v1.b[4]
-	WORD $0x1e2701f0 // fmov    s16, w15
-	WORD $0x4e0c1da7 // mov    v7.s[1], w13
-	WORD $0x0e073c2d // umov    w13, v1.b[3]
-	WORD $0x0e0d3c2f // umov    w15, v1.b[6]
-	WORD $0x1e270231 // fmov    s17, w17
-	WORD $0x4e0c1db0 // mov    v16.s[1], w13
-	WORD $0x0e0b3c2d // umov    w13, v1.b[5]
-	WORD $0x0e033c4e // umov    w14, v2.b[1]
-	WORD $0x0e073c50 // umov    w16, v2.b[3]
-	WORD $0x0e0f3c51 // umov    w17, v2.b[7]
-	WORD $0x1e2701e2 // fmov    s2, w15
-	WORD $0x4e0c1db1 // mov    v17.s[1], w13
-	WORD $0x0e0f3c2d // umov    w13, v1.b[7]
-	WORD $0x4e0c1dc3 // mov    v3.s[1], w14
-	WORD $0x4e0c1e04 // mov    v4.s[1], w16
-	WORD $0x4e0c1e26 // mov    v6.s[1], w17
-	WORD $0x4e0c1da2 // mov    v2.s[1], w13
-	WORD $0x0e201c61 // and    v1.8b, v3.8b, v0.8b
-	WORD $0x0e201c83 // and    v3.8b, v4.8b, v0.8b
-	WORD $0x0e201ca4 // and    v4.8b, v5.8b, v0.8b
-	WORD $0x0e201cc5 // and    v5.8b, v6.8b, v0.8b
-	WORD $0x0e201ce6 // and    v6.8b, v7.8b, v0.8b
-	WORD $0x0e201e07 // and    v7.8b, v16.8b, v0.8b
-	WORD $0x0e201e30 // and    v16.8b, v17.8b, v0.8b
-	WORD $0x0e201c42 // and    v2.8b, v2.8b, v0.8b
-	WORD $0x2f20a421 // ushll    v1.2d, v1.2s, #0
-	WORD $0x2f20a463 // ushll    v3.2d, v3.2s, #0
-	WORD $0x2f20a484 // ushll    v4.2d, v4.2s, #0
-	WORD $0x2f20a4a5 // ushll    v5.2d, v5.2s, #0
-	WORD $0x2f20a4c6 // ushll    v6.2d, v6.2s, #0
-	WORD $0x2f20a4e7 // ushll    v7.2d, v7.2s, #0
-	WORD $0x2f20a610 // ushll    v16.2d, v16.2s, #0
-	WORD $0x2f20a442 // ushll    v2.2d, v2.2s, #0
-	WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
-	WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
-	WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
-	WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
-	WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
-	WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
-	WORD $0x6e61da10 // ucvtf    v16.2d, v16.2d
-	WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
-	WORD $0xad011564 // stp    q4, q5, [x11, #32]
-	WORD $0xad000d61 // stp    q1, q3, [x11]
-	WORD $0xad030970 // stp    q16, q2, [x11, #96]
-	WORD $0xad021d66 // stp    q6, q7, [x11, #64]
-	WORD $0x9102016b // add    x11, x11, #128
-	BNE LBB0_913
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_182
-LBB0_915:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_916:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x0e612821 // xtn    v1.4h, v1.4s
-	WORD $0x0e612863 // xtn    v3.4h, v3.4s
-	WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-	WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-	WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-	WORD $0x0e212820 // xtn    v0.8b, v1.8h
-	WORD $0x4e212860 // xtn2    v0.16b, v3.8h
-	WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-	WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-	WORD $0x0e2128a1 // xtn    v1.8b, v5.8h
-	WORD $0x4e2128e1 // xtn2    v1.16b, v7.8h
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_916
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_198
-LBB0_918:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_919:
-	WORD $0xad401d84 // ldp    q4, q7, [x12]
-	WORD $0xad430580 // ldp    q0, q1, [x12, #96]
-	WORD $0xad411985 // ldp    q5, q6, [x12, #32]
-	WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
-	WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-	WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-	WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-	WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-	WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-	WORD $0x0e471884 // uzp1    v4.4h, v4.4h, v7.4h
-	WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-	WORD $0x0ea12800 // xtn    v0.2s, v0.2d
-	WORD $0x0e023c8d // umov    w13, v4.h[0]
-	WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-	WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-	WORD $0x0e411800 // uzp1    v0.4h, v0.4h, v1.4h
-	WORD $0x0e063c8e // umov    w14, v4.h[1]
-	WORD $0x1e2701a1 // fmov    s1, w13
-	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-	WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-	WORD $0x0e0a3c8d // umov    w13, v4.h[2]
-	WORD $0x4e031dc1 // mov    v1.b[1], w14
-	WORD $0x0e4618a5 // uzp1    v5.4h, v5.4h, v6.4h
-	WORD $0x0e0e3c8e // umov    w14, v4.h[3]
-	WORD $0x4e051da1 // mov    v1.b[2], w13
-	WORD $0x0e023cad // umov    w13, v5.h[0]
-	WORD $0x4e071dc1 // mov    v1.b[3], w14
-	WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-	WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-	WORD $0x0e063cae // umov    w14, v5.h[1]
-	WORD $0x4e091da1 // mov    v1.b[4], w13
-	WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-	WORD $0x0ea12842 // xtn    v2.2s, v2.2d
-	WORD $0x0e0a3cad // umov    w13, v5.h[2]
-	WORD $0x4e0b1dc1 // mov    v1.b[5], w14
-	WORD $0x0e431842 // uzp1    v2.4h, v2.4h, v3.4h
-	WORD $0x0e0e3cae // umov    w14, v5.h[3]
-	WORD $0x4e0d1da1 // mov    v1.b[6], w13
-	WORD $0x0e023c4d // umov    w13, v2.h[0]
-	WORD $0x4e0f1dc1 // mov    v1.b[7], w14
-	WORD $0x0e063c4e // umov    w14, v2.h[1]
-	WORD $0x4e111da1 // mov    v1.b[8], w13
-	WORD $0x0e0a3c4d // umov    w13, v2.h[2]
-	WORD $0x4e131dc1 // mov    v1.b[9], w14
-	WORD $0x0e0e3c4e // umov    w14, v2.h[3]
-	WORD $0x4e151da1 // mov    v1.b[10], w13
-	WORD $0x0e023c0d // umov    w13, v0.h[0]
-	WORD $0x4e171dc1 // mov    v1.b[11], w14
-	WORD $0x0e063c0e // umov    w14, v0.h[1]
-	WORD $0x4e191da1 // mov    v1.b[12], w13
-	WORD $0x0e0a3c0d // umov    w13, v0.h[2]
-	WORD $0x4e1b1dc1 // mov    v1.b[13], w14
-	WORD $0x0e0e3c0e // umov    w14, v0.h[3]
-	WORD $0x4e1d1da1 // mov    v1.b[14], w13
-	WORD $0x4e1f1dc1 // mov    v1.b[15], w14
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x3c810561 // str    q1, [x11], #16
-	WORD $0x9102018c // add    x12, x12, #128
-	BNE LBB0_919
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_207
-LBB0_921:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_922:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_922
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_216
-LBB0_924:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9102004a // add    x10, x2, #128
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_925:
-	WORD $0xad7e1551 // ldp    q17, q5, [x10, #-64]
-	WORD $0xad7f1d54 // ldp    q20, q7, [x10, #-32]
-	WORD $0xad7c0144 // ldp    q4, q0, [x10, #-128]
-	WORD $0xad7d0546 // ldp    q6, q1, [x10, #-96]
-	WORD $0x0ea12a31 // xtn    v17.2s, v17.2d
-	WORD $0x0ea12a94 // xtn    v20.2s, v20.2d
-	WORD $0xad400953 // ldp    q19, q2, [x10]
-	WORD $0xad410d55 // ldp    q21, q3, [x10, #32]
-	WORD $0xad424156 // ldp    q22, q16, [x10, #64]
-	WORD $0xad434957 // ldp    q23, q18, [x10, #96]
-	WORD $0x4ea128f4 // xtn2    v20.4s, v7.2d
-	WORD $0x4ea128b1 // xtn2    v17.4s, v5.2d
-	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-	WORD $0x0e612a25 // xtn    v5.4h, v17.4s
-	WORD $0x4e612a85 // xtn2    v5.8h, v20.4s
-	WORD $0x4ea12826 // xtn2    v6.4s, v1.2d
-	WORD $0x4ea12804 // xtn2    v4.4s, v0.2d
-	WORD $0x0e612880 // xtn    v0.4h, v4.4s
-	WORD $0x4e6128c0 // xtn2    v0.8h, v6.4s
-	WORD $0x0ea12af7 // xtn    v23.2s, v23.2d
-	WORD $0x0ea12ad6 // xtn    v22.2s, v22.2d
-	WORD $0x0e212800 // xtn    v0.8b, v0.8h
-	WORD $0x4e2128a0 // xtn2    v0.16b, v5.8h
-	WORD $0x4ea12a57 // xtn2    v23.4s, v18.2d
-	WORD $0x4ea12a16 // xtn2    v22.4s, v16.2d
-	WORD $0x0ea12ab5 // xtn    v21.2s, v21.2d
-	WORD $0x0ea12a73 // xtn    v19.2s, v19.2d
-	WORD $0x0e612ac1 // xtn    v1.4h, v22.4s
-	WORD $0x4e612ae1 // xtn2    v1.8h, v23.4s
-	WORD $0x4ea12875 // xtn2    v21.4s, v3.2d
-	WORD $0x4ea12853 // xtn2    v19.4s, v2.2d
-	WORD $0x0e612a62 // xtn    v2.4h, v19.4s
-	WORD $0x4e612aa2 // xtn2    v2.8h, v21.4s
-	WORD $0x0e212842 // xtn    v2.8b, v2.8h
-	WORD $0x4e212822 // xtn2    v2.16b, v1.8h
-	WORD $0x9104014a // add    x10, x10, #256
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8960 // stp    q0, q2, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_925
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_225
-LBB0_927:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_928:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0e212821 // xtn    v1.8b, v1.8h
-	WORD $0x0e212863 // xtn    v3.8b, v3.8h
-	WORD $0x4e212801 // xtn2    v1.16b, v0.8h
-	WORD $0x4e212843 // xtn2    v3.16b, v2.8h
-	WORD $0xad3f8d61 // stp    q1, q3, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_928
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_234
-LBB0_930:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_931:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0e212821 // xtn    v1.8b, v1.8h
-	WORD $0x0e212863 // xtn    v3.8b, v3.8h
-	WORD $0x4e212801 // xtn2    v1.16b, v0.8h
-	WORD $0x4e212843 // xtn2    v3.16b, v2.8h
-	WORD $0xad3f8d61 // stp    q1, q3, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_931
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_243
-LBB0_933:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9102004a // add    x10, x2, #128
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_934:
-	WORD $0xad7e1551 // ldp    q17, q5, [x10, #-64]
-	WORD $0xad7f1d54 // ldp    q20, q7, [x10, #-32]
-	WORD $0xad7c0144 // ldp    q4, q0, [x10, #-128]
-	WORD $0xad7d0546 // ldp    q6, q1, [x10, #-96]
-	WORD $0x0ea12a31 // xtn    v17.2s, v17.2d
-	WORD $0x0ea12a94 // xtn    v20.2s, v20.2d
-	WORD $0xad400953 // ldp    q19, q2, [x10]
-	WORD $0xad410d55 // ldp    q21, q3, [x10, #32]
-	WORD $0xad424156 // ldp    q22, q16, [x10, #64]
-	WORD $0xad434957 // ldp    q23, q18, [x10, #96]
-	WORD $0x4ea128f4 // xtn2    v20.4s, v7.2d
-	WORD $0x4ea128b1 // xtn2    v17.4s, v5.2d
-	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-	WORD $0x0e612a25 // xtn    v5.4h, v17.4s
-	WORD $0x4e612a85 // xtn2    v5.8h, v20.4s
-	WORD $0x4ea12826 // xtn2    v6.4s, v1.2d
-	WORD $0x4ea12804 // xtn2    v4.4s, v0.2d
-	WORD $0x0e612880 // xtn    v0.4h, v4.4s
-	WORD $0x4e6128c0 // xtn2    v0.8h, v6.4s
-	WORD $0x0ea12af7 // xtn    v23.2s, v23.2d
-	WORD $0x0ea12ad6 // xtn    v22.2s, v22.2d
-	WORD $0x0e212800 // xtn    v0.8b, v0.8h
-	WORD $0x4e2128a0 // xtn2    v0.16b, v5.8h
-	WORD $0x4ea12a57 // xtn2    v23.4s, v18.2d
-	WORD $0x4ea12a16 // xtn2    v22.4s, v16.2d
-	WORD $0x0ea12ab5 // xtn    v21.2s, v21.2d
-	WORD $0x0ea12a73 // xtn    v19.2s, v19.2d
-	WORD $0x0e612ac1 // xtn    v1.4h, v22.4s
-	WORD $0x4e612ae1 // xtn2    v1.8h, v23.4s
-	WORD $0x4ea12875 // xtn2    v21.4s, v3.2d
-	WORD $0x4ea12853 // xtn2    v19.4s, v2.2d
-	WORD $0x0e612a62 // xtn    v2.4h, v19.4s
-	WORD $0x4e612aa2 // xtn2    v2.8h, v21.4s
-	WORD $0x0e212842 // xtn    v2.8b, v2.8h
-	WORD $0x4e212822 // xtn2    v2.16b, v1.8h
-	WORD $0x9104014a // add    x10, x10, #256
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8960 // stp    q0, q2, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_934
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_252
-LBB0_936:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_937:
-	WORD $0xad7e0144 // ldp    q4, q0, [x10, #-64]
-	WORD $0xad400545 // ldp    q5, q1, [x10]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x4ea1b884 // fcvtzs    v4.4s, v4.4s
-	WORD $0x4ea1b8a5 // fcvtzs    v5.4s, v5.4s
-	WORD $0x0e612887 // xtn    v7.4h, v4.4s
-	WORD $0x0e6128a6 // xtn    v6.4h, v5.4s
-	WORD $0x0e023ced // umov    w13, v7.h[0]
-	WORD $0x0e023cce // umov    w14, v6.h[0]
-	WORD $0x1e2701a4 // fmov    s4, w13
-	WORD $0x0e063cef // umov    w15, v7.h[1]
-	WORD $0x1e2701c5 // fmov    s5, w14
-	WORD $0x0e0a3ced // umov    w13, v7.h[2]
-	WORD $0x4e031de4 // mov    v4.b[1], w15
-	WORD $0x0e063cce // umov    w14, v6.h[1]
-	WORD $0x4ea1b800 // fcvtzs    v0.4s, v0.4s
-	WORD $0x4e031dc5 // mov    v5.b[1], w14
-	WORD $0x0e0e3cee // umov    w14, v7.h[3]
-	WORD $0xad411d50 // ldp    q16, q7, [x10, #32]
-	WORD $0x4ea1b821 // fcvtzs    v1.4s, v1.4s
-	WORD $0x0e612800 // xtn    v0.4h, v0.4s
-	WORD $0x4e051da4 // mov    v4.b[2], w13
-	WORD $0x0e0a3ccd // umov    w13, v6.h[2]
-	WORD $0x0e612821 // xtn    v1.4h, v1.4s
-	WORD $0x4e051da5 // mov    v5.b[2], w13
-	WORD $0x0e023c0d // umov    w13, v0.h[0]
-	WORD $0x4e071dc4 // mov    v4.b[3], w14
-	WORD $0x0e0e3cce // umov    w14, v6.h[3]
-	WORD $0x4e071dc5 // mov    v5.b[3], w14
-	WORD $0x0e063c0e // umov    w14, v0.h[1]
-	WORD $0x4e091da4 // mov    v4.b[4], w13
-	WORD $0x0e023c2d // umov    w13, v1.h[0]
-	WORD $0x4ea1b863 // fcvtzs    v3.4s, v3.4s
-	WORD $0x4e091da5 // mov    v5.b[4], w13
-	WORD $0x0e0a3c0d // umov    w13, v0.h[2]
-	WORD $0x4e0b1dc4 // mov    v4.b[5], w14
-	WORD $0x0e063c2e // umov    w14, v1.h[1]
-	WORD $0x4ea1ba10 // fcvtzs    v16.4s, v16.4s
-	WORD $0x0e612863 // xtn    v3.4h, v3.4s
-	WORD $0x4e0b1dc5 // mov    v5.b[5], w14
-	WORD $0x0e0e3c0e // umov    w14, v0.h[3]
-	WORD $0x4e0d1da4 // mov    v4.b[6], w13
-	WORD $0x0e0a3c2d // umov    w13, v1.h[2]
-	WORD $0x0e612a10 // xtn    v16.4h, v16.4s
-	WORD $0x4e0d1da5 // mov    v5.b[6], w13
-	WORD $0x0e023c6d // umov    w13, v3.h[0]
-	WORD $0x4e0f1dc4 // mov    v4.b[7], w14
-	WORD $0x0e0e3c2e // umov    w14, v1.h[3]
-	WORD $0x4e0f1dc5 // mov    v5.b[7], w14
-	WORD $0x0e063c6e // umov    w14, v3.h[1]
-	WORD $0x4e111da4 // mov    v4.b[8], w13
-	WORD $0x0e023e0d // umov    w13, v16.h[0]
-	WORD $0x4ea1b842 // fcvtzs    v2.4s, v2.4s
-	WORD $0x4e111da5 // mov    v5.b[8], w13
-	WORD $0x0e0a3c6d // umov    w13, v3.h[2]
-	WORD $0x4e131dc4 // mov    v4.b[9], w14
-	WORD $0x0e063e0e // umov    w14, v16.h[1]
-	WORD $0x4ea1b8e7 // fcvtzs    v7.4s, v7.4s
-	WORD $0x0e612842 // xtn    v2.4h, v2.4s
-	WORD $0x4e131dc5 // mov    v5.b[9], w14
-	WORD $0x0e0e3c6e // umov    w14, v3.h[3]
-	WORD $0x4e151da4 // mov    v4.b[10], w13
-	WORD $0x0e0a3e0d // umov    w13, v16.h[2]
-	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-	WORD $0x4e151da5 // mov    v5.b[10], w13
-	WORD $0x0e023c4d // umov    w13, v2.h[0]
-	WORD $0x4e171dc4 // mov    v4.b[11], w14
-	WORD $0x0e0e3e0e // umov    w14, v16.h[3]
-	WORD $0x4e171dc5 // mov    v5.b[11], w14
-	WORD $0x0e063c4e // umov    w14, v2.h[1]
-	WORD $0x4e191da4 // mov    v4.b[12], w13
-	WORD $0x0e023ced // umov    w13, v7.h[0]
-	WORD $0x4e191da5 // mov    v5.b[12], w13
-	WORD $0x0e0a3c4d // umov    w13, v2.h[2]
-	WORD $0x4e1b1dc4 // mov    v4.b[13], w14
-	WORD $0x0e063cee // umov    w14, v7.h[1]
-	WORD $0x4e1b1dc5 // mov    v5.b[13], w14
-	WORD $0x4e1d1da4 // mov    v4.b[14], w13
-	WORD $0x0e0a3ced // umov    w13, v7.h[2]
-	WORD $0x0e0e3c4e // umov    w14, v2.h[3]
-	WORD $0x4e1d1da5 // mov    v5.b[14], w13
-	WORD $0x0e0e3ced // umov    w13, v7.h[3]
-	WORD $0x4e1f1dc4 // mov    v4.b[15], w14
-	WORD $0x4e1f1da5 // mov    v5.b[15], w13
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xad3f9564 // stp    q4, q5, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_937
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_261
-LBB0_939:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_940:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_940
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_270
-LBB0_942:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_943:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x0e612821 // xtn    v1.4h, v1.4s
-	WORD $0x0e612863 // xtn    v3.4h, v3.4s
-	WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-	WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-	WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-	WORD $0x0e212820 // xtn    v0.8b, v1.8h
-	WORD $0x4e212860 // xtn2    v0.16b, v3.8h
-	WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-	WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-	WORD $0x0e2128a1 // xtn    v1.8b, v5.8h
-	WORD $0x4e2128e1 // xtn2    v1.16b, v7.8h
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_943
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_279
-LBB0_945:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_946:
-	WORD $0x3cc10580 // ldr    q0, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x0f08a401 // sshll    v1.8h, v0.8b, #0
-	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
-	WORD $0x0f10a422 // sshll    v2.4s, v1.4h, #0
-	WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-	WORD $0x0f10a403 // sshll    v3.4s, v0.4h, #0
-	WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-	WORD $0x0f20a444 // sshll    v4.2d, v2.2s, #0
-	WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-	WORD $0x0f20a425 // sshll    v5.2d, v1.2s, #0
-	WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
-	WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-	WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-	WORD $0x0f20a407 // sshll    v7.2d, v0.2s, #0
-	WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-	WORD $0xad030167 // stp    q7, q0, [x11, #96]
-	WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-	WORD $0xad010565 // stp    q5, q1, [x11, #32]
-	WORD $0xac840964 // stp    q4, q2, [x11], #128
-	BNE LBB0_946
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_298
-LBB0_948:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_949:
-	WORD $0xad400181 // ldp    q1, q0, [x12]
-	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
-	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-	WORD $0x9102018c // add    x12, x12, #128
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0xad031165 // stp    q5, q4, [x11, #96]
-	WORD $0xad021967 // stp    q7, q6, [x11, #64]
-	WORD $0xad010963 // stp    q3, q2, [x11, #32]
-	WORD $0xac840161 // stp    q1, q0, [x11], #128
-	BNE LBB0_949
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_307
-LBB0_951:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_952:
-	WORD $0xad400181 // ldp    q1, q0, [x12]
-	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
-	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-	WORD $0x9102018c // add    x12, x12, #128
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0xad031165 // stp    q5, q4, [x11, #96]
-	WORD $0xad021967 // stp    q7, q6, [x11, #64]
-	WORD $0xad010963 // stp    q3, q2, [x11, #32]
-	WORD $0xac840161 // stp    q1, q0, [x11], #128
-	BNE LBB0_952
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_326
-LBB0_954:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_955:
-	WORD $0x3cc10580 // ldr    q0, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x2f08a401 // ushll    v1.8h, v0.8b, #0
-	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
-	WORD $0x2f10a422 // ushll    v2.4s, v1.4h, #0
-	WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-	WORD $0x2f10a403 // ushll    v3.4s, v0.4h, #0
-	WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-	WORD $0x2f20a444 // ushll    v4.2d, v2.2s, #0
-	WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-	WORD $0x2f20a425 // ushll    v5.2d, v1.2s, #0
-	WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
-	WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-	WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-	WORD $0x2f20a407 // ushll    v7.2d, v0.2s, #0
-	WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-	WORD $0xad030167 // stp    q7, q0, [x11, #96]
-	WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-	WORD $0xad010565 // stp    q5, q1, [x11, #32]
-	WORD $0xac840964 // stp    q4, q2, [x11], #128
-	BNE LBB0_955
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_340
-LBB0_957:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_958:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0f08a402 // sshll    v2.8h, v0.8b, #0
-	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
-	WORD $0x0f08a423 // sshll    v3.8h, v1.8b, #0
-	WORD $0x4f08a421 // sshll2    v1.8h, v1.16b, #0
-	WORD $0xad3f0162 // stp    q2, q0, [x11, #-32]
-	WORD $0xac820563 // stp    q3, q1, [x11], #64
-	BNE LBB0_958
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_364
-LBB0_960:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_961:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0f08a402 // sshll    v2.8h, v0.8b, #0
-	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
-	WORD $0x0f08a423 // sshll    v3.8h, v1.8b, #0
-	WORD $0x4f08a421 // sshll2    v1.8h, v1.16b, #0
-	WORD $0xad3f0162 // stp    q2, q0, [x11, #-32]
-	WORD $0xac820563 // stp    q3, q1, [x11], #64
-	BNE LBB0_961
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_371
-LBB0_963:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_964:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0161 // stp    q1, q0, [x11, #-32]
-	WORD $0xac820963 // stp    q3, q2, [x11], #64
-	BNE LBB0_964
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_384
-LBB0_966:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_967:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0161 // stp    q1, q0, [x11, #-32]
-	WORD $0xac820963 // stp    q3, q2, [x11], #64
-	BNE LBB0_967
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_391
-LBB0_969:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_970:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0161 // stp    q1, q0, [x11, #-32]
-	WORD $0xac820963 // stp    q3, q2, [x11], #64
-	BNE LBB0_970
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_398
-LBB0_972:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_973:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0161 // stp    q1, q0, [x11, #-32]
-	WORD $0xac820963 // stp    q3, q2, [x11], #64
-	BNE LBB0_973
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_405
-LBB0_975:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_976:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x2f08a402 // ushll    v2.8h, v0.8b, #0
-	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
-	WORD $0x2f08a423 // ushll    v3.8h, v1.8b, #0
-	WORD $0x6f08a421 // ushll2    v1.8h, v1.16b, #0
-	WORD $0xad3f0162 // stp    q2, q0, [x11, #-32]
-	WORD $0xac820563 // stp    q3, q1, [x11], #64
-	BNE LBB0_976
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_424
-LBB0_978:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100806b // add    x11, x3, #32
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_979:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x2f08a402 // ushll    v2.8h, v0.8b, #0
-	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
-	WORD $0x2f08a423 // ushll    v3.8h, v1.8b, #0
-	WORD $0x6f08a421 // ushll2    v1.8h, v1.16b, #0
-	WORD $0xad3f0162 // stp    q2, q0, [x11, #-32]
-	WORD $0xac820563 // stp    q3, q1, [x11], #64
-	BNE LBB0_979
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_431
-LBB0_981:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_982:
-	WORD $0x3cc10580 // ldr    q0, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x0f08a401 // sshll    v1.8h, v0.8b, #0
-	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
-	WORD $0x0f10a422 // sshll    v2.4s, v1.4h, #0
-	WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-	WORD $0x0f10a403 // sshll    v3.4s, v0.4h, #0
-	WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-	WORD $0x0f20a444 // sshll    v4.2d, v2.2s, #0
-	WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
-	WORD $0x0f20a425 // sshll    v5.2d, v1.2s, #0
-	WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
-	WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
-	WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
-	WORD $0x0f20a407 // sshll    v7.2d, v0.2s, #0
-	WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
-	WORD $0xad030167 // stp    q7, q0, [x11, #96]
-	WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-	WORD $0xad010565 // stp    q5, q1, [x11, #32]
-	WORD $0xac840964 // stp    q4, q2, [x11], #128
-	BNE LBB0_982
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_456
-LBB0_984:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_985:
-	WORD $0x3cc10580 // ldr    q0, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x6e004001 // ext    v1.16b, v0.16b, v0.16b, #8
-	WORD $0x0e003802 // zip1    v2.8b, v0.8b, v0.8b
-	WORD $0x0e007800 // zip2    v0.8b, v0.8b, v0.8b
-	WORD $0x0e003823 // zip1    v3.8b, v1.8b, v0.8b
-	WORD $0x0e007821 // zip2    v1.8b, v1.8b, v0.8b
-	WORD $0x0f185442 // shl    v2.4h, v2.4h, #8
-	WORD $0x0f185400 // shl    v0.4h, v0.4h, #8
-	WORD $0x0f185463 // shl    v3.4h, v3.4h, #8
-	WORD $0x0f185421 // shl    v1.4h, v1.4h, #8
-	WORD $0x0f180442 // sshr    v2.4h, v2.4h, #8
-	WORD $0x0f180400 // sshr    v0.4h, v0.4h, #8
-	WORD $0x0f180463 // sshr    v3.4h, v3.4h, #8
-	WORD $0x0f180421 // sshr    v1.4h, v1.4h, #8
-	WORD $0x0f10a442 // sshll    v2.4s, v2.4h, #0
-	WORD $0x0f10a400 // sshll    v0.4s, v0.4h, #0
-	WORD $0x0f10a463 // sshll    v3.4s, v3.4h, #0
-	WORD $0x0f10a421 // sshll    v1.4s, v1.4h, #0
-	WORD $0x4e21d842 // scvtf    v2.4s, v2.4s
-	WORD $0x4e21d800 // scvtf    v0.4s, v0.4s
-	WORD $0x4e21d863 // scvtf    v3.4s, v3.4s
-	WORD $0x4e21d821 // scvtf    v1.4s, v1.4s
-	WORD $0xad000162 // stp    q2, q0, [x11]
-	WORD $0xad010563 // stp    q3, q1, [x11, #32]
-	WORD $0x9101016b // add    x11, x11, #64
-	BNE LBB0_985
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_463
-LBB0_987:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_988:
-	WORD $0xad400181 // ldp    q1, q0, [x12]
-	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
-	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-	WORD $0x9102018c // add    x12, x12, #128
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0xad031165 // stp    q5, q4, [x11, #96]
-	WORD $0xad021967 // stp    q7, q6, [x11, #64]
-	WORD $0xad010963 // stp    q3, q2, [x11, #32]
-	WORD $0xac840161 // stp    q1, q0, [x11], #128
-	BNE LBB0_988
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_470
-LBB0_990:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_991:
-	WORD $0xad400181 // ldp    q1, q0, [x12]
-	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
-	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
-	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
-	WORD $0x9102018c // add    x12, x12, #128
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0xad031165 // stp    q5, q4, [x11, #96]
-	WORD $0xad021967 // stp    q7, q6, [x11, #64]
-	WORD $0xad010963 // stp    q3, q2, [x11, #32]
-	WORD $0xac840161 // stp    q1, q0, [x11], #128
-	BNE LBB0_991
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_492
-LBB0_993:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9101006b // add    x11, x3, #64
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_994:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
-	WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
-	WORD $0xad011967 // stp    q7, q6, [x11, #32]
-	WORD $0xac841165 // stp    q5, q4, [x11], #128
-	BNE LBB0_994
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_505
-LBB0_996:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_997:
-	WORD $0x3cc10580 // ldr    q0, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x2f08a401 // ushll    v1.8h, v0.8b, #0
-	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
-	WORD $0x2f10a422 // ushll    v2.4s, v1.4h, #0
-	WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-	WORD $0x2f10a403 // ushll    v3.4s, v0.4h, #0
-	WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-	WORD $0x2f20a444 // ushll    v4.2d, v2.2s, #0
-	WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
-	WORD $0x2f20a425 // ushll    v5.2d, v1.2s, #0
-	WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
-	WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
-	WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
-	WORD $0x2f20a407 // ushll    v7.2d, v0.2s, #0
-	WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
-	WORD $0xad030167 // stp    q7, q0, [x11, #96]
-	WORD $0xad020d66 // stp    q6, q3, [x11, #64]
-	WORD $0xad010565 // stp    q5, q1, [x11, #32]
-	WORD $0xac840964 // stp    q4, q2, [x11], #128
-	BNE LBB0_997
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_512
-LBB0_999:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_1000:
-	WORD $0x3cc10580 // ldr    q0, [x12], #16
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x6e004001 // ext    v1.16b, v0.16b, v0.16b, #8
-	WORD $0x0e003802 // zip1    v2.8b, v0.8b, v0.8b
-	WORD $0x0e007800 // zip2    v0.8b, v0.8b, v0.8b
-	WORD $0x0e003823 // zip1    v3.8b, v1.8b, v0.8b
-	WORD $0x0e007821 // zip2    v1.8b, v1.8b, v0.8b
-	WORD $0x2f07b7e2 // bic    v2.4h, #255, lsl #8
-	WORD $0x2f07b7e0 // bic    v0.4h, #255, lsl #8
-	WORD $0x2f07b7e3 // bic    v3.4h, #255, lsl #8
-	WORD $0x2f07b7e1 // bic    v1.4h, #255, lsl #8
-	WORD $0x2f10a442 // ushll    v2.4s, v2.4h, #0
-	WORD $0x2f10a400 // ushll    v0.4s, v0.4h, #0
-	WORD $0x2f10a463 // ushll    v3.4s, v3.4h, #0
-	WORD $0x2f10a421 // ushll    v1.4s, v1.4h, #0
-	WORD $0x6e21d842 // ucvtf    v2.4s, v2.4s
-	WORD $0x6e21d800 // ucvtf    v0.4s, v0.4s
-	WORD $0x6e21d863 // ucvtf    v3.4s, v3.4s
-	WORD $0x6e21d821 // ucvtf    v1.4s, v1.4s
-	WORD $0xad000162 // stp    q2, q0, [x11]
-	WORD $0xad010563 // stp    q3, q1, [x11, #32]
-	WORD $0x9101016b // add    x11, x11, #64
-	BNE LBB0_1000
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_519
-LBB0_1002:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1003:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x0e612821 // xtn    v1.4h, v1.4s
-	WORD $0x0e612863 // xtn    v3.4h, v3.4s
-	WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-	WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-	WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-	WORD $0x0e212820 // xtn    v0.8b, v1.8h
-	WORD $0x4e212860 // xtn2    v0.16b, v3.8h
-	WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-	WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-	WORD $0x0e2128a1 // xtn    v1.8b, v5.8h
-	WORD $0x4e2128e1 // xtn2    v1.16b, v7.8h
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1003
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_532
-LBB0_1005:
-	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
-	WORD $0xaa0903ea // mov    x10, x9
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xaa0203ec // mov    x12, x2
-LBB0_1006:
-	WORD $0xad401d84 // ldp    q4, q7, [x12]
-	WORD $0xad430580 // ldp    q0, q1, [x12, #96]
-	WORD $0xad411985 // ldp    q5, q6, [x12, #32]
-	WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
-	WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
-	WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
-	WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
-	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-	WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
-	WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
-	WORD $0x0e471884 // uzp1    v4.4h, v4.4h, v7.4h
-	WORD $0x0ea12821 // xtn    v1.2s, v1.2d
-	WORD $0x0ea12800 // xtn    v0.2s, v0.2d
-	WORD $0x0e023c8d // umov    w13, v4.h[0]
-	WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
-	WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
-	WORD $0x0e411800 // uzp1    v0.4h, v0.4h, v1.4h
-	WORD $0x0e063c8e // umov    w14, v4.h[1]
-	WORD $0x1e2701a1 // fmov    s1, w13
-	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-	WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
-	WORD $0x0e0a3c8d // umov    w13, v4.h[2]
-	WORD $0x4e031dc1 // mov    v1.b[1], w14
-	WORD $0x0e4618a5 // uzp1    v5.4h, v5.4h, v6.4h
-	WORD $0x0e0e3c8e // umov    w14, v4.h[3]
-	WORD $0x4e051da1 // mov    v1.b[2], w13
-	WORD $0x0e023cad // umov    w13, v5.h[0]
-	WORD $0x4e071dc1 // mov    v1.b[3], w14
-	WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
-	WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
-	WORD $0x0e063cae // umov    w14, v5.h[1]
-	WORD $0x4e091da1 // mov    v1.b[4], w13
-	WORD $0x0ea12863 // xtn    v3.2s, v3.2d
-	WORD $0x0ea12842 // xtn    v2.2s, v2.2d
-	WORD $0x0e0a3cad // umov    w13, v5.h[2]
-	WORD $0x4e0b1dc1 // mov    v1.b[5], w14
-	WORD $0x0e431842 // uzp1    v2.4h, v2.4h, v3.4h
-	WORD $0x0e0e3cae // umov    w14, v5.h[3]
-	WORD $0x4e0d1da1 // mov    v1.b[6], w13
-	WORD $0x0e023c4d // umov    w13, v2.h[0]
-	WORD $0x4e0f1dc1 // mov    v1.b[7], w14
-	WORD $0x0e063c4e // umov    w14, v2.h[1]
-	WORD $0x4e111da1 // mov    v1.b[8], w13
-	WORD $0x0e0a3c4d // umov    w13, v2.h[2]
-	WORD $0x4e131dc1 // mov    v1.b[9], w14
-	WORD $0x0e0e3c4e // umov    w14, v2.h[3]
-	WORD $0x4e151da1 // mov    v1.b[10], w13
-	WORD $0x0e023c0d // umov    w13, v0.h[0]
-	WORD $0x4e171dc1 // mov    v1.b[11], w14
-	WORD $0x0e063c0e // umov    w14, v0.h[1]
-	WORD $0x4e191da1 // mov    v1.b[12], w13
-	WORD $0x0e0a3c0d // umov    w13, v0.h[2]
-	WORD $0x4e1b1dc1 // mov    v1.b[13], w14
-	WORD $0x0e0e3c0e // umov    w14, v0.h[3]
-	WORD $0x4e1d1da1 // mov    v1.b[14], w13
-	WORD $0x4e1f1dc1 // mov    v1.b[15], w14
-	WORD $0xf100414a // subs    x10, x10, #16
-	WORD $0x3c810561 // str    q1, [x11], #16
-	WORD $0x9102018c // add    x12, x12, #128
-	BNE LBB0_1006
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_539
-LBB0_1008:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1009:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1009
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_546
-LBB0_1011:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9102004a // add    x10, x2, #128
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1012:
-	WORD $0xad7e1551 // ldp    q17, q5, [x10, #-64]
-	WORD $0xad7f1d54 // ldp    q20, q7, [x10, #-32]
-	WORD $0xad7c0144 // ldp    q4, q0, [x10, #-128]
-	WORD $0xad7d0546 // ldp    q6, q1, [x10, #-96]
-	WORD $0x0ea12a31 // xtn    v17.2s, v17.2d
-	WORD $0x0ea12a94 // xtn    v20.2s, v20.2d
-	WORD $0xad400953 // ldp    q19, q2, [x10]
-	WORD $0xad410d55 // ldp    q21, q3, [x10, #32]
-	WORD $0xad424156 // ldp    q22, q16, [x10, #64]
-	WORD $0xad434957 // ldp    q23, q18, [x10, #96]
-	WORD $0x4ea128f4 // xtn2    v20.4s, v7.2d
-	WORD $0x4ea128b1 // xtn2    v17.4s, v5.2d
-	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-	WORD $0x0e612a25 // xtn    v5.4h, v17.4s
-	WORD $0x4e612a85 // xtn2    v5.8h, v20.4s
-	WORD $0x4ea12826 // xtn2    v6.4s, v1.2d
-	WORD $0x4ea12804 // xtn2    v4.4s, v0.2d
-	WORD $0x0e612880 // xtn    v0.4h, v4.4s
-	WORD $0x4e6128c0 // xtn2    v0.8h, v6.4s
-	WORD $0x0ea12af7 // xtn    v23.2s, v23.2d
-	WORD $0x0ea12ad6 // xtn    v22.2s, v22.2d
-	WORD $0x0e212800 // xtn    v0.8b, v0.8h
-	WORD $0x4e2128a0 // xtn2    v0.16b, v5.8h
-	WORD $0x4ea12a57 // xtn2    v23.4s, v18.2d
-	WORD $0x4ea12a16 // xtn2    v22.4s, v16.2d
-	WORD $0x0ea12ab5 // xtn    v21.2s, v21.2d
-	WORD $0x0ea12a73 // xtn    v19.2s, v19.2d
-	WORD $0x0e612ac1 // xtn    v1.4h, v22.4s
-	WORD $0x4e612ae1 // xtn2    v1.8h, v23.4s
-	WORD $0x4ea12875 // xtn2    v21.4s, v3.2d
-	WORD $0x4ea12853 // xtn2    v19.4s, v2.2d
-	WORD $0x0e612a62 // xtn    v2.4h, v19.4s
-	WORD $0x4e612aa2 // xtn2    v2.8h, v21.4s
-	WORD $0x0e212842 // xtn    v2.8b, v2.8h
-	WORD $0x4e212822 // xtn2    v2.16b, v1.8h
-	WORD $0x9104014a // add    x10, x10, #256
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8960 // stp    q0, q2, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1012
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_553
-LBB0_1014:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1015:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0e212821 // xtn    v1.8b, v1.8h
-	WORD $0x0e212863 // xtn    v3.8b, v3.8h
-	WORD $0x4e212801 // xtn2    v1.16b, v0.8h
-	WORD $0x4e212843 // xtn2    v3.16b, v2.8h
-	WORD $0xad3f8d61 // stp    q1, q3, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1015
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_560
-LBB0_1017:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100804a // add    x10, x2, #32
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1018:
-	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
-	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0e212821 // xtn    v1.8b, v1.8h
-	WORD $0x0e212863 // xtn    v3.8b, v3.8h
-	WORD $0x4e212801 // xtn2    v1.16b, v0.8h
-	WORD $0x4e212843 // xtn2    v3.16b, v2.8h
-	WORD $0xad3f8d61 // stp    q1, q3, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1018
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_567
-LBB0_1020:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9102004a // add    x10, x2, #128
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1021:
-	WORD $0xad7e1551 // ldp    q17, q5, [x10, #-64]
-	WORD $0xad7f1d54 // ldp    q20, q7, [x10, #-32]
-	WORD $0xad7c0144 // ldp    q4, q0, [x10, #-128]
-	WORD $0xad7d0546 // ldp    q6, q1, [x10, #-96]
-	WORD $0x0ea12a31 // xtn    v17.2s, v17.2d
-	WORD $0x0ea12a94 // xtn    v20.2s, v20.2d
-	WORD $0xad400953 // ldp    q19, q2, [x10]
-	WORD $0xad410d55 // ldp    q21, q3, [x10, #32]
-	WORD $0xad424156 // ldp    q22, q16, [x10, #64]
-	WORD $0xad434957 // ldp    q23, q18, [x10, #96]
-	WORD $0x4ea128f4 // xtn2    v20.4s, v7.2d
-	WORD $0x4ea128b1 // xtn2    v17.4s, v5.2d
-	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
-	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
-	WORD $0x0e612a25 // xtn    v5.4h, v17.4s
-	WORD $0x4e612a85 // xtn2    v5.8h, v20.4s
-	WORD $0x4ea12826 // xtn2    v6.4s, v1.2d
-	WORD $0x4ea12804 // xtn2    v4.4s, v0.2d
-	WORD $0x0e612880 // xtn    v0.4h, v4.4s
-	WORD $0x4e6128c0 // xtn2    v0.8h, v6.4s
-	WORD $0x0ea12af7 // xtn    v23.2s, v23.2d
-	WORD $0x0ea12ad6 // xtn    v22.2s, v22.2d
-	WORD $0x0e212800 // xtn    v0.8b, v0.8h
-	WORD $0x4e2128a0 // xtn2    v0.16b, v5.8h
-	WORD $0x4ea12a57 // xtn2    v23.4s, v18.2d
-	WORD $0x4ea12a16 // xtn2    v22.4s, v16.2d
-	WORD $0x0ea12ab5 // xtn    v21.2s, v21.2d
-	WORD $0x0ea12a73 // xtn    v19.2s, v19.2d
-	WORD $0x0e612ac1 // xtn    v1.4h, v22.4s
-	WORD $0x4e612ae1 // xtn2    v1.8h, v23.4s
-	WORD $0x4ea12875 // xtn2    v21.4s, v3.2d
-	WORD $0x4ea12853 // xtn2    v19.4s, v2.2d
-	WORD $0x0e612a62 // xtn    v2.4h, v19.4s
-	WORD $0x4e612aa2 // xtn2    v2.8h, v21.4s
-	WORD $0x0e212842 // xtn    v2.8b, v2.8h
-	WORD $0x4e212822 // xtn2    v2.16b, v1.8h
-	WORD $0x9104014a // add    x10, x10, #256
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8960 // stp    q0, q2, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1021
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_574
-LBB0_1023:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1024:
-	WORD $0xad7e0144 // ldp    q4, q0, [x10, #-64]
-	WORD $0xad400545 // ldp    q5, q1, [x10]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x4ea1b884 // fcvtzs    v4.4s, v4.4s
-	WORD $0x4ea1b8a5 // fcvtzs    v5.4s, v5.4s
-	WORD $0x0e612887 // xtn    v7.4h, v4.4s
-	WORD $0x0e6128a6 // xtn    v6.4h, v5.4s
-	WORD $0x0e023ced // umov    w13, v7.h[0]
-	WORD $0x0e023cce // umov    w14, v6.h[0]
-	WORD $0x1e2701a4 // fmov    s4, w13
-	WORD $0x0e063cef // umov    w15, v7.h[1]
-	WORD $0x1e2701c5 // fmov    s5, w14
-	WORD $0x0e0a3ced // umov    w13, v7.h[2]
-	WORD $0x4e031de4 // mov    v4.b[1], w15
-	WORD $0x0e063cce // umov    w14, v6.h[1]
-	WORD $0x4ea1b800 // fcvtzs    v0.4s, v0.4s
-	WORD $0x4e031dc5 // mov    v5.b[1], w14
-	WORD $0x0e0e3cee // umov    w14, v7.h[3]
-	WORD $0xad411d50 // ldp    q16, q7, [x10, #32]
-	WORD $0x4ea1b821 // fcvtzs    v1.4s, v1.4s
-	WORD $0x0e612800 // xtn    v0.4h, v0.4s
-	WORD $0x4e051da4 // mov    v4.b[2], w13
-	WORD $0x0e0a3ccd // umov    w13, v6.h[2]
-	WORD $0x0e612821 // xtn    v1.4h, v1.4s
-	WORD $0x4e051da5 // mov    v5.b[2], w13
-	WORD $0x0e023c0d // umov    w13, v0.h[0]
-	WORD $0x4e071dc4 // mov    v4.b[3], w14
-	WORD $0x0e0e3cce // umov    w14, v6.h[3]
-	WORD $0x4e071dc5 // mov    v5.b[3], w14
-	WORD $0x0e063c0e // umov    w14, v0.h[1]
-	WORD $0x4e091da4 // mov    v4.b[4], w13
-	WORD $0x0e023c2d // umov    w13, v1.h[0]
-	WORD $0x4ea1b863 // fcvtzs    v3.4s, v3.4s
-	WORD $0x4e091da5 // mov    v5.b[4], w13
-	WORD $0x0e0a3c0d // umov    w13, v0.h[2]
-	WORD $0x4e0b1dc4 // mov    v4.b[5], w14
-	WORD $0x0e063c2e // umov    w14, v1.h[1]
-	WORD $0x4ea1ba10 // fcvtzs    v16.4s, v16.4s
-	WORD $0x0e612863 // xtn    v3.4h, v3.4s
-	WORD $0x4e0b1dc5 // mov    v5.b[5], w14
-	WORD $0x0e0e3c0e // umov    w14, v0.h[3]
-	WORD $0x4e0d1da4 // mov    v4.b[6], w13
-	WORD $0x0e0a3c2d // umov    w13, v1.h[2]
-	WORD $0x0e612a10 // xtn    v16.4h, v16.4s
-	WORD $0x4e0d1da5 // mov    v5.b[6], w13
-	WORD $0x0e023c6d // umov    w13, v3.h[0]
-	WORD $0x4e0f1dc4 // mov    v4.b[7], w14
-	WORD $0x0e0e3c2e // umov    w14, v1.h[3]
-	WORD $0x4e0f1dc5 // mov    v5.b[7], w14
-	WORD $0x0e063c6e // umov    w14, v3.h[1]
-	WORD $0x4e111da4 // mov    v4.b[8], w13
-	WORD $0x0e023e0d // umov    w13, v16.h[0]
-	WORD $0x4ea1b842 // fcvtzs    v2.4s, v2.4s
-	WORD $0x4e111da5 // mov    v5.b[8], w13
-	WORD $0x0e0a3c6d // umov    w13, v3.h[2]
-	WORD $0x4e131dc4 // mov    v4.b[9], w14
-	WORD $0x0e063e0e // umov    w14, v16.h[1]
-	WORD $0x4ea1b8e7 // fcvtzs    v7.4s, v7.4s
-	WORD $0x0e612842 // xtn    v2.4h, v2.4s
-	WORD $0x4e131dc5 // mov    v5.b[9], w14
-	WORD $0x0e0e3c6e // umov    w14, v3.h[3]
-	WORD $0x4e151da4 // mov    v4.b[10], w13
-	WORD $0x0e0a3e0d // umov    w13, v16.h[2]
-	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-	WORD $0x4e151da5 // mov    v5.b[10], w13
-	WORD $0x0e023c4d // umov    w13, v2.h[0]
-	WORD $0x4e171dc4 // mov    v4.b[11], w14
-	WORD $0x0e0e3e0e // umov    w14, v16.h[3]
-	WORD $0x4e171dc5 // mov    v5.b[11], w14
-	WORD $0x0e063c4e // umov    w14, v2.h[1]
-	WORD $0x4e191da4 // mov    v4.b[12], w13
-	WORD $0x0e023ced // umov    w13, v7.h[0]
-	WORD $0x4e191da5 // mov    v5.b[12], w13
-	WORD $0x0e0a3c4d // umov    w13, v2.h[2]
-	WORD $0x4e1b1dc4 // mov    v4.b[13], w14
-	WORD $0x0e063cee // umov    w14, v7.h[1]
-	WORD $0x4e1b1dc5 // mov    v5.b[13], w14
-	WORD $0x4e1d1da4 // mov    v4.b[14], w13
-	WORD $0x0e0a3ced // umov    w13, v7.h[2]
-	WORD $0x0e0e3c4e // umov    w14, v2.h[3]
-	WORD $0x4e1d1da5 // mov    v5.b[14], w13
-	WORD $0x0e0e3ced // umov    w13, v7.h[3]
-	WORD $0x4e1f1dc4 // mov    v4.b[15], w14
-	WORD $0x4e1f1da5 // mov    v5.b[15], w13
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xad3f9564 // stp    q4, q5, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1024
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_581
-LBB0_1026:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9100404a // add    x10, x2, #16
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1027:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1027
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_588
-LBB0_1029:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9100406b // add    x11, x3, #16
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1030:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x0e612821 // xtn    v1.4h, v1.4s
-	WORD $0x0e612863 // xtn    v3.4h, v3.4s
-	WORD $0x4e612843 // xtn2    v3.8h, v2.4s
-	WORD $0x4e612801 // xtn2    v1.8h, v0.4s
-	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
-	WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
-	WORD $0x0e212820 // xtn    v0.8b, v1.8h
-	WORD $0x4e212860 // xtn2    v0.16b, v3.8h
-	WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
-	WORD $0x4e612885 // xtn2    v5.8h, v4.4s
-	WORD $0x0e2128a1 // xtn    v1.8b, v5.8h
-	WORD $0x4e2128e1 // xtn2    v1.16b, v7.8h
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE LBB0_1030
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_595
-LBB0_1032:
-	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-	WORD $0x9101004a // add    x10, x2, #64
-	WORD $0x9101006b // add    x11, x3, #64
-	WORD $0xaa0903ec // mov    x12, x9
-LBB0_1033:
-	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-	WORD $0xad401145 // ldp    q5, q4, [x10]
-	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-	WORD $0x9102014a // add    x10, x10, #128
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
-	WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
-	WORD $0xad011967 // stp    q7, q6, [x11, #32]
-	WORD $0xac841165 // stp    q5, q4, [x11], #128
-	BNE LBB0_1033
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_602
-LBB0_1035:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100404a // add    x10, x2, #16
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_1036:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x0f08a402 // sshll    v2.8h, v0.8b, #0
-	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
-	WORD $0x0f08a423 // sshll    v3.8h, v1.8b, #0
-	WORD $0x4f08a421 // sshll2    v1.8h, v1.16b, #0
-	WORD $0x0f10a444 // sshll    v4.4s, v2.4h, #0
-	WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
-	WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
-	WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
-	WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
-	WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
-	WORD $0x0f10a427 // sshll    v7.4s, v1.4h, #0
-	WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
-	WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-	WORD $0xad3e0964 // stp    q4, q2, [x11, #-64]
-	WORD $0xad010567 // stp    q7, q1, [x11, #32]
-	WORD $0xac840d66 // stp    q6, q3, [x11], #128
-	BNE LBB0_1036
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_612
-LBB0_1038:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9100404a // add    x10, x2, #16
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_1039:
-	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
-	WORD $0x9100814a // add    x10, x10, #32
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x2f08a402 // ushll    v2.8h, v0.8b, #0
-	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
-	WORD $0x2f08a423 // ushll    v3.8h, v1.8b, #0
-	WORD $0x6f08a421 // ushll2    v1.8h, v1.16b, #0
-	WORD $0x2f10a444 // ushll    v4.4s, v2.4h, #0
-	WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
-	WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
-	WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
-	WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
-	WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
-	WORD $0x2f10a427 // ushll    v7.4s, v1.4h, #0
-	WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
-	WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
-	WORD $0xad3e0964 // stp    q4, q2, [x11, #-64]
-	WORD $0xad010567 // stp    q7, q1, [x11, #32]
-	WORD $0xac840d66 // stp    q6, q3, [x11], #128
-	BNE LBB0_1039
-
-	WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_634
-LBB0_1041:
-    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
-    WORD $0x9101004a // add    x10, x2, #64
-    WORD $0x9101006b // add    x11, x3, #64
-    WORD $0xaa0903ec // mov    x12, x9
-LBB0_1042:
-    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
-    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
-    WORD $0xad401145 // ldp    q5, q4, [x10]
-    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
-    WORD $0x9102014a // add    x10, x10, #128
-    WORD $0xf100818c // subs    x12, x12, #32
-    WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
-    WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
-    WORD $0xad011967 // stp    q7, q6, [x11, #32]
-	WORD $0xac841165 // stp    q5, q4, [x11], #128
-	BNE LBB0_1042
-
-    WORD $0xeb08013f // cmp    x9, x8
-	BEQ LBB0_893
-	JMP LBB0_641
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.go b/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.go
deleted file mode 100644
index 4c19e06dc704e..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:noescape
-func _cast_type_numeric_sse4(itype, otype int, in, out unsafe.Pointer, len int)
-
-func castNumericSSE4(itype, otype arrow.Type, in, out []byte, len int) {
-	_cast_type_numeric_sse4(int(itype), int(otype), unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len)
-}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.s b/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.s
deleted file mode 100644
index 778118ffeeb4b..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.s
+++ /dev/null
@@ -1,9045 +0,0 @@
-//go:build go1.18 && !noasm && !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x43e0000000000000
-DATA LCDATA1<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x010(SB)/8, $0x0000000000000400
-DATA LCDATA1<>+0x018(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x020(SB)/8, $0x4f0000004f000000
-DATA LCDATA1<>+0x028(SB)/8, $0x4f0000004f000000
-DATA LCDATA1<>+0x030(SB)/8, $0x8000000080000000
-DATA LCDATA1<>+0x038(SB)/8, $0x8000000080000000
-DATA LCDATA1<>+0x040(SB)/8, $0x0000000000000800
-DATA LCDATA1<>+0x048(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x050(SB)/8, $0x4330000000000000
-DATA LCDATA1<>+0x058(SB)/8, $0x4330000000000000
-DATA LCDATA1<>+0x060(SB)/8, $0x4530000000000000
-DATA LCDATA1<>+0x068(SB)/8, $0x4530000000000000
-DATA LCDATA1<>+0x070(SB)/8, $0x4530000000100000
-DATA LCDATA1<>+0x078(SB)/8, $0x4530000000100000
-DATA LCDATA1<>+0x080(SB)/8, $0x4530000043300000
-DATA LCDATA1<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x090(SB)/8, $0x4330000000000000
-DATA LCDATA1<>+0x098(SB)/8, $0x4530000000000000
-DATA LCDATA1<>+0x0a0(SB)/8, $0x0000000000000001
-DATA LCDATA1<>+0x0a8(SB)/8, $0x0000000000000001
-DATA LCDATA1<>+0x0b0(SB)/8, $0x0d0c090805040100
-DATA LCDATA1<>+0x0b8(SB)/8, $0x0f0e0d0c0d0c0908
-DATA LCDATA1<>+0x0c0(SB)/8, $0x000000000c080400
-DATA LCDATA1<>+0x0c8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x0d0(SB)/8, $0x4b0000004b000000
-DATA LCDATA1<>+0x0d8(SB)/8, $0x4b0000004b000000
-DATA LCDATA1<>+0x0e0(SB)/8, $0x5300000053000000
-DATA LCDATA1<>+0x0e8(SB)/8, $0x5300000053000000
-DATA LCDATA1<>+0x0f0(SB)/8, $0x5300008053000080
-DATA LCDATA1<>+0x0f8(SB)/8, $0x5300008053000080
-DATA LCDATA1<>+0x100(SB)/8, $0x0e0c0a0806040200
-DATA LCDATA1<>+0x108(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x110(SB)/8, $0x000000005f000000
-GLOBL LCDATA1<>(SB), 8, $280
-
-TEXT ·_cast_type_numeric_sse4(SB), $0-40
-
-	MOVQ itype+0(FP), DI
-	MOVQ otype+8(FP), SI
-	MOVQ in+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ len+32(FP), R8
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_13
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_25
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_45
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_53
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_1526
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_93
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_163
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_263
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_266
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_12
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_761
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_761
-
-LBB0_12:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1104:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1106
-
-LBB0_1105:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1105
-
-LBB0_1106:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1107:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1107
-	JMP  LBB0_1526
-
-LBB0_13:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_35
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_61
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_69
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_1526
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_100
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_168
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_269
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_272
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_446
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_448
-
-LBB0_25:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_77
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_1526
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_107
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_173
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_275
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_278
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_34
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_763
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_763
-
-LBB0_34:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1482:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1484
-
-LBB0_1483:
-	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_1483
-
-LBB0_1484:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1485:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1485
-	JMP  LBB0_1526
-
-LBB0_35:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_85
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_1526
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_114
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_178
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_281
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_284
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_454
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_948
-
-LBB0_45:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_121
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_183
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_287
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_290
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_457
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_953
-
-LBB0_53:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_128
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_188
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_293
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_296
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_460
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_958
-
-LBB0_61:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_135
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_193
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_299
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_302
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_463
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_963
-
-LBB0_69:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_142
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_198
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_305
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_308
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_466
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_968
-
-LBB0_77:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_149
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_203
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_311
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_314
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_84
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_766
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_766
-
-LBB0_84:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1490:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1492
-
-LBB0_1491:
-	LONG $0x323cb60f         // movzx    edi, byte [rdx + rsi]
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_1491
-
-LBB0_1492:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1493:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1493
-	JMP  LBB0_1526
-
-LBB0_85:
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JG   LBB0_156
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JLE  LBB0_208
-	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
-	JE   LBB0_317
-	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
-	JE   LBB0_320
-	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_92
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_769
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_769
-
-LBB0_92:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1114:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1116
-
-LBB0_1115:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1115
-
-LBB0_1116:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1117:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1117
-	JMP  LBB0_1526
-
-LBB0_93:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_213
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_323
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_326
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_475
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_477
-
-LBB0_100:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_218
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_329
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_332
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_106
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_771
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_771
-
-LBB0_106:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1124:
-	WORD $0x8944; BYTE $0xcf // mov    edi, r9d
-	WORD $0xf729             // sub    edi, esi
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	LONG $0x07e78348         // and    rdi, 7
-	JE   LBB0_1126
-
-LBB0_1125:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1125
-
-LBB0_1126:
-	LONG $0x07f88349 // cmp    r8, 7
-	JB   LBB0_1526
-
-LBB0_1127:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0xf2448b48; BYTE $0x20 // mov    rax, qword [rdx + 8*rsi + 32]
-	LONG $0xf1448948; BYTE $0x20 // mov    qword [rcx + 8*rsi + 32], rax
-	LONG $0xf2448b48; BYTE $0x28 // mov    rax, qword [rdx + 8*rsi + 40]
-	LONG $0xf1448948; BYTE $0x28 // mov    qword [rcx + 8*rsi + 40], rax
-	LONG $0xf2448b48; BYTE $0x30 // mov    rax, qword [rdx + 8*rsi + 48]
-	LONG $0xf1448948; BYTE $0x30 // mov    qword [rcx + 8*rsi + 48], rax
-	LONG $0xf2448b48; BYTE $0x38 // mov    rax, qword [rdx + 8*rsi + 56]
-	LONG $0xf1448948; BYTE $0x38 // mov    qword [rcx + 8*rsi + 56], rax
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1127
-	JMP  LBB0_1526
-
-LBB0_107:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_223
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_335
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_338
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_483
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_485
-
-LBB0_114:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_228
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_341
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_344
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_488
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_973
-
-LBB0_121:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_233
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_347
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_350
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_491
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_493
-
-LBB0_128:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_238
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_353
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_356
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_496
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_498
-
-LBB0_135:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_243
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_359
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_362
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0xf089             // mov    eax, esi
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_501
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_503
-
-LBB0_142:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_248
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_365
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_368
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_506
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_979
-
-LBB0_149:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_253
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_371
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_374
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_509
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_511
-
-LBB0_156:
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JLE  LBB0_258
-	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
-	JE   LBB0_377
-	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
-	JE   LBB0_380
-	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0xf089             // mov    eax, esi
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_514
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_516
-
-LBB0_163:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_383
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_167
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_773
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_773
-
-LBB0_167:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1498:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1500
-
-LBB0_1499:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1499
-
-LBB0_1500:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1501:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1501
-	JMP  LBB0_1526
-
-LBB0_168:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_386
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_172
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_776
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_776
-
-LBB0_172:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1506:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1508
-
-LBB0_1507:
-	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1507
-
-LBB0_1508:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1509:
-	LONG $0x042c0ff2; BYTE $0xf2   // cvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442c0ff2; WORD $0x08f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 8]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442c0ff2; WORD $0x10f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 16]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442c0ff2; WORD $0x18f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 24]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1509
-	JMP  LBB0_1526
-
-LBB0_173:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_389
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_177
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_779
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_779
-
-LBB0_177:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1134:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1136
-
-LBB0_1135:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1135
-
-LBB0_1136:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1137:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1137
-	JMP  LBB0_1526
-
-LBB0_178:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_392
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_182
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_781
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_781
-
-LBB0_182:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1322:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1324
-
-LBB0_1323:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1323
-
-LBB0_1324:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1325:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1325
-	JMP  LBB0_1526
-
-LBB0_183:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_395
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_187
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_784
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_784
-
-LBB0_187:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1330:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1332
-
-LBB0_1331:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1331
-
-LBB0_1332:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1333:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1333
-	JMP  LBB0_1526
-
-LBB0_188:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_398
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_192
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_787
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_787
-
-LBB0_192:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1514:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1516
-
-LBB0_1515:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1515
-
-LBB0_1516:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1517:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1517
-	JMP  LBB0_1526
-
-LBB0_193:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_401
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_197
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_790
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_790
-
-LBB0_197:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1338:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1340
-
-LBB0_1339:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1339
-
-LBB0_1340:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1341:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1341
-	JMP  LBB0_1526
-
-LBB0_198:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_404
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_202
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_793
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_793
-
-LBB0_202:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1522:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1524
-
-LBB0_1523:
-	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1523
-
-LBB0_1524:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1525:
-	LONG $0x042c0ff3; BYTE $0xb2   // cvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442c0ff3; WORD $0x04b2 // cvttss2si    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442c0ff3; WORD $0x08b2 // cvttss2si    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442c0ff3; WORD $0x0cb2 // cvttss2si    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1525
-	JMP  LBB0_1526
-
-LBB0_203:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_407
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_207
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_796
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_796
-
-LBB0_207:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1144:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1146
-
-LBB0_1145:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1145
-
-LBB0_1146:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1147:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1147
-	JMP  LBB0_1526
-
-LBB0_208:
-	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
-	JE   LBB0_410
-	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_212
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_798
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_798
-
-LBB0_212:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1346:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1348
-
-LBB0_1347:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1347
-
-LBB0_1348:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1349:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1349
-	JMP  LBB0_1526
-
-LBB0_213:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_413
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_549
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_807
-
-LBB0_218:
-	WORD $0xfe83; BYTE $0x07               // cmp    esi, 7
-	JE   LBB0_416
-	WORD $0xfe83; BYTE $0x08               // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0               // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1               // mov    r9d, r8d
-	LONG $0xff418d49                       // lea    rax, [r9 - 1]
-	WORD $0x8945; BYTE $0xc8               // mov    r8d, r9d
-	LONG $0x03e08341                       // and    r8d, 3
-	QUAD $0x000000000000ba49; WORD $0x8000 // mov    r10, -9223372036854775808
-	LONG $0x03f88348                       // cmp    rax, 3
-	JAE  LBB0_551
-	WORD $0xc031                           // xor    eax, eax
-	JMP  LBB0_553
-
-LBB0_223:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_419
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_227
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_808
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_808
-
-LBB0_227:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1154:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1156
-
-LBB0_1155:
-	LONG $0x04be0f48; BYTE $0x32 // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1155
-
-LBB0_1156:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1157:
-	LONG $0x04be0f48; BYTE $0x32   // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x44be0f48; WORD $0x0132 // movsx    rax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x44be0f48; WORD $0x0232 // movsx    rax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x44be0f48; WORD $0x0332 // movsx    rax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1157
-	JMP  LBB0_1526
-
-LBB0_228:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_422
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_232
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_810
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_810
-
-LBB0_232:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1164:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1166
-
-LBB0_1165:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1165
-
-LBB0_1166:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1167:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1167
-	JMP  LBB0_1526
-
-LBB0_233:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_425
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_562
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_818
-
-LBB0_238:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_428
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_564
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_825
-
-LBB0_243:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_431
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_247
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_826
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_826
-
-LBB0_247:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1174:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1176
-
-LBB0_1175:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1175
-
-LBB0_1176:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1177:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1177
-	JMP  LBB0_1526
-
-LBB0_248:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_434
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0xff418d49         // lea    rax, [r9 - 1]
-	WORD $0x8945; BYTE $0xc8 // mov    r8d, r9d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03f88348         // cmp    rax, 3
-	JAE  LBB0_569
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_571
-
-LBB0_253:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_437
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_257
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_828
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_828
-
-LBB0_257:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1184:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1186
-
-LBB0_1185:
-	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1185
-
-LBB0_1186:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1187:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1187
-	JMP  LBB0_1526
-
-LBB0_258:
-	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
-	JE   LBB0_440
-	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
-	JNE  LBB0_1526
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_577
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_836
-
-LBB0_263:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_579
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_984
-
-LBB0_266:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_582
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_989
-
-LBB0_269:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_585
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_994
-
-LBB0_272:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_588
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_999
-
-LBB0_275:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_277
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_837
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_837
-
-LBB0_277:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1354:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1356
-
-LBB0_1355:
-	LONG $0x323cbe0f // movsx    edi, byte [rdx + rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_1355
-
-LBB0_1356:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1357:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1357
-	JMP  LBB0_1526
-
-LBB0_278:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_280
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_840
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_840
-
-LBB0_280:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1362:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1364
-
-LBB0_1363:
-	LONG $0x323cbe0f // movsx    edi, byte [rdx + rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_1363
-
-LBB0_1364:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1365:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1365
-	JMP  LBB0_1526
-
-LBB0_281:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_597
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1004
-
-LBB0_284:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_600
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1009
-
-LBB0_287:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_289
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_843
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_843
-
-LBB0_289:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1194:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1196
-
-LBB0_1195:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1195
-
-LBB0_1196:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1197:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1197
-	JMP  LBB0_1526
-
-LBB0_290:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_292
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_845
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_845
-
-LBB0_292:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1204:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1206
-
-LBB0_1205:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1205
-
-LBB0_1206:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1207:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1207
-	JMP  LBB0_1526
-
-LBB0_293:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_295
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_847
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_847
-
-LBB0_295:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1214:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1216
-
-LBB0_1215:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1215
-
-LBB0_1216:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1217:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1217
-	JMP  LBB0_1526
-
-LBB0_296:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_298
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_849
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_849
-
-LBB0_298:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1224:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1226
-
-LBB0_1225:
-	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1225
-
-LBB0_1226:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1227:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1227
-	JMP  LBB0_1526
-
-LBB0_299:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_615
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1014
-
-LBB0_302:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_618
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1019
-
-LBB0_305:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_621
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1024
-
-LBB0_308:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_624
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1029
-
-LBB0_311:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_313
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_851
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_851
-
-LBB0_313:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1370:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1372
-
-LBB0_1371:
-	LONG $0x323cb60f // movzx    edi, byte [rdx + rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_1371
-
-LBB0_1372:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1373:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1373
-	JMP  LBB0_1526
-
-LBB0_314:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_316
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_854
-	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_854
-
-LBB0_316:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1378:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1380
-
-LBB0_1379:
-	LONG $0x323cb60f // movzx    edi, byte [rdx + rsi]
-	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_1379
-
-LBB0_1380:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1381:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1381
-	JMP  LBB0_1526
-
-LBB0_317:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_633
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1034
-
-LBB0_320:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_636
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1039
-
-LBB0_323:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_639
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_863
-
-LBB0_326:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_641
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1044
-
-LBB0_329:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_644
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_646
-
-LBB0_332:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_649
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1049
-
-LBB0_335:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_337
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_864
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_864
-
-LBB0_337:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1234:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1236
-
-LBB0_1235:
-	LONG $0x04be0f48; BYTE $0x32 // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1235
-
-LBB0_1236:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1237:
-	LONG $0x04be0f48; BYTE $0x32   // movsx    rax, byte [rdx + rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x44be0f48; WORD $0x0132 // movsx    rax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x44be0f48; WORD $0x0232 // movsx    rax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x44be0f48; WORD $0x0332 // movsx    rax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1237
-	JMP  LBB0_1526
-
-LBB0_338:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_340
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_866
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_866
-
-LBB0_340:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1386:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1388
-
-LBB0_1387:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3             // cvtsi2ss    xmm0, eax
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1387
-
-LBB0_1388:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1389:
-	LONG $0x3204be0f               // movsx    eax, byte [rdx + rsi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x04110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x3244be0f; BYTE $0x01   // movsx    eax, byte [rdx + rsi + 1]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x44110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm0
-	LONG $0x3244be0f; BYTE $0x02   // movsx    eax, byte [rdx + rsi + 2]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x44110ff3; WORD $0x08b1 // movss    dword [rcx + 4*rsi + 8], xmm0
-	LONG $0x3244be0f; BYTE $0x03   // movsx    eax, byte [rdx + rsi + 3]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x44110ff3; WORD $0x0cb1 // movss    dword [rcx + 4*rsi + 12], xmm0
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1389
-	JMP  LBB0_1526
-
-LBB0_341:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_343
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_869
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_869
-
-LBB0_343:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1244:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1246
-
-LBB0_1245:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1245
-
-LBB0_1246:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1247:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1247
-	JMP  LBB0_1526
-
-LBB0_344:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_661
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1056
-
-LBB0_347:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_664
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_877
-
-LBB0_350:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_666
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1062
-
-LBB0_353:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_669
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_884
-
-LBB0_356:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_671
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1067
-
-LBB0_359:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_361
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_885
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_885
-
-LBB0_361:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1254:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1256
-
-LBB0_1255:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1255
-
-LBB0_1256:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1257:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1257
-	JMP  LBB0_1526
-
-LBB0_362:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0xf089             // mov    eax, esi
-	WORD $0xe083; BYTE $0x03 // and    eax, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_677
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_679
-
-LBB0_365:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
-	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03ff8348         // cmp    rdi, 3
-	JAE  LBB0_682
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB0_684
-
-LBB0_368:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_370
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_887
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_887
-
-LBB0_370:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1264:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x07e78348         // and    rdi, 7
-	JE   LBB0_1266
-
-LBB0_1265:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1265
-
-LBB0_1266:
-	LONG $0x07f88349 // cmp    r8, 7
-	JB   LBB0_1526
-
-LBB0_1267:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x10b2448b         // mov    eax, dword [rdx + 4*rsi + 16]
-	LONG $0x10b14489         // mov    dword [rcx + 4*rsi + 16], eax
-	LONG $0x14b2448b         // mov    eax, dword [rdx + 4*rsi + 20]
-	LONG $0x14b14489         // mov    dword [rcx + 4*rsi + 20], eax
-	LONG $0x18b2448b         // mov    eax, dword [rdx + 4*rsi + 24]
-	LONG $0x18b14489         // mov    dword [rcx + 4*rsi + 24], eax
-	LONG $0x1cb2448b         // mov    eax, dword [rdx + 4*rsi + 28]
-	LONG $0x1cb14489         // mov    dword [rcx + 4*rsi + 28], eax
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1267
-	JMP  LBB0_1526
-
-LBB0_371:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_373
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_889
-	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_889
-
-LBB0_373:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1274:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1276
-
-LBB0_1275:
-	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_1275
-
-LBB0_1276:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1277:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1277
-	JMP  LBB0_1526
-
-LBB0_374:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_376
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_891
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_891
-
-LBB0_376:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1394:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1396
-
-LBB0_1395:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3             // cvtsi2ss    xmm0, eax
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1395
-
-LBB0_1396:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1397:
-	LONG $0x3204b60f               // movzx    eax, byte [rdx + rsi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x04110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x3244b60f; BYTE $0x01   // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x44110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm0
-	LONG $0x3244b60f; BYTE $0x02   // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x44110ff3; WORD $0x08b1 // movss    dword [rcx + 4*rsi + 8], xmm0
-	LONG $0x3244b60f; BYTE $0x03   // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
-	LONG $0x44110ff3; WORD $0x0cb1 // movss    dword [rcx + 4*rsi + 12], xmm0
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1397
-	JMP  LBB0_1526
-
-LBB0_377:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_696
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_900
-
-LBB0_380:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_698
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1072
-
-LBB0_383:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_385
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_901
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_901
-
-LBB0_385:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1402:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1404
-
-LBB0_1403:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1403
-
-LBB0_1404:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1405:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1405
-	JMP  LBB0_1526
-
-LBB0_386:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_388
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_904
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_904
-
-LBB0_388:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1410:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1412
-
-LBB0_1411:
-	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1411
-
-LBB0_1412:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1413:
-	LONG $0x042c0ff2; BYTE $0xf2   // cvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442c0ff2; WORD $0x08f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 8]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442c0ff2; WORD $0x10f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 16]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442c0ff2; WORD $0x18f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 24]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1413
-	JMP  LBB0_1526
-
-LBB0_389:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_391
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_907
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_907
-
-LBB0_391:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1284:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1286
-
-LBB0_1285:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1285
-
-LBB0_1286:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1287:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1287
-	JMP  LBB0_1526
-
-LBB0_392:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_394
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_909
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_909
-
-LBB0_394:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1418:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1420
-
-LBB0_1419:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1419
-
-LBB0_1420:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1421:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1421
-	JMP  LBB0_1526
-
-LBB0_395:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_397
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_912
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_912
-
-LBB0_397:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1426:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1428
-
-LBB0_1427:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1427
-
-LBB0_1428:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1429:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1429
-	JMP  LBB0_1526
-
-LBB0_398:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x10f88341         // cmp    r8d, 16
-	JB   LBB0_400
-	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_915
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_915
-
-LBB0_400:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1434:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1436
-
-LBB0_1435:
-	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1435
-
-LBB0_1436:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1437:
-	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1437
-	JMP  LBB0_1526
-
-LBB0_401:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JB   LBB0_403
-	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_918
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_918
-
-LBB0_403:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1442:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1444
-
-LBB0_1443:
-	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1443
-
-LBB0_1444:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1445:
-	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1445
-	JMP  LBB0_1526
-
-LBB0_404:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_406
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_921
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_921
-
-LBB0_406:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1450:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1452
-
-LBB0_1451:
-	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_1451
-
-LBB0_1452:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1453:
-	LONG $0x042c0ff3; BYTE $0xb2   // cvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
-	LONG $0x442c0ff3; WORD $0x04b2 // cvttss2si    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
-	LONG $0x442c0ff3; WORD $0x08b2 // cvttss2si    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
-	LONG $0x442c0ff3; WORD $0x0cb2 // cvttss2si    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_1453
-	JMP  LBB0_1526
-
-LBB0_407:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x20f88341         // cmp    r8d, 32
-	JB   LBB0_409
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_924
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_924
-
-LBB0_409:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1294:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1296
-
-LBB0_1295:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1295
-
-LBB0_1296:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1297:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1297
-	JMP  LBB0_1526
-
-LBB0_410:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_412
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_926
-	LONG $0x09048d4a         // lea    rax, [rcx + r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_926
-
-LBB0_412:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1458:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1460
-
-LBB0_1459:
-	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1459
-
-LBB0_1460:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1461:
-	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
-	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
-	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
-	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
-	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
-	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
-	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
-	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1461
-	JMP  LBB0_1526
-
-LBB0_413:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_415
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_929
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_929
-
-LBB0_415:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1304:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1306
-
-LBB0_1305:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1305
-
-LBB0_1306:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1307:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1307
-	JMP  LBB0_1526
-
-LBB0_416:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_734
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1077
-
-LBB0_419:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_421
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_931
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_931
-
-LBB0_421:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1466:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1468
-
-LBB0_1467:
-	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_1467
-
-LBB0_1468:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1469:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1469
-	JMP  LBB0_1526
-
-LBB0_422:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_740
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_943
-
-LBB0_425:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_743
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1082
-
-LBB0_428:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_746
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1087
-
-LBB0_431:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x04f88341         // cmp    r8d, 4
-	JAE  LBB0_749
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1092
-
-LBB0_434:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JAE  LBB0_752
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_1097
-
-LBB0_437:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_439
-	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_934
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_934
-
-LBB0_439:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1474:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_1476
-
-LBB0_1475:
-	LONG $0x323cb60f         // movzx    edi, byte [rdx + rsi]
-	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_1475
-
-LBB0_1476:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1477:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1477
-	JMP  LBB0_1526
-
-LBB0_440:
-	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
-	JLE  LBB0_1526
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0x08f88341         // cmp    r8d, 8
-	JB   LBB0_442
-	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB0_937
-	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB0_937
-
-LBB0_442:
-	WORD $0xf631 // xor    esi, esi
-
-LBB0_1314:
-	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_1316
-
-LBB0_1315:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_1315
-
-LBB0_1316:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_1526
-
-LBB0_1317:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
-	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
-	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1317
-	JMP  LBB0_1526
-
-LBB0_446:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_447:
-	LONG $0x2c0f48f2; WORD $0xfa04             // cvttsd2si    rax, qword [rdx + 8*rdi]
-	WORD $0x0489; BYTE $0xb9                   // mov    dword [rcx + 4*rdi], eax
-	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x08 // cvttsd2si    rax, qword [rdx + 8*rdi + 8]
-	LONG $0x04b94489                           // mov    dword [rcx + 4*rdi + 4], eax
-	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x10 // cvttsd2si    rax, qword [rdx + 8*rdi + 16]
-	LONG $0x08b94489                           // mov    dword [rcx + 4*rdi + 8], eax
-	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x18 // cvttsd2si    rax, qword [rdx + 8*rdi + 24]
-	LONG $0x0cb94489                           // mov    dword [rcx + 4*rdi + 12], eax
-	LONG $0x04c78348                           // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_447
-
-LBB0_448:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xb90c8d48         // lea    rcx, [rcx + 4*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_450:
-	LONG $0x2c0f48f2; WORD $0xf204 // cvttsd2si    rax, qword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1       // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0       // cmp    r8, rsi
-	JNE  LBB0_450
-	JMP  LBB0_1526
-
-LBB0_454:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_944
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_456:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_456
-	JMP  LBB0_945
-
-LBB0_457:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_949
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_459:
-	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x33380f66; WORD $0x7a44; BYTE $0x10 // pmovzxwd    xmm0, qword [rdx + 2*rdi + 16]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x18 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 24]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_459
-	JMP  LBB0_950
-
-LBB0_460:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_954
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_462:
-	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x23380f66; WORD $0x7a44; BYTE $0x10 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 16]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_462
-	JMP  LBB0_955
-
-LBB0_463:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_959
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_465:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_465
-	JMP  LBB0_960
-
-LBB0_466:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_964
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x204d280f         // movaps    xmm1, oword 32[rbp] /* [rip + .LCPI0_3] */
-	LONG $0x3055280f         // movaps    xmm2, oword 48[rbp] /* [rip + .LCPI0_4] */
-
-LBB0_468:
-	LONG $0xba1c100f             // movups    xmm3, oword [rdx + 4*rdi]
-	LONG $0xba64100f; BYTE $0x10 // movups    xmm4, oword [rdx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xc3     // movaps    xmm0, xmm3
-	LONG $0x01c1c20f             // cmpltps    xmm0, xmm1
-	LONG $0xeb5b0ff3             // cvttps2dq    xmm5, xmm3
-	WORD $0x5c0f; BYTE $0xd9     // subps    xmm3, xmm1
-	LONG $0xdb5b0ff3             // cvttps2dq    xmm3, xmm3
-	WORD $0x570f; BYTE $0xda     // xorps    xmm3, xmm2
-	LONG $0x14380f66; BYTE $0xdd // blendvps    xmm3, xmm5, xmm0
-	WORD $0x280f; BYTE $0xc4     // movaps    xmm0, xmm4
-	LONG $0x01c1c20f             // cmpltps    xmm0, xmm1
-	LONG $0xec5b0ff3             // cvttps2dq    xmm5, xmm4
-	WORD $0x5c0f; BYTE $0xe1     // subps    xmm4, xmm1
-	LONG $0xe45b0ff3             // cvttps2dq    xmm4, xmm4
-	WORD $0x570f; BYTE $0xe2     // xorps    xmm4, xmm2
-	LONG $0x14380f66; BYTE $0xe5 // blendvps    xmm4, xmm5, xmm0
-	LONG $0xb91c110f             // movups    oword [rcx + 4*rdi], xmm3
-	LONG $0xb964110f; BYTE $0x10 // movups    oword [rcx + 4*rdi + 16], xmm4
-	LONG $0xba5c100f; BYTE $0x20 // movups    xmm3, oword [rdx + 4*rdi + 32]
-	WORD $0x280f; BYTE $0xc3     // movaps    xmm0, xmm3
-	LONG $0x01c1c20f             // cmpltps    xmm0, xmm1
-	LONG $0xe35b0ff3             // cvttps2dq    xmm4, xmm3
-	WORD $0x5c0f; BYTE $0xd9     // subps    xmm3, xmm1
-	LONG $0xdb5b0ff3             // cvttps2dq    xmm3, xmm3
-	WORD $0x570f; BYTE $0xda     // xorps    xmm3, xmm2
-	LONG $0x14380f66; BYTE $0xdc // blendvps    xmm3, xmm4, xmm0
-	LONG $0xba64100f; BYTE $0x30 // movups    xmm4, oword [rdx + 4*rdi + 48]
-	WORD $0x280f; BYTE $0xc4     // movaps    xmm0, xmm4
-	LONG $0x01c1c20f             // cmpltps    xmm0, xmm1
-	LONG $0xec5b0ff3             // cvttps2dq    xmm5, xmm4
-	WORD $0x5c0f; BYTE $0xe1     // subps    xmm4, xmm1
-	LONG $0xe45b0ff3             // cvttps2dq    xmm4, xmm4
-	WORD $0x570f; BYTE $0xe2     // xorps    xmm4, xmm2
-	LONG $0x14380f66; BYTE $0xe5 // blendvps    xmm4, xmm5, xmm0
-	LONG $0xb95c110f; BYTE $0x20 // movups    oword [rcx + 4*rdi + 32], xmm3
-	LONG $0xb964110f; BYTE $0x30 // movups    oword [rcx + 4*rdi + 48], xmm4
-	LONG $0x10c78348             // add    rdi, 16
-	LONG $0x02c08348             // add    rax, 2
-	JNE  LBB0_468
-	JMP  LBB0_965
-
-LBB0_475:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_476:
-	WORD $0x048b; BYTE $0xba       // mov    eax, dword [rdx + 4*rdi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; BYTE $0xc0   // cvtsi2sd    xmm0, rax
-	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
-	LONG $0x04ba448b               // mov    eax, dword [rdx + 4*rdi + 4]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; BYTE $0xc0   // cvtsi2sd    xmm0, rax
-	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
-	LONG $0x08ba448b               // mov    eax, dword [rdx + 4*rdi + 8]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; BYTE $0xc0   // cvtsi2sd    xmm0, rax
-	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
-	LONG $0x0cba448b               // mov    eax, dword [rdx + 4*rdi + 12]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; BYTE $0xc0   // cvtsi2sd    xmm0, rax
-	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_476
-
-LBB0_477:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xba148d48         // lea    rdx, [rdx + 4*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_479:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; BYTE $0xc0 // cvtsi2sd    xmm0, rax
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
-	JNE  LBB0_479
-	JMP  LBB0_1526
-
-LBB0_483:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_484:
-	LONG $0x3a04be0f               // movsx    eax, byte [rdx + rdi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
-	LONG $0x3a44be0f; BYTE $0x01   // movsx    eax, byte [rdx + rdi + 1]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
-	LONG $0x3a44be0f; BYTE $0x02   // movsx    eax, byte [rdx + rdi + 2]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
-	LONG $0x3a44be0f; BYTE $0x03   // movsx    eax, byte [rdx + rdi + 3]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_484
-
-LBB0_485:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	WORD $0x0148; BYTE $0xfa // add    rdx, rdi
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_487:
-	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2             // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
-	JNE  LBB0_487
-	JMP  LBB0_1526
-
-LBB0_488:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_969
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
-	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI0_6] */
-	LONG $0x556f0f66; BYTE $0x60 // movdqa    xmm2, oword 96[rbp] /* [rip + .LCPI0_7] */
-	LONG $0x5d280f66; BYTE $0x70 // movapd    xmm3, oword 112[rbp] /* [rip + .LCPI0_8] */
-
-LBB0_490:
-	LONG $0x246f0ff3; BYTE $0xfa   // movdqu    xmm4, oword [rdx + 8*rdi]
-	LONG $0x6c6f0ff3; WORD $0x10fa // movdqu    xmm5, oword [rdx + 8*rdi + 16]
-	LONG $0xf46f0f66               // movdqa    xmm6, xmm4
-	LONG $0x0e3a0f66; WORD $0xccf0 // pblendw    xmm6, xmm0, 204
-	LONG $0xf1eb0f66               // por    xmm6, xmm1
-	LONG $0xd4730f66; BYTE $0x20   // psrlq    xmm4, 32
-	LONG $0xe2eb0f66               // por    xmm4, xmm2
-	LONG $0xe35c0f66               // subpd    xmm4, xmm3
-	LONG $0xe6580f66               // addpd    xmm4, xmm6
-	LONG $0xf56f0f66               // movdqa    xmm6, xmm5
-	LONG $0x0e3a0f66; WORD $0xccf0 // pblendw    xmm6, xmm0, 204
-	LONG $0xf1eb0f66               // por    xmm6, xmm1
-	LONG $0xd5730f66; BYTE $0x20   // psrlq    xmm5, 32
-	LONG $0xeaeb0f66               // por    xmm5, xmm2
-	LONG $0xeb5c0f66               // subpd    xmm5, xmm3
-	LONG $0xee580f66               // addpd    xmm5, xmm6
-	LONG $0x24110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm4
-	LONG $0x6c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm5
-	LONG $0x646f0ff3; WORD $0x20fa // movdqu    xmm4, oword [rdx + 8*rdi + 32]
-	LONG $0x6c6f0ff3; WORD $0x30fa // movdqu    xmm5, oword [rdx + 8*rdi + 48]
-	LONG $0xf46f0f66               // movdqa    xmm6, xmm4
-	LONG $0x0e3a0f66; WORD $0xccf0 // pblendw    xmm6, xmm0, 204
-	LONG $0xf1eb0f66               // por    xmm6, xmm1
-	LONG $0xd4730f66; BYTE $0x20   // psrlq    xmm4, 32
-	LONG $0xe2eb0f66               // por    xmm4, xmm2
-	LONG $0xe35c0f66               // subpd    xmm4, xmm3
-	LONG $0xe6580f66               // addpd    xmm4, xmm6
-	LONG $0xf56f0f66               // movdqa    xmm6, xmm5
-	LONG $0x0e3a0f66; WORD $0xccf0 // pblendw    xmm6, xmm0, 204
-	LONG $0xf1eb0f66               // por    xmm6, xmm1
-	LONG $0xd5730f66; BYTE $0x20   // psrlq    xmm5, 32
-	LONG $0xeaeb0f66               // por    xmm5, xmm2
-	LONG $0xeb5c0f66               // subpd    xmm5, xmm3
-	LONG $0xee580f66               // addpd    xmm5, xmm6
-	LONG $0x64110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm4
-	LONG $0x6c110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm5
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_490
-	JMP  LBB0_970
-
-LBB0_491:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_492:
-	LONG $0x7a04b70f               // movzx    eax, word [rdx + 2*rdi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
-	LONG $0x7a44b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rdi + 2]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
-	LONG $0x7a44b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rdi + 4]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
-	LONG $0x7a44b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rdi + 6]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_492
-
-LBB0_493:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0x7a148d48         // lea    rdx, [rdx + 2*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_495:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2             // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
-	JNE  LBB0_495
-	JMP  LBB0_1526
-
-LBB0_496:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_497:
-	LONG $0x7a04bf0f               // movsx    eax, word [rdx + 2*rdi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
-	LONG $0x7a44bf0f; BYTE $0x02   // movsx    eax, word [rdx + 2*rdi + 2]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
-	LONG $0x7a44bf0f; BYTE $0x04   // movsx    eax, word [rdx + 2*rdi + 4]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
-	LONG $0x7a44bf0f; BYTE $0x06   // movsx    eax, word [rdx + 2*rdi + 6]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_497
-
-LBB0_498:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0x7a148d48         // lea    rdx, [rdx + 2*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_500:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2             // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
-	JNE  LBB0_500
-	JMP  LBB0_1526
-
-LBB0_501:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_502:
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; WORD $0xfa04             // cvtsi2sd    xmm0, qword [rdx + 8*rdi]
-	LONG $0x04110ff2; BYTE $0xf9               // movsd    qword [rcx + 8*rdi], xmm0
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; WORD $0xfa44; BYTE $0x08 // cvtsi2sd    xmm0, qword [rdx + 8*rdi + 8]
-	LONG $0x44110ff2; WORD $0x08f9             // movsd    qword [rcx + 8*rdi + 8], xmm0
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; WORD $0xfa44; BYTE $0x10 // cvtsi2sd    xmm0, qword [rdx + 8*rdi + 16]
-	LONG $0x44110ff2; WORD $0x10f9             // movsd    qword [rcx + 8*rdi + 16], xmm0
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; WORD $0xfa44; BYTE $0x18 // cvtsi2sd    xmm0, qword [rdx + 8*rdi + 24]
-	LONG $0x44110ff2; WORD $0x18f9             // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348                           // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_502
-
-LBB0_503:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_505:
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x2a0f48f2; WORD $0xf204 // cvtsi2sd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x04110ff2; BYTE $0xf1   // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
-	JNE  LBB0_505
-	JMP  LBB0_1526
-
-LBB0_506:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_975
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_508:
-	LONG $0xba045a0f               // cvtps2pd    xmm0, qword [rdx + 4*rdi]
-	LONG $0xba4c5a0f; BYTE $0x08   // cvtps2pd    xmm1, qword [rdx + 4*rdi + 8]
-	LONG $0xf904110f               // movups    oword [rcx + 8*rdi], xmm0
-	LONG $0xf94c110f; BYTE $0x10   // movups    oword [rcx + 8*rdi + 16], xmm1
-	LONG $0xba445a0f; BYTE $0x10   // cvtps2pd    xmm0, qword [rdx + 4*rdi + 16]
-	LONG $0xba4c5a0f; BYTE $0x18   // cvtps2pd    xmm1, qword [rdx + 4*rdi + 24]
-	LONG $0x44110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm0
-	LONG $0x4c110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_508
-	JMP  LBB0_976
-
-LBB0_509:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_510:
-	LONG $0x3a04b60f               // movzx    eax, byte [rdx + rdi]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
-	LONG $0x3a44b60f; BYTE $0x01   // movzx    eax, byte [rdx + rdi + 1]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
-	LONG $0x3a44b60f; BYTE $0x02   // movzx    eax, byte [rdx + rdi + 2]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
-	LONG $0x3a44b60f; BYTE $0x03   // movzx    eax, byte [rdx + rdi + 3]
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
-	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_510
-
-LBB0_511:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	WORD $0x0148; BYTE $0xfa // add    rdx, rdi
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_513:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff2             // cvtsi2sd    xmm0, eax
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
-	JNE  LBB0_513
-	JMP  LBB0_1526
-
-LBB0_514:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_515:
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x042a0ff2; BYTE $0xba   // cvtsi2sd    xmm0, dword [rdx + 4*rdi]
-	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x442a0ff2; WORD $0x04ba // cvtsi2sd    xmm0, dword [rdx + 4*rdi + 4]
-	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x442a0ff2; WORD $0x08ba // cvtsi2sd    xmm0, dword [rdx + 4*rdi + 8]
-	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x442a0ff2; WORD $0x0cba // cvtsi2sd    xmm0, dword [rdx + 4*rdi + 12]
-	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
-	JNE  LBB0_515
-
-LBB0_516:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xba148d48         // lea    rdx, [rdx + 4*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_518:
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x042a0ff2; BYTE $0xb2 // cvtsi2sd    xmm0, dword [rdx + 4*rsi]
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JNE  LBB0_518
-	JMP  LBB0_1526
-
-LBB0_549:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_801
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_803
-
-LBB0_551:
-	LONG $0xfce18341             // and    r9d, -4
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x45100ff2; BYTE $0x00 // movsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_552:
-	LONG $0x0c100ff2; BYTE $0xc2   // movsd    xmm1, qword [rdx + 8*rax]
-	LONG $0xd1280f66               // movapd    xmm2, xmm1
-	LONG $0xd05c0ff2               // subsd    xmm2, xmm0
-	LONG $0x2c0f48f2; BYTE $0xfa   // cvttsd2si    rdi, xmm2
-	WORD $0x314c; BYTE $0xd7       // xor    rdi, r10
-	LONG $0x2c0f48f2; BYTE $0xf1   // cvttsd2si    rsi, xmm1
-	LONG $0xc12e0f66               // ucomisd    xmm0, xmm1
-	LONG $0xf7460f48               // cmovbe    rsi, rdi
-	LONG $0xc1348948               // mov    qword [rcx + 8*rax], rsi
-	LONG $0x4c100ff2; WORD $0x08c2 // movsd    xmm1, qword [rdx + 8*rax + 8]
-	LONG $0xd1280f66               // movapd    xmm2, xmm1
-	LONG $0xd05c0ff2               // subsd    xmm2, xmm0
-	LONG $0x2c0f48f2; BYTE $0xf2   // cvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2c0f48f2; BYTE $0xf9   // cvttsd2si    rdi, xmm1
-	LONG $0xc12e0f66               // ucomisd    xmm0, xmm1
-	LONG $0xfe460f48               // cmovbe    rdi, rsi
-	LONG $0xc17c8948; BYTE $0x08   // mov    qword [rcx + 8*rax + 8], rdi
-	LONG $0x4c100ff2; WORD $0x10c2 // movsd    xmm1, qword [rdx + 8*rax + 16]
-	LONG $0xd1280f66               // movapd    xmm2, xmm1
-	LONG $0xd05c0ff2               // subsd    xmm2, xmm0
-	LONG $0x2c0f48f2; BYTE $0xf2   // cvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2c0f48f2; BYTE $0xf9   // cvttsd2si    rdi, xmm1
-	LONG $0xc12e0f66               // ucomisd    xmm0, xmm1
-	LONG $0xfe460f48               // cmovbe    rdi, rsi
-	LONG $0xc17c8948; BYTE $0x10   // mov    qword [rcx + 8*rax + 16], rdi
-	LONG $0x4c100ff2; WORD $0x18c2 // movsd    xmm1, qword [rdx + 8*rax + 24]
-	LONG $0xd1280f66               // movapd    xmm2, xmm1
-	LONG $0xd05c0ff2               // subsd    xmm2, xmm0
-	LONG $0x2c0f48f2; BYTE $0xf2   // cvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2c0f48f2; BYTE $0xf9   // cvttsd2si    rdi, xmm1
-	LONG $0xc12e0f66               // ucomisd    xmm0, xmm1
-	LONG $0xfe460f48               // cmovbe    rdi, rsi
-	LONG $0xc17c8948; BYTE $0x18   // mov    qword [rcx + 8*rax + 24], rdi
-	LONG $0x04c08348               // add    rax, 4
-	WORD $0x3949; BYTE $0xc1       // cmp    r9, rax
-	JNE  LBB0_552
-
-LBB0_553:
-	WORD $0x854d; BYTE $0xc0     // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xc10c8d48             // lea    rcx, [rcx + 8*rax]
-	LONG $0xc2048d48             // lea    rax, [rdx + 8*rax]
-	WORD $0xd231                 // xor    edx, edx
-	LONG $0x45100ff2; BYTE $0x00 // movsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
-
-LBB0_555:
-	LONG $0x0c100ff2; BYTE $0xd0 // movsd    xmm1, qword [rax + 8*rdx]
-	LONG $0xd1280f66             // movapd    xmm2, xmm1
-	LONG $0xd05c0ff2             // subsd    xmm2, xmm0
-	LONG $0x2c0f48f2; BYTE $0xf2 // cvttsd2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6     // xor    rsi, r10
-	LONG $0x2c0f48f2; BYTE $0xf9 // cvttsd2si    rdi, xmm1
-	LONG $0xc12e0f66             // ucomisd    xmm0, xmm1
-	LONG $0xfe460f48             // cmovbe    rdi, rsi
-	LONG $0xd13c8948             // mov    qword [rcx + 8*rdx], rdi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd0     // cmp    r8, rdx
-	JNE  LBB0_555
-	JMP  LBB0_1526
-
-LBB0_562:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_812
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_814
-
-LBB0_564:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_819
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_821
-
-LBB0_569:
-	LONG $0xfce18341                       // and    r9d, -4
-	WORD $0xff31                           // xor    edi, edi
-	QUAD $0x0000011085100ff3               // movss    xmm0, dword 272[rbp] /* [rip + .LCPI0_2] */
-	QUAD $0x000000000000ba49; WORD $0x8000 // mov    r10, -9223372036854775808
-
-LBB0_570:
-	LONG $0x0c100ff3; BYTE $0xba   // movss    xmm1, dword [rdx + 4*rdi]
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	LONG $0xd05c0ff3               // subss    xmm2, xmm0
-	LONG $0x2c0f48f3; BYTE $0xf2   // cvttss2si    rsi, xmm2
-	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
-	LONG $0x2c0f48f3; BYTE $0xc1   // cvttss2si    rax, xmm1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	LONG $0xc6460f48               // cmovbe    rax, rsi
-	LONG $0xf9048948               // mov    qword [rcx + 8*rdi], rax
-	LONG $0x4c100ff3; WORD $0x04ba // movss    xmm1, dword [rdx + 4*rdi + 4]
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	LONG $0xd05c0ff3               // subss    xmm2, xmm0
-	LONG $0x2c0f48f3; BYTE $0xc2   // cvttss2si    rax, xmm2
-	WORD $0x314c; BYTE $0xd0       // xor    rax, r10
-	LONG $0x2c0f48f3; BYTE $0xf1   // cvttss2si    rsi, xmm1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	LONG $0xf0460f48               // cmovbe    rsi, rax
-	LONG $0xf9748948; BYTE $0x08   // mov    qword [rcx + 8*rdi + 8], rsi
-	LONG $0x4c100ff3; WORD $0x08ba // movss    xmm1, dword [rdx + 4*rdi + 8]
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	LONG $0xd05c0ff3               // subss    xmm2, xmm0
-	LONG $0x2c0f48f3; BYTE $0xc2   // cvttss2si    rax, xmm2
-	WORD $0x314c; BYTE $0xd0       // xor    rax, r10
-	LONG $0x2c0f48f3; BYTE $0xf1   // cvttss2si    rsi, xmm1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	LONG $0xf0460f48               // cmovbe    rsi, rax
-	LONG $0xf9748948; BYTE $0x10   // mov    qword [rcx + 8*rdi + 16], rsi
-	LONG $0x4c100ff3; WORD $0x0cba // movss    xmm1, dword [rdx + 4*rdi + 12]
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	LONG $0xd05c0ff3               // subss    xmm2, xmm0
-	LONG $0x2c0f48f3; BYTE $0xc2   // cvttss2si    rax, xmm2
-	WORD $0x314c; BYTE $0xd0       // xor    rax, r10
-	LONG $0x2c0f48f3; BYTE $0xf1   // cvttss2si    rsi, xmm1
-	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
-	LONG $0xf0460f48               // cmovbe    rsi, rax
-	LONG $0xf9748948; BYTE $0x18   // mov    qword [rcx + 8*rdi + 24], rsi
-	LONG $0x04c78348               // add    rdi, 4
-	WORD $0x3949; BYTE $0xf9       // cmp    r9, rdi
-	JNE  LBB0_570
-
-LBB0_571:
-	WORD $0x854d; BYTE $0xc0               // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf9048d48                       // lea    rax, [rcx + 8*rdi]
-	LONG $0xba0c8d48                       // lea    rcx, [rdx + 4*rdi]
-	WORD $0xd231                           // xor    edx, edx
-	QUAD $0x0000011085100ff3               // movss    xmm0, dword 272[rbp] /* [rip + .LCPI0_2] */
-	QUAD $0x000000000000b949; WORD $0x8000 // mov    r9, -9223372036854775808
-
-LBB0_573:
-	LONG $0x0c100ff3; BYTE $0x91 // movss    xmm1, dword [rcx + 4*rdx]
-	WORD $0x280f; BYTE $0xd1     // movaps    xmm2, xmm1
-	LONG $0xd05c0ff3             // subss    xmm2, xmm0
-	LONG $0x2c0f48f3; BYTE $0xfa // cvttss2si    rdi, xmm2
-	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
-	LONG $0x2c0f48f3; BYTE $0xf1 // cvttss2si    rsi, xmm1
-	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
-	LONG $0xf7460f48             // cmovbe    rsi, rdi
-	LONG $0xd0348948             // mov    qword [rax + 8*rdx], rsi
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x3949; BYTE $0xd0     // cmp    r8, rdx
-	JNE  LBB0_573
-	JMP  LBB0_1526
-
-LBB0_577:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_830
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_832
-
-LBB0_579:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_980
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000b0856f0f66 // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_581:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_581
-	JMP  LBB0_981
-
-LBB0_582:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_985
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000b0856f0f66 // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_584:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_584
-	JMP  LBB0_986
-
-LBB0_585:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_990
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_587:
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-	LONG $0x44100f66; WORD $0x20fa // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_587
-	JMP  LBB0_991
-
-LBB0_588:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_995
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_590:
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-	LONG $0x44100f66; WORD $0x20fa // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_590
-	JMP  LBB0_996
-
-LBB0_597:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1000
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_599:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_599
-	JMP  LBB0_1001
-
-LBB0_600:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1005
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_602:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_602
-	JMP  LBB0_1006
-
-LBB0_615:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1010
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_617:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_617
-	JMP  LBB0_1011
-
-LBB0_618:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1015
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_620:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_620
-	JMP  LBB0_1016
-
-LBB0_621:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1020
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_623:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x2b380f66; BYTE $0xc1   // packusdw    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x2b380f66; BYTE $0xc1   // packusdw    xmm0, xmm1
-	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_623
-	JMP  LBB0_1021
-
-LBB0_624:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1025
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_626:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0xc16b0f66               // packssdw    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0xc16b0f66               // packssdw    xmm0, xmm1
-	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_626
-	JMP  LBB0_1026
-
-LBB0_633:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1030
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000b0856f0f66 // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_635:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_635
-	JMP  LBB0_1031
-
-LBB0_636:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1035
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000b0856f0f66 // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI0_12] */
-
-LBB0_638:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_638
-	JMP  LBB0_1036
-
-LBB0_639:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_857
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_859
-
-LBB0_641:
-	WORD $0x8944; BYTE $0xce                   // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8                   // and    esi, -8
-	LONG $0xf8468d48                           // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	LONG $0x03e8c149                           // shr    r8, 3
-	LONG $0x01c08349                           // add    r8, 1
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	JE   LBB0_1040
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	LONG $0xfee08348                           // and    rax, -2
-	WORD $0xf748; BYTE $0xd8                   // neg    rax
-	WORD $0xff31                               // xor    edi, edi
-	QUAD $0x000000d0856f0f66                   // movdqa    xmm0, oword 208[rbp] /* [rip + .LCPI0_14] */
-	QUAD $0x000000e08d6f0f66                   // movdqa    xmm1, oword 224[rbp] /* [rip + .LCPI0_15] */
-	LONG $0xf095280f; WORD $0x0000; BYTE $0x00 // movaps    xmm2, oword 240[rbp] /* [rip + .LCPI0_16] */
-
-LBB0_643:
-	LONG $0x1c6f0ff3; BYTE $0xba   // movdqu    xmm3, oword [rdx + 4*rdi]
-	LONG $0x646f0ff3; WORD $0x10ba // movdqu    xmm4, oword [rdx + 4*rdi + 16]
-	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
-	LONG $0x0e3a0f66; WORD $0xaae8 // pblendw    xmm5, xmm0, 170
-	LONG $0xd3720f66; BYTE $0x10   // psrld    xmm3, 16
-	LONG $0x0e3a0f66; WORD $0xaad9 // pblendw    xmm3, xmm1, 170
-	WORD $0x5c0f; BYTE $0xda       // subps    xmm3, xmm2
-	WORD $0x580f; BYTE $0xdd       // addps    xmm3, xmm5
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0x0e3a0f66; WORD $0xaae8 // pblendw    xmm5, xmm0, 170
-	LONG $0xd4720f66; BYTE $0x10   // psrld    xmm4, 16
-	LONG $0x0e3a0f66; WORD $0xaae1 // pblendw    xmm4, xmm1, 170
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x580f; BYTE $0xe5       // addps    xmm4, xmm5
-	LONG $0xb91c110f               // movups    oword [rcx + 4*rdi], xmm3
-	LONG $0xb964110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm4
-	LONG $0x5c6f0ff3; WORD $0x20ba // movdqu    xmm3, oword [rdx + 4*rdi + 32]
-	LONG $0x646f0ff3; WORD $0x30ba // movdqu    xmm4, oword [rdx + 4*rdi + 48]
-	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
-	LONG $0x0e3a0f66; WORD $0xaae8 // pblendw    xmm5, xmm0, 170
-	LONG $0xd3720f66; BYTE $0x10   // psrld    xmm3, 16
-	LONG $0x0e3a0f66; WORD $0xaad9 // pblendw    xmm3, xmm1, 170
-	WORD $0x5c0f; BYTE $0xda       // subps    xmm3, xmm2
-	WORD $0x580f; BYTE $0xdd       // addps    xmm3, xmm5
-	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
-	LONG $0x0e3a0f66; WORD $0xaae8 // pblendw    xmm5, xmm0, 170
-	LONG $0xd4720f66; BYTE $0x10   // psrld    xmm4, 16
-	LONG $0x0e3a0f66; WORD $0xaae1 // pblendw    xmm4, xmm1, 170
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x580f; BYTE $0xe5       // addps    xmm4, xmm5
-	LONG $0xb95c110f; BYTE $0x20   // movups    oword [rcx + 4*rdi + 32], xmm3
-	LONG $0xb964110f; BYTE $0x30   // movups    oword [rcx + 4*rdi + 48], xmm4
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_643
-	JMP  LBB0_1041
-
-LBB0_644:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_645:
-	LONG $0x2c0f48f2; WORD $0xfa04             // cvttsd2si    rax, qword [rdx + 8*rdi]
-	LONG $0xf9048948                           // mov    qword [rcx + 8*rdi], rax
-	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x08 // cvttsd2si    rax, qword [rdx + 8*rdi + 8]
-	LONG $0xf9448948; BYTE $0x08               // mov    qword [rcx + 8*rdi + 8], rax
-	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x10 // cvttsd2si    rax, qword [rdx + 8*rdi + 16]
-	LONG $0xf9448948; BYTE $0x10               // mov    qword [rcx + 8*rdi + 16], rax
-	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x18 // cvttsd2si    rax, qword [rdx + 8*rdi + 24]
-	LONG $0xf9448948; BYTE $0x18               // mov    qword [rcx + 8*rdi + 24], rax
-	LONG $0x04c78348                           // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_645
-
-LBB0_646:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_648:
-	LONG $0x2c0f48f2; WORD $0xf204 // cvttsd2si    rax, qword [rdx + 8*rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0       // cmp    r8, rsi
-	JNE  LBB0_648
-	JMP  LBB0_1526
-
-LBB0_649:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1045
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_651:
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc05a0f66               // cvtpd2ps    xmm0, xmm0
-	LONG $0xc95a0f66               // cvtpd2ps    xmm1, xmm1
-	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x44100f66; WORD $0x20fa // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc05a0f66               // cvtpd2ps    xmm0, xmm0
-	LONG $0xc95a0f66               // cvtpd2ps    xmm1, xmm1
-	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
-	LONG $0x44110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_651
-	JMP  LBB0_1046
-
-LBB0_661:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1050
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000a0956f0f66 // movdqa    xmm2, oword 160[rbp] /* [rip + .LCPI0_11] */
-
-LBB0_663:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcadb0f66                           // pand    xmm1, xmm2
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd3730f66; BYTE $0x01               // psrlq    xmm3, 1
-	LONG $0xd9eb0f66                           // por    xmm3, xmm1
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0x37380f66; BYTE $0xe0               // pcmpgtq    xmm4, xmm0
-	LONG $0x15380f66; BYTE $0xc3               // blendvpd    xmm0, xmm3, xmm0
-	LONG $0x3a0f4866; WORD $0xc016; BYTE $0x01 // pextrq    rax, xmm0, 1
-	WORD $0x570f; BYTE $0xed                   // xorps    xmm5, xmm5
-	LONG $0x2a0f48f3; BYTE $0xe8               // cvtsi2ss    xmm5, rax
-	LONG $0x7e0f4866; BYTE $0xc0               // movq    rax, xmm0
-	WORD $0x570f; BYTE $0xdb                   // xorps    xmm3, xmm3
-	LONG $0x2a0f48f3; BYTE $0xd8               // cvtsi2ss    xmm3, rax
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x213a0f66; WORD $0x1cdd             // insertps    xmm3, xmm5, 28
-	WORD $0x280f; BYTE $0xeb                   // movaps    xmm5, xmm3
-	WORD $0x580f; BYTE $0xeb                   // addps    xmm5, xmm3
-	LONG $0xc4700f66; BYTE $0xed               // pshufd    xmm0, xmm4, 237
-	LONG $0x14380f66; BYTE $0xdd               // blendvps    xmm3, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0xc2db0f66                           // pand    xmm0, xmm2
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xd4730f66; BYTE $0x01               // psrlq    xmm4, 1
-	LONG $0xe0eb0f66                           // por    xmm4, xmm0
-	WORD $0x570f; BYTE $0xed                   // xorps    xmm5, xmm5
-	LONG $0x37380f66; BYTE $0xe9               // pcmpgtq    xmm5, xmm1
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcc               // blendvpd    xmm1, xmm4, xmm0
-	LONG $0x3a0f4866; WORD $0xc816; BYTE $0x01 // pextrq    rax, xmm1, 1
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; BYTE $0xc0               // cvtsi2ss    xmm0, rax
-	LONG $0x7e0f4866; BYTE $0xc8               // movq    rax, xmm1
-	WORD $0x570f; BYTE $0xc9                   // xorps    xmm1, xmm1
-	LONG $0x2a0f48f3; BYTE $0xc8               // cvtsi2ss    xmm1, rax
-	LONG $0x213a0f66; WORD $0x1cc8             // insertps    xmm1, xmm0, 28
-	WORD $0x280f; BYTE $0xe1                   // movaps    xmm4, xmm1
-	WORD $0x580f; BYTE $0xe1                   // addps    xmm4, xmm1
-	LONG $0xc5700f66; BYTE $0xed               // pshufd    xmm0, xmm5, 237
-	LONG $0x14380f66; BYTE $0xcc               // blendvps    xmm1, xmm4, xmm0
-	WORD $0x160f; BYTE $0xd9                   // movlhps    xmm3, xmm1
-	LONG $0xb91c110f                           // movups    oword [rcx + 4*rdi], xmm3
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcadb0f66                           // pand    xmm1, xmm2
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd3730f66; BYTE $0x01               // psrlq    xmm3, 1
-	LONG $0xd9eb0f66                           // por    xmm3, xmm1
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0x37380f66; BYTE $0xe0               // pcmpgtq    xmm4, xmm0
-	LONG $0x15380f66; BYTE $0xc3               // blendvpd    xmm0, xmm3, xmm0
-	LONG $0x3a0f4866; WORD $0xc016; BYTE $0x01 // pextrq    rax, xmm0, 1
-	WORD $0x570f; BYTE $0xed                   // xorps    xmm5, xmm5
-	LONG $0x2a0f48f3; BYTE $0xe8               // cvtsi2ss    xmm5, rax
-	LONG $0x7e0f4866; BYTE $0xc0               // movq    rax, xmm0
-	WORD $0x570f; BYTE $0xdb                   // xorps    xmm3, xmm3
-	LONG $0x2a0f48f3; BYTE $0xd8               // cvtsi2ss    xmm3, rax
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x213a0f66; WORD $0x1cdd             // insertps    xmm3, xmm5, 28
-	WORD $0x280f; BYTE $0xeb                   // movaps    xmm5, xmm3
-	WORD $0x580f; BYTE $0xeb                   // addps    xmm5, xmm3
-	LONG $0xc4700f66; BYTE $0xed               // pshufd    xmm0, xmm4, 237
-	LONG $0x14380f66; BYTE $0xdd               // blendvps    xmm3, xmm5, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0xc2db0f66                           // pand    xmm0, xmm2
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xd4730f66; BYTE $0x01               // psrlq    xmm4, 1
-	LONG $0xe0eb0f66                           // por    xmm4, xmm0
-	WORD $0x570f; BYTE $0xed                   // xorps    xmm5, xmm5
-	LONG $0x37380f66; BYTE $0xe9               // pcmpgtq    xmm5, xmm1
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcc               // blendvpd    xmm1, xmm4, xmm0
-	LONG $0x3a0f4866; WORD $0xc816; BYTE $0x01 // pextrq    rax, xmm1, 1
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; BYTE $0xc0               // cvtsi2ss    xmm0, rax
-	LONG $0x7e0f4866; BYTE $0xc8               // movq    rax, xmm1
-	WORD $0x570f; BYTE $0xc9                   // xorps    xmm1, xmm1
-	LONG $0x2a0f48f3; BYTE $0xc8               // cvtsi2ss    xmm1, rax
-	LONG $0x213a0f66; WORD $0x1cc8             // insertps    xmm1, xmm0, 28
-	WORD $0x280f; BYTE $0xe1                   // movaps    xmm4, xmm1
-	WORD $0x580f; BYTE $0xe1                   // addps    xmm4, xmm1
-	LONG $0xc5700f66; BYTE $0xed               // pshufd    xmm0, xmm5, 237
-	LONG $0x14380f66; BYTE $0xcc               // blendvps    xmm1, xmm4, xmm0
-	WORD $0x160f; BYTE $0xd9                   // movlhps    xmm3, xmm1
-	LONG $0xb95c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm3
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c28349                           // add    r10, 2
-	JNE  LBB0_663
-	JMP  LBB0_1051
-
-LBB0_664:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_871
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_873
-
-LBB0_666:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1058
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_668:
-	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x33380f66; WORD $0x7a44; BYTE $0x10 // pmovzxwd    xmm0, qword [rdx + 2*rdi + 16]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x18 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 24]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb944110f; BYTE $0x20               // movups    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0xb94c110f; BYTE $0x30               // movups    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_668
-	JMP  LBB0_1059
-
-LBB0_669:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_878
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_880
-
-LBB0_671:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1063
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_673:
-	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x23380f66; WORD $0x7a44; BYTE $0x10 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 16]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb944110f; BYTE $0x20               // movups    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0xb94c110f; BYTE $0x30               // movups    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_673
-	JMP  LBB0_1064
-
-LBB0_677:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_678:
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; WORD $0xfa04             // cvtsi2ss    xmm0, qword [rdx + 8*rdi]
-	LONG $0x04110ff3; BYTE $0xb9               // movss    dword [rcx + 4*rdi], xmm0
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; WORD $0xfa44; BYTE $0x08 // cvtsi2ss    xmm0, qword [rdx + 8*rdi + 8]
-	LONG $0x44110ff3; WORD $0x04b9             // movss    dword [rcx + 4*rdi + 4], xmm0
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; WORD $0xfa44; BYTE $0x10 // cvtsi2ss    xmm0, qword [rdx + 8*rdi + 16]
-	LONG $0x44110ff3; WORD $0x08b9             // movss    dword [rcx + 4*rdi + 8], xmm0
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; WORD $0xfa44; BYTE $0x18 // cvtsi2ss    xmm0, qword [rdx + 8*rdi + 24]
-	LONG $0x44110ff3; WORD $0x0cb9             // movss    dword [rcx + 4*rdi + 12], xmm0
-	LONG $0x04c78348                           // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_678
-
-LBB0_679:
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1526
-	LONG $0xb90c8d48         // lea    rcx, [rcx + 4*rdi]
-	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_681:
-	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; WORD $0xf204 // cvtsi2ss    xmm0, qword [rdx + 8*rsi]
-	LONG $0x04110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
-	JNE  LBB0_681
-	JMP  LBB0_1526
-
-LBB0_682:
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_683:
-	LONG $0x2c0f48f3; WORD $0xba04             // cvttss2si    rax, dword [rdx + 4*rdi]
-	LONG $0xf9048948                           // mov    qword [rcx + 8*rdi], rax
-	LONG $0x2c0f48f3; WORD $0xba44; BYTE $0x04 // cvttss2si    rax, dword [rdx + 4*rdi + 4]
-	LONG $0xf9448948; BYTE $0x08               // mov    qword [rcx + 8*rdi + 8], rax
-	LONG $0x2c0f48f3; WORD $0xba44; BYTE $0x08 // cvttss2si    rax, dword [rdx + 4*rdi + 8]
-	LONG $0xf9448948; BYTE $0x10               // mov    qword [rcx + 8*rdi + 16], rax
-	LONG $0x2c0f48f3; WORD $0xba44; BYTE $0x0c // cvttss2si    rax, dword [rdx + 4*rdi + 12]
-	LONG $0xf9448948; BYTE $0x18               // mov    qword [rcx + 8*rdi + 24], rax
-	LONG $0x04c78348                           // add    rdi, 4
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_683
-
-LBB0_684:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1526
-	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
-	LONG $0xba148d48         // lea    rdx, [rdx + 4*rdi]
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_686:
-	LONG $0x2c0f48f3; WORD $0xb204 // cvttss2si    rax, dword [rdx + 4*rsi]
-	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0       // cmp    r8, rsi
-	JNE  LBB0_686
-	JMP  LBB0_1526
-
-LBB0_696:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_894
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_896
-
-LBB0_698:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1068
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_700:
-	LONG $0xba04100f             // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10 // movups    xmm1, oword [rdx + 4*rdi + 16]
-	WORD $0x5b0f; BYTE $0xc0     // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9     // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f             // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10 // movups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0xba44100f; BYTE $0x20 // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30 // movups    xmm1, oword [rdx + 4*rdi + 48]
-	WORD $0x5b0f; BYTE $0xc0     // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9     // cvtdq2ps    xmm1, xmm1
-	LONG $0xb944110f; BYTE $0x20 // movups    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0xb94c110f; BYTE $0x30 // movups    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348             // add    rdi, 16
-	LONG $0x02c08348             // add    rax, 2
-	JNE  LBB0_700
-	JMP  LBB0_1069
-
-LBB0_734:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1073
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_736:
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x44100f66; WORD $0x20fa // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
-	LONG $0x44110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_736
-	JMP  LBB0_1074
-
-LBB0_740:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_939
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_742:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_742
-	JMP  LBB0_940
-
-LBB0_743:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1078
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_745:
-	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x33380f66; WORD $0x7a44; BYTE $0x10 // pmovzxwd    xmm0, qword [rdx + 2*rdi + 16]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x18 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 24]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_745
-	JMP  LBB0_1079
-
-LBB0_746:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1083
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_748:
-	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x23380f66; WORD $0x7a44; BYTE $0x10 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 16]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_748
-	JMP  LBB0_1084
-
-LBB0_749:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x02e8c149         // shr    r8, 2
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1088
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_751:
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
-	LONG $0x08c78348               // add    rdi, 8
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_751
-	JMP  LBB0_1089
-
-LBB0_752:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1093
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_754:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0xb904110f               // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x44110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_754
-	JMP  LBB0_1094
-
-LBB0_761:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB0_1098
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1100
-
-LBB0_763:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1478
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_765:
-	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x0c // pmovsxbd    xmm1, dword [rdx + rdi + 12]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_765
-	JMP  LBB0_1479
-
-LBB0_766:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1486
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_768:
-	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x31380f66; WORD $0x3a44; BYTE $0x08 // pmovzxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x0c // pmovzxbd    xmm1, dword [rdx + rdi + 12]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_768
-	JMP  LBB0_1487
-
-LBB0_769:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB0_1108
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1110
-
-LBB0_771:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1118
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1120
-
-LBB0_773:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1494
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000c0856f0f66 // movdqa    xmm0, oword 192[rbp] /* [rip + .LCPI0_13] */
-
-LBB0_775:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x0c7e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm1
-	LONG $0x547e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x4c7e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm1
-	LONG $0x547e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_775
-	JMP  LBB0_1495
-
-LBB0_776:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1502
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI0_1] */
-
-LBB0_778:
-	LONG $0x0c100f66; BYTE $0xfa               // movupd    xmm1, oword [rdx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10fa             // movupd    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
-	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
-	LONG $0x4c100f66; WORD $0x20fa             // movupd    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x54100f66; WORD $0x30fa             // movupd    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
-	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_778
-	JMP  LBB0_1503
-
-LBB0_779:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1128
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1130
-
-LBB0_781:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1318
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456f0f66; BYTE $0x40 // movdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_5] */
-
-LBB0_783:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_783
-	JMP  LBB0_1319
-
-LBB0_784:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1326
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000100856f0f66 // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI0_17] */
-
-LBB0_786:
-	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x207a // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_786
-	JMP  LBB0_1327
-
-LBB0_787:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1510
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000100856f0f66 // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI0_17] */
-
-LBB0_789:
-	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x207a // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_789
-	JMP  LBB0_1511
-
-LBB0_790:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1334
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456f0f66; BYTE $0x40 // movdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_5] */
-
-LBB0_792:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_792
-	JMP  LBB0_1335
-
-LBB0_793:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1518
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_795:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0x447e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_795
-	JMP  LBB0_1519
-
-LBB0_796:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1138
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1140
-
-LBB0_798:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1342
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000c0856f0f66 // movdqa    xmm0, oword 192[rbp] /* [rip + .LCPI0_13] */
-
-LBB0_800:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x0c7e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm1
-	LONG $0x547e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x4c7e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm1
-	LONG $0x547e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_800
-	JMP  LBB0_1343
-
-LBB0_808:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1148
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1150
-
-LBB0_810:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1158
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1160
-
-LBB0_826:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1168
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1170
-
-LBB0_828:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1178
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1180
-
-LBB0_837:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1350
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_839:
-	LONG $0x20380f66; WORD $0x3a04             // pmovsxbw    xmm0, qword [rdx + rdi]
-	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x20380f66; WORD $0x3a44; BYTE $0x10 // pmovsxbw    xmm0, qword [rdx + rdi + 16]
-	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x18 // pmovsxbw    xmm1, qword [rdx + rdi + 24]
-	LONG $0x447f0ff3; WORD $0x2079             // movdqu    oword [rcx + 2*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x3079             // movdqu    oword [rcx + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_839
-	JMP  LBB0_1351
-
-LBB0_840:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1358
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_842:
-	LONG $0x20380f66; WORD $0x3a04             // pmovsxbw    xmm0, qword [rdx + rdi]
-	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x20380f66; WORD $0x3a44; BYTE $0x10 // pmovsxbw    xmm0, qword [rdx + rdi + 16]
-	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x18 // pmovsxbw    xmm1, qword [rdx + rdi + 24]
-	LONG $0x447f0ff3; WORD $0x2079             // movdqu    oword [rcx + 2*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x3079             // movdqu    oword [rcx + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_842
-	JMP  LBB0_1359
-
-LBB0_843:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB0_1188
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1190
-
-LBB0_845:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB0_1198
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1200
-
-LBB0_847:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB0_1208
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1210
-
-LBB0_849:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x04efc148         // shr    rdi, 4
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x30f88348         // cmp    rax, 48
-	JAE  LBB0_1218
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1220
-
-LBB0_851:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1366
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_853:
-	LONG $0x30380f66; WORD $0x3a04             // pmovzxbw    xmm0, qword [rdx + rdi]
-	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x08 // pmovzxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x30380f66; WORD $0x3a44; BYTE $0x10 // pmovzxbw    xmm0, qword [rdx + rdi + 16]
-	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x18 // pmovzxbw    xmm1, qword [rdx + rdi + 24]
-	LONG $0x447f0ff3; WORD $0x2079             // movdqu    oword [rcx + 2*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x3079             // movdqu    oword [rcx + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_853
-	JMP  LBB0_1367
-
-LBB0_854:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1374
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_856:
-	LONG $0x30380f66; WORD $0x3a04             // pmovzxbw    xmm0, qword [rdx + rdi]
-	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x08 // pmovzxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-	LONG $0x30380f66; WORD $0x3a44; BYTE $0x10 // pmovzxbw    xmm0, qword [rdx + rdi + 16]
-	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x18 // pmovzxbw    xmm1, qword [rdx + rdi + 24]
-	LONG $0x447f0ff3; WORD $0x2079             // movdqu    oword [rcx + 2*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x3079             // movdqu    oword [rcx + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_856
-	JMP  LBB0_1375
-
-LBB0_864:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1228
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1230
-
-LBB0_866:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1382
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_868:
-	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x0c // pmovsxbd    xmm1, dword [rdx + rdi + 12]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb944110f; BYTE $0x20               // movups    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0xb94c110f; BYTE $0x30               // movups    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_868
-	JMP  LBB0_1383
-
-LBB0_869:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1238
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1240
-
-LBB0_885:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1248
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1250
-
-LBB0_887:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB0_1258
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1260
-
-LBB0_889:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x02efc148         // shr    rdi, 2
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x0cf88348         // cmp    rax, 12
-	JAE  LBB0_1268
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1270
-
-LBB0_891:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1390
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_893:
-	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x31380f66; WORD $0x3a44; BYTE $0x08 // pmovzxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x0c // pmovzxbd    xmm1, dword [rdx + rdi + 12]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb944110f; BYTE $0x20               // movups    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0xb94c110f; BYTE $0x30               // movups    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_893
-	JMP  LBB0_1391
-
-LBB0_901:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1398
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000c0856f0f66 // movdqa    xmm0, oword 192[rbp] /* [rip + .LCPI0_13] */
-
-LBB0_903:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x0c7e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm1
-	LONG $0x547e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x4c7e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm1
-	LONG $0x547e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_903
-	JMP  LBB0_1399
-
-LBB0_904:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1406
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI0_1] */
-
-LBB0_906:
-	LONG $0x0c100f66; BYTE $0xfa               // movupd    xmm1, oword [rdx + 8*rdi]
-	LONG $0x54100f66; WORD $0x10fa             // movupd    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
-	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
-	LONG $0x4c100f66; WORD $0x20fa             // movupd    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x54100f66; WORD $0x30fa             // movupd    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
-	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_906
-	JMP  LBB0_1407
-
-LBB0_907:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1278
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1280
-
-LBB0_909:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1414
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456f0f66; BYTE $0x40 // movdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_5] */
-
-LBB0_911:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_911
-	JMP  LBB0_1415
-
-LBB0_912:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1422
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000100856f0f66 // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI0_17] */
-
-LBB0_914:
-	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x207a // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_914
-	JMP  LBB0_1423
-
-LBB0_915:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1430
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x00000100856f0f66 // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI0_17] */
-
-LBB0_917:
-	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
-	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x0c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm1
-	LONG $0x4c6f0ff3; WORD $0x207a // movdqu    xmm1, oword [rdx + 2*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x307a // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
-	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
-	LONG $0x20c78348               // add    rdi, 32
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_917
-	JMP  LBB0_1431
-
-LBB0_918:
-	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x02e8c149             // shr    r8, 2
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_1438
-	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x456f0f66; BYTE $0x40 // movdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_5] */
-
-LBB0_920:
-	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
-	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
-	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
-	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
-	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
-	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_920
-	JMP  LBB0_1439
-
-LBB0_921:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1446
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_923:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0x2b380f66; BYTE $0xc0   // packusdw    xmm0, xmm0
-	LONG $0xc0670f66               // packuswb    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x2b380f66; BYTE $0xc9   // packusdw    xmm1, xmm1
-	LONG $0xc9670f66               // packuswb    xmm1, xmm1
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0x2b380f66; BYTE $0xc0   // packusdw    xmm0, xmm0
-	LONG $0xc0670f66               // packuswb    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x2b380f66; BYTE $0xc9   // packusdw    xmm1, xmm1
-	LONG $0xc9670f66               // packuswb    xmm1, xmm1
-	LONG $0x447e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm0
-	LONG $0x4c7e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_923
-	JMP  LBB0_1447
-
-LBB0_924:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x05efc148         // shr    rdi, 5
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x60f88348         // cmp    rax, 96
-	JAE  LBB0_1288
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1290
-
-LBB0_926:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1454
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-	QUAD $0x000000c0856f0f66 // movdqa    xmm0, oword 192[rbp] /* [rip + .LCPI0_13] */
-
-LBB0_928:
-	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
-	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x0c7e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm1
-	LONG $0x547e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
-	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
-	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
-	LONG $0x4c7e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm1
-	LONG $0x547e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_928
-	JMP  LBB0_1455
-
-LBB0_929:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB0_1298
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1300
-
-LBB0_931:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1462
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_933:
-	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x0c // pmovsxbd    xmm1, dword [rdx + rdi + 12]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_933
-	JMP  LBB0_1463
-
-LBB0_934:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_1470
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_936:
-	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-	LONG $0x31380f66; WORD $0x3a44; BYTE $0x08 // pmovzxbd    xmm0, dword [rdx + rdi + 8]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x0c // pmovzxbd    xmm1, dword [rdx + rdi + 12]
-	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_936
-	JMP  LBB0_1471
-
-LBB0_937:
-	WORD $0x8944; BYTE $0xce // mov    esi, r9d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03efc148         // shr    rdi, 3
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x18f88348         // cmp    rax, 24
-	JAE  LBB0_1308
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB0_1310
-
-LBB0_801:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_802:
-	LONG $0x35380f66; WORD $0x8204             // pmovzxdq    xmm0, qword [rdx + 4*rax]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x08 // pmovzxdq    xmm1, qword [rdx + 4*rax + 8]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x35380f66; WORD $0x8244; BYTE $0x10 // pmovzxdq    xmm0, qword [rdx + 4*rax + 16]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x18 // pmovzxdq    xmm1, qword [rdx + 4*rax + 24]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x35380f66; WORD $0x8244; BYTE $0x20 // pmovzxdq    xmm0, qword [rdx + 4*rax + 32]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x28 // pmovzxdq    xmm1, qword [rdx + 4*rax + 40]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x35380f66; WORD $0x8244; BYTE $0x30 // pmovzxdq    xmm0, qword [rdx + 4*rax + 48]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x38 // pmovzxdq    xmm1, qword [rdx + 4*rax + 56]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_802
-
-LBB0_803:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_806
-	QUAD $0x0000000885048d48 // lea    rax, [4*rax + 8]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_805:
-	LONG $0x35380f66; WORD $0x0244; BYTE $0xf8 // pmovzxdq    xmm0, qword [rdx + rax - 8]
-	LONG $0x35380f66; WORD $0x020c             // pmovzxdq    xmm1, qword [rdx + rax]
-	LONG $0x447f0ff3; WORD $0xf041             // movdqu    oword [rcx + 2*rax - 16], xmm0
-	LONG $0x0c7f0ff3; BYTE $0x41               // movdqu    oword [rcx + 2*rax], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0xff49; BYTE $0xc0                   // inc    r8
-	JNE  LBB0_805
-
-LBB0_806:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_807:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_807
-	JMP  LBB0_1526
-
-LBB0_812:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_813:
-	LONG $0x34380f66; WORD $0x4204             // pmovzxwq    xmm0, dword [rdx + 2*rax]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x04 // pmovzxwq    xmm1, dword [rdx + 2*rax + 4]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x34380f66; WORD $0x4244; BYTE $0x08 // pmovzxwq    xmm0, dword [rdx + 2*rax + 8]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x0c // pmovzxwq    xmm1, dword [rdx + 2*rax + 12]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x34380f66; WORD $0x4244; BYTE $0x10 // pmovzxwq    xmm0, dword [rdx + 2*rax + 16]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x14 // pmovzxwq    xmm1, dword [rdx + 2*rax + 20]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x34380f66; WORD $0x4244; BYTE $0x18 // pmovzxwq    xmm0, dword [rdx + 2*rax + 24]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x1c // pmovzxwq    xmm1, dword [rdx + 2*rax + 28]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_813
-
-LBB0_814:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_817
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x42148d4c         // lea    r10, [rdx + 2*rax]
-	LONG $0x04c28349         // add    r10, 4
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_816:
-	QUAD $0xfcc24434380f4166                   // pmovzxwq    xmm0, dword [r10 + 8*rax - 4]
-	LONG $0x380f4166; WORD $0x0c34; BYTE $0xc2 // pmovzxwq    xmm1, dword [r10 + 8*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_816
-
-LBB0_817:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_818:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_818
-	JMP  LBB0_1526
-
-LBB0_819:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_820:
-	LONG $0x24380f66; WORD $0x4204             // pmovsxwq    xmm0, dword [rdx + 2*rax]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x04 // pmovsxwq    xmm1, dword [rdx + 2*rax + 4]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x24380f66; WORD $0x4244; BYTE $0x08 // pmovsxwq    xmm0, dword [rdx + 2*rax + 8]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x0c // pmovsxwq    xmm1, dword [rdx + 2*rax + 12]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x24380f66; WORD $0x4244; BYTE $0x10 // pmovsxwq    xmm0, dword [rdx + 2*rax + 16]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x14 // pmovsxwq    xmm1, dword [rdx + 2*rax + 20]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x24380f66; WORD $0x4244; BYTE $0x18 // pmovsxwq    xmm0, dword [rdx + 2*rax + 24]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x1c // pmovsxwq    xmm1, dword [rdx + 2*rax + 28]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_820
-
-LBB0_821:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_824
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x42148d4c         // lea    r10, [rdx + 2*rax]
-	LONG $0x04c28349         // add    r10, 4
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_823:
-	QUAD $0xfcc24424380f4166                   // pmovsxwq    xmm0, dword [r10 + 8*rax - 4]
-	LONG $0x380f4166; WORD $0x0c24; BYTE $0xc2 // pmovsxwq    xmm1, dword [r10 + 8*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_823
-
-LBB0_824:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_825:
-	LONG $0x04bf0f48; BYTE $0x72 // movsx    rax, word [rdx + 2*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_825
-	JMP  LBB0_1526
-
-LBB0_830:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_831:
-	LONG $0x25380f66; WORD $0x8204             // pmovsxdq    xmm0, qword [rdx + 4*rax]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x08 // pmovsxdq    xmm1, qword [rdx + 4*rax + 8]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x25380f66; WORD $0x8244; BYTE $0x10 // pmovsxdq    xmm0, qword [rdx + 4*rax + 16]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x18 // pmovsxdq    xmm1, qword [rdx + 4*rax + 24]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x25380f66; WORD $0x8244; BYTE $0x20 // pmovsxdq    xmm0, qword [rdx + 4*rax + 32]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x28 // pmovsxdq    xmm1, qword [rdx + 4*rax + 40]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x25380f66; WORD $0x8244; BYTE $0x30 // pmovsxdq    xmm0, qword [rdx + 4*rax + 48]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x38 // pmovsxdq    xmm1, qword [rdx + 4*rax + 56]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_831
-
-LBB0_832:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_835
-	QUAD $0x0000000885048d48 // lea    rax, [4*rax + 8]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_834:
-	LONG $0x25380f66; WORD $0x0244; BYTE $0xf8 // pmovsxdq    xmm0, qword [rdx + rax - 8]
-	LONG $0x25380f66; WORD $0x020c             // pmovsxdq    xmm1, qword [rdx + rax]
-	LONG $0x447f0ff3; WORD $0xf041             // movdqu    oword [rcx + 2*rax - 16], xmm0
-	LONG $0x0c7f0ff3; BYTE $0x41               // movdqu    oword [rcx + 2*rax], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0xff49; BYTE $0xc0                   // inc    r8
-	JNE  LBB0_834
-
-LBB0_835:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_836:
-	LONG $0xb2046348         // movsxd    rax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_836
-	JMP  LBB0_1526
-
-LBB0_857:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_858:
-	LONG $0x35380f66; WORD $0x8204             // pmovzxdq    xmm0, qword [rdx + 4*rax]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x08 // pmovzxdq    xmm1, qword [rdx + 4*rax + 8]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x35380f66; WORD $0x8244; BYTE $0x10 // pmovzxdq    xmm0, qword [rdx + 4*rax + 16]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x18 // pmovzxdq    xmm1, qword [rdx + 4*rax + 24]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x35380f66; WORD $0x8244; BYTE $0x20 // pmovzxdq    xmm0, qword [rdx + 4*rax + 32]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x28 // pmovzxdq    xmm1, qword [rdx + 4*rax + 40]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x35380f66; WORD $0x8244; BYTE $0x30 // pmovzxdq    xmm0, qword [rdx + 4*rax + 48]
-	LONG $0x35380f66; WORD $0x824c; BYTE $0x38 // pmovzxdq    xmm1, qword [rdx + 4*rax + 56]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_858
-
-LBB0_859:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_862
-	QUAD $0x0000000885048d48 // lea    rax, [4*rax + 8]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_861:
-	LONG $0x35380f66; WORD $0x0244; BYTE $0xf8 // pmovzxdq    xmm0, qword [rdx + rax - 8]
-	LONG $0x35380f66; WORD $0x020c             // pmovzxdq    xmm1, qword [rdx + rax]
-	LONG $0x447f0ff3; WORD $0xf041             // movdqu    oword [rcx + 2*rax - 16], xmm0
-	LONG $0x0c7f0ff3; BYTE $0x41               // movdqu    oword [rcx + 2*rax], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0xff49; BYTE $0xc0                   // inc    r8
-	JNE  LBB0_861
-
-LBB0_862:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_863:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_863
-	JMP  LBB0_1526
-
-LBB0_871:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_872:
-	LONG $0x34380f66; WORD $0x4204             // pmovzxwq    xmm0, dword [rdx + 2*rax]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x04 // pmovzxwq    xmm1, dword [rdx + 2*rax + 4]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x34380f66; WORD $0x4244; BYTE $0x08 // pmovzxwq    xmm0, dword [rdx + 2*rax + 8]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x0c // pmovzxwq    xmm1, dword [rdx + 2*rax + 12]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x34380f66; WORD $0x4244; BYTE $0x10 // pmovzxwq    xmm0, dword [rdx + 2*rax + 16]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x14 // pmovzxwq    xmm1, dword [rdx + 2*rax + 20]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x34380f66; WORD $0x4244; BYTE $0x18 // pmovzxwq    xmm0, dword [rdx + 2*rax + 24]
-	LONG $0x34380f66; WORD $0x424c; BYTE $0x1c // pmovzxwq    xmm1, dword [rdx + 2*rax + 28]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_872
-
-LBB0_873:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_876
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x42148d4c         // lea    r10, [rdx + 2*rax]
-	LONG $0x04c28349         // add    r10, 4
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_875:
-	QUAD $0xfcc24434380f4166                   // pmovzxwq    xmm0, dword [r10 + 8*rax - 4]
-	LONG $0x380f4166; WORD $0x0c34; BYTE $0xc2 // pmovzxwq    xmm1, dword [r10 + 8*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_875
-
-LBB0_876:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_877:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_877
-	JMP  LBB0_1526
-
-LBB0_878:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_879:
-	LONG $0x24380f66; WORD $0x4204             // pmovsxwq    xmm0, dword [rdx + 2*rax]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x04 // pmovsxwq    xmm1, dword [rdx + 2*rax + 4]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x24380f66; WORD $0x4244; BYTE $0x08 // pmovsxwq    xmm0, dword [rdx + 2*rax + 8]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x0c // pmovsxwq    xmm1, dword [rdx + 2*rax + 12]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x24380f66; WORD $0x4244; BYTE $0x10 // pmovsxwq    xmm0, dword [rdx + 2*rax + 16]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x14 // pmovsxwq    xmm1, dword [rdx + 2*rax + 20]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x24380f66; WORD $0x4244; BYTE $0x18 // pmovsxwq    xmm0, dword [rdx + 2*rax + 24]
-	LONG $0x24380f66; WORD $0x424c; BYTE $0x1c // pmovsxwq    xmm1, dword [rdx + 2*rax + 28]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_879
-
-LBB0_880:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_883
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x42148d4c         // lea    r10, [rdx + 2*rax]
-	LONG $0x04c28349         // add    r10, 4
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_882:
-	QUAD $0xfcc24424380f4166                   // pmovsxwq    xmm0, dword [r10 + 8*rax - 4]
-	LONG $0x380f4166; WORD $0x0c24; BYTE $0xc2 // pmovsxwq    xmm1, dword [r10 + 8*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_882
-
-LBB0_883:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_884:
-	LONG $0x04bf0f48; BYTE $0x72 // movsx    rax, word [rdx + 2*rsi]
-	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_884
-	JMP  LBB0_1526
-
-LBB0_894:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_895:
-	LONG $0x25380f66; WORD $0x8204             // pmovsxdq    xmm0, qword [rdx + 4*rax]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x08 // pmovsxdq    xmm1, qword [rdx + 4*rax + 8]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x25380f66; WORD $0x8244; BYTE $0x10 // pmovsxdq    xmm0, qword [rdx + 4*rax + 16]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x18 // pmovsxdq    xmm1, qword [rdx + 4*rax + 24]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x25380f66; WORD $0x8244; BYTE $0x20 // pmovsxdq    xmm0, qword [rdx + 4*rax + 32]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x28 // pmovsxdq    xmm1, qword [rdx + 4*rax + 40]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x25380f66; WORD $0x8244; BYTE $0x30 // pmovsxdq    xmm0, qword [rdx + 4*rax + 48]
-	LONG $0x25380f66; WORD $0x824c; BYTE $0x38 // pmovsxdq    xmm1, qword [rdx + 4*rax + 56]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_895
-
-LBB0_896:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_899
-	QUAD $0x0000000885048d48 // lea    rax, [4*rax + 8]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_898:
-	LONG $0x25380f66; WORD $0x0244; BYTE $0xf8 // pmovsxdq    xmm0, qword [rdx + rax - 8]
-	LONG $0x25380f66; WORD $0x020c             // pmovsxdq    xmm1, qword [rdx + rax]
-	LONG $0x447f0ff3; WORD $0xf041             // movdqu    oword [rcx + 2*rax - 16], xmm0
-	LONG $0x0c7f0ff3; BYTE $0x41               // movdqu    oword [rcx + 2*rax], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0xff49; BYTE $0xc0                   // inc    r8
-	JNE  LBB0_898
-
-LBB0_899:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_900:
-	LONG $0xb2046348         // movsxd    rax, dword [rdx + 4*rsi]
-	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_900
-	JMP  LBB0_1526
-
-LBB0_939:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_940:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_942
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-
-LBB0_942:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_943:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_943
-	JMP  LBB0_1526
-
-LBB0_944:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_945:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_947
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-
-LBB0_947:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_948:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_948
-	JMP  LBB0_1526
-
-LBB0_949:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_950:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_952
-	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_952:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_953:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_953
-	JMP  LBB0_1526
-
-LBB0_954:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_955:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_957
-	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_957:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_958:
-	LONG $0x7204bf0f         // movsx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_958
-	JMP  LBB0_1526
-
-LBB0_959:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_960:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_962
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-
-LBB0_962:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_963:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_963
-	JMP  LBB0_1526
-
-LBB0_964:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_965:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB0_967
-	LONG $0xba0c100f             // movups    xmm1, oword [rdx + 4*rdi]
-	LONG $0xba54100f; BYTE $0x10 // movups    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0x205d280f             // movaps    xmm3, oword 32[rbp] /* [rip + .LCPI0_3] */
-	WORD $0x280f; BYTE $0xc1     // movaps    xmm0, xmm1
-	LONG $0x01c3c20f             // cmpltps    xmm0, xmm3
-	LONG $0xe15b0ff3             // cvttps2dq    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xcb     // subps    xmm1, xmm3
-	LONG $0xc95b0ff3             // cvttps2dq    xmm1, xmm1
-	LONG $0x306d280f             // movaps    xmm5, oword 48[rbp] /* [rip + .LCPI0_4] */
-	WORD $0x570f; BYTE $0xcd     // xorps    xmm1, xmm5
-	LONG $0x14380f66; BYTE $0xcc // blendvps    xmm1, xmm4, xmm0
-	WORD $0x280f; BYTE $0xc2     // movaps    xmm0, xmm2
-	LONG $0x01c3c20f             // cmpltps    xmm0, xmm3
-	LONG $0xe25b0ff3             // cvttps2dq    xmm4, xmm2
-	WORD $0x5c0f; BYTE $0xd3     // subps    xmm2, xmm3
-	LONG $0xd25b0ff3             // cvttps2dq    xmm2, xmm2
-	WORD $0x570f; BYTE $0xd5     // xorps    xmm2, xmm5
-	LONG $0x14380f66; BYTE $0xd4 // blendvps    xmm2, xmm4, xmm0
-	LONG $0xb90c110f             // movups    oword [rcx + 4*rdi], xmm1
-	LONG $0xb954110f; BYTE $0x10 // movups    oword [rcx + 4*rdi + 16], xmm2
-
-LBB0_967:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_968:
-	LONG $0x2c0f48f3; WORD $0xb204 // cvttss2si    rax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1       // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_968
-	JMP  LBB0_1526
-
-LBB0_969:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_970:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_972
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
-	LONG $0xd86f0f66               // movdqa    xmm3, xmm0
-	LONG $0x0e3a0f66; WORD $0xccda // pblendw    xmm3, xmm2, 204
-	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI0_6] */
-	LONG $0xdceb0f66               // por    xmm3, xmm4
-	LONG $0xd0730f66; BYTE $0x20   // psrlq    xmm0, 32
-	LONG $0x6d6f0f66; BYTE $0x60   // movdqa    xmm5, oword 96[rbp] /* [rip + .LCPI0_7] */
-	LONG $0xc5eb0f66               // por    xmm0, xmm5
-	LONG $0x75280f66; BYTE $0x70   // movapd    xmm6, oword 112[rbp] /* [rip + .LCPI0_8] */
-	LONG $0xc65c0f66               // subpd    xmm0, xmm6
-	LONG $0xc3580f66               // addpd    xmm0, xmm3
-	LONG $0x0e3a0f66; WORD $0x33d1 // pblendw    xmm2, xmm1, 51
-	LONG $0xd4eb0f66               // por    xmm2, xmm4
-	LONG $0xd1730f66; BYTE $0x20   // psrlq    xmm1, 32
-	LONG $0xcdeb0f66               // por    xmm1, xmm5
-	LONG $0xce5c0f66               // subpd    xmm1, xmm6
-	LONG $0xca580f66               // addpd    xmm1, xmm2
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB0_972:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_973:
-	QUAD $0x0000008085280f66 // movapd    xmm0, oword 128[rbp] /* [rip + .LCPI0_9] */
-	QUAD $0x000000908d280f66 // movapd    xmm1, oword 144[rbp] /* [rip + .LCPI0_10] */
-
-LBB0_974:
-	LONG $0x14100ff2; BYTE $0xf2 // movsd    xmm2, qword [rdx + 8*rsi]
-	WORD $0x140f; BYTE $0xd0     // unpcklps    xmm2, xmm0
-	LONG $0xd15c0f66             // subpd    xmm2, xmm1
-	LONG $0xda280f66             // movapd    xmm3, xmm2
-	LONG $0xda150f66             // unpckhpd    xmm3, xmm2
-	LONG $0xda580ff2             // addsd    xmm3, xmm2
-	LONG $0x1c110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm3
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_974
-	JMP  LBB0_1526
-
-LBB0_975:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_976:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_978
-	LONG $0xba045a0f               // cvtps2pd    xmm0, qword [rdx + 4*rdi]
-	LONG $0xba4c5a0f; BYTE $0x08   // cvtps2pd    xmm1, qword [rdx + 4*rdi + 8]
-	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
-
-LBB0_978:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_979:
-	LONG $0x04100ff3; BYTE $0xb2 // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0xc05a0ff3             // cvtss2sd    xmm0, xmm0
-	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_979
-	JMP  LBB0_1526
-
-LBB0_980:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_981:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_983
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000b0956f0f66       // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-
-LBB0_983:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_984:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_984
-	JMP  LBB0_1526
-
-LBB0_985:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_986:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_988
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000b0956f0f66       // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-
-LBB0_988:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_989:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_989
-	JMP  LBB0_1526
-
-LBB0_990:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_991:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_993
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-
-LBB0_993:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_994:
-	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_994
-	JMP  LBB0_1526
-
-LBB0_995:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_996:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_998
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-
-LBB0_998:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_999:
-	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_999
-	JMP  LBB0_1526
-
-LBB0_1000:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1001:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1003
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-
-LBB0_1003:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1004:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1004
-	JMP  LBB0_1526
-
-LBB0_1005:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1006:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1008
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-
-LBB0_1008:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1009:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1009
-	JMP  LBB0_1526
-
-LBB0_1010:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1011:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1013
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-
-LBB0_1013:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1014:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1014
-	JMP  LBB0_1526
-
-LBB0_1015:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1016:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1018
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
-	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
-
-LBB0_1018:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1019:
-	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1019
-	JMP  LBB0_1526
-
-LBB0_1020:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1021:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB0_1023
-	LONG $0xba04100f             // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10 // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3             // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3             // cvttps2dq    xmm1, xmm1
-	LONG $0x2b380f66; BYTE $0xc1 // packusdw    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79 // movdqu    oword [rcx + 2*rdi], xmm0
-
-LBB0_1023:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1024:
-	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1024
-	JMP  LBB0_1526
-
-LBB0_1025:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1026:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB0_1028
-	LONG $0xba04100f             // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10 // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3             // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3             // cvttps2dq    xmm1, xmm1
-	LONG $0xc16b0f66             // packssdw    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79 // movdqu    oword [rcx + 2*rdi], xmm0
-
-LBB0_1028:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1029:
-	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
-	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1029
-	JMP  LBB0_1526
-
-LBB0_1030:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1031:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1033
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000b0956f0f66       // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-
-LBB0_1033:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1034:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1034
-	JMP  LBB0_1526
-
-LBB0_1035:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1036:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1038
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000b0956f0f66       // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI0_12] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
-
-LBB0_1038:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1039:
-	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
-	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1039
-	JMP  LBB0_1526
-
-LBB0_1040:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1041:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1043
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000d0956f0f66                   // movdqa    xmm2, oword 208[rbp] /* [rip + .LCPI0_14] */
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0x0e3a0f66; WORD $0xaada             // pblendw    xmm3, xmm2, 170
-	LONG $0xd0720f66; BYTE $0x10               // psrld    xmm0, 16
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI0_15] */
-	LONG $0x0e3a0f66; WORD $0xaac4             // pblendw    xmm0, xmm4, 170
-	LONG $0xf0ad280f; WORD $0x0000; BYTE $0x00 // movaps    xmm5, oword 240[rbp] /* [rip + .LCPI0_16] */
-	WORD $0x5c0f; BYTE $0xc5                   // subps    xmm0, xmm5
-	WORD $0x580f; BYTE $0xc3                   // addps    xmm0, xmm3
-	LONG $0x0e3a0f66; WORD $0x55d1             // pblendw    xmm2, xmm1, 85
-	LONG $0xd1720f66; BYTE $0x10               // psrld    xmm1, 16
-	LONG $0x0e3a0f66; WORD $0xaacc             // pblendw    xmm1, xmm4, 170
-	WORD $0x5c0f; BYTE $0xcd                   // subps    xmm1, xmm5
-	WORD $0x580f; BYTE $0xca                   // addps    xmm1, xmm2
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1043:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1044:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; BYTE $0xc0 // cvtsi2ss    xmm0, rax
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1044
-	JMP  LBB0_1526
-
-LBB0_1045:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1046:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1048
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc05a0f66               // cvtpd2ps    xmm0, xmm0
-	LONG $0xc95a0f66               // cvtpd2ps    xmm1, xmm1
-	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-
-LBB0_1048:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1049:
-	LONG $0x04100ff2; BYTE $0xf2 // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0xc05a0ff2             // cvtsd2ss    xmm0, xmm0
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1049
-	JMP  LBB0_1526
-
-LBB0_1050:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1051:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1053
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI0_11] */
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xe3db0f66                           // pand    xmm4, xmm3
-	LONG $0xd1730f66; BYTE $0x01               // psrlq    xmm1, 1
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x15380f66; BYTE $0xd1               // blendvpd    xmm2, xmm1, xmm0
-	LONG $0x3a0f4866; WORD $0xd016; BYTE $0x01 // pextrq    rax, xmm2, 1
-	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
-	LONG $0x2a0f48f3; BYTE $0xe0               // cvtsi2ss    xmm4, rax
-	LONG $0x7e0f4866; BYTE $0xd0               // movq    rax, xmm2
-	WORD $0x570f; BYTE $0xd2                   // xorps    xmm2, xmm2
-	LONG $0x2a0f48f3; BYTE $0xd0               // cvtsi2ss    xmm2, rax
-	LONG $0xedef0f66                           // pxor    xmm5, xmm5
-	LONG $0x37380f66; BYTE $0xe8               // pcmpgtq    xmm5, xmm0
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x213a0f66; WORD $0x1cd4             // insertps    xmm2, xmm4, 28
-	WORD $0x280f; BYTE $0xe2                   // movaps    xmm4, xmm2
-	WORD $0x580f; BYTE $0xe2                   // addps    xmm4, xmm2
-	LONG $0xf6ef0f66                           // pxor    xmm6, xmm6
-	LONG $0xc5700f66; BYTE $0xed               // pshufd    xmm0, xmm5, 237
-	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
-	LONG $0xd4730f66; BYTE $0x01               // psrlq    xmm4, 1
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x37380f66; BYTE $0xf1               // pcmpgtq    xmm6, xmm1
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcc               // blendvpd    xmm1, xmm4, xmm0
-	LONG $0x3a0f4866; WORD $0xc816; BYTE $0x01 // pextrq    rax, xmm1, 1
-	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; BYTE $0xc0               // cvtsi2ss    xmm0, rax
-	LONG $0x7e0f4866; BYTE $0xc8               // movq    rax, xmm1
-	WORD $0x570f; BYTE $0xc9                   // xorps    xmm1, xmm1
-	LONG $0x2a0f48f3; BYTE $0xc8               // cvtsi2ss    xmm1, rax
-	LONG $0x213a0f66; WORD $0x1cc8             // insertps    xmm1, xmm0, 28
-	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
-	WORD $0x580f; BYTE $0xd9                   // addps    xmm3, xmm1
-	LONG $0xc6700f66; BYTE $0xed               // pshufd    xmm0, xmm6, 237
-	LONG $0x14380f66; BYTE $0xcb               // blendvps    xmm1, xmm3, xmm0
-	WORD $0x160f; BYTE $0xd1                   // movlhps    xmm2, xmm1
-	LONG $0xb914110f                           // movups    oword [rcx + 4*rdi], xmm2
-
-LBB0_1053:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JNE  LBB0_1056
-	JMP  LBB0_1526
-
-LBB0_1054:
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; BYTE $0xc0 // cvtsi2ss    xmm0, rax
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JE   LBB0_1526
-
-LBB0_1056:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JNS  LBB0_1054
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	WORD $0xd148; BYTE $0xef     // shr    rdi, 1
-	WORD $0xe083; BYTE $0x01     // and    eax, 1
-	WORD $0x0948; BYTE $0xf8     // or    rax, rdi
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x2a0f48f3; BYTE $0xc0 // cvtsi2ss    xmm0, rax
-	LONG $0xc0580ff3             // addss    xmm0, xmm0
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1056
-	JMP  LBB0_1526
-
-LBB0_1058:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1059:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1061
-	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1061:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1062:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3             // cvtsi2ss    xmm0, eax
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1062
-	JMP  LBB0_1526
-
-LBB0_1063:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1064:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1066
-	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1066:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1067:
-	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0xc02a0ff3             // cvtsi2ss    xmm0, eax
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1067
-	JMP  LBB0_1526
-
-LBB0_1068:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1069:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB0_1071
-	LONG $0xba04100f             // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10 // movups    xmm1, oword [rdx + 4*rdi + 16]
-	WORD $0x5b0f; BYTE $0xc0     // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9     // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f             // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10 // movups    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1071:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1072:
-	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
-	LONG $0x042a0ff3; BYTE $0xb2 // cvtsi2ss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1072
-	JMP  LBB0_1526
-
-LBB0_1073:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1074:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1076
-	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
-	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
-	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-
-LBB0_1076:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1077:
-	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1077
-	JMP  LBB0_1526
-
-LBB0_1078:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1079:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1081
-	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1081:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1082:
-	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1082
-	JMP  LBB0_1526
-
-LBB0_1083:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1084:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1086
-	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
-	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1086:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1087:
-	LONG $0x7204bf0f         // movsx    eax, word [rdx + 2*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1087
-	JMP  LBB0_1526
-
-LBB0_1088:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1089:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1091
-	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
-	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
-
-LBB0_1091:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1092:
-	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
-	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_1092
-	JMP  LBB0_1526
-
-LBB0_1093:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1094:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1096
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1096:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-
-LBB0_1097:
-	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
-	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_1097
-
-LBB0_1526:
-	RET
-
-LBB0_1098:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1099:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1099
-
-LBB0_1100:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1103
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1102:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1102
-
-LBB0_1103:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1104
-
-LBB0_1108:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1109:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1109
-
-LBB0_1110:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1113
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1112:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1112
-
-LBB0_1113:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1114
-
-LBB0_1118:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1119:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1119
-
-LBB0_1120:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1123
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1122:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1122
-
-LBB0_1123:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1124
-
-LBB0_1128:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1129:
-	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
-	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
-	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
-	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
-	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
-	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
-	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
-	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
-	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
-	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
-	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
-	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
-	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
-	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1129
-
-LBB0_1130:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1133
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1132:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1132
-
-LBB0_1133:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1134
-
-LBB0_1138:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1139:
-	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
-	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
-	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
-	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
-	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
-	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
-	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
-	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
-	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
-	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
-	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
-	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
-	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
-	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1139
-
-LBB0_1140:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1143
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1142:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1142
-
-LBB0_1143:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1144
-
-LBB0_1148:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1149:
-	LONG $0x22380f66; WORD $0x0204             // pmovsxbq    xmm0, word [rdx + rax]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x02 // pmovsxbq    xmm1, word [rdx + rax + 2]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x22380f66; WORD $0x0244; BYTE $0x04 // pmovsxbq    xmm0, word [rdx + rax + 4]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x06 // pmovsxbq    xmm1, word [rdx + rax + 6]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x22380f66; WORD $0x0244; BYTE $0x08 // pmovsxbq    xmm0, word [rdx + rax + 8]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x0a // pmovsxbq    xmm1, word [rdx + rax + 10]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x22380f66; WORD $0x0244; BYTE $0x0c // pmovsxbq    xmm0, word [rdx + rax + 12]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x0e // pmovsxbq    xmm1, word [rdx + rax + 14]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_1149
-
-LBB0_1150:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1153
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10148d4c         // lea    r10, [rax + rdx]
-	LONG $0x02c28349         // add    r10, 2
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1152:
-	QUAD $0xfe824422380f4166                   // pmovsxbq    xmm0, word [r10 + 4*rax - 2]
-	LONG $0x380f4166; WORD $0x0c22; BYTE $0x82 // pmovsxbq    xmm1, word [r10 + 4*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_1152
-
-LBB0_1153:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1154
-
-LBB0_1158:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1159:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1159
-
-LBB0_1160:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1163
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1162:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1162
-
-LBB0_1163:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1164
-
-LBB0_1168:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1169:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1169
-
-LBB0_1170:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1173
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1172:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1172
-
-LBB0_1173:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1174
-
-LBB0_1178:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1179:
-	LONG $0x32380f66; WORD $0x0204             // pmovzxbq    xmm0, word [rdx + rax]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x02 // pmovzxbq    xmm1, word [rdx + rax + 2]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x32380f66; WORD $0x0244; BYTE $0x04 // pmovzxbq    xmm0, word [rdx + rax + 4]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x06 // pmovzxbq    xmm1, word [rdx + rax + 6]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x32380f66; WORD $0x0244; BYTE $0x08 // pmovzxbq    xmm0, word [rdx + rax + 8]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x0a // pmovzxbq    xmm1, word [rdx + rax + 10]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x32380f66; WORD $0x0244; BYTE $0x0c // pmovzxbq    xmm0, word [rdx + rax + 12]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x0e // pmovzxbq    xmm1, word [rdx + rax + 14]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_1179
-
-LBB0_1180:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1183
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10148d4c         // lea    r10, [rax + rdx]
-	LONG $0x02c28349         // add    r10, 2
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1182:
-	QUAD $0xfe824432380f4166                   // pmovzxbq    xmm0, word [r10 + 4*rax - 2]
-	LONG $0x380f4166; WORD $0x0c32; BYTE $0x82 // pmovzxbq    xmm1, word [r10 + 4*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_1182
-
-LBB0_1183:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1184
-
-LBB0_1188:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1189:
-	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
-	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
-	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
-	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
-	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
-	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
-	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
-	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
-	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1189
-
-LBB0_1190:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1193
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1192:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1192
-
-LBB0_1193:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1194
-
-LBB0_1198:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1199:
-	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
-	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
-	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
-	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
-	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
-	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
-	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
-	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
-	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1199
-
-LBB0_1200:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1203
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1202:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1202
-
-LBB0_1203:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1204
-
-LBB0_1208:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1209:
-	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
-	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
-	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
-	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
-	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
-	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
-	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
-	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
-	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1209
-
-LBB0_1210:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1213
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1212:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1212
-
-LBB0_1213:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1214
-
-LBB0_1218:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1219:
-	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
-	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
-	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
-	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
-	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
-	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
-	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
-	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
-	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
-	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
-	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1219
-
-LBB0_1220:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1223
-	WORD $0x0148; BYTE $0xc0 // add    rax, rax
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1222:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1222
-
-LBB0_1223:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1224
-
-LBB0_1228:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1229:
-	LONG $0x22380f66; WORD $0x0204             // pmovsxbq    xmm0, word [rdx + rax]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x02 // pmovsxbq    xmm1, word [rdx + rax + 2]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x22380f66; WORD $0x0244; BYTE $0x04 // pmovsxbq    xmm0, word [rdx + rax + 4]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x06 // pmovsxbq    xmm1, word [rdx + rax + 6]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x22380f66; WORD $0x0244; BYTE $0x08 // pmovsxbq    xmm0, word [rdx + rax + 8]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x0a // pmovsxbq    xmm1, word [rdx + rax + 10]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x22380f66; WORD $0x0244; BYTE $0x0c // pmovsxbq    xmm0, word [rdx + rax + 12]
-	LONG $0x22380f66; WORD $0x024c; BYTE $0x0e // pmovsxbq    xmm1, word [rdx + rax + 14]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_1229
-
-LBB0_1230:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1233
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10148d4c         // lea    r10, [rax + rdx]
-	LONG $0x02c28349         // add    r10, 2
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1232:
-	QUAD $0xfe824422380f4166                   // pmovsxbq    xmm0, word [r10 + 4*rax - 2]
-	LONG $0x380f4166; WORD $0x0c22; BYTE $0x82 // pmovsxbq    xmm1, word [r10 + 4*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_1232
-
-LBB0_1233:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1234
-
-LBB0_1238:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1239:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1239
-
-LBB0_1240:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1243
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1242:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1242
-
-LBB0_1243:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1244
-
-LBB0_1248:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1249:
-	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
-	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
-	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
-	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
-	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
-	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
-	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
-	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
-	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
-	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
-	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1249
-
-LBB0_1250:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1253
-	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1252:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1252
-
-LBB0_1253:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1254
-
-LBB0_1258:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1259:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1259
-
-LBB0_1260:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1263
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1262:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1262
-
-LBB0_1263:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1264
-
-LBB0_1268:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1269:
-	LONG $0x32380f66; WORD $0x0204             // pmovzxbq    xmm0, word [rdx + rax]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x02 // pmovzxbq    xmm1, word [rdx + rax + 2]
-	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
-	LONG $0x32380f66; WORD $0x0244; BYTE $0x04 // pmovzxbq    xmm0, word [rdx + rax + 4]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x06 // pmovzxbq    xmm1, word [rdx + rax + 6]
-	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
-	LONG $0x32380f66; WORD $0x0244; BYTE $0x08 // pmovzxbq    xmm0, word [rdx + rax + 8]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x0a // pmovzxbq    xmm1, word [rdx + rax + 10]
-	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
-	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
-	LONG $0x32380f66; WORD $0x0244; BYTE $0x0c // pmovzxbq    xmm0, word [rdx + rax + 12]
-	LONG $0x32380f66; WORD $0x024c; BYTE $0x0e // pmovzxbq    xmm1, word [rdx + rax + 14]
-	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
-	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x04c78348                           // add    rdi, 4
-	JNE  LBB0_1269
-
-LBB0_1270:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1273
-	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10148d4c         // lea    r10, [rax + rdx]
-	LONG $0x02c28349         // add    r10, 2
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1272:
-	QUAD $0xfe824432380f4166                   // pmovzxbq    xmm0, word [r10 + 4*rax - 2]
-	LONG $0x380f4166; WORD $0x0c32; BYTE $0x82 // pmovzxbq    xmm1, word [r10 + 4*rax]
-	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
-	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x01c08348                           // add    rax, 1
-	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
-	JNE  LBB0_1272
-
-LBB0_1273:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1274
-
-LBB0_1278:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1279:
-	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
-	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
-	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
-	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
-	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
-	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
-	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
-	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
-	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
-	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
-	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
-	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
-	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
-	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1279
-
-LBB0_1280:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1283
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1282:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1282
-
-LBB0_1283:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1284
-
-LBB0_1288:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1289:
-	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
-	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
-	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
-	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
-	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
-	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
-	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
-	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
-	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
-	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
-	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
-	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
-	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
-	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1289
-
-LBB0_1290:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1293
-	LONG $0x10c08348         // add    rax, 16
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1292:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1292
-
-LBB0_1293:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1294
-
-LBB0_1298:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1299:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1299
-
-LBB0_1300:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1303
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1302:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1302
-
-LBB0_1303:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1304
-
-LBB0_1308:
-	LONG $0xfce78348         // and    rdi, -4
-	WORD $0xf748; BYTE $0xdf // neg    rdi
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_1309:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
-	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
-	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
-	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
-	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
-	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
-	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
-	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
-	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
-	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
-	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x04c78348               // add    rdi, 4
-	JNE  LBB0_1309
-
-LBB0_1310:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB0_1313
-	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
-	WORD $0xf749; BYTE $0xd8 // neg    r8
-
-LBB0_1312:
-	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
-	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
-	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
-	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff49; BYTE $0xc0       // inc    r8
-	JNE  LBB0_1312
-
-LBB0_1313:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1314
-
-LBB0_1318:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1319:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1321
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x556f0f66; BYTE $0x40               // movdqa    xmm2, oword 64[rbp] /* [rip + .LCPI0_5] */
-	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
-	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
-	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
-	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
-
-LBB0_1321:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1322
-
-LBB0_1326:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1327:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1329
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	QUAD $0x00000100956f0f66       // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI0_17] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
-
-LBB0_1329:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1330
-
-LBB0_1334:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1335:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1337
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x556f0f66; BYTE $0x40               // movdqa    xmm2, oword 64[rbp] /* [rip + .LCPI0_5] */
-	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
-	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
-	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
-	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
-
-LBB0_1337:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1338
-
-LBB0_1342:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1343:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1345
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000c0956f0f66       // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI0_13] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-
-LBB0_1345:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1346
-
-LBB0_1350:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1351:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1353
-	LONG $0x20380f66; WORD $0x3a04             // pmovsxbw    xmm0, qword [rdx + rdi]
-	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-
-LBB0_1353:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1354
-
-LBB0_1358:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1359:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1361
-	LONG $0x20380f66; WORD $0x3a04             // pmovsxbw    xmm0, qword [rdx + rdi]
-	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-
-LBB0_1361:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1362
-
-LBB0_1366:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1367:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1369
-	LONG $0x30380f66; WORD $0x3a04             // pmovzxbw    xmm0, qword [rdx + rdi]
-	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x08 // pmovzxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-
-LBB0_1369:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1370
-
-LBB0_1374:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1375:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1377
-	LONG $0x30380f66; WORD $0x3a04             // pmovzxbw    xmm0, qword [rdx + rdi]
-	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x08 // pmovzxbw    xmm1, qword [rdx + rdi + 8]
-	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
-
-LBB0_1377:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1378
-
-LBB0_1382:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1383:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1385
-	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1385:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1386
-
-LBB0_1390:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1391:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1393
-	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
-	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
-	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
-	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
-	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1393:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1394
-
-LBB0_1398:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1399:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1401
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000c0956f0f66       // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI0_13] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-
-LBB0_1401:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1402
-
-LBB0_1406:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1407:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1409
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0xc0e60f66                           // cvttpd2dq    xmm0, xmm0
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x556f0f66; BYTE $0x10               // movdqa    xmm2, oword 16[rbp] /* [rip + .LCPI0_1] */
-	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
-	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
-	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
-	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
-
-LBB0_1409:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1410
-
-LBB0_1414:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1415:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1417
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x556f0f66; BYTE $0x40               // movdqa    xmm2, oword 64[rbp] /* [rip + .LCPI0_5] */
-	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
-	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
-	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
-	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
-
-LBB0_1417:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1418
-
-LBB0_1422:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1423:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1425
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	QUAD $0x00000100956f0f66       // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI0_17] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
-
-LBB0_1425:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1426
-
-LBB0_1430:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1431:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1433
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	QUAD $0x00000100956f0f66       // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI0_17] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
-
-LBB0_1433:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1434
-
-LBB0_1438:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1439:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1441
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x556f0f66; BYTE $0x40               // movdqa    xmm2, oword 64[rbp] /* [rip + .LCPI0_5] */
-	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
-	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
-	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
-	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
-
-LBB0_1441:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1442
-
-LBB0_1446:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1447:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1449
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0x2b380f66; BYTE $0xc0   // packusdw    xmm0, xmm0
-	LONG $0xc0670f66               // packuswb    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0x2b380f66; BYTE $0xc9   // packusdw    xmm1, xmm1
-	LONG $0xc9670f66               // packuswb    xmm1, xmm1
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-
-LBB0_1449:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1450
-
-LBB0_1454:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1455:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1457
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000c0956f0f66       // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI0_13] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-
-LBB0_1457:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1458
-
-LBB0_1462:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1463:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1465
-	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1465:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1466
-
-LBB0_1470:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1471:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1473
-	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1473:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1474
-
-LBB0_1478:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1479:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1481
-	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
-	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1481:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1482
-
-LBB0_1486:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1487:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1489
-	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
-	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
-	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
-	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
-
-LBB0_1489:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1490
-
-LBB0_1494:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1495:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1497
-	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	QUAD $0x000000c0956f0f66       // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI0_13] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-
-LBB0_1497:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1498
-
-LBB0_1502:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1503:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_1505
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0xc0e60f66                           // cvttpd2dq    xmm0, xmm0
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x556f0f66; BYTE $0x10               // movdqa    xmm2, oword 16[rbp] /* [rip + .LCPI0_1] */
-	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
-	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
-	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
-	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
-
-LBB0_1505:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1506
-
-LBB0_1510:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1511:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1513
-	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	QUAD $0x00000100956f0f66       // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI0_17] */
-	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
-	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
-	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
-	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
-
-LBB0_1513:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1514
-
-LBB0_1518:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_1519:
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_1521
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
-	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
-	LONG $0xc0630f66               // packsswb    xmm0, xmm0
-	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
-	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
-	LONG $0xc9630f66               // packsswb    xmm1, xmm1
-	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
-	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
-
-LBB0_1521:
-	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
-	JE   LBB0_1526
-	JMP  LBB0_1522
diff --git a/go/arrow/compute/internal/kernels/cast_temporal.go b/go/arrow/compute/internal/kernels/cast_temporal.go
deleted file mode 100644
index 183d47654ec64..0000000000000
--- a/go/arrow/compute/internal/kernels/cast_temporal.go
+++ /dev/null
@@ -1,463 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"math"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-const millisecondsInDay = 86400000
-
-func ShiftTime[InT, OutT int32 | int64](ctx *exec.KernelCtx, op arrow.TimestampConvertOp, factor int64, input, output *exec.ArraySpan) error {
-	opts := ctx.State.(CastState)
-	inData := exec.GetSpanValues[InT](input, 1)
-	outData := exec.GetSpanValues[OutT](output, 1)
-
-	switch {
-	case factor == 1:
-		for i, v := range inData {
-			outData[i] = OutT(v)
-		}
-		return nil
-
-	case op == arrow.ConvMULTIPLY:
-		if opts.AllowTimeOverflow {
-			multiplyConstant(inData, outData, factor)
-			return nil
-		}
-
-		maxVal, minVal := math.MaxInt64/factor, math.MinInt64/factor
-		if input.Nulls != 0 && len(input.Buffers[0].Buf) > 0 {
-			bitReader := bitutil.NewBitmapReader(input.Buffers[0].Buf, int(input.Offset), int(input.Len))
-			for i, v := range inData {
-				if bitReader.Set() && (int64(v) < minVal || int64(v) > maxVal) {
-					return fmt.Errorf("%w: casting from %s to %s would result in out of bounds timestamp: %v",
-						arrow.ErrInvalid, input.Type, output.Type, v)
-				}
-				outData[i] = OutT(v) * OutT(factor)
-				bitReader.Next()
-			}
-			return nil
-		}
-
-		for i, v := range inData {
-			if int64(v) < minVal || int64(v) > maxVal {
-				return fmt.Errorf("%w: casting from %s to %s would result in out of bounds timestamp: %v",
-					arrow.ErrInvalid, input.Type, output.Type, v)
-			}
-			outData[i] = OutT(v) * OutT(factor)
-		}
-		return nil
-	default:
-		if opts.AllowTimeTruncate {
-			divideConstant(inData, outData, factor)
-			return nil
-		}
-
-		if input.Nulls != 0 && len(input.Buffers[0].Buf) > 0 {
-			bitReader := bitutil.NewBitmapReader(input.Buffers[0].Buf, int(input.Offset), int(input.Len))
-			for i, v := range inData {
-				outData[i] = OutT(v / InT(factor))
-				if bitReader.Set() && (InT(outData[i])*InT(factor) != v) {
-					return fmt.Errorf("%w: casting from %s to %s would lose data: %v",
-						arrow.ErrInvalid, input.Type, output.Type, v)
-				}
-				bitReader.Next()
-			}
-			return nil
-		}
-
-		for i, v := range inData {
-			outData[i] = OutT(v / InT(factor))
-			if InT(outData[i])*InT(factor) != v {
-				return fmt.Errorf("%w: casting from %s to %s would lose data: %v",
-					arrow.ErrInvalid, input.Type, output.Type, v)
-			}
-		}
-
-		return nil
-	}
-}
-
-func TimestampToDate32(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	inType := batch.Values[0].Array.Type.(*arrow.TimestampType)
-	fnToTime, err := inType.GetToTimeFunc()
-	if err != nil {
-		return fmt.Errorf("%w: %s", arrow.ErrInvalid, err)
-	}
-
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg0 arrow.Timestamp, _ *error) arrow.Date32 {
-		tm := fnToTime(arg0)
-		if _, offset := tm.Zone(); offset != 0 {
-			// normalize the tm
-			tm = tm.Add(time.Duration(offset) * time.Second).UTC()
-		}
-		return arrow.Date32FromTime(tm)
-	})(ctx, batch, out)
-}
-
-func TimestampToDate64(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	inType := batch.Values[0].Array.Type.(*arrow.TimestampType)
-	fnToTime, err := inType.GetToTimeFunc()
-	if err != nil {
-		return fmt.Errorf("%w: %s", arrow.ErrInvalid, err)
-	}
-
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg0 arrow.Timestamp, _ *error) arrow.Date64 {
-		tm := fnToTime(arg0)
-		if _, offset := tm.Zone(); offset != 0 {
-			// normalize the tm
-			tm = tm.Add(time.Duration(offset) * time.Second).UTC()
-		}
-		return arrow.Date64FromTime(tm)
-	})(ctx, batch, out)
-}
-
-func SimpleTemporalCast[I, O arrow.Duration | arrow.Time32 | arrow.Time64 | arrow.Timestamp](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		input   = &batch.Values[0].Array
-		inType  = input.Type.(arrow.TemporalWithUnit)
-		outType = out.Type.(arrow.TemporalWithUnit)
-	)
-
-	if inType.TimeUnit() == outType.TimeUnit() && inType.BitWidth() == outType.BitWidth() {
-		dt := out.Type
-		for i := range out.Buffers {
-			if out.Buffers[i].SelfAlloc && out.Buffers[i].Owner != nil {
-				out.Buffers[i].Owner.Release()
-			}
-		}
-
-		*out = *input
-		out.Type = dt
-		return nil
-	}
-
-	op, factor := arrow.GetTimestampConvert(inType.TimeUnit(), outType.TimeUnit())
-	inSz := unsafe.Sizeof(I(0))
-	outSz := unsafe.Sizeof(O(0))
-	switch inSz {
-	case 4:
-		switch outSz {
-		case 4:
-			return ShiftTime[int32, int32](ctx, op, factor, input, out)
-		default:
-			return ShiftTime[int32, int64](ctx, op, factor, input, out)
-		}
-	default:
-		switch outSz {
-		case 4:
-			return ShiftTime[int64, int32](ctx, op, factor, input, out)
-		default:
-			return ShiftTime[int64, int64](ctx, op, factor, input, out)
-		}
-	}
-}
-
-func StringToTimestamp[OffsetT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	outType := out.Type.(*arrow.TimestampType)
-	zn, err := outType.GetZone()
-	if err != nil {
-		return err
-	}
-
-	expectTimezone := outType.TimeZone != ""
-
-	return ScalarUnaryNotNullBinaryArg[arrow.Timestamp, OffsetT](func(_ *exec.KernelCtx, input []byte, err *error) arrow.Timestamp {
-		v := *(*string)(unsafe.Pointer(&input))
-		o, zonePresent, e := arrow.TimestampFromStringInLocation(v, outType.Unit, zn)
-		if e != nil {
-			*err = e
-		}
-
-		if zonePresent != expectTimezone {
-			if expectTimezone {
-				*err = fmt.Errorf("%w: failed to parse string '%s' as a value of type %s,"+
-					"expected a zone offset. If these timestamps are in local time, cast to timestamp without timezone",
-					arrow.ErrInvalid, v, outType)
-			} else {
-				*err = fmt.Errorf("%w: failed to parse string '%s' as a value of type %s, expected no zone offset",
-					arrow.ErrInvalid, v, outType)
-			}
-		}
-
-		return o
-	})(ctx, batch, out)
-}
-
-func TimestampToTime32(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		inType  = batch.Values[0].Type().(*arrow.TimestampType)
-		outType = out.Type.(*arrow.Time32Type)
-		opts    = ctx.State.(CastState)
-	)
-
-	fnToTime, err := inType.GetToTimeFunc()
-	if err != nil {
-		return fmt.Errorf("%w: %s", arrow.ErrInvalid, err)
-	}
-
-	if inType.TimeZone != "" && inType.TimeZone != "UTC" {
-		origFn := fnToTime
-		fnToTime = func(t arrow.Timestamp) time.Time {
-			v := origFn(t)
-			_, offset := v.Zone()
-			return v.Add(time.Duration(offset) * time.Second).UTC()
-		}
-	}
-
-	var fn func(time.Duration, *error) arrow.Time32
-	switch outType.Unit {
-	case arrow.Second:
-		fn = func(d time.Duration, _ *error) arrow.Time32 {
-			return arrow.Time32(d.Seconds())
-		}
-	case arrow.Millisecond:
-		fn = func(d time.Duration, _ *error) arrow.Time32 {
-			return arrow.Time32(d.Milliseconds())
-		}
-	default:
-		return fmt.Errorf("%w: bad unit type for cast to time32: %s",
-			arrow.ErrInvalid, outType.Unit)
-	}
-
-	op, factor := arrow.GetTimestampConvert(inType.Unit, outType.Unit)
-	if op == arrow.ConvDIVIDE && !opts.AllowTimeTruncate {
-		origFn := fn
-		switch inType.Unit {
-		case arrow.Millisecond:
-			fn = func(d time.Duration, err *error) arrow.Time32 {
-				v := origFn(d, err)
-				if int64(v)*factor != d.Milliseconds() {
-					*err = fmt.Errorf("%w: cast would lose data: %d", arrow.ErrInvalid, d.Milliseconds())
-				}
-				return v
-			}
-		case arrow.Microsecond:
-			fn = func(d time.Duration, err *error) arrow.Time32 {
-				v := origFn(d, err)
-				if int64(v)*factor != d.Microseconds() {
-					*err = fmt.Errorf("%w: cast would lose data: %d", arrow.ErrInvalid, d.Microseconds())
-				}
-				return v
-			}
-		case arrow.Nanosecond:
-			fn = func(d time.Duration, err *error) arrow.Time32 {
-				v := origFn(d, err)
-				if int64(v)*factor != d.Nanoseconds() {
-					*err = fmt.Errorf("%w: cast would lose data: %d", arrow.ErrInvalid, d.Nanoseconds())
-				}
-				return v
-			}
-		}
-	}
-
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg0 arrow.Timestamp, err *error) arrow.Time32 {
-		t := fnToTime(arg0)
-		dur := t.Sub(t.Truncate(24 * time.Hour))
-		return fn(dur, err)
-	})(ctx, batch, out)
-}
-
-func TimestampToTime64(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		inType  = batch.Values[0].Type().(*arrow.TimestampType)
-		outType = out.Type.(*arrow.Time64Type)
-		opts    = ctx.State.(CastState)
-	)
-
-	fnToTime, err := inType.GetToTimeFunc()
-	if err != nil {
-		return fmt.Errorf("%w: %s", arrow.ErrInvalid, err)
-	}
-
-	if inType.TimeZone != "" && inType.TimeZone != "UTC" {
-		origFn := fnToTime
-		fnToTime = func(t arrow.Timestamp) time.Time {
-			v := origFn(t)
-			_, offset := v.Zone()
-			return v.Add(time.Duration(offset) * time.Second).UTC()
-		}
-	}
-
-	var fn func(time.Duration, *error) arrow.Time64
-	op, _ := arrow.GetTimestampConvert(inType.Unit, outType.Unit)
-	if op == arrow.ConvDIVIDE && !opts.AllowTimeTruncate {
-		// only one case can happen here, microseconds. nanoseconds
-		// wouldn't be a downscale
-		fn = func(d time.Duration, err *error) arrow.Time64 {
-			if d.Nanoseconds() != d.Microseconds()*int64(time.Microsecond) {
-				*err = fmt.Errorf("%w: cast would lose data: %d", arrow.ErrInvalid, d.Nanoseconds())
-			}
-			return arrow.Time64(d.Microseconds())
-		}
-	} else {
-		switch outType.Unit {
-		case arrow.Microsecond:
-			fn = func(d time.Duration, _ *error) arrow.Time64 {
-				return arrow.Time64(d.Microseconds())
-			}
-		case arrow.Nanosecond:
-			fn = func(d time.Duration, _ *error) arrow.Time64 {
-				return arrow.Time64(d.Nanoseconds())
-			}
-		default:
-			return fmt.Errorf("%w: bad unit type for cast to time64: %s",
-				arrow.ErrInvalid, outType.Unit)
-		}
-	}
-
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg0 arrow.Timestamp, err *error) arrow.Time64 {
-		t := fnToTime(arg0)
-		dur := t.Sub(t.Truncate(24 * time.Hour))
-		return fn(dur, err)
-	})(ctx, batch, out)
-}
-
-func GetDate32CastKernels() []exec.ScalarKernel {
-	outType := exec.NewOutputType(arrow.FixedWidthTypes.Date32)
-	out := GetCommonCastKernels(arrow.DATE32, outType)
-	out = append(out, GetZeroCastKernel(arrow.INT32, exec.NewExactInput(arrow.PrimitiveTypes.Int32), outType))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.FixedWidthTypes.Date64)}, outType,
-		func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
-			return ShiftTime[int64, int32](ctx, arrow.ConvDIVIDE, millisecondsInDay, &input.Values[0].Array, out)
-		}, nil))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, outType,
-		TimestampToDate32, nil))
-
-	return out
-}
-
-func GetDate64CastKernels() []exec.ScalarKernel {
-	outType := exec.NewOutputType(arrow.FixedWidthTypes.Date64)
-	out := GetCommonCastKernels(arrow.DATE64, outType)
-	out = append(out, GetZeroCastKernel(arrow.INT64, exec.NewExactInput(arrow.PrimitiveTypes.Int64), outType))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.FixedWidthTypes.Date32)}, outType,
-		func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
-			return ShiftTime[int32, int64](ctx, arrow.ConvMULTIPLY, millisecondsInDay, &input.Values[0].Array, out)
-		}, nil))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, outType,
-		TimestampToDate64, nil))
-	return out
-}
-
-func GetTime32CastKernels() []exec.ScalarKernel {
-	out := GetCommonCastKernels(arrow.TIME32, OutputTargetType)
-	out = append(out, GetZeroCastKernel(arrow.INT32, exec.NewExactInput(arrow.PrimitiveTypes.Int32), OutputTargetType))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIME64)}, OutputTargetType,
-		SimpleTemporalCast[arrow.Time64, arrow.Time32], nil))
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIME32)}, OutputTargetType,
-		SimpleTemporalCast[arrow.Time32, arrow.Time32], nil))
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, OutputTargetType,
-		TimestampToTime32, nil))
-
-	return out
-}
-
-func GetTime64CastKernels() []exec.ScalarKernel {
-	out := GetCommonCastKernels(arrow.TIME64, OutputTargetType)
-	out = append(out, GetZeroCastKernel(arrow.INT64, exec.NewExactInput(arrow.PrimitiveTypes.Int64), OutputTargetType))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIME64)}, OutputTargetType,
-		SimpleTemporalCast[arrow.Time64, arrow.Time64], nil))
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIME32)}, OutputTargetType,
-		SimpleTemporalCast[arrow.Time32, arrow.Time64], nil))
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, OutputTargetType,
-		TimestampToTime64, nil))
-
-	return out
-}
-
-func GetDurationCastKernels() []exec.ScalarKernel {
-	out := GetCommonCastKernels(arrow.DURATION, OutputTargetType)
-	out = append(out, GetZeroCastKernel(arrow.INT64,
-		exec.NewExactInput(arrow.PrimitiveTypes.Int64), OutputTargetType))
-
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DURATION)}, OutputTargetType,
-		SimpleTemporalCast[arrow.Duration, arrow.Duration], nil))
-	return out
-}
-
-func GetIntervalCastKernels() []exec.ScalarKernel {
-	return GetCommonCastKernels(arrow.INTERVAL_MONTH_DAY_NANO, OutputTargetType)
-}
-
-func GetTimestampCastKernels() []exec.ScalarKernel {
-	out := GetCommonCastKernels(arrow.TIMESTAMP, OutputTargetType)
-
-	// same integer representation
-	out = append(out, GetZeroCastKernel(arrow.INT64, exec.NewExactInput(arrow.PrimitiveTypes.Int64), OutputTargetType))
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DATE32)}, OutputTargetType,
-		func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
-			op, factor := arrow.GetTimestampConvert(arrow.Second, out.Type.(arrow.TemporalWithUnit).TimeUnit())
-			debug.Assert(op == arrow.ConvMULTIPLY, "date32 -> timestamp should be multiply operation")
-
-			// multiply to achieve days -> unit
-			factor *= millisecondsInDay / 1000
-			return ShiftTime[int32, int64](ctx, op, factor, &input.Values[0].Array, out)
-		}, nil))
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DATE64)}, OutputTargetType,
-		func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
-			// date64 is ms since epoch
-			op, factor := arrow.GetTimestampConvert(arrow.Millisecond, out.Type.(arrow.TemporalWithUnit).TimeUnit())
-			debug.Assert(op == arrow.ConvMULTIPLY, "date64 -> timestamp should be multiply operation")
-
-			return ShiftTime[int64, int64](ctx, op, factor, &input.Values[0].Array, out)
-		}, nil))
-
-	// string -> timestamp
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.BinaryTypes.String)}, OutputTargetType,
-		StringToTimestamp[int32], nil))
-	// large_string -> timestamp
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.BinaryTypes.LargeString)}, OutputTargetType,
-		StringToTimestamp[int64], nil))
-	// from one timestamp to another
-	out = append(out, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, OutputTargetType,
-		SimpleTemporalCast[arrow.Timestamp, arrow.Timestamp], nil))
-	return out
-}
diff --git a/go/arrow/compute/internal/kernels/compareoperator_string.go b/go/arrow/compute/internal/kernels/compareoperator_string.go
deleted file mode 100644
index 036859815cf36..0000000000000
--- a/go/arrow/compute/internal/kernels/compareoperator_string.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Code generated by "stringer -type=CompareOperator -linecomment"; DO NOT EDIT.
-
-//go:build go1.18
-
-package kernels
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[CmpEQ-0]
-	_ = x[CmpNE-1]
-	_ = x[CmpGT-2]
-	_ = x[CmpGE-3]
-	_ = x[CmpLT-4]
-	_ = x[CmpLE-5]
-}
-
-const _CompareOperator_name = "equalnot_equalgreatergreater_equallessless_equal"
-
-var _CompareOperator_index = [...]uint8{0, 5, 14, 21, 34, 38, 48}
-
-func (i CompareOperator) String() string {
-	if i < 0 || i >= CompareOperator(len(_CompareOperator_index)-1) {
-		return "CompareOperator(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _CompareOperator_name[_CompareOperator_index[i]:_CompareOperator_index[i+1]]
-}
diff --git a/go/arrow/compute/internal/kernels/constant_factor.go b/go/arrow/compute/internal/kernels/constant_factor.go
deleted file mode 100644
index c57902d6a80c6..0000000000000
--- a/go/arrow/compute/internal/kernels/constant_factor.go
+++ /dev/null
@@ -1,81 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-var (
-	multiplyConstantInt32Int32 func([]int32, []int32, int64) = multiplyConstantGo[int32, int32]
-	multiplyConstantInt32Int64 func([]int32, []int64, int64) = multiplyConstantGo[int32, int64]
-	multiplyConstantInt64Int32 func([]int64, []int32, int64) = multiplyConstantGo[int64, int32]
-	multiplyConstantInt64Int64 func([]int64, []int64, int64) = multiplyConstantGo[int64, int64]
-
-	divideConstantInt32Int32 func([]int32, []int32, int64) = divideConstantGo[int32, int32]
-	divideConstantInt32Int64 func([]int32, []int64, int64) = divideConstantGo[int32, int64]
-	divideConstantInt64Int32 func([]int64, []int32, int64) = divideConstantGo[int64, int32]
-	divideConstantInt64Int64 func([]int64, []int64, int64) = divideConstantGo[int64, int64]
-)
-
-func multiplyConstantGo[InT, OutT ~int32 | ~int64](input []InT, output []OutT, factor int64) {
-	for i, v := range input {
-		output[i] = OutT(v) * OutT(factor)
-	}
-}
-
-func divideConstantGo[InT, OutT ~int32 | ~int64](input []InT, output []OutT, factor int64) {
-	for i, v := range input {
-		output[i] = OutT(v / InT(factor))
-	}
-}
-
-func multiplyConstant(input, output any, factor int64) {
-	switch in := input.(type) {
-	case []int32:
-		switch out := output.(type) {
-		case []int32:
-			multiplyConstantInt32Int32(in, out, factor)
-		case []int64:
-			multiplyConstantInt32Int64(in, out, factor)
-		}
-	case []int64:
-		switch out := output.(type) {
-		case []int32:
-			multiplyConstantInt64Int32(in, out, factor)
-		case []int64:
-			multiplyConstantInt64Int64(in, out, factor)
-		}
-	}
-}
-
-func divideConstant(input, output any, factor int64) {
-	switch in := input.(type) {
-	case []int32:
-		switch out := output.(type) {
-		case []int32:
-			divideConstantInt32Int32(in, out, factor)
-		case []int64:
-			divideConstantInt32Int64(in, out, factor)
-		}
-	case []int64:
-		switch out := output.(type) {
-		case []int32:
-			divideConstantInt64Int32(in, out, factor)
-		case []int64:
-			divideConstantInt64Int64(in, out, factor)
-		}
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/constant_factor_amd64.go b/go/arrow/compute/internal/kernels/constant_factor_amd64.go
deleted file mode 100644
index 7229632eafb36..0000000000000
--- a/go/arrow/compute/internal/kernels/constant_factor_amd64.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		multiplyConstantInt32Int32 = multiplyConstantInt32Int32Avx2
-		multiplyConstantInt32Int64 = multiplyConstantInt32Int64Avx2
-		multiplyConstantInt64Int32 = multiplyConstantInt64Int32Avx2
-		multiplyConstantInt64Int64 = multiplyConstantInt64Int64Avx2
-
-		divideConstantInt32Int32 = divideConstantInt32Int32Avx2
-		divideConstantInt32Int64 = divideConstantInt32Int64Avx2
-		divideConstantInt64Int32 = divideConstantInt64Int32Avx2
-		divideConstantInt64Int64 = divideConstantInt64Int64Avx2
-	} else if cpu.X86.HasSSE42 {
-		multiplyConstantInt32Int32 = multiplyConstantInt32Int32SSE4
-		multiplyConstantInt32Int64 = multiplyConstantInt32Int64SSE4
-		multiplyConstantInt64Int32 = multiplyConstantInt64Int32SSE4
-		multiplyConstantInt64Int64 = multiplyConstantInt64Int64SSE4
-
-		divideConstantInt32Int32 = divideConstantInt32Int32SSE4
-		divideConstantInt32Int64 = divideConstantInt32Int64SSE4
-		divideConstantInt64Int32 = divideConstantInt64Int32SSE4
-		divideConstantInt64Int64 = divideConstantInt64Int64SSE4
-	} else {
-		multiplyConstantInt32Int32 = multiplyConstantGo[int32, int32]
-		multiplyConstantInt32Int64 = multiplyConstantGo[int32, int64]
-		multiplyConstantInt64Int32 = multiplyConstantGo[int64, int32]
-		multiplyConstantInt64Int64 = multiplyConstantGo[int64, int64]
-
-		divideConstantInt32Int32 = divideConstantGo[int32, int32]
-		divideConstantInt32Int64 = divideConstantGo[int32, int64]
-		divideConstantInt64Int32 = divideConstantGo[int64, int32]
-		divideConstantInt64Int64 = divideConstantGo[int64, int64]
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.go b/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.go
deleted file mode 100644
index 7d3574655cdc0..0000000000000
--- a/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.go
+++ /dev/null
@@ -1,77 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import "unsafe"
-
-//go:noescape
-func _multiply_constant_int32_int32_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt32Int32Avx2(in []int32, out []int32, factor int64) {
-	_multiply_constant_int32_int32_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _multiply_constant_int32_int64_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt32Int64Avx2(in []int32, out []int64, factor int64) {
-	_multiply_constant_int32_int64_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _multiply_constant_int64_int32_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt64Int32Avx2(in []int64, out []int32, factor int64) {
-	_multiply_constant_int64_int32_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _multiply_constant_int64_int64_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt64Int64Avx2(in []int64, out []int64, factor int64) {
-	_multiply_constant_int64_int64_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int32_int32_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt32Int32Avx2(in []int32, out []int32, factor int64) {
-	_divide_constant_int32_int32_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int32_int64_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt32Int64Avx2(in []int32, out []int64, factor int64) {
-	_divide_constant_int32_int64_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int64_int32_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt64Int32Avx2(in []int64, out []int32, factor int64) {
-	_divide_constant_int64_int32_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int64_int64_avx2(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt64Int64Avx2(in []int64, out []int64, factor int64) {
-	_divide_constant_int64_int64_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
diff --git a/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.s b/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.s
deleted file mode 100644
index c7c747b19bbaa..0000000000000
--- a/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.s
+++ /dev/null
@@ -1,781 +0,0 @@
-//go:build go1.18 && !noasm && !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_multiply_constant_int32_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB0_16
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x1f // cmp    edx, 31
-	JBE  LBB0_2
-	LONG $0x8f048d4a         // lea    rax, [rdi + 4*r9]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB0_9
-	LONG $0x8e048d4a         // lea    rax, [rsi + 4*r9]
-	WORD $0x3948; BYTE $0xf8 // cmp    rax, rdi
-	JBE  LBB0_9
-
-LBB0_2:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB0_3:
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_5
-
-LBB0_4:
-	LONG $0x9f148b42         // mov    edx, dword [rdi + 4*r11]
-	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
-	LONG $0x9e148942         // mov    dword [rsi + 4*r11], edx
-	LONG $0x01c38349         // add    r11, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_4
-
-LBB0_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_16
-
-LBB0_6:
-	LONG $0x9f048b42             // mov    eax, dword [rdi + 4*r11]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e048942             // mov    dword [rsi + 4*r11], eax
-	LONG $0x9f448b42; BYTE $0x04 // mov    eax, dword [rdi + 4*r11 + 4]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e448942; BYTE $0x04 // mov    dword [rsi + 4*r11 + 4], eax
-	LONG $0x9f448b42; BYTE $0x08 // mov    eax, dword [rdi + 4*r11 + 8]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e448942; BYTE $0x08 // mov    dword [rsi + 4*r11 + 8], eax
-	LONG $0x9f448b42; BYTE $0x0c // mov    eax, dword [rdi + 4*r11 + 12]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e448942; BYTE $0x0c // mov    dword [rsi + 4*r11 + 12], eax
-	LONG $0x04c38349             // add    r11, 4
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB0_6
-	JMP  LBB0_16
-
-LBB0_9:
-	WORD $0x8945; BYTE $0xcb     // mov    r11d, r9d
-	LONG $0xe0e38341             // and    r11d, -32
-	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0438d49             // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_10
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0xc031                 // xor    eax, eax
-
-LBB0_12:
-	LONG $0x407de2c4; WORD $0x870c             // vpmulld    ymm1, ymm0, yword [rdi + 4*rax]
-	LONG $0x407de2c4; WORD $0x8754; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdi + 4*rax + 32]
-	LONG $0x407de2c4; WORD $0x875c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdi + 4*rax + 64]
-	LONG $0x407de2c4; WORD $0x8764; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdi + 4*rax + 96]
-	LONG $0x0c7ffec5; BYTE $0x86               // vmovdqu    yword [rsi + 4*rax], ymm1
-	LONG $0x547ffec5; WORD $0x2086             // vmovdqu    yword [rsi + 4*rax + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4086             // vmovdqu    yword [rsi + 4*rax + 64], ymm3
-	LONG $0x647ffec5; WORD $0x6086             // vmovdqu    yword [rsi + 4*rax + 96], ymm4
-	QUAD $0x0080878c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdi + 4*rax + 128]
-	QUAD $0x00a08794407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdi + 4*rax + 160]
-	QUAD $0x00c0879c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdi + 4*rax + 192]
-	QUAD $0x00e087a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdi + 4*rax + 224]
-	QUAD $0x000080868c7ffec5; BYTE $0x00       // vmovdqu    yword [rsi + 4*rax + 128], ymm1
-	QUAD $0x0000a086947ffec5; BYTE $0x00       // vmovdqu    yword [rsi + 4*rax + 160], ymm2
-	QUAD $0x0000c0869c7ffec5; BYTE $0x00       // vmovdqu    yword [rsi + 4*rax + 192], ymm3
-	QUAD $0x0000e086a47ffec5; BYTE $0x00       // vmovdqu    yword [rsi + 4*rax + 224], ymm4
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c28349                           // add    r10, 2
-	JNE  LBB0_12
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB0_15
-
-LBB0_14:
-	LONG $0x407de2c4; WORD $0x870c             // vpmulld    ymm1, ymm0, yword [rdi + 4*rax]
-	LONG $0x407de2c4; WORD $0x8754; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdi + 4*rax + 32]
-	LONG $0x407de2c4; WORD $0x875c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdi + 4*rax + 64]
-	LONG $0x407de2c4; WORD $0x8744; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdi + 4*rax + 96]
-	LONG $0x0c7ffec5; BYTE $0x86               // vmovdqu    yword [rsi + 4*rax], ymm1
-	LONG $0x547ffec5; WORD $0x2086             // vmovdqu    yword [rsi + 4*rax + 32], ymm2
-	LONG $0x5c7ffec5; WORD $0x4086             // vmovdqu    yword [rsi + 4*rax + 64], ymm3
-	LONG $0x447ffec5; WORD $0x6086             // vmovdqu    yword [rsi + 4*rax + 96], ymm0
-
-LBB0_15:
-	WORD $0x394d; BYTE $0xcb // cmp    r11, r9
-	JNE  LBB0_3
-
-LBB0_16:
-	VZEROUPPER
-	RET
-
-LBB0_10:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB0_14
-	JMP  LBB0_15
-
-TEXT ·_divide_constant_int32_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB1_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB1_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB1_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB1_8
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB1_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB1_7
-
-LBB1_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB1_10
-
-LBB1_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB1_16:
-	LONG $0x86448942; BYTE $0x04 // mov    dword [rsi + 4*r8 + 4], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB1_3
-
-LBB1_10:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB1_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB1_13
-
-LBB1_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB1_13:
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x8744634a; BYTE $0x04 // movsxd    rax, dword [rdi + 4*r8 + 4]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB1_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB1_16
-
-LBB1_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB1_7:
-	LONG $0x86048942 // mov    dword [rsi + 4*r8], eax
-
-LBB1_8:
-	RET
-
-TEXT ·_multiply_constant_int32_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB2_7
-	WORD $0x8941; BYTE $0xd0 // mov    r8d, edx
-	WORD $0xfa83; BYTE $0x0f // cmp    edx, 15
-	JA   LBB2_3
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB2_6
-
-LBB2_3:
-	WORD $0x8944; BYTE $0xc2     // mov    edx, r8d
-	WORD $0xe283; BYTE $0xf0     // and    edx, -16
-	LONG $0x6ef9e1c4; BYTE $0xc1 // vmovq    xmm0, rcx
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-
-LBB2_4:
-	LONG $0x257de2c4; WORD $0x8714             // vpmovsxdq    ymm2, oword [rdi + 4*rax]
-	LONG $0x257de2c4; WORD $0x875c; BYTE $0x10 // vpmovsxdq    ymm3, oword [rdi + 4*rax + 16]
-	LONG $0x257de2c4; WORD $0x8764; BYTE $0x20 // vpmovsxdq    ymm4, oword [rdi + 4*rax + 32]
-	LONG $0x257de2c4; WORD $0x876c; BYTE $0x30 // vpmovsxdq    ymm5, oword [rdi + 4*rax + 48]
-	LONG $0xf2f4f5c5                           // vpmuludq    ymm6, ymm1, ymm2
-	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
-	LONG $0xfff4fdc5                           // vpmuludq    ymm7, ymm0, ymm7
-	LONG $0xf6d4c5c5                           // vpaddq    ymm6, ymm7, ymm6
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xd2f4fdc5                           // vpmuludq    ymm2, ymm0, ymm2
-	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf3f4f5c5                           // vpmuludq    ymm6, ymm1, ymm3
-	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
-	LONG $0xfff4fdc5                           // vpmuludq    ymm7, ymm0, ymm7
-	LONG $0xf6d4c5c5                           // vpaddq    ymm6, ymm7, ymm6
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xdbf4fdc5                           // vpmuludq    ymm3, ymm0, ymm3
-	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf4f4f5c5                           // vpmuludq    ymm6, ymm1, ymm4
-	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
-	LONG $0xfff4fdc5                           // vpmuludq    ymm7, ymm0, ymm7
-	LONG $0xf6d4c5c5                           // vpaddq    ymm6, ymm7, ymm6
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xe4f4fdc5                           // vpmuludq    ymm4, ymm0, ymm4
-	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf5f4f5c5                           // vpmuludq    ymm6, ymm1, ymm5
-	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
-	LONG $0xfff4fdc5                           // vpmuludq    ymm7, ymm0, ymm7
-	LONG $0xf6d4c5c5                           // vpaddq    ymm6, ymm7, ymm6
-	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
-	LONG $0xedf4fdc5                           // vpmuludq    ymm5, ymm0, ymm5
-	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x147ffec5; BYTE $0xc6               // vmovdqu    yword [rsi + 8*rax], ymm2
-	LONG $0x5c7ffec5; WORD $0x20c6             // vmovdqu    yword [rsi + 8*rax + 32], ymm3
-	LONG $0x647ffec5; WORD $0x40c6             // vmovdqu    yword [rsi + 8*rax + 64], ymm4
-	LONG $0x6c7ffec5; WORD $0x60c6             // vmovdqu    yword [rsi + 8*rax + 96], ymm5
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JNE  LBB2_4
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JE   LBB2_7
-
-LBB2_6:
-	LONG $0x97046348         // movsxd    rax, dword [rdi + 4*rdx]
-	LONG $0xc1af0f48         // imul    rax, rcx
-	LONG $0xd6048948         // mov    qword [rsi + 8*rdx], rax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd0 // cmp    r8, rdx
-	JNE  LBB2_6
-
-LBB2_7:
-	VZEROUPPER
-	RET
-
-TEXT ·_divide_constant_int32_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB3_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB3_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB3_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_8
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB3_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB3_7
-
-LBB3_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB3_10
-
-LBB3_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB3_16:
-	LONG $0xc644894a; BYTE $0x08 // mov    qword [rsi + 8*r8 + 8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB3_3
-
-LBB3_10:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB3_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB3_13
-
-LBB3_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB3_13:
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x8744634a; BYTE $0x04 // movsxd    rax, dword [rdi + 4*r8 + 4]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB3_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB3_16
-
-LBB3_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB3_7:
-	LONG $0xc604894a // mov    qword [rsi + 8*r8], rax
-
-LBB3_8:
-	RET
-
-TEXT ·_multiply_constant_int64_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB4_7
-	WORD $0x8941; BYTE $0xd0 // mov    r8d, edx
-	WORD $0xfa83; BYTE $0x0f // cmp    edx, 15
-	JA   LBB4_3
-	WORD $0xd231             // xor    edx, edx
-	JMP  LBB4_6
-
-LBB4_3:
-	WORD $0x8944; BYTE $0xc2       // mov    edx, r8d
-	WORD $0xe283; BYTE $0xf0       // and    edx, -16
-	LONG $0x6ef9e1c4; BYTE $0xc1   // vmovq    xmm0, rcx
-	LONG $0x597de2c4; BYTE $0xc0   // vpbroadcastq    ymm0, xmm0
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-
-LBB4_4:
-	LONG $0x1410f8c5; BYTE $0xc7               // vmovups    xmm2, oword [rdi + 8*rax]
-	LONG $0x5c10f8c5; WORD $0x20c7             // vmovups    xmm3, oword [rdi + 8*rax + 32]
-	LONG $0x6410f8c5; WORD $0x40c7             // vmovups    xmm4, oword [rdi + 8*rax + 64]
-	LONG $0x6c10f8c5; WORD $0x60c7             // vmovups    xmm5, oword [rdi + 8*rax + 96]
-	LONG $0x54c6e8c5; WORD $0x10c7; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdi + 8*rax + 16], 136
-	LONG $0xf1c6f8c5; BYTE $0x88               // vshufps    xmm6, xmm0, xmm1, 136
-	LONG $0x4069e2c4; BYTE $0xd6               // vpmulld    xmm2, xmm2, xmm6
-	LONG $0x5cc6e0c5; WORD $0x30c7; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdi + 8*rax + 48], 136
-	LONG $0xf1c6f8c5; BYTE $0x88               // vshufps    xmm6, xmm0, xmm1, 136
-	LONG $0x4061e2c4; BYTE $0xde               // vpmulld    xmm3, xmm3, xmm6
-	LONG $0x64c6d8c5; WORD $0x50c7; BYTE $0x88 // vshufps    xmm4, xmm4, oword [rdi + 8*rax + 80], 136
-	LONG $0xf1c6f8c5; BYTE $0x88               // vshufps    xmm6, xmm0, xmm1, 136
-	LONG $0x4059e2c4; BYTE $0xe6               // vpmulld    xmm4, xmm4, xmm6
-	LONG $0x6cc6d0c5; WORD $0x70c7; BYTE $0x88 // vshufps    xmm5, xmm5, oword [rdi + 8*rax + 112], 136
-	LONG $0xf1c6f8c5; BYTE $0x88               // vshufps    xmm6, xmm0, xmm1, 136
-	LONG $0x4051e2c4; BYTE $0xee               // vpmulld    xmm5, xmm5, xmm6
-	LONG $0x147ffac5; BYTE $0x86               // vmovdqu    oword [rsi + 4*rax], xmm2
-	LONG $0x5c7ffac5; WORD $0x1086             // vmovdqu    oword [rsi + 4*rax + 16], xmm3
-	LONG $0x647ffac5; WORD $0x2086             // vmovdqu    oword [rsi + 4*rax + 32], xmm4
-	LONG $0x6c7ffac5; WORD $0x3086             // vmovdqu    oword [rsi + 4*rax + 48], xmm5
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
-	JNE  LBB4_4
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JE   LBB4_7
-
-LBB4_6:
-	WORD $0x048b; BYTE $0xd7 // mov    eax, dword [rdi + 8*rdx]
-	WORD $0xaf0f; BYTE $0xc1 // imul    eax, ecx
-	WORD $0x0489; BYTE $0x96 // mov    dword [rsi + 4*rdx], eax
-	LONG $0x01c28348         // add    rdx, 1
-	WORD $0x3949; BYTE $0xd0 // cmp    r8, rdx
-	JNE  LBB4_6
-
-LBB4_7:
-	VZEROUPPER
-	RET
-
-TEXT ·_divide_constant_int64_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB5_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB5_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB5_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB5_8
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB5_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB5_7
-
-LBB5_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB5_10
-
-LBB5_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB5_16:
-	LONG $0x86448942; BYTE $0x04 // mov    dword [rsi + 4*r8 + 4], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB5_3
-
-LBB5_10:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB5_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB5_13
-
-LBB5_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB5_13:
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0xc7448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r8 + 8]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB5_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB5_16
-
-LBB5_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB5_7:
-	LONG $0x86048942 // mov    dword [rsi + 4*r8], eax
-
-LBB5_8:
-	RET
-
-TEXT ·_multiply_constant_int64_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB6_16
-	WORD $0x8941; BYTE $0xd0 // mov    r8d, edx
-	WORD $0xfa83; BYTE $0x0f // cmp    edx, 15
-	JBE  LBB6_2
-	LONG $0xc7048d4a         // lea    rax, [rdi + 8*r8]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB6_9
-	LONG $0xc6048d4a         // lea    rax, [rsi + 8*r8]
-	WORD $0x3948; BYTE $0xf8 // cmp    rax, rdi
-	JBE  LBB6_9
-
-LBB6_2:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB6_3:
-	WORD $0x894d; BYTE $0xd9 // mov    r9, r11
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xc1 // add    r9, r8
-	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB6_5
-
-LBB6_4:
-	LONG $0xdf148b4a // mov    rdx, qword [rdi + 8*r11]
-	LONG $0xd1af0f48 // imul    rdx, rcx
-	LONG $0xde14894a // mov    qword [rsi + 8*r11], rdx
-	LONG $0x01c38349 // add    r11, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB6_4
-
-LBB6_5:
-	LONG $0x03f98349 // cmp    r9, 3
-	JB   LBB6_16
-
-LBB6_6:
-	LONG $0xdf048b4a             // mov    rax, qword [rdi + 8*r11]
-	LONG $0xc1af0f48             // imul    rax, rcx
-	LONG $0xde04894a             // mov    qword [rsi + 8*r11], rax
-	LONG $0xdf448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r11 + 8]
-	LONG $0xc1af0f48             // imul    rax, rcx
-	LONG $0xde44894a; BYTE $0x08 // mov    qword [rsi + 8*r11 + 8], rax
-	LONG $0xdf448b4a; BYTE $0x10 // mov    rax, qword [rdi + 8*r11 + 16]
-	LONG $0xc1af0f48             // imul    rax, rcx
-	LONG $0xde44894a; BYTE $0x10 // mov    qword [rsi + 8*r11 + 16], rax
-	LONG $0xdf448b4a; BYTE $0x18 // mov    rax, qword [rdi + 8*r11 + 24]
-	LONG $0xc1af0f48             // imul    rax, rcx
-	LONG $0xde44894a; BYTE $0x18 // mov    qword [rsi + 8*r11 + 24], rax
-	LONG $0x04c38349             // add    r11, 4
-	WORD $0x394d; BYTE $0xd8     // cmp    r8, r11
-	JNE  LBB6_6
-	JMP  LBB6_16
-
-LBB6_9:
-	WORD $0x8945; BYTE $0xc3     // mov    r11d, r8d
-	LONG $0xf0e38341             // and    r11d, -16
-	LONG $0x6ef9e1c4; BYTE $0xc1 // vmovq    xmm0, rcx
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0438d49             // lea    rax, [r11 - 16]
-	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB6_10
-	WORD $0x894d; BYTE $0xca     // mov    r10, r9
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0xc031                 // xor    eax, eax
-
-LBB6_12:
-	LONG $0x146ffec5; BYTE $0xc7         // vmovdqu    ymm2, yword [rdi + 8*rax]
-	LONG $0x5c6ffec5; WORD $0x20c7       // vmovdqu    ymm3, yword [rdi + 8*rax + 32]
-	LONG $0x646ffec5; WORD $0x40c7       // vmovdqu    ymm4, yword [rdi + 8*rax + 64]
-	LONG $0x6c6ffec5; WORD $0x60c7       // vmovdqu    ymm5, yword [rdi + 8*rax + 96]
-	LONG $0xf1f4edc5                     // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                     // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                     // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                     // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                     // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                     // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                     // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                     // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                     // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                     // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                     // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                     // vpaddq    ymm5, ymm5, ymm6
-	LONG $0x147ffec5; BYTE $0xc6         // vmovdqu    yword [rsi + 8*rax], ymm2
-	LONG $0x5c7ffec5; WORD $0x20c6       // vmovdqu    yword [rsi + 8*rax + 32], ymm3
-	LONG $0x647ffec5; WORD $0x40c6       // vmovdqu    yword [rsi + 8*rax + 64], ymm4
-	LONG $0x6c7ffec5; WORD $0x60c6       // vmovdqu    yword [rsi + 8*rax + 96], ymm5
-	QUAD $0x000080c7946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdi + 8*rax + 128]
-	QUAD $0x0000a0c79c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdi + 8*rax + 160]
-	QUAD $0x0000c0c7a46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdi + 8*rax + 192]
-	QUAD $0x0000e0c7ac6ffec5; BYTE $0x00 // vmovdqu    ymm5, yword [rdi + 8*rax + 224]
-	LONG $0xf1f4edc5                     // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5                     // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5                     // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5                     // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5                     // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5                     // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5                     // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5                     // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5                     // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xf1f4d5c5                     // vpmuludq    ymm6, ymm5, ymm1
-	LONG $0xd573c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm5, 32
-	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
-	LONG $0xe8f4d5c5                     // vpmuludq    ymm5, ymm5, ymm0
-	LONG $0xeed4d5c5                     // vpaddq    ymm5, ymm5, ymm6
-	QUAD $0x000080c6947ffec5; BYTE $0x00 // vmovdqu    yword [rsi + 8*rax + 128], ymm2
-	QUAD $0x0000a0c69c7ffec5; BYTE $0x00 // vmovdqu    yword [rsi + 8*rax + 160], ymm3
-	QUAD $0x0000c0c6a47ffec5; BYTE $0x00 // vmovdqu    yword [rsi + 8*rax + 192], ymm4
-	QUAD $0x0000e0c6ac7ffec5; BYTE $0x00 // vmovdqu    yword [rsi + 8*rax + 224], ymm5
-	LONG $0x20c08348                     // add    rax, 32
-	LONG $0x02c28349                     // add    r10, 2
-	JNE  LBB6_12
-	LONG $0x01c1f641                     // test    r9b, 1
-	JE   LBB6_15
-
-LBB6_14:
-	LONG $0x146ffec5; BYTE $0xc7   // vmovdqu    ymm2, yword [rdi + 8*rax]
-	LONG $0x5c6ffec5; WORD $0x20c7 // vmovdqu    ymm3, yword [rdi + 8*rax + 32]
-	LONG $0x646ffec5; WORD $0x40c7 // vmovdqu    ymm4, yword [rdi + 8*rax + 64]
-	LONG $0x6c6ffec5; WORD $0x60c7 // vmovdqu    ymm5, yword [rdi + 8*rax + 96]
-	LONG $0xf1f4edc5               // vpmuludq    ymm6, ymm2, ymm1
-	LONG $0xd273c5c5; BYTE $0x20   // vpsrlq    ymm7, ymm2, 32
-	LONG $0xf8f4c5c5               // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5               // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20   // vpsllq    ymm6, ymm6, 32
-	LONG $0xd0f4edc5               // vpmuludq    ymm2, ymm2, ymm0
-	LONG $0xd6d4edc5               // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xf1f4e5c5               // vpmuludq    ymm6, ymm3, ymm1
-	LONG $0xd373c5c5; BYTE $0x20   // vpsrlq    ymm7, ymm3, 32
-	LONG $0xf8f4c5c5               // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5               // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20   // vpsllq    ymm6, ymm6, 32
-	LONG $0xd8f4e5c5               // vpmuludq    ymm3, ymm3, ymm0
-	LONG $0xded4e5c5               // vpaddq    ymm3, ymm3, ymm6
-	LONG $0xf1f4ddc5               // vpmuludq    ymm6, ymm4, ymm1
-	LONG $0xd473c5c5; BYTE $0x20   // vpsrlq    ymm7, ymm4, 32
-	LONG $0xf8f4c5c5               // vpmuludq    ymm7, ymm7, ymm0
-	LONG $0xf7d4cdc5               // vpaddq    ymm6, ymm6, ymm7
-	LONG $0xf673cdc5; BYTE $0x20   // vpsllq    ymm6, ymm6, 32
-	LONG $0xe0f4ddc5               // vpmuludq    ymm4, ymm4, ymm0
-	LONG $0xe6d4ddc5               // vpaddq    ymm4, ymm4, ymm6
-	LONG $0xc9f4d5c5               // vpmuludq    ymm1, ymm5, ymm1
-	LONG $0xd573cdc5; BYTE $0x20   // vpsrlq    ymm6, ymm5, 32
-	LONG $0xf0f4cdc5               // vpmuludq    ymm6, ymm6, ymm0
-	LONG $0xced4f5c5               // vpaddq    ymm1, ymm1, ymm6
-	LONG $0xf173f5c5; BYTE $0x20   // vpsllq    ymm1, ymm1, 32
-	LONG $0xc0f4d5c5               // vpmuludq    ymm0, ymm5, ymm0
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x147ffec5; BYTE $0xc6   // vmovdqu    yword [rsi + 8*rax], ymm2
-	LONG $0x5c7ffec5; WORD $0x20c6 // vmovdqu    yword [rsi + 8*rax + 32], ymm3
-	LONG $0x647ffec5; WORD $0x40c6 // vmovdqu    yword [rsi + 8*rax + 64], ymm4
-	LONG $0x447ffec5; WORD $0x60c6 // vmovdqu    yword [rsi + 8*rax + 96], ymm0
-
-LBB6_15:
-	WORD $0x394d; BYTE $0xc3 // cmp    r11, r8
-	JNE  LBB6_3
-
-LBB6_16:
-	VZEROUPPER
-	RET
-
-LBB6_10:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x01c1f641 // test    r9b, 1
-	JNE  LBB6_14
-	JMP  LBB6_15
-
-TEXT ·_divide_constant_int64_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB7_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB7_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB7_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB7_8
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB7_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB7_7
-
-LBB7_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB7_10
-
-LBB7_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB7_16:
-	LONG $0xc644894a; BYTE $0x08 // mov    qword [rsi + 8*r8 + 8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB7_3
-
-LBB7_10:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB7_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB7_13
-
-LBB7_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB7_13:
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0xc7448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r8 + 8]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB7_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB7_16
-
-LBB7_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB7_7:
-	LONG $0xc604894a // mov    qword [rsi + 8*r8], rax
-
-LBB7_8:
-	RET
diff --git a/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.go b/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.go
deleted file mode 100644
index 1f42f3728cedd..0000000000000
--- a/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.go
+++ /dev/null
@@ -1,77 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import "unsafe"
-
-//go:noescape
-func _multiply_constant_int32_int32_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt32Int32SSE4(in []int32, out []int32, factor int64) {
-	_multiply_constant_int32_int32_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _multiply_constant_int32_int64_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt32Int64SSE4(in []int32, out []int64, factor int64) {
-	_multiply_constant_int32_int64_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _multiply_constant_int64_int32_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt64Int32SSE4(in []int64, out []int32, factor int64) {
-	_multiply_constant_int64_int32_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _multiply_constant_int64_int64_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func multiplyConstantInt64Int64SSE4(in []int64, out []int64, factor int64) {
-	_multiply_constant_int64_int64_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int32_int32_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt32Int32SSE4(in []int32, out []int32, factor int64) {
-	_divide_constant_int32_int32_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int32_int64_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt32Int64SSE4(in []int32, out []int64, factor int64) {
-	_divide_constant_int32_int64_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int64_int32_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt64Int32SSE4(in []int64, out []int32, factor int64) {
-	_divide_constant_int64_int32_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
-
-//go:noescape
-func _divide_constant_int64_int64_sse4(src, dest unsafe.Pointer, len int, factor int64)
-
-func divideConstantInt64Int64SSE4(in []int64, out []int64, factor int64) {
-	_divide_constant_int64_int64_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
-}
diff --git a/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.s b/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.s
deleted file mode 100644
index 2d42edfcec43c..0000000000000
--- a/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.s
+++ /dev/null
@@ -1,597 +0,0 @@
-//go:build go1.18 && !noasm && !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_multiply_constant_int32_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB0_16
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x07 // cmp    edx, 7
-	JBE  LBB0_2
-	LONG $0x8f048d4a         // lea    rax, [rdi + 4*r9]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB0_9
-	LONG $0x8e048d4a         // lea    rax, [rsi + 4*r9]
-	WORD $0x3948; BYTE $0xf8 // cmp    rax, rdi
-	JBE  LBB0_9
-
-LBB0_2:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB0_3:
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0xf749; BYTE $0xd0 // not    r8
-	WORD $0x014d; BYTE $0xc8 // add    r8, r9
-	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_5
-
-LBB0_4:
-	LONG $0x9f148b42         // mov    edx, dword [rdi + 4*r11]
-	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
-	LONG $0x9e148942         // mov    dword [rsi + 4*r11], edx
-	LONG $0x01c38349         // add    r11, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_4
-
-LBB0_5:
-	LONG $0x03f88349 // cmp    r8, 3
-	JB   LBB0_16
-
-LBB0_6:
-	LONG $0x9f048b42             // mov    eax, dword [rdi + 4*r11]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e048942             // mov    dword [rsi + 4*r11], eax
-	LONG $0x9f448b42; BYTE $0x04 // mov    eax, dword [rdi + 4*r11 + 4]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e448942; BYTE $0x04 // mov    dword [rsi + 4*r11 + 4], eax
-	LONG $0x9f448b42; BYTE $0x08 // mov    eax, dword [rdi + 4*r11 + 8]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e448942; BYTE $0x08 // mov    dword [rsi + 4*r11 + 8], eax
-	LONG $0x9f448b42; BYTE $0x0c // mov    eax, dword [rdi + 4*r11 + 12]
-	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
-	LONG $0x9e448942; BYTE $0x0c // mov    dword [rsi + 4*r11 + 12], eax
-	LONG $0x04c38349             // add    r11, 4
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB0_6
-	JMP  LBB0_16
-
-LBB0_9:
-	WORD $0x8945; BYTE $0xcb     // mov    r11d, r9d
-	LONG $0xf8e38341             // and    r11d, -8
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8438d49             // lea    rax, [r11 - 8]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x03e8c149             // shr    r8, 3
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_10
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	WORD $0xc031                 // xor    eax, eax
-
-LBB0_12:
-	LONG $0x0c6f0ff3; BYTE $0x87   // movdqu    xmm1, oword [rdi + 4*rax]
-	LONG $0x546f0ff3; WORD $0x1087 // movdqu    xmm2, oword [rdi + 4*rax + 16]
-	LONG $0x40380f66; BYTE $0xc8   // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0   // pmulld    xmm2, xmm0
-	LONG $0x0c7f0ff3; BYTE $0x86   // movdqu    oword [rsi + 4*rax], xmm1
-	LONG $0x547f0ff3; WORD $0x1086 // movdqu    oword [rsi + 4*rax + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2087 // movdqu    xmm1, oword [rdi + 4*rax + 32]
-	LONG $0x546f0ff3; WORD $0x3087 // movdqu    xmm2, oword [rdi + 4*rax + 48]
-	LONG $0x40380f66; BYTE $0xc8   // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0   // pmulld    xmm2, xmm0
-	LONG $0x4c7f0ff3; WORD $0x2086 // movdqu    oword [rsi + 4*rax + 32], xmm1
-	LONG $0x547f0ff3; WORD $0x3086 // movdqu    oword [rsi + 4*rax + 48], xmm2
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB0_12
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_15
-
-LBB0_14:
-	LONG $0x0c6f0ff3; BYTE $0x87   // movdqu    xmm1, oword [rdi + 4*rax]
-	LONG $0x546f0ff3; WORD $0x1087 // movdqu    xmm2, oword [rdi + 4*rax + 16]
-	LONG $0x40380f66; BYTE $0xc8   // pmulld    xmm1, xmm0
-	LONG $0x40380f66; BYTE $0xd0   // pmulld    xmm2, xmm0
-	LONG $0x0c7f0ff3; BYTE $0x86   // movdqu    oword [rsi + 4*rax], xmm1
-	LONG $0x547f0ff3; WORD $0x1086 // movdqu    oword [rsi + 4*rax + 16], xmm2
-
-LBB0_15:
-	WORD $0x394d; BYTE $0xcb // cmp    r11, r9
-	JNE  LBB0_3
-
-LBB0_16:
-	RET
-
-LBB0_10:
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB0_14
-	JMP  LBB0_15
-
-TEXT ·_divide_constant_int32_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB1_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB1_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB1_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB1_8
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB1_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB1_7
-
-LBB1_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB1_10
-
-LBB1_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB1_16:
-	LONG $0x86448942; BYTE $0x04 // mov    dword [rsi + 4*r8 + 4], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB1_3
-
-LBB1_10:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB1_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB1_13
-
-LBB1_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB1_13:
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x8744634a; BYTE $0x04 // movsxd    rax, dword [rdi + 4*r8 + 4]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB1_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB1_16
-
-LBB1_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB1_7:
-	LONG $0x86048942 // mov    dword [rsi + 4*r8], eax
-
-LBB1_8:
-	RET
-
-TEXT ·_multiply_constant_int32_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB2_6
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	LONG $0xff418d49         // lea    rax, [r9 - 1]
-	WORD $0x8945; BYTE $0xc8 // mov    r8d, r9d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03f88348         // cmp    rax, 3
-	JAE  LBB2_7
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB2_3
-
-LBB2_7:
-	LONG $0xfce18341 // and    r9d, -4
-	WORD $0xc031     // xor    eax, eax
-
-LBB2_8:
-	LONG $0x87146348             // movsxd    rdx, dword [rdi + 4*rax]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6148948             // mov    qword [rsi + 8*rax], rdx
-	LONG $0x87546348; BYTE $0x04 // movsxd    rdx, dword [rdi + 4*rax + 4]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6548948; BYTE $0x08 // mov    qword [rsi + 8*rax + 8], rdx
-	LONG $0x87546348; BYTE $0x08 // movsxd    rdx, dword [rdi + 4*rax + 8]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6548948; BYTE $0x10 // mov    qword [rsi + 8*rax + 16], rdx
-	LONG $0x87546348; BYTE $0x0c // movsxd    rdx, dword [rdi + 4*rax + 12]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6548948; BYTE $0x18 // mov    qword [rsi + 8*rax + 24], rdx
-	LONG $0x04c08348             // add    rax, 4
-	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
-	JNE  LBB2_8
-
-LBB2_3:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB2_6
-	LONG $0xc6148d48         // lea    rdx, [rsi + 8*rax]
-	LONG $0x87048d48         // lea    rax, [rdi + 4*rax]
-	WORD $0xf631             // xor    esi, esi
-
-LBB2_5:
-	LONG $0xb03c6348         // movsxd    rdi, dword [rax + 4*rsi]
-	LONG $0xf9af0f48         // imul    rdi, rcx
-	LONG $0xf23c8948         // mov    qword [rdx + 8*rsi], rdi
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
-	JNE  LBB2_5
-
-LBB2_6:
-	RET
-
-TEXT ·_divide_constant_int32_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB3_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB3_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB3_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB3_8
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB3_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB3_7
-
-LBB3_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB3_10
-
-LBB3_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB3_16:
-	LONG $0xc644894a; BYTE $0x08 // mov    qword [rsi + 8*r8 + 8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB3_3
-
-LBB3_10:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB3_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB3_13
-
-LBB3_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB3_13:
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x8744634a; BYTE $0x04 // movsxd    rax, dword [rdi + 4*r8 + 4]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB3_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB3_16
-
-LBB3_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB3_7:
-	LONG $0xc604894a // mov    qword [rsi + 8*r8], rax
-
-LBB3_8:
-	RET
-
-TEXT ·_multiply_constant_int64_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB4_6
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	LONG $0xff418d49         // lea    rax, [r9 - 1]
-	WORD $0x8945; BYTE $0xc8 // mov    r8d, r9d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03f88348         // cmp    rax, 3
-	JAE  LBB4_7
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB4_3
-
-LBB4_7:
-	LONG $0xfce18341 // and    r9d, -4
-	WORD $0xc031     // xor    eax, eax
-
-LBB4_8:
-	WORD $0x148b; BYTE $0xc7 // mov    edx, dword [rdi + 8*rax]
-	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
-	WORD $0x1489; BYTE $0x86 // mov    dword [rsi + 4*rax], edx
-	LONG $0x08c7548b         // mov    edx, dword [rdi + 8*rax + 8]
-	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
-	LONG $0x04865489         // mov    dword [rsi + 4*rax + 4], edx
-	LONG $0x10c7548b         // mov    edx, dword [rdi + 8*rax + 16]
-	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
-	LONG $0x08865489         // mov    dword [rsi + 4*rax + 8], edx
-	LONG $0x18c7548b         // mov    edx, dword [rdi + 8*rax + 24]
-	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
-	LONG $0x0c865489         // mov    dword [rsi + 4*rax + 12], edx
-	LONG $0x04c08348         // add    rax, 4
-	WORD $0x3949; BYTE $0xc1 // cmp    r9, rax
-	JNE  LBB4_8
-
-LBB4_3:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB4_6
-	LONG $0x86148d48         // lea    rdx, [rsi + 4*rax]
-	LONG $0xc7048d48         // lea    rax, [rdi + 8*rax]
-	WORD $0xf631             // xor    esi, esi
-
-LBB4_5:
-	WORD $0x3c8b; BYTE $0xf0 // mov    edi, dword [rax + 8*rsi]
-	WORD $0xaf0f; BYTE $0xf9 // imul    edi, ecx
-	WORD $0x3c89; BYTE $0xb2 // mov    dword [rdx + 4*rsi], edi
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
-	JNE  LBB4_5
-
-LBB4_6:
-	RET
-
-TEXT ·_divide_constant_int64_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB5_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB5_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB5_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB5_8
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB5_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB5_7
-
-LBB5_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB5_10
-
-LBB5_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB5_16:
-	LONG $0x86448942; BYTE $0x04 // mov    dword [rsi + 4*r8 + 4], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB5_3
-
-LBB5_10:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB5_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB5_13
-
-LBB5_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB5_13:
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0xc7448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r8 + 8]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB5_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB5_16
-
-LBB5_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB5_7:
-	LONG $0x86048942 // mov    dword [rsi + 4*r8], eax
-
-LBB5_8:
-	RET
-
-TEXT ·_multiply_constant_int64_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB6_6
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	LONG $0xff418d49         // lea    rax, [r9 - 1]
-	WORD $0x8945; BYTE $0xc8 // mov    r8d, r9d
-	LONG $0x03e08341         // and    r8d, 3
-	LONG $0x03f88348         // cmp    rax, 3
-	JAE  LBB6_7
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB6_3
-
-LBB6_7:
-	LONG $0xfce18341 // and    r9d, -4
-	WORD $0xc031     // xor    eax, eax
-
-LBB6_8:
-	LONG $0xc7148b48             // mov    rdx, qword [rdi + 8*rax]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6148948             // mov    qword [rsi + 8*rax], rdx
-	LONG $0xc7548b48; BYTE $0x08 // mov    rdx, qword [rdi + 8*rax + 8]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6548948; BYTE $0x08 // mov    qword [rsi + 8*rax + 8], rdx
-	LONG $0xc7548b48; BYTE $0x10 // mov    rdx, qword [rdi + 8*rax + 16]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6548948; BYTE $0x10 // mov    qword [rsi + 8*rax + 16], rdx
-	LONG $0xc7548b48; BYTE $0x18 // mov    rdx, qword [rdi + 8*rax + 24]
-	LONG $0xd1af0f48             // imul    rdx, rcx
-	LONG $0xc6548948; BYTE $0x18 // mov    qword [rsi + 8*rax + 24], rdx
-	LONG $0x04c08348             // add    rax, 4
-	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
-	JNE  LBB6_8
-
-LBB6_3:
-	WORD $0x854d; BYTE $0xc0 // test    r8, r8
-	JE   LBB6_6
-	LONG $0xc6148d48         // lea    rdx, [rsi + 8*rax]
-	LONG $0xc7048d48         // lea    rax, [rdi + 8*rax]
-	WORD $0xf631             // xor    esi, esi
-
-LBB6_5:
-	LONG $0xf03c8b48         // mov    rdi, qword [rax + 8*rsi]
-	LONG $0xf9af0f48         // imul    rdi, rcx
-	LONG $0xf23c8948         // mov    qword [rdx + 8*rsi], rdi
-	LONG $0x01c68348         // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
-	JNE  LBB6_5
-
-LBB6_6:
-	RET
-
-TEXT ·_divide_constant_int64_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ len+16(FP), DX
-	MOVQ factor+24(FP), CX
-
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB7_8
-	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JNE  LBB7_9
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB7_3:
-	LONG $0x01c1f641         // test    r9b, 1
-	JE   LBB7_8
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB7_5
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB7_7
-
-LBB7_9:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xfee28341         // and    r10d, -2
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	JMP  LBB7_10
-
-LBB7_15:
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-
-LBB7_16:
-	LONG $0xc644894a; BYTE $0x08 // mov    qword [rsi + 8*r8 + 8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
-	JE   LBB7_3
-
-LBB7_10:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca // or    rdx, rcx
-	LONG $0x20eac148         // shr    rdx, 32
-	JE   LBB7_11
-	WORD $0x9948             // cqo
-	WORD $0xf748; BYTE $0xf9 // idiv    rcx
-	JMP  LBB7_13
-
-LBB7_11:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB7_13:
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0xc7448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r8 + 8]
-	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
-	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
-	LONG $0x20eac148             // shr    rdx, 32
-	JNE  LBB7_15
-	WORD $0xd231                 // xor    edx, edx
-	WORD $0xf1f7                 // div    ecx
-	JMP  LBB7_16
-
-LBB7_5:
-	WORD $0xd231 // xor    edx, edx
-	WORD $0xf1f7 // div    ecx
-
-LBB7_7:
-	LONG $0xc604894a // mov    qword [rsi + 8*r8], rax
-
-LBB7_8:
-	RET
diff --git a/go/arrow/compute/internal/kernels/doc.go b/go/arrow/compute/internal/kernels/doc.go
deleted file mode 100644
index 4a9334bc44c85..0000000000000
--- a/go/arrow/compute/internal/kernels/doc.go
+++ /dev/null
@@ -1,19 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package kernels defines all of the computation kernels for the compute
-// library. This requires >= go1.18 since it utilizes Go generics.
-package kernels
diff --git a/go/arrow/compute/internal/kernels/helpers.go b/go/arrow/compute/internal/kernels/helpers.go
deleted file mode 100644
index 230a8e9112c29..0000000000000
--- a/go/arrow/compute/internal/kernels/helpers.go
+++ /dev/null
@@ -1,989 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"golang.org/x/exp/constraints"
-)
-
-// ScalarUnary returns a kernel for performing a unary operation on
-// FixedWidth types which is implemented using the passed in function
-// which will receive a slice containing the raw input data along with
-// a slice to populate for the output data.
-//
-// Note that bool is not included in arrow.FixedWidthType since it is
-// represented as a bitmap, not as a slice of bool.
-func ScalarUnary[OutT, Arg0T arrow.FixedWidthType](op func(*exec.KernelCtx, []Arg0T, []OutT) error) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
-		arg0 := in.Values[0].Array
-		inData := exec.GetSpanValues[Arg0T](&arg0, 1)
-		outData := exec.GetSpanValues[OutT](out, 1)
-		return op(ctx, inData, outData)
-	}
-}
-
-// ScalarUnaryNotNull is for generating a kernel to operate only on the
-// non-null values in the input array. The zerovalue of the output type
-// is used for any null input values.
-func ScalarUnaryNotNull[OutT, Arg0T arrow.FixedWidthType](op func(*exec.KernelCtx, Arg0T, *error) OutT) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
-		var (
-			arg0     = &in.Values[0].Array
-			arg0Data = exec.GetSpanValues[Arg0T](arg0, 1)
-			outPos   = 0
-			def      OutT
-			outData  = exec.GetSpanValues[OutT](out, 1)
-			bitmap   = arg0.Buffers[0].Buf
-			err      error
-		)
-
-		bitutils.VisitBitBlocks(bitmap, arg0.Offset, arg0.Len,
-			func(pos int64) {
-				outData[outPos] = op(ctx, arg0Data[pos], &err)
-				outPos++
-			}, func() {
-				outData[outPos] = def
-				outPos++
-			})
-		return err
-	}
-}
-
-// ScalarUnaryBoolOutput is like ScalarUnary only it is for cases of boolean
-// output. The function should take in a slice of the input type and a slice
-// of bytes to fill with the output boolean bitmap.
-func ScalarUnaryBoolOutput[Arg0T arrow.FixedWidthType](op func(*exec.KernelCtx, []Arg0T, []byte) error) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
-		arg0 := in.Values[0].Array
-		inData := exec.GetSpanValues[Arg0T](&arg0, 1)
-		return op(ctx, inData, out.Buffers[1].Buf)
-	}
-}
-
-// ScalarUnaryNotNullBinaryArgBoolOut creates a unary kernel that accepts
-// a binary type input (Binary [offset int32], String [offset int32],
-// LargeBinary [offset int64], LargeString [offset int64]) and returns
-// a boolean output which is never null.
-//
-// It implements the handling to iterate the offsets and values calling
-// the provided function on each byte slice. The provided default value
-// will be used as the output for elements of the input that are null.
-func ScalarUnaryNotNullBinaryArgBoolOut[OffsetT int32 | int64](defVal bool, op func(*exec.KernelCtx, []byte, *error) bool) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
-		var (
-			arg0        = in.Values[0].Array
-			outData     = out.Buffers[1].Buf
-			outPos      = 0
-			arg0Offsets = exec.GetSpanOffsets[OffsetT](&arg0, 1)
-			arg0Data    = arg0.Buffers[2].Buf
-			bitmap      = arg0.Buffers[0].Buf
-			err         error
-		)
-
-		bitutils.VisitBitBlocks(bitmap, arg0.Offset, arg0.Len,
-			func(pos int64) {
-				v := arg0Data[arg0Offsets[pos]:arg0Offsets[pos+1]]
-				bitutil.SetBitTo(outData, int(out.Offset)+outPos, op(ctx, v, &err))
-				outPos++
-			}, func() {
-				bitutil.SetBitTo(outData, int(out.Offset)+outPos, defVal)
-				outPos++
-			})
-		return err
-	}
-}
-
-// ScalarUnaryNotNullBinaryArg creates a unary kernel that accepts
-// a binary type input (Binary [offset int32], String [offset int32],
-// LargeBinary [offset int64], LargeString [offset int64]) and returns
-// a FixedWidthType output which is never null.
-//
-// It implements the handling to iterate the offsets and values calling
-// the provided function on each byte slice. The zero value of the OutT
-// will be used as the output for elements of the input that are null.
-func ScalarUnaryNotNullBinaryArg[OutT arrow.FixedWidthType, OffsetT int32 | int64](op func(*exec.KernelCtx, []byte, *error) OutT) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
-		var (
-			arg0        = &in.Values[0].Array
-			outData     = exec.GetSpanValues[OutT](out, 1)
-			outPos      = 0
-			arg0Offsets = exec.GetSpanOffsets[OffsetT](arg0, 1)
-			def         OutT
-			arg0Data    = arg0.Buffers[2].Buf
-			bitmap      = arg0.Buffers[0].Buf
-			err         error
-		)
-
-		bitutils.VisitBitBlocks(bitmap, arg0.Offset, arg0.Len,
-			func(pos int64) {
-				v := arg0Data[arg0Offsets[pos]:arg0Offsets[pos+1]]
-				outData[outPos] = op(ctx, v, &err)
-				outPos++
-			}, func() {
-				outData[outPos] = def
-				outPos++
-			})
-		return err
-	}
-}
-
-// ScalarUnaryBoolArg is like ScalarUnary except it specifically expects a
-// function that takes a byte slice since booleans arrays are represented
-// as a bitmap.
-func ScalarUnaryBoolArg[OutT arrow.FixedWidthType](op func(*exec.KernelCtx, []byte, []OutT) error) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
-		outData := exec.GetSpanValues[OutT](out, 1)
-		return op(ctx, input.Values[0].Array.Buffers[1].Buf, outData)
-	}
-}
-
-func UnboxScalar[T arrow.FixedWidthType](val scalar.PrimitiveScalar) T {
-	return *(*T)(unsafe.Pointer(&val.Data()[0]))
-}
-
-func UnboxBinaryScalar(val scalar.BinaryScalar) []byte {
-	if !val.IsValid() {
-		return nil
-	}
-	return val.Data()
-}
-
-type arrArrFn[OutT, Arg0T, Arg1T arrow.FixedWidthType] func(*exec.KernelCtx, []Arg0T, []Arg1T, []OutT) error
-type arrScalarFn[OutT, Arg0T, Arg1T arrow.FixedWidthType] func(*exec.KernelCtx, []Arg0T, Arg1T, []OutT) error
-type scalarArrFn[OutT, Arg0T, Arg1T arrow.FixedWidthType] func(*exec.KernelCtx, Arg0T, []Arg1T, []OutT) error
-
-type binaryOps[OutT, Arg0T, Arg1T arrow.FixedWidthType] struct {
-	arrArr    arrArrFn[OutT, Arg0T, Arg1T]
-	arrScalar arrScalarFn[OutT, Arg0T, Arg1T]
-	scalarArr scalarArrFn[OutT, Arg0T, Arg1T]
-}
-
-type binaryBoolOps struct {
-	arrArr    func(ctx *exec.KernelCtx, lhs, rhs, out bitutil.Bitmap) error
-	arrScalar func(ctx *exec.KernelCtx, lhs bitutil.Bitmap, rhs bool, out bitutil.Bitmap) error
-	scalarArr func(ctx *exec.KernelCtx, lhs bool, rhs, out bitutil.Bitmap) error
-}
-
-func ScalarBinary[OutT, Arg0T, Arg1T arrow.FixedWidthType](ops binaryOps[OutT, Arg0T, Arg1T]) exec.ArrayKernelExec {
-	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
-		var (
-			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
-			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
-			outData = exec.GetSpanValues[OutT](out, 1)
-		)
-		return ops.arrArr(ctx, a0, a1, outData)
-	}
-
-	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) error {
-		var (
-			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
-			a1      = UnboxScalar[Arg1T](arg1.(scalar.PrimitiveScalar))
-			outData = exec.GetSpanValues[OutT](out, 1)
-		)
-		return ops.arrScalar(ctx, a0, a1, outData)
-	}
-
-	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
-		var (
-			a0      = UnboxScalar[Arg0T](arg0.(scalar.PrimitiveScalar))
-			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
-			outData = exec.GetSpanValues[OutT](out, 1)
-		)
-		return ops.scalarArr(ctx, a0, a1, outData)
-	}
-
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if batch.Values[0].IsArray() {
-			if batch.Values[1].IsArray() {
-				return arrayArray(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
-			}
-			return arrayScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
-		}
-
-		if batch.Values[1].IsArray() {
-			return scalarArray(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
-		}
-
-		debug.Assert(false, "should be unreachable")
-		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
-	}
-}
-
-func ScalarBinaryBools(ops *binaryBoolOps) exec.ArrayKernelExec {
-	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
-		var (
-			a0Bm  = bitutil.Bitmap{Data: arg0.Buffers[1].Buf, Offset: arg0.Offset, Len: arg0.Len}
-			a1Bm  = bitutil.Bitmap{Data: arg1.Buffers[1].Buf, Offset: arg1.Offset, Len: arg1.Len}
-			outBm = bitutil.Bitmap{Data: out.Buffers[1].Buf, Offset: out.Offset, Len: out.Len}
-		)
-
-		return ops.arrArr(ctx, a0Bm, a1Bm, outBm)
-	}
-
-	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) error {
-		var (
-			a0Bm  = bitutil.Bitmap{Data: arg0.Buffers[1].Buf, Offset: arg0.Offset, Len: arg0.Len}
-			a1    = arg1.(*scalar.Boolean).Value
-			outBm = bitutil.Bitmap{Data: out.Buffers[1].Buf, Offset: out.Offset, Len: out.Len}
-		)
-		return ops.arrScalar(ctx, a0Bm, a1, outBm)
-	}
-
-	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
-		var (
-			a0    = arg0.(*scalar.Boolean).Value
-			a1Bm  = bitutil.Bitmap{Data: arg1.Buffers[1].Buf, Offset: arg1.Offset, Len: arg1.Len}
-			outBm = bitutil.Bitmap{Data: out.Buffers[1].Buf, Offset: out.Offset, Len: out.Len}
-		)
-		return ops.scalarArr(ctx, a0, a1Bm, outBm)
-	}
-
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if batch.Values[0].IsArray() {
-			if batch.Values[1].IsArray() {
-				return arrayArray(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
-			}
-			return arrayScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
-		}
-
-		if batch.Values[1].IsArray() {
-			return scalarArray(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
-		}
-
-		debug.Assert(false, "should be unreachable")
-		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
-	}
-}
-
-func ScalarBinaryNotNull[OutT, Arg0T, Arg1T arrow.FixedWidthType](op func(*exec.KernelCtx, Arg0T, Arg1T, *error) OutT) exec.ArrayKernelExec {
-	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) (err error) {
-		// fast path if one side is entirely null
-		if arg0.UpdateNullCount() == arg0.Len || arg1.UpdateNullCount() == arg1.Len {
-			return nil
-		}
-
-		var (
-			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
-			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
-			outData = exec.GetSpanValues[OutT](out, 1)
-			outPos  int64
-			def     OutT
-		)
-		bitutils.VisitTwoBitBlocks(arg0.Buffers[0].Buf, arg1.Buffers[0].Buf, arg0.Offset, arg1.Offset, out.Len,
-			func(pos int64) {
-				outData[outPos] = op(ctx, a0[pos], a1[pos], &err)
-				outPos++
-			}, func() {
-				outData[outPos] = def
-				outPos++
-			})
-		return
-	}
-
-	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) (err error) {
-		// fast path if one side is entirely null
-		if arg0.UpdateNullCount() == arg0.Len || !arg1.IsValid() {
-			return nil
-		}
-
-		var (
-			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
-			outData = exec.GetSpanValues[OutT](out, 1)
-			outPos  int64
-			def     OutT
-		)
-		if !arg1.IsValid() {
-			return nil
-		}
-
-		a1 := UnboxScalar[Arg1T](arg1.(scalar.PrimitiveScalar))
-		bitutils.VisitBitBlocks(arg0.Buffers[0].Buf, arg0.Offset, arg0.Len,
-			func(pos int64) {
-				outData[outPos] = op(ctx, a0[pos], a1, &err)
-				outPos++
-			}, func() {
-				outData[outPos] = def
-				outPos++
-			})
-		return
-	}
-
-	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) (err error) {
-		// fast path if one side is entirely null
-		if arg1.UpdateNullCount() == arg1.Len || !arg0.IsValid() {
-			return nil
-		}
-
-		var (
-			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
-			outData = exec.GetSpanValues[OutT](out, 1)
-			outPos  int64
-			def     OutT
-		)
-		if !arg0.IsValid() {
-			return nil
-		}
-
-		a0 := UnboxScalar[Arg0T](arg0.(scalar.PrimitiveScalar))
-		bitutils.VisitBitBlocks(arg1.Buffers[0].Buf, arg1.Offset, arg1.Len,
-			func(pos int64) {
-				outData[outPos] = op(ctx, a0, a1[pos], &err)
-				outPos++
-			}, func() {
-				outData[outPos] = def
-				outPos++
-			})
-		return
-	}
-
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if batch.Values[0].IsArray() {
-			if batch.Values[1].IsArray() {
-				return arrayArray(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
-			}
-			return arrayScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
-		}
-
-		if batch.Values[1].IsArray() {
-			return scalarArray(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
-		}
-
-		debug.Assert(false, "should be unreachable")
-		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
-	}
-}
-
-type binaryBinOp[T arrow.FixedWidthType | bool] func(ctx *exec.KernelCtx, arg0, arg1 []byte) T
-
-func ScalarBinaryBinaryArgsBoolOut(itrFn func(*exec.ArraySpan) exec.ArrayIter[[]byte], op binaryBinOp[bool]) exec.ArrayKernelExec {
-	arrArr := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
-		var (
-			arg0It = itrFn(arg0)
-			arg1It = itrFn(arg1)
-		)
-
-		bitutils.GenerateBitsUnrolled(out.Buffers[1].Buf, out.Offset, out.Len, func() bool {
-			return op(ctx, arg0It.Next(), arg1It.Next())
-		})
-		return nil
-	}
-
-	arrScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) error {
-		var (
-			arg0It = itrFn(arg0)
-			a1     = UnboxBinaryScalar(arg1.(scalar.BinaryScalar))
-		)
-
-		bitutils.GenerateBitsUnrolled(out.Buffers[1].Buf, out.Offset, out.Len, func() bool {
-			return op(ctx, arg0It.Next(), a1)
-		})
-		return nil
-	}
-
-	scalarArr := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
-		var (
-			arg1It = itrFn(arg1)
-			a0     = UnboxBinaryScalar(arg0.(scalar.BinaryScalar))
-		)
-
-		bitutils.GenerateBitsUnrolled(out.Buffers[1].Buf, out.Offset, out.Len, func() bool {
-			return op(ctx, a0, arg1It.Next())
-		})
-		return nil
-	}
-
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if batch.Values[0].IsArray() {
-			if batch.Values[1].IsArray() {
-				return arrArr(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
-			}
-			return arrScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
-		}
-
-		if batch.Values[1].IsArray() {
-			return scalarArr(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
-		}
-
-		debug.Assert(false, "should be unreachable")
-		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
-	}
-}
-
-// SizeOf determines the size in number of bytes for an integer
-// based on the generic value in a way that the compiler should
-// be able to easily evaluate and create as a constant.
-func SizeOf[T constraints.Integer]() uint {
-	x := uint16(1 << 8)
-	y := uint32(2 << 16)
-	z := uint64(4 << 32)
-	return 1 + uint(T(x))>>8 + uint(T(y))>>16 + uint(T(z))>>32
-}
-
-// MinOf returns the minimum value for a given type since there is not
-// currently a generic way to do this with Go generics yet.
-func MinOf[T constraints.Integer]() T {
-	if ones := ^T(0); ones < 0 {
-		return ones << (8*SizeOf[T]() - 1)
-	}
-	return 0
-}
-
-// MaxOf determines the max value for a given type since there is not
-// currently a generic way to do this for Go generics yet as all of the
-// math.Max/Min values are constants.
-func MaxOf[T constraints.Integer]() T {
-	ones := ^T(0)
-	if ones < 0 {
-		return ones ^ (ones << (8*SizeOf[T]() - 1))
-	}
-	return ones
-}
-
-func getSafeMinSameSign[I, O constraints.Integer]() I {
-	if SizeOf[I]() > SizeOf[O]() {
-		return I(MinOf[O]())
-	}
-	return MinOf[I]()
-}
-
-func getSafeMaxSameSign[I, O constraints.Integer]() I {
-	if SizeOf[I]() > SizeOf[O]() {
-		return I(MaxOf[O]())
-	}
-	return MaxOf[I]()
-}
-
-func getSafeMaxSignedUnsigned[I constraints.Signed, O constraints.Unsigned]() I {
-	if SizeOf[I]() <= SizeOf[O]() {
-		return MaxOf[I]()
-	}
-	return I(MaxOf[O]())
-}
-
-func getSafeMaxUnsignedSigned[I constraints.Unsigned, O constraints.Signed]() I {
-	if SizeOf[I]() < SizeOf[O]() {
-		return MaxOf[I]()
-	}
-	return I(MaxOf[O]())
-}
-
-func getSafeMinMaxSigned[T constraints.Signed](target arrow.Type) (min, max T) {
-	switch target {
-	case arrow.UINT8:
-		min, max = 0, getSafeMaxSignedUnsigned[T, uint8]()
-	case arrow.UINT16:
-		min, max = 0, getSafeMaxSignedUnsigned[T, uint16]()
-	case arrow.UINT32:
-		min, max = 0, getSafeMaxSignedUnsigned[T, uint32]()
-	case arrow.UINT64:
-		min, max = 0, getSafeMaxSignedUnsigned[T, uint64]()
-	case arrow.INT8:
-		min = getSafeMinSameSign[T, int8]()
-		max = getSafeMaxSameSign[T, int8]()
-	case arrow.INT16:
-		min = getSafeMinSameSign[T, int16]()
-		max = getSafeMaxSameSign[T, int16]()
-	case arrow.INT32:
-		min = getSafeMinSameSign[T, int32]()
-		max = getSafeMaxSameSign[T, int32]()
-	case arrow.INT64:
-		min = getSafeMinSameSign[T, int64]()
-		max = getSafeMaxSameSign[T, int64]()
-	}
-	return
-}
-
-func getSafeMinMaxUnsigned[T constraints.Unsigned](target arrow.Type) (min, max T) {
-	min = 0
-	switch target {
-	case arrow.UINT8:
-		max = getSafeMaxSameSign[T, uint8]()
-	case arrow.UINT16:
-		max = getSafeMaxSameSign[T, uint16]()
-	case arrow.UINT32:
-		max = getSafeMaxSameSign[T, uint32]()
-	case arrow.UINT64:
-		max = getSafeMaxSameSign[T, uint64]()
-	case arrow.INT8:
-		max = getSafeMaxUnsignedSigned[T, int8]()
-	case arrow.INT16:
-		max = getSafeMaxUnsignedSigned[T, int16]()
-	case arrow.INT32:
-		max = getSafeMaxUnsignedSigned[T, int32]()
-	case arrow.INT64:
-		max = getSafeMaxUnsignedSigned[T, int64]()
-	}
-	return
-}
-
-func intsCanFit(data *exec.ArraySpan, target arrow.Type) error {
-	if !arrow.IsInteger(target) {
-		return fmt.Errorf("%w: target type is not an integer type %s", arrow.ErrInvalid, target)
-	}
-
-	switch data.Type.ID() {
-	case arrow.INT8:
-		min, max := getSafeMinMaxSigned[int8](target)
-		return intsInRange(data, min, max)
-	case arrow.UINT8:
-		min, max := getSafeMinMaxUnsigned[uint8](target)
-		return intsInRange(data, min, max)
-	case arrow.INT16:
-		min, max := getSafeMinMaxSigned[int16](target)
-		return intsInRange(data, min, max)
-	case arrow.UINT16:
-		min, max := getSafeMinMaxUnsigned[uint16](target)
-		return intsInRange(data, min, max)
-	case arrow.INT32:
-		min, max := getSafeMinMaxSigned[int32](target)
-		return intsInRange(data, min, max)
-	case arrow.UINT32:
-		min, max := getSafeMinMaxUnsigned[uint32](target)
-		return intsInRange(data, min, max)
-	case arrow.INT64:
-		min, max := getSafeMinMaxSigned[int64](target)
-		return intsInRange(data, min, max)
-	case arrow.UINT64:
-		min, max := getSafeMinMaxUnsigned[uint64](target)
-		return intsInRange(data, min, max)
-	default:
-		return fmt.Errorf("%w: invalid type for int bounds checking", arrow.ErrInvalid)
-	}
-}
-
-func intsInRange[T arrow.IntType | arrow.UintType](data *exec.ArraySpan, lowerBound, upperBound T) error {
-	if MinOf[T]() >= lowerBound && MaxOf[T]() <= upperBound {
-		return nil
-	}
-
-	isOutOfBounds := func(val T) bool {
-		return val < lowerBound || val > upperBound
-	}
-	isOutOfBoundsMaybeNull := func(val T, isValid bool) bool {
-		return isValid && (val < lowerBound || val > upperBound)
-	}
-	getError := func(val T) error {
-		return fmt.Errorf("%w: integer value %d not in range: %d to %d",
-			arrow.ErrInvalid, val, lowerBound, upperBound)
-	}
-
-	values := exec.GetSpanValues[T](data, 1)
-	bitmap := data.Buffers[0].Buf
-
-	bitCounter := bitutils.NewOptionalBitBlockCounter(bitmap, data.Offset, data.Len)
-	pos, offsetPos := 0, data.Offset
-	for pos < int(data.Len) {
-		block := bitCounter.NextBlock()
-		outOfBounds := false
-
-		if block.Popcnt == block.Len {
-			// fast path: branchless
-			i := 0
-			for chunk := 0; chunk < int(block.Len)/8; chunk++ {
-				for j := 0; j < 8; j++ {
-					outOfBounds = outOfBounds || isOutOfBounds(values[i])
-					i++
-				}
-			}
-			for ; i < int(block.Len); i++ {
-				outOfBounds = outOfBounds || isOutOfBounds(values[i])
-			}
-		} else if block.Popcnt > 0 {
-			// values may be null, only bounds check non-null vals
-			i := 0
-			for chunk := 0; chunk < int(block.Len)/8; chunk++ {
-				for j := 0; j < 8; j++ {
-					outOfBounds = outOfBounds || isOutOfBoundsMaybeNull(
-						values[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i))
-					i++
-				}
-			}
-			for ; i < int(block.Len); i++ {
-				outOfBounds = outOfBounds || isOutOfBoundsMaybeNull(
-					values[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i))
-			}
-		}
-		if outOfBounds {
-			if data.Nulls > 0 {
-				for i := 0; i < int(block.Len); i++ {
-					if isOutOfBoundsMaybeNull(values[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i)) {
-						return getError(values[i])
-					}
-				}
-			} else {
-				for i := 0; i < int(block.Len); i++ {
-					if isOutOfBounds(values[i]) {
-						return getError(values[i])
-					}
-				}
-			}
-		}
-
-		values = values[block.Len:]
-		pos += int(block.Len)
-		offsetPos += int64(block.Len)
-	}
-	return nil
-}
-
-type numeric interface {
-	arrow.IntType | arrow.UintType | constraints.Float
-}
-
-func memCpySpan[T numeric](in, out *exec.ArraySpan) {
-	inData := exec.GetSpanValues[T](in, 1)
-	outData := exec.GetSpanValues[T](out, 1)
-	copy(outData, inData)
-}
-
-func castNumberMemCpy(in, out *exec.ArraySpan) {
-	switch in.Type.ID() {
-	case arrow.INT8:
-		memCpySpan[int8](in, out)
-	case arrow.UINT8:
-		memCpySpan[uint8](in, out)
-	case arrow.INT16:
-		memCpySpan[int16](in, out)
-	case arrow.UINT16:
-		memCpySpan[uint16](in, out)
-	case arrow.INT32:
-		memCpySpan[int32](in, out)
-	case arrow.UINT32:
-		memCpySpan[uint32](in, out)
-	case arrow.INT64:
-		memCpySpan[int64](in, out)
-	case arrow.UINT64:
-		memCpySpan[uint64](in, out)
-	case arrow.FLOAT32:
-		memCpySpan[float32](in, out)
-	case arrow.FLOAT64:
-		memCpySpan[float64](in, out)
-	}
-}
-
-func castNumberToNumberUnsafe(in, out *exec.ArraySpan) {
-	if in.Type.ID() == out.Type.ID() {
-		castNumberMemCpy(in, out)
-		return
-	}
-
-	inputOffset := in.Type.(arrow.FixedWidthDataType).Bytes() * int(in.Offset)
-	outputOffset := out.Type.(arrow.FixedWidthDataType).Bytes() * int(out.Offset)
-	castNumericUnsafe(in.Type.ID(), out.Type.ID(), in.Buffers[1].Buf[inputOffset:], out.Buffers[1].Buf[outputOffset:], int(in.Len))
-}
-
-func MaxDecimalDigitsForInt(id arrow.Type) (int32, error) {
-	switch id {
-	case arrow.INT8, arrow.UINT8:
-		return 3, nil
-	case arrow.INT16, arrow.UINT16:
-		return 5, nil
-	case arrow.INT32, arrow.UINT32:
-		return 10, nil
-	case arrow.INT64:
-		return 19, nil
-	case arrow.UINT64:
-		return 20, nil
-	}
-	return -1, fmt.Errorf("%w: not an integer type: %s", arrow.ErrInvalid, id)
-}
-
-func ResolveOutputFromOptions(ctx *exec.KernelCtx, _ []arrow.DataType) (arrow.DataType, error) {
-	opts := ctx.State.(CastState)
-	return opts.ToType, nil
-}
-
-var OutputTargetType = exec.NewComputedOutputType(ResolveOutputFromOptions)
-
-var OutputFirstType = exec.NewComputedOutputType(func(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-	return args[0], nil
-})
-
-var OutputLastType = exec.NewComputedOutputType(func(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-	return args[len(args)-1], nil
-})
-
-func resolveDecimalBinaryOpOutput(types []arrow.DataType, resolver func(prec1, scale1, prec2, scale2 int32) (prec, scale int32)) (arrow.DataType, error) {
-	leftType, rightType := types[0].(arrow.DecimalType), types[1].(arrow.DecimalType)
-	debug.Assert(leftType.ID() == rightType.ID(), "decimal binary ops should have casted to the same type")
-
-	prec, scale := resolver(leftType.GetPrecision(), leftType.GetScale(),
-		rightType.GetPrecision(), rightType.GetScale())
-
-	return arrow.NewDecimalType(leftType.ID(), prec, scale)
-}
-
-func resolveDecimalAddOrSubtractType(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-	return resolveDecimalBinaryOpOutput(args,
-		func(prec1, scale1, prec2, scale2 int32) (prec int32, scale int32) {
-			debug.Assert(scale1 == scale2, "decimal operations should use the same scale")
-			scale = scale1
-			prec = exec.Max(prec1-scale1, prec2-scale2) + scale + 1
-			return
-		})
-}
-
-func resolveDecimalMultiplyOutput(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-	return resolveDecimalBinaryOpOutput(args,
-		func(prec1, scale1, prec2, scale2 int32) (prec int32, scale int32) {
-			scale = scale1 + scale2
-			prec = prec1 + prec2 + 1
-			return
-		})
-}
-
-func resolveDecimalDivideOutput(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-	return resolveDecimalBinaryOpOutput(args,
-		func(prec1, scale1, prec2, scale2 int32) (prec int32, scale int32) {
-			debug.Assert(scale1 >= scale2, "when dividing decimal values numerator scale should be greater/equal to denom scale")
-			scale = scale1 - scale2
-			prec = prec1
-			return
-		})
-}
-
-func resolveTemporalOutput(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
-	debug.Assert(args[0].ID() == args[1].ID(), "should only be used on the same types")
-	leftType, rightType := args[0].(*arrow.TimestampType), args[1].(*arrow.TimestampType)
-	debug.Assert(leftType.Unit == rightType.Unit, "should match units")
-
-	if (leftType.TimeZone == "" || rightType.TimeZone == "") && (leftType.TimeZone != rightType.TimeZone) {
-		return nil, fmt.Errorf("%w: subtraction of zoned and non-zoned times is ambiguous (%s, %s)",
-			arrow.ErrInvalid, leftType.TimeZone, rightType.TimeZone)
-	}
-
-	return &arrow.DurationType{Unit: rightType.Unit}, nil
-}
-
-var OutputResolveTemporal = exec.NewComputedOutputType(resolveTemporalOutput)
-
-type validityBuilder struct {
-	mem    memory.Allocator
-	buffer *memory.Buffer
-
-	data       []byte
-	bitLength  int
-	falseCount int
-}
-
-func (v *validityBuilder) Resize(n int64) {
-	if v.buffer == nil {
-		v.buffer = memory.NewResizableBuffer(v.mem)
-	}
-
-	v.buffer.ResizeNoShrink(int(bitutil.BytesForBits(n)))
-	v.data = v.buffer.Bytes()
-}
-
-func (v *validityBuilder) Reserve(n int64) {
-	if v.buffer == nil {
-		v.buffer = memory.NewResizableBuffer(v.mem)
-	}
-
-	v.buffer.Reserve(v.buffer.Cap() + int(bitutil.BytesForBits(n)))
-	v.data = v.buffer.Buf()
-}
-
-func (v *validityBuilder) UnsafeAppend(val bool) {
-	bitutil.SetBitTo(v.data, v.bitLength, val)
-	if !val {
-		v.falseCount++
-	}
-	v.bitLength++
-}
-
-func (v *validityBuilder) UnsafeAppendN(n int64, val bool) {
-	bitutil.SetBitsTo(v.data, int64(v.bitLength), n, val)
-	if !val {
-		v.falseCount += int(n)
-	}
-	v.bitLength += int(n)
-}
-
-func (v *validityBuilder) Append(val bool) {
-	v.Reserve(1)
-	v.UnsafeAppend(val)
-}
-
-func (v *validityBuilder) AppendN(n int64, val bool) {
-	v.Reserve(n)
-	v.UnsafeAppendN(n, val)
-}
-
-func (v *validityBuilder) Finish() (buf *memory.Buffer) {
-	if v.bitLength > 0 {
-		v.buffer.Resize(int(bitutil.BytesForBits(int64(v.bitLength))))
-	}
-
-	v.bitLength, v.falseCount = 0, 0
-	buf = v.buffer
-	v.buffer = nil
-	return
-}
-
-type execBufBuilder struct {
-	mem    memory.Allocator
-	buffer *memory.Buffer
-	data   []byte
-	sz     int
-}
-
-func (bldr *execBufBuilder) reserve(additional int) {
-	if bldr.buffer == nil {
-		bldr.buffer = memory.NewResizableBuffer(bldr.mem)
-	}
-
-	mincap := bldr.sz + additional
-	if mincap <= cap(bldr.data) {
-		return
-	}
-	bldr.buffer.ResizeNoShrink(mincap)
-	bldr.data = bldr.buffer.Buf()
-}
-
-func (bldr *execBufBuilder) unsafeAppend(data []byte) {
-	copy(bldr.data[bldr.sz:], data)
-	bldr.sz += len(data)
-}
-
-func (bldr *execBufBuilder) finish() (buf *memory.Buffer) {
-	if bldr.buffer == nil {
-		buf = memory.NewBufferBytes(nil)
-		return
-	}
-	bldr.buffer.Resize(bldr.sz)
-	buf = bldr.buffer
-	bldr.buffer, bldr.sz = nil, 0
-	return
-}
-
-type bufferBuilder[T arrow.FixedWidthType] struct {
-	execBufBuilder
-	zero T
-}
-
-func newBufferBuilder[T arrow.FixedWidthType](mem memory.Allocator) *bufferBuilder[T] {
-	return &bufferBuilder[T]{
-		execBufBuilder: execBufBuilder{
-			mem: mem,
-		},
-	}
-}
-
-func (b *bufferBuilder[T]) reserve(additional int) {
-	b.execBufBuilder.reserve(additional * int(unsafe.Sizeof(b.zero)))
-}
-
-func (b *bufferBuilder[T]) unsafeAppend(value T) {
-	b.execBufBuilder.unsafeAppend(arrow.GetBytes([]T{value}))
-}
-
-func (b *bufferBuilder[T]) unsafeAppendSlice(values []T) {
-	b.execBufBuilder.unsafeAppend(arrow.GetBytes(values))
-}
-
-func (b *bufferBuilder[T]) len() int { return b.sz / int(unsafe.Sizeof(b.zero)) }
-
-func (b *bufferBuilder[T]) cap() int {
-	return cap(b.data) / int(unsafe.Sizeof(b.zero))
-}
-
-func checkIndexBoundsImpl[T arrow.IntType | arrow.UintType](values *exec.ArraySpan, upperLimit uint64) error {
-	// for unsigned integers, if the values array is larger
-	// than the maximum index value, then there's no need to bounds check
-	isSigned := !arrow.IsUnsignedInteger(values.Type.ID())
-	if !isSigned && upperLimit > uint64(MaxOf[T]()) {
-		return nil
-	}
-
-	valuesData := exec.GetSpanValues[T](values, 1)
-	bitmap := values.Buffers[0].Buf
-	isOutOfBounds := func(val T) bool {
-		return ((isSigned && val < 0) || val >= 0 && uint64(val) >= upperLimit)
-	}
-	return bitutils.VisitSetBitRuns(bitmap, values.Offset, values.Len,
-		func(pos, length int64) error {
-			outOfBounds := false
-			for i := int64(0); i < length; i++ {
-				outOfBounds = outOfBounds || isOutOfBounds(valuesData[pos+i])
-			}
-			if outOfBounds {
-				for i := int64(0); i < length; i++ {
-					if isOutOfBounds(valuesData[pos+i]) {
-						return fmt.Errorf("%w: %d out of bounds",
-							arrow.ErrIndex, valuesData[pos+i])
-					}
-				}
-			}
-			return nil
-		})
-}
-
-func checkIndexBounds(values *exec.ArraySpan, upperLimit uint64) error {
-	switch values.Type.ID() {
-	case arrow.INT8:
-		return checkIndexBoundsImpl[int8](values, upperLimit)
-	case arrow.UINT8:
-		return checkIndexBoundsImpl[uint8](values, upperLimit)
-	case arrow.INT16:
-		return checkIndexBoundsImpl[int16](values, upperLimit)
-	case arrow.UINT16:
-		return checkIndexBoundsImpl[uint16](values, upperLimit)
-	case arrow.INT32:
-		return checkIndexBoundsImpl[int32](values, upperLimit)
-	case arrow.UINT32:
-		return checkIndexBoundsImpl[uint32](values, upperLimit)
-	case arrow.INT64:
-		return checkIndexBoundsImpl[int64](values, upperLimit)
-	case arrow.UINT64:
-		return checkIndexBoundsImpl[uint64](values, upperLimit)
-	default:
-		return fmt.Errorf("%w: invalid index type for bounds checking", arrow.ErrInvalid)
-	}
-}
-
-func checkIndexBoundsChunked(values *arrow.Chunked, upperLimit uint64) error {
-	var span exec.ArraySpan
-	for _, v := range values.Chunks() {
-		span.SetMembers(v.Data())
-		if err := checkIndexBounds(&span, upperLimit); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func packBits(vals [32]uint32, out []byte) {
-	const batchSize = 32
-	for i := 0; i < batchSize; i += 8 {
-		out[0] = byte(vals[i] | vals[i+1]<<1 | vals[i+2]<<2 | vals[i+3]<<3 |
-			vals[i+4]<<4 | vals[i+5]<<5 | vals[i+6]<<6 | vals[i+7]<<7)
-		out = out[1:]
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/numeric_cast.go b/go/arrow/compute/internal/kernels/numeric_cast.go
deleted file mode 100644
index ca3a9937594aa..0000000000000
--- a/go/arrow/compute/internal/kernels/numeric_cast.go
+++ /dev/null
@@ -1,866 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"strconv"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"golang.org/x/exp/constraints"
-)
-
-func CastIntToInt(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(CastOptions)
-	if !opts.AllowIntOverflow {
-		if err := intsCanFit(&batch.Values[0].Array, out.Type.ID()); err != nil {
-			return err
-		}
-	}
-	castNumberToNumberUnsafe(&batch.Values[0].Array, out)
-	return nil
-}
-
-func CastFloatingToFloating(_ *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	castNumberToNumberUnsafe(&batch.Values[0].Array, out)
-	return nil
-}
-
-func CastFloatingToInteger(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(CastOptions)
-	castNumberToNumberUnsafe(&batch.Values[0].Array, out)
-	if !opts.AllowFloatTruncate {
-		return checkFloatToIntTrunc(&batch.Values[0].Array, out)
-	}
-	return nil
-}
-
-func CastIntegerToFloating(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(CastOptions)
-	if !opts.AllowFloatTruncate {
-		if err := checkIntToFloatTrunc(&batch.Values[0].Array, out.Type.ID()); err != nil {
-			return err
-		}
-	}
-	castNumberToNumberUnsafe(&batch.Values[0].Array, out)
-	return nil
-}
-
-type decimal[T decimal128.Num | decimal256.Num] interface {
-	Less(T) bool
-	GreaterEqual(T) bool
-	LowBits() uint64
-}
-
-func decimalToIntImpl[InT decimal128.Num | decimal256.Num, OutT arrow.IntType | arrow.UintType](allowOverflow bool, min, max InT, v decimal[InT], err *error) OutT {
-	if !allowOverflow && (v.Less(min) || v.GreaterEqual(max)) {
-		debug.Log("integer value out of bounds from decimal")
-		*err = fmt.Errorf("%w: integer value out of bounds", arrow.ErrInvalid)
-		return OutT(0)
-	}
-	return OutT(v.LowBits())
-}
-
-func CastDecimal256ToInteger[T arrow.IntType | arrow.UintType](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		opts       = ctx.State.(CastState)
-		inputType  = batch.Values[0].Type().(*arrow.Decimal256Type)
-		inScale    = inputType.Scale
-		ex         exec.ArrayKernelExec
-		minLowBits = uint64(MinOf[T]())
-		minHiBits  int64
-		max        = decimal256.FromU64(uint64(MaxOf[T]()))
-	)
-
-	if MinOf[T]() < 0 {
-		minHiBits = -1
-	}
-	min := decimal256.New(uint64(minHiBits), uint64(minHiBits), uint64(minHiBits), minLowBits)
-	if opts.AllowDecimalTruncate {
-		if inScale < 0 {
-			ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) T {
-				v := val.IncreaseScaleBy(-inScale)
-				return decimalToIntImpl[decimal256.Num, T](opts.AllowIntOverflow, min, max, v, err)
-			})
-		} else {
-			ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) T {
-				v := val.ReduceScaleBy(inScale, true)
-				return decimalToIntImpl[decimal256.Num, T](opts.AllowIntOverflow, min, max, v, err)
-			})
-		}
-	} else {
-		ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) T {
-			v, e := val.Rescale(inScale, 0)
-			if e != nil {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-				return T(0)
-			}
-			return decimalToIntImpl[decimal256.Num, T](opts.AllowIntOverflow, min, max, v, err)
-		})
-	}
-
-	return ex(ctx, batch, out)
-}
-
-func CastDecimal128ToInteger[T arrow.IntType | arrow.UintType](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		opts       = ctx.State.(CastState)
-		inputType  = batch.Values[0].Type().(*arrow.Decimal128Type)
-		inScale    = inputType.Scale
-		ex         exec.ArrayKernelExec
-		minLowBits = uint64(MinOf[T]())
-		minHiBits  int64
-		max        = decimal128.FromU64(uint64(MaxOf[T]()))
-	)
-
-	if MinOf[T]() < 0 {
-		minHiBits = -1
-	}
-	min := decimal128.New(minHiBits, minLowBits)
-	if opts.AllowDecimalTruncate {
-		if inScale < 0 {
-			ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) T {
-				v := val.IncreaseScaleBy(-inScale)
-				return decimalToIntImpl[decimal128.Num, T](opts.AllowIntOverflow, min, max, v, err)
-			})
-		} else {
-			ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) T {
-				v := val.ReduceScaleBy(inScale, true)
-				return decimalToIntImpl[decimal128.Num, T](opts.AllowIntOverflow, min, max, v, err)
-			})
-		}
-	} else {
-		ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) T {
-			v, e := val.Rescale(inScale, 0)
-			if e != nil {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-				return T(0)
-			}
-			return decimalToIntImpl[decimal128.Num, T](opts.AllowIntOverflow, min, max, v, err)
-		})
-	}
-
-	return ex(ctx, batch, out)
-}
-
-func integerToDecimal128[T arrow.IntType | arrow.UintType](inType arrow.Type, outScale int32) exec.ArrayKernelExec {
-	var getDecimal func(v T) decimal128.Num
-	switch inType {
-	case arrow.UINT8, arrow.UINT16, arrow.UINT32, arrow.UINT64:
-		getDecimal = func(v T) decimal128.Num { return decimal128.FromU64(uint64(v)) }
-	default:
-		getDecimal = func(v T) decimal128.Num { return decimal128.FromI64(int64(v)) }
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val T, err *error) decimal128.Num {
-		out, e := getDecimal(val).Rescale(0, outScale)
-		if e != nil {
-			*err = e
-		}
-		return out
-	})
-}
-
-func integerToDecimal256[T arrow.IntType | arrow.UintType](inType arrow.Type, outScale int32) exec.ArrayKernelExec {
-	var getDecimal func(v T) decimal256.Num
-	switch inType {
-	case arrow.UINT8, arrow.UINT16, arrow.UINT32, arrow.UINT64:
-		getDecimal = func(v T) decimal256.Num { return decimal256.FromU64(uint64(v)) }
-	default:
-		getDecimal = func(v T) decimal256.Num { return decimal256.FromI64(int64(v)) }
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val T, err *error) decimal256.Num {
-		out, e := getDecimal(val).Rescale(0, outScale)
-		if e != nil {
-			*err = e
-		}
-		return out
-	})
-}
-
-func CastIntegerToDecimal[OutT decimal128.Num | decimal256.Num, Arg0 arrow.IntType | arrow.UintType](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		precision, scale int32
-		executor         exec.ArrayKernelExec
-	)
-	switch dt := out.Type.(type) {
-	case *arrow.Decimal128Type:
-		precision = dt.Precision
-		scale = dt.Scale
-		executor = integerToDecimal128[Arg0](batch.Values[0].Array.Type.ID(), scale)
-	case *arrow.Decimal256Type:
-		precision = dt.Precision
-		scale = dt.Scale
-		executor = integerToDecimal256[Arg0](batch.Values[0].Array.Type.ID(), scale)
-	}
-
-	if scale < 0 {
-		return fmt.Errorf("%w: scale must be non-negative", arrow.ErrInvalid)
-	}
-
-	minPrecision, err := MaxDecimalDigitsForInt(batch.Values[0].Type().ID())
-	if err != nil {
-		return err
-	}
-
-	minPrecision += scale
-	if precision < minPrecision {
-		return fmt.Errorf("%w: precision is not great enough for result. It should be at least %d",
-			arrow.ErrInvalid, minPrecision)
-	}
-
-	return executor(ctx, batch, out)
-}
-
-func getCastIntToDecimal[T decimal128.Num | decimal256.Num](inType arrow.Type) exec.ArrayKernelExec {
-	switch inType {
-	case arrow.UINT8:
-		return CastIntegerToDecimal[T, uint8]
-	case arrow.INT8:
-		return CastIntegerToDecimal[T, int8]
-	case arrow.UINT16:
-		return CastIntegerToDecimal[T, uint16]
-	case arrow.INT16:
-		return CastIntegerToDecimal[T, int16]
-	case arrow.UINT32:
-		return CastIntegerToDecimal[T, uint32]
-	case arrow.INT32:
-		return CastIntegerToDecimal[T, int32]
-	case arrow.UINT64:
-		return CastIntegerToDecimal[T, uint64]
-	case arrow.INT64:
-		return CastIntegerToDecimal[T, int64]
-	}
-	debug.Assert(false, "invalid integer type")
-	return nil
-}
-
-func unsafeUpscaleDecimal256Out(inputType arrow.Type, by int32) exec.ArrayKernelExec {
-	if inputType == arrow.DECIMAL128 {
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal256.Num {
-			return decimal256.FromDecimal128(val).IncreaseScaleBy(by)
-		})
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal256.Num {
-		return val.IncreaseScaleBy(by)
-	})
-}
-
-func unsafeUpscaleDecimal128Out(inputType arrow.Type, by int32) exec.ArrayKernelExec {
-	if inputType == arrow.DECIMAL128 {
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal128.Num {
-			return val.IncreaseScaleBy(by)
-		})
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal128.Num {
-		vals := val.IncreaseScaleBy(by).Array()
-		return decimal128.New(int64(vals[1]), vals[0])
-	})
-}
-
-func unsafeDownscaleDecimal256Out(inputType arrow.Type, by int32) exec.ArrayKernelExec {
-	if inputType == arrow.DECIMAL128 {
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal256.Num {
-			return decimal256.FromDecimal128(val).ReduceScaleBy(by, false)
-		})
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal256.Num {
-		return val.ReduceScaleBy(by, false)
-	})
-}
-
-func unsafeDownscaleDecimal128Out(inputType arrow.Type, by int32) exec.ArrayKernelExec {
-	if inputType == arrow.DECIMAL128 {
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal128.Num {
-			return val.ReduceScaleBy(by, false)
-		})
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal128.Num {
-		vals := val.ReduceScaleBy(by, false).Array()
-		return decimal128.New(int64(vals[1]), vals[0])
-	})
-}
-
-func safeRescaleDecimal256Out(inputType arrow.Type, outScale, outPrecision, inScale int32) exec.ArrayKernelExec {
-	if inputType == arrow.DECIMAL128 {
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal256.Num {
-			out, e := decimal256.FromDecimal128(val).Rescale(inScale, outScale)
-			if e != nil {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, *err)
-				return decimal256.Num{}
-			}
-
-			if out.FitsInPrecision(outPrecision) {
-				return out
-			}
-
-			*err = fmt.Errorf("%w: decimal value does not fit in precision", arrow.ErrInvalid)
-			return decimal256.Num{}
-		})
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal256.Num {
-		out, e := val.Rescale(inScale, outScale)
-		if e != nil {
-			*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, *err)
-			return decimal256.Num{}
-		}
-
-		if out.FitsInPrecision(outPrecision) {
-			return out
-		}
-
-		*err = fmt.Errorf("%w: decimal value does not fit in precision", arrow.ErrInvalid)
-		return decimal256.Num{}
-	})
-}
-
-func safeRescaleDecimal128Out(inputType arrow.Type, outScale, outPrecision, inScale int32) exec.ArrayKernelExec {
-	if inputType == arrow.DECIMAL128 {
-		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal128.Num {
-			out, e := val.Rescale(inScale, outScale)
-			if e != nil {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, *err)
-				return decimal128.Num{}
-			}
-
-			if out.FitsInPrecision(outPrecision) {
-				return out
-			}
-
-			*err = fmt.Errorf("%w: decimal value does not fit in precision", arrow.ErrInvalid)
-			return decimal128.Num{}
-		})
-	}
-	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal128.Num {
-		out, e := val.Rescale(inScale, outScale)
-		if e != nil {
-			*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, *err)
-			return decimal128.Num{}
-		}
-
-		if out.FitsInPrecision(outPrecision) {
-			arr := out.Array()
-			return decimal128.New(int64(arr[1]), arr[0])
-		}
-
-		*err = fmt.Errorf("%w: decimal value does not fit in precision", arrow.ErrInvalid)
-		return decimal128.Num{}
-	})
-}
-
-func CastDecimalToDecimal(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		opts              = ctx.State.(CastState)
-		inType            = batch.Values[0].Type()
-		outType           = out.Type
-		inScale, outScale int32
-		outPrecision      int32
-	)
-
-	switch dt := inType.(type) {
-	case *arrow.Decimal128Type:
-		inScale = dt.Scale
-	case *arrow.Decimal256Type:
-		inScale = dt.Scale
-	}
-
-	switch dt := outType.(type) {
-	case *arrow.Decimal128Type:
-		outScale = dt.Scale
-		outPrecision = dt.Precision
-	case *arrow.Decimal256Type:
-		outScale = dt.Scale
-		outPrecision = dt.Precision
-	}
-
-	if opts.AllowDecimalTruncate {
-		if inScale < outScale {
-			// unsafe upscale
-			if outType.ID() == arrow.DECIMAL128 {
-				ex := unsafeUpscaleDecimal128Out(inType.ID(), outScale-inScale)
-				return ex(ctx, batch, out)
-			}
-			ex := unsafeUpscaleDecimal256Out(inType.ID(), outScale-inScale)
-			return ex(ctx, batch, out)
-		} else {
-			// unsafe downscale
-			if outType.ID() == arrow.DECIMAL128 {
-				ex := unsafeDownscaleDecimal128Out(inType.ID(), inScale-outScale)
-				return ex(ctx, batch, out)
-			}
-			ex := unsafeDownscaleDecimal256Out(inType.ID(), inScale-outScale)
-			return ex(ctx, batch, out)
-		}
-	}
-
-	// safe rescale
-	if outType.ID() == arrow.DECIMAL128 {
-		ex := safeRescaleDecimal128Out(inType.ID(), outScale, outPrecision, inScale)
-		return ex(ctx, batch, out)
-	}
-	ex := safeRescaleDecimal256Out(inType.ID(), outScale, outPrecision, inScale)
-	return ex(ctx, batch, out)
-}
-
-func CastFloat32ToDecimal(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		prec, scale int32
-		allowTrunc  bool
-		executor    exec.ArrayKernelExec
-		opts        = ctx.State.(CastState)
-	)
-
-	allowTrunc = opts.AllowDecimalTruncate
-	switch dt := out.Type.(type) {
-	case *arrow.Decimal128Type:
-		prec, scale = dt.Precision, dt.Scale
-		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v float32, err *error) decimal128.Num {
-			out, e := decimal128.FromFloat32(v, prec, scale)
-			if e == nil {
-				return out
-			}
-
-			if !allowTrunc {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-			}
-			return decimal128.Num{}
-		})
-	case *arrow.Decimal256Type:
-		prec, scale = dt.Precision, dt.Scale
-		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v float32, err *error) decimal256.Num {
-			out, e := decimal256.FromFloat32(v, prec, scale)
-			if e == nil {
-				return out
-			}
-
-			if !allowTrunc {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-			}
-			return decimal256.Num{}
-		})
-	}
-
-	return executor(ctx, batch, out)
-}
-
-func CastFloat64ToDecimal(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		prec, scale int32
-		allowTrunc  bool
-		executor    exec.ArrayKernelExec
-		opts        = ctx.State.(CastState)
-	)
-
-	allowTrunc = opts.AllowDecimalTruncate
-	switch dt := out.Type.(type) {
-	case *arrow.Decimal128Type:
-		prec, scale = dt.Precision, dt.Scale
-		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v float64, err *error) decimal128.Num {
-			out, e := decimal128.FromFloat64(v, prec, scale)
-			if e == nil {
-				return out
-			}
-
-			if !allowTrunc {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-			}
-			return decimal128.Num{}
-		})
-	case *arrow.Decimal256Type:
-		prec, scale = dt.Precision, dt.Scale
-		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v float64, err *error) decimal256.Num {
-			out, e := decimal256.FromFloat64(v, prec, scale)
-			if e == nil {
-				return out
-			}
-
-			if !allowTrunc {
-				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-			}
-			return decimal256.Num{}
-		})
-	}
-
-	return executor(ctx, batch, out)
-}
-
-func CastDecimalToFloating[OutT constraints.Float](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		executor exec.ArrayKernelExec
-	)
-
-	switch dt := batch.Values[0].Array.Type.(type) {
-	case *arrow.Decimal128Type:
-		scale := dt.Scale
-		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v decimal128.Num, err *error) OutT {
-			return OutT(v.ToFloat64(scale))
-		})
-	case *arrow.Decimal256Type:
-		scale := dt.Scale
-		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v decimal256.Num, err *error) OutT {
-			return OutT(v.ToFloat64(scale))
-		})
-	}
-
-	return executor(ctx, batch, out)
-}
-
-func boolToNum[T numeric](_ *exec.KernelCtx, in []byte, out []T) error {
-	var (
-		zero T
-		one  = T(1)
-	)
-
-	for i := range out {
-		if bitutil.BitIsSet(in, i) {
-			out[i] = one
-		} else {
-			out[i] = zero
-		}
-	}
-	return nil
-}
-
-func checkFloatTrunc[InT constraints.Float, OutT arrow.IntType | arrow.UintType](in, out *exec.ArraySpan) error {
-	wasTrunc := func(out OutT, in InT) bool {
-		return InT(out) != in
-	}
-	wasTruncMaybeNull := func(out OutT, in InT, isValid bool) bool {
-		return isValid && (InT(out) != in)
-	}
-	getError := func(val InT) error {
-		return fmt.Errorf("%w: float value %f was truncated converting to %s",
-			arrow.ErrInvalid, val, out.Type)
-	}
-
-	inData := exec.GetSpanValues[InT](in, 1)
-	outData := exec.GetSpanValues[OutT](out, 1)
-
-	bitmap := in.Buffers[0].Buf
-	bitCounter := bitutils.NewOptionalBitBlockCounter(bitmap, in.Offset, in.Len)
-	pos, offsetPos := int64(0), int64(0)
-	for pos < in.Len {
-		block := bitCounter.NextBlock()
-		outOfBounds := false
-		if block.Popcnt == block.Len {
-			// fast path: branchless
-			for i := 0; i < int(block.Len); i++ {
-				outOfBounds = outOfBounds || wasTrunc(outData[i], inData[i])
-			}
-		} else if block.Popcnt > 0 {
-			// must only bounds check non-null
-			for i := 0; i < int(block.Len); i++ {
-				outOfBounds = outOfBounds || wasTruncMaybeNull(outData[i], inData[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i))
-			}
-		}
-		if outOfBounds {
-			if in.Nulls > 0 {
-				for i := 0; i < int(block.Len); i++ {
-					if wasTruncMaybeNull(outData[i], inData[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i)) {
-						return getError(inData[i])
-					}
-				}
-			} else {
-				for i := 0; i < int(block.Len); i++ {
-					if wasTrunc(outData[i], inData[i]) {
-						return getError(inData[i])
-					}
-				}
-			}
-		}
-		inData = inData[block.Len:]
-		outData = outData[block.Len:]
-		pos += int64(block.Len)
-		offsetPos += int64(block.Len)
-	}
-	return nil
-}
-
-func checkFloatToIntTruncImpl[T constraints.Float](in, out *exec.ArraySpan) error {
-	switch out.Type.ID() {
-	case arrow.INT8:
-		return checkFloatTrunc[T, int8](in, out)
-	case arrow.UINT8:
-		return checkFloatTrunc[T, uint8](in, out)
-	case arrow.INT16:
-		return checkFloatTrunc[T, int16](in, out)
-	case arrow.UINT16:
-		return checkFloatTrunc[T, uint16](in, out)
-	case arrow.INT32:
-		return checkFloatTrunc[T, int32](in, out)
-	case arrow.UINT32:
-		return checkFloatTrunc[T, uint32](in, out)
-	case arrow.INT64:
-		return checkFloatTrunc[T, int64](in, out)
-	case arrow.UINT64:
-		return checkFloatTrunc[T, uint64](in, out)
-	}
-	debug.Assert(false, "float to int truncation only for integer output")
-	return nil
-}
-
-func checkFloatToIntTrunc(in, out *exec.ArraySpan) error {
-	switch in.Type.ID() {
-	case arrow.FLOAT32:
-		return checkFloatToIntTruncImpl[float32](in, out)
-	case arrow.FLOAT64:
-		return checkFloatToIntTruncImpl[float64](in, out)
-	}
-	debug.Assert(false, "float to int truncation only for float32 and float64")
-	return nil
-}
-
-func checkIntToFloatTrunc(in *exec.ArraySpan, outType arrow.Type) error {
-	switch in.Type.ID() {
-	case arrow.INT8, arrow.INT16, arrow.UINT8, arrow.UINT16:
-		// small integers are all exactly representable as whole numbers
-		return nil
-	case arrow.INT32:
-		if outType == arrow.FLOAT64 {
-			return nil
-		}
-		const limit = int32(1 << 24)
-		return intsInRange(in, -limit, limit)
-	case arrow.UINT32:
-		if outType == arrow.FLOAT64 {
-			return nil
-		}
-		return intsInRange(in, 0, uint32(1<<24))
-	case arrow.INT64:
-		if outType == arrow.FLOAT32 {
-			const limit = int64(1 << 24)
-			return intsInRange(in, -limit, limit)
-		}
-		const limit = int64(1 << 53)
-		return intsInRange(in, -limit, limit)
-	case arrow.UINT64:
-		if outType == arrow.FLOAT32 {
-			return intsInRange(in, 0, uint64(1<<24))
-		}
-		return intsInRange(in, 0, uint64(1<<53))
-	}
-	debug.Assert(false, "intToFloatTrunc should only be called with int input")
-	return nil
-}
-
-func parseStringToNumberImpl[T arrow.IntType | arrow.UintType | arrow.FloatType, OffsetT int32 | int64](parseFn func(string) (T, error)) exec.ArrayKernelExec {
-	return ScalarUnaryNotNullBinaryArg[T, OffsetT](func(_ *exec.KernelCtx, in []byte, err *error) T {
-		st := *(*string)(unsafe.Pointer(&in))
-		v, e := parseFn(st)
-		if e != nil {
-			*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
-		}
-		return v
-	})
-}
-
-func getParseStringExec[OffsetT int32 | int64](out arrow.Type) exec.ArrayKernelExec {
-	switch out {
-	case arrow.INT8:
-		return parseStringToNumberImpl[int8, OffsetT](func(s string) (int8, error) {
-			v, err := strconv.ParseInt(s, 0, 8)
-			return int8(v), err
-		})
-	case arrow.UINT8:
-		return parseStringToNumberImpl[uint8, OffsetT](func(s string) (uint8, error) {
-			v, err := strconv.ParseUint(s, 0, 8)
-			return uint8(v), err
-		})
-	case arrow.INT16:
-		return parseStringToNumberImpl[int16, OffsetT](func(s string) (int16, error) {
-			v, err := strconv.ParseInt(s, 0, 16)
-			return int16(v), err
-		})
-	case arrow.UINT16:
-		return parseStringToNumberImpl[uint16, OffsetT](func(s string) (uint16, error) {
-			v, err := strconv.ParseUint(s, 0, 16)
-			return uint16(v), err
-		})
-	case arrow.INT32:
-		return parseStringToNumberImpl[int32, OffsetT](func(s string) (int32, error) {
-			v, err := strconv.ParseInt(s, 0, 32)
-			return int32(v), err
-		})
-	case arrow.UINT32:
-		return parseStringToNumberImpl[uint32, OffsetT](func(s string) (uint32, error) {
-			v, err := strconv.ParseUint(s, 0, 32)
-			return uint32(v), err
-		})
-	case arrow.INT64:
-		return parseStringToNumberImpl[int64, OffsetT](func(s string) (int64, error) {
-			return strconv.ParseInt(s, 0, 64)
-		})
-	case arrow.UINT64:
-		return parseStringToNumberImpl[uint64, OffsetT](func(s string) (uint64, error) {
-			return strconv.ParseUint(s, 0, 64)
-		})
-	case arrow.FLOAT32:
-		return parseStringToNumberImpl[float32, OffsetT](func(s string) (float32, error) {
-			v, err := strconv.ParseFloat(s, 32)
-			return float32(v), err
-		})
-	case arrow.FLOAT64:
-		return parseStringToNumberImpl[float64, OffsetT](func(s string) (float64, error) {
-			return strconv.ParseFloat(s, 64)
-		})
-	}
-	panic("invalid type for getParseStringExec")
-}
-
-func addCommonNumberCasts[T numeric](outTy arrow.DataType, kernels []exec.ScalarKernel) []exec.ScalarKernel {
-	kernels = append(kernels, GetCommonCastKernels(outTy.ID(), exec.NewOutputType(outTy))...)
-
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.FixedWidthTypes.Boolean)},
-		exec.NewOutputType(outTy), ScalarUnaryBoolArg(boolToNum[T]), nil))
-
-	for _, inTy := range []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.String} {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, exec.NewOutputType(outTy),
-			getParseStringExec[int32](outTy.ID()), nil))
-	}
-	for _, inTy := range []arrow.DataType{arrow.BinaryTypes.LargeBinary, arrow.BinaryTypes.LargeString} {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, exec.NewOutputType(outTy),
-			getParseStringExec[int64](outTy.ID()), nil))
-	}
-	return kernels
-}
-
-func GetCastToInteger[T arrow.IntType | arrow.UintType](outType arrow.DataType) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-
-	output := exec.NewOutputType(outType)
-	for _, inTy := range intTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, output,
-			CastIntToInt, nil))
-	}
-
-	for _, inTy := range floatingTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, output,
-			CastFloatingToInteger, nil))
-	}
-
-	kernels = addCommonNumberCasts[T](outType, kernels)
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)}, output,
-		CastDecimal128ToInteger[T], nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)}, output,
-		CastDecimal256ToInteger[T], nil))
-	return kernels
-}
-
-func GetCastToFloating[T constraints.Float](outType arrow.DataType) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-
-	output := exec.NewOutputType(outType)
-	for _, inTy := range intTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, output,
-			CastIntegerToFloating, nil))
-	}
-
-	for _, inTy := range floatingTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, output,
-			CastFloatingToFloating, nil))
-	}
-
-	kernels = addCommonNumberCasts[T](outType, kernels)
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)}, output,
-		CastDecimalToFloating[T], nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)}, output,
-		CastDecimalToFloating[T], nil))
-	return kernels
-}
-
-func resolveOutputFromOptions(ctx *exec.KernelCtx, _ []arrow.DataType) (arrow.DataType, error) {
-	return ctx.State.(CastState).ToType, nil
-}
-
-func GetCastToDecimal128() []exec.ScalarKernel {
-	outputType := exec.NewComputedOutputType(resolveOutputFromOptions)
-
-	kernels := make([]exec.ScalarKernel, 0)
-	kernels = append(kernels, GetCommonCastKernels(arrow.DECIMAL128, outputType)...)
-
-	// cast from floating point
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Float32)},
-		outputType, CastFloat32ToDecimal, nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Float64)},
-		outputType, CastFloat64ToDecimal, nil))
-
-	// cast from integer
-	for _, inTy := range intTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, outputType,
-			getCastIntToDecimal[decimal128.Num](inTy.ID()), nil))
-	}
-
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)}, outputType,
-		CastDecimalToDecimal, nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)}, outputType,
-		CastDecimalToDecimal, nil))
-	return kernels
-}
-
-func GetCastToDecimal256() []exec.ScalarKernel {
-	outputType := exec.NewComputedOutputType(resolveOutputFromOptions)
-
-	kernels := make([]exec.ScalarKernel, 0)
-	kernels = append(kernels, GetCommonCastKernels(arrow.DECIMAL256, outputType)...)
-
-	// cast from floating point
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Float32)},
-		outputType, CastFloat32ToDecimal, nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Float64)},
-		outputType, CastFloat64ToDecimal, nil))
-
-	// cast from integer
-	for _, inTy := range intTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(inTy)}, outputType,
-			getCastIntToDecimal[decimal256.Num](inTy.ID()), nil))
-	}
-
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)}, outputType,
-		CastDecimalToDecimal, nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)}, outputType,
-		CastDecimalToDecimal, nil))
-	return kernels
-}
diff --git a/go/arrow/compute/internal/kernels/rounding.go b/go/arrow/compute/internal/kernels/rounding.go
deleted file mode 100644
index 1afe76065f4de..0000000000000
--- a/go/arrow/compute/internal/kernels/rounding.go
+++ /dev/null
@@ -1,809 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"golang.org/x/exp/constraints"
-)
-
-//go:generate stringer -type=RoundMode
-
-type RoundMode int8
-
-const (
-	// Round to nearest integer less than or equal in magnitude (aka "floor")
-	RoundDown RoundMode = iota
-	// Round to nearest integer greater than or equal in magnitude (aka "ceil")
-	RoundUp
-	// Get integral part without fractional digits (aka "trunc")
-	TowardsZero
-	// Round negative values with DOWN and positive values with UP
-	AwayFromZero
-	// Round ties with DOWN (aka "round half towards negative infinity")
-	HalfDown
-	// Round ties with UP (aka "round half towards positive infinity")
-	HalfUp
-	// Round ties with TowardsZero (aka "round half away from infinity")
-	HalfTowardsZero
-	// Round ties with AwayFromZero (aka "round half towards infinity")
-	HalfAwayFromZero
-	// Round ties to nearest even integer
-	HalfToEven
-	// Round ties to nearest odd integer
-	HalfToOdd
-)
-
-type RoundOptions struct {
-	NDigits int64
-	Mode    RoundMode
-}
-
-func (RoundOptions) TypeName() string { return "RoundOptions" }
-
-type RoundState struct {
-	RoundOptions
-	Pow10 float64
-}
-
-func InitRoundState(_ *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
-	var rs RoundState
-
-	opts, ok := args.Options.(*RoundOptions)
-	if ok {
-		rs.RoundOptions = *opts
-	} else {
-		if rs.RoundOptions, ok = args.Options.(RoundOptions); !ok {
-			return nil, fmt.Errorf("%w: attempted to initialize kernel state from invalid function options",
-				arrow.ErrInvalid)
-		}
-	}
-
-	// Only positive exponents for powers of 10 are used because combining
-	// multiply and division operations produced more stable rounding than
-	// using multiply-only.  Refer to NumPy's round implementation:
-	// https://github.com/numpy/numpy/blob/7b2f20b406d27364c812f7a81a9c901afbd3600c/numpy/core/src/multiarray/calculation.c#L589
-	rs.Pow10 = math.Pow10(int(math.Abs(float64(rs.NDigits))))
-	return rs, nil
-}
-
-type RoundToMultipleOptions struct {
-	// Multiple is the multiple to round to.
-	//
-	// Should be a positive numeric scalar of a type compatible
-	// with the argument to be rounded. The cast kernel is used
-	// to convert the rounding multiple to match the result type.
-	Multiple scalar.Scalar
-	// Mode is the rounding and tie-breaking mode
-	Mode RoundMode
-}
-
-func (RoundToMultipleOptions) TypeName() string { return "RoundToMultipleOptions" }
-
-type RoundToMultipleState = RoundToMultipleOptions
-
-func isPositive(s scalar.Scalar) bool {
-	switch s := s.(type) {
-	case *scalar.Decimal128:
-		return s.Value.Greater(decimal128.Num{})
-	case *scalar.Decimal256:
-		return s.Value.Greater(decimal256.Num{})
-	case *scalar.Int8:
-		return s.Value > 0
-	case *scalar.Uint8, *scalar.Uint16, *scalar.Uint32, *scalar.Uint64:
-		return true
-	case *scalar.Int16:
-		return s.Value > 0
-	case *scalar.Int32:
-		return s.Value > 0
-	case *scalar.Int64:
-		return s.Value > 0
-	case *scalar.Float32:
-		return s.Value > 0
-	case *scalar.Float64:
-		return s.Value > 0
-	default:
-		return false
-	}
-}
-
-func InitRoundToMultipleState(_ *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
-	var rs RoundToMultipleState
-
-	opts, ok := args.Options.(*RoundToMultipleOptions)
-	if ok {
-		rs = *opts
-	} else {
-		if rs, ok = args.Options.(RoundToMultipleOptions); !ok {
-			return nil, fmt.Errorf("%w: attempted to initialize kernel state from invalid function options",
-				arrow.ErrInvalid)
-		}
-	}
-
-	mult := rs.Multiple
-	if mult == nil || !mult.IsValid() {
-		return nil, fmt.Errorf("%w: rounding multiple must be non-null and valid",
-			arrow.ErrInvalid)
-	}
-
-	if !isPositive(mult) {
-		return nil, fmt.Errorf("%w: rounding multiple must be positive", arrow.ErrInvalid)
-	}
-
-	// ensure the rounding multiple option matches the kernel's output type.
-	// the output type is not available here, so we use the following rule:
-	// if "multiple" is neither a floating-point nor decimal type,
-	// then cast to float64, else cast to the kernel's input type.
-	var toType arrow.DataType
-	if !arrow.IsFloating(mult.DataType().ID()) && !arrow.IsDecimal(mult.DataType().ID()) {
-		toType = arrow.PrimitiveTypes.Float64
-	} else {
-		toType = args.Inputs[0]
-	}
-
-	if !arrow.TypeEqual(mult.DataType(), toType) {
-		castedMultiple, err := mult.CastTo(toType)
-		if err != nil {
-			return nil, err
-		}
-
-		rs.Multiple = castedMultiple
-	}
-
-	return rs, nil
-}
-
-func getFloatRoundImpl[T constraints.Float](mode RoundMode) func(T) T {
-	switch mode {
-	case RoundDown:
-		return func(t T) T { return T(math.Floor(float64(t))) }
-	case RoundUp:
-		return func(t T) T { return T(math.Ceil(float64(t))) }
-	case TowardsZero: // truncate
-		return func(t T) T { return T(math.Trunc(float64(t))) }
-	case AwayFromZero:
-		return func(t T) T {
-			v := float64(t)
-			if math.Signbit(v) {
-				return T(math.Floor(v))
-			}
-			return T(math.Ceil(v))
-		}
-	// the Half variants are only called when the fractional portion
-	// was 0.5
-	case HalfDown:
-		return func(t T) T { return T(math.Floor(float64(t))) }
-	case HalfUp:
-		return func(t T) T { return T(math.Ceil(float64(t))) }
-	case HalfTowardsZero:
-		return func(t T) T { return T(math.Trunc(float64(t))) }
-	case HalfAwayFromZero:
-		return func(t T) T {
-			v := float64(t)
-			if math.Signbit(v) {
-				return T(math.Floor(v))
-			}
-			return T(math.Ceil(v))
-		}
-	case HalfToEven:
-		return func(t T) T { return T(math.RoundToEven(float64(t))) }
-	case HalfToOdd:
-		return func(t T) T {
-			v := float64(t)
-			return T(math.Floor(v*0.5) + math.Ceil(v*0.5))
-		}
-	}
-	panic("invalid rounding mode")
-}
-
-func getDecRounding[T decimal128.Num | decimal256.Num](mode RoundMode, opsImpl *roundDecImpl[T]) func(val, remainder T, pow10 T, scale int32) T {
-	var (
-		z   T
-		one = opsImpl.fromI64(1)
-		neg = opsImpl.fromI64(-1)
-	)
-
-	switch mode {
-	case RoundDown:
-		return func(val, remainder, pow10 T, _ int32) T {
-			val = opsImpl.Sub(val, remainder)
-			if opsImpl.Sign(val) < 0 {
-				val = opsImpl.Sub(val, pow10)
-			}
-			return val
-		}
-	case RoundUp:
-		return func(val, remainder, pow10 T, _ int32) T {
-			val = opsImpl.Sub(val, remainder)
-			if opsImpl.Sign(val) > 0 && remainder != z {
-				val = opsImpl.Add(val, pow10)
-			}
-			return val
-		}
-	case TowardsZero:
-		return func(val, remainder, _ T, _ int32) T {
-			return opsImpl.Sub(val, remainder)
-		}
-	case AwayFromZero:
-		return func(val, remainder, pow10 T, _ int32) T {
-			val = opsImpl.Sub(val, remainder)
-			if opsImpl.Sign(remainder) < 0 {
-				val = opsImpl.Sub(val, pow10)
-			} else if opsImpl.Sign(remainder) > 0 && remainder != z {
-				val = opsImpl.Add(val, pow10)
-			}
-			return val
-		}
-	// variants for Half_* modes are only invoked when the fractional part
-	// is equal to 0.5
-	case HalfDown:
-		return func(val, remainder, pow10 T, _ int32) T {
-			val = opsImpl.Sub(val, remainder)
-			if opsImpl.Sign(val) < 0 {
-				val = opsImpl.Sub(val, pow10)
-			}
-			return val
-		}
-	case HalfUp:
-		return func(val, remainder, pow10 T, _ int32) T {
-			val = opsImpl.Sub(val, remainder)
-			if opsImpl.Sign(val) > 0 && remainder != z {
-				val = opsImpl.Add(val, pow10)
-			}
-			return val
-		}
-	case HalfTowardsZero:
-		return func(val, remainder, _ T, _ int32) T {
-			return opsImpl.Sub(val, remainder)
-		}
-	case HalfAwayFromZero:
-		return func(val, remainder, pow10 T, _ int32) T {
-			val = opsImpl.Sub(val, remainder)
-			if opsImpl.Sign(remainder) < 0 {
-				val = opsImpl.Sub(val, pow10)
-			} else if opsImpl.Sign(remainder) > 0 && remainder != z {
-				val = opsImpl.Add(val, pow10)
-			}
-			return val
-		}
-	case HalfToEven:
-		return func(val, remainder, _ T, scale int32) T {
-			scaled := opsImpl.reduceScale(val, scale, false)
-			if opsImpl.lowBits(scaled)%2 != 0 {
-				if opsImpl.Sign(remainder) >= 0 {
-					scaled = opsImpl.Add(scaled, one)
-				} else {
-					scaled = opsImpl.Add(scaled, neg)
-				}
-			}
-			return opsImpl.increaseScale(scaled, scale)
-		}
-	case HalfToOdd:
-		return func(val, remainder, _ T, scale int32) T {
-			scaled := opsImpl.reduceScale(val, scale, false)
-			if opsImpl.lowBits(scaled)%2 == 0 {
-				if opsImpl.Sign(remainder) != 0 {
-					scaled = opsImpl.Add(scaled, one)
-				} else {
-					scaled = opsImpl.Add(scaled, neg)
-				}
-			}
-			return opsImpl.increaseScale(scaled, scale)
-		}
-	}
-	panic("invalid rounding mode")
-}
-
-type round[T constraints.Float] struct {
-	pow10   T
-	ndigits int64
-	mode    RoundMode
-
-	fn func(T) T
-}
-
-func (rnd *round[T]) call(_ *exec.KernelCtx, arg T, e *error) T {
-	val := float64(arg)
-	// do not process INF or NaN because they will trigger overflow errors
-	// at the end of this
-	if math.IsInf(val, 0) || math.IsNaN(val) {
-		return arg
-	}
-
-	var roundVal T
-	if rnd.ndigits >= 0 {
-		roundVal = arg * rnd.pow10
-	} else {
-		roundVal = arg / rnd.pow10
-	}
-
-	frac := roundVal - T(math.Floor(float64(roundVal)))
-	if frac == 0 {
-		// scaled value has no fractional component
-		// no rounding is needed.
-		return arg
-	}
-
-	if rnd.mode >= HalfDown && frac != 0.5 {
-		roundVal = T(math.Round(float64(roundVal)))
-	} else {
-		roundVal = rnd.fn(roundVal)
-	}
-
-	// equality check is omitted so that the common case of 10^0
-	// (integer rounding) uses multiply-only
-	if rnd.ndigits > 0 {
-		roundVal /= rnd.pow10
-	} else {
-		roundVal *= rnd.pow10
-	}
-	if math.IsInf(float64(roundVal), 0) || math.IsNaN(float64(roundVal)) {
-		*e = errOverflow
-		return arg
-	}
-
-	return roundVal
-}
-
-func roundKernelFloating[T constraints.Float](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(RoundState)
-	rnd := round[T]{
-		pow10:   T(opts.Pow10),
-		ndigits: opts.NDigits,
-		mode:    opts.Mode,
-		fn:      getFloatRoundImpl[T](opts.Mode),
-	}
-
-	return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
-}
-
-func roundToMultipleFloating[T constraints.Float](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(RoundToMultipleState)
-	rnd := roundToMultiple[T]{
-		mode:     opts.Mode,
-		multiple: UnboxScalar[T](opts.Multiple.(scalar.PrimitiveScalar)),
-		fn:       getFloatRoundImpl[T](opts.Mode),
-	}
-
-	return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
-}
-
-type roundDecImpl[T decimal128.Num | decimal256.Num] struct {
-	*decOps[T]
-	scaleMultiplier     func(int) T
-	halfScaleMultiplier func(int) T
-	divide              func(a, b T) (res, rem T)
-	fitsInPrec          func(T, int32) bool
-	less                func(a, b T) bool
-	reduceScale         func(T, int32, bool) T
-	increaseScale       func(T, int32) T
-	lowBits             func(T) uint64
-	fromI64             func(int64) T
-	str                 func(T, int32) string
-}
-
-var (
-	roundDec128 = roundDecImpl[decimal128.Num]{
-		decOps:              &dec128Ops,
-		scaleMultiplier:     decimal128.GetScaleMultiplier,
-		halfScaleMultiplier: decimal128.GetHalfScaleMultiplier,
-		divide:              func(a, b decimal128.Num) (res, rem decimal128.Num) { return a.Div(b) },
-		fitsInPrec:          func(a decimal128.Num, prec int32) bool { return a.FitsInPrecision(prec) },
-		less:                func(a, b decimal128.Num) bool { return a.Less(b) },
-		reduceScale:         func(a decimal128.Num, scale int32, round bool) decimal128.Num { return a.ReduceScaleBy(scale, round) },
-		increaseScale:       func(a decimal128.Num, scale int32) decimal128.Num { return a.IncreaseScaleBy(scale) },
-		lowBits:             func(a decimal128.Num) uint64 { return a.LowBits() },
-		fromI64:             func(v int64) decimal128.Num { return decimal128.FromI64(v) },
-		str:                 func(a decimal128.Num, scale int32) string { return a.ToString(scale) },
-	}
-	roundDec256 = roundDecImpl[decimal256.Num]{
-		decOps:              &dec256Ops,
-		scaleMultiplier:     decimal256.GetScaleMultiplier,
-		halfScaleMultiplier: decimal256.GetHalfScaleMultiplier,
-		divide:              func(a, b decimal256.Num) (res, rem decimal256.Num) { return a.Div(b) },
-		fitsInPrec:          func(a decimal256.Num, prec int32) bool { return a.FitsInPrecision(prec) },
-		less:                func(a, b decimal256.Num) bool { return a.Less(b) },
-		reduceScale:         func(a decimal256.Num, scale int32, round bool) decimal256.Num { return a.ReduceScaleBy(scale, round) },
-		increaseScale:       func(a decimal256.Num, scale int32) decimal256.Num { return a.IncreaseScaleBy(scale) },
-		lowBits:             func(a decimal256.Num) uint64 { return a.LowBits() },
-		fromI64:             func(v int64) decimal256.Num { return decimal256.FromI64(v) },
-		str:                 func(a decimal256.Num, scale int32) string { return a.ToString(scale) },
-	}
-)
-
-type roundDec[T decimal128.Num | decimal256.Num] struct {
-	ty      arrow.DecimalType
-	mode    RoundMode
-	ndigits int64
-	pow     int32
-	// pow10 is "1" for the given decimal scale. Similarly halfPow10 is "0.5"
-	pow10, halfPow10, negHalfPow10 T
-
-	opsImpl *roundDecImpl[T]
-	fn      func(T, T, T, int32) T
-}
-
-func (rnd *roundDec[T]) call(_ *exec.KernelCtx, arg T, e *error) T {
-	var def T
-	if rnd.pow >= rnd.ty.GetPrecision() {
-		*e = fmt.Errorf("%w: rounding to %d digits will not fit in precision of %s",
-			arrow.ErrInvalid, rnd.ndigits, rnd.ty)
-		return def
-	} else if rnd.pow < 0 {
-		// no-op copy output to input
-		return arg
-	}
-
-	_, remainder := rnd.opsImpl.divide(arg, rnd.pow10)
-	// the remainder is effectively the scaled fractional part after division
-	if remainder == def {
-		return arg
-	}
-
-	if rnd.mode >= HalfDown {
-		if remainder == rnd.halfPow10 || remainder == rnd.negHalfPow10 {
-			// on the halfway point, use tiebreaker
-			arg = rnd.fn(arg, remainder, rnd.pow10, rnd.pow)
-		} else if rnd.opsImpl.Sign(remainder) >= 0 {
-			// positive, round up/down
-			arg = rnd.opsImpl.Sub(arg, remainder)
-			if rnd.opsImpl.less(rnd.halfPow10, remainder) {
-				arg = rnd.opsImpl.Add(arg, rnd.pow10)
-			}
-		} else {
-			// negative, round up/down
-			arg = rnd.opsImpl.Sub(arg, remainder)
-			if rnd.opsImpl.less(remainder, rnd.negHalfPow10) {
-				arg = rnd.opsImpl.Sub(arg, rnd.pow10)
-			}
-		}
-	} else {
-		arg = rnd.fn(arg, remainder, rnd.pow10, rnd.pow)
-	}
-
-	if !rnd.opsImpl.fitsInPrec(arg, rnd.ty.GetPrecision()) {
-		*e = fmt.Errorf("%w: rounded value %s does not fit in precision of %s",
-			arrow.ErrInvalid, rnd.opsImpl.str(arg, rnd.ty.GetScale()), rnd.ty)
-		return def
-	}
-	return arg
-}
-
-func getRoundKernelDecimal[T decimal128.Num | decimal256.Num]() exec.ArrayKernelExec {
-	var def T
-	switch any(def).(type) {
-	case decimal128.Num:
-		return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-			return roundKernelDecimal(&roundDec128, ctx, batch, out)
-		}
-	case decimal256.Num:
-		return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-			return roundKernelDecimal(&roundDec256, ctx, batch, out)
-		}
-	}
-	panic("should never get here")
-}
-
-func roundKernelDecimal[T decimal128.Num | decimal256.Num](opsImpl *roundDecImpl[T], ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(RoundState)
-	rnd := roundDec[T]{
-		ty:      out.Type.(arrow.DecimalType),
-		ndigits: opts.NDigits,
-		mode:    opts.Mode,
-		opsImpl: opsImpl,
-		fn:      getDecRounding(opts.Mode, opsImpl),
-	}
-
-	rnd.pow = rnd.ty.GetScale() - int32(rnd.ndigits)
-	if rnd.pow < rnd.ty.GetPrecision() && rnd.pow >= 0 {
-		rnd.pow10 = opsImpl.scaleMultiplier(int(rnd.pow))
-		rnd.halfPow10 = opsImpl.halfScaleMultiplier(int(rnd.pow))
-		rnd.negHalfPow10 = opsImpl.Neg(rnd.halfPow10)
-	}
-
-	return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
-}
-
-func getRoundToMultipleKernelDecimal[T decimal128.Num | decimal256.Num]() exec.ArrayKernelExec {
-	var def T
-	switch any(def).(type) {
-	case decimal128.Num:
-		return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-			return roundToMultipleDecimal(&roundDec128, ctx, batch, out)
-		}
-	case decimal256.Num:
-		return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-			return roundToMultipleDecimal(&roundDec256, ctx, batch, out)
-		}
-	}
-	panic("should never get here")
-}
-
-func roundToMultipleDecimal[T decimal128.Num | decimal256.Num](opsImpl *roundDecImpl[T], ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(RoundToMultipleState)
-	rnd := roundToMultipleDec[T]{
-		ty:      out.Type.(arrow.DecimalType),
-		mode:    opts.Mode,
-		opsImpl: opsImpl,
-		fn:      getDecRounding(opts.Mode, opsImpl),
-		mult:    UnboxScalar[T](opts.Multiple.(scalar.PrimitiveScalar)),
-	}
-
-	rnd.halfMult = opsImpl.Div(rnd.mult, opsImpl.fromI64(2))
-	rnd.negHalfMult = opsImpl.Neg(rnd.halfMult)
-	rnd.hasHalfwayPoint = opsImpl.lowBits(rnd.mult)%2 == 0
-
-	return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
-}
-
-type roundToMultiple[T constraints.Float] struct {
-	multiple T
-	mode     RoundMode
-
-	fn func(T) T
-}
-
-func (rnd *roundToMultiple[T]) call(_ *exec.KernelCtx, arg T, e *error) T {
-	val := float64(arg)
-	// do not process Inf or NaN because they will trigger the overflow error
-	// at the end of this.
-	if math.IsInf(val, 0) || math.IsNaN(val) {
-		return arg
-	}
-
-	roundVal := arg / rnd.multiple
-	frac := roundVal - T(math.Floor(float64(roundVal)))
-	if frac == 0 {
-		// scaled value is an integer, no rounding needed
-		return arg
-	}
-
-	if rnd.mode >= HalfDown && frac != 0.5 {
-		roundVal = T(math.Round(float64(roundVal)))
-	} else {
-		roundVal = rnd.fn(roundVal)
-	}
-	roundVal *= rnd.multiple
-
-	if math.IsInf(float64(roundVal), 0) || math.IsNaN(float64(roundVal)) {
-		*e = errOverflow
-		return arg
-	}
-
-	return roundVal
-}
-
-type roundToMultipleDec[T decimal128.Num | decimal256.Num] struct {
-	ty   arrow.DecimalType
-	mode RoundMode
-
-	mult, halfMult, negHalfMult T
-	hasHalfwayPoint             bool
-
-	opsImpl *roundDecImpl[T]
-	fn      func(T, T, T, int32) T
-}
-
-func (rnd *roundToMultipleDec[T]) call(_ *exec.KernelCtx, arg T, e *error) T {
-	var def T
-
-	val, remainder := rnd.opsImpl.divide(arg, rnd.mult)
-	if remainder == def {
-		return arg
-	}
-
-	one := rnd.opsImpl.fromI64(1)
-	if rnd.mode >= HalfDown {
-		if rnd.hasHalfwayPoint && (remainder == rnd.halfMult || remainder == rnd.negHalfMult) {
-			// on the halfway point, use tiebreaker
-			// manually implement rounding since we aren't actually rounding
-			// a decimal value, but rather manipulating the multiple
-			switch rnd.mode {
-			case HalfDown:
-				if rnd.opsImpl.Sign(remainder) < 0 {
-					val = rnd.opsImpl.Sub(val, one)
-				}
-			case HalfUp:
-				if rnd.opsImpl.Sign(remainder) >= 0 {
-					val = rnd.opsImpl.Add(val, one)
-				}
-			case HalfTowardsZero:
-			case HalfAwayFromZero:
-				if rnd.opsImpl.Sign(remainder) >= 0 {
-					val = rnd.opsImpl.Add(val, one)
-				} else {
-					val = rnd.opsImpl.Sub(val, one)
-				}
-			case HalfToEven:
-				if rnd.opsImpl.lowBits(val)%2 != 0 {
-					if rnd.opsImpl.Sign(remainder) >= 0 {
-						val = rnd.opsImpl.Add(val, one)
-					} else {
-						val = rnd.opsImpl.Sub(val, one)
-					}
-				}
-			case HalfToOdd:
-				if rnd.opsImpl.lowBits(val)%2 == 0 {
-					if rnd.opsImpl.Sign(remainder) >= 0 {
-						val = rnd.opsImpl.Add(val, one)
-					} else {
-						val = rnd.opsImpl.Sub(val, one)
-					}
-				}
-			}
-		} else if rnd.opsImpl.Sign(remainder) >= 0 {
-			// positive, round up/down
-			if rnd.opsImpl.less(rnd.halfMult, remainder) {
-				val = rnd.opsImpl.Add(val, one)
-			}
-		} else {
-			// negative, round up/down
-			if rnd.opsImpl.less(remainder, rnd.negHalfMult) {
-				val = rnd.opsImpl.Sub(val, one)
-			}
-		}
-	} else {
-		// manually implement rounding since we aren't actually rounding
-		// a decimal value, but rather manipulating the multiple
-		switch rnd.mode {
-		case RoundDown:
-			if rnd.opsImpl.Sign(remainder) < 0 {
-				val = rnd.opsImpl.Sub(val, one)
-			}
-		case RoundUp:
-			if rnd.opsImpl.Sign(remainder) >= 0 {
-				val = rnd.opsImpl.Add(val, one)
-			}
-		case TowardsZero:
-		case AwayFromZero:
-			if rnd.opsImpl.Sign(remainder) >= 0 {
-				val = rnd.opsImpl.Add(val, one)
-			} else {
-				val = rnd.opsImpl.Sub(val, one)
-			}
-		}
-	}
-
-	roundVal := rnd.opsImpl.Mul(val, rnd.mult)
-	if !rnd.opsImpl.fitsInPrec(roundVal, rnd.ty.GetPrecision()) {
-		*e = fmt.Errorf("%w: rounded value %s does not fit in precision of %s",
-			arrow.ErrInvalid, rnd.opsImpl.str(roundVal, rnd.ty.GetScale()), rnd.ty)
-		return def
-	}
-	return roundVal
-}
-
-func UnaryRoundExec(ty arrow.Type) exec.ArrayKernelExec {
-	switch ty {
-	case arrow.FLOAT32:
-		return roundKernelFloating[float32]
-	case arrow.FLOAT64:
-		return roundKernelFloating[float64]
-	case arrow.DECIMAL128:
-		return getRoundKernelDecimal[decimal128.Num]()
-	case arrow.DECIMAL256:
-		return getRoundKernelDecimal[decimal256.Num]()
-	}
-	panic("should never get here")
-}
-
-func UnaryRoundToMultipleExec(ty arrow.Type) exec.ArrayKernelExec {
-	switch ty {
-	case arrow.FLOAT32:
-		return roundToMultipleFloating[float32]
-	case arrow.FLOAT64:
-		return roundToMultipleFloating[float64]
-	case arrow.DECIMAL128:
-		return getRoundToMultipleKernelDecimal[decimal128.Num]()
-	case arrow.DECIMAL256:
-		return getRoundToMultipleKernelDecimal[decimal256.Num]()
-	}
-	panic("should never get here")
-}
-
-func GetRoundUnaryKernels(init exec.KernelInitFn, knFn func(arrow.Type) exec.ArrayKernelExec) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64,
-		&arrow.Decimal128Type{Precision: 1}, &arrow.Decimal256Type{Precision: 1}} {
-		tyID := ty.ID()
-
-		var out exec.OutputType
-		if arrow.IsDecimal(tyID) {
-			out = OutputFirstType
-		} else {
-			out = exec.NewOutputType(ty)
-		}
-
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewIDInput(tyID)}, out, knFn(tyID), init))
-	}
-
-	return append(kernels, NullExecKernel(1))
-}
-
-func GetSimpleRoundKernels(mode RoundMode) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range floatingTypes {
-		var ex exec.ArrayKernelExec
-		switch ty.ID() {
-		case arrow.FLOAT32:
-			fn := getFloatRoundImpl[float32](mode)
-			ex = ScalarUnary(func(_ *exec.KernelCtx, in []float32, out []float32) error {
-				for i, v := range in {
-					out[i] = fn(v)
-				}
-				return nil
-			})
-		case arrow.FLOAT64:
-			fn := getFloatRoundImpl[float64](mode)
-			ex = ScalarUnary(func(_ *exec.KernelCtx, in []float64, out []float64) error {
-				for i, v := range in {
-					out[i] = fn(v)
-				}
-				return nil
-			})
-		}
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
-			ex, nil))
-	}
-	return append(kernels, NullExecKernel(1))
-}
-
-func fixedRoundDecimalExec[T decimal128.Num | decimal256.Num](opsImpl *roundDecImpl[T], mode RoundMode) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		rnd := roundDec[T]{
-			ty:      out.Type.(arrow.DecimalType),
-			mode:    mode,
-			opsImpl: opsImpl,
-			fn:      getDecRounding(mode, opsImpl),
-		}
-
-		rnd.pow = rnd.ty.GetScale() - int32(rnd.ndigits)
-		if rnd.pow < rnd.ty.GetPrecision() && rnd.pow >= 0 {
-			rnd.pow10 = opsImpl.scaleMultiplier(int(rnd.pow))
-			rnd.halfPow10 = opsImpl.halfScaleMultiplier(int(rnd.pow))
-			rnd.negHalfPow10 = opsImpl.Neg(rnd.halfPow10)
-		}
-
-		return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
-	}
-}
-
-func FixedRoundDecimalExec[T decimal128.Num | decimal256.Num](mode RoundMode) exec.ArrayKernelExec {
-	var def T
-	switch any(def).(type) {
-	case decimal128.Num:
-		return func() exec.ArrayKernelExec {
-			return fixedRoundDecimalExec(&roundDec128, mode)
-		}()
-	case decimal256.Num:
-		return func() exec.ArrayKernelExec {
-			return fixedRoundDecimalExec(&roundDec256, mode)
-		}()
-	}
-	panic("should never get here")
-}
diff --git a/go/arrow/compute/internal/kernels/roundmode_string.go b/go/arrow/compute/internal/kernels/roundmode_string.go
deleted file mode 100644
index 87c6a6e74a841..0000000000000
--- a/go/arrow/compute/internal/kernels/roundmode_string.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Code generated by "stringer -type=RoundMode"; DO NOT EDIT.
-
-//go:build go1.18
-
-package kernels
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[RoundDown-0]
-	_ = x[RoundUp-1]
-	_ = x[TowardsZero-2]
-	_ = x[AwayFromZero-3]
-	_ = x[HalfDown-4]
-	_ = x[HalfUp-5]
-	_ = x[HalfTowardsZero-6]
-	_ = x[HalfAwayFromZero-7]
-	_ = x[HalfToEven-8]
-	_ = x[HalfToOdd-9]
-}
-
-const _RoundMode_name = "RoundDownRoundUpTowardsZeroAwayFromZeroHalfDownHalfUpHalfTowardsZeroHalfAwayFromZeroHalfToEvenHalfToOdd"
-
-var _RoundMode_index = [...]uint8{0, 9, 16, 27, 39, 47, 53, 68, 84, 94, 103}
-
-func (i RoundMode) String() string {
-	if i < 0 || i >= RoundMode(len(_RoundMode_index)-1) {
-		return "RoundMode(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _RoundMode_name[_RoundMode_index[i]:_RoundMode_index[i+1]]
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_arithmetic.go b/go/arrow/compute/internal/kernels/scalar_arithmetic.go
deleted file mode 100644
index f2b52a6bf7101..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_arithmetic.go
+++ /dev/null
@@ -1,412 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-// scalar kernel that ignores (assumed all-null inputs) and returns null
-func NullToNullExec(_ *exec.KernelCtx, _ *exec.ExecSpan, _ *exec.ExecResult) error {
-	return nil
-}
-
-func NullExecKernel(nargs int) exec.ScalarKernel {
-	in := make([]exec.InputType, nargs)
-	for i := range in {
-		in[i] = exec.NewIDInput(arrow.NULL)
-	}
-	return exec.NewScalarKernel(in, exec.NewOutputType(arrow.Null), NullToNullExec, nil)
-}
-
-func GetArithmeticFunctionTimeDuration(op ArithmeticOp) []exec.ScalarKernel {
-	mult := (time.Hour * 24)
-	return []exec.ScalarKernel{exec.NewScalarKernel([]exec.InputType{
-		exec.NewExactInput(arrow.FixedWidthTypes.Time32s),
-		exec.NewExactInput(&arrow.DurationType{Unit: arrow.Second})}, OutputFirstType,
-		timeDurationOp[arrow.Time32, arrow.Time32, arrow.Duration](int64(mult.Seconds()), op), nil),
-		exec.NewScalarKernel([]exec.InputType{
-			exec.NewExactInput(arrow.FixedWidthTypes.Time32ms),
-			exec.NewExactInput(&arrow.DurationType{Unit: arrow.Millisecond})}, OutputFirstType,
-			timeDurationOp[arrow.Time32, arrow.Time32, arrow.Duration](int64(mult.Milliseconds()), op), nil),
-		exec.NewScalarKernel([]exec.InputType{
-			exec.NewExactInput(arrow.FixedWidthTypes.Time64us),
-			exec.NewExactInput(&arrow.DurationType{Unit: arrow.Microsecond})}, OutputFirstType,
-			timeDurationOp[arrow.Time64, arrow.Time64, arrow.Duration](int64(mult.Microseconds()), op), nil),
-		exec.NewScalarKernel([]exec.InputType{
-			exec.NewExactInput(arrow.FixedWidthTypes.Time64ns),
-			exec.NewExactInput(&arrow.DurationType{Unit: arrow.Nanosecond})}, OutputFirstType,
-			timeDurationOp[arrow.Time64, arrow.Time64, arrow.Duration](int64(mult.Nanoseconds()), op), nil)}
-}
-
-func GetDecimalBinaryKernels(op ArithmeticOp) []exec.ScalarKernel {
-	var outType exec.OutputType
-	switch op {
-	case OpAdd, OpSub, OpAddChecked, OpSubChecked:
-		outType = exec.NewComputedOutputType(resolveDecimalAddOrSubtractType)
-	case OpMul, OpMulChecked:
-		outType = exec.NewComputedOutputType(resolveDecimalMultiplyOutput)
-	case OpDiv, OpDivChecked:
-		outType = exec.NewComputedOutputType(resolveDecimalDivideOutput)
-	}
-
-	in128, in256 := exec.NewIDInput(arrow.DECIMAL128), exec.NewIDInput(arrow.DECIMAL256)
-	exec128, exec256 := getArithmeticDecimal[decimal128.Num](op), getArithmeticDecimal[decimal256.Num](op)
-	return []exec.ScalarKernel{
-		exec.NewScalarKernel([]exec.InputType{in128, in128}, outType, exec128, nil),
-		exec.NewScalarKernel([]exec.InputType{in256, in256}, outType, exec256, nil),
-	}
-}
-
-func GetArithmeticBinaryKernels(op ArithmeticOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range numericTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty), exec.NewExactInput(ty)},
-			exec.NewOutputType(ty), ArithmeticExecSameType(ty.ID(), op), nil))
-	}
-
-	return append(kernels, NullExecKernel(2))
-}
-
-func GetDecimalUnaryKernels(op ArithmeticOp) []exec.ScalarKernel {
-	outType := OutputFirstType
-	in128 := exec.NewIDInput(arrow.DECIMAL128)
-	in256 := exec.NewIDInput(arrow.DECIMAL256)
-
-	exec128, exec256 := getArithmeticDecimal[decimal128.Num](op), getArithmeticDecimal[decimal256.Num](op)
-	return []exec.ScalarKernel{
-		exec.NewScalarKernel([]exec.InputType{in128}, outType, exec128, nil),
-		exec.NewScalarKernel([]exec.InputType{in256}, outType, exec256, nil),
-	}
-}
-
-func GetArithmeticUnaryKernels(op ArithmeticOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range numericTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
-			ArithmeticExec(ty.ID(), ty.ID(), op), nil))
-	}
-
-	return append(kernels, NullExecKernel(1))
-}
-
-func GetArithmeticUnarySignedKernels(op ArithmeticOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range append(signedIntTypes, floatingTypes...) {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
-			ArithmeticExec(ty.ID(), ty.ID(), op), nil))
-	}
-
-	return append(kernels, NullExecKernel(1))
-}
-
-func GetArithmeticUnaryFloatingPointKernels(op ArithmeticOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range floatingTypes {
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
-			ArithmeticExec(ty.ID(), ty.ID(), op), nil))
-	}
-
-	return append(kernels, NullExecKernel(1))
-}
-
-func GetArithmeticFloatingPointKernels(op ArithmeticOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range floatingTypes {
-		in := exec.NewExactInput(ty)
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{in, in}, exec.NewOutputType(ty),
-			ArithmeticExecSameType(ty.ID(), op), nil))
-	}
-
-	return append(kernels, NullExecKernel(2))
-}
-
-func GetArithmeticUnaryFixedIntOutKernels(otype arrow.DataType, op ArithmeticOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-
-	out := exec.NewOutputType(otype)
-	for _, ty := range numericTypes {
-		otype := otype
-		out := out
-		if arrow.IsFloating(ty.ID()) {
-			otype = ty
-			out = exec.NewOutputType(ty)
-		}
-
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, out,
-			ArithmeticExec(ty.ID(), otype.ID(), op), nil))
-	}
-
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)},
-		exec.NewOutputType(arrow.PrimitiveTypes.Int64),
-		getArithmeticDecimal[decimal128.Num](op), nil))
-	kernels = append(kernels, exec.NewScalarKernel(
-		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)},
-		exec.NewOutputType(arrow.PrimitiveTypes.Int64),
-		getArithmeticDecimal[decimal256.Num](op), nil))
-
-	return append(kernels, NullExecKernel(1))
-}
-
-type BitwiseOp int8
-
-const (
-	OpBitAnd BitwiseOp = iota
-	OpBitOr
-	OpBitXor
-)
-
-func bitwiseKernelOp(op BitwiseOp) exec.ArrayKernelExec {
-	var fn func([]byte, []byte, int64, int64, []byte, int64, int64)
-	switch op {
-	case OpBitOr:
-		fn = bitutil.BitmapOr
-	case OpBitAnd:
-		fn = bitutil.BitmapAnd
-	case OpBitXor:
-		fn = bitutil.BitmapXor
-	}
-
-	arrayArray := func(left, right *exec.ArraySpan, out *exec.ExecResult) error {
-		bits := int64(left.Type.(arrow.FixedWidthDataType).BitWidth())
-		fn(left.Buffers[1].Buf, right.Buffers[1].Buf,
-			bits*left.Offset, bits*right.Offset,
-			out.Buffers[1].Buf, bits*out.Offset, bits*left.Len)
-		return nil
-	}
-
-	arrayScalar := func(arr *exec.ArraySpan, sc scalar.Scalar, out *exec.ExecResult) error {
-		if !sc.IsValid() {
-			// no work to be done, everything is null
-			return nil
-		}
-
-		val := sc.(scalar.PrimitiveScalar).Data()
-		byteWidth := int64(len(val))
-		bitWidth := byteWidth * 8
-		arrBuf := arr.Buffers[1].Buf[byteWidth*arr.Offset:]
-		outBuf := out.Buffers[1].Buf[byteWidth*out.Offset:]
-
-		for i := int64(0); i < arr.Len; i++ {
-			fn(arrBuf, val, 0, 0, outBuf, 0, bitWidth)
-			arrBuf, outBuf = arrBuf[byteWidth:], outBuf[byteWidth:]
-		}
-		return nil
-	}
-
-	return func(_ *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if batch.Values[0].IsArray() {
-			if batch.Values[1].IsArray() {
-				return arrayArray(&batch.Values[0].Array, &batch.Values[1].Array, out)
-			}
-			return arrayScalar(&batch.Values[0].Array, batch.Values[1].Scalar, out)
-		}
-
-		if batch.Values[1].IsArray() {
-			return arrayScalar(&batch.Values[1].Array, batch.Values[0].Scalar, out)
-		}
-
-		debug.Assert(false, "should be unreachable")
-		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
-	}
-}
-
-func GetBitwiseBinaryKernels(op BitwiseOp) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range intTypes {
-		ex := bitwiseKernelOp(op)
-		inType := exec.NewExactInput(ty)
-		kernels = append(kernels, exec.NewScalarKernel([]exec.InputType{
-			inType, inType}, exec.NewOutputType(ty), ex, nil))
-	}
-	return append(kernels, NullExecKernel(2))
-}
-
-func bitwiseNot[T arrow.IntType | arrow.UintType](_ *exec.KernelCtx, arg T, _ *error) T {
-	return ^arg
-}
-
-func getBitwiseNotExec(ty arrow.DataType) exec.ArrayKernelExec {
-	switch ty.ID() {
-	case arrow.INT8, arrow.UINT8:
-		return ScalarUnaryNotNull(bitwiseNot[uint8])
-	case arrow.INT16, arrow.UINT16:
-		return ScalarUnaryNotNull(bitwiseNot[uint16])
-	case arrow.INT32, arrow.UINT32:
-		return ScalarUnaryNotNull(bitwiseNot[uint32])
-	case arrow.INT64, arrow.UINT64:
-		return ScalarUnaryNotNull(bitwiseNot[uint64])
-	}
-	panic("only integral types for bitwise not kernels")
-}
-
-func GetBitwiseUnaryKernels() []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range intTypes {
-		ex := getBitwiseNotExec(ty)
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
-			ex, nil))
-	}
-	return append(kernels, NullExecKernel(1))
-}
-
-type ShiftDir int8
-
-const (
-	ShiftLeft ShiftDir = iota
-	ShiftRight
-)
-
-func shiftKernelSignedImpl[T arrow.IntType, Unsigned arrow.UintType](dir ShiftDir, checked bool) exec.ArrayKernelExec {
-	errShift := fmt.Errorf("%w: shift amount must be >= 0 and less than precision of type", arrow.ErrInvalid)
-	maxShift := T(8*SizeOf[T]() - 1)
-
-	switch dir {
-	case ShiftLeft:
-		if checked {
-			return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
-				if rhs < 0 || rhs >= maxShift {
-					*e = errShift
-					return lhs
-				}
-				return T(Unsigned(lhs) << Unsigned(rhs))
-			})
-		}
-
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, _ *error) T {
-			if rhs < 0 || rhs >= maxShift {
-				return lhs
-			}
-
-			return T(Unsigned(lhs) << Unsigned(rhs))
-		})
-	case ShiftRight:
-		if checked {
-			return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
-				if rhs < 0 || rhs >= maxShift {
-					*e = errShift
-					return lhs
-				}
-				return lhs >> rhs
-			})
-		}
-
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
-			if rhs < 0 || rhs >= maxShift {
-				return lhs
-			}
-			return lhs >> rhs
-		})
-	}
-	return nil
-}
-
-func shiftKernelUnsignedImpl[T arrow.UintType](dir ShiftDir, checked bool) exec.ArrayKernelExec {
-	errShift := fmt.Errorf("%w: shift amount must be >= 0 and less than precision of type", arrow.ErrInvalid)
-	maxShift := T(8 * SizeOf[T]())
-
-	switch dir {
-	case ShiftLeft:
-		if checked {
-			return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
-				if rhs < 0 || rhs >= maxShift {
-					*e = errShift
-					return lhs
-				}
-				return lhs << rhs
-			})
-		}
-
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, _ *error) T {
-			if rhs < 0 || rhs >= maxShift {
-				return lhs
-			}
-			return lhs << rhs
-		})
-	case ShiftRight:
-		if checked {
-			return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
-				if rhs < 0 || rhs >= maxShift {
-					*e = errShift
-					return lhs
-				}
-				return lhs >> rhs
-			})
-		}
-
-		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, _ *error) T {
-			if rhs < 0 || rhs >= maxShift {
-				return lhs
-			}
-			return lhs >> rhs
-		})
-	}
-	return nil
-}
-
-func shiftKernel(dir ShiftDir, checked bool, ty arrow.Type) exec.ArrayKernelExec {
-	switch ty {
-	case arrow.INT8:
-		return shiftKernelSignedImpl[int8, uint8](dir, checked)
-	case arrow.UINT8:
-		return shiftKernelUnsignedImpl[uint8](dir, checked)
-	case arrow.INT16:
-		return shiftKernelSignedImpl[int16, uint16](dir, checked)
-	case arrow.UINT16:
-		return shiftKernelUnsignedImpl[uint16](dir, checked)
-	case arrow.INT32:
-		return shiftKernelSignedImpl[int32, uint32](dir, checked)
-	case arrow.UINT32:
-		return shiftKernelUnsignedImpl[uint32](dir, checked)
-	case arrow.INT64:
-		return shiftKernelSignedImpl[int64, uint64](dir, checked)
-	case arrow.UINT64:
-		return shiftKernelUnsignedImpl[uint64](dir, checked)
-	}
-	panic("invalid type for shift kernels")
-}
-
-func GetShiftKernels(dir ShiftDir, checked bool) []exec.ScalarKernel {
-	kernels := make([]exec.ScalarKernel, 0)
-	for _, ty := range intTypes {
-		inType := exec.NewExactInput(ty)
-		ex := shiftKernel(dir, checked, ty.ID())
-		kernels = append(kernels, exec.NewScalarKernel(
-			[]exec.InputType{inType, inType}, exec.NewOutputType(ty),
-			ex, nil))
-	}
-	return append(kernels, NullExecKernel(2))
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_boolean.go b/go/arrow/compute/internal/kernels/scalar_boolean.go
deleted file mode 100644
index f23a7f568b192..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_boolean.go
+++ /dev/null
@@ -1,334 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-type computeWordFN func(leftTrue, leftFalse, rightTrue, rightFalse uint64) (outValid, outData uint64)
-
-func computeKleene(computeWord computeWordFN, ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	var (
-		inBMs = [4]bitutil.Bitmap{
-			{Data: left.Buffers[0].Buf, Offset: left.Offset, Len: left.Len},
-			{Data: left.Buffers[1].Buf, Offset: left.Offset, Len: left.Len},
-			{Data: right.Buffers[1].Buf, Offset: right.Offset, Len: right.Len},
-			{Data: right.Buffers[0].Buf, Offset: right.Offset, Len: right.Len},
-		}
-		outBMs = [2]bitutil.Bitmap{
-			{Data: out.Buffers[0].Buf, Offset: out.Offset, Len: out.Len},
-			{Data: out.Buffers[1].Buf, Offset: out.Offset, Len: out.Len},
-		}
-		apply = func(leftValid, leftData uint64, rightValid, rightData uint64) (outValidity, outData uint64) {
-			leftTrue, leftFalse := leftValid&leftData, leftValid&^leftData
-			rightTrue, rightFalse := rightValid&rightData, rightValid&^rightData
-			return computeWord(leftTrue, leftFalse, rightTrue, rightFalse)
-		}
-	)
-
-	switch {
-	case right.UpdateNullCount() == 0:
-		return bitutil.VisitWordsAndWrite(inBMs[:3], outBMs[:],
-			func(in, out []uint64) {
-				out[0], out[1] = apply(in[0], in[1], ^uint64(0), in[2])
-			})
-	case left.UpdateNullCount() == 0:
-		return bitutil.VisitWordsAndWrite(inBMs[1:], outBMs[:],
-			func(in, out []uint64) {
-				out[0], out[1] = apply(^uint64(0), in[0], in[2], in[1])
-			})
-	default:
-		return bitutil.VisitWordsAndWrite(inBMs[:], outBMs[:],
-			func(in, out []uint64) {
-				out[0], out[1] = apply(in[0], in[1], in[3], in[2])
-			})
-	}
-}
-
-type AndOpKernel struct {
-	commutativeBinaryKernel[AndOpKernel]
-}
-
-func (AndOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	bitutil.BitmapAnd(left.Buffers[1].Buf, right.Buffers[1].Buf,
-		left.Offset, right.Offset, out.Buffers[1].Buf, out.Offset, left.Len)
-	return nil
-}
-
-func (AndOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if !left.IsValid() {
-		return nil
-	}
-
-	outBM := out.Buffers[1].Buf
-	if left.(*scalar.Boolean).Value {
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset),
-			int(right.Len), outBM, int(out.Offset))
-	} else {
-		bitutil.SetBitsTo(outBM, out.Offset, out.Len, false)
-	}
-	return nil
-}
-
-type KleeneAndOpKernel struct {
-	commutativeBinaryKernel[KleeneAndOpKernel]
-}
-
-func (KleeneAndOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if left.UpdateNullCount() == 0 && right.UpdateNullCount() == 0 {
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-		out.Nulls = 0
-		return (AndOpKernel{}).Call(ctx, left, right, out)
-	}
-
-	computeWord := func(leftTrue, leftFalse, rightTrue, rightFalse uint64) (outValid, outData uint64) {
-		return leftFalse | rightFalse | (leftTrue & rightTrue), leftTrue & rightTrue
-	}
-	return computeKleene(computeWord, ctx, left, right, out)
-}
-
-func (KleeneAndOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	var (
-		leftTrue  = left.IsValid() && left.(*scalar.Boolean).Value
-		leftFalse = left.IsValid() && !left.(*scalar.Boolean).Value
-	)
-
-	switch {
-	case leftFalse:
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-		out.Nulls = 0
-		bitutil.SetBitsTo(out.Buffers[1].Buf, out.Offset, out.Len, false)
-	case leftTrue:
-		if right.UpdateNullCount() == 0 {
-			bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-			out.Nulls = 0
-		} else {
-			bitutil.CopyBitmap(right.Buffers[0].Buf, int(right.Offset), int(right.Len),
-				out.Buffers[0].Buf, int(out.Offset))
-		}
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			out.Buffers[1].Buf, int(out.Offset))
-	default: // scalar was null: out[i] is valid iff right[i] was false
-		if right.UpdateNullCount() == 0 {
-			bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-				out.Buffers[0].Buf, int(out.Offset))
-		} else {
-			bitutil.BitmapAndNot(right.Buffers[0].Buf, right.Buffers[1].Buf, right.Offset,
-				right.Offset, out.Buffers[0].Buf, out.Offset, right.Len)
-		}
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			out.Buffers[1].Buf, int(out.Offset))
-	}
-	return nil
-}
-
-type OrOpKernel struct {
-	commutativeBinaryKernel[OrOpKernel]
-}
-
-func (OrOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	bitutil.BitmapOr(left.Buffers[1].Buf, right.Buffers[1].Buf,
-		left.Offset, right.Offset, out.Buffers[1].Buf, out.Offset, left.Len)
-	return nil
-}
-
-func (OrOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if !left.IsValid() {
-		return nil
-	}
-
-	outBM := out.Buffers[1].Buf
-	if left.(*scalar.Boolean).Value {
-		bitutil.SetBitsTo(outBM, out.Offset, out.Len, true)
-	} else {
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset),
-			int(right.Len), outBM, int(out.Offset))
-	}
-	return nil
-}
-
-type KleeneOrOpKernel struct {
-	commutativeBinaryKernel[KleeneOrOpKernel]
-}
-
-func (KleeneOrOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if left.UpdateNullCount() == 0 && right.UpdateNullCount() == 0 {
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-		out.Nulls = 0
-		return (OrOpKernel{}).Call(ctx, left, right, out)
-	}
-
-	computeWord := func(leftTrue, leftFalse, rightTrue, rightFalse uint64) (outValid, outData uint64) {
-		return leftTrue | rightTrue | (leftFalse & rightFalse), leftTrue | rightTrue
-	}
-	return computeKleene(computeWord, ctx, left, right, out)
-}
-
-func (KleeneOrOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	var (
-		leftTrue  = left.IsValid() && left.(*scalar.Boolean).Value
-		leftFalse = left.IsValid() && !left.(*scalar.Boolean).Value
-	)
-
-	switch {
-	case leftTrue:
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-		out.Nulls = 0
-		bitutil.SetBitsTo(out.Buffers[1].Buf, out.Offset, out.Len, true) // all true case
-	case leftFalse:
-		if right.UpdateNullCount() == 0 {
-			bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-			out.Nulls = 0
-		} else {
-			bitutil.CopyBitmap(right.Buffers[0].Buf, int(right.Offset), int(right.Len),
-				out.Buffers[0].Buf, int(out.Offset))
-		}
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			out.Buffers[1].Buf, int(out.Offset))
-	default: // scalar was null: out[i] is valid iff right[i] was true
-		if right.UpdateNullCount() == 0 {
-			bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-				out.Buffers[0].Buf, int(out.Offset))
-		} else {
-			bitutil.BitmapAnd(right.Buffers[0].Buf, right.Buffers[1].Buf, right.Offset,
-				right.Offset, out.Buffers[0].Buf, out.Offset, right.Len)
-		}
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			out.Buffers[1].Buf, int(out.Offset))
-	}
-	return nil
-}
-
-type XorOpKernel struct {
-	commutativeBinaryKernel[XorOpKernel]
-}
-
-func (XorOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	bitutil.BitmapXor(left.Buffers[1].Buf, right.Buffers[1].Buf,
-		left.Offset, right.Offset, out.Buffers[1].Buf, out.Offset, out.Len)
-	return nil
-}
-
-func (XorOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if !left.IsValid() {
-		return nil
-	}
-
-	outBM := out.Buffers[1].Buf
-	if left.(*scalar.Boolean).Value {
-		bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			outBM, int(out.Offset))
-	} else {
-		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			outBM, int(out.Offset))
-	}
-	return nil
-}
-
-func invertScalar(in scalar.Scalar) *scalar.Boolean {
-	if in.IsValid() {
-		return scalar.NewBooleanScalar(!in.(*scalar.Boolean).Value)
-	}
-	return in.(*scalar.Boolean)
-}
-
-type AndNotOpKernel struct{}
-
-func (AndNotOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	bitutil.BitmapAndNot(left.Buffers[1].Buf, right.Buffers[1].Buf, left.Offset, right.Offset,
-		out.Buffers[1].Buf, out.Offset, right.Len)
-	return nil
-}
-
-func (AndNotOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if !left.IsValid() {
-		return nil
-	}
-
-	outBM := out.Buffers[1].Buf
-	if left.(*scalar.Boolean).Value {
-		bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			outBM, int(out.Offset))
-	} else {
-		bitutil.SetBitsTo(outBM, out.Offset, out.Len, false)
-	}
-	return nil
-}
-
-func (AndNotOpKernel) CallScalarRight(ctx *exec.KernelCtx, left *exec.ArraySpan, right scalar.Scalar, out *exec.ExecResult) error {
-	return (AndOpKernel{}).CallScalarRight(ctx, left, invertScalar(right), out)
-}
-
-type KleeneAndNotOpKernel struct{}
-
-func (KleeneAndNotOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
-	if left.UpdateNullCount() == 0 && right.UpdateNullCount() == 0 {
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-		out.Nulls = 0
-		return (AndNotOpKernel{}).Call(ctx, left, right, out)
-	}
-
-	computeWord := func(leftTrue, leftFalse, rightTrue, rightFalse uint64) (outValid, outData uint64) {
-		return leftFalse | rightTrue | (leftTrue & rightFalse), leftTrue & rightFalse
-	}
-
-	return computeKleene(computeWord, ctx, left, right, out)
-}
-
-func (KleeneAndNotOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
-	var (
-		leftTrue  = left.IsValid() && left.(*scalar.Boolean).Value
-		leftFalse = left.IsValid() && !left.(*scalar.Boolean).Value
-	)
-
-	switch {
-	case leftFalse:
-		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-		out.Nulls = 0
-		bitutil.SetBitsTo(out.Buffers[1].Buf, out.Offset, out.Len, false)
-	case leftTrue:
-		if right.UpdateNullCount() == 0 {
-			bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
-			out.Nulls = 0
-		} else {
-			bitutil.CopyBitmap(right.Buffers[0].Buf, int(right.Offset), int(right.Len),
-				out.Buffers[0].Buf, int(out.Offset))
-		}
-		bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			out.Buffers[1].Buf, int(out.Offset))
-	default: // scalar was null: out[i] is valid iff right[i] was true
-		if right.UpdateNullCount() == 0 {
-			bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-				out.Buffers[0].Buf, int(out.Offset))
-		} else {
-			bitutil.BitmapAnd(right.Buffers[0].Buf, right.Buffers[1].Buf, right.Offset, right.Offset,
-				out.Buffers[0].Buf, out.Offset, right.Len)
-		}
-		bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
-			out.Buffers[1].Buf, int(out.Offset))
-	}
-	return nil
-}
-
-func (KleeneAndNotOpKernel) CallScalarRight(ctx *exec.KernelCtx, left *exec.ArraySpan, right scalar.Scalar, out *exec.ExecResult) error {
-	return (KleeneAndOpKernel{}).CallScalarRight(ctx, left, invertScalar(right), out)
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_amd64.go b/go/arrow/compute/internal/kernels/scalar_comparison_amd64.go
deleted file mode 100644
index bf8594e8290f7..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparison_amd64.go
+++ /dev/null
@@ -1,109 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"golang.org/x/sys/cpu"
-)
-
-var pureGo bool
-
-type cmpfn func(arrow.Type, []byte, []byte, []byte, int64, int)
-
-var comparisonMap map[CompareOperator][3]cmpfn
-
-func genCompareKernel[T arrow.NumericType](op CompareOperator) *CompareData {
-	if pureGo {
-		return genGoCompareKernel(getCmpOp[T](op))
-	}
-
-	ty := arrow.GetType[T]()
-	byteWidth := int(unsafe.Sizeof(T(0)))
-	comparisonFns := comparisonMap[op]
-	return &CompareData{
-		funcAA: func(left, right, out []byte, offset int) {
-			length := int64(len(left) / byteWidth)
-			comparisonFns[0](ty, left, right, out, length, offset)
-		},
-		funcAS: func(left, right, out []byte, offset int) {
-			length := int64(len(left) / byteWidth)
-			comparisonFns[1](ty, left, right, out, length, offset)
-		},
-		funcSA: func(left, right, out []byte, offset int) {
-			length := int64(len(right) / byteWidth)
-			comparisonFns[2](ty, left, right, out, length, offset)
-		},
-	}
-}
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		comparisonMap = map[CompareOperator][3]cmpfn{
-			CmpEQ: {
-				comparisonEqualArrArrAvx2,
-				comparisonEqualArrScalarAvx2,
-				comparisonEqualScalarArrAvx2,
-			},
-			CmpNE: {
-				comparisonNotEqualArrArrAvx2,
-				comparisonNotEqualArrScalarAvx2,
-				comparisonNotEqualScalarArrAvx2,
-			},
-			CmpGT: {
-				comparisonGreaterArrArrAvx2,
-				comparisonGreaterArrScalarAvx2,
-				comparisonGreaterScalarArrAvx2,
-			},
-			CmpGE: {
-				comparisonGreaterEqualArrArrAvx2,
-				comparisonGreaterEqualArrScalarAvx2,
-				comparisonGreaterEqualScalarArrAvx2,
-			},
-		}
-
-	} else if cpu.X86.HasSSE42 {
-		comparisonMap = map[CompareOperator][3]cmpfn{
-			CmpEQ: {
-				comparisonEqualArrArrSSE4,
-				comparisonEqualArrScalarSSE4,
-				comparisonEqualScalarArrSSE4,
-			},
-			CmpNE: {
-				comparisonNotEqualArrArrSSE4,
-				comparisonNotEqualArrScalarSSE4,
-				comparisonNotEqualScalarArrSSE4,
-			},
-			CmpGT: {
-				comparisonGreaterArrArrSSE4,
-				comparisonGreaterArrScalarSSE4,
-				comparisonGreaterScalarArrSSE4,
-			},
-			CmpGE: {
-				comparisonGreaterEqualArrArrSSE4,
-				comparisonGreaterEqualArrScalarSSE4,
-				comparisonGreaterEqualScalarArrSSE4,
-			},
-		}
-	} else {
-		pureGo = true
-	}
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.go b/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.go
deleted file mode 100644
index 220e65cafe291..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.go
+++ /dev/null
@@ -1,109 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:noescape
-func _comparison_equal_arr_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonEqualArrArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_equal_arr_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_equal_arr_scalar_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonEqualArrScalarAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_equal_arr_scalar_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_equal_scalar_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonEqualScalarArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_equal_scalar_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_not_equal_arr_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonNotEqualArrArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_not_equal_arr_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_not_equal_arr_scalar_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonNotEqualArrScalarAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_not_equal_arr_scalar_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_not_equal_scalar_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonNotEqualScalarArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_not_equal_scalar_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_arr_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterArrArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_arr_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_arr_scalar_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterArrScalarAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_arr_scalar_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_scalar_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterScalarArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_scalar_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_equal_arr_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterEqualArrArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_equal_arr_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_equal_arr_scalar_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterEqualArrScalarAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_equal_arr_scalar_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_equal_scalar_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterEqualScalarArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_equal_scalar_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.s b/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.s
deleted file mode 100644
index bfc999b808ae1..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.s
+++ /dev/null
@@ -1,67310 +0,0 @@
-//go:build go1.18 && !noasm && !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_comparison_equal_arr_arr_avx2(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_20:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_20
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5940f41                           // sete    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3940f41                           // sete    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7940f41                           // sete    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2940f41                           // sete    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6940f41                           // sete    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4940f41                           // sete    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1940f41                           // sete    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_28:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_28
-	JMP  LBB0_123
-
-LBB0_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_48:
-	LONG $0x0610fbc5             // vmovsd    xmm0, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_48
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB0_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fbc5                           // vmovsd    xmm0, qword [rsi]
-	LONG $0x4e10fbc5; BYTE $0x08               // vmovsd    xmm1, qword [rsi + 8]
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x4a2ef9c5; BYTE $0x08               // vucomisd    xmm1, qword [rdx + 8]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x4610fbc5; BYTE $0x10               // vmovsd    xmm0, qword [rsi + 16]
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0x4610fbc5; BYTE $0x18               // vmovsd    xmm0, qword [rsi + 24]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x4610fbc5; BYTE $0x20               // vmovsd    xmm0, qword [rsi + 32]
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x4610fbc5; BYTE $0x28               // vmovsd    xmm0, qword [rsi + 40]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x4610fbc5; BYTE $0x30               // vmovsd    xmm0, qword [rsi + 48]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	LONG $0x4610fbc5; BYTE $0x38               // vmovsd    xmm0, qword [rsi + 56]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x4610fbc5; BYTE $0x40               // vmovsd    xmm0, qword [rsi + 64]
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x4610fbc5; BYTE $0x48               // vmovsd    xmm0, qword [rsi + 72]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x4610fbc5; BYTE $0x50               // vmovsd    xmm0, qword [rsi + 80]
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0x4610fbc5; BYTE $0x58               // vmovsd    xmm0, qword [rsi + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x4610fbc5; BYTE $0x60               // vmovsd    xmm0, qword [rsi + 96]
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0x4610fbc5; BYTE $0x68               // vmovsd    xmm0, qword [rsi + 104]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x4610fbc5; BYTE $0x70               // vmovsd    xmm0, qword [rsi + 112]
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	LONG $0x4610fbc5; BYTE $0x78               // vmovsd    xmm0, qword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	QUAD $0x000000808610fbc5                   // vmovsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x000000888610fbc5                   // vmovsd    xmm0, qword [rsi + 136]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x000000908610fbc5                   // vmovsd    xmm0, qword [rsi + 144]
-	LONG $0xd6940f41                           // sete    r14b
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x000000988610fbc5                   // vmovsd    xmm0, qword [rsi + 152]
-	LONG $0xd4940f41                           // sete    r12b
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a08610fbc5                   // vmovsd    xmm0, qword [rsi + 160]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000a88610fbc5                   // vmovsd    xmm0, qword [rsi + 168]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	QUAD $0x000000b08610fbc5                   // vmovsd    xmm0, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	QUAD $0x000000b88610fbc5                   // vmovsd    xmm0, qword [rsi + 184]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	QUAD $0x000000c08610fbc5                   // vmovsd    xmm0, qword [rsi + 192]
-	LONG $0xd0940f41                           // sete    r8b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000000c88610fbc5                   // vmovsd    xmm0, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	QUAD $0x000000d08610fbc5                   // vmovsd    xmm0, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	QUAD $0x000000d88610fbc5                   // vmovsd    xmm0, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	QUAD $0x000000e08610fbc5                   // vmovsd    xmm0, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000000e88610fbc5                   // vmovsd    xmm0, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000000f08610fbc5                   // vmovsd    xmm0, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f88610fbc5                   // vmovsd    xmm0, qword [rsi + 248]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd7940f40                           // sete    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB0_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB0_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_56:
-	LONG $0x0410fbc5; BYTE $0xce // vmovsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042ef9c5; BYTE $0xca // vucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_56
-	JMP  LBB0_123
-
-LBB0_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB0_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x940f; BYTE $0xd1       // sete    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0940f41               // sete    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB0_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB0_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_14
-	JMP  LBB0_123
-
-LBB0_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_34:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_34
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_42:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_42
-	JMP  LBB0_123
-
-LBB0_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_70:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_70
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454940f; BYTE $0x20   // sete    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0940f41               // sete    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB0_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB0_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_78:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_78
-	JMP  LBB0_123
-
-LBB0_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454940f; BYTE $0x20   // sete    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0940f41               // sete    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB0_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB0_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_89
-	JMP  LBB0_123
-
-LBB0_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_111
-	JMP  LBB0_123
-
-LBB0_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_114:
-	LONG $0x0610fac5             // vmovss    xmm0, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_114
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB0_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fac5                           // vmovss    xmm0, dword [rsi]
-	LONG $0x4e10fac5; BYTE $0x04               // vmovss    xmm1, dword [rsi + 4]
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x4a2ef8c5; BYTE $0x04               // vucomiss    xmm1, dword [rdx + 4]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x4610fac5; BYTE $0x08               // vmovss    xmm0, dword [rsi + 8]
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0x4610fac5; BYTE $0x0c               // vmovss    xmm0, dword [rsi + 12]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x4610fac5; BYTE $0x10               // vmovss    xmm0, dword [rsi + 16]
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x4610fac5; BYTE $0x14               // vmovss    xmm0, dword [rsi + 20]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x4610fac5; BYTE $0x18               // vmovss    xmm0, dword [rsi + 24]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	LONG $0x4610fac5; BYTE $0x1c               // vmovss    xmm0, dword [rsi + 28]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x4610fac5; BYTE $0x20               // vmovss    xmm0, dword [rsi + 32]
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x4610fac5; BYTE $0x24               // vmovss    xmm0, dword [rsi + 36]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x4610fac5; BYTE $0x28               // vmovss    xmm0, dword [rsi + 40]
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0x4610fac5; BYTE $0x2c               // vmovss    xmm0, dword [rsi + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x4610fac5; BYTE $0x30               // vmovss    xmm0, dword [rsi + 48]
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0x4610fac5; BYTE $0x34               // vmovss    xmm0, dword [rsi + 52]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x4610fac5; BYTE $0x38               // vmovss    xmm0, dword [rsi + 56]
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	LONG $0x4610fac5; BYTE $0x3c               // vmovss    xmm0, dword [rsi + 60]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x4610fac5; BYTE $0x40               // vmovss    xmm0, dword [rsi + 64]
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x4610fac5; BYTE $0x44               // vmovss    xmm0, dword [rsi + 68]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0x4610fac5; BYTE $0x48               // vmovss    xmm0, dword [rsi + 72]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0x4610fac5; BYTE $0x4c               // vmovss    xmm0, dword [rsi + 76]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x4610fac5; BYTE $0x50               // vmovss    xmm0, dword [rsi + 80]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x4610fac5; BYTE $0x54               // vmovss    xmm0, dword [rsi + 84]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x4610fac5; BYTE $0x58               // vmovss    xmm0, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x4610fac5; BYTE $0x5c               // vmovss    xmm0, dword [rsi + 92]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0x4610fac5; BYTE $0x60               // vmovss    xmm0, dword [rsi + 96]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x4610fac5; BYTE $0x64               // vmovss    xmm0, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x4610fac5; BYTE $0x68               // vmovss    xmm0, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x4610fac5; BYTE $0x6c               // vmovss    xmm0, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x4610fac5; BYTE $0x70               // vmovss    xmm0, dword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	LONG $0x4610fac5; BYTE $0x74               // vmovss    xmm0, dword [rsi + 116]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	LONG $0x4610fac5; BYTE $0x78               // vmovss    xmm0, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x4610fac5; BYTE $0x7c               // vmovss    xmm0, dword [rsi + 124]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd7940f40                           // sete    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB0_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB0_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_122:
-	LONG $0x0410fac5; BYTE $0x8e // vmovss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x042ef8c5; BYTE $0x8a // vucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_122
-	JMP  LBB0_123
-
-LBB0_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_59:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_59
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB0_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x940f; BYTE $0xd1       // sete    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0940f41               // sete    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB0_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB0_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_67:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_67
-	JMP  LBB0_123
-
-LBB0_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5940f41                           // sete    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3940f41                           // sete    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7940f41                           // sete    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2940f41                           // sete    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6940f41                           // sete    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4940f41                           // sete    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1940f41                           // sete    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_100
-
-LBB0_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA1<>+0x000(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x008(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x010(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x018(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA1<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA1<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA1<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA1<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA1<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA1<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA1<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA1<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA1<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA1<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA1<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA1<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA1<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA1<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA1<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA1<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA1<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA1<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA1<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA1<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA1<>(SB), 8, $224
-
-TEXT ·_comparison_equal_arr_scalar_avx2(SB), $1320-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1280(SP)
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_13
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_25
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_49
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_57
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_164
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_7:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_7
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB1_9:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_101
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB1_11:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x48245402                           // add    dl, byte [rsp + 72]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB1_11
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB1_102
-	JMP  LBB1_164
-
-LBB1_13:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_39
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_65
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_73
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_164
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_21
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_19:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_19
-	LONG $0x01c38349             // add    r11, 1
-
-LBB1_21:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_105
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB1_23:
-	LONG $0x062ef9c5                           // vucomisd    xmm0, qword [rsi]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x462ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x462ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x462ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x462ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rsi + 32]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x462ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x462ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rsi + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x462ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rsi + 56]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x462ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rsi + 64]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x462ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rsi + 72]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x462ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x462ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x462ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x462ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x462ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x462ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rsi + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	QUAD $0x00000080862ef9c5                   // vucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	QUAD $0x00000088862ef9c5                   // vucomisd    xmm0, qword [rsi + 136]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	QUAD $0x00000090862ef9c5                   // vucomisd    xmm0, qword [rsi + 144]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	QUAD $0x00000098862ef9c5                   // vucomisd    xmm0, qword [rsi + 152]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	QUAD $0x000000a0862ef9c5                   // vucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	QUAD $0x000000a8862ef9c5                   // vucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	QUAD $0x000000b0862ef9c5                   // vucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	QUAD $0x000000b8862ef9c5                   // vucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	QUAD $0x000000c0862ef9c5                   // vucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	QUAD $0x000000c8862ef9c5                   // vucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	QUAD $0x000000d0862ef9c5                   // vucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	QUAD $0x000000d8862ef9c5                   // vucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	QUAD $0x000000e0862ef9c5                   // vucomisd    xmm0, qword [rsi + 224]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	QUAD $0x000000e8862ef9c5                   // vucomisd    xmm0, qword [rsi + 232]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	QUAD $0x000000f0862ef9c5                   // vucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	QUAD $0x000000f8862ef9c5                   // vucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000a0248c0244                   // add    r9b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB1_23
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB1_106
-	JMP  LBB1_164
-
-LBB1_25:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_81
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_164
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f6a8d4d         // lea    r13, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	WORD $0x894d; BYTE $0xd7 // mov    r15, r10
-	LONG $0xea490f4d         // cmovns    r13, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_31
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_29:
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_29
-	LONG $0x01c38349             // add    r11, 1
-
-LBB1_31:
-	LONG $0x05fdc149             // sar    r13, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB1_108
-	LONG $0x20fd8349             // cmp    r13, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x0000011824bc894c     // mov    qword [rsp + 280], r15
-	QUAD $0x0000018824ac894c     // mov    qword [rsp + 392], r13
-	JB   LBB1_35
-	WORD $0x894c; BYTE $0xe8     // mov    rax, r13
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB1_165
-	LONG $0xab048d4b             // lea    rax, [r11 + 4*r13]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB1_165
-
-LBB1_35:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-
-LBB1_36:
-	QUAD $0x0000018024ac2b4c // sub    r13, qword [rsp + 384]
-	QUAD $0x0000009824ac894c // mov    qword [rsp + 152], r13
-
-LBB1_37:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000001102494940f                   // sete    byte [rsp + 272]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x30               // add    r8b, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 320]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x58               // movzx    edi, byte [rsp + 88]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x20               // movzx    edx, byte [rsp + 32]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB1_37
-	QUAD $0x0000011824bc8b4c                   // mov    r15, qword [rsp + 280]
-	QUAD $0x0000018824ac8b4c                   // mov    r13, qword [rsp + 392]
-	JMP  LBB1_109
-
-LBB1_39:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_93
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_164
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_45
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_43:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_43
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB1_45:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_112
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-
-LBB1_47:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x48245402                           // add    dl, byte [rsp + 72]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB1_47
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB1_113
-	JMP  LBB1_164
-
-LBB1_49:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_53
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_51:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_51
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB1_53:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_116
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB1_55:
-	LONG $0x2e394466                     // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd0             // sete    al
-	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
-	LONG $0xd7940f40                     // sete    dil
-	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
-	LONG $0xd6940f41                     // sete    r14b
-	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
-	QUAD $0x000000a02494940f             // sete    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
-	QUAD $0x000000882494940f             // sete    byte [rsp + 136]
-	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
-	LONG $0x2454940f; BYTE $0x58         // sete    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
-	QUAD $0x000000982494940f             // sete    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
-	WORD $0x940f; BYTE $0xd3             // sete    bl
-	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
-	LONG $0x2454940f; BYTE $0x70         // sete    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
-	WORD $0x940f; BYTE $0xd2             // sete    dl
-	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
-	LONG $0xd1940f41                     // sete    r9b
-	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
-	LONG $0xd2940f41                     // sete    r10b
-	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
-	LONG $0xd3940f41                     // sete    r11b
-	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
-	LONG $0xd4940f41                     // sete    r12b
-	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
-	LONG $0x2454940f; BYTE $0x68         // sete    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
-	WORD $0x940f; BYTE $0xd1             // sete    cl
-	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
-	LONG $0x2454940f; BYTE $0x48         // sete    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
-	LONG $0x2454940f; BYTE $0x78         // sete    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
-	QUAD $0x000000802494940f             // sete    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
-	QUAD $0x000000902494940f             // sete    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
-	LONG $0x2454940f; BYTE $0x50         // sete    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
-	LONG $0x2454940f; BYTE $0x60         // sete    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
-	LONG $0x2454940f; BYTE $0x40         // sete    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
-	LONG $0xd7940f41                     // sete    r15b
-	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
-	LONG $0x2454940f; BYTE $0x20         // sete    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
-	LONG $0x2454940f; BYTE $0x30         // sete    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
-	LONG $0x2454940f; BYTE $0x38         // sete    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
-	LONG $0x2454940f; BYTE $0x28         // sete    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
-	QUAD $0x000001402494940f             // sete    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
-	QUAD $0x000001202494940f             // sete    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
-	LONG $0x2454940f; BYTE $0x1c         // sete    byte [rsp + 28]
-	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
-	LONG $0xd0940f41                     // sete    r8b
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	WORD $0x0840; BYTE $0xc7             // or    dil, al
-	QUAD $0x000000982484b60f             // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xc308                         // or    bl, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x70245402                     // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	LONG $0x02e1c041                     // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
-	QUAD $0x000000882494b60f             // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0xc208                         // or    dl, al
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x03e2c041                     // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58         // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	LONG $0x04e3c041                     // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x68         // movzx    edi, byte [rsp + 104]
-	LONG $0x06e7c040                     // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9             // or    cl, dil
-	WORD $0xd308                         // or    bl, dl
-	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78         // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x48245402                     // add    dl, byte [rsp + 72]
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50         // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x0000011024948b48             // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                         // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01             // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff             // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                         // add    cl, cl
-	LONG $0x20244c02                     // add    cl, byte [rsp + 32]
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28         // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000140248cb60f             // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000120248cb60f             // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0xd908                         // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c         // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8             // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
-	LONG $0x027a8844                     // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                     // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                     // add    rsi, 64
-	LONG $0x04c28348                     // add    rdx, 4
-	QUAD $0x0000011024948948             // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff // add    qword [rsp + 168], -1
-	JNE  LBB1_55
-	QUAD $0x0000011024b48b4c             // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c             // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c             // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                     // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7             // cmp    r15, r10
-	JL   LBB1_117
-	JMP  LBB1_164
-
-LBB1_57:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_59:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_59
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB1_61:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_120
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB1_63:
-	LONG $0x2e394466                     // cmp    word [rsi], r13w
-	QUAD $0x000000982494940f             // sete    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
-	LONG $0xd7940f40                     // sete    dil
-	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
-	LONG $0xd6940f41                     // sete    r14b
-	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
-	QUAD $0x000000a02494940f             // sete    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
-	QUAD $0x000000882494940f             // sete    byte [rsp + 136]
-	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
-	LONG $0x2454940f; BYTE $0x58         // sete    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
-	WORD $0x940f; BYTE $0xd0             // sete    al
-	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
-	WORD $0x940f; BYTE $0xd3             // sete    bl
-	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
-	LONG $0x2454940f; BYTE $0x68         // sete    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
-	WORD $0x940f; BYTE $0xd2             // sete    dl
-	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
-	LONG $0xd1940f41                     // sete    r9b
-	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
-	LONG $0xd2940f41                     // sete    r10b
-	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
-	LONG $0xd3940f41                     // sete    r11b
-	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
-	LONG $0xd4940f41                     // sete    r12b
-	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
-	LONG $0x2454940f; BYTE $0x70         // sete    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
-	WORD $0x940f; BYTE $0xd1             // sete    cl
-	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
-	LONG $0x2454940f; BYTE $0x48         // sete    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
-	LONG $0x2454940f; BYTE $0x78         // sete    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
-	QUAD $0x000000802494940f             // sete    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
-	QUAD $0x000000902494940f             // sete    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
-	LONG $0x2454940f; BYTE $0x50         // sete    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
-	LONG $0x2454940f; BYTE $0x60         // sete    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
-	LONG $0x2454940f; BYTE $0x40         // sete    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
-	LONG $0xd7940f41                     // sete    r15b
-	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
-	LONG $0x2454940f; BYTE $0x20         // sete    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
-	LONG $0x2454940f; BYTE $0x30         // sete    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
-	LONG $0x2454940f; BYTE $0x38         // sete    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
-	LONG $0x2454940f; BYTE $0x28         // sete    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
-	QUAD $0x000001402494940f             // sete    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
-	QUAD $0x000001202494940f             // sete    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
-	LONG $0x2454940f; BYTE $0x1c         // sete    byte [rsp + 28]
-	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
-	LONG $0xd0940f41                     // sete    r8b
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	QUAD $0x0000009824bc0240             // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xc308                         // or    bl, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x68245402                     // add    dl, byte [rsp + 104]
-	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	LONG $0x02e1c041                     // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
-	QUAD $0x000000882494b60f             // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0xc208                         // or    dl, al
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x03e2c041                     // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58         // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	LONG $0x04e3c041                     // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70         // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                     // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9             // or    cl, dil
-	WORD $0xd308                         // or    bl, dl
-	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78         // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x48245402                     // add    dl, byte [rsp + 72]
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50         // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x0000011024948b48             // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                         // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01             // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff             // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                         // add    cl, cl
-	LONG $0x20244c02                     // add    cl, byte [rsp + 32]
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28         // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000140248cb60f             // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000120248cb60f             // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0xd908                         // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c         // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8             // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
-	LONG $0x027a8844                     // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                     // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                     // add    rsi, 64
-	LONG $0x04c28348                     // add    rdx, 4
-	QUAD $0x0000011024948948             // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff // add    qword [rsp + 168], -1
-	JNE  LBB1_63
-	QUAD $0x0000011024b48b4c             // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c             // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c             // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                     // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7             // cmp    r15, r10
-	JL   LBB1_121
-	JMP  LBB1_164
-
-LBB1_65:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_69
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_67:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_67
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB1_69:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_123
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB1_71:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x48245402                           // add    dl, byte [rsp + 72]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB1_71
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB1_124
-	JMP  LBB1_164
-
-LBB1_73:
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_77
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_75:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_75
-	LONG $0x01c38349             // add    r11, 1
-
-LBB1_77:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_126
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB1_79:
-	LONG $0x062ef8c5                           // vucomiss    xmm0, dword [rsi]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x462ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x462ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rsi + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x462ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rsi + 12]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x462ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rsi + 16]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x462ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rsi + 20]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x462ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rsi + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x462ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rsi + 28]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x462ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rsi + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x462ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rsi + 36]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x462ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rsi + 40]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x462ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rsi + 44]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x462ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rsi + 48]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x462ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rsi + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x462ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rsi + 56]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x462ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rsi + 60]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x462ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rsi + 64]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x462ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rsi + 68]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x462ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rsi + 72]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x462ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rsi + 76]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x462ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rsi + 80]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x462ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rsi + 84]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x462ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x462ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rsi + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x462ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rsi + 96]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x462ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x462ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x462ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x462ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rsi + 112]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x462ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rsi + 116]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x462ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x462ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rsi + 124]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000a0248c0244                   // add    r9b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB1_79
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB1_127
-	JMP  LBB1_164
-
-LBB1_81:
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_85
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_83:
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_83
-	LONG $0x01c38349             // add    r11, 1
-
-LBB1_85:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB1_129
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
-	JB   LBB1_89
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB1_168
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB1_168
-
-LBB1_89:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-
-LBB1_90:
-	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-
-LBB1_91:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000001102494940f                   // sete    byte [rsp + 272]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 320]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x50               // movzx    edi, byte [rsp + 80]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB1_91
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	JMP  LBB1_130
-
-LBB1_93:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_97
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_95:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_95
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB1_97:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_133
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-
-LBB1_99:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x48245402                           // add    dl, byte [rsp + 72]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB1_99
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB1_134
-	JMP  LBB1_164
-
-LBB1_101:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_102:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB1_135
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_104:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_104
-	JMP  LBB1_161
-
-LBB1_105:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_106:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_136
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_138
-
-LBB1_108:
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB1_109:
-	LONG $0x05e5c149         // shl    r13, 5
-	WORD $0x394d; BYTE $0xfd // cmp    r13, r15
-	JGE  LBB1_164
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xe8 // sub    r8, r13
-	WORD $0xf749; BYTE $0xd5 // not    r13
-	WORD $0x014d; BYTE $0xfd // add    r13, r15
-	JE   LBB1_132
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
-
-LBB1_141:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_141
-	JMP  LBB1_156
-
-LBB1_112:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_113:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB1_125
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_115:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_115
-	JMP  LBB1_148
-
-LBB1_116:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_117:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB1_122
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_119:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_119
-	JMP  LBB1_144
-
-LBB1_120:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_121:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_142
-
-LBB1_122:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_144
-
-LBB1_123:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_124:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_146
-
-LBB1_125:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_148
-
-LBB1_126:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_127:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_150
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_152
-
-LBB1_129:
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB1_130:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_154
-
-LBB1_132:
-	WORD $0xf631  // xor    esi, esi
-	JMP  LBB1_157
-
-LBB1_133:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_164
-
-LBB1_134:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_159
-
-LBB1_135:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_161
-
-LBB1_136:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_137:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_137
-
-LBB1_138:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB1_164
-	LONG $0x062ef9c5 // vucomisd    xmm0, qword [rsi]
-	JMP  LBB1_163
-
-LBB1_142:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_143:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_143
-
-LBB1_144:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB1_164
-	LONG $0x2e394466 // cmp    word [rsi], r13w
-	JMP  LBB1_163
-
-LBB1_146:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_147:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_147
-
-LBB1_148:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_164
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-	JMP  LBB1_163
-
-LBB1_150:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_151:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_151
-
-LBB1_152:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB1_164
-	LONG $0x062ef8c5 // vucomiss    xmm0, dword [rsi]
-	JMP  LBB1_163
-
-LBB1_154:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
-
-LBB1_155:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_155
-
-LBB1_156:
-	WORD $0x0149; BYTE $0xf4 // add    r12, rsi
-
-LBB1_157:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_164
-	LONG $0x24343845         // cmp    byte [r12], r14b
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000017824848b4c // mov    r8, qword [rsp + 376]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB1_164
-
-LBB1_159:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_160:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_160
-
-LBB1_161:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_164
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-
-LBB1_163:
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-
-LBB1_164:
-	MOVQ 1280(SP), SP
-	VZEROUPPER
-	RET
-
-LBB1_165:
-	LONG $0xe0e58349                     // and    r13, -32
-	WORD $0x894c; BYTE $0xe8             // mov    rax, r13
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	QUAD $0x0000018024ac894c             // mov    qword [rsp + 384], r13
-	LONG $0xab048d4b                     // lea    rax, [r11 + 4*r13]
-	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
-
-LBB1_166:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x0000010824848948                   // mov    qword [rsp + 264], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x1644b60f; BYTE $0x01               // movzx    eax, byte [rsi + rdx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x80cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 640
-	QUAD $0x000000b024bc894c                   // mov    qword [rsp + 176], r15
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0xa0cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 672
-	QUAD $0x000000c8249c894c                   // mov    qword [rsp + 200], r11
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	LONG $0xc0c88149; WORD $0x0002; BYTE $0x00 // or    r8, 704
-	QUAD $0x000000a82484894c                   // mov    qword [rsp + 168], r8
-	WORD $0x8948; BYTE $0xda                   // mov    rdx, rbx
-	LONG $0xe0ca8148; WORD $0x0002; BYTE $0x00 // or    rdx, 736
-	QUAD $0x000000c024948948                   // mov    qword [rsp + 192], rdx
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x00cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 768
-	QUAD $0x000000d824a4894c                   // mov    qword [rsp + 216], r12
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x20ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 800
-	QUAD $0x000000b824b4894c                   // mov    qword [rsp + 184], r14
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
-	LONG $0x2454894c; BYTE $0x50               // mov    qword [rsp + 80], r10
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	LONG $0x60c98149; WORD $0x0003; BYTE $0x00 // or    r9, 864
-	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
-	QUAD $0x000000f824848948                   // mov    qword [rsp + 248], rax
-	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
-	LONG $0xa0cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 928
-	LONG $0x247c8948; BYTE $0x70               // mov    qword [rsp + 112], rdi
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x00000100249c8948                   // mov    qword [rsp + 256], rbx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x38               // mov    qword [rsp + 56], rcx
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	LONG $0x2031e3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + rbx], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 4
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 5
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + r8], 6
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 7
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 8
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 9
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r10], 10
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r9], 11
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r13], 12
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 1
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r12], 2
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 3
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 4
-	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 5
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 6
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 10
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 14
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x040116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 4
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x070116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 7
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x080116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 8
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
-	QUAD $0x0c012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0e012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 14
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
-	QUAD $0x0101366c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r14 + 1], 1
-	QUAD $0x0201266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 2
-	QUAD $0x0301166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 3
-	QUAD $0x04011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 4
-	QUAD $0x0501066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 5
-	QUAD $0x06010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 6
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0a011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 10
-	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x010216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 1
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x02020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 2
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x060206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x080226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 2], 8
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0a020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0c0236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 12
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
-	QUAD $0x0602065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 2], 6
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x0b02065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 2], 11
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x010316642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + rdx + 3], 1
-	QUAD $0x02030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 2
-	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x04030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 4
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x05030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 5
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x06030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 6
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x070306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 7
-	QUAD $0x080326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 8
-	QUAD $0x09032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 9
-	QUAD $0x0a030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 10
-	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
-	QUAD $0x0c0336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 12
-	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0303166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 3
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x04033e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 3], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0603066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 6
-	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	QUAD $0x08031e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 3], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0903066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	QUAD $0x0f031e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x010406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 1
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x020406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x05040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x060406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 6
-	QUAD $0x070406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 7
-	QUAD $0x080426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 11
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0c0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 12
-	QUAD $0x0d0436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 4], 13
-	QUAD $0x0e0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 14
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0104065c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rsi + rax + 4], 1
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0204165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 2
-	QUAD $0x0304165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 3
-	QUAD $0x04043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 4
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0504165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 6
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0704365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 7
-	QUAD $0x08041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 8
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x09041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 10
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0b041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 11
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0c04065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 13
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0e043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 14
-	QUAD $0x0f040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 15
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x01050e642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r9 + 5], 1
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x02053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 2
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x03050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 3
-	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
-	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x06050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 6
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x07050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 7
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x080506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 11
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0c0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
-	QUAD $0x0f0526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0105066c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rax + 5], 1
-	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0405166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 4
-	QUAD $0x0505166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 5], 5
-	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	QUAD $0x0705366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 7
-	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
-	QUAD $0x0805366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 8
-	QUAD $0x09051e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 5], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
-	QUAD $0x0b051e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 5], 11
-	QUAD $0x0c05066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 5], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0506442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 5], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x010606442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + rax + 6], 1
-	QUAD $0x02063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 2
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x03060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 3
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x04061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 4
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x050616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 5
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x06061e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 6], 6
-	QUAD $0x07062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 7
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x08060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 8
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x09062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 9
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0a060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 11
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x0c0626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 6], 12
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x0d0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 13
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0e060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 15
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01060e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rcx + 6], 1
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x02060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 2
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
-	QUAD $0x0606166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 6], 6
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x07060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 7
-	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
-	QUAD $0x0806366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 8
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x09060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0b06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0d06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 13
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0e06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 14
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0f06366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 15
-	QUAD $0x010706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 1
-	QUAD $0x02073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 2
-	QUAD $0x03070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 3
-	QUAD $0x04071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 4
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
-	QUAD $0x06071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x08071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 8
-	QUAD $0x09072e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 7], 9
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0a0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 11
-	QUAD $0x0c0726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 7], 12
-	QUAD $0x0d0706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 14
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0f0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 15
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0107164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 1
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0207164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 2
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0307164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 3
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0407164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 4
-	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0607164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 6
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x07073e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 7], 7
-	QUAD $0x0807164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 7], 8
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0907164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 9
-	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x0b072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 11
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0c070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0e070e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rcx + 7], 14
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f070e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x010806442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + rax + 8], 1
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x020826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 8], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
-	QUAD $0x04081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 4
-	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
-	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x060806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x070816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 7
-	QUAD $0x08081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 8
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x090806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 8], 9
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0a0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 10
-	QUAD $0x0b080e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 8], 11
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x0c081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 15
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0108166c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rdx + 8], 1
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0208366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 8], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x03083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0608166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 6
-	QUAD $0x07083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 7
-	QUAD $0x0808166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 8], 8
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x09080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 9
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x0a083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 10
-	QUAD $0x0b082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x0f082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 15
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x01092e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r13 + 9], 1
-	QUAD $0x020926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 2
-	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x04090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 4
-	QUAD $0x05091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 5
-	QUAD $0x060906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x070916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x080906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 8
-	QUAD $0x090906742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r8 + 9], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 11
-	QUAD $0x0c091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0109067c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rax + 9], 1
-	QUAD $0x0209367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
-	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0609067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0709067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 7
-	QUAD $0x0809167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 8
-	QUAD $0x09090e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 9], 9
-	QUAD $0x0a093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0d093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00044024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm5
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x020a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x040a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 4
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x050a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x060a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 6
-	QUAD $0x070a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 7
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x080a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 8
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x090a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 10
-	QUAD $0x0b0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 11
-	QUAD $0x0c0a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 13
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0e0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 15
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x010a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x020a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	QUAD $0x040a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x050a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 5
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x060a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 7
-	QUAD $0x080a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0a0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 11
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0c0a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 12
-	QUAD $0x0d0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 13
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0e0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 15
-	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
-	QUAD $0x020b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x030b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 3
-	QUAD $0x040b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 4
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x050b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 5
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x060b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 6
-	QUAD $0x070b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 7
-	WORD $0x8949; BYTE $0xd1                   // mov    r9, rdx
-	QUAD $0x080b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 8
-	QUAD $0x090b264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 11], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 11
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
-	QUAD $0x0d0b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x0f0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 15
-	QUAD $0x010b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
-	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x040b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 4
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x050b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 5
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x060b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 6
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x070b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 7
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	QUAD $0x080b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 8
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x090b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 9
-	QUAD $0x0a0b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 10
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0b0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 11
-	QUAD $0x0c0b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0e0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 14
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x010c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 1
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x020c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x030c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 3
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x040c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 4
-	QUAD $0x050c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 5
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	QUAD $0x060c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 6
-	QUAD $0x070c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 7
-	QUAD $0x080c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 8
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x090c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 9
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0a0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 11
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x0c0c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 13
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0e0c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 12], 14
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	QUAD $0x0f0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 15
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x010c2e542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + r13 + 12], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x030c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 3
-	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x050c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x070c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 7
-	QUAD $0x080c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 10
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0b0c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 11
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0c0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 13
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0e0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 14
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 15
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x010d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 1
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x020d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x030d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 3
-	QUAD $0x040d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 4
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x050d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 5
-	QUAD $0x060d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 6
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x070d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 7
-	QUAD $0x080d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 8
-	QUAD $0x090d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 9
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0a0d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 11
-	QUAD $0x0c0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 12
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x0d0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 13
-	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
-	QUAD $0x0f0d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 15
-	QUAD $0x010d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 1
-	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x030d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x040d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 4
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x050d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 5
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x060d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 6
-	QUAD $0x070d3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 13], 7
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x080d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 8
-	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 10
-	QUAD $0x0b0d264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 13], 11
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0c0d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x0e36             // movzx    edi, byte [rsi + r14 + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x010e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 1
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x020e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x030e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 3
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x040e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 14], 4
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x060e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 9
-	QUAD $0x0a0e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 10
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0b0e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 11
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0c0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 12
-	QUAD $0x0d0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 15
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x010e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x040e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x050e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 5
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x060e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 7
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x090e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 10
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
-	QUAD $0x0c0e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 13
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
-	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
-	QUAD $0x020f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 2
-	QUAD $0x030f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 3
-	QUAD $0x040f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 4
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x050f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 5
-	QUAD $0x060f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x070f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 7
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x080f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x090f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 9
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0a0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 10
-	QUAD $0x0b0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 11
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x0c0f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 13
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x0e0f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
-	LONG $0x7cb60f42; WORD $0x0f36             // movzx    edi, byte [rsi + r14 + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x010f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 1
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
-	QUAD $0x040f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 4
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x050f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 5
-	QUAD $0x060f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 6
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x070f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 7
-	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x090f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 10
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0b0f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 14
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x0f0f3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rax + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x011036442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 16], 1
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x021006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 2
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x03101e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 16], 3
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x041006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 4
-	QUAD $0x05101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 5
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x06100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 6
-	QUAD $0x071016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 7
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x081016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 9
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0a101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 11
-	QUAD $0x0c102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 13
-	QUAD $0x0e1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdi + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x01103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x02103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x03103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 4
-	QUAD $0x05100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 5
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x06100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 6
-	QUAD $0x0710164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 7
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x08100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x09103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 10
-	QUAD $0x0b10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0c103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 12
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0d10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 13
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0e102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 14
-	QUAD $0x0f103e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 16], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rdi + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 1
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x021106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 2
-	QUAD $0x03111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 3
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x041116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 4
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x05113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 5
-	QUAD $0x06110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x07113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 7
-	QUAD $0x081116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 8
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x091116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 9
-	QUAD $0x0a111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 10
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0b111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 11
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x0c1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 14
-	QUAD $0x0f1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0111365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 1
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x02113e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 17], 2
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x03110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 3
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0411165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0511065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0611065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 6
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x07111e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 17], 7
-	QUAD $0x08110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 8
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x09110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 12
-	QUAD $0x0d11265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 13
-	QUAD $0x0e112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f1106442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rax + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
-	QUAD $0x021206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x031206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 3
-	QUAD $0x041216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 4
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x051206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 5
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x061206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x071206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x081206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 9
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0a1216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 10
-	QUAD $0x0b121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 11
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0e123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rdi + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0112364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 1
-	QUAD $0x02123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 2
-	QUAD $0x03120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 3
-	QUAD $0x0412164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 4
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0512164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 5
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x0612364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 6
-	QUAD $0x07121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 7
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	QUAD $0x0812164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 8
-	QUAD $0x09120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x0b123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 13
-	QUAD $0x0e122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x02133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x04133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 4
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x05132e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 19], 5
-	QUAD $0x061306542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 19], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
-	QUAD $0x091306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 9
-	QUAD $0x0a1316542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 19], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 11
-	QUAD $0x0c1326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 12
-	QUAD $0x0d131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 13
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0e130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 15
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1316             // movzx    edi, byte [rsi + r10 + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0113065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 1
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0213065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0313065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0413065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0513065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 5
-	QUAD $0x0613365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0713065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 7
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0813065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0913065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 9
-	QUAD $0x0a130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 10
-	QUAD $0x0b133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 11
-	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 14
-	QUAD $0x0f131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x141e             // movzx    edi, byte [rsi + r11 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x011406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 1
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x03143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 3
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x04143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 4
-	QUAD $0x05142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x06143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 6
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x07142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 7
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x08143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 8
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x09143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 9
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0a1426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 11
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x0c143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 13
-	QUAD $0x0e140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 14
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x0f1436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 15
-	LONG $0x7cb60f42; WORD $0x1416             // movzx    edi, byte [rsi + r10 + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x01141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 1
-	QUAD $0x0214064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 2
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0314064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 4
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x05143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 6
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x0714164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 7
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x09143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x0c140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0e143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 14
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
-	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 1
-	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x041506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 4
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x051506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x061506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 6
-	QUAD $0x07152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 7
-	QUAD $0x08153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 9
-	QUAD $0x0a1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 10
-	QUAD $0x0b150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 11
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x0c1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
-	QUAD $0x0f1536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 15
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
-	QUAD $0x0315065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x04150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0515065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0615065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 6
-	QUAD $0x0715165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 7
-	QUAD $0x0000010824ac8b4c                   // mov    r13, qword [rsp + 264]
-	QUAD $0x08152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x09153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 9
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x0a153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 10
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x0b151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 11
-	QUAD $0x0c150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 12
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	QUAD $0x0d15065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 13
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0e153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x0f1516442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r10 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x02163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 2
-	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x041616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 4
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x061616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x071616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 7
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x081616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 8
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x091616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 9
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0a1636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
-	QUAD $0x0c1626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 13
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0e160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
-	LONG $0x7cb60f42; WORD $0x161e             // movzx    edi, byte [rsi + r11 + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x02163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 2
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x0316264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 3
-	QUAD $0x04160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 4
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x05160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 5
-	QUAD $0x0616064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 6
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	QUAD $0x07161e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 22], 7
-	QUAD $0x08162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0916064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 9
-	QUAD $0x0a163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 10
-	QUAD $0x0b161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 11
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x0c163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 12
-	QUAD $0x0d16064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 22], 13
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0e160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 14
-	QUAD $0x0f16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x011716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 1
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x021706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x03173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 3
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x04173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 4
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x05173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 5
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x06172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x07173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x08173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 8
-	QUAD $0x091716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 9
-	QUAD $0x0a1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 10
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0b1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 11
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0c1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 12
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x0d171e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 23], 13
-	QUAD $0x0e170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 14
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0f1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x01170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x02173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 2
-	QUAD $0x0317265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 4
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x05173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 6
-	QUAD $0x07171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 7
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	QUAD $0x0817265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 8
-	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0a171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
-	QUAD $0x0c173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 13
-	QUAD $0x0e170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 14
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 1
-	QUAD $0x021806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 2
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x031816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 3
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x04183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 4
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x05183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 5
-	QUAD $0x06182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 6
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x071806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x08183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 8
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x09182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 9
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0a183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 11
-	QUAD $0x0c1836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 12
-	QUAD $0x0d181e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 24], 13
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0e183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 14
-	QUAD $0x0f1816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 15
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdx + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x01180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 1
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x02180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x03183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 4
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x05183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 6
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x07183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 7
-	QUAD $0x0818264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x09183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 9
-	QUAD $0x0a181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 10
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0b183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 11
-	QUAD $0x0c183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 12
-	QUAD $0x0d18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 14
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0f181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 15
-	LONG $0x0e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rcx + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x011906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 1
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x02191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 2
-	QUAD $0x031916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 3
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x051936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x061906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 6
-	QUAD $0x071906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 7
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x08190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 8
-	QUAD $0x09192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 9
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0a193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 10
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0b1906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 11
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0c1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 15
-	LONG $0x167cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdx + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x0119265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 1
-	QUAD $0x02190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0319065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0419065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0519065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 5
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x06192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0719065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 7
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0819065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 8
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0919165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0d19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 13
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0e19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	QUAD $0x0f191e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r11 + 25], 15
-	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x1a1e             // movzx    edi, byte [rsi + r11 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
-	QUAD $0x021a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x031a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 3
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
-	QUAD $0x051a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 5
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x061a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x071a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 7
-	QUAD $0x081a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x091a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 9
-	QUAD $0x0a1a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 10
-	QUAD $0x0b1a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 11
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0c1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 12
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x0d1a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 13
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0e1a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f1a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rcx + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 1
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x021a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 2
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x031a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x041a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 4
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x051a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 5
-	QUAD $0x061a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 6
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x071a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 7
-	QUAD $0x0000010824ac8b4c                   // mov    r13, qword [rsp + 264]
-	QUAD $0x081a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 8
-	QUAD $0x091a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a1a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 10
-	QUAD $0x0b1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 12
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0d1a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 13
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0e1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 15
-	LONG $0x7cb60f42; WORD $0x1b1e             // movzx    edi, byte [rsi + r11 + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x011b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 1
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x021b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 2
-	QUAD $0x031b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 3
-	QUAD $0x041b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 4
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	QUAD $0x051b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 5
-	QUAD $0x061b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x071b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 7
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x081b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 8
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x091b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 9
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0a1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 10
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0b1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 11
-	QUAD $0x0c1b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 12
-	QUAD $0x0d1b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 27], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 14
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0f1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 15
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rdx + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x011b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 1
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x021b0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 27], 2
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x031b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 3
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x041b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 4
-	QUAD $0x051b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 5
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x061b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 6
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x071b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 7
-	QUAD $0x081b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x091b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 9
-	QUAD $0x0a1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 10
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0b1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 11
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0c1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 12
-	QUAD $0x0d1b165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 27], 13
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0e1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 14
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rcx + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 1
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x021c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x031c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 3
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x041c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 4
-	QUAD $0x051c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x061c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 6
-	QUAD $0x071c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x081c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 8
-	QUAD $0x091c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 11
-	QUAD $0x000000f8249c8b48                   // mov    rbx, qword [rsp + 248]
-	QUAD $0x0c1c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 13
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0e1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 15
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1c26             // movzx    edi, byte [rsi + r12 + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
-	QUAD $0x021c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 2
-	QUAD $0x031c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 3
-	QUAD $0x041c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 4
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x051c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 5
-	QUAD $0x061c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 6
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x071c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 7
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	QUAD $0x081c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x091c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 9
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0a1c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 10
-	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
-	QUAD $0x0b1c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c1c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 13
-	QUAD $0x0e1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 14
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0f1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x011d2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 29], 1
-	QUAD $0x021d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x031d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 3
-	QUAD $0x041d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 4
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x051d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x061d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x071d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x081d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 8
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0a1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 11
-	QUAD $0x0c1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 13
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0e1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 15
-	LONG $0x7cb60f42; WORD $0x1d26             // movzx    edi, byte [rsi + r12 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x011d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 1
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x021d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x031d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 3
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x041d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 4
-	QUAD $0x051d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x061d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 6
-	QUAD $0x071d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 7
-	QUAD $0x081d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 29], 8
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x091d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 9
-	QUAD $0x0a1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 10
-	QUAD $0x0b1d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 11
-	QUAD $0x0c1d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 12
-	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
-	QUAD $0x0d1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 13
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x0e1d16642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r10 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0f1d16442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + rdx + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x1e06             // movzx    edi, byte [rsi + r8 + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 30], 1
-	LONG $0x7cb60f42; WORD $0x1f06             // movzx    edi, byte [rsi + r8 + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 31], 1
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	QUAD $0x031e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 3
-	QUAD $0x031f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 3
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x051e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 30], 5
-	QUAD $0x051f1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 31], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
-	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0a1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e44b60f; BYTE $0x1e               // movzx    eax, byte [rsi + rcx + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 1
-	LONG $0x0e44b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rcx + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
-	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 4
-	QUAD $0x041f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 4
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	QUAD $0x071e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 7
-	QUAD $0x071f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 7
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x081e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 8
-	QUAD $0x081f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 8
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x091e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 9
-	QUAD $0x091f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
-	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
-	QUAD $0x0c1e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 12
-	QUAD $0x0c1f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
-	QUAD $0x0e1e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 14
-	QUAD $0x0e1f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 14
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x0f1e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 30], 15
-	QUAD $0x0f1f167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00020024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 512]
-	QUAD $0x0004c0249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 1216]
-	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
-	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
-	LONG $0xf87485c5                           // vpcmpeqb    ymm7, ymm15, ymm0
-	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
-	QUAD $0x0001e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI1_1] */
-	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0001c024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 448]
-	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI1_2] */
-	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
-	LONG $0xe0740dc5                           // vpcmpeqb    ymm12, ymm14, ymm0
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI1_3] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 416]
-	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI1_4] */
-	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
-	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0004a024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1184]
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI1_5] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x00048024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1152]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
-	QUAD $0x00044024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1088]
-	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
-	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
-	QUAD $0x00046024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1120]
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	QUAD $0x000420249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1056]
-	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
-	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000400249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1024]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0003e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 992]
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	QUAD $0x0003c024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 960]
-	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
-	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000380249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 896]
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	QUAD $0x0003a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 928]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
-	QUAD $0x00034024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 832]
-	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
-	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
-	QUAD $0x000360249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 864]
-	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
-	QUAD $0x00030024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 768]
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000320249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 800]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0002c024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 704]
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	QUAD $0x0002e024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 736]
-	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
-	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
-	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
-	QUAD $0x0002a0249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 672]
-	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
-	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
-	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
-	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
-	QUAD $0x00022024ac74fdc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm0, yword [rsp + 544]
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x00024024b474fdc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm0, yword [rsp + 576]
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	QUAD $0x000280249c74fdc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm0, yword [rsp + 640]
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
-	QUAD $0x00026024a474fdc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm0, yword [rsp + 608]
-	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI1_4] */
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000140248c74fdc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm0, yword [rsp + 320]
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	QUAD $0x000120249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 288]
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
-	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB1_166
-	QUAD $0x0000018824ac8b4c                   // mov    r13, qword [rsp + 392]
-	QUAD $0x0000018024ac3b4c                   // cmp    r13, qword [rsp + 384]
-	QUAD $0x0000011824bc8b4c                   // mov    r15, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
-	JNE  LBB1_36
-	JMP  LBB1_109
-
-LBB1_168:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
-	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
-
-LBB1_169:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rcx + 2]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x000000f824948948                   // mov    qword [rsp + 248], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	LONG $0x40cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 576
-	QUAD $0x00000100249c8948                   // mov    qword [rsp + 256], rbx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	LONG $0x80cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 640
-	QUAD $0x000000d024a4894c                   // mov    qword [rsp + 208], r12
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0xa0ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 672
-	QUAD $0x0000009024b4894c                   // mov    qword [rsp + 144], r14
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xe0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 736
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x00c98149; WORD $0x0003; BYTE $0x00 // or    r9, 768
-	QUAD $0x000000e0248c894c                   // mov    qword [rsp + 224], r9
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
-	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
-	QUAD $0x000000c0249c894c                   // mov    qword [rsp + 192], r11
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x60ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 864
-	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
-	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xa0ca8148; WORD $0x0003; BYTE $0x00 // or    rdx, 928
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000108248c8948                   // mov    qword [rsp + 264], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
-	LONG $0x2031e3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + rbx], 2
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 4
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 5
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 6
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 7
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x000000a024bc8948                   // mov    qword [rsp + 160], rdi
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r9], 8
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 9
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r11], 10
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r10], 11
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r8], 12
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 1
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 2
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r12], 3
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 4
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 5
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 6
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 10
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 14
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x040116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 4
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
-	QUAD $0x07012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 7
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x08012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 8
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x09012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 9
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 12
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0e0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 14
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
-	QUAD $0x0101366c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r14 + 1], 1
-	QUAD $0x0201166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 2
-	QUAD $0x0301266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 3
-	QUAD $0x0401066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 4
-	QUAD $0x05011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 5
-	QUAD $0x06010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 6
-	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0a011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 10
-	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x010206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 1
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x02020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 2
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x06020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 6
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x070216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x080206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 8
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x0a022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0c0236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 12
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 6
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x010306642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + r8 + 3], 1
-	QUAD $0x02030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 2
-	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x04031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 5
-	QUAD $0x06030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 6
-	QUAD $0x070316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 7
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x080316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 8
-	QUAD $0x090326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 9
-	QUAD $0x0a032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 10
-	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
-	QUAD $0x0c0336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 12
-	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0e030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 14
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0f031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x02031e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 3], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0503166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 5
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x0603366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 6
-	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0803066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 8
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x09033e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 3], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0f0326442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x010406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x020406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
-	QUAD $0x05040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 5
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x060406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x070406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 7
-	QUAD $0x080416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x090406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 13
-	QUAD $0x0e040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 14
-	QUAD $0x0f041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 15
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0104065c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rsi + rax + 4], 1
-	QUAD $0x02041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 2
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x03041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0404065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 4
-	QUAD $0x0504165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 5
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x0604365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 6
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0704165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 7
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x08040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 8
-	QUAD $0x09043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 9
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0a041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 10
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0b04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 13
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x0e043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 14
-	QUAD $0x0f04265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 15
-	QUAD $0x010506642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r8 + 5], 1
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x02053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 2
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x03051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 3
-	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
-	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x06052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x07050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 7
-	QUAD $0x080516642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 5], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 9
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0a050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0b0516642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 5], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 12
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x0d0506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 15
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x0105266c2049a3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + r12 + 5], 1
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
-	QUAD $0x03051e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 5], 3
-	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0505066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 5
-	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
-	QUAD $0x0705166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 5], 7
-	QUAD $0x08050e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 5], 8
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x09050e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 5], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
-	QUAD $0x0b05366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0506442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 5], 15
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x01061e442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r11 + 6], 1
-	QUAD $0x02063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 2
-	QUAD $0x03061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 3
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x040606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x050606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 5
-	QUAD $0x06062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 6
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x070616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x080606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x090606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 9
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0a0636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b0616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 12
-	QUAD $0x0d0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
-	QUAD $0x0f060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 15
-	QUAD $0x0106266c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + r12 + 6], 1
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x02060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x06061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 6
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x07060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 7
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0806266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 6], 8
-	QUAD $0x09060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 9
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x0b060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 11
-	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
-	QUAD $0x0c06066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 6], 12
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 14
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 15
-	QUAD $0x01071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 1
-	QUAD $0x02073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 3
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x04071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 5
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x06070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 6
-	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x080716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 9
-	QUAD $0x0a0736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 10
-	QUAD $0x0b0716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 11
-	QUAD $0x0c0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 13
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0e073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 15
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x01070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 1
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x02070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 3
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0407164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 4
-	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
-	QUAD $0x06071e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 7], 6
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x07072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 7
-	QUAD $0x0807264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 8
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0907164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 9
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
-	QUAD $0x0b070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 11
-	QUAD $0x0c07064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 7], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e070e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rcx + 7], 14
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f070e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x01080e442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + rcx + 8], 1
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x020806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 8], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
-	QUAD $0x04081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 5
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x06080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 6
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x070816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 7
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x080836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 8
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x090816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 8], 9
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0a081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0b0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 11
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0c0826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 8], 12
-	QUAD $0x0d0806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 13
-	QUAD $0x0e083e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 8], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 15
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0108066c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rax + 8], 1
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x02080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0308066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0508066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 5
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x06083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 6
-	QUAD $0x07082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0808066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0908066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a08066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 10
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0b08066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0f08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 15
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x01092e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r13 + 9], 1
-	QUAD $0x020906742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r8 + 9], 2
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x030916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 3
-	QUAD $0x04091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 4
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x050916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 5
-	QUAD $0x06090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x07090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 7
-	QUAD $0x080936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 8
-	QUAD $0x090916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 9
-	QUAD $0x0a091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 11
-	QUAD $0x0c0926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 12
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x0d090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 14
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0f092e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r13 + 9], 15
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x01090e7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rcx + 9], 1
-	QUAD $0x02090e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 9], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 3
-	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x05091e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 9], 5
-	QUAD $0x06093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 6
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x07091e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 9], 7
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x08090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 8
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x09090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 9
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 10
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00044024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm5
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x010a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 1
-	QUAD $0x020a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x030a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 3
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x040a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 4
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x050a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 5
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x060a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 6
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x070a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 7
-	QUAD $0x080a365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 10], 8
-	QUAD $0x090a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 12
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	QUAD $0x0d0a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 13
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0e0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 14
-	QUAD $0x0f0a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 15
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x010a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 1
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x020a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 2
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x040a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 4
-	QUAD $0x050a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 5
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x060a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 6
-	QUAD $0x070a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x080a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0a0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 10
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0b0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 14
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0f0a2e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 10], 15
-	QUAD $0x010b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 1
-	QUAD $0x020b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 2
-	QUAD $0x030b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 3
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x040b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 4
-	QUAD $0x050b264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 11], 5
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x060b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 6
-	QUAD $0x070b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 7
-	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
-	QUAD $0x080b364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 11], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x090b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 9
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0a0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0b0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 12
-	QUAD $0x0d0b164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 11], 13
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	QUAD $0x0e0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 14
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0f0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 15
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x010b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 11], 1
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x020b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 2
-	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x040b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 4
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x050b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 5
-	QUAD $0x060b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 6
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x070b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 11], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x080b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 8
-	QUAD $0x090b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 10
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0b0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
-	QUAD $0x0e0b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 11], 14
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x010c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x020c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 2
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x030c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 3
-	QUAD $0x040c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 4
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x050c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 12], 5
-	QUAD $0x060c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 6
-	QUAD $0x070c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 12], 7
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x080c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 12], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x090c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 12
-	QUAD $0x0d0c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 13
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0e0c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 15
-	QUAD $0x010c16542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + rdx + 12], 1
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x020c36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 12], 2
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x030c1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 12], 3
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x040c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 4
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x050c36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 12], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
-	QUAD $0x070c0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 12], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x080c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 8
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x090c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 9
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0a0c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 10
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0b0c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c0c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 12
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0d0c0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 12], 13
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x0e0c06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 12], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f0c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 15
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x010d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 1
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x020d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 2
-	QUAD $0x030d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 3
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x040d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 4
-	QUAD $0x050d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 5
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x060d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 6
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x070d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 7
-	QUAD $0x080d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 8
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x090d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 9
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0a0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 11
-	QUAD $0x0c0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 12
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	QUAD $0x0d0d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 13
-	QUAD $0x0e0d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 13], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 15
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x010d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 1
-	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
-	QUAD $0x030d1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 13], 3
-	QUAD $0x040d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 4
-	QUAD $0x050d364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 13], 5
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x060d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 6
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x070d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 7
-	QUAD $0x080d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 10
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0b0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 12
-	QUAD $0x0d0d0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 13], 13
-	QUAD $0x0e0d064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x010e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 1
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	QUAD $0x020e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x030e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 3
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x040e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 4
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x050e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 14], 5
-	QUAD $0x060e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x070e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 7
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x080e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 8
-	QUAD $0x090e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 14], 9
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0a0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c0e3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 14], 12
-	QUAD $0x0d0e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 14], 13
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0e0e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 14
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0f0e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 15
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x010e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 1
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x020e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 2
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x030e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x040e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 4
-	QUAD $0x050e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x060e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 6
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x070e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x080e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 8
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x090e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 9
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0a0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 10
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
-	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x010f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 1
-	QUAD $0x020f1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 15], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x030f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 3
-	QUAD $0x040f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 4
-	QUAD $0x050f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 5
-	QUAD $0x060f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 6
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x070f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 7
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	QUAD $0x080f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x090f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 9
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0a0f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 10
-	QUAD $0x0b0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 13
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0e0f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 14
-	QUAD $0x0f0f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rax + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x010f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 1
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x020f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 2
-	QUAD $0x030f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x040f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 4
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x050f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x060f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 6
-	QUAD $0x070f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
-	QUAD $0x090f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 10
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0b0f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d0f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 13
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x0e0f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 14
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0f0f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x1016             // movzx    edi, byte [rsi + r10 + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x01100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 1
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x02100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 3
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x04100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 5
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x06100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 6
-	QUAD $0x07103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 7
-	QUAD $0x081006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 9
-	QUAD $0x0a101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 12
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x0d1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 13
-	QUAD $0x0e102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 15
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	LONG $0x1e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rbx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x01103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 1
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x02103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 2
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x03103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 3
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x04102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 4
-	QUAD $0x0510164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 5
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0610164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 6
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x0710164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 7
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0810164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 8
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0910164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0a10164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 10
-	QUAD $0x0b10364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 11
-	QUAD $0x0c10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 12
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0d103e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 16], 13
-	QUAD $0x0e101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 14
-	QUAD $0x0f10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 15
-	LONG $0x7cb60f42; WORD $0x1116             // movzx    edi, byte [rsi + r10 + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x011106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 1
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	QUAD $0x021116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 2
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x031116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 3
-	QUAD $0x04110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x051106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 5
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x06111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x071106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 7
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x081136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 8
-	QUAD $0x09110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 11
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0c1126542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 17], 12
-	QUAD $0x0d1106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 15
-	LONG $0x1e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rbx + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x01110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 1
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x02110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 2
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0311065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 17], 3
-	QUAD $0x04112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 4
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x05113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 6
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x07113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x08113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 8
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x09113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 9
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0a110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 10
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0b113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 12
-	QUAD $0x0d113e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 17], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f113e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rdi + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rdi + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x01123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 1
-	QUAD $0x021216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 2
-	QUAD $0x031216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 3
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x04123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 4
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x05123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 5
-	QUAD $0x06121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 6
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x071216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 7
-	QUAD $0x081236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x091216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 9
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0a1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 10
-	QUAD $0x0b1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 11
-	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 15
-	LONG $0x1e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rbx + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x01122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 1
-	QUAD $0x02120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 2
-	QUAD $0x0312064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 3
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0412164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 4
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0512364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0612064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 6
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x07121e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 18], 7
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x08120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0912064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 9
-	QUAD $0x0a120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 10
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0b123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 15
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x021326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
-	QUAD $0x04133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 4
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x05133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 5
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x06133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x09133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 9
-	QUAD $0x0a1316542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 19], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 12
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x0d133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 13
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0e130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 14
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0f1306542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 19], 15
-	LONG $0x1e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rbx + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01132e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 19], 1
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0213165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 2
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0313165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 3
-	QUAD $0x0413165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 4
-	QUAD $0x0513365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 5
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x06131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 6
-	QUAD $0x07131e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 19], 7
-	QUAD $0x08130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 8
-	QUAD $0x0913065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 9
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0a131e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 19], 10
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0b13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 11
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0c132e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 19], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 14
-	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
-	QUAD $0x0f13365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x143e             // movzx    edi, byte [rsi + r15 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x01140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 1
-	QUAD $0x021426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x031406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 3
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x041426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 4
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x051416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 20], 5
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x061406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x071406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 13
-	QUAD $0x0e140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 14
-	QUAD $0x0f1406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 20], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rax + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0114064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 20], 1
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0214064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 2
-	QUAD $0x0314164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0414064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 20], 4
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0514164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 5
-	QUAD $0x06141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 6
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x0714164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 7
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0814164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 8
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0914164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 9
-	QUAD $0x0a141e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 20], 10
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x0b141e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 20], 11
-	QUAD $0x0c142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 12
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 13
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x0e140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 14
-	QUAD $0x0f14364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 15
-	LONG $0x7cb60f42; WORD $0x153e             // movzx    edi, byte [rsi + r15 + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x01150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 1
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x02150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 3
-	QUAD $0x041526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 4
-	QUAD $0x051516542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 21], 5
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x061516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 6
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x071526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 7
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x08150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 8
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x091516542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 21], 9
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0a153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 10
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0b1536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 12
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x0d151e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 21], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 15
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3e7cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rdi + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x01153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 1
-	QUAD $0x0215065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 2
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x03153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 3
-	QUAD $0x0415065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 4
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0515065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 5
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x0615065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 6
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x07153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0815065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0915065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a15065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 10
-	QUAD $0x0b151e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 21], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c15065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 12
-	QUAD $0x0d152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 13
-	QUAD $0x0e150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1506442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rax + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x02163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x03163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 3
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x04163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 4
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x05162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 5
-	QUAD $0x061616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 6
-	QUAD $0x071626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 7
-	QUAD $0x08160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 8
-	QUAD $0x091616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 22], 9
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0a1626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 10
-	QUAD $0x0b1636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 12
-	QUAD $0x0d161e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 22], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 15
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	LONG $0x1e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rbx + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0116164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 1
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x02160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 2
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0316164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 3
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0416164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 4
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0516164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 5
-	QUAD $0x0616064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 22], 6
-	QUAD $0x07163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 7
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0816164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 8
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x0916364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0a16164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 10
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x0b160e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 22], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c16164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 12
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0d16164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 13
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x0e163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 14
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0f16164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 15
-	LONG $0x067cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rax + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x011706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x021706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 2
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x031716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 3
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x041706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 4
-	QUAD $0x05172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 5
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x06173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x07173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 7
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x08173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x09173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 9
-	QUAD $0x0a1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 11
-	QUAD $0x0c171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 12
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x0d173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 14
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0f172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 15
-	LONG $0x1e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rbx + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0117165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 1
-	QUAD $0x02170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 3
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x04171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 4
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0517165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 5
-	QUAD $0x0617065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 6
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x07173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 7
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0817065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 8
-	QUAD $0x0917365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 9
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0a17265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 10
-	QUAD $0x0b170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 11
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	QUAD $0x0c171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 12
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0d17365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 13
-	QUAD $0x0e173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 14
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0f170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdi + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x01183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 1
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x02183e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 24], 2
-	QUAD $0x031816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 3
-	QUAD $0x041806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x051806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 5
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x061806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 6
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x071816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 14
-	QUAD $0x0f182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rax + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0118064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 1
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0218064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 2
-	QUAD $0x03180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 3
-	QUAD $0x04181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 4
-	QUAD $0x0518164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 5
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x0618164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0718064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 7
-	QUAD $0x0818064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 8
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x09182e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 24], 9
-	QUAD $0x0a18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 10
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0b18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 11
-	QUAD $0x0c181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 12
-	QUAD $0x0d18364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 24], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 14
-	QUAD $0x0f180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 15
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x1906             // movzx    edi, byte [rsi + r8 + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x01190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 1
-	QUAD $0x02193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 3
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x04193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 5
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x06190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 6
-	QUAD $0x071916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 7
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x08190e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 25], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x091916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 9
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x0a191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c1916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 12
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x0d1936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 13
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0e1916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 14
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0f1916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 15
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	LONG $0x167cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdx + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0119165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 1
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x02193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 2
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x03193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x04193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 4
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x05193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 5
-	QUAD $0x0619165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 6
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x07193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x08193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 8
-	QUAD $0x09192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 9
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0a192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 10
-	QUAD $0x0b19265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 12
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0d19165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 13
-	QUAD $0x0e19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f193e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rdi + 25], 15
-	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
-	LONG $0x7cb60f42; WORD $0x1a06             // movzx    edi, byte [rsi + r8 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x011a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x021a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x031a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 3
-	QUAD $0x041a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x051a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 5
-	QUAD $0x061a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x071a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 7
-	QUAD $0x081a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 9
-	QUAD $0x0a1a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 10
-	QUAD $0x0b1a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 11
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x0c1a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 12
-	QUAD $0x0d1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 13
-	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 15
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x1a26             // movzx    edi, byte [rsi + r12 + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 1
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x021a364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 26], 2
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x031a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x041a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 4
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x051a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x061a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x071a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 7
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x081a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x091a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 9
-	QUAD $0x0a1a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 10
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x0b1a1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 26], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 12
-	QUAD $0x0d1a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 14
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0f1a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 15
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	LONG $0x167cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rdx + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 1
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x021b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 2
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x031b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 3
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x041b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 4
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x051b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 5
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x061b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x071b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 7
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x081b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x091b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 9
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-	QUAD $0x0a1b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 11
-	QUAD $0x0c1b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 12
-	QUAD $0x0d1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 15
-	LONG $0x7cb60f42; WORD $0x1b26             // movzx    edi, byte [rsi + r12 + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x011b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 1
-	QUAD $0x021b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 2
-	QUAD $0x031b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x041b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 4
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x051b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 5
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x061b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 6
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x071b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x081b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 8
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x091b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 9
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0a1b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 10
-	QUAD $0x0b1b1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 27], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c1b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d1b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 13
-	QUAD $0x0e1b065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 27], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1b065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x011c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 1
-	QUAD $0x021c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 2
-	QUAD $0x031c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 3
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x041c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 4
-	QUAD $0x051c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 5
-	QUAD $0x061c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 6
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x071c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 8
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x091c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 9
-	QUAD $0x0a1c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 10
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0b1c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 12
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x0d1c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 13
-	QUAD $0x0e1c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f1c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x021c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 2
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x031c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x041c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 4
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x051c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 5
-	QUAD $0x061c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 6
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x071c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x081c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 8
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x091c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 9
-	QUAD $0x0a1c264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 28], 10
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0b1c264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 28], 11
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0c1c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 15
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 1
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	QUAD $0x021d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x031d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 3
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x041d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 4
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x061d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 6
-	QUAD $0x071d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 7
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x081d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 8
-	QUAD $0x091d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 9
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0a1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 10
-	QUAD $0x0b1d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c1d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 12
-	QUAD $0x0d1d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 14
-	QUAD $0x0f1d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 15
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x1d06             // movzx    edi, byte [rsi + r8 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x011d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 1
-	QUAD $0x021d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 2
-	QUAD $0x031d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 3
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x041d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 4
-	QUAD $0x051d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 5
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x061d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 6
-	QUAD $0x071d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 7
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x081d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x091d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 10
-	QUAD $0x0b1d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 11
-	QUAD $0x0c1d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 13
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x0e1d3e642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r15 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1d06442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + rax + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x067cb60f; BYTE $0x1e               // movzx    edi, byte [rsi + rax + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x011e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 1
-	LONG $0x067cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rax + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 1
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x021e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 30], 2
-	QUAD $0x021f1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 31], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
-	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
-	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
-	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	QUAD $0x0a1e1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 30], 10
-	QUAD $0x0a1f1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 31], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	QUAD $0x0c1e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 30], 12
-	QUAD $0x0c1f164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 31], 12
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	LONG $0x44b60f42; WORD $0x1e06             // movzx    eax, byte [rsi + r8 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f06             // movzx    eax, byte [rsi + r8 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 1
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
-	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 30], 4
-	QUAD $0x041f2e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 31], 4
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	QUAD $0x061e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 6
-	QUAD $0x061f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x071e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 7
-	QUAD $0x071f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 7
-	QUAD $0x081e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 8
-	QUAD $0x081f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
-	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x0b1e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 11
-	QUAD $0x0b1f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
-	QUAD $0x0e1e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 14
-	QUAD $0x0e1f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00020024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 512]
-	QUAD $0x0004c0249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 1216]
-	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
-	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
-	LONG $0xf87485c5                           // vpcmpeqb    ymm7, ymm15, ymm0
-	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
-	QUAD $0x0001e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI1_1] */
-	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0001c024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 448]
-	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI1_2] */
-	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
-	LONG $0xe0740dc5                           // vpcmpeqb    ymm12, ymm14, ymm0
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI1_3] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 416]
-	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI1_4] */
-	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
-	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0004a024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1184]
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI1_5] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x00048024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1152]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
-	QUAD $0x00044024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1088]
-	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
-	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
-	QUAD $0x00046024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1120]
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	QUAD $0x000420249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1056]
-	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
-	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000400249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1024]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0003e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 992]
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	QUAD $0x0003c024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 960]
-	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
-	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000380249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 896]
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	QUAD $0x0003a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 928]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
-	QUAD $0x00034024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 832]
-	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
-	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
-	QUAD $0x000360249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 864]
-	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
-	QUAD $0x00030024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 768]
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000320249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 800]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0002c024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 704]
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	QUAD $0x0002e024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 736]
-	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
-	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
-	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
-	QUAD $0x0002a0249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 672]
-	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
-	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
-	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
-	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
-	QUAD $0x00022024ac74fdc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm0, yword [rsp + 544]
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x00024024b474fdc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm0, yword [rsp + 576]
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	QUAD $0x000280249c74fdc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm0, yword [rsp + 640]
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
-	QUAD $0x00026024a474fdc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm0, yword [rsp + 608]
-	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI1_4] */
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000140248c74fdc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm0, yword [rsp + 320]
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	QUAD $0x000120249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 288]
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
-	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB1_169
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
-	JNE  LBB1_90
-	JMP  LBB1_130
-
-DATA LCDATA2<>+0x000(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x008(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x010(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x018(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA2<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA2<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA2<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA2<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA2<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA2<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA2<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA2<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA2<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA2<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA2<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA2<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA2<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA2<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA2<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA2<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA2<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA2<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA2<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA2<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA2<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA2<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA2<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA2<>(SB), 8, $224
-
-TEXT ·_comparison_equal_scalar_arr_avx2(SB), $1320-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1280(SP)
-	LEAQ LCDATA2<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_17
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_32
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_60
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_72
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_157
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_7:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_7
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB2_9:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_13
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-
-LBB2_11:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB2_11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-
-LBB2_13:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JE   LBB2_127
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_16:
-	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_16
-	JMP  LBB2_154
-
-LBB2_17:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_46
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_83
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_94
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_157
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fbc5         // vmovsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_25
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_23:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	WORD $0x894d; BYTE $0xdf     // mov    r15, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_23
-	LONG $0x01c38349             // add    r11, 1
-
-LBB2_25:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_29
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
-
-LBB2_27:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x58               // add    sil, byte [rsp + 88]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x60               // movzx    esi, byte [rsp + 96]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x38               // movzx    esi, byte [rsp + 56]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB2_27
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-
-LBB2_29:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_136
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_138
-
-LBB2_32:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_105
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_157
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_38
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_36:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	WORD $0x894d; BYTE $0xdc     // mov    r12, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_36
-	LONG $0x01c38349             // add    r11, 1
-
-LBB2_38:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB2_128
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
-	JB   LBB2_42
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB2_165
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB2_165
-
-LBB2_42:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-
-LBB2_43:
-	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-
-LBB2_44:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343a45                           // cmp    r14b, byte [r12]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x24743a45; BYTE $0x01               // cmp    r14b, byte [r12 + 1]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x24743a45; BYTE $0x02               // cmp    r14b, byte [r12 + 2]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x24743a45; BYTE $0x03               // cmp    r14b, byte [r12 + 3]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x24743a45; BYTE $0x04               // cmp    r14b, byte [r12 + 4]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x24743a45; BYTE $0x05               // cmp    r14b, byte [r12 + 5]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x24743a45; BYTE $0x06               // cmp    r14b, byte [r12 + 6]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x24743a45; BYTE $0x07               // cmp    r14b, byte [r12 + 7]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x08713a44                           // cmp    r14b, byte [rcx + 8]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x09713a44                           // cmp    r14b, byte [rcx + 9]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x0a713a44                           // cmp    r14b, byte [rcx + 10]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x0b713a44                           // cmp    r14b, byte [rcx + 11]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x0c713a44                           // cmp    r14b, byte [rcx + 12]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x0d713a44                           // cmp    r14b, byte [rcx + 13]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x0e713a44                           // cmp    r14b, byte [rcx + 14]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x0f713a44                           // cmp    r14b, byte [rcx + 15]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x10713a44                           // cmp    r14b, byte [rcx + 16]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x11713a44                           // cmp    r14b, byte [rcx + 17]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x12713a44                           // cmp    r14b, byte [rcx + 18]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x13713a44                           // cmp    r14b, byte [rcx + 19]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x14713a44                           // cmp    r14b, byte [rcx + 20]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x15713a44                           // cmp    r14b, byte [rcx + 21]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x16713a44                           // cmp    r14b, byte [rcx + 22]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x17713a44                           // cmp    r14b, byte [rcx + 23]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
-	QUAD $0x000001102494940f                   // sete    byte [rsp + 272]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000014024940244                   // add    r10b, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xc4                   // or    r12b, al
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xd3                   // or    bl, r10b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000a024b40240                   // add    sil, byte [rsp + 160]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0845; BYTE $0xf8                   // or    r8b, r15b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xc308                               // or    bl, al
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
-	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
-	QUAD $0x0000009024bcb60f                   // movzx    edi, byte [rsp + 144]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x01468844                           // mov    byte [rsi + 1], r8b
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	LONG $0x245cb60f; BYTE $0x20               // movzx    ebx, byte [rsp + 32]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5688; BYTE $0x03                   // mov    byte [rsi + 3], dl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB2_44
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	JMP  LBB2_129
-
-LBB2_46:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_117
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_157
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_52
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_50:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_50
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB2_52:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_56
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-
-LBB2_54:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB2_54
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-
-LBB2_56:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JE   LBB2_93
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_59:
-	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_59
-	JMP  LBB2_146
-
-LBB2_60:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_64
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_62:
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_62
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB2_64:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_68
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-
-LBB2_66:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x6a3b4466; BYTE $0x02               // cmp    r13w, word [rdx + 2]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x6a3b4466; BYTE $0x04               // cmp    r13w, word [rdx + 4]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x6a3b4466; BYTE $0x06               // cmp    r13w, word [rdx + 6]
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x6a3b4466; BYTE $0x08               // cmp    r13w, word [rdx + 8]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x6a3b4466; BYTE $0x0a               // cmp    r13w, word [rdx + 10]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x6a3b4466; BYTE $0x0c               // cmp    r13w, word [rdx + 12]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x6a3b4466; BYTE $0x0e               // cmp    r13w, word [rdx + 14]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x6a3b4466; BYTE $0x10               // cmp    r13w, word [rdx + 16]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x6a3b4466; BYTE $0x12               // cmp    r13w, word [rdx + 18]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x6a3b4466; BYTE $0x14               // cmp    r13w, word [rdx + 20]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x6a3b4466; BYTE $0x16               // cmp    r13w, word [rdx + 22]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x6a3b4466; BYTE $0x18               // cmp    r13w, word [rdx + 24]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x6a3b4466; BYTE $0x1a               // cmp    r13w, word [rdx + 26]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x6a3b4466; BYTE $0x1c               // cmp    r13w, word [rdx + 28]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x6a3b4466; BYTE $0x1e               // cmp    r13w, word [rdx + 30]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x6a3b4466; BYTE $0x20               // cmp    r13w, word [rdx + 32]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x6a3b4466; BYTE $0x22               // cmp    r13w, word [rdx + 34]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x6a3b4466; BYTE $0x24               // cmp    r13w, word [rdx + 36]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x6a3b4466; BYTE $0x26               // cmp    r13w, word [rdx + 38]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x6a3b4466; BYTE $0x28               // cmp    r13w, word [rdx + 40]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x6a3b4466; BYTE $0x2a               // cmp    r13w, word [rdx + 42]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x6a3b4466; BYTE $0x2c               // cmp    r13w, word [rdx + 44]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6a3b4466; BYTE $0x2e               // cmp    r13w, word [rdx + 46]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x6a3b4466; BYTE $0x30               // cmp    r13w, word [rdx + 48]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6a3b4466; BYTE $0x32               // cmp    r13w, word [rdx + 50]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x6a3b4466; BYTE $0x34               // cmp    r13w, word [rdx + 52]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6a3b4466; BYTE $0x36               // cmp    r13w, word [rdx + 54]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x6a3b4466; BYTE $0x38               // cmp    r13w, word [rdx + 56]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x6a3b4466; BYTE $0x3a               // cmp    r13w, word [rdx + 58]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x6a3b4466; BYTE $0x3c               // cmp    r13w, word [rdx + 60]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x6a3b4466; BYTE $0x3e               // cmp    r13w, word [rdx + 62]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x58               // add    sil, byte [rsp + 88]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB2_66
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-
-LBB2_68:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JE   LBB2_82
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_71:
-	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x6a3b4466; BYTE $0x02 // cmp    r13w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_71
-	JMP  LBB2_142
-
-LBB2_72:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_76
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_74:
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_74
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB2_76:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_80
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-
-LBB2_78:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x6a3b4466; BYTE $0x02               // cmp    r13w, word [rdx + 2]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x6a3b4466; BYTE $0x04               // cmp    r13w, word [rdx + 4]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x6a3b4466; BYTE $0x06               // cmp    r13w, word [rdx + 6]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x6a3b4466; BYTE $0x08               // cmp    r13w, word [rdx + 8]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x6a3b4466; BYTE $0x0a               // cmp    r13w, word [rdx + 10]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x6a3b4466; BYTE $0x0c               // cmp    r13w, word [rdx + 12]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x6a3b4466; BYTE $0x0e               // cmp    r13w, word [rdx + 14]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x6a3b4466; BYTE $0x10               // cmp    r13w, word [rdx + 16]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x6a3b4466; BYTE $0x12               // cmp    r13w, word [rdx + 18]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x6a3b4466; BYTE $0x14               // cmp    r13w, word [rdx + 20]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x6a3b4466; BYTE $0x16               // cmp    r13w, word [rdx + 22]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x6a3b4466; BYTE $0x18               // cmp    r13w, word [rdx + 24]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x6a3b4466; BYTE $0x1a               // cmp    r13w, word [rdx + 26]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x6a3b4466; BYTE $0x1c               // cmp    r13w, word [rdx + 28]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x6a3b4466; BYTE $0x1e               // cmp    r13w, word [rdx + 30]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x6a3b4466; BYTE $0x20               // cmp    r13w, word [rdx + 32]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x6a3b4466; BYTE $0x22               // cmp    r13w, word [rdx + 34]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x6a3b4466; BYTE $0x24               // cmp    r13w, word [rdx + 36]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x6a3b4466; BYTE $0x26               // cmp    r13w, word [rdx + 38]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x6a3b4466; BYTE $0x28               // cmp    r13w, word [rdx + 40]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x6a3b4466; BYTE $0x2a               // cmp    r13w, word [rdx + 42]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x6a3b4466; BYTE $0x2c               // cmp    r13w, word [rdx + 44]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6a3b4466; BYTE $0x2e               // cmp    r13w, word [rdx + 46]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x6a3b4466; BYTE $0x30               // cmp    r13w, word [rdx + 48]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6a3b4466; BYTE $0x32               // cmp    r13w, word [rdx + 50]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x6a3b4466; BYTE $0x34               // cmp    r13w, word [rdx + 52]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6a3b4466; BYTE $0x36               // cmp    r13w, word [rdx + 54]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x6a3b4466; BYTE $0x38               // cmp    r13w, word [rdx + 56]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x6a3b4466; BYTE $0x3a               // cmp    r13w, word [rdx + 58]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x6a3b4466; BYTE $0x3c               // cmp    r13w, word [rdx + 60]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x6a3b4466; BYTE $0x3e               // cmp    r13w, word [rdx + 62]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB2_78
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-
-LBB2_80:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_140
-
-LBB2_82:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB2_142
-
-LBB2_83:
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_87
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_85:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_85
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB2_87:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_91
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-
-LBB2_89:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB2_89
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-
-LBB2_91:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_144
-
-LBB2_93:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB2_146
-
-LBB2_94:
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fac5         // vmovss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_98
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_96:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	WORD $0x894d; BYTE $0xdf     // mov    r15, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_96
-	LONG $0x01c38349             // add    r11, 1
-
-LBB2_98:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_102
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
-
-LBB2_100:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x58               // add    sil, byte [rsp + 88]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x60               // movzx    esi, byte [rsp + 96]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x33                   // mov    byte [r11], r14b
-	LONG $0x2474b60f; BYTE $0x38               // movzx    esi, byte [rsp + 56]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB2_100
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-
-LBB2_102:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_148
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_150
-
-LBB2_105:
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_109
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_107:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	WORD $0x894d; BYTE $0xdc     // mov    r12, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_107
-	LONG $0x01c38349             // add    r11, 1
-
-LBB2_109:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB2_132
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
-	JB   LBB2_113
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB2_168
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB2_168
-
-LBB2_113:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-
-LBB2_114:
-	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-
-LBB2_115:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343a45                           // cmp    r14b, byte [r12]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x24743a45; BYTE $0x01               // cmp    r14b, byte [r12 + 1]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x24743a45; BYTE $0x02               // cmp    r14b, byte [r12 + 2]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x24743a45; BYTE $0x03               // cmp    r14b, byte [r12 + 3]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x24743a45; BYTE $0x04               // cmp    r14b, byte [r12 + 4]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x24743a45; BYTE $0x05               // cmp    r14b, byte [r12 + 5]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x24743a45; BYTE $0x06               // cmp    r14b, byte [r12 + 6]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x24743a45; BYTE $0x07               // cmp    r14b, byte [r12 + 7]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x08713a44                           // cmp    r14b, byte [rcx + 8]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x09713a44                           // cmp    r14b, byte [rcx + 9]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x0a713a44                           // cmp    r14b, byte [rcx + 10]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x0b713a44                           // cmp    r14b, byte [rcx + 11]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x0c713a44                           // cmp    r14b, byte [rcx + 12]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x0d713a44                           // cmp    r14b, byte [rcx + 13]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x0e713a44                           // cmp    r14b, byte [rcx + 14]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x0f713a44                           // cmp    r14b, byte [rcx + 15]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x10713a44                           // cmp    r14b, byte [rcx + 16]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x11713a44                           // cmp    r14b, byte [rcx + 17]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x12713a44                           // cmp    r14b, byte [rcx + 18]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x13713a44                           // cmp    r14b, byte [rcx + 19]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x14713a44                           // cmp    r14b, byte [rcx + 20]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x15713a44                           // cmp    r14b, byte [rcx + 21]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x16713a44                           // cmp    r14b, byte [rcx + 22]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x17713a44                           // cmp    r14b, byte [rcx + 23]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
-	QUAD $0x000001102494940f                   // sete    byte [rsp + 272]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
-	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000014024940244                   // add    r10b, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xc4                   // or    r12b, al
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xd3                   // or    bl, r10b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000a024b40240                   // add    sil, byte [rsp + 160]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0845; BYTE $0xf8                   // or    r8b, r15b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xc308                               // or    bl, al
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
-	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
-	QUAD $0x0000009024bcb60f                   // movzx    edi, byte [rsp + 144]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x01468844                           // mov    byte [rsi + 1], r8b
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	LONG $0x245cb60f; BYTE $0x20               // movzx    ebx, byte [rsp + 32]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5688; BYTE $0x03                   // mov    byte [rsi + 3], dl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB2_115
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	JMP  LBB2_133
-
-LBB2_117:
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_121
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB2_119:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_119
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB2_121:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_125
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
-
-LBB2_123:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB2_123
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-
-LBB2_125:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_152
-
-LBB2_127:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB2_154
-
-LBB2_128:
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-
-LBB2_129:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB2_135
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
-
-LBB2_159:
-	LONG $0x34343a45             // cmp    r14b, byte [r12 + rsi]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743a45; BYTE $0x01 // cmp    r14b, byte [r12 + rsi + 1]
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_159
-	JMP  LBB2_162
-
-LBB2_132:
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-
-LBB2_133:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB2_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB2_160
-
-LBB2_135:
-	WORD $0xf631  // xor    esi, esi
-	JMP  LBB2_163
-
-LBB2_136:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_137:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_137
-
-LBB2_138:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB2_157
-	LONG $0x022ef9c5 // vucomisd    xmm0, qword [rdx]
-	JMP  LBB2_156
-
-LBB2_140:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_141:
-	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x6a3b4466; BYTE $0x02 // cmp    r13w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_141
-
-LBB2_142:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB2_157
-	LONG $0x2a3b4466 // cmp    r13w, word [rdx]
-	JMP  LBB2_156
-
-LBB2_144:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_145:
-	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_145
-
-LBB2_146:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_157
-	WORD $0x3b4c; BYTE $0x2a // cmp    r13, qword [rdx]
-	JMP  LBB2_156
-
-LBB2_148:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_149:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_149
-
-LBB2_150:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB2_157
-	LONG $0x022ef8c5 // vucomiss    xmm0, dword [rdx]
-	JMP  LBB2_156
-
-LBB2_152:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_153:
-	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	WORD $0x894d; BYTE $0xde     // mov    r14, r11
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_153
-
-LBB2_154:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_157
-	WORD $0x3b44; BYTE $0x2a // cmp    r13d, dword [rdx]
-
-LBB2_156:
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x13348a41         // mov    sil, byte [r11 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
-
-LBB2_157:
-	MOVQ 1280(SP), SP
-	VZEROUPPER
-	RET
-
-LBB2_160:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
-
-LBB2_161:
-	LONG $0x34343a45             // cmp    r14b, byte [r12 + rsi]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743a45; BYTE $0x01 // cmp    r14b, byte [r12 + rsi + 1]
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_161
-
-LBB2_162:
-	WORD $0x0149; BYTE $0xf4 // add    r12, rsi
-
-LBB2_163:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_157
-	LONG $0x24343a45         // cmp    r14b, byte [r12]
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000017824848b4c // mov    r8, qword [rsp + 376]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB2_157
-
-LBB2_165:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
-	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
-
-LBB2_166:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x3a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rdi + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x3a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rdi + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x3a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rdi + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x3a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rdi + 6]
-	QUAD $0x0000010024bc8948                   // mov    qword [rsp + 256], rdi
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x3a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rdi + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	LONG $0x40cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 576
-	QUAD $0x000000a8249c8948                   // mov    qword [rsp + 168], rbx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	LONG $0x80cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 640
-	QUAD $0x000000f024a4894c                   // mov    qword [rsp + 240], r12
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0xa0ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 672
-	QUAD $0x000000f824b4894c                   // mov    qword [rsp + 248], r14
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x00c98149; WORD $0x0003; BYTE $0x00 // or    r9, 768
-	QUAD $0x000000c0248c894c                   // mov    qword [rsp + 192], r9
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
-	QUAD $0x000000b824bc894c                   // mov    qword [rsp + 184], r15
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
-	QUAD $0x000000e0249c894c                   // mov    qword [rsp + 224], r11
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x60ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 864
-	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
-	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	LONG $0xa0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 928
-	QUAD $0x000000d024b48948                   // mov    qword [rsp + 208], rsi
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000108248c8948                   // mov    qword [rsp + 264], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	LONG $0x207923c4; WORD $0x2a0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r13], 1
-	LONG $0x2031e3c4; WORD $0x1a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rbx], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 3
-	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + r12], 4
-	LONG $0x2079a3c4; WORD $0x3204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r14], 5
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 6
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 7
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x000000c824bc8948                   // mov    qword [rsp + 200], rdi
-	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + r9], 8
-	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 9
-	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r11], 10
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r10], 11
-	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + r8], 12
-	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
-	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
-	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 15
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 1
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + r10], 2
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r12], 3
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 5
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 6
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 10
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 11
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 1
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x02013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x04013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x05013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 5
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x06013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 6
-	QUAD $0x07012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 7
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x08012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 8
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x09012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 9
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0a013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 12
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0d013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 15
-	QUAD $0x0101326c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r14 + 1], 1
-	QUAD $0x0201126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 1], 2
-	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
-	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
-	QUAD $0x05011a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 1], 5
-	QUAD $0x06010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 6
-	QUAD $0x07013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 7
-	QUAD $0x0801326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 8
-	QUAD $0x0901026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 9
-	QUAD $0x0a011a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 1], 10
-	QUAD $0x0b010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0102442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 1], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xce6e79c5                           // vmovd    xmm9, esi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xd66e79c5                           // vmovd    xmm10, esi
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x010202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x02020a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 2], 2
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x030212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x06020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x07023a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 2], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 8
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x09022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 9
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0a022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0b021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 11
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0c0232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 2], 12
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x0d023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0202325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0302325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0402325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0502325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0602325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x08021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x09021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 10
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0b021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0e021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0f021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 15
-	QUAD $0x010302642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r8 + 3], 1
-	QUAD $0x02030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 2
-	QUAD $0x030312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 3
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x04031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 4
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x05030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 5
-	QUAD $0x06030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 6
-	QUAD $0x07033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x08033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 8
-	QUAD $0x090322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 3], 9
-	QUAD $0x0a032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 10
-	QUAD $0x0b031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 11
-	QUAD $0x0c0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 12
-	QUAD $0x0d033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 13
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x0e030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 14
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0f033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 15
-	QUAD $0x0103026c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + rax + 3], 1
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x02031a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 3], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0403026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 4
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0503126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 5
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0603326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 6
-	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0803026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x09031a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 3], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
-	LONG $0xc66e79c5                           // vmovd    xmm8, esi
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0322442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
-	LONG $0xde6e79c5                           // vmovd    xmm11, esi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x010402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x020402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x030402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 3
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	QUAD $0x04042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 4
-	QUAD $0x05040a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 4], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x070402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 7
-	QUAD $0x08043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 13
-	QUAD $0x0e040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 14
-	QUAD $0x0f043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0104025c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rdx + rax + 4], 1
-	QUAD $0x02041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 2
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x03041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0404025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 4
-	QUAD $0x0504125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 5
-	WORD $0x894c; BYTE $0xf6                   // mov    rsi, r14
-	QUAD $0x0604325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 6
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0704125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 7
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x08040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 8
-	QUAD $0x09041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 10
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0b04325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 13
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0e043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 14
-	QUAD $0x0f04225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 4], 15
-	QUAD $0x010502642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + r8 + 5], 1
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x02053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x03051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 3
-	QUAD $0x04052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 4
-	QUAD $0x05050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 7
-	QUAD $0x08053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x09050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 12
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x0d052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 15
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x01053a6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rdi + 5], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 2
-	QUAD $0x03051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 3
-	QUAD $0x0405026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0505026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 5
-	QUAD $0x0605326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 5], 6
-	QUAD $0x0705126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 5], 7
-	QUAD $0x08050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 8
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x09050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
-	QUAD $0x0b05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0f0522442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r12 + 5], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
-	QUAD $0x010602442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + r8 + 6], 1
-	QUAD $0x02063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 2
-	QUAD $0x03061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 3
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x04061a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 6], 4
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x050602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x07063a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 6], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 9
-	QUAD $0x0a060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b0612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 6], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 12
-	QUAD $0x0d062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01060a6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rcx + 6], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0506326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 5
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x06061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 8
-	QUAD $0x09060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 10
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0b06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 11
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0c060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 12
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 14
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x0f062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 15
-	QUAD $0x010732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 1
-	QUAD $0x02073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 2
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x03072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 3
-	QUAD $0x04071a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 7], 4
-	QUAD $0x050702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 6
-	QUAD $0x07073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 7
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x080732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x09070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 10
-	QUAD $0x0b0712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 11
-	QUAD $0x0c0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 13
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x0e073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 4
-	QUAD $0x0507324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 5
-	QUAD $0x06071a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 7], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0707324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
-	QUAD $0x0b07224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 11
-	QUAD $0x0c070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e070a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rcx + 7], 14
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0722442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01080a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rcx + 8], 1
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x020802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 2
-	QUAD $0x03082a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 8], 3
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	QUAD $0x04081a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 8], 4
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x05081a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 8], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 6
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x070832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 7
-	QUAD $0x080832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 8], 8
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x090812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 9
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0a081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 12
-	QUAD $0x0d0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 13
-	QUAD $0x0e083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0108026c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + rax + 8], 1
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x02080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 2
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x03083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0408326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0508026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 5
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0608326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0708026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0808026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 8
-	QUAD $0x09083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 11
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0c083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 14
-	QUAD $0x0f08226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 15
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x010922742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + r12 + 9], 1
-	QUAD $0x020902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 3
-	QUAD $0x04092a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 9], 4
-	QUAD $0x05091a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 9], 5
-	QUAD $0x06090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x08090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 8
-	QUAD $0x090912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 9
-	QUAD $0x0a091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c091a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 9], 12
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0d090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 14
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0f0922742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 9], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01090a7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + rcx + 9], 1
-	QUAD $0x02090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 2
-	QUAD $0x03093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 3
-	QUAD $0x0409327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 4
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x05092a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 9], 5
-	QUAD $0x0609327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 6
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x07091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 7
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x08093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 10
-	QUAD $0x0b09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00044024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm5
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xee6ef9c5                           // vmovd    xmm5, esi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x010a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 1
-	QUAD $0x020a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 2
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x030a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x050a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 6
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x070a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 7
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x080a325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 10], 8
-	QUAD $0x090a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 11
-	QUAD $0x0c0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 12
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x0d0a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 13
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0e0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 14
-	QUAD $0x0f0a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x010a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x030a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 3
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x040a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 4
-	QUAD $0x050a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x060a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 6
-	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
-	QUAD $0x080a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x090a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 10
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x0b0a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 13
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0e0a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 14
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0f0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 15
-	QUAD $0x010b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 1
-	QUAD $0x020b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 2
-	QUAD $0x030b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 3
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x040b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x050b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 5
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x060b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 6
-	QUAD $0x070b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 7
-	QUAD $0x080b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 8
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x090b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 9
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0a0b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 10
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x0b0b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c0b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 12
-	QUAD $0x0d0b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 13
-	QUAD $0x0e0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 14
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0f0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 15
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x010b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x020b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 2
-	QUAD $0x030b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 3
-	QUAD $0x040b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x050b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 5
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x060b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 6
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x070b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 11], 7
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x080b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 8
-	QUAD $0x090b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 10
-	QUAD $0x0b0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
-	QUAD $0x0e0b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x010c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x020c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x030c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 3
-	QUAD $0x040c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 4
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x050c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x070c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 9
-	QUAD $0x0a0c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 12], 10
-	QUAD $0x0b0c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 12], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c0c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 13
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x0e0c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 14
-	QUAD $0x0f0c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 15
-	QUAD $0x010c3a542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + rdi + 12], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x030c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x040c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x050c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 5
-	QUAD $0x060c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 6
-	QUAD $0x070c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 7
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x080c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 8
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x090c1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 12], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 10
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0d0c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 13
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0e0c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 14
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 15
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x010d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 1
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x020d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x030d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 3
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x040d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 4
-	QUAD $0x050d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 5
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x060d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 6
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x070d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 7
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x080d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 8
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x090d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 9
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0a0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 11
-	QUAD $0x0c0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 12
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x0d0d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 13
-	QUAD $0x0e0d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 13], 14
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0f0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x010d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 1
-	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
-	QUAD $0x030d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 3
-	QUAD $0x040d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 4
-	QUAD $0x050d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 5
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x060d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x070d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 7
-	QUAD $0x080d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 8
-	QUAD $0x090d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
-	QUAD $0x0d0d0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 13], 13
-	QUAD $0x0e0d024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0d02442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 13], 15
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x0e2a             // movzx    esi, byte [rdx + r13 + 14]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rax + 14]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x010e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x020e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 2
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x030e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 3
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x040e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x050e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 5
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x060e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x070e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x080e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 8
-	QUAD $0x090e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 12
-	QUAD $0x0d0e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 14
-	QUAD $0x0f0e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 15
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x010e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 14], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x020e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x030e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x040e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x050e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 5
-	QUAD $0x060e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 6
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x070e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 14], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x080e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 8
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x090e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 9
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0a0e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 12
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x0d0e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 14], 13
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0e0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 15
-	LONG $0x74b60f42; WORD $0x0f2a             // movzx    esi, byte [rdx + r13 + 15]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x010f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x020f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 2
-	QUAD $0x030f02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 15], 3
-	QUAD $0x040f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 4
-	QUAD $0x050f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 5
-	QUAD $0x060f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 15], 6
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x070f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 7
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x080f02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 15], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 9
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0a0f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 10
-	QUAD $0x0b0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rax + 15]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x010f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x030f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x040f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x050f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x060f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 6
-	QUAD $0x070f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 7
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x080f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 8
-	QUAD $0x090f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 9
-	QUAD $0x0a0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 10
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0b0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 12
-	QUAD $0x0d0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 13
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0e0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 14
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rsi + 16]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x01100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 4
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x051032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 5
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x061032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 6
-	QUAD $0x07102a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 16], 7
-	QUAD $0x081002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 9
-	QUAD $0x0a103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 12
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0d1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 13
-	QUAD $0x0e100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 15
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	LONG $0x1a74b60f; BYTE $0x10               // movzx    esi, byte [rdx + rbx + 16]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0110024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 16], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0210324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0310324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0410324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 4
-	QUAD $0x05103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0610324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0710324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 7
-	QUAD $0x0810124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a10324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 10
-	QUAD $0x0b10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 11
-	QUAD $0x0c10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 13
-	QUAD $0x0e101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 14
-	QUAD $0x0f10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x01110a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 17], 1
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x02111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 2
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x031112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 4
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x05112a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 17], 5
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x06110a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 17], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 7
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x081132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 8
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x09113a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 17], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 11
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0c1122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 12
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0d1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 14
-	QUAD $0x0f110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 15
-	LONG $0x1a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rbx + 17]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0111025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 2
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0311025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0411325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0511325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0611325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0711325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
-	QUAD $0x09113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 9
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0a113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 13
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0e11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f1132442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rsi + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rsi + 18]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 1
-	QUAD $0x02121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 2
-	QUAD $0x031212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 4
-	QUAD $0x05122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 5
-	QUAD $0x06120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 6
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x071232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 7
-	QUAD $0x081232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 18], 8
-	QUAD $0x09123a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 18], 9
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0a122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 10
-	QUAD $0x0b1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 11
-	QUAD $0x0c1222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 18], 12
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x0d120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 15
-	LONG $0x1a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rbx + 18]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0112324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 1
-	QUAD $0x02120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 2
-	QUAD $0x0312024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0412024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0512024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0612024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 6
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x07121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0912024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 9
-	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0d12224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 13
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0e12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 14
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0f12124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 15
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x133a             // movzx    esi, byte [rdx + r15 + 19]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 4
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x051332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 5
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x061332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 6
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x071332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 7
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x081332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 9
-	QUAD $0x0a132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c1332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 12
-	QUAD $0x0d130a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 19], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e133a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 19], 14
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0f1302542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 19], 15
-	LONG $0x1a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rbx + 19]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0113325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0213325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 2
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x03131a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 19], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0413325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0513325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 5
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x06132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 6
-	QUAD $0x07131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 7
-	QUAD $0x08130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 8
-	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0c130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 12
-	QUAD $0x0d13225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 13
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0e13325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 14
-	QUAD $0x0f13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x74b60f42; WORD $0x143a             // movzx    esi, byte [rdx + r15 + 20]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x01141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 1
-	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
-	QUAD $0x021422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 20], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x031402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 3
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x04140a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 20], 4
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x051412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 20], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x061402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x081402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 13
-	QUAD $0x0e143a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 20], 14
-	QUAD $0x0f1402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rax + 20]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0114024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0214024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 2
-	QUAD $0x03141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0414024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x05143a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 20], 5
-	QUAD $0x06142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0714324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0814324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0914324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 10
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x0b14024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 20], 11
-	QUAD $0x0c140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 12
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 13
-	QUAD $0x0e14324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 20], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 15
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rsi + 21]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x01151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 1
-	QUAD $0x021522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 3
-	QUAD $0x04150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 4
-	QUAD $0x051512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 5
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x06153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 6
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x07151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 7
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x081522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 8
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x091512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 10
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0b1532542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 21], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 12
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x0d151a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 21], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 15
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rcx + 21]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 3
-	QUAD $0x0415025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 4
-	QUAD $0x05153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0615025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 6
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x07153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0915025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 10
-	QUAD $0x0b15025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 21], 11
-	QUAD $0x0c150a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 21], 12
-	QUAD $0x0d152a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 21], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0f1502442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r8 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 4
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x05162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 5
-	QUAD $0x06163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 6
-	QUAD $0x07161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 7
-	QUAD $0x081622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 8
-	QUAD $0x091612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 22], 9
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x0a1622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 10
-	QUAD $0x0b1632442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 22], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 12
-	QUAD $0x0d161a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 22], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 14
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0f1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 15
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	LONG $0x74b60f42; WORD $0x1612             // movzx    esi, byte [rdx + r10 + 22]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0116324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x02161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0316324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0416324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 4
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0516324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0616324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 6
-	QUAD $0x07163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 7
-	QUAD $0x08160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 10
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x0b160a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 22], 11
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0c160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 14
-	QUAD $0x0f16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 15
-	LONG $0x0274b60f; BYTE $0x17               // movzx    esi, byte [rdx + rax + 23]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x011702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x021702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 2
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x03173a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 23], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 4
-	QUAD $0x05172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x08170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x09170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 9
-	QUAD $0x0a1722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 11
-	QUAD $0x0c171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 12
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0d170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 14
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0f1722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 15
-	LONG $0x74b60f42; WORD $0x1712             // movzx    esi, byte [rdx + r10 + 23]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x01171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 1
-	QUAD $0x02171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 3
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x04171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 4
-	QUAD $0x0517325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 5
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x06172a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 23], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0717325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0817325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 8
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0917025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 9
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0a17125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 10
-	QUAD $0x0b170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 12
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0d17325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 13
-	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x180a             // movzx    esi, byte [rdx + r9 + 24]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 2
-	QUAD $0x03183a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 24], 3
-	QUAD $0x041802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x061802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x08183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 9
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x0a1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 12
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0d1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 14
-	QUAD $0x0f1822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 15
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	LONG $0x3274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rsi + 24]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x01181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0218324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 2
-	QUAD $0x03180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 3
-	QUAD $0x04181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x05180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 5
-	QUAD $0x06182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x07180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 7
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x08183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 8
-	QUAD $0x0918024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 9
-	QUAD $0x0a18124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 10
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0c180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 12
-	QUAD $0x0d18324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 13
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0e18024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 15
-	LONG $0x74b60f42; WORD $0x190a             // movzx    esi, byte [rdx + r9 + 25]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x02190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 2
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x03190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 3
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x04191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 4
-	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
-	QUAD $0x05190a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 25], 5
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x061922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 6
-	QUAD $0x071902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 7
-	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 9
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0a192a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 25], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b191a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 25], 11
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0c1932542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 25], 12
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0d190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x01193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0219025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0319025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0419025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0519025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0619025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0719025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 7
-	QUAD $0x08193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0919025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 9
-	QUAD $0x0a19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 12
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0d19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 13
-	QUAD $0x0e19025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0f1902442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r8 + 25], 15
-	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rsi + 26]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 2
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x031a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 3
-	QUAD $0x041a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 4
-	QUAD $0x051a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 5
-	QUAD $0x061a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 6
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x071a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x081a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 9
-	QUAD $0x0a1a2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 26], 10
-	QUAD $0x0b1a1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 26], 11
-	QUAD $0x0c1a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 12
-	QUAD $0x0d1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 15
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	LONG $0x1a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rbx + 26]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x011a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x021a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 2
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x031a224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 26], 3
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x041a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 4
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x051a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x061a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x071a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x081a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 10
-	QUAD $0x0b1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 12
-	QUAD $0x0d1a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 14
-	QUAD $0x0f1a024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 26], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x011b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x021b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 2
-	QUAD $0x031b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 3
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	QUAD $0x041b12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 27], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x061b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 6
-	QUAD $0x071b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 27], 7
-	QUAD $0x081b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 8
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x091b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 9
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x0a1b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 15
-	LONG $0x1a74b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rbx + 27]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x011b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 1
-	QUAD $0x021b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 2
-	QUAD $0x031b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 3
-	QUAD $0x041b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 4
-	QUAD $0x051b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 5
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x061b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x071b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x081b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 12
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 13
-	QUAD $0x0e1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x1c2a             // movzx    esi, byte [rdx + r13 + 28]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x011c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x021c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 2
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x031c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 3
-	QUAD $0x041c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 4
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x051c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 28], 5
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x061c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 6
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x071c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 7
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x081c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 8
-	QUAD $0x091c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 9
-	QUAD $0x0a1c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 28], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b1c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 11
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x0c1c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 12
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0d1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 14
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0f1c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 15
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	LONG $0x3274b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rsi + 28]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x011c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x021c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 2
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x031c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x041c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 5
-	QUAD $0x061c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 6
-	QUAD $0x071c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x081c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 12
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 13
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0e1c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 15
-	LONG $0x74b60f42; WORD $0x1d2a             // movzx    esi, byte [rdx + r13 + 29]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x011d2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 29], 1
-	QUAD $0x021d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 2
-	QUAD $0x031d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 3
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x041d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 4
-	QUAD $0x051d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 5
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x061d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 6
-	QUAD $0x071d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x081d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x091d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 9
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0a1d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 10
-	QUAD $0x0b1d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 11
-	QUAD $0x0c1d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 12
-	QUAD $0x0d1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e1d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 14
-	QUAD $0x0f1d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 15
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	LONG $0x74b60f42; WORD $0x1d02             // movzx    esi, byte [rdx + r8 + 29]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x011d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 29], 1
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x021d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 29], 2
-	QUAD $0x031d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 3
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x041d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x061d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x081d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 10
-	QUAD $0x0b1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 13
-	QUAD $0x0e1d22642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + r12 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f1d22442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + r12 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a74b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rdi + 30]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x011e2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 30], 1
-	LONG $0x3a74b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rdi + 31]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x011f2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 31], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
-	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
-	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
-	QUAD $0x061e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 30], 6
-	QUAD $0x061f1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 31], 6
-	QUAD $0x0000011024bc8b48                   // mov    rdi, qword [rsp + 272]
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
-	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
-	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
-	QUAD $0x091e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 30], 9
-	QUAD $0x091f0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 31], 9
-	QUAD $0x0a1e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 30], 10
-	QUAD $0x0a1f324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 31], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x0e1e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 30], 14
-	QUAD $0x0e1f1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 31], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
-	WORD $0x894c; BYTE $0xc6                   // mov    rsi, r8
-	LONG $0x44b60f42; WORD $0x1e02             // movzx    eax, byte [rdx + r8 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f02             // movzx    eax, byte [rdx + r8 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f3a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 31], 1
-	QUAD $0x021e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 2
-	QUAD $0x021f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
-	QUAD $0x041e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 30], 4
-	QUAD $0x041f0a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 31], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
-	QUAD $0x061f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
-	QUAD $0x071f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x0f1e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 30], 15
-	QUAD $0x0f1f227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00020024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 512]
-	QUAD $0x0004c0249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 1216]
-	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
-	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
-	LONG $0xf87485c5                           // vpcmpeqb    ymm7, ymm15, ymm0
-	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
-	QUAD $0x0001e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI2_1] */
-	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0001c024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 448]
-	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI2_2] */
-	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
-	LONG $0xe0740dc5                           // vpcmpeqb    ymm12, ymm14, ymm0
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI2_3] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 416]
-	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI2_4] */
-	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
-	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0004a024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1184]
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI2_5] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x00048024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1152]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
-	QUAD $0x00044024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1088]
-	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
-	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
-	QUAD $0x00046024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1120]
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	QUAD $0x000420249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1056]
-	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
-	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000400249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1024]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0003e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 992]
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	QUAD $0x0003c024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 960]
-	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
-	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000380249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 896]
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	QUAD $0x0003a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 928]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
-	QUAD $0x00034024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 832]
-	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
-	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
-	QUAD $0x000360249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 864]
-	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
-	QUAD $0x00030024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 768]
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000320249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 800]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0002c024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 704]
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	QUAD $0x0002e024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 736]
-	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
-	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
-	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
-	QUAD $0x0002a0249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 672]
-	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
-	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
-	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
-	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
-	QUAD $0x00022024ac74fdc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm0, yword [rsp + 544]
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x00024024b474fdc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm0, yword [rsp + 576]
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	QUAD $0x000280249c74fdc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm0, yword [rsp + 640]
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
-	QUAD $0x00026024a474fdc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm0, yword [rsp + 608]
-	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI2_4] */
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000140248c74fdc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm0, yword [rsp + 320]
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	QUAD $0x000120249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 288]
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
-	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x447ffec5; WORD $0x608f             // vmovdqu    yword [rdi + 4*rcx + 96], ymm0
-	LONG $0x547ffec5; WORD $0x408f             // vmovdqu    yword [rdi + 4*rcx + 64], ymm2
-	LONG $0x647ffec5; WORD $0x208f             // vmovdqu    yword [rdi + 4*rcx + 32], ymm4
-	LONG $0x0c7ffec5; BYTE $0x8f               // vmovdqu    yword [rdi + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB2_166
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
-	JNE  LBB2_43
-	JMP  LBB2_129
-
-LBB2_168:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
-	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
-
-LBB2_169:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x3a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rdi + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x3a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rdi + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x3a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rdi + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x3a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rdi + 6]
-	QUAD $0x0000010024bc8948                   // mov    qword [rsp + 256], rdi
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x3a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rdi + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	LONG $0x40cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 576
-	QUAD $0x000000a8249c8948                   // mov    qword [rsp + 168], rbx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	LONG $0x80cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 640
-	QUAD $0x000000f024a4894c                   // mov    qword [rsp + 240], r12
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0xa0ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 672
-	QUAD $0x000000f824b4894c                   // mov    qword [rsp + 248], r14
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x00c98149; WORD $0x0003; BYTE $0x00 // or    r9, 768
-	QUAD $0x000000c0248c894c                   // mov    qword [rsp + 192], r9
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
-	QUAD $0x000000b824bc894c                   // mov    qword [rsp + 184], r15
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
-	QUAD $0x000000e0249c894c                   // mov    qword [rsp + 224], r11
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x60ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 864
-	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
-	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	LONG $0xa0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 928
-	QUAD $0x000000d024b48948                   // mov    qword [rsp + 208], rsi
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000108248c8948                   // mov    qword [rsp + 264], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	LONG $0x207923c4; WORD $0x2a0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r13], 1
-	LONG $0x2031e3c4; WORD $0x1a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rbx], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 3
-	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + r12], 4
-	LONG $0x2079a3c4; WORD $0x3204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r14], 5
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 6
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 7
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x000000c824bc8948                   // mov    qword [rsp + 200], rdi
-	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + r9], 8
-	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 9
-	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r11], 10
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r10], 11
-	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + r8], 12
-	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
-	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
-	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 15
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 1
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + r10], 2
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r12], 3
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 5
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 6
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 10
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 11
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 1
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x02013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x04013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x05013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 5
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x06013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 6
-	QUAD $0x07012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 7
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x08012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 8
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x09012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 9
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0a013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 12
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0d013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 15
-	QUAD $0x0101326c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r14 + 1], 1
-	QUAD $0x0201126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 1], 2
-	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
-	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
-	QUAD $0x05011a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 1], 5
-	QUAD $0x06010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 6
-	QUAD $0x07013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 7
-	QUAD $0x0801326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 8
-	QUAD $0x0901026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 9
-	QUAD $0x0a011a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 1], 10
-	QUAD $0x0b010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0102442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 1], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xce6e79c5                           // vmovd    xmm9, esi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xd66e79c5                           // vmovd    xmm10, esi
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x010202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x02020a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 2], 2
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x030212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x06020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x07023a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 2], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 8
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x09022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 9
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0a022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0b021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 11
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0c0232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 2], 12
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x0d023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0202325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0302325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0402325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0502325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0602325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x08021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x09021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 10
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0b021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0e021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0f021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 15
-	QUAD $0x010302642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r8 + 3], 1
-	QUAD $0x02030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 2
-	QUAD $0x030312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 3
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x04031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 4
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x05030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 5
-	QUAD $0x06030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 6
-	QUAD $0x07033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x08033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 8
-	QUAD $0x090322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 3], 9
-	QUAD $0x0a032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 10
-	QUAD $0x0b031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 11
-	QUAD $0x0c0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 12
-	QUAD $0x0d033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 13
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x0e030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 14
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0f033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 15
-	QUAD $0x0103026c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + rax + 3], 1
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x02031a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 3], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0403026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 4
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0503126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 5
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0603326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 6
-	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0803026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x09031a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 3], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
-	LONG $0xc66e79c5                           // vmovd    xmm8, esi
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0322442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
-	LONG $0xde6e79c5                           // vmovd    xmm11, esi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x010402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x020402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x030402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 3
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	QUAD $0x04042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 4
-	QUAD $0x05040a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 4], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x070402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 7
-	QUAD $0x08043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 13
-	QUAD $0x0e040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 14
-	QUAD $0x0f043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0104025c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rdx + rax + 4], 1
-	QUAD $0x02041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 2
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x03041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0404025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 4
-	QUAD $0x0504125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 5
-	WORD $0x894c; BYTE $0xf6                   // mov    rsi, r14
-	QUAD $0x0604325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 6
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0704125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 7
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x08040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 8
-	QUAD $0x09041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 10
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0b04325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 13
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0e043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 14
-	QUAD $0x0f04225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 4], 15
-	QUAD $0x010502642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + r8 + 5], 1
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x02053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x03051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 3
-	QUAD $0x04052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 4
-	QUAD $0x05050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 7
-	QUAD $0x08053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x09050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 12
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x0d052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 15
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x01053a6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rdi + 5], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 2
-	QUAD $0x03051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 3
-	QUAD $0x0405026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0505026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 5
-	QUAD $0x0605326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 5], 6
-	QUAD $0x0705126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 5], 7
-	QUAD $0x08050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 8
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x09050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
-	QUAD $0x0b05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0f0522442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r12 + 5], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
-	QUAD $0x010602442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + r8 + 6], 1
-	QUAD $0x02063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 2
-	QUAD $0x03061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 3
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x04061a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 6], 4
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x050602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x07063a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 6], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 9
-	QUAD $0x0a060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b0612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 6], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 12
-	QUAD $0x0d062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01060a6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rcx + 6], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0506326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 5
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x06061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 8
-	QUAD $0x09060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 10
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0b06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 11
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0c060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 12
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 14
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x0f062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 15
-	QUAD $0x010732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 1
-	QUAD $0x02073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 2
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x03072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 3
-	QUAD $0x04071a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 7], 4
-	QUAD $0x050702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 6
-	QUAD $0x07073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 7
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x080732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x09070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 10
-	QUAD $0x0b0712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 11
-	QUAD $0x0c0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 13
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x0e073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 4
-	QUAD $0x0507324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 5
-	QUAD $0x06071a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 7], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0707324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
-	QUAD $0x0b07224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 11
-	QUAD $0x0c070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e070a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rcx + 7], 14
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0722442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01080a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rcx + 8], 1
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x020802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 2
-	QUAD $0x03082a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 8], 3
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	QUAD $0x04081a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 8], 4
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x05081a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 8], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 6
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x070832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 7
-	QUAD $0x080832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 8], 8
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x090812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 9
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0a081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 12
-	QUAD $0x0d0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 13
-	QUAD $0x0e083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0108026c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + rax + 8], 1
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x02080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 2
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x03083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0408326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0508026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 5
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0608326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0708026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0808026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 8
-	QUAD $0x09083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 11
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0c083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 12
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0d083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 14
-	QUAD $0x0f08226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 15
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x010922742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + r12 + 9], 1
-	QUAD $0x020902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 3
-	QUAD $0x04092a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 9], 4
-	QUAD $0x05091a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 9], 5
-	QUAD $0x06090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x08090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 8
-	QUAD $0x090912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 9
-	QUAD $0x0a091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c091a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 9], 12
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0d090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 14
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0f0922742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 9], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01090a7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + rcx + 9], 1
-	QUAD $0x02090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 2
-	QUAD $0x03093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 3
-	QUAD $0x0409327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 4
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x05092a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 9], 5
-	QUAD $0x0609327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 6
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x07091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 7
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x08093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 10
-	QUAD $0x0b09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00044024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm5
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xee6ef9c5                           // vmovd    xmm5, esi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x010a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 1
-	QUAD $0x020a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 2
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x030a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x050a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 6
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x070a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 7
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x080a325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 10], 8
-	QUAD $0x090a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 11
-	QUAD $0x0c0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 12
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x0d0a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 13
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0e0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 14
-	QUAD $0x0f0a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x010a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x030a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 3
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x040a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 4
-	QUAD $0x050a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x060a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 6
-	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
-	QUAD $0x080a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x090a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 10
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x0b0a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 12
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0d0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 13
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0e0a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 14
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0f0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 15
-	QUAD $0x010b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 1
-	QUAD $0x020b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 2
-	QUAD $0x030b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 3
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x040b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x050b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 5
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x060b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 6
-	QUAD $0x070b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 7
-	QUAD $0x080b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 8
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x090b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 9
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0a0b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 10
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x0b0b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c0b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 12
-	QUAD $0x0d0b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 13
-	QUAD $0x0e0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 14
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0f0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 15
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x010b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x020b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 2
-	QUAD $0x030b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 3
-	QUAD $0x040b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x050b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 5
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x060b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 6
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x070b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 11], 7
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x080b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 8
-	QUAD $0x090b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 10
-	QUAD $0x0b0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
-	QUAD $0x0e0b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x010c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x020c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x030c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 3
-	QUAD $0x040c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 4
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x050c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x060c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x070c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 9
-	QUAD $0x0a0c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 12], 10
-	QUAD $0x0b0c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 12], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c0c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 13
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x0e0c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 14
-	QUAD $0x0f0c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 15
-	QUAD $0x010c3a542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + rdi + 12], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x030c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x040c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x050c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 5
-	QUAD $0x060c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 6
-	QUAD $0x070c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 7
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x080c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 8
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x090c1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 12], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 10
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0d0c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 13
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0e0c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 14
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 15
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x010d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 1
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x020d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x030d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 3
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x040d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 4
-	QUAD $0x050d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 5
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x060d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 6
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x070d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 7
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x080d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 8
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x090d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 9
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0a0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 11
-	QUAD $0x0c0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 12
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x0d0d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 13
-	QUAD $0x0e0d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 13], 14
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0f0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x010d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 1
-	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
-	QUAD $0x030d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 3
-	QUAD $0x040d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 4
-	QUAD $0x050d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 5
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x060d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x070d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 7
-	QUAD $0x080d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 8
-	QUAD $0x090d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
-	QUAD $0x0d0d0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 13], 13
-	QUAD $0x0e0d024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0d02442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 13], 15
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x0e2a             // movzx    esi, byte [rdx + r13 + 14]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rax + 14]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x010e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x020e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 2
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x030e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 3
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x040e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x050e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 5
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x060e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x070e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x080e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 8
-	QUAD $0x090e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 12
-	QUAD $0x0d0e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 14
-	QUAD $0x0f0e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 15
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x010e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 14], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x020e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x030e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x040e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x050e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 5
-	QUAD $0x060e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 6
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x070e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 14], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x080e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 8
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x090e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 9
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0a0e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 12
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x0d0e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 14], 13
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0e0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 15
-	LONG $0x74b60f42; WORD $0x0f2a             // movzx    esi, byte [rdx + r13 + 15]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x010f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x020f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 2
-	QUAD $0x030f02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 15], 3
-	QUAD $0x040f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 4
-	QUAD $0x050f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 5
-	QUAD $0x060f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 15], 6
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x070f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 7
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x080f02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 15], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x090f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 9
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0a0f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 10
-	QUAD $0x0b0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rax + 15]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x010f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x030f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x040f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x050f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x060f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 6
-	QUAD $0x070f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 7
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x080f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 8
-	QUAD $0x090f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 9
-	QUAD $0x0a0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 10
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0b0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 12
-	QUAD $0x0d0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 13
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0e0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 14
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f0f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rsi + 16]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x01100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 4
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x051032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 5
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x061032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 6
-	QUAD $0x07102a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 16], 7
-	QUAD $0x081002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 9
-	QUAD $0x0a103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 12
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0d1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 13
-	QUAD $0x0e100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 15
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	LONG $0x1a74b60f; BYTE $0x10               // movzx    esi, byte [rdx + rbx + 16]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0110024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 16], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0210324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0310324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0410324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 4
-	QUAD $0x05103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0610324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0710324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 7
-	QUAD $0x0810124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a10324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 10
-	QUAD $0x0b10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 11
-	QUAD $0x0c10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 13
-	QUAD $0x0e101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 14
-	QUAD $0x0f10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x01110a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 17], 1
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x02111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 2
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x031112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 4
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x05112a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 17], 5
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x06110a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 17], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 7
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x081132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 8
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x09113a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 17], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 11
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0c1122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 12
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0d1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 14
-	QUAD $0x0f110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 15
-	LONG $0x1a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rbx + 17]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0111025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 2
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0311025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0411325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0511325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0611325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0711325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
-	QUAD $0x09113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 9
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0a113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 13
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0e11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f1132442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rsi + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rsi + 18]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 1
-	QUAD $0x02121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 2
-	QUAD $0x031212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 4
-	QUAD $0x05122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 5
-	QUAD $0x06120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 6
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x071232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 7
-	QUAD $0x081232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 18], 8
-	QUAD $0x09123a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 18], 9
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0a122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 10
-	QUAD $0x0b1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 11
-	QUAD $0x0c1222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 18], 12
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x0d120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 15
-	LONG $0x1a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rbx + 18]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0112324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 1
-	QUAD $0x02120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 2
-	QUAD $0x0312024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0412024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0512024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0612024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 6
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x07121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0912024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 9
-	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0d12224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 13
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0e12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 14
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0f12124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 15
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x133a             // movzx    esi, byte [rdx + r15 + 19]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 4
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x051332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 5
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x061332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 6
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x071332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 7
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x081332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 9
-	QUAD $0x0a132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c1332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 12
-	QUAD $0x0d130a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 19], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e133a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 19], 14
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0f1302542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 19], 15
-	LONG $0x1a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rbx + 19]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0113325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0213325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 2
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x03131a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 19], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0413325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0513325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 5
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x06132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 6
-	QUAD $0x07131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 7
-	QUAD $0x08130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 8
-	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0c130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 12
-	QUAD $0x0d13225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 13
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0e13325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 14
-	QUAD $0x0f13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x74b60f42; WORD $0x143a             // movzx    esi, byte [rdx + r15 + 20]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x01141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 1
-	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
-	QUAD $0x021422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 20], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x031402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 3
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x04140a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 20], 4
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x051412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 20], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x061402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x081402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 9
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0a1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 13
-	QUAD $0x0e143a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 20], 14
-	QUAD $0x0f1402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rax + 20]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0114024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0214024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 2
-	QUAD $0x03141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0414024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x05143a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 20], 5
-	QUAD $0x06142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0714324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0814324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0914324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 10
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x0b14024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 20], 11
-	QUAD $0x0c140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 12
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 13
-	QUAD $0x0e14324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 20], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 15
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rsi + 21]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x01151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 1
-	QUAD $0x021522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 3
-	QUAD $0x04150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 4
-	QUAD $0x051512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 5
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x06153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 6
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x07151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 7
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x081522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 8
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x091512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 9
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0a150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 10
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0b1532542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 21], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 12
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x0d151a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 21], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 15
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rcx + 21]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 3
-	QUAD $0x0415025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 4
-	QUAD $0x05153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0615025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 6
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x07153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x08150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0915025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 10
-	QUAD $0x0b15025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 21], 11
-	QUAD $0x0c150a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 21], 12
-	QUAD $0x0d152a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 21], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0f1502442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r8 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 3
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x041632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 4
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x05162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 5
-	QUAD $0x06163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 6
-	QUAD $0x07161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 7
-	QUAD $0x081622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 8
-	QUAD $0x091612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 22], 9
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x0a1622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 10
-	QUAD $0x0b1632442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 22], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 12
-	QUAD $0x0d161a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 22], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 14
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0f1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 15
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	LONG $0x74b60f42; WORD $0x1612             // movzx    esi, byte [rdx + r10 + 22]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0116324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x02161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 2
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0316324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0416324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 4
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0516324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0616324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 6
-	QUAD $0x07163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 7
-	QUAD $0x08160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 10
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x0b160a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 22], 11
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0c160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 12
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0d160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 13
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0e163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 14
-	QUAD $0x0f16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 15
-	LONG $0x0274b60f; BYTE $0x17               // movzx    esi, byte [rdx + rax + 23]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x011702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x021702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 2
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x03173a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 23], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 4
-	QUAD $0x05172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 5
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x06170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x08170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x09170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 9
-	QUAD $0x0a1722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 11
-	QUAD $0x0c171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 12
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0d170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 14
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0f1722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 15
-	LONG $0x74b60f42; WORD $0x1712             // movzx    esi, byte [rdx + r10 + 23]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x01171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 1
-	QUAD $0x02171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 3
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x04171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 4
-	QUAD $0x0517325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 5
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x06172a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 23], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0717325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0817325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 8
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0917025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 9
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0a17125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 10
-	QUAD $0x0b170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 12
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0d17325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 13
-	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x180a             // movzx    esi, byte [rdx + r9 + 24]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 2
-	QUAD $0x03183a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 24], 3
-	QUAD $0x041802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x061802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x08183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 9
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x0a1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 11
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0c1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 12
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0d1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 14
-	QUAD $0x0f1822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 15
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	LONG $0x3274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rsi + 24]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x01181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0218324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 2
-	QUAD $0x03180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 3
-	QUAD $0x04181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x05180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 5
-	QUAD $0x06182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x07180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 7
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x08183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 8
-	QUAD $0x0918024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 9
-	QUAD $0x0a18124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 10
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0c180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 12
-	QUAD $0x0d18324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 13
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0e18024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 15
-	LONG $0x74b60f42; WORD $0x190a             // movzx    esi, byte [rdx + r9 + 25]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x02190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 2
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x03190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 3
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x04191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 4
-	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
-	QUAD $0x05190a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 25], 5
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x061922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 6
-	QUAD $0x071902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 7
-	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x091902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 9
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0a192a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 25], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b191a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 25], 11
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0c1932542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 25], 12
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0d190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x01193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0219025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0319025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0419025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0519025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0619025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0719025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 7
-	QUAD $0x08193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0919025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 9
-	QUAD $0x0a19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 12
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0d19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 13
-	QUAD $0x0e19025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0f1902442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r8 + 25], 15
-	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	LONG $0x3274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rsi + 26]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 1
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x021a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 2
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x031a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 3
-	QUAD $0x041a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 4
-	QUAD $0x051a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 5
-	QUAD $0x061a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 6
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x071a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x081a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 8
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x091a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 9
-	QUAD $0x0a1a2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 26], 10
-	QUAD $0x0b1a1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 26], 11
-	QUAD $0x0c1a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 12
-	QUAD $0x0d1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 15
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	LONG $0x1a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rbx + 26]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x011a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x021a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 2
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x031a224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 26], 3
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x041a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 4
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x051a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x061a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x071a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 7
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x081a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 10
-	QUAD $0x0b1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 12
-	QUAD $0x0d1a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 13
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 14
-	QUAD $0x0f1a024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 26], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x011b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x021b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 2
-	QUAD $0x031b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 3
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	QUAD $0x041b12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 27], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 5
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x061b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 6
-	QUAD $0x071b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 27], 7
-	QUAD $0x081b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 8
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x091b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 9
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x0a1b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 15
-	LONG $0x1a74b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rbx + 27]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x011b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 1
-	QUAD $0x021b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 2
-	QUAD $0x031b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 3
-	QUAD $0x041b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 4
-	QUAD $0x051b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 5
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x061b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x071b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x081b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 12
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 13
-	QUAD $0x0e1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x74b60f42; WORD $0x1c2a             // movzx    esi, byte [rdx + r13 + 28]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x011c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 1
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x021c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 2
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x031c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 3
-	QUAD $0x041c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 4
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x051c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 28], 5
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x061c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 6
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x071c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 7
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x081c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 8
-	QUAD $0x091c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 9
-	QUAD $0x0a1c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 28], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b1c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 11
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x0c1c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 12
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0d1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 14
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0f1c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 15
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	LONG $0x3274b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rsi + 28]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x011c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x021c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 2
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x031c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 3
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x041c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 5
-	QUAD $0x061c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 6
-	QUAD $0x071c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x081c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 11
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0c1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 12
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 13
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0e1c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 15
-	LONG $0x74b60f42; WORD $0x1d2a             // movzx    esi, byte [rdx + r13 + 29]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x011d2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 29], 1
-	QUAD $0x021d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 2
-	QUAD $0x031d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 3
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x041d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 4
-	QUAD $0x051d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 5
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x061d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 6
-	QUAD $0x071d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x081d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 8
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x091d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 9
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0a1d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 10
-	QUAD $0x0b1d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 11
-	QUAD $0x0c1d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 12
-	QUAD $0x0d1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e1d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 14
-	QUAD $0x0f1d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 15
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	LONG $0x74b60f42; WORD $0x1d02             // movzx    esi, byte [rdx + r8 + 29]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x011d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 29], 1
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x021d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 29], 2
-	QUAD $0x031d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 3
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x041d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 5
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x061d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x081d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 9
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0a1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 10
-	QUAD $0x0b1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 13
-	QUAD $0x0e1d22642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + r12 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0f1d22442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + r12 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a74b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rdi + 30]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x011e2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 30], 1
-	LONG $0x3a74b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rdi + 31]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x011f2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 31], 1
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
-	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
-	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
-	QUAD $0x061e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 30], 6
-	QUAD $0x061f1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 31], 6
-	QUAD $0x0000011024bc8b48                   // mov    rdi, qword [rsp + 272]
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
-	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
-	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
-	QUAD $0x091e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 30], 9
-	QUAD $0x091f0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 31], 9
-	QUAD $0x0a1e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 30], 10
-	QUAD $0x0a1f324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 31], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x0e1e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 30], 14
-	QUAD $0x0e1f1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 31], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
-	WORD $0x894c; BYTE $0xc6                   // mov    rsi, r8
-	LONG $0x44b60f42; WORD $0x1e02             // movzx    eax, byte [rdx + r8 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f02             // movzx    eax, byte [rdx + r8 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f3a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 31], 1
-	QUAD $0x021e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 2
-	QUAD $0x021f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 2
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
-	QUAD $0x041e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 30], 4
-	QUAD $0x041f0a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 31], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
-	QUAD $0x061f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
-	QUAD $0x071f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 7
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0c1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x0f1e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 30], 15
-	QUAD $0x0f1f227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00020024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 512]
-	QUAD $0x0004c0249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 1216]
-	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
-	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
-	LONG $0xf87485c5                           // vpcmpeqb    ymm7, ymm15, ymm0
-	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
-	QUAD $0x0001e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI2_1] */
-	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0001c024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 448]
-	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI2_2] */
-	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
-	LONG $0xe0740dc5                           // vpcmpeqb    ymm12, ymm14, ymm0
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI2_3] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 416]
-	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI2_4] */
-	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
-	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0004a024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1184]
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI2_5] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x00048024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1152]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
-	QUAD $0x00044024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1088]
-	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
-	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
-	QUAD $0x00046024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1120]
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	QUAD $0x000420249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1056]
-	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
-	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000400249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1024]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0003e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 992]
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	QUAD $0x0003c024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 960]
-	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
-	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000380249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 896]
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	QUAD $0x0003a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 928]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
-	QUAD $0x00034024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 832]
-	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
-	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
-	QUAD $0x000360249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 864]
-	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
-	QUAD $0x00030024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 768]
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000320249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 800]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x0002c024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 704]
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	QUAD $0x0002e024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 736]
-	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
-	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
-	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
-	QUAD $0x0002a0249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 672]
-	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
-	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
-	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
-	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
-	QUAD $0x00022024ac74fdc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm0, yword [rsp + 544]
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x00024024b474fdc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm0, yword [rsp + 576]
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	QUAD $0x000280249c74fdc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm0, yword [rsp + 640]
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
-	QUAD $0x00026024a474fdc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm0, yword [rsp + 608]
-	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI2_4] */
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000140248c74fdc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm0, yword [rsp + 320]
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	QUAD $0x000120249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 288]
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
-	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x447ffec5; WORD $0x608f             // vmovdqu    yword [rdi + 4*rcx + 96], ymm0
-	LONG $0x547ffec5; WORD $0x408f             // vmovdqu    yword [rdi + 4*rcx + 64], ymm2
-	LONG $0x647ffec5; WORD $0x208f             // vmovdqu    yword [rdi + 4*rcx + 32], ymm4
-	LONG $0x0c7ffec5; BYTE $0x8f               // vmovdqu    yword [rdi + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB2_169
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
-	JNE  LBB2_114
-	JMP  LBB2_133
-
-TEXT ·_comparison_not_equal_arr_arr_avx2(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_20:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_20
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3950f41                           // setne    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7950f41                           // setne    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2950f41                           // setne    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6950f41                           // setne    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1950f41                           // setne    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_28:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_28
-	JMP  LBB3_123
-
-LBB3_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_48:
-	LONG $0x0610fbc5             // vmovsd    xmm0, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_48
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB3_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fbc5                           // vmovsd    xmm0, qword [rsi]
-	LONG $0x4e10fbc5; BYTE $0x08               // vmovsd    xmm1, qword [rsi + 8]
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x4a2ef9c5; BYTE $0x08               // vucomisd    xmm1, qword [rdx + 8]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x4610fbc5; BYTE $0x10               // vmovsd    xmm0, qword [rsi + 16]
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0x4610fbc5; BYTE $0x18               // vmovsd    xmm0, qword [rsi + 24]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x4610fbc5; BYTE $0x20               // vmovsd    xmm0, qword [rsi + 32]
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x4610fbc5; BYTE $0x28               // vmovsd    xmm0, qword [rsi + 40]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x4610fbc5; BYTE $0x30               // vmovsd    xmm0, qword [rsi + 48]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	LONG $0x4610fbc5; BYTE $0x38               // vmovsd    xmm0, qword [rsi + 56]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x4610fbc5; BYTE $0x40               // vmovsd    xmm0, qword [rsi + 64]
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x4610fbc5; BYTE $0x48               // vmovsd    xmm0, qword [rsi + 72]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x4610fbc5; BYTE $0x50               // vmovsd    xmm0, qword [rsi + 80]
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0x4610fbc5; BYTE $0x58               // vmovsd    xmm0, qword [rsi + 88]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x4610fbc5; BYTE $0x60               // vmovsd    xmm0, qword [rsi + 96]
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0x4610fbc5; BYTE $0x68               // vmovsd    xmm0, qword [rsi + 104]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x4610fbc5; BYTE $0x70               // vmovsd    xmm0, qword [rsi + 112]
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	LONG $0x4610fbc5; BYTE $0x78               // vmovsd    xmm0, qword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	QUAD $0x000000808610fbc5                   // vmovsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x000000888610fbc5                   // vmovsd    xmm0, qword [rsi + 136]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x000000908610fbc5                   // vmovsd    xmm0, qword [rsi + 144]
-	LONG $0xd6950f41                           // setne    r14b
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x000000988610fbc5                   // vmovsd    xmm0, qword [rsi + 152]
-	LONG $0xd4950f41                           // setne    r12b
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a08610fbc5                   // vmovsd    xmm0, qword [rsi + 160]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000a88610fbc5                   // vmovsd    xmm0, qword [rsi + 168]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	QUAD $0x000000b08610fbc5                   // vmovsd    xmm0, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	QUAD $0x000000b88610fbc5                   // vmovsd    xmm0, qword [rsi + 184]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	QUAD $0x000000c08610fbc5                   // vmovsd    xmm0, qword [rsi + 192]
-	LONG $0xd0950f41                           // setne    r8b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000000c88610fbc5                   // vmovsd    xmm0, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	QUAD $0x000000d08610fbc5                   // vmovsd    xmm0, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	QUAD $0x000000d88610fbc5                   // vmovsd    xmm0, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	QUAD $0x000000e08610fbc5                   // vmovsd    xmm0, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000000e88610fbc5                   // vmovsd    xmm0, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000000f08610fbc5                   // vmovsd    xmm0, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f88610fbc5                   // vmovsd    xmm0, qword [rsi + 248]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd7950f40                           // setne    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB3_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB3_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_56:
-	LONG $0x0410fbc5; BYTE $0xce // vmovsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042ef9c5; BYTE $0xca // vucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_56
-	JMP  LBB3_123
-
-LBB3_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB3_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x950f; BYTE $0xd1       // setne    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0950f41               // setne    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB3_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB3_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_14
-	JMP  LBB3_123
-
-LBB3_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_34:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_34
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_42:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_42
-	JMP  LBB3_123
-
-LBB3_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_70:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_70
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454950f; BYTE $0x20   // setne    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0950f41               // setne    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB3_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB3_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_78:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_78
-	JMP  LBB3_123
-
-LBB3_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454950f; BYTE $0x20   // setne    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0950f41               // setne    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB3_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB3_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_89
-	JMP  LBB3_123
-
-LBB3_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_111
-	JMP  LBB3_123
-
-LBB3_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_114:
-	LONG $0x0610fac5             // vmovss    xmm0, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_114
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB3_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fac5                           // vmovss    xmm0, dword [rsi]
-	LONG $0x4e10fac5; BYTE $0x04               // vmovss    xmm1, dword [rsi + 4]
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x4a2ef8c5; BYTE $0x04               // vucomiss    xmm1, dword [rdx + 4]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x4610fac5; BYTE $0x08               // vmovss    xmm0, dword [rsi + 8]
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0x4610fac5; BYTE $0x0c               // vmovss    xmm0, dword [rsi + 12]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x4610fac5; BYTE $0x10               // vmovss    xmm0, dword [rsi + 16]
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x4610fac5; BYTE $0x14               // vmovss    xmm0, dword [rsi + 20]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x4610fac5; BYTE $0x18               // vmovss    xmm0, dword [rsi + 24]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	LONG $0x4610fac5; BYTE $0x1c               // vmovss    xmm0, dword [rsi + 28]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x4610fac5; BYTE $0x20               // vmovss    xmm0, dword [rsi + 32]
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x4610fac5; BYTE $0x24               // vmovss    xmm0, dword [rsi + 36]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x4610fac5; BYTE $0x28               // vmovss    xmm0, dword [rsi + 40]
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0x4610fac5; BYTE $0x2c               // vmovss    xmm0, dword [rsi + 44]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x4610fac5; BYTE $0x30               // vmovss    xmm0, dword [rsi + 48]
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0x4610fac5; BYTE $0x34               // vmovss    xmm0, dword [rsi + 52]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x4610fac5; BYTE $0x38               // vmovss    xmm0, dword [rsi + 56]
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	LONG $0x4610fac5; BYTE $0x3c               // vmovss    xmm0, dword [rsi + 60]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x4610fac5; BYTE $0x40               // vmovss    xmm0, dword [rsi + 64]
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x4610fac5; BYTE $0x44               // vmovss    xmm0, dword [rsi + 68]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0x4610fac5; BYTE $0x48               // vmovss    xmm0, dword [rsi + 72]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0x4610fac5; BYTE $0x4c               // vmovss    xmm0, dword [rsi + 76]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x4610fac5; BYTE $0x50               // vmovss    xmm0, dword [rsi + 80]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x4610fac5; BYTE $0x54               // vmovss    xmm0, dword [rsi + 84]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x4610fac5; BYTE $0x58               // vmovss    xmm0, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x4610fac5; BYTE $0x5c               // vmovss    xmm0, dword [rsi + 92]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0x4610fac5; BYTE $0x60               // vmovss    xmm0, dword [rsi + 96]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x4610fac5; BYTE $0x64               // vmovss    xmm0, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x4610fac5; BYTE $0x68               // vmovss    xmm0, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x4610fac5; BYTE $0x6c               // vmovss    xmm0, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x4610fac5; BYTE $0x70               // vmovss    xmm0, dword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	LONG $0x4610fac5; BYTE $0x74               // vmovss    xmm0, dword [rsi + 116]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	LONG $0x4610fac5; BYTE $0x78               // vmovss    xmm0, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x4610fac5; BYTE $0x7c               // vmovss    xmm0, dword [rsi + 124]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd7950f40                           // setne    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB3_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB3_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_122:
-	LONG $0x0410fac5; BYTE $0x8e // vmovss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x042ef8c5; BYTE $0x8a // vucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_122
-	JMP  LBB3_123
-
-LBB3_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_59:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_59
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB3_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x950f; BYTE $0xd1       // setne    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0950f41               // setne    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB3_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB3_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_67:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_67
-	JMP  LBB3_123
-
-LBB3_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3950f41                           // setne    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7950f41                           // setne    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2950f41                           // setne    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6950f41                           // setne    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1950f41                           // setne    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_100
-
-LBB3_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA3<>+0x000(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x008(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x010(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x018(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA3<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA3<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA3<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA3<>(SB), 8, $224
-
-TEXT ·_comparison_not_equal_arr_scalar_avx2(SB), $1320-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1280(SP)
-	LEAQ LCDATA3<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB4_13
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB4_25
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB4_48
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB4_56
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB4_159
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_7:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_7
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB4_9:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_100
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB4_11:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB4_11
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_101
-	JMP  LBB4_159
-
-LBB4_13:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB4_38
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB4_64
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB4_72
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB4_159
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_21
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_19:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_19
-	LONG $0x01c38349             // add    r11, 1
-
-LBB4_21:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_104
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB4_23:
-	LONG $0x062ef9c5                           // vucomisd    xmm0, qword [rsi]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x462ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x462ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x462ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x462ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rsi + 32]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x462ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x462ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rsi + 48]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x462ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rsi + 56]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x462ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rsi + 64]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x462ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rsi + 72]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x462ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x462ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x462ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x462ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x462ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x462ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rsi + 120]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	QUAD $0x00000080862ef9c5                   // vucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	QUAD $0x00000088862ef9c5                   // vucomisd    xmm0, qword [rsi + 136]
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	QUAD $0x00000090862ef9c5                   // vucomisd    xmm0, qword [rsi + 144]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	QUAD $0x00000098862ef9c5                   // vucomisd    xmm0, qword [rsi + 152]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	QUAD $0x000000a0862ef9c5                   // vucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	QUAD $0x000000a8862ef9c5                   // vucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	QUAD $0x000000b0862ef9c5                   // vucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	QUAD $0x000000b8862ef9c5                   // vucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7950f41                           // setne    r15b
-	QUAD $0x000000c0862ef9c5                   // vucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	QUAD $0x000000c8862ef9c5                   // vucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	QUAD $0x000000d0862ef9c5                   // vucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	QUAD $0x000000d8862ef9c5                   // vucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	QUAD $0x000000e0862ef9c5                   // vucomisd    xmm0, qword [rsi + 224]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	QUAD $0x000000e8862ef9c5                   // vucomisd    xmm0, qword [rsi + 232]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	QUAD $0x000000f0862ef9c5                   // vucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	QUAD $0x000000f8862ef9c5                   // vucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000098248c0244                   // add    r9b, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x0000009024848348; BYTE $0xff       // add    qword [rsp + 144], -1
-	JNE  LBB4_23
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_105
-	JMP  LBB4_159
-
-LBB4_25:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB4_80
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB4_159
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_131
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	WORD $0x894d; BYTE $0xdd // mov    r13, r11
-
-LBB4_29:
-	WORD $0x3844; BYTE $0x36       // cmp    byte [rsi], r14b
-	LONG $0x01768d48               // lea    rsi, [rsi + 1]
-	WORD $0x950f; BYTE $0xd2       // setne    dl
-	WORD $0xdaf6                   // neg    dl
-	LONG $0x07788d48               // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xf8490f48               // cmovns    rdi, rax
-	LONG $0x03ffc148               // sar    rdi, 3
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0x3044; BYTE $0xca       // xor    dl, r9b
-	QUAD $0x00000000fd048d44       // lea    r8d, [8*rdi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00   // mov    ebx, 1
-	WORD $0xe3d3                   // shl    ebx, cl
-	WORD $0xd320                   // and    bl, dl
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB4_29
-	LONG $0x01c58349               // add    r13, 1
-	LONG $0x05ffc149               // sar    r15, 5
-	LONG $0x20fa8349               // cmp    r10, 32
-	JL   LBB4_132
-
-LBB4_31:
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
-	JB   LBB4_34
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc5     // cmp    r13, rax
-	JAE  LBB4_165
-	QUAD $0x00000000bd048d4a     // lea    rax, [4*r15]
-	WORD $0x014c; BYTE $0xe8     // add    rax, r13
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB4_165
-
-LBB4_34:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x0000017824ac894c // mov    qword [rsp + 376], r13
-
-LBB4_35:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-	QUAD $0x0000018024ac2b4c // sub    r13, qword [rsp + 384]
-	QUAD $0x0000009024ac894c // mov    qword [rsp + 144], r13
-
-LBB4_36:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000001102494950f                   // setne    byte [rsp + 272]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x20249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 288]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x0000009824b4b60f                   // movzx    esi, byte [rsp + 152]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
-	QUAD $0x0000009024848348; BYTE $0xff       // add    qword [rsp + 144], -1
-	JNE  LBB4_36
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	JMP  LBB4_133
-
-LBB4_38:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB4_92
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB4_159
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_44
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_42:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_42
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB4_44:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_107
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-
-LBB4_46:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB4_46
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_108
-	JMP  LBB4_159
-
-LBB4_48:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_52
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_50:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_50
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB4_52:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_111
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB4_54:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB4_54
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_112
-	JMP  LBB4_159
-
-LBB4_56:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_60
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_58:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_58
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB4_60:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_115
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB4_62:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB4_62
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_116
-	JMP  LBB4_159
-
-LBB4_64:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_68
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_66:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_66
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB4_68:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_118
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB4_70:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB4_70
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_119
-	JMP  LBB4_159
-
-LBB4_72:
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_76
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_74:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_74
-	LONG $0x01c38349             // add    r11, 1
-
-LBB4_76:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_121
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB4_78:
-	LONG $0x062ef8c5                           // vucomiss    xmm0, dword [rsi]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x462ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x462ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rsi + 8]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x462ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rsi + 12]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x462ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rsi + 16]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x462ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rsi + 20]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x462ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rsi + 24]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x462ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rsi + 28]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x462ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rsi + 32]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x462ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rsi + 36]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x462ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rsi + 40]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x462ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rsi + 44]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x462ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rsi + 48]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x462ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rsi + 52]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x462ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rsi + 56]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x462ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rsi + 60]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x462ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rsi + 64]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x462ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rsi + 68]
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x462ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rsi + 72]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x462ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rsi + 76]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x462ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rsi + 80]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x462ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rsi + 84]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x462ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x462ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rsi + 92]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x462ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rsi + 96]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x462ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x462ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x462ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x462ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rsi + 112]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x462ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rsi + 116]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x462ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x462ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rsi + 124]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000098248c0244                   // add    r9b, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x0000009024848348; BYTE $0xff       // add    qword [rsp + 144], -1
-	JNE  LBB4_78
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_122
-	JMP  LBB4_159
-
-LBB4_80:
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_84
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_82:
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_82
-	LONG $0x01c38349             // add    r11, 1
-
-LBB4_84:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB4_124
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
-	JB   LBB4_88
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB4_168
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB4_168
-
-LBB4_88:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-
-LBB4_89:
-	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-
-LBB4_90:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000001102494950f                   // setne    byte [rsp + 272]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x20249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 288]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000982494b60f                   // movzx    edx, byte [rsp + 152]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
-	QUAD $0x0000009024848348; BYTE $0xff       // add    qword [rsp + 144], -1
-	JNE  LBB4_90
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	JMP  LBB4_125
-
-LBB4_92:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_96
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_94:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_94
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB4_96:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB4_128
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-
-LBB4_98:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB4_98
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB4_129
-	JMP  LBB4_159
-
-LBB4_100:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_101:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB4_130
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_103:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_103
-	JMP  LBB4_156
-
-LBB4_104:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_105:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB4_136
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_138
-
-LBB4_107:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_108:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB4_120
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_110:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_110
-	JMP  LBB4_146
-
-LBB4_111:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_112:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB4_117
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_114:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_114
-	JMP  LBB4_142
-
-LBB4_115:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_116:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB4_140
-
-LBB4_117:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_142
-
-LBB4_118:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_119:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB4_144
-
-LBB4_120:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_146
-
-LBB4_121:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_122:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB4_148
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_150
-
-LBB4_124:
-	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB4_125:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JE   LBB4_127
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
-
-LBB4_153:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_153
-	JMP  LBB4_162
-
-LBB4_128:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-
-LBB4_129:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB4_154
-
-LBB4_130:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_156
-
-LBB4_131:
-	WORD $0x894d; BYTE $0xdd // mov    r13, r11
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JGE  LBB4_31
-
-LBB4_132:
-	QUAD $0x0000017824ac894c // mov    qword [rsp + 376], r13
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB4_133:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB4_159
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB4_160
-
-LBB4_127:
-	WORD $0xf631  // xor    esi, esi
-	JMP  LBB4_163
-
-LBB4_136:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_137:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_137
-
-LBB4_138:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB4_159
-	LONG $0x062ef9c5 // vucomisd    xmm0, qword [rsi]
-	JMP  LBB4_158
-
-LBB4_140:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_141:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_141
-
-LBB4_142:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB4_159
-	LONG $0x2e394466 // cmp    word [rsi], r13w
-	JMP  LBB4_158
-
-LBB4_144:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_145:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_145
-
-LBB4_146:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_159
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-	JMP  LBB4_158
-
-LBB4_148:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_149:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_149
-
-LBB4_150:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB4_159
-	LONG $0x062ef8c5 // vucomiss    xmm0, dword [rsi]
-	JMP  LBB4_158
-
-LBB4_154:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB4_155:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_155
-
-LBB4_156:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_159
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-
-LBB4_158:
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-
-LBB4_159:
-	MOVQ 1280(SP), SP
-	VZEROUPPER
-	RET
-
-LBB4_160:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
-
-LBB4_161:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_161
-
-LBB4_162:
-	WORD $0x0149; BYTE $0xf4 // add    r12, rsi
-
-LBB4_163:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_159
-	LONG $0x24343845         // cmp    byte [r12], r14b
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000017824848b4c // mov    r8, qword [rsp + 376]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB4_159
-
-LBB4_165:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
-	QUAD $0x00000000bd048d4a             // lea    rax, [4*r15]
-	WORD $0x014c; BYTE $0xe8             // add    rax, r13
-	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000011024ac894c             // mov    qword [rsp + 272], r13
-
-LBB4_166:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x0000010024948948                   // mov    qword [rsp + 256], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	LONG $0x20cd8149; WORD $0x0002; BYTE $0x00 // or    r13, 544
-	QUAD $0x000000f824ac894c                   // mov    qword [rsp + 248], r13
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0x80ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 640
-	QUAD $0x000000802494894c                   // mov    qword [rsp + 128], r10
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02a00d48; WORD $0x0000             // or    rax, 672
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
-	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
-	LONG $0xc0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 704
-	QUAD $0x000000d824bc8948                   // mov    qword [rsp + 216], rdi
-	WORD $0x8948; BYTE $0xda                   // mov    rdx, rbx
-	LONG $0xe0ca8148; WORD $0x0002; BYTE $0x00 // or    rdx, 736
-	QUAD $0x000000e024948948                   // mov    qword [rsp + 224], rdx
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
-	QUAD $0x000000a024bc894c                   // mov    qword [rsp + 160], r15
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
-	QUAD $0x000000d0249c894c                   // mov    qword [rsp + 208], r11
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	LONG $0x60c88149; WORD $0x0003; BYTE $0x00 // or    r8, 864
-	QUAD $0x000001082484894c                   // mov    qword [rsp + 264], r8
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x80ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 896
-	LONG $0x2474894c; BYTE $0x78               // mov    qword [rsp + 120], r14
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	LONG $0xa0c98149; WORD $0x0003; BYTE $0x00 // or    r9, 928
-	LONG $0x244c894c; BYTE $0x58               // mov    qword [rsp + 88], r9
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x000000f0249c8948                   // mov    qword [rsp + 240], rbx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x20               // mov    qword [rsp + 32], rcx
-	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	LONG $0x2031a3c4; WORD $0x2e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + r13], 2
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r10], 4
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 5
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 6
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 7
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 8
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 9
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r11], 10
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r8], 11
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r14], 12
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + r9], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 1
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 2
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 3
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 4
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 5
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 6
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + r12], 14
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x04012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 4
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x07012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 7
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x08012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 8
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 12
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
-	QUAD $0x01011e6c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rbx + 1], 1
-	QUAD $0x02013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 2
-	QUAD $0x03010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 3
-	QUAD $0x0401166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 4
-	QUAD $0x05011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 5
-	QUAD $0x0601066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 6
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	QUAD $0x0701366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 10
-	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	QUAD $0x0e01266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 14
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x01020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 1
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x02020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 2
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x060236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x08022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 8
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	QUAD $0x0a0206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 10
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c0216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 12
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
-	QUAD $0x06021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x01030e642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + rcx + 3], 1
-	QUAD $0x02030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 2
-	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x04031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 4
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x050316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 5
-	QUAD $0x060336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 6
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x07030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 7
-	QUAD $0x080326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 8
-	QUAD $0x09032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 9
-	QUAD $0x0a0306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 10
-	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
-	QUAD $0x0c0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 12
-	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0e0306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0603366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 6
-	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0803066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0903066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0f0326442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	LONG $0x167cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rdx + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x010406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 1
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x02041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x050416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 5
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x06043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 6
-	QUAD $0x07040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 7
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x080416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 8
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x090416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 9
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0a0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 10
-	QUAD $0x0b041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 12
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0d0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 13
-	QUAD $0x0e0406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 14
-	QUAD $0x0f040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 15
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x01040e5c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rsi + rcx + 4], 1
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x0204165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x03040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 3
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x04040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 4
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x05040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 5
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x0604365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x07040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 7
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x08040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 9
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0a04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 13
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0e04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 14
-	QUAD $0x0f04265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 15
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x010536642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r14 + 5], 1
-	QUAD $0x02051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 2
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x03051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 3
-	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
-	QUAD $0x050506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 5
-	QUAD $0x06053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 7
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	QUAD $0x080516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 8
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 10
-	QUAD $0x0b051e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 5], 11
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x0c052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 13
-	QUAD $0x0e0506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 15
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x01050e6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rcx + 5], 1
-	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0505066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 5
-	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0705066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 7
-	QUAD $0x08050e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 5], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0905066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0f0526442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + r12 + 5], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x010636442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r14 + 6], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 2
-	QUAD $0x03061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 3
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x040636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x050606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 5
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x060616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 6
-	QUAD $0x07063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x080606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 8
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x09063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 9
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x0a060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 10
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	QUAD $0x0b0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 11
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x0c062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 15
-	QUAD $0x01060e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rcx + 6], 1
-	QUAD $0x0206166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x06062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0706166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 7
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x08060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 12
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0d061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 14
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0f06266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 6], 15
-	QUAD $0x01071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 1
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x02071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 2
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x03071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 3
-	QUAD $0x040736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 4
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
-	QUAD $0x060716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 6
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x07071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 7
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x080716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 8
-	QUAD $0x09073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 9
-	QUAD $0x0a070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 10
-	QUAD $0x0b0706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 11
-	QUAD $0x0c0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 15
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0107064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 1
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x0207264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0307064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0407064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 4
-	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
-	QUAD $0x06072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 6
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x0707164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 7
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x08070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0907064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 9
-	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0b072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0706442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 7], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f0706442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x01083e442031a3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + r15 + 8], 1
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x02081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 2
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x040806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 4
-	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x060806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 6
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	QUAD $0x07081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 7
-	QUAD $0x080816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 8], 8
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x090816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 9
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0a0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 10
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0b083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 12
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0d0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 15
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0108166c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rdx + 8], 1
-	QUAD $0x0208266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0308166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 3
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
-	QUAD $0x0608066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0708166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 7
-	QUAD $0x08080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0908166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 9
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0a08066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 10
-	QUAD $0x0b082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 11
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0c08266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 12
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0f082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 15
-	QUAD $0x01093e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r15 + 9], 1
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	QUAD $0x02091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 2
-	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x04091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 4
-	QUAD $0x050936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 5
-	QUAD $0x060906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 6
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x07091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 7
-	QUAD $0x080916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 8
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x09090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 9
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x0a093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 11
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x0c091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 15
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0109067c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rax + 9], 1
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x0209167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
-	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0609067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0709067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0809067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0909067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 9
-	QUAD $0x0a09067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 9], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	QUAD $0x0c09267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 9], 12
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x0d09367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 13
-	QUAD $0x0e09167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
-	QUAD $0x040a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 4
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x050a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 5
-	QUAD $0x060a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 7
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x080a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 8
-	QUAD $0x090a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 9
-	QUAD $0x0a0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 10
-	QUAD $0x00000108248c8b4c                   // mov    r9, qword [rsp + 264]
-	QUAD $0x0b0a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 11
-	QUAD $0x0c0a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 12
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0d0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 15
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x010a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 1
-	QUAD $0x020a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x040a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 4
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x050a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x060a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 11
-	QUAD $0x0c0a26642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 10], 12
-	QUAD $0x0d0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 13
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0e0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 14
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 15
-	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x030b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 3
-	QUAD $0x040b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 4
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x050b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 5
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x060b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 7
-	QUAD $0x080b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 8
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x090b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
-	QUAD $0x0b0b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
-	QUAD $0x0d0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 15
-	QUAD $0x010b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
-	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
-	QUAD $0x040b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 4
-	QUAD $0x050b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x060b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 11
-	QUAD $0x0c0b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
-	QUAD $0x0e0b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x010c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 1
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x020c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 12], 2
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x030c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 3
-	QUAD $0x040c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 4
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x050c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 5
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x060c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 6
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x070c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 7
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x080c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 12], 8
-	QUAD $0x090c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 9
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x0a0c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 10
-	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
-	QUAD $0x0b0c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 12], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 12
-	QUAD $0x0d0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 15
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x010c06542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + rax + 12], 1
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x030c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x050c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x0a0c2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 12], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c0c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 14
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0f0c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 15
-	QUAD $0x010d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 1
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	QUAD $0x020d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 2
-	QUAD $0x030d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x040d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 4
-	QUAD $0x050d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 5
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x060d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 6
-	QUAD $0x070d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 7
-	QUAD $0x080d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 8
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x090d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 9
-	QUAD $0x0a0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 10
-	QUAD $0x0b0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 11
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x0c0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 12
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0d0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 13
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 15
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x010d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 1
-	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x030d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 3
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x040d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 4
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x050d064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 13], 5
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x060d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x070d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x080d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 8
-	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
-	QUAD $0x0a0d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c0d1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 13], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x010e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 2
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x030e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x040e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x060e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 14], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x090e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 11
-	QUAD $0x0c0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 12
-	QUAD $0x0d0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 13
-	QUAD $0x0e0e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 14], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 15
-	QUAD $0x010e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x040e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 4
-	QUAD $0x050e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 5
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x060e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 6
-	QUAD $0x070e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x090e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 9
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0a0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
-	QUAD $0x0c0e1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 14], 12
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0d0e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rdi + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x020f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 2
-	QUAD $0x030f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x040f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 4
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x050f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 5
-	QUAD $0x060f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 6
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x070f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 7
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x080f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 8
-	QUAD $0x090f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 9
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0a0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 10
-	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
-	QUAD $0x0b0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0c0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 14
-	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
-	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x010f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 1
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
-	QUAD $0x040f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 4
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x050f2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 15], 5
-	QUAD $0x060f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x070f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 7
-	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
-	QUAD $0x090f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 9
-	QUAD $0x0a0f065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 15], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
-	QUAD $0x0d0f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e0f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 14
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rax + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x011016442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 16], 1
-	QUAD $0x02101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 3
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x041006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 4
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x05101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 5
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x061006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 6
-	QUAD $0x071026442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 16], 7
-	QUAD $0x08100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 8
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x091006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 10
-	QUAD $0x0b103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	LONG $0x167cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x0110364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 1
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x02100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0310164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 3
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0410164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 4
-	QUAD $0x05102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 5
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0610164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0710164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 7
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0810164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 8
-	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
-	QUAD $0x09101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 12
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0d103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 13
-	QUAD $0x0e100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 14
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0f100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 15
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x112e             // movzx    edi, byte [rsi + r13 + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x02113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 2
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x031116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 3
-	QUAD $0x041106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 4
-	QUAD $0x05111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 5
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x06110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 6
-	QUAD $0x071126542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 17], 7
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x08110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 8
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x09113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 9
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0a113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 10
-	QUAD $0x0b113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0c113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 14
-	QUAD $0x0f1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0111365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 1
-	QUAD $0x02110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0311065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 3
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0411065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 17], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0511065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0611065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 6
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x07110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 7
-	QUAD $0x0811165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 8
-	QUAD $0x09111e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 17], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 10
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0b11365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f1106442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x7cb60f42; WORD $0x122e             // movzx    edi, byte [rsi + r13 + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x021206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 2
-	QUAD $0x031216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x041206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 5
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x061206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 6
-	QUAD $0x071226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 7
-	QUAD $0x08120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 8
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x091206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 10
-	QUAD $0x0b123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 11
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
-	QUAD $0x0e121e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 18], 14
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0f123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 15
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rcx + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x01120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 1
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x02120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x03120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 3
-	QUAD $0x0412064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 4
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x05120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 5
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x06120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 6
-	QUAD $0x07120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 7
-	QUAD $0x0812164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 8
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0912064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
-	QUAD $0x0b12364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 12
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0d12164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 14
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0f123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 15
-	LONG $0x7cb60f42; WORD $0x132e             // movzx    edi, byte [rsi + r13 + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x02133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 2
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x04132e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 19], 4
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x05133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 5
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x06133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 6
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
-	QUAD $0x091306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 11
-	QUAD $0x0c1326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 12
-	QUAD $0x0d131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 14
-	QUAD $0x0f133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rax + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0113065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 1
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x0213365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0313065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0413065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 4
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x05133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 5
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x06130e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 19], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0713065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0813065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 8
-	QUAD $0x0913065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 9
-	QUAD $0x0a130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 11
-	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
-	QUAD $0x0d13165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 13
-	QUAD $0x0e131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 14
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x141e             // movzx    edi, byte [rsi + r11 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 1
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x03140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 3
-	QUAD $0x04142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 4
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x05140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 5
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x061406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 20], 6
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x071426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 7
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x08143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 8
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x09143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 10
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0b141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0c143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rdi + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0114164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 1
-	QUAD $0x0214364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 2
-	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
-	QUAD $0x0314364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 3
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x04142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 4
-	QUAD $0x05143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 5
-	QUAD $0x06140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x09143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x0e140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 14
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
-	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 1
-	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
-	WORD $0x8949; BYTE $0xd3                   // mov    r11, rdx
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x041506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 5
-	QUAD $0x061506542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 21], 6
-	QUAD $0x071526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x081506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 8
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x091506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 9
-	QUAD $0x0a150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 10
-	QUAD $0x0b151e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 21], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rax + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0115165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
-	QUAD $0x0315365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 3
-	QUAD $0x04152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 4
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x0515365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0615065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 6
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0715165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0815065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 8
-	QUAD $0x09153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 9
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0a15265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b15065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 13
-	QUAD $0x0e150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0f151e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rbx + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rcx + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
-	QUAD $0x02161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 2
-	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 4
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x06160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 6
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x07163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 7
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x081616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 8
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x091616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 9
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x0a161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 10
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0c1606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x02162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 3
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x04163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 4
-	QUAD $0x0516364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 5
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x06163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 6
-	QUAD $0x0716164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 7
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0816364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 9
-	QUAD $0x0a16264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 10
-	QUAD $0x0b16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 11
-	QUAD $0x0c163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 12
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0d16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 14
-	QUAD $0x0f161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 15
-	LONG $0x0e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rcx + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x02170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x041706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 5
-	QUAD $0x06170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 6
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x07170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x081706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 8
-	QUAD $0x091716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 9
-	QUAD $0x0a171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 10
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	QUAD $0x0b1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 11
-	QUAD $0x0c1706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rax + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0117065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 1
-	QUAD $0x02172e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 23], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0317165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 3
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	QUAD $0x04173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 4
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x05171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 5
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x06172e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 23], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0717065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 7
-	QUAD $0x0817365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0a17065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 12
-	QUAD $0x0d17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 13
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0e17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 14
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	QUAD $0x0f171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdi + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 1
-	QUAD $0x02180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 2
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x03180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 4
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x05180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 5
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x061836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 6
-	QUAD $0x07180e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 24], 7
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x08180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 8
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x09180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 10
-	QUAD $0x0b1826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 24], 11
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0c180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 12
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0d180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 15
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x01180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 1
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x0218264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 2
-	QUAD $0x0318164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 3
-	QUAD $0x04183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 4
-	QUAD $0x05181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 5
-	QUAD $0x06182e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 24], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x07180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 7
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x08183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 9
-	QUAD $0x0a18064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 10
-	QUAD $0x0b18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 13
-	QUAD $0x0e18164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 14
-	QUAD $0x0f181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rax + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x011916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 1
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	QUAD $0x021906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x05191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 5
-	QUAD $0x061936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 6
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x071906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x091916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 9
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0a1936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 10
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0b193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 11
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x0c191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 14
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0f192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdi + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 1
-	QUAD $0x0219265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 2
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x03190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 3
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x0419265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 5
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x06193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 7
-	QUAD $0x08193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 10
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0b193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 12
-	QUAD $0x0d190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0f190e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rcx + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rcx + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
-	QUAD $0x021a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 2
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x031a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 3
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
-	QUAD $0x051a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 5
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x061a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 6
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x071a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 7
-	QUAD $0x081a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 8
-	QUAD $0x091a16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 26], 9
-	QUAD $0x0a1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 11
-	QUAD $0x0c1a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 12
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0d1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 13
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0e1a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 14
-	QUAD $0x0f1a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 15
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	LONG $0x167cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rdx + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x011a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 1
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x021a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 2
-	QUAD $0x031a0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 26], 3
-	QUAD $0x041a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 4
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x051a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 5
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x061a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 6
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x071a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 7
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x081a1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 26], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x091a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 9
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x0a1a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 10
-	QUAD $0x0b1a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 12
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x0d1a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 14
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0f1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 15
-	LONG $0x0e7cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rcx + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x011b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 27], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x021b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 2
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x031b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x041b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 4
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x051b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 5
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x061b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 6
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x071b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 7
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x081b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 8
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x091b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 9
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x0a1b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 10
-	QUAD $0x0b1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 12
-	QUAD $0x0d1b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 13
-	QUAD $0x0e1b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x067cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rax + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x011b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 1
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x021b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x031b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 3
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x041b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 4
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x051b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 5
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x061b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 6
-	QUAD $0x071b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 7
-	QUAD $0x081b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x091b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 9
-	QUAD $0x0a1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 10
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0b1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 11
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0c1b065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 27], 12
-	QUAD $0x0d1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 13
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0e1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 14
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0f1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rdx + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 1
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x021c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 28], 2
-	QUAD $0x031c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 3
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x041c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 4
-	QUAD $0x051c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 5
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x061c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 6
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x071c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 7
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x081c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 8
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x091c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 9
-	QUAD $0x0a1c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 10
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0b1c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 11
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0c1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 12
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0d1c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 15
-	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x021c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x031c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 3
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x041c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 4
-	QUAD $0x051c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 5
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x061c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x071c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x081c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 8
-	QUAD $0x091c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a1c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 10
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0b1c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 11
-	QUAD $0x0c1c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 12
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0d1c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 13
-	QUAD $0x0e1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 14
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0f1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x011d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 1
-	QUAD $0x021d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 2
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x031d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 3
-	QUAD $0x041d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 4
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x061d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 6
-	QUAD $0x071d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 7
-	QUAD $0x081d3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 29], 8
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x0a1d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 10
-	QUAD $0x0b1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0c1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 12
-	QUAD $0x0d1d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 13
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x0e1d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 15
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x1d3e             // movzx    edi, byte [rsi + r15 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x021d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x031d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 3
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x041d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 29], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x051d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 5
-	QUAD $0x061d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x071d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 7
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x081d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 9
-	QUAD $0x0a1d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 10
-	QUAD $0x0b1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 11
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0c1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 12
-	QUAD $0x0d1d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 29], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1d06642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + rax + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x0f1d2e442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r13 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x1e               // movzx    edi, byte [rsi + rax + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x011e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 1
-	LONG $0x067cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rax + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
-	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
-	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
-	QUAD $0x061e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 30], 6
-	QUAD $0x061f264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 31], 6
-	QUAD $0x0000011024ac8b4c                   // mov    r13, qword [rsp + 272]
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	QUAD $0x0a1e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 30], 10
-	QUAD $0x0a1f0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 31], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	QUAD $0x0e1e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 30], 14
-	QUAD $0x0e1f164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 31], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	LONG $0x44b60f42; WORD $0x1e3e             // movzx    eax, byte [rsi + r15 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f3e             // movzx    eax, byte [rsi + r15 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
-	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 30], 4
-	QUAD $0x041f1e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 31], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	QUAD $0x071e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 30], 7
-	QUAD $0x071f167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 31], 7
-	QUAD $0x081e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 8
-	QUAD $0x081f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
-	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
-	QUAD $0x0c1e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 12
-	QUAD $0x0c1f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 14
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0f1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	QUAD $0x00020024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 512]
-	LONG $0xc27495c5                           // vpcmpeqb    ymm0, ymm13, ymm2
-	QUAD $0x0004c024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1216]
-	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x0001e024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	QUAD $0x0001c024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 448]
-	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI4_2] */
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xe2740dc5                           // vpcmpeqb    ymm12, ymm14, ymm2
-	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI4_3] */
-	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xfa7485c5                           // vpcmpeqb    ymm7, ymm15, ymm2
-	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI4_4] */
-	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
-	QUAD $0x0001a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 416]
-	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI4_5] */
-	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0004a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1184]
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x00048024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1152]
-	QUAD $0x00046024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1120]
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x00044024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1088]
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	QUAD $0x00042024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 1056]
-	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 992]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00040024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1024]
-	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
-	QUAD $0x0003a024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 928]
-	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003c024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 960]
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x00038024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 896]
-	QUAD $0x00036024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 864]
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
-	QUAD $0x00032024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 800]
-	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
-	QUAD $0x00034024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 832]
-	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	QUAD $0x0002e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 736]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	QUAD $0x00030024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 768]
-	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
-	LONG $0xd2742dc5                           // vpcmpeqb    ymm10, ymm10, ymm2
-	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
-	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
-	LONG $0xda7425c5                           // vpcmpeqb    ymm11, ymm11, ymm2
-	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
-	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x000220248c746dc5; BYTE $0x00       // vpcmpeqb    ymm9, ymm2, yword [rsp + 544]
-	QUAD $0x0002402484746dc5; BYTE $0x00       // vpcmpeqb    ymm8, ymm2, yword [rsp + 576]
-	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
-	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
-	QUAD $0x00026024ac74edc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm2, yword [rsp + 608]
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	QUAD $0x00028024b474edc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm2, yword [rsp + 640]
-	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x0002a0249c74edc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm2, yword [rsp + 672]
-	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI4_3] */
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x0002c024a474edc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm2, yword [rsp + 704]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	QUAD $0x000120248c74edc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm2, yword [rsp + 288]
-	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
-	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
-	QUAD $0x000140249474edc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm2, yword [rsp + 320]
-	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x7f7ec1c4; WORD $0x8d44; BYTE $0x60 // vmovdqu    yword [r13 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8d54; BYTE $0x40 // vmovdqu    yword [r13 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8d64; BYTE $0x20 // vmovdqu    yword [r13 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8d4c; BYTE $0x00 // vmovdqu    yword [r13 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB4_166
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
-	JNE  LBB4_35
-	JMP  LBB4_133
-
-LBB4_168:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
-	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
-
-LBB4_169:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rcx + 2]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x0000010024948948                   // mov    qword [rsp + 256], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	LONG $0x60cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 608
-	QUAD $0x000000b824a4894c                   // mov    qword [rsp + 184], r12
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02800d48; WORD $0x0000             // or    rax, 640
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x0000010824848948                   // mov    qword [rsp + 264], rax
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0xa0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 672
-	QUAD $0x000000e0248c894c                   // mov    qword [rsp + 224], r9
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0xc0cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 704
-	QUAD $0x000000f824bc894c                   // mov    qword [rsp + 248], r15
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xe0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 736
-	QUAD $0x0000009824bc8948                   // mov    qword [rsp + 152], rdi
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0x00ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 768
-	LONG $0x2474894c; BYTE $0x70               // mov    qword [rsp + 112], r14
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x20cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 800
-	QUAD $0x000000d8249c894c                   // mov    qword [rsp + 216], r11
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
-	QUAD $0x000000b02494894c                   // mov    qword [rsp + 176], r10
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x03600d48; WORD $0x0000             // or    rax, 864
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
-	QUAD $0x000000c82484894c                   // mov    qword [rsp + 200], r8
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xa0ca8148; WORD $0x0003; BYTE $0x00 // or    rdx, 928
-	QUAD $0x000000a824948948                   // mov    qword [rsp + 168], rdx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000d0248c8948                   // mov    qword [rsp + 208], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x28               // mov    qword [rsp + 40], rcx
-	LONG $0x207963c4; WORD $0x1e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + rbx], 1
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	LONG $0x2031e3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + rbx], 2
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 3
-	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r13], 4
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r9], 5
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 6
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 7
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 8
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 9
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r10], 10
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r13], 11
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r8], 12
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 1
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 2
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 3
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 4
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r12], 5
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 6
-	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 14
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	QUAD $0x040116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 4
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x070116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 7
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x080116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 8
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
-	QUAD $0x0b012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 11
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x0c0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 12
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0e0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 14
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0f012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 15
-	QUAD $0x0101366c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r14 + 1], 1
-	QUAD $0x02010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 2
-	QUAD $0x0301166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 3
-	QUAD $0x04011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 4
-	QUAD $0x0501266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 5
-	QUAD $0x0601066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 6
-	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0a011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 10
-	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x010206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 1
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x020216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 2
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x06020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 6
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 8
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x090226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 2], 9
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x0a022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0c0236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 12
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x06023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
-	QUAD $0x08020e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 2], 8
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x09020e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 2], 9
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x010306642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + r8 + 3], 1
-	QUAD $0x020316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 2
-	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	QUAD $0x040316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 4
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	QUAD $0x050306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 5
-	QUAD $0x06030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 6
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x07030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 7
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x080316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 8
-	QUAD $0x090326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 9
-	QUAD $0x0a032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 10
-	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
-	QUAD $0x0c0336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 12
-	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x0e033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0603066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 6
-	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
-	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0803066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 8
-	QUAD $0x09030e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 3], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rcx + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0f031e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x01040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 1
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x020406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 2
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x030436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 4], 3
-	QUAD $0x0000010824ac8b4c                   // mov    r13, qword [rsp + 264]
-	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x050406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 5
-	QUAD $0x060416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 6
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x070416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 7
-	QUAD $0x080416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 8
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x090406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 11
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0c041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 13
-	QUAD $0x0e043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 15
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0104065c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rsi + rax + 4], 1
-	QUAD $0x0204265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0304065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0404065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 4
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0504065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 5
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x06043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 6
-	QUAD $0x07041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0804065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 8
-	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
-	QUAD $0x09041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 9
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x0a043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 11
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0c043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 12
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x0d04265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 14
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 15
-	QUAD $0x01050e642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r9 + 5], 1
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x02050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 2
-	QUAD $0x030536642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 5], 3
-	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x06050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 6
-	QUAD $0x070516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 7
-	QUAD $0x080516642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 5], 8
-	QUAD $0x090506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 9
-	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 10
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0b052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 11
-	QUAD $0x0c051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 12
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0d050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 13
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 15
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0105266c2049a3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + r12 + 5], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0205066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x04051e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 5], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x05050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 5
-	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0705066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0805066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 8
-	QUAD $0x09051e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 5], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 11
-	QUAD $0x0c053e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 5], 12
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f0506442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 5], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x010606442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r8 + 6], 1
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	QUAD $0x02060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 2
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x03063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 3
-	QUAD $0x040636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 4
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x050636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 5
-	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
-	QUAD $0x06060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 6
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x070616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 8
-	QUAD $0x090616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 9
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x0a0616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 10
-	QUAD $0x0b062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 11
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x0c061e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 6], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d0606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 13
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0f063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 15
-	QUAD $0x0106266c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + r12 + 6], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 3
-	QUAD $0x04061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 4
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x06061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 6
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x07061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 7
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x08061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 9
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x0a06266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 6], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 12
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x0d062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 13
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0e061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 14
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0f061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 15
-	QUAD $0x010706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 1
-	QUAD $0x02070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 2
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	QUAD $0x03073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 3
-	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
-	QUAD $0x04073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 4
-	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
-	QUAD $0x06070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 6
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x08070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 8
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x09070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 9
-	QUAD $0x0a0716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 11
-	QUAD $0x0c071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 12
-	QUAD $0x0d0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 13
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x0e070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 14
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x0f0716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 15
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0107064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0207064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0307064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 3
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0407064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 7], 4
-	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0607064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0707064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0807064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0907164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 9
-	QUAD $0x0a07264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 10
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0b07264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 11
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	QUAD $0x0c071e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 7], 12
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0d07164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0e0716442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rdx + 7], 14
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rdx + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0f0716442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	LONG $0x167cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rdx + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x010816442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + rdx + 8], 1
-	QUAD $0x02081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 2
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x030816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 3
-	WORD $0x894c; BYTE $0xfa                   // mov    rdx, r15
-	QUAD $0x04083e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 8], 4
-	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
-	QUAD $0x06082e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 8], 6
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x070836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 7
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x08083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 8
-	QUAD $0x09080e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 8], 9
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x0a083e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 8], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 11
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0c081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 12
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x0d080e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 8], 13
-	QUAD $0x0e080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 14
-	QUAD $0x0f0816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 8], 15
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-	QUAD $0x0108166c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r10 + 8], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 3
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x0408066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x05080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x06080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x07080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 7
-	QUAD $0x0808066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0908066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 9
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x0a080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 10
-	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
-	QUAD $0x0b08266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 11
-	QUAD $0x0c081e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 8], 12
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x0d081e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 8], 13
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0e08266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 14
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0f080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 15
-	QUAD $0x000000f024a48b4c                   // mov    r12, qword [rsp + 240]
-	QUAD $0x010926742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r12 + 9], 1
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x02090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 2
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
-	QUAD $0x040916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 4
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x050916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 5
-	QUAD $0x06092e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r13 + 9], 6
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x070936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 7
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x080916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 8
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x090916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 9
-	QUAD $0x0a093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 10
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0b0916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 11
-	QUAD $0x0c091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 12
-	QUAD $0x0d090e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r9 + 9], 13
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x0e0926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 14
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0f0936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 15
-	QUAD $0x0109167c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + r10 + 9], 1
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x02091e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 9], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0309167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 3
-	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0509167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 5
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0609167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 6
-	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
-	QUAD $0x07093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 7
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0809167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 8
-	QUAD $0x0909067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 10
-	QUAD $0x0b09067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 9], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
-	QUAD $0x0d091e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 9], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x020a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 2
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x030a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 3
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	QUAD $0x040a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 4
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x050a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 5
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	QUAD $0x060a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 6
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x070a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x090a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 9
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 11
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x0c0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 12
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0d0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 13
-	QUAD $0x0e0a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 14
-	QUAD $0x0f0a365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 10], 15
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x010a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x020a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x040a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x050a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 5
-	QUAD $0x060a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 6
-	QUAD $0x070a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 7
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x080a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x090a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 9
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x0a0a26642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 10], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b0a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 11
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0c0a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 12
-	QUAD $0x0d0a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e0a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 14
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0f0a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 15
-	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x020b1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 11], 2
-	QUAD $0x030b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 3
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x040b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 4
-	QUAD $0x050b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 5
-	QUAD $0x060b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 6
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x070b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 7
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x080b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 8
-	QUAD $0x090b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 9
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 11
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 13
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 15
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x010b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
-	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
-	QUAD $0x040b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 4
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x050b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x060b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 7
-	QUAD $0x080b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 11], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 9
-	QUAD $0x0a0b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 11
-	QUAD $0x0c0b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 12
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0d0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x010c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 1
-	QUAD $0x020c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 2
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x030c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 3
-	QUAD $0x0000010824ac8b4c                   // mov    r13, qword [rsp + 264]
-	QUAD $0x040c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 4
-	QUAD $0x050c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 5
-	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
-	QUAD $0x060c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 6
-	WORD $0x894d; BYTE $0xc3                   // mov    r11, r8
-	QUAD $0x070c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 7
-	QUAD $0x080c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 8
-	QUAD $0x090c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 9
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x0a0c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 10
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0b0c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 11
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x0c0c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 12
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x0d0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 13
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0e0c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 14
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0f0c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 15
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x010c36542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + r14 + 12], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x030c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 3
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x040c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 4
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x050c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 5
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x060c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 6
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x070c16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 12], 7
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x080c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 8
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x090c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 9
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0a0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 10
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0b0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 12
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0d0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 13
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0e0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 14
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0f0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 15
-	QUAD $0x010d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 1
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x020d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 2
-	QUAD $0x030d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 3
-	QUAD $0x040d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 13], 4
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x050d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 5
-	QUAD $0x060d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 6
-	QUAD $0x070d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 7
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x080d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 8
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x090d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 9
-	QUAD $0x0a0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 10
-	QUAD $0x0b0d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 11
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x0c0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 12
-	QUAD $0x0d0d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 13
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0e0d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 15
-	QUAD $0x010d364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 13], 1
-	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x030d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 3
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x040d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x050d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x060d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 6
-	QUAD $0x070d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x080d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 8
-	QUAD $0x090d264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 13], 9
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x0a0d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 10
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0b0d064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 13], 11
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0c0d364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 13], 12
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x0d0d1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 13], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e0d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x0f0d26442071a3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + r12 + 13], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rcx + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rcx + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x010e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 1
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x020e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 2
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x030e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 3
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x040e3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 14], 4
-	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x060e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 6
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
-	QUAD $0x090e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 9
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x0a0e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 10
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0b0e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 14], 11
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0c0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d0e3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 14], 13
-	QUAD $0x0e0e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 14
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0f0e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 15
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x010e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 1
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x020e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x030e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x040e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 4
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x050e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 5
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x060e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x070e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x080e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x090e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 9
-	QUAD $0x0a0e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 14], 10
-	QUAD $0x0b0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 11
-	QUAD $0x0c0e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 12
-	QUAD $0x0d0e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	QUAD $0x0f0e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 15
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x0f1e             // movzx    edi, byte [rsi + r11 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
-	QUAD $0x020f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 2
-	QUAD $0x030f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 3
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x040f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 4
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x050f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 5
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x060f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 6
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x070f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 7
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x080f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 8
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x090f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 9
-	QUAD $0x0a0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 10
-	QUAD $0x0b0f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 11
-	QUAD $0x0c0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 12
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0d0f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 13
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0e0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 14
-	QUAD $0x0f0f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 15
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x0f36             // movzx    edi, byte [rsi + r14 + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x010f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 1
-	QUAD $0x020f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x040f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 4
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x050f3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 15], 5
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x060f2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 15], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x070f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x080f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x090f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 9
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x0a0f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b0f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c0f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 12
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0d0f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 13
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0e0f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 14
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0f0f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x7cb60f42; WORD $0x101e             // movzx    edi, byte [rsi + r11 + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x011016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 1
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x021016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 2
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x031016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 3
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	QUAD $0x04101e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 16], 4
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x051016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 5
-	QUAD $0x061006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 6
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x071006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 7
-	QUAD $0x081026442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 16], 8
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x091016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 11
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0c103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 12
-	QUAD $0x0d101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 13
-	QUAD $0x0e1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
-	LONG $0x7cb60f42; WORD $0x1036             // movzx    edi, byte [rsi + r14 + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0110264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0210064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0310064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 3
-	QUAD $0x0410164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 4
-	QUAD $0x05103e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 16], 5
-	QUAD $0x06102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0710064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0810064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0910064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 9
-	QUAD $0x0a100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 10
-	QUAD $0x0b100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 12
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x0d102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 13
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0e10164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 14
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 15
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	LONG $0x1e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rbx + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x011106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 1
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x021106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 2
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x03110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 3
-	QUAD $0x04111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 4
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x05113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 5
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x061106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 6
-	QUAD $0x071106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 7
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x081136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 8
-	QUAD $0x091116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 11
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x0c110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 12
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x0d111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 13
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x0e1106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 15
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rcx + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0111265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x02110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0311165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 3
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x04110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x05110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x06110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x07110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x08110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 9
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0a113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 12
-	QUAD $0x0d112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 13
-	QUAD $0x0e11165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x0f112e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r13 + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x1e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rbx + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x01123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 1
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x02123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 2
-	QUAD $0x03120e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 18], 3
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x04123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 4
-	QUAD $0x05123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 5
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x06123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 6
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x07123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 7
-	QUAD $0x081236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x09123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 9
-	QUAD $0x0a1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 11
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0c1236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 12
-	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
-	QUAD $0x0e1206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 14
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0f120e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 18], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rax + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
-	QUAD $0x0112264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 18], 1
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x02121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 2
-	QUAD $0x0312164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 3
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x04121e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 18], 4
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0512264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 18], 5
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0612164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0712064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 7
-	QUAD $0x08120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0912064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 9
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 11
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0c120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 12
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0d120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 13
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0e12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 14
-	QUAD $0x0f122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 15
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x132e             // movzx    edi, byte [rsi + r13 + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x01130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 1
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x02130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 2
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x03130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 3
-	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
-	QUAD $0x04133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 4
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x05130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 5
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x06130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 6
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x07130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 7
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x08130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 8
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x09130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 11
-	QUAD $0x0c1336542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 19], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 13
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0e133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 14
-	QUAD $0x0f130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 15
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0113065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 1
-	QUAD $0x02131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 3
-	QUAD $0x04131e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 19], 4
-	QUAD $0x0513265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 19], 5
-	QUAD $0x0613165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 6
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x07131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x08133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 8
-	QUAD $0x0913065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 9
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0a13165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 11
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	QUAD $0x0c131e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 19], 12
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0d13065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 13
-	QUAD $0x0e13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 14
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	LONG $0x7cb60f42; WORD $0x142e             // movzx    edi, byte [rsi + r13 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	QUAD $0x01142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 1
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x031436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 3
-	QUAD $0x04143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 4
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x05143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 5
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x061416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 6
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x071416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 7
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x081416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 8
-	QUAD $0x09140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 9
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 10
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0b140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 11
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x0c140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 12
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0d140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 13
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x0e1426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 15
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rcx + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x01140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x02140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x03140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 3
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x04140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 4
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0514164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x06140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 6
-	QUAD $0x07141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x08140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 9
-	QUAD $0x0a14164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 11
-	QUAD $0x0c141e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 20], 12
-	QUAD $0x0d14064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 14
-	QUAD $0x0f14064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 20], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rax + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x01152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 1
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x02151e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 21], 2
-	QUAD $0x031536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 3
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x04150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 4
-	QUAD $0x05153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 5
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x061506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 6
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x07153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 7
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x08153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x09153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 10
-	QUAD $0x0b150e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 21], 11
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x0c1516542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 21], 12
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x0d1506542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 21], 13
-	QUAD $0x0e1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 14
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0f153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 15
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rdi + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x01151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 1
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0215365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x03153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x04153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 4
-	QUAD $0x0515165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 5
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0615165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0715165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 7
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0815165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0915165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 9
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x0a15265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c15165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 12
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0d15165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 13
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0e152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0f1516442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rdx + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdx + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x011616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 1
-	QUAD $0x02161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 2
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
-	QUAD $0x04160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 4
-	QUAD $0x05163e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 22], 5
-	QUAD $0x061606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 22], 6
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	QUAD $0x07163e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 22], 7
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x08161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 8
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x09160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 9
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0a1616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 22], 11
-	QUAD $0x0c1616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 22], 12
-	QUAD $0x0d1606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 13
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0e1606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 22], 14
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x0f1616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 22], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rax + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x01161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 1
-	QUAD $0x0216364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 2
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x03161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0416064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 4
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0516064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0616064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 6
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x0716364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x08163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 9
-	QUAD $0x0a16264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 10
-	QUAD $0x0b160e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 22], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 12
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0d163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 13
-	QUAD $0x0e162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 14
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0f163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 15
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x172e             // movzx    edi, byte [rsi + r13 + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x01170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 1
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x02173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 2
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x03173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 3
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	QUAD $0x041706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 4
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x05173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 5
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x06173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 6
-	QUAD $0x07173e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 23], 7
-	QUAD $0x08171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 8
-	QUAD $0x09170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 9
-	QUAD $0x0a1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 11
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0c1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 12
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0d170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 13
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x0e173e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 23], 14
-	QUAD $0x0f1716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 15
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x171e             // movzx    edi, byte [rsi + r11 + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x01170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x02170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 2
-	QUAD $0x03171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 3
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x04170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 4
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x05171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 5
-	QUAD $0x0617065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 6
-	QUAD $0x0717365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 7
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0817365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0c17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 12
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0d17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 14
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0f170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
-	LONG $0x7cb60f42; WORD $0x182e             // movzx    edi, byte [rsi + r13 + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x01180e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 24], 1
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x02182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 2
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x03180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 3
-	QUAD $0x041806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 4
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x05180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 5
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x06180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 6
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x07180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 7
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x081816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 8
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x091816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 9
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0a1806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 11
-	QUAD $0x0c1826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 24], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 13
-	QUAD $0x0e183e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 24], 14
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0f183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 15
-	LONG $0x7cb60f42; WORD $0x181e             // movzx    edi, byte [rsi + r11 + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x01183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 2
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0318264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 3
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x04183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 4
-	QUAD $0x05181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x06181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 7
-	QUAD $0x0818364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 24], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 9
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x0a181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 11
-	QUAD $0x0c18164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 12
-	QUAD $0x0d18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 13
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0e18164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 14
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0f18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rax + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x01190e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 25], 1
-	QUAD $0x02192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 2
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x031906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 3
-	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
-	QUAD $0x04193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 4
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x051906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 5
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x06192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 6
-	QUAD $0x07190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
-	QUAD $0x091916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 9
-	QUAD $0x0a1906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 11
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x0c1916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 13
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x0e190e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 25], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 15
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x1936             // movzx    edi, byte [rsi + r14 + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0119065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 1
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0219065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 25], 2
-	QUAD $0x0319265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0419065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 4
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0519265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 5
-	QUAD $0x06191e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 25], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0719065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 7
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x08191e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 25], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0919065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 9
-	QUAD $0x0a191e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 25], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 12
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0d19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 13
-	QUAD $0x0e19165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0f191e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r11 + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rax + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x011a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 1
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x021a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 2
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x031a16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 26], 3
-	QUAD $0x041a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 4
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x051a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 5
-	QUAD $0x061a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 6
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x071a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 7
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x081a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x091a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a1a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 10
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0b1a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 11
-	QUAD $0x0c1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 12
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0d1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 13
-	QUAD $0x0e1a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 14
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0f1a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 15
-	LONG $0x7cb60f42; WORD $0x1a36             // movzx    edi, byte [rsi + r14 + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x011a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 1
-	QUAD $0x021a064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 26], 2
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x031a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 3
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x041a064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 26], 4
-	QUAD $0x051a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 5
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x061a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x071a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 7
-	QUAD $0x081a1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 26], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x091a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 9
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0a1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 10
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0b1a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 12
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x0d1a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 14
-	QUAD $0x0f1a1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 26], 15
-	LONG $0x067cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rax + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 1
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x021b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 2
-	QUAD $0x031b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 3
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	QUAD $0x041b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 4
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x051b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 5
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x061b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 6
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x071b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 7
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x081b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x091b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 10
-	QUAD $0x0b1b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 11
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0c1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 13
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x0e1b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 14
-	QUAD $0x0f1b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 15
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x1b0e             // movzx    edi, byte [rsi + r9 + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 1
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x021b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 2
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x031b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 3
-	QUAD $0x041b065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 27], 4
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x051b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 5
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x061b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x071b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 7
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x081b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x091b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 9
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0a1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 10
-	QUAD $0x0b1b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 12
-	QUAD $0x0d1b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 13
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0e1b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 14
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0f1b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rdx + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x011c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 1
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x021c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 2
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x031c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 3
-	QUAD $0x041c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 4
-	QUAD $0x051c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 5
-	QUAD $0x061c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 6
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x071c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 7
-	QUAD $0x081c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 28], 8
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x091c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 9
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0a1c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b1c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 11
-	QUAD $0x0c1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 12
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0d1c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 28], 13
-	QUAD $0x0e1c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 15
-	LONG $0x7cb60f42; WORD $0x1c0e             // movzx    edi, byte [rsi + r9 + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x011c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x021c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 2
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x031c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x041c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 4
-	QUAD $0x051c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 28], 5
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x061c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 6
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x071c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x081c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x091c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 28], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b1c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 12
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0d1c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 13
-	QUAD $0x0e1c264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 28], 14
-	QUAD $0x0f1c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rax + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f024a48b4c                   // mov    r12, qword [rsp + 240]
-	QUAD $0x011d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 1
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x021d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 2
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x031d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 3
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x041d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 4
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x061d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 6
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x071d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x081d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x091d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 9
-	QUAD $0x0a1d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 10
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0b1d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 11
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0c1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 12
-	QUAD $0x0d1d36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 29], 13
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x0e1d36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 29], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rax + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 29], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x021d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 2
-	QUAD $0x031d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x041d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x051d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 5
-	QUAD $0x061d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 6
-	QUAD $0x071d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 7
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x081d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 8
-	QUAD $0x091d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 10
-	QUAD $0x0b1d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 12
-	QUAD $0x0d1d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 13
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0e1d0e642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r9 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x0f1d3e442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r15 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	LONG $0x1e7cb60f; BYTE $0x1e               // movzx    edi, byte [rsi + rbx + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 30], 1
-	LONG $0x1e7cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rbx + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 31], 1
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
-	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
-	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
-	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 10
-	QUAD $0x0b1e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 30], 11
-	QUAD $0x0b1f064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 31], 11
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	QUAD $0x0e1e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 30], 14
-	QUAD $0x0e1f364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 31], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e44b60f; BYTE $0x1e               // movzx    eax, byte [rsi + rcx + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
-	LONG $0x0e44b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rcx + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
-	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x041e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 4
-	QUAD $0x041f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 4
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x071e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 7
-	QUAD $0x071f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 7
-	QUAD $0x081e2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 30], 8
-	QUAD $0x081f2e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 31], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
-	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 12
-	QUAD $0x0d1e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 13
-	QUAD $0x0d1f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 13
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x0e1e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 14
-	QUAD $0x0e1f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 14
-	QUAD $0x0f1e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 15
-	QUAD $0x0f1f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	QUAD $0x00020024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 512]
-	LONG $0xc27495c5                           // vpcmpeqb    ymm0, ymm13, ymm2
-	QUAD $0x0004c024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1216]
-	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x0001e024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI4_1] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	QUAD $0x0001c024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 448]
-	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI4_2] */
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xe2740dc5                           // vpcmpeqb    ymm12, ymm14, ymm2
-	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI4_3] */
-	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xfa7485c5                           // vpcmpeqb    ymm7, ymm15, ymm2
-	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI4_4] */
-	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
-	QUAD $0x0001a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 416]
-	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI4_5] */
-	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0004a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1184]
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x00048024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1152]
-	QUAD $0x00046024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1120]
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x00044024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1088]
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	QUAD $0x00042024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 1056]
-	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 992]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00040024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1024]
-	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
-	QUAD $0x0003a024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 928]
-	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003c024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 960]
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x00038024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 896]
-	QUAD $0x00036024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 864]
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
-	QUAD $0x00032024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 800]
-	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
-	QUAD $0x00034024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 832]
-	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	QUAD $0x0002e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 736]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	QUAD $0x00030024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 768]
-	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
-	LONG $0xd2742dc5                           // vpcmpeqb    ymm10, ymm10, ymm2
-	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
-	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
-	LONG $0xda7425c5                           // vpcmpeqb    ymm11, ymm11, ymm2
-	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
-	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x000220248c746dc5; BYTE $0x00       // vpcmpeqb    ymm9, ymm2, yword [rsp + 544]
-	QUAD $0x0002402484746dc5; BYTE $0x00       // vpcmpeqb    ymm8, ymm2, yword [rsp + 576]
-	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
-	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
-	QUAD $0x00026024ac74edc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm2, yword [rsp + 608]
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	QUAD $0x00028024b474edc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm2, yword [rsp + 640]
-	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x0002a0249c74edc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm2, yword [rsp + 672]
-	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI4_3] */
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x0002c024a474edc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm2, yword [rsp + 704]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	QUAD $0x000120248c74edc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm2, yword [rsp + 288]
-	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
-	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
-	QUAD $0x000140249474edc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm2, yword [rsp + 320]
-	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB4_169
-	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
-	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
-	JNE  LBB4_89
-	JMP  LBB4_125
-
-DATA LCDATA4<>+0x000(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x008(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x010(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x018(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA4<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA4<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA4<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA4<>(SB), 8, $224
-
-TEXT ·_comparison_not_equal_scalar_arr_avx2(SB), $1320-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1280(SP)
-	LEAQ LCDATA4<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcf // mov    r15, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB5_17
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB5_32
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB5_60
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB5_72
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB5_157
-	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_7:
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_7
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB5_9:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_13
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB5_11:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ea8348                           // sub    rdx, -128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB5_11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB5_13:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB5_127
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_16:
-	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_16
-	JMP  LBB5_154
-
-LBB5_17:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB5_46
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB5_83
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB5_94
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB5_157
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fbc5         // vmovsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_25
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_23:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB5_23
-	LONG $0x01c78349             // add    r15, 1
-
-LBB5_25:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_29
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-	QUAD $0x000000a8249c894c // mov    qword [rsp + 168], r11
-
-LBB5_27:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd6950f41                           // setne    r14b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000098248c0244                   // add    r9b, byte [rsp + 152]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x78               // add    sil, byte [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e0c041                           // shl    r8b, 3
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x58245c02                           // add    bl, byte [rsp + 88]
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
-	LONG $0x2474b60f; BYTE $0x48               // movzx    esi, byte [rsp + 72]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
-	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_27
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-
-LBB5_29:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB5_136
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB5_138
-
-LBB5_32:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB5_105
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB5_157
-	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_38
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_36:
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB5_36
-	LONG $0x01c78349             // add    r15, 1
-
-LBB5_38:
-	LONG $0x05fec149             // sar    r14, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB5_128
-	LONG $0x20fe8349             // cmp    r14, 32
-	LONG $0x245c8944; BYTE $0x1c // mov    dword [rsp + 28], r11d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018024b4894c     // mov    qword [rsp + 384], r14
-	JB   LBB5_42
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
-	JAE  LBB5_165
-	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB5_165
-
-LBB5_42:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000017824848948 // mov    qword [rsp + 376], rax
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB5_43:
-	QUAD $0x0000017824b42b4c // sub    r14, qword [rsp + 376]
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-
-LBB5_44:
-	LONG $0x1f5a3a44                           // cmp    r11b, byte [rdx + 31]
-	QUAD $0x000001102494950f                   // setne    byte [rsp + 272]
-	LONG $0x1e5a3a44                           // cmp    r11b, byte [rdx + 30]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x1d5a3a44                           // cmp    r11b, byte [rdx + 29]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x1c5a3a44                           // cmp    r11b, byte [rdx + 28]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x1b5a3a44                           // cmp    r11b, byte [rdx + 27]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x1a5a3a44                           // cmp    r11b, byte [rdx + 26]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x195a3a44                           // cmp    r11b, byte [rdx + 25]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x175a3a44                           // cmp    r11b, byte [rdx + 23]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x165a3a44                           // cmp    r11b, byte [rdx + 22]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x155a3a44                           // cmp    r11b, byte [rdx + 21]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x145a3a44                           // cmp    r11b, byte [rdx + 20]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x135a3a44                           // cmp    r11b, byte [rdx + 19]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x125a3a44                           // cmp    r11b, byte [rdx + 18]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x115a3a44                           // cmp    r11b, byte [rdx + 17]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x0f5a3a44                           // cmp    r11b, byte [rdx + 15]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0e5a3a44                           // cmp    r11b, byte [rdx + 14]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x0d5a3a44                           // cmp    r11b, byte [rdx + 13]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x0c5a3a44                           // cmp    r11b, byte [rdx + 12]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x0b5a3a44                           // cmp    r11b, byte [rdx + 11]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x0a5a3a44                           // cmp    r11b, byte [rdx + 10]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x023a                               // cmp    al, byte [rdx]
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	LONG $0x246c8b44; BYTE $0x1c               // mov    r13d, dword [rsp + 28]
-	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000a82484b60f                   // movzx    eax, byte [rsp + 168]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0844; BYTE $0xcf                   // or    dil, r9b
-	LONG $0x007d8841                           // mov    byte [r13], dil
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000009824940244                   // add    r10b, byte [rsp + 152]
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xce                   // or    r14b, cl
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	LONG $0x01758845                           // mov    byte [r13 + 1], r14b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02458841                           // mov    byte [r13 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40244402                           // add    al, byte [rsp + 64]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	QUAD $0x000001102484b60f                   // movzx    eax, byte [rsp + 272]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03458841                           // mov    byte [r13 + 3], al
-	LONG $0x20c28348                           // add    rdx, 32
-	LONG $0x04c58349                           // add    r13, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB5_44
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018024b48b4c                   // mov    r14, qword [rsp + 384]
-	JMP  LBB5_129
-
-LBB5_46:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB5_117
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB5_157
-	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_52
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_50:
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_50
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB5_52:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_56
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB5_54:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB5_54
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB5_56:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB5_93
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_59:
-	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_59
-	JMP  LBB5_146
-
-LBB5_60:
-	LONG $0x36b70f44         // movzx    r14d, word [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_64
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_62:
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_62
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB5_64:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_68
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB5_66:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x723b4466; BYTE $0x3e               // cmp    r14w, word [rdx + 62]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x723b4466; BYTE $0x3c               // cmp    r14w, word [rdx + 60]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x723b4466; BYTE $0x3a               // cmp    r14w, word [rdx + 58]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x723b4466; BYTE $0x38               // cmp    r14w, word [rdx + 56]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x723b4466; BYTE $0x36               // cmp    r14w, word [rdx + 54]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x723b4466; BYTE $0x34               // cmp    r14w, word [rdx + 52]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x723b4466; BYTE $0x32               // cmp    r14w, word [rdx + 50]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x723b4466; BYTE $0x2e               // cmp    r14w, word [rdx + 46]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x723b4466; BYTE $0x2c               // cmp    r14w, word [rdx + 44]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x723b4466; BYTE $0x2a               // cmp    r14w, word [rdx + 42]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x723b4466; BYTE $0x28               // cmp    r14w, word [rdx + 40]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x723b4466; BYTE $0x26               // cmp    r14w, word [rdx + 38]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x723b4466; BYTE $0x24               // cmp    r14w, word [rdx + 36]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x723b4466; BYTE $0x22               // cmp    r14w, word [rdx + 34]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x723b4466; BYTE $0x1e               // cmp    r14w, word [rdx + 30]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x723b4466; BYTE $0x1c               // cmp    r14w, word [rdx + 28]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x723b4466; BYTE $0x1a               // cmp    r14w, word [rdx + 26]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x723b4466; BYTE $0x18               // cmp    r14w, word [rdx + 24]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x723b4466; BYTE $0x16               // cmp    r14w, word [rdx + 22]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x723b4466; BYTE $0x14               // cmp    r14w, word [rdx + 20]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x723b4466; BYTE $0x12               // cmp    r14w, word [rdx + 18]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x723b4466; BYTE $0x0e               // cmp    r14w, word [rdx + 14]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x723b4466; BYTE $0x0c               // cmp    r14w, word [rdx + 12]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x723b4466; BYTE $0x0a               // cmp    r14w, word [rdx + 10]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x723b4466; BYTE $0x08               // cmp    r14w, word [rdx + 8]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x723b4466; BYTE $0x06               // cmp    r14w, word [rdx + 6]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x723b4466; BYTE $0x04               // cmp    r14w, word [rdx + 4]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x723b4466; BYTE $0x02               // cmp    r14w, word [rdx + 2]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x723b4466; BYTE $0x10               // cmp    r14w, word [rdx + 16]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x723b4466; BYTE $0x20               // cmp    r14w, word [rdx + 32]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x723b4466; BYTE $0x30               // cmp    r14w, word [rdx + 48]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB5_66
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB5_68:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB5_82
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_71:
-	LONG $0x323b4466             // cmp    r14w, word [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_71
-	JMP  LBB5_142
-
-LBB5_72:
-	LONG $0x36b70f44         // movzx    r14d, word [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_76
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_74:
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_74
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB5_76:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_80
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB5_78:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x723b4466; BYTE $0x3e               // cmp    r14w, word [rdx + 62]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x723b4466; BYTE $0x3c               // cmp    r14w, word [rdx + 60]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x723b4466; BYTE $0x3a               // cmp    r14w, word [rdx + 58]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x723b4466; BYTE $0x38               // cmp    r14w, word [rdx + 56]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x723b4466; BYTE $0x36               // cmp    r14w, word [rdx + 54]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x723b4466; BYTE $0x34               // cmp    r14w, word [rdx + 52]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x723b4466; BYTE $0x32               // cmp    r14w, word [rdx + 50]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x723b4466; BYTE $0x2e               // cmp    r14w, word [rdx + 46]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x723b4466; BYTE $0x2c               // cmp    r14w, word [rdx + 44]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x723b4466; BYTE $0x2a               // cmp    r14w, word [rdx + 42]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x723b4466; BYTE $0x28               // cmp    r14w, word [rdx + 40]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x723b4466; BYTE $0x26               // cmp    r14w, word [rdx + 38]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x723b4466; BYTE $0x24               // cmp    r14w, word [rdx + 36]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x723b4466; BYTE $0x22               // cmp    r14w, word [rdx + 34]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x723b4466; BYTE $0x1e               // cmp    r14w, word [rdx + 30]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x723b4466; BYTE $0x1c               // cmp    r14w, word [rdx + 28]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x723b4466; BYTE $0x1a               // cmp    r14w, word [rdx + 26]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x723b4466; BYTE $0x18               // cmp    r14w, word [rdx + 24]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x723b4466; BYTE $0x16               // cmp    r14w, word [rdx + 22]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x723b4466; BYTE $0x14               // cmp    r14w, word [rdx + 20]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x723b4466; BYTE $0x12               // cmp    r14w, word [rdx + 18]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x723b4466; BYTE $0x0e               // cmp    r14w, word [rdx + 14]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x723b4466; BYTE $0x0c               // cmp    r14w, word [rdx + 12]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x723b4466; BYTE $0x0a               // cmp    r14w, word [rdx + 10]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x723b4466; BYTE $0x08               // cmp    r14w, word [rdx + 8]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x723b4466; BYTE $0x06               // cmp    r14w, word [rdx + 6]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x723b4466; BYTE $0x04               // cmp    r14w, word [rdx + 4]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x723b4466; BYTE $0x02               // cmp    r14w, word [rdx + 2]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x723b4466; BYTE $0x10               // cmp    r14w, word [rdx + 16]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x723b4466; BYTE $0x20               // cmp    r14w, word [rdx + 32]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x723b4466; BYTE $0x30               // cmp    r14w, word [rdx + 48]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB5_78
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB5_80:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB5_140
-
-LBB5_82:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB5_142
-
-LBB5_83:
-	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_87
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_85:
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_85
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB5_87:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_91
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB5_89:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB5_89
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB5_91:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB5_144
-
-LBB5_93:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB5_146
-
-LBB5_94:
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fac5         // vmovss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_98
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_96:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB5_96
-	LONG $0x01c78349             // add    r15, 1
-
-LBB5_98:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_102
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-	QUAD $0x000000a8249c894c // mov    qword [rsp + 168], r11
-
-LBB5_100:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000098248c0244                   // add    r9b, byte [rsp + 152]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x78               // add    sil, byte [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e0c041                           // shl    r8b, 3
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x58245c02                           // add    bl, byte [rsp + 88]
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
-	LONG $0x2474b60f; BYTE $0x48               // movzx    esi, byte [rsp + 72]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
-	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_100
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-
-LBB5_102:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB5_148
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB5_150
-
-LBB5_105:
-	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_109
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_107:
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB5_107
-	LONG $0x01c78349             // add    r15, 1
-
-LBB5_109:
-	LONG $0x05fec149             // sar    r14, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB5_132
-	LONG $0x20fe8349             // cmp    r14, 32
-	LONG $0x245c8944; BYTE $0x1c // mov    dword [rsp + 28], r11d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000018024b4894c     // mov    qword [rsp + 384], r14
-	JB   LBB5_113
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
-	JAE  LBB5_168
-	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB5_168
-
-LBB5_113:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000017824848948 // mov    qword [rsp + 376], rax
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB5_114:
-	QUAD $0x0000017824b42b4c // sub    r14, qword [rsp + 376]
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-
-LBB5_115:
-	LONG $0x1f5a3a44                           // cmp    r11b, byte [rdx + 31]
-	QUAD $0x000001102494950f                   // setne    byte [rsp + 272]
-	LONG $0x1e5a3a44                           // cmp    r11b, byte [rdx + 30]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x1d5a3a44                           // cmp    r11b, byte [rdx + 29]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x1c5a3a44                           // cmp    r11b, byte [rdx + 28]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x1b5a3a44                           // cmp    r11b, byte [rdx + 27]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x1a5a3a44                           // cmp    r11b, byte [rdx + 26]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x195a3a44                           // cmp    r11b, byte [rdx + 25]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x175a3a44                           // cmp    r11b, byte [rdx + 23]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x165a3a44                           // cmp    r11b, byte [rdx + 22]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x155a3a44                           // cmp    r11b, byte [rdx + 21]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x145a3a44                           // cmp    r11b, byte [rdx + 20]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x135a3a44                           // cmp    r11b, byte [rdx + 19]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x125a3a44                           // cmp    r11b, byte [rdx + 18]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x115a3a44                           // cmp    r11b, byte [rdx + 17]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x0f5a3a44                           // cmp    r11b, byte [rdx + 15]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0e5a3a44                           // cmp    r11b, byte [rdx + 14]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x0d5a3a44                           // cmp    r11b, byte [rdx + 13]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x0c5a3a44                           // cmp    r11b, byte [rdx + 12]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x0b5a3a44                           // cmp    r11b, byte [rdx + 11]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x0a5a3a44                           // cmp    r11b, byte [rdx + 10]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x023a                               // cmp    al, byte [rdx]
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	LONG $0x246c8b44; BYTE $0x1c               // mov    r13d, dword [rsp + 28]
-	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000a82484b60f                   // movzx    eax, byte [rsp + 168]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0844; BYTE $0xcf                   // or    dil, r9b
-	LONG $0x007d8841                           // mov    byte [r13], dil
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000009824940244                   // add    r10b, byte [rsp + 152]
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xce                   // or    r14b, cl
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	LONG $0x01758845                           // mov    byte [r13 + 1], r14b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02458841                           // mov    byte [r13 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	QUAD $0x000001102484b60f                   // movzx    eax, byte [rsp + 272]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03458841                           // mov    byte [r13 + 3], al
-	LONG $0x20c28348                           // add    rdx, 32
-	LONG $0x04c58349                           // add    r13, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB5_115
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000018024b48b4c                   // mov    r14, qword [rsp + 384]
-	JMP  LBB5_133
-
-LBB5_117:
-	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB5_121
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB5_119:
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_119
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB5_121:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB5_125
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB5_123:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
-	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
-	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
-	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
-	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
-	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
-	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ea8348                           // sub    rdx, -128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB5_123
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB5_125:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB5_152
-
-LBB5_127:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB5_154
-
-LBB5_128:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB5_129:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JE   LBB5_135
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB5_159:
-	LONG $0x321c3a44               // cmp    r11b, byte [rdx + rsi]
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8948; BYTE $0xf7       // mov    rdi, rsi
-	LONG $0x03efc148               // shr    rdi, 3
-	WORD $0xf189                   // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b3                   // mov    bl, 1
-	WORD $0xe3d2                   // shl    bl, cl
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0x3044; BYTE $0xc8       // xor    al, r9b
-	WORD $0xc320                   // and    bl, al
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x325c3a44; BYTE $0x01   // cmp    r11b, byte [rdx + rsi + 1]
-	LONG $0x02768d48               // lea    rsi, [rsi + 2]
-	LONG $0xd1950f41               // setne    r9b
-	WORD $0xf641; BYTE $0xd9       // neg    r9b
-	WORD $0x3041; BYTE $0xd9       // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b0                   // mov    al, 1
-	WORD $0xe0d2                   // shl    al, cl
-	WORD $0x2044; BYTE $0xc8       // and    al, r9b
-	WORD $0xd830                   // xor    al, bl
-	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB5_159
-	JMP  LBB5_162
-
-LBB5_132:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB5_133:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB5_157
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB5_160
-
-LBB5_135:
-	WORD $0xf631  // xor    esi, esi
-	JMP  LBB5_163
-
-LBB5_136:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_137:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_137
-
-LBB5_138:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB5_157
-	LONG $0x022ef9c5 // vucomisd    xmm0, qword [rdx]
-	JMP  LBB5_156
-
-LBB5_140:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_141:
-	LONG $0x323b4466             // cmp    r14w, word [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_141
-
-LBB5_142:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB5_157
-	LONG $0x323b4466 // cmp    r14w, word [rdx]
-	JMP  LBB5_156
-
-LBB5_144:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_145:
-	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_145
-
-LBB5_146:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_157
-	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
-	JMP  LBB5_156
-
-LBB5_148:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_149:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_149
-
-LBB5_150:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB5_157
-	LONG $0x022ef8c5 // vucomiss    xmm0, dword [rdx]
-	JMP  LBB5_156
-
-LBB5_152:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB5_153:
-	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB5_153
-
-LBB5_154:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_157
-	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
-
-LBB5_156:
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
-
-LBB5_157:
-	MOVQ 1280(SP), SP
-	VZEROUPPER
-	RET
-
-LBB5_160:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB5_161:
-	LONG $0x321c3a44               // cmp    r11b, byte [rdx + rsi]
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8948; BYTE $0xf7       // mov    rdi, rsi
-	LONG $0x03efc148               // shr    rdi, 3
-	WORD $0xf189                   // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b3                   // mov    bl, 1
-	WORD $0xe3d2                   // shl    bl, cl
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0x3044; BYTE $0xc8       // xor    al, r9b
-	WORD $0xc320                   // and    bl, al
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x325c3a44; BYTE $0x01   // cmp    r11b, byte [rdx + rsi + 1]
-	LONG $0x02768d48               // lea    rsi, [rsi + 2]
-	LONG $0xd1950f41               // setne    r9b
-	WORD $0xf641; BYTE $0xd9       // neg    r9b
-	WORD $0x3041; BYTE $0xd9       // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b0                   // mov    al, 1
-	WORD $0xe0d2                   // shl    al, cl
-	WORD $0x2044; BYTE $0xc8       // and    al, r9b
-	WORD $0xd830                   // xor    al, bl
-	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB5_161
-
-LBB5_162:
-	WORD $0x0148; BYTE $0xf2 // add    rdx, rsi
-
-LBB5_163:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB5_157
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
-	LONG $0x07e68040             // and    sil, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
-	LONG $0x155c8841; BYTE $0x00 // mov    byte [r13 + rdx], bl
-	JMP  LBB5_157
-
-LBB5_165:
-	LONG $0xe0e68349                     // and    r14, -32
-	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000018824848948             // mov    qword [rsp + 392], rax
-	QUAD $0x0000017824b4894c             // mov    qword [rsp + 376], r14
-	LONG $0xb7048d4b                     // lea    rax, [r15 + 4*r14]
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	LONG $0x6e79c1c4; BYTE $0xc3         // vmovd    xmm0, r11d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xf631                         // xor    esi, esi
-	QUAD $0x0000011024bc894c             // mov    qword [rsp + 272], r15
-
-LBB5_166:
-	QUAD $0x0000019824b48948                   // mov    qword [rsp + 408], rsi
-	LONG $0x05e6c148                           // shl    rsi, 5
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	QUAD $0x0000010824b48948                   // mov    qword [rsp + 264], rsi
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x3204b60f                           // movzx    eax, byte [rdx + rsi]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x3244b60f; BYTE $0x01               // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x3244b60f; BYTE $0x02               // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x0a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rcx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x3244b60f; BYTE $0x03               // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x0a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rcx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x3244b60f; BYTE $0x04               // movzx    eax, byte [rdx + rsi + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x0a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rcx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x3244b60f; BYTE $0x05               // movzx    eax, byte [rdx + rsi + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x0a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rcx + 6]
-	QUAD $0x000000f0248c8948                   // mov    qword [rsp + 240], rcx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x3244b60f; BYTE $0x06               // movzx    eax, byte [rdx + rsi + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x0a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rcx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x3244b60f; BYTE $0x07               // movzx    eax, byte [rdx + rsi + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8949; BYTE $0xf4                   // mov    r12, rsi
-	LONG $0x40cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 576
-	QUAD $0x000000c824a4894c                   // mov    qword [rsp + 200], r12
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	QUAD $0x000000f824848948                   // mov    qword [rsp + 248], rax
-	WORD $0x8949; BYTE $0xf7                   // mov    r15, rsi
-	LONG $0x80cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 640
-	QUAD $0x0000010024bc894c                   // mov    qword [rsp + 256], r15
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	LONG $0xa0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 672
-	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8949; BYTE $0xf0                   // mov    r8, rsi
-	LONG $0xe0c88149; WORD $0x0002; BYTE $0x00 // or    r8, 736
-	LONG $0x2444894c; BYTE $0x40               // mov    qword [rsp + 64], r8
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x03200d48; WORD $0x0000             // or    rax, 800
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	LONG $0x40c98149; WORD $0x0003; BYTE $0x00 // or    r9, 832
-	QUAD $0x000000b0248c894c                   // mov    qword [rsp + 176], r9
-	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
-	LONG $0x60cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 864
-	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	LONG $0x80c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 896
-	QUAD $0x00000088248c8948                   // mov    qword [rsp + 136], rcx
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0xa0cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 928
-	QUAD $0x000000c0249c894c                   // mov    qword [rsp + 192], r11
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	LONG $0xe0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 992
-	LONG $0x24748948; BYTE $0x50               // mov    qword [rsp + 80], rsi
-	LONG $0x207923c4; WORD $0x2a0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r13], 1
-	LONG $0x2031a3c4; WORD $0x2204; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + r12], 2
-	LONG $0x2079a3c4; WORD $0x3204; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + r14], 3
-	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 4
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r10], 5
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 6
-	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + r8], 7
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 9
-	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r9], 10
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 11
-	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 12
-	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + r11], 13
-	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
-	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 15
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r12], 1
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 2
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 3
-	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 6
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 7
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 9
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rax], 10
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + r10], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 14
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	LONG $0x2061a3c4; WORD $0x2a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + r13], 15
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x02010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 2
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x03010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 3
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x04010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 4
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x05010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 5
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x06010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 6
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x07010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 9
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 10
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0b010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 11
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0c010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 12
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0d010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 14
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0f012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 15
-	QUAD $0x0101226c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r12 + 1], 1
-	QUAD $0x0201326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 1], 2
-	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
-	QUAD $0x03011a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 1], 3
-	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
-	QUAD $0x05010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 5
-	QUAD $0x06011a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 1], 6
-	QUAD $0x0701326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 7
-	QUAD $0x08013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 8
-	QUAD $0x09013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 9
-	QUAD $0x0a01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 10
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	QUAD $0x0b01126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 1], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0f0102442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 1], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x010232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 2], 1
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x02021a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 2], 2
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x030202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 3
-	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
-	QUAD $0x04020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 4
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x05023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x060202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x070202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x080202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x090202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 9
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x0a0222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 2], 10
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0b022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 11
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0c0232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 2], 12
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-	QUAD $0x0d0212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0102025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 1
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x02020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 2
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x03020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x04020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x05020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 5
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x06020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x07023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x08023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 8
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x09020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 9
-	QUAD $0x0a021a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 2], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 14
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x0f021a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 2], 15
-	QUAD $0x010332642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + rsi + 3], 1
-	QUAD $0x02031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 2
-	QUAD $0x030302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 3], 3
-	QUAD $0x04030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 4
-	QUAD $0x05033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 5
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x06030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 6
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x07033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 7
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x08030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 8
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x09031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 9
-	QUAD $0x0a0322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 3], 10
-	QUAD $0x0b032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 11
-	QUAD $0x0c0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 12
-	QUAD $0x0d0312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 14
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0f0312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 15
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01030a6c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + rcx + 3], 1
-	QUAD $0x0203026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 2
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x04030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x05030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 5
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0603326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 6
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
-	QUAD $0x08033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 8
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0903326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 9
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0a033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0e033a442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rdi + 3], 14
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rdi + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x0f032a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3a7cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rdi + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x010422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 4], 1
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	QUAD $0x020402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 2
-	QUAD $0x000000f8249c8b48                   // mov    rbx, qword [rsp + 248]
-	QUAD $0x03041a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 4], 3
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x04043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x06043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 6
-	QUAD $0x07043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 7
-	QUAD $0x08040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 8
-	QUAD $0x09041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 9
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x0a043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 10
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x0b041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 11
-	QUAD $0x0c0432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 4], 12
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0d040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 13
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0e0432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 4], 14
-	QUAD $0x0f0412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 4], 15
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x0104125c2001a3c4                   // vpinsrb    xmm3, xmm15, byte [rdx + r10 + 4], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x02043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 2
-	QUAD $0x0304025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0404025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 4
-	QUAD $0x05040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0604025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x07043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 7
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0804025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 8
-	QUAD $0x0904325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 9
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0a04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 14
-	QUAD $0x0f042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 15
-	QUAD $0x010522642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + r12 + 5], 1
-	QUAD $0x020502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 2
-	QUAD $0x03051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 3
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x040522642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 5], 4
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x050502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 5
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x06051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 6
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x07051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 7
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x08051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x09051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 9
-	QUAD $0x0a053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 10
-	QUAD $0x0b051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 11
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0c051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 12
-	QUAD $0x0d050a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 5], 13
-	QUAD $0x0e0532642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 5], 14
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0f051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 15
-	QUAD $0x0105126c2049a3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + r10 + 5], 1
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x02051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 2
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x03051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 3
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x04051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 4
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x05050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 5
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x06051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 6
-	QUAD $0x07053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x08053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x09053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 9
-	QUAD $0x0a05326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 5], 10
-	QUAD $0x0b05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
-	QUAD $0x0e050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0f052a442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r13 + 5], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x01061a442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + r11 + 6], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 2
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x030602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 3
-	QUAD $0x040622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 6], 4
-	QUAD $0x050602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x07060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x090602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 10
-	QUAD $0x0b063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 11
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x0c063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 12
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0d0632442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 6], 13
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0e061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 15
-	QUAD $0x0106126c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r10 + 6], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0206026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 2
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x0306026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 6], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0406026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 4
-	QUAD $0x05060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x06063a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 6], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0706026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 7
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x08062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 8
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0906026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 9
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0a06326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 11
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0c06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 12
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0d06326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 13
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0e06326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 14
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x0f06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 15
-	QUAD $0x01071a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 7], 1
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x020732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 2
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x030732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 3
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x040732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 4
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x050732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 5
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x060732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 6
-	QUAD $0x07070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 7
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x080722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 7], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 9
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 10
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0b070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 11
-	QUAD $0x0c073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 12
-	QUAD $0x0d0732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 13
-	QUAD $0x0e071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 14
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0f073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 15
-	QUAD $0x0107124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 7], 1
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x02071a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 7], 2
-	QUAD $0x0307024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 7], 3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x05070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 5
-	QUAD $0x06073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x07070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 7
-	QUAD $0x08072a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 7], 8
-	QUAD $0x0907024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 9
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x0a07324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 10
-	QUAD $0x0b070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c07024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d07024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0e0702442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 7], 14
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rax + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x0f071a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x027cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rax + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x010802442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rax + 8], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 2
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x03080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 3
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	QUAD $0x040812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x050802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 5
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x060832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 6
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x070802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 7
-	QUAD $0x080822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 8], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x090802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 9
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x0a0822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 8], 10
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0b083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 11
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0c083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 12
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0d083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 14
-	QUAD $0x0f083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 15
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x01083a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r15 + 8], 1
-	QUAD $0x02081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 2
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x03083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 3
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x04083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x05083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 5
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x06080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 6
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x07082a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 8], 7
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x08081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 8
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x09081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 9
-	QUAD $0x0a08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 10
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0b08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0d081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 13
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0e08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 14
-	QUAD $0x0f081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 15
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x01091a742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + r11 + 9], 1
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x02091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 2
-	QUAD $0x03090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 3
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	QUAD $0x040912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 4
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x050912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 5
-	QUAD $0x060932742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 9], 6
-	QUAD $0x070902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 7
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x080902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 8
-	QUAD $0x090902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 9
-	QUAD $0x0a0922742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 9], 10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 11
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0c0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 12
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0d090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 15
-	QUAD $0x01093a7c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + r15 + 9], 1
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0209027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 2
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0309027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0409027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 4
-	QUAD $0x05093a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rdi + 9], 5
-	QUAD $0x06090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 6
-	QUAD $0x07092a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 9], 7
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0809027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 8
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x09093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 9
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0a09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	QUAD $0x0e09327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x010a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 2
-	QUAD $0x030a1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 10], 3
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	QUAD $0x040a2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 10], 4
-	QUAD $0x050a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 5
-	QUAD $0x060a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x070a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 7
-	QUAD $0x080a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 8
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x090a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 10
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x0b0a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 11
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x0c0a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 12
-	QUAD $0x0d0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 15
-	QUAD $0x010a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 1
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x020a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 2
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x030a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 3
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x040a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x050a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 5
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x060a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 6
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x070a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 7
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x080a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 8
-	QUAD $0x090a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 9
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0a0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 10
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0b0a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 14
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0f0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 15
-	QUAD $0x010b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 1
-	QUAD $0x020b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 2
-	QUAD $0x030b1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 11], 3
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x040b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 4
-	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x050b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 5
-	QUAD $0x060b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 6
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x070b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x080b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 8
-	QUAD $0x090b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 9
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x0a0b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 10
-	QUAD $0x0b0b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 11
-	QUAD $0x0c0b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 12
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0d0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 15
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x010b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 1
-	QUAD $0x020b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 11], 2
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x030b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 3
-	QUAD $0x040b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x050b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 5
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x060b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 6
-	QUAD $0x070b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 7
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x080b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 8
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x090b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 9
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0a0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 10
-	QUAD $0x0b0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 14
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a7cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rcx + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0f0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a7cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rcx + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x010c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 1
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x020c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 2
-	QUAD $0x030c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 3
-	QUAD $0x040c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 4
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x050c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 12], 5
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x060c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 12], 6
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x070c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x090c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 12], 9
-	QUAD $0x0a0c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 10
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0b0c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 11
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0c0c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 12
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0d0c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 13
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0e0c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 14
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0f0c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 12], 15
-	QUAD $0x010c1a542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + rbx + 12], 1
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x020c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 2
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x030c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 3
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x040c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 4
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x050c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 5
-	QUAD $0x060c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 6
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x070c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 7
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x080c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 8
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x090c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 9
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0a0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0d0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 13
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0e0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 14
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x0f0c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 15
-	QUAD $0x010d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 1
-	QUAD $0x020d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 13], 2
-	WORD $0x8949; BYTE $0xf5                   // mov    r13, rsi
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x030d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 13], 3
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x040d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 4
-	QUAD $0x050d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 5
-	QUAD $0x060d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 6
-	QUAD $0x070d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 13], 7
-	QUAD $0x080d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 8
-	QUAD $0x090d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 13], 9
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0a0d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 11
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0c0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 12
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0d0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 13
-	QUAD $0x0e0d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 14
-	QUAD $0x0f0d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 15
-	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x010d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 1
-	QUAD $0x020d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 2
-	QUAD $0x030d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x040d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x050d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x060d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x070d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 7
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x080d124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 13], 8
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x090d224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 13], 9
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0a0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 13
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	QUAD $0x0e0d1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0f0d3a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rdi + 13], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rdi + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3a7cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rdi + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x010e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 1
-	QUAD $0x020e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 2
-	QUAD $0x030e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 3
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x040e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x050e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x060e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 6
-	QUAD $0x070e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 14], 7
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x080e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 14], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x090e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 9
-	QUAD $0x0a0e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 10
-	QUAD $0x0b0e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 11
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0c0e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 12
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x0d0e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e0e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 14
-	QUAD $0x0f0e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 15
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x010e02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 14], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x020e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 2
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x030e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 3
-	QUAD $0x040e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x050e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 5
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x060e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x070e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 7
-	QUAD $0x080e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 14], 8
-	QUAD $0x090e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 9
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0a0e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b0e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c0e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d0e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 13
-	QUAD $0x0e0e3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 14], 14
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0f0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rdi + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x010f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x020f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 2
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x030f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 3
-	QUAD $0x040f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 4
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x050f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 5
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x060f22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 15], 6
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x070f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 7
-	QUAD $0x080f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 15], 8
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x090f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 15], 9
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0a0f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 10
-	QUAD $0x0b0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 11
-	QUAD $0x0c0f1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 15], 12
-	QUAD $0x0d0f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 13
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0e0f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 15
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x0f12             // movzx    edi, byte [rdx + r10 + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x010f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 1
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x020f2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 15], 2
-	QUAD $0x030f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x040f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 4
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x050f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x060f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x070f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x080f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x090f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 9
-	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
-	QUAD $0x0a0f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b0f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 12
-	QUAD $0x0d0f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e0f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 14
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x0f0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x100a             // movzx    edi, byte [rdx + r9 + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x02100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 2
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x031002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 3
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x04103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 5
-	QUAD $0x061022442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 16], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x07103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 8
-	QUAD $0x09101a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 16], 9
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x0a1022442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 16], 10
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0b103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 11
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0c103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 12
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0d103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 13
-	QUAD $0x0e1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 14
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0f1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 15
-	LONG $0x7cb60f42; WORD $0x1012             // movzx    edi, byte [rdx + r10 + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x0110324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 1
-	QUAD $0x02102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 2
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0310324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 3
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0410324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 4
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0510324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 5
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x06101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 6
-	QUAD $0x0710024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 7
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0810024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 8
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0910024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 9
-	QUAD $0x0a103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 10
-	QUAD $0x0b101a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 16], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0d101a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 16], 13
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0e10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 14
-	QUAD $0x0f10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 15
-	LONG $0x7cb60f42; WORD $0x110a             // movzx    edi, byte [rdx + r9 + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x011102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 1
-	QUAD $0x02110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 2
-	QUAD $0x031102542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 17], 3
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x041102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 4
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x051132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 5
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x061132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x071102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 7
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x08113a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 17], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 9
-	QUAD $0x0a1122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 11
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0c1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 12
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x0d112a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 17], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 15
-	LONG $0x7cb60f42; WORD $0x1112             // movzx    edi, byte [rdx + r10 + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x0111225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 17], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 2
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x0311025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x04110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x05110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 5
-	QUAD $0x06111a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 17], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x07110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 7
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x08110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 8
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x09110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 9
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0a110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 12
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	QUAD $0x0d111a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 17], 13
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0e113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x0f111a442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rbx + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x12               // movzx    edi, byte [rdx + rdi + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x01123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x02123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 2
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x03123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 3
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x04123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 4
-	QUAD $0x051232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 18], 5
-	QUAD $0x061232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 6
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x071232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 7
-	QUAD $0x08123a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 18], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 9
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0a1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 10
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0b1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 11
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0c1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 12
-	QUAD $0x0d122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 13
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0e1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 14
-	QUAD $0x0f1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 15
-	LONG $0x7cb60f42; WORD $0x1212             // movzx    edi, byte [rdx + r10 + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0112224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 1
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x0212124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 2
-	QUAD $0x0312024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 3
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0412324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 4
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x0512324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 5
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x0612024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 6
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x07122a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 18], 7
-	QUAD $0x08120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 8
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0912024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 9
-	QUAD $0x0a120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 12
-	QUAD $0x0d121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 14
-	QUAD $0x0f121a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 18], 15
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x133a             // movzx    edi, byte [rdx + r15 + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 1
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x02130a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 19], 2
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x03130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 3
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x04131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 4
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x05130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 5
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x06130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 6
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x07130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 8
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x09131a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 19], 9
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 10
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0b130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 11
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0c130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 12
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0d130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 14
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 15
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rcx + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 1
-	QUAD $0x0213125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 2
-	QUAD $0x0313225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 3
-	QUAD $0x0413325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 4
-	QUAD $0x0513325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 5
-	QUAD $0x0613025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 19], 6
-	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
-	QUAD $0x07132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 7
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0813325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 8
-	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0a13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0c13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 13
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x0e132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 14
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0f13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	LONG $0x7cb60f42; WORD $0x143a             // movzx    edi, byte [rdx + r15 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	QUAD $0x011402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 1
-	QUAD $0x02140a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 20], 2
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x03143a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 20], 3
-	QUAD $0x04141a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 20], 4
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x051432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x061402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 6
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x07140a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 20], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 8
-	QUAD $0x09141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 11
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0c1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 12
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0d1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f143a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 20], 15
-	LONG $0x0a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rcx + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 2
-	QUAD $0x0314224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 3
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x04143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 4
-	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
-	QUAD $0x05141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 5
-	QUAD $0x0614324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 20], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x07143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x08143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 8
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x09141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 9
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0a143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 11
-	QUAD $0x0c14124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 13
-	QUAD $0x0e142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 14
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x0f14224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x15               // movzx    edi, byte [rdx + rdi + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 1
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x02152a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 21], 2
-	QUAD $0x03153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 3
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x04153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 4
-	QUAD $0x051532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 5
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x061532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 6
-	QUAD $0x07150a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 21], 7
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x08150a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 21], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 10
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0b1512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 11
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0c1502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 12
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0d153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 13
-	QUAD $0x0e1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x027cb60f; BYTE $0x15               // movzx    edi, byte [rdx + rax + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0115025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 1
-	QUAD $0x02150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 2
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0315025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0415025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 4
-	QUAD $0x05151a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 21], 5
-	QUAD $0x0615325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0715025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 7
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0815025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 8
-	QUAD $0x09151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 9
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0a15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 11
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0c15325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 13
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0e150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0f1522442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r12 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x16               // movzx    edi, byte [rdx + rax + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x011602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 1
-	QUAD $0x02162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 2
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x031602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 3
-	QUAD $0x04163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 5
-	QUAD $0x061632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 6
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x071632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 7
-	QUAD $0x08160a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 22], 8
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x091632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 9
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0a1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 10
-	QUAD $0x0b1612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 22], 11
-	QUAD $0x0c1602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 12
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x0d162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 14
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0f1612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 22], 15
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x161a             // movzx    edi, byte [rdx + r11 + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x01163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x02163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 2
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x03163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 3
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x04163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x05163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x06163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 6
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x0716224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 22], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x08163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x09163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 9
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0a163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 10
-	QUAD $0x0b161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 11
-	QUAD $0x0c16324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 12
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x0d16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 13
-	QUAD $0x0e160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 14
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0f160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 15
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	LONG $0x1a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rbx + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x01173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x02173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 2
-	QUAD $0x031702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 3
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x041702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x05173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 5
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x061732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 23], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x07173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 7
-	QUAD $0x08170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 8
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x09170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 9
-	QUAD $0x0a1732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 10
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0b1732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 11
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0c1732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 12
-	QUAD $0x0d172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 13
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x0e172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 14
-	QUAD $0x0f1712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 23], 15
-	LONG $0x7cb60f42; WORD $0x171a             // movzx    edi, byte [rdx + r11 + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01173a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 23], 1
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x0217325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 2
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x03173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 3
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x04173a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 23], 4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x05173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x06173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 6
-	QUAD $0x0717225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 23], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x08173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x09173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 9
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x0a17225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 23], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 11
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0c17125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 12
-	QUAD $0x0d17025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 13
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
-	QUAD $0x0f170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
-	LONG $0x1a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rbx + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x02180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 2
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x031802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 24], 3
-	QUAD $0x041802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 4
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x051802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 5
-	QUAD $0x061832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 24], 6
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x07181a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 24], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 8
-	QUAD $0x09180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 9
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x0a180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 10
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0b180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 11
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0c183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 12
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0d183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 13
-	QUAD $0x0e182a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 24], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 15
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rdi + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x0118324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 1
-	QUAD $0x0218324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 2
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x03182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 3
-	QUAD $0x04183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 4
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0518324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 5
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0618324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 6
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x07181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 7
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0818324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 8
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0918324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 9
-	QUAD $0x0a18224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 24], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 11
-	QUAD $0x0c18124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 12
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0d18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 13
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0e183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 14
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0f18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 15
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	LONG $0x327cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rsi + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x011912542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 25], 1
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x021932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 2
-	QUAD $0x031902542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 25], 3
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x04193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 4
-	QUAD $0x051902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x061902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 6
-	QUAD $0x07191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x091902542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 25], 9
-	QUAD $0x0a190a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 25], 10
-	QUAD $0x0b190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 11
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x0c190a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 25], 12
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0d190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 14
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0f191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 15
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0a7cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rcx + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0119325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 25], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x02193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 2
-	QUAD $0x03192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 3
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0419325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 25], 4
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x05192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 5
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x06193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 6
-	QUAD $0x07191a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 25], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x08193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x09193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 9
-	QUAD $0x0a19225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 25], 10
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0b19225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 25], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c191a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 25], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 13
-	QUAD $0x0e193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0f193a442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rdi + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rdi + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011a12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 26], 1
-	QUAD $0x021a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 2
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x031a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 3
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x041a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 4
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x051a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 5
-	QUAD $0x061a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x071a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 8
-	QUAD $0x091a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 9
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0a1a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 10
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0b1a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 11
-	QUAD $0x0c1a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 12
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0d1a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 13
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0e1a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 14
-	QUAD $0x0f1a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 15
-	LONG $0x0a7cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rcx + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x011a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x021a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 2
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x031a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 3
-	QUAD $0x041a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 4
-	QUAD $0x051a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 5
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x061a1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 26], 6
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x071a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x081a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x091a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 9
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x0a1a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 10
-	QUAD $0x0b1a224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 26], 11
-	QUAD $0x0c1a1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 26], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 13
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0e1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 14
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0f1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rdi + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x011b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 27], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x021b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 2
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x031b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 3
-	QUAD $0x041b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x051b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x061b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x071b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 7
-	QUAD $0x081b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 8
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x091b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 27], 9
-	QUAD $0x0a1b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 11
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0c1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 12
-	QUAD $0x0d1b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 13
-	QUAD $0x0e1b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 14
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0f1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 15
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	LONG $0x327cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rsi + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x021b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 2
-	QUAD $0x031b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x041b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 4
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x051b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 5
-	QUAD $0x061b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 6
-	QUAD $0x071b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 7
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x081b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 8
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x091b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 9
-	QUAD $0x0a1b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 11
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0c1b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 12
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0d1b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 13
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0e1b3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 27], 14
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0f1b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rdi + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 1
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x021c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 2
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x031c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 3
-	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
-	QUAD $0x041c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 28], 4
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x051c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x061c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x071c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 7
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x081c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 8
-	QUAD $0x091c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 28], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 10
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0b1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 11
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0c1c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 28], 12
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x0d1c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 14
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0f1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 15
-	LONG $0x327cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rsi + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x011c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 1
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x021c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 2
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x041c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x051c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 5
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x061c1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 28], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x071c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x081c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 8
-	QUAD $0x091c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 9
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0a1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 10
-	QUAD $0x0b1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 11
-	QUAD $0x0c1c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 12
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	QUAD $0x0d1c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 13
-	QUAD $0x0e1c3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 28], 14
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x0f1c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x1d               // movzx    edi, byte [rdx + rax + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x011d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 1
-	QUAD $0x021d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 2
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x031d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 3
-	QUAD $0x041d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 4
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x051d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x061d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x071d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 7
-	QUAD $0x081d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x091d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 9
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0a1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 10
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0b1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 11
-	QUAD $0x0c1d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 12
-	QUAD $0x0d1d2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 29], 13
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0e1d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 14
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0f1d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 15
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3a7cb60f; BYTE $0x1d               // movzx    edi, byte [rdx + rdi + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x011d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 1
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x021d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 2
-	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x041d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 4
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x051d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 29], 5
-	QUAD $0x061d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 29], 6
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x081d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 8
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x091d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 9
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0a1d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b1d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c1d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 29], 12
-	QUAD $0x0d1d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 13
-	QUAD $0x0e1d3a642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + r15 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x0f1d1a442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + r11 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x027cb60f; BYTE $0x1e               // movzx    edi, byte [rdx + rax + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011e0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 30], 1
-	LONG $0x027cb60f; BYTE $0x1f               // movzx    edi, byte [rdx + rax + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 31], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
-	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x051e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 30], 5
-	QUAD $0x051f124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 31], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x061e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 6
-	QUAD $0x061f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
-	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
-	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 9
-	QUAD $0x091f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 9
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0a1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 11
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
-	QUAD $0x0e1e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 30], 14
-	QUAD $0x0e1f324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 31], 14
-	QUAD $0x0f1e02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 30], 15
-	QUAD $0x0f1f02542071a3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + r8 + 31], 15
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3a44b60f; BYTE $0x1e               // movzx    eax, byte [rdx + rdi + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x011e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 1
-	LONG $0x3a44b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rdi + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 1
-	QUAD $0x021e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 30], 2
-	QUAD $0x021f2a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 31], 2
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x041e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 4
-	QUAD $0x041f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 4
-	QUAD $0x051e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 30], 5
-	QUAD $0x051f227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 31], 5
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
-	QUAD $0x061f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 6
-	QUAD $0x071e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 30], 7
-	QUAD $0x071f327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 31], 7
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x0c1e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 30], 12
-	QUAD $0x0c1f1a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 31], 12
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x0d1e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 30], 13
-	QUAD $0x0d1f0a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 31], 13
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
-	QUAD $0x0f1e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 15
-	QUAD $0x0f1f1a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00020024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 512]
-	LONG $0xc27495c5                           // vpcmpeqb    ymm0, ymm13, ymm2
-	QUAD $0x0004c024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1216]
-	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI5_0] */
-	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x0001e024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI5_1] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	QUAD $0x0001c024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 448]
-	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI5_2] */
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xe2740dc5                           // vpcmpeqb    ymm12, ymm14, ymm2
-	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI5_3] */
-	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xfa7485c5                           // vpcmpeqb    ymm7, ymm15, ymm2
-	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI5_4] */
-	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
-	QUAD $0x0001a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 416]
-	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI5_5] */
-	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0004a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1184]
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x00048024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1152]
-	QUAD $0x00046024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1120]
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x00044024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1088]
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	QUAD $0x00042024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 1056]
-	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 992]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00040024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1024]
-	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
-	QUAD $0x0003a024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 928]
-	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003c024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 960]
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x00038024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 896]
-	QUAD $0x00036024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 864]
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
-	QUAD $0x00032024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 800]
-	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
-	QUAD $0x00034024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 832]
-	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	QUAD $0x0002e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 736]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	QUAD $0x00030024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 768]
-	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
-	LONG $0xd2742dc5                           // vpcmpeqb    ymm10, ymm10, ymm2
-	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
-	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
-	LONG $0xda7425c5                           // vpcmpeqb    ymm11, ymm11, ymm2
-	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
-	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x000220248c746dc5; BYTE $0x00       // vpcmpeqb    ymm9, ymm2, yword [rsp + 544]
-	QUAD $0x0002402484746dc5; BYTE $0x00       // vpcmpeqb    ymm8, ymm2, yword [rsp + 576]
-	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
-	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
-	QUAD $0x00026024ac74edc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm2, yword [rsp + 608]
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	QUAD $0x00028024b474edc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm2, yword [rsp + 640]
-	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x0002a0249c74edc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm2, yword [rsp + 672]
-	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI5_3] */
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x0002c024a474edc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm2, yword [rsp + 704]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	QUAD $0x000140248c74edc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm2, yword [rsp + 320]
-	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
-	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
-	QUAD $0x000120249474edc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm2, yword [rsp + 288]
-	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x7f7ec1c4; WORD $0x8f44; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8f64; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8f0c             // vmovdqu    yword [r15 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	QUAD $0x00000178248c3b48                   // cmp    rcx, qword [rsp + 376]
-	JNE  LBB5_166
-	QUAD $0x0000018024b48b4c                   // mov    r14, qword [rsp + 384]
-	QUAD $0x0000017824b43b4c                   // cmp    r14, qword [rsp + 376]
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	QUAD $0x0000019024ac8b4c                   // mov    r13, qword [rsp + 400]
-	QUAD $0x0000018824948b48                   // mov    rdx, qword [rsp + 392]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	JNE  LBB5_43
-	JMP  LBB5_129
-
-LBB5_168:
-	LONG $0xe0e68349                     // and    r14, -32
-	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000018824848948             // mov    qword [rsp + 392], rax
-	QUAD $0x0000017824b4894c             // mov    qword [rsp + 376], r14
-	LONG $0xb7048d4b                     // lea    rax, [r15 + 4*r14]
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	LONG $0x6e79c1c4; BYTE $0xc3         // vmovd    xmm0, r11d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
-	WORD $0xdb31                         // xor    ebx, ebx
-	QUAD $0x0000011024bc894c             // mov    qword [rsp + 272], r15
-
-LBB5_169:
-	QUAD $0x00000198249c8948                   // mov    qword [rsp + 408], rbx
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x0000010824848948                   // mov    qword [rsp + 264], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x0a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rcx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x0a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rcx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	QUAD $0x00000100249c8948                   // mov    qword [rsp + 256], rbx
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x0a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rcx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x0a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rcx + 6]
-	QUAD $0x000000f0248c8948                   // mov    qword [rsp + 240], rcx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x0a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rcx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x20ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 544
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x40c98148; WORD $0x0002; BYTE $0x00 // or    rcx, 576
-	QUAD $0x000000b0248c8948                   // mov    qword [rsp + 176], rcx
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02800d48; WORD $0x0000             // or    rax, 640
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0xa0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 672
-	QUAD $0x000000f82494894c                   // mov    qword [rsp + 248], r10
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	LONG $0xc0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 704
-	QUAD $0x000000e8248c894c                   // mov    qword [rsp + 232], r9
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0xe0cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 736
-	LONG $0x245c894c; BYTE $0x60               // mov    qword [rsp + 96], r11
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x00cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 768
-	LONG $0x2464894c; BYTE $0x70               // mov    qword [rsp + 112], r12
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	LONG $0x20c88149; WORD $0x0003; BYTE $0x00 // or    r8, 800
-	LONG $0x2444894c; BYTE $0x38               // mov    qword [rsp + 56], r8
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x40cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 832
-	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03600d48; WORD $0x0000             // or    rax, 864
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03a00d48; WORD $0x0000             // or    rax, 928
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	LONG $0xe0cb8148; WORD $0x0003; BYTE $0x00 // or    rbx, 992
-	LONG $0x207923c4; WORD $0x320c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r14], 1
-	LONG $0x2031e3c4; WORD $0x0a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rcx], 2
-	LONG $0x2079a3c4; WORD $0x2a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + r13], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 4
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r10], 5
-	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + r9], 6
-	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + r11], 7
-	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + r12], 8
-	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r8], 9
-	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r15], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r10], 11
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 12
-	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
-	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 15
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	QUAD $0x00000098249c8948                   // mov    qword [rsp + 152], rbx
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 3
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 7
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rax], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 14
-	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + r14], 15
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x01011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x02011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 2
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x03012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 3
-	QUAD $0x04010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 4
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x05010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 5
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x06010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x07010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 7
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x08010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 9
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0a010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 10
-	QUAD $0x0b0112642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 1], 11
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0c011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 12
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0d0112642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 1], 13
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0e010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 14
-	QUAD $0x0f0122642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 1], 15
-	QUAD $0x01011a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r11 + 1], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x02010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 2
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
-	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
-	QUAD $0x05010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 5
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x06010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 6
-	QUAD $0x0701326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 7
-	QUAD $0x08013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 8
-	QUAD $0x09013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 9
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x0a01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	QUAD $0x0f0132442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r14 + 1], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x01023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x020202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x030202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x060202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 6
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x07020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 7
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x08021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 11
-	QUAD $0x0c021a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 2], 12
-	QUAD $0x0d0212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 2], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0202025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 2
-	QUAD $0x0302225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 3
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0402325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 2], 4
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0502225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 5
-	QUAD $0x06020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 6
-	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 8
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x09022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 9
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0a02325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 10
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0b022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 14
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0f022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 15
-	QUAD $0x01033a642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r15 + 3], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x02031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 2
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x03031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 3
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x04031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 4
-	QUAD $0x000000f8249c8b48                   // mov    rbx, qword [rsp + 248]
-	QUAD $0x05031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 5
-	QUAD $0x060302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 3], 6
-	QUAD $0x07030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 7
-	QUAD $0x08031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 8
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x09030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 9
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0a031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 11
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0c031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 12
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x0d032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 14
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x0f031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 15
-	QUAD $0x0103126c2039a3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + r10 + 3], 1
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x0203026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
-	QUAD $0x0403326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 4
-	QUAD $0x0503226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 3], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0603026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0703026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 7
-	QUAD $0x08033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 8
-	QUAD $0x09030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 9
-	QUAD $0x0a03326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0302442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	QUAD $0x01043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 1
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x02043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 2
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x030422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 4], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x040432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 4], 4
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x050402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x060402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x070402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 7
-	QUAD $0x08041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 8
-	QUAD $0x09040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 10
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x0b040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 12
-	QUAD $0x0d042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 14
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x0f0412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 4], 15
-	QUAD $0x01041a5c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rdx + rbx + 4], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x02043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 2
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x03042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 3
-	QUAD $0x0404325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0504025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 6
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x07043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0804025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 8
-	QUAD $0x09040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 15
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x010502642009e3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + rax + 5], 1
-	QUAD $0x02053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 2
-	QUAD $0x030522642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 5], 3
-	QUAD $0x040532642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 5], 4
-	QUAD $0x050502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x060502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 6
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x07053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 7
-	QUAD $0x08051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 10
-	QUAD $0x0b050a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 5], 11
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x0c051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 12
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0d0532642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 5], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 14
-	QUAD $0x0f0512642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 5], 15
-	QUAD $0x01051a6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rbx + 5], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0205026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 2
-	QUAD $0x03052a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 5], 3
-	QUAD $0x0405326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 4
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0505026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0605026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 6
-	QUAD $0x07053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 7
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x0805326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 8
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	QUAD $0x0905226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 5], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
-	QUAD $0x0b050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0502442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 5], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x010602442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + rax + 6], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x020602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 2
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x03061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 3
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x040602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 4
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x050612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 6], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
-	QUAD $0x07063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x09063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 11
-	QUAD $0x0c061a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 6], 12
-	QUAD $0x0d0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 13
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0e0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 14
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x0f062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 15
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	QUAD $0x01061a6c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r11 + 6], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x02060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 2
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x03060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 3
-	QUAD $0x04060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 4
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x05060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06063a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 6], 6
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
-	QUAD $0x0806326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 8
-	QUAD $0x0906226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 9
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0a060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 10
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0b06326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 11
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0c060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 14
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0f06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 15
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x01070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 1
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x02070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 2
-	QUAD $0x03071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 3
-	QUAD $0x040702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 4
-	QUAD $0x050712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 5
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x060702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x07070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 7
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x080712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 8
-	QUAD $0x09073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 9
-	QUAD $0x0a0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 12
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0d071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 13
-	QUAD $0x0e0732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 14
-	QUAD $0x0f072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 15
-	QUAD $0x01071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 1
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0207324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0307024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0507224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 5
-	QUAD $0x06073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 6
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x07073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 7
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x08071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 8
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x09070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 9
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
-	QUAD $0x0b07324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 11
-	QUAD $0x0c070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e073a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rdi + 7], 14
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a7cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rcx + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f070a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a7cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rcx + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x01083a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rdi + 8], 1
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x02083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 2
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x03083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x04080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 4
-	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
-	QUAD $0x05080a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 8], 5
-	QUAD $0x060802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x07080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 7
-	QUAD $0x080812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 9
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0a080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b0812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 11
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0c080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 12
-	QUAD $0x0d081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 13
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0e080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 14
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x0f080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 15
-	QUAD $0x01082a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r13 + 8], 1
-	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
-	QUAD $0x0208326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 2
-	QUAD $0x0308026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x04080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 4
-	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
-	QUAD $0x0508226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 5
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0608326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 6
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x0708226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 7
-	QUAD $0x08081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0908026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 9
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0a081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 15
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x01091a742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rbx + 9], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x02091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 2
-	QUAD $0x03093a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 9], 3
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x04091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 4
-	QUAD $0x05090a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 9], 5
-	QUAD $0x060902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 6
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x07093a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 9], 7
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x08091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 9
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0a091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 10
-	QUAD $0x0b0912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 11
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0c091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 12
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x0d0902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 14
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x0f091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 15
-	QUAD $0x01092a7c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + r13 + 9], 1
-	QUAD $0x0209327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 2
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x03091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 3
-	QUAD $0x04090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 4
-	QUAD $0x05093a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rdi + 9], 5
-	QUAD $0x0609327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 6
-	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
-	QUAD $0x0709227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 9], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 8
-	QUAD $0x0909027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 9
-	QUAD $0x0a091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 10
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0b091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x010a2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 10], 1
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x020a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x030a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 3
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x040a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 4
-	QUAD $0x050a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 5
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x060a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 6
-	QUAD $0x070a3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 10], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 9
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0a0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 12
-	QUAD $0x0d0a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x010a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x020a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 2
-	QUAD $0x030a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x040a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 4
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x050a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 5
-	QUAD $0x060a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 6
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x080a02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 10], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x090a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 10
-	QUAD $0x0b0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 12
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	QUAD $0x0d0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 13
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0e0a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 15
-	QUAD $0x010b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 1
-	QUAD $0x020b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x030b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 3
-	QUAD $0x040b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 4
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x050b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 5
-	QUAD $0x060b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x070b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 9
-	QUAD $0x0a0b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 13
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0e0b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f0b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 15
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x010b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 11], 1
-	QUAD $0x020b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x030b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 3
-	QUAD $0x040b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 4
-	QUAD $0x050b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x060b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 6
-	QUAD $0x070b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 7
-	QUAD $0x080b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 11], 8
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x090b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 12
-	QUAD $0x0d0b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
-	QUAD $0x0e0b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 11], 14
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rax + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rax + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x010c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 1
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x020c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 12], 2
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x030c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 12], 3
-	QUAD $0x040c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 4
-	QUAD $0x050c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 12], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x060c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x070c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 13
-	QUAD $0x0e0c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 14
-	QUAD $0x0f0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 15
-	QUAD $0x010c0a542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r9 + 12], 1
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x030c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 3
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x040c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 4
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x050c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 5
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x060c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x070c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 7
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x080c1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 12], 8
-	QUAD $0x090c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a0c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 13
-	QUAD $0x0e0c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 15
-	QUAD $0x010d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 1
-	QUAD $0x020d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 2
-	QUAD $0x030d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 3
-	QUAD $0x040d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 4
-	QUAD $0x050d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 5
-	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x060d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 6
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x070d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 7
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x080d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x090d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 9
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0a0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 11
-	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
-	QUAD $0x0c0d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 12
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0d0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 14
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x0f0d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 15
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x010d1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 13], 1
-	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
-	QUAD $0x030d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 3
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x040d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 4
-	QUAD $0x050d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 5
-	QUAD $0x060d0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 13], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x070d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 7
-	QUAD $0x080d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 8
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x090d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 9
-	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 13
-	QUAD $0x0e0d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0d02442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 13], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x010e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 1
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x020e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 2
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x030e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x040e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 4
-	QUAD $0x050e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 5
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x060e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 6
-	QUAD $0x070e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 7
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x080e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 9
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0a0e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 10
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0b0e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 14], 11
-	QUAD $0x0c0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 12
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x0d0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 13
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0e0e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 14
-	QUAD $0x0f0e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 15
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x010e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x020e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 2
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x030e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x040e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x050e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x060e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 6
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x070e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x080e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 8
-	QUAD $0x090e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 9
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0a0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 10
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0b0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 11
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0c0e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 15
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x0f02             // movzx    edi, byte [rdx + r8 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x010f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 1
-	QUAD $0x020f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 2
-	QUAD $0x030f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x040f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 4
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x050f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 5
-	QUAD $0x060f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x070f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 7
-	QUAD $0x080f1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 15], 8
-	QUAD $0x090f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 9
-	QUAD $0x0a0f12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 15], 10
-	QUAD $0x0b0f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 15], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 12
-	QUAD $0x0d0f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 15], 13
-	QUAD $0x0e0f32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 15], 14
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x0f0f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 15
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	LONG $0x1a7cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rbx + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	QUAD $0x010f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x020f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 2
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x030f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x040f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 4
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x050f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 5
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x060f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 6
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x070f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x080f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x090f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 9
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0a0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 11
-	QUAD $0x0c0f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 12
-	QUAD $0x0d0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 14
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0f0f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x7cb60f42; WORD $0x1002             // movzx    edi, byte [rdx + r8 + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x011032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 1
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x021032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 2
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x031032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 4
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x051032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 5
-	QUAD $0x06102a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 16], 6
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x071032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 7
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x081032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x091032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 9
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0a1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0b1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 11
-	QUAD $0x0c1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 13
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0e1002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 14
-	QUAD $0x0f100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 15
-	LONG $0x1a7cb60f; BYTE $0x10               // movzx    edi, byte [rdx + rbx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x01101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 1
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x02100a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 16], 2
-	QUAD $0x0310124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 3
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0410024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0510024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 5
-	QUAD $0x06100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 6
-	QUAD $0x0710324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0810324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0910024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 9
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x0a102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 13
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0e10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 14
-	QUAD $0x0f103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x01113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 1
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x02110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 2
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x03113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 4
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x051112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 5
-	QUAD $0x061122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 6
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x071122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 7
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x08113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 9
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0a111a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 17], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 11
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0c113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 12
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x0d111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 13
-	QUAD $0x0e1102542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 17], 14
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0f113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x01113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 1
-	QUAD $0x02110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 2
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x03113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x05113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 5
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x06113a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 17], 6
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0711025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 7
-	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
-	QUAD $0x0911025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 9
-	QUAD $0x0a112a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 17], 10
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0b110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 11
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 13
-	QUAD $0x0e11325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1102442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rax + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x12               // movzx    edi, byte [rdx + rax + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x011202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 1
-	QUAD $0x02120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 2
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x03120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 3
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x04122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 4
-	QUAD $0x051212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 5
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x06120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 6
-	QUAD $0x071222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 18], 7
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x08120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 8
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x091212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 9
-	QUAD $0x0a121a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 18], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 11
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0c123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 12
-	QUAD $0x0d121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 13
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0e123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 14
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0f123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 15
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x121a             // movzx    edi, byte [rdx + r11 + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x01123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 1
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0212324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 2
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0312224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x05123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 5
-	QUAD $0x06123a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 18], 6
-	QUAD $0x0712024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x09123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 9
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
-	QUAD $0x0b120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 11
-	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x0d120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 14
-	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
-	QUAD $0x0f12024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rdi + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x021302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 2
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x03133a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 19], 3
-	QUAD $0x04132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x061302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x071302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 7
-	QUAD $0x08130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 8
-	QUAD $0x091312542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 19], 9
-	QUAD $0x0a131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 11
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0c132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 15
-	LONG $0x7cb60f42; WORD $0x131a             // movzx    edi, byte [rdx + r11 + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x01130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 1
-	QUAD $0x0213325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 2
-	QUAD $0x0313225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 3
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0413025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0513025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 5
-	QUAD $0x06133a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 19], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0713025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0a13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
-	QUAD $0x0c13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 12
-	QUAD $0x0d130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 13
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x0e130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 14
-	QUAD $0x0f13025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rax + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x011432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 1
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x02141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 2
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x031422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 20], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 4
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x051402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 5
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x06143a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 20], 6
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x071432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 7
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x081432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x091432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 9
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0a1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 10
-	QUAD $0x0b141a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 20], 11
-	QUAD $0x0c142a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 20], 12
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0d1432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 20], 13
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0e1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rdi + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x01143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x02143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 2
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x03141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x05143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 6
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x07143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 7
-	QUAD $0x08140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 8
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x09140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 9
-	QUAD $0x0a14124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 13
-	QUAD $0x0e140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 14
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0f140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 15
-	LONG $0x027cb60f; BYTE $0x15               // movzx    edi, byte [rdx + rax + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x011502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 1
-	QUAD $0x02151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 2
-	QUAD $0x031522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 3
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x041502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 4
-	QUAD $0x051502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 5
-	QUAD $0x06153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 6
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x071502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 7
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x08153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 9
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0a1522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 12
-	QUAD $0x0d1532542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 21], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 14
-	QUAD $0x0f1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 15
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x151a             // movzx    edi, byte [rdx + r11 + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0115325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 1
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0215125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 2
-	QUAD $0x03151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 3
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x04151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 4
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x05150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 5
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0615325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 6
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0715325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0815325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 8
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x0915325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 9
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0a153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0f150a442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r9 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x16               // movzx    edi, byte [rdx + rdi + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x01163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 1
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x02163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 2
-	QUAD $0x03162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 3
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x04160a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 22], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x05163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 6
-	QUAD $0x071602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 7
-	QUAD $0x08163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 9
-	QUAD $0x0a1622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 10
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0b163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 11
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0c163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 13
-	QUAD $0x0e1602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 14
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	QUAD $0x0f163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 15
-	LONG $0x7cb60f42; WORD $0x161a             // movzx    edi, byte [rdx + r11 + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0116324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 1
-	QUAD $0x0216124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0316024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 3
-	QUAD $0x04161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 4
-	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x0616224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 22], 6
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x07161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 7
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x0816124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 8
-	QUAD $0x0916324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 10
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x0b16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rax + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x011702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x021702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 2
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	QUAD $0x03172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 3
-	QUAD $0x04170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 4
-	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
-	QUAD $0x05172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 5
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x061732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 6
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x07170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x081702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 9
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0a170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 11
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0c170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 12
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x0d171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 13
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0e173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 14
-	QUAD $0x0f173a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 23], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rdi + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x01173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x02173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 2
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x03173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x05173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 5
-	QUAD $0x0617225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 23], 6
-	QUAD $0x07171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 7
-	QUAD $0x0817125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 8
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x09171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 9
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0a173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 10
-	QUAD $0x0b17025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rdi + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x01183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 1
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x02183a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 24], 2
-	QUAD $0x031832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 24], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 4
-	QUAD $0x05182a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 24], 5
-	QUAD $0x061832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 6
-	QUAD $0x07180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 7
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x081832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 8
-	QUAD $0x091802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 10
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x0b1822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 11
-	QUAD $0x0c180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 12
-	QUAD $0x0d181a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 24], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 15
-	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1832             // movzx    edi, byte [rdx + r14 + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x01180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0218024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0318024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 3
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x04181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 4
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0518024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0618024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0718024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 7
-	QUAD $0x0818124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 8
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x09181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 9
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x0a182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0c18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rax + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x011902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 1
-	QUAD $0x02193a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 25], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x031902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x041902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 4
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x05193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 6
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x07193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 7
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 9
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0a193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 10
-	QUAD $0x0b1922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 11
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0c193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 13
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0e193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 14
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	QUAD $0x0f193a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 25], 15
-	LONG $0x7cb60f42; WORD $0x1932             // movzx    edi, byte [rdx + r14 + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 1
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x02190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 2
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x03193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 3
-	QUAD $0x04191a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 25], 4
-	QUAD $0x0519025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 6
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x07193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 8
-	QUAD $0x0919125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 9
-	QUAD $0x0a192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 10
-	QUAD $0x0b190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 11
-	QUAD $0x0c19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 12
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0d192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 13
-	QUAD $0x0e191a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 25], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f190a442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rcx + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x1a1a             // movzx    edi, byte [rdx + r11 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x011a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 1
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x021a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 2
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x031a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 3
-	QUAD $0x041a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 4
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x051a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x061a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x071a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 7
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x081a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 9
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0a1a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 13
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0e1a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 14
-	QUAD $0x0f1a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rax + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x011a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 1
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x021a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 2
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x031a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x041a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x051a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x061a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 6
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x071a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 7
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x081a3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 26], 8
-	QUAD $0x091a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 9
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0a1a1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 26], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 12
-	QUAD $0x0d1a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 15
-	LONG $0x7cb60f42; WORD $0x1b1a             // movzx    edi, byte [rdx + r11 + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x011b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 27], 1
-	QUAD $0x021b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 2
-	QUAD $0x031b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 3
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x041b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 4
-	QUAD $0x051b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 5
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x061b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x071b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 7
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x081b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x091b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 9
-	QUAD $0x0a1b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 27], 10
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x0b1b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 27], 11
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0c1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 12
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0d1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 13
-	QUAD $0x0e1b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 27], 14
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x0f1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a7cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rcx + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x011b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 1
-	QUAD $0x021b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x031b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 3
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x041b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x051b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x061b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 6
-	QUAD $0x071b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 7
-	QUAD $0x081b3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 27], 8
-	QUAD $0x091b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 9
-	QUAD $0x0a1b1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 27], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x1c12             // movzx    edi, byte [rdx + r10 + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 1
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x021c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x031c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 3
-	QUAD $0x041c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 4
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x051c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 28], 5
-	QUAD $0x061c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x071c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 7
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x081c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 28], 8
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x091c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 9
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0a1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 10
-	QUAD $0x0b1c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 11
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x0c1c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e1c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rax + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x011c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x021c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 2
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
-	QUAD $0x041c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 4
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x051c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 5
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x061c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 6
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x071c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x081c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x091c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 9
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0a1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 10
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0b1c2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 28], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 12
-	QUAD $0x0d1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 15
-	LONG $0x7cb60f42; WORD $0x1d12             // movzx    edi, byte [rdx + r10 + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
-	QUAD $0x011d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 1
-	QUAD $0x021d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 2
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x031d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x041d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 4
-	QUAD $0x051d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 5
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x061d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 6
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x071d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 7
-	QUAD $0x081d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 8
-	QUAD $0x091d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 9
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0a1d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 10
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x0b1d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 11
-	QUAD $0x0c1d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 12
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0d1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 13
-	QUAD $0x0e1d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 14
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0f1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 15
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1d02             // movzx    edi, byte [rdx + r8 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	QUAD $0x011d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 1
-	QUAD $0x021d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 2
-	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x041d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x051d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 5
-	QUAD $0x061d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 29], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x071d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x091d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 10
-	QUAD $0x0b1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 11
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0c1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 13
-	QUAD $0x0e1d0a642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + rcx + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1d02442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + rax + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a7cb60f; BYTE $0x1e               // movzx    edi, byte [rdx + rcx + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 30], 1
-	LONG $0x0a7cb60f; BYTE $0x1f               // movzx    edi, byte [rdx + rcx + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 31], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
-	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
-	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
-	QUAD $0x061e3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 30], 6
-	QUAD $0x061f3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 31], 6
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
-	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
-	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 9
-	QUAD $0x091f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 9
-	QUAD $0x0a1e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 30], 10
-	QUAD $0x0a1f224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 31], 10
-	QUAD $0x0b1e0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 30], 11
-	QUAD $0x0b1f0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 31], 11
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	LONG $0x44b60f42; WORD $0x1e02             // movzx    eax, byte [rdx + r8 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f02             // movzx    eax, byte [rdx + r8 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f1a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 31], 1
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x021e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 2
-	QUAD $0x021f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 2
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
-	QUAD $0x041e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 30], 4
-	QUAD $0x041f327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 31], 4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
-	QUAD $0x061e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 30], 6
-	QUAD $0x061f327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 31], 6
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
-	QUAD $0x071f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
-	QUAD $0x0c1e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 30], 12
-	QUAD $0x0c1f2a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 31], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00020024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 512]
-	LONG $0xc27495c5                           // vpcmpeqb    ymm0, ymm13, ymm2
-	QUAD $0x0004c024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1216]
-	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI5_0] */
-	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x0001e024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 480]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI5_1] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	QUAD $0x0001c024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 448]
-	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI5_2] */
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xe2740dc5                           // vpcmpeqb    ymm12, ymm14, ymm2
-	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI5_3] */
-	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xfa7485c5                           // vpcmpeqb    ymm7, ymm15, ymm2
-	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI5_4] */
-	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
-	QUAD $0x0001a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 416]
-	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI5_5] */
-	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0004a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1184]
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x00048024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1152]
-	QUAD $0x00046024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1120]
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x00044024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1088]
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	QUAD $0x00042024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 1056]
-	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 992]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00040024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1024]
-	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
-	QUAD $0x0003a024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 928]
-	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003c024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 960]
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x00038024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 896]
-	QUAD $0x00036024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 864]
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
-	QUAD $0x00032024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 800]
-	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
-	QUAD $0x00034024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 832]
-	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	QUAD $0x0002e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 736]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	QUAD $0x00030024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 768]
-	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
-	LONG $0xd2742dc5                           // vpcmpeqb    ymm10, ymm10, ymm2
-	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
-	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
-	LONG $0xda7425c5                           // vpcmpeqb    ymm11, ymm11, ymm2
-	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
-	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x000220248c746dc5; BYTE $0x00       // vpcmpeqb    ymm9, ymm2, yword [rsp + 544]
-	QUAD $0x0002402484746dc5; BYTE $0x00       // vpcmpeqb    ymm8, ymm2, yword [rsp + 576]
-	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
-	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
-	QUAD $0x00026024ac74edc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm2, yword [rsp + 608]
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	QUAD $0x00028024b474edc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm2, yword [rsp + 640]
-	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x0002a0249c74edc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm2, yword [rsp + 672]
-	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI5_3] */
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x0002c024a474edc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm2, yword [rsp + 704]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	QUAD $0x000140248c74edc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm2, yword [rsp + 320]
-	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
-	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
-	QUAD $0x000120249474edc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm2, yword [rsp + 288]
-	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
-	LONG $0x7f7ec1c4; WORD $0x8f44; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8f64; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8f0c             // vmovdqu    yword [r15 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	QUAD $0x00000178248c3b48                   // cmp    rcx, qword [rsp + 376]
-	JNE  LBB5_169
-	QUAD $0x0000018024b48b4c                   // mov    r14, qword [rsp + 384]
-	QUAD $0x0000017824b43b4c                   // cmp    r14, qword [rsp + 376]
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	QUAD $0x0000019024ac8b4c                   // mov    r13, qword [rsp + 400]
-	QUAD $0x0000018824948b48                   // mov    rdx, qword [rsp + 392]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	JNE  LBB5_114
-	JMP  LBB5_133
-
-TEXT ·_comparison_greater_arr_arr_avx2(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB6_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB6_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB6_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB6_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_20:
-	WORD $0x0a8b                 // mov    ecx, dword [rdx]
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x0e3b                 // cmp    ecx, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_20
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	LONG $0xd5970f41                           // seta    r13b
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	LONG $0xd7970f41                           // seta    r15b
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	LONG $0xd1970f41                           // seta    r9b
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0xd4970f41                           // seta    r12b
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	LONG $0x405e8b44                           // mov    r11d, dword [rsi + 64]
-	LONG $0xd2970f41                           // seta    r10b
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x405a3b44                           // cmp    r11d, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	LONG $0xd6970f41                           // seta    r14b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x4c                   // mov    eax, dword [rsi + 76]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	WORD $0x423b; BYTE $0x4c                   // cmp    eax, dword [rdx + 76]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd3970f41                           // seta    r11b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd7970f40                           // seta    dil
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x28               // add    r13b, byte [rsp + 40]
-	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14               // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x6cb60f44; WORD $0x1524             // movzx    r13d, byte [rsp + 21]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xd9                   // or    r9b, bl
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
-	LONG $0x245cb60f; BYTE $0x05               // movzx    ebx, byte [rsp + 5]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0a               // add    r14b, byte [rsp + 10]
-	LONG $0x244cb60f; BYTE $0x06               // movzx    ecx, byte [rsp + 6]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xf1                   // or    cl, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0841; BYTE $0xcb                   // or    r11b, cl
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xd9                   // or    cl, r11b
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x0b               // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x44b60f44; WORD $0x0d24             // movzx    r8d, byte [rsp + 13]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0844; BYTE $0xc7                   // or    dil, r8b
-	LONG $0x01568845                           // mov    byte [r14 + 1], r10b
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x244cb60f; BYTE $0x0e               // movzx    ecx, byte [rsp + 14]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x13244c02                           // add    cl, byte [rsp + 19]
-	LONG $0x245cb60f; BYTE $0x0c               // movzx    ebx, byte [rsp + 12]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x244cb60f; BYTE $0x0f               // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x12               // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x027e8841                           // mov    byte [r14 + 2], dil
-	LONG $0x03468841                           // mov    byte [r14 + 3], al
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff20             // add    qword [rsp + 32], -1
-	JNE  LBB6_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-
-LBB6_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_28:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8a     // mov    edi, dword [rdx + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8e     // cmp    edi, dword [rsi + 4*rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_28
-	JMP  LBB6_123
-
-LBB6_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB6_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB6_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB6_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_48:
-	LONG $0x0610fbc5             // vmovsd    xmm0, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0xd2970f41             // seta    r10b
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_48
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB6_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fbc5                           // vmovsd    xmm0, qword [rsi]
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x4610fbc5; BYTE $0x08               // vmovsd    xmm0, qword [rsi + 8]
-	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x4610fbc5; BYTE $0x10               // vmovsd    xmm0, qword [rsi + 16]
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	LONG $0x4610fbc5; BYTE $0x18               // vmovsd    xmm0, qword [rsi + 24]
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	LONG $0x4610fbc5; BYTE $0x20               // vmovsd    xmm0, qword [rsi + 32]
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	LONG $0x4610fbc5; BYTE $0x28               // vmovsd    xmm0, qword [rsi + 40]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	LONG $0x4610fbc5; BYTE $0x30               // vmovsd    xmm0, qword [rsi + 48]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x4610fbc5; BYTE $0x38               // vmovsd    xmm0, qword [rsi + 56]
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x4610fbc5; BYTE $0x40               // vmovsd    xmm0, qword [rsi + 64]
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x4610fbc5; BYTE $0x48               // vmovsd    xmm0, qword [rsi + 72]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x4610fbc5; BYTE $0x50               // vmovsd    xmm0, qword [rsi + 80]
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x4610fbc5; BYTE $0x58               // vmovsd    xmm0, qword [rsi + 88]
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x4610fbc5; BYTE $0x60               // vmovsd    xmm0, qword [rsi + 96]
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x4610fbc5; BYTE $0x68               // vmovsd    xmm0, qword [rsi + 104]
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	LONG $0x4610fbc5; BYTE $0x70               // vmovsd    xmm0, qword [rsi + 112]
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	LONG $0x4610fbc5; BYTE $0x78               // vmovsd    xmm0, qword [rsi + 120]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	QUAD $0x000000808610fbc5                   // vmovsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	QUAD $0x000000888610fbc5                   // vmovsd    xmm0, qword [rsi + 136]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	LONG $0xd4970f41                           // seta    r12b
-	QUAD $0x000000908610fbc5                   // vmovsd    xmm0, qword [rsi + 144]
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	LONG $0xd5970f41                           // seta    r13b
-	QUAD $0x000000988610fbc5                   // vmovsd    xmm0, qword [rsi + 152]
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	QUAD $0x000000a08610fbc5                   // vmovsd    xmm0, qword [rsi + 160]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	QUAD $0x000000a88610fbc5                   // vmovsd    xmm0, qword [rsi + 168]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	QUAD $0x000000b08610fbc5                   // vmovsd    xmm0, qword [rsi + 176]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	QUAD $0x000000b88610fbc5                   // vmovsd    xmm0, qword [rsi + 184]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd1970f41                           // seta    r9b
-	QUAD $0x000000c08610fbc5                   // vmovsd    xmm0, qword [rsi + 192]
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	QUAD $0x000000c88610fbc5                   // vmovsd    xmm0, qword [rsi + 200]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	QUAD $0x000000d08610fbc5                   // vmovsd    xmm0, qword [rsi + 208]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	QUAD $0x000000d88610fbc5                   // vmovsd    xmm0, qword [rsi + 216]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	QUAD $0x000000e08610fbc5                   // vmovsd    xmm0, qword [rsi + 224]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	QUAD $0x000000e88610fbc5                   // vmovsd    xmm0, qword [rsi + 232]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	QUAD $0x000000f08610fbc5                   // vmovsd    xmm0, qword [rsi + 240]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f88610fbc5                   // vmovsd    xmm0, qword [rsi + 248]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x04244c02                           // add    cl, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x08               // add    dil, byte [rsp + 8]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e2c041                           // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0xcf89                               // mov    edi, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x07               // movzx    edi, byte [rsp + 7]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0e               // add    r12b, byte [rsp + 14]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x13               // movzx    eax, byte [rsp + 19]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB6_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB6_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_56:
-	LONG $0x0410fbc5; BYTE $0xce // vmovsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042ef9c5; BYTE $0xca // vucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_56
-	JMP  LBB6_123
-
-LBB6_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB6_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x24549f0f; BYTE $0x28   // setg    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x9f0f; BYTE $0xd1       // setg    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x24549f0f; BYTE $0x14   // setg    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x24549f0f; BYTE $0x15   // setg    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x24549f0f; BYTE $0x16   // setg    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x24549f0f; BYTE $0x17   // setg    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x24549f0f; BYTE $0x04   // setg    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd79f0f41               // setg    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x07   // setg    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd79f0f40               // setg    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd29f0f41               // setg    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd39f0f41               // setg    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd69f0f41               // setg    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x24549f0f; BYTE $0x05   // setg    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x24549f0f; BYTE $0x06   // setg    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x9f0f; BYTE $0xd3       // setg    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x0d   // setg    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd49f0f41               // setg    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd59f0f41               // setg    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x24549f0f; BYTE $0x08   // setg    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x24549f0f; BYTE $0x09   // setg    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x24549f0f; BYTE $0x0a   // setg    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x24549f0f; BYTE $0x0b   // setg    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd19f0f41               // setg    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x13   // setg    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x24549f0f; BYTE $0x0c   // setg    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x24549f0f; BYTE $0x0e   // setg    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x24549f0f; BYTE $0x0f   // setg    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x24549f0f; BYTE $0x10   // setg    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x24549f0f; BYTE $0x11   // setg    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x24549f0f; BYTE $0x12   // setg    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd09f0f41               // setg    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB6_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB6_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_14
-	JMP  LBB6_123
-
-LBB6_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB6_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_34:
-	WORD $0x8b48; BYTE $0x0a     // mov    rcx, qword [rdx]
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0x3b48; BYTE $0x0e     // cmp    rcx, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_34
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	LONG $0x809e8b4c; WORD $0x0000; BYTE $0x00 // mov    r11, qword [rsi + 128]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x809a3b4c; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0x98868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 152]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	LONG $0x98823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 152]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x28               // add    r13b, byte [rsp + 40]
-	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14               // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x6cb60f44; WORD $0x1524             // movzx    r13d, byte [rsp + 21]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xd9                   // or    r9b, bl
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
-	LONG $0x245cb60f; BYTE $0x05               // movzx    ebx, byte [rsp + 5]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0a               // add    r14b, byte [rsp + 10]
-	LONG $0x244cb60f; BYTE $0x06               // movzx    ecx, byte [rsp + 6]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xf1                   // or    cl, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0841; BYTE $0xcb                   // or    r11b, cl
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xd9                   // or    cl, r11b
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x0b               // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x44b60f44; WORD $0x0d24             // movzx    r8d, byte [rsp + 13]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0844; BYTE $0xc7                   // or    dil, r8b
-	LONG $0x01568845                           // mov    byte [r14 + 1], r10b
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x244cb60f; BYTE $0x0e               // movzx    ecx, byte [rsp + 14]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x13244c02                           // add    cl, byte [rsp + 19]
-	LONG $0x245cb60f; BYTE $0x0c               // movzx    ebx, byte [rsp + 12]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x244cb60f; BYTE $0x0f               // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x12               // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x027e8841                           // mov    byte [r14 + 2], dil
-	LONG $0x03468841                           // mov    byte [r14 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff20             // add    qword [rsp + 32], -1
-	JNE  LBB6_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-
-LBB6_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_42:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xca3c8b48             // mov    rdi, qword [rdx + 8*rcx]
-	LONG $0xce3c3b48             // cmp    rdi, qword [rsi + 8*rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_42
-	JMP  LBB6_123
-
-LBB6_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_70:
-	WORD $0xb70f; BYTE $0x0a     // movzx    ecx, word [rdx]
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3b66; BYTE $0x0e     // cmp    cx, word [rsi]
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_70
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454970f; BYTE $0x28   // seta    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0xd5970f41               // seta    r13b
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454970f; BYTE $0x14   // seta    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x2454970f; BYTE $0x15   // seta    byte [rsp + 21]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454970f; BYTE $0x17   // seta    byte [rsp + 23]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x2454970f; BYTE $0x16   // seta    byte [rsp + 22]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454970f; BYTE $0x04   // seta    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0xd7970f41               // seta    r15b
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454970f; BYTE $0x09   // seta    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0xd0970f41               // seta    r8b
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	WORD $0x970f; BYTE $0xd3       // seta    bl
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0xd1970f41               // seta    r9b
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0xd4970f41               // seta    r12b
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x2454970f; BYTE $0x05   // seta    byte [rsp + 5]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454970f; BYTE $0x07   // seta    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	LONG $0x5eb70f44; BYTE $0x20   // movzx    r11d, word [rsi + 32]
-	LONG $0xd2970f41               // seta    r10b
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x5a3b4466; BYTE $0x20   // cmp    r11w, word [rdx + 32]
-	LONG $0x2454970f; BYTE $0x0a   // seta    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0xd6970f41               // seta    r14b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2646b70f               // movzx    eax, word [rsi + 38]
-	LONG $0x2454970f; BYTE $0x06   // seta    byte [rsp + 6]
-	LONG $0x26423b66               // cmp    ax, word [rdx + 38]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd3970f41               // seta    r11b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454970f; BYTE $0x08   // seta    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454970f; BYTE $0x0b   // seta    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2454970f; BYTE $0x0d   // seta    byte [rsp + 13]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd7970f40               // seta    dil
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454970f; BYTE $0x13   // seta    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x2454970f; BYTE $0x0e   // seta    byte [rsp + 14]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454970f; BYTE $0x0c   // seta    byte [rsp + 12]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454970f; BYTE $0x0f   // seta    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x2454970f; BYTE $0x12   // seta    byte [rsp + 18]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454970f; BYTE $0x11   // seta    byte [rsp + 17]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454970f; BYTE $0x10   // seta    byte [rsp + 16]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	WORD $0x970f; BYTE $0xd0       // seta    al
-	WORD $0x0045; BYTE $0xed       // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x28   // add    r13b, byte [rsp + 40]
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x6cb60f44; WORD $0x1524 // movzx    r13d, byte [rsp + 21]
-	LONG $0x03e5c041               // shl    r13b, 3
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xe3c0; BYTE $0x02       // shl    bl, 2
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e1c041               // shl    r9b, 3
-	WORD $0x0841; BYTE $0xd9       // or    r9b, bl
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x04e4c041               // shl    r12b, 4
-	WORD $0x0845; BYTE $0xcc       // or    r12b, r9b
-	LONG $0x245cb60f; BYTE $0x05   // movzx    ebx, byte [rsp + 5]
-	WORD $0xe3c0; BYTE $0x05       // shl    bl, 5
-	WORD $0x0844; BYTE $0xe3       // or    bl, r12b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	LONG $0x07e2c041               // shl    r10b, 7
-	WORD $0x0845; BYTE $0xc2       // or    r10b, r8b
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0x0841; BYTE $0xda       // or    r10b, bl
-	WORD $0x0045; BYTE $0xf6       // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0a   // add    r14b, byte [rsp + 10]
-	LONG $0x244cb60f; BYTE $0x06   // movzx    ecx, byte [rsp + 6]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0x0844; BYTE $0xf1       // or    cl, r14b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0841; BYTE $0xcb       // or    r11b, cl
-	LONG $0x244cb60f; BYTE $0x08   // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0x0844; BYTE $0xd9       // or    cl, r11b
-	WORD $0xcb89                   // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0xd908                   // or    cl, bl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x44b60f44; WORD $0x0d24 // movzx    r8d, byte [rsp + 13]
-	LONG $0x06e0c041               // shl    r8b, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0844; BYTE $0xc7       // or    dil, r8b
-	LONG $0x01568845               // mov    byte [r14 + 1], r10b
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	LONG $0x244cb60f; BYTE $0x0e   // movzx    ecx, byte [rsp + 14]
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x13244c02               // add    cl, byte [rsp + 19]
-	LONG $0x245cb60f; BYTE $0x0c   // movzx    ebx, byte [rsp + 12]
-	WORD $0xe3c0; BYTE $0x02       // shl    bl, 2
-	WORD $0xcb08                   // or    bl, cl
-	LONG $0x244cb60f; BYTE $0x0f   // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xd908                   // or    cl, bl
-	WORD $0xcb89                   // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xd908                   // or    cl, bl
-	WORD $0xcb89                   // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0xd908                   // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10   // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06       // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07       // shl    al, 7
-	WORD $0xd808                   // or    al, bl
-	WORD $0xc808                   // or    al, cl
-	LONG $0x027e8841               // mov    byte [r14 + 2], dil
-	LONG $0x03468841               // mov    byte [r14 + 3], al
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB6_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB6_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_78:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4a3cb70f             // movzx    edi, word [rdx + 2*rcx]
-	LONG $0x4e3c3b66             // cmp    di, word [rsi + 2*rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_78
-	JMP  LBB6_123
-
-LBB6_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB6_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x24549f0f; BYTE $0x28   // setg    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x24549f0f; BYTE $0x20   // setg    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x24549f0f; BYTE $0x14   // setg    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x24549f0f; BYTE $0x15   // setg    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x16   // setg    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x24549f0f; BYTE $0x17   // setg    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x24549f0f; BYTE $0x04   // setg    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd59f0f41               // setg    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x09   // setg    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd09f0f41               // setg    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd39f0f41               // setg    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd79f0f41               // setg    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x05   // setg    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x24549f0f; BYTE $0x06   // setg    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x24549f0f; BYTE $0x07   // setg    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x9f0f; BYTE $0xd3       // setg    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x24549f0f; BYTE $0x0a   // setg    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd29f0f41               // setg    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd69f0f41               // setg    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd49f0f41               // setg    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x08   // setg    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x24549f0f; BYTE $0x0b   // setg    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x24549f0f; BYTE $0x0c   // setg    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd19f0f41               // setg    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x24549f0f; BYTE $0x13   // setg    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x24549f0f; BYTE $0x0d   // setg    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x24549f0f; BYTE $0x0e   // setg    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x24549f0f; BYTE $0x0f   // setg    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x24549f0f; BYTE $0x10   // setg    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x24549f0f; BYTE $0x12   // setg    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x24549f0f; BYTE $0x11   // setg    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd79f0f40               // setg    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB6_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB6_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_89
-	JMP  LBB6_123
-
-LBB6_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB6_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x14               // setg    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x15               // setg    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x16               // setg    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x17               // setg    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd59f0f41                           // setg    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x24549f0f; BYTE $0x09               // setg    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x24549f0f; BYTE $0x05               // setg    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x24549f0f; BYTE $0x06               // setg    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x24549f0f; BYTE $0x07               // setg    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x24549f0f; BYTE $0x0a               // setg    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x24549f0f; BYTE $0x0b               // setg    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x24549f0f; BYTE $0x0c               // setg    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x24549f0f; BYTE $0x13               // setg    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x24549f0f; BYTE $0x0d               // setg    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x24549f0f; BYTE $0x0e               // setg    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x24549f0f; BYTE $0x0f               // setg    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x24549f0f; BYTE $0x12               // setg    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x24549f0f; BYTE $0x11               // setg    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB6_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB6_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_111
-	JMP  LBB6_123
-
-LBB6_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_114:
-	LONG $0x0610fac5             // vmovss    xmm0, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0xd2970f41             // seta    r10b
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_114
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB6_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fac5                           // vmovss    xmm0, dword [rsi]
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x4610fac5; BYTE $0x04               // vmovss    xmm0, dword [rsi + 4]
-	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x4610fac5; BYTE $0x08               // vmovss    xmm0, dword [rsi + 8]
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	LONG $0x4610fac5; BYTE $0x0c               // vmovss    xmm0, dword [rsi + 12]
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	LONG $0x4610fac5; BYTE $0x10               // vmovss    xmm0, dword [rsi + 16]
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	LONG $0x4610fac5; BYTE $0x14               // vmovss    xmm0, dword [rsi + 20]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	LONG $0x4610fac5; BYTE $0x18               // vmovss    xmm0, dword [rsi + 24]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x4610fac5; BYTE $0x1c               // vmovss    xmm0, dword [rsi + 28]
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x4610fac5; BYTE $0x20               // vmovss    xmm0, dword [rsi + 32]
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x4610fac5; BYTE $0x24               // vmovss    xmm0, dword [rsi + 36]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x4610fac5; BYTE $0x28               // vmovss    xmm0, dword [rsi + 40]
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x4610fac5; BYTE $0x2c               // vmovss    xmm0, dword [rsi + 44]
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x4610fac5; BYTE $0x30               // vmovss    xmm0, dword [rsi + 48]
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x4610fac5; BYTE $0x34               // vmovss    xmm0, dword [rsi + 52]
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	LONG $0x4610fac5; BYTE $0x38               // vmovss    xmm0, dword [rsi + 56]
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	LONG $0x4610fac5; BYTE $0x3c               // vmovss    xmm0, dword [rsi + 60]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x4610fac5; BYTE $0x40               // vmovss    xmm0, dword [rsi + 64]
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	LONG $0x4610fac5; BYTE $0x44               // vmovss    xmm0, dword [rsi + 68]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x4610fac5; BYTE $0x48               // vmovss    xmm0, dword [rsi + 72]
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x4610fac5; BYTE $0x4c               // vmovss    xmm0, dword [rsi + 76]
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	LONG $0x4610fac5; BYTE $0x50               // vmovss    xmm0, dword [rsi + 80]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	LONG $0x4610fac5; BYTE $0x54               // vmovss    xmm0, dword [rsi + 84]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	LONG $0x4610fac5; BYTE $0x58               // vmovss    xmm0, dword [rsi + 88]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	LONG $0x4610fac5; BYTE $0x5c               // vmovss    xmm0, dword [rsi + 92]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x4610fac5; BYTE $0x60               // vmovss    xmm0, dword [rsi + 96]
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	LONG $0x4610fac5; BYTE $0x64               // vmovss    xmm0, dword [rsi + 100]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	LONG $0x4610fac5; BYTE $0x68               // vmovss    xmm0, dword [rsi + 104]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	LONG $0x4610fac5; BYTE $0x6c               // vmovss    xmm0, dword [rsi + 108]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x4610fac5; BYTE $0x70               // vmovss    xmm0, dword [rsi + 112]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	LONG $0x4610fac5; BYTE $0x74               // vmovss    xmm0, dword [rsi + 116]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	LONG $0x4610fac5; BYTE $0x78               // vmovss    xmm0, dword [rsi + 120]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x4610fac5; BYTE $0x7c               // vmovss    xmm0, dword [rsi + 124]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x04244c02                           // add    cl, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x08               // add    dil, byte [rsp + 8]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e2c041                           // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0xcf89                               // mov    edi, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x07               // movzx    edi, byte [rsp + 7]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0e               // add    r12b, byte [rsp + 14]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x13               // movzx    eax, byte [rsp + 19]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB6_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB6_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_122:
-	LONG $0x0410fac5; BYTE $0x8e // vmovss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x042ef8c5; BYTE $0x8a // vucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_122
-	JMP  LBB6_123
-
-LBB6_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_59:
-	WORD $0xb60f; BYTE $0x0a     // movzx    ecx, byte [rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x0e3a                 // cmp    cl, byte [rsi]
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_59
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454970f; BYTE $0x04   // seta    byte [rsp + 4]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	LONG $0xd5970f41               // seta    r13b
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	LONG $0x2454970f; BYTE $0x14   // seta    byte [rsp + 20]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454970f; BYTE $0x16   // seta    byte [rsp + 22]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	LONG $0x2454970f; BYTE $0x15   // seta    byte [rsp + 21]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454970f; BYTE $0x17   // seta    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	LONG $0x2454970f; BYTE $0x28   // seta    byte [rsp + 40]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7970f41               // seta    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	LONG $0x2454970f; BYTE $0x07   // seta    byte [rsp + 7]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	WORD $0x970f; BYTE $0xd1       // seta    cl
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	LONG $0xd1970f41               // seta    r9b
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3970f41               // seta    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	LONG $0xd2970f41               // seta    r10b
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454970f; BYTE $0x06   // seta    byte [rsp + 6]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	LONG $0x2454970f; BYTE $0x05   // seta    byte [rsp + 5]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x970f; BYTE $0xd3       // seta    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	LONG $0x2454970f; BYTE $0x0c   // seta    byte [rsp + 12]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4970f41               // seta    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	LONG $0xd6970f41               // seta    r14b
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454970f; BYTE $0x09   // seta    byte [rsp + 9]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	LONG $0x2454970f; BYTE $0x08   // seta    byte [rsp + 8]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454970f; BYTE $0x0b   // seta    byte [rsp + 11]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	LONG $0x2454970f; BYTE $0x0a   // seta    byte [rsp + 10]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd0970f41               // seta    r8b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	LONG $0x2454970f; BYTE $0x12   // seta    byte [rsp + 18]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454970f; BYTE $0x0e   // seta    byte [rsp + 14]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	LONG $0x2454970f; BYTE $0x0d   // seta    byte [rsp + 13]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454970f; BYTE $0x10   // seta    byte [rsp + 16]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	LONG $0x2454970f; BYTE $0x0f   // seta    byte [rsp + 15]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454970f; BYTE $0x11   // seta    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454970f; BYTE $0x13   // seta    byte [rsp + 19]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd7970f40               // seta    dil
-	WORD $0x0045; BYTE $0xed       // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x04   // add    r13b, byte [rsp + 4]
-	WORD $0x8944; BYTE $0xe8       // mov    eax, r13d
-	LONG $0x6cb60f44; WORD $0x2824 // movzx    r13d, byte [rsp + 40]
-	LONG $0x06e5c041               // shl    r13b, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef       // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x1424 // movzx    r13d, byte [rsp + 20]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	WORD $0x8944; BYTE $0xe8       // mov    eax, r13d
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x07244c02               // add    cl, byte [rsp + 7]
-	LONG $0x6cb60f44; WORD $0x1624 // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041               // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x02e1c041               // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd       // mov    r13d, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb       // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	LONG $0x04e2c041               // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda       // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xd0       // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0524 // movzx    r9d, byte [rsp + 5]
-	LONG $0x06e1c041               // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb       // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0c   // add    r12b, byte [rsp + 12]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xe6       // or    r14b, r12b
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x244cb60f; BYTE $0x08   // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0a   // movzx    ecx, byte [rsp + 10]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xc000                   // add    al, al
-	LONG $0x12244402               // add    al, byte [rsp + 18]
-	LONG $0x244cb60f; BYTE $0x0d   // movzx    ecx, byte [rsp + 13]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x0f   // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0xc108                   // or    cl, al
-	LONG $0x2444b60f; BYTE $0x13   // movzx    eax, byte [rsp + 19]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	LONG $0x02468845               // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB6_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB6_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_67:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0a1cb60f             // movzx    ebx, byte [rdx + rcx]
-	WORD $0x1c3a; BYTE $0x0e     // cmp    bl, byte [rsi + rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_67
-	JMP  LBB6_123
-
-LBB6_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB6_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x14               // setg    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x24549f0f; BYTE $0x15               // setg    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x16               // setg    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x24549f0f; BYTE $0x17               // setg    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd59f0f41                           // setg    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x09               // setg    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd39f0f41                           // setg    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd79f0f41                           // setg    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x24549f0f; BYTE $0x05               // setg    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x24549f0f; BYTE $0x06               // setg    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x24549f0f; BYTE $0x07               // setg    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x24549f0f; BYTE $0x0a               // setg    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd29f0f41                           // setg    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd69f0f41                           // setg    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd49f0f41                           // setg    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x24549f0f; BYTE $0x0b               // setg    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x24549f0f; BYTE $0x0c               // setg    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd19f0f41                           // setg    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x24549f0f; BYTE $0x13               // setg    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x24549f0f; BYTE $0x0d               // setg    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x24549f0f; BYTE $0x0e               // setg    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x24549f0f; BYTE $0x0f               // setg    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x24549f0f; BYTE $0x12               // setg    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x24549f0f; BYTE $0x11               // setg    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB6_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB6_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_100
-
-LBB6_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA5<>+0x000(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x008(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x010(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x018(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA5<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA5<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA5<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA5<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA5<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA5<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA5<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA5<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA5<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA5<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA5<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA5<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA5<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA5<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA5<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA5<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA5<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA5<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA5<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA5<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA5<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA5<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA5<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA5<>(SB), 8, $224
-
-TEXT ·_comparison_greater_arr_scalar_avx2(SB), $1384-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1344(SP)
-	LEAQ LCDATA5<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB7_19
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB7_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB7_79
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB7_95
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB7_192
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_17
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_15:
-	WORD $0x3b44; BYTE $0x2e                   // cmp    r13d, dword [rsi]
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0xd219                               // sbb    edx, edx
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_15
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB7_17:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB7_18
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-
-LBB7_113:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40245402                           // add    dl, byte [rsp + 64]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB7_113
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_116
-	JMP  LBB7_192
-
-LBB7_19:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB7_20
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB7_148
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB7_164
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB7_192
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_35
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_33:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0xd219                 // sbb    edx, edx
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_33
-	LONG $0x01c38349             // add    r11, 1
-
-LBB7_35:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB7_36
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	QUAD $0x0000008824bc894c     // mov    qword [rsp + 136], r15
-	LONG $0x247c894c; BYTE $0x78 // mov    qword [rsp + 120], r15
-	QUAD $0x000000f0249c894c     // mov    qword [rsp + 240], r11
-
-LBB7_181:
-	LONG $0x062ef9c5                           // vucomisd    xmm0, qword [rsi]
-	QUAD $0x000000802494920f                   // setb    byte [rsp + 128]
-	LONG $0x462ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1920f41                           // setb    r9b
-	LONG $0x462ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6920f41                           // setb    r14b
-	LONG $0x462ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5920f41                           // setb    r13b
-	LONG $0x462ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rsi + 32]
-	LONG $0x2454920f; BYTE $0x58               // setb    byte [rsp + 88]
-	LONG $0x462ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454920f; BYTE $0x30               // setb    byte [rsp + 48]
-	LONG $0x462ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rsi + 48]
-	WORD $0x920f; BYTE $0xd0                   // setb    al
-	LONG $0x462ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rsi + 56]
-	WORD $0x920f; BYTE $0xd3                   // setb    bl
-	LONG $0x462ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rsi + 64]
-	LONG $0x2454920f; BYTE $0x70               // setb    byte [rsp + 112]
-	LONG $0x462ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rsi + 72]
-	WORD $0x920f; BYTE $0xd2                   // setb    dl
-	LONG $0x462ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7920f40                           // setb    dil
-	LONG $0x462ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2920f41                           // setb    r10b
-	LONG $0x462ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3920f41                           // setb    r11b
-	LONG $0x462ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4920f41                           // setb    r12b
-	LONG $0x462ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rsi + 112]
-	LONG $0x2454920f; BYTE $0x48               // setb    byte [rsp + 72]
-	LONG $0x462ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rsi + 120]
-	WORD $0x920f; BYTE $0xd1                   // setb    cl
-	QUAD $0x00000080862ef9c5                   // vucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454920f; BYTE $0x40               // setb    byte [rsp + 64]
-	QUAD $0x00000088862ef9c5                   // vucomisd    xmm0, qword [rsi + 136]
-	LONG $0x2454920f; BYTE $0x68               // setb    byte [rsp + 104]
-	QUAD $0x00000090862ef9c5                   // vucomisd    xmm0, qword [rsi + 144]
-	LONG $0x2454920f; BYTE $0x50               // setb    byte [rsp + 80]
-	QUAD $0x00000098862ef9c5                   // vucomisd    xmm0, qword [rsi + 152]
-	LONG $0x2454920f; BYTE $0x60               // setb    byte [rsp + 96]
-	QUAD $0x000000a0862ef9c5                   // vucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454920f; BYTE $0x28               // setb    byte [rsp + 40]
-	QUAD $0x000000a8862ef9c5                   // vucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454920f; BYTE $0x38               // setb    byte [rsp + 56]
-	QUAD $0x000000b0862ef9c5                   // vucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454920f; BYTE $0x18               // setb    byte [rsp + 24]
-	QUAD $0x000000b8862ef9c5                   // vucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7920f41                           // setb    r15b
-	QUAD $0x000000c0862ef9c5                   // vucomisd    xmm0, qword [rsi + 192]
-	QUAD $0x000001402494920f                   // setb    byte [rsp + 320]
-	QUAD $0x000000c8862ef9c5                   // vucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454920f; BYTE $0x20               // setb    byte [rsp + 32]
-	QUAD $0x000000d0862ef9c5                   // vucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454920f; BYTE $0x10               // setb    byte [rsp + 16]
-	QUAD $0x000000d8862ef9c5                   // vucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454920f; BYTE $0x08               // setb    byte [rsp + 8]
-	QUAD $0x000000e0862ef9c5                   // vucomisd    xmm0, qword [rsi + 224]
-	QUAD $0x000001202494920f                   // setb    byte [rsp + 288]
-	QUAD $0x000000e8862ef9c5                   // vucomisd    xmm0, qword [rsi + 232]
-	QUAD $0x000001002494920f                   // setb    byte [rsp + 256]
-	QUAD $0x000000f0862ef9c5                   // vucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454920f; BYTE $0x04               // setb    byte [rsp + 4]
-	QUAD $0x000000f8862ef9c5                   // vucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0920f41                           // setb    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000080248c0244                   // add    r9b, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x48               // movzx    edi, byte [rsp + 72]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40244402                           // add    al, byte [rsp + 64]
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	LONG $0x24448348; WORD $0xff78             // add    qword [rsp + 120], -1
-	JNE  LBB7_181
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_184
-	JMP  LBB7_192
-
-LBB7_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB7_37
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB7_192
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f6a8d4d         // lea    r13, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	WORD $0x894d; BYTE $0xd7 // mov    r15, r10
-	LONG $0xea490f4d         // cmovns    r13, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_6:
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_6
-	LONG $0x01c38349             // add    r11, 1
-
-LBB7_8:
-	LONG $0x05fdc149             // sar    r13, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB7_9
-	LONG $0x20fd8349             // cmp    r13, 32
-	LONG $0x24748944; BYTE $0x04 // mov    dword [rsp + 4], r14d
-	QUAD $0x000000f824bc894c     // mov    qword [rsp + 248], r15
-	QUAD $0x0000016824ac894c     // mov    qword [rsp + 360], r13
-	JB   LBB7_62
-	WORD $0x894c; BYTE $0xe8     // mov    rax, r13
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB7_65
-	LONG $0xab048d4b             // lea    rax, [r11 + 4*r13]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB7_65
-
-LBB7_62:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
-
-LBB7_68:
-	QUAD $0x0000018024ac2b4c     // sub    r13, qword [rsp + 384]
-	LONG $0x246c894c; BYTE $0x78 // mov    qword [rsp + 120], r13
-
-LBB7_69:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd59f0f41                           // setg    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000000f024949f0f                   // setg    byte [rsp + 240]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x0000014024840244                   // add    r8b, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x20249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 288]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xc000                               // add    al, al
-	LONG $0x00248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 256]
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000016024b48b48                   // mov    rsi, qword [rsp + 352]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x18               // movzx    edi, byte [rsp + 24]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0xf0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 240]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000016024b48948                   // mov    qword [rsp + 352], rsi
-	LONG $0x24448348; WORD $0xff78             // add    qword [rsp + 120], -1
-	JNE  LBB7_69
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x0000016824ac8b4c                   // mov    r13, qword [rsp + 360]
-	JMP  LBB7_71
-
-LBB7_20:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB7_122
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB7_192
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_26
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_24:
-	WORD $0x3b4c; BYTE $0x2e                   // cmp    r13, qword [rsi]
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0xd219                               // sbb    edx, edx
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_24
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB7_26:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB7_27
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-
-LBB7_139:
-	QUAD $0x000000f0249c894c                   // mov    qword [rsp + 240], r11
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40245402                           // add    dl, byte [rsp + 64]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x04               // movzx    edx, byte [rsp + 4]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB7_139
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_142
-	JMP  LBB7_192
-
-LBB7_79:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_81:
-	LONG $0x2e3b4466                           // cmp    r13w, word [rsi]
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0xd219                               // sbb    edx, edx
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_81
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB7_83:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB7_84
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-
-LBB7_86:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x48245402                           // add    dl, byte [rsp + 72]
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x68               // movzx    edi, byte [rsp + 104]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40245402                           // add    dl, byte [rsp + 64]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB7_86
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_89
-	JMP  LBB7_192
-
-LBB7_95:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_99
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_97:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_97
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB7_99:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB7_100
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-
-LBB7_102:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40245402                           // add    dl, byte [rsp + 64]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB7_102
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_105
-	JMP  LBB7_192
-
-LBB7_148:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_152
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_150:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_150
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB7_152:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB7_153
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-
-LBB7_155:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40245402                           // add    dl, byte [rsp + 64]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB7_155
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_158
-	JMP  LBB7_192
-
-LBB7_164:
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_168
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_166:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0xd219                 // sbb    edx, edx
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_166
-	LONG $0x01c38349             // add    r11, 1
-
-LBB7_168:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB7_169
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	QUAD $0x0000008824bc894c     // mov    qword [rsp + 136], r15
-	LONG $0x247c894c; BYTE $0x78 // mov    qword [rsp + 120], r15
-	QUAD $0x000000f0249c894c     // mov    qword [rsp + 240], r11
-
-LBB7_171:
-	LONG $0x062ef8c5                           // vucomiss    xmm0, dword [rsi]
-	QUAD $0x000000802494920f                   // setb    byte [rsp + 128]
-	LONG $0x462ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0xd1920f41                           // setb    r9b
-	LONG $0x462ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rsi + 8]
-	LONG $0xd6920f41                           // setb    r14b
-	LONG $0x462ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rsi + 12]
-	LONG $0xd5920f41                           // setb    r13b
-	LONG $0x462ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rsi + 16]
-	LONG $0x2454920f; BYTE $0x58               // setb    byte [rsp + 88]
-	LONG $0x462ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rsi + 20]
-	LONG $0x2454920f; BYTE $0x30               // setb    byte [rsp + 48]
-	LONG $0x462ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rsi + 24]
-	WORD $0x920f; BYTE $0xd0                   // setb    al
-	LONG $0x462ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rsi + 28]
-	WORD $0x920f; BYTE $0xd3                   // setb    bl
-	LONG $0x462ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rsi + 32]
-	LONG $0x2454920f; BYTE $0x70               // setb    byte [rsp + 112]
-	LONG $0x462ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rsi + 36]
-	WORD $0x920f; BYTE $0xd2                   // setb    dl
-	LONG $0x462ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rsi + 40]
-	LONG $0xd7920f40                           // setb    dil
-	LONG $0x462ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rsi + 44]
-	LONG $0xd2920f41                           // setb    r10b
-	LONG $0x462ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rsi + 48]
-	LONG $0xd3920f41                           // setb    r11b
-	LONG $0x462ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rsi + 52]
-	LONG $0xd4920f41                           // setb    r12b
-	LONG $0x462ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rsi + 56]
-	LONG $0x2454920f; BYTE $0x48               // setb    byte [rsp + 72]
-	LONG $0x462ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rsi + 60]
-	WORD $0x920f; BYTE $0xd1                   // setb    cl
-	LONG $0x462ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rsi + 64]
-	LONG $0x2454920f; BYTE $0x40               // setb    byte [rsp + 64]
-	LONG $0x462ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rsi + 68]
-	LONG $0x2454920f; BYTE $0x68               // setb    byte [rsp + 104]
-	LONG $0x462ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rsi + 72]
-	LONG $0x2454920f; BYTE $0x50               // setb    byte [rsp + 80]
-	LONG $0x462ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rsi + 76]
-	LONG $0x2454920f; BYTE $0x60               // setb    byte [rsp + 96]
-	LONG $0x462ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rsi + 80]
-	LONG $0x2454920f; BYTE $0x28               // setb    byte [rsp + 40]
-	LONG $0x462ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rsi + 84]
-	LONG $0x2454920f; BYTE $0x38               // setb    byte [rsp + 56]
-	LONG $0x462ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rsi + 88]
-	LONG $0x2454920f; BYTE $0x18               // setb    byte [rsp + 24]
-	LONG $0x462ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rsi + 92]
-	LONG $0xd7920f41                           // setb    r15b
-	LONG $0x462ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rsi + 96]
-	QUAD $0x000001402494920f                   // setb    byte [rsp + 320]
-	LONG $0x462ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rsi + 100]
-	LONG $0x2454920f; BYTE $0x20               // setb    byte [rsp + 32]
-	LONG $0x462ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rsi + 104]
-	LONG $0x2454920f; BYTE $0x10               // setb    byte [rsp + 16]
-	LONG $0x462ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rsi + 108]
-	LONG $0x2454920f; BYTE $0x08               // setb    byte [rsp + 8]
-	LONG $0x462ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rsi + 112]
-	QUAD $0x000001202494920f                   // setb    byte [rsp + 288]
-	LONG $0x462ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rsi + 116]
-	QUAD $0x000001002494920f                   // setb    byte [rsp + 256]
-	LONG $0x462ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rsi + 120]
-	LONG $0x2454920f; BYTE $0x04               // setb    byte [rsp + 4]
-	LONG $0x462ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rsi + 124]
-	LONG $0xd0920f41                           // setb    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000080248c0244                   // add    r9b, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x48               // movzx    edi, byte [rsp + 72]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40244402                           // add    al, byte [rsp + 64]
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	LONG $0x24448348; WORD $0xff78             // add    qword [rsp + 120], -1
-	JNE  LBB7_171
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_174
-	JMP  LBB7_192
-
-LBB7_37:
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_41
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_39:
-	WORD $0x3a44; BYTE $0x36     // cmp    r14b, byte [rsi]
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0xd219                 // sbb    edx, edx
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_39
-	LONG $0x01c38349             // add    r11, 1
-
-LBB7_41:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB7_42
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x04 // mov    dword [rsp + 4], r14d
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	QUAD $0x0000017824bc894c     // mov    qword [rsp + 376], r15
-	JB   LBB7_44
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB7_47
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB7_47
-
-LBB7_44:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000016824848948 // mov    qword [rsp + 360], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
-
-LBB7_50:
-	QUAD $0x0000016824bc2b4c     // sub    r15, qword [rsp + 360]
-	LONG $0x247c894c; BYTE $0x78 // mov    qword [rsp + 120], r15
-
-LBB7_51:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000000f02494970f                   // seta    byte [rsp + 240]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x0000014024840244                   // add    r8b, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x20249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 288]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xc000                               // add    al, al
-	LONG $0x00248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 256]
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000016024b48b48                   // mov    rsi, qword [rsp + 352]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x18               // movzx    edi, byte [rsp + 24]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0xf0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 240]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x10               // movzx    edx, byte [rsp + 16]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000016024b48948                   // mov    qword [rsp + 352], rsi
-	LONG $0x24448348; WORD $0xff78             // add    qword [rsp + 120], -1
-	JNE  LBB7_51
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000017824bc8b4c                   // mov    r15, qword [rsp + 376]
-	JMP  LBB7_53
-
-LBB7_122:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_126
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_124:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_124
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB7_126:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB7_127
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-
-LBB7_129:
-	QUAD $0x000000f0249c894c                   // mov    qword [rsp + 240], r11
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40245402                           // add    dl, byte [rsp + 64]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x04               // movzx    edx, byte [rsp + 4]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB7_129
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB7_132
-	JMP  LBB7_192
-
-LBB7_18:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_116:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_120
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_118
-
-LBB7_36:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_184:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_186
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_188
-
-LBB7_9:
-	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB7_71:
-	LONG $0x05e5c149         // shl    r13, 5
-	WORD $0x394d; BYTE $0xfd // cmp    r13, r15
-	JGE  LBB7_192
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xe8 // sub    r8, r13
-	WORD $0xf749; BYTE $0xd5 // not    r13
-	WORD $0x014d; BYTE $0xfd // add    r13, r15
-	JNE  LBB7_74
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB7_77
-
-LBB7_27:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_142:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_146
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_144
-
-LBB7_84:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_89:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_93
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_91
-
-LBB7_100:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_105:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_110
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_107
-
-LBB7_153:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_158:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_162
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_160
-
-LBB7_169:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_174:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_178
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_176
-
-LBB7_42:
-	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB7_53:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_56
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB7_59
-
-LBB7_127:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB7_192
-
-LBB7_132:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB7_136
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_134
-
-LBB7_120:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_121:
-	WORD $0x3b44; BYTE $0x2e     // cmp    r13d, dword [rsi]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x17048841             // mov    byte [r15 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3b44             // cmp    r13d, dword [rsi + 4]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB7_121
-
-LBB7_118:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_192
-	WORD $0x3b44; BYTE $0x2e // cmp    r13d, dword [rsi]
-	JMP  LBB7_190
-
-LBB7_186:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_187:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_187
-
-LBB7_188:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB7_192
-	LONG $0x062ef9c5 // vucomisd    xmm0, qword [rsi]
-	JMP  LBB7_190
-
-LBB7_74:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000160249c8b4c // mov    r11, qword [rsp + 352]
-
-LBB7_75:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB7_75
-	WORD $0x0149; BYTE $0xf4     // add    r12, rsi
-
-LBB7_77:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_192
-	LONG $0x24343845         // cmp    byte [r12], r14b
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000016024848b4c // mov    r8, qword [rsp + 352]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB7_192
-
-LBB7_146:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_147:
-	WORD $0x3b4c; BYTE $0x2e     // cmp    r13, qword [rsi]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x17048841             // mov    byte [r15 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e3b4c             // cmp    r13, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB7_147
-
-LBB7_144:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_192
-	WORD $0x3b4c; BYTE $0x2e // cmp    r13, qword [rsi]
-	JMP  LBB7_190
-
-LBB7_93:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_94:
-	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x17048841             // mov    byte [r15 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB7_94
-
-LBB7_91:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB7_192
-	LONG $0x2e3b4466 // cmp    r13w, word [rsi]
-	JMP  LBB7_190
-
-LBB7_110:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_111:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_111
-
-LBB7_107:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB7_192
-	LONG $0x2e394466 // cmp    word [rsi], r13w
-	JMP  LBB7_109
-
-LBB7_162:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_163:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_163
-
-LBB7_160:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_192
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-	JMP  LBB7_109
-
-LBB7_178:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_179:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_179
-
-LBB7_176:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB7_192
-	LONG $0x062ef8c5 // vucomiss    xmm0, dword [rsi]
-
-LBB7_190:
-	WORD $0xc019             // sbb    eax, eax
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB7_191
-
-LBB7_56:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000016024948b4c // mov    r10, qword [rsp + 352]
-
-LBB7_57:
-	LONG $0x04343a45             // cmp    r14b, byte [r12 + rax]
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x1cb60f41; BYTE $0x3a // movzx    ebx, byte [r10 + rdi]
-	WORD $0x3040; BYTE $0xde     // xor    sil, bl
-	WORD $0x2040; BYTE $0xf2     // and    dl, sil
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3a148841             // mov    byte [r10 + rdi], dl
-	LONG $0x04743a45; BYTE $0x01 // cmp    r14b, byte [r12 + rax + 1]
-	LONG $0x02408d48             // lea    rax, [rax + 2]
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x3040; BYTE $0xd6     // xor    sil, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x3a1c8841             // mov    byte [r10 + rdi], bl
-	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
-	JNE  LBB7_57
-	WORD $0x0149; BYTE $0xc4     // add    r12, rax
-
-LBB7_59:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_192
-	LONG $0x24343a45         // cmp    r14b, byte [r12]
-	WORD $0xd219             // sbb    edx, edx
-	WORD $0x8948; BYTE $0xc6 // mov    rsi, rax
-	LONG $0x03eec148         // shr    rsi, 3
-	QUAD $0x0000016024848b4c // mov    r8, qword [rsp + 352]
-	LONG $0x303c8a41         // mov    dil, byte [r8 + rsi]
-	WORD $0x0724             // and    al, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xfa // xor    dl, dil
-	WORD $0xd320             // and    bl, dl
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	JMP  LBB7_192
-
-LBB7_136:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB7_137:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_137
-
-LBB7_134:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_192
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-
-LBB7_109:
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB7_191:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-
-LBB7_192:
-	MOVQ 1344(SP), SP
-	VZEROUPPER
-	RET
-
-LBB7_65:
-	LONG $0xe0e58349                     // and    r13, -32
-	WORD $0x894c; BYTE $0xe8             // mov    rax, r13
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000024024848948             // mov    qword [rsp + 576], rax
-	QUAD $0x0000018024ac894c             // mov    qword [rsp + 384], r13
-	LONG $0xab048d4b                     // lea    rax, [r11 + 4*r13]
-	QUAD $0x0000016024848948             // mov    qword [rsp + 352], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00026024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 608], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x000000f0249c894c             // mov    qword [rsp + 240], r11
-
-LBB7_66:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000017024848948                   // mov    qword [rsp + 368], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	LONG $0x24448948; BYTE $0x18               // mov    qword [rsp + 24], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x1644b60f; BYTE $0x01               // movzx    eax, byte [rsi + rdx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000220248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 544], xmm1
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x000000d024948948                   // mov    qword [rsp + 208], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	QUAD $0x0000010024848948                   // mov    qword [rsp + 256], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x80cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 640
-	QUAD $0x0000009024bc894c                   // mov    qword [rsp + 144], r15
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0xa0cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 672
-	QUAD $0x000000b8249c894c                   // mov    qword [rsp + 184], r11
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	LONG $0xc0c88149; WORD $0x0002; BYTE $0x00 // or    r8, 704
-	QUAD $0x000000882484894c                   // mov    qword [rsp + 136], r8
-	WORD $0x8948; BYTE $0xda                   // mov    rdx, rbx
-	LONG $0xe0ca8148; WORD $0x0002; BYTE $0x00 // or    rdx, 736
-	QUAD $0x000000b024948948                   // mov    qword [rsp + 176], rdx
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x00cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 768
-	QUAD $0x000000a024a4894c                   // mov    qword [rsp + 160], r12
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x20ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 800
-	QUAD $0x000000a824b4894c                   // mov    qword [rsp + 168], r14
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
-	LONG $0x2454894c; BYTE $0x28               // mov    qword [rsp + 40], r10
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	LONG $0x60c98149; WORD $0x0003; BYTE $0x00 // or    r9, 864
-	LONG $0x244c894c; BYTE $0x40               // mov    qword [rsp + 64], r9
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
-	LONG $0xa0cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 928
-	LONG $0x247c8948; BYTE $0x70               // mov    qword [rsp + 112], rdi
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x000000e0249c8948                   // mov    qword [rsp + 224], rbx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	LONG $0x2031e3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + rbx], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 4
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 5
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + r8], 6
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 7
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 8
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 9
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r10], 10
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r9], 11
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r13], 12
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 1
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r12], 2
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 3
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 4
-	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 5
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 6
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x040116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 4
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x070116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 7
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x080116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 8
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
-	QUAD $0x0c012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
-	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
-	QUAD $0x0e012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
-	QUAD $0x0101366c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r14 + 1], 1
-	QUAD $0x0201266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 2
-	QUAD $0x0301166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 3
-	QUAD $0x04011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 4
-	QUAD $0x0501066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 5
-	QUAD $0x06010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 6
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0a011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 10
-	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x00050024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1280], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x00022024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 544]
-	QUAD $0x010216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 1
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x02020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 2
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x060206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x080226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 2], 8
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0a020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0c0236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 12
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
-	QUAD $0x0602065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 2], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x0b02065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 2], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x010316642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + rdx + 3], 1
-	QUAD $0x02030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 2
-	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x04030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 4
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x05030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 5
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x06030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 6
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x070306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 7
-	QUAD $0x080326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 8
-	QUAD $0x09032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 9
-	QUAD $0x0a030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 10
-	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
-	QUAD $0x0c0336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 12
-	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0e0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 14
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x0303166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 3
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x04033e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 3], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0603066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 6
-	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x08031e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 3], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0903066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	QUAD $0x0f031e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x010406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 1
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x020406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x05040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x060406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 6
-	QUAD $0x070406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 7
-	QUAD $0x080426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x090406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 11
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0c0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 12
-	QUAD $0x0d0436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 4], 13
-	QUAD $0x0e0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 14
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x0f0426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0104065c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rsi + rax + 4], 1
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0204165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 2
-	QUAD $0x0304165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 3
-	QUAD $0x04043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 4
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x0504165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 5
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x06043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 6
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0704365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 7
-	QUAD $0x08041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 10
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0b041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 11
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0c04065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 13
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x0e043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 14
-	QUAD $0x0f040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 15
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x01050e642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r9 + 5], 1
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x02053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 2
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x03050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 3
-	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
-	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x06050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 6
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x07050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 7
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x080506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 11
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0c0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
-	QUAD $0x0f0526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0105066c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rax + 5], 1
-	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0405166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 4
-	QUAD $0x0505166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 5], 5
-	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	QUAD $0x0705366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 7
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x0805366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 8
-	QUAD $0x09051e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 5], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
-	QUAD $0x0b051e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 5], 11
-	QUAD $0x0c05066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 5], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0506442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 5], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x010606442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + rax + 6], 1
-	QUAD $0x02063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 2
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x03060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 3
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x04061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 4
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x050616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 5
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x06061e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 6], 6
-	QUAD $0x07062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 7
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x08060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 8
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x09062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 9
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 10
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0b060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 11
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0c0626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 6], 12
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x0d0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 13
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0e060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 14
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0f060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 15
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x01060e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rcx + 6], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x02060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 2
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
-	QUAD $0x0606166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 6], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x07060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 7
-	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
-	QUAD $0x0806366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0b06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 12
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0d06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 13
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	QUAD $0x0e06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 14
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0f06366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 15
-	QUAD $0x010706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 1
-	QUAD $0x02073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 2
-	QUAD $0x03070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 3
-	QUAD $0x04071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 4
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
-	QUAD $0x06071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 6
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x08071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 8
-	QUAD $0x09072e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 7], 9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0a0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 10
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x0b070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 11
-	QUAD $0x0c0726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 7], 12
-	QUAD $0x0d0706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 13
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0e0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0f0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 15
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0107164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 1
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0207164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 2
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0307164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 3
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0407164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 4
-	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0607164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 6
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x07073e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 7], 7
-	QUAD $0x0807164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 7], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0907164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 9
-	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0b072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00020024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e070e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rcx + 7], 14
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f070e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0004e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm0
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x010806442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + rax + 8], 1
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x020826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 8], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
-	QUAD $0x04081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 4
-	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
-	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x060806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 6
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x070816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 7
-	QUAD $0x08081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 8
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x090806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 8], 9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0a0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 10
-	QUAD $0x0b080e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 8], 11
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x0c081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 13
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0e0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 15
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0108166c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rdx + 8], 1
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0208366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 8], 2
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x03083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0608166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 6
-	QUAD $0x07083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 7
-	QUAD $0x0808166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 8], 8
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x09080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 10
-	QUAD $0x0b082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 12
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0f082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 15
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x01092e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r13 + 9], 1
-	QUAD $0x020926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 2
-	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x04090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 4
-	QUAD $0x05091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 5
-	QUAD $0x060906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 6
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x070916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 7
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x080906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 8
-	QUAD $0x090906742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r8 + 9], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 10
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0b090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 11
-	QUAD $0x0c091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0109067c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rax + 9], 1
-	QUAD $0x0209367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
-	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0609067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0709067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 7
-	QUAD $0x0809167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 8
-	QUAD $0x09090e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 9], 9
-	QUAD $0x0a093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0d093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x0004a024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm5
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x020a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x040a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 4
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x050a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x060a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 6
-	QUAD $0x070a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 7
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x080a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 8
-	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
-	QUAD $0x090a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 10
-	QUAD $0x0b0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 11
-	QUAD $0x0c0a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 13
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0e0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 15
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x010a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x020a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 2
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	QUAD $0x040a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 5
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x060a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x070a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 7
-	QUAD $0x080a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0a0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 11
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x0c0a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 12
-	QUAD $0x0d0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 13
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x0e0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 15
-	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
-	QUAD $0x020b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x030b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 3
-	QUAD $0x040b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 4
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x050b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 5
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x060b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 6
-	QUAD $0x070b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 7
-	WORD $0x8949; BYTE $0xd1                   // mov    r9, rdx
-	QUAD $0x080b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 8
-	QUAD $0x090b264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 11], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 11
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
-	QUAD $0x0d0b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x0f0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 15
-	QUAD $0x010b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
-	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x040b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x050b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x060b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x070b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 7
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x080b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x090b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 9
-	QUAD $0x0a0b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 11
-	QUAD $0x0c0b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000480249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm3
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 14
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000460248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x010c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 1
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x020c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x030c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 3
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x040c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 4
-	QUAD $0x050c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 5
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	QUAD $0x060c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 6
-	QUAD $0x070c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 7
-	QUAD $0x080c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 8
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x090c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 9
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 10
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0b0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 11
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x0c0c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 13
-	LONG $0x24748b4c; BYTE $0x08               // mov    r14, qword [rsp + 8]
-	QUAD $0x0e0c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 12], 14
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	QUAD $0x0f0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 15
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x010c2e542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + r13 + 12], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x030c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 3
-	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x070c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 7
-	QUAD $0x080c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0b0c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 13
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x010d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 1
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x020d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x030d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 3
-	QUAD $0x040d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 4
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x050d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 5
-	QUAD $0x060d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 6
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x070d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 7
-	QUAD $0x080d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 8
-	QUAD $0x090d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 9
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0a0d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 10
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0b0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 11
-	QUAD $0x0c0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 12
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x0d0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 13
-	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
-	QUAD $0x0f0d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 15
-	QUAD $0x010d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 1
-	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x030d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x040d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x050d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x060d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 6
-	QUAD $0x070d3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 13], 7
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x080d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 8
-	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 10
-	QUAD $0x0b0d264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 13], 11
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x0c0d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x00044024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm0
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x0e36             // movzx    edi, byte [rsi + r14 + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x010e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 1
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x020e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x030e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 3
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x040e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 14], 4
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x060e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x090e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 9
-	QUAD $0x0a0e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 10
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x0b0e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 11
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0c0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 12
-	QUAD $0x0d0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 15
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x010e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x040e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 5
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x060e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x070e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x090e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
-	QUAD $0x0c0e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 13
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
-	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
-	QUAD $0x020f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 2
-	QUAD $0x030f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 3
-	QUAD $0x040f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 4
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x050f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 5
-	QUAD $0x060f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 6
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x070f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 7
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x080f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 8
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x090f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 9
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 10
-	QUAD $0x0b0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 11
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x0c0f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 12
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0d0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 13
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x0e0f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 14
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
-	LONG $0x7cb60f42; WORD $0x0f36             // movzx    edi, byte [rsi + r14 + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x010f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
-	QUAD $0x040f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x050f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 5
-	QUAD $0x060f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 6
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x070f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 7
-	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0b0f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 14
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0f0f3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rax + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x011036442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 16], 1
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x021006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 2
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x03101e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 16], 3
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x041006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 4
-	QUAD $0x05101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 5
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x06100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 6
-	QUAD $0x071016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 7
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x081016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 9
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0a101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 11
-	QUAD $0x0c102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 13
-	QUAD $0x0e1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdi + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 2
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x03103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 4
-	QUAD $0x05100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x06100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 6
-	QUAD $0x0710164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 7
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x08100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 10
-	QUAD $0x0b10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 12
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0d10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 13
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	QUAD $0x0e102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 14
-	QUAD $0x0f103e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 16], 15
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rdi + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 1
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x021106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 2
-	QUAD $0x03111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 3
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x041116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 4
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x05113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 5
-	QUAD $0x06110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 6
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x07113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 7
-	QUAD $0x081116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 8
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x091116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 9
-	QUAD $0x0a111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 10
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0b111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 11
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x0c1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 13
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0e1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 14
-	QUAD $0x0f1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x0111365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 1
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x02113e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 17], 2
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x03110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 3
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0411165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0511065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0611065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 6
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x07111e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 17], 7
-	QUAD $0x08110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 12
-	QUAD $0x0d11265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 13
-	QUAD $0x0e112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1106442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x067cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rax + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
-	QUAD $0x021206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x031206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 3
-	QUAD $0x041216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 4
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x051206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 5
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x061206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x071206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 7
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x081206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 9
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x0a1216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 10
-	QUAD $0x0b121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 11
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0e123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 15
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rdi + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0112364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 1
-	QUAD $0x02123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 2
-	QUAD $0x03120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 3
-	QUAD $0x0412164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 4
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0512164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 5
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0612364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 6
-	QUAD $0x07121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 7
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0812164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 8
-	QUAD $0x09120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0b123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 13
-	QUAD $0x0e122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 14
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0f121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 15
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x02133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x04133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 4
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x05132e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 19], 5
-	QUAD $0x061306542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 19], 6
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
-	QUAD $0x091306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 9
-	QUAD $0x0a1316542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 19], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 11
-	QUAD $0x0c1326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 12
-	QUAD $0x0d131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 13
-	LONG $0x244c8b4c; BYTE $0x08               // mov    r9, qword [rsp + 8]
-	QUAD $0x0e130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 15
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x1316             // movzx    edi, byte [rsi + r10 + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0113065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 1
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0213065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0313065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0413065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0513065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 5
-	QUAD $0x0613365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0713065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0813065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0913065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 9
-	QUAD $0x0a130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 10
-	QUAD $0x0b133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 11
-	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 14
-	QUAD $0x0f131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x141e             // movzx    edi, byte [rsi + r11 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x011406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 1
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x03143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 3
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x04143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 4
-	QUAD $0x05142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 5
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x06143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 6
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x07142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 7
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x08143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 8
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x09143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 9
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0a1426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 10
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0b140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 11
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x0c143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 13
-	QUAD $0x0e140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 14
-	LONG $0x24748b4c; BYTE $0x10               // mov    r14, qword [rsp + 16]
-	QUAD $0x0f1436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 15
-	LONG $0x7cb60f42; WORD $0x1416             // movzx    edi, byte [rsi + r10 + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x01141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 1
-	QUAD $0x0214064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 2
-	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
-	QUAD $0x0314064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 5
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x06143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 6
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x0714164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 7
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0c140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0e143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
-	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 1
-	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x041506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 4
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x051506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x061506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 6
-	QUAD $0x07152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 7
-	QUAD $0x08153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 9
-	QUAD $0x0a1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 10
-	QUAD $0x0b150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 11
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0c1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
-	QUAD $0x0f1536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 15
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
-	QUAD $0x0315065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0515065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0615065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 6
-	QUAD $0x0715165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 7
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x08152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 10
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0b151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 11
-	QUAD $0x0c150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 12
-	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
-	QUAD $0x0d15065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 13
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0e153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0f1516442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r10 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x02163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 2
-	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x041616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 4
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x061616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 6
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x071616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 7
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x081616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 8
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x091616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 9
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0a1636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 10
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
-	QUAD $0x0c1626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 13
-	LONG $0x244c8b4c; BYTE $0x08               // mov    r9, qword [rsp + 8]
-	QUAD $0x0e160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
-	LONG $0x7cb60f42; WORD $0x161e             // movzx    edi, byte [rsi + r11 + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 2
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x0316264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 3
-	QUAD $0x04160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 5
-	QUAD $0x0616064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 6
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x07161e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 22], 7
-	QUAD $0x08162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0916064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 9
-	QUAD $0x0a163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 10
-	QUAD $0x0b161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 12
-	QUAD $0x0d16064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 22], 13
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 14
-	QUAD $0x0f16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 15
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x011716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 1
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x021706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x03173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 3
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x04173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 4
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x05173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 5
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x06172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 6
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x07173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 7
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x08173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 8
-	QUAD $0x091716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 9
-	QUAD $0x0a1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 10
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0b1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 11
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0c1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 12
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x0d171e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 23], 13
-	QUAD $0x0e170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0f1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 15
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x01170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 2
-	QUAD $0x0317265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 5
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x06173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 6
-	QUAD $0x07171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 7
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x0817265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 8
-	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0a171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
-	QUAD $0x0c173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 13
-	QUAD $0x0e170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 1
-	QUAD $0x021806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 2
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x031816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 3
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x04183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 4
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x05183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 5
-	QUAD $0x06182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 6
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x071806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 7
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x08183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 8
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x09182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 9
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0a183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 10
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0b183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 11
-	QUAD $0x0c1836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 12
-	QUAD $0x0d181e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 24], 13
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0e183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 14
-	QUAD $0x0f1816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 15
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	LONG $0x167cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdx + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x01180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 1
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x02180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 2
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x03183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 5
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x06183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x07183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 7
-	QUAD $0x0818264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 9
-	QUAD $0x0a181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 11
-	QUAD $0x0c183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 12
-	QUAD $0x0d18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 14
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x0f181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 15
-	LONG $0x0e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rcx + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x011906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 1
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x02191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 2
-	QUAD $0x031916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 3
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x051936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x061906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 6
-	QUAD $0x071906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 7
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x08190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 8
-	QUAD $0x09192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 9
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0a193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 10
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0b1906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 11
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0c1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 15
-	LONG $0x167cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdx + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x0119265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 1
-	QUAD $0x02190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0319065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0419065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0519065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 5
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x06192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 6
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0719065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0819065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 8
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0919165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 12
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0d19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 13
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	QUAD $0x0e19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	QUAD $0x0f191e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r11 + 25], 15
-	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x1a1e             // movzx    edi, byte [rsi + r11 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
-	QUAD $0x021a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x031a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 3
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
-	QUAD $0x051a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 5
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x061a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 6
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x071a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 7
-	QUAD $0x081a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 8
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x091a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 9
-	QUAD $0x0a1a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 10
-	QUAD $0x0b1a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 11
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0c1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 12
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x0d1a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 13
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0e1a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 14
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0f1a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 15
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0e7cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rcx + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 1
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x021a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 2
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x031a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x041a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 4
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x051a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 5
-	QUAD $0x061a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 6
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x071a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 7
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x081a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 8
-	QUAD $0x091a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a1a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 10
-	QUAD $0x0b1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 12
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0d1a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 15
-	LONG $0x7cb60f42; WORD $0x1b1e             // movzx    edi, byte [rsi + r11 + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x011b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 1
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x021b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 2
-	QUAD $0x031b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 3
-	QUAD $0x041b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 4
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x051b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 5
-	QUAD $0x061b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x071b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 7
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x081b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 8
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x091b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0a1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 10
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0b1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 11
-	QUAD $0x0c1b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 12
-	QUAD $0x0d1b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 27], 13
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0e1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0f1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 15
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	LONG $0x167cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rdx + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x011b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 1
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x021b0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 27], 2
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x031b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 3
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x041b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 4
-	QUAD $0x051b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 5
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x061b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 6
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x071b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 7
-	QUAD $0x081b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x091b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 9
-	QUAD $0x0a1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 12
-	QUAD $0x0d1b165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 27], 13
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	QUAD $0x0e1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e7cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rcx + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 1
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x021c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x031c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 3
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x041c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 4
-	QUAD $0x051c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 5
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x061c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 6
-	QUAD $0x071c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 7
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x081c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 8
-	QUAD $0x091c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 11
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0c1c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 13
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0e1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 15
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x1c26             // movzx    edi, byte [rsi + r12 + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
-	QUAD $0x021c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 2
-	QUAD $0x031c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 3
-	QUAD $0x041c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 4
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x051c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 5
-	QUAD $0x061c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 6
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x071c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 7
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	QUAD $0x081c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 9
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0a1c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 10
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0b1c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c1c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 13
-	QUAD $0x0e1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 15
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x011d2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 29], 1
-	QUAD $0x021d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 2
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x031d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 3
-	QUAD $0x041d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 4
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x051d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 5
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x061d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 6
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x071d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 7
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x081d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 8
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0a1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 10
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0b1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 11
-	QUAD $0x0c1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 12
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0d1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 13
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0e1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 15
-	LONG $0x7cb60f42; WORD $0x1d26             // movzx    edi, byte [rsi + r12 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x011d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 1
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x021d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 2
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x031d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 3
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x041d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 4
-	QUAD $0x051d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 5
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x061d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 6
-	QUAD $0x071d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 7
-	QUAD $0x081d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 29], 8
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x091d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 9
-	QUAD $0x0a1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 10
-	QUAD $0x0b1d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 11
-	QUAD $0x0c1d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 12
-	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
-	QUAD $0x0d1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 13
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	QUAD $0x0e1d16642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r10 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f1d16442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + rdx + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	LONG $0x7cb60f42; WORD $0x1e06             // movzx    edi, byte [rsi + r8 + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 30], 1
-	LONG $0x7cb60f42; WORD $0x1f06             // movzx    edi, byte [rsi + r8 + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 31], 1
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	QUAD $0x031e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 3
-	QUAD $0x031f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 3
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x051e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 30], 5
-	QUAD $0x051f1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 31], 5
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
-	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0e44b60f; BYTE $0x1e               // movzx    eax, byte [rsi + rcx + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 1
-	LONG $0x0e44b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rcx + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
-	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 4
-	QUAD $0x041f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	QUAD $0x071e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 7
-	QUAD $0x071f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 7
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x081e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 8
-	QUAD $0x081f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 8
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x091e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 9
-	QUAD $0x091f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
-	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
-	QUAD $0x0c1e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 12
-	QUAD $0x0c1f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
-	QUAD $0x0e1e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 14
-	QUAD $0x0e1f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 14
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x0f1e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 30], 15
-	QUAD $0x0f1f167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00010024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 256], ymm0
-	QUAD $0x00026024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 608]
-	QUAD $0x000500248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 1280]
-	LONG $0xd064f5c5                           // vpcmpgtb    ymm2, ymm1, ymm0
-	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI7_0] */
-	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
-	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
-	LONG $0xf86485c5                           // vpcmpgtb    ymm7, ymm15, ymm0
-	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
-	QUAD $0x00022024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 544]
-	LONG $0xe0646dc5                           // vpcmpgtb    ymm12, ymm2, ymm0
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI7_1] */
-	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0001c024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 448]
-	LONG $0xf864edc5                           // vpcmpgtb    ymm7, ymm2, ymm0
-	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI7_2] */
-	LONG $0xfbdbc5c5                           // vpand    ymm7, ymm7, ymm3
-	LONG $0xe0640dc5                           // vpcmpgtb    ymm12, ymm14, ymm0
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI7_3] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 416]
-	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
-	QUAD $0x00000080956ffdc5                   // vmovdqa    ymm2, yword 128[rbp] /* [rip + .LCPI7_4] */
-	LONG $0xe2db1dc5                           // vpand    ymm12, ymm12, ymm2
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x00020024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 512]
-	LONG $0xf864c5c5                           // vpcmpgtb    ymm7, ymm7, ymm0
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI7_5] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x0004e024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1248]
-	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
-	QUAD $0x0004a024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 1184]
-	LONG $0xf864c5c5                           // vpcmpgtb    ymm7, ymm7, ymm0
-	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
-	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
-	QUAD $0x0004c0249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 1216]
-	LONG $0xe06425c5                           // vpcmpgtb    ymm12, ymm11, ymm0
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	QUAD $0x000480249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 1152]
-	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
-	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
-	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000460249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 1120]
-	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
-	LONG $0xdbdb25c5                           // vpand    ymm11, ymm11, ymm3
-	QUAD $0x00044024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1088]
-	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	QUAD $0x00042024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1056]
-	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
-	LONG $0xe2db1dc5                           // vpand    ymm12, ymm12, ymm2
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x0003e0249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 992]
-	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	QUAD $0x00040024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1024]
-	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
-	QUAD $0x0003a024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 928]
-	LONG $0xf864c5c5                           // vpcmpgtb    ymm7, ymm7, ymm0
-	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
-	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
-	QUAD $0x0003c0249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 960]
-	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
-	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
-	QUAD $0x00036024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 864]
-	LONG $0xf0640dc5                           // vpcmpgtb    ymm14, ymm14, ymm0
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000380249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 896]
-	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
-	LONG $0xdbdb25c5                           // vpand    ymm11, ymm11, ymm3
-	QUAD $0x00032024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 800]
-	LONG $0xf0640dc5                           // vpcmpgtb    ymm14, ymm14, ymm0
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	QUAD $0x00034024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 832]
-	LONG $0xf0640dc5                           // vpcmpgtb    ymm14, ymm14, ymm0
-	LONG $0xf2db0dc5                           // vpand    ymm14, ymm14, ymm2
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	LONG $0xd0642dc5                           // vpcmpgtb    ymm10, ymm10, ymm0
-	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
-	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
-	QUAD $0x000300249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 768]
-	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
-	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
-	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	LONG $0xc0643dc5                           // vpcmpgtb    ymm8, ymm8, ymm0
-	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
-	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
-	LONG $0xc86435c5                           // vpcmpgtb    ymm9, ymm9, ymm0
-	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
-	QUAD $0x000280248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 640]
-	LONG $0xe864f5c5                           // vpcmpgtb    ymm5, ymm1, ymm0
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x0002a0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 672]
-	LONG $0xf064f5c5                           // vpcmpgtb    ymm6, ymm1, ymm0
-	LONG $0xf3dbcdc5                           // vpand    ymm6, ymm6, ymm3
-	QUAD $0x0002e0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 736]
-	LONG $0xd864f5c5                           // vpcmpgtb    ymm3, ymm1, ymm0
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
-	QUAD $0x0002c0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 704]
-	LONG $0xe064f5c5                           // vpcmpgtb    ymm4, ymm1, ymm0
-	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000120248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 288]
-	LONG $0xc864f5c5                           // vpcmpgtb    ymm1, ymm1, ymm0
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	QUAD $0x00010024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 256]
-	LONG $0xd064edc5                           // vpcmpgtb    ymm2, ymm2, ymm0
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
-	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000170248c8b48                   // mov    rcx, qword [rsp + 368]
-	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB7_66
-	QUAD $0x0000016824ac8b4c                   // mov    r13, qword [rsp + 360]
-	QUAD $0x0000018024ac3b4c                   // cmp    r13, qword [rsp + 384]
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	QUAD $0x0000024024a48b4c                   // mov    r12, qword [rsp + 576]
-	JNE  LBB7_68
-	JMP  LBB7_71
-
-LBB7_47:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x000001f824848948             // mov    qword [rsp + 504], rax
-	QUAD $0x0000016824bc894c             // mov    qword [rsp + 360], r15
-	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000016024848948             // mov    qword [rsp + 352], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00024024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 576], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x000000f0249c894c             // mov    qword [rsp + 240], r11
-	QUAD $0x00024024b46f7dc5; BYTE $0x00 // vmovdqa    ymm14, yword [rsp + 576]
-
-LBB7_48:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000017024848948                   // mov    qword [rsp + 368], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x18               // mov    qword [rsp + 24], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000010024848948                   // mov    qword [rsp + 256], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rcx + 2]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000200248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 512], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x000000b824948948                   // mov    qword [rsp + 184], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	LONG $0x20cd8149; WORD $0x0002; BYTE $0x00 // or    r13, 544
-	LONG $0x246c894c; BYTE $0x38               // mov    qword [rsp + 56], r13
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0x40cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 576
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x60ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 608
-	LONG $0x2474894c; BYTE $0x48               // mov    qword [rsp + 72], r14
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x80cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 640
-	QUAD $0x000000a824bc894c                   // mov    qword [rsp + 168], r15
-	LONG $0xa0cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 672
-	QUAD $0x00000090249c8948                   // mov    qword [rsp + 144], rbx
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	LONG $0xc0cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 704
-	QUAD $0x000000c824a4894c                   // mov    qword [rsp + 200], r12
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x00c88149; WORD $0x0003; BYTE $0x00 // or    r8, 768
-	LONG $0x2444894c; BYTE $0x78               // mov    qword [rsp + 120], r8
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x03200d48; WORD $0x0000             // or    rax, 800
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x40c98149; WORD $0x0003; BYTE $0x00 // or    r9, 832
-	LONG $0x244c894c; BYTE $0x58               // mov    qword [rsp + 88], r9
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0x60cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 864
-	QUAD $0x000000b024bc8948                   // mov    qword [rsp + 176], rdi
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0x80ca8148; WORD $0x0003; BYTE $0x00 // or    rdx, 896
-	QUAD $0x000000a024948948                   // mov    qword [rsp + 160], rdx
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0xa0ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 928
-	QUAD $0x000000882494894c                   // mov    qword [rsp + 136], r10
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c8948                   // mov    qword [rsp + 232], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	QUAD $0x000000d0248c8948                   // mov    qword [rsp + 208], rcx
-	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
-	LONG $0x245c894c; BYTE $0x50               // mov    qword [rsp + 80], r11
-	LONG $0x2031a3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + r11], 2
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 3
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 4
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 5
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 6
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 7
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r8], 8
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r13], 9
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r9], 10
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 11
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 12
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + r10], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 1
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 2
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 3
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 5
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 6
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 10
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 15
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	LONG $0xd8da8dc5                           // vpminub    ymm3, ymm14, ymm0
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x01011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 1
-	QUAD $0x02011e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 1], 2
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x03011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 3
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x04011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 4
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x05011e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 1], 5
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x06011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 6
-	QUAD $0x070126642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 1], 7
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x08011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 8
-	QUAD $0x09012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 9
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0a011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 10
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x0b011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 11
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x0c011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 12
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0d011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 13
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0e012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 14
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x0f011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 15
-	QUAD $0x0101166c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r10 + 1], 1
-	QUAD $0x02010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 2
-	QUAD $0x03013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 3
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	QUAD $0x0401066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 4
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x05011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 5
-	QUAD $0x0601366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 1], 6
-	QUAD $0x0701166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 11
-	QUAD $0x0c010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
-	QUAD $0x00050024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1280], ymm0
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 14
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0106442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 1], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x0001c024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 448]
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x010206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x030206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 3
-	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
-	QUAD $0x040226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 2], 4
-	QUAD $0x05021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 5
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x060216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 6
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x07020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 7
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x080206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 8
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	QUAD $0x09023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 11
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x0c021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0001a0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 416]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0202365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 2], 2
-	QUAD $0x0302165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 2], 3
-	QUAD $0x04022e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 2], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05020e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 2], 5
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x06023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 6
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0702165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 2], 7
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x08020e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 2], 8
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x09020e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 2], 9
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0c022e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 2], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x010306642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + r8 + 3], 1
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x02031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 2
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x03031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 3
-	QUAD $0x040326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 4
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x05032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 5
-	QUAD $0x060316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 6
-	QUAD $0x07030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 7
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x080316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 8
-	QUAD $0x09033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 9
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0a0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 10
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0b0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 11
-	QUAD $0x0c031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 12
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x0d0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0e0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 14
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0f0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	QUAD $0x0203366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 2
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0303166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 3], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	QUAD $0x06033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 6
-	QUAD $0x0703166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 7
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0803166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 8
-	QUAD $0x09030e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 3], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 14
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 15
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x00020024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 512]
-	QUAD $0x010406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 1
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x020426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 2
-	QUAD $0x03041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 3
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x04041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 4
-	QUAD $0x05042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 5
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	QUAD $0x060406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 6
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x07040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 7
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x08042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 8
-	QUAD $0x09043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 9
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x0a040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 10
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x0b043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 11
-	QUAD $0x0c041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 12
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0d041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0104065c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rsi + rax + 4], 1
-	QUAD $0x0204365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 2
-	QUAD $0x0304165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0404065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 5
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0604165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 6
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x07040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 7
-	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
-	QUAD $0x0804165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0904065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 11
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0c04165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 13
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0e04165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 15
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x010506642001e3c4                   // vpinsrb    xmm4, xmm15, byte [rsi + rax + 5], 1
-	QUAD $0x020526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 2
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x030526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 3
-	QUAD $0x04051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 4
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x05051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 5
-	QUAD $0x060506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x070506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 7
-	QUAD $0x08052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
-	QUAD $0x0a050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 10
-	QUAD $0x0b053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 11
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x0c053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 12
-	QUAD $0x0d051e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 5], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 15
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	QUAD $0x01051e6c2049a3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + r11 + 5], 1
-	QUAD $0x0205366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 2
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0305366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
-	QUAD $0x05053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 5
-	QUAD $0x0605166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 6
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0705166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 7
-	QUAD $0x08050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 8
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x09050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 9
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0a050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 10
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0b050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 11
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0c050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	QUAD $0x0e0516442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + r10 + 5], 14
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	LONG $0x0e7cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rcx + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x0f052e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 5], 15
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	LONG $0x0e7cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rcx + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x010606442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + rax + 6], 1
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x020616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 2
-	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
-	QUAD $0x030626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 6], 3
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x04060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 4
-	QUAD $0x05061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 5
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x06060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 6
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x070626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 6], 7
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x08060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 8
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x09061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 11
-	QUAD $0x0c063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 12
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x0d063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 14
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0f060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 15
-	QUAD $0x01061e6c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + r11 + 6], 1
-	QUAD $0x02060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 2
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x0306366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0506066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 5
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x06060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 6
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x0706366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 7
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0806166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 6], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0906066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 14
-	QUAD $0x0f062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 15
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x010706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 1
-	QUAD $0x020716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 2
-	QUAD $0x030706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x040706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x050706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 5
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x060716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 6
-	QUAD $0x070726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 7], 7
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x080716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 8
-	QUAD $0x09071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 9
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0a0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 10
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0b0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 11
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0c0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 12
-	QUAD $0x0d073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0e0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 14
-	QUAD $0x0f070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 15
-	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
-	QUAD $0x01073e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 7], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 2
-	QUAD $0x03071e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 7], 3
-	QUAD $0x04073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 4
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0507164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 5
-	QUAD $0x06070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 6
-	QUAD $0x0707364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 7], 7
-	QUAD $0x0807164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 7], 8
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0907064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00020024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm0
-	QUAD $0x0f072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 15
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
-	QUAD $0x0004e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm1
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x010806542031a3c4                   // vpinsrb    xmm2, xmm9, byte [rsi + r8 + 8], 1
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x02080e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 8], 2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x030806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x040806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x050806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 5
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x060816542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 8], 6
-	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
-	QUAD $0x070826542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 8], 7
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x080826542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 8], 8
-	QUAD $0x09081e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 8], 9
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x0a082e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 8], 10
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x0b081e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 8], 11
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0c0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 14
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0f080e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 8], 15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	QUAD $0x01083e6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r15 + 8], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x02083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x03083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
-	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x06083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x07083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 7
-	QUAD $0x0808366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 8], 8
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0908366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 8], 9
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	QUAD $0x0a08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 10
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0b08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 11
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0c083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x0f083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 15
-	LONG $0x3855e3c4; WORD $0x01d2             // vinserti128    ymm2, ymm5, xmm2, 1
-	LONG $0xeada8dc5                           // vpminub    ymm5, ymm14, ymm2
-	QUAD $0x010906742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r8 + 9], 1
-	QUAD $0x02090e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r9 + 9], 2
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x030916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 3
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x04093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 4
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x050916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 5
-	QUAD $0x060916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 6
-	QUAD $0x07091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 7
-	QUAD $0x080926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 8
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x090916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 9
-	QUAD $0x0a092e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r13 + 9], 10
-	QUAD $0x0b091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 11
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0c0916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 12
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x0d090e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r9 + 9], 13
-	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0f0916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 15
-	QUAD $0x01090e7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rcx + 9], 1
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	QUAD $0x0209067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 9], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0409067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x06091e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 9], 6
-	QUAD $0x07093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0809067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 8
-	QUAD $0x0909367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
-	LONG $0xd574edc5                           // vpcmpeqb    ymm2, ymm2, ymm5
-	QUAD $0x0004c024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x0004a024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x010a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	QUAD $0x040a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x050a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 5
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	QUAD $0x060a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 6
-	QUAD $0x070a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 7
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x080a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 8
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x090a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 11
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0c0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 12
-	QUAD $0x0d0a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 13
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	QUAD $0x0e0a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 14
-	QUAD $0x0f0a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 15
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x010a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 1
-	QUAD $0x020a06642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 10], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x040a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 4
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x050a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 5
-	QUAD $0x060a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 6
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x070a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 7
-	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
-	QUAD $0x080a06642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 10], 8
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x090a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 9
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x0a0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 10
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0b0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 11
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0c0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 12
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0d0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 13
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x0e0a26642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 10], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 15
-	QUAD $0x010b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 1
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x020b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 2
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x030b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 3
-	QUAD $0x040b2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 11], 4
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	QUAD $0x050b06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 11], 5
-	QUAD $0x060b36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 11], 6
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x070b36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 11], 7
-	QUAD $0x080b1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 11], 8
-	QUAD $0x090b16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 11], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a0b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 10
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x0b0b2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 11], 11
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0c0b06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 11], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0b06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 11], 13
-	QUAD $0x0e0b0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 11], 14
-	WORD $0x894d; BYTE $0xca                   // mov    r10, r9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f0b06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 11], 15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x010b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x020b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 2
-	QUAD $0x030b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x040b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 4
-	QUAD $0x050b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 5
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x060b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x070b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 7
-	QUAD $0x080b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 8
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x090b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 9
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x0a0b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 10
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0b0b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 11
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0c0b264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 11], 12
-	QUAD $0x0d0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000480249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm3
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 14
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	LONG $0x3e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rdi + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0f0b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rdi + 13]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x010c3e4c2069e3c4                   // vpinsrb    xmm1, xmm2, byte [rsi + rdi + 12], 1
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x020c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 2
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x030c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 12], 3
-	QUAD $0x040c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 12], 4
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x050c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 5
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x060c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 6
-	QUAD $0x070c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 12], 7
-	QUAD $0x080c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 12], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x090c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 9
-	QUAD $0x0a0c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 12], 10
-	WORD $0x894d; BYTE $0xe9                   // mov    r9, r13
-	QUAD $0x0b0c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 12], 11
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x0c0c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 12], 12
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0d0c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 13
-	QUAD $0x0e0c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 12], 14
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0f0c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 12], 15
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x010c0e542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + rcx + 12], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x030c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 3
-	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x050c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 5
-	QUAD $0x060c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 6
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x070c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x080c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
-	QUAD $0x0a0c06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 12], 10
-	LONG $0x24548b4c; BYTE $0x08               // mov    r10, qword [rsp + 8]
-	QUAD $0x0b0c16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 12], 11
-	QUAD $0x0c0c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 12
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x0d0c06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 12], 13
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x0e0c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 15
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x010d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 2
-	QUAD $0x030d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 3
-	QUAD $0x040d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x050d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 5
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x060d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x070d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 7
-	QUAD $0x080d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 8
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x090d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 10
-	QUAD $0x0b0d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 11
-	QUAD $0x0c0d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 13], 12
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 14
-	QUAD $0x0f0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x010d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 1
-	QUAD $0x020d3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 13], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x030d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x040d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 4
-	QUAD $0x050d0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 13], 5
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x060d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 6
-	QUAD $0x070d16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 13], 7
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x080d2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 13], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x090d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 10
-	QUAD $0x0b0d16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 13], 11
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 12
-	QUAD $0x0d0d06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 13], 13
-	QUAD $0x0e0d26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000440248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 15
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x010e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 2
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x030e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 14], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x040e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 4
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x050e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 5
-	QUAD $0x060e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 6
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x070e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 7
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
-	QUAD $0x090e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 9
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0a0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 11
-	QUAD $0x0c0e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 12
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0d0e3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 14], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e0e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 14
-	QUAD $0x0f0e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 14], 15
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x010e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x020e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x030e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 3
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x040e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x050e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 5
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x060e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x070e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 7
-	QUAD $0x080e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 14], 8
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x090e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 10
-	QUAD $0x0b0e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 11
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x0c0e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 12
-	QUAD $0x0d0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0f0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 15
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	LONG $0x3e7cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rdi + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x010f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 1
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x020f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 2
-	QUAD $0x030f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 3
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x040f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 4
-	QUAD $0x050f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 5
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x060f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 6
-	QUAD $0x070f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 7
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x080f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x090f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 9
-	QUAD $0x0a0f1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 15], 10
-	QUAD $0x0b0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 11
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0c0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 13
-	QUAD $0x0e0f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rax + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x010f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x030f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 3
-	QUAD $0x040f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 4
-	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
-	QUAD $0x050f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 5
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x060f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 6
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x070f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 7
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x080f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 8
-	QUAD $0x090f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 9
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x0a0f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 10
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0b0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 11
-	QUAD $0x0c0f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 12
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0d0f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 14
-	QUAD $0x0f0f065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	LONG $0x3e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdi + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x01103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 1
-	QUAD $0x02102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 2
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x03103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 3
-	QUAD $0x041016442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 16], 4
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x051016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 5
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x06102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 6
-	QUAD $0x07103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 7
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x081016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 11
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0c103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 12
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0d103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 13
-	QUAD $0x0e101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 14
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	QUAD $0x0f1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdi + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x01103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 1
-	QUAD $0x02100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 2
-	QUAD $0x03101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 4
-	QUAD $0x0510364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 5
-	QUAD $0x0610064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 6
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x0710364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0810064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 8
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x09101e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 16], 9
-	QUAD $0x0a10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 12
-	QUAD $0x0d100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 14
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0f101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 15
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	LONG $0x7cb60f42; WORD $0x113e             // movzx    edi, byte [rsi + r15 + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x01110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 1
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x02110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 2
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x03110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 3
-	QUAD $0x041116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 5
-	QUAD $0x06112e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 17], 6
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x07110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 7
-	QUAD $0x081116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 8
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x09110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 10
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x0b112e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 17], 11
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0c1116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 12
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x0d1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0e1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 14
-	QUAD $0x0f1106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 15
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	LONG $0x7cb60f42; WORD $0x1126             // movzx    edi, byte [rsi + r12 + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0111165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 1
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x0211165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 2
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0311165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 3
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0411165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 4
-	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
-	QUAD $0x0511065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 17], 5
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x06113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 6
-	QUAD $0x0711365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x08113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 8
-	QUAD $0x09111e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 17], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 10
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0b113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 13
-	QUAD $0x0e11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0f111e4c2061a3c4                   // vpinsrb    xmm1, xmm3, byte [rsi + r11 + 17], 15
-	LONG $0xd8da8dc5                           // vpminub    ymm3, ymm14, ymm0
-	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	LONG $0x3875e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm1, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	LONG $0x7cb60f42; WORD $0x123e             // movzx    edi, byte [rsi + r15 + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x02121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 2
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x031236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x041206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 4
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x05121e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 18], 5
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x061206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 6
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x071206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 7
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x081206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 8
-	QUAD $0x09120e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 18], 9
-	QUAD $0x0a120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 10
-	QUAD $0x0b122e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 18], 11
-	QUAD $0x0c1216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 15
-	LONG $0x7cb60f42; WORD $0x1226             // movzx    edi, byte [rsi + r12 + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0112064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 1
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x0212264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 18], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0312064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 3
-	QUAD $0x0412164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 4
-	QUAD $0x0512064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 5
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x0612064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0712064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 7
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0812164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0912064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a12064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 10
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0b12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 11
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x0c120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d12064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x0e123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 14
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 15
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
-	QUAD $0x02131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 2
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	QUAD $0x031336542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 19], 3
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x04131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 4
-	QUAD $0x05131e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 19], 5
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x06131e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 19], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 11
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0c1336542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 19], 12
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0d133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 14
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0f133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x01133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 1
-	QUAD $0x0213265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 19], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x03133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 5
-	QUAD $0x0613065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x07133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 7
-	QUAD $0x0813165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 8
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x09133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 10
-	QUAD $0x0b13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 11
-	QUAD $0x0c130e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 19], 12
-	QUAD $0x0d13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 13
-	QUAD $0x0e133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x0f130e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rcx + 19], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rax + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x011416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x021406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 2
-	QUAD $0x03142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 3
-	QUAD $0x04141e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 20], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x051406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 5
-	QUAD $0x06141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 6
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x07143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 7
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x08141e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 20], 8
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x091426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 10
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x0b140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 11
-	QUAD $0x0c1436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 12
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0d1436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 14
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0f1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 15
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	LONG $0x7cb60f42; WORD $0x1406             // movzx    edi, byte [rsi + r8 + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x0114164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 2
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x03141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 5
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x06140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 6
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x07140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x09143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 14
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	LONG $0x3e7cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rdi + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 1
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x02152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 2
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x041516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 4
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x051516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 5
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x06153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 6
-	QUAD $0x07153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 7
-	QUAD $0x08151e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 21], 8
-	QUAD $0x091526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 10
-	QUAD $0x0b150e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 21], 11
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0c153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 12
-	QUAD $0x0d1536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 13
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x0e151e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 21], 14
-	QUAD $0x0f1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 15
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	LONG $0x7cb60f42; WORD $0x1506             // movzx    edi, byte [rsi + r8 + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0115165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
-	QUAD $0x03151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0415065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 5
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x06153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 6
-	QUAD $0x07150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 7
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0815265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 8
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x09150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 9
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x0a151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 10
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0b150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 11
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0c150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 14
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 15
-	LONG $0x387563c4; WORD $0x01d8             // vinserti128    ymm11, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	LONG $0x0e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rcx + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
-	QUAD $0x02162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 2
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x03163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 3
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x04163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 4
-	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x06162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x071616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 7
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x081606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x09163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 9
-	QUAD $0x0a163e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 22], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0c1616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 22], 12
-	QUAD $0x0d1636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 13
-	QUAD $0x0e161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 14
-	QUAD $0x0f160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x02163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 2
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x03160e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 22], 3
-	QUAD $0x0416064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0516064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 5
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0616064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0716064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 7
-	QUAD $0x0816264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0916064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 9
-	QUAD $0x0a161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 10
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	QUAD $0x0b16264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 14
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0f163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 15
-	LONG $0x0e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rcx + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
-	QUAD $0x01171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 1
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x02170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 2
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x03170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 3
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x04170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 5
-	QUAD $0x06172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 6
-	QUAD $0x071716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 7
-	QUAD $0x081706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 10
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x0b172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 11
-	QUAD $0x0c1716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 12
-	QUAD $0x0d1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 14
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0f1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 15
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	LONG $0x7cb60f42; WORD $0x1716             // movzx    edi, byte [rsi + r10 + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x01170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 1
-	QUAD $0x02173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 2
-	QUAD $0x03170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 3
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0417165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 5
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x06173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 6
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0717065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 7
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x08171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 8
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x09170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 9
-	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
-	QUAD $0x0a170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 10
-	QUAD $0x0b17265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 11
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0c170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 12
-	QUAD $0x0d17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 13
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x0e17265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f1706442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 23], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x01181e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 24], 1
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x02183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 2
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x03180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 3
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x04180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 4
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x05183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 5
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x06180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 6
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x07181e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 24], 7
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x08183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x09180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 10
-	QUAD $0x0b182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 11
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0c183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 12
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0d183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 14
-	QUAD $0x0f1836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 15
-	LONG $0x7cb60f42; WORD $0x1816             // movzx    edi, byte [rsi + r10 + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x01183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 1
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x02182e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 24], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x03183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 3
-	QUAD $0x0418164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 4
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0518164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 5
-	QUAD $0x06183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 6
-	QUAD $0x0718064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 7
-	QUAD $0x08181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 8
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0918164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 9
-	QUAD $0x0a180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 10
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0b18164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 11
-	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
-	QUAD $0x0c18064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 12
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0d183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 13
-	QUAD $0x0e18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 14
-	QUAD $0x0f18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 15
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	LONG $0x7cb60f42; WORD $0x190e             // movzx    edi, byte [rsi + r9 + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x011906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x021906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x031906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x051916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 5
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x06191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 6
-	QUAD $0x07191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 7
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
-	QUAD $0x09190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 9
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x0a1926542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 25], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 11
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0c193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 12
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0d1936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 14
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0f193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 15
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	LONG $0x0e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rcx + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x01190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 1
-	QUAD $0x02192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x03193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 5
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x06192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x07193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 7
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x08191e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 25], 8
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x09193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 10
-	QUAD $0x0b19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 11
-	QUAD $0x0c19065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 25], 12
-	QUAD $0x0d193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 13
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e190e4c2061e3c4                   // vpinsrb    xmm1, xmm3, byte [rsi + rcx + 25], 14
-	LONG $0xd8da8dc5                           // vpminub    ymm3, ymm14, ymm0
-	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0f190e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rcx + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00018024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 384], ymm0
-	LONG $0x7cb60f42; WORD $0x1a0e             // movzx    edi, byte [rsi + r9 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x021a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 2
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x031a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 3
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
-	QUAD $0x051a16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 26], 5
-	QUAD $0x061a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x071a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 7
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x081a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 8
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x091a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 9
-	QUAD $0x0a1a26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 26], 10
-	QUAD $0x0b1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 11
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x0c1a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 12
-	QUAD $0x0d1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 14
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0f1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rax + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x011a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 1
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x021a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x031a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x041a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x051a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 5
-	QUAD $0x061a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 6
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x071a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 7
-	QUAD $0x081a1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 26], 8
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x091a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 10
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0b1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 11
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0c1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 14
-	QUAD $0x0f1a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 15
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	LONG $0x7cb60f42; WORD $0x1b26             // movzx    edi, byte [rsi + r12 + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x011b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 1
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x021b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 2
-	QUAD $0x031b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 3
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x041b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 4
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x051b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 5
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x061b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 6
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x071b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 7
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x081b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 8
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x091b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 11
-	QUAD $0x0c1b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 12
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0d1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 14
-	QUAD $0x0f1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 15
-	WORD $0x8949; BYTE $0xd1                   // mov    r9, rdx
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	LONG $0x167cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rdx + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x011b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 1
-	QUAD $0x021b165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 27], 2
-	QUAD $0x031b065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 27], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x041b065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 27], 4
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x051b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 5
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x061b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 6
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x071b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 7
-	QUAD $0x081b1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 27], 8
-	QUAD $0x091b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 9
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x0a1b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 10
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0b1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 11
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0c1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 13
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0e1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 14
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0f1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x7cb60f42; WORD $0x1c26             // movzx    edi, byte [rsi + r12 + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x011c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 1
-	QUAD $0x021c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 2
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x031c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 3
-	QUAD $0x041c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 4
-	QUAD $0x051c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 5
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x061c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 6
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x071c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 7
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x081c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 8
-	QUAD $0x091c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 28], 9
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0a1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 10
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x0b1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 11
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0c1c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 28], 12
-	QUAD $0x0d1c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 13
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x0e1c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 28], 14
-	QUAD $0x0f1c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 15
-	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
-	LONG $0x7cb60f42; WORD $0x1c06             // movzx    edi, byte [rsi + r8 + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x011c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x021c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x031c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 3
-	QUAD $0x041c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x051c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 5
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x061c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 6
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x071c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 7
-	QUAD $0x081c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 8
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x091c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 9
-	QUAD $0x0a1c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 10
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0b1c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 11
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0c1c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 14
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x0f1c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 15
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	LONG $0x067cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rax + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x011d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 1
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x021d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x031d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x041d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 4
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
-	QUAD $0x061d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 6
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x071d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 7
-	QUAD $0x081d2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 29], 8
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0a1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 10
-	QUAD $0x0b1d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 11
-	QUAD $0x0c1d36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 29], 12
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x0d1d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 13
-	QUAD $0x0e1d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 14
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0f1d36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 29], 15
-	LONG $0x7cb60f42; WORD $0x1d06             // movzx    edi, byte [rsi + r8 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 1
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x021d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 2
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x031d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 3
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x041d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x051d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 5
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x061d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 6
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x071d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 7
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x081d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 8
-	QUAD $0x091d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 29], 9
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0a1d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 10
-	QUAD $0x0b1d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 11
-	QUAD $0x0c1d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d1d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x0e1d3e642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r15 + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0f1d16442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r10 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	LONG $0x7cb60f42; WORD $0x1e1e             // movzx    edi, byte [rsi + r11 + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x011e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 1
-	LONG $0x7cb60f42; WORD $0x1f1e             // movzx    edi, byte [rsi + r11 + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
-	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
-	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
-	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x0a1e1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 30], 10
-	QUAD $0x0a1f1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 31], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
-	QUAD $0x0d1e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 30], 13
-	QUAD $0x0d1f164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 31], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 14
-	QUAD $0x0f1e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 30], 15
-	QUAD $0x0f1f36542071a3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + r14 + 31], 15
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	LONG $0x44b60f42; WORD $0x1e06             // movzx    eax, byte [rsi + r8 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
-	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
-	LONG $0x1644b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rdx + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x021e2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 30], 2
-	QUAD $0x021f2e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 31], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 4
-	QUAD $0x041f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	QUAD $0x071e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 7
-	QUAD $0x071f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 7
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x081e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 8
-	QUAD $0x081f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
-	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0c1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 12
-	QUAD $0x0d1e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 30], 13
-	QUAD $0x0d1f0e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 31], 13
-	QUAD $0x0e1e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 14
-	QUAD $0x0e1f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00010024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 256], ymm0
-	QUAD $0x000220248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 544]
-	LONG $0xc1da8dc5                           // vpminub    ymm0, ymm14, ymm1
-	LONG $0xc074f5c5                           // vpcmpeqb    ymm0, ymm1, ymm0
-	LONG $0x656ffdc5; BYTE $0x00               // vmovdqa    ymm4, yword 0[rbp] /* [rip + .LCPI7_0] */
-	LONG $0xfcdffdc5                           // vpandn    ymm7, ymm0, ymm4
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x0001c024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 448]
-	LONG $0xfada8dc5                           // vpminub    ymm7, ymm14, ymm2
-	LONG $0xff74edc5                           // vpcmpeqb    ymm7, ymm2, ymm7
-	QUAD $0x00050024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 1280]
-	LONG $0xe4df6dc5                           // vpandn    ymm12, ymm2, ymm4
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI7_1] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 416]
-	LONG $0xe2da0dc5                           // vpminub    ymm12, ymm14, ymm2
-	LONG $0xe2741dc5                           // vpcmpeqb    ymm12, ymm12, ymm2
-	LONG $0x6d6ffdc5; BYTE $0x40               // vmovdqa    ymm5, yword 64[rbp] /* [rip + .LCPI7_2] */
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xda15c1c4; BYTE $0xfe               // vpminub    ymm7, ymm13, ymm14
-	LONG $0xff7495c5                           // vpcmpeqb    ymm7, ymm13, ymm7
-	LONG $0xda0541c4; BYTE $0xe6               // vpminub    ymm12, ymm15, ymm14
-	LONG $0x740541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm15, ymm12
-	LONG $0x5d6ffdc5; BYTE $0x60               // vmovdqa    ymm3, yword 96[rbp] /* [rip + .LCPI7_3] */
-	LONG $0xfbdfc5c5                           // vpandn    ymm7, ymm7, ymm3
-	QUAD $0x00000080956f7dc5                   // vmovdqa    ymm10, yword 128[rbp] /* [rip + .LCPI7_4] */
-	LONG $0xdf1d41c4; BYTE $0xe2               // vpandn    ymm12, ymm12, ymm10
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00020024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 512]
-	LONG $0xda1541c4; BYTE $0xe6               // vpminub    ymm12, ymm13, ymm14
-	LONG $0x741541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm13, ymm12
-	QUAD $0x000000a0956ffdc5                   // vmovdqa    ymm2, yword 160[rbp] /* [rip + .LCPI7_5] */
-	LONG $0xe2df1dc5                           // vpandn    ymm12, ymm12, ymm2
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0004e024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 1248]
-	LONG $0xda1541c4; BYTE $0xe6               // vpminub    ymm12, ymm13, ymm14
-	LONG $0x741541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm13, ymm12
-	LONG $0xe1ef1dc5                           // vpxor    ymm12, ymm12, ymm1
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb1d41c4; BYTE $0xe1               // vpand    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	QUAD $0x0004a024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1184]
-	LONG $0xda1dc1c4; BYTE $0xfe               // vpminub    ymm7, ymm12, ymm14
-	LONG $0xff749dc5                           // vpcmpeqb    ymm7, ymm12, ymm7
-	LONG $0xe4df45c5                           // vpandn    ymm12, ymm7, ymm4
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x00048024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 1152]
-	LONG $0xda1541c4; BYTE $0xe6               // vpminub    ymm12, ymm13, ymm14
-	LONG $0x741541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm13, ymm12
-	QUAD $0x0004c024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 1216]
-	LONG $0xecdf15c5                           // vpandn    ymm13, ymm13, ymm4
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	LONG $0xeb1541c4; BYTE $0xe4               // vpor    ymm12, ymm13, ymm12
-	QUAD $0x00046024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 1120]
-	LONG $0xda0541c4; BYTE $0xee               // vpminub    ymm13, ymm15, ymm14
-	LONG $0x740541c4; BYTE $0xed               // vpcmpeqb    ymm13, ymm15, ymm13
-	LONG $0xeddf15c5                           // vpandn    ymm13, ymm13, ymm5
-	LONG $0xeb1d41c4; BYTE $0xe5               // vpor    ymm12, ymm12, ymm13
-	LONG $0xf9f8c5c5                           // vpsubb    ymm7, ymm7, ymm1
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00044024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 1088]
-	LONG $0xda1541c4; BYTE $0xe6               // vpminub    ymm12, ymm13, ymm14
-	LONG $0x741541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm13, ymm12
-	QUAD $0x00042024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 1056]
-	LONG $0xda0541c4; BYTE $0xee               // vpminub    ymm13, ymm15, ymm14
-	LONG $0x740541c4; BYTE $0xed               // vpcmpeqb    ymm13, ymm15, ymm13
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xdf1541c4; BYTE $0xea               // vpandn    ymm13, ymm13, ymm10
-	LONG $0xeb1d41c4; BYTE $0xe5               // vpor    ymm12, ymm12, ymm13
-	QUAD $0x0003c024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 960]
-	LONG $0xda0541c4; BYTE $0xee               // vpminub    ymm13, ymm15, ymm14
-	LONG $0x740541c4; BYTE $0xed               // vpcmpeqb    ymm13, ymm15, ymm13
-	LONG $0xeadf15c5                           // vpandn    ymm13, ymm13, ymm2
-	LONG $0xeb1d41c4; BYTE $0xe5               // vpor    ymm12, ymm12, ymm13
-	QUAD $0x0003e024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 992]
-	LONG $0xda0541c4; BYTE $0xee               // vpminub    ymm13, ymm15, ymm14
-	LONG $0x740541c4; BYTE $0xed               // vpcmpeqb    ymm13, ymm15, ymm13
-	LONG $0xe9ef15c5                           // vpxor    ymm13, ymm13, ymm1
-	LONG $0x7115c1c4; WORD $0x07f5             // vpsllw    ymm13, ymm13, 7
-	LONG $0xdb1541c4; BYTE $0xe9               // vpand    ymm13, ymm13, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe5               // vpor    ymm12, ymm12, ymm13
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x0003a024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 928]
-	LONG $0xda15c1c4; BYTE $0xfe               // vpminub    ymm7, ymm13, ymm14
-	LONG $0xff7495c5                           // vpcmpeqb    ymm7, ymm13, ymm7
-	LONG $0xecdf45c5                           // vpandn    ymm13, ymm7, ymm4
-	LONG $0xfffc95c5                           // vpaddb    ymm7, ymm13, ymm7
-	QUAD $0x00036024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 864]
-	LONG $0xe8da0dc5                           // vpminub    ymm13, ymm14, ymm0
-	LONG $0xe87415c5                           // vpcmpeqb    ymm13, ymm13, ymm0
-	QUAD $0x00040024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 1024]
-	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
-	LONG $0xeedf15c5                           // vpandn    ymm13, ymm13, ymm6
-	LONG $0xeb0541c4; BYTE $0xed               // vpor    ymm13, ymm15, ymm13
-	QUAD $0x00038024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 896]
-	LONG $0xf8da0dc5                           // vpminub    ymm15, ymm14, ymm0
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xeb1541c4; BYTE $0xef               // vpor    ymm13, ymm13, ymm15
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xf9f8c5c5                           // vpsubb    ymm7, ymm7, ymm1
-	LONG $0xffeb95c5                           // vpor    ymm7, ymm13, ymm7
-	LONG $0xda2541c4; BYTE $0xee               // vpminub    ymm13, ymm11, ymm14
-	LONG $0x742541c4; BYTE $0xdd               // vpcmpeqb    ymm11, ymm11, ymm13
-	QUAD $0x00034024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 832]
-	LONG $0xe8da0dc5                           // vpminub    ymm13, ymm14, ymm0
-	LONG $0xe87415c5                           // vpcmpeqb    ymm13, ymm13, ymm0
-	LONG $0xdbdf25c5                           // vpandn    ymm11, ymm11, ymm3
-	LONG $0x6f7d41c4; BYTE $0xfa               // vmovdqa    ymm15, ymm10
-	LONG $0xdf1541c4; BYTE $0xea               // vpandn    ymm13, ymm13, ymm10
-	LONG $0xeb2541c4; BYTE $0xdd               // vpor    ymm11, ymm11, ymm13
-	QUAD $0x00026024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 608]
-	LONG $0xe8da0dc5                           // vpminub    ymm13, ymm14, ymm0
-	LONG $0xc07415c5                           // vpcmpeqb    ymm8, ymm13, ymm0
-	LONG $0xc2df3dc5                           // vpandn    ymm8, ymm8, ymm2
-	LONG $0xeb2541c4; BYTE $0xc0               // vpor    ymm8, ymm11, ymm8
-	QUAD $0x00028024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 640]
-	LONG $0xd8da0dc5                           // vpminub    ymm11, ymm14, ymm0
-	LONG $0xd07425c5                           // vpcmpeqb    ymm10, ymm11, ymm0
-	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
-	LONG $0x762541c4; BYTE $0xdb               // vpcmpeqd    ymm11, ymm11, ymm11
-	LONG $0x712dc1c4; WORD $0x07f2             // vpsllw    ymm10, ymm10, 7
-	LONG $0x6f7d41c4; BYTE $0xe9               // vmovdqa    ymm13, ymm9
-	LONG $0xdb2d41c4; BYTE $0xd1               // vpand    ymm10, ymm10, ymm9
-	LONG $0xeb3d41c4; BYTE $0xc2               // vpor    ymm8, ymm8, ymm10
-	LONG $0xc7eb3dc5                           // vpor    ymm8, ymm8, ymm7
-	QUAD $0x00018024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 384]
-	LONG $0xf8da8dc5                           // vpminub    ymm7, ymm14, ymm0
-	LONG $0xff74fdc5                           // vpcmpeqb    ymm7, ymm0, ymm7
-	LONG $0xccdf45c5                           // vpandn    ymm9, ymm7, ymm4
-	LONG $0xfffcb5c5                           // vpaddb    ymm7, ymm9, ymm7
-	QUAD $0x0002a024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 672]
-	LONG $0xc8da0dc5                           // vpminub    ymm9, ymm14, ymm0
-	LONG $0xe874b5c5                           // vpcmpeqb    ymm5, ymm9, ymm0
-	QUAD $0x00032024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 800]
-	LONG $0xccdf7dc5                           // vpandn    ymm9, ymm0, ymm4
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	QUAD $0x0002c024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 704]
-	LONG $0xc8da0dc5                           // vpminub    ymm9, ymm14, ymm0
-	LONG $0xf074b5c5                           // vpcmpeqb    ymm6, ymm9, ymm0
-	LONG $0x75dfcdc5; BYTE $0x40               // vpandn    ymm6, ymm6, yword 64[rbp] /* [rip + .LCPI7_2] */
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	LONG $0xf845c1c4; BYTE $0xf3               // vpsubb    ymm6, ymm7, ymm11
-	LONG $0xedebcdc5                           // vpor    ymm5, ymm6, ymm5
-	QUAD $0x0002e024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 736]
-	LONG $0xf0da8dc5                           // vpminub    ymm6, ymm14, ymm0
-	LONG $0xde74fdc5                           // vpcmpeqb    ymm3, ymm0, ymm6
-	QUAD $0x00030024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 768]
-	LONG $0xf0da8dc5                           // vpminub    ymm6, ymm14, ymm0
-	LONG $0xe674fdc5                           // vpcmpeqb    ymm4, ymm0, ymm6
-	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI7_3] */
-	LONG $0xdf5dc1c4; BYTE $0xe7               // vpandn    ymm4, ymm4, ymm15
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	QUAD $0x00012024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 288]
-	LONG $0xe0da8dc5                           // vpminub    ymm4, ymm14, ymm0
-	LONG $0xcc74fdc5                           // vpcmpeqb    ymm1, ymm0, ymm4
-	LONG $0xcadff5c5                           // vpandn    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	QUAD $0x00010024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 256]
-	LONG $0xd8da8dc5                           // vpminub    ymm3, ymm14, ymm0
-	LONG $0xd374fdc5                           // vpcmpeqb    ymm2, ymm0, ymm3
-	LONG $0xd2efa5c5                           // vpxor    ymm2, ymm11, ymm2
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db95c5                           // vpand    ymm2, ymm13, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebd5c5                           // vpor    ymm1, ymm5, ymm1
-	QUAD $0x00014024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 320]
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960bdc5                           // vpunpcklbw    ymm3, ymm8, ymm1
-	LONG $0xc968bdc5                           // vpunpckhbw    ymm1, ymm8, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000170248c8b48                   // mov    rcx, qword [rsp + 368]
-	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000168248c3b48                   // cmp    rcx, qword [rsp + 360]
-	JNE  LBB7_48
-	QUAD $0x0000017824bc8b4c                   // mov    r15, qword [rsp + 376]
-	QUAD $0x0000016824bc3b4c                   // cmp    r15, qword [rsp + 360]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	QUAD $0x000001f824a48b4c                   // mov    r12, qword [rsp + 504]
-	JNE  LBB7_50
-	JMP  LBB7_53
-
-DATA LCDATA6<>+0x000(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x008(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x010(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x018(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA6<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA6<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA6<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA6<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA6<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA6<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA6<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA6<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA6<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA6<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA6<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA6<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA6<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA6<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA6<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA6<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA6<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA6<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA6<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA6<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA6<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA6<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA6<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA6<>(SB), 8, $224
-
-TEXT ·_comparison_greater_scalar_arr_avx2(SB), $1352-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1312(SP)
-	LEAQ LCDATA6<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB8_13
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB8_28
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB8_51
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB8_59
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB8_179
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_7:
-	WORD $0x3944; BYTE $0x2a                   // cmp    dword [rdx], r13d
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0xf619                               // sbb    esi, esi
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_7
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB8_9:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_115
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
-
-LBB8_11:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB8_11
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB8_116
-	JMP  LBB8_179
-
-LBB8_13:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB8_41
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB8_70
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB8_81
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB8_179
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fbc5         // vmovsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_21
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_19:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_19
-	LONG $0x01c38349             // add    r11, 1
-
-LBB8_21:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_25
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-	QUAD $0x0000008024b4894c // mov    qword [rsp + 128], r14
-	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
-
-LBB8_23:
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd7970f41                           // seta    r15b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x78               // add    r8b, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
-	QUAD $0x0000008024848348; BYTE $0xff       // add    qword [rsp + 128], -1
-	JNE  LBB8_23
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-
-LBB8_25:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB8_133
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_135
-
-LBB8_28:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB8_92
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB8_179
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f6a8d4d         // lea    r13, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xea490f4d         // cmovns    r13, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_128
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	WORD $0x894d; BYTE $0xdf // mov    r15, r11
-
-LBB8_32:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_32
-	LONG $0x01c78349             // add    r15, 1
-	LONG $0x05fdc149             // sar    r13, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB8_129
-
-LBB8_34:
-	LONG $0x20fd8349             // cmp    r13, 32
-	LONG $0x24748944; BYTE $0x04 // mov    dword [rsp + 4], r14d
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	QUAD $0x0000016824ac894c     // mov    qword [rsp + 360], r13
-	JB   LBB8_37
-	WORD $0x894c; BYTE $0xe8     // mov    rax, r13
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
-	JAE  LBB8_180
-	LONG $0xaf048d4b             // lea    rax, [r15 + 4*r13]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB8_180
-
-LBB8_37:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-	QUAD $0x0000016024bc894c // mov    qword [rsp + 352], r15
-
-LBB8_38:
-	QUAD $0x0000018024ac2b4c // sub    r13, qword [rsp + 384]
-	QUAD $0x0000008024ac894c // mov    qword [rsp + 128], r13
-
-LBB8_39:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343a45                           // cmp    r14b, byte [r12]
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0x24743a45; BYTE $0x01               // cmp    r14b, byte [r12 + 1]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x24743a45; BYTE $0x02               // cmp    r14b, byte [r12 + 2]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x24743a45; BYTE $0x03               // cmp    r14b, byte [r12 + 3]
-	LONG $0xd59f0f41                           // setg    r13b
-	LONG $0x24743a45; BYTE $0x04               // cmp    r14b, byte [r12 + 4]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x24743a45; BYTE $0x05               // cmp    r14b, byte [r12 + 5]
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x24743a45; BYTE $0x06               // cmp    r14b, byte [r12 + 6]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x24743a45; BYTE $0x07               // cmp    r14b, byte [r12 + 7]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x08713a44                           // cmp    r14b, byte [rcx + 8]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x09713a44                           // cmp    r14b, byte [rcx + 9]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x0a713a44                           // cmp    r14b, byte [rcx + 10]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x0b713a44                           // cmp    r14b, byte [rcx + 11]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x0c713a44                           // cmp    r14b, byte [rcx + 12]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x0d713a44                           // cmp    r14b, byte [rcx + 13]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x0e713a44                           // cmp    r14b, byte [rcx + 14]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x0f713a44                           // cmp    r14b, byte [rcx + 15]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x10713a44                           // cmp    r14b, byte [rcx + 16]
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0x11713a44                           // cmp    r14b, byte [rcx + 17]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x12713a44                           // cmp    r14b, byte [rcx + 18]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x13713a44                           // cmp    r14b, byte [rcx + 19]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x14713a44                           // cmp    r14b, byte [rcx + 20]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x15713a44                           // cmp    r14b, byte [rcx + 21]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x16713a44                           // cmp    r14b, byte [rcx + 22]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x17713a44                           // cmp    r14b, byte [rcx + 23]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
-	QUAD $0x000000e824949f0f                   // setg    byte [rsp + 232]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000012024940244                   // add    r10b, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xc4                   // or    r12b, al
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xd3                   // or    bl, r10b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x78               // add    sil, byte [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0845; BYTE $0xf8                   // or    r8b, r15b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x00248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 256]
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xc308                               // or    bl, al
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x28               // movzx    ebx, byte [rsp + 40]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x30               // movzx    ebx, byte [rsp + 48]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	QUAD $0x0000016024b48b48                   // mov    rsi, qword [rsp + 352]
-	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
-	LONG $0x247cb60f; BYTE $0x10               // movzx    edi, byte [rsp + 16]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x01468844                           // mov    byte [rsi + 1], r8b
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0xe8248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 232]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000140249cb60f                   // movzx    ebx, byte [rsp + 320]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	WORD $0x5688; BYTE $0x03                   // mov    byte [rsi + 3], dl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000016024b48948                   // mov    qword [rsp + 352], rsi
-	QUAD $0x0000008024848348; BYTE $0xff       // add    qword [rsp + 128], -1
-	JNE  LBB8_39
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000016824ac8b4c                   // mov    r13, qword [rsp + 360]
-	JMP  LBB8_130
-
-LBB8_41:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB8_104
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB8_179
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_47
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_45:
-	WORD $0x394c; BYTE $0x2a                   // cmp    qword [rdx], r13
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x1945; BYTE $0xc9                   // sbb    r9d, r9d
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3045; BYTE $0xc1                   // xor    r9b, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2044; BYTE $0xcf                   // and    dil, r9b
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_45
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB8_47:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_118
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-
-LBB8_49:
-	QUAD $0x000000e8249c894c                   // mov    qword [rsp + 232], r11
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc789                               // mov    edi, eax
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001002484b60f                   // movzx    eax, byte [rsp + 256]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB8_49
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB8_119
-	JMP  LBB8_179
-
-LBB8_51:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_55
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_53:
-	LONG $0x2a394466                           // cmp    word [rdx], r13w
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0xf619                               // sbb    esi, esi
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_53
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB8_55:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_121
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
-
-LBB8_57:
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x6a3b4466; BYTE $0x02               // cmp    r13w, word [rdx + 2]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x6a3b4466; BYTE $0x04               // cmp    r13w, word [rdx + 4]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x6a3b4466; BYTE $0x06               // cmp    r13w, word [rdx + 6]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x6a3b4466; BYTE $0x08               // cmp    r13w, word [rdx + 8]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x6a3b4466; BYTE $0x0a               // cmp    r13w, word [rdx + 10]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x6a3b4466; BYTE $0x0c               // cmp    r13w, word [rdx + 12]
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x6a3b4466; BYTE $0x0e               // cmp    r13w, word [rdx + 14]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x6a3b4466; BYTE $0x10               // cmp    r13w, word [rdx + 16]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x6a3b4466; BYTE $0x12               // cmp    r13w, word [rdx + 18]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x6a3b4466; BYTE $0x14               // cmp    r13w, word [rdx + 20]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x6a3b4466; BYTE $0x16               // cmp    r13w, word [rdx + 22]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x6a3b4466; BYTE $0x18               // cmp    r13w, word [rdx + 24]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x6a3b4466; BYTE $0x1a               // cmp    r13w, word [rdx + 26]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x6a3b4466; BYTE $0x1c               // cmp    r13w, word [rdx + 28]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x6a3b4466; BYTE $0x1e               // cmp    r13w, word [rdx + 30]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x6a3b4466; BYTE $0x20               // cmp    r13w, word [rdx + 32]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x6a3b4466; BYTE $0x22               // cmp    r13w, word [rdx + 34]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x6a3b4466; BYTE $0x24               // cmp    r13w, word [rdx + 36]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x6a3b4466; BYTE $0x26               // cmp    r13w, word [rdx + 38]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x6a3b4466; BYTE $0x28               // cmp    r13w, word [rdx + 40]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x6a3b4466; BYTE $0x2a               // cmp    r13w, word [rdx + 42]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x6a3b4466; BYTE $0x2c               // cmp    r13w, word [rdx + 44]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x6a3b4466; BYTE $0x2e               // cmp    r13w, word [rdx + 46]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x6a3b4466; BYTE $0x30               // cmp    r13w, word [rdx + 48]
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x6a3b4466; BYTE $0x32               // cmp    r13w, word [rdx + 50]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x6a3b4466; BYTE $0x34               // cmp    r13w, word [rdx + 52]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x6a3b4466; BYTE $0x36               // cmp    r13w, word [rdx + 54]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x6a3b4466; BYTE $0x38               // cmp    r13w, word [rdx + 56]
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x6a3b4466; BYTE $0x3a               // cmp    r13w, word [rdx + 58]
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x6a3b4466; BYTE $0x3c               // cmp    r13w, word [rdx + 60]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x6a3b4466; BYTE $0x3e               // cmp    r13w, word [rdx + 62]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB8_57
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB8_122
-	JMP  LBB8_179
-
-LBB8_59:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_63
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_61:
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_61
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB8_63:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_67
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024b4894c // mov    qword [rsp + 144], r14
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
-
-LBB8_65:
-	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x6a3b4466; BYTE $0x02               // cmp    r13w, word [rdx + 2]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x6a3b4466; BYTE $0x04               // cmp    r13w, word [rdx + 4]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x6a3b4466; BYTE $0x06               // cmp    r13w, word [rdx + 6]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x6a3b4466; BYTE $0x08               // cmp    r13w, word [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x6a3b4466; BYTE $0x0a               // cmp    r13w, word [rdx + 10]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x6a3b4466; BYTE $0x0c               // cmp    r13w, word [rdx + 12]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x6a3b4466; BYTE $0x0e               // cmp    r13w, word [rdx + 14]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x6a3b4466; BYTE $0x10               // cmp    r13w, word [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x6a3b4466; BYTE $0x12               // cmp    r13w, word [rdx + 18]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x6a3b4466; BYTE $0x14               // cmp    r13w, word [rdx + 20]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x6a3b4466; BYTE $0x16               // cmp    r13w, word [rdx + 22]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x6a3b4466; BYTE $0x18               // cmp    r13w, word [rdx + 24]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x6a3b4466; BYTE $0x1a               // cmp    r13w, word [rdx + 26]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x6a3b4466; BYTE $0x1c               // cmp    r13w, word [rdx + 28]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x6a3b4466; BYTE $0x1e               // cmp    r13w, word [rdx + 30]
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x6a3b4466; BYTE $0x20               // cmp    r13w, word [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x6a3b4466; BYTE $0x22               // cmp    r13w, word [rdx + 34]
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x6a3b4466; BYTE $0x24               // cmp    r13w, word [rdx + 36]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x6a3b4466; BYTE $0x26               // cmp    r13w, word [rdx + 38]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x6a3b4466; BYTE $0x28               // cmp    r13w, word [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x6a3b4466; BYTE $0x2a               // cmp    r13w, word [rdx + 42]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x6a3b4466; BYTE $0x2c               // cmp    r13w, word [rdx + 44]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x6a3b4466; BYTE $0x2e               // cmp    r13w, word [rdx + 46]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x6a3b4466; BYTE $0x30               // cmp    r13w, word [rdx + 48]
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0x6a3b4466; BYTE $0x32               // cmp    r13w, word [rdx + 50]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x6a3b4466; BYTE $0x34               // cmp    r13w, word [rdx + 52]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x6a3b4466; BYTE $0x36               // cmp    r13w, word [rdx + 54]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x6a3b4466; BYTE $0x38               // cmp    r13w, word [rdx + 56]
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0x6a3b4466; BYTE $0x3a               // cmp    r13w, word [rdx + 58]
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0x6a3b4466; BYTE $0x3c               // cmp    r13w, word [rdx + 60]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0x6a3b4466; BYTE $0x3e               // cmp    r13w, word [rdx + 62]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB8_65
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-
-LBB8_67:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB8_137
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_139
-
-LBB8_70:
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_74
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_72:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_72
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB8_74:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_78
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024b4894c // mov    qword [rsp + 144], r14
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
-
-LBB8_76:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB8_76
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-
-LBB8_78:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB8_141
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_143
-
-LBB8_81:
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fac5         // vmovss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_85
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_83:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_83
-	LONG $0x01c38349             // add    r11, 1
-
-LBB8_85:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_89
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-	QUAD $0x0000008024b4894c // mov    qword [rsp + 128], r14
-	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
-
-LBB8_87:
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x78               // add    r8b, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
-	QUAD $0x0000008024848348; BYTE $0xff       // add    qword [rsp + 128], -1
-	JNE  LBB8_87
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-
-LBB8_89:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB8_145
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_147
-
-LBB8_92:
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_96
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_94:
-	WORD $0x3844; BYTE $0x32     // cmp    byte [rdx], r14b
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0xf619                 // sbb    esi, esi
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_94
-	LONG $0x01c38349             // add    r11, 1
-
-LBB8_96:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB8_124
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x04 // mov    dword [rsp + 4], r14d
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	QUAD $0x0000017024bc894c     // mov    qword [rsp + 368], r15
-	JB   LBB8_100
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB8_183
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB8_183
-
-LBB8_100:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000016824848948 // mov    qword [rsp + 360], rax
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
-
-LBB8_101:
-	QUAD $0x0000016824bc2b4c // sub    r15, qword [rsp + 360]
-	QUAD $0x0000008024bc894c // mov    qword [rsp + 128], r15
-
-LBB8_102:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343a45                           // cmp    r14b, byte [r12]
-	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
-	LONG $0x24743a45; BYTE $0x01               // cmp    r14b, byte [r12 + 1]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x24743a45; BYTE $0x02               // cmp    r14b, byte [r12 + 2]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x24743a45; BYTE $0x03               // cmp    r14b, byte [r12 + 3]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x24743a45; BYTE $0x04               // cmp    r14b, byte [r12 + 4]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x24743a45; BYTE $0x05               // cmp    r14b, byte [r12 + 5]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x24743a45; BYTE $0x06               // cmp    r14b, byte [r12 + 6]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x24743a45; BYTE $0x07               // cmp    r14b, byte [r12 + 7]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x08713a44                           // cmp    r14b, byte [rcx + 8]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x09713a44                           // cmp    r14b, byte [rcx + 9]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x0a713a44                           // cmp    r14b, byte [rcx + 10]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x0b713a44                           // cmp    r14b, byte [rcx + 11]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x0c713a44                           // cmp    r14b, byte [rcx + 12]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x0d713a44                           // cmp    r14b, byte [rcx + 13]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x0e713a44                           // cmp    r14b, byte [rcx + 14]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x0f713a44                           // cmp    r14b, byte [rcx + 15]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x10713a44                           // cmp    r14b, byte [rcx + 16]
-	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
-	LONG $0x11713a44                           // cmp    r14b, byte [rcx + 17]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x12713a44                           // cmp    r14b, byte [rcx + 18]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x13713a44                           // cmp    r14b, byte [rcx + 19]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x14713a44                           // cmp    r14b, byte [rcx + 20]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x15713a44                           // cmp    r14b, byte [rcx + 21]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x16713a44                           // cmp    r14b, byte [rcx + 22]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x17713a44                           // cmp    r14b, byte [rcx + 23]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
-	QUAD $0x000000e82494970f                   // seta    byte [rsp + 232]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
-	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
-	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
-	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000014024940244                   // add    r10b, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xc4                   // or    r12b, al
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xd3                   // or    bl, r10b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x78               // add    sil, byte [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x2474b60f; BYTE $0x48               // movzx    esi, byte [rsp + 72]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0845; BYTE $0xf8                   // or    r8b, r15b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x00248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 256]
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xc308                               // or    bl, al
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x28               // movzx    ebx, byte [rsp + 40]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x30               // movzx    ebx, byte [rsp + 48]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	QUAD $0x0000016024b48b48                   // mov    rsi, qword [rsp + 352]
-	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
-	LONG $0x247cb60f; BYTE $0x10               // movzx    edi, byte [rsp + 16]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x01468844                           // mov    byte [rsi + 1], r8b
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0xe8248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 232]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	WORD $0x5688; BYTE $0x03                   // mov    byte [rsi + 3], dl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000016024b48948                   // mov    qword [rsp + 352], rsi
-	QUAD $0x0000008024848348; BYTE $0xff       // add    qword [rsp + 128], -1
-	JNE  LBB8_102
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000017024bc8b4c                   // mov    r15, qword [rsp + 368]
-	JMP  LBB8_125
-
-LBB8_104:
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_108
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_106:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_106
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB8_108:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_112
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	QUAD $0x0000009024b4894c // mov    qword [rsp + 144], r14
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-
-LBB8_110:
-	QUAD $0x000000e8249c894c                   // mov    qword [rsp + 232], r11
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001002484b60f                   // movzx    eax, byte [rsp + 256]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB8_110
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-
-LBB8_112:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB8_150
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_152
-
-LBB8_115:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_179
-
-LBB8_116:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_156
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB8_158
-
-LBB8_118:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_179
-
-LBB8_119:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_160
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB8_162
-
-LBB8_121:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_179
-
-LBB8_122:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_164
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB8_166
-
-LBB8_124:
-	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-
-LBB8_125:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_169
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB8_172
-
-LBB8_128:
-	WORD $0x894d; BYTE $0xdf // mov    r15, r11
-	LONG $0x05fdc149         // sar    r13, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JGE  LBB8_34
-
-LBB8_129:
-	QUAD $0x0000016024bc894c // mov    qword [rsp + 352], r15
-	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
-
-LBB8_130:
-	LONG $0x05e5c149         // shl    r13, 5
-	WORD $0x394d; BYTE $0xd5 // cmp    r13, r10
-	JGE  LBB8_179
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xe8 // sub    r8, r13
-	WORD $0xf749; BYTE $0xd5 // not    r13
-	WORD $0x014d; BYTE $0xd5 // add    r13, r10
-	JNE  LBB8_174
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB8_177
-
-LBB8_133:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB8_134:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x10c28348             // add    rdx, 16
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_134
-
-LBB8_135:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB8_179
-	LONG $0x022ef9c5 // vucomisd    xmm0, qword [rdx]
-	JMP  LBB8_149
-
-LBB8_137:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB8_138:
-	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x6a3b4466; BYTE $0x02 // cmp    r13w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd19f0f41             // setg    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_138
-
-LBB8_139:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB8_179
-	LONG $0x2a3b4466 // cmp    r13w, word [rdx]
-	JMP  LBB8_154
-
-LBB8_141:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB8_142:
-	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd19f0f41             // setg    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_142
-
-LBB8_143:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_179
-	WORD $0x3b4c; BYTE $0x2a // cmp    r13, qword [rdx]
-	JMP  LBB8_154
-
-LBB8_145:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB8_146:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_146
-
-LBB8_147:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB8_179
-	LONG $0x022ef8c5 // vucomiss    xmm0, dword [rdx]
-
-LBB8_149:
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	JMP  LBB8_155
-
-LBB8_150:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB8_151:
-	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd19f0f41             // setg    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_151
-
-LBB8_152:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_179
-	WORD $0x3b44; BYTE $0x2a // cmp    r13d, dword [rdx]
-
-LBB8_154:
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-
-LBB8_155:
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x13348a41         // mov    sil, byte [r11 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
-	JMP  LBB8_179
-
-LBB8_156:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB8_157:
-	WORD $0x3944; BYTE $0x2a     // cmp    dword [rdx], r13d
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046a3944             // cmp    dword [rdx + 4], r13d
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB8_157
-
-LBB8_158:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_179
-	WORD $0x3944; BYTE $0x2a // cmp    dword [rdx], r13d
-	JMP  LBB8_168
-
-LBB8_160:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB8_161:
-	WORD $0x394c; BYTE $0x2a     // cmp    qword [rdx], r13
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086a394c             // cmp    qword [rdx + 8], r13
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB8_161
-
-LBB8_162:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_179
-	WORD $0x394c; BYTE $0x2a // cmp    qword [rdx], r13
-	JMP  LBB8_168
-
-LBB8_164:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB8_165:
-	LONG $0x2a394466             // cmp    word [rdx], r13w
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6a394466; BYTE $0x02 // cmp    word [rdx + 2], r13w
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB8_165
-
-LBB8_166:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB8_179
-	LONG $0x2a394466 // cmp    word [rdx], r13w
-
-LBB8_168:
-	WORD $0xc019             // sbb    eax, eax
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-	JMP  LBB8_179
-
-LBB8_169:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000016024948b4c // mov    r10, qword [rsp + 352]
-
-LBB8_170:
-	LONG $0x04343845             // cmp    byte [r12 + rax], r14b
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x1cb60f41; BYTE $0x3a // movzx    ebx, byte [r10 + rdi]
-	WORD $0x3040; BYTE $0xde     // xor    sil, bl
-	WORD $0x2040; BYTE $0xf2     // and    dl, sil
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3a148841             // mov    byte [r10 + rdi], dl
-	LONG $0x04743845; BYTE $0x01 // cmp    byte [r12 + rax + 1], r14b
-	LONG $0x02408d48             // lea    rax, [rax + 2]
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x3040; BYTE $0xd6     // xor    sil, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x3a1c8841             // mov    byte [r10 + rdi], bl
-	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
-	JNE  LBB8_170
-	WORD $0x0149; BYTE $0xc4     // add    r12, rax
-
-LBB8_172:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_179
-	LONG $0x24343845         // cmp    byte [r12], r14b
-	WORD $0xd219             // sbb    edx, edx
-	WORD $0x8948; BYTE $0xc6 // mov    rsi, rax
-	LONG $0x03eec148         // shr    rsi, 3
-	QUAD $0x0000016024848b4c // mov    r8, qword [rsp + 352]
-	LONG $0x303c8a41         // mov    dil, byte [r8 + rsi]
-	WORD $0x0724             // and    al, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xfa // xor    dl, dil
-	WORD $0xd320             // and    bl, dl
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	JMP  LBB8_179
-
-LBB8_174:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000160249c8b4c // mov    r11, qword [rsp + 352]
-
-LBB8_175:
-	LONG $0x34343a45             // cmp    r14b, byte [r12 + rsi]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743a45; BYTE $0x01 // cmp    r14b, byte [r12 + rsi + 1]
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB8_175
-	WORD $0x0149; BYTE $0xf4     // add    r12, rsi
-
-LBB8_177:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_179
-	LONG $0x24343a45         // cmp    r14b, byte [r12]
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000016024848b4c // mov    r8, qword [rsp + 352]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-
-LBB8_179:
-	MOVQ 1312(SP), SP
-	VZEROUPPER
-	RET
-
-LBB8_180:
-	LONG $0xe0e58349                     // and    r13, -32
-	WORD $0x894c; BYTE $0xe8             // mov    rax, r13
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000017024848948             // mov    qword [rsp + 368], rax
-	QUAD $0x0000018024ac894c             // mov    qword [rsp + 384], r13
-	LONG $0xaf048d4b                     // lea    rax, [r15 + 4*r13]
-	QUAD $0x0000016024848948             // mov    qword [rsp + 352], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00024024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 576], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
-
-LBB8_181:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000017824848948                   // mov    qword [rsp + 376], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x3244b60f; BYTE $0x02               // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000220248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 544], xmm1
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x3244b60f; BYTE $0x03               // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x3244b60f; BYTE $0x04               // movzx    eax, byte [rdx + rsi + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x3244b60f; BYTE $0x05               // movzx    eax, byte [rdx + rsi + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x3244b60f; BYTE $0x06               // movzx    eax, byte [rdx + rsi + 6]
-	QUAD $0x000000d824b48948                   // mov    qword [rsp + 216], rsi
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x3244b60f; BYTE $0x07               // movzx    eax, byte [rdx + rsi + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	QUAD $0x0000010024848948                   // mov    qword [rsp + 256], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	LONG $0x40cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 576
-	QUAD $0x00000090249c8948                   // mov    qword [rsp + 144], rbx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	LONG $0x80cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 640
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0xa0ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 672
-	LONG $0x2474894c; BYTE $0x18               // mov    qword [rsp + 24], r14
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0xc0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 704
-	LONG $0x2454894c; BYTE $0x68               // mov    qword [rsp + 104], r10
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xe0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 736
-	QUAD $0x000000b024bc8948                   // mov    qword [rsp + 176], rdi
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
-	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
-	QUAD $0x00000088249c894c                   // mov    qword [rsp + 136], r11
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x60c98149; WORD $0x0003; BYTE $0x00 // or    r9, 864
-	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
-	QUAD $0x000000a82484894c                   // mov    qword [rsp + 168], r8
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	LONG $0xa0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 928
-	QUAD $0x000000c824b48948                   // mov    qword [rsp + 200], rsi
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e0248c8948                   // mov    qword [rsp + 224], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	QUAD $0x00000098248c8948                   // mov    qword [rsp + 152], rcx
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	LONG $0x207923c4; WORD $0x2a0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r13], 1
-	LONG $0x2031e3c4; WORD $0x1a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rbx], 2
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 3
-	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + r12], 4
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	QUAD $0x000000a024a4894c                   // mov    qword [rsp + 160], r12
-	LONG $0x2079a3c4; WORD $0x3204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r14], 5
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + r10], 6
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 8
-	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 9
-	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r11], 10
-	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r9], 11
-	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + r8], 12
-	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
-	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
-	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 15
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 1
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 2
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r12], 3
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + r10], 6
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 7
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 9
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 11
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 13
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 14
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 15
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x01013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x02013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 2
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x03013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 3
-	QUAD $0x04012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 4
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x05012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 5
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x06013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 6
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x07013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x09013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 11
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0c013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 12
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0d013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 14
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x0f012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 15
-	QUAD $0x0101326c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r14 + 1], 1
-	QUAD $0x02011a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 1], 2
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
-	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
-	QUAD $0x05010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 5
-	QUAD $0x0601126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 1], 6
-	QUAD $0x07013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 7
-	QUAD $0x0801326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 8
-	QUAD $0x0901026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 9
-	QUAD $0x0a011a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 1], 10
-	QUAD $0x0b010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 11
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0102442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 1], 15
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xce6e79c5                           // vmovd    xmm9, esi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xd66e79c5                           // vmovd    xmm10, esi
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x00022024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 544]
-	QUAD $0x010202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02020a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 2], 2
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x030212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x060202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x070202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 7
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x080222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 2], 8
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x09022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 9
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x0a020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 10
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0b021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 11
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0c0232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 2], 12
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x0d023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 1
-	QUAD $0x02023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0302325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 3
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0402325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 4
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0502325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 5
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0602325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 6
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x08021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 9
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0a023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 10
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0b023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 11
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0c023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 13
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x0e023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 14
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0f023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 15
-	QUAD $0x010302642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r8 + 3], 1
-	QUAD $0x02030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 2
-	QUAD $0x030312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x04030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 4
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x05033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 5
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x06033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 6
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x07030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 7
-	QUAD $0x080322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 3], 8
-	QUAD $0x09032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 9
-	QUAD $0x0a030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 10
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	QUAD $0x0b031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 11
-	QUAD $0x0c0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 12
-	QUAD $0x0d033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 13
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0e031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 14
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x0f0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 15
-	QUAD $0x0103026c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + rax + 3], 1
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x02030a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 3], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0403026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 4
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0503026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0603026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 6
-	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
-	QUAD $0x08031a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 3], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0903026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 10
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
-	LONG $0xc66e79c5                           // vmovd    xmm8, esi
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0302442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
-	LONG $0xde6e79c5                           // vmovd    xmm11, esi
-	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x010402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x020402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 2
-	QUAD $0x030412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 4], 3
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x04042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x050402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 5
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	QUAD $0x06043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 6
-	QUAD $0x07040a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 4], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 8
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x090432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 4], 9
-	QUAD $0x0a0402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 10
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0b0402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 11
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0c040a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 4], 12
-	QUAD $0x0d0422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 4], 13
-	QUAD $0x0e041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 14
-	QUAD $0x0f0432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 4], 15
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0104325c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rdx + rsi + 4], 1
-	QUAD $0x02040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 2
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x03041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 3
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x0404225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 4], 4
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x05040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 5
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0604325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 6
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x07041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 7
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x08040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 9
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0a040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 10
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0b04325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 11
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0c040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 13
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	QUAD $0x0e04125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 15
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x010512642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + r10 + 5], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 2
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x03050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 3
-	QUAD $0x04052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 4
-	QUAD $0x050502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 5
-	QUAD $0x06053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 6
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x07050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 7
-	QUAD $0x08053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x090502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 9
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x0a052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 10
-	QUAD $0x0b0502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 11
-	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
-	QUAD $0x0c0502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 12
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0d0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0105026c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rax + 5], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0205026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 2
-	QUAD $0x03051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 3
-	QUAD $0x0405226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 5], 4
-	QUAD $0x05050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 5
-	QUAD $0x0605326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 5], 6
-	QUAD $0x07051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 7
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x08050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0905026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
-	QUAD $0x0b05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 11
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f0502442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 5], 15
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	QUAD $0x010612442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + r10 + 6], 1
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x020632442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 6], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x030602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x040602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x050632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 5
-	QUAD $0x06063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 6
-	QUAD $0x07060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 7
-	QUAD $0x08063a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 6], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 9
-	QUAD $0x0a062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 11
-	QUAD $0x0c0602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 12
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x0d0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 15
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0106126c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r10 + 6], 1
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x02061a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 6], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0306326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 3
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0406326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 4
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0506326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 5
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x06061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 6
-	QUAD $0x0706226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 7
-	QUAD $0x08060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x09063a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 6], 9
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0a061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 10
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0b060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 11
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	QUAD $0x0c06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 12
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0d062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 13
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x0e061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 14
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0f061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 15
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x01071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 1
-	QUAD $0x020732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 2
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x03071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 3
-	QUAD $0x040702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 4
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x050702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x060702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x070702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 7
-	QUAD $0x08073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 8
-	QUAD $0x09070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 11
-	QUAD $0x0c0702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 12
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0d0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 14
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x0f070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 15
-	QUAD $0x0107124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 7], 1
-	QUAD $0x02071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x03070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 3
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
-	QUAD $0x0507324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x06070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 6
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x07070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 7
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x08070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 8
-	QUAD $0x09073a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 7], 9
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
-	QUAD $0x0b070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 11
-	QUAD $0x0c07224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 12
-	QUAD $0x0d072a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00020024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e070a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rcx + 7], 14
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f070a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x01080a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rcx + 8], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 2
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x03082a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 8], 3
-	QUAD $0x040832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 8], 4
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x05080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 5
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x060832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 6
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x070832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 7
-	QUAD $0x08083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 8
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x090802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 9
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x0a0812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 11
-	QUAD $0x0c081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 12
-	QUAD $0x0d0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 14
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x0f080a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 8], 15
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x01081a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r11 + 8], 1
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x0208326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0308326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 3
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0408326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 4
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x05081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 5
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x06083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 6
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x0708226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 7
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x0808326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 9
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0a081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 10
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0b081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 11
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0c081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 12
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0d08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 13
-	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
-	QUAD $0x0e08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 14
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0f081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 15
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x01091a742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rbx + 9], 1
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x02091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 2
-	QUAD $0x03092a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 9], 3
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x04091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 4
-	QUAD $0x05090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 5
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x06090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 6
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x07091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 7
-	QUAD $0x08093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 8
-	QUAD $0x090902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 9
-	QUAD $0x0a0912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 11
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0c093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 12
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0d093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 13
-	QUAD $0x0e0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 14
-	QUAD $0x0f090a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 9], 15
-	QUAD $0x01091a7c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + r11 + 9], 1
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x02090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0309027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 3
-	QUAD $0x0409327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 4
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0509027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 5
-	QUAD $0x06093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 6
-	QUAD $0x0709227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 9], 7
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x08093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0909027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 10
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0b09227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 9], 11
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	QUAD $0x0e09327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0f09326c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r14 + 9], 15
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00048024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm5
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xee6ef9c5                           // vmovd    xmm5, esi
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x010a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 1
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x020a2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 10], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x030a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 3
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x040a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x050a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 5
-	QUAD $0x060a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x070a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 7
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x080a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x090a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 10
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	QUAD $0x0b0a1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 10], 11
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x0c0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 12
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x0d0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 15
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x010a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 1
-	QUAD $0x020a0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 10], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x030a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 3
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x040a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 4
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x050a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 5
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x060a0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 10], 6
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
-	QUAD $0x080a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x090a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 9
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0a0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 10
-	QUAD $0x0b0a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 11
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0c0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 13
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x0e0a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 14
-	QUAD $0x0f0a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 15
-	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
-	QUAD $0x010b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 1
-	QUAD $0x020b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 2
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x030b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 3
-	QUAD $0x040b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 4
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x050b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 5
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x060b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 6
-	QUAD $0x070b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 7
-	QUAD $0x080b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x090b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 10
-	QUAD $0x0b0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 11
-	QUAD $0x0c0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 12
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	QUAD $0x0d0b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 14
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x0f0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 15
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x010b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 1
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x020b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 2
-	QUAD $0x030b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 3
-	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x040b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 4
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x050b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 5
-	QUAD $0x060b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 11], 6
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x070b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 7
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x080b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 8
-	QUAD $0x090b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 9
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0a0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0b0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 11
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0c0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 12
-	QUAD $0x0d0b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000460249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm3
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 14
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	LONG $0x0a74b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rcx + 13]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0f0b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000440248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rcx + 13]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x010c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x020c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 2
-	QUAD $0x030c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 3
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x040c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 12], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x050c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 5
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x060c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 6
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x070c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 7
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x080c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 8
-	QUAD $0x090c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 9
-	QUAD $0x0a0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 11
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0c0c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 12
-	QUAD $0x0d0c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 12], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 15
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x010c02542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r8 + 12], 1
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
-	QUAD $0x030c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 3
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x040c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 4
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x050c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 5
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x060c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 6
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x070c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 7
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x080c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x090c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 9
-	QUAD $0x0a0c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 10
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
-	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
-	QUAD $0x0c0c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 13
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	QUAD $0x0e0c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 14
-	QUAD $0x0f0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 15
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x010d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 1
-	QUAD $0x020d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 2
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x030d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 3
-	QUAD $0x040d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 4
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x050d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 5
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x060d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 6
-	QUAD $0x070d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 7
-	QUAD $0x080d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 13], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x090d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 9
-	QUAD $0x0a0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 11
-	QUAD $0x0c0d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 13], 12
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0d0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 14
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0f0d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 13], 15
-	QUAD $0x010d024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 13], 1
-	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
-	WORD $0x8949; BYTE $0xf0                   // mov    r8, rsi
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x030d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 3
-	QUAD $0x040d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 4
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x050d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 5
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x060d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x070d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 7
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x080d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x090d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 9
-	QUAD $0x0a0d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 10
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x0b0d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 11
-	LONG $0x24748b4c; BYTE $0x08               // mov    r14, qword [rsp + 8]
-	QUAD $0x0c0d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d0d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 13
-	QUAD $0x0e0d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
-	QUAD $0x0f0d22442071a3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + r12 + 13], 15
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	LONG $0x3274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rsi + 14]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rsi + 14]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x010e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 1
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x020e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x030e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x040e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 4
-	QUAD $0x050e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 5
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x060e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 6
-	QUAD $0x070e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x080e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 8
-	QUAD $0x090e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 10
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0b0e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 11
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0c0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 12
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x0d0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 13
-	QUAD $0x0e0e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 14
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x0f0e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 15
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x010e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 14], 1
-	QUAD $0x020e02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 14], 2
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x030e02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 14], 3
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x040e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 14], 4
-	QUAD $0x050e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 14], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x060e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 14], 6
-	QUAD $0x070e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 7
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x080e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 14], 8
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x090e2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 14], 9
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0a0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 10
-	QUAD $0x0b0e3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 14], 11
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x0c0e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d0e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 14], 13
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0e0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 14
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0f0e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 15
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	LONG $0x3274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rsi + 15]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x010f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 1
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x020f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x030f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x040f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x050f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 5
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x060f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 6
-	QUAD $0x070f12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 15], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x080f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 8
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x090f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a0f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 10
-	QUAD $0x0b0f22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 15], 11
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0c0f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 12
-	QUAD $0x0d0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 14
-	QUAD $0x0f0f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rsi + 15]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x010f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 1
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x020f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 2
-	QUAD $0x030f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 3
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x040f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 4
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x050f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 5
-	QUAD $0x060f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x070f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 7
-	QUAD $0x080f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 8
-	QUAD $0x090f2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 15], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 10
-	QUAD $0x0b0f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 11
-	QUAD $0x0c0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 12
-	QUAD $0x0d0f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 13
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	QUAD $0x0e0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 14
-	QUAD $0x0f0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 15
-	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	LONG $0x74b60f42; WORD $0x103a             // movzx    esi, byte [rdx + r15 + 16]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x011002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 1
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x021032442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 16], 2
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x03103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x041002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x051002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x061002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x071002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 11
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0c1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 12
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0d101a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 16], 13
-	QUAD $0x0e100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 14
-	QUAD $0x0f100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rax + 16]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 1
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x02100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x03100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 3
-	QUAD $0x0410124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 4
-	QUAD $0x0510024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 16], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x06100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 6
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x07100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 7
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x08100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 8
-	QUAD $0x09102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 9
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0a100a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 16], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0b100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 11
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0c100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 13
-	QUAD $0x0e101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 14
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	QUAD $0x0f10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	LONG $0x74b60f42; WORD $0x113a             // movzx    esi, byte [rdx + r15 + 17]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x01113a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 17], 1
-	QUAD $0x021132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 2
-	QUAD $0x03113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x051132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 5
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x061112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 6
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x071132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 7
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x081102542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 17], 8
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x09111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 9
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x0a1132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 11
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0c1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 12
-	QUAD $0x0d111a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 17], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e111a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 17], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 15
-	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0111225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 17], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0211025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0311025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 3
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0411025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 4
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0511025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0611025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0711025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 7
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0811025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0911325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 9
-	QUAD $0x0a110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 10
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x0b11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 11
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 13
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0e11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x0f112a442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r13 + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x0a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rcx + 18]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x01123a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 18], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 2
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x03122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 3
-	QUAD $0x04123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 4
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x05120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 5
-	QUAD $0x061212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 6
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x071232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 7
-	QUAD $0x081202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 18], 8
-	QUAD $0x09121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 9
-	QUAD $0x0a1232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 18], 10
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0b1202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 18], 11
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x0c120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 12
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x0d1212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 13
-	QUAD $0x0e121a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 18], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rsi + 18]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0112224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 1
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x02121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 2
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0312224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 3
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x04123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 4
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0512324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 5
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x06123a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 18], 6
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0712324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 7
-	QUAD $0x0812024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0912024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 10
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0b12324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 11
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0c12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 15
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x13               // movzx    esi, byte [rdx + rax + 19]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x011302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 1
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x021332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 2
-	QUAD $0x03132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 4
-	QUAD $0x05130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 5
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x06130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 6
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x07132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 10
-	QUAD $0x0b1302542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 19], 11
-	QUAD $0x0c130a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 19], 12
-	QUAD $0x0d1312542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 19], 13
-	QUAD $0x0e131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 14
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x0f131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 15
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rcx + 19]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0113125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 1
-	QUAD $0x02131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 2
-	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
-	QUAD $0x0313225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 3
-	QUAD $0x04133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 4
-	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0513225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 5
-	QUAD $0x06133a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 19], 6
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x07130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 7
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x08133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 8
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x09130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 9
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0a13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 10
-	QUAD $0x0b13325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 11
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0c13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 13
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0e13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	LONG $0x74b60f42; WORD $0x143a             // movzx    esi, byte [rdx + r15 + 20]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x011402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x021402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x031402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x041402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x051402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x061402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 6
-	QUAD $0x07142a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 20], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 11
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0c1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 12
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0d1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 14
-	QUAD $0x0f141a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 20], 15
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	LONG $0x1a74b60f; BYTE $0x14               // movzx    esi, byte [rdx + rbx + 20]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0114124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 1
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x0214324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 20], 2
-	QUAD $0x0314024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 20], 3
-	QUAD $0x04141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 4
-	QUAD $0x0514224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 5
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0614124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 6
-	QUAD $0x07140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 7
-	QUAD $0x08143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 8
-	QUAD $0x09140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 9
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0a140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 10
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0b14224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 11
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0c143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 13
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	QUAD $0x0e141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 14
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0f140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 15
-	LONG $0x74b60f42; WORD $0x153a             // movzx    esi, byte [rdx + r15 + 21]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x011532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 1
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x021502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 2
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x03152a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 21], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x051532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 5
-	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
-	QUAD $0x06153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 6
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x071532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x081532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 8
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x091532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 11
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0c1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 12
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x0d1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 15
-	LONG $0x1a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rbx + 21]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0115325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 1
-	QUAD $0x0215325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0315325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 3
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0415325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 4
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0515325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 5
-	QUAD $0x0615125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 6
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x0715125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 7
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0815325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0915325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 9
-	QUAD $0x0a150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 10
-	QUAD $0x0b15225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 21], 11
-	QUAD $0x0c153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 12
-	QUAD $0x0d15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 13
-	QUAD $0x0e151a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x0f150a442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r9 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x011602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 1
-	QUAD $0x021602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 2
-	QUAD $0x03162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 3
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x04160a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 22], 4
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x051622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 5
-	QUAD $0x06163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 6
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x07161a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 22], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 9
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0a1602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b160a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 22], 11
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0c160a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 22], 12
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x0d160a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 22], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e160a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 22], 14
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x0f161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 15
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x16               // movzx    esi, byte [rdx + rcx + 22]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x01160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 1
-	QUAD $0x0216324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x03160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 3
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x04160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 4
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x06160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 6
-	QUAD $0x0716124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 7
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x08160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 9
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0a160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 10
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x0b163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 11
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0c160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 13
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0e16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 14
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0f162a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 22], 15
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	LONG $0x3274b60f; BYTE $0x17               // movzx    esi, byte [rdx + rsi + 23]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x011732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 1
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x021732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x031732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 3
-	QUAD $0x04170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 4
-	QUAD $0x051722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 5
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x06170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 6
-	QUAD $0x07171a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 23], 7
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	QUAD $0x08173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 8
-	QUAD $0x091702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 9
-	QUAD $0x0a1702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 23], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 11
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0c1702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 12
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0d1702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e171a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 23], 14
-	QUAD $0x0f171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 15
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	LONG $0x74b60f42; WORD $0x1702             // movzx    esi, byte [rdx + r8 + 23]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0117025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 1
-	QUAD $0x0217325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 2
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x0317325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 3
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x04171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 4
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x05173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 5
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0617325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 6
-	QUAD $0x0717125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 7
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0817325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0917325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 9
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0a17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 10
-	QUAD $0x0b173a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 23], 11
-	QUAD $0x0c170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 13
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 14
-	QUAD $0x0f172a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	LONG $0x0a74b60f; BYTE $0x18               // movzx    esi, byte [rdx + rcx + 24]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x01182a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 24], 1
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x021832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x031832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x051832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 5
-	QUAD $0x06180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 6
-	QUAD $0x071822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x081832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 8
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x091822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 11
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0c1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 12
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x0d1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 13
-	QUAD $0x0e181a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 24], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 15
-	LONG $0x74b60f42; WORD $0x1802             // movzx    esi, byte [rdx + r8 + 24]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0118024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 1
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x02180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 2
-	QUAD $0x0318324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 3
-	QUAD $0x04181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 4
-	QUAD $0x05183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0618024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 6
-	QUAD $0x0718124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 7
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0818024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 8
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0918124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 9
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0a183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 10
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x0b18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 11
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0c18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 13
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x0e18024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 15
-	LONG $0x0a74b60f; BYTE $0x19               // movzx    esi, byte [rdx + rcx + 25]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x01192a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 25], 1
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x02192a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 25], 2
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x03191a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 25], 3
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x04191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 4
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x05190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 5
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x06190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 6
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x071932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 7
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x081932542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 25], 8
-	QUAD $0x091922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a1932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 10
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0b1922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 11
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0c1932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 12
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x0d193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e1932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 14
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0f1932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rsi + 25]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0119325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 1
-	QUAD $0x02190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0319325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 3
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0419325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 4
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0519325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 5
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0619325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 6
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0719325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 7
-	QUAD $0x0819025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 8
-	QUAD $0x0919125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 9
-	QUAD $0x0a193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 10
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0b190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 11
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0c19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 13
-	QUAD $0x0e19025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1902442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rax + 25], 15
-	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	LONG $0x74b60f42; WORD $0x1a3a             // movzx    esi, byte [rdx + r15 + 26]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x011a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 1
-	QUAD $0x021a2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 26], 2
-	QUAD $0x031a1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 26], 3
-	QUAD $0x041a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x051a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 5
-	QUAD $0x061a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 6
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x071a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 7
-	QUAD $0x081a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 10
-	QUAD $0x0b1a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 11
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0c1a1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 26], 12
-	QUAD $0x0d1a3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 26], 13
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x0e1a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 14
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0f1a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rax + 26]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x011a1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 26], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x021a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x031a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 3
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x041a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 4
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x051a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 5
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x061a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x071a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 7
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x081a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 8
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x091a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 9
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0a1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 10
-	QUAD $0x0b1a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 11
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0c1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 12
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x0d1a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 13
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0e1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 15
-	LONG $0x74b60f42; WORD $0x1b3a             // movzx    esi, byte [rdx + r15 + 27]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x011b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 1
-	QUAD $0x021b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 27], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x031b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 4
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x051b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 5
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x061b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 6
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x071b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x081b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 8
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x091b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a1b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b1b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 11
-	QUAD $0x0c1b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 27], 12
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x0d1b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 27], 13
-	QUAD $0x0e1b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 27], 14
-	QUAD $0x0f1b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 15
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	LONG $0x74b60f42; WORD $0x1b22             // movzx    esi, byte [rdx + r12 + 27]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x011b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 1
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x021b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 2
-	QUAD $0x031b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 3
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x041b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 4
-	QUAD $0x051b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 5
-	QUAD $0x061b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 6
-	QUAD $0x071b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 7
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x081b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 8
-	QUAD $0x091b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 9
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0a1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0b1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 11
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0c1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 12
-	QUAD $0x0d1b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 13
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x0e1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	LONG $0x0a74b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rcx + 28]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	QUAD $0x011c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 1
-	QUAD $0x021c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 2
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x031c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x041c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 4
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x051c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 5
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x061c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 6
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x071c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 28], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x081c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x091c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 9
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x0a1c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 10
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0b1c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 11
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0c1c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 12
-	QUAD $0x0d1c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e1c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 14
-	QUAD $0x0f1c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 15
-	LONG $0x74b60f42; WORD $0x1c22             // movzx    esi, byte [rdx + r12 + 28]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x011c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 1
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	QUAD $0x021c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 2
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x041c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 4
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x051c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 5
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x061c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 6
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x071c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 7
-	QUAD $0x081c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x091c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 9
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0a1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 10
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0b1c1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 28], 11
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0c1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 13
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0e1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 15
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x0274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rax + 29]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x011d32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 29], 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x021d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x031d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 3
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x041d32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 29], 4
-	QUAD $0x051d2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 29], 5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x061d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 6
-	QUAD $0x071d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 8
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x091d32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 29], 9
-	QUAD $0x0a1d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 10
-	QUAD $0x0b1d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 11
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0c1d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 12
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x0d1d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 14
-	QUAD $0x0f1d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 15
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	LONG $0x74b60f42; WORD $0x1d2a             // movzx    esi, byte [rdx + r13 + 29]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x011d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 29], 1
-	QUAD $0x021d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 2
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x031d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 29], 3
-	QUAD $0x041d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 4
-	QUAD $0x051d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 5
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x061d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 6
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x071d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 7
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x081d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 8
-	QUAD $0x091d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 10
-	QUAD $0x0b1d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 29], 11
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0c1d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 29], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d1d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e1d02642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + rax + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1d02442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + rax + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	LONG $0x74b60f42; WORD $0x1e3a             // movzx    esi, byte [rdx + r15 + 30]
-	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x011e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 1
-	LONG $0x74b60f42; WORD $0x1f3a             // movzx    esi, byte [rdx + r15 + 31]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x011f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
-	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
-	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x061e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 6
-	QUAD $0x061f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 6
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
-	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
-	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 9
-	QUAD $0x091f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 11
-	QUAD $0x0c1e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 30], 12
-	QUAD $0x0c1f324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 31], 12
-	QUAD $0x0d1e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 30], 13
-	QUAD $0x0d1f124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 31], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 14
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
-	LONG $0x44b60f42; WORD $0x1e2a             // movzx    eax, byte [rdx + r13 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x011e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f2a             // movzx    eax, byte [rdx + r13 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f027c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r8 + 31], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x021e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 2
-	QUAD $0x021f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 2
-	QUAD $0x031e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 30], 3
-	QUAD $0x031f227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 31], 3
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x041e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 4
-	QUAD $0x041f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 4
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
-	QUAD $0x061e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 30], 6
-	QUAD $0x061f0a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 31], 6
-	QUAD $0x071e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 7
-	QUAD $0x071f1a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 31], 7
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
-	QUAD $0x0c1e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 30], 12
-	QUAD $0x0c1f1a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 31], 12
-	QUAD $0x0d1e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 30], 13
-	QUAD $0x0d1f0a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 31], 13
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00010024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 256], ymm0
-	QUAD $0x00024024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 576]
-	QUAD $0x0004e0249464fdc5; BYTE $0x00       // vpcmpgtb    ymm2, ymm0, yword [rsp + 1248]
-	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI8_0] */
-	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
-	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
-	LONG $0x647dc1c4; BYTE $0xff               // vpcmpgtb    ymm7, ymm0, ymm15
-	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
-	QUAD $0x00022024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 544]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI8_1] */
-	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x0001c024bc64fdc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm0, yword [rsp + 448]
-	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI8_2] */
-	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
-	LONG $0x647d41c4; BYTE $0xe6               // vpcmpgtb    ymm12, ymm0, ymm14
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI8_3] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0001a024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 416]
-	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI8_4] */
-	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
-	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
-	QUAD $0x00020024bc64fdc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm0, yword [rsp + 512]
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI8_5] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x0004c024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 1216]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
-	QUAD $0x00048024bc64fdc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm0, yword [rsp + 1152]
-	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
-	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
-	QUAD $0x0004a024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 1184]
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	QUAD $0x000460249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 1120]
-	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
-	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000440249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 1088]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x00042024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 1056]
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	QUAD $0x00040024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 1024]
-	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
-	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x0003c0249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 960]
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	QUAD $0x0003e024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 992]
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
-	QUAD $0x00038024bc64fdc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm0, yword [rsp + 896]
-	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
-	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
-	QUAD $0x0003a0249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 928]
-	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
-	QUAD $0x00034024b4647dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm0, yword [rsp + 832]
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	QUAD $0x000360249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 864]
-	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
-	QUAD $0x00030024b4647dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm0, yword [rsp + 768]
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	QUAD $0x00032024b4647dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm0, yword [rsp + 800]
-	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
-	LONG $0x647d41c4; BYTE $0xd2               // vpcmpgtb    ymm10, ymm0, ymm10
-	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
-	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
-	QUAD $0x0002e0249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 736]
-	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
-	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	LONG $0x647d41c4; BYTE $0xc0               // vpcmpgtb    ymm8, ymm0, ymm8
-	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
-	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
-	LONG $0x647d41c4; BYTE $0xc9               // vpcmpgtb    ymm9, ymm0, ymm9
-	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
-	QUAD $0x00026024ac64fdc5; BYTE $0x00       // vpcmpgtb    ymm5, ymm0, yword [rsp + 608]
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x00028024b464fdc5; BYTE $0x00       // vpcmpgtb    ymm6, ymm0, yword [rsp + 640]
-	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
-	QUAD $0x0002c0249c64fdc5; BYTE $0x00       // vpcmpgtb    ymm3, ymm0, yword [rsp + 704]
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
-	QUAD $0x0002a024a464fdc5; BYTE $0x00       // vpcmpgtb    ymm4, ymm0, yword [rsp + 672]
-	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI8_4] */
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000120248c64fdc5; BYTE $0x00       // vpcmpgtb    ymm1, ymm0, yword [rsp + 288]
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	QUAD $0x000100249464fdc5; BYTE $0x00       // vpcmpgtb    ymm2, ymm0, yword [rsp + 256]
-	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
-	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
-	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
-	LONG $0x7f7ec1c4; WORD $0x8f44; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8f64; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8f0c             // vmovdqu    yword [r15 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB8_181
-	QUAD $0x0000016824ac8b4c                   // mov    r13, qword [rsp + 360]
-	QUAD $0x0000018024ac3b4c                   // cmp    r13, qword [rsp + 384]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	QUAD $0x0000017024a48b4c                   // mov    r12, qword [rsp + 368]
-	JNE  LBB8_38
-	JMP  LBB8_130
-
-LBB8_183:
-	LONG $0xe0e78349             // and    r15, -32
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	QUAD $0x000001f824848948     // mov    qword [rsp + 504], rax
-	QUAD $0x0000016824bc894c     // mov    qword [rsp + 360], r15
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000016024848948     // mov    qword [rsp + 352], rax
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e8249c894c     // mov    qword [rsp + 232], r11
-
-LBB8_184:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000017824848948                   // mov    qword [rsp + 376], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x18               // mov    qword [rsp + 24], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xe86ef9c5                           // vmovd    xmm5, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x3a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rdi + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
-	LONG $0x3a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rdi + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x3a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rdi + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000200248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 512], xmm1
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x3a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rdi + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x3a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rdi + 6]
-	QUAD $0x000000c824bc8948                   // mov    qword [rsp + 200], rdi
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x3a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rdi + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02800d48; WORD $0x0000             // or    rax, 640
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0xa0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 672
-	LONG $0x244c894c; BYTE $0x28               // mov    qword [rsp + 40], r9
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x0000010024848948                   // mov    qword [rsp + 256], rax
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x20cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 800
-	LONG $0x245c894c; BYTE $0x78               // mov    qword [rsp + 120], r11
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
-	QUAD $0x000000d02494894c                   // mov    qword [rsp + 208], r10
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x60c88149; WORD $0x0003; BYTE $0x00 // or    r8, 864
-	QUAD $0x000000d82484894c                   // mov    qword [rsp + 216], r8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x80cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 896
-	LONG $0x247c894c; BYTE $0x58               // mov    qword [rsp + 88], r15
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	LONG $0xa0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 928
-	QUAD $0x0000008824b48948                   // mov    qword [rsp + 136], rsi
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e0248c8948                   // mov    qword [rsp + 224], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x38               // mov    qword [rsp + 56], rcx
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	LONG $0x206123c4; WORD $0x220c; BYTE $0x01 // vpinsrb    xmm9, xmm3, byte [rdx + r12], 1
-	LONG $0x2031e3c4; WORD $0x1a1c; BYTE $0x02 // vpinsrb    xmm3, xmm9, byte [rdx + rbx], 2
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 3
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 4
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 6
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 7
-	LONG $0x2061a3c4; WORD $0x2a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r13], 8
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 9
-	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + r10], 10
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + r8], 11
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + r15], 12
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 13
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rax], 14
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 15
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	LONG $0x2059a3c4; WORD $0x3224; BYTE $0x01 // vpinsrb    xmm4, xmm4, byte [rdx + r14], 1
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	LONG $0x2059a3c4; WORD $0x1224; BYTE $0x02 // vpinsrb    xmm4, xmm4, byte [rdx + r10], 2
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	LONG $0x2059a3c4; WORD $0x1a24; BYTE $0x03 // vpinsrb    xmm4, xmm4, byte [rdx + r11], 3
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	LONG $0x2059a3c4; WORD $0x2224; BYTE $0x04 // vpinsrb    xmm4, xmm4, byte [rdx + r12], 4
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	LONG $0x2059a3c4; WORD $0x0224; BYTE $0x05 // vpinsrb    xmm4, xmm4, byte [rdx + r8], 5
-	LONG $0x244c8b4c; BYTE $0x08               // mov    r9, qword [rsp + 8]
-	LONG $0x2059a3c4; WORD $0x0a24; BYTE $0x06 // vpinsrb    xmm4, xmm4, byte [rdx + r9], 6
-	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
-	LONG $0x2059a3c4; WORD $0x3a24; BYTE $0x07 // vpinsrb    xmm4, xmm4, byte [rdx + r15], 7
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	LONG $0x2059e3c4; WORD $0x3224; BYTE $0x08 // vpinsrb    xmm4, xmm4, byte [rdx + rsi], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	LONG $0x2059e3c4; WORD $0x0224; BYTE $0x09 // vpinsrb    xmm4, xmm4, byte [rdx + rax], 9
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	LONG $0x2059e3c4; WORD $0x1a24; BYTE $0x0a // vpinsrb    xmm4, xmm4, byte [rdx + rbx], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	LONG $0x2059e3c4; WORD $0x0a24; BYTE $0x0b // vpinsrb    xmm4, xmm4, byte [rdx + rcx], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x0c // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x0d // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 13
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x0e // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 14
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x0f // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 15
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 1
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x02013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 2
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x03013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 3
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x04012a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 1], 4
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x05013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 5
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x06013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 6
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x07013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 7
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x08013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 8
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x09012a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 1], 9
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x0a012a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 1], 10
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x0b013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 11
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0c013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 12
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0d013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 13
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0e013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 14
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0f013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 15
-	QUAD $0x010132742029a3c4                   // vpinsrb    xmm6, xmm10, byte [rdx + r14 + 1], 1
-	QUAD $0x020112742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 1], 2
-	QUAD $0x03011a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 1], 3
-	QUAD $0x040122742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 1], 4
-	QUAD $0x050102742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 1], 5
-	QUAD $0x06010a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 1], 6
-	QUAD $0x07013a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 1], 7
-	QUAD $0x080132742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 1], 8
-	QUAD $0x090102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 9
-	QUAD $0x0a011a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 1], 10
-	QUAD $0x0b010a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 1], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 14
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x0004e0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0f01025c2049e3c4                   // vpinsrb    xmm3, xmm6, byte [rdx + rax + 1], 15
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xce6e79c5                           // vmovd    xmm9, esi
-	LONG $0x3865e3c4; WORD $0x01dd             // vinserti128    ymm3, ymm3, xmm5, 1
-	QUAD $0x000220249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm3
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
-	LONG $0xd66e79c5                           // vmovd    xmm10, esi
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x01021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 1
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x02020a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 2], 2
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0302025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 2], 3
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0402025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0502025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x06020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 6
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0702025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0802025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 8
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0902225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 9
-	QUAD $0x0a022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 10
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x0b021a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 2], 11
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0c02325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 2], 12
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x0d023a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 2], 13
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0e02125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 2], 14
-	QUAD $0x0f023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0001a024a46ff9c5; BYTE $0x00       // vmovdqa    xmm4, oword [rsp + 416]
-	QUAD $0x010202642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 2], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x020232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x030232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x040232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x050232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 5
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x060232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x070232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 7
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x08023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 8
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x09023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 9
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0a023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 10
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0b023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 13
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0e023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 14
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0f023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 15
-	QUAD $0x01031a6c2021e3c4                   // vpinsrb    xmm5, xmm11, byte [rdx + rbx + 3], 1
-	QUAD $0x02030a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 3], 2
-	QUAD $0x0303026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 3], 3
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x04033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 4
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x0503026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 3], 5
-	QUAD $0x06030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 6
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x07033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 7
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x08030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 8
-	QUAD $0x0903226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 3], 9
-	QUAD $0x0a032a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 3], 10
-	QUAD $0x0b031a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 3], 11
-	QUAD $0x0c03326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 12
-	QUAD $0x0d033a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 3], 13
-	QUAD $0x0e03126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 15
-	QUAD $0x010302742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rax + 3], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 2
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x030312742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 3], 3
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x04030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x05030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x06030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 6
-	QUAD $0x070332742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 3], 7
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x080332742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 3], 8
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x09030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 9
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0a030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0b030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 12
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0d030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x0001c0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0e030a5c2049e3c4                   // vpinsrb    xmm3, xmm6, byte [rdx + rcx + 3], 14
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	LONG $0x0a74b60f; BYTE $0x09               // movzx    esi, byte [rdx + rcx + 9]
-	LONG $0xc66e79c5                           // vmovd    xmm8, esi
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0f03225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 3], 15
-	LONG $0x3865e3c4; WORD $0x01dd             // vinserti128    ymm3, ymm3, xmm5, 1
-	QUAD $0x0001a0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm3
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x09               // movzx    esi, byte [rdx + rcx + 9]
-	LONG $0xde6e79c5                           // vmovd    xmm11, esi
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x000200249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 512]
-	QUAD $0x01041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 1
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x02040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 2
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x03040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 3
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x04042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 4
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x0504025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 4], 5
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0604325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 6
-	QUAD $0x07043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 7
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x08043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 8
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0904325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 9
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x0a040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 11
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0c04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 12
-	QUAD $0x0d043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 15
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x010432642001e3c4                   // vpinsrb    xmm4, xmm15, byte [rdx + rsi + 4], 1
-	QUAD $0x020402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 2
-	QUAD $0x030412642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 4], 3
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x040402642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 4], 4
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x050412642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 4], 5
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x060432642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 4], 6
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x070402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 7
-	QUAD $0x080432642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 4], 8
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x09043a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 4], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a0402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 10
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0b0432642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 4], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c0402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 13
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0e0432642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 4], 14
-	QUAD $0x0f0422642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 4], 15
-	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
-	QUAD $0x01051a6c2009e3c4                   // vpinsrb    xmm5, xmm14, byte [rdx + rbx + 5], 1
-	QUAD $0x02051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 2
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x03051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 3
-	QUAD $0x04052a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 5], 4
-	QUAD $0x05050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0605026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 6
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0705026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 7
-	QUAD $0x08053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 8
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x09051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 9
-	QUAD $0x0a050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 10
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0d050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x010502742019e3c4                   // vpinsrb    xmm6, xmm12, byte [rdx + rax + 5], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 2
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x03050a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 5], 3
-	QUAD $0x040502742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 5], 4
-	QUAD $0x050512742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 5], 5
-	QUAD $0x060532742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 5], 6
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x07050a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 5], 7
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x080512742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 5], 8
-	QUAD $0x09053a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 5], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 10
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0b0522742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 5], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 14
-	LONG $0x385d63c4; WORD $0x01fb             // vinserti128    ymm15, ymm4, xmm3, 1
-	QUAD $0x0f0532642049a3c4                   // vpinsrb    xmm4, xmm6, byte [rdx + r14 + 5], 15
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xe66e79c5                           // vmovd    xmm12, esi
-	LONG $0x385de3c4; WORD $0x01dd             // vinserti128    ymm3, ymm4, xmm5, 1
-	QUAD $0x000200249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm3
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0106026c2011e3c4                   // vpinsrb    xmm5, xmm13, byte [rdx + rax + 6], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0206026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 2
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x03061a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 6], 3
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x04060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0506026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 5
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0606026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 6], 6
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x07063a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 6], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0806326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 8
-	QUAD $0x09061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 9
-	QUAD $0x0a062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d06326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 14
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x0f063a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 6], 15
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x01062a742041a3c4                   // vpinsrb    xmm6, xmm7, byte [rdx + r13 + 6], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x020632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x030632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x040632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x050632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 5
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x06061a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 6], 6
-	QUAD $0x07060a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 6], 7
-	QUAD $0x080612742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 6], 8
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x09060a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 6], 9
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0a0612742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 6], 10
-	QUAD $0x0b0622742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 6], 11
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0c061a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 6], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 13
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0e061a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 6], 14
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x0f061a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 6], 15
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x010722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 7], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x020702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 2
-	QUAD $0x030732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 3
-	QUAD $0x04070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 4
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x05070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 5
-	QUAD $0x060702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 6
-	QUAD $0x07073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x080702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x090702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 11
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0c073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 12
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0d0722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 7], 13
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0e073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 14
-	QUAD $0x0f073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 15
-	QUAD $0x01072a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 7], 1
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x02073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 2
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0307024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 7], 3
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x04073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 4
-	QUAD $0x0507324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 5
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0607324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x0707324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 7
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0807324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 8
-	QUAD $0x09070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 9
-	QUAD $0x0a07124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 7], 10
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0b07324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 11
-	QUAD $0x0c071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 12
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0d07324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 13
-	LONG $0x384de3c4; WORD $0x01dd             // vinserti128    ymm3, ymm6, xmm5, 1
-	QUAD $0x0004c0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm3
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0e07326c2071e3c4                   // vpinsrb    xmm5, xmm1, byte [rdx + rsi + 7], 14
-	WORD $0x8949; BYTE $0xf5                   // mov    r13, rsi
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	LONG $0x3274b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rsi + 11]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0f071a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 7], 15
-	LONG $0x3855e3c4; WORD $0x01d2             // vinserti128    ymm2, ymm5, xmm2, 1
-	QUAD $0x0004a024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm2
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rsi + 11]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01083a6c2031e3c4                   // vpinsrb    xmm5, xmm9, byte [rdx + rdi + 8], 1
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x02081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0308326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 3
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x04083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 4
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0508326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 5
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0608326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0708326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0808326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 8
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x09080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 9
-	QUAD $0x0a080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 10
-	QUAD $0x0b08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 12
-	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
-	QUAD $0x0d08226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 15
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x01080a742029e3c4                   // vpinsrb    xmm6, xmm10, byte [rdx + rcx + 8], 1
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x02080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 2
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x030802742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 8], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x040832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x05080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x06080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 6
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x07080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 7
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x080802742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 8], 8
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x09081a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 8], 9
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0a080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 10
-	QUAD $0x0b0832742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 8], 11
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0c0832742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 8], 12
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0d080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 13
-	QUAD $0x0e082a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 8], 14
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x0f082a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 8], 15
-	QUAD $0x01093a7c2039e3c4                   // vpinsrb    xmm7, xmm8, byte [rdx + rdi + 9], 1
-	QUAD $0x02091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 2
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x03090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 3
-	QUAD $0x04093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 4
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x05093a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rdi + 9], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x06091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 6
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x07091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 7
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x08091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 8
-	QUAD $0x09090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 10
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x0b090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 11
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0c090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 12
-	QUAD $0x0d09127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 9], 13
-	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
-	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0f091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0109025c2021e3c4                   // vpinsrb    xmm3, xmm11, byte [rdx + rax + 9], 1
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0209025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 2
-	QUAD $0x0309225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 9], 3
-	QUAD $0x0409325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 9], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0509025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 5
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	QUAD $0x06093a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 9], 6
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0709025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 7
-	QUAD $0x0809025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 9], 8
-	QUAD $0x09091a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 9], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 10
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x0b092a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 9], 11
-	QUAD $0x0c09325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 9], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 14
-	LONG $0x384de3c4; WORD $0x01ed             // vinserti128    ymm5, ymm6, xmm5, 1
-	QUAD $0x00048024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0f09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 15
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xee6ef9c5                           // vmovd    xmm5, esi
-	LONG $0x3865e3c4; WORD $0x01df             // vinserti128    ymm3, ymm3, xmm7, 1
-	QUAD $0x000460249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm3
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
-	LONG $0xf66ef9c5                           // vmovd    xmm6, esi
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x010a0a5c2019a3c4                   // vpinsrb    xmm3, xmm12, byte [rdx + r9 + 10], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x020a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 2
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x030a325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 10], 3
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x040a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 4
-	QUAD $0x050a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 5
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x060a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 6
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x070a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x080a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x090a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 9
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0a0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 10
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0b0a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 11
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0c0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 12
-	QUAD $0x0d0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 13
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0e0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 14
-	QUAD $0x0f0a1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 10], 15
-	QUAD $0x010a12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 10], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x020a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x030a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 3
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x040a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 4
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x050a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 5
-	QUAD $0x060a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 6
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x080a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 8
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x090a12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 10], 9
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0a0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 10
-	QUAD $0x0b0a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 12
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0d0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 13
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0e0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 14
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x0f0a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 15
-	QUAD $0x010b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 1
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x020b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 2
-	QUAD $0x030b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 3
-	QUAD $0x040b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 4
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x050b1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 11], 5
-	QUAD $0x060b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 6
-	QUAD $0x070b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 7
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x080b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 8
-	QUAD $0x090b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 10
-	QUAD $0x0b0b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 13
-	QUAD $0x0e0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x010b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x020b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 2
-	QUAD $0x030b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x040b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x050b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x060b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 6
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x070b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 7
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x080b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 8
-	QUAD $0x090b12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 11], 9
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0a0b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 10
-	QUAD $0x0b0b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 12
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0d0b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0e0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 14
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	LONG $0x0a74b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rcx + 13]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0f0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rcx + 13]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x010c1a542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r11 + 12], 1
-	WORD $0x894d; BYTE $0xca                   // mov    r10, r9
-	QUAD $0x020c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 2
-	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
-	QUAD $0x030c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 3
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x040c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 4
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x050c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 5
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x060c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 6
-	QUAD $0x070c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x080c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 8
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x090c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 9
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0a0c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 10
-	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
-	QUAD $0x0b0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 11
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x0c0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 12
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x0d0c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e0c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f0c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 15
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x010c32642049e3c4                   // vpinsrb    xmm4, xmm6, byte [rdx + rsi + 12], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x020c32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 12], 2
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x030c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 3
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x040c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 4
-	QUAD $0x050c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x060c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 6
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x070c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 7
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x080c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x090c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 9
-	QUAD $0x0a0c3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 12], 10
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0b0c3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 12], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c0c3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 12], 12
-	QUAD $0x0d0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 13
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0e0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 14
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x0f0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 15
-	QUAD $0x010d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 13], 1
-	QUAD $0x020d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 2
-	QUAD $0x030d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 3
-	QUAD $0x040d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 13], 4
-	QUAD $0x050d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x060d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 6
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x070d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 13], 7
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x080d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 8
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x090d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 10
-	QUAD $0x0b0d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 11
-	QUAD $0x0c0d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 12
-	QUAD $0x0d0d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 13
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0e0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 15
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x010d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 1
-	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
-	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x030d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 3
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x040d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x050d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x060d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 6
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x070d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 7
-	QUAD $0x080d1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 13], 8
-	QUAD $0x090d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
-	QUAD $0x0c0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 14
-	LONG $0x385de3c4; WORD $0x01d2             // vinserti128    ymm2, ymm4, xmm2, 1
-	QUAD $0x00040024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm2
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x0f0d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 15
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	LONG $0x74b60f42; WORD $0x0e32             // movzx    esi, byte [rdx + r14 + 14]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x0003e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rax + 14]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x010e02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 14], 1
-	QUAD $0x020e12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 14], 2
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x030e0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 14], 3
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x040e12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 14], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x050e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x060e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 6
-	QUAD $0x070e1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 14], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x080e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x090e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 10
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x0b0e1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 14], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 13
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0e0e3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 14], 14
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0f0e1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 14], 15
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x010e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 1
-	QUAD $0x020e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 2
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x030e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 3
-	QUAD $0x040e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x050e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x060e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 6
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x070e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x080e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 8
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x090e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 9
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0a0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 10
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x0b0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 11
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0c0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 12
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0d0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 13
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0e0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 14
-	QUAD $0x0f0e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 15
-	LONG $0x74b60f42; WORD $0x0f32             // movzx    esi, byte [rdx + r14 + 15]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x010f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 1
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x020f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 2
-	QUAD $0x030f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 3
-	QUAD $0x040f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 4
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x050f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 5
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x060f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 6
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x070f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 7
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x080f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 8
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x090f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 9
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	QUAD $0x0a0f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 10
-	QUAD $0x0b0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 11
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0c0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 13
-	QUAD $0x0e0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 14
-	QUAD $0x0f0f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rsi + 15]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	QUAD $0x010f2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 15], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x020f32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 15], 2
-	QUAD $0x030f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 15], 3
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x040f1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 15], 4
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x050f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 15], 5
-	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
-	QUAD $0x060f2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 15], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x070f32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 15], 7
-	QUAD $0x080f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 8
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x090f12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 15], 9
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0a0f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 10
-	QUAD $0x0b0f3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 15], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c0f1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 15], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 13
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0e0f32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 15], 14
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0f0f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 15
-	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
-	QUAD $0x0003a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm1
-	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
-	QUAD $0x0003c0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x0274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rax + 16]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0110024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 1
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x02103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0310024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 3
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0410024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0510024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 5
-	QUAD $0x0610224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 6
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0710024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 7
-	QUAD $0x08100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0910024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 9
-	QUAD $0x0a10024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 16], 10
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0b10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 11
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0c100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e10324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f10324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rsi + 16]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x011032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x021032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x031032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 3
-	QUAD $0x04101a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 16], 4
-	QUAD $0x05100a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 16], 5
-	QUAD $0x06102a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 16], 6
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x07100a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 16], 7
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x08102a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 16], 8
-	QUAD $0x091012542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 16], 9
-	QUAD $0x0a103a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 16], 10
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x0b1032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 11
-	QUAD $0x0c101a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 16], 12
-	QUAD $0x00000120249c8b4c                   // mov    r11, qword [rsp + 288]
-	QUAD $0x0d101a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 16], 13
-	QUAD $0x0e1032542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 16], 14
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0f1032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 15
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	LONG $0x3a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rdi + 17]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0111025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 1
-	QUAD $0x02113a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 17], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0311325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 3
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x04111a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 17], 4
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x05113a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 17], 5
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0611125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 17], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0711325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0911325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 9
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0a11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 10
-	QUAD $0x0b11225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 17], 11
-	QUAD $0x0c110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 12
-	QUAD $0x0d11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x011102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 1
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x021122642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 17], 2
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x031132642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 17], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x041102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x051102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x061102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 6
-	QUAD $0x07110a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 17], 7
-	QUAD $0x08112a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 17], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a1102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 10
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0b1102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c1102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 12
-	QUAD $0x0d111a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 17], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e1102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000380248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm1
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0f11024c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rax + 17], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x000360248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm1
-	LONG $0x3a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rdi + 18]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0112024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0212024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 2
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0312024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 3
-	QUAD $0x04121a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 18], 4
-	QUAD $0x05123a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 18], 5
-	QUAD $0x0612124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 6
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x07122a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 18], 7
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x08120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 8
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x09120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 9
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x0a120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 10
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0b121a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 18], 11
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 13
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0e12124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 15
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	LONG $0x74b60f42; WORD $0x120a             // movzx    esi, byte [rdx + r9 + 18]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x01123a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 18], 1
-	QUAD $0x021222542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 18], 2
-	QUAD $0x031232542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 18], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x041232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 4
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x051232542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 18], 5
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x061232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 6
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x071222542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 18], 7
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x081232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 8
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x091232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 9
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0a1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 10
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x0b1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 11
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0c1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 12
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0d1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 13
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0e123a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 18], 14
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0f121a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 18], 15
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	LONG $0x3274b60f; BYTE $0x13               // movzx    esi, byte [rdx + rsi + 19]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0113325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 1
-	QUAD $0x0213025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 2
-	QUAD $0x0313025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 19], 3
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0413025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0513025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0613025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 6
-	QUAD $0x07132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0813025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
-	QUAD $0x0a130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 10
-	QUAD $0x0b131a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 19], 11
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0c131a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 19], 12
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0d130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 13
-	QUAD $0x0e13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 14
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 15
-	LONG $0x74b60f42; WORD $0x130a             // movzx    esi, byte [rdx + r9 + 19]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	QUAD $0x01133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 1
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x02132a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 19], 2
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x03133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 3
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x041302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 19], 4
-	QUAD $0x051332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 19], 5
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x061332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 6
-	QUAD $0x071322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 19], 7
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x08130a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 19], 8
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x091332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 9
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0a1332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 10
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x0b1332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 11
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0c1332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 19], 12
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0d1332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 13
-	QUAD $0x0e133a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 19], 14
-	QUAD $0x0f131a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 19], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000320248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm1
-	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
-	QUAD $0x000340248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm1
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	LONG $0x3274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rsi + 20]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0114324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 1
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x0214324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0314324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 3
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0414324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 4
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0514224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 5
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0614324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0714324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0814324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 8
-	QUAD $0x0914024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 11
-	QUAD $0x0c141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 12
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x0d14124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 13
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x0e141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 14
-	QUAD $0x0f140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 15
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	LONG $0x74b60f42; WORD $0x143a             // movzx    esi, byte [rdx + r15 + 20]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x011432542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 20], 1
-	QUAD $0x02142a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 20], 2
-	QUAD $0x03143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 3
-	QUAD $0x041402542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 20], 4
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x05142a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 20], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x06140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 6
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x07140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 7
-	QUAD $0x08140a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 20], 8
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x09140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 9
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0a140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 10
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0b140a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 20], 11
-	QUAD $0x0c1432542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 20], 12
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0d140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 13
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0e140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 14
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0f140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 15
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	LONG $0x0a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rcx + 21]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 1
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x02150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 2
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0315025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 21], 3
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0415325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 4
-	QUAD $0x0515225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 21], 5
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0615325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0715325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0815325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 8
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0915325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 9
-	QUAD $0x0a15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 10
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0b15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 11
-	QUAD $0x0c151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 12
-	QUAD $0x0d15125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 13
-	QUAD $0x0e151a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 21], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 15
-	LONG $0x74b60f42; WORD $0x153a             // movzx    esi, byte [rdx + r15 + 21]
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x011502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 1
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x021532642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 21], 2
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x031502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x041502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 4
-	QUAD $0x05152a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 21], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x061502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 6
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x07152a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 21], 7
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x081522642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 21], 8
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x09153a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 21], 9
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0a1512642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 21], 10
-	QUAD $0x0b150a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 21], 11
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0c150a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 21], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x0002e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm1
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0f15024c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rax + 21], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x000300248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x01163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 1
-	QUAD $0x02160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 2
-	QUAD $0x0316024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 3
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0416024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 4
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x06160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 6
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x07160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0816324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 8
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x09163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 9
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0a16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 11
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0c161a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 22], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 13
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	QUAD $0x0e16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 15
-	LONG $0x1a74b60f; BYTE $0x16               // movzx    esi, byte [rdx + rbx + 22]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x011632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 1
-	QUAD $0x021632542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 22], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x031632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x041632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 5
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x061632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 6
-	QUAD $0x07162a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 22], 7
-	QUAD $0x081622542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 22], 8
-	QUAD $0x09163a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 22], 9
-	QUAD $0x0a1612542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 22], 10
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x0b1622542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 22], 11
-	QUAD $0x0c160a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 22], 12
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0d162a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 22], 13
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0e1612542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 22], 14
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0f1632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 15
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	LONG $0x74b60f42; WORD $0x173a             // movzx    esi, byte [rdx + r15 + 23]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x01170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 1
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x0217325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0317325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 3
-	QUAD $0x0417025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0517025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0617025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 6
-	QUAD $0x07170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x0817025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 8
-	QUAD $0x09173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 9
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x0a173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 10
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x0b170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 11
-	QUAD $0x0c171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 13
-	QUAD $0x0e17025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 15
-	LONG $0x1a74b60f; BYTE $0x17               // movzx    esi, byte [rdx + rbx + 23]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x011732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 1
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x021732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 2
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x03171a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 23], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x041732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 5
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x06171a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 23], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x071732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 7
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x081732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 8
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x091732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 9
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0a1732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 10
-	QUAD $0x0b1722642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 23], 11
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0c1732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 12
-	QUAD $0x0d172a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 23], 13
-	QUAD $0x0e1712642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 23], 14
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0f1722642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 23], 15
-	LONG $0x386d63c4; WORD $0x01d9             // vinserti128    ymm11, ymm2, xmm1, 1
-	LONG $0x385d63c4; WORD $0x01e3             // vinserti128    ymm12, ymm4, xmm3, 1
-	LONG $0x74b60f42; WORD $0x183a             // movzx    esi, byte [rdx + r15 + 24]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x01180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 1
-	QUAD $0x0218324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0318324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 3
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x0418024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 4
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0518324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 5
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x06183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0718324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 7
-	QUAD $0x0818024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 8
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0918324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 9
-	QUAD $0x0a183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 10
-	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x0c180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 13
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0e18124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 14
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x0f182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rax + 24]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x011802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x021802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 2
-	QUAD $0x03181a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 24], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x041802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 4
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x05181a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 24], 5
-	QUAD $0x06181a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 24], 6
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x071802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x081802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 9
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0a181a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 24], 10
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0b180a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 24], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c1802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d183a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 24], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e1802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 14
-	QUAD $0x0f1822542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 24], 15
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0119025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x0219025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0319025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 3
-	QUAD $0x0419025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0519025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 5
-	QUAD $0x06193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 6
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0719025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x0819325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 8
-	QUAD $0x0919325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 25], 9
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	QUAD $0x0a19025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 11
-	QUAD $0x0c190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 13
-	QUAD $0x0e19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 14
-	QUAD $0x0f192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 15
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	LONG $0x74b60f42; WORD $0x1912             // movzx    esi, byte [rdx + r10 + 25]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x011932642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 25], 1
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x02190a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 25], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x031932642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 25], 3
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x04193a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 25], 4
-	QUAD $0x05191a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 25], 5
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x06191a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 25], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x071932642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 25], 7
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x081932642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 25], 8
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x091932642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 25], 9
-	QUAD $0x0a191a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 25], 10
-	QUAD $0x0b190a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 25], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c191a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 25], 12
-	QUAD $0x0d193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 13
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0e1922642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 25], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000180248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 384], ymm1
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0f190a4c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rcx + 25], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x000240248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	LONG $0x0a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rcx + 26]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x011a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 1
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x021a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 2
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x031a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 3
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x041a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 4
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x051a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 5
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x061a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 6
-	QUAD $0x071a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x081a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x091a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 9
-	QUAD $0x0a1a024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 26], 10
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0b1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 12
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x0d1a024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 26], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 15
-	LONG $0x74b60f42; WORD $0x1a12             // movzx    esi, byte [rdx + r10 + 26]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x011a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 1
-	QUAD $0x021a0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 26], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x031a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 3
-	QUAD $0x041a3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 26], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 5
-	QUAD $0x061a1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 26], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x071a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 7
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x081a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 8
-	QUAD $0x091a32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 26], 9
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0a1a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 10
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0b1a0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 26], 11
-	QUAD $0x0c1a1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 26], 12
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0d1a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 13
-	QUAD $0x0e1a22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 26], 14
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0f1a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 15
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	LONG $0x74b60f42; WORD $0x1b3a             // movzx    esi, byte [rdx + r15 + 27]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x011b1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 27], 1
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	QUAD $0x021b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 2
-	QUAD $0x031b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 3
-	QUAD $0x041b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 4
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x051b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 5
-	QUAD $0x061b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x071b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 7
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	QUAD $0x081b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 8
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x091b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 9
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0a1b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 10
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x0b1b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 11
-	QUAD $0x0c1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 12
-	QUAD $0x0d1b025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 27], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x011b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 1
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x021b02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 27], 2
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x031b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x041b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x051b3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 27], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x061b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 6
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x071b2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 27], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x081b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 8
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x091b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a1b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 10
-	QUAD $0x0b1b0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 27], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c1b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d1b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 13
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0e1b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 14
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x0f1b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000260248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm1
-	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
-	QUAD $0x000280248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm1
-	LONG $0x74b60f42; WORD $0x1c3a             // movzx    esi, byte [rdx + r15 + 28]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x011c1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 28], 1
-	QUAD $0x021c124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 28], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x041c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 4
-	QUAD $0x051c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 5
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x061c3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 28], 6
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x071c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 7
-	QUAD $0x081c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 8
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x091c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 9
-	QUAD $0x0a1c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 10
-	QUAD $0x0b1c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 11
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0c1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 12
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0d1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 13
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0e1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 14
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x0f1c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 15
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a74b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rcx + 28]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x011c0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 28], 1
-	QUAD $0x021c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 28], 2
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x031c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 28], 3
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x041c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 28], 4
-	QUAD $0x051c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 28], 5
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x061c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 28], 6
-	QUAD $0x071c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 28], 7
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x081c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 28], 8
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x091c12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 28], 9
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x0a1c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 28], 10
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0b1c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 28], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c1c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 28], 12
-	QUAD $0x0d1c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 13
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0e1c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 28], 14
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0f1c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 15
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	LONG $0x3274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rsi + 29]
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x011d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 1
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x021d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 2
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x041d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 4
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x051d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 5
-	QUAD $0x061d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 29], 6
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x081d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 8
-	QUAD $0x091d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 9
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0a1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 10
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x0b1d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 29], 11
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0c1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 12
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0d1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 14
-	QUAD $0x0f1d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rsi + 29]
-	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
-	QUAD $0x011d0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 29], 1
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x021d0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 29], 2
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x031d0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 29], 3
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x041d0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 29], 4
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x051d32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 29], 5
-	QUAD $0x061d02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 29], 6
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x071d32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 29], 7
-	QUAD $0x081d32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 29], 8
-	QUAD $0x091d12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 29], 9
-	QUAD $0x0a1d2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 29], 10
-	QUAD $0x0b1d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 11
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x0c1d1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 29], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d1d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 13
-	QUAD $0x0e1d22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 29], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x0002a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm1
-	QUAD $0x0f1d024c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rax + 29], 15
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x0002c0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm1
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	LONG $0x74b60f42; WORD $0x1e02             // movzx    esi, byte [rdx + r8 + 30]
-	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x011e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 1
-	LONG $0x74b60f42; WORD $0x1f02             // movzx    esi, byte [rdx + r8 + 31]
-	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
-	QUAD $0x011f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x021e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 2
-	QUAD $0x021f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 3
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x041e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 4
-	QUAD $0x041f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 4
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
-	QUAD $0x061f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 6
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
-	QUAD $0x071f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 7
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 9
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 10
-	QUAD $0x0b1e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 30], 11
-	QUAD $0x0b1f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 31], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 12
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 15
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	LONG $0x3244b60f; BYTE $0x1e               // movzx    eax, byte [rdx + rsi + 30]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	QUAD $0x011e025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 30], 1
-	LONG $0x3244b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rsi + 31]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	QUAD $0x011f02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 31], 1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x021e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 2
-	QUAD $0x021f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 2
-	QUAD $0x031e0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 30], 3
-	QUAD $0x031f0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 31], 3
-	QUAD $0x041e0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 30], 4
-	QUAD $0x041f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 31], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x051e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 5
-	QUAD $0x051f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x061e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 6
-	QUAD $0x061f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 6
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x071e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 7
-	QUAD $0x071f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 7
-	QUAD $0x081e325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 30], 8
-	QUAD $0x081f32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 31], 8
-	QUAD $0x091e125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 30], 9
-	QUAD $0x091f12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 31], 9
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 10
-	QUAD $0x0b1e2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 30], 11
-	QUAD $0x0b1f2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 31], 11
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x0c1e1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 30], 12
-	QUAD $0x0c1f1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 31], 12
-	QUAD $0x0d1e3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 30], 13
-	QUAD $0x0d1f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 31], 13
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0e1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 14
-	QUAD $0x0f1e225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 30], 15
-	QUAD $0x0f1f22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 31], 15
-	LONG $0x3865e3c4; WORD $0x01c9             // vinserti128    ymm1, ymm3, xmm1, 1
-	QUAD $0x000120248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	QUAD $0x000100248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 256], ymm1
-	QUAD $0x000220248cdafdc5; BYTE $0x00       // vpminub    ymm1, ymm0, yword [rsp + 544]
-	LONG $0xc974fdc5                           // vpcmpeqb    ymm1, ymm0, ymm1
-	LONG $0x7d6ffdc5; BYTE $0x00               // vmovdqa    ymm7, yword 0[rbp] /* [rip + .LCPI8_0] */
-	LONG $0xd7dff5c5                           // vpandn    ymm2, ymm1, ymm7
-	LONG $0xc9fcedc5                           // vpaddb    ymm1, ymm2, ymm1
-	QUAD $0x0004e02494dafdc5; BYTE $0x00       // vpminub    ymm2, ymm0, yword [rsp + 1248]
-	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
-	LONG $0xd7dfedc5                           // vpandn    ymm2, ymm2, ymm7
-	QUAD $0x0001c024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 448]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0x4d6f7dc5; BYTE $0x20               // vmovdqa    ymm9, yword 32[rbp] /* [rip + .LCPI8_1] */
-	LONG $0xdf0d41c4; BYTE $0xf1               // vpandn    ymm14, ymm14, ymm9
-	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
-	QUAD $0x0001a024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 416]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0x456f7dc5; BYTE $0x40               // vmovdqa    ymm8, yword 64[rbp] /* [rip + .LCPI8_2] */
-	LONG $0xdf0d41c4; BYTE $0xf0               // vpandn    ymm14, ymm14, ymm8
-	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
-	LONG $0xdb76e5c5                           // vpcmpeqd    ymm3, ymm3, ymm3
-	LONG $0xcbf8f5c5                           // vpsubb    ymm1, ymm1, ymm3
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xd0da85c5                           // vpminub    ymm2, ymm15, ymm0
-	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
-	LONG $0x756ffdc5; BYTE $0x60               // vmovdqa    ymm6, yword 96[rbp] /* [rip + .LCPI8_3] */
-	LONG $0xd6dfedc5                           // vpandn    ymm2, ymm2, ymm6
-	QUAD $0x00020024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 512]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	QUAD $0x00000080a56ffdc5                   // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI8_4] */
-	LONG $0xf4df0dc5                           // vpandn    ymm14, ymm14, ymm4
-	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
-	QUAD $0x0004c024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 1216]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI8_5] */
-	LONG $0xf5df0dc5                           // vpandn    ymm14, ymm14, ymm5
-	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
-	QUAD $0x0004a024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 1184]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf3ef0dc5                           // vpxor    ymm14, ymm14, ymm3
-	LONG $0x710dc1c4; WORD $0x07f6             // vpsllw    ymm14, ymm14, 7
-	QUAD $0x000000c0956f7dc5                   // vmovdqa    ymm10, yword 192[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb0d41c4; BYTE $0xf2               // vpand    ymm14, ymm14, ymm10
-	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	QUAD $0x000140248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm1
-	QUAD $0x000460248cdafdc5; BYTE $0x00       // vpminub    ymm1, ymm0, yword [rsp + 1120]
-	LONG $0xc974fdc5                           // vpcmpeqb    ymm1, ymm0, ymm1
-	LONG $0xf7df75c5                           // vpandn    ymm14, ymm1, ymm7
-	LONG $0xc9fc8dc5                           // vpaddb    ymm1, ymm14, ymm1
-	QUAD $0x00048024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 1152]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf7df0dc5                           // vpandn    ymm14, ymm14, ymm7
-	QUAD $0x00044024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 1088]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0x6f7dc1c4; BYTE $0xd9               // vmovdqa    ymm3, ymm9
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	QUAD $0x00042024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 1056]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xd276edc5                           // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xcaf8f5c5                           // vpsubb    ymm1, ymm1, ymm2
-	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
-	QUAD $0x00040024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 1024]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf6df0dc5                           // vpandn    ymm14, ymm14, ymm6
-	QUAD $0x0003e024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 992]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	QUAD $0x0003a024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 928]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	QUAD $0x0003c024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 960]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfaef05c5                           // vpxor    ymm15, ymm15, ymm2
-	LONG $0xd276edc5                           // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0x7105c1c4; WORD $0x07f7             // vpsllw    ymm15, ymm15, 7
-	LONG $0xdb0541c4; BYTE $0xfa               // vpand    ymm15, ymm15, ymm10
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
-	QUAD $0x00036024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 864]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xffdf0dc5                           // vpandn    ymm15, ymm14, ymm7
-	LONG $0xfc0541c4; BYTE $0xf6               // vpaddb    ymm14, ymm15, ymm14
-	QUAD $0x00038024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 896]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xffdf05c5                           // vpandn    ymm15, ymm15, ymm7
-	QUAD $0x00032024acda7dc5; BYTE $0x00       // vpminub    ymm13, ymm0, yword [rsp + 800]
-	LONG $0xe87415c5                           // vpcmpeqb    ymm13, ymm13, ymm0
-	LONG $0xdf1541c4; BYTE $0xe9               // vpandn    ymm13, ymm13, ymm9
-	LONG $0xeb0541c4; BYTE $0xed               // vpor    ymm13, ymm15, ymm13
-	QUAD $0x00034024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 832]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb1541c4; BYTE $0xef               // vpor    ymm13, ymm13, ymm15
-	LONG $0xf2f80dc5                           // vpsubb    ymm14, ymm14, ymm2
-	LONG $0xeb0d41c4; BYTE $0xed               // vpor    ymm13, ymm14, ymm13
-	QUAD $0x0002e024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 736]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf6df0dc5                           // vpandn    ymm14, ymm14, ymm6
-	QUAD $0x00030024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 768]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xd8da25c5                           // vpminub    ymm11, ymm11, ymm0
-	LONG $0xd87425c5                           // vpcmpeqb    ymm11, ymm11, ymm0
-	LONG $0xfd6f7dc5                           // vmovdqa    ymm15, ymm5
-	LONG $0xdddf25c5                           // vpandn    ymm11, ymm11, ymm5
-	LONG $0xeb0d41c4; BYTE $0xdb               // vpor    ymm11, ymm14, ymm11
-	LONG $0xe0da1dc5                           // vpminub    ymm12, ymm12, ymm0
-	LONG $0xe0741dc5                           // vpcmpeqb    ymm12, ymm12, ymm0
-	LONG $0xe2ef1dc5                           // vpxor    ymm12, ymm12, ymm2
-	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
-	LONG $0x6f7d41c4; BYTE $0xf2               // vmovdqa    ymm14, ymm10
-	LONG $0xdb1d41c4; BYTE $0xe2               // vpand    ymm12, ymm12, ymm10
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xeb1541c4; BYTE $0xdb               // vpor    ymm11, ymm13, ymm11
-	QUAD $0x000240248cda7dc5; BYTE $0x00       // vpminub    ymm9, ymm0, yword [rsp + 576]
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xe7df35c5                           // vpandn    ymm12, ymm9, ymm7
-	LONG $0xfc1d41c4; BYTE $0xc9               // vpaddb    ymm9, ymm12, ymm9
-	QUAD $0x0001802494da7dc5; BYTE $0x00       // vpminub    ymm10, ymm0, yword [rsp + 384]
-	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
-	LONG $0xd7df2dc5                           // vpandn    ymm10, ymm10, ymm7
-	QUAD $0x00026024bcdafdc5; BYTE $0x00       // vpminub    ymm7, ymm0, yword [rsp + 608]
-	LONG $0xff74fdc5                           // vpcmpeqb    ymm7, ymm0, ymm7
-	LONG $0xfbdfc5c5                           // vpandn    ymm7, ymm7, ymm3
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x0002802484da7dc5; BYTE $0x00       // vpminub    ymm8, ymm0, yword [rsp + 640]
-	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
-	LONG $0x45df3dc5; BYTE $0x40               // vpandn    ymm8, ymm8, yword 64[rbp] /* [rip + .LCPI8_2] */
-	LONG $0xffebbdc5                           // vpor    ymm7, ymm8, ymm7
-	LONG $0xc2f835c5                           // vpsubb    ymm8, ymm9, ymm2
-	LONG $0xffebbdc5                           // vpor    ymm7, ymm8, ymm7
-	QUAD $0x0002a024acdafdc5; BYTE $0x00       // vpminub    ymm5, ymm0, yword [rsp + 672]
-	LONG $0xed74fdc5                           // vpcmpeqb    ymm5, ymm0, ymm5
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	QUAD $0x0002c024b4dafdc5; BYTE $0x00       // vpminub    ymm6, ymm0, yword [rsp + 704]
-	LONG $0xf674fdc5                           // vpcmpeqb    ymm6, ymm0, ymm6
-	LONG $0xf4dfcdc5                           // vpandn    ymm6, ymm6, ymm4
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x000120249cdafdc5; BYTE $0x00       // vpminub    ymm3, ymm0, yword [rsp + 288]
-	LONG $0xdb74fdc5                           // vpcmpeqb    ymm3, ymm0, ymm3
-	LONG $0xdf65c1c4; BYTE $0xdf               // vpandn    ymm3, ymm3, ymm15
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x00010024a4dafdc5; BYTE $0x00       // vpminub    ymm4, ymm0, yword [rsp + 256]
-	LONG $0xe474fdc5                           // vpcmpeqb    ymm4, ymm0, ymm4
-	LONG $0xe2efddc5                           // vpxor    ymm4, ymm4, ymm2
-	LONG $0xf471ddc5; BYTE $0x07               // vpsllw    ymm4, ymm4, 7
-	LONG $0xe4db8dc5                           // vpand    ymm4, ymm14, ymm4
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xdbebc5c5                           // vpor    ymm3, ymm7, ymm3
-	QUAD $0x00014024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 320]
-	LONG $0xe160edc5                           // vpunpcklbw    ymm4, ymm2, ymm1
-	LONG $0xc968edc5                           // vpunpckhbw    ymm1, ymm2, ymm1
-	LONG $0xd360a5c5                           // vpunpcklbw    ymm2, ymm11, ymm3
-	LONG $0xdb68a5c5                           // vpunpckhbw    ymm3, ymm11, ymm3
-	LONG $0xea61ddc5                           // vpunpcklwd    ymm5, ymm4, ymm2
-	LONG $0xd269ddc5                           // vpunpckhwd    ymm2, ymm4, ymm2
-	LONG $0xe361f5c5                           // vpunpcklwd    ymm4, ymm1, ymm3
-	LONG $0xcb69f5c5                           // vpunpckhwd    ymm1, ymm1, ymm3
-	LONG $0x3855e3c4; WORD $0x01da             // vinserti128    ymm3, ymm5, xmm2, 1
-	LONG $0x4655e3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm5, ymm2, 49
-	LONG $0x385de3c4; WORD $0x01e9             // vinserti128    ymm5, ymm4, xmm1, 1
-	LONG $0x465de3c4; WORD $0x31c9             // vperm2i128    ymm1, ymm4, ymm1, 49
-	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
-	LONG $0x7f7ec1c4; WORD $0x8b4c; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b6c; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm5
-	LONG $0x7f7ec1c4; WORD $0x8b1c             // vmovdqu    yword [r11 + 4*rcx], ymm3
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000168248c3b48                   // cmp    rcx, qword [rsp + 360]
-	JNE  LBB8_184
-	QUAD $0x0000017024bc8b4c                   // mov    r15, qword [rsp + 368]
-	QUAD $0x0000016824bc3b4c                   // cmp    r15, qword [rsp + 360]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
-	QUAD $0x000001f824a48b4c                   // mov    r12, qword [rsp + 504]
-	JNE  LBB8_101
-	JMP  LBB8_125
-
-TEXT ·_comparison_greater_equal_arr_arr_avx2(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB9_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB9_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB9_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB9_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_20:
-	WORD $0x0e8b                   // mov    ecx, dword [rsi]
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x0a3b                   // cmp    ecx, dword [rdx]
-	LONG $0x04528d48               // lea    rdx, [rdx + 4]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_20
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5930f41                           // setae    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3930f41                           // setae    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7930f41                           // setae    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2930f41                           // setae    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6930f41                           // setae    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4930f41                           // setae    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1930f41                           // setae    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_28:
-	WORD $0x048b; BYTE $0x8e     // mov    eax, dword [rsi + 4*rcx]
-	WORD $0x043b; BYTE $0x8a     // cmp    eax, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_28
-	JMP  LBB9_123
-
-LBB9_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB9_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB9_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB9_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_48:
-	LONG $0x0610fbc5               // vmovsd    xmm0, qword [rsi]
-	LONG $0x08c68348               // add    rsi, 8
-	LONG $0x022ef9c5               // vucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48               // lea    rdx, [rdx + 8]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_48
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB9_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fbc5                           // vmovsd    xmm0, qword [rsi]
-	LONG $0x4e10fbc5; BYTE $0x08               // vmovsd    xmm1, qword [rsi + 8]
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	LONG $0x4a2ef9c5; BYTE $0x08               // vucomisd    xmm1, qword [rdx + 8]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x4610fbc5; BYTE $0x10               // vmovsd    xmm0, qword [rsi + 16]
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0x4610fbc5; BYTE $0x18               // vmovsd    xmm0, qword [rsi + 24]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	LONG $0x4610fbc5; BYTE $0x20               // vmovsd    xmm0, qword [rsi + 32]
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	LONG $0x4610fbc5; BYTE $0x28               // vmovsd    xmm0, qword [rsi + 40]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	LONG $0x4610fbc5; BYTE $0x30               // vmovsd    xmm0, qword [rsi + 48]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	LONG $0x4610fbc5; BYTE $0x38               // vmovsd    xmm0, qword [rsi + 56]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x4610fbc5; BYTE $0x40               // vmovsd    xmm0, qword [rsi + 64]
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	LONG $0x4610fbc5; BYTE $0x48               // vmovsd    xmm0, qword [rsi + 72]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x4610fbc5; BYTE $0x50               // vmovsd    xmm0, qword [rsi + 80]
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0x4610fbc5; BYTE $0x58               // vmovsd    xmm0, qword [rsi + 88]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x4610fbc5; BYTE $0x60               // vmovsd    xmm0, qword [rsi + 96]
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0x4610fbc5; BYTE $0x68               // vmovsd    xmm0, qword [rsi + 104]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	LONG $0x4610fbc5; BYTE $0x70               // vmovsd    xmm0, qword [rsi + 112]
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	LONG $0x4610fbc5; BYTE $0x78               // vmovsd    xmm0, qword [rsi + 120]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	QUAD $0x000000808610fbc5                   // vmovsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x000000888610fbc5                   // vmovsd    xmm0, qword [rsi + 136]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x000000908610fbc5                   // vmovsd    xmm0, qword [rsi + 144]
-	LONG $0xd6930f41                           // setae    r14b
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x000000988610fbc5                   // vmovsd    xmm0, qword [rsi + 152]
-	LONG $0xd4930f41                           // setae    r12b
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a08610fbc5                   // vmovsd    xmm0, qword [rsi + 160]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000a88610fbc5                   // vmovsd    xmm0, qword [rsi + 168]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	QUAD $0x000000b08610fbc5                   // vmovsd    xmm0, qword [rsi + 176]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	QUAD $0x000000b88610fbc5                   // vmovsd    xmm0, qword [rsi + 184]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	QUAD $0x000000c08610fbc5                   // vmovsd    xmm0, qword [rsi + 192]
-	LONG $0xd0930f41                           // setae    r8b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000000c88610fbc5                   // vmovsd    xmm0, qword [rsi + 200]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	QUAD $0x000000d08610fbc5                   // vmovsd    xmm0, qword [rsi + 208]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	QUAD $0x000000d88610fbc5                   // vmovsd    xmm0, qword [rsi + 216]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	QUAD $0x000000e08610fbc5                   // vmovsd    xmm0, qword [rsi + 224]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000000e88610fbc5                   // vmovsd    xmm0, qword [rsi + 232]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000000f08610fbc5                   // vmovsd    xmm0, qword [rsi + 240]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f88610fbc5                   // vmovsd    xmm0, qword [rsi + 248]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd7930f40                           // setae    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB9_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB9_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_56:
-	LONG $0x0410fbc5; BYTE $0xce // vmovsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042ef9c5; BYTE $0xca // vucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_56
-	JMP  LBB9_123
-
-LBB9_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB9_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB9_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x24549d0f; BYTE $0x28   // setge    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x9d0f; BYTE $0xd1       // setge    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x24549d0f; BYTE $0x14   // setge    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x24549d0f; BYTE $0x15   // setge    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x24549d0f; BYTE $0x16   // setge    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x24549d0f; BYTE $0x17   // setge    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x24549d0f; BYTE $0x04   // setge    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd79d0f41               // setge    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x07   // setge    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd79d0f40               // setge    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd29d0f41               // setge    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd39d0f41               // setge    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd69d0f41               // setge    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x24549d0f; BYTE $0x05   // setge    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x24549d0f; BYTE $0x06   // setge    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x9d0f; BYTE $0xd3       // setge    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x0d   // setge    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd49d0f41               // setge    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd59d0f41               // setge    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x24549d0f; BYTE $0x08   // setge    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x24549d0f; BYTE $0x09   // setge    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x24549d0f; BYTE $0x0a   // setge    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x24549d0f; BYTE $0x0b   // setge    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd19d0f41               // setge    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x13   // setge    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x24549d0f; BYTE $0x0c   // setge    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x24549d0f; BYTE $0x0e   // setge    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x24549d0f; BYTE $0x0f   // setge    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x24549d0f; BYTE $0x10   // setge    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x24549d0f; BYTE $0x11   // setge    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x24549d0f; BYTE $0x12   // setge    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd09d0f41               // setge    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB9_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB9_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_14
-	JMP  LBB9_123
-
-LBB9_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB9_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_34:
-	WORD $0x8b48; BYTE $0x0e       // mov    rcx, qword [rsi]
-	LONG $0x08c68348               // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a       // cmp    rcx, qword [rdx]
-	LONG $0x08528d48               // lea    rdx, [rdx + 8]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_34
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_42:
-	LONG $0xce048b48             // mov    rax, qword [rsi + 8*rcx]
-	LONG $0xca043b48             // cmp    rax, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_42
-	JMP  LBB9_123
-
-LBB9_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_70:
-	WORD $0xb70f; BYTE $0x0e       // movzx    ecx, word [rsi]
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a       // cmp    cx, word [rdx]
-	LONG $0x02528d48               // lea    rdx, [rdx + 2]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_70
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454930f; BYTE $0x28   // setae    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454930f; BYTE $0x20   // setae    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454930f; BYTE $0x14   // setae    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454930f; BYTE $0x15   // setae    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454930f; BYTE $0x16   // setae    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454930f; BYTE $0x17   // setae    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454930f; BYTE $0x04   // setae    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5930f41               // setae    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454930f; BYTE $0x09   // setae    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0930f41               // setae    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3930f41               // setae    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7930f41               // setae    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454930f; BYTE $0x05   // setae    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454930f; BYTE $0x06   // setae    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454930f; BYTE $0x07   // setae    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x930f; BYTE $0xd3       // setae    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454930f; BYTE $0x0a   // setae    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2930f41               // setae    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6930f41               // setae    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4930f41               // setae    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454930f; BYTE $0x08   // setae    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454930f; BYTE $0x0b   // setae    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454930f; BYTE $0x0c   // setae    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1930f41               // setae    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454930f; BYTE $0x13   // setae    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454930f; BYTE $0x0d   // setae    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454930f; BYTE $0x0e   // setae    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454930f; BYTE $0x0f   // setae    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454930f; BYTE $0x10   // setae    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454930f; BYTE $0x12   // setae    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454930f; BYTE $0x11   // setae    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7930f40               // setae    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB9_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB9_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_78:
-	LONG $0x4e04b70f             // movzx    eax, word [rsi + 2*rcx]
-	LONG $0x4a043b66             // cmp    ax, word [rdx + 2*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_78
-	JMP  LBB9_123
-
-LBB9_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x24549d0f; BYTE $0x28   // setge    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x24549d0f; BYTE $0x20   // setge    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x24549d0f; BYTE $0x14   // setge    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x24549d0f; BYTE $0x15   // setge    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x16   // setge    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x24549d0f; BYTE $0x17   // setge    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x24549d0f; BYTE $0x04   // setge    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd59d0f41               // setge    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x09   // setge    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd09d0f41               // setge    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd39d0f41               // setge    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd79d0f41               // setge    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x05   // setge    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x24549d0f; BYTE $0x06   // setge    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x24549d0f; BYTE $0x07   // setge    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x9d0f; BYTE $0xd3       // setge    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x24549d0f; BYTE $0x0a   // setge    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd29d0f41               // setge    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd69d0f41               // setge    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd49d0f41               // setge    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x24549d0f; BYTE $0x08   // setge    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x24549d0f; BYTE $0x0b   // setge    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x24549d0f; BYTE $0x0c   // setge    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd19d0f41               // setge    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x24549d0f; BYTE $0x13   // setge    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x24549d0f; BYTE $0x0d   // setge    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x24549d0f; BYTE $0x0e   // setge    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x24549d0f; BYTE $0x0f   // setge    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x24549d0f; BYTE $0x10   // setge    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x24549d0f; BYTE $0x12   // setge    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x24549d0f; BYTE $0x11   // setge    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd79d0f40               // setge    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB9_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB9_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_89
-	JMP  LBB9_123
-
-LBB9_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x14               // setge    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x15               // setge    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x24549d0f; BYTE $0x16               // setge    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x24549d0f; BYTE $0x17               // setge    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x24549d0f; BYTE $0x04               // setge    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x24549d0f; BYTE $0x09               // setge    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x24549d0f; BYTE $0x05               // setge    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x24549d0f; BYTE $0x06               // setge    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x24549d0f; BYTE $0x07               // setge    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x24549d0f; BYTE $0x0a               // setge    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x24549d0f; BYTE $0x0b               // setge    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x24549d0f; BYTE $0x0c               // setge    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x24549d0f; BYTE $0x13               // setge    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x24549d0f; BYTE $0x0d               // setge    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x24549d0f; BYTE $0x0e               // setge    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x24549d0f; BYTE $0x0f               // setge    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x24549d0f; BYTE $0x12               // setge    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x24549d0f; BYTE $0x11               // setge    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_111
-	JMP  LBB9_123
-
-LBB9_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_114:
-	LONG $0x0610fac5               // vmovss    xmm0, dword [rsi]
-	LONG $0x04c68348               // add    rsi, 4
-	LONG $0x022ef8c5               // vucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48               // lea    rdx, [rdx + 4]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_114
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB9_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x0610fac5                           // vmovss    xmm0, dword [rsi]
-	LONG $0x4e10fac5; BYTE $0x04               // vmovss    xmm1, dword [rsi + 4]
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	LONG $0x4a2ef8c5; BYTE $0x04               // vucomiss    xmm1, dword [rdx + 4]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x4610fac5; BYTE $0x08               // vmovss    xmm0, dword [rsi + 8]
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0x4610fac5; BYTE $0x0c               // vmovss    xmm0, dword [rsi + 12]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	LONG $0x4610fac5; BYTE $0x10               // vmovss    xmm0, dword [rsi + 16]
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	LONG $0x4610fac5; BYTE $0x14               // vmovss    xmm0, dword [rsi + 20]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	LONG $0x4610fac5; BYTE $0x18               // vmovss    xmm0, dword [rsi + 24]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	LONG $0x4610fac5; BYTE $0x1c               // vmovss    xmm0, dword [rsi + 28]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x4610fac5; BYTE $0x20               // vmovss    xmm0, dword [rsi + 32]
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	LONG $0x4610fac5; BYTE $0x24               // vmovss    xmm0, dword [rsi + 36]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x4610fac5; BYTE $0x28               // vmovss    xmm0, dword [rsi + 40]
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0x4610fac5; BYTE $0x2c               // vmovss    xmm0, dword [rsi + 44]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x4610fac5; BYTE $0x30               // vmovss    xmm0, dword [rsi + 48]
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0x4610fac5; BYTE $0x34               // vmovss    xmm0, dword [rsi + 52]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	LONG $0x4610fac5; BYTE $0x38               // vmovss    xmm0, dword [rsi + 56]
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	LONG $0x4610fac5; BYTE $0x3c               // vmovss    xmm0, dword [rsi + 60]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x4610fac5; BYTE $0x40               // vmovss    xmm0, dword [rsi + 64]
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x4610fac5; BYTE $0x44               // vmovss    xmm0, dword [rsi + 68]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0x4610fac5; BYTE $0x48               // vmovss    xmm0, dword [rsi + 72]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0x4610fac5; BYTE $0x4c               // vmovss    xmm0, dword [rsi + 76]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x4610fac5; BYTE $0x50               // vmovss    xmm0, dword [rsi + 80]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x4610fac5; BYTE $0x54               // vmovss    xmm0, dword [rsi + 84]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x4610fac5; BYTE $0x58               // vmovss    xmm0, dword [rsi + 88]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x4610fac5; BYTE $0x5c               // vmovss    xmm0, dword [rsi + 92]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0x4610fac5; BYTE $0x60               // vmovss    xmm0, dword [rsi + 96]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x4610fac5; BYTE $0x64               // vmovss    xmm0, dword [rsi + 100]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x4610fac5; BYTE $0x68               // vmovss    xmm0, dword [rsi + 104]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x4610fac5; BYTE $0x6c               // vmovss    xmm0, dword [rsi + 108]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x4610fac5; BYTE $0x70               // vmovss    xmm0, dword [rsi + 112]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	LONG $0x4610fac5; BYTE $0x74               // vmovss    xmm0, dword [rsi + 116]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	LONG $0x4610fac5; BYTE $0x78               // vmovss    xmm0, dword [rsi + 120]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x4610fac5; BYTE $0x7c               // vmovss    xmm0, dword [rsi + 124]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd7930f40                           // setae    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB9_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB9_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_122:
-	LONG $0x0410fac5; BYTE $0x8e // vmovss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x042ef8c5; BYTE $0x8a // vucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_122
-	JMP  LBB9_123
-
-LBB9_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_59:
-	WORD $0xb60f; BYTE $0x0e       // movzx    ecx, byte [rsi]
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x0a3a                   // cmp    cl, byte [rdx]
-	LONG $0x01528d48               // lea    rdx, [rdx + 1]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_59
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB9_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454930f; BYTE $0x28   // setae    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x930f; BYTE $0xd1       // setae    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454930f; BYTE $0x14   // setae    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454930f; BYTE $0x15   // setae    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454930f; BYTE $0x16   // setae    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454930f; BYTE $0x17   // setae    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454930f; BYTE $0x04   // setae    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7930f41               // setae    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454930f; BYTE $0x07   // setae    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7930f40               // setae    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2930f41               // setae    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3930f41               // setae    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6930f41               // setae    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454930f; BYTE $0x05   // setae    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454930f; BYTE $0x06   // setae    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x930f; BYTE $0xd3       // setae    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454930f; BYTE $0x0d   // setae    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4930f41               // setae    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5930f41               // setae    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454930f; BYTE $0x08   // setae    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454930f; BYTE $0x09   // setae    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454930f; BYTE $0x0a   // setae    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454930f; BYTE $0x0b   // setae    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1930f41               // setae    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454930f; BYTE $0x13   // setae    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454930f; BYTE $0x0c   // setae    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454930f; BYTE $0x0e   // setae    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454930f; BYTE $0x0f   // setae    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454930f; BYTE $0x10   // setae    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454930f; BYTE $0x11   // setae    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454930f; BYTE $0x12   // setae    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0930f41               // setae    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB9_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB9_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_67:
-	LONG $0x0e04b60f             // movzx    eax, byte [rsi + rcx]
-	WORD $0x043a; BYTE $0x0a     // cmp    al, byte [rdx + rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_67
-	JMP  LBB9_123
-
-LBB9_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x14               // setge    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x24549d0f; BYTE $0x15               // setge    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x16               // setge    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x24549d0f; BYTE $0x17               // setge    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x04               // setge    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd59d0f41                           // setge    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x24549d0f; BYTE $0x09               // setge    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd39d0f41                           // setge    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd79d0f41                           // setge    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x24549d0f; BYTE $0x05               // setge    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x24549d0f; BYTE $0x06               // setge    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x24549d0f; BYTE $0x07               // setge    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x24549d0f; BYTE $0x0a               // setge    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd29d0f41                           // setge    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd69d0f41                           // setge    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd49d0f41                           // setge    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x24549d0f; BYTE $0x0b               // setge    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x24549d0f; BYTE $0x0c               // setge    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd19d0f41                           // setge    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x24549d0f; BYTE $0x13               // setge    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x24549d0f; BYTE $0x0d               // setge    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x24549d0f; BYTE $0x0e               // setge    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x24549d0f; BYTE $0x0f               // setge    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x24549d0f; BYTE $0x12               // setge    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x24549d0f; BYTE $0x11               // setge    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_100
-
-LBB9_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA7<>+0x000(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x008(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x010(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x018(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA7<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA7<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA7<>+0x0d8(SB)/8, $0x8080808080808080
-GLOBL LCDATA7<>(SB), 8, $224
-
-TEXT ·_comparison_greater_equal_arr_scalar_avx2(SB), $1384-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1344(SP)
-	LEAQ LCDATA7<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB10_13
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB10_25
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB10_48
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB10_56
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB10_175
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_7:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
-	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_7
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB10_9:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_100
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB10_11:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000982494930f                   // setae    byte [rsp + 152]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB10_11
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB10_101
-	JMP  LBB10_175
-
-LBB10_13:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB10_38
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB10_64
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB10_72
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB10_175
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_21
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_19:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	WORD $0x960f; BYTE $0xd2     // setbe    dl
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_19
-	LONG $0x01c38349             // add    r11, 1
-
-LBB10_21:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_103
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB10_23:
-	LONG $0x062ef9c5                           // vucomisd    xmm0, qword [rsi]
-	QUAD $0x000000a02494960f                   // setbe    byte [rsp + 160]
-	LONG $0x462ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1960f41                           // setbe    r9b
-	LONG $0x462ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6960f41                           // setbe    r14b
-	LONG $0x462ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5960f41                           // setbe    r13b
-	LONG $0x462ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rsi + 32]
-	QUAD $0x000000902494960f                   // setbe    byte [rsp + 144]
-	LONG $0x462ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454960f; BYTE $0x60               // setbe    byte [rsp + 96]
-	LONG $0x462ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rsi + 48]
-	WORD $0x960f; BYTE $0xd0                   // setbe    al
-	LONG $0x462ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rsi + 56]
-	WORD $0x960f; BYTE $0xd3                   // setbe    bl
-	LONG $0x462ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rsi + 64]
-	LONG $0x2454960f; BYTE $0x78               // setbe    byte [rsp + 120]
-	LONG $0x462ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rsi + 72]
-	WORD $0x960f; BYTE $0xd2                   // setbe    dl
-	LONG $0x462ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7960f40                           // setbe    dil
-	LONG $0x462ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2960f41                           // setbe    r10b
-	LONG $0x462ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3960f41                           // setbe    r11b
-	LONG $0x462ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4960f41                           // setbe    r12b
-	LONG $0x462ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rsi + 112]
-	QUAD $0x000000802494960f                   // setbe    byte [rsp + 128]
-	LONG $0x462ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rsi + 120]
-	WORD $0x960f; BYTE $0xd1                   // setbe    cl
-	QUAD $0x00000080862ef9c5                   // vucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454960f; BYTE $0x50               // setbe    byte [rsp + 80]
-	QUAD $0x00000088862ef9c5                   // vucomisd    xmm0, qword [rsi + 136]
-	LONG $0x2454960f; BYTE $0x70               // setbe    byte [rsp + 112]
-	QUAD $0x00000090862ef9c5                   // vucomisd    xmm0, qword [rsi + 144]
-	QUAD $0x000000882494960f                   // setbe    byte [rsp + 136]
-	QUAD $0x00000098862ef9c5                   // vucomisd    xmm0, qword [rsi + 152]
-	LONG $0x2454960f; BYTE $0x48               // setbe    byte [rsp + 72]
-	QUAD $0x000000a0862ef9c5                   // vucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454960f; BYTE $0x58               // setbe    byte [rsp + 88]
-	QUAD $0x000000a8862ef9c5                   // vucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454960f; BYTE $0x68               // setbe    byte [rsp + 104]
-	QUAD $0x000000b0862ef9c5                   // vucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454960f; BYTE $0x40               // setbe    byte [rsp + 64]
-	QUAD $0x000000b8862ef9c5                   // vucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7960f41                           // setbe    r15b
-	QUAD $0x000000c0862ef9c5                   // vucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454960f; BYTE $0x20               // setbe    byte [rsp + 32]
-	QUAD $0x000000c8862ef9c5                   // vucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454960f; BYTE $0x28               // setbe    byte [rsp + 40]
-	QUAD $0x000000d0862ef9c5                   // vucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454960f; BYTE $0x30               // setbe    byte [rsp + 48]
-	QUAD $0x000000d8862ef9c5                   // vucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454960f; BYTE $0x38               // setbe    byte [rsp + 56]
-	QUAD $0x000000e0862ef9c5                   // vucomisd    xmm0, qword [rsi + 224]
-	QUAD $0x000001402494960f                   // setbe    byte [rsp + 320]
-	QUAD $0x000000e8862ef9c5                   // vucomisd    xmm0, qword [rsi + 232]
-	QUAD $0x000001202494960f                   // setbe    byte [rsp + 288]
-	QUAD $0x000000f0862ef9c5                   // vucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454960f; BYTE $0x1c               // setbe    byte [rsp + 28]
-	QUAD $0x000000f8862ef9c5                   // vucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0960f41                           // setbe    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000a0248c0244                   // add    r9b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x78245402                           // add    dl, byte [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000008024bcb60f                   // movzx    edi, byte [rsp + 128]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB10_23
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB10_104
-	JMP  LBB10_175
-
-LBB10_25:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB10_80
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB10_175
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_128
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	WORD $0x894d; BYTE $0xdd // mov    r13, r11
-
-LBB10_29:
-	WORD $0x3844; BYTE $0x36       // cmp    byte [rsi], r14b
-	LONG $0x01768d48               // lea    rsi, [rsi + 1]
-	WORD $0x9d0f; BYTE $0xd2       // setge    dl
-	WORD $0xdaf6                   // neg    dl
-	LONG $0x07788d48               // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xf8490f48               // cmovns    rdi, rax
-	LONG $0x03ffc148               // sar    rdi, 3
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0x3044; BYTE $0xca       // xor    dl, r9b
-	QUAD $0x00000000fd048d44       // lea    r8d, [8*rdi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00   // mov    ebx, 1
-	WORD $0xe3d3                   // shl    ebx, cl
-	WORD $0xd320                   // and    bl, dl
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB10_29
-	LONG $0x01c58349               // add    r13, 1
-	LONG $0x05ffc149               // sar    r15, 5
-	LONG $0x20fa8349               // cmp    r10, 32
-	JL   LBB10_129
-
-LBB10_31:
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000026024bc894c     // mov    qword [rsp + 608], r15
-	JB   LBB10_34
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc5     // cmp    r13, rax
-	JAE  LBB10_182
-	QUAD $0x00000000bd048d4a     // lea    rax, [4*r15]
-	WORD $0x014c; BYTE $0xe8     // add    rax, r13
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB10_182
-
-LBB10_34:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x000001a024848948 // mov    qword [rsp + 416], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x0000016824ac894c // mov    qword [rsp + 360], r13
-
-LBB10_35:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-	QUAD $0x000001a024ac2b4c // sub    r13, qword [rsp + 416]
-	QUAD $0x0000009824ac894c // mov    qword [rsp + 152], r13
-
-LBB10_36:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 320]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000016824b48b48                   // mov    rsi, qword [rsp + 360]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000016824b48948                   // mov    qword [rsp + 360], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB10_36
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000026024bc8b4c                   // mov    r15, qword [rsp + 608]
-	JMP  LBB10_130
-
-LBB10_38:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB10_92
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB10_175
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_44
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_42:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
-	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_42
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB10_44:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_106
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-
-LBB10_46:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000982494930f                   // setae    byte [rsp + 152]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB10_46
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB10_107
-	JMP  LBB10_175
-
-LBB10_48:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_52
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_50:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
-	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_50
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB10_52:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_109
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB10_54:
-	LONG $0x2e394466                     // cmp    word [rsi], r13w
-	WORD $0x930f; BYTE $0xd0             // setae    al
-	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
-	LONG $0xd7930f40                     // setae    dil
-	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
-	LONG $0xd6930f41                     // setae    r14b
-	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
-	QUAD $0x000000a02494930f             // setae    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
-	QUAD $0x000000902494930f             // setae    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
-	LONG $0x2454930f; BYTE $0x60         // setae    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
-	QUAD $0x000000982494930f             // setae    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
-	WORD $0x930f; BYTE $0xd3             // setae    bl
-	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
-	LONG $0x2454930f; BYTE $0x70         // setae    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
-	WORD $0x930f; BYTE $0xd2             // setae    dl
-	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
-	LONG $0xd1930f41                     // setae    r9b
-	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
-	LONG $0xd2930f41                     // setae    r10b
-	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
-	LONG $0xd3930f41                     // setae    r11b
-	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
-	LONG $0xd4930f41                     // setae    r12b
-	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
-	LONG $0x2454930f; BYTE $0x78         // setae    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
-	WORD $0x930f; BYTE $0xd1             // setae    cl
-	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
-	LONG $0x2454930f; BYTE $0x50         // setae    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
-	QUAD $0x000000802494930f             // setae    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
-	QUAD $0x000000882494930f             // setae    byte [rsp + 136]
-	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
-	LONG $0x2454930f; BYTE $0x48         // setae    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
-	LONG $0x2454930f; BYTE $0x58         // setae    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
-	LONG $0x2454930f; BYTE $0x68         // setae    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
-	LONG $0x2454930f; BYTE $0x40         // setae    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
-	LONG $0xd7930f41                     // setae    r15b
-	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
-	LONG $0x2454930f; BYTE $0x20         // setae    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
-	LONG $0x2454930f; BYTE $0x28         // setae    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
-	LONG $0x2454930f; BYTE $0x30         // setae    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
-	LONG $0x2454930f; BYTE $0x38         // setae    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
-	QUAD $0x000001402494930f             // setae    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
-	QUAD $0x000001202494930f             // setae    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
-	LONG $0x2454930f; BYTE $0x1c         // setae    byte [rsp + 28]
-	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
-	LONG $0xd0930f41                     // setae    r8b
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	WORD $0x0840; BYTE $0xc7             // or    dil, al
-	QUAD $0x000000982484b60f             // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xc308                         // or    bl, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x70245402                     // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	LONG $0x02e1c041                     // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
-	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0xc208                         // or    dl, al
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x03e2c041                     // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	LONG $0x04e3c041                     // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78         // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                     // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9             // or    cl, dil
-	WORD $0xd308                         // or    bl, dl
-	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
-	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x50245402                     // add    dl, byte [rsp + 80]
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x000000882494b60f             // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48         // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58         // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68         // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x0000011024948b48             // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                         // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01             // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff             // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28         // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                         // add    cl, cl
-	LONG $0x20244c02                     // add    cl, byte [rsp + 32]
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000140248cb60f             // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000120248cb60f             // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0xd908                         // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c         // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8             // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
-	LONG $0x027a8844                     // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                     // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                     // add    rsi, 64
-	LONG $0x04c28348                     // add    rdx, 4
-	QUAD $0x0000011024948948             // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff // add    qword [rsp + 168], -1
-	JNE  LBB10_54
-	QUAD $0x0000011024b48b4c             // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c             // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c             // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                     // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7             // cmp    r15, r10
-	JL   LBB10_110
-	JMP  LBB10_175
-
-LBB10_56:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_60
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_58:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_58
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB10_60:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_112
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB10_62:
-	LONG $0x2e394466                     // cmp    word [rsi], r13w
-	QUAD $0x0000009824949d0f             // setge    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
-	LONG $0xd79d0f40                     // setge    dil
-	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
-	LONG $0xd69d0f41                     // setge    r14b
-	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
-	QUAD $0x000000a024949d0f             // setge    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
-	QUAD $0x0000009024949d0f             // setge    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
-	LONG $0x24549d0f; BYTE $0x60         // setge    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
-	WORD $0x9d0f; BYTE $0xd0             // setge    al
-	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
-	WORD $0x9d0f; BYTE $0xd3             // setge    bl
-	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
-	LONG $0x24549d0f; BYTE $0x70         // setge    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
-	WORD $0x9d0f; BYTE $0xd2             // setge    dl
-	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
-	LONG $0xd19d0f41                     // setge    r9b
-	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
-	LONG $0xd29d0f41                     // setge    r10b
-	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
-	LONG $0xd39d0f41                     // setge    r11b
-	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
-	LONG $0xd49d0f41                     // setge    r12b
-	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
-	LONG $0x24549d0f; BYTE $0x78         // setge    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
-	WORD $0x9d0f; BYTE $0xd1             // setge    cl
-	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
-	LONG $0x24549d0f; BYTE $0x50         // setge    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
-	QUAD $0x0000008024949d0f             // setge    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
-	QUAD $0x0000008824949d0f             // setge    byte [rsp + 136]
-	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
-	LONG $0x24549d0f; BYTE $0x48         // setge    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
-	LONG $0x24549d0f; BYTE $0x58         // setge    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
-	LONG $0x24549d0f; BYTE $0x68         // setge    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
-	LONG $0x24549d0f; BYTE $0x40         // setge    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
-	LONG $0xd79d0f41                     // setge    r15b
-	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
-	LONG $0x24549d0f; BYTE $0x20         // setge    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
-	LONG $0x24549d0f; BYTE $0x28         // setge    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
-	LONG $0x24549d0f; BYTE $0x30         // setge    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
-	LONG $0x24549d0f; BYTE $0x38         // setge    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
-	QUAD $0x0000014024949d0f             // setge    byte [rsp + 320]
-	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
-	QUAD $0x0000012024949d0f             // setge    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
-	LONG $0x24549d0f; BYTE $0x1c         // setge    byte [rsp + 28]
-	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
-	LONG $0xd09d0f41                     // setge    r8b
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	QUAD $0x0000009824bc0240             // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xc308                         // or    bl, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x70245402                     // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	LONG $0x02e1c041                     // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
-	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0xc208                         // or    dl, al
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x03e2c041                     // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	LONG $0x04e3c041                     // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78         // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                     // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9             // or    cl, dil
-	WORD $0xd308                         // or    bl, dl
-	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
-	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x50245402                     // add    dl, byte [rsp + 80]
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x000000882494b60f             // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48         // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58         // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68         // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	QUAD $0x0000011024948b48             // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                         // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01             // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff             // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28         // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                         // add    cl, cl
-	LONG $0x20244c02                     // add    cl, byte [rsp + 32]
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000140248cb60f             // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xd908                         // or    cl, bl
-	WORD $0xcb89                         // mov    ebx, ecx
-	QUAD $0x00000120248cb60f             // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0xd908                         // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c         // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8             // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
-	LONG $0x027a8844                     // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                     // mov    byte [rdx + 3], r8b
-	LONG $0x40c68348                     // add    rsi, 64
-	LONG $0x04c28348                     // add    rdx, 4
-	QUAD $0x0000011024948948             // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff // add    qword [rsp + 168], -1
-	JNE  LBB10_62
-	QUAD $0x0000011024b48b4c             // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c             // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c             // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                     // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7             // cmp    r15, r10
-	JL   LBB10_113
-	JMP  LBB10_175
-
-LBB10_64:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_68
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_66:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_66
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB10_68:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_115
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB10_70:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x0000009824949d0f                   // setge    byte [rsp + 152]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB10_70
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB10_116
-	JMP  LBB10_175
-
-LBB10_72:
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_76
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_74:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	WORD $0x960f; BYTE $0xd2     // setbe    dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_74
-	LONG $0x01c38349             // add    r11, 1
-
-LBB10_76:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_118
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
-
-LBB10_78:
-	LONG $0x062ef8c5                           // vucomiss    xmm0, dword [rsi]
-	QUAD $0x000000a02494960f                   // setbe    byte [rsp + 160]
-	LONG $0x462ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rsi + 4]
-	LONG $0xd1960f41                           // setbe    r9b
-	LONG $0x462ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rsi + 8]
-	LONG $0xd6960f41                           // setbe    r14b
-	LONG $0x462ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rsi + 12]
-	LONG $0xd5960f41                           // setbe    r13b
-	LONG $0x462ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rsi + 16]
-	QUAD $0x000000902494960f                   // setbe    byte [rsp + 144]
-	LONG $0x462ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rsi + 20]
-	LONG $0x2454960f; BYTE $0x60               // setbe    byte [rsp + 96]
-	LONG $0x462ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rsi + 24]
-	WORD $0x960f; BYTE $0xd0                   // setbe    al
-	LONG $0x462ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rsi + 28]
-	WORD $0x960f; BYTE $0xd3                   // setbe    bl
-	LONG $0x462ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rsi + 32]
-	LONG $0x2454960f; BYTE $0x78               // setbe    byte [rsp + 120]
-	LONG $0x462ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rsi + 36]
-	WORD $0x960f; BYTE $0xd2                   // setbe    dl
-	LONG $0x462ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rsi + 40]
-	LONG $0xd7960f40                           // setbe    dil
-	LONG $0x462ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rsi + 44]
-	LONG $0xd2960f41                           // setbe    r10b
-	LONG $0x462ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rsi + 48]
-	LONG $0xd3960f41                           // setbe    r11b
-	LONG $0x462ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rsi + 52]
-	LONG $0xd4960f41                           // setbe    r12b
-	LONG $0x462ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rsi + 56]
-	QUAD $0x000000802494960f                   // setbe    byte [rsp + 128]
-	LONG $0x462ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rsi + 60]
-	WORD $0x960f; BYTE $0xd1                   // setbe    cl
-	LONG $0x462ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rsi + 64]
-	LONG $0x2454960f; BYTE $0x50               // setbe    byte [rsp + 80]
-	LONG $0x462ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rsi + 68]
-	LONG $0x2454960f; BYTE $0x70               // setbe    byte [rsp + 112]
-	LONG $0x462ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rsi + 72]
-	QUAD $0x000000882494960f                   // setbe    byte [rsp + 136]
-	LONG $0x462ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rsi + 76]
-	LONG $0x2454960f; BYTE $0x48               // setbe    byte [rsp + 72]
-	LONG $0x462ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rsi + 80]
-	LONG $0x2454960f; BYTE $0x58               // setbe    byte [rsp + 88]
-	LONG $0x462ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rsi + 84]
-	LONG $0x2454960f; BYTE $0x68               // setbe    byte [rsp + 104]
-	LONG $0x462ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rsi + 88]
-	LONG $0x2454960f; BYTE $0x40               // setbe    byte [rsp + 64]
-	LONG $0x462ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rsi + 92]
-	LONG $0xd7960f41                           // setbe    r15b
-	LONG $0x462ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rsi + 96]
-	LONG $0x2454960f; BYTE $0x20               // setbe    byte [rsp + 32]
-	LONG $0x462ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rsi + 100]
-	LONG $0x2454960f; BYTE $0x28               // setbe    byte [rsp + 40]
-	LONG $0x462ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rsi + 104]
-	LONG $0x2454960f; BYTE $0x30               // setbe    byte [rsp + 48]
-	LONG $0x462ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rsi + 108]
-	LONG $0x2454960f; BYTE $0x38               // setbe    byte [rsp + 56]
-	LONG $0x462ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rsi + 112]
-	QUAD $0x000001402494960f                   // setbe    byte [rsp + 320]
-	LONG $0x462ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rsi + 116]
-	QUAD $0x000001202494960f                   // setbe    byte [rsp + 288]
-	LONG $0x462ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rsi + 120]
-	LONG $0x2454960f; BYTE $0x1c               // setbe    byte [rsp + 28]
-	LONG $0x462ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rsi + 124]
-	LONG $0xd0960f41                           // setbe    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000a0248c0244                   // add    r9b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x78245402                           // add    dl, byte [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000008024bcb60f                   // movzx    edi, byte [rsp + 128]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	WORD $0x1a88                               // mov    byte [rdx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
-	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB10_78
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB10_119
-	JMP  LBB10_175
-
-LBB10_80:
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_84
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_82:
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	LONG $0x000000ba; BYTE $0x00 // mov    edx, 0
-	WORD $0xd280; BYTE $0xff     // adc    dl, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_82
-	LONG $0x01c38349             // add    r11, 1
-
-LBB10_84:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_121
-	LONG $0x20ff8349             // cmp    r15, 32
-	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000017024bc894c     // mov    qword [rsp + 368], r15
-	JB   LBB10_88
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
-	JAE  LBB10_185
-	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB10_185
-
-LBB10_88:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-	QUAD $0x00000168249c894c // mov    qword [rsp + 360], r11
-
-LBB10_89:
-	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-
-LBB10_90:
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	LONG $0x24343845                           // cmp    byte [r12], r14b
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x40249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 320]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	QUAD $0x0000016824b48b48                   // mov    rsi, qword [rsp + 360]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xc000                               // add    al, al
-	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
-	LONG $0x04c68348                           // add    rsi, 4
-	QUAD $0x0000016824b48948                   // mov    qword [rsp + 360], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB10_90
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000017024bc8b4c                   // mov    r15, qword [rsp + 368]
-	JMP  LBB10_122
-
-LBB10_92:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_96
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_94:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_94
-	LONG $0x01c38349                           // add    r11, 1
-
-LBB10_96:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_125
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
-	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
-
-LBB10_98:
-	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x0000009824949d0f                   // setge    byte [rsp + 152]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
-	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c38349                           // add    r11, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB10_98
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
-	JL   LBB10_126
-	JMP  LBB10_175
-
-LBB10_100:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_101:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_133
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_135
-
-LBB10_103:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_104:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_137
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_139
-
-LBB10_106:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_107:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_141
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_143
-
-LBB10_109:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_110:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_145
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_147
-
-LBB10_112:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_113:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_150
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_152
-
-LBB10_115:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_116:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_154
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_156
-
-LBB10_118:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_119:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_158
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_160
-
-LBB10_121:
-	QUAD $0x00000168249c894c // mov    qword [rsp + 360], r11
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB10_122:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_163
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB10_166
-
-LBB10_125:
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-
-LBB10_126:
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_168
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_170
-
-LBB10_128:
-	WORD $0x894d; BYTE $0xdd // mov    r13, r11
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JGE  LBB10_31
-
-LBB10_129:
-	QUAD $0x0000016824ac894c // mov    qword [rsp + 360], r13
-	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
-
-LBB10_130:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_175
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_176
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB10_179
-
-LBB10_133:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_134:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x17048841             // mov    byte [r15 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB10_134
-
-LBB10_135:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_175
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-	JMP  LBB10_149
-
-LBB10_137:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_138:
-	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
-	WORD $0x960f; BYTE $0xd0     // setbe    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rsi + 8]
-	WORD $0x960f; BYTE $0xd0     // setbe    al
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_138
-
-LBB10_139:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB10_175
-	LONG $0x062ef9c5 // vucomisd    xmm0, qword [rsi]
-	JMP  LBB10_162
-
-LBB10_141:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_142:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x17048841             // mov    byte [r15 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB10_142
-
-LBB10_143:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_175
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-	JMP  LBB10_149
-
-LBB10_145:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_146:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x17048841             // mov    byte [r15 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB10_146
-
-LBB10_147:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB10_175
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x2e394466 // cmp    word [rsi], r13w
-
-LBB10_149:
-	WORD $0xff14             // adc    al, -1
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB10_174
-
-LBB10_150:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_151:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_151
-
-LBB10_152:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB10_175
-	LONG $0x2e394466 // cmp    word [rsi], r13w
-	JMP  LBB10_172
-
-LBB10_154:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_155:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_155
-
-LBB10_156:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_175
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-	JMP  LBB10_172
-
-LBB10_158:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_159:
-	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
-	WORD $0x960f; BYTE $0xd0     // setbe    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rsi + 4]
-	WORD $0x960f; BYTE $0xd0     // setbe    al
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_159
-
-LBB10_160:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB10_175
-	LONG $0x062ef8c5 // vucomiss    xmm0, dword [rsi]
-
-LBB10_162:
-	WORD $0x960f; BYTE $0xd0 // setbe    al
-	JMP  LBB10_173
-
-LBB10_163:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000168249c8b4c // mov    r11, qword [rsp + 360]
-
-LBB10_164:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	LONG $0x000000bb; BYTE $0x00 // mov    ebx, 0
-	WORD $0xd380; BYTE $0xff     // adc    bl, -1
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	LONG $0x000000bb; BYTE $0x00 // mov    ebx, 0
-	WORD $0xd380; BYTE $0xff     // adc    bl, -1
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB10_164
-	WORD $0x0149; BYTE $0xf4     // add    r12, rsi
-
-LBB10_166:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_175
-	WORD $0xc031             // xor    eax, eax
-	LONG $0x24343845         // cmp    byte [r12], r14b
-	WORD $0xff14             // adc    al, -1
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000016824848b4c // mov    r8, qword [rsp + 360]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB10_181
-
-LBB10_168:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_169:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_169
-
-LBB10_170:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_175
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-
-LBB10_172:
-	WORD $0x9d0f; BYTE $0xd0 // setge    al
-
-LBB10_173:
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB10_174:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-
-LBB10_175:
-	MOVQ 1344(SP), SP
-	VZEROUPPER
-	RET
-
-LBB10_176:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000168249c8b4c // mov    r11, qword [rsp + 360]
-
-LBB10_177:
-	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB10_177
-	WORD $0x0149; BYTE $0xf4     // add    r12, rsi
-
-LBB10_179:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_175
-	LONG $0x24343845         // cmp    byte [r12], r14b
-	WORD $0x9d0f; BYTE $0xd0 // setge    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000016824848b4c // mov    r8, qword [rsp + 360]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-
-LBB10_181:
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB10_175
-
-LBB10_182:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000017024848948             // mov    qword [rsp + 368], rax
-	QUAD $0x000001a024bc894c             // mov    qword [rsp + 416], r15
-	QUAD $0x00000000bd048d4a             // lea    rax, [4*r15]
-	WORD $0x014c; BYTE $0xe8             // add    rax, r13
-	QUAD $0x0000016824848948             // mov    qword [rsp + 360], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00018024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 384], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000011024ac894c             // mov    qword [rsp + 272], r13
-
-LBB10_183:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000017824848948                   // mov    qword [rsp + 376], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000240248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 576], xmm1
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x0000010024948948                   // mov    qword [rsp + 256], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	LONG $0x20cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 544
-	QUAD $0x000000f8249c8948                   // mov    qword [rsp + 248], rbx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x80cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 640
-	QUAD $0x00000088249c894c                   // mov    qword [rsp + 136], r11
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02a00d48; WORD $0x0000             // or    rax, 672
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0xc0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 704
-	QUAD $0x000000f024bc8948                   // mov    qword [rsp + 240], rdi
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xe0ca8148; WORD $0x0002; BYTE $0x00 // or    rdx, 736
-	QUAD $0x000000d824948948                   // mov    qword [rsp + 216], rdx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
-	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0x40ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 832
-	QUAD $0x000000c024b4894c                   // mov    qword [rsp + 192], r14
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x60c98149; WORD $0x0003; BYTE $0x00 // or    r9, 864
-	QUAD $0x00000108248c894c                   // mov    qword [rsp + 264], r9
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
-	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0xa0ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 928
-	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c8948                   // mov    qword [rsp + 232], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	LONG $0x244c8948; BYTE $0x20               // mov    qword [rsp + 32], rcx
-	LONG $0x207963c4; WORD $0x1e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + rbx], 1
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	LONG $0x2031a3c4; WORD $0x2e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + r13], 2
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 4
-	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 5
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 6
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 7
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 8
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 9
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r14], 10
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r9], 11
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r8], 12
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + r10], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 1
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 2
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 3
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 4
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 5
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 6
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + r12], 14
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x04012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 4
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x07012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 7
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x08012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 12
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
-	QUAD $0x01011e6c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rbx + 1], 1
-	QUAD $0x02013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 2
-	QUAD $0x03010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 3
-	QUAD $0x0401166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 4
-	QUAD $0x05011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 5
-	QUAD $0x0601066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 6
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	QUAD $0x0701366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 1], 7
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 10
-	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	QUAD $0x0e01266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 14
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x00050024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1280], ymm0
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x00024024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 576]
-	QUAD $0x01020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 1
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x02020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 2
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x060236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x08022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 8
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x0a0206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 10
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c0216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 12
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0001e0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 480]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
-	QUAD $0x06021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x01030e642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + rcx + 3], 1
-	QUAD $0x02030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 2
-	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x04031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 4
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x050316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 5
-	QUAD $0x060336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 6
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x07030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 7
-	QUAD $0x080326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 8
-	QUAD $0x09032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 9
-	QUAD $0x0a0306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 10
-	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
-	QUAD $0x0c0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 12
-	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0e0306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0603366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 6
-	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0803066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0903066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0f0326442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	LONG $0x167cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rdx + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001c024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 448]
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x010406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 1
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x02041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x050416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 5
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x06043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 6
-	QUAD $0x07040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 7
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x080416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x090416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 9
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0a0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 10
-	QUAD $0x0b041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 12
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0d0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 13
-	QUAD $0x0e0406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 14
-	QUAD $0x0f040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 15
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x01040e5c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rsi + rcx + 4], 1
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x0204165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 2
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x03040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x04040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 4
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x05040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 5
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x0604365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x07040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 7
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x08040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 9
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x0a04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 11
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0c040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 13
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0e04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 14
-	QUAD $0x0f04265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 15
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x010536642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r14 + 5], 1
-	QUAD $0x02051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 2
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x03051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 3
-	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
-	QUAD $0x050506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 5
-	QUAD $0x06053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x070506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 7
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	QUAD $0x080516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 10
-	QUAD $0x0b051e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 5], 11
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x0c052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 13
-	QUAD $0x0e0506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 15
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x01050e6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rcx + 5], 1
-	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0505066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 5
-	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0705066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 7
-	QUAD $0x08050e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 5], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0905066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0f0526442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + r12 + 5], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x010636442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r14 + 6], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x020606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 2
-	QUAD $0x03061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 3
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x040636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x050606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 5
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-	QUAD $0x060616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 6
-	QUAD $0x07063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x080606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 8
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x09063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 9
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0a060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 10
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	QUAD $0x0b0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 11
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x0c062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 15
-	QUAD $0x01060e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rcx + 6], 1
-	QUAD $0x0206166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 2
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x06062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0706166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 7
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x08060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 9
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 12
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0d061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 14
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0f06266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 6], 15
-	QUAD $0x01071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 1
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x02071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 2
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x03071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 3
-	QUAD $0x040736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 4
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
-	QUAD $0x060716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 6
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x07071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 7
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x080716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 8
-	QUAD $0x09073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 9
-	QUAD $0x0a070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 10
-	QUAD $0x0b0706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 11
-	QUAD $0x0c0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0107064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 1
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0207264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0307064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0407064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 4
-	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
-	QUAD $0x06072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 6
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x0707164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 7
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x08070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0907064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 9
-	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0b072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0706442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 7], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0706442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x01083e442031a3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + r15 + 8], 1
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x02081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 2
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x040806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 4
-	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 6
-	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
-	QUAD $0x07081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 7
-	QUAD $0x080816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 8], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x090816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 9
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0a0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 10
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0b083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 12
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0d0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 15
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0108166c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rdx + 8], 1
-	QUAD $0x0208266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 2
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0308166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
-	QUAD $0x0608066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0708166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 7
-	QUAD $0x08080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0908166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 9
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0a08066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 10
-	QUAD $0x0b082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 11
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0c08266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 12
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0f082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 15
-	QUAD $0x01093e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r15 + 9], 1
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	QUAD $0x02091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 2
-	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x04091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 4
-	QUAD $0x050936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 5
-	QUAD $0x060906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 6
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x07091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 7
-	QUAD $0x080916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 9
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x0a093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0109067c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rax + 9], 1
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x0209167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
-	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0609067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0709067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0809067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0909067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 9
-	QUAD $0x0a09067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 9], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	QUAD $0x0c09267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 9], 12
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x0d09367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 13
-	QUAD $0x0e09167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x0004c024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x020a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
-	QUAD $0x040a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 4
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x050a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 5
-	QUAD $0x060a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x070a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 7
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x080a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 8
-	QUAD $0x090a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 9
-	QUAD $0x0a0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 10
-	QUAD $0x00000108248c8b4c                   // mov    r9, qword [rsp + 264]
-	QUAD $0x0b0a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 11
-	QUAD $0x0c0a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 12
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0d0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 15
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x010a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 1
-	QUAD $0x020a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 2
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x040a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 4
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x050a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x060a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 11
-	QUAD $0x0c0a26642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 10], 12
-	QUAD $0x0d0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 13
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0e0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 15
-	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x020b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x030b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 3
-	QUAD $0x040b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 4
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x050b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x070b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 7
-	QUAD $0x080b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 8
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x090b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
-	QUAD $0x0b0b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
-	QUAD $0x0d0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 15
-	QUAD $0x010b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
-	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
-	QUAD $0x040b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 4
-	QUAD $0x050b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x060b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 11
-	QUAD $0x0c0b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x0004a0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm3
-	QUAD $0x0e0b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000480248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm1
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x010c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 1
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x020c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 12], 2
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x030c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 3
-	QUAD $0x040c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 4
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x050c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 6
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x070c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 7
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x080c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 12], 8
-	QUAD $0x090c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 9
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x0a0c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 10
-	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
-	QUAD $0x0b0c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 12], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 12
-	QUAD $0x0d0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 15
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x010c06542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + rax + 12], 1
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x030c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x050c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x0a0c2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 12], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c0c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 14
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0f0c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 15
-	QUAD $0x010d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 1
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	QUAD $0x020d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 2
-	QUAD $0x030d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 3
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x040d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 4
-	QUAD $0x050d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 5
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x060d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 6
-	QUAD $0x070d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 7
-	QUAD $0x080d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x090d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 9
-	QUAD $0x0a0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 10
-	QUAD $0x0b0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 12
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0d0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 13
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 15
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x010d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 1
-	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x030d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 3
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x040d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 4
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x050d064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 13], 5
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x060d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x070d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x080d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 8
-	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
-	QUAD $0x0a0d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 11
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0c0d1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 13], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x00044024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x010e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x020e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 2
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x030e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x040e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
-	QUAD $0x000000f024a48b4c                   // mov    r12, qword [rsp + 240]
-	QUAD $0x060e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 14], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x090e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 11
-	QUAD $0x0c0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 12
-	QUAD $0x0d0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 13
-	QUAD $0x0e0e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 14], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 15
-	QUAD $0x010e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x040e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 4
-	QUAD $0x050e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 5
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x060e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 6
-	QUAD $0x070e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x090e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 9
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0a0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
-	QUAD $0x0c0e1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 14], 12
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0d0e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rdi + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x020f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 2
-	QUAD $0x030f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 3
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x040f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 4
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x050f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 5
-	QUAD $0x060f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 6
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x070f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 7
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x080f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 8
-	QUAD $0x090f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 9
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0a0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 10
-	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
-	QUAD $0x0b0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 14
-	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
-	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x010f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
-	QUAD $0x040f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 4
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x050f2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 15], 5
-	QUAD $0x060f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x070f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 7
-	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
-	QUAD $0x090f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 9
-	QUAD $0x0a0f065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 15], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
-	QUAD $0x0d0f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e0f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rax + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x011016442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 16], 1
-	QUAD $0x02101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 3
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x041006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 4
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x05101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x061006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 6
-	QUAD $0x071026442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 16], 7
-	QUAD $0x08100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 10
-	QUAD $0x0b103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	LONG $0x167cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	QUAD $0x0110364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 1
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x02100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 2
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0310164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 3
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0410164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 4
-	QUAD $0x05102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 5
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0610164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0710164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 7
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0810164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 8
-	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
-	QUAD $0x09101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 9
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0a103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 12
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0d103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 13
-	QUAD $0x0e100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 14
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 15
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x112e             // movzx    edi, byte [rsi + r13 + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 1
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x02113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 2
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x031116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 3
-	QUAD $0x041106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 4
-	QUAD $0x05111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 5
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x06110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 6
-	QUAD $0x071126542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 17], 7
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x08110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x09113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 9
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x0a113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 10
-	QUAD $0x0b113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 14
-	QUAD $0x0f1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0111365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 1
-	QUAD $0x02110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0311065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 3
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0411065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 17], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0511065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0611065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 6
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x07110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 7
-	QUAD $0x0811165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 8
-	QUAD $0x09111e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 17], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 10
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0b11365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1106442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x7cb60f42; WORD $0x122e             // movzx    edi, byte [rsi + r13 + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x021206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 2
-	QUAD $0x031216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x041206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x061206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 6
-	QUAD $0x071226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 7
-	QUAD $0x08120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 9
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0a120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 10
-	QUAD $0x0b123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 11
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
-	QUAD $0x0e121e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 18], 14
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0f123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 15
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	LONG $0x0e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rcx + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x01120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x02120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 2
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x03120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 3
-	QUAD $0x0412064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 4
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x05120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 5
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x06120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 6
-	QUAD $0x07120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 7
-	QUAD $0x0812164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 8
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0912064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 9
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
-	QUAD $0x0b12364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 11
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0c12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 12
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0d12164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 13
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0e121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 15
-	LONG $0x7cb60f42; WORD $0x132e             // movzx    edi, byte [rsi + r13 + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x02133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 2
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x04132e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 19], 4
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x05133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 5
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x06133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 6
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
-	QUAD $0x091306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 9
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0a1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 11
-	QUAD $0x0c1326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 12
-	QUAD $0x0d131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 14
-	QUAD $0x0f133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rax + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0113065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 1
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0213365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0313065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 3
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0413065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 4
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x05133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 5
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x06130e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 19], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0713065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0813065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 8
-	QUAD $0x0913065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 9
-	QUAD $0x0a130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 11
-	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
-	QUAD $0x0d13165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 13
-	QUAD $0x0e131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x141e             // movzx    edi, byte [rsi + r11 + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 1
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x03140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 3
-	QUAD $0x04142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 4
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x05140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 5
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x061406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 20], 6
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x071426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 7
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x08143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x09143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 9
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0a140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 10
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0b141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rdi + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x0114164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 1
-	QUAD $0x0214364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 2
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0314364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 3
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x04142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 4
-	QUAD $0x05143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 5
-	QUAD $0x06140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x09143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 9
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x0e140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
-	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 1
-	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
-	WORD $0x8949; BYTE $0xd3                   // mov    r11, rdx
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x041506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 5
-	QUAD $0x061506542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 21], 6
-	QUAD $0x071526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 9
-	QUAD $0x0a150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 10
-	QUAD $0x0b151e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 21], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rax + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0115165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
-	QUAD $0x0315365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 3
-	QUAD $0x04152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 4
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0515365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0615065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 6
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0715165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 7
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0815065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 8
-	QUAD $0x09153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 9
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x0a15265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b15065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 13
-	QUAD $0x0e150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f151e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rbx + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rcx + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
-	QUAD $0x02161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 2
-	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x04163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 4
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x06160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 6
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x07163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 7
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x081616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x091616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 9
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x0a161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 10
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x0c1606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x02162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 2
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x03163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 3
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x04163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 4
-	QUAD $0x0516364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 6
-	QUAD $0x0716164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 7
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0816364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 9
-	QUAD $0x0a16264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 10
-	QUAD $0x0b16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 11
-	QUAD $0x0c163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 12
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0d16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 14
-	QUAD $0x0f161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 15
-	LONG $0x0e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rcx + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 1
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x02170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x041706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 5
-	QUAD $0x06170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 6
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x07170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 8
-	QUAD $0x091716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 9
-	QUAD $0x0a171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 10
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	QUAD $0x0b1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 11
-	QUAD $0x0c1706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rax + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0117065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 1
-	QUAD $0x02172e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 23], 2
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0317165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 3
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x04173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 4
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x05171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 5
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x06172e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 23], 6
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0717065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 7
-	QUAD $0x0817365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0a17065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 12
-	QUAD $0x0d17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 13
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0e17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 14
-	QUAD $0x00000120249c8b4c                   // mov    r11, qword [rsp + 288]
-	QUAD $0x0f171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdi + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 1
-	QUAD $0x02180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 2
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x03180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 3
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x04180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 4
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x05180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 5
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x061836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 6
-	QUAD $0x07180e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 24], 7
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x08180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x09180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 9
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x0a180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 10
-	QUAD $0x0b1826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 24], 11
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0c180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 12
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0d180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 15
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x01180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 1
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0218264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 2
-	QUAD $0x0318164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 3
-	QUAD $0x04183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 4
-	QUAD $0x05181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 5
-	QUAD $0x06182e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 24], 6
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x07180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 7
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x08183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 9
-	QUAD $0x0a18064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 10
-	QUAD $0x0b18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 11
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 12
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0d180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 13
-	QUAD $0x0e18164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 14
-	QUAD $0x0f181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rax + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x011916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 1
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x021906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x05191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 5
-	QUAD $0x061936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 6
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x071906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x091916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 9
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0a1936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 10
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0b193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 11
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0c191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 12
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0d193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 14
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0f192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	LONG $0x3e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdi + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 1
-	QUAD $0x0219265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 2
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x03190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 3
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x0419265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 4
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x05193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x07193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 7
-	QUAD $0x08193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 9
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0a193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 10
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0b193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 12
-	QUAD $0x0d190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 13
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0e190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f190e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rcx + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rcx + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
-	QUAD $0x021a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 2
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x031a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 3
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
-	QUAD $0x051a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 5
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x061a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 6
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x071a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 7
-	QUAD $0x081a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 8
-	QUAD $0x091a16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 26], 9
-	QUAD $0x0a1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 11
-	QUAD $0x0c1a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 12
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x0d1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 13
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0e1a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 14
-	QUAD $0x0f1a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 15
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	LONG $0x167cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rdx + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x011a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 1
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x021a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 2
-	QUAD $0x031a0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 26], 3
-	QUAD $0x041a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 4
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x051a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 5
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x061a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 6
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x071a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 7
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x081a1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 26], 8
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x091a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 9
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0a1a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 10
-	QUAD $0x0b1a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 12
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x0d1a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 13
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0e1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 15
-	LONG $0x0e7cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rcx + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x011b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 27], 1
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x021b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 2
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x031b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 3
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x041b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 4
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x051b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 5
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x061b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 6
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x071b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 7
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x081b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 8
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x091b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 9
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x0a1b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 10
-	QUAD $0x0b1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 12
-	QUAD $0x0d1b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 13
-	QUAD $0x0e1b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	LONG $0x067cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rax + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x011b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 1
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x021b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 2
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x031b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 3
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x041b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 4
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x051b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 5
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x061b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 6
-	QUAD $0x071b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 7
-	QUAD $0x081b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x091b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 9
-	QUAD $0x0a1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 10
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0b1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 11
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0c1b065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 27], 12
-	QUAD $0x0d1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 13
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0e1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 14
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0f1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rdx + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 1
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x021c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 28], 2
-	QUAD $0x031c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 3
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x041c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 4
-	QUAD $0x051c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 5
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x061c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 6
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x071c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 7
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x081c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 8
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x091c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 9
-	QUAD $0x0a1c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 10
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0b1c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x0c1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 12
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0d1c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 15
-	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x021c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 2
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x031c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 3
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x041c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 4
-	QUAD $0x051c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 5
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x061c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 6
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x071c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 7
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x081c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 8
-	QUAD $0x091c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 9
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0a1c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 10
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0b1c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 11
-	QUAD $0x0c1c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 12
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0d1c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 13
-	QUAD $0x0e1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 14
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0f1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x011d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 1
-	QUAD $0x021d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 2
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x031d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 3
-	QUAD $0x041d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 4
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
-	QUAD $0x000000f024a48b4c                   // mov    r12, qword [rsp + 240]
-	QUAD $0x061d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 6
-	QUAD $0x071d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 7
-	QUAD $0x081d3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 29], 8
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0a1d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 10
-	QUAD $0x0b1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 11
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x0c1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 12
-	QUAD $0x0d1d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 13
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x0e1d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 15
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	LONG $0x7cb60f42; WORD $0x1d3e             // movzx    edi, byte [rsi + r15 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x021d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x031d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 3
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x041d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 29], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x051d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 5
-	QUAD $0x061d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 6
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x071d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 7
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x081d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 9
-	QUAD $0x0a1d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 10
-	QUAD $0x0b1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 11
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0c1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 12
-	QUAD $0x0d1d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 29], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1d06642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + rax + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x0f1d2e442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r13 + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x1e               // movzx    edi, byte [rsi + rax + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x011e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 1
-	LONG $0x067cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rax + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 1
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
-	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
-	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
-	QUAD $0x061e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 30], 6
-	QUAD $0x061f264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 31], 6
-	QUAD $0x0000011024ac8b4c                   // mov    r13, qword [rsp + 272]
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	QUAD $0x0a1e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 30], 10
-	QUAD $0x0a1f0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 31], 10
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	QUAD $0x0e1e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 30], 14
-	QUAD $0x0e1f164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 31], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	LONG $0x44b60f42; WORD $0x1e3e             // movzx    eax, byte [rsi + r15 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f3e             // movzx    eax, byte [rsi + r15 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
-	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 30], 4
-	QUAD $0x041f1e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 31], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	QUAD $0x071e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 30], 7
-	QUAD $0x071f167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 31], 7
-	QUAD $0x081e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 8
-	QUAD $0x081f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
-	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
-	QUAD $0x0c1e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 12
-	QUAD $0x0c1f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 12
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0e1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00018024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 384]
-	LONG $0x646dc1c4; BYTE $0xc5               // vpcmpgtb    ymm0, ymm2, ymm13
-	QUAD $0x00050024bc64edc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm2, yword [rsp + 1280]
-	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI10_0] */
-	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x00024024bc64edc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm2, yword [rsp + 576]
-	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	QUAD $0x0001e024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 480]
-	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI10_2] */
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0x646d41c4; BYTE $0xe6               // vpcmpgtb    ymm12, ymm2, ymm14
-	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI10_3] */
-	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
-	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0x646dc1c4; BYTE $0xff               // vpcmpgtb    ymm7, ymm2, ymm15
-	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI10_4] */
-	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
-	QUAD $0x0001c024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 448]
-	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI10_5] */
-	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00022024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 544]
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x0004e024bc64edc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm2, yword [rsp + 1248]
-	QUAD $0x0004c024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 1216]
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x0004a024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 1184]
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	QUAD $0x00048024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 1152]
-	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x00044024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 1088]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00046024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 1120]
-	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
-	QUAD $0x00040024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 1024]
-	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x00042024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 1056]
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x0003e024bc64edc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm2, yword [rsp + 992]
-	QUAD $0x0003c024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 960]
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
-	QUAD $0x00038024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 896]
-	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
-	QUAD $0x0003a024b4646dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm2, yword [rsp + 928]
-	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	QUAD $0x00034024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 832]
-	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	QUAD $0x00036024b4646dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm2, yword [rsp + 864]
-	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
-	LONG $0x646d41c4; BYTE $0xd2               // vpcmpgtb    ymm10, ymm2, ymm10
-	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
-	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
-	LONG $0x646d41c4; BYTE $0xdb               // vpcmpgtb    ymm11, ymm2, ymm11
-	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
-	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x000280248c646dc5; BYTE $0x00       // vpcmpgtb    ymm9, ymm2, yword [rsp + 640]
-	QUAD $0x0002a02484646dc5; BYTE $0x00       // vpcmpgtb    ymm8, ymm2, yword [rsp + 672]
-	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
-	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
-	QUAD $0x0002c024ac64edc5; BYTE $0x00       // vpcmpgtb    ymm5, ymm2, yword [rsp + 704]
-	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
-	QUAD $0x0002e024b464edc5; BYTE $0x00       // vpcmpgtb    ymm6, ymm2, yword [rsp + 736]
-	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x000300249c64edc5; BYTE $0x00       // vpcmpgtb    ymm3, ymm2, yword [rsp + 768]
-	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI10_3] */
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x00032024a464edc5; BYTE $0x00       // vpcmpgtb    ymm4, ymm2, yword [rsp + 800]
-	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
-	QUAD $0x000140248c64edc5; BYTE $0x00       // vpcmpgtb    ymm1, ymm2, yword [rsp + 320]
-	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
-	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
-	QUAD $0x000120249464edc5; BYTE $0x00       // vpcmpgtb    ymm2, ymm2, yword [rsp + 288]
-	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
-	LONG $0x7f7ec1c4; WORD $0x8d44; BYTE $0x60 // vmovdqu    yword [r13 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8d54; BYTE $0x40 // vmovdqu    yword [r13 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8d64; BYTE $0x20 // vmovdqu    yword [r13 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8d4c; BYTE $0x00 // vmovdqu    yword [r13 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000001a0248c3b48                   // cmp    rcx, qword [rsp + 416]
-	JNE  LBB10_183
-	QUAD $0x0000026024bc8b4c                   // mov    r15, qword [rsp + 608]
-	QUAD $0x000001a024bc3b4c                   // cmp    r15, qword [rsp + 416]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000017024a48b4c                   // mov    r12, qword [rsp + 368]
-	JNE  LBB10_35
-	JMP  LBB10_130
-
-LBB10_185:
-	LONG $0xe0e78349                     // and    r15, -32
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000021824848948             // mov    qword [rsp + 536], rax
-	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
-	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
-	QUAD $0x0000016824848948             // mov    qword [rsp + 360], rax
-	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00026024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 608], ymm0
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
-
-LBB10_186:
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0000017824848948                   // mov    qword [rsp + 376], rax
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x1644b60f; BYTE $0x01               // movzx    eax, byte [rsi + rdx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
-	LONG $0xe86ef9c5                           // vmovd    xmm5, eax
-	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000220248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 544], xmm1
-	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
-	QUAD $0x0000010824948948                   // mov    qword [rsp + 264], rdx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	LONG $0x20cd8149; WORD $0x0002; BYTE $0x00 // or    r13, 544
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x60ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 608
-	QUAD $0x000000c024b4894c                   // mov    qword [rsp + 192], r14
-	LONG $0x80cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 640
-	QUAD $0x000000f0249c8948                   // mov    qword [rsp + 240], rbx
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0xa0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 672
-	QUAD $0x00000088248c894c                   // mov    qword [rsp + 136], r9
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	LONG $0x00cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 768
-	QUAD $0x000000b0249c894c                   // mov    qword [rsp + 176], r11
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0x20cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 800
-	LONG $0x247c8948; BYTE $0x58               // mov    qword [rsp + 88], rdi
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
-	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	LONG $0x60c88149; WORD $0x0003; BYTE $0x00 // or    r8, 864
-	QUAD $0x000000a82484894c                   // mov    qword [rsp + 168], r8
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0xa0ca8148; WORD $0x0003; BYTE $0x00 // or    rdx, 928
-	LONG $0x24548948; BYTE $0x28               // mov    qword [rsp + 40], rdx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000100248c8948                   // mov    qword [rsp + 256], rcx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
-	QUAD $0x000000d8248c8948                   // mov    qword [rsp + 216], rcx
-	QUAD $0x000000f824ac894c                   // mov    qword [rsp + 248], r13
-	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
-	LONG $0x2031a3c4; WORD $0x2604; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + r12], 2
-	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 3
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 4
-	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r9], 5
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 6
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 7
-	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 8
-	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 9
-	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r10], 10
-	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r8], 11
-	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r15], 12
-	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 13
-	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
-	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 1
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 2
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 4
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 5
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 6
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + r11], 10
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 12
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 13
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + r12], 14
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 15
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x00026024946f7dc5; BYTE $0x00       // vmovdqa    ymm10, yword [rsp + 608]
-	LONG $0xd8deadc5                           // vpmaxub    ymm3, ymm10, ymm0
-	QUAD $0x01012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 1
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x02011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 2
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x03012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 3
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	QUAD $0x04012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 4
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x05011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 5
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x06011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 6
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x07011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 7
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x08011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 8
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x09011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 9
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x0a011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 10
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0b011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 11
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0c011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0d011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 13
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0e011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 14
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0f011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 15
-	QUAD $0x0101066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 1
-	QUAD $0x0201166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 2
-	QUAD $0x0301166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 1], 3
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0401166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 1], 4
-	QUAD $0x05010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 5
-	QUAD $0x0601366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 1], 6
-	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
-	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
-	QUAD $0x0a011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 11
-	QUAD $0x0c010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
-	QUAD $0x00050024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1280], ymm0
-	QUAD $0x0e0126442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + r12 + 1], 14
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0f0106442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 1], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
-	LONG $0xf76ef9c5                           // vmovd    xmm6, edi
-	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x01023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x020206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 2
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x030206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 3
-	QUAD $0x04022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 4
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x05021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 5
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x06020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 6
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x070206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x080206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 8
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x090206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 9
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 10
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0b0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 11
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0c0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 13
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0e0216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 14
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x0f020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
-	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
-	QUAD $0x0402165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 4
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0502165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 6
-	QUAD $0x0702365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 2], 7
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0802365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 2], 8
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0902265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 2], 9
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0a02165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 10
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0b02165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 11
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0c02165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 12
-	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
-	QUAD $0x01033e642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + r15 + 3], 1
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x02031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 2
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x03031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 3
-	QUAD $0x04032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 4
-	QUAD $0x05031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 5
-	QUAD $0x06030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 6
-	QUAD $0x070306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 7
-	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x08032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 8
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x09031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 9
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x0a031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 10
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0b031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 11
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0c031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 12
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0d031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 13
-	QUAD $0x0e0316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 14
-	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
-	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0203066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 3], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
-	QUAD $0x06033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0703066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 7
-	QUAD $0x0803366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 8
-	QUAD $0x0903266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 3], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
-	QUAD $0x0c03166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 3], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 14
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0f0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x00022024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 544]
-	QUAD $0x01040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 1
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x020416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 2
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x03040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 4
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x050406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 5
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x060436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 4], 6
-	QUAD $0x07043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 7
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x08042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 8
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x09042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 9
-	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
-	QUAD $0x0a041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 10
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x0b041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 11
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x0c041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 12
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0d043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 14
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0f0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0104065c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rsi + rax + 4], 1
-	QUAD $0x0204065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0304065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0404065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x05043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0604065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0704065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0804065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 8
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0904065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 10
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0b04065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 11
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0c04065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 14
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0f04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 15
-	QUAD $0x01050e642009e3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + rcx + 5], 1
-	QUAD $0x020516642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 5], 2
-	QUAD $0x03050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 4
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
-	QUAD $0x060536642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 5], 6
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x07050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 7
-	QUAD $0x080526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 8
-	QUAD $0x09052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 9
-	QUAD $0x0a0516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 10
-	QUAD $0x0b051e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 5], 11
-	QUAD $0x0c051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 12
-	QUAD $0x0d053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0f0516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0105066c2011e3c4                   // vpinsrb    xmm5, xmm13, byte [rsi + rax + 5], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 2
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0305366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
-	QUAD $0x05053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 5
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x06051e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 5], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0705066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 7
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0805166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 8
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x0905166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 9
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0a05166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 10
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0b05166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 11
-	QUAD $0x0c05066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 5], 12
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0d05166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 13
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0e0516442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rdx + 5], 14
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	LONG $0x167cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rdx + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x0f053e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 5], 15
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rdx + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x010626442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r12 + 6], 1
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x02062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 2
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x030616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 3
-	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
-	QUAD $0x040616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 4
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x05061e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 6], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x06063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 6
-	QUAD $0x07060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 7
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x08063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 8
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x09063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0a063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 10
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0b063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 11
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0c063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
-	QUAD $0x0f0616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 15
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x01063e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rdi + 6], 1
-	QUAD $0x02060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 2
-	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
-	QUAD $0x0306366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x05060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 5
-	QUAD $0x06061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 6
-	QUAD $0x0706066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 7
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0806066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 6], 8
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x0906366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 11
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x0c061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 12
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0d060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 13
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0e060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 14
-	QUAD $0x0f063e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 6], 15
-	QUAD $0x010726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 7], 1
-	QUAD $0x02072e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 7], 2
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x03072e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 7], 3
-	QUAD $0x040716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 4
-	QUAD $0x05071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 5
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x060716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 6
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x080716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 8
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x09071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 9
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0a0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 10
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0b0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 11
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x0c0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 13
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0e0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 14
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x0f0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 15
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0107164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 1
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0207164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 2
-	QUAD $0x0307164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 7], 3
-	QUAD $0x04073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 4
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0507164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 5
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0607164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 6
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0707164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 7
-	QUAD $0x0807064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 7], 8
-	QUAD $0x0907364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 7], 9
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0a07164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 10
-	QUAD $0x0b07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 11
-	QUAD $0x0c071e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 7], 12
-	QUAD $0x0d070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 13
-	QUAD $0x0e070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	QUAD $0x0f073e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 7], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
-	QUAD $0x0004e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x010826542031a3c4                   // vpinsrb    xmm2, xmm9, byte [rsi + r12 + 8], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x020806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 2
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x03082e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 8], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 4
-	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
-	QUAD $0x05082e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 8], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x060806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 6
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x070816542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 8], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x080806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 8
-	QUAD $0x09081e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 8], 9
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 10
-	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
-	QUAD $0x0b0816542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 8], 11
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0c0836542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 8], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d080e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 8], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 14
-	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
-	QUAD $0x0f083e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 8], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0108066c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rax + 8], 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0208066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0308066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0408066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 4
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x05080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0608066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x07083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0808066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 8
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0908066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 9
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0a081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 10
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0b081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 11
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x0c081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 12
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0d081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 14
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0f081e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 8], 15
-	LONG $0x3855e3c4; WORD $0x01d2             // vinserti128    ymm2, ymm5, xmm2, 1
-	LONG $0xeadeadc5                           // vpmaxub    ymm5, ymm10, ymm2
-	QUAD $0x010926742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r12 + 9], 1
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x02091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 2
-	QUAD $0x030906742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r8 + 9], 3
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x04091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 4
-	QUAD $0x05092e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r13 + 9], 5
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x06091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 6
-	QUAD $0x070916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 7
-	WORD $0x894d; BYTE $0xd4                   // mov    r12, r10
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x08091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 8
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x090916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 9
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x0a091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 10
-	QUAD $0x0b0916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 11
-	QUAD $0x0c0936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 12
-	QUAD $0x0d090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 14
-	QUAD $0x0f093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 15
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x01090e7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rcx + 9], 1
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x02091e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 9], 2
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x03090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 4
-	QUAD $0x05090e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 9], 5
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x0609167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 6
-	QUAD $0x07093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 7
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x08090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 8
-	QUAD $0x0909067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 9
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	QUAD $0x0a09367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x0c092e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 9], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
-	LONG $0xd574edc5                           // vpcmpeqb    ymm2, ymm2, ymm5
-	QUAD $0x0004c024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x0004a024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm5
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
-	QUAD $0x010a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 1
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x020a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 2
-	QUAD $0x030a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 3
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x040a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 4
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x050a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 5
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x060a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 6
-	QUAD $0x070a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 7
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x080a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 8
-	QUAD $0x090a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 9
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x0a0a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 10
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0b0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 11
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0c0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 14
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0f0a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x010a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 1
-	QUAD $0x020a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 2
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x040a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x050a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 5
-	QUAD $0x060a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 6
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x070a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x080a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 8
-	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
-	QUAD $0x090a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 9
-	QUAD $0x0a0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 10
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x0b0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 11
-	QUAD $0x0c0a2e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 10], 12
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0d0a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 13
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0e0a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 14
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x0f0a2e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 10], 15
-	QUAD $0x010b3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 11], 1
-	QUAD $0x020b1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 11], 2
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x030b1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 11], 3
-	QUAD $0x040b06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 11], 4
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x050b1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 11], 5
-	QUAD $0x060b0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 11], 6
-	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
-	QUAD $0x070b1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 11], 7
-	QUAD $0x080b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 8
-	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
-	QUAD $0x090b0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 11], 9
-	QUAD $0x0a0b26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 11], 10
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x0b0b2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 11], 11
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x0c0b3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 11], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d0b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e0b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 14
-	QUAD $0x0f0b16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 11], 15
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x010b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x020b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 2
-	QUAD $0x030b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x040b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x050b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 5
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x060b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 6
-	QUAD $0x070b1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 11], 7
-	QUAD $0x080b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 8
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x090b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
-	QUAD $0x0b0b364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 11], 11
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000480249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm3
-	QUAD $0x0e0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 14
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0f0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
-	QUAD $0x010c264c2069a3c4                   // vpinsrb    xmm1, xmm2, byte [rsi + r12 + 12], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x020c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 2
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x030c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 12], 3
-	QUAD $0x040c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 12], 4
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x050c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x060c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 6
-	QUAD $0x070c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 12], 7
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x080c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 12], 8
-	QUAD $0x090c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 12], 9
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a0c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 10
-	QUAD $0x0b0c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 12], 11
-	QUAD $0x0c0c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 12], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d0c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 13
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0e0c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 12], 14
-	QUAD $0x0f0c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 12], 15
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x010c16542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + r10 + 12], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x030c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 3
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x040c1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 12], 4
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x050c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 5
-	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
-	QUAD $0x060c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 6
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x070c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 7
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x080c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 8
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x090c2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 12], 9
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0a0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 10
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0b0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 11
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0c0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 12
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0d0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 13
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0e0c0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 12], 14
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0f0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 15
-	QUAD $0x010d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 1
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x020d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 2
-	QUAD $0x030d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 3
-	QUAD $0x040d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 4
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x050d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 5
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x060d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 6
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x070d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 7
-	QUAD $0x080d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 8
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x090d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 9
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x0a0d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 10
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0b0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 11
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x0c0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 12
-	QUAD $0x0d0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 13
-	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0f0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 15
-	QUAD $0x010d16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 13], 1
-	QUAD $0x020d3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 13], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x030d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 3
-	QUAD $0x040d1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 13], 4
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x050d36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 13], 5
-	QUAD $0x060d3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 13], 6
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x070d3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 13], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x080d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 8
-	QUAD $0x090d2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 13], 9
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0a0d2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 13], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 11
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0c0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 13
-	QUAD $0x0e0d0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000440248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0f0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x010e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 14], 1
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x020e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 14], 2
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x030e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x040e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 4
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
-	QUAD $0x060e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 6
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
-	QUAD $0x080e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 8
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x090e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 9
-	QUAD $0x0a0e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 14], 10
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0b0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 11
-	QUAD $0x0c0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 13
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x0e0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 14
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x0f0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x010e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 1
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x040e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 4
-	QUAD $0x050e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 5
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x060e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 6
-	QUAD $0x070e3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 14], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x090e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 9
-	QUAD $0x0a0e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 14], 10
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0c0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 13
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
-	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x0f3e             // movzx    edi, byte [rsi + r15 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x010f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 1
-	QUAD $0x020f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 2
-	QUAD $0x030f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x040f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 4
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x050f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x060f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 6
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x070f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 7
-	QUAD $0x080f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 8
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x090f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 9
-	QUAD $0x0a0f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 10
-	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
-	QUAD $0x0b0f36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 15], 11
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x0c0f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 13
-	QUAD $0x0e0f1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 15], 14
-	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	LONG $0x1e7cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rbx + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x010f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x030f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 3
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x040f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x050f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 5
-	QUAD $0x060f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 6
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x070f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 7
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x080f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 8
-	QUAD $0x090f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 11
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 13
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0e0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 14
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0f0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x7cb60f42; WORD $0x103e             // movzx    edi, byte [rsi + r15 + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 1
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x02103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 2
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x03103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 3
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x04103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 4
-	QUAD $0x051016442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 16], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x06103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 6
-	QUAD $0x071006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 7
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x08103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 8
-	QUAD $0x09102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0a103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 10
-	QUAD $0x0b1036442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 16], 11
-	QUAD $0x0c1026442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 16], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 13
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0e1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 14
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x0f102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 15
-	LONG $0x1e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rbx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x01101e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 16], 1
-	QUAD $0x02100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 2
-	QUAD $0x03100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 3
-	QUAD $0x04101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 4
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x05100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 6
-	QUAD $0x0710164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 7
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x08101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 8
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x0910264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 9
-	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
-	QUAD $0x0a10164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 10
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0b10164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 11
-	QUAD $0x0c10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 14
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x0f100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 1
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x02113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 2
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x03113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 3
-	QUAD $0x04113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 4
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x05113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 5
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x06113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 6
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x07113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 7
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x08113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 8
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x09113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0a113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 10
-	QUAD $0x0b1136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 11
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0c113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 13
-	QUAD $0x0e1106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 14
-	QUAD $0x0f112e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 17], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rdi + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01111e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 17], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x02113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 2
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x03113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 4
-	QUAD $0x05110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 5
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x06112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 6
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x07110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 7
-	QUAD $0x08111e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 17], 8
-	QUAD $0x0911265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 9
-	QUAD $0x0a11165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 17], 10
-	QUAD $0x0b11165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 11
-	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
-	QUAD $0x0c11265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 12
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0d110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 13
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0e110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0f110e4c2061a3c4                   // vpinsrb    xmm1, xmm3, byte [rsi + r9 + 17], 15
-	LONG $0xd8deadc5                           // vpmaxub    ymm3, ymm10, ymm0
-	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	LONG $0x3875e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm1, xmm2, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	LONG $0x067cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rax + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x01121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 1
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x021216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 2
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	QUAD $0x031206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 3
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x04121e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 18], 4
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x051216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 5
-	QUAD $0x06123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 6
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x07120e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 18], 7
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x081216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 8
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x091216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 9
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x0a1236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 10
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x0b123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 11
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x0c1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 13
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0e1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 14
-	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
-	QUAD $0x0f1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 15
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rdx + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0112164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 1
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x0212164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 2
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x0312164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 3
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0412164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x05123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 5
-	QUAD $0x06122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x07123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 7
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x08123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 8
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x09123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 9
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0a123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 10
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0b123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 11
-	QUAD $0x0c12264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 18], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 13
-	QUAD $0x0e120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 14
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0f120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 15
-	LONG $0x067cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rax + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x01131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x021306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 2
-	QUAD $0x031306542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 19], 3
-	QUAD $0x04131e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 19], 4
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x051326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 5
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x06130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 6
-	QUAD $0x07130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 7
-	QUAD $0x081316542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 19], 8
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x09131e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 19], 9
-	QUAD $0x0a1336542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 19], 10
-	QUAD $0x0b133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 11
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	QUAD $0x0c131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 14
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x0f133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x01133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x02133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 2
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0313065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 3
-	QUAD $0x0413165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 4
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0513165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 5
-	QUAD $0x06132e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 19], 6
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x0713365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 7
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0813165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 8
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x09133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 9
-	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
-	QUAD $0x0a13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 10
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0b13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 11
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
-	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
-	QUAD $0x0d13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 13
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0e13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x0f130e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r9 + 19], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
-	LONG $0x167cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rdx + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x011416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 1
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x03143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x04143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 4
-	QUAD $0x051426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 5
-	QUAD $0x06140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 6
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x07140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 7
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x08140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 8
-	QUAD $0x09141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 9
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0a140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 10
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0b140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 11
-	QUAD $0x0c141e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 20], 12
-	QUAD $0x0d1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 14
-	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
-	QUAD $0x0f141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rcx + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x01140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 2
-	QUAD $0x0314064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 4
-	QUAD $0x0514164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 5
-	QUAD $0x06142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 6
-	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
-	QUAD $0x0714364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 7
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x08140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 8
-	QUAD $0x09143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 9
-	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
-	QUAD $0x0a143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 10
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0c143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 12
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0d14264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 20], 13
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0e143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 14
-	QUAD $0x0f140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 15
-	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x1536             // movzx    edi, byte [rsi + r14 + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 1
-	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x04153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 4
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x05153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 5
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x06151e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 21], 6
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x07152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 7
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x081506542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 21], 8
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x09153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0a153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 10
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0b153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 11
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0c153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 13
-	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
-	QUAD $0x0f151e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 21], 15
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	LONG $0x1e7cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rbx + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0115065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x02153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 2
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x03153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x05153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 5
-	QUAD $0x0615165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x07153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 7
-	QUAD $0x08150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 8
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x09150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 9
-	QUAD $0x0a153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 10
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0b15165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 11
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x0c150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 12
-	QUAD $0x0d15265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 13
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0e150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 14
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x0f150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 15
-	LONG $0x387563c4; WORD $0x01d8             // vinserti128    ymm11, ymm1, xmm0, 1
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	LONG $0x7cb60f42; WORD $0x1636             // movzx    edi, byte [rsi + r14 + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x01160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 1
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x02160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 2
-	WORD $0x8949; BYTE $0xd7                   // mov    r15, rdx
-	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
-	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
-	QUAD $0x041636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 4
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
-	QUAD $0x06161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 6
-	QUAD $0x07162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 7
-	QUAD $0x081606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 8
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x09160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 9
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0a160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 10
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0b160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 11
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x0c1626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 12
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0d162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 14
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
-	LONG $0x1e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rbx + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0116064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 1
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x0216064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 22], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0316064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 3
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x04161e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 22], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x05163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x07163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 7
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x08163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 8
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x09163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 9
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0a163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 10
-	QUAD $0x0b16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 11
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x0c163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 13
-	QUAD $0x0e160e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 22], 14
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0f163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 15
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x01173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 1
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x02173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 2
-	QUAD $0x03173e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 23], 3
-	QUAD $0x041736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 4
-	QUAD $0x051716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 5
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x061716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 6
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x071716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 7
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x08170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 8
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x09173e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 23], 9
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x0a1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 10
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0b1716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 11
-	QUAD $0x0c1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 12
-	QUAD $0x0d172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 13
-	QUAD $0x0e170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 14
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x0f172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rcx + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0117165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 1
-	QUAD $0x0217065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 2
-	QUAD $0x0317065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 3
-	QUAD $0x04171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0517065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0617065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 6
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	QUAD $0x0717165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0817065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 8
-	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
-	QUAD $0x09171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 9
-	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
-	QUAD $0x0a17265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 10
-	QUAD $0x0b171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 11
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0c17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 12
-	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
-	QUAD $0x0d17065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 14
-	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0f171e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rbx + 23], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rax + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x021806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 2
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x03183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x04183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 4
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x05183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x06183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 6
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x07183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 7
-	QUAD $0x08180e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 24], 8
-	QUAD $0x09183e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 24], 9
-	QUAD $0x0a1836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 10
-	QUAD $0x0b1816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 11
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0c183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 14
-	QUAD $0x0f182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 15
-	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0118164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 1
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x02180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 2
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x03183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 3
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x04183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 4
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x05180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 5
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x06183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 6
-	QUAD $0x0718164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 7
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0818164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 8
-	QUAD $0x09181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 9
-	QUAD $0x0a18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 10
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x0b18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 11
-	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
-	QUAD $0x0c18164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 12
-	QUAD $0x0d18064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 13
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0e18164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 14
-	QUAD $0x0f181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 15
-	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x1906             // movzx    edi, byte [rsi + r8 + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
-	QUAD $0x011916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 1
-	QUAD $0x021906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 2
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x031936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 3
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x04191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 4
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x051916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 5
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x06191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 6
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x071906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x091906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 9
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 10
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0b1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 11
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x0c192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 13
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0e1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 14
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0f1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x067cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rax + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0119165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 1
-	QUAD $0x02190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 2
-	QUAD $0x03193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 3
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x04190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 4
-	QUAD $0x05190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0619065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0719065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0819065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 8
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x09193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 9
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0a193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 10
-	QUAD $0x0b19265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 11
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x0c190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 12
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0d193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 13
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0e19164c2061a3c4                   // vpinsrb    xmm1, xmm3, byte [rsi + r10 + 25], 14
-	LONG $0xd8deadc5                           // vpmaxub    ymm3, ymm10, ymm0
-	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0f193e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rdi + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
-	LONG $0x7cb60f42; WORD $0x1a06             // movzx    edi, byte [rsi + r8 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x011a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 1
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x021a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 2
-	QUAD $0x031a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 3
-	QUAD $0x041a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 4
-	QUAD $0x051a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 5
-	QUAD $0x061a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 6
-	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
-	QUAD $0x071a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 7
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x081a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 8
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x091a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 9
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0a1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 10
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x0b1a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 11
-	QUAD $0x0c1a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 13
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x0e1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 14
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x0f1a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 15
-	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1a36             // movzx    edi, byte [rsi + r14 + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x011a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x021a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 2
-	QUAD $0x031a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 3
-	QUAD $0x041a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x051a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 5
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x061a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 6
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x071a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 7
-	QUAD $0x081a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 8
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x091a1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 26], 9
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0a1a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 10
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 11
-	QUAD $0x0c1a0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 26], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 13
-	QUAD $0x0e1a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 14
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x0f1a0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 26], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rax + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
-	QUAD $0x011b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 1
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x021b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 2
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x031b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 3
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x041b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 4
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x051b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 5
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x061b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 6
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x071b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 7
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x081b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 8
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x091b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0a1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 10
-	QUAD $0x0b1b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 11
-	QUAD $0x0c1b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 13
-	QUAD $0x0e1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 14
-	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
-	QUAD $0x0f1b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 15
-	LONG $0x7cb60f42; WORD $0x1b36             // movzx    edi, byte [rsi + r14 + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x011b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 1
-	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
-	QUAD $0x021b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 2
-	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
-	QUAD $0x031b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 3
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x041b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 4
-	QUAD $0x051b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 5
-	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
-	QUAD $0x061b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 6
-	QUAD $0x071b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 7
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x081b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 8
-	QUAD $0x091b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 9
-	QUAD $0x0a1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 10
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0b1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 11
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x0c1b1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 27], 12
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0d1b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 13
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0e1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 14
-	QUAD $0x0f1b0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 1
-	QUAD $0x021c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 2
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x031c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 3
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x041c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 4
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x051c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 5
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x061c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 6
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x071c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x081c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 8
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x091c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 9
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0a1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 10
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0b1c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 11
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x0c1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 12
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0d1c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 13
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x0e1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 14
-	QUAD $0x0f1c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3e7cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rdi + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 1
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x021c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 2
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x031c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 3
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x041c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x051c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 5
-	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
-	QUAD $0x061c264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 28], 6
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x071c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 7
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x081c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 8
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x091c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 10
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0b1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 11
-	QUAD $0x0c1c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 12
-	QUAD $0x0d1c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 28], 13
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0e1c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 28], 14
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x0f1c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 15
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	LONG $0x067cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rax + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x011d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 1
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x021d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 2
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x031d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 3
-	QUAD $0x041d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 4
-	QUAD $0x051d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 5
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x061d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 6
-	QUAD $0x071d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 7
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x081d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 8
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x091d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 9
-	QUAD $0x0a1d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 10
-	QUAD $0x0b1d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 11
-	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
-	QUAD $0x0c1d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 12
-	QUAD $0x0d1d3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 29], 13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0e1d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 14
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0f1d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 15
-	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
-	LONG $0x167cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdx + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x011d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 1
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x021d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 2
-	QUAD $0x031d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 3
-	QUAD $0x041d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x051d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 5
-	QUAD $0x061d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 6
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x071d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x081d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 8
-	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
-	QUAD $0x091d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 10
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0b1d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 11
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x0c1d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 13
-	QUAD $0x0e1d1e642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + rbx + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x0f1d1e442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r11 + 29], 15
-	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	LONG $0x7cb60f42; WORD $0x1e1e             // movzx    edi, byte [rsi + r11 + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x011e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 1
-	LONG $0x7cb60f42; WORD $0x1f1e             // movzx    edi, byte [rsi + r11 + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
-	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
-	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
-	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
-	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
-	QUAD $0x061e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 30], 6
-	QUAD $0x061f064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 31], 6
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
-	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
-	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
-	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 10
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
-	QUAD $0x0c1e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 30], 12
-	QUAD $0x0c1f0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 31], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x0e1e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 14
-	QUAD $0x0e1f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 14
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
-	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
-	LONG $0x1644b60f; BYTE $0x1e               // movzx    eax, byte [rsi + rdx + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
-	LONG $0x1644b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rdx + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
-	QUAD $0x021e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 2
-	QUAD $0x021f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 2
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x041e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 4
-	QUAD $0x041f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
-	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
-	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
-	QUAD $0x071e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 7
-	QUAD $0x071f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 7
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x081e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 8
-	QUAD $0x081f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 8
-	QUAD $0x091e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 9
-	QUAD $0x091f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 9
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
-	QUAD $0x0b1e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 11
-	QUAD $0x0b1f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 11
-	QUAD $0x0c1e2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 30], 12
-	QUAD $0x0c1f2e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 31], 12
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
-	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0e1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 14
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x0f1e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 15
-	QUAD $0x0f1f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	LONG $0x6f7dc1c4; BYTE $0xd2               // vmovdqa    ymm2, ymm10
-	QUAD $0x000240248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 576]
-	LONG $0xc1deadc5                           // vpmaxub    ymm0, ymm10, ymm1
-	LONG $0xc074f5c5                           // vpcmpeqb    ymm0, ymm1, ymm0
-	LONG $0x756ffdc5; BYTE $0x00               // vmovdqa    ymm6, yword 0[rbp] /* [rip + .LCPI10_0] */
-	LONG $0xc6dbfdc5                           // vpand    ymm0, ymm0, ymm6
-	QUAD $0x0005002484f8fdc5; BYTE $0x00       // vpsubb    ymm0, ymm0, yword [rsp + 1280]
-	QUAD $0x0001e0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 480]
-	LONG $0xf9deadc5                           // vpmaxub    ymm7, ymm10, ymm1
-	LONG $0xff74f5c5                           // vpcmpeqb    ymm7, ymm1, ymm7
-	QUAD $0x0001c0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 448]
-	LONG $0xe1de2dc5                           // vpmaxub    ymm12, ymm10, ymm1
-	LONG $0xe1741dc5                           // vpcmpeqb    ymm12, ymm12, ymm1
-	LONG $0x456f7dc5; BYTE $0x20               // vmovdqa    ymm8, yword 32[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xffdbbdc5                           // vpand    ymm7, ymm8, ymm7
-	LONG $0x656ffdc5; BYTE $0x40               // vmovdqa    ymm4, yword 64[rbp] /* [rip + .LCPI10_2] */
-	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xde0dc1c4; BYTE $0xfa               // vpmaxub    ymm7, ymm14, ymm10
-	LONG $0xff748dc5                           // vpcmpeqb    ymm7, ymm14, ymm7
-	LONG $0xde0541c4; BYTE $0xe2               // vpmaxub    ymm12, ymm15, ymm10
-	LONG $0x740541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm15, ymm12
-	LONG $0x6d6ffdc5; BYTE $0x60               // vmovdqa    ymm5, yword 96[rbp] /* [rip + .LCPI10_3] */
-	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
-	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI10_4] */
-	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00022024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 544]
-	LONG $0xde0d41c4; BYTE $0xe2               // vpmaxub    ymm12, ymm14, ymm10
-	LONG $0x740d41c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm14, ymm12
-	QUAD $0x000000a09d6ffdc5                   // vmovdqa    ymm3, yword 160[rbp] /* [rip + .LCPI10_5] */
-	LONG $0xe3db1dc5                           // vpand    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x0004e024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1248]
-	LONG $0xde1dc1c4; BYTE $0xfa               // vpmaxub    ymm7, ymm12, ymm10
-	LONG $0xff749dc5                           // vpcmpeqb    ymm7, ymm12, ymm7
-	QUAD $0x000000c0ad6f7dc5                   // vmovdqa    ymm13, yword 192[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xffdb95c5                           // vpand    ymm7, ymm13, ymm7
-	LONG $0xd7eb7dc5                           // vpor    ymm10, ymm0, ymm7
-	QUAD $0x0004a024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1184]
-	LONG $0xfade9dc5                           // vpmaxub    ymm7, ymm12, ymm2
-	LONG $0xff749dc5                           // vpcmpeqb    ymm7, ymm12, ymm7
-	LONG $0xfedbc5c5                           // vpand    ymm7, ymm7, ymm6
-	QUAD $0x0004c024bcf8c5c5; BYTE $0x00       // vpsubb    ymm7, ymm7, yword [rsp + 1216]
-	QUAD $0x00048024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1152]
-	LONG $0xe2de0dc5                           // vpmaxub    ymm12, ymm14, ymm2
-	LONG $0x740d41c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm14, ymm12
-	QUAD $0x00046024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1120]
-	LONG $0xfade0dc5                           // vpmaxub    ymm15, ymm14, ymm2
-	LONG $0x740d41c4; BYTE $0xff               // vpcmpeqb    ymm15, ymm14, ymm15
-	LONG $0xdb1d41c4; BYTE $0xe0               // vpand    ymm12, ymm12, ymm8
-	LONG $0xfcdb05c5                           // vpand    ymm15, ymm15, ymm4
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00044024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1088]
-	LONG $0xe2de0dc5                           // vpmaxub    ymm12, ymm14, ymm2
-	LONG $0x740d41c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm14, ymm12
-	QUAD $0x00042024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1056]
-	LONG $0xfade0dc5                           // vpmaxub    ymm15, ymm14, ymm2
-	LONG $0x740d41c4; BYTE $0xff               // vpcmpeqb    ymm15, ymm14, ymm15
-	LONG $0xe5db1dc5                           // vpand    ymm12, ymm12, ymm5
-	LONG $0xf9db05c5                           // vpand    ymm15, ymm15, ymm1
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003c024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 960]
-	LONG $0xfade0dc5                           // vpmaxub    ymm15, ymm14, ymm2
-	LONG $0x740d41c4; BYTE $0xff               // vpcmpeqb    ymm15, ymm14, ymm15
-	LONG $0xfbdb05c5                           // vpand    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x0003e024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 992]
-	LONG $0xe2de0dc5                           // vpmaxub    ymm12, ymm14, ymm2
-	LONG $0x740d41c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm14, ymm12
-	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x0003a024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 928]
-	LONG $0xfade8dc5                           // vpmaxub    ymm7, ymm14, ymm2
-	LONG $0xff748dc5                           // vpcmpeqb    ymm7, ymm14, ymm7
-	LONG $0xfedbc5c5                           // vpand    ymm7, ymm7, ymm6
-	QUAD $0x00040024bcf8c5c5; BYTE $0x00       // vpsubb    ymm7, ymm7, yword [rsp + 1024]
-	QUAD $0x00036024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 864]
-	LONG $0xfade7dc5                           // vpmaxub    ymm15, ymm0, ymm2
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	QUAD $0x00038024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 896]
-	LONG $0xf2de7dc5                           // vpmaxub    ymm14, ymm0, ymm2
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xdb0541c4; BYTE $0xf8               // vpand    ymm15, ymm15, ymm8
-	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	LONG $0xf2de25c5                           // vpmaxub    ymm14, ymm11, ymm2
-	LONG $0x742541c4; BYTE $0xde               // vpcmpeqb    ymm11, ymm11, ymm14
-	QUAD $0x00034024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 832]
-	LONG $0xf2de7dc5                           // vpmaxub    ymm14, ymm0, ymm2
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xfd6f7dc5                           // vmovdqa    ymm15, ymm5
-	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
-	LONG $0xf1db0dc5                           // vpand    ymm14, ymm14, ymm1
-	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
-	LONG $0xf2de35c5                           // vpmaxub    ymm14, ymm9, ymm2
-	LONG $0x743541c4; BYTE $0xce               // vpcmpeqb    ymm9, ymm9, ymm14
-	LONG $0xf36f7dc5                           // vmovdqa    ymm14, ymm3
-	LONG $0xcbdb35c5                           // vpand    ymm9, ymm9, ymm3
-	LONG $0xeb2541c4; BYTE $0xc9               // vpor    ymm9, ymm11, ymm9
-	LONG $0xffebb5c5                           // vpor    ymm7, ymm9, ymm7
-	QUAD $0x00032024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 800]
-	LONG $0xcade7dc5                           // vpmaxub    ymm9, ymm0, ymm2
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xdb3541c4; BYTE $0xcd               // vpand    ymm9, ymm9, ymm13
-	LONG $0xffebb5c5                           // vpor    ymm7, ymm9, ymm7
-	QUAD $0x0001a024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 416]
-	LONG $0xcade7dc5                           // vpmaxub    ymm9, ymm0, ymm2
-	LONG $0xc07435c5                           // vpcmpeqb    ymm8, ymm9, ymm0
-	LONG $0xc6db3dc5                           // vpand    ymm8, ymm8, ymm6
-	QUAD $0x0003002484f83dc5; BYTE $0x00       // vpsubb    ymm8, ymm8, yword [rsp + 768]
-	QUAD $0x00028024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 640]
-	LONG $0xcade7dc5                           // vpmaxub    ymm9, ymm0, ymm2
-	LONG $0xe874b5c5                           // vpcmpeqb    ymm5, ymm9, ymm0
-	QUAD $0x0002a024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 672]
-	LONG $0xcade7dc5                           // vpmaxub    ymm9, ymm0, ymm2
-	LONG $0xf074b5c5                           // vpcmpeqb    ymm6, ymm9, ymm0
-	LONG $0x6ddbd5c5; BYTE $0x20               // vpand    ymm5, ymm5, yword 32[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xf4dbcdc5                           // vpand    ymm6, ymm6, ymm4
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
-	QUAD $0x0002e024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 736]
-	LONG $0xf2defdc5                           // vpmaxub    ymm6, ymm0, ymm2
-	LONG $0xde74fdc5                           // vpcmpeqb    ymm3, ymm0, ymm6
-	QUAD $0x0002c024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 704]
-	LONG $0xf2defdc5                           // vpmaxub    ymm6, ymm0, ymm2
-	LONG $0xe674fdc5                           // vpcmpeqb    ymm4, ymm0, ymm6
-	LONG $0xdbdb85c5                           // vpand    ymm3, ymm15, ymm3
-	LONG $0xe1dbddc5                           // vpand    ymm4, ymm4, ymm1
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	QUAD $0x00014024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 320]
-	LONG $0xe2defdc5                           // vpmaxub    ymm4, ymm0, ymm2
-	LONG $0xcc74fdc5                           // vpcmpeqb    ymm1, ymm0, ymm4
-	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0xc9ebd5c5                           // vpor    ymm1, ymm5, ymm1
-	QUAD $0x00012024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 288]
-	LONG $0xdadefdc5                           // vpmaxub    ymm3, ymm0, ymm2
-	LONG $0xd374fdc5                           // vpcmpeqb    ymm2, ymm0, ymm3
-	LONG $0xd2db95c5                           // vpand    ymm2, ymm13, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0x602dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm10, ymm12
-	LONG $0x682dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm10, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
-	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB10_186
-	QUAD $0x0000017024bc8b4c                   // mov    r15, qword [rsp + 368]
-	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
-	QUAD $0x0000021824a48b4c                   // mov    r12, qword [rsp + 536]
-	JNE  LBB10_89
-	JMP  LBB10_122
-
-DATA LCDATA8<>+0x000(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x008(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x010(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x018(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x020(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x028(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x030(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x038(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x040(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x048(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x050(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x058(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x060(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x068(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x070(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x078(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x080(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x088(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x090(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x098(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x0a0(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x0a8(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x0b0(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x0b8(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x0c0(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x0c8(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x0d0(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x0d8(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x0e0(SB)/8, $0xffffffffffffffff
-DATA LCDATA8<>+0x0e8(SB)/8, $0xffffffffffffffff
-DATA LCDATA8<>+0x0f0(SB)/8, $0xffffffffffffffff
-DATA LCDATA8<>+0x0f8(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA8<>(SB), 8, $256
-
-TEXT ·_comparison_greater_equal_scalar_arr_avx2(SB), $1320-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $32, SP
-	ANDQ $-32, SP
-	MOVQ BP, 1280(SP)
-	LEAQ LCDATA8<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xcf // mov    r15, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB11_26
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB11_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB11_99
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB11_114
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB11_185
-	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_17
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_15:
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
-	LONG $0xffd68040                           // adc    sil, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_15
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_17:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_21
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-
-LBB11_19:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
-	LONG $0xd4930f41                           // setae    r12b
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
-	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
-	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ea8348                           // sub    rdx, -128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_19
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB11_21:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_130
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_24
-
-LBB11_26:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB11_27
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB11_149
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB11_164
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB11_185
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fbc5         // vmovsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_49
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_47:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_47
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_49:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_53
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB11_51:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
-	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
-	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd6930f41                           // setae    r14b
-	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000a8248c0244                   // add    r9b, byte [rsp + 168]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000008824b40240                   // add    sil, byte [rsp + 136]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e0c041                           // shl    r8b, 3
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
-	QUAD $0x0000009024b4b60f                   // movzx    esi, byte [rsp + 144]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x48245c02                           // add    bl, byte [rsp + 72]
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x78               // movzx    ebx, byte [rsp + 120]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
-	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB11_51
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB11_53:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_179
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_181
-
-LBB11_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB11_56
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB11_185
-	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_6:
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_6
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_8:
-	LONG $0x05fec149             // sar    r14, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB11_9
-	LONG $0x20fe8349             // cmp    r14, 32
-	LONG $0x245c8944; BYTE $0x1c // mov    dword [rsp + 28], r11d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000016024b4894c     // mov    qword [rsp + 352], r14
-	JB   LBB11_82
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
-	JAE  LBB11_85
-	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB11_85
-
-LBB11_82:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x000001a024848948 // mov    qword [rsp + 416], rax
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_88:
-	QUAD $0x000001a024b42b4c // sub    r14, qword [rsp + 416]
-	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
-
-LBB11_89:
-	LONG $0x1f5a3a44                           // cmp    r11b, byte [rdx + 31]
-	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
-	LONG $0x1e5a3a44                           // cmp    r11b, byte [rdx + 30]
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x1d5a3a44                           // cmp    r11b, byte [rdx + 29]
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0x1c5a3a44                           // cmp    r11b, byte [rdx + 28]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x1b5a3a44                           // cmp    r11b, byte [rdx + 27]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x1a5a3a44                           // cmp    r11b, byte [rdx + 26]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x195a3a44                           // cmp    r11b, byte [rdx + 25]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x175a3a44                           // cmp    r11b, byte [rdx + 23]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x165a3a44                           // cmp    r11b, byte [rdx + 22]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x155a3a44                           // cmp    r11b, byte [rdx + 21]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x145a3a44                           // cmp    r11b, byte [rdx + 20]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x135a3a44                           // cmp    r11b, byte [rdx + 19]
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x125a3a44                           // cmp    r11b, byte [rdx + 18]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x115a3a44                           // cmp    r11b, byte [rdx + 17]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x0f5a3a44                           // cmp    r11b, byte [rdx + 15]
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x0e5a3a44                           // cmp    r11b, byte [rdx + 14]
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x0d5a3a44                           // cmp    r11b, byte [rdx + 13]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x0c5a3a44                           // cmp    r11b, byte [rdx + 12]
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x0b5a3a44                           // cmp    r11b, byte [rdx + 11]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x0a5a3a44                           // cmp    r11b, byte [rdx + 10]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x023a                               // cmp    al, byte [rdx]
-	QUAD $0x0000009824949d0f                   // setge    byte [rsp + 152]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	LONG $0x246c8b44; BYTE $0x1c               // mov    r13d, dword [rsp + 28]
-	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000a824949d0f                   // setge    byte [rsp + 168]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x98248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 152]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0844; BYTE $0xcf                   // or    dil, r9b
-	LONG $0x007d8841                           // mov    byte [r13], dil
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x000000a824940244                   // add    r10b, byte [rsp + 168]
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xce                   // or    r14b, cl
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	LONG $0x01758845                           // mov    byte [r13 + 1], r14b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x68244402                           // add    al, byte [rsp + 104]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02458841                           // mov    byte [r13 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	QUAD $0x000001102484b60f                   // movzx    eax, byte [rsp + 272]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03458841                           // mov    byte [r13 + 3], al
-	LONG $0x20c28348                           // add    rdx, 32
-	LONG $0x04c58349                           // add    r13, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB11_89
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	JMP  LBB11_91
-
-LBB11_27:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB11_132
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB11_185
-	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_33
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_31:
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
-	LONG $0xffd68040                           // adc    sil, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_31
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_33:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_37
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-
-LBB11_35:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
-	LONG $0xd4930f41                           // setae    r12b
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
-	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
-	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_35
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB11_37:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_147
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_40
-
-LBB11_99:
-	LONG $0x36b70f44         // movzx    r14d, word [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_103
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_101:
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
-	LONG $0xffd68040                           // adc    sil, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_101
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_103:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_107
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-
-LBB11_105:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x723b4466; BYTE $0x3e               // cmp    r14w, word [rdx + 62]
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	LONG $0x723b4466; BYTE $0x3c               // cmp    r14w, word [rdx + 60]
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x723b4466; BYTE $0x3a               // cmp    r14w, word [rdx + 58]
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x723b4466; BYTE $0x38               // cmp    r14w, word [rdx + 56]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x723b4466; BYTE $0x36               // cmp    r14w, word [rdx + 54]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x723b4466; BYTE $0x34               // cmp    r14w, word [rdx + 52]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x723b4466; BYTE $0x32               // cmp    r14w, word [rdx + 50]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x723b4466; BYTE $0x2e               // cmp    r14w, word [rdx + 46]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x723b4466; BYTE $0x2c               // cmp    r14w, word [rdx + 44]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x723b4466; BYTE $0x2a               // cmp    r14w, word [rdx + 42]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x723b4466; BYTE $0x28               // cmp    r14w, word [rdx + 40]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x723b4466; BYTE $0x26               // cmp    r14w, word [rdx + 38]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x723b4466; BYTE $0x24               // cmp    r14w, word [rdx + 36]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x723b4466; BYTE $0x22               // cmp    r14w, word [rdx + 34]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x723b4466; BYTE $0x1e               // cmp    r14w, word [rdx + 30]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x723b4466; BYTE $0x1c               // cmp    r14w, word [rdx + 28]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x723b4466; BYTE $0x1a               // cmp    r14w, word [rdx + 26]
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x723b4466; BYTE $0x18               // cmp    r14w, word [rdx + 24]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x723b4466; BYTE $0x16               // cmp    r14w, word [rdx + 22]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x723b4466; BYTE $0x14               // cmp    r14w, word [rdx + 20]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x723b4466; BYTE $0x12               // cmp    r14w, word [rdx + 18]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x723b4466; BYTE $0x0e               // cmp    r14w, word [rdx + 14]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x723b4466; BYTE $0x0c               // cmp    r14w, word [rdx + 12]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x723b4466; BYTE $0x0a               // cmp    r14w, word [rdx + 10]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x723b4466; BYTE $0x08               // cmp    r14w, word [rdx + 8]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x723b4466; BYTE $0x06               // cmp    r14w, word [rdx + 6]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x723b4466; BYTE $0x04               // cmp    r14w, word [rdx + 4]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x723b4466; BYTE $0x02               // cmp    r14w, word [rdx + 2]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x723b4466; BYTE $0x10               // cmp    r14w, word [rdx + 16]
-	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
-	LONG $0x723b4466; BYTE $0x20               // cmp    r14w, word [rdx + 32]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x723b4466; BYTE $0x30               // cmp    r14w, word [rdx + 48]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_105
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB11_107:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_112
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_110
-
-LBB11_114:
-	LONG $0x36b70f44         // movzx    r14d, word [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_118
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_116:
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_116
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_118:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_122
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-
-LBB11_120:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x723b4466; BYTE $0x3e               // cmp    r14w, word [rdx + 62]
-	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
-	LONG $0x723b4466; BYTE $0x3c               // cmp    r14w, word [rdx + 60]
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x723b4466; BYTE $0x3a               // cmp    r14w, word [rdx + 58]
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0x723b4466; BYTE $0x38               // cmp    r14w, word [rdx + 56]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x723b4466; BYTE $0x36               // cmp    r14w, word [rdx + 54]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x723b4466; BYTE $0x34               // cmp    r14w, word [rdx + 52]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x723b4466; BYTE $0x32               // cmp    r14w, word [rdx + 50]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x723b4466; BYTE $0x2e               // cmp    r14w, word [rdx + 46]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x723b4466; BYTE $0x2c               // cmp    r14w, word [rdx + 44]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x723b4466; BYTE $0x2a               // cmp    r14w, word [rdx + 42]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x723b4466; BYTE $0x28               // cmp    r14w, word [rdx + 40]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x723b4466; BYTE $0x26               // cmp    r14w, word [rdx + 38]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x723b4466; BYTE $0x24               // cmp    r14w, word [rdx + 36]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x723b4466; BYTE $0x22               // cmp    r14w, word [rdx + 34]
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x723b4466; BYTE $0x1e               // cmp    r14w, word [rdx + 30]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x723b4466; BYTE $0x1c               // cmp    r14w, word [rdx + 28]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x723b4466; BYTE $0x1a               // cmp    r14w, word [rdx + 26]
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x723b4466; BYTE $0x18               // cmp    r14w, word [rdx + 24]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x723b4466; BYTE $0x16               // cmp    r14w, word [rdx + 22]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x723b4466; BYTE $0x14               // cmp    r14w, word [rdx + 20]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x723b4466; BYTE $0x12               // cmp    r14w, word [rdx + 18]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x723b4466; BYTE $0x0e               // cmp    r14w, word [rdx + 14]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x723b4466; BYTE $0x0c               // cmp    r14w, word [rdx + 12]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x723b4466; BYTE $0x0a               // cmp    r14w, word [rdx + 10]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x723b4466; BYTE $0x08               // cmp    r14w, word [rdx + 8]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x723b4466; BYTE $0x06               // cmp    r14w, word [rdx + 6]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x723b4466; BYTE $0x04               // cmp    r14w, word [rdx + 4]
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x723b4466; BYTE $0x02               // cmp    r14w, word [rdx + 2]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x723b4466; BYTE $0x10               // cmp    r14w, word [rdx + 16]
-	QUAD $0x000000a824949d0f                   // setge    byte [rsp + 168]
-	LONG $0x723b4466; BYTE $0x20               // cmp    r14w, word [rdx + 32]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x723b4466; BYTE $0x30               // cmp    r14w, word [rdx + 48]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x40c28348                           // add    rdx, 64
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_120
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB11_122:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_128
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB11_125
-
-LBB11_149:
-	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_153
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_151:
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_151
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_153:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_157
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-
-LBB11_155:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
-	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
-	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
-	LONG $0xd49d0f41                           // setge    r12b
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
-	QUAD $0x000000a824949d0f                   // setge    byte [rsp + 168]
-	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_155
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB11_157:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_162
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB11_160
-
-LBB11_164:
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x0610fac5         // vmovss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_168
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_166:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_166
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_168:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_172
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
-
-LBB11_170:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
-	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
-	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
-	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
-	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000a8248c0244                   // add    r9b, byte [rsp + 168]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000008824b40240                   // add    sil, byte [rsp + 136]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e0c041                           // shl    r8b, 3
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
-	QUAD $0x0000009024b4b60f                   // movzx    esi, byte [rsp + 144]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x48245c02                           // add    bl, byte [rsp + 72]
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x78               // movzx    ebx, byte [rsp + 120]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
-	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB11_170
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB11_172:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_177
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_175
-
-LBB11_56:
-	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_60
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_58:
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_58
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_60:
-	LONG $0x05fec149             // sar    r14, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB11_61
-	LONG $0x20fe8349             // cmp    r14, 32
-	LONG $0x245c8944; BYTE $0x1c // mov    dword [rsp + 28], r11d
-	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
-	QUAD $0x0000016024b4894c     // mov    qword [rsp + 352], r14
-	JB   LBB11_63
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
-	JAE  LBB11_66
-	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB11_66
-
-LBB11_63:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
-	WORD $0x8948; BYTE $0xd7 // mov    rdi, rdx
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_69:
-	QUAD $0x0000018024b42b4c // sub    r14, qword [rsp + 384]
-	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
-
-LBB11_70:
-	LONG $0x1f5f3a44                           // cmp    r11b, byte [rdi + 31]
-	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
-	LONG $0x1e5f3a44                           // cmp    r11b, byte [rdi + 30]
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x1d5f3a44                           // cmp    r11b, byte [rdi + 29]
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x1c5f3a44                           // cmp    r11b, byte [rdi + 28]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x1b5f3a44                           // cmp    r11b, byte [rdi + 27]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x1a5f3a44                           // cmp    r11b, byte [rdi + 26]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x195f3a44                           // cmp    r11b, byte [rdi + 25]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x175f3a44                           // cmp    r11b, byte [rdi + 23]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x165f3a44                           // cmp    r11b, byte [rdi + 22]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x155f3a44                           // cmp    r11b, byte [rdi + 21]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x145f3a44                           // cmp    r11b, byte [rdi + 20]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x135f3a44                           // cmp    r11b, byte [rdi + 19]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x125f3a44                           // cmp    r11b, byte [rdi + 18]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x115f3a44                           // cmp    r11b, byte [rdi + 17]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x0f5f3a44                           // cmp    r11b, byte [rdi + 15]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x0e5f3a44                           // cmp    r11b, byte [rdi + 14]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x0d5f3a44                           // cmp    r11b, byte [rdi + 13]
-	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
-	LONG $0x0c5f3a44                           // cmp    r11b, byte [rdi + 12]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x0b5f3a44                           // cmp    r11b, byte [rdi + 11]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x0a5f3a44                           // cmp    r11b, byte [rdi + 10]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x09                   // cmp    al, byte [rdi + 9]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x07                   // cmp    al, byte [rdi + 7]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x06                   // cmp    al, byte [rdi + 6]
-	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x05                   // cmp    al, byte [rdi + 5]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x04                   // cmp    al, byte [rdi + 4]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x03                   // cmp    al, byte [rdi + 3]
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x02                   // cmp    al, byte [rdi + 2]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x073a                               // cmp    al, byte [rdi]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
-	WORD $0x473a; BYTE $0x01                   // cmp    al, byte [rdi + 1]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	LONG $0x246c8b44; BYTE $0x1c               // mov    r13d, dword [rsp + 28]
-	LONG $0x086f3a44                           // cmp    r13b, byte [rdi + 8]
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5f3a; BYTE $0x10                   // cmp    bl, byte [rdi + 16]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
-	WORD $0x5f3a; BYTE $0x18                   // cmp    bl, byte [rdi + 24]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	WORD $0xc000                               // add    al, al
-	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0xca08                               // or    dl, cl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000a82484b60f                   // movzx    eax, byte [rsp + 168]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c040                           // shl    sil, 7
-	WORD $0x0840; BYTE $0xc6                   // or    sil, al
-	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
-	LONG $0x00758841                           // mov    byte [r13], sil
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x0000008024940244                   // add    r10b, byte [rsp + 128]
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xce                   // or    r14b, cl
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	LONG $0x01758845                           // mov    byte [r13 + 1], r14b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02458841                           // mov    byte [r13 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	QUAD $0x000001102484b60f                   // movzx    eax, byte [rsp + 272]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03458841                           // mov    byte [r13 + 3], al
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x04c58349                           // add    r13, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_70
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	JMP  LBB11_72
-
-LBB11_132:
-	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_136
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_134:
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_134
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_136:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB11_140
-	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
-	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-
-LBB11_138:
-	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
-	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
-	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
-	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
-	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
-	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
-	LONG $0xd49d0f41                           // setge    r12b
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
-	QUAD $0x000000a824949d0f                   // setge    byte [rsp + 168]
-	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ea8348                           // sub    rdx, -128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB11_138
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-
-LBB11_140:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB11_145
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB11_143
-
-LBB11_9:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_91:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB11_94
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB11_97
-
-LBB11_61:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-	WORD $0x8948; BYTE $0xd7 // mov    rdi, rdx
-
-LBB11_72:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB11_185
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB11_75
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB11_78
-
-LBB11_130:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_131:
-	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB11_131
-
-LBB11_24:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_185
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
-	JMP  LBB11_183
-
-LBB11_179:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_180:
-	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
-	LONG $0x000000b8; BYTE $0x00 // mov    eax, 0
-	WORD $0xff14                 // adc    al, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x422ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xdf     // xor    dil, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB11_180
-
-LBB11_181:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB11_185
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x022ef9c5 // vucomisd    xmm0, qword [rdx]
-	JMP  LBB11_183
-
-LBB11_147:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_148:
-	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB11_148
-
-LBB11_40:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_185
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
-	JMP  LBB11_183
-
-LBB11_112:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_113:
-	LONG $0x323b4466             // cmp    r14w, word [rdx]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB11_113
-
-LBB11_110:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB11_185
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x323b4466 // cmp    r14w, word [rdx]
-	JMP  LBB11_183
-
-LBB11_128:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB11_129:
-	LONG $0x323b4466             // cmp    r14w, word [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd19d0f41             // setge    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB11_129
-
-LBB11_125:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB11_185
-	LONG $0x323b4466 // cmp    r14w, word [rdx]
-	JMP  LBB11_127
-
-LBB11_162:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB11_163:
-	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd19d0f41             // setge    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB11_163
-
-LBB11_160:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_185
-	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
-	JMP  LBB11_127
-
-LBB11_177:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_178:
-	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
-	LONG $0x000000b8; BYTE $0x00 // mov    eax, 0
-	WORD $0xff14                 // adc    al, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x422ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xdf     // xor    dil, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB11_178
-
-LBB11_175:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB11_185
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x022ef8c5 // vucomiss    xmm0, dword [rdx]
-
-LBB11_183:
-	WORD $0xff14             // adc    al, -1
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB11_184
-
-LBB11_145:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB11_146:
-	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd19d0f41             // setge    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB11_146
-
-LBB11_143:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_185
-	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
-
-LBB11_127:
-	WORD $0x9d0f; BYTE $0xd0 // setge    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB11_184:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
-
-LBB11_185:
-	MOVQ 1280(SP), SP
-	VZEROUPPER
-	RET
-
-LBB11_94:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB11_95:
-	LONG $0x321c3a44               // cmp    r11b, byte [rdx + rsi]
-	WORD $0x9d0f; BYTE $0xd0       // setge    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8948; BYTE $0xf7       // mov    rdi, rsi
-	LONG $0x03efc148               // shr    rdi, 3
-	WORD $0xf189                   // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b3                   // mov    bl, 1
-	WORD $0xe3d2                   // shl    bl, cl
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0x3044; BYTE $0xc8       // xor    al, r9b
-	WORD $0xc320                   // and    bl, al
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x325c3a44; BYTE $0x01   // cmp    r11b, byte [rdx + rsi + 1]
-	LONG $0x02768d48               // lea    rsi, [rsi + 2]
-	LONG $0xd19d0f41               // setge    r9b
-	WORD $0xf641; BYTE $0xd9       // neg    r9b
-	WORD $0x3041; BYTE $0xd9       // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b0                   // mov    al, 1
-	WORD $0xe0d2                   // shl    al, cl
-	WORD $0x2044; BYTE $0xc8       // and    al, r9b
-	WORD $0xd830                   // xor    al, bl
-	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB11_95
-	WORD $0x0148; BYTE $0xf2       // add    rdx, rsi
-
-LBB11_97:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB11_185
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
-	LONG $0x07e68040             // and    sil, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	JMP  LBB11_80
-
-LBB11_75:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-
-LBB11_76:
-	WORD $0x894c; BYTE $0xc8       // mov    rax, r9
-	LONG $0x0f1c3a46               // cmp    r11b, byte [rdi + r9]
-	LONG $0x000000bb; BYTE $0x00   // mov    ebx, 0
-	WORD $0xd380; BYTE $0xff       // adc    bl, -1
-	WORD $0x894c; BYTE $0xce       // mov    rsi, r9
-	LONG $0x03eec148               // shr    rsi, 3
-	LONG $0x4cb60f45; WORD $0x0035 // movzx    r9d, byte [r13 + rsi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b2                   // mov    dl, 1
-	WORD $0xe2d2                   // shl    dl, cl
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	WORD $0xda20                   // and    dl, bl
-	WORD $0x3044; BYTE $0xca       // xor    dl, r9b
-	LONG $0x35548841; BYTE $0x00   // mov    byte [r13 + rsi], dl
-	LONG $0x075c3a44; BYTE $0x01   // cmp    r11b, byte [rdi + rax + 1]
-	LONG $0x02488d4c               // lea    r9, [rax + 2]
-	LONG $0x000000bb; BYTE $0x00   // mov    ebx, 0
-	WORD $0xd380; BYTE $0xff       // adc    bl, -1
-	WORD $0xd330                   // xor    bl, dl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b0                   // mov    al, 1
-	WORD $0xe0d2                   // shl    al, cl
-	WORD $0xd820                   // and    al, bl
-	WORD $0xd030                   // xor    al, dl
-	LONG $0x35448841; BYTE $0x00   // mov    byte [r13 + rsi], al
-	WORD $0x394d; BYTE $0xca       // cmp    r10, r9
-	JNE  LBB11_76
-	WORD $0x014c; BYTE $0xcf       // add    rdi, r9
-
-LBB11_78:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB11_185
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x3a44; BYTE $0x1f     // cmp    r11b, byte [rdi]
-	WORD $0xff14                 // adc    al, -1
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-
-LBB11_80:
-	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
-	LONG $0x155c8841; BYTE $0x00 // mov    byte [r13 + rdx], bl
-	JMP  LBB11_185
-
-LBB11_85:
-	LONG $0xe0e68349                     // and    r14, -32
-	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000016824848948             // mov    qword [rsp + 360], rax
-	QUAD $0x000001a024b4894c             // mov    qword [rsp + 416], r14
-	LONG $0xb7048d4b                     // lea    rax, [r15 + 4*r14]
-	QUAD $0x0000017024848948             // mov    qword [rsp + 368], rax
-	LONG $0x6e79c1c4; BYTE $0xc3         // vmovd    xmm0, r11d
-	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
-	QUAD $0x00018024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 384], ymm0
-	WORD $0xdb31                         // xor    ebx, ebx
-	QUAD $0x0000011024bc894c             // mov    qword [rsp + 272], r15
-
-LBB11_86:
-	QUAD $0x00000178249c8948                   // mov    qword [rsp + 376], rbx
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x0000010824848948                   // mov    qword [rsp + 264], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000220248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 544], xmm1
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x0a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rcx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x0a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rcx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	QUAD $0x000000f8249c8948                   // mov    qword [rsp + 248], rbx
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x0a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rcx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
-	LONG $0x0a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rcx + 6]
-	QUAD $0x000000e0248c8948                   // mov    qword [rsp + 224], rcx
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x0a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rcx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x20ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 544
-	QUAD $0x0000009024b4894c                   // mov    qword [rsp + 144], r14
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0x40c98148; WORD $0x0002; BYTE $0x00 // or    rcx, 576
-	QUAD $0x000000b0248c8948                   // mov    qword [rsp + 176], rcx
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02800d48; WORD $0x0000             // or    rax, 640
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0xa0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 672
-	QUAD $0x000001002494894c                   // mov    qword [rsp + 256], r10
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	LONG $0xc0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 704
-	QUAD $0x000000f0248c894c                   // mov    qword [rsp + 240], r9
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0xe0cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 736
-	LONG $0x245c894c; BYTE $0x50               // mov    qword [rsp + 80], r11
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x00cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 768
-	QUAD $0x0000008024bc894c                   // mov    qword [rsp + 128], r15
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	LONG $0x20c88149; WORD $0x0003; BYTE $0x00 // or    r8, 800
-	LONG $0x2444894c; BYTE $0x38               // mov    qword [rsp + 56], r8
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x40cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 832
-	QUAD $0x0000008824a4894c                   // mov    qword [rsp + 136], r12
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03600d48; WORD $0x0000             // or    rax, 864
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03a00d48; WORD $0x0000             // or    rax, 928
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	LONG $0xe0cb8148; WORD $0x0003; BYTE $0x00 // or    rbx, 992
-	LONG $0x207923c4; WORD $0x320c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r14], 1
-	LONG $0x2031e3c4; WORD $0x0a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rcx], 2
-	LONG $0x2079a3c4; WORD $0x2a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + r13], 3
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 4
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r10], 5
-	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + r9], 6
-	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + r11], 7
-	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 8
-	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r8], 9
-	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r12], 10
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r10], 11
-	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 12
-	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
-	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
-	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 15
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	QUAD $0x000000a8249c8948                   // mov    qword [rsp + 168], rbx
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 3
-	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 7
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rax], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 14
-	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + r14], 15
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x01011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x02011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 2
-	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
-	QUAD $0x03012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 3
-	QUAD $0x04010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 4
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x05010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 5
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x06010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 6
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x07010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 7
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x08010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 10
-	QUAD $0x0b0112642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 1], 11
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0c011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 12
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0d0112642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 1], 13
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0e010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 14
-	QUAD $0x0f0122642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 1], 15
-	QUAD $0x01011a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r11 + 1], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x02010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 2
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
-	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
-	QUAD $0x05010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 5
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x06010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 6
-	QUAD $0x0701326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 7
-	QUAD $0x08013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 8
-	QUAD $0x09013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 9
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x0a01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
-	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
-	QUAD $0x0f0132442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r14 + 1], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x00022024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 544]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x01023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x020202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x030202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x060202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 6
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x07020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 7
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x08021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 11
-	QUAD $0x0c021a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 2], 12
-	QUAD $0x0d0212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
-	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
-	QUAD $0x0001e0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 480]
-	QUAD $0x0102125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 2], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0202025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 2
-	QUAD $0x0302225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 3
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x0402325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 2], 4
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x0502225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 5
-	QUAD $0x06020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 6
-	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 8
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x09022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 9
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0a02325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 10
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0b022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 14
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0f022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 15
-	QUAD $0x01033a642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r15 + 3], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x02031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 2
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x03031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 3
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x04031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 4
-	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
-	QUAD $0x05031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 5
-	QUAD $0x060302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 3], 6
-	QUAD $0x07030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 7
-	QUAD $0x08031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 8
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x09030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0a031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 11
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0c031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 12
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x0d032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 13
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0e031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 14
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0f031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 15
-	QUAD $0x0103126c2039a3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + r10 + 3], 1
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x0203026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
-	QUAD $0x0403326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 4
-	QUAD $0x0503226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 3], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0603026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0703026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 7
-	QUAD $0x08033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 8
-	QUAD $0x09030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 9
-	QUAD $0x0a03326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
-	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
-	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0302442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 3], 15
-	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
-	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x0001c024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 448]
-	QUAD $0x01043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 1
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x02043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 2
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x030422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 4], 3
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x040432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 4], 4
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x050402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x070402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 7
-	QUAD $0x08041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 8
-	QUAD $0x09040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 12
-	QUAD $0x0d042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 14
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0f0412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 4], 15
-	QUAD $0x01041a5c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rdx + rbx + 4], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x02043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 2
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x03042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 3
-	QUAD $0x0404325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0504025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x07043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0804025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 8
-	QUAD $0x09040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 15
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x010502642009e3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + rax + 5], 1
-	QUAD $0x02053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 2
-	QUAD $0x030522642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 5], 3
-	QUAD $0x040532642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 5], 4
-	QUAD $0x050502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 6
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x07053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 7
-	QUAD $0x08051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 10
-	QUAD $0x0b050a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 5], 11
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0c051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 12
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0d0532642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 5], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 14
-	QUAD $0x0f0512642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 5], 15
-	QUAD $0x01051a6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rbx + 5], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0205026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 2
-	QUAD $0x03052a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 5], 3
-	QUAD $0x0405326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 4
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0505026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0605026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 6
-	QUAD $0x07053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 7
-	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
-	QUAD $0x0805326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 8
-	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
-	QUAD $0x0905226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 5], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
-	QUAD $0x0b050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
-	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0502442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 5], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x010602442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + rax + 6], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x020602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 2
-	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
-	QUAD $0x03061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 3
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x040602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 4
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	QUAD $0x050612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 6], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
-	QUAD $0x07063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 7
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x09063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 11
-	QUAD $0x0c061a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 6], 12
-	QUAD $0x0d0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 14
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x0f062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 15
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x01061a6c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r11 + 6], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x02060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 2
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x03060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 3
-	QUAD $0x04060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 4
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x05060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06063a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 6], 6
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
-	QUAD $0x0806326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 8
-	QUAD $0x0906226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 9
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0a060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 10
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0b06326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 11
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x0c060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 14
-	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
-	QUAD $0x0f06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 15
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x01070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 1
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x02070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 2
-	QUAD $0x03071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 3
-	QUAD $0x040702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 4
-	QUAD $0x050712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 5
-	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
-	QUAD $0x060702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 6
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x07070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 7
-	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
-	QUAD $0x080712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 8
-	QUAD $0x09073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 9
-	QUAD $0x0a0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 12
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x0d071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 13
-	QUAD $0x0e0732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 14
-	QUAD $0x0f072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 15
-	QUAD $0x01071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 1
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x0207324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0307024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x0507224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 5
-	QUAD $0x06073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x07073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 7
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x08071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 8
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x09070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 9
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
-	QUAD $0x0b07324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 11
-	QUAD $0x0c070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 13
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e073a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rdi + 7], 14
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a7cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rcx + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f070a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 7], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00020024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm0
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	LONG $0x0a7cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rcx + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x01083a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rdi + 8], 1
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x02083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 2
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x03083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 3
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x04080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 4
-	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
-	QUAD $0x05080a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 8], 5
-	QUAD $0x060802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 6
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x07080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 7
-	QUAD $0x080812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x09080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 10
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x0b0812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 11
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0c080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 12
-	QUAD $0x0d081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 13
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0e080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 14
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0f080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 15
-	QUAD $0x01082a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r13 + 8], 1
-	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
-	QUAD $0x0208326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 2
-	QUAD $0x0308026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x04080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 4
-	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
-	QUAD $0x0508226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 5
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0608326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 6
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0708226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 7
-	QUAD $0x08081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0908026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 9
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x0a081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 15
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x01091a742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rbx + 9], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x02091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 2
-	QUAD $0x03093a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 9], 3
-	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
-	QUAD $0x04091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 4
-	QUAD $0x05090a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 9], 5
-	QUAD $0x060902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 6
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x07093a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 9], 7
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x08091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x09091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0a091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 10
-	QUAD $0x0b0912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 11
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0c091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 12
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0d0902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 13
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0e091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 14
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x0f091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 15
-	QUAD $0x01092a7c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + r13 + 9], 1
-	QUAD $0x0209327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x03091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 3
-	QUAD $0x04090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 4
-	QUAD $0x05093a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rdi + 9], 5
-	QUAD $0x0609327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 6
-	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
-	QUAD $0x0709227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 9], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 8
-	QUAD $0x0909027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 9
-	QUAD $0x0a091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 10
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0b091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
-	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
-	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
-	QUAD $0x00048024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm5
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x010a2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 10], 1
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x020a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x030a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 3
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x040a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 4
-	QUAD $0x050a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 5
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x060a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 6
-	QUAD $0x070a3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 10], 7
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x080a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 12
-	QUAD $0x0d0a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 14
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0f0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 15
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x010a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x020a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 2
-	QUAD $0x030a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x040a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 4
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x050a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 5
-	QUAD $0x060a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 6
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
-	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
-	QUAD $0x080a02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 10], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x090a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 10
-	QUAD $0x0b0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 12
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	QUAD $0x0d0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 13
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0e0a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 15
-	QUAD $0x010b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 1
-	QUAD $0x020b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x030b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 3
-	QUAD $0x040b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 4
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x050b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 5
-	QUAD $0x060b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x070b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 7
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x080b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 9
-	QUAD $0x0a0b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 13
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0e0b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 14
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0f0b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 15
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x010b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 11], 1
-	QUAD $0x020b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x030b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 3
-	QUAD $0x040b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 4
-	QUAD $0x050b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x060b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 6
-	QUAD $0x070b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 7
-	QUAD $0x080b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 11], 8
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x090b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 12
-	QUAD $0x0d0b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000460249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm3
-	QUAD $0x0e0b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 11], 14
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rax + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000440248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm1
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rax + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x010c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 1
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x020c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 12], 2
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x030c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 12], 3
-	QUAD $0x040c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 4
-	QUAD $0x050c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 12], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x060c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x070c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 7
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 13
-	QUAD $0x0e0c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 14
-	QUAD $0x0f0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 15
-	QUAD $0x010c0a542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r9 + 12], 1
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x030c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 3
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x040c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 4
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x050c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 5
-	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
-	QUAD $0x060c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x070c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 7
-	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
-	QUAD $0x080c1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 12], 8
-	QUAD $0x090c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a0c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x0d0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 13
-	QUAD $0x0e0c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 14
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x0f0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 15
-	QUAD $0x010d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 1
-	QUAD $0x020d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 2
-	QUAD $0x030d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 3
-	QUAD $0x040d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 4
-	QUAD $0x050d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 5
-	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	QUAD $0x060d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 6
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x070d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 7
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x080d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 8
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x090d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0a0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 11
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0c0d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 12
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x0d0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 13
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0e0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 14
-	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
-	QUAD $0x0f0d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 15
-	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
-	QUAD $0x010d1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 13], 1
-	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
-	QUAD $0x030d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 3
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x040d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 4
-	QUAD $0x050d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 5
-	QUAD $0x060d0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 13], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x070d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 7
-	QUAD $0x080d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 8
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x090d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 9
-	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 13
-	QUAD $0x0e0d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 14
-	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
-	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f0d02442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 13], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
-	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x010e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 1
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x020e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 2
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x030e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x040e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 4
-	QUAD $0x050e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 5
-	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
-	QUAD $0x060e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 6
-	QUAD $0x070e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 7
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x080e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 9
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x0a0e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 10
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0b0e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 14], 11
-	QUAD $0x0c0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 12
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x0d0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 13
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x0e0e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 14
-	QUAD $0x0f0e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 15
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x010e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x020e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x030e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x040e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x050e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x060e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x070e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x080e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 8
-	QUAD $0x090e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 9
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0a0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 10
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0b0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 11
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0c0e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 12
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0d0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 15
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x0f02             // movzx    edi, byte [rdx + r8 + 15]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x010f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 1
-	QUAD $0x020f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 2
-	QUAD $0x030f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 3
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x040f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 4
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	QUAD $0x050f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 5
-	QUAD $0x060f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 6
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x070f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 7
-	QUAD $0x080f1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 15], 8
-	QUAD $0x090f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 9
-	QUAD $0x0a0f12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 15], 10
-	QUAD $0x0b0f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 15], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 12
-	QUAD $0x0d0f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 15], 13
-	QUAD $0x0e0f32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 15], 14
-	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
-	QUAD $0x0f0f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 15
-	QUAD $0x000000f8249c8b48                   // mov    rbx, qword [rsp + 248]
-	LONG $0x1a7cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rbx + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x010f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 1
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x020f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 2
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x030f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x040f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 4
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x050f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 5
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x060f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 6
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x070f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x080f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x090f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 9
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0a0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 11
-	QUAD $0x0c0f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 12
-	QUAD $0x0d0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 13
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0e0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 14
-	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
-	QUAD $0x0f0f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 15
-	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
-	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
-	LONG $0x7cb60f42; WORD $0x1002             // movzx    edi, byte [rdx + r8 + 16]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x011032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 1
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x021032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 2
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x031032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 3
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x041032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 4
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x051032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 5
-	QUAD $0x06102a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 16], 6
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x071032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 7
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x081032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x091032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 11
-	QUAD $0x0c1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 13
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	QUAD $0x0e1002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 14
-	QUAD $0x0f100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 15
-	LONG $0x1a7cb60f; BYTE $0x10               // movzx    edi, byte [rdx + rbx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x01101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 1
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x02100a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 16], 2
-	QUAD $0x0310124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 3
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0410024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0510024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 5
-	QUAD $0x06100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 6
-	QUAD $0x0710324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0810324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0910024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 9
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0a102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 13
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x0e10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 14
-	QUAD $0x0f103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 15
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x01113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 1
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x02110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 2
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x03113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 3
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x04113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 4
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	QUAD $0x051112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 5
-	QUAD $0x061122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 6
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x071122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 7
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x08113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 9
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0a111a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 17], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 11
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0c113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 12
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x0d111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 13
-	QUAD $0x0e1102542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 17], 14
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0f113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 15
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 1
-	QUAD $0x02110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x05113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 5
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x06113a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 17], 6
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x0711025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 7
-	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
-	QUAD $0x0911025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 9
-	QUAD $0x0a112a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 17], 10
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0b110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 11
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 13
-	QUAD $0x0e11325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 17], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1102442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rax + 17], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x12               // movzx    edi, byte [rdx + rax + 18]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x011202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 1
-	QUAD $0x02120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 2
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x03120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 3
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x04122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 4
-	QUAD $0x051212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 5
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x06120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 6
-	QUAD $0x071222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 18], 7
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x08120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 8
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x091212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 9
-	QUAD $0x0a121a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 18], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 11
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0c123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 12
-	QUAD $0x0d121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 13
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0e123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 14
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0f123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 15
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x121a             // movzx    edi, byte [rdx + r11 + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 1
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x0212324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 2
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x0312224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x05123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 5
-	QUAD $0x06123a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 18], 6
-	QUAD $0x0712024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x09123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 9
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
-	QUAD $0x0b120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 11
-	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
-	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
-	QUAD $0x0d120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 14
-	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
-	QUAD $0x0f12024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 15
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rdi + 19]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x021302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 2
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x03133a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 19], 3
-	QUAD $0x04132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 4
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x051302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x061302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x071302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 7
-	QUAD $0x08130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 8
-	QUAD $0x091312542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 19], 9
-	QUAD $0x0a131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 10
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x0b131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 11
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x0c132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 14
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0f1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 15
-	LONG $0x7cb60f42; WORD $0x131a             // movzx    edi, byte [rdx + r11 + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x01130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 1
-	QUAD $0x0213325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 2
-	QUAD $0x0313225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 3
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0413025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0513025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 5
-	QUAD $0x06133a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 19], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0713025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 7
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x08130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
-	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
-	QUAD $0x0a13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
-	QUAD $0x0c13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 12
-	QUAD $0x0d130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 13
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x0e130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 14
-	QUAD $0x0f13025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 19], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rax + 20]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x011432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 1
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x02141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 2
-	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
-	QUAD $0x031422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 20], 3
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x041432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 4
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x051402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 5
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x06143a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 20], 6
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x071432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 7
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x081432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 8
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x091432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 9
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0a1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 10
-	QUAD $0x0b141a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 20], 11
-	QUAD $0x0c142a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 20], 12
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0d1432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 20], 13
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0e1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 14
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0f1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 15
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rdi + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x02143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 2
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x03141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x05143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x07143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 7
-	QUAD $0x08140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 8
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x09140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 9
-	QUAD $0x0a14124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0c140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 13
-	QUAD $0x0e140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 14
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	QUAD $0x0f140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 15
-	LONG $0x027cb60f; BYTE $0x15               // movzx    edi, byte [rdx + rax + 21]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x011502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 1
-	QUAD $0x02151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 2
-	QUAD $0x031522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 3
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x041502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 4
-	QUAD $0x051502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 5
-	QUAD $0x06153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 6
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x071502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 7
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x08153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 9
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0a1522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 12
-	QUAD $0x0d1532542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 21], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 14
-	QUAD $0x0f1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 15
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x151a             // movzx    edi, byte [rdx + r11 + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
-	QUAD $0x0115325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 1
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x0215125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 2
-	QUAD $0x03151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 3
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x04151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 4
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x05150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 5
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x0615325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0715325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 7
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0815325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 8
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x0915325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 9
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0a153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
-	QUAD $0x0f150a442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r9 + 21], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3a7cb60f; BYTE $0x16               // movzx    edi, byte [rdx + rdi + 22]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x01163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 1
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x02163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 2
-	QUAD $0x03162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 3
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x04160a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 22], 4
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x05163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 5
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x06163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 6
-	QUAD $0x071602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 7
-	QUAD $0x08163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 9
-	QUAD $0x0a1622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 10
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 11
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0c163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 12
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0d163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 13
-	QUAD $0x0e1602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 14
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x0f163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 15
-	LONG $0x7cb60f42; WORD $0x161a             // movzx    edi, byte [rdx + r11 + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0116324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 1
-	QUAD $0x0216124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0316024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 3
-	QUAD $0x04161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 4
-	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	QUAD $0x0616224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 22], 6
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x07161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 7
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x0816124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 8
-	QUAD $0x0916324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 10
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x0b16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rax + 23]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x011702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x021702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 2
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	QUAD $0x03172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 3
-	QUAD $0x04170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 4
-	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
-	QUAD $0x05172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 5
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x061732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 6
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x07170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 7
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x081702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 9
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x0a170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 11
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0c170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 12
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x0d171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 13
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0e173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 14
-	QUAD $0x0f173a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 23], 15
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	LONG $0x3a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rdi + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x01173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 1
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x02173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x04173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x05173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 5
-	QUAD $0x0617225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 23], 6
-	QUAD $0x07171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 7
-	QUAD $0x0817125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 8
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x09171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 9
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0a173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 10
-	QUAD $0x0b17025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 12
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x0d173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 15
-	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
-	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	LONG $0x3a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rdi + 24]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x01183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 1
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x02183a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 24], 2
-	QUAD $0x031832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 24], 3
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x04183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 4
-	QUAD $0x05182a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 24], 5
-	QUAD $0x061832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 6
-	QUAD $0x07180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 7
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x081832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 8
-	QUAD $0x091802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 10
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0b1822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 11
-	QUAD $0x0c180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 12
-	QUAD $0x0d181a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 24], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 14
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0f1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 15
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x1832             // movzx    edi, byte [rdx + r14 + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
-	QUAD $0x01180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0218024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0318024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 3
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x04181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 4
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0518024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0618024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0718024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 7
-	QUAD $0x0818124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 8
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x09181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 9
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0a182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 10
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0c18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 13
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0e181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 15
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	LONG $0x027cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rax + 25]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x011902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 1
-	QUAD $0x02193a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 25], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x031902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x041902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 4
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	QUAD $0x05193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 5
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x06193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 6
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x07193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 7
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x09193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x0a193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 10
-	QUAD $0x0b1922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 11
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0c193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 12
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0d193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 13
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0e193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 14
-	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
-	QUAD $0x0f193a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 25], 15
-	LONG $0x7cb60f42; WORD $0x1932             // movzx    edi, byte [rdx + r14 + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x01190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 1
-	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
-	QUAD $0x02190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x03193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 3
-	QUAD $0x04191a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 25], 4
-	QUAD $0x0519025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x06193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x07193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x08193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 8
-	QUAD $0x0919125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 9
-	QUAD $0x0a192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 10
-	QUAD $0x0b190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 11
-	QUAD $0x0c19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 12
-	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
-	QUAD $0x0d192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 13
-	QUAD $0x0e191a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 25], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x0f190a442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rcx + 25], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
-	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x1a1a             // movzx    edi, byte [rdx + r11 + 26]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x011a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 1
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x021a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 2
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x031a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 3
-	QUAD $0x041a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 4
-	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
-	QUAD $0x051a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x061a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x071a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 7
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x081a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 9
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0a1a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 13
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x0e1a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 14
-	QUAD $0x0f1a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 15
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rax + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x011a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 1
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x021a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 2
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x031a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 3
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x041a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x051a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 5
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x061a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 6
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x071a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 7
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x081a3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 26], 8
-	QUAD $0x091a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 9
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0a1a1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 26], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 12
-	QUAD $0x0d1a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0e1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 15
-	LONG $0x7cb60f42; WORD $0x1b1a             // movzx    edi, byte [rdx + r11 + 27]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x011b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 27], 1
-	QUAD $0x021b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 2
-	QUAD $0x031b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 3
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x041b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 4
-	QUAD $0x051b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 5
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	QUAD $0x061b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 6
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x071b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 7
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x081b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 8
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x091b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 9
-	QUAD $0x0a1b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 27], 10
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0b1b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 27], 11
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0c1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 12
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x0d1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 13
-	QUAD $0x0e1b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 27], 14
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x0f1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 15
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	LONG $0x0a7cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rcx + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x011b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 1
-	QUAD $0x021b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x031b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 3
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x041b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x051b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 5
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x061b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 6
-	QUAD $0x071b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 7
-	QUAD $0x081b3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 27], 8
-	QUAD $0x091b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 9
-	QUAD $0x0a1b1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 27], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 12
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x0d1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
-	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
-	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	LONG $0x7cb60f42; WORD $0x1c12             // movzx    edi, byte [rdx + r10 + 28]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 1
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x021c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x031c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 3
-	QUAD $0x041c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 4
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x051c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 28], 5
-	QUAD $0x061c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x071c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 7
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x081c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 28], 8
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x091c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 9
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x0a1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 10
-	QUAD $0x0b1c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 11
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0c1c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 13
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0e1c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 14
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0f1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 15
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	LONG $0x027cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rax + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x011c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 1
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x021c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 2
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
-	QUAD $0x041c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x051c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 5
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x061c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x071c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 7
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x081c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 8
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x091c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 9
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0a1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 10
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0b1c2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 28], 11
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 12
-	QUAD $0x0d1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 14
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x0f1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 15
-	LONG $0x7cb60f42; WORD $0x1d12             // movzx    edi, byte [rdx + r10 + 29]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x011d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 1
-	QUAD $0x021d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 2
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x031d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 3
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x041d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 4
-	QUAD $0x051d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 5
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x061d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 6
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x071d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 7
-	QUAD $0x081d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 8
-	QUAD $0x091d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 9
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x0a1d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 10
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0b1d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 11
-	QUAD $0x0c1d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 12
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0d1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 13
-	QUAD $0x0e1d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 14
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x0f1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 15
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	LONG $0x7cb60f42; WORD $0x1d02             // movzx    edi, byte [rdx + r8 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x011d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 1
-	QUAD $0x021d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 2
-	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x041d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x051d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 5
-	QUAD $0x061d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 29], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x071d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x091d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 10
-	QUAD $0x0b1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 11
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0c1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 13
-	QUAD $0x0e1d0a642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + rcx + 29], 14
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1d02442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + rax + 29], 15
-	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
-	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x0a7cb60f; BYTE $0x1e               // movzx    edi, byte [rdx + rcx + 30]
-	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
-	QUAD $0x011e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 30], 1
-	LONG $0x0a7cb60f; BYTE $0x1f               // movzx    edi, byte [rdx + rcx + 31]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011f124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 31], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
-	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
-	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
-	QUAD $0x061e3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 30], 6
-	QUAD $0x061f3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 31], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
-	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
-	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x091e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 9
-	QUAD $0x091f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 9
-	QUAD $0x0a1e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 30], 10
-	QUAD $0x0a1f224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 31], 10
-	QUAD $0x0b1e0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 30], 11
-	QUAD $0x0b1f0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 31], 11
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0e1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 14
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	LONG $0x44b60f42; WORD $0x1e02             // movzx    eax, byte [rdx + r8 + 30]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x011e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 1
-	LONG $0x44b60f42; WORD $0x1f02             // movzx    eax, byte [rdx + r8 + 31]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	QUAD $0x011f1a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 31], 1
-	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
-	QUAD $0x021e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 2
-	QUAD $0x021f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 2
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
-	QUAD $0x041e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 30], 4
-	QUAD $0x041f327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 31], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
-	QUAD $0x061e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 30], 6
-	QUAD $0x061f327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 31], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
-	QUAD $0x071f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 7
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
-	QUAD $0x0c1e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 30], 12
-	QUAD $0x0c1f2a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 31], 12
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 15
-	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
-	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
-	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
-	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
-	QUAD $0x00018024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 384]
-	LONG $0xc26495c5                           // vpcmpgtb    ymm0, ymm13, ymm2
-	QUAD $0x0004c0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 1216]
-	LONG $0xfa64f5c5                           // vpcmpgtb    ymm7, ymm1, ymm2
-	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI11_0] */
-	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
-	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
-	QUAD $0x000220249c6ffdc5; BYTE $0x00       // vmovdqa    ymm3, yword [rsp + 544]
-	LONG $0xfa64e5c5                           // vpcmpgtb    ymm7, ymm3, ymm2
-	LONG $0x6d6f7dc5; BYTE $0x20               // vmovdqa    ymm13, yword 32[rbp] /* [rip + .LCPI11_1] */
-	LONG $0xdf45c1c4; BYTE $0xfd               // vpandn    ymm7, ymm7, ymm13
-	QUAD $0x0001e0249c6ffdc5; BYTE $0x00       // vmovdqa    ymm3, yword [rsp + 480]
-	LONG $0xe26465c5                           // vpcmpgtb    ymm12, ymm3, ymm2
-	LONG $0x4d6f7dc5; BYTE $0x40               // vmovdqa    ymm9, yword 64[rbp] /* [rip + .LCPI11_2] */
-	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xe2640dc5                           // vpcmpgtb    ymm12, ymm14, ymm2
-	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI11_3] */
-	LONG $0xe4df1dc5                           // vpandn    ymm12, ymm12, ymm4
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0x761d41c4; BYTE $0xe4               // vpcmpeqd    ymm12, ymm12, ymm12
-	LONG $0xf87dc1c4; BYTE $0xc4               // vpsubb    ymm0, ymm0, ymm12
-	LONG $0x763d41c4; BYTE $0xc0               // vpcmpeqd    ymm8, ymm8, ymm8
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	LONG $0xfa6485c5                           // vpcmpgtb    ymm7, ymm15, ymm2
-	QUAD $0x00000080b56ffdc5                   // vmovdqa    ymm6, yword 128[rbp] /* [rip + .LCPI11_4] */
-	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
-	QUAD $0x0001c024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 448]
-	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
-	QUAD $0x000000a09d6ffdc5                   // vmovdqa    ymm3, yword 160[rbp] /* [rip + .LCPI11_5] */
-	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00020024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 512]
-	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
-	QUAD $0x000000c08d6ffdc5                   // vmovdqa    ymm1, yword 192[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
-	QUAD $0x0004a024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 1184]
-	LONG $0xfa64c5c5                           // vpcmpgtb    ymm7, ymm7, ymm2
-	QUAD $0x00048024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1152]
-	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
-	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
-	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
-	QUAD $0x00046024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1120]
-	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
-	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
-	QUAD $0x00044024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1088]
-	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
-	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x00040024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1024]
-	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
-	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xf845c1c4; BYTE $0xf8               // vpsubb    ymm7, ymm7, ymm8
-	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
-	QUAD $0x00042024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1056]
-	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
-	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
-	QUAD $0x0003c024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 960]
-	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
-	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	QUAD $0x0003e024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 992]
-	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
-	LONG $0xf9df05c5                           // vpandn    ymm15, ymm15, ymm1
-	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
-	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
-	QUAD $0x0003a024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 928]
-	LONG $0xfa64c5c5                           // vpcmpgtb    ymm7, ymm7, ymm2
-	QUAD $0x00038024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 896]
-	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
-	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
-	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
-	QUAD $0x00034024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 832]
-	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
-	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
-	QUAD $0x00036024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 864]
-	LONG $0xf2640dc5                           // vpcmpgtb    ymm14, ymm14, ymm2
-	LONG $0xdf0d41c4; BYTE $0xf1               // vpandn    ymm14, ymm14, ymm9
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	QUAD $0x00030024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 768]
-	LONG $0xfa6405c5                           // vpcmpgtb    ymm15, ymm15, ymm2
-	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xf845c1c4; BYTE $0xf8               // vpsubb    ymm7, ymm7, ymm8
-	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
-	QUAD $0x00032024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 800]
-	LONG $0xf2640dc5                           // vpcmpgtb    ymm14, ymm14, ymm2
-	LONG $0xfe6f7dc5                           // vmovdqa    ymm15, ymm6
-	LONG $0xf6df0dc5                           // vpandn    ymm14, ymm14, ymm6
-	LONG $0xd2642dc5                           // vpcmpgtb    ymm10, ymm10, ymm2
-	LONG $0xd3df2dc5                           // vpandn    ymm10, ymm10, ymm3
-	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
-	LONG $0xda6425c5                           // vpcmpgtb    ymm11, ymm11, ymm2
-	LONG $0xd9df25c5                           // vpandn    ymm11, ymm11, ymm1
-	LONG $0xf16f7dc5                           // vmovdqa    ymm14, ymm1
-	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
-	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
-	QUAD $0x000240248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 576]
-	LONG $0xca6475c5                           // vpcmpgtb    ymm9, ymm1, ymm2
-	QUAD $0x000260248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 608]
-	LONG $0xc26475c5                           // vpcmpgtb    ymm8, ymm1, ymm2
-	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
-	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
-	QUAD $0x000280248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 640]
-	LONG $0xea64f5c5                           // vpcmpgtb    ymm5, ymm1, ymm2
-	LONG $0xdf55c1c4; BYTE $0xed               // vpandn    ymm5, ymm5, ymm13
-	QUAD $0x0002a0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 672]
-	LONG $0xf264f5c5                           // vpcmpgtb    ymm6, ymm1, ymm2
-	LONG $0x75dfcdc5; BYTE $0x40               // vpandn    ymm6, ymm6, yword 64[rbp] /* [rip + .LCPI11_2] */
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x0002c0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 704]
-	LONG $0xda64f5c5                           // vpcmpgtb    ymm3, ymm1, ymm2
-	LONG $0xdcdfe5c5                           // vpandn    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x000000e0adf8bdc5                   // vpsubb    ymm5, ymm8, yword 224[rbp] /* [rip + .LCPI11_7] */
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	QUAD $0x0002e0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 736]
-	LONG $0xe264f5c5                           // vpcmpgtb    ymm4, ymm1, ymm2
-	LONG $0xdf5dc1c4; BYTE $0xe7               // vpandn    ymm4, ymm4, ymm15
-	QUAD $0x000140248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 320]
-	LONG $0xca64f5c5                           // vpcmpgtb    ymm1, ymm1, ymm2
-	QUAD $0x000000a08ddff5c5                   // vpandn    ymm1, ymm1, yword 160[rbp] /* [rip + .LCPI11_5] */
-	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
-	QUAD $0x00012024a46ffdc5; BYTE $0x00       // vmovdqa    ymm4, yword [rsp + 288]
-	LONG $0xd264ddc5                           // vpcmpgtb    ymm2, ymm4, ymm2
-	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
-	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
-	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
-	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
-	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
-	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
-	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
-	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
-	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
-	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
-	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
-	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
-	LONG $0x7f7ec1c4; WORD $0x8f44; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm0
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8f64; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm4
-	LONG $0x7f7ec1c4; WORD $0x8f0c             // vmovdqu    yword [r15 + 4*rcx], ymm1
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	QUAD $0x000001a0248c3b48                   // cmp    rcx, qword [rsp + 416]
-	JNE  LBB11_86
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x000001a024b43b4c                   // cmp    r14, qword [rsp + 416]
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	QUAD $0x0000017024ac8b4c                   // mov    r13, qword [rsp + 368]
-	QUAD $0x0000016824948b48                   // mov    rdx, qword [rsp + 360]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	JNE  LBB11_88
-	JMP  LBB11_91
-
-LBB11_66:
-	LONG $0xe0e68349             // and    r14, -32
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	QUAD $0x0000016824848948     // mov    qword [rsp + 360], rax
-	QUAD $0x0000018024b4894c     // mov    qword [rsp + 384], r14
-	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
-	QUAD $0x0000017024848948     // mov    qword [rsp + 368], rax
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	WORD $0xdb31                 // xor    ebx, ebx
-	QUAD $0x0000011024bc894c     // mov    qword [rsp + 272], r15
-
-LBB11_67:
-	QUAD $0x00000178249c8948                   // mov    qword [rsp + 376], rbx
-	LONG $0x05e3c148                           // shl    rbx, 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x20c88348                           // or    rax, 32
-	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x40c88348                           // or    rax, 64
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x60c88348                           // or    rax, 96
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
-	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
-	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x000000f0249c8948                   // mov    qword [rsp + 240], rbx
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
-	LONG $0xe86ef9c5                           // vmovd    xmm5, eax
-	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
-	LONG $0xd06e79c5                           // vmovd    xmm10, eax
-	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
-	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
-	LONG $0x0a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rcx + 3]
-	LONG $0xd86e79c5                           // vmovd    xmm11, eax
-	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
-	LONG $0xc06e79c5                           // vmovd    xmm8, eax
-	LONG $0x0a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rcx + 4]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	QUAD $0x000200248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 512], xmm1
-	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
-	LONG $0xf86e79c5                           // vmovd    xmm15, eax
-	LONG $0x0a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rcx + 5]
-	LONG $0xf06e79c5                           // vmovd    xmm14, eax
-	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
-	LONG $0xe06e79c5                           // vmovd    xmm12, eax
-	LONG $0x0a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rcx + 6]
-	QUAD $0x00000100248c8948                   // mov    qword [rsp + 256], rcx
-	LONG $0xe86e79c5                           // vmovd    xmm13, eax
-	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
-	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
-	LONG $0x0a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rcx + 7]
-	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
-	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
-	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
-	LONG $0x20cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 544
-	QUAD $0x000000c824bc8948                   // mov    qword [rsp + 200], rdi
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0x60cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 608
-	QUAD $0x000000a8249c894c                   // mov    qword [rsp + 168], r11
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	LONG $0x80ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 640
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0xa0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 672
-	QUAD $0x000000a02494894c                   // mov    qword [rsp + 160], r10
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	LONG $0xe0c88149; WORD $0x0002; BYTE $0x00 // or    r8, 736
-	LONG $0x2444894c; BYTE $0x78               // mov    qword [rsp + 120], r8
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	LONG $0x00cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 768
-	QUAD $0x000000c024bc894c                   // mov    qword [rsp + 192], r15
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03200d48; WORD $0x0000             // or    rax, 800
-	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	LONG $0x40c98149; WORD $0x0003; BYTE $0x00 // or    r9, 832
-	QUAD $0x000000b8248c894c                   // mov    qword [rsp + 184], r9
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x60cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 864
-	QUAD $0x000000b024a4894c                   // mov    qword [rsp + 176], r12
-	WORD $0x8948; BYTE $0xde                   // mov    rsi, rbx
-	LONG $0x80ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 896
-	QUAD $0x0000010824b48948                   // mov    qword [rsp + 264], rsi
-	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
-	LONG $0xa0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 928
-	QUAD $0x000000e8248c8948                   // mov    qword [rsp + 232], rcx
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	LONG $0xe0cb8148; WORD $0x0003; BYTE $0x00 // or    rbx, 992
-	QUAD $0x000000f8249c8948                   // mov    qword [rsp + 248], rbx
-	LONG $0x206163c4; WORD $0x3a0c; BYTE $0x01 // vpinsrb    xmm9, xmm3, byte [rdx + rdi], 1
-	LONG $0x2031a3c4; WORD $0x2a1c; BYTE $0x02 // vpinsrb    xmm3, xmm9, byte [rdx + r13], 2
-	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 3
-	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 4
-	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r10], 5
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 6
-	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 7
-	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 9
-	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + r9], 10
-	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + r12], 11
-	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 12
-	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 13
-	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rax], 14
-	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 15
-	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
-	LONG $0x2059a3c4; WORD $0x2224; BYTE $0x01 // vpinsrb    xmm4, xmm4, byte [rdx + r12], 1
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	LONG $0x2059a3c4; WORD $0x3224; BYTE $0x02 // vpinsrb    xmm4, xmm4, byte [rdx + r14], 2
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	LONG $0x2059a3c4; WORD $0x1a24; BYTE $0x03 // vpinsrb    xmm4, xmm4, byte [rdx + r11], 3
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	LONG $0x2059a3c4; WORD $0x0224; BYTE $0x04 // vpinsrb    xmm4, xmm4, byte [rdx + r8], 4
-	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
-	LONG $0x2059a3c4; WORD $0x0a24; BYTE $0x05 // vpinsrb    xmm4, xmm4, byte [rdx + r9], 5
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	LONG $0x2059e3c4; WORD $0x1a24; BYTE $0x06 // vpinsrb    xmm4, xmm4, byte [rdx + rbx], 6
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	LONG $0x2059e3c4; WORD $0x3224; BYTE $0x07 // vpinsrb    xmm4, xmm4, byte [rdx + rsi], 7
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	LONG $0x2059a3c4; WORD $0x3a24; BYTE $0x08 // vpinsrb    xmm4, xmm4, byte [rdx + r15], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x09 // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	LONG $0x2059e3c4; WORD $0x0224; BYTE $0x0a // vpinsrb    xmm4, xmm4, byte [rdx + rax], 10
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	LONG $0x2059a3c4; WORD $0x1224; BYTE $0x0b // vpinsrb    xmm4, xmm4, byte [rdx + r10], 11
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x2059e3c4; WORD $0x0a24; BYTE $0x0c // vpinsrb    xmm4, xmm4, byte [rdx + rcx], 12
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	LONG $0x2059e3c4; WORD $0x0a24; BYTE $0x0d // vpinsrb    xmm4, xmm4, byte [rdx + rcx], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	LONG $0x2059e3c4; WORD $0x0a24; BYTE $0x0e // vpinsrb    xmm4, xmm4, byte [rdx + rcx], 14
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	LONG $0x2059a3c4; WORD $0x2a24; BYTE $0x0f // vpinsrb    xmm4, xmm4, byte [rdx + r13], 15
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x01010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 2
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x03010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 4
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x05010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 5
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x06010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 6
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x07010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 7
-	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
-	QUAD $0x08012a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 1], 8
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x09010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 9
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x0a010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 11
-	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
-	QUAD $0x0c010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 12
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x0d010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 13
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0e010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 14
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x0f010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 15
-	QUAD $0x010122742029a3c4                   // vpinsrb    xmm6, xmm10, byte [rdx + r12 + 1], 1
-	QUAD $0x020132742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 1], 2
-	QUAD $0x03011a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 1], 3
-	QUAD $0x040102742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 1], 4
-	QUAD $0x05010a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 1], 5
-	QUAD $0x06011a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 1], 6
-	QUAD $0x070132742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 1], 7
-	QUAD $0x08013a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 1], 8
-	QUAD $0x09013a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 1], 9
-	QUAD $0x0a0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 10
-	QUAD $0x0b0112742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 1], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 13
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 14
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x0004c0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm3
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f01025c2049e3c4                   // vpinsrb    xmm3, xmm6, byte [rdx + rax + 1], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
-	LONG $0x3865e3c4; WORD $0x01dd             // vinserti128    ymm3, ymm3, xmm5, 1
-	QUAD $0x000220249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
-	LONG $0xd76e79c5                           // vmovd    xmm10, edi
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x0001e0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 480]
-	QUAD $0x01020a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 2], 1
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x0202325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 2], 2
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0302025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 3
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x04023a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 2], 4
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0502025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 5
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x0602125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 2], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0702025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 7
-	QUAD $0x08022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0902025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 9
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x0a02225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 10
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x0b022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 11
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x0d020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 13
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x0e02025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 2], 14
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0f02025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 15
-	QUAD $0x0001c024a46ff9c5; BYTE $0x00       // vmovdqa    xmm4, oword [rsp + 448]
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x010202642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 2], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020202642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 2], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x03023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x04023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 6
-	QUAD $0x070232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x08023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 8
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x090232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 9
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0a0232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 10
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0b0232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 11
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0c0232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 12
-	QUAD $0x0d021a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 2], 13
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0e0232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 14
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x0f021a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 2], 15
-	QUAD $0x01030a6c2021a3c4                   // vpinsrb    xmm5, xmm11, byte [rdx + r9 + 3], 1
-	QUAD $0x0203326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 2
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x0303326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 3
-	QUAD $0x04033a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 3], 4
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
-	QUAD $0x0503326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 5
-	QUAD $0x0603126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x08030a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 3], 8
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x0903326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 9
-	QUAD $0x0a03226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 3], 10
-	QUAD $0x0b032a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 3], 11
-	QUAD $0x0c031a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 3], 12
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x0d030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 13
-	QUAD $0x0e03026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 3], 14
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0f03126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 15
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01030a742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rcx + 3], 1
-	QUAD $0x020302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x030302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x040302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 5
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x060322742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 3], 6
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x070302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 7
-	QUAD $0x08033a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 3], 8
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x090332742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 3], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a0302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b0302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c0302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d0302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x0001e0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm3
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e03025c2049e3c4                   // vpinsrb    xmm3, xmm6, byte [rdx + rax + 3], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
-	LONG $0xc76e79c5                           // vmovd    xmm8, edi
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0f030a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 3], 15
-	LONG $0x3865e3c4; WORD $0x01dd             // vinserti128    ymm3, ymm3, xmm5, 1
-	QUAD $0x0001c0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
-	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
-	QUAD $0x000200249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 512]
-	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
-	QUAD $0x0104025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 4], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0204025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 2
-	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
-	QUAD $0x03041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 3
-	QUAD $0x04043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 4
-	QUAD $0x0504325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 5
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0604025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 6
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x07041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 7
-	QUAD $0x08040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0904025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 9
-	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
-	QUAD $0x0a043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 10
-	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
-	QUAD $0x0b04325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 11
-	QUAD $0x0c042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 12
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0d04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 13
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0e04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 14
-	QUAD $0x0f04125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 15
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x010412642001a3c4                   // vpinsrb    xmm4, xmm15, byte [rdx + r10 + 4], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x030402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x040402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 5
-	QUAD $0x060422642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 4], 6
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x07043a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 4], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x080402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 8
-	QUAD $0x090432642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 4], 9
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x0a0422642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 4], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b0402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 11
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0c0432642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 4], 12
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0d040a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 4], 13
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0e0432642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 4], 14
-	QUAD $0x0f040a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 4], 15
-	QUAD $0x0105026c2009a3c4                   // vpinsrb    xmm5, xmm14, byte [rdx + r8 + 5], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 2
-	QUAD $0x03051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 3
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x04051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 4
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x0505026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 5], 5
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x06050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 6
-	QUAD $0x07051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 7
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x08051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 8
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x09051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 9
-	QUAD $0x0a053a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 5], 10
-	QUAD $0x0b05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 11
-	QUAD $0x0c052a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 5], 12
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x0d051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 13
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x0e051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 14
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0f05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 15
-	QUAD $0x010512742019a3c4                   // vpinsrb    xmm6, xmm12, byte [rdx + r10 + 5], 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x02051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 2
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x03051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 3
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x04051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 4
-	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
-	QUAD $0x05051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 5
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x06051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 6
-	QUAD $0x07053a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 5], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x08053a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 5], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x09053a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 5], 9
-	QUAD $0x0a0522742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 5], 10
-	QUAD $0x0b0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 11
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0c0522742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 5], 12
-	QUAD $0x0d050a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 5], 13
-	QUAD $0x0e0532742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 5], 14
-	LONG $0x385d63c4; WORD $0x01f3             // vinserti128    ymm14, ymm4, xmm3, 1
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f0502642049e3c4                   // vpinsrb    xmm4, xmm6, byte [rdx + rax + 5], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xe76e79c5                           // vmovd    xmm12, edi
-	LONG $0x385de3c4; WORD $0x01dd             // vinserti128    ymm3, ymm4, xmm5, 1
-	QUAD $0x000200249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x01063a6c2011a3c4                   // vpinsrb    xmm5, xmm13, byte [rdx + r15 + 6], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0206026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 2
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0306026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0406026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 4
-	QUAD $0x0506026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 6], 5
-	QUAD $0x06060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 6
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0806026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 8
-	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
-	QUAD $0x0906026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 6], 9
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0a06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 11
-	QUAD $0x0c062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 12
-	QUAD $0x0d061a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 6], 13
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x0e06126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 6], 14
-	QUAD $0x0f06326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 15
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x01061a742041a3c4                   // vpinsrb    xmm6, xmm7, byte [rdx + r11 + 6], 1
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x020632742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 6], 2
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x03061a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 6], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x040602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06063a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 6], 6
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x070602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x080602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x090602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 9
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0a0632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 10
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0b060a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 6], 11
-	QUAD $0x0c0622742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 6], 12
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0d0622742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 6], 13
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0e0632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 14
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0f0632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 15
-	QUAD $0x01073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 1
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x020732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 2
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x030732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 3
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x040732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 4
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x050732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 5
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	QUAD $0x06073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 6
-	QUAD $0x07070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 7
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x08070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 8
-	QUAD $0x090702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 9
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0a0732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 11
-	QUAD $0x0c072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 12
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x0d072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 13
-	QUAD $0x0e0712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 14
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x0f070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 15
-	QUAD $0x01071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 1
-	QUAD $0x0207324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 2
-	QUAD $0x03071a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 7], 3
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 5
-	QUAD $0x06073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 6
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x07070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x08070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 8
-	QUAD $0x0907024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a07024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 10
-	QUAD $0x0b070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c07024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 12
-	QUAD $0x0d07224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 13
-	LONG $0x384de3c4; WORD $0x01dd             // vinserti128    ymm3, ymm6, xmm5, 1
-	QUAD $0x0004a0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm3
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e07026c2071e3c4                   // vpinsrb    xmm5, xmm1, byte [rdx + rax + 7], 14
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rax + 11]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f07026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 7], 15
-	LONG $0x3855e3c4; WORD $0x01d2             // vinserti128    ymm2, ymm5, xmm2, 1
-	QUAD $0x00048024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm2
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rax + 11]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0108026c2031e3c4                   // vpinsrb    xmm5, xmm9, byte [rdx + rax + 8], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x0208026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 2
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x03080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 3
-	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
-	QUAD $0x0408126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 8], 4
-	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
-	QUAD $0x05081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 5
-	QUAD $0x06083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0708026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x08080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 8
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x0908026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 8], 9
-	QUAD $0x0a08326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 10
-	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
-	QUAD $0x0b08026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 8], 11
-	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
-	QUAD $0x0c081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 12
-	QUAD $0x0d082a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 8], 13
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x0e082a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 8], 14
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0f08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 15
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x010832742029e3c4                   // vpinsrb    xmm6, xmm10, byte [rdx + rsi + 8], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x020832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 2
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x030832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 3
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x04083a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 8], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05083a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 8], 5
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x060832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 6
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x070832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 7
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x080832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 8
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x090832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 9
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0a0832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 10
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x0b0832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 11
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0c0832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 12
-	QUAD $0x0d0822742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 8], 13
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x0e0822742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 8], 14
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0f0832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 15
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x0109327c2039e3c4                   // vpinsrb    xmm7, xmm8, byte [rdx + rsi + 9], 1
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x0209327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 2
-	QUAD $0x03090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 3
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	QUAD $0x0409127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 9], 4
-	QUAD $0x05091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 5
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0609327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 6
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x07090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 7
-	QUAD $0x08090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 8
-	QUAD $0x0909027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 9
-	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
-	QUAD $0x0a090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 10
-	QUAD $0x0b09027c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r8 + 9], 11
-	QUAD $0x0c091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 12
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
-	QUAD $0x0e092a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 9], 14
-	QUAD $0x0f09327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 15
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x01092a5c2021a3c4                   // vpinsrb    xmm3, xmm11, byte [rdx + r13 + 9], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0209025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0309025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 3
-	QUAD $0x04093a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 9], 4
-	QUAD $0x05093a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 9], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0609025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 6
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x07091a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 9], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0809025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x0909025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 14
-	LONG $0x384de3c4; WORD $0x01ed             // vinserti128    ymm5, ymm6, xmm5, 1
-	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
-	LONG $0x3865e3c4; WORD $0x01df             // vinserti128    ymm3, ymm3, xmm7, 1
-	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
-	LONG $0xf76ef9c5                           // vmovd    xmm6, edi
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x010a125c2019a3c4                   // vpinsrb    xmm3, xmm12, byte [rdx + r10 + 10], 1
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	QUAD $0x020a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 2
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	QUAD $0x030a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 3
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x040a1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 10], 4
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x050a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 5
-	QUAD $0x060a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x070a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x080a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x090a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 9
-	QUAD $0x0a0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 10
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x0b0a3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 10], 11
-	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
-	QUAD $0x0c0a325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 10], 12
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0d0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 13
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0e0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 14
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x0f0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 15
-	QUAD $0x010a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x020a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x030a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x040a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x050a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 5
-	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
-	QUAD $0x060a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 6
-	QUAD $0x070a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x080a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 8
-	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
-	QUAD $0x090a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 10
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0b0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 14
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 15
-	QUAD $0x010b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 1
-	QUAD $0x020b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 2
-	QUAD $0x030b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 3
-	QUAD $0x040b1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 11], 4
-	QUAD $0x050b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 5
-	QUAD $0x060b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x070b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x090b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 9
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0a0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 10
-	QUAD $0x0b0b3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 11], 11
-	QUAD $0x0c0b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 12
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0d0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 13
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x0e0b3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 11], 14
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0f0b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 15
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x010b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x030b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 3
-	QUAD $0x040b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 5
-	QUAD $0x060b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 6
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x070b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 7
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x080b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 8
-	QUAD $0x090b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 9
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 10
-	QUAD $0x0b0b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 11], 11
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0c0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 12
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0d0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 13
-	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
-	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 14
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a7cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rcx + 13]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0f0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a7cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rcx + 13]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
-	QUAD $0x010c12542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r10 + 12], 1
-	QUAD $0x020c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 2
-	QUAD $0x030c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 3
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x040c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 4
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x050c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 5
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x060c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x070c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 7
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x080c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x090c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 9
-	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
-	QUAD $0x0a0c12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 12], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b0c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c0c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 12
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0d0c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 13
-	QUAD $0x0e0c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 14
-	QUAD $0x0f0c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 15
-	QUAD $0x010c1a642049e3c4                   // vpinsrb    xmm4, xmm6, byte [rdx + rbx + 12], 1
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x020c3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 12], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x030c3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 12], 3
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x040c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 4
-	QUAD $0x050c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 5
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x060c32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 12], 6
-	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
-	QUAD $0x070c22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 12], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x080c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 8
-	QUAD $0x090c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 9
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0a0c1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 12], 10
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0b0c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 11
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0c0c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 12
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0d0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 13
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0e0c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 14
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0f0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 15
-	QUAD $0x010d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x020d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 2
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x030d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 3
-	QUAD $0x040d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 4
-	QUAD $0x050d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 5
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x060d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 6
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x070d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 7
-	QUAD $0x080d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 13], 8
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x090d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 9
-	QUAD $0x0a0d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 11
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0c0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 12
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x0d0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 13
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0e0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 14
-	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
-	QUAD $0x0f0d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 15
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	QUAD $0x010d124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 13], 1
-	QUAD $0x020d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 2
-	QUAD $0x030d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 3
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x040d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 4
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x050d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 5
-	QUAD $0x060d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 6
-	QUAD $0x070d224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 13], 7
-	QUAD $0x080d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 8
-	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
-	QUAD $0x090d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 9
-	QUAD $0x0a0d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 13
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0e0d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 14
-	LONG $0x385de3c4; WORD $0x01d2             // vinserti128    ymm2, ymm4, xmm2, 1
-	QUAD $0x0003e024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm2
-	QUAD $0x0f0d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 15
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x0003c0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm1
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
-	QUAD $0x010e32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 14], 1
-	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
-	QUAD $0x020e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 2
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x030e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x040e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 4
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x050e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 5
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x060e1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 14], 6
-	QUAD $0x070e0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 14], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x080e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x090e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 9
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0a0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 11
-	QUAD $0x0c0e1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 14], 12
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x0d0e2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 14], 13
-	QUAD $0x0e0e0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 14], 14
-	QUAD $0x0f0e02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 14], 15
-	QUAD $0x010e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x020e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x030e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 3
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x040e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x050e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 5
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x060e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 6
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x070e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x080e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 8
-	QUAD $0x090e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 11
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0c0e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 12
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0d0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 13
-	QUAD $0x0e0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 14
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	QUAD $0x0f0e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a7cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rcx + 15]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x010f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 1
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	QUAD $0x020f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 2
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x030f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 3
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x040f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 4
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x050f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 5
-	QUAD $0x060f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 6
-	QUAD $0x070f0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 15], 7
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x080f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x090f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 9
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0a0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 10
-	QUAD $0x0b0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 11
-	QUAD $0x0c0f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 12
-	QUAD $0x0d0f2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 15], 13
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0e0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 14
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0f0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 15
-	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
-	LONG $0x327cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rsi + 15]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x010f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x020f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x030f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x040f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x050f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 5
-	QUAD $0x060f22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 15], 6
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x070f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x080f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x090f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a0f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 10
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0b0f3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 15], 11
-	QUAD $0x0c0f32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 15], 12
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0d0f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 15], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e0f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 14
-	QUAD $0x0f0f02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 15], 15
-	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
-	QUAD $0x000380248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm1
-	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
-	QUAD $0x0003a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm1
-	LONG $0x0a7cb60f; BYTE $0x10               // movzx    edi, byte [rdx + rcx + 16]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x01100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 1
-	QUAD $0x0210124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 2
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x03100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 4
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x05100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 5
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x06100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 6
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x07100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 7
-	QUAD $0x08101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 8
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x09100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 9
-	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
-	QUAD $0x0a10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 11
-	QUAD $0x0c101a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 16], 12
-	QUAD $0x0d102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 13
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x0e102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 14
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x0f100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 15
-	LONG $0x327cb60f; BYTE $0x10               // movzx    edi, byte [rdx + rsi + 16]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 1
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x02101a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 16], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 3
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x04100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x05100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 5
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x06100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 6
-	QUAD $0x071002542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 16], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x081002542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 16], 8
-	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
-	QUAD $0x091032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a1002542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 16], 10
-	QUAD $0x0b103a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 16], 11
-	QUAD $0x0c1032542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 16], 12
-	QUAD $0x0d100a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 16], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e1002542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 16], 14
-	QUAD $0x0f1002542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 16], 15
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1102             // movzx    edi, byte [rdx + r8 + 17]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0111025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 1
-	QUAD $0x0211125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 17], 2
-	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
-	QUAD $0x03111a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 17], 3
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x04110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 4
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x0511025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 5
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x0611025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 6
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0711025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0811025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0911025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 9
-	QUAD $0x0a11225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 17], 10
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x0b11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 11
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0c11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 12
-	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
-	QUAD $0x0d11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 13
-	QUAD $0x0e112a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 17], 14
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0f11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
-	QUAD $0x01113a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 17], 1
-	QUAD $0x02111a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 17], 2
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x03111a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 17], 3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x04113a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 17], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05113a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 17], 5
-	QUAD $0x06110a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 17], 6
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x071132642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 17], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x08110a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 17], 8
-	QUAD $0x091132642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 17], 9
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0a1132642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 17], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0b1122642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 17], 11
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x0c112a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 17], 12
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0d1132642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 17], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e113a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 17], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000360248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm1
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x0f11324c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rsi + 17], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x000340248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm1
-	LONG $0x7cb60f42; WORD $0x1202             // movzx    edi, byte [rdx + r8 + 18]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x01123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 1
-	QUAD $0x0212124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 2
-	QUAD $0x03121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 3
-	QUAD $0x04120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 4
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x05121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 5
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x06123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x07123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x08120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x09123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 9
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 12
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0d123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 13
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0e123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 14
-	QUAD $0x0f12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 15
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	LONG $0x027cb60f; BYTE $0x12               // movzx    edi, byte [rdx + rax + 18]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x01123a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 18], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x021202542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 18], 2
-	QUAD $0x03121a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 18], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x041202542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 18], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x051202542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 18], 5
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x06121a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 18], 6
-	QUAD $0x071232542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 18], 7
-	QUAD $0x08120a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 18], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x091202542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 18], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a123a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 18], 10
-	QUAD $0x0b1222542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 18], 11
-	QUAD $0x0c122a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 18], 12
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0d1232542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 18], 13
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	QUAD $0x0e1202542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 18], 14
-	QUAD $0x0f1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rcx + 19]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
-	QUAD $0x0113125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 1
-	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
-	QUAD $0x0213325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 2
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x03133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 4
-	QUAD $0x05131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 5
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x06133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 6
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x07131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 7
-	QUAD $0x08130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x09133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 9
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x0a133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 10
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x0b130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 12
-	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
-	QUAD $0x0d132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 13
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0e133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 14
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x0f133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rdi + 19]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
-	QUAD $0x01133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x03133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 3
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x041322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 19], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 5
-	QUAD $0x06131a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 19], 6
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x07133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x08133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 8
-	QUAD $0x091302642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 19], 9
-	QUAD $0x0a133a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 19], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1302642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 19], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c1302642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 19], 12
-	QUAD $0x0d1332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 19], 13
-	QUAD $0x0e1302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 19], 14
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f1302642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 19], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000300248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm1
-	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
-	QUAD $0x000320248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm1
-	LONG $0x0a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rcx + 20]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x0114124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 1
-	QUAD $0x0214324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 2
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	QUAD $0x0314124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 3
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	QUAD $0x04143a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 20], 4
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x0514324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 5
-	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
-	QUAD $0x0614024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 20], 6
-	QUAD $0x07141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0814024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 8
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x09141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 9
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0a14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 10
-	QUAD $0x0b140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 11
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0c14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 12
-	QUAD $0x0d142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 13
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0e14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 14
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x0f141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 15
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rcx + 20]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x01140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 1
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x02140a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 20], 2
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x03140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 3
-	QUAD $0x041422542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 20], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 6
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x07143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 7
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x081432542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 20], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x09143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 11
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0c143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 12
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0d143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 14
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0f143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 15
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1522             // movzx    edi, byte [rdx + r12 + 21]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x01153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x02153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 2
-	QUAD $0x0315125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 3
-	QUAD $0x04153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 4
-	QUAD $0x0515325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 5
-	QUAD $0x0615025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 21], 6
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x07152a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 21], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x08153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 8
-	QUAD $0x09151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 9
-	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
-	QUAD $0x0a15325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 10
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x0b153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 11
-	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
-	QUAD $0x0c151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 12
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0d153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 13
-	QUAD $0x0e15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 14
-	QUAD $0x0f151a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 21], 15
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x151a             // movzx    edi, byte [rdx + r11 + 21]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x011502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 1
-	QUAD $0x02150a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 21], 2
-	QUAD $0x03150a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 21], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x041502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 4
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x051512642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 21], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x061502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 6
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x071502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 7
-	QUAD $0x081532642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 21], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x091502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 9
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0a1502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 21], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 11
-	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
-	QUAD $0x0c1532642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 21], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x0002c0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm1
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0f150a4c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rcx + 21], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x0002e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm1
-	LONG $0x7cb60f42; WORD $0x1622             // movzx    edi, byte [rdx + r12 + 22]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x01160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 2
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	QUAD $0x03160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 4
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	QUAD $0x06160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 6
-	QUAD $0x07162a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 22], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x08160a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 22], 8
-	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
-	QUAD $0x09160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 9
-	QUAD $0x0a16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 10
-	QUAD $0x0b163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 11
-	QUAD $0x0c161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 12
-	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
-	QUAD $0x0d16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 13
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0e160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 14
-	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
-	QUAD $0x0f160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 15
-	LONG $0x7cb60f42; WORD $0x161a             // movzx    edi, byte [rdx + r11 + 22]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x01161a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 22], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 2
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x03163a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 22], 3
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x04162a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 22], 4
-	QUAD $0x051612542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 22], 5
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x061622542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 22], 6
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x07163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 7
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x08163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x09163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 9
-	QUAD $0x0a1602542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 22], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 11
-	QUAD $0x0c1632542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 22], 12
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0d163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 13
-	QUAD $0x0e1602542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 22], 14
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x0f1602542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 22], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rdi + 23]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x01173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 1
-	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
-	QUAD $0x0217025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 2
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x03173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x04173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 4
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0517125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 5
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x06171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 6
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0717325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 7
-	QUAD $0x08170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x09173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 9
-	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
-	QUAD $0x0a170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 12
-	QUAD $0x0d17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 13
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0e17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 14
-	QUAD $0x0f170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 15
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rcx + 23]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x01171a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 23], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 2
-	QUAD $0x03173a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 23], 3
-	QUAD $0x04172a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 23], 4
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x051732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 5
-	QUAD $0x061722642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 23], 6
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x07173a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 23], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x08170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 8
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x091722642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 23], 9
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 10
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0b172a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 23], 11
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0c170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 12
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0d170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e173a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 23], 14
-	QUAD $0x0f1702642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 23], 15
-	LONG $0x386d63c4; WORD $0x01d9             // vinserti128    ymm11, ymm2, xmm1, 1
-	LONG $0x385d63c4; WORD $0x01e3             // vinserti128    ymm12, ymm4, xmm3, 1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rax + 24]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
-	QUAD $0x0118024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 1
-	QUAD $0x0218024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 2
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x0318024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x0418024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 4
-	QUAD $0x0518124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 5
-	QUAD $0x06181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 6
-	QUAD $0x0718324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 7
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x0818024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x09183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 9
-	QUAD $0x0a180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 10
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x0b181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 12
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0d183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 13
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0e183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 14
-	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
-	QUAD $0x0f183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rdi + 24]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x01181a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 24], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02183a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 24], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x03183a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 24], 3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x04183a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 24], 4
-	QUAD $0x051832542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 24], 5
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x061832542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 24], 6
-	QUAD $0x07183a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 24], 7
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x081832542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 24], 8
-	QUAD $0x091822542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 24], 9
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0a1802542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 24], 10
-	QUAD $0x0b182a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 24], 11
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0c1832542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 24], 12
-	QUAD $0x0d180a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 24], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e180a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 24], 14
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x0f1812542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 24], 15
-	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
-	LONG $0x0a7cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rcx + 25]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
-	QUAD $0x01190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x02190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 2
-	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
-	QUAD $0x03192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 3
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x04190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 4
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x05190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 5
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x0619325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 6
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x07190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 7
-	QUAD $0x0819025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x0919025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 9
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0a19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 10
-	QUAD $0x0b191a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 25], 11
-	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
-	QUAD $0x0c19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 12
-	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
-	QUAD $0x0d190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 13
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0e193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 14
-	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
-	QUAD $0x0f191a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 25], 15
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	LONG $0x3a7cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rdi + 25]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x01191a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 25], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x02193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 2
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x03193a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 25], 3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x04193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x05193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 5
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x06193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 6
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x07193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 7
-	QUAD $0x081932642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 25], 8
-	QUAD $0x091922642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 25], 9
-	QUAD $0x0a1902642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 25], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0b1922642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 25], 11
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0c193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 12
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0d1932642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 25], 13
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0e191a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 25], 14
-	LONG $0x386d63c4; WORD $0x01d1             // vinserti128    ymm10, ymm2, xmm1, 1
-	QUAD $0x0f19124c2059a3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + r10 + 25], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x0001a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm1
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a7cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rdi + 26]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x011a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 1
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x021a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 2
-	QUAD $0x031a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 3
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x041a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 4
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x051a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 5
-	QUAD $0x061a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x071a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 7
-	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
-	QUAD $0x081a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 8
-	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
-	QUAD $0x091a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 9
-	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
-	QUAD $0x0a1a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 10
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0b1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 11
-	QUAD $0x0c1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 12
-	QUAD $0x0d1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 13
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0e1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 14
-	WORD $0x894c; BYTE $0xde                   // mov    rsi, r11
-	QUAD $0x0f1a1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 26], 15
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	LONG $0x7cb60f42; WORD $0x1a1a             // movzx    edi, byte [rdx + r11 + 26]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	QUAD $0x011a0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 26], 1
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x021a02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 26], 2
-	QUAD $0x031a3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 26], 3
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x041a12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 26], 4
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	QUAD $0x051a0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 26], 5
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x061a0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 26], 6
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x071a3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 26], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x081a0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 26], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x091a3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 26], 9
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x0a1a3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 26], 10
-	QUAD $0x0b1a22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 26], 11
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0c1a3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 26], 12
-	QUAD $0x0d1a32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 26], 13
-	QUAD $0x0e1a1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 26], 14
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0f1a3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 26], 15
-	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
-	LONG $0x3a7cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rdi + 27]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
-	QUAD $0x011b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 1
-	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
-	QUAD $0x021b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 2
-	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
-	QUAD $0x031b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 3
-	QUAD $0x041b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 4
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x051b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 5
-	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
-	QUAD $0x061b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x071b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x081b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 8
-	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
-	QUAD $0x091b1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 27], 9
-	QUAD $0x0a1b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b1b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c1b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 12
-	QUAD $0x0d1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 13
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0e1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 14
-	QUAD $0x0f1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 15
-	LONG $0x7cb60f42; WORD $0x1b1a             // movzx    edi, byte [rdx + r11 + 27]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x011b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 1
-	QUAD $0x021b02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 27], 2
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x031b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 3
-	QUAD $0x041b12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 27], 4
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x051b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 5
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x061b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 6
-	QUAD $0x071b3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 27], 7
-	QUAD $0x081b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 8
-	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
-	QUAD $0x091b22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 27], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a1b3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 27], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 11
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0c1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 12
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0d1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 13
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0e1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 14
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0f1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 15
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000240248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm1
-	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
-	QUAD $0x000260248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm1
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	LONG $0x7cb60f42; WORD $0x1c02             // movzx    edi, byte [rdx + r8 + 28]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
-	QUAD $0x011c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 1
-	QUAD $0x021c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 2
-	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
-	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
-	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
-	QUAD $0x041c124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 28], 4
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x051c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 5
-	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
-	QUAD $0x061c2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 28], 6
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x071c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 7
-	QUAD $0x081c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 8
-	QUAD $0x091c1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 28], 9
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x0a1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 10
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0b1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 11
-	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
-	QUAD $0x0c1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 12
-	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
-	QUAD $0x0d1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 13
-	QUAD $0x0e1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 14
-	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
-	QUAD $0x0f1c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 15
-	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
-	LONG $0x1a7cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rbx + 28]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x011c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x021c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x031c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x041c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x051c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x061c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 6
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x071c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 28], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x081c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 8
-	QUAD $0x091c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 28], 9
-	QUAD $0x0a1c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 28], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c1c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 12
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0d1c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 28], 13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0e1c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 28], 14
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x0f1c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 28], 15
-	LONG $0x7cb60f42; WORD $0x1d02             // movzx    edi, byte [rdx + r8 + 29]
-	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
-	QUAD $0x011d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 1
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	QUAD $0x021d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 2
-	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
-	QUAD $0x041d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 29], 4
-	QUAD $0x051d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 5
-	QUAD $0x061d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 6
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
-	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
-	QUAD $0x081d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 8
-	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
-	QUAD $0x091d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 9
-	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
-	QUAD $0x0a1d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 10
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x0b1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 11
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	QUAD $0x0c1d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 29], 12
-	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
-	QUAD $0x0d1d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 13
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0e1d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 14
-	QUAD $0x0f1d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 29], 15
-	LONG $0x1a7cb60f; BYTE $0x1d               // movzx    edi, byte [rdx + rbx + 29]
-	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
-	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
-	QUAD $0x011d02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 29], 1
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x021d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 2
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x031d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 3
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x041d32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 29], 4
-	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
-	QUAD $0x051d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 5
-	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
-	QUAD $0x061d1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 29], 6
-	QUAD $0x071d0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 29], 7
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x081d0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 29], 8
-	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
-	QUAD $0x091d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 9
-	QUAD $0x0a1d3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 29], 10
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x0b1d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 11
-	QUAD $0x0c1d02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 29], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d1d02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 29], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e1d02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 29], 14
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	QUAD $0x000280248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm1
-	QUAD $0x0f1d224c2059a3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + r12 + 29], 15
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	QUAD $0x0002a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm1
-	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
-	LONG $0x027cb60f; BYTE $0x1e               // movzx    edi, byte [rdx + rax + 30]
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
-	QUAD $0x011e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 30], 1
-	LONG $0x027cb60f; BYTE $0x1f               // movzx    edi, byte [rdx + rax + 31]
-	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
-	QUAD $0x011f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 31], 1
-	QUAD $0x021e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 30], 2
-	QUAD $0x021f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 31], 2
-	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
-	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
-	QUAD $0x031f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x041e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 4
-	QUAD $0x041f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 4
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
-	QUAD $0x051f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 5
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
-	QUAD $0x061f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 6
-	QUAD $0x071e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 30], 7
-	QUAD $0x071f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 31], 7
-	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
-	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
-	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
-	QUAD $0x081f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 8
-	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
-	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 9
-	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
-	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 10
-	QUAD $0x0b1e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 30], 11
-	QUAD $0x0b1f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 31], 11
-	QUAD $0x0c1e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 12
-	QUAD $0x0c1f12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 31], 12
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x0d1e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 13
-	QUAD $0x0d1f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 31], 13
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 14
-	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
-	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
-	QUAD $0x0f1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 15
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x0a44b60f; BYTE $0x1e               // movzx    eax, byte [rdx + rcx + 30]
-	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
-	QUAD $0x011e025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 30], 1
-	LONG $0x0a44b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rcx + 31]
-	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
-	QUAD $0x011f02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 31], 1
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x021e025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 30], 2
-	QUAD $0x021f02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 31], 2
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x031e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 3
-	QUAD $0x031f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 3
-	QUAD $0x041e325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 30], 4
-	QUAD $0x041f32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 31], 4
-	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
-	QUAD $0x051e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 5
-	QUAD $0x051f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 5
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x061e1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 30], 6
-	QUAD $0x061f1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 31], 6
-	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
-	QUAD $0x071e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 7
-	QUAD $0x071f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 7
-	QUAD $0x081e0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 30], 8
-	QUAD $0x081f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 31], 8
-	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
-	QUAD $0x091e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 9
-	QUAD $0x091f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0a1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 11
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 12
-	QUAD $0x0c1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 12
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 13
-	QUAD $0x0d1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 13
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 14
-	QUAD $0x0f1e225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 30], 15
-	QUAD $0x0f1f22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 31], 15
-	LONG $0x3865e3c4; WORD $0x01c9             // vinserti128    ymm1, ymm3, xmm1, 1
-	QUAD $0x000140248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm1
-	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
-	QUAD $0x000120248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm1
-	QUAD $0x0004c0248cdefdc5; BYTE $0x00       // vpmaxub    ymm1, ymm0, yword [rsp + 1216]
-	LONG $0xc974fdc5                           // vpcmpeqb    ymm1, ymm0, ymm1
-	QUAD $0x0002202494defdc5; BYTE $0x00       // vpmaxub    ymm2, ymm0, yword [rsp + 544]
-	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
-	LONG $0x7d6ffdc5; BYTE $0x00               // vmovdqa    ymm7, yword 0[rbp] /* [rip + .LCPI11_0] */
-	LONG $0xd7dbedc5                           // vpand    ymm2, ymm2, ymm7
-	LONG $0xc9f8edc5                           // vpsubb    ymm1, ymm2, ymm1
-	QUAD $0x0001e02494defdc5; BYTE $0x00       // vpmaxub    ymm2, ymm0, yword [rsp + 480]
-	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
-	LONG $0x456f7dc5; BYTE $0x20               // vmovdqa    ymm8, yword 32[rbp] /* [rip + .LCPI11_1] */
-	LONG $0xd2dbbdc5                           // vpand    ymm2, ymm8, ymm2
-	QUAD $0x0001c024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 448]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0x6d6ffdc5; BYTE $0x40               // vmovdqa    ymm5, yword 64[rbp] /* [rip + .LCPI11_2] */
-	LONG $0xfddb05c5                           // vpand    ymm15, ymm15, ymm5
-	LONG $0xd2eb85c5                           // vpor    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xd0de8dc5                           // vpmaxub    ymm2, ymm14, ymm0
-	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
-	LONG $0x756ffdc5; BYTE $0x60               // vmovdqa    ymm6, yword 96[rbp] /* [rip + .LCPI11_3] */
-	LONG $0xd6dbedc5                           // vpand    ymm2, ymm2, ymm6
-	QUAD $0x00020024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 512]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	QUAD $0x000000809d6ffdc5                   // vmovdqa    ymm3, yword 128[rbp] /* [rip + .LCPI11_4] */
-	LONG $0xfbdb05c5                           // vpand    ymm15, ymm15, ymm3
-	LONG $0xd2eb85c5                           // vpor    ymm2, ymm15, ymm2
-	QUAD $0x0004a024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 1184]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	QUAD $0x000000a0a56ffdc5                   // vmovdqa    ymm4, yword 160[rbp] /* [rip + .LCPI11_5] */
-	LONG $0xfcdb05c5                           // vpand    ymm15, ymm15, ymm4
-	LONG $0xd2eb85c5                           // vpor    ymm2, ymm15, ymm2
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	QUAD $0x0004802494defdc5; BYTE $0x00       // vpmaxub    ymm2, ymm0, yword [rsp + 1152]
-	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
-	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xd2dbb5c5                           // vpand    ymm2, ymm9, ymm2
-	LONG $0xd2ebf5c5                           // vpor    ymm2, ymm1, ymm2
-	QUAD $0x000460248cdefdc5; BYTE $0x00       // vpmaxub    ymm1, ymm0, yword [rsp + 1120]
-	LONG $0xc974fdc5                           // vpcmpeqb    ymm1, ymm0, ymm1
-	QUAD $0x00044024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 1088]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xffdb05c5                           // vpand    ymm15, ymm15, ymm7
-	LONG $0xc9f885c5                           // vpsubb    ymm1, ymm15, ymm1
-	QUAD $0x00042024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 1056]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xdb0541c4; BYTE $0xf8               // vpand    ymm15, ymm15, ymm8
-	QUAD $0x00040024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 1024]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf5db0dc5                           // vpand    ymm14, ymm14, ymm5
-	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
-	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
-	QUAD $0x0003e024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 992]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	QUAD $0x0003c024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 960]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfbdb05c5                           // vpand    ymm15, ymm15, ymm3
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	QUAD $0x00038024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 896]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfcdb05c5                           // vpand    ymm15, ymm15, ymm4
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
-	QUAD $0x0003a024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 928]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xdb0d41c4; BYTE $0xf1               // vpand    ymm14, ymm14, ymm9
-	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
-	QUAD $0x00036024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 864]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	QUAD $0x00034024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 832]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xffdb05c5                           // vpand    ymm15, ymm15, ymm7
-	LONG $0xf80541c4; BYTE $0xf6               // vpsubb    ymm14, ymm15, ymm14
-	QUAD $0x00030024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 768]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xdb0541c4; BYTE $0xf8               // vpand    ymm15, ymm15, ymm8
-	QUAD $0x00032024acde7dc5; BYTE $0x00       // vpmaxub    ymm13, ymm0, yword [rsp + 800]
-	LONG $0xe87415c5                           // vpcmpeqb    ymm13, ymm13, ymm0
-	LONG $0xeddb15c5                           // vpand    ymm13, ymm13, ymm5
-	LONG $0xeb0541c4; BYTE $0xed               // vpor    ymm13, ymm15, ymm13
-	LONG $0xeb0d41c4; BYTE $0xed               // vpor    ymm13, ymm14, ymm13
-	QUAD $0x0002c024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 704]
-	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
-	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
-	QUAD $0x0002e024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 736]
-	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
-	LONG $0xfbdb05c5                           // vpand    ymm15, ymm15, ymm3
-	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
-	LONG $0xd8de25c5                           // vpmaxub    ymm11, ymm11, ymm0
-	LONG $0xd87425c5                           // vpcmpeqb    ymm11, ymm11, ymm0
-	LONG $0xdcdb25c5                           // vpand    ymm11, ymm11, ymm4
-	LONG $0xeb0d41c4; BYTE $0xdb               // vpor    ymm11, ymm14, ymm11
-	LONG $0xeb1541c4; BYTE $0xdb               // vpor    ymm11, ymm13, ymm11
-	LONG $0xe0de1dc5                           // vpmaxub    ymm12, ymm12, ymm0
-	LONG $0xe0741dc5                           // vpcmpeqb    ymm12, ymm12, ymm0
-	LONG $0x6f7d41c4; BYTE $0xe9               // vmovdqa    ymm13, ymm9
-	LONG $0xdb1d41c4; BYTE $0xe1               // vpand    ymm12, ymm12, ymm9
-	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
-	LONG $0xd0de2dc5                           // vpmaxub    ymm10, ymm10, ymm0
-	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
-	QUAD $0x0001a0248cde7dc5; BYTE $0x00       // vpmaxub    ymm9, ymm0, yword [rsp + 416]
-	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
-	LONG $0xcfdb35c5                           // vpand    ymm9, ymm9, ymm7
-	LONG $0xf83541c4; BYTE $0xca               // vpsubb    ymm9, ymm9, ymm10
-	QUAD $0x00024024bcdefdc5; BYTE $0x00       // vpmaxub    ymm7, ymm0, yword [rsp + 576]
-	LONG $0xff74fdc5                           // vpcmpeqb    ymm7, ymm0, ymm7
-	LONG $0xffdbbdc5                           // vpand    ymm7, ymm8, ymm7
-	QUAD $0x0002602484de7dc5; BYTE $0x00       // vpmaxub    ymm8, ymm0, yword [rsp + 608]
-	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
-	LONG $0xc5db3dc5                           // vpand    ymm8, ymm8, ymm5
-	LONG $0xffebbdc5                           // vpor    ymm7, ymm8, ymm7
-	LONG $0xffebb5c5                           // vpor    ymm7, ymm9, ymm7
-	QUAD $0x00028024acdefdc5; BYTE $0x00       // vpmaxub    ymm5, ymm0, yword [rsp + 640]
-	LONG $0xed74fdc5                           // vpcmpeqb    ymm5, ymm0, ymm5
-	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
-	QUAD $0x0002a024b4defdc5; BYTE $0x00       // vpmaxub    ymm6, ymm0, yword [rsp + 672]
-	LONG $0xf674fdc5                           // vpcmpeqb    ymm6, ymm0, ymm6
-	LONG $0xf3dbcdc5                           // vpand    ymm6, ymm6, ymm3
-	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
-	QUAD $0x000140249cdefdc5; BYTE $0x00       // vpmaxub    ymm3, ymm0, yword [rsp + 320]
-	LONG $0xdb74fdc5                           // vpcmpeqb    ymm3, ymm0, ymm3
-	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
-	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
-	LONG $0xdbebc5c5                           // vpor    ymm3, ymm7, ymm3
-	QUAD $0x00012024a4defdc5; BYTE $0x00       // vpmaxub    ymm4, ymm0, yword [rsp + 288]
-	LONG $0xe474fdc5                           // vpcmpeqb    ymm4, ymm0, ymm4
-	LONG $0xe4db95c5                           // vpand    ymm4, ymm13, ymm4
-	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
-	LONG $0xe160edc5                           // vpunpcklbw    ymm4, ymm2, ymm1
-	LONG $0xc968edc5                           // vpunpckhbw    ymm1, ymm2, ymm1
-	LONG $0xd360a5c5                           // vpunpcklbw    ymm2, ymm11, ymm3
-	LONG $0xdb68a5c5                           // vpunpckhbw    ymm3, ymm11, ymm3
-	LONG $0xea61ddc5                           // vpunpcklwd    ymm5, ymm4, ymm2
-	LONG $0xd269ddc5                           // vpunpckhwd    ymm2, ymm4, ymm2
-	LONG $0xe361f5c5                           // vpunpcklwd    ymm4, ymm1, ymm3
-	LONG $0xcb69f5c5                           // vpunpckhwd    ymm1, ymm1, ymm3
-	LONG $0x3855e3c4; WORD $0x01da             // vinserti128    ymm3, ymm5, xmm2, 1
-	LONG $0x4655e3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm5, ymm2, 49
-	LONG $0x385de3c4; WORD $0x01e9             // vinserti128    ymm5, ymm4, xmm1, 1
-	LONG $0x465de3c4; WORD $0x31c9             // vperm2i128    ymm1, ymm4, ymm1, 49
-	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
-	LONG $0x7f7ec1c4; WORD $0x8f4c; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x8f6c; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm5
-	LONG $0x7f7ec1c4; WORD $0x8f1c             // vmovdqu    yword [r15 + 4*rcx], ymm3
-	LONG $0x20c18348                           // add    rcx, 32
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
-	JNE  LBB11_67
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x0000018024b43b4c                   // cmp    r14, qword [rsp + 384]
-	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
-	QUAD $0x0000017024ac8b4c                   // mov    r13, qword [rsp + 368]
-	QUAD $0x0000016824bc8b48                   // mov    rdi, qword [rsp + 360]
-	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
-	JNE  LBB11_69
-	JMP  LBB11_72
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_noasm.go b/go/arrow/compute/internal/kernels/scalar_comparison_noasm.go
deleted file mode 100644
index e7b4bce2362ba..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparison_noasm.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && (noasm || !amd64)
-
-package kernels
-
-import "github.com/apache/arrow/go/v18/arrow"
-
-func genCompareKernel[T arrow.NumericType](op CompareOperator) *CompareData {
-	return genGoCompareKernel(getCmpOp[T](op))
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.go b/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.go
deleted file mode 100644
index 7eea2dd1abb73..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.go
+++ /dev/null
@@ -1,109 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18 && !noasm
-
-package kernels
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:noescape
-func _comparison_equal_arr_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonEqualArrArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_equal_arr_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_equal_arr_scalar_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonEqualArrScalarSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_equal_arr_scalar_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_equal_scalar_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonEqualScalarArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_equal_scalar_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_not_equal_arr_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonNotEqualArrArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_not_equal_arr_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_not_equal_arr_scalar_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonNotEqualArrScalarSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_not_equal_arr_scalar_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_not_equal_scalar_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonNotEqualScalarArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_not_equal_scalar_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_arr_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterArrArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_arr_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_arr_scalar_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterArrScalarSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_arr_scalar_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_scalar_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterScalarArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_scalar_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_equal_arr_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterEqualArrArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_equal_arr_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_equal_arr_scalar_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterEqualArrScalarSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_equal_arr_scalar_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
-
-//go:noescape
-func _comparison_greater_equal_scalar_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
-
-func comparisonGreaterEqualScalarArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
-	_comparison_greater_equal_scalar_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
-}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.s b/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.s
deleted file mode 100644
index 00fdac38de749..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.s
+++ /dev/null
@@ -1,58288 +0,0 @@
-//go:build go1.18 && !noasm && !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_comparison_equal_arr_arr_sse4(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_20:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_20
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5940f41                           // sete    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3940f41                           // sete    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7940f41                           // sete    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2940f41                           // sete    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6940f41                           // sete    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4940f41                           // sete    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1940f41                           // sete    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_28:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_28
-	JMP  LBB0_123
-
-LBB0_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_48:
-	LONG $0x06100ff2             // movsd    xmm0, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_48
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB0_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff2                           // movsd    xmm0, qword [rsi]
-	LONG $0x4e100ff2; BYTE $0x08               // movsd    xmm1, qword [rsi + 8]
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x4a2e0f66; BYTE $0x08               // ucomisd    xmm1, qword [rdx + 8]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x46100ff2; BYTE $0x10               // movsd    xmm0, qword [rsi + 16]
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0x46100ff2; BYTE $0x18               // movsd    xmm0, qword [rsi + 24]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x46100ff2; BYTE $0x20               // movsd    xmm0, qword [rsi + 32]
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	LONG $0x46100ff2; BYTE $0x28               // movsd    xmm0, qword [rsi + 40]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x46100ff2; BYTE $0x30               // movsd    xmm0, qword [rsi + 48]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	LONG $0x46100ff2; BYTE $0x38               // movsd    xmm0, qword [rsi + 56]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x46100ff2; BYTE $0x40               // movsd    xmm0, qword [rsi + 64]
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	LONG $0x46100ff2; BYTE $0x48               // movsd    xmm0, qword [rsi + 72]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x46100ff2; BYTE $0x50               // movsd    xmm0, qword [rsi + 80]
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0x46100ff2; BYTE $0x58               // movsd    xmm0, qword [rsi + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x46100ff2; BYTE $0x60               // movsd    xmm0, qword [rsi + 96]
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0x46100ff2; BYTE $0x68               // movsd    xmm0, qword [rsi + 104]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x46100ff2; BYTE $0x70               // movsd    xmm0, qword [rsi + 112]
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	LONG $0x46100ff2; BYTE $0x78               // movsd    xmm0, qword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	QUAD $0x0000008086100ff2                   // movsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x0000008886100ff2                   // movsd    xmm0, qword [rsi + 136]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x0000009086100ff2                   // movsd    xmm0, qword [rsi + 144]
-	LONG $0xd6940f41                           // sete    r14b
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x0000009886100ff2                   // movsd    xmm0, qword [rsi + 152]
-	LONG $0xd4940f41                           // sete    r12b
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a086100ff2                   // movsd    xmm0, qword [rsi + 160]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000a886100ff2                   // movsd    xmm0, qword [rsi + 168]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	QUAD $0x000000b086100ff2                   // movsd    xmm0, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	QUAD $0x000000b886100ff2                   // movsd    xmm0, qword [rsi + 184]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	QUAD $0x000000c086100ff2                   // movsd    xmm0, qword [rsi + 192]
-	LONG $0xd0940f41                           // sete    r8b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000000c886100ff2                   // movsd    xmm0, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	QUAD $0x000000d086100ff2                   // movsd    xmm0, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	QUAD $0x000000d886100ff2                   // movsd    xmm0, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	QUAD $0x000000e086100ff2                   // movsd    xmm0, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000000e886100ff2                   // movsd    xmm0, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000000f086100ff2                   // movsd    xmm0, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f886100ff2                   // movsd    xmm0, qword [rsi + 248]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd7940f40                           // sete    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB0_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB0_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_56:
-	LONG $0x04100ff2; BYTE $0xce // movsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042e0f66; BYTE $0xca // ucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_56
-	JMP  LBB0_123
-
-LBB0_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB0_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x940f; BYTE $0xd1       // sete    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0940f41               // sete    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB0_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB0_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_14
-	JMP  LBB0_123
-
-LBB0_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_34:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_34
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_42:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_42
-	JMP  LBB0_123
-
-LBB0_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_70:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_70
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454940f; BYTE $0x20   // sete    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0940f41               // sete    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB0_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB0_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_78:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_78
-	JMP  LBB0_123
-
-LBB0_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454940f; BYTE $0x20   // sete    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0940f41               // sete    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB0_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB0_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_89
-	JMP  LBB0_123
-
-LBB0_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_111
-	JMP  LBB0_123
-
-LBB0_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_114:
-	LONG $0x06100ff3             // movss    xmm0, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_114
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB0_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff3                           // movss    xmm0, dword [rsi]
-	LONG $0x4e100ff3; BYTE $0x04               // movss    xmm1, dword [rsi + 4]
-	WORD $0x2e0f; BYTE $0x02                   // ucomiss    xmm0, dword [rdx]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	LONG $0x044a2e0f                           // ucomiss    xmm1, dword [rdx + 4]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x46100ff3; BYTE $0x08               // movss    xmm0, dword [rsi + 8]
-	LONG $0x08422e0f                           // ucomiss    xmm0, dword [rdx + 8]
-	LONG $0x46100ff3; BYTE $0x0c               // movss    xmm0, dword [rsi + 12]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	LONG $0x0c422e0f                           // ucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	LONG $0x46100ff3; BYTE $0x10               // movss    xmm0, dword [rsi + 16]
-	LONG $0x10422e0f                           // ucomiss    xmm0, dword [rdx + 16]
-	LONG $0x46100ff3; BYTE $0x14               // movss    xmm0, dword [rsi + 20]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	LONG $0x14422e0f                           // ucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	LONG $0x46100ff3; BYTE $0x18               // movss    xmm0, dword [rsi + 24]
-	LONG $0x18422e0f                           // ucomiss    xmm0, dword [rdx + 24]
-	LONG $0x46100ff3; BYTE $0x1c               // movss    xmm0, dword [rsi + 28]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x1c422e0f                           // ucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x46100ff3; BYTE $0x20               // movss    xmm0, dword [rsi + 32]
-	LONG $0x20422e0f                           // ucomiss    xmm0, dword [rdx + 32]
-	LONG $0x46100ff3; BYTE $0x24               // movss    xmm0, dword [rsi + 36]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x24422e0f                           // ucomiss    xmm0, dword [rdx + 36]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x46100ff3; BYTE $0x28               // movss    xmm0, dword [rsi + 40]
-	LONG $0x28422e0f                           // ucomiss    xmm0, dword [rdx + 40]
-	LONG $0x46100ff3; BYTE $0x2c               // movss    xmm0, dword [rsi + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2c422e0f                           // ucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x46100ff3; BYTE $0x30               // movss    xmm0, dword [rsi + 48]
-	LONG $0x30422e0f                           // ucomiss    xmm0, dword [rdx + 48]
-	LONG $0x46100ff3; BYTE $0x34               // movss    xmm0, dword [rsi + 52]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x34422e0f                           // ucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	LONG $0x46100ff3; BYTE $0x38               // movss    xmm0, dword [rsi + 56]
-	LONG $0x38422e0f                           // ucomiss    xmm0, dword [rdx + 56]
-	LONG $0x46100ff3; BYTE $0x3c               // movss    xmm0, dword [rsi + 60]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	LONG $0x3c422e0f                           // ucomiss    xmm0, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x46100ff3; BYTE $0x40               // movss    xmm0, dword [rsi + 64]
-	LONG $0x40422e0f                           // ucomiss    xmm0, dword [rdx + 64]
-	LONG $0x46100ff3; BYTE $0x44               // movss    xmm0, dword [rsi + 68]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	LONG $0x44422e0f                           // ucomiss    xmm0, dword [rdx + 68]
-	LONG $0x46100ff3; BYTE $0x48               // movss    xmm0, dword [rsi + 72]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x48422e0f                           // ucomiss    xmm0, dword [rdx + 72]
-	LONG $0x46100ff3; BYTE $0x4c               // movss    xmm0, dword [rsi + 76]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x4c422e0f                           // ucomiss    xmm0, dword [rdx + 76]
-	LONG $0x46100ff3; BYTE $0x50               // movss    xmm0, dword [rsi + 80]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	LONG $0x50422e0f                           // ucomiss    xmm0, dword [rdx + 80]
-	LONG $0x46100ff3; BYTE $0x54               // movss    xmm0, dword [rsi + 84]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	LONG $0x54422e0f                           // ucomiss    xmm0, dword [rdx + 84]
-	LONG $0x46100ff3; BYTE $0x58               // movss    xmm0, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	LONG $0x58422e0f                           // ucomiss    xmm0, dword [rdx + 88]
-	LONG $0x46100ff3; BYTE $0x5c               // movss    xmm0, dword [rsi + 92]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	LONG $0x5c422e0f                           // ucomiss    xmm0, dword [rdx + 92]
-	LONG $0x46100ff3; BYTE $0x60               // movss    xmm0, dword [rsi + 96]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x60422e0f                           // ucomiss    xmm0, dword [rdx + 96]
-	LONG $0x46100ff3; BYTE $0x64               // movss    xmm0, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	LONG $0x64422e0f                           // ucomiss    xmm0, dword [rdx + 100]
-	LONG $0x46100ff3; BYTE $0x68               // movss    xmm0, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	LONG $0x68422e0f                           // ucomiss    xmm0, dword [rdx + 104]
-	LONG $0x46100ff3; BYTE $0x6c               // movss    xmm0, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	LONG $0x6c422e0f                           // ucomiss    xmm0, dword [rdx + 108]
-	LONG $0x46100ff3; BYTE $0x70               // movss    xmm0, dword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x70422e0f                           // ucomiss    xmm0, dword [rdx + 112]
-	LONG $0x46100ff3; BYTE $0x74               // movss    xmm0, dword [rsi + 116]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x74422e0f                           // ucomiss    xmm0, dword [rdx + 116]
-	LONG $0x46100ff3; BYTE $0x78               // movss    xmm0, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	LONG $0x78422e0f                           // ucomiss    xmm0, dword [rdx + 120]
-	LONG $0x46100ff3; BYTE $0x7c               // movss    xmm0, dword [rsi + 124]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x7c422e0f                           // ucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd7940f40                           // sete    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB0_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB0_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_122:
-	LONG $0x04100ff3; BYTE $0x8e // movss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x8a042e0f             // ucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_122
-	JMP  LBB0_123
-
-LBB0_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_59:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_59
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB0_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x940f; BYTE $0xd1       // sete    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7940f41               // sete    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7940f40               // sete    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2940f41               // sete    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3940f41               // sete    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6940f41               // sete    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x940f; BYTE $0xd3       // sete    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4940f41               // sete    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5940f41               // sete    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1940f41               // sete    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0940f41               // sete    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB0_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB0_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_67:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_67
-	JMP  LBB0_123
-
-LBB0_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB0_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB0_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2940f41             // sete    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB0_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB0_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB0_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB0_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5940f41                           // sete    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3940f41                           // sete    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7940f41                           // sete    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2940f41                           // sete    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6940f41                           // sete    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4940f41                           // sete    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1940f41                           // sete    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB0_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB0_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB0_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB0_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB0_100
-
-LBB0_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA1<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA1<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA1<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA1<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA1<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA1<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA1<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA1<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA1<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA1<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA1<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA1<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA1<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA1<>+0x080(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x090(SB)/8, $0x0f070e060d050c04
-DATA LCDATA1<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x0a0(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x0a8(SB)/8, $0x0101010101010101
-DATA LCDATA1<>+0x0b0(SB)/8, $0x0404040404040404
-DATA LCDATA1<>+0x0b8(SB)/8, $0x0404040404040404
-DATA LCDATA1<>+0x0c0(SB)/8, $0x0808080808080808
-DATA LCDATA1<>+0x0c8(SB)/8, $0x0808080808080808
-DATA LCDATA1<>+0x0d0(SB)/8, $0x1010101010101010
-DATA LCDATA1<>+0x0d8(SB)/8, $0x1010101010101010
-DATA LCDATA1<>+0x0e0(SB)/8, $0x2020202020202020
-DATA LCDATA1<>+0x0e8(SB)/8, $0x2020202020202020
-DATA LCDATA1<>+0x0f0(SB)/8, $0x4040404040404040
-DATA LCDATA1<>+0x0f8(SB)/8, $0x4040404040404040
-GLOBL LCDATA1<>(SB), 8, $256
-
-TEXT ·_comparison_equal_arr_scalar_sse4(SB), $344-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 320(SP)
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_26
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_100
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_123
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_202
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_17
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_15:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_15
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB1_17:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_21
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-
-LBB1_19:
-	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000e024bc0240                   // add    dil, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB1_19
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB1_21:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB1_23
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB1_147:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_147
-	JMP  LBB1_24
-
-LBB1_26:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_27
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_162
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_174
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_202
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_49
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_47:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_47
-	LONG $0x01c68349             // add    r14, 1
-
-LBB1_49:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_53
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-	QUAD $0x000000e0249c894c // mov    qword [rsp + 224], r11
-
-LBB1_51:
-	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
-	LONG $0x062e0f66                           // ucomisd    xmm0, qword [rsi]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x462e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x462e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x462e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x462e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rsi + 32]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x462e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x462e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rsi + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x462e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rsi + 56]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x462e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rsi + 64]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x462e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rsi + 72]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x462e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x462e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x462e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x462e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x462e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rsi + 112]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x462e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rsi + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	QUAD $0x00000080862e0f66                   // ucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	QUAD $0x00000088862e0f66                   // ucomisd    xmm0, qword [rsi + 136]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	QUAD $0x00000090862e0f66                   // ucomisd    xmm0, qword [rsi + 144]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	QUAD $0x00000098862e0f66                   // ucomisd    xmm0, qword [rsi + 152]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	QUAD $0x000000a0862e0f66                   // ucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	QUAD $0x000000a8862e0f66                   // ucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	QUAD $0x000000b0862e0f66                   // ucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	QUAD $0x000000b8862e0f66                   // ucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	QUAD $0x000000c0862e0f66                   // ucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	QUAD $0x000000c8862e0f66                   // ucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	QUAD $0x000000d0862e0f66                   // ucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	QUAD $0x000000d8862e0f66                   // ucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	QUAD $0x000000e0862e0f66                   // ucomisd    xmm0, qword [rsi + 224]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	QUAD $0x000000e8862e0f66                   // ucomisd    xmm0, qword [rsi + 232]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	QUAD $0x000000f0862e0f66                   // ucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	QUAD $0x000000f8862e0f66                   // ucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000d0248c0244                   // add    r9b, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000008024bcb60f                   // movzx    edi, byte [rsp + 128]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0x68244402                           // add    al, byte [rsp + 104]
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB1_51
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-
-LBB1_53:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB1_197
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_199
-
-LBB1_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_56
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_202
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_6:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB1_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB1_9
-	LONG $0x10ff8349             // cmp    r15, 16
-	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
-	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
-	QUAD $0x0000010024bc894c     // mov    qword [rsp + 256], r15
-	JB   LBB1_83
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB1_86
-	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB1_86
-
-LBB1_83:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000f824848948     // mov    qword [rsp + 248], rax
-	LONG $0x2474894c; BYTE $0x78 // mov    qword [rsp + 120], r14
-
-LBB1_89:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	QUAD $0x000000f824b42b4c // sub    r14, qword [rsp + 248]
-	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
-
-LBB1_90:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	QUAD $0x000000e02484b60f                   // movzx    eax, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x80249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 128]
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	LONG $0x247cb60f; BYTE $0x48               // movzx    edi, byte [rsp + 72]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x38244402                           // add    al, byte [rsp + 56]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000008824b4b60f                   // movzx    esi, byte [rsp + 136]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	LONG $0x24548948; BYTE $0x78               // mov    qword [rsp + 120], rdx
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB1_90
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	JMP  LBB1_92
-
-LBB1_27:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_148
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_202
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_33
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_31:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_31
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB1_33:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_37
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-
-LBB1_35:
-	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000e024bc0240                   // add    dil, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB1_35
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB1_37:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB1_39
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB1_161:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_161
-	JMP  LBB1_40
-
-LBB1_56:
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_60
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_58:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_58
-	LONG $0x01c68349             // add    r14, 1
-
-LBB1_60:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB1_61
-	LONG $0x10ff8349             // cmp    r15, 16
-	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
-	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
-	QUAD $0x0000010024bc894c     // mov    qword [rsp + 256], r15
-	JB   LBB1_63
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB1_66
-	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB1_66
-
-LBB1_63:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000f824848948     // mov    qword [rsp + 248], rax
-	LONG $0x2474894c; BYTE $0x50 // mov    qword [rsp + 80], r14
-
-LBB1_69:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	QUAD $0x000000f824b42b4c // sub    r14, qword [rsp + 248]
-	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
-
-LBB1_70:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	QUAD $0x000000e02484b60f                   // movzx    eax, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x80249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 128]
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xc000                               // add    al, al
-	LONG $0x38244402                           // add    al, byte [rsp + 56]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000008824b4b60f                   // movzx    esi, byte [rsp + 136]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	LONG $0x24548948; BYTE $0x50               // mov    qword [rsp + 80], rdx
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB1_70
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	JMP  LBB1_72
-
-LBB1_148:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_152
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_150:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_150
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB1_152:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_156
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-
-LBB1_154:
-	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000e024bc0240                   // add    dil, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB1_154
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB1_156:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB1_158
-
-LBB1_23:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_24
-
-LBB1_100:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_104
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_102:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_102
-	LONG $0x01c68349             // add    r14, 1
-
-LBB1_104:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_105
-	LONG $0x08fb8349         // cmp    r11, 8
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	JB   LBB1_107
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB1_110
-	LONG $0x9e048d4b         // lea    rax, [r14 + 4*r11]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB1_110
-
-LBB1_107:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x10 // mov    qword [rsp + 16], rax
-	LONG $0x2474894c; BYTE $0x08 // mov    qword [rsp + 8], r14
-
-LBB1_113:
-	LONG $0x245c2b4c; BYTE $0x10 // sub    r11, qword [rsp + 16]
-	QUAD $0x000000c0249c894c     // mov    qword [rsp + 192], r11
-
-LBB1_114:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000e024840244                   // add    r8b, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xa0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 160]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x68244c02                           // add    cl, byte [rsp + 104]
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x1988                               // mov    byte [rcx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x01798840                           // mov    byte [rcx + 1], dil
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
-	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB1_114
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	JMP  LBB1_116
-
-LBB1_123:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_127
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_125:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_125
-	LONG $0x01c68349             // add    r14, 1
-
-LBB1_127:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_128
-	LONG $0x08ff8349         // cmp    r15, 8
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-	JB   LBB1_130
-	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB1_133
-	LONG $0xbe048d4b         // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB1_133
-
-LBB1_130:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x10 // mov    qword [rsp + 16], rax
-	WORD $0x894d; BYTE $0xf4     // mov    r12, r14
-
-LBB1_136:
-	LONG $0x2464894c; BYTE $0x08 // mov    qword [rsp + 8], r12
-	WORD $0x894d; BYTE $0xfe     // mov    r14, r15
-	LONG $0x24742b4c; BYTE $0x10 // sub    r14, qword [rsp + 16]
-	QUAD $0x000000c024b4894c     // mov    qword [rsp + 192], r14
-
-LBB1_137:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000e024840244                   // add    r8b, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xa0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 160]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x68244c02                           // add    cl, byte [rsp + 104]
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x1988                               // mov    byte [rcx], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x01798840                           // mov    byte [rcx + 1], dil
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
-	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB1_137
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	JMP  LBB1_139
-
-LBB1_162:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_166
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_164:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB1_164
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB1_166:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_170
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-
-LBB1_168:
-	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0940f41                           // sete    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000e024bc0240                   // add    dil, byte [rsp + 224]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB1_168
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB1_170:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB1_172
-
-LBB1_39:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB1_40
-
-LBB1_174:
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB1_178
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB1_176:
-	WORD $0x2e0f; BYTE $0x06     // ucomiss    xmm0, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB1_176
-	LONG $0x01c68349             // add    r14, 1
-
-LBB1_178:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB1_179
-	LONG $0x04fb8349         // cmp    r11, 4
-	JB   LBB1_181
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB1_184
-	LONG $0x9e048d4b         // lea    rax, [r14 + 4*r11]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB1_184
-
-LBB1_181:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB1_187:
-	LONG $0x247c894c; BYTE $0x08 // mov    qword [rsp + 8], r15
-	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
-	QUAD $0x000000c0249c894c     // mov    qword [rsp + 192], r11
-	WORD $0x294d; BYTE $0xc3     // sub    r11, r8
-	QUAD $0x000000e0249c894c     // mov    qword [rsp + 224], r11
-
-LBB1_188:
-	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
-	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
-	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000d024840244                   // add    r8b, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0x68244402                           // add    al, byte [rsp + 104]
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB1_188
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	JMP  LBB1_190
-
-LBB1_9:
-	LONG $0x2474894c; BYTE $0x78 // mov    qword [rsp + 120], r14
-
-LBB1_92:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_95
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB1_98
-
-LBB1_61:
-	LONG $0x2474894c; BYTE $0x50 // mov    qword [rsp + 80], r14
-
-LBB1_72:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_75
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB1_78
-
-LBB1_105:
-	LONG $0x2474894c; BYTE $0x08 // mov    qword [rsp + 8], r14
-
-LBB1_116:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB1_121
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB1_119
-
-LBB1_128:
-	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
-
-LBB1_139:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB1_144
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB1_142
-
-LBB1_179:
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-
-LBB1_190:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB1_202
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB1_195
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB1_193
-
-LBB1_158:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB1_159:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_159
-
-LBB1_24:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_202
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-	JMP  LBB1_201
-
-LBB1_95:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x78 // mov    r14, qword [rsp + 120]
-
-LBB1_96:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB1_96
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB1_98:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB1_202
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x78 // mov    r8, qword [rsp + 120]
-	JMP  LBB1_80
-
-LBB1_75:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x50 // mov    r14, qword [rsp + 80]
-
-LBB1_76:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB1_76
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB1_78:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB1_202
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x50 // mov    r8, qword [rsp + 80]
-
-LBB1_80:
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041         // and    r9b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9 // mov    ecx, r9d
-	JMP  LBB1_81
-
-LBB1_197:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB1_198:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_198
-
-LBB1_199:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB1_202
-	LONG $0x062e0f66 // ucomisd    xmm0, qword [rsi]
-	JMP  LBB1_201
-
-LBB1_172:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB1_173:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB1_173
-
-LBB1_40:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_202
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-
-LBB1_201:
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-	JMP  LBB1_202
-
-LBB1_121:
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0x3145; BYTE $0xf6     // xor    r14d, r14d
-	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
-
-LBB1_122:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3b // movzx    r10d, byte [r11 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB1_122
-
-LBB1_119:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB1_202
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xf2     // mov    rdx, r14
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68041             // and    r14b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-
-LBB1_81:
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB1_202
-
-LBB1_144:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-
-LBB1_145:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB1_145
-
-LBB1_142:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_202
-	LONG $0x2e394466         // cmp    word [rsi], r13w
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xf2 // mov    rdx, r14
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68041         // and    r14b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xf1 // mov    ecx, r14d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
-	JMP  LBB1_202
-
-LBB1_195:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x894d; BYTE $0xfb // mov    r11, r15
-
-LBB1_196:
-	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xca     // and    dl, r9b
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_196
-
-LBB1_193:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB1_202
-	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	LONG $0x173c8a41         // mov    dil, byte [r15 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
-
-LBB1_202:
-	MOVQ 320(SP), SP
-	RET
-
-LBB1_86:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
-	QUAD $0x000000f824bc894c             // mov    qword [rsp + 248], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24448948; BYTE $0x78         // mov    qword [rsp + 120], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000d0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 208], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008824b4894c             // mov    qword [rsp + 136], r14
-
-LBB1_87:
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	LONG $0x05e7c148                           // shl    rdi, 5
-	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	WORD $0x8949; BYTE $0xf8                   // mov    r8, rdi
-	WORD $0x8949; BYTE $0xfc                   // mov    r12, rdi
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
-	LONG $0x247c8948; BYTE $0x58               // mov    qword [rsp + 88], rdi
-	LONG $0x247c8948; BYTE $0x38               // mov    qword [rsp + 56], rdi
-	LONG $0x3e0cb60f                           // movzx    ecx, byte [rsi + rdi]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x3e4cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rdi + 1]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x3e4cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rdi + 2]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x3e4cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rdi + 3]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x3e4cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rdi + 4]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x3e4cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rdi + 5]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x3e4cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rdi + 6]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x3e4cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rdi + 7]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
-	LONG $0x3e4cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rdi + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x3e4cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rdi + 9]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x3e4cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rdi + 10]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	LONG $0x3e4cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rdi + 11]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x3e4cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rdi + 12]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x3e4cb60f; BYTE $0x0d               // movzx    ecx, byte [rsi + rdi + 13]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x3e4cb60f; BYTE $0x0e               // movzx    ecx, byte [rsi + rdi + 14]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00012024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 288], xmm0
-	LONG $0x247c8948; BYTE $0x20               // mov    qword [rsp + 32], rdi
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x28               // mov    qword [rsp + 40], r13
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x244c8948; BYTE $0x40               // mov    qword [rsp + 64], rcx
-	LONG $0x60cb8349                           // or    r11, 96
-	LONG $0x80cb8148; WORD $0x0000; BYTE $0x00 // or    rbx, 128
-	LONG $0xa0ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 160
-	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
-	LONG $0xe0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 224
-	LONG $0x00cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 256
-	LONG $0x20c98149; WORD $0x0001; BYTE $0x00 // or    r9, 288
-	QUAD $0x00000080248c894c                   // mov    qword [rsp + 128], r9
-	LONG $0x40ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 320
-	LONG $0x24548948; BYTE $0x30               // mov    qword [rsp + 48], rdx
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	LONG $0x60ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 352
-	LONG $0x24548948; BYTE $0x58               // mov    qword [rsp + 88], rdx
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	LONG $0x80c88149; WORD $0x0001; BYTE $0x00 // or    r8, 384
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x18               // mov    qword [rsp + 24], rax
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	QUAD $0x012e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 1
-	QUAD $0x020e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 2
-	LONG $0x245c894c; BYTE $0x68               // mov    qword [rsp + 104], r11
-	QUAD $0x031e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r11], 3
-	LONG $0x245c8948; BYTE $0x50               // mov    qword [rsp + 80], rbx
-	QUAD $0x041e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rbx], 4
-	LONG $0x2474894c; BYTE $0x60               // mov    qword [rsp + 96], r14
-	QUAD $0x05363c203a0f4666                   // pinsrb    xmm15, byte [rsi + r14], 5
-	QUAD $0x063e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r15], 6
-	WORD $0x894c; BYTE $0xd7                   // mov    rdi, r10
-	QUAD $0x07163c203a0f4666                   // pinsrb    xmm15, byte [rsi + r10], 7
-	QUAD $0x08263c203a0f4666                   // pinsrb    xmm15, byte [rsi + r12], 8
-	QUAD $0x090e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 9
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x0a2e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 10
-	QUAD $0x0b163c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdx], 11
-	QUAD $0x0c063c203a0f4666                   // pinsrb    xmm15, byte [rsi + r8], 12
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x0d0e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 13
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x0e0e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 14
-	QUAD $0x0f063c203a0f4466                   // pinsrb    xmm15, byte [rsi + rax], 15
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x01166c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r10 + 1], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02010e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 1], 2
-	QUAD $0x011e6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r11 + 1], 3
-	QUAD $0x04011e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 1], 4
-	QUAD $0x01366c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r14 + 1], 5
-	QUAD $0x013e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r15 + 1], 6
-	QUAD $0x000000b024bc894c                   // mov    qword [rsp + 176], r15
-	QUAD $0x07013e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 1], 7
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x000000a024bc8948                   // mov    qword [rsp + 160], rdi
-	QUAD $0x01266c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r12 + 1], 8
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	LONG $0x2464894c; BYTE $0x48               // mov    qword [rsp + 72], r12
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x09010e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 1], 9
-	QUAD $0x012e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r13 + 1], 10
-	QUAD $0x0b01166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 1], 11
-	QUAD $0x01066c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r8 + 1], 12
-	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
-	LONG $0x2444894c; BYTE $0x38               // mov    qword [rsp + 56], r8
-	QUAD $0x010e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r9 + 1], 13
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x01266c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r12 + 1], 14
-	QUAD $0x0f01066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x00d0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 208]
-	LONG $0x740f4166; BYTE $0xe9               // pcmpeqb    xmm5, xmm9
-	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
-	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI1_10] */
-	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
-	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	LONG $0x0654b60f; BYTE $0x0f               // movzx    edx, byte [rsi + rax + 15]
-	LONG $0x6e0f4466; BYTE $0xf2               // movd    xmm14, edx
-	LONG $0x740f4566; BYTE $0xf9               // pcmpeqb    xmm15, xmm9
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x020674203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r8 + 2], 1
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x021e74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r11 + 2], 2
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x022e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r13 + 2], 3
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x04020e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 2], 4
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x05023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 5
-	QUAD $0x023e74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r15 + 2], 6
-	QUAD $0x023674203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r14 + 2], 7
-	QUAD $0x08021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 8
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	QUAD $0x09021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 9
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x023674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r14 + 2], 10
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x023e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r15 + 2], 11
-	QUAD $0x021674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r10 + 2], 12
-	WORD $0x894d; BYTE $0xca                   // mov    r10, r9
-	QUAD $0x020e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r9 + 2], 13
-	QUAD $0x022674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r12 + 2], 14
-	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
-	QUAD $0x020e74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r9 + 2], 15
-	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
-	LONG $0x740f4166; BYTE $0xf1               // pcmpeqb    xmm6, xmm9
-	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x0654b60f; BYTE $0x10               // movzx    edx, byte [rsi + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	QUAD $0x030654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r8 + 3], 1
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x031e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r11 + 3], 2
-	QUAD $0x032e54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r13 + 3], 3
-	QUAD $0x04030e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 3], 4
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	QUAD $0x05033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 5
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x06030e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 3], 6
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x07033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 7
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x030654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 3], 8
-	QUAD $0x09031e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 3], 9
-	QUAD $0x033654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r14 + 3], 10
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x033e54203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r15 + 3], 11
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x033e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 3], 12
-	QUAD $0x031654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r10 + 3], 13
-	QUAD $0x032654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r12 + 3], 14
-	QUAD $0x030e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r9 + 3], 15
-	QUAD $0x0104164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 1
-	QUAD $0x0204064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 2
-	QUAD $0x042e4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r13 + 4], 3
-	QUAD $0x041e4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r11 + 4], 4
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x041e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r11 + 4], 5
-	QUAD $0x06040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 6
-	QUAD $0x07043e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 4], 7
-	QUAD $0x04064c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r8 + 4], 8
-	QUAD $0x09041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 9
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0a040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 10
-	QUAD $0x04364c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r14 + 4], 11
-	QUAD $0x043e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 4], 12
-	QUAD $0x04164c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r10 + 4], 13
-	WORD $0x894d; BYTE $0xd7                   // mov    r15, r10
-	QUAD $0x04264c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r12 + 4], 14
-	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
-	QUAD $0x040e4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r9 + 4], 15
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	LONG $0x3e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rdi + 17]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0xd5db0f66                           // pand    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xc9               // pcmpeqb    xmm1, xmm9
-	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xcddb0f66                           // pand    xmm1, xmm5
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0x3e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rdi + 18]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x050e44203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r9 + 5], 1
-	QUAD $0x050644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rax + 5], 2
-	QUAD $0x052e44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r13 + 5], 3
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x051644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 5], 4
-	QUAD $0x051e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r11 + 5], 5
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x053e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rdi + 5], 6
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x050644203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r8 + 5], 7
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x051644203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rsi + rdx + 5], 8
-	QUAD $0x051e44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rsi + rbx + 5], 9
-	QUAD $0x050e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rcx + 5], 10
-	QUAD $0x053644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 5], 11
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x050e44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rcx + 5], 12
-	QUAD $0x053e44203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r15 + 5], 13
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	QUAD $0x051644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r10 + 5], 14
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x051644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r10 + 5], 15
-	LONG $0x740f4566; BYTE $0xc1               // pcmpeqb    xmm8, xmm9
-	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI1_14] */
-	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	LONG $0x0e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rcx + 19]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	LONG $0x0e54b60f; BYTE $0x14               // movzx    edx, byte [rsi + rcx + 20]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	QUAD $0x060e5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r9 + 6], 1
-	QUAD $0x0206065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 2
-	QUAD $0x062e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r13 + 6], 3
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x061e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r11 + 6], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x063e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r15 + 6], 5
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	QUAD $0x06063e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 6], 6
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x06065c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r8 + 6], 7
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0806165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 6], 8
-	QUAD $0x09061e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 6], 9
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x06065c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r8 + 6], 10
-	QUAD $0x06365c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r14 + 6], 11
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0c06065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 12
-	QUAD $0x06265c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r12 + 6], 13
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0e06165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 6], 14
-	QUAD $0x06165c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r10 + 6], 15
-	QUAD $0x0000e024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 224]
-	QUAD $0x070e54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r9 + 7], 1
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x072654203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r12 + 7], 2
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x03071654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 7], 3
-	QUAD $0x071e54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r11 + 7], 4
-	QUAD $0x073e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r15 + 7], 5
-	QUAD $0x06070e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 7], 6
-	QUAD $0x07073e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 7], 7
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x071654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r10 + 7], 8
-	QUAD $0x09071e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 7], 9
-	QUAD $0x070654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r8 + 7], 10
-	QUAD $0x073654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 7], 11
-	QUAD $0x0c070654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 7], 12
-	QUAD $0x072e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r13 + 7], 13
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x0e073e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 7], 14
-	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
-	QUAD $0x070e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r9 + 7], 15
-	LONG $0x740f4166; BYTE $0xd9               // pcmpeqb    xmm3, xmm9
-	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI1_15] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xd1db0f66                           // pand    xmm2, xmm1
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	LONG $0x1e54b60f; BYTE $0x15               // movzx    edx, byte [rsi + rbx + 21]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x091e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r11 + 9], 1
-	QUAD $0x092654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r12 + 9], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x090654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rax + 9], 3
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x090e54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rcx + 9], 4
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x093e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r15 + 9], 5
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x092654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r12 + 9], 6
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x090654203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rax + 9], 7
-	QUAD $0x091654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r10 + 9], 8
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x090654203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rax + 9], 9
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x090654203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rax + 9], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x091654203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rdx + 9], 11
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x091654203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rdx + 9], 12
-	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
-	QUAD $0x092e54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r13 + 9], 13
-	QUAD $0x093e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rdi + 9], 14
-	QUAD $0x090e54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r9 + 9], 15
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	QUAD $0x0000e0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm1
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
-	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
-	LONG $0x1e54b60f; BYTE $0x16               // movzx    edx, byte [rsi + rbx + 22]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
-	QUAD $0x081e64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r11 + 8], 1
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x082e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r13 + 8], 2
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	QUAD $0x080664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r8 + 8], 3
-	QUAD $0x04080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 4
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	QUAD $0x083e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r15 + 8], 5
-	QUAD $0x082664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r12 + 8], 6
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x083e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r15 + 8], 7
-	QUAD $0x083664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r14 + 8], 8
-	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x09081664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 8], 9
-	QUAD $0x0a080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 11
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x083664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r14 + 8], 12
-	QUAD $0x081664203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r10 + 8], 13
-	QUAD $0x0e083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 15
-	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	QUAD $0x00c024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 192]
-	QUAD $0x0a1e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r11 + 10], 1
-	QUAD $0x0a2e54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r13 + 10], 2
-	QUAD $0x0a0654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r8 + 10], 3
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x0a0e54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rcx + 10], 4
-	QUAD $0x0a0e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r9 + 10], 5
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0a0e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rcx + 10], 6
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	QUAD $0x0a3e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r15 + 10], 7
-	QUAD $0x0a1e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rbx + 10], 8
-	QUAD $0x0a1654203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rdx + 10], 9
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0a1654203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rdx + 10], 10
-	WORD $0x8948; BYTE $0xd3                   // mov    rbx, rdx
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a3e54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r15 + 10], 11
-	QUAD $0x0a3654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r14 + 10], 12
-	QUAD $0x0a1654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r10 + 10], 13
-	QUAD $0x0a3e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rdi + 10], 14
-	QUAD $0x0a0654203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rax + 10], 15
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	LONG $0x0654b60f; BYTE $0x17               // movzx    edx, byte [rsi + rax + 23]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x00c024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 192], xmm10
-	LONG $0x0654b60f; BYTE $0x18               // movzx    edx, byte [rsi + rax + 24]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	QUAD $0x0b1e5c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rsi + r11 + 11], 1
-	QUAD $0x0b2e5c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rsi + r13 + 11], 2
-	QUAD $0x0b265c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r12 + 11], 3
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b065c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rsi + rax + 11], 4
-	QUAD $0x0b0e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r9 + 11], 5
-	QUAD $0x0b0e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rcx + 11], 6
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x0b065c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r8 + 11], 7
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x0b065c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r8 + 11], 8
-	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
-	QUAD $0x0b0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 11], 9
-	QUAD $0x0b1e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rbx + 11], 10
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x0b3e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 11], 11
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x0b3e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 11], 12
-	QUAD $0x0b165c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r10 + 11], 13
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x0b265c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r12 + 11], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0b165c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdx + 11], 15
-	QUAD $0x0c1e6c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r11 + 12], 1
-	QUAD $0x0c2e6c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rsi + r13 + 12], 2
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0c1e6c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rsi + rbx + 12], 3
-	QUAD $0x0c066c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rsi + rax + 12], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0c066c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rsi + rax + 12], 5
-	QUAD $0x0c0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 12], 6
-	QUAD $0x0c3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 12], 7
-	QUAD $0x0c066c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r8 + 12], 8
-	QUAD $0x0c0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 12], 9
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0c1e6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rbx + 12], 10
-	QUAD $0x0c366c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r14 + 12], 11
-	QUAD $0x0c3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 12], 12
-	QUAD $0x0c166c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r10 + 12], 13
-	WORD $0x894d; BYTE $0xd3                   // mov    r11, r10
-	QUAD $0x0c266c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r12 + 12], 14
-	QUAD $0x0c166c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdx + 12], 15
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x0d1664203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rsi + r10 + 13], 1
-	QUAD $0x0d2e64203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rsi + r13 + 13], 2
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0d2e64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r13 + 13], 3
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x0d1e64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rbx + 13], 4
-	QUAD $0x0d0664203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rsi + rax + 13], 5
-	QUAD $0x0d0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 13], 6
-	QUAD $0x0d3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 13], 7
-	QUAD $0x0d0664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r8 + 13], 8
-	QUAD $0x0d0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 13], 9
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0d1e64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rbx + 13], 10
-	QUAD $0x0d3664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r14 + 13], 11
-	QUAD $0x0d3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 13], 12
-	QUAD $0x0d1e64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r11 + 13], 13
-	QUAD $0x0d2664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r12 + 13], 14
-	QUAD $0x0d1664203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rdx + 13], 15
-	LONG $0x740f4566; BYTE $0xd9               // pcmpeqb    xmm11, xmm9
-	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0x740f4566; BYTE $0xe9               // pcmpeqb    xmm13, xmm9
-	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	LONG $0x0654b60f; BYTE $0x19               // movzx    edx, byte [rsi + rax + 25]
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0x740f4566; BYTE $0xe1               // pcmpeqb    xmm12, xmm9
-	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI1_14] */
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x0654b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rax + 26]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	QUAD $0x00012024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 288]
-	QUAD $0x0e1664203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r10 + 14], 1
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x0e2664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r12 + 14], 2
-	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
-	QUAD $0x0e2e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r13 + 14], 3
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0e1e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r11 + 14], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x050e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 14], 5
-	QUAD $0x060e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 6
-	QUAD $0x070e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 7
-	QUAD $0x0e0664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 14], 8
-	QUAD $0x0e0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 14], 9
-	QUAD $0x0a0e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 14], 10
-	QUAD $0x0e3664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 14], 11
-	QUAD $0x0e3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 14], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 13
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x0e2e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r13 + 14], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0f0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 15
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0f1674203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rdx + 15], 1
-	QUAD $0x0f2674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r12 + 15], 2
-	QUAD $0x0f1674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r10 + 15], 3
-	QUAD $0x0f1e74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r11 + 15], 4
-	QUAD $0x0f0674203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rax + 15], 5
-	QUAD $0x0f0e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rcx + 15], 6
-	QUAD $0x0f3e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rdi + 15], 7
-	QUAD $0x0f0674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 15], 8
-	QUAD $0x0f0e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 15], 9
-	QUAD $0x0f1e74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rbx + 15], 10
-	QUAD $0x0f3674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 15], 11
-	QUAD $0x0f3e74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r15 + 15], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0f1674203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rdx + 15], 13
-	QUAD $0x0f2e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r13 + 15], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0f1674203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rdx + 15], 15
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x10167c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rdx + 16], 1
-	QUAD $0x10267c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r12 + 16], 2
-	QUAD $0x10167c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r10 + 16], 3
-	QUAD $0x101e7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r11 + 16], 4
-	QUAD $0x10067c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rax + 16], 5
-	QUAD $0x100e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rcx + 16], 6
-	QUAD $0x103e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rdi + 16], 7
-	QUAD $0x10067c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r8 + 16], 8
-	QUAD $0x100e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 16], 9
-	QUAD $0x101e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rbx + 16], 10
-	QUAD $0x10367c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r14 + 16], 11
-	QUAD $0x103e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 16], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x10167c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rdx + 16], 13
-	QUAD $0x102e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r13 + 16], 14
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x01111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 1
-	QUAD $0x112644203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r12 + 17], 2
-	QUAD $0x111644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 17], 3
-	QUAD $0x111e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 17], 4
-	QUAD $0x05110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 5
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x06110e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 17], 6
-	QUAD $0x07113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 7
-	QUAD $0x110644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r8 + 17], 8
-	QUAD $0x110e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 17], 9
-	QUAD $0x0a111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 10
-	QUAD $0x113644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 17], 11
-	QUAD $0x113e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 17], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 13
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0e111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 14
-	QUAD $0x00c024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 192]
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	LONG $0x54b60f42; WORD $0x1b26             // movzx    edx, byte [rsi + r12 + 27]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	QUAD $0x00d024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 208]
-	LONG $0x740f4166; BYTE $0xe5               // pcmpeqb    xmm4, xmm13
-	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI1_15] */
-	LONG $0x740f4566; BYTE $0xf5               // pcmpeqb    xmm14, xmm13
-	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
-	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
-	LONG $0x54b60f42; WORD $0x1c26             // movzx    edx, byte [rsi + r12 + 28]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x110644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r8 + 17], 15
-	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
-	LONG $0x740f4166; BYTE $0xc5               // pcmpeqb    xmm0, xmm13
-	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI1_10] */
-	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
-	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
-	QUAD $0x00c024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 192], xmm13
-	LONG $0x54b60f42; WORD $0x1d26             // movzx    edx, byte [rsi + r12 + 29]
-	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
-	QUAD $0x10067c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r8 + 16], 15
-	QUAD $0x0000d024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 208]
-	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x12266c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r12 + 18], 1
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0212166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 2
-	QUAD $0x12166c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r10 + 18], 3
-	QUAD $0x121e6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r11 + 18], 4
-	QUAD $0x122e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r13 + 18], 5
-	QUAD $0x06120e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 18], 6
-	QUAD $0x07123e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 18], 7
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x0812166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 8
-	QUAD $0x120e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r9 + 18], 9
-	QUAD $0x0a121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 10
-	QUAD $0x12366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 18], 11
-	QUAD $0x123e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 18], 12
-	QUAD $0x0d12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 14
-	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
-	QUAD $0x12066c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r8 + 18], 15
-	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
-	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	LONG $0x0654b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	QUAD $0x13267c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rsi + r12 + 19], 1
-	QUAD $0x142674203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r12 + 20], 1
-	QUAD $0x152654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r12 + 21], 1
-	QUAD $0x16265c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r12 + 22], 1
-	QUAD $0x172644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r12 + 23], 1
-	QUAD $0x182654203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r12 + 24], 1
-	QUAD $0x19264c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rsi + r12 + 25], 1
-	QUAD $0x1a265c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rsi + r12 + 26], 1
-	QUAD $0x1b264c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rsi + r12 + 27], 1
-	QUAD $0x1c2664203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r12 + 28], 1
-	QUAD $0x1d266c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r12 + 29], 1
-	QUAD $0x1e2664203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rsi + r12 + 30], 1
-	LONG $0x0654b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rax + 31]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x1f2644203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rsi + r12 + 31], 1
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0213167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 2
-	QUAD $0x02141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 2
-	QUAD $0x02151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 2
-	QUAD $0x0216165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 2
-	QUAD $0x171644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdx + 23], 2
-	QUAD $0x181654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdx + 24], 2
-	QUAD $0x0219164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 2
-	QUAD $0x1a165c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdx + 26], 2
-	QUAD $0x1b164c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdx + 27], 2
-	QUAD $0x021c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 2
-	QUAD $0x1d166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 29], 2
-	QUAD $0x1e1664203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdx + 30], 2
-	QUAD $0x021f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 2
-	QUAD $0x13167c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r10 + 19], 3
-	QUAD $0x131e7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r11 + 19], 4
-	QUAD $0x132e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r13 + 19], 5
-	QUAD $0x06130e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 19], 6
-	QUAD $0x07133e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 19], 7
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x13267c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r12 + 19], 8
-	QUAD $0x130e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 19], 9
-	QUAD $0x0a131e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 19], 10
-	QUAD $0x13367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 19], 11
-	QUAD $0x133e7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r15 + 19], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d13167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e13067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 19], 14
-	QUAD $0x13067c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r8 + 19], 15
-	QUAD $0x141674203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r10 + 20], 3
-	QUAD $0x141e74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r11 + 20], 4
-	QUAD $0x142e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r13 + 20], 5
-	QUAD $0x06140e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 20], 6
-	QUAD $0x07143e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 20], 7
-	QUAD $0x142674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r12 + 20], 8
-	QUAD $0x140e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 20], 9
-	QUAD $0x0a141e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 20], 10
-	QUAD $0x143674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r14 + 20], 11
-	QUAD $0x143e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 20], 12
-	QUAD $0x0d141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 13
-	QUAD $0x0e140674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 20], 14
-	QUAD $0x0000c024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 192]
-	QUAD $0x140674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r8 + 20], 15
-	QUAD $0x00d024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 208]
-	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
-	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0x740f4166; BYTE $0xf7               // pcmpeqb    xmm6, xmm15
-	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0x151654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r10 + 21], 3
-	QUAD $0x151e54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r11 + 21], 4
-	QUAD $0x152e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r13 + 21], 5
-	QUAD $0x06150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 6
-	QUAD $0x07153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 7
-	QUAD $0x152654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r12 + 21], 8
-	QUAD $0x150e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 21], 9
-	QUAD $0x0a151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 10
-	QUAD $0x153654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 21], 11
-	QUAD $0x153e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 21], 12
-	QUAD $0x0d151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 13
-	QUAD $0x0e150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 14
-	QUAD $0x150654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r8 + 21], 15
-	LONG $0x740f4166; BYTE $0xd7               // pcmpeqb    xmm2, xmm15
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI1_14] */
-	LONG $0xd7db0f66                           // pand    xmm2, xmm7
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0xd5eb0f66                           // por    xmm2, xmm5
-	QUAD $0x16165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 22], 3
-	QUAD $0x161e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r11 + 22], 4
-	QUAD $0x162e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 22], 5
-	QUAD $0x06160e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 22], 6
-	QUAD $0x07163e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 22], 7
-	QUAD $0x16265c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r12 + 22], 8
-	QUAD $0x160e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r9 + 22], 9
-	QUAD $0x0a161e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 22], 10
-	QUAD $0x16365c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r14 + 22], 11
-	QUAD $0x163e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 22], 12
-	QUAD $0x0d16165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 13
-	QUAD $0x0e16065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 22], 14
-	QUAD $0x16065c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r8 + 22], 15
-	QUAD $0x171644203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r10 + 23], 3
-	QUAD $0x171e44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r11 + 23], 4
-	QUAD $0x172e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r13 + 23], 5
-	QUAD $0x170e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 23], 6
-	QUAD $0x173e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rdi + 23], 7
-	QUAD $0x172644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r12 + 23], 8
-	QUAD $0x170e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 23], 9
-	QUAD $0x171e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rbx + 23], 10
-	QUAD $0x173644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 23], 11
-	QUAD $0x173e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 23], 12
-	QUAD $0x171644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rdx + 23], 13
-	QUAD $0x170644203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rax + 23], 14
-	QUAD $0x170644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r8 + 23], 15
-	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
-	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI1_15] */
-	LONG $0xdddb0f66                           // pand    xmm3, xmm5
-	LONG $0x740f4566; BYTE $0xc7               // pcmpeqb    xmm8, xmm15
-	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
-	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	QUAD $0x19164c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r10 + 25], 3
-	QUAD $0x191e4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r11 + 25], 4
-	QUAD $0x192e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r13 + 25], 5
-	QUAD $0x06190e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 25], 6
-	QUAD $0x07193e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 25], 7
-	QUAD $0x19264c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r12 + 25], 8
-	QUAD $0x190e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 25], 9
-	QUAD $0x0a191e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 25], 10
-	QUAD $0x19364c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r14 + 25], 11
-	QUAD $0x193e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 25], 12
-	QUAD $0x0d19164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 13
-	QUAD $0x0e19064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 25], 14
-	QUAD $0x19064c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r8 + 25], 15
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x740f4166; BYTE $0xcf               // pcmpeqb    xmm1, xmm15
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI1_10] */
-	LONG $0xd3db0f66                           // pand    xmm2, xmm3
-	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
-	QUAD $0x181654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r10 + 24], 3
-	QUAD $0x181e54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r11 + 24], 4
-	QUAD $0x182e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r13 + 24], 5
-	QUAD $0x180e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rcx + 24], 6
-	QUAD $0x183e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rdi + 24], 7
-	QUAD $0x182654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r12 + 24], 8
-	QUAD $0x180e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 24], 9
-	QUAD $0x181e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rbx + 24], 10
-	QUAD $0x183654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r14 + 24], 11
-	QUAD $0x183e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 24], 12
-	QUAD $0x181654203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rdx + 24], 13
-	QUAD $0x180654203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rax + 24], 14
-	QUAD $0x180654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r8 + 24], 15
-	LONG $0x740f4566; BYTE $0xd7               // pcmpeqb    xmm10, xmm15
-	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
-	QUAD $0x1a165c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r10 + 26], 3
-	QUAD $0x1a1e5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r11 + 26], 4
-	QUAD $0x1a2e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r13 + 26], 5
-	QUAD $0x1a0e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rcx + 26], 6
-	QUAD $0x1a3e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdi + 26], 7
-	QUAD $0x1a265c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r12 + 26], 8
-	QUAD $0x1a0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 26], 9
-	QUAD $0x1a1e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rbx + 26], 10
-	QUAD $0x1a365c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r14 + 26], 11
-	QUAD $0x1a3e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 26], 12
-	QUAD $0x1a165c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rdx + 26], 13
-	QUAD $0x1a065c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rax + 26], 14
-	QUAD $0x1a065c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r8 + 26], 15
-	LONG $0x740f4566; BYTE $0xdf               // pcmpeqb    xmm11, xmm15
-	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
-	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
-	QUAD $0x1b164c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r10 + 27], 3
-	QUAD $0x1b1e4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r11 + 27], 4
-	QUAD $0x1b2e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r13 + 27], 5
-	QUAD $0x1b0e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rcx + 27], 6
-	QUAD $0x1b3e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rdi + 27], 7
-	QUAD $0x1b264c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r12 + 27], 8
-	QUAD $0x1b0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 27], 9
-	QUAD $0x1b1e4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rbx + 27], 10
-	QUAD $0x1b364c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r14 + 27], 11
-	QUAD $0x1b3e4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r15 + 27], 12
-	QUAD $0x1b164c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdx + 27], 13
-	QUAD $0x1b064c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rax + 27], 14
-	QUAD $0x1b064c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r8 + 27], 15
-	QUAD $0x1c1664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 28], 3
-	QUAD $0x1c1e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r11 + 28], 4
-	QUAD $0x1c2e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r13 + 28], 5
-	QUAD $0x061c0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 28], 6
-	QUAD $0x071c3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 28], 7
-	QUAD $0x1c2664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r12 + 28], 8
-	QUAD $0x1c0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 28], 9
-	QUAD $0x0a1c1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 28], 10
-	QUAD $0x1c3664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 28], 11
-	QUAD $0x1c3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 28], 12
-	QUAD $0x0d1c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 13
-	QUAD $0x0e1c0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 28], 14
-	QUAD $0x1c0664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r8 + 28], 15
-	QUAD $0x1d166c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r10 + 29], 3
-	QUAD $0x1d1e6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r11 + 29], 4
-	QUAD $0x1d2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 29], 5
-	QUAD $0x1d0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 29], 6
-	QUAD $0x1d3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 29], 7
-	QUAD $0x1d266c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r12 + 29], 8
-	QUAD $0x1d0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 29], 9
-	QUAD $0x1d1e6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rbx + 29], 10
-	QUAD $0x1d366c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r14 + 29], 11
-	QUAD $0x1d3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 29], 12
-	QUAD $0x1d166c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rdx + 29], 13
-	QUAD $0x1d066c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rax + 29], 14
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0x740f4566; BYTE $0xcf               // pcmpeqb    xmm9, xmm15
-	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
-	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
-	QUAD $0x1d066c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r8 + 29], 15
-	LONG $0x740f4566; BYTE $0xef               // pcmpeqb    xmm13, xmm15
-	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
-	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
-	QUAD $0x1e1664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r10 + 30], 3
-	QUAD $0x1f1644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 31], 3
-	QUAD $0x1e1e64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r11 + 30], 4
-	QUAD $0x1f1e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 31], 4
-	QUAD $0x1e2e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r13 + 30], 5
-	QUAD $0x1f2e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r13 + 31], 5
-	QUAD $0x1e0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 30], 6
-	QUAD $0x061f0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 31], 6
-	QUAD $0x1e3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 30], 7
-	QUAD $0x071f3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 31], 7
-	QUAD $0x1e2664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r12 + 30], 8
-	QUAD $0x1f2644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r12 + 31], 8
-	QUAD $0x1e0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 30], 9
-	QUAD $0x1f0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 31], 9
-	QUAD $0x1e1e64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rbx + 30], 10
-	QUAD $0x0a1f1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 31], 10
-	QUAD $0x1e3664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r14 + 30], 11
-	QUAD $0x1f3644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 31], 11
-	QUAD $0x1e3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 30], 12
-	QUAD $0x1f3e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 31], 12
-	QUAD $0x1e1664203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rdx + 30], 13
-	QUAD $0x0d1f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 13
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x1e0664203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 31], 14
-	QUAD $0x1e0664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r8 + 30], 15
-	QUAD $0x1f0644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r8 + 31], 15
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x740f4566; BYTE $0xe7               // pcmpeqb    xmm12, xmm15
-	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
-	LONG $0x740f4166; BYTE $0xc7               // pcmpeqb    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0xc6db0f66                           // pand    xmm0, xmm6
-	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
-	QUAD $0x0000e024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 224]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
-	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
-	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
-	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8e54; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm2
-	LONG $0x7f0f41f3; WORD $0x8e1c             // movdqu    oword [r14 + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000f8248c3b48                   // cmp    rcx, qword [rsp + 248]
-	JNE  LBB1_87
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x000000f824bc3b4c                   // cmp    r15, qword [rsp + 248]
-	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	JNE  LBB1_89
-	JMP  LBB1_92
-
-LBB1_66:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
-	QUAD $0x000000f824bc894c             // mov    qword [rsp + 248], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24448948; BYTE $0x50         // mov    qword [rsp + 80], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008824b4894c             // mov    qword [rsp + 136], r14
-
-LBB1_67:
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
-	LONG $0x14b60f42; BYTE $0x3e               // movzx    edx, byte [rsi + r15]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	LONG $0x54b60f42; WORD $0x013e             // movzx    edx, byte [rsi + r15 + 1]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0x54b60f42; WORD $0x023e             // movzx    edx, byte [rsi + r15 + 2]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x54b60f42; WORD $0x033e             // movzx    edx, byte [rsi + r15 + 3]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x54b60f42; WORD $0x043e             // movzx    edx, byte [rsi + r15 + 4]
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0x54b60f42; WORD $0x053e             // movzx    edx, byte [rsi + r15 + 5]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0x54b60f42; WORD $0x063e             // movzx    edx, byte [rsi + r15 + 6]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	LONG $0x54b60f42; WORD $0x073e             // movzx    edx, byte [rsi + r15 + 7]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
-	LONG $0x54b60f42; WORD $0x083e             // movzx    edx, byte [rsi + r15 + 8]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x00012024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 288], xmm0
-	LONG $0x54b60f42; WORD $0x093e             // movzx    edx, byte [rsi + r15 + 9]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x54b60f42; WORD $0x0a3e             // movzx    edx, byte [rsi + r15 + 10]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
-	LONG $0x54b60f42; WORD $0x0b3e             // movzx    edx, byte [rsi + r15 + 11]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	LONG $0x54b60f42; WORD $0x0c3e             // movzx    edx, byte [rsi + r15 + 12]
-	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
-	LONG $0x54b60f42; WORD $0x0d3e             // movzx    edx, byte [rsi + r15 + 13]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	LONG $0x54b60f42; WORD $0x0e3e             // movzx    edx, byte [rsi + r15 + 14]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x247c894c; BYTE $0x38               // mov    qword [rsp + 56], r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x18               // mov    qword [rsp + 24], r13
-	LONG $0x40cf8348                           // or    rdi, 64
-	LONG $0x60c98348                           // or    rcx, 96
-	QUAD $0x00000080248c8948                   // mov    qword [rsp + 128], rcx
-	LONG $0x80ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 128
-	LONG $0xa0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 160
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0xe0c98149; WORD $0x0000; BYTE $0x00 // or    r9, 224
-	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
-	LONG $0x20cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 288
-	LONG $0x40ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 320
-	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	LONG $0x80ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 384
-	LONG $0x24548948; BYTE $0x70               // mov    qword [rsp + 112], rdx
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	QUAD $0x012e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 1
-	QUAD $0x023e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdi], 2
-	QUAD $0x030e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 3
-	QUAD $0x04163c203a0f4666                   // pinsrb    xmm15, byte [rsi + r10], 4
-	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
-	LONG $0x2444894c; BYTE $0x78               // mov    qword [rsp + 120], r8
-	QUAD $0x05063c203a0f4666                   // pinsrb    xmm15, byte [rsi + r8], 5
-	LONG $0x2464894c; BYTE $0x68               // mov    qword [rsp + 104], r12
-	QUAD $0x06263c203a0f4666                   // pinsrb    xmm15, byte [rsi + r12], 6
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	QUAD $0x070e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 7
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	LONG $0x245c894c; BYTE $0x10               // mov    qword [rsp + 16], r11
-	QUAD $0x081e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r11], 8
-	LONG $0x245c8948; BYTE $0x40               // mov    qword [rsp + 64], rbx
-	QUAD $0x091e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rbx], 9
-	LONG $0x2474894c; BYTE $0x60               // mov    qword [rsp + 96], r14
-	QUAD $0x0a363c203a0f4666                   // pinsrb    xmm15, byte [rsi + r14], 10
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0b2e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 11
-	QUAD $0x0c163c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdx], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0d0e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 13
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0e0e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 14
-	QUAD $0x0f063c203a0f4466                   // pinsrb    xmm15, byte [rsi + rax], 15
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	QUAD $0x011e6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r11 + 1], 1
-	QUAD $0x02013e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 1], 2
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x011e6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r11 + 1], 3
-	QUAD $0x01166c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r10 + 1], 4
-	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
-	QUAD $0x013e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r15 + 1], 5
-	QUAD $0x01266c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r12 + 1], 6
-	QUAD $0x01066c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r8 + 1], 7
-	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
-	QUAD $0x010e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r9 + 1], 8
-	QUAD $0x09011e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 1], 9
-	QUAD $0x01366c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r14 + 1], 10
-	QUAD $0x012e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r13 + 1], 11
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x0c01166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 1], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d01166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 1], 13
-	QUAD $0x0e010e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 1], 14
-	QUAD $0x0f01066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 1], 15
-	QUAD $0x00b0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xe9               // pcmpeqb    xmm5, xmm9
-	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
-	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI1_10] */
-	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
-	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0654b60f; BYTE $0x0f               // movzx    edx, byte [rsi + rax + 15]
-	LONG $0x6e0f4466; BYTE $0xf2               // movd    xmm14, edx
-	LONG $0x740f4566; BYTE $0xf9               // pcmpeqb    xmm15, xmm9
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	QUAD $0x01021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 1
-	QUAD $0x02023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 2
-	WORD $0x894d; BYTE $0xdc                   // mov    r12, r11
-	QUAD $0x021e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r11 + 2], 3
-	QUAD $0x021674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r10 + 2], 4
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x05020e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 2], 5
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x021e74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r11 + 2], 6
-	QUAD $0x000000c024bc894c                   // mov    qword [rsp + 192], r15
-	QUAD $0x023e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r15 + 2], 7
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x022e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r13 + 2], 8
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x023674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r14 + 2], 9
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x020e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r9 + 2], 10
-	QUAD $0x020674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r8 + 2], 11
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0c021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 12
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x021674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r10 + 2], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 15
-	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
-	LONG $0x740f4166; BYTE $0xf1               // pcmpeqb    xmm6, xmm9
-	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x0654b60f; BYTE $0x10               // movzx    edx, byte [rsi + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	QUAD $0x01031e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 3], 1
-	QUAD $0x02033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 2
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x032654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r12 + 3], 3
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x032654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r12 + 3], 4
-	QUAD $0x05030e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 3], 5
-	QUAD $0x031e54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r11 + 3], 6
-	QUAD $0x033e54203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r15 + 3], 7
-	QUAD $0x032e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r13 + 3], 8
-	QUAD $0x033654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r14 + 3], 9
-	QUAD $0x030e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 3], 10
-	WORD $0x894d; BYTE $0xce                   // mov    r14, r9
-	QUAD $0x030654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r8 + 3], 11
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x033e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 3], 12
-	QUAD $0x031654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r10 + 3], 13
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x032e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r13 + 3], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f031654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 3], 15
-	QUAD $0x01041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 1
-	QUAD $0x02043e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 4], 2
-	QUAD $0x0304064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 3
-	QUAD $0x04264c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r12 + 4], 4
-	QUAD $0x05040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 5
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	QUAD $0x041e4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rsi + r11 + 4], 6
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x041e4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r11 + 4], 7
-	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
-	QUAD $0x040e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r9 + 4], 8
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x09041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 9
-	QUAD $0x04364c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r14 + 4], 10
-	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
-	QUAD $0x04064c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r8 + 4], 11
-	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
-	QUAD $0x043e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 4], 12
-	QUAD $0x04164c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r10 + 4], 13
-	QUAD $0x042e4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r13 + 4], 14
-	QUAD $0x0f04164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 15
-	WORD $0x8949; BYTE $0xd2                   // mov    r10, rdx
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	LONG $0x1e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rbx + 17]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0xd5db0f66                           // pand    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xc9               // pcmpeqb    xmm1, xmm9
-	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xcddb0f66                           // pand    xmm1, xmm5
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0x1e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rbx + 18]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
-	QUAD $0x050644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r8 + 5], 1
-	QUAD $0x053e44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdi + 5], 2
-	QUAD $0x050644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rax + 5], 3
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x051644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 5], 4
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x051644203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rdx + 5], 5
-	QUAD $0x050e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 5], 6
-	QUAD $0x051e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r11 + 5], 7
-	QUAD $0x050e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r9 + 5], 8
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x050e44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rsi + rcx + 5], 9
-	QUAD $0x052644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r12 + 5], 10
-	QUAD $0x053644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 5], 11
-	QUAD $0x053e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 5], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x050e44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rcx + 5], 13
-	QUAD $0x052e44203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r13 + 5], 14
-	QUAD $0x051644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r10 + 5], 15
-	LONG $0x740f4566; BYTE $0xc1               // pcmpeqb    xmm8, xmm9
-	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI1_14] */
-	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	LONG $0x1e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rbx + 19]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	LONG $0x1e54b60f; BYTE $0x14               // movzx    edx, byte [rsi + rbx + 20]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	QUAD $0x06065c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r8 + 6], 1
-	QUAD $0x02063e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 6], 2
-	QUAD $0x0306065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 3
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x061e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r11 + 6], 4
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x060e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r9 + 6], 5
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	QUAD $0x06065c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r8 + 6], 6
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x06265c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r12 + 6], 7
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0806065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 8
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x09061e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 6], 9
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x06365c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r14 + 6], 10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0b060e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 6], 11
-	QUAD $0x063e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 6], 12
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x06165c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r10 + 6], 13
-	QUAD $0x062e5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r13 + 6], 14
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f060e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 6], 15
-	QUAD $0x0000d024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 208]
-	QUAD $0x01071654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 7], 1
-	QUAD $0x02073e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 7], 2
-	QUAD $0x000000e024bc8948                   // mov    qword [rsp + 224], rdi
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x03070e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 7], 3
-	QUAD $0x071e54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r11 + 7], 4
-	QUAD $0x070e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r9 + 7], 5
-	QUAD $0x070654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r8 + 7], 6
-	QUAD $0x072654203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r12 + 7], 7
-	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
-	QUAD $0x08070654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 7], 8
-	QUAD $0x09071e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 7], 9
-	QUAD $0x073654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r14 + 7], 10
-	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0b070654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 7], 11
-	QUAD $0x073e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 7], 12
-	QUAD $0x071654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r10 + 7], 13
-	QUAD $0x072e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r13 + 7], 14
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x073654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r14 + 7], 15
-	LONG $0x740f4166; BYTE $0xd9               // pcmpeqb    xmm3, xmm9
-	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI1_15] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xd1db0f66                           // pand    xmm2, xmm1
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	LONG $0x1e54b60f; BYTE $0x15               // movzx    edx, byte [rsi + rbx + 21]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x091654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rdx + 9], 1
-	QUAD $0x093e54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdi + 9], 2
-	QUAD $0x090e54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rcx + 9], 3
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x093e54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rdi + 9], 4
-	QUAD $0x090e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r9 + 9], 5
-	QUAD $0x090654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r8 + 9], 6
-	QUAD $0x091e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r11 + 9], 7
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x090e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rcx + 9], 8
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x090e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rcx + 9], 9
-	QUAD $0x092654203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r12 + 9], 10
-	QUAD $0x090654203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rax + 9], 11
-	QUAD $0x093e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 9], 12
-	QUAD $0x091654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r10 + 9], 13
-	QUAD $0x092e54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r13 + 9], 14
-	QUAD $0x093654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r14 + 9], 15
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
-	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
-	LONG $0x1e54b60f; BYTE $0x16               // movzx    edx, byte [rsi + rbx + 22]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	QUAD $0x00012024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 288]
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x081664203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r10 + 8], 1
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x082664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r12 + 8], 2
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x03080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 3
-	QUAD $0x04083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 4
-	QUAD $0x080e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r9 + 8], 5
-	QUAD $0x080664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r8 + 8], 6
-	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
-	QUAD $0x081e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 8], 7
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x08081664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 8], 8
-	QUAD $0x09080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 9
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0a080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 10
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x083664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 8], 11
-	QUAD $0x083e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 8], 12
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0d083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 13
-	QUAD $0x082e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r13 + 8], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 15
-	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	QUAD $0x00a024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 160]
-	QUAD $0x0a1654203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r10 + 10], 1
-	QUAD $0x0a2654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r12 + 10], 2
-	QUAD $0x0a0654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rax + 10], 3
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x0a1e54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r11 + 10], 4
-	QUAD $0x0a0e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r9 + 10], 5
-	QUAD $0x0a0654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r8 + 10], 6
-	QUAD $0x0a1e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rbx + 10], 7
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x0a1654203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rdx + 10], 8
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0a0654203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r8 + 10], 9
-	QUAD $0x0a0e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rcx + 10], 10
-	QUAD $0x0a3654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r14 + 10], 11
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	QUAD $0x0a3e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 10], 12
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0a0e54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rcx + 10], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0a1654203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rdx + 10], 14
-	QUAD $0x0a3e54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rdi + 10], 15
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x3e54b60f; BYTE $0x17               // movzx    edx, byte [rsi + rdi + 23]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x00a024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm10
-	LONG $0x3e54b60f; BYTE $0x18               // movzx    edx, byte [rsi + rdi + 24]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0b165c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rdx + 11], 1
-	QUAD $0x0b265c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rsi + r12 + 11], 2
-	QUAD $0x0b065c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rax + 11], 3
-	QUAD $0x0b1e5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r11 + 11], 4
-	QUAD $0x0b0e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r9 + 11], 5
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0b1e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rbx + 11], 6
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	QUAD $0x0b165c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r10 + 11], 7
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0b165c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r10 + 11], 8
-	QUAD $0x0b065c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r8 + 11], 9
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x0b0e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r9 + 11], 10
-	QUAD $0x0b2e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r13 + 11], 11
-	QUAD $0x0b3e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 11], 12
-	QUAD $0x0b0e5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rcx + 11], 13
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b3e5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rdi + 11], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0b3e5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdi + 11], 15
-	QUAD $0x0c166c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rdx + 12], 1
-	QUAD $0x0c266c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rsi + r12 + 12], 2
-	QUAD $0x0c066c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rsi + rax + 12], 3
-	QUAD $0x0c1e6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r11 + 12], 4
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x0c2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 12], 5
-	QUAD $0x0c1e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rbx + 12], 6
-	QUAD $0x0c366c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r14 + 12], 7
-	QUAD $0x0c166c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r10 + 12], 8
-	QUAD $0x0c066c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r8 + 12], 9
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	QUAD $0x0c0e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r9 + 12], 10
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0c2e6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r13 + 12], 11
-	QUAD $0x0c3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 12], 12
-	QUAD $0x0c0e6c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rcx + 12], 13
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x0c0e6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r9 + 12], 14
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c3e6c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdi + 12], 15
-	QUAD $0x0d1664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rdx + 13], 1
-	QUAD $0x0d2664203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rsi + r12 + 13], 2
-	QUAD $0x0d0664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rax + 13], 3
-	QUAD $0x0d1e64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r11 + 13], 4
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x0d0664203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rsi + rax + 13], 5
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0d1664203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rdx + 13], 6
-	QUAD $0x0d3664203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r14 + 13], 7
-	QUAD $0x0d1664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r10 + 13], 8
-	QUAD $0x0d1e64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rsi + rbx + 13], 9
-	QUAD $0x0d0664203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r8 + 13], 10
-	QUAD $0x0d2e64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r13 + 13], 11
-	QUAD $0x0d3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 13], 12
-	QUAD $0x0d0e64203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rcx + 13], 13
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	QUAD $0x0d0e64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r9 + 13], 14
-	QUAD $0x0d3e64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rdi + 13], 15
-	LONG $0x740f4566; BYTE $0xd9               // pcmpeqb    xmm11, xmm9
-	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0x740f4566; BYTE $0xe9               // pcmpeqb    xmm13, xmm9
-	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	LONG $0x0e54b60f; BYTE $0x19               // movzx    edx, byte [rsi + rcx + 25]
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0x740f4566; BYTE $0xe1               // pcmpeqb    xmm12, xmm9
-	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI1_14] */
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x0e54b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rcx + 26]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x010e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 1
-	QUAD $0x0e2664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r12 + 14], 2
-	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
-	QUAD $0x0e1664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 14], 3
-	QUAD $0x0e1e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r11 + 14], 4
-	QUAD $0x050e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 14], 5
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x060e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 6
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x0e3664203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r14 + 14], 7
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x0e0664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 14], 8
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x0e0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 14], 9
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x0a0e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 14], 10
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0e3664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 14], 11
-	QUAD $0x0e3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 14], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 13
-	QUAD $0x0e2e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r13 + 14], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 15
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0f1674203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rdx + 15], 1
-	QUAD $0x0f2674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r12 + 15], 2
-	QUAD $0x0f1674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r10 + 15], 3
-	QUAD $0x0f1e74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r11 + 15], 4
-	QUAD $0x0f0674203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rax + 15], 5
-	QUAD $0x0f0e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rcx + 15], 6
-	QUAD $0x0f3e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rdi + 15], 7
-	QUAD $0x0f0674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 15], 8
-	QUAD $0x0f0e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 15], 9
-	QUAD $0x0f1e74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rbx + 15], 10
-	QUAD $0x0f3674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 15], 11
-	QUAD $0x0f3e74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r15 + 15], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0f1674203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rdx + 15], 13
-	QUAD $0x0f2e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r13 + 15], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f1674203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rdx + 15], 15
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x10167c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rdx + 16], 1
-	QUAD $0x10267c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r12 + 16], 2
-	QUAD $0x10167c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r10 + 16], 3
-	QUAD $0x101e7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r11 + 16], 4
-	QUAD $0x10067c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rax + 16], 5
-	QUAD $0x100e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rcx + 16], 6
-	QUAD $0x103e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rdi + 16], 7
-	QUAD $0x10067c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r8 + 16], 8
-	QUAD $0x100e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 16], 9
-	QUAD $0x101e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rbx + 16], 10
-	QUAD $0x10367c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r14 + 16], 11
-	QUAD $0x103e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 16], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x10167c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rdx + 16], 13
-	QUAD $0x102e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r13 + 16], 14
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x01111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 1
-	QUAD $0x112644203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r12 + 17], 2
-	QUAD $0x111644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 17], 3
-	QUAD $0x111e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 17], 4
-	QUAD $0x05110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 5
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x06110e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 17], 6
-	QUAD $0x07113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 7
-	QUAD $0x110644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r8 + 17], 8
-	QUAD $0x110e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 17], 9
-	QUAD $0x0a111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 10
-	QUAD $0x113644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 17], 11
-	QUAD $0x113e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 17], 12
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 13
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0e111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 14
-	QUAD $0x00a024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 160]
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x54b60f42; WORD $0x1b26             // movzx    edx, byte [rsi + r12 + 27]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	QUAD $0x00b024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xe5               // pcmpeqb    xmm4, xmm13
-	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI1_15] */
-	LONG $0x740f4566; BYTE $0xf5               // pcmpeqb    xmm14, xmm13
-	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
-	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
-	LONG $0x54b60f42; WORD $0x1c26             // movzx    edx, byte [rsi + r12 + 28]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	QUAD $0x110644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r8 + 17], 15
-	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
-	LONG $0x740f4166; BYTE $0xc5               // pcmpeqb    xmm0, xmm13
-	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI1_10] */
-	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
-	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
-	QUAD $0x00a024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm13
-	LONG $0x54b60f42; WORD $0x1d26             // movzx    edx, byte [rsi + r12 + 29]
-	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
-	QUAD $0x10067c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r8 + 16], 15
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x12266c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r12 + 18], 1
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x0212166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 2
-	QUAD $0x12166c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r10 + 18], 3
-	QUAD $0x121e6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r11 + 18], 4
-	QUAD $0x122e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r13 + 18], 5
-	QUAD $0x06120e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 18], 6
-	QUAD $0x07123e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 18], 7
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0812166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 8
-	QUAD $0x120e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r9 + 18], 9
-	QUAD $0x0a121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 10
-	QUAD $0x12366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 18], 11
-	QUAD $0x123e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 18], 12
-	QUAD $0x0d12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 14
-	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
-	QUAD $0x12066c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r8 + 18], 15
-	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
-	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0654b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	QUAD $0x13267c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rsi + r12 + 19], 1
-	QUAD $0x142674203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r12 + 20], 1
-	QUAD $0x152654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r12 + 21], 1
-	QUAD $0x16265c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r12 + 22], 1
-	QUAD $0x172644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r12 + 23], 1
-	QUAD $0x182654203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r12 + 24], 1
-	QUAD $0x19264c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rsi + r12 + 25], 1
-	QUAD $0x1a265c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rsi + r12 + 26], 1
-	QUAD $0x1b264c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rsi + r12 + 27], 1
-	QUAD $0x1c2664203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r12 + 28], 1
-	QUAD $0x1d266c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r12 + 29], 1
-	QUAD $0x1e2664203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rsi + r12 + 30], 1
-	LONG $0x0654b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rax + 31]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x1f2644203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rsi + r12 + 31], 1
-	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
-	QUAD $0x0213167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 2
-	QUAD $0x02141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 2
-	QUAD $0x02151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 2
-	QUAD $0x0216165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 2
-	QUAD $0x171644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdx + 23], 2
-	QUAD $0x181654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdx + 24], 2
-	QUAD $0x0219164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 2
-	QUAD $0x1a165c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdx + 26], 2
-	QUAD $0x1b164c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdx + 27], 2
-	QUAD $0x021c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 2
-	QUAD $0x1d166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 29], 2
-	QUAD $0x1e1664203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdx + 30], 2
-	QUAD $0x021f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 2
-	QUAD $0x13167c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r10 + 19], 3
-	QUAD $0x131e7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r11 + 19], 4
-	QUAD $0x132e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r13 + 19], 5
-	QUAD $0x06130e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 19], 6
-	QUAD $0x07133e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 19], 7
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x13267c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r12 + 19], 8
-	QUAD $0x130e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 19], 9
-	QUAD $0x0a131e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 19], 10
-	QUAD $0x13367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 19], 11
-	QUAD $0x133e7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r15 + 19], 12
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d13167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 13
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0e13067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 19], 14
-	QUAD $0x13067c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r8 + 19], 15
-	QUAD $0x141674203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r10 + 20], 3
-	QUAD $0x141e74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r11 + 20], 4
-	QUAD $0x142e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r13 + 20], 5
-	QUAD $0x06140e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 20], 6
-	QUAD $0x07143e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 20], 7
-	QUAD $0x142674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r12 + 20], 8
-	QUAD $0x140e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 20], 9
-	QUAD $0x0a141e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 20], 10
-	QUAD $0x143674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r14 + 20], 11
-	QUAD $0x143e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 20], 12
-	QUAD $0x0d141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 13
-	QUAD $0x0e140674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 20], 14
-	QUAD $0x0000a024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 160]
-	QUAD $0x140674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r8 + 20], 15
-	QUAD $0x00b024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
-	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0x740f4166; BYTE $0xf7               // pcmpeqb    xmm6, xmm15
-	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0x151654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r10 + 21], 3
-	QUAD $0x151e54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r11 + 21], 4
-	QUAD $0x152e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r13 + 21], 5
-	QUAD $0x06150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 6
-	QUAD $0x07153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 7
-	QUAD $0x152654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r12 + 21], 8
-	QUAD $0x150e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 21], 9
-	QUAD $0x0a151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 10
-	QUAD $0x153654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 21], 11
-	QUAD $0x153e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 21], 12
-	QUAD $0x0d151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 13
-	QUAD $0x0e150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 14
-	QUAD $0x150654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r8 + 21], 15
-	LONG $0x740f4166; BYTE $0xd7               // pcmpeqb    xmm2, xmm15
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI1_14] */
-	LONG $0xd7db0f66                           // pand    xmm2, xmm7
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0xd5eb0f66                           // por    xmm2, xmm5
-	QUAD $0x16165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 22], 3
-	QUAD $0x161e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r11 + 22], 4
-	QUAD $0x162e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 22], 5
-	QUAD $0x06160e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 22], 6
-	QUAD $0x07163e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 22], 7
-	QUAD $0x16265c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r12 + 22], 8
-	QUAD $0x160e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r9 + 22], 9
-	QUAD $0x0a161e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 22], 10
-	QUAD $0x16365c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r14 + 22], 11
-	QUAD $0x163e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 22], 12
-	QUAD $0x0d16165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 13
-	QUAD $0x0e16065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 22], 14
-	QUAD $0x16065c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r8 + 22], 15
-	QUAD $0x171644203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r10 + 23], 3
-	QUAD $0x171e44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r11 + 23], 4
-	QUAD $0x172e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r13 + 23], 5
-	QUAD $0x170e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 23], 6
-	QUAD $0x173e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rdi + 23], 7
-	QUAD $0x172644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r12 + 23], 8
-	QUAD $0x170e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 23], 9
-	QUAD $0x171e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rbx + 23], 10
-	QUAD $0x173644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 23], 11
-	QUAD $0x173e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 23], 12
-	QUAD $0x171644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rdx + 23], 13
-	QUAD $0x170644203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rax + 23], 14
-	QUAD $0x170644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r8 + 23], 15
-	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
-	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI1_15] */
-	LONG $0xdddb0f66                           // pand    xmm3, xmm5
-	LONG $0x740f4566; BYTE $0xc7               // pcmpeqb    xmm8, xmm15
-	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
-	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	QUAD $0x19164c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r10 + 25], 3
-	QUAD $0x191e4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r11 + 25], 4
-	QUAD $0x192e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r13 + 25], 5
-	QUAD $0x06190e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 25], 6
-	QUAD $0x07193e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 25], 7
-	QUAD $0x19264c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r12 + 25], 8
-	QUAD $0x190e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 25], 9
-	QUAD $0x0a191e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 25], 10
-	QUAD $0x19364c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r14 + 25], 11
-	QUAD $0x193e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 25], 12
-	QUAD $0x0d19164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 13
-	QUAD $0x0e19064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 25], 14
-	QUAD $0x19064c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r8 + 25], 15
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x740f4166; BYTE $0xcf               // pcmpeqb    xmm1, xmm15
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI1_10] */
-	LONG $0xd3db0f66                           // pand    xmm2, xmm3
-	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
-	QUAD $0x181654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r10 + 24], 3
-	QUAD $0x181e54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r11 + 24], 4
-	QUAD $0x182e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r13 + 24], 5
-	QUAD $0x180e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rcx + 24], 6
-	QUAD $0x183e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rdi + 24], 7
-	QUAD $0x182654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r12 + 24], 8
-	QUAD $0x180e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 24], 9
-	QUAD $0x181e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rbx + 24], 10
-	QUAD $0x183654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r14 + 24], 11
-	QUAD $0x183e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 24], 12
-	QUAD $0x181654203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rdx + 24], 13
-	QUAD $0x180654203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rax + 24], 14
-	QUAD $0x180654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r8 + 24], 15
-	LONG $0x740f4566; BYTE $0xd7               // pcmpeqb    xmm10, xmm15
-	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
-	QUAD $0x1a165c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r10 + 26], 3
-	QUAD $0x1a1e5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r11 + 26], 4
-	QUAD $0x1a2e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r13 + 26], 5
-	QUAD $0x1a0e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rcx + 26], 6
-	QUAD $0x1a3e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdi + 26], 7
-	QUAD $0x1a265c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r12 + 26], 8
-	QUAD $0x1a0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 26], 9
-	QUAD $0x1a1e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rbx + 26], 10
-	QUAD $0x1a365c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r14 + 26], 11
-	QUAD $0x1a3e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 26], 12
-	QUAD $0x1a165c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rdx + 26], 13
-	QUAD $0x1a065c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rax + 26], 14
-	QUAD $0x1a065c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r8 + 26], 15
-	LONG $0x740f4566; BYTE $0xdf               // pcmpeqb    xmm11, xmm15
-	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI1_11] */
-	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
-	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
-	QUAD $0x1b164c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r10 + 27], 3
-	QUAD $0x1b1e4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r11 + 27], 4
-	QUAD $0x1b2e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r13 + 27], 5
-	QUAD $0x1b0e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rcx + 27], 6
-	QUAD $0x1b3e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rdi + 27], 7
-	QUAD $0x1b264c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r12 + 27], 8
-	QUAD $0x1b0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 27], 9
-	QUAD $0x1b1e4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rbx + 27], 10
-	QUAD $0x1b364c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r14 + 27], 11
-	QUAD $0x1b3e4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r15 + 27], 12
-	QUAD $0x1b164c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdx + 27], 13
-	QUAD $0x1b064c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rax + 27], 14
-	QUAD $0x1b064c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r8 + 27], 15
-	QUAD $0x1c1664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 28], 3
-	QUAD $0x1c1e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r11 + 28], 4
-	QUAD $0x1c2e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r13 + 28], 5
-	QUAD $0x061c0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 28], 6
-	QUAD $0x071c3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 28], 7
-	QUAD $0x1c2664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r12 + 28], 8
-	QUAD $0x1c0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 28], 9
-	QUAD $0x0a1c1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 28], 10
-	QUAD $0x1c3664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 28], 11
-	QUAD $0x1c3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 28], 12
-	QUAD $0x0d1c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 13
-	QUAD $0x0e1c0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 28], 14
-	QUAD $0x1c0664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r8 + 28], 15
-	QUAD $0x1d166c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r10 + 29], 3
-	QUAD $0x1d1e6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r11 + 29], 4
-	QUAD $0x1d2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 29], 5
-	QUAD $0x1d0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 29], 6
-	QUAD $0x1d3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 29], 7
-	QUAD $0x1d266c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r12 + 29], 8
-	QUAD $0x1d0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 29], 9
-	QUAD $0x1d1e6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rbx + 29], 10
-	QUAD $0x1d366c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r14 + 29], 11
-	QUAD $0x1d3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 29], 12
-	QUAD $0x1d166c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rdx + 29], 13
-	QUAD $0x1d066c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rax + 29], 14
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0x740f4566; BYTE $0xcf               // pcmpeqb    xmm9, xmm15
-	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI1_12] */
-	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
-	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI1_13] */
-	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
-	QUAD $0x1d066c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r8 + 29], 15
-	LONG $0x740f4566; BYTE $0xef               // pcmpeqb    xmm13, xmm15
-	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
-	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
-	QUAD $0x1e1664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r10 + 30], 3
-	QUAD $0x1f1644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 31], 3
-	QUAD $0x1e1e64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r11 + 30], 4
-	QUAD $0x1f1e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 31], 4
-	QUAD $0x1e2e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r13 + 30], 5
-	QUAD $0x1f2e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r13 + 31], 5
-	QUAD $0x1e0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 30], 6
-	QUAD $0x061f0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 31], 6
-	QUAD $0x1e3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 30], 7
-	QUAD $0x071f3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 31], 7
-	QUAD $0x1e2664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r12 + 30], 8
-	QUAD $0x1f2644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r12 + 31], 8
-	QUAD $0x1e0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 30], 9
-	QUAD $0x1f0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 31], 9
-	QUAD $0x1e1e64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rbx + 30], 10
-	QUAD $0x0a1f1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 31], 10
-	QUAD $0x1e3664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r14 + 30], 11
-	QUAD $0x1f3644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 31], 11
-	QUAD $0x1e3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 30], 12
-	QUAD $0x1f3e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 31], 12
-	QUAD $0x1e1664203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rdx + 30], 13
-	QUAD $0x0d1f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 13
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x1e0664203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rax + 30], 14
-	QUAD $0x0e1f0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 31], 14
-	QUAD $0x1e0664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r8 + 30], 15
-	QUAD $0x1f0644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r8 + 31], 15
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x740f4566; BYTE $0xe7               // pcmpeqb    xmm12, xmm15
-	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
-	LONG $0x740f4166; BYTE $0xc7               // pcmpeqb    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0xc6db0f66                           // pand    xmm0, xmm6
-	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
-	QUAD $0x0000d024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 208]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
-	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
-	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
-	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8e54; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm2
-	LONG $0x7f0f41f3; WORD $0x8e1c             // movdqu    oword [r14 + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000f8248c3b48                   // cmp    rcx, qword [rsp + 248]
-	JNE  LBB1_67
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x000000f824bc3b4c                   // cmp    r15, qword [rsp + 248]
-	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	JNE  LBB1_69
-	JMP  LBB1_72
-
-LBB1_110:
-	LONG $0xf8e38349                     // and    r11, -8
-	WORD $0x894c; BYTE $0xd8             // mov    rax, r11
-	LONG $0x06e0c148                     // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	LONG $0x24448948; BYTE $0x40         // mov    qword [rsp + 64], rax
-	LONG $0x245c894c; BYTE $0x10         // mov    qword [rsp + 16], r11
-	LONG $0x9e048d4b                     // lea    rax, [r14 + 4*r11]
-	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
-	LONG $0x246c8944; BYTE $0x38         // mov    dword [rsp + 56], r13d
-	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
-	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
-	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI1_8] */
-	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI1_1] */
-	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI1_2] */
-	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI1_3] */
-	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI1_4] */
-	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI1_5] */
-	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
-	QUAD $0x0000008824b4894c             // mov    qword [rsp + 136], r14
-
-LBB1_111:
-	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	LONG $0x34b70f46; BYTE $0x3e               // movzx    r14d, word [rsi + r15]
-	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
-	LONG $0x54b70f42; WORD $0x043e             // movzx    edx, word [rsi + r15 + 4]
-	LONG $0x5cb70f46; WORD $0x063e             // movzx    r11d, word [rsi + r15 + 6]
-	LONG $0x54b70f46; WORD $0x083e             // movzx    r10d, word [rsi + r15 + 8]
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0xc40f4266; WORD $0x0624; BYTE $0x01 // pinsrw    xmm4, word [rsi + r8], 1
-	LONG $0xc40f4266; WORD $0x0e24; BYTE $0x02 // pinsrw    xmm4, word [rsi + r9], 2
-	LONG $0xc40f4266; WORD $0x2624; BYTE $0x03 // pinsrw    xmm4, word [rsi + r12], 3
-	LONG $0xc40f4266; WORD $0x2e24; BYTE $0x04 // pinsrw    xmm4, word [rsi + r13], 4
-	LONG $0x24c40f66; WORD $0x050e             // pinsrw    xmm4, word [rsi + rcx], 5
-	LONG $0x24c40f66; WORD $0x063e             // pinsrw    xmm4, word [rsi + rdi], 6
-	LONG $0x24c40f66; WORD $0x071e             // pinsrw    xmm4, word [rsi + rbx], 7
-	LONG $0x74b70f46; WORD $0x0a3e             // movzx    r14d, word [rsi + r15 + 10]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	QUAD $0x01020674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 2], 1
-	QUAD $0x02020e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 2], 2
-	QUAD $0x03022674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 2], 3
-	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	QUAD $0x04022e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 2], 4
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x54b70f42; WORD $0x0e3e             // movzx    edx, word [rsi + r15 + 14]
-	LONG $0x74c40f66; WORD $0x020e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 2], 5
-	LONG $0x6e0f4166; BYTE $0xeb               // movd    xmm5, r11d
-	LONG $0x44b70f42; WORD $0x103e             // movzx    eax, word [rsi + r15 + 16]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	LONG $0x74c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 2], 6
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x44b70f42; WORD $0x123e             // movzx    eax, word [rsi + r15 + 18]
-	LONG $0x30244489                           // mov    dword [rsp + 48], eax
-	LONG $0x74c40f66; WORD $0x021e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 2], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xcef80f66                           // psubb    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf6               // movd    xmm6, r14d
-	LONG $0x5cb70f46; WORD $0x143e             // movzx    r11d, word [rsi + r15 + 20]
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	QUAD $0x01040654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 4], 1
-	QUAD $0x02040e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 4], 2
-	QUAD $0x03042654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 4], 3
-	QUAD $0x04042e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 4], 4
-	LONG $0x54c40f66; WORD $0x040e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 4], 5
-	LONG $0x54c40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 4], 6
-	LONG $0x54c40f66; WORD $0x041e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 4], 7
-	QUAD $0x0106066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 6], 1
-	QUAD $0x02060e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 6], 2
-	QUAD $0x0306266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 6], 3
-	QUAD $0x04062e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 6], 4
-	LONG $0x6cc40f66; WORD $0x060e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 6], 5
-	LONG $0x6cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 6], 6
-	LONG $0x6cc40f66; WORD $0x061e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 6], 7
-	QUAD $0x0108065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 8], 1
-	QUAD $0x02080e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 8], 2
-	QUAD $0x0308265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 8], 3
-	QUAD $0x04082e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 8], 4
-	LONG $0x5cc40f66; WORD $0x080e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 8], 5
-	LONG $0x5cc40f66; WORD $0x083e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 8], 6
-	LONG $0x5cc40f66; WORD $0x081e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 8], 7
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
-	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
-	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x54b70f42; WORD $0x183e             // movzx    edx, word [rsi + r15 + 24]
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x1a3e             // movzx    r10d, word [rsi + r15 + 26]
-	QUAD $0x010a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 10], 1
-	QUAD $0x020a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 10], 2
-	QUAD $0x030a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 10], 3
-	QUAD $0x040a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 10], 4
-	LONG $0x74c40f66; WORD $0x0a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 10], 5
-	LONG $0x74c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 10], 6
-	LONG $0x74c40f66; WORD $0x0a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 10], 7
-	QUAD $0x010c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 12], 1
-	QUAD $0x020c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 12], 2
-	QUAD $0x030c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 12], 3
-	QUAD $0x040c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 12], 4
-	LONG $0x7cc40f66; WORD $0x0c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 12], 5
-	LONG $0x7cc40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 12], 6
-	LONG $0x7cc40f66; WORD $0x0c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 12], 7
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x30 // movd    xmm8, dword [rsp + 48]
-	LONG $0x74b70f46; WORD $0x1c3e             // movzx    r14d, word [rsi + r15 + 28]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xeb               // movd    xmm5, r11d
-	LONG $0x5cb70f46; WORD $0x1e3e             // movzx    r11d, word [rsi + r15 + 30]
-	QUAD $0x010e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 14], 1
-	QUAD $0x020e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 14], 2
-	QUAD $0x030e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 14], 3
-	QUAD $0x040e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 14], 4
-	LONG $0x64c40f66; WORD $0x0e0e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rcx + 14], 5
-	LONG $0x64c40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 14], 6
-	LONG $0x64c40f66; WORD $0x0e1e; BYTE $0x07 // pinsrw    xmm4, word [rsi + rbx + 14], 7
-	QUAD $0x01120644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 18], 1
-	QUAD $0x02120e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 18], 2
-	QUAD $0x03122644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 18], 3
-	QUAD $0x04122e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 18], 4
-	QUAD $0x05120e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 18], 5
-	QUAD $0x06123e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 18], 6
-	QUAD $0x07121e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 18], 7
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x203e             // movzx    eax, word [rsi + r15 + 32]
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x750f4466; BYTE $0xc0               // pcmpeqw    xmm8, xmm0
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	LONG $0x54b70f42; WORD $0x223e             // movzx    edx, word [rsi + r15 + 34]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	QUAD $0x0110064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 16], 1
-	QUAD $0x02100e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 16], 2
-	QUAD $0x0310264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 16], 3
-	QUAD $0x04102e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 16], 4
-	LONG $0x4cc40f66; WORD $0x100e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 16], 5
-	LONG $0x4cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 16], 6
-	LONG $0x4cc40f66; WORD $0x101e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 16], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x54b70f46; WORD $0x243e             // movzx    r10d, word [rsi + r15 + 36]
-	QUAD $0x0114066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 20], 1
-	QUAD $0x02140e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 20], 2
-	QUAD $0x0314266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 20], 3
-	QUAD $0x04142e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 20], 4
-	LONG $0x6cc40f66; WORD $0x140e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 20], 5
-	LONG $0x6cc40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 20], 6
-	LONG $0x6cc40f66; WORD $0x141e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 20], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
-	LONG $0x54b70f42; WORD $0x263e             // movzx    edx, word [rsi + r15 + 38]
-	LONG $0x18245489                           // mov    dword [rsp + 24], edx
-	QUAD $0x01160654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 22], 1
-	QUAD $0x02160e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 22], 2
-	QUAD $0x03162654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 22], 3
-	QUAD $0x04162e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 22], 4
-	LONG $0x54c40f66; WORD $0x160e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 22], 5
-	LONG $0x54c40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 22], 6
-	LONG $0x54c40f66; WORD $0x161e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 22], 7
-	QUAD $0x0118065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 24], 1
-	QUAD $0x02180e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 24], 2
-	QUAD $0x0318265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 24], 3
-	QUAD $0x04182e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 24], 4
-	LONG $0x5cc40f66; WORD $0x180e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 24], 5
-	LONG $0x5cc40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 24], 6
-	LONG $0x5cc40f66; WORD $0x181e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 24], 7
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x74b70f46; WORD $0x283e             // movzx    r14d, word [rsi + r15 + 40]
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x5cb70f46; WORD $0x2a3e             // movzx    r11d, word [rsi + r15 + 42]
-	QUAD $0x011a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 26], 1
-	QUAD $0x021a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 26], 2
-	QUAD $0x031a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 26], 3
-	QUAD $0x041a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 26], 4
-	LONG $0x74c40f66; WORD $0x1a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 26], 5
-	LONG $0x74c40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 26], 6
-	LONG $0x74c40f66; WORD $0x1a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 26], 7
-	QUAD $0x011c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 28], 1
-	QUAD $0x021c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 28], 2
-	QUAD $0x031c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 28], 3
-	QUAD $0x041c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 28], 4
-	LONG $0x7cc40f66; WORD $0x1c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 28], 5
-	LONG $0x7cc40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 28], 6
-	LONG $0x7cc40f66; WORD $0x1c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 28], 7
-	QUAD $0x011e0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 30], 1
-	QUAD $0x021e0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 30], 2
-	QUAD $0x031e2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 30], 3
-	QUAD $0x041e2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 30], 4
-	LONG $0x54c40f66; WORD $0x1e0e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 30], 5
-	LONG $0x54c40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 30], 6
-	LONG $0x54c40f66; WORD $0x1e1e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 30], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
-	LONG $0x54b70f42; WORD $0x2c3e             // movzx    edx, word [rsi + r15 + 44]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x44b70f42; WORD $0x2e3e             // movzx    eax, word [rsi + r15 + 46]
-	QUAD $0x0120066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 32], 1
-	QUAD $0x02200e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 32], 2
-	QUAD $0x0320266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 32], 3
-	QUAD $0x04202e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 32], 4
-	LONG $0x6cc40f66; WORD $0x200e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 32], 5
-	LONG $0x6cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 32], 6
-	QUAD $0x0122064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 34], 1
-	QUAD $0x02220e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 34], 2
-	QUAD $0x0322264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 34], 3
-	QUAD $0x04222e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 34], 4
-	LONG $0x4cc40f66; WORD $0x220e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 34], 5
-	LONG $0x4cc40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 34], 6
-	LONG $0x4cc40f66; WORD $0x221e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 34], 7
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
-	LONG $0x5c6e0f66; WORD $0x1824             // movd    xmm3, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x303e             // movzx    r10d, word [rsi + r15 + 48]
-	LONG $0x6cc40f66; WORD $0x201e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 32], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	QUAD $0x01240674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 36], 1
-	QUAD $0x02240e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 36], 2
-	QUAD $0x03242674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 36], 3
-	QUAD $0x04242e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 36], 4
-	LONG $0x74c40f66; WORD $0x240e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 36], 5
-	LONG $0x74c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 36], 6
-	LONG $0x74c40f66; WORD $0x241e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 36], 7
-	QUAD $0x0126065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 38], 1
-	QUAD $0x02260e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 38], 2
-	QUAD $0x0326265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 38], 3
-	QUAD $0x04262e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 38], 4
-	LONG $0x5cc40f66; WORD $0x260e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 38], 5
-	LONG $0x5cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 38], 6
-	LONG $0x5cc40f66; WORD $0x261e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 38], 7
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
-	QUAD $0x0128066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 40], 1
-	QUAD $0x02280e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 40], 2
-	QUAD $0x0328266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 40], 3
-	QUAD $0x04282e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 40], 4
-	LONG $0x6cc40f66; WORD $0x280e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 40], 5
-	LONG $0x6cc40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 40], 6
-	LONG $0x74b70f46; WORD $0x323e             // movzx    r14d, word [rsi + r15 + 50]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
-	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x5cb70f46; WORD $0x343e             // movzx    r11d, word [rsi + r15 + 52]
-	LONG $0x6cc40f66; WORD $0x281e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 40], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
-	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0x54b70f42; WORD $0x363e             // movzx    edx, word [rsi + r15 + 54]
-	QUAD $0x012a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 42], 1
-	QUAD $0x022a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 42], 2
-	QUAD $0x032a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 42], 3
-	QUAD $0x042a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 42], 4
-	LONG $0x4cc40f66; WORD $0x2a0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 42], 5
-	LONG $0x4cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 42], 6
-	LONG $0x4cc40f66; WORD $0x2a1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 42], 7
-	QUAD $0x012c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 44], 1
-	QUAD $0x022c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 44], 2
-	QUAD $0x032c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 44], 3
-	QUAD $0x042c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 44], 4
-	LONG $0x7cc40f66; WORD $0x2c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 44], 5
-	LONG $0x7cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 44], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x44b70f42; WORD $0x383e             // movzx    eax, word [rsi + r15 + 56]
-	LONG $0x7cc40f66; WORD $0x2c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 44], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x54b70f46; WORD $0x3a3e             // movzx    r10d, word [rsi + r15 + 58]
-	QUAD $0x012e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 46], 1
-	QUAD $0x022e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 46], 2
-	QUAD $0x032e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 46], 3
-	QUAD $0x042e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 46], 4
-	LONG $0x5cc40f66; WORD $0x2e0e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 46], 5
-	LONG $0x5cc40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 46], 6
-	LONG $0x5cc40f66; WORD $0x2e1e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 46], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	LONG $0x74b70f46; WORD $0x3c3e             // movzx    r14d, word [rsi + r15 + 60]
-	LONG $0x7cb70f46; WORD $0x3e3e             // movzx    r15d, word [rsi + r15 + 62]
-	QUAD $0x0132064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 1
-	QUAD $0x02320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 2
-	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
-	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
-	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 50], 7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	QUAD $0x01300674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 48], 1
-	QUAD $0x02300e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 48], 2
-	QUAD $0x03302674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 48], 3
-	QUAD $0x04302e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 48], 4
-	LONG $0x74c40f66; WORD $0x300e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 48], 5
-	LONG $0x74c40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 48], 6
-	LONG $0x74c40f66; WORD $0x301e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 48], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	QUAD $0x0134064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 52], 1
-	QUAD $0x02340e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 52], 2
-	QUAD $0x0334264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 52], 3
-	QUAD $0x04342e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 52], 4
-	LONG $0x4cc40f66; WORD $0x340e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 52], 5
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x4cc40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 52], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x4cc40f66; WORD $0x341e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 52], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
-	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	QUAD $0x01360674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 54], 1
-	QUAD $0x02360e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 54], 2
-	QUAD $0x03362674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 54], 3
-	QUAD $0x04362e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 54], 4
-	LONG $0x74c40f66; WORD $0x360e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 54], 5
-	LONG $0x74c40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 54], 6
-	LONG $0x74c40f66; WORD $0x361e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 54], 7
-	QUAD $0x0138066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 56], 1
-	QUAD $0x02380e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 56], 2
-	QUAD $0x0338266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 56], 3
-	QUAD $0x04382e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 56], 4
-	LONG $0x6cc40f66; WORD $0x380e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 56], 5
-	LONG $0x6cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 56], 6
-	LONG $0x6cc40f66; WORD $0x381e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 56], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
-	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	QUAD $0x013a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 58], 1
-	QUAD $0x023a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 58], 2
-	QUAD $0x033a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 58], 3
-	QUAD $0x043a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 58], 4
-	LONG $0x74c40f66; WORD $0x3a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 58], 5
-	LONG $0x74c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 58], 6
-	LONG $0x74c40f66; WORD $0x3a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 58], 7
-	LONG $0xe9eb0f66                           // por    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	QUAD $0x013c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 60], 1
-	QUAD $0x023c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 60], 2
-	QUAD $0x033c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 60], 3
-	QUAD $0x043c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 60], 4
-	LONG $0x4cc40f66; WORD $0x3c0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 60], 5
-	LONG $0x4cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 60], 6
-	LONG $0x4cc40f66; WORD $0x3c1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 60], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
-	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
-	LONG $0xceeb0f66                           // por    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
-	QUAD $0x013e0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 62], 1
-	QUAD $0x023e0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 62], 2
-	QUAD $0x033e2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 62], 3
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x043e2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 62], 4
-	LONG $0x74c40f66; WORD $0x3e0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 62], 5
-	LONG $0x74c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 62], 6
-	LONG $0x74c40f66; WORD $0x3e1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 62], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
-	LONG $0xf1eb0f66                           // por    xmm6, xmm1
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI1_9] */
-	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
-	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
-	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
-	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x10               // cmp    rcx, qword [rsp + 16]
-	JNE  LBB1_111
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	LONG $0x245c3b4c; BYTE $0x10               // cmp    r11, qword [rsp + 16]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	LONG $0x246c8b44; BYTE $0x38               // mov    r13d, dword [rsp + 56]
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	JNE  LBB1_113
-	JMP  LBB1_116
-
-LBB1_133:
-	LONG $0xf8e78349                     // and    r15, -8
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x06e0c148                     // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	LONG $0x24448948; BYTE $0x40         // mov    qword [rsp + 64], rax
-	LONG $0x247c894c; BYTE $0x10         // mov    qword [rsp + 16], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
-	LONG $0x246c8944; BYTE $0x38         // mov    dword [rsp + 56], r13d
-	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
-	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
-	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI1_8] */
-	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI1_1] */
-	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI1_2] */
-	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI1_3] */
-	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI1_4] */
-	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI1_5] */
-	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
-	QUAD $0x0000008824b4894c             // mov    qword [rsp + 136], r14
-
-LBB1_134:
-	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	LONG $0x34b70f46; BYTE $0x3e               // movzx    r14d, word [rsi + r15]
-	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
-	LONG $0x54b70f42; WORD $0x043e             // movzx    edx, word [rsi + r15 + 4]
-	LONG $0x5cb70f46; WORD $0x063e             // movzx    r11d, word [rsi + r15 + 6]
-	LONG $0x54b70f46; WORD $0x083e             // movzx    r10d, word [rsi + r15 + 8]
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0xc40f4266; WORD $0x0624; BYTE $0x01 // pinsrw    xmm4, word [rsi + r8], 1
-	LONG $0xc40f4266; WORD $0x0e24; BYTE $0x02 // pinsrw    xmm4, word [rsi + r9], 2
-	LONG $0xc40f4266; WORD $0x2624; BYTE $0x03 // pinsrw    xmm4, word [rsi + r12], 3
-	LONG $0xc40f4266; WORD $0x2e24; BYTE $0x04 // pinsrw    xmm4, word [rsi + r13], 4
-	LONG $0x24c40f66; WORD $0x050e             // pinsrw    xmm4, word [rsi + rcx], 5
-	LONG $0x24c40f66; WORD $0x063e             // pinsrw    xmm4, word [rsi + rdi], 6
-	LONG $0x24c40f66; WORD $0x071e             // pinsrw    xmm4, word [rsi + rbx], 7
-	LONG $0x74b70f46; WORD $0x0a3e             // movzx    r14d, word [rsi + r15 + 10]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	QUAD $0x01020674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 2], 1
-	QUAD $0x02020e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 2], 2
-	QUAD $0x03022674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 2], 3
-	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	QUAD $0x04022e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 2], 4
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x54b70f42; WORD $0x0e3e             // movzx    edx, word [rsi + r15 + 14]
-	LONG $0x74c40f66; WORD $0x020e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 2], 5
-	LONG $0x6e0f4166; BYTE $0xeb               // movd    xmm5, r11d
-	LONG $0x44b70f42; WORD $0x103e             // movzx    eax, word [rsi + r15 + 16]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	LONG $0x74c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 2], 6
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x44b70f42; WORD $0x123e             // movzx    eax, word [rsi + r15 + 18]
-	LONG $0x30244489                           // mov    dword [rsp + 48], eax
-	LONG $0x74c40f66; WORD $0x021e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 2], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xcef80f66                           // psubb    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf6               // movd    xmm6, r14d
-	LONG $0x5cb70f46; WORD $0x143e             // movzx    r11d, word [rsi + r15 + 20]
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	QUAD $0x01040654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 4], 1
-	QUAD $0x02040e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 4], 2
-	QUAD $0x03042654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 4], 3
-	QUAD $0x04042e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 4], 4
-	LONG $0x54c40f66; WORD $0x040e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 4], 5
-	LONG $0x54c40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 4], 6
-	LONG $0x54c40f66; WORD $0x041e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 4], 7
-	QUAD $0x0106066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 6], 1
-	QUAD $0x02060e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 6], 2
-	QUAD $0x0306266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 6], 3
-	QUAD $0x04062e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 6], 4
-	LONG $0x6cc40f66; WORD $0x060e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 6], 5
-	LONG $0x6cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 6], 6
-	LONG $0x6cc40f66; WORD $0x061e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 6], 7
-	QUAD $0x0108065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 8], 1
-	QUAD $0x02080e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 8], 2
-	QUAD $0x0308265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 8], 3
-	QUAD $0x04082e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 8], 4
-	LONG $0x5cc40f66; WORD $0x080e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 8], 5
-	LONG $0x5cc40f66; WORD $0x083e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 8], 6
-	LONG $0x5cc40f66; WORD $0x081e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 8], 7
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
-	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
-	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x54b70f42; WORD $0x183e             // movzx    edx, word [rsi + r15 + 24]
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x1a3e             // movzx    r10d, word [rsi + r15 + 26]
-	QUAD $0x010a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 10], 1
-	QUAD $0x020a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 10], 2
-	QUAD $0x030a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 10], 3
-	QUAD $0x040a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 10], 4
-	LONG $0x74c40f66; WORD $0x0a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 10], 5
-	LONG $0x74c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 10], 6
-	LONG $0x74c40f66; WORD $0x0a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 10], 7
-	QUAD $0x010c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 12], 1
-	QUAD $0x020c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 12], 2
-	QUAD $0x030c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 12], 3
-	QUAD $0x040c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 12], 4
-	LONG $0x7cc40f66; WORD $0x0c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 12], 5
-	LONG $0x7cc40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 12], 6
-	LONG $0x7cc40f66; WORD $0x0c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 12], 7
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x30 // movd    xmm8, dword [rsp + 48]
-	LONG $0x74b70f46; WORD $0x1c3e             // movzx    r14d, word [rsi + r15 + 28]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xeb               // movd    xmm5, r11d
-	LONG $0x5cb70f46; WORD $0x1e3e             // movzx    r11d, word [rsi + r15 + 30]
-	QUAD $0x010e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 14], 1
-	QUAD $0x020e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 14], 2
-	QUAD $0x030e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 14], 3
-	QUAD $0x040e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 14], 4
-	LONG $0x64c40f66; WORD $0x0e0e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rcx + 14], 5
-	LONG $0x64c40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 14], 6
-	LONG $0x64c40f66; WORD $0x0e1e; BYTE $0x07 // pinsrw    xmm4, word [rsi + rbx + 14], 7
-	QUAD $0x01120644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 18], 1
-	QUAD $0x02120e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 18], 2
-	QUAD $0x03122644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 18], 3
-	QUAD $0x04122e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 18], 4
-	QUAD $0x05120e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 18], 5
-	QUAD $0x06123e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 18], 6
-	QUAD $0x07121e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 18], 7
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x203e             // movzx    eax, word [rsi + r15 + 32]
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x750f4466; BYTE $0xc0               // pcmpeqw    xmm8, xmm0
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	LONG $0x54b70f42; WORD $0x223e             // movzx    edx, word [rsi + r15 + 34]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	QUAD $0x0110064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 16], 1
-	QUAD $0x02100e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 16], 2
-	QUAD $0x0310264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 16], 3
-	QUAD $0x04102e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 16], 4
-	LONG $0x4cc40f66; WORD $0x100e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 16], 5
-	LONG $0x4cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 16], 6
-	LONG $0x4cc40f66; WORD $0x101e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 16], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x54b70f46; WORD $0x243e             // movzx    r10d, word [rsi + r15 + 36]
-	QUAD $0x0114066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 20], 1
-	QUAD $0x02140e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 20], 2
-	QUAD $0x0314266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 20], 3
-	QUAD $0x04142e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 20], 4
-	LONG $0x6cc40f66; WORD $0x140e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 20], 5
-	LONG $0x6cc40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 20], 6
-	LONG $0x6cc40f66; WORD $0x141e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 20], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
-	LONG $0x54b70f42; WORD $0x263e             // movzx    edx, word [rsi + r15 + 38]
-	LONG $0x18245489                           // mov    dword [rsp + 24], edx
-	QUAD $0x01160654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 22], 1
-	QUAD $0x02160e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 22], 2
-	QUAD $0x03162654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 22], 3
-	QUAD $0x04162e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 22], 4
-	LONG $0x54c40f66; WORD $0x160e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 22], 5
-	LONG $0x54c40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 22], 6
-	LONG $0x54c40f66; WORD $0x161e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 22], 7
-	QUAD $0x0118065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 24], 1
-	QUAD $0x02180e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 24], 2
-	QUAD $0x0318265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 24], 3
-	QUAD $0x04182e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 24], 4
-	LONG $0x5cc40f66; WORD $0x180e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 24], 5
-	LONG $0x5cc40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 24], 6
-	LONG $0x5cc40f66; WORD $0x181e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 24], 7
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x74b70f46; WORD $0x283e             // movzx    r14d, word [rsi + r15 + 40]
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x5cb70f46; WORD $0x2a3e             // movzx    r11d, word [rsi + r15 + 42]
-	QUAD $0x011a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 26], 1
-	QUAD $0x021a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 26], 2
-	QUAD $0x031a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 26], 3
-	QUAD $0x041a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 26], 4
-	LONG $0x74c40f66; WORD $0x1a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 26], 5
-	LONG $0x74c40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 26], 6
-	LONG $0x74c40f66; WORD $0x1a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 26], 7
-	QUAD $0x011c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 28], 1
-	QUAD $0x021c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 28], 2
-	QUAD $0x031c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 28], 3
-	QUAD $0x041c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 28], 4
-	LONG $0x7cc40f66; WORD $0x1c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 28], 5
-	LONG $0x7cc40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 28], 6
-	LONG $0x7cc40f66; WORD $0x1c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 28], 7
-	QUAD $0x011e0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 30], 1
-	QUAD $0x021e0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 30], 2
-	QUAD $0x031e2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 30], 3
-	QUAD $0x041e2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 30], 4
-	LONG $0x54c40f66; WORD $0x1e0e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 30], 5
-	LONG $0x54c40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 30], 6
-	LONG $0x54c40f66; WORD $0x1e1e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 30], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
-	LONG $0x54b70f42; WORD $0x2c3e             // movzx    edx, word [rsi + r15 + 44]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x44b70f42; WORD $0x2e3e             // movzx    eax, word [rsi + r15 + 46]
-	QUAD $0x0120066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 32], 1
-	QUAD $0x02200e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 32], 2
-	QUAD $0x0320266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 32], 3
-	QUAD $0x04202e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 32], 4
-	LONG $0x6cc40f66; WORD $0x200e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 32], 5
-	LONG $0x6cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 32], 6
-	QUAD $0x0122064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 34], 1
-	QUAD $0x02220e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 34], 2
-	QUAD $0x0322264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 34], 3
-	QUAD $0x04222e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 34], 4
-	LONG $0x4cc40f66; WORD $0x220e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 34], 5
-	LONG $0x4cc40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 34], 6
-	LONG $0x4cc40f66; WORD $0x221e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 34], 7
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
-	LONG $0x5c6e0f66; WORD $0x1824             // movd    xmm3, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x303e             // movzx    r10d, word [rsi + r15 + 48]
-	LONG $0x6cc40f66; WORD $0x201e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 32], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	QUAD $0x01240674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 36], 1
-	QUAD $0x02240e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 36], 2
-	QUAD $0x03242674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 36], 3
-	QUAD $0x04242e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 36], 4
-	LONG $0x74c40f66; WORD $0x240e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 36], 5
-	LONG $0x74c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 36], 6
-	LONG $0x74c40f66; WORD $0x241e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 36], 7
-	QUAD $0x0126065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 38], 1
-	QUAD $0x02260e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 38], 2
-	QUAD $0x0326265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 38], 3
-	QUAD $0x04262e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 38], 4
-	LONG $0x5cc40f66; WORD $0x260e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 38], 5
-	LONG $0x5cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 38], 6
-	LONG $0x5cc40f66; WORD $0x261e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 38], 7
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
-	QUAD $0x0128066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 40], 1
-	QUAD $0x02280e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 40], 2
-	QUAD $0x0328266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 40], 3
-	QUAD $0x04282e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 40], 4
-	LONG $0x6cc40f66; WORD $0x280e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 40], 5
-	LONG $0x6cc40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 40], 6
-	LONG $0x74b70f46; WORD $0x323e             // movzx    r14d, word [rsi + r15 + 50]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
-	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x5cb70f46; WORD $0x343e             // movzx    r11d, word [rsi + r15 + 52]
-	LONG $0x6cc40f66; WORD $0x281e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 40], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
-	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0x54b70f42; WORD $0x363e             // movzx    edx, word [rsi + r15 + 54]
-	QUAD $0x012a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 42], 1
-	QUAD $0x022a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 42], 2
-	QUAD $0x032a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 42], 3
-	QUAD $0x042a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 42], 4
-	LONG $0x4cc40f66; WORD $0x2a0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 42], 5
-	LONG $0x4cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 42], 6
-	LONG $0x4cc40f66; WORD $0x2a1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 42], 7
-	QUAD $0x012c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 44], 1
-	QUAD $0x022c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 44], 2
-	QUAD $0x032c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 44], 3
-	QUAD $0x042c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 44], 4
-	LONG $0x7cc40f66; WORD $0x2c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 44], 5
-	LONG $0x7cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 44], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x44b70f42; WORD $0x383e             // movzx    eax, word [rsi + r15 + 56]
-	LONG $0x7cc40f66; WORD $0x2c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 44], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x54b70f46; WORD $0x3a3e             // movzx    r10d, word [rsi + r15 + 58]
-	QUAD $0x012e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 46], 1
-	QUAD $0x022e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 46], 2
-	QUAD $0x032e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 46], 3
-	QUAD $0x042e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 46], 4
-	LONG $0x5cc40f66; WORD $0x2e0e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 46], 5
-	LONG $0x5cc40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 46], 6
-	LONG $0x5cc40f66; WORD $0x2e1e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 46], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	LONG $0x74b70f46; WORD $0x3c3e             // movzx    r14d, word [rsi + r15 + 60]
-	LONG $0x7cb70f46; WORD $0x3e3e             // movzx    r15d, word [rsi + r15 + 62]
-	QUAD $0x0132064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 1
-	QUAD $0x02320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 2
-	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
-	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
-	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 50], 7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	QUAD $0x01300674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 48], 1
-	QUAD $0x02300e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 48], 2
-	QUAD $0x03302674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 48], 3
-	QUAD $0x04302e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 48], 4
-	LONG $0x74c40f66; WORD $0x300e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 48], 5
-	LONG $0x74c40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 48], 6
-	LONG $0x74c40f66; WORD $0x301e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 48], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	QUAD $0x0134064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 52], 1
-	QUAD $0x02340e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 52], 2
-	QUAD $0x0334264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 52], 3
-	QUAD $0x04342e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 52], 4
-	LONG $0x4cc40f66; WORD $0x340e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 52], 5
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x4cc40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 52], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x4cc40f66; WORD $0x341e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 52], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
-	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	QUAD $0x01360674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 54], 1
-	QUAD $0x02360e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 54], 2
-	QUAD $0x03362674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 54], 3
-	QUAD $0x04362e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 54], 4
-	LONG $0x74c40f66; WORD $0x360e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 54], 5
-	LONG $0x74c40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 54], 6
-	LONG $0x74c40f66; WORD $0x361e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 54], 7
-	QUAD $0x0138066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 56], 1
-	QUAD $0x02380e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 56], 2
-	QUAD $0x0338266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 56], 3
-	QUAD $0x04382e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 56], 4
-	LONG $0x6cc40f66; WORD $0x380e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 56], 5
-	LONG $0x6cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 56], 6
-	LONG $0x6cc40f66; WORD $0x381e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 56], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
-	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	QUAD $0x013a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 58], 1
-	QUAD $0x023a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 58], 2
-	QUAD $0x033a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 58], 3
-	QUAD $0x043a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 58], 4
-	LONG $0x74c40f66; WORD $0x3a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 58], 5
-	LONG $0x74c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 58], 6
-	LONG $0x74c40f66; WORD $0x3a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 58], 7
-	LONG $0xe9eb0f66                           // por    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	QUAD $0x013c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 60], 1
-	QUAD $0x023c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 60], 2
-	QUAD $0x033c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 60], 3
-	QUAD $0x043c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 60], 4
-	LONG $0x4cc40f66; WORD $0x3c0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 60], 5
-	LONG $0x4cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 60], 6
-	LONG $0x4cc40f66; WORD $0x3c1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 60], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
-	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
-	LONG $0xceeb0f66                           // por    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
-	QUAD $0x013e0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 62], 1
-	QUAD $0x023e0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 62], 2
-	QUAD $0x033e2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 62], 3
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	QUAD $0x043e2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 62], 4
-	LONG $0x74c40f66; WORD $0x3e0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 62], 5
-	LONG $0x74c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 62], 6
-	LONG $0x74c40f66; WORD $0x3e1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 62], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
-	LONG $0xf1eb0f66                           // por    xmm6, xmm1
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI1_9] */
-	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
-	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
-	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
-	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x10               // cmp    rcx, qword [rsp + 16]
-	JNE  LBB1_134
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	LONG $0x247c3b4c; BYTE $0x10               // cmp    r15, qword [rsp + 16]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	LONG $0x246c8b44; BYTE $0x38               // mov    r13d, dword [rsp + 56]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	JNE  LBB1_136
-	JMP  LBB1_139
-
-LBB1_184:
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xf3                   // add    rbx, rsi
-	LONG $0x863c8d4f                           // lea    r15, [r14 + 4*r8]
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
-	LONG $0xfcc68148; WORD $0x0001; BYTE $0x00 // add    rsi, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI1_1] */
-	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI1_2] */
-	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI1_3] */
-	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI1_4] */
-	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI1_5] */
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
-	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI1_7] */
-
-LBB1_185:
-	QUAD $0xfffffe04b6100ff3                   // movss    xmm6, dword [rsi - 508]
-	QUAD $0xfffffe08be100ff3                   // movss    xmm7, dword [rsi - 504]
-	QUAD $0xfffffe0cae100ff3                   // movss    xmm5, dword [rsi - 500]
-	QUAD $0xfffffe10a6100ff3                   // movss    xmm4, dword [rsi - 496]
-	QUAD $0xfffe84b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 380], 16
-	QUAD $0xffff04b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 252], 32
-	LONG $0x213a0f66; WORD $0x8476; BYTE $0x30 // insertps    xmm6, dword [rsi - 124], 48
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	QUAD $0xfffe88be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 376], 16
-	QUAD $0xffff08be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 248], 32
-	LONG $0x213a0f66; WORD $0x887e; BYTE $0x30 // insertps    xmm7, dword [rsi - 120], 48
-	QUAD $0xfffe8cae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 372], 16
-	QUAD $0xffff0cae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 244], 32
-	LONG $0x213a0f66; WORD $0x8c6e; BYTE $0x30 // insertps    xmm5, dword [rsi - 116], 48
-	QUAD $0xfffe90a6213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rsi - 368], 16
-	QUAD $0xffff10a6213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rsi - 240], 32
-	LONG $0x213a0f66; WORD $0x9066; BYTE $0x30 // insertps    xmm4, dword [rsi - 112], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
-	QUAD $0xfffffe14be100ff3                   // movss    xmm7, dword [rsi - 492]
-	QUAD $0xfffe94be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 364], 16
-	QUAD $0xffff14be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 236], 32
-	LONG $0x213a0f66; WORD $0x947e; BYTE $0x30 // insertps    xmm7, dword [rsi - 108], 48
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe18b6100ff3                   // movss    xmm6, dword [rsi - 488]
-	QUAD $0xfffe98b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 360], 16
-	QUAD $0xffff18b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 232], 32
-	LONG $0x213a0f66; WORD $0x9876; BYTE $0x30 // insertps    xmm6, dword [rsi - 104], 48
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe1c9e100ff3                   // movss    xmm3, dword [rsi - 484]
-	QUAD $0xfffe9c9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 356], 16
-	QUAD $0xffff1c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 228], 32
-	LONG $0x213a0f66; WORD $0x9c5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 100], 48
-	LONG $0x00e1c20f                           // cmpeqps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	QUAD $0xfffffe20a6100ff3                   // movss    xmm4, dword [rsi - 480]
-	QUAD $0xfffea0a6213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rsi - 352], 16
-	QUAD $0xffff20a6213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rsi - 224], 32
-	LONG $0x213a0f66; WORD $0xa066; BYTE $0x30 // insertps    xmm4, dword [rsi - 96], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe24ae100ff3                   // movss    xmm5, dword [rsi - 476]
-	QUAD $0xfffea4ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 348], 16
-	QUAD $0xffff24ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 220], 32
-	LONG $0x213a0f66; WORD $0xa46e; BYTE $0x30 // insertps    xmm5, dword [rsi - 92], 48
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe2896100ff3                   // movss    xmm2, dword [rsi - 472]
-	QUAD $0xfffea896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 344], 16
-	QUAD $0xffff2896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 216], 32
-	LONG $0x213a0f66; WORD $0xa856; BYTE $0x30 // insertps    xmm2, dword [rsi - 88], 48
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x00e1c20f                           // cmpeqps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	QUAD $0xfffffe2c9e100ff3                   // movss    xmm3, dword [rsi - 468]
-	QUAD $0xfffeac9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 340], 16
-	QUAD $0xffff2c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 212], 32
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0x213a0f66; WORD $0xac5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 84], 48
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe30be100ff3                   // movss    xmm7, dword [rsi - 464]
-	QUAD $0xfffeb0be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 336], 16
-	QUAD $0xffff30be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 208], 32
-	LONG $0x213a0f66; WORD $0xb07e; BYTE $0x30 // insertps    xmm7, dword [rsi - 80], 48
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe34ae100ff3                   // movss    xmm5, dword [rsi - 460]
-	QUAD $0xfffeb4ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 332], 16
-	QUAD $0xffff34ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 204], 32
-	LONG $0x213a0f66; WORD $0xb46e; BYTE $0x30 // insertps    xmm5, dword [rsi - 76], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe38b6100ff3                   // movss    xmm6, dword [rsi - 456]
-	QUAD $0xfffeb8b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 328], 16
-	QUAD $0xffff38b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 200], 32
-	LONG $0x213a0f66; WORD $0xb876; BYTE $0x30 // insertps    xmm6, dword [rsi - 72], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
-	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0xfffffe3c96100ff3                   // movss    xmm2, dword [rsi - 452]
-	QUAD $0xfffebc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 324], 16
-	QUAD $0xffff3c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 196], 32
-	LONG $0x213a0f66; WORD $0xbc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 68], 48
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	QUAD $0xfffffe40be100ff3                   // movss    xmm7, dword [rsi - 448]
-	QUAD $0xfffec0be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 320], 16
-	QUAD $0xffff40be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 192], 32
-	LONG $0x213a0f66; WORD $0xc07e; BYTE $0x30 // insertps    xmm7, dword [rsi - 64], 48
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe44b6100ff3                   // movss    xmm6, dword [rsi - 444]
-	QUAD $0xfffec4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 316], 16
-	QUAD $0xffff44b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 188], 32
-	LONG $0x213a0f66; WORD $0xc476; BYTE $0x30 // insertps    xmm6, dword [rsi - 60], 48
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
-	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	QUAD $0xfffffe4896100ff3                   // movss    xmm2, dword [rsi - 440]
-	QUAD $0xfffec896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 312], 16
-	QUAD $0xffff4896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 184], 32
-	LONG $0x213a0f66; WORD $0xc856; BYTE $0x30 // insertps    xmm2, dword [rsi - 56], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe4c9e100ff3                   // movss    xmm3, dword [rsi - 436]
-	QUAD $0xfffecc9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 308], 16
-	QUAD $0xffff4c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 180], 32
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x213a0f66; WORD $0xcc5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 52], 48
-	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
-	QUAD $0xfffffe50ae100ff3                   // movss    xmm5, dword [rsi - 432]
-	QUAD $0xfffed0ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 304], 16
-	QUAD $0xffff50ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 176], 32
-	LONG $0x213a0f66; WORD $0xd06e; BYTE $0x30 // insertps    xmm5, dword [rsi - 48], 48
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	QUAD $0xfffffe54b6100ff3                   // movss    xmm6, dword [rsi - 428]
-	QUAD $0xfffed4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 300], 16
-	QUAD $0xffff54b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 172], 32
-	LONG $0x213a0f66; WORD $0xd476; BYTE $0x30 // insertps    xmm6, dword [rsi - 44], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	QUAD $0xfffffe58be100ff3                   // movss    xmm7, dword [rsi - 424]
-	QUAD $0xfffed8be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 296], 16
-	QUAD $0xffff58be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 168], 32
-	LONG $0x213a0f66; WORD $0xd87e; BYTE $0x30 // insertps    xmm7, dword [rsi - 40], 48
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe5c96100ff3                   // movss    xmm2, dword [rsi - 420]
-	QUAD $0xfffedc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 292], 16
-	QUAD $0xffff5c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 164], 32
-	LONG $0x213a0f66; WORD $0xdc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 36], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe60ae100ff3                   // movss    xmm5, dword [rsi - 416]
-	QUAD $0xfffee0ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 288], 16
-	QUAD $0xffff60ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 160], 32
-	LONG $0x213a0f66; WORD $0xe06e; BYTE $0x30 // insertps    xmm5, dword [rsi - 32], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe64be100ff3                   // movss    xmm7, dword [rsi - 412]
-	QUAD $0xfffee4be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 284], 16
-	QUAD $0xffff64be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 156], 32
-	LONG $0x213a0f66; WORD $0xe47e; BYTE $0x30 // insertps    xmm7, dword [rsi - 28], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
-	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe6896100ff3                   // movss    xmm2, dword [rsi - 408]
-	QUAD $0xfffee896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 280], 16
-	QUAD $0xffff6896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 152], 32
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0x213a0f66; WORD $0xe856; BYTE $0x30 // insertps    xmm2, dword [rsi - 24], 48
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe6c9e100ff3                   // movss    xmm3, dword [rsi - 404]
-	QUAD $0xfffeec9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 276], 16
-	QUAD $0xffff6c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 148], 32
-	LONG $0x213a0f66; WORD $0xec5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 20], 48
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0xfffffe7096100ff3                   // movss    xmm2, dword [rsi - 400]
-	QUAD $0xfffef096213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 272], 16
-	QUAD $0xffff7096213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 144], 32
-	LONG $0x213a0f66; WORD $0xf056; BYTE $0x30 // insertps    xmm2, dword [rsi - 16], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe74b6100ff3                   // movss    xmm6, dword [rsi - 396]
-	QUAD $0xfffef4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 268], 16
-	QUAD $0xffff74b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 140], 32
-	LONG $0x213a0f66; WORD $0xf476; BYTE $0x30 // insertps    xmm6, dword [rsi - 12], 48
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	QUAD $0xfffffe78be100ff3                   // movss    xmm7, dword [rsi - 392]
-	QUAD $0xfffef8be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 264], 16
-	QUAD $0xffff78be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 136], 32
-	LONG $0x213a0f66; WORD $0xf87e; BYTE $0x30 // insertps    xmm7, dword [rsi - 8], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe7c96100ff3                   // movss    xmm2, dword [rsi - 388]
-	QUAD $0xfffefc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 260], 16
-	QUAD $0xffff7c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 132], 32
-	LONG $0x213a0f66; WORD $0xfc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 4], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe809e100ff3                   // movss    xmm3, dword [rsi - 384]
-	QUAD $0xffff009e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 256], 16
-	LONG $0x213a0f66; WORD $0x805e; BYTE $0x20 // insertps    xmm3, dword [rsi - 128], 32
-	LONG $0x213a0f66; WORD $0x301e             // insertps    xmm3, dword [rsi], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
-	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
-	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x00c68148; WORD $0x0002; BYTE $0x00 // add    rsi, 512
-	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
-	JNE  LBB1_185
-	WORD $0x394d; BYTE $0xc3                   // cmp    r11, r8
-	JNE  LBB1_187
-	JMP  LBB1_190
-
-DATA LCDATA2<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA2<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA2<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA2<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA2<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA2<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA2<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA2<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA2<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA2<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA2<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA2<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA2<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA2<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA2<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA2<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA2<>+0x080(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA2<>+0x090(SB)/8, $0x0f070e060d050c04
-DATA LCDATA2<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA2<>+0x0a0(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x0a8(SB)/8, $0x0101010101010101
-DATA LCDATA2<>+0x0b0(SB)/8, $0x0404040404040404
-DATA LCDATA2<>+0x0b8(SB)/8, $0x0404040404040404
-DATA LCDATA2<>+0x0c0(SB)/8, $0x0808080808080808
-DATA LCDATA2<>+0x0c8(SB)/8, $0x0808080808080808
-DATA LCDATA2<>+0x0d0(SB)/8, $0x1010101010101010
-DATA LCDATA2<>+0x0d8(SB)/8, $0x1010101010101010
-DATA LCDATA2<>+0x0e0(SB)/8, $0x2020202020202020
-DATA LCDATA2<>+0x0e8(SB)/8, $0x2020202020202020
-DATA LCDATA2<>+0x0f0(SB)/8, $0x4040404040404040
-DATA LCDATA2<>+0x0f8(SB)/8, $0x4040404040404040
-GLOBL LCDATA2<>(SB), 8, $256
-
-TEXT ·_comparison_equal_scalar_arr_sse4(SB), $328-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 304(SP)
-	LEAQ LCDATA2<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0x240c8948         // mov    qword [rsp], rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_17
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_32
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_83
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_95
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_176
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x240c8b4c         // mov    r9, qword [rsp]
-
-LBB2_7:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x31               // movzx    r8d, byte [r9 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x313c8841                           // mov    byte [r9 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_7
-	LONG $0x24048348; BYTE $0x01               // add    qword [rsp], 1
-
-LBB2_9:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_13
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-
-LBB2_11:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000d024b40240                   // add    sil, byte [rsp + 208]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB2_11
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB2_13:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB2_82
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_16:
-	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_16
-	JMP  LBB2_152
-
-LBB2_17:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_46
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_107
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_118
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_176
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x06100ff2         // movsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_25
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_23:
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_23
-	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
-
-LBB2_25:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_29
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-	QUAD $0x000000c024b4894c // mov    qword [rsp + 192], r14
-
-LBB2_27:
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x422e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000b024b40240                   // add    sil, byte [rsp + 176]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x24048b4c                           // mov    r8, qword [rsp]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0x8941; BYTE $0xc3                   // mov    r11d, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x78               // movzx    esi, byte [rsp + 120]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x30                   // mov    byte [r8], r14b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x01488841                           // mov    byte [r8 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02788845                           // mov    byte [r8 + 2], r15b
-	LONG $0x03588841                           // mov    byte [r8 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c08349                           // add    r8, 4
-	LONG $0x2404894c                           // mov    qword [rsp], r8
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB2_27
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-
-LBB2_29:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_161
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB2_163
-
-LBB2_32:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_60
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_176
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_38
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_36:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_36
-	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
-
-LBB2_38:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB2_130
-	LONG $0x10ff8349             // cmp    r15, 16
-	LONG $0x24748844; BYTE $0x08 // mov    byte [rsp + 8], r14b
-	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
-	QUAD $0x000000f024bc894c     // mov    qword [rsp + 240], r15
-	JB   LBB2_42
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	LONG $0x24043948             // cmp    qword [rsp], rax
-	JAE  LBB2_185
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0xb8048d4a             // lea    rax, [rax + 4*r15]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB2_185
-
-LBB2_42:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0x24448948; BYTE $0x68 // mov    qword [rsp + 104], rax
-
-LBB2_43:
-	QUAD $0x000000e824bc2b4c // sub    r15, qword [rsp + 232]
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-
-LBB2_44:
-	WORD $0x8948; BYTE $0xf1             // mov    rcx, rsi
-	WORD $0x3a44; BYTE $0x36             // cmp    r14b, byte [rsi]
-	QUAD $0x000000c02494940f             // sete    byte [rsp + 192]
-	LONG $0x01763a44                     // cmp    r14b, byte [rsi + 1]
-	LONG $0xd7940f40                     // sete    dil
-	LONG $0x02763a44                     // cmp    r14b, byte [rsi + 2]
-	LONG $0xd3940f41                     // sete    r11b
-	LONG $0x03763a44                     // cmp    r14b, byte [rsi + 3]
-	LONG $0xd7940f41                     // sete    r15b
-	LONG $0x04763a44                     // cmp    r14b, byte [rsi + 4]
-	QUAD $0x000000a02494940f             // sete    byte [rsp + 160]
-	LONG $0x05763a44                     // cmp    r14b, byte [rsi + 5]
-	LONG $0x2454940f; BYTE $0x40         // sete    byte [rsp + 64]
-	LONG $0x06763a44                     // cmp    r14b, byte [rsi + 6]
-	WORD $0x940f; BYTE $0xd3             // sete    bl
-	LONG $0x07763a44                     // cmp    r14b, byte [rsi + 7]
-	LONG $0xd5940f41                     // sete    r13b
-	LONG $0x08763a44                     // cmp    r14b, byte [rsi + 8]
-	QUAD $0x000000d02494940f             // sete    byte [rsp + 208]
-	LONG $0x09763a44                     // cmp    r14b, byte [rsi + 9]
-	LONG $0xd6940f40                     // sete    sil
-	LONG $0x0a713a44                     // cmp    r14b, byte [rcx + 10]
-	LONG $0xd0940f41                     // sete    r8b
-	LONG $0x0b713a44                     // cmp    r14b, byte [rcx + 11]
-	LONG $0xd1940f41                     // sete    r9b
-	LONG $0x0c713a44                     // cmp    r14b, byte [rcx + 12]
-	LONG $0xd6940f41                     // sete    r14b
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0x413a; BYTE $0x0d             // cmp    al, byte [rcx + 13]
-	LONG $0xd4940f41                     // sete    r12b
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0x413a; BYTE $0x0e             // cmp    al, byte [rcx + 14]
-	QUAD $0x000000b02494940f             // sete    byte [rsp + 176]
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0x413a; BYTE $0x0f             // cmp    al, byte [rcx + 15]
-	WORD $0x940f; BYTE $0xd0             // sete    al
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x10             // cmp    dl, byte [rcx + 16]
-	LONG $0x2454940f; BYTE $0x78         // sete    byte [rsp + 120]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x11             // cmp    dl, byte [rcx + 17]
-	QUAD $0x000000802494940f             // sete    byte [rsp + 128]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x12             // cmp    dl, byte [rcx + 18]
-	LONG $0x2454940f; BYTE $0x70         // sete    byte [rsp + 112]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x13             // cmp    dl, byte [rcx + 19]
-	LONG $0x2454940f; BYTE $0x60         // sete    byte [rsp + 96]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x14             // cmp    dl, byte [rcx + 20]
-	LONG $0x2454940f; BYTE $0x48         // sete    byte [rsp + 72]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x15             // cmp    dl, byte [rcx + 21]
-	LONG $0x2454940f; BYTE $0x58         // sete    byte [rsp + 88]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x16             // cmp    dl, byte [rcx + 22]
-	LONG $0x2454940f; BYTE $0x50         // sete    byte [rsp + 80]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x17             // cmp    dl, byte [rcx + 23]
-	LONG $0xd2940f41                     // sete    r10b
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x18             // cmp    dl, byte [rcx + 24]
-	LONG $0x2454940f; BYTE $0x38         // sete    byte [rsp + 56]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x19             // cmp    dl, byte [rcx + 25]
-	LONG $0x2454940f; BYTE $0x20         // sete    byte [rsp + 32]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1a             // cmp    dl, byte [rcx + 26]
-	LONG $0x2454940f; BYTE $0x28         // sete    byte [rsp + 40]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1b             // cmp    dl, byte [rcx + 27]
-	LONG $0x2454940f; BYTE $0x18         // sete    byte [rsp + 24]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1c             // cmp    dl, byte [rcx + 28]
-	LONG $0x2454940f; BYTE $0x10         // sete    byte [rsp + 16]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1d             // cmp    dl, byte [rcx + 29]
-	LONG $0x2454940f; BYTE $0x30         // sete    byte [rsp + 48]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1e             // cmp    dl, byte [rcx + 30]
-	LONG $0x2414940f                     // sete    byte [rsp]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1f             // cmp    dl, byte [rcx + 31]
-	WORD $0x940f; BYTE $0xd2             // sete    dl
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	QUAD $0x000000c024bc0240             // add    dil, byte [rsp + 192]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e5c041                     // shl    r13b, 7
-	WORD $0x0841; BYTE $0xdd             // or    r13b, bl
-	LONG $0x02e3c041                     // shl    r11b, 2
-	WORD $0x0841; BYTE $0xfb             // or    r11b, dil
-	WORD $0x0040; BYTE $0xf6             // add    sil, sil
-	QUAD $0x000000d024b40240             // add    sil, byte [rsp + 208]
-	LONG $0x03e7c041                     // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf             // or    r15b, r11b
-	LONG $0x02e0c041                     // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0             // or    r8b, sil
-	QUAD $0x000000a0249cb60f             // movzx    ebx, byte [rsp + 160]
-	WORD $0xe3c0; BYTE $0x04             // shl    bl, 4
-	WORD $0x0844; BYTE $0xfb             // or    bl, r15b
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x03e1c041                     // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1             // or    r9b, r8b
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x05             // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	LONG $0x04e6c041                     // shl    r14b, 4
-	WORD $0x0845; BYTE $0xce             // or    r14b, r9b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xf4             // or    r12b, r14b
-	LONG $0x74b60f44; WORD $0x0824       // movzx    r14d, byte [rsp + 8]
-	QUAD $0x000000b024b4b60f             // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                     // shl    sil, 6
-	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0x0841; BYTE $0xdd             // or    r13b, bl
-	WORD $0x0844; BYTE $0xe0             // or    al, r12b
-	QUAD $0x00000080249cb60f             // movzx    ebx, byte [rsp + 128]
-	WORD $0xdb00                         // add    bl, bl
-	LONG $0x78245c02                     // add    bl, byte [rsp + 120]
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x70         // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x02             // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x60         // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x03             // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x48         // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x04             // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x58         // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x05             // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	LONG $0x247c8b48; BYTE $0x68         // mov    rdi, qword [rsp + 104]
-	WORD $0x8844; BYTE $0x2f             // mov    byte [rdi], r13b
-	LONG $0x2474b60f; BYTE $0x50         // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                     // shl    sil, 6
-	LONG $0x07e2c041                     // shl    r10b, 7
-	WORD $0x0841; BYTE $0xf2             // or    r10b, sil
-	WORD $0x4788; BYTE $0x01             // mov    byte [rdi + 1], al
-	WORD $0x0841; BYTE $0xda             // or    r10b, bl
-	LONG $0x2444b60f; BYTE $0x20         // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                         // add    al, al
-	LONG $0x38244402                     // add    al, byte [rsp + 56]
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18         // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10         // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0xd808                         // or    al, bl
-	LONG $0x241cb60f                     // movzx    ebx, byte [rsp]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07             // shl    dl, 7
-	WORD $0xda08                         // or    dl, bl
-	WORD $0xc208                         // or    dl, al
-	LONG $0x02578844                     // mov    byte [rdi + 2], r10b
-	WORD $0x5788; BYTE $0x03             // mov    byte [rdi + 3], dl
-	LONG $0x20718d48                     // lea    rsi, [rcx + 32]
-	LONG $0x04c78348                     // add    rdi, 4
-	LONG $0x247c8948; BYTE $0x68         // mov    qword [rsp + 104], rdi
-	QUAD $0x0000008824848348; BYTE $0xff // add    qword [rsp + 136], -1
-	JNE  LBB2_44
-	QUAD $0x0000009024948b4c             // mov    r10, qword [rsp + 144]
-	QUAD $0x000000f024bc8b4c             // mov    r15, qword [rsp + 240]
-	JMP  LBB2_131
-
-LBB2_46:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_72
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_176
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_52
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x240c8b4c         // mov    r9, qword [rsp]
-
-LBB2_50:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x31               // movzx    r8d, byte [r9 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x313c8841                           // mov    byte [r9 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_50
-	LONG $0x24048348; BYTE $0x01               // add    qword [rsp], 1
-
-LBB2_52:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_56
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-
-LBB2_54:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000d024b40240                   // add    sil, byte [rsp + 208]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB2_54
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB2_56:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JE   LBB2_117
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_59:
-	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_59
-	JMP  LBB2_167
-
-LBB2_60:
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_64
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_62:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_62
-	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
-
-LBB2_64:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB2_134
-	LONG $0x10ff8349             // cmp    r15, 16
-	LONG $0x24748844; BYTE $0x08 // mov    byte [rsp + 8], r14b
-	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
-	QUAD $0x000000f024bc894c     // mov    qword [rsp + 240], r15
-	JB   LBB2_68
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
-	LONG $0x24043948             // cmp    qword [rsp], rax
-	JAE  LBB2_188
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0xb8048d4a             // lea    rax, [rax + 4*r15]
-	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
-	JAE  LBB2_188
-
-LBB2_68:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0x24448948; BYTE $0x68 // mov    qword [rsp + 104], rax
-
-LBB2_69:
-	QUAD $0x000000e824bc2b4c // sub    r15, qword [rsp + 232]
-	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
-
-LBB2_70:
-	WORD $0x8948; BYTE $0xf1             // mov    rcx, rsi
-	WORD $0x3a44; BYTE $0x36             // cmp    r14b, byte [rsi]
-	QUAD $0x000000c02494940f             // sete    byte [rsp + 192]
-	LONG $0x01763a44                     // cmp    r14b, byte [rsi + 1]
-	LONG $0xd7940f40                     // sete    dil
-	LONG $0x02763a44                     // cmp    r14b, byte [rsi + 2]
-	LONG $0xd3940f41                     // sete    r11b
-	LONG $0x03763a44                     // cmp    r14b, byte [rsi + 3]
-	LONG $0xd7940f41                     // sete    r15b
-	LONG $0x04763a44                     // cmp    r14b, byte [rsi + 4]
-	QUAD $0x000000a02494940f             // sete    byte [rsp + 160]
-	LONG $0x05763a44                     // cmp    r14b, byte [rsi + 5]
-	LONG $0x2454940f; BYTE $0x40         // sete    byte [rsp + 64]
-	LONG $0x06763a44                     // cmp    r14b, byte [rsi + 6]
-	WORD $0x940f; BYTE $0xd3             // sete    bl
-	LONG $0x07763a44                     // cmp    r14b, byte [rsi + 7]
-	LONG $0xd5940f41                     // sete    r13b
-	LONG $0x08763a44                     // cmp    r14b, byte [rsi + 8]
-	QUAD $0x000000d02494940f             // sete    byte [rsp + 208]
-	LONG $0x09763a44                     // cmp    r14b, byte [rsi + 9]
-	LONG $0xd6940f40                     // sete    sil
-	LONG $0x0a713a44                     // cmp    r14b, byte [rcx + 10]
-	LONG $0xd0940f41                     // sete    r8b
-	LONG $0x0b713a44                     // cmp    r14b, byte [rcx + 11]
-	LONG $0xd1940f41                     // sete    r9b
-	LONG $0x0c713a44                     // cmp    r14b, byte [rcx + 12]
-	LONG $0xd6940f41                     // sete    r14b
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0x413a; BYTE $0x0d             // cmp    al, byte [rcx + 13]
-	LONG $0xd4940f41                     // sete    r12b
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0x413a; BYTE $0x0e             // cmp    al, byte [rcx + 14]
-	QUAD $0x000000b02494940f             // sete    byte [rsp + 176]
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0x413a; BYTE $0x0f             // cmp    al, byte [rcx + 15]
-	WORD $0x940f; BYTE $0xd0             // sete    al
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x10             // cmp    dl, byte [rcx + 16]
-	LONG $0x2454940f; BYTE $0x78         // sete    byte [rsp + 120]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x11             // cmp    dl, byte [rcx + 17]
-	QUAD $0x000000802494940f             // sete    byte [rsp + 128]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x12             // cmp    dl, byte [rcx + 18]
-	LONG $0x2454940f; BYTE $0x70         // sete    byte [rsp + 112]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x13             // cmp    dl, byte [rcx + 19]
-	LONG $0x2454940f; BYTE $0x60         // sete    byte [rsp + 96]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x14             // cmp    dl, byte [rcx + 20]
-	LONG $0x2454940f; BYTE $0x48         // sete    byte [rsp + 72]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x15             // cmp    dl, byte [rcx + 21]
-	LONG $0x2454940f; BYTE $0x58         // sete    byte [rsp + 88]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x16             // cmp    dl, byte [rcx + 22]
-	LONG $0x2454940f; BYTE $0x50         // sete    byte [rsp + 80]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x17             // cmp    dl, byte [rcx + 23]
-	LONG $0xd2940f41                     // sete    r10b
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x18             // cmp    dl, byte [rcx + 24]
-	LONG $0x2454940f; BYTE $0x38         // sete    byte [rsp + 56]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x19             // cmp    dl, byte [rcx + 25]
-	LONG $0x2454940f; BYTE $0x20         // sete    byte [rsp + 32]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1a             // cmp    dl, byte [rcx + 26]
-	LONG $0x2454940f; BYTE $0x28         // sete    byte [rsp + 40]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1b             // cmp    dl, byte [rcx + 27]
-	LONG $0x2454940f; BYTE $0x18         // sete    byte [rsp + 24]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1c             // cmp    dl, byte [rcx + 28]
-	LONG $0x2454940f; BYTE $0x10         // sete    byte [rsp + 16]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1d             // cmp    dl, byte [rcx + 29]
-	LONG $0x2454940f; BYTE $0x30         // sete    byte [rsp + 48]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1e             // cmp    dl, byte [rcx + 30]
-	LONG $0x2414940f                     // sete    byte [rsp]
-	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
-	WORD $0x513a; BYTE $0x1f             // cmp    dl, byte [rcx + 31]
-	WORD $0x940f; BYTE $0xd2             // sete    dl
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	QUAD $0x000000c024bc0240             // add    dil, byte [rsp + 192]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e5c041                     // shl    r13b, 7
-	WORD $0x0841; BYTE $0xdd             // or    r13b, bl
-	LONG $0x02e3c041                     // shl    r11b, 2
-	WORD $0x0841; BYTE $0xfb             // or    r11b, dil
-	WORD $0x0040; BYTE $0xf6             // add    sil, sil
-	QUAD $0x000000d024b40240             // add    sil, byte [rsp + 208]
-	LONG $0x03e7c041                     // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf             // or    r15b, r11b
-	LONG $0x02e0c041                     // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0             // or    r8b, sil
-	QUAD $0x000000a0249cb60f             // movzx    ebx, byte [rsp + 160]
-	WORD $0xe3c0; BYTE $0x04             // shl    bl, 4
-	WORD $0x0844; BYTE $0xfb             // or    bl, r15b
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x03e1c041                     // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1             // or    r9b, r8b
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x05             // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	LONG $0x04e6c041                     // shl    r14b, 4
-	WORD $0x0845; BYTE $0xce             // or    r14b, r9b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xf4             // or    r12b, r14b
-	LONG $0x74b60f44; WORD $0x0824       // movzx    r14d, byte [rsp + 8]
-	QUAD $0x000000b024b4b60f             // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                     // shl    sil, 6
-	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0x0841; BYTE $0xdd             // or    r13b, bl
-	WORD $0x0844; BYTE $0xe0             // or    al, r12b
-	QUAD $0x00000080249cb60f             // movzx    ebx, byte [rsp + 128]
-	WORD $0xdb00                         // add    bl, bl
-	LONG $0x78245c02                     // add    bl, byte [rsp + 120]
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x70         // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x02             // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x60         // movzx    ebx, byte [rsp + 96]
-	WORD $0xe3c0; BYTE $0x03             // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x48         // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x04             // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	WORD $0xde89                         // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x58         // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x05             // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3             // or    bl, sil
-	LONG $0x247c8b48; BYTE $0x68         // mov    rdi, qword [rsp + 104]
-	WORD $0x8844; BYTE $0x2f             // mov    byte [rdi], r13b
-	LONG $0x2474b60f; BYTE $0x50         // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                     // shl    sil, 6
-	LONG $0x07e2c041                     // shl    r10b, 7
-	WORD $0x0841; BYTE $0xf2             // or    r10b, sil
-	WORD $0x4788; BYTE $0x01             // mov    byte [rdi + 1], al
-	WORD $0x0841; BYTE $0xda             // or    r10b, bl
-	LONG $0x2444b60f; BYTE $0x20         // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                         // add    al, al
-	LONG $0x38244402                     // add    al, byte [rsp + 56]
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18         // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10         // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc389                         // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0xd808                         // or    al, bl
-	LONG $0x241cb60f                     // movzx    ebx, byte [rsp]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07             // shl    dl, 7
-	WORD $0xda08                         // or    dl, bl
-	WORD $0xc208                         // or    dl, al
-	LONG $0x02578844                     // mov    byte [rdi + 2], r10b
-	WORD $0x5788; BYTE $0x03             // mov    byte [rdi + 3], dl
-	LONG $0x20718d48                     // lea    rsi, [rcx + 32]
-	LONG $0x04c78348                     // add    rdi, 4
-	LONG $0x247c8948; BYTE $0x68         // mov    qword [rsp + 104], rdi
-	QUAD $0x0000008824848348; BYTE $0xff // add    qword [rsp + 136], -1
-	JNE  LBB2_70
-	QUAD $0x0000009024948b4c             // mov    r10, qword [rsp + 144]
-	QUAD $0x000000f024bc8b4c             // mov    r15, qword [rsp + 240]
-	JMP  LBB2_135
-
-LBB2_72:
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_76
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x240c8b4c         // mov    r9, qword [rsp]
-
-LBB2_74:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x31               // movzx    r8d, byte [r9 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x313c8841                           // mov    byte [r9 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_74
-	LONG $0x24048348; BYTE $0x01               // add    qword [rsp], 1
-
-LBB2_76:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_80
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-
-LBB2_78:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000d024b40240                   // add    sil, byte [rsp + 208]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB2_78
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB2_80:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB2_150
-
-LBB2_82:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB2_152
-
-LBB2_83:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_87
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_85:
-	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_85
-	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
-
-LBB2_87:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_138
-	LONG $0x08fe8349         // cmp    r14, 8
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
-	JB   LBB2_91
-	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	LONG $0x24043948         // cmp    qword [rsp], rax
-	JAE  LBB2_191
-	LONG $0x24048b48         // mov    rax, qword [rsp]
-	LONG $0xb0048d4a         // lea    rax, [rax + 4*r14]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB2_191
-
-LBB2_91:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x20 // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0x24448948; BYTE $0x08 // mov    qword [rsp + 8], rax
-
-LBB2_92:
-	LONG $0x24742b4c; BYTE $0x20 // sub    r14, qword [rsp + 32]
-	QUAD $0x0000008824b4894c     // mov    qword [rsp + 136], r14
-
-LBB2_93:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e3b4466                           // cmp    r13w, word [rsi]
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x6e3b4466; BYTE $0x02               // cmp    r13w, word [rsi + 2]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x6e3b4466; BYTE $0x04               // cmp    r13w, word [rsi + 4]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x6e3b4466; BYTE $0x06               // cmp    r13w, word [rsi + 6]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x6e3b4466; BYTE $0x08               // cmp    r13w, word [rsi + 8]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x6e3b4466; BYTE $0x0a               // cmp    r13w, word [rsi + 10]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x6e3b4466; BYTE $0x0c               // cmp    r13w, word [rsi + 12]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x6e3b4466; BYTE $0x0e               // cmp    r13w, word [rsi + 14]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x6e3b4466; BYTE $0x10               // cmp    r13w, word [rsi + 16]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x6e3b4466; BYTE $0x12               // cmp    r13w, word [rsi + 18]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x6e3b4466; BYTE $0x14               // cmp    r13w, word [rsi + 20]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x6e3b4466; BYTE $0x16               // cmp    r13w, word [rsi + 22]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x6b3b4566; BYTE $0x18               // cmp    r13w, word [r11 + 24]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x6b3b4566; BYTE $0x1a               // cmp    r13w, word [r11 + 26]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x6b3b4566; BYTE $0x1c               // cmp    r13w, word [r11 + 28]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x6b3b4566; BYTE $0x1e               // cmp    r13w, word [r11 + 30]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x6b3b4566; BYTE $0x20               // cmp    r13w, word [r11 + 32]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6b3b4566; BYTE $0x22               // cmp    r13w, word [r11 + 34]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x6b3b4566; BYTE $0x24               // cmp    r13w, word [r11 + 36]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x6b3b4566; BYTE $0x26               // cmp    r13w, word [r11 + 38]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x6b3b4566; BYTE $0x28               // cmp    r13w, word [r11 + 40]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x6b3b4566; BYTE $0x2a               // cmp    r13w, word [r11 + 42]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x6b3b4566; BYTE $0x2c               // cmp    r13w, word [r11 + 44]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x6b3b4566; BYTE $0x2e               // cmp    r13w, word [r11 + 46]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x6b3b4566; BYTE $0x30               // cmp    r13w, word [r11 + 48]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x6b3b4566; BYTE $0x32               // cmp    r13w, word [r11 + 50]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6b3b4566; BYTE $0x34               // cmp    r13w, word [r11 + 52]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6b3b4566; BYTE $0x36               // cmp    r13w, word [r11 + 54]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x6b3b4566; BYTE $0x38               // cmp    r13w, word [r11 + 56]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6b3b4566; BYTE $0x3a               // cmp    r13w, word [r11 + 58]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x6b3b4566; BYTE $0x3c               // cmp    r13w, word [r11 + 60]
-	LONG $0x2414940f                           // sete    byte [rsp]
-	LONG $0x6b3b4566; BYTE $0x3e               // cmp    r13w, word [r11 + 62]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xd0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 208]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xca08                               // or    dl, cl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0xcf89                               // mov    edi, ecx
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	LONG $0x04e1c041                           // shl    r9b, 4
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
-	WORD $0x0845; BYTE $0xe0                   // or    r8b, r12b
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x48244c02                           // add    cl, byte [rsp + 72]
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x8844; BYTE $0x11                   // mov    byte [rcx], r10b
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x01418844                           // mov    byte [rcx + 1], r8b
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
-	WORD $0x5988; BYTE $0x03                   // mov    byte [rcx + 3], bl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB2_93
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	JMP  LBB2_139
-
-LBB2_95:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_99
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_97:
-	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_97
-	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
-
-LBB2_99:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_142
-	LONG $0x08ff8349         // cmp    r15, 8
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
-	JB   LBB2_103
-	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	LONG $0x24043948         // cmp    qword [rsp], rax
-	JAE  LBB2_194
-	LONG $0x24048b48         // mov    rax, qword [rsp]
-	LONG $0xb8048d4a         // lea    rax, [rax + 4*r15]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB2_194
-
-LBB2_103:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x20 // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	LONG $0x24348b4c             // mov    r14, qword [rsp]
-
-LBB2_104:
-	LONG $0x2474894c; BYTE $0x08 // mov    qword [rsp + 8], r14
-	LONG $0x247c2b4c; BYTE $0x20 // sub    r15, qword [rsp + 32]
-	QUAD $0x0000008824bc894c     // mov    qword [rsp + 136], r15
-
-LBB2_105:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e3b4466                           // cmp    r13w, word [rsi]
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x6e3b4466; BYTE $0x02               // cmp    r13w, word [rsi + 2]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x6e3b4466; BYTE $0x04               // cmp    r13w, word [rsi + 4]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x6e3b4466; BYTE $0x06               // cmp    r13w, word [rsi + 6]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x6e3b4466; BYTE $0x08               // cmp    r13w, word [rsi + 8]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x6e3b4466; BYTE $0x0a               // cmp    r13w, word [rsi + 10]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x6e3b4466; BYTE $0x0c               // cmp    r13w, word [rsi + 12]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x6e3b4466; BYTE $0x0e               // cmp    r13w, word [rsi + 14]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x6e3b4466; BYTE $0x10               // cmp    r13w, word [rsi + 16]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x6e3b4466; BYTE $0x12               // cmp    r13w, word [rsi + 18]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x6e3b4466; BYTE $0x14               // cmp    r13w, word [rsi + 20]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x6e3b4466; BYTE $0x16               // cmp    r13w, word [rsi + 22]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x6b3b4566; BYTE $0x18               // cmp    r13w, word [r11 + 24]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x6b3b4566; BYTE $0x1a               // cmp    r13w, word [r11 + 26]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x6b3b4566; BYTE $0x1c               // cmp    r13w, word [r11 + 28]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x6b3b4566; BYTE $0x1e               // cmp    r13w, word [r11 + 30]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x6b3b4566; BYTE $0x20               // cmp    r13w, word [r11 + 32]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x6b3b4566; BYTE $0x22               // cmp    r13w, word [r11 + 34]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x6b3b4566; BYTE $0x24               // cmp    r13w, word [r11 + 36]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x6b3b4566; BYTE $0x26               // cmp    r13w, word [r11 + 38]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x6b3b4566; BYTE $0x28               // cmp    r13w, word [r11 + 40]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x6b3b4566; BYTE $0x2a               // cmp    r13w, word [r11 + 42]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x6b3b4566; BYTE $0x2c               // cmp    r13w, word [r11 + 44]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x6b3b4566; BYTE $0x2e               // cmp    r13w, word [r11 + 46]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x6b3b4566; BYTE $0x30               // cmp    r13w, word [r11 + 48]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x6b3b4566; BYTE $0x32               // cmp    r13w, word [r11 + 50]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x6b3b4566; BYTE $0x34               // cmp    r13w, word [r11 + 52]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6b3b4566; BYTE $0x36               // cmp    r13w, word [r11 + 54]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x6b3b4566; BYTE $0x38               // cmp    r13w, word [r11 + 56]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x6b3b4566; BYTE $0x3a               // cmp    r13w, word [r11 + 58]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x6b3b4566; BYTE $0x3c               // cmp    r13w, word [r11 + 60]
-	LONG $0x2414940f                           // sete    byte [rsp]
-	LONG $0x6b3b4566; BYTE $0x3e               // cmp    r13w, word [r11 + 62]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xd0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 208]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xca08                               // or    dl, cl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0xcf89                               // mov    edi, ecx
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	LONG $0x04e1c041                           // shl    r9b, 4
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
-	WORD $0x0845; BYTE $0xe0                   // or    r8b, r12b
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x48244c02                           // add    cl, byte [rsp + 72]
-	WORD $0xca89                               // mov    edx, ecx
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x8844; BYTE $0x11                   // mov    byte [rcx], r10b
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x01418844                           // mov    byte [rcx + 1], r8b
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
-	WORD $0x5988; BYTE $0x03                   // mov    byte [rcx + 3], bl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB2_105
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	LONG $0x24748b4c; BYTE $0x08               // mov    r14, qword [rsp + 8]
-	JMP  LBB2_143
-
-LBB2_107:
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_111
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x240c8b4c         // mov    r9, qword [rsp]
-
-LBB2_109:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x31               // movzx    r8d, byte [r9 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x313c8841                           // mov    byte [r9 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB2_109
-	LONG $0x24048348; BYTE $0x01               // add    qword [rsp], 1
-
-LBB2_111:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_115
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-
-LBB2_113:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x940f; BYTE $0xd3                   // sete    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000d024b40240                   // add    sil, byte [rsp + 208]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
-	JNE  LBB2_113
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-
-LBB2_115:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB2_165
-
-LBB2_117:
-	WORD $0xff31  // xor    edi, edi
-	JMP  LBB2_167
-
-LBB2_118:
-	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xf2490f4d         // cmovns    r14, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x06100ff3         // movss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB2_122
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_120:
-	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB2_120
-	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
-
-LBB2_122:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB2_146
-	LONG $0x04fe8349         // cmp    r14, 4
-	JB   LBB2_126
-	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	LONG $0x24043948         // cmp    qword [rsp], rax
-	JAE  LBB2_197
-	LONG $0x24048b48         // mov    rax, qword [rsp]
-	LONG $0xb0048d4a         // lea    rax, [rax + 4*r14]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB2_197
-
-LBB2_126:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_127:
-	LONG $0x241c894c         // mov    qword [rsp], r11
-	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
-	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
-	WORD $0x294d; BYTE $0xc6 // sub    r14, r8
-	QUAD $0x000000c024b4894c // mov    qword [rsp + 192], r14
-
-LBB2_128:
-	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
-	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
-	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd0940f41                           // sete    r8b
-	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
-	LONG $0xd6940f41                           // sete    r14b
-	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
-	LONG $0xd5940f41                           // sete    r13b
-	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
-	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
-	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
-	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
-	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
-	WORD $0x940f; BYTE $0xd0                   // sete    al
-	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
-	LONG $0xd3940f41                           // sete    r11b
-	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
-	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
-	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
-	WORD $0x940f; BYTE $0xd2                   // sete    dl
-	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
-	LONG $0xd6940f40                           // sete    sil
-	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
-	LONG $0xd7940f40                           // sete    dil
-	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
-	LONG $0xd2940f41                           // sete    r10b
-	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
-	LONG $0xd4940f41                           // sete    r12b
-	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
-	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
-	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
-	LONG $0xd1940f41                           // sete    r9b
-	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
-	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
-	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
-	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
-	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
-	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
-	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
-	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
-	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
-	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
-	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
-	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
-	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
-	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
-	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
-	LONG $0xd7940f41                           // sete    r15b
-	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
-	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
-	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
-	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
-	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
-	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
-	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
-	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
-	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
-	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
-	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
-	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
-	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
-	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
-	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
-	WORD $0x940f; BYTE $0xd1                   // sete    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x78               // movzx    esi, byte [rsp + 120]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xc000                               // add    al, al
-	LONG $0x48244402                           // add    al, byte [rsp + 72]
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB2_128
-	LONG $0x241c8b4c                           // mov    r11, qword [rsp]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
-	JMP  LBB2_147
-
-LBB2_130:
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0x24448948; BYTE $0x68 // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-
-LBB2_131:
-	LONG $0x05e7c149             // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7     // cmp    r15, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0     // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8     // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7     // not    r15
-	WORD $0x014d; BYTE $0xd7     // add    r15, r10
-	JE   LBB2_137
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x245c8b4c; BYTE $0x68 // mov    r11, qword [rsp + 104]
-
-LBB2_155:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e343a46             // cmp    r14b, byte [rsi + r9]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x06743a44; BYTE $0x01 // cmp    r14b, byte [rsi + rax + 1]
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB2_155
-	JMP  LBB2_158
-
-LBB2_134:
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0x24448948; BYTE $0x68 // mov    qword [rsp + 104], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-
-LBB2_135:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB2_156
-
-LBB2_137:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_176
-	JMP  LBB2_160
-
-LBB2_138:
-	LONG $0x24048b48             // mov    rax, qword [rsp]
-	LONG $0x24448948; BYTE $0x08 // mov    qword [rsp + 8], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-
-LBB2_139:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_170
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB2_172
-
-LBB2_142:
-	LONG $0x24348b4c         // mov    r14, qword [rsp]
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-
-LBB2_143:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB2_177
-	WORD $0x3145; BYTE $0xff // xor    r15d, r15d
-	JMP  LBB2_179
-
-LBB2_146:
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
-
-LBB2_147:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
-	JGE  LBB2_176
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	JNE  LBB2_181
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB2_183
-
-LBB2_150:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_151:
-	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_151
-
-LBB2_152:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_176
-	WORD $0x3b44; BYTE $0x2a // cmp    r13d, dword [rdx]
-	JMP  LBB2_169
-
-LBB2_156:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x245c8b4c; BYTE $0x68 // mov    r11, qword [rsp + 104]
-
-LBB2_157:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e343a46             // cmp    r14b, byte [rsi + r9]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x06743a44; BYTE $0x01 // cmp    r14b, byte [rsi + rax + 1]
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x940f; BYTE $0xd3     // sete    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB2_157
-
-LBB2_158:
-	WORD $0x014c; BYTE $0xce // add    rsi, r9
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_176
-
-LBB2_160:
-	WORD $0x3a44; BYTE $0x36     // cmp    r14b, byte [rsi]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x68 // mov    r8, qword [rsp + 104]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	JMP  LBB2_174
-
-LBB2_161:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_162:
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_162
-
-LBB2_163:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB2_176
-	LONG $0x022e0f66 // ucomisd    xmm0, qword [rdx]
-	JMP  LBB2_169
-
-LBB2_165:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-	LONG $0x241c8b4c         // mov    r11, qword [rsp]
-
-LBB2_166:
-	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x33048841             // mov    byte [r11 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB2_166
-
-LBB2_167:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_176
-	WORD $0x3b4c; BYTE $0x2a // cmp    r13, qword [rdx]
-
-LBB2_169:
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x24048b4c         // mov    r8, qword [rsp]
-	LONG $0x10348a41         // mov    sil, byte [r8 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	JMP  LBB2_175
-
-LBB2_170:
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0x3145; BYTE $0xf6     // xor    r14d, r14d
-	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
-
-LBB2_171:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3b // movzx    r10d, byte [r11 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB2_171
-
-LBB2_172:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB2_176
-	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
-	WORD $0x940f; BYTE $0xd0     // sete    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xf2     // mov    rdx, r14
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68041             // and    r14b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-
-LBB2_174:
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-
-LBB2_175:
-	LONG $0x101c8841 // mov    byte [r8 + rdx], bl
-
-LBB2_176:
-	MOVQ 304(SP), SP
-	RET
-
-LBB2_177:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xff // xor    r15d, r15d
-
-LBB2_178:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xff     // mov    rdi, r15
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3e // movzx    r10d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xf9     // mov    ecx, r15d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c78349             // add    r15, 2
-	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xf9     // cmp    r9, r15
-	JNE  LBB2_178
-
-LBB2_179:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_176
-	LONG $0x2e3b4466         // cmp    r13w, word [rsi]
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xfa // mov    rdx, r15
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x163c8a41         // mov    dil, byte [r14 + rdx]
-	LONG $0x07e78041         // and    r15b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xf9 // mov    ecx, r15d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-	JMP  LBB2_176
-
-LBB2_181:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB2_182:
-	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
-	WORD $0x940f; BYTE $0xd2     // sete    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
-	LONG $0xd1940f41             // sete    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xca     // and    dl, r9b
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_182
-
-LBB2_183:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB2_176
-	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
-	WORD $0x940f; BYTE $0xd0 // sete    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x133c8a41         // mov    dil, byte [r11 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
-	JMP  LBB2_176
-
-LBB2_185:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x000000f824848948             // mov    qword [rsp + 248], rax
-	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
-	LONG $0x24048b48                     // mov    rax, qword [rsp]
-	LONG $0xb8048d4a                     // lea    rax, [rax + 4*r15]
-	LONG $0x24448948; BYTE $0x68         // mov    qword [rsp + 104], rax
-	LONG $0xc6b60f41                     // movzx    eax, r14b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
-	WORD $0xc031                         // xor    eax, eax
-
-LBB2_186:
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	LONG $0x05e7c148                           // shl    rdi, 5
-	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	WORD $0x8949; BYTE $0xfc                   // mov    r12, rdi
-	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
-	LONG $0x247c8948; BYTE $0x50               // mov    qword [rsp + 80], rdi
-	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
-	LONG $0x3a0cb60f                           // movzx    ecx, byte [rdx + rdi]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x3a4cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rdi + 1]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x3a4cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rdi + 2]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x3a4cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rdi + 3]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x3a4cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rdi + 4]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x3a4cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rdi + 5]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x3a4cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rdi + 6]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x3a4cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rdi + 7]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
-	LONG $0x3a4cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rdi + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00010024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm0
-	LONG $0x3a4cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rdi + 9]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x3a4cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rdi + 10]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
-	LONG $0x3a4cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rdi + 11]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x3a4cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rdi + 12]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x3a4cb60f; BYTE $0x0d               // movzx    ecx, byte [rdx + rdi + 13]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x3a4cb60f; BYTE $0x0e               // movzx    ecx, byte [rdx + rdi + 14]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x247c8948; BYTE $0x40               // mov    qword [rsp + 64], rdi
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x18               // mov    qword [rsp + 24], r13
-	LONG $0x40ce8348                           // or    rsi, 64
-	LONG $0x24748948; BYTE $0x28               // mov    qword [rsp + 40], rsi
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	LONG $0x60c98348                           // or    rcx, 96
-	LONG $0x80ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 128
-	LONG $0xa0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 160
-	LONG $0xc0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 192
-	LONG $0xe0cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 224
-	LONG $0x00cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 256
-	LONG $0x20c98149; WORD $0x0001; BYTE $0x00 // or    r9, 288
-	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
-	LONG $0x40cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 320
-	LONG $0x245c8948; BYTE $0x78               // mov    qword [rsp + 120], rbx
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	LONG $0x60cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 352
-	LONG $0x245c8948; BYTE $0x50               // mov    qword [rsp + 80], rbx
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	LONG $0x80c88149; WORD $0x0001; BYTE $0x00 // or    r8, 384
-	LONG $0x2444894c; BYTE $0x60               // mov    qword [rsp + 96], r8
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
-	QUAD $0x012a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r13], 1
-	QUAD $0x02323c203a0f4466                   // pinsrb    xmm15, byte [rdx + rsi], 2
-	LONG $0x244c8948; BYTE $0x20               // mov    qword [rsp + 32], rcx
-	QUAD $0x030a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rcx], 3
-	LONG $0x2474894c; BYTE $0x70               // mov    qword [rsp + 112], r14
-	QUAD $0x04323c203a0f4666                   // pinsrb    xmm15, byte [rdx + r14], 4
-	QUAD $0x0000008024bc894c                   // mov    qword [rsp + 128], r15
-	QUAD $0x053a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r15], 5
-	WORD $0x894c; BYTE $0xd7                   // mov    rdi, r10
-	QUAD $0x06123c203a0f4666                   // pinsrb    xmm15, byte [rdx + r10], 6
-	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
-	LONG $0x245c894c; BYTE $0x58               // mov    qword [rsp + 88], r11
-	QUAD $0x071a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r11], 7
-	QUAD $0x08223c203a0f4666                   // pinsrb    xmm15, byte [rdx + r12], 8
-	QUAD $0x090a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r9], 9
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x0a2a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r13], 10
-	QUAD $0x0b1a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rbx], 11
-	QUAD $0x0c023c203a0f4666                   // pinsrb    xmm15, byte [rdx + r8], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0d323c203a0f4466                   // pinsrb    xmm15, byte [rdx + rsi], 13
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0e323c203a0f4466                   // pinsrb    xmm15, byte [rdx + rsi], 14
-	QUAD $0x0f023c203a0f4466                   // pinsrb    xmm15, byte [rdx + rax], 15
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	QUAD $0x011a6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r11 + 1], 1
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0201326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 1], 2
-	QUAD $0x03010a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 1], 3
-	QUAD $0x01326c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r14 + 1], 4
-	QUAD $0x013a6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rdx + r15 + 1], 5
-	QUAD $0x06013a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 1], 6
-	QUAD $0x01126c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r10 + 1], 7
-	QUAD $0x01226c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r12 + 1], 8
-	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
-	QUAD $0x000000c024a4894c                   // mov    qword [rsp + 192], r12
-	QUAD $0x010a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r9 + 1], 9
-	QUAD $0x012a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r13 + 1], 10
-	WORD $0x894d; BYTE $0xef                   // mov    r15, r13
-	QUAD $0x0b011a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 1], 11
-	QUAD $0x01026c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r8 + 1], 12
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x010a6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r9 + 1], 13
-	LONG $0x245c8b4c; BYTE $0x10               // mov    r11, qword [rsp + 16]
-	QUAD $0x011a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r11 + 1], 14
-	QUAD $0x0f01026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 1], 15
-	QUAD $0x00b0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xe9               // pcmpeqb    xmm5, xmm9
-	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
-	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI2_10] */
-	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
-	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	LONG $0x74b60f42; WORD $0x0f22             // movzx    esi, byte [rdx + r12 + 15]
-	LONG $0x6e0f4466; BYTE $0xf6               // movd    xmm14, esi
-	LONG $0x740f4566; BYTE $0xf9               // pcmpeqb    xmm15, xmm9
-	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
-	QUAD $0x020274203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rdx + r8 + 2], 1
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x021274203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rdx + r10 + 2], 2
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x03020a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 2], 3
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x04021a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 2], 4
-	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
-	QUAD $0x05023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 5
-	QUAD $0x06023a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 2], 6
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x07023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 7
-	QUAD $0x023274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r14 + 2], 8
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x022a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r13 + 2], 9
-	QUAD $0x023a74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r15 + 2], 10
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x023274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r14 + 2], 11
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x023a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 2], 12
-	QUAD $0x020a74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rdx + r9 + 2], 13
-	QUAD $0x021a74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r11 + 2], 14
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x0f020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 15
-	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
-	LONG $0x740f4166; BYTE $0xf1               // pcmpeqb    xmm6, xmm9
-	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x74b60f42; WORD $0x1022             // movzx    esi, byte [rdx + r12 + 16]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	WORD $0x894c; BYTE $0xc6                   // mov    rsi, r8
-	QUAD $0x030254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r8 + 3], 1
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x031254203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r10 + 3], 2
-	QUAD $0x03030a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 3], 3
-	QUAD $0x04031a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 3], 4
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x05030a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 3], 5
-	QUAD $0x0000008824bc8948                   // mov    qword [rsp + 136], rdi
-	QUAD $0x06033a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 3], 6
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x030254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r8 + 3], 7
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-	QUAD $0x031254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r10 + 3], 8
-	QUAD $0x032a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r13 + 3], 9
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0a031a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 3], 10
-	QUAD $0x033254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r14 + 3], 11
-	QUAD $0x033a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 3], 12
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x032254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 3], 13
-	QUAD $0x031a54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r11 + 3], 14
-	QUAD $0x030a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r9 + 3], 15
-	QUAD $0x0104324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 1
-	QUAD $0x0204024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 4], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0304324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 3
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x0404324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 4
-	QUAD $0x05040a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 4], 5
-	QUAD $0x06043a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 4], 6
-	QUAD $0x04024c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r8 + 4], 7
-	QUAD $0x04124c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r10 + 4], 8
-	QUAD $0x042a4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r13 + 4], 9
-	QUAD $0x0a041a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 4], 10
-	QUAD $0x04324c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r14 + 4], 11
-	QUAD $0x043a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 4], 12
-	QUAD $0x04224c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r12 + 4], 13
-	QUAD $0x041a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r11 + 4], 14
-	QUAD $0x040a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r9 + 4], 15
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	LONG $0x244c894c; BYTE $0x38               // mov    qword [rsp + 56], r9
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	LONG $0x74b60f42; WORD $0x110a             // movzx    esi, byte [rdx + r9 + 17]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0xd5db0f66                           // pand    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xc9               // pcmpeqb    xmm1, xmm9
-	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xcddb0f66                           // pand    xmm1, xmm5
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0x74b60f42; WORD $0x120a             // movzx    esi, byte [rdx + r9 + 18]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x052a44203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r13 + 5], 1
-	QUAD $0x050244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rax + 5], 2
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x051a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r11 + 5], 3
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x050244203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rdx + rax + 5], 4
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x053a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rdi + 5], 5
-	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
-	QUAD $0x050244203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r8 + 5], 6
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x051244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r10 + 5], 7
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x051a44203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rdx + rbx + 5], 8
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x053244203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rsi + 5], 9
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x053244203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + r14 + 5], 10
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x053a44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r15 + 5], 11
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x052244203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r12 + 5], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x053244203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rsi + 5], 13
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x053244203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rsi + 5], 14
-	QUAD $0x050a44203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + rcx + 5], 15
-	LONG $0x740f4566; BYTE $0xc1               // pcmpeqb    xmm8, xmm9
-	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI2_14] */
-	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	LONG $0x74b60f42; WORD $0x130a             // movzx    esi, byte [rdx + r9 + 19]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	LONG $0x74b60f42; WORD $0x140a             // movzx    esi, byte [rdx + r9 + 20]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	QUAD $0x062a5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r13 + 6], 1
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x060a5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r9 + 6], 2
-	QUAD $0x061a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r11 + 6], 3
-	QUAD $0x0406025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 4
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	QUAD $0x05063a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 6], 5
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x06025c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r8 + 6], 6
-	QUAD $0x06125c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r10 + 6], 7
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x08061a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 6], 8
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0906025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 9
-	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
-	QUAD $0x06325c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r14 + 6], 10
-	WORD $0x894c; BYTE $0xfe                   // mov    rsi, r15
-	QUAD $0x063a5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r15 + 6], 11
-	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
-	QUAD $0x06225c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r12 + 6], 12
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x06225c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r12 + 6], 13
-	LONG $0x24748b4c; BYTE $0x10               // mov    r14, qword [rsp + 16]
-	QUAD $0x06325c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r14 + 6], 14
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x06025c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r8 + 6], 15
-	QUAD $0x0000d024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 208]
-	QUAD $0x072a54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r13 + 7], 1
-	QUAD $0x070a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r9 + 7], 2
-	QUAD $0x071a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 7], 3
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x070a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r9 + 7], 4
-	QUAD $0x05070a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 7], 5
-	QUAD $0x06073a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 7], 6
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x07070a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 7], 7
-	QUAD $0x071254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r10 + 7], 8
-	QUAD $0x09070254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 7], 9
-	QUAD $0x0a071a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 7], 10
-	QUAD $0x0b073254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 7], 11
-	QUAD $0x073a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 7], 12
-	QUAD $0x072254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 7], 13
-	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
-	QUAD $0x073254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r14 + 7], 14
-	QUAD $0x070254203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r8 + 7], 15
-	LONG $0x740f4166; BYTE $0xd9               // pcmpeqb    xmm3, xmm9
-	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI2_15] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xd1db0f66                           // pand    xmm2, xmm1
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x090a54203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rcx + 9], 1
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x091a54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r11 + 9], 2
-	QUAD $0x092a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r13 + 9], 3
-	QUAD $0x090a54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r9 + 9], 4
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x092a54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r13 + 9], 5
-	QUAD $0x093a54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rdx + rdi + 9], 6
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x090254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r8 + 9], 7
-	QUAD $0x091254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r10 + 9], 8
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x093254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rsi + 9], 9
-	QUAD $0x091a54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rbx + 9], 10
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x091254203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r10 + 9], 11
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x091a54203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rbx + 9], 12
-	QUAD $0x093a54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r15 + 9], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x093a54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + rdi + 9], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x093254203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rsi + 9], 15
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
-	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	QUAD $0x00010024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 256]
-	QUAD $0x01080a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 8], 1
-	QUAD $0x081a64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r11 + 8], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x03080264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 8], 3
-	QUAD $0x080a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r9 + 8], 4
-	QUAD $0x082a64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r13 + 8], 5
-	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
-	QUAD $0x083a64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r15 + 8], 6
-	QUAD $0x080264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r8 + 8], 7
-	QUAD $0x083264203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r14 + 8], 8
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x09083264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 8], 9
-	QUAD $0x082264203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r12 + 8], 10
-	QUAD $0x081264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r10 + 8], 11
-	QUAD $0x0c081a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 8], 12
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0d081a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 8], 13
-	QUAD $0x0e083a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 8], 14
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0f080a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 8], 15
-	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	QUAD $0x00a024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 160]
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x0a3a54203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rdi + 10], 1
-	QUAD $0x0a1a54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r11 + 10], 2
-	QUAD $0x0a0254203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rdx + rax + 10], 3
-	QUAD $0x0a0a54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r9 + 10], 4
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
-	QUAD $0x0a2a54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r13 + 10], 5
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	QUAD $0x0a3a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r15 + 10], 6
-	QUAD $0x0a0254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r8 + 10], 7
-	QUAD $0x0a3254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r14 + 10], 8
-	QUAD $0x0a3254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rsi + 10], 9
-	QUAD $0x0a2254203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r12 + 10], 10
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0a3254203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r14 + 10], 11
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x0a3a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r15 + 10], 12
-	QUAD $0x0a1a54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rbx + 10], 13
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x0a1254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r10 + 10], 14
-	QUAD $0x0a0a54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rcx + 10], 15
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	LONG $0x0a74b60f; BYTE $0x17               // movzx    esi, byte [rdx + rcx + 23]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x00a024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm10
-	LONG $0x0a74b60f; BYTE $0x18               // movzx    esi, byte [rdx + rcx + 24]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	QUAD $0x0b3a5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rdi + 11], 1
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0b0a5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rcx + 11], 2
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0b0a5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rdx + rcx + 11], 3
-	QUAD $0x0b025c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rax + 11], 4
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	QUAD $0x0b1a5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r11 + 11], 5
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	QUAD $0x0b0a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r9 + 11], 6
-	QUAD $0x0b025c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r8 + 11], 7
-	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
-	QUAD $0x0b0a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r9 + 11], 8
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0b1a5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r11 + 11], 9
-	QUAD $0x0b225c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r12 + 11], 10
-	QUAD $0x0b325c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r14 + 11], 11
-	QUAD $0x0b3a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 11], 12
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x0b1a5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rbx + 11], 13
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x0b225c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r12 + 11], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0b325c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rsi + 11], 15
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x0c2a6c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r13 + 12], 1
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0c1a6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rbx + 12], 2
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0c1a6c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rdx + rbx + 12], 3
-	QUAD $0x0c026c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rax + 12], 4
-	QUAD $0x0c0a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rcx + 12], 5
-	QUAD $0x0c3a6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rdx + rdi + 12], 6
-	QUAD $0x0c026c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r8 + 12], 7
-	QUAD $0x0c0a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r9 + 12], 8
-	QUAD $0x0c1a6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r11 + 12], 9
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x0c1a6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rbx + 12], 10
-	QUAD $0x0c326c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r14 + 12], 11
-	QUAD $0x0c3a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r15 + 12], 12
-	QUAD $0x0c126c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r10 + 12], 13
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	QUAD $0x0c226c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r12 + 12], 14
-	QUAD $0x0c326c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rsi + 12], 15
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x0d1264203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r10 + 13], 1
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0d3264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rsi + 13], 2
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0d3264203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rdx + rsi + 13], 3
-	QUAD $0x0d0264203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rax + 13], 4
-	QUAD $0x0d0a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rcx + 13], 5
-	QUAD $0x0d3a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rdi + 13], 6
-	QUAD $0x0d0264203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r8 + 13], 7
-	QUAD $0x0d0a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r9 + 13], 8
-	QUAD $0x0d1a64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r11 + 13], 9
-	QUAD $0x0d1a64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rbx + 13], 10
-	QUAD $0x0d3264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r14 + 13], 11
-	QUAD $0x0d3a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r15 + 13], 12
-	QUAD $0x0d2a64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r13 + 13], 13
-	QUAD $0x0d2264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r12 + 13], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0d0264203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rax + 13], 15
-	LONG $0x740f4566; BYTE $0xd9               // pcmpeqb    xmm11, xmm9
-	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0x740f4566; BYTE $0xe9               // pcmpeqb    xmm13, xmm9
-	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x740f4566; BYTE $0xe1               // pcmpeqb    xmm12, xmm9
-	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI2_14] */
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x0274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rax + 26]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
-	QUAD $0x0e1264203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rdx + r10 + 14], 1
-	WORD $0x894c; BYTE $0xd6                   // mov    rsi, r10
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0e2264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r12 + 14], 2
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0e1264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r10 + 14], 3
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x0e2a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r13 + 14], 4
-	QUAD $0x050e0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 14], 5
-	QUAD $0x060e3a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 14], 6
-	QUAD $0x0e0264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r8 + 14], 7
-	QUAD $0x0e0a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r9 + 14], 8
-	QUAD $0x0e1a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r11 + 14], 9
-	QUAD $0x0a0e1a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 14], 10
-	QUAD $0x0e3264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 14], 11
-	QUAD $0x0e3a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 14], 12
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0d0e0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 14], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e0e0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 14], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0f0e0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 14], 15
-	QUAD $0x0f3274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rsi + 15], 1
-	QUAD $0x0f2274203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r12 + 15], 2
-	QUAD $0x0f1274203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r10 + 15], 3
-	QUAD $0x0f2a74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rdx + r13 + 15], 4
-	QUAD $0x0f0a74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rdx + rcx + 15], 5
-	QUAD $0x0f3a74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rdx + rdi + 15], 6
-	QUAD $0x0f0274203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rdx + r8 + 15], 7
-	QUAD $0x0f0a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r9 + 15], 8
-	QUAD $0x0f1a74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rdx + r11 + 15], 9
-	QUAD $0x0f1a74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + rbx + 15], 10
-	QUAD $0x0f3274203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + r14 + 15], 11
-	QUAD $0x0f3a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r15 + 15], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0f3274203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rsi + 15], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f0274203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + rax + 15], 14
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0f3274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rsi + 15], 15
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x10327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 16], 1
-	QUAD $0x10227c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r12 + 16], 2
-	QUAD $0x10127c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r10 + 16], 3
-	QUAD $0x102a7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r13 + 16], 4
-	QUAD $0x100a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rcx + 16], 5
-	QUAD $0x103a7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rdx + rdi + 16], 6
-	QUAD $0x10027c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r8 + 16], 7
-	QUAD $0x100a7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r9 + 16], 8
-	QUAD $0x101a7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r11 + 16], 9
-	QUAD $0x101a7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + rbx + 16], 10
-	QUAD $0x10327c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r14 + 16], 11
-	QUAD $0x103a7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r15 + 16], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x10327c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rsi + 16], 13
-	QUAD $0x10027c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rax + 16], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x01110244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 17], 1
-	QUAD $0x112244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r12 + 17], 2
-	QUAD $0x111244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r10 + 17], 3
-	QUAD $0x112a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r13 + 17], 4
-	QUAD $0x05110a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 17], 5
-	QUAD $0x06113a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 17], 6
-	QUAD $0x110244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r8 + 17], 7
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x110a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r9 + 17], 8
-	QUAD $0x111a44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r11 + 17], 9
-	QUAD $0x0a111a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 17], 10
-	QUAD $0x113244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r14 + 17], 11
-	QUAD $0x113a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 17], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0d113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 13
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0e113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 14
-	QUAD $0x00a024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 160]
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	LONG $0x74b60f42; WORD $0x1b22             // movzx    esi, byte [rdx + r12 + 27]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	QUAD $0x00b024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xe5               // pcmpeqb    xmm4, xmm13
-	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI2_15] */
-	LONG $0x740f4566; BYTE $0xf5               // pcmpeqb    xmm14, xmm13
-	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
-	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
-	LONG $0x74b60f42; WORD $0x1c22             // movzx    esi, byte [rdx + r12 + 28]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x110244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r8 + 17], 15
-	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
-	LONG $0x740f4166; BYTE $0xc5               // pcmpeqb    xmm0, xmm13
-	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI2_10] */
-	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
-	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
-	QUAD $0x00a024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm13
-	LONG $0x74b60f42; WORD $0x1d22             // movzx    esi, byte [rdx + r12 + 29]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	QUAD $0x10027c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r8 + 16], 15
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x12226c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r12 + 18], 1
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0212326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 2
-	QUAD $0x12126c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r10 + 18], 3
-	QUAD $0x122a6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r13 + 18], 4
-	QUAD $0x05120a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 18], 5
-	QUAD $0x06123a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 18], 6
-	QUAD $0x0712026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 18], 7
-	QUAD $0x120a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r9 + 18], 8
-	QUAD $0x121a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r11 + 18], 9
-	QUAD $0x0a121a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 18], 10
-	QUAD $0x12326c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r14 + 18], 11
-	QUAD $0x123a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 18], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0d12326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 13
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0e12326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 14
-	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
-	QUAD $0x12026c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r8 + 18], 15
-	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
-	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	QUAD $0x13227c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rdx + r12 + 19], 1
-	QUAD $0x142274203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rdx + r12 + 20], 1
-	QUAD $0x152254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r12 + 21], 1
-	QUAD $0x16225c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r12 + 22], 1
-	QUAD $0x172244203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r12 + 23], 1
-	QUAD $0x182254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r12 + 24], 1
-	QUAD $0x19224c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rdx + r12 + 25], 1
-	QUAD $0x1a225c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r12 + 26], 1
-	QUAD $0x1b224c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rdx + r12 + 27], 1
-	QUAD $0x1c2264203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rdx + r12 + 28], 1
-	QUAD $0x1d226c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r12 + 29], 1
-	QUAD $0x1e2264203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r12 + 30], 1
-	LONG $0x0274b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rax + 31]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x1f2244203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rdx + r12 + 31], 1
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0213327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 19], 2
-	QUAD $0x02143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 2
-	QUAD $0x02153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 2
-	QUAD $0x0216325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 22], 2
-	QUAD $0x173244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rsi + 23], 2
-	QUAD $0x183254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rsi + 24], 2
-	QUAD $0x0219324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 25], 2
-	QUAD $0x1a325c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rsi + 26], 2
-	QUAD $0x1b324c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rsi + 27], 2
-	QUAD $0x021c3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 28], 2
-	QUAD $0x1d326c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rsi + 29], 2
-	QUAD $0x1e3264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rsi + 30], 2
-	QUAD $0x021f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 2
-	QUAD $0x13127c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r10 + 19], 3
-	QUAD $0x132a7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r13 + 19], 4
-	QUAD $0x05130a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 19], 5
-	QUAD $0x06133a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 19], 6
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0713027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 19], 7
-	QUAD $0x130a7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r9 + 19], 8
-	QUAD $0x131a7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r11 + 19], 9
-	QUAD $0x0a131a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 19], 10
-	QUAD $0x13327c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r14 + 19], 11
-	QUAD $0x133a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 19], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0d13327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 19], 13
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x13227c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r12 + 19], 14
-	QUAD $0x13027c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r8 + 19], 15
-	QUAD $0x141274203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r10 + 20], 3
-	QUAD $0x142a74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r13 + 20], 4
-	QUAD $0x05140a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 20], 5
-	QUAD $0x06143a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 20], 6
-	QUAD $0x07140274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 20], 7
-	QUAD $0x140a74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r9 + 20], 8
-	QUAD $0x141a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r11 + 20], 9
-	QUAD $0x0a141a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 20], 10
-	QUAD $0x143274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r14 + 20], 11
-	QUAD $0x143a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 20], 12
-	QUAD $0x0d143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 13
-	QUAD $0x142274203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r12 + 20], 14
-	QUAD $0x0000a024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 160]
-	QUAD $0x140274203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r8 + 20], 15
-	QUAD $0x00b024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
-	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0x740f4166; BYTE $0xf7               // pcmpeqb    xmm6, xmm15
-	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0x151254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r10 + 21], 3
-	QUAD $0x152a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r13 + 21], 4
-	QUAD $0x05150a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 21], 5
-	QUAD $0x06153a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 21], 6
-	QUAD $0x07150254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 21], 7
-	QUAD $0x150a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r9 + 21], 8
-	QUAD $0x151a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r11 + 21], 9
-	QUAD $0x0a151a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 21], 10
-	QUAD $0x153254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r14 + 21], 11
-	QUAD $0x153a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 21], 12
-	QUAD $0x0d153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 13
-	QUAD $0x152254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r12 + 21], 14
-	QUAD $0x150254203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r8 + 21], 15
-	LONG $0x740f4166; BYTE $0xd7               // pcmpeqb    xmm2, xmm15
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI2_14] */
-	LONG $0xd7db0f66                           // pand    xmm2, xmm7
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0xd5eb0f66                           // por    xmm2, xmm5
-	QUAD $0x16125c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r10 + 22], 3
-	QUAD $0x162a5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r13 + 22], 4
-	QUAD $0x05160a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 22], 5
-	QUAD $0x06163a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 22], 6
-	QUAD $0x0716025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 22], 7
-	QUAD $0x160a5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r9 + 22], 8
-	QUAD $0x161a5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r11 + 22], 9
-	QUAD $0x0a161a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 22], 10
-	QUAD $0x16325c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r14 + 22], 11
-	QUAD $0x163a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r15 + 22], 12
-	QUAD $0x0d16325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 22], 13
-	QUAD $0x16225c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r12 + 22], 14
-	QUAD $0x16025c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r8 + 22], 15
-	QUAD $0x171244203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r10 + 23], 3
-	QUAD $0x172a44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r13 + 23], 4
-	QUAD $0x170a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rcx + 23], 5
-	QUAD $0x173a44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rdx + rdi + 23], 6
-	QUAD $0x170244203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rdx + rax + 23], 7
-	QUAD $0x170a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r9 + 23], 8
-	QUAD $0x171a44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rdx + r11 + 23], 9
-	QUAD $0x171a44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rbx + 23], 10
-	QUAD $0x173244203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r14 + 23], 11
-	QUAD $0x173a44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r15 + 23], 12
-	QUAD $0x173244203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rsi + 23], 13
-	QUAD $0x172244203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + r12 + 23], 14
-	QUAD $0x170244203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r8 + 23], 15
-	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
-	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI2_15] */
-	LONG $0xdddb0f66                           // pand    xmm3, xmm5
-	LONG $0x740f4566; BYTE $0xc7               // pcmpeqb    xmm8, xmm15
-	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
-	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	QUAD $0x19124c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r10 + 25], 3
-	QUAD $0x192a4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r13 + 25], 4
-	QUAD $0x05190a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 25], 5
-	QUAD $0x06193a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 25], 6
-	QUAD $0x0719024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 25], 7
-	QUAD $0x190a4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r9 + 25], 8
-	QUAD $0x191a4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r11 + 25], 9
-	QUAD $0x0a191a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 25], 10
-	QUAD $0x19324c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r14 + 25], 11
-	QUAD $0x193a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 25], 12
-	QUAD $0x0d19324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 25], 13
-	QUAD $0x19224c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r12 + 25], 14
-	QUAD $0x19024c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r8 + 25], 15
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x740f4166; BYTE $0xcf               // pcmpeqb    xmm1, xmm15
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI2_10] */
-	LONG $0xd3db0f66                           // pand    xmm2, xmm3
-	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
-	QUAD $0x181254203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r10 + 24], 3
-	QUAD $0x182a54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r13 + 24], 4
-	QUAD $0x180a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rcx + 24], 5
-	QUAD $0x183a54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rdx + rdi + 24], 6
-	QUAD $0x180254203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rax + 24], 7
-	QUAD $0x180a54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r9 + 24], 8
-	QUAD $0x181a54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rdx + r11 + 24], 9
-	QUAD $0x181a54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rbx + 24], 10
-	QUAD $0x183254203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r14 + 24], 11
-	QUAD $0x183a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r15 + 24], 12
-	QUAD $0x183254203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rsi + 24], 13
-	QUAD $0x182254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r12 + 24], 14
-	QUAD $0x180254203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r8 + 24], 15
-	LONG $0x740f4566; BYTE $0xd7               // pcmpeqb    xmm10, xmm15
-	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
-	QUAD $0x1a125c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r10 + 26], 3
-	QUAD $0x1a2a5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r13 + 26], 4
-	QUAD $0x1a0a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rcx + 26], 5
-	QUAD $0x1a3a5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rdx + rdi + 26], 6
-	QUAD $0x1a025c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rax + 26], 7
-	QUAD $0x1a0a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r9 + 26], 8
-	QUAD $0x1a1a5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r11 + 26], 9
-	QUAD $0x1a1a5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rbx + 26], 10
-	QUAD $0x1a325c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r14 + 26], 11
-	QUAD $0x1a3a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 26], 12
-	QUAD $0x1a325c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rsi + 26], 13
-	QUAD $0x1a225c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r12 + 26], 14
-	QUAD $0x1a025c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r8 + 26], 15
-	LONG $0x740f4566; BYTE $0xdf               // pcmpeqb    xmm11, xmm15
-	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
-	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
-	QUAD $0x1b124c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r10 + 27], 3
-	QUAD $0x1b2a4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r13 + 27], 4
-	QUAD $0x1b0a4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rcx + 27], 5
-	QUAD $0x1b3a4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rdx + rdi + 27], 6
-	QUAD $0x1b024c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rdx + rax + 27], 7
-	QUAD $0x1b0a4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r9 + 27], 8
-	QUAD $0x1b1a4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r11 + 27], 9
-	QUAD $0x1b1a4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + rbx + 27], 10
-	QUAD $0x1b324c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r14 + 27], 11
-	QUAD $0x1b3a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r15 + 27], 12
-	QUAD $0x1b324c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rsi + 27], 13
-	QUAD $0x1b224c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r12 + 27], 14
-	QUAD $0x1b024c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r8 + 27], 15
-	QUAD $0x1c1264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r10 + 28], 3
-	QUAD $0x1c2a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r13 + 28], 4
-	QUAD $0x051c0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 28], 5
-	QUAD $0x061c3a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 28], 6
-	QUAD $0x071c0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 28], 7
-	QUAD $0x1c0a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r9 + 28], 8
-	QUAD $0x1c1a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r11 + 28], 9
-	QUAD $0x0a1c1a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 28], 10
-	QUAD $0x1c3264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 28], 11
-	QUAD $0x1c3a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 28], 12
-	QUAD $0x0d1c3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 28], 13
-	QUAD $0x1c2264203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r12 + 28], 14
-	QUAD $0x1c0264203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r8 + 28], 15
-	QUAD $0x1d126c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r10 + 29], 3
-	QUAD $0x1d2a6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r13 + 29], 4
-	QUAD $0x1d0a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rcx + 29], 5
-	QUAD $0x1d3a6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rdx + rdi + 29], 6
-	QUAD $0x1d026c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rdx + rax + 29], 7
-	QUAD $0x1d0a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r9 + 29], 8
-	QUAD $0x1d1a6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r11 + 29], 9
-	QUAD $0x1d1a6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rbx + 29], 10
-	QUAD $0x1d326c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r14 + 29], 11
-	QUAD $0x1d3a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r15 + 29], 12
-	QUAD $0x1d326c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + rsi + 29], 13
-	QUAD $0x1d226c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r12 + 29], 14
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0x740f4566; BYTE $0xcf               // pcmpeqb    xmm9, xmm15
-	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
-	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
-	QUAD $0x1d026c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + r8 + 29], 15
-	LONG $0x740f4566; BYTE $0xef               // pcmpeqb    xmm13, xmm15
-	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
-	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
-	QUAD $0x1e1264203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r10 + 30], 3
-	QUAD $0x1f1244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r10 + 31], 3
-	QUAD $0x1e2a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r13 + 30], 4
-	QUAD $0x1f2a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r13 + 31], 4
-	QUAD $0x1e0a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rcx + 30], 5
-	QUAD $0x051f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 31], 5
-	QUAD $0x1e3a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rdi + 30], 6
-	QUAD $0x061f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 31], 6
-	QUAD $0x1e0264203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rax + 30], 7
-	QUAD $0x071f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 31], 7
-	QUAD $0x1e0a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r9 + 30], 8
-	QUAD $0x1f0a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r9 + 31], 8
-	QUAD $0x1e1a64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r11 + 30], 9
-	QUAD $0x1f1a44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r11 + 31], 9
-	QUAD $0x1e1a64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rbx + 30], 10
-	QUAD $0x0a1f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 31], 10
-	QUAD $0x1e3264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r14 + 30], 11
-	QUAD $0x1f3244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r14 + 31], 11
-	QUAD $0x1e3a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r15 + 30], 12
-	QUAD $0x1f3a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 31], 12
-	QUAD $0x1e3264203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rsi + 30], 13
-	QUAD $0x0d1f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 13
-	QUAD $0x1e2264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r12 + 30], 14
-	QUAD $0x1f2244203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r12 + 31], 14
-	QUAD $0x1e0264203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r8 + 30], 15
-	QUAD $0x1f0244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r8 + 31], 15
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x740f4566; BYTE $0xe7               // pcmpeqb    xmm12, xmm15
-	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
-	LONG $0x740f4166; BYTE $0xc7               // pcmpeqb    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0xc6db0f66                           // pand    xmm0, xmm6
-	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
-	QUAD $0x0000d024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 208]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
-	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
-	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
-	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	LONG $0x647f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm4
-	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
-	LONG $0x547f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm2
-	LONG $0x1c7f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
-	JNE  LBB2_186
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x000000e824bc3b4c                   // cmp    r15, qword [rsp + 232]
-	LONG $0x24748a44; BYTE $0x08               // mov    r14b, byte [rsp + 8]
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	JNE  LBB2_43
-	JMP  LBB2_131
-
-LBB2_188:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x000000f824848948             // mov    qword [rsp + 248], rax
-	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
-	LONG $0x24048b48                     // mov    rax, qword [rsp]
-	LONG $0xb8048d4a                     // lea    rax, [rax + 4*r15]
-	LONG $0x24448948; BYTE $0x68         // mov    qword [rsp + 104], rax
-	LONG $0xc6b60f41                     // movzx    eax, r14b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
-	WORD $0xc031                         // xor    eax, eax
-
-LBB2_189:
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	LONG $0x05e7c149                           // shl    r15, 5
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	LONG $0x247c894c; BYTE $0x20               // mov    qword [rsp + 32], r15
-	LONG $0x34b60f42; BYTE $0x3a               // movzx    esi, byte [rdx + r15]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	LONG $0x74b60f42; WORD $0x013a             // movzx    esi, byte [rdx + r15 + 1]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x74b60f42; WORD $0x023a             // movzx    esi, byte [rdx + r15 + 2]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	LONG $0x74b60f42; WORD $0x033a             // movzx    esi, byte [rdx + r15 + 3]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x74b60f42; WORD $0x043a             // movzx    esi, byte [rdx + r15 + 4]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x74b60f42; WORD $0x053a             // movzx    esi, byte [rdx + r15 + 5]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	LONG $0x74b60f42; WORD $0x063a             // movzx    esi, byte [rdx + r15 + 6]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0x74b60f42; WORD $0x073a             // movzx    esi, byte [rdx + r15 + 7]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	LONG $0x74b60f42; WORD $0x083a             // movzx    esi, byte [rdx + r15 + 8]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x74b60f42; WORD $0x093a             // movzx    esi, byte [rdx + r15 + 9]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x74b60f42; WORD $0x0a3a             // movzx    esi, byte [rdx + r15 + 10]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
-	LONG $0x74b60f42; WORD $0x0b3a             // movzx    esi, byte [rdx + r15 + 11]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	LONG $0x74b60f42; WORD $0x0c3a             // movzx    esi, byte [rdx + r15 + 12]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	LONG $0x74b60f42; WORD $0x0d3a             // movzx    esi, byte [rdx + r15 + 13]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	LONG $0x74b60f42; WORD $0x0e3a             // movzx    esi, byte [rdx + r15 + 14]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x00010024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm0
-	LONG $0x247c894c; BYTE $0x38               // mov    qword [rsp + 56], r15
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	LONG $0x20ce8349                           // or    r14, 32
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x40cb8348                           // or    rbx, 64
-	LONG $0x245c8948; BYTE $0x48               // mov    qword [rsp + 72], rbx
-	LONG $0x60c88348                           // or    rax, 96
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	LONG $0x80c98148; WORD $0x0000; BYTE $0x00 // or    rcx, 128
-	LONG $0xa0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 160
-	LONG $0xc0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 192
-	LONG $0xe0c98149; WORD $0x0000; BYTE $0x00 // or    r9, 224
-	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
-	LONG $0x20cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 288
-	LONG $0x2464894c; BYTE $0x40               // mov    qword [rsp + 64], r12
-	LONG $0x40ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 320
-	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	LONG $0x60ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 352
-	LONG $0x2454894c; BYTE $0x50               // mov    qword [rsp + 80], r10
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	LONG $0x80cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 384
-	WORD $0x894c; BYTE $0xfe                   // mov    rsi, r15
-	LONG $0xa0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 416
-	LONG $0x24748948; BYTE $0x10               // mov    qword [rsp + 16], rsi
-	LONG $0xc0cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 448
-	LONG $0x246c894c; BYTE $0x18               // mov    qword [rsp + 24], r13
-	WORD $0x894c; BYTE $0xfe                   // mov    rsi, r15
-	LONG $0xe0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 480
-	LONG $0x24748948; BYTE $0x28               // mov    qword [rsp + 40], rsi
-	QUAD $0x01323c203a0f4666                   // pinsrb    xmm15, byte [rdx + r14], 1
-	QUAD $0x021a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rbx], 2
-	QUAD $0x03023c203a0f4466                   // pinsrb    xmm15, byte [rdx + rax], 3
-	QUAD $0x00000080248c8948                   // mov    qword [rsp + 128], rcx
-	QUAD $0x040a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rcx], 4
-	QUAD $0x053a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rdi], 5
-	LONG $0x2444894c; BYTE $0x60               // mov    qword [rsp + 96], r8
-	QUAD $0x06023c203a0f4666                   // pinsrb    xmm15, byte [rdx + r8], 6
-	QUAD $0x000000d0248c894c                   // mov    qword [rsp + 208], r9
-	QUAD $0x070a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r9], 7
-	LONG $0x245c894c; BYTE $0x78               // mov    qword [rsp + 120], r11
-	QUAD $0x081a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r11], 8
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x09323c203a0f4666                   // pinsrb    xmm15, byte [rdx + r14], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0a3a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r15], 10
-	QUAD $0x0b123c203a0f4666                   // pinsrb    xmm15, byte [rdx + r10], 11
-	LONG $0x2464894c; BYTE $0x20               // mov    qword [rsp + 32], r12
-	QUAD $0x0c223c203a0f4666                   // pinsrb    xmm15, byte [rdx + r12], 12
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0d123c203a0f4666                   // pinsrb    xmm15, byte [rdx + r10], 13
-	QUAD $0x0e2a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r13], 14
-	QUAD $0x0f323c203a0f4466                   // pinsrb    xmm15, byte [rdx + rsi], 15
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x01011a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 1], 1
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x02011a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 1], 2
-	QUAD $0x0301026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 1], 3
-	QUAD $0x04010a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 1], 4
-	QUAD $0x05013a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 1], 5
-	QUAD $0x01026c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r8 + 1], 6
-	QUAD $0x010a6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r9 + 1], 7
-	QUAD $0x011a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r11 + 1], 8
-	QUAD $0x01326c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r14 + 1], 9
-	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
-	QUAD $0x013a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r15 + 1], 10
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0b010a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 1], 11
-	QUAD $0x01226c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r12 + 1], 12
-	QUAD $0x01126c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r10 + 1], 13
-	QUAD $0x012a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r13 + 1], 14
-	QUAD $0x0f01326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 1], 15
-	QUAD $0x00b0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xe9               // pcmpeqb    xmm5, xmm9
-	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
-	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI2_10] */
-	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
-	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	LONG $0x74b60f42; WORD $0x0f2a             // movzx    esi, byte [rdx + r13 + 15]
-	LONG $0x6e0f4466; BYTE $0xf6               // movd    xmm14, esi
-	LONG $0x740f4566; BYTE $0xf9               // pcmpeqb    xmm15, xmm9
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x01020a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 2], 1
-	QUAD $0x02021a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 2], 2
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x021a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 2], 3
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x020274203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r8 + 2], 4
-	QUAD $0x05023a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 2], 5
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x022274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r12 + 2], 6
-	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
-	QUAD $0x023274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r14 + 2], 7
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x023a74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r15 + 2], 8
-	QUAD $0x09020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 9
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x0a023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 10
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x021274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r10 + 2], 11
-	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
-	QUAD $0x020a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r9 + 2], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0d023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 13
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x0e023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 15
-	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
-	LONG $0x740f4166; BYTE $0xf1               // pcmpeqb    xmm6, xmm9
-	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x74b60f42; WORD $0x102a             // movzx    esi, byte [rdx + r13 + 16]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	QUAD $0x01030a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 3], 1
-	QUAD $0x02031a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 3], 2
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	QUAD $0x031a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 3], 3
-	QUAD $0x030254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r8 + 3], 4
-	QUAD $0x0000008824bc8948                   // mov    qword [rsp + 136], rdi
-	QUAD $0x05033a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 3], 5
-	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
-	QUAD $0x032254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r12 + 3], 6
-	QUAD $0x033254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 3], 7
-	WORD $0x894c; BYTE $0xfe                   // mov    rsi, r15
-	QUAD $0x033a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r15 + 3], 8
-	QUAD $0x09030254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 3], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x033a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r15 + 3], 10
-	QUAD $0x031254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r10 + 3], 11
-	QUAD $0x030a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 3], 12
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x032254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 3], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e030254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 3], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0f030254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 3], 15
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x042a4c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rdx + r13 + 4], 1
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x02041a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 4], 2
-	QUAD $0x03040a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 4], 3
-	QUAD $0x04024c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r8 + 4], 4
-	QUAD $0x05043a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 4], 5
-	QUAD $0x041a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r11 + 4], 6
-	QUAD $0x04324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 4], 7
-	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
-	QUAD $0x0804324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 8
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0904324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 9
-	QUAD $0x043a4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r15 + 4], 10
-	QUAD $0x04124c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r10 + 4], 11
-	WORD $0x894d; BYTE $0xd7                   // mov    r15, r10
-	QUAD $0x040a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r9 + 4], 12
-	QUAD $0x04224c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r12 + 4], 13
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	QUAD $0x0e041a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 4], 14
-	QUAD $0x0f04024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 4], 15
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x3a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rdi + 17]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0xd5db0f66                           // pand    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xc9               // pcmpeqb    xmm1, xmm9
-	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xcddb0f66                           // pand    xmm1, xmm5
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0x3a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rdi + 18]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x052a44203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r13 + 5], 1
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x051a44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rdx + r11 + 5], 2
-	QUAD $0x050a44203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rdx + rcx + 5], 3
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x053244203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r14 + 5], 4
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x050a44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rdx + r9 + 5], 5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x050244203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rdx + rax + 5], 6
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x050244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r8 + 5], 7
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x050244203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r8 + 5], 8
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x053244203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rsi + 5], 9
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x053244203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rsi + 5], 10
-	QUAD $0x053a44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r15 + 5], 11
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x052244203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r12 + 5], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x053244203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rsi + 5], 13
-	QUAD $0x051a44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rbx + 5], 14
-	QUAD $0x051244203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r10 + 5], 15
-	LONG $0x740f4566; BYTE $0xc1               // pcmpeqb    xmm8, xmm9
-	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI2_14] */
-	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	LONG $0x3a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rdi + 19]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	LONG $0x3a74b60f; BYTE $0x14               // movzx    esi, byte [rdx + rdi + 20]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	QUAD $0x062a5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r13 + 6], 1
-	WORD $0x894c; BYTE $0xde                   // mov    rsi, r11
-	QUAD $0x061a5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r11 + 6], 2
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x06125c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r10 + 6], 3
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x06325c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r14 + 6], 4
-	QUAD $0x060a5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r9 + 6], 5
-	QUAD $0x0606025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 6
-	QUAD $0x07060a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 6], 7
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	QUAD $0x06025c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r8 + 6], 8
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x09063a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 6], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x063a5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r15 + 6], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b06025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 11
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	QUAD $0x06225c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r12 + 6], 12
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x06225c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r12 + 6], 13
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x0e060a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 6], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f060a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 6], 15
-	QUAD $0x0000c024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 192]
-	QUAD $0x072a54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r13 + 7], 1
-	QUAD $0x02073254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 7], 2
-	WORD $0x8949; BYTE $0xf5                   // mov    r13, rsi
-	QUAD $0x071254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r10 + 7], 3
-	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
-	QUAD $0x071a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r11 + 7], 4
-	QUAD $0x070a54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r9 + 7], 5
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x06070a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 7], 6
-	QUAD $0x073254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 7], 7
-	QUAD $0x070254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r8 + 7], 8
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x09073a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 7], 9
-	QUAD $0x073a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r15 + 7], 10
-	QUAD $0x0b070254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 7], 11
-	QUAD $0x0c071a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 7], 12
-	QUAD $0x072254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 7], 13
-	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x072254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r12 + 7], 14
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0f071a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 7], 15
-	LONG $0x740f4166; BYTE $0xd9               // pcmpeqb    xmm3, xmm9
-	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI2_15] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xd1db0f66                           // pand    xmm2, xmm1
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x090a54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r9 + 9], 1
-	QUAD $0x092a54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r13 + 9], 2
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x090254203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r8 + 9], 3
-	QUAD $0x091254203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r10 + 9], 4
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x093a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rdi + 9], 5
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x092a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r13 + 9], 6
-	QUAD $0x093254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r14 + 9], 7
-	QUAD $0x090a54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rdx + rcx + 9], 8
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x093254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rsi + 9], 9
-	QUAD $0x093a54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r15 + 9], 10
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x093254203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rsi + 9], 11
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x093254203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rsi + 9], 12
-	QUAD $0x091a54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r11 + 9], 13
-	QUAD $0x092254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r12 + 9], 14
-	QUAD $0x091a54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rbx + 9], 15
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	QUAD $0x0000c0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm1
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
-	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
-	QUAD $0x080a64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rdx + r9 + 8], 1
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x082264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r12 + 8], 2
-	QUAD $0x080264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r8 + 8], 3
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	QUAD $0x081264203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r10 + 8], 4
-	QUAD $0x05083a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 8], 5
-	QUAD $0x082a64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r13 + 8], 6
-	QUAD $0x083264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r14 + 8], 7
-	QUAD $0x08080a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 8], 8
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x09081a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 8], 9
-	QUAD $0x083a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r15 + 8], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b080264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 8], 11
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0c083264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 8], 12
-	QUAD $0x081a64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r11 + 8], 13
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x081264203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r10 + 8], 14
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x0f080a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 8], 15
-	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	QUAD $0x00a024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 160]
-	QUAD $0x0a0a54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r9 + 10], 1
-	QUAD $0x0a2254203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r12 + 10], 2
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x0a0a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r9 + 10], 3
-	QUAD $0x0a0254203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r8 + 10], 4
-	QUAD $0x0a3a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rdi + 10], 5
-	QUAD $0x0a2a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r13 + 10], 6
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x0a3254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r14 + 10], 7
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0a3254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r14 + 10], 8
-	QUAD $0x0a1a54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rbx + 10], 9
-	QUAD $0x0a3a54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r15 + 10], 10
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x0a0254203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rax + 10], 11
-	QUAD $0x0a3254203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rsi + 10], 12
-	QUAD $0x0a1a54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r11 + 10], 13
-	QUAD $0x0a1254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r10 + 10], 14
-	QUAD $0x0a0a54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rcx + 10], 15
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	LONG $0x0a74b60f; BYTE $0x17               // movzx    esi, byte [rdx + rcx + 23]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x00a024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm10
-	LONG $0x0a74b60f; BYTE $0x18               // movzx    esi, byte [rdx + rcx + 24]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x0b125c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r10 + 11], 1
-	QUAD $0x0b225c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rdx + r12 + 11], 2
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	QUAD $0x0b0a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r9 + 11], 3
-	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
-	QUAD $0x0b1a5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r11 + 11], 4
-	QUAD $0x0b3a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rdi + 11], 5
-	QUAD $0x0b025c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r8 + 11], 6
-	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
-	QUAD $0x0b2a5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r13 + 11], 7
-	QUAD $0x0b325c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r14 + 11], 8
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0b025c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r8 + 11], 9
-	QUAD $0x0b1a5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rbx + 11], 10
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0b025c203a0f4466; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + rax + 11], 11
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0b2a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r13 + 11], 12
-	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
-	QUAD $0x0b0a5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r9 + 11], 13
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x0b325c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + rsi + 11], 14
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0b025c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rax + 11], 15
-	QUAD $0x0c126c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r10 + 12], 1
-	QUAD $0x0c226c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rdx + r12 + 12], 2
-	QUAD $0x0c0a6c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rdx + rcx + 12], 3
-	QUAD $0x0c1a6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r11 + 12], 4
-	QUAD $0x0c3a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rdi + 12], 5
-	QUAD $0x0c3a6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r15 + 12], 6
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	QUAD $0x0c1a6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r11 + 12], 7
-	QUAD $0x0c326c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r14 + 12], 8
-	QUAD $0x0c026c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r8 + 12], 9
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x0c3a6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + r15 + 12], 10
-	QUAD $0x0c1a6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rbx + 12], 11
-	QUAD $0x0c2a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r13 + 12], 12
-	QUAD $0x0c0a6c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r9 + 12], 13
-	QUAD $0x0c326c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + rsi + 12], 14
-	QUAD $0x0c026c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rax + 12], 15
-	QUAD $0x0d1264203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r10 + 13], 1
-	QUAD $0x0d2264203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rdx + r12 + 13], 2
-	QUAD $0x0d0a64203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rdx + rcx + 13], 3
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x0d0a64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rcx + 13], 4
-	QUAD $0x0d3a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rdi + 13], 5
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0d3a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rdi + 13], 6
-	QUAD $0x0d1a64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r11 + 13], 7
-	QUAD $0x0d3264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r14 + 13], 8
-	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
-	QUAD $0x0d0264203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r8 + 13], 9
-	QUAD $0x0d3a64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r15 + 13], 10
-	QUAD $0x0d1a64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + rbx + 13], 11
-	QUAD $0x0d2a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r13 + 13], 12
-	QUAD $0x0d0a64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r9 + 13], 13
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	QUAD $0x0d3264203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + rsi + 13], 14
-	QUAD $0x0d0264203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rax + 13], 15
-	LONG $0x740f4566; BYTE $0xd9               // pcmpeqb    xmm11, xmm9
-	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0x740f4566; BYTE $0xe9               // pcmpeqb    xmm13, xmm9
-	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	LONG $0x1a74b60f; BYTE $0x19               // movzx    esi, byte [rdx + rbx + 25]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x740f4566; BYTE $0xe1               // pcmpeqb    xmm12, xmm9
-	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI2_14] */
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x1a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rbx + 26]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x00010024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 256]
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x010e0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 14], 1
-	QUAD $0x0e2264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r12 + 14], 2
-	QUAD $0x0e1264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r10 + 14], 3
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x040e0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 14], 4
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x050e0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 14], 5
-	QUAD $0x060e3a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 14], 6
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x0e1a64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r11 + 14], 7
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x0e0a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r9 + 14], 8
-	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
-	QUAD $0x0e3264203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r14 + 14], 9
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	QUAD $0x0e3a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r15 + 14], 10
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0e3264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 14], 11
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0e3a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 14], 12
-	QUAD $0x0e2a64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r13 + 14], 13
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x0e2a64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r13 + 14], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f0e3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 14], 15
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0f3274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rsi + 15], 1
-	QUAD $0x0f2274203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r12 + 15], 2
-	QUAD $0x0f1274203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r10 + 15], 3
-	QUAD $0x0f0274203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rdx + rax + 15], 4
-	QUAD $0x0f0a74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rdx + rcx + 15], 5
-	QUAD $0x0f3a74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rdx + rdi + 15], 6
-	QUAD $0x0f0274203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rdx + r8 + 15], 7
-	QUAD $0x0f0a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r9 + 15], 8
-	QUAD $0x0f1a74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rbx + 15], 9
-	QUAD $0x0f1a74203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + r11 + 15], 10
-	QUAD $0x0f3274203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + r14 + 15], 11
-	QUAD $0x0f3a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r15 + 15], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0f3274203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rsi + 15], 13
-	QUAD $0x0f2a74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r13 + 15], 14
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0f3274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rsi + 15], 15
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x10327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 16], 1
-	QUAD $0x10227c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r12 + 16], 2
-	QUAD $0x10127c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r10 + 16], 3
-	QUAD $0x10027c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rdx + rax + 16], 4
-	QUAD $0x100a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rcx + 16], 5
-	QUAD $0x103a7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rdx + rdi + 16], 6
-	QUAD $0x10027c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r8 + 16], 7
-	QUAD $0x100a7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r9 + 16], 8
-	QUAD $0x101a7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rdx + rbx + 16], 9
-	QUAD $0x101a7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r11 + 16], 10
-	QUAD $0x10327c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r14 + 16], 11
-	QUAD $0x103a7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r15 + 16], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x10327c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rsi + 16], 13
-	QUAD $0x102a7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + r13 + 16], 14
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x01113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 1
-	QUAD $0x112244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r12 + 17], 2
-	QUAD $0x111244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r10 + 17], 3
-	QUAD $0x04110244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 17], 4
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x05110a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 17], 5
-	QUAD $0x06113a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 17], 6
-	QUAD $0x110244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r8 + 17], 7
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x110a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r9 + 17], 8
-	QUAD $0x09111a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 17], 9
-	QUAD $0x111a44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r11 + 17], 10
-	QUAD $0x113244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r14 + 17], 11
-	QUAD $0x113a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 17], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0d113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 13
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x0e113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 14
-	QUAD $0x00a024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 160]
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x74b60f42; WORD $0x1b22             // movzx    esi, byte [rdx + r12 + 27]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	QUAD $0x00b024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xe5               // pcmpeqb    xmm4, xmm13
-	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI2_15] */
-	LONG $0x740f4566; BYTE $0xf5               // pcmpeqb    xmm14, xmm13
-	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
-	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
-	LONG $0x74b60f42; WORD $0x1c22             // movzx    esi, byte [rdx + r12 + 28]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x110244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r8 + 17], 15
-	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
-	LONG $0x740f4166; BYTE $0xc5               // pcmpeqb    xmm0, xmm13
-	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI2_10] */
-	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
-	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
-	QUAD $0x00a024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm13
-	LONG $0x74b60f42; WORD $0x1d22             // movzx    esi, byte [rdx + r12 + 29]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	QUAD $0x10027c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r8 + 16], 15
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x12226c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r12 + 18], 1
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0212326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 2
-	QUAD $0x12126c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r10 + 18], 3
-	QUAD $0x122a6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r13 + 18], 4
-	QUAD $0x05120a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 18], 5
-	QUAD $0x06123a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 18], 6
-	QUAD $0x0712026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 18], 7
-	QUAD $0x120a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r9 + 18], 8
-	QUAD $0x09121a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 18], 9
-	QUAD $0x121a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r11 + 18], 10
-	QUAD $0x12326c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r14 + 18], 11
-	QUAD $0x123a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 18], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0d12326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 13
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x0e12326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 14
-	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
-	QUAD $0x12026c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r8 + 18], 15
-	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
-	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	QUAD $0x13227c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rdx + r12 + 19], 1
-	QUAD $0x142274203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rdx + r12 + 20], 1
-	QUAD $0x152254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r12 + 21], 1
-	QUAD $0x16225c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r12 + 22], 1
-	QUAD $0x172244203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r12 + 23], 1
-	QUAD $0x182254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r12 + 24], 1
-	QUAD $0x19224c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rdx + r12 + 25], 1
-	QUAD $0x1a225c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r12 + 26], 1
-	QUAD $0x1b224c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rdx + r12 + 27], 1
-	QUAD $0x1c2264203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rdx + r12 + 28], 1
-	QUAD $0x1d226c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r12 + 29], 1
-	QUAD $0x1e2264203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r12 + 30], 1
-	LONG $0x0274b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rax + 31]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x1f2244203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rdx + r12 + 31], 1
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0213327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 19], 2
-	QUAD $0x02143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 2
-	QUAD $0x02153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 2
-	QUAD $0x0216325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 22], 2
-	QUAD $0x173244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rsi + 23], 2
-	QUAD $0x183254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rsi + 24], 2
-	QUAD $0x0219324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 25], 2
-	QUAD $0x1a325c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rsi + 26], 2
-	QUAD $0x1b324c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rsi + 27], 2
-	QUAD $0x021c3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 28], 2
-	QUAD $0x1d326c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rsi + 29], 2
-	QUAD $0x1e3264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rsi + 30], 2
-	QUAD $0x021f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 2
-	QUAD $0x13127c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r10 + 19], 3
-	QUAD $0x132a7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r13 + 19], 4
-	QUAD $0x05130a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 19], 5
-	QUAD $0x06133a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 19], 6
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	QUAD $0x0713027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 19], 7
-	QUAD $0x130a7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r9 + 19], 8
-	QUAD $0x09131a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 19], 9
-	QUAD $0x131a7c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r11 + 19], 10
-	QUAD $0x13327c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r14 + 19], 11
-	QUAD $0x133a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 19], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0d13327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 19], 13
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x13227c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r12 + 19], 14
-	QUAD $0x13027c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r8 + 19], 15
-	QUAD $0x141274203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r10 + 20], 3
-	QUAD $0x142a74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r13 + 20], 4
-	QUAD $0x05140a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 20], 5
-	QUAD $0x06143a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 20], 6
-	QUAD $0x07140274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 20], 7
-	QUAD $0x140a74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r9 + 20], 8
-	QUAD $0x09141a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 20], 9
-	QUAD $0x141a74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r11 + 20], 10
-	QUAD $0x143274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r14 + 20], 11
-	QUAD $0x143a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 20], 12
-	QUAD $0x0d143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 13
-	QUAD $0x142274203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r12 + 20], 14
-	QUAD $0x0000a024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 160]
-	QUAD $0x140274203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r8 + 20], 15
-	QUAD $0x00b024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
-	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0x740f4166; BYTE $0xf7               // pcmpeqb    xmm6, xmm15
-	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0x151254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r10 + 21], 3
-	QUAD $0x152a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r13 + 21], 4
-	QUAD $0x05150a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 21], 5
-	QUAD $0x06153a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 21], 6
-	QUAD $0x07150254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 21], 7
-	QUAD $0x150a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r9 + 21], 8
-	QUAD $0x09151a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 21], 9
-	QUAD $0x151a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r11 + 21], 10
-	QUAD $0x153254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r14 + 21], 11
-	QUAD $0x153a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 21], 12
-	QUAD $0x0d153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 13
-	QUAD $0x152254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r12 + 21], 14
-	QUAD $0x150254203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r8 + 21], 15
-	LONG $0x740f4166; BYTE $0xd7               // pcmpeqb    xmm2, xmm15
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI2_14] */
-	LONG $0xd7db0f66                           // pand    xmm2, xmm7
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0xd5eb0f66                           // por    xmm2, xmm5
-	QUAD $0x16125c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r10 + 22], 3
-	QUAD $0x162a5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r13 + 22], 4
-	QUAD $0x05160a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 22], 5
-	QUAD $0x06163a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 22], 6
-	QUAD $0x0716025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 22], 7
-	QUAD $0x160a5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r9 + 22], 8
-	QUAD $0x09161a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 22], 9
-	QUAD $0x161a5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r11 + 22], 10
-	QUAD $0x16325c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r14 + 22], 11
-	QUAD $0x163a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r15 + 22], 12
-	QUAD $0x0d16325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 22], 13
-	QUAD $0x16225c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r12 + 22], 14
-	QUAD $0x16025c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r8 + 22], 15
-	QUAD $0x171244203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r10 + 23], 3
-	QUAD $0x172a44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r13 + 23], 4
-	QUAD $0x170a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rcx + 23], 5
-	QUAD $0x173a44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rdx + rdi + 23], 6
-	QUAD $0x170244203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rdx + rax + 23], 7
-	QUAD $0x170a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r9 + 23], 8
-	QUAD $0x171a44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rbx + 23], 9
-	QUAD $0x171a44203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + r11 + 23], 10
-	QUAD $0x173244203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r14 + 23], 11
-	QUAD $0x173a44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r15 + 23], 12
-	QUAD $0x173244203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rsi + 23], 13
-	QUAD $0x172244203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + r12 + 23], 14
-	QUAD $0x170244203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r8 + 23], 15
-	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
-	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI2_15] */
-	LONG $0xdddb0f66                           // pand    xmm3, xmm5
-	LONG $0x740f4566; BYTE $0xc7               // pcmpeqb    xmm8, xmm15
-	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
-	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	QUAD $0x19124c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r10 + 25], 3
-	QUAD $0x192a4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r13 + 25], 4
-	QUAD $0x05190a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 25], 5
-	QUAD $0x06193a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 25], 6
-	QUAD $0x0719024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 25], 7
-	QUAD $0x190a4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r9 + 25], 8
-	QUAD $0x09191a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 25], 9
-	QUAD $0x191a4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r11 + 25], 10
-	QUAD $0x19324c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r14 + 25], 11
-	QUAD $0x193a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 25], 12
-	QUAD $0x0d19324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 25], 13
-	QUAD $0x19224c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r12 + 25], 14
-	QUAD $0x19024c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r8 + 25], 15
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x740f4166; BYTE $0xcf               // pcmpeqb    xmm1, xmm15
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI2_10] */
-	LONG $0xd3db0f66                           // pand    xmm2, xmm3
-	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
-	QUAD $0x181254203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r10 + 24], 3
-	QUAD $0x182a54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r13 + 24], 4
-	QUAD $0x180a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rcx + 24], 5
-	QUAD $0x183a54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rdx + rdi + 24], 6
-	QUAD $0x180254203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rax + 24], 7
-	QUAD $0x180a54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r9 + 24], 8
-	QUAD $0x181a54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rbx + 24], 9
-	QUAD $0x181a54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r11 + 24], 10
-	QUAD $0x183254203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r14 + 24], 11
-	QUAD $0x183a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r15 + 24], 12
-	QUAD $0x183254203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rsi + 24], 13
-	QUAD $0x182254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r12 + 24], 14
-	QUAD $0x180254203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r8 + 24], 15
-	LONG $0x740f4566; BYTE $0xd7               // pcmpeqb    xmm10, xmm15
-	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
-	QUAD $0x1a125c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r10 + 26], 3
-	QUAD $0x1a2a5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r13 + 26], 4
-	QUAD $0x1a0a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rcx + 26], 5
-	QUAD $0x1a3a5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rdx + rdi + 26], 6
-	QUAD $0x1a025c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rax + 26], 7
-	QUAD $0x1a0a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r9 + 26], 8
-	QUAD $0x1a1a5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rbx + 26], 9
-	QUAD $0x1a1a5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r11 + 26], 10
-	QUAD $0x1a325c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r14 + 26], 11
-	QUAD $0x1a3a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 26], 12
-	QUAD $0x1a325c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rsi + 26], 13
-	QUAD $0x1a225c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r12 + 26], 14
-	QUAD $0x1a025c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r8 + 26], 15
-	LONG $0x740f4566; BYTE $0xdf               // pcmpeqb    xmm11, xmm15
-	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI2_11] */
-	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
-	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
-	QUAD $0x1b124c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r10 + 27], 3
-	QUAD $0x1b2a4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r13 + 27], 4
-	QUAD $0x1b0a4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rcx + 27], 5
-	QUAD $0x1b3a4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rdx + rdi + 27], 6
-	QUAD $0x1b024c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rdx + rax + 27], 7
-	QUAD $0x1b0a4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r9 + 27], 8
-	QUAD $0x1b1a4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rdx + rbx + 27], 9
-	QUAD $0x1b1a4c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r11 + 27], 10
-	QUAD $0x1b324c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r14 + 27], 11
-	QUAD $0x1b3a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r15 + 27], 12
-	QUAD $0x1b324c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rsi + 27], 13
-	QUAD $0x1b224c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r12 + 27], 14
-	QUAD $0x1b024c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r8 + 27], 15
-	QUAD $0x1c1264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r10 + 28], 3
-	QUAD $0x1c2a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r13 + 28], 4
-	QUAD $0x051c0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 28], 5
-	QUAD $0x061c3a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 28], 6
-	QUAD $0x071c0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 28], 7
-	QUAD $0x1c0a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r9 + 28], 8
-	QUAD $0x091c1a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 28], 9
-	QUAD $0x1c1a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r11 + 28], 10
-	QUAD $0x1c3264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 28], 11
-	QUAD $0x1c3a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 28], 12
-	QUAD $0x0d1c3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 28], 13
-	QUAD $0x1c2264203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r12 + 28], 14
-	QUAD $0x1c0264203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r8 + 28], 15
-	QUAD $0x1d126c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r10 + 29], 3
-	QUAD $0x1d2a6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r13 + 29], 4
-	QUAD $0x1d0a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rcx + 29], 5
-	QUAD $0x1d3a6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rdx + rdi + 29], 6
-	QUAD $0x1d026c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rdx + rax + 29], 7
-	QUAD $0x1d0a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r9 + 29], 8
-	QUAD $0x1d1a6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rbx + 29], 9
-	QUAD $0x1d1a6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + r11 + 29], 10
-	QUAD $0x1d326c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r14 + 29], 11
-	QUAD $0x1d3a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r15 + 29], 12
-	QUAD $0x1d326c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + rsi + 29], 13
-	QUAD $0x1d226c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r12 + 29], 14
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0x740f4566; BYTE $0xcf               // pcmpeqb    xmm9, xmm15
-	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI2_12] */
-	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
-	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI2_13] */
-	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
-	QUAD $0x1d026c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + r8 + 29], 15
-	LONG $0x740f4566; BYTE $0xef               // pcmpeqb    xmm13, xmm15
-	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
-	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
-	QUAD $0x1e1264203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r10 + 30], 3
-	QUAD $0x1f1244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r10 + 31], 3
-	QUAD $0x1e2a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r13 + 30], 4
-	QUAD $0x1f2a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r13 + 31], 4
-	QUAD $0x1e0a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rcx + 30], 5
-	QUAD $0x051f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 31], 5
-	QUAD $0x1e3a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rdi + 30], 6
-	QUAD $0x061f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 31], 6
-	QUAD $0x1e0264203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rax + 30], 7
-	QUAD $0x071f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 31], 7
-	QUAD $0x1e0a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r9 + 30], 8
-	QUAD $0x1f0a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r9 + 31], 8
-	QUAD $0x1e1a64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rbx + 30], 9
-	QUAD $0x091f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 31], 9
-	QUAD $0x1e1a64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r11 + 30], 10
-	QUAD $0x1f1a44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r11 + 31], 10
-	QUAD $0x1e3264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r14 + 30], 11
-	QUAD $0x1f3244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r14 + 31], 11
-	QUAD $0x1e3a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r15 + 30], 12
-	QUAD $0x1f3a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 31], 12
-	QUAD $0x1e3264203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rsi + 30], 13
-	QUAD $0x0d1f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 13
-	QUAD $0x1e2264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r12 + 30], 14
-	QUAD $0x1f2244203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r12 + 31], 14
-	QUAD $0x1e0264203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r8 + 30], 15
-	QUAD $0x1f0244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r8 + 31], 15
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x740f4566; BYTE $0xe7               // pcmpeqb    xmm12, xmm15
-	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
-	LONG $0x740f4166; BYTE $0xc7               // pcmpeqb    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0xc6db0f66                           // pand    xmm0, xmm6
-	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
-	QUAD $0x0000c024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 192]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
-	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
-	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
-	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	LONG $0x647f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm4
-	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
-	LONG $0x547f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm2
-	LONG $0x1c7f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
-	JNE  LBB2_189
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x000000e824bc3b4c                   // cmp    r15, qword [rsp + 232]
-	LONG $0x24748a44; BYTE $0x08               // mov    r14b, byte [rsp + 8]
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	JNE  LBB2_69
-	JMP  LBB2_135
-
-LBB2_191:
-	LONG $0xf8e68349                     // and    r14, -8
-	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
-	LONG $0x06e0c148                     // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	LONG $0x24448948; BYTE $0x40         // mov    qword [rsp + 64], rax
-	LONG $0x24048b48                     // mov    rax, qword [rsp]
-	LONG $0x2474894c; BYTE $0x20         // mov    qword [rsp + 32], r14
-	LONG $0xb0048d4a                     // lea    rax, [rax + 4*r14]
-	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
-	LONG $0x246c8944; BYTE $0x38         // mov    dword [rsp + 56], r13d
-	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
-	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
-	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI2_8] */
-	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI2_1] */
-	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI2_2] */
-	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI2_3] */
-	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI2_4] */
-	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI2_5] */
-	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
-
-LBB2_192:
-	LONG $0x247c894c; BYTE $0x30               // mov    qword [rsp + 48], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	LONG $0x04b70f42; BYTE $0x3a               // movzx    eax, word [rdx + r15]
-	LONG $0x54b70f46; WORD $0x023a             // movzx    r10d, word [rdx + r15 + 2]
-	LONG $0x74b70f46; WORD $0x043a             // movzx    r14d, word [rdx + r15 + 4]
-	LONG $0x74b70f42; WORD $0x063a             // movzx    esi, word [rdx + r15 + 6]
-	LONG $0x5cb70f46; WORD $0x083a             // movzx    r11d, word [rdx + r15 + 8]
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0xc40f4266; WORD $0x0224; BYTE $0x01 // pinsrw    xmm4, word [rdx + r8], 1
-	LONG $0xc40f4266; WORD $0x0a24; BYTE $0x02 // pinsrw    xmm4, word [rdx + r9], 2
-	LONG $0xc40f4266; WORD $0x2224; BYTE $0x03 // pinsrw    xmm4, word [rdx + r12], 3
-	LONG $0xc40f4266; WORD $0x2a24; BYTE $0x04 // pinsrw    xmm4, word [rdx + r13], 4
-	LONG $0x24c40f66; WORD $0x050a             // pinsrw    xmm4, word [rdx + rcx], 5
-	LONG $0x24c40f66; WORD $0x063a             // pinsrw    xmm4, word [rdx + rdi], 6
-	LONG $0x24c40f66; WORD $0x071a             // pinsrw    xmm4, word [rdx + rbx], 7
-	LONG $0x44b70f42; WORD $0x0a3a             // movzx    eax, word [rdx + r15 + 10]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	QUAD $0x01020274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 2], 1
-	QUAD $0x02020a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 2], 2
-	QUAD $0x03022274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 2], 3
-	LONG $0x44b70f42; WORD $0x0c3a             // movzx    eax, word [rdx + r15 + 12]
-	LONG $0x10244489                           // mov    dword [rsp + 16], eax
-	QUAD $0x04022a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 2], 4
-	LONG $0x6e0f4166; BYTE $0xd6               // movd    xmm2, r14d
-	LONG $0x74b70f46; WORD $0x0e3a             // movzx    r14d, word [rdx + r15 + 14]
-	LONG $0x74c40f66; WORD $0x020a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 2], 5
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x74b70f42; WORD $0x103a             // movzx    esi, word [rdx + r15 + 16]
-	LONG $0x74c40f66; WORD $0x023a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 2], 6
-	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
-	LONG $0x44b70f42; WORD $0x123a             // movzx    eax, word [rdx + r15 + 18]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	LONG $0x74c40f66; WORD $0x021a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 2], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xcef80f66                           // psubb    xmm1, xmm6
-	LONG $0x746e0f66; WORD $0x1824             // movd    xmm6, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x143a             // movzx    r10d, word [rdx + r15 + 20]
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	QUAD $0x01040254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 4], 1
-	QUAD $0x02040a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 4], 2
-	QUAD $0x03042254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 4], 3
-	QUAD $0x04042a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 4], 4
-	LONG $0x54c40f66; WORD $0x040a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 4], 5
-	LONG $0x54c40f66; WORD $0x043a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 4], 6
-	LONG $0x54c40f66; WORD $0x041a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 4], 7
-	QUAD $0x0106026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 6], 1
-	QUAD $0x02060a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 6], 2
-	QUAD $0x0306226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 6], 3
-	QUAD $0x04062a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 6], 4
-	LONG $0x6cc40f66; WORD $0x060a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 6], 5
-	LONG $0x6cc40f66; WORD $0x063a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 6], 6
-	LONG $0x6cc40f66; WORD $0x061a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 6], 7
-	QUAD $0x0108025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 8], 1
-	QUAD $0x02080a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 8], 2
-	QUAD $0x0308225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 8], 3
-	QUAD $0x04082a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 8], 4
-	LONG $0x5cc40f66; WORD $0x080a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 8], 5
-	LONG $0x5cc40f66; WORD $0x083a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 8], 6
-	LONG $0x5cc40f66; WORD $0x081a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 8], 7
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x7c6e0f66; WORD $0x1024             // movd    xmm7, dword [rsp + 16]
-	LONG $0x44b70f42; WORD $0x163a             // movzx    eax, word [rdx + r15 + 22]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
-	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0x5cb70f46; WORD $0x183a             // movzx    r11d, word [rdx + r15 + 24]
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x74b70f42; WORD $0x1a3a             // movzx    esi, word [rdx + r15 + 26]
-	QUAD $0x010a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 10], 1
-	QUAD $0x020a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 10], 2
-	QUAD $0x030a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 10], 3
-	QUAD $0x040a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 10], 4
-	LONG $0x74c40f66; WORD $0x0a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 10], 5
-	LONG $0x74c40f66; WORD $0x0a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 10], 6
-	LONG $0x74c40f66; WORD $0x0a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 10], 7
-	QUAD $0x010c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 12], 1
-	QUAD $0x020c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 12], 2
-	QUAD $0x030c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 12], 3
-	QUAD $0x040c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 12], 4
-	LONG $0x7cc40f66; WORD $0x0c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 12], 5
-	LONG $0x7cc40f66; WORD $0x0c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 12], 6
-	LONG $0x7cc40f66; WORD $0x0c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 12], 7
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x28 // movd    xmm8, dword [rsp + 40]
-	LONG $0x74b70f46; WORD $0x1c3a             // movzx    r14d, word [rdx + r15 + 28]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xea               // movd    xmm5, r10d
-	LONG $0x54b70f46; WORD $0x1e3a             // movzx    r10d, word [rdx + r15 + 30]
-	QUAD $0x010e0264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 14], 1
-	QUAD $0x020e0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 14], 2
-	QUAD $0x030e2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 14], 3
-	QUAD $0x040e2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 14], 4
-	LONG $0x64c40f66; WORD $0x0e0a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 14], 5
-	LONG $0x64c40f66; WORD $0x0e3a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 14], 6
-	LONG $0x64c40f66; WORD $0x0e1a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 14], 7
-	QUAD $0x01120244c40f4666                   // pinsrw    xmm8, word [rdx + r8 + 18], 1
-	QUAD $0x02120a44c40f4666                   // pinsrw    xmm8, word [rdx + r9 + 18], 2
-	QUAD $0x03122244c40f4666                   // pinsrw    xmm8, word [rdx + r12 + 18], 3
-	QUAD $0x04122a44c40f4666                   // pinsrw    xmm8, word [rdx + r13 + 18], 4
-	QUAD $0x05120a44c40f4466                   // pinsrw    xmm8, word [rdx + rcx + 18], 5
-	QUAD $0x06123a44c40f4466                   // pinsrw    xmm8, word [rdx + rdi + 18], 6
-	QUAD $0x07121a44c40f4466                   // pinsrw    xmm8, word [rdx + rbx + 18], 7
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x203a             // movzx    eax, word [rdx + r15 + 32]
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x750f4466; BYTE $0xc0               // pcmpeqw    xmm8, xmm0
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
-	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
-	LONG $0x5cb70f46; WORD $0x223a             // movzx    r11d, word [rdx + r15 + 34]
-	QUAD $0x0110024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 16], 1
-	QUAD $0x02100a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 16], 2
-	QUAD $0x0310224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 16], 3
-	QUAD $0x04102a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 16], 4
-	LONG $0x4cc40f66; WORD $0x100a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 16], 5
-	LONG $0x4cc40f66; WORD $0x103a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 16], 6
-	LONG $0x4cc40f66; WORD $0x101a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 16], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	LONG $0x74b70f42; WORD $0x243a             // movzx    esi, word [rdx + r15 + 36]
-	LONG $0x28247489                           // mov    dword [rsp + 40], esi
-	QUAD $0x0114026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 20], 1
-	QUAD $0x02140a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 20], 2
-	QUAD $0x0314226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 20], 3
-	QUAD $0x04142a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 20], 4
-	LONG $0x6cc40f66; WORD $0x140a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 20], 5
-	LONG $0x6cc40f66; WORD $0x143a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 20], 6
-	LONG $0x6cc40f66; WORD $0x141a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 20], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
-	LONG $0x74b70f42; WORD $0x263a             // movzx    esi, word [rdx + r15 + 38]
-	LONG $0x10247489                           // mov    dword [rsp + 16], esi
-	QUAD $0x01160254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 22], 1
-	QUAD $0x02160a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 22], 2
-	QUAD $0x03162254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 22], 3
-	QUAD $0x04162a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 22], 4
-	LONG $0x54c40f66; WORD $0x160a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 22], 5
-	LONG $0x54c40f66; WORD $0x163a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 22], 6
-	LONG $0x54c40f66; WORD $0x161a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 22], 7
-	QUAD $0x0118025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 24], 1
-	QUAD $0x02180a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 24], 2
-	QUAD $0x0318225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 24], 3
-	QUAD $0x04182a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 24], 4
-	LONG $0x5cc40f66; WORD $0x180a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 24], 5
-	LONG $0x5cc40f66; WORD $0x183a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 24], 6
-	LONG $0x5cc40f66; WORD $0x181a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 24], 7
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	LONG $0x74b70f46; WORD $0x283a             // movzx    r14d, word [rdx + r15 + 40]
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x2a3a             // movzx    eax, word [rdx + r15 + 42]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	QUAD $0x011a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 26], 1
-	QUAD $0x021a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 26], 2
-	QUAD $0x031a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 26], 3
-	QUAD $0x041a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 26], 4
-	LONG $0x74c40f66; WORD $0x1a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 26], 5
-	LONG $0x74c40f66; WORD $0x1a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 26], 6
-	LONG $0x74c40f66; WORD $0x1a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 26], 7
-	QUAD $0x011c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 28], 1
-	QUAD $0x021c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 28], 2
-	QUAD $0x031c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 28], 3
-	QUAD $0x041c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 28], 4
-	LONG $0x7cc40f66; WORD $0x1c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 28], 5
-	LONG $0x7cc40f66; WORD $0x1c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 28], 6
-	LONG $0x7cc40f66; WORD $0x1c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 28], 7
-	QUAD $0x011e0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 30], 1
-	QUAD $0x021e0a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 30], 2
-	QUAD $0x031e2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 30], 3
-	QUAD $0x041e2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 30], 4
-	LONG $0x54c40f66; WORD $0x1e0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 30], 5
-	LONG $0x54c40f66; WORD $0x1e3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 30], 6
-	LONG $0x54c40f66; WORD $0x1e1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 30], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x54b70f46; WORD $0x2c3a             // movzx    r10d, word [rdx + r15 + 44]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x746e0f66; WORD $0x2824             // movd    xmm6, dword [rsp + 40]
-	LONG $0x74b70f42; WORD $0x2e3a             // movzx    esi, word [rdx + r15 + 46]
-	QUAD $0x0120026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 32], 1
-	QUAD $0x02200a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 32], 2
-	QUAD $0x0320226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 32], 3
-	QUAD $0x04202a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 32], 4
-	LONG $0x6cc40f66; WORD $0x200a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 32], 5
-	LONG $0x6cc40f66; WORD $0x203a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 32], 6
-	QUAD $0x0122024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 34], 1
-	QUAD $0x02220a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 34], 2
-	QUAD $0x0322224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 34], 3
-	QUAD $0x04222a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 34], 4
-	LONG $0x4cc40f66; WORD $0x220a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 34], 5
-	LONG $0x4cc40f66; WORD $0x223a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 34], 6
-	LONG $0x4cc40f66; WORD $0x221a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 34], 7
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
-	LONG $0x5c6e0f66; WORD $0x1024             // movd    xmm3, dword [rsp + 16]
-	LONG $0x5cb70f46; WORD $0x303a             // movzx    r11d, word [rdx + r15 + 48]
-	LONG $0x6cc40f66; WORD $0x201a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 32], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	QUAD $0x01240274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 36], 1
-	QUAD $0x02240a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 36], 2
-	QUAD $0x03242274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 36], 3
-	QUAD $0x04242a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 36], 4
-	LONG $0x74c40f66; WORD $0x240a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 36], 5
-	LONG $0x74c40f66; WORD $0x243a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 36], 6
-	LONG $0x74c40f66; WORD $0x241a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 36], 7
-	QUAD $0x0126025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 38], 1
-	QUAD $0x02260a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 38], 2
-	QUAD $0x0326225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 38], 3
-	QUAD $0x04262a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 38], 4
-	LONG $0x5cc40f66; WORD $0x260a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 38], 5
-	LONG $0x5cc40f66; WORD $0x263a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 38], 6
-	LONG $0x5cc40f66; WORD $0x261a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 38], 7
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
-	QUAD $0x0128026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 40], 1
-	QUAD $0x02280a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 40], 2
-	QUAD $0x0328226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 40], 3
-	QUAD $0x04282a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 40], 4
-	LONG $0x6cc40f66; WORD $0x280a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 40], 5
-	LONG $0x6cc40f66; WORD $0x283a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 40], 6
-	LONG $0x44b70f42; WORD $0x323a             // movzx    eax, word [rdx + r15 + 50]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
-	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
-	LONG $0x74b70f46; WORD $0x343a             // movzx    r14d, word [rdx + r15 + 52]
-	LONG $0x6cc40f66; WORD $0x281a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 40], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
-	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
-	LONG $0x54b70f46; WORD $0x363a             // movzx    r10d, word [rdx + r15 + 54]
-	QUAD $0x012a024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 42], 1
-	QUAD $0x022a0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 42], 2
-	QUAD $0x032a224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 42], 3
-	QUAD $0x042a2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 42], 4
-	LONG $0x4cc40f66; WORD $0x2a0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 42], 5
-	LONG $0x4cc40f66; WORD $0x2a3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 42], 6
-	LONG $0x4cc40f66; WORD $0x2a1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 42], 7
-	QUAD $0x012c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 44], 1
-	QUAD $0x022c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 44], 2
-	QUAD $0x032c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 44], 3
-	QUAD $0x042c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 44], 4
-	LONG $0x7cc40f66; WORD $0x2c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 44], 5
-	LONG $0x7cc40f66; WORD $0x2c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 44], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0x74b70f42; WORD $0x383a             // movzx    esi, word [rdx + r15 + 56]
-	LONG $0x7cc40f66; WORD $0x2c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 44], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
-	LONG $0x5cb70f46; WORD $0x3a3a             // movzx    r11d, word [rdx + r15 + 58]
-	QUAD $0x012e025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 46], 1
-	QUAD $0x022e0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 46], 2
-	QUAD $0x032e225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 46], 3
-	QUAD $0x042e2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 46], 4
-	LONG $0x5cc40f66; WORD $0x2e0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 46], 5
-	LONG $0x5cc40f66; WORD $0x2e3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 46], 6
-	LONG $0x5cc40f66; WORD $0x2e1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 46], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x3c3a             // movzx    eax, word [rdx + r15 + 60]
-	LONG $0x7cb70f46; WORD $0x3e3a             // movzx    r15d, word [rdx + r15 + 62]
-	QUAD $0x0132024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 50], 1
-	QUAD $0x02320a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 50], 2
-	QUAD $0x0332224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 50], 3
-	QUAD $0x04322a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x320a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 50], 6
-	LONG $0x4cc40f66; WORD $0x321a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 50], 7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	QUAD $0x01300274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 48], 1
-	QUAD $0x02300a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 48], 2
-	QUAD $0x03302274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 48], 3
-	QUAD $0x04302a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 48], 4
-	LONG $0x74c40f66; WORD $0x300a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 48], 5
-	LONG $0x74c40f66; WORD $0x303a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 48], 6
-	LONG $0x74c40f66; WORD $0x301a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 48], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	QUAD $0x0134024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 52], 1
-	QUAD $0x02340a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 52], 2
-	QUAD $0x0334224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 52], 3
-	QUAD $0x04342a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 52], 4
-	LONG $0x4cc40f66; WORD $0x340a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 52], 5
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x4cc40f66; WORD $0x343a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 52], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x4cc40f66; WORD $0x341a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 52], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
-	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	QUAD $0x01360274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 54], 1
-	QUAD $0x02360a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 54], 2
-	QUAD $0x03362274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 54], 3
-	QUAD $0x04362a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 54], 4
-	LONG $0x74c40f66; WORD $0x360a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 54], 5
-	LONG $0x74c40f66; WORD $0x363a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 54], 6
-	LONG $0x74c40f66; WORD $0x361a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 54], 7
-	QUAD $0x0138026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 56], 1
-	QUAD $0x02380a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 56], 2
-	QUAD $0x0338226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 56], 3
-	QUAD $0x04382a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 56], 4
-	LONG $0x6cc40f66; WORD $0x380a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 56], 5
-	LONG $0x6cc40f66; WORD $0x383a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 56], 6
-	LONG $0x6cc40f66; WORD $0x381a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 56], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
-	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	QUAD $0x013a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 58], 1
-	QUAD $0x023a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 58], 2
-	QUAD $0x033a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 58], 3
-	QUAD $0x043a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 58], 4
-	LONG $0x74c40f66; WORD $0x3a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 58], 5
-	LONG $0x74c40f66; WORD $0x3a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 58], 6
-	LONG $0x74c40f66; WORD $0x3a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 58], 7
-	LONG $0xe9eb0f66                           // por    xmm5, xmm1
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	QUAD $0x013c024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 60], 1
-	QUAD $0x023c0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 60], 2
-	QUAD $0x033c224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 60], 3
-	QUAD $0x043c2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 60], 4
-	LONG $0x4cc40f66; WORD $0x3c0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 60], 5
-	LONG $0x4cc40f66; WORD $0x3c3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 60], 6
-	LONG $0x4cc40f66; WORD $0x3c1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 60], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
-	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
-	LONG $0xceeb0f66                           // por    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
-	QUAD $0x013e0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 62], 1
-	QUAD $0x023e0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 62], 2
-	QUAD $0x033e2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 62], 3
-	QUAD $0x043e2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 62], 4
-	LONG $0x74c40f66; WORD $0x3e0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 62], 5
-	LONG $0x74c40f66; WORD $0x3e3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 62], 6
-	LONG $0x74c40f66; WORD $0x3e1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 62], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
-	LONG $0xf1eb0f66                           // por    xmm6, xmm1
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI2_9] */
-	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
-	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
-	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
-	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	LONG $0x247f0ff3; BYTE $0x8e               // movdqu    oword [rsi + 4*rcx], xmm4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	LONG $0x4c7f0ff3; WORD $0x108e             // movdqu    oword [rsi + 4*rcx + 16], xmm1
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x20               // cmp    rcx, qword [rsp + 32]
-	JNE  LBB2_192
-	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
-	LONG $0x24743b4c; BYTE $0x20               // cmp    r14, qword [rsp + 32]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	LONG $0x246c8b44; BYTE $0x38               // mov    r13d, dword [rsp + 56]
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	JNE  LBB2_92
-	JMP  LBB2_139
-
-LBB2_194:
-	LONG $0xf8e78349                     // and    r15, -8
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x06e0c148                     // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	LONG $0x24448948; BYTE $0x40         // mov    qword [rsp + 64], rax
-	LONG $0x24048b48                     // mov    rax, qword [rsp]
-	LONG $0x247c894c; BYTE $0x20         // mov    qword [rsp + 32], r15
-	LONG $0xb8048d4a                     // lea    rax, [rax + 4*r15]
-	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
-	LONG $0x246c8944; BYTE $0x38         // mov    dword [rsp + 56], r13d
-	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
-	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
-	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI2_8] */
-	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI2_1] */
-	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI2_2] */
-	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI2_3] */
-	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI2_4] */
-	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI2_5] */
-	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
-
-LBB2_195:
-	LONG $0x247c894c; BYTE $0x30               // mov    qword [rsp + 48], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	LONG $0x04b70f42; BYTE $0x3a               // movzx    eax, word [rdx + r15]
-	LONG $0x54b70f46; WORD $0x023a             // movzx    r10d, word [rdx + r15 + 2]
-	LONG $0x74b70f46; WORD $0x043a             // movzx    r14d, word [rdx + r15 + 4]
-	LONG $0x74b70f42; WORD $0x063a             // movzx    esi, word [rdx + r15 + 6]
-	LONG $0x5cb70f46; WORD $0x083a             // movzx    r11d, word [rdx + r15 + 8]
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0xc40f4266; WORD $0x0224; BYTE $0x01 // pinsrw    xmm4, word [rdx + r8], 1
-	LONG $0xc40f4266; WORD $0x0a24; BYTE $0x02 // pinsrw    xmm4, word [rdx + r9], 2
-	LONG $0xc40f4266; WORD $0x2224; BYTE $0x03 // pinsrw    xmm4, word [rdx + r12], 3
-	LONG $0xc40f4266; WORD $0x2a24; BYTE $0x04 // pinsrw    xmm4, word [rdx + r13], 4
-	LONG $0x24c40f66; WORD $0x050a             // pinsrw    xmm4, word [rdx + rcx], 5
-	LONG $0x24c40f66; WORD $0x063a             // pinsrw    xmm4, word [rdx + rdi], 6
-	LONG $0x24c40f66; WORD $0x071a             // pinsrw    xmm4, word [rdx + rbx], 7
-	LONG $0x44b70f42; WORD $0x0a3a             // movzx    eax, word [rdx + r15 + 10]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	QUAD $0x01020274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 2], 1
-	QUAD $0x02020a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 2], 2
-	QUAD $0x03022274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 2], 3
-	LONG $0x44b70f42; WORD $0x0c3a             // movzx    eax, word [rdx + r15 + 12]
-	LONG $0x10244489                           // mov    dword [rsp + 16], eax
-	QUAD $0x04022a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 2], 4
-	LONG $0x6e0f4166; BYTE $0xd6               // movd    xmm2, r14d
-	LONG $0x74b70f46; WORD $0x0e3a             // movzx    r14d, word [rdx + r15 + 14]
-	LONG $0x74c40f66; WORD $0x020a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 2], 5
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x74b70f42; WORD $0x103a             // movzx    esi, word [rdx + r15 + 16]
-	LONG $0x74c40f66; WORD $0x023a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 2], 6
-	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
-	LONG $0x44b70f42; WORD $0x123a             // movzx    eax, word [rdx + r15 + 18]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	LONG $0x74c40f66; WORD $0x021a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 2], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xcef80f66                           // psubb    xmm1, xmm6
-	LONG $0x746e0f66; WORD $0x1824             // movd    xmm6, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x143a             // movzx    r10d, word [rdx + r15 + 20]
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	QUAD $0x01040254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 4], 1
-	QUAD $0x02040a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 4], 2
-	QUAD $0x03042254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 4], 3
-	QUAD $0x04042a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 4], 4
-	LONG $0x54c40f66; WORD $0x040a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 4], 5
-	LONG $0x54c40f66; WORD $0x043a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 4], 6
-	LONG $0x54c40f66; WORD $0x041a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 4], 7
-	QUAD $0x0106026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 6], 1
-	QUAD $0x02060a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 6], 2
-	QUAD $0x0306226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 6], 3
-	QUAD $0x04062a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 6], 4
-	LONG $0x6cc40f66; WORD $0x060a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 6], 5
-	LONG $0x6cc40f66; WORD $0x063a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 6], 6
-	LONG $0x6cc40f66; WORD $0x061a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 6], 7
-	QUAD $0x0108025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 8], 1
-	QUAD $0x02080a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 8], 2
-	QUAD $0x0308225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 8], 3
-	QUAD $0x04082a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 8], 4
-	LONG $0x5cc40f66; WORD $0x080a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 8], 5
-	LONG $0x5cc40f66; WORD $0x083a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 8], 6
-	LONG $0x5cc40f66; WORD $0x081a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 8], 7
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x7c6e0f66; WORD $0x1024             // movd    xmm7, dword [rsp + 16]
-	LONG $0x44b70f42; WORD $0x163a             // movzx    eax, word [rdx + r15 + 22]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
-	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0x5cb70f46; WORD $0x183a             // movzx    r11d, word [rdx + r15 + 24]
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x74b70f42; WORD $0x1a3a             // movzx    esi, word [rdx + r15 + 26]
-	QUAD $0x010a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 10], 1
-	QUAD $0x020a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 10], 2
-	QUAD $0x030a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 10], 3
-	QUAD $0x040a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 10], 4
-	LONG $0x74c40f66; WORD $0x0a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 10], 5
-	LONG $0x74c40f66; WORD $0x0a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 10], 6
-	LONG $0x74c40f66; WORD $0x0a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 10], 7
-	QUAD $0x010c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 12], 1
-	QUAD $0x020c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 12], 2
-	QUAD $0x030c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 12], 3
-	QUAD $0x040c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 12], 4
-	LONG $0x7cc40f66; WORD $0x0c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 12], 5
-	LONG $0x7cc40f66; WORD $0x0c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 12], 6
-	LONG $0x7cc40f66; WORD $0x0c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 12], 7
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x28 // movd    xmm8, dword [rsp + 40]
-	LONG $0x74b70f46; WORD $0x1c3a             // movzx    r14d, word [rdx + r15 + 28]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xea               // movd    xmm5, r10d
-	LONG $0x54b70f46; WORD $0x1e3a             // movzx    r10d, word [rdx + r15 + 30]
-	QUAD $0x010e0264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 14], 1
-	QUAD $0x020e0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 14], 2
-	QUAD $0x030e2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 14], 3
-	QUAD $0x040e2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 14], 4
-	LONG $0x64c40f66; WORD $0x0e0a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 14], 5
-	LONG $0x64c40f66; WORD $0x0e3a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 14], 6
-	LONG $0x64c40f66; WORD $0x0e1a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 14], 7
-	QUAD $0x01120244c40f4666                   // pinsrw    xmm8, word [rdx + r8 + 18], 1
-	QUAD $0x02120a44c40f4666                   // pinsrw    xmm8, word [rdx + r9 + 18], 2
-	QUAD $0x03122244c40f4666                   // pinsrw    xmm8, word [rdx + r12 + 18], 3
-	QUAD $0x04122a44c40f4666                   // pinsrw    xmm8, word [rdx + r13 + 18], 4
-	QUAD $0x05120a44c40f4466                   // pinsrw    xmm8, word [rdx + rcx + 18], 5
-	QUAD $0x06123a44c40f4466                   // pinsrw    xmm8, word [rdx + rdi + 18], 6
-	QUAD $0x07121a44c40f4466                   // pinsrw    xmm8, word [rdx + rbx + 18], 7
-	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x203a             // movzx    eax, word [rdx + r15 + 32]
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x750f4466; BYTE $0xc0               // pcmpeqw    xmm8, xmm0
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
-	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
-	LONG $0x5cb70f46; WORD $0x223a             // movzx    r11d, word [rdx + r15 + 34]
-	QUAD $0x0110024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 16], 1
-	QUAD $0x02100a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 16], 2
-	QUAD $0x0310224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 16], 3
-	QUAD $0x04102a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 16], 4
-	LONG $0x4cc40f66; WORD $0x100a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 16], 5
-	LONG $0x4cc40f66; WORD $0x103a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 16], 6
-	LONG $0x4cc40f66; WORD $0x101a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 16], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	LONG $0x74b70f42; WORD $0x243a             // movzx    esi, word [rdx + r15 + 36]
-	LONG $0x28247489                           // mov    dword [rsp + 40], esi
-	QUAD $0x0114026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 20], 1
-	QUAD $0x02140a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 20], 2
-	QUAD $0x0314226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 20], 3
-	QUAD $0x04142a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 20], 4
-	LONG $0x6cc40f66; WORD $0x140a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 20], 5
-	LONG $0x6cc40f66; WORD $0x143a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 20], 6
-	LONG $0x6cc40f66; WORD $0x141a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 20], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
-	LONG $0x74b70f42; WORD $0x263a             // movzx    esi, word [rdx + r15 + 38]
-	LONG $0x10247489                           // mov    dword [rsp + 16], esi
-	QUAD $0x01160254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 22], 1
-	QUAD $0x02160a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 22], 2
-	QUAD $0x03162254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 22], 3
-	QUAD $0x04162a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 22], 4
-	LONG $0x54c40f66; WORD $0x160a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 22], 5
-	LONG $0x54c40f66; WORD $0x163a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 22], 6
-	LONG $0x54c40f66; WORD $0x161a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 22], 7
-	QUAD $0x0118025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 24], 1
-	QUAD $0x02180a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 24], 2
-	QUAD $0x0318225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 24], 3
-	QUAD $0x04182a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 24], 4
-	LONG $0x5cc40f66; WORD $0x180a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 24], 5
-	LONG $0x5cc40f66; WORD $0x183a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 24], 6
-	LONG $0x5cc40f66; WORD $0x181a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 24], 7
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	LONG $0x74b70f46; WORD $0x283a             // movzx    r14d, word [rdx + r15 + 40]
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x2a3a             // movzx    eax, word [rdx + r15 + 42]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	QUAD $0x011a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 26], 1
-	QUAD $0x021a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 26], 2
-	QUAD $0x031a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 26], 3
-	QUAD $0x041a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 26], 4
-	LONG $0x74c40f66; WORD $0x1a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 26], 5
-	LONG $0x74c40f66; WORD $0x1a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 26], 6
-	LONG $0x74c40f66; WORD $0x1a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 26], 7
-	QUAD $0x011c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 28], 1
-	QUAD $0x021c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 28], 2
-	QUAD $0x031c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 28], 3
-	QUAD $0x041c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 28], 4
-	LONG $0x7cc40f66; WORD $0x1c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 28], 5
-	LONG $0x7cc40f66; WORD $0x1c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 28], 6
-	LONG $0x7cc40f66; WORD $0x1c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 28], 7
-	QUAD $0x011e0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 30], 1
-	QUAD $0x021e0a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 30], 2
-	QUAD $0x031e2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 30], 3
-	QUAD $0x041e2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 30], 4
-	LONG $0x54c40f66; WORD $0x1e0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 30], 5
-	LONG $0x54c40f66; WORD $0x1e3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 30], 6
-	LONG $0x54c40f66; WORD $0x1e1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 30], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x54b70f46; WORD $0x2c3a             // movzx    r10d, word [rdx + r15 + 44]
-	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x746e0f66; WORD $0x2824             // movd    xmm6, dword [rsp + 40]
-	LONG $0x74b70f42; WORD $0x2e3a             // movzx    esi, word [rdx + r15 + 46]
-	QUAD $0x0120026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 32], 1
-	QUAD $0x02200a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 32], 2
-	QUAD $0x0320226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 32], 3
-	QUAD $0x04202a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 32], 4
-	LONG $0x6cc40f66; WORD $0x200a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 32], 5
-	LONG $0x6cc40f66; WORD $0x203a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 32], 6
-	QUAD $0x0122024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 34], 1
-	QUAD $0x02220a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 34], 2
-	QUAD $0x0322224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 34], 3
-	QUAD $0x04222a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 34], 4
-	LONG $0x4cc40f66; WORD $0x220a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 34], 5
-	LONG $0x4cc40f66; WORD $0x223a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 34], 6
-	LONG $0x4cc40f66; WORD $0x221a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 34], 7
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
-	LONG $0x5c6e0f66; WORD $0x1024             // movd    xmm3, dword [rsp + 16]
-	LONG $0x5cb70f46; WORD $0x303a             // movzx    r11d, word [rdx + r15 + 48]
-	LONG $0x6cc40f66; WORD $0x201a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 32], 7
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	QUAD $0x01240274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 36], 1
-	QUAD $0x02240a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 36], 2
-	QUAD $0x03242274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 36], 3
-	QUAD $0x04242a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 36], 4
-	LONG $0x74c40f66; WORD $0x240a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 36], 5
-	LONG $0x74c40f66; WORD $0x243a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 36], 6
-	LONG $0x74c40f66; WORD $0x241a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 36], 7
-	QUAD $0x0126025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 38], 1
-	QUAD $0x02260a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 38], 2
-	QUAD $0x0326225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 38], 3
-	QUAD $0x04262a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 38], 4
-	LONG $0x5cc40f66; WORD $0x260a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 38], 5
-	LONG $0x5cc40f66; WORD $0x263a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 38], 6
-	LONG $0x5cc40f66; WORD $0x261a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 38], 7
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
-	QUAD $0x0128026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 40], 1
-	QUAD $0x02280a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 40], 2
-	QUAD $0x0328226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 40], 3
-	QUAD $0x04282a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 40], 4
-	LONG $0x6cc40f66; WORD $0x280a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 40], 5
-	LONG $0x6cc40f66; WORD $0x283a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 40], 6
-	LONG $0x44b70f42; WORD $0x323a             // movzx    eax, word [rdx + r15 + 50]
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
-	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
-	LONG $0x74b70f46; WORD $0x343a             // movzx    r14d, word [rdx + r15 + 52]
-	LONG $0x6cc40f66; WORD $0x281a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 40], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
-	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
-	LONG $0x54b70f46; WORD $0x363a             // movzx    r10d, word [rdx + r15 + 54]
-	QUAD $0x012a024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 42], 1
-	QUAD $0x022a0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 42], 2
-	QUAD $0x032a224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 42], 3
-	QUAD $0x042a2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 42], 4
-	LONG $0x4cc40f66; WORD $0x2a0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 42], 5
-	LONG $0x4cc40f66; WORD $0x2a3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 42], 6
-	LONG $0x4cc40f66; WORD $0x2a1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 42], 7
-	QUAD $0x012c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 44], 1
-	QUAD $0x022c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 44], 2
-	QUAD $0x032c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 44], 3
-	QUAD $0x042c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 44], 4
-	LONG $0x7cc40f66; WORD $0x2c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 44], 5
-	LONG $0x7cc40f66; WORD $0x2c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 44], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0x74b70f42; WORD $0x383a             // movzx    esi, word [rdx + r15 + 56]
-	LONG $0x7cc40f66; WORD $0x2c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 44], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
-	LONG $0x5cb70f46; WORD $0x3a3a             // movzx    r11d, word [rdx + r15 + 58]
-	QUAD $0x012e025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 46], 1
-	QUAD $0x022e0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 46], 2
-	QUAD $0x032e225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 46], 3
-	QUAD $0x042e2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 46], 4
-	LONG $0x5cc40f66; WORD $0x2e0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 46], 5
-	LONG $0x5cc40f66; WORD $0x2e3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 46], 6
-	LONG $0x5cc40f66; WORD $0x2e1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 46], 7
-	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x3c3a             // movzx    eax, word [rdx + r15 + 60]
-	LONG $0x7cb70f46; WORD $0x3e3a             // movzx    r15d, word [rdx + r15 + 62]
-	QUAD $0x0132024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 50], 1
-	QUAD $0x02320a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 50], 2
-	QUAD $0x0332224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 50], 3
-	QUAD $0x04322a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x320a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 50], 6
-	LONG $0x4cc40f66; WORD $0x321a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 50], 7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	QUAD $0x01300274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 48], 1
-	QUAD $0x02300a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 48], 2
-	QUAD $0x03302274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 48], 3
-	QUAD $0x04302a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 48], 4
-	LONG $0x74c40f66; WORD $0x300a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 48], 5
-	LONG $0x74c40f66; WORD $0x303a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 48], 6
-	LONG $0x74c40f66; WORD $0x301a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 48], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	QUAD $0x0134024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 52], 1
-	QUAD $0x02340a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 52], 2
-	QUAD $0x0334224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 52], 3
-	QUAD $0x04342a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 52], 4
-	LONG $0x4cc40f66; WORD $0x340a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 52], 5
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x4cc40f66; WORD $0x343a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 52], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x4cc40f66; WORD $0x341a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 52], 7
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
-	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	QUAD $0x01360274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 54], 1
-	QUAD $0x02360a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 54], 2
-	QUAD $0x03362274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 54], 3
-	QUAD $0x04362a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 54], 4
-	LONG $0x74c40f66; WORD $0x360a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 54], 5
-	LONG $0x74c40f66; WORD $0x363a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 54], 6
-	LONG $0x74c40f66; WORD $0x361a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 54], 7
-	QUAD $0x0138026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 56], 1
-	QUAD $0x02380a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 56], 2
-	QUAD $0x0338226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 56], 3
-	QUAD $0x04382a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 56], 4
-	LONG $0x6cc40f66; WORD $0x380a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 56], 5
-	LONG $0x6cc40f66; WORD $0x383a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 56], 6
-	LONG $0x6cc40f66; WORD $0x381a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 56], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
-	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
-	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	QUAD $0x013a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 58], 1
-	QUAD $0x023a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 58], 2
-	QUAD $0x033a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 58], 3
-	QUAD $0x043a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 58], 4
-	LONG $0x74c40f66; WORD $0x3a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 58], 5
-	LONG $0x74c40f66; WORD $0x3a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 58], 6
-	LONG $0x74c40f66; WORD $0x3a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 58], 7
-	LONG $0xe9eb0f66                           // por    xmm5, xmm1
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	QUAD $0x013c024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 60], 1
-	QUAD $0x023c0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 60], 2
-	QUAD $0x033c224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 60], 3
-	QUAD $0x043c2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 60], 4
-	LONG $0x4cc40f66; WORD $0x3c0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 60], 5
-	LONG $0x4cc40f66; WORD $0x3c3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 60], 6
-	LONG $0x4cc40f66; WORD $0x3c1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 60], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
-	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
-	LONG $0xceeb0f66                           // por    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
-	QUAD $0x013e0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 62], 1
-	QUAD $0x023e0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 62], 2
-	QUAD $0x033e2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 62], 3
-	QUAD $0x043e2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 62], 4
-	LONG $0x74c40f66; WORD $0x3e0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 62], 5
-	LONG $0x74c40f66; WORD $0x3e3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 62], 6
-	LONG $0x74c40f66; WORD $0x3e1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 62], 7
-	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
-	LONG $0xf1eb0f66                           // por    xmm6, xmm1
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI2_9] */
-	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
-	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
-	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
-	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	LONG $0x247f0ff3; BYTE $0x8e               // movdqu    oword [rsi + 4*rcx], xmm4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	LONG $0x4c7f0ff3; WORD $0x108e             // movdqu    oword [rsi + 4*rcx + 16], xmm1
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x20               // cmp    rcx, qword [rsp + 32]
-	JNE  LBB2_195
-	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
-	LONG $0x247c3b4c; BYTE $0x20               // cmp    r15, qword [rsp + 32]
-	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
-	LONG $0x246c8b44; BYTE $0x38               // mov    r13d, dword [rsp + 56]
-	LONG $0x24748b4c; BYTE $0x08               // mov    r14, qword [rsp + 8]
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	JNE  LBB2_104
-	JMP  LBB2_143
-
-LBB2_197:
-	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xd3                   // add    rbx, rdx
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	LONG $0x801c8d4e                           // lea    r11, [rax + 4*r8]
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
-	LONG $0xfcc28148; WORD $0x0001; BYTE $0x00 // add    rdx, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI2_1] */
-	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI2_2] */
-	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI2_3] */
-	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI2_4] */
-	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI2_5] */
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
-	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI2_7] */
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-
-LBB2_198:
-	QUAD $0xfffffe04b2100ff3                   // movss    xmm6, dword [rdx - 508]
-	QUAD $0xfffffe08ba100ff3                   // movss    xmm7, dword [rdx - 504]
-	QUAD $0xfffffe0caa100ff3                   // movss    xmm5, dword [rdx - 500]
-	QUAD $0xfffffe10a2100ff3                   // movss    xmm4, dword [rdx - 496]
-	QUAD $0xfffe84b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 380], 16
-	QUAD $0xffff04b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 252], 32
-	LONG $0x213a0f66; WORD $0x8472; BYTE $0x30 // insertps    xmm6, dword [rdx - 124], 48
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	QUAD $0xfffe88ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 376], 16
-	QUAD $0xffff08ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 248], 32
-	LONG $0x213a0f66; WORD $0x887a; BYTE $0x30 // insertps    xmm7, dword [rdx - 120], 48
-	QUAD $0xfffe8caa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 372], 16
-	QUAD $0xffff0caa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 244], 32
-	LONG $0x213a0f66; WORD $0x8c6a; BYTE $0x30 // insertps    xmm5, dword [rdx - 116], 48
-	QUAD $0xfffe90a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 368], 16
-	QUAD $0xffff10a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 240], 32
-	LONG $0x213a0f66; WORD $0x9062; BYTE $0x30 // insertps    xmm4, dword [rdx - 112], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
-	QUAD $0xfffffe14ba100ff3                   // movss    xmm7, dword [rdx - 492]
-	QUAD $0xfffe94ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 364], 16
-	QUAD $0xffff14ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 236], 32
-	LONG $0x213a0f66; WORD $0x947a; BYTE $0x30 // insertps    xmm7, dword [rdx - 108], 48
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe18b2100ff3                   // movss    xmm6, dword [rdx - 488]
-	QUAD $0xfffe98b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 360], 16
-	QUAD $0xffff18b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 232], 32
-	LONG $0x213a0f66; WORD $0x9872; BYTE $0x30 // insertps    xmm6, dword [rdx - 104], 48
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe1c9a100ff3                   // movss    xmm3, dword [rdx - 484]
-	QUAD $0xfffe9c9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 356], 16
-	QUAD $0xffff1c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 228], 32
-	LONG $0x213a0f66; WORD $0x9c5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 100], 48
-	LONG $0x00e1c20f                           // cmpeqps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	QUAD $0xfffffe20a2100ff3                   // movss    xmm4, dword [rdx - 480]
-	QUAD $0xfffea0a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 352], 16
-	QUAD $0xffff20a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 224], 32
-	LONG $0x213a0f66; WORD $0xa062; BYTE $0x30 // insertps    xmm4, dword [rdx - 96], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe24aa100ff3                   // movss    xmm5, dword [rdx - 476]
-	QUAD $0xfffea4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 348], 16
-	QUAD $0xffff24aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 220], 32
-	LONG $0x213a0f66; WORD $0xa46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 92], 48
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe2892100ff3                   // movss    xmm2, dword [rdx - 472]
-	QUAD $0xfffea892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 344], 16
-	QUAD $0xffff2892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 216], 32
-	LONG $0x213a0f66; WORD $0xa852; BYTE $0x30 // insertps    xmm2, dword [rdx - 88], 48
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x00e1c20f                           // cmpeqps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	QUAD $0xfffffe2c9a100ff3                   // movss    xmm3, dword [rdx - 468]
-	QUAD $0xfffeac9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 340], 16
-	QUAD $0xffff2c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 212], 32
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0x213a0f66; WORD $0xac5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 84], 48
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe30ba100ff3                   // movss    xmm7, dword [rdx - 464]
-	QUAD $0xfffeb0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 336], 16
-	QUAD $0xffff30ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 208], 32
-	LONG $0x213a0f66; WORD $0xb07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 80], 48
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe34aa100ff3                   // movss    xmm5, dword [rdx - 460]
-	QUAD $0xfffeb4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 332], 16
-	QUAD $0xffff34aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 204], 32
-	LONG $0x213a0f66; WORD $0xb46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 76], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe38b2100ff3                   // movss    xmm6, dword [rdx - 456]
-	QUAD $0xfffeb8b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 328], 16
-	QUAD $0xffff38b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 200], 32
-	LONG $0x213a0f66; WORD $0xb872; BYTE $0x30 // insertps    xmm6, dword [rdx - 72], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
-	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0xfffffe3c92100ff3                   // movss    xmm2, dword [rdx - 452]
-	QUAD $0xfffebc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 324], 16
-	QUAD $0xffff3c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 196], 32
-	LONG $0x213a0f66; WORD $0xbc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 68], 48
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	QUAD $0xfffffe40ba100ff3                   // movss    xmm7, dword [rdx - 448]
-	QUAD $0xfffec0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 320], 16
-	QUAD $0xffff40ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 192], 32
-	LONG $0x213a0f66; WORD $0xc07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 64], 48
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe44b2100ff3                   // movss    xmm6, dword [rdx - 444]
-	QUAD $0xfffec4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 316], 16
-	QUAD $0xffff44b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 188], 32
-	LONG $0x213a0f66; WORD $0xc472; BYTE $0x30 // insertps    xmm6, dword [rdx - 60], 48
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
-	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	QUAD $0xfffffe4892100ff3                   // movss    xmm2, dword [rdx - 440]
-	QUAD $0xfffec892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 312], 16
-	QUAD $0xffff4892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 184], 32
-	LONG $0x213a0f66; WORD $0xc852; BYTE $0x30 // insertps    xmm2, dword [rdx - 56], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe4c9a100ff3                   // movss    xmm3, dword [rdx - 436]
-	QUAD $0xfffecc9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 308], 16
-	QUAD $0xffff4c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 180], 32
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x213a0f66; WORD $0xcc5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 52], 48
-	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
-	QUAD $0xfffffe50aa100ff3                   // movss    xmm5, dword [rdx - 432]
-	QUAD $0xfffed0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 304], 16
-	QUAD $0xffff50aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 176], 32
-	LONG $0x213a0f66; WORD $0xd06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 48], 48
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	QUAD $0xfffffe54b2100ff3                   // movss    xmm6, dword [rdx - 428]
-	QUAD $0xfffed4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 300], 16
-	QUAD $0xffff54b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 172], 32
-	LONG $0x213a0f66; WORD $0xd472; BYTE $0x30 // insertps    xmm6, dword [rdx - 44], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	QUAD $0xfffffe58ba100ff3                   // movss    xmm7, dword [rdx - 424]
-	QUAD $0xfffed8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 296], 16
-	QUAD $0xffff58ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 168], 32
-	LONG $0x213a0f66; WORD $0xd87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 40], 48
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe5c92100ff3                   // movss    xmm2, dword [rdx - 420]
-	QUAD $0xfffedc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 292], 16
-	QUAD $0xffff5c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 164], 32
-	LONG $0x213a0f66; WORD $0xdc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 36], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe60aa100ff3                   // movss    xmm5, dword [rdx - 416]
-	QUAD $0xfffee0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 288], 16
-	QUAD $0xffff60aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 160], 32
-	LONG $0x213a0f66; WORD $0xe06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 32], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe64ba100ff3                   // movss    xmm7, dword [rdx - 412]
-	QUAD $0xfffee4ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 284], 16
-	QUAD $0xffff64ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 156], 32
-	LONG $0x213a0f66; WORD $0xe47a; BYTE $0x30 // insertps    xmm7, dword [rdx - 28], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
-	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe6892100ff3                   // movss    xmm2, dword [rdx - 408]
-	QUAD $0xfffee892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 280], 16
-	QUAD $0xffff6892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 152], 32
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0x213a0f66; WORD $0xe852; BYTE $0x30 // insertps    xmm2, dword [rdx - 24], 48
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe6c9a100ff3                   // movss    xmm3, dword [rdx - 404]
-	QUAD $0xfffeec9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 276], 16
-	QUAD $0xffff6c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 148], 32
-	LONG $0x213a0f66; WORD $0xec5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 20], 48
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0xfffffe7092100ff3                   // movss    xmm2, dword [rdx - 400]
-	QUAD $0xfffef092213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 272], 16
-	QUAD $0xffff7092213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 144], 32
-	LONG $0x213a0f66; WORD $0xf052; BYTE $0x30 // insertps    xmm2, dword [rdx - 16], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe74b2100ff3                   // movss    xmm6, dword [rdx - 396]
-	QUAD $0xfffef4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 268], 16
-	QUAD $0xffff74b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 140], 32
-	LONG $0x213a0f66; WORD $0xf472; BYTE $0x30 // insertps    xmm6, dword [rdx - 12], 48
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	QUAD $0xfffffe78ba100ff3                   // movss    xmm7, dword [rdx - 392]
-	QUAD $0xfffef8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 264], 16
-	QUAD $0xffff78ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 136], 32
-	LONG $0x213a0f66; WORD $0xf87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 8], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe7c92100ff3                   // movss    xmm2, dword [rdx - 388]
-	QUAD $0xfffefc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 260], 16
-	QUAD $0xffff7c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 132], 32
-	LONG $0x213a0f66; WORD $0xfc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 4], 48
-	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe809a100ff3                   // movss    xmm3, dword [rdx - 384]
-	QUAD $0xffff009a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 256], 16
-	LONG $0x213a0f66; WORD $0x805a; BYTE $0x20 // insertps    xmm3, dword [rdx - 128], 32
-	LONG $0x213a0f66; WORD $0x301a             // insertps    xmm3, dword [rdx], 48
-	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
-	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
-	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
-	LONG $0x247f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm4
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x00c28148; WORD $0x0002; BYTE $0x00 // add    rdx, 512
-	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
-	JNE  LBB2_198
-	WORD $0x394d; BYTE $0xc6                   // cmp    r14, r8
-	JNE  LBB2_127
-	JMP  LBB2_147
-
-TEXT ·_comparison_not_equal_arr_arr_sse4(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB3_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB3_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB3_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB3_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_20:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_20
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3950f41                           // setne    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7950f41                           // setne    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2950f41                           // setne    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6950f41                           // setne    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1950f41                           // setne    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_28:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_28
-	JMP  LBB3_123
-
-LBB3_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB3_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB3_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB3_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_48:
-	LONG $0x06100ff2             // movsd    xmm0, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_48
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB3_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff2                           // movsd    xmm0, qword [rsi]
-	LONG $0x4e100ff2; BYTE $0x08               // movsd    xmm1, qword [rsi + 8]
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x4a2e0f66; BYTE $0x08               // ucomisd    xmm1, qword [rdx + 8]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x46100ff2; BYTE $0x10               // movsd    xmm0, qword [rsi + 16]
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0x46100ff2; BYTE $0x18               // movsd    xmm0, qword [rsi + 24]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x46100ff2; BYTE $0x20               // movsd    xmm0, qword [rsi + 32]
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	LONG $0x46100ff2; BYTE $0x28               // movsd    xmm0, qword [rsi + 40]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x46100ff2; BYTE $0x30               // movsd    xmm0, qword [rsi + 48]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	LONG $0x46100ff2; BYTE $0x38               // movsd    xmm0, qword [rsi + 56]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x46100ff2; BYTE $0x40               // movsd    xmm0, qword [rsi + 64]
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	LONG $0x46100ff2; BYTE $0x48               // movsd    xmm0, qword [rsi + 72]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x46100ff2; BYTE $0x50               // movsd    xmm0, qword [rsi + 80]
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0x46100ff2; BYTE $0x58               // movsd    xmm0, qword [rsi + 88]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x46100ff2; BYTE $0x60               // movsd    xmm0, qword [rsi + 96]
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0x46100ff2; BYTE $0x68               // movsd    xmm0, qword [rsi + 104]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x46100ff2; BYTE $0x70               // movsd    xmm0, qword [rsi + 112]
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	LONG $0x46100ff2; BYTE $0x78               // movsd    xmm0, qword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	QUAD $0x0000008086100ff2                   // movsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x0000008886100ff2                   // movsd    xmm0, qword [rsi + 136]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x0000009086100ff2                   // movsd    xmm0, qword [rsi + 144]
-	LONG $0xd6950f41                           // setne    r14b
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x0000009886100ff2                   // movsd    xmm0, qword [rsi + 152]
-	LONG $0xd4950f41                           // setne    r12b
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a086100ff2                   // movsd    xmm0, qword [rsi + 160]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000a886100ff2                   // movsd    xmm0, qword [rsi + 168]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	QUAD $0x000000b086100ff2                   // movsd    xmm0, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	QUAD $0x000000b886100ff2                   // movsd    xmm0, qword [rsi + 184]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	QUAD $0x000000c086100ff2                   // movsd    xmm0, qword [rsi + 192]
-	LONG $0xd0950f41                           // setne    r8b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000000c886100ff2                   // movsd    xmm0, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	QUAD $0x000000d086100ff2                   // movsd    xmm0, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	QUAD $0x000000d886100ff2                   // movsd    xmm0, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	QUAD $0x000000e086100ff2                   // movsd    xmm0, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000000e886100ff2                   // movsd    xmm0, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000000f086100ff2                   // movsd    xmm0, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f886100ff2                   // movsd    xmm0, qword [rsi + 248]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd7950f40                           // setne    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB3_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB3_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_56:
-	LONG $0x04100ff2; BYTE $0xce // movsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042e0f66; BYTE $0xca // ucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_56
-	JMP  LBB3_123
-
-LBB3_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB3_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB3_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x950f; BYTE $0xd1       // setne    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0950f41               // setne    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB3_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB3_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_14
-	JMP  LBB3_123
-
-LBB3_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB3_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB3_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_34:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_34
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_42:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_42
-	JMP  LBB3_123
-
-LBB3_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_70:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_70
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454950f; BYTE $0x20   // setne    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0950f41               // setne    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB3_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB3_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_78:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_78
-	JMP  LBB3_123
-
-LBB3_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454950f; BYTE $0x20   // setne    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0950f41               // setne    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB3_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB3_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_89
-	JMP  LBB3_123
-
-LBB3_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_111
-	JMP  LBB3_123
-
-LBB3_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_114:
-	LONG $0x06100ff3             // movss    xmm0, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_114
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB3_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff3                           // movss    xmm0, dword [rsi]
-	LONG $0x4e100ff3; BYTE $0x04               // movss    xmm1, dword [rsi + 4]
-	WORD $0x2e0f; BYTE $0x02                   // ucomiss    xmm0, dword [rdx]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	LONG $0x044a2e0f                           // ucomiss    xmm1, dword [rdx + 4]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x46100ff3; BYTE $0x08               // movss    xmm0, dword [rsi + 8]
-	LONG $0x08422e0f                           // ucomiss    xmm0, dword [rdx + 8]
-	LONG $0x46100ff3; BYTE $0x0c               // movss    xmm0, dword [rsi + 12]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	LONG $0x0c422e0f                           // ucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	LONG $0x46100ff3; BYTE $0x10               // movss    xmm0, dword [rsi + 16]
-	LONG $0x10422e0f                           // ucomiss    xmm0, dword [rdx + 16]
-	LONG $0x46100ff3; BYTE $0x14               // movss    xmm0, dword [rsi + 20]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	LONG $0x14422e0f                           // ucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	LONG $0x46100ff3; BYTE $0x18               // movss    xmm0, dword [rsi + 24]
-	LONG $0x18422e0f                           // ucomiss    xmm0, dword [rdx + 24]
-	LONG $0x46100ff3; BYTE $0x1c               // movss    xmm0, dword [rsi + 28]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x1c422e0f                           // ucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x46100ff3; BYTE $0x20               // movss    xmm0, dword [rsi + 32]
-	LONG $0x20422e0f                           // ucomiss    xmm0, dword [rdx + 32]
-	LONG $0x46100ff3; BYTE $0x24               // movss    xmm0, dword [rsi + 36]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x24422e0f                           // ucomiss    xmm0, dword [rdx + 36]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x46100ff3; BYTE $0x28               // movss    xmm0, dword [rsi + 40]
-	LONG $0x28422e0f                           // ucomiss    xmm0, dword [rdx + 40]
-	LONG $0x46100ff3; BYTE $0x2c               // movss    xmm0, dword [rsi + 44]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2c422e0f                           // ucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x46100ff3; BYTE $0x30               // movss    xmm0, dword [rsi + 48]
-	LONG $0x30422e0f                           // ucomiss    xmm0, dword [rdx + 48]
-	LONG $0x46100ff3; BYTE $0x34               // movss    xmm0, dword [rsi + 52]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x34422e0f                           // ucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	LONG $0x46100ff3; BYTE $0x38               // movss    xmm0, dword [rsi + 56]
-	LONG $0x38422e0f                           // ucomiss    xmm0, dword [rdx + 56]
-	LONG $0x46100ff3; BYTE $0x3c               // movss    xmm0, dword [rsi + 60]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	LONG $0x3c422e0f                           // ucomiss    xmm0, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x46100ff3; BYTE $0x40               // movss    xmm0, dword [rsi + 64]
-	LONG $0x40422e0f                           // ucomiss    xmm0, dword [rdx + 64]
-	LONG $0x46100ff3; BYTE $0x44               // movss    xmm0, dword [rsi + 68]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	LONG $0x44422e0f                           // ucomiss    xmm0, dword [rdx + 68]
-	LONG $0x46100ff3; BYTE $0x48               // movss    xmm0, dword [rsi + 72]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x48422e0f                           // ucomiss    xmm0, dword [rdx + 72]
-	LONG $0x46100ff3; BYTE $0x4c               // movss    xmm0, dword [rsi + 76]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x4c422e0f                           // ucomiss    xmm0, dword [rdx + 76]
-	LONG $0x46100ff3; BYTE $0x50               // movss    xmm0, dword [rsi + 80]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	LONG $0x50422e0f                           // ucomiss    xmm0, dword [rdx + 80]
-	LONG $0x46100ff3; BYTE $0x54               // movss    xmm0, dword [rsi + 84]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	LONG $0x54422e0f                           // ucomiss    xmm0, dword [rdx + 84]
-	LONG $0x46100ff3; BYTE $0x58               // movss    xmm0, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	LONG $0x58422e0f                           // ucomiss    xmm0, dword [rdx + 88]
-	LONG $0x46100ff3; BYTE $0x5c               // movss    xmm0, dword [rsi + 92]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	LONG $0x5c422e0f                           // ucomiss    xmm0, dword [rdx + 92]
-	LONG $0x46100ff3; BYTE $0x60               // movss    xmm0, dword [rsi + 96]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x60422e0f                           // ucomiss    xmm0, dword [rdx + 96]
-	LONG $0x46100ff3; BYTE $0x64               // movss    xmm0, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	LONG $0x64422e0f                           // ucomiss    xmm0, dword [rdx + 100]
-	LONG $0x46100ff3; BYTE $0x68               // movss    xmm0, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	LONG $0x68422e0f                           // ucomiss    xmm0, dword [rdx + 104]
-	LONG $0x46100ff3; BYTE $0x6c               // movss    xmm0, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	LONG $0x6c422e0f                           // ucomiss    xmm0, dword [rdx + 108]
-	LONG $0x46100ff3; BYTE $0x70               // movss    xmm0, dword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x70422e0f                           // ucomiss    xmm0, dword [rdx + 112]
-	LONG $0x46100ff3; BYTE $0x74               // movss    xmm0, dword [rsi + 116]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x74422e0f                           // ucomiss    xmm0, dword [rdx + 116]
-	LONG $0x46100ff3; BYTE $0x78               // movss    xmm0, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	LONG $0x78422e0f                           // ucomiss    xmm0, dword [rdx + 120]
-	LONG $0x46100ff3; BYTE $0x7c               // movss    xmm0, dword [rsi + 124]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x7c422e0f                           // ucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd7950f40                           // setne    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB3_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB3_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_122:
-	LONG $0x04100ff3; BYTE $0x8e // movss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x8a042e0f             // ucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_122
-	JMP  LBB3_123
-
-LBB3_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_59:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_59
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB3_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x950f; BYTE $0xd1       // setne    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7950f41               // setne    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7950f40               // setne    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2950f41               // setne    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3950f41               // setne    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6950f41               // setne    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4950f41               // setne    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5950f41               // setne    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1950f41               // setne    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0950f41               // setne    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB3_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB3_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_67:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_67
-	JMP  LBB3_123
-
-LBB3_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB3_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB3_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd2950f41             // setne    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB3_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB3_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB3_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB3_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3950f41                           // setne    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7950f41                           // setne    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2950f41                           // setne    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6950f41                           // setne    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4950f41                           // setne    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1950f41                           // setne    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB3_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB3_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB3_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB3_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB3_100
-
-LBB3_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA3<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA3<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA3<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA3<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA3<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA3<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA3<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA3<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA3<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA3<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA3<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA3<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA3<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA3<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA3<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA3<>+0x080(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x090(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x0a0(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x0a8(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x0b0(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x0b8(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x0c0(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x0c8(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x0d0(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x0d8(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x0e0(SB)/8, $0x8080808080808080
-DATA LCDATA3<>+0x0e8(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x0f0(SB)/8, $0x0f070e060d050c04
-DATA LCDATA3<>+0x0f8(SB)/8, $0x0000000000000000
-DATA LCDATA3<>+0x100(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x108(SB)/8, $0x0202020202020202
-DATA LCDATA3<>+0x110(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x118(SB)/8, $0x0404040404040404
-DATA LCDATA3<>+0x120(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x128(SB)/8, $0x0808080808080808
-DATA LCDATA3<>+0x130(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x138(SB)/8, $0x1010101010101010
-DATA LCDATA3<>+0x140(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x148(SB)/8, $0x2020202020202020
-DATA LCDATA3<>+0x150(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x158(SB)/8, $0x4040404040404040
-DATA LCDATA3<>+0x160(SB)/8, $0xffffffffffffffff
-DATA LCDATA3<>+0x168(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA3<>(SB), 8, $368
-
-TEXT ·_comparison_not_equal_arr_scalar_sse4(SB), $328-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 304(SP)
-	LEAQ LCDATA3<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc7 // mov    r15, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB4_17
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB4_32
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB4_83
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB4_95
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB4_179
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_7:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_7
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB4_9:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_13
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB4_11:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x60245402                           // add    dl, byte [rsp + 96]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB4_11
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-
-LBB4_13:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JE   LBB4_82
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_16:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_16
-	JMP  LBB4_153
-
-LBB4_17:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB4_46
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB4_107
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB4_118
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB4_179
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_25
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_23:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_23
-	LONG $0x01c68349             // add    r14, 1
-
-LBB4_25:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_29
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-	QUAD $0x000000982494894c // mov    qword [rsp + 152], r10
-
-LBB4_27:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	LONG $0x062e0f66                           // ucomisd    xmm0, qword [rsi]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x462e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x462e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x462e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x462e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rsi + 32]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x462e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x462e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rsi + 48]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x462e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rsi + 56]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x462e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rsi + 64]
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x462e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rsi + 72]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x462e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x462e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x462e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x462e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x462e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rsi + 112]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x462e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rsi + 120]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	QUAD $0x00000080862e0f66                   // ucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	QUAD $0x00000088862e0f66                   // ucomisd    xmm0, qword [rsi + 136]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	QUAD $0x00000090862e0f66                   // ucomisd    xmm0, qword [rsi + 144]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	QUAD $0x00000098862e0f66                   // ucomisd    xmm0, qword [rsi + 152]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	QUAD $0x000000a0862e0f66                   // ucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	QUAD $0x000000a8862e0f66                   // ucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	QUAD $0x000000b0862e0f66                   // ucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	QUAD $0x000000b8862e0f66                   // ucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7950f41                           // setne    r15b
-	QUAD $0x000000c0862e0f66                   // ucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	QUAD $0x000000c8862e0f66                   // ucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	QUAD $0x000000d0862e0f66                   // ucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	QUAD $0x000000d8862e0f66                   // ucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	QUAD $0x000000e0862e0f66                   // ucomisd    xmm0, qword [rsi + 224]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	QUAD $0x000000e8862e0f66                   // ucomisd    xmm0, qword [rsi + 232]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	QUAD $0x000000f0862e0f66                   // ucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	QUAD $0x000000f8862e0f66                   // ucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000088248c0244                   // add    r9b, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB4_27
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-
-LBB4_29:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB4_162
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_164
-
-LBB4_32:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB4_60
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB4_179
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_38
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_36:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_36
-	LONG $0x01c68349             // add    r14, 1
-
-LBB4_38:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB4_130
-	LONG $0x10fa8349             // cmp    r10, 16
-	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
-	QUAD $0x0000009024bc894c     // mov    qword [rsp + 144], r15
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	JB   LBB4_42
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB4_180
-	LONG $0x96048d4b             // lea    rax, [r14 + 4*r10]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB4_180
-
-LBB4_42:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000f024848948     // mov    qword [rsp + 240], rax
-	LONG $0x2474894c; BYTE $0x68 // mov    qword [rsp + 104], r14
-
-LBB4_43:
-	QUAD $0x000000f024942b4c // sub    r10, qword [rsp + 240]
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB4_44:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
-	QUAD $0x000000e02494950f                   // setne    byte [rsp + 224]
-	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000e024b40240                   // add    sil, byte [rsp + 224]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	LONG $0x247cb60f; BYTE $0x50               // movzx    edi, byte [rsp + 80]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40244402                           // add    al, byte [rsp + 64]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	LONG $0x24548948; BYTE $0x68               // mov    qword [rsp + 104], rdx
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB4_44
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	JMP  LBB4_131
-
-LBB4_46:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB4_72
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB4_179
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_52
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_50:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_50
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB4_52:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_56
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB4_54:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x60245402                           // add    dl, byte [rsp + 96]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB4_54
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-
-LBB4_56:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JE   LBB4_117
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_59:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_59
-	JMP  LBB4_168
-
-LBB4_60:
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_64
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_62:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_62
-	LONG $0x01c68349             // add    r14, 1
-
-LBB4_64:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB4_134
-	LONG $0x10fa8349             // cmp    r10, 16
-	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
-	QUAD $0x0000009024bc894c     // mov    qword [rsp + 144], r15
-	QUAD $0x000001002494894c     // mov    qword [rsp + 256], r10
-	JB   LBB4_68
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB4_183
-	LONG $0x96048d4b             // lea    rax, [r14 + 4*r10]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB4_183
-
-LBB4_68:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000f024848948     // mov    qword [rsp + 240], rax
-	LONG $0x2474894c; BYTE $0x68 // mov    qword [rsp + 104], r14
-
-LBB4_69:
-	QUAD $0x000000f024942b4c // sub    r10, qword [rsp + 240]
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB4_70:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
-	QUAD $0x000000e02494950f                   // setne    byte [rsp + 224]
-	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000e024b40240                   // add    sil, byte [rsp + 224]
-	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	LONG $0x247cb60f; BYTE $0x50               // movzx    edi, byte [rsp + 80]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40244402                           // add    al, byte [rsp + 64]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	LONG $0x24548948; BYTE $0x68               // mov    qword [rsp + 104], rdx
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB4_70
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	JMP  LBB4_135
-
-LBB4_72:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_76
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_74:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_74
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB4_76:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_80
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB4_78:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x60245402                           // add    dl, byte [rsp + 96]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB4_78
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-
-LBB4_80:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB4_151
-
-LBB4_82:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_153
-
-LBB4_83:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_87
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_85:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_85
-	LONG $0x01c68349             // add    r14, 1
-
-LBB4_87:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_138
-	LONG $0x08fa8349         // cmp    r10, 8
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	JB   LBB4_91
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB4_186
-	LONG $0x96048d4b         // lea    rax, [r14 + 4*r10]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB4_186
-
-LBB4_91:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
-	WORD $0x894d; BYTE $0xf4     // mov    r12, r14
-
-LBB4_92:
-	LONG $0x2464894c; BYTE $0x08 // mov    qword [rsp + 8], r12
-	LONG $0x24542b4c; BYTE $0x18 // sub    r10, qword [rsp + 24]
-	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
-
-LBB4_93:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x6b394566; BYTE $0x04               // cmp    word [r11 + 4], r13w
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x6b394566; BYTE $0x06               // cmp    word [r11 + 6], r13w
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x6b394566; BYTE $0x08               // cmp    word [r11 + 8], r13w
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x6b394566; BYTE $0x0a               // cmp    word [r11 + 10], r13w
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x6b394566; BYTE $0x0c               // cmp    word [r11 + 12], r13w
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x6b394566; BYTE $0x0e               // cmp    word [r11 + 14], r13w
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x6b394566; BYTE $0x10               // cmp    word [r11 + 16], r13w
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x6b394566; BYTE $0x12               // cmp    word [r11 + 18], r13w
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x6b394566; BYTE $0x14               // cmp    word [r11 + 20], r13w
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000009824b40240                   // add    sil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xc0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 192]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	QUAD $0x000000b0248cb60f                   // movzx    ecx, byte [rsp + 176]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x50244c02                           // add    cl, byte [rsp + 80]
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x1988                               // mov    byte [rcx], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	LONG $0x01798840                           // mov    byte [rcx + 1], dil
-	WORD $0x0841; BYTE $0xf2                   // or    r10b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x30244402                           // add    al, byte [rsp + 48]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02518844                           // mov    byte [rcx + 2], r10b
-	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB4_93
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	JMP  LBB4_139
-
-LBB4_95:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_99
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_97:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_97
-	LONG $0x01c68349             // add    r14, 1
-
-LBB4_99:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_143
-	LONG $0x08fa8349         // cmp    r10, 8
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	JB   LBB4_103
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB4_189
-	LONG $0x96048d4b         // lea    rax, [r14 + 4*r10]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB4_189
-
-LBB4_103:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
-	WORD $0x894d; BYTE $0xf4     // mov    r12, r14
-
-LBB4_104:
-	LONG $0x2464894c; BYTE $0x08 // mov    qword [rsp + 8], r12
-	LONG $0x24542b4c; BYTE $0x18 // sub    r10, qword [rsp + 24]
-	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
-
-LBB4_105:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x6b394566; BYTE $0x04               // cmp    word [r11 + 4], r13w
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x6b394566; BYTE $0x06               // cmp    word [r11 + 6], r13w
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x6b394566; BYTE $0x08               // cmp    word [r11 + 8], r13w
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x6b394566; BYTE $0x0a               // cmp    word [r11 + 10], r13w
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x6b394566; BYTE $0x0c               // cmp    word [r11 + 12], r13w
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x6b394566; BYTE $0x0e               // cmp    word [r11 + 14], r13w
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x6b394566; BYTE $0x10               // cmp    word [r11 + 16], r13w
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x6b394566; BYTE $0x12               // cmp    word [r11 + 18], r13w
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x6b394566; BYTE $0x14               // cmp    word [r11 + 20], r13w
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000009824b40240                   // add    sil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xc0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 192]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	QUAD $0x000000b0248cb60f                   // movzx    ecx, byte [rsp + 176]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x50244c02                           // add    cl, byte [rsp + 80]
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x1988                               // mov    byte [rcx], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	LONG $0x01798840                           // mov    byte [rcx + 1], dil
-	WORD $0x0841; BYTE $0xf2                   // or    r10b, sil
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x30244402                           // add    al, byte [rsp + 48]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02518844                           // mov    byte [rcx + 2], r10b
-	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB4_105
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	JMP  LBB4_144
-
-LBB4_107:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_111
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_109:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB4_109
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB4_111:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_115
-	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB4_113:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0950f41                           // setne    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
-	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x60245402                           // add    dl, byte [rsp + 96]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB4_113
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-
-LBB4_115:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB4_166
-
-LBB4_117:
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB4_168
-
-LBB4_118:
-	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff // test    r15, r15
-	LONG $0xd7490f4d         // cmovns    r10, r15
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB4_122
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB4_120:
-	WORD $0x2e0f; BYTE $0x06     // ucomiss    xmm0, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB4_120
-	LONG $0x01c68349             // add    r14, 1
-
-LBB4_122:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB4_147
-	LONG $0x04fa8349         // cmp    r10, 4
-	JB   LBB4_126
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB4_192
-	LONG $0x96048d4b         // lea    rax, [r14 + 4*r10]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB4_192
-
-LBB4_126:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-	WORD $0x894d; BYTE $0xf3 // mov    r11, r14
-
-LBB4_127:
-	LONG $0x245c894c; BYTE $0x08 // mov    qword [rsp + 8], r11
-	QUAD $0x0000009024bc894c     // mov    qword [rsp + 144], r15
-	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
-	WORD $0x294d; BYTE $0xc2     // sub    r10, r8
-	QUAD $0x000000982494894c     // mov    qword [rsp + 152], r10
-
-LBB4_128:
-	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
-	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
-	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x0000008824840244                   // add    r8b, byte [rsp + 136]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x38               // movzx    edi, byte [rsp + 56]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB4_128
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	JMP  LBB4_148
-
-LBB4_130:
-	LONG $0x2474894c; BYTE $0x68 // mov    qword [rsp + 104], r14
-
-LBB4_131:
-	LONG $0x05e2c149             // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa     // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8     // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0     // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2     // not    r10
-	WORD $0x014d; BYTE $0xfa     // add    r10, r15
-	JE   LBB4_137
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x68 // mov    r14, qword [rsp + 104]
-
-LBB4_156:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB4_156
-	JMP  LBB4_159
-
-LBB4_134:
-	LONG $0x2474894c; BYTE $0x68 // mov    qword [rsp + 104], r14
-
-LBB4_135:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB4_157
-
-LBB4_137:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_179
-	JMP  LBB4_161
-
-LBB4_138:
-	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
-
-LBB4_139:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JE   LBB4_146
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-
-LBB4_142:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB4_142
-	JMP  LBB4_173
-
-LBB4_143:
-	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
-
-LBB4_144:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB4_171
-
-LBB4_146:
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB4_173
-
-LBB4_147:
-	WORD $0x894d; BYTE $0xf3 // mov    r11, r14
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-
-LBB4_148:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB4_179
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB4_175
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB4_177
-
-LBB4_151:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_152:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_152
-
-LBB4_153:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_179
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-	JMP  LBB4_170
-
-LBB4_157:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x68 // mov    r14, qword [rsp + 104]
-
-LBB4_158:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB4_158
-
-LBB4_159:
-	WORD $0x014c; BYTE $0xce // add    rsi, r9
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_179
-
-LBB4_161:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x68 // mov    r8, qword [rsp + 104]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
-	LONG $0x101c8841             // mov    byte [r8 + rdx], bl
-	JMP  LBB4_179
-
-LBB4_162:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_163:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_163
-
-LBB4_164:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB4_179
-	LONG $0x062e0f66 // ucomisd    xmm0, qword [rsi]
-	JMP  LBB4_170
-
-LBB4_166:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB4_167:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB4_167
-
-LBB4_168:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_179
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-
-LBB4_170:
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-	JMP  LBB4_179
-
-LBB4_171:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-
-LBB4_172:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB4_172
-
-LBB4_173:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_179
-	LONG $0x2e394466         // cmp    word [rsi], r13w
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xf2 // mov    rdx, r14
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68041         // and    r14b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xf1 // mov    ecx, r14d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
-	JMP  LBB4_179
-
-LBB4_175:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB4_176:
-	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xca     // and    dl, r9b
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB4_176
-
-LBB4_177:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB4_179
-	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x133c8a41         // mov    dil, byte [r11 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
-
-LBB4_179:
-	MOVQ 304(SP), SP
-	RET
-
-LBB4_180:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000012024848948             // mov    qword [rsp + 288], rax
-	QUAD $0x000000f02494894c             // mov    qword [rsp + 240], r10
-	LONG $0x96048d4b                     // lea    rax, [r14 + 4*r10]
-	LONG $0x24448948; BYTE $0x68         // mov    qword [rsp + 104], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000100248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 256], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
-
-LBB4_181:
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x05e1c148                           // shl    rcx, 5
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	LONG $0x0e0cb60f                           // movzx    ecx, byte [rsi + rcx]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x164cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rdx + 1]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x164cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rdx + 2]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x164cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rdx + 3]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x164cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rdx + 4]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x164cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rdx + 5]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x164cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rdx + 6]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x164cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rdx + 7]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x164cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rdx + 8]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x164cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rdx + 9]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
-	LONG $0x164cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rdx + 10]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x164cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rdx + 11]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x164cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rdx + 12]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
-	LONG $0x164cb60f; BYTE $0x0d               // movzx    ecx, byte [rsi + rdx + 13]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x164cb60f; BYTE $0x0e               // movzx    ecx, byte [rsi + rdx + 14]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x164cb60f; BYTE $0x0f               // movzx    ecx, byte [rsi + rdx + 15]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000b024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm0
-	LONG $0x24548948; BYTE $0x18               // mov    qword [rsp + 24], rdx
-	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
-	LONG $0x20c98348                           // or    rcx, 32
-	LONG $0x244c8948; BYTE $0x28               // mov    qword [rsp + 40], rcx
-	LONG $0x40cb8349                           // or    r11, 64
-	LONG $0x245c894c; BYTE $0x70               // mov    qword [rsp + 112], r11
-	LONG $0x60c88349                           // or    r8, 96
-	LONG $0x2444894c; BYTE $0x40               // mov    qword [rsp + 64], r8
-	LONG $0x80ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 128
-	LONG $0xa0cd8149; WORD $0x0000; BYTE $0x00 // or    r13, 160
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	LONG $0xc0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 192
-	LONG $0x2454894c; BYTE $0x48               // mov    qword [rsp + 72], r10
-	LONG $0xe0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 224
-	LONG $0x00cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 256
-	LONG $0x20cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 288
-	QUAD $0x000000c024bc8948                   // mov    qword [rsp + 192], rdi
-	LONG $0x40c98149; WORD $0x0001; BYTE $0x00 // or    r9, 320
-	LONG $0x244c894c; BYTE $0x20               // mov    qword [rsp + 32], r9
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	LONG $0x60cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 352
-	LONG $0x245c8948; BYTE $0x30               // mov    qword [rsp + 48], rbx
-	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
-	LONG $0xc0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 448
-	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
-	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
-	LONG $0xe0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 480
-	LONG $0x244c8948; BYTE $0x38               // mov    qword [rsp + 56], rcx
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	LONG $0x203a0f66; WORD $0x1624; BYTE $0x01 // pinsrb    xmm4, byte [rsi + rdx], 1
-	QUAD $0x021e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r11], 2
-	QUAD $0x030624203a0f4266                   // pinsrb    xmm4, byte [rsi + r8], 3
-	QUAD $0x043624203a0f4266                   // pinsrb    xmm4, byte [rsi + r14], 4
-	QUAD $0x052e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r13], 5
-	QUAD $0x061624203a0f4266                   // pinsrb    xmm4, byte [rsi + r10], 6
-	QUAD $0x072624203a0f4266                   // pinsrb    xmm4, byte [rsi + r12], 7
-	QUAD $0x083e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r15], 8
-	LONG $0x203a0f66; WORD $0x3e24; BYTE $0x09 // pinsrb    xmm4, byte [rsi + rdi], 9
-	QUAD $0x0a0e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r9], 10
-	LONG $0x203a0f66; WORD $0x1e24; BYTE $0x0b // pinsrb    xmm4, byte [rsi + rbx], 11
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	LONG $0x203a0f66; WORD $0x1624; BYTE $0x0c // pinsrb    xmm4, byte [rsi + rdx], 12
-	LONG $0x203a0f66; WORD $0x0624; BYTE $0x0d // pinsrb    xmm4, byte [rsi + rax], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	LONG $0x203a0f66; WORD $0x1e24; BYTE $0x0e // pinsrb    xmm4, byte [rsi + rbx], 14
-	LONG $0x203a0f66; WORD $0x0e24; BYTE $0x0f // pinsrb    xmm4, byte [rsi + rcx], 15
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x01011e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 1], 1
-	QUAD $0x011e5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r11 + 1], 2
-	QUAD $0x01065c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r8 + 1], 3
-	QUAD $0x01365c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r14 + 1], 4
-	QUAD $0x012e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 1], 5
-	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
-	QUAD $0x01165c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r10 + 1], 6
-	QUAD $0x01265c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r12 + 1], 7
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	QUAD $0x013e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r15 + 1], 8
-	QUAD $0x09013e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 1], 9
-	QUAD $0x010e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 1], 10
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x01265c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r12 + 1], 11
-	QUAD $0x0c01165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 1], 12
-	QUAD $0x0d01065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 1], 13
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e01065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 1], 14
-	QUAD $0x00010024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 256]
-	LONG $0xe6740f66                           // pcmpeqb    xmm4, xmm6
-	QUAD $0x0f010e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 1], 15
-	LONG $0xde740f66                           // pcmpeqb    xmm3, xmm6
-	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
-	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x0654b60f; BYTE $0x10               // movzx    edx, byte [rsi + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0102066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 1
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x02166c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rsi + r10 + 2], 2
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x03023e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 2], 3
-	QUAD $0x02366c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r14 + 2], 4
-	QUAD $0x021e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r11 + 2], 5
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x020e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r9 + 2], 6
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	QUAD $0x022e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r13 + 2], 7
-	QUAD $0x023e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r15 + 2], 8
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0902166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 2], 9
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0a02066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 10
-	QUAD $0x02266c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r12 + 2], 11
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0c020e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 2], 12
-	QUAD $0x02066c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r8 + 2], 13
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x022e6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r13 + 2], 14
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x02066c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r8 + 2], 15
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0103067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 1
-	QUAD $0x03167c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rsi + r10 + 3], 2
-	QUAD $0x03033e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 3], 3
-	QUAD $0x03367c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r14 + 3], 4
-	QUAD $0x031e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r11 + 3], 5
-	QUAD $0x030e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r9 + 3], 6
-	QUAD $0x07031e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 3], 7
-	QUAD $0x033e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r15 + 3], 8
-	QUAD $0x0903167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 3], 9
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0a03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 10
-	QUAD $0x03267c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r12 + 3], 11
-	QUAD $0x0c030e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 3], 12
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0d03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 13
-	QUAD $0x032e7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r13 + 3], 14
-	QUAD $0x03067c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r8 + 3], 15
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0104064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 1
-	QUAD $0x04164c203a0f4266; BYTE $0x02       // pinsrb    xmm1, byte [rsi + r10 + 4], 2
-	QUAD $0x03043e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 4], 3
-	QUAD $0x04364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 4], 4
-	QUAD $0x041e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r11 + 4], 5
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x00000088249c894c                   // mov    qword [rsp + 136], r11
-	QUAD $0x040e4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rsi + r9 + 4], 6
-	QUAD $0x07041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 7
-	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
-	QUAD $0x043e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r15 + 4], 8
-	QUAD $0x0904164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 9
-	WORD $0x8948; BYTE $0xd3                   // mov    rbx, rdx
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0a04164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 10
-	QUAD $0x04264c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r12 + 4], 11
-	QUAD $0x0c040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 12
-	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
-	QUAD $0x041e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r11 + 4], 13
-	QUAD $0x042e4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r13 + 4], 14
-	QUAD $0x04064c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r8 + 4], 15
-	LONG $0xee740f66                           // pcmpeqb    xmm5, xmm6
-	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	LONG $0xfe740f66                           // pcmpeqb    xmm7, xmm6
-	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	LONG $0x0e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rcx + 17]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0xce740f66                           // pcmpeqb    xmm1, xmm6
-	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
-	LONG $0xcfeb0f66                           // por    xmm1, xmm7
-	LONG $0x0e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rcx + 18]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
-	LONG $0xcbeb0f66                           // por    xmm1, xmm3
-	LONG $0x0e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rcx + 19]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x01051654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 5], 1
-	QUAD $0x051654203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r10 + 5], 2
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x03050e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 5], 3
-	LONG $0x2474894c; BYTE $0x78               // mov    qword [rsp + 120], r14
-	QUAD $0x053654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 5], 4
-	QUAD $0x05050654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 5], 5
-	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
-	QUAD $0x050e54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r9 + 5], 6
-	QUAD $0x000000a024bc8948                   // mov    qword [rsp + 160], rdi
-	QUAD $0x07053e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 5], 7
-	QUAD $0x053e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r15 + 5], 8
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	QUAD $0x09051e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 5], 9
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0a050654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 5], 10
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0b050e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 5], 11
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x052e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r13 + 5], 12
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x051e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r11 + 5], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e050e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 5], 14
-	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
-	QUAD $0x051e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r11 + 5], 15
-	QUAD $0x061644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rdx + 6], 1
-	QUAD $0x061644203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r10 + 6], 2
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x061e44203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rbx + 6], 3
-	QUAD $0x063644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 6], 4
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x061e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rbx + 6], 5
-	QUAD $0x062644203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r12 + 6], 6
-	QUAD $0x063e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rdi + 6], 7
-	QUAD $0x063e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r15 + 6], 8
-	QUAD $0x060e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 6], 9
-	QUAD $0x060644203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rax + 6], 10
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x061e44203a0f4466; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + rbx + 6], 11
-	QUAD $0x062e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r13 + 6], 12
-	QUAD $0x060644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r8 + 6], 13
-	QUAD $0x060e44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rcx + 6], 14
-	QUAD $0x061e44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r11 + 6], 15
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	QUAD $0x071674203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rdx + 7], 1
-	QUAD $0x071674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r10 + 7], 2
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x071674203a0f4466; BYTE $0x03       // pinsrb    xmm14, byte [rsi + rdx + 7], 3
-	QUAD $0x073674203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r14 + 7], 4
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x071e74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rsi + r11 + 7], 5
-	QUAD $0x072674203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rsi + r12 + 7], 6
-	QUAD $0x073e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rdi + 7], 7
-	QUAD $0x073e74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r15 + 7], 8
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	LONG $0x247c894c; BYTE $0x60               // mov    qword [rsp + 96], r15
-	QUAD $0x070e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 7], 9
-	QUAD $0x070674203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rax + 7], 10
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x071e74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + rbx + 7], 11
-	QUAD $0x072e74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r13 + 7], 12
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x070674203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + r8 + 7], 13
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x072e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r13 + 7], 14
-	LONG $0xd6740f66                           // pcmpeqb    xmm2, xmm6
-	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
-	LONG $0x740f4466; BYTE $0xc6               // pcmpeqb    xmm8, xmm6
-	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	LONG $0x54b60f42; WORD $0x140e             // movzx    edx, byte [rsi + r9 + 20]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x070e74203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rcx + 7], 15
-	LONG $0x740f4466; BYTE $0xf6               // pcmpeqb    xmm14, xmm6
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xdf0f4466; BYTE $0xf0               // pandn    xmm14, xmm0
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	LONG $0x54b60f42; WORD $0x150e             // movzx    edx, byte [rsi + r9 + 21]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x080e4c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rcx + 8], 1
-	QUAD $0x08164c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rsi + r10 + 8], 2
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x08064c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r8 + 8], 3
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x08164c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdx + 8], 4
-	QUAD $0x081e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r11 + 8], 5
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x08164c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rdx + 8], 6
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x083e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r15 + 8], 7
-	QUAD $0x08264c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r12 + 8], 8
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x08264c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r12 + 8], 9
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x08164c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rdx + 8], 10
-	QUAD $0x081e4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + rbx + 8], 11
-	QUAD $0x08364c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r14 + 8], 12
-	QUAD $0x083e4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdi + 8], 13
-	QUAD $0x082e4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r13 + 8], 14
-	QUAD $0x08064c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rax + 8], 15
-	LONG $0xeb0f4466; BYTE $0xf1               // por    xmm14, xmm1
-	QUAD $0x011024b47f0f4466; WORD $0x0000     // movdqa    oword [rsp + 272], xmm14
-	LONG $0x54b60f42; WORD $0x160e             // movzx    edx, byte [rsi + r9 + 22]
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x740f4466; BYTE $0xce               // pcmpeqb    xmm9, xmm6
-	QUAD $0x00d024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 208]
-	QUAD $0x090e74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rcx + 9], 1
-	QUAD $0x091674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r10 + 9], 2
-	QUAD $0x090674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r8 + 9], 3
-	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
-	QUAD $0x090674203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rsi + rax + 9], 4
-	QUAD $0x091e74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rsi + r11 + 9], 5
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x091674203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rdx + 9], 6
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	QUAD $0x093e74203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rsi + r15 + 9], 7
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x093e74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r15 + 9], 8
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	QUAD $0x092674203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r12 + 9], 9
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x092e74203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r13 + 9], 10
-	QUAD $0x091e74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + rbx + 9], 11
-	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
-	QUAD $0x093674203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r14 + 9], 12
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x093674203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + r14 + 9], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x090674203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + rax + 9], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090674203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rax + 9], 15
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	QUAD $0x0a0e64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rcx + 10], 1
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0a0e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rcx + 10], 2
-	QUAD $0x0a0664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r8 + 10], 3
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0a0e64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rcx + 10], 4
-	QUAD $0x0a1e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r11 + 10], 5
-	QUAD $0x0a1664203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rdx + 10], 6
-	QUAD $0x0a3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 10], 7
-	QUAD $0x0a3e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r15 + 10], 8
-	QUAD $0x0a0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 10], 9
-	QUAD $0x0a2e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r13 + 10], 10
-	QUAD $0x0a1e64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + rbx + 10], 11
-	QUAD $0x0a2664203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r12 + 10], 12
-	QUAD $0x0a3664203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r14 + 10], 13
-	LONG $0x24748b4c; BYTE $0x10               // mov    r14, qword [rsp + 16]
-	QUAD $0x0a3664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r14 + 10], 14
-	QUAD $0x0a0664203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rax + 10], 15
-	QUAD $0x0b166c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r10 + 11], 1
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x0b166c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rsi + r10 + 11], 2
-	QUAD $0x0b066c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r8 + 11], 3
-	QUAD $0x0b0e6c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rsi + rcx + 11], 4
-	QUAD $0x0b1e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r11 + 11], 5
-	QUAD $0x0b166c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rdx + 11], 6
-	QUAD $0x0b3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 11], 7
-	QUAD $0x0b3e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r15 + 11], 8
-	QUAD $0x0b0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 11], 9
-	QUAD $0x0b2e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r13 + 11], 10
-	QUAD $0x0b1e6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + rbx + 11], 11
-	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
-	QUAD $0x0b266c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r12 + 11], 12
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x0b2e6c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r13 + 11], 13
-	QUAD $0x0b366c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r14 + 11], 14
-	QUAD $0x0b066c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rax + 11], 15
-	LONG $0x740f4466; BYTE $0xf6               // pcmpeqb    xmm14, xmm6
-	QUAD $0x000100b5df0f4466; BYTE $0x00       // pandn    xmm14, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xfc0f4566; BYTE $0xf1               // paddb    xmm14, xmm9
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x0654b60f; BYTE $0x17               // movzx    edx, byte [rsi + rax + 23]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0x740f4466; BYTE $0xe6               // pcmpeqb    xmm12, xmm6
-	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x740f4466; BYTE $0xee               // pcmpeqb    xmm13, xmm6
-	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x0654b60f; BYTE $0x18               // movzx    edx, byte [rsi + rax + 24]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	QUAD $0x00e0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 224]
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 12], 1
-	QUAD $0x0c164c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rsi + r10 + 12], 2
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x0c064c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r8 + 12], 3
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	QUAD $0x0c0e4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rcx + 12], 4
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x0c1e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r11 + 12], 5
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x0c1e4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rsi + r11 + 12], 6
-	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
-	QUAD $0x0c3e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rdi + 12], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0c0e4c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rsi + rcx + 12], 8
-	QUAD $0x0c0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 12], 9
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c3e4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rdi + 12], 10
-	QUAD $0x0c3e4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r15 + 12], 11
-	QUAD $0x0c264c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r12 + 12], 12
-	QUAD $0x0c2e4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r13 + 12], 13
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0c164c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rdx + 12], 14
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0c164c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rdx + 12], 15
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0d165c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rdx + 13], 1
-	QUAD $0x0d165c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rsi + r10 + 13], 2
-	QUAD $0x0d065c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rax + 13], 3
-	QUAD $0x0d365c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r14 + 13], 4
-	QUAD $0x0d065c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r8 + 13], 5
-	QUAD $0x0d1e5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rsi + r11 + 13], 6
-	QUAD $0x0d1e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rbx + 13], 7
-	QUAD $0x0d0e5c203a0f4466; BYTE $0x08       // pinsrb    xmm11, byte [rsi + rcx + 13], 8
-	QUAD $0x0d0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 13], 9
-	QUAD $0x0d3e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rdi + 13], 10
-	QUAD $0x0d3e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 13], 11
-	QUAD $0x0d265c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r12 + 13], 12
-	QUAD $0x0d2e5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r13 + 13], 13
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0d165c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rdx + 13], 14
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0d165c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdx + 13], 15
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e167c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rdx + 14], 1
-	QUAD $0x0e167c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r10 + 14], 2
-	QUAD $0x0e067c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rax + 14], 3
-	QUAD $0x0e367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 14], 4
-	QUAD $0x0e067c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rsi + r8 + 14], 5
-	QUAD $0x0e1e7c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rsi + r11 + 14], 6
-	QUAD $0x0e1e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rbx + 14], 7
-	QUAD $0x0e0e7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rsi + rcx + 14], 8
-	QUAD $0x0e0e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 14], 9
-	QUAD $0x0e3e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rdi + 14], 10
-	QUAD $0x0e3e7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r15 + 14], 11
-	QUAD $0x0e267c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r12 + 14], 12
-	QUAD $0x0e2e7c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r13 + 14], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x0e3e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r15 + 14], 14
-	LONG $0x740f4466; BYTE $0xce               // pcmpeqb    xmm9, xmm6
-	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	LONG $0x0e54b60f; BYTE $0x19               // movzx    edx, byte [rsi + rcx + 25]
-	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
-	QUAD $0x000160b5f80f4466; BYTE $0x00       // psubb    xmm14, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xeb0f4566; BYTE $0xce               // por    xmm9, xmm14
-	LONG $0x0e54b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rcx + 26]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0e067c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + rax + 14], 15
-	LONG $0x740f4466; BYTE $0xde               // pcmpeqb    xmm11, xmm6
-	QUAD $0x0001409ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 320[rbp] /* [rip + .LCPI4_20] */
-	LONG $0x740f4466; BYTE $0xfe               // pcmpeqb    xmm15, xmm6
-	LONG $0x6f0f4466; BYTE $0xf6               // movdqa    xmm14, xmm6
-	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
-	LONG $0x0e54b60f; BYTE $0x1b               // movzx    edx, byte [rsi + rcx + 27]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	QUAD $0x0000b024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 176]
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0f1e74203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r11 + 15], 1
-	QUAD $0x0f1674203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r10 + 15], 2
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x030f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 15], 3
-	QUAD $0x0f3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 15], 4
-	QUAD $0x0f0674203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r8 + 15], 5
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0f2674203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r12 + 15], 6
-	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
-	QUAD $0x070f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 7
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x080f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 8
-	QUAD $0x0f0e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 15], 9
-	QUAD $0x0a0f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 10
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x0b0f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 11
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0f3674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r14 + 15], 12
-	QUAD $0x0f2e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r13 + 15], 13
-	QUAD $0x0f3e74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r15 + 15], 14
-	QUAD $0x0f0f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 15], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x0654b60f; BYTE $0x1c               // movzx    edx, byte [rsi + rax + 28]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
-	QUAD $0x0000b024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm6
-	LONG $0x0654b60f; BYTE $0x1d               // movzx    edx, byte [rsi + rax + 29]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	QUAD $0x101e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r11 + 16], 1
-	QUAD $0x101654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r10 + 16], 2
-	QUAD $0x101e54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rbx + 16], 3
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x102e54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r13 + 16], 4
-	QUAD $0x100654203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r8 + 16], 5
-	QUAD $0x102654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r12 + 16], 6
-	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
-	QUAD $0x102654203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r12 + 16], 7
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x101654203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rdx + 16], 8
-	QUAD $0x100e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 16], 9
-	QUAD $0x103e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rdi + 16], 10
-	QUAD $0x100e54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rcx + 16], 11
-	QUAD $0x103654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r14 + 16], 12
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x103654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r14 + 16], 13
-	QUAD $0x103e54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r15 + 16], 14
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x100654203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rax + 16], 15
-	QUAD $0x111e64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r11 + 17], 1
-	QUAD $0x111664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r10 + 17], 2
-	QUAD $0x03111e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 17], 3
-	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
-	QUAD $0x112e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r13 + 17], 4
-	QUAD $0x110664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r8 + 17], 5
-	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
-	QUAD $0x111e64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r11 + 17], 6
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	QUAD $0x112664203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r12 + 17], 7
-	QUAD $0x08111664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 17], 8
-	QUAD $0x110e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 17], 9
-	QUAD $0x0a113e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 17], 10
-	QUAD $0x0b110e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 17], 11
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0c110e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 17], 12
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	QUAD $0x113664203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r14 + 17], 13
-	QUAD $0x113e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r15 + 17], 14
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	QUAD $0x0f110664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 17], 15
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	LONG $0x6f0f4166; BYTE $0xf6               // movdqa    xmm6, xmm14
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0x740f4166; BYTE $0xe6               // pcmpeqb    xmm4, xmm14
-	QUAD $0x00000100a5df0f66                   // pandn    xmm4, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	LONG $0x3e54b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rdi + 30]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0112067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 18], 1
-	QUAD $0x0113066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 1
-	QUAD $0x0114065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 20], 1
-	QUAD $0x01150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 1
-	QUAD $0x0116064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 22], 1
-	QUAD $0x170644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 23], 1
-	QUAD $0x180664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 24], 1
-	QUAD $0x19066c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rax + 25], 1
-	QUAD $0x011a0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 26], 1
-	QUAD $0x1b065c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rax + 27], 1
-	QUAD $0x1c067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 28], 1
-	QUAD $0x1d064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 29], 1
-	QUAD $0x1e0654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 30], 1
-	LONG $0x3e54b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rdi + 31]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	QUAD $0x011f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 31], 1
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0212167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 2
-	QUAD $0x0213166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 2
-	QUAD $0x0214165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 20], 2
-	QUAD $0x02151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 2
-	QUAD $0x0216164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 22], 2
-	QUAD $0x171644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdx + 23], 2
-	QUAD $0x181664203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdx + 24], 2
-	QUAD $0x19166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 25], 2
-	QUAD $0x021a1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 26], 2
-	QUAD $0x1b165c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdx + 27], 2
-	QUAD $0x1c167c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rdx + 28], 2
-	QUAD $0x1d164c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdx + 29], 2
-	QUAD $0x1e1654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdx + 30], 2
-	QUAD $0x021f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 31], 2
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x0312167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 3
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	QUAD $0x12167c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r10 + 18], 4
-	QUAD $0x12067c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r8 + 18], 5
-	QUAD $0x121e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r11 + 18], 6
-	QUAD $0x07121e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 18], 7
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0812067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 18], 8
-	QUAD $0x120e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 18], 9
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0a123e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 18], 10
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x12167c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r10 + 18], 11
-	QUAD $0x0c120e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 18], 12
-	QUAD $0x122e7c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r13 + 18], 13
-	QUAD $0x12267c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r12 + 18], 14
-	QUAD $0x123e7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r15 + 18], 15
-	QUAD $0x0313166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 3
-	QUAD $0x13366c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r14 + 19], 4
-	QUAD $0x13066c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r8 + 19], 5
-	QUAD $0x131e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r11 + 19], 6
-	QUAD $0x07131e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 19], 7
-	QUAD $0x0813066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 8
-	QUAD $0x130e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r9 + 19], 9
-	QUAD $0x0a133e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 19], 10
-	QUAD $0x13166c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r10 + 19], 11
-	QUAD $0x0c130e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 19], 12
-	QUAD $0x132e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r13 + 19], 13
-	QUAD $0x13266c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r12 + 19], 14
-	QUAD $0x133e6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r15 + 19], 15
-	QUAD $0x0314165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 20], 3
-	QUAD $0x14365c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r14 + 20], 4
-	QUAD $0x14065c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r8 + 20], 5
-	QUAD $0x141e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r11 + 20], 6
-	QUAD $0x07141e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 20], 7
-	QUAD $0x0814065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 20], 8
-	QUAD $0x140e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r9 + 20], 9
-	QUAD $0x0a143e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 20], 10
-	QUAD $0x14165c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r10 + 20], 11
-	QUAD $0x0c140e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 20], 12
-	QUAD $0x142e5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r13 + 20], 13
-	QUAD $0x14265c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r12 + 20], 14
-	LONG $0x740f4166; BYTE $0xfe               // pcmpeqb    xmm7, xmm14
-	QUAD $0x00000110bddf0f66                   // pandn    xmm7, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x740f4166; BYTE $0xee               // pcmpeqb    xmm5, xmm14
-	QUAD $0x00000120addf0f66                   // pandn    xmm5, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0x143e5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r15 + 20], 15
-	LONG $0x740f4166; BYTE $0xde               // pcmpeqb    xmm3, xmm14
-	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	QUAD $0x03151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x153654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 21], 4
-	QUAD $0x150654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r8 + 21], 5
-	QUAD $0x151e54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r11 + 21], 6
-	QUAD $0x07151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 7
-	QUAD $0x08150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 8
-	QUAD $0x150e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 21], 9
-	QUAD $0x0a153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 10
-	QUAD $0x151654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r10 + 21], 11
-	QUAD $0x0c150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 12
-	QUAD $0x152e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r13 + 21], 13
-	QUAD $0x152654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r12 + 21], 14
-	QUAD $0x153e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r15 + 21], 15
-	QUAD $0x0316164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 22], 3
-	QUAD $0x16364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 22], 4
-	QUAD $0x16064c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r8 + 22], 5
-	QUAD $0x161e4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rsi + r11 + 22], 6
-	QUAD $0x07161e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 22], 7
-	QUAD $0x0816064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 22], 8
-	QUAD $0x160e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 22], 9
-	QUAD $0x0a163e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 22], 10
-	QUAD $0x16164c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r10 + 22], 11
-	QUAD $0x0c160e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 22], 12
-	QUAD $0x162e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r13 + 22], 13
-	QUAD $0x16264c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r12 + 22], 14
-	QUAD $0x163e4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r15 + 22], 15
-	QUAD $0x171644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rdx + 23], 3
-	QUAD $0x173644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 23], 4
-	QUAD $0x170644203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r8 + 23], 5
-	QUAD $0x171e44203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r11 + 23], 6
-	QUAD $0x171e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 23], 7
-	QUAD $0x170644203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rsi + rax + 23], 8
-	QUAD $0x170e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 23], 9
-	QUAD $0x173e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rdi + 23], 10
-	QUAD $0x171644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r10 + 23], 11
-	QUAD $0x170e44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rcx + 23], 12
-	QUAD $0x172e44203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r13 + 23], 13
-	QUAD $0x172644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r12 + 23], 14
-	LONG $0x6f0f4166; BYTE $0xe6               // movdqa    xmm4, xmm14
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x173e44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r15 + 23], 15
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	LONG $0x6f0f4166; BYTE $0xd6               // movdqa    xmm2, xmm14
-	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	QUAD $0x181664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rdx + 24], 3
-	QUAD $0x183664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r14 + 24], 4
-	QUAD $0x180664203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r8 + 24], 5
-	QUAD $0x181e64203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rsi + r11 + 24], 6
-	QUAD $0x181e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rbx + 24], 7
-	QUAD $0x180664203a0f4466; BYTE $0x08       // pinsrb    xmm12, byte [rsi + rax + 24], 8
-	QUAD $0x180e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 24], 9
-	QUAD $0x183e64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rdi + 24], 10
-	QUAD $0x181664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r10 + 24], 11
-	QUAD $0x180e64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + rcx + 24], 12
-	QUAD $0x182e64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r13 + 24], 13
-	QUAD $0x182664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r12 + 24], 14
-	QUAD $0x183e64203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r15 + 24], 15
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x19166c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rsi + rdx + 25], 3
-	QUAD $0x19366c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r14 + 25], 4
-	QUAD $0x19066c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r8 + 25], 5
-	QUAD $0x191e6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rsi + r11 + 25], 6
-	QUAD $0x191e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rbx + 25], 7
-	QUAD $0x19066c203a0f4466; BYTE $0x08       // pinsrb    xmm13, byte [rsi + rax + 25], 8
-	QUAD $0x190e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 25], 9
-	QUAD $0x193e6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rdi + 25], 10
-	QUAD $0x19166c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r10 + 25], 11
-	QUAD $0x190e6c203a0f4466; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + rcx + 25], 12
-	QUAD $0x192e6c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r13 + 25], 13
-	QUAD $0x19266c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r12 + 25], 14
-	QUAD $0x193e6c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r15 + 25], 15
-	QUAD $0x031a1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 26], 3
-	QUAD $0x1a3644203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r14 + 26], 4
-	QUAD $0x1a0644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r8 + 26], 5
-	QUAD $0x1a1e44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r11 + 26], 6
-	QUAD $0x071a1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 26], 7
-	QUAD $0x081a0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 26], 8
-	QUAD $0x1a0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 26], 9
-	QUAD $0x0a1a3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 26], 10
-	QUAD $0x1a1644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r10 + 26], 11
-	QUAD $0x0c1a0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 26], 12
-	QUAD $0x1a2e44203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r13 + 26], 13
-	QUAD $0x1a2644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r12 + 26], 14
-	QUAD $0x1a3e44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r15 + 26], 15
-	QUAD $0x1b165c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rdx + 27], 3
-	QUAD $0x1b365c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r14 + 27], 4
-	QUAD $0x1b065c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r8 + 27], 5
-	QUAD $0x1b1e5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rsi + r11 + 27], 6
-	QUAD $0x1b1e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rbx + 27], 7
-	QUAD $0x1b065c203a0f4466; BYTE $0x08       // pinsrb    xmm11, byte [rsi + rax + 27], 8
-	QUAD $0x1b0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 27], 9
-	QUAD $0x1b3e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rdi + 27], 10
-	QUAD $0x1b165c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r10 + 27], 11
-	QUAD $0x1b0e5c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + rcx + 27], 12
-	QUAD $0x1b2e5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r13 + 27], 13
-	QUAD $0x1b265c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r12 + 27], 14
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
-	QUAD $0x1b3e5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r15 + 27], 15
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
-	QUAD $0x1c167c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rdx + 28], 3
-	QUAD $0x1d164c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdx + 29], 3
-	QUAD $0x1e1654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rdx + 30], 3
-	QUAD $0x031f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 31], 3
-	QUAD $0x1c367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 28], 4
-	QUAD $0x1d364c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r14 + 29], 4
-	QUAD $0x1e3654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 30], 4
-	QUAD $0x1f3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 31], 4
-	QUAD $0x1c067c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rsi + r8 + 28], 5
-	QUAD $0x1d064c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r8 + 29], 5
-	QUAD $0x1e0654203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r8 + 30], 5
-	QUAD $0x1f0674203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r8 + 31], 5
-	WORD $0x894c; BYTE $0xda                   // mov    rdx, r11
-	QUAD $0x1c1e7c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rsi + r11 + 28], 6
-	QUAD $0x1d1e4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rsi + r11 + 29], 6
-	QUAD $0x1e1e54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r11 + 30], 6
-	QUAD $0x1f1e74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r11 + 31], 6
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	WORD $0x8948; BYTE $0xda                   // mov    rdx, rbx
-	QUAD $0x1c1e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rbx + 28], 7
-	QUAD $0x1d1e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rbx + 29], 7
-	QUAD $0x1e1e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rbx + 30], 7
-	QUAD $0x071f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 31], 7
-	QUAD $0x1c067c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rsi + rax + 28], 8
-	QUAD $0x1d064c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rsi + rax + 29], 8
-	QUAD $0x1e0654203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rax + 30], 8
-	QUAD $0x081f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 31], 8
-	QUAD $0x1c0e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 28], 9
-	QUAD $0x1d0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 29], 9
-	QUAD $0x1e0e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 30], 9
-	QUAD $0x1f0e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 31], 9
-	QUAD $0x1c3e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rdi + 28], 10
-	QUAD $0x1d3e4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rdi + 29], 10
-	QUAD $0x1e3e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rdi + 30], 10
-	QUAD $0x0a1f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 31], 10
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x1c167c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r10 + 28], 11
-	QUAD $0x1d164c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r10 + 29], 11
-	QUAD $0x1e1654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r10 + 30], 11
-	QUAD $0x1f1674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r10 + 31], 11
-	QUAD $0x1c0e7c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + rcx + 28], 12
-	QUAD $0x1d0e4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + rcx + 29], 12
-	QUAD $0x1e0e54203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rcx + 30], 12
-	QUAD $0x0c1f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 31], 12
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x1c2e7c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r13 + 28], 13
-	QUAD $0x1d2e4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r13 + 29], 13
-	QUAD $0x1e2e54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r13 + 30], 13
-	QUAD $0x1f2e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r13 + 31], 13
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x1c267c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r12 + 28], 14
-	QUAD $0x1d264c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r12 + 29], 14
-	QUAD $0x1e2654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r12 + 30], 14
-	QUAD $0x1f2674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r12 + 31], 14
-	QUAD $0x1c3e7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r15 + 28], 15
-	QUAD $0x1d3e4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r15 + 29], 15
-	QUAD $0x1e3e54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r15 + 30], 15
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
-	QUAD $0x1f3e74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r15 + 31], 15
-	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
-	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
-	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
-	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	QUAD $0x0000b0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 176]
-	LONG $0xcb600f66                           // punpcklbw    xmm1, xmm3
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
-	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
-	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
-	LONG $0xe3680f66                           // punpckhbw    xmm4, xmm3
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
-	LONG $0x7f0f41f3; WORD $0x8e14             // movdqu    oword [r14 + 4*rcx], xmm2
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000f0248c3b48                   // cmp    rcx, qword [rsp + 240]
-	JNE  LBB4_181
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x000000f024943b4c                   // cmp    r10, qword [rsp + 240]
-	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
-	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	JNE  LBB4_43
-	JMP  LBB4_131
-
-LBB4_183:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x000000f824848948             // mov    qword [rsp + 248], rax
-	QUAD $0x000000f02494894c             // mov    qword [rsp + 240], r10
-	LONG $0x96048d4b                     // lea    rax, [r14 + 4*r10]
-	LONG $0x24448948; BYTE $0x68         // mov    qword [rsp + 104], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000a0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 160], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
-
-LBB4_184:
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
-	LONG $0x05e1c149                           // shl    r9, 5
-	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	WORD $0x894d; BYTE $0xca                   // mov    r10, r9
-	LONG $0x244c894c; BYTE $0x40               // mov    qword [rsp + 64], r9
-	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	WORD $0x894d; BYTE $0xce                   // mov    r14, r9
-	WORD $0x894c; BYTE $0xca                   // mov    rdx, r9
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0x04b60f42; BYTE $0x0e               // movzx    eax, byte [rsi + r9]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x44b60f42; WORD $0x010e             // movzx    eax, byte [rsi + r9 + 1]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x44b60f42; WORD $0x020e             // movzx    eax, byte [rsi + r9 + 2]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b60f42; WORD $0x030e             // movzx    eax, byte [rsi + r9 + 3]
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x44b60f42; WORD $0x040e             // movzx    eax, byte [rsi + r9 + 4]
-	LONG $0x6e0f4466; BYTE $0xc8               // movd    xmm9, eax
-	LONG $0x44b60f42; WORD $0x050e             // movzx    eax, byte [rsi + r9 + 5]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b60f42; WORD $0x060e             // movzx    eax, byte [rsi + r9 + 6]
-	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
-	LONG $0x44b60f42; WORD $0x070e             // movzx    eax, byte [rsi + r9 + 7]
-	LONG $0x6e0f4466; BYTE $0xf0               // movd    xmm14, eax
-	LONG $0x44b60f42; WORD $0x080e             // movzx    eax, byte [rsi + r9 + 8]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
-	LONG $0x44b60f42; WORD $0x090e             // movzx    eax, byte [rsi + r9 + 9]
-	LONG $0x6e0f4466; BYTE $0xd8               // movd    xmm11, eax
-	LONG $0x44b60f42; WORD $0x0a0e             // movzx    eax, byte [rsi + r9 + 10]
-	LONG $0x6e0f4466; BYTE $0xe0               // movd    xmm12, eax
-	LONG $0x44b60f42; WORD $0x0b0e             // movzx    eax, byte [rsi + r9 + 11]
-	LONG $0x6e0f4466; BYTE $0xe8               // movd    xmm13, eax
-	LONG $0x44b60f42; WORD $0x0c0e             // movzx    eax, byte [rsi + r9 + 12]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
-	LONG $0x44b60f42; WORD $0x0d0e             // movzx    eax, byte [rsi + r9 + 13]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	LONG $0x44b60f42; WORD $0x0e0e             // movzx    eax, byte [rsi + r9 + 14]
-	LONG $0x6e0f4466; BYTE $0xf8               // movd    xmm15, eax
-	LONG $0x44b60f42; WORD $0x0f0e             // movzx    eax, byte [rsi + r9 + 15]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	LONG $0x20c98348                           // or    rcx, 32
-	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
-	LONG $0x40cc8349                           // or    r12, 64
-	LONG $0x60cd8349                           // or    r13, 96
-	LONG $0x80ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 128
-	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	LONG $0xa0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 160
-	LONG $0x2454894c; BYTE $0x40               // mov    qword [rsp + 64], r10
-	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
-	LONG $0x247c894c; BYTE $0x18               // mov    qword [rsp + 24], r15
-	LONG $0xe0cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 224
-	LONG $0x00ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 256
-	QUAD $0x000000b024b4894c                   // mov    qword [rsp + 176], r14
-	LONG $0x20ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 288
-	LONG $0x40c88149; WORD $0x0001; BYTE $0x00 // or    r8, 320
-	LONG $0x2444894c; BYTE $0x78               // mov    qword [rsp + 120], r8
-	LONG $0x60cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 352
-	LONG $0x245c8948; BYTE $0x58               // mov    qword [rsp + 88], rbx
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0x247c8948; BYTE $0x20               // mov    qword [rsp + 32], rdi
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0xe0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 480
-	LONG $0x203a0f66; WORD $0x0e24; BYTE $0x01 // pinsrb    xmm4, byte [rsi + rcx], 1
-	LONG $0x2464894c; BYTE $0x60               // mov    qword [rsp + 96], r12
-	QUAD $0x022624203a0f4266                   // pinsrb    xmm4, byte [rsi + r12], 2
-	QUAD $0x032e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r13], 3
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	LONG $0x203a0f66; WORD $0x0e24; BYTE $0x04 // pinsrb    xmm4, byte [rsi + rcx], 4
-	QUAD $0x051624203a0f4266                   // pinsrb    xmm4, byte [rsi + r10], 5
-	QUAD $0x063e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r15], 6
-	QUAD $0x071e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r11], 7
-	QUAD $0x083624203a0f4266                   // pinsrb    xmm4, byte [rsi + r14], 8
-	LONG $0x203a0f66; WORD $0x1624; BYTE $0x09 // pinsrb    xmm4, byte [rsi + rdx], 9
-	QUAD $0x0a0624203a0f4266                   // pinsrb    xmm4, byte [rsi + r8], 10
-	LONG $0x203a0f66; WORD $0x1e24; BYTE $0x0b // pinsrb    xmm4, byte [rsi + rbx], 11
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	LONG $0x203a0f66; WORD $0x0e24; BYTE $0x0c // pinsrb    xmm4, byte [rsi + rcx], 12
-	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
-	QUAD $0x0d0e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r9], 13
-	LONG $0x203a0f66; WORD $0x0624; BYTE $0x0e // pinsrb    xmm4, byte [rsi + rax], 14
-	LONG $0x203a0f66; WORD $0x3e24; BYTE $0x0f // pinsrb    xmm4, byte [rsi + rdi], 15
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x010e5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r9 + 1], 1
-	QUAD $0x01265c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r12 + 1], 2
-	QUAD $0x012e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r13 + 1], 3
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x012e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r13 + 1], 4
-	QUAD $0x01165c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r10 + 1], 5
-	QUAD $0x013e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r15 + 1], 6
-	QUAD $0x011e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 1], 7
-	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
-	QUAD $0x01365c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r14 + 1], 8
-	QUAD $0x0901165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 1], 9
-	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
-	QUAD $0x01065c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r8 + 1], 10
-	QUAD $0x0b011e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 1], 11
-	QUAD $0x0c010e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 1], 12
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0d01165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 1], 13
-	QUAD $0x0e01065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 1], 14
-	QUAD $0x0000a0248c6f0f66; BYTE $0x00       // movdqa    xmm1, oword [rsp + 160]
-	LONG $0xe1740f66                           // pcmpeqb    xmm4, xmm1
-	QUAD $0x0f013e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 1], 15
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	LONG $0xd9740f66                           // pcmpeqb    xmm3, xmm1
-	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
-	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0654b60f; BYTE $0x10               // movzx    edx, byte [rsi + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	WORD $0x894c; BYTE $0xca                   // mov    rdx, r9
-	QUAD $0x020e6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r9 + 2], 1
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x02023e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 2], 2
-	LONG $0x2464894c; BYTE $0x38               // mov    qword [rsp + 56], r12
-	QUAD $0x02266c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r12 + 2], 3
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x022e6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r13 + 2], 4
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x021e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r11 + 2], 5
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x022e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r13 + 2], 6
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x02166c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r10 + 2], 7
-	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
-	QUAD $0x023e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r15 + 2], 8
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	QUAD $0x02366c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r14 + 2], 9
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x02166c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r10 + 2], 10
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x02366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 2], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c02066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0d02066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e02066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 14
-	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
-	QUAD $0x0f020e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 2], 15
-	QUAD $0x0103167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 3], 1
-	QUAD $0x02033e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 3], 2
-	QUAD $0x03267c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r12 + 3], 3
-	QUAD $0x03067c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r8 + 3], 4
-	QUAD $0x031e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r11 + 3], 5
-	QUAD $0x032e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r13 + 3], 6
-	QUAD $0x07031e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 3], 7
-	QUAD $0x033e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r15 + 3], 8
-	QUAD $0x030e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 3], 9
-	QUAD $0x03167c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r10 + 3], 10
-	QUAD $0x03367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 3], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0c03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0d03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 14
-	QUAD $0x0f030e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 3], 15
-	QUAD $0x04164c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rdx + 4], 1
-	QUAD $0x043e4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdi + 4], 2
-	QUAD $0x04264c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r12 + 4], 3
-	QUAD $0x04064c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r8 + 4], 4
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x041e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r11 + 4], 5
-	QUAD $0x042e4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rsi + r13 + 4], 6
-	QUAD $0x041e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rbx + 4], 7
-	QUAD $0x043e4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r15 + 4], 8
-	QUAD $0x040e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 4], 9
-	QUAD $0x04164c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r10 + 4], 10
-	QUAD $0x04364c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r14 + 4], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x04064c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + rax + 4], 12
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x04064c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r8 + 4], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x04164c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rdx + 4], 14
-	QUAD $0x040e4c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rcx + 4], 15
-	LONG $0xe9740f66                           // pcmpeqb    xmm5, xmm1
-	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	LONG $0xf9740f66                           // pcmpeqb    xmm7, xmm1
-	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	LONG $0x0e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rcx + 17]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x740f4466; BYTE $0xc9               // pcmpeqb    xmm9, xmm1
-	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xdf0f4466; BYTE $0xc8               // pandn    xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
-	LONG $0x0e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rcx + 18]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
-	LONG $0xeb0f4466; BYTE $0xcb               // por    xmm9, xmm3
-	LONG $0x0e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rcx + 19]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x052654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r12 + 5], 1
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x052e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r13 + 5], 2
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x03050654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 5], 3
-	QUAD $0x04053e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 5], 4
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	QUAD $0x051e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r11 + 5], 5
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x06050654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 5], 6
-	QUAD $0x00000110249c8948                   // mov    qword [rsp + 272], rbx
-	QUAD $0x07051e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 5], 7
-	QUAD $0x053e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r15 + 5], 8
-	QUAD $0x00000088248c894c                   // mov    qword [rsp + 136], r9
-	QUAD $0x050e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 5], 9
-	QUAD $0x051654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r10 + 5], 10
-	QUAD $0x053654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 5], 11
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0c051654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 5], 12
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x050654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r8 + 5], 13
-	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
-	QUAD $0x050654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r8 + 5], 14
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x051e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r11 + 5], 15
-	QUAD $0x062644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r12 + 6], 1
-	QUAD $0x062e44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r13 + 6], 2
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x060644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rax + 6], 3
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x062e44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r13 + 6], 4
-	QUAD $0x063e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rdi + 6], 5
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x060644203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rax + 6], 6
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x061e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 6], 7
-	QUAD $0x063e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r15 + 6], 8
-	QUAD $0x060e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 6], 9
-	QUAD $0x061644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r10 + 6], 10
-	QUAD $0x063644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 6], 11
-	QUAD $0x061644203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rdx + 6], 12
-	QUAD $0x060e44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rcx + 6], 13
-	QUAD $0x060644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r8 + 6], 14
-	QUAD $0x061e44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r11 + 6], 15
-	QUAD $0x072674203a0f4666; BYTE $0x01       // pinsrb    xmm14, byte [rsi + r12 + 7], 1
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x072674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r12 + 7], 2
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x070674203a0f4466; BYTE $0x03       // pinsrb    xmm14, byte [rsi + rax + 7], 3
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x071e74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r11 + 7], 4
-	QUAD $0x073e74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rdi + 7], 5
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x072e74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rsi + r13 + 7], 6
-	QUAD $0x071e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rbx + 7], 7
-	QUAD $0x073e74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r15 + 7], 8
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x070e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 7], 9
-	QUAD $0x071674203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r10 + 7], 10
-	QUAD $0x073674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 7], 11
-	QUAD $0x071674203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + rdx + 7], 12
-	QUAD $0x070e74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rcx + 7], 13
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	QUAD $0x070674203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r8 + 7], 14
-	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
-	QUAD $0x00a024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 160]
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	LONG $0x3e54b60f; BYTE $0x14               // movzx    edx, byte [rsi + rdi + 20]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0f070e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 7], 15
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	LONG $0x3e54b60f; BYTE $0x15               // movzx    edx, byte [rsi + rdi + 21]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	QUAD $0x0000d024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 208]
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x01080644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 8], 1
-	QUAD $0x082644203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r12 + 8], 2
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x082644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r12 + 8], 3
-	QUAD $0x081e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 8], 4
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
-	QUAD $0x083644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r14 + 8], 5
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x06081644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 8], 6
-	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
-	QUAD $0x081e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 8], 7
-	QUAD $0x083e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r15 + 8], 8
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x081644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r10 + 8], 9
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x083e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r15 + 8], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x0b081644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 8], 11
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0c081644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 8], 12
-	QUAD $0x082e44203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r13 + 8], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0e081644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 8], 14
-	QUAD $0x0f080e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 8], 15
-	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
-	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
-	LONG $0x3e54b60f; BYTE $0x16               // movzx    edx, byte [rsi + rdi + 22]
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x09065c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rax + 9], 1
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x093e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdi + 9], 2
-	QUAD $0x09265c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r12 + 9], 3
-	QUAD $0x09065c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r8 + 9], 4
-	QUAD $0x09365c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r14 + 9], 5
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x092e5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rsi + r13 + 9], 6
-	QUAD $0x091e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r11 + 9], 7
-	QUAD $0x091e5c203a0f4466; BYTE $0x08       // pinsrb    xmm11, byte [rsi + rbx + 9], 8
-	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
-	QUAD $0x09165c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r10 + 9], 9
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	QUAD $0x093e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r15 + 9], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x09165c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r10 + 9], 11
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x093e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 9], 12
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x09165c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rdx + 9], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x09165c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rdx + 9], 14
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x09165c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdx + 9], 15
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0a0664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 10], 1
-	QUAD $0x0a3e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdi + 10], 2
-	QUAD $0x0a2664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r12 + 10], 3
-	QUAD $0x0a0664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r8 + 10], 4
-	QUAD $0x0a3664203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r14 + 10], 5
-	QUAD $0x0a2e64203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rsi + r13 + 10], 6
-	QUAD $0x0a1e64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r11 + 10], 7
-	QUAD $0x0a1e64203a0f4466; BYTE $0x08       // pinsrb    xmm12, byte [rsi + rbx + 10], 8
-	QUAD $0x0a0e64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rsi + rcx + 10], 9
-	QUAD $0x0a0e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r9 + 10], 10
-	QUAD $0x0a1664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r10 + 10], 11
-	QUAD $0x0a3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 10], 12
-	LONG $0x24748b4c; BYTE $0x10               // mov    r14, qword [rsp + 16]
-	QUAD $0x0a3664203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r14 + 10], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a0664203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rax + 10], 14
-	QUAD $0x0a1664203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rdx + 10], 15
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0b066c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rax + 11], 1
-	QUAD $0x0b3e6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdi + 11], 2
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x0b266c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r12 + 11], 3
-	QUAD $0x0b066c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r8 + 11], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0b066c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rsi + rax + 11], 5
-	QUAD $0x0b2e6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rsi + r13 + 11], 6
-	QUAD $0x0b1e6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r11 + 11], 7
-	WORD $0x894d; BYTE $0xdc                   // mov    r12, r11
-	QUAD $0x0b1e6c203a0f4466; BYTE $0x08       // pinsrb    xmm13, byte [rsi + rbx + 11], 8
-	QUAD $0x0b0e6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rsi + rcx + 11], 9
-	QUAD $0x0b0e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r9 + 11], 10
-	QUAD $0x0b166c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r10 + 11], 11
-	QUAD $0x0b3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 11], 12
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0b3e6c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rdi + 11], 13
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x0b0e6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r9 + 11], 14
-	QUAD $0x0b166c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdx + 11], 15
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xfc0f4466; BYTE $0xd8               // paddb    xmm11, xmm0
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	LONG $0x3e54b60f; BYTE $0x17               // movzx    edx, byte [rsi + rdi + 23]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x3e54b60f; BYTE $0x18               // movzx    edx, byte [rsi + rdi + 24]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	QUAD $0x00e0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 224]
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0c1e4c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rsi + r11 + 12], 1
-	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
-	QUAD $0x0c364c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rsi + r14 + 12], 2
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0c3e4c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdi + 12], 3
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x0c364c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r14 + 12], 4
-	QUAD $0x0c064c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rsi + rax + 12], 5
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0c164c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rdx + 12], 6
-	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
-	QUAD $0x0c264c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r12 + 12], 7
-	QUAD $0x0c1e4c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rsi + rbx + 12], 8
-	QUAD $0x0c0e4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rsi + rcx + 12], 9
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x0c264c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r12 + 12], 10
-	QUAD $0x0c164c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r10 + 12], 11
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0c164c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r10 + 12], 12
-	QUAD $0x0c2e4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r13 + 12], 13
-	QUAD $0x0c0e4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r9 + 12], 14
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0c2e4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r13 + 12], 15
-	QUAD $0x0d1e74203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r11 + 13], 1
-	QUAD $0x0d0674203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r8 + 13], 2
-	QUAD $0x030d3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 13], 3
-	QUAD $0x0d3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 13], 4
-	QUAD $0x050d0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 13], 5
-	QUAD $0x060d1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 13], 6
-	QUAD $0x0d3e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r15 + 13], 7
-	QUAD $0x080d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 13], 8
-	QUAD $0x090d0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 13], 9
-	QUAD $0x0d2674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r12 + 13], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b0d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 13], 11
-	QUAD $0x0d1674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r10 + 13], 12
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0d1674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r10 + 13], 13
-	QUAD $0x0d0e74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r9 + 13], 14
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x0d0e74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r9 + 13], 15
-	QUAD $0x0e1e7c203a0f4666; BYTE $0x01       // pinsrb    xmm15, byte [rsi + r11 + 14], 1
-	QUAD $0x0e067c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r8 + 14], 2
-	QUAD $0x0e3e7c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rdi + 14], 3
-	QUAD $0x0e367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 14], 4
-	QUAD $0x0e067c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rax + 14], 5
-	QUAD $0x0e167c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rdx + 14], 6
-	QUAD $0x0e3e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r15 + 14], 7
-	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
-	QUAD $0x0e3e7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rsi + rdi + 14], 8
-	QUAD $0x0e0e7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rsi + rcx + 14], 9
-	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
-	QUAD $0x0e267c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r12 + 14], 10
-	QUAD $0x0e1e7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + rbx + 14], 11
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x0e2e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r13 + 14], 12
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	QUAD $0x0e167c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r10 + 14], 13
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x0e167c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r10 + 14], 14
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0654b60f; BYTE $0x19               // movzx    edx, byte [rsi + rax + 25]
-	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
-	QUAD $0x0001609df80f4466; BYTE $0x00       // psubb    xmm11, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xeb0f4566; BYTE $0xcb               // por    xmm9, xmm11
-	LONG $0x0654b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rax + 26]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x0e0e7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r9 + 14], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	QUAD $0x00000140b5df0f66                   // pandn    xmm6, oword 320[rbp] /* [rip + .LCPI4_20] */
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xeb0f4466; BYTE $0xfe               // por    xmm15, xmm6
-	LONG $0x0654b60f; BYTE $0x1b               // movzx    edx, byte [rsi + rax + 27]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	QUAD $0x0000c024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 192]
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x010f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 1
-	QUAD $0x0f0674203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r8 + 15], 2
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x0f0e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r9 + 15], 3
-	QUAD $0x0f3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 15], 4
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x050f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 5
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x060f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 15], 6
-	QUAD $0x0f3e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r15 + 15], 7
-	QUAD $0x080f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 8
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x090f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 9
-	QUAD $0x0f1e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r11 + 15], 10
-	QUAD $0x0b0f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 15], 11
-	QUAD $0x0f2674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r12 + 15], 12
-	QUAD $0x0f2e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r13 + 15], 13
-	QUAD $0x0f1674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r10 + 15], 14
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0f1674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r10 + 15], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x0654b60f; BYTE $0x1c               // movzx    edx, byte [rsi + rax + 28]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
-	QUAD $0x0000c024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm6
-	LONG $0x0654b60f; BYTE $0x1d               // movzx    edx, byte [rsi + rax + 29]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x101654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rdx + 16], 1
-	QUAD $0x100654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r8 + 16], 2
-	QUAD $0x100e54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r9 + 16], 3
-	QUAD $0x103654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 16], 4
-	QUAD $0x100e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rcx + 16], 5
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x102654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r12 + 16], 6
-	QUAD $0x103e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r15 + 16], 7
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x100e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rcx + 16], 8
-	QUAD $0x103e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rdi + 16], 9
-	QUAD $0x101e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r11 + 16], 10
-	QUAD $0x101e54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rbx + 16], 11
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x100654203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rax + 16], 12
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x102e54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r13 + 16], 13
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x102e54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r13 + 16], 14
-	QUAD $0x101654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r10 + 16], 15
-	QUAD $0x01111664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 17], 1
-	QUAD $0x110664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r8 + 17], 2
-	QUAD $0x110e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r9 + 17], 3
-	QUAD $0x113664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r14 + 17], 4
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x110664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r8 + 17], 5
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	QUAD $0x112664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r12 + 17], 6
-	QUAD $0x113e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r15 + 17], 7
-	QUAD $0x08110e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 17], 8
-	QUAD $0x09113e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 17], 9
-	QUAD $0x111e64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r11 + 17], 10
-	QUAD $0x0b111e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 17], 11
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x112664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r12 + 17], 12
-	QUAD $0x0d110664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 17], 13
-	QUAD $0x112e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r13 + 17], 14
-	QUAD $0x111664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r10 + 17], 15
-	WORD $0x894c; BYTE $0xd7                   // mov    rdi, r10
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0x740f4166; BYTE $0xe6               // pcmpeqb    xmm4, xmm14
-	QUAD $0x00000100b56f0f66                   // movdqa    xmm6, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xe6df0f66                           // pandn    xmm4, xmm6
-	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	LONG $0x0e54b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rcx + 30]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0112067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 18], 1
-	QUAD $0x0113066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 1
-	QUAD $0x0114065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 20], 1
-	QUAD $0x01150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 1
-	QUAD $0x0116064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 22], 1
-	QUAD $0x170644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 23], 1
-	QUAD $0x180664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 24], 1
-	QUAD $0x19066c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rax + 25], 1
-	QUAD $0x011a0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 26], 1
-	QUAD $0x1b065c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rax + 27], 1
-	QUAD $0x1c067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 28], 1
-	QUAD $0x1d064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 29], 1
-	QUAD $0x1e0654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 30], 1
-	LONG $0x0e54b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rcx + 31]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	QUAD $0x011f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 31], 1
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0212167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 2
-	QUAD $0x0213166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 2
-	QUAD $0x0214165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 20], 2
-	QUAD $0x02151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 2
-	QUAD $0x0216164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 22], 2
-	QUAD $0x171644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdx + 23], 2
-	QUAD $0x181664203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdx + 24], 2
-	QUAD $0x19166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 25], 2
-	QUAD $0x021a1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 26], 2
-	QUAD $0x1b165c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdx + 27], 2
-	QUAD $0x1c167c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rdx + 28], 2
-	QUAD $0x1d164c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdx + 29], 2
-	QUAD $0x1e1654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdx + 30], 2
-	QUAD $0x021f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 31], 2
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0312167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 3
-	QUAD $0x12367c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r14 + 18], 4
-	QUAD $0x12067c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r8 + 18], 5
-	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
-	QUAD $0x120e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r9 + 18], 6
-	QUAD $0x123e7c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r15 + 18], 7
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x121e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r11 + 18], 8
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x09120e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 18], 9
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x120e7c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r9 + 18], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x12167c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r10 + 18], 11
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x12267c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r12 + 18], 12
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x12267c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r12 + 18], 13
-	QUAD $0x122e7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r13 + 18], 14
-	QUAD $0x0f123e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 18], 15
-	QUAD $0x0313166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 3
-	QUAD $0x13366c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r14 + 19], 4
-	QUAD $0x13066c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r8 + 19], 5
-	QUAD $0x06131e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 19], 6
-	QUAD $0x133e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r15 + 19], 7
-	QUAD $0x131e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r11 + 19], 8
-	QUAD $0x09130e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 19], 9
-	QUAD $0x130e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r9 + 19], 10
-	QUAD $0x13166c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r10 + 19], 11
-	QUAD $0x0c13066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 12
-	QUAD $0x13266c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r12 + 19], 13
-	QUAD $0x132e6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r13 + 19], 14
-	QUAD $0x0f133e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 19], 15
-	QUAD $0x0314165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 20], 3
-	QUAD $0x14365c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r14 + 20], 4
-	QUAD $0x14065c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r8 + 20], 5
-	QUAD $0x06141e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 20], 6
-	QUAD $0x143e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r15 + 20], 7
-	QUAD $0x141e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 20], 8
-	QUAD $0x09140e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 20], 9
-	QUAD $0x140e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 20], 10
-	QUAD $0x14165c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r10 + 20], 11
-	QUAD $0x0c14065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 20], 12
-	QUAD $0x14265c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r12 + 20], 13
-	QUAD $0x142e5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r13 + 20], 14
-	LONG $0x740f4166; BYTE $0xfe               // pcmpeqb    xmm7, xmm14
-	QUAD $0x000110b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0xdf0f4166; BYTE $0xfe               // pandn    xmm7, xmm14
-	QUAD $0x0000a024ac740f66; BYTE $0x00       // pcmpeqb    xmm5, oword [rsp + 160]
-	QUAD $0x000120b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xdf0f4166; BYTE $0xee               // pandn    xmm5, xmm14
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0x0f143e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 20], 15
-	QUAD $0x00a024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 160]
-	LONG $0x740f4166; BYTE $0xde               // pcmpeqb    xmm3, xmm14
-	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	QUAD $0x03151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 3
-	QUAD $0x153654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 21], 4
-	QUAD $0x150654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r8 + 21], 5
-	QUAD $0x06151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 6
-	QUAD $0x153e54203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r15 + 21], 7
-	QUAD $0x151e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r11 + 21], 8
-	QUAD $0x09150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 9
-	QUAD $0x150e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 21], 10
-	QUAD $0x151654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r10 + 21], 11
-	QUAD $0x0c150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 12
-	QUAD $0x152654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r12 + 21], 13
-	QUAD $0x152e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r13 + 21], 14
-	QUAD $0x0f153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 15
-	QUAD $0x0316164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 22], 3
-	QUAD $0x16364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 22], 4
-	QUAD $0x16064c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r8 + 22], 5
-	QUAD $0x06161e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 22], 6
-	QUAD $0x163e4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r15 + 22], 7
-	QUAD $0x161e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r11 + 22], 8
-	QUAD $0x09160e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 22], 9
-	QUAD $0x160e4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r9 + 22], 10
-	QUAD $0x16164c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r10 + 22], 11
-	QUAD $0x0c16064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 22], 12
-	QUAD $0x16264c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r12 + 22], 13
-	QUAD $0x162e4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r13 + 22], 14
-	QUAD $0x0f163e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 22], 15
-	QUAD $0x171644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rdx + 23], 3
-	QUAD $0x173644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 23], 4
-	QUAD $0x170644203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r8 + 23], 5
-	QUAD $0x171e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rbx + 23], 6
-	QUAD $0x173e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r15 + 23], 7
-	QUAD $0x171e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r11 + 23], 8
-	QUAD $0x170e44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rsi + rcx + 23], 9
-	QUAD $0x170e44203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r9 + 23], 10
-	QUAD $0x171644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r10 + 23], 11
-	QUAD $0x170644203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rax + 23], 12
-	QUAD $0x172644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r12 + 23], 13
-	QUAD $0x172e44203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r13 + 23], 14
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI4_20] */
-	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI4_21] */
-	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x173e44203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + rdi + 23], 15
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	QUAD $0x181664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rdx + 24], 3
-	QUAD $0x183664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r14 + 24], 4
-	QUAD $0x180664203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r8 + 24], 5
-	QUAD $0x181e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rbx + 24], 6
-	QUAD $0x183e64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r15 + 24], 7
-	QUAD $0x181e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r11 + 24], 8
-	QUAD $0x180e64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rsi + rcx + 24], 9
-	QUAD $0x180e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r9 + 24], 10
-	QUAD $0x181664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r10 + 24], 11
-	QUAD $0x180664203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + rax + 24], 12
-	QUAD $0x182664203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r12 + 24], 13
-	QUAD $0x182e64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r13 + 24], 14
-	QUAD $0x183e64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rdi + 24], 15
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x19166c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rsi + rdx + 25], 3
-	QUAD $0x19366c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r14 + 25], 4
-	QUAD $0x19066c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r8 + 25], 5
-	QUAD $0x191e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rbx + 25], 6
-	QUAD $0x193e6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r15 + 25], 7
-	QUAD $0x191e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r11 + 25], 8
-	QUAD $0x190e6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rsi + rcx + 25], 9
-	QUAD $0x190e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r9 + 25], 10
-	QUAD $0x19166c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r10 + 25], 11
-	QUAD $0x19066c203a0f4466; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + rax + 25], 12
-	QUAD $0x19266c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r12 + 25], 13
-	QUAD $0x192e6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r13 + 25], 14
-	QUAD $0x193e6c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdi + 25], 15
-	QUAD $0x031a1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 26], 3
-	QUAD $0x1a3644203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r14 + 26], 4
-	QUAD $0x1a0644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r8 + 26], 5
-	QUAD $0x061a1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 26], 6
-	QUAD $0x1a3e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r15 + 26], 7
-	QUAD $0x1a1e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 26], 8
-	QUAD $0x091a0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 26], 9
-	QUAD $0x1a0e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r9 + 26], 10
-	QUAD $0x1a1644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r10 + 26], 11
-	QUAD $0x0c1a0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 26], 12
-	QUAD $0x1a2644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r12 + 26], 13
-	QUAD $0x1a2e44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r13 + 26], 14
-	QUAD $0x0f1a3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 26], 15
-	QUAD $0x1b165c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rdx + 27], 3
-	QUAD $0x1b365c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r14 + 27], 4
-	QUAD $0x1b065c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r8 + 27], 5
-	QUAD $0x1b1e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rbx + 27], 6
-	QUAD $0x1b3e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r15 + 27], 7
-	QUAD $0x1b1e5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r11 + 27], 8
-	QUAD $0x1b0e5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rsi + rcx + 27], 9
-	QUAD $0x1b0e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r9 + 27], 10
-	QUAD $0x1b165c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r10 + 27], 11
-	QUAD $0x1b065c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + rax + 27], 12
-	QUAD $0x1b265c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r12 + 27], 13
-	QUAD $0x1b2e5c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r13 + 27], 14
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI4_16] */
-	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
-	QUAD $0x1b3e5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdi + 27], 15
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI4_17] */
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI4_18] */
-	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
-	QUAD $0x1c167c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rdx + 28], 3
-	QUAD $0x1d164c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdx + 29], 3
-	QUAD $0x1e1654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rdx + 30], 3
-	QUAD $0x031f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 31], 3
-	QUAD $0x1c367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 28], 4
-	QUAD $0x1d364c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r14 + 29], 4
-	QUAD $0x1e3654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 30], 4
-	QUAD $0x1f3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 31], 4
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	QUAD $0x1c067c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rsi + r8 + 28], 5
-	QUAD $0x1d064c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r8 + 29], 5
-	QUAD $0x1e0654203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r8 + 30], 5
-	QUAD $0x1f0674203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r8 + 31], 5
-	QUAD $0x1c1e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rbx + 28], 6
-	QUAD $0x1d1e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rbx + 29], 6
-	QUAD $0x1e1e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rbx + 30], 6
-	QUAD $0x061f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 31], 6
-	QUAD $0x1c3e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r15 + 28], 7
-	QUAD $0x1d3e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r15 + 29], 7
-	QUAD $0x1e3e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r15 + 30], 7
-	QUAD $0x1f3e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r15 + 31], 7
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x1c1e7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r11 + 28], 8
-	QUAD $0x1d1e4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r11 + 29], 8
-	QUAD $0x1e1e54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r11 + 30], 8
-	QUAD $0x1f1e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 31], 8
-	QUAD $0x1c0e7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rsi + rcx + 28], 9
-	QUAD $0x1d0e4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rsi + rcx + 29], 9
-	QUAD $0x1e0e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rcx + 30], 9
-	QUAD $0x091f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 31], 9
-	WORD $0x894c; BYTE $0xca                   // mov    rdx, r9
-	QUAD $0x1c0e7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r9 + 28], 10
-	QUAD $0x1d0e4c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r9 + 29], 10
-	QUAD $0x1e0e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r9 + 30], 10
-	QUAD $0x1f0e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r9 + 31], 10
-	WORD $0x894c; BYTE $0xd2                   // mov    rdx, r10
-	QUAD $0x1c167c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r10 + 28], 11
-	QUAD $0x1d164c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r10 + 29], 11
-	QUAD $0x1e1654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r10 + 30], 11
-	QUAD $0x1f1674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r10 + 31], 11
-	QUAD $0x1c067c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + rax + 28], 12
-	QUAD $0x1d064c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + rax + 29], 12
-	QUAD $0x1e0654203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rax + 30], 12
-	QUAD $0x0c1f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 31], 12
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x1c267c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r12 + 28], 13
-	QUAD $0x1d264c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r12 + 29], 13
-	QUAD $0x1e2654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r12 + 30], 13
-	QUAD $0x1f2674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r12 + 31], 13
-	QUAD $0x1c2e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r13 + 28], 14
-	QUAD $0x1d2e4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r13 + 29], 14
-	QUAD $0x1e2e54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r13 + 30], 14
-	QUAD $0x1f2e74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r13 + 31], 14
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	QUAD $0x1c3e7c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + rdi + 28], 15
-	QUAD $0x1d3e4c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rdi + 29], 15
-	QUAD $0x1e3e54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rdi + 30], 15
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI4_19] */
-	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
-	QUAD $0x0f1f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 31], 15
-	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
-	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
-	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
-	QUAD $0x0000d0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 208]
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	QUAD $0x0000c024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 192]
-	LONG $0xcc600f66                           // punpcklbw    xmm1, xmm4
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
-	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
-	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
-	LONG $0xdc680f66                           // punpckhbw    xmm3, xmm4
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xd8               // punpckhwd    xmm3, xmm8
-	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
-	LONG $0x7f0f41f3; WORD $0x8e5c; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm3
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
-	LONG $0x7f0f41f3; WORD $0x8e14             // movdqu    oword [r14 + 4*rcx], xmm2
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000f0248c3b48                   // cmp    rcx, qword [rsp + 240]
-	JNE  LBB4_184
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	QUAD $0x000000f024943b4c                   // cmp    r10, qword [rsp + 240]
-	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
-	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	JNE  LBB4_69
-	JMP  LBB4_135
-
-LBB4_186:
-	LONG $0xf8e28349               // and    r10, -8
-	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
-	LONG $0x06e0c148               // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0       // add    rax, rsi
-	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
-	LONG $0x2454894c; BYTE $0x18   // mov    qword [rsp + 24], r10
-	LONG $0x96048d4b               // lea    rax, [r14 + 4*r10]
-	LONG $0x24448948; BYTE $0x08   // mov    qword [rsp + 8], rax
-	LONG $0x246c8944; BYTE $0x40   // mov    dword [rsp + 64], r13d
-	LONG $0x6e0f4166; BYTE $0xc5   // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
-	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
-	WORD $0x3145; BYTE $0xff       // xor    r15d, r15d
-	QUAD $0x0000008024b4894c       // mov    qword [rsp + 128], r14
-	LONG $0xef0f4566; BYTE $0xff   // pxor    xmm15, xmm15
-
-LBB4_187:
-	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	LONG $0x04b70f42; BYTE $0x3e               // movzx    eax, word [rsi + r15]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44b70f42; WORD $0x043e             // movzx    eax, word [rsi + r15 + 4]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x063e             // movzx    eax, word [rsi + r15 + 6]
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x44b70f42; WORD $0x083e             // movzx    eax, word [rsi + r15 + 8]
-	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
-	LONG $0x44b70f42; WORD $0x0a3e             // movzx    eax, word [rsi + r15 + 10]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
-	LONG $0x54b70f46; WORD $0x0e3e             // movzx    r10d, word [rsi + r15 + 14]
-	LONG $0x5cb70f46; WORD $0x103e             // movzx    r11d, word [rsi + r15 + 16]
-	LONG $0x54b70f42; WORD $0x123e             // movzx    edx, word [rsi + r15 + 18]
-	LONG $0x74b70f46; WORD $0x143e             // movzx    r14d, word [rsi + r15 + 20]
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x80c88149; WORD $0x0000; BYTE $0x00 // or    r8, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0x2cc40f66; WORD $0x010e             // pinsrw    xmm5, word [rsi + rcx], 1
-	LONG $0xc40f4266; WORD $0x062c; BYTE $0x02 // pinsrw    xmm5, word [rsi + r8], 2
-	LONG $0xc40f4266; WORD $0x262c; BYTE $0x03 // pinsrw    xmm5, word [rsi + r12], 3
-	LONG $0xc40f4266; WORD $0x2e2c; BYTE $0x04 // pinsrw    xmm5, word [rsi + r13], 4
-	LONG $0x2cc40f66; WORD $0x051e             // pinsrw    xmm5, word [rsi + rbx], 5
-	LONG $0x2cc40f66; WORD $0x063e             // pinsrw    xmm5, word [rsi + rdi], 6
-	LONG $0x44c40f66; WORD $0x020e; BYTE $0x01 // pinsrw    xmm0, word [rsi + rcx + 2], 1
-	QUAD $0x02020644c40f4266                   // pinsrw    xmm0, word [rsi + r8 + 2], 2
-	QUAD $0x03022644c40f4266                   // pinsrw    xmm0, word [rsi + r12 + 2], 3
-	QUAD $0x04022e44c40f4266                   // pinsrw    xmm0, word [rsi + r13 + 2], 4
-	LONG $0x44c40f66; WORD $0x021e; BYTE $0x05 // pinsrw    xmm0, word [rsi + rbx + 2], 5
-	LONG $0x44c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm0, word [rsi + rdi + 2], 6
-	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
-	QUAD $0x07020e44c40f4266                   // pinsrw    xmm0, word [rsi + r9 + 2], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
-	LONG $0x10244489                           // mov    dword [rsp + 16], eax
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	LONG $0x4cc40f66; WORD $0x040e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 4], 1
-	QUAD $0x0204064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 4], 2
-	QUAD $0x0304264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 4], 3
-	QUAD $0x04042e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 4], 4
-	LONG $0x4cc40f66; WORD $0x041e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 4], 5
-	LONG $0x4cc40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 4], 6
-	QUAD $0x07040e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 4], 7
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x0000808d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 128[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x6f0f4166; BYTE $0xd9               // movdqa    xmm3, xmm9
-	LONG $0x380f4166; WORD $0xdf10             // pblendvb    xmm3, xmm15, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x00000090856f0f66                   // movdqa    xmm0, oword 144[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
-	LONG $0x6f0f4466; BYTE $0xf0               // movdqa    xmm14, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xca               // movd    xmm1, r10d
-	LONG $0x54b70f46; WORD $0x183e             // movzx    r10d, word [rsi + r15 + 24]
-	LONG $0xc40f4266; WORD $0x0e2c; BYTE $0x07 // pinsrw    xmm5, word [rsi + r9], 7
-	LONG $0x750f4166; BYTE $0xeb               // pcmpeqw    xmm5, xmm11
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x7cc40f66; WORD $0x060e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 6], 1
-	QUAD $0x0206067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 6], 2
-	QUAD $0x0306267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 6], 3
-	QUAD $0x04062e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 6], 4
-	LONG $0x7cc40f66; WORD $0x061e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 6], 5
-	LONG $0x7cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 6], 6
-	QUAD $0x07060e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 6], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01080e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 8], 1
-	QUAD $0x02080644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 8], 2
-	QUAD $0x03082644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 8], 3
-	QUAD $0x04082e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 8], 4
-	QUAD $0x05081e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 8], 5
-	QUAD $0x06083e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 8], 6
-	QUAD $0x07080e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 8], 7
-	LONG $0xddf80f66                           // psubb    xmm3, xmm5
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI4_10] */
-	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
-	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
-	LONG $0x44b70f42; WORD $0x1a3e             // movzx    eax, word [rsi + r15 + 26]
-	LONG $0x750f4566; BYTE $0xc3               // pcmpeqw    xmm8, xmm11
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x5cb70f46; WORD $0x1c3e             // movzx    r11d, word [rsi + r15 + 28]
-	LONG $0x64c40f66; WORD $0x0a0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 10], 1
-	QUAD $0x020a0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 10], 2
-	QUAD $0x030a2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 10], 3
-	QUAD $0x040a2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 10], 4
-	LONG $0x64c40f66; WORD $0x0a1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 10], 5
-	LONG $0x64c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 10], 6
-	QUAD $0x070a0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 10], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0x54c40f66; WORD $0x0c0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 12], 1
-	QUAD $0x020c0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 12], 2
-	QUAD $0x030c2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 12], 3
-	QUAD $0x040c2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 12], 4
-	LONG $0x54c40f66; WORD $0x0c1e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 12], 5
-	LONG $0x54c40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 12], 6
-	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0x54b70f42; WORD $0x1e3e             // movzx    edx, word [rsi + r15 + 30]
-	LONG $0x30245489                           // mov    dword [rsp + 48], edx
-	QUAD $0x070c0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 12], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI4_13] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x5c6e0f66; WORD $0x1024             // movd    xmm3, dword [rsp + 16]
-	LONG $0x54b70f42; WORD $0x203e             // movzx    edx, word [rsi + r15 + 32]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	LONG $0x4cc40f66; WORD $0x0e0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 14], 1
-	QUAD $0x020e064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 14], 2
-	QUAD $0x030e264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 14], 3
-	QUAD $0x040e2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 14], 4
-	LONG $0x4cc40f66; WORD $0x0e1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 14], 5
-	LONG $0x4cc40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 14], 6
-	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	LONG $0x54b70f42; WORD $0x223e             // movzx    edx, word [rsi + r15 + 34]
-	LONG $0x10245489                           // mov    dword [rsp + 16], edx
-	QUAD $0x070e0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 14], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0x74c40f66; WORD $0x120e; BYTE $0x01 // pinsrw    xmm6, word [rsi + rcx + 18], 1
-	QUAD $0x02120674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 18], 2
-	QUAD $0x03122674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 18], 3
-	QUAD $0x04122e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 18], 4
-	LONG $0x74c40f66; WORD $0x121e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rbx + 18], 5
-	LONG $0x74c40f66; WORD $0x123e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 18], 6
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x07120e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 18], 7
-	LONG $0x750f4166; BYTE $0xf3               // pcmpeqw    xmm6, xmm11
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	QUAD $0x0000e0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 224[rbp] /* [rip + .LCPI4_14] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
-	LONG $0x6f0f4566; BYTE $0xc1               // movdqa    xmm8, xmm9
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x74b70f46; WORD $0x243e             // movzx    r14d, word [rsi + r15 + 36]
-	LONG $0x7cc40f66; WORD $0x100e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 16], 1
-	QUAD $0x0210067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 16], 2
-	QUAD $0x0310267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 16], 3
-	QUAD $0x04102e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 16], 4
-	LONG $0x7cc40f66; WORD $0x101e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 16], 5
-	LONG $0x7cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 16], 6
-	LONG $0x64c40f66; WORD $0x140e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 20], 1
-	QUAD $0x02140664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 20], 2
-	QUAD $0x03142664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 20], 3
-	QUAD $0x04142e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 20], 4
-	LONG $0x64c40f66; WORD $0x141e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 20], 5
-	LONG $0x64c40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 20], 6
-	QUAD $0x07140e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 20], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x6f0f4166; BYTE $0xee               // movdqa    xmm5, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x5cb70f46; WORD $0x263e             // movzx    r11d, word [rsi + r15 + 38]
-	QUAD $0x07100e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 16], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x5cc40f66; WORD $0x160e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 22], 1
-	QUAD $0x0216065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 22], 2
-	QUAD $0x0316265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 22], 3
-	QUAD $0x04162e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 22], 4
-	LONG $0x5cc40f66; WORD $0x161e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 22], 5
-	LONG $0x5cc40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 22], 6
-	QUAD $0x07160e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 22], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x54c40f66; WORD $0x180e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 24], 1
-	QUAD $0x02180654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 24], 2
-	QUAD $0x03182654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 24], 3
-	QUAD $0x04182e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 24], 4
-	LONG $0x54c40f66; WORD $0x181e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 24], 5
-	LONG $0x54c40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 24], 6
-	QUAD $0x07180e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 24], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI4_10] */
-	LONG $0x6f0f4566; BYTE $0xf2               // movdqa    xmm14, xmm10
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
-	LONG $0x5c6e0f66; WORD $0x3024             // movd    xmm3, dword [rsp + 48]
-	LONG $0x44b70f42; WORD $0x283e             // movzx    eax, word [rsi + r15 + 40]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4466; BYTE $0xf5               // por    xmm14, xmm5
-	QUAD $0x0000b08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 176[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x6f0f4566; BYTE $0xe9               // movdqa    xmm13, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
-	LONG $0x54b70f46; WORD $0x2a3e             // movzx    r10d, word [rsi + r15 + 42]
-	LONG $0x4cc40f66; WORD $0x1a0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 26], 1
-	QUAD $0x021a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 26], 2
-	QUAD $0x031a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 26], 3
-	QUAD $0x041a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 26], 4
-	LONG $0x4cc40f66; WORD $0x1a1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 26], 5
-	LONG $0x4cc40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 26], 6
-	QUAD $0x071a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 26], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x64c40f66; WORD $0x1c0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 28], 1
-	QUAD $0x021c0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 28], 2
-	QUAD $0x031c2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 28], 3
-	QUAD $0x041c2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 28], 4
-	LONG $0x64c40f66; WORD $0x1c1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 28], 5
-	LONG $0x64c40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 28], 6
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x546e0f66; WORD $0x1024             // movd    xmm2, dword [rsp + 16]
-	LONG $0x54b70f42; WORD $0x2c3e             // movzx    edx, word [rsi + r15 + 44]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	QUAD $0x071c0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 28], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI4_13] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0x54b70f42; WORD $0x2e3e             // movzx    edx, word [rsi + r15 + 46]
-	LONG $0x10245489                           // mov    dword [rsp + 16], edx
-	LONG $0x5cc40f66; WORD $0x1e0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 30], 1
-	QUAD $0x021e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 30], 2
-	QUAD $0x031e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 30], 3
-	QUAD $0x041e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 30], 4
-	LONG $0x5cc40f66; WORD $0x1e1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 30], 5
-	LONG $0x5cc40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 30], 6
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x5cb70f46; WORD $0x303e             // movzx    r11d, word [rsi + r15 + 48]
-	QUAD $0x071e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 30], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0x54c40f66; WORD $0x220e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 34], 1
-	QUAD $0x02220654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 34], 2
-	QUAD $0x03222654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 34], 3
-	QUAD $0x04222e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 34], 4
-	LONG $0x54c40f66; WORD $0x221e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 34], 5
-	LONG $0x54c40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 34], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07220e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 34], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
-	QUAD $0x0000e0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 224[rbp] /* [rip + .LCPI4_14] */
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x74b70f46; WORD $0x323e             // movzx    r14d, word [rsi + r15 + 50]
-	LONG $0x7cc40f66; WORD $0x200e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 32], 1
-	QUAD $0x0220067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 32], 2
-	QUAD $0x0320267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 32], 3
-	QUAD $0x04202e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 32], 4
-	LONG $0x7cc40f66; WORD $0x201e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 32], 5
-	LONG $0x7cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 32], 6
-	LONG $0x64c40f66; WORD $0x240e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 36], 1
-	QUAD $0x02240664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 36], 2
-	QUAD $0x03242664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 36], 3
-	QUAD $0x04242e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 36], 4
-	LONG $0x64c40f66; WORD $0x241e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 36], 5
-	LONG $0x64c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 36], 6
-	QUAD $0x07240e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 36], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
-	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x54b70f42; WORD $0x343e             // movzx    edx, word [rsi + r15 + 52]
-	QUAD $0x07200e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 32], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x4cc40f66; WORD $0x260e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 38], 1
-	QUAD $0x0226064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 38], 2
-	QUAD $0x0326264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 38], 3
-	QUAD $0x04262e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 38], 4
-	LONG $0x4cc40f66; WORD $0x261e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 38], 5
-	LONG $0x4cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 38], 6
-	QUAD $0x07260e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 38], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x54c40f66; WORD $0x280e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 40], 1
-	QUAD $0x02280654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 40], 2
-	QUAD $0x03282654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 40], 3
-	QUAD $0x04282e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 40], 4
-	LONG $0x54c40f66; WORD $0x281e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 40], 5
-	LONG $0x54c40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 40], 6
-	QUAD $0x07280e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 40], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	LONG $0x6f0f4166; BYTE $0xea               // movdqa    xmm5, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
-	LONG $0x54b70f46; WORD $0x363e             // movzx    r10d, word [rsi + r15 + 54]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6f0f4166; BYTE $0xf1               // movdqa    xmm6, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x646e0f66; WORD $0x1024             // movd    xmm4, dword [rsp + 16]
-	LONG $0x44b70f42; WORD $0x383e             // movzx    eax, word [rsi + r15 + 56]
-	LONG $0x5cc40f66; WORD $0x2a0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 42], 1
-	QUAD $0x022a065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 42], 2
-	QUAD $0x032a265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 42], 3
-	QUAD $0x042a2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 42], 4
-	LONG $0x5cc40f66; WORD $0x2a1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 42], 5
-	LONG $0x5cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 42], 6
-	QUAD $0x072a0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 42], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x4cc40f66; WORD $0x2c0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 44], 1
-	QUAD $0x022c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 44], 2
-	QUAD $0x032c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 44], 3
-	QUAD $0x042c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 44], 4
-	LONG $0x4cc40f66; WORD $0x2c1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 44], 5
-	LONG $0x4cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 44], 6
-	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
-	QUAD $0x0000c08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 192[rbp] /* [rip + .LCPI4_12] */
-	LONG $0x6f0f4166; BYTE $0xd1               // movdqa    xmm2, xmm9
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd710             // pblendvb    xmm2, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
-	LONG $0x5cb70f46; WORD $0x3a3e             // movzx    r11d, word [rsi + r15 + 58]
-	QUAD $0x072c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 44], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0x0000d0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 208[rbp] /* [rip + .LCPI4_13] */
-	LONG $0x6f0f4166; BYTE $0xf2               // movdqa    xmm6, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	LONG $0x74b70f46; WORD $0x3c3e             // movzx    r14d, word [rsi + r15 + 60]
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x64c40f66; WORD $0x2e0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 46], 1
-	QUAD $0x022e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 46], 2
-	QUAD $0x032e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 46], 3
-	QUAD $0x042e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 46], 4
-	LONG $0x64c40f66; WORD $0x2e1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 46], 5
-	LONG $0x64c40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 46], 6
-	QUAD $0x072e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 46], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 50], 1
-	QUAD $0x0232064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 2
-	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
-	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
-	QUAD $0x07320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x7cc40f66; WORD $0x300e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 48], 1
-	QUAD $0x0230067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 48], 2
-	QUAD $0x0330267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 48], 3
-	QUAD $0x04302e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 48], 4
-	LONG $0x7cc40f66; WORD $0x301e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 48], 5
-	LONG $0x7cc40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 48], 6
-	QUAD $0x07300e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 48], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0x54c40f66; WORD $0x340e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 52], 1
-	QUAD $0x02340654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 52], 2
-	QUAD $0x03342654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 52], 3
-	QUAD $0x04342e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 52], 4
-	LONG $0x54c40f66; WORD $0x341e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 52], 5
-	LONG $0x54c40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 52], 6
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x07340e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 52], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0x5cc40f66; WORD $0x360e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 54], 1
-	QUAD $0x0236065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 54], 2
-	QUAD $0x0336265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 54], 3
-	QUAD $0x04362e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 54], 4
-	LONG $0x5cc40f66; WORD $0x361e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 54], 5
-	LONG $0x5cc40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 54], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x07360e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 54], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0x4cc40f66; WORD $0x380e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 56], 1
-	QUAD $0x0238064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 56], 2
-	QUAD $0x0338264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 56], 3
-	QUAD $0x04382e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 56], 4
-	LONG $0x4cc40f66; WORD $0x381e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 56], 5
-	LONG $0x4cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 56], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07380e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 56], 7
-	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
-	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI4_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0x54c40f66; WORD $0x3a0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 58], 1
-	QUAD $0x023a0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 58], 2
-	QUAD $0x033a2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 58], 3
-	QUAD $0x043a2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 58], 4
-	LONG $0x54c40f66; WORD $0x3a1e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 58], 5
-	LONG $0x54c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 58], 6
-	QUAD $0x073a0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 58], 7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xde               // movd    xmm3, r14d
-	LONG $0x5cc40f66; WORD $0x3c0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 60], 1
-	QUAD $0x023c065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 60], 2
-	QUAD $0x033c265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 60], 3
-	QUAD $0x043c2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 60], 4
-	LONG $0x5cc40f66; WORD $0x3c1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 60], 5
-	LONG $0x5cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 60], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x073c0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 60], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_11] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
-	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xcf10             // pblendvb    xmm1, xmm15, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xd710             // pblendvb    xmm10, xmm15, xmm0
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x44b70f42; WORD $0x3e3e             // movzx    eax, word [rsi + r15 + 62]
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44c40f66; WORD $0x3e0e; BYTE $0x01 // pinsrw    xmm0, word [rsi + rcx + 62], 1
-	QUAD $0x023e0644c40f4266                   // pinsrw    xmm0, word [rsi + r8 + 62], 2
-	QUAD $0x033e2644c40f4266                   // pinsrw    xmm0, word [rsi + r12 + 62], 3
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x043e2e44c40f4266                   // pinsrw    xmm0, word [rsi + r13 + 62], 4
-	LONG $0x44c40f66; WORD $0x3e1e; BYTE $0x05 // pinsrw    xmm0, word [rsi + rbx + 62], 5
-	LONG $0x44c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm0, word [rsi + rdi + 62], 6
-	QUAD $0x073e0e44c40f4266                   // pinsrw    xmm0, word [rsi + r9 + 62], 7
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xeb0f4466; BYTE $0xd6               // por    xmm10, xmm6
-	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
-	LONG $0xeb0f4566; BYTE $0xf2               // por    xmm14, xmm10
-	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
-	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0x6c0f4166; BYTE $0xd6               // punpcklqdq    xmm2, xmm14
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
-	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
-	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
-	LONG $0x600f4566; BYTE $0xc6               // punpcklbw    xmm8, xmm14
-	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
-	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x7f0f45f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm12
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm0
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
-	JNE  LBB4_187
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	LONG $0x24543b4c; BYTE $0x18               // cmp    r10, qword [rsp + 24]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x246c8b44; BYTE $0x40               // mov    r13d, dword [rsp + 64]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	JNE  LBB4_92
-	JMP  LBB4_139
-
-LBB4_189:
-	LONG $0xf8e28349               // and    r10, -8
-	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
-	LONG $0x06e0c148               // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0       // add    rax, rsi
-	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
-	LONG $0x2454894c; BYTE $0x18   // mov    qword [rsp + 24], r10
-	LONG $0x96048d4b               // lea    rax, [r14 + 4*r10]
-	LONG $0x24448948; BYTE $0x08   // mov    qword [rsp + 8], rax
-	LONG $0x246c8944; BYTE $0x40   // mov    dword [rsp + 64], r13d
-	LONG $0x6e0f4166; BYTE $0xc5   // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
-	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
-	WORD $0x3145; BYTE $0xff       // xor    r15d, r15d
-	QUAD $0x0000008024b4894c       // mov    qword [rsp + 128], r14
-	LONG $0xef0f4566; BYTE $0xff   // pxor    xmm15, xmm15
-
-LBB4_190:
-	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	LONG $0x04b70f42; BYTE $0x3e               // movzx    eax, word [rsi + r15]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44b70f42; WORD $0x043e             // movzx    eax, word [rsi + r15 + 4]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x063e             // movzx    eax, word [rsi + r15 + 6]
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x44b70f42; WORD $0x083e             // movzx    eax, word [rsi + r15 + 8]
-	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
-	LONG $0x44b70f42; WORD $0x0a3e             // movzx    eax, word [rsi + r15 + 10]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
-	LONG $0x54b70f46; WORD $0x0e3e             // movzx    r10d, word [rsi + r15 + 14]
-	LONG $0x5cb70f46; WORD $0x103e             // movzx    r11d, word [rsi + r15 + 16]
-	LONG $0x54b70f42; WORD $0x123e             // movzx    edx, word [rsi + r15 + 18]
-	LONG $0x74b70f46; WORD $0x143e             // movzx    r14d, word [rsi + r15 + 20]
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x80c88149; WORD $0x0000; BYTE $0x00 // or    r8, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0x2cc40f66; WORD $0x010e             // pinsrw    xmm5, word [rsi + rcx], 1
-	LONG $0xc40f4266; WORD $0x062c; BYTE $0x02 // pinsrw    xmm5, word [rsi + r8], 2
-	LONG $0xc40f4266; WORD $0x262c; BYTE $0x03 // pinsrw    xmm5, word [rsi + r12], 3
-	LONG $0xc40f4266; WORD $0x2e2c; BYTE $0x04 // pinsrw    xmm5, word [rsi + r13], 4
-	LONG $0x2cc40f66; WORD $0x051e             // pinsrw    xmm5, word [rsi + rbx], 5
-	LONG $0x2cc40f66; WORD $0x063e             // pinsrw    xmm5, word [rsi + rdi], 6
-	LONG $0x44c40f66; WORD $0x020e; BYTE $0x01 // pinsrw    xmm0, word [rsi + rcx + 2], 1
-	QUAD $0x02020644c40f4266                   // pinsrw    xmm0, word [rsi + r8 + 2], 2
-	QUAD $0x03022644c40f4266                   // pinsrw    xmm0, word [rsi + r12 + 2], 3
-	QUAD $0x04022e44c40f4266                   // pinsrw    xmm0, word [rsi + r13 + 2], 4
-	LONG $0x44c40f66; WORD $0x021e; BYTE $0x05 // pinsrw    xmm0, word [rsi + rbx + 2], 5
-	LONG $0x44c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm0, word [rsi + rdi + 2], 6
-	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
-	QUAD $0x07020e44c40f4266                   // pinsrw    xmm0, word [rsi + r9 + 2], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
-	LONG $0x10244489                           // mov    dword [rsp + 16], eax
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	LONG $0x4cc40f66; WORD $0x040e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 4], 1
-	QUAD $0x0204064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 4], 2
-	QUAD $0x0304264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 4], 3
-	QUAD $0x04042e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 4], 4
-	LONG $0x4cc40f66; WORD $0x041e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 4], 5
-	LONG $0x4cc40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 4], 6
-	QUAD $0x07040e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 4], 7
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x0000808d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 128[rbp] /* [rip + .LCPI4_8] */
-	LONG $0x6f0f4166; BYTE $0xd9               // movdqa    xmm3, xmm9
-	LONG $0x380f4166; WORD $0xdf10             // pblendvb    xmm3, xmm15, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x00000090856f0f66                   // movdqa    xmm0, oword 144[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
-	LONG $0x6f0f4466; BYTE $0xf0               // movdqa    xmm14, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xca               // movd    xmm1, r10d
-	LONG $0x54b70f46; WORD $0x183e             // movzx    r10d, word [rsi + r15 + 24]
-	LONG $0xc40f4266; WORD $0x0e2c; BYTE $0x07 // pinsrw    xmm5, word [rsi + r9], 7
-	LONG $0x750f4166; BYTE $0xeb               // pcmpeqw    xmm5, xmm11
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x7cc40f66; WORD $0x060e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 6], 1
-	QUAD $0x0206067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 6], 2
-	QUAD $0x0306267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 6], 3
-	QUAD $0x04062e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 6], 4
-	LONG $0x7cc40f66; WORD $0x061e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 6], 5
-	LONG $0x7cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 6], 6
-	QUAD $0x07060e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 6], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01080e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 8], 1
-	QUAD $0x02080644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 8], 2
-	QUAD $0x03082644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 8], 3
-	QUAD $0x04082e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 8], 4
-	QUAD $0x05081e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 8], 5
-	QUAD $0x06083e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 8], 6
-	QUAD $0x07080e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 8], 7
-	LONG $0xddf80f66                           // psubb    xmm3, xmm5
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI4_10] */
-	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
-	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
-	LONG $0x44b70f42; WORD $0x1a3e             // movzx    eax, word [rsi + r15 + 26]
-	LONG $0x750f4566; BYTE $0xc3               // pcmpeqw    xmm8, xmm11
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x5cb70f46; WORD $0x1c3e             // movzx    r11d, word [rsi + r15 + 28]
-	LONG $0x64c40f66; WORD $0x0a0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 10], 1
-	QUAD $0x020a0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 10], 2
-	QUAD $0x030a2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 10], 3
-	QUAD $0x040a2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 10], 4
-	LONG $0x64c40f66; WORD $0x0a1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 10], 5
-	LONG $0x64c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 10], 6
-	QUAD $0x070a0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 10], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0x54c40f66; WORD $0x0c0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 12], 1
-	QUAD $0x020c0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 12], 2
-	QUAD $0x030c2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 12], 3
-	QUAD $0x040c2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 12], 4
-	LONG $0x54c40f66; WORD $0x0c1e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 12], 5
-	LONG $0x54c40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 12], 6
-	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0x54b70f42; WORD $0x1e3e             // movzx    edx, word [rsi + r15 + 30]
-	LONG $0x30245489                           // mov    dword [rsp + 48], edx
-	QUAD $0x070c0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 12], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI4_13] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x5c6e0f66; WORD $0x1024             // movd    xmm3, dword [rsp + 16]
-	LONG $0x54b70f42; WORD $0x203e             // movzx    edx, word [rsi + r15 + 32]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	LONG $0x4cc40f66; WORD $0x0e0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 14], 1
-	QUAD $0x020e064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 14], 2
-	QUAD $0x030e264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 14], 3
-	QUAD $0x040e2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 14], 4
-	LONG $0x4cc40f66; WORD $0x0e1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 14], 5
-	LONG $0x4cc40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 14], 6
-	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	LONG $0x54b70f42; WORD $0x223e             // movzx    edx, word [rsi + r15 + 34]
-	LONG $0x10245489                           // mov    dword [rsp + 16], edx
-	QUAD $0x070e0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 14], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0x74c40f66; WORD $0x120e; BYTE $0x01 // pinsrw    xmm6, word [rsi + rcx + 18], 1
-	QUAD $0x02120674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 18], 2
-	QUAD $0x03122674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 18], 3
-	QUAD $0x04122e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 18], 4
-	LONG $0x74c40f66; WORD $0x121e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rbx + 18], 5
-	LONG $0x74c40f66; WORD $0x123e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 18], 6
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x07120e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 18], 7
-	LONG $0x750f4166; BYTE $0xf3               // pcmpeqw    xmm6, xmm11
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	QUAD $0x0000e0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 224[rbp] /* [rip + .LCPI4_14] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
-	LONG $0x6f0f4566; BYTE $0xc1               // movdqa    xmm8, xmm9
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x74b70f46; WORD $0x243e             // movzx    r14d, word [rsi + r15 + 36]
-	LONG $0x7cc40f66; WORD $0x100e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 16], 1
-	QUAD $0x0210067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 16], 2
-	QUAD $0x0310267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 16], 3
-	QUAD $0x04102e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 16], 4
-	LONG $0x7cc40f66; WORD $0x101e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 16], 5
-	LONG $0x7cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 16], 6
-	LONG $0x64c40f66; WORD $0x140e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 20], 1
-	QUAD $0x02140664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 20], 2
-	QUAD $0x03142664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 20], 3
-	QUAD $0x04142e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 20], 4
-	LONG $0x64c40f66; WORD $0x141e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 20], 5
-	LONG $0x64c40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 20], 6
-	QUAD $0x07140e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 20], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x6f0f4166; BYTE $0xee               // movdqa    xmm5, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x5cb70f46; WORD $0x263e             // movzx    r11d, word [rsi + r15 + 38]
-	QUAD $0x07100e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 16], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x5cc40f66; WORD $0x160e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 22], 1
-	QUAD $0x0216065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 22], 2
-	QUAD $0x0316265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 22], 3
-	QUAD $0x04162e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 22], 4
-	LONG $0x5cc40f66; WORD $0x161e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 22], 5
-	LONG $0x5cc40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 22], 6
-	QUAD $0x07160e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 22], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x54c40f66; WORD $0x180e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 24], 1
-	QUAD $0x02180654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 24], 2
-	QUAD $0x03182654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 24], 3
-	QUAD $0x04182e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 24], 4
-	LONG $0x54c40f66; WORD $0x181e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 24], 5
-	LONG $0x54c40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 24], 6
-	QUAD $0x07180e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 24], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI4_10] */
-	LONG $0x6f0f4566; BYTE $0xf2               // movdqa    xmm14, xmm10
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
-	LONG $0x5c6e0f66; WORD $0x3024             // movd    xmm3, dword [rsp + 48]
-	LONG $0x44b70f42; WORD $0x283e             // movzx    eax, word [rsi + r15 + 40]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4466; BYTE $0xf5               // por    xmm14, xmm5
-	QUAD $0x0000b08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 176[rbp] /* [rip + .LCPI4_11] */
-	LONG $0x6f0f4566; BYTE $0xe9               // movdqa    xmm13, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
-	LONG $0x54b70f46; WORD $0x2a3e             // movzx    r10d, word [rsi + r15 + 42]
-	LONG $0x4cc40f66; WORD $0x1a0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 26], 1
-	QUAD $0x021a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 26], 2
-	QUAD $0x031a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 26], 3
-	QUAD $0x041a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 26], 4
-	LONG $0x4cc40f66; WORD $0x1a1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 26], 5
-	LONG $0x4cc40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 26], 6
-	QUAD $0x071a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 26], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x64c40f66; WORD $0x1c0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 28], 1
-	QUAD $0x021c0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 28], 2
-	QUAD $0x031c2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 28], 3
-	QUAD $0x041c2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 28], 4
-	LONG $0x64c40f66; WORD $0x1c1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 28], 5
-	LONG $0x64c40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 28], 6
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI4_12] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x546e0f66; WORD $0x1024             // movd    xmm2, dword [rsp + 16]
-	LONG $0x54b70f42; WORD $0x2c3e             // movzx    edx, word [rsi + r15 + 44]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	QUAD $0x071c0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 28], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI4_13] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0x54b70f42; WORD $0x2e3e             // movzx    edx, word [rsi + r15 + 46]
-	LONG $0x10245489                           // mov    dword [rsp + 16], edx
-	LONG $0x5cc40f66; WORD $0x1e0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 30], 1
-	QUAD $0x021e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 30], 2
-	QUAD $0x031e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 30], 3
-	QUAD $0x041e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 30], 4
-	LONG $0x5cc40f66; WORD $0x1e1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 30], 5
-	LONG $0x5cc40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 30], 6
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x5cb70f46; WORD $0x303e             // movzx    r11d, word [rsi + r15 + 48]
-	QUAD $0x071e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 30], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0x54c40f66; WORD $0x220e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 34], 1
-	QUAD $0x02220654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 34], 2
-	QUAD $0x03222654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 34], 3
-	QUAD $0x04222e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 34], 4
-	LONG $0x54c40f66; WORD $0x221e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 34], 5
-	LONG $0x54c40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 34], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07220e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 34], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
-	QUAD $0x0000e0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 224[rbp] /* [rip + .LCPI4_14] */
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x74b70f46; WORD $0x323e             // movzx    r14d, word [rsi + r15 + 50]
-	LONG $0x7cc40f66; WORD $0x200e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 32], 1
-	QUAD $0x0220067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 32], 2
-	QUAD $0x0320267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 32], 3
-	QUAD $0x04202e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 32], 4
-	LONG $0x7cc40f66; WORD $0x201e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 32], 5
-	LONG $0x7cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 32], 6
-	LONG $0x64c40f66; WORD $0x240e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 36], 1
-	QUAD $0x02240664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 36], 2
-	QUAD $0x03242664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 36], 3
-	QUAD $0x04242e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 36], 4
-	LONG $0x64c40f66; WORD $0x241e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 36], 5
-	LONG $0x64c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 36], 6
-	QUAD $0x07240e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 36], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
-	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x54b70f42; WORD $0x343e             // movzx    edx, word [rsi + r15 + 52]
-	QUAD $0x07200e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 32], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x4cc40f66; WORD $0x260e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 38], 1
-	QUAD $0x0226064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 38], 2
-	QUAD $0x0326264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 38], 3
-	QUAD $0x04262e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 38], 4
-	LONG $0x4cc40f66; WORD $0x261e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 38], 5
-	LONG $0x4cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 38], 6
-	QUAD $0x07260e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 38], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x54c40f66; WORD $0x280e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 40], 1
-	QUAD $0x02280654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 40], 2
-	QUAD $0x03282654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 40], 3
-	QUAD $0x04282e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 40], 4
-	LONG $0x54c40f66; WORD $0x281e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 40], 5
-	LONG $0x54c40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 40], 6
-	QUAD $0x07280e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 40], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	LONG $0x6f0f4166; BYTE $0xea               // movdqa    xmm5, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
-	LONG $0x54b70f46; WORD $0x363e             // movzx    r10d, word [rsi + r15 + 54]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6f0f4166; BYTE $0xf1               // movdqa    xmm6, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x646e0f66; WORD $0x1024             // movd    xmm4, dword [rsp + 16]
-	LONG $0x44b70f42; WORD $0x383e             // movzx    eax, word [rsi + r15 + 56]
-	LONG $0x5cc40f66; WORD $0x2a0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 42], 1
-	QUAD $0x022a065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 42], 2
-	QUAD $0x032a265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 42], 3
-	QUAD $0x042a2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 42], 4
-	LONG $0x5cc40f66; WORD $0x2a1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 42], 5
-	LONG $0x5cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 42], 6
-	QUAD $0x072a0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 42], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x4cc40f66; WORD $0x2c0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 44], 1
-	QUAD $0x022c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 44], 2
-	QUAD $0x032c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 44], 3
-	QUAD $0x042c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 44], 4
-	LONG $0x4cc40f66; WORD $0x2c1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 44], 5
-	LONG $0x4cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 44], 6
-	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
-	QUAD $0x0000c08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 192[rbp] /* [rip + .LCPI4_12] */
-	LONG $0x6f0f4166; BYTE $0xd1               // movdqa    xmm2, xmm9
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd710             // pblendvb    xmm2, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
-	LONG $0x5cb70f46; WORD $0x3a3e             // movzx    r11d, word [rsi + r15 + 58]
-	QUAD $0x072c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 44], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0x0000d0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 208[rbp] /* [rip + .LCPI4_13] */
-	LONG $0x6f0f4166; BYTE $0xf2               // movdqa    xmm6, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	LONG $0x74b70f46; WORD $0x3c3e             // movzx    r14d, word [rsi + r15 + 60]
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0x64c40f66; WORD $0x2e0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 46], 1
-	QUAD $0x022e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 46], 2
-	QUAD $0x032e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 46], 3
-	QUAD $0x042e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 46], 4
-	LONG $0x64c40f66; WORD $0x2e1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 46], 5
-	LONG $0x64c40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 46], 6
-	QUAD $0x072e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 46], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 50], 1
-	QUAD $0x0232064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 2
-	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
-	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
-	QUAD $0x07320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_8] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x7cc40f66; WORD $0x300e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 48], 1
-	QUAD $0x0230067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 48], 2
-	QUAD $0x0330267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 48], 3
-	QUAD $0x04302e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 48], 4
-	LONG $0x7cc40f66; WORD $0x301e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 48], 5
-	LONG $0x7cc40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 48], 6
-	QUAD $0x07300e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 48], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
-	LONG $0x54c40f66; WORD $0x340e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 52], 1
-	QUAD $0x02340654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 52], 2
-	QUAD $0x03342654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 52], 3
-	QUAD $0x04342e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 52], 4
-	LONG $0x54c40f66; WORD $0x341e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 52], 5
-	LONG $0x54c40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 52], 6
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x07340e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 52], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0x5cc40f66; WORD $0x360e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 54], 1
-	QUAD $0x0236065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 54], 2
-	QUAD $0x0336265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 54], 3
-	QUAD $0x04362e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 54], 4
-	LONG $0x5cc40f66; WORD $0x361e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 54], 5
-	LONG $0x5cc40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 54], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x07360e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 54], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0x4cc40f66; WORD $0x380e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 56], 1
-	QUAD $0x0238064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 56], 2
-	QUAD $0x0338264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 56], 3
-	QUAD $0x04382e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 56], 4
-	LONG $0x4cc40f66; WORD $0x381e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 56], 5
-	LONG $0x4cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 56], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07380e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 56], 7
-	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
-	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI4_9] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI4_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0x54c40f66; WORD $0x3a0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 58], 1
-	QUAD $0x023a0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 58], 2
-	QUAD $0x033a2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 58], 3
-	QUAD $0x043a2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 58], 4
-	LONG $0x54c40f66; WORD $0x3a1e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 58], 5
-	LONG $0x54c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 58], 6
-	QUAD $0x073a0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 58], 7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xde               // movd    xmm3, r14d
-	LONG $0x5cc40f66; WORD $0x3c0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 60], 1
-	QUAD $0x023c065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 60], 2
-	QUAD $0x033c265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 60], 3
-	QUAD $0x043c2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 60], 4
-	LONG $0x5cc40f66; WORD $0x3c1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 60], 5
-	LONG $0x5cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 60], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x073c0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 60], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_11] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
-	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xcf10             // pblendvb    xmm1, xmm15, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xd710             // pblendvb    xmm10, xmm15, xmm0
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x44b70f42; WORD $0x3e3e             // movzx    eax, word [rsi + r15 + 62]
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44c40f66; WORD $0x3e0e; BYTE $0x01 // pinsrw    xmm0, word [rsi + rcx + 62], 1
-	QUAD $0x023e0644c40f4266                   // pinsrw    xmm0, word [rsi + r8 + 62], 2
-	QUAD $0x033e2644c40f4266                   // pinsrw    xmm0, word [rsi + r12 + 62], 3
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x043e2e44c40f4266                   // pinsrw    xmm0, word [rsi + r13 + 62], 4
-	LONG $0x44c40f66; WORD $0x3e1e; BYTE $0x05 // pinsrw    xmm0, word [rsi + rbx + 62], 5
-	LONG $0x44c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm0, word [rsi + rdi + 62], 6
-	QUAD $0x073e0e44c40f4266                   // pinsrw    xmm0, word [rsi + r9 + 62], 7
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xeb0f4466; BYTE $0xd6               // por    xmm10, xmm6
-	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
-	LONG $0xeb0f4566; BYTE $0xf2               // por    xmm14, xmm10
-	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
-	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0x6c0f4166; BYTE $0xd6               // punpcklqdq    xmm2, xmm14
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI4_15] */
-	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
-	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
-	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
-	LONG $0x600f4566; BYTE $0xc6               // punpcklbw    xmm8, xmm14
-	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
-	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	LONG $0x7f0f45f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm12
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm0
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
-	JNE  LBB4_190
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	LONG $0x24543b4c; BYTE $0x18               // cmp    r10, qword [rsp + 24]
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	LONG $0x246c8b44; BYTE $0x40               // mov    r13d, dword [rsp + 64]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	JNE  LBB4_104
-	JMP  LBB4_144
-
-LBB4_192:
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xf3                   // add    rbx, rsi
-	LONG $0x861c8d4f                           // lea    r11, [r14 + 4*r8]
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
-	LONG $0xfcc68148; WORD $0x0001; BYTE $0x00 // add    rsi, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI4_1] */
-	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI4_2] */
-	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI4_3] */
-	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI4_4] */
-	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI4_5] */
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI4_6] */
-	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI4_7] */
-
-LBB4_193:
-	QUAD $0xfffffe04b6100ff3                   // movss    xmm6, dword [rsi - 508]
-	QUAD $0xfffffe08be100ff3                   // movss    xmm7, dword [rsi - 504]
-	QUAD $0xfffffe0cae100ff3                   // movss    xmm5, dword [rsi - 500]
-	QUAD $0xfffffe10a6100ff3                   // movss    xmm4, dword [rsi - 496]
-	QUAD $0xfffe84b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 380], 16
-	QUAD $0xffff04b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 252], 32
-	LONG $0x213a0f66; WORD $0x8476; BYTE $0x30 // insertps    xmm6, dword [rsi - 124], 48
-	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	QUAD $0xfffe88be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 376], 16
-	QUAD $0xffff08be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 248], 32
-	LONG $0x213a0f66; WORD $0x887e; BYTE $0x30 // insertps    xmm7, dword [rsi - 120], 48
-	QUAD $0xfffe8cae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 372], 16
-	QUAD $0xffff0cae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 244], 32
-	LONG $0x213a0f66; WORD $0x8c6e; BYTE $0x30 // insertps    xmm5, dword [rsi - 116], 48
-	QUAD $0xfffe90a6213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rsi - 368], 16
-	QUAD $0xffff10a6213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rsi - 240], 32
-	LONG $0x213a0f66; WORD $0x9066; BYTE $0x30 // insertps    xmm4, dword [rsi - 112], 48
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
-	QUAD $0xfffffe14be100ff3                   // movss    xmm7, dword [rsi - 492]
-	QUAD $0xfffe94be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 364], 16
-	QUAD $0xffff14be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 236], 32
-	LONG $0x213a0f66; WORD $0x947e; BYTE $0x30 // insertps    xmm7, dword [rsi - 108], 48
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe18b6100ff3                   // movss    xmm6, dword [rsi - 488]
-	QUAD $0xfffe98b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 360], 16
-	QUAD $0xffff18b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 232], 32
-	LONG $0x213a0f66; WORD $0x9876; BYTE $0x30 // insertps    xmm6, dword [rsi - 104], 48
-	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe1c9e100ff3                   // movss    xmm3, dword [rsi - 484]
-	QUAD $0xfffe9c9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 356], 16
-	QUAD $0xffff1c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 228], 32
-	LONG $0x213a0f66; WORD $0x9c5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 100], 48
-	LONG $0x04e1c20f                           // cmpneqps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	QUAD $0xfffffe20a6100ff3                   // movss    xmm4, dword [rsi - 480]
-	QUAD $0xfffea0a6213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rsi - 352], 16
-	QUAD $0xffff20a6213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rsi - 224], 32
-	LONG $0x213a0f66; WORD $0xa066; BYTE $0x30 // insertps    xmm4, dword [rsi - 96], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe24ae100ff3                   // movss    xmm5, dword [rsi - 476]
-	QUAD $0xfffea4ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 348], 16
-	QUAD $0xffff24ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 220], 32
-	LONG $0x213a0f66; WORD $0xa46e; BYTE $0x30 // insertps    xmm5, dword [rsi - 92], 48
-	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe2896100ff3                   // movss    xmm2, dword [rsi - 472]
-	QUAD $0xfffea896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 344], 16
-	QUAD $0xffff2896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 216], 32
-	LONG $0x213a0f66; WORD $0xa856; BYTE $0x30 // insertps    xmm2, dword [rsi - 88], 48
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x04e1c20f                           // cmpneqps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	QUAD $0xfffffe2c9e100ff3                   // movss    xmm3, dword [rsi - 468]
-	QUAD $0xfffeac9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 340], 16
-	QUAD $0xffff2c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 212], 32
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0x213a0f66; WORD $0xac5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 84], 48
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe30be100ff3                   // movss    xmm7, dword [rsi - 464]
-	QUAD $0xfffeb0be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 336], 16
-	QUAD $0xffff30be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 208], 32
-	LONG $0x213a0f66; WORD $0xb07e; BYTE $0x30 // insertps    xmm7, dword [rsi - 80], 48
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe34ae100ff3                   // movss    xmm5, dword [rsi - 460]
-	QUAD $0xfffeb4ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 332], 16
-	QUAD $0xffff34ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 204], 32
-	LONG $0x213a0f66; WORD $0xb46e; BYTE $0x30 // insertps    xmm5, dword [rsi - 76], 48
-	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe38b6100ff3                   // movss    xmm6, dword [rsi - 456]
-	QUAD $0xfffeb8b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 328], 16
-	QUAD $0xffff38b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 200], 32
-	LONG $0x213a0f66; WORD $0xb876; BYTE $0x30 // insertps    xmm6, dword [rsi - 72], 48
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
-	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
-	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0xfffffe3c96100ff3                   // movss    xmm2, dword [rsi - 452]
-	QUAD $0xfffebc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 324], 16
-	QUAD $0xffff3c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 196], 32
-	LONG $0x213a0f66; WORD $0xbc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 68], 48
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	QUAD $0xfffffe40be100ff3                   // movss    xmm7, dword [rsi - 448]
-	QUAD $0xfffec0be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 320], 16
-	QUAD $0xffff40be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 192], 32
-	LONG $0x213a0f66; WORD $0xc07e; BYTE $0x30 // insertps    xmm7, dword [rsi - 64], 48
-	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe44b6100ff3                   // movss    xmm6, dword [rsi - 444]
-	QUAD $0xfffec4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 316], 16
-	QUAD $0xffff44b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 188], 32
-	LONG $0x213a0f66; WORD $0xc476; BYTE $0x30 // insertps    xmm6, dword [rsi - 60], 48
-	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
-	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	QUAD $0xfffffe4896100ff3                   // movss    xmm2, dword [rsi - 440]
-	QUAD $0xfffec896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 312], 16
-	QUAD $0xffff4896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 184], 32
-	LONG $0x213a0f66; WORD $0xc856; BYTE $0x30 // insertps    xmm2, dword [rsi - 56], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe4c9e100ff3                   // movss    xmm3, dword [rsi - 436]
-	QUAD $0xfffecc9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 308], 16
-	QUAD $0xffff4c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 180], 32
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x213a0f66; WORD $0xcc5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 52], 48
-	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
-	QUAD $0xfffffe50ae100ff3                   // movss    xmm5, dword [rsi - 432]
-	QUAD $0xfffed0ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 304], 16
-	QUAD $0xffff50ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 176], 32
-	LONG $0x213a0f66; WORD $0xd06e; BYTE $0x30 // insertps    xmm5, dword [rsi - 48], 48
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	QUAD $0xfffffe54b6100ff3                   // movss    xmm6, dword [rsi - 428]
-	QUAD $0xfffed4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 300], 16
-	QUAD $0xffff54b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 172], 32
-	LONG $0x213a0f66; WORD $0xd476; BYTE $0x30 // insertps    xmm6, dword [rsi - 44], 48
-	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	QUAD $0xfffffe58be100ff3                   // movss    xmm7, dword [rsi - 424]
-	QUAD $0xfffed8be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 296], 16
-	QUAD $0xffff58be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 168], 32
-	LONG $0x213a0f66; WORD $0xd87e; BYTE $0x30 // insertps    xmm7, dword [rsi - 40], 48
-	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe5c96100ff3                   // movss    xmm2, dword [rsi - 420]
-	QUAD $0xfffedc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 292], 16
-	QUAD $0xffff5c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 164], 32
-	LONG $0x213a0f66; WORD $0xdc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 36], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe60ae100ff3                   // movss    xmm5, dword [rsi - 416]
-	QUAD $0xfffee0ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 288], 16
-	QUAD $0xffff60ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 160], 32
-	LONG $0x213a0f66; WORD $0xe06e; BYTE $0x30 // insertps    xmm5, dword [rsi - 32], 48
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe64be100ff3                   // movss    xmm7, dword [rsi - 412]
-	QUAD $0xfffee4be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 284], 16
-	QUAD $0xffff64be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 156], 32
-	LONG $0x213a0f66; WORD $0xe47e; BYTE $0x30 // insertps    xmm7, dword [rsi - 28], 48
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
-	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe6896100ff3                   // movss    xmm2, dword [rsi - 408]
-	QUAD $0xfffee896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 280], 16
-	QUAD $0xffff6896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 152], 32
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0x213a0f66; WORD $0xe856; BYTE $0x30 // insertps    xmm2, dword [rsi - 24], 48
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe6c9e100ff3                   // movss    xmm3, dword [rsi - 404]
-	QUAD $0xfffeec9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 276], 16
-	QUAD $0xffff6c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 148], 32
-	LONG $0x213a0f66; WORD $0xec5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 20], 48
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0xfffffe7096100ff3                   // movss    xmm2, dword [rsi - 400]
-	QUAD $0xfffef096213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 272], 16
-	QUAD $0xffff7096213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 144], 32
-	LONG $0x213a0f66; WORD $0xf056; BYTE $0x30 // insertps    xmm2, dword [rsi - 16], 48
-	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe74b6100ff3                   // movss    xmm6, dword [rsi - 396]
-	QUAD $0xfffef4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 268], 16
-	QUAD $0xffff74b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 140], 32
-	LONG $0x213a0f66; WORD $0xf476; BYTE $0x30 // insertps    xmm6, dword [rsi - 12], 48
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	QUAD $0xfffffe78be100ff3                   // movss    xmm7, dword [rsi - 392]
-	QUAD $0xfffef8be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 264], 16
-	QUAD $0xffff78be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 136], 32
-	LONG $0x213a0f66; WORD $0xf87e; BYTE $0x30 // insertps    xmm7, dword [rsi - 8], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe7c96100ff3                   // movss    xmm2, dword [rsi - 388]
-	QUAD $0xfffefc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 260], 16
-	QUAD $0xffff7c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 132], 32
-	LONG $0x213a0f66; WORD $0xfc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 4], 48
-	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe809e100ff3                   // movss    xmm3, dword [rsi - 384]
-	QUAD $0xffff009e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 256], 16
-	LONG $0x213a0f66; WORD $0x805e; BYTE $0x20 // insertps    xmm3, dword [rsi - 128], 32
-	LONG $0x213a0f66; WORD $0x301e             // insertps    xmm3, dword [rsi], 48
-	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
-	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
-	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x00c68148; WORD $0x0002; BYTE $0x00 // add    rsi, 512
-	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
-	JNE  LBB4_193
-	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
-	JNE  LBB4_127
-	JMP  LBB4_148
-
-DATA LCDATA4<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA4<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA4<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA4<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA4<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA4<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA4<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA4<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA4<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA4<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA4<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA4<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA4<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA4<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA4<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA4<>+0x080(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x090(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x0a0(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x0a8(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x0b0(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x0b8(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x0c0(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x0c8(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x0d0(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x0d8(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x0e0(SB)/8, $0x8080808080808080
-DATA LCDATA4<>+0x0e8(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x0f0(SB)/8, $0x0f070e060d050c04
-DATA LCDATA4<>+0x0f8(SB)/8, $0x0000000000000000
-DATA LCDATA4<>+0x100(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x108(SB)/8, $0x0202020202020202
-DATA LCDATA4<>+0x110(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x118(SB)/8, $0x0404040404040404
-DATA LCDATA4<>+0x120(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x128(SB)/8, $0x0808080808080808
-DATA LCDATA4<>+0x130(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x138(SB)/8, $0x1010101010101010
-DATA LCDATA4<>+0x140(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x148(SB)/8, $0x2020202020202020
-DATA LCDATA4<>+0x150(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x158(SB)/8, $0x4040404040404040
-DATA LCDATA4<>+0x160(SB)/8, $0xffffffffffffffff
-DATA LCDATA4<>+0x168(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA4<>(SB), 8, $368
-
-TEXT ·_comparison_not_equal_scalar_arr_sse4(SB), $312-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 288(SP)
-	LEAQ LCDATA4<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc7     // mov    r15, r8
-	LONG $0x244c8948; BYTE $0x08 // mov    qword [rsp + 8], rcx
-	WORD $0x8949; BYTE $0xd6     // mov    r14, rdx
-	WORD $0xff83; BYTE $0x06     // cmp    edi, 6
-	JG   LBB5_26
-	WORD $0xff83; BYTE $0x03     // cmp    edi, 3
-	JLE  LBB5_2
-	WORD $0xff83; BYTE $0x04     // cmp    edi, 4
-	JE   LBB5_99
-	WORD $0xff83; BYTE $0x05     // cmp    edi, 5
-	JE   LBB5_122
-	WORD $0xff83; BYTE $0x06     // cmp    edi, 6
-	JNE  LBB5_199
-	WORD $0x8b44; BYTE $0x1e     // mov    r11d, dword [rsi]
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_17
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
-
-LBB5_15:
-	WORD $0x3b45; BYTE $0x1e                   // cmp    r11d, dword [r14]
-	LONG $0x04768d4d                           // lea    r14, [r14 + 4]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f44; BYTE $0x32               // movzx    r8d, byte [rdx + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x323c8840                           // mov    byte [rdx + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_15
-	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
-
-LBB5_17:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB5_21
-	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
-
-LBB5_19:
-	LONG $0x7c5e3b45                           // cmp    r11d, dword [r14 + 124]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x785e3b45                           // cmp    r11d, dword [r14 + 120]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x745e3b45                           // cmp    r11d, dword [r14 + 116]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x705e3b45                           // cmp    r11d, dword [r14 + 112]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6c5e3b45                           // cmp    r11d, dword [r14 + 108]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x685e3b45                           // cmp    r11d, dword [r14 + 104]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x645e3b45                           // cmp    r11d, dword [r14 + 100]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x5c5e3b45                           // cmp    r11d, dword [r14 + 92]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x585e3b45                           // cmp    r11d, dword [r14 + 88]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x545e3b45                           // cmp    r11d, dword [r14 + 84]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x505e3b45                           // cmp    r11d, dword [r14 + 80]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x4c5e3b45                           // cmp    r11d, dword [r14 + 76]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x485e3b45                           // cmp    r11d, dword [r14 + 72]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x445e3b45                           // cmp    r11d, dword [r14 + 68]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x3c5e3b45                           // cmp    r11d, dword [r14 + 60]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x385e3b45                           // cmp    r11d, dword [r14 + 56]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x345e3b45                           // cmp    r11d, dword [r14 + 52]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x305e3b45                           // cmp    r11d, dword [r14 + 48]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2c5e3b45                           // cmp    r11d, dword [r14 + 44]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x285e3b45                           // cmp    r11d, dword [r14 + 40]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x245e3b45                           // cmp    r11d, dword [r14 + 36]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x1c5e3b45                           // cmp    r11d, dword [r14 + 28]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x185e3b45                           // cmp    r11d, dword [r14 + 24]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x145e3b45                           // cmp    r11d, dword [r14 + 20]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x105e3b45                           // cmp    r11d, dword [r14 + 16]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x0c5e3b45                           // cmp    r11d, dword [r14 + 12]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x085e3b45                           // cmp    r11d, dword [r14 + 8]
-	LONG $0xd7950f41                           // setne    r15b
-	WORD $0x3b45; BYTE $0x1e                   // cmp    r11d, dword [r14]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x045e3b45                           // cmp    r11d, dword [r14 + 4]
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x205d3b45                           // cmp    r11d, dword [r13 + 32]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x405d3b45                           // cmp    r11d, dword [r13 + 64]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x605d3b45                           // cmp    r11d, dword [r13 + 96]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	QUAD $0x0000009824b40244                   // add    r14b, byte [rsp + 152]
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0845; BYTE $0xf7                   // or    r15b, r14b
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xca08                               // or    dl, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xd008                               // or    al, dl
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e7c040                           // shl    dil, 4
-	WORD $0x0844; BYTE $0xd7                   // or    dil, r10b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ee8349                           // sub    r14, -128
-	LONG $0x04c78349                           // add    r15, 4
-	LONG $0x247c894c; BYTE $0x08               // mov    qword [rsp + 8], r15
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_19
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-
-LBB5_21:
-	LONG $0x05e2c149             // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa     // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8     // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0     // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2     // not    r10
-	WORD $0x014d; BYTE $0xfa     // add    r10, r15
-	JE   LBB5_23
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x247c8b4c; BYTE $0x08 // mov    r15, qword [rsp + 8]
-
-LBB5_143:
-	WORD $0x3b45; BYTE $0x1e     // cmp    r11d, dword [r14]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	WORD $0xc220                 // and    dl, al
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	LONG $0x37148841             // mov    byte [r15 + rsi], dl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x045e3b45             // cmp    r11d, dword [r14 + 4]
-	LONG $0x08768d4d             // lea    r14, [r14 + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd030                 // xor    al, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB5_143
-	JMP  LBB5_24
-
-LBB5_26:
-	WORD $0xff83; BYTE $0x08     // cmp    edi, 8
-	JLE  LBB5_27
-	WORD $0xff83; BYTE $0x09     // cmp    edi, 9
-	JE   LBB5_158
-	WORD $0xff83; BYTE $0x0b     // cmp    edi, 11
-	JE   LBB5_170
-	WORD $0xff83; BYTE $0x0c     // cmp    edi, 12
-	JNE  LBB5_199
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	LONG $0x06100ff2             // movsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_49
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-
-LBB5_47:
-	LONG $0x2e0f4166; BYTE $0x06               // ucomisd    xmm0, qword [r14]
-	LONG $0x08768d4d                           // lea    r14, [r14 + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
-	WORD $0xda30                               // xor    dl, bl
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
-	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_47
-	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
-
-LBB5_49:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB5_53
-	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
-	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
-	QUAD $0x000000982494894c // mov    qword [rsp + 152], r10
-
-LBB5_51:
-	WORD $0x894c; BYTE $0xf2                   // mov    rdx, r14
-	LONG $0x2e0f4166; BYTE $0x06               // ucomisd    xmm0, qword [r14]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x2e0f4166; WORD $0x0846             // ucomisd    xmm0, qword [r14 + 8]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x2e0f4166; WORD $0x1046             // ucomisd    xmm0, qword [r14 + 16]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x2e0f4166; WORD $0x1846             // ucomisd    xmm0, qword [r14 + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x2e0f4166; WORD $0x2046             // ucomisd    xmm0, qword [r14 + 32]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x2e0f4166; WORD $0x2846             // ucomisd    xmm0, qword [r14 + 40]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x2e0f4166; WORD $0x3046             // ucomisd    xmm0, qword [r14 + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x2e0f4166; WORD $0x3846             // ucomisd    xmm0, qword [r14 + 56]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x2e0f4166; WORD $0x4046             // ucomisd    xmm0, qword [r14 + 64]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x2e0f4166; WORD $0x4846             // ucomisd    xmm0, qword [r14 + 72]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x2e0f4166; WORD $0x5046             // ucomisd    xmm0, qword [r14 + 80]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2e0f4166; WORD $0x5846             // ucomisd    xmm0, qword [r14 + 88]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x2e0f4166; WORD $0x6046             // ucomisd    xmm0, qword [r14 + 96]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x2e0f4166; WORD $0x6846             // ucomisd    xmm0, qword [r14 + 104]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x2e0f4166; WORD $0x7046             // ucomisd    xmm0, qword [r14 + 112]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x2e0f4166; WORD $0x7846             // ucomisd    xmm0, qword [r14 + 120]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	QUAD $0x000080862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 128]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	QUAD $0x000088862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 136]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	QUAD $0x000090862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 144]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	QUAD $0x000098862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 152]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	QUAD $0x0000a0862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 160]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	QUAD $0x0000a8862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 168]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	QUAD $0x0000b0862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 176]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	QUAD $0x0000b8862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 184]
-	LONG $0xd6950f41                           // setne    r14b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000c0248c0244                   // add    r9b, byte [rsp + 192]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000009024b40240                   // add    sil, byte [rsp + 144]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	QUAD $0x000000b0249cb60f                   // movzx    ebx, byte [rsp + 176]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0x8941; BYTE $0xd9                   // mov    r9d, ebx
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	LONG $0x03e0c041                           // shl    r8b, 3
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
-	QUAD $0x0000008824bcb60f                   // movzx    edi, byte [rsp + 136]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x78245c02                           // add    bl, byte [rsp + 120]
-	WORD $0xdf89                               // mov    edi, ebx
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0xdf89                               // mov    edi, ebx
-	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0xdf89                               // mov    edi, ebx
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0xdf89                               // mov    edi, ebx
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
-	LONG $0x247cb60f; BYTE $0x58               // movzx    edi, byte [rsp + 88]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
-	WORD $0x4688; BYTE $0x03                   // mov    byte [rsi + 3], al
-	LONG $0x00b28d4c; WORD $0x0001; BYTE $0x00 // lea    r14, [rdx + 256]
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB5_51
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-
-LBB5_53:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_193
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB5_195
-
-LBB5_2:
-	WORD $0xff83; BYTE $0x02     // cmp    edi, 2
-	JE   LBB5_56
-	WORD $0xff83; BYTE $0x03     // cmp    edi, 3
-	JNE  LBB5_199
-	WORD $0x068a                 // mov    al, byte [rsi]
-	LONG $0x40244488             // mov    byte [rsp + 64], al
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_8
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
-
-LBB5_6:
-	LONG $0x244cb60f; BYTE $0x40   // movzx    ecx, byte [rsp + 64]
-	WORD $0x3a41; BYTE $0x0e       // cmp    cl, byte [r14]
-	LONG $0x01768d4d               // lea    r14, [r14 + 1]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	WORD $0xdbf6                   // neg    bl
-	LONG $0x07708d48               // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xf0490f48               // cmovns    rsi, rax
-	LONG $0x03fec148               // sar    rsi, 3
-	LONG $0x0cb60f44; BYTE $0x32   // movzx    r9d, byte [rdx + rsi]
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	QUAD $0x00000000f5048d44       // lea    r8d, [8*rsi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf       // and    dil, bl
-	WORD $0x3044; BYTE $0xcf       // xor    dil, r9b
-	LONG $0x323c8840               // mov    byte [rdx + rsi], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB5_6
-	LONG $0x24448348; WORD $0x0108 // add    qword [rsp + 8], 1
-
-LBB5_8:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB5_9
-	LONG $0x10fa8349             // cmp    r10, 16
-	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	JB   LBB5_82
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
-	JAE  LBB5_85
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB5_85
-
-LBB5_82:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000d824848948     // mov    qword [rsp + 216], rax
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	QUAD $0x0000008024848948     // mov    qword [rsp + 128], rax
-
-LBB5_88:
-	QUAD $0x000000d824942b4c // sub    r10, qword [rsp + 216]
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB5_89:
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	LONG $0x1f463a41                           // cmp    al, byte [r14 + 31]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x1e463a41                           // cmp    al, byte [r14 + 30]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x1d463a41                           // cmp    al, byte [r14 + 29]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x1c463a41                           // cmp    al, byte [r14 + 28]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x1b463a41                           // cmp    al, byte [r14 + 27]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x1a463a41                           // cmp    al, byte [r14 + 26]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x19463a41                           // cmp    al, byte [r14 + 25]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x17463a41                           // cmp    al, byte [r14 + 23]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x16463a41                           // cmp    al, byte [r14 + 22]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x15463a41                           // cmp    al, byte [r14 + 21]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x14463a41                           // cmp    al, byte [r14 + 20]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x13463a41                           // cmp    al, byte [r14 + 19]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x12463a41                           // cmp    al, byte [r14 + 18]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x11463a41                           // cmp    al, byte [r14 + 17]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x0f463a41                           // cmp    al, byte [r14 + 15]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x0e463a41                           // cmp    al, byte [r14 + 14]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x0d463a41                           // cmp    al, byte [r14 + 13]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x0c463a41                           // cmp    al, byte [r14 + 12]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x0b463a41                           // cmp    al, byte [r14 + 11]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x0a463a41                           // cmp    al, byte [r14 + 10]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x09463a41                           // cmp    al, byte [r14 + 9]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x07463a41                           // cmp    al, byte [r14 + 7]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x06463a41                           // cmp    al, byte [r14 + 6]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x05463a41                           // cmp    al, byte [r14 + 5]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x04463a41                           // cmp    al, byte [r14 + 4]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x03463a41                           // cmp    al, byte [r14 + 3]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x02463a41                           // cmp    al, byte [r14 + 2]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0x3a41; BYTE $0x06                   // cmp    al, byte [r14]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x01463a41                           // cmp    al, byte [r14 + 1]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x08463a41                           // cmp    al, byte [r14 + 8]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x10463a41                           // cmp    al, byte [r14 + 16]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x18463a41                           // cmp    al, byte [r14 + 24]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xa8248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 168]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xca08                               // or    dl, cl
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c040                           // shl    sil, 7
-	WORD $0x0840; BYTE $0xc6                   // or    sil, al
-	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	WORD $0x8840; BYTE $0x30                   // mov    byte [rax], sil
-	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
-	QUAD $0x00000098249c0244                   // add    r11b, byte [rsp + 152]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xdb                   // or    bl, r11b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
-	WORD $0x0845; BYTE $0xea                   // or    r10b, r13b
-	LONG $0x01508844                           // mov    byte [rax + 1], r10b
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xb0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 176]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xd108                               // or    cl, dl
-	WORD $0x4888; BYTE $0x02                   // mov    byte [rax + 2], cl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x88248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 136]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xd108                               // or    cl, dl
-	WORD $0x4888; BYTE $0x03                   // mov    byte [rax + 3], cl
-	LONG $0x20c68349                           // add    r14, 32
-	LONG $0x04c08348                           // add    rax, 4
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB5_89
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	JMP  LBB5_91
-
-LBB5_27:
-	WORD $0xff83; BYTE $0x07     // cmp    edi, 7
-	JE   LBB5_144
-	WORD $0xff83; BYTE $0x08     // cmp    edi, 8
-	JNE  LBB5_199
-	WORD $0x8b4c; BYTE $0x1e     // mov    r11, qword [rsi]
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_33
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-
-LBB5_31:
-	WORD $0x3b4d; BYTE $0x1e                   // cmp    r11, qword [r14]
-	LONG $0x08768d4d                           // lea    r14, [r14 + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
-	WORD $0xda30                               // xor    dl, bl
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
-	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_31
-	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
-
-LBB5_33:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB5_37
-	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
-
-LBB5_35:
-	LONG $0xf89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 248]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xf09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 240]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xe89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 232]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xe09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 224]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xd89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 216]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0xd09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 208]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xc89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 200]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xb89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 184]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0xb09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 176]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0xa89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 168]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0xa09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 160]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x989e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 152]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x909e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 144]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x889e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 136]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x785e3b4d                           // cmp    r11, qword [r14 + 120]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x705e3b4d                           // cmp    r11, qword [r14 + 112]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x685e3b4d                           // cmp    r11, qword [r14 + 104]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x605e3b4d                           // cmp    r11, qword [r14 + 96]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x585e3b4d                           // cmp    r11, qword [r14 + 88]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x505e3b4d                           // cmp    r11, qword [r14 + 80]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x485e3b4d                           // cmp    r11, qword [r14 + 72]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x385e3b4d                           // cmp    r11, qword [r14 + 56]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x305e3b4d                           // cmp    r11, qword [r14 + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x285e3b4d                           // cmp    r11, qword [r14 + 40]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x205e3b4d                           // cmp    r11, qword [r14 + 32]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x185e3b4d                           // cmp    r11, qword [r14 + 24]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x105e3b4d                           // cmp    r11, qword [r14 + 16]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x3b4d; BYTE $0x1e                   // cmp    r11, qword [r14]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x085e3b4d                           // cmp    r11, qword [r14 + 8]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x405e3b4d                           // cmp    r11, qword [r14 + 64]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x809e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 128]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0xc09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 192]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	QUAD $0x0000009824a40244                   // add    r12b, byte [rsp + 152]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xfa                   // or    dl, r15b
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24048841                           // mov    byte [r12], al
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e7c040                           // shl    dil, 4
-	WORD $0x0844; BYTE $0xd7                   // or    dil, r10b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x24448845; BYTE $0x01               // mov    byte [r12 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
-	LONG $0x00c68149; WORD $0x0001; BYTE $0x00 // add    r14, 256
-	LONG $0x04c48349                           // add    r12, 4
-	LONG $0x2464894c; BYTE $0x08               // mov    qword [rsp + 8], r12
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_35
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-
-LBB5_37:
-	LONG $0x05e2c149             // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa     // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8     // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0     // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2     // not    r10
-	WORD $0x014d; BYTE $0xfa     // add    r10, r15
-	JE   LBB5_39
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x247c8b4c; BYTE $0x08 // mov    r15, qword [rsp + 8]
-
-LBB5_157:
-	WORD $0x3b4d; BYTE $0x1e     // cmp    r11, qword [r14]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	WORD $0xc220                 // and    dl, al
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	LONG $0x37148841             // mov    byte [r15 + rsi], dl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x085e3b4d             // cmp    r11, qword [r14 + 8]
-	LONG $0x10768d4d             // lea    r14, [r14 + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd030                 // xor    al, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB5_157
-	JMP  LBB5_40
-
-LBB5_56:
-	WORD $0x068a                 // mov    al, byte [rsi]
-	LONG $0x28244488             // mov    byte [rsp + 40], al
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_60
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
-
-LBB5_58:
-	LONG $0x244cb60f; BYTE $0x28   // movzx    ecx, byte [rsp + 40]
-	WORD $0x3a41; BYTE $0x0e       // cmp    cl, byte [r14]
-	LONG $0x01768d4d               // lea    r14, [r14 + 1]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	WORD $0xdbf6                   // neg    bl
-	LONG $0x07708d48               // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xf0490f48               // cmovns    rsi, rax
-	LONG $0x03fec148               // sar    rsi, 3
-	LONG $0x0cb60f44; BYTE $0x32   // movzx    r9d, byte [rdx + rsi]
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	QUAD $0x00000000f5048d44       // lea    r8d, [8*rsi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf       // and    dil, bl
-	WORD $0x3044; BYTE $0xcf       // xor    dil, r9b
-	LONG $0x323c8840               // mov    byte [rdx + rsi], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB5_58
-	LONG $0x24448348; WORD $0x0108 // add    qword [rsp + 8], 1
-
-LBB5_60:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB5_61
-	LONG $0x10fa8349             // cmp    r10, 16
-	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
-	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
-	JB   LBB5_63
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
-	JAE  LBB5_66
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB5_66
-
-LBB5_63:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000d824848948     // mov    qword [rsp + 216], rax
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x24448948; BYTE $0x58 // mov    qword [rsp + 88], rax
-
-LBB5_69:
-	QUAD $0x000000d824942b4c // sub    r10, qword [rsp + 216]
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB5_70:
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	LONG $0x1f463a41                           // cmp    al, byte [r14 + 31]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x1e463a41                           // cmp    al, byte [r14 + 30]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x1d463a41                           // cmp    al, byte [r14 + 29]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x1c463a41                           // cmp    al, byte [r14 + 28]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x1b463a41                           // cmp    al, byte [r14 + 27]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x1a463a41                           // cmp    al, byte [r14 + 26]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x19463a41                           // cmp    al, byte [r14 + 25]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x17463a41                           // cmp    al, byte [r14 + 23]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x16463a41                           // cmp    al, byte [r14 + 22]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x15463a41                           // cmp    al, byte [r14 + 21]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x14463a41                           // cmp    al, byte [r14 + 20]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x13463a41                           // cmp    al, byte [r14 + 19]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x12463a41                           // cmp    al, byte [r14 + 18]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x11463a41                           // cmp    al, byte [r14 + 17]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x0f463a41                           // cmp    al, byte [r14 + 15]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x0e463a41                           // cmp    al, byte [r14 + 14]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x0d463a41                           // cmp    al, byte [r14 + 13]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x0c463a41                           // cmp    al, byte [r14 + 12]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x0b463a41                           // cmp    al, byte [r14 + 11]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x0a463a41                           // cmp    al, byte [r14 + 10]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x09463a41                           // cmp    al, byte [r14 + 9]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x07463a41                           // cmp    al, byte [r14 + 7]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x06463a41                           // cmp    al, byte [r14 + 6]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x05463a41                           // cmp    al, byte [r14 + 5]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x04463a41                           // cmp    al, byte [r14 + 4]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x03463a41                           // cmp    al, byte [r14 + 3]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x02463a41                           // cmp    al, byte [r14 + 2]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0x3a41; BYTE $0x06                   // cmp    al, byte [r14]
-	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
-	LONG $0x01463a41                           // cmp    al, byte [r14 + 1]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x08463a41                           // cmp    al, byte [r14 + 8]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x10463a41                           // cmp    al, byte [r14 + 16]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x18463a41                           // cmp    al, byte [r14 + 24]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xa8248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 168]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xca08                               // or    dl, cl
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c040                           // shl    sil, 7
-	WORD $0x0840; BYTE $0xc6                   // or    sil, al
-	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	WORD $0x8840; BYTE $0x30                   // mov    byte [rax], sil
-	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
-	QUAD $0x00000098249c0244                   // add    r11b, byte [rsp + 152]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xdb                   // or    bl, r11b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
-	WORD $0x0845; BYTE $0xea                   // or    r10b, r13b
-	LONG $0x01508844                           // mov    byte [rax + 1], r10b
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xb0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 176]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xd108                               // or    cl, dl
-	WORD $0x4888; BYTE $0x02                   // mov    byte [rax + 2], cl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x88248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 136]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xd108                               // or    cl, dl
-	WORD $0x4888; BYTE $0x03                   // mov    byte [rax + 3], cl
-	LONG $0x20c68349                           // add    r14, 32
-	LONG $0x04c08348                           // add    rax, 4
-	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB5_70
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	JMP  LBB5_72
-
-LBB5_144:
-	WORD $0x8b44; BYTE $0x1e     // mov    r11d, dword [rsi]
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_148
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-
-LBB5_146:
-	WORD $0x3b45; BYTE $0x1e                   // cmp    r11d, dword [r14]
-	LONG $0x04768d4d                           // lea    r14, [r14 + 4]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
-	WORD $0xda30                               // xor    dl, bl
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
-	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_146
-	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
-
-LBB5_148:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB5_152
-	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
-
-LBB5_150:
-	LONG $0x7c5e3b45                           // cmp    r11d, dword [r14 + 124]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x785e3b45                           // cmp    r11d, dword [r14 + 120]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x745e3b45                           // cmp    r11d, dword [r14 + 116]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x705e3b45                           // cmp    r11d, dword [r14 + 112]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x6c5e3b45                           // cmp    r11d, dword [r14 + 108]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x685e3b45                           // cmp    r11d, dword [r14 + 104]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x645e3b45                           // cmp    r11d, dword [r14 + 100]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x5c5e3b45                           // cmp    r11d, dword [r14 + 92]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x585e3b45                           // cmp    r11d, dword [r14 + 88]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x545e3b45                           // cmp    r11d, dword [r14 + 84]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x505e3b45                           // cmp    r11d, dword [r14 + 80]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x4c5e3b45                           // cmp    r11d, dword [r14 + 76]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x485e3b45                           // cmp    r11d, dword [r14 + 72]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x445e3b45                           // cmp    r11d, dword [r14 + 68]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x3c5e3b45                           // cmp    r11d, dword [r14 + 60]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x385e3b45                           // cmp    r11d, dword [r14 + 56]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x345e3b45                           // cmp    r11d, dword [r14 + 52]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x305e3b45                           // cmp    r11d, dword [r14 + 48]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x2c5e3b45                           // cmp    r11d, dword [r14 + 44]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x285e3b45                           // cmp    r11d, dword [r14 + 40]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x245e3b45                           // cmp    r11d, dword [r14 + 36]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x1c5e3b45                           // cmp    r11d, dword [r14 + 28]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x185e3b45                           // cmp    r11d, dword [r14 + 24]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x145e3b45                           // cmp    r11d, dword [r14 + 20]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x105e3b45                           // cmp    r11d, dword [r14 + 16]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x0c5e3b45                           // cmp    r11d, dword [r14 + 12]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x085e3b45                           // cmp    r11d, dword [r14 + 8]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x3b45; BYTE $0x1e                   // cmp    r11d, dword [r14]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x045e3b45                           // cmp    r11d, dword [r14 + 4]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x205e3b45                           // cmp    r11d, dword [r14 + 32]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x405e3b45                           // cmp    r11d, dword [r14 + 64]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x605e3b45                           // cmp    r11d, dword [r14 + 96]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	QUAD $0x0000009824a40244                   // add    r12b, byte [rsp + 152]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xfa                   // or    dl, r15b
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24048841                           // mov    byte [r12], al
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e7c040                           // shl    dil, 4
-	WORD $0x0844; BYTE $0xd7                   // or    dil, r10b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x24448845; BYTE $0x01               // mov    byte [r12 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
-	LONG $0x80ee8349                           // sub    r14, -128
-	LONG $0x04c48349                           // add    r12, 4
-	LONG $0x2464894c; BYTE $0x08               // mov    qword [rsp + 8], r12
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_150
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-
-LBB5_152:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_154
-
-LBB5_23:
-	WORD $0xff31 // xor    edi, edi
-	JMP  LBB5_24
-
-LBB5_99:
-	LONG $0x1eb70f44             // movzx    r11d, word [rsi]
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_103
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
-
-LBB5_101:
-	LONG $0x1e3b4566               // cmp    r11w, word [r14]
-	LONG $0x02768d4d               // lea    r14, [r14 + 2]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	WORD $0xdbf6                   // neg    bl
-	LONG $0x07708d48               // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xf0490f48               // cmovns    rsi, rax
-	LONG $0x03fec148               // sar    rsi, 3
-	LONG $0x0cb60f44; BYTE $0x32   // movzx    r9d, byte [rdx + rsi]
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	QUAD $0x00000000f5048d44       // lea    r8d, [8*rsi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf       // and    dil, bl
-	WORD $0x3044; BYTE $0xcf       // xor    dil, r9b
-	LONG $0x323c8840               // mov    byte [rdx + rsi], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB5_101
-	LONG $0x24448348; WORD $0x0108 // add    qword [rsp + 8], 1
-
-LBB5_103:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB5_104
-	LONG $0x08fa8349             // cmp    r10, 8
-	LONG $0x245c8944; BYTE $0x10 // mov    dword [rsp + 16], r11d
-	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
-	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
-	JB   LBB5_106
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x06e0c148             // shl    rax, 6
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
-	JAE  LBB5_109
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
-	WORD $0x394c; BYTE $0xf0     // cmp    rax, r14
-	JBE  LBB5_109
-
-LBB5_106:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
-	LONG $0x24648b4c; BYTE $0x08 // mov    r12, qword [rsp + 8]
-
-LBB5_112:
-	LONG $0x24542b4c; BYTE $0x18 // sub    r10, qword [rsp + 24]
-	QUAD $0x000000a82494894c     // mov    qword [rsp + 168], r10
-
-LBB5_113:
-	LONG $0x5e3b4566; BYTE $0x3e               // cmp    r11w, word [r14 + 62]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x5e3b4566; BYTE $0x3c               // cmp    r11w, word [r14 + 60]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x5e3b4566; BYTE $0x3a               // cmp    r11w, word [r14 + 58]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x5e3b4566; BYTE $0x38               // cmp    r11w, word [r14 + 56]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x5e3b4566; BYTE $0x36               // cmp    r11w, word [r14 + 54]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x5e3b4566; BYTE $0x34               // cmp    r11w, word [r14 + 52]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x5e3b4566; BYTE $0x32               // cmp    r11w, word [r14 + 50]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x5e3b4566; BYTE $0x2e               // cmp    r11w, word [r14 + 46]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x5e3b4566; BYTE $0x2c               // cmp    r11w, word [r14 + 44]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x5e3b4566; BYTE $0x2a               // cmp    r11w, word [r14 + 42]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x5e3b4566; BYTE $0x28               // cmp    r11w, word [r14 + 40]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x5e3b4566; BYTE $0x26               // cmp    r11w, word [r14 + 38]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x5e3b4566; BYTE $0x24               // cmp    r11w, word [r14 + 36]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x5e3b4566; BYTE $0x22               // cmp    r11w, word [r14 + 34]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x5e3b4566; BYTE $0x1e               // cmp    r11w, word [r14 + 30]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x5e3b4566; BYTE $0x1c               // cmp    r11w, word [r14 + 28]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x5e3b4566; BYTE $0x1a               // cmp    r11w, word [r14 + 26]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x5e3b4566; BYTE $0x18               // cmp    r11w, word [r14 + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x5e3b4566; BYTE $0x16               // cmp    r11w, word [r14 + 22]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x5e3b4566; BYTE $0x14               // cmp    r11w, word [r14 + 20]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x12               // cmp    ax, word [r14 + 18]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x0e               // cmp    ax, word [r14 + 14]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x0c               // cmp    ax, word [r14 + 12]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x0a               // cmp    ax, word [r14 + 10]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x08               // cmp    ax, word [r14 + 8]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x06               // cmp    ax, word [r14 + 6]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x04               // cmp    ax, word [r14 + 4]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x063b4166                           // cmp    ax, word [r14]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x02               // cmp    ax, word [r14 + 2]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	LONG $0x24648b44; BYTE $0x10               // mov    r12d, dword [rsp + 16]
-	LONG $0x663b4566; BYTE $0x10               // cmp    r12w, word [r14 + 16]
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x10245c8b                           // mov    ebx, dword [rsp + 16]
-	LONG $0x5e3b4166; BYTE $0x20               // cmp    bx, word [r14 + 32]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x10245c8b                           // mov    ebx, dword [rsp + 16]
-	LONG $0x5e3b4166; BYTE $0x30               // cmp    bx, word [r14 + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xc000                               // add    al, al
-	LONG $0x98248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 152]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x04e7c040                           // shl    dil, 4
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x05e0c041                           // shl    r8b, 5
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xc208                               // or    dl, al
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x24148841                           // mov    byte [r12], dl
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x000000c024940244                   // add    r10b, byte [rsp + 192]
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x245c8b44; BYTE $0x10               // mov    r11d, dword [rsp + 16]
-	LONG $0x04e5c041                           // shl    r13b, 4
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x244c8845; BYTE $0x01               // mov    byte [r12 + 1], r9b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
-	LONG $0x40c68349                           // add    r14, 64
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_113
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	JMP  LBB5_115
-
-LBB5_122:
-	LONG $0x1eb70f44             // movzx    r11d, word [rsi]
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_126
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
-
-LBB5_124:
-	LONG $0x1e3b4566               // cmp    r11w, word [r14]
-	LONG $0x02768d4d               // lea    r14, [r14 + 2]
-	WORD $0x950f; BYTE $0xd3       // setne    bl
-	WORD $0xdbf6                   // neg    bl
-	LONG $0x07708d48               // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xf0490f48               // cmovns    rsi, rax
-	LONG $0x03fec148               // sar    rsi, 3
-	LONG $0x0cb60f44; BYTE $0x32   // movzx    r9d, byte [rdx + rsi]
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	QUAD $0x00000000f5048d44       // lea    r8d, [8*rsi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf       // and    dil, bl
-	WORD $0x3044; BYTE $0xcf       // xor    dil, r9b
-	LONG $0x323c8840               // mov    byte [rdx + rsi], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB5_124
-	LONG $0x24448348; WORD $0x0108 // add    qword [rsp + 8], 1
-
-LBB5_126:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB5_127
-	LONG $0x08fa8349             // cmp    r10, 8
-	LONG $0x245c8944; BYTE $0x10 // mov    dword [rsp + 16], r11d
-	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
-	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
-	JB   LBB5_129
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x06e0c148             // shl    rax, 6
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
-	JAE  LBB5_132
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
-	WORD $0x394c; BYTE $0xf0     // cmp    rax, r14
-	JBE  LBB5_132
-
-LBB5_129:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
-	LONG $0x24648b4c; BYTE $0x08 // mov    r12, qword [rsp + 8]
-
-LBB5_135:
-	LONG $0x24542b4c; BYTE $0x18 // sub    r10, qword [rsp + 24]
-	QUAD $0x000000a82494894c     // mov    qword [rsp + 168], r10
-
-LBB5_136:
-	LONG $0x5e3b4566; BYTE $0x3e               // cmp    r11w, word [r14 + 62]
-	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
-	LONG $0x5e3b4566; BYTE $0x3c               // cmp    r11w, word [r14 + 60]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x5e3b4566; BYTE $0x3a               // cmp    r11w, word [r14 + 58]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x5e3b4566; BYTE $0x38               // cmp    r11w, word [r14 + 56]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x5e3b4566; BYTE $0x36               // cmp    r11w, word [r14 + 54]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x5e3b4566; BYTE $0x34               // cmp    r11w, word [r14 + 52]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x5e3b4566; BYTE $0x32               // cmp    r11w, word [r14 + 50]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x5e3b4566; BYTE $0x2e               // cmp    r11w, word [r14 + 46]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x5e3b4566; BYTE $0x2c               // cmp    r11w, word [r14 + 44]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x5e3b4566; BYTE $0x2a               // cmp    r11w, word [r14 + 42]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x5e3b4566; BYTE $0x28               // cmp    r11w, word [r14 + 40]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x5e3b4566; BYTE $0x26               // cmp    r11w, word [r14 + 38]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x5e3b4566; BYTE $0x24               // cmp    r11w, word [r14 + 36]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x5e3b4566; BYTE $0x22               // cmp    r11w, word [r14 + 34]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x5e3b4566; BYTE $0x1e               // cmp    r11w, word [r14 + 30]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x5e3b4566; BYTE $0x1c               // cmp    r11w, word [r14 + 28]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x5e3b4566; BYTE $0x1a               // cmp    r11w, word [r14 + 26]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x5e3b4566; BYTE $0x18               // cmp    r11w, word [r14 + 24]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x5e3b4566; BYTE $0x16               // cmp    r11w, word [r14 + 22]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x5e3b4566; BYTE $0x14               // cmp    r11w, word [r14 + 20]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x12               // cmp    ax, word [r14 + 18]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x0e               // cmp    ax, word [r14 + 14]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x0c               // cmp    ax, word [r14 + 12]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x0a               // cmp    ax, word [r14 + 10]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x08               // cmp    ax, word [r14 + 8]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x06               // cmp    ax, word [r14 + 6]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x04               // cmp    ax, word [r14 + 4]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x063b4166                           // cmp    ax, word [r14]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
-	LONG $0x463b4166; BYTE $0x02               // cmp    ax, word [r14 + 2]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	LONG $0x24648b44; BYTE $0x10               // mov    r12d, dword [rsp + 16]
-	LONG $0x663b4566; BYTE $0x10               // cmp    r12w, word [r14 + 16]
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x10245c8b                           // mov    ebx, dword [rsp + 16]
-	LONG $0x5e3b4166; BYTE $0x20               // cmp    bx, word [r14 + 32]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x10245c8b                           // mov    ebx, dword [rsp + 16]
-	LONG $0x5e3b4166; BYTE $0x30               // cmp    bx, word [r14 + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	WORD $0xc000                               // add    al, al
-	LONG $0x98248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 152]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e6c040                           // shl    sil, 3
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x04e7c040                           // shl    dil, 4
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x05e0c041                           // shl    r8b, 5
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xc208                               // or    dl, al
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x24148841                           // mov    byte [r12], dl
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	QUAD $0x000000c024940244                   // add    r10b, byte [rsp + 192]
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x245c8b44; BYTE $0x10               // mov    r11d, dword [rsp + 16]
-	LONG $0x04e5c041                           // shl    r13b, 4
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x244c8845; BYTE $0x01               // mov    byte [r12 + 1], r9b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
-	LONG $0x40c68349                           // add    r14, 64
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_136
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	JMP  LBB5_138
-
-LBB5_158:
-	WORD $0x8b4c; BYTE $0x1e     // mov    r11, qword [rsi]
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_162
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-
-LBB5_160:
-	WORD $0x3b4d; BYTE $0x1e                   // cmp    r11, qword [r14]
-	LONG $0x08768d4d                           // lea    r14, [r14 + 8]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
-	WORD $0xda30                               // xor    dl, bl
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
-	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_160
-	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
-
-LBB5_162:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20ff8349         // cmp    r15, 32
-	JL   LBB5_166
-	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
-
-LBB5_164:
-	LONG $0xf89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 248]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0xf09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 240]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0xe89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 232]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0xe09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 224]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0xd89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 216]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0xd09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 208]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0xc89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 200]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0xb89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 184]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0xb09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 176]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0xa89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 168]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0xa09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 160]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x989e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 152]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x909e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 144]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x889e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 136]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x785e3b4d                           // cmp    r11, qword [r14 + 120]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x705e3b4d                           // cmp    r11, qword [r14 + 112]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x685e3b4d                           // cmp    r11, qword [r14 + 104]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x605e3b4d                           // cmp    r11, qword [r14 + 96]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x585e3b4d                           // cmp    r11, qword [r14 + 88]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x505e3b4d                           // cmp    r11, qword [r14 + 80]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x485e3b4d                           // cmp    r11, qword [r14 + 72]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x385e3b4d                           // cmp    r11, qword [r14 + 56]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x305e3b4d                           // cmp    r11, qword [r14 + 48]
-	WORD $0x950f; BYTE $0xd3                   // setne    bl
-	LONG $0x285e3b4d                           // cmp    r11, qword [r14 + 40]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	LONG $0x205e3b4d                           // cmp    r11, qword [r14 + 32]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x185e3b4d                           // cmp    r11, qword [r14 + 24]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x105e3b4d                           // cmp    r11, qword [r14 + 16]
-	LONG $0xd5950f41                           // setne    r13b
-	WORD $0x3b4d; BYTE $0x1e                   // cmp    r11, qword [r14]
-	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
-	LONG $0x085e3b4d                           // cmp    r11, qword [r14 + 8]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x405e3b4d                           // cmp    r11, qword [r14 + 64]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x809e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 128]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0xc09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 192]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	QUAD $0x0000009824a40244                   // add    r12b, byte [rsp + 152]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xfa                   // or    dl, r15b
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24048841                           // mov    byte [r12], al
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e7c040                           // shl    dil, 4
-	WORD $0x0844; BYTE $0xd7                   // or    dil, r10b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x24448845; BYTE $0x01               // mov    byte [r12 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
-	LONG $0x00c68149; WORD $0x0001; BYTE $0x00 // add    r14, 256
-	LONG $0x04c48349                           // add    r12, 4
-	LONG $0x2464894c; BYTE $0x08               // mov    qword [rsp + 8], r12
-	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
-	JNE  LBB5_164
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-
-LBB5_166:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_168
-
-LBB5_39:
-	WORD $0xff31 // xor    edi, edi
-	JMP  LBB5_40
-
-LBB5_170:
-	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
-	WORD $0x854d; BYTE $0xff     // test    r15, r15
-	LONG $0xd7490f4d             // cmovns    r10, r15
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	LONG $0x06100ff3             // movss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB5_174
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-
-LBB5_172:
-	LONG $0x062e0f41                           // ucomiss    xmm0, dword [r14]
-	LONG $0x04768d4d                           // lea    r14, [r14 + 4]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
-	WORD $0xda30                               // xor    dl, bl
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
-	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB5_172
-	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
-
-LBB5_174:
-	LONG $0x05fac149             // sar    r10, 5
-	LONG $0x20ff8349             // cmp    r15, 32
-	JL   LBB5_175
-	LONG $0x04fa8349             // cmp    r10, 4
-	JB   LBB5_177
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0x07e0c148             // shl    rax, 7
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
-	JAE  LBB5_180
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
-	WORD $0x394c; BYTE $0xf0     // cmp    rax, r14
-	JBE  LBB5_180
-
-LBB5_177:
-	WORD $0x3145; BYTE $0xc0     // xor    r8d, r8d
-	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
-	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
-
-LBB5_183:
-	LONG $0x245c894c; BYTE $0x08 // mov    qword [rsp + 8], r11
-	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
-	QUAD $0x000000a82494894c     // mov    qword [rsp + 168], r10
-	WORD $0x294d; BYTE $0xc2     // sub    r10, r8
-	QUAD $0x000000982494894c     // mov    qword [rsp + 152], r10
-
-LBB5_184:
-	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
-	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
-	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd0950f41                           // setne    r8b
-	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
-	LONG $0xd6950f41                           // setne    r14b
-	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
-	LONG $0xd5950f41                           // setne    r13b
-	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
-	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
-	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
-	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
-	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
-	WORD $0x950f; BYTE $0xd0                   // setne    al
-	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
-	LONG $0xd3950f41                           // setne    r11b
-	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
-	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
-	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
-	WORD $0x950f; BYTE $0xd2                   // setne    dl
-	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
-	LONG $0xd6950f40                           // setne    sil
-	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
-	LONG $0xd7950f40                           // setne    dil
-	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
-	LONG $0xd2950f41                           // setne    r10b
-	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
-	LONG $0xd4950f41                           // setne    r12b
-	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
-	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
-	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
-	LONG $0xd1950f41                           // setne    r9b
-	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
-	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
-	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
-	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
-	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
-	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
-	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
-	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
-	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
-	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
-	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
-	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
-	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
-	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
-	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
-	LONG $0xd7950f41                           // setne    r15b
-	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
-	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
-	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
-	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
-	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
-	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
-	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
-	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
-	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
-	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
-	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
-	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
-	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
-	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
-	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
-	WORD $0x950f; BYTE $0xd1                   // setne    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000c024840244                   // add    r8b, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x0000008824b4b60f                   // movzx    esi, byte [rsp + 136]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                               // add    al, al
-	LONG $0x78244402                           // add    al, byte [rsp + 120]
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x58               // movzx    edi, byte [rsp + 88]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x20244402                           // add    al, byte [rsp + 32]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x10               // movzx    edx, byte [rsp + 16]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
-	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
-	JNE  LBB5_184
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
-	JMP  LBB5_186
-
-LBB5_9:
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	QUAD $0x0000008024848948     // mov    qword [rsp + 128], rax
-
-LBB5_91:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_94
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB5_97
-
-LBB5_61:
-	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
-	LONG $0x24448948; BYTE $0x58 // mov    qword [rsp + 88], rax
-
-LBB5_72:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_75
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB5_78
-
-LBB5_104:
-	LONG $0x24648b4c; BYTE $0x08 // mov    r12, qword [rsp + 8]
-
-LBB5_115:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JE   LBB5_117
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB5_121:
-	LONG $0x1e3b4566             // cmp    r11w, word [r14]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x5e3b4566; BYTE $0x02 // cmp    r11w, word [r14 + 2]
-	LONG $0x04768d4d             // lea    r14, [r14 + 4]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB5_121
-	JMP  LBB5_118
-
-LBB5_127:
-	LONG $0x24648b4c; BYTE $0x08 // mov    r12, qword [rsp + 8]
-
-LBB5_138:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_140
-
-LBB5_117:
-	WORD $0xf631  // xor    esi, esi
-	JMP  LBB5_118
-
-LBB5_175:
-	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
-	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
-
-LBB5_186:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
-	JGE  LBB5_199
-	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xfa // add    r10, r15
-	JNE  LBB5_191
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB5_189
-
-LBB5_154:
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x247c8b4c; BYTE $0x08 // mov    r15, qword [rsp + 8]
-
-LBB5_155:
-	WORD $0x3b45; BYTE $0x1e     // cmp    r11d, dword [r14]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	WORD $0xc220                 // and    dl, al
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	LONG $0x37148841             // mov    byte [r15 + rsi], dl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x045e3b45             // cmp    r11d, dword [r14 + 4]
-	LONG $0x08768d4d             // lea    r14, [r14 + 8]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd030                 // xor    al, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB5_155
-
-LBB5_24:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_199
-	WORD $0x3b45; BYTE $0x1e // cmp    r11d, dword [r14]
-	JMP  LBB5_197
-
-LBB5_94:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x00000080249c8b4c // mov    r11, qword [rsp + 128]
-
-LBB5_95:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2474b60f; BYTE $0x40 // movzx    esi, byte [rsp + 64]
-	LONG $0x06343a41             // cmp    sil, byte [r14 + rax]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x06743a41; BYTE $0x01 // cmp    sil, byte [r14 + rax + 1]
-	LONG $0x02708d48             // lea    rsi, [rax + 2]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB5_95
-	WORD $0x0149; BYTE $0xf6     // add    r14, rsi
-
-LBB5_97:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_199
-	LONG $0x4024448a         // mov    al, byte [rsp + 64]
-	WORD $0x3a41; BYTE $0x06 // cmp    al, byte [r14]
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x0000008024848b4c // mov    r8, qword [rsp + 128]
-	JMP  LBB5_80
-
-LBB5_75:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf631                 // xor    esi, esi
-	LONG $0x245c8b4c; BYTE $0x58 // mov    r11, qword [rsp + 88]
-
-LBB5_76:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2474b60f; BYTE $0x28 // movzx    esi, byte [rsp + 40]
-	LONG $0x06343a41             // cmp    sil, byte [r14 + rax]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x06743a41; BYTE $0x01 // cmp    sil, byte [r14 + rax + 1]
-	LONG $0x02708d48             // lea    rsi, [rax + 2]
-	WORD $0x950f; BYTE $0xd3     // setne    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB5_76
-	WORD $0x0149; BYTE $0xf6     // add    r14, rsi
-
-LBB5_78:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB5_199
-	LONG $0x2824448a             // mov    al, byte [rsp + 40]
-	WORD $0x3a41; BYTE $0x06     // cmp    al, byte [r14]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x58 // mov    r8, qword [rsp + 88]
-
-LBB5_80:
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	JMP  LBB5_198
-
-LBB5_193:
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
-
-LBB5_194:
-	LONG $0x2e0f4166; BYTE $0x06   // ucomisd    xmm0, qword [r14]
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8948; BYTE $0xfe       // mov    rsi, rdi
-	LONG $0x03eec148               // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x33   // movzx    r10d, byte [r11 + rsi]
-	WORD $0x3044; BYTE $0xd0       // xor    al, r10b
-	WORD $0xf989                   // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b2                   // mov    dl, 1
-	WORD $0xe2d2                   // shl    dl, cl
-	WORD $0xc220                   // and    dl, al
-	WORD $0x3044; BYTE $0xd2       // xor    dl, r10b
-	LONG $0x33148841               // mov    byte [r11 + rsi], dl
-	LONG $0x02c78348               // add    rdi, 2
-	LONG $0x2e0f4166; WORD $0x0846 // ucomisd    xmm0, qword [r14 + 8]
-	LONG $0x10768d4d               // lea    r14, [r14 + 16]
-	WORD $0x950f; BYTE $0xd0       // setne    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0xd030                   // xor    al, dl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b3                   // mov    bl, 1
-	WORD $0xe3d2                   // shl    bl, cl
-	WORD $0xc320                   // and    bl, al
-	WORD $0xd330                   // xor    bl, dl
-	LONG $0x331c8841               // mov    byte [r11 + rsi], bl
-	WORD $0x3949; BYTE $0xf9       // cmp    r9, rdi
-	JNE  LBB5_194
-
-LBB5_195:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB5_199
-	LONG $0x2e0f4166; BYTE $0x06 // ucomisd    xmm0, qword [r14]
-	JMP  LBB5_197
-
-LBB5_168:
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0xff31                 // xor    edi, edi
-	LONG $0x247c8b4c; BYTE $0x08 // mov    r15, qword [rsp + 8]
-
-LBB5_169:
-	WORD $0x3b4d; BYTE $0x1e     // cmp    r11, qword [r14]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	WORD $0xc220                 // and    dl, al
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	LONG $0x37148841             // mov    byte [r15 + rsi], dl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x085e3b4d             // cmp    r11, qword [r14 + 8]
-	LONG $0x10768d4d             // lea    r14, [r14 + 16]
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd030                 // xor    al, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
-	JNE  LBB5_169
-
-LBB5_40:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_199
-	WORD $0x3b4d; BYTE $0x1e // cmp    r11, qword [r14]
-
-LBB5_197:
-	WORD $0x950f; BYTE $0xd0     // setne    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfa     // mov    rdx, rdi
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
-	LONG $0x10348a41             // mov    sil, byte [r8 + rdx]
-	LONG $0x07e78040             // and    dil, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0     // xor    al, sil
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3040; BYTE $0xf3     // xor    bl, sil
-
-LBB5_198:
-	LONG $0x101c8841 // mov    byte [r8 + rdx], bl
-	JMP  LBB5_199
-
-LBB5_140:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB5_141:
-	LONG $0x1e3b4566             // cmp    r11w, word [r14]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x5e3b4566; BYTE $0x02 // cmp    r11w, word [r14 + 2]
-	LONG $0x04768d4d             // lea    r14, [r14 + 4]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB5_141
-
-LBB5_118:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_199
-	LONG $0x1e3b4566         // cmp    r11w, word [r14]
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
-	JMP  LBB5_199
-
-LBB5_191:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x894d; BYTE $0xde // mov    r14, r11
-
-LBB5_192:
-	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
-	WORD $0x950f; BYTE $0xd2     // setne    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
-	LONG $0xd1950f41             // setne    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xca     // and    dl, r9b
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB5_192
-
-LBB5_189:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB5_199
-	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
-	WORD $0x950f; BYTE $0xd0 // setne    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x133c8a41         // mov    dil, byte [r11 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
-
-LBB5_199:
-	MOVQ 288(SP), SP
-	RET
-
-LBB5_85:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x014c; BYTE $0xf0             // add    rax, r14
-	QUAD $0x0000011024848948             // mov    qword [rsp + 272], rax
-	QUAD $0x000000d82494894c             // mov    qword [rsp + 216], r10
-	LONG $0x24448b48; BYTE $0x08         // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a                     // lea    rax, [rax + 4*r10]
-	QUAD $0x0000008024848948             // mov    qword [rsp + 128], rax
-	LONG $0x2444b60f; BYTE $0x40         // movzx    eax, byte [rsp + 64]
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
-	WORD $0xc031                         // xor    eax, eax
-
-LBB5_86:
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	LONG $0x05e0c148                           // shl    rax, 5
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	LONG $0x0cb60f41; BYTE $0x06               // movzx    ecx, byte [r14 + rax]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x4cb60f41; WORD $0x0106             // movzx    ecx, byte [r14 + rax + 1]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x4cb60f41; WORD $0x0206             // movzx    ecx, byte [r14 + rax + 2]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x4cb60f41; WORD $0x0306             // movzx    ecx, byte [r14 + rax + 3]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x4cb60f41; WORD $0x0406             // movzx    ecx, byte [r14 + rax + 4]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x4cb60f41; WORD $0x0506             // movzx    ecx, byte [r14 + rax + 5]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x4cb60f41; WORD $0x0606             // movzx    ecx, byte [r14 + rax + 6]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x4cb60f41; WORD $0x0706             // movzx    ecx, byte [r14 + rax + 7]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x4cb60f41; WORD $0x0806             // movzx    ecx, byte [r14 + rax + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00010024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm0
-	LONG $0x4cb60f41; WORD $0x0906             // movzx    ecx, byte [r14 + rax + 9]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x4cb60f41; WORD $0x0a06             // movzx    ecx, byte [r14 + rax + 10]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x4cb60f41; WORD $0x0b06             // movzx    ecx, byte [r14 + rax + 11]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x4cb60f41; WORD $0x0c06             // movzx    ecx, byte [r14 + rax + 12]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
-	LONG $0x4cb60f41; WORD $0x0d06             // movzx    ecx, byte [r14 + rax + 13]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x4cb60f41; WORD $0x0e06             // movzx    ecx, byte [r14 + rax + 14]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x4cb60f41; WORD $0x0f06             // movzx    ecx, byte [r14 + rax + 15]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0x20cf8348                           // or    rdi, 32
-	LONG $0x247c8948; BYTE $0x18               // mov    qword [rsp + 24], rdi
-	LONG $0x40c98349                           // or    r9, 64
-	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
-	LONG $0x60cb8348                           // or    rbx, 96
-	LONG $0x245c8948; BYTE $0x20               // mov    qword [rsp + 32], rbx
-	LONG $0x80cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 128
-	LONG $0x247c894c; BYTE $0x30               // mov    qword [rsp + 48], r15
-	LONG $0xa0ca8148; WORD $0x0000; BYTE $0x00 // or    rdx, 160
-	LONG $0xc0cd8149; WORD $0x0000; BYTE $0x00 // or    r13, 192
-	LONG $0xe0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 224
-	LONG $0x00cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 256
-	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
-	LONG $0x40cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 320
-	LONG $0x60ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 352
-	LONG $0x24748948; BYTE $0x58               // mov    qword [rsp + 88], rsi
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	LONG $0x80ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 384
-	LONG $0x24748948; BYTE $0x38               // mov    qword [rsp + 56], rsi
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
-	LONG $0xe0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 480
-	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
-	QUAD $0x013e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rdi], 1
-	QUAD $0x020e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r9], 2
-	QUAD $0x031e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rbx], 3
-	QUAD $0x043e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r15], 4
-	WORD $0x8948; BYTE $0xd7                   // mov    rdi, rdx
-	QUAD $0x051624203a0f4166                   // pinsrb    xmm4, byte [r14 + rdx], 5
-	WORD $0x894c; BYTE $0xea                   // mov    rdx, r13
-	QUAD $0x0000009824ac894c                   // mov    qword [rsp + 152], r13
-	QUAD $0x062e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r13], 6
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	QUAD $0x070624203a0f4366                   // pinsrb    xmm4, byte [r14 + r8], 7
-	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
-	QUAD $0x082624203a0f4366                   // pinsrb    xmm4, byte [r14 + r12], 8
-	QUAD $0x091624203a0f4366                   // pinsrb    xmm4, byte [r14 + r10], 9
-	LONG $0x245c894c; BYTE $0x70               // mov    qword [rsp + 112], r11
-	QUAD $0x0a1e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r11], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0b0624203a0f4166                   // pinsrb    xmm4, byte [r14 + rax], 11
-	QUAD $0x0c3624203a0f4166                   // pinsrb    xmm4, byte [r14 + rsi], 12
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0d0e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rcx], 13
-	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
-	QUAD $0x0e2624203a0f4366                   // pinsrb    xmm4, byte [r14 + r12], 14
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0f1e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rbx], 15
-	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
-	QUAD $0x013e5c203a0f4366; BYTE $0x01       // pinsrb    xmm3, byte [r14 + r15 + 1], 1
-	QUAD $0x010e5c203a0f4366; BYTE $0x02       // pinsrb    xmm3, byte [r14 + r9 + 1], 2
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x011e5c203a0f4166; BYTE $0x03       // pinsrb    xmm3, byte [r14 + rbx + 1], 3
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x010e5c203a0f4366; BYTE $0x04       // pinsrb    xmm3, byte [r14 + r9 + 1], 4
-	QUAD $0x013e5c203a0f4166; BYTE $0x05       // pinsrb    xmm3, byte [r14 + rdi + 1], 5
-	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
-	QUAD $0x01165c203a0f4166; BYTE $0x06       // pinsrb    xmm3, byte [r14 + rdx + 1], 6
-	QUAD $0x012e5c203a0f4366; BYTE $0x07       // pinsrb    xmm3, byte [r14 + r13 + 1], 7
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	QUAD $0x01065c203a0f4366; BYTE $0x08       // pinsrb    xmm3, byte [r14 + r8 + 1], 8
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	QUAD $0x01165c203a0f4366; BYTE $0x09       // pinsrb    xmm3, byte [r14 + r10 + 1], 9
-	WORD $0x894c; BYTE $0xd2                   // mov    rdx, r10
-	QUAD $0x000000902494894c                   // mov    qword [rsp + 144], r10
-	QUAD $0x011e5c203a0f4366; BYTE $0x0a       // pinsrb    xmm3, byte [r14 + r11 + 1], 10
-	QUAD $0x01065c203a0f4166; BYTE $0x0b       // pinsrb    xmm3, byte [r14 + rax + 1], 11
-	QUAD $0x01365c203a0f4166; BYTE $0x0c       // pinsrb    xmm3, byte [r14 + rsi + 1], 12
-	QUAD $0x010e5c203a0f4166; BYTE $0x0d       // pinsrb    xmm3, byte [r14 + rcx + 1], 13
-	QUAD $0x01265c203a0f4366; BYTE $0x0e       // pinsrb    xmm3, byte [r14 + r12 + 1], 14
-	QUAD $0x0000b0248c6f0f66; BYTE $0x00       // movdqa    xmm1, oword [rsp + 176]
-	LONG $0xe1740f66                           // pcmpeqb    xmm4, xmm1
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x01065c203a0f4166; BYTE $0x0f       // pinsrb    xmm3, byte [r14 + rax + 1], 15
-	LONG $0xd9740f66                           // pcmpeqb    xmm3, xmm1
-	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
-	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x74b60f41; WORD $0x1006             // movzx    esi, byte [r14 + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x02266c203a0f4366; BYTE $0x01       // pinsrb    xmm5, byte [r14 + r12 + 2], 1
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x020e6c203a0f4166; BYTE $0x02       // pinsrb    xmm5, byte [r14 + rcx + 2], 2
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x023e6c203a0f4366; BYTE $0x03       // pinsrb    xmm5, byte [r14 + r15 + 2], 3
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x020e6c203a0f4366; BYTE $0x04       // pinsrb    xmm5, byte [r14 + r9 + 2], 4
-	QUAD $0x023e6c203a0f4166; BYTE $0x05       // pinsrb    xmm5, byte [r14 + rdi + 2], 5
-	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
-	QUAD $0x02166c203a0f4366; BYTE $0x06       // pinsrb    xmm5, byte [r14 + r10 + 2], 6
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	QUAD $0x021e6c203a0f4166; BYTE $0x07       // pinsrb    xmm5, byte [r14 + rbx + 2], 7
-	LONG $0x246c894c; BYTE $0x68               // mov    qword [rsp + 104], r13
-	QUAD $0x022e6c203a0f4366; BYTE $0x08       // pinsrb    xmm5, byte [r14 + r13 + 2], 8
-	QUAD $0x02166c203a0f4166; BYTE $0x09       // pinsrb    xmm5, byte [r14 + rdx + 2], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x023e6c203a0f4166; BYTE $0x0a       // pinsrb    xmm5, byte [r14 + rdi + 2], 10
-	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
-	QUAD $0x02366c203a0f4166; BYTE $0x0b       // pinsrb    xmm5, byte [r14 + rsi + 2], 11
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x02066c203a0f4166; BYTE $0x0c       // pinsrb    xmm5, byte [r14 + rax + 2], 12
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x021e6c203a0f4166; BYTE $0x0d       // pinsrb    xmm5, byte [r14 + rbx + 2], 13
-	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
-	QUAD $0x020e6c203a0f4366; BYTE $0x0e       // pinsrb    xmm5, byte [r14 + r9 + 2], 14
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x02166c203a0f4166; BYTE $0x0f       // pinsrb    xmm5, byte [r14 + rdx + 2], 15
-	QUAD $0x03267c203a0f4366; BYTE $0x01       // pinsrb    xmm7, byte [r14 + r12 + 3], 1
-	QUAD $0x030e7c203a0f4166; BYTE $0x02       // pinsrb    xmm7, byte [r14 + rcx + 3], 2
-	QUAD $0x033e7c203a0f4366; BYTE $0x03       // pinsrb    xmm7, byte [r14 + r15 + 3], 3
-	QUAD $0x031e7c203a0f4366; BYTE $0x04       // pinsrb    xmm7, byte [r14 + r11 + 3], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x03067c203a0f4166; BYTE $0x05       // pinsrb    xmm7, byte [r14 + rax + 3], 5
-	QUAD $0x03167c203a0f4366; BYTE $0x06       // pinsrb    xmm7, byte [r14 + r10 + 3], 6
-	QUAD $0x03067c203a0f4366; BYTE $0x07       // pinsrb    xmm7, byte [r14 + r8 + 3], 7
-	QUAD $0x032e7c203a0f4366; BYTE $0x08       // pinsrb    xmm7, byte [r14 + r13 + 3], 8
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x03067c203a0f4166; BYTE $0x09       // pinsrb    xmm7, byte [r14 + rax + 3], 9
-	QUAD $0x033e7c203a0f4166; BYTE $0x0a       // pinsrb    xmm7, byte [r14 + rdi + 3], 10
-	QUAD $0x03367c203a0f4166; BYTE $0x0b       // pinsrb    xmm7, byte [r14 + rsi + 3], 11
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x03067c203a0f4166; BYTE $0x0c       // pinsrb    xmm7, byte [r14 + rax + 3], 12
-	QUAD $0x031e7c203a0f4166; BYTE $0x0d       // pinsrb    xmm7, byte [r14 + rbx + 3], 13
-	QUAD $0x030e7c203a0f4366; BYTE $0x0e       // pinsrb    xmm7, byte [r14 + r9 + 3], 14
-	QUAD $0x03167c203a0f4166; BYTE $0x0f       // pinsrb    xmm7, byte [r14 + rdx + 3], 15
-	QUAD $0x04264c203a0f4766; BYTE $0x01       // pinsrb    xmm9, byte [r14 + r12 + 4], 1
-	QUAD $0x040e4c203a0f4566; BYTE $0x02       // pinsrb    xmm9, byte [r14 + rcx + 4], 2
-	QUAD $0x043e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 4], 3
-	QUAD $0x041e4c203a0f4766; BYTE $0x04       // pinsrb    xmm9, byte [r14 + r11 + 4], 4
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x04264c203a0f4766; BYTE $0x05       // pinsrb    xmm9, byte [r14 + r12 + 4], 5
-	QUAD $0x04164c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r10 + 4], 6
-	QUAD $0x04064c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r8 + 4], 7
-	QUAD $0x042e4c203a0f4766; BYTE $0x08       // pinsrb    xmm9, byte [r14 + r13 + 4], 8
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x040e4c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rcx + 4], 9
-	QUAD $0x043e4c203a0f4566; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + rdi + 4], 10
-	QUAD $0x04364c203a0f4566; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + rsi + 4], 11
-	QUAD $0x04064c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rax + 4], 12
-	QUAD $0x041e4c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rbx + 4], 13
-	QUAD $0x040e4c203a0f4766; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + r9 + 4], 14
-	QUAD $0x04164c203a0f4566; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + rdx + 4], 15
-	LONG $0xe9740f66                           // pcmpeqb    xmm5, xmm1
-	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	LONG $0xf9740f66                           // pcmpeqb    xmm7, xmm1
-	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	LONG $0x74b60f41; WORD $0x1116             // movzx    esi, byte [r14 + rdx + 17]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x740f4466; BYTE $0xc9               // pcmpeqb    xmm9, xmm1
-	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xdf0f4466; BYTE $0xc8               // pandn    xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
-	LONG $0x74b60f41; WORD $0x1216             // movzx    esi, byte [r14 + rdx + 18]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
-	LONG $0xeb0f4466; BYTE $0xcb               // por    xmm9, xmm3
-	LONG $0x74b60f41; WORD $0x1316             // movzx    esi, byte [r14 + rdx + 19]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x051654203a0f4166; BYTE $0x01       // pinsrb    xmm2, byte [r14 + rdx + 5], 1
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x053e54203a0f4166; BYTE $0x02       // pinsrb    xmm2, byte [r14 + rdi + 5], 2
-	QUAD $0x053e54203a0f4366; BYTE $0x03       // pinsrb    xmm2, byte [r14 + r15 + 5], 3
-	QUAD $0x051e54203a0f4366; BYTE $0x04       // pinsrb    xmm2, byte [r14 + r11 + 5], 4
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	QUAD $0x052654203a0f4366; BYTE $0x05       // pinsrb    xmm2, byte [r14 + r12 + 5], 5
-	QUAD $0x051654203a0f4366; BYTE $0x06       // pinsrb    xmm2, byte [r14 + r10 + 5], 6
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	QUAD $0x050654203a0f4366; BYTE $0x07       // pinsrb    xmm2, byte [r14 + r8 + 5], 7
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x051e54203a0f4366; BYTE $0x08       // pinsrb    xmm2, byte [r14 + r11 + 5], 8
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x052654203a0f4366; BYTE $0x09       // pinsrb    xmm2, byte [r14 + r12 + 5], 9
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x053654203a0f4166; BYTE $0x0a       // pinsrb    xmm2, byte [r14 + rsi + 5], 10
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x050654203a0f4366; BYTE $0x0b       // pinsrb    xmm2, byte [r14 + r8 + 5], 11
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	QUAD $0x050654203a0f4166; BYTE $0x0c       // pinsrb    xmm2, byte [r14 + rax + 5], 12
-	QUAD $0x051e54203a0f4166; BYTE $0x0d       // pinsrb    xmm2, byte [r14 + rbx + 5], 13
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x053e54203a0f4366; BYTE $0x0e       // pinsrb    xmm2, byte [r14 + r15 + 5], 14
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x053e54203a0f4366; BYTE $0x0f       // pinsrb    xmm2, byte [r14 + r15 + 5], 15
-	QUAD $0x061644203a0f4566; BYTE $0x01       // pinsrb    xmm8, byte [r14 + rdx + 6], 1
-	QUAD $0x063e44203a0f4566; BYTE $0x02       // pinsrb    xmm8, byte [r14 + rdi + 6], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x060644203a0f4566; BYTE $0x03       // pinsrb    xmm8, byte [r14 + rax + 6], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x060644203a0f4566; BYTE $0x04       // pinsrb    xmm8, byte [r14 + rax + 6], 4
-	QUAD $0x060e44203a0f4766; BYTE $0x05       // pinsrb    xmm8, byte [r14 + r9 + 6], 5
-	QUAD $0x061644203a0f4766; BYTE $0x06       // pinsrb    xmm8, byte [r14 + r10 + 6], 6
-	QUAD $0x062e44203a0f4766; BYTE $0x07       // pinsrb    xmm8, byte [r14 + r13 + 6], 7
-	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
-	QUAD $0x0000008824ac894c                   // mov    qword [rsp + 136], r13
-	QUAD $0x061e44203a0f4766; BYTE $0x08       // pinsrb    xmm8, byte [r14 + r11 + 6], 8
-	QUAD $0x062644203a0f4766; BYTE $0x09       // pinsrb    xmm8, byte [r14 + r12 + 6], 9
-	QUAD $0x063644203a0f4566; BYTE $0x0a       // pinsrb    xmm8, byte [r14 + rsi + 6], 10
-	QUAD $0x060644203a0f4766; BYTE $0x0b       // pinsrb    xmm8, byte [r14 + r8 + 6], 11
-	QUAD $0x060e44203a0f4566; BYTE $0x0c       // pinsrb    xmm8, byte [r14 + rcx + 6], 12
-	QUAD $0x061e44203a0f4566; BYTE $0x0d       // pinsrb    xmm8, byte [r14 + rbx + 6], 13
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x062e44203a0f4766; BYTE $0x0e       // pinsrb    xmm8, byte [r14 + r13 + 6], 14
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	QUAD $0x063e44203a0f4766; BYTE $0x0f       // pinsrb    xmm8, byte [r14 + r15 + 6], 15
-	QUAD $0x071674203a0f4566; BYTE $0x01       // pinsrb    xmm14, byte [r14 + rdx + 7], 1
-	QUAD $0x073e74203a0f4566; BYTE $0x02       // pinsrb    xmm14, byte [r14 + rdi + 7], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x070674203a0f4566; BYTE $0x03       // pinsrb    xmm14, byte [r14 + rax + 7], 3
-	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x071e74203a0f4766; BYTE $0x04       // pinsrb    xmm14, byte [r14 + r11 + 7], 4
-	QUAD $0x070e74203a0f4766; BYTE $0x05       // pinsrb    xmm14, byte [r14 + r9 + 7], 5
-	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
-	QUAD $0x070e74203a0f4766; BYTE $0x06       // pinsrb    xmm14, byte [r14 + r9 + 7], 6
-	QUAD $0x071674203a0f4766; BYTE $0x07       // pinsrb    xmm14, byte [r14 + r10 + 7], 7
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x070674203a0f4566; BYTE $0x08       // pinsrb    xmm14, byte [r14 + rax + 7], 8
-	QUAD $0x072674203a0f4766; BYTE $0x09       // pinsrb    xmm14, byte [r14 + r12 + 7], 9
-	QUAD $0x073674203a0f4566; BYTE $0x0a       // pinsrb    xmm14, byte [r14 + rsi + 7], 10
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x070674203a0f4566; BYTE $0x0b       // pinsrb    xmm14, byte [r14 + rax + 7], 11
-	QUAD $0x070e74203a0f4566; BYTE $0x0c       // pinsrb    xmm14, byte [r14 + rcx + 7], 12
-	QUAD $0x071e74203a0f4566; BYTE $0x0d       // pinsrb    xmm14, byte [r14 + rbx + 7], 13
-	QUAD $0x072e74203a0f4766; BYTE $0x0e       // pinsrb    xmm14, byte [r14 + r13 + 7], 14
-	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
-	QUAD $0x00b024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI5_20] */
-	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI5_21] */
-	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	LONG $0x74b60f43; WORD $0x1416             // movzx    esi, byte [r14 + r10 + 20]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	QUAD $0x073e4c203a0f4366; BYTE $0x0f       // pinsrb    xmm1, byte [r14 + r15 + 7], 15
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	LONG $0x74b60f43; WORD $0x1516             // movzx    esi, byte [r14 + r10 + 21]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	QUAD $0x00010024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 256]
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x080e44203a0f4166; BYTE $0x01       // pinsrb    xmm0, byte [r14 + rcx + 8], 1
-	QUAD $0x083e44203a0f4166; BYTE $0x02       // pinsrb    xmm0, byte [r14 + rdi + 8], 2
-	WORD $0x8949; BYTE $0xd5                   // mov    r13, rdx
-	QUAD $0x081644203a0f4166; BYTE $0x03       // pinsrb    xmm0, byte [r14 + rdx + 8], 3
-	QUAD $0x081e44203a0f4366; BYTE $0x04       // pinsrb    xmm0, byte [r14 + r11 + 8], 4
-	WORD $0x894c; BYTE $0xda                   // mov    rdx, r11
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x080644203a0f4366; BYTE $0x05       // pinsrb    xmm0, byte [r14 + r8 + 8], 5
-	QUAD $0x080e44203a0f4366; BYTE $0x06       // pinsrb    xmm0, byte [r14 + r9 + 8], 6
-	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x083e44203a0f4166; BYTE $0x07       // pinsrb    xmm0, byte [r14 + rdi + 8], 7
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x081e44203a0f4166; BYTE $0x08       // pinsrb    xmm0, byte [r14 + rbx + 8], 8
-	QUAD $0x082644203a0f4366; BYTE $0x09       // pinsrb    xmm0, byte [r14 + r12 + 8], 9
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x083644203a0f4166; BYTE $0x0a       // pinsrb    xmm0, byte [r14 + rsi + 8], 10
-	QUAD $0x080644203a0f4166; BYTE $0x0b       // pinsrb    xmm0, byte [r14 + rax + 8], 11
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x080644203a0f4166; BYTE $0x0c       // pinsrb    xmm0, byte [r14 + rax + 8], 12
-	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
-	QUAD $0x080e44203a0f4366; BYTE $0x0d       // pinsrb    xmm0, byte [r14 + r9 + 8], 13
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x081e44203a0f4366; BYTE $0x0e       // pinsrb    xmm0, byte [r14 + r11 + 8], 14
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x083644203a0f4166; BYTE $0x0f       // pinsrb    xmm0, byte [r14 + rsi + 8], 15
-	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
-	QUAD $0x000100248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm1
-	LONG $0x74b60f43; WORD $0x1616             // movzx    esi, byte [r14 + r10 + 22]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x090e5c203a0f4566; BYTE $0x01       // pinsrb    xmm11, byte [r14 + rcx + 9], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x09065c203a0f4566; BYTE $0x02       // pinsrb    xmm11, byte [r14 + rax + 9], 2
-	QUAD $0x092e5c203a0f4766; BYTE $0x03       // pinsrb    xmm11, byte [r14 + r13 + 9], 3
-	QUAD $0x09165c203a0f4566; BYTE $0x04       // pinsrb    xmm11, byte [r14 + rdx + 9], 4
-	QUAD $0x09065c203a0f4766; BYTE $0x05       // pinsrb    xmm11, byte [r14 + r8 + 9], 5
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	QUAD $0x093e5c203a0f4766; BYTE $0x06       // pinsrb    xmm11, byte [r14 + r15 + 9], 6
-	QUAD $0x093e5c203a0f4566; BYTE $0x07       // pinsrb    xmm11, byte [r14 + rdi + 9], 7
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	QUAD $0x091e5c203a0f4566; BYTE $0x08       // pinsrb    xmm11, byte [r14 + rbx + 9], 8
-	QUAD $0x09265c203a0f4766; BYTE $0x09       // pinsrb    xmm11, byte [r14 + r12 + 9], 9
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x09365c203a0f4566; BYTE $0x0a       // pinsrb    xmm11, byte [r14 + rsi + 9], 10
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	QUAD $0x09165c203a0f4566; BYTE $0x0b       // pinsrb    xmm11, byte [r14 + rdx + 9], 11
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x093e5c203a0f4566; BYTE $0x0c       // pinsrb    xmm11, byte [r14 + rdi + 9], 12
-	QUAD $0x090e5c203a0f4766; BYTE $0x0d       // pinsrb    xmm11, byte [r14 + r9 + 9], 13
-	QUAD $0x091e5c203a0f4766; BYTE $0x0e       // pinsrb    xmm11, byte [r14 + r11 + 9], 14
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x09065c203a0f4766; BYTE $0x0f       // pinsrb    xmm11, byte [r14 + r8 + 9], 15
-	QUAD $0x0a0e64203a0f4566; BYTE $0x01       // pinsrb    xmm12, byte [r14 + rcx + 10], 1
-	QUAD $0x0a0664203a0f4566; BYTE $0x02       // pinsrb    xmm12, byte [r14 + rax + 10], 2
-	QUAD $0x0a2e64203a0f4766; BYTE $0x03       // pinsrb    xmm12, byte [r14 + r13 + 10], 3
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0a1e64203a0f4566; BYTE $0x04       // pinsrb    xmm12, byte [r14 + rbx + 10], 4
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0a2e64203a0f4766; BYTE $0x05       // pinsrb    xmm12, byte [r14 + r13 + 10], 5
-	QUAD $0x0a1664203a0f4766; BYTE $0x06       // pinsrb    xmm12, byte [r14 + r10 + 10], 6
-	QUAD $0x0a3e64203a0f4766; BYTE $0x07       // pinsrb    xmm12, byte [r14 + r15 + 10], 7
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0a1e64203a0f4566; BYTE $0x08       // pinsrb    xmm12, byte [r14 + rbx + 10], 8
-	QUAD $0x0a2664203a0f4766; BYTE $0x09       // pinsrb    xmm12, byte [r14 + r12 + 10], 9
-	QUAD $0x0a3664203a0f4566; BYTE $0x0a       // pinsrb    xmm12, byte [r14 + rsi + 10], 10
-	QUAD $0x0a1664203a0f4566; BYTE $0x0b       // pinsrb    xmm12, byte [r14 + rdx + 10], 11
-	QUAD $0x0a3e64203a0f4566; BYTE $0x0c       // pinsrb    xmm12, byte [r14 + rdi + 10], 12
-	QUAD $0x0a0e64203a0f4766; BYTE $0x0d       // pinsrb    xmm12, byte [r14 + r9 + 10], 13
-	QUAD $0x0a1e64203a0f4766; BYTE $0x0e       // pinsrb    xmm12, byte [r14 + r11 + 10], 14
-	QUAD $0x0a0664203a0f4766; BYTE $0x0f       // pinsrb    xmm12, byte [r14 + r8 + 10], 15
-	QUAD $0x0b0e6c203a0f4566; BYTE $0x01       // pinsrb    xmm13, byte [r14 + rcx + 11], 1
-	QUAD $0x0b066c203a0f4566; BYTE $0x02       // pinsrb    xmm13, byte [r14 + rax + 11], 2
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0b066c203a0f4566; BYTE $0x03       // pinsrb    xmm13, byte [r14 + rax + 11], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0b066c203a0f4566; BYTE $0x04       // pinsrb    xmm13, byte [r14 + rax + 11], 4
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0b066c203a0f4566; BYTE $0x05       // pinsrb    xmm13, byte [r14 + rax + 11], 5
-	QUAD $0x0b166c203a0f4766; BYTE $0x06       // pinsrb    xmm13, byte [r14 + r10 + 11], 6
-	QUAD $0x0b3e6c203a0f4766; BYTE $0x07       // pinsrb    xmm13, byte [r14 + r15 + 11], 7
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0b2e6c203a0f4766; BYTE $0x08       // pinsrb    xmm13, byte [r14 + r13 + 11], 8
-	QUAD $0x0b266c203a0f4766; BYTE $0x09       // pinsrb    xmm13, byte [r14 + r12 + 11], 9
-	QUAD $0x0b366c203a0f4566; BYTE $0x0a       // pinsrb    xmm13, byte [r14 + rsi + 11], 10
-	QUAD $0x0b166c203a0f4566; BYTE $0x0b       // pinsrb    xmm13, byte [r14 + rdx + 11], 11
-	QUAD $0x0b3e6c203a0f4566; BYTE $0x0c       // pinsrb    xmm13, byte [r14 + rdi + 11], 12
-	QUAD $0x0b0e6c203a0f4766; BYTE $0x0d       // pinsrb    xmm13, byte [r14 + r9 + 11], 13
-	QUAD $0x0b1e6c203a0f4766; BYTE $0x0e       // pinsrb    xmm13, byte [r14 + r11 + 11], 14
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x0b066c203a0f4766; BYTE $0x0f       // pinsrb    xmm13, byte [r14 + r8 + 11], 15
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xfc0f4466; BYTE $0xd8               // paddb    xmm11, xmm0
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	LONG $0x74b60f41; WORD $0x171e             // movzx    esi, byte [r14 + rbx + 23]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x74b60f41; WORD $0x181e             // movzx    esi, byte [r14 + rbx + 24]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	QUAD $0x00e0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 224]
-	QUAD $0x0c0e4c203a0f4566; BYTE $0x01       // pinsrb    xmm9, byte [r14 + rcx + 12], 1
-	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
-	QUAD $0x0c264c203a0f4766; BYTE $0x02       // pinsrb    xmm9, byte [r14 + r12 + 12], 2
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0c3e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 12], 3
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0c1e4c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rbx + 12], 4
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x0c0e4c203a0f4766; BYTE $0x05       // pinsrb    xmm9, byte [r14 + r9 + 12], 5
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	QUAD $0x0c164c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r10 + 12], 6
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0c1e4c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r11 + 12], 7
-	QUAD $0x0c2e4c203a0f4766; BYTE $0x08       // pinsrb    xmm9, byte [r14 + r13 + 12], 8
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0c0e4c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rcx + 12], 9
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x0c164c203a0f4766; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + r10 + 12], 10
-	QUAD $0x0c164c203a0f4566; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + rdx + 12], 11
-	QUAD $0x0c3e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rdi + 12], 12
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0c364c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rsi + 12], 13
-	QUAD $0x0c064c203a0f4566; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + rax + 12], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0c064c203a0f4566; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + rax + 12], 15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0d0674203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rax + 13], 1
-	QUAD $0x0d2674203a0f4366; BYTE $0x02       // pinsrb    xmm6, byte [r14 + r12 + 13], 2
-	QUAD $0x0d3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 13], 3
-	QUAD $0x0d1e74203a0f4166; BYTE $0x04       // pinsrb    xmm6, byte [r14 + rbx + 13], 4
-	QUAD $0x0d0e74203a0f4366; BYTE $0x05       // pinsrb    xmm6, byte [r14 + r9 + 13], 5
-	QUAD $0x0d0674203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r8 + 13], 6
-	QUAD $0x0d1e74203a0f4366; BYTE $0x07       // pinsrb    xmm6, byte [r14 + r11 + 13], 7
-	QUAD $0x0d2e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r13 + 13], 8
-	QUAD $0x0d0e74203a0f4166; BYTE $0x09       // pinsrb    xmm6, byte [r14 + rcx + 13], 9
-	QUAD $0x0d1674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r10 + 13], 10
-	QUAD $0x0d1674203a0f4166; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + rdx + 13], 11
-	QUAD $0x0d3e74203a0f4166; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + rdi + 13], 12
-	QUAD $0x0d3674203a0f4166; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + rsi + 13], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0d0674203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rax + 13], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0d0674203a0f4166; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + rax + 13], 15
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e067c203a0f4566; BYTE $0x01       // pinsrb    xmm15, byte [r14 + rax + 14], 1
-	QUAD $0x0e267c203a0f4766; BYTE $0x02       // pinsrb    xmm15, byte [r14 + r12 + 14], 2
-	QUAD $0x0e3e7c203a0f4766; BYTE $0x03       // pinsrb    xmm15, byte [r14 + r15 + 14], 3
-	QUAD $0x0e1e7c203a0f4566; BYTE $0x04       // pinsrb    xmm15, byte [r14 + rbx + 14], 4
-	QUAD $0x0e0e7c203a0f4766; BYTE $0x05       // pinsrb    xmm15, byte [r14 + r9 + 14], 5
-	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
-	QUAD $0x0e067c203a0f4766; BYTE $0x06       // pinsrb    xmm15, byte [r14 + r8 + 14], 6
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x0e1e7c203a0f4766; BYTE $0x07       // pinsrb    xmm15, byte [r14 + r11 + 14], 7
-	QUAD $0x0e2e7c203a0f4766; BYTE $0x08       // pinsrb    xmm15, byte [r14 + r13 + 14], 8
-	QUAD $0x0e0e7c203a0f4566; BYTE $0x09       // pinsrb    xmm15, byte [r14 + rcx + 14], 9
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	QUAD $0x0e167c203a0f4766; BYTE $0x0a       // pinsrb    xmm15, byte [r14 + r10 + 14], 10
-	QUAD $0x0e167c203a0f4566; BYTE $0x0b       // pinsrb    xmm15, byte [r14 + rdx + 14], 11
-	QUAD $0x0e3e7c203a0f4566; BYTE $0x0c       // pinsrb    xmm15, byte [r14 + rdi + 14], 12
-	QUAD $0x0e367c203a0f4566; BYTE $0x0d       // pinsrb    xmm15, byte [r14 + rsi + 14], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e067c203a0f4566; BYTE $0x0e       // pinsrb    xmm15, byte [r14 + rax + 14], 14
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x74b60f41; WORD $0x1906             // movzx    esi, byte [r14 + rax + 25]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	QUAD $0x0001609df80f4466; BYTE $0x00       // psubb    xmm11, oword 352[rbp] /* [rip + .LCPI5_22] */
-	LONG $0xeb0f4566; BYTE $0xcb               // por    xmm9, xmm11
-	LONG $0x74b60f41; WORD $0x1a06             // movzx    esi, byte [r14 + rax + 26]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e0e7c203a0f4566; BYTE $0x0f       // pinsrb    xmm15, byte [r14 + rcx + 14], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	QUAD $0x00000140b5df0f66                   // pandn    xmm6, oword 320[rbp] /* [rip + .LCPI5_20] */
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI5_21] */
-	LONG $0xeb0f4466; BYTE $0xfe               // por    xmm15, xmm6
-	LONG $0x74b60f41; WORD $0x1b06             // movzx    esi, byte [r14 + rax + 27]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x0000c024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 192]
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x0f3e74203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rdi + 15], 1
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x0f0e74203a0f4366; BYTE $0x02       // pinsrb    xmm6, byte [r14 + r9 + 15], 2
-	QUAD $0x0f3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 15], 3
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x0f0674203a0f4366; BYTE $0x04       // pinsrb    xmm6, byte [r14 + r8 + 15], 4
-	QUAD $0x0f1e74203a0f4166; BYTE $0x05       // pinsrb    xmm6, byte [r14 + rbx + 15], 5
-	QUAD $0x0f2674203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r12 + 15], 6
-	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
-	QUAD $0x0f3674203a0f4166; BYTE $0x07       // pinsrb    xmm6, byte [r14 + rsi + 15], 7
-	WORD $0x894d; BYTE $0xef                   // mov    r15, r13
-	QUAD $0x0f2e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r13 + 15], 8
-	QUAD $0x0f1e74203a0f4366; BYTE $0x09       // pinsrb    xmm6, byte [r14 + r11 + 15], 9
-	QUAD $0x0f1674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r10 + 15], 10
-	QUAD $0x0f1674203a0f4166; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + rdx + 15], 11
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0f1674203a0f4366; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + r10 + 15], 12
-	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
-	QUAD $0x0f2e74203a0f4366; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + r13 + 15], 13
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0f1674203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rdx + 15], 14
-	QUAD $0x0f0e74203a0f4166; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + rcx + 15], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x74b60f41; WORD $0x1c06             // movzx    esi, byte [r14 + rax + 28]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
-	QUAD $0x0000c024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm6
-	LONG $0x74b60f41; WORD $0x1d06             // movzx    esi, byte [r14 + rax + 29]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
-	QUAD $0x103e54203a0f4566; BYTE $0x01       // pinsrb    xmm10, byte [r14 + rdi + 16], 1
-	QUAD $0x100e54203a0f4766; BYTE $0x02       // pinsrb    xmm10, byte [r14 + r9 + 16], 2
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x101654203a0f4566; BYTE $0x03       // pinsrb    xmm10, byte [r14 + rdx + 16], 3
-	QUAD $0x100654203a0f4766; BYTE $0x04       // pinsrb    xmm10, byte [r14 + r8 + 16], 4
-	QUAD $0x101e54203a0f4566; BYTE $0x05       // pinsrb    xmm10, byte [r14 + rbx + 16], 5
-	QUAD $0x102654203a0f4766; BYTE $0x06       // pinsrb    xmm10, byte [r14 + r12 + 16], 6
-	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
-	QUAD $0x103e54203a0f4566; BYTE $0x07       // pinsrb    xmm10, byte [r14 + rdi + 16], 7
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	QUAD $0x103e54203a0f4766; BYTE $0x08       // pinsrb    xmm10, byte [r14 + r15 + 16], 8
-	QUAD $0x101e54203a0f4766; BYTE $0x09       // pinsrb    xmm10, byte [r14 + r11 + 16], 9
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x103e54203a0f4766; BYTE $0x0a       // pinsrb    xmm10, byte [r14 + r15 + 16], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x100e54203a0f4566; BYTE $0x0b       // pinsrb    xmm10, byte [r14 + rcx + 16], 11
-	QUAD $0x101654203a0f4766; BYTE $0x0c       // pinsrb    xmm10, byte [r14 + r10 + 16], 12
-	QUAD $0x102e54203a0f4766; BYTE $0x0d       // pinsrb    xmm10, byte [r14 + r13 + 16], 13
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x100e54203a0f4566; BYTE $0x0e       // pinsrb    xmm10, byte [r14 + rcx + 16], 14
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x102e54203a0f4766; BYTE $0x0f       // pinsrb    xmm10, byte [r14 + r13 + 16], 15
-	QUAD $0x113664203a0f4166; BYTE $0x01       // pinsrb    xmm4, byte [r14 + rsi + 17], 1
-	QUAD $0x110e64203a0f4366; BYTE $0x02       // pinsrb    xmm4, byte [r14 + r9 + 17], 2
-	QUAD $0x111664203a0f4166; BYTE $0x03       // pinsrb    xmm4, byte [r14 + rdx + 17], 3
-	QUAD $0x110664203a0f4366; BYTE $0x04       // pinsrb    xmm4, byte [r14 + r8 + 17], 4
-	QUAD $0x111e64203a0f4166; BYTE $0x05       // pinsrb    xmm4, byte [r14 + rbx + 17], 5
-	QUAD $0x112664203a0f4366; BYTE $0x06       // pinsrb    xmm4, byte [r14 + r12 + 17], 6
-	QUAD $0x113e64203a0f4166; BYTE $0x07       // pinsrb    xmm4, byte [r14 + rdi + 17], 7
-	QUAD $0x110664203a0f4166; BYTE $0x08       // pinsrb    xmm4, byte [r14 + rax + 17], 8
-	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
-	QUAD $0x111e64203a0f4366; BYTE $0x09       // pinsrb    xmm4, byte [r14 + r11 + 17], 9
-	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
-	QUAD $0x113e64203a0f4366; BYTE $0x0a       // pinsrb    xmm4, byte [r14 + r15 + 17], 10
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x110664203a0f4366; BYTE $0x0b       // pinsrb    xmm4, byte [r14 + r8 + 17], 11
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x113e64203a0f4166; BYTE $0x0c       // pinsrb    xmm4, byte [r14 + rdi + 17], 12
-	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
-	QUAD $0x111664203a0f4166; BYTE $0x0d       // pinsrb    xmm4, byte [r14 + rdx + 17], 13
-	QUAD $0x110e64203a0f4166; BYTE $0x0e       // pinsrb    xmm4, byte [r14 + rcx + 17], 14
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	QUAD $0x112e64203a0f4366; BYTE $0x0f       // pinsrb    xmm4, byte [r14 + r13 + 17], 15
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0x740f4166; BYTE $0xe6               // pcmpeqb    xmm4, xmm14
-	QUAD $0x00000100b56f0f66                   // movdqa    xmm6, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xe6df0f66                           // pandn    xmm4, xmm6
-	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x74b60f41; WORD $0x1e06             // movzx    esi, byte [r14 + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x12367c203a0f4166; BYTE $0x01       // pinsrb    xmm7, byte [r14 + rsi + 18], 1
-	QUAD $0x13366c203a0f4166; BYTE $0x01       // pinsrb    xmm5, byte [r14 + rsi + 19], 1
-	QUAD $0x14365c203a0f4166; BYTE $0x01       // pinsrb    xmm3, byte [r14 + rsi + 20], 1
-	QUAD $0x153654203a0f4166; BYTE $0x01       // pinsrb    xmm2, byte [r14 + rsi + 21], 1
-	QUAD $0x16364c203a0f4166; BYTE $0x01       // pinsrb    xmm1, byte [r14 + rsi + 22], 1
-	QUAD $0x173644203a0f4566; BYTE $0x01       // pinsrb    xmm8, byte [r14 + rsi + 23], 1
-	QUAD $0x183664203a0f4566; BYTE $0x01       // pinsrb    xmm12, byte [r14 + rsi + 24], 1
-	QUAD $0x19366c203a0f4566; BYTE $0x01       // pinsrb    xmm13, byte [r14 + rsi + 25], 1
-	QUAD $0x1a3644203a0f4166; BYTE $0x01       // pinsrb    xmm0, byte [r14 + rsi + 26], 1
-	QUAD $0x1b365c203a0f4566; BYTE $0x01       // pinsrb    xmm11, byte [r14 + rsi + 27], 1
-	QUAD $0x1c367c203a0f4566; BYTE $0x01       // pinsrb    xmm15, byte [r14 + rsi + 28], 1
-	QUAD $0x1d364c203a0f4566; BYTE $0x01       // pinsrb    xmm9, byte [r14 + rsi + 29], 1
-	QUAD $0x1e3654203a0f4566; BYTE $0x01       // pinsrb    xmm10, byte [r14 + rsi + 30], 1
-	LONG $0x44b60f41; WORD $0x1f06             // movzx    eax, byte [r14 + rax + 31]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	QUAD $0x1f3674203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rsi + 31], 1
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x12067c203a0f4166; BYTE $0x02       // pinsrb    xmm7, byte [r14 + rax + 18], 2
-	QUAD $0x13066c203a0f4166; BYTE $0x02       // pinsrb    xmm5, byte [r14 + rax + 19], 2
-	QUAD $0x14065c203a0f4166; BYTE $0x02       // pinsrb    xmm3, byte [r14 + rax + 20], 2
-	QUAD $0x150654203a0f4166; BYTE $0x02       // pinsrb    xmm2, byte [r14 + rax + 21], 2
-	QUAD $0x16064c203a0f4166; BYTE $0x02       // pinsrb    xmm1, byte [r14 + rax + 22], 2
-	QUAD $0x170644203a0f4566; BYTE $0x02       // pinsrb    xmm8, byte [r14 + rax + 23], 2
-	QUAD $0x180664203a0f4566; BYTE $0x02       // pinsrb    xmm12, byte [r14 + rax + 24], 2
-	QUAD $0x19066c203a0f4566; BYTE $0x02       // pinsrb    xmm13, byte [r14 + rax + 25], 2
-	QUAD $0x1a0644203a0f4166; BYTE $0x02       // pinsrb    xmm0, byte [r14 + rax + 26], 2
-	QUAD $0x1b065c203a0f4566; BYTE $0x02       // pinsrb    xmm11, byte [r14 + rax + 27], 2
-	QUAD $0x1c067c203a0f4566; BYTE $0x02       // pinsrb    xmm15, byte [r14 + rax + 28], 2
-	QUAD $0x1d064c203a0f4566; BYTE $0x02       // pinsrb    xmm9, byte [r14 + rax + 29], 2
-	QUAD $0x1e0654203a0f4566; BYTE $0x02       // pinsrb    xmm10, byte [r14 + rax + 30], 2
-	QUAD $0x1f0674203a0f4166; BYTE $0x02       // pinsrb    xmm6, byte [r14 + rax + 31], 2
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x123e7c203a0f4366; BYTE $0x03       // pinsrb    xmm7, byte [r14 + r15 + 18], 3
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x12067c203a0f4166; BYTE $0x04       // pinsrb    xmm7, byte [r14 + rax + 18], 4
-	QUAD $0x121e7c203a0f4166; BYTE $0x05       // pinsrb    xmm7, byte [r14 + rbx + 18], 5
-	QUAD $0x12267c203a0f4366; BYTE $0x06       // pinsrb    xmm7, byte [r14 + r12 + 18], 6
-	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
-	QUAD $0x120e7c203a0f4166; BYTE $0x07       // pinsrb    xmm7, byte [r14 + rcx + 18], 7
-	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
-	QUAD $0x12367c203a0f4166; BYTE $0x08       // pinsrb    xmm7, byte [r14 + rsi + 18], 8
-	QUAD $0x120e7c203a0f4366; BYTE $0x09       // pinsrb    xmm7, byte [r14 + r9 + 18], 9
-	QUAD $0x12167c203a0f4366; BYTE $0x0a       // pinsrb    xmm7, byte [r14 + r10 + 18], 10
-	QUAD $0x12067c203a0f4366; BYTE $0x0b       // pinsrb    xmm7, byte [r14 + r8 + 18], 11
-	QUAD $0x123e7c203a0f4166; BYTE $0x0c       // pinsrb    xmm7, byte [r14 + rdi + 18], 12
-	QUAD $0x12167c203a0f4166; BYTE $0x0d       // pinsrb    xmm7, byte [r14 + rdx + 18], 13
-	QUAD $0x121e7c203a0f4366; BYTE $0x0e       // pinsrb    xmm7, byte [r14 + r11 + 18], 14
-	QUAD $0x122e7c203a0f4366; BYTE $0x0f       // pinsrb    xmm7, byte [r14 + r13 + 18], 15
-	QUAD $0x133e6c203a0f4366; BYTE $0x03       // pinsrb    xmm5, byte [r14 + r15 + 19], 3
-	QUAD $0x13066c203a0f4166; BYTE $0x04       // pinsrb    xmm5, byte [r14 + rax + 19], 4
-	QUAD $0x131e6c203a0f4166; BYTE $0x05       // pinsrb    xmm5, byte [r14 + rbx + 19], 5
-	QUAD $0x13266c203a0f4366; BYTE $0x06       // pinsrb    xmm5, byte [r14 + r12 + 19], 6
-	QUAD $0x130e6c203a0f4166; BYTE $0x07       // pinsrb    xmm5, byte [r14 + rcx + 19], 7
-	QUAD $0x13366c203a0f4166; BYTE $0x08       // pinsrb    xmm5, byte [r14 + rsi + 19], 8
-	QUAD $0x130e6c203a0f4366; BYTE $0x09       // pinsrb    xmm5, byte [r14 + r9 + 19], 9
-	QUAD $0x13166c203a0f4366; BYTE $0x0a       // pinsrb    xmm5, byte [r14 + r10 + 19], 10
-	QUAD $0x13066c203a0f4366; BYTE $0x0b       // pinsrb    xmm5, byte [r14 + r8 + 19], 11
-	QUAD $0x133e6c203a0f4166; BYTE $0x0c       // pinsrb    xmm5, byte [r14 + rdi + 19], 12
-	QUAD $0x13166c203a0f4166; BYTE $0x0d       // pinsrb    xmm5, byte [r14 + rdx + 19], 13
-	QUAD $0x131e6c203a0f4366; BYTE $0x0e       // pinsrb    xmm5, byte [r14 + r11 + 19], 14
-	QUAD $0x132e6c203a0f4366; BYTE $0x0f       // pinsrb    xmm5, byte [r14 + r13 + 19], 15
-	QUAD $0x143e5c203a0f4366; BYTE $0x03       // pinsrb    xmm3, byte [r14 + r15 + 20], 3
-	QUAD $0x14065c203a0f4166; BYTE $0x04       // pinsrb    xmm3, byte [r14 + rax + 20], 4
-	QUAD $0x141e5c203a0f4166; BYTE $0x05       // pinsrb    xmm3, byte [r14 + rbx + 20], 5
-	QUAD $0x14265c203a0f4366; BYTE $0x06       // pinsrb    xmm3, byte [r14 + r12 + 20], 6
-	QUAD $0x140e5c203a0f4166; BYTE $0x07       // pinsrb    xmm3, byte [r14 + rcx + 20], 7
-	QUAD $0x14365c203a0f4166; BYTE $0x08       // pinsrb    xmm3, byte [r14 + rsi + 20], 8
-	QUAD $0x140e5c203a0f4366; BYTE $0x09       // pinsrb    xmm3, byte [r14 + r9 + 20], 9
-	QUAD $0x14165c203a0f4366; BYTE $0x0a       // pinsrb    xmm3, byte [r14 + r10 + 20], 10
-	QUAD $0x14065c203a0f4366; BYTE $0x0b       // pinsrb    xmm3, byte [r14 + r8 + 20], 11
-	QUAD $0x143e5c203a0f4166; BYTE $0x0c       // pinsrb    xmm3, byte [r14 + rdi + 20], 12
-	QUAD $0x14165c203a0f4166; BYTE $0x0d       // pinsrb    xmm3, byte [r14 + rdx + 20], 13
-	QUAD $0x141e5c203a0f4366; BYTE $0x0e       // pinsrb    xmm3, byte [r14 + r11 + 20], 14
-	LONG $0x740f4166; BYTE $0xfe               // pcmpeqb    xmm7, xmm14
-	QUAD $0x000110b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0xdf0f4166; BYTE $0xfe               // pandn    xmm7, xmm14
-	QUAD $0x0000b024ac740f66; BYTE $0x00       // pcmpeqb    xmm5, oword [rsp + 176]
-	QUAD $0x000120b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xdf0f4166; BYTE $0xee               // pandn    xmm5, xmm14
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0x142e5c203a0f4366; BYTE $0x0f       // pinsrb    xmm3, byte [r14 + r13 + 20], 15
-	QUAD $0x00b024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xde               // pcmpeqb    xmm3, xmm14
-	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	QUAD $0x153e54203a0f4366; BYTE $0x03       // pinsrb    xmm2, byte [r14 + r15 + 21], 3
-	QUAD $0x150654203a0f4166; BYTE $0x04       // pinsrb    xmm2, byte [r14 + rax + 21], 4
-	QUAD $0x151e54203a0f4166; BYTE $0x05       // pinsrb    xmm2, byte [r14 + rbx + 21], 5
-	QUAD $0x152654203a0f4366; BYTE $0x06       // pinsrb    xmm2, byte [r14 + r12 + 21], 6
-	QUAD $0x150e54203a0f4166; BYTE $0x07       // pinsrb    xmm2, byte [r14 + rcx + 21], 7
-	QUAD $0x153654203a0f4166; BYTE $0x08       // pinsrb    xmm2, byte [r14 + rsi + 21], 8
-	QUAD $0x150e54203a0f4366; BYTE $0x09       // pinsrb    xmm2, byte [r14 + r9 + 21], 9
-	QUAD $0x151654203a0f4366; BYTE $0x0a       // pinsrb    xmm2, byte [r14 + r10 + 21], 10
-	QUAD $0x150654203a0f4366; BYTE $0x0b       // pinsrb    xmm2, byte [r14 + r8 + 21], 11
-	QUAD $0x153e54203a0f4166; BYTE $0x0c       // pinsrb    xmm2, byte [r14 + rdi + 21], 12
-	QUAD $0x151654203a0f4166; BYTE $0x0d       // pinsrb    xmm2, byte [r14 + rdx + 21], 13
-	QUAD $0x151e54203a0f4366; BYTE $0x0e       // pinsrb    xmm2, byte [r14 + r11 + 21], 14
-	QUAD $0x152e54203a0f4366; BYTE $0x0f       // pinsrb    xmm2, byte [r14 + r13 + 21], 15
-	QUAD $0x163e4c203a0f4366; BYTE $0x03       // pinsrb    xmm1, byte [r14 + r15 + 22], 3
-	QUAD $0x16064c203a0f4166; BYTE $0x04       // pinsrb    xmm1, byte [r14 + rax + 22], 4
-	QUAD $0x161e4c203a0f4166; BYTE $0x05       // pinsrb    xmm1, byte [r14 + rbx + 22], 5
-	QUAD $0x16264c203a0f4366; BYTE $0x06       // pinsrb    xmm1, byte [r14 + r12 + 22], 6
-	QUAD $0x160e4c203a0f4166; BYTE $0x07       // pinsrb    xmm1, byte [r14 + rcx + 22], 7
-	QUAD $0x16364c203a0f4166; BYTE $0x08       // pinsrb    xmm1, byte [r14 + rsi + 22], 8
-	QUAD $0x160e4c203a0f4366; BYTE $0x09       // pinsrb    xmm1, byte [r14 + r9 + 22], 9
-	QUAD $0x16164c203a0f4366; BYTE $0x0a       // pinsrb    xmm1, byte [r14 + r10 + 22], 10
-	QUAD $0x16064c203a0f4366; BYTE $0x0b       // pinsrb    xmm1, byte [r14 + r8 + 22], 11
-	QUAD $0x163e4c203a0f4166; BYTE $0x0c       // pinsrb    xmm1, byte [r14 + rdi + 22], 12
-	QUAD $0x16164c203a0f4166; BYTE $0x0d       // pinsrb    xmm1, byte [r14 + rdx + 22], 13
-	QUAD $0x161e4c203a0f4366; BYTE $0x0e       // pinsrb    xmm1, byte [r14 + r11 + 22], 14
-	QUAD $0x162e4c203a0f4366; BYTE $0x0f       // pinsrb    xmm1, byte [r14 + r13 + 22], 15
-	QUAD $0x173e44203a0f4766; BYTE $0x03       // pinsrb    xmm8, byte [r14 + r15 + 23], 3
-	QUAD $0x170644203a0f4566; BYTE $0x04       // pinsrb    xmm8, byte [r14 + rax + 23], 4
-	QUAD $0x171e44203a0f4566; BYTE $0x05       // pinsrb    xmm8, byte [r14 + rbx + 23], 5
-	QUAD $0x172644203a0f4766; BYTE $0x06       // pinsrb    xmm8, byte [r14 + r12 + 23], 6
-	QUAD $0x170e44203a0f4566; BYTE $0x07       // pinsrb    xmm8, byte [r14 + rcx + 23], 7
-	QUAD $0x173644203a0f4566; BYTE $0x08       // pinsrb    xmm8, byte [r14 + rsi + 23], 8
-	QUAD $0x170e44203a0f4766; BYTE $0x09       // pinsrb    xmm8, byte [r14 + r9 + 23], 9
-	QUAD $0x171644203a0f4766; BYTE $0x0a       // pinsrb    xmm8, byte [r14 + r10 + 23], 10
-	QUAD $0x170644203a0f4766; BYTE $0x0b       // pinsrb    xmm8, byte [r14 + r8 + 23], 11
-	QUAD $0x173e44203a0f4566; BYTE $0x0c       // pinsrb    xmm8, byte [r14 + rdi + 23], 12
-	QUAD $0x171644203a0f4566; BYTE $0x0d       // pinsrb    xmm8, byte [r14 + rdx + 23], 13
-	QUAD $0x171e44203a0f4766; BYTE $0x0e       // pinsrb    xmm8, byte [r14 + r11 + 23], 14
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI5_20] */
-	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI5_21] */
-	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x172e44203a0f4766; BYTE $0x0f       // pinsrb    xmm8, byte [r14 + r13 + 23], 15
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	QUAD $0x183e64203a0f4766; BYTE $0x03       // pinsrb    xmm12, byte [r14 + r15 + 24], 3
-	QUAD $0x180664203a0f4566; BYTE $0x04       // pinsrb    xmm12, byte [r14 + rax + 24], 4
-	QUAD $0x181e64203a0f4566; BYTE $0x05       // pinsrb    xmm12, byte [r14 + rbx + 24], 5
-	QUAD $0x182664203a0f4766; BYTE $0x06       // pinsrb    xmm12, byte [r14 + r12 + 24], 6
-	QUAD $0x180e64203a0f4566; BYTE $0x07       // pinsrb    xmm12, byte [r14 + rcx + 24], 7
-	QUAD $0x183664203a0f4566; BYTE $0x08       // pinsrb    xmm12, byte [r14 + rsi + 24], 8
-	QUAD $0x180e64203a0f4766; BYTE $0x09       // pinsrb    xmm12, byte [r14 + r9 + 24], 9
-	QUAD $0x181664203a0f4766; BYTE $0x0a       // pinsrb    xmm12, byte [r14 + r10 + 24], 10
-	QUAD $0x180664203a0f4766; BYTE $0x0b       // pinsrb    xmm12, byte [r14 + r8 + 24], 11
-	QUAD $0x183e64203a0f4566; BYTE $0x0c       // pinsrb    xmm12, byte [r14 + rdi + 24], 12
-	QUAD $0x181664203a0f4566; BYTE $0x0d       // pinsrb    xmm12, byte [r14 + rdx + 24], 13
-	QUAD $0x181e64203a0f4766; BYTE $0x0e       // pinsrb    xmm12, byte [r14 + r11 + 24], 14
-	QUAD $0x182e64203a0f4766; BYTE $0x0f       // pinsrb    xmm12, byte [r14 + r13 + 24], 15
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x193e6c203a0f4766; BYTE $0x03       // pinsrb    xmm13, byte [r14 + r15 + 25], 3
-	QUAD $0x19066c203a0f4566; BYTE $0x04       // pinsrb    xmm13, byte [r14 + rax + 25], 4
-	QUAD $0x191e6c203a0f4566; BYTE $0x05       // pinsrb    xmm13, byte [r14 + rbx + 25], 5
-	QUAD $0x19266c203a0f4766; BYTE $0x06       // pinsrb    xmm13, byte [r14 + r12 + 25], 6
-	QUAD $0x190e6c203a0f4566; BYTE $0x07       // pinsrb    xmm13, byte [r14 + rcx + 25], 7
-	QUAD $0x19366c203a0f4566; BYTE $0x08       // pinsrb    xmm13, byte [r14 + rsi + 25], 8
-	QUAD $0x190e6c203a0f4766; BYTE $0x09       // pinsrb    xmm13, byte [r14 + r9 + 25], 9
-	QUAD $0x19166c203a0f4766; BYTE $0x0a       // pinsrb    xmm13, byte [r14 + r10 + 25], 10
-	QUAD $0x19066c203a0f4766; BYTE $0x0b       // pinsrb    xmm13, byte [r14 + r8 + 25], 11
-	QUAD $0x193e6c203a0f4566; BYTE $0x0c       // pinsrb    xmm13, byte [r14 + rdi + 25], 12
-	QUAD $0x19166c203a0f4566; BYTE $0x0d       // pinsrb    xmm13, byte [r14 + rdx + 25], 13
-	QUAD $0x191e6c203a0f4766; BYTE $0x0e       // pinsrb    xmm13, byte [r14 + r11 + 25], 14
-	QUAD $0x192e6c203a0f4766; BYTE $0x0f       // pinsrb    xmm13, byte [r14 + r13 + 25], 15
-	QUAD $0x1a3e44203a0f4366; BYTE $0x03       // pinsrb    xmm0, byte [r14 + r15 + 26], 3
-	QUAD $0x1a0644203a0f4166; BYTE $0x04       // pinsrb    xmm0, byte [r14 + rax + 26], 4
-	QUAD $0x1a1e44203a0f4166; BYTE $0x05       // pinsrb    xmm0, byte [r14 + rbx + 26], 5
-	QUAD $0x1a2644203a0f4366; BYTE $0x06       // pinsrb    xmm0, byte [r14 + r12 + 26], 6
-	QUAD $0x1a0e44203a0f4166; BYTE $0x07       // pinsrb    xmm0, byte [r14 + rcx + 26], 7
-	QUAD $0x1a3644203a0f4166; BYTE $0x08       // pinsrb    xmm0, byte [r14 + rsi + 26], 8
-	QUAD $0x1a0e44203a0f4366; BYTE $0x09       // pinsrb    xmm0, byte [r14 + r9 + 26], 9
-	QUAD $0x1a1644203a0f4366; BYTE $0x0a       // pinsrb    xmm0, byte [r14 + r10 + 26], 10
-	QUAD $0x1a0644203a0f4366; BYTE $0x0b       // pinsrb    xmm0, byte [r14 + r8 + 26], 11
-	QUAD $0x1a3e44203a0f4166; BYTE $0x0c       // pinsrb    xmm0, byte [r14 + rdi + 26], 12
-	QUAD $0x1a1644203a0f4166; BYTE $0x0d       // pinsrb    xmm0, byte [r14 + rdx + 26], 13
-	QUAD $0x1a1e44203a0f4366; BYTE $0x0e       // pinsrb    xmm0, byte [r14 + r11 + 26], 14
-	QUAD $0x1a2e44203a0f4366; BYTE $0x0f       // pinsrb    xmm0, byte [r14 + r13 + 26], 15
-	QUAD $0x1b3e5c203a0f4766; BYTE $0x03       // pinsrb    xmm11, byte [r14 + r15 + 27], 3
-	QUAD $0x1b065c203a0f4566; BYTE $0x04       // pinsrb    xmm11, byte [r14 + rax + 27], 4
-	QUAD $0x1b1e5c203a0f4566; BYTE $0x05       // pinsrb    xmm11, byte [r14 + rbx + 27], 5
-	QUAD $0x1b265c203a0f4766; BYTE $0x06       // pinsrb    xmm11, byte [r14 + r12 + 27], 6
-	QUAD $0x1b0e5c203a0f4566; BYTE $0x07       // pinsrb    xmm11, byte [r14 + rcx + 27], 7
-	QUAD $0x1b365c203a0f4566; BYTE $0x08       // pinsrb    xmm11, byte [r14 + rsi + 27], 8
-	QUAD $0x1b0e5c203a0f4766; BYTE $0x09       // pinsrb    xmm11, byte [r14 + r9 + 27], 9
-	QUAD $0x1b165c203a0f4766; BYTE $0x0a       // pinsrb    xmm11, byte [r14 + r10 + 27], 10
-	QUAD $0x1b065c203a0f4766; BYTE $0x0b       // pinsrb    xmm11, byte [r14 + r8 + 27], 11
-	QUAD $0x1b3e5c203a0f4566; BYTE $0x0c       // pinsrb    xmm11, byte [r14 + rdi + 27], 12
-	QUAD $0x1b165c203a0f4566; BYTE $0x0d       // pinsrb    xmm11, byte [r14 + rdx + 27], 13
-	QUAD $0x1b1e5c203a0f4766; BYTE $0x0e       // pinsrb    xmm11, byte [r14 + r11 + 27], 14
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
-	QUAD $0x1b2e5c203a0f4766; BYTE $0x0f       // pinsrb    xmm11, byte [r14 + r13 + 27], 15
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
-	QUAD $0x1c3e7c203a0f4766; BYTE $0x03       // pinsrb    xmm15, byte [r14 + r15 + 28], 3
-	QUAD $0x1d3e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 29], 3
-	QUAD $0x1e3e54203a0f4766; BYTE $0x03       // pinsrb    xmm10, byte [r14 + r15 + 30], 3
-	QUAD $0x1f3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 31], 3
-	QUAD $0x1c067c203a0f4566; BYTE $0x04       // pinsrb    xmm15, byte [r14 + rax + 28], 4
-	QUAD $0x1d064c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rax + 29], 4
-	QUAD $0x1e0654203a0f4566; BYTE $0x04       // pinsrb    xmm10, byte [r14 + rax + 30], 4
-	QUAD $0x1f0674203a0f4166; BYTE $0x04       // pinsrb    xmm6, byte [r14 + rax + 31], 4
-	QUAD $0x1c1e7c203a0f4566; BYTE $0x05       // pinsrb    xmm15, byte [r14 + rbx + 28], 5
-	QUAD $0x1d1e4c203a0f4566; BYTE $0x05       // pinsrb    xmm9, byte [r14 + rbx + 29], 5
-	QUAD $0x1e1e54203a0f4566; BYTE $0x05       // pinsrb    xmm10, byte [r14 + rbx + 30], 5
-	QUAD $0x1f1e74203a0f4166; BYTE $0x05       // pinsrb    xmm6, byte [r14 + rbx + 31], 5
-	QUAD $0x1c267c203a0f4766; BYTE $0x06       // pinsrb    xmm15, byte [r14 + r12 + 28], 6
-	QUAD $0x1d264c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r12 + 29], 6
-	QUAD $0x1e2654203a0f4766; BYTE $0x06       // pinsrb    xmm10, byte [r14 + r12 + 30], 6
-	QUAD $0x1f2674203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r12 + 31], 6
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x1c0e7c203a0f4566; BYTE $0x07       // pinsrb    xmm15, byte [r14 + rcx + 28], 7
-	QUAD $0x1d0e4c203a0f4566; BYTE $0x07       // pinsrb    xmm9, byte [r14 + rcx + 29], 7
-	QUAD $0x1e0e54203a0f4566; BYTE $0x07       // pinsrb    xmm10, byte [r14 + rcx + 30], 7
-	QUAD $0x1f0e74203a0f4166; BYTE $0x07       // pinsrb    xmm6, byte [r14 + rcx + 31], 7
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	QUAD $0x1c367c203a0f4566; BYTE $0x08       // pinsrb    xmm15, byte [r14 + rsi + 28], 8
-	QUAD $0x1d364c203a0f4566; BYTE $0x08       // pinsrb    xmm9, byte [r14 + rsi + 29], 8
-	QUAD $0x1e3654203a0f4566; BYTE $0x08       // pinsrb    xmm10, byte [r14 + rsi + 30], 8
-	QUAD $0x1f3674203a0f4166; BYTE $0x08       // pinsrb    xmm6, byte [r14 + rsi + 31], 8
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x1c0e7c203a0f4766; BYTE $0x09       // pinsrb    xmm15, byte [r14 + r9 + 28], 9
-	QUAD $0x1d0e4c203a0f4766; BYTE $0x09       // pinsrb    xmm9, byte [r14 + r9 + 29], 9
-	QUAD $0x1e0e54203a0f4766; BYTE $0x09       // pinsrb    xmm10, byte [r14 + r9 + 30], 9
-	QUAD $0x1f0e74203a0f4366; BYTE $0x09       // pinsrb    xmm6, byte [r14 + r9 + 31], 9
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x1c167c203a0f4766; BYTE $0x0a       // pinsrb    xmm15, byte [r14 + r10 + 28], 10
-	QUAD $0x1d164c203a0f4766; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + r10 + 29], 10
-	QUAD $0x1e1654203a0f4766; BYTE $0x0a       // pinsrb    xmm10, byte [r14 + r10 + 30], 10
-	QUAD $0x1f1674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r10 + 31], 10
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x1c067c203a0f4766; BYTE $0x0b       // pinsrb    xmm15, byte [r14 + r8 + 28], 11
-	QUAD $0x1d064c203a0f4766; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + r8 + 29], 11
-	QUAD $0x1e0654203a0f4766; BYTE $0x0b       // pinsrb    xmm10, byte [r14 + r8 + 30], 11
-	QUAD $0x1f0674203a0f4366; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + r8 + 31], 11
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	QUAD $0x1c3e7c203a0f4566; BYTE $0x0c       // pinsrb    xmm15, byte [r14 + rdi + 28], 12
-	QUAD $0x1d3e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rdi + 29], 12
-	QUAD $0x1e3e54203a0f4566; BYTE $0x0c       // pinsrb    xmm10, byte [r14 + rdi + 30], 12
-	QUAD $0x1f3e74203a0f4166; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + rdi + 31], 12
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x1c167c203a0f4566; BYTE $0x0d       // pinsrb    xmm15, byte [r14 + rdx + 28], 13
-	QUAD $0x1d164c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rdx + 29], 13
-	QUAD $0x1e1654203a0f4566; BYTE $0x0d       // pinsrb    xmm10, byte [r14 + rdx + 30], 13
-	QUAD $0x1f1674203a0f4166; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + rdx + 31], 13
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x1c1e7c203a0f4766; BYTE $0x0e       // pinsrb    xmm15, byte [r14 + r11 + 28], 14
-	QUAD $0x1d1e4c203a0f4766; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + r11 + 29], 14
-	QUAD $0x1e1e54203a0f4766; BYTE $0x0e       // pinsrb    xmm10, byte [r14 + r11 + 30], 14
-	QUAD $0x1f1e74203a0f4366; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + r11 + 31], 14
-	QUAD $0x1c2e7c203a0f4766; BYTE $0x0f       // pinsrb    xmm15, byte [r14 + r13 + 28], 15
-	QUAD $0x1d2e4c203a0f4766; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + r13 + 29], 15
-	QUAD $0x1e2e54203a0f4766; BYTE $0x0f       // pinsrb    xmm10, byte [r14 + r13 + 30], 15
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
-	QUAD $0x1f2e74203a0f4366; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + r13 + 31], 15
-	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI5_22] */
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
-	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
-	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
-	QUAD $0x000100249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 256]
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	QUAD $0x0000c024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 192]
-	LONG $0xcc600f66                           // punpcklbw    xmm1, xmm4
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
-	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
-	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
-	LONG $0xdc680f66                           // punpckhbw    xmm3, xmm4
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xd8               // punpckhwd    xmm3, xmm8
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	LONG $0x5c7f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm3
-	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm1
-	LONG $0x147f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm2
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000d8248c3b48                   // cmp    rcx, qword [rsp + 216]
-	JNE  LBB5_86
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x000000d824943b4c                   // cmp    r10, qword [rsp + 216]
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	JNE  LBB5_88
-	JMP  LBB5_91
-
-LBB5_66:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x014c; BYTE $0xf0             // add    rax, r14
-	QUAD $0x0000011024848948             // mov    qword [rsp + 272], rax
-	QUAD $0x000000d82494894c             // mov    qword [rsp + 216], r10
-	LONG $0x24448b48; BYTE $0x08         // mov    rax, qword [rsp + 8]
-	LONG $0x90048d4a                     // lea    rax, [rax + 4*r10]
-	LONG $0x24448948; BYTE $0x58         // mov    qword [rsp + 88], rax
-	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
-	WORD $0xc031                         // xor    eax, eax
-
-LBB5_67:
-	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
-	LONG $0x05e0c148                           // shl    rax, 5
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	LONG $0x0cb60f41; BYTE $0x06               // movzx    ecx, byte [r14 + rax]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x4cb60f41; WORD $0x0106             // movzx    ecx, byte [r14 + rax + 1]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x4cb60f41; WORD $0x0206             // movzx    ecx, byte [r14 + rax + 2]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x4cb60f41; WORD $0x0306             // movzx    ecx, byte [r14 + rax + 3]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x4cb60f41; WORD $0x0406             // movzx    ecx, byte [r14 + rax + 4]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x4cb60f41; WORD $0x0506             // movzx    ecx, byte [r14 + rax + 5]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x4cb60f41; WORD $0x0606             // movzx    ecx, byte [r14 + rax + 6]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x4cb60f41; WORD $0x0706             // movzx    ecx, byte [r14 + rax + 7]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x4cb60f41; WORD $0x0806             // movzx    ecx, byte [r14 + rax + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00010024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm0
-	LONG $0x4cb60f41; WORD $0x0906             // movzx    ecx, byte [r14 + rax + 9]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x4cb60f41; WORD $0x0a06             // movzx    ecx, byte [r14 + rax + 10]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x4cb60f41; WORD $0x0b06             // movzx    ecx, byte [r14 + rax + 11]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x4cb60f41; WORD $0x0c06             // movzx    ecx, byte [r14 + rax + 12]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
-	LONG $0x4cb60f41; WORD $0x0d06             // movzx    ecx, byte [r14 + rax + 13]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x4cb60f41; WORD $0x0e06             // movzx    ecx, byte [r14 + rax + 14]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x4cb60f41; WORD $0x0f06             // movzx    ecx, byte [r14 + rax + 15]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x20c98348                           // or    rcx, 32
-	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x2444894c; BYTE $0x20               // mov    qword [rsp + 32], r8
-	LONG $0x60cb8349                           // or    r11, 96
-	LONG $0x245c894c; BYTE $0x50               // mov    qword [rsp + 80], r11
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0x244c894c; BYTE $0x18               // mov    qword [rsp + 24], r9
-	LONG $0xa0cd8149; WORD $0x0000; BYTE $0x00 // or    r13, 160
-	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
-	LONG $0xe0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 224
-	LONG $0x247c8948; BYTE $0x68               // mov    qword [rsp + 104], rdi
-	LONG $0x00ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 256
-	QUAD $0x000000982494894c                   // mov    qword [rsp + 152], r10
-	LONG $0x20cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 288
-	LONG $0x40cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 320
-	QUAD $0x00000090249c8948                   // mov    qword [rsp + 144], rbx
-	LONG $0x60ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 352
-	LONG $0x24548948; BYTE $0x70               // mov    qword [rsp + 112], rdx
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
-	LONG $0x245c8948; BYTE $0x78               // mov    qword [rsp + 120], rbx
-	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
-	LONG $0xa0ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 416
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0xc0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 448
-	LONG $0x244c8948; BYTE $0x40               // mov    qword [rsp + 64], rcx
-	LONG $0xe0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 480
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x010624203a0f4166                   // pinsrb    xmm4, byte [r14 + rax], 1
-	QUAD $0x020624203a0f4366                   // pinsrb    xmm4, byte [r14 + r8], 2
-	QUAD $0x031e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r11], 3
-	QUAD $0x040e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r9], 4
-	QUAD $0x052e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r13], 5
-	QUAD $0x063e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r15], 6
-	QUAD $0x073e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rdi], 7
-	QUAD $0x081624203a0f4366                   // pinsrb    xmm4, byte [r14 + r10], 8
-	QUAD $0x092624203a0f4366                   // pinsrb    xmm4, byte [r14 + r12], 9
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x0a0624203a0f4166                   // pinsrb    xmm4, byte [r14 + rax], 10
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0b0624203a0f4166                   // pinsrb    xmm4, byte [r14 + rax], 11
-	QUAD $0x0c1e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rbx], 12
-	QUAD $0x0d1624203a0f4166                   // pinsrb    xmm4, byte [r14 + rdx], 13
-	QUAD $0x0e0e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rcx], 14
-	QUAD $0x0f3624203a0f4166                   // pinsrb    xmm4, byte [r14 + rsi], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x01065c203a0f4166; BYTE $0x01       // pinsrb    xmm3, byte [r14 + rax + 1], 1
-	QUAD $0x01065c203a0f4366; BYTE $0x02       // pinsrb    xmm3, byte [r14 + r8 + 1], 2
-	QUAD $0x011e5c203a0f4366; BYTE $0x03       // pinsrb    xmm3, byte [r14 + r11 + 1], 3
-	QUAD $0x010e5c203a0f4366; BYTE $0x04       // pinsrb    xmm3, byte [r14 + r9 + 1], 4
-	QUAD $0x012e5c203a0f4366; BYTE $0x05       // pinsrb    xmm3, byte [r14 + r13 + 1], 5
-	WORD $0x894d; BYTE $0xe9                   // mov    r9, r13
-	QUAD $0x013e5c203a0f4366; BYTE $0x06       // pinsrb    xmm3, byte [r14 + r15 + 1], 6
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	QUAD $0x013e5c203a0f4166; BYTE $0x07       // pinsrb    xmm3, byte [r14 + rdi + 1], 7
-	QUAD $0x01165c203a0f4366; BYTE $0x08       // pinsrb    xmm3, byte [r14 + r10 + 1], 8
-	QUAD $0x01265c203a0f4366; BYTE $0x09       // pinsrb    xmm3, byte [r14 + r12 + 1], 9
-	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x01265c203a0f4366; BYTE $0x0a       // pinsrb    xmm3, byte [r14 + r12 + 1], 10
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x01065c203a0f4166; BYTE $0x0b       // pinsrb    xmm3, byte [r14 + rax + 1], 11
-	QUAD $0x011e5c203a0f4166; BYTE $0x0c       // pinsrb    xmm3, byte [r14 + rbx + 1], 12
-	QUAD $0x01165c203a0f4166; BYTE $0x0d       // pinsrb    xmm3, byte [r14 + rdx + 1], 13
-	LONG $0x24548948; BYTE $0x30               // mov    qword [rsp + 48], rdx
-	QUAD $0x010e5c203a0f4166; BYTE $0x0e       // pinsrb    xmm3, byte [r14 + rcx + 1], 14
-	QUAD $0x0000b0248c6f0f66; BYTE $0x00       // movdqa    xmm1, oword [rsp + 176]
-	LONG $0xe1740f66                           // pcmpeqb    xmm4, xmm1
-	QUAD $0x01365c203a0f4166; BYTE $0x0f       // pinsrb    xmm3, byte [r14 + rsi + 1], 15
-	WORD $0x8949; BYTE $0xf0                   // mov    r8, rsi
-	LONG $0xd9740f66                           // pcmpeqb    xmm3, xmm1
-	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
-	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	LONG $0x74b60f41; WORD $0x1006             // movzx    esi, byte [r14 + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x02066c203a0f4166; BYTE $0x01       // pinsrb    xmm5, byte [r14 + rax + 2], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x022e6c203a0f4366; BYTE $0x02       // pinsrb    xmm5, byte [r14 + r13 + 2], 2
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x023e6c203a0f4366; BYTE $0x03       // pinsrb    xmm5, byte [r14 + r15 + 2], 3
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	QUAD $0x021e6c203a0f4166; BYTE $0x04       // pinsrb    xmm5, byte [r14 + rbx + 2], 4
-	QUAD $0x020e6c203a0f4366; BYTE $0x05       // pinsrb    xmm5, byte [r14 + r9 + 2], 5
-	QUAD $0x00000088249c894c                   // mov    qword [rsp + 136], r11
-	QUAD $0x021e6c203a0f4366; BYTE $0x06       // pinsrb    xmm5, byte [r14 + r11 + 2], 6
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x02166c203a0f4366; BYTE $0x07       // pinsrb    xmm5, byte [r14 + r10 + 2], 7
-	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
-	QUAD $0x02066c203a0f4166; BYTE $0x08       // pinsrb    xmm5, byte [r14 + rax + 2], 8
-	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
-	QUAD $0x023e6c203a0f4166; BYTE $0x09       // pinsrb    xmm5, byte [r14 + rdi + 2], 9
-	QUAD $0x02266c203a0f4366; BYTE $0x0a       // pinsrb    xmm5, byte [r14 + r12 + 2], 10
-	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
-	QUAD $0x02366c203a0f4166; BYTE $0x0b       // pinsrb    xmm5, byte [r14 + rsi + 2], 11
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x020e6c203a0f4166; BYTE $0x0c       // pinsrb    xmm5, byte [r14 + rcx + 2], 12
-	QUAD $0x02166c203a0f4166; BYTE $0x0d       // pinsrb    xmm5, byte [r14 + rdx + 2], 13
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x02166c203a0f4166; BYTE $0x0e       // pinsrb    xmm5, byte [r14 + rdx + 2], 14
-	QUAD $0x02066c203a0f4366; BYTE $0x0f       // pinsrb    xmm5, byte [r14 + r8 + 2], 15
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x03167c203a0f4166; BYTE $0x01       // pinsrb    xmm7, byte [r14 + rdx + 3], 1
-	QUAD $0x032e7c203a0f4366; BYTE $0x02       // pinsrb    xmm7, byte [r14 + r13 + 3], 2
-	QUAD $0x033e7c203a0f4366; BYTE $0x03       // pinsrb    xmm7, byte [r14 + r15 + 3], 3
-	QUAD $0x031e7c203a0f4166; BYTE $0x04       // pinsrb    xmm7, byte [r14 + rbx + 3], 4
-	QUAD $0x030e7c203a0f4366; BYTE $0x05       // pinsrb    xmm7, byte [r14 + r9 + 3], 5
-	QUAD $0x031e7c203a0f4366; BYTE $0x06       // pinsrb    xmm7, byte [r14 + r11 + 3], 6
-	QUAD $0x03167c203a0f4366; BYTE $0x07       // pinsrb    xmm7, byte [r14 + r10 + 3], 7
-	QUAD $0x03067c203a0f4166; BYTE $0x08       // pinsrb    xmm7, byte [r14 + rax + 3], 8
-	QUAD $0x033e7c203a0f4166; BYTE $0x09       // pinsrb    xmm7, byte [r14 + rdi + 3], 9
-	QUAD $0x03267c203a0f4366; BYTE $0x0a       // pinsrb    xmm7, byte [r14 + r12 + 3], 10
-	QUAD $0x03367c203a0f4166; BYTE $0x0b       // pinsrb    xmm7, byte [r14 + rsi + 3], 11
-	QUAD $0x030e7c203a0f4166; BYTE $0x0c       // pinsrb    xmm7, byte [r14 + rcx + 3], 12
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x03167c203a0f4166; BYTE $0x0d       // pinsrb    xmm7, byte [r14 + rdx + 3], 13
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x03167c203a0f4166; BYTE $0x0e       // pinsrb    xmm7, byte [r14 + rdx + 3], 14
-	QUAD $0x03067c203a0f4366; BYTE $0x0f       // pinsrb    xmm7, byte [r14 + r8 + 3], 15
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x04164c203a0f4566; BYTE $0x01       // pinsrb    xmm9, byte [r14 + rdx + 4], 1
-	QUAD $0x042e4c203a0f4766; BYTE $0x02       // pinsrb    xmm9, byte [r14 + r13 + 4], 2
-	QUAD $0x043e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 4], 3
-	QUAD $0x041e4c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rbx + 4], 4
-	QUAD $0x040e4c203a0f4766; BYTE $0x05       // pinsrb    xmm9, byte [r14 + r9 + 4], 5
-	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
-	LONG $0x244c894c; BYTE $0x38               // mov    qword [rsp + 56], r9
-	QUAD $0x041e4c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r11 + 4], 6
-	QUAD $0x04164c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r10 + 4], 7
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	QUAD $0x04064c203a0f4566; BYTE $0x08       // pinsrb    xmm9, byte [r14 + rax + 4], 8
-	QUAD $0x043e4c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rdi + 4], 9
-	QUAD $0x04264c203a0f4766; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + r12 + 4], 10
-	QUAD $0x04364c203a0f4566; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + rsi + 4], 11
-	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
-	QUAD $0x040e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rcx + 4], 12
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x04264c203a0f4766; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + r12 + 4], 13
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x04164c203a0f4566; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + rdx + 4], 14
-	QUAD $0x04064c203a0f4766; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + r8 + 4], 15
-	LONG $0xe9740f66                           // pcmpeqb    xmm5, xmm1
-	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	LONG $0xf9740f66                           // pcmpeqb    xmm7, xmm1
-	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	LONG $0x74b60f41; WORD $0x1116             // movzx    esi, byte [r14 + rdx + 17]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x740f4466; BYTE $0xc9               // pcmpeqb    xmm9, xmm1
-	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xdf0f4466; BYTE $0xc8               // pandn    xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
-	LONG $0x74b60f41; WORD $0x1216             // movzx    esi, byte [r14 + rdx + 18]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
-	LONG $0xeb0f4466; BYTE $0xcb               // por    xmm9, xmm3
-	LONG $0x74b60f41; WORD $0x1316             // movzx    esi, byte [r14 + rdx + 19]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x051654203a0f4166; BYTE $0x01       // pinsrb    xmm2, byte [r14 + rdx + 5], 1
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x051e54203a0f4366; BYTE $0x02       // pinsrb    xmm2, byte [r14 + r11 + 5], 2
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x052e54203a0f4366; BYTE $0x03       // pinsrb    xmm2, byte [r14 + r13 + 5], 3
-	QUAD $0x051e54203a0f4166; BYTE $0x04       // pinsrb    xmm2, byte [r14 + rbx + 5], 4
-	QUAD $0x053e54203a0f4366; BYTE $0x05       // pinsrb    xmm2, byte [r14 + r15 + 5], 5
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x051654203a0f4366; BYTE $0x06       // pinsrb    xmm2, byte [r14 + r10 + 5], 6
-	QUAD $0x050e54203a0f4366; BYTE $0x07       // pinsrb    xmm2, byte [r14 + r9 + 5], 7
-	QUAD $0x050654203a0f4166; BYTE $0x08       // pinsrb    xmm2, byte [r14 + rax + 5], 8
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x053654203a0f4166; BYTE $0x09       // pinsrb    xmm2, byte [r14 + rsi + 5], 9
-	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
-	QUAD $0x053e54203a0f4366; BYTE $0x0a       // pinsrb    xmm2, byte [r14 + r15 + 5], 10
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	QUAD $0x053e54203a0f4166; BYTE $0x0b       // pinsrb    xmm2, byte [r14 + rdi + 5], 11
-	QUAD $0x050e54203a0f4166; BYTE $0x0c       // pinsrb    xmm2, byte [r14 + rcx + 5], 12
-	QUAD $0x052654203a0f4366; BYTE $0x0d       // pinsrb    xmm2, byte [r14 + r12 + 5], 13
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x053e54203a0f4166; BYTE $0x0e       // pinsrb    xmm2, byte [r14 + rdi + 5], 14
-	LONG $0x2444894c; BYTE $0x48               // mov    qword [rsp + 72], r8
-	QUAD $0x050654203a0f4366; BYTE $0x0f       // pinsrb    xmm2, byte [r14 + r8 + 5], 15
-	QUAD $0x061644203a0f4566; BYTE $0x01       // pinsrb    xmm8, byte [r14 + rdx + 6], 1
-	QUAD $0x061e44203a0f4766; BYTE $0x02       // pinsrb    xmm8, byte [r14 + r11 + 6], 2
-	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
-	QUAD $0x062e44203a0f4766; BYTE $0x03       // pinsrb    xmm8, byte [r14 + r13 + 6], 3
-	QUAD $0x061e44203a0f4566; BYTE $0x04       // pinsrb    xmm8, byte [r14 + rbx + 6], 4
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x062e44203a0f4766; BYTE $0x05       // pinsrb    xmm8, byte [r14 + r13 + 6], 5
-	QUAD $0x061644203a0f4766; BYTE $0x06       // pinsrb    xmm8, byte [r14 + r10 + 6], 6
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x061e44203a0f4566; BYTE $0x07       // pinsrb    xmm8, byte [r14 + rbx + 6], 7
-	QUAD $0x060644203a0f4566; BYTE $0x08       // pinsrb    xmm8, byte [r14 + rax + 6], 8
-	QUAD $0x063644203a0f4566; BYTE $0x09       // pinsrb    xmm8, byte [r14 + rsi + 6], 9
-	QUAD $0x063e44203a0f4766; BYTE $0x0a       // pinsrb    xmm8, byte [r14 + r15 + 6], 10
-	QUAD $0x060e44203a0f4766; BYTE $0x0b       // pinsrb    xmm8, byte [r14 + r9 + 6], 11
-	QUAD $0x060e44203a0f4566; BYTE $0x0c       // pinsrb    xmm8, byte [r14 + rcx + 6], 12
-	QUAD $0x062644203a0f4766; BYTE $0x0d       // pinsrb    xmm8, byte [r14 + r12 + 6], 13
-	QUAD $0x063e44203a0f4566; BYTE $0x0e       // pinsrb    xmm8, byte [r14 + rdi + 6], 14
-	QUAD $0x060644203a0f4766; BYTE $0x0f       // pinsrb    xmm8, byte [r14 + r8 + 6], 15
-	QUAD $0x071674203a0f4566; BYTE $0x01       // pinsrb    xmm14, byte [r14 + rdx + 7], 1
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x071e74203a0f4566; BYTE $0x02       // pinsrb    xmm14, byte [r14 + rbx + 7], 2
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x071e74203a0f4766; BYTE $0x03       // pinsrb    xmm14, byte [r14 + r11 + 7], 3
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x071674203a0f4566; BYTE $0x04       // pinsrb    xmm14, byte [r14 + rdx + 7], 4
-	QUAD $0x072e74203a0f4766; BYTE $0x05       // pinsrb    xmm14, byte [r14 + r13 + 7], 5
-	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
-	QUAD $0x071674203a0f4566; BYTE $0x06       // pinsrb    xmm14, byte [r14 + rdx + 7], 6
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x070e74203a0f4766; BYTE $0x07       // pinsrb    xmm14, byte [r14 + r9 + 7], 7
-	QUAD $0x070674203a0f4566; BYTE $0x08       // pinsrb    xmm14, byte [r14 + rax + 7], 8
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x073674203a0f4566; BYTE $0x09       // pinsrb    xmm14, byte [r14 + rsi + 7], 9
-	QUAD $0x073e74203a0f4766; BYTE $0x0a       // pinsrb    xmm14, byte [r14 + r15 + 7], 10
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x071674203a0f4766; BYTE $0x0b       // pinsrb    xmm14, byte [r14 + r10 + 7], 11
-	QUAD $0x070e74203a0f4566; BYTE $0x0c       // pinsrb    xmm14, byte [r14 + rcx + 7], 12
-	QUAD $0x072674203a0f4766; BYTE $0x0d       // pinsrb    xmm14, byte [r14 + r12 + 7], 13
-	QUAD $0x073e74203a0f4566; BYTE $0x0e       // pinsrb    xmm14, byte [r14 + rdi + 7], 14
-	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
-	QUAD $0x00b024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI5_20] */
-	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI5_21] */
-	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	LONG $0x74b60f43; WORD $0x143e             // movzx    esi, byte [r14 + r15 + 20]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x07064c203a0f4166; BYTE $0x0f       // pinsrb    xmm1, byte [r14 + rax + 7], 15
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	LONG $0x74b60f43; WORD $0x153e             // movzx    esi, byte [r14 + r15 + 21]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	QUAD $0x00010024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 256]
-	LONG $0x245c8b4c; BYTE $0x10               // mov    r11, qword [rsp + 16]
-	QUAD $0x081e44203a0f4366; BYTE $0x01       // pinsrb    xmm0, byte [r14 + r11 + 8], 1
-	QUAD $0x081e44203a0f4166; BYTE $0x02       // pinsrb    xmm0, byte [r14 + rbx + 8], 2
-	QUAD $0x080644203a0f4366; BYTE $0x03       // pinsrb    xmm0, byte [r14 + r8 + 8], 3
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x080e44203a0f4166; BYTE $0x04       // pinsrb    xmm0, byte [r14 + rcx + 8], 4
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x083644203a0f4166; BYTE $0x05       // pinsrb    xmm0, byte [r14 + rsi + 8], 5
-	QUAD $0x081644203a0f4166; BYTE $0x06       // pinsrb    xmm0, byte [r14 + rdx + 8], 6
-	QUAD $0x080e44203a0f4366; BYTE $0x07       // pinsrb    xmm0, byte [r14 + r9 + 8], 7
-	QUAD $0x082e44203a0f4366; BYTE $0x08       // pinsrb    xmm0, byte [r14 + r13 + 8], 8
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x083644203a0f4166; BYTE $0x09       // pinsrb    xmm0, byte [r14 + rsi + 8], 9
-	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
-	QUAD $0x082644203a0f4366; BYTE $0x0a       // pinsrb    xmm0, byte [r14 + r12 + 8], 10
-	QUAD $0x081644203a0f4366; BYTE $0x0b       // pinsrb    xmm0, byte [r14 + r10 + 8], 11
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x083644203a0f4166; BYTE $0x0c       // pinsrb    xmm0, byte [r14 + rsi + 8], 12
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x081e44203a0f4166; BYTE $0x0d       // pinsrb    xmm0, byte [r14 + rbx + 8], 13
-	QUAD $0x083e44203a0f4166; BYTE $0x0e       // pinsrb    xmm0, byte [r14 + rdi + 8], 14
-	QUAD $0x080644203a0f4166; BYTE $0x0f       // pinsrb    xmm0, byte [r14 + rax + 8], 15
-	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
-	QUAD $0x000100248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm1
-	LONG $0x74b60f43; WORD $0x163e             // movzx    esi, byte [r14 + r15 + 22]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x091e5c203a0f4766; BYTE $0x01       // pinsrb    xmm11, byte [r14 + r11 + 9], 1
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x09165c203a0f4766; BYTE $0x02       // pinsrb    xmm11, byte [r14 + r10 + 9], 2
-	QUAD $0x09065c203a0f4766; BYTE $0x03       // pinsrb    xmm11, byte [r14 + r8 + 9], 3
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	QUAD $0x090e5c203a0f4566; BYTE $0x04       // pinsrb    xmm11, byte [r14 + rcx + 9], 4
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x090e5c203a0f4766; BYTE $0x05       // pinsrb    xmm11, byte [r14 + r9 + 9], 5
-	QUAD $0x09165c203a0f4566; BYTE $0x06       // pinsrb    xmm11, byte [r14 + rdx + 9], 6
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x091e5c203a0f4766; BYTE $0x07       // pinsrb    xmm11, byte [r14 + r11 + 9], 7
-	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
-	QUAD $0x09365c203a0f4566; BYTE $0x08       // pinsrb    xmm11, byte [r14 + rsi + 9], 8
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x09065c203a0f4766; BYTE $0x09       // pinsrb    xmm11, byte [r14 + r8 + 9], 9
-	QUAD $0x09265c203a0f4766; BYTE $0x0a       // pinsrb    xmm11, byte [r14 + r12 + 9], 10
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x09165c203a0f4566; BYTE $0x0b       // pinsrb    xmm11, byte [r14 + rdx + 9], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x093e5c203a0f4566; BYTE $0x0c       // pinsrb    xmm11, byte [r14 + rdi + 9], 12
-	QUAD $0x091e5c203a0f4566; BYTE $0x0d       // pinsrb    xmm11, byte [r14 + rbx + 9], 13
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x09065c203a0f4566; BYTE $0x0e       // pinsrb    xmm11, byte [r14 + rax + 9], 14
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x090e5c203a0f4566; BYTE $0x0f       // pinsrb    xmm11, byte [r14 + rcx + 9], 15
-	QUAD $0x0a3e64203a0f4766; BYTE $0x01       // pinsrb    xmm12, byte [r14 + r15 + 10], 1
-	QUAD $0x0a1664203a0f4766; BYTE $0x02       // pinsrb    xmm12, byte [r14 + r10 + 10], 2
-	QUAD $0x0a2e64203a0f4766; BYTE $0x03       // pinsrb    xmm12, byte [r14 + r13 + 10], 3
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x0a1664203a0f4766; BYTE $0x04       // pinsrb    xmm12, byte [r14 + r10 + 10], 4
-	QUAD $0x0a0e64203a0f4766; BYTE $0x05       // pinsrb    xmm12, byte [r14 + r9 + 10], 5
-	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
-	QUAD $0x0a0e64203a0f4766; BYTE $0x06       // pinsrb    xmm12, byte [r14 + r9 + 10], 6
-	QUAD $0x0a1e64203a0f4766; BYTE $0x07       // pinsrb    xmm12, byte [r14 + r11 + 10], 7
-	QUAD $0x0a3664203a0f4566; BYTE $0x08       // pinsrb    xmm12, byte [r14 + rsi + 10], 8
-	QUAD $0x0a0664203a0f4766; BYTE $0x09       // pinsrb    xmm12, byte [r14 + r8 + 10], 9
-	QUAD $0x0a2664203a0f4766; BYTE $0x0a       // pinsrb    xmm12, byte [r14 + r12 + 10], 10
-	QUAD $0x0a1664203a0f4566; BYTE $0x0b       // pinsrb    xmm12, byte [r14 + rdx + 10], 11
-	QUAD $0x0a3e64203a0f4566; BYTE $0x0c       // pinsrb    xmm12, byte [r14 + rdi + 10], 12
-	QUAD $0x0a1e64203a0f4566; BYTE $0x0d       // pinsrb    xmm12, byte [r14 + rbx + 10], 13
-	QUAD $0x0a0664203a0f4566; BYTE $0x0e       // pinsrb    xmm12, byte [r14 + rax + 10], 14
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	QUAD $0x0a0e64203a0f4566; BYTE $0x0f       // pinsrb    xmm12, byte [r14 + rcx + 10], 15
-	QUAD $0x0b3e6c203a0f4766; BYTE $0x01       // pinsrb    xmm13, byte [r14 + r15 + 11], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0b2e6c203a0f4766; BYTE $0x02       // pinsrb    xmm13, byte [r14 + r13 + 11], 2
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b066c203a0f4566; BYTE $0x03       // pinsrb    xmm13, byte [r14 + rax + 11], 3
-	QUAD $0x0b166c203a0f4766; BYTE $0x04       // pinsrb    xmm13, byte [r14 + r10 + 11], 4
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0b066c203a0f4566; BYTE $0x05       // pinsrb    xmm13, byte [r14 + rax + 11], 5
-	QUAD $0x0b0e6c203a0f4766; BYTE $0x06       // pinsrb    xmm13, byte [r14 + r9 + 11], 6
-	QUAD $0x0b1e6c203a0f4766; BYTE $0x07       // pinsrb    xmm13, byte [r14 + r11 + 11], 7
-	QUAD $0x0b366c203a0f4566; BYTE $0x08       // pinsrb    xmm13, byte [r14 + rsi + 11], 8
-	QUAD $0x0b066c203a0f4766; BYTE $0x09       // pinsrb    xmm13, byte [r14 + r8 + 11], 9
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x0b266c203a0f4766; BYTE $0x0a       // pinsrb    xmm13, byte [r14 + r12 + 11], 10
-	QUAD $0x0b166c203a0f4566; BYTE $0x0b       // pinsrb    xmm13, byte [r14 + rdx + 11], 11
-	QUAD $0x0b3e6c203a0f4566; BYTE $0x0c       // pinsrb    xmm13, byte [r14 + rdi + 11], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0b366c203a0f4566; BYTE $0x0d       // pinsrb    xmm13, byte [r14 + rsi + 11], 13
-	QUAD $0x0b1e6c203a0f4566; BYTE $0x0e       // pinsrb    xmm13, byte [r14 + rbx + 11], 14
-	QUAD $0x0b0e6c203a0f4566; BYTE $0x0f       // pinsrb    xmm13, byte [r14 + rcx + 11], 15
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xfc0f4466; BYTE $0xd8               // paddb    xmm11, xmm0
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	LONG $0x74b60f41; WORD $0x170e             // movzx    esi, byte [r14 + rcx + 23]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x74b60f41; WORD $0x180e             // movzx    esi, byte [r14 + rcx + 24]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	QUAD $0x00e0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 224]
-	QUAD $0x0c3e4c203a0f4766; BYTE $0x01       // pinsrb    xmm9, byte [r14 + r15 + 12], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0c2e4c203a0f4766; BYTE $0x02       // pinsrb    xmm9, byte [r14 + r13 + 12], 2
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x0c3e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 12], 3
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	QUAD $0x0c1e4c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rbx + 12], 4
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x0c164c203a0f4766; BYTE $0x05       // pinsrb    xmm9, byte [r14 + r10 + 12], 5
-	QUAD $0x0c0e4c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r9 + 12], 6
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x0c1e4c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r11 + 12], 7
-	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
-	QUAD $0x0c1e4c203a0f4766; BYTE $0x08       // pinsrb    xmm9, byte [r14 + r11 + 12], 8
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	QUAD $0x0c064c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rax + 12], 9
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x0c0e4c203a0f4566; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + rcx + 12], 10
-	QUAD $0x0c164c203a0f4566; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + rdx + 12], 11
-	QUAD $0x0c3e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rdi + 12], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0c364c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rsi + 12], 13
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0c064c203a0f4566; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + rax + 12], 14
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0c064c203a0f4566; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + rax + 12], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0d0674203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rax + 13], 1
-	QUAD $0x0d2e74203a0f4366; BYTE $0x02       // pinsrb    xmm6, byte [r14 + r13 + 13], 2
-	QUAD $0x0d3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 13], 3
-	QUAD $0x0d1e74203a0f4166; BYTE $0x04       // pinsrb    xmm6, byte [r14 + rbx + 13], 4
-	QUAD $0x0d1674203a0f4366; BYTE $0x05       // pinsrb    xmm6, byte [r14 + r10 + 13], 5
-	QUAD $0x0d0e74203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r9 + 13], 6
-	QUAD $0x0d0674203a0f4366; BYTE $0x07       // pinsrb    xmm6, byte [r14 + r8 + 13], 7
-	QUAD $0x0d1e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r11 + 13], 8
-	QUAD $0x0d2674203a0f4366; BYTE $0x09       // pinsrb    xmm6, byte [r14 + r12 + 13], 9
-	QUAD $0x0d0e74203a0f4166; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + rcx + 13], 10
-	QUAD $0x0d1674203a0f4166; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + rdx + 13], 11
-	QUAD $0x0d3e74203a0f4166; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + rdi + 13], 12
-	QUAD $0x0d3674203a0f4166; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + rsi + 13], 13
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0d0674203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rax + 13], 14
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0d0674203a0f4166; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + rax + 13], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e067c203a0f4566; BYTE $0x01       // pinsrb    xmm15, byte [r14 + rax + 14], 1
-	QUAD $0x0e2e7c203a0f4766; BYTE $0x02       // pinsrb    xmm15, byte [r14 + r13 + 14], 2
-	QUAD $0x0e3e7c203a0f4766; BYTE $0x03       // pinsrb    xmm15, byte [r14 + r15 + 14], 3
-	QUAD $0x0e1e7c203a0f4566; BYTE $0x04       // pinsrb    xmm15, byte [r14 + rbx + 14], 4
-	QUAD $0x0e167c203a0f4766; BYTE $0x05       // pinsrb    xmm15, byte [r14 + r10 + 14], 5
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x0e0e7c203a0f4766; BYTE $0x06       // pinsrb    xmm15, byte [r14 + r9 + 14], 6
-	QUAD $0x0e067c203a0f4766; BYTE $0x07       // pinsrb    xmm15, byte [r14 + r8 + 14], 7
-	QUAD $0x0e1e7c203a0f4766; BYTE $0x08       // pinsrb    xmm15, byte [r14 + r11 + 14], 8
-	QUAD $0x0e267c203a0f4766; BYTE $0x09       // pinsrb    xmm15, byte [r14 + r12 + 14], 9
-	QUAD $0x0e0e7c203a0f4566; BYTE $0x0a       // pinsrb    xmm15, byte [r14 + rcx + 14], 10
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	QUAD $0x0e167c203a0f4566; BYTE $0x0b       // pinsrb    xmm15, byte [r14 + rdx + 14], 11
-	WORD $0x8949; BYTE $0xd2                   // mov    r10, rdx
-	QUAD $0x0e3e7c203a0f4566; BYTE $0x0c       // pinsrb    xmm15, byte [r14 + rdi + 14], 12
-	QUAD $0x0e367c203a0f4566; BYTE $0x0d       // pinsrb    xmm15, byte [r14 + rsi + 14], 13
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0e067c203a0f4566; BYTE $0x0e       // pinsrb    xmm15, byte [r14 + rax + 14], 14
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	LONG $0x74b60f41; WORD $0x1906             // movzx    esi, byte [r14 + rax + 25]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	QUAD $0x0001609df80f4466; BYTE $0x00       // psubb    xmm11, oword 352[rbp] /* [rip + .LCPI5_22] */
-	LONG $0xeb0f4566; BYTE $0xcb               // por    xmm9, xmm11
-	LONG $0x74b60f41; WORD $0x1a06             // movzx    esi, byte [r14 + rax + 26]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x0e0e7c203a0f4566; BYTE $0x0f       // pinsrb    xmm15, byte [r14 + rcx + 14], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	QUAD $0x00000140b5df0f66                   // pandn    xmm6, oword 320[rbp] /* [rip + .LCPI5_20] */
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI5_21] */
-	LONG $0xeb0f4466; BYTE $0xfe               // por    xmm15, xmm6
-	LONG $0x74b60f41; WORD $0x1b06             // movzx    esi, byte [r14 + rax + 27]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x0000c024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 192]
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f3e74203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rdi + 15], 1
-	WORD $0x894c; BYTE $0xea                   // mov    rdx, r13
-	QUAD $0x0f2e74203a0f4366; BYTE $0x02       // pinsrb    xmm6, byte [r14 + r13 + 15], 2
-	QUAD $0x0f3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 15], 3
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x0f0e74203a0f4366; BYTE $0x04       // pinsrb    xmm6, byte [r14 + r9 + 15], 4
-	QUAD $0x0f1e74203a0f4166; BYTE $0x05       // pinsrb    xmm6, byte [r14 + rbx + 15], 5
-	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
-	QUAD $0x0f1e74203a0f4166; BYTE $0x06       // pinsrb    xmm6, byte [r14 + rbx + 15], 6
-	QUAD $0x0f0674203a0f4366; BYTE $0x07       // pinsrb    xmm6, byte [r14 + r8 + 15], 7
-	QUAD $0x0f1e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r11 + 15], 8
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x0f0674203a0f4366; BYTE $0x09       // pinsrb    xmm6, byte [r14 + r8 + 15], 9
-	QUAD $0x0f2674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r12 + 15], 10
-	QUAD $0x0f1674203a0f4366; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + r10 + 15], 11
-	WORD $0x894d; BYTE $0xd7                   // mov    r15, r10
-	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
-	QUAD $0x0f1674203a0f4366; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + r10 + 15], 12
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x0f2e74203a0f4366; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + r13 + 15], 13
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x0f3674203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rsi + 15], 14
-	QUAD $0x0f0e74203a0f4166; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + rcx + 15], 15
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x74b60f41; WORD $0x1c06             // movzx    esi, byte [r14 + rax + 28]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
-	QUAD $0x0000c024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm6
-	LONG $0x74b60f41; WORD $0x1d06             // movzx    esi, byte [r14 + rax + 29]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
-	QUAD $0x103e54203a0f4566; BYTE $0x01       // pinsrb    xmm10, byte [r14 + rdi + 16], 1
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x101654203a0f4566; BYTE $0x02       // pinsrb    xmm10, byte [r14 + rdx + 16], 2
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x101654203a0f4566; BYTE $0x03       // pinsrb    xmm10, byte [r14 + rdx + 16], 3
-	QUAD $0x100e54203a0f4766; BYTE $0x04       // pinsrb    xmm10, byte [r14 + r9 + 16], 4
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x103e54203a0f4566; BYTE $0x05       // pinsrb    xmm10, byte [r14 + rdi + 16], 5
-	QUAD $0x101e54203a0f4566; BYTE $0x06       // pinsrb    xmm10, byte [r14 + rbx + 16], 6
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x101e54203a0f4566; BYTE $0x07       // pinsrb    xmm10, byte [r14 + rbx + 16], 7
-	QUAD $0x101e54203a0f4766; BYTE $0x08       // pinsrb    xmm10, byte [r14 + r11 + 16], 8
-	QUAD $0x100654203a0f4766; BYTE $0x09       // pinsrb    xmm10, byte [r14 + r8 + 16], 9
-	QUAD $0x102654203a0f4766; BYTE $0x0a       // pinsrb    xmm10, byte [r14 + r12 + 16], 10
-	QUAD $0x103e54203a0f4766; BYTE $0x0b       // pinsrb    xmm10, byte [r14 + r15 + 16], 11
-	QUAD $0x101654203a0f4766; BYTE $0x0c       // pinsrb    xmm10, byte [r14 + r10 + 16], 12
-	QUAD $0x102e54203a0f4766; BYTE $0x0d       // pinsrb    xmm10, byte [r14 + r13 + 16], 13
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x100e54203a0f4566; BYTE $0x0e       // pinsrb    xmm10, byte [r14 + rcx + 16], 14
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x102e54203a0f4766; BYTE $0x0f       // pinsrb    xmm10, byte [r14 + r13 + 16], 15
-	QUAD $0x113664203a0f4166; BYTE $0x01       // pinsrb    xmm4, byte [r14 + rsi + 17], 1
-	QUAD $0x110664203a0f4166; BYTE $0x02       // pinsrb    xmm4, byte [r14 + rax + 17], 2
-	QUAD $0x111664203a0f4166; BYTE $0x03       // pinsrb    xmm4, byte [r14 + rdx + 17], 3
-	QUAD $0x110e64203a0f4366; BYTE $0x04       // pinsrb    xmm4, byte [r14 + r9 + 17], 4
-	QUAD $0x113e64203a0f4166; BYTE $0x05       // pinsrb    xmm4, byte [r14 + rdi + 17], 5
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x111664203a0f4366; BYTE $0x06       // pinsrb    xmm4, byte [r14 + r10 + 17], 6
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	QUAD $0x111e64203a0f4166; BYTE $0x07       // pinsrb    xmm4, byte [r14 + rbx + 17], 7
-	QUAD $0x111e64203a0f4366; BYTE $0x08       // pinsrb    xmm4, byte [r14 + r11 + 17], 8
-	QUAD $0x110664203a0f4366; BYTE $0x09       // pinsrb    xmm4, byte [r14 + r8 + 17], 9
-	QUAD $0x112664203a0f4366; BYTE $0x0a       // pinsrb    xmm4, byte [r14 + r12 + 17], 10
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	QUAD $0x113e64203a0f4366; BYTE $0x0b       // pinsrb    xmm4, byte [r14 + r15 + 17], 11
-	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
-	QUAD $0x113e64203a0f4166; BYTE $0x0c       // pinsrb    xmm4, byte [r14 + rdi + 17], 12
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x111664203a0f4166; BYTE $0x0d       // pinsrb    xmm4, byte [r14 + rdx + 17], 13
-	QUAD $0x110e64203a0f4166; BYTE $0x0e       // pinsrb    xmm4, byte [r14 + rcx + 17], 14
-	QUAD $0x112e64203a0f4366; BYTE $0x0f       // pinsrb    xmm4, byte [r14 + r13 + 17], 15
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0x740f4166; BYTE $0xe6               // pcmpeqb    xmm4, xmm14
-	QUAD $0x00000100b56f0f66                   // movdqa    xmm6, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xe6df0f66                           // pandn    xmm4, xmm6
-	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	LONG $0x74b60f41; WORD $0x1e06             // movzx    esi, byte [r14 + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x12367c203a0f4166; BYTE $0x01       // pinsrb    xmm7, byte [r14 + rsi + 18], 1
-	QUAD $0x13366c203a0f4166; BYTE $0x01       // pinsrb    xmm5, byte [r14 + rsi + 19], 1
-	QUAD $0x14365c203a0f4166; BYTE $0x01       // pinsrb    xmm3, byte [r14 + rsi + 20], 1
-	QUAD $0x153654203a0f4166; BYTE $0x01       // pinsrb    xmm2, byte [r14 + rsi + 21], 1
-	QUAD $0x16364c203a0f4166; BYTE $0x01       // pinsrb    xmm1, byte [r14 + rsi + 22], 1
-	QUAD $0x173644203a0f4566; BYTE $0x01       // pinsrb    xmm8, byte [r14 + rsi + 23], 1
-	QUAD $0x183664203a0f4566; BYTE $0x01       // pinsrb    xmm12, byte [r14 + rsi + 24], 1
-	QUAD $0x19366c203a0f4566; BYTE $0x01       // pinsrb    xmm13, byte [r14 + rsi + 25], 1
-	QUAD $0x1a3644203a0f4166; BYTE $0x01       // pinsrb    xmm0, byte [r14 + rsi + 26], 1
-	QUAD $0x1b365c203a0f4566; BYTE $0x01       // pinsrb    xmm11, byte [r14 + rsi + 27], 1
-	QUAD $0x1c367c203a0f4566; BYTE $0x01       // pinsrb    xmm15, byte [r14 + rsi + 28], 1
-	QUAD $0x1d364c203a0f4566; BYTE $0x01       // pinsrb    xmm9, byte [r14 + rsi + 29], 1
-	QUAD $0x1e3654203a0f4566; BYTE $0x01       // pinsrb    xmm10, byte [r14 + rsi + 30], 1
-	LONG $0x44b60f41; WORD $0x1f06             // movzx    eax, byte [r14 + rax + 31]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	QUAD $0x1f3674203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rsi + 31], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x12067c203a0f4166; BYTE $0x02       // pinsrb    xmm7, byte [r14 + rax + 18], 2
-	QUAD $0x13066c203a0f4166; BYTE $0x02       // pinsrb    xmm5, byte [r14 + rax + 19], 2
-	QUAD $0x14065c203a0f4166; BYTE $0x02       // pinsrb    xmm3, byte [r14 + rax + 20], 2
-	QUAD $0x150654203a0f4166; BYTE $0x02       // pinsrb    xmm2, byte [r14 + rax + 21], 2
-	QUAD $0x16064c203a0f4166; BYTE $0x02       // pinsrb    xmm1, byte [r14 + rax + 22], 2
-	QUAD $0x170644203a0f4566; BYTE $0x02       // pinsrb    xmm8, byte [r14 + rax + 23], 2
-	QUAD $0x180664203a0f4566; BYTE $0x02       // pinsrb    xmm12, byte [r14 + rax + 24], 2
-	QUAD $0x19066c203a0f4566; BYTE $0x02       // pinsrb    xmm13, byte [r14 + rax + 25], 2
-	QUAD $0x1a0644203a0f4166; BYTE $0x02       // pinsrb    xmm0, byte [r14 + rax + 26], 2
-	QUAD $0x1b065c203a0f4566; BYTE $0x02       // pinsrb    xmm11, byte [r14 + rax + 27], 2
-	QUAD $0x1c067c203a0f4566; BYTE $0x02       // pinsrb    xmm15, byte [r14 + rax + 28], 2
-	QUAD $0x1d064c203a0f4566; BYTE $0x02       // pinsrb    xmm9, byte [r14 + rax + 29], 2
-	QUAD $0x1e0654203a0f4566; BYTE $0x02       // pinsrb    xmm10, byte [r14 + rax + 30], 2
-	QUAD $0x1f0674203a0f4166; BYTE $0x02       // pinsrb    xmm6, byte [r14 + rax + 31], 2
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x123e7c203a0f4366; BYTE $0x03       // pinsrb    xmm7, byte [r14 + r15 + 18], 3
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x12067c203a0f4166; BYTE $0x04       // pinsrb    xmm7, byte [r14 + rax + 18], 4
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x121e7c203a0f4166; BYTE $0x05       // pinsrb    xmm7, byte [r14 + rbx + 18], 5
-	QUAD $0x12167c203a0f4366; BYTE $0x06       // pinsrb    xmm7, byte [r14 + r10 + 18], 6
-	QUAD $0x120e7c203a0f4366; BYTE $0x07       // pinsrb    xmm7, byte [r14 + r9 + 18], 7
-	QUAD $0x121e7c203a0f4366; BYTE $0x08       // pinsrb    xmm7, byte [r14 + r11 + 18], 8
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x12367c203a0f4166; BYTE $0x09       // pinsrb    xmm7, byte [r14 + rsi + 18], 9
-	QUAD $0x12267c203a0f4366; BYTE $0x0a       // pinsrb    xmm7, byte [r14 + r12 + 18], 10
-	QUAD $0x12067c203a0f4366; BYTE $0x0b       // pinsrb    xmm7, byte [r14 + r8 + 18], 11
-	QUAD $0x123e7c203a0f4166; BYTE $0x0c       // pinsrb    xmm7, byte [r14 + rdi + 18], 12
-	QUAD $0x12167c203a0f4166; BYTE $0x0d       // pinsrb    xmm7, byte [r14 + rdx + 18], 13
-	QUAD $0x120e7c203a0f4166; BYTE $0x0e       // pinsrb    xmm7, byte [r14 + rcx + 18], 14
-	QUAD $0x122e7c203a0f4366; BYTE $0x0f       // pinsrb    xmm7, byte [r14 + r13 + 18], 15
-	QUAD $0x133e6c203a0f4366; BYTE $0x03       // pinsrb    xmm5, byte [r14 + r15 + 19], 3
-	QUAD $0x13066c203a0f4166; BYTE $0x04       // pinsrb    xmm5, byte [r14 + rax + 19], 4
-	QUAD $0x131e6c203a0f4166; BYTE $0x05       // pinsrb    xmm5, byte [r14 + rbx + 19], 5
-	QUAD $0x13166c203a0f4366; BYTE $0x06       // pinsrb    xmm5, byte [r14 + r10 + 19], 6
-	QUAD $0x130e6c203a0f4366; BYTE $0x07       // pinsrb    xmm5, byte [r14 + r9 + 19], 7
-	QUAD $0x131e6c203a0f4366; BYTE $0x08       // pinsrb    xmm5, byte [r14 + r11 + 19], 8
-	QUAD $0x13366c203a0f4166; BYTE $0x09       // pinsrb    xmm5, byte [r14 + rsi + 19], 9
-	QUAD $0x13266c203a0f4366; BYTE $0x0a       // pinsrb    xmm5, byte [r14 + r12 + 19], 10
-	QUAD $0x13066c203a0f4366; BYTE $0x0b       // pinsrb    xmm5, byte [r14 + r8 + 19], 11
-	QUAD $0x133e6c203a0f4166; BYTE $0x0c       // pinsrb    xmm5, byte [r14 + rdi + 19], 12
-	QUAD $0x13166c203a0f4166; BYTE $0x0d       // pinsrb    xmm5, byte [r14 + rdx + 19], 13
-	QUAD $0x130e6c203a0f4166; BYTE $0x0e       // pinsrb    xmm5, byte [r14 + rcx + 19], 14
-	QUAD $0x132e6c203a0f4366; BYTE $0x0f       // pinsrb    xmm5, byte [r14 + r13 + 19], 15
-	QUAD $0x143e5c203a0f4366; BYTE $0x03       // pinsrb    xmm3, byte [r14 + r15 + 20], 3
-	QUAD $0x14065c203a0f4166; BYTE $0x04       // pinsrb    xmm3, byte [r14 + rax + 20], 4
-	QUAD $0x141e5c203a0f4166; BYTE $0x05       // pinsrb    xmm3, byte [r14 + rbx + 20], 5
-	QUAD $0x14165c203a0f4366; BYTE $0x06       // pinsrb    xmm3, byte [r14 + r10 + 20], 6
-	QUAD $0x140e5c203a0f4366; BYTE $0x07       // pinsrb    xmm3, byte [r14 + r9 + 20], 7
-	QUAD $0x141e5c203a0f4366; BYTE $0x08       // pinsrb    xmm3, byte [r14 + r11 + 20], 8
-	QUAD $0x14365c203a0f4166; BYTE $0x09       // pinsrb    xmm3, byte [r14 + rsi + 20], 9
-	QUAD $0x14265c203a0f4366; BYTE $0x0a       // pinsrb    xmm3, byte [r14 + r12 + 20], 10
-	QUAD $0x14065c203a0f4366; BYTE $0x0b       // pinsrb    xmm3, byte [r14 + r8 + 20], 11
-	QUAD $0x143e5c203a0f4166; BYTE $0x0c       // pinsrb    xmm3, byte [r14 + rdi + 20], 12
-	QUAD $0x14165c203a0f4166; BYTE $0x0d       // pinsrb    xmm3, byte [r14 + rdx + 20], 13
-	QUAD $0x140e5c203a0f4166; BYTE $0x0e       // pinsrb    xmm3, byte [r14 + rcx + 20], 14
-	LONG $0x740f4166; BYTE $0xfe               // pcmpeqb    xmm7, xmm14
-	QUAD $0x000110b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0xdf0f4166; BYTE $0xfe               // pandn    xmm7, xmm14
-	QUAD $0x0000b024ac740f66; BYTE $0x00       // pcmpeqb    xmm5, oword [rsp + 176]
-	QUAD $0x000120b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xdf0f4166; BYTE $0xee               // pandn    xmm5, xmm14
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0x142e5c203a0f4366; BYTE $0x0f       // pinsrb    xmm3, byte [r14 + r13 + 20], 15
-	QUAD $0x00b024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 176]
-	LONG $0x740f4166; BYTE $0xde               // pcmpeqb    xmm3, xmm14
-	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	QUAD $0x153e54203a0f4366; BYTE $0x03       // pinsrb    xmm2, byte [r14 + r15 + 21], 3
-	QUAD $0x150654203a0f4166; BYTE $0x04       // pinsrb    xmm2, byte [r14 + rax + 21], 4
-	QUAD $0x151e54203a0f4166; BYTE $0x05       // pinsrb    xmm2, byte [r14 + rbx + 21], 5
-	QUAD $0x151654203a0f4366; BYTE $0x06       // pinsrb    xmm2, byte [r14 + r10 + 21], 6
-	QUAD $0x150e54203a0f4366; BYTE $0x07       // pinsrb    xmm2, byte [r14 + r9 + 21], 7
-	QUAD $0x151e54203a0f4366; BYTE $0x08       // pinsrb    xmm2, byte [r14 + r11 + 21], 8
-	QUAD $0x153654203a0f4166; BYTE $0x09       // pinsrb    xmm2, byte [r14 + rsi + 21], 9
-	QUAD $0x152654203a0f4366; BYTE $0x0a       // pinsrb    xmm2, byte [r14 + r12 + 21], 10
-	QUAD $0x150654203a0f4366; BYTE $0x0b       // pinsrb    xmm2, byte [r14 + r8 + 21], 11
-	QUAD $0x153e54203a0f4166; BYTE $0x0c       // pinsrb    xmm2, byte [r14 + rdi + 21], 12
-	QUAD $0x151654203a0f4166; BYTE $0x0d       // pinsrb    xmm2, byte [r14 + rdx + 21], 13
-	QUAD $0x150e54203a0f4166; BYTE $0x0e       // pinsrb    xmm2, byte [r14 + rcx + 21], 14
-	QUAD $0x152e54203a0f4366; BYTE $0x0f       // pinsrb    xmm2, byte [r14 + r13 + 21], 15
-	QUAD $0x163e4c203a0f4366; BYTE $0x03       // pinsrb    xmm1, byte [r14 + r15 + 22], 3
-	QUAD $0x16064c203a0f4166; BYTE $0x04       // pinsrb    xmm1, byte [r14 + rax + 22], 4
-	QUAD $0x161e4c203a0f4166; BYTE $0x05       // pinsrb    xmm1, byte [r14 + rbx + 22], 5
-	QUAD $0x16164c203a0f4366; BYTE $0x06       // pinsrb    xmm1, byte [r14 + r10 + 22], 6
-	QUAD $0x160e4c203a0f4366; BYTE $0x07       // pinsrb    xmm1, byte [r14 + r9 + 22], 7
-	QUAD $0x161e4c203a0f4366; BYTE $0x08       // pinsrb    xmm1, byte [r14 + r11 + 22], 8
-	QUAD $0x16364c203a0f4166; BYTE $0x09       // pinsrb    xmm1, byte [r14 + rsi + 22], 9
-	QUAD $0x16264c203a0f4366; BYTE $0x0a       // pinsrb    xmm1, byte [r14 + r12 + 22], 10
-	QUAD $0x16064c203a0f4366; BYTE $0x0b       // pinsrb    xmm1, byte [r14 + r8 + 22], 11
-	QUAD $0x163e4c203a0f4166; BYTE $0x0c       // pinsrb    xmm1, byte [r14 + rdi + 22], 12
-	QUAD $0x16164c203a0f4166; BYTE $0x0d       // pinsrb    xmm1, byte [r14 + rdx + 22], 13
-	QUAD $0x160e4c203a0f4166; BYTE $0x0e       // pinsrb    xmm1, byte [r14 + rcx + 22], 14
-	QUAD $0x162e4c203a0f4366; BYTE $0x0f       // pinsrb    xmm1, byte [r14 + r13 + 22], 15
-	QUAD $0x173e44203a0f4766; BYTE $0x03       // pinsrb    xmm8, byte [r14 + r15 + 23], 3
-	QUAD $0x170644203a0f4566; BYTE $0x04       // pinsrb    xmm8, byte [r14 + rax + 23], 4
-	QUAD $0x171e44203a0f4566; BYTE $0x05       // pinsrb    xmm8, byte [r14 + rbx + 23], 5
-	QUAD $0x171644203a0f4766; BYTE $0x06       // pinsrb    xmm8, byte [r14 + r10 + 23], 6
-	QUAD $0x170e44203a0f4766; BYTE $0x07       // pinsrb    xmm8, byte [r14 + r9 + 23], 7
-	QUAD $0x171e44203a0f4766; BYTE $0x08       // pinsrb    xmm8, byte [r14 + r11 + 23], 8
-	QUAD $0x173644203a0f4566; BYTE $0x09       // pinsrb    xmm8, byte [r14 + rsi + 23], 9
-	QUAD $0x172644203a0f4766; BYTE $0x0a       // pinsrb    xmm8, byte [r14 + r12 + 23], 10
-	QUAD $0x170644203a0f4766; BYTE $0x0b       // pinsrb    xmm8, byte [r14 + r8 + 23], 11
-	QUAD $0x173e44203a0f4566; BYTE $0x0c       // pinsrb    xmm8, byte [r14 + rdi + 23], 12
-	QUAD $0x171644203a0f4566; BYTE $0x0d       // pinsrb    xmm8, byte [r14 + rdx + 23], 13
-	QUAD $0x170e44203a0f4566; BYTE $0x0e       // pinsrb    xmm8, byte [r14 + rcx + 23], 14
-	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
-	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI5_20] */
-	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI5_21] */
-	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x172e44203a0f4766; BYTE $0x0f       // pinsrb    xmm8, byte [r14 + r13 + 23], 15
-	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
-	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	QUAD $0x183e64203a0f4766; BYTE $0x03       // pinsrb    xmm12, byte [r14 + r15 + 24], 3
-	QUAD $0x180664203a0f4566; BYTE $0x04       // pinsrb    xmm12, byte [r14 + rax + 24], 4
-	QUAD $0x181e64203a0f4566; BYTE $0x05       // pinsrb    xmm12, byte [r14 + rbx + 24], 5
-	QUAD $0x181664203a0f4766; BYTE $0x06       // pinsrb    xmm12, byte [r14 + r10 + 24], 6
-	QUAD $0x180e64203a0f4766; BYTE $0x07       // pinsrb    xmm12, byte [r14 + r9 + 24], 7
-	QUAD $0x181e64203a0f4766; BYTE $0x08       // pinsrb    xmm12, byte [r14 + r11 + 24], 8
-	QUAD $0x183664203a0f4566; BYTE $0x09       // pinsrb    xmm12, byte [r14 + rsi + 24], 9
-	QUAD $0x182664203a0f4766; BYTE $0x0a       // pinsrb    xmm12, byte [r14 + r12 + 24], 10
-	QUAD $0x180664203a0f4766; BYTE $0x0b       // pinsrb    xmm12, byte [r14 + r8 + 24], 11
-	QUAD $0x183e64203a0f4566; BYTE $0x0c       // pinsrb    xmm12, byte [r14 + rdi + 24], 12
-	QUAD $0x181664203a0f4566; BYTE $0x0d       // pinsrb    xmm12, byte [r14 + rdx + 24], 13
-	QUAD $0x180e64203a0f4566; BYTE $0x0e       // pinsrb    xmm12, byte [r14 + rcx + 24], 14
-	QUAD $0x182e64203a0f4766; BYTE $0x0f       // pinsrb    xmm12, byte [r14 + r13 + 24], 15
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
-	QUAD $0x193e6c203a0f4766; BYTE $0x03       // pinsrb    xmm13, byte [r14 + r15 + 25], 3
-	QUAD $0x19066c203a0f4566; BYTE $0x04       // pinsrb    xmm13, byte [r14 + rax + 25], 4
-	QUAD $0x191e6c203a0f4566; BYTE $0x05       // pinsrb    xmm13, byte [r14 + rbx + 25], 5
-	QUAD $0x19166c203a0f4766; BYTE $0x06       // pinsrb    xmm13, byte [r14 + r10 + 25], 6
-	QUAD $0x190e6c203a0f4766; BYTE $0x07       // pinsrb    xmm13, byte [r14 + r9 + 25], 7
-	QUAD $0x191e6c203a0f4766; BYTE $0x08       // pinsrb    xmm13, byte [r14 + r11 + 25], 8
-	QUAD $0x19366c203a0f4566; BYTE $0x09       // pinsrb    xmm13, byte [r14 + rsi + 25], 9
-	QUAD $0x19266c203a0f4766; BYTE $0x0a       // pinsrb    xmm13, byte [r14 + r12 + 25], 10
-	QUAD $0x19066c203a0f4766; BYTE $0x0b       // pinsrb    xmm13, byte [r14 + r8 + 25], 11
-	QUAD $0x193e6c203a0f4566; BYTE $0x0c       // pinsrb    xmm13, byte [r14 + rdi + 25], 12
-	QUAD $0x19166c203a0f4566; BYTE $0x0d       // pinsrb    xmm13, byte [r14 + rdx + 25], 13
-	QUAD $0x190e6c203a0f4566; BYTE $0x0e       // pinsrb    xmm13, byte [r14 + rcx + 25], 14
-	QUAD $0x192e6c203a0f4766; BYTE $0x0f       // pinsrb    xmm13, byte [r14 + r13 + 25], 15
-	QUAD $0x1a3e44203a0f4366; BYTE $0x03       // pinsrb    xmm0, byte [r14 + r15 + 26], 3
-	QUAD $0x1a0644203a0f4166; BYTE $0x04       // pinsrb    xmm0, byte [r14 + rax + 26], 4
-	QUAD $0x1a1e44203a0f4166; BYTE $0x05       // pinsrb    xmm0, byte [r14 + rbx + 26], 5
-	QUAD $0x1a1644203a0f4366; BYTE $0x06       // pinsrb    xmm0, byte [r14 + r10 + 26], 6
-	QUAD $0x1a0e44203a0f4366; BYTE $0x07       // pinsrb    xmm0, byte [r14 + r9 + 26], 7
-	QUAD $0x1a1e44203a0f4366; BYTE $0x08       // pinsrb    xmm0, byte [r14 + r11 + 26], 8
-	QUAD $0x1a3644203a0f4166; BYTE $0x09       // pinsrb    xmm0, byte [r14 + rsi + 26], 9
-	QUAD $0x1a2644203a0f4366; BYTE $0x0a       // pinsrb    xmm0, byte [r14 + r12 + 26], 10
-	QUAD $0x1a0644203a0f4366; BYTE $0x0b       // pinsrb    xmm0, byte [r14 + r8 + 26], 11
-	QUAD $0x1a3e44203a0f4166; BYTE $0x0c       // pinsrb    xmm0, byte [r14 + rdi + 26], 12
-	QUAD $0x1a1644203a0f4166; BYTE $0x0d       // pinsrb    xmm0, byte [r14 + rdx + 26], 13
-	QUAD $0x1a0e44203a0f4166; BYTE $0x0e       // pinsrb    xmm0, byte [r14 + rcx + 26], 14
-	QUAD $0x1a2e44203a0f4366; BYTE $0x0f       // pinsrb    xmm0, byte [r14 + r13 + 26], 15
-	QUAD $0x1b3e5c203a0f4766; BYTE $0x03       // pinsrb    xmm11, byte [r14 + r15 + 27], 3
-	QUAD $0x1b065c203a0f4566; BYTE $0x04       // pinsrb    xmm11, byte [r14 + rax + 27], 4
-	QUAD $0x1b1e5c203a0f4566; BYTE $0x05       // pinsrb    xmm11, byte [r14 + rbx + 27], 5
-	QUAD $0x1b165c203a0f4766; BYTE $0x06       // pinsrb    xmm11, byte [r14 + r10 + 27], 6
-	QUAD $0x1b0e5c203a0f4766; BYTE $0x07       // pinsrb    xmm11, byte [r14 + r9 + 27], 7
-	QUAD $0x1b1e5c203a0f4766; BYTE $0x08       // pinsrb    xmm11, byte [r14 + r11 + 27], 8
-	QUAD $0x1b365c203a0f4566; BYTE $0x09       // pinsrb    xmm11, byte [r14 + rsi + 27], 9
-	QUAD $0x1b265c203a0f4766; BYTE $0x0a       // pinsrb    xmm11, byte [r14 + r12 + 27], 10
-	QUAD $0x1b065c203a0f4766; BYTE $0x0b       // pinsrb    xmm11, byte [r14 + r8 + 27], 11
-	QUAD $0x1b3e5c203a0f4566; BYTE $0x0c       // pinsrb    xmm11, byte [r14 + rdi + 27], 12
-	QUAD $0x1b165c203a0f4566; BYTE $0x0d       // pinsrb    xmm11, byte [r14 + rdx + 27], 13
-	QUAD $0x1b0e5c203a0f4566; BYTE $0x0e       // pinsrb    xmm11, byte [r14 + rcx + 27], 14
-	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
-	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI5_16] */
-	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
-	QUAD $0x1b2e5c203a0f4766; BYTE $0x0f       // pinsrb    xmm11, byte [r14 + r13 + 27], 15
-	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
-	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI5_17] */
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI5_18] */
-	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
-	QUAD $0x1c3e7c203a0f4766; BYTE $0x03       // pinsrb    xmm15, byte [r14 + r15 + 28], 3
-	QUAD $0x1d3e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 29], 3
-	QUAD $0x1e3e54203a0f4766; BYTE $0x03       // pinsrb    xmm10, byte [r14 + r15 + 30], 3
-	QUAD $0x1f3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 31], 3
-	QUAD $0x1c067c203a0f4566; BYTE $0x04       // pinsrb    xmm15, byte [r14 + rax + 28], 4
-	QUAD $0x1d064c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rax + 29], 4
-	QUAD $0x1e0654203a0f4566; BYTE $0x04       // pinsrb    xmm10, byte [r14 + rax + 30], 4
-	QUAD $0x1f0674203a0f4166; BYTE $0x04       // pinsrb    xmm6, byte [r14 + rax + 31], 4
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x1c1e7c203a0f4566; BYTE $0x05       // pinsrb    xmm15, byte [r14 + rbx + 28], 5
-	QUAD $0x1d1e4c203a0f4566; BYTE $0x05       // pinsrb    xmm9, byte [r14 + rbx + 29], 5
-	QUAD $0x1e1e54203a0f4566; BYTE $0x05       // pinsrb    xmm10, byte [r14 + rbx + 30], 5
-	QUAD $0x1f1e74203a0f4166; BYTE $0x05       // pinsrb    xmm6, byte [r14 + rbx + 31], 5
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x1c167c203a0f4766; BYTE $0x06       // pinsrb    xmm15, byte [r14 + r10 + 28], 6
-	QUAD $0x1d164c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r10 + 29], 6
-	QUAD $0x1e1654203a0f4766; BYTE $0x06       // pinsrb    xmm10, byte [r14 + r10 + 30], 6
-	QUAD $0x1f1674203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r10 + 31], 6
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x1c0e7c203a0f4766; BYTE $0x07       // pinsrb    xmm15, byte [r14 + r9 + 28], 7
-	QUAD $0x1d0e4c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r9 + 29], 7
-	QUAD $0x1e0e54203a0f4766; BYTE $0x07       // pinsrb    xmm10, byte [r14 + r9 + 30], 7
-	QUAD $0x1f0e74203a0f4366; BYTE $0x07       // pinsrb    xmm6, byte [r14 + r9 + 31], 7
-	QUAD $0x1c1e7c203a0f4766; BYTE $0x08       // pinsrb    xmm15, byte [r14 + r11 + 28], 8
-	QUAD $0x1d1e4c203a0f4766; BYTE $0x08       // pinsrb    xmm9, byte [r14 + r11 + 29], 8
-	QUAD $0x1e1e54203a0f4766; BYTE $0x08       // pinsrb    xmm10, byte [r14 + r11 + 30], 8
-	QUAD $0x1f1e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r11 + 31], 8
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	QUAD $0x1c367c203a0f4566; BYTE $0x09       // pinsrb    xmm15, byte [r14 + rsi + 28], 9
-	QUAD $0x1d364c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rsi + 29], 9
-	QUAD $0x1e3654203a0f4566; BYTE $0x09       // pinsrb    xmm10, byte [r14 + rsi + 30], 9
-	QUAD $0x1f3674203a0f4166; BYTE $0x09       // pinsrb    xmm6, byte [r14 + rsi + 31], 9
-	QUAD $0x1c267c203a0f4766; BYTE $0x0a       // pinsrb    xmm15, byte [r14 + r12 + 28], 10
-	QUAD $0x1d264c203a0f4766; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + r12 + 29], 10
-	QUAD $0x1e2654203a0f4766; BYTE $0x0a       // pinsrb    xmm10, byte [r14 + r12 + 30], 10
-	QUAD $0x1f2674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r12 + 31], 10
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x1c067c203a0f4766; BYTE $0x0b       // pinsrb    xmm15, byte [r14 + r8 + 28], 11
-	QUAD $0x1d064c203a0f4766; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + r8 + 29], 11
-	QUAD $0x1e0654203a0f4766; BYTE $0x0b       // pinsrb    xmm10, byte [r14 + r8 + 30], 11
-	QUAD $0x1f0674203a0f4366; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + r8 + 31], 11
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	QUAD $0x1c3e7c203a0f4566; BYTE $0x0c       // pinsrb    xmm15, byte [r14 + rdi + 28], 12
-	QUAD $0x1d3e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rdi + 29], 12
-	QUAD $0x1e3e54203a0f4566; BYTE $0x0c       // pinsrb    xmm10, byte [r14 + rdi + 30], 12
-	QUAD $0x1f3e74203a0f4166; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + rdi + 31], 12
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x1c167c203a0f4566; BYTE $0x0d       // pinsrb    xmm15, byte [r14 + rdx + 28], 13
-	QUAD $0x1d164c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rdx + 29], 13
-	QUAD $0x1e1654203a0f4566; BYTE $0x0d       // pinsrb    xmm10, byte [r14 + rdx + 30], 13
-	QUAD $0x1f1674203a0f4166; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + rdx + 31], 13
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x1c0e7c203a0f4566; BYTE $0x0e       // pinsrb    xmm15, byte [r14 + rcx + 28], 14
-	QUAD $0x1d0e4c203a0f4566; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + rcx + 29], 14
-	QUAD $0x1e0e54203a0f4566; BYTE $0x0e       // pinsrb    xmm10, byte [r14 + rcx + 30], 14
-	QUAD $0x1f0e74203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rcx + 31], 14
-	QUAD $0x1c2e7c203a0f4766; BYTE $0x0f       // pinsrb    xmm15, byte [r14 + r13 + 28], 15
-	QUAD $0x1d2e4c203a0f4766; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + r13 + 29], 15
-	QUAD $0x1e2e54203a0f4766; BYTE $0x0f       // pinsrb    xmm10, byte [r14 + r13 + 30], 15
-	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
-	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI5_19] */
-	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
-	QUAD $0x1f2e74203a0f4366; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + r13 + 31], 15
-	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI5_22] */
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
-	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
-	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
-	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
-	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
-	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
-	QUAD $0x000100249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 256]
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	QUAD $0x0000c024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 192]
-	LONG $0xcc600f66                           // punpcklbw    xmm1, xmm4
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
-	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
-	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
-	LONG $0xdc680f66                           // punpckhbw    xmm3, xmm4
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xd8               // punpckhwd    xmm3, xmm8
-	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	LONG $0x5c7f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm3
-	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
-	LONG $0x4c7f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm1
-	LONG $0x147f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm2
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000d8248c3b48                   // cmp    rcx, qword [rsp + 216]
-	JNE  LBB5_67
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x000000d824943b4c                   // cmp    r10, qword [rsp + 216]
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	JNE  LBB5_69
-	JMP  LBB5_72
-
-LBB5_109:
-	LONG $0xf8e28349               // and    r10, -8
-	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
-	LONG $0x06e0c148               // shl    rax, 6
-	WORD $0x014c; BYTE $0xf0       // add    rax, r14
-	LONG $0x24448948; BYTE $0x30   // mov    qword [rsp + 48], rax
-	LONG $0x24448b48; BYTE $0x08   // mov    rax, qword [rsp + 8]
-	LONG $0x2454894c; BYTE $0x18   // mov    qword [rsp + 24], r10
-	LONG $0x90048d4a               // lea    rax, [rax + 4*r10]
-	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
-	LONG $0x6e0f4166; BYTE $0xc3   // movd    xmm0, r11d
-	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
-	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xef0f4566; BYTE $0xc9   // pxor    xmm9, xmm9
-
-LBB5_110:
-	LONG $0x247c8948; BYTE $0x40               // mov    qword [rsp + 64], rdi
-	LONG $0x06e7c148                           // shl    rdi, 6
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
-	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	LONG $0x04b70f41; BYTE $0x3e               // movzx    eax, word [r14 + rdi]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f41; WORD $0x023e             // movzx    eax, word [r14 + rdi + 2]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44b70f41; WORD $0x043e             // movzx    eax, word [r14 + rdi + 4]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f41; WORD $0x063e             // movzx    eax, word [r14 + rdi + 6]
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x44b70f41; WORD $0x083e             // movzx    eax, word [r14 + rdi + 8]
-	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
-	LONG $0x44b70f41; WORD $0x0a3e             // movzx    eax, word [r14 + rdi + 10]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x44b70f41; WORD $0x0c3e             // movzx    eax, word [r14 + rdi + 12]
-	LONG $0x44b70f45; WORD $0x0e3e             // movzx    r8d, word [r14 + rdi + 14]
-	LONG $0x54b70f45; WORD $0x103e             // movzx    r10d, word [r14 + rdi + 16]
-	LONG $0x64b70f45; WORD $0x123e             // movzx    r12d, word [r14 + rdi + 18]
-	LONG $0x4cb70f41; WORD $0x143e             // movzx    ecx, word [r14 + rdi + 20]
-	LONG $0x28244c89                           // mov    dword [rsp + 40], ecx
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x80cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 128
-	LONG $0xc0ce8148; WORD $0x0000; BYTE $0x00 // or    rsi, 192
-	LONG $0x00ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 256
-	LONG $0x40cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 320
-	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
-	LONG $0xc40f4166; WORD $0x0e2c; BYTE $0x01 // pinsrw    xmm5, word [r14 + rcx], 1
-	LONG $0xc40f4366; WORD $0x3e2c; BYTE $0x02 // pinsrw    xmm5, word [r14 + r15], 2
-	LONG $0xc40f4166; WORD $0x362c; BYTE $0x03 // pinsrw    xmm5, word [r14 + rsi], 3
-	LONG $0xc40f4166; WORD $0x162c; BYTE $0x04 // pinsrw    xmm5, word [r14 + rdx], 4
-	LONG $0xc40f4366; WORD $0x2e2c; BYTE $0x05 // pinsrw    xmm5, word [r14 + r13], 5
-	LONG $0xc40f4166; WORD $0x1e2c; BYTE $0x06 // pinsrw    xmm5, word [r14 + rbx], 6
-	QUAD $0x01020e44c40f4166                   // pinsrw    xmm0, word [r14 + rcx + 2], 1
-	QUAD $0x02023e44c40f4366                   // pinsrw    xmm0, word [r14 + r15 + 2], 2
-	QUAD $0x03023644c40f4166                   // pinsrw    xmm0, word [r14 + rsi + 2], 3
-	QUAD $0x04021644c40f4166                   // pinsrw    xmm0, word [r14 + rdx + 2], 4
-	QUAD $0x05022e44c40f4366                   // pinsrw    xmm0, word [r14 + r13 + 2], 5
-	QUAD $0x06021e44c40f4166                   // pinsrw    xmm0, word [r14 + rbx + 2], 6
-	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
-	QUAD $0x07020e44c40f4366                   // pinsrw    xmm0, word [r14 + r9 + 2], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f41; WORD $0x163e             // movzx    eax, word [r14 + rdi + 22]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	QUAD $0x01040e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 4], 1
-	QUAD $0x02043e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 4], 2
-	QUAD $0x0304364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 4], 3
-	QUAD $0x0404164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 4], 4
-	QUAD $0x05042e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 4], 5
-	QUAD $0x06041e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 4], 6
-	QUAD $0x07040e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 4], 7
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x000080b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 128[rbp] /* [rip + .LCPI5_8] */
-	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
-	LONG $0x380f4166; WORD $0xd910             // pblendvb    xmm3, xmm9, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x000090bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 144[rbp] /* [rip + .LCPI5_9] */
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
-	LONG $0x5cb70f45; WORD $0x183e             // movzx    r11d, word [r14 + rdi + 24]
-	LONG $0xc40f4366; WORD $0x0e2c; BYTE $0x07 // pinsrw    xmm5, word [r14 + r9], 7
-	LONG $0x750f4166; BYTE $0xeb               // pcmpeqw    xmm5, xmm11
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	QUAD $0x01060e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 6], 1
-	QUAD $0x02063e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 6], 2
-	QUAD $0x0306367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 6], 3
-	QUAD $0x0406167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 6], 4
-	QUAD $0x05062e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 6], 5
-	QUAD $0x06061e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 6], 6
-	QUAD $0x07060e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 6], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01080e44c40f4566                   // pinsrw    xmm8, word [r14 + rcx + 8], 1
-	QUAD $0x02083e44c40f4766                   // pinsrw    xmm8, word [r14 + r15 + 8], 2
-	QUAD $0x03083644c40f4566                   // pinsrw    xmm8, word [r14 + rsi + 8], 3
-	QUAD $0x04081644c40f4566                   // pinsrw    xmm8, word [r14 + rdx + 8], 4
-	QUAD $0x05082e44c40f4766                   // pinsrw    xmm8, word [r14 + r13 + 8], 5
-	QUAD $0x06081e44c40f4566                   // pinsrw    xmm8, word [r14 + rbx + 8], 6
-	QUAD $0x07080e44c40f4766                   // pinsrw    xmm8, word [r14 + r9 + 8], 7
-	LONG $0xddf80f66                           // psubb    xmm3, xmm5
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
-	LONG $0x380f4566; WORD $0xe110             // pblendvb    xmm12, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
-	LONG $0x44b70f45; WORD $0x1a3e             // movzx    r8d, word [r14 + rdi + 26]
-	LONG $0x750f4566; BYTE $0xc3               // pcmpeqw    xmm8, xmm11
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xf4               // movd    xmm6, r12d
-	LONG $0x64b70f45; WORD $0x1c3e             // movzx    r12d, word [r14 + rdi + 28]
-	QUAD $0x010a0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 10], 1
-	QUAD $0x020a3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 10], 2
-	QUAD $0x030a3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 10], 3
-	QUAD $0x040a1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 10], 4
-	QUAD $0x050a2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 10], 5
-	QUAD $0x060a1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 10], 6
-	QUAD $0x070a0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 10], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	QUAD $0x010c0e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 12], 1
-	QUAD $0x020c3e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 12], 2
-	QUAD $0x030c3654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 12], 3
-	QUAD $0x040c1654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 12], 4
-	QUAD $0x050c2e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 12], 5
-	QUAD $0x060c1e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 12], 6
-	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI5_12] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	LONG $0x646e0f66; WORD $0x2824             // movd    xmm4, dword [rsp + 40]
-	LONG $0x54b70f45; WORD $0x1e3e             // movzx    r10d, word [r14 + rdi + 30]
-	QUAD $0x070c0e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 12], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI5_13] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	LONG $0x5c6e0f66; WORD $0x2024             // movd    xmm3, dword [rsp + 32]
-	LONG $0x44b70f41; WORD $0x203e             // movzx    eax, word [r14 + rdi + 32]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	QUAD $0x010e0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 14], 1
-	QUAD $0x020e3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 14], 2
-	QUAD $0x030e364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 14], 3
-	QUAD $0x040e164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 14], 4
-	QUAD $0x050e2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 14], 5
-	QUAD $0x060e1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 14], 6
-	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x44b70f41; WORD $0x223e             // movzx    eax, word [r14 + rdi + 34]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	QUAD $0x070e0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 14], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x01120e74c40f4166                   // pinsrw    xmm6, word [r14 + rcx + 18], 1
-	QUAD $0x02123e74c40f4366                   // pinsrw    xmm6, word [r14 + r15 + 18], 2
-	QUAD $0x03123674c40f4166                   // pinsrw    xmm6, word [r14 + rsi + 18], 3
-	QUAD $0x04121674c40f4166                   // pinsrw    xmm6, word [r14 + rdx + 18], 4
-	QUAD $0x05122e74c40f4366                   // pinsrw    xmm6, word [r14 + r13 + 18], 5
-	QUAD $0x06121e74c40f4166                   // pinsrw    xmm6, word [r14 + rbx + 18], 6
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x07120e74c40f4366                   // pinsrw    xmm6, word [r14 + r9 + 18], 7
-	LONG $0x750f4166; BYTE $0xf3               // pcmpeqw    xmm6, xmm11
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	QUAD $0x0000e0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 224[rbp] /* [rip + .LCPI5_14] */
-	LONG $0x6f0f4566; BYTE $0xe2               // movdqa    xmm12, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4566; WORD $0xe110             // pblendvb    xmm12, xmm9, xmm0
-	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
-	LONG $0x5cb70f45; WORD $0x243e             // movzx    r11d, word [r14 + rdi + 36]
-	QUAD $0x01100e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 16], 1
-	QUAD $0x02103e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 16], 2
-	QUAD $0x0310367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 16], 3
-	QUAD $0x0410167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 16], 4
-	QUAD $0x05102e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 16], 5
-	QUAD $0x06101e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 16], 6
-	QUAD $0x01140e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 20], 1
-	QUAD $0x02143e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 20], 2
-	QUAD $0x03143664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 20], 3
-	QUAD $0x04141664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 20], 4
-	QUAD $0x05142e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 20], 5
-	QUAD $0x06141e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 20], 6
-	QUAD $0x07140e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 20], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xf910             // pblendvb    xmm15, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xe4               // movd    xmm4, r12d
-	LONG $0x64b70f45; WORD $0x263e             // movzx    r12d, word [r14 + rdi + 38]
-	QUAD $0x07100e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 16], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI5_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01160e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 22], 1
-	QUAD $0x02163e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 22], 2
-	QUAD $0x0316365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 22], 3
-	QUAD $0x0416165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 22], 4
-	QUAD $0x05162e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 22], 5
-	QUAD $0x06161e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 22], 6
-	QUAD $0x07160e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 22], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x01180e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 24], 1
-	QUAD $0x02183e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 24], 2
-	QUAD $0x03183654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 24], 3
-	QUAD $0x04181654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 24], 4
-	QUAD $0x05182e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 24], 5
-	QUAD $0x06181e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 24], 6
-	QUAD $0x07180e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 24], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x0000a0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xf110             // pblendvb    xmm14, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x44b70f45; WORD $0x283e             // movzx    r8d, word [r14 + rdi + 40]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4566; BYTE $0xf7               // por    xmm14, xmm15
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
-	LONG $0x54b70f45; WORD $0x2a3e             // movzx    r10d, word [r14 + rdi + 42]
-	QUAD $0x011a0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 26], 1
-	QUAD $0x021a3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 26], 2
-	QUAD $0x031a364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 26], 3
-	QUAD $0x041a164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 26], 4
-	QUAD $0x051a2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 26], 5
-	QUAD $0x061a1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 26], 6
-	QUAD $0x071a0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 26], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x011c0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 28], 1
-	QUAD $0x021c3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 28], 2
-	QUAD $0x031c3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 28], 3
-	QUAD $0x041c1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 28], 4
-	QUAD $0x051c2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 28], 5
-	QUAD $0x061c1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 28], 6
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	QUAD $0x0000c0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 192[rbp] /* [rip + .LCPI5_12] */
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	LONG $0x546e0f66; WORD $0x2824             // movd    xmm2, dword [rsp + 40]
-	LONG $0x44b70f41; WORD $0x2c3e             // movzx    eax, word [r14 + rdi + 44]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	QUAD $0x071c0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 28], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI5_13] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x5cb70f45; WORD $0x2e3e             // movzx    r11d, word [r14 + rdi + 46]
-	QUAD $0x011e0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 30], 1
-	QUAD $0x021e3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 30], 2
-	QUAD $0x031e365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 30], 3
-	QUAD $0x041e165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 30], 4
-	QUAD $0x051e2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 30], 5
-	QUAD $0x061e1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 30], 6
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xcc               // movd    xmm1, r12d
-	LONG $0x44b70f41; WORD $0x303e             // movzx    eax, word [r14 + rdi + 48]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	QUAD $0x071e0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 30], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	QUAD $0x01220e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 34], 1
-	QUAD $0x02223e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 34], 2
-	QUAD $0x03223654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 34], 3
-	QUAD $0x04221654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 34], 4
-	QUAD $0x05222e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 34], 5
-	QUAD $0x06221e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 34], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07220e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 34], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
-	LONG $0x6f0f4566; BYTE $0xea               // movdqa    xmm13, xmm10
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI5_8] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xd0               // movd    xmm2, r8d
-	LONG $0x64b70f45; WORD $0x323e             // movzx    r12d, word [r14 + rdi + 50]
-	QUAD $0x01200e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 32], 1
-	QUAD $0x02203e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 32], 2
-	QUAD $0x0320367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 32], 3
-	QUAD $0x0420167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 32], 4
-	QUAD $0x05202e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 32], 5
-	QUAD $0x06201e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 32], 6
-	QUAD $0x01240e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 36], 1
-	QUAD $0x02243e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 36], 2
-	QUAD $0x03243664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 36], 3
-	QUAD $0x04241664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 36], 4
-	QUAD $0x05242e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 36], 5
-	QUAD $0x06241e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 36], 6
-	QUAD $0x07240e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 36], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
-	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI5_9] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x54b70f45; WORD $0x343e             // movzx    r10d, word [r14 + rdi + 52]
-	QUAD $0x07200e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 32], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0x760f4566; BYTE $0xf6               // pcmpeqd    xmm14, xmm14
-	LONG $0xef0f4166; BYTE $0xfe               // pxor    xmm7, xmm14
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01260e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 38], 1
-	QUAD $0x02263e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 38], 2
-	QUAD $0x0326364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 38], 3
-	QUAD $0x0426164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 38], 4
-	QUAD $0x05262e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 38], 5
-	QUAD $0x06261e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 38], 6
-	QUAD $0x07260e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 38], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x01280e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 40], 1
-	QUAD $0x02283e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 40], 2
-	QUAD $0x03283654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 40], 3
-	QUAD $0x04281654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 40], 4
-	QUAD $0x05282e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 40], 5
-	QUAD $0x06281e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 40], 6
-	QUAD $0x07280e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 40], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x000000a0ad6f0f66                   // movdqa    xmm5, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
-	LONG $0x44b70f45; WORD $0x363e             // movzx    r8d, word [r14 + rdi + 54]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	QUAD $0x000000b0b56f0f66                   // movdqa    xmm6, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x44b70f41; WORD $0x383e             // movzx    eax, word [r14 + rdi + 56]
-	QUAD $0x012a0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 42], 1
-	QUAD $0x022a3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 42], 2
-	QUAD $0x032a365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 42], 3
-	QUAD $0x042a165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 42], 4
-	QUAD $0x052a2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 42], 5
-	QUAD $0x062a1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 42], 6
-	QUAD $0x072a0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 42], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x012c0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 44], 1
-	QUAD $0x022c3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 44], 2
-	QUAD $0x032c364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 44], 3
-	QUAD $0x042c164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 44], 4
-	QUAD $0x052c2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 44], 5
-	QUAD $0x062c1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 44], 6
-	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd110             // pblendvb    xmm2, xmm9, xmm0
-	LONG $0x7c6e0f66; WORD $0x2824             // movd    xmm7, dword [rsp + 40]
-	LONG $0x5cb70f45; WORD $0x3a3e             // movzx    r11d, word [r14 + rdi + 58]
-	QUAD $0x072c0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 44], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0x0000d0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 208[rbp] /* [rip + .LCPI5_13] */
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xcc               // movd    xmm1, r12d
-	LONG $0x64b70f45; WORD $0x3c3e             // movzx    r12d, word [r14 + rdi + 60]
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	QUAD $0x012e0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 46], 1
-	QUAD $0x022e3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 46], 2
-	QUAD $0x032e3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 46], 3
-	QUAD $0x042e1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 46], 4
-	QUAD $0x052e2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 46], 5
-	QUAD $0x062e1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 46], 6
-	QUAD $0x072e0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 46], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6f0f4566; BYTE $0xc2               // movdqa    xmm8, xmm10
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xd8               // movd    xmm3, r8d
-	QUAD $0x01320e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 50], 1
-	QUAD $0x02323e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 50], 2
-	QUAD $0x0332364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 50], 3
-	QUAD $0x0432164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 50], 4
-	QUAD $0x05322e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 50], 5
-	QUAD $0x06321e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 50], 6
-	QUAD $0x07320e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 50], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI5_8] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe110             // pblendvb    xmm4, xmm9, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	QUAD $0x01300e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 48], 1
-	QUAD $0x02303e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 48], 2
-	QUAD $0x0330367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 48], 3
-	QUAD $0x0430167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 48], 4
-	QUAD $0x05302e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 48], 5
-	QUAD $0x06301e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 48], 6
-	QUAD $0x07300e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 48], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0xef0f4166; BYTE $0xfe               // pxor    xmm7, xmm14
-	QUAD $0x01340e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 52], 1
-	QUAD $0x02343e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 52], 2
-	QUAD $0x03343654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 52], 3
-	QUAD $0x04341654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 52], 4
-	QUAD $0x05342e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 52], 5
-	QUAD $0x06341e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 52], 6
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x07340e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 52], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	QUAD $0x01360e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 54], 1
-	QUAD $0x02363e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 54], 2
-	QUAD $0x0336365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 54], 3
-	QUAD $0x0436165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 54], 4
-	QUAD $0x05362e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 54], 5
-	QUAD $0x06361e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 54], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x07360e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 54], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	QUAD $0x01380e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 56], 1
-	QUAD $0x02383e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 56], 2
-	QUAD $0x0338364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 56], 3
-	QUAD $0x0438164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 56], 4
-	QUAD $0x05382e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 56], 5
-	QUAD $0x06381e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 56], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07380e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 56], 7
-	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
-	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI5_9] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x013a0e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 58], 1
-	QUAD $0x023a3e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 58], 2
-	QUAD $0x033a3654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 58], 3
-	QUAD $0x043a1654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 58], 4
-	QUAD $0x053a2e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 58], 5
-	QUAD $0x063a1e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 58], 6
-	QUAD $0x073a0e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 58], 7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xdc               // movd    xmm3, r12d
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x013c0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 60], 1
-	QUAD $0x023c3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 60], 2
-	QUAD $0x033c365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 60], 3
-	QUAD $0x043c165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 60], 4
-	QUAD $0x053c2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 60], 5
-	QUAD $0x063c1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 60], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x073c0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 60], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe110             // pblendvb    xmm4, xmm9, xmm0
-	QUAD $0x000000c08d6f0f66                   // movdqa    xmm1, oword 192[rbp] /* [rip + .LCPI5_12] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xc910             // pblendvb    xmm1, xmm9, xmm0
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd110             // pblendvb    xmm2, xmm9, xmm0
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x44b70f41; WORD $0x3e3e             // movzx    eax, word [r14 + rdi + 62]
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	QUAD $0x013e0e44c40f4166                   // pinsrw    xmm0, word [r14 + rcx + 62], 1
-	QUAD $0x023e3e44c40f4366                   // pinsrw    xmm0, word [r14 + r15 + 62], 2
-	QUAD $0x033e3644c40f4166                   // pinsrw    xmm0, word [r14 + rsi + 62], 3
-	QUAD $0x043e1644c40f4166                   // pinsrw    xmm0, word [r14 + rdx + 62], 4
-	QUAD $0x053e2e44c40f4366                   // pinsrw    xmm0, word [r14 + r13 + 62], 5
-	QUAD $0x063e1e44c40f4166                   // pinsrw    xmm0, word [r14 + rbx + 62], 6
-	QUAD $0x073e0e44c40f4366                   // pinsrw    xmm0, word [r14 + r9 + 62], 7
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0x380f4566; WORD $0xd110             // pblendvb    xmm10, xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xd2               // por    xmm10, xmm2
-	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
-	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0x6c0f4166; BYTE $0xd2               // punpcklqdq    xmm2, xmm10
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI5_15] */
-	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
-	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
-	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
-	LONG $0x600f4566; BYTE $0xc2               // punpcklbw    xmm8, xmm10
-	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
-	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	LONG $0x7f0f45f3; WORD $0x8824             // movdqu    oword [r8 + 4*rcx], xmm12
-	LONG $0x2444894c; BYTE $0x08               // mov    qword [rsp + 8], r8
-	LONG $0x7f0f41f3; WORD $0x8844; BYTE $0x10 // movdqu    oword [r8 + 4*rcx + 16], xmm0
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
-	JNE  LBB5_110
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	LONG $0x24543b4c; BYTE $0x18               // cmp    r10, qword [rsp + 24]
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	LONG $0x245c8b44; BYTE $0x10               // mov    r11d, dword [rsp + 16]
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	JNE  LBB5_112
-	JMP  LBB5_115
-
-LBB5_132:
-	LONG $0xf8e28349               // and    r10, -8
-	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
-	LONG $0x06e0c148               // shl    rax, 6
-	WORD $0x014c; BYTE $0xf0       // add    rax, r14
-	LONG $0x24448948; BYTE $0x30   // mov    qword [rsp + 48], rax
-	LONG $0x24448b48; BYTE $0x08   // mov    rax, qword [rsp + 8]
-	LONG $0x2454894c; BYTE $0x18   // mov    qword [rsp + 24], r10
-	LONG $0x90048d4a               // lea    rax, [rax + 4*r10]
-	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
-	LONG $0x6e0f4166; BYTE $0xc3   // movd    xmm0, r11d
-	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
-	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
-	WORD $0xff31                   // xor    edi, edi
-	LONG $0xef0f4566; BYTE $0xc9   // pxor    xmm9, xmm9
-
-LBB5_133:
-	LONG $0x247c8948; BYTE $0x40               // mov    qword [rsp + 64], rdi
-	LONG $0x06e7c148                           // shl    rdi, 6
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
-	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	LONG $0x04b70f41; BYTE $0x3e               // movzx    eax, word [r14 + rdi]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f41; WORD $0x023e             // movzx    eax, word [r14 + rdi + 2]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44b70f41; WORD $0x043e             // movzx    eax, word [r14 + rdi + 4]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f41; WORD $0x063e             // movzx    eax, word [r14 + rdi + 6]
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x44b70f41; WORD $0x083e             // movzx    eax, word [r14 + rdi + 8]
-	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
-	LONG $0x44b70f41; WORD $0x0a3e             // movzx    eax, word [r14 + rdi + 10]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x44b70f41; WORD $0x0c3e             // movzx    eax, word [r14 + rdi + 12]
-	LONG $0x44b70f45; WORD $0x0e3e             // movzx    r8d, word [r14 + rdi + 14]
-	LONG $0x54b70f45; WORD $0x103e             // movzx    r10d, word [r14 + rdi + 16]
-	LONG $0x64b70f45; WORD $0x123e             // movzx    r12d, word [r14 + rdi + 18]
-	LONG $0x4cb70f41; WORD $0x143e             // movzx    ecx, word [r14 + rdi + 20]
-	LONG $0x28244c89                           // mov    dword [rsp + 40], ecx
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x80cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 128
-	LONG $0xc0ce8148; WORD $0x0000; BYTE $0x00 // or    rsi, 192
-	LONG $0x00ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 256
-	LONG $0x40cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 320
-	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
-	LONG $0xc40f4166; WORD $0x0e2c; BYTE $0x01 // pinsrw    xmm5, word [r14 + rcx], 1
-	LONG $0xc40f4366; WORD $0x3e2c; BYTE $0x02 // pinsrw    xmm5, word [r14 + r15], 2
-	LONG $0xc40f4166; WORD $0x362c; BYTE $0x03 // pinsrw    xmm5, word [r14 + rsi], 3
-	LONG $0xc40f4166; WORD $0x162c; BYTE $0x04 // pinsrw    xmm5, word [r14 + rdx], 4
-	LONG $0xc40f4366; WORD $0x2e2c; BYTE $0x05 // pinsrw    xmm5, word [r14 + r13], 5
-	LONG $0xc40f4166; WORD $0x1e2c; BYTE $0x06 // pinsrw    xmm5, word [r14 + rbx], 6
-	QUAD $0x01020e44c40f4166                   // pinsrw    xmm0, word [r14 + rcx + 2], 1
-	QUAD $0x02023e44c40f4366                   // pinsrw    xmm0, word [r14 + r15 + 2], 2
-	QUAD $0x03023644c40f4166                   // pinsrw    xmm0, word [r14 + rsi + 2], 3
-	QUAD $0x04021644c40f4166                   // pinsrw    xmm0, word [r14 + rdx + 2], 4
-	QUAD $0x05022e44c40f4366                   // pinsrw    xmm0, word [r14 + r13 + 2], 5
-	QUAD $0x06021e44c40f4166                   // pinsrw    xmm0, word [r14 + rbx + 2], 6
-	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
-	QUAD $0x07020e44c40f4366                   // pinsrw    xmm0, word [r14 + r9 + 2], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f41; WORD $0x163e             // movzx    eax, word [r14 + rdi + 22]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	QUAD $0x01040e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 4], 1
-	QUAD $0x02043e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 4], 2
-	QUAD $0x0304364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 4], 3
-	QUAD $0x0404164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 4], 4
-	QUAD $0x05042e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 4], 5
-	QUAD $0x06041e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 4], 6
-	QUAD $0x07040e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 4], 7
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x000080b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 128[rbp] /* [rip + .LCPI5_8] */
-	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
-	LONG $0x380f4166; WORD $0xd910             // pblendvb    xmm3, xmm9, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x000090bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 144[rbp] /* [rip + .LCPI5_9] */
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
-	LONG $0x5cb70f45; WORD $0x183e             // movzx    r11d, word [r14 + rdi + 24]
-	LONG $0xc40f4366; WORD $0x0e2c; BYTE $0x07 // pinsrw    xmm5, word [r14 + r9], 7
-	LONG $0x750f4166; BYTE $0xeb               // pcmpeqw    xmm5, xmm11
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	QUAD $0x01060e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 6], 1
-	QUAD $0x02063e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 6], 2
-	QUAD $0x0306367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 6], 3
-	QUAD $0x0406167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 6], 4
-	QUAD $0x05062e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 6], 5
-	QUAD $0x06061e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 6], 6
-	QUAD $0x07060e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 6], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01080e44c40f4566                   // pinsrw    xmm8, word [r14 + rcx + 8], 1
-	QUAD $0x02083e44c40f4766                   // pinsrw    xmm8, word [r14 + r15 + 8], 2
-	QUAD $0x03083644c40f4566                   // pinsrw    xmm8, word [r14 + rsi + 8], 3
-	QUAD $0x04081644c40f4566                   // pinsrw    xmm8, word [r14 + rdx + 8], 4
-	QUAD $0x05082e44c40f4766                   // pinsrw    xmm8, word [r14 + r13 + 8], 5
-	QUAD $0x06081e44c40f4566                   // pinsrw    xmm8, word [r14 + rbx + 8], 6
-	QUAD $0x07080e44c40f4766                   // pinsrw    xmm8, word [r14 + r9 + 8], 7
-	LONG $0xddf80f66                           // psubb    xmm3, xmm5
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
-	LONG $0x380f4566; WORD $0xe110             // pblendvb    xmm12, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
-	LONG $0x44b70f45; WORD $0x1a3e             // movzx    r8d, word [r14 + rdi + 26]
-	LONG $0x750f4566; BYTE $0xc3               // pcmpeqw    xmm8, xmm11
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xf4               // movd    xmm6, r12d
-	LONG $0x64b70f45; WORD $0x1c3e             // movzx    r12d, word [r14 + rdi + 28]
-	QUAD $0x010a0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 10], 1
-	QUAD $0x020a3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 10], 2
-	QUAD $0x030a3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 10], 3
-	QUAD $0x040a1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 10], 4
-	QUAD $0x050a2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 10], 5
-	QUAD $0x060a1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 10], 6
-	QUAD $0x070a0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 10], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	QUAD $0x010c0e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 12], 1
-	QUAD $0x020c3e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 12], 2
-	QUAD $0x030c3654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 12], 3
-	QUAD $0x040c1654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 12], 4
-	QUAD $0x050c2e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 12], 5
-	QUAD $0x060c1e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 12], 6
-	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI5_12] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	LONG $0x646e0f66; WORD $0x2824             // movd    xmm4, dword [rsp + 40]
-	LONG $0x54b70f45; WORD $0x1e3e             // movzx    r10d, word [r14 + rdi + 30]
-	QUAD $0x070c0e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 12], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI5_13] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	LONG $0x5c6e0f66; WORD $0x2024             // movd    xmm3, dword [rsp + 32]
-	LONG $0x44b70f41; WORD $0x203e             // movzx    eax, word [r14 + rdi + 32]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	QUAD $0x010e0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 14], 1
-	QUAD $0x020e3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 14], 2
-	QUAD $0x030e364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 14], 3
-	QUAD $0x040e164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 14], 4
-	QUAD $0x050e2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 14], 5
-	QUAD $0x060e1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 14], 6
-	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x44b70f41; WORD $0x223e             // movzx    eax, word [r14 + rdi + 34]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	QUAD $0x070e0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 14], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x01120e74c40f4166                   // pinsrw    xmm6, word [r14 + rcx + 18], 1
-	QUAD $0x02123e74c40f4366                   // pinsrw    xmm6, word [r14 + r15 + 18], 2
-	QUAD $0x03123674c40f4166                   // pinsrw    xmm6, word [r14 + rsi + 18], 3
-	QUAD $0x04121674c40f4166                   // pinsrw    xmm6, word [r14 + rdx + 18], 4
-	QUAD $0x05122e74c40f4366                   // pinsrw    xmm6, word [r14 + r13 + 18], 5
-	QUAD $0x06121e74c40f4166                   // pinsrw    xmm6, word [r14 + rbx + 18], 6
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x07120e74c40f4366                   // pinsrw    xmm6, word [r14 + r9 + 18], 7
-	LONG $0x750f4166; BYTE $0xf3               // pcmpeqw    xmm6, xmm11
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	QUAD $0x0000e0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 224[rbp] /* [rip + .LCPI5_14] */
-	LONG $0x6f0f4566; BYTE $0xe2               // movdqa    xmm12, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4566; WORD $0xe110             // pblendvb    xmm12, xmm9, xmm0
-	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
-	LONG $0x5cb70f45; WORD $0x243e             // movzx    r11d, word [r14 + rdi + 36]
-	QUAD $0x01100e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 16], 1
-	QUAD $0x02103e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 16], 2
-	QUAD $0x0310367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 16], 3
-	QUAD $0x0410167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 16], 4
-	QUAD $0x05102e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 16], 5
-	QUAD $0x06101e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 16], 6
-	QUAD $0x01140e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 20], 1
-	QUAD $0x02143e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 20], 2
-	QUAD $0x03143664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 20], 3
-	QUAD $0x04141664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 20], 4
-	QUAD $0x05142e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 20], 5
-	QUAD $0x06141e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 20], 6
-	QUAD $0x07140e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 20], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xf910             // pblendvb    xmm15, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xe4               // movd    xmm4, r12d
-	LONG $0x64b70f45; WORD $0x263e             // movzx    r12d, word [r14 + rdi + 38]
-	QUAD $0x07100e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 16], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI5_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01160e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 22], 1
-	QUAD $0x02163e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 22], 2
-	QUAD $0x0316365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 22], 3
-	QUAD $0x0416165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 22], 4
-	QUAD $0x05162e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 22], 5
-	QUAD $0x06161e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 22], 6
-	QUAD $0x07160e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 22], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x01180e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 24], 1
-	QUAD $0x02183e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 24], 2
-	QUAD $0x03183654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 24], 3
-	QUAD $0x04181654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 24], 4
-	QUAD $0x05182e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 24], 5
-	QUAD $0x06181e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 24], 6
-	QUAD $0x07180e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 24], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x0000a0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xf110             // pblendvb    xmm14, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x44b70f45; WORD $0x283e             // movzx    r8d, word [r14 + rdi + 40]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4566; BYTE $0xf7               // por    xmm14, xmm15
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
-	LONG $0x54b70f45; WORD $0x2a3e             // movzx    r10d, word [r14 + rdi + 42]
-	QUAD $0x011a0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 26], 1
-	QUAD $0x021a3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 26], 2
-	QUAD $0x031a364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 26], 3
-	QUAD $0x041a164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 26], 4
-	QUAD $0x051a2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 26], 5
-	QUAD $0x061a1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 26], 6
-	QUAD $0x071a0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 26], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x011c0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 28], 1
-	QUAD $0x021c3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 28], 2
-	QUAD $0x031c3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 28], 3
-	QUAD $0x041c1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 28], 4
-	QUAD $0x051c2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 28], 5
-	QUAD $0x061c1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 28], 6
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	QUAD $0x0000c0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 192[rbp] /* [rip + .LCPI5_12] */
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	LONG $0x546e0f66; WORD $0x2824             // movd    xmm2, dword [rsp + 40]
-	LONG $0x44b70f41; WORD $0x2c3e             // movzx    eax, word [r14 + rdi + 44]
-	LONG $0x20244489                           // mov    dword [rsp + 32], eax
-	QUAD $0x071c0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 28], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI5_13] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x5cb70f45; WORD $0x2e3e             // movzx    r11d, word [r14 + rdi + 46]
-	QUAD $0x011e0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 30], 1
-	QUAD $0x021e3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 30], 2
-	QUAD $0x031e365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 30], 3
-	QUAD $0x041e165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 30], 4
-	QUAD $0x051e2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 30], 5
-	QUAD $0x061e1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 30], 6
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xcc               // movd    xmm1, r12d
-	LONG $0x44b70f41; WORD $0x303e             // movzx    eax, word [r14 + rdi + 48]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	QUAD $0x071e0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 30], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	QUAD $0x01220e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 34], 1
-	QUAD $0x02223e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 34], 2
-	QUAD $0x03223654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 34], 3
-	QUAD $0x04221654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 34], 4
-	QUAD $0x05222e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 34], 5
-	QUAD $0x06221e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 34], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07220e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 34], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
-	LONG $0x6f0f4566; BYTE $0xea               // movdqa    xmm13, xmm10
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
-	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI5_8] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xd0               // movd    xmm2, r8d
-	LONG $0x64b70f45; WORD $0x323e             // movzx    r12d, word [r14 + rdi + 50]
-	QUAD $0x01200e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 32], 1
-	QUAD $0x02203e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 32], 2
-	QUAD $0x0320367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 32], 3
-	QUAD $0x0420167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 32], 4
-	QUAD $0x05202e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 32], 5
-	QUAD $0x06201e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 32], 6
-	QUAD $0x01240e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 36], 1
-	QUAD $0x02243e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 36], 2
-	QUAD $0x03243664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 36], 3
-	QUAD $0x04241664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 36], 4
-	QUAD $0x05242e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 36], 5
-	QUAD $0x06241e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 36], 6
-	QUAD $0x07240e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 36], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
-	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI5_9] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x54b70f45; WORD $0x343e             // movzx    r10d, word [r14 + rdi + 52]
-	QUAD $0x07200e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 32], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0x760f4566; BYTE $0xf6               // pcmpeqd    xmm14, xmm14
-	LONG $0xef0f4166; BYTE $0xfe               // pxor    xmm7, xmm14
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01260e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 38], 1
-	QUAD $0x02263e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 38], 2
-	QUAD $0x0326364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 38], 3
-	QUAD $0x0426164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 38], 4
-	QUAD $0x05262e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 38], 5
-	QUAD $0x06261e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 38], 6
-	QUAD $0x07260e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 38], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x01280e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 40], 1
-	QUAD $0x02283e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 40], 2
-	QUAD $0x03283654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 40], 3
-	QUAD $0x04281654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 40], 4
-	QUAD $0x05282e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 40], 5
-	QUAD $0x06281e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 40], 6
-	QUAD $0x07280e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 40], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x000000a0ad6f0f66                   // movdqa    xmm5, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
-	LONG $0x44b70f45; WORD $0x363e             // movzx    r8d, word [r14 + rdi + 54]
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	QUAD $0x000000b0b56f0f66                   // movdqa    xmm6, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x44b70f41; WORD $0x383e             // movzx    eax, word [r14 + rdi + 56]
-	QUAD $0x012a0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 42], 1
-	QUAD $0x022a3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 42], 2
-	QUAD $0x032a365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 42], 3
-	QUAD $0x042a165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 42], 4
-	QUAD $0x052a2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 42], 5
-	QUAD $0x062a1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 42], 6
-	QUAD $0x072a0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 42], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x012c0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 44], 1
-	QUAD $0x022c3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 44], 2
-	QUAD $0x032c364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 44], 3
-	QUAD $0x042c164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 44], 4
-	QUAD $0x052c2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 44], 5
-	QUAD $0x062c1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 44], 6
-	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd110             // pblendvb    xmm2, xmm9, xmm0
-	LONG $0x7c6e0f66; WORD $0x2824             // movd    xmm7, dword [rsp + 40]
-	LONG $0x5cb70f45; WORD $0x3a3e             // movzx    r11d, word [r14 + rdi + 58]
-	QUAD $0x072c0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 44], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0x0000d0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 208[rbp] /* [rip + .LCPI5_13] */
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xcc               // movd    xmm1, r12d
-	LONG $0x64b70f45; WORD $0x3c3e             // movzx    r12d, word [r14 + rdi + 60]
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	QUAD $0x012e0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 46], 1
-	QUAD $0x022e3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 46], 2
-	QUAD $0x032e3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 46], 3
-	QUAD $0x042e1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 46], 4
-	QUAD $0x052e2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 46], 5
-	QUAD $0x062e1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 46], 6
-	QUAD $0x072e0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 46], 7
-	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6f0f4566; BYTE $0xc2               // movdqa    xmm8, xmm10
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xd8               // movd    xmm3, r8d
-	QUAD $0x01320e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 50], 1
-	QUAD $0x02323e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 50], 2
-	QUAD $0x0332364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 50], 3
-	QUAD $0x0432164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 50], 4
-	QUAD $0x05322e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 50], 5
-	QUAD $0x06321e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 50], 6
-	QUAD $0x07320e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 50], 7
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI5_8] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe110             // pblendvb    xmm4, xmm9, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	QUAD $0x01300e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 48], 1
-	QUAD $0x02303e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 48], 2
-	QUAD $0x0330367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 48], 3
-	QUAD $0x0430167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 48], 4
-	QUAD $0x05302e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 48], 5
-	QUAD $0x06301e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 48], 6
-	QUAD $0x07300e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 48], 7
-	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
-	LONG $0xef0f4166; BYTE $0xfe               // pxor    xmm7, xmm14
-	QUAD $0x01340e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 52], 1
-	QUAD $0x02343e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 52], 2
-	QUAD $0x03343654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 52], 3
-	QUAD $0x04341654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 52], 4
-	QUAD $0x05342e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 52], 5
-	QUAD $0x06341e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 52], 6
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x07340e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 52], 7
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	QUAD $0x01360e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 54], 1
-	QUAD $0x02363e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 54], 2
-	QUAD $0x0336365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 54], 3
-	QUAD $0x0436165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 54], 4
-	QUAD $0x05362e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 54], 5
-	QUAD $0x06361e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 54], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x07360e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 54], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	QUAD $0x01380e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 56], 1
-	QUAD $0x02383e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 56], 2
-	QUAD $0x0338364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 56], 3
-	QUAD $0x0438164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 56], 4
-	QUAD $0x05382e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 56], 5
-	QUAD $0x06381e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 56], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07380e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 56], 7
-	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
-	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI5_9] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
-	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI5_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
-	QUAD $0x013a0e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 58], 1
-	QUAD $0x023a3e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 58], 2
-	QUAD $0x033a3654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 58], 3
-	QUAD $0x043a1654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 58], 4
-	QUAD $0x053a2e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 58], 5
-	QUAD $0x063a1e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 58], 6
-	QUAD $0x073a0e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 58], 7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6e0f4166; BYTE $0xdc               // movd    xmm3, r12d
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x013c0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 60], 1
-	QUAD $0x023c3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 60], 2
-	QUAD $0x033c365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 60], 3
-	QUAD $0x043c165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 60], 4
-	QUAD $0x053c2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 60], 5
-	QUAD $0x063c1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 60], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x073c0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 60], 7
-	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI5_11] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe110             // pblendvb    xmm4, xmm9, xmm0
-	QUAD $0x000000c08d6f0f66                   // movdqa    xmm1, oword 192[rbp] /* [rip + .LCPI5_12] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xc910             // pblendvb    xmm1, xmm9, xmm0
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd110             // pblendvb    xmm2, xmm9, xmm0
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x44b70f41; WORD $0x3e3e             // movzx    eax, word [r14 + rdi + 62]
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	QUAD $0x013e0e44c40f4166                   // pinsrw    xmm0, word [r14 + rcx + 62], 1
-	QUAD $0x023e3e44c40f4366                   // pinsrw    xmm0, word [r14 + r15 + 62], 2
-	QUAD $0x033e3644c40f4166                   // pinsrw    xmm0, word [r14 + rsi + 62], 3
-	QUAD $0x043e1644c40f4166                   // pinsrw    xmm0, word [r14 + rdx + 62], 4
-	QUAD $0x053e2e44c40f4366                   // pinsrw    xmm0, word [r14 + r13 + 62], 5
-	QUAD $0x063e1e44c40f4166                   // pinsrw    xmm0, word [r14 + rbx + 62], 6
-	QUAD $0x073e0e44c40f4366                   // pinsrw    xmm0, word [r14 + r9 + 62], 7
-	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0x380f4566; WORD $0xd110             // pblendvb    xmm10, xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xd2               // por    xmm10, xmm2
-	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
-	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0x6c0f4166; BYTE $0xd2               // punpcklqdq    xmm2, xmm10
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI5_15] */
-	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
-	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
-	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
-	LONG $0x600f4566; BYTE $0xc2               // punpcklbw    xmm8, xmm10
-	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
-	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	LONG $0x7f0f45f3; WORD $0x8824             // movdqu    oword [r8 + 4*rcx], xmm12
-	LONG $0x2444894c; BYTE $0x08               // mov    qword [rsp + 8], r8
-	LONG $0x7f0f41f3; WORD $0x8844; BYTE $0x10 // movdqu    oword [r8 + 4*rcx + 16], xmm0
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
-	JNE  LBB5_133
-	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
-	LONG $0x24543b4c; BYTE $0x18               // cmp    r10, qword [rsp + 24]
-	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
-	LONG $0x245c8b44; BYTE $0x10               // mov    r11d, dword [rsp + 16]
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	JNE  LBB5_135
-	JMP  LBB5_138
-
-LBB5_180:
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x014c; BYTE $0xf3                   // add    rbx, r14
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	LONG $0x801c8d4e                           // lea    r11, [rax + 4*r8]
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
-	LONG $0xfcc68149; WORD $0x0001; BYTE $0x00 // add    r14, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI5_0] */
-	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI5_1] */
-	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI5_2] */
-	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI5_3] */
-	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI5_4] */
-	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI5_5] */
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI5_6] */
-	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI5_7] */
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-
-LBB5_181:
-	QUAD $0xfffe04b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 508]
-	QUAD $0xfffe08be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 504]
-	QUAD $0xfffe0cae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 500]
-	QUAD $0xfffe10a6100f41f3; BYTE $0xff               // movss    xmm4, dword [r14 - 496]
-	QUAD $0xfe84b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 380], 16
-	QUAD $0xff04b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 252], 32
-	QUAD $0x308476213a0f4166                           // insertps    xmm6, dword [r14 - 124], 48
-	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	QUAD $0xfe88be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 376], 16
-	QUAD $0xff08be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 248], 32
-	QUAD $0x30887e213a0f4166                           // insertps    xmm7, dword [r14 - 120], 48
-	QUAD $0xfe8cae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 372], 16
-	QUAD $0xff0cae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 244], 32
-	QUAD $0x308c6e213a0f4166                           // insertps    xmm5, dword [r14 - 116], 48
-	QUAD $0xfe90a6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm4, dword [r14 - 368], 16
-	QUAD $0xff10a6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm4, dword [r14 - 240], 32
-	QUAD $0x309066213a0f4166                           // insertps    xmm4, dword [r14 - 112], 48
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0xd76f0f66                                   // movdqa    xmm2, xmm7
-	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
-	LONG $0xd7f80f66                                   // psubb    xmm2, xmm7
-	QUAD $0xfffe14be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 492]
-	QUAD $0xfe94be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 364], 16
-	QUAD $0xff14be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 236], 32
-	QUAD $0x30947e213a0f4166                           // insertps    xmm7, dword [r14 - 108], 48
-	LONG $0xd6eb0f66                                   // por    xmm2, xmm6
-	QUAD $0xfffe18b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 488]
-	QUAD $0xfe98b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 360], 16
-	QUAD $0xff18b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 232], 32
-	QUAD $0x309876213a0f4166                           // insertps    xmm6, dword [r14 - 104], 48
-	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe8                       // pand    xmm5, xmm8
-	LONG $0xeaeb0f66                                   // por    xmm5, xmm2
-	QUAD $0xfffe1c9e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 484]
-	QUAD $0xfe9c9e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 356], 16
-	QUAD $0xff1c9e213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm3, dword [r14 - 228], 32
-	QUAD $0x309c5e213a0f4166                           // insertps    xmm3, dword [r14 - 100], 48
-	LONG $0x04e1c20f                                   // cmpneqps    xmm4, xmm1
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x03                       // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe2                       // pand    xmm4, xmm10
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x04                       // psllw    xmm7, 4
-	LONG $0xdb0f4166; BYTE $0xfb                       // pand    xmm7, xmm11
-	LONG $0xfceb0f66                                   // por    xmm7, xmm4
-	QUAD $0xfffe20a6100f41f3; BYTE $0xff               // movss    xmm4, dword [r14 - 480]
-	QUAD $0xfea0a6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm4, dword [r14 - 352], 16
-	QUAD $0xff20a6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm4, dword [r14 - 224], 32
-	QUAD $0x30a066213a0f4166                           // insertps    xmm4, dword [r14 - 96], 48
-	LONG $0xfdeb0f66                                   // por    xmm7, xmm5
-	QUAD $0xfffe24ae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 476]
-	QUAD $0xfea4ae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 348], 16
-	QUAD $0xff24ae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 220], 32
-	QUAD $0x30a46e213a0f4166                           // insertps    xmm5, dword [r14 - 92], 48
-	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05                       // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4                       // pand    xmm6, xmm12
-	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06                       // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xdd                       // pand    xmm3, xmm13
-	LONG $0xdeeb0f66                                   // por    xmm3, xmm6
-	QUAD $0xfffe2896100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 472]
-	QUAD $0xfea896213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 344], 16
-	QUAD $0xff2896213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 216], 32
-	QUAD $0x30a856213a0f4166                           // insertps    xmm2, dword [r14 - 88], 48
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0x04e1c20f                                   // cmpneqps    xmm4, xmm1
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07                       // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6                       // pand    xmm4, xmm14
-	LONG $0xe3eb0f66                                   // por    xmm4, xmm3
-	QUAD $0xfffe2c9e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 468]
-	QUAD $0xfeac9e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 340], 16
-	QUAD $0xff2c9e213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm3, dword [r14 - 212], 32
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	QUAD $0x30ac5e213a0f4166                           // insertps    xmm3, dword [r14 - 84], 48
-	LONG $0xe7eb0f66                                   // por    xmm4, xmm7
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                                   // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf2f80f66                                   // psubb    xmm6, xmm2
-	QUAD $0xfffe30be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 464]
-	QUAD $0xfeb0be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 336], 16
-	QUAD $0xff30be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 208], 32
-	QUAD $0x30b07e213a0f4166                           // insertps    xmm7, dword [r14 - 80], 48
-	LONG $0xf5eb0f66                                   // por    xmm6, xmm5
-	QUAD $0xfffe34ae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 460]
-	QUAD $0xfeb4ae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 332], 16
-	QUAD $0xff34ae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 204], 32
-	QUAD $0x30b46e213a0f4166                           // insertps    xmm5, dword [r14 - 76], 48
-	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02                       // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8                       // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                                   // por    xmm3, xmm6
-	QUAD $0xfffe38b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 456]
-	QUAD $0xfeb8b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 328], 16
-	QUAD $0xff38b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 200], 32
-	QUAD $0x30b876213a0f4166                           // insertps    xmm6, dword [r14 - 72], 48
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x03                       // psllw    xmm7, 3
-	LONG $0xdb0f4166; BYTE $0xfa                       // pand    xmm7, xmm10
-	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04                       // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb                       // pand    xmm5, xmm11
-	LONG $0xefeb0f66                                   // por    xmm5, xmm7
-	QUAD $0xfffe3c96100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 452]
-	QUAD $0xfebc96213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 324], 16
-	QUAD $0xff3c96213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 196], 32
-	QUAD $0x30bc56213a0f4166                           // insertps    xmm2, dword [r14 - 68], 48
-	LONG $0xebeb0f66                                   // por    xmm5, xmm3
-	QUAD $0xfffe40be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 448]
-	QUAD $0xfec0be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 320], 16
-	QUAD $0xff40be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 192], 32
-	QUAD $0x30c07e213a0f4166                           // insertps    xmm7, dword [r14 - 64], 48
-	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05                       // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4                       // pand    xmm6, xmm12
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06                       // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5                       // pand    xmm2, xmm13
-	LONG $0xd6eb0f66                                   // por    xmm2, xmm6
-	QUAD $0xfffe44b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 444]
-	QUAD $0xfec4b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 316], 16
-	QUAD $0xff44b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 188], 32
-	QUAD $0x30c476213a0f4166                           // insertps    xmm6, dword [r14 - 60], 48
-	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0xf7710f66; BYTE $0x07                       // psllw    xmm7, 7
-	LONG $0xdb0f4166; BYTE $0xfe                       // pand    xmm7, xmm14
-	LONG $0xfaeb0f66                                   // por    xmm7, xmm2
-	QUAD $0xfffe4896100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 440]
-	QUAD $0xfec896213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 312], 16
-	QUAD $0xff4896213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 184], 32
-	QUAD $0x30c856213a0f4166                           // insertps    xmm2, dword [r14 - 56], 48
-	LONG $0xfdeb0f66                                   // por    xmm7, xmm5
-	QUAD $0xfffe4c9e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 436]
-	QUAD $0xfecc9e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 308], 16
-	QUAD $0xff4c9e213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm3, dword [r14 - 180], 32
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	QUAD $0x30cc5e213a0f4166                           // insertps    xmm3, dword [r14 - 52], 48
-	LONG $0xe7620f66                                   // punpckldq    xmm4, xmm7
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xfa6f0f66                                   // movdqa    xmm7, xmm2
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	LONG $0xfaf80f66                                   // psubb    xmm7, xmm2
-	QUAD $0xfffe50ae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 432]
-	QUAD $0xfed0ae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 304], 16
-	QUAD $0xff50ae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 176], 32
-	QUAD $0x30d06e213a0f4166                           // insertps    xmm5, dword [r14 - 48], 48
-	LONG $0xfeeb0f66                                   // por    xmm7, xmm6
-	QUAD $0xfffe54b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 428]
-	QUAD $0xfed4b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 300], 16
-	QUAD $0xff54b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 172], 32
-	QUAD $0x30d476213a0f4166                           // insertps    xmm6, dword [r14 - 44], 48
-	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02                       // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8                       // pand    xmm3, xmm8
-	LONG $0xdfeb0f66                                   // por    xmm3, xmm7
-	QUAD $0xfffe58be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 424]
-	QUAD $0xfed8be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 296], 16
-	QUAD $0xff58be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 168], 32
-	QUAD $0x30d87e213a0f4166                           // insertps    xmm7, dword [r14 - 40], 48
-	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03                       // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea                       // pand    xmm5, xmm10
-	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04                       // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3                       // pand    xmm6, xmm11
-	LONG $0xf5eb0f66                                   // por    xmm6, xmm5
-	QUAD $0xfffe5c96100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 420]
-	QUAD $0xfedc96213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 292], 16
-	QUAD $0xff5c96213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 164], 32
-	QUAD $0x30dc56213a0f4166                           // insertps    xmm2, dword [r14 - 36], 48
-	LONG $0xf3eb0f66                                   // por    xmm6, xmm3
-	QUAD $0xfffe60ae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 416]
-	QUAD $0xfee0ae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 288], 16
-	QUAD $0xff60ae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 160], 32
-	QUAD $0x30e06e213a0f4166                           // insertps    xmm5, dword [r14 - 32], 48
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05                       // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc                       // pand    xmm7, xmm12
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06                       // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5                       // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                                   // por    xmm2, xmm7
-	QUAD $0xfffe64be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 412]
-	QUAD $0xfee4be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 284], 16
-	QUAD $0xff64be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 156], 32
-	QUAD $0x30e47e213a0f4166                           // insertps    xmm7, dword [r14 - 28], 48
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xf5710f66; BYTE $0x07                       // psllw    xmm5, 7
-	LONG $0xdb0f4166; BYTE $0xee                       // pand    xmm5, xmm14
-	LONG $0xeaeb0f66                                   // por    xmm5, xmm2
-	QUAD $0xfffe6896100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 408]
-	QUAD $0xfee896213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 280], 16
-	QUAD $0xff6896213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 152], 32
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	QUAD $0x30e856213a0f4166                           // insertps    xmm2, dword [r14 - 24], 48
-	LONG $0xeeeb0f66                                   // por    xmm5, xmm6
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                                   // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf2f80f66                                   // psubb    xmm6, xmm2
-	QUAD $0xfffe6c9e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 404]
-	QUAD $0xfeec9e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 276], 16
-	QUAD $0xff6c9e213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm3, dword [r14 - 148], 32
-	QUAD $0x30ec5e213a0f4166                           // insertps    xmm3, dword [r14 - 20], 48
-	LONG $0xf7eb0f66                                   // por    xmm6, xmm7
-	QUAD $0xfffe7096100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 400]
-	QUAD $0xfef096213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 272], 16
-	QUAD $0xff7096213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 144], 32
-	QUAD $0x30f056213a0f4166                           // insertps    xmm2, dword [r14 - 16], 48
-	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02                       // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8                       // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                                   // por    xmm3, xmm6
-	QUAD $0xfffe74b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 396]
-	QUAD $0xfef4b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 268], 16
-	QUAD $0xff74b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 140], 32
-	QUAD $0x30f476213a0f4166                           // insertps    xmm6, dword [r14 - 12], 48
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03                       // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2                       // pand    xmm2, xmm10
-	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04                       // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3                       // pand    xmm6, xmm11
-	LONG $0xf2eb0f66                                   // por    xmm6, xmm2
-	QUAD $0xfffe78be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 392]
-	QUAD $0xfef8be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 264], 16
-	QUAD $0xff78be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 136], 32
-	QUAD $0x30f87e213a0f4166                           // insertps    xmm7, dword [r14 - 8], 48
-	LONG $0xf3eb0f66                                   // por    xmm6, xmm3
-	QUAD $0xfffe7c96100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 388]
-	QUAD $0xfefc96213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 260], 16
-	QUAD $0xff7c96213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 132], 32
-	QUAD $0x30fc56213a0f4166                           // insertps    xmm2, dword [r14 - 4], 48
-	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05                       // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc                       // pand    xmm7, xmm12
-	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06                       // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5                       // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                                   // por    xmm2, xmm7
-	QUAD $0xfffe809e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 384]
-	QUAD $0xff009e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 256], 16
-	QUAD $0x20805e213a0f4166                           // insertps    xmm3, dword [r14 - 128], 32
-	LONG $0x3a0f4166; WORD $0x1e21; BYTE $0x30         // insertps    xmm3, dword [r14], 48
-	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07                       // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde                       // pand    xmm3, xmm14
-	LONG $0xdaeb0f66                                   // por    xmm3, xmm2
-	LONG $0xdeeb0f66                                   // por    xmm3, xmm6
-	LONG $0xeb620f66                                   // punpckldq    xmm5, xmm3
-	LONG $0xe5600f66                                   // punpcklbw    xmm4, xmm5
-	LONG $0x380f4166; WORD $0xe100                     // pshufb    xmm4, xmm9
-	LONG $0x247f0ff3; BYTE $0x88                       // movdqu    oword [rax + 4*rcx], xmm4
-	LONG $0x04c18348                                   // add    rcx, 4
-	LONG $0x00c68149; WORD $0x0002; BYTE $0x00         // add    r14, 512
-	WORD $0x3949; BYTE $0xc8                           // cmp    r8, rcx
-	JNE  LBB5_181
-	WORD $0x394d; BYTE $0xc2                           // cmp    r10, r8
-	JNE  LBB5_183
-	JMP  LBB5_186
-
-TEXT ·_comparison_greater_arr_arr_sse4(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB6_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB6_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB6_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB6_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_20:
-	WORD $0x0a8b                 // mov    ecx, dword [rdx]
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0x0e3b                 // cmp    ecx, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_20
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	LONG $0xd5970f41                           // seta    r13b
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	LONG $0xd7970f41                           // seta    r15b
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	LONG $0xd1970f41                           // seta    r9b
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0xd4970f41                           // seta    r12b
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	LONG $0x405e8b44                           // mov    r11d, dword [rsi + 64]
-	LONG $0xd2970f41                           // seta    r10b
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x405a3b44                           // cmp    r11d, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	LONG $0xd6970f41                           // seta    r14b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x4c                   // mov    eax, dword [rsi + 76]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	WORD $0x423b; BYTE $0x4c                   // cmp    eax, dword [rdx + 76]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd3970f41                           // seta    r11b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd7970f40                           // seta    dil
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x28               // add    r13b, byte [rsp + 40]
-	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14               // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x6cb60f44; WORD $0x1524             // movzx    r13d, byte [rsp + 21]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xd9                   // or    r9b, bl
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
-	LONG $0x245cb60f; BYTE $0x05               // movzx    ebx, byte [rsp + 5]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0a               // add    r14b, byte [rsp + 10]
-	LONG $0x244cb60f; BYTE $0x06               // movzx    ecx, byte [rsp + 6]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xf1                   // or    cl, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0841; BYTE $0xcb                   // or    r11b, cl
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xd9                   // or    cl, r11b
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x0b               // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x44b60f44; WORD $0x0d24             // movzx    r8d, byte [rsp + 13]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0844; BYTE $0xc7                   // or    dil, r8b
-	LONG $0x01568845                           // mov    byte [r14 + 1], r10b
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x244cb60f; BYTE $0x0e               // movzx    ecx, byte [rsp + 14]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x13244c02                           // add    cl, byte [rsp + 19]
-	LONG $0x245cb60f; BYTE $0x0c               // movzx    ebx, byte [rsp + 12]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x244cb60f; BYTE $0x0f               // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x12               // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x027e8841                           // mov    byte [r14 + 2], dil
-	LONG $0x03468841                           // mov    byte [r14 + 3], al
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff20             // add    qword [rsp + 32], -1
-	JNE  LBB6_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-
-LBB6_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_28:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8a     // mov    edi, dword [rdx + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8e     // cmp    edi, dword [rsi + 4*rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_28
-	JMP  LBB6_123
-
-LBB6_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB6_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB6_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB6_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_48:
-	LONG $0x06100ff2             // movsd    xmm0, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	LONG $0xd2970f41             // seta    r10b
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_48
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB6_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff2                           // movsd    xmm0, qword [rsi]
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x46100ff2; BYTE $0x08               // movsd    xmm0, qword [rsi + 8]
-	LONG $0x422e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rdx + 8]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x46100ff2; BYTE $0x10               // movsd    xmm0, qword [rsi + 16]
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	LONG $0x46100ff2; BYTE $0x18               // movsd    xmm0, qword [rsi + 24]
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	LONG $0x46100ff2; BYTE $0x20               // movsd    xmm0, qword [rsi + 32]
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	LONG $0x46100ff2; BYTE $0x28               // movsd    xmm0, qword [rsi + 40]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	LONG $0x46100ff2; BYTE $0x30               // movsd    xmm0, qword [rsi + 48]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x46100ff2; BYTE $0x38               // movsd    xmm0, qword [rsi + 56]
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x46100ff2; BYTE $0x40               // movsd    xmm0, qword [rsi + 64]
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x46100ff2; BYTE $0x48               // movsd    xmm0, qword [rsi + 72]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x46100ff2; BYTE $0x50               // movsd    xmm0, qword [rsi + 80]
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x46100ff2; BYTE $0x58               // movsd    xmm0, qword [rsi + 88]
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x46100ff2; BYTE $0x60               // movsd    xmm0, qword [rsi + 96]
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x46100ff2; BYTE $0x68               // movsd    xmm0, qword [rsi + 104]
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	LONG $0x46100ff2; BYTE $0x70               // movsd    xmm0, qword [rsi + 112]
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	LONG $0x46100ff2; BYTE $0x78               // movsd    xmm0, qword [rsi + 120]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	QUAD $0x0000008086100ff2                   // movsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	QUAD $0x0000008886100ff2                   // movsd    xmm0, qword [rsi + 136]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	LONG $0xd4970f41                           // seta    r12b
-	QUAD $0x0000009086100ff2                   // movsd    xmm0, qword [rsi + 144]
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	LONG $0xd5970f41                           // seta    r13b
-	QUAD $0x0000009886100ff2                   // movsd    xmm0, qword [rsi + 152]
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	QUAD $0x000000a086100ff2                   // movsd    xmm0, qword [rsi + 160]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	QUAD $0x000000a886100ff2                   // movsd    xmm0, qword [rsi + 168]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	QUAD $0x000000b086100ff2                   // movsd    xmm0, qword [rsi + 176]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	QUAD $0x000000b886100ff2                   // movsd    xmm0, qword [rsi + 184]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd1970f41                           // seta    r9b
-	QUAD $0x000000c086100ff2                   // movsd    xmm0, qword [rsi + 192]
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	QUAD $0x000000c886100ff2                   // movsd    xmm0, qword [rsi + 200]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	QUAD $0x000000d086100ff2                   // movsd    xmm0, qword [rsi + 208]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	QUAD $0x000000d886100ff2                   // movsd    xmm0, qword [rsi + 216]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	QUAD $0x000000e086100ff2                   // movsd    xmm0, qword [rsi + 224]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	QUAD $0x000000e886100ff2                   // movsd    xmm0, qword [rsi + 232]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	QUAD $0x000000f086100ff2                   // movsd    xmm0, qword [rsi + 240]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f886100ff2                   // movsd    xmm0, qword [rsi + 248]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x04244c02                           // add    cl, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x08               // add    dil, byte [rsp + 8]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e2c041                           // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0xcf89                               // mov    edi, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x07               // movzx    edi, byte [rsp + 7]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0e               // add    r12b, byte [rsp + 14]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x13               // movzx    eax, byte [rsp + 19]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB6_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB6_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_56:
-	LONG $0x04100ff2; BYTE $0xce // movsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042e0f66; BYTE $0xca // ucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_56
-	JMP  LBB6_123
-
-LBB6_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB6_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x24549f0f; BYTE $0x28   // setg    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x9f0f; BYTE $0xd1       // setg    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x24549f0f; BYTE $0x14   // setg    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x24549f0f; BYTE $0x15   // setg    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x24549f0f; BYTE $0x16   // setg    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x24549f0f; BYTE $0x17   // setg    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x24549f0f; BYTE $0x04   // setg    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd79f0f41               // setg    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x07   // setg    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd79f0f40               // setg    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd29f0f41               // setg    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd39f0f41               // setg    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd69f0f41               // setg    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x24549f0f; BYTE $0x05   // setg    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x24549f0f; BYTE $0x06   // setg    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x9f0f; BYTE $0xd3       // setg    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x0d   // setg    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd49f0f41               // setg    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd59f0f41               // setg    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x24549f0f; BYTE $0x08   // setg    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x24549f0f; BYTE $0x09   // setg    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x24549f0f; BYTE $0x0a   // setg    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x24549f0f; BYTE $0x0b   // setg    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd19f0f41               // setg    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x13   // setg    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x24549f0f; BYTE $0x0c   // setg    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x24549f0f; BYTE $0x0e   // setg    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x24549f0f; BYTE $0x0f   // setg    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x24549f0f; BYTE $0x10   // setg    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x24549f0f; BYTE $0x11   // setg    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x24549f0f; BYTE $0x12   // setg    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd09f0f41               // setg    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB6_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB6_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_14
-	JMP  LBB6_123
-
-LBB6_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB6_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB6_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_34:
-	WORD $0x8b48; BYTE $0x0a     // mov    rcx, qword [rdx]
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0x3b48; BYTE $0x0e     // cmp    rcx, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_34
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	LONG $0x809e8b4c; WORD $0x0000; BYTE $0x00 // mov    r11, qword [rsi + 128]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x809a3b4c; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0x98868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 152]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	LONG $0x98823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 152]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x28               // add    r13b, byte [rsp + 40]
-	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14               // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x6cb60f44; WORD $0x1524             // movzx    r13d, byte [rsp + 21]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xd9                   // or    r9b, bl
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
-	LONG $0x245cb60f; BYTE $0x05               // movzx    ebx, byte [rsp + 5]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0a               // add    r14b, byte [rsp + 10]
-	LONG $0x244cb60f; BYTE $0x06               // movzx    ecx, byte [rsp + 6]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0844; BYTE $0xf1                   // or    cl, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0841; BYTE $0xcb                   // or    r11b, cl
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xd9                   // or    cl, r11b
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x0b               // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x44b60f44; WORD $0x0d24             // movzx    r8d, byte [rsp + 13]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0844; BYTE $0xc7                   // or    dil, r8b
-	LONG $0x01568845                           // mov    byte [r14 + 1], r10b
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x244cb60f; BYTE $0x0e               // movzx    ecx, byte [rsp + 14]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x13244c02                           // add    cl, byte [rsp + 19]
-	LONG $0x245cb60f; BYTE $0x0c               // movzx    ebx, byte [rsp + 12]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0xcb08                               // or    bl, cl
-	LONG $0x244cb60f; BYTE $0x0f               // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x12               // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x027e8841                           // mov    byte [r14 + 2], dil
-	LONG $0x03468841                           // mov    byte [r14 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff20             // add    qword [rsp + 32], -1
-	JNE  LBB6_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-
-LBB6_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_42:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xca3c8b48             // mov    rdi, qword [rdx + 8*rcx]
-	LONG $0xce3c3b48             // cmp    rdi, qword [rsi + 8*rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_42
-	JMP  LBB6_123
-
-LBB6_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_70:
-	WORD $0xb70f; BYTE $0x0a     // movzx    ecx, word [rdx]
-	LONG $0x02c28348             // add    rdx, 2
-	WORD $0x3b66; BYTE $0x0e     // cmp    cx, word [rsi]
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_70
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454970f; BYTE $0x28   // seta    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0xd5970f41               // seta    r13b
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454970f; BYTE $0x14   // seta    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x2454970f; BYTE $0x15   // seta    byte [rsp + 21]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454970f; BYTE $0x17   // seta    byte [rsp + 23]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x2454970f; BYTE $0x16   // seta    byte [rsp + 22]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454970f; BYTE $0x04   // seta    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0xd7970f41               // seta    r15b
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454970f; BYTE $0x09   // seta    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0xd0970f41               // seta    r8b
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	WORD $0x970f; BYTE $0xd3       // seta    bl
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0xd1970f41               // seta    r9b
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0xd4970f41               // seta    r12b
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x2454970f; BYTE $0x05   // seta    byte [rsp + 5]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454970f; BYTE $0x07   // seta    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	LONG $0x5eb70f44; BYTE $0x20   // movzx    r11d, word [rsi + 32]
-	LONG $0xd2970f41               // seta    r10b
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x5a3b4466; BYTE $0x20   // cmp    r11w, word [rdx + 32]
-	LONG $0x2454970f; BYTE $0x0a   // seta    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0xd6970f41               // seta    r14b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2646b70f               // movzx    eax, word [rsi + 38]
-	LONG $0x2454970f; BYTE $0x06   // seta    byte [rsp + 6]
-	LONG $0x26423b66               // cmp    ax, word [rdx + 38]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd3970f41               // seta    r11b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454970f; BYTE $0x08   // seta    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454970f; BYTE $0x0b   // seta    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2454970f; BYTE $0x0d   // seta    byte [rsp + 13]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd7970f40               // seta    dil
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454970f; BYTE $0x13   // seta    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x2454970f; BYTE $0x0e   // seta    byte [rsp + 14]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454970f; BYTE $0x0c   // seta    byte [rsp + 12]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454970f; BYTE $0x0f   // seta    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x2454970f; BYTE $0x12   // seta    byte [rsp + 18]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454970f; BYTE $0x11   // seta    byte [rsp + 17]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454970f; BYTE $0x10   // seta    byte [rsp + 16]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	WORD $0x970f; BYTE $0xd0       // seta    al
-	WORD $0x0045; BYTE $0xed       // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x28   // add    r13b, byte [rsp + 40]
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x6cb60f44; WORD $0x1524 // movzx    r13d, byte [rsp + 21]
-	LONG $0x03e5c041               // shl    r13b, 3
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xe3c0; BYTE $0x02       // shl    bl, 2
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e1c041               // shl    r9b, 3
-	WORD $0x0841; BYTE $0xd9       // or    r9b, bl
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x04e4c041               // shl    r12b, 4
-	WORD $0x0845; BYTE $0xcc       // or    r12b, r9b
-	LONG $0x245cb60f; BYTE $0x05   // movzx    ebx, byte [rsp + 5]
-	WORD $0xe3c0; BYTE $0x05       // shl    bl, 5
-	WORD $0x0844; BYTE $0xe3       // or    bl, r12b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	LONG $0x07e2c041               // shl    r10b, 7
-	WORD $0x0845; BYTE $0xc2       // or    r10b, r8b
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0x0841; BYTE $0xda       // or    r10b, bl
-	WORD $0x0045; BYTE $0xf6       // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0a   // add    r14b, byte [rsp + 10]
-	LONG $0x244cb60f; BYTE $0x06   // movzx    ecx, byte [rsp + 6]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0x0844; BYTE $0xf1       // or    cl, r14b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0841; BYTE $0xcb       // or    r11b, cl
-	LONG $0x244cb60f; BYTE $0x08   // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0x0844; BYTE $0xd9       // or    cl, r11b
-	WORD $0xcb89                   // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0xd908                   // or    cl, bl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x44b60f44; WORD $0x0d24 // movzx    r8d, byte [rsp + 13]
-	LONG $0x06e0c041               // shl    r8b, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0844; BYTE $0xc7       // or    dil, r8b
-	LONG $0x01568845               // mov    byte [r14 + 1], r10b
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	LONG $0x244cb60f; BYTE $0x0e   // movzx    ecx, byte [rsp + 14]
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x13244c02               // add    cl, byte [rsp + 19]
-	LONG $0x245cb60f; BYTE $0x0c   // movzx    ebx, byte [rsp + 12]
-	WORD $0xe3c0; BYTE $0x02       // shl    bl, 2
-	WORD $0xcb08                   // or    bl, cl
-	LONG $0x244cb60f; BYTE $0x0f   // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xd908                   // or    cl, bl
-	WORD $0xcb89                   // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xd908                   // or    cl, bl
-	WORD $0xcb89                   // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0xd908                   // or    cl, bl
-	LONG $0x245cb60f; BYTE $0x10   // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06       // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07       // shl    al, 7
-	WORD $0xd808                   // or    al, bl
-	WORD $0xc808                   // or    al, cl
-	LONG $0x027e8841               // mov    byte [r14 + 2], dil
-	LONG $0x03468841               // mov    byte [r14 + 3], al
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB6_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB6_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_78:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4a3cb70f             // movzx    edi, word [rdx + 2*rcx]
-	LONG $0x4e3c3b66             // cmp    di, word [rsi + 2*rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_78
-	JMP  LBB6_123
-
-LBB6_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB6_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x24549f0f; BYTE $0x28   // setg    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x24549f0f; BYTE $0x20   // setg    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x24549f0f; BYTE $0x14   // setg    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x24549f0f; BYTE $0x15   // setg    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x16   // setg    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x24549f0f; BYTE $0x17   // setg    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x24549f0f; BYTE $0x04   // setg    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd59f0f41               // setg    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x09   // setg    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd09f0f41               // setg    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd39f0f41               // setg    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd79f0f41               // setg    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x05   // setg    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x24549f0f; BYTE $0x06   // setg    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x24549f0f; BYTE $0x07   // setg    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x9f0f; BYTE $0xd3       // setg    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x24549f0f; BYTE $0x0a   // setg    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd29f0f41               // setg    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd69f0f41               // setg    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd49f0f41               // setg    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x08   // setg    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x24549f0f; BYTE $0x0b   // setg    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x24549f0f; BYTE $0x0c   // setg    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd19f0f41               // setg    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x24549f0f; BYTE $0x13   // setg    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x24549f0f; BYTE $0x0d   // setg    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x24549f0f; BYTE $0x0e   // setg    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x24549f0f; BYTE $0x0f   // setg    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x24549f0f; BYTE $0x10   // setg    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x24549f0f; BYTE $0x12   // setg    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x24549f0f; BYTE $0x11   // setg    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd79f0f40               // setg    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB6_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB6_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_89
-	JMP  LBB6_123
-
-LBB6_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB6_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x14               // setg    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x15               // setg    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x16               // setg    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x17               // setg    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd59f0f41                           // setg    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x24549f0f; BYTE $0x09               // setg    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x24549f0f; BYTE $0x05               // setg    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x24549f0f; BYTE $0x06               // setg    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x24549f0f; BYTE $0x07               // setg    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x24549f0f; BYTE $0x0a               // setg    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x24549f0f; BYTE $0x0b               // setg    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x24549f0f; BYTE $0x0c               // setg    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x24549f0f; BYTE $0x13               // setg    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x24549f0f; BYTE $0x0d               // setg    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x24549f0f; BYTE $0x0e               // setg    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x24549f0f; BYTE $0x0f               // setg    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x24549f0f; BYTE $0x12               // setg    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x24549f0f; BYTE $0x11               // setg    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB6_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB6_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_111
-	JMP  LBB6_123
-
-LBB6_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_114:
-	LONG $0x06100ff3             // movss    xmm0, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
-	LONG $0xd2970f41             // seta    r10b
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_114
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB6_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff3                           // movss    xmm0, dword [rsi]
-	WORD $0x2e0f; BYTE $0x02                   // ucomiss    xmm0, dword [rdx]
-	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
-	LONG $0x46100ff3; BYTE $0x04               // movss    xmm0, dword [rsi + 4]
-	LONG $0x04422e0f                           // ucomiss    xmm0, dword [rdx + 4]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x46100ff3; BYTE $0x08               // movss    xmm0, dword [rsi + 8]
-	LONG $0x08422e0f                           // ucomiss    xmm0, dword [rdx + 8]
-	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
-	LONG $0x46100ff3; BYTE $0x0c               // movss    xmm0, dword [rsi + 12]
-	LONG $0x0c422e0f                           // ucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
-	LONG $0x46100ff3; BYTE $0x10               // movss    xmm0, dword [rsi + 16]
-	LONG $0x10422e0f                           // ucomiss    xmm0, dword [rdx + 16]
-	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
-	LONG $0x46100ff3; BYTE $0x14               // movss    xmm0, dword [rsi + 20]
-	LONG $0x14422e0f                           // ucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
-	LONG $0x46100ff3; BYTE $0x18               // movss    xmm0, dword [rsi + 24]
-	LONG $0x18422e0f                           // ucomiss    xmm0, dword [rdx + 24]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x46100ff3; BYTE $0x1c               // movss    xmm0, dword [rsi + 28]
-	LONG $0x1c422e0f                           // ucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x46100ff3; BYTE $0x20               // movss    xmm0, dword [rsi + 32]
-	LONG $0x20422e0f                           // ucomiss    xmm0, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x46100ff3; BYTE $0x24               // movss    xmm0, dword [rsi + 36]
-	LONG $0x24422e0f                           // ucomiss    xmm0, dword [rdx + 36]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x46100ff3; BYTE $0x28               // movss    xmm0, dword [rsi + 40]
-	LONG $0x28422e0f                           // ucomiss    xmm0, dword [rdx + 40]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x46100ff3; BYTE $0x2c               // movss    xmm0, dword [rsi + 44]
-	LONG $0x2c422e0f                           // ucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x46100ff3; BYTE $0x30               // movss    xmm0, dword [rsi + 48]
-	LONG $0x30422e0f                           // ucomiss    xmm0, dword [rdx + 48]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x46100ff3; BYTE $0x34               // movss    xmm0, dword [rsi + 52]
-	LONG $0x34422e0f                           // ucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
-	LONG $0x46100ff3; BYTE $0x38               // movss    xmm0, dword [rsi + 56]
-	LONG $0x38422e0f                           // ucomiss    xmm0, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
-	LONG $0x46100ff3; BYTE $0x3c               // movss    xmm0, dword [rsi + 60]
-	LONG $0x3c422e0f                           // ucomiss    xmm0, dword [rdx + 60]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x46100ff3; BYTE $0x40               // movss    xmm0, dword [rsi + 64]
-	LONG $0x40422e0f                           // ucomiss    xmm0, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
-	LONG $0x46100ff3; BYTE $0x44               // movss    xmm0, dword [rsi + 68]
-	LONG $0x44422e0f                           // ucomiss    xmm0, dword [rdx + 68]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x46100ff3; BYTE $0x48               // movss    xmm0, dword [rsi + 72]
-	LONG $0x48422e0f                           // ucomiss    xmm0, dword [rdx + 72]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x46100ff3; BYTE $0x4c               // movss    xmm0, dword [rsi + 76]
-	LONG $0x4c422e0f                           // ucomiss    xmm0, dword [rdx + 76]
-	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
-	LONG $0x46100ff3; BYTE $0x50               // movss    xmm0, dword [rsi + 80]
-	LONG $0x50422e0f                           // ucomiss    xmm0, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
-	LONG $0x46100ff3; BYTE $0x54               // movss    xmm0, dword [rsi + 84]
-	LONG $0x54422e0f                           // ucomiss    xmm0, dword [rdx + 84]
-	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
-	LONG $0x46100ff3; BYTE $0x58               // movss    xmm0, dword [rsi + 88]
-	LONG $0x58422e0f                           // ucomiss    xmm0, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
-	LONG $0x46100ff3; BYTE $0x5c               // movss    xmm0, dword [rsi + 92]
-	LONG $0x5c422e0f                           // ucomiss    xmm0, dword [rdx + 92]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x46100ff3; BYTE $0x60               // movss    xmm0, dword [rsi + 96]
-	LONG $0x60422e0f                           // ucomiss    xmm0, dword [rdx + 96]
-	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
-	LONG $0x46100ff3; BYTE $0x64               // movss    xmm0, dword [rsi + 100]
-	LONG $0x64422e0f                           // ucomiss    xmm0, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
-	LONG $0x46100ff3; BYTE $0x68               // movss    xmm0, dword [rsi + 104]
-	LONG $0x68422e0f                           // ucomiss    xmm0, dword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
-	LONG $0x46100ff3; BYTE $0x6c               // movss    xmm0, dword [rsi + 108]
-	LONG $0x6c422e0f                           // ucomiss    xmm0, dword [rdx + 108]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x46100ff3; BYTE $0x70               // movss    xmm0, dword [rsi + 112]
-	LONG $0x70422e0f                           // ucomiss    xmm0, dword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
-	LONG $0x46100ff3; BYTE $0x74               // movss    xmm0, dword [rsi + 116]
-	LONG $0x74422e0f                           // ucomiss    xmm0, dword [rdx + 116]
-	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
-	LONG $0x46100ff3; BYTE $0x78               // movss    xmm0, dword [rsi + 120]
-	LONG $0x78422e0f                           // ucomiss    xmm0, dword [rdx + 120]
-	LONG $0x46100ff3; BYTE $0x7c               // movss    xmm0, dword [rsi + 124]
-	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x7c422e0f                           // ucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x04244c02                           // add    cl, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	LONG $0x247c0240; BYTE $0x08               // add    dil, byte [rsp + 8]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e2c041                           // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0xcf89                               // mov    edi, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x07               // movzx    edi, byte [rsp + 7]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0e               // add    r12b, byte [rsp + 14]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x13               // movzx    eax, byte [rsp + 19]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB6_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB6_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_122:
-	LONG $0x04100ff3; BYTE $0x8e // movss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x8a042e0f             // ucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_122
-	JMP  LBB6_123
-
-LBB6_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_59:
-	WORD $0xb60f; BYTE $0x0a     // movzx    ecx, byte [rdx]
-	LONG $0x01c28348             // add    rdx, 1
-	WORD $0x0e3a                 // cmp    cl, byte [rsi]
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
-	LONG $0x07588d48             // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xd8490f48             // cmovns    rbx, rax
-	LONG $0x03fbc148             // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
-	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_59
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB6_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454970f; BYTE $0x04   // seta    byte [rsp + 4]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	LONG $0xd5970f41               // seta    r13b
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	LONG $0x2454970f; BYTE $0x14   // seta    byte [rsp + 20]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454970f; BYTE $0x16   // seta    byte [rsp + 22]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	LONG $0x2454970f; BYTE $0x15   // seta    byte [rsp + 21]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454970f; BYTE $0x17   // seta    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	LONG $0x2454970f; BYTE $0x28   // seta    byte [rsp + 40]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7970f41               // seta    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	LONG $0x2454970f; BYTE $0x07   // seta    byte [rsp + 7]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	WORD $0x970f; BYTE $0xd1       // seta    cl
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	LONG $0xd1970f41               // seta    r9b
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3970f41               // seta    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	LONG $0xd2970f41               // seta    r10b
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454970f; BYTE $0x06   // seta    byte [rsp + 6]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	LONG $0x2454970f; BYTE $0x05   // seta    byte [rsp + 5]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x970f; BYTE $0xd3       // seta    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	LONG $0x2454970f; BYTE $0x0c   // seta    byte [rsp + 12]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4970f41               // seta    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	LONG $0xd6970f41               // seta    r14b
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454970f; BYTE $0x09   // seta    byte [rsp + 9]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	LONG $0x2454970f; BYTE $0x08   // seta    byte [rsp + 8]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454970f; BYTE $0x0b   // seta    byte [rsp + 11]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	LONG $0x2454970f; BYTE $0x0a   // seta    byte [rsp + 10]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd0970f41               // seta    r8b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	LONG $0x2454970f; BYTE $0x12   // seta    byte [rsp + 18]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454970f; BYTE $0x0e   // seta    byte [rsp + 14]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	LONG $0x2454970f; BYTE $0x0d   // seta    byte [rsp + 13]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454970f; BYTE $0x10   // seta    byte [rsp + 16]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	LONG $0x2454970f; BYTE $0x0f   // seta    byte [rsp + 15]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454970f; BYTE $0x11   // seta    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454970f; BYTE $0x13   // seta    byte [rsp + 19]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd7970f40               // seta    dil
-	WORD $0x0045; BYTE $0xed       // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x04   // add    r13b, byte [rsp + 4]
-	WORD $0x8944; BYTE $0xe8       // mov    eax, r13d
-	LONG $0x6cb60f44; WORD $0x2824 // movzx    r13d, byte [rsp + 40]
-	LONG $0x06e5c041               // shl    r13b, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef       // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x1424 // movzx    r13d, byte [rsp + 20]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	WORD $0x8944; BYTE $0xe8       // mov    eax, r13d
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x07244c02               // add    cl, byte [rsp + 7]
-	LONG $0x6cb60f44; WORD $0x1624 // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041               // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x02e1c041               // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd       // mov    r13d, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb       // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
-	LONG $0x04e2c041               // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda       // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xd0       // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0524 // movzx    r9d, byte [rsp + 5]
-	LONG $0x06e1c041               // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb       // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0c   // add    r12b, byte [rsp + 12]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xe6       // or    r14b, r12b
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x244cb60f; BYTE $0x08   // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0a   // movzx    ecx, byte [rsp + 10]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xc000                   // add    al, al
-	LONG $0x12244402               // add    al, byte [rsp + 18]
-	LONG $0x244cb60f; BYTE $0x0d   // movzx    ecx, byte [rsp + 13]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x0f   // movzx    ecx, byte [rsp + 15]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0xc108                   // or    cl, al
-	LONG $0x2444b60f; BYTE $0x13   // movzx    eax, byte [rsp + 19]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	LONG $0x02468845               // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB6_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB6_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_67:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0a1cb60f             // movzx    ebx, byte [rdx + rcx]
-	WORD $0x1c3a; BYTE $0x0e     // cmp    bl, byte [rsi + rcx]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_67
-	JMP  LBB6_123
-
-LBB6_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB6_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB6_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd29f0f41             // setg    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB6_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB6_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB6_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB6_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x24549f0f; BYTE $0x14               // setg    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x24549f0f; BYTE $0x15               // setg    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x24549f0f; BYTE $0x16               // setg    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x24549f0f; BYTE $0x17               // setg    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd59f0f41                           // setg    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x09               // setg    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd39f0f41                           // setg    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd79f0f41                           // setg    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x24549f0f; BYTE $0x05               // setg    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x24549f0f; BYTE $0x06               // setg    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x24549f0f; BYTE $0x07               // setg    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x24549f0f; BYTE $0x0a               // setg    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd29f0f41                           // setg    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd69f0f41                           // setg    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd49f0f41                           // setg    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x24549f0f; BYTE $0x0b               // setg    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x24549f0f; BYTE $0x0c               // setg    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd19f0f41                           // setg    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x24549f0f; BYTE $0x13               // setg    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x24549f0f; BYTE $0x0d               // setg    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x24549f0f; BYTE $0x0e               // setg    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x24549f0f; BYTE $0x0f               // setg    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x24549f0f; BYTE $0x12               // setg    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x24549f0f; BYTE $0x11               // setg    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB6_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB6_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB6_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB6_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB6_100
-
-LBB6_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA5<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA5<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA5<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA5<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA5<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA5<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA5<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA5<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA5<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA5<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA5<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA5<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA5<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA5<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA5<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA5<>+0x080(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x090(SB)/8, $0x0f070e060d050c04
-DATA LCDATA5<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA5<>+0x0a0(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x0a8(SB)/8, $0x0101010101010101
-DATA LCDATA5<>+0x0b0(SB)/8, $0x0404040404040404
-DATA LCDATA5<>+0x0b8(SB)/8, $0x0404040404040404
-DATA LCDATA5<>+0x0c0(SB)/8, $0x0808080808080808
-DATA LCDATA5<>+0x0c8(SB)/8, $0x0808080808080808
-DATA LCDATA5<>+0x0d0(SB)/8, $0x1010101010101010
-DATA LCDATA5<>+0x0d8(SB)/8, $0x1010101010101010
-DATA LCDATA5<>+0x0e0(SB)/8, $0x2020202020202020
-DATA LCDATA5<>+0x0e8(SB)/8, $0x2020202020202020
-DATA LCDATA5<>+0x0f0(SB)/8, $0x4040404040404040
-DATA LCDATA5<>+0x0f8(SB)/8, $0x4040404040404040
-DATA LCDATA5<>+0x100(SB)/8, $0xffffffffffffffff
-DATA LCDATA5<>+0x108(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA5<>(SB), 8, $272
-
-TEXT ·_comparison_greater_arr_scalar_sse4(SB), $360-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 336(SP)
-	LEAQ LCDATA5<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xcc // mov    r12, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB7_26
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB7_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB7_98
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB7_113
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB7_200
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_17
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_15:
-	WORD $0x3b44; BYTE $0x2e                   // cmp    r13d, dword [rsi]
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0xd219                               // sbb    edx, edx
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_15
-	LONG $0x01c48349                           // add    r12, 1
-
-LBB7_17:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_21
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-
-LBB7_19:
-	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000d02494970f                   // seta    byte [rsp + 208]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2414970f                           // seta    byte [rsp]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x241c8841                           // mov    byte [r12], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x244c8841; BYTE $0x01               // mov    byte [r12 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x247c8845; BYTE $0x02               // mov    byte [r12 + 2], r15b
-	LONG $0x24448845; BYTE $0x03               // mov    byte [r12 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB7_19
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-
-LBB7_21:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_135
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_24
-
-LBB7_26:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB7_27
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB7_155
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB7_170
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB7_200
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_49
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_47:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0xd219                 // sbb    edx, edx
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_47
-	LONG $0x01c48349             // add    r12, 1
-
-LBB7_49:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_53
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-
-LBB7_51:
-	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
-	LONG $0x062e0f66                           // ucomisd    xmm0, qword [rsi]
-	QUAD $0x000000d02494920f                   // setb    byte [rsp + 208]
-	LONG $0x462e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1920f41                           // setb    r9b
-	LONG $0x462e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6920f41                           // setb    r14b
-	LONG $0x462e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5920f41                           // setb    r13b
-	LONG $0x462e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rsi + 32]
-	LONG $0x2454920f; BYTE $0x70               // setb    byte [rsp + 112]
-	LONG $0x462e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rsi + 40]
-	LONG $0x2454920f; BYTE $0x58               // setb    byte [rsp + 88]
-	LONG $0x462e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rsi + 48]
-	WORD $0x920f; BYTE $0xd0                   // setb    al
-	LONG $0x462e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rsi + 56]
-	WORD $0x920f; BYTE $0xd3                   // setb    bl
-	LONG $0x462e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rsi + 64]
-	QUAD $0x000000a02494920f                   // setb    byte [rsp + 160]
-	LONG $0x462e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rsi + 72]
-	WORD $0x920f; BYTE $0xd2                   // setb    dl
-	LONG $0x462e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7920f40                           // setb    dil
-	LONG $0x462e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2920f41                           // setb    r10b
-	LONG $0x462e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3920f41                           // setb    r11b
-	LONG $0x462e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4920f41                           // setb    r12b
-	LONG $0x462e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rsi + 112]
-	LONG $0x2454920f; BYTE $0x78               // setb    byte [rsp + 120]
-	LONG $0x462e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rsi + 120]
-	WORD $0x920f; BYTE $0xd1                   // setb    cl
-	QUAD $0x00000080862e0f66                   // ucomisd    xmm0, qword [rsi + 128]
-	LONG $0x2454920f; BYTE $0x50               // setb    byte [rsp + 80]
-	QUAD $0x00000088862e0f66                   // ucomisd    xmm0, qword [rsi + 136]
-	QUAD $0x000000902494920f                   // setb    byte [rsp + 144]
-	QUAD $0x00000090862e0f66                   // ucomisd    xmm0, qword [rsi + 144]
-	LONG $0x2454920f; BYTE $0x68               // setb    byte [rsp + 104]
-	QUAD $0x00000098862e0f66                   // ucomisd    xmm0, qword [rsi + 152]
-	LONG $0x2454920f; BYTE $0x60               // setb    byte [rsp + 96]
-	QUAD $0x000000a0862e0f66                   // ucomisd    xmm0, qword [rsi + 160]
-	LONG $0x2454920f; BYTE $0x40               // setb    byte [rsp + 64]
-	QUAD $0x000000a8862e0f66                   // ucomisd    xmm0, qword [rsi + 168]
-	LONG $0x2454920f; BYTE $0x48               // setb    byte [rsp + 72]
-	QUAD $0x000000b0862e0f66                   // ucomisd    xmm0, qword [rsi + 176]
-	LONG $0x2454920f; BYTE $0x38               // setb    byte [rsp + 56]
-	QUAD $0x000000b8862e0f66                   // ucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7920f41                           // setb    r15b
-	QUAD $0x000000c0862e0f66                   // ucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454920f; BYTE $0x08               // setb    byte [rsp + 8]
-	QUAD $0x000000c8862e0f66                   // ucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454920f; BYTE $0x30               // setb    byte [rsp + 48]
-	QUAD $0x000000d0862e0f66                   // ucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454920f; BYTE $0x18               // setb    byte [rsp + 24]
-	QUAD $0x000000d8862e0f66                   // ucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454920f; BYTE $0x20               // setb    byte [rsp + 32]
-	QUAD $0x000000e0862e0f66                   // ucomisd    xmm0, qword [rsi + 224]
-	LONG $0x2454920f; BYTE $0x28               // setb    byte [rsp + 40]
-	QUAD $0x000000e8862e0f66                   // ucomisd    xmm0, qword [rsi + 232]
-	LONG $0x2454920f; BYTE $0x10               // setb    byte [rsp + 16]
-	QUAD $0x000000f0862e0f66                   // ucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2414920f                           // setb    byte [rsp]
-	QUAD $0x000000f8862e0f66                   // ucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0920f41                           // setb    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x000000d0248c0244                   // add    r9b, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x1888                               // mov    byte [rax], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	WORD $0x4888; BYTE $0x01                   // mov    byte [rax + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x02788844                           // mov    byte [rax + 2], r15b
-	LONG $0x03408844                           // mov    byte [rax + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c08348                           // add    rax, 4
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB7_51
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-
-LBB7_53:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_193
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_195
-
-LBB7_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB7_56
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB7_200
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_6:
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	WORD $0x894d; BYTE $0xe7     // mov    r15, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_6
-	LONG $0x01c48349             // add    r12, 1
-
-LBB7_8:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_9
-	LONG $0x10fa8349         // cmp    r10, 16
-	LONG $0x24348844         // mov    byte [rsp], r14b
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000001202494894c // mov    qword [rsp + 288], r10
-	JB   LBB7_81
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x05e0c148         // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc4 // cmp    r12, rax
-	JAE  LBB7_84
-	LONG $0x94048d4b         // lea    rax, [r12 + 4*r10]
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JAE  LBB7_84
-
-LBB7_81:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
-	LONG $0x2464894c; BYTE $0x58 // mov    qword [rsp + 88], r12
-
-LBB7_87:
-	QUAD $0x000000e824942b4c // sub    r10, qword [rsp + 232]
-	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
-
-LBB7_88:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x36                   // cmp    byte [rsi], r14b
-	QUAD $0x000000b024949f0f                   // setg    byte [rsp + 176]
-	LONG $0x01763844                           // cmp    byte [rsi + 1], r14b
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x02713844                           // cmp    byte [rcx + 2], r14b
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x03713844                           // cmp    byte [rcx + 3], r14b
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x04713844                           // cmp    byte [rcx + 4], r14b
-	QUAD $0x000000d024949f0f                   // setg    byte [rsp + 208]
-	LONG $0x05713844                           // cmp    byte [rcx + 5], r14b
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x06713844                           // cmp    byte [rcx + 6], r14b
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x07713844                           // cmp    byte [rcx + 7], r14b
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x08713844                           // cmp    byte [rcx + 8], r14b
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x09713844                           // cmp    byte [rcx + 9], r14b
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x0a713844                           // cmp    byte [rcx + 10], r14b
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x0b713844                           // cmp    byte [rcx + 11], r14b
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x0c713844                           // cmp    byte [rcx + 12], r14b
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd59f0f41                           // setg    r13b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000b024b40240                   // add    sil, byte [rsp + 176]
-	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x34b60f44; BYTE $0x24               // movzx    r14d, byte [rsp]
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x78245402                           // add    dl, byte [rsp + 120]
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xc000                               // add    al, al
-	LONG $0x30244402                           // add    al, byte [rsp + 48]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	LONG $0x24548948; BYTE $0x58               // mov    qword [rsp + 88], rdx
-	QUAD $0x000000f024848348; BYTE $0xff       // add    qword [rsp + 240], -1
-	JNE  LBB7_88
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	JMP  LBB7_90
-
-LBB7_27:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB7_137
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB7_200
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_33
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_31:
-	WORD $0x3b4c; BYTE $0x2e                   // cmp    r13, qword [rsi]
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0xd219                               // sbb    edx, edx
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_31
-	LONG $0x01c48349                           // add    r12, 1
-
-LBB7_33:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_37
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-
-LBB7_35:
-	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000d02494970f                   // seta    byte [rsp + 208]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2414970f                           // seta    byte [rsp]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0970f41                           // seta    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x241c8841                           // mov    byte [r12], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x244c8841; BYTE $0x01               // mov    byte [r12 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x247c8845; BYTE $0x02               // mov    byte [r12 + 2], r15b
-	LONG $0x24448845; BYTE $0x03               // mov    byte [r12 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB7_35
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-
-LBB7_37:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_153
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_40
-
-LBB7_56:
-	WORD $0x028a             // mov    al, byte [rdx]
-	LONG $0x28244488         // mov    byte [rsp + 40], al
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_60
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_58:
-	LONG $0x244cb60f; BYTE $0x28 // movzx    ecx, byte [rsp + 40]
-	WORD $0x0e3a                 // cmp    cl, byte [rsi]
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0xd219                 // sbb    edx, edx
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_58
-	LONG $0x01c48349             // add    r12, 1
-
-LBB7_60:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_61
-	LONG $0x10fa8349         // cmp    r10, 16
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000001082494894c // mov    qword [rsp + 264], r10
-	JB   LBB7_63
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x05e0c148         // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc4 // cmp    r12, rax
-	JAE  LBB7_66
-	LONG $0x94048d4b         // lea    rax, [r12 + 4*r10]
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	JAE  LBB7_66
-
-LBB7_63:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
-	WORD $0x8949; BYTE $0xf6     // mov    r14, rsi
-	LONG $0x2464894c; BYTE $0x48 // mov    qword [rsp + 72], r12
-
-LBB7_69:
-	QUAD $0x000000e824942b4c // sub    r10, qword [rsp + 232]
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-
-LBB7_70:
-	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
-	LONG $0x74b60f44; WORD $0x2824             // movzx    r14d, byte [rsp + 40]
-	WORD $0x3844; BYTE $0x31                   // cmp    byte [rcx], r14b
-	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
-	LONG $0x01713844                           // cmp    byte [rcx + 1], r14b
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x02713844                           // cmp    byte [rcx + 2], r14b
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x03713844                           // cmp    byte [rcx + 3], r14b
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x04713844                           // cmp    byte [rcx + 4], r14b
-	QUAD $0x000000d02494970f                   // seta    byte [rsp + 208]
-	LONG $0x05713844                           // cmp    byte [rcx + 5], r14b
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x06713844                           // cmp    byte [rcx + 6], r14b
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x07713844                           // cmp    byte [rcx + 7], r14b
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x08713844                           // cmp    byte [rcx + 8], r14b
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x09713844                           // cmp    byte [rcx + 9], r14b
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x0a713844                           // cmp    byte [rcx + 10], r14b
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x0b713844                           // cmp    byte [rcx + 11], r14b
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x0c713844                           // cmp    byte [rcx + 12], r14b
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x0d713844                           // cmp    byte [rcx + 13], r14b
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x18713844                           // cmp    byte [rcx + 24], r14b
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x19713844                           // cmp    byte [rcx + 25], r14b
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x1a713844                           // cmp    byte [rcx + 26], r14b
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x1b713844                           // cmp    byte [rcx + 27], r14b
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x1c713844                           // cmp    byte [rcx + 28], r14b
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x1d713844                           // cmp    byte [rcx + 29], r14b
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x1e713844                           // cmp    byte [rcx + 30], r14b
-	LONG $0x2414970f                           // seta    byte [rsp]
-	LONG $0x1f713844                           // cmp    byte [rcx + 31], r14b
-	LONG $0xd6970f41                           // seta    r14b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
-	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
-	LONG $0x246c0244; BYTE $0x68               // add    r13b, byte [rsp + 104]
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	WORD $0x8844; BYTE $0x00                   // mov    byte [rax], r8b
-	LONG $0x247cb60f; BYTE $0x38               // movzx    edi, byte [rsp + 56]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x5888; BYTE $0x01                   // mov    byte [rax + 1], bl
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x245cb60f; BYTE $0x30               // movzx    ebx, byte [rsp + 48]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x18245c02                           // add    bl, byte [rsp + 24]
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x20               // movzx    ebx, byte [rsp + 32]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x2434b60f                           // movzx    esi, byte [rsp]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	WORD $0x5088; BYTE $0x02                   // mov    byte [rax + 2], dl
-	LONG $0x03708844                           // mov    byte [rax + 3], r14b
-	LONG $0x20718d4c                           // lea    r14, [rcx + 32]
-	LONG $0x04c08348                           // add    rax, 4
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB7_70
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	JMP  LBB7_72
-
-LBB7_137:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_141
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_139:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_139
-	LONG $0x01c48349                           // add    r12, 1
-
-LBB7_141:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_145
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-
-LBB7_143:
-	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000000d024949f0f                   // setg    byte [rsp + 208]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x24149f0f                           // setg    byte [rsp]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x241c8841                           // mov    byte [r12], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x244c8841; BYTE $0x01               // mov    byte [r12 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x247c8845; BYTE $0x02               // mov    byte [r12 + 2], r15b
-	LONG $0x24448845; BYTE $0x03               // mov    byte [r12 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB7_143
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-
-LBB7_145:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_151
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_148
-
-LBB7_98:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_102
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_100:
-	LONG $0x2e3b4466                           // cmp    r13w, word [rsi]
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	WORD $0x1945; BYTE $0xc9                   // sbb    r9d, r9d
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	WORD $0x894c; BYTE $0xe2                   // mov    rdx, r12
-	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
-	WORD $0x3045; BYTE $0xc1                   // xor    r9b, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2044; BYTE $0xcf                   // and    dil, r9b
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_100
-	LONG $0x01c48349                           // add    r12, 1
-
-LBB7_102:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_106
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-
-LBB7_104:
-	QUAD $0x0000008024a4894c             // mov    qword [rsp + 128], r12
-	LONG $0x2e394466                     // cmp    word [rsi], r13w
-	LONG $0x2454970f; BYTE $0x58         // seta    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
-	LONG $0xd7970f40                     // seta    dil
-	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
-	LONG $0xd6970f41                     // seta    r14b
-	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
-	QUAD $0x000000c02494970f             // seta    byte [rsp + 192]
-	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
-	QUAD $0x000000902494970f             // seta    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
-	LONG $0x2454970f; BYTE $0x78         // seta    byte [rsp + 120]
-	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
-	WORD $0x970f; BYTE $0xd0             // seta    al
-	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
-	WORD $0x970f; BYTE $0xd3             // seta    bl
-	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
-	LONG $0x2454970f; BYTE $0x20         // seta    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
-	WORD $0x970f; BYTE $0xd2             // seta    dl
-	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
-	LONG $0xd1970f41                     // seta    r9b
-	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
-	LONG $0xd2970f41                     // seta    r10b
-	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
-	LONG $0xd3970f41                     // seta    r11b
-	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
-	LONG $0xd4970f41                     // seta    r12b
-	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
-	QUAD $0x000000d02494970f             // seta    byte [rsp + 208]
-	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
-	WORD $0x970f; BYTE $0xd1             // seta    cl
-	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
-	LONG $0x2454970f; BYTE $0x10         // seta    byte [rsp + 16]
-	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
-	QUAD $0x000000a02494970f             // seta    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
-	LONG $0x2454970f; BYTE $0x68         // seta    byte [rsp + 104]
-	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
-	LONG $0x2454970f; BYTE $0x70         // seta    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
-	LONG $0x2454970f; BYTE $0x60         // seta    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
-	LONG $0x2454970f; BYTE $0x50         // seta    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
-	LONG $0x2454970f; BYTE $0x40         // seta    byte [rsp + 64]
-	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
-	LONG $0xd7970f41                     // seta    r15b
-	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
-	LONG $0x2414970f                     // seta    byte [rsp]
-	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
-	LONG $0x2454970f; BYTE $0x48         // seta    byte [rsp + 72]
-	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
-	LONG $0x2454970f; BYTE $0x38         // seta    byte [rsp + 56]
-	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
-	LONG $0x2454970f; BYTE $0x30         // seta    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
-	LONG $0x2454970f; BYTE $0x18         // seta    byte [rsp + 24]
-	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
-	LONG $0x2454970f; BYTE $0x08         // seta    byte [rsp + 8]
-	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
-	LONG $0x2454970f; BYTE $0x28         // seta    byte [rsp + 40]
-	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
-	LONG $0xd0970f41                     // seta    r8b
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	LONG $0x247c0240; BYTE $0x58         // add    dil, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xc308                         // or    bl, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x20245402                     // add    dl, byte [rsp + 32]
-	QUAD $0x000000c02484b60f             // movzx    eax, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	LONG $0x02e1c041                     // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
-	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0xc208                         // or    dl, al
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x03e2c041                     // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x78         // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	LONG $0x04e3c041                     // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
-	QUAD $0x000000d024bcb60f             // movzx    edi, byte [rsp + 208]
-	LONG $0x06e7c040                     // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9             // or    cl, dil
-	WORD $0xd308                         // or    bl, dl
-	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
-	QUAD $0x0000008024a48b4c             // mov    r12, qword [rsp + 128]
-	QUAD $0x000000a02494b60f             // movzx    edx, byte [rsp + 160]
-	WORD $0xd200                         // add    dl, dl
-	LONG $0x10245402                     // add    dl, byte [rsp + 16]
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68         // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x70         // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	WORD $0xd789                         // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x50         // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa             // or    dl, dil
-	LONG $0x241c8841                     // mov    byte [r12], bl
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
-	LONG $0x244c8841; BYTE $0x01         // mov    byte [r12 + 1], cl
-	WORD $0x0841; BYTE $0xd7             // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x48         // movzx    ecx, byte [rsp + 72]
-	WORD $0xc900                         // add    cl, cl
-	WORD $0x0c02; BYTE $0x24             // add    cl, byte [rsp]
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18         // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x08         // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0xd108                         // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x28         // movzx    edx, byte [rsp + 40]
-	WORD $0xe2c0; BYTE $0x06             // shl    dl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0             // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
-	LONG $0x247c8845; BYTE $0x02         // mov    byte [r12 + 2], r15b
-	LONG $0x24448845; BYTE $0x03         // mov    byte [r12 + 3], r8b
-	LONG $0x40c68348                     // add    rsi, 64
-	LONG $0x04c48349                     // add    r12, 4
-	QUAD $0x000000b024848348; BYTE $0xff // add    qword [rsp + 176], -1
-	JNE  LBB7_104
-	QUAD $0x00000088249c8b4c             // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f024948b4c             // mov    r10, qword [rsp + 240]
-
-LBB7_106:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_111
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_109
-
-LBB7_113:
-	WORD $0xb70f; BYTE $0x02                   // movzx    eax, word [rdx]
-	LONG $0xf0248489; WORD $0x0000; BYTE $0x00 // mov    dword [rsp + 240], eax
-	LONG $0x1f738d4d                           // lea    r14, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb                   // test    r11, r11
-	LONG $0xf3490f4d                           // cmovns    r14, r11
-	LONG $0x07418d41                           // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	LONG $0xc1490f41                           // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8                   // and    eax, -8
-	WORD $0x2941; BYTE $0xc1                   // sub    r9d, eax
-	JE   LBB7_117
-	WORD $0x6349; BYTE $0xc1                   // movsxd    rax, r9d
-	QUAD $0x000000f024948b44                   // mov    r10d, dword [rsp + 240]
-
-LBB7_115:
-	LONG $0x16394466             // cmp    word [rsi], r10w
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	WORD $0x894d; BYTE $0xe7     // mov    r15, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_115
-	LONG $0x01c48349             // add    r12, 1
-
-LBB7_117:
-	LONG $0x05fec149         // sar    r14, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_128
-	LONG $0x08fe8349         // cmp    r14, 8
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x0000011024b4894c // mov    qword [rsp + 272], r14
-	JB   LBB7_119
-	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc4 // cmp    r12, rax
-	JAE  LBB7_122
-	LONG $0xb4048d4b         // lea    rax, [r12 + 4*r14]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB7_122
-
-LBB7_119:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
-
-LBB7_125:
-	LONG $0x2424894c             // mov    qword [rsp], r12
-	LONG $0x24742b4c; BYTE $0x18 // sub    r14, qword [rsp + 24]
-	QUAD $0x000000b024b4894c     // mov    qword [rsp + 176], r14
-	QUAD $0x000000f024ac8b44     // mov    r13d, dword [rsp + 240]
-
-LBB7_126:
-	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000000d024949f0f                   // setg    byte [rsp + 208]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000c024840244                   // add    r8b, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x90248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 144]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x50244c02                           // add    cl, byte [rsp + 80]
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x240c8b48                           // mov    rcx, qword [rsp]
-	WORD $0x1988                               // mov    byte [rcx], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x01798840                           // mov    byte [rcx + 1], dil
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x08244402                           // add    al, byte [rsp + 8]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
-	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
-	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x240c8948                           // mov    qword [rsp], rcx
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB7_126
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	LONG $0x24248b4c                           // mov    r12, qword [rsp]
-
-LBB7_128:
-	LONG $0x05e6c149         // shl    r14, 5
-	WORD $0x394d; BYTE $0xde // cmp    r14, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xde // add    r14, r11
-	JNE  LBB7_133
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB7_131
-
-LBB7_155:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB7_159
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB7_157:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB7_157
-	LONG $0x01c48349                           // add    r12, 1
-
-LBB7_159:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_163
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-
-LBB7_161:
-	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000000d024949f0f                   // setg    byte [rsp + 208]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x24149f0f                           // setg    byte [rsp]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd09f0f41                           // setg    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
-	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x50245402                           // add    dl, byte [rsp + 80]
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x241c8841                           // mov    byte [r12], bl
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x244c8841; BYTE $0x01               // mov    byte [r12 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x247c8845; BYTE $0x02               // mov    byte [r12 + 2], r15b
-	LONG $0x24448845; BYTE $0x03               // mov    byte [r12 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
-	JNE  LBB7_161
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
-
-LBB7_163:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_168
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_166
-
-LBB7_170:
-	LONG $0x1f538d4d             // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb     // test    r11, r11
-	LONG $0xd3490f4d             // cmovns    r10, r11
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	LONG $0x100f44f3; BYTE $0x1a // movss    xmm11, dword [rdx]
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB7_174
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-
-LBB7_172:
-	LONG $0x1e2e0f44             // ucomiss    xmm11, dword [rsi]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0xd219                 // sbb    edx, edx
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB7_172
-	LONG $0x01c48349             // add    r12, 1
-
-LBB7_174:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB7_175
-	LONG $0x04fa8349         // cmp    r10, 4
-	JB   LBB7_177
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc4 // cmp    r12, rax
-	JAE  LBB7_180
-	LONG $0x94048d4b         // lea    rax, [r12 + 4*r10]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB7_180
-
-LBB7_177:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-	WORD $0x894d; BYTE $0xe6 // mov    r14, r12
-
-LBB7_183:
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
-	WORD $0x294d; BYTE $0xc2 // sub    r10, r8
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-
-LBB7_184:
-	LONG $0x2434894c                           // mov    qword [rsp], r14
-	LONG $0x1b2e0f44                           // ucomiss    xmm11, dword [rbx]
-	QUAD $0x000000d02494920f                   // setb    byte [rsp + 208]
-	LONG $0x5b2e0f44; BYTE $0x04               // ucomiss    xmm11, dword [rbx + 4]
-	LONG $0xd0920f41                           // setb    r8b
-	LONG $0x5b2e0f44; BYTE $0x08               // ucomiss    xmm11, dword [rbx + 8]
-	LONG $0xd6920f41                           // setb    r14b
-	LONG $0x5b2e0f44; BYTE $0x0c               // ucomiss    xmm11, dword [rbx + 12]
-	LONG $0xd5920f41                           // setb    r13b
-	LONG $0x5b2e0f44; BYTE $0x10               // ucomiss    xmm11, dword [rbx + 16]
-	LONG $0x2454920f; BYTE $0x70               // setb    byte [rsp + 112]
-	LONG $0x5b2e0f44; BYTE $0x14               // ucomiss    xmm11, dword [rbx + 20]
-	LONG $0x2454920f; BYTE $0x58               // setb    byte [rsp + 88]
-	LONG $0x5b2e0f44; BYTE $0x18               // ucomiss    xmm11, dword [rbx + 24]
-	WORD $0x920f; BYTE $0xd0                   // setb    al
-	LONG $0x5b2e0f44; BYTE $0x1c               // ucomiss    xmm11, dword [rbx + 28]
-	LONG $0xd3920f41                           // setb    r11b
-	LONG $0x5b2e0f44; BYTE $0x20               // ucomiss    xmm11, dword [rbx + 32]
-	QUAD $0x000000a02494920f                   // setb    byte [rsp + 160]
-	LONG $0x5b2e0f44; BYTE $0x24               // ucomiss    xmm11, dword [rbx + 36]
-	WORD $0x920f; BYTE $0xd2                   // setb    dl
-	LONG $0x5b2e0f44; BYTE $0x28               // ucomiss    xmm11, dword [rbx + 40]
-	LONG $0xd6920f40                           // setb    sil
-	LONG $0x5b2e0f44; BYTE $0x2c               // ucomiss    xmm11, dword [rbx + 44]
-	LONG $0xd1920f41                           // setb    r9b
-	LONG $0x5b2e0f44; BYTE $0x30               // ucomiss    xmm11, dword [rbx + 48]
-	LONG $0xd2920f41                           // setb    r10b
-	LONG $0x5b2e0f44; BYTE $0x34               // ucomiss    xmm11, dword [rbx + 52]
-	LONG $0xd4920f41                           // setb    r12b
-	LONG $0x5b2e0f44; BYTE $0x38               // ucomiss    xmm11, dword [rbx + 56]
-	LONG $0x2454920f; BYTE $0x78               // setb    byte [rsp + 120]
-	LONG $0x5b2e0f44; BYTE $0x3c               // ucomiss    xmm11, dword [rbx + 60]
-	LONG $0xd7920f40                           // setb    dil
-	LONG $0x5b2e0f44; BYTE $0x40               // ucomiss    xmm11, dword [rbx + 64]
-	LONG $0x2454920f; BYTE $0x50               // setb    byte [rsp + 80]
-	LONG $0x5b2e0f44; BYTE $0x44               // ucomiss    xmm11, dword [rbx + 68]
-	QUAD $0x000000902494920f                   // setb    byte [rsp + 144]
-	LONG $0x5b2e0f44; BYTE $0x48               // ucomiss    xmm11, dword [rbx + 72]
-	LONG $0x2454920f; BYTE $0x68               // setb    byte [rsp + 104]
-	LONG $0x5b2e0f44; BYTE $0x4c               // ucomiss    xmm11, dword [rbx + 76]
-	LONG $0x2454920f; BYTE $0x60               // setb    byte [rsp + 96]
-	LONG $0x5b2e0f44; BYTE $0x50               // ucomiss    xmm11, dword [rbx + 80]
-	LONG $0x2454920f; BYTE $0x40               // setb    byte [rsp + 64]
-	LONG $0x5b2e0f44; BYTE $0x54               // ucomiss    xmm11, dword [rbx + 84]
-	LONG $0x2454920f; BYTE $0x48               // setb    byte [rsp + 72]
-	LONG $0x5b2e0f44; BYTE $0x58               // ucomiss    xmm11, dword [rbx + 88]
-	LONG $0x2454920f; BYTE $0x38               // setb    byte [rsp + 56]
-	LONG $0x5b2e0f44; BYTE $0x5c               // ucomiss    xmm11, dword [rbx + 92]
-	LONG $0xd7920f41                           // setb    r15b
-	LONG $0x5b2e0f44; BYTE $0x60               // ucomiss    xmm11, dword [rbx + 96]
-	LONG $0x2454920f; BYTE $0x08               // setb    byte [rsp + 8]
-	LONG $0x5b2e0f44; BYTE $0x64               // ucomiss    xmm11, dword [rbx + 100]
-	LONG $0x2454920f; BYTE $0x30               // setb    byte [rsp + 48]
-	LONG $0x5b2e0f44; BYTE $0x68               // ucomiss    xmm11, dword [rbx + 104]
-	LONG $0x2454920f; BYTE $0x18               // setb    byte [rsp + 24]
-	LONG $0x5b2e0f44; BYTE $0x6c               // ucomiss    xmm11, dword [rbx + 108]
-	LONG $0x2454920f; BYTE $0x20               // setb    byte [rsp + 32]
-	LONG $0x5b2e0f44; BYTE $0x70               // ucomiss    xmm11, dword [rbx + 112]
-	LONG $0x2454920f; BYTE $0x28               // setb    byte [rsp + 40]
-	LONG $0x5b2e0f44; BYTE $0x74               // ucomiss    xmm11, dword [rbx + 116]
-	LONG $0x2454920f; BYTE $0x10               // setb    byte [rsp + 16]
-	LONG $0x5b2e0f44; BYTE $0x78               // ucomiss    xmm11, dword [rbx + 120]
-	QUAD $0x000000802494920f                   // setb    byte [rsp + 128]
-	LONG $0x5b2e0f44; BYTE $0x7c               // ucomiss    xmm11, dword [rbx + 124]
-	WORD $0x920f; BYTE $0xd1                   // setb    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000d024840244                   // add    r8b, byte [rsp + 208]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x78               // movzx    esi, byte [rsp + 120]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
-	LONG $0x24348b4c                           // mov    r14, qword [rsp]
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xc000                               // add    al, al
-	LONG $0x50244402                           // add    al, byte [rsp + 80]
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x38               // movzx    esi, byte [rsp + 56]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x017e8841                           // mov    byte [r14 + 1], dil
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x08244402                           // add    al, byte [rsp + 8]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x034e8841                           // mov    byte [r14 + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB7_184
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	JMP  LBB7_186
-
-LBB7_9:
-	LONG $0x2464894c; BYTE $0x58 // mov    qword [rsp + 88], r12
-
-LBB7_90:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_93
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB7_96
-
-LBB7_61:
-	LONG $0x2464894c; BYTE $0x48 // mov    qword [rsp + 72], r12
-	WORD $0x8949; BYTE $0xf6     // mov    r14, rsi
-
-LBB7_72:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_75
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB7_78
-
-LBB7_175:
-	WORD $0x894d; BYTE $0xe6 // mov    r14, r12
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-
-LBB7_186:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB7_200
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB7_191
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB7_189
-
-LBB7_153:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_154:
-	WORD $0x3b4c; BYTE $0x2e     // cmp    r13, qword [rsi]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x14b60f45; BYTE $0x14 // movzx    r10d, byte [r12 + rdx]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x14048841             // mov    byte [r12 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e3b4c             // cmp    r13, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x141c8841             // mov    byte [r12 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB7_154
-
-LBB7_40:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_200
-	WORD $0x3b4c; BYTE $0x2e // cmp    r13, qword [rsi]
-	JMP  LBB7_197
-
-LBB7_151:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_152:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_152
-
-LBB7_148:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_200
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-	JMP  LBB7_150
-
-LBB7_93:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x245c8b4c; BYTE $0x58 // mov    r11, qword [rsp + 88]
-
-LBB7_94:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e343846             // cmp    byte [rsi + r9], r14b
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x06743844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r14b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB7_94
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB7_96:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB7_200
-	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x58 // mov    r8, qword [rsp + 88]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
-	LONG $0x101c8841             // mov    byte [r8 + rdx], bl
-	JMP  LBB7_200
-
-LBB7_75:
-	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
-	LONG $0xfee18349             // and    r9, -2
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x245c8b4c; BYTE $0x48 // mov    r11, qword [rsp + 72]
-	LONG $0x24548a44; BYTE $0x28 // mov    r10b, byte [rsp + 40]
-
-LBB7_76:
-	LONG $0x06143a45             // cmp    r10b, byte [r14 + rax]
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x1cb60f41; BYTE $0x3b // movzx    ebx, byte [r11 + rdi]
-	WORD $0x3040; BYTE $0xde     // xor    sil, bl
-	WORD $0x2040; BYTE $0xf2     // and    dl, sil
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	LONG $0x06543a45; BYTE $0x01 // cmp    r10b, byte [r14 + rax + 1]
-	LONG $0x02408d48             // lea    rax, [rax + 2]
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x3040; BYTE $0xd6     // xor    sil, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0xd330                 // xor    bl, dl
-	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
-	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
-	JNE  LBB7_76
-	WORD $0x0149; BYTE $0xc6     // add    r14, rax
-
-LBB7_78:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB7_200
-	LONG $0x28244c8a             // mov    cl, byte [rsp + 40]
-	WORD $0x3a41; BYTE $0x0e     // cmp    cl, byte [r14]
-	WORD $0xd219                 // sbb    edx, edx
-	WORD $0x8948; BYTE $0xc6     // mov    rsi, rax
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x24448b4c; BYTE $0x48 // mov    r8, qword [rsp + 72]
-	LONG $0x303c8a41             // mov    dil, byte [r8 + rsi]
-	WORD $0x0724                 // and    al, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xfa     // xor    dl, dil
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
-	LONG $0x301c8841             // mov    byte [r8 + rsi], bl
-	JMP  LBB7_200
-
-LBB7_135:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_136:
-	WORD $0x3b44; BYTE $0x2e     // cmp    r13d, dword [rsi]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x14b60f45; BYTE $0x14 // movzx    r10d, byte [r12 + rdx]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x14048841             // mov    byte [r12 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3b44             // cmp    r13d, dword [rsi + 4]
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x141c8841             // mov    byte [r12 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB7_136
-
-LBB7_24:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_200
-	WORD $0x3b44; BYTE $0x2e // cmp    r13d, dword [rsi]
-	JMP  LBB7_197
-
-LBB7_193:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_194:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_194
-
-LBB7_195:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB7_200
-	LONG $0x062e0f66 // ucomisd    xmm0, qword [rsi]
-	JMP  LBB7_197
-
-LBB7_111:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_112:
-	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x14b60f45; BYTE $0x14 // movzx    r10d, byte [r12 + rdx]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x14048841             // mov    byte [r12 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x141c8841             // mov    byte [r12 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB7_112
-
-LBB7_109:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB7_200
-	LONG $0x2e3b4466 // cmp    r13w, word [rsi]
-
-LBB7_197:
-	WORD $0xc019             // sbb    eax, eax
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x14348a41         // mov    sil, byte [r12 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB7_198
-
-LBB7_133:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	QUAD $0x000000f0249c8b44 // mov    r11d, dword [rsp + 240]
-
-LBB7_134:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x1e394466             // cmp    word [rsi], r11w
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x5e394466; BYTE $0x02 // cmp    word [rsi + 2], r11w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB7_134
-
-LBB7_131:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB7_200
-	LONG $0xf024848b; WORD $0x0000; BYTE $0x00 // mov    eax, dword [rsp + 240]
-	WORD $0x3966; BYTE $0x06                   // cmp    word [rsi], ax
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	WORD $0xd8f6                               // neg    al
-	WORD $0x894c; BYTE $0xf2                   // mov    rdx, r14
-	LONG $0x03eac148                           // shr    rdx, 3
-	LONG $0x143c8a41                           // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68041                           // and    r14b, 7
-	WORD $0x01b3                               // mov    bl, 1
-	WORD $0x8944; BYTE $0xf1                   // mov    ecx, r14d
-	WORD $0xe3d2                               // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8                   // xor    al, dil
-	WORD $0xc320                               // and    bl, al
-	WORD $0x3040; BYTE $0xfb                   // xor    bl, dil
-	JMP  LBB7_199
-
-LBB7_168:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_169:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_169
-
-LBB7_166:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_200
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-
-LBB7_150:
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x14348a41         // mov    sil, byte [r12 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB7_198:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-
-LBB7_199:
-	LONG $0x141c8841 // mov    byte [r12 + rdx], bl
-
-LBB7_200:
-	MOVQ 336(SP), SP
-	RET
-
-LBB7_191:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB7_192:
-	LONG $0x1b2e0f44             // ucomiss    xmm11, dword [rbx]
-	WORD $0xd219                 // sbb    edx, edx
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x5b2e0f44; BYTE $0x04 // ucomiss    xmm11, dword [rbx + 4]
-	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
-	WORD $0xf619                 // sbb    esi, esi
-	WORD $0x3040; BYTE $0xc6     // xor    sil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2040; BYTE $0xf2     // and    dl, sil
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB7_192
-
-LBB7_189:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB7_200
-	LONG $0x1b2e0f44         // ucomiss    xmm11, dword [rbx]
-	WORD $0xc019             // sbb    eax, eax
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-	JMP  LBB7_200
-
-LBB7_84:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
-	QUAD $0x000000e82494894c             // mov    qword [rsp + 232], r10
-	LONG $0x94048d4b                     // lea    rax, [r12 + 4*r10]
-	LONG $0x24448948; BYTE $0x58         // mov    qword [rsp + 88], rax
-	LONG $0xc6b60f41                     // movzx    eax, r14b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x0000a0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 160], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008024a4894c             // mov    qword [rsp + 128], r12
-
-LBB7_85:
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
-	LONG $0x05e7c148                           // shl    rdi, 5
-	WORD $0x8949; BYTE $0xf8                   // mov    r8, rdi
-	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
-	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
-	WORD $0x8949; BYTE $0xfc                   // mov    r12, rdi
-	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x247c8948; BYTE $0x20               // mov    qword [rsp + 32], rdi
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
-	LONG $0x3e0cb60f                           // movzx    ecx, byte [rsi + rdi]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x3e4cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rdi + 1]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x3e4cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rdi + 2]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x3e4cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rdi + 3]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x3e4cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rdi + 4]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x3e4cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rdi + 5]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x3e4cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rdi + 6]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x3e4cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rdi + 7]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
-	LONG $0x3e4cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rdi + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x3e4cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rdi + 9]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x3e4cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rdi + 10]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00009024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm0
-	LONG $0x3e4cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rdi + 11]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x3e4cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rdi + 12]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x3e4cb60f; BYTE $0x0d               // movzx    ecx, byte [rsi + rdi + 13]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x3e4cb60f; BYTE $0x0e               // movzx    ecx, byte [rsi + rdi + 14]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00013024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm0
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x28               // mov    qword [rsp + 40], r13
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x60ca8348                           // or    rdx, 96
-	LONG $0x24548948; BYTE $0x78               // mov    qword [rsp + 120], rdx
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xa0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 160
-	LONG $0xc0cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 192
-	LONG $0x245c894c; BYTE $0x40               // mov    qword [rsp + 64], r11
-	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
-	LONG $0x20ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 288
-	LONG $0x40ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 320
-	LONG $0x60cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 352
-	LONG $0x247c894c; BYTE $0x50               // mov    qword [rsp + 80], r15
-	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
-	LONG $0x247c8948; BYTE $0x18               // mov    qword [rsp + 24], rdi
-	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
-	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
-	LONG $0xe0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 480
-	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
-	QUAD $0x012e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 1
-	QUAD $0x02063c203a0f4666                   // pinsrb    xmm15, byte [rsi + r8], 2
-	QUAD $0x03163c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdx], 3
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	LONG $0x244c894c; BYTE $0x38               // mov    qword [rsp + 56], r9
-	QUAD $0x040e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 4
-	QUAD $0x05263c203a0f4666                   // pinsrb    xmm15, byte [rsi + r12], 5
-	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
-	QUAD $0x060e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 6
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x072e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 7
-	LONG $0x245c894c; BYTE $0x20               // mov    qword [rsp + 32], r11
-	QUAD $0x081e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r11], 8
-	QUAD $0x09363c203a0f4666                   // pinsrb    xmm15, byte [rsi + r14], 9
-	QUAD $0x0a163c203a0f4666                   // pinsrb    xmm15, byte [rsi + r10], 10
-	QUAD $0x0b3e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r15], 11
-	QUAD $0x0c1e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rbx], 12
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0d163c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdx], 13
-	QUAD $0x0e063c203a0f4466                   // pinsrb    xmm15, byte [rsi + rax], 14
-	QUAD $0x0f0e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 15
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x011e6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r11 + 1], 1
-	QUAD $0x01066c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rsi + r8 + 1], 2
-	WORD $0x894d; BYTE $0xc3                   // mov    r11, r8
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x01066c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r8 + 1], 3
-	QUAD $0x04013e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 1], 4
-	QUAD $0x01266c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r12 + 1], 5
-	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
-	QUAD $0x010e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r9 + 1], 6
-	QUAD $0x012e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r13 + 1], 7
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0801166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 1], 8
-	QUAD $0x01366c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r14 + 1], 9
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	QUAD $0x01166c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r10 + 1], 10
-	QUAD $0x013e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r15 + 1], 11
-	QUAD $0x0c011e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 1], 12
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000c0249c8948                   // mov    qword [rsp + 192], rbx
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	QUAD $0x013e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r15 + 1], 13
-	QUAD $0x0e01066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 1], 14
-	QUAD $0x0f010e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 1], 15
-	QUAD $0x00a0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 160]
-	LONG $0x640f4166; BYTE $0xe9               // pcmpgtb    xmm5, xmm9
-	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
-	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
-	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x065cb60f; BYTE $0x0f               // movzx    ebx, byte [rsi + rax + 15]
-	LONG $0x6e0f4466; BYTE $0xf3               // movd    xmm14, ebx
-	LONG $0x640f4566; BYTE $0xf9               // pcmpgtb    xmm15, xmm9
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x01021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 1
-	QUAD $0x021e74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r11 + 2], 2
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x020674203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r8 + 2], 3
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x023674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 2], 4
-	QUAD $0x05023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 5
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x020674203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r8 + 2], 6
-	QUAD $0x022674203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r12 + 2], 7
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x08021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 8
-	QUAD $0x000000b0248c894c                   // mov    qword [rsp + 176], r9
-	QUAD $0x020e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 2], 9
-	QUAD $0x021674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r10 + 2], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x022674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r12 + 2], 11
-	QUAD $0x022e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r13 + 2], 12
-	QUAD $0x023e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r15 + 2], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0e021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 15
-	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
-	LONG $0x640f4166; BYTE $0xf1               // pcmpgtb    xmm6, xmm9
-	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xf0db0f66                           // pand    xmm6, xmm0
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x065cb60f; BYTE $0x10               // movzx    ebx, byte [rsi + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xfb               // movd    xmm15, ebx
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x01031654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 3], 1
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	QUAD $0x031e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r11 + 3], 2
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	QUAD $0x03030e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 3], 3
-	QUAD $0x033654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 3], 4
-	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
-	LONG $0x247c8948; BYTE $0x68               // mov    qword [rsp + 104], rdi
-	QUAD $0x05033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 5
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x030654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r8 + 3], 6
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x07033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 7
-	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
-	QUAD $0x030654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 3], 8
-	QUAD $0x030e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 3], 9
-	QUAD $0x031654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r10 + 3], 10
-	QUAD $0x032654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r12 + 3], 11
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x032654203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r12 + 3], 12
-	QUAD $0x033e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r15 + 3], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0e031e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 3], 14
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f031e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 3], 15
-	QUAD $0x0104064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 1
-	QUAD $0x042e4c203a0f4266; BYTE $0x02       // pinsrb    xmm1, byte [rsi + r13 + 4], 2
-	LONG $0x246c894c; BYTE $0x60               // mov    qword [rsp + 96], r13
-	QUAD $0x041e4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r11 + 4], 3
-	QUAD $0x04364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 4], 4
-	QUAD $0x0504164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 5
-	QUAD $0x06040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 6
-	QUAD $0x07043e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 4], 7
-	QUAD $0x04064c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r8 + 4], 8
-	QUAD $0x040e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 4], 9
-	QUAD $0x04164c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r10 + 4], 10
-	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b04064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 11
-	QUAD $0x04264c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r12 + 4], 12
-	QUAD $0x043e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r15 + 4], 13
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0e04164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 14
-	QUAD $0x0f041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 15
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x065cb60f; BYTE $0x11               // movzx    ebx, byte [rsi + rax + 17]
-	LONG $0xc36e0f66                           // movd    xmm0, ebx
-	LONG $0x640f4166; BYTE $0xd1               // pcmpgtb    xmm2, xmm9
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0xd5db0f66                           // pand    xmm2, xmm5
-	LONG $0x640f4166; BYTE $0xc9               // pcmpgtb    xmm1, xmm9
-	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI7_13] */
-	LONG $0xcddb0f66                           // pand    xmm1, xmm5
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0x065cb60f; BYTE $0x12               // movzx    ebx, byte [rsi + rax + 18]
-	LONG $0xeb6e0f66                           // movd    xmm5, ebx
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x050e44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rcx + 5], 1
-	QUAD $0x052e44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r13 + 5], 2
-	QUAD $0x051e44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r11 + 5], 3
-	QUAD $0x053644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 5], 4
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x053e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rdi + 5], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x051e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rbx + 5], 6
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x050e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r9 + 5], 7
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x052644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r12 + 5], 8
-	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
-	QUAD $0x052e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r13 + 5], 9
-	QUAD $0x051644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r10 + 5], 10
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x053e44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r15 + 5], 11
-	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
-	QUAD $0x051e44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rbx + 5], 12
-	QUAD $0x050644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r8 + 5], 13
-	QUAD $0x051644203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rdx + 5], 14
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x053644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r14 + 5], 15
-	LONG $0x640f4566; BYTE $0xc1               // pcmpgtb    xmm8, xmm9
-	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	LONG $0x065cb60f; BYTE $0x13               // movzx    ebx, byte [rsi + rax + 19]
-	LONG $0xfb6e0f66                           // movd    xmm7, ebx
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	LONG $0x065cb60f; BYTE $0x14               // movzx    ebx, byte [rsi + rax + 20]
-	LONG $0xf36e0f66                           // movd    xmm6, ebx
-	QUAD $0x01060e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 6], 1
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0206065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 2
-	QUAD $0x061e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r11 + 6], 3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0406065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 4
-	WORD $0x8949; BYTE $0xf8                   // mov    r8, rdi
-	QUAD $0x05063e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 6], 5
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x06060e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 6], 6
-	QUAD $0x060e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r9 + 6], 7
-	QUAD $0x06265c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r12 + 6], 8
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x062e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r13 + 6], 9
-	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
-	QUAD $0x0a063e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 6], 10
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x063e5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r15 + 6], 11
-	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
-	QUAD $0x06265c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r12 + 6], 12
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0d06165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 6], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x063e5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r15 + 6], 14
-	QUAD $0x06365c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r14 + 6], 15
-	QUAD $0x0000d024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 208]
-	QUAD $0x071654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r10 + 7], 1
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x072e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r13 + 7], 2
-	QUAD $0x071e54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r11 + 7], 3
-	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
-	QUAD $0x071654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r10 + 7], 4
-	QUAD $0x070654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r8 + 7], 5
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	QUAD $0x06070e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 7], 6
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x07070e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 7], 7
-	QUAD $0x070e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r9 + 7], 8
-	QUAD $0x09070654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 7], 9
-	QUAD $0x0a073e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 7], 10
-	QUAD $0x0b071e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 7], 11
-	QUAD $0x072654203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r12 + 7], 12
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x071e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r11 + 7], 13
-	QUAD $0x073e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r15 + 7], 14
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x073654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r14 + 7], 15
-	LONG $0x640f4166; BYTE $0xd9               // pcmpgtb    xmm3, xmm9
-	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI7_15] */
-	LONG $0xd9db0f66                           // pand    xmm3, xmm1
-	LONG $0x640f4166; BYTE $0xd1               // pcmpgtb    xmm2, xmm9
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xd1db0f66                           // pand    xmm2, xmm1
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x065cb60f; BYTE $0x15               // movzx    ebx, byte [rsi + rax + 21]
-	LONG $0xd36e0f66                           // movd    xmm2, ebx
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x090e54203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rcx + 9], 1
-	QUAD $0x092e54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r13 + 9], 2
-	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
-	QUAD $0x090654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r8 + 9], 3
-	QUAD $0x091654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r10 + 9], 4
-	QUAD $0x091654203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rdx + 9], 5
-	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
-	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
-	QUAD $0x091654203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rdx + 9], 6
-	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
-	QUAD $0x090e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r9 + 9], 7
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x091e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rbx + 9], 8
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x091e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rbx + 9], 9
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x093e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r15 + 9], 10
-	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
-	QUAD $0x091e54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rbx + 9], 11
-	QUAD $0x092654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r12 + 9], 12
-	QUAD $0x091e54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r11 + 9], 13
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x091654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r10 + 9], 14
-	QUAD $0x093e54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rdi + 9], 15
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
-	LONG $0x640f4566; BYTE $0xd1               // pcmpgtb    xmm10, xmm9
-	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
-	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
-	LONG $0xccdb0f66                           // pand    xmm1, xmm4
-	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
-	LONG $0x065cb60f; BYTE $0x16               // movzx    ebx, byte [rsi + rax + 22]
-	LONG $0xdb6e0f66                           // movd    xmm3, ebx
-	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
-	QUAD $0x01080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 1
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	QUAD $0x082e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r13 + 8], 2
-	QUAD $0x080664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r8 + 8], 3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x04083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 4
-	QUAD $0x083664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r14 + 8], 5
-	QUAD $0x06081664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 8], 6
-	WORD $0x894c; BYTE $0xca                   // mov    rdx, r9
-	QUAD $0x080e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r9 + 8], 7
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x083664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r14 + 8], 8
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x09080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 9
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x083e64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r15 + 8], 10
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x083e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 8], 11
-	QUAD $0x082664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r12 + 8], 12
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0d080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 13
-	QUAD $0x081664203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r10 + 8], 14
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x080e64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r9 + 8], 15
-	LONG $0x640f4166; BYTE $0xe1               // pcmpgtb    xmm4, xmm9
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	QUAD $0x009024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 144]
-	QUAD $0x0a1e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r11 + 10], 1
-	QUAD $0x0a2e54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r13 + 10], 2
-	QUAD $0x0a0654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r8 + 10], 3
-	QUAD $0x0a3e54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rdi + 10], 4
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0a3e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rdi + 10], 5
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x0a0654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r8 + 10], 6
-	QUAD $0x0a1654203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rdx + 10], 7
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x0a3654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r14 + 10], 8
-	QUAD $0x0a0654203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rax + 10], 9
-	QUAD $0x0a1e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rbx + 10], 10
-	QUAD $0x0a3e54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r15 + 10], 11
-	QUAD $0x0a2654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r12 + 10], 12
-	QUAD $0x0a0e54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rcx + 10], 13
-	QUAD $0x0a1654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r10 + 10], 14
-	QUAD $0x0a0e54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r9 + 10], 15
-	LONG $0x640f4566; BYTE $0xd1               // pcmpgtb    xmm10, xmm9
-	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	LONG $0x0e5cb60f; BYTE $0x17               // movzx    ebx, byte [rsi + rcx + 23]
-	LONG $0x6e0f4466; BYTE $0xc3               // movd    xmm8, ebx
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x009024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 144], xmm10
-	LONG $0x0e5cb60f; BYTE $0x18               // movzx    ebx, byte [rsi + rcx + 24]
-	LONG $0x6e0f4466; BYTE $0xd3               // movd    xmm10, ebx
-	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
-	QUAD $0x0b165c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rdx + 11], 1
-	QUAD $0x0b2e5c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rsi + r13 + 11], 2
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	QUAD $0x0b0e5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rcx + 11], 3
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x0b0e5c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rsi + rcx + 11], 4
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	QUAD $0x0b3e5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rsi + rdi + 11], 5
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x0b065c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rsi + r8 + 11], 6
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0b3e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdi + 11], 7
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x0b1e5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r11 + 11], 8
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x0b065c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rsi + rax + 11], 9
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x0b165c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r10 + 11], 10
-	QUAD $0x0b3e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 11], 11
-	QUAD $0x0b265c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r12 + 11], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0b065c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rax + 11], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0b1e5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rbx + 11], 14
-	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
-	QUAD $0x0b1e5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r11 + 11], 15
-	QUAD $0x0c166c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rdx + 12], 1
-	QUAD $0x0c366c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rsi + r14 + 12], 2
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x0c366c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r14 + 12], 3
-	QUAD $0x0c2e6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r13 + 12], 4
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0c2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 12], 5
-	QUAD $0x0c0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 12], 6
-	QUAD $0x0c3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 12], 7
-	QUAD $0x0c066c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r8 + 12], 8
-	QUAD $0x0c0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 12], 9
-	QUAD $0x0c166c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r10 + 12], 10
-	QUAD $0x0c3e6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r15 + 12], 11
-	QUAD $0x0c266c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r12 + 12], 12
-	QUAD $0x0c066c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rax + 12], 13
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x0c1e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rbx + 12], 14
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x0c1e6c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r11 + 12], 15
-	QUAD $0x0d1664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rdx + 13], 1
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x0d1e64203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rsi + r11 + 13], 2
-	QUAD $0x0d3664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r14 + 13], 3
-	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
-	QUAD $0x0d1664203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rdx + 13], 4
-	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
-	QUAD $0x0d1664203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rsi + rdx + 13], 5
-	QUAD $0x0d0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 13], 6
-	QUAD $0x0d3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 13], 7
-	QUAD $0x0d0664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r8 + 13], 8
-	QUAD $0x0d0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 13], 9
-	QUAD $0x0d1664203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r10 + 13], 10
-	QUAD $0x0d3e64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r15 + 13], 11
-	QUAD $0x0d2664203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r12 + 13], 12
-	WORD $0x894c; BYTE $0xef                   // mov    rdi, r13
-	QUAD $0x0d2e64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r13 + 13], 13
-	QUAD $0x0d1e64203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rbx + 13], 14
-	QUAD $0x0d0664203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rax + 13], 15
-	LONG $0x640f4566; BYTE $0xd9               // pcmpgtb    xmm11, xmm9
-	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0x640f4566; BYTE $0xe9               // pcmpgtb    xmm13, xmm9
-	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI7_13] */
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x065cb60f; BYTE $0x19               // movzx    ebx, byte [rsi + rax + 25]
-	LONG $0xcb6e0f66                           // movd    xmm1, ebx
-	LONG $0x640f4566; BYTE $0xe1               // pcmpgtb    xmm12, xmm9
-	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x065cb60f; BYTE $0x1a               // movzx    ebx, byte [rsi + rax + 26]
-	LONG $0x6e0f4466; BYTE $0xdb               // movd    xmm11, ebx
-	QUAD $0x00013024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 304]
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x010e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 14], 1
-	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
-	QUAD $0x0e1e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r11 + 14], 2
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x0e3664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r14 + 14], 3
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x0e3664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r14 + 14], 4
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x050e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 5
-	QUAD $0x060e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 6
-	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
-	QUAD $0x070e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 7
-	QUAD $0x0e0664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 14], 8
-	QUAD $0x0e0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 14], 9
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x0e1664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r10 + 14], 10
-	QUAD $0x0e3e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 14], 11
-	QUAD $0x0e2664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r12 + 14], 12
-	QUAD $0x0d0e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 14
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x0e1664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r10 + 14], 15
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0f3e74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rdi + 15], 1
-	QUAD $0x0f2e74203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r13 + 15], 2
-	QUAD $0x0f1e74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r11 + 15], 3
-	QUAD $0x0f3674203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r14 + 15], 4
-	QUAD $0x0f0674203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rax + 15], 5
-	QUAD $0x0f0e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rcx + 15], 6
-	QUAD $0x0f1674203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rdx + 15], 7
-	QUAD $0x0f0674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 15], 8
-	QUAD $0x0f0e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 15], 9
-	QUAD $0x0f1e74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rbx + 15], 10
-	QUAD $0x0f3e74203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r15 + 15], 11
-	QUAD $0x0f2674203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r12 + 15], 12
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0f3e74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rdi + 15], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f3e74203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + rdi + 15], 14
-	QUAD $0x0f1674203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + r10 + 15], 15
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x103e7c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rdi + 16], 1
-	QUAD $0x102e7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r13 + 16], 2
-	QUAD $0x101e7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r11 + 16], 3
-	QUAD $0x10367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 16], 4
-	QUAD $0x10067c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rax + 16], 5
-	QUAD $0x100e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rcx + 16], 6
-	QUAD $0x10167c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rdx + 16], 7
-	QUAD $0x10067c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r8 + 16], 8
-	QUAD $0x100e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 16], 9
-	QUAD $0x101e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rbx + 16], 10
-	QUAD $0x103e7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r15 + 16], 11
-	QUAD $0x10267c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r12 + 16], 12
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x103e7c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rdi + 16], 13
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x10167c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r10 + 16], 14
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x01113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 1
-	QUAD $0x112e44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r13 + 17], 2
-	QUAD $0x111e44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r11 + 17], 3
-	QUAD $0x113644203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r14 + 17], 4
-	QUAD $0x05110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 5
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	QUAD $0x06110e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 17], 6
-	QUAD $0x07111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 7
-	QUAD $0x110644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r8 + 17], 8
-	QUAD $0x110e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 17], 9
-	QUAD $0x0a111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 10
-	QUAD $0x113e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r15 + 17], 11
-	QUAD $0x112644203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r12 + 17], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 14
-	QUAD $0x009024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 144]
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	LONG $0x065cb60f; BYTE $0x1b               // movzx    ebx, byte [rsi + rax + 27]
-	LONG $0x6e0f4466; BYTE $0xcb               // movd    xmm9, ebx
-	QUAD $0x00a024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 160]
-	LONG $0x640f4166; BYTE $0xe5               // pcmpgtb    xmm4, xmm13
-	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI7_15] */
-	LONG $0x640f4566; BYTE $0xf5               // pcmpgtb    xmm14, xmm13
-	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
-	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
-	LONG $0x065cb60f; BYTE $0x1c               // movzx    ebx, byte [rsi + rax + 28]
-	LONG $0xe36e0f66                           // movd    xmm4, ebx
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x111644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r10 + 17], 15
-	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
-	LONG $0x640f4166; BYTE $0xc5               // pcmpgtb    xmm0, xmm13
-	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
-	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
-	QUAD $0x009024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 144], xmm13
-	LONG $0x065cb60f; BYTE $0x1d               // movzx    ebx, byte [rsi + rax + 29]
-	LONG $0x6e0f4466; BYTE $0xeb               // movd    xmm13, ebx
-	QUAD $0x10167c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r10 + 16], 15
-	QUAD $0x0000a024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 160]
-	LONG $0x640f4466; BYTE $0xf8               // pcmpgtb    xmm15, xmm0
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x01121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 1
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x02121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 2
-	QUAD $0x121e6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r11 + 18], 3
-	QUAD $0x12366c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r14 + 18], 4
-	QUAD $0x122e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r13 + 18], 5
-	QUAD $0x06120e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 18], 6
-	QUAD $0x0712166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 7
-	QUAD $0x12066c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r8 + 18], 8
-	QUAD $0x120e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r9 + 18], 9
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 10
-	QUAD $0x123e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r15 + 18], 11
-	QUAD $0x12266c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r12 + 18], 12
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0d121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 13
-	QUAD $0x0e123e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 18], 14
-	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
-	QUAD $0x12166c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r10 + 18], 15
-	LONG $0xe8640f66                           // pcmpgtb    xmm5, xmm0
-	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	LONG $0x3e5cb60f; BYTE $0x1e               // movzx    ebx, byte [rsi + rdi + 30]
-	LONG $0x6e0f4466; BYTE $0xe3               // movd    xmm12, ebx
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x01131e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 19], 1
-	QUAD $0x01141e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 20], 1
-	QUAD $0x01151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 1
-	QUAD $0x01161e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 22], 1
-	QUAD $0x171e44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rbx + 23], 1
-	QUAD $0x181e54203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rbx + 24], 1
-	QUAD $0x01191e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 25], 1
-	QUAD $0x1a1e5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rbx + 26], 1
-	QUAD $0x1b1e4c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rbx + 27], 1
-	QUAD $0x011c1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 28], 1
-	QUAD $0x1d1e6c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rbx + 29], 1
-	QUAD $0x1e1e64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rbx + 30], 1
-	LONG $0x3e7cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rdi + 31]
-	LONG $0xc76e0f66                           // movd    xmm0, edi
-	QUAD $0x011f1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 31], 1
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x02133e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 19], 2
-	QUAD $0x02143e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 20], 2
-	QUAD $0x02153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 2
-	QUAD $0x02163e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 22], 2
-	QUAD $0x173e44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdi + 23], 2
-	QUAD $0x183e54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdi + 24], 2
-	QUAD $0x02193e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 25], 2
-	QUAD $0x1a3e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdi + 26], 2
-	QUAD $0x1b3e4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdi + 27], 2
-	QUAD $0x021c3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 28], 2
-	QUAD $0x1d3e6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdi + 29], 2
-	QUAD $0x1e3e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdi + 30], 2
-	QUAD $0x021f3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 31], 2
-	QUAD $0x131e7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r11 + 19], 3
-	QUAD $0x13367c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r14 + 19], 4
-	QUAD $0x132e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r13 + 19], 5
-	QUAD $0x06130e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 19], 6
-	QUAD $0x0713167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 7
-	QUAD $0x13067c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r8 + 19], 8
-	QUAD $0x130e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 19], 9
-	QUAD $0x0a13067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 19], 10
-	QUAD $0x133e7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r15 + 19], 11
-	QUAD $0x13267c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r12 + 19], 12
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0d133e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 19], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0e131e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 19], 14
-	QUAD $0x13167c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r10 + 19], 15
-	QUAD $0x141e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r11 + 20], 3
-	QUAD $0x143674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 20], 4
-	QUAD $0x142e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r13 + 20], 5
-	QUAD $0x06140e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 20], 6
-	QUAD $0x07141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 7
-	QUAD $0x140674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r8 + 20], 8
-	QUAD $0x140e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 20], 9
-	QUAD $0x0a140674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 20], 10
-	QUAD $0x143e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r15 + 20], 11
-	QUAD $0x142674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r12 + 20], 12
-	QUAD $0x0d143e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 20], 13
-	QUAD $0x0e141e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 20], 14
-	QUAD $0x00009024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 144]
-	QUAD $0x141674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r10 + 20], 15
-	QUAD $0x00a024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 160]
-	LONG $0x640f4166; BYTE $0xff               // pcmpgtb    xmm7, xmm15
-	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0x640f4166; BYTE $0xf7               // pcmpgtb    xmm6, xmm15
-	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI7_13] */
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0x151e54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r11 + 21], 3
-	QUAD $0x153654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 21], 4
-	QUAD $0x152e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r13 + 21], 5
-	QUAD $0x06150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 6
-	QUAD $0x07151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 7
-	QUAD $0x150654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 21], 8
-	QUAD $0x150e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 21], 9
-	QUAD $0x0a150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 10
-	QUAD $0x153e54203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r15 + 21], 11
-	QUAD $0x152654203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r12 + 21], 12
-	QUAD $0x0d153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 13
-	QUAD $0x0e151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 14
-	QUAD $0x151654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r10 + 21], 15
-	LONG $0x640f4166; BYTE $0xd7               // pcmpgtb    xmm2, xmm15
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xd7db0f66                           // pand    xmm2, xmm7
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	LONG $0xd5eb0f66                           // por    xmm2, xmm5
-	QUAD $0x161e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r11 + 22], 3
-	QUAD $0x16365c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r14 + 22], 4
-	QUAD $0x162e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 22], 5
-	QUAD $0x06160e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 22], 6
-	QUAD $0x0716165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 7
-	QUAD $0x16065c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r8 + 22], 8
-	QUAD $0x160e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r9 + 22], 9
-	QUAD $0x0a16065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 22], 10
-	QUAD $0x163e5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r15 + 22], 11
-	QUAD $0x16265c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r12 + 22], 12
-	QUAD $0x0d163e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 22], 13
-	QUAD $0x0e161e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 22], 14
-	QUAD $0x16165c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r10 + 22], 15
-	QUAD $0x171e44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r11 + 23], 3
-	QUAD $0x173644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 23], 4
-	QUAD $0x172e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r13 + 23], 5
-	QUAD $0x170e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 23], 6
-	QUAD $0x171644203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rdx + 23], 7
-	QUAD $0x170644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r8 + 23], 8
-	QUAD $0x170e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 23], 9
-	QUAD $0x170644203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rax + 23], 10
-	QUAD $0x173e44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r15 + 23], 11
-	QUAD $0x172644203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r12 + 23], 12
-	QUAD $0x173e44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rdi + 23], 13
-	QUAD $0x171e44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rbx + 23], 14
-	QUAD $0x171644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r10 + 23], 15
-	LONG $0x640f4166; BYTE $0xdf               // pcmpgtb    xmm3, xmm15
-	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI7_15] */
-	LONG $0xdddb0f66                           // pand    xmm3, xmm5
-	LONG $0x640f4566; BYTE $0xc7               // pcmpgtb    xmm8, xmm15
-	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
-	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	QUAD $0x191e4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r11 + 25], 3
-	QUAD $0x19364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 25], 4
-	QUAD $0x192e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r13 + 25], 5
-	QUAD $0x06190e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 25], 6
-	QUAD $0x0719164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 7
-	QUAD $0x19064c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r8 + 25], 8
-	QUAD $0x190e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 25], 9
-	QUAD $0x0a19064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 25], 10
-	QUAD $0x193e4c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r15 + 25], 11
-	QUAD $0x19264c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r12 + 25], 12
-	QUAD $0x0d193e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 25], 13
-	QUAD $0x0e191e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 25], 14
-	QUAD $0x19164c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r10 + 25], 15
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x640f4166; BYTE $0xcf               // pcmpgtb    xmm1, xmm15
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xd3db0f66                           // pand    xmm2, xmm3
-	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
-	QUAD $0x181e54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r11 + 24], 3
-	QUAD $0x183654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 24], 4
-	QUAD $0x182e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r13 + 24], 5
-	QUAD $0x180e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rcx + 24], 6
-	QUAD $0x181654203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rdx + 24], 7
-	QUAD $0x180654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r8 + 24], 8
-	QUAD $0x180e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 24], 9
-	QUAD $0x180654203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rax + 24], 10
-	QUAD $0x183e54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r15 + 24], 11
-	QUAD $0x182654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r12 + 24], 12
-	QUAD $0x183e54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rdi + 24], 13
-	QUAD $0x181e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rbx + 24], 14
-	QUAD $0x181654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r10 + 24], 15
-	LONG $0x640f4566; BYTE $0xd7               // pcmpgtb    xmm10, xmm15
-	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
-	QUAD $0x1a1e5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r11 + 26], 3
-	QUAD $0x1a365c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r14 + 26], 4
-	QUAD $0x1a2e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r13 + 26], 5
-	QUAD $0x1a0e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rcx + 26], 6
-	QUAD $0x1a165c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdx + 26], 7
-	QUAD $0x1a065c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r8 + 26], 8
-	QUAD $0x1a0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 26], 9
-	QUAD $0x1a065c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rax + 26], 10
-	QUAD $0x1a3e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 26], 11
-	QUAD $0x1a265c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r12 + 26], 12
-	QUAD $0x1a3e5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rdi + 26], 13
-	QUAD $0x1a1e5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rbx + 26], 14
-	QUAD $0x1a165c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r10 + 26], 15
-	LONG $0x640f4566; BYTE $0xdf               // pcmpgtb    xmm11, xmm15
-	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
-	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
-	QUAD $0x1b1e4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r11 + 27], 3
-	QUAD $0x1b364c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r14 + 27], 4
-	QUAD $0x1b2e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r13 + 27], 5
-	QUAD $0x1b0e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rcx + 27], 6
-	QUAD $0x1b164c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rdx + 27], 7
-	QUAD $0x1b064c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r8 + 27], 8
-	QUAD $0x1b0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 27], 9
-	QUAD $0x1b064c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rax + 27], 10
-	QUAD $0x1b3e4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r15 + 27], 11
-	QUAD $0x1b264c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r12 + 27], 12
-	QUAD $0x1b3e4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdi + 27], 13
-	QUAD $0x1b1e4c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rbx + 27], 14
-	QUAD $0x1b164c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r10 + 27], 15
-	QUAD $0x1c1e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r11 + 28], 3
-	QUAD $0x1c3664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r14 + 28], 4
-	QUAD $0x1c2e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r13 + 28], 5
-	QUAD $0x061c0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 28], 6
-	QUAD $0x071c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 7
-	QUAD $0x1c0664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 28], 8
-	QUAD $0x1c0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 28], 9
-	QUAD $0x0a1c0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 28], 10
-	QUAD $0x1c3e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 28], 11
-	QUAD $0x1c2664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r12 + 28], 12
-	QUAD $0x0d1c3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 28], 13
-	QUAD $0x0e1c1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 28], 14
-	QUAD $0x1c1664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r10 + 28], 15
-	QUAD $0x1d1e6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r11 + 29], 3
-	QUAD $0x1d366c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r14 + 29], 4
-	QUAD $0x1d2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 29], 5
-	QUAD $0x1d0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 29], 6
-	QUAD $0x1d166c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdx + 29], 7
-	QUAD $0x1d066c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r8 + 29], 8
-	QUAD $0x1d0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 29], 9
-	QUAD $0x1d066c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rax + 29], 10
-	QUAD $0x1d3e6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r15 + 29], 11
-	QUAD $0x1d266c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r12 + 29], 12
-	QUAD $0x1d3e6c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rdi + 29], 13
-	QUAD $0x1d1e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rbx + 29], 14
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0x640f4566; BYTE $0xcf               // pcmpgtb    xmm9, xmm15
-	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0x640f4166; BYTE $0xe7               // pcmpgtb    xmm4, xmm15
-	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI7_13] */
-	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
-	QUAD $0x1d166c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r10 + 29], 15
-	LONG $0x640f4566; BYTE $0xef               // pcmpgtb    xmm13, xmm15
-	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
-	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
-	QUAD $0x1e1e64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r11 + 30], 3
-	QUAD $0x1f1e44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r11 + 31], 3
-	QUAD $0x1e3664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r14 + 30], 4
-	QUAD $0x1f3644203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r14 + 31], 4
-	QUAD $0x1e2e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r13 + 30], 5
-	QUAD $0x1f2e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r13 + 31], 5
-	QUAD $0x1e0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 30], 6
-	QUAD $0x061f0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 31], 6
-	QUAD $0x1e1664203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdx + 30], 7
-	QUAD $0x071f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 7
-	QUAD $0x1e0664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r8 + 30], 8
-	QUAD $0x1f0644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r8 + 31], 8
-	QUAD $0x1e0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 30], 9
-	QUAD $0x1f0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 31], 9
-	QUAD $0x1e0664203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rax + 30], 10
-	QUAD $0x0a1f0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 31], 10
-	QUAD $0x1e3e64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r15 + 30], 11
-	QUAD $0x1f3e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r15 + 31], 11
-	QUAD $0x1e2664203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r12 + 30], 12
-	QUAD $0x1f2644203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r12 + 31], 12
-	QUAD $0x1e3e64203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rdi + 30], 13
-	QUAD $0x0d1f3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 31], 13
-	QUAD $0x1e1e64203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rbx + 30], 14
-	QUAD $0x0e1f1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 31], 14
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x1e1664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r10 + 30], 15
-	QUAD $0x1f1644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r10 + 31], 15
-	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
-	LONG $0x640f4566; BYTE $0xe7               // pcmpgtb    xmm12, xmm15
-	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
-	LONG $0x640f4166; BYTE $0xc7               // pcmpgtb    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0xc6db0f66                           // pand    xmm0, xmm6
-	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
-	QUAD $0x0000d024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 208]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
-	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
-	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
-	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x647f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm4
-	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
-	LONG $0x547f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm2
-	LONG $0x1c7f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
-	JNE  LBB7_85
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x000000e824943b4c                   // cmp    r10, qword [rsp + 232]
-	LONG $0x24348a44                           // mov    r14b, byte [rsp]
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	JNE  LBB7_87
-	JMP  LBB7_90
-
-LBB7_66:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000014024848948             // mov    qword [rsp + 320], rax
-	QUAD $0x000000e82494894c             // mov    qword [rsp + 232], r10
-	LONG $0x94048d4b                     // lea    rax, [r12 + 4*r10]
-	LONG $0x24448948; BYTE $0x48         // mov    qword [rsp + 72], rax
-	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000120248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 288], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008024a4894c             // mov    qword [rsp + 128], r12
-
-LBB7_67:
-	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	LONG $0x05e0c148                           // shl    rax, 5
-	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
-	LONG $0x060cb60f                           // movzx    ecx, byte [rsi + rax]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x064cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rax + 1]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x064cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rax + 2]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x064cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rax + 3]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x064cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rax + 4]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x064cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rax + 5]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x064cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rax + 6]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	LONG $0x064cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rax + 7]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm1
-	LONG $0x064cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rax + 8]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x064cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rax + 9]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	QUAD $0x0000c0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm1
-	LONG $0x064cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rax + 10]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x064cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rax + 11]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x064cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rax + 12]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	QUAD $0x000130248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm1
-	LONG $0x064cb60f; BYTE $0x10               // movzx    ecx, byte [rsi + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
-	LONG $0x064cb60f; BYTE $0x18               // movzx    ecx, byte [rsi + rax + 24]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x38               // mov    qword [rsp + 56], r13
-	LONG $0x40ca8348                           // or    rdx, 64
-	LONG $0x24548948; BYTE $0x58               // mov    qword [rsp + 88], rdx
-	LONG $0x60cc8349                           // or    r12, 96
-	LONG $0x2464894c; BYTE $0x10               // mov    qword [rsp + 16], r12
-	LONG $0x80cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 128
-	LONG $0xa0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 160
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	LONG $0xc0c98148; WORD $0x0000; BYTE $0x00 // or    rcx, 192
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	LONG $0xe0c98149; WORD $0x0000; BYTE $0x00 // or    r9, 224
-	LONG $0x00cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 256
-	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
-	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
-	LONG $0x2454894c; BYTE $0x78               // mov    qword [rsp + 120], r10
-	LONG $0x40ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 320
-	LONG $0x60c88149; WORD $0x0001; BYTE $0x00 // or    r8, 352
-	QUAD $0x000000d02484894c                   // mov    qword [rsp + 208], r8
-	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
-	LONG $0x80c88149; WORD $0x0001; BYTE $0x00 // or    r8, 384
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0xa0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 416
-	LONG $0x241c8948                           // mov    qword [rsp], rbx
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0x245c8948; BYTE $0x18               // mov    qword [rsp + 24], rbx
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0xe0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 480
-	LONG $0x245c8948; BYTE $0x20               // mov    qword [rsp + 32], rbx
-	QUAD $0x012e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r13], 1
-	QUAD $0x021614203a0f4466                   // pinsrb    xmm10, byte [rsi + rdx], 2
-	QUAD $0x032614203a0f4666                   // pinsrb    xmm10, byte [rsi + r12], 3
-	WORD $0x894d; BYTE $0xdc                   // mov    r12, r11
-	LONG $0x245c894c; BYTE $0x30               // mov    qword [rsp + 48], r11
-	QUAD $0x041e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r11], 4
-	QUAD $0x053e14203a0f4466                   // pinsrb    xmm10, byte [rsi + rdi], 5
-	LONG $0x247c8948; BYTE $0x40               // mov    qword [rsp + 64], rdi
-	QUAD $0x060e14203a0f4466                   // pinsrb    xmm10, byte [rsi + rcx], 6
-	QUAD $0x070e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r9], 7
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x083e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r15], 8
-	QUAD $0x091614203a0f4666                   // pinsrb    xmm10, byte [rsi + r10], 9
-	QUAD $0x0a3614203a0f4666                   // pinsrb    xmm10, byte [rsi + r14], 10
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x0b2e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r13], 11
-	QUAD $0x0c0614203a0f4666                   // pinsrb    xmm10, byte [rsi + r8], 12
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	QUAD $0x0d0614203a0f4466                   // pinsrb    xmm10, byte [rsi + rax], 13
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e0614203a0f4466                   // pinsrb    xmm10, byte [rsi + rax], 14
-	QUAD $0x0f1e14203a0f4466                   // pinsrb    xmm10, byte [rsi + rbx], 15
-	LONG $0x6f0f4566; BYTE $0xc2               // movdqa    xmm8, xmm10
-	QUAD $0x012024a46f0f4466; WORD $0x0000     // movdqa    xmm12, oword [rsp + 288]
-	LONG $0xda0f4566; BYTE $0xc4               // pminub    xmm8, xmm12
-	LONG $0x740f4566; BYTE $0xc2               // pcmpeqb    xmm8, xmm10
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	QUAD $0x010e64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r9 + 1], 1
-	QUAD $0x02011664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 1], 2
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x03011e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 1], 3
-	QUAD $0x012664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r12 + 1], 4
-	QUAD $0x05013e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 1], 5
-	QUAD $0x06010e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 1], 6
-	QUAD $0x011e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 1], 7
-	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
-	QUAD $0x011664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r10 + 1], 8
-	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
-	QUAD $0x09011e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 1], 9
-	QUAD $0x013664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r14 + 1], 10
-	QUAD $0x012e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r13 + 1], 11
-	QUAD $0x010664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r8 + 1], 12
-	QUAD $0x013e64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r15 + 1], 13
-	QUAD $0x0e010664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 1], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f010664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 1], 15
-	QUAD $0x020e74203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r9 + 2], 1
-	QUAD $0x02021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 2
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x023e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r15 + 2], 3
-	QUAD $0x022674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r12 + 2], 4
-	QUAD $0x05023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 5
-	QUAD $0x06020e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 2], 6
-	QUAD $0x021e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r11 + 2], 7
-	QUAD $0x021674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r10 + 2], 8
-	QUAD $0x09021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 9
-	QUAD $0x023674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r14 + 2], 10
-	QUAD $0x022e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r13 + 2], 11
-	QUAD $0x020674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r8 + 2], 12
-	LONG $0x243c8b48                           // mov    rdi, qword [rsp]
-	QUAD $0x0d023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 13
-	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
-	QUAD $0x023e74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r15 + 2], 14
-	QUAD $0x0f020674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 2], 15
-	QUAD $0x080e74203a0f4666; BYTE $0x01       // pinsrb    xmm14, byte [rsi + r9 + 8], 1
-	QUAD $0x081674203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rsi + rdx + 8], 2
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x083e74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r15 + 8], 3
-	QUAD $0x082674203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r12 + 8], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x083e74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rdi + 8], 5
-	QUAD $0x080e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rcx + 8], 6
-	QUAD $0x081e74203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rsi + r11 + 8], 7
-	QUAD $0x081674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r10 + 8], 8
-	QUAD $0x081e74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rsi + rbx + 8], 9
-	QUAD $0x083674203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r14 + 8], 10
-	QUAD $0x082e74203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r13 + 8], 11
-	QUAD $0x080674203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r8 + 8], 12
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	QUAD $0x080674203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rax + 8], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x080674203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + rax + 8], 14
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x081674203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + r10 + 8], 15
-	LONG $0x6f0f4566; BYTE $0xd6               // movdqa    xmm10, xmm14
-	LONG $0xda0f4566; BYTE $0xd4               // pminub    xmm10, xmm12
-	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
-	QUAD $0x100e6c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r9 + 16], 1
-	QUAD $0x10166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 16], 2
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	QUAD $0x103e6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r15 + 16], 3
-	QUAD $0x10266c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r12 + 16], 4
-	QUAD $0x103e6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rsi + rdi + 16], 5
-	QUAD $0x100e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 16], 6
-	QUAD $0x101e6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r11 + 16], 7
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x103e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r15 + 16], 8
-	QUAD $0x101e6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rsi + rbx + 16], 9
-	QUAD $0x10366c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r14 + 16], 10
-	QUAD $0x102e6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r13 + 16], 11
-	QUAD $0x10066c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r8 + 16], 12
-	LONG $0x24248b4c                           // mov    r12, qword [rsp]
-	QUAD $0x10266c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r12 + 16], 13
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x100e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rcx + 16], 14
-	QUAD $0x10166c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r10 + 16], 15
-	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
-	LONG $0xda0f4166; BYTE $0xdc               // pminub    xmm3, xmm12
-	LONG $0x740f4166; BYTE $0xdd               // pcmpeqb    xmm3, xmm13
-	QUAD $0x000110249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x18067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 24], 1
-	QUAD $0x18167c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rdx + 24], 2
-	QUAD $0x180e7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r9 + 24], 3
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x180e7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r9 + 24], 4
-	QUAD $0x183e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rdi + 24], 5
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x18067c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rax + 24], 6
-	QUAD $0x181e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r11 + 24], 7
-	QUAD $0x183e7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r15 + 24], 8
-	QUAD $0x181e7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rsi + rbx + 24], 9
-	QUAD $0x18367c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r14 + 24], 10
-	QUAD $0x182e7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r13 + 24], 11
-	QUAD $0x18067c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r8 + 24], 12
-	QUAD $0x18267c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r12 + 24], 13
-	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
-	QUAD $0x180e7c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + rcx + 24], 14
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x18167c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r10 + 24], 15
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0xda0f4166; BYTE $0xdc               // pminub    xmm3, xmm12
-	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
-	QUAD $0x0000f0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 240], xmm3
-	LONG $0x6f0f4466; BYTE $0xf4               // movdqa    xmm14, xmm4
-	LONG $0xda0f4566; BYTE $0xf4               // pminub    xmm14, xmm12
-	LONG $0x740f4466; BYTE $0xf4               // pcmpeqb    xmm14, xmm4
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xdf0f4466; BYTE $0xec               // pandn    xmm13, xmm4
-	LONG $0xfc0f4566; BYTE $0xee               // paddb    xmm13, xmm14
-	LONG $0x6f0f4466; BYTE $0xf6               // movdqa    xmm14, xmm6
-	LONG $0xda0f4566; BYTE $0xf4               // pminub    xmm14, xmm12
-	LONG $0x740f4466; BYTE $0xf6               // pcmpeqb    xmm14, xmm6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	LONG $0x0e54b60f; BYTE $0x0d               // movzx    edx, byte [rsi + rcx + 13]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	QUAD $0x03266c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r12 + 3], 1
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x02030e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 3], 2
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0303166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 3], 3
-	QUAD $0x030e6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r9 + 3], 4
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x03166c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r10 + 3], 5
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0603166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 3], 6
-	LONG $0x245c894c; BYTE $0x50               // mov    qword [rsp + 80], r11
-	QUAD $0x031e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 3], 7
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x030e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r9 + 3], 8
-	QUAD $0x09031e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 3], 9
-	QUAD $0x000000a024b4894c                   // mov    qword [rsp + 160], r14
-	QUAD $0x03366c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r14 + 3], 10
-	QUAD $0x032e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r13 + 3], 11
-	QUAD $0x03066c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r8 + 3], 12
-	QUAD $0x033e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r15 + 3], 13
-	QUAD $0x0e03066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 3], 14
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x033e6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r15 + 3], 15
-	QUAD $0x04264c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rsi + r12 + 4], 1
-	QUAD $0x040e4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rcx + 4], 2
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x043e4c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdi + 4], 3
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x043e4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdi + 4], 4
-	QUAD $0x04164c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r10 + 4], 5
-	QUAD $0x04164c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rdx + 4], 6
-	QUAD $0x041e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r11 + 4], 7
-	QUAD $0x040e4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r9 + 4], 8
-	QUAD $0x041e4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rsi + rbx + 4], 9
-	QUAD $0x04364c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r14 + 4], 10
-	QUAD $0x042e4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r13 + 4], 11
-	QUAD $0x04064c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r8 + 4], 12
-	LONG $0x243c8b48                           // mov    rdi, qword [rsp]
-	QUAD $0x043e4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdi + 4], 13
-	QUAD $0x04064c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rax + 4], 14
-	QUAD $0x043e4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r15 + 4], 15
-	QUAD $0x05267c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rsi + r12 + 5], 1
-	QUAD $0x02050e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 5], 2
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x03053e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 5], 3
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x04053e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 5], 4
-	QUAD $0x05167c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r10 + 5], 5
-	QUAD $0x0605167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 5], 6
-	QUAD $0x051e7c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r11 + 5], 7
-	QUAD $0x050e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r9 + 5], 8
-	QUAD $0x09051e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 5], 9
-	QUAD $0x05367c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r14 + 5], 10
-	QUAD $0x052e7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r13 + 5], 11
-	QUAD $0x05067c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r8 + 5], 12
-	LONG $0x243c8b48                           // mov    rdi, qword [rsp]
-	QUAD $0x0d053e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 5], 13
-	QUAD $0x0e05067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 5], 14
-	QUAD $0x053e7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r15 + 5], 15
-	QUAD $0x062644203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rsi + r12 + 6], 1
-	QUAD $0x02060e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 6], 2
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x062644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r12 + 6], 3
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x04060e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 6], 4
-	QUAD $0x061644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r10 + 6], 5
-	QUAD $0x06061644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 6], 6
-	QUAD $0x061e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 6], 7
-	QUAD $0x060e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r9 + 6], 8
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x09061e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 6], 9
-	QUAD $0x063644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r14 + 6], 10
-	QUAD $0x062e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r13 + 6], 11
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	QUAD $0x060644203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r8 + 6], 12
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	LONG $0x24048b4c                           // mov    r8, qword [rsp]
-	QUAD $0x060644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r8 + 6], 13
-	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
-	QUAD $0x0e060644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 6], 14
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xdf0f4466; BYTE $0xf4               // pandn    xmm14, xmm4
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	LONG $0x6f0f4466; BYTE $0xfd               // movdqa    xmm15, xmm5
-	LONG $0xda0f4566; BYTE $0xfc               // pminub    xmm15, xmm12
-	LONG $0x740f4466; BYTE $0xfd               // pcmpeqb    xmm15, xmm5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	LONG $0x0654b60f; BYTE $0x0e               // movzx    edx, byte [rsi + rax + 14]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	QUAD $0x000000c0a56f0f66                   // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0xdf0f4466; BYTE $0xfc               // pandn    xmm15, xmm4
-	LONG $0xeb0f4566; BYTE $0xfe               // por    xmm15, xmm14
-	LONG $0x0654b60f; BYTE $0x0f               // movzx    edx, byte [rsi + rax + 15]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xf80f4466; BYTE $0xeb               // psubb    xmm13, xmm3
-	LONG $0x760f4566; BYTE $0xf6               // pcmpeqd    xmm14, xmm14
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x6f0f4166; BYTE $0xe1               // movdqa    xmm4, xmm9
-	LONG $0xda0f4166; BYTE $0xe4               // pminub    xmm4, xmm12
-	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
-	LONG $0x6f0f4466; BYTE $0xcf               // movdqa    xmm9, xmm7
-	LONG $0xda0f4566; BYTE $0xcc               // pminub    xmm9, xmm12
-	LONG $0x740f4466; BYTE $0xcf               // pcmpeqb    xmm9, xmm7
-	LONG $0x0654b60f; BYTE $0x11               // movzx    edx, byte [rsi + rax + 17]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0f063e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 6], 15
-	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI7_13] */
-	LONG $0xe1df0f66                           // pandn    xmm4, xmm1
-	QUAD $0x000000e08d6f0f66                   // movdqa    xmm1, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xdf0f4466; BYTE $0xc9               // pandn    xmm9, xmm1
-	LONG $0xeb0f4466; BYTE $0xcc               // por    xmm9, xmm4
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xda0f4166; BYTE $0xe4               // pminub    xmm4, xmm12
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0x0654b60f; BYTE $0x12               // movzx    edx, byte [rsi + rax + 18]
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x01070e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 7], 1
-	QUAD $0x073e44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r15 + 7], 2
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	QUAD $0x072644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r12 + 7], 3
-	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
-	QUAD $0x070e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r9 + 7], 4
-	QUAD $0x071644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r10 + 7], 5
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	QUAD $0x073e44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r15 + 7], 6
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x07071644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 7], 7
-	QUAD $0x071e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 7], 8
-	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
-	QUAD $0x072644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r12 + 7], 9
-	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
-	QUAD $0x071e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r11 + 7], 10
-	QUAD $0x073644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 7], 11
-	QUAD $0x072e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r13 + 7], 12
-	QUAD $0x070644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r8 + 7], 13
-	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
-	QUAD $0x0e071644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 7], 14
-	QUAD $0x0f073e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 7], 15
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI7_15] */
-	LONG $0xe3df0f66                           // pandn    xmm4, xmm3
-	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
-	LONG $0x6f0f4466; BYTE $0xc8               // movdqa    xmm9, xmm0
-	LONG $0xda0f4566; BYTE $0xcc               // pminub    xmm9, xmm12
-	LONG $0x740f4466; BYTE $0xc8               // pcmpeqb    xmm9, xmm0
-	LONG $0x0654b60f; BYTE $0x13               // movzx    edx, byte [rsi + rax + 19]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	LONG $0xef0f4566; BYTE $0xce               // pxor    xmm9, xmm14
-	LONG $0x710f4166; WORD $0x07f1             // psllw    xmm9, 7
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb0f4466; BYTE $0xc8               // pand    xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xcc               // por    xmm9, xmm4
-	LONG $0x6f0f4166; BYTE $0xe1               // movdqa    xmm4, xmm9
-	LONG $0x0654b60f; BYTE $0x14               // movzx    edx, byte [rsi + rax + 20]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	QUAD $0x0000c024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 192]
-	QUAD $0x01090e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 9], 1
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x02090e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 9], 2
-	QUAD $0x03091e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 9], 3
-	QUAD $0x090e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r9 + 9], 4
-	QUAD $0x091644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r10 + 9], 5
-	QUAD $0x093e44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r15 + 9], 6
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x07093e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 9], 7
-	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
-	QUAD $0x093e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r15 + 9], 8
-	QUAD $0x092644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r12 + 9], 9
-	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
-	QUAD $0x091e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r11 + 9], 10
-	QUAD $0x093644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 9], 11
-	QUAD $0x092e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r13 + 9], 12
-	LONG $0x246c894c; BYTE $0x68               // mov    qword [rsp + 104], r13
-	LONG $0x24248b4c                           // mov    r12, qword [rsp]
-	QUAD $0x092644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r12 + 9], 13
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x090e44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r9 + 9], 14
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x0f091644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 9], 15
-	QUAD $0x010a0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 10], 1
-	QUAD $0x020a0e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 10], 2
-	QUAD $0x030a1e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 10], 3
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x040a1e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 10], 4
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x050a0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 10], 5
-	QUAD $0x0a0654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r8 + 10], 6
-	QUAD $0x070a3e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 10], 7
-	QUAD $0x0a3e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r15 + 10], 8
-	QUAD $0x0a1654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r10 + 10], 9
-	QUAD $0x0a1e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r11 + 10], 10
-	QUAD $0x0a3654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 10], 11
-	QUAD $0x0a2e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r13 + 10], 12
-	QUAD $0x0a2654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r12 + 10], 13
-	QUAD $0x0a0e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r9 + 10], 14
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x0f0a1654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 10], 15
-	WORD $0x8949; BYTE $0xd4                   // mov    r12, rdx
-	LONG $0xeb0f4166; BYTE $0xe7               // por    xmm4, xmm15
-	QUAD $0x0000c024a47f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm4
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xda0f4166; BYTE $0xe4               // pminub    xmm4, xmm12
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	LONG $0x6f0f4466; BYTE $0xec               // movdqa    xmm13, xmm4
-	QUAD $0x0000a0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xdf0f4566; BYTE $0xee               // pandn    xmm13, xmm14
-	LONG $0xfc0f4466; BYTE $0xec               // paddb    xmm13, xmm4
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0xda0f4166; BYTE $0xc4               // pminub    xmm0, xmm12
-	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	LONG $0x0654b60f; BYTE $0x15               // movzx    edx, byte [rsi + rax + 21]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0xdf0f4566; BYTE $0xd6               // pandn    xmm10, xmm14
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x0b065c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rsi + r8 + 11], 1
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	QUAD $0x0b0e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rcx + 11], 2
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0b0e5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rcx + 11], 3
-	QUAD $0x0b1e5c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rsi + rbx + 11], 4
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x0b3e5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rsi + rdi + 11], 5
-	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
-	QUAD $0x0b165c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rdx + 11], 6
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0b165c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdx + 11], 7
-	QUAD $0x0b3e5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r15 + 11], 8
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	QUAD $0x0b165c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r10 + 11], 9
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0b165c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r10 + 11], 10
-	QUAD $0x0b365c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r14 + 11], 11
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x0b365c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r14 + 11], 12
-	LONG $0x241c8b48                           // mov    rbx, qword [rsp]
-	QUAD $0x0b1e5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rbx + 11], 13
-	QUAD $0x0b1e5c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r11 + 11], 14
-	QUAD $0x0b265c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r12 + 11], 15
-	QUAD $0x000000b085df0f66                   // pandn    xmm0, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xeb0f4166; BYTE $0xc2               // por    xmm0, xmm10
-	LONG $0x6f0f4566; BYTE $0xd3               // movdqa    xmm10, xmm11
-	LONG $0xda0f4566; BYTE $0xd4               // pminub    xmm10, xmm12
-	LONG $0x740f4566; BYTE $0xd3               // pcmpeqb    xmm10, xmm11
-	LONG $0x0654b60f; BYTE $0x16               // movzx    edx, byte [rsi + rax + 22]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	QUAD $0x0000c095df0f4466; BYTE $0x00       // pandn    xmm10, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0xeb0f4466; BYTE $0xd0               // por    xmm10, xmm0
-	LONG $0x0654b60f; BYTE $0x17               // movzx    edx, byte [rsi + rax + 23]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	QUAD $0x00013024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 304]
-	QUAD $0x0c0644203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rsi + r8 + 12], 1
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x0c2e44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r13 + 12], 2
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	QUAD $0x030c0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 12], 3
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x0c3e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r15 + 12], 4
-	QUAD $0x050c3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 12], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x060c0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 12], 6
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x070c3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 12], 7
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x0c1e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 12], 8
-	QUAD $0x0c0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 12], 9
-	QUAD $0x0c1644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r10 + 12], 10
-	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
-	QUAD $0x0c2e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r13 + 12], 11
-	QUAD $0x0c3644203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r14 + 12], 12
-	QUAD $0x0d0c1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 12], 13
-	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
-	QUAD $0x0c1644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r10 + 12], 14
-	QUAD $0x0c2644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r12 + 12], 15
-	QUAD $0x0d0674203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r8 + 13], 1
-	QUAD $0x020d0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 13], 2
-	QUAD $0x030d1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 13], 3
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	QUAD $0x0d3e74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r15 + 13], 4
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x0d3e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r15 + 13], 5
-	QUAD $0x060d0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 13], 6
-	QUAD $0x070d3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 13], 7
-	QUAD $0x0d1e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 13], 8
-	QUAD $0x0d0e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 13], 9
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x0a0d3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 13], 10
-	QUAD $0x0d2e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r13 + 13], 11
-	QUAD $0x0d3674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r14 + 13], 12
-	QUAD $0x0d0d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 13], 13
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	QUAD $0x0d1674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r10 + 13], 14
-	QUAD $0x0d2674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r12 + 13], 15
-	QUAD $0x000100adf80f4466; BYTE $0x00       // psubb    xmm13, oword 256[rbp] /* [rip + .LCPI7_16] */
-	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0x6f0f4566; BYTE $0xec               // movdqa    xmm13, xmm12
-	LONG $0xda0f4166; BYTE $0xd4               // pminub    xmm2, xmm12
-	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0xda0f4166; BYTE $0xc4               // pminub    xmm0, xmm12
-	LONG $0xc6740f66                           // pcmpeqb    xmm0, xmm6
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	LONG $0x0e54b60f; BYTE $0x19               // movzx    edx, byte [rsi + rcx + 25]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x010e1e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 14], 1
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x020e0e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 14], 2
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x0e266c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r12 + 14], 3
-	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
-	QUAD $0x040e066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 14], 4
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	QUAD $0x0e3e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r15 + 14], 5
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x060e0e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 14], 6
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x0e166c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r10 + 14], 7
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	QUAD $0x0e1e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r11 + 14], 8
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x0e1e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r11 + 14], 9
-	QUAD $0x0a0e3e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 14], 10
-	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
-	QUAD $0x0e2e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r13 + 14], 11
-	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
-	QUAD $0x0e2e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r13 + 14], 12
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	QUAD $0x0d0e066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 14], 13
-	QUAD $0x0e066c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r8 + 14], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0e066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 14], 15
-	QUAD $0x0f1e44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rbx + 15], 1
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0f0644203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r8 + 15], 2
-	QUAD $0x0f2644203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r12 + 15], 3
-	QUAD $0x0f1644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 15], 4
-	QUAD $0x0f0e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r9 + 15], 5
-	QUAD $0x0f0e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 15], 6
-	QUAD $0x0f1644203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r10 + 15], 7
-	QUAD $0x0f3e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r15 + 15], 8
-	QUAD $0x0f1e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r11 + 15], 9
-	QUAD $0x0f3e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rdi + 15], 10
-	QUAD $0x0f3644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 15], 11
-	QUAD $0x0f2e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r13 + 15], 12
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	QUAD $0x0f0644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rax + 15], 13
-	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
-	QUAD $0x0f0644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r8 + 15], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f0644203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + rax + 15], 15
-	QUAD $0x01111e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 17], 1
-	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
-	QUAD $0x0211067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 17], 2
-	QUAD $0x11267c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r12 + 17], 3
-	QUAD $0x0411167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 17], 4
-	QUAD $0x110e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r9 + 17], 5
-	QUAD $0x06110e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 17], 6
-	QUAD $0x11167c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r10 + 17], 7
-	QUAD $0x113e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r15 + 17], 8
-	QUAD $0x111e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r11 + 17], 9
-	QUAD $0x0a113e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 17], 10
-	QUAD $0x11367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 17], 11
-	QUAD $0x112e7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r13 + 17], 12
-	LONG $0x24048b48                           // mov    rax, qword [rsp]
-	QUAD $0x0d11067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 17], 13
-	QUAD $0x11067c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r8 + 17], 14
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0f11067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 17], 15
-	QUAD $0x01121e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 18], 1
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x02121e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 18], 2
-	QUAD $0x12264c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r12 + 18], 3
-	QUAD $0x0412164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 18], 4
-	QUAD $0x120e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r9 + 18], 5
-	QUAD $0x06120e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 18], 6
-	QUAD $0x12164c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r10 + 18], 7
-	QUAD $0x123e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r15 + 18], 8
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	QUAD $0x121e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r11 + 18], 9
-	QUAD $0x0a123e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 18], 10
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	QUAD $0x12364c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r14 + 18], 11
-	WORD $0x894d; BYTE $0xf7                   // mov    r15, r14
-	QUAD $0x122e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r13 + 18], 12
-	LONG $0x240c8b4c                           // mov    r9, qword [rsp]
-	QUAD $0x120e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r9 + 18], 13
-	QUAD $0x000000d095df0f66                   // pandn    xmm2, oword 208[rbp] /* [rip + .LCPI7_13] */
-	QUAD $0x000000e085df0f66                   // pandn    xmm0, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xc2eb0f66                           // por    xmm0, xmm2
-	LONG $0xd56f0f66                           // movdqa    xmm2, xmm5
-	LONG $0xda0f4166; BYTE $0xd5               // pminub    xmm2, xmm13
-	LONG $0xd5740f66                           // pcmpeqb    xmm2, xmm5
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	LONG $0x0654b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rax + 26]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	QUAD $0x12064c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r8 + 18], 14
-	QUAD $0x000000f095df0f66                   // pandn    xmm2, oword 240[rbp] /* [rip + .LCPI7_15] */
-	LONG $0xd0eb0f66                           // por    xmm2, xmm0
-	LONG $0x6f0f4166; BYTE $0xf0               // movdqa    xmm6, xmm8
-	LONG $0xda0f4166; BYTE $0xf5               // pminub    xmm6, xmm13
-	LONG $0x740f4166; BYTE $0xf0               // pcmpeqb    xmm6, xmm8
-	LONG $0x0654b60f; BYTE $0x1b               // movzx    edx, byte [rsi + rax + 27]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0f120e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 18], 15
-	QUAD $0x00000100b5ef0f66                   // pxor    xmm6, oword 256[rbp] /* [rip + .LCPI7_16] */
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0x75db0f66; BYTE $0x60               // pand    xmm6, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	LONG $0x0654b60f; BYTE $0x1c               // movzx    edx, byte [rsi + rax + 28]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
-	QUAD $0x0000b024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm6
-	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
-	LONG $0xda0f4166; BYTE $0xd5               // pminub    xmm2, xmm13
-	LONG $0xd7740f66                           // pcmpeqb    xmm2, xmm7
-	LONG $0x6f0f4466; BYTE $0xf2               // movdqa    xmm14, xmm2
-	QUAD $0x0000a0b5df0f4466; BYTE $0x00       // pandn    xmm14, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xfc0f4466; BYTE $0xf2               // paddb    xmm14, xmm2
-	LONG $0x6f0f4466; BYTE $0xd1               // movdqa    xmm10, xmm1
-	LONG $0xda0f4566; BYTE $0xd5               // pminub    xmm10, xmm13
-	LONG $0x740f4466; BYTE $0xd1               // pcmpeqb    xmm10, xmm1
-	LONG $0x0654b60f; BYTE $0x1d               // movzx    edx, byte [rsi + rax + 29]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x0654b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rax + 30]
-	LONG $0x067cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rax + 31]
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x0113065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 19], 1
-	QUAD $0x14064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 20], 1
-	QUAD $0x01150664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 21], 1
-	QUAD $0x16067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 22], 1
-	QUAD $0x17065c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rax + 23], 1
-	QUAD $0x190664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 25], 1
-	QUAD $0x011a066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 26], 1
-	QUAD $0x011b0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 27], 1
-	QUAD $0x1c0644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 28], 1
-	QUAD $0x011d0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 29], 1
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	QUAD $0x011e064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 30], 1
-	LONG $0xff6e0f66                           // movd    xmm7, edi
-	QUAD $0x011f067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 31], 1
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x02131e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 19], 2
-	QUAD $0x141e4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rbx + 20], 2
-	QUAD $0x02151e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 21], 2
-	QUAD $0x161e7c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rbx + 22], 2
-	QUAD $0x171e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rbx + 23], 2
-	QUAD $0x191e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rbx + 25], 2
-	QUAD $0x021a1e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 26], 2
-	QUAD $0x021b1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 27], 2
-	QUAD $0x1c1e44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rbx + 28], 2
-	QUAD $0x021d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 29], 2
-	QUAD $0x021e1e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 30], 2
-	QUAD $0x021f1e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 31], 2
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0313065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 19], 3
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0413165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 19], 4
-	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
-	QUAD $0x132e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 19], 5
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x06133e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 19], 6
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x131e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 19], 7
-	QUAD $0x13265c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r12 + 19], 8
-	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
-	QUAD $0x13365c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r14 + 19], 9
-	QUAD $0x13165c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r10 + 19], 10
-	QUAD $0x133e5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r15 + 19], 11
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0c131e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 19], 12
-	QUAD $0x130e5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r9 + 19], 13
-	QUAD $0x13065c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r8 + 19], 14
-	QUAD $0x0f130e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 19], 15
-	QUAD $0x14064c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rax + 20], 3
-	QUAD $0x14164c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdx + 20], 4
-	QUAD $0x142e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r13 + 20], 5
-	QUAD $0x143e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rdi + 20], 6
-	QUAD $0x141e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r11 + 20], 7
-	QUAD $0x14264c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r12 + 20], 8
-	QUAD $0x14364c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r14 + 20], 9
-	QUAD $0x14164c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r10 + 20], 10
-	QUAD $0x143e4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r15 + 20], 11
-	QUAD $0x141e4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + rbx + 20], 12
-	QUAD $0x140e4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r9 + 20], 13
-	QUAD $0x14064c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r8 + 20], 14
-	QUAD $0x140e4c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rcx + 20], 15
-	QUAD $0x03150664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 21], 3
-	QUAD $0x04151664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 21], 4
-	QUAD $0x152e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r13 + 21], 5
-	QUAD $0x06153e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 21], 6
-	QUAD $0x151e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 21], 7
-	QUAD $0x152664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r12 + 21], 8
-	QUAD $0x153664203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r14 + 21], 9
-	QUAD $0x151664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r10 + 21], 10
-	QUAD $0x153e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 21], 11
-	QUAD $0x0c151e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 21], 12
-	QUAD $0x150e64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r9 + 21], 13
-	QUAD $0x150664203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r8 + 21], 14
-	QUAD $0x0f150e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 21], 15
-	QUAD $0x16067c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rax + 22], 3
-	QUAD $0x16167c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rdx + 22], 4
-	QUAD $0x162e7c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rsi + r13 + 22], 5
-	QUAD $0x163e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rdi + 22], 6
-	QUAD $0x161e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r11 + 22], 7
-	QUAD $0x16267c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r12 + 22], 8
-	QUAD $0x16367c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r14 + 22], 9
-	QUAD $0x16167c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r10 + 22], 10
-	QUAD $0x00011024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 272]
-	QUAD $0x000000a095df0f66                   // pandn    xmm2, oword 160[rbp] /* [rip + .LCPI7_10] */
-	QUAD $0x163e7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r15 + 22], 11
-	QUAD $0x0000b095df0f4466; BYTE $0x00       // pandn    xmm10, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xeb0f4466; BYTE $0xd2               // por    xmm10, xmm2
-	QUAD $0x161e7c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + rbx + 22], 12
-	LONG $0xd36f0f66                           // movdqa    xmm2, xmm3
-	LONG $0xda0f4166; BYTE $0xd5               // pminub    xmm2, xmm13
-	LONG $0xd3740f66                           // pcmpeqb    xmm2, xmm3
-	QUAD $0x160e7c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r9 + 22], 13
-	QUAD $0x000000c095df0f66                   // pandn    xmm2, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0xeb0f4166; BYTE $0xd2               // por    xmm2, xmm10
-	QUAD $0x16067c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r8 + 22], 14
-	QUAD $0x000100b5f80f4466; BYTE $0x00       // psubb    xmm14, oword 256[rbp] /* [rip + .LCPI7_16] */
-	LONG $0xeb0f4166; BYTE $0xd6               // por    xmm2, xmm14
-	LONG $0x6f0f4566; BYTE $0xd1               // movdqa    xmm10, xmm9
-	LONG $0xda0f4566; BYTE $0xd5               // pminub    xmm10, xmm13
-	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
-	LONG $0xdc6f0f66                           // movdqa    xmm3, xmm4
-	LONG $0x6f0f4566; BYTE $0xcd               // movdqa    xmm9, xmm13
-	LONG $0xda0f4166; BYTE $0xdd               // pminub    xmm3, xmm13
-	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
-	QUAD $0x160e7c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + rcx + 22], 15
-	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI7_13] */
-	LONG $0xdf0f4566; BYTE $0xd5               // pandn    xmm10, xmm13
-	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xdcdf0f66                           // pandn    xmm3, xmm4
-	LONG $0xeb0f4166; BYTE $0xda               // por    xmm3, xmm10
-	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
-	LONG $0xda0f4166; BYTE $0xe1               // pminub    xmm4, xmm9
-	LONG $0x6f0f4566; BYTE $0xe9               // movdqa    xmm13, xmm9
-	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
-	QUAD $0x17065c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rax + 23], 3
-	QUAD $0x17165c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rsi + rdx + 23], 4
-	QUAD $0x172e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r13 + 23], 5
-	QUAD $0x173e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rdi + 23], 6
-	QUAD $0x171e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r11 + 23], 7
-	QUAD $0x17265c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r12 + 23], 8
-	QUAD $0x17365c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r14 + 23], 9
-	QUAD $0x17165c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r10 + 23], 10
-	QUAD $0x173e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 23], 11
-	QUAD $0x171e5c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + rbx + 23], 12
-	QUAD $0x170e5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r9 + 23], 13
-	QUAD $0x17065c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r8 + 23], 14
-	QUAD $0x170e5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rcx + 23], 15
-	QUAD $0x0000f0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 240[rbp] /* [rip + .LCPI7_15] */
-	LONG $0xdf0f4166; BYTE $0xe7               // pandn    xmm4, xmm15
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x6f0f4166; BYTE $0xdb               // movdqa    xmm3, xmm11
-	LONG $0xda0f4166; BYTE $0xd9               // pminub    xmm3, xmm9
-	LONG $0x740f4166; BYTE $0xdb               // pcmpeqb    xmm3, xmm11
-	QUAD $0x000001009def0f66                   // pxor    xmm3, oword 256[rbp] /* [rip + .LCPI7_16] */
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0x6f0f4466; WORD $0x605d             // movdqa    xmm11, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	QUAD $0x190664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rax + 25], 3
-	QUAD $0x191664203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rdx + 25], 4
-	QUAD $0x192e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r13 + 25], 5
-	QUAD $0x193e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rdi + 25], 6
-	QUAD $0x191e64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r11 + 25], 7
-	QUAD $0x192664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r12 + 25], 8
-	QUAD $0x193664203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r14 + 25], 9
-	QUAD $0x191664203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r10 + 25], 10
-	QUAD $0x193e64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r15 + 25], 11
-	QUAD $0x191e64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + rbx + 25], 12
-	QUAD $0x190e64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r9 + 25], 13
-	QUAD $0x190664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r8 + 25], 14
-	QUAD $0x190e64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rcx + 25], 15
-	QUAD $0x031a066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 26], 3
-	QUAD $0x041a166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 26], 4
-	QUAD $0x1a2e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r13 + 26], 5
-	QUAD $0x061a3e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 26], 6
-	QUAD $0x1a1e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 26], 7
-	QUAD $0x1a266c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r12 + 26], 8
-	QUAD $0x1a366c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r14 + 26], 9
-	QUAD $0x1a166c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r10 + 26], 10
-	QUAD $0x1a3e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r15 + 26], 11
-	QUAD $0x0c1a1e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 26], 12
-	QUAD $0x1a0e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r9 + 26], 13
-	QUAD $0x1a066c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r8 + 26], 14
-	QUAD $0x0f1a0e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 26], 15
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6f0f4166; BYTE $0xd4               // movdqa    xmm2, xmm12
-	LONG $0xda0f4166; BYTE $0xd1               // pminub    xmm2, xmm9
-	LONG $0x740f4166; BYTE $0xd4               // pcmpeqb    xmm2, xmm12
-	LONG $0x6f0f4466; BYTE $0xca               // movdqa    xmm9, xmm2
-	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI7_10] */
-	LONG $0xdf0f4566; BYTE $0xca               // pandn    xmm9, xmm10
-	LONG $0xfc0f4466; BYTE $0xca               // paddb    xmm9, xmm2
-	LONG $0xe56f0f66                           // movdqa    xmm4, xmm5
-	LONG $0xda0f4166; BYTE $0xe5               // pminub    xmm4, xmm13
-	LONG $0xe5740f66                           // pcmpeqb    xmm4, xmm5
-	QUAD $0x0000f024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 240]
-	LONG $0xdf0f4166; BYTE $0xd2               // pandn    xmm2, xmm10
-	QUAD $0x031b0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 27], 3
-	QUAD $0x041b1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 27], 4
-	QUAD $0x1b2e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r13 + 27], 5
-	QUAD $0x061b3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 27], 6
-	QUAD $0x1b1e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 27], 7
-	QUAD $0x1b2644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r12 + 27], 8
-	QUAD $0x1b3644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r14 + 27], 9
-	QUAD $0x1b1644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r10 + 27], 10
-	QUAD $0x1b3e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r15 + 27], 11
-	QUAD $0x0c1b1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 27], 12
-	QUAD $0x1b0e44203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r9 + 27], 13
-	QUAD $0x1b0644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r8 + 27], 14
-	QUAD $0x0f1b0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 27], 15
-	QUAD $0x000000b0a5df0f66                   // pandn    xmm4, oword 176[rbp] /* [rip + .LCPI7_11] */
-	LONG $0xe2eb0f66                           // por    xmm4, xmm2
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0xda0f4166; BYTE $0xd5               // pminub    xmm2, xmm13
-	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
-	QUAD $0x000000c095df0f66                   // pandn    xmm2, oword 192[rbp] /* [rip + .LCPI7_12] */
-	LONG $0xd4eb0f66                           // por    xmm2, xmm4
-	QUAD $0x1c0644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rax + 28], 3
-	QUAD $0x1c1644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 28], 4
-	QUAD $0x1c2e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r13 + 28], 5
-	QUAD $0x1c3e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rdi + 28], 6
-	QUAD $0x1c1e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r11 + 28], 7
-	QUAD $0x1c2644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r12 + 28], 8
-	QUAD $0x1c3644203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r14 + 28], 9
-	QUAD $0x1c1644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r10 + 28], 10
-	QUAD $0x1c3e44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r15 + 28], 11
-	QUAD $0x1c1e44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rbx + 28], 12
-	QUAD $0x1c0e44203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r9 + 28], 13
-	QUAD $0x1c0644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r8 + 28], 14
-	QUAD $0x1c0e44203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + rcx + 28], 15
-	QUAD $0x031d0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 29], 3
-	QUAD $0x041d1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 29], 4
-	QUAD $0x1d2e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r13 + 29], 5
-	QUAD $0x061d3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 29], 6
-	QUAD $0x1d1e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r11 + 29], 7
-	QUAD $0x1d2674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r12 + 29], 8
-	QUAD $0x1d3674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r14 + 29], 9
-	QUAD $0x1d1674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r10 + 29], 10
-	QUAD $0x1d3e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r15 + 29], 11
-	QUAD $0x0c1d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 29], 12
-	QUAD $0x1d0e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r9 + 29], 13
-	QUAD $0x1d0674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r8 + 29], 14
-	QUAD $0x0f1d0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 29], 15
-	LONG $0x760f4566; BYTE $0xd2               // pcmpeqd    xmm10, xmm10
-	LONG $0xf80f4566; BYTE $0xca               // psubb    xmm9, xmm10
-	LONG $0xeb0f4166; BYTE $0xd1               // por    xmm2, xmm9
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xda0f4166; BYTE $0xc5               // pminub    xmm0, xmm13
-	LONG $0x740f4166; BYTE $0xc0               // pcmpeqb    xmm0, xmm8
-	LONG $0xe66f0f66                           // movdqa    xmm4, xmm6
-	LONG $0xda0f4166; BYTE $0xe5               // pminub    xmm4, xmm13
-	LONG $0xe6740f66                           // pcmpeqb    xmm4, xmm6
-	QUAD $0x031e064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 30], 3
-	QUAD $0x031f067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 31], 3
-	QUAD $0x041e164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 30], 4
-	QUAD $0x041f167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 31], 4
-	QUAD $0x1e2e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r13 + 30], 5
-	QUAD $0x1f2e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r13 + 31], 5
-	QUAD $0x061e3e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 30], 6
-	QUAD $0x061f3e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 31], 6
-	QUAD $0x1e1e4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r11 + 30], 7
-	QUAD $0x1f1e7c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r11 + 31], 7
-	QUAD $0x1e264c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r12 + 30], 8
-	QUAD $0x1f267c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r12 + 31], 8
-	QUAD $0x1e364c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r14 + 30], 9
-	QUAD $0x1f367c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r14 + 31], 9
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x1e164c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r10 + 30], 10
-	QUAD $0x1f167c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r10 + 31], 10
-	QUAD $0x1e3e4c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r15 + 30], 11
-	QUAD $0x1f3e7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r15 + 31], 11
-	QUAD $0x0c1e1e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 30], 12
-	QUAD $0x0c1f1e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 31], 12
-	QUAD $0x1e0e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r9 + 30], 13
-	QUAD $0x1f0e7c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r9 + 31], 13
-	QUAD $0x1e064c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r8 + 30], 14
-	QUAD $0x1f067c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r8 + 31], 14
-	QUAD $0x0f1e0e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 30], 15
-	QUAD $0x0f1f0e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 31], 15
-	QUAD $0x000000d085df0f66                   // pandn    xmm0, oword 208[rbp] /* [rip + .LCPI7_13] */
-	QUAD $0x000000e0a5df0f66                   // pandn    xmm4, oword 224[rbp] /* [rip + .LCPI7_14] */
-	LONG $0xe0eb0f66                           // por    xmm4, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0xda0f4166; BYTE $0xc5               // pminub    xmm0, xmm13
-	LONG $0xc1740f66                           // pcmpeqb    xmm0, xmm1
-	LONG $0xdf0f4166; BYTE $0xc7               // pandn    xmm0, xmm15
-	LONG $0xc4eb0f66                           // por    xmm0, xmm4
-	LONG $0xcf6f0f66                           // movdqa    xmm1, xmm7
-	LONG $0xda0f4166; BYTE $0xcd               // pminub    xmm1, xmm13
-	LONG $0xcf740f66                           // pcmpeqb    xmm1, xmm7
-	LONG $0xef0f4166; BYTE $0xca               // pxor    xmm1, xmm10
-	LONG $0xf1710f66; BYTE $0x07               // psllw    xmm1, 7
-	LONG $0xdb0f4166; BYTE $0xcb               // pand    xmm1, xmm11
-	LONG $0xc8eb0f66                           // por    xmm1, xmm0
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0xc1600f66                           // punpcklbw    xmm0, xmm1
-	QUAD $0x0000c024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 192]
-	LONG $0xd56f0f66                           // movdqa    xmm2, xmm5
-	QUAD $0x0000b024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 176]
-	LONG $0xd6600f66                           // punpcklbw    xmm2, xmm6
-	LONG $0xe26f0f66                           // movdqa    xmm4, xmm2
-	LONG $0xe0610f66                           // punpcklwd    xmm4, xmm0
-	LONG $0xd0690f66                           // punpckhwd    xmm2, xmm0
-	LONG $0xd9680f66                           // punpckhbw    xmm3, xmm1
-	LONG $0xee680f66                           // punpckhbw    xmm5, xmm6
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc3610f66                           // punpcklwd    xmm0, xmm3
-	LONG $0xeb690f66                           // punpckhwd    xmm5, xmm3
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	LONG $0x6c7f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm5
-	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
-	LONG $0x547f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm2
-	LONG $0x247f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm4
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
-	JNE  LBB7_67
-	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
-	QUAD $0x000000e824943b4c                   // cmp    r10, qword [rsp + 232]
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
-	JNE  LBB7_69
-	JMP  LBB7_72
-
-LBB7_180:
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xf3                   // add    rbx, rsi
-	LONG $0x84348d4f                           // lea    r14, [r12 + 4*r8]
-	LONG $0xeb280f45                           // movaps    xmm13, xmm11
-	LONG $0xebc60f45; BYTE $0x00               // shufps    xmm13, xmm11, 0
-	LONG $0xfcc68148; WORD $0x0001; BYTE $0x00 // add    rsi, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI7_0] */
-
-LBB7_181:
-	QUAD $0xfffffe049e100ff3                           // movss    xmm3, dword [rsi - 508]
-	QUAD $0xfffe0896100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 504]
-	QUAD $0xfffe0c8e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 500]
-	QUAD $0xfffffe108e100ff3                           // movss    xmm1, dword [rsi - 496]
-	QUAD $0xfffe849e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 380], 16
-	QUAD $0xffff049e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 252], 32
-	LONG $0x213a0f66; WORD $0x845e; BYTE $0x30         // insertps    xmm3, dword [rsi - 124], 48
-	QUAD $0xfe8896213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 376], 16
-	QUAD $0xff0896213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 248], 32
-	QUAD $0x308856213a0f4466                           // insertps    xmm10, dword [rsi - 120], 48
-	QUAD $0xfe8c8e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 372], 16
-	QUAD $0xff0c8e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 244], 32
-	QUAD $0x308c4e213a0f4466                           // insertps    xmm9, dword [rsi - 116], 48
-	QUAD $0xfffe908e213a0f66; WORD $0x10ff             // insertps    xmm1, dword [rsi - 368], 16
-	QUAD $0xffff108e213a0f66; WORD $0x20ff             // insertps    xmm1, dword [rsi - 240], 32
-	LONG $0x213a0f66; WORD $0x904e; BYTE $0x30         // insertps    xmm1, dword [rsi - 112], 48
-	QUAD $0xfffe1486100f44f3; BYTE $0xff               // movss    xmm8, dword [rsi - 492]
-	QUAD $0xfe9486213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm8, dword [rsi - 364], 16
-	QUAD $0xff1486213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm8, dword [rsi - 236], 32
-	LONG $0xe5280f45                                   // movaps    xmm12, xmm13
-	QUAD $0x309446213a0f4466                           // insertps    xmm8, dword [rsi - 108], 48
-	QUAD $0xfffffe1896100ff3                           // movss    xmm2, dword [rsi - 488]
-	QUAD $0xfffe9896213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 360], 16
-	QUAD $0xffff1896213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 232], 32
-	LONG $0xe3c20f44; BYTE $0x01                       // cmpltps    xmm12, xmm3
-	LONG $0x213a0f66; WORD $0x9856; BYTE $0x30         // insertps    xmm2, dword [rsi - 104], 48
-	QUAD $0xfffffe1c9e100ff3                           // movss    xmm3, dword [rsi - 484]
-	QUAD $0xfffe9c9e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 356], 16
-	QUAD $0xffff1c9e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 228], 32
-	LONG $0x6b0f4566; BYTE $0xe4                       // packssdw    xmm12, xmm12
-	LONG $0x213a0f66; WORD $0x9c5e; BYTE $0x30         // insertps    xmm3, dword [rsi - 100], 48
-	QUAD $0xfffffe24a6100ff3                           // movss    xmm4, dword [rsi - 476]
-	QUAD $0xfffea4a6213a0f66; WORD $0x10ff             // insertps    xmm4, dword [rsi - 348], 16
-	QUAD $0xffff24a6213a0f66; WORD $0x20ff             // insertps    xmm4, dword [rsi - 220], 32
-	LONG $0x630f4566; BYTE $0xe4                       // packsswb    xmm12, xmm12
-	LONG $0x213a0f66; WORD $0xa466; BYTE $0x30         // insertps    xmm4, dword [rsi - 92], 48
-	LONG $0xfd280f41                                   // movaps    xmm7, xmm13
-	QUAD $0xfffffe44ae100ff3                           // movss    xmm5, dword [rsi - 444]
-	QUAD $0xfffec4ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 316], 16
-	QUAD $0xffff44ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 188], 32
-	LONG $0x01fcc20f                                   // cmpltps    xmm7, xmm4
-	LONG $0x213a0f66; WORD $0xc46e; BYTE $0x30         // insertps    xmm5, dword [rsi - 60], 48
-	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
-	QUAD $0xfffffe6486100ff3                           // movss    xmm0, dword [rsi - 412]
-	QUAD $0xfffee486213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 284], 16
-	QUAD $0xffff6486213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 156], 32
-	LONG $0x01f5c20f                                   // cmpltps    xmm6, xmm5
-	LONG $0x213a0f66; WORD $0xe446; BYTE $0x30         // insertps    xmm0, dword [rsi - 28], 48
-	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
-	LONG $0x01e0c20f                                   // cmpltps    xmm4, xmm0
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc2c20f41; BYTE $0x01                       // cmpltps    xmm0, xmm10
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0x6f0f4466; BYTE $0xf0                       // movdqa    xmm14, xmm0
-	LONG $0xdb0f4566; BYTE $0xf7                       // pand    xmm14, xmm15
-	LONG $0xf80f4466; BYTE $0xf0                       // psubb    xmm14, xmm0
-	QUAD $0xfffe2096100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 480]
-	QUAD $0xfea096213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 352], 16
-	LONG $0xdb0f4566; BYTE $0xe7                       // pand    xmm12, xmm15
-	QUAD $0xff2096213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 224], 32
-	LONG $0xeb0f4566; BYTE $0xf4                       // por    xmm14, xmm12
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0xe9c20f41; BYTE $0x01                       // cmpltps    xmm5, xmm9
-	QUAD $0x30a056213a0f4466                           // insertps    xmm10, dword [rsi - 96], 48
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
-	LONG $0x456f0f66; BYTE $0x10                       // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI7_1] */
-	LONG $0xe8db0f66                                   // pand    xmm5, xmm0
-	LONG $0xeb0f4166; BYTE $0xee                       // por    xmm5, xmm14
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c1c20f                                   // cmpltps    xmm0, xmm1
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0xc8c20f41; BYTE $0x01                       // cmpltps    xmm1, xmm8
-	QUAD $0xfffe288e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 472]
-	QUAD $0xfea88e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 344], 16
-	QUAD $0xff288e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 216], 32
-	QUAD $0x30a84e213a0f4466                           // insertps    xmm9, dword [rsi - 88], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
-	LONG $0x6f0f4466; WORD $0x2075                     // movdqa    xmm14, oword 32[rbp] /* [rip + .LCPI7_2] */
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0x6f0f4466; WORD $0x3075                     // movdqa    xmm14, oword 48[rbp] /* [rip + .LCPI7_3] */
-	LONG $0xdb0f4166; BYTE $0xce                       // pand    xmm1, xmm14
-	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
-	QUAD $0xfffe2ca6100f44f3; BYTE $0xff               // movss    xmm12, dword [rsi - 468]
-	QUAD $0xfeaca6213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm12, dword [rsi - 340], 16
-	QUAD $0xff2ca6213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm12, dword [rsi - 212], 32
-	QUAD $0x30ac66213a0f4466                           // insertps    xmm12, dword [rsi - 84], 48
-	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c2c20f                                   // cmpltps    xmm0, xmm2
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0x01ebc20f                                   // cmpltps    xmm5, xmm3
-	QUAD $0xfffffe3096100ff3                           // movss    xmm2, dword [rsi - 464]
-	QUAD $0xfffeb096213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 336], 16
-	QUAD $0xffff3096213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 208], 32
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0x213a0f66; WORD $0xb056; BYTE $0x30         // insertps    xmm2, dword [rsi - 80], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
-	LONG $0x6f0f4466; WORD $0x4075                     // movdqa    xmm14, oword 64[rbp] /* [rip + .LCPI7_4] */
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x06                       // psllw    xmm5, 6
-	LONG $0x5d6f0f66; BYTE $0x50                       // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI7_5] */
-	LONG $0xebdb0f66                                   // pand    xmm5, xmm3
-	LONG $0xe8eb0f66                                   // por    xmm5, xmm0
-	LONG $0xc5280f45                                   // movaps    xmm8, xmm13
-	LONG $0xc2c20f45; BYTE $0x01                       // cmpltps    xmm8, xmm10
-	QUAD $0xfffffe349e100ff3                           // movss    xmm3, dword [rsi - 460]
-	QUAD $0xfffeb49e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 332], 16
-	QUAD $0xffff349e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 204], 32
-	LONG $0x213a0f66; WORD $0xb45e; BYTE $0x30         // insertps    xmm3, dword [rsi - 76], 48
-	LONG $0x6b0f4566; BYTE $0xc0                       // packssdw    xmm8, xmm8
-	LONG $0x630f4566; BYTE $0xc0                       // packsswb    xmm8, xmm8
-	LONG $0x710f4166; WORD $0x07f0                     // psllw    xmm8, 7
-	LONG $0x456f0f66; BYTE $0x60                       // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb0f4466; BYTE $0xc0                       // pand    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc5                       // por    xmm8, xmm5
-	QUAD $0xfffe3896100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 456]
-	QUAD $0xfeb896213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 328], 16
-	QUAD $0xff3896213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 200], 32
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	QUAD $0x30b856213a0f4466                           // insertps    xmm10, dword [rsi - 72], 48
-	LONG $0xeb0f4466; BYTE $0xc1                       // por    xmm8, xmm1
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc1c20f41; BYTE $0x01                       // cmpltps    xmm0, xmm9
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xc86f0f66                                   // movdqa    xmm1, xmm0
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xc8f80f66                                   // psubb    xmm1, xmm0
-	QUAD $0xfffe3c8e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 452]
-	QUAD $0xfebc8e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 324], 16
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	QUAD $0xff3c8e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 196], 32
-	LONG $0xcfeb0f66                                   // por    xmm1, xmm7
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0xecc20f41; BYTE $0x01                       // cmpltps    xmm5, xmm12
-	QUAD $0x30bc4e213a0f4466                           // insertps    xmm9, dword [rsi - 68], 48
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
-	LONG $0x6ddb0f66; BYTE $0x10                       // pand    xmm5, oword 16[rbp] /* [rip + .LCPI7_1] */
-	LONG $0xe9eb0f66                                   // por    xmm5, xmm1
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c2c20f                                   // cmpltps    xmm0, xmm2
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x01cbc20f                                   // cmpltps    xmm1, xmm3
-	QUAD $0xfffffe409e100ff3                           // movss    xmm3, dword [rsi - 448]
-	QUAD $0xfffec09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 320], 16
-	QUAD $0xffff409e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 192], 32
-	LONG $0x213a0f66; WORD $0xc05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 64], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
-	LONG $0x6f0f4466; WORD $0x2065                     // movdqa    xmm12, oword 32[rbp] /* [rip + .LCPI7_2] */
-	LONG $0xdb0f4166; BYTE $0xc4                       // pand    xmm0, xmm12
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0x4ddb0f66; BYTE $0x30                       // pand    xmm1, oword 48[rbp] /* [rip + .LCPI7_3] */
-	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
-	QUAD $0xfffffe4896100ff3                           // movss    xmm2, dword [rsi - 440]
-	QUAD $0xfffec896213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 312], 16
-	QUAD $0xffff4896213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 184], 32
-	LONG $0x213a0f66; WORD $0xc856; BYTE $0x30         // insertps    xmm2, dword [rsi - 56], 48
-	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc2c20f41; BYTE $0x01                       // cmpltps    xmm0, xmm10
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0xe9c20f41; BYTE $0x01                       // cmpltps    xmm5, xmm9
-	QUAD $0xfffffe4cbe100ff3                           // movss    xmm7, dword [rsi - 436]
-	QUAD $0xfffeccbe213a0f66; WORD $0x10ff             // insertps    xmm7, dword [rsi - 308], 16
-	QUAD $0xffff4cbe213a0f66; WORD $0x20ff             // insertps    xmm7, dword [rsi - 180], 32
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0x213a0f66; WORD $0xcc7e; BYTE $0x30         // insertps    xmm7, dword [rsi - 52], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x06                       // psllw    xmm5, 6
-	LONG $0x6ddb0f66; BYTE $0x50                       // pand    xmm5, oword 80[rbp] /* [rip + .LCPI7_5] */
-	LONG $0xe8eb0f66                                   // por    xmm5, xmm0
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c3c20f                                   // cmpltps    xmm0, xmm3
-	QUAD $0xfffffe509e100ff3                           // movss    xmm3, dword [rsi - 432]
-	QUAD $0xfffed09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 304], 16
-	QUAD $0xffff509e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 176], 32
-	LONG $0x213a0f66; WORD $0xd05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 48], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xf0710f66; BYTE $0x07                       // psllw    xmm0, 7
-	LONG $0x6f0f4466; WORD $0x6055                     // movdqa    xmm10, oword 96[rbp] /* [rip + .LCPI7_6] */
-	LONG $0xdb0f4166; BYTE $0xc2                       // pand    xmm0, xmm10
-	LONG $0xc5eb0f66                                   // por    xmm0, xmm5
-	QUAD $0xfffffe54ae100ff3                           // movss    xmm5, dword [rsi - 428]
-	QUAD $0xfffed4ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 300], 16
-	QUAD $0xffff54ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 172], 32
-	LONG $0x213a0f66; WORD $0xd46e; BYTE $0x30         // insertps    xmm5, dword [rsi - 44], 48
-	LONG $0xc1eb0f66                                   // por    xmm0, xmm1
-	QUAD $0xfffe588e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 424]
-	QUAD $0xfed88e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 296], 16
-	QUAD $0xff588e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 168], 32
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	QUAD $0x30d84e213a0f4466                           // insertps    xmm9, dword [rsi - 40], 48
-	LONG $0x620f4466; BYTE $0xc0                       // punpckldq    xmm8, xmm0
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c2c20f                                   // cmpltps    xmm0, xmm2
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xc86f0f66                                   // movdqa    xmm1, xmm0
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xc8f80f66                                   // psubb    xmm1, xmm0
-	QUAD $0xfffffe5c96100ff3                           // movss    xmm2, dword [rsi - 420]
-	QUAD $0xfffedc96213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 292], 16
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	QUAD $0xffff5c96213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 164], 32
-	LONG $0xceeb0f66                                   // por    xmm1, xmm6
-	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
-	LONG $0x01f7c20f                                   // cmpltps    xmm6, xmm7
-	LONG $0x213a0f66; WORD $0xdc56; BYTE $0x30         // insertps    xmm2, dword [rsi - 36], 48
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02                       // psllw    xmm6, 2
-	LONG $0x456f0f66; BYTE $0x10                       // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI7_1] */
-	LONG $0xf0db0f66                                   // pand    xmm6, xmm0
-	LONG $0xf1eb0f66                                   // por    xmm6, xmm1
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c3c20f                                   // cmpltps    xmm0, xmm3
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x01cdc20f                                   // cmpltps    xmm1, xmm5
-	QUAD $0xfffffe609e100ff3                           // movss    xmm3, dword [rsi - 416]
-	QUAD $0xfffee09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 288], 16
-	QUAD $0xffff609e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 160], 32
-	LONG $0x213a0f66; WORD $0xe05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 32], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
-	LONG $0xdb0f4166; BYTE $0xc4                       // pand    xmm0, xmm12
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0x6f0f4466; WORD $0x3065                     // movdqa    xmm12, oword 48[rbp] /* [rip + .LCPI7_3] */
-	LONG $0xdb0f4166; BYTE $0xcc                       // pand    xmm1, xmm12
-	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
-	QUAD $0xfffffe68ae100ff3                           // movss    xmm5, dword [rsi - 408]
-	QUAD $0xfffee8ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 280], 16
-	QUAD $0xffff68ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 152], 32
-	LONG $0x213a0f66; WORD $0xe86e; BYTE $0x30         // insertps    xmm5, dword [rsi - 24], 48
-	LONG $0xceeb0f66                                   // por    xmm1, xmm6
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc1c20f41; BYTE $0x01                       // cmpltps    xmm0, xmm9
-	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
-	LONG $0x01f2c20f                                   // cmpltps    xmm6, xmm2
-	QUAD $0xfffffe6cbe100ff3                           // movss    xmm7, dword [rsi - 404]
-	QUAD $0xfffeecbe213a0f66; WORD $0x10ff             // insertps    xmm7, dword [rsi - 276], 16
-	QUAD $0xffff6cbe213a0f66; WORD $0x20ff             // insertps    xmm7, dword [rsi - 148], 32
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0x213a0f66; WORD $0xec7e; BYTE $0x30         // insertps    xmm7, dword [rsi - 20], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x06                       // psllw    xmm6, 6
-	LONG $0x6f0f4466; WORD $0x504d                     // movdqa    xmm9, oword 80[rbp] /* [rip + .LCPI7_5] */
-	LONG $0xdb0f4166; BYTE $0xf1                       // pand    xmm6, xmm9
-	LONG $0xf0eb0f66                                   // por    xmm6, xmm0
-	LONG $0xd5280f41                                   // movaps    xmm2, xmm13
-	LONG $0x01d3c20f                                   // cmpltps    xmm2, xmm3
-	QUAD $0xfffffe7086100ff3                           // movss    xmm0, dword [rsi - 400]
-	QUAD $0xfffef086213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 272], 16
-	QUAD $0xffff7086213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 144], 32
-	LONG $0x213a0f66; WORD $0xf046; BYTE $0x30         // insertps    xmm0, dword [rsi - 16], 48
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07                       // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd2                       // pand    xmm2, xmm10
-	LONG $0xd6eb0f66                                   // por    xmm2, xmm6
-	QUAD $0xfffffe74b6100ff3                           // movss    xmm6, dword [rsi - 396]
-	QUAD $0xfffef4b6213a0f66; WORD $0x10ff             // insertps    xmm6, dword [rsi - 268], 16
-	QUAD $0xffff74b6213a0f66; WORD $0x20ff             // insertps    xmm6, dword [rsi - 140], 32
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0x213a0f66; WORD $0xf476; BYTE $0x30         // insertps    xmm6, dword [rsi - 12], 48
-	LONG $0xd1eb0f66                                   // por    xmm2, xmm1
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x01cdc20f                                   // cmpltps    xmm1, xmm5
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                                   // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xe9f80f66                                   // psubb    xmm5, xmm1
-	QUAD $0xfffffe789e100ff3                           // movss    xmm3, dword [rsi - 392]
-	QUAD $0xfffef89e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 264], 16
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	QUAD $0xffff789e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 136], 32
-	LONG $0xeceb0f66                                   // por    xmm5, xmm4
-	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
-	LONG $0x01e7c20f                                   // cmpltps    xmm4, xmm7
-	LONG $0x213a0f66; WORD $0xf85e; BYTE $0x30         // insertps    xmm3, dword [rsi - 8], 48
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x02                       // psllw    xmm4, 2
-	LONG $0x65db0f66; BYTE $0x10                       // pand    xmm4, oword 16[rbp] /* [rip + .LCPI7_1] */
-	LONG $0xe5eb0f66                                   // por    xmm4, xmm5
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0x01e8c20f                                   // cmpltps    xmm5, xmm0
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x01cec20f                                   // cmpltps    xmm1, xmm6
-	QUAD $0xfffffe7c86100ff3                           // movss    xmm0, dword [rsi - 388]
-	QUAD $0xfffefc86213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 260], 16
-	QUAD $0xffff7c86213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 132], 32
-	LONG $0x213a0f66; WORD $0xfc46; BYTE $0x30         // insertps    xmm0, dword [rsi - 4], 48
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03                       // psllw    xmm5, 3
-	LONG $0x6ddb0f66; BYTE $0x20                       // pand    xmm5, oword 32[rbp] /* [rip + .LCPI7_2] */
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0xdb0f4166; BYTE $0xcc                       // pand    xmm1, xmm12
-	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
-	QUAD $0xfffffe80ae100ff3                           // movss    xmm5, dword [rsi - 384]
-	QUAD $0xffff00ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 256], 16
-	LONG $0x213a0f66; WORD $0x806e; BYTE $0x20         // insertps    xmm5, dword [rsi - 128], 32
-	LONG $0xcceb0f66                                   // por    xmm1, xmm4
-	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
-	LONG $0x01e3c20f                                   // cmpltps    xmm4, xmm3
-	LONG $0xdd280f41                                   // movaps    xmm3, xmm13
-	LONG $0x01d8c20f                                   // cmpltps    xmm3, xmm0
-	LONG $0x213a0f66; WORD $0x302e                     // insertps    xmm5, dword [rsi], 48
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x05                       // psllw    xmm4, 5
-	LONG $0xdb0f4166; BYTE $0xe6                       // pand    xmm4, xmm14
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06                       // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xd9                       // pand    xmm3, xmm9
-	LONG $0xdceb0f66                                   // por    xmm3, xmm4
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x01c5c20f                                   // cmpltps    xmm0, xmm5
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xf0710f66; BYTE $0x07                       // psllw    xmm0, 7
-	LONG $0xdb0f4166; BYTE $0xc2                       // pand    xmm0, xmm10
-	LONG $0xc3eb0f66                                   // por    xmm0, xmm3
-	LONG $0xc1eb0f66                                   // por    xmm0, xmm1
-	LONG $0xd0620f66                                   // punpckldq    xmm2, xmm0
-	LONG $0x600f4466; BYTE $0xc2                       // punpcklbw    xmm8, xmm2
-	LONG $0x380f4466; WORD $0x4500; BYTE $0x70         // pshufb    xmm8, oword 112[rbp] /* [rip + .LCPI7_7] */
-	LONG $0x7f0f45f3; WORD $0x8c04                     // movdqu    oword [r12 + 4*rcx], xmm8
-	LONG $0x04c18348                                   // add    rcx, 4
-	LONG $0x00c68148; WORD $0x0002; BYTE $0x00         // add    rsi, 512
-	WORD $0x3949; BYTE $0xc8                           // cmp    r8, rcx
-	JNE  LBB7_181
-	WORD $0x394d; BYTE $0xc2                           // cmp    r10, r8
-	JNE  LBB7_183
-	JMP  LBB7_186
-
-LBB7_122:
-	LONG $0xf8e68349                     // and    r14, -8
-	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
-	LONG $0x06e0c148                     // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	LONG $0x24448948; BYTE $0x30         // mov    qword [rsp + 48], rax
-	LONG $0x2474894c; BYTE $0x18         // mov    qword [rsp + 24], r14
-	LONG $0xb4048d4b                     // lea    rax, [r12 + 4*r14]
-	LONG $0x24048948                     // mov    qword [rsp], rax
-	QUAD $0x0000f024846e0f66; BYTE $0x00 // movd    xmm0, dword [rsp + 240]
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
-	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
-	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI7_8] */
-	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI7_1] */
-	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI7_2] */
-	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI7_3] */
-	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI7_4] */
-	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI7_5] */
-	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI7_6] */
-	QUAD $0x0000008024a4894c             // mov    qword [rsp + 128], r12
-
-LBB7_123:
-	LONG $0x247c894c; BYTE $0x10               // mov    qword [rsp + 16], r15
-	LONG $0x06e7c149                           // shl    r15, 6
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	LONG $0x34b70f46; BYTE $0x3e               // movzx    r14d, word [rsi + r15]
-	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
-	LONG $0x5cb70f46; WORD $0x043e             // movzx    r11d, word [rsi + r15 + 4]
-	LONG $0x54b70f42; WORD $0x063e             // movzx    edx, word [rsi + r15 + 6]
-	LONG $0x54b70f46; WORD $0x083e             // movzx    r10d, word [rsi + r15 + 8]
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
-	LONG $0xc40f4266; WORD $0x0624; BYTE $0x01 // pinsrw    xmm4, word [rsi + r8], 1
-	LONG $0xc40f4266; WORD $0x0e24; BYTE $0x02 // pinsrw    xmm4, word [rsi + r9], 2
-	LONG $0xc40f4266; WORD $0x2624; BYTE $0x03 // pinsrw    xmm4, word [rsi + r12], 3
-	LONG $0xc40f4266; WORD $0x2e24; BYTE $0x04 // pinsrw    xmm4, word [rsi + r13], 4
-	LONG $0x24c40f66; WORD $0x050e             // pinsrw    xmm4, word [rsi + rcx], 5
-	LONG $0x24c40f66; WORD $0x063e             // pinsrw    xmm4, word [rsi + rdi], 6
-	LONG $0x24c40f66; WORD $0x071e             // pinsrw    xmm4, word [rsi + rbx], 7
-	LONG $0x74b70f46; WORD $0x0a3e             // movzx    r14d, word [rsi + r15 + 10]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	QUAD $0x01020674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 2], 1
-	QUAD $0x02020e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 2], 2
-	QUAD $0x03022674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 2], 3
-	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
-	LONG $0x08244489                           // mov    dword [rsp + 8], eax
-	QUAD $0x04022e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 2], 4
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x5cb70f46; WORD $0x0e3e             // movzx    r11d, word [rsi + r15 + 14]
-	LONG $0x74c40f66; WORD $0x020e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 2], 5
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0x54b70f42; WORD $0x103e             // movzx    edx, word [rsi + r15 + 16]
-	LONG $0x74c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 2], 6
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x44b70f42; WORD $0x123e             // movzx    eax, word [rsi + r15 + 18]
-	LONG $0x28244489                           // mov    dword [rsp + 40], eax
-	LONG $0x74c40f66; WORD $0x021e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 2], 7
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xcef80f66                           // psubb    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf6               // movd    xmm6, r14d
-	LONG $0x54b70f46; WORD $0x143e             // movzx    r10d, word [rsi + r15 + 20]
-	LONG $0xe0650f66                           // pcmpgtw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	QUAD $0x01040654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 4], 1
-	QUAD $0x02040e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 4], 2
-	QUAD $0x03042654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 4], 3
-	QUAD $0x04042e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 4], 4
-	LONG $0x54c40f66; WORD $0x040e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 4], 5
-	LONG $0x54c40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 4], 6
-	LONG $0x54c40f66; WORD $0x041e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 4], 7
-	QUAD $0x0106066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 6], 1
-	QUAD $0x02060e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 6], 2
-	QUAD $0x0306266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 6], 3
-	QUAD $0x04062e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 6], 4
-	LONG $0x6cc40f66; WORD $0x060e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 6], 5
-	LONG $0x6cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 6], 6
-	LONG $0x6cc40f66; WORD $0x061e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 6], 7
-	QUAD $0x0108065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 8], 1
-	QUAD $0x02080e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 8], 2
-	QUAD $0x0308265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 8], 3
-	QUAD $0x04082e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 8], 4
-	LONG $0x5cc40f66; WORD $0x080e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 8], 5
-	LONG $0x5cc40f66; WORD $0x083e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 8], 6
-	LONG $0x5cc40f66; WORD $0x081e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 8], 7
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x7c6e0f66; WORD $0x0824             // movd    xmm7, dword [rsp + 8]
-	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
-	LONG $0xd0650f66                           // pcmpgtw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
-	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x5cb70f46; WORD $0x183e             // movzx    r11d, word [rsi + r15 + 24]
-	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0xd8650f66                           // pcmpgtw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0x54b70f42; WORD $0x1a3e             // movzx    edx, word [rsi + r15 + 26]
-	QUAD $0x010a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 10], 1
-	QUAD $0x020a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 10], 2
-	QUAD $0x030a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 10], 3
-	QUAD $0x040a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 10], 4
-	LONG $0x74c40f66; WORD $0x0a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 10], 5
-	LONG $0x74c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 10], 6
-	LONG $0x74c40f66; WORD $0x0a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 10], 7
-	QUAD $0x010c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 12], 1
-	QUAD $0x020c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 12], 2
-	QUAD $0x030c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 12], 3
-	QUAD $0x040c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 12], 4
-	LONG $0x7cc40f66; WORD $0x0c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 12], 5
-	LONG $0x7cc40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 12], 6
-	LONG $0x7cc40f66; WORD $0x0c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 12], 7
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x28 // movd    xmm8, dword [rsp + 40]
-	LONG $0x74b70f46; WORD $0x1c3e             // movzx    r14d, word [rsi + r15 + 28]
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8650f66                           // pcmpgtw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xea               // movd    xmm5, r10d
-	LONG $0x54b70f46; WORD $0x1e3e             // movzx    r10d, word [rsi + r15 + 30]
-	QUAD $0x010e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 14], 1
-	QUAD $0x020e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 14], 2
-	QUAD $0x030e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 14], 3
-	QUAD $0x040e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 14], 4
-	LONG $0x64c40f66; WORD $0x0e0e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rcx + 14], 5
-	LONG $0x64c40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 14], 6
-	LONG $0x64c40f66; WORD $0x0e1e; BYTE $0x07 // pinsrw    xmm4, word [rsi + rbx + 14], 7
-	QUAD $0x01120644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 18], 1
-	QUAD $0x02120e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 18], 2
-	QUAD $0x03122644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 18], 3
-	QUAD $0x04122e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 18], 4
-	QUAD $0x05120e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 18], 5
-	QUAD $0x06123e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 18], 6
-	QUAD $0x07121e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 18], 7
-	LONG $0xe0650f66                           // pcmpgtw    xmm4, xmm0
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x203e             // movzx    eax, word [rsi + r15 + 32]
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x650f4466; BYTE $0xc0               // pcmpgtw    xmm8, xmm0
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
-	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
-	LONG $0x5cb70f46; WORD $0x223e             // movzx    r11d, word [rsi + r15 + 34]
-	QUAD $0x0110064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 16], 1
-	QUAD $0x02100e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 16], 2
-	QUAD $0x0310264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 16], 3
-	QUAD $0x04102e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 16], 4
-	LONG $0x4cc40f66; WORD $0x100e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 16], 5
-	LONG $0x4cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 16], 6
-	LONG $0x4cc40f66; WORD $0x101e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 16], 7
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0x54b70f42; WORD $0x243e             // movzx    edx, word [rsi + r15 + 36]
-	LONG $0x20245489                           // mov    dword [rsp + 32], edx
-	QUAD $0x0114066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 20], 1
-	QUAD $0x02140e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 20], 2
-	QUAD $0x0314266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 20], 3
-	QUAD $0x04142e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 20], 4
-	LONG $0x6cc40f66; WORD $0x140e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 20], 5
-	LONG $0x6cc40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 20], 6
-	LONG $0x6cc40f66; WORD $0x141e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 20], 7
-	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
-	LONG $0x54b70f42; WORD $0x263e             // movzx    edx, word [rsi + r15 + 38]
-	LONG $0x28245489                           // mov    dword [rsp + 40], edx
-	QUAD $0x01160654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 22], 1
-	QUAD $0x02160e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 22], 2
-	QUAD $0x03162654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 22], 3
-	QUAD $0x04162e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 22], 4
-	LONG $0x54c40f66; WORD $0x160e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 22], 5
-	LONG $0x54c40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 22], 6
-	LONG $0x54c40f66; WORD $0x161e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 22], 7
-	QUAD $0x0118065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 24], 1
-	QUAD $0x02180e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 24], 2
-	QUAD $0x0318265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 24], 3
-	QUAD $0x04182e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 24], 4
-	LONG $0x5cc40f66; WORD $0x180e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 24], 5
-	LONG $0x5cc40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 24], 6
-	LONG $0x5cc40f66; WORD $0x181e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 24], 7
-	LONG $0xd0650f66                           // pcmpgtw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0xd8650f66                           // pcmpgtw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
-	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	LONG $0x74b70f46; WORD $0x283e             // movzx    r14d, word [rsi + r15 + 40]
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x2a3e             // movzx    eax, word [rsi + r15 + 42]
-	LONG $0x08244489                           // mov    dword [rsp + 8], eax
-	QUAD $0x011a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 26], 1
-	QUAD $0x021a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 26], 2
-	QUAD $0x031a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 26], 3
-	QUAD $0x041a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 26], 4
-	LONG $0x74c40f66; WORD $0x1a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 26], 5
-	LONG $0x74c40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 26], 6
-	LONG $0x74c40f66; WORD $0x1a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 26], 7
-	QUAD $0x011c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 28], 1
-	QUAD $0x021c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 28], 2
-	QUAD $0x031c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 28], 3
-	QUAD $0x041c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 28], 4
-	LONG $0x7cc40f66; WORD $0x1c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 28], 5
-	LONG $0x7cc40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 28], 6
-	LONG $0x7cc40f66; WORD $0x1c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 28], 7
-	QUAD $0x011e0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 30], 1
-	QUAD $0x021e0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 30], 2
-	QUAD $0x031e2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 30], 3
-	QUAD $0x041e2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 30], 4
-	LONG $0x54c40f66; WORD $0x1e0e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 30], 5
-	LONG $0x54c40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 30], 6
-	LONG $0x54c40f66; WORD $0x1e1e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 30], 7
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xf8650f66                           // pcmpgtw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x54b70f46; WORD $0x2c3e             // movzx    r10d, word [rsi + r15 + 44]
-	LONG $0xd0650f66                           // pcmpgtw    xmm2, xmm0
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x746e0f66; WORD $0x2024             // movd    xmm6, dword [rsp + 32]
-	LONG $0x54b70f42; WORD $0x2e3e             // movzx    edx, word [rsi + r15 + 46]
-	QUAD $0x0120066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 32], 1
-	QUAD $0x02200e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 32], 2
-	QUAD $0x0320266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 32], 3
-	QUAD $0x04202e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 32], 4
-	LONG $0x6cc40f66; WORD $0x200e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 32], 5
-	LONG $0x6cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 32], 6
-	QUAD $0x0122064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 34], 1
-	QUAD $0x02220e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 34], 2
-	QUAD $0x0322264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 34], 3
-	QUAD $0x04222e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 34], 4
-	LONG $0x4cc40f66; WORD $0x220e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 34], 5
-	LONG $0x4cc40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 34], 6
-	LONG $0x4cc40f66; WORD $0x221e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 34], 7
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
-	LONG $0x5c6e0f66; WORD $0x2824             // movd    xmm3, dword [rsp + 40]
-	LONG $0x5cb70f46; WORD $0x303e             // movzx    r11d, word [rsi + r15 + 48]
-	LONG $0x6cc40f66; WORD $0x201e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 32], 7
-	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	QUAD $0x01240674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 36], 1
-	QUAD $0x02240e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 36], 2
-	QUAD $0x03242674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 36], 3
-	QUAD $0x04242e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 36], 4
-	LONG $0x74c40f66; WORD $0x240e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 36], 5
-	LONG $0x74c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 36], 6
-	LONG $0x74c40f66; WORD $0x241e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 36], 7
-	QUAD $0x0126065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 38], 1
-	QUAD $0x02260e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 38], 2
-	QUAD $0x0326265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 38], 3
-	QUAD $0x04262e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 38], 4
-	LONG $0x5cc40f66; WORD $0x260e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 38], 5
-	LONG $0x5cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 38], 6
-	LONG $0x5cc40f66; WORD $0x261e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 38], 7
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
-	QUAD $0x0128066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 40], 1
-	QUAD $0x02280e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 40], 2
-	QUAD $0x0328266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 40], 3
-	QUAD $0x04282e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 40], 4
-	LONG $0x6cc40f66; WORD $0x280e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 40], 5
-	LONG $0x6cc40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 40], 6
-	LONG $0x44b70f42; WORD $0x323e             // movzx    eax, word [rsi + r15 + 50]
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
-	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	LONG $0x4c6e0f66; WORD $0x0824             // movd    xmm1, dword [rsp + 8]
-	LONG $0x74b70f46; WORD $0x343e             // movzx    r14d, word [rsi + r15 + 52]
-	LONG $0x6cc40f66; WORD $0x281e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 40], 7
-	LONG $0xd8650f66                           // pcmpgtw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
-	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
-	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
-	LONG $0x54b70f46; WORD $0x363e             // movzx    r10d, word [rsi + r15 + 54]
-	QUAD $0x012a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 42], 1
-	QUAD $0x022a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 42], 2
-	QUAD $0x032a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 42], 3
-	QUAD $0x042a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 42], 4
-	LONG $0x4cc40f66; WORD $0x2a0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 42], 5
-	LONG $0x4cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 42], 6
-	LONG $0x4cc40f66; WORD $0x2a1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 42], 7
-	QUAD $0x012c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 44], 1
-	QUAD $0x022c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 44], 2
-	QUAD $0x032c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 44], 3
-	QUAD $0x042c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 44], 4
-	LONG $0x7cc40f66; WORD $0x2c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 44], 5
-	LONG $0x7cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 44], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	LONG $0x54b70f42; WORD $0x383e             // movzx    edx, word [rsi + r15 + 56]
-	LONG $0x7cc40f66; WORD $0x2c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 44], 7
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0xf8650f66                           // pcmpgtw    xmm7, xmm0
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
-	LONG $0x5cb70f46; WORD $0x3a3e             // movzx    r11d, word [rsi + r15 + 58]
-	QUAD $0x012e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 46], 1
-	QUAD $0x022e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 46], 2
-	QUAD $0x032e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 46], 3
-	QUAD $0x042e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 46], 4
-	LONG $0x5cc40f66; WORD $0x2e0e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 46], 5
-	LONG $0x5cc40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 46], 6
-	LONG $0x5cc40f66; WORD $0x2e1e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 46], 7
-	LONG $0xd8650f66                           // pcmpgtw    xmm3, xmm0
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x3c3e             // movzx    eax, word [rsi + r15 + 60]
-	LONG $0x7cb70f46; WORD $0x3e3e             // movzx    r15d, word [rsi + r15 + 62]
-	QUAD $0x0132064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 1
-	QUAD $0x02320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 2
-	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
-	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
-	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 50], 5
-	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
-	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 50], 7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	QUAD $0x01300674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 48], 1
-	QUAD $0x02300e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 48], 2
-	QUAD $0x03302674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 48], 3
-	QUAD $0x04302e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 48], 4
-	LONG $0x74c40f66; WORD $0x300e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 48], 5
-	LONG $0x74c40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 48], 6
-	LONG $0x74c40f66; WORD $0x301e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 48], 7
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	QUAD $0x0134064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 52], 1
-	QUAD $0x02340e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 52], 2
-	QUAD $0x0334264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 52], 3
-	QUAD $0x04342e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 52], 4
-	LONG $0x4cc40f66; WORD $0x340e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 52], 5
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x4cc40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 52], 6
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x4cc40f66; WORD $0x341e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 52], 7
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
-	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	QUAD $0x01360674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 54], 1
-	QUAD $0x02360e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 54], 2
-	QUAD $0x03362674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 54], 3
-	QUAD $0x04362e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 54], 4
-	LONG $0x74c40f66; WORD $0x360e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 54], 5
-	LONG $0x74c40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 54], 6
-	LONG $0x74c40f66; WORD $0x361e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 54], 7
-	QUAD $0x0138066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 56], 1
-	QUAD $0x02380e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 56], 2
-	QUAD $0x0338266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 56], 3
-	QUAD $0x04382e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 56], 4
-	LONG $0x6cc40f66; WORD $0x380e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 56], 5
-	LONG $0x6cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 56], 6
-	LONG $0x6cc40f66; WORD $0x381e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 56], 7
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
-	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
-	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
-	QUAD $0x013a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 58], 1
-	QUAD $0x023a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 58], 2
-	QUAD $0x033a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 58], 3
-	QUAD $0x043a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 58], 4
-	LONG $0x74c40f66; WORD $0x3a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 58], 5
-	LONG $0x74c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 58], 6
-	LONG $0x74c40f66; WORD $0x3a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 58], 7
-	LONG $0xe9eb0f66                           // por    xmm5, xmm1
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	QUAD $0x013c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 60], 1
-	QUAD $0x023c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 60], 2
-	QUAD $0x033c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 60], 3
-	QUAD $0x043c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 60], 4
-	LONG $0x4cc40f66; WORD $0x3c0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 60], 5
-	LONG $0x4cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 60], 6
-	LONG $0x4cc40f66; WORD $0x3c1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 60], 7
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
-	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
-	LONG $0xceeb0f66                           // por    xmm1, xmm6
-	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
-	QUAD $0x013e0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 62], 1
-	QUAD $0x023e0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 62], 2
-	QUAD $0x033e2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 62], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x043e2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 62], 4
-	LONG $0x74c40f66; WORD $0x3e0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 62], 5
-	LONG $0x74c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 62], 6
-	LONG $0x74c40f66; WORD $0x3e1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 62], 7
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
-	LONG $0xf1eb0f66                           // por    xmm6, xmm1
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
-	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
-	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
-	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI7_9] */
-	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
-	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
-	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
-	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	LONG $0x247f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm4
-	LONG $0x4c7f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm1
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
-	JNE  LBB7_123
-	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
-	LONG $0x24743b4c; BYTE $0x18               // cmp    r14, qword [rsp + 24]
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	LONG $0x24248b4c                           // mov    r12, qword [rsp]
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	JNE  LBB7_125
-	JMP  LBB7_128
-
-DATA LCDATA6<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA6<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA6<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA6<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA6<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA6<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA6<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA6<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA6<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA6<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA6<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA6<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA6<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA6<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA6<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA6<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA6<>+0x080(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA6<>+0x090(SB)/8, $0x0f070e060d050c04
-DATA LCDATA6<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA6<>+0x0a0(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x0a8(SB)/8, $0x0101010101010101
-DATA LCDATA6<>+0x0b0(SB)/8, $0x0404040404040404
-DATA LCDATA6<>+0x0b8(SB)/8, $0x0404040404040404
-DATA LCDATA6<>+0x0c0(SB)/8, $0x0808080808080808
-DATA LCDATA6<>+0x0c8(SB)/8, $0x0808080808080808
-DATA LCDATA6<>+0x0d0(SB)/8, $0x1010101010101010
-DATA LCDATA6<>+0x0d8(SB)/8, $0x1010101010101010
-DATA LCDATA6<>+0x0e0(SB)/8, $0x2020202020202020
-DATA LCDATA6<>+0x0e8(SB)/8, $0x2020202020202020
-DATA LCDATA6<>+0x0f0(SB)/8, $0x4040404040404040
-DATA LCDATA6<>+0x0f8(SB)/8, $0x4040404040404040
-DATA LCDATA6<>+0x100(SB)/8, $0xffffffffffffffff
-DATA LCDATA6<>+0x108(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA6<>(SB), 8, $272
-
-TEXT ·_comparison_greater_scalar_arr_sse4(SB), $360-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 336(SP)
-	LEAQ LCDATA6<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB8_16
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB8_31
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB8_81
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB8_92
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB8_182
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_7:
-	WORD $0x3944; BYTE $0x2a                   // cmp    dword [rdx], r13d
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0xf619                               // sbb    esi, esi
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_7
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB8_9:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_13
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-
-LBB8_11:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x2414970f                           // seta    byte [rsp]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                               // add    al, al
-	LONG $0x58244402                           // add    al, byte [rsp + 88]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB8_11
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-
-LBB8_13:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_162
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB8_164
-
-LBB8_16:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB8_45
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB8_104
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB8_115
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB8_182
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x06100ff2         // movsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_24
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_22:
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	LONG $0x08c28348             // add    rdx, 8
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x363c8841             // mov    byte [r14 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_22
-	LONG $0x01c68349             // add    r14, 1
-
-LBB8_24:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_28
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-
-LBB8_26:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x422e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd7970f41                           // seta    r15b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2414970f                           // seta    byte [rsp]
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x78               // add    r8b, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x68               // add    sil, byte [rsp + 104]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x58244402                           // add    al, byte [rsp + 88]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB8_26
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-
-LBB8_28:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_166
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_168
-
-LBB8_31:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB8_58
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB8_182
-	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_37
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_35:
-	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x363c8841             // mov    byte [r14 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_35
-	LONG $0x01c68349             // add    r14, 1
-
-LBB8_37:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_127
-	LONG $0x10ff8349         // cmp    r15, 16
-	LONG $0x241c8844         // mov    byte [rsp], r11b
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x0000010024bc894c // mov    qword [rsp + 256], r15
-	JB   LBB8_41
-	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
-	LONG $0x05e0c148         // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB8_191
-	LONG $0xbe048d4b         // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JAE  LBB8_191
-
-LBB8_41:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	LONG $0x2474894c; BYTE $0x58 // mov    qword [rsp + 88], r14
-
-LBB8_42:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	QUAD $0x000000e824b42b4c // sub    r14, qword [rsp + 232]
-	QUAD $0x000000d024b4894c // mov    qword [rsp + 208], r14
-
-LBB8_43:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3a44; BYTE $0x1e                   // cmp    r11b, byte [rsi]
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x015e3a44                           // cmp    r11b, byte [rsi + 1]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x025e3a44                           // cmp    r11b, byte [rsi + 2]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x03                   // cmp    al, byte [rsi + 3]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x04                   // cmp    al, byte [rsi + 4]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x05                   // cmp    al, byte [rsi + 5]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x06                   // cmp    al, byte [rsi + 6]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x07                   // cmp    al, byte [rsi + 7]
-	LONG $0xd59f0f41                           // setg    r13b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x08                   // cmp    al, byte [rsi + 8]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x09                   // cmp    al, byte [rsi + 9]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0a                   // cmp    al, byte [rcx + 10]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0b                   // cmp    al, byte [rcx + 11]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0c                   // cmp    al, byte [rcx + 12]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0d                   // cmp    al, byte [rcx + 13]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0e                   // cmp    al, byte [rcx + 14]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0f                   // cmp    al, byte [rcx + 15]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x10                   // cmp    dl, byte [rcx + 16]
-	QUAD $0x000000b024949f0f                   // setg    byte [rsp + 176]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x11                   // cmp    dl, byte [rcx + 17]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x12                   // cmp    dl, byte [rcx + 18]
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x13                   // cmp    dl, byte [rcx + 19]
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x14                   // cmp    dl, byte [rcx + 20]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x15                   // cmp    dl, byte [rcx + 21]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x16                   // cmp    dl, byte [rcx + 22]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x17                   // cmp    dl, byte [rcx + 23]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
-	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
-	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x1cb60f44; BYTE $0x24               // movzx    r11d, byte [rsp]
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x245cb60f; BYTE $0x78               // movzx    ebx, byte [rsp + 120]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xfb                   // or    bl, r15b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0xb0249c02; WORD $0x0000; BYTE $0x00 // add    bl, byte [rsp + 176]
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x000000a0249cb60f                   // movzx    ebx, byte [rsp + 160]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	WORD $0x8844; BYTE $0x2f                   // mov    byte [rdi], r13b
-	LONG $0x2474b60f; BYTE $0x48               // movzx    esi, byte [rsp + 72]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xf2                   // or    r10b, sil
-	WORD $0x4788; BYTE $0x01                   // mov    byte [rdi + 1], al
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02578844                           // mov    byte [rdi + 2], r10b
-	WORD $0x5788; BYTE $0x03                   // mov    byte [rdi + 3], dl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c78348                           // add    rdi, 4
-	LONG $0x247c8948; BYTE $0x58               // mov    qword [rsp + 88], rdi
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB8_43
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	JMP  LBB8_128
-
-LBB8_45:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB8_70
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB8_182
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_51
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_49:
-	WORD $0x394c; BYTE $0x2a                   // cmp    qword [rdx], r13
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0xf619                               // sbb    esi, esi
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_49
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB8_51:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_55
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-
-LBB8_53:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x2414970f                           // seta    byte [rsp]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                               // add    al, al
-	LONG $0x58244402                           // add    al, byte [rsp + 88]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB8_53
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-
-LBB8_55:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_143
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB8_145
-
-LBB8_58:
-	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_62
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_60:
-	WORD $0x3844; BYTE $0x1a     // cmp    byte [rdx], r11b
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0xf619                 // sbb    esi, esi
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_60
-	LONG $0x01c68349             // add    r14, 1
-
-LBB8_62:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_131
-	LONG $0x10ff8349         // cmp    r15, 16
-	LONG $0x241c8844         // mov    byte [rsp], r11b
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x0000010024bc894c // mov    qword [rsp + 256], r15
-	JB   LBB8_66
-	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
-	LONG $0x05e0c148         // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB8_194
-	LONG $0xbe048d4b         // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JAE  LBB8_194
-
-LBB8_66:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	LONG $0x2474894c; BYTE $0x30 // mov    qword [rsp + 48], r14
-
-LBB8_67:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	QUAD $0x000000e824b42b4c // sub    r14, qword [rsp + 232]
-	QUAD $0x000000d024b4894c // mov    qword [rsp + 208], r14
-
-LBB8_68:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3a44; BYTE $0x1e                   // cmp    r11b, byte [rsi]
-	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
-	LONG $0x015e3a44                           // cmp    r11b, byte [rsi + 1]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x025e3a44                           // cmp    r11b, byte [rsi + 2]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x03                   // cmp    al, byte [rsi + 3]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x04                   // cmp    al, byte [rsi + 4]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x05                   // cmp    al, byte [rsi + 5]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x06                   // cmp    al, byte [rsi + 6]
-	WORD $0x970f; BYTE $0xd3                   // seta    bl
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x07                   // cmp    al, byte [rsi + 7]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x08                   // cmp    al, byte [rsi + 8]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x463a; BYTE $0x09                   // cmp    al, byte [rsi + 9]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0a                   // cmp    al, byte [rcx + 10]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0b                   // cmp    al, byte [rcx + 11]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0c                   // cmp    al, byte [rcx + 12]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0d                   // cmp    al, byte [rcx + 13]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0e                   // cmp    al, byte [rcx + 14]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x413a; BYTE $0x0f                   // cmp    al, byte [rcx + 15]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x10                   // cmp    dl, byte [rcx + 16]
-	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x11                   // cmp    dl, byte [rcx + 17]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x12                   // cmp    dl, byte [rcx + 18]
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x13                   // cmp    dl, byte [rcx + 19]
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x14                   // cmp    dl, byte [rcx + 20]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x15                   // cmp    dl, byte [rcx + 21]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x16                   // cmp    dl, byte [rcx + 22]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x17                   // cmp    dl, byte [rcx + 23]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
-	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x1cb60f44; BYTE $0x24               // movzx    r11d, byte [rsp]
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	LONG $0x245cb60f; BYTE $0x78               // movzx    ebx, byte [rsp + 120]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xfb                   // or    bl, r15b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0xb0249c02; WORD $0x0000; BYTE $0x00 // add    bl, byte [rsp + 176]
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	QUAD $0x000000a0249cb60f                   // movzx    ebx, byte [rsp + 160]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	WORD $0x8844; BYTE $0x2f                   // mov    byte [rdi], r13b
-	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xf2                   // or    r10b, sil
-	WORD $0x4788; BYTE $0x01                   // mov    byte [rdi + 1], al
-	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x40244402                           // add    al, byte [rsp + 64]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02578844                           // mov    byte [rdi + 2], r10b
-	WORD $0x5788; BYTE $0x03                   // mov    byte [rdi + 3], dl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c78348                           // add    rdi, 4
-	LONG $0x247c8948; BYTE $0x30               // mov    qword [rsp + 48], rdi
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB8_68
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	JMP  LBB8_132
-
-LBB8_70:
-	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_74
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_72:
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x36               // movzx    r8d, byte [r14 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x363c8841                           // mov    byte [r14 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_72
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB8_74:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_78
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-
-LBB8_76:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
-	QUAD $0x000000b024949f0f                   // setg    byte [rsp + 176]
-	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
-	LONG $0x24149f0f                           // setg    byte [rsp]
-	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                               // add    al, al
-	LONG $0x58244402                           // add    al, byte [rsp + 88]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB8_76
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-
-LBB8_78:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_147
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_149
-
-LBB8_81:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_85
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_83:
-	LONG $0x2a394466                           // cmp    word [rdx], r13w
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	WORD $0xf619                               // sbb    esi, esi
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_83
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB8_85:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_89
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-
-LBB8_87:
-	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
-	LONG $0x2a3b4466                     // cmp    r13w, word [rdx]
-	LONG $0x2454970f; BYTE $0x60         // seta    byte [rsp + 96]
-	LONG $0x6a3b4466; BYTE $0x02         // cmp    r13w, word [rdx + 2]
-	LONG $0xd7970f40                     // seta    dil
-	LONG $0x6a3b4466; BYTE $0x04         // cmp    r13w, word [rdx + 4]
-	LONG $0xd6970f41                     // seta    r14b
-	LONG $0x6a3b4466; BYTE $0x06         // cmp    r13w, word [rdx + 6]
-	QUAD $0x000000c02494970f             // seta    byte [rsp + 192]
-	LONG $0x6a3b4466; BYTE $0x08         // cmp    r13w, word [rdx + 8]
-	LONG $0x2454970f; BYTE $0x78         // seta    byte [rsp + 120]
-	LONG $0x6a3b4466; BYTE $0x0a         // cmp    r13w, word [rdx + 10]
-	LONG $0x2454970f; BYTE $0x68         // seta    byte [rsp + 104]
-	LONG $0x6a3b4466; BYTE $0x0c         // cmp    r13w, word [rdx + 12]
-	WORD $0x970f; BYTE $0xd0             // seta    al
-	LONG $0x6a3b4466; BYTE $0x0e         // cmp    r13w, word [rdx + 14]
-	LONG $0xd3970f41                     // seta    r11b
-	LONG $0x6a3b4466; BYTE $0x10         // cmp    r13w, word [rdx + 16]
-	LONG $0x2454970f; BYTE $0x38         // seta    byte [rsp + 56]
-	LONG $0x6a3b4466; BYTE $0x12         // cmp    r13w, word [rdx + 18]
-	LONG $0xd6970f40                     // seta    sil
-	LONG $0x6a3b4466; BYTE $0x14         // cmp    r13w, word [rdx + 20]
-	LONG $0xd0970f41                     // seta    r8b
-	LONG $0x6a3b4466; BYTE $0x16         // cmp    r13w, word [rdx + 22]
-	LONG $0xd1970f41                     // seta    r9b
-	LONG $0x6a3b4466; BYTE $0x18         // cmp    r13w, word [rdx + 24]
-	LONG $0xd2970f41                     // seta    r10b
-	LONG $0x6a3b4466; BYTE $0x1a         // cmp    r13w, word [rdx + 26]
-	LONG $0xd4970f41                     // seta    r12b
-	LONG $0x6a3b4466; BYTE $0x1c         // cmp    r13w, word [rdx + 28]
-	LONG $0x2454970f; BYTE $0x70         // seta    byte [rsp + 112]
-	LONG $0x6a3b4466; BYTE $0x1e         // cmp    r13w, word [rdx + 30]
-	WORD $0x970f; BYTE $0xd1             // seta    cl
-	LONG $0x6a3b4466; BYTE $0x20         // cmp    r13w, word [rdx + 32]
-	LONG $0x2454970f; BYTE $0x28         // seta    byte [rsp + 40]
-	LONG $0x6a3b4466; BYTE $0x22         // cmp    r13w, word [rdx + 34]
-	QUAD $0x000000b02494970f             // seta    byte [rsp + 176]
-	LONG $0x6a3b4466; BYTE $0x24         // cmp    r13w, word [rdx + 36]
-	QUAD $0x000000902494970f             // seta    byte [rsp + 144]
-	LONG $0x6a3b4466; BYTE $0x26         // cmp    r13w, word [rdx + 38]
-	QUAD $0x000000a02494970f             // seta    byte [rsp + 160]
-	LONG $0x6a3b4466; BYTE $0x28         // cmp    r13w, word [rdx + 40]
-	LONG $0x2454970f; BYTE $0x58         // seta    byte [rsp + 88]
-	LONG $0x6a3b4466; BYTE $0x2a         // cmp    r13w, word [rdx + 42]
-	LONG $0x2454970f; BYTE $0x50         // seta    byte [rsp + 80]
-	LONG $0x6a3b4466; BYTE $0x2c         // cmp    r13w, word [rdx + 44]
-	LONG $0x2454970f; BYTE $0x48         // seta    byte [rsp + 72]
-	LONG $0x6a3b4466; BYTE $0x2e         // cmp    r13w, word [rdx + 46]
-	LONG $0xd7970f41                     // seta    r15b
-	LONG $0x6a3b4466; BYTE $0x30         // cmp    r13w, word [rdx + 48]
-	LONG $0x2414970f                     // seta    byte [rsp]
-	LONG $0x6a3b4466; BYTE $0x32         // cmp    r13w, word [rdx + 50]
-	LONG $0x2454970f; BYTE $0x40         // seta    byte [rsp + 64]
-	LONG $0x6a3b4466; BYTE $0x34         // cmp    r13w, word [rdx + 52]
-	LONG $0x2454970f; BYTE $0x30         // seta    byte [rsp + 48]
-	LONG $0x6a3b4466; BYTE $0x36         // cmp    r13w, word [rdx + 54]
-	LONG $0x2454970f; BYTE $0x20         // seta    byte [rsp + 32]
-	LONG $0x6a3b4466; BYTE $0x38         // cmp    r13w, word [rdx + 56]
-	LONG $0x2454970f; BYTE $0x18         // seta    byte [rsp + 24]
-	LONG $0x6a3b4466; BYTE $0x3a         // cmp    r13w, word [rdx + 58]
-	LONG $0x2454970f; BYTE $0x08         // seta    byte [rsp + 8]
-	LONG $0x6a3b4466; BYTE $0x3c         // cmp    r13w, word [rdx + 60]
-	LONG $0x2454970f; BYTE $0x10         // seta    byte [rsp + 16]
-	LONG $0x6a3b4466; BYTE $0x3e         // cmp    r13w, word [rdx + 62]
-	WORD $0x970f; BYTE $0xd3             // seta    bl
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	LONG $0x247c0240; BYTE $0x60         // add    dil, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	LONG $0x07e3c041                     // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3             // or    r11b, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6             // add    sil, sil
-	LONG $0x24740240; BYTE $0x38         // add    sil, byte [rsp + 56]
-	QUAD $0x000000c02484b60f             // movzx    eax, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	WORD $0xc789                         // mov    edi, eax
-	LONG $0x02e0c041                     // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0             // or    r8b, sil
-	LONG $0x2444b60f; BYTE $0x78         // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0x0840; BYTE $0xf8             // or    al, dil
-	WORD $0xc789                         // mov    edi, eax
-	LONG $0x03e1c041                     // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1             // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x68         // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0x0840; BYTE $0xf8             // or    al, dil
-	LONG $0x04e2c041                     // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4             // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x70         // movzx    esi, byte [rsp + 112]
-	LONG $0x06e6c040                     // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1             // or    cl, sil
-	WORD $0x0841; BYTE $0xc3             // or    r11b, al
-	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
-	QUAD $0x0000008024b48b4c             // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02484b60f             // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                         // add    al, al
-	LONG $0x28244402                     // add    al, byte [rsp + 40]
-	WORD $0xc689                         // mov    esi, eax
-	QUAD $0x000000902484b60f             // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0xc689                         // mov    esi, eax
-	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0xc689                         // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x58         // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0xc689                         // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50         // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0x8845; BYTE $0x1e             // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x48         // movzx    esi, byte [rsp + 72]
-	LONG $0x06e6c040                     // shl    sil, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7             // or    r15b, sil
-	LONG $0x014e8841                     // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7             // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x40         // movzx    eax, byte [rsp + 64]
-	WORD $0xc000                         // add    al, al
-	WORD $0x0402; BYTE $0x24             // add    al, byte [rsp]
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20         // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18         // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0xc808                         // or    al, cl
-	LONG $0x244cb60f; BYTE $0x10         // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x06             // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xcb08                         // or    bl, cl
-	WORD $0xc308                         // or    bl, al
-	LONG $0x027e8845                     // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                     // mov    byte [r14 + 3], bl
-	LONG $0x40c28348                     // add    rdx, 64
-	LONG $0x04c68349                     // add    r14, 4
-	QUAD $0x000000d024848348; BYTE $0xff // add    qword [rsp + 208], -1
-	JNE  LBB8_87
-	QUAD $0x0000008824948b4c             // mov    r10, qword [rsp + 136]
-	QUAD $0x000000f0249c8b4c             // mov    r11, qword [rsp + 240]
-
-LBB8_89:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_170
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB8_172
-
-LBB8_92:
-	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_96
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_94:
-	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x363c8841             // mov    byte [r14 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_94
-	LONG $0x01c68349             // add    r14, 1
-
-LBB8_96:
-	LONG $0x05ffc149         // sar    r15, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_135
-	LONG $0x08ff8349         // cmp    r15, 8
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000f024bc894c // mov    qword [rsp + 240], r15
-	JB   LBB8_100
-	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB8_197
-	LONG $0xbe048d4b         // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB8_197
-
-LBB8_100:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x20 // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-	WORD $0x894d; BYTE $0xf4     // mov    r12, r14
-
-LBB8_101:
-	LONG $0x2424894c             // mov    qword [rsp], r12
-	WORD $0x894d; BYTE $0xfe     // mov    r14, r15
-	LONG $0x24742b4c; BYTE $0x20 // sub    r14, qword [rsp + 32]
-	QUAD $0x000000d024b4894c     // mov    qword [rsp + 208], r14
-
-LBB8_102:
-	WORD $0x8949; BYTE $0xf3             // mov    r11, rsi
-	LONG $0x2e3b4466                     // cmp    r13w, word [rsi]
-	QUAD $0x000000c024949f0f             // setg    byte [rsp + 192]
-	LONG $0x6e3b4466; BYTE $0x02         // cmp    r13w, word [rsi + 2]
-	LONG $0xd79f0f40                     // setg    dil
-	LONG $0x6e3b4466; BYTE $0x04         // cmp    r13w, word [rsi + 4]
-	LONG $0xd69f0f41                     // setg    r14b
-	LONG $0x6e3b4466; BYTE $0x06         // cmp    r13w, word [rsi + 6]
-	LONG $0x24549f0f; BYTE $0x78         // setg    byte [rsp + 120]
-	LONG $0x6e3b4466; BYTE $0x08         // cmp    r13w, word [rsi + 8]
-	QUAD $0x0000009024949f0f             // setg    byte [rsp + 144]
-	LONG $0x6e3b4466; BYTE $0x0a         // cmp    r13w, word [rsi + 10]
-	LONG $0x24549f0f; BYTE $0x48         // setg    byte [rsp + 72]
-	LONG $0x6e3b4466; BYTE $0x0c         // cmp    r13w, word [rsi + 12]
-	WORD $0x9f0f; BYTE $0xd0             // setg    al
-	LONG $0x6e3b4466; BYTE $0x0e         // cmp    r13w, word [rsi + 14]
-	LONG $0xd29f0f41                     // setg    r10b
-	LONG $0x6e3b4466; BYTE $0x10         // cmp    r13w, word [rsi + 16]
-	LONG $0x24549f0f; BYTE $0x70         // setg    byte [rsp + 112]
-	LONG $0x6e3b4466; BYTE $0x12         // cmp    r13w, word [rsi + 18]
-	WORD $0x9f0f; BYTE $0xd1             // setg    cl
-	LONG $0x6e3b4466; BYTE $0x14         // cmp    r13w, word [rsi + 20]
-	WORD $0x9f0f; BYTE $0xd2             // setg    dl
-	LONG $0x6e3b4466; BYTE $0x16         // cmp    r13w, word [rsi + 22]
-	LONG $0xd69f0f40                     // setg    sil
-	LONG $0x6b3b4566; BYTE $0x18         // cmp    r13w, word [r11 + 24]
-	LONG $0xd19f0f41                     // setg    r9b
-	LONG $0x6b3b4566; BYTE $0x1a         // cmp    r13w, word [r11 + 26]
-	LONG $0xd49f0f41                     // setg    r12b
-	LONG $0x6b3b4566; BYTE $0x1c         // cmp    r13w, word [r11 + 28]
-	LONG $0x24549f0f; BYTE $0x68         // setg    byte [rsp + 104]
-	LONG $0x6b3b4566; BYTE $0x1e         // cmp    r13w, word [r11 + 30]
-	LONG $0xd09f0f41                     // setg    r8b
-	LONG $0x6b3b4566; BYTE $0x20         // cmp    r13w, word [r11 + 32]
-	LONG $0x24549f0f; BYTE $0x58         // setg    byte [rsp + 88]
-	LONG $0x6b3b4566; BYTE $0x22         // cmp    r13w, word [r11 + 34]
-	QUAD $0x000000b024949f0f             // setg    byte [rsp + 176]
-	LONG $0x6b3b4566; BYTE $0x24         // cmp    r13w, word [r11 + 36]
-	LONG $0x24549f0f; BYTE $0x60         // setg    byte [rsp + 96]
-	LONG $0x6b3b4566; BYTE $0x26         // cmp    r13w, word [r11 + 38]
-	QUAD $0x000000a024949f0f             // setg    byte [rsp + 160]
-	LONG $0x6b3b4566; BYTE $0x28         // cmp    r13w, word [r11 + 40]
-	LONG $0x24549f0f; BYTE $0x50         // setg    byte [rsp + 80]
-	LONG $0x6b3b4566; BYTE $0x2a         // cmp    r13w, word [r11 + 42]
-	LONG $0x24549f0f; BYTE $0x38         // setg    byte [rsp + 56]
-	LONG $0x6b3b4566; BYTE $0x2c         // cmp    r13w, word [r11 + 44]
-	LONG $0x24549f0f; BYTE $0x40         // setg    byte [rsp + 64]
-	LONG $0x6b3b4566; BYTE $0x2e         // cmp    r13w, word [r11 + 46]
-	LONG $0xd79f0f41                     // setg    r15b
-	LONG $0x6b3b4566; BYTE $0x30         // cmp    r13w, word [r11 + 48]
-	LONG $0x24549f0f; BYTE $0x18         // setg    byte [rsp + 24]
-	LONG $0x6b3b4566; BYTE $0x32         // cmp    r13w, word [r11 + 50]
-	LONG $0x24549f0f; BYTE $0x28         // setg    byte [rsp + 40]
-	LONG $0x6b3b4566; BYTE $0x34         // cmp    r13w, word [r11 + 52]
-	LONG $0x24549f0f; BYTE $0x30         // setg    byte [rsp + 48]
-	LONG $0x6b3b4566; BYTE $0x36         // cmp    r13w, word [r11 + 54]
-	LONG $0x24549f0f; BYTE $0x20         // setg    byte [rsp + 32]
-	LONG $0x6b3b4566; BYTE $0x38         // cmp    r13w, word [r11 + 56]
-	LONG $0x24549f0f; BYTE $0x08         // setg    byte [rsp + 8]
-	LONG $0x6b3b4566; BYTE $0x3a         // cmp    r13w, word [r11 + 58]
-	LONG $0x24549f0f; BYTE $0x10         // setg    byte [rsp + 16]
-	LONG $0x6b3b4566; BYTE $0x3c         // cmp    r13w, word [r11 + 60]
-	QUAD $0x0000008024949f0f             // setg    byte [rsp + 128]
-	LONG $0x6b3b4566; BYTE $0x3e         // cmp    r13w, word [r11 + 62]
-	WORD $0x9f0f; BYTE $0xd3             // setg    bl
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	QUAD $0x000000c024bc0240             // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
-	LONG $0x07e2c041                     // shl    r10b, 7
-	WORD $0x0841; BYTE $0xc2             // or    r10b, al
-	LONG $0x02e6c041                     // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
-	WORD $0xc900                         // add    cl, cl
-	LONG $0x70244c02                     // add    cl, byte [rsp + 112]
-	LONG $0x2444b60f; BYTE $0x78         // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0x0844; BYTE $0xf0             // or    al, r14b
-	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
-	WORD $0xca08                         // or    dl, cl
-	QUAD $0x00000090248cb60f             // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xc108                         // or    cl, al
-	WORD $0xcf89                         // mov    edi, ecx
-	LONG $0x03e6c040                     // shl    sil, 3
-	WORD $0x0840; BYTE $0xd6             // or    sil, dl
-	LONG $0x244cb60f; BYTE $0x48         // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9             // or    cl, dil
-	LONG $0x04e1c041                     // shl    r9b, 4
-	WORD $0x0841; BYTE $0xf1             // or    r9b, sil
-	LONG $0x05e4c041                     // shl    r12b, 5
-	WORD $0x0845; BYTE $0xcc             // or    r12b, r9b
-	LONG $0x2454b60f; BYTE $0x68         // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x06             // shl    dl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0             // or    r8b, dl
-	WORD $0x0841; BYTE $0xca             // or    r10b, cl
-	WORD $0x0845; BYTE $0xe0             // or    r8b, r12b
-	QUAD $0x000000b0248cb60f             // movzx    ecx, byte [rsp + 176]
-	WORD $0xc900                         // add    cl, cl
-	LONG $0x58244c02                     // add    cl, byte [rsp + 88]
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60         // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xca89                         // mov    edx, ecx
-	QUAD $0x000000a0248cb60f             // movzx    ecx, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50         // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xca89                         // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
-	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
-	WORD $0xd108                         // or    cl, dl
-	WORD $0xce89                         // mov    esi, ecx
-	LONG $0x240c8b48                     // mov    rcx, qword [rsp]
-	WORD $0x8844; BYTE $0x11             // mov    byte [rcx], r10b
-	LONG $0x2454b60f; BYTE $0x40         // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x06             // shl    dl, 6
-	LONG $0x07e7c041                     // shl    r15b, 7
-	WORD $0x0841; BYTE $0xd7             // or    r15b, dl
-	LONG $0x01418844                     // mov    byte [rcx + 1], r8b
-	WORD $0x0841; BYTE $0xf7             // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                         // add    al, al
-	LONG $0x18244402                     // add    al, byte [rsp + 24]
-	WORD $0xc289                         // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0xd008                         // or    al, dl
-	WORD $0xc289                         // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20         // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0xd008                         // or    al, dl
-	WORD $0xc289                         // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0xd008                         // or    al, dl
-	WORD $0xc289                         // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10         // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0xd008                         // or    al, dl
-	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06             // shl    dl, 6
-	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
-	WORD $0xd308                         // or    bl, dl
-	WORD $0xc308                         // or    bl, al
-	LONG $0x02798844                     // mov    byte [rcx + 2], r15b
-	WORD $0x5988; BYTE $0x03             // mov    byte [rcx + 3], bl
-	LONG $0x40738d49                     // lea    rsi, [r11 + 64]
-	LONG $0x04c18348                     // add    rcx, 4
-	LONG $0x240c8948                     // mov    qword [rsp], rcx
-	QUAD $0x000000d024848348; BYTE $0xff // add    qword [rsp + 208], -1
-	JNE  LBB8_102
-	QUAD $0x0000008824948b4c             // mov    r10, qword [rsp + 136]
-	QUAD $0x000000f024bc8b4c             // mov    r15, qword [rsp + 240]
-	LONG $0x24248b4c                     // mov    r12, qword [rsp]
-	JMP  LBB8_136
-
-LBB8_104:
-	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_108
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_106:
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x36               // movzx    r8d, byte [r14 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x363c8841                           // mov    byte [r14 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB8_106
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB8_108:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_112
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-
-LBB8_110:
-	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
-	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
-	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
-	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
-	LONG $0xd79f0f40                           // setg    dil
-	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
-	LONG $0xd69f0f41                           // setg    r14b
-	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
-	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
-	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
-	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
-	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
-	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
-	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
-	WORD $0x9f0f; BYTE $0xd0                   // setg    al
-	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
-	LONG $0xd39f0f41                           // setg    r11b
-	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
-	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
-	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
-	LONG $0xd69f0f40                           // setg    sil
-	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
-	LONG $0xd09f0f41                           // setg    r8b
-	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
-	LONG $0xd19f0f41                           // setg    r9b
-	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
-	LONG $0xd29f0f41                           // setg    r10b
-	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
-	LONG $0xd49f0f41                           // setg    r12b
-	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
-	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
-	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
-	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
-	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
-	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
-	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
-	QUAD $0x000000b024949f0f                   // setg    byte [rsp + 176]
-	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
-	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
-	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
-	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
-	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
-	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
-	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
-	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
-	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
-	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
-	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
-	LONG $0xd79f0f41                           // setg    r15b
-	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
-	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
-	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
-	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
-	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
-	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
-	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
-	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
-	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
-	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
-	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
-	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
-	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
-	LONG $0x24149f0f                           // setg    byte [rsp]
-	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
-	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x02e0c041                           // shl    r8b, 2
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	WORD $0xc789                               // mov    edi, eax
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf8                   // or    al, dil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                               // add    al, al
-	LONG $0x58244402                           // add    al, byte [rsp + 88]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0xc308                               // or    bl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB8_110
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-
-LBB8_112:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_175
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB8_177
-
-LBB8_115:
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x06100ff3         // movss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB8_119
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB8_117:
-	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
-	WORD $0x970f; BYTE $0xd3     // seta    bl
-	LONG $0x04c28348             // add    rdx, 4
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x363c8841             // mov    byte [r14 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB8_117
-	LONG $0x01c68349             // add    r14, 1
-
-LBB8_119:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB8_139
-	LONG $0x04fb8349         // cmp    r11, 4
-	JB   LBB8_123
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB8_200
-	LONG $0x9e048d4b         // lea    rax, [r14 + 4*r11]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB8_200
-
-LBB8_123:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB8_124:
-	LONG $0x243c894c         // mov    qword [rsp], r15
-	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
-	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
-	WORD $0x294d; BYTE $0xc3 // sub    r11, r8
-	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
-
-LBB8_125:
-	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
-	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
-	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd0970f41                           // seta    r8b
-	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
-	LONG $0xd6970f41                           // seta    r14b
-	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
-	LONG $0xd5970f41                           // seta    r13b
-	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
-	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
-	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
-	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
-	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
-	WORD $0x970f; BYTE $0xd0                   // seta    al
-	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
-	LONG $0xd3970f41                           // seta    r11b
-	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
-	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
-	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
-	WORD $0x970f; BYTE $0xd2                   // seta    dl
-	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
-	LONG $0xd6970f40                           // seta    sil
-	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
-	LONG $0xd7970f40                           // seta    dil
-	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
-	LONG $0xd2970f41                           // seta    r10b
-	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
-	LONG $0xd4970f41                           // seta    r12b
-	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
-	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
-	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
-	LONG $0xd1970f41                           // seta    r9b
-	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
-	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
-	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
-	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
-	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
-	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
-	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
-	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
-	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
-	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
-	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
-	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
-	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
-	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
-	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
-	LONG $0xd7970f41                           // seta    r15b
-	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
-	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
-	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
-	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
-	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
-	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
-	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
-	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
-	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
-	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
-	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
-	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
-	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
-	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
-	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
-	WORD $0x970f; BYTE $0xd1                   // seta    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x78               // add    r8b, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x68245402                           // add    dl, byte [rsp + 104]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x58244402                           // add    al, byte [rsp + 88]
-	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x24348b48                           // mov    rsi, qword [rsp]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24348948                           // mov    qword [rsp], rsi
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB8_125
-	LONG $0x243c8b4c                           // mov    r15, qword [rsp]
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
-	JMP  LBB8_140
-
-LBB8_127:
-	LONG $0x2474894c; BYTE $0x58 // mov    qword [rsp + 88], r14
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-
-LBB8_128:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_151
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB8_154
-
-LBB8_131:
-	LONG $0x2474894c; BYTE $0x30 // mov    qword [rsp + 48], r14
-	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
-
-LBB8_132:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_156
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB8_159
-
-LBB8_135:
-	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-
-LBB8_136:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB8_183
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-	JMP  LBB8_185
-
-LBB8_139:
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
-
-LBB8_140:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB8_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB8_187
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB8_189
-
-LBB8_143:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB8_144:
-	WORD $0x394c; BYTE $0x2a     // cmp    qword [rdx], r13
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x36 // movzx    r10d, byte [r14 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086a394c             // cmp    qword [rdx + 8], r13
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB8_144
-
-LBB8_145:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x394c; BYTE $0x2a // cmp    qword [rdx], r13
-	JMP  LBB8_174
-
-LBB8_147:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB8_148:
-	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd19f0f41             // setg    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_148
-
-LBB8_149:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x3b44; BYTE $0x2a // cmp    r13d, dword [rdx]
-	JMP  LBB8_179
-
-LBB8_151:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x58 // mov    r14, qword [rsp + 88]
-
-LBB8_152:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3a46             // cmp    r11b, byte [rsi + r9]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3a44; BYTE $0x01 // cmp    r11b, byte [rsi + rax + 1]
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x9f0f; BYTE $0xd3     // setg    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB8_152
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB8_154:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x3a44; BYTE $0x1e     // cmp    r11b, byte [rsi]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x58 // mov    r8, qword [rsp + 88]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	JMP  LBB8_161
-
-LBB8_156:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x30 // mov    r14, qword [rsp + 48]
-
-LBB8_157:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
-	LONG $0x03ebc148             // shr    rbx, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0x2040; BYTE $0xfa     // and    dl, dil
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x1e148841             // mov    byte [r14 + rbx], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xd7     // xor    dil, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB8_157
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB8_159:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	WORD $0xc019                 // sbb    eax, eax
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x30 // mov    r8, qword [rsp + 48]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-
-LBB8_161:
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB8_182
-
-LBB8_162:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB8_163:
-	WORD $0x3944; BYTE $0x2a     // cmp    dword [rdx], r13d
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x36 // movzx    r10d, byte [r14 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046a3944             // cmp    dword [rdx + 4], r13d
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB8_163
-
-LBB8_164:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x3944; BYTE $0x2a // cmp    dword [rdx], r13d
-	JMP  LBB8_174
-
-LBB8_166:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB8_167:
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	WORD $0x970f; BYTE $0xd0     // seta    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x422e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x10c28348             // add    rdx, 16
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_167
-
-LBB8_168:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	LONG $0x022e0f66         // ucomisd    xmm0, qword [rdx]
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	JMP  LBB8_180
-
-LBB8_170:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB8_171:
-	LONG $0x2a394466             // cmp    word [rdx], r13w
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x36 // movzx    r10d, byte [r14 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6a394466; BYTE $0x02 // cmp    word [rdx + 2], r13w
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	WORD $0xff19                 // sbb    edi, edi
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB8_171
-
-LBB8_172:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB8_182
-	LONG $0x2a394466 // cmp    word [rdx], r13w
-
-LBB8_174:
-	WORD $0xc019             // sbb    eax, eax
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB8_181
-
-LBB8_175:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB8_176:
-	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
-	WORD $0x9f0f; BYTE $0xd0     // setg    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd19f0f41             // setg    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x36048841             // mov    byte [r14 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB8_176
-
-LBB8_177:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x3b4c; BYTE $0x2a // cmp    r13, qword [rdx]
-
-LBB8_179:
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-
-LBB8_180:
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB8_181:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-
-LBB8_182:
-	MOVQ 336(SP), SP
-	RET
-
-LBB8_183:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
-
-LBB8_184:
-	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
-	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68349             // add    r14, 2
-	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	WORD $0x9f0f; BYTE $0xd2     // setg    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0xda30                 // xor    dl, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd020                 // and    al, dl
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
-	JNE  LBB8_184
-
-LBB8_185:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	LONG $0x2e3b4466         // cmp    r13w, word [rsi]
-	WORD $0x9f0f; BYTE $0xd0 // setg    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xf2 // mov    rdx, r14
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68041         // and    r14b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xf1 // mov    ecx, r14d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
-	JMP  LBB8_182
-
-LBB8_187:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x894d; BYTE $0xfb // mov    r11, r15
-
-LBB8_188:
-	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
-	WORD $0x970f; BYTE $0xd2     // seta    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd1970f41             // seta    r9b
-	LONG $0x08c38348             // add    rbx, 8
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xca     // and    dl, r9b
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB8_188
-
-LBB8_189:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB8_182
-	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	LONG $0x173c8a41         // mov    dil, byte [r15 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
-	JMP  LBB8_182
-
-LBB8_191:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
-	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24448948; BYTE $0x58         // mov    qword [rsp + 88], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000120248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 288], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
-
-LBB8_192:
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
-	LONG $0x05e0c148                           // shl    rax, 5
-	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	LONG $0x020cb60f                           // movzx    ecx, byte [rdx + rax]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x024cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rax + 1]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x024cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rax + 2]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x024cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rax + 3]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x024cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rax + 4]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x024cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rax + 5]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x024cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rax + 6]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	LONG $0x024cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rax + 7]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x024cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rax + 8]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x024cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rax + 9]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	LONG $0x024cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rax + 10]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x024cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rax + 11]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x024cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rax + 12]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x024cb60f; BYTE $0x10               // movzx    ecx, byte [rdx + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x024cb60f; BYTE $0x18               // movzx    ecx, byte [rdx + rax + 24]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x20c98348                           // or    rcx, 32
-	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	LONG $0x40c88349                           // or    r8, 64
-	LONG $0x2444894c; BYTE $0x40               // mov    qword [rsp + 64], r8
-	LONG $0x60cb8349                           // or    r11, 96
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xa0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 160
-	QUAD $0x000000a024a4894c                   // mov    qword [rsp + 160], r12
-	LONG $0xc0ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 192
-	QUAD $0x0000009024b4894c                   // mov    qword [rsp + 144], r14
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0xe0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 224
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x246c894c; BYTE $0x20               // mov    qword [rsp + 32], r13
-	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
-	LONG $0x40cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 320
-	LONG $0x60cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 352
-	QUAD $0x00018048244c8148; BYTE $0x00       // or    qword [rsp + 72], 384
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0xa0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 416
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	LONG $0xc0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 448
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0xe0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 480
-	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x010204203a0f4466                   // pinsrb    xmm8, byte [rdx + rax], 1
-	QUAD $0x020204203a0f4666                   // pinsrb    xmm8, byte [rdx + r8], 2
-	QUAD $0x031a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r11], 3
-	QUAD $0x040a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r9], 4
-	QUAD $0x052204203a0f4666                   // pinsrb    xmm8, byte [rdx + r12], 5
-	QUAD $0x063204203a0f4666                   // pinsrb    xmm8, byte [rdx + r14], 6
-	QUAD $0x073a04203a0f4466                   // pinsrb    xmm8, byte [rdx + rdi], 7
-	QUAD $0x082a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r13], 8
-	QUAD $0x091204203a0f4666                   // pinsrb    xmm8, byte [rdx + r10], 9
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	LONG $0x247c894c; BYTE $0x60               // mov    qword [rsp + 96], r15
-	QUAD $0x0a3a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r15], 10
-	QUAD $0x0b1a04203a0f4466                   // pinsrb    xmm8, byte [rdx + rbx], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c3a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r15], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d0204203a0f4466                   // pinsrb    xmm8, byte [rdx + rax], 13
-	QUAD $0x0e3204203a0f4466                   // pinsrb    xmm8, byte [rdx + rsi], 14
-	QUAD $0x0f0a04203a0f4466                   // pinsrb    xmm8, byte [rdx + rcx], 15
-	QUAD $0x012024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 288]
-	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0101027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 1], 1
-	QUAD $0x01027c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rdx + r8 + 1], 2
-	QUAD $0x011a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r11 + 1], 3
-	QUAD $0x010a7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r9 + 1], 4
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x012a7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r13 + 1], 5
-	QUAD $0x01327c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r14 + 1], 6
-	QUAD $0x07013a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 1], 7
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0801027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 1], 8
-	QUAD $0x01127c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r10 + 1], 9
-	QUAD $0x01227c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r12 + 1], 10
-	QUAD $0x0b011a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 1], 11
-	QUAD $0x013a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 1], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d01027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 1], 13
-	QUAD $0x0e01327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 1], 14
-	QUAD $0x0f010a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 1], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x01020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 1
-	QUAD $0x020274203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rdx + r8 + 2], 2
-	QUAD $0x021a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 2], 3
-	QUAD $0x020a74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r9 + 2], 4
-	QUAD $0x022a74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r13 + 2], 5
-	QUAD $0x023274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r14 + 2], 6
-	QUAD $0x07023a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 2], 7
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x08020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 8
-	QUAD $0x021274203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r10 + 2], 9
-	QUAD $0x022274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r12 + 2], 10
-	QUAD $0x0b021a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 2], 11
-	QUAD $0x023a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 2], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 13
-	QUAD $0x0e023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 14
-	QUAD $0x0f020a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 2], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x080264203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rax + 8], 1
-	QUAD $0x080264203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rdx + r8 + 8], 2
-	QUAD $0x081a64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r11 + 8], 3
-	QUAD $0x080a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r9 + 8], 4
-	QUAD $0x082a64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rdx + r13 + 8], 5
-	QUAD $0x083264203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r14 + 8], 6
-	QUAD $0x083a64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rdi + 8], 7
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x080264203a0f4466; BYTE $0x08       // pinsrb    xmm12, byte [rdx + rax + 8], 8
-	QUAD $0x081264203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r10 + 8], 9
-	QUAD $0x082264203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r12 + 8], 10
-	QUAD $0x081a64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + rbx + 8], 11
-	QUAD $0x083a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r15 + 8], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x080264203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rax + 8], 13
-	QUAD $0x083264203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + rsi + 8], 14
-	QUAD $0x080a64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rcx + 8], 15
-	LONG $0x640f4166; BYTE $0xd8               // pcmpgtb    xmm3, xmm8
-	QUAD $0x000110249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm3
-	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
-	LONG $0x640f4166; BYTE $0xdc               // pcmpgtb    xmm3, xmm12
-	QUAD $0x000130249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm3
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x100a74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rcx + 16], 1
-	QUAD $0x100274203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r8 + 16], 2
-	QUAD $0x101a74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r11 + 16], 3
-	QUAD $0x100a74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rdx + r9 + 16], 4
-	QUAD $0x102a74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rdx + r13 + 16], 5
-	QUAD $0x103274203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r14 + 16], 6
-	QUAD $0x103a74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rdx + rdi + 16], 7
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x100a74203a0f4466; BYTE $0x08       // pinsrb    xmm14, byte [rdx + rcx + 16], 8
-	QUAD $0x101274203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rdx + r10 + 16], 9
-	QUAD $0x102274203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + r12 + 16], 10
-	QUAD $0x101a74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + rbx + 16], 11
-	QUAD $0x103a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r15 + 16], 12
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	QUAD $0x100274203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rax + 16], 13
-	LONG $0x24748948; BYTE $0x18               // mov    qword [rsp + 24], rsi
-	QUAD $0x103274203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + rsi + 16], 14
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x103a74203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rdi + 16], 15
-	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x01180264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 24], 1
-	QUAD $0x180264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r8 + 24], 2
-	QUAD $0x181a64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r11 + 24], 3
-	QUAD $0x180a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r9 + 24], 4
-	QUAD $0x182a64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r13 + 24], 5
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x180264203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r8 + 24], 6
-	QUAD $0x183264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r14 + 24], 7
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x08180264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 24], 8
-	QUAD $0x181264203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r10 + 24], 9
-	QUAD $0x000000b02494894c                   // mov    qword [rsp + 176], r10
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0a180264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 24], 10
-	QUAD $0x0b181a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 24], 11
-	QUAD $0x183a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 24], 12
-	QUAD $0x0d180a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 24], 13
-	QUAD $0x0e183264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 24], 14
-	LONG $0x640f4166; BYTE $0xde               // pcmpgtb    xmm3, xmm14
-	QUAD $0x0000f0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 240], xmm3
-	QUAD $0x0f183a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 24], 15
-	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
-	LONG $0xdc640f66                           // pcmpgtb    xmm3, xmm4
-	QUAD $0x0000d0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm3
-	LONG $0x6f0f4166; BYTE $0xe5               // movdqa    xmm4, xmm13
-	LONG $0xe7640f66                           // pcmpgtb    xmm4, xmm7
-	LONG $0x6f0f4466; BYTE $0xe4               // movdqa    xmm12, xmm4
-	QUAD $0x0000a0856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xdb0f4566; BYTE $0xe0               // pand    xmm12, xmm8
-	LONG $0xf80f4466; BYTE $0xe4               // psubb    xmm12, xmm4
-	LONG $0x6f0f4166; BYTE $0xe5               // movdqa    xmm4, xmm13
-	LONG $0x6f0f4566; BYTE $0xf5               // movdqa    xmm14, xmm13
-	LONG $0xe6640f66                           // pcmpgtb    xmm4, xmm6
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x03327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 3], 1
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x03027c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rdx + rax + 3], 2
-	LONG $0x245c894c; BYTE $0x28               // mov    qword [rsp + 40], r11
-	QUAD $0x031a7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r11 + 3], 3
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	LONG $0x244c894c; BYTE $0x70               // mov    qword [rsp + 112], r9
-	QUAD $0x030a7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r9 + 3], 4
-	QUAD $0x032a7c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rdx + r13 + 3], 5
-	QUAD $0x03027c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r8 + 3], 6
-	LONG $0x2474894c; BYTE $0x50               // mov    qword [rsp + 80], r14
-	QUAD $0x03327c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r14 + 3], 7
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x03227c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r12 + 3], 8
-	QUAD $0x03127c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r10 + 3], 9
-	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
-	QUAD $0x030a7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r9 + 3], 10
-	LONG $0x245c8948; BYTE $0x68               // mov    qword [rsp + 104], rbx
-	QUAD $0x031a7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + rbx + 3], 11
-	QUAD $0x033a7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r15 + 3], 12
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x033a7c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rdi + 3], 13
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x033a7c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rdi + 3], 14
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x03127c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r10 + 3], 15
-	QUAD $0x0104326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 4], 1
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	QUAD $0x0204026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 4], 2
-	QUAD $0x041a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r11 + 4], 3
-	QUAD $0x04040a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 4], 4
-	QUAD $0x042a6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rdx + r13 + 4], 5
-	QUAD $0x04026c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r8 + 4], 6
-	QUAD $0x04326c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r14 + 4], 7
-	QUAD $0x04226c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r12 + 4], 8
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x09040a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 4], 9
-	QUAD $0x040a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r9 + 4], 10
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x0b041a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 4], 11
-	QUAD $0x043a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 4], 12
-	LONG $0x244c8b4c; BYTE $0x08               // mov    r9, qword [rsp + 8]
-	QUAD $0x040a6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r9 + 4], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e04026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 4], 14
-	QUAD $0x000110249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 272]
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	QUAD $0x000000b0b56f0f66                   // movdqa    xmm6, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xe6db0f66                           // pand    xmm4, xmm6
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x3a74b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rdi + 14]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x0f041a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 4], 15
-	LONG $0xeb0f4166; BYTE $0xe4               // por    xmm4, xmm12
-	LONG $0x6f0f4566; BYTE $0xe5               // movdqa    xmm12, xmm13
-	LONG $0x640f4566; BYTE $0xe7               // pcmpgtb    xmm12, xmm15
-	LONG $0x640f4466; BYTE $0xed               // pcmpgtb    xmm13, xmm5
-	LONG $0x3a74b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rdi + 15]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	QUAD $0x051254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r10 + 5], 1
-	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
-	QUAD $0x050254203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r8 + 5], 2
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x03053a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 5], 3
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x052a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r13 + 5], 4
-	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
-	QUAD $0x05053254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 5], 5
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x053254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r14 + 5], 6
-	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
-	QUAD $0x051254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r10 + 5], 7
-	QUAD $0x052254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r12 + 5], 8
-	QUAD $0x09050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 9
-	QUAD $0x051a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r11 + 5], 10
-	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
-	QUAD $0x0b050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 11
-	QUAD $0x053a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 5], 12
-	QUAD $0x050a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r9 + 5], 13
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	QUAD $0x0e050254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 5], 14
-	QUAD $0x0f051a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 5], 15
-	QUAD $0x000000c09d6f0f66                   // movdqa    xmm3, oword 192[rbp] /* [rip + .LCPI8_12] */
-	LONG $0xdb0f4466; BYTE $0xe3               // pand    xmm12, xmm3
-	QUAD $0x000000d09d6f0f66                   // movdqa    xmm3, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xdb0f4466; BYTE $0xeb               // pand    xmm13, xmm3
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x6f0f4566; BYTE $0xe6               // movdqa    xmm12, xmm14
-	LONG $0x640f4466; BYTE $0xe2               // pcmpgtb    xmm12, xmm2
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	QUAD $0x000000e09d6f0f66                   // movdqa    xmm3, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xdb0f4466; BYTE $0xe3               // pand    xmm12, xmm3
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x0274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rax + 18]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	QUAD $0x0000c0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 192]
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0106025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 1
-	WORD $0x894d; BYTE $0xc1                   // mov    r9, r8
-	QUAD $0x06025c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r8 + 6], 2
-	QUAD $0x03063a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 6], 3
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x062a5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r13 + 6], 4
-	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
-	QUAD $0x062a5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r13 + 6], 5
-	QUAD $0x06325c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r14 + 6], 6
-	QUAD $0x06125c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r10 + 6], 7
-	QUAD $0x06225c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r12 + 6], 8
-	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
-	QUAD $0x0906325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 6], 9
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x06025c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r8 + 6], 10
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0b061a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 6], 11
-	LONG $0x247c894c; BYTE $0x48               // mov    qword [rsp + 72], r15
-	QUAD $0x063a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r15 + 6], 12
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	QUAD $0x061a5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r11 + 6], 13
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	QUAD $0x061a5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r11 + 6], 14
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x06125c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r10 + 6], 15
-	QUAD $0x0107024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 7], 1
-	QUAD $0x070a4c203a0f4266; BYTE $0x02       // pinsrb    xmm1, byte [rdx + r9 + 7], 2
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0307024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 7], 3
-	QUAD $0x04070a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 7], 4
-	QUAD $0x072a4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rdx + r13 + 7], 5
-	QUAD $0x07324c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r14 + 7], 6
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x07324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 7], 7
-	QUAD $0x07224c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r12 + 7], 8
-	QUAD $0x0907324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 7], 9
-	QUAD $0x07024c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r8 + 7], 10
-	QUAD $0x0b071a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 7], 11
-	QUAD $0x073a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 7], 12
-	QUAD $0x0d073a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 7], 13
-	QUAD $0x071a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r11 + 7], 14
-	QUAD $0x07124c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r10 + 7], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x01090244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 9], 1
-	QUAD $0x090a44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r9 + 9], 2
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x03090244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 9], 3
-	QUAD $0x04090a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 9], 4
-	QUAD $0x092a44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r13 + 9], 5
-	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
-	QUAD $0x06090244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 9], 6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x07090244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 9], 7
-	QUAD $0x092244203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r12 + 9], 8
-	QUAD $0x09093244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 9], 9
-	QUAD $0x090244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r8 + 9], 10
-	QUAD $0x0b091a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 9], 11
-	QUAD $0x093a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 9], 12
-	QUAD $0x0d093a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 9], 13
-	QUAD $0x091a44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r11 + 9], 14
-	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
-	QUAD $0x091244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r10 + 9], 15
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a024c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rax + 10], 1
-	QUAD $0x0a0a4c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rdx + r9 + 10], 2
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0a024c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rdx + rax + 10], 3
-	QUAD $0x0a0a4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rdx + rcx + 10], 4
-	QUAD $0x0a2a4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r13 + 10], 5
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x0a1a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r11 + 10], 6
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x0a0a4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rdx + rcx + 10], 7
-	QUAD $0x0a224c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r12 + 10], 8
-	QUAD $0x0a324c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rdx + rsi + 10], 9
-	QUAD $0x0a024c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r8 + 10], 10
-	QUAD $0x0a1a4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + rbx + 10], 11
-	QUAD $0x0a3a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r15 + 10], 12
-	QUAD $0x0a3a4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rdi + 10], 13
-	LONG $0xeb0f4466; BYTE $0xe4               // por    xmm12, xmm4
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0x6f0f4166; BYTE $0xe6               // movdqa    xmm4, xmm14
-	LONG $0xe3640f66                           // pcmpgtb    xmm4, xmm3
-	LONG $0x640f4466; BYTE $0xf1               // pcmpgtb    xmm14, xmm1
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x3a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rdi + 19]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	QUAD $0x0a324c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r14 + 10], 14
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI8_15] */
-	LONG $0xe3db0f66                           // pand    xmm4, xmm3
-	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
-	LONG $0x5d6f0f66; BYTE $0x60               // movdqa    xmm3, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb0f4466; BYTE $0xf3               // pand    xmm14, xmm3
-	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
-	LONG $0x3a74b60f; BYTE $0x14               // movzx    esi, byte [rdx + rdi + 20]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	QUAD $0x0a124c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r10 + 10], 15
-	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
-	QUAD $0x00c024b47f0f4466; WORD $0x0000     // movdqa    oword [rsp + 192], xmm14
-	LONG $0x6f0f4566; BYTE $0xf5               // movdqa    xmm14, xmm13
-	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
-	LONG $0xd8640f66                           // pcmpgtb    xmm3, xmm0
-	LONG $0x6f0f4466; BYTE $0xe3               // movdqa    xmm12, xmm3
-	LONG $0xdb0f4566; BYTE $0xe0               // pand    xmm12, xmm8
-	LONG $0xf80f4466; BYTE $0xe3               // psubb    xmm12, xmm3
-	LONG $0x640f4566; BYTE $0xe9               // pcmpgtb    xmm13, xmm9
-	LONG $0x3a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rdi + 21]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
-	QUAD $0x0b1254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r10 + 11], 1
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x0b0a54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r9 + 11], 2
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b3a54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rdx + rdi + 11], 3
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x0b0254203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r8 + 11], 4
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x0b0a54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r9 + 11], 5
-	QUAD $0x0b1a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r11 + 11], 6
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	QUAD $0x0b0a54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rcx + 11], 7
-	QUAD $0x0b2254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r12 + 11], 8
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0b0a54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rcx + 11], 9
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0b3254203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r14 + 11], 10
-	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
-	QUAD $0x0b3a54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r15 + 11], 11
-	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
-	QUAD $0x0b3254203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rsi + 11], 12
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0b3254203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rsi + 11], 13
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x0b3254203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + rsi + 11], 14
-	QUAD $0x0b2a54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r13 + 11], 15
-	QUAD $0x0c125c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r10 + 12], 1
-	QUAD $0x0c025c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rax + 12], 2
-	QUAD $0x0c3a5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rdx + rdi + 12], 3
-	QUAD $0x0c025c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r8 + 12], 4
-	QUAD $0x0c0a5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r9 + 12], 5
-	QUAD $0x0c1a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r11 + 12], 6
-	QUAD $0x0c1a5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rbx + 12], 7
-	QUAD $0x0c225c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r12 + 12], 8
-	QUAD $0x0c0a5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rcx + 12], 9
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
-	QUAD $0x0c325c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r14 + 12], 10
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x0c3a5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r15 + 12], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x0c3a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 12], 12
-	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
-	QUAD $0x0c3a5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rdi + 12], 13
-	QUAD $0x0c325c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + rsi + 12], 14
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	QUAD $0x000130249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 304]
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	QUAD $0x0000b0addb0f4466; BYTE $0x00       // pand    xmm13, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xeb0f4466; BYTE $0xeb               // por    xmm13, xmm3
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	QUAD $0x0c2a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r13 + 12], 15
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x6f0f4566; BYTE $0xe6               // movdqa    xmm12, xmm14
-	LONG $0x640f4566; BYTE $0xe2               // pcmpgtb    xmm12, xmm10
-	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
-	LONG $0x640f4166; BYTE $0xdb               // pcmpgtb    xmm3, xmm11
-	LONG $0x0274b60f; BYTE $0x17               // movzx    esi, byte [rdx + rax + 23]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x010d027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 13], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x020d0a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 13], 2
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0d1a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r11 + 13], 3
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x040d0a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 13], 4
-	QUAD $0x0d0a7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r9 + 13], 5
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x0d327c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r14 + 13], 6
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x070d327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 13], 7
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x080d327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 13], 8
-	QUAD $0x0d227c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r12 + 13], 9
-	QUAD $0x0d027c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r8 + 13], 10
-	QUAD $0x0b0d1a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 13], 11
-	QUAD $0x0d3a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 13], 12
-	QUAD $0x0d0d3a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 13], 13
-	QUAD $0x0d127c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r10 + 13], 14
-	QUAD $0x0d2a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r13 + 13], 15
-	QUAD $0x0000c0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 192[rbp] /* [rip + .LCPI8_12] */
-	QUAD $0x000000d09ddb0f66                   // pand    xmm3, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xeb0f4166; BYTE $0xdc               // por    xmm3, xmm12
-	LONG $0x6f0f4566; BYTE $0xd6               // movdqa    xmm10, xmm14
-	LONG $0x640f4466; BYTE $0xd7               // pcmpgtb    xmm10, xmm7
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x74b60f42; WORD $0x1922             // movzx    esi, byte [rdx + r12 + 25]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x0000e095db0f4466; BYTE $0x00       // pand    xmm10, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xeb0f4466; BYTE $0xd3               // por    xmm10, xmm3
-	LONG $0x74b60f42; WORD $0x1a22             // movzx    esi, byte [rdx + r12 + 26]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	QUAD $0x010e0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 14], 1
-	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
-	QUAD $0x020e3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 14], 2
-	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
-	QUAD $0x0e1a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 14], 3
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	QUAD $0x040e0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 14], 4
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	QUAD $0x0e0a74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r9 + 14], 5
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x0e3274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r14 + 14], 6
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0e3274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r14 + 14], 7
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x080e0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 14], 8
-	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
-	QUAD $0x0e0a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r9 + 14], 9
-	QUAD $0x0e0274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r8 + 14], 10
-	QUAD $0x0b0e1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 14], 11
-	QUAD $0x0e3a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 14], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d0e0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 14], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e0e0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 14], 14
-	QUAD $0x0e2a74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r13 + 14], 15
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x0f2a6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r13 + 15], 1
-	QUAD $0x020f326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 15], 2
-	QUAD $0x0f126c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r10 + 15], 3
-	QUAD $0x0f226c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r12 + 15], 4
-	QUAD $0x050f3a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 15], 5
-	QUAD $0x0f1a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r11 + 15], 6
-	QUAD $0x0f326c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r14 + 15], 7
-	QUAD $0x080f0a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 15], 8
-	QUAD $0x0f0a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r9 + 15], 9
-	QUAD $0x0f026c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r8 + 15], 10
-	QUAD $0x0b0f1a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 15], 11
-	QUAD $0x0f3a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 15], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d0f026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 15], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e0f026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 15], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0f026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 15], 15
-	QUAD $0x112a54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r13 + 17], 1
-	QUAD $0x02113254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 17], 2
-	QUAD $0x111254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r10 + 17], 3
-	QUAD $0x112254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r12 + 17], 4
-	QUAD $0x05113a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 17], 5
-	QUAD $0x111a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r11 + 17], 6
-	QUAD $0x113254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 17], 7
-	QUAD $0x08110a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 17], 8
-	QUAD $0x110a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r9 + 17], 9
-	QUAD $0x110254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r8 + 17], 10
-	QUAD $0x0b111a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 17], 11
-	QUAD $0x113a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 17], 12
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d110254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 17], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e110254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 17], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f110254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 17], 15
-	QUAD $0x122a7c203a0f4666; BYTE $0x01       // pinsrb    xmm15, byte [rdx + r13 + 18], 1
-	QUAD $0x12327c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rdx + rsi + 18], 2
-	QUAD $0x12127c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r10 + 18], 3
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	QUAD $0x12227c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r12 + 18], 4
-	QUAD $0x123a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rdi + 18], 5
-	QUAD $0x121a7c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r11 + 18], 6
-	QUAD $0x12327c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r14 + 18], 7
-	QUAD $0x120a7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rdx + rcx + 18], 8
-	QUAD $0x120a7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r9 + 18], 9
-	QUAD $0x12027c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r8 + 18], 10
-	QUAD $0x121a7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + rbx + 18], 11
-	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
-	QUAD $0x123a7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r15 + 18], 12
-	LONG $0x24548b4c; BYTE $0x08               // mov    r10, qword [rsp + 8]
-	QUAD $0x12127c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + r10 + 18], 13
-	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0x640f4466; BYTE $0xee               // pcmpgtb    xmm13, xmm6
-	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
-	LONG $0xdd640f66                           // pcmpgtb    xmm3, xmm5
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x120a7c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rcx + 18], 14
-	QUAD $0x0000f0addb0f4466; BYTE $0x00       // pand    xmm13, oword 240[rbp] /* [rip + .LCPI8_15] */
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0x5ddb0f66; BYTE $0x60               // pand    xmm3, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xeb0f4166; BYTE $0xdd               // por    xmm3, xmm13
-	LONG $0x0274b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rax + 28]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	QUAD $0x120a7c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + rcx + 18], 15
-	LONG $0xeb0f4166; BYTE $0xda               // por    xmm3, xmm10
-	QUAD $0x000110249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm3
-	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
-	LONG $0xda640f66                           // pcmpgtb    xmm3, xmm2
-	LONG $0x6f0f4466; BYTE $0xeb               // movdqa    xmm13, xmm3
-	QUAD $0x000000a0956f0f66                   // movdqa    xmm2, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xdb0f4466; BYTE $0xea               // pand    xmm13, xmm2
-	LONG $0xf80f4466; BYTE $0xeb               // psubb    xmm13, xmm3
-	LONG $0x6f0f4566; BYTE $0xd6               // movdqa    xmm10, xmm14
-	LONG $0x640f4566; BYTE $0xd7               // pcmpgtb    xmm10, xmm15
-	LONG $0x0274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rax + 29]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	QUAD $0x00f024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 240]
-	LONG $0xdb0f4466; BYTE $0xfa               // pand    xmm15, xmm2
-	QUAD $0x000000b0956f0f66                   // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xdb0f4466; BYTE $0xd2               // pand    xmm10, xmm2
-	LONG $0xeb0f4566; BYTE $0xd7               // por    xmm10, xmm15
-	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x0244b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rax + 31]
-	LONG $0x38244489                           // mov    dword [rsp + 56], eax
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0113024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 19], 1
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x02130a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 19], 2
-	QUAD $0x132a4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r13 + 19], 3
-	QUAD $0x13224c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r12 + 19], 4
-	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
-	QUAD $0x13024c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rdx + r8 + 19], 5
-	QUAD $0x131a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r11 + 19], 6
-	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
-	QUAD $0x13324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 19], 7
-	WORD $0x894d; BYTE $0xf7                   // mov    r15, r14
-	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
-	QUAD $0x0813324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 19], 8
-	QUAD $0x130a4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r9 + 19], 9
-	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
-	QUAD $0x131a4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r11 + 19], 10
-	QUAD $0x0b133a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 19], 11
-	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
-	QUAD $0x0c133a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 19], 12
-	QUAD $0x13124c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r10 + 19], 13
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x0e133a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 19], 14
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x13124c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r10 + 19], 15
-	QUAD $0x01140264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 20], 1
-	QUAD $0x02140a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 20], 2
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x142a64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r13 + 20], 3
-	QUAD $0x142264203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r12 + 20], 4
-	QUAD $0x140264203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r8 + 20], 5
-	QUAD $0x06141a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 20], 6
-	QUAD $0x143a64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r15 + 20], 7
-	QUAD $0x08143264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 20], 8
-	QUAD $0x140a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r9 + 20], 9
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	QUAD $0x141a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r11 + 20], 10
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x0b141a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 20], 11
-	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
-	QUAD $0x143a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 20], 12
-	QUAD $0x143264203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r14 + 20], 13
-	QUAD $0x0e143a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 20], 14
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	QUAD $0x141264203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r10 + 20], 15
-	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0x640f4466; BYTE $0xe9               // pcmpgtb    xmm13, xmm1
-	LONG $0x6f0f4566; BYTE $0xfe               // movdqa    xmm15, xmm14
-	LONG $0x640f4466; BYTE $0xfc               // pcmpgtb    xmm15, xmm4
-	LONG $0x4c6e0f66; WORD $0x3824             // movd    xmm1, dword [rsp + 56]
-	QUAD $0x01150244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 21], 1
-	QUAD $0x160244203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rdx + rax + 22], 1
-	QUAD $0x17024c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rax + 23], 1
-	QUAD $0x19025c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rax + 25], 1
-	QUAD $0x011a027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 26], 1
-	QUAD $0x011b026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 27], 1
-	QUAD $0x011c0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 28], 1
-	QUAD $0x011d025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 29], 1
-	QUAD $0x011e0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 30], 1
-	QUAD $0x011f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 1
-	QUAD $0x02150a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 21], 2
-	QUAD $0x160a44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rcx + 22], 2
-	QUAD $0x170a4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rcx + 23], 2
-	QUAD $0x190a5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rcx + 25], 2
-	QUAD $0x021a0a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 26], 2
-	QUAD $0x021b0a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 27], 2
-	QUAD $0x021c0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 28], 2
-	QUAD $0x021d0a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 29], 2
-	QUAD $0x021e0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 30], 2
-	QUAD $0x021f0a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 31], 2
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x152a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r13 + 21], 3
-	QUAD $0x152244203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r12 + 21], 4
-	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
-	QUAD $0x05153a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 21], 5
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x151a44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r11 + 21], 6
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x153244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r14 + 21], 7
-	QUAD $0x08153244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 21], 8
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x151244203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r10 + 21], 9
-	QUAD $0x150244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r8 + 21], 10
-	QUAD $0x0b151a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 21], 11
-	QUAD $0x153a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 21], 12
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0d150a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 21], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e150244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 21], 14
-	QUAD $0x150a44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r9 + 21], 15
-	QUAD $0x000000c0a56f0f66                   // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI8_12] */
-	LONG $0xdb0f4466; BYTE $0xec               // pand    xmm13, xmm4
-	QUAD $0x000000d0a56f0f66                   // movdqa    xmm4, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0x640f4466; BYTE $0xe8               // pcmpgtb    xmm13, xmm0
-	QUAD $0x000000e0856f0f66                   // movdqa    xmm0, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xdb0f4466; BYTE $0xe8               // pand    xmm13, xmm0
-	LONG $0xeb0f4566; BYTE $0xef               // por    xmm13, xmm15
-	QUAD $0x162a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r13 + 22], 3
-	QUAD $0x162244203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r12 + 22], 4
-	QUAD $0x163a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rdi + 22], 5
-	QUAD $0x161a44203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r11 + 22], 6
-	QUAD $0x163244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r14 + 22], 7
-	QUAD $0x163244203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rdx + rsi + 22], 8
-	QUAD $0x161244203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rdx + r10 + 22], 9
-	QUAD $0x160244203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + r8 + 22], 10
-	QUAD $0x161a44203a0f4466; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + rbx + 22], 11
-	QUAD $0x163a44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r15 + 22], 12
-	QUAD $0x160a44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rcx + 22], 13
-	QUAD $0x160244203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rax + 22], 14
-	QUAD $0x160a44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r9 + 22], 15
-	QUAD $0x172a4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r13 + 23], 3
-	QUAD $0x17224c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r12 + 23], 4
-	QUAD $0x173a4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rdi + 23], 5
-	QUAD $0x171a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r11 + 23], 6
-	QUAD $0x17324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 23], 7
-	QUAD $0x17324c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rdx + rsi + 23], 8
-	QUAD $0x17124c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r10 + 23], 9
-	QUAD $0x17024c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r8 + 23], 10
-	QUAD $0x171a4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + rbx + 23], 11
-	QUAD $0x173a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r15 + 23], 12
-	QUAD $0x170a4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rcx + 23], 13
-	QUAD $0x17024c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + rax + 23], 14
-	QUAD $0x170a4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r9 + 23], 15
-	QUAD $0x192a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r13 + 25], 3
-	QUAD $0x19225c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r12 + 25], 4
-	QUAD $0x193a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rdi + 25], 5
-	QUAD $0x191a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r11 + 25], 6
-	QUAD $0x19325c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r14 + 25], 7
-	QUAD $0x19325c203a0f4466; BYTE $0x08       // pinsrb    xmm11, byte [rdx + rsi + 25], 8
-	QUAD $0x19125c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r10 + 25], 9
-	QUAD $0x19025c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r8 + 25], 10
-	QUAD $0x191a5c203a0f4466; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + rbx + 25], 11
-	QUAD $0x193a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 25], 12
-	QUAD $0x190a5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rcx + 25], 13
-	QUAD $0x19025c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + rax + 25], 14
-	QUAD $0x190a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r9 + 25], 15
-	QUAD $0x1a2a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r13 + 26], 3
-	QUAD $0x1a227c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r12 + 26], 4
-	QUAD $0x051a3a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 26], 5
-	QUAD $0x1a1a7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r11 + 26], 6
-	QUAD $0x1a327c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r14 + 26], 7
-	QUAD $0x081a327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 26], 8
-	QUAD $0x1a127c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r10 + 26], 9
-	QUAD $0x1a027c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r8 + 26], 10
-	QUAD $0x0b1a1a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 26], 11
-	QUAD $0x1a3a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 26], 12
-	QUAD $0x0d1a0a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 26], 13
-	QUAD $0x0e1a027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 26], 14
-	LONG $0xeb0f4566; BYTE $0xea               // por    xmm13, xmm10
-	LONG $0x6f0f4566; BYTE $0xe6               // movdqa    xmm12, xmm14
-	LONG $0x6f0f4166; BYTE $0xe6               // movdqa    xmm4, xmm14
-	LONG $0x640f4166; BYTE $0xe0               // pcmpgtb    xmm4, xmm8
-	LONG $0x6f0f4166; BYTE $0xc6               // movdqa    xmm0, xmm14
-	LONG $0x640f4166; BYTE $0xc1               // pcmpgtb    xmm0, xmm9
-	QUAD $0x0000f0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 240[rbp] /* [rip + .LCPI8_15] */
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0x6f0f4466; WORD $0x607d             // movdqa    xmm15, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb0f4166; BYTE $0xc7               // pand    xmm0, xmm15
-	LONG $0xc4eb0f66                           // por    xmm0, xmm4
-	QUAD $0x1a0a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r9 + 26], 15
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xe4               // movdqa    xmm4, xmm12
-	LONG $0x640f4166; BYTE $0xe3               // pcmpgtb    xmm4, xmm11
-	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
-	QUAD $0x0000a09d6f0f4466; BYTE $0x00       // movdqa    xmm11, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xdb0f4566; BYTE $0xc3               // pand    xmm8, xmm11
-	LONG $0xf80f4466; BYTE $0xc4               // psubb    xmm8, xmm4
-	LONG $0x6f0f4166; BYTE $0xe4               // movdqa    xmm4, xmm12
-	LONG $0xe7640f66                           // pcmpgtb    xmm4, xmm7
-	QUAD $0x1b2a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r13 + 27], 3
-	QUAD $0x1b226c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r12 + 27], 4
-	QUAD $0x051b3a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 27], 5
-	QUAD $0x1b1a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r11 + 27], 6
-	QUAD $0x1b326c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r14 + 27], 7
-	QUAD $0x081b326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 27], 8
-	QUAD $0x1b126c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r10 + 27], 9
-	QUAD $0x1b026c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r8 + 27], 10
-	QUAD $0x0b1b1a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 27], 11
-	QUAD $0x1b3a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 27], 12
-	QUAD $0x0d1b0a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 27], 13
-	QUAD $0x0e1b026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 27], 14
-	QUAD $0x1b0a6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r9 + 27], 15
-	QUAD $0x1c2a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r13 + 28], 3
-	QUAD $0x1c2274203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r12 + 28], 4
-	QUAD $0x051c3a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 28], 5
-	QUAD $0x1c1a74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r11 + 28], 6
-	QUAD $0x1c3274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r14 + 28], 7
-	QUAD $0x081c3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 28], 8
-	QUAD $0x1c1274203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r10 + 28], 9
-	QUAD $0x1c0274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r8 + 28], 10
-	QUAD $0x0b1c1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 28], 11
-	QUAD $0x1c3a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 28], 12
-	QUAD $0x0d1c0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 28], 13
-	QUAD $0x0000d024bc6f0f66; BYTE $0x00       // movdqa    xmm7, oword [rsp + 208]
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	QUAD $0x0e1c0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 28], 14
-	QUAD $0x000000b0a5db0f66                   // pand    xmm4, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	QUAD $0x1c0a74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r9 + 28], 15
-	LONG $0xeb0f4166; BYTE $0xe0               // por    xmm4, xmm8
-	LONG $0x6f0f4166; BYTE $0xfc               // movdqa    xmm7, xmm12
-	LONG $0xfd640f66                           // pcmpgtb    xmm7, xmm5
-	LONG $0x6f0f4166; BYTE $0xec               // movdqa    xmm5, xmm12
-	LONG $0xee640f66                           // pcmpgtb    xmm5, xmm6
-	QUAD $0x1d2a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r13 + 29], 3
-	QUAD $0x1d225c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r12 + 29], 4
-	QUAD $0x051d3a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 29], 5
-	QUAD $0x1d1a5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r11 + 29], 6
-	QUAD $0x1d325c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r14 + 29], 7
-	QUAD $0x081d325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 29], 8
-	QUAD $0x1d125c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r10 + 29], 9
-	QUAD $0x1d025c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r8 + 29], 10
-	QUAD $0x0b1d1a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 29], 11
-	QUAD $0x1d3a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r15 + 29], 12
-	QUAD $0x0d1d0a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 29], 13
-	QUAD $0x0e1d025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 29], 14
-	QUAD $0x1d0a5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r9 + 29], 15
-	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI8_12] */
-	QUAD $0x000000d0addb0f66                   // pand    xmm5, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6f0f4166; BYTE $0xf4               // movdqa    xmm6, xmm12
-	LONG $0xf3640f66                           // pcmpgtb    xmm6, xmm3
-	QUAD $0x000000e0b5db0f66                   // pand    xmm6, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0x1e2a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r13 + 30], 3
-	QUAD $0x1f2a4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r13 + 31], 3
-	QUAD $0x1e2254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r12 + 30], 4
-	QUAD $0x1f224c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r12 + 31], 4
-	QUAD $0x051e3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 30], 5
-	QUAD $0x051f3a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 31], 5
-	QUAD $0x1e1a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r11 + 30], 6
-	QUAD $0x1f1a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r11 + 31], 6
-	QUAD $0x1e3254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 30], 7
-	QUAD $0x1f324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 31], 7
-	QUAD $0x081e3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 30], 8
-	QUAD $0x081f324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 31], 8
-	QUAD $0x1e1254203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r10 + 30], 9
-	QUAD $0x1f124c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r10 + 31], 9
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x1e0254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r8 + 30], 10
-	QUAD $0x1f024c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r8 + 31], 10
-	QUAD $0x0b1e1a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 30], 11
-	QUAD $0x0b1f1a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 31], 11
-	QUAD $0x1e3a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 30], 12
-	QUAD $0x1f3a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 31], 12
-	QUAD $0x0d1e0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 30], 13
-	QUAD $0x0d1f0a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 31], 13
-	QUAD $0x0e1e0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 30], 14
-	QUAD $0x0e1f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 14
-	QUAD $0x1e0a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r9 + 30], 15
-	QUAD $0x1f0a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r9 + 31], 15
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	LONG $0x6f0f4166; BYTE $0xdc               // movdqa    xmm3, xmm12
-	LONG $0xda640f66                           // pcmpgtb    xmm3, xmm2
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0x640f4466; BYTE $0xe1               // pcmpgtb    xmm12, xmm1
-	LONG $0x710f4166; WORD $0x07f4             // psllw    xmm12, 7
-	LONG $0xdb0f4566; BYTE $0xe7               // pand    xmm12, xmm15
-	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
-	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0x600f4166; BYTE $0xcc               // punpcklbw    xmm1, xmm12
-	QUAD $0x0000c024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 192]
-	LONG $0xdd6f0f66                           // movdqa    xmm3, xmm5
-	QUAD $0x00011024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 272]
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe36f0f66                           // movdqa    xmm4, xmm3
-	LONG $0xe1610f66                           // punpcklwd    xmm4, xmm1
-	LONG $0xd9690f66                           // punpckhwd    xmm3, xmm1
-	LONG $0x680f4166; BYTE $0xc4               // punpckhbw    xmm0, xmm12
-	LONG $0xee680f66                           // punpckhbw    xmm5, xmm6
-	LONG $0xcd6f0f66                           // movdqa    xmm1, xmm5
-	LONG $0xc8610f66                           // punpcklwd    xmm1, xmm0
-	LONG $0xe8690f66                           // punpckhwd    xmm5, xmm0
-	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
-	LONG $0x7f0f41f3; WORD $0x8e6c; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm5
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x8e5c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm3
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
-	JNE  LBB8_192
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x000000e824bc3b4c                   // cmp    r15, qword [rsp + 232]
-	LONG $0x241c8a44                           // mov    r11b, byte [rsp]
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	JNE  LBB8_42
-	JMP  LBB8_128
-
-LBB8_194:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
-	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24448948; BYTE $0x30         // mov    qword [rsp + 48], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000120248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 288], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
-
-LBB8_195:
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0x05e1c148                           // shl    rcx, 5
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
-	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x244c8948; BYTE $0x40               // mov    qword [rsp + 64], rcx
-	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
-	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	LONG $0x0a0cb60f                           // movzx    ecx, byte [rdx + rcx]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x324cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rsi + 1]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x324cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rsi + 2]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x324cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rsi + 3]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x324cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rsi + 4]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x324cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rsi + 5]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x324cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rsi + 6]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x324cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rsi + 7]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
-	LONG $0x324cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rsi + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x324cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rsi + 9]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x324cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rsi + 10]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x324cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rsi + 11]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00009024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm0
-	LONG $0x324cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rsi + 12]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00013024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm0
-	LONG $0x324cb60f; BYTE $0x0d               // movzx    ecx, byte [rdx + rsi + 13]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x324cb60f; BYTE $0x0e               // movzx    ecx, byte [rdx + rsi + 14]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x24748948; BYTE $0x38               // mov    qword [rsp + 56], rsi
-	WORD $0x8949; BYTE $0xf5                   // mov    r13, rsi
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x08               // mov    qword [rsp + 8], r13
-	LONG $0x40ce8349                           // or    r14, 64
-	LONG $0x2474894c; BYTE $0x20               // mov    qword [rsp + 32], r14
-	LONG $0x60cb8348                           // or    rbx, 96
-	LONG $0x245c8948; BYTE $0x58               // mov    qword [rsp + 88], rbx
-	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
-	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
-	LONG $0xa0cb8148; WORD $0x0000; BYTE $0x00 // or    rbx, 160
-	WORD $0x894d; BYTE $0xd3                   // mov    r11, r10
-	LONG $0xc0cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 192
-	LONG $0x245c894c; BYTE $0x60               // mov    qword [rsp + 96], r11
-	LONG $0xe0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 224
-	LONG $0x00c98149; WORD $0x0001; BYTE $0x00 // or    r9, 256
-	LONG $0x244c894c; BYTE $0x50               // mov    qword [rsp + 80], r9
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	LONG $0x20c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 288
-	LONG $0x40cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 320
-	LONG $0x60cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 352
-	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	LONG $0x80ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 384
-	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
-	LONG $0xa0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 416
-	LONG $0x247c8948; BYTE $0x68               // mov    qword [rsp + 104], rdi
-	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
-	LONG $0xc0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 448
-	LONG $0x247c8948; BYTE $0x10               // mov    qword [rsp + 16], rdi
-	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
-	LONG $0xe0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 480
-	LONG $0x247c8948; BYTE $0x18               // mov    qword [rsp + 24], rdi
-	QUAD $0x012a6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r13 + 1], 1
-	QUAD $0x01326c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rdx + r14 + 1], 2
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x012a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r13 + 1], 3
-	QUAD $0x0401026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 1], 4
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	QUAD $0x05011a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 1], 5
-	QUAD $0x011a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r11 + 1], 6
-	QUAD $0x01026c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r8 + 1], 7
-	QUAD $0x010a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r9 + 1], 8
-	QUAD $0x09010a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 1], 9
-	QUAD $0x01226c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r12 + 1], 10
-	QUAD $0x013a6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r15 + 1], 11
-	QUAD $0x01126c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r10 + 1], 12
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x011a6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r11 + 1], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e01026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 1], 14
-	QUAD $0x0f013a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 1], 15
-	QUAD $0x012024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 288]
-	LONG $0xda0f4166; BYTE $0xea               // pminub    xmm5, xmm10
-	LONG $0x740f4166; BYTE $0xea               // pcmpeqb    xmm5, xmm10
-	LONG $0xf56f0f66                           // movdqa    xmm6, xmm5
-	QUAD $0x000000a08d6f0f66                   // movdqa    xmm1, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xf1df0f66                           // pandn    xmm6, xmm1
-	LONG $0xf5fc0f66                           // paddb    xmm6, xmm5
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	LONG $0x3274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rsi + 15]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	QUAD $0x0000b024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm0
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x01020c203a0f4466                   // pinsrb    xmm9, byte [rdx + rax], 1
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x02120c203a0f4666                   // pinsrb    xmm9, byte [rdx + r10], 2
-	QUAD $0x032a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r13], 3
-	WORD $0x894c; BYTE $0xf6                   // mov    rsi, r14
-	QUAD $0x04320c203a0f4666                   // pinsrb    xmm9, byte [rdx + r14], 4
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	QUAD $0x051a0c203a0f4466                   // pinsrb    xmm9, byte [rdx + rbx], 5
-	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
-	QUAD $0x061a0c203a0f4466                   // pinsrb    xmm9, byte [rdx + rbx], 6
-	QUAD $0x07020c203a0f4666                   // pinsrb    xmm9, byte [rdx + r8], 7
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x083a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r15], 8
-	LONG $0x244c8948; BYTE $0x40               // mov    qword [rsp + 64], rcx
-	QUAD $0x090a0c203a0f4466                   // pinsrb    xmm9, byte [rdx + rcx], 9
-	LONG $0x2464894c; BYTE $0x48               // mov    qword [rsp + 72], r12
-	QUAD $0x0a220c203a0f4666                   // pinsrb    xmm9, byte [rdx + r12], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b3a0c203a0f4466                   // pinsrb    xmm9, byte [rdx + rdi], 11
-	QUAD $0x0c0a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r9], 12
-	QUAD $0x0d1a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r11], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e020c203a0f4466                   // pinsrb    xmm9, byte [rdx + rax], 14
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x0f2a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r13], 15
-	LONG $0xda0f4566; BYTE $0xca               // pminub    xmm9, xmm10
-	LONG $0x740f4566; BYTE $0xca               // pcmpeqb    xmm9, xmm10
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0102027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 2], 1
-	QUAD $0x02127c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rdx + r10 + 2], 2
-	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
-	QUAD $0x022a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r13 + 2], 3
-	QUAD $0x0402327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 2], 4
-	QUAD $0x02327c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r14 + 2], 5
-	QUAD $0x06021a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 2], 6
-	QUAD $0x02027c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r8 + 2], 7
-	QUAD $0x023a7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r15 + 2], 8
-	QUAD $0x09020a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 2], 9
-	QUAD $0x02227c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r12 + 2], 10
-	QUAD $0x0b023a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 2], 11
-	QUAD $0x020a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r9 + 2], 12
-	QUAD $0x021a7c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rdx + r11 + 2], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e02027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 2], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0f02027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 2], 15
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x01030244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 3], 1
-	QUAD $0x031244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r10 + 3], 2
-	QUAD $0x032a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r13 + 3], 3
-	QUAD $0x04033244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 3], 4
-	QUAD $0x033244203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r14 + 3], 5
-	QUAD $0x06031a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 3], 6
-	QUAD $0x030244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r8 + 3], 7
-	QUAD $0x033a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r15 + 3], 8
-	QUAD $0x09030a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 3], 9
-	QUAD $0x032244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r12 + 3], 10
-	QUAD $0x0b033a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 3], 11
-	QUAD $0x030a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r9 + 3], 12
-	QUAD $0x031a44203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rdx + r11 + 3], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e030244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 3], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0f030244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 3], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0104025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 4], 1
-	QUAD $0x04125c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r10 + 4], 2
-	QUAD $0x042a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r13 + 4], 3
-	QUAD $0x0404325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 4], 4
-	QUAD $0x04325c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r14 + 4], 5
-	QUAD $0x06041a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 4], 6
-	QUAD $0x04025c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r8 + 4], 7
-	QUAD $0x043a5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r15 + 4], 8
-	QUAD $0x09040a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 4], 9
-	QUAD $0x04225c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r12 + 4], 10
-	QUAD $0x0b043a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 4], 11
-	QUAD $0x040a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r9 + 4], 12
-	QUAD $0x041a5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r11 + 4], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e04025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 4], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0f04025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 4], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x01050254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 5], 1
-	QUAD $0x051254203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r10 + 5], 2
-	QUAD $0x052a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r13 + 5], 3
-	QUAD $0x04053254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 5], 4
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	QUAD $0x000000c024b48948                   // mov    qword [rsp + 192], rsi
-	QUAD $0x053254203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r14 + 5], 5
-	QUAD $0x06051a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 5], 6
-	QUAD $0x050254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r8 + 5], 7
-	QUAD $0x053a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r15 + 5], 8
-	QUAD $0x09050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 9
-	QUAD $0x052254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r12 + 5], 10
-	QUAD $0x0b053a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 5], 11
-	QUAD $0x050a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 5], 12
-	QUAD $0x051a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r11 + 5], 13
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	LONG $0xdf0f4466; BYTE $0xc9               // pandn    xmm9, xmm1
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e050254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 5], 14
-	LONG $0xda0f4166; BYTE $0xfa               // pminub    xmm7, xmm10
-	LONG $0x740f4166; BYTE $0xfa               // pcmpeqb    xmm7, xmm10
-	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xf9df0f66                           // pandn    xmm7, xmm1
-	LONG $0xeb0f4166; BYTE $0xf9               // por    xmm7, xmm9
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x74b60f42; WORD $0x1022             // movzx    esi, byte [rdx + r12 + 16]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x0f050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 15
-	LONG $0xda0f4166; BYTE $0xc2               // pminub    xmm0, xmm10
-	LONG $0x740f4166; BYTE $0xc2               // pcmpeqb    xmm0, xmm10
-	QUAD $0x000000c08d6f0f66                   // movdqa    xmm1, oword 192[rbp] /* [rip + .LCPI8_12] */
-	LONG $0xc1df0f66                           // pandn    xmm0, xmm1
-	LONG $0xc7eb0f66                           // por    xmm0, xmm7
-	LONG $0x74b60f42; WORD $0x1122             // movzx    esi, byte [rdx + r12 + 17]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
-	LONG $0xf7f80f66                           // psubb    xmm6, xmm7
-	LONG $0x760f4566; BYTE $0xc9               // pcmpeqd    xmm9, xmm9
-	LONG $0xc6eb0f66                           // por    xmm0, xmm6
-	LONG $0x74b60f42; WORD $0x1222             // movzx    esi, byte [rdx + r12 + 18]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0xda0f4166; BYTE $0xda               // pminub    xmm3, xmm10
-	LONG $0x740f4166; BYTE $0xda               // pcmpeqb    xmm3, xmm10
-	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xdedf0f66                           // pandn    xmm3, xmm6
-	LONG $0xda0f4166; BYTE $0xd2               // pminub    xmm2, xmm10
-	LONG $0x740f4166; BYTE $0xd2               // pcmpeqb    xmm2, xmm10
-	QUAD $0x000000e0b56f0f66                   // movdqa    xmm6, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xd6df0f66                           // pandn    xmm2, xmm6
-	LONG $0xd3eb0f66                           // por    xmm2, xmm3
-	LONG $0x74b60f42; WORD $0x1322             // movzx    esi, byte [rdx + r12 + 19]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x060a44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rdx + rcx + 6], 1
-	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
-	QUAD $0x061a44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rdx + r11 + 6], 2
-	QUAD $0x062a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r13 + 6], 3
-	QUAD $0x061244203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r10 + 6], 4
-	LONG $0x2474894c; BYTE $0x78               // mov    qword [rsp + 120], r14
-	QUAD $0x063244203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rdx + r14 + 6], 5
-	QUAD $0x061a44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rdx + rbx + 6], 6
-	QUAD $0x000000d02484894c                   // mov    qword [rsp + 208], r8
-	QUAD $0x060244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r8 + 6], 7
-	QUAD $0x063a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r15 + 6], 8
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-	QUAD $0x063a44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rdx + r15 + 6], 9
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x060244203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rax + 6], 10
-	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
-	QUAD $0x061244203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r10 + 6], 11
-	QUAD $0x060a44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r9 + 6], 12
-	QUAD $0x063a44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rdi + 6], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x061a44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rbx + 6], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x060244203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + rax + 6], 15
-	LONG $0xda0f4566; BYTE $0xc2               // pminub    xmm8, xmm10
-	LONG $0x740f4566; BYTE $0xc2               // pcmpeqb    xmm8, xmm10
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI8_15] */
-	LONG $0xdf0f4466; BYTE $0xc3               // pandn    xmm8, xmm3
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x74b60f42; WORD $0x1422             // movzx    esi, byte [rdx + r12 + 20]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	QUAD $0x0000a024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 160]
-	QUAD $0x01070a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 7], 1
-	QUAD $0x071a74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rdx + r11 + 7], 2
-	QUAD $0x072a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r13 + 7], 3
-	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
-	QUAD $0x04070a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 7], 4
-	QUAD $0x073274203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r14 + 7], 5
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x073274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r14 + 7], 6
-	QUAD $0x070274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r8 + 7], 7
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x072274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r12 + 7], 8
-	QUAD $0x073a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r15 + 7], 9
-	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
-	QUAD $0x070274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r8 + 7], 10
-	QUAD $0x071274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r10 + 7], 11
-	QUAD $0x070a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r9 + 7], 12
-	QUAD $0x0d073a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 7], 13
-	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
-	QUAD $0x0e071a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 7], 14
-	QUAD $0x0f070274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 7], 15
-	LONG $0xda0f4166; BYTE $0xf2               // pminub    xmm6, xmm10
-	LONG $0x740f4166; BYTE $0xf2               // pcmpeqb    xmm6, xmm10
-	LONG $0xef0f4166; BYTE $0xf1               // pxor    xmm6, xmm9
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
-	LONG $0x556f0f66; BYTE $0x60               // movdqa    xmm2, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xf2db0f66                           // pand    xmm6, xmm2
-	LONG $0xeb0f4166; BYTE $0xf0               // por    xmm6, xmm8
-	LONG $0x6f0f4466; BYTE $0xc6               // movdqa    xmm8, xmm6
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	QUAD $0x00011024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 272]
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x01080a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 8], 1
-	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
-	QUAD $0x081a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r11 + 8], 2
-	WORD $0x894c; BYTE $0xef                   // mov    rdi, r13
-	QUAD $0x082a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r13 + 8], 3
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-	QUAD $0x081254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r10 + 8], 4
-	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
-	QUAD $0x081a54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r11 + 8], 5
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	QUAD $0x083254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r14 + 8], 6
-	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
-	QUAD $0x07083254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 8], 7
-	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
-	QUAD $0x082254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r12 + 8], 8
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x09081a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 8], 9
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x080254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r8 + 8], 10
-	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
-	QUAD $0x0b081a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 8], 11
-	LONG $0x244c894c; BYTE $0x70               // mov    qword [rsp + 112], r9
-	QUAD $0x080a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 8], 12
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	QUAD $0x083a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r15 + 8], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x083a54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r15 + 8], 14
-	QUAD $0x090a5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rcx + 9], 1
-	QUAD $0x09025c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rax + 9], 2
-	QUAD $0x093a5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rdx + rdi + 9], 3
-	QUAD $0x09125c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r10 + 9], 4
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x091a5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r11 + 9], 5
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	QUAD $0x092a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r13 + 9], 6
-	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
-	QUAD $0x09325c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rsi + 9], 7
-	QUAD $0x09325c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r14 + 9], 8
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x09025c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rax + 9], 9
-	QUAD $0x09225c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r12 + 9], 10
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x091a5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r11 + 9], 11
-	QUAD $0x090a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r9 + 9], 12
-	QUAD $0x09025c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r8 + 9], 13
-	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x09025c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r8 + 9], 14
-	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
-	QUAD $0x093a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r15 + 9], 15
-	LONG $0xeb0f4466; BYTE $0xc0               // por    xmm8, xmm0
-	QUAD $0x00a024847f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm8
-	LONG $0xda0f4566; BYTE $0xda               // pminub    xmm11, xmm10
-	LONG $0x740f4566; BYTE $0xda               // pcmpeqb    xmm11, xmm10
-	LONG $0x6f0f4166; BYTE $0xc3               // movdqa    xmm0, xmm11
-	QUAD $0x0000a0856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xdf0f4166; BYTE $0xc0               // pandn    xmm0, xmm8
-	LONG $0xfc0f4166; BYTE $0xc3               // paddb    xmm0, xmm11
-	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
-	LONG $0x74b60f42; WORD $0x160a             // movzx    esi, byte [rdx + r9 + 22]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	QUAD $0x083a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r15 + 8], 15
-	LONG $0xda0f4166; BYTE $0xd2               // pminub    xmm2, xmm10
-	LONG $0x740f4166; BYTE $0xd2               // pcmpeqb    xmm2, xmm10
-	LONG $0xdf0f4166; BYTE $0xd0               // pandn    xmm2, xmm8
-	QUAD $0x0a0a64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rcx + 10], 1
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x0a0a64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rcx + 10], 2
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0a0a64203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rdx + rcx + 10], 3
-	QUAD $0x0a1a64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rbx + 10], 4
-	QUAD $0x0a3a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rdi + 10], 5
-	QUAD $0x0a1264203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r10 + 10], 6
-	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
-	QUAD $0x0a1a64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rbx + 10], 7
-	QUAD $0x0a3264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r14 + 10], 8
-	QUAD $0x0a0264203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rax + 10], 9
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	QUAD $0x0a2264203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r12 + 10], 10
-	QUAD $0x0a1a64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r11 + 10], 11
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a0264203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + rax + 10], 12
-	QUAD $0x0a2a64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r13 + 10], 13
-	QUAD $0x0a0264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r8 + 10], 14
-	QUAD $0x0a3a64203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r15 + 10], 15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	LONG $0xda0f4566; BYTE $0xe2               // pminub    xmm12, xmm10
-	LONG $0x740f4566; BYTE $0xe2               // pcmpeqb    xmm12, xmm10
-	QUAD $0x0000b0a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xeb0f4466; BYTE $0xe2               // por    xmm12, xmm2
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	LONG $0x74b60f42; WORD $0x170a             // movzx    esi, byte [rdx + r9 + 23]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	QUAD $0x00009024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 144]
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x0b0254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r8 + 11], 1
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0b3a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r15 + 11], 2
-	QUAD $0x030b0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 11], 3
-	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
-	QUAD $0x0b1a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r11 + 11], 4
-	QUAD $0x050b3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 11], 5
-	QUAD $0x0b1254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r10 + 11], 6
-	QUAD $0x070b1a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 11], 7
-	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
-	QUAD $0x080b3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 11], 8
-	QUAD $0x0b3254203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r14 + 11], 9
-	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
-	QUAD $0x0b3254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r14 + 11], 10
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x0b0b3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 11], 11
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x0b0a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 11], 12
-	QUAD $0x0b2a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r13 + 11], 13
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0e0b3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 11], 14
-	QUAD $0x0b2254203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r12 + 11], 15
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	LONG $0xda0f4166; BYTE $0xd2               // pminub    xmm2, xmm10
-	LONG $0x740f4166; BYTE $0xd2               // pcmpeqb    xmm2, xmm10
-	QUAD $0x000000c095df0f66                   // pandn    xmm2, oword 192[rbp] /* [rip + .LCPI8_12] */
-	LONG $0xeb0f4166; BYTE $0xd4               // por    xmm2, xmm12
-	LONG $0x0274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rax + 24]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	LONG $0xc3f80f66                           // psubb    xmm0, xmm3
-	LONG $0xd0eb0f66                           // por    xmm2, xmm0
-	QUAD $0x00009024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm2
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	QUAD $0x00013024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 304]
-	QUAD $0x0c0254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r8 + 12], 1
-	QUAD $0x0c3a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r15 + 12], 2
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0c0254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r8 + 12], 3
-	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
-	QUAD $0x0c1a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r11 + 12], 4
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x050c3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 12], 5
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x0c3a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r15 + 12], 6
-	QUAD $0x070c1a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 12], 7
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0c1a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r11 + 12], 8
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x090c0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 12], 9
-	QUAD $0x0c3254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r14 + 12], 10
-	QUAD $0x0b0c3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 12], 11
-	QUAD $0x0c0a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 12], 12
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x0c2254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 12], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e0c0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 12], 14
-	QUAD $0x0c2a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r13 + 12], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0d0274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rax + 13], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0d2a74203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r13 + 13], 2
-	QUAD $0x0d0274203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r8 + 13], 3
-	QUAD $0x0d1274203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rdx + r10 + 13], 4
-	QUAD $0x0d3274203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rdx + rsi + 13], 5
-	QUAD $0x0d3a74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r15 + 13], 6
-	QUAD $0x0d1a74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rdx + rbx + 13], 7
-	QUAD $0x0d1a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r11 + 13], 8
-	QUAD $0x0d0a74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rcx + 13], 9
-	QUAD $0x0d3274203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + r14 + 13], 10
-	QUAD $0x0d3a74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + rdi + 13], 11
-	QUAD $0x0d0a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r9 + 13], 12
-	QUAD $0x0d2274203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + r12 + 13], 13
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x0d2a74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r13 + 13], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0d0274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rax + 13], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e026c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rax + 14], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0e026c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rax + 14], 2
-	QUAD $0x0e026c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r8 + 14], 3
-	QUAD $0x0e126c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r10 + 14], 4
-	QUAD $0x0e326c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rsi + 14], 5
-	QUAD $0x0e3a6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r15 + 14], 6
-	QUAD $0x0e1a6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rdx + rbx + 14], 7
-	QUAD $0x0e1a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r11 + 14], 8
-	QUAD $0x0e0a6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rcx + 14], 9
-	QUAD $0x0e326c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + r14 + 14], 10
-	QUAD $0x0e3a6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rdi + 14], 11
-	QUAD $0x0e0a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r9 + 14], 12
-	QUAD $0x0e226c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r12 + 14], 13
-	QUAD $0x0e2a6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r13 + 14], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e026c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rax + 14], 15
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x010f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x0f2a44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r13 + 15], 2
-	QUAD $0x0f0244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r8 + 15], 3
-	QUAD $0x0f1244203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r10 + 15], 4
-	QUAD $0x050f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 15], 5
-	QUAD $0x0f3a44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r15 + 15], 6
-	QUAD $0x070f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 15], 7
-	QUAD $0x0f1a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r11 + 15], 8
-	QUAD $0x090f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 15], 9
-	QUAD $0x0f3244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r14 + 15], 10
-	QUAD $0x0b0f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 15], 11
-	QUAD $0x0f0a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r9 + 15], 12
-	QUAD $0x0f2244203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rdx + r12 + 15], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e0f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 14
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0f0f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0111024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 17], 1
-	QUAD $0x112a4c203a0f4266; BYTE $0x02       // pinsrb    xmm1, byte [rdx + r13 + 17], 2
-	QUAD $0x11024c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r8 + 17], 3
-	QUAD $0x11124c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r10 + 17], 4
-	QUAD $0x0511324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 17], 5
-	QUAD $0x113a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r15 + 17], 6
-	QUAD $0x07111a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 17], 7
-	QUAD $0x111a4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r11 + 17], 8
-	QUAD $0x09110a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 17], 9
-	QUAD $0x11324c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r14 + 17], 10
-	QUAD $0x0b113a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 17], 11
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x110a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r9 + 17], 12
-	QUAD $0x11224c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r12 + 17], 13
-	LONG $0xda0f4166; BYTE $0xd2               // pminub    xmm2, xmm10
-	LONG $0x740f4166; BYTE $0xd2               // pcmpeqb    xmm2, xmm10
-	QUAD $0x000000d095df0f66                   // pandn    xmm2, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xda0f4566; BYTE $0xf2               // pminub    xmm14, xmm10
-	LONG $0x740f4566; BYTE $0xf2               // pcmpeqb    xmm14, xmm10
-	QUAD $0x0000e0b5df0f4466; BYTE $0x00       // pandn    xmm14, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xeb0f4466; BYTE $0xf2               // por    xmm14, xmm2
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	LONG $0x3a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rdi + 26]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
-	QUAD $0x110a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r9 + 17], 14
-	LONG $0xda0f4566; BYTE $0xea               // pminub    xmm13, xmm10
-	LONG $0x740f4566; BYTE $0xea               // pcmpeqb    xmm13, xmm10
-	QUAD $0x0000f0addf0f4466; BYTE $0x00       // pandn    xmm13, oword 240[rbp] /* [rip + .LCPI8_15] */
-	LONG $0xeb0f4566; BYTE $0xee               // por    xmm13, xmm14
-	LONG $0x3a74b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rdi + 27]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	LONG $0xda0f4166; BYTE $0xc2               // pminub    xmm0, xmm10
-	LONG $0x740f4166; BYTE $0xc2               // pcmpeqb    xmm0, xmm10
-	QUAD $0x0000010085ef0f66                   // pxor    xmm0, oword 256[rbp] /* [rip + .LCPI8_16] */
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0x45db0f66; BYTE $0x60               // pand    xmm0, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x3a74b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rdi + 28]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x112a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r13 + 17], 15
-	QUAD $0x0000902484eb0f66; BYTE $0x00       // por    xmm0, oword [rsp + 144]
-	QUAD $0x0000b024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm0
-	LONG $0xda0f4166; BYTE $0xca               // pminub    xmm1, xmm10
-	LONG $0x740f4166; BYTE $0xca               // pcmpeqb    xmm1, xmm10
-	LONG $0x6f0f4166; BYTE $0xc2               // movdqa    xmm0, xmm10
-	LONG $0x6f0f4466; BYTE $0xf1               // movdqa    xmm14, xmm1
-	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xdf0f4566; BYTE $0xf2               // pandn    xmm14, xmm10
-	LONG $0xfc0f4466; BYTE $0xf1               // paddb    xmm14, xmm1
-	QUAD $0x009024b47f0f4466; WORD $0x0000     // movdqa    oword [rsp + 144], xmm14
-	LONG $0x3a74b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rdi + 29]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0110026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 16], 1
-	QUAD $0x0112027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 1
-	QUAD $0x13027c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rax + 19], 1
-	QUAD $0x01140264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 20], 1
-	QUAD $0x01150274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 21], 1
-	QUAD $0x16024c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rax + 22], 1
-	QUAD $0x170244203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rdx + rax + 23], 1
-	QUAD $0x18025c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rax + 24], 1
-	QUAD $0x0119025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 25], 1
-	QUAD $0x011a0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 26], 1
-	QUAD $0x1b0264203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rax + 27], 1
-	QUAD $0x1c026c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rax + 28], 1
-	QUAD $0x1d0254203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rax + 29], 1
-	LONG $0x3a74b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rdi + 30]
-	LONG $0x6e0f4466; BYTE $0xf6               // movd    xmm14, esi
-	QUAD $0x1e0274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rax + 30], 1
-	LONG $0x3a74b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rdi + 31]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	QUAD $0x011f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0210026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 16], 2
-	QUAD $0x0212027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 2
-	QUAD $0x13027c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rdx + rax + 19], 2
-	QUAD $0x02140264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 20], 2
-	QUAD $0x02150274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 21], 2
-	QUAD $0x16024c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rax + 22], 2
-	QUAD $0x170244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rax + 23], 2
-	QUAD $0x18025c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rax + 24], 2
-	QUAD $0x0219025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 25], 2
-	QUAD $0x021a0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 26], 2
-	QUAD $0x1b0264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rax + 27], 2
-	QUAD $0x1c026c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rax + 28], 2
-	QUAD $0x1d0254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rax + 29], 2
-	QUAD $0x1e0274203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rdx + rax + 30], 2
-	QUAD $0x021f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 2
-	QUAD $0x10026c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r8 + 16], 3
-	QUAD $0x10126c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r10 + 16], 4
-	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
-	QUAD $0x0510326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 16], 5
-	QUAD $0x103a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r15 + 16], 6
-	QUAD $0x07101a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 16], 7
-	QUAD $0x101a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r11 + 16], 8
-	QUAD $0x09100a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 16], 9
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x0a10026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 16], 10
-	QUAD $0x10326c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r14 + 16], 11
-	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
-	QUAD $0x10226c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r12 + 16], 12
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x0d103a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 16], 13
-	QUAD $0x100a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r9 + 16], 14
-	QUAD $0x102a6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r13 + 16], 15
-	LONG $0xe8da0f66                           // pminub    xmm5, xmm0
-	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
-	QUAD $0x12027c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r8 + 18], 3
-	QUAD $0x12127c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r10 + 18], 4
-	QUAD $0x0512327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 18], 5
-	QUAD $0x123a7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r15 + 18], 6
-	QUAD $0x07121a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 18], 7
-	QUAD $0x121a7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r11 + 18], 8
-	QUAD $0x09120a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 18], 9
-	QUAD $0x0a12027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 10
-	QUAD $0x12327c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r14 + 18], 11
-	QUAD $0x12227c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r12 + 18], 12
-	QUAD $0x0d123a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 18], 13
-	QUAD $0x120a7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r9 + 18], 14
-	QUAD $0x122a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r13 + 18], 15
-	QUAD $0x13027c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r8 + 19], 3
-	QUAD $0x13127c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r10 + 19], 4
-	QUAD $0x13327c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rsi + 19], 5
-	QUAD $0x133a7c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r15 + 19], 6
-	QUAD $0x131a7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rdx + rbx + 19], 7
-	QUAD $0x131a7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r11 + 19], 8
-	QUAD $0x130a7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rdx + rcx + 19], 9
-	QUAD $0x13027c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + rax + 19], 10
-	QUAD $0x13327c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r14 + 19], 11
-	QUAD $0x13227c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r12 + 19], 12
-	QUAD $0x133a7c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rdi + 19], 13
-	QUAD $0x130a7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + r9 + 19], 14
-	QUAD $0x132a7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r13 + 19], 15
-	QUAD $0x140264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r8 + 20], 3
-	QUAD $0x141264203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r10 + 20], 4
-	QUAD $0x05143264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 20], 5
-	QUAD $0x143a64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r15 + 20], 6
-	QUAD $0x07141a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 20], 7
-	QUAD $0x141a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r11 + 20], 8
-	QUAD $0x09140a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 20], 9
-	QUAD $0x0a140264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 20], 10
-	QUAD $0x143264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 20], 11
-	QUAD $0x142264203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r12 + 20], 12
-	QUAD $0x0d143a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 20], 13
-	QUAD $0x140a64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r9 + 20], 14
-	QUAD $0x142a64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r13 + 20], 15
-	QUAD $0x150274203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r8 + 21], 3
-	QUAD $0x151274203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r10 + 21], 4
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x05153274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 21], 5
-	QUAD $0x153a74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r15 + 21], 6
-	QUAD $0x07151a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 21], 7
-	QUAD $0x151a74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r11 + 21], 8
-	QUAD $0x09150a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 21], 9
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x151274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r10 + 21], 10
-	QUAD $0x153274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r14 + 21], 11
-	QUAD $0x152274203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r12 + 21], 12
-	QUAD $0x0d153a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 21], 13
-	QUAD $0x150a74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r9 + 21], 14
-	QUAD $0x000000a0addf0f66                   // pandn    xmm5, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xf8da0f66                           // pminub    xmm7, xmm0
-	LONG $0xf8740f66                           // pcmpeqb    xmm7, xmm0
-	QUAD $0x000000b0bddf0f66                   // pandn    xmm7, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0xda0f4466; BYTE $0xf8               // pminub    xmm15, xmm0
-	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI8_12] */
-	LONG $0xdf0f4466; BYTE $0xfd               // pandn    xmm15, xmm5
-	LONG $0xeb0f4466; BYTE $0xff               // por    xmm15, xmm7
-	QUAD $0x152a74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r13 + 21], 15
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	QUAD $0x00009024bc6f0f66; BYTE $0x00       // movdqa    xmm7, oword [rsp + 144]
-	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
-	LONG $0xeb0f4466; BYTE $0xff               // por    xmm15, xmm7
-	LONG $0xe0da0f66                           // pminub    xmm4, xmm0
-	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
-	QUAD $0x000000d0bd6f0f66                   // movdqa    xmm7, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xe7df0f66                           // pandn    xmm4, xmm7
-	LONG $0xf0da0f66                           // pminub    xmm6, xmm0
-	LONG $0xf0740f66                           // pcmpeqb    xmm6, xmm0
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xf7df0f66                           // pandn    xmm6, xmm7
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	QUAD $0x16024c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r8 + 22], 3
-	QUAD $0x16024c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rdx + rax + 22], 4
-	QUAD $0x16324c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rsi + 22], 5
-	QUAD $0x163a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r15 + 22], 6
-	QUAD $0x161a4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rdx + rbx + 22], 7
-	QUAD $0x161a4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r11 + 22], 8
-	QUAD $0x160a4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rdx + rcx + 22], 9
-	QUAD $0x16124c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r10 + 22], 10
-	QUAD $0x16324c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r14 + 22], 11
-	QUAD $0x16224c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r12 + 22], 12
-	QUAD $0x163a4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rdi + 22], 13
-	QUAD $0x160a4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r9 + 22], 14
-	QUAD $0x162a4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r13 + 22], 15
-	LONG $0xda0f4466; BYTE $0xc8               // pminub    xmm9, xmm0
-	LONG $0x740f4466; BYTE $0xc8               // pcmpeqb    xmm9, xmm0
-	QUAD $0x000000f0bd6f0f66                   // movdqa    xmm7, oword 240[rbp] /* [rip + .LCPI8_15] */
-	LONG $0xdf0f4466; BYTE $0xcf               // pandn    xmm9, xmm7
-	LONG $0xeb0f4466; BYTE $0xce               // por    xmm9, xmm6
-	QUAD $0x170244203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r8 + 23], 3
-	QUAD $0x170244203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rdx + rax + 23], 4
-	QUAD $0x173244203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rsi + 23], 5
-	QUAD $0x173a44203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r15 + 23], 6
-	QUAD $0x171a44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rdx + rbx + 23], 7
-	QUAD $0x171a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r11 + 23], 8
-	QUAD $0x170a44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rcx + 23], 9
-	QUAD $0x171244203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + r10 + 23], 10
-	QUAD $0x173244203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r14 + 23], 11
-	QUAD $0x172244203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r12 + 23], 12
-	QUAD $0x173a44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rdi + 23], 13
-	QUAD $0x170a44203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + r9 + 23], 14
-	QUAD $0x172a44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r13 + 23], 15
-	LONG $0xda0f4466; BYTE $0xc0               // pminub    xmm8, xmm0
-	LONG $0x740f4466; BYTE $0xc0               // pcmpeqb    xmm8, xmm0
-	LONG $0xef0f4466; BYTE $0xc5               // pxor    xmm8, xmm5
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
-	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
-	LONG $0xeb0f4566; BYTE $0xc1               // por    xmm8, xmm9
-	QUAD $0x18025c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r8 + 24], 3
-	QUAD $0x18025c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rax + 24], 4
-	QUAD $0x18325c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rsi + 24], 5
-	QUAD $0x183a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r15 + 24], 6
-	QUAD $0x181a5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rbx + 24], 7
-	QUAD $0x181a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r11 + 24], 8
-	QUAD $0x180a5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rcx + 24], 9
-	QUAD $0x18125c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r10 + 24], 10
-	QUAD $0x18325c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r14 + 24], 11
-	QUAD $0x18225c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r12 + 24], 12
-	QUAD $0x183a5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rdi + 24], 13
-	QUAD $0x180a5c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r9 + 24], 14
-	QUAD $0x19025c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r8 + 25], 3
-	QUAD $0x0419025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 25], 4
-	QUAD $0x0519325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 25], 5
-	QUAD $0x193a5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r15 + 25], 6
-	QUAD $0x07191a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 25], 7
-	QUAD $0x191a5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r11 + 25], 8
-	QUAD $0x09190a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 25], 9
-	QUAD $0x19125c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r10 + 25], 10
-	QUAD $0x19325c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r14 + 25], 11
-	QUAD $0x19225c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r12 + 25], 12
-	QUAD $0x0d193a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 25], 13
-	QUAD $0x190a5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r9 + 25], 14
-	QUAD $0x192a5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r13 + 25], 15
-	LONG $0xeb0f4566; BYTE $0xc7               // por    xmm8, xmm15
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xd8da0f66                           // pminub    xmm3, xmm0
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	QUAD $0x0000a08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 160[rbp] /* [rip + .LCPI8_10] */
-	LONG $0xdf0f4166; BYTE $0xc1               // pandn    xmm0, xmm9
-	LONG $0xc3fc0f66                           // paddb    xmm0, xmm3
-	QUAD $0x182a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r13 + 24], 15
-	LONG $0xda0f4466; BYTE $0xdc               // pminub    xmm11, xmm4
-	LONG $0x740f4466; BYTE $0xdc               // pcmpeqb    xmm11, xmm4
-	LONG $0xdf0f4566; BYTE $0xd9               // pandn    xmm11, xmm9
-	QUAD $0x1a0254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r8 + 26], 3
-	QUAD $0x041a0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 26], 4
-	QUAD $0x051a3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 26], 5
-	QUAD $0x1a3a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r15 + 26], 6
-	QUAD $0x071a1a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 26], 7
-	QUAD $0x1a1a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r11 + 26], 8
-	QUAD $0x091a0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 26], 9
-	QUAD $0x1a1254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r10 + 26], 10
-	QUAD $0x1a3254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r14 + 26], 11
-	QUAD $0x1a2254203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r12 + 26], 12
-	QUAD $0x0d1a3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 26], 13
-	QUAD $0x1a0a54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r9 + 26], 14
-	QUAD $0x1a2a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r13 + 26], 15
-	LONG $0xd4da0f66                           // pminub    xmm2, xmm4
-	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
-	QUAD $0x000000b095df0f66                   // pandn    xmm2, oword 176[rbp] /* [rip + .LCPI8_11] */
-	LONG $0xeb0f4166; BYTE $0xd3               // por    xmm2, xmm11
-	QUAD $0x1b0264203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r8 + 27], 3
-	QUAD $0x1b0264203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rax + 27], 4
-	QUAD $0x1b3264203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rsi + 27], 5
-	QUAD $0x1b3a64203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r15 + 27], 6
-	QUAD $0x1b1a64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rbx + 27], 7
-	QUAD $0x1b1a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r11 + 27], 8
-	QUAD $0x1b0a64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rcx + 27], 9
-	QUAD $0x1b1264203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r10 + 27], 10
-	QUAD $0x1b3264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r14 + 27], 11
-	QUAD $0x1b2264203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r12 + 27], 12
-	QUAD $0x1b3a64203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rdi + 27], 13
-	QUAD $0x1b0a64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r9 + 27], 14
-	QUAD $0x1b2a64203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r13 + 27], 15
-	LONG $0xda0f4466; BYTE $0xe4               // pminub    xmm12, xmm4
-	LONG $0x740f4466; BYTE $0xe4               // pcmpeqb    xmm12, xmm4
-	LONG $0xdc6f0f66                           // movdqa    xmm3, xmm4
-	QUAD $0x0000c0a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 192[rbp] /* [rip + .LCPI8_12] */
-	LONG $0xeb0f4466; BYTE $0xe2               // por    xmm12, xmm2
-	LONG $0xc5f80f66                           // psubb    xmm0, xmm5
-	LONG $0xeb0f4466; BYTE $0xe0               // por    xmm12, xmm0
-	QUAD $0x1c026c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r8 + 28], 3
-	QUAD $0x1d0254203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r8 + 29], 3
-	QUAD $0x1e0274203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r8 + 30], 3
-	QUAD $0x1f024c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r8 + 31], 3
-	QUAD $0x1c026c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rax + 28], 4
-	QUAD $0x1d0254203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rdx + rax + 29], 4
-	QUAD $0x1e0274203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rdx + rax + 30], 4
-	QUAD $0x041f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 4
-	QUAD $0x1c326c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rsi + 28], 5
-	QUAD $0x1d3254203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rsi + 29], 5
-	QUAD $0x1e3274203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rdx + rsi + 30], 5
-	QUAD $0x051f324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 31], 5
-	QUAD $0x1c3a6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r15 + 28], 6
-	QUAD $0x1d3a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r15 + 29], 6
-	QUAD $0x1e3a74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r15 + 30], 6
-	QUAD $0x1f3a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r15 + 31], 6
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x1c1a6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rdx + rbx + 28], 7
-	QUAD $0x1d1a54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rbx + 29], 7
-	QUAD $0x1e1a74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rdx + rbx + 30], 7
-	QUAD $0x071f1a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 31], 7
-	QUAD $0x1c1a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r11 + 28], 8
-	QUAD $0x1d1a54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r11 + 29], 8
-	QUAD $0x1e1a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r11 + 30], 8
-	QUAD $0x1f1a4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r11 + 31], 8
-	QUAD $0x1c0a6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rcx + 28], 9
-	QUAD $0x1d0a54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rcx + 29], 9
-	QUAD $0x1e0a74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rcx + 30], 9
-	QUAD $0x091f0a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 31], 9
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	QUAD $0x1c126c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + r10 + 28], 10
-	QUAD $0x1d1254203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r10 + 29], 10
-	QUAD $0x1e1274203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + r10 + 30], 10
-	QUAD $0x1f124c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r10 + 31], 10
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x1c026c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rax + 28], 11
-	QUAD $0x1d0254203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rax + 29], 11
-	QUAD $0x1e0274203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + rax + 30], 11
-	QUAD $0x0b1f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 11
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x1c226c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r12 + 28], 12
-	QUAD $0x1d2254203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r12 + 29], 12
-	QUAD $0x1e2274203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r12 + 30], 12
-	QUAD $0x1f224c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r12 + 31], 12
-	QUAD $0x1c3a6c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + rdi + 28], 13
-	QUAD $0x1d3a54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rdi + 29], 13
-	QUAD $0x1e3a74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rdi + 30], 13
-	QUAD $0x0d1f3a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 31], 13
-	QUAD $0x1c0a6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r9 + 28], 14
-	QUAD $0x1d0a54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r9 + 29], 14
-	QUAD $0x1e0a74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r9 + 30], 14
-	QUAD $0x1f0a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r9 + 31], 14
-	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
-	QUAD $0x1c2a6c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + r13 + 28], 15
-	QUAD $0x1d2a54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r13 + 29], 15
-	QUAD $0x1e2a74203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + r13 + 30], 15
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xda0f4466; BYTE $0xec               // pminub    xmm13, xmm4
-	LONG $0x740f4466; BYTE $0xec               // pcmpeqb    xmm13, xmm4
-	QUAD $0x0000d0addf0f4466; BYTE $0x00       // pandn    xmm13, oword 208[rbp] /* [rip + .LCPI8_13] */
-	LONG $0xda0f4466; BYTE $0xd4               // pminub    xmm10, xmm4
-	LONG $0x740f4466; BYTE $0xd4               // pcmpeqb    xmm10, xmm4
-	QUAD $0x0000e095df0f4466; BYTE $0x00       // pandn    xmm10, oword 224[rbp] /* [rip + .LCPI8_14] */
-	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
-	QUAD $0x1f2a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r13 + 31], 15
-	LONG $0xda0f4466; BYTE $0xf4               // pminub    xmm14, xmm4
-	LONG $0x740f4466; BYTE $0xf4               // pcmpeqb    xmm14, xmm4
-	LONG $0xdf0f4466; BYTE $0xf7               // pandn    xmm14, xmm7
-	LONG $0xeb0f4566; BYTE $0xf2               // por    xmm14, xmm10
-	LONG $0xccda0f66                           // pminub    xmm1, xmm4
-	LONG $0xcc740f66                           // pcmpeqb    xmm1, xmm4
-	LONG $0xcdef0f66                           // pxor    xmm1, xmm5
-	LONG $0xf1710f66; BYTE $0x07               // psllw    xmm1, 7
-	LONG $0xcedb0f66                           // pand    xmm1, xmm6
-	LONG $0xeb0f4166; BYTE $0xce               // por    xmm1, xmm14
-	LONG $0xeb0f4166; BYTE $0xcc               // por    xmm1, xmm12
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc1600f66                           // punpcklbw    xmm0, xmm1
-	QUAD $0x0000a024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 160]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	QUAD $0x0000b024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 176]
-	LONG $0xd5600f66                           // punpcklbw    xmm2, xmm5
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd8610f66                           // punpcklwd    xmm3, xmm0
-	LONG $0xd0690f66                           // punpckhwd    xmm2, xmm0
-	LONG $0x680f4466; BYTE $0xc1               // punpckhbw    xmm8, xmm1
-	LONG $0xe5680f66                           // punpckhbw    xmm4, xmm5
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8e54; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm2
-	LONG $0x7f0f41f3; WORD $0x8e1c             // movdqu    oword [r14 + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
-	JNE  LBB8_195
-	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
-	QUAD $0x000000e824bc3b4c                   // cmp    r15, qword [rsp + 232]
-	LONG $0x241c8a44                           // mov    r11b, byte [rsp]
-	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	JNE  LBB8_67
-	JMP  LBB8_132
-
-LBB8_197:
-	LONG $0xf8e78349                     // and    r15, -8
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x06e0c148                     // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	LONG $0x24448948; BYTE $0x28         // mov    qword [rsp + 40], rax
-	LONG $0x247c894c; BYTE $0x20         // mov    qword [rsp + 32], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24048948                     // mov    qword [rsp], rax
-	LONG $0x246c8944; BYTE $0x30         // mov    dword [rsp + 48], r13d
-	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0x700f4466; WORD $0x00f8       // pshufd    xmm15, xmm0, 0
-	WORD $0x3145; BYTE $0xc9             // xor    r9d, r9d
-	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
-	QUAD $0x000080856f0f4466; BYTE $0x00 // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI8_8] */
-
-LBB8_198:
-	LONG $0x244c894c; BYTE $0x10               // mov    qword [rsp + 16], r9
-	LONG $0x06e1c149                           // shl    r9, 6
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
-	LONG $0x04b70f42; BYTE $0x0a               // movzx    eax, word [rdx + r9]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x020a             // movzx    eax, word [rdx + r9 + 2]
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x44b70f42; WORD $0x040a             // movzx    eax, word [rdx + r9 + 4]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x060a             // movzx    eax, word [rdx + r9 + 6]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x54b70f46; WORD $0x080a             // movzx    r10d, word [rdx + r9 + 8]
-	LONG $0x74b70f42; WORD $0x0a0a             // movzx    esi, word [rdx + r9 + 10]
-	LONG $0x5cb70f46; WORD $0x0c0a             // movzx    r11d, word [rdx + r9 + 12]
-	LONG $0x44b70f42; WORD $0x0e0a             // movzx    eax, word [rdx + r9 + 14]
-	LONG $0x08244489                           // mov    dword [rsp + 8], eax
-	LONG $0x44b70f42; WORD $0x100a             // movzx    eax, word [rdx + r9 + 16]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	LONG $0x44b70f42; WORD $0x200a             // movzx    eax, word [rdx + r9 + 32]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x300a             // movzx    eax, word [rdx + r9 + 48]
-	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
-	LONG $0x40cf8349                           // or    r15, 64
-	LONG $0x80c88149; WORD $0x0000; BYTE $0x00 // or    r8, 128
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
-	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
-	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
-	LONG $0xc40f4266; WORD $0x3a2c; BYTE $0x01 // pinsrw    xmm5, word [rdx + r15], 1
-	LONG $0xc40f4266; WORD $0x022c; BYTE $0x02 // pinsrw    xmm5, word [rdx + r8], 2
-	LONG $0xc40f4266; WORD $0x222c; BYTE $0x03 // pinsrw    xmm5, word [rdx + r12], 3
-	LONG $0xc40f4266; WORD $0x2a2c; BYTE $0x04 // pinsrw    xmm5, word [rdx + r13], 4
-	LONG $0x2cc40f66; WORD $0x050a             // pinsrw    xmm5, word [rdx + rcx], 5
-	LONG $0x2cc40f66; WORD $0x063a             // pinsrw    xmm5, word [rdx + rdi], 6
-	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
-	LONG $0x2cc40f66; WORD $0x071a             // pinsrw    xmm5, word [rdx + rbx], 7
-	LONG $0x6e0f4466; BYTE $0xc8               // movd    xmm9, eax
-	LONG $0x44b70f42; WORD $0x120a             // movzx    eax, word [rdx + r9 + 18]
-	LONG $0x18244489                           // mov    dword [rsp + 24], eax
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
-	QUAD $0x01023a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 2], 1
-	QUAD $0x0202025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 2], 2
-	QUAD $0x0302225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 2], 3
-	QUAD $0x04022a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 2], 4
-	LONG $0x5cc40f66; WORD $0x020a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 2], 5
-	LONG $0x5cc40f66; WORD $0x023a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 2], 6
-	LONG $0x5cc40f66; WORD $0x021a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 2], 7
-	QUAD $0x01103a74c40f4266                   // pinsrw    xmm6, word [rdx + r15 + 16], 1
-	QUAD $0x02100274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 16], 2
-	QUAD $0x03102274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 16], 3
-	QUAD $0x04102a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 16], 4
-	LONG $0x74c40f66; WORD $0x100a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 16], 5
-	LONG $0x74c40f66; WORD $0x103a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 16], 6
-	LONG $0x74c40f66; WORD $0x101a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 16], 7
-	LONG $0x6f0f4566; BYTE $0xd7               // movdqa    xmm10, xmm15
-	QUAD $0x01203a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 32], 1
-	QUAD $0x0220024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 32], 2
-	QUAD $0x0320224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 32], 3
-	QUAD $0x04202a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 32], 4
-	LONG $0x4cc40f66; WORD $0x200a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 32], 5
-	LONG $0x4cc40f66; WORD $0x203a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 32], 6
-	LONG $0x4cc40f66; WORD $0x201a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 32], 7
-	LONG $0x650f4466; BYTE $0xd6               // pcmpgtw    xmm10, xmm6
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xf1650f66                           // pcmpgtw    xmm6, xmm1
-	QUAD $0x01303a4cc40f4666                   // pinsrw    xmm9, word [rdx + r15 + 48], 1
-	QUAD $0x0230024cc40f4666                   // pinsrw    xmm9, word [rdx + r8 + 48], 2
-	QUAD $0x0330224cc40f4666                   // pinsrw    xmm9, word [rdx + r12 + 48], 3
-	QUAD $0x04302a4cc40f4666                   // pinsrw    xmm9, word [rdx + r13 + 48], 4
-	QUAD $0x05300a4cc40f4466                   // pinsrw    xmm9, word [rdx + rcx + 48], 5
-	QUAD $0x06303a4cc40f4466                   // pinsrw    xmm9, word [rdx + rdi + 48], 6
-	QUAD $0x07301a4cc40f4466                   // pinsrw    xmm9, word [rdx + rbx + 48], 7
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	LONG $0x650f4166; BYTE $0xe9               // pcmpgtw    xmm5, xmm9
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0xcb650f66                           // pcmpgtw    xmm1, xmm3
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd96f0f66                           // movdqa    xmm3, xmm1
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0x6e0f4166; BYTE $0xca               // movd    xmm1, r10d
-	LONG $0x74b70f46; WORD $0x140a             // movzx    r14d, word [rdx + r9 + 20]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x01043a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 4], 1
-	QUAD $0x02040254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 4], 2
-	QUAD $0x03042254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 4], 3
-	QUAD $0x04042a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 4], 4
-	LONG $0x54c40f66; WORD $0x040a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 4], 5
-	LONG $0x54c40f66; WORD $0x043a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 4], 6
-	LONG $0x54c40f66; WORD $0x041a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 4], 7
-	QUAD $0x01063a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 6], 1
-	QUAD $0x02060264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 6], 2
-	QUAD $0x03062264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 6], 3
-	QUAD $0x04062a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 6], 4
-	LONG $0x64c40f66; WORD $0x060a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 6], 5
-	LONG $0x64c40f66; WORD $0x063a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 6], 6
-	LONG $0x64c40f66; WORD $0x061a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 6], 7
-	QUAD $0x01083a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 8], 1
-	QUAD $0x0208024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 8], 2
-	QUAD $0x0308224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 8], 3
-	QUAD $0x04082a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 8], 4
-	LONG $0x4cc40f66; WORD $0x080a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 8], 5
-	LONG $0x4cc40f66; WORD $0x083a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 8], 6
-	LONG $0xdb0f4166; BYTE $0xc0               // pand    xmm0, xmm8
-	LONG $0xd8eb0f66                           // por    xmm3, xmm0
-	LONG $0x6f0f4166; BYTE $0xff               // movdqa    xmm7, xmm15
-	LONG $0xfa650f66                           // pcmpgtw    xmm7, xmm2
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x74b70f42; WORD $0x160a             // movzx    esi, word [rdx + r9 + 22]
-	LONG $0x4cc40f66; WORD $0x081a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 8], 7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xf8               // pand    xmm7, xmm8
-	LONG $0xf7710f66; BYTE $0x02               // psllw    xmm7, 2
-	LONG $0x6f0f4466; WORD $0x105d             // movdqa    xmm11, oword 16[rbp] /* [rip + .LCPI8_1] */
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfbeb0f66                           // por    xmm7, xmm3
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0xdc650f66                           // pcmpgtw    xmm3, xmm4
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0xc1650f66                           // pcmpgtw    xmm0, xmm1
-	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
-	LONG $0x5cb70f46; WORD $0x180a             // movzx    r11d, word [rdx + r9 + 24]
-	QUAD $0x010a3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 10], 1
-	QUAD $0x020a0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 10], 2
-	QUAD $0x030a2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 10], 3
-	QUAD $0x040a2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 10], 4
-	LONG $0x54c40f66; WORD $0x0a0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 10], 5
-	LONG $0x54c40f66; WORD $0x0a3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 10], 6
-	LONG $0x54c40f66; WORD $0x0a1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 10], 7
-	QUAD $0x010c3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 12], 1
-	QUAD $0x020c024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 12], 2
-	QUAD $0x030c224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 12], 3
-	QUAD $0x040c2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 12], 4
-	LONG $0x4cc40f66; WORD $0x0c0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 12], 5
-	LONG $0x4cc40f66; WORD $0x0c3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 12], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
-	LONG $0x6f0f4466; WORD $0x2065             // movdqa    xmm12, oword 32[rbp] /* [rip + .LCPI8_2] */
-	LONG $0xdb0f4166; BYTE $0xdc               // pand    xmm3, xmm12
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc0               // pand    xmm0, xmm8
-	LONG $0xf0710f66; BYTE $0x04               // psllw    xmm0, 4
-	LONG $0x6f0f4466; WORD $0x306d             // movdqa    xmm13, oword 48[rbp] /* [rip + .LCPI8_3] */
-	LONG $0xdb0f4166; BYTE $0xc5               // pand    xmm0, xmm13
-	LONG $0xc3eb0f66                           // por    xmm0, xmm3
-	LONG $0x5c6e0f66; WORD $0x0824             // movd    xmm3, dword [rsp + 8]
-	LONG $0x44b70f42; WORD $0x1a0a             // movzx    eax, word [rdx + r9 + 26]
-	LONG $0x4cc40f66; WORD $0x0c1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 12], 7
-	LONG $0xc7eb0f66                           // por    xmm0, xmm7
-	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
-	LONG $0xe2650f66                           // pcmpgtw    xmm4, xmm2
-	LONG $0x6f0f4166; BYTE $0xff               // movdqa    xmm7, xmm15
-	LONG $0xf9650f66                           // pcmpgtw    xmm7, xmm1
-	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x1c0a             // movzx    r10d, word [rdx + r9 + 28]
-	QUAD $0x010e3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 14], 1
-	QUAD $0x020e025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 14], 2
-	QUAD $0x030e225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 14], 3
-	QUAD $0x040e2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 14], 4
-	LONG $0x5cc40f66; WORD $0x0e0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 14], 5
-	LONG $0x5cc40f66; WORD $0x0e3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 14], 6
-	LONG $0x5cc40f66; WORD $0x0e1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 14], 7
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xf4710f66; BYTE $0x05               // psllw    xmm4, 5
-	LONG $0x6f0f4466; WORD $0x4075             // movdqa    xmm14, oword 64[rbp] /* [rip + .LCPI8_4] */
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xf8               // pand    xmm7, xmm8
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0x6f0f4466; WORD $0x505d             // movdqa    xmm11, oword 80[rbp] /* [rip + .LCPI8_5] */
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	LONG $0x6f0f4566; BYTE $0xcf               // movdqa    xmm9, xmm15
-	LONG $0x650f4466; BYTE $0xcb               // pcmpgtw    xmm9, xmm3
-	LONG $0x6e0f4166; BYTE $0xde               // movd    xmm3, r14d
-	LONG $0x74b70f46; WORD $0x1e0a             // movzx    r14d, word [rdx + r9 + 30]
-	LONG $0x630f4566; BYTE $0xc9               // packsswb    xmm9, xmm9
-	LONG $0x710f4166; WORD $0x07f1             // psllw    xmm9, 7
-	LONG $0x556f0f66; BYTE $0x60               // movdqa    xmm2, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb0f4466; BYTE $0xca               // pand    xmm9, xmm2
-	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x74b70f42; WORD $0x220a             // movzx    esi, word [rdx + r9 + 34]
-	LONG $0x18247489                           // mov    dword [rsp + 24], esi
-	QUAD $0x01123a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 18], 1
-	QUAD $0x0212024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 18], 2
-	QUAD $0x0312224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 18], 3
-	QUAD $0x04122a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 18], 4
-	LONG $0x4cc40f66; WORD $0x120a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 18], 5
-	LONG $0x4cc40f66; WORD $0x123a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 18], 6
-	LONG $0x4cc40f66; WORD $0x121a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 18], 7
-	LONG $0xeb0f4466; BYTE $0xc8               // por    xmm9, xmm0
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0xc1650f66                           // pcmpgtw    xmm0, xmm1
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
-	LONG $0x74b70f42; WORD $0x240a             // movzx    esi, word [rdx + r9 + 36]
-	LONG $0x08247489                           // mov    dword [rsp + 8], esi
-	LONG $0x630f4566; BYTE $0xd2               // packsswb    xmm10, xmm10
-	QUAD $0x01143a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 20], 1
-	QUAD $0x0214025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 20], 2
-	QUAD $0x0314225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 20], 3
-	QUAD $0x04142a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 20], 4
-	LONG $0x5cc40f66; WORD $0x140a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 20], 5
-	LONG $0x5cc40f66; WORD $0x143a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 20], 6
-	LONG $0x5cc40f66; WORD $0x141a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 20], 7
-	QUAD $0x01163a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 22], 1
-	QUAD $0x02160264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 22], 2
-	QUAD $0x03162264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 22], 3
-	QUAD $0x04162a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 22], 4
-	LONG $0x64c40f66; WORD $0x160a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 22], 5
-	LONG $0x64c40f66; WORD $0x163a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 22], 6
-	LONG $0x64c40f66; WORD $0x161a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 22], 7
-	QUAD $0x01183a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 24], 1
-	QUAD $0x0218027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 24], 2
-	QUAD $0x0318227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 24], 3
-	QUAD $0x04182a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 24], 4
-	LONG $0x7cc40f66; WORD $0x180a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 24], 5
-	LONG $0x7cc40f66; WORD $0x183a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 24], 6
-	LONG $0x7cc40f66; WORD $0x181a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 24], 7
-	LONG $0xdb0f4566; BYTE $0xd0               // pand    xmm10, xmm8
-	LONG $0xeb0f4166; BYTE $0xca               // por    xmm1, xmm10
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xd3650f66                           // pcmpgtw    xmm2, xmm3
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0x5cb70f46; WORD $0x260a             // movzx    r11d, word [rdx + r9 + 38]
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
-	LONG $0x6f0f4466; WORD $0x106d             // movdqa    xmm13, oword 16[rbp] /* [rip + .LCPI8_1] */
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0xc7650f66                           // pcmpgtw    xmm0, xmm7
-	LONG $0x6e0f4166; BYTE $0xe2               // movd    xmm4, r10d
-	LONG $0x54b70f46; WORD $0x280a             // movzx    r10d, word [rdx + r9 + 40]
-	QUAD $0x011a3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 26], 1
-	QUAD $0x021a025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 26], 2
-	QUAD $0x031a225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 26], 3
-	QUAD $0x041a2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 26], 4
-	LONG $0x5cc40f66; WORD $0x1a0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 26], 5
-	LONG $0x5cc40f66; WORD $0x1a3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 26], 6
-	LONG $0x5cc40f66; WORD $0x1a1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 26], 7
-	QUAD $0x011c3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 28], 1
-	QUAD $0x021c0264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 28], 2
-	QUAD $0x031c2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 28], 3
-	QUAD $0x041c2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 28], 4
-	LONG $0x64c40f66; WORD $0x1c0a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 28], 5
-	LONG $0x64c40f66; WORD $0x1c3a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 28], 6
-	LONG $0x64c40f66; WORD $0x1c1a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 28], 7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0xf1710f66; BYTE $0x03               // psllw    xmm1, 3
-	LONG $0x6f0f4566; BYTE $0xdc               // movdqa    xmm11, xmm12
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc0               // pand    xmm0, xmm8
-	LONG $0xf0710f66; BYTE $0x04               // psllw    xmm0, 4
-	LONG $0x6f0f4466; WORD $0x3065             // movdqa    xmm12, oword 48[rbp] /* [rip + .LCPI8_3] */
-	LONG $0xdb0f4166; BYTE $0xc4               // pand    xmm0, xmm12
-	LONG $0xc1eb0f66                           // por    xmm0, xmm1
-	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
-	LONG $0x44b70f42; WORD $0x2a0a             // movzx    eax, word [rdx + r9 + 42]
-	LONG $0xc2eb0f66                           // por    xmm0, xmm2
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xd3650f66                           // pcmpgtw    xmm2, xmm3
-	LONG $0x6f0f4166; BYTE $0xff               // movdqa    xmm7, xmm15
-	LONG $0xfc650f66                           // pcmpgtw    xmm7, xmm4
-	LONG $0x646e0f66; WORD $0x1824             // movd    xmm4, dword [rsp + 24]
-	LONG $0x74b70f46; WORD $0x2c0a             // movzx    r14d, word [rdx + r9 + 44]
-	QUAD $0x011e3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 30], 1
-	QUAD $0x021e024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 30], 2
-	QUAD $0x031e224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 30], 3
-	QUAD $0x041e2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 30], 4
-	LONG $0x4cc40f66; WORD $0x1e0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 30], 5
-	LONG $0x4cc40f66; WORD $0x1e3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 30], 6
-	LONG $0x4cc40f66; WORD $0x1e1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 30], 7
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0xf2710f66; BYTE $0x05               // psllw    xmm2, 5
-	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xf8               // pand    xmm7, xmm8
-	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
-	LONG $0x5d6f0f66; BYTE $0x50               // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI8_5] */
-	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	LONG $0x6f0f4566; BYTE $0xd7               // movdqa    xmm10, xmm15
-	LONG $0x650f4466; BYTE $0xd1               // pcmpgtw    xmm10, xmm1
-	LONG $0x4c6e0f66; WORD $0x0824             // movd    xmm1, dword [rsp + 8]
-	LONG $0x74b70f42; WORD $0x2e0a             // movzx    esi, word [rdx + r9 + 46]
-	LONG $0x18247489                           // mov    dword [rsp + 24], esi
-	LONG $0x630f4566; BYTE $0xd2               // packsswb    xmm10, xmm10
-	LONG $0x710f4166; WORD $0x07f2             // psllw    xmm10, 7
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0xdb0f4566; BYTE $0xd6               // pand    xmm10, xmm14
-	LONG $0xeb0f4466; BYTE $0xd7               // por    xmm10, xmm7
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x5cb70f46; WORD $0x320a             // movzx    r11d, word [rdx + r9 + 50]
-	QUAD $0x01223a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 34], 1
-	QUAD $0x02220264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 34], 2
-	QUAD $0x03222264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 34], 3
-	QUAD $0x04222a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 34], 4
-	LONG $0x64c40f66; WORD $0x220a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 34], 5
-	LONG $0x64c40f66; WORD $0x223a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 34], 6
-	LONG $0x64c40f66; WORD $0x221a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 34], 7
-	LONG $0xeb0f4466; BYTE $0xd0               // por    xmm10, xmm0
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0xc4650f66                           // pcmpgtw    xmm0, xmm4
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xe0f80f66                           // psubb    xmm4, xmm0
-	LONG $0x6e0f4166; BYTE $0xc2               // movd    xmm0, r10d
-	LONG $0x74b70f42; WORD $0x340a             // movzx    esi, word [rdx + r9 + 52]
-	LONG $0x08247489                           // mov    dword [rsp + 8], esi
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	QUAD $0x01243a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 36], 1
-	QUAD $0x0224024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 36], 2
-	QUAD $0x0324224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 36], 3
-	QUAD $0x04242a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 36], 4
-	LONG $0x4cc40f66; WORD $0x240a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 36], 5
-	LONG $0x4cc40f66; WORD $0x243a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 36], 6
-	LONG $0x4cc40f66; WORD $0x241a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 36], 7
-	QUAD $0x01263a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 38], 1
-	QUAD $0x02260254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 38], 2
-	QUAD $0x03262254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 38], 3
-	QUAD $0x04262a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 38], 4
-	LONG $0x54c40f66; WORD $0x260a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 38], 5
-	LONG $0x54c40f66; WORD $0x263a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 38], 6
-	LONG $0x54c40f66; WORD $0x261a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 38], 7
-	QUAD $0x01283a44c40f4266                   // pinsrw    xmm0, word [rdx + r15 + 40], 1
-	QUAD $0x02280244c40f4266                   // pinsrw    xmm0, word [rdx + r8 + 40], 2
-	QUAD $0x03282244c40f4266                   // pinsrw    xmm0, word [rdx + r12 + 40], 3
-	QUAD $0x04282a44c40f4266                   // pinsrw    xmm0, word [rdx + r13 + 40], 4
-	LONG $0x44c40f66; WORD $0x280a; BYTE $0x05 // pinsrw    xmm0, word [rdx + rcx + 40], 5
-	LONG $0x44c40f66; WORD $0x283a; BYTE $0x06 // pinsrw    xmm0, word [rdx + rdi + 40], 6
-	LONG $0xdb0f4166; BYTE $0xf0               // pand    xmm6, xmm8
-	LONG $0xe6eb0f66                           // por    xmm4, xmm6
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xf1650f66                           // pcmpgtw    xmm6, xmm1
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x54b70f46; WORD $0x360a             // movzx    r10d, word [rdx + r9 + 54]
-	LONG $0x44c40f66; WORD $0x281a; BYTE $0x07 // pinsrw    xmm0, word [rdx + rbx + 40], 7
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf0               // pand    xmm6, xmm8
-	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
-	LONG $0xdb0f4166; BYTE $0xf5               // pand    xmm6, xmm13
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
-	LONG $0xe2650f66                           // pcmpgtw    xmm4, xmm2
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
-	LONG $0x6e0f4166; BYTE $0xc6               // movd    xmm0, r14d
-	LONG $0x44b70f42; WORD $0x380a             // movzx    eax, word [rdx + r9 + 56]
-	QUAD $0x012a3a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 42], 1
-	QUAD $0x022a027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 42], 2
-	QUAD $0x032a227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 42], 3
-	QUAD $0x042a2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 42], 4
-	LONG $0x7cc40f66; WORD $0x2a0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 42], 5
-	LONG $0x7cc40f66; WORD $0x2a3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 42], 6
-	LONG $0x7cc40f66; WORD $0x2a1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 42], 7
-	QUAD $0x012c3a44c40f4266                   // pinsrw    xmm0, word [rdx + r15 + 44], 1
-	QUAD $0x022c0244c40f4266                   // pinsrw    xmm0, word [rdx + r8 + 44], 2
-	QUAD $0x032c2244c40f4266                   // pinsrw    xmm0, word [rdx + r12 + 44], 3
-	QUAD $0x042c2a44c40f4266                   // pinsrw    xmm0, word [rdx + r13 + 44], 4
-	LONG $0x44c40f66; WORD $0x2c0a; BYTE $0x05 // pinsrw    xmm0, word [rdx + rcx + 44], 5
-	LONG $0x44c40f66; WORD $0x2c3a; BYTE $0x06 // pinsrw    xmm0, word [rdx + rdi + 44], 6
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe3               // pand    xmm4, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0xf1710f66; BYTE $0x04               // psllw    xmm1, 4
-	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
-	LONG $0x6f0f4566; BYTE $0xec               // movdqa    xmm13, xmm12
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x546e0f66; WORD $0x1824             // movd    xmm2, dword [rsp + 24]
-	LONG $0x74b70f42; WORD $0x3a0a             // movzx    esi, word [rdx + r9 + 58]
-	LONG $0x44c40f66; WORD $0x2c1a; BYTE $0x07 // pinsrw    xmm0, word [rdx + rbx + 44], 7
-	LONG $0xceeb0f66                           // por    xmm1, xmm6
-	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
-	LONG $0xe7650f66                           // pcmpgtw    xmm4, xmm7
-	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
-	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
-	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
-	LONG $0x5cb70f46; WORD $0x3c0a             // movzx    r11d, word [rdx + r9 + 60]
-	QUAD $0x012e3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 46], 1
-	QUAD $0x022e0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 46], 2
-	QUAD $0x032e2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 46], 3
-	QUAD $0x042e2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 46], 4
-	LONG $0x54c40f66; WORD $0x2e0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 46], 5
-	LONG $0x54c40f66; WORD $0x2e3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 46], 6
-	LONG $0x4cb70f46; WORD $0x3e0a             // movzx    r9d, word [rdx + r9 + 62]
-	LONG $0x54c40f66; WORD $0x2e1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 46], 7
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xf4710f66; BYTE $0x05               // psllw    xmm4, 5
-	LONG $0x65db0f66; BYTE $0x40               // pand    xmm4, oword 64[rbp] /* [rip + .LCPI8_4] */
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf0               // pand    xmm6, xmm8
-	LONG $0xf6710f66; BYTE $0x06               // psllw    xmm6, 6
-	LONG $0xf3db0f66                           // pand    xmm6, xmm3
-	LONG $0x6f0f4466; BYTE $0xe3               // movdqa    xmm12, xmm3
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
-	LONG $0x546e0f66; WORD $0x0824             // movd    xmm2, dword [rsp + 8]
-	QUAD $0x01323a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 50], 1
-	QUAD $0x0232027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 50], 2
-	QUAD $0x0332227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 50], 3
-	QUAD $0x04322a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 50], 4
-	LONG $0x7cc40f66; WORD $0x320a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 50], 5
-	LONG $0x7cc40f66; WORD $0x323a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 50], 6
-	LONG $0x7cc40f66; WORD $0x321a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 50], 7
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
-	LONG $0xdb0f4166; BYTE $0xc6               // pand    xmm0, xmm14
-	LONG $0xc6eb0f66                           // por    xmm0, xmm6
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0xc1eb0f66                           // por    xmm0, xmm1
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0xcf650f66                           // pcmpgtw    xmm1, xmm7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xdb0f4166; BYTE $0xf8               // pand    xmm7, xmm8
-	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
-	LONG $0xd86e0f66                           // movd    xmm3, eax
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	QUAD $0x01343a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 52], 1
-	QUAD $0x02340254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 52], 2
-	QUAD $0x03342254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 52], 3
-	QUAD $0x04342a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 52], 4
-	LONG $0x54c40f66; WORD $0x340a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 52], 5
-	LONG $0x54c40f66; WORD $0x343a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 52], 6
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0x54c40f66; WORD $0x341a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 52], 7
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	LONG $0xea650f66                           // pcmpgtw    xmm5, xmm2
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	QUAD $0x01363a74c40f4266                   // pinsrw    xmm6, word [rdx + r15 + 54], 1
-	QUAD $0x02360274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 54], 2
-	QUAD $0x03362274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 54], 3
-	QUAD $0x04362a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 54], 4
-	LONG $0x74c40f66; WORD $0x360a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 54], 5
-	LONG $0x74c40f66; WORD $0x363a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 54], 6
-	LONG $0x74c40f66; WORD $0x361a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 54], 7
-	QUAD $0x01383a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 56], 1
-	QUAD $0x0238025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 56], 2
-	QUAD $0x0338225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 56], 3
-	QUAD $0x04382a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 56], 4
-	LONG $0x5cc40f66; WORD $0x380a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 56], 5
-	LONG $0x5cc40f66; WORD $0x383a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 56], 6
-	LONG $0x5cc40f66; WORD $0x381a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 56], 7
-	QUAD $0x013a3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 58], 1
-	QUAD $0x023a0264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 58], 2
-	QUAD $0x033a2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 58], 3
-	QUAD $0x043a2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 58], 4
-	LONG $0x64c40f66; WORD $0x3a0a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 58], 5
-	LONG $0x64c40f66; WORD $0x3a3a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 58], 6
-	LONG $0x64c40f66; WORD $0x3a1a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 58], 7
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0x6ddb0f66; BYTE $0x10               // pand    xmm5, oword 16[rbp] /* [rip + .LCPI8_1] */
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
-	LONG $0xd6650f66                           // pcmpgtw    xmm2, xmm6
-	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
-	LONG $0xcb650f66                           // pcmpgtw    xmm1, xmm3
-	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
-	QUAD $0x013c3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 60], 1
-	QUAD $0x023c025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 60], 2
-	QUAD $0x033c225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 60], 3
-	QUAD $0x043c2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 60], 4
-	LONG $0x5cc40f66; WORD $0x3c0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 60], 5
-	LONG $0x5cc40f66; WORD $0x3c3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 60], 6
-	LONG $0x5cc40f66; WORD $0x3c1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 60], 7
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd3               // pand    xmm2, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
-	LONG $0xf1710f66; BYTE $0x04               // psllw    xmm1, 4
-	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0x6e0f4166; BYTE $0xd1               // movd    xmm2, r9d
-	QUAD $0x013e3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 62], 1
-	QUAD $0x023e0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 62], 2
-	QUAD $0x033e2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 62], 3
-	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
-	QUAD $0x043e2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 62], 4
-	LONG $0x54c40f66; WORD $0x3e0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 62], 5
-	LONG $0x54c40f66; WORD $0x3e3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 62], 6
-	LONG $0x54c40f66; WORD $0x3e1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 62], 7
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	LONG $0xec650f66                           // pcmpgtw    xmm5, xmm4
-	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
-	LONG $0xe3650f66                           // pcmpgtw    xmm4, xmm3
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xf5710f66; BYTE $0x05               // psllw    xmm5, 5
-	LONG $0x6ddb0f66; BYTE $0x40               // pand    xmm5, oword 64[rbp] /* [rip + .LCPI8_4] */
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
-	LONG $0xf4710f66; BYTE $0x06               // psllw    xmm4, 6
-	LONG $0xdb0f4166; BYTE $0xe4               // pand    xmm4, xmm12
-	LONG $0xe5eb0f66                           // por    xmm4, xmm5
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0xda650f66                           // pcmpgtw    xmm3, xmm2
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	LONG $0xd9eb0f66                           // por    xmm3, xmm1
-	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
-	LONG $0x6c0f4166; BYTE $0xca               // punpcklqdq    xmm1, xmm10
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
-	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI8_9] */
-	LONG $0x00380f66; BYTE $0xd4               // pshufb    xmm2, xmm4
-	LONG $0x00380f66; BYTE $0xcc               // pshufb    xmm1, xmm4
-	LONG $0xca610f66                           // punpcklwd    xmm1, xmm2
-	LONG $0xc3600f66                           // punpcklbw    xmm0, xmm3
-	LONG $0x600f4566; BYTE $0xca               // punpcklbw    xmm9, xmm10
-	LONG $0x610f4466; BYTE $0xc8               // punpcklwd    xmm9, xmm0
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	LONG $0x7f0f45f3; WORD $0x8e0c             // movdqu    oword [r14 + 4*rcx], xmm9
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	LONG $0x244c3b48; BYTE $0x20               // cmp    rcx, qword [rsp + 32]
-	JNE  LBB8_198
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	LONG $0x247c3b4c; BYTE $0x20               // cmp    r15, qword [rsp + 32]
-	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
-	LONG $0x246c8b44; BYTE $0x30               // mov    r13d, dword [rsp + 48]
-	LONG $0x24248b4c                           // mov    r12, qword [rsp]
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	JNE  LBB8_101
-	JMP  LBB8_136
-
-LBB8_200:
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xd3                   // add    rbx, rdx
-	LONG $0x863c8d4f                           // lea    r15, [r14 + 4*r8]
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
-	LONG $0xfcc28148; WORD $0x0001; BYTE $0x00 // add    rdx, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI8_0] */
-	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI8_1] */
-	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI8_2] */
-	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI8_3] */
-	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI8_4] */
-	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI8_5] */
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI8_6] */
-	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI8_7] */
-
-LBB8_201:
-	QUAD $0xfffffe04b2100ff3                   // movss    xmm6, dword [rdx - 508]
-	QUAD $0xfffffe08ba100ff3                   // movss    xmm7, dword [rdx - 504]
-	QUAD $0xfffffe0caa100ff3                   // movss    xmm5, dword [rdx - 500]
-	QUAD $0xfffffe10a2100ff3                   // movss    xmm4, dword [rdx - 496]
-	QUAD $0xfffe84b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 380], 16
-	QUAD $0xffff04b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 252], 32
-	LONG $0x213a0f66; WORD $0x8472; BYTE $0x30 // insertps    xmm6, dword [rdx - 124], 48
-	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	QUAD $0xfffe88ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 376], 16
-	QUAD $0xffff08ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 248], 32
-	LONG $0x213a0f66; WORD $0x887a; BYTE $0x30 // insertps    xmm7, dword [rdx - 120], 48
-	QUAD $0xfffe8caa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 372], 16
-	QUAD $0xffff0caa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 244], 32
-	LONG $0x213a0f66; WORD $0x8c6a; BYTE $0x30 // insertps    xmm5, dword [rdx - 116], 48
-	QUAD $0xfffe90a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 368], 16
-	QUAD $0xffff10a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 240], 32
-	LONG $0x213a0f66; WORD $0x9062; BYTE $0x30 // insertps    xmm4, dword [rdx - 112], 48
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
-	QUAD $0xfffffe14ba100ff3                   // movss    xmm7, dword [rdx - 492]
-	QUAD $0xfffe94ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 364], 16
-	QUAD $0xffff14ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 236], 32
-	LONG $0x213a0f66; WORD $0x947a; BYTE $0x30 // insertps    xmm7, dword [rdx - 108], 48
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe18b2100ff3                   // movss    xmm6, dword [rdx - 488]
-	QUAD $0xfffe98b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 360], 16
-	QUAD $0xffff18b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 232], 32
-	LONG $0x213a0f66; WORD $0x9872; BYTE $0x30 // insertps    xmm6, dword [rdx - 104], 48
-	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe1c9a100ff3                   // movss    xmm3, dword [rdx - 484]
-	QUAD $0xfffe9c9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 356], 16
-	QUAD $0xffff1c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 228], 32
-	LONG $0x213a0f66; WORD $0x9c5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 100], 48
-	LONG $0x01e1c20f                           // cmpltps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	QUAD $0xfffffe20a2100ff3                   // movss    xmm4, dword [rdx - 480]
-	QUAD $0xfffea0a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 352], 16
-	QUAD $0xffff20a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 224], 32
-	LONG $0x213a0f66; WORD $0xa062; BYTE $0x30 // insertps    xmm4, dword [rdx - 96], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe24aa100ff3                   // movss    xmm5, dword [rdx - 476]
-	QUAD $0xfffea4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 348], 16
-	QUAD $0xffff24aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 220], 32
-	LONG $0x213a0f66; WORD $0xa46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 92], 48
-	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe2892100ff3                   // movss    xmm2, dword [rdx - 472]
-	QUAD $0xfffea892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 344], 16
-	QUAD $0xffff2892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 216], 32
-	LONG $0x213a0f66; WORD $0xa852; BYTE $0x30 // insertps    xmm2, dword [rdx - 88], 48
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x01e1c20f                           // cmpltps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	QUAD $0xfffffe2c9a100ff3                   // movss    xmm3, dword [rdx - 468]
-	QUAD $0xfffeac9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 340], 16
-	QUAD $0xffff2c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 212], 32
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0x213a0f66; WORD $0xac5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 84], 48
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe30ba100ff3                   // movss    xmm7, dword [rdx - 464]
-	QUAD $0xfffeb0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 336], 16
-	QUAD $0xffff30ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 208], 32
-	LONG $0x213a0f66; WORD $0xb07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 80], 48
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe34aa100ff3                   // movss    xmm5, dword [rdx - 460]
-	QUAD $0xfffeb4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 332], 16
-	QUAD $0xffff34aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 204], 32
-	LONG $0x213a0f66; WORD $0xb46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 76], 48
-	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe38b2100ff3                   // movss    xmm6, dword [rdx - 456]
-	QUAD $0xfffeb8b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 328], 16
-	QUAD $0xffff38b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 200], 32
-	LONG $0x213a0f66; WORD $0xb872; BYTE $0x30 // insertps    xmm6, dword [rdx - 72], 48
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
-	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
-	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0xfffffe3c92100ff3                   // movss    xmm2, dword [rdx - 452]
-	QUAD $0xfffebc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 324], 16
-	QUAD $0xffff3c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 196], 32
-	LONG $0x213a0f66; WORD $0xbc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 68], 48
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	QUAD $0xfffffe40ba100ff3                   // movss    xmm7, dword [rdx - 448]
-	QUAD $0xfffec0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 320], 16
-	QUAD $0xffff40ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 192], 32
-	LONG $0x213a0f66; WORD $0xc07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 64], 48
-	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe44b2100ff3                   // movss    xmm6, dword [rdx - 444]
-	QUAD $0xfffec4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 316], 16
-	QUAD $0xffff44b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 188], 32
-	LONG $0x213a0f66; WORD $0xc472; BYTE $0x30 // insertps    xmm6, dword [rdx - 60], 48
-	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
-	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	QUAD $0xfffffe4892100ff3                   // movss    xmm2, dword [rdx - 440]
-	QUAD $0xfffec892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 312], 16
-	QUAD $0xffff4892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 184], 32
-	LONG $0x213a0f66; WORD $0xc852; BYTE $0x30 // insertps    xmm2, dword [rdx - 56], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe4c9a100ff3                   // movss    xmm3, dword [rdx - 436]
-	QUAD $0xfffecc9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 308], 16
-	QUAD $0xffff4c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 180], 32
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x213a0f66; WORD $0xcc5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 52], 48
-	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
-	QUAD $0xfffffe50aa100ff3                   // movss    xmm5, dword [rdx - 432]
-	QUAD $0xfffed0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 304], 16
-	QUAD $0xffff50aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 176], 32
-	LONG $0x213a0f66; WORD $0xd06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 48], 48
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	QUAD $0xfffffe54b2100ff3                   // movss    xmm6, dword [rdx - 428]
-	QUAD $0xfffed4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 300], 16
-	QUAD $0xffff54b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 172], 32
-	LONG $0x213a0f66; WORD $0xd472; BYTE $0x30 // insertps    xmm6, dword [rdx - 44], 48
-	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	QUAD $0xfffffe58ba100ff3                   // movss    xmm7, dword [rdx - 424]
-	QUAD $0xfffed8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 296], 16
-	QUAD $0xffff58ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 168], 32
-	LONG $0x213a0f66; WORD $0xd87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 40], 48
-	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe5c92100ff3                   // movss    xmm2, dword [rdx - 420]
-	QUAD $0xfffedc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 292], 16
-	QUAD $0xffff5c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 164], 32
-	LONG $0x213a0f66; WORD $0xdc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 36], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe60aa100ff3                   // movss    xmm5, dword [rdx - 416]
-	QUAD $0xfffee0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 288], 16
-	QUAD $0xffff60aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 160], 32
-	LONG $0x213a0f66; WORD $0xe06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 32], 48
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe64ba100ff3                   // movss    xmm7, dword [rdx - 412]
-	QUAD $0xfffee4ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 284], 16
-	QUAD $0xffff64ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 156], 32
-	LONG $0x213a0f66; WORD $0xe47a; BYTE $0x30 // insertps    xmm7, dword [rdx - 28], 48
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
-	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe6892100ff3                   // movss    xmm2, dword [rdx - 408]
-	QUAD $0xfffee892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 280], 16
-	QUAD $0xffff6892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 152], 32
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0x213a0f66; WORD $0xe852; BYTE $0x30 // insertps    xmm2, dword [rdx - 24], 48
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe6c9a100ff3                   // movss    xmm3, dword [rdx - 404]
-	QUAD $0xfffeec9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 276], 16
-	QUAD $0xffff6c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 148], 32
-	LONG $0x213a0f66; WORD $0xec5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 20], 48
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0xfffffe7092100ff3                   // movss    xmm2, dword [rdx - 400]
-	QUAD $0xfffef092213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 272], 16
-	QUAD $0xffff7092213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 144], 32
-	LONG $0x213a0f66; WORD $0xf052; BYTE $0x30 // insertps    xmm2, dword [rdx - 16], 48
-	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe74b2100ff3                   // movss    xmm6, dword [rdx - 396]
-	QUAD $0xfffef4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 268], 16
-	QUAD $0xffff74b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 140], 32
-	LONG $0x213a0f66; WORD $0xf472; BYTE $0x30 // insertps    xmm6, dword [rdx - 12], 48
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	QUAD $0xfffffe78ba100ff3                   // movss    xmm7, dword [rdx - 392]
-	QUAD $0xfffef8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 264], 16
-	QUAD $0xffff78ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 136], 32
-	LONG $0x213a0f66; WORD $0xf87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 8], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe7c92100ff3                   // movss    xmm2, dword [rdx - 388]
-	QUAD $0xfffefc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 260], 16
-	QUAD $0xffff7c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 132], 32
-	LONG $0x213a0f66; WORD $0xfc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 4], 48
-	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe809a100ff3                   // movss    xmm3, dword [rdx - 384]
-	QUAD $0xffff009a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 256], 16
-	LONG $0x213a0f66; WORD $0x805a; BYTE $0x20 // insertps    xmm3, dword [rdx - 128], 32
-	LONG $0x213a0f66; WORD $0x301a             // insertps    xmm3, dword [rdx], 48
-	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
-	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
-	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x00c28148; WORD $0x0002; BYTE $0x00 // add    rdx, 512
-	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
-	JNE  LBB8_201
-	WORD $0x394d; BYTE $0xc3                   // cmp    r11, r8
-	JNE  LBB8_124
-	JMP  LBB8_140
-
-TEXT ·_comparison_greater_equal_arr_arr_sse4(SB), $80-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	ADDQ $8, SP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB9_29
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB9_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB9_68
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB9_79
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_22
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_20:
-	WORD $0x0e8b                   // mov    ecx, dword [rsi]
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x0a3b                   // cmp    ecx, dword [rdx]
-	LONG $0x04528d48               // lea    rdx, [rdx + 4]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_20
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_22:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_26
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_24:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd5930f41                           // setae    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd3930f41                           // setae    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd7930f41                           // setae    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd2930f41                           // setae    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd6930f41                           // setae    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd4930f41                           // setae    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd1930f41                           // setae    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_24
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_26:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_28:
-	WORD $0x048b; BYTE $0x8e     // mov    eax, dword [rsi + 4*rcx]
-	WORD $0x043b; BYTE $0x8a     // cmp    eax, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_28
-	JMP  LBB9_123
-
-LBB9_29:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB9_30
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB9_101
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB9_112
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_50
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_48:
-	LONG $0x06100ff2               // movsd    xmm0, qword [rsi]
-	LONG $0x08c68348               // add    rsi, 8
-	LONG $0x022e0f66               // ucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48               // lea    rdx, [rdx + 8]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_48
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_50:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_54
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB9_52:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff2                           // movsd    xmm0, qword [rsi]
-	LONG $0x4e100ff2; BYTE $0x08               // movsd    xmm1, qword [rsi + 8]
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	LONG $0x4a2e0f66; BYTE $0x08               // ucomisd    xmm1, qword [rdx + 8]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x46100ff2; BYTE $0x10               // movsd    xmm0, qword [rsi + 16]
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0x46100ff2; BYTE $0x18               // movsd    xmm0, qword [rsi + 24]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	LONG $0x46100ff2; BYTE $0x20               // movsd    xmm0, qword [rsi + 32]
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	LONG $0x46100ff2; BYTE $0x28               // movsd    xmm0, qword [rsi + 40]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	LONG $0x46100ff2; BYTE $0x30               // movsd    xmm0, qword [rsi + 48]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	LONG $0x46100ff2; BYTE $0x38               // movsd    xmm0, qword [rsi + 56]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x46100ff2; BYTE $0x40               // movsd    xmm0, qword [rsi + 64]
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	LONG $0x46100ff2; BYTE $0x48               // movsd    xmm0, qword [rsi + 72]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x46100ff2; BYTE $0x50               // movsd    xmm0, qword [rsi + 80]
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0x46100ff2; BYTE $0x58               // movsd    xmm0, qword [rsi + 88]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x46100ff2; BYTE $0x60               // movsd    xmm0, qword [rsi + 96]
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0x46100ff2; BYTE $0x68               // movsd    xmm0, qword [rsi + 104]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	LONG $0x46100ff2; BYTE $0x70               // movsd    xmm0, qword [rsi + 112]
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	LONG $0x46100ff2; BYTE $0x78               // movsd    xmm0, qword [rsi + 120]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	QUAD $0x0000008086100ff2                   // movsd    xmm0, qword [rsi + 128]
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	QUAD $0x0000008886100ff2                   // movsd    xmm0, qword [rsi + 136]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x0000009086100ff2                   // movsd    xmm0, qword [rsi + 144]
-	LONG $0xd6930f41                           // setae    r14b
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	QUAD $0x0000009886100ff2                   // movsd    xmm0, qword [rsi + 152]
-	LONG $0xd4930f41                           // setae    r12b
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	QUAD $0x000000a086100ff2                   // movsd    xmm0, qword [rsi + 160]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	QUAD $0x000000a886100ff2                   // movsd    xmm0, qword [rsi + 168]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	QUAD $0x000000b086100ff2                   // movsd    xmm0, qword [rsi + 176]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	QUAD $0x000000b886100ff2                   // movsd    xmm0, qword [rsi + 184]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	QUAD $0x000000c086100ff2                   // movsd    xmm0, qword [rsi + 192]
-	LONG $0xd0930f41                           // setae    r8b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	QUAD $0x000000c886100ff2                   // movsd    xmm0, qword [rsi + 200]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	QUAD $0x000000d086100ff2                   // movsd    xmm0, qword [rsi + 208]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	QUAD $0x000000d886100ff2                   // movsd    xmm0, qword [rsi + 216]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	QUAD $0x000000e086100ff2                   // movsd    xmm0, qword [rsi + 224]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	QUAD $0x000000e886100ff2                   // movsd    xmm0, qword [rsi + 232]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	QUAD $0x000000f086100ff2                   // movsd    xmm0, qword [rsi + 240]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	QUAD $0x000000f886100ff2                   // movsd    xmm0, qword [rsi + 248]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	LONG $0xd7930f40                           // setae    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB9_52
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB9_54:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_56:
-	LONG $0x04100ff2; BYTE $0xce // movsd    xmm0, qword [rsi + 8*rcx]
-	LONG $0x042e0f66; BYTE $0xca // ucomisd    xmm0, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_56
-	JMP  LBB9_123
-
-LBB9_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB9_57
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_6:
-	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x0a3a                 // cmp    cl, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_6
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_8:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_12
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB9_10:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x24549d0f; BYTE $0x28   // setge    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x9d0f; BYTE $0xd1       // setge    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x24549d0f; BYTE $0x14   // setge    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x24549d0f; BYTE $0x15   // setge    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x24549d0f; BYTE $0x16   // setge    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x24549d0f; BYTE $0x17   // setge    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x24549d0f; BYTE $0x04   // setge    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd79d0f41               // setge    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x07   // setge    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd79d0f40               // setge    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd29d0f41               // setge    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd39d0f41               // setge    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd69d0f41               // setge    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x24549d0f; BYTE $0x05   // setge    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x24549d0f; BYTE $0x06   // setge    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x9d0f; BYTE $0xd3       // setge    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x0d   // setge    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd49d0f41               // setge    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd59d0f41               // setge    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x24549d0f; BYTE $0x08   // setge    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x24549d0f; BYTE $0x09   // setge    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x24549d0f; BYTE $0x0a   // setge    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x24549d0f; BYTE $0x0b   // setge    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd19d0f41               // setge    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x13   // setge    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x24549d0f; BYTE $0x0c   // setge    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x24549d0f; BYTE $0x0e   // setge    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x24549d0f; BYTE $0x0f   // setge    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x24549d0f; BYTE $0x10   // setge    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x24549d0f; BYTE $0x11   // setge    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x24549d0f; BYTE $0x12   // setge    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd09d0f41               // setge    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB9_10
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB9_12:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_14:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
-	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_14
-	JMP  LBB9_123
-
-LBB9_30:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB9_90
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB9_123
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_36
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_34:
-	WORD $0x8b48; BYTE $0x0e       // mov    rcx, qword [rsi]
-	LONG $0x08c68348               // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a       // cmp    rcx, qword [rdx]
-	LONG $0x08528d48               // lea    rdx, [rdx + 8]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_34
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_36:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_40
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_38:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_38
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_40:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_42:
-	LONG $0xce048b48             // mov    rax, qword [rsi + 8*rcx]
-	LONG $0xca043b48             // cmp    rax, qword [rdx + 8*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_42
-	JMP  LBB9_123
-
-LBB9_68:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_72
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_70:
-	WORD $0xb70f; BYTE $0x0e       // movzx    ecx, word [rsi]
-	LONG $0x02c68348               // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a       // cmp    cx, word [rdx]
-	LONG $0x02528d48               // lea    rdx, [rdx + 2]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_70
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_72:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_76
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_74:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x2454930f; BYTE $0x28   // setae    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x2454930f; BYTE $0x20   // setae    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x2454930f; BYTE $0x14   // setae    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x2454930f; BYTE $0x15   // setae    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x2454930f; BYTE $0x16   // setae    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x2454930f; BYTE $0x17   // setae    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x2454930f; BYTE $0x04   // setae    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd5930f41               // setae    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x2454930f; BYTE $0x09   // setae    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd0930f41               // setae    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd3930f41               // setae    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd7930f41               // setae    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x2454930f; BYTE $0x05   // setae    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x2454930f; BYTE $0x06   // setae    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x2454930f; BYTE $0x07   // setae    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x930f; BYTE $0xd3       // setae    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x2454930f; BYTE $0x0a   // setae    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd2930f41               // setae    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd6930f41               // setae    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd4930f41               // setae    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x2454930f; BYTE $0x08   // setae    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x2454930f; BYTE $0x0b   // setae    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x2454930f; BYTE $0x0c   // setae    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd1930f41               // setae    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x2454930f; BYTE $0x13   // setae    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x2454930f; BYTE $0x0d   // setae    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x2454930f; BYTE $0x0e   // setae    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x2454930f; BYTE $0x0f   // setae    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x2454930f; BYTE $0x10   // setae    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x2454930f; BYTE $0x12   // setae    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x2454930f; BYTE $0x11   // setae    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd7930f40               // setae    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB9_74
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB9_76:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_78:
-	LONG $0x4e04b70f             // movzx    eax, word [rsi + 2*rcx]
-	LONG $0x4a043b66             // cmp    ax, word [rdx + 2*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_78
-	JMP  LBB9_123
-
-LBB9_79:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_83
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_81:
-	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
-	LONG $0x02c68348             // add    rsi, 2
-	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_81
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_83:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_87
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_85:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
-	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
-	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
-	LONG $0x24549d0f; BYTE $0x28   // setge    byte [rsp + 40]
-	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
-	LONG $0x24549d0f; BYTE $0x20   // setge    byte [rsp + 32]
-	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
-	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
-	LONG $0x24549d0f; BYTE $0x14   // setge    byte [rsp + 20]
-	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
-	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
-	LONG $0x24549d0f; BYTE $0x15   // setge    byte [rsp + 21]
-	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
-	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x16   // setge    byte [rsp + 22]
-	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
-	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
-	LONG $0x24549d0f; BYTE $0x17   // setge    byte [rsp + 23]
-	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
-	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
-	LONG $0x24549d0f; BYTE $0x04   // setge    byte [rsp + 4]
-	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
-	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
-	LONG $0xd59d0f41               // setge    r13b
-	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
-	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x09   // setge    byte [rsp + 9]
-	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
-	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
-	LONG $0xd09d0f41               // setge    r8b
-	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
-	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
-	LONG $0xd39d0f41               // setge    r11b
-	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
-	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
-	LONG $0xd79d0f41               // setge    r15b
-	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
-	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x05   // setge    byte [rsp + 5]
-	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
-	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
-	LONG $0x24549d0f; BYTE $0x06   // setge    byte [rsp + 6]
-	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
-	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
-	LONG $0x24549d0f; BYTE $0x07   // setge    byte [rsp + 7]
-	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
-	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
-	WORD $0x9d0f; BYTE $0xd3       // setge    bl
-	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
-	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
-	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
-	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
-	LONG $0x24549d0f; BYTE $0x0a   // setge    byte [rsp + 10]
-	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
-	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
-	LONG $0xd29d0f41               // setge    r10b
-	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
-	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
-	LONG $0xd69d0f41               // setge    r14b
-	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
-	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
-	LONG $0xd49d0f41               // setge    r12b
-	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
-	LONG $0x24549d0f; BYTE $0x08   // setge    byte [rsp + 8]
-	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
-	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
-	LONG $0x24549d0f; BYTE $0x0b   // setge    byte [rsp + 11]
-	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
-	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
-	LONG $0x24549d0f; BYTE $0x0c   // setge    byte [rsp + 12]
-	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
-	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
-	LONG $0xd19d0f41               // setge    r9b
-	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
-	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
-	LONG $0x24549d0f; BYTE $0x13   // setge    byte [rsp + 19]
-	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
-	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
-	LONG $0x24549d0f; BYTE $0x0d   // setge    byte [rsp + 13]
-	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
-	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
-	LONG $0x24549d0f; BYTE $0x0e   // setge    byte [rsp + 14]
-	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
-	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
-	LONG $0x24549d0f; BYTE $0x0f   // setge    byte [rsp + 15]
-	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
-	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
-	LONG $0x24549d0f; BYTE $0x10   // setge    byte [rsp + 16]
-	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
-	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
-	LONG $0x24549d0f; BYTE $0x12   // setge    byte [rsp + 18]
-	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
-	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
-	LONG $0x24549d0f; BYTE $0x11   // setge    byte [rsp + 17]
-	LONG $0x40c68348               // add    rsi, 64
-	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
-	LONG $0xd79d0f40               // setge    dil
-	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                   // add    al, al
-	LONG $0x28244402               // add    al, byte [rsp + 40]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
-	LONG $0x07e5c041               // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5       // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e3c041               // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
-	LONG $0x03e7c041               // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xf8       // or    al, r15b
-	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xc0       // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041               // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041               // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
-	LONG $0x03e4c041               // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0x0844; BYTE $0xe0       // or    al, r12b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c040               // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf       // or    dil, cl
-	WORD $0x0840; BYTE $0xc7       // or    dil, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841               // mov    byte [r14 + 3], dil
-	LONG $0x40c28348               // add    rdx, 64
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
-	JNE  LBB9_85
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
-
-LBB9_87:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_89:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
-	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_89
-	JMP  LBB9_123
-
-LBB9_101:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_105
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_103:
-	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_103
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_105:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_109
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_107:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
-	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
-	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
-	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x14               // setge    byte [rsp + 20]
-	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
-	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x15               // setge    byte [rsp + 21]
-	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
-	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
-	LONG $0x24549d0f; BYTE $0x16               // setge    byte [rsp + 22]
-	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
-	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
-	LONG $0x24549d0f; BYTE $0x17               // setge    byte [rsp + 23]
-	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
-	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
-	LONG $0x24549d0f; BYTE $0x04               // setge    byte [rsp + 4]
-	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
-	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
-	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
-	LONG $0x24549d0f; BYTE $0x09               // setge    byte [rsp + 9]
-	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
-	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
-	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
-	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
-	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
-	LONG $0x24549d0f; BYTE $0x05               // setge    byte [rsp + 5]
-	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
-	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
-	LONG $0x24549d0f; BYTE $0x06               // setge    byte [rsp + 6]
-	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
-	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
-	LONG $0x24549d0f; BYTE $0x07               // setge    byte [rsp + 7]
-	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
-	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
-	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
-	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
-	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
-	LONG $0x24549d0f; BYTE $0x0a               // setge    byte [rsp + 10]
-	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
-	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
-	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
-	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
-	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
-	LONG $0x24549d0f; BYTE $0x0b               // setge    byte [rsp + 11]
-	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
-	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
-	LONG $0x24549d0f; BYTE $0x0c               // setge    byte [rsp + 12]
-	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
-	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
-	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
-	LONG $0x24549d0f; BYTE $0x13               // setge    byte [rsp + 19]
-	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
-	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
-	LONG $0x24549d0f; BYTE $0x0d               // setge    byte [rsp + 13]
-	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
-	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
-	LONG $0x24549d0f; BYTE $0x0e               // setge    byte [rsp + 14]
-	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
-	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
-	LONG $0x24549d0f; BYTE $0x0f               // setge    byte [rsp + 15]
-	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
-	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
-	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
-	LONG $0x24549d0f; BYTE $0x12               // setge    byte [rsp + 18]
-	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
-	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
-	LONG $0x24549d0f; BYTE $0x11               // setge    byte [rsp + 17]
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_107
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_109:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_111:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
-	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_111
-	JMP  LBB9_123
-
-LBB9_112:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_116
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_114:
-	LONG $0x06100ff3               // movss    xmm0, dword [rsi]
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x2e0f; BYTE $0x02       // ucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48               // lea    rdx, [rdx + 4]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_114
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_116:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_120
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
-
-LBB9_118:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	LONG $0x06100ff3                           // movss    xmm0, dword [rsi]
-	LONG $0x4e100ff3; BYTE $0x04               // movss    xmm1, dword [rsi + 4]
-	WORD $0x2e0f; BYTE $0x02                   // ucomiss    xmm0, dword [rdx]
-	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
-	LONG $0x044a2e0f                           // ucomiss    xmm1, dword [rdx + 4]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x46100ff3; BYTE $0x08               // movss    xmm0, dword [rsi + 8]
-	LONG $0x08422e0f                           // ucomiss    xmm0, dword [rdx + 8]
-	LONG $0x46100ff3; BYTE $0x0c               // movss    xmm0, dword [rsi + 12]
-	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
-	LONG $0x0c422e0f                           // ucomiss    xmm0, dword [rdx + 12]
-	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
-	LONG $0x46100ff3; BYTE $0x10               // movss    xmm0, dword [rsi + 16]
-	LONG $0x10422e0f                           // ucomiss    xmm0, dword [rdx + 16]
-	LONG $0x46100ff3; BYTE $0x14               // movss    xmm0, dword [rsi + 20]
-	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
-	LONG $0x14422e0f                           // ucomiss    xmm0, dword [rdx + 20]
-	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
-	LONG $0x46100ff3; BYTE $0x18               // movss    xmm0, dword [rsi + 24]
-	LONG $0x18422e0f                           // ucomiss    xmm0, dword [rdx + 24]
-	LONG $0x46100ff3; BYTE $0x1c               // movss    xmm0, dword [rsi + 28]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x1c422e0f                           // ucomiss    xmm0, dword [rdx + 28]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x46100ff3; BYTE $0x20               // movss    xmm0, dword [rsi + 32]
-	LONG $0x20422e0f                           // ucomiss    xmm0, dword [rdx + 32]
-	LONG $0x46100ff3; BYTE $0x24               // movss    xmm0, dword [rsi + 36]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x24422e0f                           // ucomiss    xmm0, dword [rdx + 36]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x46100ff3; BYTE $0x28               // movss    xmm0, dword [rsi + 40]
-	LONG $0x28422e0f                           // ucomiss    xmm0, dword [rdx + 40]
-	LONG $0x46100ff3; BYTE $0x2c               // movss    xmm0, dword [rsi + 44]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x2c422e0f                           // ucomiss    xmm0, dword [rdx + 44]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x46100ff3; BYTE $0x30               // movss    xmm0, dword [rsi + 48]
-	LONG $0x30422e0f                           // ucomiss    xmm0, dword [rdx + 48]
-	LONG $0x46100ff3; BYTE $0x34               // movss    xmm0, dword [rsi + 52]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x34422e0f                           // ucomiss    xmm0, dword [rdx + 52]
-	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
-	LONG $0x46100ff3; BYTE $0x38               // movss    xmm0, dword [rsi + 56]
-	LONG $0x38422e0f                           // ucomiss    xmm0, dword [rdx + 56]
-	LONG $0x46100ff3; BYTE $0x3c               // movss    xmm0, dword [rsi + 60]
-	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
-	LONG $0x3c422e0f                           // ucomiss    xmm0, dword [rdx + 60]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x46100ff3; BYTE $0x40               // movss    xmm0, dword [rsi + 64]
-	LONG $0x40422e0f                           // ucomiss    xmm0, dword [rdx + 64]
-	LONG $0x46100ff3; BYTE $0x44               // movss    xmm0, dword [rsi + 68]
-	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
-	LONG $0x44422e0f                           // ucomiss    xmm0, dword [rdx + 68]
-	LONG $0x46100ff3; BYTE $0x48               // movss    xmm0, dword [rsi + 72]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x48422e0f                           // ucomiss    xmm0, dword [rdx + 72]
-	LONG $0x46100ff3; BYTE $0x4c               // movss    xmm0, dword [rsi + 76]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x4c422e0f                           // ucomiss    xmm0, dword [rdx + 76]
-	LONG $0x46100ff3; BYTE $0x50               // movss    xmm0, dword [rsi + 80]
-	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
-	LONG $0x50422e0f                           // ucomiss    xmm0, dword [rdx + 80]
-	LONG $0x46100ff3; BYTE $0x54               // movss    xmm0, dword [rsi + 84]
-	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
-	LONG $0x54422e0f                           // ucomiss    xmm0, dword [rdx + 84]
-	LONG $0x46100ff3; BYTE $0x58               // movss    xmm0, dword [rsi + 88]
-	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
-	LONG $0x58422e0f                           // ucomiss    xmm0, dword [rdx + 88]
-	LONG $0x46100ff3; BYTE $0x5c               // movss    xmm0, dword [rsi + 92]
-	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
-	LONG $0x5c422e0f                           // ucomiss    xmm0, dword [rdx + 92]
-	LONG $0x46100ff3; BYTE $0x60               // movss    xmm0, dword [rsi + 96]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x60422e0f                           // ucomiss    xmm0, dword [rdx + 96]
-	LONG $0x46100ff3; BYTE $0x64               // movss    xmm0, dword [rsi + 100]
-	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
-	LONG $0x64422e0f                           // ucomiss    xmm0, dword [rdx + 100]
-	LONG $0x46100ff3; BYTE $0x68               // movss    xmm0, dword [rsi + 104]
-	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
-	LONG $0x68422e0f                           // ucomiss    xmm0, dword [rdx + 104]
-	LONG $0x46100ff3; BYTE $0x6c               // movss    xmm0, dword [rsi + 108]
-	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
-	LONG $0x6c422e0f                           // ucomiss    xmm0, dword [rdx + 108]
-	LONG $0x46100ff3; BYTE $0x70               // movss    xmm0, dword [rsi + 112]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x70422e0f                           // ucomiss    xmm0, dword [rdx + 112]
-	LONG $0x46100ff3; BYTE $0x74               // movss    xmm0, dword [rsi + 116]
-	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
-	LONG $0x74422e0f                           // ucomiss    xmm0, dword [rdx + 116]
-	LONG $0x46100ff3; BYTE $0x78               // movss    xmm0, dword [rsi + 120]
-	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
-	LONG $0x78422e0f                           // ucomiss    xmm0, dword [rdx + 120]
-	LONG $0x46100ff3; BYTE $0x7c               // movss    xmm0, dword [rsi + 124]
-	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	LONG $0x7c422e0f                           // ucomiss    xmm0, dword [rdx + 124]
-	LONG $0xd7930f40                           // setae    dil
-	WORD $0xc000                               // add    al, al
-	LONG $0x04244402                           // add    al, byte [rsp + 4]
-	LONG $0x06e5c041                           // shl    r13b, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
-	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
-	LONG $0x02e5c041                           // shl    r13b, 2
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
-	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
-	LONG $0x03e3c041                           // shl    r11b, 3
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
-	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
-	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
-	LONG $0x06e1c041                           // shl    r9b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
-	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
-	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x14244402                           // add    al, byte [rsp + 20]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xc108                               // or    cl, al
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
-	JNE  LBB9_118
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-
-LBB9_120:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_122:
-	LONG $0x04100ff3; BYTE $0x8e // movss    xmm0, dword [rsi + 4*rcx]
-	LONG $0x8a042e0f             // ucomiss    xmm0, dword [rdx + 4*rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_122
-	JMP  LBB9_123
-
-LBB9_57:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_61
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_59:
-	WORD $0xb60f; BYTE $0x0e       // movzx    ecx, byte [rsi]
-	LONG $0x01c68348               // add    rsi, 1
-	WORD $0x0a3a                   // cmp    cl, byte [rdx]
-	LONG $0x01528d48               // lea    rdx, [rdx + 1]
-	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
-	LONG $0xffd28041               // adc    r10b, -1
-	LONG $0x07588d48               // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	LONG $0xd8490f48               // cmovns    rbx, rax
-	LONG $0x03fbc148               // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
-	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
-	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
-	WORD $0xe7d3                   // shl    edi, cl
-	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
-	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
-	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348               // add    rax, 1
-	LONG $0x08f88348               // cmp    rax, 8
-	JNE  LBB9_59
-	LONG $0x01c68349               // add    r14, 1
-
-LBB9_61:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_65
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
-
-LBB9_63:
-	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
-	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
-	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
-	WORD $0x023a                   // cmp    al, byte [rdx]
-	LONG $0x2454930f; BYTE $0x28   // setae    byte [rsp + 40]
-	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
-	WORD $0x930f; BYTE $0xd1       // setae    cl
-	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
-	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
-	LONG $0x2454930f; BYTE $0x14   // setae    byte [rsp + 20]
-	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
-	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
-	LONG $0x2454930f; BYTE $0x15   // setae    byte [rsp + 21]
-	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
-	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
-	LONG $0x2454930f; BYTE $0x16   // setae    byte [rsp + 22]
-	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
-	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
-	LONG $0x2454930f; BYTE $0x17   // setae    byte [rsp + 23]
-	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
-	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
-	LONG $0x2454930f; BYTE $0x04   // setae    byte [rsp + 4]
-	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
-	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
-	LONG $0xd7930f41               // setae    r15b
-	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
-	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
-	LONG $0x2454930f; BYTE $0x07   // setae    byte [rsp + 7]
-	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
-	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
-	LONG $0xd7930f40               // setae    dil
-	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
-	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
-	LONG $0xd2930f41               // setae    r10b
-	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
-	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
-	LONG $0xd3930f41               // setae    r11b
-	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
-	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
-	LONG $0xd6930f41               // setae    r14b
-	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
-	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
-	LONG $0x2454930f; BYTE $0x05   // setae    byte [rsp + 5]
-	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
-	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
-	LONG $0x2454930f; BYTE $0x06   // setae    byte [rsp + 6]
-	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
-	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
-	WORD $0x930f; BYTE $0xd3       // setae    bl
-	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
-	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
-	LONG $0x2454930f; BYTE $0x0d   // setae    byte [rsp + 13]
-	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
-	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
-	LONG $0xd4930f41               // setae    r12b
-	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
-	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
-	LONG $0xd5930f41               // setae    r13b
-	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
-	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
-	LONG $0x2454930f; BYTE $0x08   // setae    byte [rsp + 8]
-	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
-	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
-	LONG $0x2454930f; BYTE $0x09   // setae    byte [rsp + 9]
-	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
-	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
-	LONG $0x2454930f; BYTE $0x0a   // setae    byte [rsp + 10]
-	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
-	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
-	LONG $0x2454930f; BYTE $0x0b   // setae    byte [rsp + 11]
-	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
-	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
-	LONG $0xd1930f41               // setae    r9b
-	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
-	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
-	LONG $0x2454930f; BYTE $0x13   // setae    byte [rsp + 19]
-	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
-	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
-	LONG $0x2454930f; BYTE $0x0c   // setae    byte [rsp + 12]
-	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
-	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
-	LONG $0x2454930f; BYTE $0x0e   // setae    byte [rsp + 14]
-	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
-	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
-	LONG $0x2454930f; BYTE $0x0f   // setae    byte [rsp + 15]
-	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
-	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
-	LONG $0x2454930f; BYTE $0x10   // setae    byte [rsp + 16]
-	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
-	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
-	LONG $0x2454930f; BYTE $0x11   // setae    byte [rsp + 17]
-	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
-	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
-	LONG $0x2454930f; BYTE $0x12   // setae    byte [rsp + 18]
-	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
-	LONG $0x20c68348               // add    rsi, 32
-	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
-	LONG $0xd0930f41               // setae    r8b
-	WORD $0xc900                   // add    cl, cl
-	LONG $0x28244c02               // add    cl, byte [rsp + 40]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e7c041               // shl    r15b, 7
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
-	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	WORD $0x0040; BYTE $0xff       // add    dil, dil
-	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
-	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
-	WORD $0xc108                   // or    cl, al
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0x02e2c041               // shl    r10b, 2
-	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
-	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
-	WORD $0xc108                   // or    cl, al
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x03e3c041               // shl    r11b, 3
-	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
-	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
-	WORD $0x0840; BYTE $0xf9       // or    cl, dil
-	LONG $0x04e6c041               // shl    r14b, 4
-	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
-	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0x0844; BYTE $0xf0       // or    al, r14b
-	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
-	LONG $0x06e7c040               // shl    dil, 6
-	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
-	WORD $0x0840; BYTE $0xfb       // or    bl, dil
-	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
-	WORD $0xc308                   // or    bl, al
-	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
-	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
-	LONG $0x02e5c041               // shl    r13b, 2
-	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
-	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0x0844; BYTE $0xe8       // or    al, r13b
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
-	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e1c041               // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
-	LONG $0x015e8841               // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1       // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
-	WORD $0xc000                   // add    al, al
-	LONG $0x13244402               // add    al, byte [rsp + 19]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
-	WORD $0xc808                   // or    al, cl
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
-	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
-	WORD $0xc808                   // or    al, cl
-	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
-	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
-	LONG $0x07e0c041               // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0       // or    r8b, al
-	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
-	LONG $0x03468845               // mov    byte [r14 + 3], r8b
-	LONG $0x20c28348               // add    rdx, 32
-	LONG $0x04c68349               // add    r14, 4
-	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
-	JNE  LBB9_63
-	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
-
-LBB9_65:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_67:
-	LONG $0x0e04b60f             // movzx    eax, byte [rsi + rcx]
-	WORD $0x043a; BYTE $0x0a     // cmp    al, byte [rdx + rcx]
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
-	LONG $0x03ebc148             // shr    rbx, 3
-	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x1e048841             // mov    byte [r14 + rbx], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_67
-	JMP  LBB9_123
-
-LBB9_90:
-	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xfb490f4d         // cmovns    r15, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB9_94
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB9_92:
-	WORD $0x0e8b                 // mov    ecx, dword [rsi]
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
-	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
-	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
-	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB9_92
-	LONG $0x01c68349             // add    r14, 1
-
-LBB9_94:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fb8349             // cmp    r11, 32
-	JL   LBB9_98
-	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
-	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
-	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
-
-LBB9_96:
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	WORD $0x068b                               // mov    eax, dword [rsi]
-	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
-	WORD $0x023b                               // cmp    eax, dword [rdx]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
-	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
-	LONG $0x24549d0f; BYTE $0x14               // setge    byte [rsp + 20]
-	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
-	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
-	LONG $0x24549d0f; BYTE $0x15               // setge    byte [rsp + 21]
-	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
-	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
-	LONG $0x24549d0f; BYTE $0x16               // setge    byte [rsp + 22]
-	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
-	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
-	LONG $0x24549d0f; BYTE $0x17               // setge    byte [rsp + 23]
-	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
-	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
-	LONG $0x24549d0f; BYTE $0x04               // setge    byte [rsp + 4]
-	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
-	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
-	LONG $0xd59d0f41                           // setge    r13b
-	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
-	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
-	LONG $0x24549d0f; BYTE $0x09               // setge    byte [rsp + 9]
-	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
-	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
-	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
-	LONG $0xd39d0f41                           // setge    r11b
-	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
-	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
-	LONG $0xd79d0f41                           // setge    r15b
-	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
-	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
-	LONG $0x24549d0f; BYTE $0x05               // setge    byte [rsp + 5]
-	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
-	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
-	LONG $0x24549d0f; BYTE $0x06               // setge    byte [rsp + 6]
-	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
-	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
-	LONG $0x24549d0f; BYTE $0x07               // setge    byte [rsp + 7]
-	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
-	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
-	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
-	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
-	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
-	LONG $0x24549d0f; BYTE $0x0a               // setge    byte [rsp + 10]
-	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
-	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
-	LONG $0xd29d0f41                           // setge    r10b
-	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
-	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
-	LONG $0xd69d0f41                           // setge    r14b
-	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
-	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
-	LONG $0xd49d0f41                           // setge    r12b
-	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
-	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
-	LONG $0x24549d0f; BYTE $0x0b               // setge    byte [rsp + 11]
-	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
-	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
-	LONG $0x24549d0f; BYTE $0x0c               // setge    byte [rsp + 12]
-	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
-	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
-	LONG $0xd19d0f41                           // setge    r9b
-	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
-	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
-	LONG $0x24549d0f; BYTE $0x13               // setge    byte [rsp + 19]
-	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
-	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
-	LONG $0x24549d0f; BYTE $0x0d               // setge    byte [rsp + 13]
-	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
-	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
-	LONG $0x24549d0f; BYTE $0x0e               // setge    byte [rsp + 14]
-	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
-	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
-	LONG $0x24549d0f; BYTE $0x0f               // setge    byte [rsp + 15]
-	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
-	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
-	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
-	LONG $0x24549d0f; BYTE $0x12               // setge    byte [rsp + 18]
-	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
-	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
-	LONG $0x24549d0f; BYTE $0x11               // setge    byte [rsp + 17]
-	LONG $0x80ee8348                           // sub    rsi, -128
-	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xc000                               // add    al, al
-	LONG $0x28244402                           // add    al, byte [rsp + 40]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e5c041                           // shl    r13b, 7
-	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
-	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
-	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xc108                               // or    cl, al
-	WORD $0xc889                               // mov    eax, ecx
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
-	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
-	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
-	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
-	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
-	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
-	LONG $0x06e0c041                           // shl    r8b, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
-	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
-	WORD $0xc308                               // or    bl, al
-	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
-	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
-	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
-	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
-	WORD $0xc000                               // add    al, al
-	LONG $0x13244402                           // add    al, byte [rsp + 19]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	WORD $0x0840; BYTE $0xc7                   // or    dil, al
-	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
-	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
-	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
-	JNE  LBB9_96
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
-
-LBB9_98:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
-	JGE  LBB9_123
-	WORD $0x294d; BYTE $0xfb // sub    r11, r15
-	WORD $0xc931             // xor    ecx, ecx
-
-LBB9_100:
-	LONG $0x01418d4c             // lea    r8, [rcx + 1]
-	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
-	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xe180; BYTE $0x07     // and    cl, 7
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
-	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
-	JNE  LBB9_100
-
-LBB9_123:
-	SUBQ $8, SP
-	RET
-
-DATA LCDATA7<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA7<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA7<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA7<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA7<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA7<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA7<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA7<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA7<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA7<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA7<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA7<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA7<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA7<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA7<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA7<>+0x080(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x090(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x0a0(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x0a8(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x0b0(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x0b8(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x0c0(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x0c8(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x0d0(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x0d8(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x0e0(SB)/8, $0x8080808080808080
-DATA LCDATA7<>+0x0e8(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x0f0(SB)/8, $0x0f070e060d050c04
-DATA LCDATA7<>+0x0f8(SB)/8, $0x0000000000000000
-DATA LCDATA7<>+0x100(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x108(SB)/8, $0x0202020202020202
-DATA LCDATA7<>+0x110(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x118(SB)/8, $0x0404040404040404
-DATA LCDATA7<>+0x120(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x128(SB)/8, $0x0808080808080808
-DATA LCDATA7<>+0x130(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x138(SB)/8, $0x1010101010101010
-DATA LCDATA7<>+0x140(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x148(SB)/8, $0x2020202020202020
-DATA LCDATA7<>+0x150(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x158(SB)/8, $0x4040404040404040
-DATA LCDATA7<>+0x160(SB)/8, $0xffffffffffffffff
-DATA LCDATA7<>+0x168(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA7<>(SB), 8, $368
-
-TEXT ·_comparison_greater_equal_arr_scalar_sse4(SB), $520-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 496(SP)
-	LEAQ LCDATA7<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	WORD $0x8949; BYTE $0xce // mov    r14, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB10_16
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB10_31
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB10_81
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB10_92
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB10_182
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_9
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_7:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
-	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_7
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB10_9:
-	LONG $0x05fbc149             // sar    r11, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_13
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-
-LBB10_11:
-	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x000001502494930f                   // setae    byte [rsp + 336]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	QUAD $0x000000d02494930f                   // setae    byte [rsp + 208]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x000001302494930f                   // setae    byte [rsp + 304]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x000001002494930f                   // setae    byte [rsp + 256]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	QUAD $0x000000f02494930f                   // setae    byte [rsp + 240]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	QUAD $0x000000c02494930f                   // setae    byte [rsp + 192]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
-	JNE  LBB10_11
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
-
-LBB10_13:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_162
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_164
-
-LBB10_16:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB10_45
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB10_104
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB10_115
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB10_182
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_24
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_22:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	WORD $0x960f; BYTE $0xd2     // setbe    dl
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_22
-	LONG $0x01c68349             // add    r14, 1
-
-LBB10_24:
-	LONG $0x05fbc149             // sar    r11, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_28
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-	QUAD $0x000000a0249c894c     // mov    qword [rsp + 160], r11
-
-LBB10_26:
-	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
-	LONG $0x062e0f66                           // ucomisd    xmm0, qword [rsi]
-	QUAD $0x000001502494960f                   // setbe    byte [rsp + 336]
-	LONG $0x462e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rsi + 8]
-	LONG $0xd1960f41                           // setbe    r9b
-	LONG $0x462e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rsi + 16]
-	LONG $0xd6960f41                           // setbe    r14b
-	LONG $0x462e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rsi + 24]
-	LONG $0xd5960f41                           // setbe    r13b
-	LONG $0x462e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rsi + 32]
-	QUAD $0x000000e02494960f                   // setbe    byte [rsp + 224]
-	LONG $0x462e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rsi + 40]
-	QUAD $0x000000d02494960f                   // setbe    byte [rsp + 208]
-	LONG $0x462e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rsi + 48]
-	WORD $0x960f; BYTE $0xd0                   // setbe    al
-	LONG $0x462e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rsi + 56]
-	WORD $0x960f; BYTE $0xd3                   // setbe    bl
-	LONG $0x462e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rsi + 64]
-	QUAD $0x000001002494960f                   // setbe    byte [rsp + 256]
-	LONG $0x462e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rsi + 72]
-	WORD $0x960f; BYTE $0xd2                   // setbe    dl
-	LONG $0x462e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rsi + 80]
-	LONG $0xd7960f40                           // setbe    dil
-	LONG $0x462e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rsi + 88]
-	LONG $0xd2960f41                           // setbe    r10b
-	LONG $0x462e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rsi + 96]
-	LONG $0xd3960f41                           // setbe    r11b
-	LONG $0x462e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rsi + 104]
-	LONG $0xd4960f41                           // setbe    r12b
-	LONG $0x462e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rsi + 112]
-	QUAD $0x000001102494960f                   // setbe    byte [rsp + 272]
-	LONG $0x462e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rsi + 120]
-	WORD $0x960f; BYTE $0xd1                   // setbe    cl
-	QUAD $0x00000080862e0f66                   // ucomisd    xmm0, qword [rsi + 128]
-	QUAD $0x000000b02494960f                   // setbe    byte [rsp + 176]
-	QUAD $0x00000088862e0f66                   // ucomisd    xmm0, qword [rsi + 136]
-	QUAD $0x000001302494960f                   // setbe    byte [rsp + 304]
-	QUAD $0x00000090862e0f66                   // ucomisd    xmm0, qword [rsi + 144]
-	QUAD $0x000001202494960f                   // setbe    byte [rsp + 288]
-	QUAD $0x00000098862e0f66                   // ucomisd    xmm0, qword [rsi + 152]
-	QUAD $0x000000f02494960f                   // setbe    byte [rsp + 240]
-	QUAD $0x000000a0862e0f66                   // ucomisd    xmm0, qword [rsi + 160]
-	QUAD $0x000000c02494960f                   // setbe    byte [rsp + 192]
-	QUAD $0x000000a8862e0f66                   // ucomisd    xmm0, qword [rsi + 168]
-	QUAD $0x000000902494960f                   // setbe    byte [rsp + 144]
-	QUAD $0x000000b0862e0f66                   // ucomisd    xmm0, qword [rsi + 176]
-	QUAD $0x000000802494960f                   // setbe    byte [rsp + 128]
-	QUAD $0x000000b8862e0f66                   // ucomisd    xmm0, qword [rsi + 184]
-	LONG $0xd7960f41                           // setbe    r15b
-	QUAD $0x000000c0862e0f66                   // ucomisd    xmm0, qword [rsi + 192]
-	LONG $0x2454960f; BYTE $0x30               // setbe    byte [rsp + 48]
-	QUAD $0x000000c8862e0f66                   // ucomisd    xmm0, qword [rsi + 200]
-	LONG $0x2454960f; BYTE $0x70               // setbe    byte [rsp + 112]
-	QUAD $0x000000d0862e0f66                   // ucomisd    xmm0, qword [rsi + 208]
-	LONG $0x2454960f; BYTE $0x60               // setbe    byte [rsp + 96]
-	QUAD $0x000000d8862e0f66                   // ucomisd    xmm0, qword [rsi + 216]
-	LONG $0x2454960f; BYTE $0x50               // setbe    byte [rsp + 80]
-	QUAD $0x000000e0862e0f66                   // ucomisd    xmm0, qword [rsi + 224]
-	LONG $0x2454960f; BYTE $0x20               // setbe    byte [rsp + 32]
-	QUAD $0x000000e8862e0f66                   // ucomisd    xmm0, qword [rsi + 232]
-	LONG $0x2454960f; BYTE $0x10               // setbe    byte [rsp + 16]
-	QUAD $0x000000f0862e0f66                   // ucomisd    xmm0, qword [rsi + 240]
-	LONG $0x2454960f; BYTE $0x08               // setbe    byte [rsp + 8]
-	QUAD $0x000000f8862e0f66                   // ucomisd    xmm0, qword [rsi + 248]
-	LONG $0xd0960f41                           // setbe    r8b
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000150248c0244                   // add    r9b, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x00249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 256]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000011024bcb60f                   // movzx    edi, byte [rsp + 272]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x000001302484b60f                   // movzx    eax, byte [rsp + 304]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB10_26
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-
-LBB10_28:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_166
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_168
-
-LBB10_31:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB10_58
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB10_182
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_37
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_35:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	WORD $0x9d0f; BYTE $0xd2     // setge    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_35
-	LONG $0x01c68349             // add    r14, 1
-
-LBB10_37:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_127
-	LONG $0x10ff8349             // cmp    r15, 16
-	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x000001b024bc894c     // mov    qword [rsp + 432], r15
-	JB   LBB10_41
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB10_191
-	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB10_191
-
-LBB10_41:
-	WORD $0xc031                 // xor    eax, eax
-	QUAD $0x000000a024848948     // mov    qword [rsp + 160], rax
-	LONG $0x2474894c; BYTE $0x70 // mov    qword [rsp + 112], r14
-
-LBB10_42:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	QUAD $0x000000a024b42b4c // sub    r14, qword [rsp + 160]
-	QUAD $0x0000017024b4894c // mov    qword [rsp + 368], r14
-
-LBB10_43:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
-	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
-	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
-	QUAD $0x0000015024949d0f                   // setge    byte [rsp + 336]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
-	QUAD $0x0000013024949d0f                   // setge    byte [rsp + 304]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x0000010024949d0f                   // setge    byte [rsp + 256]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	QUAD $0x000000f024949d0f                   // setge    byte [rsp + 240]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	QUAD $0x000000c024949d0f                   // setge    byte [rsp + 192]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x0000016024949d0f                   // setge    byte [rsp + 352]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000014024b40240                   // add    sil, byte [rsp + 320]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x0000010024b4b60f                   // movzx    esi, byte [rsp + 256]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x10249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 272]
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	QUAD $0x000000c024bcb60f                   // movzx    edi, byte [rsp + 192]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000016024b4b60f                   // movzx    esi, byte [rsp + 352]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	LONG $0x24548948; BYTE $0x70               // mov    qword [rsp + 112], rdx
-	QUAD $0x0000017024848348; BYTE $0xff       // add    qword [rsp + 368], -1
-	JNE  LBB10_43
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x000001b024bc8b4c                   // mov    r15, qword [rsp + 432]
-	JMP  LBB10_128
-
-LBB10_45:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB10_70
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB10_182
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_51
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_49:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
-	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_49
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB10_51:
-	LONG $0x05fbc149             // sar    r11, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_55
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-
-LBB10_53:
-	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x000001502494930f                   // setae    byte [rsp + 336]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	QUAD $0x000000d02494930f                   // setae    byte [rsp + 208]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x000001302494930f                   // setae    byte [rsp + 304]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x000001002494930f                   // setae    byte [rsp + 256]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	QUAD $0x000000f02494930f                   // setae    byte [rsp + 240]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	QUAD $0x000000c02494930f                   // setae    byte [rsp + 192]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
-	JNE  LBB10_53
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
-
-LBB10_55:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_143
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_145
-
-LBB10_58:
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_62
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_60:
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	LONG $0x01768d48             // lea    rsi, [rsi + 1]
-	LONG $0x000000ba; BYTE $0x00 // mov    edx, 0
-	WORD $0xd280; BYTE $0xff     // adc    dl, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_60
-	LONG $0x01c68349             // add    r14, 1
-
-LBB10_62:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_131
-	LONG $0x10ff8349             // cmp    r15, 16
-	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x000001d024bc894c     // mov    qword [rsp + 464], r15
-	JB   LBB10_66
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x05e0c148             // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB10_194
-	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
-	JAE  LBB10_194
-
-LBB10_66:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x000001a024848948 // mov    qword [rsp + 416], rax
-	QUAD $0x000000d024b4894c // mov    qword [rsp + 208], r14
-
-LBB10_67:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	QUAD $0x000001a024b42b4c // sub    r14, qword [rsp + 416]
-	QUAD $0x0000017024b4894c // mov    qword [rsp + 368], r14
-
-LBB10_68:
-	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
-	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
-	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
-	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
-	QUAD $0x000001502494930f                   // setae    byte [rsp + 336]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
-	QUAD $0x000001302494930f                   // setae    byte [rsp + 304]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
-	QUAD $0x000001002494930f                   // setae    byte [rsp + 256]
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
-	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
-	QUAD $0x000000f02494930f                   // setae    byte [rsp + 240]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
-	QUAD $0x000000c02494930f                   // setae    byte [rsp + 192]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
-	QUAD $0x000001602494930f                   // setae    byte [rsp + 352]
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	QUAD $0x0000014024b40240                   // add    sil, byte [rsp + 320]
-	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
-	LONG $0x02e7c041                           // shl    r15b, 2
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	LONG $0x03e4c041                           // shl    r12b, 3
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0xc208                               // or    dl, al
-	LONG $0x04e6c041                           // shl    r14b, 4
-	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
-	LONG $0x05e5c041                           // shl    r13b, 5
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	QUAD $0x0000010024b4b60f                   // movzx    esi, byte [rsp + 256]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x10249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 272]
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
-	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
-	QUAD $0x000000c024bcb60f                   // movzx    edi, byte [rsp + 192]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
-	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
-	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xc000                               // add    al, al
-	LONG $0x70244402                           // add    al, byte [rsp + 112]
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0xc689                               // mov    esi, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	QUAD $0x0000016024b4b60f                   // movzx    esi, byte [rsp + 352]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xc308                               // or    bl, al
-	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
-	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
-	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
-	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
-	LONG $0x04c28348                           // add    rdx, 4
-	QUAD $0x000000d024948948                   // mov    qword [rsp + 208], rdx
-	QUAD $0x0000017024848348; BYTE $0xff       // add    qword [rsp + 368], -1
-	JNE  LBB10_68
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x000001d024bc8b4c                   // mov    r15, qword [rsp + 464]
-	JMP  LBB10_132
-
-LBB10_70:
-	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_74
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_72:
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_72
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB10_74:
-	LONG $0x05fbc149             // sar    r11, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_78
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-
-LBB10_76:
-	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
-	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
-	QUAD $0x0000015024949d0f                   // setge    byte [rsp + 336]
-	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
-	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
-	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
-	QUAD $0x0000013024949d0f                   // setge    byte [rsp + 304]
-	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
-	QUAD $0x0000010024949d0f                   // setge    byte [rsp + 256]
-	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
-	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
-	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
-	QUAD $0x000000f024949d0f                   // setge    byte [rsp + 240]
-	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
-	QUAD $0x000000c024949d0f                   // setge    byte [rsp + 192]
-	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
-	JNE  LBB10_76
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
-
-LBB10_78:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_147
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_149
-
-LBB10_81:
-	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_85
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_83:
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
-	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
-	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_83
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB10_85:
-	LONG $0x05fbc149             // sar    r11, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_89
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-
-LBB10_87:
-	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
-	LONG $0x2e394466                           // cmp    word [rsi], r13w
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
-	QUAD $0x000001502494930f                   // setae    byte [rsp + 336]
-	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
-	QUAD $0x000000d02494930f                   // setae    byte [rsp + 208]
-	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
-	QUAD $0x000001302494930f                   // setae    byte [rsp + 304]
-	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
-	QUAD $0x000001002494930f                   // setae    byte [rsp + 256]
-	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
-	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
-	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
-	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
-	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
-	QUAD $0x000000f02494930f                   // setae    byte [rsp + 240]
-	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
-	QUAD $0x000000c02494930f                   // setae    byte [rsp + 192]
-	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
-	LONG $0xd0930f41                           // setae    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
-	JNE  LBB10_87
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
-
-LBB10_89:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_170
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_172
-
-LBB10_92:
-	LONG $0x1ab70f44         // movzx    r11d, word [rdx]
-	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xfa490f4d         // cmovns    r15, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_96
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_94:
-	LONG $0x1e394466             // cmp    word [rsi], r11w
-	LONG $0x02768d48             // lea    rsi, [rsi + 2]
-	WORD $0x9d0f; BYTE $0xd2     // setge    dl
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_94
-	LONG $0x01c68349             // add    r14, 1
-
-LBB10_96:
-	LONG $0x05ffc149             // sar    r15, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	QUAD $0x00000188249c8944     // mov    dword [rsp + 392], r11d
-	JL   LBB10_135
-	LONG $0x08ff8349             // cmp    r15, 8
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x000001c824bc894c     // mov    qword [rsp + 456], r15
-	JB   LBB10_100
-	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
-	LONG $0x06e0c148             // shl    rax, 6
-	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
-	JAE  LBB10_197
-	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
-	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
-	JBE  LBB10_197
-
-LBB10_100:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000019024848948 // mov    qword [rsp + 400], rax
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
-
-LBB10_101:
-	LONG $0x2464894c; BYTE $0x08 // mov    qword [rsp + 8], r12
-	WORD $0x894d; BYTE $0xfe     // mov    r14, r15
-	QUAD $0x0000019024b42b4c     // sub    r14, qword [rsp + 400]
-	QUAD $0x0000014024b4894c     // mov    qword [rsp + 320], r14
-	QUAD $0x0000018824ac8b44     // mov    r13d, dword [rsp + 392]
-
-LBB10_102:
-	LONG $0x2b394566                           // cmp    word [r11], r13w
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x6b394566; BYTE $0x02               // cmp    word [r11 + 2], r13w
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x6b394566; BYTE $0x04               // cmp    word [r11 + 4], r13w
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x6b394566; BYTE $0x06               // cmp    word [r11 + 6], r13w
-	QUAD $0x0000015024949d0f                   // setge    byte [rsp + 336]
-	LONG $0x6b394566; BYTE $0x08               // cmp    word [r11 + 8], r13w
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x6b394566; BYTE $0x0a               // cmp    word [r11 + 10], r13w
-	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
-	LONG $0x6b394566; BYTE $0x0c               // cmp    word [r11 + 12], r13w
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x6b394566; BYTE $0x0e               // cmp    word [r11 + 14], r13w
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x6b394566; BYTE $0x10               // cmp    word [r11 + 16], r13w
-	QUAD $0x0000013024949d0f                   // setge    byte [rsp + 304]
-	LONG $0x6b394566; BYTE $0x12               // cmp    word [r11 + 18], r13w
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x6b394566; BYTE $0x14               // cmp    word [r11 + 20], r13w
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
-	QUAD $0x0000010024949d0f                   // setge    byte [rsp + 256]
-	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
-	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
-	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
-	QUAD $0x000000f024949d0f                   // setge    byte [rsp + 240]
-	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
-	QUAD $0x000000c024949d0f                   // setge    byte [rsp + 192]
-	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
-	QUAD $0x0000016024949d0f                   // setge    byte [rsp + 352]
-	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 304]
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	QUAD $0x000000e0248cb60f                   // movzx    ecx, byte [rsp + 224]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xc108                               // or    cl, al
-	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	QUAD $0x000000d0248cb60f                   // movzx    ecx, byte [rsp + 208]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x0000010024b4b60f                   // movzx    esi, byte [rsp + 256]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0xcb08                               // or    bl, cl
-	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
-	QUAD $0x00000110248cb60f                   // movzx    ecx, byte [rsp + 272]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xb0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 176]
-	WORD $0xce89                               // mov    esi, ecx
-	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	QUAD $0x000000f0248cb60f                   // movzx    ecx, byte [rsp + 240]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	QUAD $0x000000c0248cb60f                   // movzx    ecx, byte [rsp + 192]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0xce89                               // mov    esi, ecx
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	WORD $0x1988                               // mov    byte [rcx], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x01798840                           // mov    byte [rcx + 1], dil
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x30244402                           // add    al, byte [rsp + 48]
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc389                               // mov    ebx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd808                               // or    al, bl
-	QUAD $0x00000160249cb60f                   // movzx    ebx, byte [rsp + 352]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
-	WORD $0xda08                               // or    dl, bl
-	WORD $0xc208                               // or    dl, al
-	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
-	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
-	LONG $0x40c38349                           // add    r11, 64
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
-	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
-	JNE  LBB10_102
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x000001c824bc8b4c                   // mov    r15, qword [rsp + 456]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	JMP  LBB10_136
-
-LBB10_104:
-	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
-	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2 // test    r10, r10
-	LONG $0xda490f4d         // cmovns    r11, r10
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB10_108
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB10_106:
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0xdaf6                               // neg    dl
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
-	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB10_106
-	LONG $0x01c68349                           // add    r14, 1
-
-LBB10_108:
-	LONG $0x05fbc149             // sar    r11, 5
-	LONG $0x20fa8349             // cmp    r10, 32
-	JL   LBB10_112
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-
-LBB10_110:
-	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
-	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
-	QUAD $0x0000015024949d0f                   // setge    byte [rsp + 336]
-	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
-	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
-	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
-	QUAD $0x0000013024949d0f                   // setge    byte [rsp + 304]
-	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
-	QUAD $0x0000010024949d0f                   // setge    byte [rsp + 256]
-	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
-	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
-	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
-	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
-	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
-	QUAD $0x000000f024949d0f                   // setge    byte [rsp + 240]
-	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
-	QUAD $0x000000c024949d0f                   // setge    byte [rsp + 192]
-	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
-	WORD $0xc308                               // or    bl, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
-	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd789                               // mov    edi, edx
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
-	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
-	LONG $0x06e7c040                           // shl    dil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
-	WORD $0xd308                               // or    bl, dl
-	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
-	WORD $0xd200                               // add    dl, dl
-	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0xd789                               // mov    edi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
-	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
-	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
-	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
-	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
-	JNE  LBB10_110
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
-
-LBB10_112:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_175
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB10_177
-
-LBB10_115:
-	LONG $0x1f5a8d4d             // lea    r11, [r10 + 31]
-	WORD $0x854d; BYTE $0xd2     // test    r10, r10
-	LONG $0xda490f4d             // cmovns    r11, r10
-	LONG $0x07418d41             // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
-	LONG $0xc1490f41             // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8     // and    eax, -8
-	LONG $0x100f44f3; BYTE $0x1a // movss    xmm11, dword [rdx]
-	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
-	JE   LBB10_119
-	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
-
-LBB10_117:
-	LONG $0x1e2e0f44             // ucomiss    xmm11, dword [rsi]
-	WORD $0x960f; BYTE $0xd2     // setbe    dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xdaf6                 // neg    dl
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB10_117
-	LONG $0x01c68349             // add    r14, 1
-
-LBB10_119:
-	LONG $0x05fbc149         // sar    r11, 5
-	LONG $0x20fa8349         // cmp    r10, 32
-	JL   LBB10_139
-	LONG $0x04fb8349         // cmp    r11, 4
-	JB   LBB10_123
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
-	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
-	JAE  LBB10_200
-	LONG $0x9e048d4b         // lea    rax, [r14 + 4*r11]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	JBE  LBB10_200
-
-LBB10_123:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-
-LBB10_124:
-	LONG $0x247c894c; BYTE $0x08 // mov    qword [rsp + 8], r15
-	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
-	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
-	WORD $0x294d; BYTE $0xc3     // sub    r11, r8
-	QUAD $0x000000a0249c894c     // mov    qword [rsp + 160], r11
-
-LBB10_125:
-	LONG $0x1b2e0f44                           // ucomiss    xmm11, dword [rbx]
-	QUAD $0x000001502494960f                   // setbe    byte [rsp + 336]
-	LONG $0x5b2e0f44; BYTE $0x04               // ucomiss    xmm11, dword [rbx + 4]
-	LONG $0xd0960f41                           // setbe    r8b
-	LONG $0x5b2e0f44; BYTE $0x08               // ucomiss    xmm11, dword [rbx + 8]
-	LONG $0xd6960f41                           // setbe    r14b
-	LONG $0x5b2e0f44; BYTE $0x0c               // ucomiss    xmm11, dword [rbx + 12]
-	LONG $0xd5960f41                           // setbe    r13b
-	LONG $0x5b2e0f44; BYTE $0x10               // ucomiss    xmm11, dword [rbx + 16]
-	QUAD $0x000000e02494960f                   // setbe    byte [rsp + 224]
-	LONG $0x5b2e0f44; BYTE $0x14               // ucomiss    xmm11, dword [rbx + 20]
-	QUAD $0x000000d02494960f                   // setbe    byte [rsp + 208]
-	LONG $0x5b2e0f44; BYTE $0x18               // ucomiss    xmm11, dword [rbx + 24]
-	WORD $0x960f; BYTE $0xd0                   // setbe    al
-	LONG $0x5b2e0f44; BYTE $0x1c               // ucomiss    xmm11, dword [rbx + 28]
-	LONG $0xd3960f41                           // setbe    r11b
-	LONG $0x5b2e0f44; BYTE $0x20               // ucomiss    xmm11, dword [rbx + 32]
-	QUAD $0x000001002494960f                   // setbe    byte [rsp + 256]
-	LONG $0x5b2e0f44; BYTE $0x24               // ucomiss    xmm11, dword [rbx + 36]
-	WORD $0x960f; BYTE $0xd2                   // setbe    dl
-	LONG $0x5b2e0f44; BYTE $0x28               // ucomiss    xmm11, dword [rbx + 40]
-	LONG $0xd6960f40                           // setbe    sil
-	LONG $0x5b2e0f44; BYTE $0x2c               // ucomiss    xmm11, dword [rbx + 44]
-	LONG $0xd7960f40                           // setbe    dil
-	LONG $0x5b2e0f44; BYTE $0x30               // ucomiss    xmm11, dword [rbx + 48]
-	LONG $0xd2960f41                           // setbe    r10b
-	LONG $0x5b2e0f44; BYTE $0x34               // ucomiss    xmm11, dword [rbx + 52]
-	LONG $0xd4960f41                           // setbe    r12b
-	LONG $0x5b2e0f44; BYTE $0x38               // ucomiss    xmm11, dword [rbx + 56]
-	QUAD $0x000001102494960f                   // setbe    byte [rsp + 272]
-	LONG $0x5b2e0f44; BYTE $0x3c               // ucomiss    xmm11, dword [rbx + 60]
-	LONG $0xd1960f41                           // setbe    r9b
-	LONG $0x5b2e0f44; BYTE $0x40               // ucomiss    xmm11, dword [rbx + 64]
-	QUAD $0x000000b02494960f                   // setbe    byte [rsp + 176]
-	LONG $0x5b2e0f44; BYTE $0x44               // ucomiss    xmm11, dword [rbx + 68]
-	QUAD $0x000001302494960f                   // setbe    byte [rsp + 304]
-	LONG $0x5b2e0f44; BYTE $0x48               // ucomiss    xmm11, dword [rbx + 72]
-	QUAD $0x000001202494960f                   // setbe    byte [rsp + 288]
-	LONG $0x5b2e0f44; BYTE $0x4c               // ucomiss    xmm11, dword [rbx + 76]
-	QUAD $0x000000f02494960f                   // setbe    byte [rsp + 240]
-	LONG $0x5b2e0f44; BYTE $0x50               // ucomiss    xmm11, dword [rbx + 80]
-	QUAD $0x000000c02494960f                   // setbe    byte [rsp + 192]
-	LONG $0x5b2e0f44; BYTE $0x54               // ucomiss    xmm11, dword [rbx + 84]
-	QUAD $0x000000902494960f                   // setbe    byte [rsp + 144]
-	LONG $0x5b2e0f44; BYTE $0x58               // ucomiss    xmm11, dword [rbx + 88]
-	QUAD $0x000000802494960f                   // setbe    byte [rsp + 128]
-	LONG $0x5b2e0f44; BYTE $0x5c               // ucomiss    xmm11, dword [rbx + 92]
-	LONG $0xd7960f41                           // setbe    r15b
-	LONG $0x5b2e0f44; BYTE $0x60               // ucomiss    xmm11, dword [rbx + 96]
-	LONG $0x2454960f; BYTE $0x30               // setbe    byte [rsp + 48]
-	LONG $0x5b2e0f44; BYTE $0x64               // ucomiss    xmm11, dword [rbx + 100]
-	LONG $0x2454960f; BYTE $0x70               // setbe    byte [rsp + 112]
-	LONG $0x5b2e0f44; BYTE $0x68               // ucomiss    xmm11, dword [rbx + 104]
-	LONG $0x2454960f; BYTE $0x60               // setbe    byte [rsp + 96]
-	LONG $0x5b2e0f44; BYTE $0x6c               // ucomiss    xmm11, dword [rbx + 108]
-	LONG $0x2454960f; BYTE $0x50               // setbe    byte [rsp + 80]
-	LONG $0x5b2e0f44; BYTE $0x70               // ucomiss    xmm11, dword [rbx + 112]
-	LONG $0x2454960f; BYTE $0x20               // setbe    byte [rsp + 32]
-	LONG $0x5b2e0f44; BYTE $0x74               // ucomiss    xmm11, dword [rbx + 116]
-	LONG $0x2454960f; BYTE $0x10               // setbe    byte [rsp + 16]
-	LONG $0x5b2e0f44; BYTE $0x78               // ucomiss    xmm11, dword [rbx + 120]
-	QUAD $0x000001602494960f                   // setbe    byte [rsp + 352]
-	LONG $0x5b2e0f44; BYTE $0x7c               // ucomiss    xmm11, dword [rbx + 124]
-	WORD $0x960f; BYTE $0xd1                   // setbe    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x0000015024840244                   // add    r8b, byte [rsp + 336]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x00249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 256]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x0000011024b4b60f                   // movzx    esi, byte [rsp + 272]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e1c041                           // shl    r9b, 7
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
-	QUAD $0x000001302484b60f                   // movzx    eax, byte [rsp + 304]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
-	QUAD $0x0000008024bcb60f                   // movzx    edi, byte [rsp + 128]
-	LONG $0x06e7c040                           // shl    dil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
-	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xc000                               // add    al, al
-	LONG $0x30244402                           // add    al, byte [rsp + 48]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	QUAD $0x000001602494b60f                   // movzx    edx, byte [rsp + 352]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
-	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68348                           // add    rsi, 4
-	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
-	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
-	JNE  LBB10_125
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
-	JMP  LBB10_140
-
-LBB10_127:
-	LONG $0x2474894c; BYTE $0x70 // mov    qword [rsp + 112], r14
-
-LBB10_128:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_151
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB10_154
-
-LBB10_131:
-	QUAD $0x000000d024b4894c // mov    qword [rsp + 208], r14
-
-LBB10_132:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_156
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB10_159
-
-LBB10_135:
-	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-
-LBB10_136:
-	LONG $0x05e7c149         // shl    r15, 5
-	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
-	WORD $0xf749; BYTE $0xd7 // not    r15
-	WORD $0x014d; BYTE $0xd7 // add    r15, r10
-	JNE  LBB10_183
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB10_185
-
-LBB10_139:
-	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-
-LBB10_140:
-	LONG $0x05e3c149         // shl    r11, 5
-	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
-	JGE  LBB10_182
-	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
-	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	JNE  LBB10_187
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB10_189
-
-LBB10_143:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB10_144:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x16 // movzx    r10d, byte [r14 + rdx]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x16048841             // mov    byte [r14 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x161c8841             // mov    byte [r14 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB10_144
-
-LBB10_145:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-	JMP  LBB10_174
-
-LBB10_147:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB10_148:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_148
-
-LBB10_149:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-	JMP  LBB10_179
-
-LBB10_151:
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0x24748b4c; BYTE $0x70 // mov    r14, qword [rsp + 112]
-
-LBB10_152:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB10_152
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB10_154:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB10_182
-	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x24448b4c; BYTE $0x70 // mov    r8, qword [rsp + 112]
-	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	JMP  LBB10_161
-
-LBB10_156:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	QUAD $0x000000d024b48b4c // mov    r14, qword [rsp + 208]
-
-LBB10_157:
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
-	LONG $0x000000bb; BYTE $0x00 // mov    ebx, 0
-	WORD $0xd380; BYTE $0xff     // adc    bl, -1
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
-	LONG $0x02488d4c             // lea    r9, [rax + 2]
-	LONG $0x000000bb; BYTE $0x00 // mov    ebx, 0
-	WORD $0xd380; BYTE $0xff     // adc    bl, -1
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
-	JNE  LBB10_157
-	WORD $0x014c; BYTE $0xce     // add    rsi, r9
-
-LBB10_159:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3844; BYTE $0x1e // cmp    byte [rsi], r11b
-	WORD $0xff14             // adc    al, -1
-	WORD $0x894c; BYTE $0xca // mov    rdx, r9
-	LONG $0x03eac148         // shr    rdx, 3
-	QUAD $0x000000d024848b4c // mov    r8, qword [rsp + 208]
-	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
-	LONG $0x07e18041         // and    r9b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9 // mov    ecx, r9d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-
-LBB10_161:
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
-	JMP  LBB10_182
-
-LBB10_162:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB10_163:
-	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x16 // movzx    r10d, byte [r14 + rdx]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x16048841             // mov    byte [r14 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
-	LONG $0x08768d48             // lea    rsi, [rsi + 8]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x161c8841             // mov    byte [r14 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB10_163
-
-LBB10_164:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
-	JMP  LBB10_174
-
-LBB10_166:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB10_167:
-	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
-	WORD $0x960f; BYTE $0xd0     // setbe    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x462e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rsi + 8]
-	WORD $0x960f; BYTE $0xd0     // setbe    al
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_167
-
-LBB10_168:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	LONG $0x062e0f66         // ucomisd    xmm0, qword [rsi]
-	WORD $0x960f; BYTE $0xd0 // setbe    al
-	JMP  LBB10_180
-
-LBB10_170:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB10_171:
-	LONG $0x2e394466             // cmp    word [rsi], r13w
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x14b60f45; BYTE $0x16 // movzx    r10d, byte [r14 + rdx]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x16048841             // mov    byte [r14 + rdx], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
-	LONG $0x04768d48             // lea    rsi, [rsi + 4]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x161c8841             // mov    byte [r14 + rdx], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB10_171
-
-LBB10_172:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB10_182
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x2e394466 // cmp    word [rsi], r13w
-
-LBB10_174:
-	WORD $0xff14             // adc    al, -1
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB10_181
-
-LBB10_175:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB10_176:
-	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
-	LONG $0x10768d48             // lea    rsi, [rsi + 16]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0xd830                 // xor    al, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0xc220                 // and    dl, al
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB10_176
-
-LBB10_177:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
-
-LBB10_179:
-	WORD $0x9d0f; BYTE $0xd0 // setge    al
-
-LBB10_180:
-	WORD $0xd8f6             // neg    al
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB10_181:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-
-LBB10_182:
-	MOVQ 496(SP), SP
-	RET
-
-LBB10_183:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	QUAD $0x0000018824b48b44 // mov    r14d, dword [rsp + 392]
-
-LBB10_184:
-	LONG $0x33394566             // cmp    word [r11], r14w
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	WORD $0xda20                 // and    dl, bl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x73394566; BYTE $0x02 // cmp    word [r11 + 2], r14w
-	LONG $0x045b8d4d             // lea    r11, [r11 + 4]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	WORD $0xd330                 // xor    bl, dl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0xd820                 // and    al, bl
-	WORD $0xd030                 // xor    al, dl
-	LONG $0x3c048841             // mov    byte [r12 + rdi], al
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB10_184
-
-LBB10_185:
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB10_182
-	LONG $0x8824848b; WORD $0x0001; BYTE $0x00 // mov    eax, dword [rsp + 392]
-	LONG $0x03394166                           // cmp    word [r11], ax
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	WORD $0xd8f6                               // neg    al
-	WORD $0x8948; BYTE $0xf2                   // mov    rdx, rsi
-	LONG $0x03eac148                           // shr    rdx, 3
-	LONG $0x143c8a41                           // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68040                           // and    sil, 7
-	WORD $0x01b3                               // mov    bl, 1
-	WORD $0xf189                               // mov    ecx, esi
-	WORD $0xe3d2                               // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8                   // xor    al, dil
-	WORD $0xc320                               // and    bl, al
-	WORD $0x3040; BYTE $0xfb                   // xor    bl, dil
-	LONG $0x141c8841                           // mov    byte [r12 + rdx], bl
-	JMP  LBB10_182
-
-LBB10_187:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x894d; BYTE $0xfb // mov    r11, r15
-
-LBB10_188:
-	LONG $0x1b2e0f44             // ucomiss    xmm11, dword [rbx]
-	WORD $0x960f; BYTE $0xd2     // setbe    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3b048841             // mov    byte [r11 + rdi], al
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x5b2e0f44; BYTE $0x04 // ucomiss    xmm11, dword [rbx + 4]
-	LONG $0xd1960f41             // setbe    r9b
-	LONG $0x08c38348             // add    rbx, 8
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xca     // and    dl, r9b
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB10_188
-
-LBB10_189:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB10_182
-	LONG $0x1b2e0f44         // ucomiss    xmm11, dword [rbx]
-	WORD $0x960f; BYTE $0xd0 // setbe    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	LONG $0x173c8a41         // mov    dil, byte [r15 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
-	JMP  LBB10_182
-
-LBB10_191:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000017024848948             // mov    qword [rsp + 368], rax
-	QUAD $0x000000a024bc894c             // mov    qword [rsp + 160], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	LONG $0x24448948; BYTE $0x70         // mov    qword [rsp + 112], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000140248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 320], xmm1
-	WORD $0x3145; BYTE $0xc0             // xor    r8d, r8d
-	QUAD $0x0000016024b4894c             // mov    qword [rsp + 352], r14
-
-LBB10_192:
-	QUAD $0x000001202484894c                   // mov    qword [rsp + 288], r8
-	LONG $0x05e0c149                           // shl    r8, 5
-	WORD $0x894d; BYTE $0xc1                   // mov    r9, r8
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
-	LONG $0x2444894c; BYTE $0x10               // mov    qword [rsp + 16], r8
-	WORD $0x894d; BYTE $0xc3                   // mov    r11, r8
-	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
-	LONG $0x0cb60f42; BYTE $0x06               // movzx    ecx, byte [rsi + r8]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x4cb60f42; WORD $0x0106             // movzx    ecx, byte [rsi + r8 + 1]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x4cb60f42; WORD $0x0206             // movzx    ecx, byte [rsi + r8 + 2]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x4cb60f42; WORD $0x0306             // movzx    ecx, byte [rsi + r8 + 3]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x4cb60f42; WORD $0x0406             // movzx    ecx, byte [rsi + r8 + 4]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x4cb60f42; WORD $0x0506             // movzx    ecx, byte [rsi + r8 + 5]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00009024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm0
-	LONG $0x4cb60f42; WORD $0x0606             // movzx    ecx, byte [rsi + r8 + 6]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x4cb60f42; WORD $0x0706             // movzx    ecx, byte [rsi + r8 + 7]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
-	LONG $0x4cb60f42; WORD $0x0806             // movzx    ecx, byte [rsi + r8 + 8]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x4cb60f42; WORD $0x0906             // movzx    ecx, byte [rsi + r8 + 9]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x4cb60f42; WORD $0x0a06             // movzx    ecx, byte [rsi + r8 + 10]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x4cb60f42; WORD $0x0b06             // movzx    ecx, byte [rsi + r8 + 11]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x4cb60f42; WORD $0x0c06             // movzx    ecx, byte [rsi + r8 + 12]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x4cb60f42; WORD $0x1006             // movzx    ecx, byte [rsi + r8 + 16]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	QUAD $0x000000d02484894c                   // mov    qword [rsp + 208], r8
-	LONG $0x4cb60f42; WORD $0x1806             // movzx    ecx, byte [rsi + r8 + 24]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	LONG $0x20c98348                           // or    rcx, 32
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
-	LONG $0x40c98349                           // or    r9, 64
-	LONG $0x244c894c; BYTE $0x20               // mov    qword [rsp + 32], r9
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	WORD $0x894d; BYTE $0xc1                   // mov    r9, r8
-	LONG $0x60c98349                           // or    r9, 96
-	QUAD $0x00000080248c8148; LONG $0x00000080 // or    qword [rsp + 128], 128
-	LONG $0xa0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 160
-	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	LONG $0xe0cb8148; WORD $0x0000; BYTE $0x00 // or    rbx, 224
-	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
-	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
-	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
-	LONG $0x60ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 352
-	LONG $0x24548948; BYTE $0x30               // mov    qword [rsp + 48], rdx
-	LONG $0x80ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 384
-	QUAD $0x000000c024b4894c                   // mov    qword [rsp + 192], r14
-	LONG $0xa0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 416
-	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	LONG $0xc0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 448
-	LONG $0x247c8948; BYTE $0x10               // mov    qword [rsp + 16], rdi
-	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
-	LONG $0xe0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 480
-	QUAD $0x012e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r13], 1
-	QUAD $0x020e0c203a0f4466                   // pinsrb    xmm9, byte [rsi + rcx], 2
-	QUAD $0x030e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r9], 3
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	QUAD $0x04060c203a0f4666                   // pinsrb    xmm9, byte [rsi + r8], 4
-	QUAD $0x05260c203a0f4666                   // pinsrb    xmm9, byte [rsi + r12], 5
-	QUAD $0x063e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r15], 6
-	QUAD $0x071e0c203a0f4466                   // pinsrb    xmm9, byte [rsi + rbx], 7
-	QUAD $0x081e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r11], 8
-	QUAD $0x09160c203a0f4666                   // pinsrb    xmm9, byte [rsi + r10], 9
-	QUAD $0x0a060c203a0f4466                   // pinsrb    xmm9, byte [rsi + rax], 10
-	QUAD $0x0b160c203a0f4466                   // pinsrb    xmm9, byte [rsi + rdx], 11
-	QUAD $0x0c360c203a0f4666                   // pinsrb    xmm9, byte [rsi + r14], 12
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x0d2e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r13], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e0e0c203a0f4466                   // pinsrb    xmm9, byte [rsi + rcx], 14
-	QUAD $0x000000e024bc8948                   // mov    qword [rsp + 224], rdi
-	QUAD $0x0f3e0c203a0f4466                   // pinsrb    xmm9, byte [rsi + rdi], 15
-	QUAD $0x014024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 320]
-	LONG $0x6f0f4566; BYTE $0xdf               // movdqa    xmm11, xmm15
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x01010e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 1], 1
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x02010e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 1], 2
-	QUAD $0x010e54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r9 + 1], 3
-	QUAD $0x010654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r8 + 1], 4
-	QUAD $0x012654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r12 + 1], 5
-	QUAD $0x013e54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r15 + 1], 6
-	QUAD $0x07011e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 1], 7
-	QUAD $0x011e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r11 + 1], 8
-	QUAD $0x011654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r10 + 1], 9
-	QUAD $0x0a010654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 1], 10
-	QUAD $0x0b011654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 1], 11
-	QUAD $0x013654203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r14 + 1], 12
-	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
-	QUAD $0x012e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r13 + 1], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e010e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 1], 14
-	QUAD $0x0f013e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 1], 15
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x01020e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 2], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x022e5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r13 + 2], 2
-	QUAD $0x020e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r9 + 2], 3
-	QUAD $0x02065c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r8 + 2], 4
-	QUAD $0x02265c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r12 + 2], 5
-	QUAD $0x023e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r15 + 2], 6
-	QUAD $0x07021e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 2], 7
-	QUAD $0x021e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 2], 8
-	QUAD $0x02165c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r10 + 2], 9
-	QUAD $0x0a02065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 2], 10
-	QUAD $0x0b02165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 2], 11
-	QUAD $0x02365c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r14 + 2], 12
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0d020e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 2], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e020e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 2], 14
-	QUAD $0x0f023e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 2], 15
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x01030e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 3], 1
-	QUAD $0x032e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r13 + 3], 2
-	QUAD $0x030e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r9 + 3], 3
-	QUAD $0x030664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r8 + 3], 4
-	QUAD $0x032664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r12 + 3], 5
-	QUAD $0x033e64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r15 + 3], 6
-	QUAD $0x07031e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 3], 7
-	QUAD $0x031e64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r11 + 3], 8
-	QUAD $0x031664203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r10 + 3], 9
-	QUAD $0x0a030664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 3], 10
-	QUAD $0x0b031664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 3], 11
-	QUAD $0x033664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r14 + 3], 12
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0d030e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 3], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e030e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 3], 14
-	QUAD $0x0f033e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 3], 15
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x01040e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 4], 1
-	QUAD $0x042e74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r13 + 4], 2
-	QUAD $0x040e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r9 + 4], 3
-	QUAD $0x040674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r8 + 4], 4
-	QUAD $0x042674203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r12 + 4], 5
-	QUAD $0x043e74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r15 + 4], 6
-	QUAD $0x07041e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 4], 7
-	QUAD $0x041e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 4], 8
-	QUAD $0x041674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r10 + 4], 9
-	QUAD $0x0a040674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 4], 10
-	QUAD $0x0b041674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 4], 11
-	QUAD $0x043674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r14 + 4], 12
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0d040e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 4], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e040e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 4], 14
-	QUAD $0x0f043e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 4], 15
-	QUAD $0x000090249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 144]
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	QUAD $0x01050e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 5], 1
-	QUAD $0x052e5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r13 + 5], 2
-	QUAD $0x050e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r9 + 5], 3
-	QUAD $0x05065c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r8 + 5], 4
-	QUAD $0x05265c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r12 + 5], 5
-	QUAD $0x053e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r15 + 5], 6
-	QUAD $0x07051e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 5], 7
-	QUAD $0x051e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 5], 8
-	QUAD $0x05165c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r10 + 5], 9
-	QUAD $0x0a05065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 5], 10
-	QUAD $0x0b05165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 5], 11
-	QUAD $0x05365c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r14 + 5], 12
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0d050e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 5], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e050e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 5], 14
-	QUAD $0x0f053e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 5], 15
-	QUAD $0x000090249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm3
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x01063e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 6], 1
-	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
-	QUAD $0x062e7c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rsi + r13 + 6], 2
-	QUAD $0x060e7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r9 + 6], 3
-	QUAD $0x06067c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r8 + 6], 4
-	QUAD $0x06267c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r12 + 6], 5
-	QUAD $0x063e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r15 + 6], 6
-	QUAD $0x07061e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 6], 7
-	QUAD $0x061e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r11 + 6], 8
-	QUAD $0x06167c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r10 + 6], 9
-	QUAD $0x0a06067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 6], 10
-	QUAD $0x0b06167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 6], 11
-	QUAD $0x06367c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r14 + 6], 12
-	QUAD $0x083e6c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rdi + 8], 1
-	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
-	QUAD $0x080e6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rcx + 8], 2
-	QUAD $0x080e6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r9 + 8], 3
-	QUAD $0x08066c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r8 + 8], 4
-	QUAD $0x08266c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r12 + 8], 5
-	QUAD $0x083e6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rsi + r15 + 8], 6
-	QUAD $0x081e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rbx + 8], 7
-	QUAD $0x081e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r11 + 8], 8
-	QUAD $0x08166c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r10 + 8], 9
-	QUAD $0x08066c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rax + 8], 10
-	QUAD $0x08166c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + rdx + 8], 11
-	QUAD $0x08366c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r14 + 8], 12
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x08066c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r8 + 8], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x080e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rcx + 8], 14
-	LONG $0x640f4566; BYTE $0xd9               // pcmpgtb    xmm11, xmm9
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x083e6c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdi + 8], 15
-	LONG $0x6f0f4566; BYTE $0xcf               // movdqa    xmm9, xmm15
-	LONG $0x640f4566; BYTE $0xcd               // pcmpgtb    xmm9, xmm13
-	QUAD $0x102e74203a0f4666; BYTE $0x01       // pinsrb    xmm14, byte [rsi + r13 + 16], 1
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x100e74203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rsi + rcx + 16], 2
-	QUAD $0x100e74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r9 + 16], 3
-	WORD $0x894d; BYTE $0xce                   // mov    r14, r9
-	QUAD $0x000000b0248c894c                   // mov    qword [rsp + 176], r9
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	QUAD $0x100e74203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rsi + rcx + 16], 4
-	QUAD $0x102674203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rsi + r12 + 16], 5
-	QUAD $0x000000f024a4894c                   // mov    qword [rsp + 240], r12
-	QUAD $0x103e74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rsi + r15 + 16], 6
-	QUAD $0x101e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rbx + 16], 7
-	QUAD $0x101e74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r11 + 16], 8
-	QUAD $0x101674203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r10 + 16], 9
-	QUAD $0x100674203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rax + 16], 10
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	QUAD $0x101674203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + rdx + 16], 11
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x101674203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + rdx + 16], 12
-	QUAD $0x100674203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + r8 + 16], 13
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x102e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r13 + 16], 14
-	QUAD $0x103e74203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rdi + 16], 15
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0118066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 24], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0218066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 24], 2
-	QUAD $0x18366c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r14 + 24], 3
-	QUAD $0x04180e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 24], 4
-	QUAD $0x18266c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r12 + 24], 5
-	QUAD $0x183e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r15 + 24], 6
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x07181e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 24], 7
-	QUAD $0x181e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r11 + 24], 8
-	QUAD $0x18166c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r10 + 24], 9
-	QUAD $0x180e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r9 + 24], 10
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0b18066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 24], 11
-	QUAD $0x0c18166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 24], 12
-	QUAD $0x18066c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r8 + 24], 13
-	QUAD $0x182e6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r13 + 24], 14
-	QUAD $0x0f183e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 24], 15
-	LONG $0x640f4166; BYTE $0xde               // pcmpgtb    xmm3, xmm14
-	QUAD $0x000130249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm3
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0xdd640f66                           // pcmpgtb    xmm3, xmm5
-	QUAD $0x000100249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm3
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	LONG $0xea640f66                           // pcmpgtb    xmm5, xmm2
-	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
-	LONG $0x0e54b60f; BYTE $0x0d               // movzx    edx, byte [rsi + rcx + 13]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	QUAD $0x06067c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r8 + 6], 13
-	QUAD $0x000001009d6f0f66                   // movdqa    xmm3, oword 256[rbp] /* [rip + .LCPI10_16] */
-	LONG $0xebdf0f66                           // pandn    xmm5, xmm3
-	LONG $0xfc0f4166; BYTE $0xeb               // paddb    xmm5, xmm11
-	LONG $0x6f0f4566; BYTE $0xef               // movdqa    xmm13, xmm15
-	LONG $0x640f4466; BYTE $0xe8               // pcmpgtb    xmm13, xmm0
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0xdc640f66                           // pcmpgtb    xmm3, xmm4
-	LONG $0x0e54b60f; BYTE $0x0e               // movzx    edx, byte [rsi + rcx + 14]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	QUAD $0x062e7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r13 + 6], 14
-	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI10_17] */
-	LONG $0xdf0f4466; BYTE $0xe8               // pandn    xmm13, xmm0
-	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
-	LONG $0xeb0f4166; BYTE $0xdd               // por    xmm3, xmm13
-	LONG $0x6f0f4566; BYTE $0xf7               // movdqa    xmm14, xmm15
-	LONG $0x640f4466; BYTE $0xf6               // pcmpgtb    xmm14, xmm6
-	LONG $0x0e54b60f; BYTE $0x0f               // movzx    edx, byte [rsi + rcx + 15]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI10_19] */
-	LONG $0xdf0f4466; BYTE $0xf0               // pandn    xmm14, xmm0
-	LONG $0xeb0f4466; BYTE $0xf3               // por    xmm14, xmm3
-	LONG $0x0e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rcx + 17]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	QUAD $0x0f063e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 6], 15
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xe8f80f66                           // psubb    xmm5, xmm0
-	LONG $0xeb0f4466; BYTE $0xf5               // por    xmm14, xmm5
-	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
-	QUAD $0x00009024ac640f66; BYTE $0x00       // pcmpgtb    xmm5, oword [rsp + 144]
-	LONG $0x6f0f4566; BYTE $0xef               // movdqa    xmm13, xmm15
-	LONG $0x6f0f4566; BYTE $0xdf               // movdqa    xmm11, xmm15
-	LONG $0x640f4466; BYTE $0xef               // pcmpgtb    xmm13, xmm7
-	LONG $0x0e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rcx + 18]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI10_20] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xdf0f4466; BYTE $0xe8               // pandn    xmm13, xmm0
-	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
-	LONG $0x0e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rcx + 19]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	QUAD $0x00011024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 272]
-	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
-	QUAD $0x01073e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 7], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x02070644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 7], 2
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x03070e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 7], 3
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	QUAD $0x04070644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 7], 4
-	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
-	QUAD $0x073e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r15 + 7], 5
-	QUAD $0x073644203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r14 + 7], 6
-	QUAD $0x07071e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 7], 7
-	QUAD $0x071e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 7], 8
-	QUAD $0x071644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r10 + 7], 9
-	QUAD $0x070e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r9 + 7], 10
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0b071644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 7], 11
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0c071644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 7], 12
-	QUAD $0x070644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r8 + 7], 13
-	QUAD $0x072e44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r13 + 7], 14
-	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
-	QUAD $0x072644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r12 + 7], 15
-	QUAD $0x093e44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rdi + 9], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x092e44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r13 + 9], 2
-	QUAD $0x090e44203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rcx + 9], 3
-	QUAD $0x090644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rax + 9], 4
-	QUAD $0x093e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r15 + 9], 5
-	QUAD $0x093644203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r14 + 9], 6
-	QUAD $0x091e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 9], 7
-	QUAD $0x091e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r11 + 9], 8
-	QUAD $0x091644203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r10 + 9], 9
-	QUAD $0x090e44203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r9 + 9], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x093e44203a0f4466; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + rdi + 9], 11
-	QUAD $0x091644203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rdx + 9], 12
-	QUAD $0x090644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r8 + 9], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x093e44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rdi + 9], 14
-	QUAD $0x092644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r12 + 9], 15
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x0a2e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r13 + 10], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0a3e54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdi + 10], 2
-	QUAD $0x0a0e54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rcx + 10], 3
-	QUAD $0x0a0654203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rax + 10], 4
-	QUAD $0x0a3e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r15 + 10], 5
-	QUAD $0x0a3654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r14 + 10], 6
-	QUAD $0x0a1e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rbx + 10], 7
-	QUAD $0x0a1e54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r11 + 10], 8
-	QUAD $0x0a1654203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r10 + 10], 9
-	QUAD $0x0a0e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r9 + 10], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0a3e54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rdi + 10], 11
-	QUAD $0x0a1654203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rdx + 10], 12
-	QUAD $0x0a0654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r8 + 10], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0a3e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rdi + 10], 14
-	QUAD $0x0a2654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r12 + 10], 15
-	QUAD $0x0b2e4c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rsi + r13 + 11], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x020b3e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 11], 2
-	QUAD $0x030b0e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 11], 3
-	QUAD $0x040b064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 11], 4
-	QUAD $0x0b3e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r15 + 11], 5
-	QUAD $0x0b364c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rsi + r14 + 11], 6
-	QUAD $0x070b1e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 11], 7
-	QUAD $0x0b1e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r11 + 11], 8
-	QUAD $0x0b164c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r10 + 11], 9
-	QUAD $0x0b0e4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r9 + 11], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b0b3e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 11], 11
-	QUAD $0x0c0b164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 11], 12
-	QUAD $0x0b064c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r8 + 11], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0b3e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 11], 14
-	QUAD $0x0b264c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r12 + 11], 15
-	QUAD $0x0c2e64203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rsi + r13 + 12], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x0c3e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdi + 12], 2
-	QUAD $0x0c0e64203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rcx + 12], 3
-	QUAD $0x0c0664203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rax + 12], 4
-	QUAD $0x0c3e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r15 + 12], 5
-	QUAD $0x0c3664203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rsi + r14 + 12], 6
-	QUAD $0x0c1e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rbx + 12], 7
-	QUAD $0x0c1e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r11 + 12], 8
-	QUAD $0x0c1664203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r10 + 12], 9
-	QUAD $0x0c0e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r9 + 12], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0c3e64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + rdi + 12], 11
-	QUAD $0x0c1664203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + rdx + 12], 12
-	QUAD $0x0c0664203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r8 + 12], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0c3e64203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rdi + 12], 14
-	QUAD $0x0c2664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r12 + 12], 15
-	QUAD $0x0d2e54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r13 + 13], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x020d3e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 13], 2
-	QUAD $0x030d0e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 13], 3
-	QUAD $0x040d0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 13], 4
-	QUAD $0x0d3e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r15 + 13], 5
-	QUAD $0x0d3654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r14 + 13], 6
-	QUAD $0x070d1e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 13], 7
-	QUAD $0x0d1e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r11 + 13], 8
-	QUAD $0x0d1654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r10 + 13], 9
-	QUAD $0x0d0e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 13], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b0d3e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 13], 11
-	QUAD $0x0c0d1654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 13], 12
-	QUAD $0x0d0654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r8 + 13], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0d3e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 13], 14
-	QUAD $0x0d2654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r12 + 13], 15
-	QUAD $0x0e2e64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r13 + 14], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x020e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 2
-	QUAD $0x030e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 3
-	QUAD $0x040e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 14], 4
-	QUAD $0x0e3e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r15 + 14], 5
-	QUAD $0x0e3664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r14 + 14], 6
-	QUAD $0x070e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 14], 7
-	QUAD $0x0e1e64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r11 + 14], 8
-	QUAD $0x0e1664203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r10 + 14], 9
-	QUAD $0x0e0e64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r9 + 14], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b0e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 11
-	QUAD $0x0c0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 12
-	QUAD $0x0e0664203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r8 + 14], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 14
-	QUAD $0x0e2664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r12 + 14], 15
-	QUAD $0x0f2e74203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r13 + 15], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x020f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 2
-	QUAD $0x030f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 3
-	QUAD $0x040f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 15], 4
-	QUAD $0x0f3e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r15 + 15], 5
-	QUAD $0x0f3674203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r14 + 15], 6
-	QUAD $0x070f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 15], 7
-	QUAD $0x0f1e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 15], 8
-	QUAD $0x0f1674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r10 + 15], 9
-	QUAD $0x0f0e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r9 + 15], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b0f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 11
-	QUAD $0x0c0f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 15], 12
-	QUAD $0x0f0674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r8 + 15], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e0f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 14
-	QUAD $0x0f2674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r12 + 15], 15
-	QUAD $0x112e5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r13 + 17], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x02113e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 17], 2
-	QUAD $0x03110e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 17], 3
-	QUAD $0x0411065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 17], 4
-	QUAD $0x113e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r15 + 17], 5
-	QUAD $0x11365c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r14 + 17], 6
-	QUAD $0x07111e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 17], 7
-	QUAD $0x111e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 17], 8
-	QUAD $0x11165c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r10 + 17], 9
-	QUAD $0x110e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 17], 10
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b113e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 17], 11
-	QUAD $0x0c11165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 17], 12
-	QUAD $0x11065c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r8 + 17], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e113e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 17], 14
-	QUAD $0x11265c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r12 + 17], 15
-	QUAD $0x122e7c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rsi + r13 + 18], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x02123e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 18], 2
-	QUAD $0x03120e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 18], 3
-	QUAD $0x0412067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 18], 4
-	QUAD $0x123e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r15 + 18], 5
-	QUAD $0x12367c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r14 + 18], 6
-	QUAD $0x07121e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 18], 7
-	QUAD $0x121e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r11 + 18], 8
-	QUAD $0x12167c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r10 + 18], 9
-	QUAD $0x120e7c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r9 + 18], 10
-	QUAD $0x00000150248c894c                   // mov    qword [rsp + 336], r9
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x0b123e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 18], 11
-	QUAD $0x0c12167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 12
-	WORD $0x8949; BYTE $0xd7                   // mov    r15, rdx
-	QUAD $0x12067c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r8 + 18], 13
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x12067c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r8 + 18], 14
-	QUAD $0x12267c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r12 + 18], 15
-	QUAD $0x132e7c203a0f4666; BYTE $0x01       // pinsrb    xmm15, byte [rsi + r13 + 19], 1
-	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
-	QUAD $0x132e7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r13 + 19], 2
-	QUAD $0x130e7c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rcx + 19], 3
-	QUAD $0x13067c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rax + 19], 4
-	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
-	QUAD $0x130e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rcx + 19], 5
-	QUAD $0x13367c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rsi + r14 + 19], 6
-	QUAD $0x131e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rbx + 19], 7
-	QUAD $0x131e7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r11 + 19], 8
-	QUAD $0x13167c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r10 + 19], 9
-	QUAD $0x130e7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r9 + 19], 10
-	QUAD $0x133e7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + rdi + 19], 11
-	LONG $0x6f0f4166; BYTE $0xeb               // movdqa    xmm5, xmm11
-	LONG $0xe8640f66                           // pcmpgtb    xmm5, xmm0
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
-	LONG $0x0654b60f; BYTE $0x14               // movzx    edx, byte [rsi + rax + 20]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	LONG $0xeb0f4166; BYTE $0xee               // por    xmm5, xmm14
-	QUAD $0x00009024ac7f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm5
-	LONG $0x6f0f4566; BYTE $0xeb               // movdqa    xmm13, xmm11
-	LONG $0x640f4566; BYTE $0xe8               // pcmpgtb    xmm13, xmm8
-	LONG $0x0654b60f; BYTE $0x15               // movzx    edx, byte [rsi + rax + 21]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	QUAD $0x133e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 19], 12
-	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI10_16] */
-	LONG $0xfc0f4566; BYTE $0xe9               // paddb    xmm13, xmm9
-	LONG $0x6f0f4166; BYTE $0xeb               // movdqa    xmm5, xmm11
-	LONG $0x640f4166; BYTE $0xea               // pcmpgtb    xmm5, xmm10
-	LONG $0x6f0f4566; BYTE $0xcb               // movdqa    xmm9, xmm11
-	LONG $0x640f4466; BYTE $0xc9               // pcmpgtb    xmm9, xmm1
-	LONG $0x0654b60f; BYTE $0x16               // movzx    edx, byte [rsi + rax + 22]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x13167c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rdx + 19], 13
-	QUAD $0x00000110addf0f66                   // pandn    xmm5, oword 272[rbp] /* [rip + .LCPI10_17] */
-	QUAD $0x0001208ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xeb0f4466; BYTE $0xcd               // por    xmm9, xmm5
-	LONG $0x6f0f4166; BYTE $0xcb               // movdqa    xmm1, xmm11
-	LONG $0x640f4166; BYTE $0xcc               // pcmpgtb    xmm1, xmm12
-	LONG $0x0654b60f; BYTE $0x17               // movzx    edx, byte [rsi + rax + 23]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	QUAD $0x000001308ddf0f66                   // pandn    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
-	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
-	LONG $0x0654b60f; BYTE $0x19               // movzx    edx, byte [rsi + rax + 25]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	QUAD $0x13067c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r8 + 19], 14
-	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI10_22] */
-	LONG $0xeb0f4166; BYTE $0xcd               // por    xmm1, xmm13
-	LONG $0x6f0f4566; BYTE $0xf3               // movdqa    xmm14, xmm11
-	LONG $0x640f4466; BYTE $0xf2               // pcmpgtb    xmm14, xmm2
-	LONG $0x6f0f4566; BYTE $0xeb               // movdqa    xmm13, xmm11
-	LONG $0x640f4466; BYTE $0xec               // pcmpgtb    xmm13, xmm4
-	LONG $0x0654b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rax + 26]
-	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
-	QUAD $0x13267c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r12 + 19], 15
-	QUAD $0x000140b5df0f4466; BYTE $0x00       // pandn    xmm14, oword 320[rbp] /* [rip + .LCPI10_20] */
-	QUAD $0x000150addf0f4466; BYTE $0x00       // pandn    xmm13, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xeb0f4566; BYTE $0xee               // por    xmm13, xmm14
-	LONG $0x6f0f4166; BYTE $0xe3               // movdqa    xmm4, xmm11
-	LONG $0x6f0f4566; BYTE $0xf3               // movdqa    xmm14, xmm11
-	LONG $0x640f4466; BYTE $0xf6               // pcmpgtb    xmm14, xmm6
-	LONG $0x0654b60f; BYTE $0x1b               // movzx    edx, byte [rsi + rax + 27]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	LONG $0xdf0f4466; WORD $0x6075             // pandn    xmm14, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xeb0f4566; BYTE $0xf5               // por    xmm14, xmm13
-	LONG $0x0654b60f; BYTE $0x1c               // movzx    edx, byte [rsi + rax + 28]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	LONG $0xeb0f4466; BYTE $0xf1               // por    xmm14, xmm1
-	LONG $0x640f4466; BYTE $0xdb               // pcmpgtb    xmm11, xmm3
-	LONG $0x0654b60f; BYTE $0x1d               // movzx    edx, byte [rsi + rax + 29]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI10_16] */
-	QUAD $0x0130249cfc0f4466; WORD $0x0000     // paddb    xmm11, oword [rsp + 304]
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xcf640f66                           // pcmpgtb    xmm1, xmm7
-	LONG $0x6f0f4466; BYTE $0xec               // movdqa    xmm13, xmm4
-	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
-	LONG $0x640f4566; BYTE $0xef               // pcmpgtb    xmm13, xmm15
-	LONG $0x0654b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rax + 30]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x0654b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rax + 31]
-	QUAD $0x000001108ddf0f66                   // pandn    xmm1, oword 272[rbp] /* [rip + .LCPI10_17] */
-	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xeb0f4466; BYTE $0xe9               // por    xmm13, xmm1
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x01140644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 20], 1
-	QUAD $0x150644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 21], 1
-	QUAD $0x160654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 22], 1
-	QUAD $0x0117066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 23], 1
-	QUAD $0x19064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 25], 1
-	QUAD $0x1a0664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 26], 1
-	QUAD $0x011b0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 27], 1
-	QUAD $0x011c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 28], 1
-	QUAD $0x011d065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 29], 1
-	QUAD $0x011e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 1
-	QUAD $0x1f067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 31], 1
-	QUAD $0x142e44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r13 + 20], 2
-	QUAD $0x152e44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r13 + 21], 2
-	QUAD $0x162e54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r13 + 22], 2
-	QUAD $0x172e6c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rsi + r13 + 23], 2
-	QUAD $0x192e4c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rsi + r13 + 25], 2
-	QUAD $0x1a2e64203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rsi + r13 + 26], 2
-	QUAD $0x1b2e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r13 + 27], 2
-	QUAD $0x1c2e74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r13 + 28], 2
-	QUAD $0x1d2e5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r13 + 29], 2
-	QUAD $0x1e2e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r13 + 30], 2
-	QUAD $0x1f2e7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r13 + 31], 2
-	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
-	QUAD $0x03141644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 20], 3
-	QUAD $0x151644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rdx + 21], 3
-	QUAD $0x161654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rdx + 22], 3
-	QUAD $0x0317166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 23], 3
-	QUAD $0x19164c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdx + 25], 3
-	QUAD $0x1a1664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rdx + 26], 3
-	QUAD $0x031b1654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 27], 3
-	QUAD $0x031c1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 28], 3
-	QUAD $0x031d165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 29], 3
-	QUAD $0x031e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 30], 3
-	QUAD $0x1f167c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rdx + 31], 3
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	QUAD $0x04141644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 20], 4
-	QUAD $0x151644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 21], 4
-	QUAD $0x161654203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rdx + 22], 4
-	QUAD $0x0417166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 23], 4
-	QUAD $0x19164c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdx + 25], 4
-	QUAD $0x1a1664203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rdx + 26], 4
-	QUAD $0x041b1654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 27], 4
-	QUAD $0x041c1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 28], 4
-	QUAD $0x041d165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 29], 4
-	QUAD $0x041e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 30], 4
-	QUAD $0x1f167c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rdx + 31], 4
-	QUAD $0x05140e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 20], 5
-	QUAD $0x150e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rcx + 21], 5
-	QUAD $0x160e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rcx + 22], 5
-	QUAD $0x05170e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 23], 5
-	QUAD $0x190e4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rsi + rcx + 25], 5
-	QUAD $0x1a0e64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rsi + rcx + 26], 5
-	QUAD $0x051b0e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 27], 5
-	QUAD $0x051c0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 28], 5
-	QUAD $0x051d0e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 29], 5
-	QUAD $0x051e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 30], 5
-	QUAD $0x1f0e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rcx + 31], 5
-	QUAD $0x143644203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r14 + 20], 6
-	QUAD $0x153644203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r14 + 21], 6
-	QUAD $0x163654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r14 + 22], 6
-	QUAD $0x17366c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r14 + 23], 6
-	QUAD $0x19364c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rsi + r14 + 25], 6
-	QUAD $0x1a3664203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rsi + r14 + 26], 6
-	QUAD $0x1b3654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r14 + 27], 6
-	QUAD $0x1c3674203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r14 + 28], 6
-	QUAD $0x1d365c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r14 + 29], 6
-	QUAD $0x1e3664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r14 + 30], 6
-	QUAD $0x1f367c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rsi + r14 + 31], 6
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	QUAD $0x07141e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 20], 7
-	QUAD $0x151e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 21], 7
-	QUAD $0x161e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rbx + 22], 7
-	QUAD $0x07171e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 23], 7
-	QUAD $0x191e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rbx + 25], 7
-	QUAD $0x1a1e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rbx + 26], 7
-	QUAD $0x071b1e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 27], 7
-	QUAD $0x071c1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 28], 7
-	QUAD $0x071d1e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 29], 7
-	QUAD $0x071e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 30], 7
-	QUAD $0x1f1e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rbx + 31], 7
-	QUAD $0x141e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 20], 8
-	QUAD $0x151e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r11 + 21], 8
-	QUAD $0x161e54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r11 + 22], 8
-	QUAD $0x171e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r11 + 23], 8
-	QUAD $0x191e4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r11 + 25], 8
-	QUAD $0x1a1e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r11 + 26], 8
-	QUAD $0x1b1e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r11 + 27], 8
-	QUAD $0x1c1e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 28], 8
-	QUAD $0x1d1e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 29], 8
-	QUAD $0x1e1e64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r11 + 30], 8
-	QUAD $0x1f1e7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r11 + 31], 8
-	QUAD $0x141644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r10 + 20], 9
-	QUAD $0x151644203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r10 + 21], 9
-	QUAD $0x161654203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r10 + 22], 9
-	QUAD $0x17166c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r10 + 23], 9
-	QUAD $0x19164c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r10 + 25], 9
-	QUAD $0x1a1664203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r10 + 26], 9
-	QUAD $0x1b1654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r10 + 27], 9
-	QUAD $0x1c1674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r10 + 28], 9
-	QUAD $0x1d165c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r10 + 29], 9
-	QUAD $0x1e1664203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r10 + 30], 9
-	QUAD $0x1f167c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r10 + 31], 9
-	QUAD $0x0000015024948b4c                   // mov    r10, qword [rsp + 336]
-	QUAD $0x141644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r10 + 20], 10
-	QUAD $0x151644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r10 + 21], 10
-	QUAD $0x161654203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r10 + 22], 10
-	QUAD $0x17166c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r10 + 23], 10
-	QUAD $0x19164c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r10 + 25], 10
-	QUAD $0x1a1664203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r10 + 26], 10
-	QUAD $0x1b1654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r10 + 27], 10
-	QUAD $0x1c1674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r10 + 28], 10
-	QUAD $0x1d165c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r10 + 29], 10
-	QUAD $0x1e1664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r10 + 30], 10
-	QUAD $0x1f167c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r10 + 31], 10
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x141644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r10 + 20], 11
-	QUAD $0x151644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r10 + 21], 11
-	QUAD $0x161654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r10 + 22], 11
-	QUAD $0x17166c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r10 + 23], 11
-	QUAD $0x19164c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r10 + 25], 11
-	QUAD $0x1a1664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r10 + 26], 11
-	QUAD $0x1b1654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r10 + 27], 11
-	QUAD $0x1c1674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r10 + 28], 11
-	QUAD $0x1d165c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r10 + 29], 11
-	QUAD $0x1e1664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r10 + 30], 11
-	QUAD $0x1f167c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r10 + 31], 11
-	QUAD $0x143e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 20], 12
-	QUAD $0x153e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 21], 12
-	QUAD $0x163e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 22], 12
-	QUAD $0x173e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 23], 12
-	QUAD $0x193e4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r15 + 25], 12
-	QUAD $0x1a3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 26], 12
-	QUAD $0x1b3e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 27], 12
-	QUAD $0x1c3e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 28], 12
-	QUAD $0x1d3e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 29], 12
-	QUAD $0x1e3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 30], 12
-	QUAD $0x1f3e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 31], 12
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0d140644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 20], 13
-	QUAD $0x150644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rax + 21], 13
-	QUAD $0x160654203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rax + 22], 13
-	QUAD $0x0d17066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 23], 13
-	QUAD $0x19064c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rax + 25], 13
-	QUAD $0x1a0664203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rax + 26], 13
-	QUAD $0x0d1b0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 27], 13
-	QUAD $0x0d1c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 28], 13
-	QUAD $0x0d1d065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 29], 13
-	QUAD $0x0d1e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 13
-	QUAD $0x1f067c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rax + 31], 13
-	QUAD $0x140644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r8 + 20], 14
-	QUAD $0x150644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r8 + 21], 14
-	QUAD $0x160654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r8 + 22], 14
-	QUAD $0x17066c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r8 + 23], 14
-	QUAD $0x19064c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r8 + 25], 14
-	QUAD $0x1a0664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r8 + 26], 14
-	QUAD $0x1b0654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r8 + 27], 14
-	QUAD $0x1c0674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r8 + 28], 14
-	QUAD $0x1d065c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r8 + 29], 14
-	QUAD $0x1e0664203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r8 + 30], 14
-	QUAD $0x1f067c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r8 + 31], 14
-	QUAD $0x142644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r12 + 20], 15
-	QUAD $0x152644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r12 + 21], 15
-	QUAD $0x162654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r12 + 22], 15
-	QUAD $0x17266c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r12 + 23], 15
-	QUAD $0x19264c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r12 + 25], 15
-	QUAD $0x1a2664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r12 + 26], 15
-	LONG $0xcf6f0f66                           // movdqa    xmm1, xmm7
-	LONG $0xc8640f66                           // pcmpgtb    xmm1, xmm0
-	QUAD $0x1b2654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r12 + 27], 15
-	QUAD $0x000001308ddf0f66                   // pandn    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
-	LONG $0xeb0f4166; BYTE $0xcd               // por    xmm1, xmm13
-	LONG $0x760f4566; BYTE $0xed               // pcmpeqd    xmm13, xmm13
-	LONG $0xf80f4566; BYTE $0xdd               // psubb    xmm11, xmm13
-	LONG $0xeb0f4166; BYTE $0xcb               // por    xmm1, xmm11
-	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
-	LONG $0x640f4166; BYTE $0xc0               // pcmpgtb    xmm0, xmm8
-	LONG $0x6f0f4466; BYTE $0xc7               // movdqa    xmm8, xmm7
-	LONG $0x640f4166; BYTE $0xfa               // pcmpgtb    xmm7, xmm10
-	QUAD $0x000140956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 320[rbp] /* [rip + .LCPI10_20] */
-	LONG $0xdf0f4166; BYTE $0xc2               // pandn    xmm0, xmm10
-	QUAD $0x0001509d6f0f4466; BYTE $0x00       // movdqa    xmm11, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xdf0f4166; BYTE $0xfb               // pandn    xmm7, xmm11
-	LONG $0xf8eb0f66                           // por    xmm7, xmm0
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
-	QUAD $0x1c2674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r12 + 28], 15
-	LONG $0x6d6f0f66; BYTE $0x60               // movdqa    xmm5, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xc5df0f66                           // pandn    xmm0, xmm5
-	LONG $0xc7eb0f66                           // por    xmm0, xmm7
-	QUAD $0x1d265c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r12 + 29], 15
-	LONG $0xc1eb0f66                           // por    xmm0, xmm1
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0x640f4166; BYTE $0xc9               // pcmpgtb    xmm1, xmm9
-	QUAD $0x000001008ddf0f66                   // pandn    xmm1, oword 256[rbp] /* [rip + .LCPI10_16] */
-	QUAD $0x000100248cfc0f66; BYTE $0x00       // paddb    xmm1, oword [rsp + 256]
-	LONG $0x6f0f4166; BYTE $0xe8               // movdqa    xmm5, xmm8
-	LONG $0x640f4166; BYTE $0xec               // pcmpgtb    xmm5, xmm12
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0xfa640f66                           // pcmpgtb    xmm7, xmm2
-	QUAD $0x00000110addf0f66                   // pandn    xmm5, oword 272[rbp] /* [rip + .LCPI10_17] */
-	QUAD $0x00000120bddf0f66                   // pandn    xmm7, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0xd6640f66                           // pcmpgtb    xmm2, xmm6
-	QUAD $0x1e2664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r12 + 30], 15
-	QUAD $0x0000013095df0f66                   // pandn    xmm2, oword 304[rbp] /* [rip + .LCPI10_19] */
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0xf80f4166; BYTE $0xcd               // psubb    xmm1, xmm13
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xcb640f66                           // pcmpgtb    xmm1, xmm3
-	LONG $0x6f0f4166; BYTE $0xd8               // movdqa    xmm3, xmm8
-	LONG $0xdc640f66                           // pcmpgtb    xmm3, xmm4
-	QUAD $0x1f267c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r12 + 31], 15
-	LONG $0xdf0f4166; BYTE $0xca               // pandn    xmm1, xmm10
-	LONG $0xdf0f4166; BYTE $0xdb               // pandn    xmm3, xmm11
-	LONG $0xd9eb0f66                           // por    xmm3, xmm1
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0x640f4166; BYTE $0xcf               // pcmpgtb    xmm1, xmm15
-	LONG $0x4ddf0f66; BYTE $0x60               // pandn    xmm1, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xcbeb0f66                           // por    xmm1, xmm3
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0xd1600f66                           // punpcklbw    xmm2, xmm1
-	QUAD $0x00009024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 144]
-	LONG $0xdd6f0f66                           // movdqa    xmm3, xmm5
-	LONG $0x600f4166; BYTE $0xde               // punpcklbw    xmm3, xmm14
-	LONG $0xe36f0f66                           // movdqa    xmm4, xmm3
-	LONG $0xe2610f66                           // punpcklwd    xmm4, xmm2
-	LONG $0xda690f66                           // punpckhwd    xmm3, xmm2
-	LONG $0xc1680f66                           // punpckhbw    xmm0, xmm1
-	LONG $0x680f4166; BYTE $0xee               // punpckhbw    xmm5, xmm14
-	LONG $0xcd6f0f66                           // movdqa    xmm1, xmm5
-	LONG $0xc8610f66                           // punpcklwd    xmm1, xmm0
-	LONG $0xe8690f66                           // punpckhwd    xmm5, xmm0
-	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
-	LONG $0x7f0f41f3; WORD $0x8e6c; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm5
-	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x8e5c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm3
-	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
-	QUAD $0x000000a0248c3b48                   // cmp    rcx, qword [rsp + 160]
-	JNE  LBB10_192
-	QUAD $0x000001b024bc8b4c                   // mov    r15, qword [rsp + 432]
-	QUAD $0x000000a024bc3b4c                   // cmp    r15, qword [rsp + 160]
-	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
-	QUAD $0x0000017024b48b48                   // mov    rsi, qword [rsp + 368]
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	JNE  LBB10_42
-	JMP  LBB10_128
-
-LBB10_194:
-	LONG $0xf0e78349                     // and    r15, -16
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
-	QUAD $0x0000018824848948             // mov    qword [rsp + 392], rax
-	QUAD $0x000001a024bc894c             // mov    qword [rsp + 416], r15
-	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
-	QUAD $0x000000d024848948             // mov    qword [rsp + 208], rax
-	LONG $0xc3b60f41                     // movzx    eax, r11b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000190248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 400], xmm1
-	WORD $0xd231                         // xor    edx, edx
-	QUAD $0x0000016024b4894c             // mov    qword [rsp + 352], r14
-
-LBB10_195:
-	QUAD $0x0000015024948948                   // mov    qword [rsp + 336], rdx
-	LONG $0x05e2c148                           // shl    rdx, 5
-	WORD $0x8948; BYTE $0xd3                   // mov    rbx, rdx
-	WORD $0x8949; BYTE $0xd3                   // mov    r11, rdx
-	WORD $0x8949; BYTE $0xd4                   // mov    r12, rdx
-	QUAD $0x0000009024948948                   // mov    qword [rsp + 144], rdx
-	WORD $0x8949; BYTE $0xd0                   // mov    r8, rdx
-	WORD $0x8949; BYTE $0xd5                   // mov    r13, rdx
-	WORD $0x8949; BYTE $0xd1                   // mov    r9, rdx
-	WORD $0x8949; BYTE $0xd2                   // mov    r10, rdx
-	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
-	WORD $0x8948; BYTE $0xd7                   // mov    rdi, rdx
-	WORD $0x8949; BYTE $0xd7                   // mov    r15, rdx
-	LONG $0x160cb60f                           // movzx    ecx, byte [rsi + rdx]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	LONG $0x164cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rdx + 1]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x164cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rdx + 2]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x164cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rdx + 3]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x164cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rdx + 4]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x164cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rdx + 5]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x164cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rdx + 6]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x164cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rdx + 7]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	QUAD $0x00017024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 368], xmm2
-	LONG $0x164cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rdx + 8]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x164cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rdx + 9]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	QUAD $0x0000a024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm2
-	LONG $0x164cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rdx + 10]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x164cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rdx + 11]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x164cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rdx + 12]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x164cb60f; BYTE $0x10               // movzx    ecx, byte [rsi + rdx + 16]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x164cb60f; BYTE $0x18               // movzx    ecx, byte [rsi + rdx + 24]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	QUAD $0x0000008024948948                   // mov    qword [rsp + 128], rdx
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	LONG $0x20c88348                           // or    rax, 32
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	LONG $0x40cb8348                           // or    rbx, 64
-	LONG $0x60cb8349                           // or    r11, 96
-	QUAD $0x00000120249c894c                   // mov    qword [rsp + 288], r11
-	LONG $0x80cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 128
-	LONG $0x2464894c; BYTE $0x60               // mov    qword [rsp + 96], r12
-	QUAD $0x00000090248c8148; LONG $0x000000a0 // or    qword [rsp + 144], 160
-	LONG $0xc0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 192
-	LONG $0xe0cd8149; WORD $0x0000; BYTE $0x00 // or    r13, 224
-	QUAD $0x0000013024ac894c                   // mov    qword [rsp + 304], r13
-	LONG $0x00c98149; WORD $0x0001; BYTE $0x00 // or    r9, 256
-	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
-	QUAD $0x000001102494894c                   // mov    qword [rsp + 272], r10
-	LONG $0x40ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 320
-	LONG $0x60cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 352
-	LONG $0x247c8948; BYTE $0x50               // mov    qword [rsp + 80], rdi
-	LONG $0x80cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 384
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
-	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
-	LONG $0x24548948; BYTE $0x10               // mov    qword [rsp + 16], rdx
-	QUAD $0x0001c010244c8148; BYTE $0x00       // or    qword [rsp + 16], 448
-	LONG $0xe0ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 480
-	LONG $0x24548948; BYTE $0x30               // mov    qword [rsp + 48], rdx
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	LONG $0x203a0f66; WORD $0x0e04; BYTE $0x01 // pinsrb    xmm0, byte [rsi + rcx], 1
-	LONG $0x203a0f66; WORD $0x1e04; BYTE $0x02 // pinsrb    xmm0, byte [rsi + rbx], 2
-	QUAD $0x031e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r11], 3
-	QUAD $0x042604203a0f4266                   // pinsrb    xmm0, byte [rsi + r12], 4
-	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
-	QUAD $0x051e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r11], 5
-	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
-	QUAD $0x060604203a0f4266                   // pinsrb    xmm0, byte [rsi + r8], 6
-	QUAD $0x072e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r13], 7
-	QUAD $0x080e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r9], 8
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	QUAD $0x000000e0248c894c                   // mov    qword [rsp + 224], r9
-	QUAD $0x091604203a0f4266                   // pinsrb    xmm0, byte [rsi + r10], 9
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	QUAD $0x0a3604203a0f4266                   // pinsrb    xmm0, byte [rsi + r14], 10
-	LONG $0x203a0f66; WORD $0x3e04; BYTE $0x0b // pinsrb    xmm0, byte [rsi + rdi], 11
-	QUAD $0x0c3e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r15], 12
-	LONG $0x203a0f66; WORD $0x0604; BYTE $0x0d // pinsrb    xmm0, byte [rsi + rax], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	LONG $0x203a0f66; WORD $0x0e04; BYTE $0x0e // pinsrb    xmm0, byte [rsi + rcx], 14
-	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
-	LONG $0x203a0f66; WORD $0x0e04; BYTE $0x0f // pinsrb    xmm0, byte [rsi + rcx], 15
-	LONG $0x6f0f4466; BYTE $0xc8               // movdqa    xmm9, xmm0
-	QUAD $0x00019024bc6f0f66; BYTE $0x00       // movdqa    xmm7, oword [rsp + 400]
-	LONG $0xde0f4466; BYTE $0xcf               // pmaxub    xmm9, xmm7
-	LONG $0x6f0f4466; BYTE $0xff               // movdqa    xmm15, xmm7
-	LONG $0x740f4466; BYTE $0xc8               // pcmpeqb    xmm9, xmm0
-	LONG $0x6f0f4166; BYTE $0xc1               // movdqa    xmm0, xmm9
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x010e5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rcx + 1], 1
-	QUAD $0x011e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rbx + 1], 2
-	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
-	QUAD $0x01365c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r14 + 1], 3
-	QUAD $0x01265c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r12 + 1], 4
-	QUAD $0x011e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r11 + 1], 5
-	QUAD $0x01165c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rdx + 1], 6
-	QUAD $0x012e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r13 + 1], 7
-	QUAD $0x01065c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r8 + 1], 8
-	QUAD $0x01165c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r10 + 1], 9
-	QUAD $0x010e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r9 + 1], 10
-	QUAD $0x013e5c203a0f4466; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + rdi + 1], 11
-	QUAD $0x013e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 1], 12
-	QUAD $0x01065c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rax + 1], 13
-	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
-	QUAD $0x01065c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r8 + 1], 14
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x01065c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r8 + 1], 15
-	QUAD $0x080e6c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rcx + 8], 1
-	QUAD $0x081e6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rbx + 8], 2
-	QUAD $0x08366c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r14 + 8], 3
-	QUAD $0x08266c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r12 + 8], 4
-	QUAD $0x081e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r11 + 8], 5
-	QUAD $0x08166c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rdx + 8], 6
-	QUAD $0x082e6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r13 + 8], 7
-	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
-	QUAD $0x082e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r13 + 8], 8
-	QUAD $0x08166c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r10 + 8], 9
-	QUAD $0x080e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r9 + 8], 10
-	QUAD $0x083e6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + rdi + 8], 11
-	QUAD $0x083e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 8], 12
-	QUAD $0x08066c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rax + 8], 13
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x080e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rcx + 8], 14
-	QUAD $0x08066c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r8 + 8], 15
-	LONG $0x6f0f4566; BYTE $0xcd               // movdqa    xmm9, xmm13
-	LONG $0xde0f4466; BYTE $0xcf               // pmaxub    xmm9, xmm7
-	LONG $0x740f4566; BYTE $0xcd               // pcmpeqb    xmm9, xmm13
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x103e64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rdi + 16], 1
-	QUAD $0x101e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rbx + 16], 2
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x103664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r14 + 16], 3
-	QUAD $0x102664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r12 + 16], 4
-	QUAD $0x101e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r11 + 16], 5
-	QUAD $0x101664203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rdx + 16], 6
-	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
-	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
-	QUAD $0x00000130249c8b4c                   // mov    r11, qword [rsp + 304]
-	QUAD $0x101e64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r11 + 16], 7
-	QUAD $0x102e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r13 + 16], 8
-	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
-	QUAD $0x0000011024ac8b4c                   // mov    r13, qword [rsp + 272]
-	QUAD $0x102e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r13 + 16], 9
-	QUAD $0x100e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r9 + 16], 10
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x101664203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + rdx + 16], 11
-	QUAD $0x103e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 16], 12
-	QUAD $0x100664203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rax + 16], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x101e64203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rbx + 16], 14
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x102664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r12 + 16], 15
-	LONG $0x6f0f4166; BYTE $0xfc               // movdqa    xmm7, xmm12
-	LONG $0xde0f4166; BYTE $0xff               // pmaxub    xmm7, xmm15
-	LONG $0x740f4166; BYTE $0xfc               // pcmpeqb    xmm7, xmm12
-	QUAD $0x0001b024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 432], xmm7
-	QUAD $0x01183e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 24], 1
-	QUAD $0x181654203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r10 + 24], 2
-	QUAD $0x183654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r14 + 24], 3
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x04183e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 24], 4
-	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
-	QUAD $0x183654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r14 + 24], 5
-	QUAD $0x06180e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 24], 6
-	QUAD $0x181e54203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r11 + 24], 7
-	QUAD $0x180654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 24], 8
-	QUAD $0x182e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r13 + 24], 9
-	QUAD $0x180e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 24], 10
-	QUAD $0x0b181654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 24], 11
-	QUAD $0x183e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 24], 12
-	QUAD $0x0d180654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 24], 13
-	QUAD $0x0e181e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 24], 14
-	QUAD $0x182654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r12 + 24], 15
-	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
-	LONG $0xde0f4166; BYTE $0xff               // pmaxub    xmm7, xmm15
-	LONG $0xfa740f66                           // pcmpeqb    xmm7, xmm2
-	QUAD $0x00014024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 320], xmm7
-	LONG $0x6f0f4566; BYTE $0xe3               // movdqa    xmm12, xmm11
-	LONG $0x6f0f4566; BYTE $0xef               // movdqa    xmm13, xmm15
-	LONG $0xde0f4566; BYTE $0xe7               // pmaxub    xmm12, xmm15
-	LONG $0x740f4566; BYTE $0xe3               // pcmpeqb    xmm12, xmm11
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	LONG $0x1654b60f; BYTE $0x0d               // movzx    edx, byte [rsi + rdx + 13]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x020e74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rcx + 2], 1
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x021674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r10 + 2], 2
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x021674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r10 + 2], 3
-	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
-	QUAD $0x023e74203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rsi + rdi + 2], 4
-	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
-	QUAD $0x023674203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rsi + r14 + 2], 5
-	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
-	QUAD $0x023e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rdi + 2], 6
-	QUAD $0x021e74203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rsi + r11 + 2], 7
-	QUAD $0x020674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 2], 8
-	QUAD $0x022e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r13 + 2], 9
-	QUAD $0x020e74203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r9 + 2], 10
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x023674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 2], 11
-	QUAD $0x023e74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r15 + 2], 12
-	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
-	QUAD $0x020674203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rax + 2], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x020674203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + rax + 2], 14
-	QUAD $0x022674203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + r12 + 2], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0103066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 3], 1
-	QUAD $0x02031e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 3], 2
-	QUAD $0x03166c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r10 + 3], 3
-	QUAD $0x0403166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 3], 4
-	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
-	QUAD $0x05030e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 3], 5
-	QUAD $0x06033e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 3], 6
-	QUAD $0x031e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 3], 7
-	QUAD $0x03066c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r8 + 3], 8
-	QUAD $0x032e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r13 + 3], 9
-	QUAD $0x030e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r9 + 3], 10
-	QUAD $0x03366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 3], 11
-	QUAD $0x033e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 3], 12
-	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
-	QUAD $0x03366c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r14 + 3], 13
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0e03166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 3], 14
-	QUAD $0x03266c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r12 + 3], 15
-	QUAD $0x00000100956f0f66                   // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI10_16] */
-	LONG $0xdb0f4466; BYTE $0xe2               // pand    xmm12, xmm2
-	LONG $0xf80f4466; BYTE $0xe0               // psubb    xmm12, xmm0
-	LONG $0x6f0f4566; BYTE $0xde               // movdqa    xmm11, xmm14
-	LONG $0xde0f4566; BYTE $0xdd               // pmaxub    xmm11, xmm13
-	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
-	LONG $0xd56f0f66                           // movdqa    xmm2, xmm5
-	LONG $0xde0f4166; BYTE $0xd5               // pmaxub    xmm2, xmm13
-	LONG $0xd5740f66                           // pcmpeqb    xmm2, xmm5
-	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
-	LONG $0x1654b60f; BYTE $0x0e               // movzx    edx, byte [rsi + rdx + 14]
-	LONG $0x6e0f4466; BYTE $0xf2               // movd    xmm14, edx
-	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
-	QUAD $0x04265c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r12 + 4], 1
-	QUAD $0x02041e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 4], 2
-	QUAD $0x04165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 4], 3
-	QUAD $0x0404065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 4], 4
-	QUAD $0x05040e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 4], 5
-	QUAD $0x06043e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 4], 6
-	QUAD $0x041e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 4], 7
-	QUAD $0x04065c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r8 + 4], 8
-	QUAD $0x042e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r13 + 4], 9
-	QUAD $0x040e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 4], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b04065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 4], 11
-	QUAD $0x000000c024bc894c                   // mov    qword [rsp + 192], r15
-	QUAD $0x043e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 4], 12
-	QUAD $0x04365c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r14 + 4], 13
-	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
-	QUAD $0x0e04165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 4], 14
-	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
-	QUAD $0x04365c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r14 + 4], 15
-	QUAD $0x05264c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rsi + r12 + 5], 1
-	QUAD $0x02051e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 5], 2
-	QUAD $0x05164c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r10 + 5], 3
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x05264c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r12 + 5], 4
-	QUAD $0x05050e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 5], 5
-	QUAD $0x06053e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 5], 6
-	QUAD $0x051e4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r11 + 5], 7
-	QUAD $0x05064c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r8 + 5], 8
-	QUAD $0x052e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r13 + 5], 9
-	QUAD $0x050e4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r9 + 5], 10
-	QUAD $0x0b05064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 5], 11
-	QUAD $0x053e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 5], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0d05064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 5], 13
-	QUAD $0x0e05164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 5], 14
-	QUAD $0x00000110ad6f0f66                   // movdqa    xmm5, oword 272[rbp] /* [rip + .LCPI10_17] */
-	LONG $0xdb0f4466; BYTE $0xdd               // pand    xmm11, xmm5
-	QUAD $0x00000120ad6f0f66                   // movdqa    xmm5, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xd5db0f66                           // pand    xmm2, xmm5
-	LONG $0xeb0f4166; BYTE $0xd3               // por    xmm2, xmm11
-	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
-	LONG $0x54b60f42; WORD $0x0f3e             // movzx    edx, byte [rsi + r15 + 15]
-	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
-	QUAD $0x05364c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r14 + 5], 15
-	LONG $0xeb0f4166; BYTE $0xd4               // por    xmm2, xmm12
-	LONG $0x6f0f4466; BYTE $0xe3               // movdqa    xmm12, xmm3
-	LONG $0xde0f4566; BYTE $0xe5               // pmaxub    xmm12, xmm13
-	LONG $0x740f4466; BYTE $0xe3               // pcmpeqb    xmm12, xmm3
-	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
-	LONG $0xde0f4166; BYTE $0xed               // pmaxub    xmm5, xmm13
-	LONG $0xe9740f66                           // pcmpeqb    xmm5, xmm1
-	LONG $0x54b60f42; WORD $0x113e             // movzx    edx, byte [rsi + r15 + 17]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
-	QUAD $0x01061664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 6], 1
-	QUAD $0x000000b0249c8948                   // mov    qword [rsp + 176], rbx
-	QUAD $0x02061e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 6], 2
-	QUAD $0x061664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 6], 3
-	QUAD $0x062664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r12 + 6], 4
-	QUAD $0x05060e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 6], 5
-	QUAD $0x06063e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 6], 6
-	QUAD $0x061e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 6], 7
-	QUAD $0x060664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 6], 8
-	QUAD $0x062e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r13 + 6], 9
-	QUAD $0x00000100248c894c                   // mov    qword [rsp + 256], r9
-	QUAD $0x060e64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r9 + 6], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x062664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r12 + 6], 11
-	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
-	QUAD $0x063664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r14 + 6], 12
-	QUAD $0x0d060664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 6], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x063e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r15 + 6], 14
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x063e64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r15 + 6], 15
-	QUAD $0x000170249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 368]
-	QUAD $0x0107165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 7], 1
-	QUAD $0x02071e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 7], 2
-	QUAD $0x07165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 7], 3
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x0407165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 7], 4
-	QUAD $0x05070e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 7], 5
-	QUAD $0x06073e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 7], 6
-	QUAD $0x071e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 7], 7
-	QUAD $0x07065c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r8 + 7], 8
-	QUAD $0x072e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r13 + 7], 9
-	QUAD $0x070e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 7], 10
-	QUAD $0x07265c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r12 + 7], 11
-	QUAD $0x07365c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r14 + 7], 12
-	QUAD $0x0d07065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 7], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0e073e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 7], 14
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	QUAD $0x073e5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r15 + 7], 15
-	QUAD $0x000001308d6f0f66                   // movdqa    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
-	LONG $0xdb0f4466; BYTE $0xe1               // pand    xmm12, xmm1
-	QUAD $0x000001408d6f0f66                   // movdqa    xmm1, oword 320[rbp] /* [rip + .LCPI10_20] */
-	LONG $0xe9db0f66                           // pand    xmm5, xmm1
-	LONG $0xeb0f4166; BYTE $0xec               // por    xmm5, xmm12
-	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
-	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
-	LONG $0xcc740f66                           // pcmpeqb    xmm1, xmm4
-	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
-	LONG $0x54b60f42; WORD $0x1206             // movzx    edx, byte [rsi + r8 + 18]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xcfdb0f66                           // pand    xmm1, xmm7
-	LONG $0xcdeb0f66                           // por    xmm1, xmm5
-	LONG $0x54b60f42; WORD $0x1306             // movzx    edx, byte [rsi + r8 + 19]
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0xd36f0f66                           // movdqa    xmm2, xmm3
-	LONG $0xde0f4166; BYTE $0xd5               // pmaxub    xmm2, xmm13
-	LONG $0xd3740f66                           // pcmpeqb    xmm2, xmm3
-	LONG $0x6f0f4466; BYTE $0xe2               // movdqa    xmm12, xmm2
-	LONG $0x54b60f42; WORD $0x1406             // movzx    edx, byte [rsi + r8 + 20]
-	LONG $0xd26e0f66                           // movd    xmm2, edx
-	QUAD $0x0000a0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 160]
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x09365c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r14 + 9], 1
-	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
-	QUAD $0x09165c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r10 + 9], 2
-	QUAD $0x03091e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 9], 3
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0409065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 9], 4
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x090e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r9 + 9], 5
-	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
-	QUAD $0x091e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r11 + 9], 6
-	QUAD $0x00000130249c8b48                   // mov    rbx, qword [rsp + 304]
-	QUAD $0x07091e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 9], 7
-	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
-	QUAD $0x093e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r15 + 9], 8
-	QUAD $0x092e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r13 + 9], 9
-	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
-	QUAD $0x09265c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r12 + 9], 10
-	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
-	QUAD $0x0b09165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 9], 11
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0c09165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 9], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d09165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 9], 13
-	QUAD $0x0e093e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 9], 14
-	QUAD $0x0f090e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 9], 15
-	LONG $0x7d6f0f66; BYTE $0x60               // movdqa    xmm7, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xdb0f4466; BYTE $0xe7               // pand    xmm12, xmm7
-	LONG $0xeb0f4466; BYTE $0xe1               // por    xmm12, xmm1
-	QUAD $0x00a024a47f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm12
-	LONG $0xfb6f0f66                           // movdqa    xmm7, xmm3
-	LONG $0xde0f4166; BYTE $0xfd               // pmaxub    xmm7, xmm13
-	LONG $0xfb740f66                           // pcmpeqb    xmm7, xmm3
-	LONG $0x54b60f42; WORD $0x1506             // movzx    edx, byte [rsi + r8 + 21]
-	LONG $0xda6e0f66                           // movd    xmm3, edx
-	QUAD $0x0a3644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r14 + 10], 1
-	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
-	QUAD $0x0a1644203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r10 + 10], 2
-	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
-	QUAD $0x0a1644203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r10 + 10], 3
-	QUAD $0x0a0644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rax + 10], 4
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	QUAD $0x0a0e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r9 + 10], 5
-	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
-	QUAD $0x0a1e44203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r11 + 10], 6
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	QUAD $0x0a1e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 10], 7
-	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
-	QUAD $0x0a3e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r15 + 10], 8
-	QUAD $0x0a2e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r13 + 10], 9
-	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
-	QUAD $0x0a2644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r12 + 10], 10
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	QUAD $0x0a2644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r12 + 10], 11
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x0a3e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 10], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0a0644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rax + 10], 13
-	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
-	QUAD $0x0a1e44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rbx + 10], 14
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0a1644203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + rdx + 10], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0b0654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 11], 1
-	QUAD $0x0b3654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r14 + 11], 2
-	QUAD $0x0b1654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r10 + 11], 3
-	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
-	QUAD $0x0b3654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 11], 4
-	QUAD $0x0b0e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rcx + 11], 5
-	QUAD $0x0b3e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rdi + 11], 6
-	QUAD $0x0b1e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r11 + 11], 7
-	QUAD $0x0b0654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r8 + 11], 8
-	QUAD $0x0b2e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r13 + 11], 9
-	QUAD $0x0b0e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r9 + 11], 10
-	QUAD $0x0b2654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r12 + 11], 11
-	QUAD $0x0b3e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 11], 12
-	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
-	QUAD $0x0b0654203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rax + 11], 13
-	QUAD $0x0b1e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rbx + 11], 14
-	QUAD $0x0b1654203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rdx + 11], 15
-	QUAD $0x00000100bddb0f66                   // pand    xmm7, oword 256[rbp] /* [rip + .LCPI10_16] */
-	LONG $0xf80f4166; BYTE $0xf9               // psubb    xmm7, xmm9
-	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
-	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
-	LONG $0x740f4166; BYTE $0xc8               // pcmpeqb    xmm1, xmm8
-	LONG $0x6f0f4566; BYTE $0xca               // movdqa    xmm9, xmm10
-	LONG $0xde0f4566; BYTE $0xcd               // pmaxub    xmm9, xmm13
-	LONG $0x740f4566; BYTE $0xca               // pcmpeqb    xmm9, xmm10
-	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
-	LONG $0x0654b60f; BYTE $0x16               // movzx    edx, byte [rsi + rax + 22]
-	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x010c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 12], 1
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x0c2674203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r12 + 12], 2
-	QUAD $0x0c1674203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r10 + 12], 3
-	WORD $0x894c; BYTE $0xf2                   // mov    rdx, r14
-	QUAD $0x0c3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 12], 4
-	QUAD $0x050c0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 12], 5
-	QUAD $0x060c3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 12], 6
-	QUAD $0x0c1e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r11 + 12], 7
-	QUAD $0x0c0674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r8 + 12], 8
-	QUAD $0x0c2e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r13 + 12], 9
-	QUAD $0x0c0e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r9 + 12], 10
-	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
-	QUAD $0x0c3674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r14 + 12], 11
-	QUAD $0x0c3e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 12], 12
-	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
-	QUAD $0x0d0c1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 12], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e0c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 12], 14
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x0f0c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 12], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0d067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 13], 1
-	QUAD $0x0d267c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r12 + 13], 2
-	QUAD $0x0d167c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r10 + 13], 3
-	QUAD $0x0d167c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rdx + 13], 4
-	QUAD $0x0d0e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rcx + 13], 5
-	QUAD $0x0d3e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rdi + 13], 6
-	QUAD $0x0d1e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r11 + 13], 7
-	QUAD $0x0d067c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r8 + 13], 8
-	QUAD $0x0d2e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r13 + 13], 9
-	QUAD $0x0d0e7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r9 + 13], 10
-	QUAD $0x0d367c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r14 + 13], 11
-	QUAD $0x0d3e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 13], 12
-	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
-	QUAD $0x0d1e7c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rbx + 13], 13
-	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
-	QUAD $0x0d3e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r15 + 13], 14
-	QUAD $0x000001108ddb0f66                   // pand    xmm1, oword 272[rbp] /* [rip + .LCPI10_17] */
-	QUAD $0x0001208ddb0f4466; BYTE $0x00       // pand    xmm9, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xeb0f4466; BYTE $0xc9               // por    xmm9, xmm1
-	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
-	LONG $0x1e54b60f; BYTE $0x17               // movzx    edx, byte [rsi + rbx + 23]
-	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
-	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
-	QUAD $0x0d167c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + rdx + 13], 15
-	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
-	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
-	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
-	LONG $0xce740f66                           // pcmpeqb    xmm1, xmm6
-	LONG $0x6f0f4166; BYTE $0xff               // movdqa    xmm7, xmm15
-	LONG $0xde0f4166; BYTE $0xfd               // pmaxub    xmm7, xmm13
-	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
-	LONG $0x1e54b60f; BYTE $0x19               // movzx    edx, byte [rsi + rbx + 25]
-	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
-	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
-	QUAD $0x0e1e74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rbx + 14], 1
-	QUAD $0x0e2674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r12 + 14], 2
-	QUAD $0x0e1674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r10 + 14], 3
-	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
-	QUAD $0x0e2674203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r12 + 14], 4
-	QUAD $0x0e0e74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rcx + 14], 5
-	QUAD $0x0e3e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rdi + 14], 6
-	QUAD $0x0e1e74203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rsi + r11 + 14], 7
-	QUAD $0x0e0674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 14], 8
-	WORD $0x894c; BYTE $0xea                   // mov    rdx, r13
-	QUAD $0x0e2e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r13 + 14], 9
-	QUAD $0x0e0e74203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r9 + 14], 10
-	QUAD $0x0e3674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 14], 11
-	QUAD $0x0e0674203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + rax + 14], 12
-	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
-	QUAD $0x0e2e74203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + r13 + 14], 13
-	QUAD $0x0e3e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r15 + 14], 14
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x0e3e74203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + r15 + 14], 15
-	QUAD $0x0f1e5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rbx + 15], 1
-	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
-	QUAD $0x0f1e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rbx + 15], 2
-	QUAD $0x0f165c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r10 + 15], 3
-	QUAD $0x0f265c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r12 + 15], 4
-	QUAD $0x0f0e5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rsi + rcx + 15], 5
-	QUAD $0x0f3e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rdi + 15], 6
-	QUAD $0x0f1e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r11 + 15], 7
-	QUAD $0x0f065c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r8 + 15], 8
-	QUAD $0x0f165c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rsi + rdx + 15], 9
-	QUAD $0x0f0e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r9 + 15], 10
-	QUAD $0x0f365c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r14 + 15], 11
-	QUAD $0x0f065c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + rax + 15], 12
-	QUAD $0x0f2e5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r13 + 15], 13
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x0f3e5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rdi + 15], 14
-	QUAD $0x0f3e5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r15 + 15], 15
-	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
-	QUAD $0x000001308ddb0f66                   // pand    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
-	QUAD $0x00000140bddb0f66                   // pand    xmm7, oword 320[rbp] /* [rip + .LCPI10_20] */
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
-	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
-	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	LONG $0x54b60f42; WORD $0x1a2e             // movzx    edx, byte [rsi + r13 + 26]
-	LONG $0xf26e0f66                           // movd    xmm6, edx
-	QUAD $0x000001508ddb0f66                   // pand    xmm1, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xcfeb0f66                           // por    xmm1, xmm7
-	LONG $0x54b60f42; WORD $0x1b2e             // movzx    edx, byte [rsi + r13 + 27]
-	LONG $0xfa6e0f66                           // movd    xmm7, edx
-	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
-	LONG $0x6f0f4566; BYTE $0xf3               // movdqa    xmm14, xmm11
-	LONG $0xde0f4566; BYTE $0xf5               // pmaxub    xmm14, xmm13
-	LONG $0x740f4566; BYTE $0xf3               // pcmpeqb    xmm14, xmm11
-	LONG $0x54b60f42; WORD $0x1c2e             // movzx    edx, byte [rsi + r13 + 28]
-	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x01110e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 17], 1
-	QUAD $0x02111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 2
-	QUAD $0x111644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 17], 3
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x04110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 4
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x110644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r8 + 17], 5
-	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
-	QUAD $0x110e44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r9 + 17], 6
-	QUAD $0x111e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 17], 7
-	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
-	QUAD $0x08111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 8
-	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
-	QUAD $0x09111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 9
-	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
-	QUAD $0x113644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r14 + 17], 10
-	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
-	QUAD $0x113e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r15 + 17], 11
-	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
-	QUAD $0x0c111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 13
-	QUAD $0x0e113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 14
-	QUAD $0x112644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r12 + 17], 15
-	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xeb0f4466; BYTE $0xf1               // por    xmm14, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0x6f0f4566; BYTE $0xe5               // movdqa    xmm12, xmm13
-	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
-	LONG $0xc8740f66                           // pcmpeqb    xmm1, xmm0
-	LONG $0x54b60f42; WORD $0x1d2e             // movzx    edx, byte [rsi + r13 + 29]
-	LONG $0xc26e0f66                           // movd    xmm0, edx
-	QUAD $0x01120e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 18], 1
-	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
-	QUAD $0x122664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r12 + 18], 2
-	QUAD $0x121664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 18], 3
-	QUAD $0x04120664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 18], 4
-	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
-	QUAD $0x120664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r8 + 18], 5
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	QUAD $0x120e64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r9 + 18], 6
-	QUAD $0x121e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 18], 7
-	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
-	QUAD $0x08121e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 18], 8
-	QUAD $0x00000110249c8b48                   // mov    rbx, qword [rsp + 272]
-	QUAD $0x09121e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 18], 9
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	QUAD $0x123664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r14 + 18], 10
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x123e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 18], 11
-	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
-	QUAD $0x123e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 18], 12
-	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
-	QUAD $0x0d121664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 18], 13
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0e120664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 18], 14
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x122e64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r13 + 18], 15
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0113066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 1
-	QUAD $0x13266c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rsi + r12 + 19], 2
-	QUAD $0x13166c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r10 + 19], 3
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x0413066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 4
-	QUAD $0x05130e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 19], 5
-	QUAD $0x06133e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 19], 6
-	QUAD $0x131e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 19], 7
-	QUAD $0x13066c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r8 + 19], 8
-	QUAD $0x09131e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 19], 9
-	QUAD $0x130e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r9 + 19], 10
-	QUAD $0x13366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 19], 11
-	QUAD $0x133e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 19], 12
-	QUAD $0x0d13166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 13
-	WORD $0x8948; BYTE $0xd7                   // mov    rdi, rdx
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x13266c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r12 + 19], 14
-	QUAD $0x132e6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r13 + 19], 15
-	QUAD $0x000001008ddb0f66                   // pand    xmm1, oword 256[rbp] /* [rip + .LCPI10_16] */
-	QUAD $0x0001b0248cf80f66; BYTE $0x00       // psubb    xmm1, oword [rsp + 432]
-	LONG $0x6f0f4466; BYTE $0xec               // movdqa    xmm13, xmm4
-	LONG $0xde0f4566; BYTE $0xec               // pmaxub    xmm13, xmm12
-	LONG $0x740f4466; BYTE $0xec               // pcmpeqb    xmm13, xmm4
-	LONG $0x6f0f4466; BYTE $0xdd               // movdqa    xmm11, xmm5
-	LONG $0xde0f4566; BYTE $0xdc               // pmaxub    xmm11, xmm12
-	LONG $0x740f4466; BYTE $0xdd               // pcmpeqb    xmm11, xmm5
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	LONG $0x0e54b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rcx + 30]
-	LONG $0xe26e0f66                           // movd    xmm4, edx
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x01140654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 20], 1
-	QUAD $0x0115065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 21], 1
-	QUAD $0x160654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 22], 1
-	QUAD $0x170644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 23], 1
-	QUAD $0x19067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 25], 1
-	QUAD $0x011a0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 26], 1
-	QUAD $0x011b067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 27], 1
-	QUAD $0x1c064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 28], 1
-	QUAD $0x011d0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 29], 1
-	LONG $0x0e54b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rcx + 31]
-	QUAD $0x011e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 1
-	LONG $0xea6e0f66                           // movd    xmm5, edx
-	QUAD $0x011f066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 31], 1
-	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
-	QUAD $0x02140654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 20], 2
-	QUAD $0x0215065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 21], 2
-	QUAD $0x160654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rax + 22], 2
-	QUAD $0x170644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rax + 23], 2
-	QUAD $0x19067c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rax + 25], 2
-	QUAD $0x021a0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 26], 2
-	QUAD $0x021b067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 27], 2
-	QUAD $0x1c064c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rax + 28], 2
-	QUAD $0x021d0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 29], 2
-	QUAD $0x021e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 2
-	QUAD $0x021f066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 31], 2
-	QUAD $0x141654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r10 + 20], 3
-	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
-	QUAD $0x04141654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 20], 4
-	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
-	QUAD $0x05140e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 20], 5
-	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
-	QUAD $0x06140654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 20], 6
-	QUAD $0x141e54203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r11 + 20], 7
-	QUAD $0x140654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 20], 8
-	QUAD $0x09141e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 20], 9
-	QUAD $0x140e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 20], 10
-	QUAD $0x143654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 20], 11
-	QUAD $0x143e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 20], 12
-	QUAD $0x0d143e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 20], 13
-	QUAD $0x142654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r12 + 20], 14
-	QUAD $0x142e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r13 + 20], 15
-	QUAD $0x15165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 21], 3
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	QUAD $0x0415165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 21], 4
-	QUAD $0x05150e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 21], 5
-	QUAD $0x0615065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 21], 6
-	QUAD $0x151e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 21], 7
-	QUAD $0x15065c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r8 + 21], 8
-	QUAD $0x09151e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 21], 9
-	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
-	QUAD $0x15065c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r8 + 21], 10
-	QUAD $0x15365c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r14 + 21], 11
-	QUAD $0x153e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 21], 12
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	QUAD $0x0d153e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 21], 13
-	QUAD $0x15265c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r12 + 21], 14
-	QUAD $0x000110addb0f4466; BYTE $0x00       // pand    xmm13, oword 272[rbp] /* [rip + .LCPI10_17] */
-	QUAD $0x0001209ddb0f4466; BYTE $0x00       // pand    xmm11, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xeb0f4566; BYTE $0xdd               // por    xmm11, xmm13
-	QUAD $0x152e5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r13 + 21], 15
-	LONG $0xeb0f4466; BYTE $0xd9               // por    xmm11, xmm1
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0xde0f4166; BYTE $0xcc               // pmaxub    xmm1, xmm12
-	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
-	LONG $0xd36f0f66                           // movdqa    xmm2, xmm3
-	LONG $0xde0f4166; BYTE $0xd4               // pmaxub    xmm2, xmm12
-	LONG $0xd3740f66                           // pcmpeqb    xmm2, xmm3
-	QUAD $0x160e54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r9 + 22], 3
-	QUAD $0x161654203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rdx + 22], 4
-	QUAD $0x160e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rcx + 22], 5
-	QUAD $0x160654203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rax + 22], 6
-	QUAD $0x161e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r11 + 22], 7
-	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
-	QUAD $0x163e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rdi + 22], 8
-	QUAD $0x161e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rbx + 22], 9
-	QUAD $0x160654203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r8 + 22], 10
-	QUAD $0x163654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r14 + 22], 11
-	QUAD $0x163e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 22], 12
-	QUAD $0x161654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r10 + 22], 13
-	QUAD $0x162654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r12 + 22], 14
-	QUAD $0x162e54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r13 + 22], 15
-	QUAD $0x170e44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r9 + 23], 3
-	QUAD $0x171644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 23], 4
-	QUAD $0x170e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rcx + 23], 5
-	QUAD $0x170644203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rax + 23], 6
-	QUAD $0x171e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r11 + 23], 7
-	QUAD $0x173e44203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rsi + rdi + 23], 8
-	QUAD $0x171e44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rsi + rbx + 23], 9
-	QUAD $0x170644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r8 + 23], 10
-	QUAD $0x173644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 23], 11
-	QUAD $0x173e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 23], 12
-	QUAD $0x171644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r10 + 23], 13
-	QUAD $0x000001308ddb0f66                   // pand    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
-	QUAD $0x0000014095db0f66                   // pand    xmm2, oword 320[rbp] /* [rip + .LCPI10_20] */
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
-	LONG $0xde0f4166; BYTE $0xcc               // pmaxub    xmm1, xmm12
-	LONG $0x740f4166; BYTE $0xca               // pcmpeqb    xmm1, xmm10
-	QUAD $0x172644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r12 + 23], 14
-	QUAD $0x000001508ddb0f66                   // pand    xmm1, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x172e44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r13 + 23], 15
-	LONG $0xeb0f4166; BYTE $0xcb               // por    xmm1, xmm11
-	LONG $0x6f0f4566; BYTE $0xd0               // movdqa    xmm10, xmm8
-	LONG $0xde0f4566; BYTE $0xd4               // pmaxub    xmm10, xmm12
-	LONG $0x740f4566; BYTE $0xd0               // pcmpeqb    xmm10, xmm8
-	QUAD $0x190e7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r9 + 25], 3
-	QUAD $0x19167c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rdx + 25], 4
-	QUAD $0x190e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rcx + 25], 5
-	QUAD $0x19067c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rax + 25], 6
-	QUAD $0x191e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r11 + 25], 7
-	QUAD $0x193e7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rsi + rdi + 25], 8
-	QUAD $0x191e7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rsi + rbx + 25], 9
-	QUAD $0x19067c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r8 + 25], 10
-	QUAD $0x19367c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r14 + 25], 11
-	QUAD $0x193e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 25], 12
-	QUAD $0x19167c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r10 + 25], 13
-	QUAD $0x19267c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r12 + 25], 14
-	QUAD $0x192e7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r13 + 25], 15
-	LONG $0x6f0f4466; WORD $0x605d             // movdqa    xmm11, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xdb0f4566; BYTE $0xd3               // pand    xmm10, xmm11
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
-	LONG $0xde0f4166; BYTE $0xdc               // pmaxub    xmm3, xmm12
-	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
-	QUAD $0x1a0e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r9 + 26], 3
-	QUAD $0x041a1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 26], 4
-	QUAD $0x051a0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 26], 5
-	QUAD $0x061a0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 26], 6
-	QUAD $0x1a1e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r11 + 26], 7
-	QUAD $0x081a3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 26], 8
-	QUAD $0x091a1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 26], 9
-	QUAD $0x1a0674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r8 + 26], 10
-	QUAD $0x1a3674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r14 + 26], 11
-	QUAD $0x1a3e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 26], 12
-	QUAD $0x1a1674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r10 + 26], 13
-	QUAD $0x1a2674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r12 + 26], 14
-	QUAD $0x1a2e74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r13 + 26], 15
-	QUAD $0x1b0e7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r9 + 27], 3
-	QUAD $0x041b167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 27], 4
-	QUAD $0x051b0e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 27], 5
-	QUAD $0x061b067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 27], 6
-	QUAD $0x1b1e7c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r11 + 27], 7
-	QUAD $0x081b3e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 27], 8
-	QUAD $0x091b1e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 27], 9
-	QUAD $0x1b067c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r8 + 27], 10
-	QUAD $0x1b367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 27], 11
-	QUAD $0x1b3e7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r15 + 27], 12
-	QUAD $0x1b167c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r10 + 27], 13
-	QUAD $0x1b267c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r12 + 27], 14
-	QUAD $0x1b2e7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r13 + 27], 15
-	QUAD $0x000001009ddb0f66                   // pand    xmm3, oword 256[rbp] /* [rip + .LCPI10_16] */
-	QUAD $0x000140249cf80f66; BYTE $0x00       // psubb    xmm3, oword [rsp + 320]
-	LONG $0xd66f0f66                           // movdqa    xmm2, xmm6
-	LONG $0xde0f4166; BYTE $0xd4               // pmaxub    xmm2, xmm12
-	LONG $0xd6740f66                           // pcmpeqb    xmm2, xmm6
-	LONG $0xcf6f0f66                           // movdqa    xmm1, xmm7
-	LONG $0xde0f4166; BYTE $0xcc               // pmaxub    xmm1, xmm12
-	LONG $0xcf740f66                           // pcmpeqb    xmm1, xmm7
-	QUAD $0x1c0e4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r9 + 28], 3
-	QUAD $0x1c164c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdx + 28], 4
-	QUAD $0x1c0e4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rsi + rcx + 28], 5
-	QUAD $0x1c064c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rax + 28], 6
-	QUAD $0x1c1e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r11 + 28], 7
-	QUAD $0x1c3e4c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rsi + rdi + 28], 8
-	QUAD $0x1c1e4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rsi + rbx + 28], 9
-	QUAD $0x1c064c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r8 + 28], 10
-	QUAD $0x1c364c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r14 + 28], 11
-	QUAD $0x1c3e4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r15 + 28], 12
-	QUAD $0x1c164c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r10 + 28], 13
-	QUAD $0x1c264c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r12 + 28], 14
-	QUAD $0x1c2e4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r13 + 28], 15
-	QUAD $0x1d0e44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r9 + 29], 3
-	QUAD $0x041d1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 29], 4
-	QUAD $0x051d0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 29], 5
-	QUAD $0x061d0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 29], 6
-	QUAD $0x1d1e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 29], 7
-	QUAD $0x081d3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 29], 8
-	QUAD $0x091d1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 29], 9
-	QUAD $0x1d0644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r8 + 29], 10
-	QUAD $0x1d3644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 29], 11
-	QUAD $0x1d3e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 29], 12
-	QUAD $0x1d1644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r10 + 29], 13
-	QUAD $0x1d2644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r12 + 29], 14
-	QUAD $0x1d2e44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r13 + 29], 15
-	QUAD $0x0000011095db0f66                   // pand    xmm2, oword 272[rbp] /* [rip + .LCPI10_17] */
-	QUAD $0x000001208ddb0f66                   // pand    xmm1, oword 288[rbp] /* [rip + .LCPI10_18] */
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0xcbeb0f66                           // por    xmm1, xmm3
-	LONG $0x6f0f4166; BYTE $0xd1               // movdqa    xmm2, xmm9
-	LONG $0xde0f4166; BYTE $0xd4               // pmaxub    xmm2, xmm12
-	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xde0f4166; BYTE $0xdc               // pmaxub    xmm3, xmm12
-	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
-	QUAD $0x1e0e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r9 + 30], 3
-	QUAD $0x1f0e6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r9 + 31], 3
-	QUAD $0x041e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 30], 4
-	QUAD $0x041f166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 31], 4
-	QUAD $0x051e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 30], 5
-	QUAD $0x051f0e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 31], 5
-	QUAD $0x061e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 6
-	QUAD $0x061f066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 31], 6
-	QUAD $0x1e1e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 30], 7
-	QUAD $0x1f1e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 31], 7
-	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
-	QUAD $0x081e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 30], 8
-	QUAD $0x081f3e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 31], 8
-	QUAD $0x091e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 30], 9
-	QUAD $0x091f1e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 31], 9
-	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x1e0664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r8 + 30], 10
-	QUAD $0x1f066c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r8 + 31], 10
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0b1e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 11
-	QUAD $0x0b1f066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 31], 11
-	QUAD $0x1e3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 30], 12
-	QUAD $0x1f3e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 31], 12
-	QUAD $0x1e1664203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r10 + 30], 13
-	QUAD $0x1f166c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r10 + 31], 13
-	QUAD $0x1e2664203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r12 + 30], 14
-	QUAD $0x1f266c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r12 + 31], 14
-	QUAD $0x1e2e64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r13 + 30], 15
-	QUAD $0x0000013095db0f66                   // pand    xmm2, oword 304[rbp] /* [rip + .LCPI10_19] */
-	QUAD $0x000001409ddb0f66                   // pand    xmm3, oword 320[rbp] /* [rip + .LCPI10_20] */
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xde0f4166; BYTE $0xc4               // pmaxub    xmm0, xmm12
-	LONG $0xc4740f66                           // pcmpeqb    xmm0, xmm4
-	QUAD $0x1f2e6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r13 + 31], 15
-	QUAD $0x0000015085db0f66                   // pand    xmm0, oword 336[rbp] /* [rip + .LCPI10_21] */
-	LONG $0xc3eb0f66                           // por    xmm0, xmm3
-	LONG $0xc1eb0f66                           // por    xmm0, xmm1
-	LONG $0xcd6f0f66                           // movdqa    xmm1, xmm5
-	LONG $0xde0f4166; BYTE $0xcc               // pmaxub    xmm1, xmm12
-	LONG $0xcd740f66                           // pcmpeqb    xmm1, xmm5
-	LONG $0xdb0f4166; BYTE $0xcb               // pand    xmm1, xmm11
-	LONG $0xc8eb0f66                           // por    xmm1, xmm0
-	LONG $0x6f0f4166; BYTE $0xc2               // movdqa    xmm0, xmm10
-	LONG $0xc1600f66                           // punpcklbw    xmm0, xmm1
-	QUAD $0x0000a024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 160]
-	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
-	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
-	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
-	LONG $0xd8610f66                           // punpcklwd    xmm3, xmm0
-	LONG $0xd0690f66                           // punpckhwd    xmm2, xmm0
-	LONG $0x680f4466; BYTE $0xd1               // punpckhbw    xmm10, xmm1
-	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x610f4166; BYTE $0xc2               // punpcklwd    xmm0, xmm10
-	LONG $0x690f4166; BYTE $0xe2               // punpckhwd    xmm4, xmm10
-	QUAD $0x00000150248c8b48                   // mov    rcx, qword [rsp + 336]
-	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
-	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8e54; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm2
-	LONG $0x7f0f41f3; WORD $0x8e1c             // movdqu    oword [r14 + 4*rcx], xmm3
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
-	QUAD $0x000001a0248c3b48                   // cmp    rcx, qword [rsp + 416]
-	JNE  LBB10_195
-	QUAD $0x000001d024bc8b4c                   // mov    r15, qword [rsp + 464]
-	QUAD $0x000001a024bc3b4c                   // cmp    r15, qword [rsp + 416]
-	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
-	QUAD $0x0000018824b48b48                   // mov    rsi, qword [rsp + 392]
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	JNE  LBB10_67
-	JMP  LBB10_132
-
-LBB10_197:
-	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
-	LONG $0xf8e08348                     // and    rax, -8
-	WORD $0x8949; BYTE $0xc3             // mov    r11, rax
-	LONG $0x06e3c149                     // shl    r11, 6
-	WORD $0x0149; BYTE $0xf3             // add    r11, rsi
-	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
-	LONG $0x86048d49                     // lea    rax, [r14 + 4*rax]
-	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
-	QUAD $0x00018824846e0f66; BYTE $0x00 // movd    xmm0, dword [rsp + 392]
-	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
-	QUAD $0x0001d024847f0f66; BYTE $0x00 // movdqa    oword [rsp + 464], xmm0
-	WORD $0x3145; BYTE $0xd2             // xor    r10d, r10d
-
-LBB10_198:
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	LONG $0x06e1c149                           // shl    r9, 6
-	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
-	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
-	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
-	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
-	LONG $0x0cb70f42; BYTE $0x0e               // movzx    ecx, word [rsi + r9]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x4cb70f42; WORD $0x020e             // movzx    ecx, word [rsi + r9 + 2]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	LONG $0x447f0f66; WORD $0x1024             // movdqa    oword [rsp + 16], xmm0
-	LONG $0x4cb70f42; WORD $0x040e             // movzx    ecx, word [rsi + r9 + 4]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x4cb70f42; WORD $0x060e             // movzx    ecx, word [rsi + r9 + 6]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x4cb70f42; WORD $0x080e             // movzx    ecx, word [rsi + r9 + 8]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x4cb70f42; WORD $0x0a0e             // movzx    ecx, word [rsi + r9 + 10]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x4cb70f42; WORD $0x0c0e             // movzx    ecx, word [rsi + r9 + 12]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x4cb70f42; WORD $0x0e0e             // movzx    ecx, word [rsi + r9 + 14]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x4cb70f42; WORD $0x100e             // movzx    ecx, word [rsi + r9 + 16]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	LONG $0x4cb70f42; WORD $0x120e             // movzx    ecx, word [rsi + r9 + 18]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x4cb70f42; WORD $0x140e             // movzx    ecx, word [rsi + r9 + 20]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x4cb70f42; WORD $0x160e             // movzx    ecx, word [rsi + r9 + 22]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x4cb70f42; WORD $0x180e             // movzx    ecx, word [rsi + r9 + 24]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x4cb70f42; WORD $0x1a0e             // movzx    ecx, word [rsi + r9 + 26]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x44b70f42; WORD $0x1c0e             // movzx    eax, word [rsi + r9 + 28]
-	LONG $0x54b70f42; WORD $0x1e0e             // movzx    edx, word [rsi + r9 + 30]
-	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x80c88149; WORD $0x0000; BYTE $0x00 // or    r8, 128
-	LONG $0xc0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 192
-	LONG $0x00cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 256
-	LONG $0x40cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 320
-	LONG $0x80cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 384
-	LONG $0xc0cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 448
-	LONG $0xc40f4466; WORD $0x0e1c; BYTE $0x01 // pinsrw    xmm11, word [rsi + rcx], 1
-	LONG $0xc40f4666; WORD $0x061c; BYTE $0x02 // pinsrw    xmm11, word [rsi + r8], 2
-	LONG $0xc40f4466; WORD $0x3e1c; BYTE $0x03 // pinsrw    xmm11, word [rsi + rdi], 3
-	LONG $0xc40f4466; WORD $0x1e1c; BYTE $0x04 // pinsrw    xmm11, word [rsi + rbx], 4
-	LONG $0xc40f4666; WORD $0x3e1c; BYTE $0x05 // pinsrw    xmm11, word [rsi + r15], 5
-	LONG $0xc40f4666; WORD $0x261c; BYTE $0x06 // pinsrw    xmm11, word [rsi + r12], 6
-	LONG $0xc40f4666; WORD $0x2e1c; BYTE $0x07 // pinsrw    xmm11, word [rsi + r13], 7
-	LONG $0x6e0f4466; BYTE $0xf8               // movd    xmm15, eax
-	QUAD $0x0001d024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 464]
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
-	QUAD $0x00016024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 352], xmm7
-	LONG $0x7c6f0f66; WORD $0x1024             // movdqa    xmm7, oword [rsp + 16]
-	LONG $0x7cc40f66; WORD $0x020e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 2], 1
-	QUAD $0x0202067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 2], 2
-	LONG $0x7cc40f66; WORD $0x023e; BYTE $0x03 // pinsrw    xmm7, word [rsi + rdi + 2], 3
-	LONG $0x7cc40f66; WORD $0x021e; BYTE $0x04 // pinsrw    xmm7, word [rsi + rbx + 2], 4
-	QUAD $0x05023e7cc40f4266                   // pinsrw    xmm7, word [rsi + r15 + 2], 5
-	QUAD $0x0602267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 2], 6
-	QUAD $0x07022e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 2], 7
-	LONG $0x6f0f4466; BYTE $0xd8               // movdqa    xmm11, xmm0
-	QUAD $0x01040e4cc40f4466                   // pinsrw    xmm9, word [rsi + rcx + 4], 1
-	QUAD $0x0204064cc40f4666                   // pinsrw    xmm9, word [rsi + r8 + 4], 2
-	QUAD $0x03043e4cc40f4466                   // pinsrw    xmm9, word [rsi + rdi + 4], 3
-	QUAD $0x04041e4cc40f4466                   // pinsrw    xmm9, word [rsi + rbx + 4], 4
-	QUAD $0x05043e4cc40f4666                   // pinsrw    xmm9, word [rsi + r15 + 4], 5
-	QUAD $0x0604264cc40f4666                   // pinsrw    xmm9, word [rsi + r12 + 4], 6
-	LONG $0x650f4466; BYTE $0xdf               // pcmpgtw    xmm11, xmm7
-	QUAD $0x07042e4cc40f4666                   // pinsrw    xmm9, word [rsi + r13 + 4], 7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	LONG $0x650f4166; BYTE $0xf9               // pcmpgtw    xmm7, xmm9
-	LONG $0x7c7f0f66; WORD $0x5024             // movdqa    oword [rsp + 80], xmm7
-	QUAD $0x01060e54c40f4466                   // pinsrw    xmm10, word [rsi + rcx + 6], 1
-	QUAD $0x02060654c40f4666                   // pinsrw    xmm10, word [rsi + r8 + 6], 2
-	QUAD $0x03063e54c40f4466                   // pinsrw    xmm10, word [rsi + rdi + 6], 3
-	QUAD $0x04061e54c40f4466                   // pinsrw    xmm10, word [rsi + rbx + 6], 4
-	QUAD $0x05063e54c40f4666                   // pinsrw    xmm10, word [rsi + r15 + 6], 5
-	QUAD $0x06062654c40f4666                   // pinsrw    xmm10, word [rsi + r12 + 6], 6
-	QUAD $0x07062e54c40f4666                   // pinsrw    xmm10, word [rsi + r13 + 6], 7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	QUAD $0x01080e64c40f4466                   // pinsrw    xmm12, word [rsi + rcx + 8], 1
-	QUAD $0x02080664c40f4666                   // pinsrw    xmm12, word [rsi + r8 + 8], 2
-	QUAD $0x03083e64c40f4466                   // pinsrw    xmm12, word [rsi + rdi + 8], 3
-	QUAD $0x04081e64c40f4466                   // pinsrw    xmm12, word [rsi + rbx + 8], 4
-	QUAD $0x05083e64c40f4666                   // pinsrw    xmm12, word [rsi + r15 + 8], 5
-	QUAD $0x06082664c40f4666                   // pinsrw    xmm12, word [rsi + r12 + 8], 6
-	QUAD $0x07082e64c40f4666                   // pinsrw    xmm12, word [rsi + r13 + 8], 7
-	LONG $0x650f4166; BYTE $0xfa               // pcmpgtw    xmm7, xmm10
-	LONG $0x7c7f0f66; WORD $0x7024             // movdqa    oword [rsp + 112], xmm7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	LONG $0x650f4166; BYTE $0xfc               // pcmpgtw    xmm7, xmm12
-	LONG $0x7c7f0f66; WORD $0x2024             // movdqa    oword [rsp + 32], xmm7
-	QUAD $0x010a0e6cc40f4466                   // pinsrw    xmm13, word [rsi + rcx + 10], 1
-	QUAD $0x020a066cc40f4666                   // pinsrw    xmm13, word [rsi + r8 + 10], 2
-	QUAD $0x030a3e6cc40f4466                   // pinsrw    xmm13, word [rsi + rdi + 10], 3
-	QUAD $0x040a1e6cc40f4466                   // pinsrw    xmm13, word [rsi + rbx + 10], 4
-	QUAD $0x050a3e6cc40f4666                   // pinsrw    xmm13, word [rsi + r15 + 10], 5
-	QUAD $0x060a266cc40f4666                   // pinsrw    xmm13, word [rsi + r12 + 10], 6
-	QUAD $0x070a2e6cc40f4666                   // pinsrw    xmm13, word [rsi + r13 + 10], 7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	QUAD $0x010c0e74c40f4466                   // pinsrw    xmm14, word [rsi + rcx + 12], 1
-	QUAD $0x020c0674c40f4666                   // pinsrw    xmm14, word [rsi + r8 + 12], 2
-	QUAD $0x030c3e74c40f4466                   // pinsrw    xmm14, word [rsi + rdi + 12], 3
-	QUAD $0x040c1e74c40f4466                   // pinsrw    xmm14, word [rsi + rbx + 12], 4
-	QUAD $0x050c3e74c40f4666                   // pinsrw    xmm14, word [rsi + r15 + 12], 5
-	QUAD $0x060c2674c40f4666                   // pinsrw    xmm14, word [rsi + r12 + 12], 6
-	LONG $0x650f4166; BYTE $0xfd               // pcmpgtw    xmm7, xmm13
-	QUAD $0x00008024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 128], xmm7
-	QUAD $0x070c2e74c40f4666                   // pinsrw    xmm14, word [rsi + r13 + 12], 7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	LONG $0x650f4166; BYTE $0xfe               // pcmpgtw    xmm7, xmm14
-	LONG $0x6f0f4466; BYTE $0xf7               // movdqa    xmm14, xmm7
-	QUAD $0x010e0e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 14], 1
-	QUAD $0x020e0644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 14], 2
-	QUAD $0x030e3e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 14], 3
-	QUAD $0x040e1e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 14], 4
-	QUAD $0x050e3e44c40f4666                   // pinsrw    xmm8, word [rsi + r15 + 14], 5
-	QUAD $0x060e2644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 14], 6
-	QUAD $0x070e2e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 14], 7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	LONG $0x4cc40f66; WORD $0x100e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 16], 1
-	QUAD $0x0210064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 16], 2
-	LONG $0x4cc40f66; WORD $0x103e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 16], 3
-	LONG $0x4cc40f66; WORD $0x101e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 16], 4
-	QUAD $0x05103e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 16], 5
-	QUAD $0x0610264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 16], 6
-	QUAD $0x07102e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 16], 7
-	LONG $0x650f4166; BYTE $0xf8               // pcmpgtw    xmm7, xmm8
-	LONG $0x7c7f0f66; WORD $0x6024             // movdqa    oword [rsp + 96], xmm7
-	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
-	LONG $0xf9650f66                           // pcmpgtw    xmm7, xmm1
-	QUAD $0x0001b024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 432], xmm7
-	LONG $0x54c40f66; WORD $0x120e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 18], 1
-	QUAD $0x02120654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 18], 2
-	LONG $0x54c40f66; WORD $0x123e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 18], 3
-	LONG $0x54c40f66; WORD $0x121e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 18], 4
-	QUAD $0x05123e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 18], 5
-	QUAD $0x06122654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 18], 6
-	QUAD $0x07122e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 18], 7
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0x5cc40f66; WORD $0x140e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 20], 1
-	QUAD $0x0214065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 20], 2
-	LONG $0x5cc40f66; WORD $0x143e; BYTE $0x03 // pinsrw    xmm3, word [rsi + rdi + 20], 3
-	LONG $0x5cc40f66; WORD $0x141e; BYTE $0x04 // pinsrw    xmm3, word [rsi + rbx + 20], 4
-	QUAD $0x05143e5cc40f4266                   // pinsrw    xmm3, word [rsi + r15 + 20], 5
-	QUAD $0x0614265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 20], 6
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm1
-	QUAD $0x07142e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 20], 7
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcb650f66                           // pcmpgtw    xmm1, xmm3
-	LONG $0x4c7f0f66; WORD $0x3024             // movdqa    oword [rsp + 48], xmm1
-	LONG $0x64c40f66; WORD $0x160e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 22], 1
-	QUAD $0x02160664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 22], 2
-	LONG $0x64c40f66; WORD $0x163e; BYTE $0x03 // pinsrw    xmm4, word [rsi + rdi + 22], 3
-	LONG $0x64c40f66; WORD $0x161e; BYTE $0x04 // pinsrw    xmm4, word [rsi + rbx + 22], 4
-	QUAD $0x05163e64c40f4266                   // pinsrw    xmm4, word [rsi + r15 + 22], 5
-	QUAD $0x06162664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 22], 6
-	QUAD $0x07162e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 22], 7
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0x6cc40f66; WORD $0x180e; BYTE $0x01 // pinsrw    xmm5, word [rsi + rcx + 24], 1
-	QUAD $0x0218066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 24], 2
-	LONG $0x6cc40f66; WORD $0x183e; BYTE $0x03 // pinsrw    xmm5, word [rsi + rdi + 24], 3
-	LONG $0x6cc40f66; WORD $0x181e; BYTE $0x04 // pinsrw    xmm5, word [rsi + rbx + 24], 4
-	QUAD $0x05183e6cc40f4266                   // pinsrw    xmm5, word [rsi + r15 + 24], 5
-	QUAD $0x0618266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 24], 6
-	QUAD $0x07182e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 24], 7
-	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
-	QUAD $0x0000c0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcd650f66                           // pcmpgtw    xmm1, xmm5
-	LONG $0x4c7f0f66; WORD $0x1024             // movdqa    oword [rsp + 16], xmm1
-	LONG $0x74c40f66; WORD $0x1a0e; BYTE $0x01 // pinsrw    xmm6, word [rsi + rcx + 26], 1
-	QUAD $0x021a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 26], 2
-	LONG $0x74c40f66; WORD $0x1a3e; BYTE $0x03 // pinsrw    xmm6, word [rsi + rdi + 26], 3
-	LONG $0x74c40f66; WORD $0x1a1e; BYTE $0x04 // pinsrw    xmm6, word [rsi + rbx + 26], 4
-	QUAD $0x051a3e74c40f4266                   // pinsrw    xmm6, word [rsi + r15 + 26], 5
-	QUAD $0x061a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 26], 6
-	QUAD $0x071a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 26], 7
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	QUAD $0x011c0e7cc40f4466                   // pinsrw    xmm15, word [rsi + rcx + 28], 1
-	QUAD $0x021c067cc40f4666                   // pinsrw    xmm15, word [rsi + r8 + 28], 2
-	QUAD $0x031c3e7cc40f4466                   // pinsrw    xmm15, word [rsi + rdi + 28], 3
-	QUAD $0x041c1e7cc40f4466                   // pinsrw    xmm15, word [rsi + rbx + 28], 4
-	QUAD $0x051c3e7cc40f4666                   // pinsrw    xmm15, word [rsi + r15 + 28], 5
-	QUAD $0x061c267cc40f4666                   // pinsrw    xmm15, word [rsi + r12 + 28], 6
-	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
-	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
-	QUAD $0x071c2e7cc40f4666                   // pinsrw    xmm15, word [rsi + r13 + 28], 7
-	LONG $0xca6e0f66                           // movd    xmm1, edx
-	LONG $0x4cc40f66; WORD $0x1e0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 30], 1
-	QUAD $0x021e064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 30], 2
-	LONG $0x4cc40f66; WORD $0x1e3e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 30], 3
-	LONG $0x4cc40f66; WORD $0x1e1e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 30], 4
-	QUAD $0x051e3e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 30], 5
-	QUAD $0x061e264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 30], 6
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0x650f4166; BYTE $0xd7               // pcmpgtw    xmm2, xmm15
-	QUAD $0x0000f024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 240], xmm2
-	QUAD $0x071e2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 30], 7
-	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
-	LONG $0xd1650f66                           // pcmpgtw    xmm2, xmm1
-	QUAD $0x00009024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm2
-	LONG $0x44b70f42; WORD $0x200e             // movzx    eax, word [rsi + r9 + 32]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x200e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 32], 1
-	QUAD $0x0220064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 32], 2
-	LONG $0x4cc40f66; WORD $0x203e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 32], 3
-	LONG $0x4cc40f66; WORD $0x201e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 32], 4
-	QUAD $0x05203e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 32], 5
-	QUAD $0x0620264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 32], 6
-	QUAD $0x07202e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 32], 7
-	LONG $0x44b70f42; WORD $0x220e             // movzx    eax, word [rsi + r9 + 34]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x220e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 34], 1
-	QUAD $0x02220654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 34], 2
-	LONG $0x54c40f66; WORD $0x223e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 34], 3
-	LONG $0x54c40f66; WORD $0x221e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 34], 4
-	QUAD $0x05223e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 34], 5
-	QUAD $0x06222654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 34], 6
-	QUAD $0x07222e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 34], 7
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
-	QUAD $0x0000e0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm3
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	QUAD $0x000120248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 288], xmm1
-	LONG $0x44b70f42; WORD $0x240e             // movzx    eax, word [rsi + r9 + 36]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x240e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 36], 1
-	QUAD $0x0224064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 36], 2
-	LONG $0x4cc40f66; WORD $0x243e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 36], 3
-	LONG $0x4cc40f66; WORD $0x241e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 36], 4
-	QUAD $0x05243e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 36], 5
-	QUAD $0x0624264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 36], 6
-	LONG $0x44b70f42; WORD $0x260e             // movzx    eax, word [rsi + r9 + 38]
-	QUAD $0x07242e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 36], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x260e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 38], 1
-	QUAD $0x02260654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 38], 2
-	LONG $0x54c40f66; WORD $0x263e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 38], 3
-	LONG $0x54c40f66; WORD $0x261e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 38], 4
-	QUAD $0x05263e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 38], 5
-	QUAD $0x06262654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 38], 6
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
-	QUAD $0x000100249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm3
-	QUAD $0x07262e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 38], 7
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	QUAD $0x000110248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm1
-	LONG $0x44b70f42; WORD $0x280e             // movzx    eax, word [rsi + r9 + 40]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x280e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 40], 1
-	QUAD $0x0228064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 40], 2
-	LONG $0x4cc40f66; WORD $0x283e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 40], 3
-	LONG $0x4cc40f66; WORD $0x281e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 40], 4
-	QUAD $0x05283e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 40], 5
-	QUAD $0x0628264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 40], 6
-	QUAD $0x07282e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 40], 7
-	LONG $0x44b70f42; WORD $0x2a0e             // movzx    eax, word [rsi + r9 + 42]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x2a0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 42], 1
-	QUAD $0x022a0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 42], 2
-	LONG $0x54c40f66; WORD $0x2a3e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 42], 3
-	LONG $0x54c40f66; WORD $0x2a1e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 42], 4
-	QUAD $0x052a3e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 42], 5
-	QUAD $0x062a2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 42], 6
-	QUAD $0x072a2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 42], 7
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
-	QUAD $0x000130249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm3
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	QUAD $0x000150248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 336], xmm1
-	LONG $0x44b70f42; WORD $0x2c0e             // movzx    eax, word [rsi + r9 + 44]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x2c0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 44], 1
-	QUAD $0x022c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 44], 2
-	LONG $0x4cc40f66; WORD $0x2c3e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 44], 3
-	LONG $0x4cc40f66; WORD $0x2c1e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 44], 4
-	QUAD $0x052c3e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 44], 5
-	QUAD $0x062c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 44], 6
-	LONG $0x44b70f42; WORD $0x2e0e             // movzx    eax, word [rsi + r9 + 46]
-	QUAD $0x072c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 44], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x2e0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 46], 1
-	QUAD $0x022e0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 46], 2
-	LONG $0x54c40f66; WORD $0x2e3e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 46], 3
-	LONG $0x54c40f66; WORD $0x2e1e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 46], 4
-	QUAD $0x052e3e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 46], 5
-	QUAD $0x062e2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 46], 6
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
-	QUAD $0x000140249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 320], xmm3
-	QUAD $0x072e2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 46], 7
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	QUAD $0x0000a0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm1
-	LONG $0x44b70f42; WORD $0x300e             // movzx    eax, word [rsi + r9 + 48]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x300e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 48], 1
-	QUAD $0x0230064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 48], 2
-	LONG $0x4cc40f66; WORD $0x303e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 48], 3
-	LONG $0x4cc40f66; WORD $0x301e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 48], 4
-	QUAD $0x05303e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 48], 5
-	QUAD $0x0630264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 48], 6
-	QUAD $0x07302e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 48], 7
-	LONG $0x44b70f42; WORD $0x320e             // movzx    eax, word [rsi + r9 + 50]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x320e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 50], 1
-	QUAD $0x02320654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 50], 2
-	LONG $0x54c40f66; WORD $0x323e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 50], 3
-	LONG $0x54c40f66; WORD $0x321e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 50], 4
-	QUAD $0x05323e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 50], 5
-	QUAD $0x06322654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 50], 6
-	QUAD $0x07322e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 50], 7
-	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
-	LONG $0x650f4466; BYTE $0xe9               // pcmpgtw    xmm13, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
-	QUAD $0x000170248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 368], xmm1
-	LONG $0x44b70f42; WORD $0x340e             // movzx    eax, word [rsi + r9 + 52]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x340e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 52], 1
-	QUAD $0x0234064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 52], 2
-	LONG $0x4cc40f66; WORD $0x343e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 52], 3
-	LONG $0x4cc40f66; WORD $0x341e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 52], 4
-	QUAD $0x05343e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 52], 5
-	QUAD $0x0634264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 52], 6
-	LONG $0x44b70f42; WORD $0x360e             // movzx    eax, word [rsi + r9 + 54]
-	QUAD $0x07342e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 52], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x360e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 54], 1
-	QUAD $0x02360654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 54], 2
-	LONG $0x54c40f66; WORD $0x363e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 54], 3
-	LONG $0x54c40f66; WORD $0x361e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 54], 4
-	QUAD $0x05363e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 54], 5
-	QUAD $0x06362654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 54], 6
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
-	QUAD $0x0001a0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 416], xmm3
-	QUAD $0x07362e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 54], 7
-	LONG $0x6f0f4466; BYTE $0xf8               // movdqa    xmm15, xmm0
-	LONG $0x650f4466; BYTE $0xfa               // pcmpgtw    xmm15, xmm2
-	LONG $0x44b70f42; WORD $0x380e             // movzx    eax, word [rsi + r9 + 56]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x4cc40f66; WORD $0x380e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 56], 1
-	QUAD $0x0238064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 56], 2
-	LONG $0x4cc40f66; WORD $0x383e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 56], 3
-	LONG $0x4cc40f66; WORD $0x381e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 56], 4
-	QUAD $0x05383e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 56], 5
-	QUAD $0x0638264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 56], 6
-	QUAD $0x07382e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 56], 7
-	LONG $0x44b70f42; WORD $0x3a0e             // movzx    eax, word [rsi + r9 + 58]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x3a0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 58], 1
-	QUAD $0x023a0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 58], 2
-	LONG $0x54c40f66; WORD $0x3a3e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 58], 3
-	LONG $0x54c40f66; WORD $0x3a1e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 58], 4
-	QUAD $0x053a3e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 58], 5
-	QUAD $0x063a2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 58], 6
-	QUAD $0x073a2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 58], 7
-	LONG $0x6f0f4466; BYTE $0xc8               // movdqa    xmm9, xmm0
-	LONG $0x650f4466; BYTE $0xc9               // pcmpgtw    xmm9, xmm1
-	LONG $0x6f0f4466; BYTE $0xe0               // movdqa    xmm12, xmm0
-	LONG $0x650f4466; BYTE $0xe2               // pcmpgtw    xmm12, xmm2
-	LONG $0x44b70f42; WORD $0x3c0e             // movzx    eax, word [rsi + r9 + 60]
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x54c40f66; WORD $0x3c0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 60], 1
-	QUAD $0x023c0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 60], 2
-	LONG $0x54c40f66; WORD $0x3c3e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 60], 3
-	LONG $0x54c40f66; WORD $0x3c1e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 60], 4
-	QUAD $0x053c3e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 60], 5
-	QUAD $0x063c2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 60], 6
-	LONG $0x44b70f42; WORD $0x3e0e             // movzx    eax, word [rsi + r9 + 62]
-	QUAD $0x073c2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 60], 7
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x7cc40f66; WORD $0x3e0e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 62], 1
-	QUAD $0x023e067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 62], 2
-	LONG $0x7cc40f66; WORD $0x3e3e; BYTE $0x03 // pinsrw    xmm7, word [rsi + rdi + 62], 3
-	LONG $0x7cc40f66; WORD $0x3e1e; BYTE $0x04 // pinsrw    xmm7, word [rsi + rbx + 62], 4
-	QUAD $0x053e3e7cc40f4266                   // pinsrw    xmm7, word [rsi + r15 + 62], 5
-	QUAD $0x063e267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 62], 6
-	LONG $0xe86f0f66                           // movdqa    xmm5, xmm0
-	LONG $0xea650f66                           // pcmpgtw    xmm5, xmm2
-	QUAD $0x073e2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 62], 7
-	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
-	LONG $0xf7650f66                           // pcmpgtw    xmm6, xmm7
-	LONG $0x630f4566; BYTE $0xdb               // packsswb    xmm11, xmm11
-	QUAD $0x000000808d6f0f66                   // movdqa    xmm1, oword 128[rbp] /* [rip + .LCPI10_8] */
-	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
-	LONG $0xd96f0f66                           // movdqa    xmm3, xmm1
-	LONG $0x6f0f4166; BYTE $0xc3               // movdqa    xmm0, xmm11
-	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0x546f0f66; WORD $0x5024             // movdqa    xmm2, oword [rsp + 80]
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x000000908d6f0f66                   // movdqa    xmm1, oword 144[rbp] /* [rip + .LCPI10_9] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0xd2760f66                           // pcmpeqd    xmm2, xmm2
-	QUAD $0x00016024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 352]
-	LONG $0xc2ef0f66                           // pxor    xmm0, xmm2
-	LONG $0x760f4566; BYTE $0xc0               // pcmpeqd    xmm8, xmm8
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xf8f80f66                           // psubb    xmm7, xmm0
-	LONG $0x546f0f66; WORD $0x7024             // movdqa    xmm2, oword [rsp + 112]
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x0000a09d6f0f4466; BYTE $0x00       // movdqa    xmm11, oword 160[rbp] /* [rip + .LCPI10_10] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4466; WORD $0xdc10             // pblendvb    xmm11, xmm4, xmm0
-	LONG $0xeb0f4466; BYTE $0xd9               // por    xmm11, xmm1
-	LONG $0x546f0f66; WORD $0x2024             // movdqa    xmm2, oword [rsp + 32]
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI10_11] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0xeb0f4466; BYTE $0xdf               // por    xmm11, xmm7
-	QUAD $0x00008024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 128]
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x0000c0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 192[rbp] /* [rip + .LCPI10_12] */
-	LONG $0x6f0f4166; BYTE $0xfa               // movdqa    xmm7, xmm10
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0x630f4566; BYTE $0xf6               // packsswb    xmm14, xmm14
-	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI10_13] */
-	LONG $0x6f0f4166; BYTE $0xc6               // movdqa    xmm0, xmm14
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0xcfeb0f66                           // por    xmm1, xmm7
-	LONG $0x546f0f66; WORD $0x6024             // movdqa    xmm2, oword [rsp + 96]
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x0000e0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 224[rbp] /* [rip + .LCPI10_14] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4466; WORD $0xf410             // pblendvb    xmm14, xmm4, xmm0
-	LONG $0xeb0f4166; BYTE $0xcb               // por    xmm1, xmm11
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x6f0f4466; BYTE $0xdb               // movdqa    xmm11, xmm3
-	LONG $0xfb6f0f66                           // movdqa    xmm7, xmm3
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xeb0f4466; BYTE $0xf1               // por    xmm14, xmm1
-	QUAD $0x0001b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 432]
-	LONG $0xef0f4166; BYTE $0xc0               // pxor    xmm0, xmm8
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xf8f80f66                           // psubb    xmm7, xmm0
-	LONG $0x446f0f66; WORD $0x3024             // movdqa    xmm0, oword [rsp + 48]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x000000909d6f0f66                   // movdqa    xmm3, oword 144[rbp] /* [rip + .LCPI10_9] */
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	QUAD $0x0000c024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 192]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x0000a0856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 160[rbp] /* [rip + .LCPI10_10] */
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x446f0f66; WORD $0x1024             // movdqa    xmm0, oword [rsp + 16]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI10_11] */
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	QUAD $0x0000d024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 208]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x380f4466; WORD $0xd410             // pblendvb    xmm10, xmm4, xmm0
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x0000f024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 240]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI10_13] */
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0xeb0f4166; BYTE $0xca               // por    xmm1, xmm10
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x00009024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 144]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x0000e0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 224[rbp] /* [rip + .LCPI10_14] */
-	LONG $0x380f4466; WORD $0xd410             // pblendvb    xmm10, xmm4, xmm0
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	QUAD $0x00012024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 288]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x6f0f4166; BYTE $0xcb               // movdqa    xmm1, xmm11
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	QUAD $0x00010024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 256]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xd36f0f66                           // movdqa    xmm2, xmm3
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	QUAD $0x0000e024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 224]
-	QUAD $0x0000016085ef0f66                   // pxor    xmm0, oword 352[rbp] /* [rip + .LCPI10_22] */
-	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	QUAD $0x00011024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 272]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	QUAD $0x00013024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 304]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x0150249c6f0f4466; WORD $0x0000     // movdqa    xmm11, oword [rsp + 336]
-	LONG $0x630f4566; BYTE $0xdb               // packsswb    xmm11, xmm11
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI10_11] */
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	QUAD $0x000000c0956f0f66                   // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI10_12] */
-	LONG $0x6f0f4166; BYTE $0xc3               // movdqa    xmm0, xmm11
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	QUAD $0x00014024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 320]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI10_13] */
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x0000a024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 160]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	QUAD $0x0170249c6f0f4466; WORD $0x0000     // movdqa    xmm11, oword [rsp + 368]
-	LONG $0x630f4566; BYTE $0xdb               // packsswb    xmm11, xmm11
-	LONG $0xcfeb0f66                           // por    xmm1, xmm7
-	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI10_14] */
-	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
-	QUAD $0x00000080956f0f66                   // movdqa    xmm2, oword 128[rbp] /* [rip + .LCPI10_8] */
-	LONG $0x6f0f4166; BYTE $0xc3               // movdqa    xmm0, xmm11
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xf9eb0f66                           // por    xmm7, xmm1
-	LONG $0xef0f4466; BYTE $0xeb               // pxor    xmm13, xmm3
-	LONG $0x630f4566; BYTE $0xed               // packsswb    xmm13, xmm13
-	QUAD $0x0001a024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 416]
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x630f4566; BYTE $0xff               // packsswb    xmm15, xmm15
-	LONG $0xf80f4166; BYTE $0xd5               // psubb    xmm2, xmm13
-	QUAD $0x000000908d6f0f66                   // movdqa    xmm1, oword 144[rbp] /* [rip + .LCPI10_9] */
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
-	LONG $0x380f4466; WORD $0xc410             // pblendvb    xmm8, xmm4, xmm0
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	LONG $0x630f4566; BYTE $0xc9               // packsswb    xmm9, xmm9
-	LONG $0x630f4566; BYTE $0xe4               // packsswb    xmm12, xmm12
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI10_11] */
-	LONG $0x6f0f4166; BYTE $0xc1               // movdqa    xmm0, xmm9
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	QUAD $0x000000c0956f0f66                   // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI10_12] */
-	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI10_13] */
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI10_14] */
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
-	LONG $0xd1eb0f66                           // por    xmm2, xmm1
-	LONG $0x6f0f4166; BYTE $0xc6               // movdqa    xmm0, xmm14
-	LONG $0x6c0f4166; BYTE $0xc2               // punpcklqdq    xmm0, xmm10
-	LONG $0xcf6f0f66                           // movdqa    xmm1, xmm7
-	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI10_15] */
-	LONG $0x00380f66; BYTE $0xcb               // pshufb    xmm1, xmm3
-	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
-	LONG $0xc1610f66                           // punpcklwd    xmm0, xmm1
-	LONG $0xfa600f66                           // punpcklbw    xmm7, xmm2
-	LONG $0x600f4566; BYTE $0xf2               // punpcklbw    xmm14, xmm10
-	LONG $0x610f4466; BYTE $0xf7               // punpcklwd    xmm14, xmm7
-	LONG $0x7f0f47f3; WORD $0x9634             // movdqu    oword [r14 + 4*r10], xmm14
-	LONG $0x7f0f43f3; WORD $0x9644; BYTE $0x10 // movdqu    oword [r14 + 4*r10 + 16], xmm0
-	LONG $0x08c28349                           // add    r10, 8
-	QUAD $0x0000019024943b4c                   // cmp    r10, qword [rsp + 400]
-	JNE  LBB10_198
-	QUAD $0x000001c824bc8b4c                   // mov    r15, qword [rsp + 456]
-	QUAD $0x0000019024bc3b4c                   // cmp    r15, qword [rsp + 400]
-	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	JNE  LBB10_101
-	JMP  LBB10_136
-
-LBB10_200:
-	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xf3                   // add    rbx, rsi
-	LONG $0x863c8d4f                           // lea    r15, [r14 + 4*r8]
-	LONG $0xeb280f45                           // movaps    xmm13, xmm11
-	LONG $0xebc60f45; BYTE $0x00               // shufps    xmm13, xmm11, 0
-	LONG $0xfcc68148; WORD $0x0001; BYTE $0x00 // add    rsi, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI10_0] */
-
-LBB10_201:
-	QUAD $0xfffffe049e100ff3                           // movss    xmm3, dword [rsi - 508]
-	QUAD $0xfffe0896100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 504]
-	QUAD $0xfffe0c8e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 500]
-	QUAD $0xfffffe108e100ff3                           // movss    xmm1, dword [rsi - 496]
-	QUAD $0xfffe849e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 380], 16
-	QUAD $0xffff049e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 252], 32
-	LONG $0x213a0f66; WORD $0x845e; BYTE $0x30         // insertps    xmm3, dword [rsi - 124], 48
-	QUAD $0xfe8896213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 376], 16
-	QUAD $0xff0896213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 248], 32
-	QUAD $0x308856213a0f4466                           // insertps    xmm10, dword [rsi - 120], 48
-	QUAD $0xfe8c8e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 372], 16
-	QUAD $0xff0c8e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 244], 32
-	QUAD $0x308c4e213a0f4466                           // insertps    xmm9, dword [rsi - 116], 48
-	QUAD $0xfffe908e213a0f66; WORD $0x10ff             // insertps    xmm1, dword [rsi - 368], 16
-	QUAD $0xffff108e213a0f66; WORD $0x20ff             // insertps    xmm1, dword [rsi - 240], 32
-	LONG $0x213a0f66; WORD $0x904e; BYTE $0x30         // insertps    xmm1, dword [rsi - 112], 48
-	QUAD $0xfffe1486100f44f3; BYTE $0xff               // movss    xmm8, dword [rsi - 492]
-	QUAD $0xfe9486213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm8, dword [rsi - 364], 16
-	QUAD $0xff1486213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm8, dword [rsi - 236], 32
-	LONG $0xe5280f45                                   // movaps    xmm12, xmm13
-	QUAD $0x309446213a0f4466                           // insertps    xmm8, dword [rsi - 108], 48
-	QUAD $0xfffffe1896100ff3                           // movss    xmm2, dword [rsi - 488]
-	QUAD $0xfffe9896213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 360], 16
-	QUAD $0xffff1896213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 232], 32
-	LONG $0xe3c20f44; BYTE $0x02                       // cmpleps    xmm12, xmm3
-	LONG $0x213a0f66; WORD $0x9856; BYTE $0x30         // insertps    xmm2, dword [rsi - 104], 48
-	QUAD $0xfffffe1c9e100ff3                           // movss    xmm3, dword [rsi - 484]
-	QUAD $0xfffe9c9e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 356], 16
-	QUAD $0xffff1c9e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 228], 32
-	LONG $0x6b0f4566; BYTE $0xe4                       // packssdw    xmm12, xmm12
-	LONG $0x213a0f66; WORD $0x9c5e; BYTE $0x30         // insertps    xmm3, dword [rsi - 100], 48
-	QUAD $0xfffffe24a6100ff3                           // movss    xmm4, dword [rsi - 476]
-	QUAD $0xfffea4a6213a0f66; WORD $0x10ff             // insertps    xmm4, dword [rsi - 348], 16
-	QUAD $0xffff24a6213a0f66; WORD $0x20ff             // insertps    xmm4, dword [rsi - 220], 32
-	LONG $0x630f4566; BYTE $0xe4                       // packsswb    xmm12, xmm12
-	LONG $0x213a0f66; WORD $0xa466; BYTE $0x30         // insertps    xmm4, dword [rsi - 92], 48
-	LONG $0xfd280f41                                   // movaps    xmm7, xmm13
-	QUAD $0xfffffe44ae100ff3                           // movss    xmm5, dword [rsi - 444]
-	QUAD $0xfffec4ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 316], 16
-	QUAD $0xffff44ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 188], 32
-	LONG $0x02fcc20f                                   // cmpleps    xmm7, xmm4
-	LONG $0x213a0f66; WORD $0xc46e; BYTE $0x30         // insertps    xmm5, dword [rsi - 60], 48
-	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
-	QUAD $0xfffffe6486100ff3                           // movss    xmm0, dword [rsi - 412]
-	QUAD $0xfffee486213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 284], 16
-	QUAD $0xffff6486213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 156], 32
-	LONG $0x02f5c20f                                   // cmpleps    xmm6, xmm5
-	LONG $0x213a0f66; WORD $0xe446; BYTE $0x30         // insertps    xmm0, dword [rsi - 28], 48
-	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
-	LONG $0x02e0c20f                                   // cmpleps    xmm4, xmm0
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc2c20f41; BYTE $0x02                       // cmpleps    xmm0, xmm10
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0x6f0f4466; BYTE $0xf0                       // movdqa    xmm14, xmm0
-	LONG $0xdb0f4566; BYTE $0xf7                       // pand    xmm14, xmm15
-	LONG $0xf80f4466; BYTE $0xf0                       // psubb    xmm14, xmm0
-	QUAD $0xfffe2096100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 480]
-	QUAD $0xfea096213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 352], 16
-	LONG $0xdb0f4566; BYTE $0xe7                       // pand    xmm12, xmm15
-	QUAD $0xff2096213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 224], 32
-	LONG $0xeb0f4566; BYTE $0xf4                       // por    xmm14, xmm12
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0xe9c20f41; BYTE $0x02                       // cmpleps    xmm5, xmm9
-	QUAD $0x30a056213a0f4466                           // insertps    xmm10, dword [rsi - 96], 48
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
-	LONG $0x456f0f66; BYTE $0x10                       // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xe8db0f66                                   // pand    xmm5, xmm0
-	LONG $0xeb0f4166; BYTE $0xee                       // por    xmm5, xmm14
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c1c20f                                   // cmpleps    xmm0, xmm1
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0xc8c20f41; BYTE $0x02                       // cmpleps    xmm1, xmm8
-	QUAD $0xfffe288e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 472]
-	QUAD $0xfea88e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 344], 16
-	QUAD $0xff288e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 216], 32
-	QUAD $0x30a84e213a0f4466                           // insertps    xmm9, dword [rsi - 88], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
-	LONG $0x6f0f4466; WORD $0x2075                     // movdqa    xmm14, oword 32[rbp] /* [rip + .LCPI10_2] */
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0x6f0f4466; WORD $0x3075                     // movdqa    xmm14, oword 48[rbp] /* [rip + .LCPI10_3] */
-	LONG $0xdb0f4166; BYTE $0xce                       // pand    xmm1, xmm14
-	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
-	QUAD $0xfffe2ca6100f44f3; BYTE $0xff               // movss    xmm12, dword [rsi - 468]
-	QUAD $0xfeaca6213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm12, dword [rsi - 340], 16
-	QUAD $0xff2ca6213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm12, dword [rsi - 212], 32
-	QUAD $0x30ac66213a0f4466                           // insertps    xmm12, dword [rsi - 84], 48
-	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c2c20f                                   // cmpleps    xmm0, xmm2
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0x02ebc20f                                   // cmpleps    xmm5, xmm3
-	QUAD $0xfffffe3096100ff3                           // movss    xmm2, dword [rsi - 464]
-	QUAD $0xfffeb096213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 336], 16
-	QUAD $0xffff3096213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 208], 32
-	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
-	LONG $0x213a0f66; WORD $0xb056; BYTE $0x30         // insertps    xmm2, dword [rsi - 80], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
-	LONG $0x6f0f4466; WORD $0x4075                     // movdqa    xmm14, oword 64[rbp] /* [rip + .LCPI10_4] */
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x06                       // psllw    xmm5, 6
-	LONG $0x5d6f0f66; BYTE $0x50                       // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI10_5] */
-	LONG $0xebdb0f66                                   // pand    xmm5, xmm3
-	LONG $0xe8eb0f66                                   // por    xmm5, xmm0
-	LONG $0xc5280f45                                   // movaps    xmm8, xmm13
-	LONG $0xc2c20f45; BYTE $0x02                       // cmpleps    xmm8, xmm10
-	QUAD $0xfffffe349e100ff3                           // movss    xmm3, dword [rsi - 460]
-	QUAD $0xfffeb49e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 332], 16
-	QUAD $0xffff349e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 204], 32
-	LONG $0x213a0f66; WORD $0xb45e; BYTE $0x30         // insertps    xmm3, dword [rsi - 76], 48
-	LONG $0x6b0f4566; BYTE $0xc0                       // packssdw    xmm8, xmm8
-	LONG $0x630f4566; BYTE $0xc0                       // packsswb    xmm8, xmm8
-	LONG $0x710f4166; WORD $0x07f0                     // psllw    xmm8, 7
-	LONG $0x456f0f66; BYTE $0x60                       // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xdb0f4466; BYTE $0xc0                       // pand    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc5                       // por    xmm8, xmm5
-	QUAD $0xfffe3896100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 456]
-	QUAD $0xfeb896213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 328], 16
-	QUAD $0xff3896213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 200], 32
-	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
-	QUAD $0x30b856213a0f4466                           // insertps    xmm10, dword [rsi - 72], 48
-	LONG $0xeb0f4466; BYTE $0xc1                       // por    xmm8, xmm1
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc1c20f41; BYTE $0x02                       // cmpleps    xmm0, xmm9
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xc86f0f66                                   // movdqa    xmm1, xmm0
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xc8f80f66                                   // psubb    xmm1, xmm0
-	QUAD $0xfffe3c8e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 452]
-	QUAD $0xfebc8e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 324], 16
-	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
-	QUAD $0xff3c8e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 196], 32
-	LONG $0xcfeb0f66                                   // por    xmm1, xmm7
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0xecc20f41; BYTE $0x02                       // cmpleps    xmm5, xmm12
-	QUAD $0x30bc4e213a0f4466                           // insertps    xmm9, dword [rsi - 68], 48
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
-	LONG $0x6ddb0f66; BYTE $0x10                       // pand    xmm5, oword 16[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xe9eb0f66                                   // por    xmm5, xmm1
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c2c20f                                   // cmpleps    xmm0, xmm2
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x02cbc20f                                   // cmpleps    xmm1, xmm3
-	QUAD $0xfffffe409e100ff3                           // movss    xmm3, dword [rsi - 448]
-	QUAD $0xfffec09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 320], 16
-	QUAD $0xffff409e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 192], 32
-	LONG $0x213a0f66; WORD $0xc05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 64], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
-	LONG $0x6f0f4466; WORD $0x2065                     // movdqa    xmm12, oword 32[rbp] /* [rip + .LCPI10_2] */
-	LONG $0xdb0f4166; BYTE $0xc4                       // pand    xmm0, xmm12
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0x4ddb0f66; BYTE $0x30                       // pand    xmm1, oword 48[rbp] /* [rip + .LCPI10_3] */
-	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
-	QUAD $0xfffffe4896100ff3                           // movss    xmm2, dword [rsi - 440]
-	QUAD $0xfffec896213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 312], 16
-	QUAD $0xffff4896213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 184], 32
-	LONG $0x213a0f66; WORD $0xc856; BYTE $0x30         // insertps    xmm2, dword [rsi - 56], 48
-	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc2c20f41; BYTE $0x02                       // cmpleps    xmm0, xmm10
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0xe9c20f41; BYTE $0x02                       // cmpleps    xmm5, xmm9
-	QUAD $0xfffffe4cbe100ff3                           // movss    xmm7, dword [rsi - 436]
-	QUAD $0xfffeccbe213a0f66; WORD $0x10ff             // insertps    xmm7, dword [rsi - 308], 16
-	QUAD $0xffff4cbe213a0f66; WORD $0x20ff             // insertps    xmm7, dword [rsi - 180], 32
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0x213a0f66; WORD $0xcc7e; BYTE $0x30         // insertps    xmm7, dword [rsi - 52], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x06                       // psllw    xmm5, 6
-	LONG $0x6ddb0f66; BYTE $0x50                       // pand    xmm5, oword 80[rbp] /* [rip + .LCPI10_5] */
-	LONG $0xe8eb0f66                                   // por    xmm5, xmm0
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c3c20f                                   // cmpleps    xmm0, xmm3
-	QUAD $0xfffffe509e100ff3                           // movss    xmm3, dword [rsi - 432]
-	QUAD $0xfffed09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 304], 16
-	QUAD $0xffff509e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 176], 32
-	LONG $0x213a0f66; WORD $0xd05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 48], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xf0710f66; BYTE $0x07                       // psllw    xmm0, 7
-	LONG $0x6f0f4466; WORD $0x6055                     // movdqa    xmm10, oword 96[rbp] /* [rip + .LCPI10_6] */
-	LONG $0xdb0f4166; BYTE $0xc2                       // pand    xmm0, xmm10
-	LONG $0xc5eb0f66                                   // por    xmm0, xmm5
-	QUAD $0xfffffe54ae100ff3                           // movss    xmm5, dword [rsi - 428]
-	QUAD $0xfffed4ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 300], 16
-	QUAD $0xffff54ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 172], 32
-	LONG $0x213a0f66; WORD $0xd46e; BYTE $0x30         // insertps    xmm5, dword [rsi - 44], 48
-	LONG $0xc1eb0f66                                   // por    xmm0, xmm1
-	QUAD $0xfffe588e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 424]
-	QUAD $0xfed88e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 296], 16
-	QUAD $0xff588e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 168], 32
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	QUAD $0x30d84e213a0f4466                           // insertps    xmm9, dword [rsi - 40], 48
-	LONG $0x620f4466; BYTE $0xc0                       // punpckldq    xmm8, xmm0
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c2c20f                                   // cmpleps    xmm0, xmm2
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xc86f0f66                                   // movdqa    xmm1, xmm0
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xc8f80f66                                   // psubb    xmm1, xmm0
-	QUAD $0xfffffe5c96100ff3                           // movss    xmm2, dword [rsi - 420]
-	QUAD $0xfffedc96213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 292], 16
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	QUAD $0xffff5c96213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 164], 32
-	LONG $0xceeb0f66                                   // por    xmm1, xmm6
-	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
-	LONG $0x02f7c20f                                   // cmpleps    xmm6, xmm7
-	LONG $0x213a0f66; WORD $0xdc56; BYTE $0x30         // insertps    xmm2, dword [rsi - 36], 48
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x02                       // psllw    xmm6, 2
-	LONG $0x456f0f66; BYTE $0x10                       // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xf0db0f66                                   // pand    xmm6, xmm0
-	LONG $0xf1eb0f66                                   // por    xmm6, xmm1
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c3c20f                                   // cmpleps    xmm0, xmm3
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x02cdc20f                                   // cmpleps    xmm1, xmm5
-	QUAD $0xfffffe609e100ff3                           // movss    xmm3, dword [rsi - 416]
-	QUAD $0xfffee09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 288], 16
-	QUAD $0xffff609e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 160], 32
-	LONG $0x213a0f66; WORD $0xe05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 32], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
-	LONG $0xdb0f4166; BYTE $0xc4                       // pand    xmm0, xmm12
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0x6f0f4466; WORD $0x3065                     // movdqa    xmm12, oword 48[rbp] /* [rip + .LCPI10_3] */
-	LONG $0xdb0f4166; BYTE $0xcc                       // pand    xmm1, xmm12
-	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
-	QUAD $0xfffffe68ae100ff3                           // movss    xmm5, dword [rsi - 408]
-	QUAD $0xfffee8ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 280], 16
-	QUAD $0xffff68ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 152], 32
-	LONG $0x213a0f66; WORD $0xe86e; BYTE $0x30         // insertps    xmm5, dword [rsi - 24], 48
-	LONG $0xceeb0f66                                   // por    xmm1, xmm6
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0xc1c20f41; BYTE $0x02                       // cmpleps    xmm0, xmm9
-	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
-	LONG $0x02f2c20f                                   // cmpleps    xmm6, xmm2
-	QUAD $0xfffffe6cbe100ff3                           // movss    xmm7, dword [rsi - 404]
-	QUAD $0xfffeecbe213a0f66; WORD $0x10ff             // insertps    xmm7, dword [rsi - 276], 16
-	QUAD $0xffff6cbe213a0f66; WORD $0x20ff             // insertps    xmm7, dword [rsi - 148], 32
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0x213a0f66; WORD $0xec7e; BYTE $0x30         // insertps    xmm7, dword [rsi - 20], 48
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
-	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
-	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
-	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x06                       // psllw    xmm6, 6
-	LONG $0x6f0f4466; WORD $0x504d                     // movdqa    xmm9, oword 80[rbp] /* [rip + .LCPI10_5] */
-	LONG $0xdb0f4166; BYTE $0xf1                       // pand    xmm6, xmm9
-	LONG $0xf0eb0f66                                   // por    xmm6, xmm0
-	LONG $0xd5280f41                                   // movaps    xmm2, xmm13
-	LONG $0x02d3c20f                                   // cmpleps    xmm2, xmm3
-	QUAD $0xfffffe7086100ff3                           // movss    xmm0, dword [rsi - 400]
-	QUAD $0xfffef086213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 272], 16
-	QUAD $0xffff7086213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 144], 32
-	LONG $0x213a0f66; WORD $0xf046; BYTE $0x30         // insertps    xmm0, dword [rsi - 16], 48
-	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
-	LONG $0xf2710f66; BYTE $0x07                       // psllw    xmm2, 7
-	LONG $0xdb0f4166; BYTE $0xd2                       // pand    xmm2, xmm10
-	LONG $0xd6eb0f66                                   // por    xmm2, xmm6
-	QUAD $0xfffffe74b6100ff3                           // movss    xmm6, dword [rsi - 396]
-	QUAD $0xfffef4b6213a0f66; WORD $0x10ff             // insertps    xmm6, dword [rsi - 268], 16
-	QUAD $0xffff74b6213a0f66; WORD $0x20ff             // insertps    xmm6, dword [rsi - 140], 32
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0x213a0f66; WORD $0xf476; BYTE $0x30         // insertps    xmm6, dword [rsi - 12], 48
-	LONG $0xd1eb0f66                                   // por    xmm2, xmm1
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x02cdc20f                                   // cmpleps    xmm1, xmm5
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xe96f0f66                                   // movdqa    xmm5, xmm1
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xe9f80f66                                   // psubb    xmm5, xmm1
-	QUAD $0xfffffe789e100ff3                           // movss    xmm3, dword [rsi - 392]
-	QUAD $0xfffef89e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 264], 16
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	QUAD $0xffff789e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 136], 32
-	LONG $0xeceb0f66                                   // por    xmm5, xmm4
-	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
-	LONG $0x02e7c20f                                   // cmpleps    xmm4, xmm7
-	LONG $0x213a0f66; WORD $0xf85e; BYTE $0x30         // insertps    xmm3, dword [rsi - 8], 48
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x02                       // psllw    xmm4, 2
-	LONG $0x65db0f66; BYTE $0x10                       // pand    xmm4, oword 16[rbp] /* [rip + .LCPI10_1] */
-	LONG $0xe5eb0f66                                   // por    xmm4, xmm5
-	LONG $0xed280f41                                   // movaps    xmm5, xmm13
-	LONG $0x02e8c20f                                   // cmpleps    xmm5, xmm0
-	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
-	LONG $0x02cec20f                                   // cmpleps    xmm1, xmm6
-	QUAD $0xfffffe7c86100ff3                           // movss    xmm0, dword [rsi - 388]
-	QUAD $0xfffefc86213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 260], 16
-	QUAD $0xffff7c86213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 132], 32
-	LONG $0x213a0f66; WORD $0xfc46; BYTE $0x30         // insertps    xmm0, dword [rsi - 4], 48
-	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
-	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03                       // psllw    xmm5, 3
-	LONG $0x6ddb0f66; BYTE $0x20                       // pand    xmm5, oword 32[rbp] /* [rip + .LCPI10_2] */
-	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
-	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
-	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
-	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
-	LONG $0xdb0f4166; BYTE $0xcc                       // pand    xmm1, xmm12
-	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
-	QUAD $0xfffffe80ae100ff3                           // movss    xmm5, dword [rsi - 384]
-	QUAD $0xffff00ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 256], 16
-	LONG $0x213a0f66; WORD $0x806e; BYTE $0x20         // insertps    xmm5, dword [rsi - 128], 32
-	LONG $0xcceb0f66                                   // por    xmm1, xmm4
-	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
-	LONG $0x02e3c20f                                   // cmpleps    xmm4, xmm3
-	LONG $0xdd280f41                                   // movaps    xmm3, xmm13
-	LONG $0x02d8c20f                                   // cmpleps    xmm3, xmm0
-	LONG $0x213a0f66; WORD $0x302e                     // insertps    xmm5, dword [rsi], 48
-	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x05                       // psllw    xmm4, 5
-	LONG $0xdb0f4166; BYTE $0xe6                       // pand    xmm4, xmm14
-	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06                       // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xd9                       // pand    xmm3, xmm9
-	LONG $0xdceb0f66                                   // por    xmm3, xmm4
-	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
-	LONG $0x02c5c20f                                   // cmpleps    xmm0, xmm5
-	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
-	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
-	LONG $0xf0710f66; BYTE $0x07                       // psllw    xmm0, 7
-	LONG $0xdb0f4166; BYTE $0xc2                       // pand    xmm0, xmm10
-	LONG $0xc3eb0f66                                   // por    xmm0, xmm3
-	LONG $0xc1eb0f66                                   // por    xmm0, xmm1
-	LONG $0xd0620f66                                   // punpckldq    xmm2, xmm0
-	LONG $0x600f4466; BYTE $0xc2                       // punpcklbw    xmm8, xmm2
-	LONG $0x380f4466; WORD $0x4500; BYTE $0x70         // pshufb    xmm8, oword 112[rbp] /* [rip + .LCPI10_7] */
-	LONG $0x7f0f45f3; WORD $0x8e04                     // movdqu    oword [r14 + 4*rcx], xmm8
-	LONG $0x04c18348                                   // add    rcx, 4
-	LONG $0x00c68148; WORD $0x0002; BYTE $0x00         // add    rsi, 512
-	WORD $0x3949; BYTE $0xc8                           // cmp    r8, rcx
-	JNE  LBB10_201
-	WORD $0x394d; BYTE $0xc3                           // cmp    r11, r8
-	JNE  LBB10_124
-	JMP  LBB10_140
-
-DATA LCDATA8<>+0x000(SB)/8, $0x0000000001010101
-DATA LCDATA8<>+0x008(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA8<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
-DATA LCDATA8<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA8<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
-DATA LCDATA8<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA8<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
-DATA LCDATA8<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA8<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
-DATA LCDATA8<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA8<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
-DATA LCDATA8<>+0x060(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x068(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x070(SB)/8, $0x0b030a0209010800
-DATA LCDATA8<>+0x078(SB)/8, $0x0f070e060d050c04
-DATA LCDATA8<>+0x080(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x088(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x090(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x098(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x0a0(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x0a8(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x0b0(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x0b8(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x0c0(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x0c8(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x0d0(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x0d8(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x0e0(SB)/8, $0x8080808080808080
-DATA LCDATA8<>+0x0e8(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x0f0(SB)/8, $0x0f070e060d050c04
-DATA LCDATA8<>+0x0f8(SB)/8, $0x0000000000000000
-DATA LCDATA8<>+0x100(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x108(SB)/8, $0x0202020202020202
-DATA LCDATA8<>+0x110(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x118(SB)/8, $0x0404040404040404
-DATA LCDATA8<>+0x120(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x128(SB)/8, $0x0808080808080808
-DATA LCDATA8<>+0x130(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x138(SB)/8, $0x1010101010101010
-DATA LCDATA8<>+0x140(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x148(SB)/8, $0x2020202020202020
-DATA LCDATA8<>+0x150(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x158(SB)/8, $0x4040404040404040
-DATA LCDATA8<>+0x160(SB)/8, $0xffffffffffffffff
-DATA LCDATA8<>+0x168(SB)/8, $0xffffffffffffffff
-GLOBL LCDATA8<>(SB), 8, $368
-
-TEXT ·_comparison_greater_equal_scalar_arr_sse4(SB), $328-48
-
-	MOVQ typ+0(FP), DI
-	MOVQ left+8(FP), SI
-	MOVQ right+16(FP), DX
-	MOVQ out+24(FP), CX
-	MOVQ length+32(FP), R8
-	MOVQ offset+40(FP), R9
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 304(SP)
-	LEAQ LCDATA8<>(SB), BP
-
-	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
-	WORD $0x8949; BYTE $0xcf // mov    r15, rcx
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB11_26
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB11_2
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB11_99
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB11_114
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB11_201
-	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_17
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_15:
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
-	LONG $0xffd68040                           // adc    sil, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_15
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_17:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_21
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB11_19:
-	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
-	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
-	LONG $0x2414930f                           // setae    byte [rsp]
-	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
-	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
-	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
-	LONG $0xd4930f41                           // setae    r12b
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000e024bc0244                   // add    r15b, byte [rsp + 224]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x000000a0248cb60f                   // movzx    ecx, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ea8348                           // sub    rdx, -128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB11_19
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-
-LBB11_21:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_137
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_24
-
-LBB11_26:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB11_27
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB11_157
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB11_172
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB11_201
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x06100ff2         // movsd    xmm0, qword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_49
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_47:
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_47
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_49:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_53
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB11_51:
-	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
-	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x422e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rdx + 8]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
-	LONG $0xd6930f41                           // setae    r14b
-	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
-	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
-	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
-	LONG $0x2414930f                           // setae    byte [rsp]
-	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
-	QUAD $0x00000080248c0244                   // add    r9b, byte [rsp + 128]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x07e4c041                           // shl    r12b, 7
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	LONG $0x02e3c041                           // shl    r11b, 2
-	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
-	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
-	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
-	LONG $0x02e7c040                           // shl    dil, 2
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	QUAD $0x000000b0249cb60f                   // movzx    ebx, byte [rsp + 176]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x03e0c041                           // shl    r8b, 3
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
-	LONG $0x05e7c041                           // shl    r15b, 5
-	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
-	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
-	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
-	WORD $0xdb00                               // add    bl, bl
-	LONG $0x60245c02                           // add    bl, byte [rsp + 96]
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
-	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
-	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
-	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0xde89                               // mov    esi, ebx
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
-	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
-	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
-	LONG $0x2474b60f; BYTE $0x30               // movzx    esi, byte [rsp + 48]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e6c041                           // shl    r14b, 7
-	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
-	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
-	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0x18244c02                           // add    cl, byte [rsp + 24]
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xcb89                               // mov    ebx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd908                               // or    cl, bl
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB11_51
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-
-LBB11_53:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_195
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_197
-
-LBB11_2:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB11_56
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB11_201
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_8
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_6:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_6
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_8:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_9
-	LONG $0x10fa8349         // cmp    r10, 16
-	LONG $0x24348844         // mov    byte [rsp], r14b
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	JB   LBB11_82
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x05e0c148         // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7 // cmp    r15, rax
-	JAE  LBB11_85
-	LONG $0x97048d4b         // lea    rax, [r15 + 4*r10]
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JAE  LBB11_85
-
-LBB11_82:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x0000010024848948 // mov    qword [rsp + 256], rax
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_88:
-	QUAD $0x0000010024942b4c // sub    r10, qword [rsp + 256]
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-
-LBB11_89:
-	LONG $0x1f723a44                           // cmp    r14b, byte [rdx + 31]
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x1e723a44                           // cmp    r14b, byte [rdx + 30]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0x1d723a44                           // cmp    r14b, byte [rdx + 29]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0x1c723a44                           // cmp    r14b, byte [rdx + 28]
-	LONG $0x24549d0f; BYTE $0x18               // setge    byte [rsp + 24]
-	LONG $0x1b723a44                           // cmp    r14b, byte [rdx + 27]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x1a723a44                           // cmp    r14b, byte [rdx + 26]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x19723a44                           // cmp    r14b, byte [rdx + 25]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x17723a44                           // cmp    r14b, byte [rdx + 23]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x16723a44                           // cmp    r14b, byte [rdx + 22]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x15723a44                           // cmp    r14b, byte [rdx + 21]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x14723a44                           // cmp    r14b, byte [rdx + 20]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x13723a44                           // cmp    r14b, byte [rdx + 19]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x12723a44                           // cmp    r14b, byte [rdx + 18]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x11723a44                           // cmp    r14b, byte [rdx + 17]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x0f723a44                           // cmp    r14b, byte [rdx + 15]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x0e723a44                           // cmp    r14b, byte [rdx + 14]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x0d723a44                           // cmp    r14b, byte [rdx + 13]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x0c723a44                           // cmp    r14b, byte [rdx + 12]
-	LONG $0xd49d0f41                           // setge    r12b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x0b                   // cmp    al, byte [rdx + 11]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x0a                   // cmp    al, byte [rdx + 10]
-	LONG $0xd69d0f41                           // setge    r14b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x023a                               // cmp    al, byte [rdx]
-	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	LONG $0x2cb60f44; BYTE $0x24               // movzx    r13d, byte [rsp]
-	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0xd0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 208]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c040                           // shl    sil, 7
-	WORD $0x0840; BYTE $0xc6                   // or    sil, al
-	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
-	LONG $0x00758841                           // mov    byte [r13], sil
-	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
-	QUAD $0x000000e0249c0244                   // add    r11b, byte [rsp + 224]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xf7                   // or    r15b, r14b
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x34b60f44; BYTE $0x24               // movzx    r14d, byte [rsp]
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
-	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
-	LONG $0x01558845                           // mov    byte [r13 + 1], r10b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02458841                           // mov    byte [r13 + 2], al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03458841                           // mov    byte [r13 + 3], al
-	LONG $0x20c28348                           // add    rdx, 32
-	LONG $0x04c58349                           // add    r13, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB11_89
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	JMP  LBB11_91
-
-LBB11_27:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB11_139
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB11_201
-	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_33
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_31:
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
-	LONG $0xffd68040                           // adc    sil, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_31
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_33:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_37
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB11_35:
-	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
-	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
-	LONG $0x2414930f                           // setae    byte [rsp]
-	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
-	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
-	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
-	WORD $0x930f; BYTE $0xd3                   // setae    bl
-	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
-	LONG $0xd4930f41                           // setae    r12b
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000e024bc0244                   // add    r15b, byte [rsp + 224]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x000000a0248cb60f                   // movzx    ecx, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB11_35
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-
-LBB11_37:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_155
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_40
-
-LBB11_56:
-	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_60
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_58:
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	LONG $0x01528d48             // lea    rdx, [rdx + 1]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_58
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_60:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_61
-	LONG $0x10fa8349         // cmp    r10, 16
-	LONG $0x24348844         // mov    byte [rsp], r14b
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
-	JB   LBB11_63
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x05e0c148         // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7 // cmp    r15, rax
-	JAE  LBB11_66
-	LONG $0x97048d4b         // lea    rax, [r15 + 4*r10]
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JAE  LBB11_66
-
-LBB11_63:
-	WORD $0xc031             // xor    eax, eax
-	QUAD $0x000000c024848948 // mov    qword [rsp + 192], rax
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_69:
-	QUAD $0x000000c024942b4c // sub    r10, qword [rsp + 192]
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-
-LBB11_70:
-	LONG $0x1f723a44                           // cmp    r14b, byte [rdx + 31]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x1e723a44                           // cmp    r14b, byte [rdx + 30]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x1d723a44                           // cmp    r14b, byte [rdx + 29]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x1c723a44                           // cmp    r14b, byte [rdx + 28]
-	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
-	LONG $0x1b723a44                           // cmp    r14b, byte [rdx + 27]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x1a723a44                           // cmp    r14b, byte [rdx + 26]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x19723a44                           // cmp    r14b, byte [rdx + 25]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x17723a44                           // cmp    r14b, byte [rdx + 23]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x16723a44                           // cmp    r14b, byte [rdx + 22]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x15723a44                           // cmp    r14b, byte [rdx + 21]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x14723a44                           // cmp    r14b, byte [rdx + 20]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x13723a44                           // cmp    r14b, byte [rdx + 19]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x12723a44                           // cmp    r14b, byte [rdx + 18]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x11723a44                           // cmp    r14b, byte [rdx + 17]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x0f723a44                           // cmp    r14b, byte [rdx + 15]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x0e723a44                           // cmp    r14b, byte [rdx + 14]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x0d723a44                           // cmp    r14b, byte [rdx + 13]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x0c723a44                           // cmp    r14b, byte [rdx + 12]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x0b                   // cmp    al, byte [rdx + 11]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x0a                   // cmp    al, byte [rdx + 10]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x023a                               // cmp    al, byte [rdx]
-	QUAD $0x000000d02494930f                   // setae    byte [rsp + 208]
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
-	LONG $0x2cb60f44; BYTE $0x24               // movzx    r13d, byte [rsp]
-	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
-	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0xd0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 208]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xc108                               // or    cl, al
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c040                           // shl    sil, 7
-	WORD $0x0840; BYTE $0xc6                   // or    sil, al
-	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
-	LONG $0x00758841                           // mov    byte [r13], sil
-	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
-	QUAD $0x000000e0249c0244                   // add    r11b, byte [rsp + 224]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xf7                   // or    r15b, r14b
-	LONG $0x04e4c041                           // shl    r12b, 4
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
-	LONG $0x34b60f44; BYTE $0x24               // movzx    r14d, byte [rsp]
-	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
-	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
-	LONG $0x01558845                           // mov    byte [r13 + 1], r10b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02458841                           // mov    byte [r13 + 2], al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03458841                           // mov    byte [r13 + 3], al
-	LONG $0x20c28348                           // add    rdx, 32
-	LONG $0x04c58349                           // add    r13, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB11_70
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	JMP  LBB11_72
-
-LBB11_139:
-	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_143
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_141:
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_141
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_143:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_147
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB11_145:
-	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
-	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
-	LONG $0x24149d0f                           // setge    byte [rsp]
-	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
-	LONG $0x24549d0f; BYTE $0x18               // setge    byte [rsp + 24]
-	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
-	LONG $0xd49d0f41                           // setge    r12b
-	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000e024bc0244                   // add    r15b, byte [rsp + 224]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x000000a0248cb60f                   // movzx    ecx, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x80ea8348                           // sub    rdx, -128
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB11_145
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-
-LBB11_147:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_153
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB11_150
-
-LBB11_99:
-	LONG $0x36b70f44         // movzx    r14d, word [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_103
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_101:
-	LONG $0x323b4466                           // cmp    r14w, word [rdx]
-	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
-	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
-	LONG $0xffd68040                           // adc    sil, -1
-	LONG $0x07588d48                           // lea    rbx, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xd8490f48                           // cmovns    rbx, rax
-	LONG $0x03fbc148                           // sar    rbx, 3
-	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
-	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
-	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_101
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_103:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_107
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB11_105:
-	LONG $0x247c894c; BYTE $0x78         // mov    qword [rsp + 120], r15
-	LONG $0x723b4466; BYTE $0x3e         // cmp    r14w, word [rdx + 62]
-	LONG $0x2414930f                     // setae    byte [rsp]
-	LONG $0x723b4466; BYTE $0x3c         // cmp    r14w, word [rdx + 60]
-	LONG $0x2454930f; BYTE $0x10         // setae    byte [rsp + 16]
-	LONG $0x723b4466; BYTE $0x3a         // cmp    r14w, word [rdx + 58]
-	LONG $0x2454930f; BYTE $0x08         // setae    byte [rsp + 8]
-	LONG $0x723b4466; BYTE $0x38         // cmp    r14w, word [rdx + 56]
-	LONG $0x2454930f; BYTE $0x18         // setae    byte [rsp + 24]
-	LONG $0x723b4466; BYTE $0x36         // cmp    r14w, word [rdx + 54]
-	LONG $0x2454930f; BYTE $0x28         // setae    byte [rsp + 40]
-	LONG $0x723b4466; BYTE $0x34         // cmp    r14w, word [rdx + 52]
-	LONG $0x2454930f; BYTE $0x38         // setae    byte [rsp + 56]
-	LONG $0x723b4466; BYTE $0x32         // cmp    r14w, word [rdx + 50]
-	LONG $0x2454930f; BYTE $0x30         // setae    byte [rsp + 48]
-	LONG $0x723b4466; BYTE $0x2e         // cmp    r14w, word [rdx + 46]
-	LONG $0x2454930f; BYTE $0x48         // setae    byte [rsp + 72]
-	LONG $0x723b4466; BYTE $0x2c         // cmp    r14w, word [rdx + 44]
-	LONG $0x2454930f; BYTE $0x40         // setae    byte [rsp + 64]
-	LONG $0x723b4466; BYTE $0x2a         // cmp    r14w, word [rdx + 42]
-	LONG $0x2454930f; BYTE $0x50         // setae    byte [rsp + 80]
-	LONG $0x723b4466; BYTE $0x28         // cmp    r14w, word [rdx + 40]
-	LONG $0x2454930f; BYTE $0x58         // setae    byte [rsp + 88]
-	LONG $0x723b4466; BYTE $0x26         // cmp    r14w, word [rdx + 38]
-	LONG $0x2454930f; BYTE $0x68         // setae    byte [rsp + 104]
-	LONG $0x723b4466; BYTE $0x24         // cmp    r14w, word [rdx + 36]
-	QUAD $0x000000902494930f             // setae    byte [rsp + 144]
-	LONG $0x723b4466; BYTE $0x22         // cmp    r14w, word [rdx + 34]
-	QUAD $0x000000a02494930f             // setae    byte [rsp + 160]
-	LONG $0x723b4466; BYTE $0x1e         // cmp    r14w, word [rdx + 30]
-	LONG $0xd0930f41                     // setae    r8b
-	LONG $0x723b4466; BYTE $0x1c         // cmp    r14w, word [rdx + 28]
-	LONG $0x2454930f; BYTE $0x70         // setae    byte [rsp + 112]
-	LONG $0x723b4466; BYTE $0x1a         // cmp    r14w, word [rdx + 26]
-	QUAD $0x000000b02494930f             // setae    byte [rsp + 176]
-	LONG $0x723b4466; BYTE $0x18         // cmp    r14w, word [rdx + 24]
-	LONG $0xd3930f41                     // setae    r11b
-	LONG $0x723b4466; BYTE $0x16         // cmp    r14w, word [rdx + 22]
-	LONG $0xd2930f41                     // setae    r10b
-	LONG $0x723b4466; BYTE $0x14         // cmp    r14w, word [rdx + 20]
-	LONG $0xd1930f41                     // setae    r9b
-	LONG $0x723b4466; BYTE $0x12         // cmp    r14w, word [rdx + 18]
-	LONG $0xd7930f40                     // setae    dil
-	LONG $0x723b4466; BYTE $0x0e         // cmp    r14w, word [rdx + 14]
-	WORD $0x930f; BYTE $0xd0             // setae    al
-	LONG $0x723b4466; BYTE $0x0c         // cmp    r14w, word [rdx + 12]
-	WORD $0x930f; BYTE $0xd3             // setae    bl
-	LONG $0x723b4466; BYTE $0x0a         // cmp    r14w, word [rdx + 10]
-	LONG $0xd6930f40                     // setae    sil
-	LONG $0x723b4466; BYTE $0x08         // cmp    r14w, word [rdx + 8]
-	WORD $0x930f; BYTE $0xd1             // setae    cl
-	LONG $0x723b4466; BYTE $0x06         // cmp    r14w, word [rdx + 6]
-	LONG $0xd5930f41                     // setae    r13b
-	LONG $0x723b4466; BYTE $0x04         // cmp    r14w, word [rdx + 4]
-	LONG $0xd4930f41                     // setae    r12b
-	LONG $0x323b4466                     // cmp    r14w, word [rdx]
-	QUAD $0x000000e02494930f             // setae    byte [rsp + 224]
-	LONG $0x723b4466; BYTE $0x02         // cmp    r14w, word [rdx + 2]
-	LONG $0xd7930f41                     // setae    r15b
-	LONG $0x723b4466; BYTE $0x10         // cmp    r14w, word [rdx + 16]
-	QUAD $0x000000802494930f             // setae    byte [rsp + 128]
-	LONG $0x723b4466; BYTE $0x20         // cmp    r14w, word [rdx + 32]
-	LONG $0x2454930f; BYTE $0x60         // setae    byte [rsp + 96]
-	LONG $0x723b4466; BYTE $0x30         // cmp    r14w, word [rdx + 48]
-	LONG $0x2454930f; BYTE $0x20         // setae    byte [rsp + 32]
-	WORD $0x0045; BYTE $0xff             // add    r15b, r15b
-	QUAD $0x000000e024bc0244             // add    r15b, byte [rsp + 224]
-	LONG $0x02e4c041                     // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc             // or    r12b, r15b
-	LONG $0x247c8b4c; BYTE $0x78         // mov    r15, qword [rsp + 120]
-	LONG $0x03e5c041                     // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5             // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9             // or    cl, r13b
-	LONG $0x05e6c040                     // shl    sil, 5
-	WORD $0x0840; BYTE $0xce             // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
-	WORD $0xd808                         // or    al, bl
-	WORD $0x0840; BYTE $0xf0             // or    al, sil
-	WORD $0x8841; BYTE $0x07             // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff             // add    dil, dil
-	QUAD $0x0000008024bc0240             // add    dil, byte [rsp + 128]
-	LONG $0x02e1c041                     // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9             // or    r9b, dil
-	LONG $0x03e2c041                     // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
-	LONG $0x04e3c041                     // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
-	QUAD $0x000000b02484b60f             // movzx    eax, byte [rsp + 176]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0x0844; BYTE $0xd8             // or    al, r11b
-	LONG $0x244cb60f; BYTE $0x70         // movzx    ecx, byte [rsp + 112]
-	WORD $0xe1c0; BYTE $0x06             // shl    cl, 6
-	LONG $0x07e0c041                     // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0             // or    r8b, al
-	LONG $0x01478845                     // mov    byte [r15 + 1], r8b
-	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
-	WORD $0xc000                         // add    al, al
-	LONG $0x60244402                     // add    al, byte [rsp + 96]
-	WORD $0xc189                         // mov    ecx, eax
-	QUAD $0x000000902484b60f             // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x68         // movzx    eax, byte [rsp + 104]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58         // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50         // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x48         // movzx    eax, byte [rsp + 72]
-	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc808                         // or    al, cl
-	LONG $0x02478841                     // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
-	WORD $0xc000                         // add    al, al
-	LONG $0x20244402                     // add    al, byte [rsp + 32]
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x38         // movzx    eax, byte [rsp + 56]
-	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18         // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
-	WORD $0xc808                         // or    al, cl
-	WORD $0xc189                         // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x10         // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
-	LONG $0x2404b60f                     // movzx    eax, byte [rsp]
-	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
-	WORD $0xd808                         // or    al, bl
-	WORD $0xc808                         // or    al, cl
-	LONG $0x03478841                     // mov    byte [r15 + 3], al
-	LONG $0x40c28348                     // add    rdx, 64
-	LONG $0x04c78349                     // add    r15, 4
-	QUAD $0x000000d024848348; BYTE $0xff // add    qword [rsp + 208], -1
-	JNE  LBB11_105
-	QUAD $0x00000088249c8b4c             // mov    r11, qword [rsp + 136]
-	QUAD $0x000000c024948b4c             // mov    r10, qword [rsp + 192]
-
-LBB11_107:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_112
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_110
-
-LBB11_114:
-	LONG $0x36b70f44         // movzx    r14d, word [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_118
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_116:
-	LONG $0x323b4466             // cmp    r14w, word [rdx]
-	LONG $0x02528d48             // lea    rdx, [rdx + 2]
-	WORD $0x9d0f; BYTE $0xd3     // setge    bl
-	WORD $0xdbf6                 // neg    bl
-	LONG $0x07708d48             // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf0490f48             // cmovns    rsi, rax
-	LONG $0x03fec148             // sar    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
-	WORD $0xe7d3                 // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf     // and    dil, bl
-	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
-	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_116
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_118:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_119
-	LONG $0x08fa8349         // cmp    r10, 8
-	LONG $0x24348944         // mov    dword [rsp], r14d
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000001002494894c // mov    qword [rsp + 256], r10
-	JB   LBB11_121
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x06e0c148         // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7 // cmp    r15, rax
-	JAE  LBB11_124
-	LONG $0x97048d4b         // lea    rax, [r15 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB11_124
-
-LBB11_121:
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x24448948; BYTE $0x20 // mov    qword [rsp + 32], rax
-	WORD $0x8948; BYTE $0xd0     // mov    rax, rdx
-	WORD $0x894d; BYTE $0xfc     // mov    r12, r15
-
-LBB11_127:
-	LONG $0x24542b4c; BYTE $0x20 // sub    r10, qword [rsp + 32]
-	QUAD $0x000000c02494894c     // mov    qword [rsp + 192], r10
-
-LBB11_128:
-	LONG $0x703b4466; BYTE $0x3e               // cmp    r14w, word [rax + 62]
-	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
-	LONG $0x703b4466; BYTE $0x3c               // cmp    r14w, word [rax + 60]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0x703b4466; BYTE $0x3a               // cmp    r14w, word [rax + 58]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0x703b4466; BYTE $0x38               // cmp    r14w, word [rax + 56]
-	LONG $0x24549d0f; BYTE $0x18               // setge    byte [rsp + 24]
-	LONG $0x703b4466; BYTE $0x36               // cmp    r14w, word [rax + 54]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0x703b4466; BYTE $0x34               // cmp    r14w, word [rax + 52]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0x703b4466; BYTE $0x32               // cmp    r14w, word [rax + 50]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0x703b4466; BYTE $0x2e               // cmp    r14w, word [rax + 46]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0x703b4466; BYTE $0x2c               // cmp    r14w, word [rax + 44]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0x703b4466; BYTE $0x2a               // cmp    r14w, word [rax + 42]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0x703b4466; BYTE $0x28               // cmp    r14w, word [rax + 40]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x703b4466; BYTE $0x26               // cmp    r14w, word [rax + 38]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x703b4466; BYTE $0x24               // cmp    r14w, word [rax + 36]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x703b4466; BYTE $0x22               // cmp    r14w, word [rax + 34]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x703b4466; BYTE $0x1e               // cmp    r14w, word [rax + 30]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x703b4466; BYTE $0x1c               // cmp    r14w, word [rax + 28]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x703b4466; BYTE $0x1a               // cmp    r14w, word [rax + 26]
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	LONG $0x703b4466; BYTE $0x18               // cmp    r14w, word [rax + 24]
-	LONG $0xd59d0f41                           // setge    r13b
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x16413b66                           // cmp    ax, word [rcx + 22]
-	LONG $0xd79d0f41                           // setge    r15b
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x14413b66                           // cmp    ax, word [rcx + 20]
-	LONG $0xd69d0f41                           // setge    r14b
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x12413b66                           // cmp    ax, word [rcx + 18]
-	LONG $0xd39d0f41                           // setge    r11b
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x0e413b66                           // cmp    ax, word [rcx + 14]
-	LONG $0xd69d0f40                           // setge    sil
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x0c413b66                           // cmp    ax, word [rcx + 12]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x0a413b66                           // cmp    ax, word [rcx + 10]
-	LONG $0xd19d0f41                           // setge    r9b
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x08413b66                           // cmp    ax, word [rcx + 8]
-	LONG $0xd09d0f41                           // setge    r8b
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x06413b66                           // cmp    ax, word [rcx + 6]
-	LONG $0xd79d0f40                           // setge    dil
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x04413b66                           // cmp    ax, word [rcx + 4]
-	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	WORD $0x3b66; BYTE $0x01                   // cmp    ax, word [rcx]
-	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
-	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
-	LONG $0x02413b66                           // cmp    ax, word [rcx + 2]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
-	LONG $0x24248b44                           // mov    r12d, dword [rsp]
-	LONG $0x613b4466; BYTE $0x10               // cmp    r12w, word [rcx + 16]
-	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	WORD $0x1c8b; BYTE $0x24                   // mov    ebx, dword [rsp]
-	LONG $0x20593b66                           // cmp    bx, word [rcx + 32]
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	WORD $0x1c8b; BYTE $0x24                   // mov    ebx, dword [rsp]
-	LONG $0x30593b66                           // cmp    bx, word [rcx + 48]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	WORD $0xc000                               // add    al, al
-	LONG $0xd0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 208]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	LONG $0x03e7c040                           // shl    dil, 3
-	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
-	LONG $0x04e0c041                           // shl    r8b, 4
-	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
-	LONG $0x05e1c041                           // shl    r9b, 5
-	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
-	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e6c040                           // shl    sil, 7
-	WORD $0x0840; BYTE $0xc6                   // or    sil, al
-	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
-	LONG $0x24348841                           // mov    byte [r12], sil
-	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
-	QUAD $0x000000e0249c0244                   // add    r11b, byte [rsp + 224]
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
-	LONG $0x03e7c041                           // shl    r15b, 3
-	WORD $0x0845; BYTE $0xf7                   // or    r15b, r14b
-	LONG $0x04e5c041                           // shl    r13b, 4
-	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
-	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
-	LONG $0x24348b44                           // mov    r14d, dword [rsp]
-	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	LONG $0x07e2c041                           // shl    r10b, 7
-	WORD $0x0841; BYTE $0xd2                   // or    r10b, dl
-	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	LONG $0x24548845; BYTE $0x01               // mov    byte [r12 + 1], r10b
-	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xb0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 176]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x244c8841; BYTE $0x02               // mov    byte [r12 + 2], cl
-	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
-	WORD $0xc900                               // add    cl, cl
-	LONG $0xa0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 160]
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
-	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
-	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
-	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xca89                               // mov    edx, ecx
-	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd908                               // or    cl, bl
-	WORD $0xd108                               // or    cl, dl
-	LONG $0x244c8841; BYTE $0x03               // mov    byte [r12 + 3], cl
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x04c48349                           // add    r12, 4
-	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
-	JNE  LBB11_128
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	JMP  LBB11_130
-
-LBB11_157:
-	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_161
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_159:
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	WORD $0xdbf6                               // neg    bl
-	LONG $0x07708d48                           // lea    rsi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
-	LONG $0xf0490f48                           // cmovns    rsi, rax
-	LONG $0x03fec148                           // sar    rsi, 3
-	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
-	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
-	WORD $0xc189                               // mov    ecx, eax
-	WORD $0xf929                               // sub    ecx, edi
-	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
-	WORD $0xe7d3                               // shl    edi, cl
-	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
-	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
-	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
-	LONG $0x01c08348                           // add    rax, 1
-	LONG $0x08f88348                           // cmp    rax, 8
-	JNE  LBB11_159
-	LONG $0x01c78349                           // add    r15, 1
-
-LBB11_161:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_165
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-
-LBB11_163:
-	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
-	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
-	LONG $0x24149d0f                           // setge    byte [rsp]
-	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
-	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
-	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
-	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
-	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
-	LONG $0x24549d0f; BYTE $0x18               // setge    byte [rsp + 24]
-	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
-	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
-	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
-	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
-	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
-	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
-	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
-	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
-	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
-	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
-	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
-	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
-	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
-	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
-	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
-	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
-	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
-	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
-	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
-	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
-	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
-	LONG $0xd09d0f41                           // setge    r8b
-	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
-	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
-	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
-	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
-	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
-	LONG $0xd39d0f41                           // setge    r11b
-	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
-	LONG $0xd29d0f41                           // setge    r10b
-	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
-	LONG $0xd19d0f41                           // setge    r9b
-	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
-	LONG $0xd79d0f40                           // setge    dil
-	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
-	WORD $0x9d0f; BYTE $0xd0                   // setge    al
-	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
-	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
-	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
-	LONG $0xd69d0f40                           // setge    sil
-	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
-	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
-	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
-	LONG $0xd59d0f41                           // setge    r13b
-	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
-	LONG $0xd49d0f41                           // setge    r12b
-	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
-	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
-	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
-	LONG $0xd79d0f41                           // setge    r15b
-	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
-	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
-	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
-	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
-	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
-	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
-	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
-	QUAD $0x000000e024bc0244                   // add    r15b, byte [rsp + 224]
-	LONG $0x02e4c041                           // shl    r12b, 2
-	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
-	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
-	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
-	LONG $0x05e6c040                           // shl    sil, 5
-	WORD $0x0840; BYTE $0xce                   // or    sil, cl
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0x0840; BYTE $0xf0                   // or    al, sil
-	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
-	WORD $0x0040; BYTE $0xff                   // add    dil, dil
-	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
-	LONG $0x02e1c041                           // shl    r9b, 2
-	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
-	LONG $0x03e2c041                           // shl    r10b, 3
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x04e3c041                           // shl    r11b, 4
-	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
-	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
-	QUAD $0x000000a0248cb60f                   // movzx    ecx, byte [rsp + 160]
-	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
-	LONG $0x07e0c041                           // shl    r8b, 7
-	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
-	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
-	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
-	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
-	WORD $0xc000                               // add    al, al
-	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x02478841                           // mov    byte [r15 + 2], al
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xc808                               // or    al, cl
-	WORD $0xc189                               // mov    ecx, eax
-	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
-	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
-	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
-	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
-	WORD $0xd808                               // or    al, bl
-	WORD $0xc808                               // or    al, cl
-	LONG $0x03478841                           // mov    byte [r15 + 3], al
-	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
-	LONG $0x04c78349                           // add    r15, 4
-	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
-	JNE  LBB11_163
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
-
-LBB11_165:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_170
-	WORD $0xff31             // xor    edi, edi
-	JMP  LBB11_168
-
-LBB11_172:
-	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
-	WORD $0x854d; BYTE $0xdb // test    r11, r11
-	LONG $0xd3490f4d         // cmovns    r10, r11
-	LONG $0x07418d41         // lea    eax, [r9 + 7]
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	LONG $0xc1490f41         // cmovns    eax, r9d
-	WORD $0xe083; BYTE $0xf8 // and    eax, -8
-	LONG $0x06100ff3         // movss    xmm0, dword [rsi]
-	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
-	JE   LBB11_176
-	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
-
-LBB11_174:
-	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	LONG $0x07788d48             // lea    rdi, [rax + 7]
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	LONG $0xf8490f48             // cmovns    rdi, rax
-	LONG $0x03ffc148             // sar    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
-	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
-	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
-	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
-	WORD $0xe3d3                 // shl    ebx, cl
-	WORD $0x2040; BYTE $0xf3     // and    bl, sil
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
-	LONG $0x01c08348             // add    rax, 1
-	LONG $0x08f88348             // cmp    rax, 8
-	JNE  LBB11_174
-	LONG $0x01c78349             // add    r15, 1
-
-LBB11_176:
-	LONG $0x05fac149         // sar    r10, 5
-	LONG $0x20fb8349         // cmp    r11, 32
-	JL   LBB11_177
-	LONG $0x04fa8349         // cmp    r10, 4
-	JB   LBB11_179
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x07e0c148         // shl    rax, 7
-	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
-	WORD $0x3949; BYTE $0xc7 // cmp    r15, rax
-	JAE  LBB11_182
-	LONG $0x97048d4b         // lea    rax, [r15 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB11_182
-
-LBB11_179:
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-
-LBB11_185:
-	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
-	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
-	WORD $0x294d; BYTE $0xc2 // sub    r10, r8
-	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
-
-LBB11_186:
-	LONG $0x2434894c                           // mov    qword [rsp], r14
-	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
-	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
-	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0xd0930f41                           // setae    r8b
-	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
-	LONG $0xd6930f41                           // setae    r14b
-	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
-	LONG $0xd5930f41                           // setae    r13b
-	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
-	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
-	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
-	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
-	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
-	WORD $0x930f; BYTE $0xd0                   // setae    al
-	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
-	LONG $0xd3930f41                           // setae    r11b
-	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
-	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
-	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
-	WORD $0x930f; BYTE $0xd2                   // setae    dl
-	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
-	LONG $0xd6930f40                           // setae    sil
-	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
-	LONG $0xd1930f41                           // setae    r9b
-	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
-	LONG $0xd2930f41                           // setae    r10b
-	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
-	LONG $0xd4930f41                           // setae    r12b
-	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
-	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
-	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
-	LONG $0xd7930f40                           // setae    dil
-	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
-	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
-	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
-	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
-	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
-	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
-	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
-	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
-	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
-	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
-	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
-	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
-	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
-	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
-	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
-	LONG $0xd7930f41                           // setae    r15b
-	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
-	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
-	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
-	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
-	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
-	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
-	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
-	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
-	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
-	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
-	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
-	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
-	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
-	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
-	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
-	WORD $0x930f; BYTE $0xd1                   // setae    cl
-	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
-	QUAD $0x0000008024840244                   // add    r8b, byte [rsp + 128]
-	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
-	LONG $0x07e3c041                           // shl    r11b, 7
-	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
-	LONG $0x02e6c041                           // shl    r14b, 2
-	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
-	WORD $0xd200                               // add    dl, dl
-	LONG $0x70245402                           // add    dl, byte [rsp + 112]
-	LONG $0x03e5c041                           // shl    r13b, 3
-	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
-	LONG $0x02e6c040                           // shl    sil, 2
-	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
-	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
-	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
-	LONG $0x24348b4c                           // mov    r14, qword [rsp]
-	LONG $0x03e1c041                           // shl    r9b, 3
-	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
-	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
-	LONG $0x04e2c041                           // shl    r10b, 4
-	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
-	LONG $0x05e4c041                           // shl    r12b, 5
-	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
-	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c040                           // shl    dil, 7
-	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
-	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
-	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
-	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
-	WORD $0xc000                               // add    al, al
-	LONG $0x60244402                           // add    al, byte [rsp + 96]
-	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
-	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
-	WORD $0xc208                               // or    dl, al
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
-	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
-	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0xd689                               // mov    esi, edx
-	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
-	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
-	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
-	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
-	LONG $0x2474b60f; BYTE $0x30               // movzx    esi, byte [rsp + 48]
-	LONG $0x06e6c040                           // shl    sil, 6
-	LONG $0x07e7c041                           // shl    r15b, 7
-	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
-	LONG $0x017e8841                           // mov    byte [r14 + 1], dil
-	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
-	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
-	WORD $0xc000                               // add    al, al
-	LONG $0x18244402                           // add    al, byte [rsp + 24]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
-	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
-	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
-	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
-	WORD $0xd008                               // or    al, dl
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
-	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
-	WORD $0xd008                               // or    al, dl
-	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
-	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
-	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
-	WORD $0xd108                               // or    cl, dl
-	WORD $0xc108                               // or    cl, al
-	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
-	LONG $0x034e8841                           // mov    byte [r14 + 3], cl
-	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
-	LONG $0x04c68349                           // add    r14, 4
-	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
-	JNE  LBB11_186
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
-	JMP  LBB11_188
-
-LBB11_9:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_91:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_94
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB11_97
-
-LBB11_61:
-	WORD $0x894d; BYTE $0xfd // mov    r13, r15
-
-LBB11_72:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_75
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	JMP  LBB11_78
-
-LBB11_119:
-	WORD $0x894d; BYTE $0xfc // mov    r12, r15
-	WORD $0x8948; BYTE $0xd0 // mov    rax, rdx
-
-LBB11_130:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_135
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB11_133
-
-LBB11_177:
-	WORD $0x894d; BYTE $0xfe // mov    r14, r15
-	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
-
-LBB11_188:
-	LONG $0x05e2c149         // shl    r10, 5
-	WORD $0x394d; BYTE $0xda // cmp    r10, r11
-	JGE  LBB11_201
-	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
-	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	JNE  LBB11_193
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB11_191
-
-LBB11_155:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_156:
-	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB11_156
-
-LBB11_40:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_201
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
-	JMP  LBB11_199
-
-LBB11_153:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB11_154:
-	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0xd19d0f41             // setge    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB11_154
-
-LBB11_150:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_201
-	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
-	JMP  LBB11_152
-
-LBB11_94:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB11_95:
-	LONG $0x32343a44               // cmp    r14b, byte [rdx + rsi]
-	WORD $0x9d0f; BYTE $0xd0       // setge    al
-	WORD $0xd8f6                   // neg    al
-	WORD $0x8948; BYTE $0xf7       // mov    rdi, rsi
-	LONG $0x03efc148               // shr    rdi, 3
-	WORD $0xf189                   // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b3                   // mov    bl, 1
-	WORD $0xe3d2                   // shl    bl, cl
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0x3044; BYTE $0xc8       // xor    al, r9b
-	WORD $0xc320                   // and    bl, al
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x32743a44; BYTE $0x01   // cmp    r14b, byte [rdx + rsi + 1]
-	LONG $0x02768d48               // lea    rsi, [rsi + 2]
-	LONG $0xd19d0f41               // setge    r9b
-	WORD $0xf641; BYTE $0xd9       // neg    r9b
-	WORD $0x3041; BYTE $0xd9       // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b0                   // mov    al, 1
-	WORD $0xe0d2                   // shl    al, cl
-	WORD $0x2044; BYTE $0xc8       // and    al, r9b
-	WORD $0xd830                   // xor    al, bl
-	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB11_95
-	WORD $0x0148; BYTE $0xf2       // add    rdx, rsi
-
-LBB11_97:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB11_201
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
-	LONG $0x07e68040             // and    sil, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-	JMP  LBB11_80
-
-LBB11_75:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-
-LBB11_76:
-	WORD $0x894c; BYTE $0xc8       // mov    rax, r9
-	LONG $0x0a343a46               // cmp    r14b, byte [rdx + r9]
-	LONG $0x000000be; BYTE $0x00   // mov    esi, 0
-	LONG $0xffd68040               // adc    sil, -1
-	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
-	LONG $0x03efc148               // shr    rdi, 3
-	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
-	WORD $0xc189                   // mov    ecx, eax
-	WORD $0xe180; BYTE $0x06       // and    cl, 6
-	WORD $0x01b3                   // mov    bl, 1
-	WORD $0xe3d2                   // shl    bl, cl
-	WORD $0x3044; BYTE $0xce       // xor    sil, r9b
-	WORD $0x2040; BYTE $0xf3       // and    bl, sil
-	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
-	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
-	LONG $0x02743a44; BYTE $0x01   // cmp    r14b, byte [rdx + rax + 1]
-	LONG $0x02488d4c               // lea    r9, [rax + 2]
-	LONG $0x000000be; BYTE $0x00   // mov    esi, 0
-	LONG $0xffd68040               // adc    sil, -1
-	WORD $0x3040; BYTE $0xde       // xor    sil, bl
-	WORD $0xc980; BYTE $0x01       // or    cl, 1
-	WORD $0x01b0                   // mov    al, 1
-	WORD $0xe0d2                   // shl    al, cl
-	WORD $0x2040; BYTE $0xf0       // and    al, sil
-	WORD $0xd830                   // xor    al, bl
-	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
-	WORD $0x394d; BYTE $0xca       // cmp    r10, r9
-	JNE  LBB11_76
-	WORD $0x014c; BYTE $0xca       // add    rdx, r9
-
-LBB11_78:
-	LONG $0x01c0f641             // test    r8b, 1
-	JE   LBB11_201
-	WORD $0xc031                 // xor    eax, eax
-	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
-	WORD $0xff14                 // adc    al, -1
-	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
-	LONG $0x03eac148             // shr    rdx, 3
-	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
-	LONG $0x07e18041             // and    r9b, 7
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8     // xor    al, dil
-	WORD $0xc320                 // and    bl, al
-
-LBB11_80:
-	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
-	LONG $0x155c8841; BYTE $0x00 // mov    byte [r13 + rdx], bl
-	JMP  LBB11_201
-
-LBB11_137:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_138:
-	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
-	LONG $0x08528d48             // lea    rdx, [rdx + 8]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB11_138
-
-LBB11_24:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_201
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
-	JMP  LBB11_199
-
-LBB11_195:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_196:
-	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
-	LONG $0x000000b8; BYTE $0x00 // mov    eax, 0
-	WORD $0xff14                 // adc    al, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x422e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xdf     // xor    dil, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB11_196
-
-LBB11_197:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB11_201
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x022e0f66 // ucomisd    xmm0, qword [rdx]
-	JMP  LBB11_199
-
-LBB11_112:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_113:
-	LONG $0x323b4466             // cmp    r14w, word [rdx]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
-	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2040; BYTE $0xf8     // and    al, dil
-	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
-	LONG $0x04528d48             // lea    rdx, [rdx + 4]
-	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
-	LONG $0xffd78040             // adc    dil, -1
-	WORD $0x3040; BYTE $0xc7     // xor    dil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x2040; BYTE $0xfb     // and    bl, dil
-	WORD $0xc330                 // xor    bl, al
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB11_113
-
-LBB11_110:
-	LONG $0x01c0f641 // test    r8b, 1
-	JE   LBB11_201
-	WORD $0xc031     // xor    eax, eax
-	LONG $0x323b4466 // cmp    r14w, word [rdx]
-
-LBB11_199:
-	WORD $0xff14             // adc    al, -1
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	JMP  LBB11_200
-
-LBB11_170:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xff31             // xor    edi, edi
-
-LBB11_171:
-	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
-	WORD $0x9d0f; BYTE $0xd0     // setge    al
-	WORD $0xd8f6                 // neg    al
-	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
-	LONG $0x03eec148             // shr    rsi, 3
-	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
-	WORD $0xf989                 // mov    ecx, edi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	WORD $0xc320                 // and    bl, al
-	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
-	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
-	LONG $0x02c78348             // add    rdi, 2
-	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
-	LONG $0x10528d48             // lea    rdx, [rdx + 16]
-	LONG $0xd19d0f41             // setge    r9b
-	WORD $0xf641; BYTE $0xd9     // neg    r9b
-	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x2044; BYTE $0xc8     // and    al, r9b
-	WORD $0xd830                 // xor    al, bl
-	LONG $0x37048841             // mov    byte [r15 + rsi], al
-	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
-	JNE  LBB11_171
-
-LBB11_168:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_201
-	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
-
-LBB11_152:
-	WORD $0x9d0f; BYTE $0xd0 // setge    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
-	LONG $0x07e78040         // and    dil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf989             // mov    ecx, edi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-
-LBB11_200:
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
-
-LBB11_201:
-	MOVQ 304(SP), SP
-	RET
-
-LBB11_135:
-	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
-	LONG $0xfee18349         // and    r9, -2
-	WORD $0xf631             // xor    esi, esi
-
-LBB11_136:
-	LONG $0x303b4466             // cmp    r14w, word [rax]
-	WORD $0x9d0f; BYTE $0xd2     // setge    dl
-	WORD $0xdaf6                 // neg    dl
-	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
-	WORD $0xf189                 // mov    ecx, esi
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b3                 // mov    bl, 1
-	WORD $0xe3d2                 // shl    bl, cl
-	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
-	WORD $0xd320                 // and    bl, dl
-	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
-	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
-	LONG $0x02c68348             // add    rsi, 2
-	LONG $0x703b4466; BYTE $0x02 // cmp    r14w, word [rax + 2]
-	LONG $0x04408d48             // lea    rax, [rax + 4]
-	LONG $0xd29d0f41             // setge    r10b
-	WORD $0xf641; BYTE $0xda     // neg    r10b
-	WORD $0x3041; BYTE $0xda     // xor    r10b, bl
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2044; BYTE $0xd2     // and    dl, r10b
-	WORD $0xda30                 // xor    dl, bl
-	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB11_136
-
-LBB11_133:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_201
-	LONG $0x303b4466         // cmp    r14w, word [rax]
-	WORD $0x9d0f; BYTE $0xd0 // setge    al
-	WORD $0xd8f6             // neg    al
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
-	LONG $0x07e68040         // and    sil, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0xf189             // mov    ecx, esi
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf8 // xor    al, dil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xfb // xor    bl, dil
-	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
-	JMP  LBB11_201
-
-LBB11_193:
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-
-LBB11_194:
-	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
-	LONG $0x000000ba; BYTE $0x00 // mov    edx, 0
-	WORD $0xd280; BYTE $0xff     // adc    dl, -1
-	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
-	LONG $0x03efc148             // shr    rdi, 3
-	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
-	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
-	WORD $0xe180; BYTE $0x06     // and    cl, 6
-	WORD $0x01b0                 // mov    al, 1
-	WORD $0xe0d2                 // shl    al, cl
-	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
-	WORD $0xd020                 // and    al, dl
-	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
-	LONG $0x3e048841             // mov    byte [r14 + rdi], al
-	LONG $0x02c38349             // add    r11, 2
-	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
-	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
-	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
-	LONG $0xffd68040             // adc    sil, -1
-	WORD $0x3040; BYTE $0xc6     // xor    sil, al
-	WORD $0xc980; BYTE $0x01     // or    cl, 1
-	WORD $0x01b2                 // mov    dl, 1
-	WORD $0xe2d2                 // shl    dl, cl
-	WORD $0x2040; BYTE $0xf2     // and    dl, sil
-	WORD $0xc230                 // xor    dl, al
-	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
-	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
-	JNE  LBB11_194
-
-LBB11_191:
-	LONG $0x01c0f641         // test    r8b, 1
-	JE   LBB11_201
-	WORD $0xc031             // xor    eax, eax
-	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
-	WORD $0xff14             // adc    al, -1
-	WORD $0x894c; BYTE $0xda // mov    rdx, r11
-	LONG $0x03eac148         // shr    rdx, 3
-	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
-	LONG $0x07e38041         // and    r11b, 7
-	WORD $0x01b3             // mov    bl, 1
-	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
-	WORD $0xe3d2             // shl    bl, cl
-	WORD $0x3040; BYTE $0xf0 // xor    al, sil
-	WORD $0xc320             // and    bl, al
-	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
-	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
-	JMP  LBB11_201
-
-LBB11_85:
-	LONG $0xf0e28349                     // and    r10, -16
-	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
-	LONG $0x05e0c148                     // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
-	QUAD $0x0000011824848948             // mov    qword [rsp + 280], rax
-	QUAD $0x000001002494894c             // mov    qword [rsp + 256], r10
-	LONG $0x97048d4b                     // lea    rax, [r15 + 4*r10]
-	QUAD $0x0000012024848948             // mov    qword [rsp + 288], rax
-	LONG $0xc6b60f41                     // movzx    eax, r14b
-	LONG $0xc86e0f66                     // movd    xmm1, eax
-	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
-	QUAD $0x000090248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 144], xmm1
-	WORD $0xc031                         // xor    eax, eax
-	LONG $0x247c894c; BYTE $0x78         // mov    qword [rsp + 120], r15
-
-LBB11_86:
-	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
-	LONG $0x05e0c148                           // shl    rax, 5
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	LONG $0x020cb60f                           // movzx    ecx, byte [rdx + rax]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x024cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rax + 1]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x024cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rax + 2]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x024cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rax + 3]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x024cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rax + 4]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x024cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rax + 5]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x024cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rax + 6]
-	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
-	LONG $0x024cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rax + 7]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x024cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rax + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
-	LONG $0x024cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rax + 9]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x024cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rax + 10]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x024cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rax + 11]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x024cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rax + 12]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
-	LONG $0x024cb60f; BYTE $0x0d               // movzx    ecx, byte [rdx + rax + 13]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x024cb60f; BYTE $0x0e               // movzx    ecx, byte [rdx + rax + 14]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x024cb60f; BYTE $0x0f               // movzx    ecx, byte [rdx + rax + 15]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
-	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	LONG $0x20cb8348                           // or    rbx, 32
-	LONG $0x245c8948; BYTE $0x08               // mov    qword [rsp + 8], rbx
-	LONG $0x40cf8348                           // or    rdi, 64
-	LONG $0x247c8948; BYTE $0x20               // mov    qword [rsp + 32], rdi
-	LONG $0x60ce8348                           // or    rsi, 96
-	LONG $0x24748948; BYTE $0x18               // mov    qword [rsp + 24], rsi
-	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
-	LONG $0xa0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 160
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0x2464894c; BYTE $0x40               // mov    qword [rsp + 64], r12
-	LONG $0xe0ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 224
-	LONG $0x00cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 256
-	LONG $0x247c894c; BYTE $0x58               // mov    qword [rsp + 88], r15
-	LONG $0x20cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 288
-	LONG $0x246c894c; BYTE $0x50               // mov    qword [rsp + 80], r13
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x40cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 320
-	LONG $0x60cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 352
-	LONG $0x80c88149; WORD $0x0001; BYTE $0x00 // or    r8, 384
-	LONG $0x2444894c; BYTE $0x60               // mov    qword [rsp + 96], r8
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0xa0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 416
-	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
-	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
-	LONG $0xc0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 448
-	LONG $0x244c8948; BYTE $0x28               // mov    qword [rsp + 40], rcx
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	LONG $0xe0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 480
-	LONG $0x24748948; BYTE $0x10               // mov    qword [rsp + 16], rsi
-	LONG $0x203a0f66; WORD $0x1a24; BYTE $0x01 // pinsrb    xmm4, byte [rdx + rbx], 1
-	LONG $0x203a0f66; WORD $0x3a24; BYTE $0x02 // pinsrb    xmm4, byte [rdx + rdi], 2
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	LONG $0x203a0f66; WORD $0x1a24; BYTE $0x03 // pinsrb    xmm4, byte [rdx + rbx], 3
-	QUAD $0x040a24203a0f4266                   // pinsrb    xmm4, byte [rdx + r9], 4
-	QUAD $0x051224203a0f4266                   // pinsrb    xmm4, byte [rdx + r10], 5
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	LONG $0x203a0f66; WORD $0x0224; BYTE $0x06 // pinsrb    xmm4, byte [rdx + rax], 6
-	QUAD $0x073224203a0f4266                   // pinsrb    xmm4, byte [rdx + r14], 7
-	QUAD $0x083a24203a0f4266                   // pinsrb    xmm4, byte [rdx + r15], 8
-	QUAD $0x092a24203a0f4266                   // pinsrb    xmm4, byte [rdx + r13], 9
-	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
-	LONG $0x2464894c; BYTE $0x38               // mov    qword [rsp + 56], r12
-	QUAD $0x0a2224203a0f4266                   // pinsrb    xmm4, byte [rdx + r12], 10
-	QUAD $0x0b1a24203a0f4266                   // pinsrb    xmm4, byte [rdx + r11], 11
-	QUAD $0x0c0224203a0f4266                   // pinsrb    xmm4, byte [rdx + r8], 12
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	LONG $0x203a0f66; WORD $0x0224; BYTE $0x0d // pinsrb    xmm4, byte [rdx + rax], 13
-	LONG $0x203a0f66; WORD $0x0a24; BYTE $0x0e // pinsrb    xmm4, byte [rdx + rcx], 14
-	LONG $0x203a0f66; WORD $0x3224; BYTE $0x0f // pinsrb    xmm4, byte [rdx + rsi], 15
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	QUAD $0x01225c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r12 + 1], 1
-	QUAD $0x02013a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 1], 2
-	QUAD $0x03011a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 1], 3
-	QUAD $0x010a5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r9 + 1], 4
-	QUAD $0x01125c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r10 + 1], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x06011a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 1], 6
-	QUAD $0x01325c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r14 + 1], 7
-	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
-	QUAD $0x08013a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 1], 8
-	QUAD $0x012a5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r13 + 1], 9
-	QUAD $0x013a5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r15 + 1], 10
-	QUAD $0x011a5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r11 + 1], 11
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	QUAD $0x01025c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r8 + 1], 12
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x012a5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r13 + 1], 13
-	QUAD $0x0e010a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 1], 14
-	QUAD $0x000090248c6f0f66; BYTE $0x00       // movdqa    xmm1, oword [rsp + 144]
-	LONG $0xe1640f66                           // pcmpgtb    xmm4, xmm1
-	QUAD $0x0f01325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 1], 15
-	LONG $0xd9640f66                           // pcmpgtb    xmm3, xmm1
-	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
-	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rax + 16]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0102026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 2], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0202026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 2], 2
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	QUAD $0x021a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r11 + 2], 3
-	QUAD $0x020a6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r9 + 2], 4
-	QUAD $0x02126c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rdx + r10 + 2], 5
-	QUAD $0x06021a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 2], 6
-	LONG $0x2474894c; BYTE $0x68               // mov    qword [rsp + 104], r14
-	QUAD $0x02326c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r14 + 2], 7
-	WORD $0x8949; BYTE $0xfc                   // mov    r12, rdi
-	QUAD $0x08023a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 2], 8
-	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
-	QUAD $0x02026c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r8 + 2], 9
-	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
-	QUAD $0x0a023a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 2], 10
-	QUAD $0x000000b024bc894c                   // mov    qword [rsp + 176], r15
-	QUAD $0x023a6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r15 + 2], 11
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0c020a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 2], 12
-	WORD $0x894c; BYTE $0xee                   // mov    rsi, r13
-	QUAD $0x022a6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r13 + 2], 13
-	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
-	QUAD $0x022a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r13 + 2], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f02026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 2], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0103027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 3], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0203027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 3], 2
-	QUAD $0x031a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r11 + 3], 3
-	QUAD $0x030a7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r9 + 3], 4
-	QUAD $0x03127c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r10 + 3], 5
-	QUAD $0x06031a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 3], 6
-	QUAD $0x03327c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r14 + 3], 7
-	QUAD $0x03227c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r12 + 3], 8
-	QUAD $0x03027c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r8 + 3], 9
-	QUAD $0x0a033a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 3], 10
-	QUAD $0x033a7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r15 + 3], 11
-	QUAD $0x0c030a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 3], 12
-	QUAD $0x0d03327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 3], 13
-	QUAD $0x032a7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r13 + 3], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f03027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 3], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x04024c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rax + 4], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x04024c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rax + 4], 2
-	QUAD $0x041a4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r11 + 4], 3
-	QUAD $0x040a4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r9 + 4], 4
-	QUAD $0x00000080248c894c                   // mov    qword [rsp + 128], r9
-	QUAD $0x04124c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r10 + 4], 5
-	QUAD $0x041a4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rdx + rbx + 4], 6
-	QUAD $0x04324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 4], 7
-	QUAD $0x04224c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r12 + 4], 8
-	QUAD $0x04024c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r8 + 4], 9
-	QUAD $0x043a4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + rdi + 4], 10
-	QUAD $0x043a4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r15 + 4], 11
-	QUAD $0x040a4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + rcx + 4], 12
-	QUAD $0x04324c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rsi + 4], 13
-	QUAD $0x042a4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r13 + 4], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x04024c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + rax + 4], 15
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	LONG $0xe9640f66                           // pcmpgtb    xmm5, xmm1
-	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
-	LONG $0xf9640f66                           // pcmpgtb    xmm7, xmm1
-	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x640f4466; BYTE $0xc9               // pcmpgtb    xmm9, xmm1
-	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xdf0f4466; BYTE $0xc8               // pandn    xmm9, xmm0
-	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
-	LONG $0x0274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rax + 18]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
-	LONG $0xeb0f4466; BYTE $0xcb               // por    xmm9, xmm3
-	LONG $0x0274b60f; BYTE $0x13               // movzx    esi, byte [rdx + rax + 19]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x050254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r8 + 5], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x02053a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 5], 2
-	QUAD $0x051a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 5], 3
-	QUAD $0x050a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r9 + 5], 4
-	QUAD $0x051254203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r10 + 5], 5
-	WORD $0x894d; BYTE $0xd4                   // mov    r12, r10
-	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
-	QUAD $0x06051a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 5], 6
-	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
-	QUAD $0x07051a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 5], 7
-	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
-	QUAD $0x053a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r15 + 5], 8
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	QUAD $0x050a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r9 + 5], 9
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0a053254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 5], 10
-	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
-	QUAD $0x051a54203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r11 + 5], 11
-	QUAD $0x0c050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 12
-	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
-	QUAD $0x051254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r10 + 5], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e050254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 5], 14
-	QUAD $0x052a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r13 + 5], 15
-	QUAD $0x060244203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r8 + 6], 1
-	QUAD $0x063a44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rdi + 6], 2
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x062a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r13 + 6], 3
-	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
-	QUAD $0x062a44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r13 + 6], 4
-	QUAD $0x062244203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rdx + r12 + 6], 5
-	QUAD $0x063244203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r14 + 6], 6
-	QUAD $0x061a44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rdx + rbx + 6], 7
-	QUAD $0x063a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r15 + 6], 8
-	QUAD $0x060a44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rdx + r9 + 6], 9
-	QUAD $0x063244203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rsi + 6], 10
-	QUAD $0x061a44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r11 + 6], 11
-	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
-	QUAD $0x060a44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + rcx + 6], 12
-	QUAD $0x061244203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + r10 + 6], 13
-	QUAD $0x060244203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rax + 6], 14
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x060244203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + rax + 6], 15
-	QUAD $0x070274203a0f4666; BYTE $0x01       // pinsrb    xmm14, byte [rdx + r8 + 7], 1
-	QUAD $0x073a74203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rdx + rdi + 7], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x070274203a0f4466; BYTE $0x03       // pinsrb    xmm14, byte [rdx + rax + 7], 3
-	WORD $0x894d; BYTE $0xe9                   // mov    r9, r13
-	QUAD $0x072a74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rdx + r13 + 7], 4
-	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
-	QUAD $0x072274203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rdx + r12 + 7], 5
-	QUAD $0x073274203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r14 + 7], 6
-	QUAD $0x071a74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rdx + rbx + 7], 7
-	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
-	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
-	QUAD $0x072274203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r12 + 7], 8
-	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
-	QUAD $0x072a74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rdx + r13 + 7], 9
-	QUAD $0x073274203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + rsi + 7], 10
-	QUAD $0x073a74203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + r15 + 7], 11
-	QUAD $0x070a74203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + rcx + 7], 12
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x071a74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rbx + 7], 13
-	QUAD $0x071274203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r10 + 7], 14
-	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
-	QUAD $0x009024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 144]
-	LONG $0x640f4166; BYTE $0xd6               // pcmpgtb    xmm2, xmm14
-	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI11_20] */
-	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
-	LONG $0x640f4566; BYTE $0xc6               // pcmpgtb    xmm8, xmm14
-	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI11_21] */
-	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
-	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rax + 20]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0f070a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 7], 15
-	LONG $0x640f4166; BYTE $0xce               // pcmpgtb    xmm1, xmm14
-	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
-	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
-	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	QUAD $0x0000c024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 192]
-	QUAD $0x080244203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rdx + r8 + 8], 1
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x083244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r14 + 8], 2
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x03083244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 8], 3
-	QUAD $0x080a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r9 + 8], 4
-	QUAD $0x05083a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 8], 5
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
-	QUAD $0x06083a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 8], 6
-	QUAD $0x081a44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r11 + 8], 7
-	QUAD $0x082244203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r12 + 8], 8
-	QUAD $0x082a44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r13 + 8], 9
-	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
-	QUAD $0x080244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r8 + 8], 10
-	QUAD $0x083a44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r15 + 8], 11
-	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
-	QUAD $0x0c083244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 8], 12
-	QUAD $0x0d081a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 8], 13
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0e083244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 8], 14
-	QUAD $0x0f080a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 8], 15
-	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
-	QUAD $0x0000c0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm1
-	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x640f4166; BYTE $0xc6               // pcmpgtb    xmm0, xmm14
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x091a5c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r11 + 9], 1
-	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
-	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
-	QUAD $0x09325c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rdx + r14 + 9], 2
-	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
-	QUAD $0x091a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r11 + 9], 3
-	QUAD $0x090a5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r9 + 9], 4
-	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
-	QUAD $0x09125c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r10 + 9], 5
-	QUAD $0x093a5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rdx + rdi + 9], 6
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x09325c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r14 + 9], 7
-	QUAD $0x09225c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r12 + 9], 8
-	QUAD $0x092a5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r13 + 9], 9
-	WORD $0x894c; BYTE $0xc6                   // mov    rsi, r8
-	QUAD $0x09025c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r8 + 9], 10
-	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
-	QUAD $0x093a5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r15 + 9], 11
-	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
-	QUAD $0x09025c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r8 + 9], 12
-	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
-	QUAD $0x093a5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r15 + 9], 13
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x093a5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + rdi + 9], 14
-	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
-	QUAD $0x093a5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rdi + 9], 15
-	QUAD $0x0a1a64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rbx + 10], 1
-	QUAD $0x0a0264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rax + 10], 2
-	QUAD $0x0a1a64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r11 + 10], 3
-	QUAD $0x0a0a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r9 + 10], 4
-	QUAD $0x0a1264203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rdx + r10 + 10], 5
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0a1a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rbx + 10], 6
-	QUAD $0x0a3264203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r14 + 10], 7
-	QUAD $0x0a2264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r12 + 10], 8
-	QUAD $0x0a2a64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r13 + 10], 9
-	QUAD $0x0a3264203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rsi + 10], 10
-	QUAD $0x0a0a64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + rcx + 10], 11
-	QUAD $0x0a0264203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r8 + 10], 12
-	QUAD $0x0a3a64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r15 + 10], 13
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0a3a64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r15 + 10], 14
-	QUAD $0x0a3a64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rdi + 10], 15
-	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
-	QUAD $0x0b1a6c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rbx + 11], 1
-	QUAD $0x0b026c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rax + 11], 2
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0b026c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rdx + rax + 11], 3
-	QUAD $0x0b0a6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r9 + 11], 4
-	QUAD $0x0b126c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rdx + r10 + 11], 5
-	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
-	QUAD $0x0b126c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r10 + 11], 6
-	QUAD $0x0b326c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r14 + 11], 7
-	QUAD $0x0b226c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r12 + 11], 8
-	QUAD $0x0b2a6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r13 + 11], 9
-	QUAD $0x0b326c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rsi + 11], 10
-	QUAD $0x0b0a6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rcx + 11], 11
-	QUAD $0x0b026c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r8 + 11], 12
-	QUAD $0x0b1a6c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r11 + 11], 13
-	QUAD $0x0b3a6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r15 + 11], 14
-	QUAD $0x0b3a6c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rdi + 11], 15
-	LONG $0x640f4566; BYTE $0xde               // pcmpgtb    xmm11, xmm14
-	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xfc0f4466; BYTE $0xd8               // paddb    xmm11, xmm0
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	LONG $0x0a74b60f; BYTE $0x17               // movzx    esi, byte [rdx + rcx + 23]
-	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
-	LONG $0x640f4566; BYTE $0xe6               // pcmpgtb    xmm12, xmm14
-	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0x640f4566; BYTE $0xee               // pcmpgtb    xmm13, xmm14
-	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	LONG $0x0a74b60f; BYTE $0x18               // movzx    esi, byte [rdx + rcx + 24]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	QUAD $0x00d0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 208]
-	QUAD $0x0c1a4c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rbx + 12], 1
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0c3a4c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rdx + r15 + 12], 2
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	QUAD $0x0c024c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rdx + rax + 12], 3
-	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
-	QUAD $0x0c0a4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r9 + 12], 4
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x0c0a4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r9 + 12], 5
-	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
-	QUAD $0x0c124c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r10 + 12], 6
-	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
-	QUAD $0x0c324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 12], 7
-	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
-	QUAD $0x0c224c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r12 + 12], 8
-	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
-	QUAD $0x0c2a4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r13 + 12], 9
-	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
-	QUAD $0x0c2a4c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r13 + 12], 10
-	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
-	QUAD $0x0c0a4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + rcx + 12], 11
-	QUAD $0x0c024c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r8 + 12], 12
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0c324c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rsi + 12], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0c024c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + rax + 12], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0c024c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + rax + 12], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x010d0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 13], 1
-	QUAD $0x0d3a74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rdx + r15 + 13], 2
-	QUAD $0x0d1a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 13], 3
-	QUAD $0x040d3a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 13], 4
-	QUAD $0x0d0a74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r9 + 13], 5
-	QUAD $0x060d1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 13], 6
-	QUAD $0x0d1274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r10 + 13], 7
-	QUAD $0x0d3274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r14 + 13], 8
-	QUAD $0x0d2274203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r12 + 13], 9
-	QUAD $0x0d2a74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r13 + 13], 10
-	QUAD $0x0b0d0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 13], 11
-	QUAD $0x0d0274203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r8 + 13], 12
-	QUAD $0x0d0d3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 13], 13
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x0e0d0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 13], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0f0d0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 13], 15
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0e027c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rax + 14], 1
-	QUAD $0x0e3a7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r15 + 14], 2
-	QUAD $0x0e1a7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r11 + 14], 3
-	QUAD $0x0e3a7c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rdx + rdi + 14], 4
-	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
-	QUAD $0x0e0a7c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rdx + r9 + 14], 5
-	QUAD $0x0e1a7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rdx + rbx + 14], 6
-	QUAD $0x0e127c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r10 + 14], 7
-	QUAD $0x0e327c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r14 + 14], 8
-	QUAD $0x0e227c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r12 + 14], 9
-	QUAD $0x0e2a7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r13 + 14], 10
-	QUAD $0x0e0a7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + rcx + 14], 11
-	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
-	QUAD $0x0e027c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r8 + 14], 12
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x0e327c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rsi + 14], 13
-	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
-	QUAD $0x0e3a7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + r15 + 14], 14
-	LONG $0x640f4566; BYTE $0xce               // pcmpgtb    xmm9, xmm14
-	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	QUAD $0x0001609df80f4466; BYTE $0x00       // psubb    xmm11, oword 352[rbp] /* [rip + .LCPI11_22] */
-	LONG $0xeb0f4566; BYTE $0xcb               // por    xmm9, xmm11
-	LONG $0x0274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rax + 26]
-	LONG $0xc66e0f66                           // movd    xmm0, esi
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e0a7c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + rcx + 14], 15
-	LONG $0x640f4166; BYTE $0xf6               // pcmpgtb    xmm6, xmm14
-	QUAD $0x00000140b5df0f66                   // pandn    xmm6, oword 320[rbp] /* [rip + .LCPI11_20] */
-	LONG $0x640f4566; BYTE $0xfe               // pcmpgtb    xmm15, xmm14
-	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI11_21] */
-	LONG $0xeb0f4466; BYTE $0xfe               // por    xmm15, xmm6
-	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x0000a024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 160]
-	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
-	QUAD $0x0f0274203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rdx + r8 + 15], 1
-	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
-	QUAD $0x020f3a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 15], 2
-	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
-	QUAD $0x030f3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 15], 3
-	QUAD $0x0f1a74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r11 + 15], 4
-	QUAD $0x0f0a74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r9 + 15], 5
-	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
-	QUAD $0x060f1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 15], 6
-	QUAD $0x0f1274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r10 + 15], 7
-	QUAD $0x0f3274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r14 + 15], 8
-	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
-	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
-	QUAD $0x0f1a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r11 + 15], 9
-	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
-	QUAD $0x0a0f1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 15], 10
-	QUAD $0x0f2a74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r13 + 15], 11
-	QUAD $0x0f2274203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r12 + 15], 12
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x0f2274203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rdx + r12 + 15], 13
-	QUAD $0x0f3a74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r15 + 15], 14
-	QUAD $0x0f0f0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 15], 15
-	LONG $0x640f4166; BYTE $0xf6               // pcmpgtb    xmm6, xmm14
-	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x0274b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rax + 28]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
-	QUAD $0x0000a024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm6
-	LONG $0x0274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rax + 29]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x100254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r8 + 16], 1
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x103a54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rdi + 16], 2
-	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
-	QUAD $0x100a54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rdx + rcx + 16], 3
-	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
-	QUAD $0x103a54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rdx + rdi + 16], 4
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x100254203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r8 + 16], 5
-	QUAD $0x100a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r9 + 16], 6
-	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
-	QUAD $0x100a54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r9 + 16], 7
-	QUAD $0x101254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r10 + 16], 8
-	QUAD $0x101a54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rdx + r11 + 16], 9
-	QUAD $0x101a54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rbx + 16], 10
-	QUAD $0x102a54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r13 + 16], 11
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x103a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r15 + 16], 12
-	QUAD $0x102254203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r12 + 16], 13
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x100a54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + rcx + 16], 14
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x103254203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rsi + 16], 15
-	QUAD $0x01110264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 17], 1
-	QUAD $0x113264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r14 + 17], 2
-	LONG $0x24748b4c; BYTE $0x18               // mov    r14, qword [rsp + 24]
-	QUAD $0x113264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r14 + 17], 3
-	QUAD $0x04113a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 17], 4
-	QUAD $0x110264203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r8 + 17], 5
-	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
-	QUAD $0x112264203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r12 + 17], 6
-	QUAD $0x110a64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r9 + 17], 7
-	QUAD $0x111264203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r10 + 17], 8
-	QUAD $0x111a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r11 + 17], 9
-	QUAD $0x0a111a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 17], 10
-	QUAD $0x112a64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r13 + 17], 11
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x113a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 17], 12
-	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
-	QUAD $0x110264203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r8 + 17], 13
-	QUAD $0x0e110a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 17], 14
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	QUAD $0x0f113264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 17], 15
-	WORD $0x8949; BYTE $0xf7                   // mov    r15, rsi
-	LONG $0x640f4566; BYTE $0xd6               // pcmpgtb    xmm10, xmm14
-	LONG $0x640f4166; BYTE $0xe6               // pcmpgtb    xmm4, xmm14
-	QUAD $0x00000100b56f0f66                   // movdqa    xmm6, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xe6df0f66                           // pandn    xmm4, xmm6
-	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0112327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 18], 1
-	QUAD $0x0113326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 19], 1
-	QUAD $0x0114325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 20], 1
-	QUAD $0x01153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 1
-	QUAD $0x0116324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 22], 1
-	QUAD $0x173244203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rdx + rsi + 23], 1
-	QUAD $0x183264203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rsi + 24], 1
-	QUAD $0x19326c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rsi + 25], 1
-	QUAD $0x011a3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 26], 1
-	QUAD $0x1b325c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rsi + 27], 1
-	QUAD $0x1c327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 28], 1
-	QUAD $0x1d324c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rsi + 29], 1
-	QUAD $0x1e3254203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rsi + 30], 1
-	LONG $0x0244b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rax + 31]
-	LONG $0xf06e0f66                           // movd    xmm6, eax
-	QUAD $0x011f3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 31], 1
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0212027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 2
-	QUAD $0x0213026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 19], 2
-	QUAD $0x0214025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 20], 2
-	QUAD $0x02150254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 21], 2
-	QUAD $0x0216024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 22], 2
-	QUAD $0x170244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rax + 23], 2
-	QUAD $0x180264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rax + 24], 2
-	QUAD $0x19026c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rax + 25], 2
-	QUAD $0x021a0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 26], 2
-	QUAD $0x1b025c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rax + 27], 2
-	QUAD $0x1c027c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rdx + rax + 28], 2
-	QUAD $0x1d024c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rax + 29], 2
-	QUAD $0x1e0254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rax + 30], 2
-	QUAD $0x021f0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 31], 2
-	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
-	QUAD $0x12327c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r14 + 18], 3
-	QUAD $0x04123a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 18], 4
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x05120a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 18], 5
-	QUAD $0x12227c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r12 + 18], 6
-	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
-	QUAD $0x12127c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r10 + 18], 7
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x12327c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r14 + 18], 8
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	QUAD $0x0912027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 9
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0a12327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 18], 10
-	QUAD $0x122a7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r13 + 18], 11
-	QUAD $0x0c121a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 18], 12
-	QUAD $0x12027c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rdx + r8 + 18], 13
-	QUAD $0x120a7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r9 + 18], 14
-	QUAD $0x123a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r15 + 18], 15
-	QUAD $0x131a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r11 + 19], 3
-	QUAD $0x04133a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 19], 4
-	QUAD $0x05130a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 19], 5
-	QUAD $0x13226c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r12 + 19], 6
-	QUAD $0x13126c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r10 + 19], 7
-	QUAD $0x13326c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r14 + 19], 8
-	QUAD $0x0913026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 19], 9
-	QUAD $0x0a13326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 19], 10
-	QUAD $0x132a6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r13 + 19], 11
-	QUAD $0x0c131a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 19], 12
-	QUAD $0x13026c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r8 + 19], 13
-	QUAD $0x130a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r9 + 19], 14
-	QUAD $0x133a6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r15 + 19], 15
-	QUAD $0x141a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r11 + 20], 3
-	QUAD $0x04143a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 20], 4
-	QUAD $0x05140a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 20], 5
-	QUAD $0x14225c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r12 + 20], 6
-	QUAD $0x14125c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r10 + 20], 7
-	QUAD $0x14325c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r14 + 20], 8
-	QUAD $0x0914025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 20], 9
-	QUAD $0x0a14325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 20], 10
-	QUAD $0x142a5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r13 + 20], 11
-	QUAD $0x0c141a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 20], 12
-	QUAD $0x14025c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r8 + 20], 13
-	QUAD $0x140a5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r9 + 20], 14
-	LONG $0x640f4166; BYTE $0xfe               // pcmpgtb    xmm7, xmm14
-	QUAD $0x000110b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0xdf0f4166; BYTE $0xfe               // pandn    xmm7, xmm14
-	QUAD $0x00009024ac640f66; BYTE $0x00       // pcmpgtb    xmm5, oword [rsp + 144]
-	QUAD $0x000120b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xdf0f4166; BYTE $0xee               // pandn    xmm5, xmm14
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0x143a5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r15 + 20], 15
-	QUAD $0x009024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 144]
-	LONG $0x640f4166; BYTE $0xde               // pcmpgtb    xmm3, xmm14
-	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
-	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
-	LONG $0xdceb0f66                           // por    xmm3, xmm4
-	QUAD $0x151a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 21], 3
-	QUAD $0x04153a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 21], 4
-	QUAD $0x05150a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 21], 5
-	QUAD $0x152254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r12 + 21], 6
-	QUAD $0x151254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r10 + 21], 7
-	QUAD $0x153254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r14 + 21], 8
-	QUAD $0x09150254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 21], 9
-	QUAD $0x0a153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 10
-	QUAD $0x152a54203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r13 + 21], 11
-	QUAD $0x0c151a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 21], 12
-	QUAD $0x150254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r8 + 21], 13
-	QUAD $0x150a54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r9 + 21], 14
-	QUAD $0x153a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r15 + 21], 15
-	QUAD $0x161a4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r11 + 22], 3
-	QUAD $0x04163a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 22], 4
-	QUAD $0x05160a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 22], 5
-	QUAD $0x16224c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r12 + 22], 6
-	QUAD $0x16124c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r10 + 22], 7
-	QUAD $0x16324c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r14 + 22], 8
-	QUAD $0x0916024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 22], 9
-	QUAD $0x0a16324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 22], 10
-	QUAD $0x162a4c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r13 + 22], 11
-	QUAD $0x0c161a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 22], 12
-	QUAD $0x16024c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r8 + 22], 13
-	QUAD $0x160a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r9 + 22], 14
-	QUAD $0x163a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r15 + 22], 15
-	QUAD $0x171a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r11 + 23], 3
-	QUAD $0x173a44203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rdx + rdi + 23], 4
-	QUAD $0x170a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rcx + 23], 5
-	QUAD $0x172244203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r12 + 23], 6
-	QUAD $0x171244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r10 + 23], 7
-	QUAD $0x173244203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r14 + 23], 8
-	QUAD $0x170244203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rax + 23], 9
-	QUAD $0x173244203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rsi + 23], 10
-	QUAD $0x172a44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r13 + 23], 11
-	QUAD $0x171a44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + rbx + 23], 12
-	QUAD $0x170244203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + r8 + 23], 13
-	QUAD $0x170a44203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + r9 + 23], 14
-	LONG $0x640f4166; BYTE $0xd6               // pcmpgtb    xmm2, xmm14
-	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI11_20] */
-	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
-	LONG $0x640f4166; BYTE $0xce               // pcmpgtb    xmm1, xmm14
-	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI11_21] */
-	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
-	LONG $0xcaeb0f66                           // por    xmm1, xmm2
-	QUAD $0x173a44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r15 + 23], 15
-	LONG $0x640f4566; BYTE $0xc6               // pcmpgtb    xmm8, xmm14
-	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
-	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
-	QUAD $0x181a64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r11 + 24], 3
-	QUAD $0x183a64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rdi + 24], 4
-	QUAD $0x180a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rcx + 24], 5
-	QUAD $0x182264203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r12 + 24], 6
-	QUAD $0x181264203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r10 + 24], 7
-	QUAD $0x183264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r14 + 24], 8
-	QUAD $0x180264203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rax + 24], 9
-	QUAD $0x183264203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rsi + 24], 10
-	QUAD $0x182a64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r13 + 24], 11
-	QUAD $0x181a64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + rbx + 24], 12
-	QUAD $0x180264203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r8 + 24], 13
-	QUAD $0x180a64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r9 + 24], 14
-	QUAD $0x183a64203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r15 + 24], 15
-	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
-	LONG $0x640f4566; BYTE $0xe6               // pcmpgtb    xmm12, xmm14
-	QUAD $0x191a6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r11 + 25], 3
-	QUAD $0x193a6c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rdi + 25], 4
-	QUAD $0x190a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rcx + 25], 5
-	QUAD $0x19226c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r12 + 25], 6
-	QUAD $0x19126c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r10 + 25], 7
-	QUAD $0x19326c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r14 + 25], 8
-	QUAD $0x19026c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rax + 25], 9
-	QUAD $0x19326c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rsi + 25], 10
-	QUAD $0x192a6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r13 + 25], 11
-	QUAD $0x191a6c203a0f4466; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + rbx + 25], 12
-	QUAD $0x19026c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r8 + 25], 13
-	QUAD $0x190a6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r9 + 25], 14
-	QUAD $0x193a6c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + r15 + 25], 15
-	QUAD $0x1a1a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r11 + 26], 3
-	QUAD $0x041a3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 26], 4
-	QUAD $0x051a0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 26], 5
-	QUAD $0x1a2244203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r12 + 26], 6
-	QUAD $0x1a1244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r10 + 26], 7
-	QUAD $0x1a3244203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r14 + 26], 8
-	QUAD $0x091a0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 26], 9
-	QUAD $0x0a1a3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 26], 10
-	QUAD $0x1a2a44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r13 + 26], 11
-	QUAD $0x0c1a1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 26], 12
-	QUAD $0x1a0244203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rdx + r8 + 26], 13
-	QUAD $0x1a0a44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r9 + 26], 14
-	QUAD $0x1a3a44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r15 + 26], 15
-	QUAD $0x1b1a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r11 + 27], 3
-	QUAD $0x1b3a5c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rdi + 27], 4
-	QUAD $0x1b0a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rcx + 27], 5
-	QUAD $0x1b225c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r12 + 27], 6
-	QUAD $0x1b125c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r10 + 27], 7
-	QUAD $0x1b325c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r14 + 27], 8
-	QUAD $0x1b025c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rax + 27], 9
-	QUAD $0x1b325c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rsi + 27], 10
-	QUAD $0x1b2a5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r13 + 27], 11
-	QUAD $0x1b1a5c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + rbx + 27], 12
-	QUAD $0x1b025c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r8 + 27], 13
-	QUAD $0x1b0a5c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r9 + 27], 14
-	LONG $0x640f4566; BYTE $0xee               // pcmpgtb    xmm13, xmm14
-	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
-	QUAD $0x1b3a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r15 + 27], 15
-	LONG $0x640f4166; BYTE $0xc6               // pcmpgtb    xmm0, xmm14
-	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0x640f4566; BYTE $0xde               // pcmpgtb    xmm11, xmm14
-	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
-	QUAD $0x1c1a7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r11 + 28], 3
-	QUAD $0x1d1a4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r11 + 29], 3
-	QUAD $0x1e1a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r11 + 30], 3
-	QUAD $0x1f1a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 31], 3
-	QUAD $0x1c3a7c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rdx + rdi + 28], 4
-	QUAD $0x1d3a4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rdx + rdi + 29], 4
-	QUAD $0x1e3a54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rdx + rdi + 30], 4
-	QUAD $0x041f3a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 31], 4
-	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
-	QUAD $0x1c0a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rcx + 28], 5
-	QUAD $0x1d0a4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rcx + 29], 5
-	QUAD $0x1e0a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rcx + 30], 5
-	QUAD $0x051f0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 31], 5
-	QUAD $0x1c227c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r12 + 28], 6
-	QUAD $0x1d224c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r12 + 29], 6
-	QUAD $0x1e2254203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r12 + 30], 6
-	QUAD $0x1f2274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r12 + 31], 6
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	WORD $0x894c; BYTE $0xd7                   // mov    rdi, r10
-	QUAD $0x1c127c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r10 + 28], 7
-	QUAD $0x1d124c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r10 + 29], 7
-	QUAD $0x1e1254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r10 + 30], 7
-	QUAD $0x1f1274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r10 + 31], 7
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	QUAD $0x1c327c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r14 + 28], 8
-	QUAD $0x1d324c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r14 + 29], 8
-	QUAD $0x1e3254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r14 + 30], 8
-	QUAD $0x1f3274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r14 + 31], 8
-	QUAD $0x1c027c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rdx + rax + 28], 9
-	QUAD $0x1d024c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rdx + rax + 29], 9
-	QUAD $0x1e0254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rax + 30], 9
-	QUAD $0x091f0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 31], 9
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	QUAD $0x1c327c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + rsi + 28], 10
-	QUAD $0x1d324c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + rsi + 29], 10
-	QUAD $0x1e3254203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rsi + 30], 10
-	QUAD $0x0a1f3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 31], 10
-	QUAD $0x1c2a7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r13 + 28], 11
-	QUAD $0x1d2a4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r13 + 29], 11
-	QUAD $0x1e2a54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r13 + 30], 11
-	QUAD $0x1f2a74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r13 + 31], 11
-	QUAD $0x1c1a7c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + rbx + 28], 12
-	QUAD $0x1d1a4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + rbx + 29], 12
-	QUAD $0x1e1a54203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rbx + 30], 12
-	QUAD $0x0c1f1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 31], 12
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x1c027c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + r8 + 28], 13
-	QUAD $0x1d024c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + r8 + 29], 13
-	QUAD $0x1e0254203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r8 + 30], 13
-	QUAD $0x1f0274203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rdx + r8 + 31], 13
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	QUAD $0x1c0a7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + r9 + 28], 14
-	QUAD $0x1d0a4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r9 + 29], 14
-	QUAD $0x1e0a54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r9 + 30], 14
-	QUAD $0x1f0a74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r9 + 31], 14
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x1c027c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + rax + 28], 15
-	QUAD $0x1d024c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + rax + 29], 15
-	QUAD $0x1e0254203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rax + 30], 15
-	LONG $0x640f4566; BYTE $0xfe               // pcmpgtb    xmm15, xmm14
-	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
-	QUAD $0x0f1f0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 31], 15
-	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI11_22] */
-	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
-	LONG $0x640f4566; BYTE $0xce               // pcmpgtb    xmm9, xmm14
-	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
-	LONG $0x640f4566; BYTE $0xd6               // pcmpgtb    xmm10, xmm14
-	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
-	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
-	LONG $0x640f4166; BYTE $0xf6               // pcmpgtb    xmm6, xmm14
-	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
-	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
-	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
-	QUAD $0x0000c0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 192]
-	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
-	QUAD $0x0000a024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 160]
-	LONG $0xcc600f66                           // punpcklbw    xmm1, xmm4
-	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
-	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
-	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
-	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
-	LONG $0xdc680f66                           // punpckhbw    xmm3, xmm4
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
-	LONG $0x690f4166; BYTE $0xd8               // punpckhwd    xmm3, xmm8
-	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
-	LONG $0x7f0f41f3; WORD $0x8f5c; BYTE $0x30 // movdqu    oword [r15 + 4*rcx + 48], xmm3
-	LONG $0x7f0f41f3; WORD $0x8f44; BYTE $0x20 // movdqu    oword [r15 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8f4c; BYTE $0x10 // movdqu    oword [r15 + 4*rcx + 16], xmm1
-	LONG $0x7f0f41f3; WORD $0x8f14             // movdqu    oword [r15 + 4*rcx], xmm2
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x00000100248c3b48                   // cmp    rcx, qword [rsp + 256]
-	JNE  LBB11_86
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x0000010024943b4c                   // cmp    r10, qword [rsp + 256]
-	LONG $0x24348a44                           // mov    r14b, byte [rsp]
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0000011824948b48                   // mov    rdx, qword [rsp + 280]
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	JNE  LBB11_88
-	JMP  LBB11_91
-
-LBB11_66:
-	LONG $0xf0e28349                       // and    r10, -16
-	WORD $0x894c; BYTE $0xd0               // mov    rax, r10
-	LONG $0x05e0c148                       // shl    rax, 5
-	WORD $0x0148; BYTE $0xd0               // add    rax, rdx
-	QUAD $0x0000011824848948               // mov    qword [rsp + 280], rax
-	QUAD $0x000000c02494894c               // mov    qword [rsp + 192], r10
-	LONG $0x97048d4b                       // lea    rax, [r15 + 4*r10]
-	QUAD $0x0000012024848948               // mov    qword [rsp + 288], rax
-	LONG $0xc6b60f41                       // movzx    eax, r14b
-	LONG $0xc86e0f66                       // movd    xmm1, eax
-	LONG $0xc0ef0f66                       // pxor    xmm0, xmm0
-	LONG $0x00380f66; BYTE $0xc8           // pshufb    xmm1, xmm0
-	QUAD $0x000100248c7f0f66; BYTE $0x00   // movdqa    oword [rsp + 256], xmm1
-	WORD $0xc031                           // xor    eax, eax
-	LONG $0x247c894c; BYTE $0x78           // mov    qword [rsp + 120], r15
-	QUAD $0x010024846f0f4466; WORD $0x0000 // movdqa    xmm8, oword [rsp + 256]
-
-LBB11_67:
-	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
-	LONG $0x05e0c148                           // shl    rax, 5
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
-	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
-	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0x020cb60f                           // movzx    ecx, byte [rdx + rax]
-	LONG $0xf16e0f66                           // movd    xmm6, ecx
-	LONG $0x024cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rax + 1]
-	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
-	LONG $0x024cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rax + 2]
-	LONG $0xe96e0f66                           // movd    xmm5, ecx
-	LONG $0x024cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rax + 3]
-	LONG $0xe16e0f66                           // movd    xmm4, ecx
-	LONG $0x024cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rax + 4]
-	LONG $0xd96e0f66                           // movd    xmm3, ecx
-	LONG $0x024cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rax + 5]
-	LONG $0xf96e0f66                           // movd    xmm7, ecx
-	LONG $0x024cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rax + 6]
-	LONG $0xd16e0f66                           // movd    xmm2, ecx
-	LONG $0x024cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rax + 7]
-	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
-	LONG $0x024cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rax + 8]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
-	LONG $0x024cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rax + 9]
-	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
-	LONG $0x024cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rax + 10]
-	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
-	LONG $0x024cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rax + 11]
-	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
-	LONG $0x024cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rax + 12]
-	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
-	LONG $0x024cb60f; BYTE $0x0d               // movzx    ecx, byte [rdx + rax + 13]
-	LONG $0xc16e0f66                           // movd    xmm0, ecx
-	LONG $0x024cb60f; BYTE $0x0e               // movzx    ecx, byte [rdx + rax + 14]
-	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
-	LONG $0x024cb60f; BYTE $0x0f               // movzx    ecx, byte [rdx + rax + 15]
-	LONG $0xc96e0f66                           // movd    xmm1, ecx
-	QUAD $0x0000b0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm1
-	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
-	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
-	LONG $0x20cd8349                           // or    r13, 32
-	LONG $0x246c894c; BYTE $0x28               // mov    qword [rsp + 40], r13
-	LONG $0x40ce8349                           // or    r14, 64
-	LONG $0x60cb8348                           // or    rbx, 96
-	LONG $0x80cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 128
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	LONG $0xa0c98148; WORD $0x0000; BYTE $0x00 // or    rcx, 160
-	LONG $0x244c8948; BYTE $0x20               // mov    qword [rsp + 32], rcx
-	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
-	LONG $0xe0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 224
-	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
-	LONG $0x20c98149; WORD $0x0001; BYTE $0x00 // or    r9, 288
-	LONG $0x40ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 320
-	LONG $0x60ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 352
-	LONG $0x24748948; BYTE $0x58               // mov    qword [rsp + 88], rsi
-	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
-	LONG $0x80ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 384
-	LONG $0x24748948; BYTE $0x70               // mov    qword [rsp + 112], rsi
-	LONG $0xa0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 416
-	LONG $0x247c8948; BYTE $0x10               // mov    qword [rsp + 16], rdi
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0xc0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 448
-	LONG $0x247c8948; BYTE $0x18               // mov    qword [rsp + 24], rdi
-	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
-	LONG $0xe0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 480
-	LONG $0x247c8948; BYTE $0x08               // mov    qword [rsp + 8], rdi
-	QUAD $0x012a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r13], 1
-	QUAD $0x023234203a0f4266                   // pinsrb    xmm6, byte [rdx + r14], 2
-	LONG $0x245c8948; BYTE $0x68               // mov    qword [rsp + 104], rbx
-	LONG $0x203a0f66; WORD $0x1a34; BYTE $0x03 // pinsrb    xmm6, byte [rdx + rbx], 3
-	QUAD $0x043a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r15], 4
-	LONG $0x203a0f66; WORD $0x0a34; BYTE $0x05 // pinsrb    xmm6, byte [rdx + rcx], 5
-	QUAD $0x062234203a0f4266                   // pinsrb    xmm6, byte [rdx + r12], 6
-	LONG $0x2444894c; BYTE $0x38               // mov    qword [rsp + 56], r8
-	QUAD $0x070234203a0f4266                   // pinsrb    xmm6, byte [rdx + r8], 7
-	LONG $0x245c894c; BYTE $0x48               // mov    qword [rsp + 72], r11
-	QUAD $0x081a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r11], 8
-	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
-	LONG $0x244c894c; BYTE $0x60               // mov    qword [rsp + 96], r9
-	QUAD $0x090a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r9], 9
-	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
-	QUAD $0x0a1234203a0f4266                   // pinsrb    xmm6, byte [rdx + r10], 10
-	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
-	QUAD $0x0b1234203a0f4266                   // pinsrb    xmm6, byte [rdx + r10], 11
-	LONG $0x203a0f66; WORD $0x3234; BYTE $0x0c // pinsrb    xmm6, byte [rdx + rsi], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	LONG $0x203a0f66; WORD $0x0234; BYTE $0x0d // pinsrb    xmm6, byte [rdx + rax], 13
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x0e2a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r13], 14
-	LONG $0x203a0f66; WORD $0x3a34; BYTE $0x0f // pinsrb    xmm6, byte [rdx + rdi], 15
-	LONG $0xde0f4166; BYTE $0xf0               // pmaxub    xmm6, xmm8
-	LONG $0x740f4166; BYTE $0xf0               // pcmpeqb    xmm6, xmm8
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x013a7c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rdi + 1], 1
-	QUAD $0x01327c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r14 + 1], 2
-	QUAD $0x011a7c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rdx + rbx + 1], 3
-	QUAD $0x013a7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r15 + 1], 4
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x010a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rcx + 1], 5
-	QUAD $0x01227c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r12 + 1], 6
-	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
-	QUAD $0x01027c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r8 + 1], 7
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x012a7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r13 + 1], 8
-	QUAD $0x011a7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r11 + 1], 9
-	QUAD $0x010a7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r9 + 1], 10
-	LONG $0x244c894c; BYTE $0x40               // mov    qword [rsp + 64], r9
-	QUAD $0x01127c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r10 + 1], 11
-	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
-	QUAD $0x01327c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + rsi + 1], 12
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x01227c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + r12 + 1], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x01027c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rax + 1], 14
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x01027c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + rax + 1], 15
-	LONG $0xde0f4566; BYTE $0xf8               // pmaxub    xmm15, xmm8
-	LONG $0x740f4566; BYTE $0xf8               // pcmpeqb    xmm15, xmm8
-	QUAD $0x000001008d6f0f66                   // movdqa    xmm1, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xdb0f4466; BYTE $0xf9               // pand    xmm15, xmm1
-	LONG $0xf80f4466; BYTE $0xfe               // psubb    xmm15, xmm6
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x0274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rax + 16]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x01023a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 2], 1
-	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
-	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
-	QUAD $0x02326c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rdx + r14 + 2], 2
-	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
-	QUAD $0x02326c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r14 + 2], 3
-	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
-	QUAD $0x04021a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 2], 4
-	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
-	QUAD $0x0502026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 2], 5
-	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
-	QUAD $0x023a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r15 + 2], 6
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x0702326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 2], 7
-	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
-	QUAD $0x022a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r13 + 2], 8
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x023a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r15 + 2], 9
-	QUAD $0x020a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r9 + 2], 10
-	QUAD $0x0b020a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 2], 11
-	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
-	QUAD $0x0c020a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 2], 12
-	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
-	QUAD $0x02226c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r12 + 2], 13
-	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
-	QUAD $0x020a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r9 + 2], 14
-	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
-	QUAD $0x02226c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r12 + 2], 15
-	QUAD $0x01033a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 3], 1
-	QUAD $0x030264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r8 + 3], 2
-	QUAD $0x033264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r14 + 3], 3
-	QUAD $0x031264203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r10 + 3], 4
-	QUAD $0x05030264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 3], 5
-	QUAD $0x06031a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 3], 6
-	QUAD $0x07033264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 3], 7
-	QUAD $0x031a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r11 + 3], 8
-	QUAD $0x033a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r15 + 3], 9
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x031a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r11 + 3], 10
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x030264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r8 + 3], 11
-	QUAD $0x0c030a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 3], 12
-	QUAD $0x032a64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r13 + 3], 13
-	QUAD $0x030a64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r9 + 3], 14
-	QUAD $0x032264203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r12 + 3], 15
-	LONG $0xde0f4166; BYTE $0xe8               // pmaxub    xmm5, xmm8
-	LONG $0x740f4166; BYTE $0xe8               // pcmpeqb    xmm5, xmm8
-	QUAD $0x00000110b56f0f66                   // movdqa    xmm6, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0xeedb0f66                           // pand    xmm5, xmm6
-	LONG $0xde0f4166; BYTE $0xe0               // pmaxub    xmm4, xmm8
-	LONG $0x740f4166; BYTE $0xe0               // pcmpeqb    xmm4, xmm8
-	QUAD $0x00000120b56f0f66                   // movdqa    xmm6, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xe6db0f66                           // pand    xmm4, xmm6
-	LONG $0xe5eb0f66                           // por    xmm4, xmm5
-	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
-	LONG $0x0a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rcx + 17]
-	LONG $0xee6e0f66                           // movd    xmm5, esi
-	LONG $0xeb0f4166; BYTE $0xe7               // por    xmm4, xmm15
-	LONG $0x0a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rcx + 18]
-	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	QUAD $0x01043a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 4], 1
-	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
-	QUAD $0x042a5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r13 + 4], 2
-	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
-	QUAD $0x04225c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r12 + 4], 3
-	QUAD $0x000000902494894c                   // mov    qword [rsp + 144], r10
-	QUAD $0x04125c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r10 + 4], 4
-	QUAD $0x0504025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 4], 5
-	QUAD $0x06041a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 4], 6
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x07040a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 4], 7
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x08040a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 4], 8
-	QUAD $0x043a5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r15 + 4], 9
-	WORD $0x894c; BYTE $0xde                   // mov    rsi, r11
-	QUAD $0x041a5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r11 + 4], 10
-	QUAD $0x04025c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r8 + 4], 11
-	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
-	QUAD $0x040a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r9 + 4], 12
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0d040a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 4], 13
-	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
-	QUAD $0x0e043a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 4], 14
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x041a5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r11 + 4], 15
-	QUAD $0x05327c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rdx + r14 + 5], 1
-	QUAD $0x052a7c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rdx + r13 + 5], 2
-	QUAD $0x05227c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r12 + 5], 3
-	QUAD $0x05127c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r10 + 5], 4
-	QUAD $0x0505027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 5], 5
-	QUAD $0x06051a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 5], 6
-	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
-	QUAD $0x07050a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 5], 7
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x08050a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 5], 8
-	QUAD $0x053a7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r15 + 5], 9
-	QUAD $0x0a05327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 5], 10
-	QUAD $0x05027c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r8 + 5], 11
-	QUAD $0x050a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r9 + 5], 12
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0d050a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 5], 13
-	QUAD $0x0e053a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 5], 14
-	QUAD $0x051a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r11 + 5], 15
-	QUAD $0x063254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r14 + 6], 1
-	QUAD $0x062a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r13 + 6], 2
-	QUAD $0x062254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r12 + 6], 3
-	QUAD $0x061254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r10 + 6], 4
-	QUAD $0x05060254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 6], 5
-	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
-	QUAD $0x06061a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 6], 6
-	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
-	QUAD $0x000000a0249c8948                   // mov    qword [rsp + 160], rbx
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x07060254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 6], 7
-	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x08061a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 6], 8
-	QUAD $0x063a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r15 + 6], 9
-	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
-	QUAD $0x0a063254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 6], 10
-	QUAD $0x060254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r8 + 6], 11
-	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
-	QUAD $0x060a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 6], 12
-	QUAD $0x0d060a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 6], 13
-	QUAD $0x0e063a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 6], 14
-	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
-	QUAD $0x063a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r15 + 6], 15
-	LONG $0xde0f4166; BYTE $0xd8               // pmaxub    xmm3, xmm8
-	LONG $0x740f4166; BYTE $0xd8               // pcmpeqb    xmm3, xmm8
-	QUAD $0x00000130b56f0f66                   // movdqa    xmm6, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xdedb0f66                           // pand    xmm3, xmm6
-	LONG $0xde0f4166; BYTE $0xf8               // pmaxub    xmm7, xmm8
-	LONG $0x740f4166; BYTE $0xf8               // pcmpeqb    xmm7, xmm8
-	QUAD $0x00000140b56f0f66                   // movdqa    xmm6, oword 320[rbp] /* [rip + .LCPI11_20] */
-	LONG $0xfedb0f66                           // pand    xmm7, xmm6
-	LONG $0xfbeb0f66                           // por    xmm7, xmm3
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x0274b60f; BYTE $0x13               // movzx    esi, byte [rdx + rax + 19]
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0xde0f4166; BYTE $0xd0               // pmaxub    xmm2, xmm8
-	LONG $0x740f4166; BYTE $0xd0               // pcmpeqb    xmm2, xmm8
-	QUAD $0x00000150b56f0f66                   // movdqa    xmm6, oword 336[rbp] /* [rip + .LCPI11_21] */
-	LONG $0xd6db0f66                           // pand    xmm2, xmm6
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	LONG $0x0274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rax + 20]
-	LONG $0xf66e0f66                           // movd    xmm6, esi
-	LONG $0xd4eb0f66                           // por    xmm2, xmm4
-	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
-	LONG $0xe66e0f66                           // movd    xmm4, esi
-	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
-	QUAD $0x073a4c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rdi + 7], 1
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	QUAD $0x07024c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rax + 7], 2
-	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
-	QUAD $0x07024c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rdx + rax + 7], 3
-	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
-	QUAD $0x07024c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r8 + 7], 4
-	QUAD $0x07124c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r10 + 7], 5
-	QUAD $0x072a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r13 + 7], 6
-	QUAD $0x07324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 7], 7
-	QUAD $0x071a4c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rdx + rbx + 7], 8
-	QUAD $0x071a4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r11 + 7], 9
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
-	QUAD $0x071a4c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r11 + 7], 10
-	QUAD $0x07224c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r12 + 7], 11
-	QUAD $0x070a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r9 + 7], 12
-	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
-	QUAD $0x072a4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + r13 + 7], 13
-	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
-	QUAD $0x07224c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r12 + 7], 14
-	QUAD $0x073a4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r15 + 7], 15
-	LONG $0xde0f4566; BYTE $0xc8               // pmaxub    xmm9, xmm8
-	LONG $0x740f4566; BYTE $0xc8               // pcmpeqb    xmm9, xmm8
-	LONG $0x7d6f0f66; BYTE $0x60               // movdqa    xmm7, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xdb0f4466; BYTE $0xcf               // pand    xmm9, xmm7
-	LONG $0xeb0f4466; BYTE $0xca               // por    xmm9, xmm2
-	QUAD $0x00d0248c7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 208], xmm9
-	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
-	LONG $0x74b60f42; WORD $0x160a             // movzx    esi, byte [rdx + r9 + 22]
-	LONG $0xfe6e0f66                           // movd    xmm7, esi
-	QUAD $0x0000e024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 224]
-	QUAD $0x01083a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 8], 1
-	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
-	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
-	QUAD $0x02083a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 8], 2
-	QUAD $0x03080254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 8], 3
-	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
-	QUAD $0x080254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r8 + 8], 4
-	QUAD $0x081254203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r10 + 8], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x06080254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 8], 6
-	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
-	QUAD $0x07083254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 8], 7
-	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
-	QUAD $0x08081a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 8], 8
-	QUAD $0x09080a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 8], 9
-	QUAD $0x081a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r11 + 8], 10
-	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
-	QUAD $0x0b080a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 8], 11
-	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
-	QUAD $0x081a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r11 + 8], 12
-	WORD $0x894c; BYTE $0xee                   // mov    rsi, r13
-	QUAD $0x082a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r13 + 8], 13
-	QUAD $0x082254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r12 + 8], 14
-	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
-	QUAD $0x082a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r13 + 8], 15
-	LONG $0xde0f4166; BYTE $0xd0               // pmaxub    xmm2, xmm8
-	LONG $0x740f4166; BYTE $0xd0               // pcmpeqb    xmm2, xmm8
-	QUAD $0x093254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r14 + 9], 1
-	QUAD $0x093a54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rdi + 9], 2
-	QUAD $0x093a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r15 + 9], 3
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x090254203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r8 + 9], 4
-	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
-	QUAD $0x091254203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r10 + 9], 5
-	QUAD $0x090254203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rdx + rax + 9], 6
-	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
-	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
-	QUAD $0x090254203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rax + 9], 7
-	QUAD $0x091a54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rdx + rbx + 9], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x090254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rax + 9], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x090254203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rax + 9], 10
-	QUAD $0x090a54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rcx + 9], 11
-	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
-	QUAD $0x091a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r11 + 9], 12
-	QUAD $0x093254203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rsi + 9], 13
-	QUAD $0x092254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r12 + 9], 14
-	QUAD $0x092a54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r13 + 9], 15
-	LONG $0xde0f4566; BYTE $0xd0               // pmaxub    xmm10, xmm8
-	LONG $0x740f4566; BYTE $0xd0               // pcmpeqb    xmm10, xmm8
-	QUAD $0x00010095db0f4466; BYTE $0x00       // pand    xmm10, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xf80f4466; BYTE $0xd2               // psubb    xmm10, xmm2
-	LONG $0x74b60f42; WORD $0x170a             // movzx    esi, byte [rdx + r9 + 23]
-	LONG $0xd66e0f66                           // movd    xmm2, esi
-	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
-	QUAD $0x0a1a64203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r11 + 10], 1
-	QUAD $0x0a3a64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rdi + 10], 2
-	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
-	WORD $0x894c; BYTE $0xf6                   // mov    rsi, r14
-	QUAD $0x0a3264203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r14 + 10], 3
-	QUAD $0x0a3a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r15 + 10], 4
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x0a3264203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rdx + r14 + 10], 5
-	QUAD $0x0a0264203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r8 + 10], 6
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
-	QUAD $0x0a3a64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r15 + 10], 7
-	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
-	QUAD $0x0a2a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r13 + 10], 8
-	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
-	QUAD $0x0a3a64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rdi + 10], 9
-	QUAD $0x0a0264203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rax + 10], 10
-	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
-	QUAD $0x0a0264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r8 + 10], 11
-	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
-	QUAD $0x0a0a64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + rcx + 10], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0a0264203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rax + 10], 13
-	QUAD $0x0a2264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r12 + 10], 14
-	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
-	QUAD $0x0a0a64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rcx + 10], 15
-	QUAD $0x0b1a5c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r11 + 11], 1
-	QUAD $0x0b125c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rdx + r10 + 11], 2
-	QUAD $0x0b325c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rdx + rsi + 11], 3
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
-	QUAD $0x0b325c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rsi + 11], 4
-	QUAD $0x0b325c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r14 + 11], 5
-	QUAD $0x0b1a5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rdx + rbx + 11], 6
-	QUAD $0x0b3a5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r15 + 11], 7
-	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
-	QUAD $0x0b2a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r13 + 11], 8
-	QUAD $0x0b3a5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rdi + 11], 9
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0b1a5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rbx + 11], 10
-	QUAD $0x0b025c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r8 + 11], 11
-	QUAD $0x0b0a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r9 + 11], 12
-	QUAD $0x0b025c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rax + 11], 13
-	QUAD $0x0b225c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r12 + 11], 14
-	QUAD $0x0b0a5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rcx + 11], 15
-	LONG $0xde0f4566; BYTE $0xe0               // pmaxub    xmm12, xmm8
-	LONG $0x740f4566; BYTE $0xe0               // pcmpeqb    xmm12, xmm8
-	QUAD $0x000110a5db0f4466; BYTE $0x00       // pand    xmm12, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0xde0f4566; BYTE $0xd8               // pmaxub    xmm11, xmm8
-	LONG $0x740f4566; BYTE $0xd8               // pcmpeqb    xmm11, xmm8
-	QUAD $0x0001209ddb0f4466; BYTE $0x00       // pand    xmm11, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xeb0f4566; BYTE $0xdc               // por    xmm11, xmm12
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x0274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rax + 24]
-	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
-	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
-	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
-	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
-	QUAD $0x0c1a6c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r11 + 12], 1
-	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
-	QUAD $0x0c226c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rdx + r12 + 12], 2
-	WORD $0x894d; BYTE $0xd3                   // mov    r11, r10
-	QUAD $0x0c126c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r10 + 12], 3
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x0c3a6c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rdi + 12], 4
-	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
-	QUAD $0x0c3a6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rdx + r15 + 12], 5
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x0c126c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r10 + 12], 6
-	QUAD $0x0c326c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r14 + 12], 7
-	QUAD $0x0c2a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r13 + 12], 8
-	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
-	QUAD $0x0c0a6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rcx + 12], 9
-	QUAD $0x0c1a6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rbx + 12], 10
-	QUAD $0x0c026c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r8 + 12], 11
-	QUAD $0x0c0a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r9 + 12], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0c026c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + rax + 12], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0c026c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + rax + 12], 14
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0c326c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rsi + 12], 15
-	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
-	QUAD $0x010d0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 13], 1
-	QUAD $0x0d2244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r12 + 13], 2
-	QUAD $0x0d1a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r11 + 13], 3
-	QUAD $0x040d3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 13], 4
-	QUAD $0x0d3a44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r15 + 13], 5
-	QUAD $0x0d1244203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r10 + 13], 6
-	QUAD $0x0d3244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r14 + 13], 7
-	QUAD $0x0d2a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r13 + 13], 8
-	QUAD $0x090d0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 13], 9
-	QUAD $0x0a0d1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 13], 10
-	QUAD $0x0d0244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r8 + 13], 11
-	QUAD $0x0d0a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r9 + 13], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0d0d0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 13], 13
-	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
-	QUAD $0x0e0d0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 13], 14
-	QUAD $0x0f0d3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 13], 15
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x0e3274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rsi + 14], 1
-	QUAD $0x0e2274203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r12 + 14], 2
-	QUAD $0x0e1a74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r11 + 14], 3
-	QUAD $0x0e3a74203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rdx + rdi + 14], 4
-	QUAD $0x0e3a74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rdx + r15 + 14], 5
-	QUAD $0x0e1274203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r10 + 14], 6
-	QUAD $0x0e3274203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rdx + r14 + 14], 7
-	WORD $0x894d; BYTE $0xf7                   // mov    r15, r14
-	QUAD $0x0e2a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r13 + 14], 8
-	QUAD $0x0e0a74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rcx + 14], 9
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	QUAD $0x0e1a74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + rbx + 14], 10
-	QUAD $0x0e0274203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + r8 + 14], 11
-	QUAD $0x0e0a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r9 + 14], 12
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	QUAD $0x0e0a74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rcx + 14], 13
-	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
-	QUAD $0x0e2a74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r13 + 14], 14
-	QUAD $0x0e0274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rax + 14], 15
-	LONG $0xde0f4566; BYTE $0xe8               // pmaxub    xmm13, xmm8
-	LONG $0x740f4566; BYTE $0xe8               // pcmpeqb    xmm13, xmm8
-	QUAD $0x000130addb0f4466; BYTE $0x00       // pand    xmm13, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xde0f4166; BYTE $0xc0               // pmaxub    xmm0, xmm8
-	LONG $0x740f4166; BYTE $0xc0               // pcmpeqb    xmm0, xmm8
-	QUAD $0x0000014085db0f66                   // pand    xmm0, oword 320[rbp] /* [rip + .LCPI11_20] */
-	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
-	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
-	LONG $0x74b60f42; WORD $0x1a22             // movzx    esi, byte [rdx + r12 + 26]
-	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
-	LONG $0xde0f4566; BYTE $0xf0               // pmaxub    xmm14, xmm8
-	LONG $0x740f4566; BYTE $0xf0               // pcmpeqb    xmm14, xmm8
-	QUAD $0x000150b5db0f4466; BYTE $0x00       // pand    xmm14, oword 336[rbp] /* [rip + .LCPI11_21] */
-	LONG $0xeb0f4466; BYTE $0xf0               // por    xmm14, xmm0
-	LONG $0x74b60f42; WORD $0x1b22             // movzx    esi, byte [rdx + r12 + 27]
-	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
-	LONG $0xeb0f4566; BYTE $0xf3               // por    xmm14, xmm11
-	LONG $0x74b60f42; WORD $0x1c22             // movzx    esi, byte [rdx + r12 + 28]
-	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
-	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
-	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
-	QUAD $0x010f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 15], 1
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x020f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 15], 2
-	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
-	QUAD $0x030f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 15], 3
-	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
-	QUAD $0x0f0a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r9 + 15], 4
-	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
-	QUAD $0x0f1244203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r10 + 15], 5
-	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
-	QUAD $0x060f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 6
-	QUAD $0x0f3a44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r15 + 15], 7
-	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
-	QUAD $0x080f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 8
-	QUAD $0x0f3244203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r14 + 15], 9
-	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
-	QUAD $0x0a0f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 15], 10
-	QUAD $0x0f0244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r8 + 15], 11
-	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
-	QUAD $0x0f0244203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r8 + 15], 12
-	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
-	QUAD $0x0d0f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 15], 13
-	QUAD $0x0f2a44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r13 + 15], 14
-	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
-	QUAD $0x0f1a44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r11 + 15], 15
-	LONG $0xde0f4166; BYTE $0xc0               // pmaxub    xmm0, xmm8
-	LONG $0x740f4166; BYTE $0xc0               // pcmpeqb    xmm0, xmm8
-	LONG $0x45db0f66; BYTE $0x60               // pand    xmm0, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xeb0f4166; BYTE $0xc6               // por    xmm0, xmm14
-	QUAD $0x0000b024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm0
-	LONG $0x74b60f42; WORD $0x1d22             // movzx    esi, byte [rdx + r12 + 29]
-	LONG $0x6e0f4466; BYTE $0xf6               // movd    xmm14, esi
-	QUAD $0x01100a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 16], 1
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x0210324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 16], 2
-	WORD $0x8949; BYTE $0xf4                   // mov    r12, rsi
-	QUAD $0x03103a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 16], 3
-	QUAD $0x100a4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r9 + 16], 4
-	QUAD $0x10124c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rdx + r10 + 16], 5
-	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
-	QUAD $0x100a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r9 + 16], 6
-	QUAD $0x103a4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r15 + 16], 7
-	QUAD $0x0810024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 16], 8
-	QUAD $0x10324c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r14 + 16], 9
-	QUAD $0x0a101a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 16], 10
-	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
-	QUAD $0x10324c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r14 + 16], 11
-	QUAD $0x10024c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r8 + 16], 12
-	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x0d10024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 16], 13
-	QUAD $0x102a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r13 + 16], 14
-	WORD $0x894c; BYTE $0xde                   // mov    rsi, r11
-	QUAD $0x101a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r11 + 16], 15
-	LONG $0xde0f4166; BYTE $0xc8               // pmaxub    xmm1, xmm8
-	LONG $0x740f4166; BYTE $0xc8               // pcmpeqb    xmm1, xmm8
-	QUAD $0x01110a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 17], 1
-	QUAD $0x11226c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rdx + r12 + 17], 2
-	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
-	QUAD $0x03113a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 17], 3
-	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
-	QUAD $0x04113a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 17], 4
-	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
-	QUAD $0x05110a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 17], 5
-	QUAD $0x110a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r9 + 17], 6
-	QUAD $0x113a6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r15 + 17], 7
-	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
-	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
-	QUAD $0x08110a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 17], 8
-	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
-	QUAD $0x113a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r15 + 17], 9
-	QUAD $0x0a111a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 17], 10
-	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
-	QUAD $0x11326c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r14 + 17], 11
-	QUAD $0x11126c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r10 + 17], 12
-	WORD $0x894d; BYTE $0xd4                   // mov    r12, r10
-	QUAD $0x0d11026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 17], 13
-	QUAD $0x112a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r13 + 17], 14
-	QUAD $0x0f11326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 17], 15
-	LONG $0xde0f4166; BYTE $0xe8               // pmaxub    xmm5, xmm8
-	LONG $0x740f4166; BYTE $0xe8               // pcmpeqb    xmm5, xmm8
-	QUAD $0x00000100addb0f66                   // pand    xmm5, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
-	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
-	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
-	QUAD $0x12327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 18], 1
-	QUAD $0x0113325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 19], 1
-	QUAD $0x01143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 1
-	QUAD $0x01153264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 21], 1
-	QUAD $0x0116327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 22], 1
-	QUAD $0x01173254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 23], 1
-	QUAD $0x18324c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rsi + 24], 1
-	QUAD $0x193264203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rsi + 25], 1
-	QUAD $0x1a326c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rsi + 26], 1
-	QUAD $0x1b3254203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rsi + 27], 1
-	QUAD $0x1c325c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rsi + 28], 1
-	QUAD $0x1d3274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rsi + 29], 1
-	QUAD $0x011e324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 30], 1
-	LONG $0x0244b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rax + 31]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	QUAD $0x011f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 1
-	QUAD $0x121a7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r11 + 18], 2
-	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
-	QUAD $0x121a7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r11 + 18], 3
-	QUAD $0x123a7c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rdx + rdi + 18], 4
-	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
-	QUAD $0x12327c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rdx + r14 + 18], 5
-	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
-	QUAD $0x12127c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r10 + 18], 6
-	QUAD $0x120a7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r9 + 18], 7
-	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
-	QUAD $0x120a7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rdx + rcx + 18], 8
-	QUAD $0x123a7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r15 + 18], 9
-	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
-	QUAD $0x120a7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + rcx + 18], 10
-	QUAD $0x12027c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r8 + 18], 11
-	QUAD $0x12227c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r12 + 18], 12
-	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
-	QUAD $0x12027c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rax + 18], 13
-	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
-	QUAD $0x121a7c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rbx + 18], 14
-	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
-	QUAD $0x122a7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r13 + 18], 15
-	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
-	QUAD $0x02131a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 19], 2
-	QUAD $0x131a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r11 + 19], 3
-	QUAD $0x04133a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 19], 4
-	QUAD $0x13325c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r14 + 19], 5
-	QUAD $0x13125c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r10 + 19], 6
-	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
-	QUAD $0x130a5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r9 + 19], 7
-	QUAD $0x0813325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 19], 8
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	QUAD $0x133a5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r15 + 19], 9
-	QUAD $0x0a130a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 19], 10
-	QUAD $0x13025c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r8 + 19], 11
-	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
-	QUAD $0x13225c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r12 + 19], 12
-	QUAD $0x0d13025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 19], 13
-	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
-	QUAD $0x13025c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r8 + 19], 14
-	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
-	QUAD $0x0f13025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 19], 15
-	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
-	QUAD $0x02143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 2
-	QUAD $0x02153264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 21], 2
-	QUAD $0x0216327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 22], 2
-	QUAD $0x02173254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 23], 2
-	QUAD $0x18324c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rsi + 24], 2
-	QUAD $0x193264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rsi + 25], 2
-	QUAD $0x1a326c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rsi + 26], 2
-	QUAD $0x1b3254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rsi + 27], 2
-	QUAD $0x1c325c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rsi + 28], 2
-	QUAD $0x1d3274203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rdx + rsi + 29], 2
-	QUAD $0x021e324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 30], 2
-	LONG $0xde0f4566; BYTE $0xf8               // pmaxub    xmm15, xmm8
-	LONG $0x740f4566; BYTE $0xf8               // pcmpeqb    xmm15, xmm8
-	QUAD $0x000110bddb0f4466; BYTE $0x00       // pand    xmm15, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0xde0f4166; BYTE $0xd8               // pmaxub    xmm3, xmm8
-	LONG $0x740f4166; BYTE $0xd8               // pcmpeqb    xmm3, xmm8
-	QUAD $0x000001209ddb0f66                   // pand    xmm3, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xeb0f4166; BYTE $0xdf               // por    xmm3, xmm15
-	QUAD $0x021f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 2
-	LONG $0xddeb0f66                           // por    xmm3, xmm5
-	QUAD $0x141a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 20], 3
-	QUAD $0x04143a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 20], 4
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	QUAD $0x143274203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r14 + 20], 5
-	QUAD $0x142a74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r13 + 20], 6
-	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
-	QUAD $0x143274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r14 + 20], 7
-	QUAD $0x141274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r10 + 20], 8
-	QUAD $0x143a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r15 + 20], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x0a140274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 20], 10
-	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
-	QUAD $0x0b141a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 20], 11
-	QUAD $0x142274203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r12 + 20], 12
-	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
-	QUAD $0x142274203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rdx + r12 + 20], 13
-	QUAD $0x140274203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r8 + 20], 14
-	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
-	QUAD $0x0f143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 15
-	QUAD $0x151a64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r11 + 21], 3
-	QUAD $0x04153a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 21], 4
-	QUAD $0x150a64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r9 + 21], 5
-	QUAD $0x152a64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r13 + 21], 6
-	QUAD $0x153264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r14 + 21], 7
-	QUAD $0x151264203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r10 + 21], 8
-	QUAD $0x153a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r15 + 21], 9
-	QUAD $0x0a150264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 21], 10
-	QUAD $0x0b151a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 21], 11
-	QUAD $0x0c150a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 21], 12
-	QUAD $0x152264203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r12 + 21], 13
-	QUAD $0x150264203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r8 + 21], 14
-	QUAD $0x0f153264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 21], 15
-	QUAD $0x161a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r11 + 22], 3
-	QUAD $0x04163a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 22], 4
-	QUAD $0x160a7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r9 + 22], 5
-	QUAD $0x162a7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r13 + 22], 6
-	QUAD $0x16327c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r14 + 22], 7
-	QUAD $0x16127c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r10 + 22], 8
-	QUAD $0x163a7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r15 + 22], 9
-	QUAD $0x0a16027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 22], 10
-	QUAD $0x0b161a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 22], 11
-	QUAD $0x0c160a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 22], 12
-	QUAD $0x16227c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rdx + r12 + 22], 13
-	QUAD $0x16027c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r8 + 22], 14
-	QUAD $0x0f16327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 22], 15
-	LONG $0xde0f4166; BYTE $0xf0               // pmaxub    xmm6, xmm8
-	LONG $0x740f4166; BYTE $0xf0               // pcmpeqb    xmm6, xmm8
-	QUAD $0x00000130ad6f0f66                   // movdqa    xmm5, oword 304[rbp] /* [rip + .LCPI11_19] */
-	LONG $0xf5db0f66                           // pand    xmm6, xmm5
-	LONG $0xde0f4166; BYTE $0xe0               // pmaxub    xmm4, xmm8
-	LONG $0x740f4166; BYTE $0xe0               // pcmpeqb    xmm4, xmm8
-	QUAD $0x000140bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 320[rbp] /* [rip + .LCPI11_20] */
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	LONG $0xe6eb0f66                           // por    xmm4, xmm6
-	LONG $0xde0f4166; BYTE $0xf8               // pmaxub    xmm7, xmm8
-	LONG $0x740f4166; BYTE $0xf8               // pcmpeqb    xmm7, xmm8
-	QUAD $0x00000150b56f0f66                   // movdqa    xmm6, oword 336[rbp] /* [rip + .LCPI11_21] */
-	LONG $0xfedb0f66                           // pand    xmm7, xmm6
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	LONG $0xfbeb0f66                           // por    xmm7, xmm3
-	QUAD $0x171a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 23], 3
-	QUAD $0x04173a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 23], 4
-	QUAD $0x170a54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r9 + 23], 5
-	QUAD $0x172a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r13 + 23], 6
-	QUAD $0x173254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 23], 7
-	QUAD $0x171254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r10 + 23], 8
-	QUAD $0x173a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r15 + 23], 9
-	QUAD $0x0a170254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 23], 10
-	QUAD $0x0b171a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 23], 11
-	QUAD $0x0c170a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 23], 12
-	QUAD $0x172254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 23], 13
-	QUAD $0x170254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r8 + 23], 14
-	QUAD $0x0f173254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 23], 15
-	LONG $0xde0f4166; BYTE $0xd0               // pmaxub    xmm2, xmm8
-	LONG $0x740f4166; BYTE $0xd0               // pcmpeqb    xmm2, xmm8
-	LONG $0x5d6f0f66; BYTE $0x60               // movdqa    xmm3, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0xd3db0f66                           // pand    xmm2, xmm3
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0x181a4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r11 + 24], 3
-	QUAD $0x183a4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rdx + rdi + 24], 4
-	QUAD $0x180a4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r9 + 24], 5
-	QUAD $0x182a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r13 + 24], 6
-	QUAD $0x18324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 24], 7
-	QUAD $0x18124c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r10 + 24], 8
-	QUAD $0x183a4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r15 + 24], 9
-	QUAD $0x18024c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + rax + 24], 10
-	QUAD $0x181a4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + rbx + 24], 11
-	QUAD $0x180a4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + rcx + 24], 12
-	QUAD $0x18224c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + r12 + 24], 13
-	QUAD $0x18024c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r8 + 24], 14
-	QUAD $0x18324c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + rsi + 24], 15
-	LONG $0xde0f4566; BYTE $0xc8               // pmaxub    xmm9, xmm8
-	LONG $0x740f4566; BYTE $0xc8               // pcmpeqb    xmm9, xmm8
-	QUAD $0x191a64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r11 + 25], 3
-	QUAD $0x193a64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rdi + 25], 4
-	QUAD $0x190a64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rdx + r9 + 25], 5
-	QUAD $0x192a64203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r13 + 25], 6
-	QUAD $0x193264203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r14 + 25], 7
-	QUAD $0x191264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r10 + 25], 8
-	QUAD $0x193a64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r15 + 25], 9
-	QUAD $0x190264203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rax + 25], 10
-	QUAD $0x191a64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + rbx + 25], 11
-	QUAD $0x190a64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + rcx + 25], 12
-	QUAD $0x192264203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r12 + 25], 13
-	QUAD $0x190264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r8 + 25], 14
-	QUAD $0x193264203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rsi + 25], 15
-	LONG $0xde0f4566; BYTE $0xe0               // pmaxub    xmm12, xmm8
-	LONG $0x740f4566; BYTE $0xe0               // pcmpeqb    xmm12, xmm8
-	QUAD $0x000100a5db0f4466; BYTE $0x00       // pand    xmm12, oword 256[rbp] /* [rip + .LCPI11_16] */
-	LONG $0xf80f4566; BYTE $0xe1               // psubb    xmm12, xmm9
-	QUAD $0x1a1a6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r11 + 26], 3
-	QUAD $0x1a3a6c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rdi + 26], 4
-	QUAD $0x1a0a6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rdx + r9 + 26], 5
-	QUAD $0x1a2a6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r13 + 26], 6
-	QUAD $0x1a326c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r14 + 26], 7
-	QUAD $0x1a126c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r10 + 26], 8
-	QUAD $0x1a3a6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r15 + 26], 9
-	QUAD $0x1a026c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rax + 26], 10
-	QUAD $0x1a1a6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rbx + 26], 11
-	QUAD $0x1a0a6c203a0f4466; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + rcx + 26], 12
-	QUAD $0x1a226c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r12 + 26], 13
-	QUAD $0x1a026c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r8 + 26], 14
-	QUAD $0x1a326c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rsi + 26], 15
-	QUAD $0x1b1a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r11 + 27], 3
-	QUAD $0x1b3a54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rdx + rdi + 27], 4
-	QUAD $0x1b0a54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r9 + 27], 5
-	QUAD $0x1b2a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r13 + 27], 6
-	QUAD $0x1b3254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r14 + 27], 7
-	QUAD $0x1b1254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r10 + 27], 8
-	QUAD $0x1b3a54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rdx + r15 + 27], 9
-	QUAD $0x1b0254203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rax + 27], 10
-	QUAD $0x1b1a54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rbx + 27], 11
-	QUAD $0x1b0a54203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rcx + 27], 12
-	QUAD $0x1b2254203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r12 + 27], 13
-	QUAD $0x1b0254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r8 + 27], 14
-	QUAD $0x1b3254203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rsi + 27], 15
-	LONG $0xde0f4566; BYTE $0xe8               // pmaxub    xmm13, xmm8
-	LONG $0x740f4566; BYTE $0xe8               // pcmpeqb    xmm13, xmm8
-	QUAD $0x000110addb0f4466; BYTE $0x00       // pand    xmm13, oword 272[rbp] /* [rip + .LCPI11_17] */
-	LONG $0xde0f4566; BYTE $0xd0               // pmaxub    xmm10, xmm8
-	LONG $0x740f4566; BYTE $0xd0               // pcmpeqb    xmm10, xmm8
-	QUAD $0x00012095db0f4466; BYTE $0x00       // pand    xmm10, oword 288[rbp] /* [rip + .LCPI11_18] */
-	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
-	LONG $0xeb0f4566; BYTE $0xd4               // por    xmm10, xmm12
-	QUAD $0x1c1a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r11 + 28], 3
-	QUAD $0x1d1a74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r11 + 29], 3
-	QUAD $0x1e1a4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r11 + 30], 3
-	QUAD $0x1f1a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r11 + 31], 3
-	QUAD $0x1c3a5c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rdi + 28], 4
-	QUAD $0x1d3a74203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rdx + rdi + 29], 4
-	QUAD $0x041e3a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 30], 4
-	QUAD $0x041f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 31], 4
-	QUAD $0x1c0a5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r9 + 28], 5
-	QUAD $0x1d0a74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rdx + r9 + 29], 5
-	QUAD $0x1e0a4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rdx + r9 + 30], 5
-	QUAD $0x1f0a44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r9 + 31], 5
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x1c2a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r13 + 28], 6
-	QUAD $0x1d2a74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r13 + 29], 6
-	QUAD $0x1e2a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r13 + 30], 6
-	QUAD $0x1f2a44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r13 + 31], 6
-	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
-	QUAD $0x1c325c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r14 + 28], 7
-	QUAD $0x1d3274203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rdx + r14 + 29], 7
-	QUAD $0x1e324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 30], 7
-	QUAD $0x1f3244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r14 + 31], 7
-	QUAD $0x1c125c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r10 + 28], 8
-	QUAD $0x1d1274203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r10 + 29], 8
-	QUAD $0x1e124c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r10 + 30], 8
-	QUAD $0x1f1244203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r10 + 31], 8
-	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
-	QUAD $0x1c025c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rax + 28], 9
-	QUAD $0x1d0274203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rax + 29], 9
-	QUAD $0x091e024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 30], 9
-	QUAD $0x091f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 31], 9
-	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
-	QUAD $0x1c025c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rax + 28], 10
-	QUAD $0x1d0274203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + rax + 29], 10
-	QUAD $0x0a1e024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 30], 10
-	QUAD $0x0a1f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 31], 10
-	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
-	QUAD $0x1c1a5c203a0f4466; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + rbx + 28], 11
-	QUAD $0x1d1a74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + rbx + 29], 11
-	QUAD $0x0b1e1a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 30], 11
-	QUAD $0x0b1f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 31], 11
-	QUAD $0x1c0a5c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + rcx + 28], 12
-	QUAD $0x1d0a74203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + rcx + 29], 12
-	QUAD $0x0c1e0a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 30], 12
-	QUAD $0x0c1f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 31], 12
-	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
-	QUAD $0x1c225c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r12 + 28], 13
-	QUAD $0x1d2274203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + r12 + 29], 13
-	QUAD $0x1e224c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r12 + 30], 13
-	QUAD $0x1f2244203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rdx + r12 + 31], 13
-	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
-	QUAD $0x1c025c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r8 + 28], 14
-	QUAD $0x1d0274203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r8 + 29], 14
-	QUAD $0x1e024c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r8 + 30], 14
-	QUAD $0x1f0244203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r8 + 31], 14
-	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
-	QUAD $0x1c325c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rsi + 28], 15
-	QUAD $0x1d3274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rsi + 29], 15
-	QUAD $0x0f1e324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 30], 15
-	QUAD $0x0f1f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 15
-	LONG $0xde0f4566; BYTE $0xd8               // pmaxub    xmm11, xmm8
-	LONG $0x740f4566; BYTE $0xd8               // pcmpeqb    xmm11, xmm8
-	LONG $0xdb0f4466; BYTE $0xdd               // pand    xmm11, xmm5
-	LONG $0xde0f4566; BYTE $0xf0               // pmaxub    xmm14, xmm8
-	LONG $0x740f4566; BYTE $0xf0               // pcmpeqb    xmm14, xmm8
-	LONG $0xdb0f4566; BYTE $0xf7               // pand    xmm14, xmm15
-	LONG $0xeb0f4566; BYTE $0xf3               // por    xmm14, xmm11
-	LONG $0xde0f4166; BYTE $0xc8               // pmaxub    xmm1, xmm8
-	LONG $0x740f4166; BYTE $0xc8               // pcmpeqb    xmm1, xmm8
-	LONG $0xcedb0f66                           // pand    xmm1, xmm6
-	LONG $0xeb0f4166; BYTE $0xce               // por    xmm1, xmm14
-	LONG $0xeb0f4166; BYTE $0xca               // por    xmm1, xmm10
-	LONG $0xde0f4166; BYTE $0xc0               // pmaxub    xmm0, xmm8
-	LONG $0x740f4166; BYTE $0xc0               // pcmpeqb    xmm0, xmm8
-	LONG $0xc3db0f66                           // pand    xmm0, xmm3
-	LONG $0xc1eb0f66                           // por    xmm0, xmm1
-	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
-	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
-	QUAD $0x0000d024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 208]
-	LONG $0xdd6f0f66                           // movdqa    xmm3, xmm5
-	QUAD $0x0000b024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 176]
-	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
-	LONG $0xe36f0f66                           // movdqa    xmm4, xmm3
-	LONG $0xe1610f66                           // punpcklwd    xmm4, xmm1
-	LONG $0xd9690f66                           // punpckhwd    xmm3, xmm1
-	LONG $0xd0680f66                           // punpckhbw    xmm2, xmm0
-	LONG $0xee680f66                           // punpckhbw    xmm5, xmm6
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
-	LONG $0xea690f66                           // punpckhwd    xmm5, xmm2
-	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
-	LONG $0x7f0f41f3; WORD $0x8f6c; BYTE $0x30 // movdqu    oword [r15 + 4*rcx + 48], xmm5
-	LONG $0x7f0f41f3; WORD $0x8f44; BYTE $0x20 // movdqu    oword [r15 + 4*rcx + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x8f5c; BYTE $0x10 // movdqu    oword [r15 + 4*rcx + 16], xmm3
-	LONG $0x7f0f41f3; WORD $0x8f24             // movdqu    oword [r15 + 4*rcx], xmm4
-	LONG $0x10c18348                           // add    rcx, 16
-	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
-	QUAD $0x000000c0248c3b48                   // cmp    rcx, qword [rsp + 192]
-	JNE  LBB11_67
-	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
-	QUAD $0x000000c024943b4c                   // cmp    r10, qword [rsp + 192]
-	LONG $0x24348a44                           // mov    r14b, byte [rsp]
-	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
-	QUAD $0x0000011824948b48                   // mov    rdx, qword [rsp + 280]
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	JNE  LBB11_69
-	JMP  LBB11_72
-
-LBB11_124:
-	LONG $0xf8e28349               // and    r10, -8
-	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
-	LONG $0x06e0c148               // shl    rax, 6
-	WORD $0x0148; BYTE $0xd0       // add    rax, rdx
-	LONG $0x24448948; BYTE $0x30   // mov    qword [rsp + 48], rax
-	LONG $0x2454894c; BYTE $0x20   // mov    qword [rsp + 32], r10
-	LONG $0x97048d4b               // lea    rax, [r15 + 4*r10]
-	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
-	LONG $0x6e0f4166; BYTE $0xc6   // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
-	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
-	WORD $0x3145; BYTE $0xf6       // xor    r14d, r14d
-	LONG $0x247c894c; BYTE $0x78   // mov    qword [rsp + 120], r15
-	LONG $0xef0f4566; BYTE $0xff   // pxor    xmm15, xmm15
-
-LBB11_125:
-	LONG $0x2474894c; BYTE $0x10               // mov    qword [rsp + 16], r14
-	LONG $0x06e6c149                           // shl    r14, 6
-	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
-	WORD $0x894d; BYTE $0xf7                   // mov    r15, r14
-	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
-	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
-	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
-	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
-	LONG $0x04b70f42; BYTE $0x32               // movzx    eax, word [rdx + r14]
-	LONG $0xe86e0f66                           // movd    xmm5, eax
-	LONG $0x44b70f42; WORD $0x0232             // movzx    eax, word [rdx + r14 + 2]
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44b70f42; WORD $0x0432             // movzx    eax, word [rdx + r14 + 4]
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x44b70f42; WORD $0x0632             // movzx    eax, word [rdx + r14 + 6]
-	LONG $0xf86e0f66                           // movd    xmm7, eax
-	LONG $0x44b70f42; WORD $0x0832             // movzx    eax, word [rdx + r14 + 8]
-	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
-	LONG $0x44b70f42; WORD $0x0a32             // movzx    eax, word [rdx + r14 + 10]
-	LONG $0xe06e0f66                           // movd    xmm4, eax
-	LONG $0x44b70f42; WORD $0x0c32             // movzx    eax, word [rdx + r14 + 12]
-	LONG $0x74b70f42; WORD $0x0e32             // movzx    esi, word [rdx + r14 + 14]
-	LONG $0x4cb70f42; WORD $0x1032             // movzx    ecx, word [rdx + r14 + 16]
-	LONG $0x18244c89                           // mov    dword [rsp + 24], ecx
-	LONG $0x54b70f46; WORD $0x1232             // movzx    r10d, word [rdx + r14 + 18]
-	LONG $0x5cb70f46; WORD $0x1432             // movzx    r11d, word [rdx + r14 + 20]
-	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
-	LONG $0x40c98348                           // or    rcx, 64
-	LONG $0x80cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 128
-	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
-	LONG $0x00cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 256
-	LONG $0x40cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 320
-	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
-	LONG $0x2cc40f66; WORD $0x010a             // pinsrw    xmm5, word [rdx + rcx], 1
-	LONG $0x2cc40f66; WORD $0x023a             // pinsrw    xmm5, word [rdx + rdi], 2
-	LONG $0xc40f4266; WORD $0x3a2c; BYTE $0x03 // pinsrw    xmm5, word [rdx + r15], 3
-	LONG $0xc40f4266; WORD $0x222c; BYTE $0x04 // pinsrw    xmm5, word [rdx + r12], 4
-	LONG $0xc40f4266; WORD $0x2a2c; BYTE $0x05 // pinsrw    xmm5, word [rdx + r13], 5
-	LONG $0x2cc40f66; WORD $0x061a             // pinsrw    xmm5, word [rdx + rbx], 6
-	LONG $0x44c40f66; WORD $0x020a; BYTE $0x01 // pinsrw    xmm0, word [rdx + rcx + 2], 1
-	LONG $0x44c40f66; WORD $0x023a; BYTE $0x02 // pinsrw    xmm0, word [rdx + rdi + 2], 2
-	QUAD $0x03023a44c40f4266                   // pinsrw    xmm0, word [rdx + r15 + 2], 3
-	QUAD $0x04022244c40f4266                   // pinsrw    xmm0, word [rdx + r12 + 2], 4
-	QUAD $0x05022a44c40f4266                   // pinsrw    xmm0, word [rdx + r13 + 2], 5
-	LONG $0x44c40f66; WORD $0x021a; BYTE $0x06 // pinsrw    xmm0, word [rdx + rbx + 2], 6
-	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
-	QUAD $0x07020a44c40f4266                   // pinsrw    xmm0, word [rdx + r9 + 2], 7
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x44b70f42; WORD $0x1632             // movzx    eax, word [rdx + r14 + 22]
-	LONG $0x08244489                           // mov    dword [rsp + 8], eax
-	LONG $0x650f4166; BYTE $0xc3               // pcmpgtw    xmm0, xmm11
-	LONG $0x4cc40f66; WORD $0x040a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 4], 1
-	LONG $0x4cc40f66; WORD $0x043a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 4], 2
-	QUAD $0x03043a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 4], 3
-	QUAD $0x0404224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 4], 4
-	QUAD $0x05042a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 4], 5
-	LONG $0x4cc40f66; WORD $0x041a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 4], 6
-	QUAD $0x07040a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 4], 7
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	QUAD $0x0000808d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 128[rbp] /* [rip + .LCPI11_8] */
-	LONG $0x6f0f4166; BYTE $0xd9               // movdqa    xmm3, xmm9
-	LONG $0x380f4166; WORD $0xdf10             // pblendvb    xmm3, xmm15, xmm0
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x00000090856f0f66                   // movdqa    xmm0, oword 144[rbp] /* [rip + .LCPI11_9] */
-	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
-	LONG $0x6f0f4466; BYTE $0xf0               // movdqa    xmm14, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x44b70f46; WORD $0x1832             // movzx    r8d, word [rdx + r14 + 24]
-	LONG $0xc40f4266; WORD $0x0a2c; BYTE $0x07 // pinsrw    xmm5, word [rdx + r9], 7
-	LONG $0x650f4166; BYTE $0xeb               // pcmpgtw    xmm5, xmm11
-	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
-	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x7cc40f66; WORD $0x060a; BYTE $0x01 // pinsrw    xmm7, word [rdx + rcx + 6], 1
-	LONG $0x7cc40f66; WORD $0x063a; BYTE $0x02 // pinsrw    xmm7, word [rdx + rdi + 6], 2
-	QUAD $0x03063a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 6], 3
-	QUAD $0x0406227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 6], 4
-	QUAD $0x05062a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 6], 5
-	LONG $0x7cc40f66; WORD $0x061a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rbx + 6], 6
-	QUAD $0x07060a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 6], 7
-	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x01080a44c40f4466                   // pinsrw    xmm8, word [rdx + rcx + 8], 1
-	QUAD $0x02083a44c40f4466                   // pinsrw    xmm8, word [rdx + rdi + 8], 2
-	QUAD $0x03083a44c40f4666                   // pinsrw    xmm8, word [rdx + r15 + 8], 3
-	QUAD $0x04082244c40f4666                   // pinsrw    xmm8, word [rdx + r12 + 8], 4
-	QUAD $0x05082a44c40f4666                   // pinsrw    xmm8, word [rdx + r13 + 8], 5
-	QUAD $0x06081a44c40f4466                   // pinsrw    xmm8, word [rdx + rbx + 8], 6
-	QUAD $0x07080a44c40f4666                   // pinsrw    xmm8, word [rdx + r9 + 8], 7
-	LONG $0xddf80f66                           // psubb    xmm3, xmm5
-	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI11_10] */
-	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
-	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
-	LONG $0x7c6e0f66; WORD $0x1824             // movd    xmm7, dword [rsp + 24]
-	LONG $0x44b70f42; WORD $0x1a32             // movzx    eax, word [rdx + r14 + 26]
-	LONG $0x650f4566; BYTE $0xc3               // pcmpgtw    xmm8, xmm11
-	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
-	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
-	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI11_11] */
-	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
-	LONG $0x54b70f46; WORD $0x1c32             // movzx    r10d, word [rdx + r14 + 28]
-	LONG $0x64c40f66; WORD $0x0a0a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 10], 1
-	LONG $0x64c40f66; WORD $0x0a3a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 10], 2
-	QUAD $0x030a3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 10], 3
-	QUAD $0x040a2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 10], 4
-	QUAD $0x050a2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 10], 5
-	LONG $0x64c40f66; WORD $0x0a1a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 10], 6
-	QUAD $0x070a0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 10], 7
-	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0x54c40f66; WORD $0x0c0a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 12], 1
-	LONG $0x54c40f66; WORD $0x0c3a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 12], 2
-	QUAD $0x030c3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 12], 3
-	QUAD $0x040c2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 12], 4
-	QUAD $0x050c2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 12], 5
-	LONG $0x54c40f66; WORD $0x0c1a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 12], 6
-	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI11_12] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x74b70f42; WORD $0x1e32             // movzx    esi, word [rdx + r14 + 30]
-	LONG $0x28247489                           // mov    dword [rsp + 40], esi
-	QUAD $0x070c0a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 12], 7
-	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI11_13] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x5c6e0f66; WORD $0x0824             // movd    xmm3, dword [rsp + 8]
-	LONG $0x74b70f42; WORD $0x2032             // movzx    esi, word [rdx + r14 + 32]
-	LONG $0x18247489                           // mov    dword [rsp + 24], esi
-	LONG $0x4cc40f66; WORD $0x0e0a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 14], 1
-	LONG $0x4cc40f66; WORD $0x0e3a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 14], 2
-	QUAD $0x030e3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 14], 3
-	QUAD $0x040e224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 14], 4
-	QUAD $0x050e2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 14], 5
-	LONG $0x4cc40f66; WORD $0x0e1a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 14], 6
-	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
-	LONG $0x6e0f4166; BYTE $0xd0               // movd    xmm2, r8d
-	LONG $0x74b70f42; WORD $0x2232             // movzx    esi, word [rdx + r14 + 34]
-	LONG $0x08247489                           // mov    dword [rsp + 8], esi
-	QUAD $0x070e0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 14], 7
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	LONG $0x74c40f66; WORD $0x120a; BYTE $0x01 // pinsrw    xmm6, word [rdx + rcx + 18], 1
-	LONG $0x74c40f66; WORD $0x123a; BYTE $0x02 // pinsrw    xmm6, word [rdx + rdi + 18], 2
-	QUAD $0x03123a74c40f4266                   // pinsrw    xmm6, word [rdx + r15 + 18], 3
-	QUAD $0x04122274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 18], 4
-	QUAD $0x05122a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 18], 5
-	LONG $0x74c40f66; WORD $0x121a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rbx + 18], 6
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	QUAD $0x07120a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 18], 7
-	LONG $0x650f4166; BYTE $0xf3               // pcmpgtw    xmm6, xmm11
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
-	QUAD $0x0000e0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 224[rbp] /* [rip + .LCPI11_14] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
-	LONG $0x6f0f4566; BYTE $0xc1               // movdqa    xmm8, xmm9
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x5cb70f46; WORD $0x2432             // movzx    r11d, word [rdx + r14 + 36]
-	LONG $0x7cc40f66; WORD $0x100a; BYTE $0x01 // pinsrw    xmm7, word [rdx + rcx + 16], 1
-	LONG $0x7cc40f66; WORD $0x103a; BYTE $0x02 // pinsrw    xmm7, word [rdx + rdi + 16], 2
-	QUAD $0x03103a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 16], 3
-	QUAD $0x0410227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 16], 4
-	QUAD $0x05102a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 16], 5
-	LONG $0x7cc40f66; WORD $0x101a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rbx + 16], 6
-	LONG $0x64c40f66; WORD $0x140a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 20], 1
-	LONG $0x64c40f66; WORD $0x143a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 20], 2
-	QUAD $0x03143a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 20], 3
-	QUAD $0x04142264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 20], 4
-	QUAD $0x05142a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 20], 5
-	LONG $0x64c40f66; WORD $0x141a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 20], 6
-	QUAD $0x07140a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 20], 7
-	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
-	LONG $0x6f0f4166; BYTE $0xee               // movdqa    xmm5, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe2               // movd    xmm4, r10d
-	LONG $0x74b70f42; WORD $0x2632             // movzx    esi, word [rdx + r14 + 38]
-	QUAD $0x07100a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 16], 7
-	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI11_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x5cc40f66; WORD $0x160a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 22], 1
-	LONG $0x5cc40f66; WORD $0x163a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 22], 2
-	QUAD $0x03163a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 22], 3
-	QUAD $0x0416225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 22], 4
-	QUAD $0x05162a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 22], 5
-	LONG $0x5cc40f66; WORD $0x161a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 22], 6
-	QUAD $0x07160a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 22], 7
-	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x54c40f66; WORD $0x180a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 24], 1
-	LONG $0x54c40f66; WORD $0x183a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 24], 2
-	QUAD $0x03183a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 24], 3
-	QUAD $0x04182254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 24], 4
-	QUAD $0x05182a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 24], 5
-	LONG $0x54c40f66; WORD $0x181a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 24], 6
-	QUAD $0x07180a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 24], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI11_10] */
-	LONG $0x6f0f4566; BYTE $0xf2               // movdqa    xmm14, xmm10
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
-	LONG $0x5c6e0f66; WORD $0x2824             // movd    xmm3, dword [rsp + 40]
-	LONG $0x44b70f42; WORD $0x2832             // movzx    eax, word [rdx + r14 + 40]
-	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4466; BYTE $0xf5               // por    xmm14, xmm5
-	QUAD $0x0000b08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 176[rbp] /* [rip + .LCPI11_11] */
-	LONG $0x6f0f4566; BYTE $0xe9               // movdqa    xmm13, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	LONG $0x7c6e0f66; WORD $0x1824             // movd    xmm7, dword [rsp + 24]
-	LONG $0x54b70f46; WORD $0x2a32             // movzx    r10d, word [rdx + r14 + 42]
-	LONG $0x4cc40f66; WORD $0x1a0a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 26], 1
-	LONG $0x4cc40f66; WORD $0x1a3a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 26], 2
-	QUAD $0x031a3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 26], 3
-	QUAD $0x041a224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 26], 4
-	QUAD $0x051a2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 26], 5
-	LONG $0x4cc40f66; WORD $0x1a1a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 26], 6
-	QUAD $0x071a0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 26], 7
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x64c40f66; WORD $0x1c0a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 28], 1
-	LONG $0x64c40f66; WORD $0x1c3a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 28], 2
-	QUAD $0x031c3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 28], 3
-	QUAD $0x041c2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 28], 4
-	QUAD $0x051c2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 28], 5
-	LONG $0x64c40f66; WORD $0x1c1a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 28], 6
-	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
-	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI11_12] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x546e0f66; WORD $0x0824             // movd    xmm2, dword [rsp + 8]
-	LONG $0x44b70f46; WORD $0x2c32             // movzx    r8d, word [rdx + r14 + 44]
-	QUAD $0x071c0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 28], 7
-	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
-	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI11_13] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x5cb70f46; WORD $0x2e32             // movzx    r11d, word [rdx + r14 + 46]
-	LONG $0x5cc40f66; WORD $0x1e0a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 30], 1
-	LONG $0x5cc40f66; WORD $0x1e3a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 30], 2
-	QUAD $0x031e3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 30], 3
-	QUAD $0x041e225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 30], 4
-	QUAD $0x051e2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 30], 5
-	LONG $0x5cc40f66; WORD $0x1e1a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 30], 6
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x74b70f42; WORD $0x3032             // movzx    esi, word [rdx + r14 + 48]
-	LONG $0x08247489                           // mov    dword [rsp + 8], esi
-	QUAD $0x071e0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 30], 7
-	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
-	LONG $0x54c40f66; WORD $0x220a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 34], 1
-	LONG $0x54c40f66; WORD $0x223a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 34], 2
-	QUAD $0x03223a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 34], 3
-	QUAD $0x04222254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 34], 4
-	QUAD $0x05222a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 34], 5
-	LONG $0x54c40f66; WORD $0x221a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 34], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07220a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 34], 7
-	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
-	QUAD $0x0000e0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 224[rbp] /* [rip + .LCPI11_14] */
-	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
-	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI11_8] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0xd06e0f66                           // movd    xmm2, eax
-	LONG $0x74b70f42; WORD $0x3232             // movzx    esi, word [rdx + r14 + 50]
-	LONG $0x7cc40f66; WORD $0x200a; BYTE $0x01 // pinsrw    xmm7, word [rdx + rcx + 32], 1
-	LONG $0x7cc40f66; WORD $0x203a; BYTE $0x02 // pinsrw    xmm7, word [rdx + rdi + 32], 2
-	QUAD $0x03203a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 32], 3
-	QUAD $0x0420227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 32], 4
-	QUAD $0x05202a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 32], 5
-	LONG $0x7cc40f66; WORD $0x201a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rbx + 32], 6
-	LONG $0x64c40f66; WORD $0x240a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 36], 1
-	LONG $0x64c40f66; WORD $0x243a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 36], 2
-	QUAD $0x03243a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 36], 3
-	QUAD $0x04242264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 36], 4
-	QUAD $0x05242a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 36], 5
-	LONG $0x64c40f66; WORD $0x241a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 36], 6
-	QUAD $0x07240a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 36], 7
-	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
-	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI11_9] */
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
-	LONG $0x54b70f46; WORD $0x3432             // movzx    r10d, word [rdx + r14 + 52]
-	QUAD $0x07200a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 32], 7
-	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI11_22] */
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x4cc40f66; WORD $0x260a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 38], 1
-	LONG $0x4cc40f66; WORD $0x263a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 38], 2
-	QUAD $0x03263a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 38], 3
-	QUAD $0x0426224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 38], 4
-	QUAD $0x05262a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 38], 5
-	LONG $0x4cc40f66; WORD $0x261a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 38], 6
-	QUAD $0x07260a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 38], 7
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x54c40f66; WORD $0x280a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 40], 1
-	LONG $0x54c40f66; WORD $0x283a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 40], 2
-	QUAD $0x03283a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 40], 3
-	QUAD $0x04282254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 40], 4
-	QUAD $0x05282a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 40], 5
-	LONG $0x54c40f66; WORD $0x281a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 40], 6
-	QUAD $0x07280a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 40], 7
-	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
-	LONG $0x6f0f4166; BYTE $0xea               // movdqa    xmm5, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
-	LONG $0x44b70f46; WORD $0x3632             // movzx    r8d, word [rdx + r14 + 54]
-	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x6f0f4166; BYTE $0xf1               // movdqa    xmm6, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
-	LONG $0x44b70f42; WORD $0x3832             // movzx    eax, word [rdx + r14 + 56]
-	LONG $0x5cc40f66; WORD $0x2a0a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 42], 1
-	LONG $0x5cc40f66; WORD $0x2a3a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 42], 2
-	QUAD $0x032a3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 42], 3
-	QUAD $0x042a225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 42], 4
-	QUAD $0x052a2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 42], 5
-	LONG $0x5cc40f66; WORD $0x2a1a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 42], 6
-	QUAD $0x072a0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 42], 7
-	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0x4cc40f66; WORD $0x2c0a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 44], 1
-	LONG $0x4cc40f66; WORD $0x2c3a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 44], 2
-	QUAD $0x032c3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 44], 3
-	QUAD $0x042c224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 44], 4
-	QUAD $0x052c2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 44], 5
-	LONG $0x4cc40f66; WORD $0x2c1a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 44], 6
-	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
-	QUAD $0x0000c08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 192[rbp] /* [rip + .LCPI11_12] */
-	LONG $0x6f0f4166; BYTE $0xd1               // movdqa    xmm2, xmm9
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xd710             // pblendvb    xmm2, xmm15, xmm0
-	LONG $0x7c6e0f66; WORD $0x0824             // movd    xmm7, dword [rsp + 8]
-	LONG $0x5cb70f46; WORD $0x3a32             // movzx    r11d, word [rdx + r14 + 58]
-	QUAD $0x072c0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 44], 7
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0x0000d0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 208[rbp] /* [rip + .LCPI11_13] */
-	LONG $0x6f0f4166; BYTE $0xf2               // movdqa    xmm6, xmm10
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0xce6e0f66                           // movd    xmm1, esi
-	LONG $0x74b70f42; WORD $0x3c32             // movzx    esi, word [rdx + r14 + 60]
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
-	LONG $0x64c40f66; WORD $0x2e0a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 46], 1
-	LONG $0x64c40f66; WORD $0x2e3a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 46], 2
-	QUAD $0x032e3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 46], 3
-	QUAD $0x042e2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 46], 4
-	QUAD $0x052e2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 46], 5
-	LONG $0x64c40f66; WORD $0x2e1a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 46], 6
-	QUAD $0x072e0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 46], 7
-	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xd8               // movd    xmm3, r8d
-	LONG $0x4cc40f66; WORD $0x320a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 50], 1
-	LONG $0x4cc40f66; WORD $0x323a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 50], 2
-	QUAD $0x03323a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 50], 3
-	QUAD $0x0432224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 50], 4
-	QUAD $0x05322a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 50], 5
-	LONG $0x4cc40f66; WORD $0x321a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 50], 6
-	QUAD $0x07320a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 50], 7
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
-	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI11_8] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
-	LONG $0xc86e0f66                           // movd    xmm1, eax
-	LONG $0x7cc40f66; WORD $0x300a; BYTE $0x01 // pinsrw    xmm7, word [rdx + rcx + 48], 1
-	LONG $0x7cc40f66; WORD $0x303a; BYTE $0x02 // pinsrw    xmm7, word [rdx + rdi + 48], 2
-	QUAD $0x03303a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 48], 3
-	QUAD $0x0430227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 48], 4
-	QUAD $0x05302a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 48], 5
-	LONG $0x7cc40f66; WORD $0x301a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rbx + 48], 6
-	QUAD $0x07300a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 48], 7
-	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
-	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI11_22] */
-	LONG $0x54c40f66; WORD $0x340a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 52], 1
-	LONG $0x54c40f66; WORD $0x343a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 52], 2
-	QUAD $0x03343a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 52], 3
-	QUAD $0x04342254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 52], 4
-	QUAD $0x05342a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 52], 5
-	LONG $0x54c40f66; WORD $0x341a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 52], 6
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	QUAD $0x07340a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 52], 7
-	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
-	LONG $0x5cc40f66; WORD $0x360a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 54], 1
-	LONG $0x5cc40f66; WORD $0x363a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 54], 2
-	QUAD $0x03363a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 54], 3
-	QUAD $0x0436225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 54], 4
-	QUAD $0x05362a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 54], 5
-	LONG $0x5cc40f66; WORD $0x361a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 54], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x07360a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 54], 7
-	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
-	LONG $0x4cc40f66; WORD $0x380a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 56], 1
-	LONG $0x4cc40f66; WORD $0x383a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 56], 2
-	QUAD $0x03383a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 56], 3
-	QUAD $0x0438224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 56], 4
-	QUAD $0x05382a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 56], 5
-	LONG $0x4cc40f66; WORD $0x381a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 56], 6
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	QUAD $0x07380a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 56], 7
-	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
-	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI11_9] */
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
-	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI11_10] */
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
-	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
-	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
-	LONG $0x54c40f66; WORD $0x3a0a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 58], 1
-	LONG $0x54c40f66; WORD $0x3a3a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 58], 2
-	QUAD $0x033a3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 58], 3
-	QUAD $0x043a2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 58], 4
-	QUAD $0x053a2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 58], 5
-	LONG $0x54c40f66; WORD $0x3a1a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 58], 6
-	QUAD $0x073a0a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 58], 7
-	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
-	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	LONG $0xde6e0f66                           // movd    xmm3, esi
-	LONG $0x5cc40f66; WORD $0x3c0a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 60], 1
-	LONG $0x5cc40f66; WORD $0x3c3a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 60], 2
-	QUAD $0x033c3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 60], 3
-	QUAD $0x043c225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 60], 4
-	QUAD $0x053c2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 60], 5
-	LONG $0x5cc40f66; WORD $0x3c1a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 60], 6
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	QUAD $0x073c0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 60], 7
-	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf4eb0f66                           // por    xmm6, xmm4
-	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI11_11] */
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
-	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xcf10             // pblendvb    xmm1, xmm15, xmm0
-	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
-	LONG $0x380f4566; WORD $0xd710             // pblendvb    xmm10, xmm15, xmm0
-	LONG $0xcceb0f66                           // por    xmm1, xmm4
-	LONG $0x44b70f42; WORD $0x3e32             // movzx    eax, word [rdx + r14 + 62]
-	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
-	LONG $0xc06e0f66                           // movd    xmm0, eax
-	LONG $0x44c40f66; WORD $0x3e0a; BYTE $0x01 // pinsrw    xmm0, word [rdx + rcx + 62], 1
-	LONG $0x44c40f66; WORD $0x3e3a; BYTE $0x02 // pinsrw    xmm0, word [rdx + rdi + 62], 2
-	QUAD $0x033e3a44c40f4266                   // pinsrw    xmm0, word [rdx + r15 + 62], 3
-	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
-	QUAD $0x043e2244c40f4266                   // pinsrw    xmm0, word [rdx + r12 + 62], 4
-	QUAD $0x053e2a44c40f4266                   // pinsrw    xmm0, word [rdx + r13 + 62], 5
-	LONG $0x44c40f66; WORD $0x3e1a; BYTE $0x06 // pinsrw    xmm0, word [rdx + rbx + 62], 6
-	QUAD $0x073e0a44c40f4266                   // pinsrw    xmm0, word [rdx + r9 + 62], 7
-	LONG $0x650f4166; BYTE $0xc3               // pcmpgtw    xmm0, xmm11
-	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
-	LONG $0xeb0f4466; BYTE $0xd6               // por    xmm10, xmm6
-	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
-	LONG $0xeb0f4566; BYTE $0xf2               // por    xmm14, xmm10
-	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
-	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
-	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
-	LONG $0x6c0f4166; BYTE $0xd6               // punpcklqdq    xmm2, xmm14
-	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI11_15] */
-	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
-	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
-	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
-	LONG $0x600f4566; BYTE $0xc6               // punpcklbw    xmm8, xmm14
-	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
-	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
-	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
-	LONG $0x7f0f45f3; WORD $0x8f24             // movdqu    oword [r15 + 4*rcx], xmm12
-	LONG $0x7f0f41f3; WORD $0x8f44; BYTE $0x10 // movdqu    oword [r15 + 4*rcx + 16], xmm0
-	LONG $0x08c18348                           // add    rcx, 8
-	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
-	LONG $0x244c3b48; BYTE $0x20               // cmp    rcx, qword [rsp + 32]
-	JNE  LBB11_125
-	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
-	LONG $0x24543b4c; BYTE $0x20               // cmp    r10, qword [rsp + 32]
-	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
-	LONG $0x24348b44                           // mov    r14d, dword [rsp]
-	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
-	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
-	JNE  LBB11_127
-	JMP  LBB11_130
-
-LBB11_182:
-	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
-	LONG $0xfce08349                           // and    r8, -4
-	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
-	LONG $0x07e3c148                           // shl    rbx, 7
-	WORD $0x0148; BYTE $0xd3                   // add    rbx, rdx
-	LONG $0x87348d4f                           // lea    r14, [r15 + 4*r8]
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
-	LONG $0xfcc28148; WORD $0x0001; BYTE $0x00 // add    rdx, 508
-	WORD $0xc931                               // xor    ecx, ecx
-	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI11_0] */
-	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI11_1] */
-	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI11_2] */
-	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI11_3] */
-	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI11_4] */
-	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI11_5] */
-	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI11_6] */
-	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI11_7] */
-
-LBB11_183:
-	QUAD $0xfffffe04b2100ff3                   // movss    xmm6, dword [rdx - 508]
-	QUAD $0xfffffe08ba100ff3                   // movss    xmm7, dword [rdx - 504]
-	QUAD $0xfffffe0caa100ff3                   // movss    xmm5, dword [rdx - 500]
-	QUAD $0xfffffe10a2100ff3                   // movss    xmm4, dword [rdx - 496]
-	QUAD $0xfffe84b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 380], 16
-	QUAD $0xffff04b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 252], 32
-	LONG $0x213a0f66; WORD $0x8472; BYTE $0x30 // insertps    xmm6, dword [rdx - 124], 48
-	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	QUAD $0xfffe88ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 376], 16
-	QUAD $0xffff08ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 248], 32
-	LONG $0x213a0f66; WORD $0x887a; BYTE $0x30 // insertps    xmm7, dword [rdx - 120], 48
-	QUAD $0xfffe8caa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 372], 16
-	QUAD $0xffff0caa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 244], 32
-	LONG $0x213a0f66; WORD $0x8c6a; BYTE $0x30 // insertps    xmm5, dword [rdx - 116], 48
-	QUAD $0xfffe90a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 368], 16
-	QUAD $0xffff10a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 240], 32
-	LONG $0x213a0f66; WORD $0x9062; BYTE $0x30 // insertps    xmm4, dword [rdx - 112], 48
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
-	QUAD $0xfffffe14ba100ff3                   // movss    xmm7, dword [rdx - 492]
-	QUAD $0xfffe94ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 364], 16
-	QUAD $0xffff14ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 236], 32
-	LONG $0x213a0f66; WORD $0x947a; BYTE $0x30 // insertps    xmm7, dword [rdx - 108], 48
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe18b2100ff3                   // movss    xmm6, dword [rdx - 488]
-	QUAD $0xfffe98b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 360], 16
-	QUAD $0xffff18b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 232], 32
-	LONG $0x213a0f66; WORD $0x9872; BYTE $0x30 // insertps    xmm6, dword [rdx - 104], 48
-	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
-	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe1c9a100ff3                   // movss    xmm3, dword [rdx - 484]
-	QUAD $0xfffe9c9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 356], 16
-	QUAD $0xffff1c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 228], 32
-	LONG $0x213a0f66; WORD $0x9c5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 100], 48
-	LONG $0x02e1c20f                           // cmpleps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
-	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
-	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
-	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
-	LONG $0xfceb0f66                           // por    xmm7, xmm4
-	QUAD $0xfffffe20a2100ff3                   // movss    xmm4, dword [rdx - 480]
-	QUAD $0xfffea0a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 352], 16
-	QUAD $0xffff20a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 224], 32
-	LONG $0x213a0f66; WORD $0xa062; BYTE $0x30 // insertps    xmm4, dword [rdx - 96], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe24aa100ff3                   // movss    xmm5, dword [rdx - 476]
-	QUAD $0xfffea4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 348], 16
-	QUAD $0xffff24aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 220], 32
-	LONG $0x213a0f66; WORD $0xa46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 92], 48
-	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
-	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe2892100ff3                   // movss    xmm2, dword [rdx - 472]
-	QUAD $0xfffea892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 344], 16
-	QUAD $0xffff2892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 216], 32
-	LONG $0x213a0f66; WORD $0xa852; BYTE $0x30 // insertps    xmm2, dword [rdx - 88], 48
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0x02e1c20f                           // cmpleps    xmm4, xmm1
-	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
-	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
-	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
-	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
-	LONG $0xe3eb0f66                           // por    xmm4, xmm3
-	QUAD $0xfffffe2c9a100ff3                   // movss    xmm3, dword [rdx - 468]
-	QUAD $0xfffeac9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 340], 16
-	QUAD $0xffff2c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 212], 32
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0x213a0f66; WORD $0xac5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 84], 48
-	LONG $0xe7eb0f66                           // por    xmm4, xmm7
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe30ba100ff3                   // movss    xmm7, dword [rdx - 464]
-	QUAD $0xfffeb0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 336], 16
-	QUAD $0xffff30ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 208], 32
-	LONG $0x213a0f66; WORD $0xb07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 80], 48
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe34aa100ff3                   // movss    xmm5, dword [rdx - 460]
-	QUAD $0xfffeb4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 332], 16
-	QUAD $0xffff34aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 204], 32
-	LONG $0x213a0f66; WORD $0xb46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 76], 48
-	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe38b2100ff3                   // movss    xmm6, dword [rdx - 456]
-	QUAD $0xfffeb8b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 328], 16
-	QUAD $0xffff38b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 200], 32
-	LONG $0x213a0f66; WORD $0xb872; BYTE $0x30 // insertps    xmm6, dword [rdx - 72], 48
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
-	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
-	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
-	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
-	LONG $0xefeb0f66                           // por    xmm5, xmm7
-	QUAD $0xfffffe3c92100ff3                   // movss    xmm2, dword [rdx - 452]
-	QUAD $0xfffebc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 324], 16
-	QUAD $0xffff3c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 196], 32
-	LONG $0x213a0f66; WORD $0xbc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 68], 48
-	LONG $0xebeb0f66                           // por    xmm5, xmm3
-	QUAD $0xfffffe40ba100ff3                   // movss    xmm7, dword [rdx - 448]
-	QUAD $0xfffec0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 320], 16
-	QUAD $0xffff40ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 192], 32
-	LONG $0x213a0f66; WORD $0xc07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 64], 48
-	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
-	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd6eb0f66                           // por    xmm2, xmm6
-	QUAD $0xfffffe44b2100ff3                   // movss    xmm6, dword [rdx - 444]
-	QUAD $0xfffec4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 316], 16
-	QUAD $0xffff44b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 188], 32
-	LONG $0x213a0f66; WORD $0xc472; BYTE $0x30 // insertps    xmm6, dword [rdx - 60], 48
-	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
-	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
-	LONG $0xfaeb0f66                           // por    xmm7, xmm2
-	QUAD $0xfffffe4892100ff3                   // movss    xmm2, dword [rdx - 440]
-	QUAD $0xfffec892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 312], 16
-	QUAD $0xffff4892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 184], 32
-	LONG $0x213a0f66; WORD $0xc852; BYTE $0x30 // insertps    xmm2, dword [rdx - 56], 48
-	LONG $0xfdeb0f66                           // por    xmm7, xmm5
-	QUAD $0xfffffe4c9a100ff3                   // movss    xmm3, dword [rdx - 436]
-	QUAD $0xfffecc9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 308], 16
-	QUAD $0xffff4c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 180], 32
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0x213a0f66; WORD $0xcc5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 52], 48
-	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
-	QUAD $0xfffffe50aa100ff3                   // movss    xmm5, dword [rdx - 432]
-	QUAD $0xfffed0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 304], 16
-	QUAD $0xffff50aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 176], 32
-	LONG $0x213a0f66; WORD $0xd06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 48], 48
-	LONG $0xfeeb0f66                           // por    xmm7, xmm6
-	QUAD $0xfffffe54b2100ff3                   // movss    xmm6, dword [rdx - 428]
-	QUAD $0xfffed4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 300], 16
-	QUAD $0xffff54b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 172], 32
-	LONG $0x213a0f66; WORD $0xd472; BYTE $0x30 // insertps    xmm6, dword [rdx - 44], 48
-	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdfeb0f66                           // por    xmm3, xmm7
-	QUAD $0xfffffe58ba100ff3                   // movss    xmm7, dword [rdx - 424]
-	QUAD $0xfffed8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 296], 16
-	QUAD $0xffff58ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 168], 32
-	LONG $0x213a0f66; WORD $0xd87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 40], 48
-	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
-	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
-	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
-	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf5eb0f66                           // por    xmm6, xmm5
-	QUAD $0xfffffe5c92100ff3                   // movss    xmm2, dword [rdx - 420]
-	QUAD $0xfffedc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 292], 16
-	QUAD $0xffff5c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 164], 32
-	LONG $0x213a0f66; WORD $0xdc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 36], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe60aa100ff3                   // movss    xmm5, dword [rdx - 416]
-	QUAD $0xfffee0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 288], 16
-	QUAD $0xffff60aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 160], 32
-	LONG $0x213a0f66; WORD $0xe06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 32], 48
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe64ba100ff3                   // movss    xmm7, dword [rdx - 412]
-	QUAD $0xfffee4ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 284], 16
-	QUAD $0xffff64ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 156], 32
-	LONG $0x213a0f66; WORD $0xe47a; BYTE $0x30 // insertps    xmm7, dword [rdx - 28], 48
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
-	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
-	LONG $0xed630f66                           // packsswb    xmm5, xmm5
-	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
-	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
-	LONG $0xeaeb0f66                           // por    xmm5, xmm2
-	QUAD $0xfffffe6892100ff3                   // movss    xmm2, dword [rdx - 408]
-	QUAD $0xfffee892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 280], 16
-	QUAD $0xffff6892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 152], 32
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0x213a0f66; WORD $0xe852; BYTE $0x30 // insertps    xmm2, dword [rdx - 24], 48
-	LONG $0xeeeb0f66                           // por    xmm5, xmm6
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
-	QUAD $0xfffffe6c9a100ff3                   // movss    xmm3, dword [rdx - 404]
-	QUAD $0xfffeec9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 276], 16
-	QUAD $0xffff6c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 148], 32
-	LONG $0x213a0f66; WORD $0xec5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 20], 48
-	LONG $0xf7eb0f66                           // por    xmm6, xmm7
-	QUAD $0xfffffe7092100ff3                   // movss    xmm2, dword [rdx - 400]
-	QUAD $0xfffef092213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 272], 16
-	QUAD $0xffff7092213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 144], 32
-	LONG $0x213a0f66; WORD $0xf052; BYTE $0x30 // insertps    xmm2, dword [rdx - 16], 48
-	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
-	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
-	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	QUAD $0xfffffe74b2100ff3                   // movss    xmm6, dword [rdx - 396]
-	QUAD $0xfffef4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 268], 16
-	QUAD $0xffff74b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 140], 32
-	LONG $0x213a0f66; WORD $0xf472; BYTE $0x30 // insertps    xmm6, dword [rdx - 12], 48
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
-	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
-	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
-	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
-	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
-	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
-	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
-	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
-	LONG $0xf2eb0f66                           // por    xmm6, xmm2
-	QUAD $0xfffffe78ba100ff3                   // movss    xmm7, dword [rdx - 392]
-	QUAD $0xfffef8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 264], 16
-	QUAD $0xffff78ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 136], 32
-	LONG $0x213a0f66; WORD $0xf87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 8], 48
-	LONG $0xf3eb0f66                           // por    xmm6, xmm3
-	QUAD $0xfffffe7c92100ff3                   // movss    xmm2, dword [rdx - 388]
-	QUAD $0xfffefc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 260], 16
-	QUAD $0xffff7c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 132], 32
-	LONG $0x213a0f66; WORD $0xfc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 4], 48
-	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
-	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
-	LONG $0xff630f66                           // packsswb    xmm7, xmm7
-	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
-	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
-	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
-	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
-	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
-	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
-	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
-	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
-	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
-	LONG $0xd7eb0f66                           // por    xmm2, xmm7
-	QUAD $0xfffffe809a100ff3                   // movss    xmm3, dword [rdx - 384]
-	QUAD $0xffff009a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 256], 16
-	LONG $0x213a0f66; WORD $0x805a; BYTE $0x20 // insertps    xmm3, dword [rdx - 128], 32
-	LONG $0x213a0f66; WORD $0x301a             // insertps    xmm3, dword [rdx], 48
-	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
-	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
-	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
-	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
-	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
-	LONG $0xdaeb0f66                           // por    xmm3, xmm2
-	LONG $0xdeeb0f66                           // por    xmm3, xmm6
-	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
-	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
-	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
-	LONG $0x7f0f41f3; WORD $0x8f24             // movdqu    oword [r15 + 4*rcx], xmm4
-	LONG $0x04c18348                           // add    rcx, 4
-	LONG $0x00c28148; WORD $0x0002; BYTE $0x00 // add    rdx, 512
-	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
-	JNE  LBB11_183
-	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
-	JNE  LBB11_185
-	JMP  LBB11_188
diff --git a/go/arrow/compute/internal/kernels/scalar_comparisons.go b/go/arrow/compute/internal/kernels/scalar_comparisons.go
deleted file mode 100644
index dc43b74984a0d..0000000000000
--- a/go/arrow/compute/internal/kernels/scalar_comparisons.go
+++ /dev/null
@@ -1,701 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"bytes"
-	"fmt"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-type binaryKernel func(left, right, out []byte, offset int)
-
-type cmpFn[LeftT, RightT arrow.FixedWidthType] func([]LeftT, []RightT, []uint32)
-type cmpScalarLeft[LeftT, RightT arrow.FixedWidthType] func(LeftT, []RightT, []uint32)
-type cmpScalarRight[LeftT, RightT arrow.FixedWidthType] func([]LeftT, RightT, []uint32)
-
-type cmpOp[T arrow.FixedWidthType] struct {
-	arrArr    cmpFn[T, T]
-	arrScalar cmpScalarRight[T, T]
-	scalarArr cmpScalarLeft[T, T]
-}
-
-func comparePrimitiveArrayArray[T arrow.FixedWidthType](op cmpFn[T, T]) binaryKernel {
-	return func(leftBytes, rightBytes, out []byte, offset int) {
-		const batchSize = 32
-		var (
-			left      = arrow.GetData[T](leftBytes)
-			right     = arrow.GetData[T](rightBytes)
-			nvals     = len(left)
-			nbatches  = nvals / batchSize
-			tmpOutput [batchSize]uint32
-		)
-
-		tmpOutSlice := tmpOutput[:]
-		if prefix := offset % 8; prefix != 0 {
-			vals := 8 - prefix
-			op(left[:vals], right[:vals], tmpOutSlice[:vals])
-			left, right = left[vals:], right[vals:]
-
-			for i, v := range tmpOutSlice[:vals] {
-				bitutil.SetBitTo(out, prefix+i, v != 0)
-			}
-			out = out[1:]
-		}
-
-		for j := 0; j < nbatches; j++ {
-			op(left, right, tmpOutSlice)
-			left, right = left[batchSize:], right[batchSize:]
-			packBits(tmpOutput, out)
-			out = out[batchSize/8:]
-		}
-
-		remaining := nvals - (batchSize * nbatches)
-		op(left, right, tmpOutput[:remaining])
-		for bitIndex, v := range tmpOutput[:remaining] {
-			bitutil.SetBitTo(out, bitIndex, v != 0)
-		}
-	}
-}
-
-func comparePrimitiveArrayScalar[T arrow.FixedWidthType](op cmpScalarRight[T, T]) binaryKernel {
-	return func(leftBytes, rightBytes, out []byte, offset int) {
-		const batchSize = 32
-		var (
-			left      = arrow.GetData[T](leftBytes)
-			rightVal  = *(*T)(unsafe.Pointer(&rightBytes[0]))
-			nvals     = len(left)
-			nbatches  = nvals / batchSize
-			tmpOutput [batchSize]uint32
-		)
-
-		tmpOutSlice := tmpOutput[:]
-		if prefix := offset % 8; prefix != 0 {
-			vals := 8 - prefix
-			op(left[:vals], rightVal, tmpOutSlice[:vals])
-			left = left[vals:]
-
-			for i, v := range tmpOutSlice[:vals] {
-				bitutil.SetBitTo(out, prefix+i, v != 0)
-			}
-			out = out[1:]
-		}
-
-		for j := 0; j < nbatches; j++ {
-			op(left, rightVal, tmpOutSlice)
-			left = left[batchSize:]
-			packBits(tmpOutput, out)
-			out = out[batchSize/8:]
-		}
-
-		remaining := nvals - (batchSize * nbatches)
-		op(left, rightVal, tmpOutput[:remaining])
-		for bitIndex, v := range tmpOutput[:remaining] {
-			bitutil.SetBitTo(out, bitIndex, v != 0)
-		}
-	}
-}
-
-func comparePrimitiveScalarArray[T arrow.FixedWidthType](op cmpScalarLeft[T, T]) binaryKernel {
-	return func(leftBytes, rightBytes, out []byte, offset int) {
-		const batchSize = 32
-		var (
-			leftVal = *(*T)(unsafe.Pointer(&leftBytes[0]))
-			right   = arrow.GetData[T](rightBytes)
-
-			nvals     = len(right)
-			nbatches  = nvals / batchSize
-			tmpOutput [batchSize]uint32
-		)
-
-		tmpOutSlice := tmpOutput[:]
-		if prefix := offset % 8; prefix != 0 {
-			vals := 8 - prefix
-			op(leftVal, right[:vals], tmpOutSlice[:vals])
-			right = right[vals:]
-
-			for i, v := range tmpOutSlice[:vals] {
-				bitutil.SetBitTo(out, prefix+i, v != 0)
-			}
-			out = out[1:]
-		}
-
-		for j := 0; j < nbatches; j++ {
-			op(leftVal, right, tmpOutSlice)
-			right = right[batchSize:]
-			packBits(tmpOutput, out)
-			out = out[batchSize/8:]
-		}
-
-		remaining := nvals - (batchSize * nbatches)
-		op(leftVal, right, tmpOutput[:remaining])
-		for bitIndex, v := range tmpOutput[:remaining] {
-			bitutil.SetBitTo(out, bitIndex, v != 0)
-		}
-	}
-}
-
-type CompareData struct {
-	funcAA, funcSA, funcAS binaryKernel
-}
-
-func (c *CompareData) Funcs() *CompareData { return c }
-
-type CompareFuncData interface {
-	Funcs() *CompareData
-}
-
-func getOffsetSpanBytes(span *exec.ArraySpan) []byte {
-	if len(span.Buffers[1].Buf) == 0 {
-		return nil
-	}
-
-	buf := span.Buffers[1].Buf
-	byteWidth := int64(span.Type.(arrow.FixedWidthDataType).Bytes())
-	start := span.Offset * byteWidth
-	return buf[start : start+(span.Len*byteWidth)]
-}
-
-func compareKernel[T arrow.FixedWidthType](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	kn := ctx.Kernel.(*exec.ScalarKernel)
-	knData := kn.Data.(CompareFuncData).Funcs()
-
-	outPrefix := int(out.Offset % 8)
-	outBuf := out.Buffers[1].Buf[out.Offset/8:]
-
-	if batch.Values[0].IsArray() && batch.Values[1].IsArray() {
-		knData.funcAA(getOffsetSpanBytes(&batch.Values[0].Array),
-			getOffsetSpanBytes(&batch.Values[1].Array), outBuf, outPrefix)
-	} else if batch.Values[1].IsScalar() {
-		knData.funcAS(getOffsetSpanBytes(&batch.Values[0].Array),
-			batch.Values[1].Scalar.(scalar.PrimitiveScalar).Data(), outBuf, outPrefix)
-	} else {
-		knData.funcSA(batch.Values[0].Scalar.(scalar.PrimitiveScalar).Data(),
-			getOffsetSpanBytes(&batch.Values[1].Array), outBuf, outPrefix)
-	}
-
-	return nil
-}
-
-func genGoCompareKernel[T arrow.FixedWidthType](op *cmpOp[T]) *CompareData {
-	return &CompareData{
-		funcAA: comparePrimitiveArrayArray(op.arrArr),
-		funcAS: comparePrimitiveArrayScalar(op.arrScalar),
-		funcSA: comparePrimitiveScalarArray(op.scalarArr),
-	}
-}
-
-type decCmp[T decimal128.Num | decimal256.Num] struct {
-	Gt func(T, T) bool
-	Ge func(T, T) bool
-}
-
-var dec128Cmp = decCmp[decimal128.Num]{
-	Gt: func(a, b decimal128.Num) bool { return a.Greater(b) },
-	Ge: func(a, b decimal128.Num) bool { return a.GreaterEqual(b) },
-}
-
-var dec256Cmp = decCmp[decimal256.Num]{
-	Gt: func(a, b decimal256.Num) bool { return a.Greater(b) },
-	Ge: func(a, b decimal256.Num) bool { return a.GreaterEqual(b) },
-}
-
-func getCmpDec[T decimal128.Num | decimal256.Num](op CompareOperator, fns decCmp[T]) *cmpOp[T] {
-	switch op {
-	case CmpEQ:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range lt {
-					if lt[i] == rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range lt {
-					if lt[i] == rt {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range rt {
-					if lt == rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	case CmpNE:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range lt {
-					if lt[i] != rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range lt {
-					if lt[i] != rt {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range rt {
-					if lt != rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	case CmpGT:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range lt {
-					if fns.Gt(lt[i], rt[i]) {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range lt {
-					if fns.Gt(lt[i], rt) {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range rt {
-					if fns.Gt(lt, rt[i]) {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	case CmpGE:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range lt {
-					if fns.Ge(lt[i], rt[i]) {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range lt {
-					if fns.Ge(lt[i], rt) {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range rt {
-					if fns.Ge(lt, rt[i]) {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	}
-	debug.Assert(false, "")
-	return nil
-}
-
-func genDecimalCompareKernel[T decimal128.Num | decimal256.Num](op CompareOperator) (ex exec.ArrayKernelExec, data exec.KernelState) {
-	ex = compareKernel[T]
-
-	var def T
-	switch any(def).(type) {
-	case decimal128.Num:
-		cmp := getCmpDec(op, dec128Cmp)
-		data = &CompareData{
-			funcAA: comparePrimitiveArrayArray(cmp.arrArr),
-			funcAS: comparePrimitiveArrayScalar(cmp.arrScalar),
-			funcSA: comparePrimitiveScalarArray(cmp.scalarArr),
-		}
-	case decimal256.Num:
-		cmp := getCmpDec(op, dec256Cmp)
-		data = &CompareData{
-			funcAA: comparePrimitiveArrayArray(cmp.arrArr),
-			funcAS: comparePrimitiveArrayScalar(cmp.arrScalar),
-			funcSA: comparePrimitiveScalarArray(cmp.scalarArr),
-		}
-	}
-
-	return
-}
-
-func getCmpOp[T arrow.NumericType](op CompareOperator) *cmpOp[T] {
-	switch op {
-	case CmpEQ:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range u {
-					if lt[i] == rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range u {
-					if lt[i] == rt {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range u {
-					if lt == rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	case CmpNE:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range u {
-					if lt[i] != rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range u {
-					if lt[i] != rt {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range u {
-					if lt != rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	case CmpGT:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range u {
-					if lt[i] > rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range u {
-					if lt[i] > rt {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range u {
-					if lt > rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	case CmpGE:
-		return &cmpOp[T]{
-			arrArr: func(lt, rt []T, u []uint32) {
-				for i := range u {
-					if lt[i] >= rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			arrScalar: func(lt []T, rt T, u []uint32) {
-				for i := range u {
-					if lt[i] >= rt {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-			scalarArr: func(lt T, rt []T, u []uint32) {
-				for i := range u {
-					if lt >= rt[i] {
-						u[i] = 1
-					} else {
-						u[i] = 0
-					}
-				}
-			},
-		}
-	}
-	return nil
-}
-
-func getBinaryCmp(op CompareOperator) binaryBinOp[bool] {
-	switch op {
-	case CmpEQ:
-		return func(_ *exec.KernelCtx, arg0, arg1 []byte) bool {
-			return bytes.Equal(arg0, arg1)
-		}
-	case CmpNE:
-		return func(_ *exec.KernelCtx, arg0, arg1 []byte) bool {
-			return !bytes.Equal(arg0, arg1)
-		}
-	case CmpGT:
-		return func(_ *exec.KernelCtx, arg0, arg1 []byte) bool {
-			return bytes.Compare(arg0, arg1) == 1
-		}
-	case CmpGE:
-		return func(_ *exec.KernelCtx, arg0, arg1 []byte) bool {
-			return bytes.Compare(arg0, arg1) != -1
-		}
-	}
-	return nil
-}
-
-func numericCompareKernel[T arrow.NumericType](ty exec.InputType, op CompareOperator) (kn exec.ScalarKernel) {
-	ex := compareKernel[T]
-	kn = exec.NewScalarKernelWithSig(&exec.KernelSignature{
-		InputTypes: []exec.InputType{ty, ty},
-		OutType:    exec.NewOutputType(arrow.FixedWidthTypes.Boolean),
-	}, ex, nil)
-	kn.Data = genCompareKernel[T](op)
-	return
-}
-
-func decimalCompareKernel[T decimal128.Num | decimal256.Num](ty exec.InputType, op CompareOperator) (kn exec.ScalarKernel) {
-	ex, data := genDecimalCompareKernel[T](op)
-	kn = exec.NewScalarKernelWithSig(&exec.KernelSignature{
-		InputTypes: []exec.InputType{ty, ty},
-		OutType:    exec.NewOutputType(arrow.FixedWidthTypes.Boolean),
-	}, ex, nil)
-	kn.Data = data
-	return
-}
-
-func GetCompareKernel(ty exec.InputType, cmpType arrow.Type, op CompareOperator) exec.ScalarKernel {
-	switch cmpType {
-	case arrow.INT8:
-		return numericCompareKernel[int8](ty, op)
-	case arrow.INT16:
-		return numericCompareKernel[int16](ty, op)
-	case arrow.INT32, arrow.DATE32, arrow.TIME32:
-		return numericCompareKernel[int32](ty, op)
-	case arrow.INT64, arrow.DATE64, arrow.TIMESTAMP, arrow.TIME64, arrow.DURATION:
-		return numericCompareKernel[int64](ty, op)
-	case arrow.UINT8:
-		return numericCompareKernel[uint8](ty, op)
-	case arrow.UINT16:
-		return numericCompareKernel[uint16](ty, op)
-	case arrow.UINT32:
-		return numericCompareKernel[uint32](ty, op)
-	case arrow.UINT64:
-		return numericCompareKernel[uint64](ty, op)
-	case arrow.FLOAT32:
-		return numericCompareKernel[float32](ty, op)
-	case arrow.FLOAT64:
-		return numericCompareKernel[float64](ty, op)
-	}
-	debug.Assert(false, "")
-	return exec.ScalarKernel{}
-}
-
-func compareTimestampKernel(ty exec.InputType, op CompareOperator) exec.ScalarKernel {
-	kn := GetCompareKernel(ty, arrow.TIMESTAMP, op)
-	ex := kn.ExecFn
-	kn.ExecFn = func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		lhs, rhs := batch.Values[0].Type().(*arrow.TimestampType), batch.Values[1].Type().(*arrow.TimestampType)
-		if (len(lhs.TimeZone) == 0) != (len(rhs.TimeZone) == 0) {
-			return fmt.Errorf("%w: cannot compare timestamp with timezone to timestamp without timezone, got: %s and %s",
-				arrow.ErrInvalid, lhs, rhs)
-		}
-		return ex(ctx, batch, out)
-	}
-	return kn
-}
-
-var (
-	boolEQ = binaryBoolOps{
-		arrArr: func(_ *exec.KernelCtx, lhs, rhs, out bitutil.Bitmap) error {
-			bitutil.BitmapAnd(lhs.Data, rhs.Data, lhs.Offset, rhs.Offset, out.Data, out.Offset, out.Len)
-			return nil
-		},
-		arrScalar: func(_ *exec.KernelCtx, lhs bitutil.Bitmap, rhs bool, out bitutil.Bitmap) error {
-			rdr := bitutil.NewBitmapReader(lhs.Data, int(lhs.Offset), int(lhs.Len))
-			bitutils.GenerateBitsUnrolled(out.Data, out.Offset, out.Len, func() (out bool) {
-				out = rdr.Set() == rhs
-				rdr.Next()
-				return
-			})
-			return nil
-		},
-		scalarArr: func(_ *exec.KernelCtx, lhs bool, rhs, out bitutil.Bitmap) error {
-			rdr := bitutil.NewBitmapReader(rhs.Data, int(rhs.Offset), int(rhs.Len))
-			bitutils.GenerateBitsUnrolled(out.Data, out.Offset, out.Len, func() (out bool) {
-				out = lhs == rdr.Set()
-				rdr.Next()
-				return
-			})
-			return nil
-		},
-	}
-	boolNE = binaryBoolOps{
-		arrArr: func(_ *exec.KernelCtx, lhs, rhs, out bitutil.Bitmap) error {
-			bitutil.BitmapXor(lhs.Data, rhs.Data, lhs.Offset, rhs.Offset, out.Data, out.Offset, out.Len)
-			return nil
-		},
-		arrScalar: func(_ *exec.KernelCtx, lhs bitutil.Bitmap, rhs bool, out bitutil.Bitmap) error {
-			rdr := bitutil.NewBitmapReader(lhs.Data, int(lhs.Offset), int(lhs.Len))
-			bitutils.GenerateBitsUnrolled(out.Data, out.Offset, out.Len, func() (out bool) {
-				out = rdr.Set() != rhs
-				rdr.Next()
-				return
-			})
-			return nil
-		},
-		scalarArr: func(_ *exec.KernelCtx, lhs bool, rhs, out bitutil.Bitmap) error {
-			rdr := bitutil.NewBitmapReader(rhs.Data, int(rhs.Offset), int(rhs.Len))
-			bitutils.GenerateBitsUnrolled(out.Data, out.Offset, out.Len, func() (out bool) {
-				out = lhs != rdr.Set()
-				rdr.Next()
-				return
-			})
-			return nil
-		},
-	}
-)
-
-func CompareKernels(op CompareOperator) []exec.ScalarKernel {
-	kns := make([]exec.ScalarKernel, 0)
-
-	outType := exec.NewOutputType(arrow.FixedWidthTypes.Boolean)
-	switch op {
-	case CmpEQ:
-		in := exec.NewExactInput(arrow.FixedWidthTypes.Boolean)
-		kns = append(kns, exec.NewScalarKernel([]exec.InputType{in, in}, outType,
-			ScalarBinaryBools(&boolEQ), nil))
-	case CmpNE:
-		in := exec.NewExactInput(arrow.FixedWidthTypes.Boolean)
-		kns = append(kns, exec.NewScalarKernel([]exec.InputType{in, in}, outType,
-			ScalarBinaryBools(&boolNE), nil))
-	}
-
-	for _, ty := range numericTypes {
-		in := exec.NewExactInput(ty)
-		kns = append(kns, GetCompareKernel(in, ty.ID(), op))
-	}
-	kns = append(kns,
-		GetCompareKernel(exec.NewExactInput(arrow.FixedWidthTypes.Date32), arrow.DATE32, op),
-		GetCompareKernel(exec.NewExactInput(arrow.FixedWidthTypes.Date64), arrow.DATE64, op))
-
-	for _, unit := range arrow.TimeUnitValues {
-		in := exec.NewMatchedInput(exec.TimestampTypeUnit(unit))
-		kns = append(kns, compareTimestampKernel(in, op))
-
-		in = exec.NewMatchedInput(exec.DurationTypeUnit(unit))
-		kns = append(kns, GetCompareKernel(in, arrow.INT64, op))
-	}
-
-	for _, unit := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond} {
-		in := exec.NewMatchedInput(exec.Time32TypeUnit(unit))
-		kns = append(kns, GetCompareKernel(in, arrow.INT32, op))
-	}
-	for _, unit := range []arrow.TimeUnit{arrow.Microsecond, arrow.Nanosecond} {
-		in := exec.NewMatchedInput(exec.Time64TypeUnit(unit))
-		kns = append(kns, GetCompareKernel(in, arrow.INT64, op))
-	}
-
-	for _, ty := range baseBinaryTypes {
-		var ex exec.ArrayKernelExec
-		switch ty.Layout().Buffers[1].ByteWidth {
-		case 4:
-			ex = ScalarBinaryBinaryArgsBoolOut(exec.NewVarBinaryIter[int32], getBinaryCmp(op))
-		default:
-			ex = ScalarBinaryBinaryArgsBoolOut(exec.NewVarBinaryIter[int64], getBinaryCmp(op))
-		}
-		in := exec.NewExactInput(ty)
-		kns = append(kns, exec.NewScalarKernel([]exec.InputType{in, in},
-			outType, ex, nil))
-	}
-
-	in128, in256 := exec.NewIDInput(arrow.DECIMAL128), exec.NewIDInput(arrow.DECIMAL256)
-	kns = append(kns, decimalCompareKernel[decimal128.Num](in128, op),
-		decimalCompareKernel[decimal256.Num](in256, op))
-
-	inFSB := exec.NewIDInput(arrow.FIXED_SIZE_BINARY)
-	kns = append(kns, exec.NewScalarKernel([]exec.InputType{inFSB, inFSB}, outType,
-		ScalarBinaryBinaryArgsBoolOut(exec.NewFSBIter, getBinaryCmp(op)), nil))
-
-	return kns
-}
diff --git a/go/arrow/compute/internal/kernels/string_casts.go b/go/arrow/compute/internal/kernels/string_casts.go
deleted file mode 100644
index 6a50d6627140b..0000000000000
--- a/go/arrow/compute/internal/kernels/string_casts.go
+++ /dev/null
@@ -1,409 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"strconv"
-	"unicode/utf8"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-func validateUtf8Fsb(input *exec.ArraySpan) error {
-	var (
-		inputData = input.Buffers[1].Buf
-		width     = int64(input.Type.(*arrow.FixedSizeBinaryType).ByteWidth)
-		bitmap    = input.Buffers[0].Buf
-	)
-
-	return bitutils.VisitBitBlocksShort(bitmap, input.Offset, input.Len,
-		func(pos int64) error {
-			pos += input.Offset
-			beg := pos * width
-			end := (pos + 1) * width
-			if !utf8.Valid(inputData[beg:end]) {
-				return fmt.Errorf("%w: invalid UTF8 bytes: %x", arrow.ErrInvalid, inputData[beg:end])
-			}
-			return nil
-		}, func() error { return nil })
-}
-
-func validateUtf8[OffsetT int32 | int64](input *exec.ArraySpan) error {
-	var (
-		inputOffsets = exec.GetSpanOffsets[OffsetT](input, 1)
-		inputData    = input.Buffers[2].Buf
-		bitmap       = input.Buffers[0].Buf
-	)
-
-	return bitutils.VisitBitBlocksShort(bitmap, input.Offset, input.Len,
-		func(pos int64) error {
-			v := inputData[inputOffsets[pos]:inputOffsets[pos+1]]
-			if !utf8.Valid(v) {
-				return fmt.Errorf("%w: invalid UTF8 bytes: %x", arrow.ErrInvalid, v)
-			}
-			return nil
-		}, func() error { return nil })
-}
-
-func CastFsbToFsb(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	inputWidth := batch.Values[0].Array.Type.(*arrow.FixedSizeBinaryType).ByteWidth
-	outputWidth := ctx.State.(CastState).ToType.(*arrow.FixedSizeBinaryType).ByteWidth
-
-	if inputWidth != outputWidth {
-		return fmt.Errorf("%w: failed casting from %s to %s: widths must match",
-			arrow.ErrInvalid, batch.Values[0].Array.Type, out.Type)
-	}
-
-	return ZeroCopyCastExec(ctx, batch, out)
-}
-
-func CastBinaryToBinary[InOffsetsT, OutOffsetsT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(CastState)
-	input := &batch.Values[0].Array
-
-	if !input.Type.(arrow.BinaryDataType).IsUtf8() && out.Type.(arrow.BinaryDataType).IsUtf8() && !opts.AllowInvalidUtf8 {
-		if err := validateUtf8[InOffsetsT](input); err != nil {
-			return err
-		}
-	}
-
-	// start with a zero-copy cast, then change the indices to the
-	// expected size
-	if err := ZeroCopyCastExec(ctx, batch, out); err != nil {
-		return err
-	}
-
-	switch {
-	case SizeOf[InOffsetsT]() == SizeOf[OutOffsetsT]():
-		// offsets are the same width, nothing more to do
-		return nil
-	case SizeOf[InOffsetsT]() > SizeOf[OutOffsetsT]():
-		// downcast from int64 -> int32
-		inputOffsets := exec.GetSpanOffsets[InOffsetsT](input, 1)
-
-		// binary offsets are ascending, so it's enough to check
-		// the last one for overflow
-		if inputOffsets[input.Len] > InOffsetsT(MaxOf[OutOffsetsT]()) {
-			return fmt.Errorf("%w: failed casting from %s to %s: input array too large",
-				arrow.ErrInvalid, input.Type, out.Type)
-		}
-
-		buf := ctx.Allocate(out.Type.(arrow.OffsetsDataType).OffsetTypeTraits().BytesRequired(int(out.Len + out.Offset + 1)))
-		out.Buffers[1].WrapBuffer(buf)
-
-		outOffsets := exec.GetSpanOffsets[OutOffsetsT](out, 1)
-
-		castNumericUnsafe(arrow.INT64, arrow.INT32,
-			arrow.GetBytes(inputOffsets), arrow.GetBytes(outOffsets), len(inputOffsets))
-		return nil
-	default:
-		// upcast from int32 -> int64
-		buf := ctx.Allocate(out.Type.(arrow.OffsetsDataType).OffsetTypeTraits().BytesRequired(int(out.Len + out.Offset + 1)))
-		out.Buffers[1].WrapBuffer(buf)
-
-		inputOffsets := exec.GetSpanOffsets[InOffsetsT](input, 1)
-		outOffsets := exec.GetSpanOffsets[OutOffsetsT](out, 1)
-
-		castNumericUnsafe(arrow.INT32, arrow.INT64,
-			arrow.GetBytes(inputOffsets), arrow.GetBytes(outOffsets), len(inputOffsets))
-		return nil
-	}
-}
-
-func CastFsbToBinary[OffsetsT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	opts := ctx.State.(CastState)
-	input := &batch.Values[0].Array
-
-	if out.Type.(arrow.BinaryDataType).IsUtf8() && !opts.AllowInvalidUtf8 {
-		if err := validateUtf8Fsb(input); err != nil {
-			return err
-		}
-	}
-
-	// check for overflow
-	maxOffset := int64(MaxOf[OffsetsT]())
-	width := OffsetsT(input.Type.(*arrow.FixedSizeBinaryType).ByteWidth)
-	if (int64(width) * input.Len) > maxOffset {
-		return fmt.Errorf("%w: failed casting from %s to %s: input array too large",
-			arrow.ErrInvalid, input.Type, out.Type)
-	}
-
-	out.Len = input.Len
-	out.Nulls = input.Nulls
-	if input.Offset == out.Offset {
-		out.Buffers[0].SetBuffer(input.GetBuffer(0))
-	} else {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(input.Len))
-		bitutil.CopyBitmap(input.Buffers[0].Buf, int(input.Offset), int(input.Len), out.Buffers[0].Buf, int(out.Offset))
-	}
-
-	// this buffer is preallocated
-	offsets := exec.GetSpanOffsets[OffsetsT](out, 1)
-	offsets[0] = OffsetsT(input.Offset) * width
-	for i := 0; i < int(input.Len); i++ {
-		offsets[i+1] = offsets[i] + width
-	}
-
-	if len(input.Buffers[1].Buf) > 0 {
-		out.Buffers[2] = input.Buffers[1]
-	}
-
-	return nil
-}
-
-func addBinaryToBinaryCast[InOffsetT, OutOffsetT int32 | int64](inType arrow.Type, outType exec.OutputType) exec.ScalarKernel {
-	return exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(inType)},
-		outType, CastBinaryToBinary[InOffsetT, OutOffsetT], nil)
-}
-
-func addToBinaryKernels[OffsetsT int32 | int64](outType exec.OutputType, kernels []exec.ScalarKernel) []exec.ScalarKernel {
-	return append(kernels,
-		addBinaryToBinaryCast[int32, OffsetsT](arrow.STRING, outType),
-		addBinaryToBinaryCast[int32, OffsetsT](arrow.BINARY, outType),
-		addBinaryToBinaryCast[int64, OffsetsT](arrow.LARGE_STRING, outType),
-		addBinaryToBinaryCast[int64, OffsetsT](arrow.LARGE_BINARY, outType),
-		exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(arrow.FIXED_SIZE_BINARY)},
-			outType, CastFsbToBinary[OffsetsT], nil),
-	)
-}
-
-func GetFsbCastKernels() []exec.ScalarKernel {
-	outputType := exec.NewComputedOutputType(resolveOutputFromOptions)
-	out := GetCommonCastKernels(arrow.FIXED_SIZE_BINARY, outputType)
-	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(arrow.FIXED_SIZE_BINARY)},
-		OutputFirstType, CastFsbToFsb, nil)
-	kernel.NullHandling = exec.NullComputedNoPrealloc
-	return append(out, kernel)
-}
-
-func float16Formatter(v float16.Num) string                 { return v.String() }
-func date32Formatter(v arrow.Date32) string                 { return v.FormattedString() }
-func date64Formatter(v arrow.Date64) string                 { return v.FormattedString() }
-func numericFormatterSigned[T arrow.IntType](v T) string    { return strconv.FormatInt(int64(v), 10) }
-func numericFormatterUnsigned[T arrow.UintType](v T) string { return strconv.FormatUint(uint64(v), 10) }
-func float32Formatter(v float32) string                     { return strconv.FormatFloat(float64(v), 'g', -1, 32) }
-func float64Formatter(v float64) string                     { return strconv.FormatFloat(v, 'g', -1, 64) }
-
-func boolToStringCastExec(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		input = &batch.Values[0].Array
-		bldr  = array.NewBuilder(exec.GetAllocator(ctx.Ctx), out.Type).(array.StringLikeBuilder)
-	)
-	defer bldr.Release()
-
-	bitutils.VisitBitBlocks(input.Buffers[0].Buf, input.Offset, input.Len,
-		func(pos int64) {
-			bldr.Append(strconv.FormatBool(bitutil.BitIsSet(input.Buffers[1].Buf, int(pos))))
-		}, func() { bldr.AppendNull() })
-
-	arr := bldr.NewArray()
-	out.TakeOwnership(arr.Data())
-	return nil
-}
-
-type timeIntrinsic interface {
-	arrow.Time32 | arrow.Time64
-	FormattedString(arrow.TimeUnit) string
-}
-
-func timeToStringCastExec[T timeIntrinsic](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		input     = &batch.Values[0].Array
-		inputData = exec.GetSpanValues[T](input, 1)
-		bldr      = array.NewBuilder(exec.GetAllocator(ctx.Ctx), out.Type).(array.StringLikeBuilder)
-		inputType = input.Type.(arrow.TemporalWithUnit)
-	)
-	defer bldr.Release()
-
-	bitutils.VisitBitBlocks(input.Buffers[0].Buf, input.Offset, input.Len,
-		func(pos int64) {
-			bldr.Append(inputData[pos].FormattedString(inputType.TimeUnit()))
-		}, func() { bldr.AppendNull() })
-
-	arr := bldr.NewArray()
-	out.TakeOwnership(arr.Data())
-	return nil
-}
-
-func numericToStringCastExec[T arrow.IntType | arrow.UintType | arrow.FloatType](formatter func(T) string) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		var (
-			input     = &batch.Values[0].Array
-			inputData = exec.GetSpanValues[T](input, 1)
-			bldr      = array.NewBuilder(exec.GetAllocator(ctx.Ctx), out.Type).(array.StringLikeBuilder)
-		)
-		defer bldr.Release()
-
-		bitutils.VisitBitBlocks(input.Buffers[0].Buf, input.Offset, input.Len,
-			func(pos int64) {
-				bldr.Append(formatter(inputData[pos]))
-			}, func() { bldr.AppendNull() })
-
-		arr := bldr.NewArray()
-		out.TakeOwnership(arr.Data())
-		return nil
-	}
-}
-
-func castTimestampToString(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		input     = &batch.Values[0].Array
-		inputData = exec.GetSpanValues[arrow.Timestamp](input, 1)
-		inputType = input.Type.(*arrow.TimestampType)
-		bldr      = array.NewBuilder(exec.GetAllocator(ctx.Ctx), out.Type).(array.StringLikeBuilder)
-	)
-	defer bldr.Release()
-
-	toTime, err := inputType.GetToTimeFunc()
-	if err != nil {
-		return err
-	}
-
-	// prealloc
-	fmtstring := "2006-01-02 15:04:05"
-	switch inputType.Unit {
-	case arrow.Millisecond:
-		fmtstring += ".000"
-	case arrow.Microsecond:
-		fmtstring += ".000000"
-	case arrow.Nanosecond:
-		fmtstring += ".000000000"
-	}
-
-	switch inputType.TimeZone {
-	case "UTC":
-		fmtstring += "Z"
-	case "":
-	default:
-		fmtstring += "-0700"
-	}
-
-	strlen := len(fmtstring)
-	bldr.Reserve(int(input.Len))
-	bldr.ReserveData(int(input.Len-input.Nulls) * strlen)
-
-	bitutils.VisitBitBlocks(input.Buffers[0].Buf, input.Offset, input.Len,
-		func(pos int64) {
-			bldr.Append(toTime(inputData[pos]).Format(fmtstring))
-		},
-		func() { bldr.AppendNull() })
-
-	arr := bldr.NewArray()
-	out.TakeOwnership(arr.Data())
-	return nil
-}
-
-func getNumericToStringCastExec(inType arrow.Type) exec.ArrayKernelExec {
-	switch inType {
-	case arrow.INT8:
-		return numericToStringCastExec(numericFormatterSigned[int8])
-	case arrow.UINT8:
-		return numericToStringCastExec(numericFormatterUnsigned[uint8])
-	case arrow.INT16:
-		return numericToStringCastExec(numericFormatterSigned[int16])
-	case arrow.UINT16:
-		return numericToStringCastExec(numericFormatterUnsigned[uint16])
-	case arrow.INT32:
-		return numericToStringCastExec(numericFormatterSigned[int32])
-	case arrow.UINT32:
-		return numericToStringCastExec(numericFormatterUnsigned[uint32])
-	case arrow.INT64:
-		return numericToStringCastExec(numericFormatterSigned[int64])
-	case arrow.UINT64:
-		return numericToStringCastExec(numericFormatterUnsigned[uint64])
-	case arrow.FLOAT16:
-		return numericToStringCastExec(float16Formatter)
-	case arrow.FLOAT32:
-		return numericToStringCastExec(float32Formatter)
-	case arrow.FLOAT64:
-		return numericToStringCastExec(float64Formatter)
-	case arrow.BOOL:
-		return boolToStringCastExec
-	case arrow.DATE32:
-		return numericToStringCastExec(date32Formatter)
-	case arrow.DATE64:
-		return numericToStringCastExec(date64Formatter)
-	case arrow.TIME32:
-		return timeToStringCastExec[arrow.Time32]
-	case arrow.TIME64:
-		return timeToStringCastExec[arrow.Time64]
-	case arrow.TIMESTAMP:
-		return castTimestampToString
-	}
-	panic("unimplemented cast: " + inType.String())
-}
-
-func addNumericAndTemporalToStringCasts(outType exec.OutputType, out []exec.ScalarKernel) []exec.ScalarKernel {
-	k := exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(arrow.FixedWidthTypes.Boolean)}, outType,
-		getNumericToStringCastExec(arrow.BOOL), nil)
-	k.NullHandling = exec.NullComputedNoPrealloc
-	out = append(out, k)
-
-	for _, dt := range numericTypes {
-		k = exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(dt)}, outType,
-			getNumericToStringCastExec(dt.ID()), nil)
-		k.NullHandling = exec.NullComputedNoPrealloc
-		out = append(out, k)
-	}
-
-	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64} {
-		k = exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(dt)}, outType,
-			getNumericToStringCastExec(dt.ID()), nil)
-		k.NullHandling = exec.NullComputedNoPrealloc
-		out = append(out, k)
-	}
-
-	for _, id := range []arrow.Type{arrow.TIME32, arrow.TIME64, arrow.TIMESTAMP} {
-		k = exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(id)}, outType,
-			getNumericToStringCastExec(id), nil)
-		k.NullHandling = exec.NullComputedNoPrealloc
-		out = append(out, k)
-	}
-
-	return out
-}
-
-func GetToBinaryKernels(outType arrow.DataType) []exec.ScalarKernel {
-	if outType.ID() == arrow.FIXED_SIZE_BINARY {
-		return nil
-	}
-
-	outputType := exec.NewOutputType(outType)
-	out := GetCommonCastKernels(outType.ID(), outputType)
-
-	switch outType.ID() {
-	case arrow.BINARY:
-		return addToBinaryKernels[int32](outputType, out)
-	case arrow.LARGE_BINARY:
-		return addToBinaryKernels[int64](outputType, out)
-	case arrow.STRING:
-		out = addToBinaryKernels[int32](outputType, out)
-		return addNumericAndTemporalToStringCasts(outputType, out)
-	case arrow.LARGE_STRING:
-		out = addToBinaryKernels[int64](outputType, out)
-		return addNumericAndTemporalToStringCasts(outputType, out)
-	}
-	return nil
-}
diff --git a/go/arrow/compute/internal/kernels/types.go b/go/arrow/compute/internal/kernels/types.go
deleted file mode 100644
index fb20ed02381fe..0000000000000
--- a/go/arrow/compute/internal/kernels/types.go
+++ /dev/null
@@ -1,109 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-)
-
-var (
-	unsignedIntTypes = []arrow.DataType{
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Uint64,
-	}
-	signedIntTypes = []arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Int64,
-	}
-	intTypes      = append(unsignedIntTypes, signedIntTypes...)
-	floatingTypes = []arrow.DataType{
-		arrow.PrimitiveTypes.Float32,
-		arrow.PrimitiveTypes.Float64,
-	}
-	numericTypes = append(intTypes, floatingTypes...)
-	// binary types without fixedsize binary
-	baseBinaryTypes = []arrow.DataType{
-		arrow.BinaryTypes.Binary,
-		arrow.BinaryTypes.LargeBinary,
-		arrow.BinaryTypes.String,
-		arrow.BinaryTypes.LargeString}
-	primitiveTypes = append(append([]arrow.DataType{arrow.Null,
-		arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64},
-		numericTypes...), baseBinaryTypes...)
-)
-
-//go:generate stringer -type=CompareOperator -linecomment
-
-type CompareOperator int8
-
-const (
-	CmpEQ CompareOperator = iota // equal
-	CmpNE                        // not_equal
-	CmpGT                        // greater
-	CmpGE                        // greater_equal
-	CmpLT                        // less
-	CmpLE                        // less_equal
-)
-
-type simpleBinaryKernel interface {
-	Call(*exec.KernelCtx, *exec.ArraySpan, *exec.ArraySpan, *exec.ExecResult) error
-	CallScalarLeft(*exec.KernelCtx, scalar.Scalar, *exec.ArraySpan, *exec.ExecResult) error
-}
-
-type commutativeBinaryKernel[T simpleBinaryKernel] struct{}
-
-func (commutativeBinaryKernel[T]) CallScalarRight(ctx *exec.KernelCtx, left *exec.ArraySpan, right scalar.Scalar, out *exec.ExecResult) error {
-	var t T
-	return t.CallScalarLeft(ctx, right, left, out)
-}
-
-type SimpleBinaryKernel interface {
-	simpleBinaryKernel
-	CallScalarRight(*exec.KernelCtx, *exec.ArraySpan, scalar.Scalar, *exec.ExecResult) error
-}
-
-func SimpleBinary[K SimpleBinaryKernel](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	if batch.Len == 0 {
-		return nil
-	}
-
-	var k K
-	if batch.Values[0].IsArray() {
-		if batch.Values[1].IsArray() {
-			return k.Call(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
-		}
-		return k.CallScalarRight(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
-	}
-
-	if batch.Values[1].IsArray() {
-		return k.CallScalarLeft(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
-	}
-
-	debug.Assert(false, "should be unreachable")
-	return fmt.Errorf("%w: should be unreachable", arrow.ErrInvalid)
-}
diff --git a/go/arrow/compute/internal/kernels/vector_hash.go b/go/arrow/compute/internal/kernels/vector_hash.go
deleted file mode 100644
index 57f925dc251b1..0000000000000
--- a/go/arrow/compute/internal/kernels/vector_hash.go
+++ /dev/null
@@ -1,565 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/hashing"
-)
-
-type HashState interface {
-	// Reset for another run
-	Reset() error
-	// Flush out accumulated results from last invocation
-	Flush(*exec.ExecResult) error
-	// FlushFinal flushes the accumulated results across all invocations
-	// of calls. The kernel should not be used again until after
-	// Reset() is called.
-	FlushFinal(out *exec.ExecResult) error
-	// GetDictionary returns the values (keys) accumulated in the dictionary
-	// so far.
-	GetDictionary() (arrow.ArrayData, error)
-	ValueType() arrow.DataType
-	// Append prepares the action for the given input (reserving appropriately
-	// sized data structures, etc.) and visits the input with the Action
-	Append(*exec.KernelCtx, *exec.ArraySpan) error
-	Allocator() memory.Allocator
-}
-
-type Action interface {
-	Reset() error
-	Reserve(int) error
-	Flush(*exec.ExecResult) error
-	FlushFinal(*exec.ExecResult) error
-	ObserveFound(int)
-	ObserveNotFound(int) error
-	ObserveNullFound(int)
-	ObserveNullNotFound(int) error
-	ShouldEncodeNulls() bool
-}
-
-type emptyAction struct {
-	mem memory.Allocator
-	dt  arrow.DataType
-}
-
-func (emptyAction) Reset() error                      { return nil }
-func (emptyAction) Reserve(int) error                 { return nil }
-func (emptyAction) Flush(*exec.ExecResult) error      { return nil }
-func (emptyAction) FlushFinal(*exec.ExecResult) error { return nil }
-func (emptyAction) ObserveFound(int)                  {}
-func (emptyAction) ObserveNotFound(int) error         { return nil }
-func (emptyAction) ObserveNullFound(int)              {}
-func (emptyAction) ObserveNullNotFound(int) error     { return nil }
-func (emptyAction) ShouldEncodeNulls() bool           { return true }
-
-type uniqueAction = emptyAction
-
-type regularHashState struct {
-	mem       memory.Allocator
-	typ       arrow.DataType
-	memoTable hashing.MemoTable
-	action    Action
-
-	doAppend func(Action, hashing.MemoTable, *exec.ArraySpan) error
-}
-
-func (rhs *regularHashState) Allocator() memory.Allocator { return rhs.mem }
-
-func (rhs *regularHashState) ValueType() arrow.DataType { return rhs.typ }
-
-func (rhs *regularHashState) Reset() error {
-	rhs.memoTable.Reset()
-	return rhs.action.Reset()
-}
-
-func (rhs *regularHashState) Append(_ *exec.KernelCtx, arr *exec.ArraySpan) error {
-	if err := rhs.action.Reserve(int(arr.Len)); err != nil {
-		return err
-	}
-
-	return rhs.doAppend(rhs.action, rhs.memoTable, arr)
-}
-
-func (rhs *regularHashState) Flush(out *exec.ExecResult) error { return rhs.action.Flush(out) }
-func (rhs *regularHashState) FlushFinal(out *exec.ExecResult) error {
-	return rhs.action.FlushFinal(out)
-}
-
-func (rhs *regularHashState) GetDictionary() (arrow.ArrayData, error) {
-	return array.GetDictArrayData(rhs.mem, rhs.typ, rhs.memoTable, 0)
-}
-
-func doAppendBinary[OffsetT int32 | int64](action Action, memo hashing.MemoTable, arr *exec.ArraySpan) error {
-	var (
-		bitmap            = arr.Buffers[0].Buf
-		offsets           = exec.GetSpanOffsets[OffsetT](arr, 1)
-		data              = arr.Buffers[2].Buf
-		shouldEncodeNulls = action.ShouldEncodeNulls()
-	)
-
-	return bitutils.VisitBitBlocksShort(bitmap, arr.Offset, arr.Len,
-		func(pos int64) error {
-			v := data[offsets[pos]:offsets[pos+1]]
-			idx, found, err := memo.GetOrInsert(v)
-			if err != nil {
-				return err
-			}
-			if found {
-				action.ObserveFound(idx)
-				return nil
-			}
-			return action.ObserveNotFound(idx)
-		},
-		func() error {
-			if !shouldEncodeNulls {
-				return action.ObserveNullNotFound(-1)
-			}
-
-			idx, found := memo.GetOrInsertNull()
-			if found {
-				action.ObserveNullFound(idx)
-			}
-			return action.ObserveNullNotFound(idx)
-		})
-}
-
-func doAppendFixedSize(action Action, memo hashing.MemoTable, arr *exec.ArraySpan) error {
-	sz := int64(arr.Type.(arrow.FixedWidthDataType).Bytes())
-	arrData := arr.Buffers[1].Buf[arr.Offset*sz:]
-	shouldEncodeNulls := action.ShouldEncodeNulls()
-
-	return bitutils.VisitBitBlocksShort(arr.Buffers[0].Buf, arr.Offset, arr.Len,
-		func(pos int64) error {
-			// fixed size type memo table we use a binary memo table
-			// so get the raw bytes
-			idx, found, err := memo.GetOrInsert(arrData[pos*sz : (pos+1)*sz])
-			if err != nil {
-				return err
-			}
-			if found {
-				action.ObserveFound(idx)
-				return nil
-			}
-			return action.ObserveNotFound(idx)
-		}, func() error {
-			if !shouldEncodeNulls {
-				return action.ObserveNullNotFound(-1)
-			}
-
-			idx, found := memo.GetOrInsertNull()
-			if found {
-				action.ObserveNullFound(idx)
-			}
-			return action.ObserveNullNotFound(idx)
-		})
-}
-
-func doAppendNumeric[T arrow.IntType | arrow.UintType | arrow.FloatType](action Action, memo hashing.MemoTable, arr *exec.ArraySpan) error {
-	arrData := exec.GetSpanValues[T](arr, 1)
-	shouldEncodeNulls := action.ShouldEncodeNulls()
-	return bitutils.VisitBitBlocksShort(arr.Buffers[0].Buf, arr.Offset, arr.Len,
-		func(pos int64) error {
-			idx, found, err := memo.GetOrInsert(arrData[pos])
-			if err != nil {
-				return err
-			}
-			if found {
-				action.ObserveFound(idx)
-				return nil
-			}
-			return action.ObserveNotFound(idx)
-		}, func() error {
-			if !shouldEncodeNulls {
-				return action.ObserveNullNotFound(-1)
-			}
-
-			idx, found := memo.GetOrInsertNull()
-			if found {
-				action.ObserveNullFound(idx)
-			}
-			return action.ObserveNullNotFound(idx)
-		})
-}
-
-type nullHashState struct {
-	mem      memory.Allocator
-	typ      arrow.DataType
-	seenNull bool
-	action   Action
-}
-
-func (nhs *nullHashState) Allocator() memory.Allocator { return nhs.mem }
-
-func (nhs *nullHashState) ValueType() arrow.DataType { return nhs.typ }
-
-func (nhs *nullHashState) Reset() error {
-	return nhs.action.Reset()
-}
-
-func (nhs *nullHashState) Append(_ *exec.KernelCtx, arr *exec.ArraySpan) (err error) {
-	if err := nhs.action.Reserve(int(arr.Len)); err != nil {
-		return err
-	}
-
-	for i := 0; i < int(arr.Len); i++ {
-		if i == 0 {
-			nhs.seenNull = true
-			err = nhs.action.ObserveNullNotFound(0)
-		} else {
-			nhs.action.ObserveNullFound(0)
-		}
-	}
-	return
-}
-
-func (nhs *nullHashState) Flush(out *exec.ExecResult) error { return nhs.action.Flush(out) }
-func (nhs *nullHashState) FlushFinal(out *exec.ExecResult) error {
-	return nhs.action.FlushFinal(out)
-}
-
-func (nhs *nullHashState) GetDictionary() (arrow.ArrayData, error) {
-	var out arrow.Array
-	if nhs.seenNull {
-		out = array.NewNull(1)
-	} else {
-		out = array.NewNull(0)
-	}
-	data := out.Data()
-	data.Retain()
-	out.Release()
-	return data, nil
-}
-
-type dictionaryHashState struct {
-	indicesKernel HashState
-	dictionary    arrow.Array
-	dictValueType arrow.DataType
-}
-
-func (dhs *dictionaryHashState) Allocator() memory.Allocator { return dhs.indicesKernel.Allocator() }
-func (dhs *dictionaryHashState) Reset() error                { return dhs.indicesKernel.Reset() }
-func (dhs *dictionaryHashState) Flush(out *exec.ExecResult) error {
-	return dhs.indicesKernel.Flush(out)
-}
-func (dhs *dictionaryHashState) FlushFinal(out *exec.ExecResult) error {
-	return dhs.indicesKernel.FlushFinal(out)
-}
-func (dhs *dictionaryHashState) GetDictionary() (arrow.ArrayData, error) {
-	return dhs.indicesKernel.GetDictionary()
-}
-func (dhs *dictionaryHashState) ValueType() arrow.DataType           { return dhs.indicesKernel.ValueType() }
-func (dhs *dictionaryHashState) DictionaryValueType() arrow.DataType { return dhs.dictValueType }
-func (dhs *dictionaryHashState) Dictionary() arrow.Array             { return dhs.dictionary }
-func (dhs *dictionaryHashState) Append(ctx *exec.KernelCtx, arr *exec.ArraySpan) error {
-	arrDict := arr.Dictionary().MakeArray()
-	if dhs.dictionary == nil || array.Equal(dhs.dictionary, arrDict) {
-		dhs.dictionary = arrDict
-		return dhs.indicesKernel.Append(ctx, arr)
-	}
-
-	defer arrDict.Release()
-
-	// NOTE: this approach computes a new dictionary unification per chunk
-	// this is in effect O(n*k) where n is the total chunked array length
-	// and k is the number of chunks (therefore O(n**2) if chunks have a fixed size).
-	//
-	// A better approach may be to run the kernel over each individual chunk,
-	// and then hash-aggregate all results (for example sum-group-by for
-	// the "value_counts" kernel)
-	unifier, err := array.NewDictionaryUnifier(dhs.indicesKernel.Allocator(), dhs.dictValueType)
-	if err != nil {
-		return err
-	}
-	defer unifier.Release()
-
-	if err := unifier.Unify(dhs.dictionary); err != nil {
-		return err
-	}
-	transposeMap, err := unifier.UnifyAndTranspose(arrDict)
-	if err != nil {
-		return err
-	}
-	defer transposeMap.Release()
-	_, outDict, err := unifier.GetResult()
-	if err != nil {
-		return err
-	}
-	defer func() {
-		dhs.dictionary.Release()
-		dhs.dictionary = outDict
-	}()
-
-	inDict := arr.MakeData()
-	defer inDict.Release()
-	tmp, err := array.TransposeDictIndices(dhs.Allocator(), inDict, arr.Type, arr.Type, outDict.Data(), arrow.Int32Traits.CastFromBytes(transposeMap.Bytes()))
-	if err != nil {
-		return err
-	}
-	defer tmp.Release()
-
-	var tmpSpan exec.ArraySpan
-	tmpSpan.SetMembers(tmp)
-	return dhs.indicesKernel.Append(ctx, &tmpSpan)
-}
-
-func nullHashInit(actionInit initAction) exec.KernelInitFn {
-	return func(ctx *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
-		mem := exec.GetAllocator(ctx.Ctx)
-		ret := &nullHashState{
-			mem:    mem,
-			typ:    args.Inputs[0],
-			action: actionInit(args.Inputs[0], args.Options, mem),
-		}
-		ret.Reset()
-		return ret, nil
-	}
-}
-
-func newMemoTable(mem memory.Allocator, dt arrow.Type) (hashing.MemoTable, error) {
-	switch dt {
-	case arrow.INT8, arrow.UINT8:
-		return hashing.NewUint8MemoTable(0), nil
-	case arrow.INT16, arrow.UINT16:
-		return hashing.NewUint16MemoTable(0), nil
-	case arrow.INT32, arrow.UINT32, arrow.FLOAT32,
-		arrow.DATE32, arrow.TIME32, arrow.INTERVAL_MONTHS:
-		return hashing.NewUint32MemoTable(0), nil
-	case arrow.INT64, arrow.UINT64, arrow.FLOAT64,
-		arrow.DATE64, arrow.TIME64, arrow.TIMESTAMP,
-		arrow.DURATION, arrow.INTERVAL_DAY_TIME:
-		return hashing.NewUint64MemoTable(0), nil
-	case arrow.BINARY, arrow.STRING, arrow.FIXED_SIZE_BINARY, arrow.DECIMAL128,
-		arrow.DECIMAL256, arrow.INTERVAL_MONTH_DAY_NANO:
-		return hashing.NewBinaryMemoTable(0, 0,
-			array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)), nil
-	case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-		return hashing.NewBinaryMemoTable(0, 0,
-			array.NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)), nil
-	default:
-		return nil, fmt.Errorf("%w: unsupported type %s", arrow.ErrNotImplemented, dt)
-	}
-}
-
-func regularHashInit(dt arrow.DataType, actionInit initAction, appendFn func(Action, hashing.MemoTable, *exec.ArraySpan) error) exec.KernelInitFn {
-	return func(ctx *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
-		mem := exec.GetAllocator(ctx.Ctx)
-		memoTable, err := newMemoTable(mem, dt.ID())
-		if err != nil {
-			return nil, err
-		}
-
-		ret := &regularHashState{
-			mem:       mem,
-			typ:       args.Inputs[0],
-			memoTable: memoTable,
-			action:    actionInit(args.Inputs[0], args.Options, mem),
-			doAppend:  appendFn,
-		}
-		ret.Reset()
-		return ret, nil
-	}
-}
-
-func dictionaryHashInit(actionInit initAction) exec.KernelInitFn {
-	return func(ctx *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
-		var (
-			dictType      = args.Inputs[0].(*arrow.DictionaryType)
-			indicesHasher exec.KernelState
-			err           error
-		)
-
-		switch dictType.IndexType.ID() {
-		case arrow.INT8, arrow.UINT8:
-			indicesHasher, err = getHashInit(arrow.UINT8, actionInit)(ctx, args)
-		case arrow.INT16, arrow.UINT16:
-			indicesHasher, err = getHashInit(arrow.UINT16, actionInit)(ctx, args)
-		case arrow.INT32, arrow.UINT32:
-			indicesHasher, err = getHashInit(arrow.UINT32, actionInit)(ctx, args)
-		case arrow.INT64, arrow.UINT64:
-			indicesHasher, err = getHashInit(arrow.UINT64, actionInit)(ctx, args)
-		default:
-			return nil, fmt.Errorf("%w: unsupported dictionary index type", arrow.ErrInvalid)
-		}
-		if err != nil {
-			return nil, err
-		}
-
-		return &dictionaryHashState{
-			indicesKernel: indicesHasher.(HashState),
-			dictValueType: dictType.ValueType,
-		}, nil
-	}
-}
-
-type initAction func(arrow.DataType, any, memory.Allocator) Action
-
-func getHashInit(typeID arrow.Type, actionInit initAction) exec.KernelInitFn {
-	switch typeID {
-	case arrow.NULL:
-		return nullHashInit(actionInit)
-	case arrow.INT8, arrow.UINT8:
-		return regularHashInit(arrow.PrimitiveTypes.Uint8, actionInit, doAppendNumeric[uint8])
-	case arrow.INT16, arrow.UINT16:
-		return regularHashInit(arrow.PrimitiveTypes.Uint16, actionInit, doAppendNumeric[uint16])
-	case arrow.INT32, arrow.UINT32, arrow.FLOAT32,
-		arrow.DATE32, arrow.TIME32, arrow.INTERVAL_MONTHS:
-		return regularHashInit(arrow.PrimitiveTypes.Uint32, actionInit, doAppendNumeric[uint32])
-	case arrow.INT64, arrow.UINT64, arrow.FLOAT64,
-		arrow.DATE64, arrow.TIME64, arrow.TIMESTAMP,
-		arrow.DURATION, arrow.INTERVAL_DAY_TIME:
-		return regularHashInit(arrow.PrimitiveTypes.Uint64, actionInit, doAppendNumeric[uint64])
-	case arrow.BINARY, arrow.STRING:
-		return regularHashInit(arrow.BinaryTypes.Binary, actionInit, doAppendBinary[int32])
-	case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-		return regularHashInit(arrow.BinaryTypes.LargeBinary, actionInit, doAppendBinary[int64])
-	case arrow.FIXED_SIZE_BINARY, arrow.DECIMAL128, arrow.DECIMAL256:
-		return regularHashInit(arrow.BinaryTypes.Binary, actionInit, doAppendFixedSize)
-	case arrow.INTERVAL_MONTH_DAY_NANO:
-		return regularHashInit(arrow.FixedWidthTypes.MonthDayNanoInterval, actionInit, doAppendFixedSize)
-	default:
-		debug.Assert(false, "unsupported hash init type")
-		return nil
-	}
-}
-
-func hashExec(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	impl, ok := ctx.State.(HashState)
-	if !ok {
-		return fmt.Errorf("%w: bad initialization of hash state", arrow.ErrInvalid)
-	}
-
-	if err := impl.Append(ctx, &batch.Values[0].Array); err != nil {
-		return err
-	}
-
-	return impl.Flush(out)
-}
-
-func uniqueFinalize(ctx *exec.KernelCtx, results []*exec.ArraySpan) ([]*exec.ArraySpan, error) {
-	impl, ok := ctx.State.(HashState)
-	if !ok {
-		return nil, fmt.Errorf("%w: HashState in invalid state", arrow.ErrInvalid)
-	}
-
-	for _, r := range results {
-		// release any pre-allocation we did
-		r.Release()
-	}
-
-	uniques, err := impl.GetDictionary()
-	if err != nil {
-		return nil, err
-	}
-	defer uniques.Release()
-
-	var out exec.ArraySpan
-	out.TakeOwnership(uniques)
-	return []*exec.ArraySpan{&out}, nil
-}
-
-func ensureHashDictionary(ctx *exec.KernelCtx, hash *dictionaryHashState) (*exec.ArraySpan, error) {
-	out := &exec.ArraySpan{}
-
-	if hash.dictionary != nil {
-		out.TakeOwnership(hash.dictionary.Data())
-		hash.dictionary.Release()
-		return out, nil
-	}
-
-	exec.FillZeroLength(hash.DictionaryValueType(), out)
-	return out, nil
-}
-
-func uniqueFinalizeDictionary(ctx *exec.KernelCtx, result []*exec.ArraySpan) (out []*exec.ArraySpan, err error) {
-	if out, err = uniqueFinalize(ctx, result); err != nil {
-		return
-	}
-
-	hash, ok := ctx.State.(*dictionaryHashState)
-	if !ok {
-		return nil, fmt.Errorf("%w: state should be *dictionaryHashState", arrow.ErrInvalid)
-	}
-
-	dict, err := ensureHashDictionary(ctx, hash)
-	if err != nil {
-		return nil, err
-	}
-	out[0].SetDictionary(dict)
-	return
-}
-
-func addHashKernels(base exec.VectorKernel, actionInit initAction, outTy exec.OutputType) []exec.VectorKernel {
-	kernels := make([]exec.VectorKernel, 0)
-	for _, ty := range primitiveTypes {
-		base.Init = getHashInit(ty.ID(), actionInit)
-		base.Signature = &exec.KernelSignature{
-			InputTypes: []exec.InputType{exec.NewExactInput(ty)},
-			OutType:    outTy,
-		}
-		kernels = append(kernels, base)
-	}
-
-	parametricTypes := []arrow.Type{arrow.TIME32, arrow.TIME64, arrow.TIMESTAMP,
-		arrow.DURATION, arrow.FIXED_SIZE_BINARY, arrow.DECIMAL128, arrow.DECIMAL256,
-		arrow.INTERVAL_DAY_TIME, arrow.INTERVAL_MONTHS, arrow.INTERVAL_MONTH_DAY_NANO}
-	for _, ty := range parametricTypes {
-		base.Init = getHashInit(ty, actionInit)
-		base.Signature = &exec.KernelSignature{
-			InputTypes: []exec.InputType{exec.NewIDInput(ty)},
-			OutType:    outTy,
-		}
-		kernels = append(kernels, base)
-	}
-
-	return kernels
-}
-
-func initUnique(dt arrow.DataType, _ any, mem memory.Allocator) Action {
-	return uniqueAction{mem: mem, dt: dt}
-}
-
-func GetVectorHashKernels() (unique, valueCounts, dictEncode []exec.VectorKernel) {
-	var base exec.VectorKernel
-	base.ExecFn = hashExec
-
-	// unique
-	base.Finalize = uniqueFinalize
-	base.OutputChunked = false
-	base.CanExecuteChunkWise = true
-	unique = addHashKernels(base, initUnique, OutputFirstType)
-
-	// dictionary unique
-	base.Init = dictionaryHashInit(initUnique)
-	base.Finalize = uniqueFinalizeDictionary
-	base.Signature = &exec.KernelSignature{
-		InputTypes: []exec.InputType{exec.NewIDInput(arrow.DICTIONARY)},
-		OutType:    OutputFirstType,
-	}
-	unique = append(unique, base)
-
-	return
-}
diff --git a/go/arrow/compute/internal/kernels/vector_run_end_encode.go b/go/arrow/compute/internal/kernels/vector_run_end_encode.go
deleted file mode 100644
index 08f8cf44b9206..0000000000000
--- a/go/arrow/compute/internal/kernels/vector_run_end_encode.go
+++ /dev/null
@@ -1,957 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"bytes"
-	"fmt"
-	"sort"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type RunEndEncodeState struct {
-	RunEndType arrow.DataType
-}
-
-func (RunEndEncodeState) TypeName() string {
-	return "RunEndEncodeOptions"
-}
-
-type RunEndsType interface {
-	int16 | int32 | int64
-}
-
-func readFixedWidthVal[V arrow.FixedWidthType](inputValidity, inputValues []byte, offset int64, out *V) bool {
-	sz := int64(unsafe.Sizeof(*out))
-	*out = *(*V)(unsafe.Pointer(&inputValues[offset*sz]))
-	return bitutil.BitIsSet(inputValidity, int(offset))
-}
-
-func writeFixedWidthVal[V arrow.FixedWidthType](result *exec.ExecResult, offset int64, valid bool, value V) {
-	if len(result.Buffers[0].Buf) != 0 {
-		bitutil.SetBitTo(result.Buffers[0].Buf, int(offset), valid)
-	}
-
-	arr := arrow.GetData[V](result.Buffers[1].Buf)
-	arr[offset] = value
-}
-
-func readBoolVal(inputValidity, inputValues []byte, offset int64, out *bool) bool {
-	*out = bitutil.BitIsSet(inputValues, int(offset))
-	return bitutil.BitIsSet(inputValidity, int(offset))
-}
-
-func writeBoolVal(result *exec.ExecResult, offset int64, valid bool, value bool) {
-	if len(result.Buffers[0].Buf) != 0 {
-		bitutil.SetBitTo(result.Buffers[0].Buf, int(offset), valid)
-	}
-	bitutil.SetBitTo(result.Buffers[1].Buf, int(offset), value)
-}
-
-type runEndEncodeLoopFixedWidth[R RunEndsType, V arrow.FixedWidthType | bool] struct {
-	inputLen, inputOffset int64
-	inputValidity         []byte
-	inputValues           []byte
-	valueType             arrow.DataType
-
-	readValue  func(inputValidity, inputValues []byte, offset int64, out *V) bool
-	writeValue func(*exec.ExecResult, int64, bool, V)
-}
-
-func (re *runEndEncodeLoopFixedWidth[R, V]) WriteEncodedRuns(out *exec.ExecResult) int64 {
-	outputRunEnds := arrow.GetData[R](out.Children[0].Buffers[1].Buf)
-
-	readOffset := re.inputOffset
-	var currentRun V
-	curRunValid := re.readValue(re.inputValidity, re.inputValues, readOffset, &currentRun)
-	readOffset++
-
-	var writeOffset int64
-	var value V
-	for readOffset < re.inputOffset+re.inputLen {
-		valid := re.readValue(re.inputValidity, re.inputValues, readOffset, &value)
-		if valid != curRunValid || value != currentRun {
-			// close the current run by writing it out
-			re.writeValue(&out.Children[1], writeOffset, curRunValid, currentRun)
-			runEnd := R(readOffset - re.inputOffset)
-			outputRunEnds[writeOffset] = runEnd
-			writeOffset++
-			curRunValid, currentRun = valid, value
-		}
-		readOffset++
-	}
-
-	re.writeValue(&out.Children[1], writeOffset, curRunValid, currentRun)
-	outputRunEnds[writeOffset] = R(re.inputLen)
-	return writeOffset + 1
-}
-
-func (re *runEndEncodeLoopFixedWidth[R, V]) CountNumberOfRuns() (numValid, numOutput int64) {
-	offset := re.inputOffset
-	var currentRun V
-	curRunValid := re.readValue(re.inputValidity, re.inputValues, offset, &currentRun)
-	offset++
-
-	if curRunValid {
-		numValid = 1
-	}
-	numOutput = 1
-
-	var value V
-	for offset < re.inputOffset+re.inputLen {
-		valid := re.readValue(re.inputValidity, re.inputValues, offset, &value)
-		offset++
-		// new run
-		if valid != curRunValid || value != currentRun {
-			currentRun = value
-			curRunValid = valid
-
-			numOutput++
-			if valid {
-				numValid++
-			}
-		}
-	}
-	return
-}
-
-func (re *runEndEncodeLoopFixedWidth[R, V]) PreallocOutput(ctx *exec.KernelCtx, numOutput int64, out *exec.ExecResult) {
-	runEndsBuffer := ctx.Allocate(int(numOutput) * int(SizeOf[R]()))
-	var validityBuffer *memory.Buffer
-	if len(re.inputValidity) > 0 {
-		validityBuffer = ctx.AllocateBitmap(numOutput)
-	}
-
-	var valueBuffer *memory.Buffer
-	bufSpec := re.valueType.Layout().Buffers[1]
-	if bufSpec.Kind == arrow.KindBitmap {
-		valueBuffer = ctx.AllocateBitmap(numOutput)
-	} else {
-		valueBuffer = ctx.Allocate(int(numOutput) * bufSpec.ByteWidth)
-	}
-
-	reeType := arrow.RunEndEncodedOf(arrow.GetDataType[R](), re.valueType)
-	out.Release()
-
-	*out = exec.ExecResult{
-		Type:   reeType,
-		Len:    re.inputLen,
-		Nulls:  0,
-		Offset: 0,
-		Children: []exec.ArraySpan{
-			{
-				Type: reeType.RunEnds(),
-				Len:  numOutput,
-			},
-			{
-				Type: reeType.Encoded(),
-				Len:  numOutput,
-			},
-		},
-	}
-
-	out.Children[0].Buffers[1].WrapBuffer(runEndsBuffer)
-	if validityBuffer != nil {
-		out.Children[1].Buffers[0].WrapBuffer(validityBuffer)
-	}
-	out.Children[1].Buffers[1].WrapBuffer(valueBuffer)
-}
-
-type runEndEncodeFSB[R RunEndsType] struct {
-	inputLen, inputOffset      int64
-	inputValidity, inputValues []byte
-	valueType                  arrow.DataType
-	width                      int
-}
-
-func (re *runEndEncodeFSB[R]) readValue(idx int64) ([]byte, bool) {
-	if len(re.inputValidity) > 0 && bitutil.BitIsNotSet(re.inputValidity, int(idx)) {
-		return nil, false
-	}
-
-	start, end := idx*int64(re.width), (idx+1)*int64(re.width)
-	return re.inputValues[start:end], true
-}
-
-func (re *runEndEncodeFSB[R]) CountNumberOfRuns() (numValid, numOutput int64) {
-	offset := re.inputOffset
-	currentRun, curRunValid := re.readValue(offset)
-	offset++
-
-	if curRunValid {
-		numValid++
-	}
-	numOutput = 1
-
-	for offset < re.inputOffset+re.inputLen {
-		value, valid := re.readValue(offset)
-		offset++
-		if valid != curRunValid || !bytes.Equal(value, currentRun) {
-			currentRun, curRunValid = value, valid
-			numOutput++
-			if valid {
-				numValid++
-			}
-		}
-	}
-	return
-}
-
-func (re *runEndEncodeFSB[R]) PreallocOutput(ctx *exec.KernelCtx, numOutput int64, out *exec.ExecResult) {
-	runEndsBuffer := ctx.Allocate(int(numOutput) * int(SizeOf[R]()))
-	var validityBuffer *memory.Buffer
-	if len(re.inputValidity) > 0 {
-		validityBuffer = ctx.AllocateBitmap(numOutput)
-	}
-
-	valueBuffer := ctx.Allocate(re.width * int(numOutput))
-	reeType := arrow.RunEndEncodedOf(arrow.GetDataType[R](), re.valueType)
-	out.Release()
-
-	*out = exec.ExecResult{
-		Type:   reeType,
-		Len:    re.inputLen,
-		Nulls:  0,
-		Offset: 0,
-		Children: []exec.ArraySpan{
-			{
-				Type: reeType.RunEnds(),
-				Len:  numOutput,
-			},
-			{
-				Type: reeType.Encoded(),
-				Len:  numOutput,
-			},
-		},
-	}
-
-	out.Children[0].Buffers[1].WrapBuffer(runEndsBuffer)
-	if validityBuffer != nil {
-		out.Children[1].Buffers[0].WrapBuffer(validityBuffer)
-	}
-	out.Children[1].Buffers[1].WrapBuffer(valueBuffer)
-}
-
-func (re *runEndEncodeFSB[R]) WriteEncodedRuns(out *exec.ExecResult) int64 {
-	outputRunEnds := arrow.GetData[R](out.Children[0].Buffers[1].Buf)
-	outputValues := out.Children[1].Buffers[1].Buf
-
-	readOffset := re.inputOffset
-	currentRun, curRunValid := re.readValue(readOffset)
-	readOffset++
-
-	var writeOffset int64
-	validityBuf := out.Children[1].Buffers[0].Buf
-	setValidity := func(valid bool) {}
-	if len(validityBuf) > 0 {
-		setValidity = func(valid bool) {
-			bitutil.SetBitTo(validityBuf, int(writeOffset), valid)
-		}
-	}
-
-	writeValue := func(valid bool, value []byte) {
-		setValidity(valid)
-		start := writeOffset * int64(re.width)
-		copy(outputValues[start:], value)
-	}
-
-	for readOffset < re.inputOffset+re.inputLen {
-		value, valid := re.readValue(readOffset)
-
-		if valid != curRunValid || !bytes.Equal(value, currentRun) {
-			writeValue(curRunValid, currentRun)
-			runEnd := R(readOffset - re.inputOffset)
-			outputRunEnds[writeOffset] = runEnd
-			writeOffset++
-			curRunValid, currentRun = valid, value
-		}
-
-		readOffset++
-	}
-
-	writeValue(curRunValid, currentRun)
-	outputRunEnds[writeOffset] = R(re.inputLen)
-	return writeOffset + 1
-}
-
-type runEndEncodeLoopBinary[R RunEndsType, O int32 | int64] struct {
-	inputLen, inputOffset      int64
-	inputValidity, inputValues []byte
-	offsetValues               []O
-	valueType                  arrow.DataType
-
-	estimatedValuesLen int64
-}
-
-func (re *runEndEncodeLoopBinary[R, O]) readValue(idx int64) ([]byte, bool) {
-	if len(re.inputValidity) > 0 && bitutil.BitIsNotSet(re.inputValidity, int(idx+re.inputOffset)) {
-		return nil, false
-	}
-
-	start, end := re.offsetValues[idx], re.offsetValues[idx+1]
-	return re.inputValues[start:end], true
-}
-
-func (re *runEndEncodeLoopBinary[R, O]) CountNumberOfRuns() (numValid, numOutput int64) {
-	re.estimatedValuesLen = 0
-	// re.offsetValues already accounts for the input.Offset so we don't
-	// need to use it as the initial value for `offset` here.
-	var offset int64
-	currentRun, curRunValid := re.readValue(offset)
-	offset++
-
-	if curRunValid {
-		numValid = 1
-		re.estimatedValuesLen += int64(len(currentRun))
-	}
-	numOutput = 1
-
-	for offset < re.inputLen {
-		value, valid := re.readValue(offset)
-		offset++
-		// new run
-		if valid != curRunValid || !bytes.Equal(value, currentRun) {
-			if valid {
-				re.estimatedValuesLen += int64(len(value))
-			}
-
-			currentRun = value
-			curRunValid = valid
-
-			numOutput++
-			if valid {
-				numValid++
-			}
-		}
-	}
-	return
-}
-
-func (re *runEndEncodeLoopBinary[R, O]) PreallocOutput(ctx *exec.KernelCtx, numOutput int64, out *exec.ExecResult) {
-	runEndsBuffer := ctx.Allocate(int(numOutput) * int(SizeOf[R]()))
-	var validityBuffer *memory.Buffer
-	if len(re.inputValidity) > 0 {
-		validityBuffer = ctx.AllocateBitmap(numOutput)
-	}
-
-	valueBuffer := ctx.Allocate(int(re.estimatedValuesLen))
-	offsetsBuffer := ctx.Allocate(int(numOutput+1) * int(SizeOf[O]()))
-
-	reeType := arrow.RunEndEncodedOf(arrow.GetDataType[R](), re.valueType)
-	*out = exec.ExecResult{
-		Type:   reeType,
-		Len:    re.inputLen,
-		Nulls:  0,
-		Offset: 0,
-		Children: []exec.ArraySpan{
-			{
-				Type: reeType.RunEnds(),
-				Len:  numOutput,
-			},
-			{
-				Type: reeType.Encoded(),
-				Len:  numOutput,
-			},
-		},
-	}
-
-	out.Children[0].Buffers[1].WrapBuffer(runEndsBuffer)
-	if validityBuffer != nil {
-		out.Children[1].Buffers[0].WrapBuffer(validityBuffer)
-	}
-	out.Children[1].Buffers[1].WrapBuffer(offsetsBuffer)
-	out.Children[1].Buffers[2].WrapBuffer(valueBuffer)
-}
-
-func (re *runEndEncodeLoopBinary[R, O]) WriteEncodedRuns(out *exec.ExecResult) int64 {
-	outputRunEnds := arrow.GetData[R](out.Children[0].Buffers[1].Buf)
-	outputOffsets := exec.GetSpanOffsets[O](&out.Children[1], 1)
-	outputValues := out.Children[1].Buffers[2].Buf
-
-	// re.offsetValues already accounts for the input.offset so we don't
-	// need to initialize readOffset to re.inputOffset
-	var readOffset int64
-	currentRun, curRunValid := re.readValue(readOffset)
-	readOffset++
-
-	var writeOffset, valueOffset int64
-	validityBuf := out.Children[1].Buffers[0].Buf
-	setValidity := func(valid bool) {}
-	if len(validityBuf) > 0 {
-		setValidity = func(valid bool) {
-			bitutil.SetBitTo(validityBuf, int(writeOffset), valid)
-		}
-	}
-
-	outputOffsets[0], outputOffsets = 0, outputOffsets[1:]
-
-	writeValue := func(valid bool, value []byte) {
-		setValidity(valid)
-		valueOffset += int64(copy(outputValues[valueOffset:], value))
-		outputOffsets[writeOffset] = O(valueOffset)
-	}
-
-	for readOffset < re.inputLen {
-		value, valid := re.readValue(readOffset)
-
-		if valid != curRunValid || !bytes.Equal(value, currentRun) {
-			writeValue(curRunValid, currentRun)
-			runEnd := R(readOffset)
-			outputRunEnds[writeOffset] = runEnd
-			writeOffset++
-			curRunValid, currentRun = valid, value
-		}
-		readOffset++
-	}
-
-	writeValue(curRunValid, currentRun)
-	outputRunEnds[writeOffset] = R(re.inputLen)
-	return writeOffset + 1
-}
-
-func validateRunEndType[R RunEndsType](length int64) error {
-	runEndMax := MaxOf[R]()
-	if length > int64(runEndMax) {
-		return fmt.Errorf("%w: cannot run-end encode arrays with more elements than the run end type can hold: %d",
-			arrow.ErrInvalid, runEndMax)
-	}
-	return nil
-}
-
-func createEncoder[R RunEndsType, V arrow.FixedWidthType](input *exec.ArraySpan) *runEndEncodeLoopFixedWidth[R, V] {
-	return &runEndEncodeLoopFixedWidth[R, V]{
-		inputLen:      input.Len,
-		inputOffset:   input.Offset,
-		inputValidity: input.Buffers[0].Buf,
-		inputValues:   input.Buffers[1].Buf,
-		valueType:     input.Type,
-		readValue:     readFixedWidthVal[V],
-		writeValue:    writeFixedWidthVal[V],
-	}
-}
-
-func createVarBinaryEncoder[R RunEndsType, O int32 | int64](input *exec.ArraySpan) *runEndEncodeLoopBinary[R, O] {
-	return &runEndEncodeLoopBinary[R, O]{
-		inputLen:      input.Len,
-		inputOffset:   input.Offset,
-		inputValidity: input.Buffers[0].Buf,
-		inputValues:   input.Buffers[2].Buf,
-		// exec.GetSpanOffsets applies input.Offset to the resulting slice
-		offsetValues: exec.GetSpanOffsets[O](input, 1),
-		valueType:    input.Type,
-	}
-}
-
-func newEncoder[R RunEndsType](input *exec.ArraySpan) encoder {
-	switch input.Type.ID() {
-	case arrow.BOOL:
-		return &runEndEncodeLoopFixedWidth[R, bool]{
-			inputLen:      input.Len,
-			inputOffset:   input.Offset,
-			inputValidity: input.Buffers[0].Buf,
-			inputValues:   input.Buffers[1].Buf,
-			valueType:     input.Type,
-			readValue:     readBoolVal,
-			writeValue:    writeBoolVal,
-		}
-	// for the other fixed size types, we only need to
-	// handle the different physical representations.
-	case arrow.INT8, arrow.UINT8:
-		return createEncoder[R, uint8](input)
-	case arrow.INT16, arrow.UINT16:
-		return createEncoder[R, uint16](input)
-	case arrow.INT32, arrow.UINT32, arrow.DATE32,
-		arrow.TIME32, arrow.INTERVAL_MONTHS:
-		return createEncoder[R, uint32](input)
-	case arrow.INT64, arrow.UINT64, arrow.DATE64,
-		arrow.TIME64, arrow.DURATION, arrow.TIMESTAMP:
-		return createEncoder[R, uint64](input)
-	case arrow.FLOAT16:
-		return createEncoder[R, float16.Num](input)
-	case arrow.FLOAT32:
-		return createEncoder[R, float32](input)
-	case arrow.FLOAT64:
-		return createEncoder[R, float64](input)
-	case arrow.DECIMAL128:
-		return createEncoder[R, decimal128.Num](input)
-	case arrow.DECIMAL256:
-		return createEncoder[R, decimal256.Num](input)
-	case arrow.INTERVAL_DAY_TIME:
-		return createEncoder[R, arrow.DayTimeInterval](input)
-	case arrow.INTERVAL_MONTH_DAY_NANO:
-		return createEncoder[R, arrow.MonthDayNanoInterval](input)
-	case arrow.BINARY, arrow.STRING:
-		return createVarBinaryEncoder[R, int32](input)
-	case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-		return createVarBinaryEncoder[R, int64](input)
-	case arrow.FIXED_SIZE_BINARY:
-		return &runEndEncodeFSB[R]{
-			inputLen:      input.Len,
-			inputOffset:   input.Offset,
-			inputValidity: input.Buffers[0].Buf,
-			inputValues:   input.Buffers[1].Buf,
-			valueType:     input.Type,
-			width:         input.Type.(*arrow.FixedSizeBinaryType).ByteWidth,
-		}
-	}
-	return nil
-}
-
-type encoder interface {
-	CountNumberOfRuns() (numValid, numOutput int64)
-	PreallocOutput(*exec.KernelCtx, int64, *exec.ExecResult)
-	WriteEncodedRuns(*exec.ExecResult) int64
-}
-
-func runEndEncodeImpl[R RunEndsType](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	// first pass: count the number of runs
-	var (
-		inputArr      = &batch.Values[0].Array
-		inputLen      = inputArr.Len
-		numOutputRuns int64
-		numValidRuns  int64
-		enc           encoder
-	)
-
-	if inputLen == 0 {
-		reeType := arrow.RunEndEncodedOf(arrow.GetDataType[R](), inputArr.Type)
-		*out = exec.ExecResult{
-			Type: reeType,
-			Children: []exec.ArraySpan{
-				{Type: reeType.RunEnds()}, {Type: reeType.Encoded()},
-			},
-		}
-		return nil
-	}
-
-	if err := validateRunEndType[R](inputLen); err != nil {
-		return err
-	}
-
-	enc = newEncoder[R](inputArr)
-	numValidRuns, numOutputRuns = enc.CountNumberOfRuns()
-	enc.PreallocOutput(ctx, numOutputRuns, out)
-
-	out.Children[1].Nulls = numOutputRuns - numValidRuns
-
-	written := enc.WriteEncodedRuns(out)
-	debug.Assert(written == numOutputRuns, "mismatch number of written values")
-	return nil
-}
-
-func runEndEncodeExec(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	reeType := ctx.State.(RunEndEncodeState).RunEndType
-	switch reeType.ID() {
-	case arrow.INT16:
-		return runEndEncodeImpl[int16](ctx, batch, out)
-	case arrow.INT32:
-		return runEndEncodeImpl[int32](ctx, batch, out)
-	case arrow.INT64:
-		return runEndEncodeImpl[int64](ctx, batch, out)
-	}
-
-	return fmt.Errorf("%w: bad run end type %s", arrow.ErrInvalid, reeType)
-}
-
-type decodeBool[R RunEndsType] struct {
-	inputLen, inputOffset int64
-	inputRunEnds          []R
-
-	inputPhysicalOffset int64
-	inputValidity       []byte
-	inputValues         []byte
-	inputValueOffset    int64
-}
-
-func (de *decodeBool[R]) PreallocOutput(ctx *exec.KernelCtx, out *exec.ExecResult) {
-	*out = exec.ExecResult{
-		Type: arrow.FixedWidthTypes.Boolean,
-		Len:  de.inputLen,
-	}
-
-	if len(de.inputValidity) != 0 {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(de.inputLen))
-	}
-
-	out.Buffers[1].WrapBuffer(ctx.AllocateBitmap(de.inputLen))
-}
-
-func (de *decodeBool[R]) ExpandAllRuns(out *exec.ExecResult) int64 {
-	var (
-		writeOffset         int64
-		runLength, numValid int64
-		outputValues        = out.Buffers[1].Buf
-		prevRunEnd          = R(de.inputOffset)
-		hasValidity         = len(de.inputValidity) != 0 && len(out.Buffers[0].Buf) != 0
-	)
-
-	for i, runEnd := range de.inputRunEnds[de.inputPhysicalOffset:] {
-		runLength, prevRunEnd = int64(runEnd-prevRunEnd), runEnd
-		// if this run is a null, clear the bits and update writeOffset
-		if hasValidity {
-			if bitutil.BitIsNotSet(de.inputValidity, int(de.inputValueOffset+de.inputPhysicalOffset)+i) {
-				bitutil.SetBitsTo(out.Buffers[0].Buf, writeOffset, runLength, false)
-				writeOffset += runLength
-				continue
-			}
-
-			// if the output has a validity bitmap, update it with 1s
-			bitutil.SetBitsTo(out.Buffers[0].Buf, writeOffset, runLength, true)
-		}
-
-		// get the value for this run + where to start writing
-		value := bitutil.BitIsSet(de.inputValues, int(de.inputValueOffset+de.inputPhysicalOffset)+i)
-		bitutil.SetBitsTo(outputValues, writeOffset, runLength, value)
-		writeOffset += runLength
-		numValid += runLength
-	}
-
-	return numValid
-}
-
-type decodeFixedWidth[R RunEndsType] struct {
-	inputLen, inputOffset int64
-	inputRunEnds          []R
-
-	inputPhysicalOffset int64
-	inputValidity       []byte
-	inputValues         []byte
-	inputValueOffset    int64
-
-	valueType arrow.DataType
-}
-
-func (de *decodeFixedWidth[R]) PreallocOutput(ctx *exec.KernelCtx, out *exec.ExecResult) {
-	*out = exec.ExecResult{
-		Type: de.valueType,
-		Len:  de.inputLen,
-	}
-
-	if len(de.inputValidity) != 0 {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(de.inputLen))
-	}
-
-	out.Buffers[1].WrapBuffer(ctx.Allocate(int(de.inputLen) * de.valueType.(arrow.FixedWidthDataType).Bytes()))
-}
-
-func (de *decodeFixedWidth[R]) ExpandAllRuns(out *exec.ExecResult) int64 {
-	var (
-		writeOffset         int64
-		runLength, numValid int64
-		outputValues        = out.Buffers[1].Buf
-		width               = de.valueType.(arrow.FixedWidthDataType).Bytes()
-		inputValues         = de.inputValues[(de.inputValueOffset+de.inputPhysicalOffset)*int64(width):]
-		prevRunEnd          = R(de.inputOffset)
-		hasValidity         = len(de.inputValidity) != 0 && len(out.Buffers[0].Buf) != 0
-	)
-
-	for i, runEnd := range de.inputRunEnds[de.inputPhysicalOffset:] {
-		runLength, prevRunEnd = int64(runEnd-prevRunEnd), runEnd
-		// if this run is a null, clear the bits and update writeOffset
-		if hasValidity {
-			if bitutil.BitIsNotSet(de.inputValidity, int(de.inputValueOffset+de.inputPhysicalOffset)+i) {
-				bitutil.SetBitsTo(out.Buffers[0].Buf, writeOffset, runLength, false)
-				writeOffset += runLength
-				continue
-			}
-
-			// if the output has a validity bitmap, update it with 1s
-			bitutil.SetBitsTo(out.Buffers[0].Buf, writeOffset, runLength, true)
-		}
-
-		// get the value for this run + where to start writing
-		var (
-			value       = inputValues[i*width : (i+1)*width]
-			outputStart = writeOffset * int64(width)
-		)
-		writeOffset += runLength
-		numValid += runLength
-
-		// get the slice of our output buffer we want to fill
-		// just incrementally duplicate the bytes until we've filled
-		// the slice with runLength copies of the value
-		outputSlice := outputValues[outputStart : writeOffset*int64(width)]
-		copy(outputSlice, value)
-		for j := width; j < len(outputSlice); j *= 2 {
-			copy(outputSlice[j:], outputSlice[:j])
-		}
-	}
-
-	return numValid
-}
-
-type decodeBinary[R RunEndsType, O int32 | int64] struct {
-	inputLen, inputLogicalOffset int64
-	inputRunEnds                 []R
-
-	inputPhysicalOffset int64
-	inputValuesOffset   int64
-	inputValidity       []byte
-	inputValues         []byte
-	inputOffsets        []O
-
-	valueType arrow.DataType
-}
-
-func (de *decodeBinary[R, O]) PreallocOutput(ctx *exec.KernelCtx, out *exec.ExecResult) {
-	var (
-		runLength  int64
-		prevRunEnd = R(de.inputLogicalOffset)
-		totalSize  int
-	)
-
-	for i, runEnd := range de.inputRunEnds[de.inputPhysicalOffset:] {
-		runLength, prevRunEnd = int64(runEnd-prevRunEnd), runEnd
-
-		start := de.inputOffsets[de.inputPhysicalOffset+int64(i)]
-		end := de.inputOffsets[de.inputPhysicalOffset+int64(i)+1]
-
-		totalSize += int(end-start) * int(runLength)
-	}
-
-	*out = exec.ExecResult{
-		Type: de.valueType,
-		Len:  de.inputLen,
-	}
-
-	if len(de.inputValidity) != 0 {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(de.inputLen))
-	}
-
-	out.Buffers[1].WrapBuffer(ctx.Allocate(int(de.inputLen+1) * int(SizeOf[O]())))
-	out.Buffers[2].WrapBuffer(ctx.Allocate(totalSize))
-}
-
-func (de *decodeBinary[R, O]) ExpandAllRuns(out *exec.ExecResult) int64 {
-	var (
-		writeOffset, valueWriteOffset int64
-		runLength, numValid           int64
-		outputOffsets                 = exec.GetSpanOffsets[O](out, 1)
-		outputValues                  = out.Buffers[2].Buf
-		prevRunEnd                    = R(de.inputLogicalOffset)
-		hasValidity                   = len(de.inputValidity) != 0 && len(out.Buffers[0].Buf) != 0
-	)
-
-	for i, runEnd := range de.inputRunEnds[de.inputPhysicalOffset:] {
-		runLength, prevRunEnd = int64(runEnd-prevRunEnd), runEnd
-
-		// if this run is a null, clear the bits and update writeOffset
-		if hasValidity && bitutil.BitIsNotSet(de.inputValidity, int(de.inputValuesOffset+de.inputPhysicalOffset)+i) {
-			bitutil.SetBitsTo(out.Buffers[0].Buf, writeOffset, runLength, false)
-		} else {
-			numValid += runLength
-			if hasValidity {
-				bitutil.SetBitsTo(out.Buffers[0].Buf, writeOffset, runLength, true)
-			}
-		}
-
-		// get the value for this run + where to start writing
-		// de.inputOffsets already accounts for inputOffset so we don't
-		// need to add it here, we can just use the physicaloffset and that's
-		// sufficient to get the correct values.
-		var (
-			start = de.inputOffsets[de.inputPhysicalOffset+int64(i)]
-			end   = de.inputOffsets[de.inputPhysicalOffset+int64(i)+1]
-			value = de.inputValues[start:end]
-
-			outputValueEnd = valueWriteOffset + int64(len(value)*int(runLength))
-		)
-
-		// get the slice of our output buffer we want to fill
-		// just incrementally duplicate the bytes until we've filled
-		// the slice with runLength copies of the value
-		outputSlice := outputValues[valueWriteOffset:outputValueEnd]
-		copy(outputSlice, value)
-		for j := len(value); j < len(outputSlice); j *= 2 {
-			copy(outputSlice[j:], outputSlice[:j])
-		}
-
-		for j := int64(0); j < runLength; j++ {
-			outputOffsets[writeOffset+j] = O(valueWriteOffset)
-			valueWriteOffset += int64(len(value))
-		}
-
-		writeOffset += runLength
-	}
-
-	outputOffsets[writeOffset] = O(valueWriteOffset)
-	return numValid
-}
-
-type decoder interface {
-	PreallocOutput(*exec.KernelCtx, *exec.ExecResult)
-	ExpandAllRuns(*exec.ExecResult) int64
-}
-
-func newDecoder[R RunEndsType](input *exec.ArraySpan) decoder {
-	logicalOffset := R(input.Offset)
-	runEnds := exec.GetSpanValues[R](&input.Children[0], 1)
-	physicalOffset := sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > logicalOffset })
-
-	switch dt := input.Children[1].Type.(type) {
-	case *arrow.BooleanType:
-		return &decodeBool[R]{
-			inputLen:            input.Len,
-			inputOffset:         input.Offset,
-			inputValidity:       input.Children[1].Buffers[0].Buf,
-			inputValues:         input.Children[1].Buffers[1].Buf,
-			inputValueOffset:    input.Children[1].Offset,
-			inputPhysicalOffset: int64(physicalOffset),
-			inputRunEnds:        runEnds,
-		}
-	case *arrow.BinaryType, *arrow.StringType:
-		return &decodeBinary[R, int32]{
-			inputLen:            input.Len,
-			inputLogicalOffset:  input.Offset,
-			inputRunEnds:        runEnds,
-			inputPhysicalOffset: int64(physicalOffset),
-			inputValuesOffset:   input.Children[1].Offset,
-			inputValidity:       input.Children[1].Buffers[0].Buf,
-			inputValues:         input.Children[1].Buffers[2].Buf,
-			inputOffsets:        exec.GetSpanOffsets[int32](&input.Children[1], 1),
-			valueType:           input.Children[1].Type,
-		}
-	case *arrow.LargeBinaryType, *arrow.LargeStringType:
-		return &decodeBinary[R, int64]{
-			inputLen:            input.Len,
-			inputLogicalOffset:  input.Offset,
-			inputRunEnds:        runEnds,
-			inputPhysicalOffset: int64(physicalOffset),
-			inputValuesOffset:   input.Children[1].Offset,
-			inputValidity:       input.Children[1].Buffers[0].Buf,
-			inputValues:         input.Children[1].Buffers[2].Buf,
-			inputOffsets:        exec.GetSpanOffsets[int64](&input.Children[1], 1),
-			valueType:           input.Children[1].Type,
-		}
-	case arrow.FixedWidthDataType:
-		return &decodeFixedWidth[R]{
-			inputLen:            input.Len,
-			inputOffset:         input.Offset,
-			inputRunEnds:        runEnds,
-			inputPhysicalOffset: int64(physicalOffset),
-			inputValidity:       input.Children[1].Buffers[0].Buf,
-			inputValues:         input.Children[1].Buffers[1].Buf,
-			inputValueOffset:    input.Children[1].Offset,
-			valueType:           dt,
-		}
-	}
-
-	return nil
-}
-
-func runEndDecodeImpl[R RunEndsType](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	inputArr := &batch.Values[0].Array
-
-	if inputArr.Len == 0 {
-		return nil
-	}
-
-	dec := newDecoder[R](inputArr)
-	dec.PreallocOutput(ctx, out)
-	out.Nulls = inputArr.Len - dec.ExpandAllRuns(out)
-	return nil
-}
-
-func runEndDecodeExec(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	reeType := batch.Values[0].Type().(*arrow.RunEndEncodedType)
-	switch reeType.RunEnds().ID() {
-	case arrow.INT16:
-		return runEndDecodeImpl[int16](ctx, batch, out)
-	case arrow.INT32:
-		return runEndDecodeImpl[int32](ctx, batch, out)
-	case arrow.INT64:
-		return runEndDecodeImpl[int64](ctx, batch, out)
-	}
-
-	return fmt.Errorf("%w: bad run end type %s", arrow.ErrInvalid, reeType.RunEnds())
-}
-
-func runEndEncodeOutputTypeResolver(ctx *exec.KernelCtx, inputTypes []arrow.DataType) (arrow.DataType, error) {
-	reeType := ctx.State.(RunEndEncodeState).RunEndType
-	return arrow.RunEndEncodedOf(reeType, inputTypes[0]), nil
-}
-
-func runEndDecodeOutputTypeResolver(ctx *exec.KernelCtx, inputTypes []arrow.DataType) (arrow.DataType, error) {
-	reeType := inputTypes[0].(*arrow.RunEndEncodedType)
-	return reeType.Encoded(), nil
-}
-
-func GetRunEndEncodeKernels() (encodeKns, decodeKns []exec.VectorKernel) {
-	baseEncode := exec.VectorKernel{
-		NullHandling:        exec.NullNoOutput,
-		MemAlloc:            exec.MemNoPrealloc,
-		CanExecuteChunkWise: true,
-		ExecFn:              runEndEncodeExec,
-		OutputChunked:       true,
-	}
-
-	baseDecode := exec.VectorKernel{
-		NullHandling:        exec.NullNoOutput,
-		MemAlloc:            exec.MemNoPrealloc,
-		CanExecuteChunkWise: true,
-		ExecFn:              runEndDecodeExec,
-		OutputChunked:       true,
-	}
-
-	baseEncode.Init = exec.OptionsInit[RunEndEncodeState]
-
-	encodeKns, decodeKns = make([]exec.VectorKernel, 0), make([]exec.VectorKernel, 0)
-	addKernel := func(ty arrow.Type) {
-		baseEncode.Signature = &exec.KernelSignature{
-			InputTypes: []exec.InputType{exec.NewIDInput(ty)},
-			OutType:    exec.NewComputedOutputType(runEndEncodeOutputTypeResolver),
-		}
-		encodeKns = append(encodeKns, baseEncode)
-
-		baseDecode.Signature = &exec.KernelSignature{
-			InputTypes: []exec.InputType{exec.NewMatchedInput(
-				exec.RunEndEncoded(exec.Integer(), exec.SameTypeID(ty)))},
-			OutType: exec.NewComputedOutputType(runEndDecodeOutputTypeResolver),
-		}
-		decodeKns = append(decodeKns, baseDecode)
-	}
-
-	for _, ty := range primitiveTypes {
-		addKernel(ty.ID())
-	}
-	addKernel(arrow.BOOL)
-
-	nonPrimitiveSupported := []arrow.Type{
-		arrow.FLOAT16, arrow.DECIMAL128, arrow.DECIMAL256,
-		arrow.TIME32, arrow.TIME64, arrow.TIMESTAMP,
-		arrow.INTERVAL_DAY_TIME, arrow.INTERVAL_MONTHS,
-		arrow.INTERVAL_MONTH_DAY_NANO,
-		arrow.FIXED_SIZE_BINARY,
-	}
-
-	for _, ty := range nonPrimitiveSupported {
-		addKernel(ty)
-	}
-
-	return
-}
diff --git a/go/arrow/compute/internal/kernels/vector_selection.go b/go/arrow/compute/internal/kernels/vector_selection.go
deleted file mode 100644
index e96782f4cd5ea..0000000000000
--- a/go/arrow/compute/internal/kernels/vector_selection.go
+++ /dev/null
@@ -1,1789 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package kernels
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-type NullSelectionBehavior int8
-
-const (
-	DropNulls NullSelectionBehavior = iota
-	EmitNulls
-)
-
-type FilterOptions struct {
-	NullSelection NullSelectionBehavior `compute:"null_selection_behavior"`
-}
-
-func (FilterOptions) TypeName() string { return "FilterOptions" }
-
-type FilterState = FilterOptions
-
-type TakeOptions struct {
-	BoundsCheck bool
-}
-
-func (TakeOptions) TypeName() string { return "TakeOptions" }
-
-type TakeState = TakeOptions
-
-func getFilterOutputSize(filter *exec.ArraySpan, nullSelection NullSelectionBehavior) (size int64) {
-	if filter.MayHaveNulls() {
-		counter := bitutils.NewBinaryBitBlockCounter(filter.Buffers[1].Buf,
-			filter.Buffers[0].Buf, filter.Offset, filter.Offset, filter.Len)
-
-		pos := int64(0)
-		if nullSelection == EmitNulls {
-			for pos < filter.Len {
-				block := counter.NextOrNotWord()
-				size += int64(block.Popcnt)
-				pos += int64(block.Len)
-			}
-		} else {
-			for pos < filter.Len {
-				block := counter.NextAndWord()
-				size += int64(block.Popcnt)
-				pos += int64(block.Len)
-			}
-		}
-		return
-	}
-
-	// filter has no nulls, so we can just use CountSetBits
-	return int64(bitutil.CountSetBits(filter.Buffers[1].Buf, int(filter.Offset), int(filter.Len)))
-}
-
-func preallocateData(ctx *exec.KernelCtx, length int64, bitWidth int, allocateValidity bool, out *exec.ExecResult) {
-	out.Len = length
-	if allocateValidity {
-		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(length))
-	}
-	if bitWidth == 1 {
-		out.Buffers[1].WrapBuffer(ctx.AllocateBitmap(length))
-	} else {
-		out.Buffers[1].WrapBuffer(ctx.Allocate(int(length) * (bitWidth / 8)))
-	}
-}
-
-type builder[T any] interface {
-	array.Builder
-	Append(T)
-	UnsafeAppend(T)
-	UnsafeAppendBoolToBitmap(bool)
-}
-
-func getTakeIndices[T arrow.IntType | arrow.UintType](mem memory.Allocator, filter *exec.ArraySpan, nullSelect NullSelectionBehavior) arrow.ArrayData {
-	var (
-		filterData      = filter.Buffers[1].Buf
-		haveFilterNulls = filter.MayHaveNulls()
-		filterIsValid   = filter.Buffers[0].Buf
-		idxType         = arrow.GetDataType[T]()
-	)
-
-	if haveFilterNulls && nullSelect == EmitNulls {
-		// Most complex case: the filter may have nulls and we don't drop them.
-		// The logic is ternary:
-		// - filter is null: emit null
-		// - filter is valid and true: emit index
-		// - filter is valid and false: don't emit anything
-
-		bldr := array.NewBuilder(mem, idxType).(builder[T])
-		defer bldr.Release()
-
-		// position relative to start of filter
-		var pos T
-		// current position taking the filter offset into account
-		posWithOffset := filter.Offset
-
-		// to count blocks where filterData[i] || !filterIsValid[i]
-		filterCounter := bitutils.NewBinaryBitBlockCounter(filterData, filterIsValid, filter.Offset, filter.Offset, filter.Len)
-		isValidCounter := bitutils.NewBitBlockCounter(filterIsValid, filter.Offset, filter.Len)
-		for int64(pos) < filter.Len {
-			// true OR NOT valid
-			selectedOrNullBlock := filterCounter.NextOrNotWord()
-			if selectedOrNullBlock.NoneSet() {
-				pos += T(selectedOrNullBlock.Len)
-				posWithOffset += int64(selectedOrNullBlock.Len)
-				continue
-			}
-			bldr.Reserve(int(selectedOrNullBlock.Popcnt))
-
-			// if the values are all valid and the selectedOrNullBlock
-			// is full, then we can infer that all the values are true
-			// and skip the bit checking
-			isValidBlock := isValidCounter.NextWord()
-			if selectedOrNullBlock.AllSet() && isValidBlock.AllSet() {
-				// all the values are selected and non-null
-				for i := 0; i < int(selectedOrNullBlock.Len); i++ {
-					bldr.UnsafeAppend(pos)
-					pos++
-				}
-				posWithOffset += int64(selectedOrNullBlock.Len)
-			} else {
-				// some of the values are false or null
-				for i := 0; i < int(selectedOrNullBlock.Len); i++ {
-					if bitutil.BitIsSet(filterIsValid, int(posWithOffset)) {
-						if bitutil.BitIsSet(filterData, int(posWithOffset)) {
-							bldr.UnsafeAppend(pos)
-						}
-					} else {
-						// null slot, append null
-						bldr.UnsafeAppendBoolToBitmap(false)
-					}
-					pos++
-					posWithOffset++
-				}
-			}
-		}
-
-		result := bldr.NewArray()
-		defer result.Release()
-		result.Data().Retain()
-		return result.Data()
-	}
-
-	bldr := newBufferBuilder[T](mem)
-	if haveFilterNulls {
-		// the filter may have nulls, so we scan the validity bitmap
-		// and the filter data bitmap together
-		debug.Assert(nullSelect == DropNulls, "incorrect nullselect logic")
-
-		// position relative to start of the filter
-		var pos T
-		// current position taking the filter offset into account
-		posWithOffset := filter.Offset
-
-		filterCounter := bitutils.NewBinaryBitBlockCounter(filterData, filterIsValid, filter.Offset, filter.Offset, filter.Len)
-		for int64(pos) < filter.Len {
-			andBlock := filterCounter.NextAndWord()
-			bldr.reserve(int(andBlock.Popcnt))
-			if andBlock.AllSet() {
-				// all the values are selected and non-null
-				for i := 0; i < int(andBlock.Len); i++ {
-					bldr.unsafeAppend(pos)
-					pos++
-				}
-				posWithOffset += int64(andBlock.Len)
-			} else if !andBlock.NoneSet() {
-				// some values are false or null
-				for i := 0; i < int(andBlock.Len); i++ {
-					if bitutil.BitIsSet(filterIsValid, int(posWithOffset)) && bitutil.BitIsSet(filterData, int(posWithOffset)) {
-						bldr.unsafeAppend(pos)
-					}
-					pos++
-					posWithOffset++
-				}
-			} else {
-				pos += T(andBlock.Len)
-				posWithOffset += int64(andBlock.Len)
-			}
-		}
-	} else {
-		// filter has no nulls, so we only need to look for true values
-		bitutils.VisitSetBitRuns(filterData, filter.Offset, filter.Len,
-			func(pos, length int64) error {
-				// append consecutive run of indices
-				bldr.reserve(int(length))
-				for i := int64(0); i < length; i++ {
-					bldr.unsafeAppend(T(pos + i))
-				}
-				return nil
-			})
-	}
-
-	length := bldr.len()
-	outBuf := bldr.finish()
-	defer outBuf.Release()
-	return array.NewData(idxType, length, []*memory.Buffer{nil, outBuf}, nil, 0, 0)
-}
-
-func GetTakeIndices(mem memory.Allocator, filter *exec.ArraySpan, nullSelect NullSelectionBehavior) (arrow.ArrayData, error) {
-	debug.Assert(filter.Type.ID() == arrow.BOOL, "filter should be a boolean array")
-	if filter.Len < math.MaxUint16 {
-		return getTakeIndices[uint16](mem, filter, nullSelect), nil
-	} else if filter.Len < math.MaxUint32 {
-		return getTakeIndices[uint32](mem, filter, nullSelect), nil
-	}
-	return nil, fmt.Errorf("%w: filter length exceeds UINT32_MAX, consider a different strategy for selecting elements",
-		arrow.ErrNotImplemented)
-}
-
-type writeFiltered interface {
-	OutPos() int
-	WriteValue(int64)
-	WriteValueSegment(int64, int64)
-	WriteNull()
-}
-
-type dropNullCounter struct {
-	dataCounter         bitutils.BitBlockCounter
-	dataValidityCounter bitutils.BinaryBitBlockCounter
-	hasValidity         bool
-}
-
-func newDropNullCounter(validity []byte, data []byte, offset int64, length int64) *dropNullCounter {
-	return &dropNullCounter{
-		dataCounter:         *bitutils.NewBitBlockCounter(data, offset, length),
-		dataValidityCounter: *bitutils.NewBinaryBitBlockCounter(data, validity, offset, offset, length),
-		hasValidity:         len(validity) > 0,
-	}
-}
-
-func (n *dropNullCounter) NextBlock() bitutils.BitBlockCount {
-	if n.hasValidity {
-		// filter is true AND not null
-		return n.dataValidityCounter.NextAndWord()
-	}
-	return n.dataCounter.NextWord()
-}
-
-func primitiveFilterImpl(wr writeFiltered, values *exec.ArraySpan, filter *exec.ArraySpan, nullSelection NullSelectionBehavior, out *exec.ExecResult) {
-	var (
-		valuesIsValid = values.Buffers[0].Buf
-		filterIsValid = filter.Buffers[0].Buf
-		filterData    = filter.Buffers[1].Buf
-		outIsValid    = out.Buffers[0].Buf
-	)
-
-	if filter.Nulls == 0 && values.Nulls == 0 {
-		// fast filter path when values and filters have no nulls
-		bitutils.VisitSetBitRuns(filterData, filter.Offset, values.Len,
-			func(pos, length int64) error {
-				wr.WriteValueSegment(pos, length)
-				return nil
-			})
-		return
-	}
-
-	var (
-		dropNulls          = newDropNullCounter(filterIsValid, filterData, filter.Offset, values.Len)
-		dataCounter        = bitutils.NewOptionalBitBlockCounter(valuesIsValid, values.Offset, values.Len)
-		filterValidCounter = bitutils.NewOptionalBitBlockCounter(filterIsValid, filter.Offset, values.Len)
-		writeNotNull       = func(idx int64) {
-			bitutil.SetBit(outIsValid, int(out.Offset)+wr.OutPos())
-			wr.WriteValue(idx)
-		}
-		writeMaybeNull = func(idx int64) {
-			bitutil.SetBitTo(outIsValid, int(out.Offset)+wr.OutPos(),
-				bitutil.BitIsSet(valuesIsValid, int(values.Offset+idx)))
-			wr.WriteValue(idx)
-		}
-		inPos int64
-	)
-
-	for inPos < values.Len {
-		filterBlock := dropNulls.NextBlock()
-		filterValidBlock := filterValidCounter.NextWord()
-		dataBlock := dataCounter.NextWord()
-
-		switch {
-		case filterBlock.AllSet() && dataBlock.AllSet():
-			// faster path: all values in block are included and not null
-			bitutil.SetBitsTo(outIsValid, out.Offset+int64(wr.OutPos()), int64(filterBlock.Len), true)
-			wr.WriteValueSegment(inPos, int64(filterBlock.Len))
-			inPos += int64(filterBlock.Len)
-		case filterBlock.AllSet():
-			// faster: all values are selected, but some are null
-			// batch copy bits from values validity bitmap to output validity bitmap
-			bitutil.CopyBitmap(valuesIsValid, int(values.Offset+inPos), int(filterBlock.Len),
-				outIsValid, int(out.Offset)+wr.OutPos())
-			wr.WriteValueSegment(inPos, int64(filterBlock.Len))
-			inPos += int64(filterBlock.Len)
-		case filterBlock.NoneSet() && nullSelection == DropNulls:
-			// for this exceedingly common case in low-selectivity filters
-			// we can skip further analysis of the data and move onto the next block
-			inPos += int64(filterBlock.Len)
-		default:
-			// some filter values are false or null
-			if dataBlock.AllSet() {
-				// no values are null
-				if filterValidBlock.AllSet() {
-					// filter is non-null but some values are false
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
-							writeNotNull(inPos)
-						}
-						inPos++
-					}
-				} else if nullSelection == DropNulls {
-					// if any values are selected, they ARE NOT  null
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if bitutil.BitIsSet(filterIsValid, int(filter.Offset+inPos)) &&
-							bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
-							writeNotNull(inPos)
-						}
-						inPos++
-					}
-				} else { // nullselect == EmitNulls
-					// data values in this block are not null
-					for i := 0; i < int(filterBlock.Len); i++ {
-						isValid := bitutil.BitIsSet(filterIsValid, int(filter.Offset+inPos))
-						if isValid && bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
-							// filter slot is non-null and set
-							writeNotNull(inPos)
-						} else if !isValid {
-							// filter slot is null, so we have a null in the output
-							bitutil.ClearBit(outIsValid, int(out.Offset)+wr.OutPos())
-							wr.WriteNull()
-						}
-						inPos++
-					}
-				}
-			} else { // !dataBlock.AllSet()
-				// some values are null
-				if filterValidBlock.AllSet() {
-					// filter is non-null but some values are false
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
-							writeMaybeNull(inPos)
-						}
-						inPos++
-					}
-				} else if nullSelection == DropNulls {
-					// if any values are selected they ARE NOT null
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if bitutil.BitIsSet(filterIsValid, int(filter.Offset+inPos)) && bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
-							writeMaybeNull(inPos)
-						}
-						inPos++
-					}
-				} else { // nullselect == emitnulls
-					// Data values in this block are not null
-					for i := 0; i < int(filterBlock.Len); i++ {
-						isValid := bitutil.BitIsSet(filterIsValid, int(filter.Offset+inPos))
-						if isValid && bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
-							// filter slot is non-null and set
-							writeMaybeNull(inPos)
-						} else if !isValid {
-							// filter slot is null, so we have a null in the output
-							bitutil.ClearBit(outIsValid, int(out.Offset)+wr.OutPos())
-							wr.WriteNull()
-						}
-						inPos++
-					}
-				}
-			}
-		}
-	}
-}
-
-type filterWriter[T arrow.UintType] struct {
-	outPosition  int
-	outOffset    int
-	valuesOffset int
-	valuesData   []T
-	outData      []T
-}
-
-func (f *filterWriter[T]) OutPos() int { return f.outPosition }
-
-func (f *filterWriter[T]) WriteValue(inPos int64) {
-	f.outData[f.outPosition] = f.valuesData[inPos]
-	f.outPosition++
-}
-
-func (f *filterWriter[T]) WriteValueSegment(inStart, length int64) {
-	copy(f.outData[f.outPosition:], f.valuesData[inStart:inStart+length])
-	f.outPosition += int(length)
-}
-
-func (f *filterWriter[T]) WriteNull() {
-	var z T
-	f.outData[f.outPosition] = z
-	f.outPosition++
-}
-
-type boolFilterWriter struct {
-	outPosition  int
-	outOffset    int
-	valuesOffset int
-	valuesData   []byte
-	outData      []byte
-}
-
-func (b *boolFilterWriter) OutPos() int { return b.outPosition }
-
-func (b *boolFilterWriter) WriteValue(inPos int64) {
-	bitutil.SetBitTo(b.outData, b.outOffset+b.outPosition,
-		bitutil.BitIsSet(b.valuesData, b.valuesOffset+int(inPos)))
-}
-
-func (b *boolFilterWriter) WriteValueSegment(inStart, length int64) {
-	bitutil.CopyBitmap(b.valuesData, b.valuesOffset+int(inStart), int(length),
-		b.outData, b.outOffset+b.outPosition)
-	b.outPosition += int(length)
-}
-
-func (b *boolFilterWriter) WriteNull() {
-	bitutil.ClearBit(b.outData, b.outOffset+b.outPosition)
-	b.outPosition++
-}
-
-func PrimitiveFilter(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		values        = &batch.Values[0].Array
-		filter        = &batch.Values[1].Array
-		nullSelection = ctx.State.(FilterState).NullSelection
-	)
-
-	values.UpdateNullCount()
-	filter.UpdateNullCount()
-
-	outputLength := getFilterOutputSize(filter, nullSelection)
-
-	// the output precomputed null count is unknown except in the narrow
-	// condition that all the values are non-null and the filter will not
-	// cause any new nulls to be created
-	if values.Nulls == 0 && (nullSelection == DropNulls || filter.Nulls == 0) {
-		out.Nulls = 0
-	} else {
-		out.Nulls = array.UnknownNullCount
-	}
-
-	// when neither the values nor filter is known to have any nulls,
-	// we will elect the optimized ExecNonNull path where there is no
-	// need to populate a validity bitmap.
-	allocateValidity := values.Nulls != 0 || filter.Nulls != 0
-	bitWidth := values.Type.(arrow.FixedWidthDataType).BitWidth()
-	preallocateData(ctx, outputLength, bitWidth, allocateValidity, out)
-
-	var wr writeFiltered
-	switch bitWidth {
-	case 1:
-		wr = &boolFilterWriter{
-			outOffset:    int(out.Offset),
-			valuesOffset: int(values.Offset),
-			outData:      out.Buffers[1].Buf,
-			valuesData:   values.Buffers[1].Buf,
-		}
-	case 8:
-		wr = &filterWriter[uint8]{
-			outOffset:    int(out.Offset),
-			valuesOffset: int(values.Offset),
-			outData:      exec.GetSpanValues[uint8](out, 1),
-			valuesData:   exec.GetSpanValues[uint8](values, 1),
-		}
-	case 16:
-		wr = &filterWriter[uint16]{
-			outOffset:    int(out.Offset),
-			valuesOffset: int(values.Offset),
-			outData:      exec.GetSpanValues[uint16](out, 1),
-			valuesData:   exec.GetSpanValues[uint16](values, 1),
-		}
-	case 32:
-		wr = &filterWriter[uint32]{
-			outOffset:    int(out.Offset),
-			valuesOffset: int(values.Offset),
-			outData:      exec.GetSpanValues[uint32](out, 1),
-			valuesData:   exec.GetSpanValues[uint32](values, 1),
-		}
-	case 64:
-		wr = &filterWriter[uint64]{
-			outOffset:    int(out.Offset),
-			valuesOffset: int(values.Offset),
-			outData:      exec.GetSpanValues[uint64](out, 1),
-			valuesData:   exec.GetSpanValues[uint64](values, 1),
-		}
-	default:
-		return fmt.Errorf("%w: invalid values bit width", arrow.ErrType)
-	}
-
-	primitiveFilterImpl(wr, values, filter, nullSelection, out)
-	return nil
-}
-
-type primitiveGetter[T arrow.IntType | bool] interface {
-	IsValid(int64) bool
-	GetValue(int64) T
-	NullCount() int64
-	Len() int64
-}
-
-type boolGetter struct {
-	inner  *exec.ArraySpan
-	values []byte
-}
-
-func (b *boolGetter) IsValid(i int64) bool {
-	return bitutil.BitIsSet(b.inner.Buffers[0].Buf, int(b.inner.Offset+i))
-}
-
-func (b *boolGetter) GetValue(i int64) bool {
-	return bitutil.BitIsSet(b.values, int(b.inner.Offset+i))
-}
-
-func (b *boolGetter) NullCount() int64 { return b.inner.Nulls }
-func (b *boolGetter) Len() int64       { return b.inner.Len }
-
-type primitiveGetterImpl[T arrow.IntType] struct {
-	inner  *exec.ArraySpan
-	values []T
-}
-
-func (p *primitiveGetterImpl[T]) IsValid(i int64) bool {
-	return bitutil.BitIsSet(p.inner.Buffers[0].Buf, int(p.inner.Offset+i))
-}
-func (p *primitiveGetterImpl[T]) GetValue(i int64) T { return p.values[i] }
-func (p *primitiveGetterImpl[T]) NullCount() int64   { return p.inner.Nulls }
-func (p *primitiveGetterImpl[T]) Len() int64         { return p.inner.Len }
-
-type chunkedBoolGetter struct {
-	inner         *arrow.Chunked
-	resolver      *exec.ChunkResolver
-	nulls         int64
-	len           int64
-	chunkLengths  []int64
-	valuesData    [][]byte
-	valuesIsValid [][]byte
-	valuesOffset  []int64
-}
-
-func newChunkedBoolGetter(arr *arrow.Chunked) *chunkedBoolGetter {
-	nchunks := len(arr.Chunks())
-	lengths := make([]int64, nchunks)
-	valuesData := make([][]byte, nchunks)
-	valuesIsValid := make([][]byte, nchunks)
-	valuesOffset := make([]int64, nchunks)
-
-	for i, c := range arr.Chunks() {
-		lengths[i] = int64(c.Len())
-		valuesOffset[i] = int64(c.Data().Offset())
-		valuesIsValid[i] = c.NullBitmapBytes()
-		valuesData[i] = c.Data().Buffers()[1].Bytes()
-	}
-
-	return &chunkedBoolGetter{
-		inner:         arr,
-		resolver:      exec.NewChunkResolver(arr.Chunks()),
-		nulls:         int64(arr.NullN()),
-		len:           int64(arr.Len()),
-		chunkLengths:  lengths,
-		valuesData:    valuesData,
-		valuesIsValid: valuesIsValid,
-		valuesOffset:  valuesOffset,
-	}
-}
-
-func (c *chunkedBoolGetter) IsValid(i int64) bool {
-	chunk, chunkidx := c.resolver.Resolve(i)
-	bm := c.valuesIsValid[chunk]
-	if bm == nil {
-		return true
-	}
-	return bitutil.BitIsSet(bm, int(c.valuesOffset[chunk]+chunkidx))
-}
-
-func (c *chunkedBoolGetter) GetValue(i int64) bool {
-	chunk, idx := c.resolver.Resolve(i)
-	return bitutil.BitIsSet(c.valuesData[chunk], int(c.valuesOffset[chunk]+idx))
-}
-
-func (c *chunkedBoolGetter) NullCount() int64 { return c.nulls }
-func (c *chunkedBoolGetter) Len() int64       { return c.len }
-
-type chunkedPrimitiveGetter[T arrow.IntType] struct {
-	inner         *arrow.Chunked
-	resolver      *exec.ChunkResolver
-	nulls         int64
-	len           int64
-	chunkLengths  []int64
-	valuesData    [][]T
-	valuesIsValid [][]byte
-	valuesOffset  []int64
-}
-
-func newChunkedPrimitiveGetter[T arrow.IntType](arr *arrow.Chunked) *chunkedPrimitiveGetter[T] {
-	nchunks := len(arr.Chunks())
-	lengths := make([]int64, nchunks)
-	valuesData := make([][]T, nchunks)
-	valuesIsValid := make([][]byte, nchunks)
-	valuesOffset := make([]int64, nchunks)
-
-	for i, c := range arr.Chunks() {
-		lengths[i] = int64(c.Len())
-		valuesOffset[i] = int64(c.Data().Offset())
-		valuesIsValid[i] = c.NullBitmapBytes()
-		valuesData[i] = arrow.GetValues[T](c.Data(), 1)
-	}
-
-	return &chunkedPrimitiveGetter[T]{
-		inner:         arr,
-		resolver:      exec.NewChunkResolver(arr.Chunks()),
-		nulls:         int64(arr.NullN()),
-		len:           int64(arr.Len()),
-		chunkLengths:  lengths,
-		valuesData:    valuesData,
-		valuesIsValid: valuesIsValid,
-		valuesOffset:  valuesOffset,
-	}
-}
-
-func (c *chunkedPrimitiveGetter[T]) IsValid(i int64) bool {
-	chunk, chunkidx := c.resolver.Resolve(i)
-	bm := c.valuesIsValid[chunk]
-	if bm == nil {
-		return true
-	}
-	return bitutil.BitIsSet(bm, int(c.valuesOffset[chunk]+chunkidx))
-}
-
-func (c *chunkedPrimitiveGetter[T]) GetValue(i int64) T {
-	chunk, idx := c.resolver.Resolve(i)
-	return c.valuesData[chunk][idx]
-}
-
-func (c *chunkedPrimitiveGetter[T]) NullCount() int64 { return c.nulls }
-func (c *chunkedPrimitiveGetter[T]) Len() int64       { return c.len }
-
-func primitiveTakeImpl[IdxT arrow.UintType, ValT arrow.IntType](values primitiveGetter[ValT], indices *exec.ArraySpan, out *exec.ExecResult) {
-	var (
-		indicesData    = exec.GetSpanValues[IdxT](indices, 1)
-		indicesIsValid = indices.Buffers[0].Buf
-		indicesOffset  = indices.Offset
-
-		outData    = exec.GetSpanValues[ValT](out, 1)
-		outIsValid = out.Buffers[0].Buf
-		outOffset  = out.Offset
-	)
-
-	pos, validCount := int64(0), int64(0)
-	if values.NullCount() == 0 && indices.Nulls == 0 {
-		// values and indices are both never null
-		// this means we didn't allocate the validity bitmap
-		// and can simplify everything
-		for i, idx := range indicesData {
-			outData[i] = values.GetValue(int64(idx))
-		}
-		out.Nulls = 0
-		return
-	}
-
-	indicesBitCounter := bitutils.NewOptionalBitBlockCounter(indicesIsValid, indicesOffset, indices.Len)
-	for pos < indices.Len {
-		block := indicesBitCounter.NextBlock()
-		if values.NullCount() == 0 {
-			// values are never null, so things are easier
-			validCount += int64(block.Popcnt)
-			if block.AllSet() {
-				// fastest path: neither values nor index nulls
-				bitutil.SetBitsTo(outIsValid, outOffset+pos, int64(block.Len), true)
-				for i := 0; i < int(block.Len); i++ {
-					outData[pos] = values.GetValue(int64(indicesData[pos]))
-					pos++
-				}
-			} else if block.Popcnt > 0 {
-				// slow path: some indices but not all are null
-				for i := 0; i < int(block.Len); i++ {
-					if bitutil.BitIsSet(indicesIsValid, int(indicesOffset+pos)) {
-						// index is not null
-						bitutil.SetBit(outIsValid, int(outOffset+pos))
-						outData[pos] = values.GetValue(int64(indicesData[pos]))
-					}
-					pos++
-				}
-			} else {
-				pos += int64(block.Len)
-			}
-		} else {
-			// values have nulls, so we must do random access into the values bitmap
-			if block.AllSet() {
-				// faster path: indices are not null but values may be
-				for i := 0; i < int(block.Len); i++ {
-					if values.IsValid(int64(indicesData[pos])) {
-						// value is not null
-						outData[pos] = values.GetValue(int64(indicesData[pos]))
-						bitutil.SetBit(outIsValid, int(outOffset+pos))
-						validCount++
-					}
-					pos++
-				}
-			} else if block.Popcnt > 0 {
-				// slow path: some but not all indices are null. since we
-				// are doing random access in general we have to check the
-				// value nullness one by one
-				for i := 0; i < int(block.Len); i++ {
-					if bitutil.BitIsSet(indicesIsValid, int(indicesOffset+pos)) &&
-						values.IsValid(int64(indicesData[pos])) {
-						// index is not null && value is not null
-						outData[pos] = values.GetValue(int64(indicesData[pos]))
-						bitutil.SetBit(outIsValid, int(outOffset+pos))
-						validCount++
-					}
-					pos++
-				}
-			} else {
-				pos += int64(block.Len)
-			}
-		}
-	}
-
-	out.Nulls = out.Len - validCount
-}
-
-func booleanTakeImpl[IdxT arrow.UintType](values primitiveGetter[bool], indices *exec.ArraySpan, out *exec.ExecResult) {
-	var (
-		indicesData    = exec.GetSpanValues[IdxT](indices, 1)
-		indicesIsValid = indices.Buffers[0].Buf
-		indicesOffset  = indices.Offset
-
-		outData    = out.Buffers[1].Buf
-		outIsValid = out.Buffers[0].Buf
-		outOffset  = out.Offset
-	)
-
-	placeDataBit := func(loc int64, index IdxT) {
-		bitutil.SetBitTo(outData, int(outOffset+loc), values.GetValue(int64(index)))
-	}
-
-	pos, validCount := int64(0), int64(0)
-	if values.NullCount() == 0 && indices.Nulls == 0 {
-		// values and indices are both never null
-		// this means we didn't allocate the validity bitmap
-		// and can simplify everything
-		for i, idx := range indicesData {
-			placeDataBit(int64(i), idx)
-		}
-		out.Nulls = 0
-		return
-	}
-
-	indicesBitCounter := bitutils.NewOptionalBitBlockCounter(indicesIsValid, indicesOffset, indices.Len)
-	for pos < indices.Len {
-		block := indicesBitCounter.NextBlock()
-		if values.NullCount() == 0 {
-			// values are never null so things are easier
-			validCount += int64(block.Popcnt)
-			if block.AllSet() {
-				// fastest path: neither values nor index nulls
-				bitutil.SetBitsTo(outIsValid, outOffset+pos, int64(block.Len), true)
-				for i := 0; i < int(block.Len); i++ {
-					placeDataBit(pos, indicesData[pos])
-					pos++
-				}
-			} else if block.Popcnt > 0 {
-				// slow path: some but not all indices are null
-				for i := 0; i < int(block.Len); i++ {
-					if bitutil.BitIsSet(indicesIsValid, int(indicesOffset+pos)) {
-						// index is not null
-						bitutil.SetBit(outIsValid, int(outOffset+pos))
-						placeDataBit(pos, indicesData[pos])
-					}
-					pos++
-				}
-			} else {
-				pos += int64(block.Len)
-			}
-		} else {
-			// values have nulls so we must do random access into the values bitmap
-			if block.AllSet() {
-				// faster path: indices are not null but values may be
-				for i := 0; i < int(block.Len); i++ {
-					if values.IsValid(int64(indicesData[pos])) {
-						// value is not null
-						bitutil.SetBit(outIsValid, int(outOffset+pos))
-						placeDataBit(pos, indicesData[pos])
-						validCount++
-					}
-					pos++
-				}
-			} else if block.Popcnt > 0 {
-				// slow path: some but not all indices are null.
-				// we have to check the values one by one
-				for i := 0; i < int(block.Len); i++ {
-					if bitutil.BitIsSet(indicesIsValid, int(indicesOffset+pos)) &&
-						values.IsValid(int64(indicesData[pos])) {
-						placeDataBit(pos, indicesData[pos])
-						bitutil.SetBit(outIsValid, int(outOffset+pos))
-						validCount++
-					}
-					pos++
-				}
-			} else {
-				pos += int64(block.Len)
-			}
-		}
-	}
-	out.Nulls = out.Len - validCount
-}
-
-func booleanTakeDispatchChunked(values, indices *arrow.Chunked, out []*exec.ExecResult) error {
-	getter := newChunkedBoolGetter(values)
-	var fn func(primitiveGetter[bool], *exec.ArraySpan, *exec.ExecResult)
-
-	switch indices.DataType().(arrow.FixedWidthDataType).Bytes() {
-	case 1:
-		fn = booleanTakeImpl[uint8]
-	case 2:
-		fn = booleanTakeImpl[uint16]
-	case 4:
-		fn = booleanTakeImpl[uint32]
-	case 8:
-		fn = booleanTakeImpl[uint64]
-	default:
-		return fmt.Errorf("%w: invalid indices byte width", arrow.ErrIndex)
-	}
-
-	var indexSpan exec.ArraySpan
-	for i, c := range indices.Chunks() {
-		indexSpan.SetMembers(c.Data())
-		fn(getter, &indexSpan, out[i])
-	}
-	return nil
-}
-
-func booleanTakeDispatch(values, indices *exec.ArraySpan, out *exec.ExecResult) error {
-	getter := &boolGetter{inner: values, values: values.Buffers[1].Buf}
-
-	switch indices.Type.(arrow.FixedWidthDataType).Bytes() {
-	case 1:
-		booleanTakeImpl[uint8](getter, indices, out)
-	case 2:
-		booleanTakeImpl[uint16](getter, indices, out)
-	case 4:
-		booleanTakeImpl[uint32](getter, indices, out)
-	case 8:
-		booleanTakeImpl[uint64](getter, indices, out)
-	default:
-		return fmt.Errorf("%w: invalid indices byte width", arrow.ErrIndex)
-	}
-	return nil
-}
-
-func takeIdxChunkedDispatch[ValT arrow.IntType](values, indices *arrow.Chunked, out []*exec.ExecResult) error {
-	getter := newChunkedPrimitiveGetter[ValT](values)
-	var fn func(primitiveGetter[ValT], *exec.ArraySpan, *exec.ExecResult)
-
-	switch indices.DataType().(arrow.FixedWidthDataType).Bytes() {
-	case 1:
-		fn = primitiveTakeImpl[uint8, ValT]
-	case 2:
-		fn = primitiveTakeImpl[uint16, ValT]
-	case 4:
-		fn = primitiveTakeImpl[uint32, ValT]
-	case 8:
-		fn = primitiveTakeImpl[uint64, ValT]
-	default:
-		return fmt.Errorf("%w: invalid byte width for indices", arrow.ErrIndex)
-	}
-
-	var indexSpan exec.ArraySpan
-	for i, c := range indices.Chunks() {
-		indexSpan.SetMembers(c.Data())
-		fn(getter, &indexSpan, out[i])
-	}
-	return nil
-}
-
-func takeIdxDispatch[ValT arrow.IntType](values, indices *exec.ArraySpan, out *exec.ExecResult) error {
-	getter := &primitiveGetterImpl[ValT]{inner: values, values: exec.GetSpanValues[ValT](values, 1)}
-
-	switch indices.Type.(arrow.FixedWidthDataType).Bytes() {
-	case 1:
-		primitiveTakeImpl[uint8, ValT](getter, indices, out)
-	case 2:
-		primitiveTakeImpl[uint16, ValT](getter, indices, out)
-	case 4:
-		primitiveTakeImpl[uint32, ValT](getter, indices, out)
-	case 8:
-		primitiveTakeImpl[uint64, ValT](getter, indices, out)
-	default:
-		return fmt.Errorf("%w: invalid indices byte width", arrow.ErrIndex)
-	}
-	return nil
-}
-
-func PrimitiveTake(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		values  = &batch.Values[0].Array
-		indices = &batch.Values[1].Array
-	)
-
-	if ctx.State.(TakeState).BoundsCheck {
-		if err := checkIndexBounds(indices, uint64(values.Len)); err != nil {
-			return err
-		}
-	}
-
-	bitWidth := values.Type.(arrow.FixedWidthDataType).BitWidth()
-	allocateValidity := values.Nulls != 0 || indices.Nulls != 0
-	preallocateData(ctx, indices.Len, bitWidth, allocateValidity, out)
-
-	switch bitWidth {
-	case 1:
-		return booleanTakeDispatch(values, indices, out)
-	case 8:
-		return takeIdxDispatch[int8](values, indices, out)
-	case 16:
-		return takeIdxDispatch[int16](values, indices, out)
-	case 32:
-		return takeIdxDispatch[int32](values, indices, out)
-	case 64:
-		return takeIdxDispatch[int64](values, indices, out)
-	default:
-		return fmt.Errorf("%w: invalid values byte width for take", arrow.ErrInvalid)
-	}
-}
-
-func ChunkedPrimitiveTake(ctx *exec.KernelCtx, batch []*arrow.Chunked, out *exec.ExecResult) ([]*exec.ExecResult, error) {
-	var (
-		values  = batch[0]
-		indices = batch[1]
-	)
-
-	if ctx.State.(TakeState).BoundsCheck {
-		if err := checkIndexBoundsChunked(indices, uint64(values.Len())); err != nil {
-			return nil, err
-		}
-	}
-
-	bitWidth := values.DataType().(arrow.FixedWidthDataType).BitWidth()
-	allocValidity := values.NullN() != 0 || indices.NullN() != 0
-	outData := make([]*exec.ExecResult, len(indices.Chunks()))
-	for i, chunk := range indices.Chunks() {
-		outData[i] = &exec.ExecResult{Type: out.Type}
-		preallocateData(ctx, int64(chunk.Len()), bitWidth, allocValidity, outData[i])
-	}
-
-	switch bitWidth {
-	case 1:
-		return outData, booleanTakeDispatchChunked(values, indices, outData)
-	case 8:
-		return outData, takeIdxChunkedDispatch[int8](values, indices, outData)
-	case 16:
-		return outData, takeIdxChunkedDispatch[int16](values, indices, outData)
-	case 32:
-		return outData, takeIdxChunkedDispatch[int32](values, indices, outData)
-	case 64:
-		return outData, takeIdxChunkedDispatch[int64](values, indices, outData)
-	default:
-		return nil, fmt.Errorf("%w: invalid values byte width for take", arrow.ErrInvalid)
-	}
-}
-
-func NullTake(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	if ctx.State.(TakeState).BoundsCheck {
-		if err := checkIndexBounds(&batch.Values[1].Array, uint64(batch.Values[0].Array.Len)); err != nil {
-			return err
-		}
-	}
-
-	// batch.length doesn't take into account the take indices
-	out.Len = batch.Values[1].Array.Len
-	out.Type = arrow.Null
-	return nil
-}
-
-func NullFilter(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	outputLength := getFilterOutputSize(&batch.Values[1].Array, ctx.State.(FilterState).NullSelection)
-	out.Len = outputLength
-	out.Type = arrow.Null
-	return nil
-}
-
-func filterExec(ctx *exec.KernelCtx, outputLen int64, values, selection *exec.ArraySpan, out *exec.ExecResult, visitValid func(idx int64) error, visitNull func() error) error {
-	var (
-		nullSelection = ctx.State.(FilterState).NullSelection
-		filterData    = selection.Buffers[1].Buf
-		filterIsValid = selection.Buffers[0].Buf
-		filterOffset  = selection.Offset
-
-		// we use 3 block counters for fast scanning
-		//
-		// values valid counter: for values null/not-null
-		// filter valid counter: for filter null/not-null
-		// filter counter: for filter true/false
-		valuesIsValid      = bitutil.OptionalBitIndexer{Bitmap: values.Buffers[0].Buf, Offset: int(values.Offset)}
-		valuesValidCounter = bitutils.NewOptionalBitBlockCounter(values.Buffers[0].Buf, values.Offset, values.Len)
-		filterValidCounter = bitutils.NewOptionalBitBlockCounter(filterIsValid, filterOffset, selection.Len)
-		filterCounter      = bitutils.NewBitBlockCounter(filterData, filterOffset, selection.Len)
-		inPos              int64
-
-		validityBuilder = validityBuilder{mem: exec.GetAllocator(ctx.Ctx)}
-	)
-
-	validityBuilder.Reserve(outputLen)
-
-	appendNotNull := func(idx int64) error {
-		validityBuilder.UnsafeAppend(true)
-		return visitValid(idx)
-	}
-
-	appendNull := func() error {
-		validityBuilder.UnsafeAppend(false)
-		return visitNull()
-	}
-
-	appendMaybeNull := func(idx int64) error {
-		if valuesIsValid.GetBit(int(idx)) {
-			return appendNotNull(idx)
-		}
-		return appendNull()
-	}
-
-	for inPos < selection.Len {
-		filterValidBlock := filterValidCounter.NextWord()
-		valuesValidBlock := valuesValidCounter.NextWord()
-		filterBlock := filterCounter.NextWord()
-
-		switch {
-		case filterBlock.NoneSet() && nullSelection == DropNulls:
-			// for this exceedingly common case in low-selectivity filters
-			// we can skip further analysis of the data and move onto the next block
-			inPos += int64(filterBlock.Len)
-		case filterValidBlock.AllSet():
-			// simpler path: no filter values are null
-			if filterBlock.AllSet() {
-				// fastest path, filter values are all true and not null
-				if valuesValidBlock.AllSet() {
-					// values aren't null either
-					validityBuilder.UnsafeAppendN(int64(filterBlock.Len), true)
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if err := visitValid(inPos); err != nil {
-							return err
-						}
-						inPos++
-					}
-				} else {
-					// some values are null in this block
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if err := appendMaybeNull(inPos); err != nil {
-							return err
-						}
-						inPos++
-					}
-				}
-			} else { // !filterBlock.AllSet()
-				// some filter values are false, but all not null
-				if valuesValidBlock.AllSet() {
-					// all the values are not-null, so we can skip null checking for them
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-							if err := appendNotNull(inPos); err != nil {
-								return err
-							}
-						}
-						inPos++
-					}
-				} else {
-					// some of the values in the block are null
-					// gotta check each one :(
-					for i := 0; i < int(filterBlock.Len); i++ {
-						if bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-							if err := appendMaybeNull(inPos); err != nil {
-								return err
-							}
-						}
-						inPos++
-					}
-				}
-			}
-		default:
-			// !filterValidBlock.AllSet()
-			// some filter values are null, so we have to handle drop
-			// versus emit null
-			if nullSelection == DropNulls {
-				// filter null values are treated as false
-				for i := 0; i < int(filterBlock.Len); i++ {
-					if bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos)) &&
-						bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-						if err := appendMaybeNull(inPos); err != nil {
-							return err
-						}
-					}
-					inPos++
-				}
-			} else {
-				// filter null values are appended to output as null
-				// whether the value in the corresponding slot is valid
-				// or not
-				var err error
-				for i := 0; i < int(filterBlock.Len); i++ {
-					filterNotNull := bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos))
-					if filterNotNull && bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-						err = appendMaybeNull(inPos)
-					} else if !filterNotNull {
-						// emit null case
-						err = appendNull()
-					}
-					if err != nil {
-						return err
-					}
-					inPos++
-				}
-			}
-		}
-	}
-
-	out.Len = int64(validityBuilder.bitLength)
-	out.Nulls = int64(validityBuilder.falseCount)
-	out.Buffers[0].WrapBuffer(validityBuilder.Finish())
-	return nil
-}
-
-func binaryFilterNonNull[OffsetT int32 | int64](ctx *exec.KernelCtx, values, filter *exec.ArraySpan, outputLen int64, nullSelection NullSelectionBehavior, out *exec.ExecResult) error {
-	var (
-		offsetBuilder = newBufferBuilder[OffsetT](exec.GetAllocator(ctx.Ctx))
-		dataBuilder   = newBufferBuilder[uint8](exec.GetAllocator(ctx.Ctx))
-		rawOffsets    = exec.GetSpanOffsets[OffsetT](values, 1)
-		rawData       = values.Buffers[2].Buf
-	)
-
-	offsetBuilder.reserve(int(outputLen) + 1)
-	// get a rough estimate and pre-size the data builder
-	if values.Len > 0 {
-		meanValueLength := float64(rawOffsets[values.Len]-rawOffsets[0]) / float64(values.Len)
-		dataBuilder.reserve(int(meanValueLength * float64(outputLen)))
-	}
-
-	spaceAvail := dataBuilder.cap()
-	var offset OffsetT
-	filterData := filter.Buffers[1].Buf
-
-	err := bitutils.VisitSetBitRuns(filterData, filter.Offset, filter.Len,
-		func(pos, length int64) error {
-			start, end := rawOffsets[pos], rawOffsets[pos+length]
-			// bulk-append raw data
-			runDataBytes := (end - start)
-			if runDataBytes > OffsetT(spaceAvail) {
-				dataBuilder.reserve(int(runDataBytes))
-				spaceAvail = dataBuilder.cap() - dataBuilder.len()
-			}
-			dataBuilder.unsafeAppendSlice(rawData[start:end])
-			spaceAvail -= int(runDataBytes)
-			curOffset := start
-			for i := int64(0); i < length; i++ {
-				offsetBuilder.unsafeAppend(offset)
-				offset += rawOffsets[i+pos+1] - curOffset
-				curOffset = rawOffsets[i+pos+1]
-			}
-			return nil
-		})
-
-	if err != nil {
-		return err
-	}
-
-	offsetBuilder.unsafeAppend(offset)
-	out.Len = outputLen
-	out.Buffers[1].WrapBuffer(offsetBuilder.finish())
-	out.Buffers[2].WrapBuffer(dataBuilder.finish())
-	return nil
-}
-
-func binaryFilterImpl[OffsetT int32 | int64](ctx *exec.KernelCtx, values, filter *exec.ArraySpan, outputLen int64, nullSelection NullSelectionBehavior, out *exec.ExecResult) error {
-	var (
-		filterData    = filter.Buffers[1].Buf
-		filterIsValid = filter.Buffers[0].Buf
-		filterOffset  = filter.Offset
-
-		valuesIsValid = values.Buffers[0].Buf
-		valuesOffset  = values.Offset
-		// output bitmap should already be zero'd out so we just
-		// have to set valid bits to true
-		outIsValid = out.Buffers[0].Buf
-
-		rawOffsets    = exec.GetSpanOffsets[OffsetT](values, 1)
-		rawData       = values.Buffers[2].Buf
-		offsetBuilder = newBufferBuilder[OffsetT](exec.GetAllocator(ctx.Ctx))
-		dataBuilder   = newBufferBuilder[uint8](exec.GetAllocator(ctx.Ctx))
-	)
-
-	offsetBuilder.reserve(int(outputLen) + 1)
-	if values.Len > 0 {
-		meanValueLength := float64(rawOffsets[values.Len]-rawOffsets[0]) / float64(values.Len)
-		dataBuilder.reserve(int(meanValueLength * float64(outputLen)))
-	}
-
-	spaceAvail := dataBuilder.cap()
-	var offset OffsetT
-
-	// we use 3 block counters for fast scanning of the filter
-	//
-	// * valuesValidCounter: for values null/not-null
-	// * filterValidCounter: for filter null/not-null
-	// * filterCounter: for filter true/false
-	valuesValidCounter := bitutils.NewOptionalBitBlockCounter(values.Buffers[0].Buf, values.Offset, values.Len)
-	filterValidCounter := bitutils.NewOptionalBitBlockCounter(filterIsValid, filterOffset, filter.Len)
-	filterCounter := bitutils.NewBitBlockCounter(filterData, filterOffset, filter.Len)
-
-	inPos, outPos := int64(0), int64(0)
-
-	appendRaw := func(data []byte) {
-		if len(data) > spaceAvail {
-			dataBuilder.reserve(len(data))
-			spaceAvail = dataBuilder.cap() - dataBuilder.len()
-		}
-		dataBuilder.unsafeAppendSlice(data)
-		spaceAvail -= len(data)
-	}
-
-	appendSingle := func() {
-		data := rawData[rawOffsets[inPos]:rawOffsets[inPos+1]]
-		appendRaw(data)
-		offset += OffsetT(len(data))
-	}
-
-	for inPos < filter.Len {
-		filterValidBlock, valuesValidBlock := filterValidCounter.NextWord(), valuesValidCounter.NextWord()
-		filterBlock := filterCounter.NextWord()
-		switch {
-		case filterBlock.NoneSet() && nullSelection == DropNulls:
-			// for this exceedingly common case in low-selectivity filters
-			// we can skip further analysis of the data and move on to the
-			// next block
-			inPos += int64(filterBlock.Len)
-		case filterValidBlock.AllSet():
-			// simpler path: no filter values are null
-			if filterBlock.AllSet() {
-				// fastest path: filter values are all true and not null
-				if valuesValidBlock.AllSet() {
-					// the values aren't null either
-					bitutil.SetBitsTo(outIsValid, outPos, int64(filterBlock.Len), true)
-
-					// bulk-append raw data
-					start, end := rawOffsets[inPos], rawOffsets[inPos+int64(filterBlock.Len)]
-					appendRaw(rawData[start:end])
-					// append offsets
-					for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
-						offsetBuilder.unsafeAppend(offset)
-						offset += rawOffsets[inPos+1] - rawOffsets[inPos]
-					}
-					outPos += int64(filterBlock.Len)
-				} else {
-					// some of the values in this block are null
-					for i := 0; i < int(filterBlock.Len); i, inPos, outPos = i+1, inPos+1, outPos+1 {
-						offsetBuilder.unsafeAppend(offset)
-						if bitutil.BitIsSet(valuesIsValid, int(valuesOffset+inPos)) {
-							bitutil.SetBit(outIsValid, int(outPos))
-							appendSingle()
-						}
-					}
-				}
-				continue
-			}
-			// !filterBlock.AllSet()
-			// some of the filter values are false, but all not null
-			if valuesValidBlock.AllSet() {
-				// all the values are non-null, so we can skip null checking
-				for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
-					if bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-						offsetBuilder.unsafeAppend(offset)
-						bitutil.SetBit(outIsValid, int(outPos))
-						outPos++
-						appendSingle()
-					}
-				}
-			} else {
-				// some of the values in the block are null, so we have to check
-				for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
-					if bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-						offsetBuilder.unsafeAppend(offset)
-						if bitutil.BitIsSet(valuesIsValid, int(valuesOffset+inPos)) {
-							bitutil.SetBit(outIsValid, int(outPos))
-							appendSingle()
-						}
-						outPos++
-					}
-				}
-			}
-		default:
-			// !filterValidBlock.AllSet()
-			// some of the filter values are null, so we have to handle
-			// the DROP vs EMIT_NULL null selection behavior
-			if nullSelection == DropNulls {
-				// filter null values are treated as false
-				if valuesValidBlock.AllSet() {
-					for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
-						if bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos)) &&
-							bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-							offsetBuilder.unsafeAppend(offset)
-							bitutil.SetBit(outIsValid, int(outPos))
-							outPos++
-							appendSingle()
-						}
-					}
-				} else {
-					for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
-						if bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos)) &&
-							bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-							offsetBuilder.unsafeAppend(offset)
-							if bitutil.BitIsSet(valuesIsValid, int(valuesOffset+inPos)) {
-								bitutil.SetBit(outIsValid, int(outPos))
-								appendSingle()
-							}
-							outPos++
-						}
-					}
-				}
-			} else {
-				for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
-					filterNotNull := bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos))
-					if filterNotNull && bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
-						offsetBuilder.unsafeAppend(offset)
-						if bitutil.BitIsSet(valuesIsValid, int(valuesOffset+inPos)) {
-							bitutil.SetBit(outIsValid, int(outPos))
-							appendSingle()
-						}
-						outPos++
-					} else if !filterNotNull {
-						offsetBuilder.unsafeAppend(offset)
-						outPos++
-					}
-				}
-			}
-		}
-	}
-
-	offsetBuilder.unsafeAppend(offset)
-	out.Len = outputLen
-	out.Buffers[1].WrapBuffer(offsetBuilder.finish())
-	out.Buffers[2].WrapBuffer(dataBuilder.finish())
-	return nil
-}
-
-func takeExecImpl[T arrow.UintType](ctx *exec.KernelCtx, outputLen int64, values, indices *exec.ArraySpan, out *exec.ExecResult, visitValid func(int64) error, visitNull func() error) error {
-	var (
-		validityBuilder = validityBuilder{mem: exec.GetAllocator(ctx.Ctx)}
-		indicesValues   = exec.GetSpanValues[T](indices, 1)
-		isValid         = indices.Buffers[0].Buf
-		valuesHaveNulls = values.MayHaveNulls()
-
-		indicesIsValid = bitutil.OptionalBitIndexer{Bitmap: isValid, Offset: int(indices.Offset)}
-		valuesIsValid  = bitutil.OptionalBitIndexer{Bitmap: values.Buffers[0].Buf, Offset: int(values.Offset)}
-		bitCounter     = bitutils.NewOptionalBitBlockCounter(isValid, indices.Offset, indices.Len)
-		pos            int64
-	)
-
-	validityBuilder.Reserve(outputLen)
-	for pos < indices.Len {
-		block := bitCounter.NextBlock()
-		indicesHaveNulls := block.Popcnt < block.Len
-		if !indicesHaveNulls && !valuesHaveNulls {
-			// fastest path, neither indices nor values have nulls
-			validityBuilder.UnsafeAppendN(int64(block.Len), true)
-			for i := 0; i < int(block.Len); i++ {
-				if err := visitValid(int64(indicesValues[pos])); err != nil {
-					return err
-				}
-				pos++
-			}
-		} else if block.Popcnt > 0 {
-			// since we have to branch on whether indices are null or not,
-			// we combine the "non-null indices block but some values null"
-			// and "some null indices block but values non-null" into single loop
-			for i := 0; i < int(block.Len); i++ {
-				if (!indicesHaveNulls || indicesIsValid.GetBit(int(pos))) && valuesIsValid.GetBit(int(indicesValues[pos])) {
-					validityBuilder.UnsafeAppend(true)
-					if err := visitValid(int64(indicesValues[pos])); err != nil {
-						return err
-					}
-				} else {
-					validityBuilder.UnsafeAppend(false)
-					if err := visitNull(); err != nil {
-						return err
-					}
-				}
-				pos++
-			}
-		} else {
-			// the whole block is null
-			validityBuilder.UnsafeAppendN(int64(block.Len), false)
-			for i := 0; i < int(block.Len); i++ {
-				if err := visitNull(); err != nil {
-					return err
-				}
-			}
-			pos += int64(block.Len)
-		}
-	}
-
-	out.Len = int64(validityBuilder.bitLength)
-	out.Nulls = int64(validityBuilder.falseCount)
-	out.Buffers[0].WrapBuffer(validityBuilder.Finish())
-	return nil
-}
-
-func takeExec(ctx *exec.KernelCtx, outputLen int64, values, indices *exec.ArraySpan, out *exec.ExecResult, visitValid func(int64) error, visitNull func() error) error {
-	indexWidth := indices.Type.(arrow.FixedWidthDataType).Bytes()
-
-	switch indexWidth {
-	case 1:
-		return takeExecImpl[uint8](ctx, outputLen, values, indices, out, visitValid, visitNull)
-	case 2:
-		return takeExecImpl[uint16](ctx, outputLen, values, indices, out, visitValid, visitNull)
-	case 4:
-		return takeExecImpl[uint32](ctx, outputLen, values, indices, out, visitValid, visitNull)
-	case 8:
-		return takeExecImpl[uint64](ctx, outputLen, values, indices, out, visitValid, visitNull)
-	default:
-		return fmt.Errorf("%w: invalid index width", arrow.ErrInvalid)
-	}
-}
-
-type selectionOutputFn func(*exec.KernelCtx, int64, *exec.ArraySpan, *exec.ArraySpan, *exec.ExecResult, func(int64) error, func() error) error
-type selectionImplFn func(*exec.KernelCtx, *exec.ExecSpan, int64, *exec.ExecResult, selectionOutputFn) error
-
-func FilterExec(impl selectionImplFn) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		var (
-			selection    = &batch.Values[1].Array
-			outputLength = getFilterOutputSize(selection, ctx.State.(FilterState).NullSelection)
-		)
-		return impl(ctx, batch, outputLength, out, filterExec)
-	}
-}
-
-func TakeExec(impl selectionImplFn) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if ctx.State.(TakeState).BoundsCheck {
-			if err := checkIndexBounds(&batch.Values[1].Array, uint64(batch.Values[0].Array.Len)); err != nil {
-				return err
-			}
-		}
-
-		return impl(ctx, batch, batch.Values[1].Array.Len, out, takeExec)
-	}
-}
-
-func VarBinaryImpl[OffsetT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
-	var (
-		values        = &batch.Values[0].Array
-		selection     = &batch.Values[1].Array
-		rawOffsets    = exec.GetSpanOffsets[OffsetT](values, 1)
-		rawData       = values.Buffers[2].Buf
-		offsetBuilder = newBufferBuilder[OffsetT](exec.GetAllocator(ctx.Ctx))
-		dataBuilder   = newBufferBuilder[uint8](exec.GetAllocator(ctx.Ctx))
-	)
-
-	// presize the data builder with a rough estimate of the required data size
-	if values.Len > 0 {
-		dataLength := rawOffsets[values.Len] - rawOffsets[0]
-		meanValueLen := float64(dataLength) / float64(values.Len)
-		dataBuilder.reserve(int(meanValueLen))
-	}
-
-	offsetBuilder.reserve(int(outputLength) + 1)
-	spaceAvail := dataBuilder.cap()
-	var offset OffsetT
-	err := fn(ctx, outputLength, values, selection, out,
-		func(idx int64) error {
-			offsetBuilder.unsafeAppend(offset)
-			valOffset := rawOffsets[idx]
-			valSize := rawOffsets[idx+1] - valOffset
-
-			if valSize == 0 {
-				return nil
-			}
-			offset += valSize
-			if valSize > OffsetT(spaceAvail) {
-				dataBuilder.reserve(int(valSize))
-				spaceAvail = dataBuilder.cap() - dataBuilder.len()
-			}
-			dataBuilder.unsafeAppendSlice(rawData[valOffset : valOffset+valSize])
-			spaceAvail -= int(valSize)
-			return nil
-		}, func() error {
-			offsetBuilder.unsafeAppend(offset)
-			return nil
-		})
-
-	if err != nil {
-		return err
-	}
-
-	offsetBuilder.unsafeAppend(offset)
-	out.Buffers[1].WrapBuffer(offsetBuilder.finish())
-	out.Buffers[2].WrapBuffer(dataBuilder.finish())
-	return nil
-}
-
-func FSBImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
-	var (
-		values    = &batch.Values[0].Array
-		selection = &batch.Values[1].Array
-		valueSize = int64(values.Type.(arrow.FixedWidthDataType).Bytes())
-		valueData = values.Buffers[1].Buf[values.Offset*valueSize:]
-	)
-
-	out.Buffers[1].WrapBuffer(ctx.Allocate(int(valueSize * outputLength)))
-	buf := out.Buffers[1].Buf
-
-	err := fn(ctx, outputLength, values, selection, out,
-		func(idx int64) error {
-			start := idx * int64(valueSize)
-			copy(buf, valueData[start:start+valueSize])
-			buf = buf[valueSize:]
-			return nil
-		},
-		func() error {
-			buf = buf[valueSize:]
-			return nil
-		})
-
-	if err != nil {
-		out.Buffers[1].Buf = nil
-		out.Buffers[1].Owner.Release()
-		out.Buffers[1].Owner = nil
-		return err
-	}
-
-	return nil
-}
-
-func ListImpl[OffsetT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
-	var (
-		values    = &batch.Values[0].Array
-		selection = &batch.Values[1].Array
-
-		rawOffsets      = exec.GetSpanOffsets[OffsetT](values, 1)
-		mem             = exec.GetAllocator(ctx.Ctx)
-		offsetBuilder   = newBufferBuilder[OffsetT](mem)
-		childIdxBuilder = newBufferBuilder[OffsetT](mem)
-	)
-
-	if values.Len > 0 {
-		dataLength := rawOffsets[values.Len] - rawOffsets[0]
-		meanListLen := float64(dataLength) / float64(values.Len)
-		childIdxBuilder.reserve(int(meanListLen))
-	}
-
-	offsetBuilder.reserve(int(outputLength) + 1)
-	var offset OffsetT
-	err := fn(ctx, outputLength, values, selection, out,
-		func(idx int64) error {
-			offsetBuilder.unsafeAppend(offset)
-			valueOffset := rawOffsets[idx]
-			valueLength := rawOffsets[idx+1] - valueOffset
-			offset += valueLength
-			childIdxBuilder.reserve(int(valueLength))
-			for j := valueOffset; j < valueOffset+valueLength; j++ {
-				childIdxBuilder.unsafeAppend(j)
-			}
-			return nil
-		}, func() error {
-			offsetBuilder.unsafeAppend(offset)
-			return nil
-		})
-
-	if err != nil {
-		return err
-	}
-
-	offsetBuilder.unsafeAppend(offset)
-	out.Buffers[1].WrapBuffer(offsetBuilder.finish())
-
-	out.Children = make([]exec.ArraySpan, 1)
-	out.Children[0].Type = arrow.GetDataType[OffsetT]()
-	out.Children[0].Len = int64(childIdxBuilder.len())
-	out.Children[0].Buffers[1].WrapBuffer(childIdxBuilder.finish())
-
-	return nil
-}
-
-func FSLImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
-	var (
-		values    = &batch.Values[0].Array
-		selection = &batch.Values[1].Array
-
-		listSize   = values.Type.(*arrow.FixedSizeListType).Len()
-		baseOffset = values.Offset
-
-		childIdxBuilder = array.NewInt64Builder(exec.GetAllocator(ctx.Ctx))
-	)
-
-	// we need to take listSize elements even for null elements of indices
-	childIdxBuilder.Reserve(int(outputLength) * int(listSize))
-	err := fn(ctx, outputLength, values, selection, out,
-		func(idx int64) error {
-			offset := (baseOffset + idx) * int64(listSize)
-			for j := offset; j < (offset + int64(listSize)); j++ {
-				childIdxBuilder.UnsafeAppend(j)
-			}
-			return nil
-		}, func() error {
-			for n := int32(0); n < listSize; n++ {
-				childIdxBuilder.AppendNull()
-			}
-			return nil
-		})
-
-	if err != nil {
-		return err
-	}
-
-	arr := childIdxBuilder.NewArray()
-	defer arr.Release()
-	out.Children = make([]exec.ArraySpan, 1)
-	out.Children[0].TakeOwnership(arr.Data())
-	return nil
-}
-
-func DenseUnionImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
-	var (
-		values    = &batch.Values[0].Array
-		selection = &batch.Values[1].Array
-
-		mem               = exec.GetAllocator(ctx.Ctx)
-		valueOffsetBldr   = newBufferBuilder[int32](mem)
-		childIdBldr       = newBufferBuilder[int8](mem)
-		typeCodes         = values.Type.(arrow.UnionType).TypeCodes()
-		childIndicesBldrs = make([]*array.Int32Builder, len(typeCodes))
-	)
-
-	for i := range childIndicesBldrs {
-		childIndicesBldrs[i] = array.NewInt32Builder(mem)
-	}
-
-	childIdBldr.reserve(int(outputLength))
-	valueOffsetBldr.reserve(int(outputLength))
-
-	typedValues := values.MakeArray().(*array.DenseUnion)
-	defer typedValues.Release()
-
-	err := fn(ctx, outputLength, values, selection, out,
-		func(idx int64) error {
-			childID := typedValues.ChildID(int(idx))
-			childIdBldr.unsafeAppend(typeCodes[childID])
-			valueOffset := typedValues.ValueOffset(int(idx))
-			valueOffsetBldr.unsafeAppend(int32(childIndicesBldrs[childID].Len()))
-			childIndicesBldrs[childID].Append(valueOffset)
-			return nil
-		}, func() error {
-			childID := 0
-			childIdBldr.unsafeAppend(typeCodes[childID])
-			valueOffsetBldr.unsafeAppend(int32(childIndicesBldrs[childID].Len()))
-			childIndicesBldrs[childID].AppendNull()
-			return nil
-		})
-	if err != nil {
-		return err
-	}
-
-	out.Type = typedValues.DataType()
-	out.Buffers[1].WrapBuffer(childIdBldr.finish())
-	out.Buffers[2].WrapBuffer(valueOffsetBldr.finish())
-
-	out.Children = make([]exec.ArraySpan, len(childIndicesBldrs))
-	for i, b := range childIndicesBldrs {
-		arr := b.NewArray()
-		out.Children[i].TakeOwnership(arr.Data())
-		arr.Release()
-		b.Release()
-	}
-	return nil
-}
-
-func FilterBinary(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	var (
-		nullSelect = ctx.State.(FilterState).NullSelection
-		values     = &batch.Values[0].Array
-		filter     = &batch.Values[1].Array
-		outputLen  = getFilterOutputSize(filter, nullSelect)
-	)
-
-	// the output precomputed null count is unknown except in the
-	// narrow condition that all the values are non-null and the filter
-	// will not cause any new nulls to be created
-	if values.Nulls == 0 && (nullSelect == DropNulls || filter.Nulls == 0) {
-		out.Nulls = 0
-	} else {
-		out.Nulls = array.UnknownNullCount
-	}
-
-	typeID := values.Type.ID()
-	if values.Nulls == 0 && filter.Nulls == 0 {
-		// faster no nulls case
-		switch {
-		case arrow.IsBinaryLike(typeID):
-			return binaryFilterNonNull[int32](ctx, values, filter, outputLen, nullSelect, out)
-		case arrow.IsLargeBinaryLike(typeID):
-			return binaryFilterNonNull[int64](ctx, values, filter, outputLen, nullSelect, out)
-		default:
-			return fmt.Errorf("%w: invalid type for binary filter", arrow.ErrInvalid)
-		}
-	}
-
-	// output may have nulls
-	out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(outputLen))
-	switch {
-	case arrow.IsBinaryLike(typeID):
-		return binaryFilterImpl[int32](ctx, values, filter, outputLen, nullSelect, out)
-	case arrow.IsLargeBinaryLike(typeID):
-		return binaryFilterImpl[int64](ctx, values, filter, outputLen, nullSelect, out)
-	}
-
-	return fmt.Errorf("%w: invalid type for binary filter", arrow.ErrInvalid)
-}
-
-func visitNoop() error         { return nil }
-func visitIdxNoop(int64) error { return nil }
-
-func StructImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
-	var (
-		values    = &batch.Values[0].Array
-		selection = &batch.Values[1].Array
-	)
-
-	// nothing we need to do other than generate the validity bitmap
-	return fn(ctx, outputLength, values, selection, out, visitIdxNoop, visitNoop)
-}
-
-type SelectionKernelData struct {
-	In      exec.InputType
-	Exec    exec.ArrayKernelExec
-	Chunked exec.ChunkedExec
-}
-
-func ChunkedTakeSupported(dt arrow.DataType) bool {
-	return arrow.IsPrimitive(dt.ID())
-}
-
-func GetVectorSelectionKernels() (filterkernels, takeKernels []SelectionKernelData) {
-	filterkernels = []SelectionKernelData{
-		{In: exec.NewMatchedInput(exec.Primitive()), Exec: PrimitiveFilter},
-		{In: exec.NewExactInput(arrow.Null), Exec: NullFilter},
-		{In: exec.NewIDInput(arrow.DECIMAL128), Exec: FilterExec(FSBImpl)},
-		{In: exec.NewIDInput(arrow.DECIMAL256), Exec: FilterExec(FSBImpl)},
-		{In: exec.NewIDInput(arrow.FIXED_SIZE_BINARY), Exec: FilterExec(FSBImpl)},
-		{In: exec.NewMatchedInput(exec.BinaryLike()), Exec: FilterBinary},
-		{In: exec.NewMatchedInput(exec.LargeBinaryLike()), Exec: FilterBinary},
-	}
-
-	takeKernels = []SelectionKernelData{
-		{In: exec.NewExactInput(arrow.Null), Exec: NullTake},
-		{In: exec.NewMatchedInput(exec.Primitive()), Exec: PrimitiveTake, Chunked: ChunkedPrimitiveTake},
-		{In: exec.NewIDInput(arrow.DECIMAL128), Exec: TakeExec(FSBImpl)},
-		{In: exec.NewIDInput(arrow.DECIMAL256), Exec: TakeExec(FSBImpl)},
-		{In: exec.NewIDInput(arrow.FIXED_SIZE_BINARY), Exec: TakeExec(FSBImpl)},
-		{In: exec.NewMatchedInput(exec.BinaryLike()), Exec: TakeExec(VarBinaryImpl[int32])},
-		{In: exec.NewMatchedInput(exec.LargeBinaryLike()), Exec: TakeExec(VarBinaryImpl[int64])},
-	}
-	return
-}
diff --git a/go/arrow/compute/registry.go b/go/arrow/compute/registry.go
deleted file mode 100644
index cb64c7e09de0a..0000000000000
--- a/go/arrow/compute/registry.go
+++ /dev/null
@@ -1,209 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"golang.org/x/exp/maps"
-	"golang.org/x/exp/slices"
-)
-
-type FunctionRegistry interface {
-	CanAddFunction(fn Function, allowOverwrite bool) bool
-	AddFunction(fn Function, allowOverwrite bool) bool
-	CanAddAlias(target, source string) bool
-	AddAlias(target, source string) bool
-	GetFunction(name string) (Function, bool)
-	GetFunctionNames() []string
-	NumFunctions() int
-
-	canAddFuncName(string, bool) bool
-}
-
-var (
-	registry FunctionRegistry
-	once     sync.Once
-)
-
-func GetFunctionRegistry() FunctionRegistry {
-	once.Do(func() {
-		registry = NewRegistry()
-		RegisterScalarCast(registry)
-		RegisterVectorSelection(registry)
-		RegisterScalarBoolean(registry)
-		RegisterScalarArithmetic(registry)
-		RegisterScalarComparisons(registry)
-		RegisterVectorHash(registry)
-		RegisterVectorRunEndFuncs(registry)
-	})
-	return registry
-}
-
-func NewRegistry() FunctionRegistry {
-	return &funcRegistry{
-		nameToFunction: make(map[string]Function)}
-}
-
-func NewChildRegistry(parent FunctionRegistry) FunctionRegistry {
-	return &funcRegistry{
-		parent:         parent.(*funcRegistry),
-		nameToFunction: make(map[string]Function)}
-}
-
-type funcRegistry struct {
-	parent *funcRegistry
-
-	mx             sync.RWMutex
-	nameToFunction map[string]Function
-}
-
-func (reg *funcRegistry) getLocker(add bool) sync.Locker {
-	if add {
-		return &reg.mx
-	}
-	return reg.mx.RLocker()
-}
-
-func (reg *funcRegistry) CanAddFunction(fn Function, allowOverwrite bool) bool {
-	if reg.parent != nil && !reg.parent.CanAddFunction(fn, allowOverwrite) {
-		return false
-	}
-
-	return reg.doAddFunction(fn, allowOverwrite, false)
-}
-
-func (reg *funcRegistry) AddFunction(fn Function, allowOverwrite bool) bool {
-	if reg.parent != nil && !reg.parent.CanAddFunction(fn, allowOverwrite) {
-		return false
-	}
-
-	return reg.doAddFunction(fn, allowOverwrite, true)
-}
-
-func (reg *funcRegistry) CanAddAlias(target, source string) bool {
-	if reg.parent != nil && !reg.parent.canAddFuncName(target, false) {
-		return false
-	}
-	return reg.doAddAlias(target, source, false)
-}
-
-func (reg *funcRegistry) AddAlias(target, source string) bool {
-	if reg.parent != nil && !reg.parent.canAddFuncName(target, false) {
-		return false
-	}
-
-	return reg.doAddAlias(target, source, true)
-}
-
-func (reg *funcRegistry) GetFunction(name string) (Function, bool) {
-	reg.mx.RLock()
-	defer reg.mx.RUnlock()
-
-	if fn, ok := reg.nameToFunction[name]; ok {
-		return fn, ok
-	}
-
-	if reg.parent != nil {
-		return reg.parent.GetFunction(name)
-	}
-
-	return nil, false
-}
-
-func (reg *funcRegistry) GetFunctionNames() (out []string) {
-	if reg.parent != nil {
-		out = reg.parent.GetFunctionNames()
-	} else {
-		out = make([]string, 0, len(reg.nameToFunction))
-	}
-	reg.mx.RLock()
-	defer reg.mx.RUnlock()
-
-	out = append(out, maps.Keys(reg.nameToFunction)...)
-	slices.Sort(out)
-	return
-}
-
-func (reg *funcRegistry) NumFunctions() (n int) {
-	if reg.parent != nil {
-		n = reg.parent.NumFunctions()
-	}
-	reg.mx.RLock()
-	defer reg.mx.RUnlock()
-	return n + len(reg.nameToFunction)
-}
-
-func (reg *funcRegistry) canAddFuncName(name string, allowOverwrite bool) bool {
-	if reg.parent != nil {
-		reg.parent.mx.RLock()
-		defer reg.parent.mx.RUnlock()
-
-		if !reg.parent.canAddFuncName(name, allowOverwrite) {
-			return false
-		}
-	}
-	if !allowOverwrite {
-		_, ok := reg.nameToFunction[name]
-		return !ok
-	}
-	return true
-}
-
-func (reg *funcRegistry) doAddFunction(fn Function, allowOverwrite bool, add bool) bool {
-	debug.Assert(fn.Validate() == nil, "invalid function")
-
-	lk := reg.getLocker(add)
-	lk.Lock()
-	defer lk.Unlock()
-
-	name := fn.Name()
-	if !reg.canAddFuncName(name, allowOverwrite) {
-		return false
-	}
-
-	if add {
-		reg.nameToFunction[name] = fn
-	}
-	return true
-}
-
-func (reg *funcRegistry) doAddAlias(target, source string, add bool) bool {
-	// source name must exist in the registry or the parent
-	// check outside the mutex, in case GetFunction has a mutex
-	// acquisition
-	fn, ok := reg.GetFunction(source)
-	if !ok {
-		return false
-	}
-
-	lk := reg.getLocker(add)
-	lk.Lock()
-	defer lk.Unlock()
-
-	if !reg.canAddFuncName(target, false) {
-		return false
-	}
-
-	if add {
-		reg.nameToFunction[target] = fn
-	}
-	return true
-}
diff --git a/go/arrow/compute/registry_test.go b/go/arrow/compute/registry_test.go
deleted file mode 100644
index 15e561ada42d3..0000000000000
--- a/go/arrow/compute/registry_test.go
+++ /dev/null
@@ -1,182 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"errors"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/stretchr/testify/assert"
-	"golang.org/x/exp/slices"
-)
-
-var registry compute.FunctionRegistry
-
-func init() {
-	// make tests fail if there's a problem initializing the global
-	// function registry
-	registry = compute.GetFunctionRegistry()
-}
-
-type mockFn struct {
-	name string
-}
-
-func (m *mockFn) Name() string           { return m.name }
-func (*mockFn) Kind() compute.FuncKind   { return compute.FuncScalar }
-func (*mockFn) Arity() compute.Arity     { return compute.Unary() }
-func (*mockFn) Doc() compute.FunctionDoc { return compute.EmptyFuncDoc }
-func (*mockFn) NumKernels() int          { return 0 }
-func (*mockFn) Execute(context.Context, compute.FunctionOptions, ...compute.Datum) (compute.Datum, error) {
-	return nil, errors.New("not implemented")
-}
-func (*mockFn) DefaultOptions() compute.FunctionOptions              { return nil }
-func (*mockFn) Validate() error                                      { return nil }
-func (*mockFn) DispatchExact(...arrow.DataType) (exec.Kernel, error) { return nil, nil }
-func (*mockFn) DispatchBest(...arrow.DataType) (exec.Kernel, error)  { return nil, nil }
-
-func TestRegistryBasics(t *testing.T) {
-	tests := []struct {
-		name          string
-		factory       func() compute.FunctionRegistry
-		nfuncs        int
-		expectedNames []string
-	}{
-		{"default", compute.NewRegistry, 0, []string{}},
-		{"nested", func() compute.FunctionRegistry {
-			return compute.NewChildRegistry(registry)
-		}, registry.NumFunctions(), registry.GetFunctionNames()},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			registry := tt.factory()
-			assert.Equal(t, tt.nfuncs, registry.NumFunctions())
-
-			fn := &mockFn{name: "f1"}
-			assert.True(t, registry.AddFunction(fn, false))
-			assert.Equal(t, tt.nfuncs+1, registry.NumFunctions())
-
-			f1, ok := registry.GetFunction("f1")
-			assert.True(t, ok)
-			assert.Same(t, fn, f1)
-
-			// nonexistent
-			_, ok = registry.GetFunction("f2")
-			assert.False(t, ok)
-
-			// name collision
-			f2 := &mockFn{name: "f1"}
-			assert.False(t, registry.AddFunction(f2, false))
-
-			// allow overwriting
-			assert.True(t, registry.AddFunction(f2, true))
-			f1, ok = registry.GetFunction("f1")
-			assert.True(t, ok)
-			assert.Same(t, f2, f1)
-
-			expected := append(tt.expectedNames, "f1")
-			slices.Sort(expected)
-			assert.Equal(t, expected, registry.GetFunctionNames())
-
-			// aliases
-			assert.False(t, registry.AddAlias("f33", "f3")) // doesn't exist
-			assert.True(t, registry.AddAlias("f11", "f1"))
-			f1, ok = registry.GetFunction("f11")
-			assert.True(t, ok)
-			assert.Same(t, f2, f1)
-		})
-	}
-}
-
-func TestRegistry(t *testing.T) {
-	defaultRegistry := registry
-	t.Run("RegisterTempFunctions", func(t *testing.T) {
-		const rounds = 3
-		for i := 0; i < rounds; i++ {
-			registry := compute.NewChildRegistry(registry)
-			for _, v := range []string{"f1", "f2"} {
-				fn := &mockFn{name: v}
-				assert.True(t, registry.CanAddFunction(fn, false))
-				assert.True(t, registry.AddFunction(fn, false))
-				assert.False(t, registry.CanAddFunction(fn, false))
-				assert.False(t, registry.AddFunction(fn, false))
-				assert.True(t, defaultRegistry.CanAddFunction(fn, false))
-			}
-		}
-	})
-
-	t.Run("RegisterTempAliases", func(t *testing.T) {
-		funcNames := defaultRegistry.GetFunctionNames()
-		const rounds = 3
-		for i := 0; i < rounds; i++ {
-			registry := compute.NewChildRegistry(registry)
-			for _, funcName := range funcNames {
-				alias := "alias_of_" + funcName
-				_, ok := registry.GetFunction(alias)
-				assert.False(t, ok)
-				assert.True(t, registry.CanAddAlias(alias, funcName))
-				assert.True(t, registry.AddAlias(alias, funcName))
-				_, ok = registry.GetFunction(alias)
-				assert.True(t, ok)
-				_, ok = defaultRegistry.GetFunction(funcName)
-				assert.True(t, ok)
-				_, ok = defaultRegistry.GetFunction(alias)
-				assert.False(t, ok)
-			}
-		}
-	})
-}
-
-func TestRegistryRegisterNestedFunction(t *testing.T) {
-	defaultRegistry := registry
-	func1 := &mockFn{name: "f1"}
-	func2 := &mockFn{name: "f2"}
-
-	const rounds = 3
-	for i := 0; i < rounds; i++ {
-		registry1 := compute.NewChildRegistry(defaultRegistry)
-
-		assert.True(t, registry1.CanAddFunction(func1, false))
-		assert.True(t, registry1.AddFunction(func1, false))
-		for j := 0; j < rounds; j++ {
-			registry2 := compute.NewChildRegistry(registry1)
-			assert.False(t, registry2.CanAddFunction(func1, false))
-			assert.False(t, registry2.AddFunction(func1, false))
-
-			assert.True(t, registry2.CanAddFunction(func2, false))
-			assert.True(t, registry2.AddFunction(func2, false))
-			assert.False(t, registry2.CanAddFunction(func2, false))
-			assert.False(t, registry2.AddFunction(func2, false))
-			assert.True(t, defaultRegistry.CanAddFunction(func2, false))
-
-			assert.False(t, registry2.CanAddAlias("f1", "f2"))
-			assert.False(t, registry2.AddAlias("f1", "f2"))
-			assert.False(t, registry2.AddAlias("f1", "f1"))
-		}
-		assert.False(t, registry1.CanAddFunction(func1, false))
-		assert.False(t, registry1.AddFunction(func1, false))
-		assert.True(t, registry1.CanAddAlias("f2", "f1"))
-		assert.True(t, defaultRegistry.CanAddFunction(func1, false))
-	}
-}
diff --git a/go/arrow/compute/scalar_bool.go b/go/arrow/compute/scalar_bool.go
deleted file mode 100644
index 39f4242163d49..0000000000000
--- a/go/arrow/compute/scalar_bool.go
+++ /dev/null
@@ -1,133 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-)
-
-var (
-	andDoc = FunctionDoc{
-		Summary:     "Logical 'and' boolean values",
-		Description: "When a null is encountered in either input, a null is output.\nFor a different null behavior, see function 'and_kleene'",
-		ArgNames:    []string{"x", "y"},
-	}
-	andNotDoc = FunctionDoc{
-		Summary:     "Logical 'and not' boolean values",
-		Description: "When a null is encountered in either input, a null is output.\nFor a different null behavior, see function 'and_not_kleene'",
-		ArgNames:    []string{"x", "y"},
-	}
-	orDoc = FunctionDoc{
-		Summary:     "Logical 'or' boolean values",
-		Description: "When a null is encountered in either input, a null is output.\nFor a different null behavior, see function 'or_kleene'",
-		ArgNames:    []string{"x", "y"},
-	}
-	xorDoc = FunctionDoc{
-		Summary:     "Logical 'xor' boolean values",
-		Description: "When a null is encountered in either input, a null is output.",
-		ArgNames:    []string{"x", "y"},
-	}
-	andKleeneDoc = FunctionDoc{
-		Summary: "Logical 'and' boolean values (Kleene logic)",
-		Description: `This function behaves as follows with nulls:
-		
-		- true and null = null
-		- null and true = null
-		- false and null = false
-		- null and false = false
-		- null and null = null
-		
-		In other words, in this context, a null value really means "unknown"
-		and an unknown value "and" false is always false.
-		For a different null behavior, see function "and".`,
-		ArgNames: []string{"x", "y"},
-	}
-	andNotKleeneDoc = FunctionDoc{
-		Summary: "Logical 'and_not' boolean values (Kleene logic)",
-		Description: `This function behaves as follows with nulls:
-		
-		- true and not null = null
-		- null and not false = null
-		- false and not null = false
-		- null and not true = false
-		- null and not null = null
-		
-		In other words, in this context, a null value really means "unknown"
-		and an unknown value "and not" true is always false, as is false
-		"and not" an unknown value.
-		For a different null behavior, see function "and_not".`,
-		ArgNames: []string{"x", "y"},
-	}
-	orKleeneDoc = FunctionDoc{
-		Summary: "Logical 'or' boolean values (Kleene logic)",
-		Description: `This function behaves as follows with nulls:
-		
-		- true or null = true
-		- null or true = true
-		- false or null = null
-		- null or false = null
-		- null or null = null
-		
-		In other words, in this context, a null value really means "unknown"
-		and an unknown value "or" true is always true.
-		For a different null behavior, see function "and".`,
-		ArgNames: []string{"x", "y"},
-	}
-)
-
-func makeFunction(reg FunctionRegistry, name string, arity int, ex exec.ArrayKernelExec, doc FunctionDoc, nulls exec.NullHandling) {
-	fn := NewScalarFunction(name, Arity{NArgs: arity}, doc)
-
-	inTypes := make([]exec.InputType, arity)
-	for i := range inTypes {
-		inTypes[i] = exec.NewExactInput(arrow.FixedWidthTypes.Boolean)
-	}
-
-	k := exec.NewScalarKernel(inTypes, exec.NewOutputType(arrow.FixedWidthTypes.Boolean), ex, nil)
-	k.NullHandling = nulls
-
-	if err := fn.AddKernel(k); err != nil {
-		panic(err)
-	}
-
-	if !reg.AddFunction(fn, false) {
-		panic(fmt.Errorf("function '%s' already exists", name))
-	}
-}
-
-func RegisterScalarBoolean(reg FunctionRegistry) {
-	makeFunction(reg, "and", 2, kernels.SimpleBinary[kernels.AndOpKernel],
-		andDoc, exec.NullIntersection)
-	makeFunction(reg, "and_not", 2, kernels.SimpleBinary[kernels.AndNotOpKernel],
-		andNotDoc, exec.NullIntersection)
-	makeFunction(reg, "or", 2, kernels.SimpleBinary[kernels.OrOpKernel],
-		orDoc, exec.NullIntersection)
-	makeFunction(reg, "xor", 2, kernels.SimpleBinary[kernels.XorOpKernel],
-		xorDoc, exec.NullIntersection)
-	makeFunction(reg, "and_kleene", 2, kernels.SimpleBinary[kernels.KleeneAndOpKernel],
-		andKleeneDoc, exec.NullComputedPrealloc)
-	makeFunction(reg, "and_not_kleene", 2, kernels.SimpleBinary[kernels.KleeneAndNotOpKernel],
-		andNotKleeneDoc, exec.NullComputedPrealloc)
-	makeFunction(reg, "or_kleene", 2, kernels.SimpleBinary[kernels.KleeneOrOpKernel],
-		orKleeneDoc, exec.NullComputedPrealloc)
-}
diff --git a/go/arrow/compute/scalar_bool_test.go b/go/arrow/compute/scalar_bool_test.go
deleted file mode 100644
index 4b2c5d54f8ae2..0000000000000
--- a/go/arrow/compute/scalar_bool_test.go
+++ /dev/null
@@ -1,154 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/require"
-)
-
-func checkScalarBinary(t *testing.T, fn string, left, right, expected compute.Datum, opts compute.FunctionOptions) {
-	checkScalar(t, fn, []compute.Datum{left, right}, expected, opts)
-}
-
-func checkBooleanScalarArrayBinary(t *testing.T, ctx context.Context, funcName string, array compute.Datum) {
-	mem := compute.GetAllocator(ctx)
-	for _, sc := range []scalar.Scalar{scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean), scalar.NewBooleanScalar(true), scalar.NewBooleanScalar(false)} {
-		constantArr, err := scalar.MakeArrayFromScalar(sc, int(array.Len()), mem)
-		defer constantArr.Release()
-
-		require.NoError(t, err)
-		expected, err := compute.CallFunction(ctx, funcName, nil, &compute.ArrayDatum{Value: constantArr.Data()}, array)
-		require.NoError(t, err)
-		defer expected.Release()
-
-		checkScalar(t, funcName, []compute.Datum{compute.NewDatum(sc), array}, expected, nil)
-
-		expected, err = compute.CallFunction(ctx, funcName, nil, array, &compute.ArrayDatum{Value: constantArr.Data()})
-		require.NoError(t, err)
-		defer expected.Release()
-		checkScalar(t, funcName, []compute.Datum{array, compute.NewDatum(sc)}, expected, nil)
-	}
-}
-
-func TestBooleanKernels(t *testing.T) {
-	tests := []struct {
-		fn           string
-		expectedJSON string
-		commutative  bool
-	}{
-		{"and", `[true, false, null, false, null, null]`, true},
-		{"or", `[true, true, null, false, null, null]`, true},
-		{"xor", `[false, true, null, false, null, null]`, true},
-		{"and_not", `[false, true, null, false, false, null, null, null, null]`, false},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.fn, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			var (
-				leftJSON  = `[true, true, true, false, false, null]`
-				rightJSON = `[true, false, null, false, null, null]`
-			)
-
-			if !tt.commutative {
-				leftJSON = `[true, true, true, false, false, false, null, null, null]`
-				rightJSON = `[true, false, null, true, false, null, true, false, null]`
-			}
-
-			left, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
-				strings.NewReader(leftJSON))
-			defer left.Release()
-			right, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
-				strings.NewReader(rightJSON))
-			defer right.Release()
-			exp, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(tt.expectedJSON))
-			defer exp.Release()
-
-			checkScalarBinary(t, tt.fn, &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()}, &compute.ArrayDatum{Value: exp.Data()}, nil)
-			ctx := compute.WithAllocator(context.Background(), mem)
-			checkBooleanScalarArrayBinary(t, ctx, tt.fn, &compute.ArrayDatum{Value: left.Data()})
-		})
-	}
-}
-
-func TestBooleanKleeneKernels(t *testing.T) {
-	tests := []struct {
-		fn           string
-		expectedJSON []string
-		commutative  bool
-	}{
-		{"and_kleene", []string{`[true, false, null, false, false, null]`, `[true, false, false, null, false]`, `[true, false, false, false]`}, true},
-		{"or_kleene", []string{`[true, true, true, false, null, null]`, `[true, true, false, true, null]`, `[true, true, false, true]`}, true},
-		{"and_not_kleene", []string{`[false, true, null, false, false, false, false, null, null]`, `[false, true, false, false]`}, false},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.fn, func(t *testing.T) {
-			var (
-				leftJSON  = make([]string, len(tt.expectedJSON))
-				rightJSON = make([]string, len(tt.expectedJSON))
-			)
-
-			if tt.commutative {
-				leftJSON[0] = `[true, true, true, false, false, null]`
-				rightJSON[0] = `[true, false, null, false, null, null]`
-				leftJSON[1] = `[true, true, false, null, null]`
-				rightJSON[1] = `[true, false, false, true, false]`
-				leftJSON[2] = `[true, true, false, true]`
-				rightJSON[2] = `[true, false, false, false]`
-			} else {
-				leftJSON[0] = `[true, true, true, false, false, false, null, null, null]`
-				rightJSON[0] = `[true, false, null, true, false, null, true, false, null]`
-				leftJSON[1] = `[true, true, false, false]`
-				rightJSON[1] = `[true, false, true, false]`
-			}
-
-			for i := range tt.expectedJSON {
-				func() {
-					mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-					defer mem.AssertSize(t, 0)
-
-					left, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
-						strings.NewReader(leftJSON[i]))
-					defer left.Release()
-					right, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
-						strings.NewReader(rightJSON[i]))
-					defer right.Release()
-					exp, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(tt.expectedJSON[i]))
-					defer exp.Release()
-
-					checkScalarBinary(t, tt.fn, &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()}, &compute.ArrayDatum{Value: exp.Data()}, nil)
-					ctx := compute.WithAllocator(context.Background(), mem)
-					checkBooleanScalarArrayBinary(t, ctx, tt.fn, &compute.ArrayDatum{Value: left.Data()})
-				}()
-			}
-		})
-	}
-}
diff --git a/go/arrow/compute/scalar_compare.go b/go/arrow/compute/scalar_compare.go
deleted file mode 100644
index 8f51440bc6362..0000000000000
--- a/go/arrow/compute/scalar_compare.go
+++ /dev/null
@@ -1,137 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-)
-
-type compareFunction struct {
-	ScalarFunction
-}
-
-func (fn *compareFunction) Execute(ctx context.Context, opt FunctionOptions, args ...Datum) (Datum, error) {
-	return execInternal(ctx, fn, opt, -1, args...)
-}
-
-func (fn *compareFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
-	if err := fn.checkArity(len(vals)); err != nil {
-		return nil, err
-	}
-
-	if hasDecimal(vals...) {
-		if err := castBinaryDecimalArgs(decPromoteAdd, vals...); err != nil {
-			return nil, err
-		}
-	}
-
-	if kn, err := fn.DispatchExact(vals...); err == nil {
-		return kn, nil
-	}
-
-	ensureDictionaryDecoded(vals...)
-	replaceNullWithOtherType(vals...)
-
-	if dt := commonNumeric(vals...); dt != nil {
-		replaceTypes(dt, vals...)
-	} else if dt := commonTemporal(vals...); dt != nil {
-		replaceTypes(dt, vals...)
-	} else if dt := commonBinary(vals...); dt != nil {
-		replaceTypes(dt, vals...)
-	}
-
-	return fn.DispatchExact(vals...)
-}
-
-type flippedData struct {
-	*kernels.CompareData
-
-	unflippedExec exec.ArrayKernelExec
-}
-
-func flippedCompare(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	kn := ctx.Kernel.(*exec.ScalarKernel)
-	knData := kn.Data.(*flippedData)
-
-	flippedBatch := exec.ExecSpan{
-		Len:    batch.Len,
-		Values: []exec.ExecValue{batch.Values[1], batch.Values[0]},
-	}
-	return knData.unflippedExec(ctx, &flippedBatch, out)
-}
-
-func makeFlippedCompare(name string, fn *compareFunction, doc FunctionDoc) *compareFunction {
-	flipped := &compareFunction{*NewScalarFunction(name, Binary(), doc)}
-	for _, k := range fn.kernels {
-		flippedKernel := k
-		if k.Data != nil {
-			cmpData := k.Data.(*kernels.CompareData)
-			flippedKernel.Data = &flippedData{CompareData: cmpData,
-				unflippedExec: k.ExecFn}
-		} else {
-			flippedKernel.Data = &flippedData{unflippedExec: k.ExecFn}
-		}
-		flippedKernel.ExecFn = flippedCompare
-		flipped.AddKernel(flippedKernel)
-	}
-	return flipped
-}
-
-func RegisterScalarComparisons(reg FunctionRegistry) {
-	eqFn := &compareFunction{*NewScalarFunction("equal", Binary(), EmptyFuncDoc)}
-	for _, k := range kernels.CompareKernels(kernels.CmpEQ) {
-		if err := eqFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(eqFn, false)
-
-	neqFn := &compareFunction{*NewScalarFunction("not_equal", Binary(), EmptyFuncDoc)}
-	for _, k := range kernels.CompareKernels(kernels.CmpNE) {
-		if err := neqFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(neqFn, false)
-
-	gtFn := &compareFunction{*NewScalarFunction("greater", Binary(), EmptyFuncDoc)}
-	for _, k := range kernels.CompareKernels(kernels.CmpGT) {
-		if err := gtFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(gtFn, false)
-
-	gteFn := &compareFunction{*NewScalarFunction("greater_equal", Binary(), EmptyFuncDoc)}
-	for _, k := range kernels.CompareKernels(kernels.CmpGE) {
-		if err := gteFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(gteFn, false)
-
-	ltFn := makeFlippedCompare("less", gtFn, EmptyFuncDoc)
-	reg.AddFunction(ltFn, false)
-	lteFn := makeFlippedCompare("less_equal", gteFn, EmptyFuncDoc)
-	reg.AddFunction(lteFn, false)
-}
diff --git a/go/arrow/compute/scalar_compare_test.go b/go/arrow/compute/scalar_compare_test.go
deleted file mode 100644
index 1f1b65bd0f25f..0000000000000
--- a/go/arrow/compute/scalar_compare_test.go
+++ /dev/null
@@ -1,1484 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-type CompareSuite struct {
-	BinaryFuncTestSuite
-}
-
-func (c *CompareSuite) validateCompareDatum(op kernels.CompareOperator, lhs, rhs, expected compute.Datum) {
-	result, err := compute.CallFunction(c.ctx, op.String(), nil, lhs, rhs)
-	c.Require().NoError(err)
-	defer result.Release()
-
-	assertDatumsEqual(c.T(), expected, result, nil, nil)
-}
-
-func (c *CompareSuite) validateCompare(op kernels.CompareOperator, dt arrow.DataType, lhsStr, rhsStr, expStr string) {
-	lhs, _, err := array.FromJSON(c.mem, dt, strings.NewReader(lhsStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	rhs, _, err := array.FromJSON(c.mem, dt, strings.NewReader(rhsStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	exp, _, err := array.FromJSON(c.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(expStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	defer func() {
-		lhs.Release()
-		rhs.Release()
-		exp.Release()
-	}()
-	c.validateCompareDatum(op, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()}, &compute.ArrayDatum{exp.Data()})
-}
-
-func (c *CompareSuite) validateCompareArrScalar(op kernels.CompareOperator, dt arrow.DataType, lhsStr string, rhs compute.Datum, expStr string) {
-	lhs, _, err := array.FromJSON(c.mem, dt, strings.NewReader(lhsStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	exp, _, err := array.FromJSON(c.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(expStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	defer func() {
-		lhs.Release()
-		exp.Release()
-	}()
-	c.validateCompareDatum(op, &compute.ArrayDatum{lhs.Data()}, rhs, &compute.ArrayDatum{exp.Data()})
-}
-
-func (c *CompareSuite) validateCompareScalarArr(op kernels.CompareOperator, dt arrow.DataType, lhs compute.Datum, rhsStr string, expStr string) {
-	rhs, _, err := array.FromJSON(c.mem, dt, strings.NewReader(rhsStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	exp, _, err := array.FromJSON(c.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(expStr), array.WithUseNumber())
-	c.Require().NoError(err)
-	defer func() {
-		rhs.Release()
-		exp.Release()
-	}()
-	c.validateCompareDatum(op, lhs, &compute.ArrayDatum{rhs.Data()}, &compute.ArrayDatum{exp.Data()})
-}
-
-func slowCompare[T arrow.NumericType | string](op kernels.CompareOperator, lhs, rhs T) bool {
-	switch op {
-	case kernels.CmpEQ:
-		return lhs == rhs
-	case kernels.CmpNE:
-		return lhs != rhs
-	case kernels.CmpLT:
-		return lhs < rhs
-	case kernels.CmpLE:
-		return lhs <= rhs
-	case kernels.CmpGT:
-		return lhs > rhs
-	case kernels.CmpGE:
-		return lhs >= rhs
-	default:
-		return false
-	}
-}
-
-// func simpleScalarArrayCompare[T arrow.NumericType](mem memory.Allocator, op kernels.CompareOperator, lhs, rhs compute.Datum) compute.Datum {
-// 	var (
-// 		swap  = lhs.Kind() == compute.KindArray
-// 		span  exec.ArraySpan
-// 		itr   exec.ArrayIter[T]
-// 		value T
-// 	)
-
-// 	if swap {
-// 		span.SetMembers(lhs.(*compute.ArrayDatum).Value)
-// 		itr = exec.NewPrimitiveIter[T](&span)
-// 		value = kernels.UnboxScalar[T](rhs.(*compute.ScalarDatum).Value.(scalar.PrimitiveScalar))
-// 	} else {
-// 		span.SetMembers(rhs.(*compute.ArrayDatum).Value)
-// 		itr = exec.NewPrimitiveIter[T](&span)
-// 		value = kernels.UnboxScalar[T](lhs.(*compute.ScalarDatum).Value.(scalar.PrimitiveScalar))
-// 	}
-
-// 	bitmap := make([]bool, span.Len)
-// 	for i := 0; i < int(span.Len); i++ {
-// 		if swap {
-// 			bitmap[i] = slowCompare(op, itr.Next(), value)
-// 		} else {
-// 			bitmap[i] = slowCompare(op, value, itr.Next())
-// 		}
-// 	}
-
-// 	var result arrow.Array
-// 	if span.Nulls == 0 {
-// 		result = exec.ArrayFromSlice(mem, bitmap)
-// 	} else {
-// 		nullBitmap := make([]bool, span.Len)
-// 		rdr := bitutil.NewBitmapReader(span.Buffers[0].Buf, int(span.Offset), int(span.Len))
-// 		for i := 0; i < int(span.Len); i++ {
-// 			nullBitmap[i] = rdr.Set()
-// 			rdr.Next()
-// 		}
-// 		bldr := array.NewBooleanBuilder(mem)
-// 		defer bldr.Release()
-
-// 		bldr.AppendValues(bitmap, nullBitmap)
-// 		result = bldr.NewArray()
-// 	}
-
-// 	defer result.Release()
-// 	return compute.NewDatum(result)
-// }
-
-func simpleScalarArrayCompareString(mem memory.Allocator, op kernels.CompareOperator, lhs, rhs compute.Datum) compute.Datum {
-	var (
-		swap  = lhs.Kind() == compute.KindArray
-		value string
-		arr   *array.String
-	)
-
-	if swap {
-		arr = lhs.(*compute.ArrayDatum).MakeArray().(*array.String)
-		defer arr.Release()
-		value = string(rhs.(*compute.ScalarDatum).Value.(*scalar.String).Data())
-	} else {
-		arr = rhs.(*compute.ArrayDatum).MakeArray().(*array.String)
-		defer arr.Release()
-		value = string(lhs.(*compute.ScalarDatum).Value.(*scalar.String).Data())
-	}
-
-	bitmap := make([]bool, arr.Len())
-	for i := 0; i < arr.Len(); i++ {
-		if swap {
-			bitmap[i] = slowCompare(op, arr.Value(i), value)
-		} else {
-			bitmap[i] = slowCompare(op, value, arr.Value(i))
-		}
-	}
-
-	var result arrow.Array
-	if arr.NullN() == 0 {
-		result = exec.ArrayFromSlice(mem, bitmap)
-	} else {
-		nullBitmap := make([]bool, arr.Len())
-		rdr := bitutil.NewBitmapReader(arr.NullBitmapBytes(), arr.Offset(), arr.Len())
-		for i := 0; i < arr.Len(); i++ {
-			nullBitmap[i] = rdr.Set()
-			rdr.Next()
-		}
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(bitmap, nullBitmap)
-		result = bldr.NewArray()
-	}
-
-	defer result.Release()
-	return compute.NewDatum(result)
-}
-
-func nullBitmapFromArrays(lhs, rhs arrow.Array) []bool {
-	nullBitmap := make([]bool, lhs.Len())
-
-	left := func(i int) bool {
-		if lhs.NullN() == 0 {
-			return true
-		}
-		return lhs.IsValid(i)
-	}
-
-	right := func(i int) bool {
-		if rhs.NullN() == 0 {
-			return true
-		}
-		return rhs.IsValid(i)
-	}
-
-	for i := 0; i < lhs.Len(); i++ {
-		nullBitmap[i] = left(i) && right(i)
-	}
-	return nullBitmap
-}
-
-type valuer[T any] interface {
-	Value(int) T
-}
-
-func simpleArrArrCompare[T arrow.NumericType | string](mem memory.Allocator, op kernels.CompareOperator, lhs, rhs compute.Datum) compute.Datum {
-	var (
-		lArr   = lhs.(*compute.ArrayDatum).MakeArray()
-		rArr   = rhs.(*compute.ArrayDatum).MakeArray()
-		length = lArr.Len()
-		bitmap = make([]bool, length)
-
-		lvals = lArr.(valuer[T])
-		rvals = rArr.(valuer[T])
-	)
-	defer lArr.Release()
-	defer rArr.Release()
-
-	for i := 0; i < length; i++ {
-		bitmap[i] = slowCompare(op, lvals.Value(i), rvals.Value(i))
-	}
-
-	var result arrow.Array
-	if lArr.NullN() == 0 && rArr.NullN() == 0 {
-		result = exec.ArrayFromSlice(mem, bitmap)
-	} else {
-		nullBitmap := nullBitmapFromArrays(lArr, rArr)
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(bitmap, nullBitmap)
-		result = bldr.NewArray()
-	}
-
-	defer result.Release()
-	return compute.NewDatum(result)
-}
-
-type NumericCompareSuite[T arrow.NumericType] struct {
-	CompareSuite
-}
-
-// func (n *NumericCompareSuite[T]) validateCompareComputed(op kernels.CompareOperator, lhs, rhs compute.Datum) {
-// 	var expected compute.Datum
-
-// 	hasScalar := lhs.Kind() == compute.KindScalar || rhs.Kind() == compute.KindScalar
-// 	if hasScalar {
-// 		expected = simpleScalarArrayCompare[T](n.mem, op, lhs, rhs)
-// 	} else {
-// 		expected = simpleArrArrCompare[T](n.mem, op, lhs, rhs)
-// 	}
-
-// 	defer expected.Release()
-// 	n.CompareSuite.validateCompareDatum(op, lhs, rhs, expected)
-// }
-
-func (n *NumericCompareSuite[T]) TestSimpleCompareArrayScalar() {
-	dt := arrow.GetDataType[T]()
-	one := compute.NewDatum(scalar.MakeScalar(T(1)))
-
-	n.Run(dt.String(), func() {
-		op := kernels.CmpEQ
-		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
-			`[false, false, true, true, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
-			`[false, true, false, false, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[5, 4, 3, 2, 1, 0]`, one,
-			`[false, false, false, false, true, false]`)
-		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
-			`[null, false, true, true]`)
-
-		op = kernels.CmpNE
-		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
-			`[true, true, false, false, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
-			`[true, false, true, true, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[5, 4, 3, 2, 1, 0]`, one,
-			`[true, true, true, true, false, true]`)
-		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
-			`[null, true, false, false]`)
-
-		op = kernels.CmpGT
-		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
-			`[false, false, false, false, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
-			`[false, false, true, true, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[4, 5, 6, 7, 8, 9]`, one,
-			`[true, true, true, true, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
-			`[null, false, false, false]`)
-
-		op = kernels.CmpGE
-		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
-			`[false, false, true, true, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
-			`[false, true, true, true, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[4, 5, 6, 7, 8, 9]`, one,
-			`[true, true, true, true, true, true]`)
-		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
-			`[null, false, true, true]`)
-
-		op = kernels.CmpLT
-		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
-			`[true, true, false, false, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
-			`[true, false, false, false, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[4, 5, 6, 7, 8, 9]`, one,
-			`[false, false, false, false, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
-			`[null, true, false, false]`)
-
-		op = kernels.CmpLE
-		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
-			`[true, true, true, true, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
-			`[true, true, false, false, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[4, 5, 6, 7, 8, 9]`, one,
-			`[false, false, false, false, false, false]`)
-		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
-			`[null, true, true, true]`)
-	})
-}
-
-func (n *NumericCompareSuite[T]) TestSimpleCompareScalarArray() {
-	dt := arrow.GetDataType[T]()
-	one := compute.NewDatum(scalar.MakeScalar(T(1)))
-
-	n.Run(dt.String(), func() {
-		op := kernels.CmpEQ
-		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
-		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
-			`[false, false, true, true, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
-			`[false, true, false, false, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[5, 4, 3, 2, 1, 0]`,
-			`[false, false, false, false, true, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
-			`[null, false, true, true]`)
-
-		op = kernels.CmpNE
-		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
-		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
-			`[true, true, false, false, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
-			`[true, false, true, true, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[5, 4, 3, 2, 1, 0]`,
-			`[true, true, true, true, false, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
-			`[null, true, false, false]`)
-
-		op = kernels.CmpGT
-		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
-		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
-			`[true, true, false, false, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
-			`[true, false, false, false, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[4, 5, 6, 7, 8, 9]`,
-			`[false, false, false, false, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
-			`[null, true, false, false]`)
-
-		op = kernels.CmpGE
-		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
-		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
-			`[true, true, true, true, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
-			`[true, true, false, false, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[4, 5, 6, 7, 8, 9]`,
-			`[false, false, false, false, false, false]`)
-		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
-			`[null, true, true, true]`)
-
-		op = kernels.CmpLT
-		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
-		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
-			`[false, false, false, false, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
-			`[false, false, true, true, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[4, 5, 6, 7, 8, 9]`,
-			`[true, true, true, true, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
-			`[null, false, false, false]`)
-
-		op = kernels.CmpLE
-		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
-		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
-			`[false, false, true, true, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
-			`[false, true, true, true, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[4, 5, 6, 7, 8, 9]`,
-			`[true, true, true, true, true, true]`)
-		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
-			`[null, false, true, true]`)
-	})
-}
-
-func (n *NumericCompareSuite[T]) TestNullScalar() {
-	dt := arrow.GetDataType[T]()
-	null := compute.NewDatum(scalar.MakeNullScalar(dt))
-
-	n.Run(dt.String(), func() {
-		n.validateCompareArrScalar(kernels.CmpEQ, dt, `[]`, null, `[]`)
-		n.validateCompareScalarArr(kernels.CmpEQ, dt, null, `[]`, `[]`)
-		n.validateCompareArrScalar(kernels.CmpEQ, dt, `[null]`, null, `[null]`)
-		n.validateCompareScalarArr(kernels.CmpEQ, dt, null, `[null]`, `[null]`)
-		n.validateCompareScalarArr(kernels.CmpEQ, dt, null, `[1, 2, 3]`, `[null, null, null]`)
-	})
-}
-
-func (n *NumericCompareSuite[T]) TestSimpleCompareArrArr() {
-	dt := arrow.GetDataType[T]()
-
-	n.Run(dt.String(), func() {
-		n.validateCompare(kernels.CmpEQ, dt, `[]`, `[]`, `[]`)
-		n.validateCompare(kernels.CmpEQ, dt, `[null]`, `[null]`, `[null]`)
-		n.validateCompare(kernels.CmpEQ, dt, `[1]`, `[1]`, `[true]`)
-		n.validateCompare(kernels.CmpEQ, dt, `[1]`, `[2]`, `[false]`)
-		n.validateCompare(kernels.CmpEQ, dt, `[null]`, `[1]`, `[null]`)
-		n.validateCompare(kernels.CmpEQ, dt, `[1]`, `[null]`, `[null]`)
-
-		n.validateCompare(kernels.CmpLE, dt, `[1, 2, 3, 4, 5]`, `[2, 3, 4, 5, 6]`, `[true, true, true, true, true]`)
-	})
-}
-
-type CompareTimestampSuite struct {
-	CompareSuite
-}
-
-func (c *CompareTimestampSuite) TestBasics() {
-	var (
-		example1JSON = `["1970-01-01", "2000-02-29", "1900-02-28"]`
-		example2JSON = `["1970-01-02", "2000-02-01", "1900-02-28"]`
-	)
-
-	checkCase := func(dt arrow.DataType, op kernels.CompareOperator, expected string) {
-		c.validateCompare(op, dt, example1JSON, example2JSON, expected)
-	}
-
-	seconds := arrow.FixedWidthTypes.Timestamp_s
-	millis := arrow.FixedWidthTypes.Timestamp_ms
-	micro := arrow.FixedWidthTypes.Timestamp_us
-	nano := arrow.FixedWidthTypes.Timestamp_ns
-
-	checkCase(seconds, kernels.CmpEQ, `[false, false, true]`)
-	checkCase(millis, kernels.CmpEQ, `[false, false, true]`)
-	checkCase(micro, kernels.CmpEQ, `[false, false, true]`)
-	checkCase(nano, kernels.CmpEQ, `[false, false, true]`)
-
-	checkCase(seconds, kernels.CmpNE, `[true, true, false]`)
-	checkCase(millis, kernels.CmpNE, `[true, true, false]`)
-	checkCase(micro, kernels.CmpNE, `[true, true, false]`)
-	checkCase(nano, kernels.CmpNE, `[true, true, false]`)
-
-	checkCase(seconds, kernels.CmpLT, `[true, false, false]`)
-	checkCase(seconds, kernels.CmpLE, `[true, false, true]`)
-	checkCase(seconds, kernels.CmpGT, `[false, true, false]`)
-	checkCase(seconds, kernels.CmpGE, `[false, true, true]`)
-
-	secondsUTC := &arrow.TimestampType{Unit: arrow.Second, TimeZone: "utc"}
-	checkCase(secondsUTC, kernels.CmpEQ, `[false, false, true]`)
-}
-
-func (c *CompareTimestampSuite) TestDiffParams() {
-	cases := []struct {
-		fn  string
-		exp string
-	}{
-		{"equal", `[false, false, true]`},
-		{"not_equal", `[true, true, false]`},
-		{"less", `[true, false, false]`},
-		{"less_equal", `[true, false, true]`},
-		{"greater", `[false, true, false]`},
-		{"greater_equal", `[false, true, true]`},
-	}
-
-	const lhsJSON = `["1970-01-01", "2000-02-29", "1900-02-28"]`
-	const rhsJSON = `["1970-01-02", "2000-02-01", "1900-02-28"]`
-
-	for _, op := range cases {
-		c.Run(op.fn, func() {
-			exp := c.getArr(arrow.FixedWidthTypes.Boolean, op.exp)
-			defer exp.Release()
-
-			expected := &compute.ArrayDatum{exp.Data()}
-			c.Run("diff units", func() {
-				lhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second}, lhsJSON)
-				defer lhs.Release()
-				rhs := c.getArr(&arrow.TimestampType{Unit: arrow.Millisecond}, rhsJSON)
-				defer rhs.Release()
-
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()}, expected, nil)
-			})
-			c.Run("diff time zones", func() {
-				lhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/New_York"}, lhsJSON)
-				defer lhs.Release()
-				rhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}, rhsJSON)
-				defer rhs.Release()
-
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()}, expected, nil)
-			})
-			c.Run("native to zoned", func() {
-				lhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second}, lhsJSON)
-				defer lhs.Release()
-				rhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}, rhsJSON)
-				defer rhs.Release()
-
-				_, err := compute.CallFunction(c.ctx, op.fn, nil, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()})
-				c.ErrorIs(err, arrow.ErrInvalid)
-				c.ErrorContains(err, "cannot compare timestamp with timezone to timestamp without timezone")
-
-				lhs = c.getArr(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/New_York"}, lhsJSON)
-				defer lhs.Release()
-				rhs = c.getArr(&arrow.TimestampType{Unit: arrow.Second}, rhsJSON)
-				defer rhs.Release()
-
-				_, err = compute.CallFunction(c.ctx, op.fn, nil, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()})
-				c.ErrorIs(err, arrow.ErrInvalid)
-				c.ErrorContains(err, "cannot compare timestamp with timezone to timestamp without timezone")
-			})
-		})
-	}
-}
-
-func (c *CompareTimestampSuite) TestScalarArray() {
-	const scalarStr = "1970-01-02"
-	const arrayJSON = `["1970-01-02", "2000-02-01", null, "1900-02-28"]`
-
-	checkArrCase := func(scType, arrayType arrow.DataType, op kernels.CompareOperator, expectedJSON, flipExpectedJSON string) {
-		scalarSide, err := scalar.MakeScalarParam(scalarStr, scType)
-		c.Require().NoError(err)
-		arraySide := c.getArr(arrayType, arrayJSON)
-		defer arraySide.Release()
-
-		expected := c.getArr(arrow.FixedWidthTypes.Boolean, expectedJSON)
-		defer expected.Release()
-		flipExpected := c.getArr(arrow.FixedWidthTypes.Boolean, flipExpectedJSON)
-		defer flipExpected.Release()
-
-		cases := []struct{ side1, side2, expected compute.Datum }{
-			{compute.NewDatum(scalarSide), &compute.ArrayDatum{arraySide.Data()}, &compute.ArrayDatum{expected.Data()}},
-			{&compute.ArrayDatum{arraySide.Data()}, compute.NewDatum(scalarSide), &compute.ArrayDatum{flipExpected.Data()}},
-		}
-
-		for _, arrCase := range cases {
-			lhs, rhs := arrCase.side1, arrCase.side2
-			if arrow.TypeEqual(scType, arrayType) {
-				c.validateCompareDatum(op, lhs, rhs, arrCase.expected)
-			} else {
-				_, err := compute.CallFunction(c.ctx, op.String(), nil, lhs, rhs)
-				c.ErrorIs(err, arrow.ErrInvalid)
-				c.ErrorContains(err, "cannot compare timestamp with timezone to timestamp without timezone")
-			}
-		}
-	}
-
-	for _, unit := range arrow.TimeUnitValues {
-		c.Run(unit.String(), func() {
-			tests := []struct{ t0, t1 arrow.DataType }{
-				{&arrow.TimestampType{Unit: unit}, &arrow.TimestampType{Unit: unit}},
-				{&arrow.TimestampType{Unit: unit}, &arrow.TimestampType{Unit: unit, TimeZone: "utc"}},
-				{&arrow.TimestampType{Unit: unit, TimeZone: "utc"}, &arrow.TimestampType{Unit: unit}},
-				{&arrow.TimestampType{Unit: unit, TimeZone: "utc"}, &arrow.TimestampType{Unit: unit, TimeZone: "utc"}},
-			}
-			for _, tt := range tests {
-				checkArrCase(tt.t0, tt.t1, kernels.CmpEQ, `[true, false, null, false]`, `[true, false, null, false]`)
-				checkArrCase(tt.t0, tt.t1, kernels.CmpNE, `[false, true, null, true]`, `[false, true, null, true]`)
-				checkArrCase(tt.t0, tt.t1, kernels.CmpLT, `[false, true, null, false]`, `[false, false, null, true]`)
-				checkArrCase(tt.t0, tt.t1, kernels.CmpLE, `[true, true, null, false]`, `[true, false, null, true]`)
-				checkArrCase(tt.t0, tt.t1, kernels.CmpGT, `[false, false, null, true]`, `[false, true, null, false]`)
-				checkArrCase(tt.t0, tt.t1, kernels.CmpGE, `[true, false, null, true]`, `[true, true, null, false]`)
-			}
-		})
-	}
-}
-
-type CompareDecimalSuite struct {
-	CompareSuite
-}
-
-func (c *CompareDecimalSuite) TestArrayScalar() {
-	cases := []struct{ fn, exp string }{
-		{"equal", `[true, false, false, null]`},
-		{"not_equal", `[false, true, true, null]`},
-		{"less", `[false, false, true, null]`},
-		{"less_equal", `[true, false, true, null]`},
-		{"greater", `[false, true, false, null]`},
-		{"greater_equal", `[true, true, false, null]`},
-	}
-
-	for _, id := range []arrow.Type{arrow.DECIMAL128, arrow.DECIMAL256} {
-		c.Run(id.String(), func() {
-			ty, _ := arrow.NewDecimalType(id, 3, 2)
-
-			lhsArr := c.getArr(ty, `["1.23", "2.34", "-1.23", null]`)
-			lhsFloatArr := c.getArr(arrow.PrimitiveTypes.Float64, `[1.23, 2.34, -1.23, null]`)
-			lhsIntLikeArr := c.getArr(ty, `["1.00", "2.00", "-1.00", null]`)
-			defer func() {
-				lhsArr.Release()
-				lhsFloatArr.Release()
-				lhsIntLikeArr.Release()
-			}()
-
-			lhs := &compute.ArrayDatum{lhsArr.Data()}
-			lhsFloat := &compute.ArrayDatum{lhsFloatArr.Data()}
-			lhsIntLike := &compute.ArrayDatum{lhsIntLikeArr.Data()}
-
-			rhs, _ := scalar.MakeScalarParam("1.23", ty)
-			rhsFloat := scalar.MakeScalar(float64(1.23))
-			rhsInt := scalar.MakeScalar(int64(1))
-			for _, tc := range cases {
-				c.Run(tc.fn, func() {
-					exp := c.getArr(arrow.FixedWidthTypes.Boolean, tc.exp)
-					defer exp.Release()
-					expected := &compute.ArrayDatum{exp.Data()}
-
-					checkScalarBinary(c.T(), tc.fn, lhs, compute.NewDatum(rhs), expected, nil)
-					checkScalarBinary(c.T(), tc.fn, lhsFloat, compute.NewDatum(rhs), expected, nil)
-					checkScalarBinary(c.T(), tc.fn, lhs, compute.NewDatum(rhsFloat), expected, nil)
-					checkScalarBinary(c.T(), tc.fn, lhsIntLike, compute.NewDatum(rhsInt), expected, nil)
-				})
-			}
-		})
-	}
-}
-
-func (c *CompareDecimalSuite) TestScalarArray() {
-	cases := []struct{ fn, exp string }{
-		{"equal", `[true, false, false, null]`},
-		{"not_equal", `[false, true, true, null]`},
-		{"less", `[false, true, false, null]`},
-		{"less_equal", `[true, true, false, null]`},
-		{"greater", `[false, false, true, null]`},
-		{"greater_equal", `[true, false, true, null]`},
-	}
-
-	for _, id := range []arrow.Type{arrow.DECIMAL128, arrow.DECIMAL256} {
-		c.Run(id.String(), func() {
-			ty, _ := arrow.NewDecimalType(id, 3, 2)
-
-			rhsArr := c.getArr(ty, `["1.23", "2.34", "-1.23", null]`)
-			rhsFloatArr := c.getArr(arrow.PrimitiveTypes.Float64, `[1.23, 2.34, -1.23, null]`)
-			rhsIntLikeArr := c.getArr(ty, `["1.00", "2.00", "-1.00", null]`)
-			defer func() {
-				rhsArr.Release()
-				rhsFloatArr.Release()
-				rhsIntLikeArr.Release()
-			}()
-
-			rhs := &compute.ArrayDatum{rhsArr.Data()}
-			rhsFloat := &compute.ArrayDatum{rhsFloatArr.Data()}
-			rhsIntLike := &compute.ArrayDatum{rhsIntLikeArr.Data()}
-
-			lhs, _ := scalar.MakeScalarParam("1.23", ty)
-			lhsFloat := scalar.MakeScalar(float64(1.23))
-			lhsInt := scalar.MakeScalar(int64(1))
-			for _, tc := range cases {
-				c.Run(tc.fn, func() {
-					exp := c.getArr(arrow.FixedWidthTypes.Boolean, tc.exp)
-					defer exp.Release()
-					expected := &compute.ArrayDatum{exp.Data()}
-
-					checkScalarBinary(c.T(), tc.fn, compute.NewDatum(lhs), rhs, expected, nil)
-					checkScalarBinary(c.T(), tc.fn, compute.NewDatum(lhs), rhsFloat, expected, nil)
-					checkScalarBinary(c.T(), tc.fn, compute.NewDatum(lhsFloat), rhs, expected, nil)
-					checkScalarBinary(c.T(), tc.fn, compute.NewDatum(lhsInt), rhsIntLike, expected, nil)
-				})
-			}
-		})
-	}
-}
-
-func (c *CompareDecimalSuite) TestArrayArray() {
-	cases := []struct{ fn, exp string }{
-		{"equal", `[true, false, false, true, false, false, null, null]`},
-		{"not_equal", `[false, true, true, false, true, true, null, null]`},
-		{"less", `[false, true, false, false, true, false, null, null]`},
-		{"less_equal", `[true, true, false, true, true, false, null, null]`},
-		{"greater", `[false, false, true, false, false, true, null, null]`},
-		{"greater_equal", `[true, false, true, true, false, true, null, null]`},
-	}
-
-	for _, id := range []arrow.Type{arrow.DECIMAL128, arrow.DECIMAL256} {
-		c.Run(id.String(), func() {
-			ty, _ := arrow.NewDecimalType(id, 3, 2)
-
-			lhsArr := c.getArr(ty, `["1.23", "1.23", "2.34", "-1.23", "-1.23", "1.23", "1.23", null]`)
-			lhsFloatArr := c.getArr(arrow.PrimitiveTypes.Float64, `[1.23, 1.23, 2.34, -1.23, -1.23, 1.23, 1.23, null]`)
-			lhsIntLikeArr := c.getArr(ty, `["1.00", "1.00", "2.00", "-1.00", "-1.00", "1.00", "1.00", null]`)
-			defer func() {
-				lhsArr.Release()
-				lhsFloatArr.Release()
-				lhsIntLikeArr.Release()
-			}()
-
-			lhs := &compute.ArrayDatum{lhsArr.Data()}
-			lhsFloat := &compute.ArrayDatum{lhsFloatArr.Data()}
-			lhsIntLike := &compute.ArrayDatum{lhsIntLikeArr.Data()}
-
-			rhsArr := c.getArr(ty, `["1.23", "2.34", "1.23", "-1.23", "1.23", "-1.23", null, "1.23"]`)
-			rhsFloatArr := c.getArr(arrow.PrimitiveTypes.Float64, `[1.23, 2.34, 1.23, -1.23, 1.23, -1.23, null, 1.23]`)
-			rhsIntArr := c.getArr(arrow.PrimitiveTypes.Int64, `[1, 2, 1, -1, 1, -1, null, 1]`)
-			defer func() {
-				rhsArr.Release()
-				rhsFloatArr.Release()
-				rhsIntArr.Release()
-			}()
-
-			rhs := &compute.ArrayDatum{rhsArr.Data()}
-			rhsFloat := &compute.ArrayDatum{rhsFloatArr.Data()}
-			rhsInt := &compute.ArrayDatum{rhsIntArr.Data()}
-
-			empty := c.getArr(ty, `[]`)
-			emptyExp := c.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
-			null := c.getArr(ty, `[null]`)
-			nullExp := c.getArr(arrow.FixedWidthTypes.Boolean, `[null]`)
-			defer func() {
-				empty.Release()
-				emptyExp.Release()
-				null.Release()
-				nullExp.Release()
-			}()
-
-			for _, tc := range cases {
-				c.Run(tc.fn, func() {
-					exp := c.getArr(arrow.FixedWidthTypes.Boolean, tc.exp)
-					defer exp.Release()
-					expected := &compute.ArrayDatum{exp.Data()}
-
-					checkScalarBinary(c.T(), tc.fn, &compute.ArrayDatum{empty.Data()},
-						&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{emptyExp.Data()}, nil)
-					checkScalarBinary(c.T(), tc.fn, &compute.ArrayDatum{null.Data()},
-						&compute.ArrayDatum{null.Data()}, &compute.ArrayDatum{nullExp.Data()}, nil)
-					checkScalarBinary(c.T(), tc.fn, lhs, rhs, expected, nil)
-					checkScalarBinary(c.T(), tc.fn, lhsFloat, rhs, expected, nil)
-					checkScalarBinary(c.T(), tc.fn, lhs, rhsFloat, expected, nil)
-					checkScalarBinary(c.T(), tc.fn, lhsIntLike, rhsInt, expected, nil)
-				})
-			}
-		})
-	}
-}
-
-func (c *CompareDecimalSuite) TestDiffParams() {
-	cases := []struct{ fn, exp string }{
-		{"equal", `[true, false, false, true, false, false]`},
-		{"not_equal", `[false, true, true, false, true, true]`},
-		{"less", `[false, true, false, false, true, false]`},
-		{"less_equal", `[true, true, false, true, true, false]`},
-		{"greater", `[false, false, true, false, false, true]`},
-		{"greater_equal", `[true, false, true, true, false, true]`},
-	}
-
-	for _, id := range []arrow.Type{arrow.DECIMAL128, arrow.DECIMAL256} {
-		c.Run(id.String(), func() {
-			ty1, _ := arrow.NewDecimalType(id, 3, 2)
-			ty2, _ := arrow.NewDecimalType(id, 4, 3)
-
-			lhsArr := c.getArr(ty1, `["1.23", "1.23", "2.34", "-1.23", "-1.23", "1.23"]`)
-			rhsArr := c.getArr(ty2, `["1.230", "2.340", "1.230", "-1.230", "1.230", "-1.230"]`)
-			defer func() {
-				lhsArr.Release()
-				rhsArr.Release()
-			}()
-
-			lhs := &compute.ArrayDatum{lhsArr.Data()}
-			rhs := &compute.ArrayDatum{rhsArr.Data()}
-
-			for _, tc := range cases {
-				c.Run(tc.fn, func() {
-					exp := c.getArr(arrow.FixedWidthTypes.Boolean, tc.exp)
-					defer exp.Release()
-					expected := &compute.ArrayDatum{exp.Data()}
-
-					checkScalarBinary(c.T(), tc.fn, lhs, rhs, expected, nil)
-				})
-			}
-		})
-	}
-}
-
-type CompareFixedSizeBinary struct {
-	CompareSuite
-}
-
-type fsbCompareCase struct {
-	lhsType, rhsType arrow.DataType
-	lhs, rhs         string
-	// index into cases[...].exp
-	resultIdx int
-}
-
-func (c *CompareFixedSizeBinary) TestArrayScalar() {
-	ty1 := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-	ty2 := &arrow.FixedSizeBinaryType{ByteWidth: 1}
-
-	cases := []struct {
-		fn  string
-		exp []string
-	}{
-		{"equal", []string{
-			`[false, true, false, null]`,
-			`[false, false, false, null]`,
-			`[false, false, false, null]`}},
-		{"not_equal", []string{
-			`[true, false, true, null]`,
-			`[true, true, true, null]`,
-			`[true, true, true, null]`}},
-		{"less", []string{
-			`[true, false, false, null]`,
-			`[true, true, true, null]`,
-			`[true, false, false, null]`}},
-		{"less_equal", []string{
-			`[true, true, false, null]`,
-			`[true, true, true, null]`,
-			`[true, false, false, null]`}},
-		{"greater", []string{
-			`[false, false, true, null]`,
-			`[false, false, false, null]`,
-			`[false, true, true, null]`}},
-		{"greater_equal", []string{
-			`[false, true, true, null]`,
-			`[false, false, false, null]`,
-			`[false, true, true, null]`}},
-	}
-
-	// base64 encoding
-	const (
-		valAba = `YWJh`
-		valAbc = `YWJj`
-		valAbd = `YWJk`
-		valA   = `YQ==`
-		valB   = `Yg==`
-		valC   = `Yw==`
-	)
-
-	const (
-		lhs1bin = `["` + valAba + `","` + valAbc + `","` + valAbd + `", null]`
-		lhs1    = `["aba", "abc", "abd", null]`
-		rhs1    = "abc"
-		lhs2bin = `["` + valA + `","` + valB + `","` + valC + `", null]`
-		rhs2    = "b"
-	)
-
-	types := []fsbCompareCase{
-		{ty1, ty1, lhs1bin, rhs1, 0},
-		{ty2, ty2, lhs2bin, rhs2, 0},
-		{ty1, ty2, lhs1bin, rhs2, 1},
-		{ty2, ty1, lhs2bin, rhs1, 2},
-		{ty1, arrow.BinaryTypes.Binary, lhs1bin, rhs1, 0},
-		{arrow.BinaryTypes.Binary, ty1, lhs1bin, rhs1, 0},
-		{ty1, arrow.BinaryTypes.LargeBinary, lhs1bin, rhs1, 0},
-		{arrow.BinaryTypes.LargeBinary, ty1, lhs1bin, rhs1, 0},
-		{ty1, arrow.BinaryTypes.String, lhs1bin, rhs1, 0},
-		{arrow.BinaryTypes.String, ty1, lhs1, rhs1, 0},
-		{ty1, arrow.BinaryTypes.LargeString, lhs1bin, rhs1, 0},
-		{arrow.BinaryTypes.LargeString, ty1, lhs1, rhs1, 0},
-	}
-
-	expNull := c.getArr(arrow.FixedWidthTypes.Boolean, `[null]`)
-	defer expNull.Release()
-
-	for _, op := range cases {
-		c.Run(op.fn, func() {
-			for _, tc := range types {
-				lhs := c.getArr(tc.lhsType, tc.lhs)
-				defer lhs.Release()
-				rhs, _ := scalar.MakeScalarParam(tc.rhs, tc.rhsType)
-				exp := c.getArr(arrow.FixedWidthTypes.Boolean, op.exp[tc.resultIdx])
-				defer exp.Release()
-
-				expected := &compute.ArrayDatum{exp.Data()}
-
-				null := c.getArr(tc.lhsType, `[null]`)
-				defer null.Release()
-				scNull := scalar.MakeNullScalar(tc.rhsType)
-
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{null.Data()}, compute.NewDatum(scNull),
-					&compute.ArrayDatum{expNull.Data()}, nil)
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhs.Data()},
-					compute.NewDatum(rhs), expected, nil)
-			}
-		})
-	}
-}
-
-func (c *CompareFixedSizeBinary) TestScalarArray() {
-	ty1 := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-	ty2 := &arrow.FixedSizeBinaryType{ByteWidth: 1}
-
-	cases := []struct {
-		fn  string
-		exp []string
-	}{
-		{"equal", []string{
-			`[false, true, false, null]`,
-			`[false, false, false, null]`,
-			`[false, false, false, null]`}},
-		{"not_equal", []string{
-			`[true, false, true, null]`,
-			`[true, true, true, null]`,
-			`[true, true, true, null]`}},
-		{"less", []string{
-			`[false, false, true, null]`,
-			`[false, true, true, null]`,
-			`[false, false, false, null]`}},
-		{"less_equal", []string{
-			`[false, true, true, null]`,
-			`[false, true, true, null]`,
-			`[false, false, false, null]`}},
-		{"greater", []string{
-			`[true, false, false, null]`,
-			`[true, false, false, null]`,
-			`[true, true, true, null]`}},
-		{"greater_equal", []string{
-			`[true, true, false, null]`,
-			`[true, false, false, null]`,
-			`[true, true, true, null]`}},
-	}
-
-	// base64 encoding
-	const (
-		valAba = `YWJh`
-		valAbc = `YWJj`
-		valAbd = `YWJk`
-		valA   = `YQ==`
-		valB   = `Yg==`
-		valC   = `Yw==`
-	)
-
-	const (
-		lhs1    = "abc"
-		rhs1bin = `["` + valAba + `","` + valAbc + `","` + valAbd + `", null]`
-		rhs1    = `["aba", "abc", "abd", null]`
-		lhs2    = "b"
-		rhs2bin = `["` + valA + `","` + valB + `","` + valC + `", null]`
-		rhs2    = `["a", "b", "c", null]`
-	)
-
-	types := []fsbCompareCase{
-		{ty1, ty1, lhs1, rhs1bin, 0},
-		{ty2, ty2, lhs2, rhs2bin, 0},
-		{ty1, ty2, lhs1, rhs2bin, 1},
-		{ty2, ty1, lhs2, rhs1bin, 2},
-		{ty1, arrow.BinaryTypes.Binary, lhs1, rhs1bin, 0},
-		{arrow.BinaryTypes.Binary, ty1, lhs1, rhs1bin, 0},
-		{ty1, arrow.BinaryTypes.LargeBinary, lhs1, rhs1bin, 0},
-		{arrow.BinaryTypes.LargeBinary, ty1, lhs1, rhs1bin, 0},
-		{ty1, arrow.BinaryTypes.String, lhs1, rhs1, 0},
-		{arrow.BinaryTypes.String, ty1, lhs1, rhs1bin, 0},
-		{ty1, arrow.BinaryTypes.LargeString, lhs1, rhs1, 0},
-		{arrow.BinaryTypes.LargeString, ty1, lhs1, rhs1bin, 0},
-	}
-
-	expNull := c.getArr(arrow.FixedWidthTypes.Boolean, `[null]`)
-	defer expNull.Release()
-
-	for _, op := range cases {
-		c.Run(op.fn, func() {
-			for _, tc := range types {
-				lhs, _ := scalar.MakeScalarParam(tc.lhs, tc.lhsType)
-				rhs := c.getArr(tc.rhsType, tc.rhs)
-				defer rhs.Release()
-				exp := c.getArr(arrow.FixedWidthTypes.Boolean, op.exp[tc.resultIdx])
-				defer exp.Release()
-
-				expected := &compute.ArrayDatum{exp.Data()}
-
-				null := c.getArr(tc.rhsType, `[null]`)
-				defer null.Release()
-				scNull := scalar.MakeNullScalar(tc.lhsType)
-
-				checkScalarBinary(c.T(), op.fn, compute.NewDatum(scNull), &compute.ArrayDatum{null.Data()},
-					&compute.ArrayDatum{expNull.Data()}, nil)
-				checkScalarBinary(c.T(), op.fn, compute.NewDatum(lhs),
-					&compute.ArrayDatum{rhs.Data()}, expected, nil)
-			}
-		})
-	}
-}
-
-func (c *CompareFixedSizeBinary) TestArrayArray() {
-	ty1 := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-	ty2 := &arrow.FixedSizeBinaryType{ByteWidth: 1}
-
-	cases := []struct {
-		fn  string
-		exp []string
-	}{
-		{"equal", []string{
-			`[true, false, false, null, null]`,
-			`[true, false, false, null, null]`,
-			`[true, false, false, null, null]`,
-			`[true, false, false, null, null]`,
-			`[false, false, false, null, null]`,
-			`[false, false, false, null, null]`}},
-		{"not_equal", []string{
-			`[false, true, true, null, null]`,
-			`[false, true, true, null, null]`,
-			`[false, true, true, null, null]`,
-			`[false, true, true, null, null]`,
-			`[true, true, true, null, null]`,
-			`[true, true, true, null, null]`}},
-		{"less", []string{
-			`[false, true, false, null, null]`,
-			`[false, false, true, null, null]`,
-			`[false, true, false, null, null]`,
-			`[false, false, true, null, null]`,
-			`[false, true, true, null, null]`,
-			`[true, true, false, null, null]`}},
-		{"less_equal", []string{
-			`[true, true, false, null, null]`,
-			`[true, false, true, null, null]`,
-			`[true, true, false, null, null]`,
-			`[true, false, true, null, null]`,
-			`[false, true, true, null, null]`,
-			`[true, true, false, null, null]`}},
-		{"greater", []string{
-			`[false, false, true, null, null]`,
-			`[false, true, false, null, null]`,
-			`[false, false, true, null, null]`,
-			`[false, true, false, null, null]`,
-			`[true, false, false, null, null]`,
-			`[false, false, true, null, null]`}},
-		{"greater_equal", []string{
-			`[true, false, true, null, null]`,
-			`[true, true, false, null, null]`,
-			`[true, false, true, null, null]`,
-			`[true, true, false, null, null]`,
-			`[true, false, false, null, null]`,
-			`[false, false, true, null, null]`}},
-	}
-
-	// base64 encoding
-	const (
-		valAbc = `YWJj`
-		valAbd = `YWJk`
-		valA   = `YQ==`
-		valC   = `Yw==`
-		valD   = `ZA==`
-	)
-
-	const (
-		lhs1bin = `["` + valAbc + `","` + valAbc + `","` + valAbd + `", null, "` + valAbc + `"]`
-		rhs1bin = `["` + valAbc + `","` + valAbd + `","` + valAbc + `","` + valAbc + `", null]`
-		lhs1    = `["abc", "abc", "abd", null, "abc"]`
-		rhs1    = `["abc", "abd", "abc", "abc", null]`
-		lhs2bin = `["` + valA + `","` + valA + `","` + valD + `", null, "` + valA + `"]`
-		rhs2bin = `["` + valA + `","` + valD + `","` + valC + `","` + valA + `", null]`
-	)
-
-	types := []fsbCompareCase{
-		{ty1, ty1, lhs1bin, rhs1bin, 0},
-		{ty1, ty1, rhs1bin, lhs1bin, 1},
-		{ty2, ty2, lhs2bin, rhs2bin, 2},
-		{ty2, ty2, rhs2bin, lhs2bin, 3},
-		{ty1, ty2, lhs1bin, rhs2bin, 4},
-		{ty2, ty1, lhs2bin, rhs1bin, 5},
-		{ty1, arrow.BinaryTypes.Binary, lhs1bin, rhs1bin, 0},
-		{arrow.BinaryTypes.Binary, ty1, lhs1bin, rhs1bin, 0},
-		{ty1, arrow.BinaryTypes.LargeBinary, lhs1bin, rhs1bin, 0},
-		{arrow.BinaryTypes.LargeBinary, ty1, lhs1bin, rhs1bin, 0},
-		{ty1, arrow.BinaryTypes.String, lhs1bin, rhs1, 0},
-		{arrow.BinaryTypes.String, ty1, lhs1, rhs1bin, 0},
-		{ty1, arrow.BinaryTypes.LargeString, lhs1bin, rhs1, 0},
-		{arrow.BinaryTypes.LargeString, ty1, lhs1, rhs1bin, 0},
-	}
-
-	expEmpty := c.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
-	defer expEmpty.Release()
-	expNull := c.getArr(arrow.FixedWidthTypes.Boolean, `[null]`)
-	defer expNull.Release()
-
-	for _, op := range cases {
-		c.Run(op.fn, func() {
-			for _, tc := range types {
-				lhs := c.getArr(tc.lhsType, tc.lhs)
-				defer lhs.Release()
-				rhs := c.getArr(tc.rhsType, tc.rhs)
-				defer rhs.Release()
-				exp := c.getArr(arrow.FixedWidthTypes.Boolean, op.exp[tc.resultIdx])
-				defer exp.Release()
-
-				expected := &compute.ArrayDatum{exp.Data()}
-
-				lhsEmpty := c.getArr(tc.lhsType, `[]`)
-				defer lhsEmpty.Release()
-				rhsEmpty := c.getArr(tc.rhsType, `[]`)
-				defer rhsEmpty.Release()
-				lhsNull := c.getArr(tc.lhsType, `[null]`)
-				defer lhsNull.Release()
-				rhsNull := c.getArr(tc.rhsType, `[null]`)
-				defer rhsNull.Release()
-
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhsEmpty.Data()}, &compute.ArrayDatum{rhsEmpty.Data()},
-					&compute.ArrayDatum{expEmpty.Data()}, nil)
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhsNull.Data()}, &compute.ArrayDatum{rhsNull.Data()},
-					&compute.ArrayDatum{expNull.Data()}, nil)
-				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhs.Data()},
-					&compute.ArrayDatum{rhs.Data()}, expected, nil)
-			}
-		})
-	}
-}
-
-type CompareStringSuite struct {
-	CompareSuite
-}
-
-func (c *CompareStringSuite) TestSimpleCompareArrayScalar() {
-	one := compute.NewDatum(scalar.MakeScalar("one"))
-
-	dt := arrow.BinaryTypes.String
-
-	op := kernels.CmpEQ
-	c.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-	c.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-	c.validateCompareArrScalar(op, dt, `["zero", "zero", "one", "one", "two", "two"]`, one,
-		`[false, false, true, true, false, false]`)
-	c.validateCompareArrScalar(op, dt, `["zero", "one", "two", "three", "four", "five"]`, one,
-		`[false, true, false, false, false, false]`)
-	c.validateCompareArrScalar(op, dt, `["five", "four", "three", "two", "one", "zero"]`, one,
-		`[false, false, false, false, true, false]`)
-	c.validateCompareArrScalar(op, dt, `[null, "zero", "one", "one"]`, one, `[null, false, true, true]`)
-
-	na := compute.NewDatum(scalar.MakeNullScalar(dt))
-	c.validateCompareArrScalar(op, dt, `[null, "zero", "one", "one"]`, na, `[null, null, null, null]`)
-	c.validateCompareScalarArr(op, dt, na, `[null, "zero", "one", "one"]`, `[null, null, null, null]`)
-
-	op = kernels.CmpNE
-	c.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
-	c.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
-	c.validateCompareArrScalar(op, dt, `["zero", "zero", "one", "one", "two", "two"]`, one,
-		`[true, true, false, false, true, true]`)
-	c.validateCompareArrScalar(op, dt, `["zero", "one", "two", "three", "four", "five"]`, one,
-		`[true, false, true, true, true, true]`)
-	c.validateCompareArrScalar(op, dt, `["five", "four", "three", "two", "one", "zero"]`, one,
-		`[true, true, true, true, false, true]`)
-	c.validateCompareArrScalar(op, dt, `[null, "zero", "one", "one"]`, one, `[null, true, false, false]`)
-}
-
-func (c *CompareStringSuite) validateCompareComputed(op kernels.CompareOperator, lhs, rhs compute.Datum) {
-	var expected compute.Datum
-
-	hasScalar := lhs.Kind() == compute.KindScalar || rhs.Kind() == compute.KindScalar
-	if hasScalar {
-		expected = simpleScalarArrayCompareString(c.mem, op, lhs, rhs)
-	} else {
-		expected = simpleArrArrCompare[string](c.mem, op, lhs, rhs)
-	}
-
-	defer expected.Release()
-	c.CompareSuite.validateCompareDatum(op, lhs, rhs, expected)
-}
-
-func (c *CompareStringSuite) TestRandomCompareArrayArray() {
-	rng := gen.NewRandomArrayGenerator(0x5416447, c.mem)
-	for i := 3; i < 5; i++ {
-		c.Run(fmt.Sprintf("len=%d", 1<<i), func() {
-			for _, nullProb := range []float64{0.0, 0.01, 0.1, 0.25, 0.5, 1.0} {
-				c.Run(fmt.Sprintf("nullprob=%0.2f", nullProb), func() {
-					for _, op := range []kernels.CompareOperator{kernels.CmpEQ, kernels.CmpNE} {
-						c.Run(op.String(), func() {
-							length := int64(1 << i)
-							lhs := rng.String(length<<i, 0, 16, nullProb)
-							defer lhs.Release()
-							rhs := rng.String(length<<i, 0, 16, nullProb)
-							defer rhs.Release()
-
-							c.validateCompareComputed(op,
-								&compute.ArrayDatum{lhs.Data()},
-								&compute.ArrayDatum{rhs.Data()})
-						})
-					}
-				})
-			}
-		})
-	}
-}
-
-func TestComparisons(t *testing.T) {
-	suite.Run(t, new(NumericCompareSuite[int8]))
-	suite.Run(t, new(NumericCompareSuite[int16]))
-	suite.Run(t, new(NumericCompareSuite[int32]))
-	suite.Run(t, new(NumericCompareSuite[int64]))
-	suite.Run(t, new(NumericCompareSuite[uint8]))
-	suite.Run(t, new(NumericCompareSuite[uint16]))
-	suite.Run(t, new(NumericCompareSuite[uint32]))
-	suite.Run(t, new(NumericCompareSuite[uint64]))
-	suite.Run(t, new(NumericCompareSuite[float32]))
-	suite.Run(t, new(NumericCompareSuite[float64]))
-	suite.Run(t, new(CompareTimestampSuite))
-	suite.Run(t, new(CompareDecimalSuite))
-	suite.Run(t, new(CompareFixedSizeBinary))
-	suite.Run(t, new(CompareStringSuite))
-}
-
-func TestCompareKernelsDispatchBest(t *testing.T) {
-	tests := []struct {
-		origLeft, origRight     arrow.DataType
-		expectLeft, expectRight arrow.DataType
-	}{
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-		{arrow.PrimitiveTypes.Int32, arrow.Null, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-		{arrow.Null, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
-
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint64, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
-
-		{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8},
-		{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Uint16},
-
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32},
-		{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32},
-		{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
-
-		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64}, arrow.PrimitiveTypes.Float64,
-			arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
-		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64}, arrow.PrimitiveTypes.Int16,
-			arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
-
-		{arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Timestamp_us},
-		{arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Timestamp_us},
-
-		{arrow.BinaryTypes.String, arrow.BinaryTypes.Binary, arrow.BinaryTypes.Binary, arrow.BinaryTypes.Binary},
-		{arrow.BinaryTypes.LargeString, arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary, arrow.BinaryTypes.LargeBinary},
-		{arrow.BinaryTypes.LargeString, &arrow.FixedSizeBinaryType{ByteWidth: 2}, arrow.BinaryTypes.LargeBinary, arrow.BinaryTypes.LargeBinary},
-		{arrow.BinaryTypes.Binary, &arrow.FixedSizeBinaryType{ByteWidth: 2}, arrow.BinaryTypes.Binary, arrow.BinaryTypes.Binary},
-		{&arrow.FixedSizeBinaryType{ByteWidth: 4}, &arrow.FixedSizeBinaryType{ByteWidth: 2},
-			&arrow.FixedSizeBinaryType{ByteWidth: 4}, &arrow.FixedSizeBinaryType{ByteWidth: 2}},
-
-		{&arrow.Decimal128Type{Precision: 3, Scale: 2}, &arrow.Decimal128Type{Precision: 6, Scale: 3},
-			&arrow.Decimal128Type{Precision: 4, Scale: 3}, &arrow.Decimal128Type{Precision: 6, Scale: 3}},
-		{&arrow.Decimal128Type{Precision: 3, Scale: 2}, &arrow.Decimal256Type{Precision: 3, Scale: 2},
-			&arrow.Decimal256Type{Precision: 3, Scale: 2}, &arrow.Decimal256Type{Precision: 3, Scale: 2}},
-		{&arrow.Decimal128Type{Precision: 3, Scale: 2}, arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
-		{arrow.PrimitiveTypes.Float64, &arrow.Decimal128Type{Precision: 3, Scale: 2}, arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
-		{&arrow.Decimal128Type{Precision: 3, Scale: 2}, arrow.PrimitiveTypes.Int64,
-			&arrow.Decimal128Type{Precision: 3, Scale: 2}, &arrow.Decimal128Type{Precision: 21, Scale: 2}},
-		{arrow.PrimitiveTypes.Int64, &arrow.Decimal128Type{Precision: 3, Scale: 2},
-			&arrow.Decimal128Type{Precision: 21, Scale: 2}, &arrow.Decimal128Type{Precision: 3, Scale: 2}},
-	}
-
-	for _, name := range []string{"equal", "not_equal", "less", "less_equal", "greater", "greater_equal"} {
-		t.Run(name, func(t *testing.T) {
-			for _, tt := range tests {
-				CheckDispatchBest(t, name, []arrow.DataType{tt.origLeft, tt.origRight},
-					[]arrow.DataType{tt.expectLeft, tt.expectRight})
-			}
-		})
-	}
-}
-
-func TestCompareGreaterWithImplicitCasts(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	getArr := func(ty arrow.DataType, str string) arrow.Array {
-		arr, _, err := array.FromJSON(mem, ty, strings.NewReader(str), array.WithUseNumber())
-		require.NoError(t, err)
-		return arr
-	}
-
-	check := func(ty1 arrow.DataType, str1 string, ty2 arrow.DataType, str2 string, exp string) {
-		arr1, arr2 := getArr(ty1, str1), getArr(ty2, str2)
-		arrExp := getArr(arrow.FixedWidthTypes.Boolean, exp)
-
-		checkScalarBinary(t, "greater", compute.NewDatumWithoutOwning(arr1),
-			compute.NewDatumWithoutOwning(arr2),
-			compute.NewDatumWithoutOwning(arrExp), nil)
-
-		arr1.Release()
-		arr2.Release()
-		arrExp.Release()
-	}
-
-	tests := []struct {
-		ty1, ty2   arrow.DataType
-		str1, str2 string
-		exp        string
-	}{
-		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64,
-			`[0, 1, 2, null]`, `[0.5, 1.0, 1.5, 2.0]`, `[false, false, true, null]`},
-		{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint32,
-			`[-16, 0, 16, null]`, `[3, 4, 5, 7]`, `[false, false, true, null]`},
-		{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint8,
-			`[-16, 0, 16, null]`, `[255, 254, 1, 0]`, `[false, false, true, null]`},
-		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.PrimitiveTypes.Int32},
-			arrow.PrimitiveTypes.Uint32, `[0, 1, 2, null]`, `[3, 4, 5, 7]`, `[false, false, false, null]`},
-		{&arrow.TimestampType{Unit: arrow.Second}, arrow.FixedWidthTypes.Date64,
-			`["1970-01-01", "2000-02-29", "1900-02-28"]`, `[86400000, 0, 86400000]`,
-			`[false, true, false]`},
-		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.PrimitiveTypes.Int8},
-			arrow.PrimitiveTypes.Uint32, `[3, -3, -28, null]`, `[3, 4, 5, 7]`,
-			`[false, false, false, null]`},
-	}
-
-	for _, tt := range tests {
-		check(tt.ty1, tt.str1, tt.ty2, tt.str2, tt.exp)
-	}
-}
-
-func TestCompareGreaterWithImplicitCastUint64EdgeCase(t *testing.T) {
-	// int64 is as wide as we can promote
-	CheckDispatchBest(t, "greater",
-		[]arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint64},
-		[]arrow.DataType{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64})
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	getArr := func(ty arrow.DataType, str string) arrow.Array {
-		arr, _, err := array.FromJSON(mem, ty, strings.NewReader(str), array.WithUseNumber())
-		require.NoError(t, err)
-		return arr
-	}
-
-	// this works sometimes
-	neg := getArr(arrow.PrimitiveTypes.Int8, `[-1]`)
-	defer neg.Release()
-	zero := getArr(arrow.PrimitiveTypes.Uint64, `[0]`)
-	defer zero.Release()
-	res := getArr(arrow.FixedWidthTypes.Boolean, `[false]`)
-	defer res.Release()
-
-	checkScalarBinary(t, "greater", compute.NewDatumWithoutOwning(neg),
-		compute.NewDatumWithoutOwning(zero), compute.NewDatumWithoutOwning(res), nil)
-
-	// ... but it can result in impossible implicit casts in the presence of uint64
-	// since some uint64 values cannot be cast to int64
-	neg = getArr(arrow.PrimitiveTypes.Int64, `[-1]`)
-	defer neg.Release()
-	big := getArr(arrow.PrimitiveTypes.Uint64, `[18446744073709551615]`)
-	defer big.Release()
-
-	_, err := compute.CallFunction(context.TODO(), "greater", nil, compute.NewDatumWithoutOwning(neg), compute.NewDatumWithoutOwning(big))
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-}
-
-const benchSeed = 0x94378165
-
-func benchArrayScalar(b *testing.B, sz int, nullprob float64, op string, dt arrow.DataType) {
-	b.Run(dt.String(), func(b *testing.B) {
-		rng := gen.NewRandomArrayGenerator(benchSeed, memory.DefaultAllocator)
-		arr := rng.ArrayOf(dt.ID(), int64(sz), nullprob)
-		defer arr.Release()
-		s := rng.ArrayOf(dt.ID(), 1, 0)
-		defer s.Release()
-		sc, _ := scalar.GetScalar(s, 0)
-
-		lhs := compute.NewDatumWithoutOwning(arr)
-		rhs := compute.NewDatumWithoutOwning(sc)
-
-		var nbytes int64
-		switch dt.ID() {
-		case arrow.STRING:
-			nbytes = int64(len(arr.(*array.String).ValueBytes()) + sc.(*scalar.String).Value.Len())
-		default:
-			nbytes = int64(arr.Data().Buffers()[1].Len() + len(sc.(scalar.PrimitiveScalar).Data()))
-		}
-		ctx := context.Background()
-		b.ResetTimer()
-		b.SetBytes(nbytes)
-		for n := 0; n < b.N; n++ {
-			result, err := compute.CallFunction(ctx, op, nil, lhs, rhs)
-			if err != nil {
-				b.Fatal(err)
-			}
-			result.Release()
-		}
-	})
-}
-
-func benchArrayArray(b *testing.B, sz int, nullprob float64, op string, dt arrow.DataType) {
-	b.Run(dt.String(), func(b *testing.B) {
-		rng := gen.NewRandomArrayGenerator(benchSeed, memory.DefaultAllocator)
-		lhsArr := rng.ArrayOf(dt.ID(), int64(sz), nullprob)
-		defer lhsArr.Release()
-		rhsArr := rng.ArrayOf(dt.ID(), int64(sz), nullprob)
-		defer rhsArr.Release()
-
-		lhs, rhs := compute.NewDatumWithoutOwning(lhsArr), compute.NewDatumWithoutOwning(rhsArr)
-		var nbytes int64
-		switch dt.ID() {
-		case arrow.STRING:
-			nbytes = int64(len(lhsArr.(*array.String).ValueBytes()) + len(rhsArr.(*array.String).ValueBytes()))
-		default:
-			nbytes = int64(lhsArr.Data().Buffers()[1].Len() + rhsArr.Data().Buffers()[1].Len())
-		}
-		ctx := context.Background()
-		b.ResetTimer()
-		b.SetBytes(nbytes)
-		for n := 0; n < b.N; n++ {
-			result, err := compute.CallFunction(ctx, op, nil, lhs, rhs)
-			if err != nil {
-				b.Fatal(err)
-			}
-			result.Release()
-		}
-	})
-}
-
-func BenchmarkCompare(b *testing.B) {
-	var (
-		sizes    = []int{CpuCacheSizes[0]}
-		nullProb = []float64{0.0001, 0.01, 0.1, 0.5, 1, 0}
-	)
-
-	b.Run("GreaterArrayScalar", func(b *testing.B) {
-		for _, sz := range sizes {
-			b.Run(fmt.Sprintf("size=%d", sz), func(b *testing.B) {
-				for _, np := range nullProb {
-					b.Run(fmt.Sprintf("nullprob=%f", np), func(b *testing.B) {
-						benchArrayScalar(b, sz, np, kernels.CmpGT.String(), arrow.PrimitiveTypes.Int64)
-						benchArrayScalar(b, sz, np, kernels.CmpGT.String(), arrow.BinaryTypes.String)
-					})
-				}
-			})
-		}
-	})
-
-	b.Run("GreaterArrayArray", func(b *testing.B) {
-		for _, sz := range sizes {
-			b.Run(fmt.Sprintf("size=%d", sz), func(b *testing.B) {
-				for _, np := range nullProb {
-					b.Run(fmt.Sprintf("nullprob=%f", np), func(b *testing.B) {
-						benchArrayArray(b, sz, np, kernels.CmpGT.String(), arrow.PrimitiveTypes.Int64)
-						benchArrayArray(b, sz, np, kernels.CmpGT.String(), arrow.BinaryTypes.String)
-					})
-				}
-			})
-		}
-	})
-}
diff --git a/go/arrow/compute/selection.go b/go/arrow/compute/selection.go
deleted file mode 100644
index 4aeaa8884649d..0000000000000
--- a/go/arrow/compute/selection.go
+++ /dev/null
@@ -1,729 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"golang.org/x/sync/errgroup"
-)
-
-var (
-	filterDoc = FunctionDoc{
-		Summary: "Filter with a boolean selection filter",
-		Description: `The output is populated with values from the input at positions
-where the selection filter is non-zero. Nulls in the selection filter
-are handled based on FilterOptions.`,
-		ArgNames:    []string{"input", "selection_filter"},
-		OptionsType: "FilterOptions",
-	}
-	filterMetaFunc = NewMetaFunction("filter", Binary(), filterDoc,
-		func(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-			if args[1].(ArrayLikeDatum).Type().ID() != arrow.BOOL {
-				return nil, fmt.Errorf("%w: filter argument must be boolean type",
-					arrow.ErrNotImplemented)
-			}
-
-			switch args[0].Kind() {
-			case KindRecord:
-				filtOpts, ok := opts.(*FilterOptions)
-				if !ok {
-					return nil, fmt.Errorf("%w: invalid options type", arrow.ErrInvalid)
-				}
-
-				if filter, ok := args[1].(*ArrayDatum); ok {
-					filterArr := filter.MakeArray()
-					defer filterArr.Release()
-					rec, err := FilterRecordBatch(ctx, args[0].(*RecordDatum).Value, filterArr, filtOpts)
-					if err != nil {
-						return nil, err
-					}
-					return &RecordDatum{Value: rec}, nil
-				}
-				return nil, fmt.Errorf("%w: record batch filtering only implemented for Array filter", arrow.ErrNotImplemented)
-			case KindTable:
-				filtOpts, ok := opts.(*FilterOptions)
-				if !ok {
-					return nil, fmt.Errorf("%w: invalid options type", arrow.ErrInvalid)
-				}
-
-				tbl, err := FilterTable(ctx, args[0].(*TableDatum).Value, args[1], filtOpts)
-				if err != nil {
-					return nil, err
-				}
-				return &TableDatum{Value: tbl}, nil
-
-			default:
-				return CallFunction(ctx, "array_filter", opts, args...)
-			}
-		})
-	takeDoc = FunctionDoc{
-		Summary: "Select values from an input based on indices from another array",
-		Description: `The output is populated with values from the input at positions
-given by "indices". Nulls in "indices" emit null in the output`,
-		ArgNames:    []string{"input", "indices"},
-		OptionsType: "TakeOptions",
-	}
-	takeMetaFunc = NewMetaFunction("take", Binary(), takeDoc,
-		func(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-			indexKind := args[1].Kind()
-			if indexKind != KindArray && indexKind != KindChunked {
-				return nil, fmt.Errorf("%w: unsupported types for take operation: values=%s, indices=%s",
-					arrow.ErrNotImplemented, args[0], args[1])
-			}
-
-			switch args[0].Kind() {
-			case KindArray:
-				return takeArrayImpl(ctx, opts, args...)
-			case KindChunked:
-				return takeChunkedImpl(ctx, opts, args...)
-			case KindRecord:
-				return takeRecordImpl(ctx, opts, args...)
-			case KindTable:
-				return takeTableImpl(ctx, opts, args...)
-			}
-
-			return nil, fmt.Errorf("%w: unsupported types for take operation: values=%s, indices=%s",
-				arrow.ErrNotImplemented, args[0], args[1])
-		})
-)
-
-func takeTableImpl(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	tbl := args[0].(*TableDatum).Value
-	ncols := int(tbl.NumCols())
-	cols := make([]arrow.Column, ncols)
-	defer func() {
-		for _, c := range cols {
-			c.Release()
-		}
-	}()
-
-	eg, cctx := errgroup.WithContext(ctx)
-	eg.SetLimit(GetExecCtx(ctx).NumParallel)
-	for i := 0; i < ncols; i++ {
-		i := i
-		eg.Go(func() error {
-			inCol := tbl.Column(i)
-			result, err := CallFunction(cctx, "take", opts,
-				&ChunkedDatum{Value: inCol.Data()},
-				args[1])
-			if err != nil {
-				return err
-			}
-			defer result.Release()
-			out := result.(ArrayLikeDatum)
-			chunks := out.Chunks()
-			if out.Kind() == KindArray {
-				defer chunks[0].Release()
-			}
-			chk := arrow.NewChunked(out.Type(), chunks)
-			defer chk.Release()
-			cols[i] = *arrow.NewColumn(inCol.Field(), chk)
-			return nil
-		})
-	}
-
-	if err := eg.Wait(); err != nil {
-		return nil, err
-	}
-
-	final := array.NewTable(tbl.Schema(), cols, -1)
-	return &TableDatum{Value: final}, nil
-}
-
-func takeRecordImpl(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	indices := args[1]
-	if indices.Kind() == KindChunked {
-		newIndices, err := array.Concatenate(indices.(*ChunkedDatum).Chunks(), exec.GetAllocator(ctx))
-		if err != nil {
-			return nil, err
-		}
-		defer newIndices.Release()
-		indices = &ArrayDatum{Value: newIndices.Data()}
-	}
-
-	rb := args[0].(*RecordDatum).Value
-	ncols := rb.NumCols()
-	nrows := args[1].(ArrayLikeDatum).Len()
-	cols := make([]arrow.Array, ncols)
-	defer func() {
-		for _, c := range cols {
-			if c != nil {
-				c.Release()
-			}
-		}
-	}()
-
-	eg, cctx := errgroup.WithContext(ctx)
-	eg.SetLimit(GetExecCtx(ctx).NumParallel)
-	for i := range rb.Columns() {
-		i := i
-		eg.Go(func() error {
-			out, err := CallFunction(cctx, "array_take", opts, &ArrayDatum{Value: rb.Column(i).Data()}, indices)
-			if err != nil {
-				return err
-			}
-			defer out.Release()
-			cols[i] = out.(*ArrayDatum).MakeArray()
-			return nil
-		})
-	}
-
-	if err := eg.Wait(); err != nil {
-		return nil, err
-	}
-
-	outRec := array.NewRecord(rb.Schema(), cols, nrows)
-	return &RecordDatum{Value: outRec}, nil
-}
-
-func takeArrayImpl(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	switch args[1].Kind() {
-	case KindArray:
-		return CallFunction(ctx, "array_take", opts, args...)
-	case KindChunked:
-		chunks := args[1].(*ChunkedDatum).Chunks()
-		out := make([]arrow.Array, len(chunks))
-		defer func() {
-			for _, a := range out {
-				if a != nil {
-					a.Release()
-				}
-			}
-		}()
-
-		eg, cctx := errgroup.WithContext(ctx)
-		eg.SetLimit(GetExecCtx(ctx).NumParallel)
-		for i := range chunks {
-			i := i
-			eg.Go(func() error {
-				result, err := CallFunction(cctx, "array_take", opts, args[0], &ArrayDatum{Value: chunks[i].Data()})
-				if err != nil {
-					return err
-				}
-				defer result.Release()
-				out[i] = result.(*ArrayDatum).MakeArray()
-				return nil
-			})
-		}
-		if err := eg.Wait(); err != nil {
-			return nil, err
-		}
-		return &ChunkedDatum{
-			Value: arrow.NewChunked(args[0].(*ArrayDatum).Type(), out)}, nil
-	}
-
-	return nil, fmt.Errorf("%w: unsupported types for take operation: values=%s, indices=%s",
-		arrow.ErrNotImplemented, args[0], args[1])
-}
-
-func takeChunkedImpl(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
-	chunked := args[0].(*ChunkedDatum).Value
-	var chnkArg *arrow.Chunked
-	if arg, ok := args[1].(*ArrayDatum); ok {
-		switch {
-		case len(chunked.Chunks()) <= 1:
-			var curChunk arrow.Array
-			if len(chunked.Chunks()) == 1 {
-				curChunk = chunked.Chunk(0)
-			} else {
-				// no chunks, create an empty one!
-				curChunk = array.MakeArrayOfNull(exec.GetAllocator(ctx), chunked.DataType(), 0)
-				defer curChunk.Release()
-			}
-			newChunk, err := CallFunction(ctx, "array_take", opts, &ArrayDatum{Value: curChunk.Data()}, arg)
-			if err != nil {
-				return nil, err
-			}
-			defer newChunk.Release()
-			outChunks := newChunk.(*ArrayDatum).Chunks()
-			defer outChunks[0].Release()
-			return &ChunkedDatum{Value: arrow.NewChunked(outChunks[0].DataType(), outChunks)}, nil
-		case kernels.ChunkedTakeSupported(chunked.DataType()):
-			indices := arg.Chunks()
-			defer indices[0].Release()
-			chnkArg = arrow.NewChunked(arg.Type(), indices)
-			defer chnkArg.Release()
-		default:
-			values, err := array.Concatenate(chunked.Chunks(), GetAllocator(ctx))
-			if err != nil {
-				return nil, err
-			}
-			defer values.Release()
-			newChunk, err := CallFunction(ctx, "array_take", opts, &ArrayDatum{Value: values.Data()}, arg)
-			if err != nil {
-				return nil, err
-			}
-			defer newChunk.Release()
-			outChunks := newChunk.(*ArrayDatum).Chunks()
-			defer outChunks[0].Release()
-			return &ChunkedDatum{Value: arrow.NewChunked(outChunks[0].DataType(), outChunks)}, nil
-		}
-	} else {
-		chnkArg = args[1].(*ChunkedDatum).Value
-	}
-
-	if kernels.ChunkedTakeSupported(chunked.DataType()) {
-		return CallFunction(ctx, "array_take", opts, args[0], &ChunkedDatum{Value: chnkArg})
-	}
-
-	values, err := array.Concatenate(chunked.Chunks(), GetAllocator(ctx))
-	if err != nil {
-		return nil, err
-	}
-	defer values.Release()
-	return CallFunction(ctx, "take", opts, &ArrayDatum{Value: values.Data()}, &ChunkedDatum{Value: chnkArg})
-}
-
-func Take(ctx context.Context, opts TakeOptions, values, indices Datum) (Datum, error) {
-	return CallFunction(ctx, "take", &opts, values, indices)
-}
-
-func TakeArray(ctx context.Context, values, indices arrow.Array) (arrow.Array, error) {
-	v := NewDatum(values)
-	idx := NewDatum(indices)
-	defer v.Release()
-	defer idx.Release()
-
-	out, err := CallFunction(ctx, "array_take", nil, v, idx)
-	if err != nil {
-		return nil, err
-	}
-	defer out.Release()
-
-	return out.(*ArrayDatum).MakeArray(), nil
-}
-
-func TakeArrayOpts(ctx context.Context, values, indices arrow.Array, opts TakeOptions) (arrow.Array, error) {
-	v := NewDatum(values)
-	idx := NewDatum(indices)
-	defer v.Release()
-	defer idx.Release()
-
-	out, err := CallFunction(ctx, "array_take", &opts, v, idx)
-	if err != nil {
-		return nil, err
-	}
-	defer out.Release()
-
-	return out.(*ArrayDatum).MakeArray(), nil
-}
-
-type listArr interface {
-	arrow.Array
-	ListValues() arrow.Array
-}
-
-func selectListImpl(fn exec.ArrayKernelExec) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if err := fn(ctx, batch, out); err != nil {
-			return err
-		}
-
-		// out.Children[0] contains the child indexes of values that we
-		// want to take after processing.
-		values := batch.Values[0].Array.MakeArray().(listArr)
-		defer values.Release()
-
-		childIndices := out.Children[0].MakeArray()
-		defer childIndices.Release()
-
-		takenChild, err := TakeArrayOpts(ctx.Ctx, values.ListValues(), childIndices, kernels.TakeOptions{BoundsCheck: false})
-		if err != nil {
-			return err
-		}
-		defer takenChild.Release()
-
-		out.Children[0].TakeOwnership(takenChild.Data())
-		return nil
-	}
-}
-
-func denseUnionImpl(fn exec.ArrayKernelExec) exec.ArrayKernelExec {
-	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-		if err := fn(ctx, batch, out); err != nil {
-			return err
-		}
-
-		typedValues := batch.Values[0].Array.MakeArray().(*array.DenseUnion)
-		defer typedValues.Release()
-
-		eg, cctx := errgroup.WithContext(ctx.Ctx)
-		eg.SetLimit(GetExecCtx(ctx.Ctx).NumParallel)
-
-		for i := 0; i < typedValues.NumFields(); i++ {
-			i := i
-			eg.Go(func() error {
-				arr := typedValues.Field(i)
-				childIndices := out.Children[i].MakeArray()
-				defer childIndices.Release()
-				taken, err := TakeArrayOpts(cctx, arr, childIndices, kernels.TakeOptions{})
-				if err != nil {
-					return err
-				}
-				defer taken.Release()
-				out.Children[i].TakeOwnership(taken.Data())
-				return nil
-			})
-		}
-
-		return eg.Wait()
-	}
-}
-
-func extensionFilterImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	extArray := batch.Values[0].Array.MakeArray().(array.ExtensionArray)
-	defer extArray.Release()
-
-	selection := batch.Values[1].Array.MakeArray()
-	defer selection.Release()
-	result, err := FilterArray(ctx.Ctx, extArray.Storage(), selection, FilterOptions(ctx.State.(kernels.FilterState)))
-	if err != nil {
-		return err
-	}
-	defer result.Release()
-
-	out.TakeOwnership(result.Data())
-	out.Type = extArray.DataType()
-	return nil
-}
-
-func extensionTakeImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	extArray := batch.Values[0].Array.MakeArray().(array.ExtensionArray)
-	defer extArray.Release()
-
-	selection := batch.Values[1].Array.MakeArray()
-	defer selection.Release()
-	result, err := TakeArrayOpts(ctx.Ctx, extArray.Storage(), selection, TakeOptions(ctx.State.(kernels.TakeState)))
-	if err != nil {
-		return err
-	}
-	defer result.Release()
-
-	out.TakeOwnership(result.Data())
-	out.Type = extArray.DataType()
-	return nil
-}
-
-func structFilter(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	// transform filter to selection indices and use take
-	indices, err := kernels.GetTakeIndices(exec.GetAllocator(ctx.Ctx),
-		&batch.Values[1].Array, ctx.State.(kernels.FilterState).NullSelection)
-	if err != nil {
-		return err
-	}
-	defer indices.Release()
-
-	filter := NewDatum(indices)
-	defer filter.Release()
-
-	valData := batch.Values[0].Array.MakeData()
-	defer valData.Release()
-
-	vals := NewDatum(valData)
-	defer vals.Release()
-
-	result, err := Take(ctx.Ctx, kernels.TakeOptions{BoundsCheck: false}, vals, filter)
-	if err != nil {
-		return err
-	}
-	defer result.Release()
-
-	out.TakeOwnership(result.(*ArrayDatum).Value)
-	return nil
-}
-
-func structTake(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
-	// generate top level validity bitmap
-	if err := kernels.TakeExec(kernels.StructImpl)(ctx, batch, out); err != nil {
-		return err
-	}
-
-	values := batch.Values[0].Array.MakeArray().(*array.Struct)
-	defer values.Release()
-
-	// select from children without bounds checking
-	out.Children = make([]exec.ArraySpan, values.NumField())
-	eg, cctx := errgroup.WithContext(ctx.Ctx)
-	eg.SetLimit(GetExecCtx(ctx.Ctx).NumParallel)
-
-	selection := batch.Values[1].Array.MakeArray()
-	defer selection.Release()
-
-	for i := range out.Children {
-		i := i
-		eg.Go(func() error {
-			taken, err := TakeArrayOpts(cctx, values.Field(i), selection, kernels.TakeOptions{BoundsCheck: false})
-			if err != nil {
-				return err
-			}
-			defer taken.Release()
-
-			out.Children[i].TakeOwnership(taken.Data())
-			return nil
-		})
-	}
-
-	return eg.Wait()
-}
-
-// RegisterVectorSelection registers functions that select specific
-// values from arrays such as Take and Filter
-func RegisterVectorSelection(reg FunctionRegistry) {
-	filterMetaFunc.defaultOpts = DefaultFilterOptions()
-	takeMetaFunc.defaultOpts = DefaultTakeOptions()
-	reg.AddFunction(filterMetaFunc, false)
-	reg.AddFunction(takeMetaFunc, false)
-	filterKernels, takeKernels := kernels.GetVectorSelectionKernels()
-
-	filterKernels = append(filterKernels, []kernels.SelectionKernelData{
-		{In: exec.NewIDInput(arrow.LIST), Exec: selectListImpl(kernels.FilterExec(kernels.ListImpl[int32]))},
-		{In: exec.NewIDInput(arrow.LARGE_LIST), Exec: selectListImpl(kernels.FilterExec(kernels.ListImpl[int64]))},
-		{In: exec.NewIDInput(arrow.FIXED_SIZE_LIST), Exec: selectListImpl(kernels.FilterExec(kernels.FSLImpl))},
-		{In: exec.NewIDInput(arrow.DENSE_UNION), Exec: denseUnionImpl(kernels.FilterExec(kernels.DenseUnionImpl))},
-		{In: exec.NewIDInput(arrow.EXTENSION), Exec: extensionFilterImpl},
-		{In: exec.NewIDInput(arrow.STRUCT), Exec: structFilter},
-	}...)
-
-	takeKernels = append(takeKernels, []kernels.SelectionKernelData{
-		{In: exec.NewIDInput(arrow.LIST), Exec: selectListImpl(kernels.TakeExec(kernels.ListImpl[int32]))},
-		{In: exec.NewIDInput(arrow.LARGE_LIST), Exec: selectListImpl(kernels.TakeExec(kernels.ListImpl[int64]))},
-		{In: exec.NewIDInput(arrow.FIXED_SIZE_LIST), Exec: selectListImpl(kernels.TakeExec(kernels.FSLImpl))},
-		{In: exec.NewIDInput(arrow.DENSE_UNION), Exec: denseUnionImpl(kernels.TakeExec(kernels.DenseUnionImpl))},
-		{In: exec.NewIDInput(arrow.EXTENSION), Exec: extensionTakeImpl},
-		{In: exec.NewIDInput(arrow.STRUCT), Exec: structTake},
-	}...)
-
-	vfunc := NewVectorFunction("array_filter", Binary(), EmptyFuncDoc)
-	vfunc.defaultOpts = &kernels.FilterOptions{}
-
-	selectionType := exec.NewExactInput(arrow.FixedWidthTypes.Boolean)
-	basekernel := exec.NewVectorKernelWithSig(nil, nil, exec.OptionsInit[kernels.FilterState])
-	for _, kd := range filterKernels {
-		basekernel.Signature = &exec.KernelSignature{
-			InputTypes: []exec.InputType{kd.In, selectionType},
-			OutType:    kernels.OutputFirstType,
-		}
-		basekernel.ExecFn = kd.Exec
-		basekernel.ExecChunked = kd.Chunked
-		vfunc.AddKernel(basekernel)
-	}
-	reg.AddFunction(vfunc, false)
-
-	vfunc = NewVectorFunction("array_take", Binary(), EmptyFuncDoc)
-	vfunc.defaultOpts = DefaultTakeOptions()
-
-	selectionType = exec.NewMatchedInput(exec.Integer())
-	basekernel = exec.NewVectorKernelWithSig(nil, nil, exec.OptionsInit[kernels.TakeState])
-	basekernel.CanExecuteChunkWise = false
-	for _, kd := range takeKernels {
-		basekernel.Signature = &exec.KernelSignature{
-			InputTypes: []exec.InputType{kd.In, selectionType},
-			OutType:    kernels.OutputFirstType,
-		}
-
-		basekernel.ExecFn = kd.Exec
-		basekernel.ExecChunked = kd.Chunked
-		vfunc.AddKernel(basekernel)
-	}
-	reg.AddFunction(vfunc, false)
-}
-
-// Filter is a wrapper convenience that is equivalent to calling
-// CallFunction(ctx, "filter", &options, values, filter) for filtering
-// an input array (values) by a boolean array (filter). The two inputs
-// must be the same length.
-func Filter(ctx context.Context, values, filter Datum, options FilterOptions) (Datum, error) {
-	return CallFunction(ctx, "filter", &options, values, filter)
-}
-
-// FilterArray is a convenience method for calling Filter without having
-// to manually construct the intervening Datum objects (they will be
-// created for you internally here).
-func FilterArray(ctx context.Context, values, filter arrow.Array, options FilterOptions) (arrow.Array, error) {
-	valDatum := NewDatum(values)
-	filterDatum := NewDatum(filter)
-	defer valDatum.Release()
-	defer filterDatum.Release()
-
-	outDatum, err := Filter(ctx, valDatum, filterDatum, options)
-	if err != nil {
-		return nil, err
-	}
-
-	defer outDatum.Release()
-	return outDatum.(*ArrayDatum).MakeArray(), nil
-}
-
-func FilterRecordBatch(ctx context.Context, batch arrow.Record, filter arrow.Array, opts *FilterOptions) (arrow.Record, error) {
-	if batch.NumRows() != int64(filter.Len()) {
-		return nil, fmt.Errorf("%w: filter inputs must all be the same length", arrow.ErrInvalid)
-	}
-
-	var filterSpan exec.ArraySpan
-	filterSpan.SetMembers(filter.Data())
-
-	indices, err := kernels.GetTakeIndices(exec.GetAllocator(ctx), &filterSpan, opts.NullSelection)
-	if err != nil {
-		return nil, err
-	}
-	defer indices.Release()
-
-	indicesArr := array.MakeFromData(indices)
-	defer indicesArr.Release()
-
-	cols := make([]arrow.Array, batch.NumCols())
-	defer func() {
-		for _, c := range cols {
-			if c != nil {
-				c.Release()
-			}
-		}
-	}()
-	eg, cctx := errgroup.WithContext(ctx)
-	eg.SetLimit(GetExecCtx(ctx).NumParallel)
-	for i, col := range batch.Columns() {
-		i, col := i, col
-		eg.Go(func() error {
-			out, err := TakeArrayOpts(cctx, col, indicesArr, kernels.TakeOptions{BoundsCheck: false})
-			if err != nil {
-				return err
-			}
-			cols[i] = out
-			return nil
-		})
-	}
-
-	if err := eg.Wait(); err != nil {
-		return nil, err
-	}
-
-	return array.NewRecord(batch.Schema(), cols, int64(indicesArr.Len())), nil
-}
-
-func FilterTable(ctx context.Context, tbl arrow.Table, filter Datum, opts *FilterOptions) (arrow.Table, error) {
-	if tbl.NumRows() != filter.Len() {
-		return nil, fmt.Errorf("%w: filter inputs must all be the same length", arrow.ErrInvalid)
-	}
-
-	if tbl.NumRows() == 0 {
-		cols := make([]arrow.Column, tbl.NumCols())
-		for i := 0; i < int(tbl.NumCols()); i++ {
-			cols[i] = *tbl.Column(i)
-		}
-		return array.NewTable(tbl.Schema(), cols, 0), nil
-	}
-
-	// last input element will be the filter array
-	nCols := tbl.NumCols()
-	inputs := make([][]arrow.Array, nCols+1)
-	for i := int64(0); i < nCols; i++ {
-		inputs[i] = tbl.Column(int(i)).Data().Chunks()
-	}
-
-	switch ft := filter.(type) {
-	case *ArrayDatum:
-		inputs[nCols] = ft.Chunks()
-		defer inputs[nCols][0].Release()
-	case *ChunkedDatum:
-		inputs[nCols] = ft.Chunks()
-	default:
-		return nil, fmt.Errorf("%w: filter should be array-like", arrow.ErrNotImplemented)
-	}
-
-	// rechunk inputs to allow consistent iteration over the respective chunks
-	inputs = exec.RechunkArraysConsistently(inputs)
-
-	// instead of filtering each column with the boolean filter
-	// (which would be slow if the table has a large number of columns)
-	// convert each filter chunk to indices and take() the column
-	mem := GetAllocator(ctx)
-	outCols := make([][]arrow.Array, nCols)
-	// pre-size the output
-	nChunks := len(inputs[nCols])
-	for i := range outCols {
-		outCols[i] = make([]arrow.Array, nChunks)
-	}
-	var outNumRows int64
-	var cancel context.CancelFunc
-	ctx, cancel = context.WithCancel(ctx)
-	defer cancel()
-
-	eg, cctx := errgroup.WithContext(ctx)
-	eg.SetLimit(GetExecCtx(cctx).NumParallel)
-
-	var filterSpan exec.ArraySpan
-	for i, filterChunk := range inputs[nCols] {
-		filterSpan.SetMembers(filterChunk.Data())
-		indices, err := kernels.GetTakeIndices(mem, &filterSpan, opts.NullSelection)
-		if err != nil {
-			return nil, err
-		}
-		defer indices.Release()
-		filterChunk.Release()
-		if indices.Len() == 0 {
-			for col := int64(0); col < nCols; col++ {
-				inputs[col][i].Release()
-			}
-			continue
-		}
-
-		// take from all input columns
-		outNumRows += int64(indices.Len())
-		indicesDatum := NewDatum(indices)
-		defer indicesDatum.Release()
-
-		for col := int64(0); col < nCols; col++ {
-			columnChunk := inputs[col][i]
-			defer columnChunk.Release()
-			i := i
-			col := col
-			eg.Go(func() error {
-				columnDatum := NewDatum(columnChunk)
-				defer columnDatum.Release()
-				out, err := Take(cctx, kernels.TakeOptions{BoundsCheck: false}, columnDatum, indicesDatum)
-				if err != nil {
-					return err
-				}
-				defer out.Release()
-				outCols[col][i] = out.(*ArrayDatum).MakeArray()
-				return nil
-			})
-		}
-	}
-
-	if err := eg.Wait(); err != nil {
-		return nil, err
-	}
-
-	outChunks := make([]arrow.Column, nCols)
-	for i, chunks := range outCols {
-		chk := arrow.NewChunked(tbl.Column(i).DataType(), chunks)
-		outChunks[i] = *arrow.NewColumn(tbl.Schema().Field(i), chk)
-		defer outChunks[i].Release()
-		chk.Release()
-	}
-
-	return array.NewTable(tbl.Schema(), outChunks, outNumRows), nil
-}
diff --git a/go/arrow/compute/utils.go b/go/arrow/compute/utils.go
deleted file mode 100644
index 909d0b68868f6..0000000000000
--- a/go/arrow/compute/utils.go
+++ /dev/null
@@ -1,400 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"fmt"
-	"io"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"golang.org/x/xerrors"
-)
-
-type bufferWriteSeeker struct {
-	buf *memory.Buffer
-	pos int
-	mem memory.Allocator
-}
-
-func (b *bufferWriteSeeker) Reserve(nbytes int) {
-	if b.buf == nil {
-		b.buf = memory.NewResizableBuffer(b.mem)
-	}
-	newCap := utils.Max(b.buf.Cap(), 256)
-	for newCap < b.pos+nbytes {
-		newCap = bitutil.NextPowerOf2(b.pos + nbytes)
-	}
-	b.buf.Reserve(newCap)
-}
-
-func (b *bufferWriteSeeker) Write(p []byte) (n int, err error) {
-	if len(p) == 0 {
-		return 0, nil
-	}
-
-	if b.buf == nil {
-		b.Reserve(len(p))
-	} else if b.pos+len(p) >= b.buf.Cap() {
-		b.Reserve(len(p))
-	}
-
-	return b.UnsafeWrite(p)
-}
-
-func (b *bufferWriteSeeker) UnsafeWrite(p []byte) (n int, err error) {
-	n = copy(b.buf.Buf()[b.pos:], p)
-	b.pos += len(p)
-	if b.pos > b.buf.Len() {
-		b.buf.ResizeNoShrink(b.pos)
-	}
-	return
-}
-
-func (b *bufferWriteSeeker) Seek(offset int64, whence int) (int64, error) {
-	newpos, offs := 0, int(offset)
-	switch whence {
-	case io.SeekStart:
-		newpos = offs
-	case io.SeekCurrent:
-		newpos = b.pos + offs
-	case io.SeekEnd:
-		newpos = b.buf.Len() + offs
-	}
-	if newpos < 0 {
-		return 0, xerrors.New("negative result pos")
-	}
-	b.pos = newpos
-	return int64(newpos), nil
-}
-
-// ensureDictionaryDecoded is used by DispatchBest to determine
-// the proper types for promotion. Casting is then performed by
-// the executor before continuing execution: see the implementation
-// of execInternal in exec.go after calling DispatchBest.
-//
-// That casting is where actual decoding would be performed for
-// the dictionary
-func ensureDictionaryDecoded(vals ...arrow.DataType) {
-	for i, v := range vals {
-		if v.ID() == arrow.DICTIONARY {
-			vals[i] = v.(*arrow.DictionaryType).ValueType
-		}
-	}
-}
-
-func replaceNullWithOtherType(vals ...arrow.DataType) {
-	debug.Assert(len(vals) == 2, "should be length 2")
-
-	if vals[0].ID() == arrow.NULL {
-		vals[0] = vals[1]
-		return
-	}
-
-	if vals[1].ID() == arrow.NULL {
-		vals[1] = vals[0]
-		return
-	}
-}
-
-func commonTemporalResolution(vals ...arrow.DataType) (arrow.TimeUnit, bool) {
-	isTimeUnit := false
-	finestUnit := arrow.Second
-	for _, v := range vals {
-		switch dt := v.(type) {
-		case *arrow.Date32Type:
-			isTimeUnit = true
-			continue
-		case *arrow.Date64Type:
-			finestUnit = exec.Max(finestUnit, arrow.Millisecond)
-			isTimeUnit = true
-		case arrow.TemporalWithUnit:
-			finestUnit = exec.Max(finestUnit, dt.TimeUnit())
-			isTimeUnit = true
-		default:
-			continue
-		}
-	}
-	return finestUnit, isTimeUnit
-}
-
-func replaceTemporalTypes(unit arrow.TimeUnit, vals ...arrow.DataType) {
-	for i, v := range vals {
-		switch dt := v.(type) {
-		case *arrow.TimestampType:
-			dt.Unit = unit
-			vals[i] = dt
-		case *arrow.Time32Type, *arrow.Time64Type:
-			if unit > arrow.Millisecond {
-				vals[i] = &arrow.Time64Type{Unit: unit}
-			} else {
-				vals[i] = &arrow.Time32Type{Unit: unit}
-			}
-		case *arrow.DurationType:
-			dt.Unit = unit
-			vals[i] = dt
-		case *arrow.Date32Type, *arrow.Date64Type:
-			vals[i] = &arrow.TimestampType{Unit: unit}
-		}
-	}
-}
-
-func replaceTypes(replacement arrow.DataType, vals ...arrow.DataType) {
-	for i := range vals {
-		vals[i] = replacement
-	}
-}
-
-func commonNumeric(vals ...arrow.DataType) arrow.DataType {
-	for _, v := range vals {
-		if !arrow.IsFloating(v.ID()) && !arrow.IsInteger(v.ID()) {
-			// a common numeric type is only possible if all are numeric
-			return nil
-		}
-		if v.ID() == arrow.FLOAT16 {
-			// float16 arithmetic is not currently supported
-			return nil
-		}
-	}
-
-	for _, v := range vals {
-		if v.ID() == arrow.FLOAT64 {
-			return arrow.PrimitiveTypes.Float64
-		}
-	}
-
-	for _, v := range vals {
-		if v.ID() == arrow.FLOAT32 {
-			return arrow.PrimitiveTypes.Float32
-		}
-	}
-
-	maxWidthSigned, maxWidthUnsigned := 0, 0
-	for _, v := range vals {
-		if arrow.IsUnsignedInteger(v.ID()) {
-			maxWidthUnsigned = exec.Max(v.(arrow.FixedWidthDataType).BitWidth(), maxWidthUnsigned)
-		} else {
-			maxWidthSigned = exec.Max(v.(arrow.FixedWidthDataType).BitWidth(), maxWidthSigned)
-		}
-	}
-
-	if maxWidthSigned == 0 {
-		switch {
-		case maxWidthUnsigned >= 64:
-			return arrow.PrimitiveTypes.Uint64
-		case maxWidthUnsigned == 32:
-			return arrow.PrimitiveTypes.Uint32
-		case maxWidthUnsigned == 16:
-			return arrow.PrimitiveTypes.Uint16
-		default:
-			debug.Assert(maxWidthUnsigned == 8, "bad maxWidthUnsigned")
-			return arrow.PrimitiveTypes.Uint8
-		}
-	}
-
-	if maxWidthSigned <= maxWidthUnsigned {
-		maxWidthSigned = bitutil.NextPowerOf2(maxWidthUnsigned + 1)
-	}
-
-	switch {
-	case maxWidthSigned >= 64:
-		return arrow.PrimitiveTypes.Int64
-	case maxWidthSigned == 32:
-		return arrow.PrimitiveTypes.Int32
-	case maxWidthSigned == 16:
-		return arrow.PrimitiveTypes.Int16
-	default:
-		debug.Assert(maxWidthSigned == 8, "bad maxWidthSigned")
-		return arrow.PrimitiveTypes.Int8
-	}
-}
-
-func hasDecimal(vals ...arrow.DataType) bool {
-	for _, v := range vals {
-		if arrow.IsDecimal(v.ID()) {
-			return true
-		}
-	}
-
-	return false
-}
-
-type decimalPromotion uint8
-
-const (
-	decPromoteNone decimalPromotion = iota
-	decPromoteAdd
-	decPromoteMultiply
-	decPromoteDivide
-)
-
-func castBinaryDecimalArgs(promote decimalPromotion, vals ...arrow.DataType) error {
-	left, right := vals[0], vals[1]
-	debug.Assert(arrow.IsDecimal(left.ID()) || arrow.IsDecimal(right.ID()), "at least one of the types should be decimal")
-
-	// decimal + float = float
-	if arrow.IsFloating(left.ID()) {
-		vals[1] = vals[0]
-		return nil
-	} else if arrow.IsFloating(right.ID()) {
-		vals[0] = vals[1]
-		return nil
-	}
-
-	var prec1, scale1, prec2, scale2 int32
-	var err error
-	// decimal + integer = decimal
-	if arrow.IsDecimal(left.ID()) {
-		dec := left.(arrow.DecimalType)
-		prec1, scale1 = dec.GetPrecision(), dec.GetScale()
-	} else {
-		debug.Assert(arrow.IsInteger(left.ID()), "floats were already handled, this should be an int")
-		if prec1, err = kernels.MaxDecimalDigitsForInt(left.ID()); err != nil {
-			return err
-		}
-	}
-	if arrow.IsDecimal(right.ID()) {
-		dec := right.(arrow.DecimalType)
-		prec2, scale2 = dec.GetPrecision(), dec.GetScale()
-	} else {
-		debug.Assert(arrow.IsInteger(right.ID()), "float already handled, should be ints")
-		if prec2, err = kernels.MaxDecimalDigitsForInt(right.ID()); err != nil {
-			return err
-		}
-	}
-
-	if scale1 < 0 || scale2 < 0 {
-		return fmt.Errorf("%w: decimals with negative scales not supported", arrow.ErrNotImplemented)
-	}
-
-	// decimal128 + decimal256 = decimal256
-	castedID := arrow.DECIMAL128
-	if left.ID() == arrow.DECIMAL256 || right.ID() == arrow.DECIMAL256 {
-		castedID = arrow.DECIMAL256
-	}
-
-	// decimal promotion rules compatible with amazon redshift
-	// https://docs.aws.amazon.com/redshift/latest/dg/r_numeric_computations201.html
-	var leftScaleup, rightScaleup int32
-
-	switch promote {
-	case decPromoteAdd:
-		leftScaleup = exec.Max(scale1, scale2) - scale1
-		rightScaleup = exec.Max(scale1, scale2) - scale2
-	case decPromoteMultiply:
-	case decPromoteDivide:
-		leftScaleup = exec.Max(4, scale1+prec2-scale2+1) + scale2 - scale1
-	default:
-		debug.Assert(false, fmt.Sprintf("invalid DecimalPromotion value %d", promote))
-	}
-
-	vals[0], err = arrow.NewDecimalType(castedID, prec1+leftScaleup, scale1+leftScaleup)
-	if err != nil {
-		return err
-	}
-	vals[1], err = arrow.NewDecimalType(castedID, prec2+rightScaleup, scale2+rightScaleup)
-	return err
-}
-
-func commonTemporal(vals ...arrow.DataType) arrow.DataType {
-	var (
-		finestUnit           = arrow.Second
-		zone                 *string
-		loc                  *time.Location
-		sawDate32, sawDate64 bool
-	)
-
-	for _, ty := range vals {
-		switch ty.ID() {
-		case arrow.DATE32:
-			// date32's unit is days, but the coarsest we have is seconds
-			sawDate32 = true
-		case arrow.DATE64:
-			finestUnit = exec.Max(finestUnit, arrow.Millisecond)
-			sawDate64 = true
-		case arrow.TIMESTAMP:
-			ts := ty.(*arrow.TimestampType)
-			if ts.TimeZone != "" {
-				tz, _ := ts.GetZone()
-				if loc != nil && loc != tz {
-					return nil
-				}
-				loc = tz
-			}
-			zone = &ts.TimeZone
-			finestUnit = exec.Max(finestUnit, ts.Unit)
-		default:
-			return nil
-		}
-	}
-
-	switch {
-	case zone != nil:
-		// at least one timestamp seen
-		return &arrow.TimestampType{Unit: finestUnit, TimeZone: *zone}
-	case sawDate64:
-		return arrow.FixedWidthTypes.Date64
-	case sawDate32:
-		return arrow.FixedWidthTypes.Date32
-	}
-	return nil
-}
-
-func commonBinary(vals ...arrow.DataType) arrow.DataType {
-	var (
-		allUTF8, allOffset32, allFixedWidth = true, true, true
-	)
-
-	for _, ty := range vals {
-		switch ty.ID() {
-		case arrow.STRING:
-			allFixedWidth = false
-		case arrow.BINARY:
-			allFixedWidth, allUTF8 = false, false
-		case arrow.FIXED_SIZE_BINARY:
-			allUTF8 = false
-		case arrow.LARGE_BINARY:
-			allOffset32, allFixedWidth, allUTF8 = false, false, false
-		case arrow.LARGE_STRING:
-			allOffset32, allFixedWidth = false, false
-		default:
-			return nil
-		}
-	}
-
-	switch {
-	case allFixedWidth:
-		// at least for the purposes of comparison, no need to cast
-		return nil
-	case allUTF8:
-		if allOffset32 {
-			return arrow.BinaryTypes.String
-		}
-		return arrow.BinaryTypes.LargeString
-	case allOffset32:
-		return arrow.BinaryTypes.Binary
-	}
-	return arrow.BinaryTypes.LargeBinary
-}
diff --git a/go/arrow/compute/vector_hash.go b/go/arrow/compute/vector_hash.go
deleted file mode 100644
index 8692a6fff074c..0000000000000
--- a/go/arrow/compute/vector_hash.go
+++ /dev/null
@@ -1,59 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-)
-
-var (
-	uniqueDoc = FunctionDoc{
-		Summary:     "Compute unique elements",
-		Description: "Return an array with distinct values. Nulls in the input are ignored",
-		ArgNames:    []string{"array"},
-	}
-)
-
-func Unique(ctx context.Context, values Datum) (Datum, error) {
-	return CallFunction(ctx, "unique", nil, values)
-}
-
-func UniqueArray(ctx context.Context, values arrow.Array) (arrow.Array, error) {
-	out, err := Unique(ctx, &ArrayDatum{Value: values.Data()})
-	if err != nil {
-		return nil, err
-	}
-	defer out.Release()
-
-	return out.(*ArrayDatum).MakeArray(), nil
-}
-
-func RegisterVectorHash(reg FunctionRegistry) {
-	unique, _, _ := kernels.GetVectorHashKernels()
-	uniqFn := NewVectorFunction("unique", Unary(), uniqueDoc)
-	for _, vd := range unique {
-		if err := uniqFn.AddKernel(vd); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(uniqFn, false)
-}
diff --git a/go/arrow/compute/vector_hash_test.go b/go/arrow/compute/vector_hash_test.go
deleted file mode 100644
index 58ff1263ca880..0000000000000
--- a/go/arrow/compute/vector_hash_test.go
+++ /dev/null
@@ -1,517 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-	"golang.org/x/exp/constraints"
-)
-
-func checkUniqueDict[I arrow.IntType | arrow.UintType](t *testing.T, input compute.ArrayLikeDatum, expected arrow.Array) {
-	out, err := compute.Unique(context.TODO(), input)
-	require.NoError(t, err)
-	defer out.Release()
-
-	result := out.(*compute.ArrayDatum).MakeArray().(*array.Dictionary)
-	defer result.Release()
-
-	require.Truef(t, arrow.TypeEqual(result.DataType(), expected.DataType()),
-		"wanted: %s\ngot: %s", expected.DataType(), result.DataType())
-
-	exDict := expected.(*array.Dictionary).Dictionary()
-	resultDict := result.Dictionary()
-
-	require.Truef(t, array.Equal(exDict, resultDict), "wanted: %s\ngot: %s", exDict, resultDict)
-
-	want := arrow.GetValues[I](expected.(*array.Dictionary).Indices().Data(), 1)
-	got := arrow.GetValues[I](result.Indices().Data(), 1)
-	assert.ElementsMatchf(t, got, want, "wanted: %s\ngot: %s", want, got)
-}
-
-func checkDictionaryUnique(t *testing.T, input compute.ArrayLikeDatum, expected arrow.Array) {
-	require.Truef(t, arrow.TypeEqual(input.Type(), expected.DataType()),
-		"wanted: %s\ngot: %s", expected.DataType(), input.Type())
-
-	switch input.Type().(*arrow.DictionaryType).IndexType.ID() {
-	case arrow.INT8:
-		checkUniqueDict[int8](t, input, expected)
-	case arrow.INT16:
-		checkUniqueDict[int16](t, input, expected)
-	case arrow.INT32:
-		checkUniqueDict[int32](t, input, expected)
-	case arrow.INT64:
-		checkUniqueDict[int64](t, input, expected)
-	case arrow.UINT8:
-		checkUniqueDict[uint8](t, input, expected)
-	case arrow.UINT16:
-		checkUniqueDict[uint16](t, input, expected)
-	case arrow.UINT32:
-		checkUniqueDict[uint32](t, input, expected)
-	case arrow.UINT64:
-		checkUniqueDict[uint64](t, input, expected)
-	}
-}
-
-func checkUniqueFixedWidth[T arrow.FixedWidthType](t *testing.T, input, expected arrow.Array) {
-	result, err := compute.UniqueArray(context.TODO(), input)
-	require.NoError(t, err)
-	defer result.Release()
-
-	require.Truef(t, arrow.TypeEqual(result.DataType(), expected.DataType()),
-		"wanted: %s\ngot: %s", expected.DataType(), result.DataType())
-	want := arrow.GetValues[T](expected.Data(), 1)
-	got := arrow.GetValues[T](expected.Data(), 1)
-
-	assert.ElementsMatchf(t, got, want, "wanted: %s\ngot: %s", want, got)
-}
-
-func checkUniqueVariableWidth[OffsetType int32 | int64](t *testing.T, input, expected arrow.Array) {
-	result, err := compute.UniqueArray(context.TODO(), input)
-	require.NoError(t, err)
-	defer result.Release()
-
-	require.Truef(t, arrow.TypeEqual(result.DataType(), expected.DataType()),
-		"wanted: %s\ngot: %s", expected.DataType(), result.DataType())
-
-	require.EqualValues(t, expected.Len(), result.Len())
-
-	createSlice := func(v arrow.Array) [][]byte {
-		var (
-			offsets = arrow.GetOffsets[OffsetType](v.Data(), 1)
-			data    = v.Data().Buffers()[2].Bytes()
-			out     = make([][]byte, v.Len())
-		)
-
-		for i := 0; i < v.Len(); i++ {
-			out[i] = data[offsets[i]:offsets[i+1]]
-		}
-		return out
-	}
-
-	want := createSlice(expected)
-	got := createSlice(result)
-
-	assert.ElementsMatch(t, want, got)
-}
-
-type ArrowType interface {
-	arrow.FixedWidthType | string | []byte
-}
-
-type builder[T ArrowType] interface {
-	AppendValues([]T, []bool)
-}
-
-func makeArray[T ArrowType](mem memory.Allocator, dt arrow.DataType, values []T, isValid []bool) arrow.Array {
-	bldr := array.NewBuilder(mem, dt)
-	defer bldr.Release()
-
-	bldr.(builder[T]).AppendValues(values, isValid)
-	return bldr.NewArray()
-}
-
-func checkUniqueFixedSizeBinary(t *testing.T, mem memory.Allocator, dt *arrow.FixedSizeBinaryType, inValues, outValues [][]byte, inValid, outValid []bool) {
-	input := makeArray(mem, dt, inValues, inValid)
-	defer input.Release()
-	expected := makeArray(mem, dt, outValues, outValid)
-	defer expected.Release()
-
-	result, err := compute.UniqueArray(context.TODO(), input)
-	require.NoError(t, err)
-	defer result.Release()
-
-	require.Truef(t, arrow.TypeEqual(result.DataType(), expected.DataType()),
-		"wanted: %s\ngot: %s", expected.DataType(), result.DataType())
-
-	slice := func(v arrow.Array) [][]byte {
-		data := v.Data().Buffers()[1].Bytes()
-		out := make([][]byte, v.Len())
-		for i := range out {
-			out[i] = data[i*dt.ByteWidth : (i+1)*dt.ByteWidth]
-		}
-		return out
-	}
-
-	want := slice(expected)
-	got := slice(result)
-	assert.ElementsMatch(t, want, got)
-}
-
-func checkUniqueFW[T arrow.FixedWidthType](t *testing.T, mem memory.Allocator, dt arrow.DataType, inValues, outValues []T, inValid, outValid []bool) {
-	input := makeArray(mem, dt, inValues, inValid)
-	defer input.Release()
-	expected := makeArray(mem, dt, outValues, outValid)
-	defer expected.Release()
-
-	checkUniqueFixedWidth[T](t, input, expected)
-}
-
-func checkUniqueVW[T string | []byte](t *testing.T, mem memory.Allocator, dt arrow.DataType, inValues, outValues []T, inValid, outValid []bool) {
-	input := makeArray(mem, dt, inValues, inValid)
-	defer input.Release()
-	expected := makeArray(mem, dt, outValues, outValid)
-	defer expected.Release()
-
-	switch dt.(arrow.BinaryDataType).Layout().Buffers[1].ByteWidth {
-	case 4:
-		checkUniqueVariableWidth[int32](t, input, expected)
-	case 8:
-		checkUniqueVariableWidth[int64](t, input, expected)
-	}
-}
-
-type PrimitiveHashKernelSuite[T arrow.IntType | arrow.UintType | constraints.Float] struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-	dt  arrow.DataType
-}
-
-func (ps *PrimitiveHashKernelSuite[T]) SetupSuite() {
-	ps.dt = arrow.GetDataType[T]()
-}
-
-func (ps *PrimitiveHashKernelSuite[T]) SetupTest() {
-	ps.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-}
-
-func (ps *PrimitiveHashKernelSuite[T]) TearDownTest() {
-	ps.mem.AssertSize(ps.T(), 0)
-}
-
-func (ps *PrimitiveHashKernelSuite[T]) TestUnique() {
-	ps.Run(ps.dt.String(), func() {
-		if ps.dt.ID() == arrow.DATE64 {
-			checkUniqueFW(ps.T(), ps.mem, ps.dt,
-				[]arrow.Date64{172800000, 864000000, 172800000, 864000000},
-				[]arrow.Date64{172800000, 0, 864000000},
-				[]bool{true, false, true, true}, []bool{true, false, true})
-
-			checkUniqueFW(ps.T(), ps.mem, ps.dt,
-				[]arrow.Date64{172800000, 864000000, 259200000, 864000000},
-				[]arrow.Date64{0, 259200000, 864000000},
-				[]bool{false, false, true, true}, []bool{false, true, true})
-
-			arr, _, err := array.FromJSON(ps.mem, ps.dt, strings.NewReader(`[86400000, 172800000, null, 259200000, 172800000, null]`))
-			ps.Require().NoError(err)
-			defer arr.Release()
-			input := array.NewSlice(arr, 1, 5)
-			defer input.Release()
-			expected, _, err := array.FromJSON(ps.mem, ps.dt, strings.NewReader(`[172800000, null, 259200000]`))
-			ps.Require().NoError(err)
-			defer expected.Release()
-			checkUniqueFixedWidth[arrow.Date64](ps.T(), input, expected)
-			return
-		}
-
-		checkUniqueFW(ps.T(), ps.mem, ps.dt,
-			[]T{2, 1, 2, 1}, []T{2, 0, 1},
-			[]bool{true, false, true, true}, []bool{true, false, true})
-		checkUniqueFW(ps.T(), ps.mem, ps.dt,
-			[]T{2, 1, 3, 1}, []T{0, 3, 1},
-			[]bool{false, false, true, true}, []bool{false, true, true})
-
-		arr, _, err := array.FromJSON(ps.mem, ps.dt, strings.NewReader(`[1, 2, null, 3, 2, null]`))
-		ps.Require().NoError(err)
-		defer arr.Release()
-		input := array.NewSlice(arr, 1, 5)
-		defer input.Release()
-
-		expected, _, err := array.FromJSON(ps.mem, ps.dt, strings.NewReader(`[2, null, 3]`))
-		ps.Require().NoError(err)
-		defer expected.Release()
-
-		checkUniqueFixedWidth[T](ps.T(), input, expected)
-	})
-}
-
-type BinaryTypeHashKernelSuite[T string | []byte] struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-	dt  arrow.DataType
-}
-
-func (ps *BinaryTypeHashKernelSuite[T]) SetupTest() {
-	ps.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-}
-
-func (ps *BinaryTypeHashKernelSuite[T]) TearDownTest() {
-	ps.mem.AssertSize(ps.T(), 0)
-}
-
-func (ps *BinaryTypeHashKernelSuite[T]) TestUnique() {
-	ps.Run(ps.dt.String(), func() {
-		checkUniqueVW(ps.T(), ps.mem, ps.dt,
-			[]T{T("test"), T(""), T("test2"), T("test")}, []T{T("test"), T(""), T("test2")},
-			[]bool{true, false, true, true}, []bool{true, false, true})
-	})
-}
-
-func TestHashKernels(t *testing.T) {
-	suite.Run(t, &PrimitiveHashKernelSuite[int8]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[uint8]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[int16]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[uint16]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[int32]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[uint32]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[int64]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[uint64]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[float32]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[float64]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[arrow.Date32]{})
-	suite.Run(t, &PrimitiveHashKernelSuite[arrow.Date64]{})
-
-	suite.Run(t, &BinaryTypeHashKernelSuite[string]{dt: arrow.BinaryTypes.String})
-	suite.Run(t, &BinaryTypeHashKernelSuite[string]{dt: arrow.BinaryTypes.LargeString})
-	suite.Run(t, &BinaryTypeHashKernelSuite[[]byte]{dt: arrow.BinaryTypes.Binary})
-	suite.Run(t, &BinaryTypeHashKernelSuite[[]byte]{dt: arrow.BinaryTypes.LargeBinary})
-}
-
-func TestUniqueTimeTimestamp(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.Time32s,
-		[]arrow.Time32{2, 1, 2, 1}, []arrow.Time32{2, 0, 1},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.Time64ns,
-		[]arrow.Time64{2, 1, 2, 1}, []arrow.Time64{2, 0, 1},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.Timestamp_ns,
-		[]arrow.Timestamp{2, 1, 2, 1}, []arrow.Timestamp{2, 0, 1},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.Duration_ns,
-		[]arrow.Duration{2, 1, 2, 1}, []arrow.Duration{2, 0, 1},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-}
-
-func TestUniqueFixedSizeBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.FixedSizeBinaryType{ByteWidth: 3}
-	checkUniqueFixedSizeBinary(t, mem, dt,
-		[][]byte{[]byte("aaa"), nil, []byte("bbb"), []byte("aaa")},
-		[][]byte{[]byte("aaa"), nil, []byte("bbb")},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-}
-
-func TestUniqueDecimal(t *testing.T) {
-	t.Run("decimal128", func(t *testing.T) {
-		mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-		defer mem.AssertSize(t, 0)
-
-		values := []decimal128.Num{
-			decimal128.FromI64(12),
-			decimal128.FromI64(12),
-			decimal128.FromI64(11),
-			decimal128.FromI64(12)}
-		expected := []decimal128.Num{
-			decimal128.FromI64(12),
-			decimal128.FromI64(0),
-			decimal128.FromI64(11)}
-
-		checkUniqueFW(t, mem, &arrow.Decimal128Type{Precision: 2, Scale: 0},
-			values, expected, []bool{true, false, true, true}, []bool{true, false, true})
-	})
-
-	t.Run("decimal256", func(t *testing.T) {
-		mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-		defer mem.AssertSize(t, 0)
-
-		values := []decimal256.Num{
-			decimal256.FromI64(12),
-			decimal256.FromI64(12),
-			decimal256.FromI64(11),
-			decimal256.FromI64(12)}
-		expected := []decimal256.Num{
-			decimal256.FromI64(12),
-			decimal256.FromI64(0),
-			decimal256.FromI64(11)}
-
-		checkUniqueFW(t, mem, &arrow.Decimal256Type{Precision: 2, Scale: 0},
-			values, expected, []bool{true, false, true, true}, []bool{true, false, true})
-	})
-}
-
-func TestUniqueIntervalMonth(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.MonthInterval,
-		[]arrow.MonthInterval{2, 1, 2, 1}, []arrow.MonthInterval{2, 0, 1},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.DayTimeInterval,
-		[]arrow.DayTimeInterval{
-			{Days: 2, Milliseconds: 1}, {Days: 3, Milliseconds: 2},
-			{Days: 2, Milliseconds: 1}, {Days: 1, Milliseconds: 2}},
-		[]arrow.DayTimeInterval{{Days: 2, Milliseconds: 1},
-			{Days: 1, Milliseconds: 1}, {Days: 1, Milliseconds: 2}},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-
-	checkUniqueFW(t, mem, arrow.FixedWidthTypes.MonthDayNanoInterval,
-		[]arrow.MonthDayNanoInterval{
-			{Months: 2, Days: 1, Nanoseconds: 1},
-			{Months: 3, Days: 2, Nanoseconds: 1},
-			{Months: 2, Days: 1, Nanoseconds: 1},
-			{Months: 1, Days: 2, Nanoseconds: 1}},
-		[]arrow.MonthDayNanoInterval{
-			{Months: 2, Days: 1, Nanoseconds: 1},
-			{Months: 1, Days: 1, Nanoseconds: 1},
-			{Months: 1, Days: 2, Nanoseconds: 1}},
-		[]bool{true, false, true, true}, []bool{true, false, true})
-}
-
-func TestUniqueChunkedArrayInvoke(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	var (
-		values1    = []string{"foo", "bar", "foo"}
-		values2    = []string{"bar", "baz", "quuux", "foo"}
-		dictValues = []string{"foo", "bar", "baz", "quuux"}
-		typ        = arrow.BinaryTypes.String
-		a1         = makeArray(mem, typ, values1, nil)
-		a2         = makeArray(mem, typ, values2, nil)
-		exDict     = makeArray(mem, typ, dictValues, nil)
-	)
-
-	defer a1.Release()
-	defer a2.Release()
-	defer exDict.Release()
-
-	carr := arrow.NewChunked(typ, []arrow.Array{a1, a2})
-	defer carr.Release()
-
-	result, err := compute.Unique(context.TODO(), &compute.ChunkedDatum{Value: carr})
-	require.NoError(t, err)
-	defer result.Release()
-
-	require.Equal(t, compute.KindArray, result.Kind())
-	out := result.(*compute.ArrayDatum).MakeArray()
-	defer out.Release()
-
-	assertArraysEqual(t, exDict, out)
-}
-
-func TestDictionaryUnique(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	const dictJSON = `[10, 20, 30, 40]`
-	dict, _, err := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(dictJSON))
-	require.NoError(t, err)
-	defer dict.Release()
-
-	for _, idxTyp := range integerTypes {
-		t.Run("index_type="+idxTyp.Name(), func(t *testing.T) {
-			scope := memory.NewCheckedAllocatorScope(mem)
-			defer scope.CheckSize(t)
-
-			indices, _, _ := array.FromJSON(mem, idxTyp, strings.NewReader(`[3, 0, 0, 0, 1, 1, 3, 0, 1, 3, 0, 1]`))
-			defer indices.Release()
-			dictType := &arrow.DictionaryType{
-				IndexType: idxTyp, ValueType: arrow.PrimitiveTypes.Int64}
-			exIndices, _, _ := array.FromJSON(mem, idxTyp, strings.NewReader(`[3, 0, 1]`))
-			defer exIndices.Release()
-
-			input := array.NewDictionaryArray(dictType, indices, dict)
-			defer input.Release()
-			exUniques := array.NewDictionaryArray(dictType, exIndices, dict)
-			defer exUniques.Release()
-
-			checkDictionaryUnique(t, &compute.ArrayDatum{Value: input.Data()}, exUniques)
-
-			t.Run("empty array", func(t *testing.T) {
-				scope := memory.NewCheckedAllocatorScope(mem)
-				defer scope.CheckSize(t)
-
-				// executor never gives the kernel any batches
-				// so result dictionary is empty
-				emptyInput, _ := array.DictArrayFromJSON(mem, dictType, `[]`, dictJSON)
-				defer emptyInput.Release()
-				exEmpty, _ := array.DictArrayFromJSON(mem, dictType, `[]`, `[]`)
-				defer exEmpty.Release()
-				checkDictionaryUnique(t, &compute.ArrayDatum{Value: emptyInput.Data()}, exEmpty)
-			})
-
-			t.Run("different chunk dictionaries", func(t *testing.T) {
-				scope := memory.NewCheckedAllocatorScope(mem)
-				defer scope.CheckSize(t)
-
-				input2, _ := array.DictArrayFromJSON(mem, dictType, `[1, null, 2, 3]`, `[30, 40, 50, 60]`)
-				defer input2.Release()
-
-				diffCarr := arrow.NewChunked(dictType, []arrow.Array{input, input2})
-				defer diffCarr.Release()
-
-				exUnique2, _ := array.DictArrayFromJSON(mem, dictType, `[3, 0, 1, null, 4, 5]`, `[10, 20, 30, 40, 50, 60]`)
-				defer exUnique2.Release()
-
-				checkDictionaryUnique(t, &compute.ChunkedDatum{Value: diffCarr}, exUnique2)
-			})
-
-			t.Run("encoded nulls", func(t *testing.T) {
-				scope := memory.NewCheckedAllocatorScope(mem)
-				defer scope.CheckSize(t)
-
-				dictWithNull, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int64, strings.NewReader(`[10, null, 30, 40]`))
-				defer dictWithNull.Release()
-				input := array.NewDictionaryArray(dictType, indices, dictWithNull)
-				defer input.Release()
-				exUniques := array.NewDictionaryArray(dictType, exIndices, dictWithNull)
-				defer exUniques.Release()
-				checkDictionaryUnique(t, &compute.ArrayDatum{Value: input.Data()}, exUniques)
-			})
-
-			t.Run("masked nulls", func(t *testing.T) {
-				scope := memory.NewCheckedAllocatorScope(mem)
-				defer scope.CheckSize(t)
-
-				indicesWithNull, _, _ := array.FromJSON(mem, idxTyp, strings.NewReader(`[3, 0, 0, 0, null, null, 3, 0, null, 3, 0, null]`))
-				defer indicesWithNull.Release()
-				exIndicesWithNull, _, _ := array.FromJSON(mem, idxTyp, strings.NewReader(`[3, 0, null]`))
-				defer exIndicesWithNull.Release()
-				exUniques := array.NewDictionaryArray(dictType, exIndicesWithNull, dict)
-				defer exUniques.Release()
-				input := array.NewDictionaryArray(dictType, indicesWithNull, dict)
-				defer input.Release()
-
-				checkDictionaryUnique(t, &compute.ArrayDatum{Value: input.Data()}, exUniques)
-			})
-		})
-	}
-}
diff --git a/go/arrow/compute/vector_run_end_test.go b/go/arrow/compute/vector_run_end_test.go
deleted file mode 100644
index 8c8e776feb23c..0000000000000
--- a/go/arrow/compute/vector_run_end_test.go
+++ /dev/null
@@ -1,423 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"fmt"
-	"math"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/suite"
-)
-
-var runEndTypes = []arrow.DataType{
-	arrow.PrimitiveTypes.Int16,
-	arrow.PrimitiveTypes.Int32,
-	arrow.PrimitiveTypes.Int64,
-}
-
-type RunEndEncodeDecodeSuite struct {
-	suite.Suite
-	mem *memory.CheckedAllocator
-
-	runEndType arrow.DataType
-	valueType  arrow.DataType
-	jsonData   []string
-
-	expected compute.Datum
-	input    compute.Datum
-
-	ctx context.Context
-}
-
-func (suite *RunEndEncodeDecodeSuite) SetupTest() {
-	suite.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	suite.ctx = compute.WithAllocator(context.Background(), suite.mem)
-
-	switch len(suite.jsonData) {
-	case 1:
-		expected, _, err := array.FromJSON(suite.mem,
-			arrow.RunEndEncodedOf(suite.runEndType, suite.valueType),
-			strings.NewReader(suite.jsonData[0]))
-		suite.Require().NoError(err)
-		defer expected.Release()
-
-		input, _, err := array.FromJSON(suite.mem, suite.valueType, strings.NewReader(suite.jsonData[0]))
-		suite.Require().NoError(err)
-		defer input.Release()
-
-		suite.expected = compute.NewDatum(expected)
-		suite.input = compute.NewDatum(input)
-	default:
-		var err error
-		exChunks := make([]arrow.Array, len(suite.jsonData))
-		inputChunks := make([]arrow.Array, len(suite.jsonData))
-		for i, data := range suite.jsonData {
-			exChunks[i], _, err = array.FromJSON(suite.mem,
-				arrow.RunEndEncodedOf(suite.runEndType, suite.valueType),
-				strings.NewReader(data))
-			suite.Require().NoError(err)
-			defer exChunks[i].Release()
-
-			inputChunks[i], _, err = array.FromJSON(suite.mem,
-				suite.valueType, strings.NewReader(data))
-			suite.Require().NoError(err)
-			defer inputChunks[i].Release()
-		}
-
-		chunked := arrow.NewChunked(exChunks[0].DataType(), exChunks)
-		suite.expected = &compute.ChunkedDatum{Value: chunked}
-		chunked = arrow.NewChunked(inputChunks[0].DataType(), inputChunks)
-		suite.input = &compute.ChunkedDatum{Value: chunked}
-	}
-}
-
-func (suite *RunEndEncodeDecodeSuite) TearDownTest() {
-	suite.expected.Release()
-	suite.input.Release()
-	suite.mem.AssertSize(suite.T(), 0)
-}
-
-func (suite *RunEndEncodeDecodeSuite) TestEncodeArray() {
-	result, err := compute.RunEndEncode(suite.ctx,
-		compute.RunEndEncodeOptions{RunEndType: suite.runEndType}, suite.input)
-	suite.Require().NoError(err)
-	defer result.Release()
-
-	assertDatumsEqual(suite.T(), suite.expected, result, nil, nil)
-}
-
-func (suite *RunEndEncodeDecodeSuite) TestDecodeArray() {
-	result, err := compute.RunEndDecode(suite.ctx, suite.expected)
-	suite.Require().NoError(err)
-	defer result.Release()
-
-	assertDatumsEqual(suite.T(), suite.input, result, nil, nil)
-}
-
-func (suite *RunEndEncodeDecodeSuite) TestEncodeWithOffset() {
-	// skip chunked examples for ease of testing
-	expected, ok := suite.expected.(*compute.ArrayDatum)
-	if !ok {
-		suite.T().SkipNow()
-	}
-
-	input := suite.input.(*compute.ArrayDatum)
-
-	if input.Len() == 0 {
-		// skip 0 len arrays for this test
-		suite.T().SkipNow()
-	}
-
-	expectedOffset := array.NewSliceData(expected.Value, 1, expected.Len())
-	defer expectedOffset.Release()
-	inputOffset := array.NewSliceData(input.Value, 1, input.Len())
-	defer inputOffset.Release()
-
-	result, err := compute.RunEndEncode(suite.ctx,
-		compute.RunEndEncodeOptions{RunEndType: suite.runEndType},
-		&compute.ArrayDatum{Value: inputOffset})
-	suite.Require().NoError(err)
-	defer result.Release()
-
-	assertDatumsEqual(suite.T(), &compute.ArrayDatum{Value: expectedOffset}, result, nil, nil)
-}
-
-func (suite *RunEndEncodeDecodeSuite) TestDecodeWithOffset() {
-	// skip chunked examples for ease of testing
-	expected, ok := suite.expected.(*compute.ArrayDatum)
-	if !ok {
-		suite.T().SkipNow()
-	}
-
-	input := suite.input.(*compute.ArrayDatum)
-
-	if input.Len() == 0 {
-		// skip 0 len arrays for this test
-		suite.T().SkipNow()
-	}
-
-	expectedOffset := array.NewSliceData(expected.Value, 1, expected.Len())
-	defer expectedOffset.Release()
-	inputOffset := array.NewSliceData(input.Value, 1, input.Len())
-	defer inputOffset.Release()
-
-	result, err := compute.RunEndDecode(suite.ctx, &compute.ArrayDatum{Value: expectedOffset})
-	suite.Require().NoError(err)
-	defer result.Release()
-
-	assertDatumsEqual(suite.T(), &compute.ArrayDatum{Value: inputOffset}, result, nil, nil)
-}
-
-func (suite *RunEndEncodeDecodeSuite) TestDecodeWithChildOffset() {
-	// artificially add a bunch of nulls to the values child of the
-	// run-end encoded array both before and after the data and then
-	// replace it with a slice. Then make sure it still decodes
-	// correctly.
-
-	// skip chunked
-	expected, ok := suite.expected.(*compute.ArrayDatum)
-	if !ok {
-		suite.T().SkipNow()
-	}
-
-	const offset = 100
-
-	var newValuesData arrow.ArrayData
-	valuesData := expected.Value.Children()[1]
-	newLength := offset + int64(valuesData.Len()) + offset
-	byteLen := bitutil.BytesForBits(newLength)
-
-	validity, values := memory.NewResizableBuffer(suite.mem), memory.NewResizableBuffer(suite.mem)
-	defer validity.Release()
-	defer values.Release()
-
-	validity.Resize(int(byteLen))
-	if valuesData.Len() > 0 {
-		bitutil.CopyBitmap(valuesData.Buffers()[0].Buf(), valuesData.Offset(), valuesData.Len(),
-			validity.Buf(), offset)
-	}
-
-	switch dt := valuesData.DataType().(type) {
-	case *arrow.BooleanType:
-		values.Resize(int(byteLen))
-
-		if valuesData.Len() > 0 {
-			bitutil.CopyBitmap(valuesData.Buffers()[1].Buf(), valuesData.Offset(), valuesData.Len(),
-				values.Buf(), offset)
-		}
-
-		newValuesData = array.NewData(valuesData.DataType(), valuesData.Len(),
-			[]*memory.Buffer{validity, values}, nil, valuesData.NullN(), offset)
-	case *arrow.StringType, *arrow.BinaryType:
-		values.Resize(int(newLength+1) * int(arrow.Int32SizeBytes))
-		copy(values.Bytes()[offset*arrow.Int32SizeBytes:], valuesData.Buffers()[1].Bytes())
-		tail := values.Bytes()[(offset+valuesData.Len())*arrow.Int32SizeBytes:]
-		for j := arrow.Int32SizeBytes; j < len(tail); j *= 2 {
-			copy(tail[j:], tail[:j])
-		}
-
-		newValuesData = array.NewData(valuesData.DataType(), valuesData.Len(),
-			[]*memory.Buffer{validity, values, valuesData.Buffers()[2]}, nil, valuesData.NullN(), offset)
-	case *arrow.LargeStringType, *arrow.LargeBinaryType:
-		values.Resize(int(newLength+1) * int(arrow.Int64SizeBytes))
-		copy(values.Bytes()[offset*arrow.Int64SizeBytes:], valuesData.Buffers()[1].Bytes())
-		tail := values.Bytes()[(offset+valuesData.Len())*arrow.Int64SizeBytes:]
-		for j := arrow.Int64SizeBytes; j < len(tail); j *= 2 {
-			copy(tail[j:], tail[:j])
-		}
-
-		newValuesData = array.NewData(valuesData.DataType(), valuesData.Len(),
-			[]*memory.Buffer{validity, values, valuesData.Buffers()[2]}, nil, valuesData.NullN(), offset)
-	case arrow.FixedWidthDataType:
-		width := dt.Bytes()
-		values.Resize(int(newLength) * width)
-		if valuesData.Len() > 0 {
-			copy(values.Bytes()[offset*width:], valuesData.Buffers()[1].Bytes())
-		}
-		newValuesData = array.NewData(valuesData.DataType(), valuesData.Len(),
-			[]*memory.Buffer{validity, values}, nil, valuesData.NullN(), offset)
-	}
-
-	withOffset := expected.Value.(*array.Data).Copy()
-	withOffset.Children()[1].Release()
-	withOffset.Children()[1] = newValuesData
-	defer withOffset.Release()
-
-	result, err := compute.RunEndDecode(suite.ctx, &compute.ArrayDatum{Value: withOffset})
-	suite.Require().NoError(err)
-	defer result.Release()
-
-	assertDatumsEqual(suite.T(), suite.input, result, nil, nil)
-}
-
-func TestRunEndFunctions(t *testing.T) {
-	// base64 encoded for testing fixed size binary
-	const (
-		valAba = `YWJh`
-		valAbc = `YWJj`
-		valAbd = `YWJk`
-	)
-
-	tests := []struct {
-		name      string
-		data      []string
-		valueType arrow.DataType
-	}{
-		{"simple int32", []string{`[1, 1, 0, -5, -5, -5, 255, 255]`}, arrow.PrimitiveTypes.Int32},
-		{"uint32 with nulls", []string{`[null, 1, 1, null, null, 5]`}, arrow.PrimitiveTypes.Uint32},
-		{"boolean", []string{`[true, true, true, false, false]`}, arrow.FixedWidthTypes.Boolean},
-		{"boolean no runs", []string{`[true, false, true, false, true, false, true, false, true]`}, arrow.FixedWidthTypes.Boolean},
-		{"float64 len=1", []string{`[1.0]`}, arrow.PrimitiveTypes.Float64},
-		{"bool chunks", []string{`[true, true]`, `[true, false, null, null, false]`, `[null, null]`}, arrow.FixedWidthTypes.Boolean},
-		{"float32 chunked", []string{`[1, 1, 0, -5, -5]`, `[-5, 255, 255]`}, arrow.PrimitiveTypes.Float32},
-		{"str", []string{`["foo", "foo", "foo", "bar", "bar", "baz", "bar", "bar", "foo", "foo"]`}, arrow.BinaryTypes.String},
-		{"large str", []string{`["foo", "foo", "foo", "bar", "bar", "baz", "bar", "bar", "foo", "foo"]`}, arrow.BinaryTypes.LargeString},
-		{"str chunked", []string{`["foo", "foo", null]`, `["foo", "bar", "bar"]`, `[null, null, "baz"]`, `[null]`}, arrow.BinaryTypes.String},
-		{"empty arrs", []string{`[]`}, arrow.PrimitiveTypes.Float32},
-		{"empty str array", []string{`[]`}, arrow.BinaryTypes.String},
-		{"empty chunked", []string{`[]`, `[]`, `[]`}, arrow.FixedWidthTypes.Boolean},
-		{"fsb", []string{`["` + valAba + `", "` + valAba + `", null, "` + valAbc + `", "` + valAbd + `", "` + valAbd + `", "` + valAbd + `"]`}, &arrow.FixedSizeBinaryType{ByteWidth: 3}},
-		{"fsb chunked", []string{`["` + valAba + `", "` + valAba + `", null]`, `["` + valAbc + `", "` + valAbd + `", "` + valAbd + `", "` + valAbd + `"]`, `[]`}, &arrow.FixedSizeBinaryType{ByteWidth: 3}}}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			for _, runEndType := range runEndTypes {
-				t.Run("run_ends="+runEndType.String(), func(t *testing.T) {
-					suite.Run(t, &RunEndEncodeDecodeSuite{
-						runEndType: runEndType,
-						valueType:  tt.valueType,
-						jsonData:   tt.data,
-					})
-				})
-			}
-		})
-	}
-}
-
-func benchRunEndEncode(b *testing.B, sz int, nullProb float64, runEndType, valueType arrow.DataType) {
-	b.Run("encode", func(b *testing.B) {
-		var (
-			mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-			rng = gen.NewRandomArrayGenerator(seed, mem)
-		)
-
-		values := rng.ArrayOf(valueType.ID(), int64(sz), nullProb)
-		b.Cleanup(func() {
-			values.Release()
-		})
-
-		var (
-			res   compute.Datum
-			err   error
-			ctx   = compute.WithAllocator(context.Background(), mem)
-			input = &compute.ArrayDatum{Value: values.Data()}
-			opts  = compute.RunEndEncodeOptions{RunEndType: runEndType}
-
-			byts int64
-		)
-
-		for _, buf := range values.Data().Buffers() {
-			if buf != nil {
-				byts += int64(buf.Len())
-			}
-		}
-
-		b.SetBytes(byts)
-		b.ResetTimer()
-		for n := 0; n < b.N; n++ {
-			res, err = compute.RunEndEncode(ctx, opts, input)
-			b.StopTimer()
-			if err != nil {
-				b.Fatal(err)
-			}
-			res.Release()
-			b.StartTimer()
-		}
-	})
-}
-
-func benchRunEndDecode(b *testing.B, sz int, nullProb float64, runEndType, valueType arrow.DataType) {
-	b.Run("decode", func(b *testing.B) {
-		var (
-			mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-			rng = gen.NewRandomArrayGenerator(seed, mem)
-		)
-
-		values := rng.ArrayOf(valueType.ID(), int64(sz), nullProb)
-		b.Cleanup(func() {
-			values.Release()
-		})
-
-		var (
-			res        compute.Datum
-			ctx        = compute.WithAllocator(context.Background(), mem)
-			opts       = compute.RunEndEncodeOptions{RunEndType: runEndType}
-			input, err = compute.RunEndEncode(ctx, opts, &compute.ArrayDatum{Value: values.Data()})
-			byts       int64
-		)
-
-		if err != nil {
-			b.Fatal(err)
-		}
-
-		for _, buf := range values.Data().Buffers() {
-			if buf != nil {
-				byts += int64(buf.Len())
-			}
-		}
-
-		b.SetBytes(byts)
-		b.ResetTimer()
-		for n := 0; n < b.N; n++ {
-			res, err = compute.RunEndDecode(ctx, input)
-			b.StopTimer()
-			if err != nil {
-				b.Fatal(err)
-			}
-			res.Release()
-			b.StartTimer()
-		}
-	})
-}
-
-func BenchmarkRunEndKernels(b *testing.B) {
-	args := []struct {
-		sz       int
-		nullProb float64
-	}{
-		{CpuCacheSizes[2], 0},
-		{CpuCacheSizes[2], 0.5},
-		{CpuCacheSizes[2], 1},
-	}
-
-	runEnds := []struct {
-		dt     arrow.DataType
-		maxLen int
-	}{
-		{arrow.PrimitiveTypes.Int16, math.MaxInt16},
-		{arrow.PrimitiveTypes.Int32, math.MaxInt32},
-		{arrow.PrimitiveTypes.Int64, math.MaxInt64},
-	}
-
-	for _, a := range args {
-		b.Run(fmt.Sprintf("nullprob=%.1f", a.nullProb), func(b *testing.B) {
-			for _, runEndType := range runEnds {
-				sz := exec.Min(a.sz, runEndType.maxLen)
-				b.Run("run_ends_type="+runEndType.dt.String(), func(b *testing.B) {
-					for _, valType := range append(numericTypes, arrow.BinaryTypes.String, arrow.FixedWidthTypes.Boolean) {
-						b.Run("value_type="+valType.String(), func(b *testing.B) {
-							benchRunEndEncode(b, sz, a.nullProb, runEndType.dt, valType)
-							benchRunEndDecode(b, sz, a.nullProb, runEndType.dt, valType)
-						})
-					}
-				})
-			}
-		})
-	}
-}
diff --git a/go/arrow/compute/vector_run_ends.go b/go/arrow/compute/vector_run_ends.go
deleted file mode 100644
index 5dfdde4e00948..0000000000000
--- a/go/arrow/compute/vector_run_ends.go
+++ /dev/null
@@ -1,90 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute
-
-import (
-	"context"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-)
-
-var (
-	runEndEncodeDoc = FunctionDoc{
-		Summary:         "Run-end encode array",
-		Description:     "Return a run-end encoded version of the input array",
-		ArgNames:        []string{"array"},
-		OptionsType:     "RunEndEncodeOptions",
-		OptionsRequired: true,
-	}
-	runEndDecodeDoc = FunctionDoc{
-		Summary:     "Decode run-end encoded array",
-		Description: "Return a decoded version of a run-end encoded input array",
-		ArgNames:    []string{"array"},
-	}
-)
-
-type RunEndEncodeOptions = kernels.RunEndEncodeState
-
-func RegisterVectorRunEndFuncs(reg FunctionRegistry) {
-	encKns, decKns := kernels.GetRunEndEncodeKernels()
-	encFn := NewVectorFunction("run_end_encode", Unary(), runEndEncodeDoc)
-	for _, k := range encKns {
-		if err := encFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(encFn, false)
-
-	decFn := NewVectorFunction("run_end_decode", Unary(), runEndDecodeDoc)
-	for _, k := range decKns {
-		if err := decFn.AddKernel(k); err != nil {
-			panic(err)
-		}
-	}
-	reg.AddFunction(decFn, false)
-}
-
-func RunEndEncode(ctx context.Context, opts RunEndEncodeOptions, arg Datum) (Datum, error) {
-	return CallFunction(ctx, "run_end_encode", &opts, arg)
-}
-
-func RunEndEncodeArray(ctx context.Context, opts RunEndEncodeOptions, input arrow.Array) (arrow.Array, error) {
-	out, err := RunEndEncode(ctx, opts, &ArrayDatum{Value: input.Data()})
-	if err != nil {
-		return nil, err
-	}
-	defer out.Release()
-
-	return out.(*ArrayDatum).MakeArray(), nil
-}
-
-func RunEndDecode(ctx context.Context, arg Datum) (Datum, error) {
-	return CallFunction(ctx, "run_end_decode", nil, arg)
-}
-
-func RunEndDecodeArray(ctx context.Context, input arrow.Array) (arrow.Array, error) {
-	out, err := RunEndDecode(ctx, &ArrayDatum{Value: input.Data()})
-	if err != nil {
-		return nil, err
-	}
-	defer out.Release()
-
-	return out.(*ArrayDatum).MakeArray(), nil
-}
diff --git a/go/arrow/compute/vector_selection_test.go b/go/arrow/compute/vector_selection_test.go
deleted file mode 100644
index 6fcb5c242f151..0000000000000
--- a/go/arrow/compute/vector_selection_test.go
+++ /dev/null
@@ -1,1652 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package compute_test
-
-import (
-	"context"
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/compute/exec"
-	"github.com/apache/arrow/go/v18/arrow/compute/internal/kernels"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-const randomSeed = 0x0ff1ce
-
-type FilterKernelTestSuite struct {
-	suite.Suite
-
-	mem                 *memory.CheckedAllocator
-	dropOpts, emitNulls compute.FilterOptions
-}
-
-func (f *FilterKernelTestSuite) SetupSuite() {
-	f.dropOpts.NullSelection = compute.SelectionDropNulls
-	f.emitNulls.NullSelection = compute.SelectionEmitNulls
-}
-
-func (f *FilterKernelTestSuite) SetupTest() {
-	f.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-}
-
-func (f *FilterKernelTestSuite) TearDownTest() {
-	f.mem.AssertSize(f.T(), 0)
-}
-
-func (f *FilterKernelTestSuite) getArr(dt arrow.DataType, str string) arrow.Array {
-	arr, _, err := array.FromJSON(f.mem, dt, strings.NewReader(str), array.WithUseNumber())
-	f.Require().NoError(err)
-	return arr
-}
-
-func (f *FilterKernelTestSuite) doAssertFilter(values, filter, expected arrow.Array) {
-	ctx := compute.WithAllocator(context.TODO(), f.mem)
-	valDatum := compute.NewDatum(values)
-	defer valDatum.Release()
-	filterDatum := compute.NewDatum(filter)
-	defer filterDatum.Release()
-
-	f.Run("emit_null", func() {
-		out, err := compute.Filter(ctx, valDatum, filterDatum, f.emitNulls)
-		f.Require().NoError(err)
-		defer out.Release()
-		actual := out.(*compute.ArrayDatum).MakeArray()
-		defer actual.Release()
-		f.Truef(array.Equal(expected, actual), "expected: %s\ngot: %s", expected, actual)
-	})
-
-	// f.Run("drop", func() {
-	// 	out, err := compute.Filter(ctx, valDatum, filterDatum, f.dropOpts)
-	// 	f.NoError(err)
-	// 	defer out.Release()
-	// 	actual := out.(*compute.ArrayDatum).MakeArray()
-	// 	defer actual.Release()
-	// 	f.Truef(array.Equal(expected, actual), "expected: %s\ngot: %s", expected, actual)
-	// })
-}
-
-func (f *FilterKernelTestSuite) assertFilter(values, filter, expected arrow.Array) {
-	f.doAssertFilter(values, filter, expected)
-
-	if values.DataType().ID() == arrow.DENSE_UNION {
-		// concatenation of dense union not supported
-		return
-	}
-
-	// check slicing: add(M=3) dummy values at the start and end of values
-	// add N(=2) dummy values at the start and end of filter
-	f.Run("sliced values and filter", func() {
-		valuesFiller := array.MakeArrayOfNull(f.mem, values.DataType(), 3)
-		defer valuesFiller.Release()
-		filterFiller, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(`[true, false]`))
-		defer filterFiller.Release()
-
-		valuesSliced, err := array.Concatenate([]arrow.Array{valuesFiller, values, valuesFiller}, f.mem)
-		f.Require().NoError(err)
-		defer valuesSliced.Release()
-
-		filterSliced, err := array.Concatenate([]arrow.Array{filterFiller, filter, filterFiller}, f.mem)
-		f.Require().NoError(err)
-		defer filterSliced.Release()
-
-		valuesSliced = array.NewSlice(valuesSliced, 3, int64(3+values.Len()))
-		filterSliced = array.NewSlice(filterSliced, 2, int64(2+filter.Len()))
-		defer valuesSliced.Release()
-		defer filterSliced.Release()
-
-		f.doAssertFilter(valuesSliced, filterSliced, expected)
-	})
-}
-
-func (f *FilterKernelTestSuite) assertFilterJSON(dt arrow.DataType, values, filter, expected string) {
-	valuesArr, _, _ := array.FromJSON(f.mem, dt, strings.NewReader(values), array.WithUseNumber())
-	defer valuesArr.Release()
-	filterArr, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(filter))
-	defer filterArr.Release()
-	expectedArr, _, _ := array.FromJSON(f.mem, dt, strings.NewReader(expected), array.WithUseNumber())
-	defer expectedArr.Release()
-
-	f.assertFilter(valuesArr, filterArr, expectedArr)
-}
-
-func (f *FilterKernelTestSuite) TestNoValidityBitmapButUnknownNullCount() {
-	values := f.getArr(arrow.PrimitiveTypes.Int32, `[1, 2, 3, 4]`)
-	defer values.Release()
-	filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[true, true, false, true]`)
-	defer filter.Release()
-
-	expected, err := compute.FilterArray(context.TODO(), values, filter, *compute.DefaultFilterOptions())
-	f.Require().NoError(err)
-	defer expected.Release()
-
-	filter.Data().(*array.Data).SetNullN(array.UnknownNullCount)
-	result, err := compute.FilterArray(context.TODO(), values, filter, *compute.DefaultFilterOptions())
-	f.Require().NoError(err)
-	defer result.Release()
-
-	assertArraysEqual(f.T(), expected, result)
-}
-
-type TakeKernelTestSuite struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-	ctx context.Context
-}
-
-func (tk *TakeKernelTestSuite) SetupTest() {
-	tk.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	tk.ctx = compute.WithAllocator(context.TODO(), tk.mem)
-}
-
-func (tk *TakeKernelTestSuite) TearDownTest() {
-	tk.mem.AssertSize(tk.T(), 0)
-}
-
-func (tk *TakeKernelTestSuite) assertTakeArrays(values, indices, expected arrow.Array) {
-	actual, err := compute.TakeArray(tk.ctx, values, indices)
-	tk.Require().NoError(err)
-	defer actual.Release()
-	assertArraysEqual(tk.T(), expected, actual)
-}
-
-func (tk *TakeKernelTestSuite) takeJSON(dt arrow.DataType, values string, idxType arrow.DataType, indices string) (arrow.Array, error) {
-	valArr, _, _ := array.FromJSON(tk.mem, dt, strings.NewReader(values), array.WithUseNumber())
-	defer valArr.Release()
-	indArr, _, _ := array.FromJSON(tk.mem, idxType, strings.NewReader(indices))
-	defer indArr.Release()
-
-	return compute.TakeArray(tk.ctx, valArr, indArr)
-}
-
-func (tk *TakeKernelTestSuite) checkTake(dt arrow.DataType, valuesJSON, indicesJSON, expJSON string) {
-	values, _, _ := array.FromJSON(tk.mem, dt, strings.NewReader(valuesJSON), array.WithUseNumber())
-	defer values.Release()
-	expected, _, _ := array.FromJSON(tk.mem, dt, strings.NewReader(expJSON), array.WithUseNumber())
-	defer expected.Release()
-
-	for _, idxType := range []arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint32} {
-		tk.Run(fmt.Sprintf("idxtype %s", idxType), func() {
-			indices, _, _ := array.FromJSON(tk.mem, idxType, strings.NewReader(indicesJSON))
-			defer indices.Release()
-
-			tk.assertTakeArrays(values, indices, expected)
-
-			if dt.ID() != arrow.DENSE_UNION {
-				tk.Run("sliced values", func() {
-					valuesFiller := array.MakeArrayOfNull(tk.mem, dt, 2)
-					defer valuesFiller.Release()
-
-					valuesSliced, _ := array.Concatenate([]arrow.Array{valuesFiller, values, valuesFiller}, tk.mem)
-					defer valuesSliced.Release()
-					valuesSliced = array.NewSlice(valuesSliced, 2, 2+int64(values.Len()))
-					defer valuesSliced.Release()
-
-					tk.assertTakeArrays(valuesSliced, indices, expected)
-				})
-			}
-
-			tk.Run("sliced indices", func() {
-				zero, _ := scalar.MakeScalarParam(0, idxType)
-				indicesFiller, _ := scalar.MakeArrayFromScalar(zero, 3, tk.mem)
-				defer indicesFiller.Release()
-				indicesSliced, _ := array.Concatenate([]arrow.Array{indicesFiller, indices, indicesFiller}, tk.mem)
-				defer indicesSliced.Release()
-				indicesSliced = array.NewSlice(indicesSliced, 3, int64(indices.Len()+3))
-				defer indicesSliced.Release()
-
-				tk.assertTakeArrays(values, indicesSliced, expected)
-			})
-		})
-	}
-}
-
-func (tk *TakeKernelTestSuite) assertTakeNull(values, indices, expected string) {
-	tk.checkTake(arrow.Null, values, indices, expected)
-}
-
-func (tk *TakeKernelTestSuite) assertTakeBool(values, indices, expected string) {
-	tk.checkTake(arrow.FixedWidthTypes.Boolean, values, indices, expected)
-}
-
-func (tk *TakeKernelTestSuite) assertNoValidityBitmapButUnknownNullCount(values, indices arrow.Array) {
-	tk.Zero(values.NullN())
-	tk.Zero(indices.NullN())
-	exp, err := compute.TakeArray(tk.ctx, values, indices)
-	tk.Require().NoError(err)
-	defer exp.Release()
-
-	newValuesData := values.Data().(*array.Data).Copy()
-	newValuesData.SetNullN(array.UnknownNullCount)
-	newValuesData.Buffers()[0].Release()
-	newValuesData.Buffers()[0] = nil
-	defer newValuesData.Release()
-	newValues := array.MakeFromData(newValuesData)
-
-	newIndicesData := indices.Data().(*array.Data).Copy()
-	newIndicesData.SetNullN(array.UnknownNullCount)
-	newIndicesData.Buffers()[0].Release()
-	newIndicesData.Buffers()[0] = nil
-	defer newIndicesData.Release()
-	newIndices := array.MakeFromData(newIndicesData)
-
-	defer newValues.Release()
-	defer newIndices.Release()
-
-	result, err := compute.TakeArray(tk.ctx, newValues, newIndices)
-	tk.Require().NoError(err)
-	defer result.Release()
-
-	assertArraysEqual(tk.T(), exp, result)
-}
-
-func (tk *TakeKernelTestSuite) assertNoValidityBitmapUnknownNullCountJSON(dt arrow.DataType, values, indices string) {
-	vals, _, _ := array.FromJSON(tk.mem, dt, strings.NewReader(values), array.WithUseNumber())
-	defer vals.Release()
-	inds, _, _ := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int16, strings.NewReader(indices))
-	defer inds.Release()
-	tk.assertNoValidityBitmapButUnknownNullCount(vals, inds)
-}
-
-type TakeKernelTest struct {
-	TakeKernelTestSuite
-}
-
-func (tk *TakeKernelTest) TestTakeNull() {
-	tk.assertTakeNull(`[null, null, null]`, `[0, 1, 0]`, `[null, null, null]`)
-	tk.assertTakeNull(`[null, null, null]`, `[0, 2]`, `[null, null]`)
-
-	_, err := tk.takeJSON(arrow.Null, `[null, null, null]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeJSON(arrow.Null, `[null, null, null]`, arrow.PrimitiveTypes.Int8, `[0, -1, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-}
-
-func (tk *TakeKernelTest) TestInvalidIndexType() {
-	_, err := tk.takeJSON(arrow.Null, `[null, null, null]`, arrow.PrimitiveTypes.Float32, `[0.0, 1.0, 0.1]`)
-	tk.ErrorIs(err, arrow.ErrNotImplemented)
-}
-
-func (tk *TakeKernelTest) TestDefaultOptions() {
-	indArr, _, _ := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[null, 2, 0, 3]`))
-	defer indArr.Release()
-	valArr, _, _ := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[7, 8, 9, null]`))
-	defer valArr.Release()
-
-	indices, values := compute.NewDatum(indArr), compute.NewDatum(valArr)
-	defer indices.Release()
-	defer values.Release()
-
-	noOptions, err := compute.CallFunction(tk.ctx, "take", nil, values, indices)
-	tk.Require().NoError(err)
-	defer noOptions.Release()
-
-	explicitDefaults, err := compute.CallFunction(tk.ctx, "take", compute.DefaultTakeOptions(), values, indices)
-	tk.Require().NoError(err)
-	defer explicitDefaults.Release()
-
-	assertDatumsEqual(tk.T(), explicitDefaults, noOptions, nil, nil)
-}
-
-func (tk *TakeKernelTest) TestTakeBoolean() {
-	tk.assertTakeBool(`[true, true, true]`, `[]`, `[]`)
-	tk.assertTakeBool(`[true, false, true]`, `[0, 1, 0]`, `[true, false, true]`)
-	tk.assertTakeBool(`[null, false, true]`, `[0, 1, 0]`, `[null, false, null]`)
-	tk.assertTakeBool(`[true, false, true]`, `[null, 1, 0]`, `[null, false, true]`)
-
-	tk.assertNoValidityBitmapUnknownNullCountJSON(arrow.FixedWidthTypes.Boolean, `[true, false, true]`, `[1, 0, 0]`)
-	_, err := tk.takeJSON(arrow.FixedWidthTypes.Boolean, `[true, false, true]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeJSON(arrow.FixedWidthTypes.Boolean, `[true, false, true]`, arrow.PrimitiveTypes.Int8, `[0, -1, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-}
-
-type FilterKernelWithNull struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithNull) TestFilterNull() {
-	f.assertFilterJSON(arrow.Null, `[]`, `[]`, `[]`)
-	f.assertFilterJSON(arrow.Null, `[null, null, null]`, `[false, true, false]`, `[null]`)
-	f.assertFilterJSON(arrow.Null, `[null, null, null]`, `[true, true, false]`, `[null, null]`)
-}
-
-type FilterKernelWithBoolean struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithBoolean) TestFilterBoolean() {
-	f.assertFilterJSON(arrow.FixedWidthTypes.Boolean, `[]`, `[]`, `[]`)
-	f.assertFilterJSON(arrow.FixedWidthTypes.Boolean,
-		`[true, false, true]`, `[false, true, false]`, `[false]`)
-	f.assertFilterJSON(arrow.FixedWidthTypes.Boolean,
-		`[null, false, true]`, `[false, true, false]`, `[false]`)
-	f.assertFilterJSON(arrow.FixedWidthTypes.Boolean,
-		`[true, false, true]`, `[null, true, false]`, `[null, false]`)
-}
-
-func (f *FilterKernelWithBoolean) TestDefaultOptions() {
-	values := f.getArr(arrow.PrimitiveTypes.Int8, `[7, 8, null, 9]`)
-	valDatum := compute.NewDatum(values)
-	values.Release()
-	defer valDatum.Release()
-	filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[true, true, false, null]`)
-	filterDatum := compute.NewDatum(filter)
-	filter.Release()
-	defer filterDatum.Release()
-
-	noOpts, err := compute.CallFunction(context.TODO(), "filter", nil, valDatum, filterDatum)
-	f.Require().NoError(err)
-	defer noOpts.Release()
-
-	defOpts, err := compute.CallFunction(context.TODO(), "filter", compute.DefaultFilterOptions(), valDatum, filterDatum)
-	f.Require().NoError(err)
-	defer defOpts.Release()
-
-	assertDatumsEqual(f.T(), defOpts, noOpts, nil, nil)
-}
-
-type FilterKernelExtension struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelExtension) TestExtension() {
-	dt := types.NewSmallintType()
-	arrow.RegisterExtensionType(dt)
-	defer arrow.UnregisterExtensionType(dt.ExtensionName())
-
-	f.assertFilterJSON(dt, `[]`, `[]`, `[]`)
-	f.assertFilterJSON(dt, `[9]`, `[false]`, `[]`)
-	f.assertFilterJSON(dt, `[9]`, `[true]`, `[9]`)
-	f.assertFilterJSON(dt, `[9]`, `[null]`, `[null]`)
-	f.assertFilterJSON(dt, `[null]`, `[false]`, `[]`)
-	f.assertFilterJSON(dt, `[null]`, `[true]`, `[null]`)
-	f.assertFilterJSON(dt, `[null]`, `[null]`, `[null]`)
-
-	f.assertFilterJSON(dt, `[7, 8, 9]`, `[false, true, false]`, `[8]`)
-	f.assertFilterJSON(dt, `[7, 8, 9]`, `[true, false, true]`, `[7, 9]`)
-	f.assertFilterJSON(dt, `[null, 8, 9]`, `[false, true, false]`, `[8]`)
-	f.assertFilterJSON(dt, `[7, 8, 9]`, `[null, true, false]`, `[null, 8]`)
-	f.assertFilterJSON(dt, `[7, 8, 9]`, `[true, null, true]`, `[7, null, 9]`)
-
-	val := f.getArr(dt, `[7, 8, 9]`)
-	defer val.Release()
-	filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[false, true, true, true, false, true]`)
-	defer filter.Release()
-	filter = array.NewSlice(filter, 3, 6)
-	defer filter.Release()
-	exp := f.getArr(dt, `[7, 9]`)
-	defer exp.Release()
-
-	f.assertFilter(val, filter, exp)
-
-	invalidFilter := f.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
-	defer invalidFilter.Release()
-
-	_, err := compute.FilterArray(context.TODO(), val, invalidFilter, f.emitNulls)
-	f.ErrorIs(err, arrow.ErrInvalid)
-	_, err = compute.FilterArray(context.TODO(), val, invalidFilter, f.dropOpts)
-	f.ErrorIs(err, arrow.ErrInvalid)
-}
-
-type FilterKernelNumeric struct {
-	FilterKernelTestSuite
-
-	dt arrow.DataType
-}
-
-func (f *FilterKernelNumeric) TestFilterNumeric() {
-	f.Run(f.dt.String(), func() {
-		f.assertFilterJSON(f.dt, `[]`, `[]`, `[]`)
-		f.assertFilterJSON(f.dt, `[9]`, `[false]`, `[]`)
-		f.assertFilterJSON(f.dt, `[9]`, `[true]`, `[9]`)
-		f.assertFilterJSON(f.dt, `[9]`, `[null]`, `[null]`)
-		f.assertFilterJSON(f.dt, `[null]`, `[false]`, `[]`)
-		f.assertFilterJSON(f.dt, `[null]`, `[true]`, `[null]`)
-		f.assertFilterJSON(f.dt, `[null]`, `[null]`, `[null]`)
-
-		f.assertFilterJSON(f.dt, `[7, 8, 9]`, `[false, true, false]`, `[8]`)
-		f.assertFilterJSON(f.dt, `[7, 8, 9]`, `[true, false, true]`, `[7, 9]`)
-		f.assertFilterJSON(f.dt, `[null, 8, 9]`, `[false, true, false]`, `[8]`)
-		f.assertFilterJSON(f.dt, `[7, 8, 9]`, `[null, true, false]`, `[null, 8]`)
-		f.assertFilterJSON(f.dt, `[7, 8, 9]`, `[true, null, true]`, `[7, null, 9]`)
-
-		val := f.getArr(f.dt, `[7, 8, 9]`)
-		defer val.Release()
-		filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[false, true, true, true, false, true]`)
-		defer filter.Release()
-		filter = array.NewSlice(filter, 3, 6)
-		defer filter.Release()
-		exp := f.getArr(f.dt, `[7, 9]`)
-		defer exp.Release()
-
-		f.assertFilter(val, filter, exp)
-
-		invalidFilter := f.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
-		defer invalidFilter.Release()
-
-		_, err := compute.FilterArray(context.TODO(), val, invalidFilter, f.emitNulls)
-		f.ErrorIs(err, arrow.ErrInvalid)
-		_, err = compute.FilterArray(context.TODO(), val, invalidFilter, f.dropOpts)
-		f.ErrorIs(err, arrow.ErrInvalid)
-	})
-}
-
-type comparator[T arrow.NumericType] func(a, b T) bool
-
-func getComparator[T arrow.NumericType](op kernels.CompareOperator) comparator[T] {
-	return []comparator[T]{
-		// EQUAL
-		func(a, b T) bool { return a == b },
-		// NOT EQUAL
-		func(a, b T) bool { return a != b },
-		// GREATER
-		func(a, b T) bool { return a > b },
-		// GREATER_EQUAL
-		func(a, b T) bool { return a >= b },
-		// LESS
-		func(a, b T) bool { return a < b },
-		// LESS_EQUAL
-		func(a, b T) bool { return a <= b },
-	}[int8(op)]
-}
-
-func compareAndFilterImpl[T arrow.NumericType](mem memory.Allocator, data []T, fn func(T) bool) arrow.Array {
-	filtered := make([]T, 0, len(data))
-	for _, v := range data {
-		if fn(v) {
-			filtered = append(filtered, v)
-		}
-	}
-	return exec.ArrayFromSlice(mem, filtered)
-}
-
-func compareAndFilterValue[T arrow.NumericType](mem memory.Allocator, data []T, val T, op kernels.CompareOperator) arrow.Array {
-	cmp := getComparator[T](op)
-	return compareAndFilterImpl(mem, data, func(e T) bool { return cmp(e, val) })
-}
-
-func compareAndFilterSlice[T arrow.NumericType](mem memory.Allocator, data, other []T, op kernels.CompareOperator) arrow.Array {
-	cmp := getComparator[T](op)
-	i := 0
-	return compareAndFilterImpl(mem, data, func(e T) bool {
-		ret := cmp(e, other[i])
-		i++
-		return ret
-	})
-}
-
-func createFilterImpl[T arrow.NumericType](mem memory.Allocator, data []T, fn func(T) bool) arrow.Array {
-	bldr := array.NewBooleanBuilder(mem)
-	defer bldr.Release()
-	for _, v := range data {
-		bldr.Append(fn(v))
-	}
-	return bldr.NewArray()
-}
-
-func createFilterValue[T arrow.NumericType](mem memory.Allocator, data []T, val T, op kernels.CompareOperator) arrow.Array {
-	cmp := getComparator[T](op)
-	return createFilterImpl(mem, data, func(e T) bool { return cmp(e, val) })
-}
-
-func createFilterSlice[T arrow.NumericType](mem memory.Allocator, data, other []T, op kernels.CompareOperator) arrow.Array {
-	cmp := getComparator[T](op)
-	i := 0
-	return createFilterImpl(mem, data, func(e T) bool {
-		ret := cmp(e, other[i])
-		i++
-		return ret
-	})
-}
-
-func compareScalarAndFilterRandomNumeric[T arrow.NumericType](t *testing.T, mem memory.Allocator) {
-	dt := arrow.GetDataType[T]()
-
-	rng := gen.NewRandomArrayGenerator(randomSeed, mem)
-	t.Run("compare scalar and filter", func(t *testing.T) {
-		for i := 3; i < 10; i++ {
-			length := int64(1 << i)
-			t.Run(fmt.Sprintf("random %d", length), func(t *testing.T) {
-				arr := rng.Numeric(dt.ID(), length, 0, 100, 0)
-				defer arr.Release()
-				data := arrow.GetData[T](arr.Data().Buffers()[1].Bytes())
-				for _, op := range []kernels.CompareOperator{kernels.CmpEQ, kernels.CmpNE, kernels.CmpGT, kernels.CmpLE} {
-					selection := createFilterValue(mem, data, 50, op)
-					defer selection.Release()
-
-					filtered, err := compute.FilterArray(context.TODO(), arr, selection, *compute.DefaultFilterOptions())
-					assert.NoError(t, err)
-					defer filtered.Release()
-
-					expected := compareAndFilterValue(mem, data, 50, op)
-					defer expected.Release()
-
-					assertArraysEqual(t, expected, filtered)
-				}
-			})
-		}
-	})
-}
-
-func compareArrayAndFilterRandomNumeric[T arrow.NumericType](t *testing.T, mem memory.Allocator) {
-	dt := arrow.GetDataType[T]()
-	rng := gen.NewRandomArrayGenerator(randomSeed, mem)
-	t.Run("compare array and filter", func(t *testing.T) {
-		for i := 3; i < 10; i++ {
-			length := int64(1 << i)
-			t.Run(fmt.Sprintf("length %d", length), func(t *testing.T) {
-				lhs := rng.Numeric(dt.ID(), length, 0, 100, 0)
-				defer lhs.Release()
-				rhs := rng.Numeric(dt.ID(), length, 0, 100, 0)
-				defer rhs.Release()
-
-				data := arrow.GetData[T](lhs.Data().Buffers()[1].Bytes())
-				other := arrow.GetData[T](rhs.Data().Buffers()[1].Bytes())
-				for _, op := range []kernels.CompareOperator{kernels.CmpEQ, kernels.CmpNE, kernels.CmpGT, kernels.CmpLE} {
-					selection := createFilterSlice(mem, data, other, op)
-					defer selection.Release()
-
-					filtered, err := compute.FilterArray(context.TODO(), lhs, selection, *compute.DefaultFilterOptions())
-					require.NoError(t, err)
-					defer filtered.Release()
-
-					expected := compareAndFilterSlice(mem, data, other, op)
-					defer expected.Release()
-
-					assertArraysEqual(t, expected, filtered)
-				}
-			})
-		}
-	})
-}
-
-func (f *FilterKernelNumeric) TestCompareScalarAndFilterRandom() {
-	switch f.dt.ID() {
-	case arrow.INT8:
-		compareScalarAndFilterRandomNumeric[int8](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[int8](f.T(), f.mem)
-	case arrow.UINT8:
-		compareScalarAndFilterRandomNumeric[uint8](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[uint8](f.T(), f.mem)
-	case arrow.INT16:
-		compareScalarAndFilterRandomNumeric[int16](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[int16](f.T(), f.mem)
-	case arrow.UINT16:
-		compareScalarAndFilterRandomNumeric[uint16](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[uint16](f.T(), f.mem)
-	case arrow.INT32:
-		compareScalarAndFilterRandomNumeric[int32](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[int32](f.T(), f.mem)
-	case arrow.UINT32:
-		compareScalarAndFilterRandomNumeric[uint32](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[uint32](f.T(), f.mem)
-	case arrow.INT64:
-		compareScalarAndFilterRandomNumeric[int64](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[int64](f.T(), f.mem)
-	case arrow.UINT64:
-		compareScalarAndFilterRandomNumeric[uint64](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[uint64](f.T(), f.mem)
-	case arrow.FLOAT32:
-		compareScalarAndFilterRandomNumeric[float32](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[float32](f.T(), f.mem)
-	case arrow.FLOAT64:
-		compareScalarAndFilterRandomNumeric[float64](f.T(), f.mem)
-		compareArrayAndFilterRandomNumeric[float64](f.T(), f.mem)
-	}
-}
-
-type FilterKernelWithDecimal struct {
-	FilterKernelTestSuite
-
-	dt arrow.DataType
-}
-
-func (f *FilterKernelWithDecimal) TestFilterDecimalNumeric() {
-	f.assertFilterJSON(f.dt, `[]`, `[]`, `[]`)
-
-	f.assertFilterJSON(f.dt, `["9.00"]`, `[false]`, `[]`)
-	f.assertFilterJSON(f.dt, `["9.00"]`, `[true]`, `["9.00"]`)
-	f.assertFilterJSON(f.dt, `["9.00"]`, `[null]`, `[null]`)
-	f.assertFilterJSON(f.dt, `[null]`, `[false]`, `[]`)
-	f.assertFilterJSON(f.dt, `[null]`, `[true]`, `[null]`)
-	f.assertFilterJSON(f.dt, `[null]`, `[null]`, `[null]`)
-
-	f.assertFilterJSON(f.dt, `["7.12", "8.00", "9.87"]`, `[false, true, false]`, `["8.00"]`)
-	f.assertFilterJSON(f.dt, `["7.12", "8.00", "9.87"]`, `[true, false, true]`, `["7.12", "9.87"]`)
-	f.assertFilterJSON(f.dt, `[null, "8.00", "9.87"]`, `[false, true, false]`, `["8.00"]`)
-	f.assertFilterJSON(f.dt, `["7.12", "8.00", "9.87"]`, `[null, true, false]`, `[null, "8.00"]`)
-	f.assertFilterJSON(f.dt, `["7.12", "8.00", "9.87"]`, `[true, null, true]`, `["7.12", null, "9.87"]`)
-
-	val := f.getArr(f.dt, `["7.12", "8.00", "9.87"]`)
-	defer val.Release()
-	filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[false, true, true, true, false, true]`)
-	defer filter.Release()
-	filter = array.NewSlice(filter, 3, 6)
-	defer filter.Release()
-	exp := f.getArr(f.dt, `["7.12", "9.87"]`)
-	defer exp.Release()
-
-	f.assertFilter(val, filter, exp)
-
-	invalidFilter := f.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
-	defer invalidFilter.Release()
-
-	_, err := compute.FilterArray(context.TODO(), val, invalidFilter, f.emitNulls)
-	f.ErrorIs(err, arrow.ErrInvalid)
-	_, err = compute.FilterArray(context.TODO(), val, invalidFilter, f.dropOpts)
-	f.ErrorIs(err, arrow.ErrInvalid)
-}
-
-type FilterKernelWithString struct {
-	FilterKernelTestSuite
-
-	dt arrow.DataType
-}
-
-func (f *FilterKernelWithString) TestFilterString() {
-	f.Run(f.dt.String(), func() {
-		f.assertFilterJSON(f.dt, `["YQ==", "Yg==", "Yw=="]`, `[false, true, false]`, `["Yg=="]`)
-		f.assertFilterJSON(f.dt, `[null, "Yg==", "Yw=="]`, `[false, true, false]`, `["Yg=="]`)
-		f.assertFilterJSON(f.dt, `["YQ==", "Yg==", "Yw=="]`, `[null, true, false]`, `[null, "Yg=="]`)
-	})
-}
-
-type FilterKernelWithList struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithList) TestListInt32() {
-	dt := arrow.ListOf(arrow.PrimitiveTypes.Int32)
-	listJSON := `[[], [1, 2], null, [3]]`
-	f.assertFilterJSON(dt, listJSON, `[false, false, false, false]`, `[]`)
-	f.assertFilterJSON(dt, listJSON, `[false, true, true, null]`, `[[1, 2], null, null]`)
-	f.assertFilterJSON(dt, listJSON, `[false, false, true, null]`, `[null, null]`)
-	f.assertFilterJSON(dt, listJSON, `[true, false, false, true]`, `[[], [3]]`)
-	f.assertFilterJSON(dt, listJSON, `[true, true, true, true]`, listJSON)
-	f.assertFilterJSON(dt, listJSON, `[false, true, false, true]`, `[[1, 2], [3]]`)
-}
-
-func (f *FilterKernelWithList) TestListListInt32() {
-	dt := arrow.ListOf(arrow.ListOf(arrow.PrimitiveTypes.Int32))
-	listJSON := `[
-		[],
-		[[1], [2, null, 2], []],
-		null,
-		[[3, null], null]
-	]`
-
-	f.assertFilterJSON(dt, listJSON, `[false, false, false, false]`, `[]`)
-	f.assertFilterJSON(dt, listJSON, `[false, true, true, null]`, `[
-		[[1], [2, null, 2], []],
-		null,
-		null
-	]`)
-	f.assertFilterJSON(dt, listJSON, `[false, false, true, null]`, `[null, null]`)
-	f.assertFilterJSON(dt, listJSON, `[true, false, false, true]`, `[
-		[],
-		[[3, null], null]
-	]`)
-	f.assertFilterJSON(dt, listJSON, `[true, true, true, true]`, listJSON)
-	f.assertFilterJSON(dt, listJSON, `[false, true, false, true]`, `[
-		[[1], [2, null, 2], []],
-		[[3, null], null]
-	]`)
-}
-
-func (f *FilterKernelWithList) TestLargeListInt32() {
-	dt := arrow.LargeListOf(arrow.PrimitiveTypes.Int32)
-	listJSON := `[[], [1, 2], null, [3]]`
-	f.assertFilterJSON(dt, listJSON, `[false, false, false, false]`, `[]`)
-	f.assertFilterJSON(dt, listJSON, `[false, true, true, null]`, `[[1, 2], null, null]`)
-}
-
-func (f *FilterKernelWithList) TestFixedSizeListInt32() {
-	dt := arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int32)
-	listJSON := `[null, [1, null, 3], [4, 5, 6], [7, 8, null]]`
-	f.assertFilterJSON(dt, listJSON, `[false, false, false, false]`, `[]`)
-	f.assertFilterJSON(dt, listJSON, `[false, true, true, null]`, `[[1, null, 3], [4, 5, 6], null]`)
-	f.assertFilterJSON(dt, listJSON, `[false, false, true, null]`, `[[4, 5, 6], null]`)
-	f.assertFilterJSON(dt, listJSON, `[true, true, true, true]`, listJSON)
-	f.assertFilterJSON(dt, listJSON, `[false, true, false, true]`, `[[1, null, 3], [7, 8, null]]`)
-}
-
-type FilterKernelWithUnion struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithUnion) TestDenseUnion() {
-	dt := arrow.DenseUnionOf([]arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	}, []arrow.UnionTypeCode{2, 5})
-
-	unionJSON := `[
-		[2, null],
-		[2, 222],
-		[5, "hello"],
-		[5, "eh"],
-		[2, null],
-		[2, 111],
-		[5, null]
-	]`
-
-	f.assertFilterJSON(dt, unionJSON, `[false, false, false, false, false, false, false]`, `[]`)
-	f.assertFilterJSON(dt, unionJSON, `[false, true, true, null, false, true, true]`, `[
-		[2, 222],
-		[5, "hello"],
-		[2, null],
-		[2, 111],
-		[5, null]
-	]`)
-	f.assertFilterJSON(dt, unionJSON, `[true, false, true, false, true, false, false]`, `[
-		[2, null],
-		[5, "hello"],
-		[2, null]
-	]`)
-	f.assertFilterJSON(dt, unionJSON, `[true, true, true, true, true, true, true]`, unionJSON)
-
-	// sliced
-	// (check this manually as concat of dense unions isn't supported)
-	unionArr, _, _ := array.FromJSON(f.mem, dt, strings.NewReader(unionJSON))
-	defer unionArr.Release()
-
-	filterArr, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(`[false, true, true, null, false, true, true]`))
-	defer filterArr.Release()
-
-	expected, _, _ := array.FromJSON(f.mem, dt, strings.NewReader(`[[5, "hello"], [2, null], [2, 111]]`))
-	defer expected.Release()
-
-	values := array.NewSlice(unionArr, 2, 6)
-	defer values.Release()
-	filter := array.NewSlice(filterArr, 2, 6)
-	defer filter.Release()
-	f.assertFilter(values, filter, expected)
-}
-
-type FilterKernelWithStruct struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithStruct) TestStruct() {
-	dt := arrow.StructOf(arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true})
-
-	structJSON := `[
-		null,
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"},
-		{"a": 4, "b": "eh"}
-	]`
-
-	f.assertFilterJSON(dt, structJSON, `[false, false, false, false]`, `[]`)
-	f.assertFilterJSON(dt, structJSON, `[false, true, true, null]`, `[
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"},
-		null
-	]`)
-	f.assertFilterJSON(dt, structJSON, `[true, true, true, true]`, structJSON)
-	f.assertFilterJSON(dt, structJSON, `[true, false, true, false]`, `[null, {"a": 2, "b": "hello"}]`)
-}
-
-type FilterKernelWithRecordBatch struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithRecordBatch) doFilter(sc *arrow.Schema, batchJSON, selection string, opts compute.FilterOptions) (arrow.Record, error) {
-	rec, _, err := array.RecordFromJSON(f.mem, sc, strings.NewReader(batchJSON), array.WithUseNumber())
-	if err != nil {
-		return nil, err
-	}
-	defer rec.Release()
-
-	batch := compute.NewDatum(rec)
-	defer batch.Release()
-
-	filter, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(selection))
-	defer filter.Release()
-	filterDatum := compute.NewDatum(filter)
-	defer filterDatum.Release()
-
-	outDatum, err := compute.Filter(context.TODO(), batch, filterDatum, opts)
-	if err != nil {
-		return nil, err
-	}
-
-	return outDatum.(*compute.RecordDatum).Value, nil
-}
-
-func (f *FilterKernelWithRecordBatch) assertFilter(sc *arrow.Schema, batchJSON, selection string, opts compute.FilterOptions, expectedBatch string) {
-	actual, err := f.doFilter(sc, batchJSON, selection, opts)
-	f.Require().NoError(err)
-	defer actual.Release()
-
-	expected, _, err := array.RecordFromJSON(f.mem, sc, strings.NewReader(expectedBatch), array.WithUseNumber())
-	f.Require().NoError(err)
-	defer expected.Release()
-
-	f.Truef(array.RecordEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
-}
-
-func (f *FilterKernelWithRecordBatch) TestFilterRecord() {
-	fields := []arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	}
-	sc := arrow.NewSchema(fields, nil)
-
-	batchJSON := `[
-		{"a": null, "b": "yo"},
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"},
-		{"a": 4, "b": "eh"}
-	]`
-
-	for _, opts := range []compute.FilterOptions{f.emitNulls, f.dropOpts} {
-		f.assertFilter(sc, batchJSON, `[false, false, false, false]`, opts, `[]`)
-		f.assertFilter(sc, batchJSON, `[true, true, true, true]`, opts, batchJSON)
-		f.assertFilter(sc, batchJSON, `[true, false, true, false]`, opts, `[
-			{"a": null, "b": "yo"},
-			{"a": 2, "b": "hello"}
-		]`)
-	}
-
-	f.assertFilter(sc, batchJSON, `[false, true, true, null]`, f.dropOpts, `[
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"}
-	]`)
-
-	f.assertFilter(sc, batchJSON, `[false, true, true, null]`, f.emitNulls, `[
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"},
-		{"a": null, "b": null}
-	]`)
-}
-
-type FilterKernelWithChunked struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithChunked) filterWithArray(dt arrow.DataType, values []string, filterStr string) (*arrow.Chunked, error) {
-	chk, err := array.ChunkedFromJSON(f.mem, dt, values)
-	f.Require().NoError(err)
-	defer chk.Release()
-
-	input := compute.NewDatum(chk)
-	defer input.Release()
-
-	filter, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(filterStr))
-	defer filter.Release()
-
-	filterDatum := compute.NewDatum(filter)
-	defer filterDatum.Release()
-
-	out, err := compute.Filter(context.TODO(), input, filterDatum, *compute.DefaultFilterOptions())
-	if err != nil {
-		return nil, err
-	}
-	return out.(*compute.ChunkedDatum).Value, nil
-}
-
-func (f *FilterKernelWithChunked) filterWithChunked(dt arrow.DataType, values, filter []string) (*arrow.Chunked, error) {
-	chk, err := array.ChunkedFromJSON(f.mem, dt, values)
-	f.Require().NoError(err)
-	defer chk.Release()
-
-	input := compute.NewDatum(chk)
-	defer input.Release()
-
-	filtChk, err := array.ChunkedFromJSON(f.mem, arrow.FixedWidthTypes.Boolean, filter)
-	f.Require().NoError(err)
-	defer filtChk.Release()
-
-	filtDatum := compute.NewDatum(filtChk)
-	defer filtDatum.Release()
-
-	out, err := compute.Filter(context.TODO(), input, filtDatum, *compute.DefaultFilterOptions())
-	if err != nil {
-		return nil, err
-	}
-	return out.(*compute.ChunkedDatum).Value, nil
-}
-
-func (f *FilterKernelWithChunked) assertFilter(dt arrow.DataType, values []string, filter string, expected []string) {
-	actual, err := f.filterWithArray(dt, values, filter)
-	f.Require().NoError(err)
-	defer actual.Release()
-
-	expectedResult, _ := array.ChunkedFromJSON(f.mem, dt, expected)
-	defer expectedResult.Release()
-	if !f.True(array.ChunkedEqual(expectedResult, actual)) {
-		var s strings.Builder
-		s.WriteString("expected: \n")
-		for _, c := range expectedResult.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		s.WriteString("actual: \n")
-		for _, c := range actual.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		f.T().Log(s.String())
-	}
-}
-
-func (f *FilterKernelWithChunked) assertChunkedFilter(dt arrow.DataType, values, filter, expected []string) {
-	actual, err := f.filterWithChunked(dt, values, filter)
-	f.Require().NoError(err)
-	defer actual.Release()
-
-	expectedResult, _ := array.ChunkedFromJSON(f.mem, dt, expected)
-	defer expectedResult.Release()
-	if !f.True(array.ChunkedEqual(expectedResult, actual)) {
-		var s strings.Builder
-		s.WriteString("expected: \n")
-		for _, c := range expectedResult.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		s.WriteString("actual: \n")
-		for _, c := range actual.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		f.T().Log(s.String())
-	}
-}
-
-func (f *FilterKernelWithChunked) TestFilterChunked() {
-	f.assertFilter(arrow.PrimitiveTypes.Int8, []string{`[]`}, `[]`, []string{})
-	f.assertChunkedFilter(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{`[]`}, []string{})
-
-	f.assertFilter(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[false, true, false]`, []string{`[8]`})
-	f.assertChunkedFilter(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[false]`, `[true, false]`}, []string{`[8]`})
-	f.assertChunkedFilter(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[false, true]`, `[false]`}, []string{`[8]`})
-
-	_, err := f.filterWithArray(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[false, true, false, true, true]`)
-	f.ErrorIs(err, arrow.ErrInvalid)
-	_, err = f.filterWithChunked(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[ false, true, false]`, `[true, true]`})
-	f.ErrorIs(err, arrow.ErrInvalid)
-}
-
-type FilterKernelWithTable struct {
-	FilterKernelTestSuite
-}
-
-func (f *FilterKernelWithTable) filterWithArray(sc *arrow.Schema, values []string, filter string, opts compute.FilterOptions) (arrow.Table, error) {
-	tbl, err := array.TableFromJSON(f.mem, sc, values)
-	if err != nil {
-		return nil, err
-	}
-	defer tbl.Release()
-
-	filterArr, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(filter))
-	defer filterArr.Release()
-
-	out, err := compute.Filter(context.TODO(), &compute.TableDatum{Value: tbl}, &compute.ArrayDatum{Value: filterArr.Data()}, opts)
-	if err != nil {
-		return nil, err
-	}
-	return out.(*compute.TableDatum).Value, nil
-}
-
-func (f *FilterKernelWithTable) filterWithChunked(sc *arrow.Schema, values, filter []string, opts compute.FilterOptions) (arrow.Table, error) {
-	tbl, err := array.TableFromJSON(f.mem, sc, values)
-	if err != nil {
-		return nil, err
-	}
-	defer tbl.Release()
-
-	filtChk, err := array.ChunkedFromJSON(f.mem, arrow.FixedWidthTypes.Boolean, filter)
-	f.Require().NoError(err)
-	defer filtChk.Release()
-
-	out, err := compute.Filter(context.TODO(), &compute.TableDatum{Value: tbl}, &compute.ChunkedDatum{Value: filtChk}, opts)
-	if err != nil {
-		return nil, err
-	}
-	return out.(*compute.TableDatum).Value, nil
-}
-
-func (f *FilterKernelWithTable) assertChunkedFilter(sc *arrow.Schema, tableJSON, filter []string, opts compute.FilterOptions, expTable []string) {
-	actual, err := f.filterWithChunked(sc, tableJSON, filter, opts)
-	f.Require().NoError(err)
-	defer actual.Release()
-
-	expected, err := array.TableFromJSON(f.mem, sc, expTable)
-	f.Require().NoError(err)
-	defer expected.Release()
-
-	f.Truef(array.TableEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
-}
-
-func (f *FilterKernelWithTable) assertFilter(sc *arrow.Schema, tableJSON []string, filter string, opts compute.FilterOptions, expectedTable []string) {
-	actual, err := f.filterWithArray(sc, tableJSON, filter, opts)
-	f.Require().NoError(err)
-	defer actual.Release()
-
-	expected, err := array.TableFromJSON(f.mem, sc, expectedTable)
-	f.Require().NoError(err)
-	defer expected.Release()
-
-	f.Truef(array.TableEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
-}
-
-func (f *FilterKernelWithTable) TestFilterTable() {
-	fields := []arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	}
-	sc := arrow.NewSchema(fields, nil)
-	tableJSON := []string{`[
-		{"a": null, "b": "yo"},
-		{"a": 1, "b": ""}
-	]`, `[
-		{"a": 2, "b": "hello"},
-		{"a": 4, "b": "eh"}
-	]`}
-
-	for _, opt := range []compute.FilterOptions{f.emitNulls, f.dropOpts} {
-		f.assertFilter(sc, tableJSON, `[false, false, false, false]`, opt, []string{})
-		f.assertChunkedFilter(sc, tableJSON, []string{`[false]`, `[false, false, false]`}, opt, []string{})
-		f.assertFilter(sc, tableJSON, `[true, true, true, true]`, opt, tableJSON)
-		f.assertChunkedFilter(sc, tableJSON, []string{`[true]`, `[true, true, true]`}, opt, tableJSON)
-	}
-
-	expectedEmitNull := []string{`[{"a": 1, "b": ""}]`, `[{"a": 2, "b": "hello"},{"a": null, "b": null}]`}
-	f.assertFilter(sc, tableJSON, `[false, true, true, null]`, f.emitNulls, expectedEmitNull)
-	f.assertChunkedFilter(sc, tableJSON, []string{`[false, true, true]`, `[null]`}, f.emitNulls, expectedEmitNull)
-
-	expectedDrop := []string{`[{"a": 1, "b": ""}]`, `[{"a": 2, "b": "hello"}]`}
-	f.assertFilter(sc, tableJSON, `[false, true, true, null]`, f.dropOpts, expectedDrop)
-	f.assertChunkedFilter(sc, tableJSON, []string{`[false, true, true]`, `[null]`}, f.dropOpts, expectedDrop)
-}
-
-type TakeKernelTestTyped struct {
-	TakeKernelTestSuite
-
-	dt arrow.DataType
-}
-
-func (tk *TakeKernelTestTyped) assertTake(values, indices, expected string) {
-	tk.checkTake(tk.dt, values, indices, expected)
-}
-
-type TakeKernelTestNumeric struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestNumeric) TestTakeNumeric() {
-	tk.Run(tk.dt.String(), func() {
-		tk.assertTake(`[7, 8, 9]`, `[]`, `[]`)
-		tk.assertTake(`[7, 8, 9]`, `[0, 1, 0]`, `[7, 8, 7]`)
-		tk.assertTake(`[null, 8, 9]`, `[0, 1, 0]`, `[null, 8, null]`)
-		tk.assertTake(`[7, 8, 9]`, `[null, 1, 0]`, `[null, 8, 7]`)
-		tk.assertTake(`[null, 8, 9]`, `[]`, `[]`)
-		tk.assertTake(`[7, 8, 9]`, `[0, 0, 0, 0, 0, 0, 2]`, `[7, 7, 7, 7, 7, 7, 9]`)
-
-		_, err := tk.takeJSON(tk.dt, `[7, 8, 9]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
-		tk.ErrorIs(err, arrow.ErrIndex)
-		_, err = tk.takeJSON(tk.dt, `[7, 8, 9]`, arrow.PrimitiveTypes.Int8, `[0, -1, 0]`)
-		tk.ErrorIs(err, arrow.ErrIndex)
-	})
-}
-
-type TakeKernelTestExtension struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestExtension) TestTakeExtension() {
-	tk.dt = types.NewSmallintType()
-	arrow.RegisterExtensionType(tk.dt.(arrow.ExtensionType))
-	defer arrow.UnregisterExtensionType("smallint")
-
-	tk.assertTake(`[7, 8, 9]`, `[]`, `[]`)
-	tk.assertTake(`[7, 8, 9]`, `[0, 1, 0]`, `[7, 8, 7]`)
-	tk.assertTake(`[null, 8, 9]`, `[0, 1, 0]`, `[null, 8, null]`)
-	tk.assertTake(`[7, 8, 9]`, `[null, 1, 0]`, `[null, 8, 7]`)
-	tk.assertTake(`[null, 8, 9]`, `[]`, `[]`)
-	tk.assertTake(`[7, 8, 9]`, `[0, 0, 0, 0, 0, 0, 2]`, `[7, 7, 7, 7, 7, 7, 9]`)
-
-	_, err := tk.takeJSON(tk.dt, `[7, 8, 9]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeJSON(tk.dt, `[7, 8, 9]`, arrow.PrimitiveTypes.Int8, `[0, -1, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-}
-
-type TakeKernelTestFSB struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestFSB) SetupSuite() {
-	tk.dt = &arrow.FixedSizeBinaryType{ByteWidth: 3}
-}
-
-func (tk *TakeKernelTestFSB) TestFixedSizeBinary() {
-	// YWFh == base64("aaa")
-	// YmJi == base64("bbb")
-	// Y2Nj == base64("ccc")
-	tk.assertTake(`["YWFh", "YmJi", "Y2Nj"]`, `[0, 1, 0]`, `["YWFh", "YmJi", "YWFh"]`)
-	tk.assertTake(`[null, "YmJi", "Y2Nj"]`, `[0, 1, 0]`, `[null, "YmJi", null]`)
-	tk.assertTake(`["YWFh", "YmJi", "Y2Nj"]`, `[null, 1, 0]`, `[null, "YmJi", "YWFh"]`)
-
-	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `["YWFh", "YmJi", "Y2Nj"]`, `[0, 1, 0]`)
-
-	_, err := tk.takeJSON(tk.dt, `["YWFh", "YmJi", "Y2Nj"]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeJSON(tk.dt, `["YWFh", "YmJi", "Y2Nj"]`, arrow.PrimitiveTypes.Int64, `[2, 5]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-}
-
-type TakeKernelTestString struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestString) TestTakeString() {
-	tk.Run(tk.dt.String(), func() {
-		// base64 encoded so the binary non-utf8 arrays work
-		// YQ== -> "a"
-		// Yg== -> "b"
-		// Yw== -> "c"
-		tk.assertTake(`["YQ==", "Yg==", "Yw=="]`, `[0, 1, 0]`, `["YQ==", "Yg==", "YQ=="]`)
-		tk.assertTake(`[null, "Yg==", "Yw=="]`, `[0, 1, 0]`, `[null, "Yg==", null]`)
-		tk.assertTake(`["YQ==", "Yg==", "Yw=="]`, `[null, 1, 0]`, `[null, "Yg==", "YQ=="]`)
-
-		tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `["YQ==", "Yg==", "Yw=="]`, `[0, 1, 0]`)
-
-		_, err := tk.takeJSON(tk.dt, `["YQ==", "Yg==", "Yw=="]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
-		tk.ErrorIs(err, arrow.ErrIndex)
-		_, err = tk.takeJSON(tk.dt, `["YQ==", "Yg==", "Yw=="]`, arrow.PrimitiveTypes.Int64, `[2, 5]`)
-		tk.ErrorIs(err, arrow.ErrIndex)
-	})
-}
-
-type TakeKernelLists struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelLists) TestListInt32() {
-	tk.dt = arrow.ListOf(arrow.PrimitiveTypes.Int32)
-
-	listJSON := `[[], [1, 2], null, [3]]`
-	tk.checkTake(tk.dt, listJSON, `[]`, `[]`)
-	tk.checkTake(tk.dt, listJSON, `[3, 2, 1]`, `[[3], null, [1,2]]`)
-	tk.checkTake(tk.dt, listJSON, `[null, 3, 0]`, `[null, [3], []]`)
-	tk.checkTake(tk.dt, listJSON, `[null, null]`, `[null, null]`)
-	tk.checkTake(tk.dt, listJSON, `[3, 0, 0, 3]`, `[[3], [], [], [3]]`)
-	tk.checkTake(tk.dt, listJSON, `[0, 1, 2, 3]`, listJSON)
-	tk.checkTake(tk.dt, listJSON, `[0, 0, 0, 0, 0, 0, 1]`, `[[], [], [], [], [], [], [1, 2]]`)
-
-	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `[[], [1, 2], [3]]`, `[0, 1, 0]`)
-}
-
-func (tk *TakeKernelLists) TestListListInt32() {
-	tk.dt = arrow.ListOf(arrow.ListOf(arrow.PrimitiveTypes.Int32))
-
-	listJSON := `[
-		[],
-		[[1], [2, null, 2], []],
-		null,
-		[[3, null], null]
-	]`
-	tk.checkTake(tk.dt, listJSON, `[]`, `[]`)
-	tk.checkTake(tk.dt, listJSON, `[3, 2, 1]`, `[
-		[[3, null], null],
-		null,
-		[[1], [2, null, 2], []]
-	]`)
-	tk.checkTake(tk.dt, listJSON, `[null, 3, 0]`, `[
-		null,
-		[[3, null], null],
-		[]
-	]`)
-	tk.checkTake(tk.dt, listJSON, `[null, null]`, `[null, null]`)
-	tk.checkTake(tk.dt, listJSON, `[3, 0, 0, 3]`, `[[[3, null], null], [], [], [[3, null], null]]`)
-	tk.checkTake(tk.dt, listJSON, `[0, 1, 2, 3]`, listJSON)
-	tk.checkTake(tk.dt, listJSON, `[0, 0, 0, 0, 0, 0, 1]`,
-		`[[], [], [], [], [], [], [[1], [2, null, 2], []]]`)
-
-	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `[[[1], [2, null, 2], []], [[3, null]]]`, `[0, 1, 0]`)
-}
-
-func (tk *TakeKernelLists) TestLargeListInt32() {
-	tk.dt = arrow.LargeListOf(arrow.PrimitiveTypes.Int32)
-	listJSON := `[[], [1, 2], null, [3]]`
-	tk.checkTake(tk.dt, listJSON, `[]`, `[]`)
-	tk.checkTake(tk.dt, listJSON, `[null, 1, 2, 0]`, `[null, [1, 2], null, []]`)
-}
-
-func (tk *TakeKernelLists) TestFixedSizeListInt32() {
-	tk.dt = arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int32)
-	listJSON := `[null, [1, null, 3], [4, 5, 6], [7, 8, null]]`
-	tk.checkTake(tk.dt, listJSON, `[]`, `[]`)
-	tk.checkTake(tk.dt, listJSON, `[3, 2, 1]`, `[[7, 8, null], [4, 5, 6], [1, null, 3]]`)
-	tk.checkTake(tk.dt, listJSON, `[null, 2, 0]`, `[null, [4, 5, 6], null]`)
-	tk.checkTake(tk.dt, listJSON, `[null, null]`, `[null, null]`)
-	tk.checkTake(tk.dt, listJSON, `[3, 0, 0, 3]`, `[[7, 8, null], null, null, [7, 8, null]]`)
-	tk.checkTake(tk.dt, listJSON, `[0, 1, 2, 3]`, listJSON)
-	tk.checkTake(tk.dt, listJSON, `[2, 2, 2, 2, 2, 2, 1]`,
-		`[[4, 5, 6], [4, 5, 6], [4, 5, 6], [4, 5, 6], [4, 5, 6], [4, 5, 6], [1, null, 3]]`)
-
-	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `[[1, null, 3], [4, 5, 6], [7, 8, null]]`, `[0, 1, 0]`)
-}
-
-type TakeKernelDenseUnion struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelDenseUnion) TestTakeUnion() {
-	tk.dt = arrow.DenseUnionOf([]arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	}, []arrow.UnionTypeCode{2, 5})
-
-	unionJSON := `[
-		[2, null],
-		[2, 222],
-		[5, "hello"],
-		[5, "eh"],
-		[2, null],
-		[2, 111],
-		[5, null]
-	]`
-	tk.checkTake(tk.dt, unionJSON, `[]`, `[]`)
-	tk.checkTake(tk.dt, unionJSON, `[3, 1, 3, 1, 3]`, `[
-		[5, "eh"],
-		[2, 222],
-		[5, "eh"],
-		[2, 222],
-		[5, "eh"]
-	]`)
-	tk.checkTake(tk.dt, unionJSON, `[4, 2, 1, 6]`, `[
-		[2, null],
-		[5, "hello"],
-		[2, 222],
-		[5, null]
-	]`)
-	tk.checkTake(tk.dt, unionJSON, `[0, 1, 2, 3, 4, 5, 6]`, unionJSON)
-	tk.checkTake(tk.dt, unionJSON, `[0, 2, 2, 2, 2, 2, 2]`, `[
-		[2, null],
-		[5, "hello"],
-		[5, "hello"],
-		[5, "hello"],
-		[5, "hello"],
-		[5, "hello"],
-		[5, "hello"]
-	]`)
-}
-
-type TakeKernelStruct struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelStruct) TestStruct() {
-	tk.dt = arrow.StructOf(arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true})
-
-	structJSON := `[
-		null,
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"},
-		{"a": 4, "b": "eh"}
-	]`
-
-	tk.checkTake(tk.dt, structJSON, `[]`, `[]`)
-	tk.checkTake(tk.dt, structJSON, `[3, 1, 3, 1, 3]`, `[
-		{"a": 4, "b": "eh"},
-		{"a": 1, "b": ""},
-		{"a": 4, "b": "eh"},
-		{"a": 1, "b": ""},
-		{"a": 4, "b": "eh"}
-	]`)
-	tk.checkTake(tk.dt, structJSON, `[3, 1, 0]`, `[
-		{"a": 4, "b": "eh"},
-		{"a": 1, "b": ""},
-		null
-	]`)
-	tk.checkTake(tk.dt, structJSON, `[0, 1, 2, 3]`, structJSON)
-	tk.checkTake(tk.dt, structJSON, `[0, 2, 2, 2, 2, 2, 2]`, `[
-		null,
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"}
-	]`)
-
-	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `[{"a": 1}, {"a": 2, "b": "hello"}]`, `[0, 1, 0]`)
-}
-
-type TakeKernelTestChunked struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestChunked) assertTake(dt arrow.DataType, values []string, indices string, expected []string) {
-	actual, err := tk.takeWithArray(dt, values, indices)
-	tk.Require().NoError(err)
-	defer actual.Release()
-
-	exp, err := array.ChunkedFromJSON(tk.mem, dt, expected)
-	tk.Require().NoError(err)
-	defer exp.Release()
-
-	if !tk.True(array.ChunkedEqual(exp, actual)) {
-		var s strings.Builder
-		s.WriteString("expected: \n")
-		for _, c := range exp.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		s.WriteString("actual: \n")
-		for _, c := range actual.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		tk.T().Log(s.String())
-	}
-}
-
-func (tk *TakeKernelTestChunked) assertChunkedTake(dt arrow.DataType, values, indices, expected []string) {
-	actual, err := tk.takeWithChunked(dt, values, indices)
-	tk.Require().NoError(err)
-	defer actual.Release()
-
-	exp, err := array.ChunkedFromJSON(tk.mem, dt, expected)
-	tk.Require().NoError(err)
-	defer exp.Release()
-
-	if !tk.True(array.ChunkedEqual(exp, actual)) {
-		var s strings.Builder
-		s.WriteString("expected: \n")
-		for _, c := range exp.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		s.WriteString("actual: \n")
-		for _, c := range actual.Chunks() {
-			fmt.Fprintf(&s, "%s\n", c)
-		}
-		tk.T().Log(s.String())
-	}
-}
-
-func (tk *TakeKernelTestChunked) takeWithArray(dt arrow.DataType, values []string, indices string) (*arrow.Chunked, error) {
-	chunked, err := array.ChunkedFromJSON(tk.mem, dt, values)
-	tk.Require().NoError(err)
-	defer chunked.Release()
-
-	indicesArr, _, err := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(indices))
-	tk.Require().NoError(err)
-	defer indicesArr.Release()
-
-	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(), &compute.ChunkedDatum{chunked}, &compute.ArrayDatum{indicesArr.Data()})
-	if err != nil {
-		return nil, err
-	}
-	return result.(*compute.ChunkedDatum).Value, nil
-
-}
-
-func (tk *TakeKernelTestChunked) takeWithChunked(dt arrow.DataType, values, indices []string) (*arrow.Chunked, error) {
-	chunked, err := array.ChunkedFromJSON(tk.mem, dt, values)
-	tk.Require().NoError(err)
-	defer chunked.Release()
-
-	chunkedIndices, err := array.ChunkedFromJSON(tk.mem, arrow.PrimitiveTypes.Int8, indices)
-	tk.Require().NoError(err)
-	defer chunkedIndices.Release()
-
-	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(), &compute.ChunkedDatum{chunked}, &compute.ChunkedDatum{chunkedIndices})
-	if err != nil {
-		return nil, err
-	}
-	return result.(*compute.ChunkedDatum).Value, nil
-}
-
-func (tk *TakeKernelTestChunked) TestChunkedArray() {
-	tk.assertTake(arrow.PrimitiveTypes.Int8, []string{`[]`}, `[]`, []string{`[]`})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{}, []string{}, []string{})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{}, []string{`[]`}, []string{`[]`})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{}, []string{`[null]`}, []string{`[null]`})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{}, []string{})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{`[]`}, []string{`[]`})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{`[null]`}, []string{`[null]`})
-
-	tk.assertTake(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[0, 1, 0, 2]`, []string{`[7, 8, 7, 9]`})
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[0, 1, 0]`, `[]`, `[2]`}, []string{`[7, 8, 7]`, `[]`, `[9]`})
-	tk.assertTake(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[2, 1]`, []string{`[9, 8]`})
-
-	tk.assertChunkedTake(arrow.FixedWidthTypes.Boolean, []string{`[true]`, `[false, true]`}, []string{`[0, 1, 0]`, `[]`, `[2]`},
-		[]string{`[true, false, true]`, `[]`, `[true]`})
-
-	tk.assertChunkedTake(arrow.PrimitiveTypes.Int32,
-		[]string{`[7, null]`, `[8, 9, 10]`, `[21, null, 42]`}, []string{`[2, 1]`, `[7, 6, 6, 4]`},
-		[]string{`[8, null]`, `[42, null, null, 10]`})
-
-	tk.assertChunkedTake(arrow.BinaryTypes.String,
-		[]string{`["hello", "world", null]`, `["foo", "bar", "baz"]`},
-		[]string{`[3]`, `[null, 2]`, `[0, 1]`, `[4, 5]`},
-		[]string{`["foo"]`, `[null, null]`, `["hello", "world"]`, `["bar", "baz"]`})
-
-	_, err := tk.takeWithArray(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[0, 5]`)
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeWithChunked(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[0, 1, 0]`, `[5, 1]`})
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeWithChunked(arrow.PrimitiveTypes.Int8, []string{}, []string{`[0]`})
-	tk.ErrorIs(err, arrow.ErrIndex)
-	_, err = tk.takeWithChunked(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{`[0]`})
-	tk.ErrorIs(err, arrow.ErrIndex)
-}
-
-type TakeKernelTestRecord struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestRecord) takeJSON(schm *arrow.Schema, batchJSON string, indexType arrow.DataType, indices string) (arrow.Record, error) {
-	batch, _, err := array.RecordFromJSON(tk.mem, schm, strings.NewReader(batchJSON))
-	tk.Require().NoError(err)
-	defer batch.Release()
-	indexArr, _, err := array.FromJSON(tk.mem, indexType, strings.NewReader(indices))
-	tk.Require().NoError(err)
-	defer indexArr.Release()
-	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(),
-		&compute.RecordDatum{Value: batch}, &compute.ArrayDatum{Value: indexArr.Data()})
-	if err != nil {
-		return nil, err
-	}
-	return result.(*compute.RecordDatum).Value, nil
-}
-
-func (tk *TakeKernelTestRecord) assertTake(schm *arrow.Schema, batchJSON, indices, exp string) {
-	expected, _, err := array.RecordFromJSON(tk.mem, schm, strings.NewReader(exp))
-	tk.Require().NoError(err)
-	defer expected.Release()
-
-	for _, idxType := range []arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint32} {
-		result, err := tk.takeJSON(schm, batchJSON, idxType, indices)
-		tk.NoError(err)
-		defer result.Release()
-		tk.Truef(array.RecordEqual(expected, result), "expected: %s\ngot: %s", expected, result)
-	}
-}
-
-func (tk *TakeKernelTestRecord) TestTakeRecordBatch() {
-	fields := []arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	}
-
-	schm := arrow.NewSchema(fields, nil)
-	batchJSON := `[
-		{"a": null, "b": "yo"},
-		{"a": 1, "b": ""},
-		{"a": 2, "b": "hello"},
-		{"a": 4, "b": "eh"}
-	]`
-
-	tk.assertTake(schm, batchJSON, `[]`, `[]`)
-	tk.assertTake(schm, batchJSON, `[3, 1, 3, 1, 3]`, `[
-		{"a": 4, "b": "eh"},
-		{"a": 1, "b": ""},
-		{"a": 4, "b": "eh"},
-		{"a": 1, "b": ""},
-		{"a": 4, "b": "eh"}
-	]`)
-	tk.assertTake(schm, batchJSON, `[3, 1, 0]`, `[
-		{"a": 4, "b": "eh"},
-		{"a": 1, "b": ""},
-		{"a": null, "b": "yo"}
-	]`)
-	tk.assertTake(schm, batchJSON, `[0, 1, 2, 3]`, batchJSON)
-	tk.assertTake(schm, batchJSON, `[0, 2, 2, 2, 2, 2, 2]`, `[
-		{"a": null, "b": "yo"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"},
-		{"a": 2, "b": "hello"}
-	]`)
-}
-
-type TakeKernelTestTable struct {
-	TakeKernelTestTyped
-}
-
-func (tk *TakeKernelTestTable) assertTake(schm *arrow.Schema, tableJSON []string, filter string, exptable []string) {
-	tbl, err := tk.takeWithArray(schm, tableJSON, filter)
-	tk.Require().NoError(err)
-	defer tbl.Release()
-
-	exptbl, err := array.TableFromJSON(tk.mem, schm, exptable)
-	tk.Require().NoError(err)
-	defer exptbl.Release()
-
-	tk.Truef(array.TableEqual(exptbl, tbl), "expected: %s\ngot: %s", exptbl, tbl)
-}
-
-func (tk *TakeKernelTestTable) assertChunkedTake(schm *arrow.Schema, tableJSON, filter, expTable []string) {
-	tbl, err := tk.takeWithChunked(schm, tableJSON, filter)
-	tk.Require().NoError(err)
-	defer tbl.Release()
-
-	exptbl, err := array.TableFromJSON(tk.mem, schm, expTable)
-	tk.Require().NoError(err)
-	defer exptbl.Release()
-
-	tk.Truef(array.TableEqual(exptbl, tbl), "expected: %s\ngot: %s", exptbl, tbl)
-}
-
-func (tk *TakeKernelTestTable) takeWithArray(schm *arrow.Schema, values []string, indices string) (arrow.Table, error) {
-	tbl, err := array.TableFromJSON(tk.mem, schm, values)
-	tk.NoError(err)
-	defer tbl.Release()
-
-	indicesArr, _, err := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(indices))
-	tk.NoError(err)
-	defer indicesArr.Release()
-
-	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(), &compute.TableDatum{Value: tbl},
-		&compute.ArrayDatum{Value: indicesArr.Data()})
-	if err != nil {
-		return nil, err
-	}
-	return result.(*compute.TableDatum).Value, nil
-}
-
-func (tk *TakeKernelTestTable) takeWithChunked(schm *arrow.Schema, values, indices []string) (arrow.Table, error) {
-	tbl, err := array.TableFromJSON(tk.mem, schm, values)
-	tk.NoError(err)
-	defer tbl.Release()
-
-	chunkedIndices, err := array.ChunkedFromJSON(tk.mem, arrow.PrimitiveTypes.Int8, indices)
-	tk.NoError(err)
-	defer chunkedIndices.Release()
-
-	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(), &compute.TableDatum{Value: tbl},
-		&compute.ChunkedDatum{Value: chunkedIndices})
-	if err != nil {
-		return nil, err
-	}
-	return result.(*compute.TableDatum).Value, nil
-}
-
-func (tk *TakeKernelTestTable) TestTakeTable() {
-	fields := []arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	}
-	schm := arrow.NewSchema(fields, nil)
-
-	tblJSON := []string{
-		`[{"a": null, "b": "yo"}, {"a": 1, "b": ""}]`,
-		`[{"a": 2, "b": "hello"}, {"a": 4, "b": "eh"}]`}
-
-	tk.assertTake(schm, tblJSON, `[]`, []string{`[]`})
-	expected310 := []string{
-		`[{"a": 4, "b": "eh"}, {"a": 1, "b": ""}, {"a": null, "b": "yo"}]`}
-
-	tk.assertTake(schm, tblJSON, `[3, 1, 0]`, expected310)
-	tk.assertChunkedTake(schm, tblJSON, []string{`[0, 1]`, `[2, 3]`}, tblJSON)
-}
-
-func TestTakeKernels(t *testing.T) {
-	suite.Run(t, new(TakeKernelTest))
-	for _, dt := range numericTypes {
-		suite.Run(t, &TakeKernelTestNumeric{TakeKernelTestTyped: TakeKernelTestTyped{dt: dt}})
-	}
-	suite.Run(t, new(TakeKernelTestFSB))
-	for _, dt := range baseBinaryTypes {
-		suite.Run(t, &TakeKernelTestString{TakeKernelTestTyped: TakeKernelTestTyped{dt: dt}})
-	}
-	suite.Run(t, new(TakeKernelLists))
-	suite.Run(t, new(TakeKernelDenseUnion))
-	suite.Run(t, new(TakeKernelTestExtension))
-	suite.Run(t, new(TakeKernelStruct))
-	suite.Run(t, new(TakeKernelTestRecord))
-	suite.Run(t, new(TakeKernelTestChunked))
-	suite.Run(t, new(TakeKernelTestTable))
-}
-
-func TestFilterKernels(t *testing.T) {
-	suite.Run(t, new(FilterKernelWithNull))
-	suite.Run(t, new(FilterKernelWithBoolean))
-	for _, dt := range numericTypes {
-		suite.Run(t, &FilterKernelNumeric{dt: dt})
-	}
-	for _, dt := range []arrow.DataType{&arrow.Decimal128Type{Precision: 3, Scale: 2}, &arrow.Decimal256Type{Precision: 3, Scale: 2}} {
-		suite.Run(t, &FilterKernelWithDecimal{dt: dt})
-	}
-	for _, dt := range baseBinaryTypes {
-		suite.Run(t, &FilterKernelWithString{dt: dt})
-	}
-	suite.Run(t, new(FilterKernelWithList))
-	suite.Run(t, new(FilterKernelWithUnion))
-	suite.Run(t, new(FilterKernelExtension))
-	suite.Run(t, new(FilterKernelWithStruct))
-	suite.Run(t, new(FilterKernelWithRecordBatch))
-	suite.Run(t, new(FilterKernelWithChunked))
-	suite.Run(t, new(FilterKernelWithTable))
-}
diff --git a/go/arrow/csv/common.go b/go/arrow/csv/common.go
deleted file mode 100644
index ed254ae35b353..0000000000000
--- a/go/arrow/csv/common.go
+++ /dev/null
@@ -1,269 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package csv reads CSV files and presents the extracted data as records, also
-// writes data as record into CSV files
-package csv
-
-import (
-	"errors"
-	"fmt"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-var (
-	ErrMismatchFields = errors.New("arrow/csv: number of records mismatch")
-)
-
-// Option configures a CSV reader/writer.
-type Option func(config)
-type config interface{}
-
-// WithComma specifies the fields separation character used while parsing CSV files.
-func WithComma(c rune) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.r.Comma = c
-		case *Writer:
-			cfg.w.Comma = c
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithComment specifies the comment character used while parsing CSV files.
-func WithComment(c rune) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.r.Comment = c
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithAllocator specifies the Arrow memory allocator used while building records.
-func WithAllocator(mem memory.Allocator) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.mem = mem
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithChunk specifies the chunk size used while parsing CSV files.
-//
-// If n is zero or 1, no chunking will take place and the reader will create
-// one record per row.
-// If n is greater than 1, chunks of n rows will be read.
-// If n is negative, the reader will load the whole CSV file into memory and
-// create one big record with all the rows.
-func WithChunk(n int) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.chunk = n
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithCRLF specifies the line terminator used while writing CSV files.
-// If useCRLF is true, \r\n is used as the line terminator, otherwise \n is used.
-// The default value is false.
-func WithCRLF(useCRLF bool) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Writer:
-			cfg.w.UseCRLF = useCRLF
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithHeader enables or disables CSV-header handling.
-func WithHeader(useHeader bool) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.header = useHeader
-		case *Writer:
-			cfg.header = useHeader
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithLazyQuotes sets csv parsing option to LazyQuotes
-func WithLazyQuotes(useLazyQuotes bool) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.r.LazyQuotes = useLazyQuotes
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// DefaultNullValues is the set of values considered as NULL values by default
-// when Reader is configured to handle NULL values.
-var DefaultNullValues = []string{"", "NULL", "null"}
-
-// WithNullReader sets options for a CSV Reader pertaining to NULL value
-// handling. If stringsCanBeNull is true, then a string that matches one of the
-// nullValues set will be interpreted as NULL. Numeric columns will be checked
-// for nulls in all cases. If no nullValues arguments are passed in, the
-// defaults set in NewReader() will be kept.
-//
-// When no NULL values is given, the default set is taken from DefaultNullValues.
-func WithNullReader(stringsCanBeNull bool, nullValues ...string) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			cfg.stringsCanBeNull = stringsCanBeNull
-
-			if len(nullValues) == 0 {
-				nullValues = DefaultNullValues
-			}
-			cfg.nulls = make([]string, len(nullValues))
-			copy(cfg.nulls, nullValues)
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithNullWriter sets the null string written for NULL values. The default is
-// set in NewWriter().
-func WithNullWriter(null string) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Writer:
-			cfg.nullValue = null
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithBoolWriter override the default bool formatter with a function that returns
-// a string representation of bool states. i.e. True, False, 1, 0
-func WithBoolWriter(fmtr func(bool) string) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Writer:
-			if fmtr != nil {
-				cfg.boolFormatter = fmtr
-			}
-		default:
-			panic(fmt.Errorf("arrow/csv: WithBoolWriter unknown config type %T", cfg))
-		}
-	}
-}
-
-// WithColumnTypes allows specifying optional per-column types (disabling
-// type inference on those columns).
-//
-// Will panic if used in conjunction with an explicit schema.
-func WithColumnTypes(types map[string]arrow.DataType) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			if cfg.schema != nil {
-				panic(fmt.Errorf("%w: cannot use WithColumnTypes with explicit schema", arrow.ErrInvalid))
-			}
-			cfg.columnTypes = types
-		default:
-			panic(fmt.Errorf("%w: WithColumnTypes only allowed for csv reader", arrow.ErrInvalid))
-		}
-	}
-}
-
-// WithIncludeColumns indicates the names of the columns from the CSV file
-// that should actually be read and converted (in the slice's order).
-// If set and non-empty, columns not in this slice will be ignored.
-//
-// Will panic if used in conjunction with an explicit schema.
-func WithIncludeColumns(cols []string) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Reader:
-			if cfg.schema != nil {
-				panic(fmt.Errorf("%w: cannot use WithIncludeColumns with explicit schema", arrow.ErrInvalid))
-			}
-			cfg.columnFilter = cols
-		default:
-			panic(fmt.Errorf("%w: WithIncludeColumns only allowed on csv Reader", arrow.ErrInvalid))
-		}
-	}
-}
-
-// WithStringsReplacer receives a replacer to be applied in the string fields
-// of the CSV. This is useful to remove unwanted characters from the string.
-func WithStringsReplacer(replacer *strings.Replacer) Option {
-	return func(cfg config) {
-		switch cfg := cfg.(type) {
-		case *Writer:
-			cfg.stringReplacer = replacer.Replace
-		default:
-			panic(fmt.Errorf("arrow/csv: unknown config type %T", cfg))
-		}
-	}
-}
-
-func validate(schema *arrow.Schema) {
-	for i, f := range schema.Fields() {
-		if !typeSupported(f.Type) {
-			panic(fmt.Errorf("arrow/csv: field %d (%s) has invalid data type %T", i, f.Name, f.Type))
-		}
-	}
-}
-
-func typeSupported(dt arrow.DataType) bool {
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-	case *arrow.Int8Type, *arrow.Int16Type, *arrow.Int32Type, *arrow.Int64Type:
-	case *arrow.Uint8Type, *arrow.Uint16Type, *arrow.Uint32Type, *arrow.Uint64Type:
-	case *arrow.Float16Type, *arrow.Float32Type, *arrow.Float64Type:
-	case *arrow.StringType, *arrow.LargeStringType:
-	case *arrow.TimestampType:
-	case *arrow.Date32Type, *arrow.Date64Type:
-	case *arrow.Decimal128Type, *arrow.Decimal256Type:
-	case *arrow.MapType:
-		return false
-	case arrow.ListLikeType:
-		return typeSupported(dt.Elem())
-	case *arrow.BinaryType, *arrow.LargeBinaryType, *arrow.FixedSizeBinaryType:
-	case arrow.ExtensionType:
-	case *arrow.NullType:
-	default:
-		return false
-	}
-	return true
-}
diff --git a/go/arrow/csv/reader.go b/go/arrow/csv/reader.go
deleted file mode 100644
index 12d607b26c48d..0000000000000
--- a/go/arrow/csv/reader.go
+++ /dev/null
@@ -1,1030 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package csv
-
-import (
-	"encoding/base64"
-	"encoding/csv"
-	"errors"
-	"fmt"
-	"io"
-	"strconv"
-	"strings"
-	"sync"
-	"sync/atomic"
-	"time"
-	"unicode/utf8"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// Reader wraps encoding/csv.Reader and creates array.Records from a schema.
-type Reader struct {
-	r      *csv.Reader
-	schema *arrow.Schema
-
-	refs int64
-	bld  *array.RecordBuilder
-	cur  arrow.Record
-	err  error
-
-	chunk int
-	done  bool
-	next  func() bool
-
-	mem memory.Allocator
-
-	header bool
-	once   sync.Once
-
-	fieldConverter []func(val string)
-	columnFilter   []string
-	columnTypes    map[string]arrow.DataType
-	conversions    []conversionColumn
-
-	stringsCanBeNull bool
-	nulls            []string
-}
-
-// NewInferringReader creates a CSV reader that attempts to infer the types
-// and column names from the data in the first row of the CSV file.
-//
-// This can be further customized using the WithColumnTypes and
-// WithIncludeColumns options.
-// For BinaryType the reader will use base64 decoding with padding as per base64.StdDecoding.
-func NewInferringReader(r io.Reader, opts ...Option) *Reader {
-	rr := &Reader{
-		r:                csv.NewReader(r),
-		refs:             1,
-		chunk:            1,
-		stringsCanBeNull: false,
-	}
-	rr.r.ReuseRecord = true
-	for _, opt := range opts {
-		opt(rr)
-	}
-
-	if rr.mem == nil {
-		rr.mem = memory.DefaultAllocator
-	}
-
-	switch {
-	case rr.chunk < 0:
-		rr.next = rr.nextall
-	case rr.chunk > 1:
-		rr.next = rr.nextn
-	default:
-		rr.next = rr.next1
-	}
-
-	return rr
-}
-
-// NewReader returns a reader that reads from the CSV file and creates
-// arrow.Records from the given schema.
-//
-// NewReader panics if the given schema contains fields that have types that are not
-// primitive types.
-func NewReader(r io.Reader, schema *arrow.Schema, opts ...Option) *Reader {
-	validate(schema)
-
-	rr := &Reader{
-		r:                csv.NewReader(r),
-		schema:           schema,
-		refs:             1,
-		chunk:            1,
-		stringsCanBeNull: false,
-	}
-	rr.r.ReuseRecord = true
-	for _, opt := range opts {
-		opt(rr)
-	}
-
-	if rr.mem == nil {
-		rr.mem = memory.DefaultAllocator
-	}
-
-	rr.bld = array.NewRecordBuilder(rr.mem, rr.schema)
-
-	switch {
-	case rr.chunk < 0:
-		rr.next = rr.nextall
-	case rr.chunk > 1:
-		rr.next = rr.nextn
-	default:
-		rr.next = rr.next1
-	}
-
-	return rr
-}
-
-func (r *Reader) readHeader() error {
-	// if we have an explicit schema and we want to skip the header
-	// then just return and do everything normally
-	if r.schema != nil && !r.header {
-		return nil
-	}
-
-	// either we need this first line for the header line
-	// or we are going to need this line to infer types
-	records, err := r.r.Read()
-	if err != nil {
-		return fmt.Errorf("arrow/csv: could not read header from file: %w", err)
-	}
-
-	// if we have an explicit schema, then r.header must be true otherwise
-	// we would have skipped this via the first line of this func
-	if r.schema != nil {
-		if len(records) != len(r.schema.Fields()) {
-			return ErrMismatchFields
-		}
-
-		fields := make([]arrow.Field, len(records))
-		for idx, name := range records {
-			fields[idx] = r.schema.Field(idx)
-			fields[idx].Name = name
-		}
-
-		meta := r.schema.Metadata()
-		r.schema = arrow.NewSchema(fields, &meta)
-		r.bld = array.NewRecordBuilder(r.mem, r.schema)
-		return nil
-	}
-
-	// we're going to need to infer some column types
-	r.conversions = make([]conversionColumn, 0, len(records))
-	if len(r.columnFilter) == 0 {
-		for i, rec := range records {
-			// if we are skipping the header, autogenerate field names
-			// using "f<n>" e.g. f0, f1, ....
-			if !r.header {
-				rec = fmt.Sprintf("f%d", i)
-			}
-			var dt arrow.DataType
-			if len(r.columnTypes) > 0 {
-				dt = r.columnTypes[rec]
-			}
-			r.conversions = append(r.conversions, conversionColumn{name: rec, index: i, typ: dt})
-		}
-	} else {
-		// include columns from columnFilter (in that order)
-		// compute the indices of columns in the csv file
-		colIndices := make(map[string]int)
-		for i, n := range records {
-			// if we are skipping the header, autogenerate field names
-			// using "f<n>" e.g. f0, f1, ....
-			if !r.header {
-				n = fmt.Sprintf("f%d", i)
-			}
-			colIndices[n] = i
-		}
-
-		for _, n := range r.columnFilter {
-			idx, ok := colIndices[n]
-			if !ok {
-				return fmt.Errorf("%w: column '%s' in included columns, but doesn't exist in CSV file",
-					ErrMismatchFields, n)
-			}
-			var dt arrow.DataType
-			if len(r.columnTypes) > 0 {
-				dt = r.columnTypes[n]
-			}
-			r.conversions = append(r.conversions, conversionColumn{name: n, index: idx, typ: dt})
-		}
-		r.columnFilter = nil
-	}
-	r.columnTypes = nil
-	return nil
-}
-
-// Err returns the last error encountered during the iteration over the
-// underlying CSV file.
-func (r *Reader) Err() error { return r.err }
-
-func (r *Reader) Schema() *arrow.Schema { return r.schema }
-
-// Record returns the current record that has been extracted from the
-// underlying CSV file.
-// It is valid until the next call to Next.
-func (r *Reader) Record() arrow.Record { return r.cur }
-
-// Next returns whether a Record could be extracted from the underlying CSV file.
-//
-// Next panics if the number of records extracted from a CSV row does not match
-// the number of fields of the associated schema. If a parse failure occurs, Next
-// will return true and the Record will contain nulls where failures occurred.
-// Subsequent calls to Next will return false - The user should check Err() after
-// each call to Next to check if an error took place.
-func (r *Reader) Next() bool {
-	r.once.Do(func() {
-		r.err = r.readHeader()
-		if r.err == nil && r.schema != nil {
-			// Create a table of functions that will parse columns. This optimization
-			// allows us to specialize the implementation of each column's decoding
-			// and hoist type-based branches outside the inner loop.
-			r.fieldConverter = make([]func(string), len(r.schema.Fields()))
-			for idx := range r.schema.Fields() {
-				r.fieldConverter[idx] = r.initFieldConverter(r.bld.Field(idx))
-			}
-		}
-	})
-
-	if r.cur != nil {
-		r.cur.Release()
-		r.cur = nil
-	}
-
-	if r.err != nil || r.done {
-		return false
-	}
-
-	return r.next()
-}
-
-// next1 reads one row from the CSV file and creates a single Record
-// from that row.
-func (r *Reader) next1() bool {
-	var recs []string
-	recs, r.err = r.r.Read()
-	if r.err != nil {
-		r.done = true
-		if errors.Is(r.err, io.EOF) {
-			r.err = nil
-		}
-		return false
-	}
-
-	r.validate(recs)
-	r.read(recs)
-	r.cur = r.bld.NewRecord()
-
-	return true
-}
-
-// nextall reads the whole CSV file into memory and creates one single
-// Record from all the CSV rows.
-func (r *Reader) nextall() bool {
-	defer func() {
-		r.done = true
-	}()
-
-	var (
-		recs [][]string
-	)
-
-	recs, r.err = r.r.ReadAll()
-	if r.err != nil {
-		return false
-	}
-
-	for _, rec := range recs {
-		r.validate(rec)
-		r.read(rec)
-	}
-	r.cur = r.bld.NewRecord()
-
-	return true
-}
-
-// nextn reads n rows from the CSV file, where n is the chunk size, and creates
-// a Record from these rows.
-func (r *Reader) nextn() bool {
-	var (
-		recs []string
-		n    = 0
-		err  error
-	)
-
-	for i := 0; i < r.chunk && !r.done; i++ {
-		recs, err = r.r.Read()
-		if err != nil {
-			if !errors.Is(err, io.EOF) {
-				r.err = err
-			}
-			r.done = true
-			break
-		}
-
-		r.validate(recs)
-		r.read(recs)
-		n++
-	}
-
-	if r.err != nil {
-		r.done = true
-	}
-
-	r.cur = r.bld.NewRecord()
-	return n > 0
-}
-
-func (r *Reader) validate(recs []string) {
-	if r.err != nil {
-		return
-	}
-
-	if r.bld == nil {
-		// initialize the record builder in the case where we're inferring a schema
-		r.fieldConverter = make([]func(val string), len(recs))
-		fieldList := make([]arrow.Field, len(r.conversions))
-		for idx, cc := range r.conversions {
-			fieldList[idx].Name = cc.name
-			fieldList[idx].Nullable = true
-			fieldList[idx].Type = cc.inferType(recs[cc.index])
-		}
-
-		r.schema = arrow.NewSchema(fieldList, nil)
-		r.bld = array.NewRecordBuilder(r.mem, r.schema)
-		for idx, cc := range r.conversions {
-			r.fieldConverter[cc.index] = r.initFieldConverter(r.bld.Field(idx))
-		}
-		for idx, fc := range r.fieldConverter {
-			if fc == nil {
-				r.fieldConverter[idx] = func(string) {}
-			}
-		}
-	}
-
-	if len(recs) != len(r.fieldConverter) {
-		r.err = ErrMismatchFields
-		return
-	}
-}
-
-func (r *Reader) isNull(val string) bool {
-	for _, v := range r.nulls {
-		if v == val {
-			return true
-		}
-	}
-	return false
-}
-
-func (r *Reader) read(recs []string) {
-	for i, str := range recs {
-		r.fieldConverter[i](str)
-	}
-}
-
-func (r *Reader) initFieldConverter(bldr array.Builder) func(string) {
-	switch dt := bldr.Type().(type) {
-	case *arrow.BooleanType:
-		return func(str string) {
-			r.parseBool(bldr, str)
-		}
-	case *arrow.Int8Type:
-		return func(str string) {
-			r.parseInt8(bldr, str)
-		}
-	case *arrow.Int16Type:
-		return func(str string) {
-			r.parseInt16(bldr, str)
-		}
-	case *arrow.Int32Type:
-		return func(str string) {
-			r.parseInt32(bldr, str)
-		}
-	case *arrow.Int64Type:
-		return func(str string) {
-			r.parseInt64(bldr, str)
-		}
-	case *arrow.Uint8Type:
-		return func(str string) {
-			r.parseUint8(bldr, str)
-		}
-	case *arrow.Uint16Type:
-		return func(str string) {
-			r.parseUint16(bldr, str)
-		}
-	case *arrow.Uint32Type:
-		return func(str string) {
-			r.parseUint32(bldr, str)
-		}
-	case *arrow.Uint64Type:
-		return func(str string) {
-			r.parseUint64(bldr, str)
-		}
-	case *arrow.Float16Type:
-		return func(str string) {
-			r.parseFloat16(bldr, str)
-		}
-	case *arrow.Float32Type:
-		return func(str string) {
-			r.parseFloat32(bldr, str)
-		}
-	case *arrow.Float64Type:
-		return func(str string) {
-			r.parseFloat64(bldr, str)
-		}
-	case *arrow.StringType:
-		// specialize the implementation when we know we cannot have nulls
-		if r.stringsCanBeNull {
-			return func(str string) {
-				if r.isNull(str) {
-					bldr.AppendNull()
-				} else {
-					bldr.(*array.StringBuilder).Append(str)
-				}
-			}
-		} else {
-			return func(str string) {
-				bldr.(*array.StringBuilder).Append(str)
-			}
-		}
-	case *arrow.LargeStringType:
-		// specialize the implementation when we know we cannot have nulls
-		if r.stringsCanBeNull {
-			return func(str string) {
-				if r.isNull(str) {
-					bldr.AppendNull()
-				} else {
-					bldr.(*array.LargeStringBuilder).Append(str)
-				}
-			}
-		} else {
-			return func(str string) {
-				bldr.(*array.LargeStringBuilder).Append(str)
-			}
-		}
-	case *arrow.TimestampType:
-		return func(str string) {
-			r.parseTimestamp(bldr, str, dt.Unit)
-		}
-	case *arrow.Date32Type:
-		return func(str string) {
-			r.parseDate32(bldr, str)
-		}
-	case *arrow.Date64Type:
-		return func(str string) {
-			r.parseDate64(bldr, str)
-		}
-	case *arrow.Time32Type:
-		return func(str string) {
-			r.parseTime32(bldr, str, dt.Unit)
-		}
-	case *arrow.Decimal128Type:
-		return func(str string) {
-			r.parseDecimal128(bldr, str, dt.Precision, dt.Scale)
-		}
-	case *arrow.Decimal256Type:
-		return func(str string) {
-			r.parseDecimal256(bldr, str, dt.Precision, dt.Scale)
-		}
-	case *arrow.FixedSizeListType:
-		return func(s string) {
-			r.parseFixedSizeList(bldr.(*array.FixedSizeListBuilder), s, int(dt.Len()))
-		}
-	case arrow.ListLikeType:
-		return func(s string) {
-			r.parseListLike(bldr.(array.ListLikeBuilder), s)
-		}
-	case *arrow.BinaryType:
-		return func(s string) {
-			r.parseBinaryType(bldr, s)
-		}
-	case *arrow.LargeBinaryType:
-		return func(s string) {
-			r.parseLargeBinaryType(bldr, s)
-		}
-	case *arrow.FixedSizeBinaryType:
-		return func(s string) {
-			r.parseFixedSizeBinaryType(bldr, s, dt.Bytes())
-		}
-	case arrow.ExtensionType:
-		return func(s string) {
-			r.parseExtension(bldr, s)
-		}
-	default:
-		panic(fmt.Errorf("arrow/csv: unhandled field type %T", bldr.Type()))
-	}
-}
-
-func (r *Reader) parseBool(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseBool(str)
-	if err != nil {
-		r.err = fmt.Errorf("%w: unrecognized boolean: %s", err, str)
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.BooleanBuilder).Append(v)
-}
-
-func (r *Reader) parseInt8(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseInt(str, 10, 8)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Int8Builder).Append(int8(v))
-}
-
-func (r *Reader) parseInt16(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseInt(str, 10, 16)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Int16Builder).Append(int16(v))
-}
-
-func (r *Reader) parseInt32(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseInt(str, 10, 32)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Int32Builder).Append(int32(v))
-}
-
-func (r *Reader) parseInt64(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseInt(str, 10, 64)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Int64Builder).Append(v)
-}
-
-func (r *Reader) parseUint8(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseUint(str, 10, 8)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Uint8Builder).Append(uint8(v))
-}
-
-func (r *Reader) parseUint16(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseUint(str, 10, 16)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Uint16Builder).Append(uint16(v))
-}
-
-func (r *Reader) parseUint32(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseUint(str, 10, 32)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Uint32Builder).Append(uint32(v))
-}
-
-func (r *Reader) parseUint64(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseUint(str, 10, 64)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.Uint64Builder).Append(v)
-}
-
-func (r *Reader) parseFloat16(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseFloat(str, 32)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Float16Builder).Append(float16.New(float32(v)))
-}
-
-func (r *Reader) parseFloat32(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseFloat(str, 32)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Float32Builder).Append(float32(v))
-}
-
-func (r *Reader) parseFloat64(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := strconv.ParseFloat(str, 64)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Float64Builder).Append(v)
-}
-
-// parses timestamps using millisecond precision
-func (r *Reader) parseTimestamp(field array.Builder, str string, unit arrow.TimeUnit) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	v, err := arrow.TimestampFromString(str, unit)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.TimestampBuilder).Append(v)
-}
-
-func (r *Reader) parseDate32(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	tm, err := time.Parse("2006-01-02", str)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Date32Builder).Append(arrow.Date32FromTime(tm))
-}
-
-func (r *Reader) parseDate64(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	tm, err := time.Parse("2006-01-02", str)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Date64Builder).Append(arrow.Date64FromTime(tm))
-}
-
-func (r *Reader) parseTime32(field array.Builder, str string, unit arrow.TimeUnit) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	val, err := arrow.Time32FromString(str, unit)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Time32Builder).Append(val)
-}
-
-func (r *Reader) parseDecimal128(field array.Builder, str string, prec, scale int32) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	val, err := decimal128.FromString(str, prec, scale)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Decimal128Builder).Append(val)
-}
-
-func (r *Reader) parseDecimal256(field array.Builder, str string, prec, scale int32) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-
-	val, err := decimal256.FromString(str, prec, scale)
-	if err != nil && r.err == nil {
-		r.err = err
-		field.AppendNull()
-		return
-	}
-	field.(*array.Decimal256Builder).Append(val)
-}
-
-func (r *Reader) parseListLike(field array.ListLikeBuilder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-	if !(strings.HasPrefix(str, "{") && strings.HasSuffix(str, "}")) {
-		r.err = errors.New("invalid list format. should start with '{' and end with '}'")
-		return
-	}
-	str = strings.Trim(str, "{}")
-	field.Append(true)
-	if len(str) == 0 {
-		// we don't want to create the csv reader if we already know the
-		// string is empty
-		return
-	}
-	valueBldr := field.ValueBuilder()
-	reader := csv.NewReader(strings.NewReader(str))
-	items, err := reader.Read()
-	if err != nil {
-		r.err = err
-		return
-	}
-	for _, str := range items {
-		r.initFieldConverter(valueBldr)(str)
-	}
-}
-
-func (r *Reader) parseFixedSizeList(field *array.FixedSizeListBuilder, str string, n int) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-	if !(strings.HasPrefix(str, "{") && strings.HasSuffix(str, "}")) {
-		r.err = errors.New("invalid list format. should start with '{' and end with '}'")
-		return
-	}
-	str = strings.Trim(str, "{}")
-	field.Append(true)
-	if len(str) == 0 {
-		// we don't want to create the csv reader if we already know the
-		// string is empty
-		return
-	}
-	valueBldr := field.ValueBuilder()
-	reader := csv.NewReader(strings.NewReader(str))
-	items, err := reader.Read()
-	if err != nil {
-		r.err = err
-		return
-	}
-	if len(items) == n {
-		for _, str := range items {
-			r.initFieldConverter(valueBldr)(str)
-		}
-	} else {
-		r.err = fmt.Errorf("%w: fixed size list items should match the fixed size list length, expected %d, got %d", arrow.ErrInvalid, n, len(items))
-	}
-}
-
-func (r *Reader) parseBinaryType(field array.Builder, str string) {
-	// specialize the implementation when we know we cannot have nulls
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-	decodedVal, err := base64.StdEncoding.DecodeString(str)
-	if err != nil {
-		r.err = fmt.Errorf("cannot decode base64 string %s", str)
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.BinaryBuilder).Append(decodedVal)
-}
-
-func (r *Reader) parseLargeBinaryType(field array.Builder, str string) {
-	// specialize the implementation when we know we cannot have nulls
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-	decodedVal, err := base64.StdEncoding.DecodeString(str)
-	if err != nil {
-		r.err = fmt.Errorf("cannot decode base64 string %s", str)
-		field.AppendNull()
-		return
-	}
-
-	field.(*array.BinaryBuilder).Append(decodedVal)
-}
-
-func (r *Reader) parseFixedSizeBinaryType(field array.Builder, str string, byteWidth int) {
-	// specialize the implementation when we know we cannot have nulls
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-	decodedVal, err := base64.StdEncoding.DecodeString(str)
-	if err != nil {
-		r.err = fmt.Errorf("cannot decode base64 string %s", str)
-		field.AppendNull()
-		return
-	}
-
-	if len(decodedVal) == byteWidth {
-		field.(*array.FixedSizeBinaryBuilder).Append(decodedVal)
-	} else {
-		r.err = fmt.Errorf("%w: the length of fixed size binary value should match the fixed size binary byte width, expected %d, got %d", arrow.ErrInvalid, byteWidth, len(decodedVal))
-	}
-}
-
-func (r *Reader) parseExtension(field array.Builder, str string) {
-	if r.isNull(str) {
-		field.AppendNull()
-		return
-	}
-	if err := field.AppendValueFromString(str); err != nil {
-		r.err = err
-		return
-	}
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (r *Reader) Retain() {
-	atomic.AddInt64(&r.refs, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (r *Reader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refs) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refs, -1) == 0 {
-		if r.cur != nil {
-			r.cur.Release()
-		}
-	}
-}
-
-type conversionColumn struct {
-	name  string
-	index int
-	typ   arrow.DataType
-}
-
-func (c conversionColumn) inferType(v string) arrow.DataType {
-	if c.typ != nil {
-		return c.typ
-	}
-
-	var err error
-	c.typ = arrow.PrimitiveTypes.Int64
-	for {
-		// attempt to parse
-		if err = tryParse(v, c.typ); err == nil {
-			return c.typ
-		}
-
-		switch dt := c.typ.(type) {
-		case *arrow.Int64Type:
-			c.typ = arrow.FixedWidthTypes.Boolean
-		case *arrow.BooleanType:
-			c.typ = arrow.FixedWidthTypes.Date32
-		case *arrow.Date32Type:
-			c.typ = arrow.FixedWidthTypes.Time32s
-		case *arrow.Time32Type:
-			c.typ = &arrow.TimestampType{Unit: arrow.Second}
-		case *arrow.TimestampType:
-			if dt.TimeZone == "" {
-				if dt.Unit == arrow.Second {
-					c.typ = &arrow.TimestampType{Unit: arrow.Nanosecond}
-				} else {
-					c.typ = &arrow.TimestampType{Unit: arrow.Second, TimeZone: "UTC"}
-				}
-			} else {
-				if dt.Unit == arrow.Second {
-					c.typ = &arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "UTC"}
-				} else {
-					c.typ = arrow.PrimitiveTypes.Float64
-				}
-			}
-		case *arrow.Float64Type:
-			c.typ = arrow.BinaryTypes.String
-		case *arrow.StringType:
-			// binary is the fallback type
-			return arrow.BinaryTypes.Binary
-		}
-	}
-}
-
-func tryParse(val string, dt arrow.DataType) error {
-	switch dt := dt.(type) {
-	case *arrow.Int64Type:
-		_, err := strconv.ParseInt(val, 10, 64)
-		return err
-	case *arrow.BooleanType:
-		_, err := strconv.ParseBool(val)
-		return err
-	case *arrow.Date32Type:
-		_, err := time.Parse("2006-01-02", val)
-		return err
-	case *arrow.Time32Type:
-		_, err := arrow.Time32FromString(val, dt.Unit)
-		return err
-	case *arrow.TimestampType:
-		_, err := arrow.TimestampFromString(val, dt.Unit)
-		return err
-	case *arrow.Float64Type:
-		_, err := strconv.ParseFloat(val, 64)
-		return err
-	case *arrow.StringType:
-		if !utf8.ValidString(val) {
-			return arrow.ErrInvalid
-		}
-		return nil
-	case *arrow.BinaryType:
-		_, err := base64.RawStdEncoding.DecodeString(val)
-		return err
-	}
-	panic("shouldn't end up here")
-}
-
-var (
-	_ array.RecordReader = (*Reader)(nil)
-)
diff --git a/go/arrow/csv/reader_test.go b/go/arrow/csv/reader_test.go
deleted file mode 100644
index 6a89d49704298..0000000000000
--- a/go/arrow/csv/reader_test.go
+++ /dev/null
@@ -1,956 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package csv_test
-
-import (
-	"bytes"
-	stdcsv "encoding/csv"
-	"fmt"
-	"log"
-	"os"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/csv"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func Example() {
-	f := bytes.NewBufferString(`## a simple set of data: int64;float64;string
-0;0;str-0
-1;1;str-1
-2;2;str-2
-3;3;str-3
-4;4;str-4
-5;5;str-5
-6;6;str-6
-7;7;str-7
-8;8;str-8
-9;9;str-9
-`)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-		},
-		nil,
-	)
-	r := csv.NewReader(f, schema, csv.WithComment('#'), csv.WithComma(';'))
-	defer r.Release()
-
-	n := 0
-	for r.Next() {
-		rec := r.Record()
-		for i, col := range rec.Columns() {
-			fmt.Printf("rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-		}
-		n++
-	}
-
-	// check for reader errors indicating issues converting csv values
-	// to the arrow schema types
-	err := r.Err()
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	// Output:
-	// rec[0]["i64"]: [0]
-	// rec[0]["f64"]: [0]
-	// rec[0]["str"]: ["str-0"]
-	// rec[1]["i64"]: [1]
-	// rec[1]["f64"]: [1]
-	// rec[1]["str"]: ["str-1"]
-	// rec[2]["i64"]: [2]
-	// rec[2]["f64"]: [2]
-	// rec[2]["str"]: ["str-2"]
-	// rec[3]["i64"]: [3]
-	// rec[3]["f64"]: [3]
-	// rec[3]["str"]: ["str-3"]
-	// rec[4]["i64"]: [4]
-	// rec[4]["f64"]: [4]
-	// rec[4]["str"]: ["str-4"]
-	// rec[5]["i64"]: [5]
-	// rec[5]["f64"]: [5]
-	// rec[5]["str"]: ["str-5"]
-	// rec[6]["i64"]: [6]
-	// rec[6]["f64"]: [6]
-	// rec[6]["str"]: ["str-6"]
-	// rec[7]["i64"]: [7]
-	// rec[7]["f64"]: [7]
-	// rec[7]["str"]: ["str-7"]
-	// rec[8]["i64"]: [8]
-	// rec[8]["f64"]: [8]
-	// rec[8]["str"]: ["str-8"]
-	// rec[9]["i64"]: [9]
-	// rec[9]["f64"]: [9]
-	// rec[9]["str"]: ["str-9"]
-}
-
-func Example_withChunk() {
-	f := bytes.NewBufferString(`## a simple set of data: int64;float64;string
-0;0;str-0
-1;1;str-1
-2;2;str-2
-3;3;str-3
-4;4;str-4
-5;5;str-5
-6;6;str-6
-7;7;str-7
-8;8;str-8
-9;9;str-9
-`)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-		},
-		nil,
-	)
-	r := csv.NewReader(
-		f, schema,
-		csv.WithComment('#'), csv.WithComma(';'),
-		csv.WithChunk(3),
-	)
-	defer r.Release()
-
-	n := 0
-	for r.Next() {
-		rec := r.Record()
-		for i, col := range rec.Columns() {
-			fmt.Printf("rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-		}
-		n++
-	}
-
-	// Output:
-	// rec[0]["i64"]: [0 1 2]
-	// rec[0]["f64"]: [0 1 2]
-	// rec[0]["str"]: ["str-0" "str-1" "str-2"]
-	// rec[1]["i64"]: [3 4 5]
-	// rec[1]["f64"]: [3 4 5]
-	// rec[1]["str"]: ["str-3" "str-4" "str-5"]
-	// rec[2]["i64"]: [6 7 8]
-	// rec[2]["f64"]: [6 7 8]
-	// rec[2]["str"]: ["str-6" "str-7" "str-8"]
-	// rec[3]["i64"]: [9]
-	// rec[3]["f64"]: [9]
-	// rec[3]["str"]: ["str-9"]
-}
-
-func TestCSVReadInvalidFields(t *testing.T) {
-	tests := []struct {
-		Name          string
-		Data          string
-		Fields        []arrow.Field
-		ExpectedError bool
-	}{
-		{
-			Name: "ValidListInt64",
-			Data: "{}",
-			Fields: []arrow.Field{
-				{Name: "list(i64)", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-			},
-			ExpectedError: false,
-		},
-		{
-			Name: "InvalidListInt64T1",
-			Data: "{",
-			Fields: []arrow.Field{
-				{Name: "list(i64)", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-			},
-			ExpectedError: true,
-		},
-		{
-			Name: "InvalidListInt64T2",
-			Data: "}",
-			Fields: []arrow.Field{
-				{Name: "list(i64)", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-			},
-			ExpectedError: true,
-		},
-	}
-	for _, tc := range tests {
-		tc := tc
-		t.Run(tc.Name, func(t *testing.T) {
-			f := bytes.NewBufferString(tc.Data)
-			schema := arrow.NewSchema(tc.Fields, nil)
-
-			r := csv.NewReader(
-				f, schema,
-				csv.WithComma(','),
-			)
-			defer r.Release()
-			for r.Next() {
-			}
-			parseErr := r.Err()
-			if tc.ExpectedError && parseErr == nil {
-				t.Fatal("Expected error, but none found")
-			}
-			if !tc.ExpectedError && parseErr != nil {
-				t.Fatalf("Not expecting error, but got %v", parseErr)
-			}
-		})
-	}
-}
-
-func TestCSVReaderParseError(t *testing.T) {
-	f := bytes.NewBufferString(`## a simple set of data: int64;float64;string
-0;0;str-0
-1;1;str-1
-2;2;str-2
-3;3;str-3
-4;BADDATA;str-4
-5;5;str-5
-6;6;str-6
-7;7;str-7
-8;8;str-8
-9;9;str-9
-`)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-		},
-		nil,
-	)
-	r := csv.NewReader(
-		f, schema,
-		csv.WithComment('#'), csv.WithComma(';'),
-		csv.WithChunk(3),
-	)
-	defer r.Release()
-
-	n := 0
-	lines := 0
-	var rec arrow.Record
-	for r.Next() {
-		if rec != nil {
-			rec.Release()
-		}
-		rec = r.Record()
-		rec.Retain()
-
-		if n == 1 && r.Err() == nil {
-			t.Fatal("Expected error on second chunk, but none found")
-		}
-
-		for i, col := range rec.Columns() {
-			fmt.Printf("rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-			lines++
-		}
-		n++
-	}
-
-	if r.Err() == nil {
-		t.Fatal("Expected any chunk with error to leave reader in an error state.")
-	}
-
-	if got, want := n, 2; got != want {
-		t.Fatalf("invalid number of chunks: got=%d, want=%d", got, want)
-	}
-
-	if got, want := lines, 6; got != want {
-		t.Fatalf("invalid number of lines: got=%d, want=%d", got, want)
-	}
-
-	if !rec.Columns()[1].IsNull(1) {
-		t.Fatalf("expected bad data to be null, found: %v", rec.Columns()[1].Data())
-	}
-	rec.Release()
-}
-
-func TestCSVReader(t *testing.T) {
-	tests := []struct {
-		Name             string
-		File             string
-		Header           bool
-		StringsCanBeNull bool
-	}{
-		{
-			Name:   "NoHeader",
-			File:   "testdata/types.csv",
-			Header: false,
-		}, {
-			Name:   "Header",
-			File:   "testdata/header.csv",
-			Header: true,
-		},
-		{
-			Name:             "NoHeader_StringsCanBeNull",
-			File:             "testdata/types.csv",
-			Header:           false,
-			StringsCanBeNull: true,
-		}, {
-			Name:             "Header_StringsCanBeNull",
-			File:             "testdata/header.csv",
-			Header:           true,
-			StringsCanBeNull: true,
-		},
-	}
-	for _, test := range tests {
-		t.Run(test.Name, func(t *testing.T) {
-			testCSVReader(t, test.File, test.Header, test.StringsCanBeNull)
-		})
-	}
-}
-
-var defaultNullValues = []string{"", "NULL", "null", "N/A"}
-
-func testCSVReader(t *testing.T, filepath string, withHeader bool, stringsCanBeNull bool) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	raw, err := os.ReadFile(filepath)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "bool", Type: arrow.FixedWidthTypes.Boolean},
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8},
-			{Name: "i16", Type: arrow.PrimitiveTypes.Int16},
-			{Name: "i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "u8", Type: arrow.PrimitiveTypes.Uint8},
-			{Name: "u16", Type: arrow.PrimitiveTypes.Uint16},
-			{Name: "u32", Type: arrow.PrimitiveTypes.Uint32},
-			{Name: "u64", Type: arrow.PrimitiveTypes.Uint64},
-			{Name: "f16", Type: arrow.FixedWidthTypes.Float16},
-			{Name: "f32", Type: arrow.PrimitiveTypes.Float32},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-			{Name: "large_str", Type: arrow.BinaryTypes.LargeString},
-			{Name: "ts", Type: arrow.FixedWidthTypes.Timestamp_ms},
-			{Name: "list(i64)", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-			{Name: "large_list(i64)", Type: arrow.LargeListOf(arrow.PrimitiveTypes.Int64)},
-			{Name: "fixed_size_list(i64)", Type: arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int64)},
-			{Name: "binary", Type: arrow.BinaryTypes.Binary},
-			{Name: "large_binary", Type: arrow.BinaryTypes.LargeBinary},
-			{Name: "fixed_size_binary", Type: &arrow.FixedSizeBinaryType{ByteWidth: 3}},
-			{Name: "uuid", Type: extensions.NewUUIDType()},
-			{Name: "date32", Type: arrow.PrimitiveTypes.Date32},
-			{Name: "date64", Type: arrow.PrimitiveTypes.Date64},
-		},
-		nil,
-	)
-	r := csv.NewReader(bytes.NewReader(raw), schema,
-		csv.WithAllocator(mem),
-		csv.WithComment('#'), csv.WithComma(';'),
-		csv.WithHeader(withHeader),
-		csv.WithNullReader(stringsCanBeNull, defaultNullValues...),
-	)
-	defer r.Release()
-
-	r.Retain()
-	r.Release()
-
-	if got, want := r.Schema(), schema; !got.Equal(want) {
-		t.Fatalf("invalid schema: got=%v, want=%v", got, want)
-	}
-
-	out := new(bytes.Buffer)
-	n := 0
-	for r.Next() {
-		rec := r.Record()
-		for i, col := range rec.Columns() {
-			fmt.Fprintf(out, "rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-		}
-		n++
-	}
-	if err := r.Err(); err != nil {
-		t.Fatalf("unexpected error %v", err)
-	}
-	if got, want := n, 3; got != want {
-		t.Fatalf("invalid number of rows: got=%d, want=%d", got, want)
-	}
-
-	str1Value := `""`
-	str2Value := `"null"`
-	if stringsCanBeNull {
-		str1Value = array.NullValueStr
-		str2Value = array.NullValueStr
-	}
-
-	want := fmt.Sprintf(`rec[0]["bool"]: [true]
-rec[0]["i8"]: [-1]
-rec[0]["i16"]: [-1]
-rec[0]["i32"]: [-1]
-rec[0]["i64"]: [-1]
-rec[0]["u8"]: [1]
-rec[0]["u16"]: [1]
-rec[0]["u32"]: [1]
-rec[0]["u64"]: [1]
-rec[0]["f16"]: [1.0996094]
-rec[0]["f32"]: [1.1]
-rec[0]["f64"]: [1.1]
-rec[0]["str"]: ["str-1"]
-rec[0]["large_str"]: ["str-1"]
-rec[0]["ts"]: [1652054461000]
-rec[0]["list(i64)"]: [[1 2 3]]
-rec[0]["large_list(i64)"]: [[1 2 3]]
-rec[0]["fixed_size_list(i64)"]: [[1 2 3]]
-rec[0]["binary"]: ["\x00\x01\x02"]
-rec[0]["large_binary"]: ["\x00\x01\x02"]
-rec[0]["fixed_size_binary"]: ["\x00\x01\x02"]
-rec[0]["uuid"]: ["00000000-0000-0000-0000-000000000001"]
-rec[0]["date32"]: [19121]
-rec[0]["date64"]: [1652054400000]
-rec[1]["bool"]: [false]
-rec[1]["i8"]: [-2]
-rec[1]["i16"]: [-2]
-rec[1]["i32"]: [-2]
-rec[1]["i64"]: [-2]
-rec[1]["u8"]: [2]
-rec[1]["u16"]: [2]
-rec[1]["u32"]: [2]
-rec[1]["u64"]: [2]
-rec[1]["f16"]: [2.1992188]
-rec[1]["f32"]: [2.2]
-rec[1]["f64"]: [2.2]
-rec[1]["str"]: [%s]
-rec[1]["large_str"]: [%s]
-rec[1]["ts"]: [1652140799000]
-rec[1]["list(i64)"]: [[]]
-rec[1]["large_list(i64)"]: [[]]
-rec[1]["fixed_size_list(i64)"]: [[4 5 6]]
-rec[1]["binary"]: [(null)]
-rec[1]["large_binary"]: [(null)]
-rec[1]["fixed_size_binary"]: [(null)]
-rec[1]["uuid"]: ["00000000-0000-0000-0000-000000000002"]
-rec[1]["date32"]: [19121]
-rec[1]["date64"]: [1652054400000]
-rec[2]["bool"]: [(null)]
-rec[2]["i8"]: [(null)]
-rec[2]["i16"]: [(null)]
-rec[2]["i32"]: [(null)]
-rec[2]["i64"]: [(null)]
-rec[2]["u8"]: [(null)]
-rec[2]["u16"]: [(null)]
-rec[2]["u32"]: [(null)]
-rec[2]["u64"]: [(null)]
-rec[2]["f16"]: [(null)]
-rec[2]["f32"]: [(null)]
-rec[2]["f64"]: [(null)]
-rec[2]["str"]: [%s]
-rec[2]["large_str"]: [%s]
-rec[2]["ts"]: [(null)]
-rec[2]["list(i64)"]: [(null)]
-rec[2]["large_list(i64)"]: [(null)]
-rec[2]["fixed_size_list(i64)"]: [(null)]
-rec[2]["binary"]: [(null)]
-rec[2]["large_binary"]: [(null)]
-rec[2]["fixed_size_binary"]: [(null)]
-rec[2]["uuid"]: [(null)]
-rec[2]["date32"]: [(null)]
-rec[2]["date64"]: [(null)]
-`, str1Value, str1Value, str2Value, str2Value)
-	got, want := out.String(), want
-	require.Equal(t, want, got)
-
-	if r.Err() != nil {
-		t.Fatalf("unexpected error: %v", r.Err())
-	}
-
-	// test error modes
-	{
-		r := csv.NewReader(bytes.NewReader(raw), schema,
-			csv.WithAllocator(mem),
-			csv.WithComment('#'), csv.WithComma(';'),
-			csv.WithHeader(withHeader),
-			csv.WithNullReader(stringsCanBeNull),
-		)
-
-		r.Next()
-		r.Record()
-
-		r.Release()
-	}
-}
-
-func TestCSVReaderWithChunk(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	raw, err := os.ReadFile("testdata/simple.csv")
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-		},
-		nil,
-	)
-
-	for _, tc := range []struct {
-		name    string
-		opts    []csv.Option
-		records int
-		want    string
-	}{
-		{
-			name:    "chunk=default",
-			opts:    []csv.Option{csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';')},
-			records: 10,
-			want: `rec[0]["i64"]: [0]
-rec[0]["f64"]: [0]
-rec[0]["str"]: ["str-0"]
-rec[1]["i64"]: [1]
-rec[1]["f64"]: [1]
-rec[1]["str"]: ["str-1"]
-rec[2]["i64"]: [2]
-rec[2]["f64"]: [2]
-rec[2]["str"]: ["str-2"]
-rec[3]["i64"]: [3]
-rec[3]["f64"]: [3]
-rec[3]["str"]: ["str-3"]
-rec[4]["i64"]: [4]
-rec[4]["f64"]: [4]
-rec[4]["str"]: ["str-4"]
-rec[5]["i64"]: [5]
-rec[5]["f64"]: [5]
-rec[5]["str"]: ["str-5"]
-rec[6]["i64"]: [6]
-rec[6]["f64"]: [6]
-rec[6]["str"]: ["str-6"]
-rec[7]["i64"]: [7]
-rec[7]["f64"]: [7]
-rec[7]["str"]: ["str-7"]
-rec[8]["i64"]: [8]
-rec[8]["f64"]: [8]
-rec[8]["str"]: ["str-8"]
-rec[9]["i64"]: [9]
-rec[9]["f64"]: [9]
-rec[9]["str"]: ["str-9"]
-`,
-		},
-		{
-			name: "chunk=0",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(0),
-			},
-			records: 10,
-			want: `rec[0]["i64"]: [0]
-rec[0]["f64"]: [0]
-rec[0]["str"]: ["str-0"]
-rec[1]["i64"]: [1]
-rec[1]["f64"]: [1]
-rec[1]["str"]: ["str-1"]
-rec[2]["i64"]: [2]
-rec[2]["f64"]: [2]
-rec[2]["str"]: ["str-2"]
-rec[3]["i64"]: [3]
-rec[3]["f64"]: [3]
-rec[3]["str"]: ["str-3"]
-rec[4]["i64"]: [4]
-rec[4]["f64"]: [4]
-rec[4]["str"]: ["str-4"]
-rec[5]["i64"]: [5]
-rec[5]["f64"]: [5]
-rec[5]["str"]: ["str-5"]
-rec[6]["i64"]: [6]
-rec[6]["f64"]: [6]
-rec[6]["str"]: ["str-6"]
-rec[7]["i64"]: [7]
-rec[7]["f64"]: [7]
-rec[7]["str"]: ["str-7"]
-rec[8]["i64"]: [8]
-rec[8]["f64"]: [8]
-rec[8]["str"]: ["str-8"]
-rec[9]["i64"]: [9]
-rec[9]["f64"]: [9]
-rec[9]["str"]: ["str-9"]
-`,
-		},
-		{
-			name: "chunk=1",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(1),
-			},
-			records: 10,
-			want: `rec[0]["i64"]: [0]
-rec[0]["f64"]: [0]
-rec[0]["str"]: ["str-0"]
-rec[1]["i64"]: [1]
-rec[1]["f64"]: [1]
-rec[1]["str"]: ["str-1"]
-rec[2]["i64"]: [2]
-rec[2]["f64"]: [2]
-rec[2]["str"]: ["str-2"]
-rec[3]["i64"]: [3]
-rec[3]["f64"]: [3]
-rec[3]["str"]: ["str-3"]
-rec[4]["i64"]: [4]
-rec[4]["f64"]: [4]
-rec[4]["str"]: ["str-4"]
-rec[5]["i64"]: [5]
-rec[5]["f64"]: [5]
-rec[5]["str"]: ["str-5"]
-rec[6]["i64"]: [6]
-rec[6]["f64"]: [6]
-rec[6]["str"]: ["str-6"]
-rec[7]["i64"]: [7]
-rec[7]["f64"]: [7]
-rec[7]["str"]: ["str-7"]
-rec[8]["i64"]: [8]
-rec[8]["f64"]: [8]
-rec[8]["str"]: ["str-8"]
-rec[9]["i64"]: [9]
-rec[9]["f64"]: [9]
-rec[9]["str"]: ["str-9"]
-`,
-		},
-		{
-			name: "chunk=3",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(3),
-			},
-			records: 4,
-			want: `rec[0]["i64"]: [0 1 2]
-rec[0]["f64"]: [0 1 2]
-rec[0]["str"]: ["str-0" "str-1" "str-2"]
-rec[1]["i64"]: [3 4 5]
-rec[1]["f64"]: [3 4 5]
-rec[1]["str"]: ["str-3" "str-4" "str-5"]
-rec[2]["i64"]: [6 7 8]
-rec[2]["f64"]: [6 7 8]
-rec[2]["str"]: ["str-6" "str-7" "str-8"]
-rec[3]["i64"]: [9]
-rec[3]["f64"]: [9]
-rec[3]["str"]: ["str-9"]
-`,
-		},
-		{
-			name: "chunk=6",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(6),
-			},
-			records: 2,
-			want: `rec[0]["i64"]: [0 1 2 3 4 5]
-rec[0]["f64"]: [0 1 2 3 4 5]
-rec[0]["str"]: ["str-0" "str-1" "str-2" "str-3" "str-4" "str-5"]
-rec[1]["i64"]: [6 7 8 9]
-rec[1]["f64"]: [6 7 8 9]
-rec[1]["str"]: ["str-6" "str-7" "str-8" "str-9"]
-`,
-		},
-		{
-			name: "chunk=10",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(10),
-			},
-			records: 1,
-			want: `rec[0]["i64"]: [0 1 2 3 4 5 6 7 8 9]
-rec[0]["f64"]: [0 1 2 3 4 5 6 7 8 9]
-rec[0]["str"]: ["str-0" "str-1" "str-2" "str-3" "str-4" "str-5" "str-6" "str-7" "str-8" "str-9"]
-`,
-		},
-		{
-			name: "chunk=11",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(11),
-			},
-			records: 1,
-			want: `rec[0]["i64"]: [0 1 2 3 4 5 6 7 8 9]
-rec[0]["f64"]: [0 1 2 3 4 5 6 7 8 9]
-rec[0]["str"]: ["str-0" "str-1" "str-2" "str-3" "str-4" "str-5" "str-6" "str-7" "str-8" "str-9"]
-`,
-		},
-		{
-			name: "chunk=-1",
-			opts: []csv.Option{
-				csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-				csv.WithChunk(-1),
-			},
-			records: 1,
-			want: `rec[0]["i64"]: [0 1 2 3 4 5 6 7 8 9]
-rec[0]["f64"]: [0 1 2 3 4 5 6 7 8 9]
-rec[0]["str"]: ["str-0" "str-1" "str-2" "str-3" "str-4" "str-5" "str-6" "str-7" "str-8" "str-9"]
-`,
-		},
-	} {
-		t.Run(tc.name, func(t *testing.T) {
-			r := csv.NewReader(bytes.NewReader(raw), schema, tc.opts...)
-
-			defer r.Release()
-
-			r.Retain()
-			r.Release()
-
-			if got, want := r.Schema(), schema; !got.Equal(want) {
-				t.Fatalf("invalid schema: got=%v, want=%v", got, want)
-			}
-
-			out := new(bytes.Buffer)
-
-			n := 0
-			for r.Next() {
-				rec := r.Record()
-				for i, col := range rec.Columns() {
-					fmt.Fprintf(out, "rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-				}
-				n++
-			}
-
-			if got, want := n, tc.records; got != want {
-				t.Fatalf("invalid number of records: got=%d, want=%d", got, want)
-			}
-
-			if got, want := out.String(), tc.want; got != want {
-				t.Fatalf("invalid output:\ngot:\n%s\nwant:\n%s\n", got, want)
-			}
-
-			if r.Err() != nil {
-				t.Fatalf("unexpected error: %v", r.Err())
-			}
-		})
-	}
-}
-
-func TestReadCSVDecimalCols(t *testing.T) {
-	data := `dec128,dec256
-12.3,0.00123
-1.23e-8,-1.23e-3
--1.23E+3,1.23e+5
-`
-
-	r := csv.NewReader(strings.NewReader(data), arrow.NewSchema([]arrow.Field{
-		{Name: "dec128", Type: &arrow.Decimal128Type{Precision: 14, Scale: 10}, Nullable: true},
-		{Name: "dec256", Type: &arrow.Decimal256Type{Precision: 11, Scale: 5}, Nullable: true},
-	}, nil), csv.WithChunk(-1), csv.WithHeader(true), csv.WithComma(','), csv.WithNullReader(true, "null", "#NA"))
-	defer r.Release()
-
-	assert.True(t, r.Next())
-	rec := r.Record()
-	rec.Retain()
-	assert.False(t, r.Next())
-	defer rec.Release()
-
-	if r.Err() != nil {
-		log.Fatal(r.Err())
-	}
-
-	bldr := array.NewRecordBuilder(memory.DefaultAllocator, r.Schema())
-	defer bldr.Release()
-
-	dec128Bldr := bldr.Field(0).(*array.Decimal128Builder)
-	dec128Bldr.Append(decimal128.New(0, 123000000000))
-	dec128Bldr.Append(decimal128.New(0, 123))
-	dec128Bldr.Append(decimal128.FromI64(-12300000000000))
-
-	dec256Bldr := bldr.Field(1).(*array.Decimal256Builder)
-	dec256Bldr.Append(decimal256.FromU64(123))
-	dec256Bldr.Append(decimal256.FromI64(-123))
-	dec256Bldr.Append(decimal256.FromU64(12300000000))
-
-	exRec := bldr.NewRecord()
-	defer exRec.Release()
-
-	assert.Truef(t, array.RecordEqual(exRec, rec), "expected: %s\nactual: %s", exRec, rec)
-}
-
-func BenchmarkRead(b *testing.B) {
-	gen := func(rows, cols int) []byte {
-		buf := new(bytes.Buffer)
-		for i := 0; i < rows; i++ {
-			for j := 0; j < cols; j++ {
-				if j > 0 {
-					fmt.Fprintf(buf, ";")
-				}
-				fmt.Fprintf(buf, "%d;%f;str-%d", i, float64(i), i)
-			}
-			fmt.Fprintf(buf, "\n")
-		}
-		return buf.Bytes()
-	}
-
-	for _, rows := range []int{10, 1e2, 1e3, 1e4} {
-		for _, cols := range []int{1, 10, 100, 1000} {
-			raw := gen(rows, cols)
-			for _, chunks := range []int{-1, 0, 10, 100, 1000} {
-				b.Run(fmt.Sprintf("rows=%d cols=%d chunks=%d", rows, cols, chunks), func(b *testing.B) {
-					benchRead(b, raw, rows, cols, chunks)
-				})
-			}
-		}
-	}
-}
-
-func benchRead(b *testing.B, raw []byte, rows, cols, chunks int) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(b, 0)
-
-	var fields []arrow.Field
-	for i := 0; i < cols; i++ {
-		fields = append(fields, []arrow.Field{
-			{Name: fmt.Sprintf("i64-%d", i), Type: arrow.PrimitiveTypes.Int64},
-			{Name: fmt.Sprintf("f64-%d", i), Type: arrow.PrimitiveTypes.Float64},
-			{Name: fmt.Sprintf("str-%d", i), Type: arrow.BinaryTypes.String},
-		}...)
-	}
-
-	schema := arrow.NewSchema(fields, nil)
-	chunk := 0
-	if chunks != 0 {
-		chunk = rows / chunks
-	}
-	opts := []csv.Option{
-		csv.WithAllocator(mem), csv.WithComment('#'), csv.WithComma(';'),
-		csv.WithChunk(chunk),
-	}
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		r := csv.NewReader(bytes.NewReader(raw), schema, opts...)
-
-		n := int64(0)
-		for r.Next() {
-			n += r.Record().NumRows()
-		}
-
-		r.Release()
-		if n != int64(rows) {
-			b.Fatalf("invalid number of rows. want=%d, got=%d", n, rows)
-		}
-	}
-}
-
-func TestInferringSchema(t *testing.T) {
-	var b bytes.Buffer
-	wr := stdcsv.NewWriter(&b)
-	wr.WriteAll([][]string{
-		{"i64", "f64", "str", "ts", "bool"},
-		{"123", "1.23", "foobar", "2022-05-09T00:01:01", "false"},
-		{"456", "45.6", "baz", "2022-05-09T23:59:59", "true"},
-		{"null", "NULL", "null", "N/A", "null"},
-		{"-78", "-1.25", "", "2021-01-01T10:11:12", "TRUE"},
-	})
-	wr.Flush()
-
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	r := csv.NewInferringReader(&b, csv.WithAllocator(mem), csv.WithHeader(true), csv.WithNullReader(true, defaultNullValues...))
-	defer r.Release()
-
-	assert.Nil(t, r.Schema())
-	assert.True(t, r.Next())
-	assert.NoError(t, r.Err())
-
-	expSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "ts", Type: &arrow.TimestampType{Unit: arrow.Second}, Nullable: true},
-		{Name: "bool", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-	}, nil)
-
-	exp, _, _ := array.RecordFromJSON(mem, expSchema, strings.NewReader(`[
-		{"i64": 123, "f64": 1.23, "str": "foobar", "ts": "2022-05-09T00:01:01", "bool": false},
-		{"i64": 456, "f64": 45.6, "str": "baz", "ts": "2022-05-09T23:59:59", "bool": true},
-		{"i64": null, "f64": null, "str": null, "ts": null, "bool": null},
-		{"i64": -78, "f64": -1.25, "str": null, "ts": "2021-01-01T10:11:12", "bool": true}
-	]`))
-	defer exp.Release()
-
-	assertRowEqual := func(expected, actual arrow.Record, row int) {
-		ex := expected.NewSlice(int64(row), int64(row+1))
-		defer ex.Release()
-		assert.Truef(t, array.RecordEqual(ex, actual), "expected: %s\ngot: %s", ex, actual)
-	}
-
-	assert.True(t, expSchema.Equal(r.Schema()), expSchema.String(), r.Schema().String())
-	// verify first row:
-	assertRowEqual(exp, r.Record(), 0)
-	assert.True(t, r.Next())
-	assertRowEqual(exp, r.Record(), 1)
-	assert.True(t, r.Next())
-	assertRowEqual(exp, r.Record(), 2)
-	assert.True(t, r.Next())
-	assertRowEqual(exp, r.Record(), 3)
-	assert.False(t, r.Next())
-}
-
-func TestInferCSVOptions(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	f, err := os.Open("testdata/header.csv")
-	require.NoError(t, err)
-	defer f.Close()
-
-	r := csv.NewInferringReader(f, csv.WithAllocator(mem),
-		csv.WithComma(';'), csv.WithComment('#'), csv.WithHeader(true),
-		csv.WithNullReader(true, defaultNullValues...),
-		csv.WithIncludeColumns([]string{"f64", "i32", "bool", "str", "i64", "u64", "i8"}),
-		csv.WithColumnTypes(map[string]arrow.DataType{
-			"i32": arrow.PrimitiveTypes.Int32,
-			"i8":  arrow.PrimitiveTypes.Int8,
-			"i16": arrow.PrimitiveTypes.Int16,
-			"u64": arrow.PrimitiveTypes.Uint64,
-		}), csv.WithChunk(-1))
-	defer r.Release()
-
-	assert.True(t, r.Next())
-	rec := r.Record()
-	rec.Retain()
-	defer rec.Release()
-	assert.False(t, r.Next())
-
-	expSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "bool", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "u64", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-		{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-	}, nil)
-	expRec, _, _ := array.RecordFromJSON(mem, expSchema, strings.NewReader(`[
-		{"f64": 1.1, "i32": -1, "bool": true, "str": "str-1", "i64": -1, "u64": 1, "i8": -1},
-		{"f64": 2.2, "i32": -2, "bool": false, "str": null, "i64": -2, "u64": 2, "i8": -2},
-		{"f64": null, "i32": null, "bool": null, "str": null, "i64": null, "u64": null, "i8": null}
-	]`))
-	defer expRec.Release()
-
-	assert.True(t, expSchema.Equal(r.Schema()), expSchema.String(), r.Schema().String())
-	assert.Truef(t, array.RecordEqual(expRec, rec), "expected: %s\ngot: %s", expRec, rec)
-}
diff --git a/go/arrow/csv/testdata/header.csv b/go/arrow/csv/testdata/header.csv
deleted file mode 100644
index 68ae18a499dee..0000000000000
--- a/go/arrow/csv/testdata/header.csv
+++ /dev/null
@@ -1,21 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-#
-bool;i8;i16;i32;i64;u8;u16;u32;u64;f16;f32;f64;str;large_str;ts;list(i64);large_list(i64);fixed_size_list(i64);binary;large_binary;fixed_size_binary;uuid;date32;date64
-true;-1;-1;-1;-1;1;1;1;1;1.1;1.1;1.1;str-1;str-1;2022-05-09T00:01:01;{1,2,3};{1,2,3};{1,2,3};AAEC;AAEC;AAEC;00000000-0000-0000-0000-000000000001;2022-05-09;2022-05-09
-false;-2;-2;-2;-2;2;2;2;2;2.2;2.2;2.2;;;2022-05-09T23:59:59;{};{};{4,5,6};;;;00000000-0000-0000-0000-000000000002;2022-05-09;2022-05-09
-null;NULL;null;N/A;;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null
\ No newline at end of file
diff --git a/go/arrow/csv/testdata/simple.csv b/go/arrow/csv/testdata/simple.csv
deleted file mode 100644
index 4f0969d547765..0000000000000
--- a/go/arrow/csv/testdata/simple.csv
+++ /dev/null
@@ -1,28 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-#
-## a simple set of data: int64;float64;string
-0;0;str-0
-1;1;str-1
-2;2;str-2
-3;3;str-3
-4;4;str-4
-5;5;str-5
-6;6;str-6
-7;7;str-7
-8;8;str-8
-9;9;str-9
diff --git a/go/arrow/csv/testdata/types.csv b/go/arrow/csv/testdata/types.csv
deleted file mode 100644
index 91c0cf3b252b3..0000000000000
--- a/go/arrow/csv/testdata/types.csv
+++ /dev/null
@@ -1,21 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-#
-## supported types: bool;int8;int16;int32;int64;uint8;uint16;uint32;uint64;float16;float32;float64;string;large_string;timestamp;list(i64);large_list(i64);fixed_size_list(i64);binary;large_binary;fixed_size_binary;uuid;date32;date64
-true;-1;-1;-1;-1;1;1;1;1;1.1;1.1;1.1;str-1;str-1;2022-05-09T00:01:01;{1,2,3};{1,2,3};{1,2,3};AAEC;AAEC;AAEC;00000000-0000-0000-0000-000000000001;2022-05-09;2022-05-09
-false;-2;-2;-2;-2;2;2;2;2;2.2;2.2;2.2;;;2022-05-09T23:59:59;{};{};{4,5,6};;;;00000000-0000-0000-0000-000000000002;2022-05-09;2022-05-09
-null;NULL;null;N/A;;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null;null
\ No newline at end of file
diff --git a/go/arrow/csv/transformer.go b/go/arrow/csv/transformer.go
deleted file mode 100644
index f99d047e3c8cf..0000000000000
--- a/go/arrow/csv/transformer.go
+++ /dev/null
@@ -1,282 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package csv
-
-import (
-	"bytes"
-	"encoding/base64"
-	"encoding/csv"
-	"fmt"
-	"math"
-	"math/big"
-	"strconv"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-func (w *Writer) transformColToStringArr(typ arrow.DataType, col arrow.Array, stringsReplacer func(string) string) []string {
-	res := make([]string, col.Len())
-	switch typ.(type) {
-	case *arrow.BooleanType:
-		arr := col.(*array.Boolean)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = w.boolFormatter(arr.Value(i))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Int8Type:
-		arr := col.(*array.Int8)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Int16Type:
-		arr := col.(*array.Int16)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Int32Type:
-		arr := col.(*array.Int32)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Int64Type:
-		arr := col.(*array.Int64)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Uint8Type:
-		arr := col.(*array.Uint8)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatUint(uint64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Uint16Type:
-		arr := col.(*array.Uint16)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatUint(uint64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Uint32Type:
-		arr := col.(*array.Uint32)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatUint(uint64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Uint64Type:
-		arr := col.(*array.Uint64)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatUint(uint64(arr.Value(i)), 10)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Float16Type:
-		arr := col.(*array.Float16)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = arr.Value(i).String()
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Float32Type:
-		arr := col.(*array.Float32)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatFloat(float64(arr.Value(i)), 'g', -1, 32)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Float64Type:
-		arr := col.(*array.Float64)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = strconv.FormatFloat(float64(arr.Value(i)), 'g', -1, 64)
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.StringType:
-		arr := col.(*array.String)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = stringsReplacer(arr.Value(i))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.LargeStringType:
-		arr := col.(*array.LargeString)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = stringsReplacer(arr.Value(i))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Date32Type:
-		arr := col.(*array.Date32)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = arr.Value(i).FormattedString()
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Date64Type:
-		arr := col.(*array.Date64)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = arr.Value(i).FormattedString()
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-
-	case *arrow.TimestampType:
-		arr := col.(*array.Timestamp)
-		t := typ.(*arrow.TimestampType)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = arr.Value(i).ToTime(t.Unit).Format("2006-01-02 15:04:05.999999999")
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Decimal128Type:
-		fieldType := typ.(*arrow.Decimal128Type)
-		scale := fieldType.Scale
-		precision := fieldType.Precision
-		arr := col.(*array.Decimal128)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				f := (&big.Float{}).SetInt(arr.Value(i).BigInt())
-				f.Quo(f, big.NewFloat(math.Pow10(int(scale))))
-				res[i] = f.Text('g', int(precision))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.Decimal256Type:
-		fieldType := typ.(*arrow.Decimal256Type)
-		scale := fieldType.Scale
-		precision := fieldType.Precision
-		arr := col.(*array.Decimal256)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				f := (&big.Float{}).SetInt(arr.Value(i).BigInt())
-				f.Quo(f, big.NewFloat(math.Pow10(int(scale))))
-				res[i] = f.Text('g', int(precision))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case arrow.ListLikeType:
-		arr := col.(array.ListLike)
-		listVals := arr.ListValues()
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsNull(i) {
-				res[i] = w.nullValue
-				continue
-			}
-			start, end := arr.ValueOffsets(i)
-			list := array.NewSlice(listVals, start, end)
-			var b bytes.Buffer
-			b.Write([]byte{'{'})
-			writer := csv.NewWriter(&b)
-			writer.Write(w.transformColToStringArr(list.DataType(), list, stringsReplacer))
-			writer.Flush()
-			b.Truncate(b.Len() - 1)
-			b.Write([]byte{'}'})
-			res[i] = b.String()
-			list.Release()
-		}
-	case *arrow.BinaryType:
-		arr := col.(*array.Binary)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = base64.StdEncoding.EncodeToString(arr.Value(i))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.LargeBinaryType:
-		arr := col.(*array.LargeBinary)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = base64.StdEncoding.EncodeToString(arr.Value(i))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case *arrow.FixedSizeBinaryType:
-		arr := col.(*array.FixedSizeBinary)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsValid(i) {
-				res[i] = base64.StdEncoding.EncodeToString(arr.Value(i))
-			} else {
-				res[i] = w.nullValue
-			}
-		}
-	case arrow.ExtensionType:
-		arr := col.(array.ExtensionArray)
-		for i := 0; i < arr.Len(); i++ {
-			if arr.IsNull(i) {
-				res[i] = w.nullValue
-			} else {
-				res[i] = arr.ValueStr(i)
-			}
-		}
-	case *arrow.NullType:
-		for i := 0; i < col.Len(); i++ {
-			res[i] = w.nullValue
-		}
-	default:
-		panic(fmt.Errorf("arrow/csv: field has unsupported data type %s", typ.String()))
-	}
-	return res
-}
diff --git a/go/arrow/csv/writer.go b/go/arrow/csv/writer.go
deleted file mode 100644
index d0efbde170d65..0000000000000
--- a/go/arrow/csv/writer.go
+++ /dev/null
@@ -1,116 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package csv
-
-import (
-	"encoding/csv"
-	"io"
-	"strconv"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-// Writer wraps encoding/csv.Writer and writes arrow.Record based on a schema.
-type Writer struct {
-	boolFormatter  func(bool) string
-	header         bool
-	nullValue      string
-	stringReplacer func(string) string
-	once           sync.Once
-	schema         *arrow.Schema
-	w              *csv.Writer
-}
-
-// NewWriter returns a writer that writes arrow.Records to the CSV file
-// with the given schema.
-//
-// NewWriter panics if the given schema contains fields that have types that are not
-// primitive types.
-// For BinaryType the writer will use base64 encoding with padding as per base64.StdEncoding.
-func NewWriter(w io.Writer, schema *arrow.Schema, opts ...Option) *Writer {
-	validate(schema)
-
-	ww := &Writer{
-		boolFormatter:  strconv.FormatBool,                 // override by passing WithBoolWriter() as an option
-		nullValue:      "NULL",                             // override by passing WithNullWriter() as an option
-		stringReplacer: func(x string) string { return x }, // override by passing WithStringsReplacer() as an option
-		schema:         schema,
-		w:              csv.NewWriter(w),
-	}
-	for _, opt := range opts {
-		opt(ww)
-	}
-
-	return ww
-}
-
-func (w *Writer) Schema() *arrow.Schema { return w.schema }
-
-// Write writes a single Record as one row to the CSV file
-func (w *Writer) Write(record arrow.Record) error {
-	if !record.Schema().Equal(w.schema) {
-		return ErrMismatchFields
-	}
-
-	var err error
-	if w.header {
-		w.once.Do(func() {
-			err = w.writeHeader()
-		})
-		if err != nil {
-			return err
-		}
-	}
-
-	recs := make([][]string, record.NumRows())
-	for i := range recs {
-		recs[i] = make([]string, record.NumCols())
-	}
-
-	for j, col := range record.Columns() {
-		rows := w.transformColToStringArr(w.schema.Field(j).Type, col, w.stringReplacer)
-		for i, row := range rows {
-			recs[i][j] = row
-		}
-	}
-
-	return w.w.WriteAll(recs)
-}
-
-// Flush writes any buffered data to the underlying csv Writer.
-// If an error occurred during the Flush, return it
-func (w *Writer) Flush() error {
-	w.w.Flush()
-	return w.w.Error()
-}
-
-// Error reports any error that has occurred during a previous Write or Flush.
-func (w *Writer) Error() error {
-	return w.w.Error()
-}
-
-func (w *Writer) writeHeader() error {
-	headers := make([]string, len(w.schema.Fields()))
-	for i := range headers {
-		headers[i] = w.schema.Field(i).Name
-	}
-	if err := w.w.Write(headers); err != nil {
-		return err
-	}
-	return nil
-}
diff --git a/go/arrow/csv/writer_test.go b/go/arrow/csv/writer_test.go
deleted file mode 100644
index 2ae01a6d49071..0000000000000
--- a/go/arrow/csv/writer_test.go
+++ /dev/null
@@ -1,430 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package csv_test
-
-import (
-	"bufio"
-	"bytes"
-	ecsv "encoding/csv"
-	"fmt"
-	"io"
-	"log"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/csv"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/google/uuid"
-)
-
-const (
-	separator = ';'
-	nullVal   = "null"
-)
-
-func Example_writer() {
-	f := new(bytes.Buffer)
-
-	pool := memory.NewGoAllocator()
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.Int64Builder).AppendValues([]int64{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, nil)
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, nil)
-	b.Field(2).(*array.StringBuilder).AppendValues([]string{"str-0", "str-1", "str-2", "str-3", "str-4", "str-5", "str-6", "str-7", "str-8", "str-9"}, nil)
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	w := csv.NewWriter(f, schema, csv.WithComma(';'))
-	err := w.Write(rec)
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	err = w.Flush()
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	err = w.Error()
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	r := csv.NewReader(f, schema, csv.WithComment('#'), csv.WithComma(';'))
-	defer r.Release()
-
-	n := 0
-	for r.Next() {
-		rec := r.Record()
-		for i, col := range rec.Columns() {
-			fmt.Printf("rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-		}
-		n++
-	}
-
-	// check for reader errors indicating issues converting csv values
-	// to the arrow schema types
-	err = r.Err()
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	// Output:
-	// rec[0]["i64"]: [0]
-	// rec[0]["f64"]: [0]
-	// rec[0]["str"]: ["str-0"]
-	// rec[1]["i64"]: [1]
-	// rec[1]["f64"]: [1]
-	// rec[1]["str"]: ["str-1"]
-	// rec[2]["i64"]: [2]
-	// rec[2]["f64"]: [2]
-	// rec[2]["str"]: ["str-2"]
-	// rec[3]["i64"]: [3]
-	// rec[3]["f64"]: [3]
-	// rec[3]["str"]: ["str-3"]
-	// rec[4]["i64"]: [4]
-	// rec[4]["f64"]: [4]
-	// rec[4]["str"]: ["str-4"]
-	// rec[5]["i64"]: [5]
-	// rec[5]["f64"]: [5]
-	// rec[5]["str"]: ["str-5"]
-	// rec[6]["i64"]: [6]
-	// rec[6]["f64"]: [6]
-	// rec[6]["str"]: ["str-6"]
-	// rec[7]["i64"]: [7]
-	// rec[7]["f64"]: [7]
-	// rec[7]["str"]: ["str-7"]
-	// rec[8]["i64"]: [8]
-	// rec[8]["f64"]: [8]
-	// rec[8]["str"]: ["str-8"]
-	// rec[9]["i64"]: [9]
-	// rec[9]["f64"]: [9]
-	// rec[9]["str"]: ["str-9"]
-}
-
-var (
-	fullData = [][]string{
-		{"bool", "i8", "i16", "i32", "i64", "u8", "u16", "u32", "u64", "f16", "f32", "f64", "str", "large_str", "ts_s", "d32", "d64", "dec128", "dec256", "list(i64)", "large_list(i64)", "fixed_size_list(i64)", "binary", "large_binary", "fixed_size_binary", "uuid", "null"},
-		{"true", "-1", "-1", "-1", "-1", "0", "0", "0", "0", "0", "0", "0", "str-0", "str-0", "2014-07-28 15:04:05", "2017-05-18", "2028-04-26", "-123.45", "-123.45", "{1,2,3}", "{1,2,3}", "{1,2,3}", "AAEC", "AAEC", "AAEC", "00000000-0000-0000-0000-000000000001", nullVal},
-		{"false", "0", "0", "0", "0", "1", "1", "1", "1", "0.099975586", "0.1", "0.1", "str-1", "str-1", "2016-09-08 15:04:05", "2022-11-08", "2031-06-28", "0", "0", "{4,5,6}", "{4,5,6}", "{4,5,6}", "AwQF", "AwQF", "AwQF", "00000000-0000-0000-0000-000000000002", nullVal},
-		{"true", "1", "1", "1", "1", "2", "2", "2", "2", "0.19995117", "0.2", "0.2", "str-2", "str-2", "2021-09-18 15:04:05", "2025-08-04", "2034-08-28", "123.45", "123.45", "{7,8,9}", "{7,8,9}", "{7,8,9}", "", "", "AAAA", "00000000-0000-0000-0000-000000000003", nullVal},
-		{nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal},
-	}
-	bananaData = [][]string{
-		{"bool", "i8", "i16", "i32", "i64", "u8", "u16", "u32", "u64", "f16", "f32", "f64", "str", "large_str", "ts_s", "d32", "d64", "dec128", "dec256", "list(i64)", "large_list(i64)", "fixed_size_list(i64)", "binary", "large_binary", "fixed_size_binary", "uuid", "null"},
-		{"BANANA", "-1", "-1", "-1", "-1", "0", "0", "0", "0", "0", "0", "0", "str-0", "str-0", "2014-07-28 15:04:05", "2017-05-18", "2028-04-26", "-123.45", "-123.45", "{1,2,3}", "{1,2,3}", "{1,2,3}", "AAEC", "AAEC", "AAEC", "00000000-0000-0000-0000-000000000001", nullVal},
-		{"MANGO", "0", "0", "0", "0", "1", "1", "1", "1", "0.099975586", "0.1", "0.1", "str-1", "str-1", "2016-09-08 15:04:05", "2022-11-08", "2031-06-28", "0", "0", "{4,5,6}", "{4,5,6}", "{4,5,6}", "AwQF", "AwQF", "AwQF", "00000000-0000-0000-0000-000000000002", nullVal},
-		{"BANANA", "1", "1", "1", "1", "2", "2", "2", "2", "0.19995117", "0.2", "0.2", "str-2", "str-2", "2021-09-18 15:04:05", "2025-08-04", "2034-08-28", "123.45", "123.45", "{7,8,9}", "{7,8,9}", "{7,8,9}", "", "", "AAAA", "00000000-0000-0000-0000-000000000003", nullVal},
-		{nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal},
-	}
-)
-
-func TestCSVWriter(t *testing.T) {
-	tests := []struct {
-		name       string
-		header     bool
-		boolFormat func(bool) string
-		data       [][]string
-	}{
-		{
-			name:   "Noheader",
-			header: false,
-			data:   fullData[1:],
-		},
-		{
-			name:   "header",
-			header: true,
-			data:   fullData,
-		},
-		{
-			name:   "Header with bool fmt",
-			header: true,
-			boolFormat: func(b bool) string {
-				if b {
-					return "BANANA"
-				}
-				return "MANGO"
-			},
-			data: bananaData,
-		},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			testCSVWriter(t, test.data, test.header, test.boolFormat)
-		})
-	}
-}
-
-func genTimestamps(unit arrow.TimeUnit) []arrow.Timestamp {
-	out := []arrow.Timestamp{}
-	for _, input := range []string{"2014-07-28 15:04:05", "2016-09-08 15:04:05", "2021-09-18 15:04:05"} {
-		ts, err := arrow.TimestampFromString(input, unit)
-		if err != nil {
-			panic(fmt.Errorf("could not convert %s to arrow.Timestamp err=%s", input, err))
-		}
-		out = append(out, ts)
-	}
-	return out
-}
-
-func testCSVWriter(t *testing.T, data [][]string, writeHeader bool, fmtr func(bool) string) {
-	f := new(bytes.Buffer)
-
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "bool", Type: arrow.FixedWidthTypes.Boolean},
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8},
-			{Name: "i16", Type: arrow.PrimitiveTypes.Int16},
-			{Name: "i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "u8", Type: arrow.PrimitiveTypes.Uint8},
-			{Name: "u16", Type: arrow.PrimitiveTypes.Uint16},
-			{Name: "u32", Type: arrow.PrimitiveTypes.Uint32},
-			{Name: "u64", Type: arrow.PrimitiveTypes.Uint64},
-			{Name: "f16", Type: arrow.FixedWidthTypes.Float16},
-			{Name: "f32", Type: arrow.PrimitiveTypes.Float32},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-			{Name: "large_str", Type: arrow.BinaryTypes.LargeString},
-			{Name: "ts_s", Type: arrow.FixedWidthTypes.Timestamp_s},
-			{Name: "d32", Type: arrow.FixedWidthTypes.Date32},
-			{Name: "d64", Type: arrow.FixedWidthTypes.Date64},
-			{Name: "dec128", Type: &arrow.Decimal128Type{Precision: 5, Scale: 2}},
-			{Name: "dec256", Type: &arrow.Decimal256Type{Precision: 5, Scale: 2}},
-			{Name: "list(i64)", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-			{Name: "large_list(i64)", Type: arrow.LargeListOf(arrow.PrimitiveTypes.Int64)},
-			{Name: "fixed_size_list(i64)", Type: arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int64)},
-			{Name: "binary", Type: arrow.BinaryTypes.Binary},
-			{Name: "large_binary", Type: arrow.BinaryTypes.LargeBinary},
-			{Name: "fixed_size_binary", Type: &arrow.FixedSizeBinaryType{ByteWidth: 3}},
-			{Name: "uuid", Type: extensions.NewUUIDType()},
-			{Name: "null", Type: arrow.Null},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.BooleanBuilder).AppendValues([]bool{true, false, true}, nil)
-	b.Field(1).(*array.Int8Builder).AppendValues([]int8{-1, 0, 1}, nil)
-	b.Field(2).(*array.Int16Builder).AppendValues([]int16{-1, 0, 1}, nil)
-	b.Field(3).(*array.Int32Builder).AppendValues([]int32{-1, 0, 1}, nil)
-	b.Field(4).(*array.Int64Builder).AppendValues([]int64{-1, 0, 1}, nil)
-	b.Field(5).(*array.Uint8Builder).AppendValues([]uint8{0, 1, 2}, nil)
-	b.Field(6).(*array.Uint16Builder).AppendValues([]uint16{0, 1, 2}, nil)
-	b.Field(7).(*array.Uint32Builder).AppendValues([]uint32{0, 1, 2}, nil)
-	b.Field(8).(*array.Uint64Builder).AppendValues([]uint64{0, 1, 2}, nil)
-	b.Field(9).(*array.Float16Builder).AppendValues([]float16.Num{float16.New(0.0), float16.New(0.1), float16.New(0.2)}, nil)
-	b.Field(10).(*array.Float32Builder).AppendValues([]float32{0.0, 0.1, 0.2}, nil)
-	b.Field(11).(*array.Float64Builder).AppendValues([]float64{0.0, 0.1, 0.2}, nil)
-	b.Field(12).(*array.StringBuilder).AppendValues([]string{"str_0", "str-1", "str-2"}, nil)
-	b.Field(13).(*array.LargeStringBuilder).AppendValues([]string{"str_0", "str-1", "str-2"}, nil)
-	b.Field(14).(*array.TimestampBuilder).AppendValues(genTimestamps(arrow.Second), nil)
-	b.Field(15).(*array.Date32Builder).AppendValues([]arrow.Date32{17304, 19304, 20304}, nil)
-	b.Field(16).(*array.Date64Builder).AppendValues([]arrow.Date64{1840400000000, 1940400000000, 2040400000000}, nil)
-	b.Field(17).(*array.Decimal128Builder).AppendValues([]decimal128.Num{decimal128.FromI64(-12345), decimal128.FromI64(0), decimal128.FromI64(12345)}, nil)
-	b.Field(18).(*array.Decimal256Builder).AppendValues([]decimal256.Num{decimal256.FromI64(-12345), decimal256.FromI64(0), decimal256.FromI64(12345)}, nil)
-	listBuilder := b.Field(19).(*array.ListBuilder)
-	listBuilderInt64 := listBuilder.ValueBuilder().(*array.Int64Builder)
-	listBuilder.Append(true)
-	listBuilderInt64.AppendValues([]int64{1, 2, 3}, nil)
-	listBuilder.Append(true)
-	listBuilderInt64.AppendValues([]int64{4, 5, 6}, nil)
-	listBuilder.Append(true)
-	listBuilderInt64.AppendValues([]int64{7, 8, 9}, nil)
-	largeListBuilder := b.Field(20).(*array.LargeListBuilder)
-	largeListBuilderInt64 := largeListBuilder.ValueBuilder().(*array.Int64Builder)
-	largeListBuilder.Append(true)
-	largeListBuilderInt64.AppendValues([]int64{1, 2, 3}, nil)
-	largeListBuilder.Append(true)
-	largeListBuilderInt64.AppendValues([]int64{4, 5, 6}, nil)
-	largeListBuilder.Append(true)
-	largeListBuilderInt64.AppendValues([]int64{7, 8, 9}, nil)
-	fixedSizeListBuilder := b.Field(21).(*array.FixedSizeListBuilder)
-	fixedSizeListBuilderInt64 := fixedSizeListBuilder.ValueBuilder().(*array.Int64Builder)
-	fixedSizeListBuilder.Append(true)
-	fixedSizeListBuilderInt64.AppendValues([]int64{1, 2, 3}, nil)
-	fixedSizeListBuilder.Append(true)
-	fixedSizeListBuilderInt64.AppendValues([]int64{4, 5, 6}, nil)
-	fixedSizeListBuilder.Append(true)
-	fixedSizeListBuilderInt64.AppendValues([]int64{7, 8, 9}, nil)
-	b.Field(22).(*array.BinaryBuilder).AppendValues([][]byte{{0, 1, 2}, {3, 4, 5}, {}}, nil)
-	b.Field(23).(*array.BinaryBuilder).AppendValues([][]byte{{0, 1, 2}, {3, 4, 5}, {}}, nil)
-	b.Field(24).(*array.FixedSizeBinaryBuilder).AppendValues([][]byte{{0, 1, 2}, {3, 4, 5}, {}}, nil)
-	b.Field(25).(*extensions.UUIDBuilder).AppendValues([]uuid.UUID{uuid.MustParse("00000000-0000-0000-0000-000000000001"), uuid.MustParse("00000000-0000-0000-0000-000000000002"), uuid.MustParse("00000000-0000-0000-0000-000000000003")}, nil)
-	b.Field(26).(*array.NullBuilder).AppendEmptyValues(3)
-
-	for _, field := range b.Fields() {
-		field.AppendNull()
-	}
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	w := csv.NewWriter(f, schema,
-		csv.WithComma(separator),
-		csv.WithCRLF(false),
-		csv.WithHeader(writeHeader),
-		csv.WithNullWriter(nullVal),
-		csv.WithBoolWriter(fmtr),
-		csv.WithStringsReplacer(strings.NewReplacer("_", "-")),
-	)
-	err := w.Write(rec)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	err = w.Flush()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	err = w.Error()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	bdata, err := expectedOutput(data)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	if err = matchCSV(bdata.Bytes(), f.Bytes()); err != nil {
-		t.Fatal(err)
-	}
-}
-
-func expectedOutput(data [][]string) (*bytes.Buffer, error) {
-	b := bytes.NewBuffer(nil)
-	w := ecsv.NewWriter(b)
-	w.Comma = separator
-	w.UseCRLF = false
-	return b, w.WriteAll(data)
-}
-
-func matchCSV(expected, test []byte) error {
-	expectedScanner := bufio.NewScanner(bytes.NewReader(expected))
-	testScanner := bufio.NewScanner(bytes.NewReader(test))
-	line := 0
-	for expectedScanner.Scan() && testScanner.Scan() {
-		if expectedScanner.Text() != testScanner.Text() {
-			return fmt.Errorf("expected=%s != test=%s line=%d", expectedScanner.Text(), testScanner.Text(), line)
-		}
-		line++
-	}
-
-	if expectedScanner.Scan() {
-		return fmt.Errorf("expected unprocessed:%s", expectedScanner.Text())
-	}
-
-	if testScanner.Scan() {
-		return fmt.Errorf("test unprocessed:%s", testScanner.Text())
-	}
-
-	if err := expectedScanner.Err(); err != nil {
-		return err
-	}
-
-	return testScanner.Err()
-}
-
-func BenchmarkWrite(b *testing.B) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(b, 0)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "bool", Type: arrow.FixedWidthTypes.Boolean},
-			{Name: "i8", Type: arrow.PrimitiveTypes.Int8},
-			{Name: "i16", Type: arrow.PrimitiveTypes.Int16},
-			{Name: "i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "u8", Type: arrow.PrimitiveTypes.Uint8},
-			{Name: "u16", Type: arrow.PrimitiveTypes.Uint16},
-			{Name: "u32", Type: arrow.PrimitiveTypes.Uint32},
-			{Name: "u64", Type: arrow.PrimitiveTypes.Uint64},
-			{Name: "f16", Type: arrow.FixedWidthTypes.Float16},
-			{Name: "f32", Type: arrow.PrimitiveTypes.Float32},
-			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			{Name: "str", Type: arrow.BinaryTypes.String},
-			{Name: "large_str", Type: arrow.BinaryTypes.LargeString},
-			{Name: "dec128", Type: &arrow.Decimal128Type{Precision: 4, Scale: 3}},
-			{Name: "dec128", Type: &arrow.Decimal256Type{Precision: 4, Scale: 3}},
-		},
-		nil,
-	)
-
-	bldr := array.NewRecordBuilder(pool, schema)
-	defer bldr.Release()
-
-	const N = 1000
-	for i := 0; i < N; i++ {
-		bldr.Field(0).(*array.BooleanBuilder).Append(i%10 == 0)
-		bldr.Field(1).(*array.Int8Builder).Append(int8(i))
-		bldr.Field(2).(*array.Int16Builder).Append(int16(i))
-		bldr.Field(3).(*array.Int32Builder).Append(int32(i))
-		bldr.Field(4).(*array.Int64Builder).Append(int64(i))
-		bldr.Field(5).(*array.Uint8Builder).Append(uint8(i))
-		bldr.Field(6).(*array.Uint16Builder).Append(uint16(i))
-		bldr.Field(7).(*array.Uint32Builder).Append(uint32(i))
-		bldr.Field(8).(*array.Uint64Builder).Append(uint64(i))
-		bldr.Field(9).(*array.Float16Builder).Append(float16.New(float32(i)))
-		bldr.Field(10).(*array.Float32Builder).Append(float32(i))
-		bldr.Field(11).(*array.Float64Builder).Append(float64(i))
-		bldr.Field(12).(*array.StringBuilder).Append(fmt.Sprintf("str-%d", i))
-		bldr.Field(13).(*array.LargeStringBuilder).Append(fmt.Sprintf("str-%d", i))
-		bldr.Field(14).(*array.Decimal128Builder).Append(decimal128.FromI64(int64(i)))
-		bldr.Field(15).(*array.Decimal256Builder).Append(decimal256.FromI64(int64(i)))
-	}
-
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	w := csv.NewWriter(io.Discard, schema, csv.WithComma(';'), csv.WithCRLF(false))
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		err := w.Write(rec)
-		if err != nil {
-			b.Fatal(err)
-		}
-		err = w.Flush()
-		if err != nil {
-			b.Fatal(err)
-		}
-	}
-}
diff --git a/go/arrow/datatype.go b/go/arrow/datatype.go
deleted file mode 100644
index 96b7bf65505ec..0000000000000
--- a/go/arrow/datatype.go
+++ /dev/null
@@ -1,411 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-	"hash/maphash"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-// Type is a logical type. They can be expressed as
-// either a primitive physical type (bytes or bits of some fixed size), a
-// nested type consisting of other data types, or another data type (e.g. a
-// timestamp encoded as an int64)
-type Type int
-
-const (
-	// NULL type having no physical storage
-	NULL Type = iota
-
-	// BOOL is a 1 bit, LSB bit-packed ordering
-	BOOL
-
-	// UINT8 is an Unsigned 8-bit little-endian integer
-	UINT8
-
-	// INT8 is a Signed 8-bit little-endian integer
-	INT8
-
-	// UINT16 is an Unsigned 16-bit little-endian integer
-	UINT16
-
-	// INT16 is a Signed 16-bit little-endian integer
-	INT16
-
-	// UINT32 is an Unsigned 32-bit little-endian integer
-	UINT32
-
-	// INT32 is a Signed 32-bit little-endian integer
-	INT32
-
-	// UINT64 is an Unsigned 64-bit little-endian integer
-	UINT64
-
-	// INT64 is a Signed 64-bit little-endian integer
-	INT64
-
-	// FLOAT16 is a 2-byte floating point value
-	FLOAT16
-
-	// FLOAT32 is a 4-byte floating point value
-	FLOAT32
-
-	// FLOAT64 is an 8-byte floating point value
-	FLOAT64
-
-	// STRING is a UTF8 variable-length string
-	STRING
-
-	// BINARY is a Variable-length byte type (no guarantee of UTF8-ness)
-	BINARY
-
-	// FIXED_SIZE_BINARY is a binary where each value occupies the same number of bytes
-	FIXED_SIZE_BINARY
-
-	// DATE32 is int32 days since the UNIX epoch
-	DATE32
-
-	// DATE64 is int64 milliseconds since the UNIX epoch
-	DATE64
-
-	// TIMESTAMP is an exact timestamp encoded with int64 since UNIX epoch
-	// Default unit millisecond
-	TIMESTAMP
-
-	// TIME32 is a signed 32-bit integer, representing either seconds or
-	// milliseconds since midnight
-	TIME32
-
-	// TIME64 is a signed 64-bit integer, representing either microseconds or
-	// nanoseconds since midnight
-	TIME64
-
-	// INTERVAL_MONTHS is YEAR_MONTH interval in SQL style
-	INTERVAL_MONTHS
-
-	// INTERVAL_DAY_TIME is DAY_TIME in SQL Style
-	INTERVAL_DAY_TIME
-
-	// DECIMAL128 is a precision- and scale-based decimal type. Storage type depends on the
-	// parameters.
-	DECIMAL128
-
-	// DECIMAL256 is a precision and scale based decimal type, with 256 bit max. not yet implemented
-	DECIMAL256
-
-	// LIST is a list of some logical data type
-	LIST
-
-	// STRUCT of logical types
-	STRUCT
-
-	// SPARSE_UNION of logical types. not yet implemented
-	SPARSE_UNION
-
-	// DENSE_UNION of logical types. not yet implemented
-	DENSE_UNION
-
-	// DICTIONARY aka Category type
-	DICTIONARY
-
-	// MAP is a repeated struct logical type
-	MAP
-
-	// Custom data type, implemented by user
-	EXTENSION
-
-	// Fixed size list of some logical type
-	FIXED_SIZE_LIST
-
-	// Measure of elapsed time in either seconds, milliseconds, microseconds
-	// or nanoseconds.
-	DURATION
-
-	// like STRING, but 64-bit offsets. not yet implemented
-	LARGE_STRING
-
-	// like BINARY but with 64-bit offsets, not yet implemented
-	LARGE_BINARY
-
-	// like LIST but with 64-bit offsets. not yet implemented
-	LARGE_LIST
-
-	// calendar interval with three fields
-	INTERVAL_MONTH_DAY_NANO
-
-	RUN_END_ENCODED
-
-	// String (UTF8) view type with 4-byte prefix and inline
-	// small string optimizations
-	STRING_VIEW
-
-	// Bytes view with 4-byte prefix and inline small byte arrays optimization
-	BINARY_VIEW
-
-	// LIST_VIEW is a list of some logical data type represented with offsets and sizes
-	LIST_VIEW
-
-	// like LIST but with 64-bit offsets
-	LARGE_LIST_VIEW
-
-	// Alias to ensure we do not break any consumers
-	DECIMAL = DECIMAL128
-)
-
-// DataType is the representation of an Arrow type.
-type DataType interface {
-	fmt.Stringer
-	ID() Type
-	// Name is name of the data type.
-	Name() string
-	Fingerprint() string
-	Layout() DataTypeLayout
-}
-
-// TypesToString is a convenience function to create a list of types
-// which are comma delimited as a string
-func TypesToString(types []DataType) string {
-	var b strings.Builder
-	b.WriteByte('(')
-	for i, t := range types {
-		if i != 0 {
-			b.WriteString(", ")
-		}
-		b.WriteString(t.String())
-	}
-	b.WriteByte(')')
-	return b.String()
-}
-
-// FixedWidthDataType is the representation of an Arrow type that
-// requires a fixed number of bits in memory for each element.
-type FixedWidthDataType interface {
-	DataType
-	// BitWidth returns the number of bits required to store a single element of this data type in memory.
-	BitWidth() int
-	// Bytes returns the number of bytes required to store a single element of this data type in memory.
-	Bytes() int
-}
-
-type BinaryDataType interface {
-	DataType
-	IsUtf8() bool
-	binary()
-}
-
-type BinaryViewDataType interface {
-	BinaryDataType
-	view()
-}
-
-type OffsetsDataType interface {
-	DataType
-	OffsetTypeTraits() OffsetTraits
-}
-
-func HashType(seed maphash.Seed, dt DataType) uint64 {
-	var h maphash.Hash
-	h.SetSeed(seed)
-	h.WriteString(dt.Fingerprint())
-	return h.Sum64()
-}
-
-func typeIDFingerprint(id Type) string {
-	c := string(rune(int(id) + int('A')))
-	return "@" + c
-}
-
-func typeFingerprint(typ DataType) string { return typeIDFingerprint(typ.ID()) }
-
-func timeUnitFingerprint(unit TimeUnit) rune {
-	switch unit {
-	case Second:
-		return 's'
-	case Millisecond:
-		return 'm'
-	case Microsecond:
-		return 'u'
-	case Nanosecond:
-		return 'n'
-	default:
-		debug.Assert(false, "unexpected time unit")
-		return rune(0)
-	}
-}
-
-// BufferKind describes the type of buffer expected when defining a layout specification
-type BufferKind int8
-
-// The expected types of buffers
-const (
-	KindFixedWidth BufferKind = iota
-	KindVarWidth
-	KindBitmap
-	KindAlwaysNull
-)
-
-// BufferSpec provides a specification for the buffers of a particular datatype
-type BufferSpec struct {
-	Kind      BufferKind
-	ByteWidth int // for KindFixedWidth
-}
-
-func (b BufferSpec) Equals(other BufferSpec) bool {
-	return b.Kind == other.Kind && (b.Kind != KindFixedWidth || b.ByteWidth == other.ByteWidth)
-}
-
-// DataTypeLayout represents the physical layout of a datatype's buffers including
-// the number of and types of those binary buffers. This will correspond
-// with the buffers in the ArrayData for an array of that type.
-type DataTypeLayout struct {
-	Buffers []BufferSpec
-	HasDict bool
-	// VariadicSpec is what the buffers beyond len(Buffers) are expected to conform to.
-	VariadicSpec *BufferSpec
-}
-
-func SpecFixedWidth(w int) BufferSpec { return BufferSpec{KindFixedWidth, w} }
-func SpecVariableWidth() BufferSpec   { return BufferSpec{KindVarWidth, -1} }
-func SpecBitmap() BufferSpec          { return BufferSpec{KindBitmap, -1} }
-func SpecAlwaysNull() BufferSpec      { return BufferSpec{KindAlwaysNull, -1} }
-
-// IsInteger is a helper to return true if the type ID provided is one of the
-// integral types of uint or int with the varying sizes.
-func IsInteger(t Type) bool {
-	switch t {
-	case UINT8, INT8, UINT16, INT16, UINT32, INT32, UINT64, INT64:
-		return true
-	}
-	return false
-}
-
-// IsUnsignedInteger is a helper that returns true if the type ID provided is
-// one of the uint integral types (uint8, uint16, uint32, uint64)
-func IsUnsignedInteger(t Type) bool {
-	switch t {
-	case UINT8, UINT16, UINT32, UINT64:
-		return true
-	}
-	return false
-}
-
-// IsSignedInteger is a helper that returns true if the type ID provided is
-// one of the int integral types (int8, int16, int32, int64)
-func IsSignedInteger(t Type) bool {
-	switch t {
-	case INT8, INT16, INT32, INT64:
-		return true
-	}
-	return false
-}
-
-// IsFloating is a helper that returns true if the type ID provided is
-// one of Float16, Float32, or Float64
-func IsFloating(t Type) bool {
-	switch t {
-	case FLOAT16, FLOAT32, FLOAT64:
-		return true
-	}
-	return false
-}
-
-// IsPrimitive returns true if the provided type ID represents a fixed width
-// primitive type.
-func IsPrimitive(t Type) bool {
-	switch t {
-	case BOOL, UINT8, INT8, UINT16, INT16, UINT32, INT32, UINT64, INT64,
-		FLOAT16, FLOAT32, FLOAT64, DATE32, DATE64, TIME32, TIME64, TIMESTAMP,
-		DURATION, INTERVAL_MONTHS, INTERVAL_DAY_TIME, INTERVAL_MONTH_DAY_NANO:
-		return true
-	}
-	return false
-}
-
-// IsBaseBinary returns true for Binary/String and their LARGE variants
-func IsBaseBinary(t Type) bool {
-	switch t {
-	case BINARY, STRING, LARGE_BINARY, LARGE_STRING:
-		return true
-	}
-	return false
-}
-
-// IsBinaryLike returns true for only BINARY and STRING
-func IsBinaryLike(t Type) bool {
-	switch t {
-	case BINARY, STRING:
-		return true
-	}
-	return false
-}
-
-// IsLargeBinaryLike returns true for only LARGE_BINARY and LARGE_STRING
-func IsLargeBinaryLike(t Type) bool {
-	switch t {
-	case LARGE_BINARY, LARGE_STRING:
-		return true
-	}
-	return false
-}
-
-// IsFixedSizeBinary returns true for Decimal128/256 and FixedSizeBinary
-func IsFixedSizeBinary(t Type) bool {
-	switch t {
-	case DECIMAL128, DECIMAL256, FIXED_SIZE_BINARY:
-		return true
-	}
-	return false
-}
-
-// IsDecimal returns true for Decimal128 and Decimal256
-func IsDecimal(t Type) bool {
-	switch t {
-	case DECIMAL128, DECIMAL256:
-		return true
-	}
-	return false
-}
-
-// IsUnion returns true for Sparse and Dense Unions
-func IsUnion(t Type) bool {
-	switch t {
-	case DENSE_UNION, SPARSE_UNION:
-		return true
-	}
-	return false
-}
-
-// IsListLike returns true for List, LargeList, FixedSizeList, and Map
-func IsListLike(t Type) bool {
-	switch t {
-	case LIST, LARGE_LIST, FIXED_SIZE_LIST, MAP:
-		return true
-	}
-	return false
-}
-
-// IsNested returns true for List, LargeList, FixedSizeList, Map, Struct, and Unions
-func IsNested(t Type) bool {
-	switch t {
-	case LIST, LARGE_LIST, FIXED_SIZE_LIST, MAP, LIST_VIEW, LARGE_LIST_VIEW, STRUCT, SPARSE_UNION, DENSE_UNION:
-		return true
-	}
-	return false
-}
diff --git a/go/arrow/datatype_binary.go b/go/arrow/datatype_binary.go
deleted file mode 100644
index f3e601f08ec79..0000000000000
--- a/go/arrow/datatype_binary.go
+++ /dev/null
@@ -1,139 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-// OffsetTraits is a convenient interface over the various type traits
-// constants such as arrow.Int32Traits allowing types with offsets, like
-// BinaryType, StringType, LargeBinaryType and LargeStringType to have
-// a method to return information about their offset type and how many bytes
-// would be required to allocate an offset buffer for them.
-type OffsetTraits interface {
-	// BytesRequired returns the number of bytes required to be allocated
-	// in order to hold the passed in number of elements of this type.
-	BytesRequired(int) int
-}
-
-type BinaryType struct{}
-
-func (t *BinaryType) ID() Type            { return BINARY }
-func (t *BinaryType) Name() string        { return "binary" }
-func (t *BinaryType) String() string      { return "binary" }
-func (t *BinaryType) binary()             {}
-func (t *BinaryType) Fingerprint() string { return typeFingerprint(t) }
-func (t *BinaryType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(),
-		SpecFixedWidth(Int32SizeBytes), SpecVariableWidth()}}
-}
-func (t *BinaryType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
-func (BinaryType) IsUtf8() bool                      { return false }
-
-type StringType struct{}
-
-func (t *StringType) ID() Type            { return STRING }
-func (t *StringType) Name() string        { return "utf8" }
-func (t *StringType) String() string      { return "utf8" }
-func (t *StringType) binary()             {}
-func (t *StringType) Fingerprint() string { return typeFingerprint(t) }
-func (t *StringType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(),
-		SpecFixedWidth(Int32SizeBytes), SpecVariableWidth()}}
-}
-func (t *StringType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
-func (StringType) IsUtf8() bool                      { return true }
-
-type LargeBinaryType struct{}
-
-func (t *LargeBinaryType) ID() Type            { return LARGE_BINARY }
-func (t *LargeBinaryType) Name() string        { return "large_binary" }
-func (t *LargeBinaryType) String() string      { return "large_binary" }
-func (t *LargeBinaryType) binary()             {}
-func (t *LargeBinaryType) Fingerprint() string { return typeFingerprint(t) }
-func (t *LargeBinaryType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(),
-		SpecFixedWidth(Int64SizeBytes), SpecVariableWidth()}}
-}
-func (t *LargeBinaryType) OffsetTypeTraits() OffsetTraits { return Int64Traits }
-func (LargeBinaryType) IsUtf8() bool                      { return false }
-
-type LargeStringType struct{}
-
-func (t *LargeStringType) ID() Type            { return LARGE_STRING }
-func (t *LargeStringType) Name() string        { return "large_utf8" }
-func (t *LargeStringType) String() string      { return "large_utf8" }
-func (t *LargeStringType) binary()             {}
-func (t *LargeStringType) Fingerprint() string { return typeFingerprint(t) }
-func (t *LargeStringType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(),
-		SpecFixedWidth(Int64SizeBytes), SpecVariableWidth()}}
-}
-func (t *LargeStringType) OffsetTypeTraits() OffsetTraits { return Int64Traits }
-func (LargeStringType) IsUtf8() bool                      { return true }
-
-type BinaryViewType struct{}
-
-func (*BinaryViewType) ID() Type              { return BINARY_VIEW }
-func (*BinaryViewType) Name() string          { return "binary_view" }
-func (*BinaryViewType) String() string        { return "binary_view" }
-func (*BinaryViewType) IsUtf8() bool          { return false }
-func (*BinaryViewType) binary()               {}
-func (*BinaryViewType) view()                 {}
-func (t *BinaryViewType) Fingerprint() string { return typeFingerprint(t) }
-func (*BinaryViewType) Layout() DataTypeLayout {
-	variadic := SpecVariableWidth()
-	return DataTypeLayout{
-		Buffers:      []BufferSpec{SpecBitmap(), SpecFixedWidth(ViewHeaderSizeBytes)},
-		VariadicSpec: &variadic,
-	}
-}
-
-type StringViewType struct{}
-
-func (*StringViewType) ID() Type              { return STRING_VIEW }
-func (*StringViewType) Name() string          { return "string_view" }
-func (*StringViewType) String() string        { return "string_view" }
-func (*StringViewType) IsUtf8() bool          { return true }
-func (*StringViewType) binary()               {}
-func (*StringViewType) view()                 {}
-func (t *StringViewType) Fingerprint() string { return typeFingerprint(t) }
-func (*StringViewType) Layout() DataTypeLayout {
-	variadic := SpecVariableWidth()
-	return DataTypeLayout{
-		Buffers:      []BufferSpec{SpecBitmap(), SpecFixedWidth(ViewHeaderSizeBytes)},
-		VariadicSpec: &variadic,
-	}
-}
-
-var (
-	BinaryTypes = struct {
-		Binary      BinaryDataType
-		String      BinaryDataType
-		LargeBinary BinaryDataType
-		LargeString BinaryDataType
-		BinaryView  BinaryDataType
-		StringView  BinaryDataType
-	}{
-		Binary:      &BinaryType{},
-		String:      &StringType{},
-		LargeBinary: &LargeBinaryType{},
-		LargeString: &LargeStringType{},
-		BinaryView:  &BinaryViewType{},
-		StringView:  &StringViewType{},
-	}
-
-	_ BinaryViewDataType = (*StringViewType)(nil)
-	_ BinaryViewDataType = (*BinaryViewType)(nil)
-)
diff --git a/go/arrow/datatype_binary_test.go b/go/arrow/datatype_binary_test.go
deleted file mode 100644
index a65d92a0f61ac..0000000000000
--- a/go/arrow/datatype_binary_test.go
+++ /dev/null
@@ -1,113 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-func TestBinaryType(t *testing.T) {
-	var nt *arrow.BinaryType
-	if got, want := nt.ID(), arrow.BINARY; got != want {
-		t.Fatalf("invalid binary type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "binary"; got != want {
-		t.Fatalf("invalid binary type name. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.String(), "binary"; got != want {
-		t.Fatalf("invalid binary type stringer. got=%v, want=%v", got, want)
-	}
-}
-
-func TestStringType(t *testing.T) {
-	var nt *arrow.StringType
-	if got, want := nt.ID(), arrow.STRING; got != want {
-		t.Fatalf("invalid string type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "utf8"; got != want {
-		t.Fatalf("invalid string type name. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.String(), "utf8"; got != want {
-		t.Fatalf("invalid string type stringer. got=%v, want=%v", got, want)
-	}
-}
-
-func TestLargeBinaryType(t *testing.T) {
-	var nt *arrow.LargeBinaryType
-	if got, want := nt.ID(), arrow.LARGE_BINARY; got != want {
-		t.Fatalf("invalid binary type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "large_binary"; got != want {
-		t.Fatalf("invalid binary type name. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.String(), "large_binary"; got != want {
-		t.Fatalf("invalid binary type stringer. got=%v, want=%v", got, want)
-	}
-}
-
-func TestLargeStringType(t *testing.T) {
-	var nt *arrow.LargeStringType
-	if got, want := nt.ID(), arrow.LARGE_STRING; got != want {
-		t.Fatalf("invalid string type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "large_utf8"; got != want {
-		t.Fatalf("invalid string type name. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.String(), "large_utf8"; got != want {
-		t.Fatalf("invalid string type stringer. got=%v, want=%v", got, want)
-	}
-}
-
-func TestBinaryViewType(t *testing.T) {
-	var nt *arrow.BinaryViewType
-	if got, want := nt.ID(), arrow.BINARY_VIEW; got != want {
-		t.Fatalf("invalid string type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "binary_view"; got != want {
-		t.Fatalf("invalid string type name. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.String(), "binary_view"; got != want {
-		t.Fatalf("invalid string type stringer. got=%v, want=%v", got, want)
-	}
-}
-
-func TestStringViewType(t *testing.T) {
-	var nt *arrow.StringViewType
-	if got, want := nt.ID(), arrow.STRING_VIEW; got != want {
-		t.Fatalf("invalid string type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "string_view"; got != want {
-		t.Fatalf("invalid string type name. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.String(), "string_view"; got != want {
-		t.Fatalf("invalid string type stringer. got=%v, want=%v", got, want)
-	}
-}
diff --git a/go/arrow/datatype_encoded.go b/go/arrow/datatype_encoded.go
deleted file mode 100644
index 749f03a582646..0000000000000
--- a/go/arrow/datatype_encoded.go
+++ /dev/null
@@ -1,69 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-type EncodedType interface {
-	DataType
-	Encoded() DataType
-}
-
-// RunEndEncodedType is the datatype to represent a run-end encoded
-// array of data. ValueNullable defaults to true, but can be set false
-// if this should represent a type with a non-nullable value field.
-type RunEndEncodedType struct {
-	runEnds       DataType
-	values        DataType
-	ValueNullable bool
-}
-
-func RunEndEncodedOf(runEnds, values DataType) *RunEndEncodedType {
-	return &RunEndEncodedType{runEnds: runEnds, values: values, ValueNullable: true}
-}
-
-func (*RunEndEncodedType) ID() Type     { return RUN_END_ENCODED }
-func (*RunEndEncodedType) Name() string { return "run_end_encoded" }
-func (*RunEndEncodedType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecAlwaysNull()}}
-}
-
-func (t *RunEndEncodedType) String() string {
-	return t.Name() + "<run_ends: " + t.runEnds.String() + ", values: " + t.values.String() + ">"
-}
-
-func (t *RunEndEncodedType) Fingerprint() string {
-	return typeFingerprint(t) + "{" + t.runEnds.Fingerprint() + ";" + t.values.Fingerprint() + ";}"
-}
-
-func (t *RunEndEncodedType) RunEnds() DataType { return t.runEnds }
-func (t *RunEndEncodedType) Encoded() DataType { return t.values }
-
-func (t *RunEndEncodedType) Fields() []Field {
-	return []Field{
-		{Name: "run_ends", Type: t.runEnds},
-		{Name: "values", Type: t.values, Nullable: t.ValueNullable},
-	}
-}
-
-func (t *RunEndEncodedType) NumFields() int { return 2 }
-
-func (*RunEndEncodedType) ValidRunEndsType(dt DataType) bool {
-	switch dt.ID() {
-	case INT16, INT32, INT64:
-		return true
-	}
-	return false
-}
diff --git a/go/arrow/datatype_extension.go b/go/arrow/datatype_extension.go
deleted file mode 100644
index f0bcccdf2bffc..0000000000000
--- a/go/arrow/datatype_extension.go
+++ /dev/null
@@ -1,180 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-	"reflect"
-	"sync"
-)
-
-var (
-	// global extension type registry, initially left null to avoid paying
-	// the cost if no extension types are used.
-	// the choice to use a sync.Map here is because it's expected that most
-	// use cases would be to register some number of types at initialization
-	// or otherwise and leave them rather than a pattern of repeatedly registering
-	// and unregistering types. As per the documentation for sync.Map
-	// (https://pkg.go.dev/sync#Map), it is specialized for the case where an entry
-	// is written once but read many times which fits our case here as we register
-	// a type once and then have to read it many times when deserializing messages
-	// with that type.
-	extTypeRegistry *sync.Map
-	// used for initializing the registry once and only once
-	initReg sync.Once
-)
-
-// convenience function to ensure that the type registry is initialized once
-// and only once in a goroutine-safe manner.
-func getExtTypeRegistry() *sync.Map {
-	initReg.Do(func() { extTypeRegistry = &sync.Map{} })
-	return extTypeRegistry
-}
-
-// RegisterExtensionType registers the provided ExtensionType by calling ExtensionName
-// to use as a Key for registering the type. If a type with the same name is already
-// registered then this will return an error saying so, otherwise it will return nil
-// if successful registering the type.
-// This function is safe to call from multiple goroutines simultaneously.
-func RegisterExtensionType(typ ExtensionType) error {
-	name := typ.ExtensionName()
-	registry := getExtTypeRegistry()
-	if _, existed := registry.LoadOrStore(name, typ); existed {
-		return fmt.Errorf("arrow: type extension with name %s already defined", name)
-	}
-	return nil
-}
-
-// UnregisterExtensionType removes the type with the given name from the registry
-// causing any messages with that type which come in to be expressed with their
-// metadata and underlying type instead of the extension type that isn't known.
-// This function is safe to call from multiple goroutines simultaneously.
-func UnregisterExtensionType(typName string) error {
-	registry := getExtTypeRegistry()
-	if _, loaded := registry.LoadAndDelete(typName); !loaded {
-		return fmt.Errorf("arrow: no type extension with name %s found", typName)
-	}
-	return nil
-}
-
-// GetExtensionType retrieves and returns the extension type of the given name
-// from the global extension type registry. If the type isn't found it will return
-// nil. This function is safe to call from multiple goroutines concurrently.
-func GetExtensionType(typName string) ExtensionType {
-	registry := getExtTypeRegistry()
-	if val, ok := registry.Load(typName); ok {
-		return val.(ExtensionType)
-	}
-	return nil
-}
-
-// ExtensionType is an interface for handling user-defined types. They must be
-// DataTypes and must embed arrow.ExtensionBase in them in order to work properly
-// ensuring that they always have the expected base behavior.
-//
-// The arrow.ExtensionBase that needs to be embedded implements the DataType interface
-// leaving the remaining functions having to be implemented by the actual user-defined
-// type in order to be handled properly.
-type ExtensionType interface {
-	DataType
-	// ArrayType should return the reflect.TypeOf(ExtensionArrayType{}) where the
-	// ExtensionArrayType is a type that implements the array.ExtensionArray interface.
-	// Such a type must also embed the array.ExtensionArrayBase in it. This will be used
-	// when creating arrays of this ExtensionType by using reflect.New
-	ArrayType() reflect.Type
-	// ExtensionName is what will be used when registering / unregistering this extension
-	// type. Multiple user-defined types can be defined with a parameterized ExtensionType
-	// as long as the parameter is used in the ExtensionName to distinguish the instances
-	// in the global Extension Type registry.
-	// The return from this is also what will be placed in the metadata for IPC communication
-	// under the key ARROW:extension:name
-	ExtensionName() string
-	// StorageType returns the underlying storage type which is used by this extension
-	// type. It is already implemented by the ExtensionBase struct and thus does not need
-	// to be re-implemented by a user-defined type.
-	StorageType() DataType
-	// ExtensionEquals is used to tell whether two ExtensionType instances are equal types.
-	ExtensionEquals(ExtensionType) bool
-	// Serialize should produce any extra metadata necessary for initializing an instance of
-	// this user-defined type. Not all user-defined types require this and it is valid to return
-	// nil from this function or an empty slice. This is used for the IPC format and will be
-	// added to metadata for IPC communication under the key ARROW:extension:metadata
-	// This should be implemented such that it is valid to be called by multiple goroutines
-	// concurrently.
-	Serialize() string
-	// Deserialize is called when reading in extension arrays and types via the IPC format
-	// in order to construct an instance of the appropriate extension type. The passed in data
-	// is pulled from the ARROW:extension:metadata key and may be nil or an empty slice.
-	// If the storage type is incorrect or something else is invalid with the data this should
-	// return nil and an appropriate error.
-	Deserialize(storageType DataType, data string) (ExtensionType, error)
-
-	mustEmbedExtensionBase()
-}
-
-// ExtensionBase is the base struct for user-defined Extension Types which must be
-// embedded in any user-defined types like so:
-//
-//	type UserDefinedType struct {
-//	    arrow.ExtensionBase
-//	    // any other data
-//	}
-type ExtensionBase struct {
-	// Storage is the underlying storage type
-	Storage DataType
-}
-
-// ID always returns arrow.EXTENSION and should not be overridden
-func (*ExtensionBase) ID() Type { return EXTENSION }
-
-// Name should always return "extension" and should not be overridden
-func (*ExtensionBase) Name() string { return "extension" }
-
-// String by default will return "extension_type<storage=storage_type>" by can be overridden
-// to customize what is printed out when printing this extension type.
-func (e *ExtensionBase) String() string { return fmt.Sprintf("extension_type<storage=%s>", e.Storage) }
-
-// StorageType returns the underlying storage type and exists so that functions
-// written against the ExtensionType interface can access the storage type.
-func (e *ExtensionBase) StorageType() DataType { return e.Storage }
-
-func (e *ExtensionBase) Fingerprint() string { return typeFingerprint(e) + e.Storage.Fingerprint() }
-
-func (e *ExtensionBase) Fields() []Field {
-	if nested, ok := e.Storage.(NestedType); ok {
-		return nested.Fields()
-	}
-	return nil
-}
-
-func (e *ExtensionBase) NumFields() int {
-	if nested, ok := e.Storage.(NestedType); ok {
-		return nested.NumFields()
-	}
-	return 0
-}
-
-func (e *ExtensionBase) Layout() DataTypeLayout { return e.Storage.Layout() }
-
-// this no-op exists to ensure that this type must be embedded in any user-defined extension type.
-//
-//lint:ignore U1000 this function is intentionally unused as it only exists to ensure embedding happens
-func (ExtensionBase) mustEmbedExtensionBase() {}
-
-var (
-	_ DataType = (*ExtensionBase)(nil)
-)
diff --git a/go/arrow/datatype_extension_test.go b/go/arrow/datatype_extension_test.go
deleted file mode 100644
index 7244d377bd285..0000000000000
--- a/go/arrow/datatype_extension_test.go
+++ /dev/null
@@ -1,76 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-type BadExtensionType struct{}
-
-func (BadExtensionType) ID() arrow.Type                           { return arrow.EXTENSION }
-func (BadExtensionType) ArrayType() reflect.Type                  { return nil }
-func (BadExtensionType) Name() string                             { return "bad" }
-func (BadExtensionType) StorageType() arrow.DataType              { return arrow.Null }
-func (BadExtensionType) ExtensionEquals(arrow.ExtensionType) bool { return false }
-func (BadExtensionType) ExtensionName() string                    { return "bad" }
-func (BadExtensionType) Serialize() string                        { return "" }
-func (BadExtensionType) Deserialize(_ arrow.DataType, _ string) (arrow.ExtensionType, error) {
-	return nil, nil
-}
-
-func TestMustEmbedBase(t *testing.T) {
-	var ext interface{} = &BadExtensionType{}
-	assert.Panics(t, func() {
-		var _ arrow.ExtensionType = ext.(arrow.ExtensionType)
-	})
-}
-
-type ExtensionTypeTestSuite struct {
-	suite.Suite
-}
-
-func (e *ExtensionTypeTestSuite) TestExtensionType() {
-	e.Nil(arrow.GetExtensionType("uuid-unknown"))
-	e.NotNil(arrow.GetExtensionType("arrow.uuid"))
-
-	e.Error(arrow.RegisterExtensionType(extensions.NewUUIDType()))
-	e.Error(arrow.UnregisterExtensionType("uuid-unknown"))
-
-	typ := extensions.NewUUIDType()
-	e.Implements((*arrow.ExtensionType)(nil), typ)
-	e.Equal(arrow.EXTENSION, typ.ID())
-	e.Equal("extension", typ.Name())
-
-	serialized := typ.Serialize()
-	deserialized, err := typ.Deserialize(&arrow.FixedSizeBinaryType{ByteWidth: 16}, serialized)
-	e.NoError(err)
-
-	e.True(arrow.TypeEqual(deserialized.StorageType(), &arrow.FixedSizeBinaryType{ByteWidth: 16}))
-	e.True(arrow.TypeEqual(deserialized, typ))
-	e.False(arrow.TypeEqual(deserialized, &arrow.FixedSizeBinaryType{ByteWidth: 16}))
-}
-
-func TestExtensionTypes(t *testing.T) {
-	suite.Run(t, new(ExtensionTypeTestSuite))
-}
diff --git a/go/arrow/datatype_fixedwidth.go b/go/arrow/datatype_fixedwidth.go
deleted file mode 100644
index 8bcae78d7d8af..0000000000000
--- a/go/arrow/datatype_fixedwidth.go
+++ /dev/null
@@ -1,816 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-	"strconv"
-	"sync"
-	"time"
-
-	"github.com/apache/arrow/go/v18/internal/json"
-
-	"golang.org/x/xerrors"
-)
-
-type BooleanType struct{}
-
-func (t *BooleanType) ID() Type            { return BOOL }
-func (t *BooleanType) Name() string        { return "bool" }
-func (t *BooleanType) String() string      { return "bool" }
-func (t *BooleanType) Fingerprint() string { return typeFingerprint(t) }
-func (BooleanType) Bytes() int             { return 1 }
-
-// BitWidth returns the number of bits required to store a single element of this data type in memory.
-func (t *BooleanType) BitWidth() int { return 1 }
-
-func (BooleanType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecBitmap()}}
-}
-
-type FixedSizeBinaryType struct {
-	ByteWidth int
-}
-
-func (*FixedSizeBinaryType) ID() Type              { return FIXED_SIZE_BINARY }
-func (*FixedSizeBinaryType) Name() string          { return "fixed_size_binary" }
-func (t *FixedSizeBinaryType) BitWidth() int       { return 8 * t.ByteWidth }
-func (t *FixedSizeBinaryType) Bytes() int          { return t.ByteWidth }
-func (t *FixedSizeBinaryType) Fingerprint() string { return typeFingerprint(t) }
-func (t *FixedSizeBinaryType) String() string {
-	return "fixed_size_binary[" + strconv.Itoa(t.ByteWidth) + "]"
-}
-func (t *FixedSizeBinaryType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(t.ByteWidth)}}
-}
-
-type (
-	Timestamp int64
-	Time32    int32
-	Time64    int64
-	TimeUnit  int
-	Date32    int32
-	Date64    int64
-	Duration  int64
-)
-
-// Date32FromTime returns a Date32 value from a time object
-func Date32FromTime(t time.Time) Date32 {
-	return Date32(t.Truncate(24*time.Hour).Unix() / int64((time.Hour * 24).Seconds()))
-}
-
-func (d Date32) ToTime() time.Time {
-	return time.Unix(0, 0).UTC().AddDate(0, 0, int(d))
-}
-
-func (d Date32) FormattedString() string {
-	return d.ToTime().Format("2006-01-02")
-}
-
-// Date64FromTime returns a Date64 value from a time object
-func Date64FromTime(t time.Time) Date64 {
-	// truncate to the start of the day to get the correct value
-	t = t.Truncate(24 * time.Hour)
-	return Date64(t.Unix()*1e3 + int64(t.Nanosecond())/1e6)
-}
-
-func (d Date64) ToTime() time.Time {
-	days := int(int64(d) / (time.Hour * 24).Milliseconds())
-	return time.Unix(0, 0).UTC().AddDate(0, 0, days)
-}
-
-func (d Date64) FormattedString() string {
-	return d.ToTime().Format("2006-01-02")
-}
-
-// TimestampFromStringInLocation is like TimestampFromString, but treats the time instant
-// as if it were in the provided timezone before converting to UTC for internal representation.
-func TimestampFromStringInLocation(val string, unit TimeUnit, loc *time.Location) (Timestamp, bool, error) {
-	if len(val) < 10 {
-		return 0, false, fmt.Errorf("%w: invalid timestamp string", ErrInvalid)
-	}
-
-	var (
-		format         = "2006-01-02"
-		zoneFmt        string
-		lenWithoutZone = len(val)
-	)
-
-	if lenWithoutZone > 10 {
-		switch {
-		case val[len(val)-1] == 'Z':
-			zoneFmt = "Z"
-			lenWithoutZone--
-		case val[len(val)-3] == '+' || val[len(val)-3] == '-':
-			zoneFmt = "-07"
-			lenWithoutZone -= 3
-		case val[len(val)-5] == '+' || val[len(val)-5] == '-':
-			zoneFmt = "-0700"
-			lenWithoutZone -= 5
-		case val[len(val)-6] == '+' || val[len(val)-6] == '-':
-			zoneFmt = "-07:00"
-			lenWithoutZone -= 6
-		}
-	}
-
-	switch {
-	case lenWithoutZone == 13:
-		format += string(val[10]) + "15"
-	case lenWithoutZone == 16:
-		format += string(val[10]) + "15:04"
-	case lenWithoutZone >= 19:
-		format += string(val[10]) + "15:04:05.999999999"
-	}
-
-	// error if we're truncating precision
-	// don't need a case for nano as time.Parse will already error if
-	// more than nanosecond precision is provided
-	switch {
-	case unit == Second && lenWithoutZone > 19:
-		return 0, zoneFmt != "", xerrors.New("provided more than second precision for timestamp[s]")
-	case unit == Millisecond && lenWithoutZone > 23:
-		return 0, zoneFmt != "", xerrors.New("provided more than millisecond precision for timestamp[ms]")
-	case unit == Microsecond && lenWithoutZone > 26:
-		return 0, zoneFmt != "", xerrors.New("provided more than microsecond precision for timestamp[us]")
-	}
-
-	format += zoneFmt
-	out, err := time.Parse(format, val)
-	if err != nil {
-		return 0, zoneFmt != "", fmt.Errorf("%w: %s", ErrInvalid, err)
-	}
-	if loc != time.UTC {
-		// convert to UTC by putting the same time instant in the desired location
-		// before converting to UTC
-		out = out.In(loc).UTC()
-	}
-
-	ts, err := TimestampFromTime(out, unit)
-	return ts, zoneFmt != "", err
-}
-
-// TimestampFromString parses a string and returns a timestamp for the given unit
-// level.
-//
-// The timestamp should be in one of the following forms, [T] can be either T
-// or a space, and [.zzzzzzzzz] can be either left out or up to 9 digits of
-// fractions of a second.
-//
-//	YYYY-MM-DD
-//	YYYY-MM-DD[T]HH
-//	YYYY-MM-DD[T]HH:MM
-//	YYYY-MM-DD[T]HH:MM:SS[.zzzzzzzz]
-//
-// You can also optionally have an ending Z to indicate UTC or indicate a specific
-// timezone using ±HH, ±HHMM or ±HH:MM at the end of the string.
-func TimestampFromString(val string, unit TimeUnit) (Timestamp, error) {
-	tm, _, err := TimestampFromStringInLocation(val, unit, time.UTC)
-	return tm, err
-}
-
-func (t Timestamp) ToTime(unit TimeUnit) time.Time {
-	switch unit {
-	case Second:
-		return time.Unix(int64(t), 0).UTC()
-	case Millisecond:
-		return time.UnixMilli(int64(t)).UTC()
-	case Microsecond:
-		return time.UnixMicro(int64(t)).UTC()
-	default:
-		return time.Unix(0, int64(t)).UTC()
-	}
-}
-
-// TimestampFromTime allows converting time.Time to Timestamp
-func TimestampFromTime(val time.Time, unit TimeUnit) (Timestamp, error) {
-	switch unit {
-	case Second:
-		return Timestamp(val.Unix()), nil
-	case Millisecond:
-		return Timestamp(val.Unix()*1e3 + int64(val.Nanosecond())/1e6), nil
-	case Microsecond:
-		return Timestamp(val.Unix()*1e6 + int64(val.Nanosecond())/1e3), nil
-	case Nanosecond:
-		return Timestamp(val.UnixNano()), nil
-	default:
-		return 0, fmt.Errorf("%w: unexpected timestamp unit: %s", ErrInvalid, unit)
-	}
-}
-
-// Time32FromString parses a string to return a Time32 value in the given unit,
-// unit needs to be only seconds or milliseconds and the string should be in the
-// form of HH:MM or HH:MM:SS[.zzz] where the fractions of a second are optional.
-func Time32FromString(val string, unit TimeUnit) (Time32, error) {
-	switch unit {
-	case Second:
-		if len(val) > 8 {
-			return 0, xerrors.New("cannot convert larger than second precision to time32s")
-		}
-	case Millisecond:
-		if len(val) > 12 {
-			return 0, xerrors.New("cannot convert larger than millisecond precision to time32ms")
-		}
-	case Microsecond, Nanosecond:
-		return 0, xerrors.New("time32 can only be seconds or milliseconds")
-	}
-
-	var (
-		out time.Time
-		err error
-	)
-	switch {
-	case len(val) == 5:
-		out, err = time.Parse("15:04", val)
-	default:
-		out, err = time.Parse("15:04:05.999", val)
-	}
-	if err != nil {
-		return 0, err
-	}
-	t := out.Sub(time.Date(0, 1, 1, 0, 0, 0, 0, time.UTC))
-	if unit == Second {
-		return Time32(t.Seconds()), nil
-	}
-	return Time32(t.Milliseconds()), nil
-}
-
-func (t Time32) ToTime(unit TimeUnit) time.Time {
-	return time.Unix(0, int64(t)*int64(unit.Multiplier())).UTC()
-}
-
-func (t Time32) FormattedString(unit TimeUnit) string {
-	const baseFmt = "15:04:05"
-	tm := t.ToTime(unit)
-	switch unit {
-	case Second:
-		return tm.Format(baseFmt)
-	case Millisecond:
-		return tm.Format(baseFmt + ".000")
-	}
-	return ""
-}
-
-// Time64FromString parses a string to return a Time64 value in the given unit,
-// unit needs to be only microseconds or nanoseconds and the string should be in the
-// form of HH:MM or HH:MM:SS[.zzzzzzzzz] where the fractions of a second are optional.
-func Time64FromString(val string, unit TimeUnit) (Time64, error) {
-	// don't need to check length for nanoseconds as Parse will already error
-	// if more than 9 digits are provided for the fractional second
-	switch unit {
-	case Microsecond:
-		if len(val) > 15 {
-			return 0, xerrors.New("cannot convert larger than microsecond precision to time64us")
-		}
-	case Second, Millisecond:
-		return 0, xerrors.New("time64 should only be microseconds or nanoseconds")
-	}
-
-	var (
-		out time.Time
-		err error
-	)
-	switch {
-	case len(val) == 5:
-		out, err = time.Parse("15:04", val)
-	default:
-		out, err = time.Parse("15:04:05.999999999", val)
-	}
-	if err != nil {
-		return 0, err
-	}
-	t := out.Sub(time.Date(0, 1, 1, 0, 0, 0, 0, time.UTC))
-	if unit == Microsecond {
-		return Time64(t.Microseconds()), nil
-	}
-	return Time64(t.Nanoseconds()), nil
-}
-
-func (t Time64) ToTime(unit TimeUnit) time.Time {
-	return time.Unix(0, int64(t)*int64(unit.Multiplier())).UTC()
-}
-
-func (t Time64) FormattedString(unit TimeUnit) string {
-	const baseFmt = "15:04:05.000000"
-	tm := t.ToTime(unit)
-	switch unit {
-	case Microsecond:
-		return tm.Format(baseFmt)
-	case Nanosecond:
-		return tm.Format(baseFmt + "000")
-	}
-	return ""
-}
-
-const (
-	Second TimeUnit = iota
-	Millisecond
-	Microsecond
-	Nanosecond
-)
-
-var TimeUnitValues = []TimeUnit{Second, Millisecond, Microsecond, Nanosecond}
-
-// Multiplier returns a time.Duration value to multiply by in order to
-// convert the value into nanoseconds
-func (u TimeUnit) Multiplier() time.Duration {
-	return [...]time.Duration{time.Second, time.Millisecond, time.Microsecond, time.Nanosecond}[uint(u)&3]
-}
-
-func (u TimeUnit) String() string { return [...]string{"s", "ms", "us", "ns"}[uint(u)&3] }
-
-type TemporalWithUnit interface {
-	FixedWidthDataType
-	TimeUnit() TimeUnit
-}
-
-// TimestampType is encoded as a 64-bit signed integer since the UNIX epoch (2017-01-01T00:00:00Z).
-// The zero-value is a second and time zone neutral. In Arrow semantics, time zone neutral does not
-// represent a physical point in time, but rather a "wall clock" time that only has meaning within
-// the context that produced it. In Go, time.Time can only represent instants; there is no notion
-// of "wall clock" time. Therefore, time zone neutral timestamps are represented as UTC per Go
-// conventions even though the Arrow type itself has no time zone.
-type TimestampType struct {
-	Unit     TimeUnit
-	TimeZone string
-
-	loc *time.Location
-	mx  sync.RWMutex
-}
-
-func (*TimestampType) ID() Type     { return TIMESTAMP }
-func (*TimestampType) Name() string { return "timestamp" }
-func (t *TimestampType) String() string {
-	switch len(t.TimeZone) {
-	case 0:
-		return "timestamp[" + t.Unit.String() + "]"
-	default:
-		return "timestamp[" + t.Unit.String() + ", tz=" + t.TimeZone + "]"
-	}
-}
-
-func (t *TimestampType) Fingerprint() string {
-	return fmt.Sprintf("%s%d:%s", typeFingerprint(t)+string(timeUnitFingerprint(t.Unit)), len(t.TimeZone), t.TimeZone)
-}
-
-// BitWidth returns the number of bits required to store a single element of this data type in memory.
-func (*TimestampType) BitWidth() int { return 64 }
-
-func (*TimestampType) Bytes() int { return Int64SizeBytes }
-
-func (*TimestampType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(TimestampSizeBytes)}}
-}
-
-func (t *TimestampType) TimeUnit() TimeUnit { return t.Unit }
-
-// ClearCachedLocation clears the cached time.Location object in the type.
-// This should be called if you change the value of the TimeZone after having
-// potentially called GetZone.
-func (t *TimestampType) ClearCachedLocation() {
-	t.mx.Lock()
-	defer t.mx.Unlock()
-	t.loc = nil
-}
-
-// GetZone returns a *time.Location that represents the current TimeZone member
-// of the TimestampType. If it is "", "UTC", or "utc", you'll get time.UTC.
-// Otherwise it must either be a valid tzdata string such as "America/New_York"
-// or of the format +HH:MM or -HH:MM indicating an absolute offset.
-//
-// The location object will be cached in the TimestampType for subsequent calls
-// so if you change the value of TimeZone after calling this, make sure to call
-// ClearCachedLocation.
-func (t *TimestampType) GetZone() (*time.Location, error) {
-	t.mx.RLock()
-	if t.loc != nil {
-		defer t.mx.RUnlock()
-		return t.loc, nil
-	}
-
-	t.mx.RUnlock()
-	t.mx.Lock()
-	defer t.mx.Unlock()
-	// in case GetZone() was called in between releasing the read lock and
-	// getting the write lock
-	if t.loc != nil {
-		return t.loc, nil
-	}
-	// the TimeZone string is allowed to be either a valid tzdata string
-	// such as "America/New_York" or an absolute offset of the form -XX:XX
-	// or +XX:XX
-	//
-	// As such we have two methods we can try, first we'll try LoadLocation
-	// and if that fails, we'll test for an absolute offset.
-	if t.TimeZone == "" || t.TimeZone == "UTC" || t.TimeZone == "utc" {
-		t.loc = time.UTC
-		return time.UTC, nil
-	}
-
-	if loc, err := time.LoadLocation(t.TimeZone); err == nil {
-		t.loc = loc
-		return loc, err
-	}
-
-	// at this point we know that the timezone isn't empty, and didn't match
-	// anything in the tzdata names. So either it's an absolute offset
-	// or it's invalid.
-	timetz, err := time.Parse("-07:00", t.TimeZone)
-	if err != nil {
-		return time.UTC, fmt.Errorf("could not find timezone location for '%s'", t.TimeZone)
-	}
-
-	_, offset := timetz.Zone()
-	t.loc = time.FixedZone(t.TimeZone, offset)
-	return t.loc, nil
-}
-
-// GetToTimeFunc returns a function for converting an arrow.Timestamp value into a
-// time.Time object with proper TimeZone and precision. If the TimeZone is invalid
-// this will return an error. It calls GetZone to get the timezone for consistency.
-func (t *TimestampType) GetToTimeFunc() (func(Timestamp) time.Time, error) {
-	tz, err := t.GetZone()
-	if err != nil {
-		return nil, err
-	}
-
-	return func(v Timestamp) time.Time { return v.ToTime(t.Unit).In(tz) }, nil
-}
-
-// Time32Type is encoded as a 32-bit signed integer, representing either seconds or milliseconds since midnight.
-type Time32Type struct {
-	Unit TimeUnit
-}
-
-func (*Time32Type) ID() Type         { return TIME32 }
-func (*Time32Type) Name() string     { return "time32" }
-func (*Time32Type) BitWidth() int    { return 32 }
-func (*Time32Type) Bytes() int       { return Int32SizeBytes }
-func (t *Time32Type) String() string { return "time32[" + t.Unit.String() + "]" }
-func (t *Time32Type) Fingerprint() string {
-	return typeFingerprint(t) + string(timeUnitFingerprint(t.Unit))
-}
-
-func (Time32Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Time32SizeBytes)}}
-}
-
-func (t *Time32Type) TimeUnit() TimeUnit { return t.Unit }
-
-// Time64Type is encoded as a 64-bit signed integer, representing either microseconds or nanoseconds since midnight.
-type Time64Type struct {
-	Unit TimeUnit
-}
-
-func (*Time64Type) ID() Type         { return TIME64 }
-func (*Time64Type) Name() string     { return "time64" }
-func (*Time64Type) BitWidth() int    { return 64 }
-func (*Time64Type) Bytes() int       { return Int64SizeBytes }
-func (t *Time64Type) String() string { return "time64[" + t.Unit.String() + "]" }
-func (t *Time64Type) Fingerprint() string {
-	return typeFingerprint(t) + string(timeUnitFingerprint(t.Unit))
-}
-
-func (Time64Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Time64SizeBytes)}}
-}
-
-func (t *Time64Type) TimeUnit() TimeUnit { return t.Unit }
-
-// DurationType is encoded as a 64-bit signed integer, representing an amount
-// of elapsed time without any relation to a calendar artifact.
-type DurationType struct {
-	Unit TimeUnit
-}
-
-func (*DurationType) ID() Type         { return DURATION }
-func (*DurationType) Name() string     { return "duration" }
-func (*DurationType) BitWidth() int    { return 64 }
-func (*DurationType) Bytes() int       { return Int64SizeBytes }
-func (t *DurationType) String() string { return "duration[" + t.Unit.String() + "]" }
-func (t *DurationType) Fingerprint() string {
-	return typeFingerprint(t) + string(timeUnitFingerprint(t.Unit))
-}
-
-func (DurationType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(DurationSizeBytes)}}
-}
-
-func (t *DurationType) TimeUnit() TimeUnit { return t.Unit }
-
-// Float16Type represents a floating point value encoded with a 16-bit precision.
-type Float16Type struct{}
-
-func (t *Float16Type) ID() Type            { return FLOAT16 }
-func (t *Float16Type) Name() string        { return "float16" }
-func (t *Float16Type) String() string      { return "float16" }
-func (t *Float16Type) Fingerprint() string { return typeFingerprint(t) }
-
-// BitWidth returns the number of bits required to store a single element of this data type in memory.
-func (t *Float16Type) BitWidth() int { return 16 }
-
-func (Float16Type) Bytes() int { return Float16SizeBytes }
-
-func (Float16Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Float16SizeBytes)}}
-}
-
-type DecimalType interface {
-	DataType
-	GetPrecision() int32
-	GetScale() int32
-}
-
-func NewDecimalType(id Type, prec, scale int32) (DecimalType, error) {
-	switch id {
-	case DECIMAL128:
-		return &Decimal128Type{Precision: prec, Scale: scale}, nil
-	case DECIMAL256:
-		return &Decimal256Type{Precision: prec, Scale: scale}, nil
-	default:
-		return nil, fmt.Errorf("%w: must use DECIMAL128 or DECIMAL256 to create a DecimalType", ErrInvalid)
-	}
-}
-
-// Decimal128Type represents a fixed-size 128-bit decimal type.
-type Decimal128Type struct {
-	Precision int32
-	Scale     int32
-}
-
-func (*Decimal128Type) ID() Type      { return DECIMAL128 }
-func (*Decimal128Type) Name() string  { return "decimal" }
-func (*Decimal128Type) BitWidth() int { return 128 }
-func (*Decimal128Type) Bytes() int    { return Decimal128SizeBytes }
-func (t *Decimal128Type) String() string {
-	return fmt.Sprintf("%s(%d, %d)", t.Name(), t.Precision, t.Scale)
-}
-func (t *Decimal128Type) Fingerprint() string {
-	return fmt.Sprintf("%s[%d,%d,%d]", typeFingerprint(t), t.BitWidth(), t.Precision, t.Scale)
-}
-func (t *Decimal128Type) GetPrecision() int32 { return t.Precision }
-func (t *Decimal128Type) GetScale() int32     { return t.Scale }
-
-func (Decimal128Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Decimal128SizeBytes)}}
-}
-
-// Decimal256Type represents a fixed-size 256-bit decimal type.
-type Decimal256Type struct {
-	Precision int32
-	Scale     int32
-}
-
-func (*Decimal256Type) ID() Type      { return DECIMAL256 }
-func (*Decimal256Type) Name() string  { return "decimal256" }
-func (*Decimal256Type) BitWidth() int { return 256 }
-func (*Decimal256Type) Bytes() int    { return Decimal256SizeBytes }
-func (t *Decimal256Type) String() string {
-	return fmt.Sprintf("%s(%d, %d)", t.Name(), t.Precision, t.Scale)
-}
-func (t *Decimal256Type) Fingerprint() string {
-	return fmt.Sprintf("%s[%d,%d,%d]", typeFingerprint(t), t.BitWidth(), t.Precision, t.Scale)
-}
-func (t *Decimal256Type) GetPrecision() int32 { return t.Precision }
-func (t *Decimal256Type) GetScale() int32     { return t.Scale }
-
-func (Decimal256Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Decimal256SizeBytes)}}
-}
-
-// MonthInterval represents a number of months.
-type MonthInterval int32
-
-func (m *MonthInterval) UnmarshalJSON(data []byte) error {
-	var val struct {
-		Months int32 `json:"months"`
-	}
-	if err := json.Unmarshal(data, &val); err != nil {
-		return err
-	}
-
-	*m = MonthInterval(val.Months)
-	return nil
-}
-
-func (m MonthInterval) MarshalJSON() ([]byte, error) {
-	return json.Marshal(struct {
-		Months int32 `json:"months"`
-	}{int32(m)})
-}
-
-// MonthIntervalType is encoded as a 32-bit signed integer,
-// representing a number of months.
-type MonthIntervalType struct{}
-
-func (*MonthIntervalType) ID() Type            { return INTERVAL_MONTHS }
-func (*MonthIntervalType) Name() string        { return "month_interval" }
-func (*MonthIntervalType) String() string      { return "month_interval" }
-func (*MonthIntervalType) Fingerprint() string { return typeIDFingerprint(INTERVAL_MONTHS) + "M" }
-
-// BitWidth returns the number of bits required to store a single element of this data type in memory.
-func (t *MonthIntervalType) BitWidth() int { return 32 }
-
-func (MonthIntervalType) Bytes() int { return Int32SizeBytes }
-func (MonthIntervalType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(MonthIntervalSizeBytes)}}
-}
-
-// DayTimeInterval represents a number of days and milliseconds (fraction of day).
-type DayTimeInterval struct {
-	Days         int32 `json:"days"`
-	Milliseconds int32 `json:"milliseconds"`
-}
-
-// DayTimeIntervalType is encoded as a pair of 32-bit signed integer,
-// representing a number of days and milliseconds (fraction of day).
-type DayTimeIntervalType struct{}
-
-func (*DayTimeIntervalType) ID() Type            { return INTERVAL_DAY_TIME }
-func (*DayTimeIntervalType) Name() string        { return "day_time_interval" }
-func (*DayTimeIntervalType) String() string      { return "day_time_interval" }
-func (*DayTimeIntervalType) Fingerprint() string { return typeIDFingerprint(INTERVAL_DAY_TIME) + "d" }
-
-// BitWidth returns the number of bits required to store a single element of this data type in memory.
-func (t *DayTimeIntervalType) BitWidth() int { return 64 }
-
-func (DayTimeIntervalType) Bytes() int { return DayTimeIntervalSizeBytes }
-func (DayTimeIntervalType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(DayTimeIntervalSizeBytes)}}
-}
-
-// MonthDayNanoInterval represents a number of months, days and nanoseconds (fraction of day).
-type MonthDayNanoInterval struct {
-	Months      int32 `json:"months"`
-	Days        int32 `json:"days"`
-	Nanoseconds int64 `json:"nanoseconds"`
-}
-
-// MonthDayNanoIntervalType is encoded as two signed 32-bit integers representing
-// a number of months and a number of days, followed by a 64-bit integer representing
-// the number of nanoseconds since midnight for fractions of a day.
-type MonthDayNanoIntervalType struct{}
-
-func (*MonthDayNanoIntervalType) ID() Type       { return INTERVAL_MONTH_DAY_NANO }
-func (*MonthDayNanoIntervalType) Name() string   { return "month_day_nano_interval" }
-func (*MonthDayNanoIntervalType) String() string { return "month_day_nano_interval" }
-func (*MonthDayNanoIntervalType) Fingerprint() string {
-	return typeIDFingerprint(INTERVAL_MONTH_DAY_NANO) + "N"
-}
-
-// BitWidth returns the number of bits required to store a single element of this data type in memory.
-func (*MonthDayNanoIntervalType) BitWidth() int { return 128 }
-func (*MonthDayNanoIntervalType) Bytes() int    { return MonthDayNanoIntervalSizeBytes }
-func (MonthDayNanoIntervalType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(MonthDayNanoIntervalSizeBytes)}}
-}
-
-type TimestampConvertOp int8
-
-const (
-	ConvDIVIDE = iota
-	ConvMULTIPLY
-)
-
-var timestampConversion = [...][4]struct {
-	op     TimestampConvertOp
-	factor int64
-}{
-	Nanosecond: {
-		Nanosecond:  {ConvMULTIPLY, int64(time.Nanosecond)},
-		Microsecond: {ConvDIVIDE, int64(time.Microsecond)},
-		Millisecond: {ConvDIVIDE, int64(time.Millisecond)},
-		Second:      {ConvDIVIDE, int64(time.Second)},
-	},
-	Microsecond: {
-		Nanosecond:  {ConvMULTIPLY, int64(time.Microsecond)},
-		Microsecond: {ConvMULTIPLY, 1},
-		Millisecond: {ConvDIVIDE, int64(time.Millisecond / time.Microsecond)},
-		Second:      {ConvDIVIDE, int64(time.Second / time.Microsecond)},
-	},
-	Millisecond: {
-		Nanosecond:  {ConvMULTIPLY, int64(time.Millisecond)},
-		Microsecond: {ConvMULTIPLY, int64(time.Millisecond / time.Microsecond)},
-		Millisecond: {ConvMULTIPLY, 1},
-		Second:      {ConvDIVIDE, int64(time.Second / time.Millisecond)},
-	},
-	Second: {
-		Nanosecond:  {ConvMULTIPLY, int64(time.Second)},
-		Microsecond: {ConvMULTIPLY, int64(time.Second / time.Microsecond)},
-		Millisecond: {ConvMULTIPLY, int64(time.Second / time.Millisecond)},
-		Second:      {ConvMULTIPLY, 1},
-	},
-}
-
-func GetTimestampConvert(in, out TimeUnit) (op TimestampConvertOp, factor int64) {
-	conv := timestampConversion[int(in)][int(out)]
-	return conv.op, conv.factor
-}
-
-func ConvertTimestampValue(in, out TimeUnit, value int64) int64 {
-	conv := timestampConversion[int(in)][int(out)]
-	switch conv.op {
-	case ConvMULTIPLY:
-		return value * conv.factor
-	case ConvDIVIDE:
-		return value / conv.factor
-	}
-
-	return 0
-}
-
-// DictionaryType represents categorical or dictionary-encoded in-memory data
-// It contains a dictionary-encoded value type (any type) and an index type
-// (any integer type).
-type DictionaryType struct {
-	IndexType DataType
-	ValueType DataType
-	Ordered   bool
-}
-
-func (*DictionaryType) ID() Type        { return DICTIONARY }
-func (*DictionaryType) Name() string    { return "dictionary" }
-func (d *DictionaryType) BitWidth() int { return d.IndexType.(FixedWidthDataType).BitWidth() }
-func (d *DictionaryType) Bytes() int    { return d.IndexType.(FixedWidthDataType).Bytes() }
-func (d *DictionaryType) String() string {
-	return fmt.Sprintf("%s<values=%s, indices=%s, ordered=%t>",
-		d.Name(), d.ValueType, d.IndexType, d.Ordered)
-}
-func (d *DictionaryType) Fingerprint() string {
-	indexFingerprint := d.IndexType.Fingerprint()
-	valueFingerprint := d.ValueType.Fingerprint()
-	ordered := "1"
-	if !d.Ordered {
-		ordered = "0"
-	}
-
-	if len(valueFingerprint) > 0 {
-		return typeFingerprint(d) + indexFingerprint + valueFingerprint + ordered
-	}
-	return ordered
-}
-
-func (d *DictionaryType) Layout() DataTypeLayout {
-	layout := d.IndexType.Layout()
-	layout.HasDict = true
-	return layout
-}
-
-var (
-	FixedWidthTypes = struct {
-		Boolean              FixedWidthDataType
-		Date32               FixedWidthDataType
-		Date64               FixedWidthDataType
-		DayTimeInterval      FixedWidthDataType
-		Duration_s           FixedWidthDataType
-		Duration_ms          FixedWidthDataType
-		Duration_us          FixedWidthDataType
-		Duration_ns          FixedWidthDataType
-		Float16              FixedWidthDataType
-		MonthInterval        FixedWidthDataType
-		Time32s              FixedWidthDataType
-		Time32ms             FixedWidthDataType
-		Time64us             FixedWidthDataType
-		Time64ns             FixedWidthDataType
-		Timestamp_s          FixedWidthDataType
-		Timestamp_ms         FixedWidthDataType
-		Timestamp_us         FixedWidthDataType
-		Timestamp_ns         FixedWidthDataType
-		MonthDayNanoInterval FixedWidthDataType
-	}{
-		Boolean:              &BooleanType{},
-		Date32:               &Date32Type{},
-		Date64:               &Date64Type{},
-		DayTimeInterval:      &DayTimeIntervalType{},
-		Duration_s:           &DurationType{Unit: Second},
-		Duration_ms:          &DurationType{Unit: Millisecond},
-		Duration_us:          &DurationType{Unit: Microsecond},
-		Duration_ns:          &DurationType{Unit: Nanosecond},
-		Float16:              &Float16Type{},
-		MonthInterval:        &MonthIntervalType{},
-		Time32s:              &Time32Type{Unit: Second},
-		Time32ms:             &Time32Type{Unit: Millisecond},
-		Time64us:             &Time64Type{Unit: Microsecond},
-		Time64ns:             &Time64Type{Unit: Nanosecond},
-		Timestamp_s:          &TimestampType{Unit: Second, TimeZone: "UTC"},
-		Timestamp_ms:         &TimestampType{Unit: Millisecond, TimeZone: "UTC"},
-		Timestamp_us:         &TimestampType{Unit: Microsecond, TimeZone: "UTC"},
-		Timestamp_ns:         &TimestampType{Unit: Nanosecond, TimeZone: "UTC"},
-		MonthDayNanoInterval: &MonthDayNanoIntervalType{},
-	}
-
-	_ FixedWidthDataType = (*FixedSizeBinaryType)(nil)
-)
diff --git a/go/arrow/datatype_fixedwidth_test.go b/go/arrow/datatype_fixedwidth_test.go
deleted file mode 100644
index fbd1334626774..0000000000000
--- a/go/arrow/datatype_fixedwidth_test.go
+++ /dev/null
@@ -1,440 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"sync"
-	"testing"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/stretchr/testify/assert"
-)
-
-// TestTimeUnit_String verifies each time unit matches its string representation.
-func TestTimeUnit_String(t *testing.T) {
-	tests := []struct {
-		u   arrow.TimeUnit
-		exp string
-	}{
-		{arrow.Nanosecond, "ns"},
-		{arrow.Microsecond, "us"},
-		{arrow.Millisecond, "ms"},
-		{arrow.Second, "s"},
-	}
-	for _, test := range tests {
-		t.Run(test.exp, func(t *testing.T) {
-			assert.Equal(t, test.exp, test.u.String())
-		})
-	}
-}
-
-func TestDecimal128Type(t *testing.T) {
-	for _, tc := range []struct {
-		precision int32
-		scale     int32
-		want      string
-	}{
-		{1, 10, "decimal(1, 10)"},
-		{10, 10, "decimal(10, 10)"},
-		{10, 1, "decimal(10, 1)"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.Decimal128Type{Precision: tc.precision, Scale: tc.scale}
-			if got, want := dt.BitWidth(), 128; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.DECIMAL128; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestDecimal256Type(t *testing.T) {
-	for _, tc := range []struct {
-		precision int32
-		scale     int32
-		want      string
-	}{
-		{1, 10, "decimal256(1, 10)"},
-		{10, 10, "decimal256(10, 10)"},
-		{10, 1, "decimal256(10, 1)"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.Decimal256Type{Precision: tc.precision, Scale: tc.scale}
-			if got, want := dt.BitWidth(), 256; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.DECIMAL256; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestFixedSizeBinaryType(t *testing.T) {
-	for _, tc := range []struct {
-		byteWidth int
-		want      string
-	}{
-		{1, "fixed_size_binary[1]"},
-		{8, "fixed_size_binary[8]"},
-		{100, "fixed_size_binary[100]"},
-		{100000000, "fixed_size_binary[100000000]"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.FixedSizeBinaryType{tc.byteWidth}
-			if got, want := dt.BitWidth(), 8*tc.byteWidth; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.Name(), "fixed_size_binary"; got != want {
-				t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.FIXED_SIZE_BINARY; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestTimestampType(t *testing.T) {
-	for _, tc := range []struct {
-		unit     arrow.TimeUnit
-		timeZone string
-		want     string
-	}{
-		{arrow.Nanosecond, "CST", "timestamp[ns, tz=CST]"},
-		{arrow.Microsecond, "EST", "timestamp[us, tz=EST]"},
-		{arrow.Millisecond, "UTC", "timestamp[ms, tz=UTC]"},
-		{arrow.Second, "", "timestamp[s]"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.TimestampType{Unit: tc.unit, TimeZone: tc.timeZone}
-			if got, want := dt.BitWidth(), 64; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.Name(), "timestamp"; got != want {
-				t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.TIMESTAMP; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestTimestampToTime(t *testing.T) {
-	ts := arrow.Timestamp(11865225600000)
-	tm := ts.ToTime(arrow.Millisecond)
-
-	assert.Equal(t, "2345-12-30 00:00:00", tm.Format("2006-01-02 15:04:05.999"))
-}
-
-func TestTimestampType_GetToTimeFunc(t *testing.T) {
-	typUTC := &arrow.TimestampType{Unit: arrow.Millisecond}
-	toTimeUTC, err := typUTC.GetToTimeFunc()
-	assert.NoError(t, err)
-
-	typNY := &arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "America/New_York"}
-	toTimeNY, err := typNY.GetToTimeFunc()
-	assert.NoError(t, err)
-
-	ts := arrow.Timestamp(11865225600000)
-	assert.Equal(t, "2345-12-30T00:00:00Z", toTimeUTC(ts).Format(time.RFC3339))
-	assert.Equal(t, "2345-12-29T19:00:00-05:00", toTimeNY(ts).Format(time.RFC3339))
-}
-
-// Test race condition from GH-38795
-func TestGetToTimeFuncRace(t *testing.T) {
-	var (
-		wg         sync.WaitGroup
-		w          = make(chan bool)
-		routineNum = 10
-	)
-
-	wg.Add(routineNum)
-	for i := 0; i < routineNum; i++ {
-		go func() {
-			defer wg.Done()
-
-			<-w
-
-			_, _ = arrow.FixedWidthTypes.Timestamp_s.(*arrow.TimestampType).GetToTimeFunc()
-		}()
-	}
-
-	close(w)
-
-	wg.Wait()
-}
-
-func TestTime32Type(t *testing.T) {
-	for _, tc := range []struct {
-		unit arrow.TimeUnit
-		want string
-	}{
-		{arrow.Millisecond, "time32[ms]"},
-		{arrow.Second, "time32[s]"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.Time32Type{tc.unit}
-			if got, want := dt.BitWidth(), 32; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.Name(), "time32"; got != want {
-				t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.TIME32; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-
-	for _, tc := range []struct {
-		unit    arrow.TimeUnit
-		str     string
-		want    arrow.Time32
-		wantErr bool
-	}{
-		{arrow.Second, "12:21", arrow.Time32(12*3600 + 21*60), false},
-		{arrow.Second, "02:30:45", arrow.Time32(2*3600 + 30*60 + 45), false},
-		{arrow.Second, "21:21:21.21", arrow.Time32(0), true},
-		{arrow.Millisecond, "21:21:21.21", arrow.Time32(21*3600000 + 21*60000 + 21*1000 + 210), false},
-		{arrow.Millisecond, "15:02:04.123", arrow.Time32(15*3600000 + 2*60000 + 4*1000 + 123), false},
-		{arrow.Millisecond, "12:12:12.1212", arrow.Time32(0), true},
-		{arrow.Microsecond, "10:10:10", arrow.Time32(0), true},
-		{arrow.Nanosecond, "10:10:10", arrow.Time32(0), true},
-	} {
-		t.Run("FromString", func(t *testing.T) {
-			v, e := arrow.Time32FromString(tc.str, tc.unit)
-			assert.Equal(t, tc.want, v)
-			if tc.wantErr {
-				assert.Error(t, e)
-			} else {
-				assert.NoError(t, e)
-			}
-		})
-	}
-}
-
-func TestTime64Type(t *testing.T) {
-	for _, tc := range []struct {
-		unit arrow.TimeUnit
-		want string
-	}{
-		{arrow.Nanosecond, "time64[ns]"},
-		{arrow.Microsecond, "time64[us]"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.Time64Type{tc.unit}
-			if got, want := dt.BitWidth(), 64; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.Name(), "time64"; got != want {
-				t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.TIME64; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-
-	const (
-		h  = time.Hour
-		m  = time.Minute
-		s  = time.Second
-		us = time.Microsecond
-		ns = time.Nanosecond
-	)
-
-	for _, tc := range []struct {
-		unit    arrow.TimeUnit
-		str     string
-		want    arrow.Time64
-		wantErr bool
-	}{
-		{arrow.Second, "12:21", arrow.Time64(0), true},
-		{arrow.Millisecond, "21:21:21.21", arrow.Time64(0), true},
-		{arrow.Microsecond, "10:10:10", arrow.Time64((10*h + 10*m + 10*s).Microseconds()), false},
-		{arrow.Microsecond, "22:10:15.123456", arrow.Time64((22*h + 10*m + 15*s + 123456*us).Microseconds()), false},
-		{arrow.Microsecond, "12:34:56.78901234", arrow.Time64(0), true},
-		{arrow.Nanosecond, "12:34:56.78901234", arrow.Time64(12*h + 34*m + 56*s + 789012340), false},
-		{arrow.Nanosecond, "12:34:56.123456789 9", arrow.Time64(0), true},
-	} {
-		t.Run("FromString", func(t *testing.T) {
-			v, e := arrow.Time64FromString(tc.str, tc.unit)
-			assert.Equal(t, tc.want, v)
-			if tc.wantErr {
-				assert.Error(t, e)
-			} else {
-				assert.NoError(t, e)
-			}
-		})
-	}
-}
-
-func TestDurationType(t *testing.T) {
-	for _, tc := range []struct {
-		unit arrow.TimeUnit
-		want string
-	}{
-		{arrow.Nanosecond, "duration[ns]"},
-		{arrow.Microsecond, "duration[us]"},
-		{arrow.Millisecond, "duration[ms]"},
-		{arrow.Second, "duration[s]"},
-	} {
-		t.Run(tc.want, func(t *testing.T) {
-			dt := arrow.DurationType{tc.unit}
-			if got, want := dt.BitWidth(), 64; got != want {
-				t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-			}
-
-			if got, want := dt.Name(), "duration"; got != want {
-				t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-			}
-
-			if got, want := dt.ID(), arrow.DURATION; got != want {
-				t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-			}
-
-			if got, want := dt.String(), tc.want; got != want {
-				t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestBooleanType(t *testing.T) {
-	dt := arrow.BooleanType{}
-	if got, want := dt.BitWidth(), 1; got != want {
-		t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-	}
-
-	if got, want := dt.Name(), "bool"; got != want {
-		t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-	}
-
-	if got, want := dt.ID(), arrow.BOOL; got != want {
-		t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-	}
-
-	if got, want := dt.String(), "bool"; got != want {
-		t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-	}
-}
-
-func TestFloat16Type(t *testing.T) {
-	dt := arrow.Float16Type{}
-	if got, want := dt.BitWidth(), 16; got != want {
-		t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-	}
-
-	if got, want := dt.Name(), "float16"; got != want {
-		t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-	}
-
-	if got, want := dt.ID(), arrow.FLOAT16; got != want {
-		t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-	}
-
-	if got, want := dt.String(), "float16"; got != want {
-		t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-	}
-}
-
-func TestDayTimeIntervalType(t *testing.T) {
-	dt := arrow.DayTimeIntervalType{}
-	if got, want := dt.BitWidth(), 64; got != want {
-		t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-	}
-
-	if got, want := dt.Name(), "day_time_interval"; got != want {
-		t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-	}
-
-	if got, want := dt.ID(), arrow.INTERVAL_DAY_TIME; got != want {
-		t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-	}
-
-	if got, want := dt.String(), "day_time_interval"; got != want {
-		t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-	}
-}
-
-func TestMonthIntervalType(t *testing.T) {
-	dt := arrow.MonthIntervalType{}
-	if got, want := dt.BitWidth(), 32; got != want {
-		t.Fatalf("invalid bitwidth: got=%d, want=%d", got, want)
-	}
-
-	if got, want := dt.Name(), "month_interval"; got != want {
-		t.Fatalf("invalid type name: got=%q, want=%q", got, want)
-	}
-
-	if got, want := dt.ID(), arrow.INTERVAL_MONTHS; got != want {
-		t.Fatalf("invalid type ID: got=%v, want=%v", got, want)
-	}
-
-	if got, want := dt.String(), "month_interval"; got != want {
-		t.Fatalf("invalid type stringer: got=%q, want=%q", got, want)
-	}
-}
-
-func TestDateFromTime(t *testing.T) {
-	loc, _ := time.LoadLocation("Asia/Hong_Kong")
-	tm := time.Date(2024, time.January, 18, 3, 0, 0, 0, loc)
-
-	wantD32 := time.Date(2024, time.January, 17, 0, 0, 0, 0, time.UTC).Truncate(24*time.Hour).Unix() / int64((time.Hour * 24).Seconds())
-	wantD64 := time.Date(2024, time.January, 17, 0, 0, 0, 0, time.UTC).UnixMilli()
-	assert.EqualValues(t, wantD64, arrow.Date64FromTime(tm))
-	assert.EqualValues(t, wantD32, arrow.Date32FromTime(tm))
-}
diff --git a/go/arrow/datatype_nested.go b/go/arrow/datatype_nested.go
deleted file mode 100644
index 579b2c3306003..0000000000000
--- a/go/arrow/datatype_nested.go
+++ /dev/null
@@ -1,993 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"errors"
-	"fmt"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-type (
-	NestedType interface {
-		DataType
-
-		// Fields method provides a copy of NestedType fields
-		// (so it can be safely mutated and will not result in updating the NestedType).
-		Fields() []Field
-		// NumFields provides the number of fields without allocating.
-		NumFields() int
-	}
-
-	ListLikeType interface {
-		DataType
-		Elem() DataType
-		ElemField() Field
-	}
-
-	VarLenListLikeType interface {
-		ListLikeType
-	}
-)
-
-// ListType describes a nested type in which each array slot contains
-// a variable-size sequence of values, all having the same relative type.
-type ListType struct {
-	elem Field
-}
-
-func ListOfField(f Field) *ListType {
-	if f.Type == nil {
-		panic("arrow: nil type for list field")
-	}
-	return &ListType{elem: f}
-}
-
-// ListOf returns the list type with element type t.
-// For example, if t represents int32, ListOf(t) represents []int32.
-//
-// ListOf panics if t is nil or invalid. NullableElem defaults to true
-func ListOf(t DataType) *ListType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &ListType{elem: Field{Name: "item", Type: t, Nullable: true}}
-}
-
-// ListOfNonNullable is like ListOf but NullableElem defaults to false, indicating
-// that the child type should be marked as non-nullable.
-func ListOfNonNullable(t DataType) *ListType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &ListType{elem: Field{Name: "item", Type: t, Nullable: false}}
-}
-
-func (*ListType) ID() Type     { return LIST }
-func (*ListType) Name() string { return "list" }
-
-func (t *ListType) String() string {
-	if t.elem.Nullable {
-		return fmt.Sprintf("list<%s: %s, nullable>", t.elem.Name, t.elem.Type)
-	}
-	return fmt.Sprintf("list<%s: %s>", t.elem.Name, t.elem.Type)
-}
-
-func (t *ListType) Fingerprint() string {
-	child := t.elem.Type.Fingerprint()
-	if len(child) > 0 {
-		return typeFingerprint(t) + "{" + child + "}"
-	}
-	return ""
-}
-
-func (t *ListType) SetElemMetadata(md Metadata) { t.elem.Metadata = md }
-
-func (t *ListType) SetElemNullable(n bool) { t.elem.Nullable = n }
-
-// Elem returns the ListType's element type.
-func (t *ListType) Elem() DataType { return t.elem.Type }
-
-func (t *ListType) ElemField() Field {
-	return t.elem
-}
-
-func (t *ListType) Fields() []Field { return []Field{t.ElemField()} }
-
-func (t *ListType) NumFields() int { return 1 }
-
-func (*ListType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Int32SizeBytes)}}
-}
-
-func (*ListType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
-
-type LargeListType struct {
-	ListType
-}
-
-func (LargeListType) ID() Type     { return LARGE_LIST }
-func (LargeListType) Name() string { return "large_list" }
-func (t *LargeListType) String() string {
-	return "large_" + t.ListType.String()
-}
-
-func (t *LargeListType) Fingerprint() string {
-	child := t.elem.Type.Fingerprint()
-	if len(child) > 0 {
-		return typeFingerprint(t) + "{" + child + "}"
-	}
-	return ""
-}
-
-func (*LargeListType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Int64SizeBytes)}}
-}
-
-func (*LargeListType) OffsetTypeTraits() OffsetTraits { return Int64Traits }
-
-func LargeListOfField(f Field) *LargeListType {
-	if f.Type == nil {
-		panic("arrow: nil type for list field")
-	}
-	return &LargeListType{ListType{elem: f}}
-}
-
-// LargeListOf returns the list type with element type t.
-// For example, if t represents int32, LargeListOf(t) represents []int32.
-//
-// LargeListOf panics if t is nil or invalid. NullableElem defaults to true
-func LargeListOf(t DataType) *LargeListType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &LargeListType{ListType{elem: Field{Name: "item", Type: t, Nullable: true}}}
-}
-
-// LargeListOfNonNullable is like ListOf but NullableElem defaults to false, indicating
-// that the child type should be marked as non-nullable.
-func LargeListOfNonNullable(t DataType) *LargeListType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &LargeListType{ListType{elem: Field{Name: "item", Type: t, Nullable: false}}}
-}
-
-// FixedSizeListType describes a nested type in which each array slot contains
-// a fixed-size sequence of values, all having the same relative type.
-type FixedSizeListType struct {
-	n    int32 // number of elements in the list
-	elem Field
-}
-
-func FixedSizeListOfField(n int32, f Field) *FixedSizeListType {
-	if f.Type == nil {
-		panic("arrow: nil DataType")
-	}
-	if n <= 0 {
-		panic("arrow: invalid size")
-	}
-	return &FixedSizeListType{n: n, elem: f}
-}
-
-// FixedSizeListOf returns the list type with element type t.
-// For example, if t represents int32, FixedSizeListOf(10, t) represents [10]int32.
-//
-// FixedSizeListOf panics if t is nil or invalid.
-// FixedSizeListOf panics if n is <= 0.
-// NullableElem defaults to true
-func FixedSizeListOf(n int32, t DataType) *FixedSizeListType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	if n <= 0 {
-		panic("arrow: invalid size")
-	}
-	return &FixedSizeListType{n: n, elem: Field{Name: "item", Type: t, Nullable: true}}
-}
-
-// FixedSizeListOfNonNullable is like FixedSizeListOf but NullableElem defaults to false
-// indicating that the child type should be marked as non-nullable.
-func FixedSizeListOfNonNullable(n int32, t DataType) *FixedSizeListType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	if n <= 0 {
-		panic("arrow: invalid size")
-	}
-	return &FixedSizeListType{n: n, elem: Field{Name: "item", Type: t, Nullable: false}}
-}
-
-func (*FixedSizeListType) ID() Type     { return FIXED_SIZE_LIST }
-func (*FixedSizeListType) Name() string { return "fixed_size_list" }
-func (t *FixedSizeListType) String() string {
-	if t.elem.Nullable {
-		return fmt.Sprintf("fixed_size_list<%s: %s, nullable>[%d]", t.elem.Name, t.elem.Type, t.n)
-	}
-	return fmt.Sprintf("fixed_size_list<%s: %s>[%d]", t.elem.Name, t.elem.Type, t.n)
-}
-
-func (t *FixedSizeListType) SetElemNullable(n bool) { t.elem.Nullable = n }
-
-// Elem returns the FixedSizeListType's element type.
-func (t *FixedSizeListType) Elem() DataType { return t.elem.Type }
-
-// Len returns the FixedSizeListType's size.
-func (t *FixedSizeListType) Len() int32 { return t.n }
-
-func (t *FixedSizeListType) ElemField() Field {
-	return t.elem
-}
-
-func (t *FixedSizeListType) Fingerprint() string {
-	child := t.elem.Type.Fingerprint()
-	if len(child) > 0 {
-		return fmt.Sprintf("%s[%d]{%s}", typeFingerprint(t), t.n, child)
-	}
-	return ""
-}
-
-func (t *FixedSizeListType) Fields() []Field { return []Field{t.ElemField()} }
-
-func (t *FixedSizeListType) NumFields() int { return 1 }
-
-func (*FixedSizeListType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap()}}
-}
-
-type ListViewType struct {
-	elem Field
-}
-
-func ListViewOfField(f Field) *ListViewType {
-	if f.Type == nil {
-		panic("arrow: nil DataType")
-	}
-	return &ListViewType{elem: f}
-}
-
-// ListViewOf returns the list-view type with element type t.
-// For example, if t represents int32, ListViewOf(t) represents []int32.
-//
-// ListViewOf panics if t is nil or invalid. NullableElem defaults to true
-func ListViewOf(t DataType) *ListViewType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &ListViewType{elem: Field{Name: "item", Type: t, Nullable: true}}
-}
-
-// ListViewOfNonNullable is like ListViewOf but NullableElem defaults to false, indicating
-// that the child type should be marked as non-nullable.
-func ListViewOfNonNullable(t DataType) *ListViewType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &ListViewType{elem: Field{Name: "item", Type: t, Nullable: false}}
-}
-
-func (*ListViewType) ID() Type     { return LIST_VIEW }
-func (*ListViewType) Name() string { return "list_view" }
-
-func (t *ListViewType) String() string {
-	if t.elem.Nullable {
-		return fmt.Sprintf("list_view<%s: %s, nullable>", t.elem.Name, t.elem.Type)
-	}
-	return fmt.Sprintf("list_view<%s: %s>", t.elem.Name, t.elem.Type)
-}
-
-func (t *ListViewType) Fingerprint() string {
-	child := t.elem.Type.Fingerprint()
-	if len(child) > 0 {
-		return typeFingerprint(t) + "{" + child + "}"
-	}
-	return ""
-}
-
-func (t *ListViewType) SetElemMetadata(md Metadata) { t.elem.Metadata = md }
-
-func (t *ListViewType) SetElemNullable(n bool) { t.elem.Nullable = n }
-
-// Elem returns the ListViewType's element type.
-func (t *ListViewType) Elem() DataType { return t.elem.Type }
-
-func (t *ListViewType) ElemField() Field {
-	return t.elem
-}
-
-func (t *ListViewType) Fields() []Field { return []Field{t.ElemField()} }
-
-func (t *ListViewType) NumFields() int { return 1 }
-
-func (*ListViewType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Int32SizeBytes), SpecFixedWidth(Int32SizeBytes)}}
-}
-
-func (*ListViewType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
-
-type LargeListViewType struct {
-	elem Field
-}
-
-func LargeListViewOfField(f Field) *LargeListViewType {
-	if f.Type == nil {
-		panic("arrow: nil DataType")
-	}
-	return &LargeListViewType{elem: f}
-}
-
-// LargeListViewOf returns the list-view type with element type t.
-// For example, if t represents int32, LargeListViewOf(t) represents []int32.
-//
-// LargeListViewOf panics if t is nil or invalid. NullableElem defaults to true
-func LargeListViewOf(t DataType) *LargeListViewType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &LargeListViewType{elem: Field{Name: "item", Type: t, Nullable: true}}
-}
-
-// LargeListViewOfNonNullable is like LargeListViewOf but NullableElem defaults
-// to false, indicating that the child type should be marked as non-nullable.
-func LargeListViewOfNonNullable(t DataType) *LargeListViewType {
-	if t == nil {
-		panic("arrow: nil DataType")
-	}
-	return &LargeListViewType{elem: Field{Name: "item", Type: t, Nullable: false}}
-}
-
-func (*LargeListViewType) ID() Type     { return LARGE_LIST_VIEW }
-func (*LargeListViewType) Name() string { return "large_list_view" }
-
-func (t *LargeListViewType) String() string {
-	if t.elem.Nullable {
-		return fmt.Sprintf("large_list_view<%s: %s, nullable>", t.elem.Name, t.elem.Type)
-	}
-	return fmt.Sprintf("large_list_view<%s: %s>", t.elem.Name, t.elem.Type)
-}
-
-func (t *LargeListViewType) Fingerprint() string {
-	child := t.elem.Type.Fingerprint()
-	if len(child) > 0 {
-		return typeFingerprint(t) + "{" + child + "}"
-	}
-	return ""
-}
-
-func (t *LargeListViewType) SetElemMetadata(md Metadata) { t.elem.Metadata = md }
-
-func (t *LargeListViewType) SetElemNullable(n bool) { t.elem.Nullable = n }
-
-// Elem returns the LargeListViewType's element type.
-func (t *LargeListViewType) Elem() DataType { return t.elem.Type }
-
-func (t *LargeListViewType) ElemField() Field {
-	return t.elem
-}
-
-func (t *LargeListViewType) Fields() []Field { return []Field{t.ElemField()} }
-
-func (t *LargeListViewType) NumFields() int { return 1 }
-
-func (*LargeListViewType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Int64SizeBytes), SpecFixedWidth(Int64SizeBytes)}}
-}
-
-func (*LargeListViewType) OffsetTypeTraits() OffsetTraits { return Int64Traits }
-
-// StructType describes a nested type parameterized by an ordered sequence
-// of relative types, called its fields.
-type StructType struct {
-	fields []Field
-	index  map[string][]int
-	meta   Metadata
-}
-
-// StructOf returns the struct type with fields fs.
-//
-// StructOf panics if there is a field with an invalid DataType.
-func StructOf(fs ...Field) *StructType {
-	n := len(fs)
-	if n == 0 {
-		return &StructType{}
-	}
-
-	t := &StructType{
-		fields: make([]Field, n),
-		index:  make(map[string][]int, n),
-	}
-	for i, f := range fs {
-		if f.Type == nil {
-			panic("arrow: field with nil DataType")
-		}
-		t.fields[i] = Field{
-			Name:     f.Name,
-			Type:     f.Type,
-			Nullable: f.Nullable,
-			Metadata: f.Metadata.clone(),
-		}
-		if indices, exists := t.index[f.Name]; exists {
-			t.index[f.Name] = append(indices, i)
-		} else {
-			t.index[f.Name] = []int{i}
-		}
-	}
-
-	return t
-}
-
-func (*StructType) ID() Type     { return STRUCT }
-func (*StructType) Name() string { return "struct" }
-
-func (t *StructType) String() string {
-	var o strings.Builder
-	o.WriteString("struct<")
-	for i, f := range t.fields {
-		if i > 0 {
-			o.WriteString(", ")
-		}
-		o.WriteString(fmt.Sprintf("%s: %v", f.Name, f.Type))
-	}
-	o.WriteString(">")
-	return o.String()
-}
-
-// Fields method provides a copy of StructType fields
-// (so it can be safely mutated and will not result in updating the StructType).
-func (t *StructType) Fields() []Field {
-	fields := make([]Field, len(t.fields))
-	copy(fields, t.fields)
-	return fields
-}
-
-func (t *StructType) NumFields() int { return len(t.fields) }
-
-func (t *StructType) Field(i int) Field { return t.fields[i] }
-
-// FieldByName gets the field with the given name.
-//
-// If there are multiple fields with the given name, FieldByName
-// returns the first such field.
-func (t *StructType) FieldByName(name string) (Field, bool) {
-	i, ok := t.index[name]
-	if !ok {
-		return Field{}, false
-	}
-	return t.fields[i[0]], true
-}
-
-// FieldIdx gets the index of the field with the given name.
-//
-// If there are multiple fields with the given name, FieldIdx returns
-// the index of the first such field.
-func (t *StructType) FieldIdx(name string) (int, bool) {
-	i, ok := t.index[name]
-	if ok {
-		return i[0], true
-	}
-	return -1, false
-}
-
-// FieldsByName returns all fields with the given name.
-func (t *StructType) FieldsByName(n string) ([]Field, bool) {
-	indices, ok := t.index[n]
-	if !ok {
-		return nil, ok
-	}
-	fields := make([]Field, 0, len(indices))
-	for _, v := range indices {
-		fields = append(fields, t.fields[v])
-	}
-	return fields, ok
-}
-
-// FieldIndices returns indices of all fields with the given name, or nil.
-func (t *StructType) FieldIndices(name string) []int {
-	return t.index[name]
-}
-
-func (t *StructType) Fingerprint() string {
-	var b strings.Builder
-	b.WriteString(typeFingerprint(t))
-	b.WriteByte('{')
-	for _, c := range t.fields {
-		child := c.Fingerprint()
-		if len(child) == 0 {
-			return ""
-		}
-		b.WriteString(child)
-		b.WriteByte(';')
-	}
-	b.WriteByte('}')
-	return b.String()
-}
-
-func (*StructType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap()}}
-}
-
-type MapType struct {
-	value      *ListType
-	KeysSorted bool
-}
-
-func MapOf(key, item DataType) *MapType {
-	if key == nil || item == nil {
-		panic("arrow: nil key or item type for MapType")
-	}
-
-	return &MapType{value: ListOf(StructOf(Field{Name: "key", Type: key}, Field{Name: "value", Type: item, Nullable: true}))}
-}
-
-func MapOfWithMetadata(key DataType, keyMetadata Metadata, item DataType, itemMetadata Metadata) *MapType {
-	if key == nil || item == nil {
-		panic("arrow: nil key or item type for MapType")
-	}
-
-	return &MapType{value: ListOf(StructOf(Field{
-		Name:     "key",
-		Type:     key,
-		Metadata: keyMetadata,
-	}, Field{
-		Name:     "value",
-		Type:     item,
-		Nullable: true,
-		Metadata: itemMetadata,
-	}))}
-}
-
-func (*MapType) ID() Type     { return MAP }
-func (*MapType) Name() string { return "map" }
-
-func (t *MapType) String() string {
-	var o strings.Builder
-	o.WriteString(fmt.Sprintf("map<%s, %s",
-		t.value.Elem().(*StructType).Field(0).Type,
-		t.value.Elem().(*StructType).Field(1).Type))
-	if t.KeysSorted {
-		o.WriteString(", keys_sorted")
-	}
-	if t.ItemField().Nullable {
-		o.WriteString(", items_nullable")
-	} else {
-		o.WriteString(", items_non_nullable")
-	}
-	o.WriteString(">")
-	return o.String()
-}
-
-func (t *MapType) KeyField() Field    { return t.value.Elem().(*StructType).Field(0) }
-func (t *MapType) KeyType() DataType  { return t.KeyField().Type }
-func (t *MapType) ItemField() Field   { return t.value.Elem().(*StructType).Field(1) }
-func (t *MapType) ItemType() DataType { return t.ItemField().Type }
-
-// Deprecated: use MapType.Elem().(*StructType) instead
-func (t *MapType) ValueType() *StructType { return t.Elem().(*StructType) }
-
-// Deprecated: use MapType.ElemField() instead
-func (t *MapType) ValueField() Field { return t.ElemField() }
-
-// Elem returns the MapType's element type (if treating MapType as ListLikeType)
-func (t *MapType) Elem() DataType { return t.value.Elem() }
-
-// ElemField returns the MapType's element field (if treating MapType as ListLikeType)
-func (t *MapType) ElemField() Field { return Field{Name: "entries", Type: t.Elem()} }
-
-func (t *MapType) SetItemNullable(nullable bool) {
-	t.value.Elem().(*StructType).fields[1].Nullable = nullable
-}
-
-func (t *MapType) Fingerprint() string {
-	keyFingerprint := t.KeyType().Fingerprint()
-	itemFingerprint := t.ItemType().Fingerprint()
-	if keyFingerprint == "" || itemFingerprint == "" {
-		return ""
-	}
-
-	fingerprint := typeFingerprint(t)
-	if t.KeysSorted {
-		fingerprint += "s"
-	}
-	return fingerprint + "{" + keyFingerprint + itemFingerprint + "}"
-}
-
-func (t *MapType) Fields() []Field { return []Field{t.ElemField()} }
-
-func (t *MapType) NumFields() int { return 1 }
-
-func (t *MapType) Layout() DataTypeLayout {
-	return t.value.Layout()
-}
-
-func (*MapType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
-
-type (
-	// UnionTypeCode is an alias to int8 which is the type of the ids
-	// used for union arrays.
-	UnionTypeCode = int8
-	UnionMode     int8
-)
-
-const (
-	MaxUnionTypeCode    UnionTypeCode = 127
-	InvalidUnionChildID int           = -1
-
-	SparseMode UnionMode = iota // SPARSE
-	DenseMode                   // DENSE
-)
-
-// UnionType is an interface to encompass both Dense and Sparse Union types.
-//
-// A UnionType is a nested type where each logical value is taken
-// from a single child. A buffer of 8-bit type ids (typed as UnionTypeCode)
-// indicates which child a given logical value is to be taken from. This is
-// represented as the "child id" or "child index", which is the index into the
-// list of child fields for a given child.
-type UnionType interface {
-	NestedType
-	// Mode returns either SparseMode or DenseMode depending on the current
-	// concrete data type.
-	Mode() UnionMode
-	// ChildIDs returns a slice of ints to map UnionTypeCode values to
-	// the index in the Fields that represents the given Type. It is
-	// initialized with all values being InvalidUnionChildID (-1)
-	// before being populated based on the TypeCodes and fields of the type.
-	// The field for a given type can be retrieved by Fields()[ChildIDs()[typeCode]]
-	ChildIDs() []int
-	// TypeCodes returns the list of available type codes for this union type
-	// which will correspond to indexes into the ChildIDs slice to locate the
-	// appropriate child. A union Array contains a buffer of these type codes
-	// which indicate for a given index, which child has the value for that index.
-	TypeCodes() []UnionTypeCode
-	// MaxTypeCode returns the value of the largest TypeCode in the list of typecodes
-	// that are defined by this Union type
-	MaxTypeCode() UnionTypeCode
-}
-
-// UnionOf returns an appropriate union type for the given Mode (Sparse or Dense),
-// child fields, and type codes. len(fields) == len(typeCodes) must be true, or else
-// this will panic. len(fields) can be 0.
-func UnionOf(mode UnionMode, fields []Field, typeCodes []UnionTypeCode) UnionType {
-	switch mode {
-	case SparseMode:
-		return SparseUnionOf(fields, typeCodes)
-	case DenseMode:
-		return DenseUnionOf(fields, typeCodes)
-	default:
-		panic("arrow: invalid union mode")
-	}
-}
-
-type unionType struct {
-	children  []Field
-	typeCodes []UnionTypeCode
-	childIDs  [int(MaxUnionTypeCode) + 1]int
-}
-
-func (t *unionType) init(fields []Field, typeCodes []UnionTypeCode) {
-	// initialize all child IDs to -1
-	t.childIDs[0] = InvalidUnionChildID
-	for i := 1; i < len(t.childIDs); i *= 2 {
-		copy(t.childIDs[i:], t.childIDs[:i])
-	}
-
-	t.children = fields
-	t.typeCodes = typeCodes
-
-	for i, tc := range t.typeCodes {
-		t.childIDs[tc] = i
-	}
-}
-
-// Fields method provides a copy of union type fields
-// (so it can be safely mutated and will not result in updating the union type).
-func (t *unionType) Fields() []Field {
-	fields := make([]Field, len(t.children))
-	copy(fields, t.children)
-	return fields
-}
-
-func (t *unionType) NumFields() int { return len(t.children) }
-
-func (t *unionType) TypeCodes() []UnionTypeCode { return t.typeCodes }
-func (t *unionType) ChildIDs() []int            { return t.childIDs[:] }
-
-func (t *unionType) validate(fields []Field, typeCodes []UnionTypeCode, _ UnionMode) error {
-	if len(fields) != len(typeCodes) {
-		return errors.New("arrow: union types should have the same number of fields as type codes")
-	}
-
-	for _, c := range typeCodes {
-		if c < 0 || c > MaxUnionTypeCode {
-			return errors.New("arrow: union type code out of bounds")
-		}
-	}
-	return nil
-}
-
-func (t *unionType) MaxTypeCode() (max UnionTypeCode) {
-	if len(t.typeCodes) == 0 {
-		return
-	}
-
-	max = t.typeCodes[0]
-	for _, c := range t.typeCodes[1:] {
-		if c > max {
-			max = c
-		}
-	}
-	return
-}
-
-func (t *unionType) String() string {
-	var b strings.Builder
-	b.WriteByte('<')
-	for i := range t.typeCodes {
-		if i != 0 {
-			b.WriteString(", ")
-		}
-		fmt.Fprintf(&b, "%s=%d", t.children[i], t.typeCodes[i])
-	}
-	b.WriteByte('>')
-	return b.String()
-}
-
-func (t *unionType) fingerprint() string {
-	var b strings.Builder
-	for _, c := range t.typeCodes {
-		fmt.Fprintf(&b, ":%d", c)
-	}
-	b.WriteString("]{")
-	for _, c := range t.children {
-		fingerprint := c.Fingerprint()
-		if len(fingerprint) == 0 {
-			return ""
-		}
-		b.WriteString(fingerprint)
-		b.WriteByte(';')
-	}
-	b.WriteByte('}')
-	return b.String()
-}
-
-func fieldsFromArrays(arrays []Array, names ...string) (ret []Field) {
-	ret = make([]Field, len(arrays))
-	if len(names) == 0 {
-		for i, c := range arrays {
-			ret[i] = Field{Name: strconv.Itoa(i), Type: c.DataType(), Nullable: true}
-		}
-	} else {
-		debug.Assert(len(names) == len(arrays), "mismatch of arrays and names")
-		for i, c := range arrays {
-			ret[i] = Field{Name: names[i], Type: c.DataType(), Nullable: true}
-		}
-	}
-	return
-}
-
-// SparseUnionType is the concrete type for Sparse union data.
-//
-// A sparse union is a nested type where each logical value is taken
-// from a single child. A buffer of 8-bit type ids indicates which child
-// a given logical value is to be taken from.
-//
-// In a sparse union, each child array will have the same length as the
-// union array itself, regardless of the actual number of union values which
-// refer to it.
-//
-// Unlike most other types, unions do not have a top-level validity bitmap.
-type SparseUnionType struct {
-	unionType
-}
-
-// SparseUnionFromArrays enables creating a union type from a list of Arrays,
-// field names, and type codes. len(fields) should be either 0 or equal to len(children).
-// len(codes) should also be either 0, or equal to len(children).
-//
-// If len(fields) == 0, then the fields will be named numerically as "0", "1", "2"...
-// and so on. If len(codes) == 0, then the type codes will be constructed as
-// [0, 1, 2, ..., n].
-func SparseUnionFromArrays(children []Array, fields []string, codes []UnionTypeCode) *SparseUnionType {
-	if len(codes) == 0 {
-		codes = make([]UnionTypeCode, len(children))
-		for i := range children {
-			codes[i] = UnionTypeCode(i)
-		}
-	}
-	return SparseUnionOf(fieldsFromArrays(children, fields...), codes)
-}
-
-// SparseUnionOf is equivalent to UnionOf(arrow.SparseMode, fields, typeCodes),
-// constructing a SparseUnionType from a list of fields and type codes.
-//
-// If len(fields) != len(typeCodes) this will panic. They are allowed to be
-// of length 0.
-func SparseUnionOf(fields []Field, typeCodes []UnionTypeCode) *SparseUnionType {
-	ret := &SparseUnionType{}
-	if err := ret.validate(fields, typeCodes, ret.Mode()); err != nil {
-		panic(err)
-	}
-	ret.init(fields, typeCodes)
-	return ret
-}
-
-func (SparseUnionType) ID() Type        { return SPARSE_UNION }
-func (SparseUnionType) Name() string    { return "sparse_union" }
-func (SparseUnionType) Mode() UnionMode { return SparseMode }
-func (t *SparseUnionType) Fingerprint() string {
-	return typeFingerprint(t) + "[s" + t.fingerprint()
-}
-func (SparseUnionType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecFixedWidth(Uint8SizeBytes)}}
-}
-func (t *SparseUnionType) String() string {
-	return t.Name() + t.unionType.String()
-}
-
-// DenseUnionType is the concrete type for dense union data.
-//
-// A dense union is a nested type where each logical value is taken from a
-// single child, at a specific offset. A buffer of 8-bit type ids (typed
-// as UnionTypeCode) indicates which child a given logical value is to be
-// taken from and a buffer of 32-bit offsets indicating which physical position
-// in the given child array has the logical value for that index.
-//
-// Unlike a sparse union, a dense union allows encoding only the child values
-// which are actually referred to by the union array. This is counterbalanced
-// by the additional footprint of the offsets buffer, and the additional
-// indirection cost when looking up values.
-//
-// Unlike most other types, unions don't have a top-level validity bitmap
-type DenseUnionType struct {
-	unionType
-}
-
-// DenseUnionFromArrays enables creating a union type from a list of Arrays,
-// field names, and type codes. len(fields) should be either 0 or equal to len(children).
-// len(codes) should also be either 0, or equal to len(children).
-//
-// If len(fields) == 0, then the fields will be named numerically as "0", "1", "2"...
-// and so on. If len(codes) == 0, then the type codes will be constructed as
-// [0, 1, 2, ..., n].
-func DenseUnionFromArrays(children []Array, fields []string, codes []UnionTypeCode) *DenseUnionType {
-	if len(codes) == 0 {
-		codes = make([]UnionTypeCode, len(children))
-		for i := range children {
-			codes[i] = UnionTypeCode(i)
-		}
-	}
-	return DenseUnionOf(fieldsFromArrays(children, fields...), codes)
-}
-
-// DenseUnionOf is equivalent to UnionOf(arrow.DenseMode, fields, typeCodes),
-// constructing a DenseUnionType from a list of fields and type codes.
-//
-// If len(fields) != len(typeCodes) this will panic. They are allowed to be
-// of length 0.
-func DenseUnionOf(fields []Field, typeCodes []UnionTypeCode) *DenseUnionType {
-	ret := &DenseUnionType{}
-	if err := ret.validate(fields, typeCodes, ret.Mode()); err != nil {
-		panic(err)
-	}
-	ret.init(fields, typeCodes)
-	return ret
-}
-
-func (DenseUnionType) ID() Type        { return DENSE_UNION }
-func (DenseUnionType) Name() string    { return "dense_union" }
-func (DenseUnionType) Mode() UnionMode { return DenseMode }
-func (t *DenseUnionType) Fingerprint() string {
-	return typeFingerprint(t) + "[s" + t.fingerprint()
-}
-
-func (DenseUnionType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecFixedWidth(Uint8SizeBytes), SpecFixedWidth(Int32SizeBytes)}}
-}
-
-func (DenseUnionType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
-
-func (t *DenseUnionType) String() string {
-	return t.Name() + t.unionType.String()
-}
-
-type Field struct {
-	Name     string   // Field name
-	Type     DataType // The field's data type
-	Nullable bool     // Fields can be nullable
-	Metadata Metadata // The field's metadata, if any
-}
-
-func (f Field) Fingerprint() string {
-	typeFingerprint := f.Type.Fingerprint()
-	if typeFingerprint == "" {
-		return ""
-	}
-
-	var b strings.Builder
-	b.WriteByte('F')
-	if f.Nullable {
-		b.WriteByte('n')
-	} else {
-		b.WriteByte('N')
-	}
-	b.WriteString(f.Name)
-	b.WriteByte('{')
-	b.WriteString(typeFingerprint)
-	b.WriteByte('}')
-	return b.String()
-}
-
-func (f Field) HasMetadata() bool { return f.Metadata.Len() != 0 }
-
-func (f Field) Equal(o Field) bool {
-	switch {
-	case f.Name != o.Name:
-		return false
-	case f.Nullable != o.Nullable:
-		return false
-	case !TypeEqual(f.Type, o.Type, CheckMetadata()):
-		return false
-	case !f.Metadata.Equal(o.Metadata):
-		return false
-	}
-	return true
-}
-
-func (f Field) String() string {
-	var o strings.Builder
-	nullable := ""
-	if f.Nullable {
-		nullable = ", nullable"
-	}
-	fmt.Fprintf(&o, "%s: type=%v%v", f.Name, f.Type, nullable)
-	if f.HasMetadata() {
-		fmt.Fprintf(&o, "\n%*.smetadata: %v", len(f.Name)+2, "", f.Metadata)
-	}
-	return o.String()
-}
-
-var (
-	_ DataType = (*ListType)(nil)
-	_ DataType = (*LargeListType)(nil)
-	_ DataType = (*FixedSizeListType)(nil)
-	_ DataType = (*StructType)(nil)
-	_ DataType = (*MapType)(nil)
-	_ DataType = (*DenseUnionType)(nil)
-	_ DataType = (*SparseUnionType)(nil)
-
-	_ NestedType = (*ListType)(nil)
-	_ NestedType = (*LargeListType)(nil)
-	_ NestedType = (*FixedSizeListType)(nil)
-	_ NestedType = (*MapType)(nil)
-	_ NestedType = (*DenseUnionType)(nil)
-	_ NestedType = (*SparseUnionType)(nil)
-
-	_ ListLikeType = (*ListType)(nil)
-	_ ListLikeType = (*LargeListType)(nil)
-	_ ListLikeType = (*FixedSizeListType)(nil)
-	_ ListLikeType = (*MapType)(nil)
-
-	_ VarLenListLikeType = (*ListType)(nil)
-	_ VarLenListLikeType = (*LargeListType)(nil)
-	_ VarLenListLikeType = (*ListViewType)(nil)
-	_ VarLenListLikeType = (*LargeListViewType)(nil)
-	_ VarLenListLikeType = (*FixedSizeListType)(nil)
-	_ VarLenListLikeType = (*MapType)(nil)
-)
diff --git a/go/arrow/datatype_nested_test.go b/go/arrow/datatype_nested_test.go
deleted file mode 100644
index fc4c672c6b768..0000000000000
--- a/go/arrow/datatype_nested_test.go
+++ /dev/null
@@ -1,633 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/google/uuid"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestListOf(t *testing.T) {
-	for _, tc := range []DataType{
-		FixedWidthTypes.Boolean,
-		PrimitiveTypes.Int8,
-		PrimitiveTypes.Int16,
-		PrimitiveTypes.Int32,
-		PrimitiveTypes.Int64,
-		PrimitiveTypes.Uint8,
-		PrimitiveTypes.Uint16,
-		PrimitiveTypes.Uint32,
-		PrimitiveTypes.Uint64,
-		PrimitiveTypes.Float32,
-		PrimitiveTypes.Float64,
-		ListOf(PrimitiveTypes.Int32),
-		FixedSizeListOf(10, PrimitiveTypes.Int32),
-		StructOf(),
-	} {
-		t.Run(tc.Name(), func(t *testing.T) {
-			got := ListOf(tc)
-			want := &ListType{elem: Field{Name: "item", Type: tc, Nullable: true}}
-			if !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%#v, want=%#v", got, want)
-			}
-
-			if got, want := got.Name(), "list"; got != want {
-				t.Fatalf("got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.ID(), LIST; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := got.Elem(), tc; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-
-	for _, dtype := range []DataType{
-		nil,
-		// (*Int32Type)(nil), // FIXME(sbinet): should we make sure this is actually caught?
-		// (*ListType)(nil), // FIXME(sbinet): should we make sure this is actually caught?
-		// (*StructType)(nil), // FIXME(sbinet): should we make sure this is actually caught?
-	} {
-		t.Run("invalid", func(t *testing.T) {
-			defer func() {
-				e := recover()
-				if e == nil {
-					t.Fatalf("test should have panicked but did not")
-				}
-			}()
-
-			_ = ListOf(dtype)
-		})
-	}
-}
-
-func TestStructOf(t *testing.T) {
-	for _, tc := range []struct {
-		fields []Field
-		want   DataType
-	}{
-		{
-			fields: nil,
-			want:   &StructType{fields: nil, index: nil},
-		},
-		{
-			fields: []Field{{Name: "f1", Type: PrimitiveTypes.Int32}},
-			want: &StructType{
-				fields: []Field{{Name: "f1", Type: PrimitiveTypes.Int32}},
-				index:  map[string][]int{"f1": {0}},
-			},
-		},
-		{
-			fields: []Field{{Name: "f1", Type: PrimitiveTypes.Int32, Nullable: true}},
-			want: &StructType{
-				fields: []Field{{Name: "f1", Type: PrimitiveTypes.Int32, Nullable: true}},
-				index:  map[string][]int{"f1": {0}},
-			},
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "", Type: PrimitiveTypes.Int64},
-			},
-			want: &StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Int32},
-					{Name: "", Type: PrimitiveTypes.Int64},
-				},
-				index: map[string][]int{"f1": {0}, "": {1}},
-			},
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-			},
-			want: &StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Int32},
-					{Name: "f2", Type: PrimitiveTypes.Int64},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}},
-			},
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-				{Name: "f3", Type: ListOf(PrimitiveTypes.Float64)},
-			},
-			want: &StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Int32},
-					{Name: "f2", Type: PrimitiveTypes.Int64},
-					{Name: "f3", Type: ListOf(PrimitiveTypes.Float64)},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}, "f3": {2}},
-			},
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-				{Name: "f3", Type: ListOf(ListOf(PrimitiveTypes.Float64))},
-			},
-			want: &StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Int32},
-					{Name: "f2", Type: PrimitiveTypes.Int64},
-					{Name: "f3", Type: ListOf(ListOf(PrimitiveTypes.Float64))},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}, "f3": {2}},
-			},
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-				{Name: "f3", Type: ListOf(ListOf(StructOf(Field{Name: "f1", Type: PrimitiveTypes.Float64})))},
-			},
-			want: &StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Int32},
-					{Name: "f2", Type: PrimitiveTypes.Int64},
-					{Name: "f3", Type: ListOf(ListOf(StructOf(Field{Name: "f1", Type: PrimitiveTypes.Float64})))},
-				},
-				index: map[string][]int{"f1": {0}, "f2": {1}, "f3": {2}},
-			},
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-				{Name: "f1", Type: PrimitiveTypes.Int64},
-			},
-			want: &StructType{
-				fields: []Field{
-					{Name: "f1", Type: PrimitiveTypes.Int32},
-					{Name: "f2", Type: PrimitiveTypes.Int64},
-					{Name: "f1", Type: PrimitiveTypes.Int64},
-				},
-				index: map[string][]int{"f1": {0, 2}, "f2": {1}},
-			},
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			got := StructOf(tc.fields...)
-			if !reflect.DeepEqual(got, tc.want) {
-				t.Fatalf("got=%#v, want=%#v", got, tc.want)
-			}
-
-			if got, want := got.ID(), STRUCT; got != want {
-				t.Fatalf("invalid ID. got=%v, want=%v", got, want)
-			}
-
-			if got, want := got.Name(), "struct"; got != want {
-				t.Fatalf("invalid name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.NumFields(), len(tc.fields); got != want {
-				t.Fatalf("invalid number of fields. got=%d, want=%d", got, want)
-			}
-
-			_, ok := got.FieldByName("not-there")
-			if ok {
-				t.Fatalf("expected an error")
-			}
-
-			if len(tc.fields) > 0 {
-				f1, ok := got.FieldByName("f1")
-				if !ok {
-					t.Fatalf("could not retrieve field 'f1'")
-				}
-				if f1.HasMetadata() {
-					t.Fatalf("field 'f1' should not have metadata")
-				}
-
-				for i := range tc.fields {
-					f := got.Field(i)
-					if f.Name != tc.fields[i].Name {
-						t.Fatalf("incorrect named for field[%d]: got=%q, want=%q", i, f.Name, tc.fields[i].Name)
-					}
-				}
-			}
-		})
-	}
-}
-
-func TestStructField(t *testing.T) {
-	fields := []Field{
-		{Name: "f1", Type: PrimitiveTypes.Int32},
-		{Name: "f2", Type: PrimitiveTypes.Int64},
-		{Name: "f3", Type: ListOf(ListOf(PrimitiveTypes.Float64))},
-	}
-	ty := StructOf(fields...)
-
-	field, ok := ty.FieldByName("f1")
-	assert.True(t, ok)
-	assert.True(t, field.Equal(fields[0]))
-
-	field, ok = ty.FieldByName("f2")
-	assert.True(t, ok)
-	assert.True(t, field.Equal(fields[1]))
-
-	field, ok = ty.FieldByName("f3")
-	assert.True(t, ok)
-	assert.True(t, field.Equal(fields[2]))
-
-	_, ok = ty.FieldByName("f4")
-	assert.False(t, ok)
-
-	idx, ok := ty.FieldIdx("f1")
-	assert.True(t, ok)
-	assert.Equal(t, idx, 0)
-
-	idx, ok = ty.FieldIdx("f2")
-	assert.True(t, ok)
-	assert.Equal(t, idx, 1)
-
-	idx, ok = ty.FieldIdx("f3")
-	assert.True(t, ok)
-	assert.Equal(t, idx, 2)
-
-	_, ok = ty.FieldIdx("f4")
-	assert.False(t, ok)
-
-	flds, ok := ty.FieldsByName("f1")
-	assert.True(t, ok)
-	assert.Equal(t, flds, []Field{fields[0]})
-
-	flds, ok = ty.FieldsByName("f2")
-	assert.True(t, ok)
-	assert.Equal(t, flds, []Field{fields[1]})
-
-	flds, ok = ty.FieldsByName("f3")
-	assert.True(t, ok)
-	assert.Equal(t, flds, []Field{fields[2]})
-
-	_, ok = ty.FieldsByName("f4")
-	assert.False(t, ok)
-
-	assert.Equal(t, ty.FieldIndices("f1"), []int{0})
-	assert.Equal(t, ty.FieldIndices("f2"), []int{1})
-	assert.Equal(t, ty.FieldIndices("f3"), []int{2})
-	assert.Equal(t, ty.FieldIndices("f4"), []int(nil))
-
-	fields = []Field{
-		{Name: "f1", Type: PrimitiveTypes.Int32},
-		{Name: "f2", Type: PrimitiveTypes.Int64},
-		{Name: "f1", Type: PrimitiveTypes.Int64},
-	}
-	ty = StructOf(fields...)
-	field, ok = ty.FieldByName("f1")
-	assert.True(t, ok)
-	assert.True(t, field.Equal(fields[0]))
-
-	field, ok = ty.FieldByName("f2")
-	assert.True(t, ok)
-	assert.True(t, field.Equal(fields[1]))
-
-	_, ok = ty.FieldByName("f3")
-	assert.False(t, ok)
-
-	idx, ok = ty.FieldIdx("f1")
-	assert.True(t, ok)
-	assert.Equal(t, idx, 0)
-
-	idx, ok = ty.FieldIdx("f2")
-	assert.True(t, ok)
-	assert.Equal(t, idx, 1)
-
-	_, ok = ty.FieldIdx("f3")
-	assert.False(t, ok)
-
-	flds, ok = ty.FieldsByName("f1")
-	assert.True(t, ok)
-	assert.Equal(t, flds, []Field{fields[0], fields[2]})
-
-	flds, ok = ty.FieldsByName("f2")
-	assert.True(t, ok)
-	assert.Equal(t, flds, []Field{fields[1]})
-
-	_, ok = ty.FieldsByName("f3")
-	assert.False(t, ok)
-
-	assert.Equal(t, ty.FieldIndices("f1"), []int{0, 2})
-	assert.Equal(t, ty.FieldIndices("f2"), []int{1})
-	assert.Equal(t, ty.FieldIndices("f3"), []int(nil))
-}
-
-func TestFieldEqual(t *testing.T) {
-	for _, tc := range []struct {
-		a, b Field
-		want bool
-	}{
-		{
-			a:    Field{},
-			b:    Field{},
-			want: true,
-		},
-		{
-			a:    Field{Name: "a", Type: PrimitiveTypes.Int32},
-			b:    Field{Name: "a", Type: PrimitiveTypes.Int32},
-			want: true,
-		},
-		{
-			a:    Field{Name: "a", Type: PrimitiveTypes.Int32, Metadata: MetadataFrom(map[string]string{"k": "v"})},
-			b:    Field{Name: "a", Type: PrimitiveTypes.Int32, Metadata: MetadataFrom(map[string]string{"k": "v"})},
-			want: true,
-		},
-		{
-			a:    Field{Name: "a", Type: PrimitiveTypes.Int32, Metadata: MetadataFrom(map[string]string{"k": "k"})},
-			b:    Field{Name: "a", Type: PrimitiveTypes.Int32, Metadata: MetadataFrom(map[string]string{"k": "v"})},
-			want: false,
-		},
-		{
-			a:    Field{Name: "a", Type: PrimitiveTypes.Int32},
-			b:    Field{Name: "a", Type: PrimitiveTypes.Int32, Metadata: MetadataFrom(map[string]string{"k": "v"})},
-			want: false,
-		},
-		{
-			a:    Field{Name: "a", Type: PrimitiveTypes.Int32},
-			b:    Field{Name: "b", Type: PrimitiveTypes.Int32},
-			want: false,
-		},
-		{
-			a:    Field{Name: "a", Type: PrimitiveTypes.Int32},
-			b:    Field{Name: "a", Type: PrimitiveTypes.Uint32},
-			want: false,
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			got := tc.a.Equal(tc.b)
-			if got != tc.want {
-				t.Fatalf("got=%v, want=%v", got, tc.want)
-			}
-		})
-	}
-}
-
-func TestFixedSizeListOf(t *testing.T) {
-	for _, tc := range []DataType{
-		FixedWidthTypes.Boolean,
-		PrimitiveTypes.Int8,
-		PrimitiveTypes.Int16,
-		PrimitiveTypes.Int32,
-		PrimitiveTypes.Int64,
-		PrimitiveTypes.Uint8,
-		PrimitiveTypes.Uint16,
-		PrimitiveTypes.Uint32,
-		PrimitiveTypes.Uint64,
-		PrimitiveTypes.Float32,
-		PrimitiveTypes.Float64,
-		ListOf(PrimitiveTypes.Int32),
-		FixedSizeListOf(10, PrimitiveTypes.Int32),
-		StructOf(),
-	} {
-		t.Run(tc.Name(), func(t *testing.T) {
-			const size = 3
-			got := FixedSizeListOf(size, tc)
-			want := &FixedSizeListType{elem: Field{Name: "item", Type: tc, Nullable: true}, n: size}
-			if !reflect.DeepEqual(got, want) {
-				t.Fatalf("got=%#v, want=%#v", got, want)
-			}
-
-			if got, want := got.Name(), "fixed_size_list"; got != want {
-				t.Fatalf("got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.ID(), FIXED_SIZE_LIST; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := got.Elem(), tc; got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-
-			if got, want := got.Len(), int32(size); got != want {
-				t.Fatalf("got=%v, want=%v", got, want)
-			}
-		})
-	}
-
-	for _, dtype := range []DataType{
-		nil,
-		// (*Int32Type)(nil), // FIXME(sbinet): should we make sure this is actually caught?
-		// (*ListType)(nil), // FIXME(sbinet): should we make sure this is actually caught?
-		// (*StructType)(nil), // FIXME(sbinet): should we make sure this is actually caught?
-	} {
-		t.Run("invalid", func(t *testing.T) {
-			defer func() {
-				e := recover()
-				if e == nil {
-					t.Fatalf("test should have panicked but did not")
-				}
-			}()
-
-			_ = ListOf(dtype)
-		})
-	}
-}
-
-func TestMapOf(t *testing.T) {
-	for _, tc := range []struct {
-		key, item DataType
-		want      DataType
-		str       string
-	}{
-		{
-			key:  BinaryTypes.String,
-			item: PrimitiveTypes.Uint8,
-			want: &MapType{value: ListOf(StructOf(
-				Field{Name: "key", Type: BinaryTypes.String},
-				Field{Name: "value", Type: PrimitiveTypes.Uint8, Nullable: true},
-			))},
-			str: "map<utf8, uint8, items_nullable>",
-		},
-		{
-			key:  BinaryTypes.String,
-			item: MapOf(PrimitiveTypes.Uint32, FixedWidthTypes.Date32),
-			want: &MapType{value: ListOf(StructOf(
-				Field{Name: "key", Type: BinaryTypes.String},
-				Field{Name: "value", Nullable: true,
-					Type: &MapType{value: ListOf(StructOf(
-						Field{Name: "key", Type: PrimitiveTypes.Uint32},
-						Field{Name: "value", Type: FixedWidthTypes.Date32, Nullable: true},
-					))}},
-			))},
-			str: "map<utf8, map<uint32, date32, items_nullable>, items_nullable>",
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			got := MapOf(tc.key, tc.item)
-			if !reflect.DeepEqual(got, tc.want) {
-				t.Fatalf("got=%#v, want=%#v", got, tc.want)
-			}
-
-			if got, want := got.ID(), MAP; got != want {
-				t.Fatalf("invalid ID. got=%v, want=%v", got, want)
-			}
-
-			if got, want := got.Name(), "map"; got != want {
-				t.Fatalf("invalid name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.KeyField().Name, "key"; got != want {
-				t.Fatalf("invalid key field name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.ItemField().Name, "value"; got != want {
-				t.Fatalf("invalid item field name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.KeyType(), tc.key; got != want {
-				t.Fatalf("invalid key type. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.ItemType(), tc.item; got != want {
-				t.Fatalf("invalid item type. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.Elem(), StructOf(got.KeyField(), got.ItemField()); !TypeEqual(got, want) {
-				t.Fatalf("invalid value type. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.String(), tc.str; got != want {
-				t.Fatalf("invalid String() result. got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestMapOfWithMetadata(t *testing.T) {
-	for _, tc := range []struct {
-		key, item                 DataType
-		keyMetadata, itemMetadata Metadata
-		want                      DataType
-		str                       string
-	}{
-		{
-			key:          BinaryTypes.String,
-			item:         PrimitiveTypes.Uint8,
-			keyMetadata:  NewMetadata([]string{"mk"}, []string{"true"}),
-			itemMetadata: NewMetadata([]string{"mi"}, []string{"true"}),
-			want: &MapType{value: ListOf(StructOf(
-				Field{Name: "key", Type: BinaryTypes.String, Metadata: NewMetadata([]string{"mk"}, []string{"true"})},
-				Field{Name: "value", Type: PrimitiveTypes.Uint8, Nullable: true, Metadata: NewMetadata([]string{"mi"}, []string{"true"})},
-			))},
-			str: "map<utf8, uint8, items_nullable>",
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			got := MapOfWithMetadata(tc.key, NewMetadata([]string{"mk"}, []string{"true"}), tc.item, NewMetadata([]string{"mi"}, []string{"true"}))
-			if !reflect.DeepEqual(got, tc.want) {
-				t.Fatalf("got=%#v, want=%#v", got, tc.want)
-			}
-
-			if got, want := got.ID(), MAP; got != want {
-				t.Fatalf("invalid ID. got=%v, want=%v", got, want)
-			}
-
-			if got, want := got.Name(), "map"; got != want {
-				t.Fatalf("invalid name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.KeyField().Name, "key"; got != want {
-				t.Fatalf("invalid key field name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.ItemField().Name, "value"; got != want {
-				t.Fatalf("invalid item field name. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.KeyType(), tc.key; got != want {
-				t.Fatalf("invalid key type. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.ItemType(), tc.item; got != want {
-				t.Fatalf("invalid item type. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.Elem(), StructOf(got.KeyField(), got.ItemField()); !TypeEqual(got, want) {
-				t.Fatalf("invalid value type. got=%q, want=%q", got, want)
-			}
-
-			if got, want := got.String(), tc.str; got != want {
-				t.Fatalf("invalid String() result. got=%q, want=%q", got, want)
-			}
-
-			if !reflect.DeepEqual(got.Elem().(*StructType).fields[0].Metadata, tc.keyMetadata) {
-				t.Fatalf("invalid key metadata. got=%v, want=%v", got.Elem().(*StructType).fields[0].Metadata, tc.keyMetadata)
-			}
-			if !reflect.DeepEqual(got.Elem().(*StructType).fields[1].Metadata, tc.itemMetadata) {
-				t.Fatalf("invalid item metadata. got=%v, want=%v", got.Elem().(*StructType).fields[1].Metadata, tc.itemMetadata)
-			}
-		})
-	}
-}
-
-func TestFieldsImmutability(t *testing.T) {
-	cases := []struct {
-		dt       NestedType
-		expected []Field
-	}{
-		{
-			dt:       ListOfField(Field{Name: "name", Type: PrimitiveTypes.Int64}),
-			expected: ListOfField(Field{Name: "name", Type: PrimitiveTypes.Int64}).Fields(),
-		},
-		{
-			dt:       LargeListOfField(Field{Name: "name", Type: PrimitiveTypes.Int64}),
-			expected: LargeListOfField(Field{Name: "name", Type: PrimitiveTypes.Int64}).Fields(),
-		},
-		{
-			dt:       FixedSizeListOfField(1, Field{Name: "name", Type: PrimitiveTypes.Int64}),
-			expected: FixedSizeListOfField(1, Field{Name: "name", Type: PrimitiveTypes.Int64}).Fields(),
-		},
-		{
-			dt:       MapOf(BinaryTypes.String, PrimitiveTypes.Int64),
-			expected: MapOf(BinaryTypes.String, PrimitiveTypes.Int64).Fields(),
-		},
-		{
-			dt:       StructOf(Field{Name: "name", Type: PrimitiveTypes.Int64}),
-			expected: StructOf(Field{Name: "name", Type: PrimitiveTypes.Int64}).Fields(),
-		},
-		{
-			dt:       RunEndEncodedOf(BinaryTypes.String, PrimitiveTypes.Int64),
-			expected: RunEndEncodedOf(BinaryTypes.String, PrimitiveTypes.Int64).Fields(),
-		},
-		{
-			dt:       UnionOf(DenseMode, []Field{{Name: "name", Type: PrimitiveTypes.Int64}}, []UnionTypeCode{0}),
-			expected: UnionOf(DenseMode, []Field{{Name: "name", Type: PrimitiveTypes.Int64}}, []UnionTypeCode{0}).Fields(),
-		},
-	}
-
-	for _, tc := range cases {
-		t.Run(tc.dt.String(), func(t *testing.T) {
-			fields := tc.dt.Fields()
-			fields[0].Nullable = !fields[0].Nullable
-			fields[0].Name = uuid.NewString()
-			fields[0].Type = nil
-
-			assert.Equal(t, tc.expected, tc.dt.Fields())
-		})
-	}
-}
diff --git a/go/arrow/datatype_null.go b/go/arrow/datatype_null.go
deleted file mode 100644
index c852b854a79b6..0000000000000
--- a/go/arrow/datatype_null.go
+++ /dev/null
@@ -1,31 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-// NullType describes a degenerate array, with zero physical storage.
-type NullType struct{}
-
-func (*NullType) ID() Type            { return NULL }
-func (*NullType) Name() string        { return "null" }
-func (*NullType) String() string      { return "null" }
-func (*NullType) Fingerprint() string { return typeIDFingerprint(NULL) }
-func (*NullType) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{SpecAlwaysNull()}}
-}
-
-// Null gives us both the compile-time assertion of DataType interface as well as serving a good element for use in schemas.
-var Null DataType = new(NullType)
diff --git a/go/arrow/datatype_null_test.go b/go/arrow/datatype_null_test.go
deleted file mode 100644
index 83b3f0c44c549..0000000000000
--- a/go/arrow/datatype_null_test.go
+++ /dev/null
@@ -1,38 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-func TestNullType(t *testing.T) {
-	var nt *arrow.NullType
-	if got, want := nt.ID(), arrow.NULL; got != want {
-		t.Fatalf("invalid null type id. got=%v, want=%v", got, want)
-	}
-
-	if got, want := nt.Name(), "null"; got != want {
-		t.Fatalf("invalid null type name. got=%q, want=%q", got, want)
-	}
-
-	if got, want := nt.String(), "null"; got != want {
-		t.Fatalf("invalid null type stringer. got=%q, want=%q", got, want)
-	}
-}
diff --git a/go/arrow/datatype_numeric.gen.go b/go/arrow/datatype_numeric.gen.go
deleted file mode 100644
index 62cbd90016f00..0000000000000
--- a/go/arrow/datatype_numeric.gen.go
+++ /dev/null
@@ -1,206 +0,0 @@
-// Code generated by datatype_numeric.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-type Int8Type struct{}
-
-func (t *Int8Type) ID() Type            { return INT8 }
-func (t *Int8Type) Name() string        { return "int8" }
-func (t *Int8Type) String() string      { return "int8" }
-func (t *Int8Type) BitWidth() int       { return 8 }
-func (t *Int8Type) Bytes() int          { return Int8SizeBytes }
-func (t *Int8Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Int8Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Int8SizeBytes)}}
-}
-
-type Int16Type struct{}
-
-func (t *Int16Type) ID() Type            { return INT16 }
-func (t *Int16Type) Name() string        { return "int16" }
-func (t *Int16Type) String() string      { return "int16" }
-func (t *Int16Type) BitWidth() int       { return 16 }
-func (t *Int16Type) Bytes() int          { return Int16SizeBytes }
-func (t *Int16Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Int16Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Int16SizeBytes)}}
-}
-
-type Int32Type struct{}
-
-func (t *Int32Type) ID() Type            { return INT32 }
-func (t *Int32Type) Name() string        { return "int32" }
-func (t *Int32Type) String() string      { return "int32" }
-func (t *Int32Type) BitWidth() int       { return 32 }
-func (t *Int32Type) Bytes() int          { return Int32SizeBytes }
-func (t *Int32Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Int32Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Int32SizeBytes)}}
-}
-
-type Int64Type struct{}
-
-func (t *Int64Type) ID() Type            { return INT64 }
-func (t *Int64Type) Name() string        { return "int64" }
-func (t *Int64Type) String() string      { return "int64" }
-func (t *Int64Type) BitWidth() int       { return 64 }
-func (t *Int64Type) Bytes() int          { return Int64SizeBytes }
-func (t *Int64Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Int64Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Int64SizeBytes)}}
-}
-
-type Uint8Type struct{}
-
-func (t *Uint8Type) ID() Type            { return UINT8 }
-func (t *Uint8Type) Name() string        { return "uint8" }
-func (t *Uint8Type) String() string      { return "uint8" }
-func (t *Uint8Type) BitWidth() int       { return 8 }
-func (t *Uint8Type) Bytes() int          { return Uint8SizeBytes }
-func (t *Uint8Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Uint8Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Uint8SizeBytes)}}
-}
-
-type Uint16Type struct{}
-
-func (t *Uint16Type) ID() Type            { return UINT16 }
-func (t *Uint16Type) Name() string        { return "uint16" }
-func (t *Uint16Type) String() string      { return "uint16" }
-func (t *Uint16Type) BitWidth() int       { return 16 }
-func (t *Uint16Type) Bytes() int          { return Uint16SizeBytes }
-func (t *Uint16Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Uint16Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Uint16SizeBytes)}}
-}
-
-type Uint32Type struct{}
-
-func (t *Uint32Type) ID() Type            { return UINT32 }
-func (t *Uint32Type) Name() string        { return "uint32" }
-func (t *Uint32Type) String() string      { return "uint32" }
-func (t *Uint32Type) BitWidth() int       { return 32 }
-func (t *Uint32Type) Bytes() int          { return Uint32SizeBytes }
-func (t *Uint32Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Uint32Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Uint32SizeBytes)}}
-}
-
-type Uint64Type struct{}
-
-func (t *Uint64Type) ID() Type            { return UINT64 }
-func (t *Uint64Type) Name() string        { return "uint64" }
-func (t *Uint64Type) String() string      { return "uint64" }
-func (t *Uint64Type) BitWidth() int       { return 64 }
-func (t *Uint64Type) Bytes() int          { return Uint64SizeBytes }
-func (t *Uint64Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Uint64Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Uint64SizeBytes)}}
-}
-
-type Float32Type struct{}
-
-func (t *Float32Type) ID() Type            { return FLOAT32 }
-func (t *Float32Type) Name() string        { return "float32" }
-func (t *Float32Type) String() string      { return "float32" }
-func (t *Float32Type) BitWidth() int       { return 32 }
-func (t *Float32Type) Bytes() int          { return Float32SizeBytes }
-func (t *Float32Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Float32Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Float32SizeBytes)}}
-}
-
-type Float64Type struct{}
-
-func (t *Float64Type) ID() Type            { return FLOAT64 }
-func (t *Float64Type) Name() string        { return "float64" }
-func (t *Float64Type) String() string      { return "float64" }
-func (t *Float64Type) BitWidth() int       { return 64 }
-func (t *Float64Type) Bytes() int          { return Float64SizeBytes }
-func (t *Float64Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Float64Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Float64SizeBytes)}}
-}
-
-type Date32Type struct{}
-
-func (t *Date32Type) ID() Type            { return DATE32 }
-func (t *Date32Type) Name() string        { return "date32" }
-func (t *Date32Type) String() string      { return "date32" }
-func (t *Date32Type) BitWidth() int       { return 32 }
-func (t *Date32Type) Bytes() int          { return Date32SizeBytes }
-func (t *Date32Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Date32Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Date32SizeBytes)}}
-}
-
-type Date64Type struct{}
-
-func (t *Date64Type) ID() Type            { return DATE64 }
-func (t *Date64Type) Name() string        { return "date64" }
-func (t *Date64Type) String() string      { return "date64" }
-func (t *Date64Type) BitWidth() int       { return 64 }
-func (t *Date64Type) Bytes() int          { return Date64SizeBytes }
-func (t *Date64Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *Date64Type) Layout() DataTypeLayout {
-	return DataTypeLayout{Buffers: []BufferSpec{
-		SpecBitmap(), SpecFixedWidth(Date64SizeBytes)}}
-}
-
-var (
-	PrimitiveTypes = struct {
-		Int8    DataType
-		Int16   DataType
-		Int32   DataType
-		Int64   DataType
-		Uint8   DataType
-		Uint16  DataType
-		Uint32  DataType
-		Uint64  DataType
-		Float32 DataType
-		Float64 DataType
-		Date32  DataType
-		Date64  DataType
-	}{
-
-		Int8:    &Int8Type{},
-		Int16:   &Int16Type{},
-		Int32:   &Int32Type{},
-		Int64:   &Int64Type{},
-		Uint8:   &Uint8Type{},
-		Uint16:  &Uint16Type{},
-		Uint32:  &Uint32Type{},
-		Uint64:  &Uint64Type{},
-		Float32: &Float32Type{},
-		Float64: &Float64Type{},
-		Date32:  &Date32Type{},
-		Date64:  &Date64Type{},
-	}
-)
diff --git a/go/arrow/datatype_numeric.gen.go.tmpl b/go/arrow/datatype_numeric.gen.go.tmpl
deleted file mode 100644
index 611046afc42b3..0000000000000
--- a/go/arrow/datatype_numeric.gen.go.tmpl
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-{{range .In}}
-type {{.Name}}Type struct {}
-
-func (t *{{.Name}}Type) ID() Type            { return {{.Name|upper}} }
-func (t *{{.Name}}Type) Name() string        { return "{{.Name|lower}}" }
-func (t *{{.Name}}Type) String() string      { return "{{.Name|lower}}" }
-func (t *{{.Name}}Type) BitWidth() int       { return {{.Size}} }
-func (t *{{.Name}}Type) Bytes() int      { return {{.Name}}SizeBytes }
-func (t *{{.Name}}Type) Fingerprint() string { return typeFingerprint(t) }
-func (t *{{.Name}}Type) Layout() DataTypeLayout { 
-        return DataTypeLayout{Buffers: []BufferSpec{
-                SpecBitmap(), SpecFixedWidth({{.Name}}SizeBytes)}}
-}
-
-{{end}}
-
-var (
-        PrimitiveTypes = struct {
-{{range .In}}
-                {{.Name}} DataType
-{{- end}}
-        }{
-{{range .In}}
-                {{.Name}}: &{{.Name}}Type{},
-{{- end}}
-        }
-)
diff --git a/go/arrow/datatype_numeric.gen.go.tmpldata b/go/arrow/datatype_numeric.gen.go.tmpldata
deleted file mode 100644
index 12e69fe60c0b2..0000000000000
--- a/go/arrow/datatype_numeric.gen.go.tmpldata
+++ /dev/null
@@ -1,66 +0,0 @@
-[
-  {
-    "Name": "Int8",
-    "Type": "int8",
-    "Size": 8
-  },
-  {
-    "Name": "Int16",
-    "Type": "int16",
-    "Size": 16
-  },
-  {
-    "Name": "Int32",
-    "Type": "int32",
-    "Size": 32
-  },
-  {
-    "Name": "Int64",
-    "Type": "int64",
-    "Size": 64
-  },
-  {
-    "Name": "Uint8",
-    "Type": "uint8",
-    "Size": 8
-  },
-  {
-    "Name": "Uint16",
-    "Type": "uint16",
-    "Size": 16
-  },
-  {
-    "Name": "Uint32",
-    "Type": "uint32",
-    "Size": 32
-  },
-  {
-    "Name": "Uint64",
-    "Type": "uint64",
-    "Size": 64
-  },
-  {
-    "Name": "Float32",
-    "Type": "float32",
-    "Size": 32
-  },
-  {
-    "Name": "Float64",
-    "Type": "float64",
-    "Size": 64
-  },
-  {
-    "Name": "Date32",
-    "Type": "date32",
-    "QualifiedType": "arrow.Date32",
-    "InternalType": "int32",
-    "Size": 32
-  },
-  {
-    "Name": "Date64",
-    "Type": "date64",
-    "QualifiedType": "arrow.Date64",
-    "InternalType": "int64",
-    "Size": 64
-  }
-]
diff --git a/go/arrow/datatype_viewheader.go b/go/arrow/datatype_viewheader.go
deleted file mode 100644
index e153251caaf03..0000000000000
--- a/go/arrow/datatype_viewheader.go
+++ /dev/null
@@ -1,141 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"bytes"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-const (
-	ViewPrefixLen  = 4
-	viewInlineSize = 12
-)
-
-func IsViewInline(length int) bool {
-	return length < viewInlineSize
-}
-
-// ViewHeader is a variable length string (utf8) or byte slice with
-// a 4 byte prefix and inline optimization for small values (12 bytes
-// or fewer). This is similar to Go's standard string but limited by
-// a length of Uint32Max and up to the first four bytes of the string
-// are copied into the struct. This prefix allows failing comparisons
-// early and can reduce CPU cache working set when dealing with short
-// strings.
-//
-// There are two situations:
-//
-//		Entirely inlined string data
-//	                |----|------------|
-//		                ^    ^
-//		                |    |
-//		              size  inline string data, zero padded
-//
-//		Reference into buffer
-//	                |----|----|----|----|
-//		                ^    ^     ^     ^
-//		                |    |     |     |
-//		              size prefix buffer index and offset to out-of-line portion
-//
-// Adapted from TU Munich's UmbraDB [1], Velox, DuckDB.
-//
-// [1]: https://db.in.tum.de/~freitag/papers/p29-neumann-cidr20.pdf
-type ViewHeader struct {
-	size int32
-	// the first 4 bytes of this are the prefix for the string
-	// if size <= StringHeaderInlineSize, then the entire string
-	// is in the data array and is zero padded.
-	// if size > StringHeaderInlineSize, the next 8 bytes are 2 uint32
-	// values which are the buffer index and offset in that buffer
-	// containing the full string.
-	data [viewInlineSize]byte
-}
-
-func (sh *ViewHeader) IsInline() bool {
-	return sh.size <= int32(viewInlineSize)
-}
-
-func (sh *ViewHeader) Len() int { return int(sh.size) }
-func (sh *ViewHeader) Prefix() [ViewPrefixLen]byte {
-	return *(*[4]byte)(unsafe.Pointer(&sh.data))
-}
-
-func (sh *ViewHeader) BufferIndex() int32 {
-	return int32(endian.Native.Uint32(sh.data[ViewPrefixLen:]))
-}
-
-func (sh *ViewHeader) BufferOffset() int32 {
-	return int32(endian.Native.Uint32(sh.data[ViewPrefixLen+4:]))
-}
-
-func (sh *ViewHeader) InlineBytes() (data []byte) {
-	debug.Assert(sh.IsInline(), "calling InlineBytes on non-inline ViewHeader")
-	return sh.data[:sh.size]
-}
-
-func (sh *ViewHeader) SetBytes(data []byte) int {
-	sh.size = int32(len(data))
-	if sh.IsInline() {
-		return copy(sh.data[:], data)
-	}
-	return copy(sh.data[:4], data)
-}
-
-func (sh *ViewHeader) SetString(data string) int {
-	sh.size = int32(len(data))
-	if sh.IsInline() {
-		return copy(sh.data[:], data)
-	}
-	return copy(sh.data[:4], data)
-}
-
-func (sh *ViewHeader) SetIndexOffset(bufferIndex, offset int32) {
-	endian.Native.PutUint32(sh.data[ViewPrefixLen:], uint32(bufferIndex))
-	endian.Native.PutUint32(sh.data[ViewPrefixLen+4:], uint32(offset))
-}
-
-func (sh *ViewHeader) Equals(buffers []*memory.Buffer, other *ViewHeader, otherBuffers []*memory.Buffer) bool {
-	if sh.sizeAndPrefixAsInt64() != other.sizeAndPrefixAsInt64() {
-		return false
-	}
-
-	if sh.IsInline() {
-		return sh.inlinedAsInt64() == other.inlinedAsInt64()
-	}
-
-	return bytes.Equal(sh.getBufferBytes(buffers), other.getBufferBytes(otherBuffers))
-}
-
-func (sh *ViewHeader) getBufferBytes(buffers []*memory.Buffer) []byte {
-	offset := sh.BufferOffset()
-	return buffers[sh.BufferIndex()].Bytes()[offset : offset+sh.size]
-}
-
-func (sh *ViewHeader) inlinedAsInt64() int64 {
-	s := unsafe.Slice((*int64)(unsafe.Pointer(sh)), 2)
-	return s[1]
-}
-
-func (sh *ViewHeader) sizeAndPrefixAsInt64() int64 {
-	s := unsafe.Slice((*int64)(unsafe.Pointer(sh)), 2)
-	return s[0]
-}
diff --git a/go/arrow/datatype_viewheader_inline.go b/go/arrow/datatype_viewheader_inline.go
deleted file mode 100644
index 2883ee380308e..0000000000000
--- a/go/arrow/datatype_viewheader_inline.go
+++ /dev/null
@@ -1,31 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.20
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-func (sh *ViewHeader) InlineString() (data string) {
-	debug.Assert(sh.IsInline(), "calling InlineString on non-inline ViewHeader")
-
-	return unsafe.String((*byte)(unsafe.Pointer(&sh.data)), sh.size)
-}
diff --git a/go/arrow/datatype_viewheader_inline_go1.19.go b/go/arrow/datatype_viewheader_inline_go1.19.go
deleted file mode 100644
index d72c0d6f17c2b..0000000000000
--- a/go/arrow/datatype_viewheader_inline_go1.19.go
+++ /dev/null
@@ -1,35 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !go1.20 && !tinygo
-
-package arrow
-
-import (
-	"reflect"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-func (sh *ViewHeader) InlineString() (data string) {
-	debug.Assert(sh.IsInline(), "calling InlineString on non-inline ViewHeader")
-
-	h := (*reflect.StringHeader)(unsafe.Pointer(&data))
-	h.Data = uintptr(unsafe.Pointer(&sh.data))
-	h.Len = int(sh.size)
-	return
-}
diff --git a/go/arrow/datatype_viewheader_inline_tinygo.go b/go/arrow/datatype_viewheader_inline_tinygo.go
deleted file mode 100644
index a342167972fe4..0000000000000
--- a/go/arrow/datatype_viewheader_inline_tinygo.go
+++ /dev/null
@@ -1,35 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !go1.20 && tinygo
-
-package arrow
-
-import (
-	"reflect"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-func (sh *ViewHeader) InlineString() (data string) {
-	debug.Assert(sh.IsInline(), "calling InlineString on non-inline ViewHeader")
-
-	h := (*reflect.StringHeader)(unsafe.Pointer(&data))
-	h.Data = uintptr(unsafe.Pointer(&sh.data))
-	h.Len = uintptr(sh.size)
-	return
-}
diff --git a/go/arrow/decimal128/decimal128.go b/go/arrow/decimal128/decimal128.go
deleted file mode 100644
index 00ab253003559..0000000000000
--- a/go/arrow/decimal128/decimal128.go
+++ /dev/null
@@ -1,627 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package decimal128
-
-import (
-	"errors"
-	"fmt"
-	"math"
-	"math/big"
-	"math/bits"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-const (
-	MaxPrecision = 38
-	MaxScale     = 38
-)
-
-var (
-	MaxDecimal128 = New(542101086242752217, 687399551400673280-1)
-)
-
-func GetMaxValue(prec int32) Num {
-	return scaleMultipliers[prec].Sub(FromU64(1))
-}
-
-// Num represents a signed 128-bit integer in two's complement.
-// Calculations wrap around and overflow is ignored.
-//
-// For a discussion of the algorithms, look at Knuth's volume 2,
-// Semi-numerical Algorithms section 4.3.1.
-//
-// Adapted from the Apache ORC C++ implementation
-type Num struct {
-	lo uint64 // low bits
-	hi int64  // high bits
-}
-
-// New returns a new signed 128-bit integer value.
-func New(hi int64, lo uint64) Num {
-	return Num{lo: lo, hi: hi}
-}
-
-// FromU64 returns a new signed 128-bit integer value from the provided uint64 one.
-func FromU64(v uint64) Num {
-	return New(0, v)
-}
-
-// FromI64 returns a new signed 128-bit integer value from the provided int64 one.
-func FromI64(v int64) Num {
-	switch {
-	case v > 0:
-		return New(0, uint64(v))
-	case v < 0:
-		return New(-1, uint64(v))
-	default:
-		return Num{}
-	}
-}
-
-// FromBigInt will convert a big.Int to a Num, if the value in v has a
-// BitLen > 128, this will panic.
-func FromBigInt(v *big.Int) (n Num) {
-	bitlen := v.BitLen()
-	if bitlen > 127 {
-		panic("arrow/decimal128: cannot represent value larger than 128bits")
-	} else if bitlen == 0 {
-		// if bitlen is 0, then the value is 0 so return the default zeroed
-		// out n
-		return
-	}
-
-	// if the value is negative, then get the high and low bytes from
-	// v, and then negate it. this is because Num uses a two's compliment
-	// representation of values and big.Int stores the value as a bool for
-	// the sign and the absolute value of the integer. This means that the
-	// raw bytes are *always* the absolute value.
-	b := v.Bits()
-	n.lo = uint64(b[0])
-	if len(b) > 1 {
-		n.hi = int64(b[1])
-	}
-	if v.Sign() < 0 {
-		return n.Negate()
-	}
-	return
-}
-
-// Negate returns a copy of this Decimal128 value but with the sign negated
-func (n Num) Negate() Num {
-	n.lo = ^n.lo + 1
-	n.hi = ^n.hi
-	if n.lo == 0 {
-		n.hi += 1
-	}
-	return n
-}
-
-func (n Num) Add(rhs Num) Num {
-	n.hi += rhs.hi
-	var carry uint64
-	n.lo, carry = bits.Add64(n.lo, rhs.lo, 0)
-	n.hi += int64(carry)
-	return n
-}
-
-func (n Num) Sub(rhs Num) Num {
-	n.hi -= rhs.hi
-	var borrow uint64
-	n.lo, borrow = bits.Sub64(n.lo, rhs.lo, 0)
-	n.hi -= int64(borrow)
-	return n
-}
-
-func (n Num) Mul(rhs Num) Num {
-	hi, lo := bits.Mul64(n.lo, rhs.lo)
-	hi += (uint64(n.hi) * rhs.lo) + (n.lo * uint64(rhs.hi))
-	return Num{hi: int64(hi), lo: lo}
-}
-
-func (n Num) Div(rhs Num) (res, rem Num) {
-	b := n.BigInt()
-	out, remainder := b.QuoRem(b, rhs.BigInt(), &big.Int{})
-	return FromBigInt(out), FromBigInt(remainder)
-}
-
-func (n Num) Pow(rhs Num) Num {
-	b := n.BigInt()
-	return FromBigInt(b.Exp(b, rhs.BigInt(), nil))
-}
-
-func scalePositiveFloat64(v float64, prec, scale int32) (float64, error) {
-	var pscale float64
-	if scale >= -38 && scale <= 38 {
-		pscale = float64PowersOfTen[scale+38]
-	} else {
-		pscale = math.Pow10(int(scale))
-	}
-
-	v *= pscale
-	v = math.RoundToEven(v)
-	maxabs := float64PowersOfTen[prec+38]
-	if v <= -maxabs || v >= maxabs {
-		return 0, fmt.Errorf("cannot convert %f to decimal128(precision=%d, scale=%d): overflow", v, prec, scale)
-	}
-	return v, nil
-}
-
-func fromPositiveFloat64(v float64, prec, scale int32) (Num, error) {
-	v, err := scalePositiveFloat64(v, prec, scale)
-	if err != nil {
-		return Num{}, err
-	}
-
-	hi := math.Floor(math.Ldexp(v, -64))
-	low := v - math.Ldexp(hi, 64)
-	return Num{hi: int64(hi), lo: uint64(low)}, nil
-}
-
-// this has to exist despite sharing some code with fromPositiveFloat64
-// because if we don't do the casts back to float32 in between each
-// step, we end up with a significantly different answer!
-// Aren't floating point values so much fun?
-//
-// example value to use:
-//
-//	v := float32(1.8446746e+15)
-//
-// You'll end up with a different values if you do:
-//
-//	FromFloat64(float64(v), 20, 4)
-//
-// vs
-//
-//	FromFloat32(v, 20, 4)
-//
-// because float64(v) == 1844674629206016 rather than 1844674600000000
-func fromPositiveFloat32(v float32, prec, scale int32) (Num, error) {
-	val, err := scalePositiveFloat64(float64(v), prec, scale)
-	if err != nil {
-		return Num{}, err
-	}
-
-	hi := float32(math.Floor(math.Ldexp(float64(float32(val)), -64)))
-	low := float32(val) - float32(math.Ldexp(float64(hi), 64))
-	return Num{hi: int64(hi), lo: uint64(low)}, nil
-}
-
-// FromFloat32 returns a new decimal128.Num constructed from the given float32
-// value using the provided precision and scale. Will return an error if the
-// value cannot be accurately represented with the desired precision and scale.
-func FromFloat32(v float32, prec, scale int32) (Num, error) {
-	if v < 0 {
-		dec, err := fromPositiveFloat32(-v, prec, scale)
-		if err != nil {
-			return dec, err
-		}
-		return dec.Negate(), nil
-	}
-	return fromPositiveFloat32(v, prec, scale)
-}
-
-// FromFloat64 returns a new decimal128.Num constructed from the given float64
-// value using the provided precision and scale. Will return an error if the
-// value cannot be accurately represented with the desired precision and scale.
-func FromFloat64(v float64, prec, scale int32) (Num, error) {
-	if v < 0 {
-		dec, err := fromPositiveFloat64(-v, prec, scale)
-		if err != nil {
-			return dec, err
-		}
-		return dec.Negate(), nil
-	}
-	return fromPositiveFloat64(v, prec, scale)
-}
-
-var pt5 = big.NewFloat(0.5)
-
-func FromString(v string, prec, scale int32) (n Num, err error) {
-	// time for some math!
-	// Our input precision means "number of digits of precision" but the
-	// math/big library refers to precision in floating point terms
-	// where it refers to the "number of bits of precision in the mantissa".
-	// So we need to figure out how many bits we should use for precision,
-	// based on the input precision. Too much precision and we aren't rounding
-	// when we should. Too little precision and we round when we shouldn't.
-	//
-	// In general, the number of decimal digits you get from a given number
-	// of bits will be:
-	//
-	//	digits = log[base 10](2^nbits)
-	//
-	// it thus follows that:
-	//
-	//	digits = nbits * log[base 10](2)
-	//  nbits = digits / log[base 10](2)
-	//
-	// So we need to account for our scale since we're going to be multiplying
-	// by 10^scale in order to get the integral value we're actually going to use
-	// So to get our number of bits we do:
-	//
-	// 	(prec + scale + 1) / log[base10](2)
-	//
-	// Finally, we still have a sign bit, so we -1 to account for the sign bit.
-	// Aren't floating point numbers fun?
-	var precInBits = uint(math.Round(float64(prec+scale+1)/math.Log10(2))) + 1
-
-	var out *big.Float
-	out, _, err = big.ParseFloat(v, 10, 128, big.ToNearestEven)
-	if err != nil {
-		return
-	}
-
-	if scale < 0 {
-		var tmp big.Int
-		val, _ := out.Int(&tmp)
-		if val.BitLen() > 127 {
-			return Num{}, errors.New("bitlen too large for decimal128")
-		}
-		n = FromBigInt(val)
-		n, _ = n.Div(scaleMultipliers[-scale])
-	} else {
-		// Since we're going to truncate this to get an integer, we need to round
-		// the value instead because of edge cases so that we match how other implementations
-		// (e.g. C++) handles Decimal values. So if we're negative we'll subtract 0.5 and if
-		// we're positive we'll add 0.5.
-		p := (&big.Float{}).SetInt(scaleMultipliers[scale].BigInt())
-		out.SetPrec(precInBits).Mul(out, p)
-		if out.Signbit() {
-			out.Sub(out, pt5)
-		} else {
-			out.Add(out, pt5)
-		}
-
-		var tmp big.Int
-		val, _ := out.Int(&tmp)
-		if val.BitLen() > 127 {
-			return Num{}, errors.New("bitlen too large for decimal128")
-		}
-		n = FromBigInt(val)
-	}
-
-	if !n.FitsInPrecision(prec) {
-		err = fmt.Errorf("val %v doesn't fit in precision %d", n, prec)
-	}
-	return
-}
-
-// ToFloat32 returns a float32 value representative of this decimal128.Num,
-// but with the given scale.
-func (n Num) ToFloat32(scale int32) float32 {
-	return float32(n.ToFloat64(scale))
-}
-
-func (n Num) tofloat64Positive(scale int32) float64 {
-	const twoTo64 float64 = 1.8446744073709552e+19
-	x := float64(n.hi) * twoTo64
-	x += float64(n.lo)
-	if scale >= -38 && scale <= 38 {
-		return x * float64PowersOfTen[-scale+38]
-	}
-
-	return x * math.Pow10(-int(scale))
-}
-
-// ToFloat64 returns a float64 value representative of this decimal128.Num,
-// but with the given scale.
-func (n Num) ToFloat64(scale int32) float64 {
-	if n.hi < 0 {
-		return -n.Negate().tofloat64Positive(scale)
-	}
-	return n.tofloat64Positive(scale)
-}
-
-// LowBits returns the low bits of the two's complement representation of the number.
-func (n Num) LowBits() uint64 { return n.lo }
-
-// HighBits returns the high bits of the two's complement representation of the number.
-func (n Num) HighBits() int64 { return n.hi }
-
-// Sign returns:
-//
-// -1 if x <  0
-//
-//	0 if x == 0
-//
-// +1 if x >  0
-func (n Num) Sign() int {
-	if n == (Num{}) {
-		return 0
-	}
-	return int(1 | (n.hi >> 63))
-}
-
-func toBigIntPositive(n Num) *big.Int {
-	return (&big.Int{}).SetBits([]big.Word{big.Word(n.lo), big.Word(n.hi)})
-}
-
-// while the code would be simpler to just do lsh/rsh and add
-// it turns out from benchmarking that calling SetBits passing
-// in the words and negating ends up being >2x faster
-func (n Num) BigInt() *big.Int {
-	if n.Sign() < 0 {
-		b := toBigIntPositive(n.Negate())
-		return b.Neg(b)
-	}
-	return toBigIntPositive(n)
-}
-
-// Greater returns true if the value represented by n is > other
-func (n Num) Greater(other Num) bool {
-	return other.Less(n)
-}
-
-// GreaterEqual returns true if the value represented by n is >= other
-func (n Num) GreaterEqual(other Num) bool {
-	return !n.Less(other)
-}
-
-// Less returns true if the value represented by n is < other
-func (n Num) Less(other Num) bool {
-	return n.hi < other.hi || (n.hi == other.hi && n.lo < other.lo)
-}
-
-// LessEqual returns true if the value represented by n is <= other
-func (n Num) LessEqual(other Num) bool {
-	return !n.Greater(other)
-}
-
-// Max returns the largest Decimal128 that was passed in the arguments
-func Max(first Num, rest ...Num) Num {
-	answer := first
-	for _, number := range rest {
-		if number.Greater(answer) {
-			answer = number
-		}
-	}
-	return answer
-}
-
-// Min returns the smallest Decimal128 that was passed in the arguments
-func Min(first Num, rest ...Num) Num {
-	answer := first
-	for _, number := range rest {
-		if number.Less(answer) {
-			answer = number
-		}
-	}
-	return answer
-}
-
-// Cmp compares the numbers represented by n and other and returns:
-//
-//	+1 if n > other
-//	 0 if n == other
-//	-1 if n < other
-func (n Num) Cmp(other Num) int {
-	switch {
-	case n.Greater(other):
-		return 1
-	case n.Less(other):
-		return -1
-	}
-	return 0
-}
-
-// IncreaseScaleBy returns a new decimal128.Num with the value scaled up by
-// the desired amount. Must be 0 <= increase <= 38. Any data loss from scaling
-// is ignored. If you wish to prevent data loss, use Rescale which will
-// return an error if data loss is detected.
-func (n Num) IncreaseScaleBy(increase int32) Num {
-	debug.Assert(increase >= 0, "invalid increase scale for decimal128")
-	debug.Assert(increase <= 38, "invalid increase scale for decimal128")
-
-	v := scaleMultipliers[increase].BigInt()
-	return FromBigInt(v.Mul(n.BigInt(), v))
-}
-
-// ReduceScaleBy returns a new decimal128.Num with the value scaled down by
-// the desired amount and, if 'round' is true, the value will be rounded
-// accordingly. Assumes 0 <= reduce <= 38. Any data loss from scaling
-// is ignored. If you wish to prevent data loss, use Rescale which will
-// return an error if data loss is detected.
-func (n Num) ReduceScaleBy(reduce int32, round bool) Num {
-	debug.Assert(reduce >= 0, "invalid reduce scale for decimal128")
-	debug.Assert(reduce <= 38, "invalid reduce scale for decimal128")
-
-	if reduce == 0 {
-		return n
-	}
-
-	divisor := scaleMultipliers[reduce].BigInt()
-	result, remainder := divisor.QuoRem(n.BigInt(), divisor, (&big.Int{}))
-	if round {
-		divisorHalf := scaleMultipliersHalf[reduce]
-		if remainder.Abs(remainder).Cmp(divisorHalf.BigInt()) != -1 {
-			result.Add(result, big.NewInt(int64(n.Sign())))
-		}
-	}
-	return FromBigInt(result)
-}
-
-func (n Num) rescaleWouldCauseDataLoss(deltaScale int32, multiplier Num) (out Num, loss bool) {
-	var (
-		value, result, remainder *big.Int
-	)
-	value = n.BigInt()
-	if deltaScale < 0 {
-		debug.Assert(multiplier.lo != 0 || multiplier.hi != 0, "multiplier needs to not be zero")
-		result, remainder = (&big.Int{}).QuoRem(value, multiplier.BigInt(), (&big.Int{}))
-		return FromBigInt(result), remainder.Cmp(big.NewInt(0)) != 0
-	}
-
-	result = (&big.Int{}).Mul(value, multiplier.BigInt())
-	out = FromBigInt(result)
-	cmp := result.Cmp(value)
-	if n.Sign() < 0 {
-		loss = cmp == 1
-	} else {
-		loss = cmp == -1
-	}
-	return
-}
-
-// Rescale returns a new decimal128.Num with the value updated assuming
-// the current value is scaled to originalScale with the new value scaled
-// to newScale. If rescaling this way would cause data loss, an error is
-// returned instead.
-func (n Num) Rescale(originalScale, newScale int32) (out Num, err error) {
-	if originalScale == newScale {
-		return n, nil
-	}
-
-	deltaScale := newScale - originalScale
-	absDeltaScale := int32(math.Abs(float64(deltaScale)))
-
-	multiplier := scaleMultipliers[absDeltaScale]
-	var wouldHaveLoss bool
-	out, wouldHaveLoss = n.rescaleWouldCauseDataLoss(deltaScale, multiplier)
-	if wouldHaveLoss {
-		err = errors.New("rescale data loss")
-	}
-	return
-}
-
-// Abs returns a new decimal128.Num that contains the absolute value of n
-func (n Num) Abs() Num {
-	switch n.Sign() {
-	case -1:
-		return n.Negate()
-	}
-	return n
-}
-
-// FitsInPrecision returns true or false if the value currently held by
-// n would fit within precision (0 < prec <= 38) without losing any data.
-func (n Num) FitsInPrecision(prec int32) bool {
-	debug.Assert(prec > 0, "precision must be > 0")
-	debug.Assert(prec <= 38, "precision must be <= 38")
-	return n.Abs().Less(scaleMultipliers[prec])
-}
-
-func (n Num) ToString(scale int32) string {
-	f := (&big.Float{}).SetInt(n.BigInt())
-	if scale < 0 {
-		f.SetPrec(128).Mul(f, (&big.Float{}).SetInt(scaleMultipliers[-scale].BigInt()))
-	} else {
-		f.SetPrec(128).Quo(f, (&big.Float{}).SetInt(scaleMultipliers[scale].BigInt()))
-	}
-	return f.Text('f', int(scale))
-}
-
-func GetScaleMultiplier(pow int) Num { return scaleMultipliers[pow] }
-
-func GetHalfScaleMultiplier(pow int) Num { return scaleMultipliersHalf[pow] }
-
-var (
-	scaleMultipliers = [...]Num{
-		FromU64(1),
-		FromU64(10),
-		FromU64(100),
-		FromU64(1000),
-		FromU64(10000),
-		FromU64(100000),
-		FromU64(1000000),
-		FromU64(10000000),
-		FromU64(100000000),
-		FromU64(1000000000),
-		FromU64(10000000000),
-		FromU64(100000000000),
-		FromU64(1000000000000),
-		FromU64(10000000000000),
-		FromU64(100000000000000),
-		FromU64(1000000000000000),
-		FromU64(10000000000000000),
-		FromU64(100000000000000000),
-		FromU64(1000000000000000000),
-		New(0, 10000000000000000000),
-		New(5, 7766279631452241920),
-		New(54, 3875820019684212736),
-		New(542, 1864712049423024128),
-		New(5421, 200376420520689664),
-		New(54210, 2003764205206896640),
-		New(542101, 1590897978359414784),
-		New(5421010, 15908979783594147840),
-		New(54210108, 11515845246265065472),
-		New(542101086, 4477988020393345024),
-		New(5421010862, 7886392056514347008),
-		New(54210108624, 5076944270305263616),
-		New(542101086242, 13875954555633532928),
-		New(5421010862427, 9632337040368467968),
-		New(54210108624275, 4089650035136921600),
-		New(542101086242752, 4003012203950112768),
-		New(5421010862427522, 3136633892082024448),
-		New(54210108624275221, 12919594847110692864),
-		New(542101086242752217, 68739955140067328),
-		New(5421010862427522170, 687399551400673280),
-	}
-
-	scaleMultipliersHalf = [...]Num{
-		FromU64(0),
-		FromU64(5),
-		FromU64(50),
-		FromU64(500),
-		FromU64(5000),
-		FromU64(50000),
-		FromU64(500000),
-		FromU64(5000000),
-		FromU64(50000000),
-		FromU64(500000000),
-		FromU64(5000000000),
-		FromU64(50000000000),
-		FromU64(500000000000),
-		FromU64(5000000000000),
-		FromU64(50000000000000),
-		FromU64(500000000000000),
-		FromU64(5000000000000000),
-		FromU64(50000000000000000),
-		FromU64(500000000000000000),
-		FromU64(5000000000000000000),
-		New(2, 13106511852580896768),
-		New(27, 1937910009842106368),
-		New(271, 932356024711512064),
-		New(2710, 9323560247115120640),
-		New(27105, 1001882102603448320),
-		New(271050, 10018821026034483200),
-		New(2710505, 7954489891797073920),
-		New(27105054, 5757922623132532736),
-		New(271050543, 2238994010196672512),
-		New(2710505431, 3943196028257173504),
-		New(27105054312, 2538472135152631808),
-		New(271050543121, 6937977277816766464),
-		New(2710505431213, 14039540557039009792),
-		New(27105054312137, 11268197054423236608),
-		New(271050543121376, 2001506101975056384),
-		New(2710505431213761, 1568316946041012224),
-		New(27105054312137610, 15683169460410122240),
-		New(271050543121376108, 9257742014424809472),
-		New(2710505431213761085, 343699775700336640),
-	}
-
-	float64PowersOfTen = [...]float64{
-		1e-38, 1e-37, 1e-36, 1e-35, 1e-34, 1e-33, 1e-32, 1e-31, 1e-30, 1e-29,
-		1e-28, 1e-27, 1e-26, 1e-25, 1e-24, 1e-23, 1e-22, 1e-21, 1e-20, 1e-19,
-		1e-18, 1e-17, 1e-16, 1e-15, 1e-14, 1e-13, 1e-12, 1e-11, 1e-10, 1e-9,
-		1e-8, 1e-7, 1e-6, 1e-5, 1e-4, 1e-3, 1e-2, 1e-1, 1e0, 1e1,
-		1e2, 1e3, 1e4, 1e5, 1e6, 1e7, 1e8, 1e9, 1e10, 1e11,
-		1e12, 1e13, 1e14, 1e15, 1e16, 1e17, 1e18, 1e19, 1e20, 1e21,
-		1e22, 1e23, 1e24, 1e25, 1e26, 1e27, 1e28, 1e29, 1e30, 1e31,
-		1e32, 1e33, 1e34, 1e35, 1e36, 1e37, 1e38,
-	}
-)
diff --git a/go/arrow/decimal128/decimal128_test.go b/go/arrow/decimal128/decimal128_test.go
deleted file mode 100644
index 18443512a36da..0000000000000
--- a/go/arrow/decimal128/decimal128_test.go
+++ /dev/null
@@ -1,709 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package decimal128_test
-
-import (
-	"fmt"
-	"math"
-	"math/big"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestFromU64(t *testing.T) {
-	for _, tc := range []struct {
-		v    uint64
-		want decimal128.Num
-		sign int
-	}{
-		{0, decimal128.New(0, 0), 0},
-		{1, decimal128.New(0, 1), +1},
-		{2, decimal128.New(0, 2), +1},
-		{math.MaxInt64, decimal128.New(0, math.MaxInt64), +1},
-		{math.MaxUint64, decimal128.New(0, math.MaxUint64), +1},
-	} {
-		t.Run(fmt.Sprintf("%+0#x", tc.v), func(t *testing.T) {
-			v := decimal128.FromU64(tc.v)
-			ref := new(big.Int).SetUint64(tc.v)
-			if got, want := v, tc.want; got != want {
-				t.Fatalf("invalid value. got=%+0#x, want=%+0#x (big-int=%+0#x)", got, want, ref)
-			}
-			if got, want := v.Sign(), tc.sign; got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.Sign(), ref.Sign(); got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.LowBits(), tc.want.LowBits(); got != want {
-				t.Fatalf("invalid low-bits: got=%+0#x, want=%+0#x", got, want)
-			}
-			if got, want := v.HighBits(), tc.want.HighBits(); got != want {
-				t.Fatalf("invalid high-bits: got=%+0#x, want=%+0#x", got, want)
-			}
-		})
-	}
-}
-
-func TestFromI64(t *testing.T) {
-	for _, tc := range []struct {
-		v    int64
-		want decimal128.Num
-		sign int
-	}{
-		{0, decimal128.New(0, 0), 0},
-		{1, decimal128.New(0, 1), 1},
-		{2, decimal128.New(0, 2), 1},
-		{math.MaxInt64, decimal128.New(0, math.MaxInt64), 1},
-		{math.MinInt64, decimal128.New(-1, u64Cnv(math.MinInt64)), -1},
-	} {
-		t.Run(fmt.Sprintf("%+0#x", tc.v), func(t *testing.T) {
-			v := decimal128.FromI64(tc.v)
-			ref := big.NewInt(tc.v)
-			if got, want := v, tc.want; got != want {
-				t.Fatalf("invalid value. got=%+0#x, want=%+0#x (big-int=%+0#x)", got, want, ref)
-			}
-			if got, want := v.Sign(), tc.sign; got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.Sign(), ref.Sign(); got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.LowBits(), tc.want.LowBits(); got != want {
-				t.Fatalf("invalid low-bits: got=%+0#x, want=%+0#x", got, want)
-			}
-			if got, want := v.HighBits(), tc.want.HighBits(); got != want {
-				t.Fatalf("invalid high-bits: got=%+0#x, want=%+0#x", got, want)
-			}
-		})
-	}
-}
-
-func u64Cnv(i int64) uint64 { return uint64(i) }
-
-func BenchmarkBigIntToDecimal(b *testing.B) {
-	var (
-		n     decimal128.Num
-		bi, _ = (&big.Int{}).SetString("-340282366920938463463374607431711455", 10)
-	)
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		n = decimal128.FromBigInt(bi)
-		if n.Sign() >= 0 {
-			b.FailNow()
-		}
-	}
-}
-
-func TestAdd(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want decimal128.Num
-	}{
-		{decimal128.New(0, 1), decimal128.New(0, 2), decimal128.New(0, 3)},
-		{decimal128.New(1, 0), decimal128.New(2, 0), decimal128.New(3, 0)},
-		{decimal128.New(2, 1), decimal128.New(1, 2), decimal128.New(3, 3)},
-		{decimal128.New(0, 1), decimal128.New(0, math.MaxUint64), decimal128.New(1, 0)},
-		{decimal128.New(0, math.MaxUint64), decimal128.New(0, 1), decimal128.New(1, 0)},
-		{decimal128.New(0, 1), decimal128.New(0, 0), decimal128.New(0, 1)},
-		{decimal128.New(0, 0), decimal128.New(0, 1), decimal128.New(0, 1)},
-	} {
-		t.Run("add", func(t *testing.T) {
-			n := tc.n.Add(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestSub(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want decimal128.Num
-	}{
-		{decimal128.New(0, 3), decimal128.New(0, 2), decimal128.New(0, 1)},
-		{decimal128.New(3, 0), decimal128.New(2, 0), decimal128.New(1, 0)},
-		{decimal128.New(3, 3), decimal128.New(1, 2), decimal128.New(2, 1)},
-		{decimal128.New(0, 0), decimal128.New(0, math.MaxUint64), decimal128.New(-1, 1)},
-		{decimal128.New(1, 0), decimal128.New(0, math.MaxUint64), decimal128.New(0, 1)},
-		{decimal128.New(0, 1), decimal128.New(0, 0), decimal128.New(0, 1)},
-		{decimal128.New(0, 0), decimal128.New(0, 1), decimal128.New(-1, math.MaxUint64)},
-	} {
-		t.Run("sub", func(t *testing.T) {
-			n := tc.n.Sub(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMul(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want decimal128.Num
-	}{
-		{decimal128.New(0, 2), decimal128.New(0, 3), decimal128.New(0, 6)},
-		{decimal128.New(2, 0), decimal128.New(0, 3), decimal128.New(6, 0)},
-		{decimal128.New(3, 3), decimal128.New(0, 2), decimal128.New(6, 6)},
-		{decimal128.New(0, 2), decimal128.New(3, 3), decimal128.New(6, 6)},
-		{decimal128.New(0, 2), decimal128.New(0, math.MaxUint64), decimal128.New(1, math.MaxUint64-1)},
-		{decimal128.New(0, 1), decimal128.New(0, 0), decimal128.New(0, 0)},
-		{decimal128.New(0, 0), decimal128.New(0, 1), decimal128.New(0, 0)},
-	} {
-		t.Run("mul", func(t *testing.T) {
-			n := tc.n.Mul(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestDiv(t *testing.T) {
-	for _, tc := range []struct {
-		n        decimal128.Num
-		rhs      decimal128.Num
-		want_res decimal128.Num
-		want_rem decimal128.Num
-	}{
-		{decimal128.New(0, 3), decimal128.New(0, 2), decimal128.New(0, 1), decimal128.New(0, 1)},
-		{decimal128.New(3, 0), decimal128.New(2, 0), decimal128.New(0, 1), decimal128.New(1, 0)},
-		{decimal128.New(3, 2), decimal128.New(2, 3), decimal128.New(0, 1), decimal128.New(0, math.MaxUint64)},
-		{decimal128.New(0, math.MaxUint64), decimal128.New(0, 1), decimal128.New(0, math.MaxUint64), decimal128.New(0, 0)},
-		{decimal128.New(math.MaxInt64, 0), decimal128.New(0, 1), decimal128.New(math.MaxInt64, 0), decimal128.New(0, 0)},
-		{decimal128.New(0, 0), decimal128.New(0, 1), decimal128.New(0, 0), decimal128.New(0, 0)},
-	} {
-		t.Run("div", func(t *testing.T) {
-			res, rem := tc.n.Div(tc.rhs)
-			if got, want := res, tc.want_res; got != want {
-				t.Fatalf("invalid res value. got=%v, want=%v", got, want)
-			}
-			if got, want := rem, tc.want_rem; got != want {
-				t.Fatalf("invalid rem value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestPow(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want decimal128.Num
-	}{
-		{decimal128.New(0, 2), decimal128.New(0, 3), decimal128.New(0, 8)},
-		{decimal128.New(0, 2), decimal128.New(0, 65), decimal128.New(2, 0)},
-		{decimal128.New(0, 1), decimal128.New(0, 0), decimal128.New(0, 1)},
-		{decimal128.New(0, 0), decimal128.New(0, 1), decimal128.New(0, 0)},
-	} {
-		t.Run("pow", func(t *testing.T) {
-			n := tc.n.Pow(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMax(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  []decimal128.Num
-		want decimal128.Num
-	}{
-		{decimal128.New(0, 2), []decimal128.Num{decimal128.New(2, 1), decimal128.New(0, 8), decimal128.New(0, 0)}, decimal128.New(2, 1)},
-		{decimal128.New(0, 10), []decimal128.Num{decimal128.New(0, 1), decimal128.New(-1, 8), decimal128.New(3, 0)}, decimal128.New(3, 0)},
-	} {
-		t.Run("max", func(t *testing.T) {
-			n := decimal128.Max(tc.n, tc.rhs...)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMin(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  []decimal128.Num
-		want decimal128.Num
-	}{
-		{decimal128.New(0, 2), []decimal128.Num{decimal128.New(2, 1), decimal128.New(0, 8), decimal128.New(0, 0)}, decimal128.New(0, 0)},
-		{decimal128.New(0, 10), []decimal128.Num{decimal128.New(-1, 0), decimal128.New(0, 8), decimal128.New(3, 0)}, decimal128.New(-1, 0)},
-	} {
-		t.Run("min", func(t *testing.T) {
-			n := decimal128.Min(tc.n, tc.rhs...)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestGreater(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want bool
-	}{
-		{decimal128.New(0, 2), decimal128.New(0, 1), true},
-		{decimal128.New(2, 0), decimal128.New(1, 0), true},
-		{decimal128.New(-1, 0), decimal128.New(-2, 0), true},
-		{decimal128.New(0, 2), decimal128.New(0, 3), false},
-		{decimal128.New(2, 0), decimal128.New(3, 0), false},
-		{decimal128.New(-3, 0), decimal128.New(-2, 0), false},
-		{decimal128.New(0, 2), decimal128.New(0, 2), false},
-		{decimal128.New(2, 0), decimal128.New(2, 0), false},
-		{decimal128.New(-2, 0), decimal128.New(-2, 0), false},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(2, 1), true},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(3, 1), false},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(2, math.MaxUint64), false},
-		{decimal128.New(-2, math.MaxUint64), decimal128.New(-2, math.MaxUint64), false},
-	} {
-		t.Run("greater", func(t *testing.T) {
-			n := tc.n.Greater(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestLess(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want bool
-	}{
-		{decimal128.New(0, 2), decimal128.New(0, 1), false},
-		{decimal128.New(2, 0), decimal128.New(1, 0), false},
-		{decimal128.New(-1, 0), decimal128.New(-2, 0), false},
-		{decimal128.New(0, 2), decimal128.New(0, 3), true},
-		{decimal128.New(2, 0), decimal128.New(3, 0), true},
-		{decimal128.New(-3, 0), decimal128.New(-2, 0), true},
-		{decimal128.New(0, 2), decimal128.New(0, 2), false},
-		{decimal128.New(2, 0), decimal128.New(2, 0), false},
-		{decimal128.New(-2, 0), decimal128.New(-2, 0), false},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(2, 1), false},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(3, 1), true},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(2, math.MaxUint64), false},
-		{decimal128.New(-2, math.MaxUint64), decimal128.New(-2, math.MaxUint64), false},
-	} {
-		t.Run("less", func(t *testing.T) {
-			n := tc.n.Less(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestCmp(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal128.Num
-		rhs  decimal128.Num
-		want int
-	}{
-		{decimal128.New(0, 2), decimal128.New(0, 1), 1},
-		{decimal128.New(2, 0), decimal128.New(1, 0), 1},
-		{decimal128.New(-1, 0), decimal128.New(-2, 0), 1},
-		{decimal128.New(0, 2), decimal128.New(0, 3), -1},
-		{decimal128.New(-3, 0), decimal128.New(-2, 0), -1},
-		{decimal128.New(2, 0), decimal128.New(3, 0), -1},
-		{decimal128.New(0, 2), decimal128.New(0, 2), 0},
-		{decimal128.New(2, 0), decimal128.New(2, 0), 0},
-		{decimal128.New(-2, 0), decimal128.New(-2, 0), 0},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(2, 1), 1},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(3, 1), -1},
-		{decimal128.New(2, math.MaxUint64), decimal128.New(2, math.MaxUint64), 0},
-		{decimal128.New(-2, math.MaxUint64), decimal128.New(-2, math.MaxUint64), 0},
-	} {
-		t.Run("cmp", func(t *testing.T) {
-			n := tc.n.Cmp(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func BenchmarkDecimalToBigInt(b *testing.B) {
-	var (
-		bi *big.Int
-		n  = decimal128.New(-18446744073709552, 7083549724304524577)
-	)
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		bi = n.BigInt()
-		if bi.Sign() >= 0 {
-			b.FailNow()
-		}
-	}
-}
-
-func TestDecimalToBigInt(t *testing.T) {
-	tests := []struct {
-		hi  int64
-		lo  uint64
-		exp string
-	}{
-		{-18446744073709552, 7083549724304524577, "-340282366920938463463374607431711455"},
-		{1, 4611686018427387904, "23058430092136939520"},
-		{0, 0, "0"},
-	}
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-			n := decimal128.New(tc.hi, tc.lo)
-			bi := n.BigInt()
-
-			assert.Equal(t, tc.exp, bi.String())
-			n2 := decimal128.FromBigInt(bi)
-			assert.Equal(t, n.LowBits(), n2.LowBits())
-			assert.Equal(t, n.HighBits(), n2.HighBits())
-		})
-	}
-}
-
-func ulps64(actual, expected float64) int64 {
-	ulp := math.Nextafter(actual, math.Inf(1)) - actual
-	return int64(math.Abs((expected - actual) / ulp))
-}
-
-func ulps32(actual, expected float32) int64 {
-	ulp := math.Nextafter32(actual, float32(math.Inf(1))) - actual
-	return int64(math.Abs(float64((expected - actual) / ulp)))
-}
-
-func assertFloat32Approx(t *testing.T, x, y float32) bool {
-	const maxulps int64 = 4
-	ulps := ulps32(x, y)
-	return assert.LessOrEqualf(t, ulps, maxulps, "%f not equal to %f (%d ulps)", x, y, ulps)
-}
-
-func assertFloat64Approx(t *testing.T, x, y float64) bool {
-	const maxulps int64 = 4
-	ulps := ulps64(x, y)
-	return assert.LessOrEqualf(t, ulps, maxulps, "%f not equal to %f (%d ulps)", x, y, ulps)
-}
-
-func TestDecimalToReal(t *testing.T) {
-	tests := []struct {
-		decimalVal string
-		scale      int32
-		exp        float64
-	}{
-		{"0", 0, 0},
-		{"0", 10, 0.0},
-		{"0", -10, 0.0},
-		{"1", 0, 1.0},
-		{"12345", 0, 12345.0},
-		{"12345", 1, 1234.5},
-		// 2**62
-		{"4611686018427387904", 0, math.Pow(2, 62)},
-		// 2**63 + 2**62
-		{"13835058055282163712", 0, math.Pow(2, 63) + math.Pow(2, 62)},
-		// 2**64 + 2**62
-		{"23058430092136939520", 0, math.Pow(2, 64) + math.Pow(2, 62)},
-		// 10**38 - 2**103
-		{"99999989858795198174164788026374356992", 0, math.Pow10(38) - math.Pow(2, 103)},
-	}
-
-	t.Run("float32", func(t *testing.T) {
-		checkDecimalToFloat := func(t *testing.T, str string, v float32, scale int32) {
-			bi, _ := (&big.Int{}).SetString(str, 10)
-			dec := decimal128.FromBigInt(bi)
-			assert.Equalf(t, v, dec.ToFloat32(scale), "Decimal Val: %s, Scale: %d", str, scale)
-		}
-		for _, tt := range tests {
-			t.Run(tt.decimalVal, func(t *testing.T) {
-				checkDecimalToFloat(t, tt.decimalVal, float32(tt.exp), tt.scale)
-				if tt.decimalVal != "0" {
-					checkDecimalToFloat(t, "-"+tt.decimalVal, float32(-tt.exp), tt.scale)
-				}
-			})
-		}
-
-		t.Run("precision", func(t *testing.T) {
-			// 2**63 + 2**40 (exactly representable in a float's 24 bits of precision)
-			checkDecimalToFloat(t, "9223373136366403584", float32(9.223373e+18), 0)
-			checkDecimalToFloat(t, "-9223373136366403584", float32(-9.223373e+18), 0)
-			// 2**64 + 2**41 exactly representable in a float
-			checkDecimalToFloat(t, "18446746272732807168", float32(1.8446746e+19), 0)
-			checkDecimalToFloat(t, "-18446746272732807168", float32(-1.8446746e+19), 0)
-		})
-
-		t.Run("large values", func(t *testing.T) {
-			checkApproxDecimalToFloat := func(str string, v float32, scale int32) {
-				bi, _ := (&big.Int{}).SetString(str, 10)
-				dec := decimal128.FromBigInt(bi)
-				assertFloat32Approx(t, v, dec.ToFloat32(scale))
-			}
-			// exact comparisons would succeed on most platforms, but not all power-of-ten
-			// factors are exactly representable in binary floating point, so we'll use
-			// approx and ensure that the values are within 4 ULP (unit of least precision)
-			for scale := int32(-38); scale <= 38; scale++ {
-				checkApproxDecimalToFloat("1", float32(math.Pow10(-int(scale))), scale)
-				checkApproxDecimalToFloat("123", float32(123)*float32(math.Pow10(-int(scale))), scale)
-			}
-		})
-	})
-
-	t.Run("float64", func(t *testing.T) {
-		checkDecimalToFloat := func(t *testing.T, str string, v float64, scale int32) {
-			bi, _ := (&big.Int{}).SetString(str, 10)
-			dec := decimal128.FromBigInt(bi)
-			assert.Equalf(t, v, dec.ToFloat64(scale), "Decimal Val: %s, Scale: %d", str, scale)
-		}
-		for _, tt := range tests {
-			t.Run(tt.decimalVal, func(t *testing.T) {
-				checkDecimalToFloat(t, tt.decimalVal, tt.exp, tt.scale)
-				if tt.decimalVal != "0" {
-					checkDecimalToFloat(t, "-"+tt.decimalVal, -tt.exp, tt.scale)
-				}
-			})
-		}
-
-		t.Run("precision", func(t *testing.T) {
-			// 2**63 + 2**11 (exactly representable in float64's 53 bits of precision)
-			checkDecimalToFloat(t, "9223373136366403584", float64(9.223373136366404e+18), 0)
-			checkDecimalToFloat(t, "-9223373136366403584", float64(-9.223373136366404e+18), 0)
-
-			// 2**64 - 2**11 (exactly representable in a float64)
-			checkDecimalToFloat(t, "18446746272732807168", float64(1.8446746272732807e+19), 0)
-			checkDecimalToFloat(t, "-18446746272732807168", float64(-1.8446746272732807e+19), 0)
-
-			// 2**64 + 2**11 (exactly representable in a float64)
-			checkDecimalToFloat(t, "18446744073709555712", float64(1.8446744073709556e+19), 0)
-			checkDecimalToFloat(t, "-18446744073709555712", float64(-1.8446744073709556e+19), 0)
-
-			// Almost 10**38 (minus 2**73)
-			checkDecimalToFloat(t, "99999999999999978859343891977453174784", 9.999999999999998e+37, 0)
-			checkDecimalToFloat(t, "-99999999999999978859343891977453174784", -9.999999999999998e+37, 0)
-			checkDecimalToFloat(t, "99999999999999978859343891977453174784", 9.999999999999998e+27, 10)
-			checkDecimalToFloat(t, "-99999999999999978859343891977453174784", -9.999999999999998e+27, 10)
-			checkDecimalToFloat(t, "99999999999999978859343891977453174784", 9.999999999999998e+47, -10)
-			checkDecimalToFloat(t, "-99999999999999978859343891977453174784", -9.999999999999998e+47, -10)
-		})
-
-		t.Run("large values", func(t *testing.T) {
-			checkApproxDecimalToFloat := func(str string, v float64, scale int32) {
-				bi, _ := (&big.Int{}).SetString(str, 10)
-				dec := decimal128.FromBigInt(bi)
-				assertFloat64Approx(t, v, dec.ToFloat64(scale))
-			}
-			// exact comparisons would succeed on most platforms, but not all power-of-ten
-			// factors are exactly representable in binary floating point, so we'll use
-			// approx and ensure that the values are within 4 ULP (unit of least precision)
-			for scale := int32(-308); scale <= 306; scale++ {
-				checkApproxDecimalToFloat("1", math.Pow10(-int(scale)), scale)
-				checkApproxDecimalToFloat("123", float64(123)*math.Pow10(-int(scale)), scale)
-			}
-		})
-	})
-}
-
-func TestDecimalFromFloat(t *testing.T) {
-	tests := []struct {
-		val              float64
-		precision, scale int32
-		expected         string
-	}{
-		{0, 1, 0, "0"},
-		{-0, 1, 0, "0"},
-		{0, 19, 4, "0.0000"},
-		{math.Copysign(0.0, -1), 19, 4, "0.0000"},
-		{123, 7, 4, "123.0000"},
-		{-123, 7, 4, "-123.0000"},
-		{456.78, 7, 4, "456.7800"},
-		{-456.78, 7, 4, "-456.7800"},
-		{456.784, 5, 2, "456.78"},
-		{-456.784, 5, 2, "-456.78"},
-		{456.786, 5, 2, "456.79"},
-		{-456.786, 5, 2, "-456.79"},
-		{999.99, 5, 2, "999.99"},
-		{-999.99, 5, 2, "-999.99"},
-		{123, 19, 0, "123"},
-		{-123, 19, 0, "-123"},
-		{123.4, 19, 0, "123"},
-		{-123.4, 19, 0, "-123"},
-		{123.6, 19, 0, "124"},
-		{-123.6, 19, 0, "-124"},
-		// 2**62
-		{4.611686018427387904e+18, 19, 0, "4611686018427387904"},
-		{-4.611686018427387904e+18, 19, 0, "-4611686018427387904"},
-		// 2**63
-		{9.223372036854775808e+18, 19, 0, "9223372036854775808"},
-		{-9.223372036854775808e+18, 19, 0, "-9223372036854775808"},
-		// 2**64
-		{1.8446744073709551616e+19, 20, 0, "18446744073709551616"},
-		{-1.8446744073709551616e+19, 20, 0, "-18446744073709551616"},
-	}
-
-	t.Run("float64", func(t *testing.T) {
-		for _, tt := range tests {
-			t.Run(tt.expected, func(t *testing.T) {
-				n, err := decimal128.FromFloat64(tt.val, tt.precision, tt.scale)
-				assert.NoError(t, err)
-
-				assert.Equal(t, tt.expected, big.NewFloat(n.ToFloat64(tt.scale)).Text('f', int(tt.scale)))
-			})
-		}
-
-		t.Run("large values", func(t *testing.T) {
-			// test entire float64 range
-			for scale := int32(-308); scale <= 308; scale++ {
-				val := math.Pow10(int(scale))
-				n, err := decimal128.FromFloat64(val, 1, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "1", n.BigInt().String())
-			}
-
-			for scale := int32(-307); scale <= 306; scale++ {
-				val := 123 * math.Pow10(int(scale))
-				n, err := decimal128.FromFloat64(val, 2, -scale-1)
-				assert.NoError(t, err)
-				assert.Equal(t, "12", n.BigInt().String())
-				n, err = decimal128.FromFloat64(val, 3, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "123", n.BigInt().String())
-				n, err = decimal128.FromFloat64(val, 4, -scale+1)
-				assert.NoError(t, err)
-				assert.Equal(t, "1230", n.BigInt().String())
-			}
-		})
-	})
-
-	t.Run("float32", func(t *testing.T) {
-		for _, tt := range tests {
-			t.Run(tt.expected, func(t *testing.T) {
-				n, err := decimal128.FromFloat32(float32(tt.val), tt.precision, tt.scale)
-				assert.NoError(t, err)
-
-				assert.Equal(t, tt.expected, big.NewFloat(float64(n.ToFloat32(tt.scale))).Text('f', int(tt.scale)))
-			})
-		}
-
-		t.Run("large values", func(t *testing.T) {
-			// test entire float32 range
-			for scale := int32(-38); scale <= 38; scale++ {
-				val := float32(math.Pow10(int(scale)))
-				n, err := decimal128.FromFloat32(val, 1, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "1", n.BigInt().String())
-			}
-
-			for scale := int32(-37); scale <= 36; scale++ {
-				val := 123 * float32(math.Pow10(int(scale)))
-				n, err := decimal128.FromFloat32(val, 2, -scale-1)
-				assert.NoError(t, err)
-				assert.Equal(t, "12", n.BigInt().String())
-				n, err = decimal128.FromFloat32(val, 3, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "123", n.BigInt().String())
-				n, err = decimal128.FromFloat32(val, 4, -scale+1)
-				assert.NoError(t, err)
-				assert.Equal(t, "1230", n.BigInt().String())
-			}
-		})
-	})
-}
-
-func TestFromString(t *testing.T) {
-	tests := []struct {
-		s             string
-		expected      int64
-		expectedScale int32
-	}{
-		{"12.3", 123, 1},
-		{"0.00123", 123, 5},
-		{"1.23e-8", 123, 10},
-		{"-1.23E-8", -123, 10},
-		{"1.23e+3", 1230, 0},
-		{"-1.23E+3", -1230, 0},
-		{"1.23e+5", 123000, 0},
-		{"1.2345E+7", 12345000, 0},
-		{"1.23e-8", 123, 10},
-		{"-1.23E-8", -123, 10},
-		{"1.23E+3", 1230, 0},
-		{"-1.23e+3", -1230, 0},
-		{"1.23e+5", 123000, 0},
-		{"1.2345e+7", 12345000, 0},
-		{"0000000", 0, 0},
-		{"000.0000", 0, 4},
-		{".00000", 0, 5},
-		{"1e1", 10, 0},
-		{"+234.567", 234567, 3},
-		{"1e-37", 1, 37},
-		{"2112.33", 211233, 2},
-		{"-2112.33", -211233, 2},
-		{"12E2", 12, -2},
-	}
-
-	for _, tt := range tests {
-		t.Run(fmt.Sprintf("%s_%d", tt.s, tt.expectedScale), func(t *testing.T) {
-			n, err := decimal128.FromString(tt.s, 37, tt.expectedScale)
-			assert.NoError(t, err)
-
-			ex := decimal128.FromI64(tt.expected)
-			assert.Equal(t, ex, n)
-		})
-	}
-}
-
-func TestInvalidNonNegScaleFromString(t *testing.T) {
-	tests := []string{"1e39", "-1e39", "9e39", "-9e39", "9.9e40", "-9.9e40"}
-	for _, tt := range tests {
-		t.Run(tt, func(t *testing.T) {
-			_, err := decimal128.FromString(tt, 38, 0)
-			assert.Error(t, err)
-		})
-	}
-}
-
-func TestBitLen(t *testing.T) {
-	n := decimal128.GetScaleMultiplier(38)
-	b := n.BigInt()
-	b.Mul(b, big.NewInt(25))
-	assert.Greater(t, b.BitLen(), 128)
-
-	assert.Panics(t, func() {
-		decimal128.FromBigInt(b)
-	})
-
-	_, err := decimal128.FromString(b.String(), decimal128.MaxPrecision, 0)
-	assert.ErrorContains(t, err, "bitlen too large for decimal128")
-	_, err = decimal128.FromString(b.String(), decimal128.MaxPrecision, -1)
-	assert.ErrorContains(t, err, "bitlen too large for decimal128")
-}
-
-func TestFromStringDecimal128b(t *testing.T) {
-	const decStr = "9323406071781562130.6457232358109488923"
-
-	num, err := decimal128.FromString(decStr, 38, 19)
-	require.NoError(t, err)
-	assert.Equal(t, decStr, num.ToString(19))
-}
diff --git a/go/arrow/decimal256/decimal256.go b/go/arrow/decimal256/decimal256.go
deleted file mode 100644
index 8244d2cd8334c..0000000000000
--- a/go/arrow/decimal256/decimal256.go
+++ /dev/null
@@ -1,708 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package decimal256
-
-import (
-	"errors"
-	"fmt"
-	"math"
-	"math/big"
-	"math/bits"
-
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-const (
-	MaxPrecision = 76
-	MaxScale     = 76
-)
-
-func GetMaxValue(prec int32) Num {
-	return scaleMultipliers[prec].Sub(FromU64(1))
-}
-
-type Num struct {
-	// arr[0] is the lowest bits, arr[3] is the highest bits
-	arr [4]uint64
-}
-
-// New returns a new signed 256-bit integer value where x1 contains
-// the highest bits with the rest of the values in order down to the
-// lowest bits
-//
-//	ie: New(1, 2, 3, 4) returns with the elements in little-endian order
-//	    {4, 3, 2, 1} but each value is still represented as the native endianness
-func New(x1, x2, x3, x4 uint64) Num {
-	return Num{[4]uint64{x4, x3, x2, x1}}
-}
-
-func (n Num) Array() [4]uint64 { return n.arr }
-
-func (n Num) LowBits() uint64 { return n.arr[0] }
-
-func FromDecimal128(n decimal128.Num) Num {
-	var topBits uint64
-	if n.Sign() < 0 {
-		topBits = math.MaxUint64
-	}
-	return New(topBits, topBits, uint64(n.HighBits()), n.LowBits())
-}
-
-func FromU64(v uint64) Num {
-	return Num{[4]uint64{v, 0, 0, 0}}
-}
-
-func FromI64(v int64) Num {
-	switch {
-	case v > 0:
-		return New(0, 0, 0, uint64(v))
-	case v < 0:
-		return New(math.MaxUint64, math.MaxUint64, math.MaxUint64, uint64(v))
-	default:
-		return Num{}
-	}
-}
-
-func (n Num) Negate() Num {
-	var carry uint64 = 1
-	for i := range n.arr {
-		n.arr[i] = ^n.arr[i] + carry
-		if n.arr[i] != 0 {
-			carry = 0
-		}
-	}
-	return n
-}
-
-func (n Num) Add(rhs Num) Num {
-	var carry uint64
-	for i, v := range n.arr {
-		n.arr[i], carry = bits.Add64(v, rhs.arr[i], carry)
-	}
-	return n
-}
-
-func (n Num) Sub(rhs Num) Num {
-	return n.Add(rhs.Negate())
-}
-
-func (n Num) Mul(rhs Num) Num {
-	b := n.BigInt()
-	return FromBigInt(b.Mul(b, rhs.BigInt()))
-}
-
-func (n Num) Div(rhs Num) (res, rem Num) {
-	b := n.BigInt()
-	out, remainder := b.QuoRem(b, rhs.BigInt(), &big.Int{})
-	return FromBigInt(out), FromBigInt(remainder)
-}
-
-func (n Num) Pow(rhs Num) Num {
-	b := n.BigInt()
-	return FromBigInt(b.Exp(b, rhs.BigInt(), nil))
-}
-
-var pt5 = big.NewFloat(0.5)
-
-func FromString(v string, prec, scale int32) (n Num, err error) {
-	// time for some math!
-	// Our input precision means "number of digits of precision" but the
-	// math/big library refers to precision in floating point terms
-	// where it refers to the "number of bits of precision in the mantissa".
-	// So we need to figure out how many bits we should use for precision,
-	// based on the input precision. Too much precision and we aren't rounding
-	// when we should. Too little precision and we round when we shouldn't.
-	//
-	// In general, the number of decimal digits you get from a given number
-	// of bits will be:
-	//
-	//	digits = log[base 10](2^nbits)
-	//
-	// it thus follows that:
-	//
-	//	digits = nbits * log[base 10](2)
-	//  nbits = digits / log[base 10](2)
-	//
-	// So we need to account for our scale since we're going to be multiplying
-	// by 10^scale in order to get the integral value we're actually going to use
-	// So to get our number of bits we do:
-	//
-	// 	(prec + scale + 1) / log[base10](2)
-	//
-	// Finally, we still have a sign bit, so we -1 to account for the sign bit.
-	// Aren't floating point numbers fun?
-	var precInBits = uint(math.Round(float64(prec+scale+1)/math.Log10(2))) + 1
-
-	var out *big.Float
-	out, _, err = big.ParseFloat(v, 10, 255, big.ToNearestEven)
-	if err != nil {
-		return
-	}
-
-	if scale < 0 {
-		var tmp big.Int
-		val, _ := out.Int(&tmp)
-		if val.BitLen() > 255 {
-			return Num{}, errors.New("bitlen too large for decimal256")
-		}
-		n = FromBigInt(val)
-
-		n, _ = n.Div(scaleMultipliers[-scale])
-	} else {
-		out.Mul(out, (&big.Float{}).SetInt(scaleMultipliers[scale].BigInt())).SetPrec(precInBits)
-		// Since we're going to truncate this to get an integer, we need to round
-		// the value instead because of edge cases so that we match how other implementations
-		// (e.g. C++) handles Decimal values. So if we're negative we'll subtract 0.5 and if
-		// we're positive we'll add 0.5.
-		if out.Signbit() {
-			out.Sub(out, pt5)
-		} else {
-			out.Add(out, pt5)
-		}
-
-		var tmp big.Int
-		val, _ := out.Int(&tmp)
-		if val.BitLen() > 255 {
-			return Num{}, errors.New("bitlen too large for decimal256")
-		}
-		n = FromBigInt(val)
-	}
-	if !n.FitsInPrecision(prec) {
-		err = fmt.Errorf("value %v doesn't fit in precision %d", n, prec)
-	}
-	return
-}
-
-func FromFloat32(v float32, prec, scale int32) (Num, error) {
-	debug.Assert(prec > 0 && prec <= 76, "invalid precision for converting to decimal256")
-
-	if math.IsInf(float64(v), 0) {
-		return Num{}, fmt.Errorf("cannot convert %f to decimal256", v)
-	}
-
-	if v < 0 {
-		dec, err := fromPositiveFloat32(-v, prec, scale)
-		if err != nil {
-			return dec, err
-		}
-		return dec.Negate(), nil
-	}
-	return fromPositiveFloat32(v, prec, scale)
-}
-
-func FromFloat64(v float64, prec, scale int32) (Num, error) {
-	debug.Assert(prec > 0 && prec <= 76, "invalid precision for converting to decimal256")
-
-	if math.IsInf(v, 0) {
-		return Num{}, fmt.Errorf("cannot convert %f to decimal256", v)
-	}
-
-	if v < 0 {
-		dec, err := fromPositiveFloat64(-v, prec, scale)
-		if err != nil {
-			return dec, err
-		}
-		return dec.Negate(), nil
-	}
-	return fromPositiveFloat64(v, prec, scale)
-}
-
-// this has to exist despite sharing some code with fromPositiveFloat64
-// because if we don't do the casts back to float32 in between each
-// step, we end up with a significantly different answer!
-// Aren't floating point values so much fun?
-//
-// example value to use:
-//
-//	v := float32(1.8446746e+15)
-//
-// You'll end up with a different values if you do:
-//
-//	FromFloat64(float64(v), 20, 4)
-//
-// vs
-//
-//	FromFloat32(v, 20, 4)
-//
-// because float64(v) == 1844674629206016 rather than 1844674600000000
-func fromPositiveFloat32(v float32, prec, scale int32) (Num, error) {
-	val, err := scalePositiveFloat64(float64(v), prec, scale)
-	if err != nil {
-		return Num{}, err
-	}
-
-	v = float32(val)
-	var arr [4]float32
-	arr[3] = float32(math.Floor(math.Ldexp(float64(v), -192)))
-	v -= float32(math.Ldexp(float64(arr[3]), 192))
-	arr[2] = float32(math.Floor(math.Ldexp(float64(v), -128)))
-	v -= float32(math.Ldexp(float64(arr[2]), 128))
-	arr[1] = float32(math.Floor(math.Ldexp(float64(v), -64)))
-	v -= float32(math.Ldexp(float64(arr[1]), 64))
-	arr[0] = v
-
-	debug.Assert(arr[3] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[3] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	debug.Assert(arr[2] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[2] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	debug.Assert(arr[1] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[1] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	debug.Assert(arr[0] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[0] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	return Num{[4]uint64{uint64(arr[0]), uint64(arr[1]), uint64(arr[2]), uint64(arr[3])}}, nil
-}
-
-func scalePositiveFloat64(v float64, prec, scale int32) (float64, error) {
-	var pscale float64
-	if scale >= -76 && scale <= 76 {
-		pscale = float64PowersOfTen[scale+76]
-	} else {
-		pscale = math.Pow10(int(scale))
-	}
-
-	v *= pscale
-	v = math.RoundToEven(v)
-	maxabs := float64PowersOfTen[prec+76]
-	if v <= -maxabs || v >= maxabs {
-		return 0, fmt.Errorf("cannot convert %f to decimal256(precision=%d, scale=%d): overflow",
-			v, prec, scale)
-	}
-	return v, nil
-}
-
-func fromPositiveFloat64(v float64, prec, scale int32) (Num, error) {
-	val, err := scalePositiveFloat64(v, prec, scale)
-	if err != nil {
-		return Num{}, err
-	}
-
-	var arr [4]float64
-	arr[3] = math.Floor(math.Ldexp(val, -192))
-	val -= math.Ldexp(arr[3], 192)
-	arr[2] = math.Floor(math.Ldexp(val, -128))
-	val -= math.Ldexp(arr[2], 128)
-	arr[1] = math.Floor(math.Ldexp(val, -64))
-	val -= math.Ldexp(arr[1], 64)
-	arr[0] = val
-
-	debug.Assert(arr[3] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[3] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	debug.Assert(arr[2] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[2] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	debug.Assert(arr[1] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[1] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	debug.Assert(arr[0] >= 0, "bad conversion float64 to decimal256")
-	debug.Assert(arr[0] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
-	return Num{[4]uint64{uint64(arr[0]), uint64(arr[1]), uint64(arr[2]), uint64(arr[3])}}, nil
-}
-
-func (n Num) tofloat64Positive(scale int32) float64 {
-	const (
-		twoTo64  float64 = 1.8446744073709552e+19
-		twoTo128 float64 = 3.402823669209385e+38
-		twoTo192 float64 = 6.277101735386681e+57
-	)
-
-	x := float64(n.arr[3]) * twoTo192
-	x += float64(n.arr[2]) * twoTo128
-	x += float64(n.arr[1]) * twoTo64
-	x += float64(n.arr[0])
-
-	if scale >= -76 && scale <= 76 {
-		return x * float64PowersOfTen[-scale+76]
-	}
-
-	return x * math.Pow10(-int(scale))
-}
-
-func (n Num) ToFloat32(scale int32) float32 { return float32(n.ToFloat64(scale)) }
-
-func (n Num) ToFloat64(scale int32) float64 {
-	if n.Sign() < 0 {
-		return -n.Negate().tofloat64Positive(scale)
-	}
-	return n.tofloat64Positive(scale)
-}
-
-func (n Num) Sign() int {
-	if n == (Num{}) {
-		return 0
-	}
-	return int(1 | (int64(n.arr[3]) >> 63))
-}
-
-func FromBigInt(v *big.Int) (n Num) {
-	bitlen := v.BitLen()
-	if bitlen > 255 {
-		panic("arrow/decimal256: cannot represent value larger than 256bits")
-	} else if bitlen == 0 {
-		return
-	}
-
-	b := v.Bits()
-	for i, bits := range b {
-		n.arr[i] = uint64(bits)
-	}
-	if v.Sign() < 0 {
-		return n.Negate()
-	}
-	return
-}
-
-func toBigIntPositive(n Num) *big.Int {
-	return new(big.Int).SetBits([]big.Word{big.Word(n.arr[0]), big.Word(n.arr[1]), big.Word(n.arr[2]), big.Word(n.arr[3])})
-}
-
-func (n Num) BigInt() *big.Int {
-	if n.Sign() < 0 {
-		b := toBigIntPositive(n.Negate())
-		return b.Neg(b)
-	}
-	return toBigIntPositive(n)
-}
-
-// Greater returns true if the value represented by n is > other
-func (n Num) Greater(other Num) bool {
-	return other.Less(n)
-}
-
-// GreaterEqual returns true if the value represented by n is >= other
-func (n Num) GreaterEqual(other Num) bool {
-	return !n.Less(other)
-}
-
-// Less returns true if the value represented by n is < other
-func (n Num) Less(other Num) bool {
-	switch {
-	case n.arr[3] != other.arr[3]:
-		return int64(n.arr[3]) < int64(other.arr[3])
-	case n.arr[2] != other.arr[2]:
-		return n.arr[2] < other.arr[2]
-	case n.arr[1] != other.arr[1]:
-		return n.arr[1] < other.arr[1]
-	}
-	return n.arr[0] < other.arr[0]
-}
-
-// LessEqual returns true if the value represented by n is <= other
-func (n Num) LessEqual(other Num) bool {
-	return !n.Greater(other)
-}
-
-// Max returns the largest Decimal256 that was passed in the arguments
-func Max(first Num, rest ...Num) Num {
-	answer := first
-	for _, number := range rest {
-		if number.Greater(answer) {
-			answer = number
-		}
-	}
-	return answer
-}
-
-// Min returns the smallest Decimal256 that was passed in the arguments
-func Min(first Num, rest ...Num) Num {
-	answer := first
-	for _, number := range rest {
-		if number.Less(answer) {
-			answer = number
-		}
-	}
-	return answer
-}
-
-// Cmp compares the numbers represented by n and other and returns:
-//
-//	+1 if n > other
-//	 0 if n == other
-//	-1 if n < other
-func (n Num) Cmp(other Num) int {
-	switch {
-	case n.Greater(other):
-		return 1
-	case n.Less(other):
-		return -1
-	}
-	return 0
-}
-
-func (n Num) IncreaseScaleBy(increase int32) Num {
-	debug.Assert(increase >= 0, "invalid amount to increase scale by")
-	debug.Assert(increase <= 76, "invalid amount to increase scale by")
-
-	v := scaleMultipliers[increase].BigInt()
-	return FromBigInt(v.Mul(n.BigInt(), v))
-}
-
-func (n Num) ReduceScaleBy(reduce int32, round bool) Num {
-	debug.Assert(reduce >= 0, "invalid amount to reduce scale by")
-	debug.Assert(reduce <= 76, "invalid amount to reduce scale by")
-
-	if reduce == 0 {
-		return n
-	}
-
-	divisor := scaleMultipliers[reduce].BigInt()
-	result, remainder := divisor.QuoRem(n.BigInt(), divisor, new(big.Int))
-	if round {
-		divisorHalf := scaleMultipliersHalf[reduce]
-		if remainder.Abs(remainder).Cmp(divisorHalf.BigInt()) != -1 {
-			result.Add(result, big.NewInt(int64(n.Sign())))
-		}
-	}
-	return FromBigInt(result)
-}
-
-func (n Num) rescaleWouldCauseDataLoss(deltaScale int32, multiplier Num) (out Num, loss bool) {
-	if deltaScale < 0 {
-		var remainder Num
-		out, remainder = n.Div(multiplier)
-		return out, remainder != Num{}
-	}
-
-	out = n.Mul(multiplier)
-	if n.Sign() < 0 {
-		loss = n.Less(out)
-	} else {
-		loss = out.Less(n)
-	}
-	return
-}
-
-func (n Num) Rescale(original, newscale int32) (out Num, err error) {
-	if original == newscale {
-		return n, nil
-	}
-
-	deltaScale := newscale - original
-	absDeltaScale := int32(math.Abs(float64(deltaScale)))
-
-	multiplier := scaleMultipliers[absDeltaScale]
-	var wouldHaveLoss bool
-	out, wouldHaveLoss = n.rescaleWouldCauseDataLoss(deltaScale, multiplier)
-	if wouldHaveLoss {
-		err = errors.New("rescale data loss")
-	}
-	return
-}
-
-func (n Num) Abs() Num {
-	switch n.Sign() {
-	case -1:
-		return n.Negate()
-	}
-	return n
-}
-
-func (n Num) FitsInPrecision(prec int32) bool {
-	debug.Assert(prec > 0, "precision must be > 0")
-	debug.Assert(prec <= 76, "precision must be <= 76")
-	return n.Abs().Less(scaleMultipliers[prec])
-}
-
-func (n Num) ToString(scale int32) string {
-	f := (&big.Float{}).SetInt(n.BigInt())
-	if scale < 0 {
-		f.SetPrec(256).Mul(f, (&big.Float{}).SetInt(scaleMultipliers[-scale].BigInt()))
-	} else {
-		f.SetPrec(256).Quo(f, (&big.Float{}).SetInt(scaleMultipliers[scale].BigInt()))
-	}
-	return f.Text('f', int(scale))
-}
-
-func GetScaleMultiplier(pow int) Num { return scaleMultipliers[pow] }
-
-func GetHalfScaleMultiplier(pow int) Num { return scaleMultipliersHalf[pow] }
-
-var (
-	scaleMultipliers = [...]Num{
-		FromU64(1),
-		FromU64(10),
-		FromU64(100),
-		FromU64(1000),
-		FromU64(10000),
-		FromU64(100000),
-		FromU64(1000000),
-		FromU64(10000000),
-		FromU64(100000000),
-		FromU64(1000000000),
-		FromU64(10000000000),
-		FromU64(100000000000),
-		FromU64(1000000000000),
-		FromU64(10000000000000),
-		FromU64(100000000000000),
-		FromU64(1000000000000000),
-		FromU64(10000000000000000),
-		FromU64(100000000000000000),
-		FromU64(1000000000000000000),
-		New(0, 0, 0, 10000000000000000000),
-		New(0, 0, 5, 7766279631452241920),
-		New(0, 0, 54, 3875820019684212736),
-		New(0, 0, 542, 1864712049423024128),
-		New(0, 0, 5421, 200376420520689664),
-		New(0, 0, 54210, 2003764205206896640),
-		New(0, 0, 542101, 1590897978359414784),
-		New(0, 0, 5421010, 15908979783594147840),
-		New(0, 0, 54210108, 11515845246265065472),
-		New(0, 0, 542101086, 4477988020393345024),
-		New(0, 0, 5421010862, 7886392056514347008),
-		New(0, 0, 54210108624, 5076944270305263616),
-		New(0, 0, 542101086242, 13875954555633532928),
-		New(0, 0, 5421010862427, 9632337040368467968),
-		New(0, 0, 54210108624275, 4089650035136921600),
-		New(0, 0, 542101086242752, 4003012203950112768),
-		New(0, 0, 5421010862427522, 3136633892082024448),
-		New(0, 0, 54210108624275221, 12919594847110692864),
-		New(0, 0, 542101086242752217, 68739955140067328),
-		New(0, 0, 5421010862427522170, 687399551400673280),
-		New(0, 2, 17316620476856118468, 6873995514006732800),
-		New(0, 29, 7145508105175220139, 13399722918938673152),
-		New(0, 293, 16114848830623546549, 4870020673419870208),
-		New(0, 2938, 13574535716559052564, 11806718586779598848),
-		New(0, 29387, 6618148649623664334, 7386721425538678784),
-		New(0, 293873, 10841254275107988496, 80237960548581376),
-		New(0, 2938735, 16178822382532126880, 802379605485813760),
-		New(0, 29387358, 14214271235644855872, 8023796054858137600),
-		New(0, 293873587, 13015503840481697412, 6450984253743169536),
-		New(0, 2938735877, 1027829888850112811, 9169610316303040512),
-		New(0, 29387358770, 10278298888501128114, 17909126868192198656),
-		New(0, 293873587705, 10549268516463523069, 13070572018536022016),
-		New(0, 2938735877055, 13258964796087472617, 1578511669393358848),
-		New(0, 29387358770557, 3462439444907864858, 15785116693933588480),
-		New(0, 293873587705571, 16177650375369096972, 10277214349659471872),
-		New(0, 2938735877055718, 14202551164014556797, 10538423128046960640),
-		New(0, 29387358770557187, 12898303124178706663, 13150510911921848320),
-		New(0, 293873587705571876, 18302566799529756941, 2377900603251621888),
-		New(0, 2938735877055718769, 17004971331911604867, 5332261958806667264),
-		New(1, 10940614696847636083, 4029016655730084128, 16429131440647569408),
-		New(15, 17172426599928602752, 3396678409881738056, 16717361816799281152),
-		New(159, 5703569335900062977, 15520040025107828953, 1152921504606846976),
-		New(1593, 1695461137871974930, 7626447661401876602, 11529215046068469760),
-		New(15930, 16954611378719749304, 2477500319180559562, 4611686018427387904),
-		New(159309, 3525417123811528497, 6328259118096044006, 9223372036854775808),
-		New(1593091, 16807427164405733357, 7942358959831785217, 0),
-		New(15930919, 2053574980671369030, 5636613303479645706, 0),
-		New(159309191, 2089005733004138687, 1025900813667802212, 0),
-		New(1593091911, 2443313256331835254, 10259008136678022120, 0),
-		New(15930919111, 5986388489608800929, 10356360998232463120, 0),
-		New(159309191113, 4523652674959354447, 11329889613776873120, 0),
-		New(1593091911132, 8343038602174441244, 2618431695511421504, 0),
-		New(15930919111324, 9643409726906205977, 7737572881404663424, 0),
-		New(159309191113245, 4200376900514301694, 3588752519208427776, 0),
-		New(1593091911132452, 5110280857723913709, 17440781118374726144, 0),
-		New(15930919111324522, 14209320429820033867, 8387114520361296896, 0),
-		New(159309191113245227, 12965995782233477362, 10084168908774762496, 0),
-		New(1593091911132452277, 532749306367912313, 8607968719199866880, 0),
-	}
-
-	scaleMultipliersHalf = [...]Num{
-		FromU64(0),
-		FromU64(5),
-		FromU64(50),
-		FromU64(500),
-		FromU64(5000),
-		FromU64(50000),
-		FromU64(500000),
-		FromU64(5000000),
-		FromU64(50000000),
-		FromU64(500000000),
-		FromU64(5000000000),
-		FromU64(50000000000),
-		FromU64(500000000000),
-		FromU64(5000000000000),
-		FromU64(50000000000000),
-		FromU64(500000000000000),
-		FromU64(5000000000000000),
-		FromU64(50000000000000000),
-		FromU64(500000000000000000),
-		FromU64(5000000000000000000),
-		New(0, 0, 2, 13106511852580896768),
-		New(0, 0, 27, 1937910009842106368),
-		New(0, 0, 271, 932356024711512064),
-		New(0, 0, 2710, 9323560247115120640),
-		New(0, 0, 27105, 1001882102603448320),
-		New(0, 0, 271050, 10018821026034483200),
-		New(0, 0, 2710505, 7954489891797073920),
-		New(0, 0, 27105054, 5757922623132532736),
-		New(0, 0, 271050543, 2238994010196672512),
-		New(0, 0, 2710505431, 3943196028257173504),
-		New(0, 0, 27105054312, 2538472135152631808),
-		New(0, 0, 271050543121, 6937977277816766464),
-		New(0, 0, 2710505431213, 14039540557039009792),
-		New(0, 0, 27105054312137, 11268197054423236608),
-		New(0, 0, 271050543121376, 2001506101975056384),
-		New(0, 0, 2710505431213761, 1568316946041012224),
-		New(0, 0, 27105054312137610, 15683169460410122240),
-		New(0, 0, 271050543121376108, 9257742014424809472),
-		New(0, 0, 2710505431213761085, 343699775700336640),
-		New(0, 1, 8658310238428059234, 3436997757003366400),
-		New(0, 14, 12796126089442385877, 15923233496324112384),
-		New(0, 146, 17280796452166549082, 11658382373564710912),
-		New(0, 1469, 6787267858279526282, 5903359293389799424),
-		New(0, 14693, 12532446361666607975, 3693360712769339392),
-		New(0, 146936, 14643999174408770056, 40118980274290688),
-		New(0, 1469367, 17312783228120839248, 401189802742906880),
-		New(0, 14693679, 7107135617822427936, 4011898027429068800),
-		New(0, 146936793, 15731123957095624514, 3225492126871584768),
-		New(0, 1469367938, 9737286981279832213, 13808177195006296064),
-		New(0, 14693679385, 5139149444250564057, 8954563434096099328),
-		New(0, 146936793852, 14498006295086537342, 15758658046122786816),
-		New(0, 1469367938527, 15852854434898512116, 10012627871551455232),
-		New(0, 14693679385278, 10954591759308708237, 7892558346966794240),
-		New(0, 146936793852785, 17312197224539324294, 5138607174829735936),
-		New(0, 1469367938527859, 7101275582007278398, 14492583600878256128),
-		New(0, 14693679385278593, 15672523598944129139, 15798627492815699968),
-		New(0, 146936793852785938, 9151283399764878470, 10412322338480586752),
-		New(0, 1469367938527859384, 17725857702810578241, 11889503016258109440),
-		New(0, 14693679385278593849, 11237880364719817872, 8214565720323784704),
-		New(7, 17809585336819077184, 1698339204940869028, 8358680908399640576),
-		New(79, 12075156704804807296, 16983392049408690284, 9799832789158199296),
-		New(796, 10071102605790763273, 3813223830700938301, 5764607523034234880),
-		New(7965, 8477305689359874652, 1238750159590279781, 2305843009213693952),
-		New(79654, 10986080598760540056, 12387501595902797811, 4611686018427387904),
-		New(796545, 17627085619057642486, 13194551516770668416, 9223372036854775808),
-		New(7965459, 10250159527190460323, 2818306651739822853, 0),
-		New(79654595, 10267874903356845151, 9736322443688676914, 0),
-		New(796545955, 10445028665020693435, 5129504068339011060, 0),
-		New(7965459555, 12216566281659176272, 14401552535971007368, 0),
-		New(79654595556, 11485198374334453031, 14888316843743212368, 0),
-		New(796545955566, 4171519301087220622, 1309215847755710752, 0),
-		New(7965459555662, 4821704863453102988, 13092158477557107520, 0),
-		New(79654595556622, 11323560487111926655, 1794376259604213888, 0),
-		New(796545955566226, 2555140428861956854, 17943762596042138880, 0),
-		New(7965459555662261, 7104660214910016933, 13416929297035424256, 0),
-		New(79654595556622613, 15706369927971514489, 5042084454387381248, 0),
-		New(796545955566226138, 9489746690038731964, 13527356396454709248, 0),
-	}
-
-	float64PowersOfTen = [...]float64{
-		1e-76, 1e-75, 1e-74, 1e-73, 1e-72, 1e-71, 1e-70, 1e-69, 1e-68, 1e-67, 1e-66, 1e-65,
-		1e-64, 1e-63, 1e-62, 1e-61, 1e-60, 1e-59, 1e-58, 1e-57, 1e-56, 1e-55, 1e-54, 1e-53,
-		1e-52, 1e-51, 1e-50, 1e-49, 1e-48, 1e-47, 1e-46, 1e-45, 1e-44, 1e-43, 1e-42, 1e-41,
-		1e-40, 1e-39, 1e-38, 1e-37, 1e-36, 1e-35, 1e-34, 1e-33, 1e-32, 1e-31, 1e-30, 1e-29,
-		1e-28, 1e-27, 1e-26, 1e-25, 1e-24, 1e-23, 1e-22, 1e-21, 1e-20, 1e-19, 1e-18, 1e-17,
-		1e-16, 1e-15, 1e-14, 1e-13, 1e-12, 1e-11, 1e-10, 1e-9, 1e-8, 1e-7, 1e-6, 1e-5,
-		1e-4, 1e-3, 1e-2, 1e-1, 1e0, 1e1, 1e2, 1e3, 1e4, 1e5, 1e6, 1e7,
-		1e8, 1e9, 1e10, 1e11, 1e12, 1e13, 1e14, 1e15, 1e16, 1e17, 1e18, 1e19,
-		1e20, 1e21, 1e22, 1e23, 1e24, 1e25, 1e26, 1e27, 1e28, 1e29, 1e30, 1e31,
-		1e32, 1e33, 1e34, 1e35, 1e36, 1e37, 1e38, 1e39, 1e40, 1e41, 1e42, 1e43,
-		1e44, 1e45, 1e46, 1e47, 1e48, 1e49, 1e50, 1e51, 1e52, 1e53, 1e54, 1e55,
-		1e56, 1e57, 1e58, 1e59, 1e60, 1e61, 1e62, 1e63, 1e64, 1e65, 1e66, 1e67,
-		1e68, 1e69, 1e70, 1e71, 1e72, 1e73, 1e74, 1e75, 1e76,
-	}
-)
diff --git a/go/arrow/decimal256/decimal256_test.go b/go/arrow/decimal256/decimal256_test.go
deleted file mode 100644
index 3d2ee8c543597..0000000000000
--- a/go/arrow/decimal256/decimal256_test.go
+++ /dev/null
@@ -1,623 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package decimal256_test
-
-import (
-	"fmt"
-	"math"
-	"math/big"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFromU64(t *testing.T) {
-	for _, tc := range []struct {
-		v    uint64
-		want decimal256.Num
-		sign int
-	}{
-		{0, decimal256.New(0, 0, 0, 0), 0},
-		{1, decimal256.New(0, 0, 0, 1), +1},
-		{2, decimal256.New(0, 0, 0, 2), +1},
-		{math.MaxInt64, decimal256.New(0, 0, 0, math.MaxInt64), +1},
-		{math.MaxUint64, decimal256.New(0, 0, 0, math.MaxUint64), +1},
-	} {
-		t.Run(fmt.Sprintf("%+0#x", tc.v), func(t *testing.T) {
-			v := decimal256.FromU64(tc.v)
-			ref := new(big.Int).SetUint64(tc.v)
-			if got, want := v, tc.want; got != want {
-				t.Fatalf("invalid value. got=%+0#x, want=%+0#x (big-int=%+0#x)", got, want, ref)
-			}
-			if got, want := v.Sign(), tc.sign; got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.Sign(), ref.Sign(); got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.Array(), tc.want.Array(); got != want {
-				t.Fatalf("invalid array: got=%+0#v, want=%+0#v", got, want)
-			}
-		})
-	}
-}
-
-func u64Cnv(i int64) uint64 { return uint64(i) }
-
-func TestFromI64(t *testing.T) {
-	for _, tc := range []struct {
-		v    int64
-		want decimal256.Num
-		sign int
-	}{
-		{0, decimal256.New(0, 0, 0, 0), 0},
-		{1, decimal256.New(0, 0, 0, 1), 1},
-		{2, decimal256.New(0, 0, 0, 2), 1},
-		{math.MaxInt64, decimal256.New(0, 0, 0, math.MaxInt64), 1},
-		{math.MinInt64, decimal256.New(math.MaxUint64, math.MaxUint64, math.MaxUint64, u64Cnv(math.MinInt64)), -1},
-	} {
-		t.Run(fmt.Sprintf("%+0#x", tc.v), func(t *testing.T) {
-			v := decimal256.FromI64(tc.v)
-			ref := big.NewInt(tc.v)
-			if got, want := v, tc.want; got != want {
-				t.Fatalf("invalid value. got=%+0#x, want=%+0#x (big-int=%+0#x)", got, want, ref)
-			}
-			if got, want := v.Sign(), tc.sign; got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.Sign(), ref.Sign(); got != want {
-				t.Fatalf("invalid sign for %+0#x: got=%v, want=%v", v, got, want)
-			}
-			if got, want := v.Array(), tc.want.Array(); got != want {
-				t.Fatalf("invalid array: got=%+0#v, want=%+0#v", got, want)
-			}
-		})
-	}
-}
-
-func TestAdd(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 3)},
-		{decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 3, 0)},
-		{decimal256.New(0, 1, 0, 0), decimal256.New(0, 2, 0, 0), decimal256.New(0, 3, 0, 0)},
-		{decimal256.New(1, 0, 0, 0), decimal256.New(2, 0, 0, 0), decimal256.New(3, 0, 0, 0)},
-		{decimal256.New(0, 0, 2, 1), decimal256.New(0, 0, 1, 2), decimal256.New(0, 0, 3, 3)},
-		{decimal256.New(0, 2, 1, 0), decimal256.New(0, 1, 2, 0), decimal256.New(0, 3, 3, 0)},
-		{decimal256.New(2, 1, 0, 0), decimal256.New(1, 2, 0, 0), decimal256.New(3, 3, 0, 0)},
-		{decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(0, 0, 1, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(0, 1, 0, 0), decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(1, 0, 0, 0)},
-		{decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(0, 1, 0, 0), decimal256.New(1, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 1, 0, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 1, 0, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(1, 0, 0, 0), decimal256.New(0, 0, 0, 0), decimal256.New(1, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(1, 0, 0, 0), decimal256.New(1, 0, 0, 0)},
-	} {
-		t.Run("add", func(t *testing.T) {
-			n := tc.n.Add(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestSub(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 3), decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 3, 0), decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 3, 0, 0), decimal256.New(0, 2, 0, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(3, 0, 0, 0), decimal256.New(2, 0, 0, 0), decimal256.New(1, 0, 0, 0)},
-		{decimal256.New(0, 0, 3, 3), decimal256.New(0, 0, 1, 2), decimal256.New(0, 0, 2, 1)},
-		{decimal256.New(0, 3, 3, 0), decimal256.New(0, 1, 2, 0), decimal256.New(0, 2, 1, 0)},
-		{decimal256.New(3, 3, 0, 0), decimal256.New(1, 2, 0, 0), decimal256.New(2, 1, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(math.MaxUint64, math.MaxUint64, math.MaxUint64, 1)},
-		{decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(math.MaxUint64, math.MaxUint64, 1, 0)},
-		{decimal256.New(0, 1, 0, 0), decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(math.MaxUint64, 1, 0, 0)},
-		{decimal256.New(1, 0, 0, 0), decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 1, 0, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(1, 0, 0, 0), decimal256.New(0, 0, 0, 0), decimal256.New(1, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(math.MaxUint64, math.MaxUint64, math.MaxUint64, math.MaxUint64)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 1, 0), decimal256.New(math.MaxUint64, math.MaxUint64, math.MaxUint64, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 1, 0, 0), decimal256.New(math.MaxUint64, math.MaxUint64, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(1, 0, 0, 0), decimal256.New(math.MaxUint64, 0, 0, 0)},
-	} {
-		t.Run("sub", func(t *testing.T) {
-			n := tc.n.Sub(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMul(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 3), decimal256.New(0, 0, 0, 6)},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 0, 3), decimal256.New(0, 0, 6, 0)},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 0, 0, 3), decimal256.New(0, 6, 0, 0)},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(0, 0, 0, 3), decimal256.New(6, 0, 0, 0)},
-		{decimal256.New(0, 0, 3, 3), decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 6, 6)},
-		{decimal256.New(0, 3, 3, 0), decimal256.New(0, 0, 0, 2), decimal256.New(0, 6, 6, 0)},
-		{decimal256.New(3, 3, 0, 0), decimal256.New(0, 0, 0, 2), decimal256.New(6, 6, 0, 0)},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 3, 3), decimal256.New(0, 0, 6, 6)},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 3, 3), decimal256.New(0, 6, 6, 0)},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 0, 3, 3), decimal256.New(6, 6, 0, 0)},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(0, 0, 1, math.MaxUint64-1)},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(0, 1, math.MaxUint64-1, 0)},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(1, math.MaxUint64-1, 0, 0)},
-		{decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 1, 0, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(1, 0, 0, 0), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 1, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 1, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(1, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-	} {
-		t.Run("mul", func(t *testing.T) {
-			n := tc.n.Mul(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestDiv(t *testing.T) {
-	for _, tc := range []struct {
-		n        decimal256.Num
-		rhs      decimal256.Num
-		want_res decimal256.Num
-		want_rem decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 3), decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 3, 0), decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 1, 0)},
-		{decimal256.New(0, 3, 0, 0), decimal256.New(0, 2, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 1, 0, 0)},
-		{decimal256.New(3, 0, 0, 0), decimal256.New(2, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(1, 0, 0, 0)},
-		{decimal256.New(0, 0, 3, 2), decimal256.New(0, 0, 2, 3), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, math.MaxUint64)},
-		{decimal256.New(0, 3, 2, 0), decimal256.New(0, 2, 3, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, math.MaxUint64, 0)},
-		{decimal256.New(3, 2, 0, 0), decimal256.New(2, 3, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, math.MaxUint64, 0, 0)},
-		{decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, math.MaxUint64), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, math.MaxUint64, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, math.MaxUint64, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(math.MaxUint64, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(math.MaxUint64, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 0)},
-	} {
-		t.Run("div", func(t *testing.T) {
-			res, rem := tc.n.Div(tc.rhs)
-			if got, want := res, tc.want_res; got != want {
-				t.Fatalf("invalid res value. got=%v, want=%v", got, want)
-			}
-			if got, want := rem, tc.want_rem; got != want {
-				t.Fatalf("invalid rem value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestPow(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 3), decimal256.New(0, 0, 0, 8)},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 0, 3), decimal256.New(8, 0, 0, 0)},
-		{decimal256.New(0, 0, 2, 2), decimal256.New(0, 0, 0, 3), decimal256.New(8, 24, 24, 8)},
-		{decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1)},
-		{decimal256.New(0, 0, 0, 0), decimal256.New(0, 0, 0, 1), decimal256.New(0, 0, 0, 0)},
-	} {
-		t.Run("pow", func(t *testing.T) {
-			n := tc.n.Pow(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMax(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  []decimal256.Num
-		want decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 2), []decimal256.Num{decimal256.New(8, 4, 2, 1), decimal256.New(9, 0, 0, 8), decimal256.New(0, 17, 0, 0)}, decimal256.New(9, 0, 0, 8)},
-		{decimal256.New(0, 0, 0, 10), []decimal256.Num{decimal256.New(0, 4, 0, 1), decimal256.New(0, 0, 0, 8), decimal256.New(0, 0, 3, 0)}, decimal256.New(0, 4, 0, 1)},
-	} {
-		t.Run("max", func(t *testing.T) {
-			n := decimal256.Max(tc.n, tc.rhs...)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMin(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  []decimal256.Num
-		want decimal256.Num
-	}{
-		{decimal256.New(0, 0, 0, 2), []decimal256.Num{decimal256.New(8, 4, 2, 1), decimal256.New(9, 0, 0, 8), decimal256.New(0, 17, 0, 0)}, decimal256.New(0, 0, 0, 2)},
-		{decimal256.New(0, 0, 0, 10), []decimal256.Num{decimal256.New(0, 4, 0, 1), decimal256.New(0, 0, 0, 8), decimal256.New(0, 0, 3, 0)}, decimal256.New(0, 0, 0, 8)},
-	} {
-		t.Run("min", func(t *testing.T) {
-			n := decimal256.Min(tc.n, tc.rhs...)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestGreater(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want bool
-	}{
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 1), true},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 1, 0), true},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 1, 0, 0), true},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(1, 0, 0, 0), true},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 3), false},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 3, 0), false},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 3, 0, 0), false},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(3, 0, 0, 0), false},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 2), false},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 2, 0), false},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 2, 0, 0), false},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(2, 0, 0, 0), false},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 2, 1), true},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 2, 1, 0), true},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(2, 1, 0, 0), true},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 3, 1), false},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 3, 1, 0), false},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(3, 1, 0, 0), false},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 2, math.MaxUint64), false},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 2, math.MaxUint64, 0), false},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(2, math.MaxUint64, 0, 0), false},
-	} {
-		t.Run("greater", func(t *testing.T) {
-			n := tc.n.Greater(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestLess(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want bool
-	}{
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 1), false},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 1, 0), false},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 1, 0, 0), false},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(1, 0, 0, 0), false},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 3), true},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 3, 0), true},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 3, 0, 0), true},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(3, 0, 0, 0), true},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 2), false},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 2, 0), false},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 2, 0, 0), false},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(2, 0, 0, 0), false},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 2, 1), false},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 2, 1, 0), false},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(2, 1, 0, 0), false},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 3, 1), true},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 3, 1, 0), true},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(3, 1, 0, 0), true},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 2, math.MaxUint64), false},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 2, math.MaxUint64, 0), false},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(2, math.MaxUint64, 0, 0), false},
-	} {
-		t.Run("less", func(t *testing.T) {
-			n := tc.n.Less(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestCmp(t *testing.T) {
-	for _, tc := range []struct {
-		n    decimal256.Num
-		rhs  decimal256.Num
-		want int
-	}{
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 1), 1},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 1, 0), 1},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 1, 0, 0), 1},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(1, 0, 0, 0), 1},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 3), -1},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 3, 0), -1},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 3, 0, 0), -1},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(3, 0, 0, 0), -1},
-		{decimal256.New(0, 0, 0, 2), decimal256.New(0, 0, 0, 2), 0},
-		{decimal256.New(0, 0, 2, 0), decimal256.New(0, 0, 2, 0), 0},
-		{decimal256.New(0, 2, 0, 0), decimal256.New(0, 2, 0, 0), 0},
-		{decimal256.New(2, 0, 0, 0), decimal256.New(2, 0, 0, 0), 0},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 2, 1), 1},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 2, 1, 0), 1},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(2, 1, 0, 0), 1},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 3, 1), -1},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 3, 1, 0), -1},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(3, 1, 0, 0), -1},
-		{decimal256.New(0, 0, 2, math.MaxUint64), decimal256.New(0, 0, 2, math.MaxUint64), 0},
-		{decimal256.New(0, 2, math.MaxUint64, 0), decimal256.New(0, 2, math.MaxUint64, 0), 0},
-		{decimal256.New(2, math.MaxUint64, 0, 0), decimal256.New(2, math.MaxUint64, 0, 0), 0},
-	} {
-		t.Run("cmp", func(t *testing.T) {
-			n := tc.n.Cmp(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestDecimalToBigInt(t *testing.T) {
-	tests := []struct {
-		arr [4]uint64
-		exp string
-	}{
-		{[4]uint64{0, 10084168908774762496, 12965995782233477362, 159309191113245227}, "1000000000000000000000000000000000000000000000000000000000000000000000000000"},
-		{[4]uint64{0, 8362575164934789120, 5480748291476074253, 18287434882596306388}, "-1000000000000000000000000000000000000000000000000000000000000000000000000000"},
-		{[4]uint64{0, 0, 0, 0}, "0"},
-		{[4]uint64{17877984925544397504, 5352188884907840935, 234631617561833724, 196678011949953713}, "1234567890123456789012345678901234567890123456789012345678901234567890123456"},
-		{[4]uint64{568759148165154112, 13094555188801710680, 18212112456147717891, 18250066061759597902}, "-1234567890123456789012345678901234567890123456789012345678901234567890123456"},
-	}
-	for _, tc := range tests {
-		t.Run("", func(t *testing.T) {
-			n := decimal256.New(tc.arr[3], tc.arr[2], tc.arr[1], tc.arr[0])
-			bi := n.BigInt()
-
-			assert.Equal(t, tc.exp, bi.String())
-			n2 := decimal256.FromBigInt(bi)
-			assert.Equal(t, n2.Array(), n.Array())
-		})
-	}
-}
-
-func TestDecimalFromFloat(t *testing.T) {
-	tests := []struct {
-		val              float64
-		precision, scale int32
-		expected         string
-	}{
-		{0, 1, 0, "0"},
-		{math.Copysign(0, -1), 1, 0, "0"},
-		{0, 19, 4, "0.0000"},
-		{math.Copysign(0, -1), 19, 4, "0.0000"},
-		{123.0, 7, 4, "123.0000"},
-		{-123, 7, 4, "-123.0000"},
-		{456.78, 7, 4, "456.7800"},
-		{-456.78, 7, 4, "-456.7800"},
-		{456.784, 5, 2, "456.78"},
-		{-456.784, 5, 2, "-456.78"},
-		{456.786, 5, 2, "456.79"},
-		{-456.786, 5, 2, "-456.79"},
-		{999.99, 5, 2, "999.99"},
-		{-999.99, 5, 2, "-999.99"},
-		{123, 19, 0, "123"},
-		{-123, 19, 0, "-123"},
-		{123.4, 19, 0, "123"},
-		{-123.4, 19, 0, "-123"},
-		{123.6, 19, 0, "124"},
-		{-123.6, 19, 0, "-124"},
-		// 2**62
-		{4.611686018427387904e+18, 19, 0, "4611686018427387904"},
-		{-4.611686018427387904e+18, 19, 0, "-4611686018427387904"},
-		// 2**63
-		{9.223372036854775808e+18, 19, 0, "9223372036854775808"},
-		{-9.223372036854775808e+18, 19, 0, "-9223372036854775808"},
-		// 2**64
-		{1.8446744073709551616e+19, 20, 0, "18446744073709551616"},
-		{-1.8446744073709551616e+19, 20, 0, "-18446744073709551616"},
-		{9.999999999999999e+75, 76, 0, "9999999999999998863663300700064420349597509066704028242075715752105414230016"},
-		{-9.999999999999999e+75, 76, 0, "-9999999999999998863663300700064420349597509066704028242075715752105414230016"},
-	}
-
-	t.Run("float64", func(t *testing.T) {
-		for _, tt := range tests {
-			t.Run(tt.expected, func(t *testing.T) {
-				n, err := decimal256.FromFloat64(tt.val, tt.precision, tt.scale)
-				assert.NoError(t, err)
-
-				assert.Equal(t, tt.expected, big.NewFloat(n.ToFloat64(tt.scale)).Text('f', int(tt.scale)))
-			})
-		}
-
-		t.Run("large values", func(t *testing.T) {
-			// test entire float64 range
-			for scale := int32(-308); scale <= 308; scale++ {
-				val := math.Pow10(int(scale))
-				n, err := decimal256.FromFloat64(val, 1, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "1", n.BigInt().String())
-			}
-
-			for scale := int32(-307); scale <= 306; scale++ {
-				val := 123 * math.Pow10(int(scale))
-				n, err := decimal256.FromFloat64(val, 2, -scale-1)
-				assert.NoError(t, err)
-				assert.Equal(t, "12", n.BigInt().String())
-				n, err = decimal256.FromFloat64(val, 3, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "123", n.BigInt().String())
-				n, err = decimal256.FromFloat64(val, 4, -scale+1)
-				assert.NoError(t, err)
-				assert.Equal(t, "1230", n.BigInt().String())
-			}
-		})
-	})
-
-	t.Run("float32", func(t *testing.T) {
-		for _, tt := range tests {
-			if tt.precision > 38 {
-				continue
-			}
-			t.Run(tt.expected, func(t *testing.T) {
-				n, err := decimal256.FromFloat32(float32(tt.val), tt.precision, tt.scale)
-				assert.NoError(t, err)
-
-				assert.Equal(t, tt.expected, big.NewFloat(float64(n.ToFloat32(tt.scale))).Text('f', int(tt.scale)))
-			})
-		}
-
-		t.Run("large values", func(t *testing.T) {
-			// test entire float32 range
-			for scale := int32(-38); scale <= 38; scale++ {
-				val := float32(math.Pow10(int(scale)))
-				n, err := decimal256.FromFloat32(val, 1, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "1", n.BigInt().String())
-			}
-
-			for scale := int32(-37); scale <= 36; scale++ {
-				val := 123 * float32(math.Pow10(int(scale)))
-				n, err := decimal256.FromFloat32(val, 2, -scale-1)
-				assert.NoError(t, err)
-				assert.Equal(t, "12", n.BigInt().String())
-				n, err = decimal256.FromFloat32(val, 3, -scale)
-				assert.NoError(t, err)
-				assert.Equal(t, "123", n.BigInt().String())
-				n, err = decimal256.FromFloat32(val, 4, -scale+1)
-				assert.NoError(t, err)
-				assert.Equal(t, "1230", n.BigInt().String())
-			}
-		})
-	})
-}
-
-func TestFromString(t *testing.T) {
-	tests := []struct {
-		s             string
-		expected      int64
-		expectedScale int32
-	}{
-		{"12.3", 123, 1},
-		{"0.00123", 123, 5},
-		{"1.23e-8", 123, 10},
-		{"-1.23E-8", -123, 10},
-		{"1.23e+3", 1230, 0},
-		{"-1.23E+3", -1230, 0},
-		{"1.23e+5", 123000, 0},
-		{"1.2345E+7", 12345000, 0},
-		{"1.23e-8", 123, 10},
-		{"-1.23E-8", -123, 10},
-		{"1.23E+3", 1230, 0},
-		{"-1.23e+3", -1230, 0},
-		{"1.23e+5", 123000, 0},
-		{"1.2345e+7", 12345000, 0},
-		{"0000000", 0, 0},
-		{"000.0000", 0, 4},
-		{".00000", 0, 5},
-		{"1e1", 10, 0},
-		{"+234.567", 234567, 3},
-		{"1e-37", 1, 37},
-		{"2112.33", 211233, 2},
-		{"-2112.33", -211233, 2},
-		{"12E2", 12, -2},
-	}
-
-	for _, tt := range tests {
-		t.Run(fmt.Sprintf("%s_%d", tt.s, tt.expectedScale), func(t *testing.T) {
-			n, err := decimal256.FromString(tt.s, 35, tt.expectedScale)
-			assert.NoError(t, err)
-
-			ex := decimal256.FromI64(tt.expected)
-			assert.Equal(t, ex, n)
-		})
-	}
-}
-
-// Test issues from GH-38395
-func TestToString(t *testing.T) {
-	const decStr = "3379334159166193114608287418738414931564221155305735605033949613740461239999"
-
-	integer, _ := (&big.Int{}).SetString(decStr, 10)
-	dec := decimal256.FromBigInt(integer)
-
-	expected := "0." + decStr
-	assert.Equal(t, expected, dec.ToString(int32(len(decStr))))
-	assert.Equal(t, decStr+"0000", dec.ToString(-4))
-}
-
-// Test issues from GH-38395
-func TestHexFromString(t *testing.T) {
-	const decStr = "11111111111111111111111111111111111111.00000000000000000000000000000000000000"
-
-	num, err := decimal256.FromString(decStr, 76, 38)
-	if err != nil {
-		t.Error(err)
-	} else if decStr != num.ToString(38) {
-		t.Errorf("expected: %s, actual: %s\n", decStr, num.ToString(38))
-
-		actualCoeff := num.BigInt()
-		expectedCoeff, _ := (&big.Int{}).SetString(strings.Replace(decStr, ".", "", -1), 10)
-		t.Errorf("expected(hex): %X, actual(hex): %X\n", expectedCoeff.Bytes(), actualCoeff.Bytes())
-	}
-}
-
-func TestBitLen(t *testing.T) {
-	n := decimal256.GetScaleMultiplier(76)
-	b := n.BigInt()
-	b.Mul(b, big.NewInt(25))
-	assert.Greater(t, b.BitLen(), 255)
-
-	assert.Panics(t, func() {
-		decimal256.FromBigInt(b)
-	})
-
-	_, err := decimal256.FromString(b.String(), decimal256.MaxPrecision, 0)
-	assert.ErrorContains(t, err, "bitlen too large for decimal256")
-	_, err = decimal256.FromString(b.String(), decimal256.MaxPrecision, -1)
-	assert.ErrorContains(t, err, "bitlen too large for decimal256")
-}
diff --git a/go/arrow/doc.go b/go/arrow/doc.go
deleted file mode 100644
index 30e6b7eb8d6ea..0000000000000
--- a/go/arrow/doc.go
+++ /dev/null
@@ -1,46 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-/*
-Package arrow provides an implementation of Apache Arrow.
-
-Apache Arrow is a cross-language development platform for in-memory data. It specifies a standardized
-language-independent columnar memory format for flat and hierarchical data, organized for efficient analytic
-operations on modern hardware. It also provides computational libraries and zero-copy streaming
-messaging and inter-process communication.
-
-# Basics
-
-The fundamental data structure in Arrow is an Array, which holds a sequence of values of the same type. An array
-consists of memory holding the data and an additional validity bitmap that indicates if the corresponding entry in the
-array is valid (not null). If the array has no null entries, it is possible to omit this bitmap.
-
-# Requirements
-
-To build with tinygo include the noasm build tag.
-*/
-package arrow
-
-const PkgVersion = "18.0.0-SNAPSHOT"
-
-//go:generate go run _tools/tmpl/main.go -i -data=numeric.tmpldata type_traits_numeric.gen.go.tmpl type_traits_numeric.gen_test.go.tmpl array/numeric.gen.go.tmpl array/numericbuilder.gen.go.tmpl array/bufferbuilder_numeric.gen.go.tmpl
-//go:generate go run _tools/tmpl/main.go -i -data=datatype_numeric.gen.go.tmpldata datatype_numeric.gen.go.tmpl tensor/numeric.gen.go.tmpl tensor/numeric.gen_test.go.tmpl
-//go:generate go run _tools/tmpl/main.go -i -data=scalar/numeric.gen.go.tmpldata scalar/numeric.gen.go.tmpl scalar/numeric.gen_test.go.tmpl
-//go:generate go run ./gen-flatbuffers.go
-
-// stringer
-//go:generate stringer -type=Type
-//go:generate stringer -type=UnionMode -linecomment
diff --git a/go/arrow/encoded/ree_utils.go b/go/arrow/encoded/ree_utils.go
deleted file mode 100644
index 822edd0303703..0000000000000
--- a/go/arrow/encoded/ree_utils.go
+++ /dev/null
@@ -1,219 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoded
-
-import (
-	"math"
-	"sort"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-// FindPhysicalIndex performs a binary search on the run-ends to return
-// the appropriate physical offset into the values/run-ends that corresponds
-// with the logical index provided when called. If the array's logical offset
-// is provided, this is equivalent to calling FindPhysicalOffset.
-//
-// For example, an array with run-ends [10, 20, 30, 40, 50] and a logicalIdx
-// of 25 will return the value 2. This returns the smallest offset
-// whose run-end is greater than the logicalIdx requested, which would
-// also be the index into the values that contains the correct value.
-//
-// This function assumes it receives Run End Encoded array data
-func FindPhysicalIndex(arr arrow.ArrayData, logicalIdx int) int {
-	data := arr.Children()[0]
-	if data.Len() == 0 {
-		return 0
-	}
-
-	switch data.DataType().ID() {
-	case arrow.INT16:
-		runEnds := arrow.Int16Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		runEnds = runEnds[data.Offset() : data.Offset()+data.Len()]
-		return sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > int16(logicalIdx) })
-	case arrow.INT32:
-		runEnds := arrow.Int32Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		runEnds = runEnds[data.Offset() : data.Offset()+data.Len()]
-		return sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > int32(logicalIdx) })
-	case arrow.INT64:
-		runEnds := arrow.Int64Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		runEnds = runEnds[data.Offset() : data.Offset()+data.Len()]
-		return sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > int64(logicalIdx) })
-	default:
-		panic("only int16, int32, and int64 are allowed for the run-ends")
-	}
-}
-
-// FindPhysicalOffset performs a binary search on the run-ends to return
-// the appropriate physical offset into the values/run-ends that corresponds
-// with the logical offset defined in the array.
-//
-// For example, an array with run-ends [10, 20, 30, 40, 50] and a logical
-// offset of 25 will return the value 2. This returns the smallest offset
-// whose run-end is greater than the logical offset, which would also be the
-// offset index into the values that contains the correct value.
-//
-// This function assumes it receives Run End Encoded array data
-func FindPhysicalOffset(arr arrow.ArrayData) int {
-	return FindPhysicalIndex(arr, arr.Offset())
-}
-
-// GetPhysicalLength returns the physical number of values which are in
-// the passed in RunEndEncoded array data. This will take into account
-// the offset and length of the array as reported in the array data
-// (so that it properly handles slices).
-//
-// This function assumes it receives Run End Encoded array data
-func GetPhysicalLength(arr arrow.ArrayData) int {
-	if arr.Len() == 0 {
-		return 0
-	}
-
-	data := arr.Children()[0]
-	physicalOffset := FindPhysicalOffset(arr)
-	start, length := data.Offset()+physicalOffset, data.Len()-physicalOffset
-	offset := arr.Offset() + arr.Len() - 1
-
-	switch data.DataType().ID() {
-	case arrow.INT16:
-		runEnds := arrow.Int16Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		runEnds = runEnds[start : start+length]
-		return sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > int16(offset) }) + 1
-	case arrow.INT32:
-		runEnds := arrow.Int32Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		runEnds = runEnds[start : start+length]
-		return sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > int32(offset) }) + 1
-	case arrow.INT64:
-		runEnds := arrow.Int64Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		runEnds = runEnds[start : start+length]
-		return sort.Search(len(runEnds), func(i int) bool { return runEnds[i] > int64(offset) }) + 1
-	default:
-		panic("arrow/rle: can only get rle.PhysicalLength for int16/int32/int64 run ends array")
-	}
-}
-
-func getRunEnds(arr arrow.ArrayData) func(int64) int64 {
-	switch arr.DataType().ID() {
-	case arrow.INT16:
-		runEnds := arrow.Int16Traits.CastFromBytes(arr.Buffers()[1].Bytes())
-		runEnds = runEnds[arr.Offset() : arr.Offset()+arr.Len()]
-		return func(i int64) int64 { return int64(runEnds[i]) }
-	case arrow.INT32:
-		runEnds := arrow.Int32Traits.CastFromBytes(arr.Buffers()[1].Bytes())
-		runEnds = runEnds[arr.Offset() : arr.Offset()+arr.Len()]
-		return func(i int64) int64 { return int64(runEnds[i]) }
-	case arrow.INT64:
-		runEnds := arrow.Int64Traits.CastFromBytes(arr.Buffers()[1].Bytes())
-		runEnds = runEnds[arr.Offset() : arr.Offset()+arr.Len()]
-		return func(i int64) int64 { return int64(runEnds[i]) }
-	default:
-		panic("only int16, int32, and int64 are allowed for the run-ends")
-	}
-}
-
-// MergedRuns is used to take two Run End Encoded arrays and iterate
-// them, finding the correct physical indices to correspond with the
-// runs.
-type MergedRuns struct {
-	inputs       [2]arrow.Array
-	runIndex     [2]int64
-	inputRunEnds [2]func(int64) int64
-	runEnds      [2]int64
-	logicalLen   int
-	logicalPos   int
-	mergedEnd    int64
-}
-
-// NewMergedRuns takes two RunEndEncoded arrays and returns a MergedRuns
-// object that will allow iterating over the physical indices of the runs.
-func NewMergedRuns(inputs [2]arrow.Array) *MergedRuns {
-	if len(inputs) == 0 {
-		return &MergedRuns{logicalLen: 0}
-	}
-
-	mr := &MergedRuns{inputs: inputs, logicalLen: inputs[0].Len()}
-	for i, in := range inputs {
-		if in.DataType().ID() != arrow.RUN_END_ENCODED {
-			panic("arrow/rle: NewMergedRuns can only be called with RunLengthEncoded arrays")
-		}
-		if in.Len() != mr.logicalLen {
-			panic("arrow/rle: can only merge runs of RLE arrays of the same length")
-		}
-
-		mr.inputRunEnds[i] = getRunEnds(in.Data().Children()[0])
-		// initialize the runIndex at the physical offset - 1 so the first
-		// call to Next will increment it to the correct initial offset
-		// since the initial state is logicalPos == 0 and mergedEnd == 0
-		mr.runIndex[i] = int64(FindPhysicalOffset(in.Data())) - 1
-	}
-
-	return mr
-}
-
-// Next returns true if there are more values/runs to iterate and false
-// when one of the arrays has reached the end.
-func (mr *MergedRuns) Next() bool {
-	mr.logicalPos = int(mr.mergedEnd)
-	if mr.isEnd() {
-		return false
-	}
-
-	for i := range mr.inputs {
-		if mr.logicalPos == int(mr.runEnds[i]) {
-			mr.runIndex[i]++
-		}
-	}
-	mr.findMergedRun()
-
-	return true
-}
-
-// IndexIntoBuffer returns the physical index into the value buffer of
-// the passed in array index (ie: 0 for the first array and 1 for the second)
-// this takes into account the offset of the array so it is the true physical
-// index into the value *buffer* in the child.
-func (mr *MergedRuns) IndexIntoBuffer(id int) int64 {
-	return mr.runIndex[id] + int64(mr.inputs[id].Data().Children()[1].Offset())
-}
-
-// IndexIntoArray is like IndexIntoBuffer but it doesn't take into account
-// the array offset and instead is the index that can be used with the .Value
-// method on the array to get the correct value.
-func (mr *MergedRuns) IndexIntoArray(id int) int64 { return mr.runIndex[id] }
-
-// RunLength returns the logical length of the current merged run being looked at.
-func (mr *MergedRuns) RunLength() int64 { return mr.mergedEnd - int64(mr.logicalPos) }
-
-// AccumulatedRunLength returns the logical run end of the current merged run.
-func (mr *MergedRuns) AccumulatedRunLength() int64 { return mr.mergedEnd }
-
-func (mr *MergedRuns) findMergedRun() {
-	mr.mergedEnd = int64(math.MaxInt64)
-	for i, in := range mr.inputs {
-		// logical indices of the end of the run we are currently in each input
-		mr.runEnds[i] = int64(mr.inputRunEnds[i](mr.runIndex[i]) - int64(in.Data().Offset()))
-		// the logical length may end in the middle of a run, in case the array was sliced
-		if mr.logicalLen < int(mr.runEnds[i]) {
-			mr.runEnds[i] = int64(mr.logicalLen)
-		}
-		if mr.runEnds[i] < mr.mergedEnd {
-			mr.mergedEnd = mr.runEnds[i]
-		}
-	}
-}
-
-func (mr *MergedRuns) isEnd() bool { return mr.logicalPos == mr.logicalLen }
diff --git a/go/arrow/encoded/ree_utils_test.go b/go/arrow/encoded/ree_utils_test.go
deleted file mode 100644
index 43a4f83b3b999..0000000000000
--- a/go/arrow/encoded/ree_utils_test.go
+++ /dev/null
@@ -1,156 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoded_test
-
-import (
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/encoded"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFindPhysicalOffset(t *testing.T) {
-	tests := []struct {
-		vals   []int32
-		offset int
-		exp    int
-	}{
-		{[]int32{1}, 0, 0},
-		{[]int32{1, 2, 3}, 0, 0},
-		{[]int32{1, 2, 3}, 1, 1},
-		{[]int32{1, 2, 3}, 2, 2},
-		{[]int32{2, 3, 4}, 0, 0},
-		{[]int32{2, 3, 4}, 1, 0},
-		{[]int32{2, 3, 4}, 2, 1},
-		{[]int32{2, 3, 4}, 3, 2},
-		{[]int32{2, 4, 6}, 3, 1},
-		{[]int32{1, 2, 3, 4, 5, 6, 7, 8, 9, 1000, 1005, 1015, 1020, 1025, 1050}, 1000, 10},
-		// out-of-range logical offset should return len(vals)
-		{[]int32{2, 4, 6}, 6, 3},
-		{[]int32{2, 4, 6}, 10000, 3},
-	}
-
-	reeType := arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32)
-	for _, tt := range tests {
-		t.Run(fmt.Sprintf("%v find %d", tt.vals, tt.offset), func(t *testing.T) {
-			child := array.NewData(arrow.PrimitiveTypes.Int32, len(tt.vals), []*memory.Buffer{nil, memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(tt.vals))}, nil, 0, 0)
-			arr := array.NewData(reeType, -1, nil, []arrow.ArrayData{child}, 0, tt.offset)
-
-			assert.Equal(t, tt.exp, encoded.FindPhysicalOffset(arr))
-		})
-	}
-}
-
-func TestFindPhysicalOffsetEmpty(t *testing.T) {
-	child := array.NewData(arrow.PrimitiveTypes.Int32, 0, []*memory.Buffer{nil, nil}, nil, 0, 0)
-	arr := array.NewData(arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int32, arrow.BinaryTypes.String), -1, nil, []arrow.ArrayData{child}, 0, 0)
-	assert.NotPanics(t, func() {
-		assert.Equal(t, 0, encoded.FindPhysicalOffset(arr))
-	})
-}
-
-func TestMergedRunsIter(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	leftRunEnds, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[1, 2, 3, 4, 5, 6, 7, 8, 9, 1000, 1005, 1015, 1020, 1025, 30000]`))
-	defer leftRunEnds.Release()
-
-	rightRunEnds, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[1, 2, 3, 4, 5, 2005, 2009, 2025, 2050]`))
-	defer rightRunEnds.Release()
-
-	var (
-		expectedRunLengths        = []int32{5, 4, 6, 5, 5, 25}
-		expectedLeftVisits        = []int32{110, 111, 111, 112, 113, 114}
-		expectedRightVisits       = []int32{205, 206, 207, 207, 207, 208}
-		leftPrintOffset     int32 = 1000
-		leftChildOffset     int32 = 100
-		rightPrintOffset    int32 = 2000
-		rightChildOffset    int32 = 200
-
-		leftChild  arrow.Array = array.NewNull(int(leftChildOffset) + leftRunEnds.Len())
-		rightChild arrow.Array = array.NewNull(int(rightChildOffset) + rightRunEnds.Len())
-	)
-
-	leftChild = array.NewSlice(leftChild, int64(leftChildOffset), int64(leftChildOffset)+int64(leftRunEnds.Len()))
-	rightChild = array.NewSlice(rightChild, int64(rightChildOffset), int64(rightChild.Len()))
-
-	leftArray := arrow.Array(array.NewRunEndEncodedArray(leftRunEnds, leftChild, 1050, 0))
-	defer leftArray.Release()
-	rightArray := arrow.Array(array.NewRunEndEncodedArray(rightRunEnds, rightChild, 2050, 0))
-	defer rightArray.Release()
-
-	leftArray = array.NewSlice(leftArray, int64(leftPrintOffset), int64(leftArray.Len()))
-	defer leftArray.Release()
-	rightArray = array.NewSlice(rightArray, int64(rightPrintOffset), int64(rightArray.Len()))
-	defer rightArray.Release()
-
-	pos, logicalPos := 0, 0
-	mr := encoded.NewMergedRuns([2]arrow.Array{leftArray, rightArray})
-	for mr.Next() {
-		assert.EqualValues(t, expectedRunLengths[pos], mr.RunLength())
-		assert.EqualValues(t, expectedLeftVisits[pos], mr.IndexIntoBuffer(0))
-		assert.EqualValues(t, expectedRightVisits[pos], mr.IndexIntoBuffer(1))
-		assert.EqualValues(t, expectedLeftVisits[pos]-int32(leftChildOffset), mr.IndexIntoArray(0))
-		assert.EqualValues(t, expectedRightVisits[pos]-int32(rightChildOffset), mr.IndexIntoArray(1))
-		pos++
-		logicalPos += int(mr.RunLength())
-		assert.EqualValues(t, logicalPos, mr.AccumulatedRunLength())
-	}
-	assert.EqualValues(t, len(expectedRunLengths), pos)
-
-	t.Run("left array only", func(t *testing.T) {
-		leftOnlyRunLengths := []int32{5, 10, 5, 5, 25}
-		pos, logicalPos := 0, 0
-		mr := encoded.NewMergedRuns([2]arrow.Array{leftArray, leftArray})
-		for mr.Next() {
-			assert.EqualValues(t, leftOnlyRunLengths[pos], mr.RunLength())
-			assert.EqualValues(t, 110+pos, mr.IndexIntoBuffer(0))
-			assert.EqualValues(t, 110+pos, mr.IndexIntoBuffer(1))
-			assert.EqualValues(t, 10+pos, mr.IndexIntoArray(0))
-			assert.EqualValues(t, 10+pos, mr.IndexIntoArray(1))
-			pos++
-			logicalPos += int(mr.RunLength())
-			assert.EqualValues(t, logicalPos, mr.AccumulatedRunLength())
-		}
-		assert.EqualValues(t, len(leftOnlyRunLengths), pos)
-	})
-
-	t.Run("right array only", func(t *testing.T) {
-		rightOnlyRunLengths := []int32{5, 4, 16, 25}
-		pos, logicalPos := 0, 0
-		mr := encoded.NewMergedRuns([2]arrow.Array{rightArray, rightArray})
-		for mr.Next() {
-			assert.EqualValues(t, rightOnlyRunLengths[pos], mr.RunLength())
-			assert.EqualValues(t, 205+pos, mr.IndexIntoBuffer(0))
-			assert.EqualValues(t, 205+pos, mr.IndexIntoBuffer(1))
-			assert.EqualValues(t, 5+pos, mr.IndexIntoArray(0))
-			assert.EqualValues(t, 5+pos, mr.IndexIntoArray(1))
-			pos++
-			logicalPos += int(mr.RunLength())
-			assert.EqualValues(t, logicalPos, mr.AccumulatedRunLength())
-		}
-		assert.EqualValues(t, len(rightOnlyRunLengths), pos)
-	})
-}
diff --git a/go/arrow/endian/big.go b/go/arrow/endian/big.go
deleted file mode 100644
index 0b92585745f42..0000000000000
--- a/go/arrow/endian/big.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build s390x
-// +build s390x
-
-package endian
-
-import "encoding/binary"
-
-var Native = binary.BigEndian
-
-const (
-	IsBigEndian     = true
-	NativeEndian    = BigEndian
-	NonNativeEndian = LittleEndian
-)
diff --git a/go/arrow/endian/endian.go b/go/arrow/endian/endian.go
deleted file mode 100644
index 8ac496b996938..0000000000000
--- a/go/arrow/endian/endian.go
+++ /dev/null
@@ -1,41 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package endian
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-)
-
-type Endianness flatbuf.Endianness
-
-const (
-	LittleEndian Endianness = Endianness(flatbuf.EndiannessLittle)
-	BigEndian    Endianness = Endianness(flatbuf.EndiannessBig)
-)
-
-func (e Endianness) String() string {
-	switch e {
-	case LittleEndian:
-		return "little"
-	case BigEndian:
-		return "big"
-	default:
-		debug.Assert(false, "wtf? bad endianness value")
-		return "???"
-	}
-}
diff --git a/go/arrow/endian/little.go b/go/arrow/endian/little.go
deleted file mode 100644
index def1fc64b9e64..0000000000000
--- a/go/arrow/endian/little.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !s390x
-// +build !s390x
-
-package endian
-
-import "encoding/binary"
-
-var Native = binary.LittleEndian
-
-const (
-	IsBigEndian     = false
-	NativeEndian    = LittleEndian
-	NonNativeEndian = BigEndian
-)
diff --git a/go/arrow/errors.go b/go/arrow/errors.go
deleted file mode 100644
index 72e6fd8bf934e..0000000000000
--- a/go/arrow/errors.go
+++ /dev/null
@@ -1,28 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import "errors"
-
-var (
-	ErrInvalid        = errors.New("invalid")
-	ErrNotImplemented = errors.New("not implemented")
-	ErrType           = errors.New("type error")
-	ErrKey            = errors.New("key error")
-	ErrIndex          = errors.New("index error")
-	ErrNotFound       = errors.New("not found")
-)
diff --git a/go/arrow/example_test.go b/go/arrow/example_test.go
deleted file mode 100644
index 3dac447ae7c83..0000000000000
--- a/go/arrow/example_test.go
+++ /dev/null
@@ -1,832 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"fmt"
-	"log"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/tensor"
-)
-
-// This example demonstrates how to build an array of int64 values using a builder and Append.
-func Example_minimal() {
-	// Create an allocator.
-	pool := memory.NewGoAllocator()
-
-	// Create an int64 array builder.
-	builder := array.NewInt64Builder(pool)
-	defer builder.Release()
-
-	builder.Append(1)
-	builder.Append(2)
-	builder.Append(3)
-	builder.AppendNull()
-	builder.Append(5)
-	builder.Append(6)
-	builder.Append(7)
-	builder.Append(8)
-
-	// Finish building the int64 array and reset the builder.
-	ints := builder.NewInt64Array()
-	defer ints.Release()
-
-	// Enumerate the values.
-	for i, v := range ints.Int64Values() {
-		fmt.Printf("ints[%d] = ", i)
-		if ints.IsNull(i) {
-			fmt.Println(array.NullValueStr)
-		} else {
-			fmt.Println(v)
-		}
-	}
-	fmt.Printf("ints = %v\n", ints)
-
-	// Output:
-	// ints[0] = 1
-	// ints[1] = 2
-	// ints[2] = 3
-	// ints[3] = (null)
-	// ints[4] = 5
-	// ints[5] = 6
-	// ints[6] = 7
-	// ints[7] = 8
-	// ints = [1 2 3 (null) 5 6 7 8]
-}
-
-// This example demonstrates creating an array, sourcing the values and
-// null bitmaps directly from byte slices. The null count is set to
-// UnknownNullCount, instructing the array to calculate the
-// null count from the bitmap when NullN is called.
-func Example_fromMemory() {
-	// create LSB packed bits with the following pattern:
-	// 01010011 11000101
-	data := memory.NewBufferBytes([]byte{0xca, 0xa3})
-
-	// create LSB packed validity (null) bitmap, where every 4th element is null:
-	// 11101110 11101110
-	nullBitmap := memory.NewBufferBytes([]byte{0x77, 0x77})
-
-	// Create a boolean array and lazily determine NullN using UnknownNullCount
-	bools := array.NewBoolean(16, data, nullBitmap, array.UnknownNullCount)
-	defer bools.Release()
-
-	// Show the null count
-	fmt.Printf("NullN()  = %d\n", bools.NullN())
-
-	// Enumerate the values.
-	n := bools.Len()
-	for i := 0; i < n; i++ {
-		fmt.Printf("bools[%d] = ", i)
-		if bools.IsNull(i) {
-			fmt.Println(array.NullValueStr)
-		} else {
-			fmt.Printf("%t\n", bools.Value(i))
-		}
-	}
-
-	// Output:
-	// NullN()  = 4
-	// bools[0] = false
-	// bools[1] = true
-	// bools[2] = false
-	// bools[3] = (null)
-	// bools[4] = false
-	// bools[5] = false
-	// bools[6] = true
-	// bools[7] = (null)
-	// bools[8] = true
-	// bools[9] = true
-	// bools[10] = false
-	// bools[11] = (null)
-	// bools[12] = false
-	// bools[13] = true
-	// bools[14] = false
-	// bools[15] = (null)
-}
-
-// This example shows how to create a List array.
-// The resulting array should be:
-//
-//	[[0, 1, 2], [], [3], [4, 5], [6, 7, 8], [], [9]]
-func Example_listArray() {
-	pool := memory.NewGoAllocator()
-
-	lb := array.NewListBuilder(pool, arrow.PrimitiveTypes.Int64)
-	defer lb.Release()
-
-	vb := lb.ValueBuilder().(*array.Int64Builder)
-	vb.Reserve(10)
-
-	lb.Append(true)
-	vb.Append(0)
-	vb.Append(1)
-	vb.Append(2)
-
-	lb.AppendNull()
-
-	lb.Append(true)
-	vb.Append(3)
-
-	lb.Append(true)
-	vb.Append(4)
-	vb.Append(5)
-
-	lb.Append(true)
-	vb.Append(6)
-	vb.Append(7)
-	vb.Append(8)
-
-	lb.AppendNull()
-
-	lb.Append(true)
-	vb.Append(9)
-
-	arr := lb.NewArray().(*array.List)
-	defer arr.Release()
-
-	arr.DataType().(*arrow.ListType).SetElemNullable(false)
-	fmt.Printf("NullN()   = %d\n", arr.NullN())
-	fmt.Printf("Len()     = %d\n", arr.Len())
-	fmt.Printf("Offsets() = %v\n", arr.Offsets())
-	fmt.Printf("Type()    = %v\n", arr.DataType())
-
-	offsets := arr.Offsets()[1:]
-
-	varr := arr.ListValues().(*array.Int64)
-
-	pos := 0
-	for i := 0; i < arr.Len(); i++ {
-		if !arr.IsValid(i) {
-			fmt.Printf("List[%d]   = (null)\n", i)
-			continue
-		}
-		fmt.Printf("List[%d]   = [", i)
-		for j := pos; j < int(offsets[i]); j++ {
-			if j != pos {
-				fmt.Printf(", ")
-			}
-			fmt.Printf("%v", varr.Value(j))
-		}
-		pos = int(offsets[i])
-		fmt.Printf("]\n")
-	}
-	fmt.Printf("List      = %v\n", arr)
-
-	// Output:
-	// NullN()   = 2
-	// Len()     = 7
-	// Offsets() = [0 3 3 4 6 9 9 10]
-	// Type()    = list<item: int64>
-	// List[0]   = [0, 1, 2]
-	// List[1]   = (null)
-	// List[2]   = [3]
-	// List[3]   = [4, 5]
-	// List[4]   = [6, 7, 8]
-	// List[5]   = (null)
-	// List[6]   = [9]
-	// List      = [[0 1 2] (null) [3] [4 5] [6 7 8] (null) [9]]
-}
-
-// This example shows how to create a FixedSizeList array.
-// The resulting array should be:
-//
-//	[[0, 1, 2], (null), [3, 4, 5], [6, 7, 8], (null)]
-func Example_fixedSizeListArray() {
-	pool := memory.NewGoAllocator()
-
-	lb := array.NewFixedSizeListBuilder(pool, 3, arrow.PrimitiveTypes.Int64)
-	defer lb.Release()
-
-	vb := lb.ValueBuilder().(*array.Int64Builder)
-	vb.Reserve(10)
-
-	lb.Append(true)
-	vb.Append(0)
-	vb.Append(1)
-	vb.Append(2)
-
-	lb.AppendNull()
-
-	lb.Append(true)
-	vb.Append(3)
-	vb.Append(4)
-	vb.Append(5)
-
-	lb.Append(true)
-	vb.Append(6)
-	vb.Append(7)
-	vb.Append(8)
-
-	lb.AppendNull()
-
-	arr := lb.NewArray().(*array.FixedSizeList)
-	arr.DataType().(*arrow.FixedSizeListType).SetElemNullable(false)
-	defer arr.Release()
-
-	fmt.Printf("NullN()   = %d\n", arr.NullN())
-	fmt.Printf("Len()     = %d\n", arr.Len())
-	fmt.Printf("Type()    = %v\n", arr.DataType())
-	fmt.Printf("List      = %v\n", arr)
-
-	// Output:
-	// NullN()   = 2
-	// Len()     = 5
-	// Type()    = fixed_size_list<item: int64>[3]
-	// List      = [[0 1 2] (null) [3 4 5] [6 7 8] (null)]
-}
-
-// This example shows how to create a Struct array.
-// The resulting array should be:
-//
-//	[{‘joe’, 1}, {null, 2}, null, {‘mark’, 4}]
-func Example_structArray() {
-	pool := memory.NewGoAllocator()
-
-	dtype := arrow.StructOf([]arrow.Field{
-		{Name: "f1", Type: arrow.ListOf(arrow.PrimitiveTypes.Uint8)},
-		{Name: "f2", Type: arrow.PrimitiveTypes.Int32},
-	}...)
-
-	sb := array.NewStructBuilder(pool, dtype)
-	defer sb.Release()
-
-	f1b := sb.FieldBuilder(0).(*array.ListBuilder)
-	f1vb := f1b.ValueBuilder().(*array.Uint8Builder)
-	f2b := sb.FieldBuilder(1).(*array.Int32Builder)
-
-	sb.Reserve(4)
-	f1vb.Reserve(7)
-	f2b.Reserve(3)
-
-	sb.Append(true)
-	f1b.Append(true)
-	f1vb.AppendValues([]byte("joe"), nil)
-	f2b.Append(1)
-
-	sb.Append(true)
-	f1b.AppendNull()
-	f2b.Append(2)
-
-	sb.AppendNull()
-
-	sb.Append(true)
-	f1b.Append(true)
-	f1vb.AppendValues([]byte("mark"), nil)
-	f2b.Append(4)
-
-	arr := sb.NewArray().(*array.Struct)
-	defer arr.Release()
-
-	fmt.Printf("NullN() = %d\n", arr.NullN())
-	fmt.Printf("Len()   = %d\n", arr.Len())
-	fmt.Printf("Type()    = %v\n", arr.DataType())
-
-	list := arr.Field(0).(*array.List)
-	offsets := list.Offsets()
-
-	varr := list.ListValues().(*array.Uint8)
-	ints := arr.Field(1).(*array.Int32)
-
-	for i := 0; i < arr.Len(); i++ {
-		if !arr.IsValid(i) {
-			fmt.Printf("Struct[%d] = (null)\n", i)
-			continue
-		}
-		fmt.Printf("Struct[%d] = [", i)
-		pos := int(offsets[i])
-		switch {
-		case list.IsValid(pos):
-			fmt.Printf("[")
-			for j := offsets[i]; j < offsets[i+1]; j++ {
-				if j != offsets[i] {
-					fmt.Printf(", ")
-				}
-				fmt.Printf("%v", string(varr.Value(int(j))))
-			}
-			fmt.Printf("], ")
-		default:
-			fmt.Printf("(null), ")
-		}
-		fmt.Printf("%d]\n", ints.Value(i))
-	}
-
-	// Output:
-	// NullN() = 1
-	// Len()   = 4
-	// Type()    = struct<f1: list<item: uint8, nullable>, f2: int32>
-	// Struct[0] = [[j, o, e], 1]
-	// Struct[1] = [[], 2]
-	// Struct[2] = (null)
-	// Struct[3] = [[m, a, r, k], 4]
-}
-
-// This example shows how one can slice an array.
-// The initial (float64) array is:
-//
-//	[1, 2, 3, (null), 4, 5]
-//
-// and the sub-slice is:
-//
-//	[3, (null), 4]
-func Example_float64Slice() {
-	pool := memory.NewGoAllocator()
-
-	b := array.NewFloat64Builder(pool)
-	defer b.Release()
-
-	b.AppendValues(
-		[]float64{1, 2, 3, -1, 4, 5},
-		[]bool{true, true, true, false, true, true},
-	)
-
-	arr := b.NewFloat64Array()
-	defer arr.Release()
-
-	fmt.Printf("array = %v\n", arr)
-
-	sli := array.NewSlice(arr, 2, 5).(*array.Float64)
-	defer sli.Release()
-
-	fmt.Printf("slice = %v\n", sli)
-
-	// Output:
-	// array = [1 2 3 (null) 4 5]
-	// slice = [3 (null) 4]
-}
-
-func Example_float64Tensor2x5() {
-	pool := memory.NewGoAllocator()
-
-	b := array.NewFloat64Builder(pool)
-	defer b.Release()
-
-	raw := []float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	b.AppendValues(raw, nil)
-
-	arr := b.NewFloat64Array()
-	defer arr.Release()
-
-	f64 := tensor.NewFloat64(arr.Data(), []int64{2, 5}, nil, []string{"x", "y"})
-	defer f64.Release()
-
-	for _, i := range [][]int64{
-		{0, 0},
-		{0, 1},
-		{0, 2},
-		{0, 3},
-		{0, 4},
-		{1, 0},
-		{1, 1},
-		{1, 2},
-		{1, 3},
-		{1, 4},
-	} {
-		fmt.Printf("arr%v = %v\n", i, f64.Value(i))
-	}
-
-	// Output:
-	// arr[0 0] = 1
-	// arr[0 1] = 2
-	// arr[0 2] = 3
-	// arr[0 3] = 4
-	// arr[0 4] = 5
-	// arr[1 0] = 6
-	// arr[1 1] = 7
-	// arr[1 2] = 8
-	// arr[1 3] = 9
-	// arr[1 4] = 10
-}
-
-func Example_float64Tensor2x5ColMajor() {
-	pool := memory.NewGoAllocator()
-
-	b := array.NewFloat64Builder(pool)
-	defer b.Release()
-
-	raw := []float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	b.AppendValues(raw, nil)
-
-	arr := b.NewFloat64Array()
-	defer arr.Release()
-
-	f64 := tensor.NewFloat64(arr.Data(), []int64{2, 5}, []int64{8, 16}, []string{"x", "y"})
-	defer f64.Release()
-
-	for _, i := range [][]int64{
-		{0, 0},
-		{0, 1},
-		{0, 2},
-		{0, 3},
-		{0, 4},
-		{1, 0},
-		{1, 1},
-		{1, 2},
-		{1, 3},
-		{1, 4},
-	} {
-		fmt.Printf("arr%v = %v\n", i, f64.Value(i))
-	}
-
-	// Output:
-	// arr[0 0] = 1
-	// arr[0 1] = 3
-	// arr[0 2] = 5
-	// arr[0 3] = 7
-	// arr[0 4] = 9
-	// arr[1 0] = 2
-	// arr[1 1] = 4
-	// arr[1 2] = 6
-	// arr[1 3] = 8
-	// arr[1 4] = 10
-}
-
-func Example_record() {
-	pool := memory.NewGoAllocator()
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3, 4, 5, 6}, nil)
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{7, 8, 9, 10}, []bool{true, true, false, true})
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	for i, col := range rec.Columns() {
-		fmt.Printf("column[%d] %q: %v\n", i, rec.ColumnName(i), col)
-	}
-
-	// Output:
-	// column[0] "f1-i32": [1 2 3 4 5 6 7 8 (null) 10]
-	// column[1] "f2-f64": [1 2 3 4 5 6 7 8 9 10]
-}
-
-func Example_recordReader() {
-	pool := memory.NewGoAllocator()
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3, 4, 5, 6}, nil)
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{7, 8, 9, 10}, []bool{true, true, false, true})
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-
-	rec1 := b.NewRecord()
-	defer rec1.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-
-	rec2 := b.NewRecord()
-	defer rec2.Release()
-
-	itr, err := array.NewRecordReader(schema, []arrow.Record{rec1, rec2})
-	if err != nil {
-		log.Fatal(err)
-	}
-	defer itr.Release()
-
-	n := 0
-	for itr.Next() {
-		rec := itr.Record()
-		for i, col := range rec.Columns() {
-			fmt.Printf("rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-		}
-		n++
-	}
-
-	// Output:
-	// rec[0]["f1-i32"]: [1 2 3 4 5 6 7 8 (null) 10]
-	// rec[0]["f2-f64"]: [1 2 3 4 5 6 7 8 9 10]
-	// rec[1]["f1-i32"]: [11 12 13 14 15 16 17 18 19 20]
-	// rec[1]["f2-f64"]: [11 12 13 14 15 16 17 18 19 20]
-}
-
-func Example_table() {
-	pool := memory.NewGoAllocator()
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "f1-i32", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "f2-f64", Type: arrow.PrimitiveTypes.Float64},
-		},
-		nil,
-	)
-
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3, 4, 5, 6}, nil)
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{7, 8, 9, 10}, []bool{true, true, false, true})
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, nil)
-
-	rec1 := b.NewRecord()
-	defer rec1.Release()
-
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-	b.Field(1).(*array.Float64Builder).AppendValues([]float64{11, 12, 13, 14, 15, 16, 17, 18, 19, 20}, nil)
-
-	rec2 := b.NewRecord()
-	defer rec2.Release()
-
-	tbl := array.NewTableFromRecords(schema, []arrow.Record{rec1, rec2})
-	defer tbl.Release()
-
-	tr := array.NewTableReader(tbl, 5)
-	defer tr.Release()
-
-	n := 0
-	for tr.Next() {
-		rec := tr.Record()
-		for i, col := range rec.Columns() {
-			fmt.Printf("rec[%d][%q]: %v\n", n, rec.ColumnName(i), col)
-		}
-		n++
-	}
-
-	// Output:
-	// rec[0]["f1-i32"]: [1 2 3 4 5]
-	// rec[0]["f2-f64"]: [1 2 3 4 5]
-	// rec[1]["f1-i32"]: [6 7 8 (null) 10]
-	// rec[1]["f2-f64"]: [6 7 8 9 10]
-	// rec[2]["f1-i32"]: [11 12 13 14 15]
-	// rec[2]["f2-f64"]: [11 12 13 14 15]
-	// rec[3]["f1-i32"]: [16 17 18 19 20]
-	// rec[3]["f2-f64"]: [16 17 18 19 20]
-}
-
-// This example demonstrates how to create a Map Array.
-// The resulting array should be:
-//
-//	[{["ab" "cd" "ef" "gh"] [1 2 3 4]} (null) {["ab" "cd" "ef" "gh"] [(null) 2 5 1]}]
-func Example_mapArray() {
-	pool := memory.NewGoAllocator()
-	mb := array.NewMapBuilder(pool, arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int16, false)
-	defer mb.Release()
-
-	kb := mb.KeyBuilder().(*array.StringBuilder)
-	ib := mb.ItemBuilder().(*array.Int16Builder)
-
-	keys := []string{"ab", "cd", "ef", "gh"}
-
-	mb.Append(true)
-	kb.AppendValues(keys, nil)
-	ib.AppendValues([]int16{1, 2, 3, 4}, nil)
-
-	mb.AppendNull()
-
-	mb.Append(true)
-	kb.AppendValues(keys, nil)
-	ib.AppendValues([]int16{-1, 2, 5, 1}, []bool{false, true, true, true})
-
-	arr := mb.NewMapArray()
-	defer arr.Release()
-
-	fmt.Printf("NullN() = %d\n", arr.NullN())
-	fmt.Printf("Len()   = %d\n", arr.Len())
-
-	offsets := arr.Offsets()
-	keyArr := arr.Keys().(*array.String)
-	itemArr := arr.Items().(*array.Int16)
-
-	for i := 0; i < arr.Len(); i++ {
-		if arr.IsNull(i) {
-			fmt.Printf("Map[%d] = (null)\n", i)
-			continue
-		}
-
-		fmt.Printf("Map[%d] = {", i)
-		for j := offsets[i]; j < offsets[i+1]; j++ {
-			if j != offsets[i] {
-				fmt.Printf(", ")
-			}
-			fmt.Printf("%v => ", keyArr.Value(int(j)))
-			if itemArr.IsValid(int(j)) {
-				fmt.Printf("%v", itemArr.Value(int(j)))
-			} else {
-				fmt.Printf(array.NullValueStr)
-			}
-		}
-		fmt.Printf("}\n")
-	}
-	fmt.Printf("Map    = %v\n", arr)
-
-	// Output:
-	// NullN() = 1
-	// Len()   = 3
-	// Map[0] = {ab => 1, cd => 2, ef => 3, gh => 4}
-	// Map[1] = (null)
-	// Map[2] = {ab => (null), cd => 2, ef => 5, gh => 1}
-	// Map    = [{["ab" "cd" "ef" "gh"] [1 2 3 4]} (null) {["ab" "cd" "ef" "gh"] [(null) 2 5 1]}]
-}
-
-func Example_sparseUnionArray() {
-	pool := memory.NewGoAllocator()
-
-	sparseBuilder := array.NewEmptySparseUnionBuilder(pool)
-	defer sparseBuilder.Release()
-
-	i8Builder := array.NewInt8Builder(pool)
-	defer i8Builder.Release()
-	i8Code := sparseBuilder.AppendChild(i8Builder, "i8")
-
-	strBuilder := array.NewStringBuilder(pool)
-	defer strBuilder.Release()
-	strCode := sparseBuilder.AppendChild(strBuilder, "str")
-
-	f64Builder := array.NewFloat64Builder(pool)
-	defer f64Builder.Release()
-	f64Code := sparseBuilder.AppendChild(f64Builder, "f64")
-
-	values := []interface{}{int8(33), "abc", float64(1.0), float64(-1.0), nil,
-		"", int8(10), "def", int8(-10), float64(0.5)}
-
-	for _, v := range values {
-		switch v := v.(type) {
-		case int8:
-			sparseBuilder.Append(i8Code)
-			i8Builder.Append(v)
-			strBuilder.AppendEmptyValue()
-			f64Builder.AppendEmptyValue()
-		case string:
-			sparseBuilder.Append(strCode)
-			i8Builder.AppendEmptyValue()
-			strBuilder.Append(v)
-			f64Builder.AppendEmptyValue()
-		case float64:
-			sparseBuilder.Append(f64Code)
-			i8Builder.AppendEmptyValue()
-			strBuilder.AppendEmptyValue()
-			f64Builder.Append(v)
-		case nil:
-			sparseBuilder.AppendNull()
-		}
-	}
-
-	arr := sparseBuilder.NewSparseUnionArray()
-	defer arr.Release()
-
-	fmt.Printf("Len() = %d\n", arr.Len())
-	fields := arr.UnionType().Fields()
-	for i := 0; i < arr.Len(); i++ {
-		child := arr.ChildID(i)
-		data := arr.Field(child)
-		field := fields[child]
-
-		if data.IsNull(i) {
-			fmt.Printf("[%d]   = (null)\n", i)
-			continue
-		}
-		var v interface{}
-		switch varr := data.(type) {
-		case *array.Int8:
-			v = varr.Value(i)
-		case *array.String:
-			v = varr.Value(i)
-		case *array.Float64:
-			v = varr.Value(i)
-		}
-		fmt.Printf("[%d]   = %#5v {%s}\n", i, v, field.Name)
-	}
-
-	fmt.Printf("i8:  %s\n", arr.Field(0))
-	fmt.Printf("str: %s\n", arr.Field(1))
-	fmt.Printf("f64: %s\n", arr.Field(2))
-
-	// Output:
-	// Len() = 10
-	// [0]   =    33 {i8}
-	// [1]   = "abc" {str}
-	// [2]   =     1 {f64}
-	// [3]   =    -1 {f64}
-	// [4]   = (null)
-	// [5]   =    "" {str}
-	// [6]   =    10 {i8}
-	// [7]   = "def" {str}
-	// [8]   =   -10 {i8}
-	// [9]   =   0.5 {f64}
-	// i8:  [33 0 0 0 (null) 0 10 0 -10 0]
-	// str: ["" "abc" "" "" "" "" "" "def" "" ""]
-	// f64: [0 0 1 -1 0 0 0 0 0 0.5]
-}
-
-func Example_denseUnionArray() {
-	pool := memory.NewGoAllocator()
-
-	denseBuilder := array.NewEmptyDenseUnionBuilder(pool)
-	defer denseBuilder.Release()
-
-	i8Builder := array.NewInt8Builder(pool)
-	defer i8Builder.Release()
-	i8Code := denseBuilder.AppendChild(i8Builder, "i8")
-
-	strBuilder := array.NewStringBuilder(pool)
-	defer strBuilder.Release()
-	strCode := denseBuilder.AppendChild(strBuilder, "str")
-
-	f64Builder := array.NewFloat64Builder(pool)
-	defer f64Builder.Release()
-	f64Code := denseBuilder.AppendChild(f64Builder, "f64")
-
-	values := []interface{}{int8(33), "abc", float64(1.0), float64(-1.0), nil,
-		"", int8(10), "def", int8(-10), float64(0.5)}
-
-	for _, v := range values {
-		switch v := v.(type) {
-		case int8:
-			denseBuilder.Append(i8Code)
-			i8Builder.Append(v)
-		case string:
-			denseBuilder.Append(strCode)
-			strBuilder.Append(v)
-		case float64:
-			denseBuilder.Append(f64Code)
-			f64Builder.Append(v)
-		case nil:
-			denseBuilder.AppendNull()
-		}
-	}
-
-	arr := denseBuilder.NewDenseUnionArray()
-	defer arr.Release()
-
-	fmt.Printf("Len() = %d\n", arr.Len())
-	fields := arr.UnionType().Fields()
-	offsets := arr.RawValueOffsets()
-	for i := 0; i < arr.Len(); i++ {
-		child := arr.ChildID(i)
-		data := arr.Field(child)
-		field := fields[child]
-
-		idx := int(offsets[i])
-		if data.IsNull(idx) {
-			fmt.Printf("[%d]   = (null)\n", i)
-			continue
-		}
-		var v interface{}
-		switch varr := data.(type) {
-		case *array.Int8:
-			v = varr.Value(idx)
-		case *array.String:
-			v = varr.Value(idx)
-		case *array.Float64:
-			v = varr.Value(idx)
-		}
-		fmt.Printf("[%d]   = %#5v {%s}\n", i, v, field.Name)
-	}
-
-	fmt.Printf("i8:  %s\n", arr.Field(0))
-	fmt.Printf("str: %s\n", arr.Field(1))
-	fmt.Printf("f64: %s\n", arr.Field(2))
-
-	// Output:
-	// Len() = 10
-	// [0]   =    33 {i8}
-	// [1]   = "abc" {str}
-	// [2]   =     1 {f64}
-	// [3]   =    -1 {f64}
-	// [4]   = (null)
-	// [5]   =    "" {str}
-	// [6]   =    10 {i8}
-	// [7]   = "def" {str}
-	// [8]   =   -10 {i8}
-	// [9]   =   0.5 {f64}
-	// i8:  [33 (null) 10 -10]
-	// str: ["abc" "" "def"]
-	// f64: [1 -1 0.5]
-}
diff --git a/go/arrow/extensions/bool8.go b/go/arrow/extensions/bool8.go
deleted file mode 100644
index 20ab024a2a2fb..0000000000000
--- a/go/arrow/extensions/bool8.go
+++ /dev/null
@@ -1,216 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions
-
-import (
-	"fmt"
-	"reflect"
-	"strconv"
-	"strings"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-// Bool8Type represents a logical boolean that is stored using 8 bits.
-type Bool8Type struct {
-	arrow.ExtensionBase
-}
-
-// NewBool8Type creates a new Bool8Type with the underlying storage type set correctly to Int8.
-func NewBool8Type() *Bool8Type {
-	return &Bool8Type{ExtensionBase: arrow.ExtensionBase{Storage: arrow.PrimitiveTypes.Int8}}
-}
-
-func (b *Bool8Type) ArrayType() reflect.Type { return reflect.TypeOf(Bool8Array{}) }
-
-func (b *Bool8Type) Deserialize(storageType arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if !arrow.TypeEqual(storageType, arrow.PrimitiveTypes.Int8) {
-		return nil, fmt.Errorf("invalid storage type for Bool8Type: %s", storageType.Name())
-	}
-	return NewBool8Type(), nil
-}
-
-func (b *Bool8Type) ExtensionEquals(other arrow.ExtensionType) bool {
-	return b.ExtensionName() == other.ExtensionName()
-}
-
-func (b *Bool8Type) ExtensionName() string { return "arrow.bool8" }
-
-func (b *Bool8Type) Serialize() string { return "" }
-
-func (b *Bool8Type) String() string { return fmt.Sprintf("extension<%s>", b.ExtensionName()) }
-
-func (*Bool8Type) NewBuilder(mem memory.Allocator) array.Builder {
-	return NewBool8Builder(mem)
-}
-
-// Bool8Array is logically an array of boolean values but uses
-// 8 bits to store values instead of 1 bit as in the native BooleanArray.
-type Bool8Array struct {
-	array.ExtensionArrayBase
-}
-
-func (a *Bool8Array) String() string {
-	var o strings.Builder
-	o.WriteString("[")
-	for i := 0; i < a.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(array.NullValueStr)
-		default:
-			fmt.Fprintf(&o, "%v", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *Bool8Array) Value(i int) bool {
-	return a.Storage().(*array.Int8).Value(i) != 0
-}
-
-func (a *Bool8Array) BoolValues() []bool {
-	int8s := a.Storage().(*array.Int8).Int8Values()
-	return unsafe.Slice((*bool)(unsafe.Pointer(unsafe.SliceData(int8s))), len(int8s))
-}
-
-func (a *Bool8Array) ValueStr(i int) string {
-	switch {
-	case a.IsNull(i):
-		return array.NullValueStr
-	default:
-		return fmt.Sprint(a.Value(i))
-	}
-}
-
-func (a *Bool8Array) MarshalJSON() ([]byte, error) {
-	values := make([]interface{}, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		if a.IsValid(i) {
-			values[i] = a.Value(i)
-		}
-	}
-	return json.Marshal(values)
-}
-
-func (a *Bool8Array) GetOneForMarshal(i int) interface{} {
-	if a.IsNull(i) {
-		return nil
-	}
-	return a.Value(i)
-}
-
-// boolToInt8 performs the simple scalar conversion of bool to the canonical int8
-// value for the Bool8Type.
-func boolToInt8(v bool) int8 {
-	var res int8
-	if v {
-		res = 1
-	}
-	return res
-}
-
-// Bool8Builder is a convenience builder for the Bool8 extension type,
-// allowing arrays to be built with boolean values rather than the underlying storage type.
-type Bool8Builder struct {
-	*array.ExtensionBuilder
-}
-
-// NewBool8Builder creates a new Bool8Builder, exposing a convenient and efficient interface
-// for writing boolean values to the underlying int8 storage array.
-func NewBool8Builder(mem memory.Allocator) *Bool8Builder {
-	return &Bool8Builder{ExtensionBuilder: array.NewExtensionBuilder(mem, NewBool8Type())}
-}
-
-func (b *Bool8Builder) Append(v bool) {
-	b.ExtensionBuilder.Builder.(*array.Int8Builder).Append(boolToInt8(v))
-}
-
-func (b *Bool8Builder) UnsafeAppend(v bool) {
-	b.ExtensionBuilder.Builder.(*array.Int8Builder).UnsafeAppend(boolToInt8(v))
-}
-
-func (b *Bool8Builder) AppendValueFromString(s string) error {
-	if s == array.NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	val, err := strconv.ParseBool(s)
-	if err != nil {
-		return err
-	}
-
-	b.Append(val)
-	return nil
-}
-
-func (b *Bool8Builder) AppendValues(v []bool, valid []bool) {
-	boolsAsInt8s := unsafe.Slice((*int8)(unsafe.Pointer(unsafe.SliceData(v))), len(v))
-	b.ExtensionBuilder.Builder.(*array.Int8Builder).AppendValues(boolsAsInt8s, valid)
-}
-
-func (b *Bool8Builder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	switch v := t.(type) {
-	case bool:
-		b.Append(v)
-		return nil
-	case string:
-		return b.AppendValueFromString(v)
-	case int8:
-		b.ExtensionBuilder.Builder.(*array.Int8Builder).Append(v)
-		return nil
-	case nil:
-		b.AppendNull()
-		return nil
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-			Struct: "Bool8Builder",
-		}
-	}
-}
-
-func (b *Bool8Builder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-var (
-	_ arrow.ExtensionType          = (*Bool8Type)(nil)
-	_ array.CustomExtensionBuilder = (*Bool8Type)(nil)
-	_ array.ExtensionArray         = (*Bool8Array)(nil)
-	_ array.Builder                = (*Bool8Builder)(nil)
-)
diff --git a/go/arrow/extensions/bool8_test.go b/go/arrow/extensions/bool8_test.go
deleted file mode 100644
index ff129e24bc8f0..0000000000000
--- a/go/arrow/extensions/bool8_test.go
+++ /dev/null
@@ -1,316 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions_test
-
-import (
-	"bytes"
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-const (
-	MINSIZE = 1024
-	MAXSIZE = 65536
-)
-
-func TestBool8ExtensionBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	builder := extensions.NewBool8Builder(mem)
-	defer builder.Release()
-
-	builder.Append(true)
-	builder.AppendNull()
-	builder.Append(false)
-	arr := builder.NewArray()
-	defer arr.Release()
-
-	arrStr := arr.String()
-	require.Equal(t, "[true (null) false]", arrStr)
-
-	jsonStr, err := json.Marshal(arr)
-	require.NoError(t, err)
-
-	arr1, _, err := array.FromJSON(mem, extensions.NewBool8Type(), bytes.NewReader(jsonStr))
-	require.NoError(t, err)
-	defer arr1.Release()
-
-	require.Equal(t, arr, arr1)
-}
-
-func TestBool8ExtensionRecordBuilder(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "bool8", Type: extensions.NewBool8Type()},
-	}, nil)
-
-	builder := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer builder.Release()
-
-	builder.Field(0).(*extensions.Bool8Builder).Append(true)
-	record := builder.NewRecord()
-	defer record.Release()
-
-	b, err := record.MarshalJSON()
-	require.NoError(t, err)
-	require.Equal(t, "[{\"bool8\":true}\n]", string(b))
-
-	record1, _, err := array.RecordFromJSON(memory.DefaultAllocator, schema, bytes.NewReader(b))
-	require.NoError(t, err)
-	defer record1.Release()
-
-	require.Equal(t, record, record1)
-
-	require.NoError(t, builder.UnmarshalJSON([]byte(`{"bool8":true}`)))
-	record = builder.NewRecord()
-	defer record.Release()
-
-	require.Equal(t, schema, record.Schema())
-	require.Equal(t, true, record.Column(0).(*extensions.Bool8Array).Value(0))
-}
-
-func TestBool8StringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	b := extensions.NewBool8Builder(mem)
-	b.Append(true)
-	b.AppendNull()
-	b.Append(false)
-	b.AppendNull()
-	b.Append(true)
-
-	arr := b.NewArray()
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := extensions.NewBool8Builder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray()
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestCompareBool8AndBoolean(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bool8bldr := extensions.NewBool8Builder(mem)
-	defer bool8bldr.Release()
-
-	boolbldr := array.NewBooleanBuilder(mem)
-	defer boolbldr.Release()
-
-	inputVals := []bool{true, false, false, false, true}
-	inputValidity := []bool{true, false, true, false, true}
-
-	bool8bldr.AppendValues(inputVals, inputValidity)
-	bool8Arr := bool8bldr.NewExtensionArray().(*extensions.Bool8Array)
-	defer bool8Arr.Release()
-
-	boolbldr.AppendValues(inputVals, inputValidity)
-	boolArr := boolbldr.NewBooleanArray()
-	defer boolArr.Release()
-
-	require.Equal(t, boolArr.Len(), bool8Arr.Len())
-	for i := 0; i < boolArr.Len(); i++ {
-		require.Equal(t, boolArr.Value(i), bool8Arr.Value(i))
-	}
-}
-
-func TestReinterpretStorageEqualToValues(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	bool8bldr := extensions.NewBool8Builder(mem)
-	defer bool8bldr.Release()
-
-	inputVals := []bool{true, false, false, false, true}
-	inputValidity := []bool{true, false, true, false, true}
-
-	bool8bldr.AppendValues(inputVals, inputValidity)
-	bool8Arr := bool8bldr.NewExtensionArray().(*extensions.Bool8Array)
-	defer bool8Arr.Release()
-
-	boolValsCopy := make([]bool, bool8Arr.Len())
-	for i := 0; i < bool8Arr.Len(); i++ {
-		boolValsCopy[i] = bool8Arr.Value(i)
-	}
-
-	boolValsZeroCopy := bool8Arr.BoolValues()
-
-	require.Equal(t, len(boolValsZeroCopy), len(boolValsCopy))
-	for i := range boolValsCopy {
-		require.Equal(t, boolValsZeroCopy[i], boolValsCopy[i])
-	}
-}
-
-func TestBool8TypeBatchIPCRoundTrip(t *testing.T) {
-	typ := extensions.NewBool8Type()
-	storage, _, err := array.FromJSON(memory.DefaultAllocator, arrow.PrimitiveTypes.Int8,
-		strings.NewReader(`[-1, 0, 1, 2, null]`))
-	require.NoError(t, err)
-	defer storage.Release()
-
-	arr := array.NewExtensionArrayWithStorage(typ, storage)
-	defer arr.Release()
-
-	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{{Name: "field", Type: typ, Nullable: true}}, nil),
-		[]arrow.Array{arr}, -1)
-	defer batch.Release()
-
-	var written arrow.Record
-	{
-		var buf bytes.Buffer
-		wr := ipc.NewWriter(&buf, ipc.WithSchema(batch.Schema()))
-		require.NoError(t, wr.Write(batch))
-		require.NoError(t, wr.Close())
-
-		rdr, err := ipc.NewReader(&buf)
-		require.NoError(t, err)
-		written, err = rdr.Read()
-		require.NoError(t, err)
-		written.Retain()
-		defer written.Release()
-		rdr.Release()
-	}
-
-	assert.Truef(t, batch.Schema().Equal(written.Schema()), "expected: %s, got: %s",
-		batch.Schema(), written.Schema())
-
-	assert.Truef(t, array.RecordEqual(batch, written), "expected: %s, got: %s",
-		batch, written)
-}
-
-func BenchmarkWriteBool8Array(b *testing.B) {
-	bool8bldr := extensions.NewBool8Builder(memory.DefaultAllocator)
-	defer bool8bldr.Release()
-
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-
-			values := make([]bool, sz)
-			for idx := range values {
-				values[idx] = true
-			}
-
-			b.ResetTimer()
-			b.SetBytes(int64(sz))
-			for n := 0; n < b.N; n++ {
-				bool8bldr.AppendValues(values, nil)
-				bool8bldr.NewArray()
-			}
-		})
-	}
-}
-
-func BenchmarkWriteBooleanArray(b *testing.B) {
-	boolbldr := array.NewBooleanBuilder(memory.DefaultAllocator)
-	defer boolbldr.Release()
-
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-
-			values := make([]bool, sz)
-			for idx := range values {
-				values[idx] = true
-			}
-
-			b.ResetTimer()
-			b.SetBytes(int64(len(values)))
-			for n := 0; n < b.N; n++ {
-				boolbldr.AppendValues(values, nil)
-				boolbldr.NewArray()
-			}
-		})
-	}
-}
-
-// storage benchmark result at package level to prevent compiler from eliminating the function call
-var result []bool
-
-func BenchmarkReadBool8Array(b *testing.B) {
-	bool8bldr := extensions.NewBool8Builder(memory.DefaultAllocator)
-	defer bool8bldr.Release()
-
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-
-			values := make([]bool, sz)
-			for idx := range values {
-				values[idx] = true
-			}
-
-			bool8bldr.AppendValues(values, nil)
-			bool8Arr := bool8bldr.NewArray().(*extensions.Bool8Array)
-			defer bool8Arr.Release()
-
-			var r []bool
-			b.ResetTimer()
-			b.SetBytes(int64(len(values)))
-			for n := 0; n < b.N; n++ {
-				r = bool8Arr.BoolValues()
-			}
-			result = r
-		})
-	}
-}
-
-func BenchmarkReadBooleanArray(b *testing.B) {
-	boolbldr := array.NewBooleanBuilder(memory.DefaultAllocator)
-	defer boolbldr.Release()
-
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-
-			values := make([]bool, sz)
-			output := make([]bool, sz)
-			for idx := range values {
-				values[idx] = true
-			}
-
-			boolbldr.AppendValues(values, nil)
-			boolArr := boolbldr.NewArray().(*array.Boolean)
-			defer boolArr.Release()
-
-			b.ResetTimer()
-			b.SetBytes(int64(len(values)))
-			for n := 0; n < b.N; n++ {
-				for i := 0; i < boolArr.Len(); i++ {
-					output[i] = boolArr.Value(i)
-				}
-			}
-		})
-	}
-}
diff --git a/go/arrow/extensions/doc.go b/go/arrow/extensions/doc.go
deleted file mode 100644
index 65b086e2eca72..0000000000000
--- a/go/arrow/extensions/doc.go
+++ /dev/null
@@ -1,20 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package extensions provides implementations of Arrow canonical extension
-// types as defined in the Arrow specification.
-// https://arrow.apache.org/docs/format/CanonicalExtensions.html
-package extensions
diff --git a/go/arrow/extensions/extensions.go b/go/arrow/extensions/extensions.go
deleted file mode 100644
index 03c6923e95f4f..0000000000000
--- a/go/arrow/extensions/extensions.go
+++ /dev/null
@@ -1,36 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-var canonicalExtensionTypes = []arrow.ExtensionType{
-	&Bool8Type{},
-	&UUIDType{},
-	&OpaqueType{},
-	&JSONType{},
-}
-
-func init() {
-	for _, extType := range canonicalExtensionTypes {
-		if err := arrow.RegisterExtensionType(extType); err != nil {
-			panic(err)
-		}
-	}
-}
diff --git a/go/arrow/extensions/extensions_test.go b/go/arrow/extensions/extensions_test.go
deleted file mode 100644
index f56fed5e132f9..0000000000000
--- a/go/arrow/extensions/extensions_test.go
+++ /dev/null
@@ -1,105 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions_test
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/require"
-)
-
-// testBool8Type minimally implements arrow.ExtensionType, but importantly does not implement array.CustomExtensionBuilder
-// so it will fall back to the storage type's default builder.
-type testBool8Type struct {
-	arrow.ExtensionBase
-}
-
-func newTestBool8Type() *testBool8Type {
-	return &testBool8Type{ExtensionBase: arrow.ExtensionBase{Storage: arrow.PrimitiveTypes.Int8}}
-}
-
-func (t *testBool8Type) ArrayType() reflect.Type                  { return reflect.TypeOf(testBool8Array{}) }
-func (t *testBool8Type) ExtensionEquals(arrow.ExtensionType) bool { panic("unimplemented") }
-func (t *testBool8Type) ExtensionName() string                    { panic("unimplemented") }
-func (t *testBool8Type) Serialize() string                        { panic("unimplemented") }
-func (t *testBool8Type) Deserialize(arrow.DataType, string) (arrow.ExtensionType, error) {
-	panic("unimplemented")
-}
-
-type testBool8Array struct {
-	array.ExtensionArrayBase
-}
-
-func TestUnmarshalExtensionTypes(t *testing.T) {
-	logicalJSON := `[true,null,false,null,true]`
-	storageJSON := `[1,null,0,null,1]`
-
-	// extensions.Bool8Type implements array.CustomExtensionBuilder so we expect the array to be built with the custom builder
-	arrCustomBuilder, _, err := array.FromJSON(memory.DefaultAllocator, extensions.NewBool8Type(), bytes.NewBufferString(logicalJSON))
-	require.NoError(t, err)
-	defer arrCustomBuilder.Release()
-	require.Equal(t, 5, arrCustomBuilder.Len())
-
-	// testBoolType falls back to the default builder for the storage type, so it cannot deserialize native booleans
-	_, _, err = array.FromJSON(memory.DefaultAllocator, newTestBool8Type(), bytes.NewBufferString(logicalJSON))
-	require.ErrorContains(t, err, "cannot unmarshal true into Go value of type int8")
-
-	// testBoolType must build the array with the native storage type: Int8
-	arrDefaultBuilder, _, err := array.FromJSON(memory.DefaultAllocator, newTestBool8Type(), bytes.NewBufferString(storageJSON))
-	require.NoError(t, err)
-	defer arrDefaultBuilder.Release()
-	require.Equal(t, 5, arrDefaultBuilder.Len())
-
-	arrBool8, ok := arrCustomBuilder.(*extensions.Bool8Array)
-	require.True(t, ok)
-
-	arrExt, ok := arrDefaultBuilder.(array.ExtensionArray)
-	require.True(t, ok)
-
-	// The physical layout of both arrays is identical
-	require.True(t, array.Equal(arrBool8.Storage(), arrExt.Storage()))
-}
-
-// invalidExtensionType does not fully implement the arrow.ExtensionType interface, even though it embeds arrow.ExtensionBase
-type invalidExtensionType struct {
-	arrow.ExtensionBase
-}
-
-func newInvalidExtensionType() *invalidExtensionType {
-	return &invalidExtensionType{ExtensionBase: arrow.ExtensionBase{Storage: arrow.BinaryTypes.String}}
-}
-
-func TestInvalidExtensionType(t *testing.T) {
-	jsonStr := `["one","two","three"]`
-	typ := newInvalidExtensionType()
-
-	require.PanicsWithError(t, fmt.Sprintf("arrow/array: invalid extension type: %T", typ), func() {
-		array.FromJSON(memory.DefaultAllocator, typ, bytes.NewBufferString(jsonStr))
-	})
-}
-
-var (
-	_ arrow.ExtensionType  = (*testBool8Type)(nil)
-	_ array.ExtensionArray = (*testBool8Array)(nil)
-)
diff --git a/go/arrow/extensions/json.go b/go/arrow/extensions/json.go
deleted file mode 100644
index 12c49f9c0a76d..0000000000000
--- a/go/arrow/extensions/json.go
+++ /dev/null
@@ -1,148 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions
-
-import (
-	"fmt"
-	"reflect"
-	"slices"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-var jsonSupportedStorageTypes = []arrow.DataType{
-	arrow.BinaryTypes.String,
-	arrow.BinaryTypes.LargeString,
-	arrow.BinaryTypes.StringView,
-}
-
-// JSONType represents a UTF-8 encoded JSON string as specified in RFC8259.
-type JSONType struct {
-	arrow.ExtensionBase
-}
-
-// ParquetLogicalType implements pqarrow.ExtensionCustomParquetType.
-func (b *JSONType) ParquetLogicalType() schema.LogicalType {
-	return schema.JSONLogicalType{}
-}
-
-// NewJSONType creates a new JSONType with the specified storage type.
-// storageType must be one of String, LargeString, StringView.
-func NewJSONType(storageType arrow.DataType) (*JSONType, error) {
-	if !slices.Contains(jsonSupportedStorageTypes, storageType) {
-		return nil, fmt.Errorf("unsupported storage type for JSON extension type: %s", storageType)
-	}
-	return &JSONType{ExtensionBase: arrow.ExtensionBase{Storage: storageType}}, nil
-}
-
-func (b *JSONType) ArrayType() reflect.Type { return reflect.TypeOf(JSONArray{}) }
-
-func (b *JSONType) Deserialize(storageType arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if !(data == "" || data == "{}") {
-		return nil, fmt.Errorf("serialized metadata for JSON extension type must be '' or '{}', found: %s", data)
-	}
-	return NewJSONType(storageType)
-}
-
-func (b *JSONType) ExtensionEquals(other arrow.ExtensionType) bool {
-	return b.ExtensionName() == other.ExtensionName() && arrow.TypeEqual(b.Storage, other.StorageType())
-}
-
-func (b *JSONType) ExtensionName() string { return "arrow.json" }
-
-func (b *JSONType) Serialize() string { return "" }
-
-func (b *JSONType) String() string {
-	return fmt.Sprintf("extension<%s[storage_type=%s]>", b.ExtensionName(), b.Storage)
-}
-
-// JSONArray is logically an array of UTF-8 encoded JSON strings.
-// Its values are unmarshaled to native Go values.
-type JSONArray struct {
-	array.ExtensionArrayBase
-}
-
-func (a *JSONArray) String() string {
-	b, err := a.MarshalJSON()
-	if err != nil {
-		panic(fmt.Sprintf("failed marshal JSONArray: %s", err))
-	}
-
-	return string(b)
-}
-
-func (a *JSONArray) Value(i int) any {
-	val := a.ValueBytes(i)
-
-	var res any
-	if err := json.Unmarshal(val, &res); err != nil {
-		panic(err)
-	}
-
-	return res
-}
-
-func (a *JSONArray) ValueStr(i int) string {
-	return string(a.ValueBytes(i))
-}
-
-func (a *JSONArray) ValueBytes(i int) []byte {
-	// convert to json.RawMessage, set to nil if elem isNull.
-	val := a.ValueJSON(i)
-
-	// simply returns wrapped bytes, or null if val is nil.
-	b, err := val.MarshalJSON()
-	if err != nil {
-		panic(err)
-	}
-
-	return b
-}
-
-// ValueJSON wraps the underlying string value as a json.RawMessage,
-// or returns nil if the array value is null.
-func (a *JSONArray) ValueJSON(i int) json.RawMessage {
-	var val json.RawMessage
-	if a.IsValid(i) {
-		val = json.RawMessage(a.Storage().(array.StringLike).Value(i))
-	}
-	return val
-}
-
-// MarshalJSON implements json.Marshaler.
-// Marshaling json.RawMessage is a no-op, except that nil values will
-// be marshaled as a JSON null.
-func (a *JSONArray) MarshalJSON() ([]byte, error) {
-	values := make([]json.RawMessage, a.Len())
-	for i := 0; i < a.Len(); i++ {
-		values[i] = a.ValueJSON(i)
-	}
-	return json.Marshal(values)
-}
-
-// GetOneForMarshal implements arrow.Array.
-func (a *JSONArray) GetOneForMarshal(i int) interface{} {
-	return a.ValueJSON(i)
-}
-
-var (
-	_ arrow.ExtensionType  = (*JSONType)(nil)
-	_ array.ExtensionArray = (*JSONArray)(nil)
-)
diff --git a/go/arrow/extensions/json_test.go b/go/arrow/extensions/json_test.go
deleted file mode 100644
index 21acc58f93949..0000000000000
--- a/go/arrow/extensions/json_test.go
+++ /dev/null
@@ -1,268 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions_test
-
-import (
-	"bytes"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestJSONTypeBasics(t *testing.T) {
-	typ, err := extensions.NewJSONType(arrow.BinaryTypes.String)
-	require.NoError(t, err)
-
-	typLarge, err := extensions.NewJSONType(arrow.BinaryTypes.LargeString)
-	require.NoError(t, err)
-
-	typView, err := extensions.NewJSONType(arrow.BinaryTypes.StringView)
-	require.NoError(t, err)
-
-	assert.Equal(t, "arrow.json", typ.ExtensionName())
-	assert.Equal(t, "arrow.json", typLarge.ExtensionName())
-	assert.Equal(t, "arrow.json", typView.ExtensionName())
-
-	assert.True(t, typ.ExtensionEquals(typ))
-	assert.True(t, typLarge.ExtensionEquals(typLarge))
-	assert.True(t, typView.ExtensionEquals(typView))
-
-	assert.False(t, arrow.TypeEqual(arrow.BinaryTypes.String, typ))
-	assert.False(t, arrow.TypeEqual(typ, typLarge))
-	assert.False(t, arrow.TypeEqual(typ, typView))
-	assert.False(t, arrow.TypeEqual(typLarge, typView))
-
-	assert.True(t, arrow.TypeEqual(arrow.BinaryTypes.String, typ.StorageType()))
-	assert.True(t, arrow.TypeEqual(arrow.BinaryTypes.LargeString, typLarge.StorageType()))
-	assert.True(t, arrow.TypeEqual(arrow.BinaryTypes.StringView, typView.StorageType()))
-
-	assert.Equal(t, "extension<arrow.json[storage_type=utf8]>", typ.String())
-	assert.Equal(t, "extension<arrow.json[storage_type=large_utf8]>", typLarge.String())
-	assert.Equal(t, "extension<arrow.json[storage_type=string_view]>", typView.String())
-}
-
-var jsonTestCases = []struct {
-	Name           string
-	StorageType    arrow.DataType
-	StorageBuilder func(mem memory.Allocator) array.Builder
-}{
-	{
-		Name:           "string",
-		StorageType:    arrow.BinaryTypes.String,
-		StorageBuilder: func(mem memory.Allocator) array.Builder { return array.NewStringBuilder(mem) },
-	},
-	{
-		Name:           "large_string",
-		StorageType:    arrow.BinaryTypes.LargeString,
-		StorageBuilder: func(mem memory.Allocator) array.Builder { return array.NewLargeStringBuilder(mem) },
-	},
-	{
-		Name:           "string_view",
-		StorageType:    arrow.BinaryTypes.StringView,
-		StorageBuilder: func(mem memory.Allocator) array.Builder { return array.NewStringViewBuilder(mem) },
-	},
-}
-
-func TestJSONTypeCreateFromArray(t *testing.T) {
-	for _, tc := range jsonTestCases {
-		t.Run(tc.Name, func(t *testing.T) {
-			typ, err := extensions.NewJSONType(tc.StorageType)
-			require.NoError(t, err)
-
-			bldr := tc.StorageBuilder(memory.DefaultAllocator)
-			defer bldr.Release()
-
-			bldr.AppendValueFromString(`"foobar"`)
-			bldr.AppendNull()
-			bldr.AppendValueFromString(`{"foo": "bar"}`)
-			bldr.AppendValueFromString(`42`)
-			bldr.AppendValueFromString(`true`)
-			bldr.AppendValueFromString(`[1, true, "3", null, {"five": 5}]`)
-
-			storage := bldr.NewArray()
-			defer storage.Release()
-
-			arr := array.NewExtensionArrayWithStorage(typ, storage)
-			defer arr.Release()
-
-			assert.Equal(t, 6, arr.Len())
-			assert.Equal(t, 1, arr.NullN())
-
-			jsonArr, ok := arr.(*extensions.JSONArray)
-			require.True(t, ok)
-
-			require.Equal(t, "foobar", jsonArr.Value(0))
-			require.Equal(t, nil, jsonArr.Value(1))
-			require.Equal(t, map[string]any{"foo": "bar"}, jsonArr.Value(2))
-			require.Equal(t, float64(42), jsonArr.Value(3))
-			require.Equal(t, true, jsonArr.Value(4))
-			require.Equal(t, []any{float64(1), true, "3", nil, map[string]any{"five": float64(5)}}, jsonArr.Value(5))
-		})
-	}
-}
-
-func TestJSONTypeBatchIPCRoundTrip(t *testing.T) {
-	for _, tc := range jsonTestCases {
-		t.Run(tc.Name, func(t *testing.T) {
-			typ, err := extensions.NewJSONType(tc.StorageType)
-			require.NoError(t, err)
-
-			bldr := tc.StorageBuilder(memory.DefaultAllocator)
-			defer bldr.Release()
-
-			bldr.AppendValueFromString(`"foobar"`)
-			bldr.AppendNull()
-			bldr.AppendValueFromString(`{"foo": "bar"}`)
-			bldr.AppendValueFromString(`42`)
-			bldr.AppendValueFromString(`true`)
-			bldr.AppendValueFromString(`[1, true, "3", null, {"five": 5}]`)
-
-			storage := bldr.NewArray()
-			defer storage.Release()
-
-			arr := array.NewExtensionArrayWithStorage(typ, storage)
-			defer arr.Release()
-
-			batch := array.NewRecord(arrow.NewSchema([]arrow.Field{{Name: "field", Type: typ, Nullable: true}}, nil),
-				[]arrow.Array{arr}, -1)
-			defer batch.Release()
-
-			var written arrow.Record
-			{
-				var buf bytes.Buffer
-				wr := ipc.NewWriter(&buf, ipc.WithSchema(batch.Schema()))
-				require.NoError(t, wr.Write(batch))
-				require.NoError(t, wr.Close())
-
-				rdr, err := ipc.NewReader(&buf)
-				require.NoError(t, err)
-				written, err = rdr.Read()
-				require.NoError(t, err)
-				written.Retain()
-				defer written.Release()
-				rdr.Release()
-			}
-
-			assert.Truef(t, batch.Schema().Equal(written.Schema()), "expected: %s, got: %s",
-				batch.Schema(), written.Schema())
-
-			assert.Truef(t, array.RecordEqual(batch, written), "expected: %s, got: %s",
-				batch, written)
-		})
-	}
-}
-
-func TestMarshallJSONArray(t *testing.T) {
-	for _, tc := range jsonTestCases {
-		t.Run(tc.Name, func(t *testing.T) {
-			typ, err := extensions.NewJSONType(tc.StorageType)
-			require.NoError(t, err)
-
-			bldr := tc.StorageBuilder(memory.DefaultAllocator)
-			defer bldr.Release()
-
-			bldr.AppendValueFromString(`"foobar"`)
-			bldr.AppendNull()
-			bldr.AppendValueFromString(`{"foo": "bar"}`)
-			bldr.AppendValueFromString(`42`)
-			bldr.AppendValueFromString(`true`)
-			bldr.AppendValueFromString(`[1, true, "3", null, {"five": 5}]`)
-
-			storage := bldr.NewArray()
-			defer storage.Release()
-
-			arr := array.NewExtensionArrayWithStorage(typ, storage)
-			defer arr.Release()
-
-			assert.Equal(t, 6, arr.Len())
-			assert.Equal(t, 1, arr.NullN())
-
-			jsonArr, ok := arr.(*extensions.JSONArray)
-			require.True(t, ok)
-
-			b, err := jsonArr.MarshalJSON()
-			require.NoError(t, err)
-
-			expectedJSON := `["foobar",null,{"foo":"bar"},42,true,[1,true,"3",null,{"five":5}]]`
-			require.Equal(t, expectedJSON, string(b))
-			require.Equal(t, expectedJSON, jsonArr.String())
-		})
-	}
-}
-
-func TestJSONRecordToJSON(t *testing.T) {
-	for _, tc := range jsonTestCases {
-		t.Run(tc.Name, func(t *testing.T) {
-			typ, err := extensions.NewJSONType(tc.StorageType)
-			require.NoError(t, err)
-
-			bldr := tc.StorageBuilder(memory.DefaultAllocator)
-			defer bldr.Release()
-
-			bldr.AppendValueFromString(`"foobar"`)
-			bldr.AppendNull()
-			bldr.AppendValueFromString(`{"foo": "bar"}`)
-			bldr.AppendValueFromString(`42`)
-			bldr.AppendValueFromString(`true`)
-			bldr.AppendValueFromString(`[1, true, "3", null, {"five": 5}]`)
-
-			storage := bldr.NewArray()
-			defer storage.Release()
-
-			arr := array.NewExtensionArrayWithStorage(typ, storage)
-			defer arr.Release()
-
-			assert.Equal(t, 6, arr.Len())
-			assert.Equal(t, 1, arr.NullN())
-
-			jsonArr, ok := arr.(*extensions.JSONArray)
-			require.True(t, ok)
-
-			rec := array.NewRecord(arrow.NewSchema([]arrow.Field{{Name: "json", Type: typ, Nullable: true}}, nil), []arrow.Array{jsonArr}, 6)
-			defer rec.Release()
-
-			buf := bytes.NewBuffer([]byte("\n")) // expected output has leading newline for clearer formatting
-			require.NoError(t, array.RecordToJSON(rec, buf))
-
-			expectedJSON := `
-				{"json":"foobar"}
-				{"json":null}
-				{"json":{"foo":"bar"}}
-				{"json":42}
-				{"json":true}
-				{"json":[1,true,"3",null,{"five":5}]}
-			`
-
-			expectedJSONLines := strings.Split(expectedJSON, "\n")
-			actualJSONLines := strings.Split(buf.String(), "\n")
-
-			require.Equal(t, len(expectedJSONLines), len(actualJSONLines))
-			for i := range expectedJSONLines {
-				if strings.TrimSpace(expectedJSONLines[i]) != "" {
-					require.JSONEq(t, expectedJSONLines[i], actualJSONLines[i])
-				}
-			}
-		})
-	}
-}
diff --git a/go/arrow/extensions/opaque.go b/go/arrow/extensions/opaque.go
deleted file mode 100644
index 5378de0c1806d..0000000000000
--- a/go/arrow/extensions/opaque.go
+++ /dev/null
@@ -1,106 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions
-
-import (
-	"encoding/json"
-	"fmt"
-	"reflect"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-// OpaqueType is a placeholder for a type from an external (usually
-// non-Arrow) system that could not be interpreted.
-type OpaqueType struct {
-	arrow.ExtensionBase `json:"-"`
-
-	TypeName   string `json:"type_name"`
-	VendorName string `json:"vendor_name"`
-}
-
-// NewOpaqueType creates a new OpaqueType with the provided storage type, type name, and vendor name.
-func NewOpaqueType(storageType arrow.DataType, name, vendorName string) *OpaqueType {
-	return &OpaqueType{ExtensionBase: arrow.ExtensionBase{Storage: storageType},
-		TypeName: name, VendorName: vendorName}
-}
-
-func (*OpaqueType) ArrayType() reflect.Type {
-	return reflect.TypeOf(OpaqueArray{})
-}
-
-func (*OpaqueType) ExtensionName() string {
-	return "arrow.opaque"
-}
-
-func (o *OpaqueType) String() string {
-	return fmt.Sprintf("extension<%s[storage_type=%s, type_name=%s, vendor_name=%s]>",
-		o.ExtensionName(), o.Storage, o.TypeName, o.VendorName)
-}
-
-func (o *OpaqueType) Serialize() string {
-	data, _ := json.Marshal(o)
-	return string(data)
-}
-
-func (*OpaqueType) Deserialize(storageType arrow.DataType, data string) (arrow.ExtensionType, error) {
-	var out OpaqueType
-	err := json.Unmarshal(unsafe.Slice(unsafe.StringData(data), len(data)), &out)
-	if err != nil {
-		return nil, err
-	}
-
-	switch {
-	case out.TypeName == "":
-		return nil, fmt.Errorf("%w: serialized JSON data for OpaqueType missing type_name",
-			arrow.ErrInvalid)
-	case out.VendorName == "":
-		return nil, fmt.Errorf("%w: serialized JSON data for OpaqueType missing vendor_name",
-			arrow.ErrInvalid)
-	}
-
-	out.ExtensionBase = arrow.ExtensionBase{Storage: storageType}
-	return &out, nil
-}
-
-func (o *OpaqueType) ExtensionEquals(other arrow.ExtensionType) bool {
-	if o.ExtensionName() != other.ExtensionName() {
-		return false
-	}
-
-	rhs, ok := other.(*OpaqueType)
-	if !ok {
-		return false
-	}
-
-	return arrow.TypeEqual(o.Storage, rhs.Storage) &&
-		o.TypeName == rhs.TypeName &&
-		o.VendorName == rhs.VendorName
-}
-
-// OpaqueArray is a placeholder for data from an external (usually
-// non-Arrow) system that could not be interpreted.
-type OpaqueArray struct {
-	array.ExtensionArrayBase
-}
-
-var (
-	_ arrow.ExtensionType  = (*OpaqueType)(nil)
-	_ array.ExtensionArray = (*OpaqueArray)(nil)
-)
diff --git a/go/arrow/extensions/opaque_test.go b/go/arrow/extensions/opaque_test.go
deleted file mode 100644
index a0fc8962ce5e4..0000000000000
--- a/go/arrow/extensions/opaque_test.go
+++ /dev/null
@@ -1,197 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions_test
-
-import (
-	"bytes"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestOpaqueTypeBasics(t *testing.T) {
-	typ := extensions.NewOpaqueType(arrow.Null, "type", "vendor")
-	typ2 := extensions.NewOpaqueType(arrow.Null, "type2", "vendor")
-
-	assert.Equal(t, "arrow.opaque", typ.ExtensionName())
-	assert.True(t, typ.ExtensionEquals(typ))
-	assert.False(t, arrow.TypeEqual(arrow.Null, typ))
-	assert.False(t, arrow.TypeEqual(typ, typ2))
-	assert.True(t, arrow.TypeEqual(arrow.Null, typ.StorageType()))
-	assert.JSONEq(t, `{"type_name": "type", "vendor_name": "vendor"}`, typ.Serialize())
-	assert.Equal(t, "type", typ.TypeName)
-	assert.Equal(t, "vendor", typ.VendorName)
-	assert.Equal(t, "extension<arrow.opaque[storage_type=null, type_name=type, vendor_name=vendor]>",
-		typ.String())
-}
-
-func TestOpaqueTypeEquals(t *testing.T) {
-	typ := extensions.NewOpaqueType(arrow.Null, "type", "vendor")
-	typ2 := extensions.NewOpaqueType(arrow.Null, "type2", "vendor")
-	typ3 := extensions.NewOpaqueType(arrow.Null, "type", "vendor2")
-	typ4 := extensions.NewOpaqueType(arrow.PrimitiveTypes.Int64, "type", "vendor")
-	typ5 := extensions.NewOpaqueType(arrow.Null, "type", "vendor")
-
-	tests := []struct {
-		lhs, rhs arrow.ExtensionType
-		expected bool
-	}{
-		{typ, typ, true},
-		{typ2, typ2, true},
-		{typ3, typ3, true},
-		{typ4, typ4, true},
-		{typ5, typ5, true},
-		{typ, typ5, true},
-		{typ, typ2, false},
-		{typ, typ3, false},
-		{typ, typ4, false},
-		{typ2, typ, false},
-		{typ2, typ3, false},
-		{typ2, typ4, false},
-		{typ3, typ, false},
-		{typ3, typ2, false},
-		{typ3, typ4, false},
-		{typ4, typ, false},
-		{typ4, typ2, false},
-		{typ4, typ3, false},
-	}
-
-	for _, tt := range tests {
-		assert.Equalf(t, tt.expected, arrow.TypeEqual(tt.lhs, tt.rhs),
-			"%s == %s", tt.lhs, tt.rhs)
-	}
-}
-
-func TestOpaqueTypeCreateFromArray(t *testing.T) {
-	typ := extensions.NewOpaqueType(arrow.BinaryTypes.String, "geometry", "adbc.postgresql")
-	storage, _, err := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String,
-		strings.NewReader(`["foobar", null]`))
-	require.NoError(t, err)
-	defer storage.Release()
-
-	arr := array.NewExtensionArrayWithStorage(typ, storage)
-	defer arr.Release()
-
-	assert.Equal(t, 2, arr.Len())
-	assert.Equal(t, 1, arr.NullN())
-}
-
-func TestOpaqueTypeDeserialize(t *testing.T) {
-	tests := []struct {
-		serialized string
-		expected   *extensions.OpaqueType
-	}{
-		{`{"type_name": "type", "vendor_name": "vendor"}`,
-			extensions.NewOpaqueType(arrow.Null, "type", "vendor")},
-		{`{"type_name": "long name", "vendor_name": "long name"}`,
-			extensions.NewOpaqueType(arrow.Null, "long name", "long name")},
-		{`{"type_name": "名前", "vendor_name": "名字"}`,
-			extensions.NewOpaqueType(arrow.Null, "名前", "名字")},
-		{`{"type_name": "type", "vendor_name": "vendor", "extra_field": 2}`,
-			extensions.NewOpaqueType(arrow.Null, "type", "vendor")},
-	}
-
-	for _, tt := range tests {
-		deserialized, err := tt.expected.Deserialize(tt.expected.Storage, tt.serialized)
-		require.NoError(t, err)
-		assert.Truef(t, arrow.TypeEqual(tt.expected, deserialized), "%s != %s",
-			tt.expected, deserialized)
-	}
-
-	typ := extensions.NewOpaqueType(arrow.Null, "type", "vendor")
-	_, err := typ.Deserialize(arrow.Null, "")
-	assert.ErrorContains(t, err, "unexpected end of JSON input")
-
-	_, err = typ.Deserialize(arrow.Null, "[]")
-	assert.ErrorContains(t, err, "cannot unmarshal array")
-
-	_, err = typ.Deserialize(arrow.Null, "{}")
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-	assert.ErrorContains(t, err, "serialized JSON data for OpaqueType missing type_name")
-
-	_, err = typ.Deserialize(arrow.Null, `{"type_name": ""}`)
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-	assert.ErrorContains(t, err, "serialized JSON data for OpaqueType missing type_name")
-
-	_, err = typ.Deserialize(arrow.Null, `{"type_name": "type"}`)
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-	assert.ErrorContains(t, err, "serialized JSON data for OpaqueType missing vendor_name")
-
-	_, err = typ.Deserialize(arrow.Null, `{"type_name": "type", "vendor_name": ""}`)
-	assert.ErrorIs(t, err, arrow.ErrInvalid)
-	assert.ErrorContains(t, err, "serialized JSON data for OpaqueType missing vendor_name")
-}
-
-func TestOpaqueTypeMetadataRoundTrip(t *testing.T) {
-	tests := []*extensions.OpaqueType{
-		extensions.NewOpaqueType(arrow.Null, "foo", "bar"),
-		extensions.NewOpaqueType(arrow.BinaryTypes.Binary, "geometry", "postgis"),
-		extensions.NewOpaqueType(arrow.FixedSizeListOf(4, arrow.PrimitiveTypes.Int64), "foo", "bar"),
-		extensions.NewOpaqueType(arrow.BinaryTypes.String, "foo", "bar"),
-	}
-
-	for _, tt := range tests {
-		serialized := tt.Serialize()
-		deserialized, err := tt.Deserialize(tt.Storage, serialized)
-		require.NoError(t, err)
-		assert.Truef(t, arrow.TypeEqual(tt, deserialized), "%s != %s", tt, deserialized)
-	}
-}
-
-func TestOpaqueTypeBatchRoundTrip(t *testing.T) {
-	typ := extensions.NewOpaqueType(arrow.BinaryTypes.String, "geometry", "adbc.postgresql")
-	storage, _, err := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String,
-		strings.NewReader(`["foobar", null]`))
-	require.NoError(t, err)
-	defer storage.Release()
-
-	arr := array.NewExtensionArrayWithStorage(typ, storage)
-	defer arr.Release()
-
-	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{{Name: "field", Type: typ, Nullable: true}}, nil),
-		[]arrow.Array{arr}, -1)
-	defer batch.Release()
-
-	var written arrow.Record
-	{
-		var buf bytes.Buffer
-		wr := ipc.NewWriter(&buf, ipc.WithSchema(batch.Schema()))
-		require.NoError(t, wr.Write(batch))
-		require.NoError(t, wr.Close())
-
-		rdr, err := ipc.NewReader(&buf)
-		require.NoError(t, err)
-		written, err = rdr.Read()
-		require.NoError(t, err)
-		written.Retain()
-		defer written.Release()
-		rdr.Release()
-	}
-
-	assert.Truef(t, batch.Schema().Equal(written.Schema()), "expected: %s, got: %s",
-		batch.Schema(), written.Schema())
-
-	assert.Truef(t, array.RecordEqual(batch, written), "expected: %s, got: %s",
-		batch, written)
-}
diff --git a/go/arrow/extensions/uuid.go b/go/arrow/extensions/uuid.go
deleted file mode 100644
index 422b9ea118800..0000000000000
--- a/go/arrow/extensions/uuid.go
+++ /dev/null
@@ -1,265 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/google/uuid"
-)
-
-type UUIDBuilder struct {
-	*array.ExtensionBuilder
-}
-
-// NewUUIDBuilder creates a new UUIDBuilder, exposing a convenient and efficient interface
-// for writing uuid.UUID (or [16]byte) values to the underlying FixedSizeBinary storage array.
-func NewUUIDBuilder(mem memory.Allocator) *UUIDBuilder {
-	return &UUIDBuilder{ExtensionBuilder: array.NewExtensionBuilder(mem, NewUUIDType())}
-}
-
-func (b *UUIDBuilder) Append(v uuid.UUID) {
-	b.AppendBytes(v)
-}
-
-func (b *UUIDBuilder) AppendBytes(v [16]byte) {
-	b.ExtensionBuilder.Builder.(*array.FixedSizeBinaryBuilder).Append(v[:])
-}
-
-func (b *UUIDBuilder) UnsafeAppend(v uuid.UUID) {
-	b.ExtensionBuilder.Builder.(*array.FixedSizeBinaryBuilder).UnsafeAppend(v[:])
-}
-
-func (b *UUIDBuilder) AppendValueFromString(s string) error {
-	if s == array.NullValueStr {
-		b.AppendNull()
-		return nil
-	}
-
-	uid, err := uuid.Parse(s)
-	if err != nil {
-		return err
-	}
-
-	b.Append(uid)
-	return nil
-}
-
-func (b *UUIDBuilder) AppendValues(v []uuid.UUID, valid []bool) {
-	if len(v) != len(valid) && len(valid) != 0 {
-		panic("len(v) != len(valid) && len(valid) != 0")
-	}
-
-	data := make([][]byte, len(v))
-	for i := range v {
-		if len(valid) > 0 && !valid[i] {
-			continue
-		}
-		data[i] = v[i][:]
-	}
-	b.ExtensionBuilder.Builder.(*array.FixedSizeBinaryBuilder).AppendValues(data, valid)
-}
-
-func (b *UUIDBuilder) UnmarshalOne(dec *json.Decoder) error {
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	var val uuid.UUID
-	switch v := t.(type) {
-	case string:
-		val, err = uuid.Parse(v)
-		if err != nil {
-			return err
-		}
-	case []byte:
-		val, err = uuid.ParseBytes(v)
-		if err != nil {
-			return err
-		}
-	case nil:
-		b.AppendNull()
-		return nil
-	default:
-		return &json.UnmarshalTypeError{
-			Value:  fmt.Sprint(t),
-			Type:   reflect.TypeOf([]byte{}),
-			Offset: dec.InputOffset(),
-			Struct: fmt.Sprintf("FixedSizeBinary[%d]", 16),
-		}
-	}
-
-	b.Append(val)
-	return nil
-}
-
-func (b *UUIDBuilder) Unmarshal(dec *json.Decoder) error {
-	for dec.More() {
-		if err := b.UnmarshalOne(dec); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (b *UUIDBuilder) UnmarshalJSON(data []byte) error {
-	dec := json.NewDecoder(bytes.NewReader(data))
-	t, err := dec.Token()
-	if err != nil {
-		return err
-	}
-
-	if delim, ok := t.(json.Delim); !ok || delim != '[' {
-		return fmt.Errorf("uuid builder must unpack from json array, found %s", delim)
-	}
-
-	return b.Unmarshal(dec)
-}
-
-// UUIDArray is a simple array which is a FixedSizeBinary(16)
-type UUIDArray struct {
-	array.ExtensionArrayBase
-}
-
-func (a *UUIDArray) String() string {
-	arr := a.Storage().(*array.FixedSizeBinary)
-	o := new(strings.Builder)
-	o.WriteString("[")
-	for i := 0; i < arr.Len(); i++ {
-		if i > 0 {
-			o.WriteString(" ")
-		}
-		switch {
-		case a.IsNull(i):
-			o.WriteString(array.NullValueStr)
-		default:
-			fmt.Fprintf(o, "%q", a.Value(i))
-		}
-	}
-	o.WriteString("]")
-	return o.String()
-}
-
-func (a *UUIDArray) Value(i int) uuid.UUID {
-	if a.IsNull(i) {
-		return uuid.Nil
-	}
-	return uuid.Must(uuid.FromBytes(a.Storage().(*array.FixedSizeBinary).Value(i)))
-}
-
-func (a *UUIDArray) Values() []uuid.UUID {
-	values := make([]uuid.UUID, a.Len())
-	for i := range values {
-		values[i] = a.Value(i)
-	}
-	return values
-}
-
-func (a *UUIDArray) ValueStr(i int) string {
-	switch {
-	case a.IsNull(i):
-		return array.NullValueStr
-	default:
-		return a.Value(i).String()
-	}
-}
-
-func (a *UUIDArray) MarshalJSON() ([]byte, error) {
-	vals := make([]any, a.Len())
-	for i := range vals {
-		vals[i] = a.GetOneForMarshal(i)
-	}
-	return json.Marshal(vals)
-}
-
-func (a *UUIDArray) GetOneForMarshal(i int) interface{} {
-	if a.IsValid(i) {
-		return a.Value(i)
-	}
-	return nil
-}
-
-// UUIDType is a simple extension type that represents a FixedSizeBinary(16)
-// to be used for representing UUIDs
-type UUIDType struct {
-	arrow.ExtensionBase
-}
-
-// ParquetLogicalType implements pqarrow.ExtensionCustomParquetType.
-func (e *UUIDType) ParquetLogicalType() schema.LogicalType {
-	return schema.UUIDLogicalType{}
-}
-
-// NewUUIDType is a convenience function to create an instance of UUIDType
-// with the correct storage type
-func NewUUIDType() *UUIDType {
-	return &UUIDType{ExtensionBase: arrow.ExtensionBase{Storage: &arrow.FixedSizeBinaryType{ByteWidth: 16}}}
-}
-
-// ArrayType returns TypeOf(UUIDArray{}) for constructing UUID arrays
-func (*UUIDType) ArrayType() reflect.Type {
-	return reflect.TypeOf(UUIDArray{})
-}
-
-func (*UUIDType) ExtensionName() string {
-	return "arrow.uuid"
-}
-
-func (e *UUIDType) String() string {
-	return fmt.Sprintf("extension<%s>", e.ExtensionName())
-}
-
-func (e *UUIDType) MarshalJSON() ([]byte, error) {
-	return []byte(fmt.Sprintf(`{"name":"%s","metadata":%s}`, e.ExtensionName(), e.Serialize())), nil
-}
-
-func (*UUIDType) Serialize() string {
-	return ""
-}
-
-// Deserialize expects storageType to be FixedSizeBinaryType{ByteWidth: 16}
-func (*UUIDType) Deserialize(storageType arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if !arrow.TypeEqual(storageType, &arrow.FixedSizeBinaryType{ByteWidth: 16}) {
-		return nil, fmt.Errorf("invalid storage type for UUIDType: %s", storageType.Name())
-	}
-	return NewUUIDType(), nil
-}
-
-// ExtensionEquals returns true if both extensions have the same name
-func (e *UUIDType) ExtensionEquals(other arrow.ExtensionType) bool {
-	return e.ExtensionName() == other.ExtensionName()
-}
-
-func (*UUIDType) NewBuilder(mem memory.Allocator) array.Builder {
-	return NewUUIDBuilder(mem)
-}
-
-var (
-	_ arrow.ExtensionType          = (*UUIDType)(nil)
-	_ array.CustomExtensionBuilder = (*UUIDType)(nil)
-	_ array.ExtensionArray         = (*UUIDArray)(nil)
-	_ array.Builder                = (*UUIDBuilder)(nil)
-)
diff --git a/go/arrow/extensions/uuid_test.go b/go/arrow/extensions/uuid_test.go
deleted file mode 100644
index 80c621db2a0d5..0000000000000
--- a/go/arrow/extensions/uuid_test.go
+++ /dev/null
@@ -1,257 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package extensions_test
-
-import (
-	"bytes"
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/google/uuid"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-var testUUID = uuid.New()
-
-func TestUUIDExtensionBuilder(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-	builder := extensions.NewUUIDBuilder(mem)
-	builder.Append(testUUID)
-	builder.AppendNull()
-	builder.AppendBytes(testUUID)
-	arr := builder.NewArray()
-	defer arr.Release()
-	arrStr := arr.String()
-	assert.Equal(t, fmt.Sprintf(`["%[1]s" (null) "%[1]s"]`, testUUID), arrStr)
-	jsonStr, err := json.Marshal(arr)
-	assert.NoError(t, err)
-
-	arr1, _, err := array.FromJSON(mem, extensions.NewUUIDType(), bytes.NewReader(jsonStr))
-	defer arr1.Release()
-	assert.NoError(t, err)
-	assert.True(t, array.Equal(arr1, arr))
-
-	require.NoError(t, json.Unmarshal(jsonStr, builder))
-	arr2 := builder.NewArray()
-	defer arr2.Release()
-	assert.True(t, array.Equal(arr2, arr))
-}
-
-func TestUUIDExtensionRecordBuilder(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "uuid", Type: extensions.NewUUIDType()},
-	}, nil)
-	builder := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	builder.Field(0).(*extensions.UUIDBuilder).Append(testUUID)
-	builder.Field(0).(*extensions.UUIDBuilder).AppendNull()
-	builder.Field(0).(*extensions.UUIDBuilder).Append(testUUID)
-	record := builder.NewRecord()
-	b, err := record.MarshalJSON()
-	require.NoError(t, err)
-	require.Equal(t, "[{\"uuid\":\""+testUUID.String()+"\"}\n,{\"uuid\":null}\n,{\"uuid\":\""+testUUID.String()+"\"}\n]", string(b))
-	record1, _, err := array.RecordFromJSON(memory.DefaultAllocator, schema, bytes.NewReader(b))
-	require.NoError(t, err)
-	require.Equal(t, record, record1)
-}
-
-func TestUUIDStringRoundTrip(t *testing.T) {
-	// 1. create array
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	b := extensions.NewUUIDBuilder(mem)
-	b.Append(uuid.Nil)
-	b.AppendNull()
-	b.Append(uuid.NameSpaceURL)
-	b.AppendNull()
-	b.Append(testUUID)
-
-	arr := b.NewArray()
-	defer arr.Release()
-
-	// 2. create array via AppendValueFromString
-	b1 := extensions.NewUUIDBuilder(mem)
-	defer b1.Release()
-
-	for i := 0; i < arr.Len(); i++ {
-		assert.NoError(t, b1.AppendValueFromString(arr.ValueStr(i)))
-	}
-
-	arr1 := b1.NewArray()
-	defer arr1.Release()
-
-	assert.True(t, array.Equal(arr, arr1))
-}
-
-func TestUUIDTypeBasics(t *testing.T) {
-	typ := extensions.NewUUIDType()
-
-	assert.Equal(t, "arrow.uuid", typ.ExtensionName())
-	assert.True(t, typ.ExtensionEquals(typ))
-
-	assert.True(t, arrow.TypeEqual(typ, typ))
-	assert.False(t, arrow.TypeEqual(&arrow.FixedSizeBinaryType{ByteWidth: 16}, typ))
-	assert.True(t, arrow.TypeEqual(&arrow.FixedSizeBinaryType{ByteWidth: 16}, typ.StorageType()))
-
-	assert.Equal(t, "extension<arrow.uuid>", typ.String())
-}
-
-func TestUUIDTypeCreateFromArray(t *testing.T) {
-	typ := extensions.NewUUIDType()
-
-	bldr := array.NewFixedSizeBinaryBuilder(memory.DefaultAllocator, &arrow.FixedSizeBinaryType{ByteWidth: 16})
-	defer bldr.Release()
-
-	bldr.Append(testUUID[:])
-	bldr.AppendNull()
-	bldr.Append(testUUID[:])
-
-	storage := bldr.NewArray()
-	defer storage.Release()
-
-	arr := array.NewExtensionArrayWithStorage(typ, storage)
-	defer arr.Release()
-
-	assert.Equal(t, 3, arr.Len())
-	assert.Equal(t, 1, arr.NullN())
-
-	uuidArr, ok := arr.(*extensions.UUIDArray)
-	require.True(t, ok)
-
-	require.Equal(t, testUUID, uuidArr.Value(0))
-	require.Equal(t, uuid.Nil, uuidArr.Value(1))
-	require.Equal(t, testUUID, uuidArr.Value(2))
-}
-
-func TestUUIDTypeBatchIPCRoundTrip(t *testing.T) {
-	typ := extensions.NewUUIDType()
-
-	bldr := extensions.NewUUIDBuilder(memory.DefaultAllocator)
-	defer bldr.Release()
-
-	bldr.Append(testUUID)
-	bldr.AppendNull()
-	bldr.AppendBytes(testUUID)
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{{Name: "field", Type: typ, Nullable: true}}, nil),
-		[]arrow.Array{arr}, -1)
-	defer batch.Release()
-
-	var written arrow.Record
-	{
-		var buf bytes.Buffer
-		wr := ipc.NewWriter(&buf, ipc.WithSchema(batch.Schema()))
-		require.NoError(t, wr.Write(batch))
-		require.NoError(t, wr.Close())
-
-		rdr, err := ipc.NewReader(&buf)
-		require.NoError(t, err)
-		written, err = rdr.Read()
-		require.NoError(t, err)
-		written.Retain()
-		defer written.Release()
-		rdr.Release()
-	}
-
-	assert.Truef(t, batch.Schema().Equal(written.Schema()), "expected: %s, got: %s",
-		batch.Schema(), written.Schema())
-
-	assert.Truef(t, array.RecordEqual(batch, written), "expected: %s, got: %s",
-		batch, written)
-}
-
-func TestMarshallUUIDArray(t *testing.T) {
-	bldr := extensions.NewUUIDBuilder(memory.DefaultAllocator)
-	defer bldr.Release()
-
-	bldr.Append(testUUID)
-	bldr.AppendNull()
-	bldr.AppendBytes(testUUID)
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	assert.Equal(t, 3, arr.Len())
-	assert.Equal(t, 1, arr.NullN())
-
-	uuidArr, ok := arr.(*extensions.UUIDArray)
-	require.True(t, ok)
-
-	b, err := uuidArr.MarshalJSON()
-	require.NoError(t, err)
-
-	expectedJSON := fmt.Sprintf(`["%[1]s",null,"%[1]s"]`, testUUID)
-	require.Equal(t, expectedJSON, string(b))
-}
-
-func TestUUIDRecordToJSON(t *testing.T) {
-	typ := extensions.NewUUIDType()
-
-	bldr := extensions.NewUUIDBuilder(memory.DefaultAllocator)
-	defer bldr.Release()
-
-	uuid1 := uuid.MustParse("8c607ed4-07b2-4b9c-b5eb-c0387357f9ae")
-
-	bldr.Append(uuid1)
-	bldr.AppendNull()
-
-	// c5f2cbd9-7094-491a-b267-167bb62efe02
-	bldr.AppendBytes([16]byte{197, 242, 203, 217, 112, 148, 73, 26, 178, 103, 22, 123, 182, 46, 254, 2})
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	assert.Equal(t, 3, arr.Len())
-	assert.Equal(t, 1, arr.NullN())
-
-	uuidArr, ok := arr.(*extensions.UUIDArray)
-	require.True(t, ok)
-
-	rec := array.NewRecord(arrow.NewSchema([]arrow.Field{{Name: "uuid", Type: typ, Nullable: true}}, nil), []arrow.Array{uuidArr}, 3)
-	defer rec.Release()
-
-	buf := bytes.NewBuffer([]byte("\n")) // expected output has leading newline for clearer formatting
-	require.NoError(t, array.RecordToJSON(rec, buf))
-
-	expectedJSON := `
-		{"uuid":"8c607ed4-07b2-4b9c-b5eb-c0387357f9ae"}
-		{"uuid":null}
-		{"uuid":"c5f2cbd9-7094-491a-b267-167bb62efe02"}
-	`
-
-	expectedJSONLines := strings.Split(expectedJSON, "\n")
-	actualJSONLines := strings.Split(buf.String(), "\n")
-
-	require.Equal(t, len(expectedJSONLines), len(actualJSONLines))
-	for i := range expectedJSONLines {
-		if strings.TrimSpace(expectedJSONLines[i]) != "" {
-			require.JSONEq(t, expectedJSONLines[i], actualJSONLines[i])
-		}
-	}
-}
diff --git a/go/arrow/flight/basic_auth_flight_test.go b/go/arrow/flight/basic_auth_flight_test.go
deleted file mode 100755
index dac10e2657085..0000000000000
--- a/go/arrow/flight/basic_auth_flight_test.go
+++ /dev/null
@@ -1,202 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_test
-
-import (
-	"context"
-	"errors"
-	"io"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/metadata"
-	status "google.golang.org/grpc/status"
-)
-
-const (
-	validUsername   = "flight_username"
-	validPassword   = "flight_password"
-	invalidUsername = "invalid_flight_username"
-	invalidPassword = "invalid_flight_password"
-	validBearer     = "CAREBARESTARE"
-	invalidBearer   = "PANDABEAR"
-)
-
-type HeaderAuthTestFlight struct {
-	flight.BaseFlightServer
-}
-
-func (h *HeaderAuthTestFlight) ListFlights(c *flight.Criteria, fs flight.FlightService_ListFlightsServer) error {
-	fs.Send(&flight.FlightInfo{
-		Schema: []byte("foobar"),
-	})
-	return nil
-}
-
-func (h *HeaderAuthTestFlight) GetSchema(ctx context.Context, in *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	return &flight.SchemaResult{Schema: []byte(flight.AuthFromContext(ctx).(string))}, nil
-}
-
-type validator struct{}
-
-func (*validator) Validate(username, password string) (string, error) {
-	if username == validUsername && password == validPassword {
-		return validBearer, nil
-	}
-	return "", status.Errorf(codes.Unauthenticated, "invalid user/password")
-}
-
-func (*validator) IsValid(bearerToken string) (interface{}, error) {
-	if bearerToken == validBearer {
-		return "carebears", nil
-	}
-	return "", status.Errorf(codes.Unauthenticated, "invalid authentication")
-}
-
-func TestErrorAuths(t *testing.T) {
-	unary, stream := flight.CreateServerBearerTokenAuthInterceptors(&validator{})
-	s := flight.NewFlightServer(grpc.UnaryInterceptor(unary), grpc.StreamInterceptor(stream))
-	s.Init("localhost:0")
-	f := &HeaderAuthTestFlight{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	t.Run("non basic auth", func(t *testing.T) {
-		fc, err := client.Handshake(metadata.NewOutgoingContext(context.Background(), metadata.New(map[string]string{"authorization": "Foobar ****"})))
-		if err != nil {
-			t.Fatal(err)
-		}
-
-		_, err = fc.Recv()
-		if err == nil {
-			t.Fatal("should have failed")
-		}
-	})
-
-	t.Run("invalid auth", func(t *testing.T) {
-		_, err := client.AuthenticateBasicToken(context.Background(), invalidUsername, invalidPassword)
-		if err == nil {
-			t.Fatal("should have failed")
-		}
-	})
-
-	t.Run("invalid base64", func(t *testing.T) {
-		fc, err := client.Handshake(metadata.NewOutgoingContext(context.Background(), metadata.New(map[string]string{"authorization": "Basic ****"})))
-		if err != nil {
-			t.Fatal(err)
-		}
-
-		_, err = fc.Recv()
-		if err == nil {
-			t.Fatal("should have failed")
-		}
-	})
-
-	t.Run("invalid bearer token", func(t *testing.T) {
-		fs, _ := client.ListFlights(metadata.NewOutgoingContext(context.Background(), metadata.New(map[string]string{"authorization": "Bearer " + invalidBearer})), &flight.Criteria{})
-		_, err = fs.Recv()
-		if err == nil {
-			t.Fatal("should have errored with invalid bearer token")
-		}
-	})
-
-	t.Run("invalid auth type", func(t *testing.T) {
-		fs, _ := client.ListFlights(metadata.NewOutgoingContext(context.Background(), metadata.New(map[string]string{"authorization": "FunnyStuff " + invalidBearer})), &flight.Criteria{})
-		_, err = fs.Recv()
-		if err == nil {
-			t.Fatal("should have errored with invalid bearer token")
-		}
-	})
-
-	t.Run("test no auth, unary", func(t *testing.T) {
-		_, err := client.GetSchema(context.Background(), &flight.FlightDescriptor{})
-		if err == nil {
-			t.Fatal("should have errored")
-		}
-	})
-
-	t.Run("test invalid auth, unary", func(t *testing.T) {
-		_, err := client.GetSchema(metadata.NewOutgoingContext(context.Background(), metadata.New(map[string]string{"authorization": "Bearer Foobarmoo"})), &flight.FlightDescriptor{})
-		if err == nil {
-			t.Fatal("should have errored")
-		}
-	})
-}
-
-func TestBasicAuthHelpers(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{flight.CreateServerBasicAuthMiddleware(&validator{})})
-	s.Init("localhost:0")
-	f := &HeaderAuthTestFlight{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	ctx := context.Background()
-	fs, err := client.ListFlights(ctx, &flight.Criteria{})
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	_, err = fs.Recv()
-	if err == nil || errors.Is(err, io.EOF) {
-		t.Fatal("Should have failed with unauthenticated error")
-	}
-
-	ctx, err = client.AuthenticateBasicToken(ctx, validUsername, validPassword)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	fs, err = client.ListFlights(ctx, &flight.Criteria{})
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	info, err := fs.Recv()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	if string(info.Schema) != "foobar" {
-		t.Fatal("should have received 'foobar'")
-	}
-
-	sc, err := client.GetSchema(ctx, &flight.FlightDescriptor{})
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	if string(sc.Schema) != "carebears" {
-		t.Fatal("should have received carebears")
-	}
-}
diff --git a/go/arrow/flight/client.go b/go/arrow/flight/client.go
deleted file mode 100644
index 13c068e159f2b..0000000000000
--- a/go/arrow/flight/client.go
+++ /dev/null
@@ -1,453 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"context"
-	"encoding/base64"
-	"errors"
-	"fmt"
-	"io"
-	"runtime"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/grpc/status"
-	"google.golang.org/protobuf/proto"
-)
-
-type (
-	FlightServiceClient             = flight.FlightServiceClient
-	FlightService_HandshakeClient   = flight.FlightService_HandshakeClient
-	FlightService_ListFlightsClient = flight.FlightService_ListFlightsClient
-	FlightService_DoGetClient       = flight.FlightService_DoGetClient
-	FlightService_DoPutClient       = flight.FlightService_DoPutClient
-	FlightService_DoExchangeClient  = flight.FlightService_DoExchangeClient
-	FlightService_DoActionClient    = flight.FlightService_DoActionClient
-	FlightService_ListActionsClient = flight.FlightService_ListActionsClient
-
-	DescriptorType = flight.FlightDescriptor_DescriptorType
-	BasicAuth      = flight.BasicAuth
-)
-
-const (
-	DescriptorUNKNOWN = flight.FlightDescriptor_UNKNOWN
-	DescriptorPATH    = flight.FlightDescriptor_PATH
-	DescriptorCMD     = flight.FlightDescriptor_CMD
-)
-
-var NewFlightServiceClient = flight.NewFlightServiceClient
-
-// Client is an interface wrapped around the generated FlightServiceClient which is
-// generated by grpc protobuf definitions. This interface provides a useful hiding
-// of the authentication handshake via calling Authenticate and using the
-// ClientAuthHandler rather than manually having to implement the grpc communication
-// and sending of the auth token.
-type Client interface {
-	// Authenticate uses the ClientAuthHandler that was used when creating the client
-	// in order to use the Handshake endpoints of the service.
-	Authenticate(context.Context, ...grpc.CallOption) error
-	AuthenticateBasicToken(ctx context.Context, username string, password string, opts ...grpc.CallOption) (context.Context, error)
-	CancelFlightInfo(ctx context.Context, request *CancelFlightInfoRequest, opts ...grpc.CallOption) (*CancelFlightInfoResult, error)
-	Close() error
-	RenewFlightEndpoint(ctx context.Context, request *RenewFlightEndpointRequest, opts ...grpc.CallOption) (*FlightEndpoint, error)
-	SetSessionOptions(ctx context.Context, request *SetSessionOptionsRequest, opts ...grpc.CallOption) (*SetSessionOptionsResult, error)
-	GetSessionOptions(ctx context.Context, request *GetSessionOptionsRequest, opts ...grpc.CallOption) (*GetSessionOptionsResult, error)
-	CloseSession(ctx context.Context, request *CloseSessionRequest, opts ...grpc.CallOption) (*CloseSessionResult, error)
-	// join the interface from the FlightServiceClient instead of re-defining all
-	// the endpoints here.
-	FlightServiceClient
-}
-
-type CustomClientMiddleware interface {
-	StartCall(ctx context.Context) context.Context
-}
-
-type ClientPostCallMiddleware interface {
-	CallCompleted(ctx context.Context, err error)
-}
-
-type ClientHeadersMiddleware interface {
-	HeadersReceived(ctx context.Context, md metadata.MD)
-}
-
-func CreateClientMiddleware(middleware CustomClientMiddleware) ClientMiddleware {
-	return ClientMiddleware{
-		Unary: func(ctx context.Context, method string, req, reply interface{}, cc *grpc.ClientConn, invoker grpc.UnaryInvoker, opts ...grpc.CallOption) error {
-			nctx := middleware.StartCall(ctx)
-			if nctx != nil {
-				ctx = nctx
-			}
-
-			if hdrs, ok := middleware.(ClientHeadersMiddleware); ok {
-				hdrmd := make(metadata.MD)
-				trailermd := make(metadata.MD)
-				opts = append(opts, grpc.Header(&hdrmd), grpc.Trailer(&trailermd))
-				defer func() {
-					hdrs.HeadersReceived(ctx, metadata.Join(hdrmd, trailermd))
-				}()
-			}
-
-			err := invoker(ctx, method, req, reply, cc, opts...)
-			if post, ok := middleware.(ClientPostCallMiddleware); ok {
-				post.CallCompleted(ctx, err)
-			}
-			return err
-		},
-		Stream: func(ctx context.Context, desc *grpc.StreamDesc, cc *grpc.ClientConn, method string, streamer grpc.Streamer, opts ...grpc.CallOption) (grpc.ClientStream, error) {
-			nctx := middleware.StartCall(ctx)
-			if nctx != nil {
-				ctx = nctx
-			}
-
-			cs, err := streamer(ctx, desc, cc, method, opts...)
-			hdrs, isHdrs := middleware.(ClientHeadersMiddleware)
-			post, isPostcall := middleware.(ClientPostCallMiddleware)
-			if !isPostcall && !isHdrs {
-				return cs, err
-			}
-
-			if err != nil {
-				if isPostcall {
-					post.CallCompleted(ctx, err)
-				}
-				return cs, err
-			}
-
-			// Grab the client stream context because when the finish function or the goroutine below will be
-			// executed it's not guaranteed cs.Context() will be valid.
-			csCtx := cs.Context()
-			finishChan := make(chan struct{})
-			isFinished := new(int32)
-			*isFinished = 0
-			finishFunc := func(err error) {
-
-				// since there are multiple code paths that could call finishFunc
-				// we need some sort of synchronization to guard against multiple
-				// calls to finish
-				if !atomic.CompareAndSwapInt32(isFinished, 0, 1) {
-					return
-				}
-
-				close(finishChan)
-				if isPostcall {
-					post.CallCompleted(csCtx, err)
-				}
-				if isHdrs {
-					hdrmd, _ := cs.Header()
-					hdrs.HeadersReceived(csCtx, metadata.Join(hdrmd, cs.Trailer()))
-				}
-			}
-			go func() {
-				select {
-				case <-finishChan:
-					// finish is being called by something else, no action necessary
-				case <-csCtx.Done():
-					finishFunc(csCtx.Err())
-				}
-			}()
-
-			newCS := &clientStream{
-				ClientStream: cs,
-				desc:         desc,
-				finishFn:     finishFunc,
-			}
-			// The `ClientStream` interface allows one to omit calling `Recv` if it's
-			// known that the result will be `io.EOF`. See
-			// http://stackoverflow.com/q/42915337
-			// In such cases, there's nothing that triggers the span to finish. We,
-			// therefore, set a finalizer so that the span and the context goroutine will
-			// at least be cleaned up when the garbage collector is run.
-			runtime.SetFinalizer(newCS, func(newcs *clientStream) {
-				newcs.finishFn(nil)
-			})
-			return newCS, nil
-		},
-	}
-}
-
-type clientStream struct {
-	grpc.ClientStream
-	desc     *grpc.StreamDesc
-	finishFn func(error)
-}
-
-func (cs *clientStream) Header() (metadata.MD, error) {
-	md, err := cs.ClientStream.Header()
-	if err != nil {
-		cs.finishFn(err)
-	}
-	return md, err
-}
-
-func (cs *clientStream) SendMsg(m interface{}) error {
-	err := cs.ClientStream.SendMsg(m)
-	if err != nil {
-		cs.finishFn(err)
-	}
-	return err
-}
-
-func (cs *clientStream) RecvMsg(m interface{}) error {
-	err := cs.ClientStream.RecvMsg(m)
-	if errors.Is(err, io.EOF) {
-		cs.finishFn(nil)
-		return err
-	} else if err != nil {
-		cs.finishFn(err)
-		return err
-	}
-
-	if !cs.desc.ServerStreams {
-		cs.finishFn(nil)
-	}
-	return err
-}
-
-func (cs *clientStream) CloseSend() error {
-	err := cs.ClientStream.CloseSend()
-	if err != nil {
-		cs.finishFn(err)
-	}
-	return err
-}
-
-type ClientMiddleware struct {
-	Stream grpc.StreamClientInterceptor
-	Unary  grpc.UnaryClientInterceptor
-}
-
-type client struct {
-	conn        grpc.ClientConnInterface
-	authHandler ClientAuthHandler
-
-	FlightServiceClient
-}
-
-// NewFlightClient takes in the address of the grpc server and an auth handler for the
-// application-level handshake. If using TLS or other grpc configurations they can still
-// be passed via the grpc.DialOption list just as if connecting manually without this
-// helper function.
-//
-// Alternatively, a grpc client can be constructed as normal without this helper as the
-// grpc generated client code is still exported. This exists to add utility and helpers
-// around the authentication and passing the token with requests.
-//
-// Deprecated: prefer to use NewClientWithMiddleware
-func NewFlightClient(addr string, auth ClientAuthHandler, opts ...grpc.DialOption) (Client, error) {
-	if auth != nil {
-		opts = append([]grpc.DialOption{
-			grpc.WithChainStreamInterceptor(createClientAuthStreamInterceptor(auth)),
-			grpc.WithChainUnaryInterceptor(createClientAuthUnaryInterceptor(auth)),
-		}, opts...)
-	}
-
-	conn, err := grpc.Dial(addr, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &client{conn: conn, FlightServiceClient: flight.NewFlightServiceClient(conn), authHandler: auth}, nil
-}
-
-// NewClientWithMiddleware takes a slice of middleware in addition to the auth and address which will be
-// used by grpc and chained, the first middleware will be the outer most with the last middleware
-// being the inner most wrapper around the actual call. It also passes along the dialoptions passed in such
-// as TLS certs and so on.
-func NewClientWithMiddleware(addr string, auth ClientAuthHandler, middleware []ClientMiddleware, opts ...grpc.DialOption) (Client, error) {
-	return NewClientWithMiddlewareCtx(context.Background(), addr, auth, middleware, opts...)
-}
-
-func NewClientWithMiddlewareCtx(ctx context.Context, addr string, auth ClientAuthHandler, middleware []ClientMiddleware, opts ...grpc.DialOption) (Client, error) {
-	unary := make([]grpc.UnaryClientInterceptor, 0, len(middleware))
-	stream := make([]grpc.StreamClientInterceptor, 0, len(middleware))
-	if auth != nil {
-		unary = append(unary, createClientAuthUnaryInterceptor(auth))
-		stream = append(stream, createClientAuthStreamInterceptor(auth))
-	}
-	if len(middleware) > 0 {
-		for _, m := range middleware {
-			if m.Unary != nil {
-				unary = append(unary, m.Unary)
-			}
-			if m.Stream != nil {
-				stream = append(stream, m.Stream)
-			}
-		}
-	}
-	opts = append(opts, grpc.WithChainUnaryInterceptor(unary...), grpc.WithChainStreamInterceptor(stream...))
-	conn, err := grpc.DialContext(ctx, addr, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &client{conn: conn, FlightServiceClient: flight.NewFlightServiceClient(conn), authHandler: auth}, nil
-}
-
-func NewClientFromConn(cc grpc.ClientConnInterface, auth ClientAuthHandler) Client {
-	return &client{conn: cc,
-		FlightServiceClient: flight.NewFlightServiceClient(cc), authHandler: auth}
-}
-
-func (c *client) AuthenticateBasicToken(ctx context.Context, username, password string, opts ...grpc.CallOption) (context.Context, error) {
-	authCtx := metadata.AppendToOutgoingContext(ctx, "Authorization", "Basic "+base64.RawStdEncoding.EncodeToString([]byte(strings.Join([]string{username, password}, ":"))))
-
-	stream, err := c.FlightServiceClient.Handshake(authCtx, opts...)
-	if err != nil {
-		return ctx, err
-	}
-
-	err = stream.CloseSend()
-	if err != nil {
-		return ctx, err
-	}
-
-	header, err := stream.Header()
-	if err != nil {
-		return ctx, err
-	}
-
-	_, err = stream.Recv()
-	if err != nil && err != io.EOF {
-		return ctx, err
-	}
-
-	meta := stream.Trailer()
-	md := metadata.Join(header, meta)
-	for _, token := range md.Get("authorization") {
-		if token != "" {
-			return metadata.AppendToOutgoingContext(ctx, "Authorization", token), nil
-		}
-	}
-
-	return ctx, fmt.Errorf("flight: no authorization header on the response")
-}
-
-func (c *client) Authenticate(ctx context.Context, opts ...grpc.CallOption) error {
-	if c.authHandler == nil {
-		return status.Error(codes.NotFound, "cannot authenticate without an auth-handler")
-	}
-
-	stream, err := c.FlightServiceClient.Handshake(ctx, opts...)
-	if err != nil {
-		return err
-	}
-
-	return c.authHandler.Authenticate(ctx, &clientAuthConn{stream})
-}
-
-// ReadUntilEOF will drain a stream until either an error is returned
-// or EOF is encountered and nil is returned.
-func ReadUntilEOF(stream FlightService_DoActionClient) error {
-	for {
-		_, err := stream.Recv()
-		if err == io.EOF {
-			return nil
-		} else if err != nil {
-			return err
-		}
-	}
-}
-
-func (c *client) CancelFlightInfo(ctx context.Context, request *CancelFlightInfoRequest, opts ...grpc.CallOption) (*CancelFlightInfoResult, error) {
-	var result CancelFlightInfoResult
-	err := handleAction(ctx, c, CancelFlightInfoActionType, request, &result, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &result, err
-}
-
-func (c *client) Close() error {
-	c.FlightServiceClient = nil
-	if cl, ok := c.conn.(io.Closer); ok {
-		return cl.Close()
-	}
-	return nil
-}
-
-func (c *client) RenewFlightEndpoint(ctx context.Context, request *RenewFlightEndpointRequest, opts ...grpc.CallOption) (*FlightEndpoint, error) {
-	var result FlightEndpoint
-	err := handleAction(ctx, c, RenewFlightEndpointActionType, request, &result, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &result, err
-}
-
-func (c *client) SetSessionOptions(ctx context.Context, request *SetSessionOptionsRequest, opts ...grpc.CallOption) (*SetSessionOptionsResult, error) {
-	var result SetSessionOptionsResult
-	err := handleAction(ctx, c, SetSessionOptionsActionType, request, &result, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &result, err
-}
-
-func (c *client) GetSessionOptions(ctx context.Context, request *GetSessionOptionsRequest, opts ...grpc.CallOption) (*GetSessionOptionsResult, error) {
-	var result GetSessionOptionsResult
-	err := handleAction(ctx, c, GetSessionOptionsActionType, request, &result, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &result, err
-}
-
-func (c *client) CloseSession(ctx context.Context, request *CloseSessionRequest, opts ...grpc.CallOption) (*CloseSessionResult, error) {
-	var result CloseSessionResult
-	err := handleAction(ctx, c, CloseSessionActionType, request, &result, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &result, err
-}
-
-func handleAction[T, U proto.Message](ctx context.Context, client FlightServiceClient, name string, request T, response U, opts ...grpc.CallOption) error {
-	var (
-		action flight.Action
-		err    error
-	)
-
-	action.Type = name
-	action.Body, err = proto.Marshal(request)
-	if err != nil {
-		return err
-	}
-	stream, err := client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return err
-	}
-	res, err := stream.Recv()
-	if err != nil {
-		return err
-	}
-	err = proto.Unmarshal(res.Body, response)
-	if err != nil {
-		return err
-	}
-
-	return ReadUntilEOF(stream)
-}
diff --git a/go/arrow/flight/client_auth.go b/go/arrow/flight/client_auth.go
deleted file mode 100644
index 1c1e38ed7d2fb..0000000000000
--- a/go/arrow/flight/client_auth.go
+++ /dev/null
@@ -1,91 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"context"
-	"strings"
-
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/grpc/status"
-)
-
-// ClientAuthHandler defines an interface for the Flight client to perform
-// the authentication handshake. The token that is retrieved from GetToken
-// will be sent as part of the context metadata in subsequent requests after
-// authentication is performed using the key "auth-token-bin".
-type ClientAuthHandler interface {
-	Authenticate(context.Context, AuthConn) error
-	GetToken(context.Context) (string, error)
-}
-
-type clientAuthConn struct {
-	stream FlightService_HandshakeClient
-}
-
-func (a *clientAuthConn) Read() ([]byte, error) {
-	in, err := a.stream.Recv()
-	if err != nil {
-		return nil, err
-	}
-
-	return in.Payload, nil
-}
-
-func (a *clientAuthConn) Send(b []byte) error {
-	return a.stream.Send(&HandshakeRequest{Payload: b})
-}
-
-func createClientAuthUnaryInterceptor(auth ClientAuthHandler) grpc.UnaryClientInterceptor {
-	if auth == nil {
-		return func(ctx context.Context, method string, req, reply interface{}, cc *grpc.ClientConn, invoker grpc.UnaryInvoker, opts ...grpc.CallOption) error {
-			return invoker(ctx, method, req, reply, cc, opts...)
-		}
-	}
-
-	return func(ctx context.Context, method string, req, reply interface{}, cc *grpc.ClientConn, invoker grpc.UnaryInvoker, opts ...grpc.CallOption) error {
-		tok, err := auth.GetToken(ctx)
-		if err != nil {
-			return status.Errorf(codes.Unauthenticated, "error retrieving token: %s", err)
-		}
-
-		return invoker(metadata.AppendToOutgoingContext(ctx, grpcAuthHeader, tok), method, req, reply, cc, opts...)
-	}
-}
-
-func createClientAuthStreamInterceptor(auth ClientAuthHandler) grpc.StreamClientInterceptor {
-	if auth == nil {
-		return func(ctx context.Context, desc *grpc.StreamDesc, cc *grpc.ClientConn, method string, streamer grpc.Streamer, opts ...grpc.CallOption) (grpc.ClientStream, error) {
-			return streamer(ctx, desc, cc, method, opts...)
-		}
-	}
-
-	return func(ctx context.Context, desc *grpc.StreamDesc, cc *grpc.ClientConn, method string, streamer grpc.Streamer, opts ...grpc.CallOption) (grpc.ClientStream, error) {
-		if strings.HasSuffix(method, "/Handshake") {
-			return streamer(ctx, desc, cc, method, opts...)
-		}
-
-		tok, err := auth.GetToken(ctx)
-		if err != nil {
-			return nil, status.Errorf(codes.Unauthenticated, "error retrieving token: %s", err)
-		}
-
-		return streamer(metadata.AppendToOutgoingContext(ctx, grpcAuthHeader, tok), desc, cc, method, opts...)
-	}
-}
diff --git a/go/arrow/flight/cookie_middleware.go b/go/arrow/flight/cookie_middleware.go
deleted file mode 100644
index 39c86d8303434..0000000000000
--- a/go/arrow/flight/cookie_middleware.go
+++ /dev/null
@@ -1,146 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"context"
-	"net/http"
-	"strings"
-	"sync"
-	"time"
-
-	"golang.org/x/exp/maps"
-	"google.golang.org/grpc/metadata"
-)
-
-// endOfTime is the time when session (non-persistent) cookies expire.
-// This instant is representable in most date/time formats (not just
-// Go's time.Time) and should be far enough in the future.
-// taken from Go's net/http/cookiejar/jar.go
-var endOfTime = time.Date(9999, 12, 31, 23, 59, 59, 0, time.UTC)
-
-// NewClientCookieMiddleware returns a go-routine safe middleware for flight
-// clients which properly handles Set-Cookie headers to store cookies
-// in a cookie jar, and then requests are sent with those cookies added
-// as a Cookie header.
-func NewClientCookieMiddleware() ClientMiddleware {
-	return CreateClientMiddleware(&clientCookieMiddleware{jar: make(map[string]http.Cookie)})
-}
-
-func NewCookieMiddleware() CookieMiddleware {
-	return &clientCookieMiddleware{jar: make(map[string]http.Cookie)}
-}
-
-// CookieMiddleware is a go-routine safe middleware for flight clients
-// which properly handles Set-Cookie headers for storing cookies.
-// This can be passed into `CreateClientMiddleware` to create a new
-// middleware object. You can also clone it to create middleware for a
-// new client which starts with the same cookies.
-type CookieMiddleware interface {
-	CustomClientMiddleware
-	// Clone creates a new CookieMiddleware that starts out with the same
-	// cookies that this one already has. This is useful when creating a
-	// new client connection for the same server.
-	Clone() CookieMiddleware
-}
-
-type clientCookieMiddleware struct {
-	jar map[string]http.Cookie
-	mx  sync.Mutex
-}
-
-func (cc *clientCookieMiddleware) Clone() CookieMiddleware {
-	cc.mx.Lock()
-	defer cc.mx.Unlock()
-	return &clientCookieMiddleware{jar: maps.Clone(cc.jar)}
-}
-
-func (cc *clientCookieMiddleware) StartCall(ctx context.Context) context.Context {
-	cc.mx.Lock()
-	defer cc.mx.Unlock()
-
-	if len(cc.jar) == 0 {
-		return ctx
-	}
-
-	now := time.Now()
-
-	// Per RFC 6265 section 5.4, rather than adding multiple cookie strings
-	// or multiple cookie headers, multiple cookies are all sent as a single
-	// header value separated by semicolons.
-
-	// we will also clear any expired cookies from the jar while we determine
-	// the cookies to send.
-	cookies := make([]string, 0, len(cc.jar))
-	for id, c := range cc.jar {
-		if !c.Expires.After(now) {
-			delete(cc.jar, id)
-			continue
-		}
-
-		cookies = append(cookies, (&http.Cookie{Name: c.Name, Value: c.Value}).String())
-	}
-
-	if len(cookies) == 0 {
-		return ctx
-	}
-
-	return metadata.AppendToOutgoingContext(ctx, "Cookie", strings.Join(cookies, ";"))
-}
-
-func processCookieExpire(c *http.Cookie, now time.Time) (remove bool) {
-	// MaxAge takes precedence over Expires
-	if c.MaxAge < 0 {
-		return true
-	} else if c.MaxAge > 0 {
-		c.Expires = now.Add(time.Duration(c.MaxAge) * time.Second)
-	} else {
-		if c.Expires.IsZero() {
-			c.Expires = endOfTime
-		} else {
-			if !c.Expires.After(now) {
-				return true
-			}
-		}
-	}
-
-	return
-}
-
-func (cc *clientCookieMiddleware) HeadersReceived(ctx context.Context, md metadata.MD) {
-	// instead of replicating the logic for processing the Set-Cookie
-	// header, let's just make a fake response and use the built-in
-	// cookie processing. It's very non-trivial
-	cookies := (&http.Response{
-		Header: http.Header{"Set-Cookie": md.Get("set-cookie")},
-	}).Cookies()
-
-	now := time.Now()
-
-	cc.mx.Lock()
-	defer cc.mx.Unlock()
-
-	for _, c := range cookies {
-		id := c.Name + c.Path
-		if processCookieExpire(c, now) {
-			delete(cc.jar, id)
-			continue
-		}
-
-		cc.jar[id] = *c
-	}
-}
diff --git a/go/arrow/flight/cookie_middleware_test.go b/go/arrow/flight/cookie_middleware_test.go
deleted file mode 100644
index 2e2d02bc21fb5..0000000000000
--- a/go/arrow/flight/cookie_middleware_test.go
+++ /dev/null
@@ -1,301 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_test
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"io"
-	"net/http"
-	"net/textproto"
-	"reflect"
-	"strings"
-	"testing"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/metadata"
-)
-
-// strings.Cut is go1.18+ so let's just stick a duplicate of it in here
-// for now since we want to support go1.17
-func cut(s, sep string) (before, after string, found bool) {
-	if i := strings.Index(s, sep); i >= 0 {
-		return s[:i], s[i+len(sep):], true
-	}
-	return s, "", false
-}
-
-type serverAddCookieMiddleware struct {
-	expectedCookies map[string]string
-
-	cookies []*http.Cookie
-}
-
-func (s *serverAddCookieMiddleware) StartCall(ctx context.Context) context.Context {
-	if s.expectedCookies == nil {
-		md := make(metadata.MD)
-		for _, c := range s.cookies {
-			md.Append("Set-Cookie", c.String())
-		}
-		grpc.SetHeader(ctx, md)
-		return nil
-	}
-
-	cookies := metadata.ValueFromIncomingContext(ctx, "cookie")
-
-	got := make(map[string]string)
-	for _, line := range cookies {
-		line = textproto.TrimString(line)
-
-		var part string
-		for len(line) > 0 {
-			part, line, _ = cut(line, ";")
-			part = textproto.TrimString(part)
-			if part == "" {
-				continue
-			}
-
-			name, val, _ := cut(part, "=")
-			name = textproto.TrimString(name)
-			if len(val) > 1 && val[0] == '"' && val[len(val)-1] == '"' {
-				val = val[1 : len(val)-1]
-			}
-
-			got[name] = val
-		}
-	}
-
-	if !reflect.DeepEqual(s.expectedCookies, got) {
-		panic(fmt.Sprintf("did not get expected cookies, expected %+v, got %+v", s.expectedCookies, got))
-	}
-
-	return nil
-}
-
-func (s *serverAddCookieMiddleware) CallCompleted(ctx context.Context, err error) {}
-
-func TestClientCookieMiddleware(t *testing.T) {
-	cookieMiddleware := &serverAddCookieMiddleware{}
-
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(cookieMiddleware),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	credsOpt := grpc.WithTransportCredentials(insecure.NewCredentials())
-
-	tests := []struct {
-		testname string
-		cookies  []*http.Cookie
-		expected map[string]string
-	}{
-		{"single cookie", []*http.Cookie{{Name: "Cookie-1", Value: "v$1", Raw: "Cookie-1=v$1"}},
-			map[string]string{"Cookie-1": "v$1"}},
-		{"expired", []*http.Cookie{{
-			Name: "NID", Value: "99=YsDT5", Expires: time.Date(2011, 11, 23, 1, 5, 3, 0, time.UTC),
-			RawExpires: "Wed, 23-Nov-2011 01:05:03 GMT", Raw: "NID=99=YsDT5; expires=Wed, 23-Nov-11 01:05:03 GMT"}},
-			map[string]string{}},
-		{"multiple", []*http.Cookie{
-			{Name: "negative maxage", Value: "foobar", MaxAge: -1},
-			{Name: "special-1", Value: " z"},
-			{Name: "cookie-2", Value: "v$2"},
-		},
-			map[string]string{"special-1": " z", "cookie-2": "v$2"}},
-	}
-
-	makeReq := func(c flight.Client, t *testing.T) {
-		flightStream, err := c.ListFlights(context.Background(), &flight.Criteria{})
-		assert.NoError(t, err)
-
-		for {
-			_, err := flightStream.Recv()
-			if err != nil {
-				if errors.Is(err, io.EOF) {
-					break
-				}
-				assert.NoError(t, err)
-			}
-		}
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.testname, func(t *testing.T) {
-			cookieMiddleware.expectedCookies = nil
-
-			client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil,
-				[]flight.ClientMiddleware{flight.NewClientCookieMiddleware()}, credsOpt)
-			require.NoError(t, err)
-			defer client.Close()
-
-			cookieMiddleware.cookies = tt.cookies
-			makeReq(client, t)
-
-			cookieMiddleware.expectedCookies = tt.expected
-			makeReq(client, t)
-		})
-	}
-}
-
-func TestCookieExpiration(t *testing.T) {
-	cookieMiddleware := &serverAddCookieMiddleware{}
-
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(cookieMiddleware),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	makeReq := func(c flight.Client, t *testing.T) {
-		flightStream, err := c.ListFlights(context.Background(), &flight.Criteria{})
-		assert.NoError(t, err)
-
-		for {
-			_, err := flightStream.Recv()
-			if err != nil {
-				if errors.Is(err, io.EOF) {
-					break
-				}
-				assert.NoError(t, err)
-			}
-		}
-	}
-
-	credsOpt := grpc.WithTransportCredentials(insecure.NewCredentials())
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil,
-		[]flight.ClientMiddleware{flight.NewClientCookieMiddleware()}, credsOpt)
-	require.NoError(t, err)
-	defer client.Close()
-
-	// set cookies
-	cookieMiddleware.cookies = []*http.Cookie{
-		{Name: "foo", Value: "bar"},
-		{Name: "foo2", Value: "bar2", MaxAge: 1},
-	}
-	makeReq(client, t)
-
-	// validate set
-	cookieMiddleware.expectedCookies = map[string]string{
-		"foo": "bar", "foo2": "bar2",
-	}
-	makeReq(client, t)
-
-	// wait for foo2 to expire and validate it doesn't get sent
-	time.Sleep(1 * time.Second)
-	cookieMiddleware.expectedCookies = map[string]string{
-		"foo": "bar",
-	}
-	makeReq(client, t)
-
-	// update value
-	cookieMiddleware.cookies = []*http.Cookie{
-		{Name: "foo", Value: "baz"},
-	}
-	cookieMiddleware.expectedCookies = nil
-	makeReq(client, t)
-
-	// validate updated value is sent
-	cookieMiddleware.expectedCookies = map[string]string{
-		"foo": "baz",
-	}
-	makeReq(client, t)
-
-	// force delete cookie
-	cookieMiddleware.expectedCookies = nil
-	cookieMiddleware.cookies = []*http.Cookie{
-		{Name: "foo", MaxAge: -1}, // delete now!
-	}
-	makeReq(client, t)
-
-	// verify it's been deleted
-	cookieMiddleware.expectedCookies = map[string]string{}
-	makeReq(client, t)
-}
-
-func TestCookiesClone(t *testing.T) {
-	cookieMiddleware := &serverAddCookieMiddleware{}
-
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(cookieMiddleware),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	makeReq := func(c flight.Client, t *testing.T) {
-		flightStream, err := c.ListFlights(context.Background(), &flight.Criteria{})
-		assert.NoError(t, err)
-
-		for {
-			_, err := flightStream.Recv()
-			if err != nil {
-				if errors.Is(err, io.EOF) {
-					break
-				}
-				assert.NoError(t, err)
-			}
-		}
-	}
-
-	credsOpt := grpc.WithTransportCredentials(insecure.NewCredentials())
-	cookies := flight.NewCookieMiddleware()
-	client1, err := flight.NewClientWithMiddleware(s.Addr().String(), nil,
-		[]flight.ClientMiddleware{flight.CreateClientMiddleware(cookies)}, credsOpt)
-	require.NoError(t, err)
-	defer client1.Close()
-
-	// set cookies
-	cookieMiddleware.cookies = []*http.Cookie{
-		{Name: "foo", Value: "bar"},
-		{Name: "foo2", Value: "bar2", MaxAge: 1},
-	}
-	makeReq(client1, t)
-
-	// validate set
-	cookieMiddleware.expectedCookies = map[string]string{
-		"foo": "bar", "foo2": "bar2",
-	}
-	makeReq(client1, t)
-
-	client2, err := flight.NewClientWithMiddleware(s.Addr().String(), nil,
-		[]flight.ClientMiddleware{flight.CreateClientMiddleware(cookies.Clone())}, credsOpt)
-	require.NoError(t, err)
-	defer client2.Close()
-
-	// validate clone worked
-	cookieMiddleware.expectedCookies = map[string]string{
-		"foo": "bar", "foo2": "bar2",
-	}
-	makeReq(client2, t)
-}
diff --git a/go/arrow/flight/doc.go b/go/arrow/flight/doc.go
deleted file mode 100644
index c36a808b00e4d..0000000000000
--- a/go/arrow/flight/doc.go
+++ /dev/null
@@ -1,77 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package flight contains server and client implementations for the Arrow Flight RPC
-//
-// Here we list best practices and common pitfalls for Arrow Flight usage.
-//
-// GRPC
-//
-// When using gRPC for transport all client methods take an optional list
-// of gRPC CallOptions: https://pkg.go.dev/google.golang.org/grpc#CallOption.
-// Additional headers can be used or read via
-// https://pkg.go.dev/google.golang.org/grpc@v1.48.0/metadata with the context.
-// Also see available gRPC keys
-// (https://grpc.github.io/grpc/cpp/group__grpc__arg__keys.html) and a list of
-// best gRPC practices (https://grpc.io/docs/guides/performance/#general).
-//
-// Re-use clients whenever possible
-//
-// Closing clients causes gRPC to close and clean up connections which can take
-// several seconds per connection. This will stall server and client threads if
-// done too frequently. Client reuse will avoid this issue.
-//
-// Don’t round-robin load balance
-//
-// Round robin balancing can cause every client to have an open connection to
-// every server causing an unexpected number of open connections and a depletion
-// of resources.
-//
-// Debugging
-//
-// Use netstat to see the number of open connections.
-// For debug use env GODEBUG=http2debug=1 or GODEBUG=http2debug=2 for verbose
-// http2 logs (using 2 is more verbose with frame dumps). This will print the
-// initial headers (on both sides) so you can see if grpc established the
-// connection or not. It will also print when a message is sent, so you can tell
-// if the connection is open or not.
-//
-// Note: "connect" isn't really a connect and we’ve observed that gRPC does not
-// give you the actual error until you first try to make a call. This can cause
-// error being reported at unexpected times.
-//
-// Excessive traffic
-//
-// There are basically two ways to handle excessive traffic:
-// * unbounded goroutines -> everyone gets serviced, but it might take forever.
-// This is what you are seeing now. Default behaviour.
-// * bounded thread pool -> Reject connections / requests when under load, and have
-// clients retry with backoff. This also gives an opportunity to retry with a
-// different node. Not everyone gets serviced but quality of service stays consistent.
-// Can be set with https://pkg.go.dev/google.golang.org/grpc#NumStreamWorkers
-//
-// Closing unresponsive connections
-//
-// * Connection timeout (https://pkg.go.dev/context#WithTimeout) or
-// (https://pkg.go.dev/context#WithCancel) can be set via context.Context.
-// * There is a long standing ticket for a per-write/per-read timeout instead of a per
-// call timeout (https://issues.apache.org/jira/browse/ARROW-6062), but this is not
-// (easily) possible to implement with the blocking gRPC API. For now one can also do
-// something like set up a background thread that calls cancel() on a timer and have
-// the main thread reset the timer every time a write operation completes successfully
-// (that means one needs to use to_batches() + write_batch and not write_table).
-
-package flight
diff --git a/go/arrow/flight/example_flight_server_test.go b/go/arrow/flight/example_flight_server_test.go
deleted file mode 100755
index 9dd7bc8efef48..0000000000000
--- a/go/arrow/flight/example_flight_server_test.go
+++ /dev/null
@@ -1,90 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_test
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"io"
-	"log"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/status"
-)
-
-type serverAuth struct{}
-
-func (sa *serverAuth) Authenticate(c flight.AuthConn) error {
-	in, err := c.Read()
-	if errors.Is(err, io.EOF) {
-		return status.Error(codes.Unauthenticated, "no auth info provided")
-	}
-
-	if err != nil {
-		return status.Error(codes.FailedPrecondition, "error reading auth handshake")
-	}
-
-	// do something with in....
-	fmt.Println(string(in))
-
-	// send auth token back
-	return c.Send([]byte("foobar"))
-}
-
-func (sa *serverAuth) IsValid(token string) (interface{}, error) {
-	if token == "foobar" {
-		return "foo", nil
-	}
-	return "", status.Error(codes.PermissionDenied, "invalid auth token")
-}
-
-func Example_server() {
-	server := flight.NewFlightServer()
-	server.Init("localhost:0")
-	svc := &flight.BaseFlightServer{}
-	svc.SetAuthHandler(&serverAuth{})
-	server.RegisterFlightService(svc)
-
-	go server.Serve()
-	defer server.Shutdown()
-
-	conn, err := grpc.Dial(server.Addr().String(), grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		log.Fatal(err)
-	}
-	defer conn.Close()
-
-	client := flight.NewFlightServiceClient(conn)
-	stream, err := client.Handshake(context.Background())
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	// ignore error handling here for brevity
-	stream.Send(&flight.HandshakeRequest{Payload: []byte("baz")})
-
-	resp, _ := stream.Recv()
-	fmt.Println(string(resp.Payload))
-
-	// Output:
-	// baz
-	// foobar
-}
diff --git a/go/arrow/flight/flight_middleware_test.go b/go/arrow/flight/flight_middleware_test.go
deleted file mode 100755
index 181b41ea41f2a..0000000000000
--- a/go/arrow/flight/flight_middleware_test.go
+++ /dev/null
@@ -1,361 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_test
-
-import (
-	"context"
-	"errors"
-	"io"
-	sync "sync"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/metadata"
-)
-
-type ServerMiddlewareAddHeader struct {
-	ctx context.Context
-}
-
-func (s *ServerMiddlewareAddHeader) StartCall(ctx context.Context) context.Context {
-	grpc.SetHeader(ctx, metadata.Pairs("foo", "bar"))
-	s.ctx = ctx
-
-	return nil
-}
-
-func (s *ServerMiddlewareAddHeader) CallCompleted(ctx context.Context, err error) {
-	if s.ctx != ctx {
-		panic("invalid context")
-	}
-
-	grpc.SetTrailer(ctx, metadata.Pairs("super", "duper"))
-
-	if err != nil {
-		panic("got error")
-	}
-}
-
-type ServerMiddlewareAddHeaderError struct{}
-
-func (s *ServerMiddlewareAddHeaderError) StartCall(ctx context.Context) context.Context {
-	grpc.SetHeader(ctx, metadata.Pairs("foo", "bar"))
-	return nil
-}
-
-func (s *ServerMiddlewareAddHeaderError) CallCompleted(ctx context.Context, err error) {
-	grpc.SetTrailer(ctx, metadata.Pairs("super", "duper"))
-}
-
-type ServerTraceMiddleware struct{}
-
-type tracetestKey struct{}
-
-func (s ServerTraceMiddleware) StartCall(ctx context.Context) context.Context {
-	return context.WithValue(ctx, tracetestKey{}, "foobar")
-}
-
-func (s ServerTraceMiddleware) CallCompleted(ctx context.Context, _ error) {
-	v := ctx.Value(tracetestKey{}).(string)
-	if v != "foobar" {
-		panic("missing value from context in middleware test")
-	}
-}
-
-type ServerExpectHeaderMiddleware struct{}
-
-func (s ServerExpectHeaderMiddleware) StartCall(ctx context.Context) context.Context {
-	md, ok := metadata.FromIncomingContext(ctx)
-	if !ok {
-		panic("missing metadata headers")
-	}
-
-	bar := md.Get("foo")
-	if len(bar) != 1 || bar[0] != "bar" {
-		panic("incorrect header received: " + bar[0])
-	}
-
-	return nil
-}
-
-func (s ServerExpectHeaderMiddleware) CallCompleted(context.Context, error) {}
-
-func TestServerStreamMiddleware(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(&ServerMiddlewareAddHeader{}),
-		flight.CreateServerMiddleware(ServerTraceMiddleware{}),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil, nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	require.NoError(t, err)
-	defer client.Close()
-
-	flightStream, err := client.ListFlights(context.Background(), &flight.Criteria{})
-	require.NoError(t, err)
-
-	md, err := flightStream.Header()
-	assert.NoError(t, err)
-	assert.Equal(t, []string{"bar"}, md.Get("foo"))
-
-	for {
-		info, err := flightStream.Recv()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			assert.NoError(t, err)
-		}
-
-		fname := info.GetFlightDescriptor().GetPath()[0]
-		recs, ok := arrdata.Records[fname]
-		assert.True(t, ok)
-
-		sc, err := flight.DeserializeSchema(info.GetSchema(), f.mem)
-		assert.NoError(t, err)
-
-		assert.True(t, recs[0].Schema().Equal(sc))
-	}
-
-	md = flightStream.Trailer()
-	assert.Equal(t, []string{"duper"}, md.Get("super"))
-}
-
-func TestServerUnaryMiddleware(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(&ServerMiddlewareAddHeader{}),
-		flight.CreateServerMiddleware(ServerTraceMiddleware{}),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil, nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	require.NoError(t, err)
-	defer client.Close()
-
-	for name, testrecs := range arrdata.Records {
-		t.Run("flight get schema: "+name, func(t *testing.T) {
-			var (
-				hdrMD     metadata.MD
-				trailerMD metadata.MD
-			)
-			res, err := client.GetSchema(context.Background(), &flight.FlightDescriptor{Path: []string{name}}, grpc.Header(&hdrMD), grpc.Trailer(&trailerMD))
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			schema, err := flight.DeserializeSchema(res.GetSchema(), f.getmem())
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if !testrecs[0].Schema().Equal(schema) {
-				t.Fatalf("schema not match: \ngot = %#v\nwant = %#v\n", schema, testrecs[0].Schema())
-			}
-
-			assert.Equal(t, []string{"bar"}, hdrMD.Get("foo"))
-			assert.Equal(t, []string{"duper"}, trailerMD.Get("super"))
-		})
-	}
-}
-
-type ClientTestSendHeaderMiddleware struct {
-	ctx context.Context
-	md  metadata.MD
-	mx  sync.Mutex
-}
-
-func (c *ClientTestSendHeaderMiddleware) StartCall(ctx context.Context) context.Context {
-	c.ctx = context.WithValue(metadata.AppendToOutgoingContext(ctx, "foo", "bar"), tracetestKey{}, "super")
-	return c.ctx
-}
-
-func (c *ClientTestSendHeaderMiddleware) CallCompleted(ctx context.Context, err error) {
-	val := ctx.Value(tracetestKey{}).(string)
-	if val != "super" {
-		panic("invalid context client middleware")
-	}
-}
-
-func (c *ClientTestSendHeaderMiddleware) HeadersReceived(ctx context.Context, md metadata.MD) {
-	val := ctx.Value(tracetestKey{}).(string)
-	if val != "super" {
-		panic("invalid context client middleware")
-	}
-
-	c.mx.Lock()
-	defer c.mx.Unlock()
-	c.md = md
-}
-
-func TestClientStreamMiddleware(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(&ServerExpectHeaderMiddleware{}),
-		flight.CreateServerMiddleware(&ServerMiddlewareAddHeader{}),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	middleware := &ClientTestSendHeaderMiddleware{}
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil, []flight.ClientMiddleware{
-		flight.CreateClientMiddleware(middleware),
-	}, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	require.NoError(t, err)
-	defer client.Close()
-
-	flightStream, err := client.ListFlights(context.Background(), &flight.Criteria{})
-	require.NoError(t, err)
-
-	for {
-		info, err := flightStream.Recv()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			assert.NoError(t, err)
-		}
-
-		fname := info.GetFlightDescriptor().GetPath()[0]
-		recs, ok := arrdata.Records[fname]
-		assert.True(t, ok)
-
-		sc, err := flight.DeserializeSchema(info.GetSchema(), f.mem)
-		assert.NoError(t, err)
-
-		assert.True(t, recs[0].Schema().Equal(sc))
-	}
-
-	middleware.mx.Lock()
-	defer middleware.mx.Unlock()
-	assert.Equal(t, []string{"bar"}, middleware.md.Get("foo"))
-	assert.Equal(t, []string{"duper"}, middleware.md.Get("super"))
-}
-
-func TestClientStreamMiddlewareWithError(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(&ServerMiddlewareAddHeaderError{}),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	middle := &ClientTestSendHeaderMiddleware{}
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil, []flight.ClientMiddleware{
-		flight.CreateClientMiddleware(middle),
-	}, grpc.WithTransportCredentials(insecure.NewCredentials()))
-
-	require.NoError(t, err)
-	defer client.Close()
-
-	// UseCompressor triggers a particular rare failure path.
-	_, err = client.DoGet(context.Background(), &flight.Ticket{Ticket: []byte("this flight does not exist")}, grpc.UseCompressor("foo"))
-	if err == nil {
-		t.Fatal("Expected error but got nothing")
-	}
-	assert.Contains(t, err.Error(), "Compressor is not installed")
-}
-
-func TestClientUnaryMiddleware(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(&ServerMiddlewareAddHeader{}),
-		flight.CreateServerMiddleware(ServerExpectHeaderMiddleware{}),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	middle := &ClientTestSendHeaderMiddleware{}
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil, []flight.ClientMiddleware{
-		flight.CreateClientMiddleware(middle),
-	}, grpc.WithTransportCredentials(insecure.NewCredentials()))
-
-	require.NoError(t, err)
-	defer client.Close()
-
-	for name, testrecs := range arrdata.Records {
-		t.Run("flight get schema: "+name, func(t *testing.T) {
-			res, err := client.GetSchema(context.Background(), &flight.FlightDescriptor{Path: []string{name}})
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			schema, err := flight.DeserializeSchema(res.GetSchema(), f.getmem())
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if !testrecs[0].Schema().Equal(schema) {
-				t.Fatalf("schema not match: \ngot = %#v\nwant = %#v\n", schema, testrecs[0].Schema())
-			}
-
-			assert.Equal(t, []string{"bar"}, middle.md.Get("foo"))
-			assert.Equal(t, []string{"duper"}, middle.md.Get("super"))
-
-			middle.md = metadata.MD{}
-		})
-	}
-}
-
-func TestClientUnaryMiddlewareWithError(t *testing.T) {
-	s := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(&ServerMiddlewareAddHeaderError{}),
-	})
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	middle := &ClientTestSendHeaderMiddleware{}
-	client, err := flight.NewClientWithMiddleware(s.Addr().String(), nil, []flight.ClientMiddleware{
-		flight.CreateClientMiddleware(middle),
-	}, grpc.WithTransportCredentials(insecure.NewCredentials()))
-
-	require.NoError(t, err)
-	defer client.Close()
-
-	_, err = client.GetSchema(context.Background(), &flight.FlightDescriptor{Path: []string{"this flight does not exist"}}, grpc.UseCompressor("foo"))
-	if err == nil {
-		t.Fatal("Expected error but got nothing")
-	}
-	assert.Contains(t, err.Error(), "Compressor is not installed")
-}
diff --git a/go/arrow/flight/flight_test.go b/go/arrow/flight/flight_test.go
deleted file mode 100755
index a03d839e9484d..0000000000000
--- a/go/arrow/flight/flight_test.go
+++ /dev/null
@@ -1,486 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_test
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"io"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/require"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/health"
-	"google.golang.org/grpc/health/grpc_health_v1"
-	"google.golang.org/grpc/reflection"
-	"google.golang.org/grpc/status"
-)
-
-type flightServer struct {
-	mem memory.Allocator
-	flight.BaseFlightServer
-}
-
-func (f *flightServer) getmem() memory.Allocator {
-	if f.mem == nil {
-		f.mem = memory.NewGoAllocator()
-	}
-
-	return f.mem
-}
-
-func (f *flightServer) ListFlights(c *flight.Criteria, fs flight.FlightService_ListFlightsServer) error {
-	expr := string(c.GetExpression())
-
-	auth := ""
-	authVal := flight.AuthFromContext(fs.Context())
-	if authVal != nil {
-		auth = authVal.(string)
-	}
-
-	for _, name := range arrdata.RecordNames {
-		if expr != "" && expr != name {
-			continue
-		}
-
-		recs := arrdata.Records[name]
-		totalRows := int64(0)
-		for _, r := range recs {
-			totalRows += r.NumRows()
-		}
-
-		fs.Send(&flight.FlightInfo{
-			Schema: flight.SerializeSchema(recs[0].Schema(), f.getmem()),
-			FlightDescriptor: &flight.FlightDescriptor{
-				Type: flight.DescriptorPATH,
-				Path: []string{name, auth},
-			},
-			TotalRecords: totalRows,
-			TotalBytes:   -1,
-		})
-	}
-
-	return nil
-}
-
-func (f *flightServer) GetSchema(_ context.Context, in *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	if in == nil {
-		return nil, status.Error(codes.InvalidArgument, "invalid flight descriptor")
-	}
-
-	recs, ok := arrdata.Records[in.Path[0]]
-	if !ok {
-		return nil, status.Error(codes.NotFound, "flight not found")
-	}
-
-	return &flight.SchemaResult{Schema: flight.SerializeSchema(recs[0].Schema(), f.getmem())}, nil
-}
-
-func (f *flightServer) DoGet(tkt *flight.Ticket, fs flight.FlightService_DoGetServer) error {
-	recs, ok := arrdata.Records[string(tkt.GetTicket())]
-	if !ok {
-		return status.Error(codes.NotFound, "flight not found")
-	}
-
-	w := flight.NewRecordWriter(fs, ipc.WithSchema(recs[0].Schema()))
-	for _, r := range recs {
-		w.Write(r)
-	}
-
-	return nil
-}
-
-type servAuth struct{}
-
-func (a *servAuth) Authenticate(c flight.AuthConn) error {
-	tok, err := c.Read()
-	if errors.Is(err, io.EOF) {
-		return nil
-	}
-
-	if string(tok) != "foobar" {
-		return errors.New("novalid")
-	}
-
-	if err != nil {
-		return err
-	}
-
-	return c.Send([]byte("baz"))
-}
-
-func (a *servAuth) IsValid(token string) (interface{}, error) {
-	if token == "baz" {
-		return "bar", nil
-	}
-	return "", errors.New("novalid")
-}
-
-type ctxauth struct{}
-
-type clientAuth struct{}
-
-func (a *clientAuth) Authenticate(ctx context.Context, c flight.AuthConn) error {
-	if err := c.Send(ctx.Value(ctxauth{}).([]byte)); err != nil {
-		return err
-	}
-
-	_, err := c.Read()
-	return err
-}
-
-func (a *clientAuth) GetToken(ctx context.Context) (string, error) {
-	return ctx.Value(ctxauth{}).(string), nil
-}
-
-func TestListFlights(t *testing.T) {
-	s := flight.NewFlightServer()
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Error(err)
-	}
-	defer client.Close()
-
-	flightStream, err := client.ListFlights(context.Background(), &flight.Criteria{})
-	if err != nil {
-		t.Error(err)
-	}
-
-	for {
-		info, err := flightStream.Recv()
-		if errors.Is(err, io.EOF) {
-			break
-		} else if err != nil {
-			t.Error(err)
-		}
-
-		fname := info.GetFlightDescriptor().GetPath()[0]
-		recs, ok := arrdata.Records[fname]
-		if !ok {
-			t.Fatalf("got unknown flight info: %s", fname)
-		}
-
-		sc, err := flight.DeserializeSchema(info.GetSchema(), f.mem)
-		if err != nil {
-			t.Fatal(err)
-		}
-
-		if !recs[0].Schema().Equal(sc) {
-			t.Fatalf("flight info schema transfer failed: \ngot = %#v\nwant = %#v\n", sc, recs[0].Schema())
-		}
-
-		var total int64 = 0
-		for _, r := range recs {
-			total += r.NumRows()
-		}
-
-		if info.TotalRecords != total {
-			t.Fatalf("got wrong number of total records: got = %d, wanted = %d", info.TotalRecords, total)
-		}
-	}
-}
-
-func TestGetSchema(t *testing.T) {
-	s := flight.NewFlightServer()
-	s.Init("localhost:0")
-	f := &flightServer{}
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Error(err)
-	}
-	defer client.Close()
-
-	for name, testrecs := range arrdata.Records {
-		t.Run("flight get schema: "+name, func(t *testing.T) {
-			res, err := client.GetSchema(context.Background(), &flight.FlightDescriptor{Path: []string{name}})
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			schema, err := flight.DeserializeSchema(res.GetSchema(), f.getmem())
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if !testrecs[0].Schema().Equal(schema) {
-				t.Fatalf("schema not match: \ngot = %#v\nwant = %#v\n", schema, testrecs[0].Schema())
-			}
-		})
-	}
-}
-
-func TestServer(t *testing.T) {
-	f := &flightServer{}
-	f.SetAuthHandler(&servAuth{})
-
-	s := flight.NewFlightServer()
-	s.Init("localhost:0")
-	s.RegisterFlightService(f)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), &clientAuth{}, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Error(err)
-	}
-	defer client.Close()
-
-	err = client.Authenticate(context.WithValue(context.Background(), ctxauth{}, []byte("foobar")))
-	if err != nil {
-		t.Error(err)
-	}
-
-	ctx := context.WithValue(context.Background(), ctxauth{}, "baz")
-
-	fistream, err := client.ListFlights(ctx, &flight.Criteria{Expression: []byte("decimal128")})
-	if err != nil {
-		t.Error(err)
-	}
-
-	fi, err := fistream.Recv()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	if len(fi.FlightDescriptor.GetPath()) != 2 || fi.FlightDescriptor.GetPath()[1] != "bar" {
-		t.Fatalf("path should have auth info: want %s got %s", "bar", fi.FlightDescriptor.GetPath()[1])
-	}
-
-	fdata, err := client.DoGet(ctx, &flight.Ticket{Ticket: []byte("decimal128")})
-	if err != nil {
-		t.Error(err)
-	}
-
-	r, err := flight.NewRecordReader(fdata)
-	if err != nil {
-		t.Error(err)
-	}
-
-	expected := arrdata.Records["decimal128"]
-	idx := 0
-	var numRows int64 = 0
-	for {
-		rec, err := r.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			t.Error(err)
-		}
-
-		numRows += rec.NumRows()
-		if !array.RecordEqual(expected[idx], rec) {
-			t.Errorf("flight data stream records don't match: \ngot = %#v\nwant = %#v", rec, expected[idx])
-		}
-		idx++
-	}
-
-	if numRows != fi.TotalRecords {
-		t.Fatalf("got %d, want %d", numRows, fi.TotalRecords)
-	}
-}
-
-func TestServerWithAdditionalServices(t *testing.T) {
-	f := &flightServer{}
-	f.SetAuthHandler(&servAuth{})
-
-	s := flight.NewFlightServer()
-	s.Init("localhost:0")
-	s.RegisterFlightService(f)
-
-	// Enable health check.
-	grpc_health_v1.RegisterHealthServer(s, health.NewServer())
-
-	// Enable reflection for grpcurl.
-	reflection.Register(s)
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	// Flight client should not be affected by the additional services.
-	flightClient, err := flight.NewFlightClient(s.Addr().String(), &clientAuth{}, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Error(err)
-	}
-	defer flightClient.Close()
-
-	// Make sure health check is working.
-	conn, err := grpc.Dial(s.Addr().String(), grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Error(err)
-	}
-	defer conn.Close()
-
-	healthClient := grpc_health_v1.NewHealthClient(conn)
-	_, err = healthClient.Check(context.Background(), &grpc_health_v1.HealthCheckRequest{})
-	if err != nil {
-		t.Error(err)
-	}
-}
-
-type flightMetadataWriterServer struct {
-	flight.BaseFlightServer
-}
-
-func (f *flightMetadataWriterServer) DoGet(tkt *flight.Ticket, fs flight.FlightService_DoGetServer) error {
-	recs := arrdata.Records[string(tkt.GetTicket())]
-
-	w := flight.NewRecordWriter(fs, ipc.WithSchema(recs[0].Schema()))
-	defer w.Close()
-	for idx, r := range recs {
-		w.WriteWithAppMetadata(r, []byte(fmt.Sprintf("%d_%s", idx, string(tkt.GetTicket()))) /*metadata*/)
-	}
-	return nil
-}
-
-func TestFlightWithAppMetadata(t *testing.T) {
-	f := &flightMetadataWriterServer{}
-	s := flight.NewFlightServer()
-	s.RegisterFlightService(f)
-	s.Init("localhost:0")
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer client.Close()
-
-	fdata, err := client.DoGet(context.Background(), &flight.Ticket{Ticket: []byte("primitives")})
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	r, err := flight.NewRecordReader(fdata)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	expected := arrdata.Records["primitives"]
-	idx := 0
-	for {
-		rec, err := r.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			t.Fatal(err)
-		}
-
-		appMeta := r.LatestAppMetadata()
-		if !array.RecordEqual(expected[idx], rec) {
-			t.Errorf("flight data stream records for idx: %d don't match: \ngot = %#v\nwant = %#v", idx, rec, expected[idx])
-		}
-
-		exMeta := fmt.Sprintf("%d_primitives", idx)
-		if string(appMeta) != exMeta {
-			t.Errorf("flight data stream application metadata mismatch: got: %v, want: %v\n", string(appMeta), exMeta)
-		}
-		idx++
-	}
-}
-
-type flightErrorReturn struct {
-	flight.BaseFlightServer
-}
-
-func (f *flightErrorReturn) DoGet(_ *flight.Ticket, _ flight.FlightService_DoGetServer) error {
-	return status.Error(codes.NotFound, "nofound")
-}
-
-func TestReaderError(t *testing.T) {
-	f := &flightErrorReturn{}
-	s := flight.NewFlightServer()
-	s.RegisterFlightService(f)
-	s.Init("localhost:0")
-
-	go s.Serve()
-	defer s.Shutdown()
-
-	client, err := flight.NewFlightClient(s.Addr().String(), nil, grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer client.Close()
-
-	fdata, err := client.DoGet(context.Background(), &flight.Ticket{})
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	_, err = flight.NewRecordReader(fdata)
-	if err == nil {
-		t.Fatal("should have errored")
-	}
-}
-
-func TestWriterInferSchema(t *testing.T) {
-	recs, ok := arrdata.Records["primitives"]
-	require.True(t, ok)
-
-	fs := flightStreamWriter{}
-	w := flight.NewRecordWriter(&fs)
-
-	for _, rec := range recs {
-		require.NoError(t, w.Write(rec))
-	}
-
-	require.NoError(t, w.Close())
-}
-
-func TestWriterInconsistentSchema(t *testing.T) {
-	recs, ok := arrdata.Records["primitives"]
-	require.True(t, ok)
-
-	schema := arrow.NewSchema([]arrow.Field{{Name: "unknown", Type: arrow.PrimitiveTypes.Int8}}, nil)
-	fs := flightStreamWriter{}
-	w := flight.NewRecordWriter(&fs, ipc.WithSchema(schema))
-
-	require.ErrorContains(t, w.Write(recs[0]), "arrow/ipc: tried to write record batch with different schema")
-	require.NoError(t, w.Close())
-}
-
-type flightStreamWriter struct{}
-
-// Send implements flight.DataStreamWriter.
-func (f *flightStreamWriter) Send(data *flight.FlightData) error { return nil }
-
-var _ flight.DataStreamWriter = (*flightStreamWriter)(nil)
diff --git a/go/arrow/flight/flightsql/client.go b/go/arrow/flight/flightsql/client.go
deleted file mode 100644
index 4c9dc50135108..0000000000000
--- a/go/arrow/flight/flightsql/client.go
+++ /dev/null
@@ -1,1436 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	pb "github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"google.golang.org/grpc"
-	"google.golang.org/protobuf/proto"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-// NewClient is a convenience function to automatically construct
-// a flight.Client and return a flightsql.Client containing it rather
-// than having to manually construct both yourself. It just delegates
-// its arguments to flight.NewClientWithMiddleware to create the
-// underlying Flight Client.
-func NewClient(addr string, auth flight.ClientAuthHandler, middleware []flight.ClientMiddleware, opts ...grpc.DialOption) (*Client, error) {
-	return NewClientCtx(context.Background(), addr, auth, middleware, opts...)
-}
-
-func NewClientCtx(ctx context.Context, addr string, auth flight.ClientAuthHandler, middleware []flight.ClientMiddleware, opts ...grpc.DialOption) (*Client, error) {
-	cl, err := flight.NewClientWithMiddlewareCtx(ctx, addr, auth, middleware, opts...)
-	if err != nil {
-		return nil, err
-	}
-	return &Client{cl, memory.DefaultAllocator}, nil
-}
-
-// Client wraps a regular Flight RPC Client to provide the FlightSQL
-// interface functions and methods.
-type Client struct {
-	Client flight.Client
-
-	Alloc memory.Allocator
-}
-
-func descForCommand(cmd proto.Message) (*flight.FlightDescriptor, error) {
-	var any anypb.Any
-	if err := any.MarshalFrom(cmd); err != nil {
-		return nil, err
-	}
-
-	data, err := proto.Marshal(&any)
-	if err != nil {
-		return nil, err
-	}
-	return &flight.FlightDescriptor{
-		Type: flight.DescriptorCMD,
-		Cmd:  data,
-	}, nil
-}
-
-func flightInfoForCommand(ctx context.Context, cl *Client, cmd proto.Message, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	desc, err := descForCommand(cmd)
-	if err != nil {
-		return nil, err
-	}
-	return cl.getFlightInfo(ctx, desc, opts...)
-}
-
-func pollInfoForCommand(ctx context.Context, cl *Client, cmd proto.Message, retryDescriptor *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	if retryDescriptor != nil {
-		return cl.Client.PollFlightInfo(ctx, retryDescriptor, opts...)
-	}
-	desc, err := descForCommand(cmd)
-	if err != nil {
-		return nil, err
-	}
-	return cl.Client.PollFlightInfo(ctx, desc, opts...)
-}
-
-func schemaForCommand(ctx context.Context, cl *Client, cmd proto.Message, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	desc, err := descForCommand(cmd)
-	if err != nil {
-		return nil, err
-	}
-	return cl.getSchema(ctx, desc, opts...)
-}
-
-func packAction(actionType string, msg proto.Message) (action pb.Action, err error) {
-	var cmd anypb.Any
-
-	if err = cmd.MarshalFrom(msg); err != nil {
-		return
-	}
-	action.Type = actionType
-	action.Body, err = proto.Marshal(&cmd)
-	return
-}
-
-func readResult(stream pb.FlightService_DoActionClient, msg proto.Message) error {
-	var container anypb.Any
-
-	res, err := stream.Recv()
-	if err != nil {
-		return err
-	}
-
-	if err = proto.Unmarshal(res.Body, &container); err != nil {
-		return err
-	}
-
-	return container.UnmarshalTo(msg)
-}
-
-// Execute executes the desired query on the server and returns a FlightInfo
-// object describing where to retrieve the results.
-func (c *Client) Execute(ctx context.Context, query string, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := pb.CommandStatementQuery{Query: query}
-	return flightInfoForCommand(ctx, c, &cmd, opts...)
-}
-
-// ExecutePoll idempotently starts execution of a query/checks for completion.
-// To check for completion, pass the FlightDescriptor from the previous call
-// to ExecutePoll as the retryDescriptor.
-func (c *Client) ExecutePoll(ctx context.Context, query string, retryDescriptor *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	cmd := pb.CommandStatementQuery{Query: query}
-	return pollInfoForCommand(ctx, c, &cmd, retryDescriptor, opts...)
-}
-
-// GetExecuteSchema gets the schema of the result set of a query without
-// executing the query itself.
-func (c *Client) GetExecuteSchema(ctx context.Context, query string, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	cmd := pb.CommandStatementQuery{Query: query}
-	return schemaForCommand(ctx, c, &cmd, opts...)
-}
-
-func (c *Client) ExecuteSubstrait(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := pb.CommandStatementSubstraitPlan{
-		Plan: &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version}}
-	return flightInfoForCommand(ctx, c, &cmd, opts...)
-}
-
-func (c *Client) ExecuteSubstraitPoll(ctx context.Context, plan SubstraitPlan, retryDescriptor *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	cmd := pb.CommandStatementSubstraitPlan{
-		Plan: &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version}}
-	return pollInfoForCommand(ctx, c, &cmd, retryDescriptor, opts...)
-}
-
-func (c *Client) GetExecuteSubstraitSchema(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	cmd := pb.CommandStatementSubstraitPlan{
-		Plan: &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version}}
-	return schemaForCommand(ctx, c, &cmd, opts...)
-}
-
-// ExecuteUpdate is for executing an update query and only returns the number of affected rows.
-func (c *Client) ExecuteUpdate(ctx context.Context, query string, opts ...grpc.CallOption) (n int64, err error) {
-	var (
-		cmd          pb.CommandStatementUpdate
-		desc         *flight.FlightDescriptor
-		stream       pb.FlightService_DoPutClient
-		res          *pb.PutResult
-		updateResult pb.DoPutUpdateResult
-	)
-
-	cmd.Query = query
-	if desc, err = descForCommand(&cmd); err != nil {
-		return
-	}
-
-	if stream, err = c.Client.DoPut(ctx, opts...); err != nil {
-		return
-	}
-
-	if err = stream.Send(&flight.FlightData{FlightDescriptor: desc}); err != nil {
-		return
-	}
-
-	if err = stream.CloseSend(); err != nil {
-		return
-	}
-
-	if res, err = stream.Recv(); err != nil {
-		return
-	}
-
-	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
-		return
-	}
-
-	return updateResult.GetRecordCount(), nil
-}
-
-func (c *Client) ExecuteSubstraitUpdate(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (n int64, err error) {
-	var (
-		desc         *flight.FlightDescriptor
-		stream       pb.FlightService_DoPutClient
-		res          *pb.PutResult
-		updateResult pb.DoPutUpdateResult
-	)
-
-	cmd := pb.CommandStatementSubstraitPlan{
-		Plan: &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version}}
-
-	if desc, err = descForCommand(&cmd); err != nil {
-		return
-	}
-
-	if stream, err = c.Client.DoPut(ctx, opts...); err != nil {
-		return
-	}
-
-	if err = stream.Send(&flight.FlightData{FlightDescriptor: desc}); err != nil {
-		return
-	}
-
-	if err = stream.CloseSend(); err != nil {
-		return
-	}
-
-	if res, err = stream.Recv(); err != nil {
-		return
-	}
-
-	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
-		return
-	}
-
-	return updateResult.GetRecordCount(), nil
-}
-
-// ExecuteIngest is for executing a bulk ingestion and only returns the number of affected rows.
-// The provided RecordReader will be retained for the duration of the call, but it is the caller's
-// responsibility to release the original reference.
-func (c *Client) ExecuteIngest(ctx context.Context, rdr array.RecordReader, reqOptions *ExecuteIngestOpts, opts ...grpc.CallOption) (int64, error) {
-	var (
-		err          error
-		desc         *flight.FlightDescriptor
-		stream       pb.FlightService_DoPutClient
-		wr           *flight.Writer
-		res          *pb.PutResult
-		updateResult pb.DoPutUpdateResult
-	)
-
-	cmd := (*pb.CommandStatementIngest)(reqOptions)
-
-	// Servers cannot infer defaults for these parameters, so we validate the request to ensure they are set.
-	if cmd.GetTableDefinitionOptions() == nil {
-		return 0, fmt.Errorf("cannot ExecuteIngest: invalid ExecuteIngestOpts, TableDefinitionOptions is required")
-	}
-	if cmd.GetTable() == "" {
-		return 0, fmt.Errorf("cannot ExecuteIngest: invalid ExecuteIngestOpts, Table is required")
-	}
-
-	if desc, err = descForCommand(cmd); err != nil {
-		return 0, err
-	}
-
-	if stream, err = c.Client.DoPut(ctx, opts...); err != nil {
-		return 0, err
-	}
-
-	wr = flight.NewRecordWriter(stream, ipc.WithAllocator(c.Alloc), ipc.WithSchema(rdr.Schema()))
-	defer wr.Close()
-
-	wr.SetFlightDescriptor(desc)
-
-	for rdr.Next() {
-		rec := rdr.Record()
-		err = wr.Write(rec)
-		if err == io.EOF {
-			// gRPC returns io.EOF if the error was generated by the server.
-			// The specific error will be retrieved in the server response.
-			// ref: https://pkg.go.dev/google.golang.org/grpc#ClientStream
-			break
-		}
-		if err != nil {
-			return 0, err
-		}
-	}
-
-	if err = rdr.Err(); err != nil {
-		return 0, err
-	}
-
-	if err = stream.CloseSend(); err != nil {
-		return 0, err
-	}
-
-	if res, err = stream.Recv(); err != nil {
-		return 0, err
-	}
-
-	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
-		return 0, err
-	}
-
-	// Drain the stream. If ingestion was successful, no more messages should arrive.
-	// If there was a failure, the next message contains the error and the DoPutUpdateResult
-	// we recieved indicates a partial ingestion if the RecordCount is non-zero.
-	for {
-		_, err := stream.Recv()
-		if err == io.EOF {
-			return updateResult.GetRecordCount(), nil
-		} else if err != nil {
-			return updateResult.GetRecordCount(), err
-		}
-	}
-}
-
-// GetCatalogs requests the list of catalogs from the server and
-// returns a flightInfo object where the response can be retrieved
-func (c *Client) GetCatalogs(ctx context.Context, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	return flightInfoForCommand(ctx, c, &pb.CommandGetCatalogs{}, opts...)
-}
-
-// GetCatalogsSchema requests the schema of GetCatalogs from the server
-func (c *Client) GetCatalogsSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetCatalogs{}, opts...)
-}
-
-// GetDBSchemas requests the list of schemas from the database and
-// returns a FlightInfo object where the response can be retrieved
-func (c *Client) GetDBSchemas(ctx context.Context, cmdOpts *GetDBSchemasOpts, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	return flightInfoForCommand(ctx, c, (*pb.CommandGetDbSchemas)(cmdOpts), opts...)
-}
-
-// GetDBSchemasSchema requests the schema of GetDBSchemas from the server
-func (c *Client) GetDBSchemasSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetDbSchemas{}, opts...)
-}
-
-// DoGet uses the provided flight ticket to request the stream of data.
-// It returns a recordbatch reader to stream the results. Release
-// should be called on the reader when done.
-func (c *Client) DoGet(ctx context.Context, in *flight.Ticket, opts ...grpc.CallOption) (*flight.Reader, error) {
-	stream, err := c.Client.DoGet(ctx, in, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	return flight.NewRecordReader(stream, ipc.WithAllocator(c.Alloc))
-}
-
-// GetTables requests a list of tables from the server, with the provided
-// options describing how to make the request (filter patterns, if the schema
-// should be returned, etc.). Returns a FlightInfo object where the response
-// can be retrieved.
-func (c *Client) GetTables(ctx context.Context, reqOptions *GetTablesOpts, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	return flightInfoForCommand(ctx, c, (*pb.CommandGetTables)(reqOptions), opts...)
-}
-
-// GetTablesSchema requests the schema of GetTables from the server.
-func (c *Client) GetTablesSchema(ctx context.Context, reqOptions *GetTablesOpts, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, (*pb.CommandGetTables)(reqOptions), opts...)
-}
-
-// GetPrimaryKeys requests the primary keys for a specific table from the
-// server, specified using a TableRef. Returns a FlightInfo object where
-// the response can be retrieved.
-func (c *Client) GetPrimaryKeys(ctx context.Context, ref TableRef, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := pb.CommandGetPrimaryKeys{
-		Catalog:  ref.Catalog,
-		DbSchema: ref.DBSchema,
-		Table:    ref.Table,
-	}
-	return flightInfoForCommand(ctx, c, &cmd, opts...)
-}
-
-// GetPrimaryKeysSchema requests the schema of GetPrimaryKeys from the server.
-func (c *Client) GetPrimaryKeysSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetPrimaryKeys{}, opts...)
-}
-
-// GetExportedKeys retrieves a description about the foreign key columns
-// that reference the primary key columns of the specified table. Returns
-// a FlightInfo object where the response can be retrieved.
-func (c *Client) GetExportedKeys(ctx context.Context, ref TableRef, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := pb.CommandGetExportedKeys{
-		Catalog:  ref.Catalog,
-		DbSchema: ref.DBSchema,
-		Table:    ref.Table,
-	}
-	return flightInfoForCommand(ctx, c, &cmd, opts...)
-}
-
-// GetExportedKeysSchema requests the schema of GetExportedKeys from the server.
-func (c *Client) GetExportedKeysSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetExportedKeys{}, opts...)
-}
-
-// GetImportedKeys returns the foreign key columns for the specified table.
-// Returns a FlightInfo object indicating where the response can be retrieved.
-func (c *Client) GetImportedKeys(ctx context.Context, ref TableRef, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := pb.CommandGetImportedKeys{
-		Catalog:  ref.Catalog,
-		DbSchema: ref.DBSchema,
-		Table:    ref.Table,
-	}
-	return flightInfoForCommand(ctx, c, &cmd, opts...)
-}
-
-// GetImportedKeysSchema requests the schema of GetImportedKeys from the server.
-func (c *Client) GetImportedKeysSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetImportedKeys{}, opts...)
-}
-
-// GetCrossReference retrieves a description of the foreign key columns
-// in the specified ForeignKey table that reference the primary key or
-// columns representing a restraint of the parent table (could be the same
-// or a different table). Returns a FlightInfo object indicating where
-// the response can be retrieved with DoGet.
-func (c *Client) GetCrossReference(ctx context.Context, pkTable, fkTable TableRef, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := pb.CommandGetCrossReference{
-		PkCatalog:  pkTable.Catalog,
-		PkDbSchema: pkTable.DBSchema,
-		PkTable:    pkTable.Table,
-		FkCatalog:  fkTable.Catalog,
-		FkDbSchema: fkTable.DBSchema,
-		FkTable:    fkTable.Table,
-	}
-	return flightInfoForCommand(ctx, c, &cmd, opts...)
-}
-
-// GetCrossReferenceSchema requests the schema of GetCrossReference from the server.
-func (c *Client) GetCrossReferenceSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetCrossReference{}, opts...)
-}
-
-// GetTableTypes requests a list of the types of tables available on this
-// server. Returns a FlightInfo object indicating where the response can
-// be retrieved.
-func (c *Client) GetTableTypes(ctx context.Context, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	return flightInfoForCommand(ctx, c, &pb.CommandGetTableTypes{}, opts...)
-}
-
-// GetTableTypesSchema requests the schema of GetTableTypes from the server.
-func (c *Client) GetTableTypesSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetTableTypes{}, opts...)
-}
-
-// GetXdbcTypeInfo requests the information about all the data types supported
-// (dataType == nil) or a specific data type. Returns a FlightInfo object
-// indicating where the response can be retrieved.
-func (c *Client) GetXdbcTypeInfo(ctx context.Context, dataType *int32, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	return flightInfoForCommand(ctx, c, &pb.CommandGetXdbcTypeInfo{DataType: dataType}, opts...)
-}
-
-// GetXdbcTypeInfoSchema requests the schema of GetXdbcTypeInfo from the server.
-func (c *Client) GetXdbcTypeInfoSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetXdbcTypeInfo{}, opts...)
-}
-
-// GetSqlInfo returns a list of the requested SQL information corresponding
-// to the values in the info slice. Returns a FlightInfo object indicating
-// where the response can be retrieved.
-func (c *Client) GetSqlInfo(ctx context.Context, info []SqlInfo, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	cmd := &pb.CommandGetSqlInfo{Info: make([]uint32, len(info))}
-
-	for i, v := range info {
-		cmd.Info[i] = uint32(v)
-	}
-	return flightInfoForCommand(ctx, c, cmd, opts...)
-}
-
-// GetSqlInfoSchema requests the schema of  GetSqlInfo from the server.
-func (c *Client) GetSqlInfoSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return schemaForCommand(ctx, c, &pb.CommandGetSqlInfo{}, opts...)
-}
-
-// Prepare creates a PreparedStatement object for the specified query.
-// The resulting PreparedStatement object should be Closed when no longer
-// needed. It will maintain a reference to this Client for use to execute
-// and use the specified allocator for any allocations it needs to perform.
-func (c *Client) Prepare(ctx context.Context, query string, opts ...grpc.CallOption) (prep *PreparedStatement, err error) {
-	const actionType = CreatePreparedStatementActionType
-
-	var (
-		request pb.ActionCreatePreparedStatementRequest
-		action  pb.Action
-		stream  pb.FlightService_DoActionClient
-	)
-
-	request.Query = query
-	if action, err = packAction(actionType, &request); err != nil {
-		return
-	}
-
-	if stream, err = c.Client.DoAction(ctx, &action, opts...); err != nil {
-		return
-	}
-	return parsePreparedStatementResponse(c, c.Alloc, stream)
-}
-
-func (c *Client) PrepareSubstrait(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (stmt *PreparedStatement, err error) {
-	const actionType = CreatePreparedSubstraitPlanActionType
-
-	var (
-		request pb.ActionCreatePreparedSubstraitPlanRequest
-		action  pb.Action
-		stream  pb.FlightService_DoActionClient
-	)
-
-	request.Plan = &pb.SubstraitPlan{
-		Plan:    plan.Plan,
-		Version: plan.Version,
-	}
-	if action, err = packAction(actionType, &request); err != nil {
-		return
-	}
-
-	if stream, err = c.Client.DoAction(ctx, &action, opts...); err != nil {
-		return
-	}
-	return parsePreparedStatementResponse(c, c.Alloc, stream)
-}
-
-func (c *Client) LoadPreparedStatementFromResult(result *CreatePreparedStatementResult) (*PreparedStatement, error) {
-	var (
-		err                   error
-		dsSchema, paramSchema *arrow.Schema
-	)
-	if result.DatasetSchema != nil {
-		dsSchema, err = flight.DeserializeSchema(result.DatasetSchema, c.Alloc)
-		if err != nil {
-			return nil, err
-		}
-	}
-	if result.ParameterSchema != nil {
-		paramSchema, err = flight.DeserializeSchema(result.ParameterSchema, c.Alloc)
-		if err != nil {
-			return nil, err
-		}
-	}
-	return &PreparedStatement{
-		client:        c,
-		handle:        result.PreparedStatementHandle,
-		datasetSchema: dsSchema,
-		paramSchema:   paramSchema,
-	}, nil
-}
-
-func parsePreparedStatementResponse(c *Client, mem memory.Allocator, results pb.FlightService_DoActionClient) (*PreparedStatement, error) {
-	if err := results.CloseSend(); err != nil {
-		return nil, err
-	}
-
-	res, err := results.Recv()
-	if err != nil {
-		return nil, err
-	}
-
-	var (
-		container             anypb.Any
-		message               pb.ActionCreatePreparedStatementResult
-		dsSchema, paramSchema *arrow.Schema
-	)
-	if err = proto.Unmarshal(res.Body, &container); err != nil {
-		return nil, err
-	}
-
-	if err = container.UnmarshalTo(&message); err != nil {
-		return nil, err
-	}
-
-	if message.DatasetSchema != nil {
-		dsSchema, err = flight.DeserializeSchema(message.DatasetSchema, mem)
-		if err != nil {
-			return nil, err
-		}
-	}
-	if message.ParameterSchema != nil {
-		paramSchema, err = flight.DeserializeSchema(message.ParameterSchema, mem)
-		if err != nil {
-			return nil, err
-		}
-	}
-
-	// XXX: assuming server will not return a result and then an error
-	// (or else we need to also try to clean up the statement)
-	if err = flight.ReadUntilEOF(results); err != nil {
-		return nil, err
-	}
-
-	return &PreparedStatement{
-		client:        c,
-		handle:        message.PreparedStatementHandle,
-		datasetSchema: dsSchema,
-		paramSchema:   paramSchema,
-	}, nil
-}
-
-func (c *Client) getFlightInfo(ctx context.Context, desc *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	return c.Client.GetFlightInfo(ctx, desc, opts...)
-}
-
-func (c *Client) getSchema(ctx context.Context, desc *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	return c.Client.GetSchema(ctx, desc, opts...)
-}
-
-// Close will close the underlying flight Client in use by this flightsql.Client
-func (c *Client) Close() error { return c.Client.Close() }
-
-// Deprecated: In 13.0.0. Use CancelFlightInfo instead if you can
-// assume that server requires 13.0.0 or later. Otherwise, you may
-// need to use CancelQuery and/or CancelFlightInfo.
-func (c *Client) CancelQuery(ctx context.Context, info *flight.FlightInfo, opts ...grpc.CallOption) (cancelResult CancelResult, err error) {
-	const actionType = CancelQueryActionType
-
-	var (
-		req       pb.ActionCancelQueryRequest
-		result    pb.ActionCancelQueryResult
-		action    pb.Action
-		stream    pb.FlightService_DoActionClient
-		cmdResult anypb.Any
-		res       *pb.Result
-	)
-
-	if req.Info, err = proto.Marshal(info); err != nil {
-		return
-	}
-
-	if action, err = packAction(actionType, &req); err != nil {
-		return
-	}
-
-	if stream, err = c.Client.DoAction(ctx, &action, opts...); err != nil {
-		return
-	}
-	defer stream.CloseSend()
-
-	if res, err = stream.Recv(); err != nil {
-		return
-	}
-
-	if err = flight.ReadUntilEOF(stream); err != nil {
-		return
-	}
-
-	if err = proto.Unmarshal(res.Body, &cmdResult); err != nil {
-		return
-	}
-
-	if err = cmdResult.UnmarshalTo(&result); err != nil {
-		return
-	}
-
-	cancelResult = result.GetResult()
-	return
-}
-
-func (c *Client) CancelFlightInfo(ctx context.Context, request *flight.CancelFlightInfoRequest, opts ...grpc.CallOption) (*flight.CancelFlightInfoResult, error) {
-	return c.Client.CancelFlightInfo(ctx, request, opts...)
-}
-
-func (c *Client) RenewFlightEndpoint(ctx context.Context, request *flight.RenewFlightEndpointRequest, opts ...grpc.CallOption) (*flight.FlightEndpoint, error) {
-	return c.Client.RenewFlightEndpoint(ctx, request, opts...)
-}
-
-func (c *Client) SetSessionOptions(ctx context.Context, request *flight.SetSessionOptionsRequest, opts ...grpc.CallOption) (*flight.SetSessionOptionsResult, error) {
-	return c.Client.SetSessionOptions(ctx, request, opts...)
-}
-
-func (c *Client) GetSessionOptions(ctx context.Context, request *flight.GetSessionOptionsRequest, opts ...grpc.CallOption) (*flight.GetSessionOptionsResult, error) {
-	return c.Client.GetSessionOptions(ctx, request, opts...)
-}
-
-func (c *Client) CloseSession(ctx context.Context, request *flight.CloseSessionRequest, opts ...grpc.CallOption) (*flight.CloseSessionResult, error) {
-	return c.Client.CloseSession(ctx, request, opts...)
-}
-
-func (c *Client) BeginTransaction(ctx context.Context, opts ...grpc.CallOption) (*Txn, error) {
-	request := &pb.ActionBeginTransactionRequest{}
-	action, err := packAction(BeginTransactionActionType, request)
-	if err != nil {
-		return nil, err
-	}
-
-	stream, err := c.Client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	if err := stream.CloseSend(); err != nil {
-		return nil, err
-	}
-
-	var txn pb.ActionBeginTransactionResult
-	if err = readResult(stream, &txn); err != nil {
-		return nil, err
-	}
-
-	if err = flight.ReadUntilEOF(stream); err != nil {
-		return nil, err
-	}
-
-	if len(txn.TransactionId) == 0 {
-		return nil, ErrBadServerTxn
-	}
-
-	return &Txn{c: c, txn: txn.TransactionId}, nil
-}
-
-// Savepoint is a handle for a server-side savepoint
-type Savepoint []byte
-
-func (sp Savepoint) IsValid() bool { return len(sp) != 0 }
-
-// Transaction is a handle for a server-side transaction
-type Transaction []byte
-
-func (tx Transaction) IsValid() bool { return len(tx) != 0 }
-
-var (
-	ErrInvalidTxn         = fmt.Errorf("%w: missing a valid transaction", arrow.ErrInvalid)
-	ErrInvalidSavepoint   = fmt.Errorf("%w: missing a valid savepoint", arrow.ErrInvalid)
-	ErrBadServerTxn       = fmt.Errorf("%w: server returned an empty transaction ID", arrow.ErrInvalid)
-	ErrBadServerSavepoint = fmt.Errorf("%w: server returned an empty savepoint ID", arrow.ErrInvalid)
-)
-
-type Txn struct {
-	c   *Client
-	txn Transaction
-}
-
-func (tx *Txn) ID() Transaction { return tx.txn }
-
-func (tx *Txn) Execute(ctx context.Context, query string, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-	cmd := &pb.CommandStatementQuery{Query: query, TransactionId: tx.txn}
-	return flightInfoForCommand(ctx, tx.c, cmd, opts...)
-}
-
-func (tx *Txn) ExecutePoll(ctx context.Context, query string, retryDescriptor *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-	// The server should encode the transaction into the retry descriptor
-	cmd := &pb.CommandStatementQuery{Query: query, TransactionId: tx.txn}
-	return pollInfoForCommand(ctx, tx.c, cmd, retryDescriptor, opts...)
-}
-
-func (tx *Txn) ExecuteSubstrait(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-	cmd := &pb.CommandStatementSubstraitPlan{
-		Plan:          &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version},
-		TransactionId: tx.txn}
-	return flightInfoForCommand(ctx, tx.c, cmd, opts...)
-}
-
-func (tx *Txn) ExecuteSubstraitPoll(ctx context.Context, plan SubstraitPlan, retryDescriptor *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-	// The server should encode the transaction into the retry descriptor
-	cmd := &pb.CommandStatementSubstraitPlan{
-		Plan:          &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version},
-		TransactionId: tx.txn,
-	}
-	return pollInfoForCommand(ctx, tx.c, cmd, retryDescriptor, opts...)
-}
-
-func (tx *Txn) GetExecuteSchema(ctx context.Context, query string, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-	cmd := &pb.CommandStatementQuery{Query: query, TransactionId: tx.txn}
-	return schemaForCommand(ctx, tx.c, cmd, opts...)
-}
-
-func (tx *Txn) GetExecuteSubstraitSchema(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-	cmd := &pb.CommandStatementSubstraitPlan{
-		Plan:          &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version},
-		TransactionId: tx.txn}
-	return schemaForCommand(ctx, tx.c, cmd, opts...)
-}
-
-func (tx *Txn) ExecuteUpdate(ctx context.Context, query string, opts ...grpc.CallOption) (n int64, err error) {
-	if !tx.txn.IsValid() {
-		return 0, ErrInvalidTxn
-	}
-
-	var (
-		cmd = &pb.CommandStatementUpdate{
-			Query:         query,
-			TransactionId: tx.txn,
-		}
-		desc         *flight.FlightDescriptor
-		stream       pb.FlightService_DoPutClient
-		res          *pb.PutResult
-		updateResult pb.DoPutUpdateResult
-	)
-	if desc, err = descForCommand(cmd); err != nil {
-		return
-	}
-
-	if stream, err = tx.c.Client.DoPut(ctx, opts...); err != nil {
-		return
-	}
-
-	if err = stream.Send(&flight.FlightData{FlightDescriptor: desc}); err != nil {
-		return
-	}
-
-	if err = stream.CloseSend(); err != nil {
-		return
-	}
-
-	if res, err = stream.Recv(); err != nil {
-		return
-	}
-
-	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
-		return
-	}
-
-	return updateResult.GetRecordCount(), nil
-}
-
-func (tx *Txn) ExecuteSubstraitUpdate(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (n int64, err error) {
-	if !tx.txn.IsValid() {
-		return 0, ErrInvalidTxn
-	}
-
-	var (
-		desc         *flight.FlightDescriptor
-		stream       pb.FlightService_DoPutClient
-		res          *pb.PutResult
-		updateResult pb.DoPutUpdateResult
-	)
-
-	cmd := pb.CommandStatementSubstraitPlan{
-		Plan:          &pb.SubstraitPlan{Plan: plan.Plan, Version: plan.Version},
-		TransactionId: tx.txn,
-	}
-
-	if desc, err = descForCommand(&cmd); err != nil {
-		return
-	}
-
-	if stream, err = tx.c.Client.DoPut(ctx, opts...); err != nil {
-		return
-	}
-
-	if err = stream.Send(&flight.FlightData{FlightDescriptor: desc}); err != nil {
-		return
-	}
-
-	if err = stream.CloseSend(); err != nil {
-		return
-	}
-
-	if res, err = stream.Recv(); err != nil {
-		return
-	}
-
-	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
-		return
-	}
-
-	return updateResult.GetRecordCount(), nil
-}
-
-func (tx *Txn) Prepare(ctx context.Context, query string, opts ...grpc.CallOption) (prep *PreparedStatement, err error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-
-	const actionType = CreatePreparedStatementActionType
-
-	var (
-		request = pb.ActionCreatePreparedStatementRequest{
-			Query:         query,
-			TransactionId: tx.txn,
-		}
-		action pb.Action
-		stream pb.FlightService_DoActionClient
-	)
-
-	if action, err = packAction(actionType, &request); err != nil {
-		return
-	}
-
-	if stream, err = tx.c.Client.DoAction(ctx, &action, opts...); err != nil {
-		return
-	}
-	return parsePreparedStatementResponse(tx.c, tx.c.Alloc, stream)
-}
-
-func (tx *Txn) PrepareSubstrait(ctx context.Context, plan SubstraitPlan, opts ...grpc.CallOption) (stmt *PreparedStatement, err error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-
-	const actionType = CreatePreparedSubstraitPlanActionType
-
-	var (
-		request = pb.ActionCreatePreparedSubstraitPlanRequest{
-			TransactionId: tx.txn,
-			Plan: &pb.SubstraitPlan{
-				Plan:    plan.Plan,
-				Version: plan.Version,
-			},
-		}
-		action pb.Action
-		stream pb.FlightService_DoActionClient
-	)
-
-	if action, err = packAction(actionType, &request); err != nil {
-		return
-	}
-
-	if stream, err = tx.c.Client.DoAction(ctx, &action, opts...); err != nil {
-		return
-	}
-	return parsePreparedStatementResponse(tx.c, tx.c.Alloc, stream)
-}
-
-func (tx *Txn) Commit(ctx context.Context, opts ...grpc.CallOption) error {
-	if !tx.txn.IsValid() {
-		return ErrInvalidTxn
-	}
-
-	request := &pb.ActionEndTransactionRequest{
-		TransactionId: tx.txn,
-		Action:        EndTransactionCommit,
-	}
-
-	action, err := packAction(EndTransactionActionType, request)
-	if err != nil {
-		return err
-	}
-
-	stream, err := tx.c.Client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return err
-	}
-
-	if err := stream.CloseSend(); err != nil {
-		return err
-	}
-
-	tx.txn = nil
-	return flight.ReadUntilEOF(stream)
-}
-
-func (tx *Txn) Rollback(ctx context.Context, opts ...grpc.CallOption) error {
-	if !tx.txn.IsValid() {
-		return ErrInvalidTxn
-	}
-
-	request := &pb.ActionEndTransactionRequest{
-		TransactionId: tx.txn,
-		Action:        EndTransactionRollback,
-	}
-
-	action, err := packAction(EndTransactionActionType, request)
-	if err != nil {
-		return err
-	}
-
-	stream, err := tx.c.Client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return err
-	}
-
-	if err := stream.CloseSend(); err != nil {
-		return err
-	}
-
-	tx.txn = nil
-	return flight.ReadUntilEOF(stream)
-}
-
-func (tx *Txn) BeginSavepoint(ctx context.Context, name string, opts ...grpc.CallOption) (Savepoint, error) {
-	if !tx.txn.IsValid() {
-		return nil, ErrInvalidTxn
-	}
-
-	request := &pb.ActionBeginSavepointRequest{
-		TransactionId: tx.txn,
-		Name:          name,
-	}
-
-	action, err := packAction(BeginSavepointActionType, request)
-	if err != nil {
-		return nil, err
-	}
-
-	stream, err := tx.c.Client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return nil, err
-	}
-
-	if err := stream.CloseSend(); err != nil {
-		return nil, err
-	}
-
-	var savepoint pb.ActionBeginSavepointResult
-	if err = readResult(stream, &savepoint); err != nil {
-		return nil, err
-	}
-
-	if err = flight.ReadUntilEOF(stream); err != nil {
-		return nil, err
-	}
-
-	if len(savepoint.SavepointId) == 0 {
-		return nil, ErrBadServerSavepoint
-	}
-
-	return Savepoint(savepoint.SavepointId), nil
-}
-
-func (tx *Txn) ReleaseSavepoint(ctx context.Context, sp Savepoint, opts ...grpc.CallOption) error {
-	if !sp.IsValid() {
-		return ErrInvalidSavepoint
-	}
-
-	request := &pb.ActionEndSavepointRequest{
-		SavepointId: sp,
-		Action:      EndSavepointRelease,
-	}
-
-	action, err := packAction(EndSavepointActionType, request)
-	if err != nil {
-		return err
-	}
-
-	stream, err := tx.c.Client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return err
-	}
-
-	if err := stream.CloseSend(); err != nil {
-		return err
-	}
-	return flight.ReadUntilEOF(stream)
-}
-
-func (tx *Txn) RollbackSavepoint(ctx context.Context, sp Savepoint, opts ...grpc.CallOption) error {
-	if !sp.IsValid() {
-		return ErrInvalidSavepoint
-	}
-
-	request := &pb.ActionEndSavepointRequest{
-		SavepointId: sp,
-		Action:      EndSavepointRollback,
-	}
-
-	action, err := packAction(EndSavepointActionType, request)
-	if err != nil {
-		return err
-	}
-
-	stream, err := tx.c.Client.DoAction(ctx, &action, opts...)
-	if err != nil {
-		return err
-	}
-
-	if err := stream.CloseSend(); err != nil {
-		return err
-	}
-	return flight.ReadUntilEOF(stream)
-}
-
-// PreparedStatement represents a constructed PreparedStatement on the server
-// and maintains a reference to the Client that created it along with the
-// prepared statement handle.
-//
-// If the server returned the Dataset Schema or Parameter Binding schemas
-// at creation, they will also be accessible from this object. Close
-// should be called when no longer needed.
-type PreparedStatement struct {
-	client        *Client
-	handle        []byte
-	datasetSchema *arrow.Schema
-	paramSchema   *arrow.Schema
-	paramBinding  arrow.Record
-	streamBinding array.RecordReader
-	closed        bool
-}
-
-// NewPreparedStatement creates a prepared statement object bound to the provided
-// client using the given handle. In general, it should be sufficient to use the
-// Prepare function a client and this wouldn't be needed. But this can be used
-// to propagate a prepared statement from one client to another if needed or if
-// proxying requests.
-func NewPreparedStatement(client *Client, handle []byte) *PreparedStatement {
-	return &PreparedStatement{client: client, handle: handle}
-}
-
-// Execute executes the prepared statement on the server and returns a FlightInfo
-// indicating where to retrieve the response. If SetParameters has been called
-// then the parameter bindings will be sent before execution.
-//
-// Will error if already closed.
-func (p *PreparedStatement) Execute(ctx context.Context, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	if p.closed {
-		return nil, errors.New("arrow/flightsql: prepared statement already closed")
-	}
-
-	cmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: p.handle}
-
-	desc, err := descForCommand(cmd)
-	if err != nil {
-		return nil, err
-	}
-
-	desc, err = p.bindParameters(ctx, desc, opts...)
-	if err != nil {
-		return nil, err
-	}
-	return p.client.getFlightInfo(ctx, desc, opts...)
-}
-
-// ExecutePut calls DoPut for the prepared statement on the server. If SetParameters
-// has been called then the parameter bindings will be sent before execution.
-//
-// Will error if already closed.
-func (p *PreparedStatement) ExecutePut(ctx context.Context, opts ...grpc.CallOption) error {
-	if p.closed {
-		return errors.New("arrow/flightsql: prepared statement already closed")
-	}
-
-	cmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: p.handle}
-
-	desc, err := descForCommand(cmd)
-	if err != nil {
-		return err
-	}
-
-	_, err = p.bindParameters(ctx, desc, opts...)
-	if err != nil {
-		return err
-	}
-
-	return nil
-}
-
-// ExecutePoll executes the prepared statement on the server and returns a PollInfo
-// indicating the progress of execution.
-//
-// Will error if already closed.
-func (p *PreparedStatement) ExecutePoll(ctx context.Context, retryDescriptor *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	if p.closed {
-		return nil, errors.New("arrow/flightsql: prepared statement already closed")
-	}
-
-	cmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: p.handle}
-
-	desc := retryDescriptor
-	var err error
-
-	if desc == nil {
-		desc, err = descForCommand(cmd)
-		if err != nil {
-			return nil, err
-		}
-	}
-
-	if retryDescriptor == nil {
-		desc, err = p.bindParameters(ctx, desc, opts...)
-		if err != nil {
-			return nil, err
-		}
-	}
-	return p.client.Client.PollFlightInfo(ctx, desc, opts...)
-}
-
-// ExecuteUpdate executes the prepared statement update query on the server
-// and returns the number of rows affected. If SetParameters was called,
-// the parameter bindings will be sent with the request to execute.
-func (p *PreparedStatement) ExecuteUpdate(ctx context.Context, opts ...grpc.CallOption) (nrecords int64, err error) {
-	if p.closed {
-		return 0, errors.New("arrow/flightsql: prepared statement already closed")
-	}
-
-	var (
-		execCmd      = &pb.CommandPreparedStatementUpdate{PreparedStatementHandle: p.handle}
-		desc         *flight.FlightDescriptor
-		pstream      pb.FlightService_DoPutClient
-		wr           *flight.Writer
-		res          *pb.PutResult
-		updateResult pb.DoPutUpdateResult
-	)
-
-	desc, err = descForCommand(execCmd)
-	if err != nil {
-		return
-	}
-
-	if pstream, err = p.client.Client.DoPut(ctx, opts...); err != nil {
-		return
-	}
-	if p.hasBindParameters() {
-		wr, err = p.writeBindParametersToStream(pstream, desc)
-		if err != nil {
-			return
-		}
-	} else {
-		schema := arrow.NewSchema([]arrow.Field{}, nil)
-		wr = flight.NewRecordWriter(pstream, ipc.WithSchema(schema))
-		wr.SetFlightDescriptor(desc)
-		rec := array.NewRecord(schema, []arrow.Array{}, 0)
-		if err = wr.Write(rec); err != nil {
-			return
-		}
-	}
-
-	if err = wr.Close(); err != nil {
-		return
-	}
-	if err = pstream.CloseSend(); err != nil {
-		return
-	}
-	if res, err = pstream.Recv(); err != nil {
-		return
-	}
-
-	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
-		return
-	}
-
-	return updateResult.GetRecordCount(), nil
-}
-
-func (p *PreparedStatement) hasBindParameters() bool {
-	return (p.paramBinding != nil && p.paramBinding.NumRows() > 0) || (p.streamBinding != nil)
-}
-
-func (p *PreparedStatement) bindParameters(ctx context.Context, desc *pb.FlightDescriptor, opts ...grpc.CallOption) (*flight.FlightDescriptor, error) {
-	if p.hasBindParameters() {
-		pstream, err := p.client.Client.DoPut(ctx, opts...)
-		if err != nil {
-			return nil, err
-		}
-		wr, err := p.writeBindParametersToStream(pstream, desc)
-		if err != nil {
-			return nil, err
-		}
-		if err = wr.Close(); err != nil {
-			return nil, err
-		}
-		pstream.CloseSend()
-		if err = p.captureDoPutPreparedStatementHandle(pstream); err != nil {
-			return nil, err
-		}
-
-		cmd := pb.CommandPreparedStatementQuery{PreparedStatementHandle: p.handle}
-		desc, err = descForCommand(&cmd)
-		if err != nil {
-			return nil, err
-		}
-		return desc, nil
-	}
-	return desc, nil
-}
-
-// XXX: this does not capture the updated handle. Prefer bindParameters.
-func (p *PreparedStatement) writeBindParametersToStream(pstream pb.FlightService_DoPutClient, desc *pb.FlightDescriptor) (*flight.Writer, error) {
-	if p.paramBinding != nil {
-		wr := flight.NewRecordWriter(pstream, ipc.WithSchema(p.paramBinding.Schema()))
-		wr.SetFlightDescriptor(desc)
-		if err := wr.Write(p.paramBinding); err != nil {
-			return nil, err
-		}
-		return wr, nil
-	} else {
-		wr := flight.NewRecordWriter(pstream, ipc.WithSchema(p.streamBinding.Schema()))
-		wr.SetFlightDescriptor(desc)
-		for p.streamBinding.Next() {
-			if err := wr.Write(p.streamBinding.Record()); err != nil {
-				return nil, err
-			}
-		}
-		if err := p.streamBinding.Err(); err != nil {
-			return nil, err
-		}
-		return wr, nil
-	}
-}
-
-func (p *PreparedStatement) captureDoPutPreparedStatementHandle(pstream pb.FlightService_DoPutClient) error {
-	var (
-		result                  *pb.PutResult
-		preparedStatementResult pb.DoPutPreparedStatementResult
-		err                     error
-	)
-	if result, err = pstream.Recv(); err != nil && err != io.EOF {
-		return err
-	}
-	// skip if server does not provide a response (legacy server)
-	if result == nil {
-		return nil
-	}
-	if err = proto.Unmarshal(result.GetAppMetadata(), &preparedStatementResult); err != nil {
-		return err
-	}
-	handle := preparedStatementResult.GetPreparedStatementHandle()
-	if handle != nil {
-		p.handle = handle
-	}
-	return nil
-}
-
-// DatasetSchema may be nil if the server did not return it when creating the
-// Prepared Statement.
-func (p *PreparedStatement) DatasetSchema() *arrow.Schema { return p.datasetSchema }
-
-// ParameterSchema may be nil if the server did not return it when creating
-// the prepared statement.
-func (p *PreparedStatement) ParameterSchema() *arrow.Schema { return p.paramSchema }
-
-// The handle associated with this PreparedStatement
-func (p *PreparedStatement) Handle() []byte { return p.handle }
-
-// GetSchema re-requests the schema of the result set of the prepared
-// statement from the server. It should otherwise be identical to DatasetSchema.
-//
-// Will error if already closed.
-func (p *PreparedStatement) GetSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	if p.closed {
-		return nil, errors.New("arrow/flightsql: prepared statement already closed")
-	}
-
-	cmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: p.handle}
-
-	desc, err := descForCommand(cmd)
-	if err != nil {
-		return nil, err
-	}
-
-	return p.client.getSchema(ctx, desc, opts...)
-}
-
-func (p *PreparedStatement) clearParameters() {
-	if p.paramBinding != nil {
-		p.paramBinding.Release()
-		p.paramBinding = nil
-	}
-	if p.streamBinding != nil {
-		p.streamBinding.Release()
-		p.streamBinding = nil
-	}
-}
-
-// SetParameters takes a record batch to send as the parameter bindings when
-// executing. It should match the schema from ParameterSchema.
-//
-// This will call Retain on the record to ensure it doesn't get released out
-// from under the statement. Release will be called on a previous binding
-// record or reader if it existed, and will be called upon calling Close on the
-// PreparedStatement.
-func (p *PreparedStatement) SetParameters(binding arrow.Record) {
-	p.clearParameters()
-	p.paramBinding = binding
-	if p.paramBinding != nil {
-		p.paramBinding.Retain()
-	}
-}
-
-// SetRecordReader takes a RecordReader to send as the parameter bindings when
-// executing. It should match the schema from ParameterSchema.
-//
-// This will call Retain on the reader to ensure it doesn't get released out
-// from under the statement. Release will be called on a previous binding
-// record or reader if it existed, and will be called upon calling Close on the
-// PreparedStatement.
-func (p *PreparedStatement) SetRecordReader(binding array.RecordReader) {
-	p.clearParameters()
-	binding.Retain()
-	p.streamBinding = binding
-	p.streamBinding.Retain()
-}
-
-// Close calls release on any parameter binding record and sends
-// a ClosePreparedStatement action to the server. After calling
-// Close, the PreparedStatement should not be used again.
-func (p *PreparedStatement) Close(ctx context.Context, opts ...grpc.CallOption) error {
-	if p.closed {
-		return errors.New("arrow/flightsql: already closed")
-	}
-
-	p.clearParameters()
-
-	const actionType = ClosePreparedStatementActionType
-	var (
-		cmd     anypb.Any
-		request pb.ActionClosePreparedStatementRequest
-	)
-
-	request.PreparedStatementHandle = p.handle
-	if err := cmd.MarshalFrom(&request); err != nil {
-		return err
-	}
-
-	body, err := proto.Marshal(&cmd)
-	if err != nil {
-		return err
-	}
-
-	action := &flight.Action{Type: actionType, Body: body}
-	stream, err := p.client.Client.DoAction(ctx, action, opts...)
-	if err != nil {
-		return err
-	}
-
-	if err = stream.CloseSend(); err != nil {
-		return err
-	}
-
-	p.closed = true
-	return flight.ReadUntilEOF(stream)
-}
diff --git a/go/arrow/flight/flightsql/client_test.go b/go/arrow/flight/flightsql/client_test.go
deleted file mode 100644
index d060161f94f0f..0000000000000
--- a/go/arrow/flight/flightsql/client_test.go
+++ /dev/null
@@ -1,741 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql_test
-
-import (
-	"context"
-	"io"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	pb "github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/mock"
-	"github.com/stretchr/testify/suite"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/protobuf/proto"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-type mockGrpcClientStream struct {
-	mock.Mock
-}
-
-func (m *mockGrpcClientStream) Header() (metadata.MD, error)  { panic("unimplemented") }
-func (m *mockGrpcClientStream) Trailer() metadata.MD          { panic("unimplemented") }
-func (m *mockGrpcClientStream) CloseSend() error              { return m.Called().Error(0) }
-func (m *mockGrpcClientStream) Context() context.Context      { return context.TODO() }
-func (m *mockGrpcClientStream) SendMsg(msg interface{}) error { return m.Called(msg).Error(0) }
-func (m *mockGrpcClientStream) RecvMsg(msg interface{}) error { return m.Called(msg).Error(0) }
-
-type FlightServiceClientMock struct {
-	mock.Mock
-}
-
-func (m *FlightServiceClientMock) Authenticate(_ context.Context, opts ...grpc.CallOption) error {
-	return m.Called(opts).Error(0)
-}
-
-func (m *FlightServiceClientMock) AuthenticateBasicToken(_ context.Context, user, pass string, opts ...grpc.CallOption) (context.Context, error) {
-	args := m.Called(user, pass, opts)
-	return args.Get(0).(context.Context), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) CancelFlightInfo(ctx context.Context, request *flight.CancelFlightInfoRequest, opts ...grpc.CallOption) (*flight.CancelFlightInfoResult, error) {
-	args := m.Called(request, opts)
-	return args.Get(0).(*flight.CancelFlightInfoResult), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) RenewFlightEndpoint(ctx context.Context, request *flight.RenewFlightEndpointRequest, opts ...grpc.CallOption) (*flight.FlightEndpoint, error) {
-	args := m.Called(request, opts)
-	return args.Get(0).(*flight.FlightEndpoint), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) SetSessionOptions(ctx context.Context, request *flight.SetSessionOptionsRequest, opts ...grpc.CallOption) (*flight.SetSessionOptionsResult, error) {
-	args := m.Called(request, opts)
-	return args.Get(0).(*flight.SetSessionOptionsResult), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) GetSessionOptions(ctx context.Context, request *flight.GetSessionOptionsRequest, opts ...grpc.CallOption) (*flight.GetSessionOptionsResult, error) {
-	args := m.Called(request, opts)
-	return args.Get(0).(*flight.GetSessionOptionsResult), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) CloseSession(ctx context.Context, request *flight.CloseSessionRequest, opts ...grpc.CallOption) (*flight.CloseSessionResult, error) {
-	args := m.Called(request, opts)
-	return args.Get(0).(*flight.CloseSessionResult), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) Close() error {
-	return m.Called().Error(0)
-}
-
-func (m *FlightServiceClientMock) Handshake(ctx context.Context, opts ...grpc.CallOption) (flight.FlightService_HandshakeClient, error) {
-	panic("not implemented") // TODO: Implement
-}
-
-func (m *FlightServiceClientMock) ListFlights(ctx context.Context, in *flight.Criteria, opts ...grpc.CallOption) (flight.FlightService_ListFlightsClient, error) {
-	panic("not implemented") // TODO: Implement
-}
-
-func (m *FlightServiceClientMock) GetFlightInfo(ctx context.Context, in *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
-	args := m.Called(in.Type, in.Cmd, opts)
-	return args.Get(0).(*flight.FlightInfo), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) PollFlightInfo(ctx context.Context, in *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.PollInfo, error) {
-	args := m.Called(in.Type, in.Cmd, opts)
-	return args.Get(0).(*flight.PollInfo), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) GetSchema(ctx context.Context, in *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
-	panic("not implemented") // TODO: Implement
-}
-
-func (m *FlightServiceClientMock) DoGet(ctx context.Context, in *flight.Ticket, opts ...grpc.CallOption) (flight.FlightService_DoGetClient, error) {
-	panic("not implemented") // TODO: Implement
-}
-
-func (m *FlightServiceClientMock) DoPut(ctx context.Context, opts ...grpc.CallOption) (flight.FlightService_DoPutClient, error) {
-	args := m.Called(opts)
-	return args.Get(0).(flight.FlightService_DoPutClient), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) DoExchange(ctx context.Context, opts ...grpc.CallOption) (flight.FlightService_DoExchangeClient, error) {
-	panic("not implemented") // TODO: Implement
-}
-
-func (m *FlightServiceClientMock) DoAction(ctx context.Context, in *flight.Action, opts ...grpc.CallOption) (flight.FlightService_DoActionClient, error) {
-	args := m.Called(in.Type, in.Body, opts)
-	return args.Get(0).(flight.FlightService_DoActionClient), args.Error(1)
-}
-
-func (m *FlightServiceClientMock) ListActions(ctx context.Context, in *flight.Empty, opts ...grpc.CallOption) (flight.FlightService_ListActionsClient, error) {
-	panic("not implemented") // TODO: Implement
-}
-
-type FlightSqlClientSuite struct {
-	suite.Suite
-
-	mockClient FlightServiceClientMock
-	callOpts   []grpc.CallOption
-	sqlClient  flightsql.Client
-}
-
-func getDesc(cmd proto.Message) *flight.FlightDescriptor {
-	var anycmd anypb.Any
-	anycmd.MarshalFrom(cmd)
-
-	data, _ := proto.Marshal(&anycmd)
-	return &flight.FlightDescriptor{
-		Type: flight.DescriptorCMD,
-		Cmd:  data,
-	}
-}
-
-func getAction(cmd proto.Message) *flight.Action {
-	var anycmd anypb.Any
-	anycmd.MarshalFrom(cmd)
-
-	data, _ := proto.Marshal(&anycmd)
-	return &flight.Action{Body: data}
-}
-
-func (s *FlightSqlClientSuite) SetupTest() {
-	s.mockClient = FlightServiceClientMock{}
-	s.sqlClient.Client = &s.mockClient
-	s.callOpts = []grpc.CallOption{grpc.EmptyCallOption{}}
-}
-
-func (s *FlightSqlClientSuite) TearDownTest() {
-	s.mockClient.AssertExpectations(s.T())
-}
-
-var emptyFlightInfo flight.FlightInfo
-
-func (s *FlightSqlClientSuite) TestGetCatalogs() {
-	var cmd pb.CommandGetCatalogs
-	desc := getDesc(&cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetCatalogs(context.Background(), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetDBSchemas() {
-	var (
-		schemaFilterPattern = "schema_filter_pattern"
-		catalog             = "catalog"
-	)
-
-	cmd := &pb.CommandGetDbSchemas{
-		Catalog:               &catalog,
-		DbSchemaFilterPattern: &schemaFilterPattern,
-	}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetDBSchemas(context.Background(), (*flightsql.GetDBSchemasOpts)(cmd), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetTables() {
-	var (
-		catalog                = "catalog"
-		schemaFilterPattern    = "schema_filter_pattern"
-		tableNameFilterPattern = "table_name_filter_pattern"
-		includeSchema          = true
-		tableTypes             = []string{"type1", "type2"}
-	)
-
-	cmd := &pb.CommandGetTables{
-		Catalog:                &catalog,
-		DbSchemaFilterPattern:  &schemaFilterPattern,
-		TableNameFilterPattern: &tableNameFilterPattern,
-		IncludeSchema:          includeSchema,
-		TableTypes:             tableTypes,
-	}
-	desc := getDesc(cmd)
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetTables(context.Background(), (*flightsql.GetTablesOpts)(cmd), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetTableTypes() {
-	var cmd pb.CommandGetTableTypes
-	desc := getDesc(&cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetTableTypes(context.Background(), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetTypeInfo() {
-	var cmd pb.CommandGetXdbcTypeInfo
-	desc := getDesc(&cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetXdbcTypeInfo(context.Background(), nil, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetExported() {
-	var (
-		catalog = "catalog"
-		schema  = "schema"
-		table   = "table"
-	)
-
-	cmd := &pb.CommandGetExportedKeys{
-		Catalog:  &catalog,
-		DbSchema: &schema,
-		Table:    table,
-	}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetExportedKeys(context.Background(), flightsql.TableRef{&catalog, &schema, table}, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetImported() {
-	var (
-		schema = "schema"
-		table  = "table"
-	)
-
-	cmd := &pb.CommandGetImportedKeys{
-		DbSchema: &schema,
-		Table:    table,
-	}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetImportedKeys(context.Background(), flightsql.TableRef{nil, &schema, table}, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetPrimary() {
-	var (
-		catalog = "catalog"
-		table   = "table"
-	)
-
-	cmd := &pb.CommandGetPrimaryKeys{
-		Catalog: &catalog,
-		Table:   table,
-	}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetPrimaryKeys(context.Background(), flightsql.TableRef{&catalog, nil, table}, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestGetCrossReference() {
-	var (
-		pkCatalog = "pk_catalog"
-		pkSchema  = "pk_schema"
-		pkTable   = "pk_table"
-		fkCatalog = "fk_catalog"
-		fkSchema  = "fk_schema"
-		fkTable   = "fk_table"
-	)
-
-	cmd := &pb.CommandGetCrossReference{
-		PkCatalog:  &pkCatalog,
-		PkDbSchema: &pkSchema,
-		PkTable:    pkTable,
-		FkCatalog:  &fkCatalog,
-		FkDbSchema: &fkSchema,
-		FkTable:    fkTable,
-	}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetCrossReference(context.Background(),
-		flightsql.TableRef{&pkCatalog, &pkSchema, pkTable},
-		flightsql.TableRef{&fkCatalog, &fkSchema, fkTable}, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestExecute() {
-	var query = "query"
-
-	cmd := &pb.CommandStatementQuery{Query: query}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.Execute(context.Background(), query, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-type mockDoActionClient struct {
-	mockGrpcClientStream
-}
-
-func (m *mockDoActionClient) Recv() (*pb.Result, error) {
-	args := m.Called()
-	return args.Get(0).(*pb.Result), args.Error(1)
-}
-
-type mockDoPutClient struct {
-	mockGrpcClientStream
-}
-
-func (m *mockDoPutClient) Send(fd *flight.FlightData) error {
-	return m.Called(fd).Error(0)
-}
-
-func (m *mockDoPutClient) Recv() (*pb.PutResult, error) {
-	args := m.Called()
-	return args.Get(0).(*pb.PutResult), args.Error(1)
-}
-
-func (s *FlightSqlClientSuite) TestPreparedStatementExecute() {
-	const query = "query"
-
-	cmd := &pb.ActionCreatePreparedStatementRequest{Query: query}
-	action := getAction(cmd)
-	action.Type = flightsql.CreatePreparedStatementActionType
-	closeAct := getAction(&pb.ActionClosePreparedStatementRequest{PreparedStatementHandle: []byte(query)})
-	closeAct.Type = flightsql.ClosePreparedStatementActionType
-
-	result := &pb.ActionCreatePreparedStatementResult{PreparedStatementHandle: []byte(query)}
-	var out anypb.Any
-	out.MarshalFrom(result)
-	data, _ := proto.Marshal(&out)
-
-	createRsp := &mockDoActionClient{}
-	defer createRsp.AssertExpectations(s.T())
-	createRsp.On("Recv").Return(&pb.Result{Body: data}, nil).Once()
-	createRsp.On("Recv").Return(&pb.Result{}, io.EOF).Once()
-	createRsp.On("Recv").Return(&pb.Result{Body: data}, nil).Once()
-	createRsp.On("Recv").Return(&pb.Result{}, io.EOF).Once()
-	createRsp.On("CloseSend").Return(nil).Twice()
-
-	closeRsp := &mockDoActionClient{}
-	defer closeRsp.AssertExpectations(s.T())
-	closeRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	closeRsp.On("CloseSend").Return(nil)
-
-	s.mockClient.On("DoAction", flightsql.CreatePreparedStatementActionType, action.Body, s.callOpts).
-		Return(createRsp, nil).Twice()
-	s.mockClient.On("DoAction", flightsql.ClosePreparedStatementActionType, closeAct.Body, s.callOpts).
-		Return(closeRsp, nil)
-
-	infoCmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(query)}
-	desc := getDesc(infoCmd)
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil).Twice()
-
-	prepared, err := s.sqlClient.Prepare(context.TODO(), query, s.callOpts...)
-	s.NoError(err)
-	defer prepared.Close(context.TODO(), s.callOpts...)
-
-	s.Equal(string(prepared.Handle()), "query")
-
-	info, err := prepared.Execute(context.TODO(), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-
-	prepared, err = s.sqlClient.Prepare(context.TODO(), query, s.callOpts...)
-	s.NoError(err)
-
-	secondPrepare := flightsql.NewPreparedStatement(&s.sqlClient, prepared.Handle())
-	s.Equal(string(secondPrepare.Handle()), "query")
-	defer secondPrepare.Close(context.TODO(), s.callOpts...)
-
-	info, err = secondPrepare.Execute(context.TODO(), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestPreparedStatementExecuteParamBinding() {
-	const query = "query"
-	const handle = "handle"
-	const updatedHandle = "updated handle"
-
-	// create and close actions
-	cmd := &pb.ActionCreatePreparedStatementRequest{Query: query}
-	action := getAction(cmd)
-	action.Type = flightsql.CreatePreparedStatementActionType
-	closeAct := getAction(&pb.ActionClosePreparedStatementRequest{PreparedStatementHandle: []byte(updatedHandle)})
-	closeAct.Type = flightsql.ClosePreparedStatementActionType
-
-	// results from createprepared statement
-	actionResult := &pb.ActionCreatePreparedStatementResult{
-		PreparedStatementHandle: []byte(handle),
-	}
-	schema := arrow.NewSchema([]arrow.Field{{Name: "id", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
-	actionResult.ParameterSchema = flight.SerializeSchema(schema, memory.DefaultAllocator)
-
-	// mocked client stream
-	var out anypb.Any
-	out.MarshalFrom(actionResult)
-	data, _ := proto.Marshal(&out)
-
-	createRsp := &mockDoActionClient{}
-	defer createRsp.AssertExpectations(s.T())
-	createRsp.On("Recv").Return(&pb.Result{Body: data}, nil).Once()
-	createRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	createRsp.On("CloseSend").Return(nil)
-
-	closeRsp := &mockDoActionClient{}
-	defer closeRsp.AssertExpectations(s.T())
-	closeRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	closeRsp.On("CloseSend").Return(nil)
-
-	// expect two actions: one to create and one to close the prepared statement
-	s.mockClient.On("DoAction", flightsql.CreatePreparedStatementActionType, action.Body, s.callOpts).Return(createRsp, nil)
-	s.mockClient.On("DoAction", flightsql.ClosePreparedStatementActionType, closeAct.Body, s.callOpts).Return(closeRsp, nil)
-
-	expectedDesc := getDesc(&pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(handle)})
-
-	// mocked DoPut result
-	doPutPreparedStatementResult := &pb.DoPutPreparedStatementResult{PreparedStatementHandle: []byte(updatedHandle)}
-	resdata, _ := proto.Marshal(doPutPreparedStatementResult)
-	putResult := &pb.PutResult{AppMetadata: resdata}
-
-	// mocked client stream for DoPut
-	mockedPut := &mockDoPutClient{}
-	s.mockClient.On("DoPut", s.callOpts).Return(mockedPut, nil)
-	mockedPut.On("Send", mock.MatchedBy(func(fd *flight.FlightData) bool {
-		return proto.Equal(expectedDesc, fd.FlightDescriptor)
-	})).Return(nil).Twice() // first sends schema message, second sends data
-	mockedPut.On("CloseSend").Return(nil)
-	mockedPut.On("Recv").Return(putResult, nil)
-
-	infoCmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(updatedHandle)}
-	desc := getDesc(infoCmd)
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-
-	prepared, err := s.sqlClient.Prepare(context.TODO(), query, s.callOpts...)
-	s.NoError(err)
-	defer prepared.Close(context.TODO(), s.callOpts...)
-
-	s.Equal(string(prepared.Handle()), handle)
-
-	paramSchema := prepared.ParameterSchema()
-	rec, _, err := array.RecordFromJSON(memory.DefaultAllocator, paramSchema, strings.NewReader(`[{"id": 1}]`))
-	s.NoError(err)
-	defer rec.Release()
-
-	s.Equal(string(prepared.Handle()), handle)
-
-	prepared.SetParameters(rec)
-	info, err := prepared.Execute(context.TODO(), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-	s.Equal(string(prepared.Handle()), updatedHandle)
-}
-
-func (s *FlightSqlClientSuite) TestPreparedStatementExecuteReaderBinding() {
-	const query = "query"
-
-	// create and close actions
-	cmd := &pb.ActionCreatePreparedStatementRequest{Query: query}
-	action := getAction(cmd)
-	action.Type = flightsql.CreatePreparedStatementActionType
-	closeAct := getAction(&pb.ActionClosePreparedStatementRequest{PreparedStatementHandle: []byte(query)})
-	closeAct.Type = flightsql.ClosePreparedStatementActionType
-
-	// results from createprepared statement
-	result := &pb.ActionCreatePreparedStatementResult{
-		PreparedStatementHandle: []byte(query),
-	}
-	schema := arrow.NewSchema([]arrow.Field{{Name: "id", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
-	result.ParameterSchema = flight.SerializeSchema(schema, memory.DefaultAllocator)
-
-	// mocked client stream
-	var out anypb.Any
-	out.MarshalFrom(result)
-	data, _ := proto.Marshal(&out)
-
-	createRsp := &mockDoActionClient{}
-	defer createRsp.AssertExpectations(s.T())
-	createRsp.On("Recv").Return(&pb.Result{Body: data}, nil).Once()
-	createRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	createRsp.On("CloseSend").Return(nil)
-
-	closeRsp := &mockDoActionClient{}
-	defer closeRsp.AssertExpectations(s.T())
-	closeRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	closeRsp.On("CloseSend").Return(nil)
-
-	// expect two actions: one to create and one to close the prepared statement
-	s.mockClient.On("DoAction", flightsql.CreatePreparedStatementActionType, action.Body, s.callOpts).Return(createRsp, nil)
-	s.mockClient.On("DoAction", flightsql.ClosePreparedStatementActionType, closeAct.Body, s.callOpts).Return(closeRsp, nil)
-
-	expectedDesc := getDesc(&pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(query)})
-
-	// mocked DoPut result
-	doPutPreparedStatementResult := &pb.DoPutPreparedStatementResult{PreparedStatementHandle: []byte(query)}
-	resdata, _ := proto.Marshal(doPutPreparedStatementResult)
-	putResult := &pb.PutResult{AppMetadata: resdata}
-
-	// mocked client stream for DoPut
-	mockedPut := &mockDoPutClient{}
-	s.mockClient.On("DoPut", s.callOpts).Return(mockedPut, nil)
-	// 1x schema
-	mockedPut.On("Send", mock.MatchedBy(func(fd *flight.FlightData) bool {
-		return proto.Equal(expectedDesc, fd.FlightDescriptor)
-	})).Return(nil)
-	// 3x bind parameters
-	mockedPut.On("Send", mock.MatchedBy(func(fd *flight.FlightData) bool {
-		return fd.FlightDescriptor == nil
-	})).Return(nil).Times(3)
-	mockedPut.On("CloseSend").Return(nil)
-	mockedPut.On("Recv").Return(putResult, nil)
-
-	infoCmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(query)}
-	desc := getDesc(infoCmd)
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-
-	prepared, err := s.sqlClient.Prepare(context.TODO(), query, s.callOpts...)
-	s.NoError(err)
-	defer prepared.Close(context.TODO(), s.callOpts...)
-
-	s.Equal(string(prepared.Handle()), "query")
-
-	paramSchema := prepared.ParameterSchema()
-	rec, _, err := array.RecordFromJSON(memory.DefaultAllocator, paramSchema, strings.NewReader(`[{"id": 1}]`))
-	s.NoError(err)
-	defer rec.Release()
-
-	rdr, err := array.NewRecordReader(rec.Schema(), []arrow.Record{rec, rec, rec})
-	s.NoError(err)
-	prepared.SetRecordReader(rdr)
-
-	info, err := prepared.Execute(context.TODO(), s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestPreparedStatementClose() {
-	// Setup
-	const query = "query"
-
-	// create and close actions
-	cmd := &pb.ActionCreatePreparedStatementRequest{Query: query}
-	action := getAction(cmd)
-	action.Type = flightsql.CreatePreparedStatementActionType
-	closeAct := getAction(&pb.ActionClosePreparedStatementRequest{PreparedStatementHandle: []byte(query)})
-	closeAct.Type = flightsql.ClosePreparedStatementActionType
-
-	// results from createprepared statement
-	result := &pb.ActionCreatePreparedStatementResult{
-		PreparedStatementHandle: []byte(query),
-	}
-	schema := arrow.NewSchema([]arrow.Field{{Name: "id", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
-	result.ParameterSchema = flight.SerializeSchema(schema, memory.DefaultAllocator)
-
-	// mocked client stream
-	var out anypb.Any
-	out.MarshalFrom(result)
-	data, _ := proto.Marshal(&out)
-
-	createRsp := &mockDoActionClient{}
-	defer createRsp.AssertExpectations(s.T())
-	createRsp.On("Recv").Return(&pb.Result{Body: data}, nil).Once()
-	createRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	createRsp.On("CloseSend").Return(nil)
-
-	closeRsp := &mockDoActionClient{}
-	defer closeRsp.AssertExpectations(s.T())
-	closeRsp.On("Recv").Return(&pb.Result{}, io.EOF)
-	closeRsp.On("CloseSend").Return(nil)
-
-	// expect two actions: one to create and one to close the prepared statement
-	s.mockClient.On("DoAction", flightsql.CreatePreparedStatementActionType, action.Body, s.callOpts).Return(createRsp, nil)
-	s.mockClient.On("DoAction", flightsql.ClosePreparedStatementActionType, closeAct.Body, s.callOpts).Return(closeRsp, nil)
-
-	// Mocked calls
-	prepared, err := s.sqlClient.Prepare(context.TODO(), query, s.callOpts...)
-	s.NoError(err)
-
-	err = prepared.Close(context.TODO(), s.callOpts...)
-	s.NoError(err)
-
-	s.Equal(string(prepared.Handle()), "query")
-}
-
-func (s *FlightSqlClientSuite) TestExecuteUpdate() {
-	const query = "query"
-
-	cmd := &pb.CommandStatementUpdate{Query: query}
-	desc := getDesc(cmd)
-	result := &pb.DoPutUpdateResult{RecordCount: 100}
-	resdata, _ := proto.Marshal(result)
-
-	mockedPut := &mockDoPutClient{}
-	mockedPut.On("Send", mock.MatchedBy(func(fd *flight.FlightData) bool {
-		return proto.Equal(desc, fd.FlightDescriptor)
-	})).Return(nil)
-	mockedPut.On("CloseSend").Return(nil)
-	mockedPut.On("Recv").Return(&pb.PutResult{AppMetadata: resdata}, nil)
-	s.mockClient.On("DoPut", s.callOpts).Return(mockedPut, nil)
-
-	num, err := s.sqlClient.ExecuteUpdate(context.TODO(), query, s.callOpts...)
-	s.NoError(err)
-	s.EqualValues(100, num)
-}
-
-func (s *FlightSqlClientSuite) TestGetSqlInfo() {
-	sqlInfo := []flightsql.SqlInfo{
-		flightsql.SqlInfoFlightSqlServerName,
-		flightsql.SqlInfoFlightSqlServerVersion,
-		flightsql.SqlInfoFlightSqlServerArrowVersion,
-	}
-
-	cmd := &pb.CommandGetSqlInfo{Info: make([]uint32, len(sqlInfo))}
-	for i, info := range sqlInfo {
-		cmd.Info[i] = uint32(info)
-	}
-	desc := getDesc(cmd)
-
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.GetSqlInfo(context.TODO(), sqlInfo, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-}
-
-func (s *FlightSqlClientSuite) TestCancelFlightInfo() {
-	query := "SELECT * FROM data"
-	cmd := &pb.CommandStatementQuery{Query: query}
-	desc := getDesc(cmd)
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
-	info, err := s.sqlClient.Execute(context.Background(), query, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&emptyFlightInfo, info)
-	request := flight.CancelFlightInfoRequest{Info: info}
-	mockedCancelResult := flight.CancelFlightInfoResult{
-		Status: flight.CancelStatusCancelled,
-	}
-	s.mockClient.On("CancelFlightInfo", &request, s.callOpts).Return(&mockedCancelResult, nil)
-	cancelResult, err := s.sqlClient.CancelFlightInfo(context.TODO(), &request, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&mockedCancelResult, cancelResult)
-}
-
-func (s *FlightSqlClientSuite) TestRenewFlightEndpoint() {
-	query := "SELECT * FROM data"
-	cmd := &pb.CommandStatementQuery{Query: query}
-	desc := getDesc(cmd)
-	var mockedEndpoint flight.FlightEndpoint
-	mockedInfo := flight.FlightInfo{
-		Endpoint: []*flight.FlightEndpoint{&mockedEndpoint},
-	}
-	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&mockedInfo, nil)
-	info, err := s.sqlClient.Execute(context.Background(), query, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&mockedInfo, info)
-	request := flight.RenewFlightEndpointRequest{Endpoint: info.Endpoint[0]}
-	var mockedRenewedEndpoint flight.FlightEndpoint
-	s.mockClient.On("RenewFlightEndpoint", &request, s.callOpts).Return(&mockedRenewedEndpoint, nil)
-	renewedEndpoint, err := s.sqlClient.RenewFlightEndpoint(context.TODO(), &request, s.callOpts...)
-	s.NoError(err)
-	s.Equal(&mockedRenewedEndpoint, renewedEndpoint)
-}
-
-func (s *FlightSqlClientSuite) TestPreparedStatementLoadFromResult() {
-	const query = "query"
-
-	result := &pb.ActionCreatePreparedStatementResult{
-		PreparedStatementHandle: []byte(query),
-	}
-
-	parameterSchemaResult := arrow.NewSchema([]arrow.Field{{Name: "p_id", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
-	result.ParameterSchema = flight.SerializeSchema(parameterSchemaResult, memory.DefaultAllocator)
-	datasetSchemaResult := arrow.NewSchema([]arrow.Field{{Name: "ds_id", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
-	result.DatasetSchema = flight.SerializeSchema(datasetSchemaResult, memory.DefaultAllocator)
-
-	prepared, err := s.sqlClient.LoadPreparedStatementFromResult(result)
-	s.NoError(err)
-
-	s.Equal(string(prepared.Handle()), "query")
-
-	paramSchema := prepared.ParameterSchema()
-	paramRec, _, err := array.RecordFromJSON(memory.DefaultAllocator, paramSchema, strings.NewReader(`[{"p_id": 1}]`))
-	s.NoError(err)
-	defer paramRec.Release()
-
-	datasetSchema := prepared.DatasetSchema()
-	datasetRec, _, err := array.RecordFromJSON(memory.DefaultAllocator, datasetSchema, strings.NewReader(`[{"ds_id": 1}]`))
-	s.NoError(err)
-	defer datasetRec.Release()
-
-	s.Equal(string(prepared.Handle()), "query")
-}
-
-func TestFlightSqlClient(t *testing.T) {
-	suite.Run(t, new(FlightSqlClientSuite))
-}
diff --git a/go/arrow/flight/flightsql/column_metadata.go b/go/arrow/flight/flightsql/column_metadata.go
deleted file mode 100644
index 60e48b5e0f5d4..0000000000000
--- a/go/arrow/flight/flightsql/column_metadata.go
+++ /dev/null
@@ -1,217 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql
-
-import (
-	"strconv"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-const (
-	boolTrueStr  = "1"
-	boolFalseStr = "0"
-)
-
-func boolToStr(v bool) string {
-	if v {
-		return boolTrueStr
-	}
-	return boolFalseStr
-}
-
-func strToBool(v string) bool {
-	return v == boolTrueStr
-}
-
-// Metadata Key Constants
-const (
-	CatalogNameKey     = "ARROW:FLIGHT:SQL:CATALOG_NAME"
-	SchemaNameKey      = "ARROW:FLIGHT:SQL:SCHEMA_NAME"
-	TableNameKey       = "ARROW:FLIGHT:SQL:TABLE_NAME"
-	TypeNameKey        = "ARROW:FLIGHT:SQL:TYPE_NAME"
-	PrecisionKey       = "ARROW:FLIGHT:SQL:PRECISION"
-	ScaleKey           = "ARROW:FLIGHT:SQL:SCALE"
-	IsAutoIncrementKey = "ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT"
-	IsCaseSensitiveKey = "ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE"
-	IsReadOnlyKey      = "ARROW:FLIGHT:SQL:IS_READ_ONLY"
-	IsSearchableKey    = "ARROW:FLIGHT:SQL:IS_SEARCHABLE"
-)
-
-// ColumnMetadata is a helper object for managing and querying the
-// standard SQL Column metadata using the expected Metadata Keys.
-// It can be created by just Wrapping an existing *arrow.Metadata.
-//
-// Each of the methods return a value and a boolean indicating if it
-// was set in the metadata or not.
-type ColumnMetadata struct {
-	Data *arrow.Metadata
-}
-
-func (c *ColumnMetadata) findStrVal(key string) (string, bool) {
-	idx := c.Data.FindKey(CatalogNameKey)
-	if idx == -1 {
-		return "", false
-	}
-	return c.Data.Values()[idx], true
-}
-
-func (c *ColumnMetadata) findBoolVal(key string) (bool, bool) {
-	idx := c.Data.FindKey(CatalogNameKey)
-	if idx == -1 {
-		return false, false
-	}
-	return strToBool(c.Data.Values()[idx]), true
-}
-
-func (c *ColumnMetadata) findInt32Val(key string) (int32, bool) {
-	idx := c.Data.FindKey(CatalogNameKey)
-	if idx == -1 {
-		return 0, false
-	}
-	v, err := strconv.ParseInt(c.Data.Values()[idx], 10, 32)
-	if err != nil {
-		return 0, false
-	}
-	return int32(v), true
-}
-
-func (c *ColumnMetadata) CatalogName() (string, bool) {
-	return c.findStrVal(CatalogNameKey)
-}
-
-func (c *ColumnMetadata) SchemaName() (string, bool) {
-	return c.findStrVal(SchemaNameKey)
-}
-
-func (c *ColumnMetadata) TableName() (string, bool) {
-	return c.findStrVal(TableNameKey)
-}
-
-func (c *ColumnMetadata) TypeName() (string, bool) {
-	return c.findStrVal(TypeNameKey)
-}
-
-func (c *ColumnMetadata) Precision() (int32, bool) {
-	return c.findInt32Val(PrecisionKey)
-}
-
-func (c *ColumnMetadata) Scale() (int32, bool) {
-	return c.findInt32Val(ScaleKey)
-}
-
-func (c *ColumnMetadata) IsAutoIncrement() (bool, bool) {
-	return c.findBoolVal(IsAutoIncrementKey)
-}
-
-func (c *ColumnMetadata) IsCaseSensitive() (bool, bool) {
-	return c.findBoolVal(IsCaseSensitiveKey)
-}
-
-func (c *ColumnMetadata) IsReadOnly() (bool, bool) {
-	return c.findBoolVal(IsReadOnlyKey)
-}
-
-func (c *ColumnMetadata) IsSearchable() (bool, bool) {
-	return c.findBoolVal(IsSearchableKey)
-}
-
-// ColumnMetadataBuilder is a convenience builder for constructing
-// sql column metadata using the expected standard metadata keys.
-// All methods return the builder itself so it can be chained
-// to easily construct a final metadata object.
-type ColumnMetadataBuilder struct {
-	keys, vals []string
-}
-
-func NewColumnMetadataBuilder() *ColumnMetadataBuilder {
-	return &ColumnMetadataBuilder{make([]string, 0), make([]string, 0)}
-}
-
-func (c *ColumnMetadataBuilder) Clear() {
-	c.keys = c.keys[:0]
-	c.vals = c.vals[:0]
-}
-
-func (c *ColumnMetadataBuilder) Build() ColumnMetadata {
-	md := c.Metadata()
-	return ColumnMetadata{&md}
-}
-
-func (c *ColumnMetadataBuilder) Metadata() arrow.Metadata {
-	return arrow.NewMetadata(c.keys, c.vals)
-}
-
-func (c *ColumnMetadataBuilder) CatalogName(name string) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, CatalogNameKey)
-	c.vals = append(c.vals, name)
-	return c
-}
-
-func (c *ColumnMetadataBuilder) SchemaName(name string) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, SchemaNameKey)
-	c.vals = append(c.vals, name)
-	return c
-}
-
-func (c *ColumnMetadataBuilder) TableName(name string) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, TableNameKey)
-	c.vals = append(c.vals, name)
-	return c
-}
-
-func (c *ColumnMetadataBuilder) TypeName(name string) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, TypeNameKey)
-	c.vals = append(c.vals, name)
-	return c
-}
-
-func (c *ColumnMetadataBuilder) Precision(prec int32) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, PrecisionKey)
-	c.vals = append(c.vals, strconv.Itoa(int(prec)))
-	return c
-}
-
-func (c *ColumnMetadataBuilder) Scale(prec int32) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, ScaleKey)
-	c.vals = append(c.vals, strconv.Itoa(int(prec)))
-	return c
-}
-
-func (c *ColumnMetadataBuilder) IsAutoIncrement(v bool) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, IsAutoIncrementKey)
-	c.vals = append(c.vals, boolToStr(v))
-	return c
-}
-
-func (c *ColumnMetadataBuilder) IsCaseSensitive(v bool) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, IsCaseSensitiveKey)
-	c.vals = append(c.vals, boolToStr(v))
-	return c
-}
-
-func (c *ColumnMetadataBuilder) IsReadOnly(v bool) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, IsReadOnlyKey)
-	c.vals = append(c.vals, boolToStr(v))
-	return c
-}
-
-func (c *ColumnMetadataBuilder) IsSearchable(v bool) *ColumnMetadataBuilder {
-	c.keys = append(c.keys, IsSearchableKey)
-	c.vals = append(c.vals, boolToStr(v))
-	return c
-}
diff --git a/go/arrow/flight/flightsql/driver/README.md b/go/arrow/flight/flightsql/driver/README.md
deleted file mode 100644
index 802d050042c66..0000000000000
--- a/go/arrow/flight/flightsql/driver/README.md
+++ /dev/null
@@ -1,226 +0,0 @@
-<!---
-  Licensed to the Apache Software Foundation (ASF) under one
-  or more contributor license agreements.  See the NOTICE file
-  distributed with this work for additional information
-  regarding copyright ownership.  The ASF licenses this file
-  to you under the Apache License, Version 2.0 (the
-  "License"); you may not use this file except in compliance
-  with the License.  You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-  Unless required by applicable law or agreed to in writing,
-  software distributed under the License is distributed on an
-  "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-  KIND, either express or implied.  See the License for the
-  specific language governing permissions and limitations
-  under the License.
--->
-# FlightSQL driver
-
-A FlightSQL-Driver for Go's [database/sql](https://golang.org/pkg/database/sql/)
-package. This driver is a lightweight wrapper around the FlightSQL client in
-pure Go. It provides all advantages of a `database/sql` driver like automatic
-connection pooling, transactions combined with ease of use (see (#usage)).
-
----------------------------------------
-
-* [Prerequisites](#prerequisites)
-* [Usage](#usage)
-* [Data Source Name (DSN)](#data-source-name-dsn)
-* [Driver config usage](#driver-config-usage)
-* [TLS setup](#tls-setup)
-
----------------------------------------
-
-## Prerequisites
-
-* Go 1.17+
-* Installation via `go get -u github.com/apache/arrow/go/v18/arrow/flight/flightsql`
-* Backend speaking FlightSQL
-
----------------------------------------
-
-## Usage
-
-_Go FlightQL Driver_ is an implementation of Go's `database/sql/driver`
-interface to use the [`database/sql`](https://golang.org/pkg/database/sql/)
-framework. The driver is registered as `flightsql` and configured using a
-[data-source name (DSN)](#data-source-name-dsn).
-
-A basic example using a SQLite backend looks like this
-
-```go
-import (
-    "database/sql"
-    "time"
-
-    _ "github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-)
-
-// Open the connection to an SQLite backend
-db, err := sql.Open("flightsql", "flightsql://localhost:12345?timeout=5s")
-if err != nil {
-    panic(err)
-}
-// Make sure we close the connection to the database
-defer db.Close()
-
-// Use the connection e.g. for querying
-rows, err := db.Query("SELECT * FROM mytable")
-if err != nil {
-    panic(err)
-}
-// ...
-```
-
-## Data Source Name (DSN)
-
-A Data Source Name has the following format:
-
-```text
-flightsql://[user[:password]@]<address>[:port][?param1=value1&...&paramN=valueN]
-```
-
-The data-source-name (DSN) requires the `address` of the backend with an
-optional port setting. The `user` and `password` parameters are passed to the
-backend as GRPC Basic-Auth headers. If your backend requires a token based
-authentication, please use a `token` parameter (see
-[common parameters](#common-parameters) below).
-
-**Please note**: All parameters are case-sensitive!
-
-Alternatively to specifying the DSN directly you can use the `DriverConfig`
-structure to generate the DSN string. See the
-[Driver config usage section](#driver-config-usage) for details.
-
-### Common parameters
-
-The following common parameters exist
-
-#### `token`
-
-The `token` parameter can be used to specify the token for token-based
-authentication. The value is passed on to the backend as a GRPC Bearer-Auth
-header.
-
-#### `timeout`
-
-The `timeout` parameter can be set using a duration string e.g. `timeout=5s`
-to limit the maximum time an operation can take. This prevents calls that wait
-forever, e.g. if the backend is down or a query is taking very long. When
-not set, the driver will use an _infinite_ timeout.
-
-#### `tls`
-
-The `tls` parameter allows to enable and customize Transport-Layer-Security
-settings. There are some special values for the parameters:
-
-* `disabled` or `false` will disable TLS for this server connection. In this
-  case all other settings are ignored.
-* `enabled` or `true` will force TLS for this server connection. In this case
-  the system settings for trusted CAs etc will be used.
-* `skip-verify` will enable TLS for this server connection but will not verify
-  the server certificate. **This is a security risk and should not be used!**
-
-Any other value will be interpreted as the name of a custom configuration. Those
-configurations must be registered either by
-[creating the DSN from configuration](#driver-config-usage) or by calling
-`RegisterTLSConfig()` (see [TLS setup](#tls-setup) for details).
-
-## Driver config usage
-
-Alternatively to specifying the DSN directly you can fill the `DriverConfig`
-structure and generate the DSN out of this. Here is some example
-
-```golang
-package main
-
-import (
-    "database/sql"
-    "log"
-    "time"
-
-    "github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-)
-
-func main() {
-    config := flightsql.DriverConfig{
-        Address: "localhost:12345",
-        Token:   "your token",
-        Timeout: 10 * time.Second,
-        Params: map[string]string{
-            "my-custom-parameter": "foobar",
-        },
-    }
-    db, err := sql.Open("flightsql", config.DSN())
-    if err != nil {
-        log.Fatalf("open failed: %v", err)
-    }
-    defer db.Close()
-
-    ...
-}
-```
-
-## TLS setup
-
-By specifying the [`tls` parameter](#tls) you can enable
-Transport-Layer-Security. Using `tls=enabled` the system settings are used for
-verifying the server's certificate. Custom TLS configurations, e.g. when using
-self-signed certificates, are referenced by a user-selected name. The underlying
-TLS configuration needs to be registered (using the same name) in two ways.
-
-### TLS setup using `DriverConfig`
-
-The first way is to create a `DriverConfig` with the `TLSConfig` field set to
-the custom config and `TLSConfigName` set to the chosen name. For example
-
-```golang
-    ...
-
-    config := flightsql.DriverConfig{
-        Address: "localhost:12345",
-        TLSEnabled:    true,
-        TLSConfigName: "myconfig",
-        TLSConfig: &tls.Config{
-            MinVersion: tls.VersionTLS12,
-        },
-    }
-    dsn := config.DSN()
-
-    ...
-```
-
-will enable TLS forcing the minimum TLS version to 1.2. This custom config will
-be registered with the name `myconfig` and the resulting DSN reads
-
-```text
-flightsql://localhost:12345?tls=myconfig`
-```
-
-If the `TLSConfigName` is omitted a random unique name (UUID) is generated and
-referenced in the DSN. This prevents errors from using an already registered
-name leading to errors.
-
-### TLS setup using manual registration
-
-The second alternative is the manual registration of the custom TLS
-configuration. In this case you need to call `RegisterTLSConfig()` in your code
-
-```golang
-    myconfig := &tls.Config{MinVersion: tls.VersionTLS12}
-    if err := flightsql.RegisterTLSConfig("myconfig", myconfig); err != nil {
-        ...
-    }
-    dsn := "flightsql://localhost:12345?tls=myconfig"
-
-    ...
-```
-
-This will register the custom configuration, constraining the minimum TLS
-version, as `myconfig` and then references the registered configuration by
-name in the DSN. You can reuse the same TLS configuration by registering once
-and then reference in multiple DSNs. Registering multiple configurations with
-the same name will throw an error to prevent unintended side-effects due to the
-driver-global registry.
diff --git a/go/arrow/flight/flightsql/driver/config.go b/go/arrow/flight/flightsql/driver/config.go
deleted file mode 100644
index 9f1d56a31d582..0000000000000
--- a/go/arrow/flight/flightsql/driver/config.go
+++ /dev/null
@@ -1,209 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-package driver
-
-import (
-	"crypto/tls"
-	"fmt"
-	"net/url"
-	"sync"
-	"time"
-
-	"github.com/google/uuid"
-)
-
-// TLS configuration registry
-var (
-	tlsConfigRegistry = map[string]*tls.Config{
-		"skip-verify": {InsecureSkipVerify: true},
-	}
-	tlsRegistryMutex sync.Mutex
-)
-
-func RegisterTLSConfig(name string, cfg *tls.Config) error {
-	tlsRegistryMutex.Lock()
-	defer tlsRegistryMutex.Unlock()
-
-	// Prevent name collisions
-	if _, found := tlsConfigRegistry[name]; found {
-		return ErrRegistryEntryExists
-	}
-	tlsConfigRegistry[name] = cfg
-
-	return nil
-}
-
-func UnregisterTLSConfig(name string) error {
-	tlsRegistryMutex.Lock()
-	defer tlsRegistryMutex.Unlock()
-
-	if _, found := tlsConfigRegistry[name]; !found {
-		return ErrRegistryNoEntry
-	}
-
-	delete(tlsConfigRegistry, name)
-	return nil
-}
-
-func GetTLSConfig(name string) (*tls.Config, bool) {
-	tlsRegistryMutex.Lock()
-	defer tlsRegistryMutex.Unlock()
-
-	cfg, found := tlsConfigRegistry[name]
-	return cfg, found
-}
-
-type DriverConfig struct {
-	Address  string
-	Username string
-	Password string
-	Token    string
-	Timeout  time.Duration
-	Params   map[string]string
-
-	TLSEnabled    bool
-	TLSConfigName string
-	TLSConfig     *tls.Config
-}
-
-func NewDriverConfigFromDSN(dsn string) (*DriverConfig, error) {
-	u, err := url.Parse(dsn)
-	if err != nil {
-		return nil, fmt.Errorf("invalid URL: %w", err)
-	}
-
-	// Sanity checks on the given connection string
-	if u.Scheme != "flightsql" {
-		return nil, fmt.Errorf("invalid scheme %q", u.Scheme)
-	}
-	if u.Path != "" {
-		return nil, fmt.Errorf("unexpected path %q", u.Path)
-	}
-
-	// Extract the settings
-	var username, password string
-	if u.User != nil {
-		username = u.User.Username()
-		if v, set := u.User.Password(); set {
-			password = v
-		}
-	}
-
-	config := &DriverConfig{
-		Address:  u.Host,
-		Username: username,
-		Password: password,
-		Params:   make(map[string]string),
-	}
-
-	// Determine the parameters
-	for key, values := range u.Query() {
-		// We only support single instances
-		if len(values) > 1 {
-			return nil, fmt.Errorf("too many values for %q", key)
-		}
-		var v string
-		if len(values) > 0 {
-			v = values[0]
-		}
-
-		switch key {
-		case "token":
-			config.Token = v
-		case "timeout":
-			config.Timeout, err = time.ParseDuration(v)
-			if err != nil {
-				return nil, err
-			}
-		case "tls":
-			switch v {
-			case "true", "enabled":
-				config.TLSEnabled = true
-			case "false", "disabled":
-				config.TLSEnabled = false
-			default:
-				config.TLSEnabled = true
-				config.TLSConfigName = v
-				cfg, found := GetTLSConfig(config.TLSConfigName)
-				if !found {
-					return nil, fmt.Errorf("%q TLS %w", config.TLSConfigName, ErrRegistryNoEntry)
-				}
-				config.TLSConfig = cfg
-			}
-		default:
-			config.Params[key] = v
-		}
-	}
-
-	return config, nil
-}
-
-func (config *DriverConfig) DSN() string {
-	u := url.URL{
-		Scheme: "flightsql",
-		Host:   config.Address,
-	}
-	if config.Username != "" {
-		if config.Password == "" {
-			u.User = url.User(config.Username)
-		} else {
-			u.User = url.UserPassword(config.Username, config.Password)
-		}
-	}
-
-	// Set the parameters
-	values := url.Values{}
-	if config.Token != "" {
-		values.Add("token", config.Token)
-	}
-	if config.Timeout > 0 {
-		values.Add("timeout", config.Timeout.String())
-	}
-	if config.TLSEnabled {
-		switch config.TLSConfigName {
-		case "skip-verify":
-			values.Add("tls", "skip-verify")
-		case "":
-			// Use system defaults if no config is given
-			if config.TLSConfig == nil {
-				values.Add("tls", "enabled")
-				break
-			}
-			// We got a custom TLS configuration but no name, create a unique one
-			config.TLSConfigName = uuid.NewString()
-			fallthrough
-		default:
-			values.Add("tls", config.TLSConfigName)
-			if config.TLSConfig != nil {
-				// Ignore the returned error as we do not care if the config
-				// was registered before. If this fails and the config is not
-				// yet registered, the driver will error out when parsing the
-				// DSN.
-				_ = RegisterTLSConfig(config.TLSConfigName, config.TLSConfig)
-			}
-		}
-	}
-	for k, v := range config.Params {
-		values.Add(k, v)
-	}
-
-	// Check if we do have parameters at all and set them
-	if len(values) > 0 {
-		u.RawQuery = values.Encode()
-	}
-
-	return u.String()
-}
diff --git a/go/arrow/flight/flightsql/driver/config_test.go b/go/arrow/flight/flightsql/driver/config_test.go
deleted file mode 100644
index d74f9d84d0f1e..0000000000000
--- a/go/arrow/flight/flightsql/driver/config_test.go
+++ /dev/null
@@ -1,427 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-package driver_test
-
-import (
-	"crypto/tls"
-	"testing"
-	"time"
-
-	"github.com/stretchr/testify/require"
-
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/driver"
-)
-
-func TestConfigTLSRegistry(t *testing.T) {
-	const cfgname = "bananarama"
-
-	// Check if the 'skip-verify' entry exists
-	expected := &tls.Config{InsecureSkipVerify: true}
-	actual, found := driver.GetTLSConfig("skip-verify")
-	require.True(t, found)
-	require.EqualValues(t, expected, actual)
-
-	// Make sure the testing entry does not exist
-	_, found = driver.GetTLSConfig(cfgname)
-	require.False(t, found)
-
-	// Register a new expected config and check it contains the right config
-	expected = &tls.Config{
-		ServerName: "myserver.company.org",
-		MinVersion: tls.VersionTLS12,
-	}
-	require.NoError(t, driver.RegisterTLSConfig(cfgname, expected))
-	actual, found = driver.GetTLSConfig(cfgname)
-	require.True(t, found)
-	require.EqualValues(t, expected, actual)
-
-	// Registering the config again will fail
-	require.ErrorIs(t, driver.RegisterTLSConfig(cfgname, expected), driver.ErrRegistryEntryExists)
-
-	// Unregister the config
-	require.NoError(t, driver.UnregisterTLSConfig(cfgname))
-	_, found = driver.GetTLSConfig(cfgname)
-	require.False(t, found)
-
-	// Unregistering a non-existing config fails
-	require.ErrorIs(t, driver.UnregisterTLSConfig(cfgname), driver.ErrRegistryNoEntry)
-}
-
-func TestConfigFromDSNInvalid(t *testing.T) {
-	testcases := []struct {
-		name     string
-		dsn      string
-		expected string
-	}{
-		{
-			name:     "empty config",
-			expected: "invalid scheme",
-		},
-		{
-			name:     "invalid url",
-			dsn:      "flightsql://my host",
-			expected: "invalid URL",
-		},
-		{
-			name:     "invalid path",
-			dsn:      "flightsql://127.0.0.1/someplace",
-			expected: "unexpected path",
-		},
-		{
-			name:     "invalid timeout",
-			dsn:      "flightsql://127.0.0.1?timeout=2",
-			expected: "missing unit in duration",
-		},
-		{
-			name:     "multiple parameters (timeout)",
-			dsn:      "flightsql://127.0.0.1:12345?timeout=123s&timeout=4s",
-			expected: "too many values",
-		},
-		{
-			name:     "multiple parameters (other)",
-			dsn:      "flightsql://127.0.0.1:12345?foo=1&bar=true&foo=yes",
-			expected: "too many values",
-		},
-		{
-			name:     "TLS unregistered config",
-			dsn:      "flightsql://127.0.0.1:12345?tls=mycfg",
-			expected: "TLS entry not registered",
-		},
-	}
-
-	for _, tt := range testcases {
-		t.Run(tt.name, func(t *testing.T) {
-			actual, err := driver.NewDriverConfigFromDSN(tt.dsn)
-			require.ErrorContains(t, err, tt.expected)
-			require.Nil(t, actual)
-		})
-	}
-}
-
-func TestConfigFromDSN(t *testing.T) {
-	// Register a custom TLS config for testing
-	tlscfg := &tls.Config{
-		ServerName: "myserver.company.org",
-		MinVersion: tls.VersionTLS12,
-	}
-	require.NoError(t, driver.RegisterTLSConfig("mycfg", tlscfg))
-
-	// Define the test-cases
-	testcases := []struct {
-		name     string
-		dsn      string
-		expected *driver.DriverConfig
-	}{
-		{
-			name: "no authentication",
-			dsn:  "flightsql://127.0.0.1:12345",
-			expected: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name: "username only authentication",
-			dsn:  "flightsql://peter@127.0.0.1:12345",
-			expected: &driver.DriverConfig{
-				Address:  "127.0.0.1:12345",
-				Username: "peter",
-				Params:   make(map[string]string),
-			},
-		},
-		{
-			name: "username and password authentication",
-			dsn:  "flightsql://peter:parker@127.0.0.1:12345",
-			expected: &driver.DriverConfig{
-				Address:  "127.0.0.1:12345",
-				Username: "peter",
-				Password: "parker",
-				Params:   make(map[string]string),
-			},
-		},
-		{
-			name: "token authentication",
-			dsn:  "flightsql://127.0.0.1:12345?token=012345abcde6789fgh",
-			expected: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Token:   "012345abcde6789fgh",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name: "timeout",
-			dsn:  "flightsql://127.0.0.1:12345?timeout=123s",
-			expected: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Timeout: 123 * time.Second,
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name: "custom parameters",
-			dsn:  "flightsql://127.0.0.1:12345?timeout=200ms&database=mydb&pi=3.14",
-			expected: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Timeout: 200 * time.Millisecond,
-				Params: map[string]string{
-					"database": "mydb",
-					"pi":       "3.14",
-				},
-			},
-		},
-		{
-			name: "TLS explicitly disabled",
-			dsn:  "flightsql://127.0.0.1:12345?tls=disabled",
-			expected: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name: "TLS explicitly disabled (false)",
-			dsn:  "flightsql://127.0.0.1:12345?tls=false",
-			expected: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name: "TLS system settings",
-			dsn:  "flightsql://127.0.0.1:12345?tls=enabled",
-			expected: &driver.DriverConfig{
-				Address:    "127.0.0.1:12345",
-				TLSEnabled: true,
-				Params:     make(map[string]string),
-			},
-		},
-		{
-			name: "TLS system settings (true)",
-			dsn:  "flightsql://127.0.0.1:12345?tls=true",
-			expected: &driver.DriverConfig{
-				Address:    "127.0.0.1:12345",
-				TLSEnabled: true,
-				Params:     make(map[string]string),
-			},
-		},
-		{
-			name: "TLS insecure skip-verify",
-			dsn:  "flightsql://127.0.0.1:12345?tls=skip-verify",
-			expected: &driver.DriverConfig{
-				Address:       "127.0.0.1:12345",
-				TLSEnabled:    true,
-				TLSConfigName: "skip-verify",
-				TLSConfig:     &tls.Config{InsecureSkipVerify: true},
-				Params:        make(map[string]string),
-			},
-		},
-		{
-			name: "TLS custom config",
-			dsn:  "flightsql://127.0.0.1:12345?tls=mycfg",
-			expected: &driver.DriverConfig{
-				Address:       "127.0.0.1:12345",
-				TLSEnabled:    true,
-				TLSConfigName: "mycfg",
-				TLSConfig:     tlscfg,
-				Params:        make(map[string]string),
-			},
-		},
-	}
-
-	for _, tt := range testcases {
-		t.Run(tt.name, func(t *testing.T) {
-			actual, err := driver.NewDriverConfigFromDSN(tt.dsn)
-			require.NoError(t, err)
-			require.EqualValues(t, tt.expected, actual)
-		})
-	}
-}
-
-func TestDSNFromConfig(t *testing.T) {
-	// Define the test-cases
-	testcases := []struct {
-		name     string
-		expected string
-		drvcfg   *driver.DriverConfig
-	}{
-		{
-			name:     "no authentication",
-			expected: "flightsql://127.0.0.1:12345",
-			drvcfg: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name:     "username only authentication",
-			expected: "flightsql://peter@127.0.0.1:12345",
-			drvcfg: &driver.DriverConfig{
-				Address:  "127.0.0.1:12345",
-				Username: "peter",
-				Params:   make(map[string]string),
-			},
-		},
-		{
-			name:     "username and password authentication",
-			expected: "flightsql://peter:parker@127.0.0.1:12345",
-			drvcfg: &driver.DriverConfig{
-				Address:  "127.0.0.1:12345",
-				Username: "peter",
-				Password: "parker",
-				Params:   make(map[string]string),
-			},
-		},
-		{
-			name:     "token authentication",
-			expected: "flightsql://127.0.0.1:12345?token=012345abcde6789fgh",
-			drvcfg: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Token:   "012345abcde6789fgh",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name:     "timeout",
-			expected: "flightsql://127.0.0.1:12345?timeout=3s",
-			drvcfg: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Timeout: 3 * time.Second,
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name:     "custom parameters",
-			expected: "flightsql://127.0.0.1:12345?database=mydb&pi=3.14&timeout=20ms",
-			drvcfg: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Timeout: 20 * time.Millisecond,
-				Params: map[string]string{
-					"database": "mydb",
-					"pi":       "3.14",
-				},
-			},
-		},
-		{
-			name:     "TLS disabled",
-			expected: "flightsql://127.0.0.1:12345",
-			drvcfg: &driver.DriverConfig{
-				Address: "127.0.0.1:12345",
-				Params:  make(map[string]string),
-			},
-		},
-		{
-			name:     "TLS system settings",
-			expected: "flightsql://127.0.0.1:12345?tls=enabled",
-			drvcfg: &driver.DriverConfig{
-				Address:    "127.0.0.1:12345",
-				TLSEnabled: true,
-				Params:     make(map[string]string),
-			},
-		},
-		{
-			name:     "TLS insecure skip-verify",
-			expected: "flightsql://127.0.0.1:12345?tls=skip-verify",
-			drvcfg: &driver.DriverConfig{
-				Address:       "127.0.0.1:12345",
-				TLSEnabled:    true,
-				TLSConfigName: "skip-verify",
-				TLSConfig:     &tls.Config{InsecureSkipVerify: true},
-				Params:        make(map[string]string),
-			},
-		},
-		{
-			name:     "TLS disabled",
-			expected: "flightsql://127.0.0.1:12345",
-			drvcfg: &driver.DriverConfig{
-				Address:       "127.0.0.1:12345",
-				TLSEnabled:    false,
-				TLSConfigName: "a random cfg",
-				TLSConfig: &tls.Config{
-					ServerName: "myserver.company.org",
-					MinVersion: tls.VersionTLS12,
-				},
-				Params: make(map[string]string),
-			},
-		},
-		{
-			name:     "TLS custom config",
-			expected: "flightsql://127.0.0.1:12345?tls=mycfg",
-			drvcfg: &driver.DriverConfig{
-				Address:       "127.0.0.1:12345",
-				TLSEnabled:    true,
-				TLSConfigName: "mycfg",
-				TLSConfig: &tls.Config{
-					ServerName: "myserver.company.org",
-					MinVersion: tls.VersionTLS12,
-				},
-				Params: make(map[string]string),
-			},
-		},
-	}
-
-	for _, tt := range testcases {
-		t.Run(tt.name, func(t *testing.T) {
-			actual := tt.drvcfg.DSN()
-			require.Equal(t, tt.expected, actual)
-		})
-	}
-}
-
-func TestDSNFromConfigCustomTLS(t *testing.T) {
-	expected := "flightsql://127.0.0.1:12345?tls=mycustomcfg"
-
-	tlscfg := &tls.Config{
-		ServerName: "myserver.company.org",
-		MinVersion: tls.VersionTLS12,
-	}
-
-	drvcfg := &driver.DriverConfig{
-		Address:       "127.0.0.1:12345",
-		TLSEnabled:    true,
-		TLSConfigName: "mycustomcfg",
-		TLSConfig:     tlscfg,
-		Params:        make(map[string]string),
-	}
-
-	require.Equal(t, expected, drvcfg.DSN())
-	cfg, found := driver.GetTLSConfig("mycustomcfg")
-	require.True(t, found)
-	require.EqualValues(t, tlscfg, cfg)
-}
-
-func TestDSNFromConfigUnnamedCustomTLS(t *testing.T) {
-	expected := "flightsql://127.0.0.1:12345?tls="
-
-	tlscfg := &tls.Config{
-		ServerName: "myserver.company.org",
-		MinVersion: tls.VersionTLS12,
-	}
-
-	drvcfg := &driver.DriverConfig{
-		Address:    "127.0.0.1:12345",
-		TLSEnabled: true,
-		TLSConfig:  tlscfg,
-		Params:     make(map[string]string),
-	}
-
-	actual := drvcfg.DSN()
-	require.NotEmpty(t, drvcfg.TLSConfigName)
-	// Get the generated UUID and add it to the expected DSN
-	expected += drvcfg.TLSConfigName
-	require.Equal(t, expected, actual)
-	cfg, found := driver.GetTLSConfig(drvcfg.TLSConfigName)
-	require.True(t, found)
-	require.EqualValues(t, tlscfg, cfg)
-}
diff --git a/go/arrow/flight/flightsql/driver/driver.go b/go/arrow/flight/flightsql/driver/driver.go
deleted file mode 100644
index 0513fe1ecd346..0000000000000
--- a/go/arrow/flight/flightsql/driver/driver.go
+++ /dev/null
@@ -1,615 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-package driver
-
-import (
-	"context"
-	"database/sql"
-	"database/sql/driver"
-	"errors"
-	"fmt"
-	"io"
-	"sort"
-	"sync"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials"
-	"google.golang.org/grpc/credentials/insecure"
-)
-
-const recordChanBufferSizeDefault = 1
-
-type Rows struct {
-	// schema stores the row schema, like column names.
-	schema *arrow.Schema
-	// recordChan enables async reading from server, while client interates.
-	recordChan chan arrow.Record
-	// currentRecord stores a record with n>=0 rows.
-	currentRecord arrow.Record
-	// currentRow tracks the position (row) within currentRecord.
-	currentRow uint64
-	// initializedChan prevents the row being used before properly initialized.
-	initializedChan chan bool
-	// streamError stores the error that interrupted streaming.
-	streamError    error
-	streamErrorMux sync.RWMutex
-	// ctxCancelFunc when called, triggers the streaming cancelation.
-	ctxCancelFunc context.CancelFunc
-}
-
-func newRows() *Rows {
-	return &Rows{
-		recordChan:      make(chan arrow.Record, recordChanBufferSizeDefault),
-		initializedChan: make(chan bool),
-	}
-}
-
-func (r *Rows) setStreamError(err error) {
-	r.streamErrorMux.Lock()
-	defer r.streamErrorMux.Unlock()
-
-	r.streamError = err
-}
-
-func (r *Rows) getStreamError() error {
-	r.streamErrorMux.RLock()
-	defer r.streamErrorMux.RUnlock()
-
-	return r.streamError
-}
-
-// Columns returns the names of the columns.
-func (r *Rows) Columns() []string {
-	if r.schema == nil {
-		return nil
-	}
-
-	// All records have the same columns.
-	cols := make([]string, len(r.schema.Fields()))
-	for i, c := range r.schema.Fields() {
-		cols[i] = c.Name
-	}
-
-	return cols
-}
-
-func (r *Rows) releaseRecord() {
-	if r.currentRecord != nil {
-		r.currentRecord.Release()
-		r.currentRecord = nil
-	}
-}
-
-// Close closes the rows iterator.
-func (r *Rows) Close() error {
-	r.ctxCancelFunc() // interrupting data streaming.
-
-	r.currentRow = 0
-
-	r.releaseRecord()
-
-	return nil
-}
-
-// Next is called to populate the next row of data into
-// the provided slice. The provided slice will be the same
-// size as the Columns() are wide.
-//
-// Next should return io.EOF when there are no more rows.
-//
-// The dest should not be written to outside of Next. Care
-// should be taken when closing Rows not to modify
-// a buffer held in dest.
-func (r *Rows) Next(dest []driver.Value) error {
-	if r.currentRecord == nil || int64(r.currentRow) >= r.currentRecord.NumRows() {
-		if err := r.getStreamError(); err != nil {
-			return err
-		}
-
-		r.releaseRecord()
-
-		// Get the next record from the channel
-		var ok bool
-		if r.currentRecord, ok = <-r.recordChan; !ok {
-			return io.EOF // Channel closed, no more records
-		}
-
-		r.currentRow = 0
-
-		// safety double-check
-		if r.currentRecord == nil || int64(r.currentRow) >= r.currentRecord.NumRows() {
-			return io.EOF // Channel closed, no more records
-		}
-	}
-
-	for i, col := range r.currentRecord.Columns() {
-		v, err := fromArrowType(col, int(r.currentRow))
-		if err != nil {
-			return err
-		}
-
-		dest[i] = v
-	}
-
-	r.currentRow++
-
-	return nil
-}
-
-type Result struct {
-	affected   int64
-	lastinsert int64
-}
-
-// LastInsertId returns the database's auto-generated ID after, for example,
-// an INSERT into a table with primary key.
-func (r *Result) LastInsertId() (int64, error) {
-	if r.lastinsert < 0 {
-		return -1, ErrNotSupported
-	}
-	return r.lastinsert, nil
-}
-
-// RowsAffected returns the number of rows affected by the query.
-func (r *Result) RowsAffected() (int64, error) {
-	if r.affected < 0 {
-		return -1, ErrNotSupported
-	}
-	return r.affected, nil
-}
-
-type Stmt struct {
-	stmt   *flightsql.PreparedStatement
-	client *flightsql.Client
-
-	timeout time.Duration
-}
-
-// Close closes the statement.
-func (s *Stmt) Close() error {
-	ctx := context.Background()
-	if s.timeout > 0 {
-		var cancel context.CancelFunc
-		ctx, cancel = context.WithTimeout(ctx, s.timeout)
-		defer cancel()
-	}
-
-	return s.stmt.Close(ctx)
-}
-
-// NumInput returns the number of placeholder parameters.
-func (s *Stmt) NumInput() int {
-	schema := s.stmt.ParameterSchema()
-	if schema == nil {
-		// NumInput may also return -1, if the driver doesn't know its number
-		// of placeholders. In that case, the sql package will not sanity check
-		// Exec or Query argument counts.
-		return -1
-	}
-
-	// If NumInput returns >= 0, the sql package will sanity check argument
-	// counts from callers and return errors to the caller before the
-	// statement's Exec or Query methods are called.
-	return schema.NumFields()
-}
-
-// Exec executes a query that doesn't return rows, such
-// as an INSERT or UPDATE.
-func (s *Stmt) Exec(args []driver.Value) (driver.Result, error) {
-	var params []driver.NamedValue
-	for i, arg := range args {
-		params = append(params, driver.NamedValue{
-			Ordinal: i,
-			Value:   arg,
-		})
-	}
-
-	return s.ExecContext(context.Background(), params)
-}
-
-// ExecContext executes a query that doesn't return rows, such as an INSERT or UPDATE.
-func (s *Stmt) ExecContext(ctx context.Context, args []driver.NamedValue) (driver.Result, error) {
-	if err := s.setParameters(args); err != nil {
-		return nil, err
-	}
-
-	if _, set := ctx.Deadline(); !set && s.timeout > 0 {
-		var cancel context.CancelFunc
-		ctx, cancel = context.WithTimeout(ctx, s.timeout)
-		defer cancel()
-	}
-
-	n, err := s.stmt.ExecuteUpdate(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	return &Result{affected: n, lastinsert: -1}, nil
-}
-
-// Query executes a query that may return rows, such as a SELECT.
-func (s *Stmt) Query(args []driver.Value) (driver.Rows, error) {
-	var params []driver.NamedValue
-	for i, arg := range args {
-		params = append(params, driver.NamedValue{
-			Ordinal: i,
-			Value:   arg,
-		})
-	}
-
-	return s.QueryContext(context.Background(), params)
-}
-
-// QueryContext executes a query that may return rows, such as a SELECT.
-func (s *Stmt) QueryContext(ctx context.Context, args []driver.NamedValue) (driver.Rows, error) {
-	if err := s.setParameters(args); err != nil {
-		return nil, err
-	}
-
-	execCtx := ctx
-	if _, set := ctx.Deadline(); !set && s.timeout > 0 {
-		var cancel context.CancelFunc
-		execCtx, cancel = context.WithTimeout(ctx, s.timeout)
-		defer cancel()
-	}
-
-	info, err := s.stmt.Execute(execCtx)
-	if err != nil {
-		return nil, err
-	}
-
-	rows := newRows()
-	ctx, rows.ctxCancelFunc = context.WithCancel(ctx)
-
-	go rows.streamRecordset(ctx, s.client, info.Endpoint)
-
-	<-rows.initializedChan // waits the rows proper initialization.
-
-	return rows, nil
-}
-
-func (s *Stmt) setParameters(args []driver.NamedValue) error {
-	if len(args) == 0 {
-		s.stmt.SetParameters(nil)
-		return nil
-	}
-
-	sort.SliceStable(args, func(i, j int) bool {
-		return args[i].Ordinal < args[j].Ordinal
-	})
-
-	schema := s.stmt.ParameterSchema()
-	if schema == nil {
-		var fields []arrow.Field
-		for _, arg := range args {
-			dt, err := toArrowDataType(arg.Value)
-			if err != nil {
-				return fmt.Errorf("schema: %w", err)
-			}
-			fields = append(fields, arrow.Field{
-				Name: arg.Name,
-				Type: dt,
-			})
-		}
-		schema = arrow.NewSchema(fields, nil)
-	}
-
-	recBuilder := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer recBuilder.Release()
-
-	for i, arg := range args {
-		fieldBuilder := recBuilder.Field(i)
-		if err := setFieldValue(fieldBuilder, arg.Value); err != nil {
-			return err
-		}
-	}
-
-	rec := recBuilder.NewRecord()
-	defer rec.Release()
-
-	s.stmt.SetParameters(rec)
-
-	return nil
-}
-
-type Tx struct {
-	tx      *flightsql.Txn
-	timeout time.Duration
-}
-
-func (t *Tx) Commit() error {
-	ctx := context.Background()
-	if t.timeout > 0 {
-		var cancel context.CancelFunc
-		ctx, cancel = context.WithTimeout(ctx, t.timeout)
-		defer cancel()
-	}
-
-	return t.tx.Commit(ctx)
-}
-
-func (t *Tx) Rollback() error {
-	ctx := context.Background()
-	if t.timeout > 0 {
-		var cancel context.CancelFunc
-		ctx, cancel = context.WithTimeout(ctx, t.timeout)
-		defer cancel()
-	}
-
-	return t.tx.Rollback(ctx)
-}
-
-type Driver struct{}
-
-// Open returns a new connection to the database.
-func (d *Driver) Open(name string) (driver.Conn, error) {
-	c, err := d.OpenConnector(name)
-	if err != nil {
-		return nil, err
-	}
-
-	return c.Connect(context.Background())
-}
-
-// OpenConnector must parse the name in the same format that Driver.Open
-// parses the name parameter.
-func (d *Driver) OpenConnector(name string) (driver.Connector, error) {
-	config, err := NewDriverConfigFromDSN(name)
-	if err != nil {
-		return nil, err
-	}
-
-	c := &Connector{}
-	if err := c.Configure(config); err != nil {
-		return nil, err
-	}
-
-	return c, nil
-}
-
-type Connector struct {
-	addr    string
-	timeout time.Duration
-	options []grpc.DialOption
-}
-
-// Configure the driver with the corresponding config
-func (c *Connector) Configure(config *DriverConfig) error {
-	// Set the driver properties
-	c.addr = config.Address
-	c.timeout = config.Timeout
-	c.options = []grpc.DialOption{grpc.WithBlock()}
-
-	// Create GRPC options necessary for the backend
-	var transportCreds credentials.TransportCredentials
-	if !config.TLSEnabled {
-		transportCreds = insecure.NewCredentials()
-	} else {
-		transportCreds = credentials.NewTLS(config.TLSConfig)
-	}
-	c.options = append(c.options, grpc.WithTransportCredentials(transportCreds))
-
-	// Set authentication credentials
-	rpcCreds := grpcCredentials{
-		username:   config.Username,
-		password:   config.Password,
-		token:      config.Token,
-		params:     config.Params,
-		tlsEnabled: config.TLSEnabled,
-	}
-	c.options = append(c.options, grpc.WithPerRPCCredentials(rpcCreds))
-
-	return nil
-}
-
-// Connect returns a connection to the database.
-func (c *Connector) Connect(ctx context.Context) (driver.Conn, error) {
-	if _, set := ctx.Deadline(); !set && c.timeout > 0 {
-		var cancel context.CancelFunc
-		ctx, cancel = context.WithTimeout(ctx, c.timeout)
-		defer cancel()
-	}
-
-	client, err := flightsql.NewClientCtx(ctx, c.addr, nil, nil, c.options...)
-	if err != nil {
-		return nil, err
-	}
-
-	return &Connection{
-		client:  client,
-		timeout: c.timeout,
-	}, nil
-}
-
-// Driver returns the underlying Driver of the Connector,
-// mainly to maintain compatibility with the Driver method
-// on sql.DB.
-func (c *Connector) Driver() driver.Driver {
-	return &Driver{}
-}
-
-type Connection struct {
-	client *flightsql.Client
-	txn    *flightsql.Txn
-
-	timeout time.Duration
-}
-
-// Prepare returns a prepared statement, bound to this connection.
-func (c *Connection) Prepare(query string) (driver.Stmt, error) {
-	return c.PrepareContext(context.Background(), query)
-}
-
-// PrepareContext returns a prepared statement, bound to this connection.
-// context is for the preparation of the statement,
-// it must not store the context within the statement itself.
-func (c *Connection) PrepareContext(ctx context.Context, query string) (driver.Stmt, error) {
-	if _, set := ctx.Deadline(); !set && c.timeout > 0 {
-		var cancel context.CancelFunc
-		ctx, cancel = context.WithTimeout(ctx, c.timeout)
-		defer cancel()
-	}
-
-	var err error
-	var stmt *flightsql.PreparedStatement
-	if c.txn != nil && c.txn.ID().IsValid() {
-		stmt, err = c.txn.Prepare(ctx, query)
-	} else {
-		stmt, err = c.client.Prepare(ctx, query)
-		c.txn = nil
-	}
-	if err != nil {
-		return nil, err
-	}
-
-	s := &Stmt{
-		stmt:    stmt,
-		client:  c.client,
-		timeout: c.timeout,
-	}
-
-	return s, nil
-}
-
-func (c *Connection) QueryContext(ctx context.Context, query string, args []driver.NamedValue) (driver.Rows, error) {
-	if len(args) > 0 {
-		// We cannot pass arguments to the client so we skip a direct query.
-		// This will force the sql-framework to prepare and execute queries.
-		return nil, driver.ErrSkip
-	}
-
-	execCtx := ctx
-	if _, set := ctx.Deadline(); !set && c.timeout > 0 {
-		var cancel context.CancelFunc
-		execCtx, cancel = context.WithTimeout(ctx, c.timeout)
-		defer cancel()
-	}
-
-	info, err := c.client.Execute(execCtx, query)
-	if err != nil {
-		return nil, err
-	}
-
-	rows := newRows()
-	ctx, rows.ctxCancelFunc = context.WithCancel(ctx)
-
-	go rows.streamRecordset(ctx, c.client, info.Endpoint)
-
-	<-rows.initializedChan // waits the rows proper initialization.
-
-	return rows, nil
-}
-
-func (r *Rows) streamRecordset(ctx context.Context, c *flightsql.Client, endpoints []*flight.FlightEndpoint) {
-	defer close(r.recordChan)
-
-	// initializeOnceOnly ensures the {r.initializedChan} is valued once only, preventing a deadlock.
-	initializeOnceOnly := &sync.Once{}
-
-	defer func() { // in case of error, init anyway.
-		initializeOnceOnly.Do(func() { r.initializedChan <- true })
-	}()
-
-	// reads each endpoint.
-	for _, endpoint := range endpoints {
-		if ctx.Err() != nil {
-			r.setStreamError(fmt.Errorf("recordset streaming interrupted by context error: %w", ctx.Err()))
-			return
-		}
-
-		func() { // with a func() is possible to {defer reader.Release()}.
-			reader, err := c.DoGet(ctx, endpoint.GetTicket())
-			if err != nil {
-				r.setStreamError(fmt.Errorf("getting ticket failed: %w", err))
-				return
-			}
-
-			defer reader.Release()
-
-			r.schema = reader.Schema()
-
-			// reads each record into a blocking channel
-			for reader.Next() {
-				if ctx.Err() != nil {
-					r.setStreamError(fmt.Errorf("recordset streaming interrupted by context error: %w", ctx.Err()))
-					return
-				}
-
-				record := reader.Record()
-				record.Retain()
-
-				if record.NumRows() < 1 {
-					record.Release()
-					continue
-				}
-
-				r.recordChan <- record
-
-				go initializeOnceOnly.Do(func() { r.initializedChan <- true })
-			}
-
-			if err := reader.Err(); err != nil && !errors.Is(err, io.EOF) {
-				r.setStreamError(err)
-				return
-			}
-		}()
-	}
-}
-
-// Close invalidates and potentially stops any current
-// prepared statements and transactions, marking this
-// connection as no longer in use.
-func (c *Connection) Close() error {
-	if c.txn != nil && c.txn.ID().IsValid() {
-		return ErrTransactionInProgress
-	}
-
-	if c.client == nil {
-		return nil
-	}
-
-	err := c.client.Close()
-	c.client = nil
-
-	return err
-}
-
-// Begin starts and returns a new transaction.
-func (c *Connection) Begin() (driver.Tx, error) {
-	return c.BeginTx(context.Background(), sql.TxOptions{})
-}
-
-func (c *Connection) BeginTx(ctx context.Context, opts sql.TxOptions) (driver.Tx, error) {
-	tx, err := c.client.BeginTransaction(ctx)
-	if err != nil {
-		return nil, err
-	}
-	c.txn = tx
-
-	return &Tx{tx: tx, timeout: c.timeout}, nil
-}
-
-// Register the driver on load.
-func init() {
-	sql.Register("flightsql", &Driver{})
-}
diff --git a/go/arrow/flight/flightsql/driver/driver_test.go b/go/arrow/flight/flightsql/driver/driver_test.go
deleted file mode 100644
index c00dfe3c5d9a0..0000000000000
--- a/go/arrow/flight/flightsql/driver/driver_test.go
+++ /dev/null
@@ -1,1858 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package driver_test
-
-import (
-	"context"
-	"database/sql"
-	"errors"
-	"fmt"
-	"math/rand"
-	"os"
-	"strings"
-	"sync"
-	"testing"
-	"time"
-
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/driver"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/example"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-const defaultTableName = "drivertest"
-
-var defaultStatements = map[string]string{
-	"create table": `
-CREATE TABLE %s (
-  id INTEGER PRIMARY KEY AUTOINCREMENT,
-  name varchar(100),
-  value int
-);`,
-	"insert":            `INSERT INTO %s (name, value) VALUES ('%s', %d);`,
-	"query":             `SELECT * FROM %s;`,
-	"constraint query":  `SELECT * FROM %s WHERE name LIKE '%%%s%%'`,
-	"placeholder query": `SELECT * FROM %s WHERE name LIKE ?`,
-}
-
-type SqlTestSuite struct {
-	suite.Suite
-
-	Config     driver.DriverConfig
-	TableName  string
-	Statements map[string]string
-
-	createServer func() (flight.Server, string, error)
-	startServer  func(flight.Server) error
-	stopServer   func(flight.Server)
-}
-
-func (s *SqlTestSuite) SetupSuite() {
-	if s.TableName == "" {
-		s.TableName = defaultTableName
-	}
-
-	if s.Statements == nil {
-		s.Statements = make(map[string]string)
-	}
-	// Fill in the statements. Keep statements already defined e.g. by the
-	// user or suite-generator.
-	for k, v := range defaultStatements {
-		if _, found := s.Statements[k]; !found {
-			s.Statements[k] = v
-		}
-	}
-
-	require.Contains(s.T(), s.Statements, "create table")
-	require.Contains(s.T(), s.Statements, "insert")
-	require.Contains(s.T(), s.Statements, "query")
-	require.Contains(s.T(), s.Statements, "constraint query")
-	require.Contains(s.T(), s.Statements, "placeholder query")
-}
-
-func (s *SqlTestSuite) TestOpenClose() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	require.NoError(t, db.Close())
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestCreateTable() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	result, err := db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	affected, err := result.RowsAffected()
-	require.Equal(t, int64(0), affected)
-	require.NoError(t, err)
-
-	last, err := result.LastInsertId()
-	require.Equal(t, int64(-1), last)
-	require.ErrorIs(t, err, driver.ErrNotSupported)
-
-	require.NoError(t, db.Close())
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestInsert() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Create the table
-	_, err = db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	values := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	var stmts []string
-	for k, v := range values {
-		stmts = append(stmts, fmt.Sprintf(s.Statements["insert"], s.TableName, k, v))
-	}
-	result, err := db.Exec(strings.Join(stmts, "\n"))
-	require.NoError(t, err)
-
-	affected, err := result.RowsAffected()
-	require.Equal(t, int64(1), affected)
-	require.NoError(t, err)
-
-	require.NoError(t, db.Close())
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestQuery() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Create the table
-	_, err = db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	expected := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	var stmts []string
-	for k, v := range expected {
-		stmts = append(stmts, fmt.Sprintf(s.Statements["insert"], s.TableName, k, v))
-	}
-	_, err = db.Exec(strings.Join(stmts, "\n"))
-	require.NoError(t, err)
-
-	rows, err := db.Query(fmt.Sprintf(s.Statements["query"], s.TableName))
-	require.NoError(t, err)
-
-	// Check result
-	actual := make(map[string]int, len(expected))
-	for rows.Next() {
-		var name string
-		var id, value int
-		require.NoError(t, rows.Scan(&id, &name, &value))
-		actual[name] = value
-	}
-	require.NoError(t, db.Close())
-	require.EqualValues(t, expected, actual)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestQueryWithEmptyResultset() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Create the table
-	_, err = db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	rows, err := db.Query(fmt.Sprintf(s.Statements["query"], s.TableName))
-	require.NoError(t, err)
-	require.False(t, rows.Next())
-
-	row := db.QueryRow(fmt.Sprintf(s.Statements["query"], s.TableName))
-	require.NotNil(t, row)
-	require.NoError(t, row.Err())
-
-	target := make(map[string]any)
-	err = row.Scan(&target)
-	require.ErrorIs(t, err, sql.ErrNoRows)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestPreparedQuery() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Create the table
-	_, err = db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	expected := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	var stmts []string
-	for k, v := range expected {
-		stmts = append(stmts, fmt.Sprintf(s.Statements["insert"], s.TableName, k, v))
-	}
-	_, err = db.Exec(strings.Join(stmts, "\n"))
-	require.NoError(t, err)
-
-	// Do query
-	stmt, err := db.Prepare(fmt.Sprintf(s.Statements["query"], s.TableName))
-	require.NoError(t, err)
-
-	rows, err := stmt.Query()
-	require.NoError(t, err)
-
-	// Check result
-	actual := make(map[string]int, len(expected))
-	for rows.Next() {
-		var name string
-		var id, value int
-		require.NoError(t, rows.Scan(&id, &name, &value))
-		actual[name] = value
-	}
-	require.NoError(t, db.Close())
-	require.EqualValues(t, expected, actual)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsManualPrematureClose tests concurrent rows implementation for closing right after loading.
-// Is expected that rows' internal engine update its status, preventing errors and inconsistent further operations.
-func (s *SqlTestSuite) TestRowsManualPrematureClose() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsManualPrematureClose`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount int = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	rows, err := db.QueryContext(context.TODO(), sqlSelectAll)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	// Close Rows normally
-	require.NoError(t, rows.Close())
-
-	require.False(t, rows.Next())
-
-	// Safe double-closing
-	require.NoError(t, rows.Close())
-
-	// Columns() should return an error after rows.Close() (sql: Rows are closed)
-	columns, err := rows.Columns()
-	require.Error(t, err)
-	require.Empty(t, columns)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsNormalExhaustion tests concurrent rows implementation for normal query/netx/close operation
-func (s *SqlTestSuite) TestRowsNormalExhaustion() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsNormalExhaustion`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount int = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do Query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	ctx, cancel := context.WithTimeout(context.Background(), time.Minute)
-	defer cancel()
-
-	rows, err := db.QueryContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	var (
-		actualCount = 0
-		xid,
-		xvalue int
-		xname string
-	)
-
-	for rows.Next() {
-		require.NoError(t, rows.Scan(&xid, &xname, &xvalue))
-		actualCount++
-	}
-
-	require.Equal(t, rowCount, actualCount)
-	require.NoError(t, rows.Close())
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsPrematureCloseDuringNextLoop ensures that:
-// - closing during Next() loop doesn't trigger concurrency errors.
-// - the interation is properly/promptly interrupted.
-func (s *SqlTestSuite) TestRowsPrematureCloseDuringNextLoop() {
-	t := s.T()
-
-	// Create and start the server.
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table.
-	const tableName = `TestRowsPrematureCloseDuringNextLoop`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	time.Sleep(200 * time.Millisecond)
-	// Do query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	rows, err := db.QueryContext(context.TODO(), sqlSelectAll)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-
-	const closeAfterNRows = 10
-	var (
-		i,
-		xid,
-		xvalue int
-		xname string
-	)
-
-	for rows.Next() {
-		err = rows.Scan(&xid, &xname, &xvalue)
-		require.NoError(t, err)
-
-		i++
-		if i >= closeAfterNRows {
-			require.NoError(t, rows.Close())
-		}
-	}
-	require.NoError(t, rows.Err())
-
-	require.Equal(t, closeAfterNRows, i)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsInterruptionByContextManualCancellation cancels the context before it starts retrieving rows.Next().
-// it gives time for cancellation propagation, and ensures that no further data was retrieved.
-func (s *SqlTestSuite) TestRowsInterruptionByContextManualCancellation() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsInterruptionByContextManualCancellation`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	ctx, cancel := context.WithTimeout(context.Background(), time.Minute)
-	defer cancel()
-
-	rows, err := db.QueryContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	defer rows.Close()
-
-	go cancel()
-
-	time.Sleep(100 * time.Millisecond)
-
-	count := 0
-	for rows.Next() {
-		count++
-	}
-
-	require.Zero(t, count)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsInterruptionByContextTimeout forces a timeout, and ensures no further data is retrieved after that.
-func (s *SqlTestSuite) TestRowsInterruptionByContextTimeout() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsInterruptionByContextTimeout`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const (
-		timeout      = 1500 * time.Millisecond
-		sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-	)
-
-	ctx, cancel := context.WithTimeout(context.Background(), timeout)
-	defer cancel()
-
-	rows, err := db.QueryContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	defer rows.Close()
-
-	// eventually, after time.Sleep(), the context will be cancelled.
-	// then, rows.Next() should return false, and <-ctx.Done() will never be tested.
-	for rows.Next() {
-		select {
-		case <-ctx.Done():
-			t.Fatal("cancellation didn't prevent more records to be read")
-		default:
-			time.Sleep(time.Second)
-		}
-	}
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsManualPrematureCloseStmt tests concurrent rows implementation for closing right after loading.
-// Is expected that rows' internal engine update its status, preventing errors and inconsistent further operations.
-func (s *SqlTestSuite) TestRowsManualPrematureCloseStmt() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsManualPrematureCloseStmt`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount int = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	ctx, cancel := context.WithTimeout(context.Background(), time.Minute)
-	defer cancel()
-
-	stmt, err := db.PrepareContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-
-	rows, err := stmt.QueryContext(ctx)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	// Close Rows normally
-	require.NoError(t, rows.Close())
-
-	require.False(t, rows.Next())
-
-	// Safe double-closing
-	require.NoError(t, rows.Close())
-
-	// Columns() should return an error after rows.Close() (sql: Rows are closed)
-	columns, err := rows.Columns()
-	require.Error(t, err)
-	require.Empty(t, columns)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsNormalExhaustionStmt tests concurrent rows implementation for normal query/netx/close operation
-func (s *SqlTestSuite) TestRowsNormalExhaustionStmt() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsNormalExhaustionStmt`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount int = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do Query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	ctx, cancel := context.WithTimeout(context.Background(), time.Minute)
-	defer cancel()
-
-	stmt, err := db.PrepareContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-
-	rows, err := stmt.QueryContext(ctx)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	var (
-		actualCount = 0
-		xid,
-		xvalue int
-		xname string
-	)
-
-	for rows.Next() {
-		require.NoError(t, rows.Scan(&xid, &xname, &xvalue))
-		actualCount++
-	}
-
-	require.Equal(t, rowCount, actualCount)
-	require.NoError(t, rows.Close())
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsPrematureCloseDuringNextLoopStmt ensures that:
-// - closing during Next() loop doesn't trigger concurrency errors.
-// - the interation is properly/promptly interrupted.
-func (s *SqlTestSuite) TestRowsPrematureCloseDuringNextLoopStmt() {
-	t := s.T()
-
-	// Create and start the server.
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table.
-	const tableName = `TestRowsPrematureCloseDuringNextLoopStmt`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	ctx, cancel := context.WithTimeout(context.Background(), time.Minute)
-	defer cancel()
-
-	stmt, err := db.PrepareContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-
-	rows, err := stmt.QueryContext(ctx)
-
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	const closeAfterNRows = 10
-	var (
-		i,
-		xid,
-		xvalue int
-		xname string
-	)
-
-	for rows.Next() {
-		err = rows.Scan(&xid, &xname, &xvalue)
-		require.NoError(t, err)
-
-		i++
-		if i >= closeAfterNRows {
-			require.NoError(t, rows.Close())
-		}
-	}
-
-	require.Equal(t, closeAfterNRows, i)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsInterruptionByContextManualCancellationStmt cancels the context before it starts retrieving rows.Next().
-// it gives time for cancellation propagation, and ensures that no further data was retrieved.
-func (s *SqlTestSuite) TestRowsInterruptionByContextManualCancellationStmt() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsInterruptionByContextManualCancellationStmt`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-
-	ctx, cancel := context.WithTimeout(context.Background(), time.Minute)
-	defer cancel()
-
-	stmt, err := db.PrepareContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-
-	rows, err := stmt.QueryContext(ctx)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	defer rows.Close()
-
-	go cancel()
-
-	time.Sleep(100 * time.Millisecond)
-
-	count := 0
-	for rows.Next() {
-		count++
-	}
-
-	require.Zero(t, count)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-// TestRowsInterruptionByContextTimeoutStmt forces a timeout, and ensures no further data is retrieved after that.
-func (s *SqlTestSuite) TestRowsInterruptionByContextTimeoutStmt() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-
-	defer s.stopServer(server)
-
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-
-	defer db.Close()
-
-	// Create the table
-	const tableName = `TestRowsInterruptionByContextTimeoutStmt`
-	const ddlCreateTable = `CREATE TABLE ` + tableName + ` (id INTEGER PRIMARY KEY AUTOINCREMENT, name VARCHAR(300), value INT);`
-
-	_, err = db.Exec(ddlCreateTable)
-	require.NoError(t, err)
-
-	// generate data enough for chunked concurrent test:
-	const rowCount = 6000
-	const randStringLen = 250
-	const sqlInsert = `INSERT INTO ` + tableName + ` (name,value) VALUES `
-
-	gen := rand.New(rand.NewSource(time.Now().UnixNano()))
-
-	var sb strings.Builder
-	sb.WriteString(sqlInsert)
-
-	for i := 0; i < rowCount; i++ {
-		sb.WriteString(fmt.Sprintf(`('%s', %d),`, getRandomString(gen, randStringLen), gen.Int()))
-	}
-
-	insertQuery := strings.TrimSuffix(sb.String(), ",")
-
-	rs, err := db.Exec(insertQuery)
-	require.NoError(t, err)
-
-	insertedRows, err := rs.RowsAffected()
-	require.NoError(t, err)
-	require.Equal(t, int64(rowCount), insertedRows)
-
-	// Do query
-	const (
-		timeout      = 1500 * time.Millisecond
-		sqlSelectAll = `SELECT id, name, value FROM ` + tableName
-	)
-
-	ctx, cancel := context.WithTimeout(context.Background(), timeout)
-	defer cancel()
-
-	stmt, err := db.PrepareContext(ctx, sqlSelectAll)
-	require.NoError(t, err)
-
-	rows, err := stmt.QueryContext(ctx)
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-	require.NoError(t, rows.Err())
-
-	defer rows.Close()
-
-	// eventually, after time.Sleep(), the context will be cancelled.
-	// then, rows.Next() should return false, and <-ctx.Done() will never be tested.
-	for rows.Next() {
-		select {
-		case <-ctx.Done():
-			t.Fatal("cancellation didn't prevent more records to be read")
-		default:
-			time.Sleep(time.Second)
-		}
-	}
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestPreparedQueryWithConstraint() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Create the table
-	_, err = db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	data := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	var stmts []string
-	for k, v := range data {
-		stmts = append(stmts, fmt.Sprintf(s.Statements["insert"], s.TableName, k, v))
-	}
-	_, err = db.Exec(strings.Join(stmts, "\n"))
-	require.NoError(t, err)
-
-	// Do query
-	stmt, err := db.Prepare(fmt.Sprintf(s.Statements["constraint query"], s.TableName, "one"))
-	require.NoError(t, err)
-
-	rows, err := stmt.Query()
-	require.NoError(t, err)
-
-	// Check result
-	expected := map[string]int{
-		"one":       1,
-		"minus one": -1,
-	}
-	actual := make(map[string]int, len(expected))
-	for rows.Next() {
-		var name string
-		var id, value int
-		require.NoError(t, rows.Scan(&id, &name, &value))
-		actual[name] = value
-	}
-	require.NoError(t, db.Close())
-	require.EqualValues(t, expected, actual)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestPreparedQueryWithPlaceholder() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Create the table
-	_, err = db.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	data := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	var stmts []string
-	for k, v := range data {
-		stmts = append(stmts, fmt.Sprintf(s.Statements["insert"], s.TableName, k, v))
-	}
-	_, err = db.Exec(strings.Join(stmts, "\n"))
-	require.NoError(t, err)
-
-	// Do query
-	query := fmt.Sprintf(s.Statements["placeholder query"], s.TableName)
-	stmt, err := db.Prepare(query)
-	require.NoError(t, err)
-
-	params := []interface{}{"%%one%%"}
-	rows, err := stmt.Query(params...)
-	require.NoError(t, err)
-
-	// Check result
-	expected := map[string]int{
-		"one":       1,
-		"minus one": -1,
-	}
-	actual := make(map[string]int, len(expected))
-	for rows.Next() {
-		var name string
-		var id, value int
-		require.NoError(t, rows.Scan(&id, &name, &value))
-		actual[name] = value
-	}
-	require.NoError(t, db.Close())
-	require.EqualValues(t, expected, actual)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestTxRollback() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	tx, err := db.Begin()
-	require.NoError(t, err)
-
-	// Create the table
-	_, err = tx.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	data := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	for k, v := range data {
-		stmt := fmt.Sprintf(s.Statements["insert"], s.TableName, k, v)
-		_, err = tx.Exec(stmt)
-		require.NoError(t, err)
-	}
-
-	// Rollback the transaction
-	require.NoError(t, tx.Rollback())
-
-	// Check result
-	tbls := `SELECT name FROM sqlite_schema WHERE type ='table' AND name NOT LIKE 'sqlite_%';`
-	rows, err := db.Query(tbls)
-	require.NoError(t, err)
-	count := 0
-	for rows.Next() {
-		count++
-	}
-	require.Equal(t, 0, count)
-	require.NoError(t, db.Close())
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-func (s *SqlTestSuite) TestTxCommit() {
-	t := s.T()
-
-	// Create and start the server
-	server, addr, err := s.createServer()
-	require.NoError(t, err)
-
-	var wg sync.WaitGroup
-	wg.Add(1)
-	go func() {
-		defer wg.Done()
-		require.NoError(s.T(), s.startServer(server))
-	}()
-	defer s.stopServer(server)
-	time.Sleep(100 * time.Millisecond)
-
-	// Configure client
-	cfg := s.Config
-	cfg.Address = addr
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	tx, err := db.Begin()
-	require.NoError(t, err)
-
-	// Create the table
-	_, err = tx.Exec(fmt.Sprintf(s.Statements["create table"], s.TableName))
-	require.NoError(t, err)
-
-	// Insert data
-	data := map[string]int{
-		"zero":      0,
-		"one":       1,
-		"minus one": -1,
-		"twelve":    12,
-	}
-	for k, v := range data {
-		stmt := fmt.Sprintf(s.Statements["insert"], s.TableName, k, v)
-		_, err = tx.Exec(stmt)
-		require.NoError(t, err)
-	}
-
-	// Commit the transaction
-	require.NoError(t, tx.Commit())
-
-	// Check if the table exists
-	tbls := `SELECT name FROM sqlite_schema WHERE type ='table' AND name NOT LIKE 'sqlite_%';`
-	rows, err := db.Query(tbls)
-	require.NoError(t, err)
-
-	var tables []string
-	for rows.Next() {
-		var name string
-		require.NoError(t, rows.Scan(&name))
-		tables = append(tables, name)
-	}
-	require.Contains(t, tables, "drivertest")
-
-	// Check the actual data
-	stmt, err := db.Prepare(fmt.Sprintf(s.Statements["query"], s.TableName))
-	require.NoError(t, err)
-
-	rows, err = stmt.Query()
-	require.NoError(t, err)
-
-	// Check result
-	actual := make(map[string]int, len(data))
-	for rows.Next() {
-		var name string
-		var id, value int
-		require.NoError(t, rows.Scan(&id, &name, &value))
-		actual[name] = value
-	}
-	require.NoError(t, db.Close())
-	require.EqualValues(t, data, actual)
-
-	// Tear-down server
-	s.stopServer(server)
-	wg.Wait()
-}
-
-/*** BACKEND tests ***/
-
-func TestSqliteBackend(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	s := &SqlTestSuite{
-		Config: driver.DriverConfig{
-			Timeout: 5 * time.Second,
-		},
-	}
-
-	s.createServer = func() (flight.Server, string, error) {
-		server := flight.NewServerWithMiddleware(nil)
-
-		// Setup the SQLite backend
-		db, err := sql.Open("sqlite", ":memory:")
-		if err != nil {
-			return nil, "", err
-		}
-		sqliteServer, err := example.NewSQLiteFlightSQLServer(db)
-		if err != nil {
-			return nil, "", err
-		}
-		sqliteServer.Alloc = mem
-
-		// Connect the FlightSQL frontend to the backend
-		server.RegisterFlightService(flightsql.NewFlightServer(sqliteServer))
-		if err := server.Init("localhost:0"); err != nil {
-			return nil, "", err
-		}
-		server.SetShutdownOnSignals(os.Interrupt, os.Kill)
-		return server, server.Addr().String(), nil
-	}
-	s.startServer = func(server flight.Server) error { return server.Serve() }
-	s.stopServer = func(server flight.Server) { server.Shutdown() }
-
-	suite.Run(t, s)
-}
-
-func TestPreparedStatementSchema(t *testing.T) {
-	// Setup the expected test
-	backend := &MockServer{
-		PreparedStatementParameterSchema: arrow.NewSchema([]arrow.Field{{Type: &arrow.StringType{}, Nullable: false}}, nil),
-		DataSchema: arrow.NewSchema([]arrow.Field{
-			{Name: "time", Type: &arrow.Time64Type{Unit: arrow.Nanosecond}, Nullable: true},
-			{Name: "value", Type: &arrow.Int64Type{}, Nullable: false},
-		}, nil),
-		Data: "[]",
-	}
-
-	// Instantiate a mock server
-	server := flight.NewServerWithMiddleware(nil)
-	server.RegisterFlightService(flightsql.NewFlightServer(backend))
-	require.NoError(t, server.Init("localhost:0"))
-	server.SetShutdownOnSignals(os.Interrupt, os.Kill)
-	go server.Serve()
-	defer server.Shutdown()
-
-	// Configure client
-	cfg := driver.DriverConfig{
-		Timeout: 5 * time.Second,
-		Address: server.Addr().String(),
-	}
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Do query
-	stmt, err := db.Prepare("SELECT * FROM foo WHERE name LIKE ?")
-	require.NoError(t, err)
-
-	_, err = stmt.Query()
-	require.ErrorContains(t, err, "expected 1 arguments, got 0")
-
-	// Test for error issues by driver
-	_, err = stmt.Query(23)
-	require.ErrorContains(t, err, "invalid value type int64 for builder *array.StringBuilder")
-
-	rows, err := stmt.Query("master")
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-}
-
-func TestPreparedStatementNoSchema(t *testing.T) {
-	// Setup the expected test
-	backend := &MockServer{
-		DataSchema: arrow.NewSchema([]arrow.Field{
-			{Name: "time", Type: &arrow.Time64Type{Unit: arrow.Nanosecond}, Nullable: true},
-			{Name: "value", Type: &arrow.Int64Type{}, Nullable: false},
-		}, nil),
-		Data:                            "[]",
-		ExpectedPreparedStatementSchema: arrow.NewSchema([]arrow.Field{{Type: &arrow.StringType{}, Nullable: false}}, nil),
-	}
-
-	// Instantiate a mock server
-	server := flight.NewServerWithMiddleware(nil)
-	server.RegisterFlightService(flightsql.NewFlightServer(backend))
-	require.NoError(t, server.Init("localhost:0"))
-	server.SetShutdownOnSignals(os.Interrupt, os.Kill)
-	go server.Serve()
-	defer server.Shutdown()
-
-	// Configure client
-	cfg := driver.DriverConfig{
-		Timeout: 5 * time.Second,
-		Address: server.Addr().String(),
-	}
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Do query
-	stmt, err := db.Prepare("SELECT * FROM foo WHERE name LIKE ?")
-	require.NoError(t, err)
-
-	_, err = stmt.Query()
-	require.NoError(t, err, "expected 1 arguments, got 0")
-
-	// Test for error issued by server due to missing parameter schema
-	_, err = stmt.Query(23)
-	require.ErrorContains(t, err, "parameter schema: unexpected")
-
-	rows, err := stmt.Query("master")
-	require.NoError(t, err)
-	require.NotNil(t, rows)
-}
-
-func TestNoPreparedStatementImplemented(t *testing.T) {
-	// Setup the expected test
-	backend := &MockServer{
-		DataSchema: arrow.NewSchema([]arrow.Field{
-			{Name: "time", Type: &arrow.Time64Type{Unit: arrow.Nanosecond}, Nullable: true},
-			{Name: "value", Type: &arrow.Int64Type{}, Nullable: false},
-		}, nil),
-		Data:                   "[]",
-		PreparedStatementError: "not supported",
-	}
-
-	// Instantiate a mock server
-	server := flight.NewServerWithMiddleware(nil)
-	server.RegisterFlightService(flightsql.NewFlightServer(backend))
-	require.NoError(t, server.Init("localhost:0"))
-	server.SetShutdownOnSignals(os.Interrupt, os.Kill)
-	go server.Serve()
-	defer server.Shutdown()
-
-	// Configure client
-	cfg := driver.DriverConfig{
-		Timeout: 5 * time.Second,
-		Address: server.Addr().String(),
-	}
-	db, err := sql.Open("flightsql", cfg.DSN())
-	require.NoError(t, err)
-	defer db.Close()
-
-	// Do query
-	_, err = db.Query("SELECT * FROM foo")
-	require.NoError(t, err)
-}
-
-// Mockup database server
-type MockServer struct {
-	flightsql.BaseServer
-	DataSchema                       *arrow.Schema
-	PreparedStatementParameterSchema *arrow.Schema
-	PreparedStatementError           string
-	Data                             string
-
-	ExpectedPreparedStatementSchema *arrow.Schema
-}
-
-func (s *MockServer) CreatePreparedStatement(ctx context.Context, req flightsql.ActionCreatePreparedStatementRequest) (flightsql.ActionCreatePreparedStatementResult, error) {
-	if s.PreparedStatementError != "" {
-		return flightsql.ActionCreatePreparedStatementResult{}, errors.New(s.PreparedStatementError)
-	}
-	return flightsql.ActionCreatePreparedStatementResult{
-		Handle:          []byte("prepared"),
-		DatasetSchema:   s.DataSchema,
-		ParameterSchema: s.PreparedStatementParameterSchema,
-	}, nil
-}
-
-func (s *MockServer) DoPutPreparedStatementQuery(ctx context.Context, qry flightsql.PreparedStatementQuery, r flight.MessageReader, w flight.MetadataWriter) ([]byte, error) {
-	if s.ExpectedPreparedStatementSchema != nil {
-		if !s.ExpectedPreparedStatementSchema.Equal(r.Schema()) {
-			return nil, errors.New("parameter schema: unexpected")
-		}
-		return qry.GetPreparedStatementHandle(), nil
-	}
-
-	if s.PreparedStatementParameterSchema != nil && !s.PreparedStatementParameterSchema.Equal(r.Schema()) {
-		return nil, fmt.Errorf("parameter schema: %w", arrow.ErrInvalid)
-	}
-
-	// GH-35328: it's rare, but this function can complete execution and return
-	// closing the reader *after* the schema is written but *before* the parameter batch
-	// is written (race condition based on goroutine scheduling). In that situation,
-	// the client call to Write the parameter record batch will return an io.EOF because
-	// this end of the connection will have closed before it attempted to send the batch.
-	// This created a flaky test situation that was difficult to reproduce (1-4 failures
-	// in 5000 runs). We can avoid this flakiness by simply *explicitly* draining the
-	// record batch messages from the reader before returning.
-	for r.Next() {
-	}
-
-	return qry.GetPreparedStatementHandle(), nil
-}
-
-func (s *MockServer) DoGetStatement(ctx context.Context, ticket flightsql.StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	record, _, err := array.RecordFromJSON(memory.DefaultAllocator, s.DataSchema, strings.NewReader(s.Data))
-	if err != nil {
-		return nil, nil, err
-	}
-	chunk := make(chan flight.StreamChunk)
-	go func() {
-		defer close(chunk)
-		chunk <- flight.StreamChunk{
-			Data: record,
-			Desc: nil,
-			Err:  nil,
-		}
-	}()
-	return s.DataSchema, chunk, nil
-}
-
-func (s *MockServer) GetFlightInfoPreparedStatement(ctx context.Context, stmt flightsql.PreparedStatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	handle := stmt.GetPreparedStatementHandle()
-	ticket, err := flightsql.CreateStatementQueryTicket(handle)
-	if err != nil {
-		return nil, err
-	}
-	return &flight.FlightInfo{
-		FlightDescriptor: desc,
-		Endpoint: []*flight.FlightEndpoint{
-			{Ticket: &flight.Ticket{Ticket: ticket}},
-		},
-		TotalRecords: -1,
-		TotalBytes:   -1,
-	}, nil
-}
-
-func (s *MockServer) GetFlightInfoStatement(_ context.Context, query flightsql.StatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	handle := query.GetTransactionId()
-	ticket, err := flightsql.CreateStatementQueryTicket(handle)
-	if err != nil {
-		return nil, err
-	}
-	return &flight.FlightInfo{
-		FlightDescriptor: desc,
-		Endpoint: []*flight.FlightEndpoint{
-			{Ticket: &flight.Ticket{Ticket: ticket}},
-		},
-		TotalRecords: -1,
-		TotalBytes:   -1,
-	}, nil
-}
-
-const getRandomStringCharset = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789. "
-
-var getRandomStringCharsetLen = len(getRandomStringCharset)
-
-func getRandomString(gen *rand.Rand, length int) string {
-	result := make([]byte, length)
-
-	for i := range result {
-		result[i] = getRandomStringCharset[rand.Intn(getRandomStringCharsetLen)]
-	}
-
-	return string(result)
-}
diff --git a/go/arrow/flight/flightsql/driver/errors.go b/go/arrow/flight/flightsql/driver/errors.go
deleted file mode 100644
index 908dde4c3edc4..0000000000000
--- a/go/arrow/flight/flightsql/driver/errors.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-package driver
-
-import "errors"
-
-var (
-	ErrNotSupported          = errors.New("not supported")
-	ErrOutOfRange            = errors.New("index out of range")
-	ErrTransactionInProgress = errors.New("transaction still in progress")
-	ErrRegistryEntryExists   = errors.New("entry already exists")
-	ErrRegistryNoEntry       = errors.New("entry not registered")
-)
diff --git a/go/arrow/flight/flightsql/driver/utils.go b/go/arrow/flight/flightsql/driver/utils.go
deleted file mode 100644
index a206d7753529d..0000000000000
--- a/go/arrow/flight/flightsql/driver/utils.go
+++ /dev/null
@@ -1,287 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-package driver
-
-import (
-	"context"
-	"encoding/base64"
-	"fmt"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-// *** GRPC helpers ***
-type grpcCredentials struct {
-	username   string
-	password   string
-	token      string
-	params     map[string]string
-	tlsEnabled bool
-}
-
-func (g grpcCredentials) GetRequestMetadata(ctx context.Context, uri ...string) (map[string]string, error) {
-	md := make(map[string]string, len(g.params)+1)
-
-	// Authentication parameters
-	switch {
-	case g.token != "":
-		md["authorization"] = "Bearer " + g.token
-	case g.username != "":
-
-		md["authorization"] = "Basic " + base64.StdEncoding.EncodeToString([]byte(g.username+":"+g.password))
-	}
-
-	for k, v := range g.params {
-		md[k] = v
-	}
-
-	return md, nil
-}
-
-func (g grpcCredentials) RequireTransportSecurity() bool {
-	return g.tlsEnabled && (g.token != "" || g.username != "")
-}
-
-// *** Type conversions ***
-func fromArrowType(arr arrow.Array, idx int) (interface{}, error) {
-	if arr.IsNull(idx) {
-		return nil, nil
-	}
-
-	switch c := arr.(type) {
-	case *array.Boolean:
-		return c.Value(idx), nil
-	case *array.Float16:
-		return c.Value(idx), nil
-	case *array.Float32:
-		return c.Value(idx), nil
-	case *array.Float64:
-		return c.Value(idx), nil
-	case *array.Decimal128:
-		v := arr.DataType().(*arrow.Decimal128Type)
-		return c.Value(idx).ToFloat64(v.Scale), nil
-	case *array.Decimal256:
-		v := arr.DataType().(*arrow.Decimal256Type)
-		return c.Value(idx).ToFloat64(v.Scale), nil
-	case *array.Int8:
-		return c.Value(idx), nil
-	case *array.Int16:
-		return c.Value(idx), nil
-	case *array.Int32:
-		return c.Value(idx), nil
-	case *array.Int64:
-		return c.Value(idx), nil
-	case *array.Binary:
-		return c.Value(idx), nil
-	case *array.String:
-		return c.Value(idx), nil
-	case *array.Time32:
-		d32 := arr.DataType().(*arrow.Time32Type)
-		v := c.Value(idx)
-		return v.ToTime(d32.TimeUnit()), nil
-	case *array.Time64:
-		d64 := arr.DataType().(*arrow.Time64Type)
-		v := c.Value(idx)
-		return v.ToTime(d64.TimeUnit()), nil
-	case *array.Timestamp:
-		ts := arr.DataType().(*arrow.TimestampType)
-		v := c.Value(idx)
-		return v.ToTime(ts.TimeUnit()), nil
-	case *array.Date64:
-		return c.Value(idx).ToTime(), nil
-	case *array.Duration:
-		dt := arr.DataType().(*arrow.DurationType)
-		duration := time.Duration(c.Value(idx)) * dt.Unit.Multiplier()
-		return duration, nil
-	case *array.DayTimeInterval:
-		durationDays := time.Duration(c.Value(idx).Days*24) * time.Hour
-		duration := time.Duration(c.Value(idx).Milliseconds) * time.Millisecond
-
-		return durationDays + duration, nil
-	}
-
-	return nil, fmt.Errorf("type %T: %w", arr, ErrNotSupported)
-}
-
-func toArrowDataType(value interface{}) (arrow.DataType, error) {
-	switch value.(type) {
-	case bool:
-		return &arrow.BooleanType{}, nil
-	case float32:
-		return &arrow.Float32Type{}, nil
-	case float64:
-		return &arrow.Float64Type{}, nil
-	case int8:
-		return &arrow.Int8Type{}, nil
-	case int16:
-		return &arrow.Int16Type{}, nil
-	case int32:
-		return &arrow.Int32Type{}, nil
-	case int64:
-		return &arrow.Int64Type{}, nil
-	case uint8:
-		return &arrow.Uint8Type{}, nil
-	case uint16:
-		return &arrow.Uint16Type{}, nil
-	case uint32:
-		return &arrow.Uint32Type{}, nil
-	case uint64:
-		return &arrow.Uint64Type{}, nil
-	case string:
-		return &arrow.StringType{}, nil
-	case time.Time:
-		return &arrow.Time64Type{Unit: arrow.Nanosecond}, nil
-	}
-	return nil, fmt.Errorf("type %T: %w", value, ErrNotSupported)
-}
-
-// *** Field builder versions ***
-func setFieldValue(builder array.Builder, arg interface{}) error {
-	switch b := builder.(type) {
-	case *array.BooleanBuilder:
-		switch v := arg.(type) {
-		case bool:
-			b.Append(v)
-		case []bool:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Float32Builder:
-		switch v := arg.(type) {
-		case float32:
-			b.Append(v)
-		case []float32:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Float64Builder:
-		switch v := arg.(type) {
-		case float64:
-			b.Append(v)
-		case []float64:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Int8Builder:
-		switch v := arg.(type) {
-		case int8:
-			b.Append(v)
-		case []int8:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Int16Builder:
-		switch v := arg.(type) {
-		case int16:
-			b.Append(v)
-		case []int16:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Int32Builder:
-		switch v := arg.(type) {
-		case int32:
-			b.Append(v)
-		case []int32:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Int64Builder:
-		switch v := arg.(type) {
-		case int64:
-			b.Append(v)
-		case []int64:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Uint8Builder:
-		switch v := arg.(type) {
-		case uint8:
-			b.Append(v)
-		case []uint8:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Uint16Builder:
-		switch v := arg.(type) {
-		case uint16:
-			b.Append(v)
-		case []uint16:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Uint32Builder:
-		switch v := arg.(type) {
-		case uint32:
-			b.Append(v)
-		case []uint32:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Uint64Builder:
-		switch v := arg.(type) {
-		case uint64:
-			b.Append(v)
-		case []uint64:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.StringBuilder:
-		switch v := arg.(type) {
-		case string:
-			b.Append(v)
-		case []string:
-			b.AppendValues(v, nil)
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	case *array.Time64Builder:
-		switch v := arg.(type) {
-		case int64:
-			b.Append(arrow.Time64(v))
-		case []int64:
-			for _, x := range v {
-				b.Append(arrow.Time64(x))
-			}
-		case uint64:
-			b.Append(arrow.Time64(v))
-		case []uint64:
-			for _, x := range v {
-				b.Append(arrow.Time64(x))
-			}
-		case time.Time:
-			b.Append(arrow.Time64(v.Nanosecond()))
-		default:
-			return fmt.Errorf("invalid value type %T for builder %T", arg, builder)
-		}
-	default:
-		return fmt.Errorf("unknown builder type %T", builder)
-	}
-	return nil
-}
diff --git a/go/arrow/flight/flightsql/driver/utils_test.go b/go/arrow/flight/flightsql/driver/utils_test.go
deleted file mode 100644
index 0f6033b9282ea..0000000000000
--- a/go/arrow/flight/flightsql/driver/utils_test.go
+++ /dev/null
@@ -1,138 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-package driver
-
-import (
-	"fmt"
-	"math/big"
-	"reflect"
-	"testing"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/require"
-)
-
-func Test_fromArrowType(t *testing.T) {
-	fields := []arrow.Field{
-		{Name: "f1-bool", Type: arrow.FixedWidthTypes.Boolean},
-		{Name: "f2-f16", Type: arrow.FixedWidthTypes.Float16},
-		{Name: "f3-f32", Type: arrow.PrimitiveTypes.Float32},
-		{Name: "f4-f64", Type: arrow.PrimitiveTypes.Float64},
-		{Name: "f5-d128", Type: &arrow.Decimal128Type{}},
-		{Name: "f6-d256", Type: &arrow.Decimal256Type{}},
-		{Name: "f7-i8", Type: arrow.PrimitiveTypes.Int8},
-		{Name: "f8-i16", Type: arrow.PrimitiveTypes.Int16},
-		{Name: "f9-i32", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "f10-i64", Type: arrow.PrimitiveTypes.Int64},
-		{Name: "f11-binary", Type: arrow.BinaryTypes.Binary},
-		{Name: "f12-string", Type: arrow.BinaryTypes.String},
-		{Name: "f13-t32s", Type: arrow.FixedWidthTypes.Time32s},
-		{Name: "f14-t64us", Type: arrow.FixedWidthTypes.Time64us},
-		{Name: "f15-ts_us", Type: arrow.FixedWidthTypes.Timestamp_ns},
-		{Name: "f16-d64", Type: arrow.FixedWidthTypes.Date64},
-		{Name: "f17-dti", Type: arrow.FixedWidthTypes.DayTimeInterval},
-		{Name: "f18-duration_s", Type: arrow.FixedWidthTypes.Duration_s},
-		{Name: "f19-duration_ms", Type: arrow.FixedWidthTypes.Duration_ms},
-		{Name: "f20-duration_us", Type: arrow.FixedWidthTypes.Duration_us},
-		{Name: "f21-duration_ns", Type: arrow.FixedWidthTypes.Duration_ns},
-	}
-
-	schema := arrow.NewSchema(fields, nil)
-	pool := memory.NewGoAllocator()
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.BooleanBuilder).Append(true)
-	b.Field(1).(*array.Float16Builder).Append(float16.New(1))
-	b.Field(2).(*array.Float32Builder).Append(1)
-	b.Field(3).(*array.Float64Builder).Append(1)
-	b.Field(4).(*array.Decimal128Builder).Append(decimal128.FromBigInt(big.NewInt(1)))
-	b.Field(5).(*array.Decimal256Builder).Append(decimal256.FromBigInt(big.NewInt(1)))
-	b.Field(6).(*array.Int8Builder).Append(1)
-	b.Field(7).(*array.Int16Builder).Append(1)
-	b.Field(8).(*array.Int32Builder).Append(1)
-	b.Field(9).(*array.Int64Builder).Append(1)
-	b.Field(10).(*array.BinaryBuilder).Append([]byte("a"))
-	b.Field(11).(*array.StringBuilder).Append("a")
-
-	t32, err := arrow.Time32FromString("12:30:00", arrow.Second)
-	require.NoError(t, err)
-
-	b.Field(12).(*array.Time32Builder).Append(t32)
-
-	t64, err := arrow.Time64FromString("12:00:00", arrow.Microsecond)
-	require.NoError(t, err)
-
-	b.Field(13).(*array.Time64Builder).Append(t64)
-
-	ts, err := arrow.TimestampFromString("1970-01-01T12:00:00", arrow.Nanosecond)
-	require.NoError(t, err)
-
-	fmt.Println(ts.ToTime(arrow.Nanosecond))
-
-	b.Field(14).(*array.TimestampBuilder).Append(ts)
-
-	testTime := time.Now()
-	b.Field(15).(*array.Date64Builder).Append(arrow.Date64FromTime(testTime))
-	b.Field(16).(*array.DayTimeIntervalBuilder).Append(arrow.DayTimeInterval{Days: 1, Milliseconds: 1000})
-	b.Field(17).(*array.DurationBuilder).Append(1)
-	b.Field(18).(*array.DurationBuilder).Append(1)
-	b.Field(19).(*array.DurationBuilder).Append(1)
-	b.Field(20).(*array.DurationBuilder).Append(1)
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	tf := func(t *testing.T, idx int, want any) {
-		t.Run(fmt.Sprintf("fromArrowType %v %s", fields[idx].Type, fields[idx].Name), func(t *testing.T) {
-			v, err := fromArrowType(rec.Column(idx), 0)
-			if err != nil {
-				t.Fatalf("err when converting from arrow: %s", err)
-			}
-			if !reflect.DeepEqual(v, want) {
-				t.Fatalf("test failed, wanted %T %v got %T %v", want, want, v, v)
-			}
-		})
-	}
-
-	tf(t, 0, true)                                           // "f1-bool"
-	tf(t, 1, float16.New(1))                                 // "f2-f16"
-	tf(t, 2, float32(1))                                     // "f3-f32"
-	tf(t, 3, float64(1))                                     // "f4-f64"
-	tf(t, 4, float64(1))                                     // "f5-d128"
-	tf(t, 5, float64(1))                                     // "f6-d256"
-	tf(t, 6, int8(1))                                        // "f7-i8"
-	tf(t, 7, int16(1))                                       // "f8-i16"
-	tf(t, 8, int32(1))                                       // "f9-i32"
-	tf(t, 9, int64(1))                                       // "f10-i64"
-	tf(t, 10, []byte("a"))                                   // "f11-binary"
-	tf(t, 11, "a")                                           // "f12-string"
-	tf(t, 12, time.Date(1970, 1, 1, 12, 30, 0, 0, time.UTC)) // "f13-t32s"
-	tf(t, 13, time.Date(1970, 1, 1, 12, 0, 0, 0, time.UTC))  // "f14-t64us"
-	tf(t, 14, time.Date(1970, 1, 1, 12, 0, 0, 0, time.UTC))  // "f15-ts_us"
-	tf(t, 15, testTime.In(time.UTC).Truncate(24*time.Hour))  // "f16-d64"
-	tf(t, 16, time.Duration(24*time.Hour+time.Second))       // "f17-dti"
-	tf(t, 17, time.Duration(1000000000))                     // "f18-duration_s"
-	tf(t, 18, time.Duration(1000000))                        // "f19-duration_ms"
-	tf(t, 19, time.Duration(1000))                           // "f20-duration_us"
-	tf(t, 20, time.Duration(1))                              // "f21-duration_ns"
-}
diff --git a/go/arrow/flight/flightsql/example/cmd/sqlite_flightsql_server/main.go b/go/arrow/flight/flightsql/example/cmd/sqlite_flightsql_server/main.go
deleted file mode 100644
index 529feeb04c88c..0000000000000
--- a/go/arrow/flight/flightsql/example/cmd/sqlite_flightsql_server/main.go
+++ /dev/null
@@ -1,64 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package main
-
-import (
-	"flag"
-	"fmt"
-	"log"
-	"net"
-	"os"
-	"strconv"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/example"
-)
-
-func main() {
-	var (
-		host = flag.String("host", "localhost", "hostname to bind to")
-		port = flag.Int("port", 0, "port to bind to")
-	)
-
-	flag.Parse()
-
-	db, err := example.CreateDB()
-	if err != nil {
-		log.Fatal(err)
-	}
-	defer db.Close()
-
-	srv, err := example.NewSQLiteFlightSQLServer(db)
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	server := flight.NewServerWithMiddleware(nil)
-	server.RegisterFlightService(flightsql.NewFlightServer(srv))
-	server.Init(net.JoinHostPort(*host, strconv.Itoa(*port)))
-	server.SetShutdownOnSignals(os.Interrupt, os.Kill)
-
-	fmt.Println("Starting SQLite Flight SQL Server on", server.Addr(), "...")
-
-	if err := server.Serve(); err != nil {
-		log.Fatal(err)
-	}
-}
diff --git a/go/arrow/flight/flightsql/example/sql_batch_reader.go b/go/arrow/flight/flightsql/example/sql_batch_reader.go
deleted file mode 100644
index bfd3e354b17e9..0000000000000
--- a/go/arrow/flight/flightsql/example/sql_batch_reader.go
+++ /dev/null
@@ -1,341 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package example
-
-import (
-	"database/sql"
-	"reflect"
-	"strconv"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/status"
-	"google.golang.org/protobuf/types/known/wrapperspb"
-)
-
-func getArrowTypeFromString(dbtype string) arrow.DataType {
-	dbtype = strings.ToLower(dbtype)
-	if dbtype == "" {
-		// SQLite may not know the type yet.
-		return &arrow.NullType{}
-	}
-	if strings.HasPrefix(dbtype, "varchar") {
-		return arrow.BinaryTypes.String
-	}
-
-	switch dbtype {
-	case "tinyint":
-		return arrow.PrimitiveTypes.Int8
-	case "mediumint":
-		return arrow.PrimitiveTypes.Int32
-	case "int", "integer":
-		return arrow.PrimitiveTypes.Int64
-	case "float":
-		return arrow.PrimitiveTypes.Float32
-	case "real", "double":
-		return arrow.PrimitiveTypes.Float64
-	case "blob":
-		return arrow.BinaryTypes.Binary
-	case "text", "date", "char", "clob":
-		return arrow.BinaryTypes.String
-	default:
-		panic("invalid sqlite type: " + dbtype)
-	}
-}
-
-var sqliteDenseUnion = arrow.DenseUnionOf([]arrow.Field{
-	{Name: "int", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-	{Name: "float", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-	{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
-}, []arrow.UnionTypeCode{0, 1, 2})
-
-func getArrowType(c *sql.ColumnType) arrow.DataType {
-	dbtype := strings.ToLower(c.DatabaseTypeName())
-	if dbtype == "" {
-		if c.ScanType() == nil {
-			return sqliteDenseUnion
-		}
-		switch c.ScanType().Kind() {
-		case reflect.Int8, reflect.Uint8:
-			return arrow.PrimitiveTypes.Int8
-		case reflect.Int32, reflect.Uint32:
-			return arrow.PrimitiveTypes.Int32
-		case reflect.Int, reflect.Int64, reflect.Uint64:
-			return arrow.PrimitiveTypes.Int64
-		case reflect.Float32:
-			return arrow.PrimitiveTypes.Float32
-		case reflect.Float64:
-			return arrow.PrimitiveTypes.Float64
-		case reflect.String:
-			return arrow.BinaryTypes.String
-		}
-	}
-	return getArrowTypeFromString(dbtype)
-}
-
-const maxBatchSize = 1024
-
-type SqlBatchReader struct {
-	refCount int64
-
-	schema *arrow.Schema
-	rows   *sql.Rows
-	record arrow.Record
-	bldr   *array.RecordBuilder
-	err    error
-
-	rowdest []interface{}
-}
-
-func NewSqlBatchReaderWithSchema(mem memory.Allocator, schema *arrow.Schema, rows *sql.Rows) (*SqlBatchReader, error) {
-	rowdest := make([]interface{}, schema.NumFields())
-	for i, f := range schema.Fields() {
-		switch f.Type.ID() {
-		case arrow.DENSE_UNION, arrow.SPARSE_UNION:
-			rowdest[i] = new(interface{})
-		case arrow.UINT8, arrow.INT8:
-			if f.Nullable {
-				rowdest[i] = &sql.NullByte{}
-			} else {
-				rowdest[i] = new(uint8)
-			}
-		case arrow.INT32:
-			if f.Nullable {
-				rowdest[i] = &sql.NullInt32{}
-			} else {
-				rowdest[i] = new(int32)
-			}
-		case arrow.INT64:
-			if f.Nullable {
-				rowdest[i] = &sql.NullInt64{}
-			} else {
-				rowdest[i] = new(int64)
-			}
-		case arrow.FLOAT32, arrow.FLOAT64:
-			if f.Nullable {
-				rowdest[i] = &sql.NullFloat64{}
-			} else {
-				rowdest[i] = new(float64)
-			}
-		case arrow.BINARY:
-			var b []byte
-			rowdest[i] = &b
-		case arrow.STRING:
-			if f.Nullable {
-				rowdest[i] = &sql.NullString{}
-			} else {
-				rowdest[i] = new(string)
-			}
-		}
-	}
-
-	return &SqlBatchReader{
-		refCount: 1,
-		bldr:     array.NewRecordBuilder(mem, schema),
-		schema:   schema,
-		rowdest:  rowdest,
-		rows:     rows}, nil
-}
-
-func NewSqlBatchReader(mem memory.Allocator, rows *sql.Rows) (*SqlBatchReader, error) {
-	bldr := flightsql.NewColumnMetadataBuilder()
-
-	cols, err := rows.ColumnTypes()
-	if err != nil {
-		rows.Close()
-		return nil, err
-	}
-
-	rowdest := make([]interface{}, len(cols))
-	fields := make([]arrow.Field, len(cols))
-	for i, c := range cols {
-		fields[i].Name = c.Name()
-		if c.Name() == "?" {
-			fields[i].Name += ":" + strconv.Itoa(i)
-		}
-		fields[i].Nullable, _ = c.Nullable()
-		fields[i].Type = getArrowType(c)
-		fields[i].Metadata = getColumnMetadata(bldr, getSqlTypeFromTypeName(c.DatabaseTypeName()), "")
-		switch fields[i].Type.ID() {
-		case arrow.DENSE_UNION, arrow.SPARSE_UNION:
-			rowdest[i] = new(interface{})
-		case arrow.UINT8, arrow.INT8:
-			if fields[i].Nullable {
-				rowdest[i] = &sql.NullByte{}
-			} else {
-				rowdest[i] = new(uint8)
-			}
-		case arrow.INT32:
-			if fields[i].Nullable {
-				rowdest[i] = &sql.NullInt32{}
-			} else {
-				rowdest[i] = new(int32)
-			}
-		case arrow.INT64:
-			if fields[i].Nullable {
-				rowdest[i] = &sql.NullInt64{}
-			} else {
-				rowdest[i] = new(int64)
-			}
-		case arrow.FLOAT64, arrow.FLOAT32:
-			if fields[i].Nullable {
-				rowdest[i] = &sql.NullFloat64{}
-			} else {
-				rowdest[i] = new(float64)
-			}
-		case arrow.BINARY:
-			var b []byte
-			rowdest[i] = &b
-		case arrow.STRING:
-			if fields[i].Nullable {
-				rowdest[i] = &sql.NullString{}
-			} else {
-				rowdest[i] = new(string)
-			}
-		}
-	}
-
-	schema := arrow.NewSchema(fields, nil)
-	return &SqlBatchReader{
-		refCount: 1,
-		bldr:     array.NewRecordBuilder(mem, schema),
-		schema:   schema,
-		rowdest:  rowdest,
-		rows:     rows}, nil
-}
-
-func (r *SqlBatchReader) Retain() {
-	atomic.AddInt64(&r.refCount, 1)
-}
-
-func (r *SqlBatchReader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refCount, -1) == 0 {
-		r.rows.Close()
-		r.rows, r.schema, r.rowdest = nil, nil, nil
-		r.bldr.Release()
-		r.bldr = nil
-		if r.record != nil {
-			r.record.Release()
-			r.record = nil
-		}
-	}
-}
-func (r *SqlBatchReader) Schema() *arrow.Schema { return r.schema }
-
-func (r *SqlBatchReader) Record() arrow.Record { return r.record }
-
-func (r *SqlBatchReader) Err() error { return r.err }
-
-func (r *SqlBatchReader) Next() bool {
-	if r.record != nil {
-		r.record.Release()
-		r.record = nil
-	}
-
-	rows := 0
-	for rows < maxBatchSize && r.rows.Next() {
-		if err := r.rows.Scan(r.rowdest...); err != nil {
-			// Not really useful except for testing Flight SQL clients
-			detail := wrapperspb.StringValue{Value: r.schema.String()}
-			if st, sterr := status.New(codes.Unknown, err.Error()).WithDetails(&detail); sterr != nil {
-				r.err = err
-			} else {
-				r.err = st.Err()
-			}
-			return false
-		}
-
-		for i, v := range r.rowdest {
-			fb := r.bldr.Field(i)
-
-			switch v := v.(type) {
-			case *uint8:
-				fb.(*array.Uint8Builder).Append(*v)
-			case *sql.NullByte:
-				if !v.Valid {
-					fb.AppendNull()
-				} else {
-					fb.(*array.Uint8Builder).Append(v.Byte)
-				}
-			case *int64:
-				fb.(*array.Int64Builder).Append(*v)
-			case *sql.NullInt64:
-				if !v.Valid {
-					fb.AppendNull()
-				} else {
-					fb.(*array.Int64Builder).Append(v.Int64)
-				}
-			case *int32:
-				fb.(*array.Int32Builder).Append(*v)
-			case *sql.NullInt32:
-				if !v.Valid {
-					fb.AppendNull()
-				} else {
-					fb.(*array.Int32Builder).Append(v.Int32)
-				}
-			case *float64:
-				switch b := fb.(type) {
-				case *array.Float64Builder:
-					b.Append(*v)
-				case *array.Float32Builder:
-					b.Append(float32(*v))
-				}
-			case *sql.NullFloat64:
-				if !v.Valid {
-					fb.AppendNull()
-				} else {
-					switch b := fb.(type) {
-					case *array.Float64Builder:
-						b.Append(v.Float64)
-					case *array.Float32Builder:
-						b.Append(float32(v.Float64))
-					}
-				}
-			case *[]byte:
-				if v == nil {
-					fb.AppendNull()
-				} else {
-					fb.(*array.BinaryBuilder).Append(*v)
-				}
-			case *string:
-				fb.(*array.StringBuilder).Append(*v)
-			case *sql.NullString:
-				if !v.Valid {
-					fb.AppendNull()
-				} else {
-					fb.(*array.StringBuilder).Append(v.String)
-				}
-			}
-		}
-
-		rows++
-	}
-
-	r.record = r.bldr.NewRecord()
-	return rows > 0
-}
diff --git a/go/arrow/flight/flightsql/example/sqlite_info.go b/go/arrow/flight/flightsql/example/sqlite_info.go
deleted file mode 100644
index 6135911c7b908..0000000000000
--- a/go/arrow/flight/flightsql/example/sqlite_info.go
+++ /dev/null
@@ -1,201 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package example
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-)
-
-func SqlInfoResultMap() flightsql.SqlInfoResultMap {
-	return flightsql.SqlInfoResultMap{
-		uint32(flightsql.SqlInfoFlightSqlServerName):         "db_name",
-		uint32(flightsql.SqlInfoFlightSqlServerVersion):      "sqlite 3",
-		uint32(flightsql.SqlInfoFlightSqlServerArrowVersion): arrow.PkgVersion,
-		uint32(flightsql.SqlInfoFlightSqlServerReadOnly):     false,
-		uint32(flightsql.SqlInfoDDLCatalog):                  false,
-		uint32(flightsql.SqlInfoDDLSchema):                   false,
-		uint32(flightsql.SqlInfoDDLTable):                    true,
-		uint32(flightsql.SqlInfoIdentifierCase):              int64(flightsql.SqlCaseSensitivityCaseInsensitive),
-		uint32(flightsql.SqlInfoIdentifierQuoteChar):         `"`,
-		uint32(flightsql.SqlInfoQuotedIdentifierCase):        int64(flightsql.SqlCaseSensitivityCaseInsensitive),
-		uint32(flightsql.SqlInfoAllTablesAreASelectable):     true,
-		uint32(flightsql.SqlInfoNullOrdering):                int64(flightsql.SqlNullOrderingSortAtStart),
-		uint32(flightsql.SqlInfoFlightSqlServerTransaction):  int32(flightsql.SqlTransactionTransaction),
-		uint32(flightsql.SqlInfoTransactionsSupported):       true,
-		uint32(flightsql.SqlInfoKeywords): []string{"ABORT",
-			"ACTION",
-			"ADD",
-			"AFTER",
-			"ALL",
-			"ALTER",
-			"ALWAYS",
-			"ANALYZE",
-			"AND",
-			"AS",
-			"ASC",
-			"ATTACH",
-			"AUTOINCREMENT",
-			"BEFORE",
-			"BEGIN",
-			"BETWEEN",
-			"BY",
-			"CASCADE",
-			"CASE",
-			"CAST",
-			"CHECK",
-			"COLLATE",
-			"COLUMN",
-			"COMMIT",
-			"CONFLICT",
-			"CONSTRAINT",
-			"CREATE",
-			"CROSS",
-			"CURRENT",
-			"CURRENT_DATE",
-			"CURRENT_TIME",
-			"CURRENT_TIMESTAMP",
-			"DATABASE",
-			"DEFAULT",
-			"DEFERRABLE",
-			"DEFERRED",
-			"DELETE",
-			"DESC",
-			"DETACH",
-			"DISTINCT",
-			"DO",
-			"DROP",
-			"EACH",
-			"ELSE",
-			"END",
-			"ESCAPE",
-			"EXCEPT",
-			"EXCLUDE",
-			"EXCLUSIVE",
-			"EXISTS",
-			"EXPLAIN",
-			"FAIL",
-			"FILTER",
-			"FIRST",
-			"FOLLOWING",
-			"FOR",
-			"FOREIGN",
-			"FROM",
-			"FULL",
-			"GENERATED",
-			"GLOB",
-			"GROUP",
-			"GROUPS",
-			"HAVING",
-			"IF",
-			"IGNORE",
-			"IMMEDIATE",
-			"IN",
-			"INDEX",
-			"INDEXED",
-			"INITIALLY",
-			"INNER",
-			"INSERT",
-			"INSTEAD",
-			"INTERSECT",
-			"INTO",
-			"IS",
-			"ISNULL",
-			"JOIN",
-			"KEY",
-			"LAST",
-			"LEFT",
-			"LIKE",
-			"LIMIT",
-			"MATCH",
-			"MATERIALIZED",
-			"NATURAL",
-			"NO",
-			"NOT",
-			"NOTHING",
-			"NOTNULL",
-			"NULL",
-			"NULLS",
-			"OF",
-			"OFFSET",
-			"ON",
-			"OR",
-			"ORDER",
-			"OTHERS",
-			"OUTER",
-			"OVER",
-			"PARTITION",
-			"PLAN",
-			"PRAGMA",
-			"PRECEDING",
-			"PRIMARY",
-			"QUERY",
-			"RAISE",
-			"RANGE",
-			"RECURSIVE",
-			"REFERENCES",
-			"REGEXP",
-			"REINDEX",
-			"RELEASE",
-			"RENAME",
-			"REPLACE",
-			"RESTRICT",
-			"RETURNING",
-			"RIGHT",
-			"ROLLBACK",
-			"ROW",
-			"ROWS",
-			"SAVEPOINT",
-			"SELECT",
-			"SET",
-			"TABLE",
-			"TEMP",
-			"TEMPORARY",
-			"THEN",
-			"TIES",
-			"TO",
-			"TRANSACTION",
-			"TRIGGER",
-			"UNBOUNDED",
-			"UNION",
-			"UNIQUE",
-			"UPDATE",
-			"USING",
-			"VACUUM",
-			"VALUES",
-			"VIEW",
-			"VIRTUAL",
-			"WHEN",
-			"WHERE",
-			"WINDOW",
-			"WITH",
-			"WITHOUT"},
-		uint32(flightsql.SqlInfoNumericFunctions): []string{
-			"ACOS", "ACOSH", "ASIN", "ASINH", "ATAN", "ATAN2", "ATANH", "CEIL",
-			"CEILING", "COS", "COSH", "DEGREES", "EXP", "FLOOR", "LN", "LOG",
-			"LOG10", "LOG2", "MOD", "PI", "POW", "POWER", "RADIANS",
-			"SIN", "SINH", "SQRT", "TAN", "TANH", "TRUNC"},
-		uint32(flightsql.SqlInfoStringFunctions): []string{"SUBSTR", "TRIM", "LTRIM", "RTRIM", "LENGTH",
-			"REPLACE", "UPPER", "LOWER", "INSTR"},
-		uint32(flightsql.SqlInfoSupportsConvert): map[int32][]int32{
-			int32(flightsql.SqlConvertBigInt): {int32(flightsql.SqlConvertInteger)},
-		},
-	}
-}
diff --git a/go/arrow/flight/flightsql/example/sqlite_server.go b/go/arrow/flight/flightsql/example/sqlite_server.go
deleted file mode 100644
index 6a2b80e0dbc36..0000000000000
--- a/go/arrow/flight/flightsql/example/sqlite_server.go
+++ /dev/null
@@ -1,800 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-// Package example contains a FlightSQL Server implementation using
-// sqlite as the backing engine.
-//
-// In order to ensure portability we'll use modernc.org/sqlite instead
-// of github.com/mattn/go-sqlite3 because modernc is a translation of the
-// SQLite source into Go, such that it doesn't require CGO to run and
-// doesn't need to link against the actual libsqlite3 libraries. This way
-// we don't require CGO or libsqlite3 to run this example or the tests.
-//
-// That said, since both implement in terms of Go's standard database/sql
-// package, it's easy to swap them out if desired as the modernc.org/sqlite
-// package is slower than go-sqlite3.
-//
-// One other important note is that modernc.org/sqlite only works
-// correctly (specifically pragma_table_info) in go 1.18+ so this
-// entire package is given the build constraint to only build when
-// using go1.18 or higher
-package example
-
-import (
-	"bytes"
-	"context"
-	"database/sql"
-	"fmt"
-	"math/rand"
-	"strings"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/schema_ref"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/grpc/status"
-	_ "modernc.org/sqlite"
-)
-
-func genRandomString() []byte {
-	const length = 16
-	max := int('z')
-	// don't include ':' as a valid byte to generate
-	// because we use it as a separator for the transactions
-	min := int('<')
-
-	out := make([]byte, length)
-	for i := range out {
-		out[i] = byte(rand.Intn(max-min+1) + min)
-	}
-	return out
-}
-
-func prepareQueryForGetTables(cmd flightsql.GetTables) string {
-	var b strings.Builder
-	b.WriteString(`SELECT 'main' AS catalog_name, '' AS schema_name,
-		name AS table_name, type AS table_type FROM sqlite_master WHERE 1=1`)
-
-	if cmd.GetCatalog() != nil {
-		b.WriteString(" and catalog_name = '")
-		b.WriteString(*cmd.GetCatalog())
-		b.WriteByte('\'')
-	}
-
-	if cmd.GetDBSchemaFilterPattern() != nil {
-		b.WriteString(" and schema_name LIKE '")
-		b.WriteString(*cmd.GetDBSchemaFilterPattern())
-		b.WriteByte('\'')
-	}
-
-	if cmd.GetTableNameFilterPattern() != nil {
-		b.WriteString(" and table_name LIKE '")
-		b.WriteString(*cmd.GetTableNameFilterPattern())
-		b.WriteByte('\'')
-	}
-
-	if len(cmd.GetTableTypes()) > 0 {
-		b.WriteString(" and table_type IN (")
-		for i, t := range cmd.GetTableTypes() {
-			if i != 0 {
-				b.WriteByte(',')
-			}
-			fmt.Fprintf(&b, "'%s'", t)
-		}
-		b.WriteByte(')')
-	}
-
-	b.WriteString(" order by table_name")
-	return b.String()
-}
-
-func prepareQueryForGetKeys(filter string) string {
-	return `SELECT * FROM (
-		SELECT
-			NULL AS pk_catalog_name,
-			NULL AS pk_schema_name,
-			p."table" AS pk_table_name,
-			p."to" AS pk_column_name,
-			NULL AS fk_catalog_name,
-			NULL AS fk_schema_name,
-			m.name AS fk_table_name,
-			p."from" AS fk_column_name,
-			p.seq AS key_sequence,
-			NULL AS pk_key_name,
-			NULL AS fk_key_name,
-			CASE
-				WHEN p.on_update = 'CASCADE' THEN 0
-				WHEN p.on_update = 'RESTRICT' THEN 1
-				WHEN p.on_update = 'SET NULL' THEN 2
-				WHEN p.on_update = 'NO ACTION' THEN 3
-				WHEN p.on_update = 'SET DEFAULT' THEN 4
-			END AS update_rule,
-			CASE
-				WHEN p.on_delete = 'CASCADE' THEN 0
-				WHEN p.on_delete = 'RESTRICT' THEN 1
-				WHEN p.on_delete = 'SET NULL' THEN 2
-				WHEN p.on_delete = 'NO ACTION' THEN 3
-				WHEN p.on_delete = 'SET DEFAULT' THEN 4
-			END AS delete_rule
-		FROM sqlite_master m
-		JOIN pragma_foreign_key_list(m.name) p ON m.name != p."table"
-		WHERE m.type = 'table') WHERE ` + filter +
-		` ORDER BY pk_catalog_name, pk_schema_name, pk_table_name, pk_key_name, key_sequence`
-}
-
-func CreateDB() (*sql.DB, error) {
-	db, err := sql.Open("sqlite", "file::memory:?cache=shared")
-	if err != nil {
-		return nil, err
-	}
-
-	_, err = db.Exec(`
-	CREATE TABLE foreignTable (
-		id INTEGER PRIMARY KEY AUTOINCREMENT NOT NULL,
-		foreignName varchar(100),
-		value int);
-
-	CREATE TABLE intTable (
-		id INTEGER PRIMARY KEY AUTOINCREMENT NOT NULL,
-		keyName varchar(100),
-		value int,
-		foreignId int references foreignTable(id));
-
-	INSERT INTO foreignTable (foreignName, value) VALUES ('keyOne', 1);
-	INSERT INTO foreignTable (foreignName, value) VALUES ('keyTwo', 0);
-	INSERT INTO foreignTable (foreignName, value) VALUES ('keyThree', -1);
-	INSERT INTO intTable (keyName, value, foreignId) VALUES ('one', 1, 1);
-	INSERT INTO intTable (keyName, value, foreignId) VALUES ('zero', 0, 1);
-	INSERT INTO intTable (keyName, value, foreignId) VALUES ('negative one', -1, 1);
-	INSERT INTO intTable (keyName, value, foreignId) VALUES (NULL, NULL, NULL);
-	`)
-	if err != nil {
-		db.Close()
-		return nil, err
-	}
-
-	return db, nil
-}
-
-func encodeTransactionQuery(query string, transactionID flightsql.Transaction) ([]byte, error) {
-	return flightsql.CreateStatementQueryTicket(
-		bytes.Join([][]byte{transactionID, []byte(query)}, []byte(":")))
-}
-
-func decodeTransactionQuery(ticket []byte) (txnID, query string, err error) {
-	id, queryBytes, found := bytes.Cut(ticket, []byte(":"))
-	if !found {
-		err = fmt.Errorf("%w: malformed ticket", arrow.ErrInvalid)
-		return
-	}
-
-	txnID = string(id)
-	query = string(queryBytes)
-	return
-}
-
-type Statement struct {
-	stmt   *sql.Stmt
-	params [][]interface{}
-}
-
-type SQLiteFlightSQLServer struct {
-	flightsql.BaseServer
-	db *sql.DB
-
-	prepared         sync.Map
-	openTransactions sync.Map
-}
-
-func NewSQLiteFlightSQLServer(db *sql.DB) (*SQLiteFlightSQLServer, error) {
-	ret := &SQLiteFlightSQLServer{db: db}
-	ret.Alloc = memory.DefaultAllocator
-	for k, v := range SqlInfoResultMap() {
-		ret.RegisterSqlInfo(flightsql.SqlInfo(k), v)
-	}
-	return ret, nil
-}
-
-func (s *SQLiteFlightSQLServer) flightInfoForCommand(desc *flight.FlightDescriptor, schema *arrow.Schema) *flight.FlightInfo {
-	return &flight.FlightInfo{
-		Endpoint:         []*flight.FlightEndpoint{{Ticket: &flight.Ticket{Ticket: desc.Cmd}}},
-		FlightDescriptor: desc,
-		Schema:           flight.SerializeSchema(schema, s.Alloc),
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoStatement(ctx context.Context, cmd flightsql.StatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	query, txnid := cmd.GetQuery(), cmd.GetTransactionId()
-	tkt, err := encodeTransactionQuery(query, txnid)
-	if err != nil {
-		return nil, err
-	}
-
-	return &flight.FlightInfo{
-		Endpoint:         []*flight.FlightEndpoint{{Ticket: &flight.Ticket{Ticket: tkt}}},
-		FlightDescriptor: desc,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}, nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetStatement(ctx context.Context, cmd flightsql.StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	txnid, query, err := decodeTransactionQuery(cmd.GetStatementHandle())
-	if err != nil {
-		return nil, nil, err
-	}
-
-	var db dbQueryCtx = s.db
-	if txnid != "" {
-		tx, loaded := s.openTransactions.Load(txnid)
-		if !loaded {
-			return nil, nil, fmt.Errorf("%w: invalid transaction id specified: %s", arrow.ErrInvalid, txnid)
-		}
-		db = tx.(*sql.Tx)
-	}
-
-	return doGetQuery(ctx, s.Alloc, db, query, nil)
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoCatalogs(_ context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.Catalogs), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetCatalogs(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	// https://www.sqlite.org/cli.html
-	// > The ".databases" command shows a list of all databases open
-	// > in the current connection. There will always be at least
-	// > 2. The first one is "main", the original database opened. The
-	// > second is "temp", the database used for temporary tables.
-	// For our purposes, return only "main" and ignore other databases.
-
-	schema := schema_ref.Catalogs
-
-	catalogs, _, err := array.FromJSON(s.Alloc, arrow.BinaryTypes.String, strings.NewReader(`["main"]`))
-	if err != nil {
-		return nil, nil, err
-	}
-	defer catalogs.Release()
-
-	batch := array.NewRecord(schema, []arrow.Array{catalogs}, 1)
-
-	ch := make(chan flight.StreamChunk, 1)
-	ch <- flight.StreamChunk{Data: batch}
-	close(ch)
-
-	return schema, ch, nil
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoSchemas(_ context.Context, cmd flightsql.GetDBSchemas, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.DBSchemas), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetDBSchemas(_ context.Context, cmd flightsql.GetDBSchemas) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	// SQLite doesn't support schemas, so pretend we have a single unnamed schema.
-	schema := schema_ref.DBSchemas
-
-	ch := make(chan flight.StreamChunk, 1)
-
-	if cmd.GetDBSchemaFilterPattern() == nil || *cmd.GetDBSchemaFilterPattern() == "" {
-		catalogs, _, err := array.FromJSON(s.Alloc, arrow.BinaryTypes.String, strings.NewReader(`["main"]`))
-		if err != nil {
-			return nil, nil, err
-		}
-		defer catalogs.Release()
-
-		dbSchemas, _, err := array.FromJSON(s.Alloc, arrow.BinaryTypes.String, strings.NewReader(`[""]`))
-		if err != nil {
-			return nil, nil, err
-		}
-		defer dbSchemas.Release()
-
-		batch := array.NewRecord(schema, []arrow.Array{catalogs, dbSchemas}, 1)
-		ch <- flight.StreamChunk{Data: batch}
-	}
-
-	close(ch)
-
-	return schema, ch, nil
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoTables(_ context.Context, cmd flightsql.GetTables, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	schema := schema_ref.Tables
-	if cmd.GetIncludeSchema() {
-		schema = schema_ref.TablesWithIncludedSchema
-	}
-	return s.flightInfoForCommand(desc, schema), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetTables(ctx context.Context, cmd flightsql.GetTables) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	query := prepareQueryForGetTables(cmd)
-
-	rows, err := s.db.QueryContext(ctx, query)
-	if err != nil {
-		return nil, nil, err
-	}
-
-	var rdr array.RecordReader
-
-	rdr, err = NewSqlBatchReaderWithSchema(s.Alloc, schema_ref.Tables, rows)
-	if err != nil {
-		return nil, nil, err
-	}
-
-	ch := make(chan flight.StreamChunk, 2)
-	if cmd.GetIncludeSchema() {
-		rdr, err = NewSqliteTablesSchemaBatchReader(ctx, s.Alloc, rdr, s.db, query)
-		if err != nil {
-			return nil, nil, err
-		}
-	}
-
-	schema := rdr.Schema()
-	go flight.StreamChunksFromReader(rdr, ch)
-	return schema, ch, nil
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoXdbcTypeInfo(_ context.Context, _ flightsql.GetXdbcTypeInfo, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.XdbcTypeInfo), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetXdbcTypeInfo(_ context.Context, cmd flightsql.GetXdbcTypeInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	var batch arrow.Record
-	if cmd.GetDataType() == nil {
-		batch = GetTypeInfoResult(s.Alloc)
-	} else {
-		batch = GetFilteredTypeInfoResult(s.Alloc, *cmd.GetDataType())
-	}
-
-	ch := make(chan flight.StreamChunk, 1)
-	ch <- flight.StreamChunk{Data: batch}
-	close(ch)
-	return batch.Schema(), ch, nil
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoTableTypes(_ context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.TableTypes), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetTableTypes(ctx context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	query := "SELECT DISTINCT type AS table_type FROM sqlite_master"
-	return doGetQuery(ctx, s.Alloc, s.db, query, schema_ref.TableTypes)
-}
-
-func (s *SQLiteFlightSQLServer) DoPutCommandStatementUpdate(ctx context.Context, cmd flightsql.StatementUpdate) (int64, error) {
-	var (
-		res sql.Result
-		err error
-	)
-
-	if len(cmd.GetTransactionId()) > 0 {
-		tx, loaded := s.openTransactions.Load(string(cmd.GetTransactionId()))
-		if !loaded {
-			return -1, status.Error(codes.InvalidArgument, "invalid transaction handle provided")
-		}
-
-		res, err = tx.(*sql.Tx).ExecContext(ctx, cmd.GetQuery())
-	} else {
-		res, err = s.db.ExecContext(ctx, cmd.GetQuery())
-	}
-
-	if err != nil {
-		return 0, err
-	}
-	return res.RowsAffected()
-}
-
-func (s *SQLiteFlightSQLServer) CreatePreparedStatement(ctx context.Context, req flightsql.ActionCreatePreparedStatementRequest) (result flightsql.ActionCreatePreparedStatementResult, err error) {
-	var stmt *sql.Stmt
-
-	if len(req.GetTransactionId()) > 0 {
-		tx, loaded := s.openTransactions.Load(string(req.GetTransactionId()))
-		if !loaded {
-			return result, status.Error(codes.InvalidArgument, "invalid transaction handle provided")
-		}
-		stmt, err = tx.(*sql.Tx).PrepareContext(ctx, req.GetQuery())
-	} else {
-		stmt, err = s.db.PrepareContext(ctx, req.GetQuery())
-	}
-
-	if err != nil {
-		return result, err
-	}
-
-	handle := genRandomString()
-	s.prepared.Store(string(handle), Statement{stmt: stmt})
-
-	result.Handle = handle
-	// no way to get the dataset or parameter schemas from sql.DB
-	return
-}
-
-func (s *SQLiteFlightSQLServer) ClosePreparedStatement(ctx context.Context, request flightsql.ActionClosePreparedStatementRequest) error {
-	handle := request.GetPreparedStatementHandle()
-	if val, loaded := s.prepared.LoadAndDelete(string(handle)); loaded {
-		stmt := val.(Statement)
-		return stmt.stmt.Close()
-	}
-
-	return status.Error(codes.InvalidArgument, "prepared statement not found")
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoPreparedStatement(_ context.Context, cmd flightsql.PreparedStatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	_, ok := s.prepared.Load(string(cmd.GetPreparedStatementHandle()))
-	if !ok {
-		return nil, status.Error(codes.InvalidArgument, "prepared statement not found")
-	}
-
-	return &flight.FlightInfo{
-		Endpoint:         []*flight.FlightEndpoint{{Ticket: &flight.Ticket{Ticket: desc.Cmd}}},
-		FlightDescriptor: desc,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}, nil
-}
-
-type dbQueryCtx interface {
-	QueryContext(context.Context, string, ...any) (*sql.Rows, error)
-}
-
-func doGetQuery(ctx context.Context, mem memory.Allocator, db dbQueryCtx, query string, schema *arrow.Schema, args ...interface{}) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	rows, err := db.QueryContext(ctx, query, args...)
-	if err != nil {
-		// Not really useful except for testing Flight SQL clients
-		trailers := metadata.Pairs("afsql-sqlite-query", query)
-		grpc.SetTrailer(ctx, trailers)
-		return nil, nil, err
-	}
-
-	var rdr *SqlBatchReader
-	if schema != nil {
-		rdr, err = NewSqlBatchReaderWithSchema(mem, schema, rows)
-	} else {
-		rdr, err = NewSqlBatchReader(mem, rows)
-		if err == nil {
-			schema = rdr.schema
-		}
-	}
-
-	if err != nil {
-		return nil, nil, err
-	}
-
-	ch := make(chan flight.StreamChunk)
-	go flight.StreamChunksFromReader(rdr, ch)
-	return schema, ch, nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetPreparedStatement(ctx context.Context, cmd flightsql.PreparedStatementQuery) (schema *arrow.Schema, out <-chan flight.StreamChunk, err error) {
-	val, ok := s.prepared.Load(string(cmd.GetPreparedStatementHandle()))
-	if !ok {
-		return nil, nil, status.Error(codes.InvalidArgument, "prepared statement not found")
-	}
-
-	stmt := val.(Statement)
-	readers := make([]array.RecordReader, 0, len(stmt.params))
-	if len(stmt.params) == 0 {
-		rows, err := stmt.stmt.QueryContext(ctx)
-		if err != nil {
-			return nil, nil, err
-		}
-
-		rdr, err := NewSqlBatchReader(s.Alloc, rows)
-		if err != nil {
-			return nil, nil, err
-		}
-
-		schema = rdr.schema
-		readers = append(readers, rdr)
-	} else {
-		defer func() {
-			if err != nil {
-				for _, r := range readers {
-					r.Release()
-				}
-			}
-		}()
-		var (
-			rows *sql.Rows
-			rdr  *SqlBatchReader
-		)
-		// if we have multiple rows of bound params, execute the query
-		// multiple times and concatenate the result sets.
-		for _, p := range stmt.params {
-			rows, err = stmt.stmt.QueryContext(ctx, p...)
-			if err != nil {
-				return nil, nil, err
-			}
-
-			if schema == nil {
-				rdr, err = NewSqlBatchReader(s.Alloc, rows)
-				if err != nil {
-					return nil, nil, err
-				}
-				schema = rdr.schema
-			} else {
-				rdr, err = NewSqlBatchReaderWithSchema(s.Alloc, schema, rows)
-				if err != nil {
-					return nil, nil, err
-				}
-			}
-
-			readers = append(readers, rdr)
-		}
-	}
-
-	ch := make(chan flight.StreamChunk)
-	go flight.ConcatenateReaders(readers, ch)
-	out = ch
-	return
-}
-
-func scalarToIFace(s scalar.Scalar) (interface{}, error) {
-	if !s.IsValid() {
-		return nil, nil
-	}
-
-	switch val := s.(type) {
-	case *scalar.Int8:
-		return val.Value, nil
-	case *scalar.Uint8:
-		return val.Value, nil
-	case *scalar.Int32:
-		return val.Value, nil
-	case *scalar.Int64:
-		return val.Value, nil
-	case *scalar.Float32:
-		return val.Value, nil
-	case *scalar.Float64:
-		return val.Value, nil
-	case *scalar.String:
-		return string(val.Value.Bytes()), nil
-	case *scalar.Binary:
-		return val.Value.Bytes(), nil
-	case scalar.DateScalar:
-		return val.ToTime(), nil
-	case scalar.TimeScalar:
-		return val.ToTime(), nil
-	case *scalar.DenseUnion:
-		return scalarToIFace(val.Value)
-	default:
-		return nil, fmt.Errorf("unsupported type: %s", val)
-	}
-}
-
-func getParamsForStatement(rdr flight.MessageReader) (params [][]interface{}, err error) {
-	params = make([][]interface{}, 0)
-	for rdr.Next() {
-		rec := rdr.Record()
-
-		nrows := int(rec.NumRows())
-		ncols := int(rec.NumCols())
-
-		for i := 0; i < nrows; i++ {
-			invokeParams := make([]interface{}, ncols)
-			for c := 0; c < ncols; c++ {
-				col := rec.Column(c)
-				sc, err := scalar.GetScalar(col, i)
-				if err != nil {
-					return nil, err
-				}
-				if r, ok := sc.(scalar.Releasable); ok {
-					r.Release()
-				}
-
-				invokeParams[c], err = scalarToIFace(sc)
-				if err != nil {
-					return nil, err
-				}
-			}
-			params = append(params, invokeParams)
-		}
-	}
-
-	return params, rdr.Err()
-}
-
-func (s *SQLiteFlightSQLServer) DoPutPreparedStatementQuery(_ context.Context, cmd flightsql.PreparedStatementQuery, rdr flight.MessageReader, _ flight.MetadataWriter) ([]byte, error) {
-	val, ok := s.prepared.Load(string(cmd.GetPreparedStatementHandle()))
-	if !ok {
-		return nil, status.Error(codes.InvalidArgument, "prepared statement not found")
-	}
-
-	stmt := val.(Statement)
-	args, err := getParamsForStatement(rdr)
-	if err != nil {
-		return nil, status.Errorf(codes.Internal, "error gathering parameters for prepared statement query: %s", err.Error())
-	}
-
-	stmt.params = args
-	s.prepared.Store(string(cmd.GetPreparedStatementHandle()), stmt)
-	return cmd.GetPreparedStatementHandle(), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoPutPreparedStatementUpdate(ctx context.Context, cmd flightsql.PreparedStatementUpdate, rdr flight.MessageReader) (int64, error) {
-	val, ok := s.prepared.Load(string(cmd.GetPreparedStatementHandle()))
-	if !ok {
-		return 0, status.Error(codes.InvalidArgument, "prepared statement not found")
-	}
-
-	stmt := val.(Statement)
-	args, err := getParamsForStatement(rdr)
-	if err != nil {
-		return 0, status.Errorf(codes.Internal, "error gathering parameters for prepared statement: %s", err.Error())
-	}
-
-	if len(args) == 0 {
-		result, err := stmt.stmt.ExecContext(ctx)
-		if err != nil {
-			if strings.Contains(err.Error(), "no such table") {
-				return 0, status.Error(codes.NotFound, err.Error())
-			}
-			return 0, err
-		}
-
-		return result.RowsAffected()
-	}
-
-	var totalAffected int64
-	for _, p := range args {
-		result, err := stmt.stmt.ExecContext(ctx, p...)
-		if err != nil {
-			if strings.Contains(err.Error(), "no such table") {
-				return totalAffected, status.Error(codes.NotFound, err.Error())
-			}
-			return totalAffected, err
-		}
-
-		n, err := result.RowsAffected()
-		if err != nil {
-			return totalAffected, err
-		}
-		totalAffected += n
-	}
-
-	return totalAffected, nil
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoPrimaryKeys(_ context.Context, cmd flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.PrimaryKeys), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetPrimaryKeys(ctx context.Context, cmd flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	// the field key_name cannot be recovered by sqlite so it is
-	// being set to null following the same pattern for catalog name and schema_name
-	var b strings.Builder
-
-	b.WriteString(`
-	SELECT null AS catalog_name, null AS schema_name, table_name, name AS column_name, pk AS key_sequence, null as key_name
-	FROM pragma_table_info(table_name)
-		JOIN (SELECT null AS catalog_name, null AS schema_name, name AS table_name, type AS table_type
-			FROM sqlite_master) where 1=1 AND pk !=0`)
-
-	if cmd.Catalog != nil {
-		fmt.Fprintf(&b, " and catalog_name LIKE '%s'", *cmd.Catalog)
-	}
-	if cmd.DBSchema != nil {
-		fmt.Fprintf(&b, " and schema_name LIKE '%s'", *cmd.DBSchema)
-	}
-
-	fmt.Fprintf(&b, " and table_name LIKE '%s'", cmd.Table)
-
-	return doGetQuery(ctx, s.Alloc, s.db, b.String(), schema_ref.PrimaryKeys)
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoImportedKeys(_ context.Context, _ flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.ImportedKeys), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetImportedKeys(ctx context.Context, ref flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	filter := "fk_table_name = '" + ref.Table + "'"
-	if ref.Catalog != nil {
-		filter += " AND fk_catalog_name = '" + *ref.Catalog + "'"
-	}
-	if ref.DBSchema != nil {
-		filter += " AND fk_schema_name = '" + *ref.DBSchema + "'"
-	}
-	query := prepareQueryForGetKeys(filter)
-	return doGetQuery(ctx, s.Alloc, s.db, query, schema_ref.ImportedKeys)
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoExportedKeys(_ context.Context, _ flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.ExportedKeys), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetExportedKeys(ctx context.Context, ref flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	filter := "pk_table_name = '" + ref.Table + "'"
-	if ref.Catalog != nil {
-		filter += " AND pk_catalog_name = '" + *ref.Catalog + "'"
-	}
-	if ref.DBSchema != nil {
-		filter += " AND pk_schema_name = '" + *ref.DBSchema + "'"
-	}
-	query := prepareQueryForGetKeys(filter)
-	return doGetQuery(ctx, s.Alloc, s.db, query, schema_ref.ExportedKeys)
-}
-
-func (s *SQLiteFlightSQLServer) GetFlightInfoCrossReference(_ context.Context, _ flightsql.CrossTableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return s.flightInfoForCommand(desc, schema_ref.CrossReference), nil
-}
-
-func (s *SQLiteFlightSQLServer) DoGetCrossReference(ctx context.Context, cmd flightsql.CrossTableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	pkref := cmd.PKRef
-	filter := "pk_table_name = '" + pkref.Table + "'"
-	if pkref.Catalog != nil {
-		filter += " AND pk_catalog_name = '" + *pkref.Catalog + "'"
-	}
-	if pkref.DBSchema != nil {
-		filter += " AND pk_schema_name = '" + *pkref.DBSchema + "'"
-	}
-
-	fkref := cmd.FKRef
-	filter += " AND fk_table_name = '" + fkref.Table + "'"
-	if fkref.Catalog != nil {
-		filter += " AND fk_catalog_name = '" + *fkref.Catalog + "'"
-	}
-	if fkref.DBSchema != nil {
-		filter += " AND fk_schema_name = '" + *fkref.DBSchema + "'"
-	}
-	query := prepareQueryForGetKeys(filter)
-	return doGetQuery(ctx, s.Alloc, s.db, query, schema_ref.ExportedKeys)
-}
-
-func (s *SQLiteFlightSQLServer) BeginTransaction(_ context.Context, req flightsql.ActionBeginTransactionRequest) (id []byte, err error) {
-	tx, err := s.db.Begin()
-	if err != nil {
-		return nil, status.Errorf(codes.Internal, "failed to begin transaction: %s", err.Error())
-	}
-
-	handle := genRandomString()
-	s.openTransactions.Store(string(handle), tx)
-	return handle, nil
-}
-
-func (s *SQLiteFlightSQLServer) EndTransaction(_ context.Context, req flightsql.ActionEndTransactionRequest) error {
-	if req.GetAction() == flightsql.EndTransactionUnspecified {
-		return status.Error(codes.InvalidArgument, "must specify Commit or Rollback to end transaction")
-	}
-
-	handle := string(req.GetTransactionId())
-	if tx, loaded := s.openTransactions.LoadAndDelete(handle); loaded {
-		txn := tx.(*sql.Tx)
-		switch req.GetAction() {
-		case flightsql.EndTransactionCommit:
-			if err := txn.Commit(); err != nil {
-				return status.Error(codes.Internal, "failed to commit transaction: "+err.Error())
-			}
-		case flightsql.EndTransactionRollback:
-			if err := txn.Rollback(); err != nil {
-				return status.Error(codes.Internal, "failed to rollback transaction: "+err.Error())
-			}
-		}
-		return nil
-	}
-
-	return status.Error(codes.InvalidArgument, "transaction id not found")
-}
diff --git a/go/arrow/flight/flightsql/example/sqlite_tables_schema_batch_reader.go b/go/arrow/flight/flightsql/example/sqlite_tables_schema_batch_reader.go
deleted file mode 100644
index 373be784b9145..0000000000000
--- a/go/arrow/flight/flightsql/example/sqlite_tables_schema_batch_reader.go
+++ /dev/null
@@ -1,203 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package example
-
-import (
-	"context"
-	"database/sql"
-	"strings"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	sqlite3 "modernc.org/sqlite/lib"
-)
-
-type SqliteTablesSchemaBatchReader struct {
-	refCount int64
-
-	mem        memory.Allocator
-	ctx        context.Context
-	rdr        array.RecordReader
-	stmt       *sql.Stmt
-	schemaBldr *array.BinaryBuilder
-	record     arrow.Record
-	err        error
-}
-
-func NewSqliteTablesSchemaBatchReader(ctx context.Context, mem memory.Allocator, rdr array.RecordReader, db *sql.DB, mainQuery string) (*SqliteTablesSchemaBatchReader, error) {
-	schemaQuery := `SELECT table_name, name, type, [notnull] 
-					FROM pragma_table_info(table_name)
-					JOIN (` + mainQuery + `) WHERE table_name = ?`
-
-	stmt, err := db.PrepareContext(ctx, schemaQuery)
-	if err != nil {
-		rdr.Release()
-		return nil, err
-	}
-
-	return &SqliteTablesSchemaBatchReader{
-		refCount:   1,
-		ctx:        ctx,
-		rdr:        rdr,
-		stmt:       stmt,
-		mem:        mem,
-		schemaBldr: array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary),
-	}, nil
-}
-
-func (s *SqliteTablesSchemaBatchReader) Err() error { return s.err }
-
-func (s *SqliteTablesSchemaBatchReader) Retain() { atomic.AddInt64(&s.refCount, 1) }
-
-func (s *SqliteTablesSchemaBatchReader) Release() {
-	debug.Assert(atomic.LoadInt64(&s.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&s.refCount, -1) == 0 {
-		s.rdr.Release()
-		s.stmt.Close()
-		s.schemaBldr.Release()
-		if s.record != nil {
-			s.record.Release()
-			s.record = nil
-		}
-	}
-}
-
-func (s *SqliteTablesSchemaBatchReader) Schema() *arrow.Schema {
-	fields := append(s.rdr.Schema().Fields(),
-		arrow.Field{Name: "table_schema", Type: arrow.BinaryTypes.Binary})
-	return arrow.NewSchema(fields, nil)
-}
-
-func (s *SqliteTablesSchemaBatchReader) Record() arrow.Record { return s.record }
-
-func getSqlTypeFromTypeName(sqltype string) int {
-	if sqltype == "" {
-		return sqlite3.SQLITE_NULL
-	}
-
-	sqltype = strings.ToLower(sqltype)
-
-	if strings.HasPrefix(sqltype, "varchar") || strings.HasPrefix(sqltype, "char") {
-		return sqlite3.SQLITE_TEXT
-	}
-
-	switch sqltype {
-	case "int", "integer":
-		return sqlite3.SQLITE_INTEGER
-	case "real":
-		return sqlite3.SQLITE_FLOAT
-	case "blob":
-		return sqlite3.SQLITE_BLOB
-	case "text", "date":
-		return sqlite3.SQLITE_TEXT
-	default:
-		return sqlite3.SQLITE_NULL
-	}
-}
-
-func getPrecisionFromCol(sqltype int) int {
-	switch sqltype {
-	case sqlite3.SQLITE_INTEGER:
-		return 10
-	case sqlite3.SQLITE_FLOAT:
-		return 15
-	}
-	return 0
-}
-
-func getColumnMetadata(bldr *flightsql.ColumnMetadataBuilder, sqltype int, table string) arrow.Metadata {
-	defer bldr.Clear()
-
-	bldr.Scale(15).IsReadOnly(false).IsAutoIncrement(false)
-	if table != "" {
-		bldr.TableName(table)
-	}
-	switch sqltype {
-	case sqlite3.SQLITE_TEXT, sqlite3.SQLITE_BLOB:
-	default:
-		bldr.Precision(int32(getPrecisionFromCol(sqltype)))
-	}
-
-	return bldr.Metadata()
-}
-
-func (s *SqliteTablesSchemaBatchReader) Next() bool {
-	if s.record != nil {
-		s.record.Release()
-		s.record = nil
-	}
-
-	if !s.rdr.Next() {
-		return false
-	}
-
-	rec := s.rdr.Record()
-	tableNameArr := rec.Column(rec.Schema().FieldIndices("table_name")[0]).(*array.String)
-
-	bldr := flightsql.NewColumnMetadataBuilder()
-	columnFields := make([]arrow.Field, 0)
-	for i := 0; i < tableNameArr.Len(); i++ {
-		table := tableNameArr.Value(i)
-		rows, err := s.stmt.QueryContext(s.ctx, table)
-		if err != nil {
-			s.err = err
-			return false
-		}
-
-		var tableName, name, typ string
-		var nn int
-		for rows.Next() {
-			if err := rows.Scan(&tableName, &name, &typ, &nn); err != nil {
-				rows.Close()
-				s.err = err
-				return false
-			}
-
-			columnFields = append(columnFields, arrow.Field{
-				Name:     name,
-				Type:     getArrowTypeFromString(typ),
-				Nullable: nn == 0,
-				Metadata: getColumnMetadata(bldr, getSqlTypeFromTypeName(typ), tableName),
-			})
-		}
-
-		rows.Close()
-		if rows.Err() != nil {
-			s.err = rows.Err()
-			return false
-		}
-		val := flight.SerializeSchema(arrow.NewSchema(columnFields, nil), s.mem)
-		s.schemaBldr.Append(val)
-
-		columnFields = columnFields[:0]
-	}
-
-	schemaCol := s.schemaBldr.NewArray()
-	defer schemaCol.Release()
-
-	s.record = array.NewRecord(s.Schema(), append(rec.Columns(), schemaCol), rec.NumRows())
-	return true
-}
diff --git a/go/arrow/flight/flightsql/example/type_info.go b/go/arrow/flight/flightsql/example/type_info.go
deleted file mode 100644
index 5e5e52cf2a4cf..0000000000000
--- a/go/arrow/flight/flightsql/example/type_info.go
+++ /dev/null
@@ -1,118 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package example
-
-import (
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/schema_ref"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func GetTypeInfoResult(mem memory.Allocator) arrow.Record {
-	typeNames, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
-		strings.NewReader(`["bit", "tinyint", "bigint", "longvarbinary",
-						    "varbinary", "text", "longvarchar", "char",
-							"integer", "smallint", "float", "double",
-							"numeric", "varchar", "date", "time", "timestamp"]`))
-	defer typeNames.Release()
-
-	dataType, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[-7, -6, -5, -4, -3, -1, -1, 1, 4, 5, 6, 8, 8, 12, 91, 92, 93]`))
-	defer dataType.Release()
-
-	columnSize, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[1, 3, 19, 65536, 255, 65536, 65536, 255, 9, 5, 7, 15, 15, 255, 10, 8, 32]`))
-	defer columnSize.Release()
-
-	literalPrefix, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
-		strings.NewReader(`[null, null, null, null, null, "'", "'", "'", null, null, null, null, null, "'" ,"'", "'", "'"]`))
-	defer literalPrefix.Release()
-
-	literalSuffix, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
-		strings.NewReader(`[null, null, null, null, null, "'", "'", "'", null, null, null, null, null, "'" ,"'", "'", "'"]`))
-	defer literalSuffix.Release()
-
-	createParams, _, _ := array.FromJSON(mem, arrow.ListOfField(arrow.Field{Name: "item", Type: arrow.BinaryTypes.String, Nullable: false}),
-		strings.NewReader(`[[], [], [], [], [], ["length"], ["length"], ["length"], [], [], [], [], [], ["length"], [], [], []]`))
-	defer createParams.Release()
-
-	nullable, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]`))
-	defer nullable.Release()
-
-	// reference for creating a boolean() array with only zeros
-	zeroBoolArray, _, err := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
-		strings.NewReader(`[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]`), array.WithUseNumber())
-	if err != nil {
-		panic(err)
-	}
-	defer zeroBoolArray.Release()
-	caseSensitive := zeroBoolArray
-
-	searchable, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]`))
-	defer searchable.Release()
-
-	unsignedAttribute := zeroBoolArray
-	fixedPrecScale := zeroBoolArray
-	autoUniqueVal := zeroBoolArray
-
-	localTypeName := typeNames
-
-	zeroIntArray, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
-		strings.NewReader(`[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]`))
-	defer zeroIntArray.Release()
-
-	minimalScale := zeroIntArray
-	maximumScale := zeroIntArray
-	sqlDataType := dataType
-	sqlDateTimeSub := zeroIntArray
-	numPrecRadix := zeroIntArray
-	intervalPrecision := zeroIntArray
-
-	return array.NewRecord(schema_ref.XdbcTypeInfo, []arrow.Array{
-		typeNames, dataType, columnSize, literalPrefix, literalSuffix,
-		createParams, nullable, caseSensitive, searchable, unsignedAttribute,
-		fixedPrecScale, autoUniqueVal, localTypeName, minimalScale, maximumScale,
-		sqlDataType, sqlDateTimeSub, numPrecRadix, intervalPrecision}, 17)
-}
-
-func GetFilteredTypeInfoResult(mem memory.Allocator, filter int32) arrow.Record {
-	batch := GetTypeInfoResult(mem)
-	defer batch.Release()
-
-	dataTypeVector := []int32{-7, -6, -5, -4, -3, -1, -1, 1, 4, 5, 6, 8, 8, 12, 91, 92, 93}
-	start, end := -1, -1
-	for i, v := range dataTypeVector {
-		if filter == v {
-			if start == -1 {
-				start = i
-			}
-		} else if start != -1 && end == -1 {
-			end = i
-			break
-		}
-	}
-
-	return batch.NewSlice(int64(start), int64(end))
-}
diff --git a/go/arrow/flight/flightsql/schema_ref/reference_schemas.go b/go/arrow/flight/flightsql/schema_ref/reference_schemas.go
deleted file mode 100644
index d9ba7767feb83..0000000000000
--- a/go/arrow/flight/flightsql/schema_ref/reference_schemas.go
+++ /dev/null
@@ -1,106 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package schema_ref contains the expected reference Schemas to be used
-// by FlightSQL servers and clients.
-package schema_ref
-
-import "github.com/apache/arrow/go/v18/arrow"
-
-var (
-	Catalogs = arrow.NewSchema(
-		[]arrow.Field{{Name: "catalog_name", Type: arrow.BinaryTypes.String}}, nil)
-	DBSchemas = arrow.NewSchema([]arrow.Field{
-		{Name: "catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "db_schema_name", Type: arrow.BinaryTypes.String},
-	}, nil)
-	Tables = arrow.NewSchema([]arrow.Field{
-		{Name: "catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "table_name", Type: arrow.BinaryTypes.String},
-		{Name: "table_type", Type: arrow.BinaryTypes.String},
-	}, nil)
-	TablesWithIncludedSchema = arrow.NewSchema([]arrow.Field{
-		{Name: "catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "table_name", Type: arrow.BinaryTypes.String},
-		{Name: "table_type", Type: arrow.BinaryTypes.String},
-		{Name: "table_schema", Type: arrow.BinaryTypes.Binary},
-	}, nil)
-	TableTypes = arrow.NewSchema([]arrow.Field{
-		{Name: "table_type", Type: arrow.BinaryTypes.String},
-	}, nil)
-	PrimaryKeys = arrow.NewSchema([]arrow.Field{
-		{Name: "catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "table_name", Type: arrow.BinaryTypes.String},
-		{Name: "column_name", Type: arrow.BinaryTypes.String},
-		{Name: "key_sequence", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "key_name", Type: arrow.BinaryTypes.String, Nullable: true},
-	}, nil)
-	ImportedExportedKeysAndCrossReference = arrow.NewSchema([]arrow.Field{
-		{Name: "pk_catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "pk_db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "pk_table_name", Type: arrow.BinaryTypes.String, Nullable: false},
-		{Name: "pk_column_name", Type: arrow.BinaryTypes.String, Nullable: false},
-		{Name: "fk_catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "fk_db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "fk_table_name", Type: arrow.BinaryTypes.String, Nullable: false},
-		{Name: "fk_column_name", Type: arrow.BinaryTypes.String, Nullable: false},
-		{Name: "key_sequence", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
-		{Name: "fk_key_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "pk_key_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "update_rule", Type: arrow.PrimitiveTypes.Uint8, Nullable: false},
-		{Name: "delete_rule", Type: arrow.PrimitiveTypes.Uint8, Nullable: false},
-	}, nil)
-	ImportedKeys   = ImportedExportedKeysAndCrossReference
-	ExportedKeys   = ImportedExportedKeysAndCrossReference
-	CrossReference = ImportedExportedKeysAndCrossReference
-	SqlInfo        = arrow.NewSchema([]arrow.Field{
-		{Name: "info_name", Type: arrow.PrimitiveTypes.Uint32},
-		{Name: "value", Type: arrow.DenseUnionOf([]arrow.Field{
-			{Name: "string_value", Type: arrow.BinaryTypes.String},
-			{Name: "bool_value", Type: arrow.FixedWidthTypes.Boolean},
-			{Name: "bigint_value", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "int32_bitmask", Type: arrow.PrimitiveTypes.Int32},
-			{Name: "string_list", Type: arrow.ListOf(arrow.BinaryTypes.String)},
-			{Name: "int32_to_int32_list_map",
-				Type: arrow.MapOf(arrow.PrimitiveTypes.Int32,
-					arrow.ListOf(arrow.PrimitiveTypes.Int32))},
-		}, []arrow.UnionTypeCode{0, 1, 2, 3, 4, 5})},
-	}, nil)
-	XdbcTypeInfo = arrow.NewSchema([]arrow.Field{
-		{Name: "type_name", Type: arrow.BinaryTypes.String, Nullable: false},
-		{Name: "data_type", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
-		{Name: "column_size", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "literal_prefix", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "literal_suffix", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "create_params", Type: arrow.ListOfField(arrow.Field{Name: "item", Type: arrow.BinaryTypes.String, Nullable: false}), Nullable: true},
-		{Name: "nullable", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
-		{Name: "case_sensitive", Type: arrow.FixedWidthTypes.Boolean, Nullable: false},
-		{Name: "searchable", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
-		{Name: "unsigned_attribute", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "fixed_prec_scale", Type: arrow.FixedWidthTypes.Boolean, Nullable: false},
-		{Name: "auto_increment", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "local_type_name", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "minimum_scale", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "maximum_scale", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "sql_data_type", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
-		{Name: "datetime_subcode", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "num_prec_radix", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "interval_precision", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-	}, nil)
-)
diff --git a/go/arrow/flight/flightsql/server.go b/go/arrow/flight/flightsql/server.go
deleted file mode 100644
index b085619745c90..0000000000000
--- a/go/arrow/flight/flightsql/server.go
+++ /dev/null
@@ -1,1400 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql
-
-import (
-	"context"
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/schema_ref"
-	pb "github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/status"
-	"google.golang.org/protobuf/proto"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-// the following interfaces wrap the Protobuf commands to avoid
-// exposing the Protobuf types themselves in the API.
-
-// StatementQuery represents a Sql Query
-type StatementQuery interface {
-	GetQuery() string
-	GetTransactionId() []byte
-}
-
-type statementSubstraitPlan struct {
-	*pb.CommandStatementSubstraitPlan
-}
-
-func (s *statementSubstraitPlan) GetPlan() SubstraitPlan {
-	var (
-		plan    []byte
-		version string
-	)
-	if s.Plan != nil {
-		plan = s.Plan.Plan
-		version = s.Plan.Version
-	}
-	return SubstraitPlan{
-		Plan:    plan,
-		Version: version,
-	}
-}
-
-type StatementSubstraitPlan interface {
-	GetTransactionId() []byte
-	GetPlan() SubstraitPlan
-}
-
-// StatementUpdate represents a SQL update query
-type StatementUpdate interface {
-	GetQuery() string
-	GetTransactionId() []byte
-}
-
-// StatementQueryTicket represents a request to execute a query
-type StatementQueryTicket interface {
-	// GetStatementHandle returns the server-generated opaque
-	// identifier for the query
-	GetStatementHandle() []byte
-}
-
-func GetStatementQueryTicket(ticket *flight.Ticket) (result StatementQueryTicket, err error) {
-	var anycmd anypb.Any
-	if err = proto.Unmarshal(ticket.Ticket, &anycmd); err != nil {
-		return
-	}
-
-	var out pb.TicketStatementQuery
-	if err = anycmd.UnmarshalTo(&out); err != nil {
-		return
-	}
-
-	result = &out
-	return
-}
-
-// PreparedStatementQuery represents a prepared query statement
-type PreparedStatementQuery interface {
-	// GetPreparedStatementHandle returns the server-generated opaque
-	// identifier for the statement
-	GetPreparedStatementHandle() []byte
-}
-
-// PreparedStatementUpdate represents a prepared update statement
-type PreparedStatementUpdate interface {
-	// GetPreparedStatementHandle returns the server-generated opaque
-	// identifier for the statement
-	GetPreparedStatementHandle() []byte
-}
-
-// ActionClosePreparedStatementRequest represents a request to close
-// a prepared statement
-type ActionClosePreparedStatementRequest interface {
-	// GetPreparedStatementHandle returns the server-generated opaque
-	// identifier for the statement
-	GetPreparedStatementHandle() []byte
-}
-
-// ActionCreatePreparedStatementRequest represents a request to construct
-// a new prepared statement
-type ActionCreatePreparedStatementRequest interface {
-	GetQuery() string
-	GetTransactionId() []byte
-}
-
-type ActionCreatePreparedSubstraitPlanRequest interface {
-	GetPlan() SubstraitPlan
-	GetTransactionId() []byte
-}
-
-type createPreparedSubstraitPlanReq struct {
-	*pb.ActionCreatePreparedSubstraitPlanRequest
-}
-
-func (c *createPreparedSubstraitPlanReq) GetPlan() SubstraitPlan {
-	var (
-		plan    []byte
-		version string
-	)
-	if c.Plan != nil {
-		plan = c.Plan.Plan
-		version = c.Plan.Version
-	}
-	return SubstraitPlan{
-		Plan:    plan,
-		Version: version,
-	}
-}
-
-// ActionCreatePreparedStatementResult is the result of creating a new
-// prepared statement, optionally including the dataset and parameter
-// schemas.
-type ActionCreatePreparedStatementResult struct {
-	Handle          []byte
-	DatasetSchema   *arrow.Schema
-	ParameterSchema *arrow.Schema
-}
-
-type ActionBeginTransactionRequest interface{}
-
-type ActionBeginSavepointRequest interface {
-	GetTransactionId() []byte
-	GetName() string
-}
-
-type ActionBeginSavepointResult interface {
-	GetSavepointId() []byte
-}
-
-type ActionBeginTransactionResult interface {
-	GetTransactionId() []byte
-}
-
-type ActionCancelQueryRequest interface {
-	GetInfo() *flight.FlightInfo
-}
-
-type cancelQueryRequest struct {
-	info *flight.FlightInfo
-}
-
-func (c *cancelQueryRequest) GetInfo() *flight.FlightInfo { return c.info }
-
-type cancelQueryServer interface {
-	CancelQuery(context.Context, ActionCancelQueryRequest) (CancelResult, error)
-}
-
-type ActionEndTransactionRequest interface {
-	GetTransactionId() []byte
-	GetAction() EndTransactionRequestType
-}
-
-type ActionEndSavepointRequest interface {
-	GetSavepointId() []byte
-	GetAction() EndSavepointRequestType
-}
-
-// StatementIngest represents a bulk ingestion request
-type StatementIngest interface {
-	GetTableDefinitionOptions() *TableDefinitionOptions
-	GetTable() string
-	GetSchema() string
-	GetCatalog() string
-	GetTemporary() bool
-	GetTransactionId() []byte
-	GetOptions() map[string]string
-}
-
-type getXdbcTypeInfo struct {
-	*pb.CommandGetXdbcTypeInfo
-}
-
-func (c *getXdbcTypeInfo) GetDataType() *int32 { return c.DataType }
-
-// GetXdbcTypeInfo represents a request for SQL Data Type information
-type GetXdbcTypeInfo interface {
-	// GetDataType returns either nil (get for all types)
-	// or a specific SQL type ID to fetch information about.
-	GetDataType() *int32
-}
-
-// GetSqlInfo represents a request for SQL Information
-type GetSqlInfo interface {
-	// GetInfo returns a slice of SqlInfo ids to return information about
-	GetInfo() []uint32
-}
-
-type getDBSchemas struct {
-	*pb.CommandGetDbSchemas
-}
-
-func (c *getDBSchemas) GetCatalog() *string               { return c.Catalog }
-func (c *getDBSchemas) GetDBSchemaFilterPattern() *string { return c.DbSchemaFilterPattern }
-
-// GetDBSchemas represents a request for list of database schemas
-type GetDBSchemas interface {
-	GetCatalog() *string
-	GetDBSchemaFilterPattern() *string
-}
-
-type getTables struct {
-	*pb.CommandGetTables
-}
-
-func (c *getTables) GetCatalog() *string                { return c.Catalog }
-func (c *getTables) GetDBSchemaFilterPattern() *string  { return c.DbSchemaFilterPattern }
-func (c *getTables) GetTableNameFilterPattern() *string { return c.TableNameFilterPattern }
-
-// GetTables represents a request to list the database's tables
-type GetTables interface {
-	GetCatalog() *string
-	GetDBSchemaFilterPattern() *string
-	GetTableNameFilterPattern() *string
-	GetTableTypes() []string
-	GetIncludeSchema() bool
-}
-
-func packActionResult(msg proto.Message) (*pb.Result, error) {
-	var (
-		anycmd anypb.Any
-		err    error
-	)
-
-	if err = anycmd.MarshalFrom(msg); err != nil {
-		return nil, fmt.Errorf("%w: unable to marshal final response", err)
-	}
-
-	ret := &pb.Result{}
-	if ret.Body, err = proto.Marshal(&anycmd); err != nil {
-		return nil, fmt.Errorf("%w: unable to marshal final response", err)
-	}
-	return ret, nil
-}
-
-// BaseServer must be embedded into any FlightSQL Server implementation
-// and provides default implementations of all methods returning an
-// unimplemented error if called. This allows consumers to gradually
-// implement methods as they want instead of requiring all consumers to
-// boilerplate the same "unimplemented" methods.
-//
-// The base implementation also contains handling for registering sql info
-// and serving it up in response to GetSqlInfo requests.
-type BaseServer struct {
-	sqlInfoToResult SqlInfoResultMap
-	// Alloc allows specifying a particular allocator to use for any
-	// allocations done by the base implementation.
-	// Will use memory.DefaultAllocator if nil
-	Alloc memory.Allocator
-}
-
-func (BaseServer) mustEmbedBaseServer() {}
-
-// RegisterSqlInfo registers a specific result to return for a given sqlinfo
-// id. The result must be one of the following types: string, bool, int64,
-// int32, []string, or map[int32][]int32.
-//
-// Once registered, this value will be returned for any SqlInfo requests.
-func (b *BaseServer) RegisterSqlInfo(id SqlInfo, result interface{}) error {
-	if b.sqlInfoToResult == nil {
-		b.sqlInfoToResult = make(SqlInfoResultMap)
-	}
-
-	switch result.(type) {
-	case string, bool, int64, int32, []string, map[int32][]int32:
-		b.sqlInfoToResult[uint32(id)] = result
-	default:
-		return fmt.Errorf("invalid sql info type '%T' registered for id: %d", result, id)
-	}
-	return nil
-}
-
-func (BaseServer) GetFlightInfoStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoStatement not implemented")
-}
-
-func (BaseServer) GetFlightInfoSubstraitPlan(context.Context, StatementSubstraitPlan, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoSubstraitPlan not implemented")
-}
-
-func (BaseServer) GetSchemaStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetSchemaStatement not implemented")
-}
-
-func (BaseServer) GetSchemaSubstraitPlan(context.Context, StatementSubstraitPlan, *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetSchemaSubstraitPlan not implemented")
-}
-
-func (BaseServer) DoGetStatement(context.Context, StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetStatement not implemented")
-}
-
-func (BaseServer) GetFlightInfoPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoPreparedStatement not implemented")
-}
-
-func (BaseServer) GetSchemaPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetSchemaPreparedStatement not implemented")
-}
-
-func (BaseServer) DoGetPreparedStatement(context.Context, PreparedStatementQuery) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetPreparedStatement not implemented")
-}
-
-func (BaseServer) GetFlightInfoCatalogs(context.Context, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoCatalogs not implemented")
-}
-
-func (BaseServer) DoGetCatalogs(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetCatalogs not implemented")
-}
-
-func (BaseServer) GetFlightInfoXdbcTypeInfo(context.Context, GetXdbcTypeInfo, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoXdbcTypeInfo not implemented")
-}
-
-func (BaseServer) DoGetXdbcTypeInfo(context.Context, GetXdbcTypeInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetXdbcTypeInfo not implemented")
-}
-
-// GetFlightInfoSqlInfo is a base implementation of GetSqlInfo by using any
-// registered sqlinfo (by calling RegisterSqlInfo). Will return an error
-// if there is no sql info registered, otherwise a FlightInfo for retrieving
-// the Sql info.
-func (b *BaseServer) GetFlightInfoSqlInfo(_ context.Context, _ GetSqlInfo, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if len(b.sqlInfoToResult) == 0 {
-		return nil, status.Error(codes.NotFound, "no sql information available")
-	}
-
-	if b.Alloc == nil {
-		b.Alloc = memory.DefaultAllocator
-	}
-
-	return &flight.FlightInfo{
-		Endpoint:         []*flight.FlightEndpoint{{Ticket: &flight.Ticket{Ticket: desc.Cmd}}},
-		FlightDescriptor: desc,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-		Schema:           flight.SerializeSchema(schema_ref.SqlInfo, b.Alloc),
-	}, nil
-}
-
-// DoGetSqlInfo returns a flight stream containing the list of sqlinfo results
-func (b *BaseServer) DoGetSqlInfo(_ context.Context, cmd GetSqlInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	if b.Alloc == nil {
-		b.Alloc = memory.DefaultAllocator
-	}
-
-	bldr := array.NewRecordBuilder(b.Alloc, schema_ref.SqlInfo)
-	defer bldr.Release()
-
-	nameFieldBldr := bldr.Field(0).(*array.Uint32Builder)
-	valFieldBldr := bldr.Field(1).(*array.DenseUnionBuilder)
-
-	// doesn't take ownership, no calls to retain. so we don't need
-	// extra releases.
-	sqlInfoResultBldr := newSqlInfoResultBuilder(valFieldBldr)
-
-	keys := cmd.GetInfo()
-
-	// populate both the nameFieldBldr and the values for each
-	// element on command.info.
-	// valueFieldBldr is populated depending on the data type
-	// since it's a dense union. The population for each
-	// data type is handled by the sqlInfoResultBuilder.
-	if len(keys) > 0 {
-		for _, info := range keys {
-			val, ok := b.sqlInfoToResult[info]
-			if !ok {
-				return nil, nil, status.Errorf(codes.NotFound, "no information for sql info number %d", info)
-			}
-			nameFieldBldr.Append(info)
-			sqlInfoResultBldr.Append(val)
-		}
-	} else {
-		for k, v := range b.sqlInfoToResult {
-			nameFieldBldr.Append(k)
-			sqlInfoResultBldr.Append(v)
-		}
-	}
-
-	batch := bldr.NewRecord()
-	defer batch.Release()
-	debug.Assert(int(batch.NumRows()) == len(cmd.GetInfo()), "too many rows added to SqlInfo result")
-
-	ch := make(chan flight.StreamChunk)
-	rdr, err := array.NewRecordReader(schema_ref.SqlInfo, []arrow.Record{batch})
-	if err != nil {
-		return nil, nil, status.Errorf(codes.Internal, "error producing record response: %s", err.Error())
-	}
-
-	// StreamChunksFromReader will call release on the reader when done
-	go flight.StreamChunksFromReader(rdr, ch)
-	return schema_ref.SqlInfo, ch, nil
-}
-
-func (BaseServer) GetFlightInfoSchemas(context.Context, GetDBSchemas, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoSchemas not implemented")
-}
-
-func (BaseServer) DoGetDBSchemas(context.Context, GetDBSchemas) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetDBSchemas not implemented")
-}
-
-func (BaseServer) GetFlightInfoTables(context.Context, GetTables, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoTables not implemented")
-}
-
-func (BaseServer) DoGetTables(context.Context, GetTables) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetTables not implemented")
-}
-
-func (BaseServer) GetFlightInfoTableTypes(context.Context, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoTableTypes not implemented")
-}
-
-func (BaseServer) DoGetTableTypes(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetTableTypes not implemented")
-}
-
-func (BaseServer) GetFlightInfoPrimaryKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "GetFlightInfoPrimaryKeys not implemented")
-}
-
-func (BaseServer) DoGetPrimaryKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetPrimaryKeys not implemented")
-}
-
-func (BaseServer) GetFlightInfoExportedKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "GetFlightInfoExportedKeys not implemented")
-}
-
-func (BaseServer) DoGetExportedKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetExportedKeys not implemented")
-}
-
-func (BaseServer) GetFlightInfoImportedKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "GetFlightInfoImportedKeys not implemented")
-}
-
-func (BaseServer) DoGetImportedKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetImportedKeys not implemented")
-}
-
-func (BaseServer) GetFlightInfoCrossReference(context.Context, CrossTableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "GetFlightInfoCrossReference not implemented")
-}
-
-func (BaseServer) DoGetCrossReference(context.Context, CrossTableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetCrossReference not implemented")
-}
-
-func (BaseServer) CreatePreparedStatement(context.Context, ActionCreatePreparedStatementRequest) (res ActionCreatePreparedStatementResult, err error) {
-	return res, status.Error(codes.Unimplemented, "CreatePreparedStatement not implemented")
-}
-
-func (BaseServer) CreatePreparedSubstraitPlan(context.Context, ActionCreatePreparedSubstraitPlanRequest) (res ActionCreatePreparedStatementResult, err error) {
-	return res, status.Error(codes.Unimplemented, "CreatePreparedSubstraitPlan not implemented")
-}
-
-func (BaseServer) ClosePreparedStatement(context.Context, ActionClosePreparedStatementRequest) error {
-	return status.Error(codes.Unimplemented, "ClosePreparedStatement not implemented")
-}
-
-func (BaseServer) DoPutCommandStatementUpdate(context.Context, StatementUpdate) (int64, error) {
-	return 0, status.Error(codes.Unimplemented, "DoPutCommandStatementUpdate not implemented")
-}
-
-func (BaseServer) DoPutCommandSubstraitPlan(context.Context, StatementSubstraitPlan) (int64, error) {
-	return 0, status.Error(codes.Unimplemented, "DoPutCommandSubstraitPlan not implemented")
-}
-
-func (BaseServer) DoPutPreparedStatementQuery(context.Context, PreparedStatementQuery, flight.MessageReader, flight.MetadataWriter) ([]byte, error) {
-	return nil, status.Error(codes.Unimplemented, "DoPutPreparedStatementQuery not implemented")
-}
-
-func (BaseServer) DoPutPreparedStatementUpdate(context.Context, PreparedStatementUpdate, flight.MessageReader) (int64, error) {
-	return 0, status.Error(codes.Unimplemented, "DoPutPreparedStatementUpdate not implemented")
-}
-
-func (BaseServer) DoPutCommandStatementIngest(context.Context, StatementIngest, flight.MessageReader) (int64, error) {
-	return 0, status.Error(codes.Unimplemented, "DoPutCommandStatementIngest not implemented")
-}
-
-func (BaseServer) BeginTransaction(context.Context, ActionBeginTransactionRequest) ([]byte, error) {
-	return nil, status.Error(codes.Unimplemented, "BeginTransaction not implemented")
-}
-
-func (BaseServer) BeginSavepoint(context.Context, ActionBeginSavepointRequest) ([]byte, error) {
-	return nil, status.Error(codes.Unimplemented, "BeginSavepoint not implemented")
-}
-
-func (BaseServer) CancelFlightInfo(context.Context, *flight.CancelFlightInfoRequest) (flight.CancelFlightInfoResult, error) {
-	return flight.CancelFlightInfoResult{Status: flight.CancelStatusUnspecified},
-		status.Error(codes.Unimplemented, "CancelFlightInfo not implemented")
-}
-
-func (BaseServer) RenewFlightEndpoint(context.Context, *flight.RenewFlightEndpointRequest) (*flight.FlightEndpoint, error) {
-	return nil, status.Error(codes.Unimplemented, "RenewFlightEndpoint not implemented")
-}
-
-func (BaseServer) PollFlightInfo(context.Context, *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "PollFlightInfo not implemented")
-}
-
-func (BaseServer) PollFlightInfoStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "PollFlightInfoStatement not implemented")
-}
-
-func (BaseServer) PollFlightInfoSubstraitPlan(context.Context, StatementSubstraitPlan, *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "PollFlightInfoSubstraitPlan not implemented")
-}
-
-func (BaseServer) PollFlightInfoPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	return nil, status.Error(codes.Unimplemented, "PollFlightInfoPreparedStatement not implemented")
-}
-
-func (BaseServer) EndTransaction(context.Context, ActionEndTransactionRequest) error {
-	return status.Error(codes.Unimplemented, "EndTransaction not implemented")
-}
-
-func (BaseServer) EndSavepoint(context.Context, ActionEndSavepointRequest) error {
-	return status.Error(codes.Unimplemented, "EndSavepoint not implemented")
-}
-
-func (BaseServer) SetSessionOptions(context.Context, *flight.SetSessionOptionsRequest) (*flight.SetSessionOptionsResult, error) {
-	return nil, status.Error(codes.Unimplemented, "SetSessionOptions not implemented")
-}
-
-func (BaseServer) GetSessionOptions(context.Context, *flight.GetSessionOptionsRequest) (*flight.GetSessionOptionsResult, error) {
-	return nil, status.Error(codes.Unimplemented, "GetSessionOptions not implemented")
-}
-
-func (BaseServer) CloseSession(context.Context, *flight.CloseSessionRequest) (*flight.CloseSessionResult, error) {
-	return nil, status.Error(codes.Unimplemented, "CloseSession not implemented")
-}
-
-// Server is the required interface for a FlightSQL server. It is implemented by
-// BaseServer which must be embedded in any implementation. The default
-// implementation by BaseServer for each of these (except GetSqlInfo)
-//
-// GetFlightInfo* methods should return the FlightInfo object representing where
-// to retrieve the results for a given request.
-//
-// DoGet* methods should return the Schema of the resulting stream along with
-// a channel to retrieve stream chunks (each chunk is a record batch and optionally
-// a descriptor and app metadata). The channel will be read from until it
-// closes, sending each chunk on the stream. Since the channel is returned
-// from the method, it should be populated within a goroutine to ensure
-// there are no deadlocks.
-type Server interface {
-	// GetFlightInfoStatement returns a FlightInfo for executing the requested sql query
-	GetFlightInfoStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// GetFlightInfoSubstraitPlan returns a FlightInfo for executing the requested substrait plan
-	GetFlightInfoSubstraitPlan(context.Context, StatementSubstraitPlan, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// GetSchemaStatement returns the schema of the result set of the requested sql query
-	GetSchemaStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.SchemaResult, error)
-	// GetSchemaSubstraitPlan returns the schema of the result set for the requested substrait plan
-	GetSchemaSubstraitPlan(context.Context, StatementSubstraitPlan, *flight.FlightDescriptor) (*flight.SchemaResult, error)
-	// DoGetStatement returns a stream containing the query results for the
-	// requested statement handle that was populated by GetFlightInfoStatement
-	DoGetStatement(context.Context, StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoPreparedStatement returns a FlightInfo for executing an already
-	// prepared statement with the provided statement handle.
-	GetFlightInfoPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// GetSchemaPreparedStatement returns the schema of the result set of executing an already
-	// prepared statement with the provided statement handle.
-	GetSchemaPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.SchemaResult, error)
-	// DoGetPreparedStatement returns a stream containing the results from executing
-	// a prepared statement query with the provided statement handle.
-	DoGetPreparedStatement(context.Context, PreparedStatementQuery) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoCatalogs returns a FlightInfo for the listing of all catalogs
-	GetFlightInfoCatalogs(context.Context, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetCatalogs returns the stream containing the list of catalogs
-	DoGetCatalogs(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoXdbcTypeInfo returns a FlightInfo for retrieving data type info
-	GetFlightInfoXdbcTypeInfo(context.Context, GetXdbcTypeInfo, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetXdbcTypeInfo returns a stream containing the information about the
-	// requested supported datatypes
-	DoGetXdbcTypeInfo(context.Context, GetXdbcTypeInfo) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoSqlInfo returns a FlightInfo for retrieving SqlInfo from the server
-	GetFlightInfoSqlInfo(context.Context, GetSqlInfo, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetSqlInfo returns a stream containing the list of SqlInfo results
-	DoGetSqlInfo(context.Context, GetSqlInfo) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoSchemas returns a FlightInfo for requesting a list of schemas
-	GetFlightInfoSchemas(context.Context, GetDBSchemas, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetDBSchemas returns a stream containing the list of schemas
-	DoGetDBSchemas(context.Context, GetDBSchemas) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoTables returns a FlightInfo for listing the tables available
-	GetFlightInfoTables(context.Context, GetTables, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetTables returns a stream containing the list of tables
-	DoGetTables(context.Context, GetTables) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoTableTypes returns a FlightInfo for retrieving a list
-	// of table types supported
-	GetFlightInfoTableTypes(context.Context, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetTableTypes returns a stream containing the data related to the table types
-	DoGetTableTypes(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoPrimaryKeys returns a FlightInfo for extracting information about primary keys
-	GetFlightInfoPrimaryKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetPrimaryKeys returns a stream containing the data related to primary keys
-	DoGetPrimaryKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoExportedKeys returns a FlightInfo for extracting information about foreign keys
-	GetFlightInfoExportedKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetExportedKeys returns a stream containing the data related to foreign keys
-	DoGetExportedKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoImportedKeys returns a FlightInfo for extracting information about imported keys
-	GetFlightInfoImportedKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetImportedKeys returns a stream containing the data related to imported keys
-	DoGetImportedKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// GetFlightInfoCrossReference returns a FlightInfo for extracting data related
-	// to primary and foreign keys
-	GetFlightInfoCrossReference(context.Context, CrossTableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error)
-	// DoGetCrossReference returns a stream of data related to foreign and primary keys
-	DoGetCrossReference(context.Context, CrossTableRef) (*arrow.Schema, <-chan flight.StreamChunk, error)
-	// DoPutCommandStatementUpdate executes a sql update statement and returns
-	// the number of affected rows
-	DoPutCommandStatementUpdate(context.Context, StatementUpdate) (int64, error)
-	// DoPutCommandSubstraitPlan executes a substrait plan and returns the number
-	// of affected rows.
-	DoPutCommandSubstraitPlan(context.Context, StatementSubstraitPlan) (int64, error)
-	// CreatePreparedStatement constructs a prepared statement from a sql query
-	// and returns an opaque statement handle for use.
-	CreatePreparedStatement(context.Context, ActionCreatePreparedStatementRequest) (ActionCreatePreparedStatementResult, error)
-	// CreatePreparedSubstraitPlan constructs a prepared statement from a substrait
-	// plan, and returns an opaque statement handle for use.
-	CreatePreparedSubstraitPlan(context.Context, ActionCreatePreparedSubstraitPlanRequest) (ActionCreatePreparedStatementResult, error)
-	// ClosePreparedStatement closes the prepared statement identified by the requested
-	// opaque statement handle.
-	ClosePreparedStatement(context.Context, ActionClosePreparedStatementRequest) error
-	// DoPutPreparedStatementQuery binds parameters to a given prepared statement
-	// identified by the provided statement handle.
-	//
-	// The provided MessageReader is a stream of record batches with optional
-	// app metadata and flight descriptors to represent the values to bind
-	// to the parameters.
-	//
-	// Currently anything written to the writer will be ignored. It is in the
-	// interface for potential future enhancements to avoid having to change
-	// the interface in the future.
-	DoPutPreparedStatementQuery(context.Context, PreparedStatementQuery, flight.MessageReader, flight.MetadataWriter) ([]byte, error)
-	// DoPutPreparedStatementUpdate executes an update SQL Prepared statement
-	// for the specified statement handle. The reader allows providing a sequence
-	// of uploaded record batches to bind the parameters to. Returns the number
-	// of affected records.
-	DoPutPreparedStatementUpdate(context.Context, PreparedStatementUpdate, flight.MessageReader) (int64, error)
-	// BeginTransaction starts a new transaction and returns the id
-	BeginTransaction(context.Context, ActionBeginTransactionRequest) (id []byte, err error)
-	// BeginSavepoint initializes a new savepoint and returns the id
-	BeginSavepoint(context.Context, ActionBeginSavepointRequest) (id []byte, err error)
-	// EndSavepoint releases or rolls back a savepoint
-	EndSavepoint(context.Context, ActionEndSavepointRequest) error
-	// EndTransaction commits or rolls back a transaction
-	EndTransaction(context.Context, ActionEndTransactionRequest) error
-	// CancelFlightInfo attempts to explicitly cancel a FlightInfo
-	CancelFlightInfo(context.Context, *flight.CancelFlightInfoRequest) (flight.CancelFlightInfoResult, error)
-	// RenewFlightEndpoint attempts to extend the expiration of a FlightEndpoint
-	RenewFlightEndpoint(context.Context, *flight.RenewFlightEndpointRequest) (*flight.FlightEndpoint, error)
-	// PollFlightInfo is a generic handler for PollFlightInfo requests.
-	PollFlightInfo(context.Context, *flight.FlightDescriptor) (*flight.PollInfo, error)
-	// PollFlightInfoStatement handles polling for query execution.
-	PollFlightInfoStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.PollInfo, error)
-	// PollFlightInfoSubstraitPlan handles polling for query execution.
-	PollFlightInfoSubstraitPlan(context.Context, StatementSubstraitPlan, *flight.FlightDescriptor) (*flight.PollInfo, error)
-	// PollFlightInfoPreparedStatement handles polling for query execution.
-	PollFlightInfoPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.PollInfo, error)
-	// SetSessionOptions sets option(s) for the current server session.
-	SetSessionOptions(context.Context, *flight.SetSessionOptionsRequest) (*flight.SetSessionOptionsResult, error)
-	// GetSessionOptions gets option(s) for the current server session.
-	GetSessionOptions(context.Context, *flight.GetSessionOptionsRequest) (*flight.GetSessionOptionsResult, error)
-	// CloseSession closes/invalidates the current server session.
-	CloseSession(context.Context, *flight.CloseSessionRequest) (*flight.CloseSessionResult, error)
-	// DoPutCommandStatementIngest executes a bulk ingestion and returns
-	// the number of affected rows
-	DoPutCommandStatementIngest(context.Context, StatementIngest, flight.MessageReader) (int64, error)
-
-	mustEmbedBaseServer()
-}
-
-// NewFlightServer constructs a FlightRPC server from the provided
-// FlightSQL Server so that it can be passed to RegisterFlightService.
-func NewFlightServer(srv Server) flight.FlightServer {
-	return &flightSqlServer{srv: srv, mem: memory.DefaultAllocator}
-}
-
-// NewFlightServerWithAllocator constructs a FlightRPC server from
-// the provided FlightSQL Server so that it can be passed to
-// RegisterFlightService, setting the provided allocator into the server
-// for use with any allocations necessary by the routing.
-//
-// Will default to memory.DefaultAllocator if mem is nil
-func NewFlightServerWithAllocator(srv Server, mem memory.Allocator) flight.FlightServer {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-	return &flightSqlServer{srv: srv, mem: mem}
-}
-
-// flightSqlServer is a wrapper around a FlightSQL server interface to
-// perform routing from FlightRPC to FlightSQL.
-type flightSqlServer struct {
-	flight.BaseFlightServer
-	mem memory.Allocator
-	srv Server
-}
-
-func (f *flightSqlServer) GetFlightInfo(ctx context.Context, request *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	var (
-		anycmd anypb.Any
-		cmd    proto.Message
-		err    error
-	)
-	if err = proto.Unmarshal(request.Cmd, &anycmd); err != nil {
-		return nil, status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-	}
-
-	if cmd, err = anycmd.UnmarshalNew(); err != nil {
-		return nil, status.Errorf(codes.InvalidArgument, "could not unmarshal Any to a command type: %s", err.Error())
-	}
-
-	switch cmd := cmd.(type) {
-	case *pb.CommandStatementQuery:
-		return f.srv.GetFlightInfoStatement(ctx, cmd, request)
-	case *pb.CommandStatementSubstraitPlan:
-		return f.srv.GetFlightInfoSubstraitPlan(ctx, &statementSubstraitPlan{cmd}, request)
-	case *pb.CommandPreparedStatementQuery:
-		return f.srv.GetFlightInfoPreparedStatement(ctx, cmd, request)
-	case *pb.CommandGetCatalogs:
-		return f.srv.GetFlightInfoCatalogs(ctx, request)
-	case *pb.CommandGetDbSchemas:
-		return f.srv.GetFlightInfoSchemas(ctx, &getDBSchemas{cmd}, request)
-	case *pb.CommandGetTables:
-		return f.srv.GetFlightInfoTables(ctx, &getTables{cmd}, request)
-	case *pb.CommandGetTableTypes:
-		return f.srv.GetFlightInfoTableTypes(ctx, request)
-	case *pb.CommandGetXdbcTypeInfo:
-		return f.srv.GetFlightInfoXdbcTypeInfo(ctx, &getXdbcTypeInfo{cmd}, request)
-	case *pb.CommandGetSqlInfo:
-		return f.srv.GetFlightInfoSqlInfo(ctx, cmd, request)
-	case *pb.CommandGetPrimaryKeys:
-		return f.srv.GetFlightInfoPrimaryKeys(ctx, pkToTableRef(cmd), request)
-	case *pb.CommandGetExportedKeys:
-		return f.srv.GetFlightInfoExportedKeys(ctx, exkToTableRef(cmd), request)
-	case *pb.CommandGetImportedKeys:
-		return f.srv.GetFlightInfoImportedKeys(ctx, impkToTableRef(cmd), request)
-	case *pb.CommandGetCrossReference:
-		return f.srv.GetFlightInfoCrossReference(ctx, toCrossTableRef(cmd), request)
-	}
-
-	return nil, status.Error(codes.InvalidArgument, "requested command is invalid")
-}
-
-func (f *flightSqlServer) PollFlightInfo(ctx context.Context, request *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	var (
-		anycmd anypb.Any
-		cmd    proto.Message
-		err    error
-	)
-	// If we can't parse things, be friendly and defer to the server
-	// implementation. This is especially important for this method since
-	// the server returns a custom FlightDescriptor for future requests.
-	if err = proto.Unmarshal(request.Cmd, &anycmd); err != nil {
-		return f.srv.PollFlightInfo(ctx, request)
-	}
-
-	if cmd, err = anycmd.UnmarshalNew(); err != nil {
-		return f.srv.PollFlightInfo(ctx, request)
-	}
-
-	switch cmd := cmd.(type) {
-	case *pb.CommandStatementQuery:
-		return f.srv.PollFlightInfoStatement(ctx, cmd, request)
-	case *pb.CommandStatementSubstraitPlan:
-		return f.srv.PollFlightInfoSubstraitPlan(ctx, &statementSubstraitPlan{cmd}, request)
-	case *pb.CommandPreparedStatementQuery:
-		return f.srv.PollFlightInfoPreparedStatement(ctx, cmd, request)
-	}
-	// XXX: for now we won't support the other methods
-
-	return f.srv.PollFlightInfo(ctx, request)
-}
-
-func (f *flightSqlServer) GetSchema(ctx context.Context, request *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	var (
-		anycmd anypb.Any
-		cmd    proto.Message
-		err    error
-	)
-	if err = proto.Unmarshal(request.Cmd, &anycmd); err != nil {
-		return nil, status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-	}
-
-	if cmd, err = anycmd.UnmarshalNew(); err != nil {
-		return nil, status.Errorf(codes.InvalidArgument, "could not unmarshal Any to a command type: %s", err.Error())
-	}
-
-	switch cmd := cmd.(type) {
-	case *pb.CommandStatementQuery:
-		return f.srv.GetSchemaStatement(ctx, cmd, request)
-	case *pb.CommandStatementSubstraitPlan:
-		return f.srv.GetSchemaSubstraitPlan(ctx, &statementSubstraitPlan{cmd}, request)
-	case *pb.CommandPreparedStatementQuery:
-		return f.srv.GetSchemaPreparedStatement(ctx, cmd, request)
-	case *pb.CommandGetCatalogs:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.Catalogs, f.mem)}, nil
-	case *pb.CommandGetDbSchemas:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.DBSchemas, f.mem)}, nil
-	case *pb.CommandGetTables:
-		if cmd.GetIncludeSchema() {
-			return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.TablesWithIncludedSchema, f.mem)}, nil
-		}
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.Tables, f.mem)}, nil
-	case *pb.CommandGetTableTypes:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.TableTypes, f.mem)}, nil
-	case *pb.CommandGetXdbcTypeInfo:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.XdbcTypeInfo, f.mem)}, nil
-	case *pb.CommandGetSqlInfo:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.SqlInfo, f.mem)}, nil
-	case *pb.CommandGetPrimaryKeys:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.PrimaryKeys, f.mem)}, nil
-	case *pb.CommandGetExportedKeys:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.ExportedKeys, f.mem)}, nil
-	case *pb.CommandGetImportedKeys:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.ImportedKeys, f.mem)}, nil
-	case *pb.CommandGetCrossReference:
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.CrossReference, f.mem)}, nil
-	}
-
-	return nil, status.Errorf(codes.InvalidArgument, "requested command is invalid: %s", anycmd.GetTypeUrl())
-}
-
-func (f *flightSqlServer) DoGet(request *flight.Ticket, stream flight.FlightService_DoGetServer) (err error) {
-	var (
-		anycmd anypb.Any
-		cmd    proto.Message
-		cc     <-chan flight.StreamChunk
-		sc     *arrow.Schema
-	)
-	if err = proto.Unmarshal(request.Ticket, &anycmd); err != nil {
-		return status.Errorf(codes.InvalidArgument, "unable to parse ticket: %s", err.Error())
-	}
-
-	if cmd, err = anycmd.UnmarshalNew(); err != nil {
-		return status.Errorf(codes.InvalidArgument, "unable to unmarshal proto.Any: %s", err.Error())
-	}
-
-	switch cmd := cmd.(type) {
-	case *pb.TicketStatementQuery:
-		sc, cc, err = f.srv.DoGetStatement(stream.Context(), cmd)
-	case *pb.CommandPreparedStatementQuery:
-		sc, cc, err = f.srv.DoGetPreparedStatement(stream.Context(), cmd)
-	case *pb.CommandGetCatalogs:
-		sc, cc, err = f.srv.DoGetCatalogs(stream.Context())
-	case *pb.CommandGetDbSchemas:
-		sc, cc, err = f.srv.DoGetDBSchemas(stream.Context(), &getDBSchemas{cmd})
-	case *pb.CommandGetTables:
-		sc, cc, err = f.srv.DoGetTables(stream.Context(), &getTables{cmd})
-	case *pb.CommandGetTableTypes:
-		sc, cc, err = f.srv.DoGetTableTypes(stream.Context())
-	case *pb.CommandGetXdbcTypeInfo:
-		sc, cc, err = f.srv.DoGetXdbcTypeInfo(stream.Context(), &getXdbcTypeInfo{cmd})
-	case *pb.CommandGetSqlInfo:
-		sc, cc, err = f.srv.DoGetSqlInfo(stream.Context(), cmd)
-	case *pb.CommandGetPrimaryKeys:
-		sc, cc, err = f.srv.DoGetPrimaryKeys(stream.Context(), pkToTableRef(cmd))
-	case *pb.CommandGetExportedKeys:
-		sc, cc, err = f.srv.DoGetExportedKeys(stream.Context(), exkToTableRef(cmd))
-	case *pb.CommandGetImportedKeys:
-		sc, cc, err = f.srv.DoGetImportedKeys(stream.Context(), impkToTableRef(cmd))
-	case *pb.CommandGetCrossReference:
-		sc, cc, err = f.srv.DoGetCrossReference(stream.Context(), toCrossTableRef(cmd))
-	default:
-		return status.Error(codes.InvalidArgument, "requested command is invalid")
-	}
-
-	if err != nil {
-		return err
-	}
-
-	wr := flight.NewRecordWriter(stream, ipc.WithSchema(sc))
-	defer wr.Close()
-
-	for chunk := range cc {
-		if chunk.Err != nil {
-			return chunk.Err
-		}
-
-		wr.SetFlightDescriptor(chunk.Desc)
-		if err = wr.WriteWithAppMetadata(chunk.Data, chunk.AppMetadata); err != nil {
-			return err
-		}
-		chunk.Data.Release()
-	}
-
-	return err
-}
-
-type putMetadataWriter struct {
-	stream flight.FlightService_DoPutServer
-}
-
-func (p *putMetadataWriter) WriteMetadata(appMetadata []byte) error {
-	return p.stream.Send(&flight.PutResult{AppMetadata: appMetadata})
-}
-
-func (f *flightSqlServer) DoPut(stream flight.FlightService_DoPutServer) error {
-	rdr, err := flight.NewRecordReader(stream, ipc.WithAllocator(f.mem), ipc.WithDelayReadSchema(true))
-	if err != nil {
-		return status.Errorf(codes.InvalidArgument, "failed to read input stream: %s", err.Error())
-	}
-	defer rdr.Release()
-
-	// flight descriptor should have come with the schema message
-	request := rdr.LatestFlightDescriptor()
-
-	var (
-		anycmd anypb.Any
-		cmd    proto.Message
-	)
-	if err = proto.Unmarshal(request.Cmd, &anycmd); err != nil {
-		return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-	}
-
-	if cmd, err = anycmd.UnmarshalNew(); err != nil {
-		return status.Errorf(codes.InvalidArgument, "could not unmarshal google.protobuf.Any: %s", err.Error())
-	}
-
-	switch cmd := cmd.(type) {
-	case *pb.CommandStatementUpdate:
-		recordCount, err := f.srv.DoPutCommandStatementUpdate(stream.Context(), cmd)
-		if err != nil {
-			return err
-		}
-
-		result := pb.DoPutUpdateResult{RecordCount: recordCount}
-		out := &flight.PutResult{}
-		if out.AppMetadata, err = proto.Marshal(&result); err != nil {
-			return status.Errorf(codes.Internal, "failed to marshal PutResult: %s", err.Error())
-		}
-		return stream.Send(out)
-	case *pb.CommandStatementSubstraitPlan:
-		recordCount, err := f.srv.DoPutCommandSubstraitPlan(stream.Context(), &statementSubstraitPlan{cmd})
-		if err != nil {
-			return err
-		}
-
-		result := pb.DoPutUpdateResult{RecordCount: recordCount}
-		out := &flight.PutResult{}
-		if out.AppMetadata, err = proto.Marshal(&result); err != nil {
-			return status.Errorf(codes.Internal, "failed to marshal PutResult: %s", err.Error())
-		}
-		return stream.Send(out)
-	case *pb.CommandPreparedStatementQuery:
-		handle, err := f.srv.DoPutPreparedStatementQuery(stream.Context(), cmd, rdr, &putMetadataWriter{stream})
-		if err != nil {
-			return err
-		}
-		result := pb.DoPutPreparedStatementResult{PreparedStatementHandle: handle}
-		out := &flight.PutResult{}
-		if out.AppMetadata, err = proto.Marshal(&result); err != nil {
-			return status.Errorf(codes.Internal, "failed to marshal PutResult: %s", err.Error())
-		}
-		return stream.Send(out)
-	case *pb.CommandPreparedStatementUpdate:
-		recordCount, err := f.srv.DoPutPreparedStatementUpdate(stream.Context(), cmd, rdr)
-		if err != nil {
-			return err
-		}
-
-		result := pb.DoPutUpdateResult{RecordCount: recordCount}
-		out := &flight.PutResult{}
-		if out.AppMetadata, err = proto.Marshal(&result); err != nil {
-			return status.Errorf(codes.Internal, "failed to marshal PutResult: %s", err.Error())
-		}
-		return stream.Send(out)
-	case *pb.CommandStatementIngest:
-		// Even if there was an error, the server may have ingested some records.
-		// For this reason we send PutResult{recordCount} no matter what, potentially followed by an error
-		// if there was one.
-		recordCount, rpcErr := f.srv.DoPutCommandStatementIngest(stream.Context(), cmd, rdr)
-
-		result := pb.DoPutUpdateResult{RecordCount: recordCount}
-		out := &flight.PutResult{}
-		if out.AppMetadata, err = proto.Marshal(&result); err != nil {
-			return status.Errorf(codes.Internal, "failed to marshal PutResult: %s", err.Error())
-		}
-
-		// If we fail to send the recordCount, just return an error outright
-		if err := stream.Send(out); err != nil {
-			return err
-		}
-
-		// We successfully sent the recordCount.
-		// Send the error if one occurred in the RPC, otherwise this is nil.
-		return rpcErr
-	default:
-		return status.Error(codes.InvalidArgument, "the defined request is invalid")
-	}
-}
-
-func (f *flightSqlServer) ListActions(_ *flight.Empty, stream flight.FlightService_ListActionsServer) error {
-	actions := []string{
-		flight.CancelFlightInfoActionType,
-		flight.RenewFlightEndpointActionType,
-		CreatePreparedStatementActionType,
-		ClosePreparedStatementActionType,
-		BeginSavepointActionType,
-		BeginTransactionActionType,
-		CancelQueryActionType,
-		CreatePreparedSubstraitPlanActionType,
-		EndSavepointActionType,
-		EndTransactionActionType,
-	}
-
-	for _, a := range actions {
-		if err := stream.Send(&flight.ActionType{Type: a}); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func cancelStatusToCancelResult(status flight.CancelStatus) CancelResult {
-	switch status {
-	case flight.CancelStatusUnspecified:
-		return CancelResultUnspecified
-	case flight.CancelStatusCancelled:
-		return CancelResultCancelled
-	case flight.CancelStatusCancelling:
-		return CancelResultCancelling
-	case flight.CancelStatusNotCancellable:
-		return CancelResultNotCancellable
-	default:
-		return CancelResultUnspecified
-	}
-}
-
-func (f *flightSqlServer) DoAction(cmd *flight.Action, stream flight.FlightService_DoActionServer) error {
-	var anycmd anypb.Any
-
-	switch cmd.Type {
-	case flight.CancelFlightInfoActionType:
-		var (
-			request flight.CancelFlightInfoRequest
-			result  flight.CancelFlightInfoResult
-			err     error
-		)
-
-		if err = proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal CancelFlightInfoRequest for CancelFlightInfo: %s", err.Error())
-		}
-
-		result, err = f.srv.CancelFlightInfo(stream.Context(), &request)
-		if err != nil {
-			return err
-		}
-
-		out := &pb.Result{}
-		out.Body, err = proto.Marshal(&result)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case flight.RenewFlightEndpointActionType:
-		var (
-			request flight.RenewFlightEndpointRequest
-			err     error
-		)
-
-		if err = proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal FlightEndpoint for RenewFlightEndpoint: %s", err.Error())
-		}
-
-		renewedEndpoint, err := f.srv.RenewFlightEndpoint(stream.Context(), &request)
-		if err != nil {
-			return err
-		}
-
-		out := &pb.Result{}
-		out.Body, err = proto.Marshal(renewedEndpoint)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case BeginSavepointActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var (
-			request pb.ActionBeginSavepointRequest
-			result  pb.ActionBeginSavepointResult
-			id      []byte
-			err     error
-		)
-		if err = anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		if id, err = f.srv.BeginSavepoint(stream.Context(), &request); err != nil {
-			return err
-		}
-
-		result.SavepointId = id
-		out, err := packActionResult(&result)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case BeginTransactionActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var (
-			request pb.ActionBeginTransactionRequest
-			result  pb.ActionBeginTransactionResult
-			id      []byte
-			err     error
-		)
-		if err = anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		if id, err = f.srv.BeginTransaction(stream.Context(), &request); err != nil {
-			return err
-		}
-
-		result.TransactionId = id
-		out, err := packActionResult(&result)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case CancelQueryActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var (
-			//lint:ignore SA1019 for backward compatibility
-			request pb.ActionCancelQueryRequest
-			//lint:ignore SA1019 for backward compatibility
-			result pb.ActionCancelQueryResult
-			info   flight.FlightInfo
-			err    error
-		)
-
-		if err = anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		if err = proto.Unmarshal(request.Info, &info); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal FlightInfo for CancelQuery: %s", err)
-		}
-
-		if cancel, ok := f.srv.(cancelQueryServer); ok {
-			result.Result, err = cancel.CancelQuery(stream.Context(), &cancelQueryRequest{&info})
-			if err != nil {
-				return err
-			}
-		} else {
-			cancelFlightInfoRequest := flight.CancelFlightInfoRequest{Info: &info}
-			cancelFlightInfoResult, err := f.srv.CancelFlightInfo(stream.Context(), &cancelFlightInfoRequest)
-			if err != nil {
-				return err
-			}
-			result.Result = cancelStatusToCancelResult(cancelFlightInfoResult.Status)
-		}
-
-		out, err := packActionResult(&result)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case CreatePreparedStatementActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var (
-			request pb.ActionCreatePreparedStatementRequest
-			result  pb.ActionCreatePreparedStatementResult
-			ret     pb.Result
-		)
-		if err := anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		output, err := f.srv.CreatePreparedStatement(stream.Context(), &request)
-		if err != nil {
-			return err
-		}
-
-		result.PreparedStatementHandle = output.Handle
-		if output.DatasetSchema != nil {
-			result.DatasetSchema = flight.SerializeSchema(output.DatasetSchema, f.mem)
-		}
-		if output.ParameterSchema != nil {
-			result.ParameterSchema = flight.SerializeSchema(output.ParameterSchema, f.mem)
-		}
-
-		if err := anycmd.MarshalFrom(&result); err != nil {
-			return status.Errorf(codes.Internal, "unable to marshal final response: %s", err.Error())
-		}
-
-		if ret.Body, err = proto.Marshal(&anycmd); err != nil {
-			return status.Errorf(codes.Internal, "unable to marshal result: %s", err.Error())
-		}
-		return stream.Send(&ret)
-	case CreatePreparedSubstraitPlanActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var (
-			request pb.ActionCreatePreparedSubstraitPlanRequest
-			result  pb.ActionCreatePreparedStatementResult
-			ret     pb.Result
-		)
-		if err := anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		output, err := f.srv.CreatePreparedSubstraitPlan(stream.Context(), &createPreparedSubstraitPlanReq{&request})
-		if err != nil {
-			return err
-		}
-
-		result.PreparedStatementHandle = output.Handle
-		if output.DatasetSchema != nil {
-			result.DatasetSchema = flight.SerializeSchema(output.DatasetSchema, f.mem)
-		}
-		if output.ParameterSchema != nil {
-			result.ParameterSchema = flight.SerializeSchema(output.ParameterSchema, f.mem)
-		}
-
-		if err := anycmd.MarshalFrom(&result); err != nil {
-			return status.Errorf(codes.Internal, "unable to marshal final response: %s", err.Error())
-		}
-
-		if ret.Body, err = proto.Marshal(&anycmd); err != nil {
-			return status.Errorf(codes.Internal, "unable to marshal result: %s", err.Error())
-		}
-		return stream.Send(&ret)
-	case ClosePreparedStatementActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var request pb.ActionClosePreparedStatementRequest
-		if err := anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		if err := f.srv.ClosePreparedStatement(stream.Context(), &request); err != nil {
-			return err
-		}
-
-		return stream.Send(&pb.Result{})
-	case EndTransactionActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var request pb.ActionEndTransactionRequest
-		if err := anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		if err := f.srv.EndTransaction(stream.Context(), &request); err != nil {
-			return err
-		}
-
-		return stream.Send(&pb.Result{})
-	case EndSavepointActionType:
-		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		var request pb.ActionEndSavepointRequest
-		if err := anycmd.UnmarshalTo(&request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
-		}
-
-		if err := f.srv.EndSavepoint(stream.Context(), &request); err != nil {
-			return err
-		}
-
-		return stream.Send(&pb.Result{})
-	case flight.SetSessionOptionsActionType:
-		var (
-			request flight.SetSessionOptionsRequest
-			err     error
-		)
-
-		if err = proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal SetSessionOptionsRequest: %s", err.Error())
-		}
-
-		response, err := f.srv.SetSessionOptions(stream.Context(), &request)
-		if err != nil {
-			return err
-		}
-
-		out := &pb.Result{}
-		out.Body, err = proto.Marshal(response)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case flight.GetSessionOptionsActionType:
-		var (
-			request flight.GetSessionOptionsRequest
-			err     error
-		)
-
-		if err = proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal GetSessionOptionsRequest: %s", err.Error())
-		}
-
-		response, err := f.srv.GetSessionOptions(stream.Context(), &request)
-		if err != nil {
-			return err
-		}
-
-		out := &pb.Result{}
-		out.Body, err = proto.Marshal(response)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	case flight.CloseSessionActionType:
-		var (
-			request flight.CloseSessionRequest
-			err     error
-		)
-
-		if err = proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to unmarshal CloseSessionRequest: %s", err.Error())
-		}
-
-		response, err := f.srv.CloseSession(stream.Context(), &request)
-		if err != nil {
-			return err
-		}
-
-		out := &pb.Result{}
-		out.Body, err = proto.Marshal(response)
-		if err != nil {
-			return err
-		}
-		return stream.Send(out)
-	default:
-		return status.Error(codes.InvalidArgument, "the defined request is invalid.")
-	}
-}
-
-var (
-	_ Server = (*BaseServer)(nil)
-)
diff --git a/go/arrow/flight/flightsql/server_test.go b/go/arrow/flight/flightsql/server_test.go
deleted file mode 100644
index 494dda1703fc4..0000000000000
--- a/go/arrow/flight/flightsql/server_test.go
+++ /dev/null
@@ -1,1046 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql_test
-
-import (
-	"context"
-	"fmt"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	pb "github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/session"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/grpc/status"
-	"google.golang.org/protobuf/proto"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-var dialOpts = []grpc.DialOption{grpc.WithTransportCredentials(insecure.NewCredentials())}
-
-type testServer struct {
-	flightsql.BaseServer
-}
-
-func (*testServer) GetFlightInfoStatement(ctx context.Context, q flightsql.StatementQuery, fd *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	ticket, err := flightsql.CreateStatementQueryTicket([]byte(q.GetQuery()))
-	if err != nil {
-		return nil, err
-	}
-	return &flight.FlightInfo{
-		FlightDescriptor: fd,
-		Endpoint: []*flight.FlightEndpoint{{
-			Ticket: &flight.Ticket{Ticket: ticket},
-		}},
-	}, nil
-}
-
-func (*testServer) PollFlightInfo(ctx context.Context, fd *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	return &flight.PollInfo{
-		Info: &flight.FlightInfo{
-			FlightDescriptor: fd,
-			Endpoint: []*flight.FlightEndpoint{{
-				Ticket: &flight.Ticket{Ticket: []byte{}},
-			}, {
-				Ticket: &flight.Ticket{Ticket: []byte{}},
-			}},
-		},
-		FlightDescriptor: nil,
-	}, nil
-}
-
-func (*testServer) PollFlightInfoStatement(ctx context.Context, q flightsql.StatementQuery, fd *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	ticket, err := flightsql.CreateStatementQueryTicket([]byte(q.GetQuery()))
-	if err != nil {
-		return nil, err
-	}
-	return &flight.PollInfo{
-		Info: &flight.FlightInfo{
-			FlightDescriptor: fd,
-			Endpoint: []*flight.FlightEndpoint{{
-				Ticket: &flight.Ticket{Ticket: ticket},
-			}},
-		},
-		FlightDescriptor: &flight.FlightDescriptor{Cmd: []byte{}},
-	}, nil
-}
-
-func (*testServer) DoGetStatement(ctx context.Context, ticket flightsql.StatementQueryTicket) (sc *arrow.Schema, cc <-chan flight.StreamChunk, err error) {
-	handle := string(ticket.GetStatementHandle())
-	switch handle {
-	case "1":
-		b := array.NewInt16Builder(memory.DefaultAllocator)
-		sc = arrow.NewSchema([]arrow.Field{{
-			Name:     "t1",
-			Type:     b.Type(),
-			Nullable: true,
-		}}, nil)
-		b.AppendNull()
-		c := make(chan flight.StreamChunk, 2)
-		c <- flight.StreamChunk{
-			Data: array.NewRecord(sc, []arrow.Array{b.NewArray()}, 1),
-		}
-		b.Append(1)
-		c <- flight.StreamChunk{
-			Data: array.NewRecord(sc, []arrow.Array{b.NewArray()}, 1),
-		}
-		close(c)
-		cc = c
-	case "2":
-		b := array.NewInt16Builder(memory.DefaultAllocator)
-		sc = arrow.NewSchema([]arrow.Field{{
-			Name:     "t1",
-			Type:     b.Type(),
-			Nullable: true,
-		}}, nil)
-		b.Append(2)
-		c := make(chan flight.StreamChunk, 2)
-		c <- flight.StreamChunk{
-			Data: array.NewRecord(sc, []arrow.Array{b.NewArray()}, 1),
-		}
-		c <- flight.StreamChunk{
-			Err: status.Error(codes.Internal, "test error"),
-		}
-		close(c)
-		cc = c
-	default:
-		err = fmt.Errorf("unknown statement handle: %s", handle)
-	}
-	return
-}
-
-func (*testServer) SetSessionOptions(ctx context.Context, req *flight.SetSessionOptionsRequest) (*flight.SetSessionOptionsResult, error) {
-	session, err := session.GetSessionFromContext(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	errors := make(map[string]*flight.SetSessionOptionsResultError)
-	for key, val := range req.GetSessionOptions() {
-		if key == "lol_invalid" {
-			errors[key] = &flight.SetSessionOptionsResultError{Value: flight.SetSessionOptionsResultErrorInvalidName}
-			continue
-		}
-		if val.GetStringValue() == "lol_invalid" {
-			errors[key] = &flight.SetSessionOptionsResultError{Value: flight.SetSessionOptionsResultErrorInvalidValue}
-			continue
-		}
-
-		session.SetSessionOption(key, val)
-	}
-
-	return &flight.SetSessionOptionsResult{Errors: errors}, nil
-}
-
-func (*testServer) GetSessionOptions(ctx context.Context, req *flight.GetSessionOptionsRequest) (*flight.GetSessionOptionsResult, error) {
-	session, err := session.GetSessionFromContext(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	return &flight.GetSessionOptionsResult{SessionOptions: session.GetSessionOptions()}, nil
-}
-
-func (*testServer) CloseSession(ctx context.Context, req *flight.CloseSessionRequest) (*flight.CloseSessionResult, error) {
-	session, err := session.GetSessionFromContext(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	if err = session.Close(); err != nil {
-		return nil, err
-	}
-
-	return &flight.CloseSessionResult{Status: flight.CloseSessionResultClosed}, nil
-}
-
-func (*testServer) DoPutCommandStatementIngest(ctx context.Context, cmd flightsql.StatementIngest, rdr flight.MessageReader) (int64, error) {
-	var maxRows int64 = 50
-	var nRows int64
-	for rdr.Next() {
-		rec := rdr.Record()
-		if nRows+rec.NumRows() > maxRows {
-			return nRows, fmt.Errorf("ingested rows exceeded maximum of %d", maxRows)
-		}
-		nRows += rec.NumRows()
-	}
-	return nRows, nil
-}
-
-type FlightSqlServerSuite struct {
-	suite.Suite
-
-	s  flight.Server
-	cl *flightsql.Client
-}
-
-func (s *FlightSqlServerSuite) SetupSuite() {
-	s.s = flight.NewServerWithMiddleware(nil)
-	srv := flightsql.NewFlightServer(&testServer{})
-	s.s.RegisterFlightService(srv)
-	s.s.Init("localhost:0")
-
-	go s.s.Serve()
-}
-
-func (s *FlightSqlServerSuite) TearDownSuite() {
-	s.s.Shutdown()
-}
-
-func (s *FlightSqlServerSuite) SetupTest() {
-	cl, err := flightsql.NewClient(s.s.Addr().String(), nil, nil, dialOpts...)
-	s.Require().NoError(err)
-	s.cl = cl
-
-	checked := memory.NewCheckedAllocator(s.cl.Alloc)
-	s.cl.Alloc = checked
-}
-
-func (s *FlightSqlServerSuite) TearDownTest() {
-	checked, ok := s.cl.Alloc.(*memory.CheckedAllocator)
-	s.Require().True(ok)
-	checked.AssertSize(s.T(), 0)
-
-	s.Require().NoError(s.cl.Close())
-	s.cl = nil
-}
-
-func (s *FlightSqlServerSuite) TestExecute() {
-	fi, err := s.cl.Execute(context.TODO(), "1")
-	s.Require().NoError(err)
-	ep := fi.GetEndpoint()
-	s.Require().Len(ep, 1)
-	fr, err := s.cl.DoGet(context.TODO(), ep[0].GetTicket())
-	s.Require().NoError(err)
-	var recs []arrow.Record
-	for fr.Next() {
-		rec := fr.Record()
-		rec.Retain()
-		defer rec.Release()
-		recs = append(recs, rec)
-	}
-	s.Require().NoError(fr.Err())
-	tbl := array.NewTableFromRecords(fr.Schema(), recs)
-	defer tbl.Release()
-	s.Assert().Equal(int64(2), tbl.NumRows())
-	s.Assert().Equal(int64(1), tbl.NumCols())
-	col := tbl.Column(0)
-	s.Assert().Equal("t1", col.Name())
-	s.Assert().Equal(2, col.Len())
-	s.Assert().Equal(1, col.NullN())
-	s.Assert().Equal(arrow.INT16, col.DataType().ID())
-	var n int
-	for _, arr := range col.Data().Chunks() {
-		data := array.NewInt16Data(arr.Data())
-		defer data.Release()
-		for i := 0; i < data.Len(); i++ {
-			switch n {
-			case 0:
-				s.Assert().Equal(true, data.IsNull(i))
-			case 1:
-				s.Assert().Equal(false, data.IsNull(i))
-				s.Assert().Equal(int16(1), data.Value(i))
-			}
-			n++
-		}
-	}
-}
-
-func (s *FlightSqlServerSuite) TestExecuteChunkError() {
-	fi, err := s.cl.Execute(context.TODO(), "2")
-	s.Require().NoError(err)
-	ep := fi.GetEndpoint()
-	s.Require().Len(ep, 1)
-	fr, err := s.cl.DoGet(context.TODO(), ep[0].GetTicket())
-	s.Require().NoError(err)
-	for fr.Next() {
-	}
-	err = fr.Err()
-	if s.Assert().Error(err) {
-		st := status.Convert(err)
-		s.Assert().Equal(codes.Internal, st.Code())
-		s.Assert().Equal("test error", st.Message())
-	}
-}
-
-func (s *FlightSqlServerSuite) TestExecutePoll() {
-	poll, err := s.cl.ExecutePoll(context.TODO(), "1", nil)
-	s.NoError(err)
-	s.NotNil(poll)
-	s.NotNil(poll.GetFlightDescriptor())
-	s.Len(poll.GetInfo().Endpoint, 1)
-
-	poll, err = s.cl.ExecutePoll(context.TODO(), "1", poll.GetFlightDescriptor())
-	s.NoError(err)
-	s.NotNil(poll)
-	s.Nil(poll.GetFlightDescriptor())
-	s.Len(poll.GetInfo().Endpoint, 2)
-}
-
-func (s *FlightSqlServerSuite) TestExecuteIngestNil() {
-	// Ingest with nil options errors, but does not panic
-	nRecords, err := s.cl.ExecuteIngest(context.TODO(), nil, nil)
-	s.Error(err)
-	s.Equal(int64(0), nRecords)
-}
-
-func (s *FlightSqlServerSuite) TestExecuteIngestInvalid() {
-	reclist := []arrow.Record{}
-	rdr, err := array.NewRecordReader(arrow.NewSchema([]arrow.Field{}, nil), reclist)
-	s.NoError(err)
-	defer rdr.Release()
-
-	// Cannot execute ingest without specifying required options
-	nRecords, err := s.cl.ExecuteIngest(context.TODO(), rdr, &flightsql.ExecuteIngestOpts{})
-	s.Error(err)
-	s.Equal(int64(0), nRecords)
-}
-
-func (s *FlightSqlServerSuite) TestExecuteIngest() {
-	nRecords := 3
-	nRowsPerRecord := 5
-	reclist := generateRecords(s.cl.Alloc, nRecords, nRowsPerRecord)
-	for _, rec := range reclist {
-		defer rec.Release()
-	}
-
-	rdr, err := array.NewRecordReader(reclist[0].Schema(), reclist)
-	s.NoError(err)
-	defer rdr.Release()
-
-	nRowsIngested, err := s.cl.ExecuteIngest(
-		context.TODO(),
-		rdr,
-		&flightsql.ExecuteIngestOpts{
-			TableDefinitionOptions: &flightsql.TableDefinitionOptions{
-				IfNotExist: flightsql.TableDefinitionOptionsTableNotExistOptionCreate,
-				IfExists:   flightsql.TableDefinitionOptionsTableExistsOptionReplace,
-			},
-			Table: "test_table",
-		},
-	)
-	s.NoError(err)
-
-	nRowsExpected := int64(nRecords * nRowsPerRecord)
-	s.Equal(nRowsExpected, nRowsIngested)
-}
-
-func (s *FlightSqlServerSuite) TestExecuteIngestWithServerError() {
-	nRecords := 11 // intentionally exceed maximum number of rows the server can ingest
-	nRowsPerRecord := 5
-	reclist := generateRecords(s.cl.Alloc, nRecords, nRowsPerRecord)
-	for _, rec := range reclist {
-		defer rec.Release()
-	}
-
-	rdr, err := array.NewRecordReader(reclist[0].Schema(), reclist)
-	s.NoError(err)
-	defer rdr.Release()
-
-	nRowsIngested, err := s.cl.ExecuteIngest(
-		context.TODO(),
-		rdr,
-		&flightsql.ExecuteIngestOpts{
-			TableDefinitionOptions: &flightsql.TableDefinitionOptions{
-				IfNotExist: flightsql.TableDefinitionOptionsTableNotExistOptionCreate,
-				IfExists:   flightsql.TableDefinitionOptionsTableExistsOptionReplace,
-			},
-			Table: "test_table",
-		},
-	)
-	s.Error(err)
-	s.ErrorContains(err, "ingested rows exceeded maximum")
-
-	nRowsExpected := int64(50) // max rows the server can ingest
-	s.Equal(nRowsExpected, nRowsIngested)
-}
-
-func generateRecords(alloc memory.Allocator, nRecords, nRowsPerRecord int) []arrow.Record {
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "one", Type: arrow.FixedWidthTypes.Boolean},
-			{Name: "two", Type: arrow.BinaryTypes.String},
-			{Name: "three", Type: arrow.PrimitiveTypes.Int64},
-		},
-		nil,
-	)
-
-	bldr := array.NewRecordBuilder(alloc, schema)
-	defer bldr.Release()
-
-	var val int
-	reclist := make([]arrow.Record, nRecords)
-	for i := 0; i < nRecords; i++ {
-		for j := 0; j < nRowsPerRecord; j++ {
-			bldr.Field(0).(*array.BooleanBuilder).Append(val%2 == 0)
-			bldr.Field(1).(*array.StringBuilder).Append(fmt.Sprint(val))
-			bldr.Field(2).(*array.Int64Builder).Append(int64(val))
-			val++
-		}
-		reclist[i] = bldr.NewRecord()
-	}
-	return reclist
-}
-
-type UnimplementedFlightSqlServerSuite struct {
-	suite.Suite
-
-	s  flight.Server
-	cl *flightsql.Client
-}
-
-func (s *UnimplementedFlightSqlServerSuite) SetupSuite() {
-	s.s = flight.NewServerWithMiddleware(nil)
-	srv := flightsql.NewFlightServer(&flightsql.BaseServer{})
-	s.s.RegisterFlightService(srv)
-	s.s.Init("localhost:0")
-
-	go s.s.Serve()
-}
-
-func (s *UnimplementedFlightSqlServerSuite) SetupTest() {
-	cl, err := flightsql.NewClient(s.s.Addr().String(), nil, nil, dialOpts...)
-	s.Require().NoError(err)
-	s.cl = cl
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TearDownTest() {
-	s.Require().NoError(s.cl.Close())
-	s.cl = nil
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TearDownSuite() {
-	s.s.Shutdown()
-}
-
-// the following test functions verify that the default base server will
-// correctly route requests to the appropriate interface methods based on
-// the descriptor types for DoPut/DoGet/DoAction
-
-func (s *UnimplementedFlightSqlServerSuite) TestExecute() {
-	info, err := s.cl.Execute(context.TODO(), "SELECT * FROM IRRELEVANT")
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoStatement not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetTables() {
-	info, err := s.cl.GetTables(context.TODO(), &flightsql.GetTablesOpts{})
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoTables not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetTableTypes() {
-	info, err := s.cl.GetTableTypes(context.TODO())
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoTableTypes not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetPrimaryKeys() {
-	info, err := s.cl.GetPrimaryKeys(context.TODO(), flightsql.TableRef{})
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoPrimaryKeys not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetExportedKeys() {
-	info, err := s.cl.GetExportedKeys(context.TODO(), flightsql.TableRef{})
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoExportedKeys not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetImportedKeys() {
-	info, err := s.cl.GetImportedKeys(context.TODO(), flightsql.TableRef{})
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoImportedKeys not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetCrossReference() {
-	info, err := s.cl.GetCrossReference(context.TODO(), flightsql.TableRef{}, flightsql.TableRef{})
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoCrossReference not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetCatalogs() {
-	info, err := s.cl.GetCatalogs(context.TODO())
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoCatalogs not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetDBSchemas() {
-	info, err := s.cl.GetDBSchemas(context.TODO(), &flightsql.GetDBSchemasOpts{})
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoSchemas not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetTypeInfo() {
-	info, err := s.cl.GetXdbcTypeInfo(context.TODO(), nil)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal(st.Message(), "GetFlightInfoXdbcTypeInfo not implemented")
-	s.Nil(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestPoll() {
-	poll, err := s.cl.ExecutePoll(context.TODO(), "", nil)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("PollFlightInfoStatement not implemented", st.Message())
-	s.Nil(poll)
-
-	poll, err = s.cl.ExecuteSubstraitPoll(context.TODO(), flightsql.SubstraitPlan{}, nil)
-	st, ok = status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("PollFlightInfoSubstraitPlan not implemented", st.Message())
-	s.Nil(poll)
-}
-
-func getTicket(cmd proto.Message) *flight.Ticket {
-	var anycmd anypb.Any
-	anycmd.MarshalFrom(cmd)
-
-	data, _ := proto.Marshal(&anycmd)
-	return &flight.Ticket{
-		Ticket: data,
-	}
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestDoGet() {
-	tests := []struct {
-		name   string
-		ticket proto.Message
-	}{
-		{"DoGetStatement", &pb.TicketStatementQuery{}},
-		{"DoGetPreparedStatement", &pb.CommandPreparedStatementQuery{}},
-		{"DoGetCatalogs", &pb.CommandGetCatalogs{}},
-		{"DoGetDBSchemas", &pb.CommandGetDbSchemas{}},
-		{"DoGetTables", &pb.CommandGetTables{}},
-		{"DoGetTableTypes", &pb.CommandGetTableTypes{}},
-		{"DoGetXdbcTypeInfo", &pb.CommandGetXdbcTypeInfo{}},
-		{"DoGetPrimaryKeys", &pb.CommandGetPrimaryKeys{}},
-		{"DoGetExportedKeys", &pb.CommandGetExportedKeys{}},
-		{"DoGetImportedKeys", &pb.CommandGetImportedKeys{}},
-		{"DoGetCrossReference", &pb.CommandGetCrossReference{}},
-	}
-
-	for _, tt := range tests {
-		s.Run(tt.name, func() {
-			rdr, err := s.cl.DoGet(context.TODO(), getTicket(tt.ticket))
-			s.Nil(rdr)
-			s.True(strings.HasSuffix(err.Error(), tt.name+" not implemented"), err.Error())
-		})
-	}
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestExecuteIngest() {
-	nRecords := 3
-	nRowsPerRecord := 5
-	reclist := generateRecords(s.cl.Alloc, nRecords, nRowsPerRecord)
-	for _, rec := range reclist {
-		defer rec.Release()
-	}
-
-	rdr, err := array.NewRecordReader(reclist[0].Schema(), reclist)
-	s.NoError(err)
-	defer rdr.Release()
-
-	info, err := s.cl.ExecuteIngest(
-		context.TODO(),
-		rdr,
-		&flightsql.ExecuteIngestOpts{
-			TableDefinitionOptions: &flightsql.TableDefinitionOptions{
-				IfNotExist: flightsql.TableDefinitionOptionsTableNotExistOptionCreate,
-				IfExists:   flightsql.TableDefinitionOptionsTableExistsOptionReplace,
-			},
-			Table: "test_table",
-		},
-	)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("DoPutCommandStatementIngest not implemented", st.Message())
-	s.Zero(info)
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestDoAction() {
-	prep, err := s.cl.Prepare(context.TODO(), "IRRELEVANT")
-	s.Nil(prep)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("CreatePreparedStatement not implemented", st.Message())
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestCancelFlightInfo() {
-	request := flight.CancelFlightInfoRequest{}
-	result, err := s.cl.CancelFlightInfo(context.TODO(), &request)
-	s.Nil(result)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("CancelFlightInfo not implemented", st.Message())
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestRenewFlightEndpoint() {
-	endpoint := flight.FlightEndpoint{}
-	request := flight.RenewFlightEndpointRequest{Endpoint: &endpoint}
-	renewedEndpoint, err := s.cl.RenewFlightEndpoint(context.TODO(), &request)
-	s.Nil(renewedEndpoint)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("RenewFlightEndpoint not implemented", st.Message())
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestSetSessionOptions() {
-	opts, err := flight.NewSessionOptionValues(map[string]any{
-		"key": "val",
-	})
-	s.NoError(err)
-	res, err := s.cl.SetSessionOptions(context.TODO(), &flight.SetSessionOptionsRequest{SessionOptions: opts})
-	s.Nil(res)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("SetSessionOptions not implemented", st.Message())
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestGetSessionOptions() {
-	res, err := s.cl.GetSessionOptions(context.TODO(), &flight.GetSessionOptionsRequest{})
-	s.Nil(res)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("GetSessionOptions not implemented", st.Message())
-}
-
-func (s *UnimplementedFlightSqlServerSuite) TestCloseSession() {
-	res, err := s.cl.CloseSession(context.TODO(), &flight.CloseSessionRequest{})
-	s.Nil(res)
-	st, ok := status.FromError(err)
-	s.True(ok)
-	s.Equal(codes.Unimplemented, st.Code())
-	s.Equal("CloseSession not implemented", st.Message())
-}
-
-type FlightSqlServerSessionSuite struct {
-	suite.Suite
-
-	s  flight.Server
-	cl *flightsql.Client
-
-	sessionManager session.ServerSessionManager
-}
-
-func (s *FlightSqlServerSessionSuite) SetupSuite() {
-	s.s = flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(session.NewServerSessionMiddleware(s.sessionManager)),
-	})
-	srv := flightsql.NewFlightServer(&testServer{})
-	s.s.RegisterFlightService(srv)
-	s.s.Init("localhost:0")
-
-	go s.s.Serve()
-}
-
-func (s *FlightSqlServerSessionSuite) TearDownSuite() {
-	s.s.Shutdown()
-}
-
-func (s *FlightSqlServerSessionSuite) SetupTest() {
-	middleware := []flight.ClientMiddleware{
-		flight.NewClientCookieMiddleware(),
-	}
-	cl, err := flightsql.NewClient(s.s.Addr().String(), nil, middleware, dialOpts...)
-	s.Require().NoError(err)
-	s.cl = cl
-}
-
-func (s *FlightSqlServerSessionSuite) TearDownTest() {
-	s.Require().NoError(s.cl.Close())
-	s.cl = nil
-}
-
-func (s *FlightSqlServerSessionSuite) TestSetSessionOptions() {
-	opts, err := flight.NewSessionOptionValues(map[string]any{
-		"foolong":                int64(123),
-		"bardouble":              456.0,
-		"lol_invalid":            "this won't get set",
-		"key_with_invalid_value": "lol_invalid",
-		"big_ol_string_list":     []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	})
-	s.NoError(err)
-	res, err := s.cl.SetSessionOptions(context.TODO(), &flight.SetSessionOptionsRequest{SessionOptions: opts})
-	s.NoError(err)
-	s.NotNil(res)
-
-	expectedErrs := map[string]*flight.SetSessionOptionsResultError{
-		"lol_invalid":            {Value: flight.SetSessionOptionsResultErrorInvalidName},
-		"key_with_invalid_value": {Value: flight.SetSessionOptionsResultErrorInvalidValue},
-	}
-
-	errs := res.GetErrors()
-	s.Equal(len(expectedErrs), len(errs))
-
-	for key, val := range errs {
-		s.Equal(expectedErrs[key], val)
-	}
-}
-
-func (s *FlightSqlServerSessionSuite) TestGetSetGetSessionOptions() {
-	ctx := context.TODO()
-	getRes, err := s.cl.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	s.NoError(err)
-	s.NotNil(getRes)
-	s.Len(getRes.SessionOptions, 0)
-
-	expectedOpts := map[string]any{
-		"foolong":            int64(123),
-		"bardouble":          456.0,
-		"big_ol_string_list": []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	}
-
-	optionVals, err := flight.NewSessionOptionValues(expectedOpts)
-	s.NoError(err)
-	s.NotNil(optionVals)
-
-	setRes, err := s.cl.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: optionVals})
-	s.NoError(err)
-	s.NotNil(setRes)
-	s.Empty(setRes.Errors)
-
-	getRes2, err := s.cl.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	s.NoError(err)
-	s.NotNil(getRes2)
-
-	opts := getRes2.GetSessionOptions()
-	s.Equal(3, len(opts))
-
-	s.Equal(expectedOpts["foolong"], opts["foolong"].GetInt64Value())
-	s.Equal(expectedOpts["bardouble"], opts["bardouble"].GetDoubleValue())
-	s.Equal(expectedOpts["big_ol_string_list"], opts["big_ol_string_list"].GetStringListValue().GetValues())
-}
-
-func (s *FlightSqlServerSessionSuite) TestSetRemoveSessionOptions() {
-	ctx := context.TODO()
-	initialOpts := map[string]any{
-		"foolong":            int64(123),
-		"bardouble":          456.0,
-		"big_ol_string_list": []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	}
-
-	optionVals, err := flight.NewSessionOptionValues(initialOpts)
-	s.NoError(err)
-	s.NotNil(optionVals)
-
-	setRes, err := s.cl.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: optionVals})
-	s.NoError(err)
-	s.NotNil(setRes)
-	s.Empty(setRes.Errors)
-
-	removeKeyOpts, err := flight.NewSessionOptionValues(map[string]any{
-		"foolong": nil,
-	})
-	s.NoError(err)
-	s.NotNil(removeKeyOpts)
-
-	setRes2, err := s.cl.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: removeKeyOpts})
-	s.NoError(err)
-	s.NotNil(setRes2)
-	s.Empty(setRes2.Errors)
-
-	getRes, err := s.cl.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	s.NoError(err)
-	s.NotNil(getRes)
-
-	opts := getRes.GetSessionOptions()
-	s.Equal(2, len(opts))
-
-	s.Equal(initialOpts["bardouble"], opts["bardouble"].GetDoubleValue())
-	s.Equal(initialOpts["big_ol_string_list"], opts["big_ol_string_list"].GetStringListValue().GetValues())
-}
-
-func (s *FlightSqlServerSessionSuite) TestCloseSession() {
-	ctx := context.TODO()
-	initialOpts := map[string]any{
-		"foolong":            int64(123),
-		"bardouble":          456.0,
-		"big_ol_string_list": []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	}
-
-	optionVals, err := flight.NewSessionOptionValues(initialOpts)
-	s.NoError(err)
-	s.NotNil(optionVals)
-
-	setRes, err := s.cl.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: optionVals})
-	s.NoError(err)
-	s.NotNil(setRes)
-	s.Empty(setRes.Errors)
-
-	closeRes, err := s.cl.CloseSession(ctx, &flight.CloseSessionRequest{})
-	s.NoError(err)
-	s.NotNil(closeRes)
-	s.Equal(flight.CloseSessionResultClosed, closeRes.GetStatus())
-
-	getRes, err := s.cl.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	s.NoError(err)
-	s.NotNil(getRes)
-
-	opts := getRes.GetSessionOptions()
-	s.Empty(opts)
-}
-
-func TestBaseServer(t *testing.T) {
-	suite.Run(t, new(UnimplementedFlightSqlServerSuite))
-	suite.Run(t, new(FlightSqlServerSuite))
-	suite.Run(t, &FlightSqlServerSessionSuite{sessionManager: session.NewStatefulServerSessionManager()})
-	suite.Run(t, &FlightSqlServerSessionSuite{sessionManager: session.NewStatelessServerSessionManager()})
-}
-
-func TestStatefulServerSessionCookies(t *testing.T) {
-	// Generate session IDs deterministically
-	sessionIDGenerator := func(ids []string) func() string {
-		ch := make(chan string, len(ids))
-		for _, id := range ids {
-			ch <- id
-		}
-		close(ch)
-
-		return func() string {
-			return <-ch
-		}
-	}
-
-	factory := session.NewSessionFactory(sessionIDGenerator([]string{"how-now-brown-cow", "unique-new-york"}))
-	store := session.NewSessionStore()
-	manager := session.NewStatefulServerSessionManager(session.WithFactory(factory), session.WithStore(store))
-	middleware := session.NewServerSessionMiddleware(manager)
-
-	srv := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(middleware),
-	})
-	srv.RegisterFlightService(flightsql.NewFlightServer(&testServer{}))
-	srv.Init("localhost:0")
-
-	go srv.Serve()
-	defer srv.Shutdown()
-
-	client, err := flightsql.NewClient(
-		srv.Addr().String(),
-		nil,
-		[]flight.ClientMiddleware{
-			flight.NewClientCookieMiddleware(),
-		},
-		dialOpts...,
-	)
-	require.NoError(t, err)
-	defer client.Close()
-
-	var (
-		trailer metadata.MD
-		session session.ServerSession
-	)
-
-	ctx := context.TODO()
-
-	// Get empty session; should create new session since one doesn't exist
-	_, err = client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Client should recieve cookie with new session ID
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session_id=how-now-brown-cow", trailer.Get("set-cookie")[0])
-
-	// Server should add the empty session to its internal store
-	session, err = store.Get("how-now-brown-cow")
-	require.NoError(t, err)
-	require.NotNil(t, session)
-	require.Empty(t, session.GetSessionOptions())
-
-	optionVals, err := flight.NewSessionOptionValues(map[string]any{"hello": "world"})
-	require.NoError(t, err)
-	require.NotNil(t, optionVals)
-
-	// Add option to existing session
-	_, err = client.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: optionVals}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Server received and used session from existing client cookie, no need to set a new one
-	require.Len(t, trailer.Get("set-cookie"), 0)
-
-	// The option we set has been added to the server's state
-	session, err = store.Get("how-now-brown-cow")
-	require.NoError(t, err)
-	require.NotNil(t, session)
-	require.Len(t, session.GetSessionOptions(), 1)
-	require.Contains(t, session.GetSessionOptions(), "hello")
-
-	// Close the existing session
-	_, err = client.CloseSession(ctx, &flight.CloseSessionRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Inform the client that the cookie should be deleted
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session_id=how-now-brown-cow; Max-Age=0", trailer.Get("set-cookie")[0])
-
-	// The session has been removed from the server's internal store
-	session, err = store.Get("how-now-brown-cow")
-	require.Error(t, err)
-	require.Nil(t, session)
-
-	// Get the session; this should create a new session because we just closed the previous one
-	_, err = client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// The client is informed to set a NEW cookie for the newly created session
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session_id=unique-new-york", trailer.Get("set-cookie")[0])
-
-	// The new empty session has been added to the server's internal store
-	session, err = store.Get("unique-new-york")
-	require.NoError(t, err)
-	require.NotNil(t, session)
-	require.Empty(t, session.GetSessionOptions())
-
-	// Close the new session
-	_, err = client.CloseSession(ctx, &flight.CloseSessionRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Inform the client that the new session's cookie should be deleted
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session_id=unique-new-york; Max-Age=0", trailer.Get("set-cookie")[0])
-
-	// The session has been removed from the server's internal store
-	session, err = store.Get("unique-new-york")
-	require.Error(t, err)
-	require.Nil(t, session)
-}
-
-func TestStatelessServerSessionCookies(t *testing.T) {
-	manager := session.NewStatelessServerSessionManager()
-	middleware := session.NewServerSessionMiddleware(manager)
-
-	srv := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(middleware),
-	})
-	srv.RegisterFlightService(flightsql.NewFlightServer(&testServer{}))
-	srv.Init("localhost:0")
-
-	go srv.Serve()
-	defer srv.Shutdown()
-
-	client, err := flightsql.NewClient(
-		srv.Addr().String(),
-		nil,
-		[]flight.ClientMiddleware{
-			flight.NewClientCookieMiddleware(),
-		},
-		dialOpts...,
-	)
-	require.NoError(t, err)
-	defer client.Close()
-
-	var trailer metadata.MD
-
-	ctx := context.TODO()
-
-	// Get empty session; should create new session since one doesn't exist
-	_, err = client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Client should recieve cookie with new session token. An empty session is serialized with zero bytes.
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session=", trailer.Get("set-cookie")[0])
-
-	optionVals, err := flight.NewSessionOptionValues(map[string]any{"hello": "world"})
-	require.NoError(t, err)
-	require.NotNil(t, optionVals)
-
-	// Add option to existing session
-	_, err = client.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: optionVals}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Session state has been modified, so we send a new cookie with the updated session contents
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, `arrow_flight_session=ChAKBWhlbGxvEgcKBXdvcmxk`, trailer.Get("set-cookie")[0]) // base64 of binary '{"hello":"world"}' proto message
-
-	// Close the existing session
-	_, err = client.CloseSession(ctx, &flight.CloseSessionRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Inform the client that the cookie should be deleted
-	//
-	// The cookie is in the gRPC trailer because the session may have been closed AFTER the initial headers were sent
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session=ChAKBWhlbGxvEgcKBXdvcmxk; Max-Age=0", trailer.Get("set-cookie")[0])
-
-	// Get the session; his should create a new session because we just closed the previous one
-	// Realistically no session is "created", this just happens because the client was told to drop the cookie
-	// in the last step.
-	_, err = client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// The client is informed to set a NEW cookie for the newly created empty session
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session=", trailer.Get("set-cookie")[0])
-
-	// Close the new session
-	_, err = client.CloseSession(ctx, &flight.CloseSessionRequest{}, grpc.Trailer(&trailer))
-	require.NoError(t, err)
-
-	// Inform the client that the new session's cookie should be deleted
-	require.Len(t, trailer.Get("set-cookie"), 1)
-	require.Equal(t, "arrow_flight_session=; Max-Age=0", trailer.Get("set-cookie")[0])
-}
diff --git a/go/arrow/flight/flightsql/sql_info.go b/go/arrow/flight/flightsql/sql_info.go
deleted file mode 100644
index 2cd7f91cfd70a..0000000000000
--- a/go/arrow/flight/flightsql/sql_info.go
+++ /dev/null
@@ -1,93 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-const (
-	strValIdx arrow.UnionTypeCode = iota
-	boolValIdx
-	bigintValIdx
-	int32BitMaskIdx
-	strListIdx
-	int32ToInt32ListIdx
-)
-
-// sqlInfoResultBldr is a helper for building up the dense union response
-// of a SqlInfo request.
-type sqlInfoResultBldr struct {
-	valueBldr *array.DenseUnionBuilder
-
-	strBldr              *array.StringBuilder
-	boolBldr             *array.BooleanBuilder
-	bigintBldr           *array.Int64Builder
-	int32BitmaskBldr     *array.Int32Builder
-	strListBldr          *array.ListBuilder
-	int32Toint32ListBldr *array.MapBuilder
-}
-
-func newSqlInfoResultBuilder(valueBldr *array.DenseUnionBuilder) *sqlInfoResultBldr {
-	return &sqlInfoResultBldr{
-		valueBldr:            valueBldr,
-		strBldr:              valueBldr.Child(int(strValIdx)).(*array.StringBuilder),
-		boolBldr:             valueBldr.Child(int(boolValIdx)).(*array.BooleanBuilder),
-		bigintBldr:           valueBldr.Child(int(bigintValIdx)).(*array.Int64Builder),
-		int32BitmaskBldr:     valueBldr.Child(int(int32BitMaskIdx)).(*array.Int32Builder),
-		strListBldr:          valueBldr.Child(int(strListIdx)).(*array.ListBuilder),
-		int32Toint32ListBldr: valueBldr.Child(int(int32ToInt32ListIdx)).(*array.MapBuilder),
-	}
-}
-
-func (s *sqlInfoResultBldr) Append(v interface{}) {
-	switch v := v.(type) {
-	case string:
-		s.valueBldr.Append(strValIdx)
-		s.strBldr.Append(v)
-	case bool:
-		s.valueBldr.Append(boolValIdx)
-		s.boolBldr.Append(v)
-	case int64:
-		s.valueBldr.Append(bigintValIdx)
-		s.bigintBldr.Append(v)
-	case int32:
-		s.valueBldr.Append(int32BitMaskIdx)
-		s.int32BitmaskBldr.Append(v)
-	case []string:
-		s.valueBldr.Append(strListIdx)
-		s.strListBldr.Append(true)
-		chld := s.strListBldr.ValueBuilder().(*array.StringBuilder)
-		chld.AppendValues(v, nil)
-	case map[int32][]int32:
-		s.valueBldr.Append(int32ToInt32ListIdx)
-		s.int32Toint32ListBldr.Append(true)
-
-		kb := s.int32Toint32ListBldr.KeyBuilder().(*array.Int32Builder)
-		ib := s.int32Toint32ListBldr.ItemBuilder().(*array.ListBuilder)
-		ch := ib.ValueBuilder().(*array.Int32Builder)
-
-		for key, val := range v {
-			kb.Append(key)
-			ib.Append(true)
-			for _, c := range val {
-				ch.Append(c)
-			}
-		}
-	}
-}
diff --git a/go/arrow/flight/flightsql/sqlite_server_test.go b/go/arrow/flight/flightsql/sqlite_server_test.go
deleted file mode 100644
index fee2475b2b2ec..0000000000000
--- a/go/arrow/flight/flightsql/sqlite_server_test.go
+++ /dev/null
@@ -1,910 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-// +build go1.18
-
-package flightsql_test
-
-import (
-	"context"
-	"database/sql"
-	"os"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/example"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/schema_ref"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/status"
-	"google.golang.org/protobuf/proto"
-	sqlite3 "modernc.org/sqlite/lib"
-)
-
-type FlightSqliteServerSuite struct {
-	suite.Suite
-
-	db  *sql.DB
-	srv *example.SQLiteFlightSQLServer
-	s   flight.Server
-	cl  *flightsql.Client
-
-	mem *memory.CheckedAllocator
-}
-
-func (s *FlightSqliteServerSuite) getColMetadata(colType int, table string) arrow.Metadata {
-	bldr := flightsql.NewColumnMetadataBuilder()
-	bldr.Scale(15).IsReadOnly(false).IsAutoIncrement(false)
-	if table != "" {
-		bldr.TableName(table)
-	}
-	switch colType {
-	case sqlite3.SQLITE_TEXT, sqlite3.SQLITE_BLOB:
-	case sqlite3.SQLITE_INTEGER:
-		bldr.Precision(10)
-	case sqlite3.SQLITE_FLOAT:
-		bldr.Precision(15)
-	default:
-		bldr.Precision(0)
-	}
-	return bldr.Metadata()
-}
-
-func (s *FlightSqliteServerSuite) SetupTest() {
-	var err error
-	s.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	s.s = flight.NewServerWithMiddleware(nil)
-	s.db, err = example.CreateDB()
-	s.Require().NoError(err)
-	s.srv, err = example.NewSQLiteFlightSQLServer(s.db)
-	s.Require().NoError(err)
-	s.srv.Alloc = s.mem
-
-	s.s.RegisterFlightService(flightsql.NewFlightServer(s.srv))
-	s.s.Init("localhost:0")
-	s.s.SetShutdownOnSignals(os.Interrupt, os.Kill)
-	go s.s.Serve()
-	s.cl, err = flightsql.NewClient(s.s.Addr().String(), nil, nil, dialOpts...)
-	s.Require().NoError(err)
-	s.Require().NotNil(s.cl)
-	s.cl.Alloc = s.mem
-}
-
-func (s *FlightSqliteServerSuite) TearDownTest() {
-	s.Require().NoError(s.cl.Close())
-	s.s.Shutdown()
-	s.srv = nil
-	err := s.db.Close()
-	s.Require().NoError(err)
-	s.mem.AssertSize(s.T(), 0)
-}
-
-func (s *FlightSqliteServerSuite) fromJSON(dt arrow.DataType, json string) arrow.Array {
-	arr, _, _ := array.FromJSON(s.mem, dt, strings.NewReader(json))
-	return arr
-}
-
-func (s *FlightSqliteServerSuite) execCountQuery(query string) int64 {
-	info, err := s.cl.Execute(context.Background(), query)
-	s.NoError(err)
-
-	rdr, err := s.cl.DoGet(context.Background(), info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	rec, err := rdr.Read()
-	s.NoError(err)
-	return rec.Column(0).(*array.Int64).Value(0)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandStatementQuery() {
-	ctx := context.Background()
-	info, err := s.cl.Execute(ctx, "SELECT * FROM intTable")
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-
-	expectedSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "id", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-		{Name: "keyName", Type: arrow.BinaryTypes.String, Metadata: s.getColMetadata(sqlite3.SQLITE_TEXT, ""), Nullable: true},
-		{Name: "value", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-		{Name: "foreignId", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-	}, nil)
-
-	s.Truef(expectedSchema.Equal(rec.Schema()), "expected: %s\ngot: %s", expectedSchema, rec.Schema())
-
-	idarr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 2, 3, 4]`)
-	defer idarr.Release()
-	keyarr := s.fromJSON(arrow.BinaryTypes.String, `["one", "zero", "negative one", null]`)
-	defer keyarr.Release()
-	valarr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 0, -1, null]`)
-	defer valarr.Release()
-	foreignarr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 1, 1, null]`)
-	defer foreignarr.Release()
-
-	expectedRec := array.NewRecord(expectedSchema, []arrow.Array{idarr, keyarr, valarr, foreignarr}, 4)
-	defer expectedRec.Release()
-
-	s.Truef(array.RecordEqual(expectedRec, rec), "expected: %s\ngot: %s", expectedRec, rec)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTables() {
-	ctx := context.Background()
-	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{})
-	s.NoError(err)
-	s.NotNil(info)
-
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	catalogName := s.fromJSON(arrow.BinaryTypes.String, `["main", "main", "main"]`)
-	defer catalogName.Release()
-	schemaName := s.fromJSON(arrow.BinaryTypes.String, `["", "", ""]`)
-	defer schemaName.Release()
-
-	tableName := s.fromJSON(arrow.BinaryTypes.String, `["foreignTable", "intTable", "sqlite_sequence"]`)
-	defer tableName.Release()
-
-	tableType := s.fromJSON(arrow.BinaryTypes.String, `["table", "table", "table"]`)
-	defer tableType.Release()
-
-	expectedRec := array.NewRecord(schema_ref.Tables, []arrow.Array{catalogName, schemaName, tableName, tableType}, 3)
-	defer expectedRec.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-	rec.Retain()
-	defer rec.Release()
-	s.False(rdr.Next())
-
-	s.Truef(array.RecordEqual(expectedRec, rec), "expected: %s\ngot: %s", expectedRec, rec)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTablesWithIncludedSchemasNoFilter() {
-	ctx := context.Background()
-	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
-		IncludeSchema: true,
-	})
-	s.NoError(err)
-	s.NotNil(info)
-
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	// Don't check the actual data since it'll include SQLite internal tables
-	s.True(rdr.Next())
-	s.False(rdr.Next())
-	s.NoError(rdr.Err())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTablesWithTableFilter() {
-	ctx := context.Background()
-	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
-		TableNameFilterPattern: proto.String("int%"),
-	})
-	s.NoError(err)
-	s.NotNil(info)
-
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	catalog := s.fromJSON(arrow.BinaryTypes.String, `["main"]`)
-	schema := s.fromJSON(arrow.BinaryTypes.String, `[""]`)
-	table := s.fromJSON(arrow.BinaryTypes.String, `["intTable"]`)
-	tabletype := s.fromJSON(arrow.BinaryTypes.String, `["table"]`)
-	expected := array.NewRecord(schema_ref.Tables, []arrow.Array{catalog, schema, table, tabletype}, 1)
-	defer func() {
-		catalog.Release()
-		schema.Release()
-		table.Release()
-		tabletype.Release()
-		expected.Release()
-	}()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-	rec.Retain()
-	defer rec.Release()
-	s.False(rdr.Next())
-	s.NoError(rdr.Err())
-
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTablesWithTableTypesFilter() {
-	ctx := context.Background()
-	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
-		TableTypes: []string{"index"},
-	})
-	s.NoError(err)
-
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	s.True(schema_ref.Tables.Equal(rdr.Schema()), rdr.Schema().String())
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTablesWithExistingTableTypeFilter() {
-	ctx := context.Background()
-	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
-		TableTypes: []string{"table"},
-	})
-	s.NoError(err)
-	s.NotNil(info)
-
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	catalogName := s.fromJSON(arrow.BinaryTypes.String, `["main", "main", "main"]`)
-	defer catalogName.Release()
-	schemaName := s.fromJSON(arrow.BinaryTypes.String, `["", "", ""]`)
-	defer schemaName.Release()
-
-	tableName := s.fromJSON(arrow.BinaryTypes.String, `["foreignTable", "intTable", "sqlite_sequence"]`)
-	defer tableName.Release()
-
-	tableType := s.fromJSON(arrow.BinaryTypes.String, `["table", "table", "table"]`)
-	defer tableType.Release()
-
-	expectedRec := array.NewRecord(schema_ref.Tables, []arrow.Array{catalogName, schemaName, tableName, tableType}, 3)
-	defer expectedRec.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-	rec.Retain()
-	defer rec.Release()
-	s.False(rdr.Next())
-
-	s.Truef(array.RecordEqual(expectedRec, rec), "expected: %s\ngot: %s", expectedRec, rec)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTablesWithIncludedSchemas() {
-	ctx := context.Background()
-	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
-		TableNameFilterPattern: proto.String("int%"),
-		IncludeSchema:          true,
-	})
-	s.NoError(err)
-	s.NotNil(info)
-
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	catalog := s.fromJSON(arrow.BinaryTypes.String, `["main"]`)
-	schema := s.fromJSON(arrow.BinaryTypes.String, `[""]`)
-	table := s.fromJSON(arrow.BinaryTypes.String, `["intTable"]`)
-	tabletype := s.fromJSON(arrow.BinaryTypes.String, `["table"]`)
-
-	dbTableName := "intTable"
-
-	tableSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "id", Type: arrow.PrimitiveTypes.Int64,
-			Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, dbTableName)},
-		{Name: "keyName", Type: arrow.BinaryTypes.String, Nullable: true,
-			Metadata: s.getColMetadata(sqlite3.SQLITE_TEXT, dbTableName)},
-		{Name: "value", Type: arrow.PrimitiveTypes.Int64, Nullable: true,
-			Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, dbTableName)},
-		{Name: "foreignId", Type: arrow.PrimitiveTypes.Int64, Nullable: true,
-			Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, dbTableName)},
-	}, nil)
-	schemaBuf := flight.SerializeSchema(tableSchema, s.mem)
-	binaryBldr := array.NewBinaryBuilder(s.mem, arrow.BinaryTypes.Binary)
-	binaryBldr.Append(schemaBuf)
-	schemaCol := binaryBldr.NewArray()
-
-	expected := array.NewRecord(schema_ref.TablesWithIncludedSchema, []arrow.Array{catalog, schema, table, tabletype, schemaCol}, 1)
-	defer func() {
-		catalog.Release()
-		schema.Release()
-		table.Release()
-		tabletype.Release()
-		binaryBldr.Release()
-		schemaCol.Release()
-		expected.Release()
-	}()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-	rec.Retain()
-	defer rec.Release()
-	s.False(rdr.Next())
-	s.NoError(rdr.Err())
-
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTypeInfo() {
-	ctx := context.Background()
-	info, err := s.cl.GetXdbcTypeInfo(ctx, nil)
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	expected := example.GetTypeInfoResult(s.mem)
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTypeInfoFiltered() {
-	ctx := context.Background()
-	info, err := s.cl.GetXdbcTypeInfo(ctx, proto.Int32(-4))
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	expected := example.GetFilteredTypeInfoResult(s.mem, -4)
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetCatalogs() {
-	ctx := context.Background()
-	info, err := s.cl.GetCatalogs(ctx)
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	s.True(rdr.Schema().Equal(schema_ref.Catalogs), rdr.Schema().String())
-
-	catalog := s.fromJSON(arrow.BinaryTypes.String, `["main"]`)
-	expected := array.NewRecord(schema_ref.Catalogs, []arrow.Array{catalog}, 1)
-	defer catalog.Release()
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-	rec.Retain()
-	defer rec.Release()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetDbSchemas() {
-	ctx := context.Background()
-	info, err := s.cl.GetDBSchemas(ctx, &flightsql.GetDBSchemasOpts{})
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	s.True(rdr.Schema().Equal(schema_ref.DBSchemas), rdr.Schema().String())
-
-	catalog := s.fromJSON(arrow.BinaryTypes.String, `["main"]`)
-	schema := s.fromJSON(arrow.BinaryTypes.String, `[""]`)
-	expected := array.NewRecord(schema_ref.DBSchemas, []arrow.Array{catalog, schema}, 1)
-	defer catalog.Release()
-	defer schema.Release()
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.NotNil(rec)
-	rec.Retain()
-	defer rec.Release()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetTableTypes() {
-	ctx := context.Background()
-	info, err := s.cl.GetTableTypes(ctx)
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	expected := s.fromJSON(arrow.BinaryTypes.String, `["table"]`)
-	defer expected.Release()
-	expectedRec := array.NewRecord(schema_ref.TableTypes, []arrow.Array{expected}, 1)
-	defer expectedRec.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expectedRec, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandStatementUpdate() {
-	ctx := context.Background()
-	result, err := s.cl.ExecuteUpdate(ctx, `INSERT INTO intTable (keyName, value) VALUES
-							('KEYNAME1', 1001), ('KEYNAME2', 1002), ('KEYNAME3', 1003)`)
-	s.NoError(err)
-	s.EqualValues(3, result)
-
-	result, err = s.cl.ExecuteUpdate(ctx, `UPDATE intTable SET keyName = 'KEYNAME1'
-										  WHERE keyName = 'KEYNAME2' OR keyName = 'KEYNAME3'`)
-	s.NoError(err)
-	s.EqualValues(2, result)
-
-	result, err = s.cl.ExecuteUpdate(ctx, `DELETE FROM intTable WHERE keyName = 'KEYNAME1'`)
-	s.NoError(err)
-	s.EqualValues(3, result)
-}
-
-func (s *FlightSqliteServerSuite) TestCommandPreparedStatementQuery() {
-	ctx := context.Background()
-	prep, err := s.cl.Prepare(ctx, "SELECT * FROM intTable")
-	s.NoError(err)
-	defer prep.Close(ctx)
-
-	info, err := prep.Execute(ctx)
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-
-	expectedSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "id", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-		{Name: "keyName", Type: arrow.BinaryTypes.String, Metadata: s.getColMetadata(sqlite3.SQLITE_TEXT, ""), Nullable: true},
-		{Name: "value", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-		{Name: "foreignId", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true}}, nil)
-
-	idArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 2, 3, 4]`)
-	defer idArr.Release()
-	keyNameArr := s.fromJSON(arrow.BinaryTypes.String, `["one", "zero", "negative one", null]`)
-	defer keyNameArr.Release()
-	valueArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 0, -1, null]`)
-	defer valueArr.Release()
-	foreignIdArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 1, 1, null]`)
-	defer foreignIdArr.Release()
-
-	expected := array.NewRecord(expectedSchema, []arrow.Array{idArr, keyNameArr, valueArr, foreignIdArr}, 4)
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandPreparedStatementQueryWithParams() {
-	ctx := context.Background()
-	stmt, err := s.cl.Prepare(ctx, "SELECT * FROM intTable WHERE keyName LIKE ?")
-	s.NoError(err)
-	defer stmt.Close(ctx)
-
-	typeIDs := s.fromJSON(arrow.PrimitiveTypes.Int8, "[0]")
-	offsets := s.fromJSON(arrow.PrimitiveTypes.Int32, "[0]")
-	strArray := s.fromJSON(arrow.BinaryTypes.String, `["%one"]`)
-	bytesArr := s.fromJSON(arrow.BinaryTypes.Binary, "[]")
-	bigintArr := s.fromJSON(arrow.PrimitiveTypes.Int64, "[]")
-	dblArr := s.fromJSON(arrow.PrimitiveTypes.Float64, "[]")
-	paramArr, _ := array.NewDenseUnionFromArraysWithFields(typeIDs,
-		offsets, []arrow.Array{strArray, bytesArr, bigintArr, dblArr},
-		[]string{"string", "bytes", "bigint", "double"})
-	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{
-		{Name: "parameter_1", Type: paramArr.DataType()}}, nil),
-		[]arrow.Array{paramArr}, 1)
-	defer func() {
-		typeIDs.Release()
-		offsets.Release()
-		strArray.Release()
-		bytesArr.Release()
-		bigintArr.Release()
-		dblArr.Release()
-		paramArr.Release()
-		batch.Release()
-	}()
-
-	stmt.SetParameters(batch)
-	info, err := stmt.Execute(ctx)
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-
-	expectedSchema := arrow.NewSchema([]arrow.Field{
-		{Name: "id", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-		{Name: "keyName", Type: arrow.BinaryTypes.String, Metadata: s.getColMetadata(sqlite3.SQLITE_TEXT, ""), Nullable: true},
-		{Name: "value", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
-		{Name: "foreignId", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true}}, nil)
-
-	idArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 3]`)
-	defer idArr.Release()
-	keyNameArr := s.fromJSON(arrow.BinaryTypes.String, `["one", "negative one"]`)
-	defer keyNameArr.Release()
-	valueArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, -1]`)
-	defer valueArr.Release()
-	foreignIdArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 1]`)
-	defer foreignIdArr.Release()
-
-	expected := array.NewRecord(expectedSchema, []arrow.Array{idArr, keyNameArr, valueArr, foreignIdArr}, 2)
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandPreparedStatementUpdateNoTable() {
-	ctx := context.Background()
-	stmt, err := s.cl.Prepare(ctx, "INSERT INTO thisTableDoesNotExist (keyName, value) VALUES ('new_value', 2)")
-	s.NoError(err)
-	defer stmt.Close(ctx)
-
-	_, err = stmt.ExecuteUpdate(context.Background())
-	s.Error(err)
-	s.Equal(codes.NotFound, status.Code(err), "%#v", err.Error())
-	s.Contains(err.Error(), "no such table")
-}
-
-func (s *FlightSqliteServerSuite) TestCommandPreparedStatementUpdateWithParams() {
-	ctx := context.Background()
-	stmt, err := s.cl.Prepare(ctx, "INSERT INTO intTable (keyName, value) VALUES ('new_value', ?)")
-	s.NoError(err)
-	defer stmt.Close(ctx)
-
-	typeIDs := s.fromJSON(arrow.PrimitiveTypes.Int8, "[2]")
-	offsets := s.fromJSON(arrow.PrimitiveTypes.Int32, "[0]")
-	strArray := s.fromJSON(arrow.BinaryTypes.String, "[]")
-	bytesArr := s.fromJSON(arrow.BinaryTypes.Binary, "[]")
-	bigintArr := s.fromJSON(arrow.PrimitiveTypes.Int64, "[999]")
-	dblArr := s.fromJSON(arrow.PrimitiveTypes.Float64, "[]")
-	paramArr, err := array.NewDenseUnionFromArraysWithFields(typeIDs,
-		offsets, []arrow.Array{strArray, bytesArr, bigintArr, dblArr},
-		[]string{"string", "bytes", "bigint", "double"})
-	s.NoError(err)
-	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{
-		{Name: "parameter_1", Type: paramArr.DataType()}}, nil),
-		[]arrow.Array{paramArr}, 1)
-	defer func() {
-		typeIDs.Release()
-		offsets.Release()
-		strArray.Release()
-		bytesArr.Release()
-		bigintArr.Release()
-		dblArr.Release()
-		paramArr.Release()
-		batch.Release()
-	}()
-
-	stmt.SetParameters(batch)
-	s.EqualValues(4, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
-	n, err := stmt.ExecuteUpdate(context.Background())
-	s.NoError(err)
-	s.EqualValues(1, n)
-	s.EqualValues(5, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
-	n, err = s.cl.ExecuteUpdate(context.Background(), "DELETE FROM intTable WHERE keyName = 'new_value'")
-	s.NoError(err)
-	s.EqualValues(1, n)
-	s.EqualValues(4, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
-}
-
-func (s *FlightSqliteServerSuite) TestCommandPreparedStatementUpdate() {
-	ctx := context.Background()
-	stmt, err := s.cl.Prepare(ctx, "INSERT INTO intTable (keyName, value) VALUES ('new_value', 999)")
-	s.NoError(err)
-	defer stmt.Close(ctx)
-
-	s.EqualValues(4, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
-	result, err := stmt.ExecuteUpdate(ctx)
-	s.NoError(err)
-	s.EqualValues(1, result)
-	s.EqualValues(5, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
-	result, err = s.cl.ExecuteUpdate(ctx, "DELETE FROM intTable WHERE keyName = 'new_value'")
-	s.NoError(err)
-	s.EqualValues(1, result)
-	s.EqualValues(4, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetPrimaryKeys() {
-	ctx := context.Background()
-	info, err := s.cl.GetPrimaryKeys(ctx, flightsql.TableRef{Table: "int%"})
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	bldr := array.NewRecordBuilder(s.mem, schema_ref.PrimaryKeys)
-	defer bldr.Release()
-	bldr.Field(0).AppendNull()
-	bldr.Field(1).AppendNull()
-	bldr.Field(2).(*array.StringBuilder).Append("intTable")
-	bldr.Field(3).(*array.StringBuilder).Append("id")
-	bldr.Field(4).(*array.Int32Builder).Append(1)
-	bldr.Field(5).AppendNull()
-	expected := bldr.NewRecord()
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetImportedKeys() {
-	ctx := context.Background()
-	info, err := s.cl.GetImportedKeys(ctx, flightsql.TableRef{Table: "intTable"})
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	bldr := array.NewRecordBuilder(s.mem, schema_ref.ImportedKeys)
-	defer bldr.Release()
-	bldr.Field(0).AppendNull()
-	bldr.Field(1).AppendNull()
-	bldr.Field(2).(*array.StringBuilder).Append("foreignTable")
-	bldr.Field(3).(*array.StringBuilder).Append("id")
-	bldr.Field(4).AppendNull()
-	bldr.Field(5).AppendNull()
-	bldr.Field(6).(*array.StringBuilder).Append("intTable")
-	bldr.Field(7).(*array.StringBuilder).Append("foreignId")
-	bldr.Field(8).(*array.Int32Builder).Append(0)
-	bldr.Field(9).AppendNull()
-	bldr.Field(10).AppendNull()
-	bldr.Field(11).(*array.Uint8Builder).Append(3)
-	bldr.Field(12).(*array.Uint8Builder).Append(3)
-	expected := bldr.NewRecord()
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetExportedKeys() {
-	ctx := context.Background()
-	info, err := s.cl.GetExportedKeys(ctx, flightsql.TableRef{Table: "foreignTable"})
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	bldr := array.NewRecordBuilder(s.mem, schema_ref.ImportedKeys)
-	defer bldr.Release()
-	bldr.Field(0).AppendNull()
-	bldr.Field(1).AppendNull()
-	bldr.Field(2).(*array.StringBuilder).Append("foreignTable")
-	bldr.Field(3).(*array.StringBuilder).Append("id")
-	bldr.Field(4).AppendNull()
-	bldr.Field(5).AppendNull()
-	bldr.Field(6).(*array.StringBuilder).Append("intTable")
-	bldr.Field(7).(*array.StringBuilder).Append("foreignId")
-	bldr.Field(8).(*array.Int32Builder).Append(0)
-	bldr.Field(9).AppendNull()
-	bldr.Field(10).AppendNull()
-	bldr.Field(11).(*array.Uint8Builder).Append(3)
-	bldr.Field(12).(*array.Uint8Builder).Append(3)
-	expected := bldr.NewRecord()
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetCrossRef() {
-	ctx := context.Background()
-	info, err := s.cl.GetCrossReference(ctx,
-		flightsql.TableRef{Table: "foreignTable"},
-		flightsql.TableRef{Table: "intTable"})
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	bldr := array.NewRecordBuilder(s.mem, schema_ref.ImportedKeys)
-	defer bldr.Release()
-	bldr.Field(0).AppendNull()
-	bldr.Field(1).AppendNull()
-	bldr.Field(2).(*array.StringBuilder).Append("foreignTable")
-	bldr.Field(3).(*array.StringBuilder).Append("id")
-	bldr.Field(4).AppendNull()
-	bldr.Field(5).AppendNull()
-	bldr.Field(6).(*array.StringBuilder).Append("intTable")
-	bldr.Field(7).(*array.StringBuilder).Append("foreignId")
-	bldr.Field(8).(*array.Int32Builder).Append(0)
-	bldr.Field(9).AppendNull()
-	bldr.Field(10).AppendNull()
-	bldr.Field(11).(*array.Uint8Builder).Append(3)
-	bldr.Field(12).(*array.Uint8Builder).Append(3)
-	expected := bldr.NewRecord()
-	defer expected.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
-	s.False(rdr.Next())
-}
-
-func validateSqlInfo(t *testing.T, expected interface{}, sc scalar.Scalar) bool {
-	switch ex := expected.(type) {
-	case string:
-		return assert.Equal(t, ex, sc.String())
-	case bool:
-		return assert.Equal(t, ex, sc.(*scalar.Boolean).Value)
-	case int64:
-		return assert.Equal(t, ex, sc.(*scalar.Int64).Value)
-	case int32:
-		return assert.Equal(t, ex, sc.(*scalar.Int32).Value)
-	case []string:
-		arr := sc.(*scalar.List).Value.(*array.String)
-		assert.EqualValues(t, len(ex), arr.Len())
-		for i, v := range ex {
-			assert.Equal(t, v, arr.Value(i))
-		}
-	case map[int32][]int32:
-		// map is a list of structs with key and values
-		structArr := sc.(*scalar.Map).Value.(*array.Struct)
-		keys := structArr.Field(0).(*array.Int32)
-		values := structArr.Field(1).(*array.List)
-		// assert that the map has the right size
-		assert.EqualValues(t, len(ex), keys.Len())
-
-		// for each element, match the argument
-		for i := 0; i < keys.Len(); i++ {
-			keyScalar, _ := scalar.GetScalar(keys, i)
-			infoID := keyScalar.(*scalar.Int32).Value
-
-			// assert the key exists
-			list, ok := ex[infoID]
-			assert.True(t, ok)
-
-			// assert the int32list is the right size
-			start, end := values.ValueOffsets(i)
-			assert.EqualValues(t, len(list), end-start)
-
-			// for each element make sure it matches
-			for j, v := range list {
-				listItem, err := scalar.GetScalar(values.ListValues(), int(start)+j)
-				assert.NoError(t, err)
-				assert.Equal(t, v, listItem.(*scalar.Int32).Value)
-			}
-		}
-	}
-	return true
-}
-
-func (s *FlightSqliteServerSuite) TestCommandGetSqlInfo() {
-	expectedResults := example.SqlInfoResultMap()
-	infoIDs := make([]flightsql.SqlInfo, 0, len(expectedResults))
-	for k := range expectedResults {
-		infoIDs = append(infoIDs, flightsql.SqlInfo(k))
-	}
-
-	ctx := context.Background()
-	info, err := s.cl.GetSqlInfo(ctx, infoIDs)
-	s.NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.NoError(err)
-	defer rdr.Release()
-
-	s.True(rdr.Next())
-	rec := rdr.Record()
-	rec.Retain()
-	defer rec.Release()
-	s.False(rdr.Next())
-
-	s.EqualValues(2, rec.NumCols())
-	s.EqualValues(len(expectedResults), rec.NumRows())
-
-	colName := rec.Column(0).(*array.Uint32)
-	colValue := rec.Column(1)
-	for i := 0; i < int(rec.NumRows()); i++ {
-		expected := expectedResults[colName.Value(i)]
-		sc, err := scalar.GetScalar(colValue, i)
-		s.NoError(err)
-
-		s.True(validateSqlInfo(s.T(), expected, sc.(*scalar.DenseUnion).ChildValue()))
-
-		sc.(*scalar.DenseUnion).Release()
-	}
-}
-
-func (s *FlightSqliteServerSuite) TestTransactions() {
-	ctx := context.Background()
-	tx, err := s.cl.BeginTransaction(ctx)
-	s.Require().NoError(err)
-	s.Require().NotNil(tx)
-
-	s.True(tx.ID().IsValid())
-	s.NotEmpty(tx.ID())
-
-	_, err = tx.BeginSavepoint(ctx, "foobar")
-	s.Equal(codes.Unimplemented, status.Code(err))
-
-	info, err := tx.Execute(ctx, "SELECT * FROM intTable")
-	s.Require().NoError(err)
-	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.Require().NoError(err)
-
-	toTable := func(r *flight.Reader) arrow.Table {
-		defer r.Release()
-		recs := make([]arrow.Record, 0)
-		for rdr.Next() {
-			r := rdr.Record()
-			r.Retain()
-			defer r.Release()
-			recs = append(recs, r)
-		}
-
-		return array.NewTableFromRecords(rdr.Schema(), recs)
-	}
-	tbl := toTable(rdr)
-	defer tbl.Release()
-
-	rowCount := tbl.NumRows()
-
-	result, err := tx.ExecuteUpdate(ctx, `INSERT INTO intTable (keyName, value) VALUES
-						   ('KEYNAME1', 1001), ('KEYNAME2', 1002), ('KEYNAME3', 1003)`)
-	s.Require().NoError(err)
-	s.EqualValues(3, result)
-
-	info, err = tx.Execute(ctx, "SELECT * FROM intTable")
-	s.Require().NoError(err)
-	rdr, err = s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.Require().NoError(err)
-	tbl = toTable(rdr)
-	defer tbl.Release()
-	s.EqualValues(rowCount+3, tbl.NumRows())
-
-	s.Require().NoError(tx.Rollback(ctx))
-	// commit/rollback invalidates the transaction handle
-	s.ErrorIs(tx.Commit(ctx), flightsql.ErrInvalidTxn)
-	s.ErrorIs(tx.Rollback(ctx), flightsql.ErrInvalidTxn)
-
-	info, err = s.cl.Execute(ctx, "SELECT * FROM intTable")
-	s.Require().NoError(err)
-	rdr, err = s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
-	s.Require().NoError(err)
-	tbl = toTable(rdr)
-	defer tbl.Release()
-	s.EqualValues(rowCount, tbl.NumRows())
-}
-
-func TestSqliteServer(t *testing.T) {
-	suite.Run(t, new(FlightSqliteServerSuite))
-}
diff --git a/go/arrow/flight/flightsql/types.go b/go/arrow/flight/flightsql/types.go
deleted file mode 100644
index 88840cd7d6caf..0000000000000
--- a/go/arrow/flight/flightsql/types.go
+++ /dev/null
@@ -1,899 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flightsql
-
-import (
-	pb "github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"google.golang.org/protobuf/proto"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-// Constants for Action types
-const (
-	CreatePreparedStatementActionType     = "CreatePreparedStatement"
-	ClosePreparedStatementActionType      = "ClosePreparedStatement"
-	CreatePreparedSubstraitPlanActionType = "CreatePreparedSubstraitPlan"
-	CancelQueryActionType                 = "CancelQuery"
-	BeginSavepointActionType              = "BeginSavepoint"
-	BeginTransactionActionType            = "BeginTransaction"
-	EndTransactionActionType              = "EndTransaction"
-	EndSavepointActionType                = "EndSavepoint"
-)
-
-func toCrossTableRef(cmd *pb.CommandGetCrossReference) CrossTableRef {
-	return CrossTableRef{
-		PKRef: TableRef{
-			Catalog:  cmd.PkCatalog,
-			DBSchema: cmd.PkDbSchema,
-			Table:    cmd.PkTable,
-		},
-		FKRef: TableRef{
-			Catalog:  cmd.FkCatalog,
-			DBSchema: cmd.FkDbSchema,
-			Table:    cmd.FkTable,
-		},
-	}
-}
-
-func pkToTableRef(cmd *pb.CommandGetPrimaryKeys) TableRef {
-	return TableRef{
-		Catalog:  cmd.Catalog,
-		DBSchema: cmd.DbSchema,
-		Table:    cmd.Table,
-	}
-}
-
-func exkToTableRef(cmd *pb.CommandGetExportedKeys) TableRef {
-	return TableRef{
-		Catalog:  cmd.Catalog,
-		DBSchema: cmd.DbSchema,
-		Table:    cmd.Table,
-	}
-}
-
-func impkToTableRef(cmd *pb.CommandGetImportedKeys) TableRef {
-	return TableRef{
-		Catalog:  cmd.Catalog,
-		DBSchema: cmd.DbSchema,
-		Table:    cmd.Table,
-	}
-}
-
-// CreateStatementQueryTicket is a helper that constructs a properly
-// serialized TicketStatementQuery containing a given opaque binary handle
-// for use with constructing a ticket to return from GetFlightInfoStatement.
-func CreateStatementQueryTicket(handle []byte) ([]byte, error) {
-	query := &pb.TicketStatementQuery{StatementHandle: handle}
-	var ticket anypb.Any
-	ticket.MarshalFrom(query)
-
-	return proto.Marshal(&ticket)
-}
-
-type (
-	// GetDBSchemasOpts contains the options to request Database Schemas:
-	// an optional Catalog and a Schema Name filter pattern.
-	GetDBSchemasOpts pb.CommandGetDbSchemas
-	// GetTablesOpts contains the options for retrieving a list of tables:
-	// optional Catalog, Schema filter pattern, Table name filter pattern,
-	// a filter of table types, and whether or not to include the schema
-	// in the response.
-	GetTablesOpts pb.CommandGetTables
-
-	// SqlInfoResultMap is a mapping of SqlInfo ids to the desired response.
-	// This is part of a Server and used for registering responses to a
-	// SqlInfo request.
-	SqlInfoResultMap map[uint32]interface{}
-
-	// TableRef is a helpful struct for referencing a specific Table
-	// by its catalog, schema, and table name.
-	TableRef struct {
-		// Catalog specifies the catalog this table belongs to.
-		// An empty string refers to tables without a catalog.
-		// If nil, can reference a table in any catalog.
-		Catalog *string
-		// DBSchema specifies the database schema the table belongs to.
-		// An empty string refers to a table which does not belong to
-		// a database schema.
-		// If nil, can reference a table in any database schema.
-		DBSchema *string
-		// Table is the name of the table that is being referenced.
-		Table string
-	}
-
-	// CrossTableRef contains a reference to a Primary Key table
-	// and a Foreign Key table.
-	CrossTableRef struct {
-		PKRef TableRef
-		FKRef TableRef
-	}
-
-	// since we are hiding the Protobuf internals in an internal
-	// package, we need to provide enum values for the SqlInfo enum here
-	SqlInfo uint32
-
-	// SubstraitPlan represents a plan to be executed, along with
-	// the associated metadata
-	SubstraitPlan struct {
-		// the serialized plan
-		Plan []byte
-		// the substrait release, e.g. "0.23.0"
-		Version string
-	}
-
-	// ExecuteIngestOpts contains the options for executing a bulk ingestion:
-	//
-	// Required:
-	// - TableDefinitionOptions: Specifies the behavior for creating or updating table definitions
-	// - Table: The destination table to load into
-	//
-	// Optional:
-	// - Schema: The DB schema containing the destination table
-	// - Catalog: The catalog containing the destination table
-	// - Temporary: Use a temporary table as the destination
-	// - TransactionId: Ingest as part of this transaction
-	// - Options: Additional, backend-specific options
-	ExecuteIngestOpts pb.CommandStatementIngest
-)
-
-// SqlInfo enum values
-const (
-	// Server Information
-	// Values [0-500): Provide information about the Flight SQL Server itself
-
-	// Retrieves a UTF-8 string with the name of the Flight SQL Server.
-	SqlInfoFlightSqlServerName = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_NAME)
-	// Retrieves a UTF-8 string with the native version of the Flight SQL Server.
-	SqlInfoFlightSqlServerVersion = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_VERSION)
-	// Retrieves a UTF-8 string with the Arrow format version of the Flight SQL Server.
-	SqlInfoFlightSqlServerArrowVersion = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_ARROW_VERSION)
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server is read only.
-	//
-	// Returns:
-	// - false: if read-write
-	// - true: if read only
-	SqlInfoFlightSqlServerReadOnly = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_READ_ONLY)
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports executing
-	// SQL queries.
-	//
-	// Note that the absence of this info (as opposed to a false value) does not necessarily
-	// mean that SQL is not supported, as this property was not originally defined.
-	SqlInfoFlightSqlServerSql = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_SQL)
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports executing
-	// Substrait plans.
-	SqlInfoFlightSqlServerSubstrait = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_SUBSTRAIT)
-
-	// Retrieves a string value indicating the minimum supported Substrait version, or null
-	// if Substrait is not supported.
-	SqlInfoFlightSqlServerSubstraitMinVersion = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION)
-
-	// Retrieves a string value indicating the maximum supported Substrait version, or null
-	// if Substrait is not supported.
-	SqlInfoFlightSqlServerSubstraitMaxVersion = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION)
-
-	// Retrieves an int32 indicating whether the Flight SQL Server supports the
-	// BeginTransaction/EndTransaction/BeginSavepoint/EndSavepoint actions.
-	//
-	// Even if this is not supported, the database may still support explicit "BEGIN
-	// TRANSACTION"/"COMMIT" SQL statements (see SQL_TRANSACTIONS_SUPPORTED); this property
-	// is only about whether the server implements the Flight SQL API endpoints.
-	//
-	// The possible values are listed in `SqlSupportedTransaction`.
-	SqlInfoFlightSqlServerTransaction = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_TRANSACTION)
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports explicit
-	// query cancellation (the CancelQuery action).
-	SqlInfoFlightSqlServerCancel = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_CANCEL)
-
-	// Retrieves an int32 indicating the timeout (in milliseconds) for prepared statement handles.
-	//
-	// If 0, there is no timeout.  Servers should reset the timeout when the handle is used in a command.
-	SqlInfoFlightSqlServerStatementTimeout = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT)
-
-	// Retrieves an int32 indicating the timeout (in milliseconds) for transactions, since transactions are not tied to a connection.
-	//
-	// If 0, there is no timeout.  Servers should reset the timeout when the handle is used in a command.
-	SqlInfoFlightSqlServerTransactionTimeout = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT)
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports executing
-	// bulk ingestion.
-	SqlInfoFlightSqlServerBulkIngestion = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_BULK_INGESTION)
-	// Retrieves a boolean value indicating whether transactions are supported for bulk ingestion. If not, invoking
-	// the method commit in the context of a bulk ingestion is a noop, and the isolation level is
-	// `arrow.flight.protocol.sql.SqlTransactionIsolationLevel.TRANSACTION_NONE`.
-	//
-	// Returns:
-	// - false: if bulk ingestion transactions are unsupported;
-	// - true: if bulk ingestion transactions are supported.
-	SqlInfoFlightSqlServerIngestTransactionsSupported = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_INGEST_TRANSACTIONS_SUPPORTED)
-
-	// SQL Syntax Information
-	// Values [500-1000): provide information about the supported SQL Syntax
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports CREATE and DROP of catalogs.
-	//
-	// Returns:
-	// - false: if it doesn't support CREATE and DROP of catalogs.
-	// - true: if it supports CREATE and DROP of catalogs.
-	SqlInfoDDLCatalog = SqlInfo(pb.SqlInfo_SQL_DDL_CATALOG)
-
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports CREATE and DROP of schemas.
-	//
-	// Returns:
-	// - false: if it doesn't support CREATE and DROP of schemas.
-	// - true: if it supports CREATE and DROP of schemas.
-	SqlInfoDDLSchema = SqlInfo(pb.SqlInfo_SQL_DDL_SCHEMA)
-
-	// Indicates whether the Flight SQL Server supports CREATE and DROP of tables.
-	//
-	// Returns:
-	// - false: if it doesn't support CREATE and DROP of tables.
-	// - true: if it supports CREATE and DROP of tables.
-	SqlInfoDDLTable = SqlInfo(pb.SqlInfo_SQL_DDL_TABLE)
-
-	// Retrieves a int32 ordinal representing the case sensitivity of catalog, table, schema and table names.
-	//
-	// The possible values are listed in `arrow.flight.protocol.sql.SqlSupportedCaseSensitivity`.
-	SqlInfoIdentifierCase = SqlInfo(pb.SqlInfo_SQL_IDENTIFIER_CASE)
-	// Retrieves a UTF-8 string with the supported character(s) used to surround a delimited identifier.
-	SqlInfoIdentifierQuoteChar = SqlInfo(pb.SqlInfo_SQL_IDENTIFIER_QUOTE_CHAR)
-
-	// Retrieves a int32 describing the case sensitivity of quoted identifiers.
-	//
-	// The possible values are listed in `arrow.flight.protocol.sql.SqlSupportedCaseSensitivity`.
-	SqlInfoQuotedIdentifierCase = SqlInfo(pb.SqlInfo_SQL_QUOTED_IDENTIFIER_CASE)
-
-	// Retrieves a boolean value indicating whether all tables are selectable.
-	//
-	// Returns:
-	// - false: if not all tables are selectable or if none are;
-	// - true: if all tables are selectable.
-	SqlInfoAllTablesAreASelectable = SqlInfo(pb.SqlInfo_SQL_ALL_TABLES_ARE_SELECTABLE)
-
-	// Retrieves the null ordering.
-	//
-	// Returns a int32 ordinal for the null ordering being used, as described in
-	// `arrow.flight.protocol.sql.SqlNullOrdering`.
-	SqlInfoNullOrdering = SqlInfo(pb.SqlInfo_SQL_NULL_ORDERING)
-	// Retrieves a UTF-8 string list with values of the supported keywords.
-	SqlInfoKeywords = SqlInfo(pb.SqlInfo_SQL_KEYWORDS)
-	// Retrieves a UTF-8 string list with values of the supported numeric functions.
-	SqlInfoNumericFunctions = SqlInfo(pb.SqlInfo_SQL_NUMERIC_FUNCTIONS)
-	// Retrieves a UTF-8 string list with values of the supported string functions.
-	SqlInfoStringFunctions = SqlInfo(pb.SqlInfo_SQL_STRING_FUNCTIONS)
-	// Retrieves a UTF-8 string list with values of the supported system functions.
-	SqlInfoSystemFunctions = SqlInfo(pb.SqlInfo_SQL_SYSTEM_FUNCTIONS)
-	// Retrieves a UTF-8 string list with values of the supported datetime functions.
-	SqlInfoDateTimeFunctions = SqlInfo(pb.SqlInfo_SQL_DATETIME_FUNCTIONS)
-
-	// Retrieves the UTF-8 string that can be used to escape wildcard characters.
-	// This is the string that can be used to escape '_' or '%' in the catalog search parameters that are a pattern
-	// (and therefore use one of the wildcard characters).
-	// The '_' character represents any single character; the '%' character represents any sequence of zero or more
-	// characters.
-	SqlInfoSearchStringEscape = SqlInfo(pb.SqlInfo_SQL_SEARCH_STRING_ESCAPE)
-
-	// Retrieves a UTF-8 string with all the "extra" characters that can be used in unquoted identifier names
-	// (those beyond a-z, A-Z, 0-9 and _).
-	SqlInfoExtraNameChars = SqlInfo(pb.SqlInfo_SQL_EXTRA_NAME_CHARACTERS)
-
-	// Retrieves a boolean value indicating whether column aliasing is supported.
-	// If so, the SQL AS clause can be used to provide names for computed columns or to provide alias names for columns
-	// as required.
-	//
-	// Returns:
-	// - false: if column aliasing is unsupported;
-	// - true: if column aliasing is supported.
-	SqlInfoSupportsColumnAliasing = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_COLUMN_ALIASING)
-
-	// Retrieves a boolean value indicating whether concatenations between null and non-null values being
-	// null are supported.
-	//
-	// - Returns:
-	// - false: if concatenations between null and non-null values being null are unsupported;
-	// - true: if concatenations between null and non-null values being null are supported.
-	SqlInfoNullPlusNullIsNull = SqlInfo(pb.SqlInfo_SQL_NULL_PLUS_NULL_IS_NULL)
-
-	// Retrieves a map where the key is the type to convert from and the value is a list with the types to convert to,
-	// indicating the supported conversions. Each key and each item on the list value is a value to a predefined type on
-	// SqlSupportsConvert enum.
-	// The returned map will be:  map<int32, list<int32>>
-	SqlInfoSupportsConvert = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_CONVERT)
-
-	// Retrieves a boolean value indicating whether, when table correlation names are supported,
-	// they are restricted to being different from the names of the tables.
-	//
-	// Returns:
-	// - false: if table correlation names are unsupported;
-	// - true: if table correlation names are supported.
-	SqlInfoSupportsTableCorrelationNames = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_TABLE_CORRELATION_NAMES)
-
-	// Retrieves a boolean value indicating whether, when table correlation names are supported,
-	// they are restricted to being different from the names of the tables.
-	//
-	// Returns:
-	// - false: if different table correlation names are unsupported;
-	// - true: if different table correlation names are supported
-	SqlInfoSupportsDifferentTableCorrelationNames = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES)
-
-	// Retrieves a boolean value indicating whether expressions in ORDER BY lists are supported.
-	//
-	// Returns:
-	// - false: if expressions in ORDER BY are unsupported;
-	// - true: if expressions in ORDER BY are supported;
-	SqlInfoSupportsExpressionsInOrderBy = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY)
-
-	// Retrieves a boolean value indicating whether using a column that is not in the SELECT statement in a GROUP BY
-	// clause is supported.
-	//
-	// Returns:
-	// - false: if using a column that is not in the SELECT statement in a GROUP BY clause is unsupported;
-	// - true: if using a column that is not in the SELECT statement in a GROUP BY clause is supported.
-	SqlInfoSupportsOrderByUnrelated = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_ORDER_BY_UNRELATED)
-
-	// Retrieves the supported GROUP BY commands;
-	//
-	// Returns an int32 bitmask value representing the supported commands.
-	// The returned bitmask should be parsed in order to retrieve the supported commands.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (GROUP BY is unsupported);
-	// - return 1 (\b1)   => [SQL_GROUP_BY_UNRELATED];
-	// - return 2 (\b10)  => [SQL_GROUP_BY_BEYOND_SELECT];
-	// - return 3 (\b11)  => [SQL_GROUP_BY_UNRELATED, SQL_GROUP_BY_BEYOND_SELECT].
-	// Valid GROUP BY types are described under `arrow.flight.protocol.sql.SqlSupportedGroupBy`.
-	SqlInfoSupportedGroupBy = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_GROUP_BY)
-
-	// Retrieves a boolean value indicating whether specifying a LIKE escape clause is supported.
-	//
-	// Returns:
-	// - false: if specifying a LIKE escape clause is unsupported;
-	// - true: if specifying a LIKE escape clause is supported.
-	SqlInfoSupportsLikeEscapeClause = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE)
-
-	// Retrieves a boolean value indicating whether columns may be defined as non-nullable.
-	//
-	// Returns:
-	// - false: if columns cannot be defined as non-nullable;
-	// - true: if columns may be defined as non-nullable.
-	SqlInfoSupportsNonNullableColumns = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_NON_NULLABLE_COLUMNS)
-
-	// Retrieves the supported SQL grammar level as per the ODBC specification.
-	//
-	// Returns an int32 bitmask value representing the supported SQL grammar level.
-	// The returned bitmask should be parsed in order to retrieve the supported grammar levels.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (SQL grammar is unsupported);
-	// - return 1 (\b1)   => [SQL_MINIMUM_GRAMMAR];
-	// - return 2 (\b10)  => [SQL_CORE_GRAMMAR];
-	// - return 3 (\b11)  => [SQL_MINIMUM_GRAMMAR, SQL_CORE_GRAMMAR];
-	// - return 4 (\b100) => [SQL_EXTENDED_GRAMMAR];
-	// - return 5 (\b101) => [SQL_MINIMUM_GRAMMAR, SQL_EXTENDED_GRAMMAR];
-	// - return 6 (\b110) => [SQL_CORE_GRAMMAR, SQL_EXTENDED_GRAMMAR];
-	// - return 7 (\b111) => [SQL_MINIMUM_GRAMMAR, SQL_CORE_GRAMMAR, SQL_EXTENDED_GRAMMAR].
-	// Valid SQL grammar levels are described under `arrow.flight.protocol.sql.SupportedSqlGrammar`.
-	SqlInfoSupportedGrammar = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_GRAMMAR)
-
-	// Retrieves the supported ANSI92 SQL grammar level.
-	//
-	// Returns an int32 bitmask value representing the supported ANSI92 SQL grammar level.
-	// The returned bitmask should be parsed in order to retrieve the supported commands.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (ANSI92 SQL grammar is unsupported);
-	// - return 1 (\b1)   => [ANSI92_ENTRY_SQL];
-	// - return 2 (\b10)  => [ANSI92_INTERMEDIATE_SQL];
-	// - return 3 (\b11)  => [ANSI92_ENTRY_SQL, ANSI92_INTERMEDIATE_SQL];
-	// - return 4 (\b100) => [ANSI92_FULL_SQL];
-	// - return 5 (\b101) => [ANSI92_ENTRY_SQL, ANSI92_FULL_SQL];
-	// - return 6 (\b110) => [ANSI92_INTERMEDIATE_SQL, ANSI92_FULL_SQL];
-	// - return 7 (\b111) => [ANSI92_ENTRY_SQL, ANSI92_INTERMEDIATE_SQL, ANSI92_FULL_SQL].
-	// Valid ANSI92 SQL grammar levels are described under `arrow.flight.protocol.sql.SupportedAnsi92SqlGrammarLevel`.
-	SqlInfoANSI92SupportedLevel = SqlInfo(pb.SqlInfo_SQL_ANSI92_SUPPORTED_LEVEL)
-
-	// Retrieves a boolean value indicating whether the SQL Integrity Enhancement Facility is supported.
-	//
-	// Returns:
-	// - false: if the SQL Integrity Enhancement Facility is supported;
-	// - true: if the SQL Integrity Enhancement Facility is supported.
-	SqlInfoSupportsIntegrityEnhancementFacility = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY)
-
-	// Retrieves the support level for SQL OUTER JOINs.
-	//
-	// Returns a int32 ordinal for the SQL ordering being used, as described in
-	// `arrow.flight.protocol.sql.SqlOuterJoinsSupportLevel`.
-	SqlInfoOuterJoinsSupportLevel = SqlInfo(pb.SqlInfo_SQL_OUTER_JOINS_SUPPORT_LEVEL)
-
-	// Retrieves a UTF-8 string with the preferred term for "schema".
-	SqlInfoSchemaTerm = SqlInfo(pb.SqlInfo_SQL_SCHEMA_TERM)
-	// Retrieves a UTF-8 string with the preferred term for "procedure".
-	SqlInfoProcedureTerm = SqlInfo(pb.SqlInfo_SQL_PROCEDURE_TERM)
-
-	// Retrieves a UTF-8 string with the preferred term for "catalog".
-	// If a empty string is returned its assumed that the server does NOT supports catalogs.
-	SqlInfoCatalogTerm = SqlInfo(pb.SqlInfo_SQL_CATALOG_TERM)
-
-	// Retrieves a boolean value indicating whether a catalog appears at the start of a fully qualified table name.
-	//
-	// - false: if a catalog does not appear at the start of a fully qualified table name;
-	// - true: if a catalog appears at the start of a fully qualified table name.
-	SqlInfoCatalogAtStart = SqlInfo(pb.SqlInfo_SQL_CATALOG_AT_START)
-
-	// Retrieves the supported actions for a SQL schema.
-	//
-	// Returns an int32 bitmask value representing the supported actions for a SQL schema.
-	// The returned bitmask should be parsed in order to retrieve the supported actions for a SQL schema.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported actions for SQL schema);
-	// - return 1 (\b1)   => [SQL_ELEMENT_IN_PROCEDURE_CALLS];
-	// - return 2 (\b10)  => [SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 3 (\b11)  => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 4 (\b100) => [SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 5 (\b101) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 6 (\b110) => [SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 7 (\b111) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS].
-	// Valid actions for a SQL schema described under `arrow.flight.protocol.sql.SqlSupportedElementActions`.
-	SqlInfoSchemasSupportedActions = SqlInfo(pb.SqlInfo_SQL_SCHEMAS_SUPPORTED_ACTIONS)
-
-	// Retrieves the supported actions for a SQL schema.
-	//
-	// Returns an int32 bitmask value representing the supported actions for a SQL catalog.
-	// The returned bitmask should be parsed in order to retrieve the supported actions for a SQL catalog.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported actions for SQL catalog);
-	// - return 1 (\b1)   => [SQL_ELEMENT_IN_PROCEDURE_CALLS];
-	// - return 2 (\b10)  => [SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 3 (\b11)  => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 4 (\b100) => [SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 5 (\b101) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 6 (\b110) => [SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 7 (\b111) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS].
-	// Valid actions for a SQL catalog are described under `arrow.flight.protocol.sql.SqlSupportedElementActions`.
-	SqlInfoCatalogsSupportedActions = SqlInfo(pb.SqlInfo_SQL_CATALOGS_SUPPORTED_ACTIONS)
-
-	// Retrieves the supported SQL positioned commands.
-	//
-	// Returns an int32 bitmask value representing the supported SQL positioned commands.
-	// The returned bitmask should be parsed in order to retrieve the supported SQL positioned commands.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported SQL positioned commands);
-	// - return 1 (\b1)   => [SQL_POSITIONED_DELETE];
-	// - return 2 (\b10)  => [SQL_POSITIONED_UPDATE];
-	// - return 3 (\b11)  => [SQL_POSITIONED_DELETE, SQL_POSITIONED_UPDATE].
-	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlSupportedPositionedCommands`.
-	SqlInfoSupportedPositionedCommands = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_POSITIONED_COMMANDS)
-
-	// Retrieves a boolean value indicating whether SELECT FOR UPDATE statements are supported.
-	//
-	// Returns:
-	// - false: if SELECT FOR UPDATE statements are unsupported;
-	// - true: if SELECT FOR UPDATE statements are supported.
-	SqlInfoSelectForUpdateSupported = SqlInfo(pb.SqlInfo_SQL_SELECT_FOR_UPDATE_SUPPORTED)
-
-	// Retrieves a boolean value indicating whether stored procedure calls that use the stored procedure escape syntax
-	// are supported.
-	//
-	// Returns:
-	// - false: if stored procedure calls that use the stored procedure escape syntax are unsupported;
-	// - true: if stored procedure calls that use the stored procedure escape syntax are supported.
-	SqlInfoStoredProceduresSupported = SqlInfo(pb.SqlInfo_SQL_STORED_PROCEDURES_SUPPORTED)
-
-	// Retrieves the supported SQL subqueries.
-	//
-	// Returns an int32 bitmask value representing the supported SQL subqueries.
-	// The returned bitmask should be parsed in order to retrieve the supported SQL subqueries.
-	//
-	// For instance:
-	// - return 0   (\b0)     => [] (no supported SQL subqueries);
-	// - return 1   (\b1)     => [SQL_SUBQUERIES_IN_COMPARISONS];
-	// - return 2   (\b10)    => [SQL_SUBQUERIES_IN_EXISTS];
-	// - return 3   (\b11)    => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS];
-	// - return 4   (\b100)   => [SQL_SUBQUERIES_IN_INS];
-	// - return 5   (\b101)   => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_INS];
-	// - return 6   (\b110)   => [SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_EXISTS];
-	// - return 7   (\b111)   => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS];
-	// - return 8   (\b1000)  => [SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 9   (\b1001)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 10  (\b1010)  => [SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 11  (\b1011)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 12  (\b1100)  => [SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 13  (\b1101)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 14  (\b1110)  => [SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 15  (\b1111)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - ...
-	// Valid SQL subqueries are described under `arrow.flight.protocol.sql.SqlSupportedSubqueries`.
-	SqlInfoSupportedSubqueries = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_SUBQUERIES)
-
-	// Retrieves a boolean value indicating whether correlated subqueries are supported.
-	//
-	// Returns:
-	// - false: if correlated subqueries are unsupported;
-	// - true: if correlated subqueries are supported.
-	SqlInfoCorrelatedSubqueriesSupported = SqlInfo(pb.SqlInfo_SQL_CORRELATED_SUBQUERIES_SUPPORTED)
-
-	// Retrieves the supported SQL UNIONs.
-	//
-	// Returns an int32 bitmask value representing the supported SQL UNIONs.
-	// The returned bitmask should be parsed in order to retrieve the supported SQL UNIONs.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported SQL positioned commands);
-	// - return 1 (\b1)   => [SQL_UNION];
-	// - return 2 (\b10)  => [SQL_UNION_ALL];
-	// - return 3 (\b11)  => [SQL_UNION, SQL_UNION_ALL].
-	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlSupportedUnions`.
-	SqlInfoSupportedUnions = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_UNIONS)
-
-	// Retrieves a int64 value representing the maximum number of hex characters allowed in an inline binary literal.
-	SqlInfoMaxBinaryLiteralLen = SqlInfo(pb.SqlInfo_SQL_MAX_BINARY_LITERAL_LENGTH)
-	// Retrieves a int64 value representing the maximum number of characters allowed for a character literal.
-	SqlInfoMaxCharLiteralLen = SqlInfo(pb.SqlInfo_SQL_MAX_CHAR_LITERAL_LENGTH)
-	// Retrieves a int64 value representing the maximum number of characters allowed for a column name.
-	SqlInfoMaxColumnNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMN_NAME_LENGTH)
-	// Retrieves a int64 value representing the maximum number of columns allowed in a GROUP BY clause.
-	SqlInfoMaxColumnsInGroupBy = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_GROUP_BY)
-	// Retrieves a int64 value representing the maximum number of columns allowed in an index.
-	SqlInfoMaxColumnsInIndex = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_INDEX)
-	// Retrieves a int64 value representing the maximum number of columns allowed in an ORDER BY clause.
-	SqlInfoMaxColumnsInOrderBy = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_ORDER_BY)
-	// Retrieves a int64 value representing the maximum number of columns allowed in a SELECT list.
-	SqlInfoMaxColumnsInSelect = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_SELECT)
-	// Retrieves a int64 value representing the maximum number of columns allowed in a table.
-	SqlInfoMaxColumnsInTable = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_TABLE)
-	// Retrieves a int64 value representing the maximum number of concurrent connections possible.
-	SqlInfoMaxConnections = SqlInfo(pb.SqlInfo_SQL_MAX_CONNECTIONS)
-	// Retrieves a int64 value the maximum number of characters allowed in a cursor name.
-	SqlInfoMaxCursorNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_CURSOR_NAME_LENGTH)
-
-	// Retrieves a int64 value representing the maximum number of bytes allowed for an index,
-	// including all of the parts of the index.
-	SqlInfoMaxIndexLen = SqlInfo(pb.SqlInfo_SQL_MAX_INDEX_LENGTH)
-	// Retrieves a int64 value representing the maximum number of characters allowed in a schema name.
-	SqlInfoDBSchemaNameLen = SqlInfo(pb.SqlInfo_SQL_DB_SCHEMA_NAME_LENGTH)
-	// Retrieves a int64 value representing the maximum number of characters allowed in a procedure name.
-	SqlInfoMaxProcedureNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_PROCEDURE_NAME_LENGTH)
-	// Retrieves a int64 value representing the maximum number of characters allowed in a catalog name.
-	SqlInfoMaxCatalogNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_CATALOG_NAME_LENGTH)
-	// Retrieves a int64 value representing the maximum number of bytes allowed in a single row.
-	SqlInfoMaxRowSize = SqlInfo(pb.SqlInfo_SQL_MAX_ROW_SIZE)
-
-	// Retrieves a boolean indicating whether the return value for the JDBC method getMaxRowSize includes the SQL
-	// data types LONGVARCHAR and LONGVARBINARY.
-	//
-	// Returns:
-	// - false: if return value for the JDBC method getMaxRowSize does
-	//          not include the SQL data types LONGVARCHAR and LONGVARBINARY;
-	// - true: if return value for the JDBC method getMaxRowSize includes
-	//         the SQL data types LONGVARCHAR and LONGVARBINARY.
-	SqlInfoMaxRowSizeIncludesBlobs = SqlInfo(pb.SqlInfo_SQL_MAX_ROW_SIZE_INCLUDES_BLOBS)
-
-	// Retrieves a int64 value representing the maximum number of characters allowed for an SQL statement;
-	// a result of 0 (zero) means that there is no limit or the limit is not known.
-	SqlInfoMaxStatementLen = SqlInfo(pb.SqlInfo_SQL_MAX_STATEMENT_LENGTH)
-	// Retrieves a int64 value representing the maximum number of active statements that can be open at the same time.
-	SqlInfoMaxStatements = SqlInfo(pb.SqlInfo_SQL_MAX_STATEMENTS)
-	// Retrieves a int64 value representing the maximum number of characters allowed in a table name.
-	SqlInfoMaxTableNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_TABLE_NAME_LENGTH)
-	// Retrieves a int64 value representing the maximum number of tables allowed in a SELECT statement.
-	SqlInfoMaxTablesInSelect = SqlInfo(pb.SqlInfo_SQL_MAX_TABLES_IN_SELECT)
-	// Retrieves a int64 value representing the maximum number of characters allowed in a user name.
-	SqlInfoMaxUsernameLen = SqlInfo(pb.SqlInfo_SQL_MAX_USERNAME_LENGTH)
-
-	// Retrieves this database's default transaction isolation level as described in
-	// `arrow.flight.protocol.sql.SqlTransactionIsolationLevel`.
-	//
-	// Returns a int32 ordinal for the SQL transaction isolation level.
-	SqlInfoDefaultTransactionIsolation = SqlInfo(pb.SqlInfo_SQL_DEFAULT_TRANSACTION_ISOLATION)
-
-	// Retrieves a boolean value indicating whether transactions are supported. If not, invoking the method commit is a
-	// noop, and the isolation level is `arrow.flight.protocol.sql.SqlTransactionIsolationLevel.TRANSACTION_NONE`.
-	//
-	// Returns:
-	// - false: if transactions are unsupported;
-	// - true: if transactions are supported.
-	SqlInfoTransactionsSupported = SqlInfo(pb.SqlInfo_SQL_TRANSACTIONS_SUPPORTED)
-
-	// Retrieves the supported transactions isolation levels.
-	//
-	// Returns an int32 bitmask value representing the supported transactions isolation levels.
-	// The returned bitmask should be parsed in order to retrieve the supported transactions isolation levels.
-	//
-	// For instance:
-	// - return 0   (\b0)     => [] (no supported SQL transactions isolation levels);
-	// - return 1   (\b1)     => [SQL_TRANSACTION_NONE];
-	// - return 2   (\b10)    => [SQL_TRANSACTION_READ_UNCOMMITTED];
-	// - return 3   (\b11)    => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED];
-	// - return 4   (\b100)   => [SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 5   (\b101)   => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 6   (\b110)   => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 7   (\b111)   => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 8   (\b1000)  => [SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 9   (\b1001)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 10  (\b1010)  => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 11  (\b1011)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 12  (\b1100)  => [SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 13  (\b1101)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 14  (\b1110)  => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 15  (\b1111)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 16  (\b10000) => [SQL_TRANSACTION_SERIALIZABLE];
-	// - ...
-	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlTransactionIsolationLevel`.
-	SqlInfoSupportedTransactionsIsolationlevels = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS)
-
-	// Retrieves a boolean value indicating whether a data definition statement within a transaction forces
-	// the transaction to commit.
-	//
-	// Returns:
-	// - false: if a data definition statement within a transaction does not force the transaction to commit;
-	// - true: if a data definition statement within a transaction forces the transaction to commit.
-	SqlInfoDataDefinitionCausesTransactionCommit = SqlInfo(pb.SqlInfo_SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT)
-
-	// Retrieves a boolean value indicating whether a data definition statement within a transaction is ignored.
-	//
-	// Returns:
-	// - false: if a data definition statement within a transaction is taken into account;
-	// - true: a data definition statement within a transaction is ignored.
-	SqlInfoDataDefinitionsInTransactionsIgnored = SqlInfo(pb.SqlInfo_SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED)
-
-	// Retrieves an int32 bitmask value representing the supported result set types.
-	// The returned bitmask should be parsed in order to retrieve the supported result set types.
-	//
-	// For instance:
-	// - return 0   (\b0)     => [] (no supported result set types);
-	// - return 1   (\b1)     => [SQL_RESULT_SET_TYPE_UNSPECIFIED];
-	// - return 2   (\b10)    => [SQL_RESULT_SET_TYPE_FORWARD_ONLY];
-	// - return 3   (\b11)    => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_FORWARD_ONLY];
-	// - return 4   (\b100)   => [SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 5   (\b101)   => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 6   (\b110)   => [SQL_RESULT_SET_TYPE_FORWARD_ONLY, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 7   (\b111)   => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_FORWARD_ONLY, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 8   (\b1000)  => [SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE];
-	// - ...
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetType`.
-	SqlInfoSupportedResultSetTypes = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_RESULT_SET_TYPES)
-
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_UNSPECIFIED`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfoSupportedConcurrenciesForResultSetUnspecified = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_UNSPECIFIED)
-
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_FORWARD_ONLY`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfoSupportedConcurrenciesForResultSetForwardOnly = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_FORWARD_ONLY)
-
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfoSupportedConcurrenciesForResultSetScrollSensitive = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_SENSITIVE)
-
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfoSupportedConcurrenciesForResultSetScrollInsensitive = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_INSENSITIVE)
-
-	// Retrieves a boolean value indicating whether this database supports batch updates.
-	//
-	// - false: if this database does not support batch updates;
-	// - true: if this database supports batch updates.
-	SqlInfoBatchUpdatesSupported = SqlInfo(pb.SqlInfo_SQL_BATCH_UPDATES_SUPPORTED)
-
-	// Retrieves a boolean value indicating whether this database supports savepoints.
-	//
-	// Returns:
-	// - false: if this database does not support savepoints;
-	// - true: if this database supports savepoints.
-	SqlInfoSavePointsSupported = SqlInfo(pb.SqlInfo_SQL_SAVEPOINTS_SUPPORTED)
-
-	// Retrieves a boolean value indicating whether named parameters are supported in callable statements.
-	//
-	// Returns:
-	// - false: if named parameters in callable statements are unsupported;
-	// - true: if named parameters in callable statements are supported.
-	SqlInfoNamedParametersSupported = SqlInfo(pb.SqlInfo_SQL_NAMED_PARAMETERS_SUPPORTED)
-
-	// Retrieves a boolean value indicating whether updates made to a LOB are made on a copy or directly to the LOB.
-	//
-	// Returns:
-	// - false: if updates made to a LOB are made directly to the LOB;
-	// - true: if updates made to a LOB are made on a copy.
-	SqlInfoLocatorsUpdateCopy = SqlInfo(pb.SqlInfo_SQL_LOCATORS_UPDATE_COPY)
-
-	// Retrieves a boolean value indicating whether invoking user-defined or vendor functions
-	// using the stored procedure escape syntax is supported.
-	//
-	// Returns:
-	// - false: if invoking user-defined or vendor functions using the stored procedure escape syntax is unsupported;
-	// - true: if invoking user-defined or vendor functions using the stored procedure escape syntax is supported.
-	SqlInfoStoredFunctionsUsingCallSyntaxSupported = SqlInfo(pb.SqlInfo_SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED)
-)
-
-func (s SqlInfo) String() string { return pb.SqlInfo(int32(s)).String() }
-
-type SqlSupportedTransaction = pb.SqlSupportedTransaction
-
-const (
-	// Unknown/not indicated/no support
-	SqlTransactionNone = pb.SqlSupportedTransaction_SQL_SUPPORTED_TRANSACTION_NONE
-	// Transactions, but not savepoints.
-	// a savepoint is a mark within a transaction that can be individually
-	// rolled back to. Not all databases support savepoints.
-	SqlTransactionTransaction = pb.SqlSupportedTransaction_SQL_SUPPORTED_TRANSACTION_TRANSACTION
-	// Transactions AND Savepoints supported
-	SqlTransactionSavepoint = pb.SqlSupportedTransaction_SQL_SUPPORTED_TRANSACTION_SAVEPOINT
-)
-
-// SqlSupportedCaseSensitivity indicates whether something
-// (e.g. an identifier) is case-sensitive
-//
-// duplicated from protobuf to avoid relying directly on the protobuf
-// generated code, also making them shorter and easier to use
-type SqlSupportedCaseSensitivity = pb.SqlSupportedCaseSensitivity
-
-const (
-	SqlCaseSensitivityUnknown         = pb.SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_UNKNOWN
-	SqlCaseSensitivityCaseInsensitive = pb.SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_CASE_INSENSITIVE
-	SqlCaseSensitivityUpperCase       = pb.SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_UPPERCASE
-	SqlCaseSensitivityLowerCase       = pb.SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_LOWERCASE
-)
-
-// SqlNullOrdering indicates how nulls are sorted
-//
-// duplicated from protobuf to avoid relying directly on the protobuf
-// generated code, also making them shorter and easier to use
-type SqlNullOrdering = pb.SqlNullOrdering
-
-const (
-	SqlNullOrderingSortHigh    = pb.SqlNullOrdering_SQL_NULLS_SORTED_HIGH
-	SqlNullOrderingSortLow     = pb.SqlNullOrdering_SQL_NULLS_SORTED_LOW
-	SqlNullOrderingSortAtStart = pb.SqlNullOrdering_SQL_NULLS_SORTED_AT_START
-	SqlNullOrderingSortAtEnd   = pb.SqlNullOrdering_SQL_NULLS_SORTED_AT_END
-)
-
-// SqlSupportsConvert indicates support for converting between different
-// types.
-//
-// duplicated from protobuf to avoid relying directly on the protobuf
-// generated code, also making them shorter and easier to use
-type SqlSupportsConvert = pb.SqlSupportsConvert
-
-const (
-	SqlConvertBigInt            = pb.SqlSupportsConvert_SQL_CONVERT_BIGINT
-	SqlConvertBinary            = pb.SqlSupportsConvert_SQL_CONVERT_BINARY
-	SqlConvertBit               = pb.SqlSupportsConvert_SQL_CONVERT_BIT
-	SqlConvertChar              = pb.SqlSupportsConvert_SQL_CONVERT_CHAR
-	SqlConvertDate              = pb.SqlSupportsConvert_SQL_CONVERT_DATE
-	SqlConvertDecimal           = pb.SqlSupportsConvert_SQL_CONVERT_DECIMAL
-	SqlConvertFloat             = pb.SqlSupportsConvert_SQL_CONVERT_FLOAT
-	SqlConvertInteger           = pb.SqlSupportsConvert_SQL_CONVERT_INTEGER
-	SqlConvertIntervalDayTime   = pb.SqlSupportsConvert_SQL_CONVERT_INTERVAL_DAY_TIME
-	SqlConvertIntervalYearMonth = pb.SqlSupportsConvert_SQL_CONVERT_INTERVAL_YEAR_MONTH
-	SqlConvertLongVarbinary     = pb.SqlSupportsConvert_SQL_CONVERT_LONGVARBINARY
-	SqlConvertLongVarchar       = pb.SqlSupportsConvert_SQL_CONVERT_LONGVARCHAR
-	SqlConvertNumeric           = pb.SqlSupportsConvert_SQL_CONVERT_NUMERIC
-	SqlConvertReal              = pb.SqlSupportsConvert_SQL_CONVERT_REAL
-	SqlConvertSmallInt          = pb.SqlSupportsConvert_SQL_CONVERT_SMALLINT
-	SqlConvertTime              = pb.SqlSupportsConvert_SQL_CONVERT_TIME
-	SqlConvertTimestamp         = pb.SqlSupportsConvert_SQL_CONVERT_TIMESTAMP
-	SqlConvertTinyInt           = pb.SqlSupportsConvert_SQL_CONVERT_TINYINT
-	SqlConvertVarbinary         = pb.SqlSupportsConvert_SQL_CONVERT_VARBINARY
-	SqlConvertVarchar           = pb.SqlSupportsConvert_SQL_CONVERT_VARCHAR
-)
-
-type EndTransactionRequestType = pb.ActionEndTransactionRequest_EndTransaction
-
-const (
-	EndTransactionUnspecified = pb.ActionEndTransactionRequest_END_TRANSACTION_UNSPECIFIED
-	// Commit the transaction
-	EndTransactionCommit = pb.ActionEndTransactionRequest_END_TRANSACTION_COMMIT
-	// Roll back the transaction
-	EndTransactionRollback = pb.ActionEndTransactionRequest_END_TRANSACTION_ROLLBACK
-)
-
-type EndSavepointRequestType = pb.ActionEndSavepointRequest_EndSavepoint
-
-const (
-	EndSavepointUnspecified = pb.ActionEndSavepointRequest_END_SAVEPOINT_UNSPECIFIED
-	// Release the savepoint
-	EndSavepointRelease = pb.ActionEndSavepointRequest_END_SAVEPOINT_RELEASE
-	// Roll back to a savepoint
-	EndSavepointRollback = pb.ActionEndSavepointRequest_END_SAVEPOINT_ROLLBACK
-)
-
-type CancelResult = pb.ActionCancelQueryResult_CancelResult
-
-const (
-	// The cancellation status is unknown. Servers should avoid using
-	// this value (send a NOT_FOUND error if the requested query is
-	// not known). Clients can retry the request.
-	CancelResultUnspecified = pb.ActionCancelQueryResult_CANCEL_RESULT_UNSPECIFIED
-	// The cancellation request is complete. Subsequent requests with
-	// the same payload may return CANCELLED or a NOT_FOUND error.
-	CancelResultCancelled = pb.ActionCancelQueryResult_CANCEL_RESULT_CANCELLED
-	// The cancellation request is in progress. The client may retry
-	// the cancellation request.
-	CancelResultCancelling = pb.ActionCancelQueryResult_CANCEL_RESULT_CANCELLING
-	// The query is not cancellable. The client should not retry the
-	// cancellation request.
-	CancelResultNotCancellable = pb.ActionCancelQueryResult_CANCEL_RESULT_NOT_CANCELLABLE
-)
-
-type CreatePreparedStatementResult = pb.ActionCreatePreparedStatementResult
-
-type (
-	TableDefinitionOptions                    = pb.CommandStatementIngest_TableDefinitionOptions
-	TableDefinitionOptionsTableNotExistOption = pb.CommandStatementIngest_TableDefinitionOptions_TableNotExistOption
-	TableDefinitionOptionsTableExistsOption   = pb.CommandStatementIngest_TableDefinitionOptions_TableExistsOption
-)
-
-const (
-	TableDefinitionOptionsTableNotExistOptionUnspecified = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_UNSPECIFIED
-	TableDefinitionOptionsTableNotExistOptionCreate      = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_CREATE
-	TableDefinitionOptionsTableNotExistOptionFail        = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_FAIL
-
-	TableDefinitionOptionsTableExistsOptionUnspecified = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_UNSPECIFIED
-	TableDefinitionOptionsTableExistsOptionFail        = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_FAIL
-	TableDefinitionOptionsTableExistsOptionAppend      = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_APPEND
-	TableDefinitionOptionsTableExistsOptionReplace     = pb.CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_REPLACE
-)
diff --git a/go/arrow/flight/gen.go b/go/arrow/flight/gen.go
deleted file mode 100644
index 29ae54b38f427..0000000000000
--- a/go/arrow/flight/gen.go
+++ /dev/null
@@ -1,20 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-//go:generate protoc --experimental_allow_proto3_optional -I../../../format --go_out=./gen/flight --go-grpc_out=./gen/flight --go_opt=paths=source_relative --go-grpc_opt=paths=source_relative Flight.proto
-//go:generate protoc --experimental_allow_proto3_optional -I../../../format --go_out=./gen/flight --go-grpc_out=./gen/flight --go_opt=paths=source_relative --go-grpc_opt=paths=source_relative FlightSql.proto
diff --git a/go/arrow/flight/gen/flight/Flight.pb.go b/go/arrow/flight/gen/flight/Flight.pb.go
deleted file mode 100644
index ea35f469116ab..0000000000000
--- a/go/arrow/flight/gen/flight/Flight.pb.go
+++ /dev/null
@@ -1,2832 +0,0 @@
-//
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-// <p>
-// http://www.apache.org/licenses/LICENSE-2.0
-// <p>
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by protoc-gen-go. DO NOT EDIT.
-// versions:
-// 	protoc-gen-go v1.31.0
-// 	protoc        v4.25.3
-// source: Flight.proto
-
-package flight
-
-import (
-	reflect "reflect"
-	sync "sync"
-
-	protoreflect "google.golang.org/protobuf/reflect/protoreflect"
-	protoimpl "google.golang.org/protobuf/runtime/protoimpl"
-	timestamppb "google.golang.org/protobuf/types/known/timestamppb"
-)
-
-const (
-	// Verify that this generated code is sufficiently up-to-date.
-	_ = protoimpl.EnforceVersion(20 - protoimpl.MinVersion)
-	// Verify that runtime/protoimpl is sufficiently up-to-date.
-	_ = protoimpl.EnforceVersion(protoimpl.MaxVersion - 20)
-)
-
-// The result of a cancel operation.
-//
-// This is used by CancelFlightInfoResult.status.
-type CancelStatus int32
-
-const (
-	// The cancellation status is unknown. Servers should avoid using
-	// this value (send a NOT_FOUND error if the requested query is
-	// not known). Clients can retry the request.
-	CancelStatus_CANCEL_STATUS_UNSPECIFIED CancelStatus = 0
-	// The cancellation request is complete. Subsequent requests with
-	// the same payload may return CANCELLED or a NOT_FOUND error.
-	CancelStatus_CANCEL_STATUS_CANCELLED CancelStatus = 1
-	// The cancellation request is in progress. The client may retry
-	// the cancellation request.
-	CancelStatus_CANCEL_STATUS_CANCELLING CancelStatus = 2
-	// The query is not cancellable. The client should not retry the
-	// cancellation request.
-	CancelStatus_CANCEL_STATUS_NOT_CANCELLABLE CancelStatus = 3
-)
-
-// Enum value maps for CancelStatus.
-var (
-	CancelStatus_name = map[int32]string{
-		0: "CANCEL_STATUS_UNSPECIFIED",
-		1: "CANCEL_STATUS_CANCELLED",
-		2: "CANCEL_STATUS_CANCELLING",
-		3: "CANCEL_STATUS_NOT_CANCELLABLE",
-	}
-	CancelStatus_value = map[string]int32{
-		"CANCEL_STATUS_UNSPECIFIED":     0,
-		"CANCEL_STATUS_CANCELLED":       1,
-		"CANCEL_STATUS_CANCELLING":      2,
-		"CANCEL_STATUS_NOT_CANCELLABLE": 3,
-	}
-)
-
-func (x CancelStatus) Enum() *CancelStatus {
-	p := new(CancelStatus)
-	*p = x
-	return p
-}
-
-func (x CancelStatus) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (CancelStatus) Descriptor() protoreflect.EnumDescriptor {
-	return file_Flight_proto_enumTypes[0].Descriptor()
-}
-
-func (CancelStatus) Type() protoreflect.EnumType {
-	return &file_Flight_proto_enumTypes[0]
-}
-
-func (x CancelStatus) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use CancelStatus.Descriptor instead.
-func (CancelStatus) EnumDescriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{0}
-}
-
-// Describes what type of descriptor is defined.
-type FlightDescriptor_DescriptorType int32
-
-const (
-	// Protobuf pattern, not used.
-	FlightDescriptor_UNKNOWN FlightDescriptor_DescriptorType = 0
-	// A named path that identifies a dataset. A path is composed of a string
-	// or list of strings describing a particular dataset. This is conceptually
-	//
-	//	similar to a path inside a filesystem.
-	FlightDescriptor_PATH FlightDescriptor_DescriptorType = 1
-	// An opaque command to generate a dataset.
-	FlightDescriptor_CMD FlightDescriptor_DescriptorType = 2
-)
-
-// Enum value maps for FlightDescriptor_DescriptorType.
-var (
-	FlightDescriptor_DescriptorType_name = map[int32]string{
-		0: "UNKNOWN",
-		1: "PATH",
-		2: "CMD",
-	}
-	FlightDescriptor_DescriptorType_value = map[string]int32{
-		"UNKNOWN": 0,
-		"PATH":    1,
-		"CMD":     2,
-	}
-)
-
-func (x FlightDescriptor_DescriptorType) Enum() *FlightDescriptor_DescriptorType {
-	p := new(FlightDescriptor_DescriptorType)
-	*p = x
-	return p
-}
-
-func (x FlightDescriptor_DescriptorType) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (FlightDescriptor_DescriptorType) Descriptor() protoreflect.EnumDescriptor {
-	return file_Flight_proto_enumTypes[1].Descriptor()
-}
-
-func (FlightDescriptor_DescriptorType) Type() protoreflect.EnumType {
-	return &file_Flight_proto_enumTypes[1]
-}
-
-func (x FlightDescriptor_DescriptorType) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use FlightDescriptor_DescriptorType.Descriptor instead.
-func (FlightDescriptor_DescriptorType) EnumDescriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{12, 0}
-}
-
-type SetSessionOptionsResult_ErrorValue int32
-
-const (
-	// Protobuf deserialization fallback value: The status is unknown or unrecognized.
-	// Servers should avoid using this value. The request may be retried by the client.
-	SetSessionOptionsResult_UNSPECIFIED SetSessionOptionsResult_ErrorValue = 0
-	// The given session option name is invalid.
-	SetSessionOptionsResult_INVALID_NAME SetSessionOptionsResult_ErrorValue = 1
-	// The session option value or type is invalid.
-	SetSessionOptionsResult_INVALID_VALUE SetSessionOptionsResult_ErrorValue = 2
-	// The session option cannot be set.
-	SetSessionOptionsResult_ERROR SetSessionOptionsResult_ErrorValue = 3
-)
-
-// Enum value maps for SetSessionOptionsResult_ErrorValue.
-var (
-	SetSessionOptionsResult_ErrorValue_name = map[int32]string{
-		0: "UNSPECIFIED",
-		1: "INVALID_NAME",
-		2: "INVALID_VALUE",
-		3: "ERROR",
-	}
-	SetSessionOptionsResult_ErrorValue_value = map[string]int32{
-		"UNSPECIFIED":   0,
-		"INVALID_NAME":  1,
-		"INVALID_VALUE": 2,
-		"ERROR":         3,
-	}
-)
-
-func (x SetSessionOptionsResult_ErrorValue) Enum() *SetSessionOptionsResult_ErrorValue {
-	p := new(SetSessionOptionsResult_ErrorValue)
-	*p = x
-	return p
-}
-
-func (x SetSessionOptionsResult_ErrorValue) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SetSessionOptionsResult_ErrorValue) Descriptor() protoreflect.EnumDescriptor {
-	return file_Flight_proto_enumTypes[2].Descriptor()
-}
-
-func (SetSessionOptionsResult_ErrorValue) Type() protoreflect.EnumType {
-	return &file_Flight_proto_enumTypes[2]
-}
-
-func (x SetSessionOptionsResult_ErrorValue) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SetSessionOptionsResult_ErrorValue.Descriptor instead.
-func (SetSessionOptionsResult_ErrorValue) EnumDescriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{22, 0}
-}
-
-type CloseSessionResult_Status int32
-
-const (
-	// Protobuf deserialization fallback value: The session close status is unknown or
-	// not recognized. Servers should avoid using this value (send a NOT_FOUND error if
-	// the requested session is not known or expired). Clients can retry the request.
-	CloseSessionResult_UNSPECIFIED CloseSessionResult_Status = 0
-	// The session close request is complete. Subsequent requests with
-	// the same session produce a NOT_FOUND error.
-	CloseSessionResult_CLOSED CloseSessionResult_Status = 1
-	// The session close request is in progress. The client may retry
-	// the close request.
-	CloseSessionResult_CLOSING CloseSessionResult_Status = 2
-	// The session is not closeable. The client should not retry the
-	// close request.
-	CloseSessionResult_NOT_CLOSEABLE CloseSessionResult_Status = 3
-)
-
-// Enum value maps for CloseSessionResult_Status.
-var (
-	CloseSessionResult_Status_name = map[int32]string{
-		0: "UNSPECIFIED",
-		1: "CLOSED",
-		2: "CLOSING",
-		3: "NOT_CLOSEABLE",
-	}
-	CloseSessionResult_Status_value = map[string]int32{
-		"UNSPECIFIED":   0,
-		"CLOSED":        1,
-		"CLOSING":       2,
-		"NOT_CLOSEABLE": 3,
-	}
-)
-
-func (x CloseSessionResult_Status) Enum() *CloseSessionResult_Status {
-	p := new(CloseSessionResult_Status)
-	*p = x
-	return p
-}
-
-func (x CloseSessionResult_Status) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (CloseSessionResult_Status) Descriptor() protoreflect.EnumDescriptor {
-	return file_Flight_proto_enumTypes[3].Descriptor()
-}
-
-func (CloseSessionResult_Status) Type() protoreflect.EnumType {
-	return &file_Flight_proto_enumTypes[3]
-}
-
-func (x CloseSessionResult_Status) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use CloseSessionResult_Status.Descriptor instead.
-func (CloseSessionResult_Status) EnumDescriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{26, 0}
-}
-
-// The request that a client provides to a server on handshake.
-type HandshakeRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// A defined protocol version
-	ProtocolVersion uint64 `protobuf:"varint,1,opt,name=protocol_version,json=protocolVersion,proto3" json:"protocol_version,omitempty"`
-	// Arbitrary auth/handshake info.
-	Payload []byte `protobuf:"bytes,2,opt,name=payload,proto3" json:"payload,omitempty"`
-}
-
-func (x *HandshakeRequest) Reset() {
-	*x = HandshakeRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[0]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *HandshakeRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*HandshakeRequest) ProtoMessage() {}
-
-func (x *HandshakeRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[0]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use HandshakeRequest.ProtoReflect.Descriptor instead.
-func (*HandshakeRequest) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{0}
-}
-
-func (x *HandshakeRequest) GetProtocolVersion() uint64 {
-	if x != nil {
-		return x.ProtocolVersion
-	}
-	return 0
-}
-
-func (x *HandshakeRequest) GetPayload() []byte {
-	if x != nil {
-		return x.Payload
-	}
-	return nil
-}
-
-type HandshakeResponse struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// A defined protocol version
-	ProtocolVersion uint64 `protobuf:"varint,1,opt,name=protocol_version,json=protocolVersion,proto3" json:"protocol_version,omitempty"`
-	// Arbitrary auth/handshake info.
-	Payload []byte `protobuf:"bytes,2,opt,name=payload,proto3" json:"payload,omitempty"`
-}
-
-func (x *HandshakeResponse) Reset() {
-	*x = HandshakeResponse{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[1]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *HandshakeResponse) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*HandshakeResponse) ProtoMessage() {}
-
-func (x *HandshakeResponse) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[1]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use HandshakeResponse.ProtoReflect.Descriptor instead.
-func (*HandshakeResponse) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{1}
-}
-
-func (x *HandshakeResponse) GetProtocolVersion() uint64 {
-	if x != nil {
-		return x.ProtocolVersion
-	}
-	return 0
-}
-
-func (x *HandshakeResponse) GetPayload() []byte {
-	if x != nil {
-		return x.Payload
-	}
-	return nil
-}
-
-// A message for doing simple auth.
-type BasicAuth struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Username string `protobuf:"bytes,2,opt,name=username,proto3" json:"username,omitempty"`
-	Password string `protobuf:"bytes,3,opt,name=password,proto3" json:"password,omitempty"`
-}
-
-func (x *BasicAuth) Reset() {
-	*x = BasicAuth{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[2]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *BasicAuth) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*BasicAuth) ProtoMessage() {}
-
-func (x *BasicAuth) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[2]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use BasicAuth.ProtoReflect.Descriptor instead.
-func (*BasicAuth) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{2}
-}
-
-func (x *BasicAuth) GetUsername() string {
-	if x != nil {
-		return x.Username
-	}
-	return ""
-}
-
-func (x *BasicAuth) GetPassword() string {
-	if x != nil {
-		return x.Password
-	}
-	return ""
-}
-
-type Empty struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-}
-
-func (x *Empty) Reset() {
-	*x = Empty{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[3]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *Empty) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*Empty) ProtoMessage() {}
-
-func (x *Empty) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[3]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use Empty.ProtoReflect.Descriptor instead.
-func (*Empty) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{3}
-}
-
-// Describes an available action, including both the name used for execution
-// along with a short description of the purpose of the action.
-type ActionType struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Type        string `protobuf:"bytes,1,opt,name=type,proto3" json:"type,omitempty"`
-	Description string `protobuf:"bytes,2,opt,name=description,proto3" json:"description,omitempty"`
-}
-
-func (x *ActionType) Reset() {
-	*x = ActionType{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[4]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionType) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionType) ProtoMessage() {}
-
-func (x *ActionType) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[4]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionType.ProtoReflect.Descriptor instead.
-func (*ActionType) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{4}
-}
-
-func (x *ActionType) GetType() string {
-	if x != nil {
-		return x.Type
-	}
-	return ""
-}
-
-func (x *ActionType) GetDescription() string {
-	if x != nil {
-		return x.Description
-	}
-	return ""
-}
-
-// A service specific expression that can be used to return a limited set
-// of available Arrow Flight streams.
-type Criteria struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Expression []byte `protobuf:"bytes,1,opt,name=expression,proto3" json:"expression,omitempty"`
-}
-
-func (x *Criteria) Reset() {
-	*x = Criteria{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[5]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *Criteria) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*Criteria) ProtoMessage() {}
-
-func (x *Criteria) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[5]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use Criteria.ProtoReflect.Descriptor instead.
-func (*Criteria) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{5}
-}
-
-func (x *Criteria) GetExpression() []byte {
-	if x != nil {
-		return x.Expression
-	}
-	return nil
-}
-
-// An opaque action specific for the service.
-type Action struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Type string `protobuf:"bytes,1,opt,name=type,proto3" json:"type,omitempty"`
-	Body []byte `protobuf:"bytes,2,opt,name=body,proto3" json:"body,omitempty"`
-}
-
-func (x *Action) Reset() {
-	*x = Action{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[6]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *Action) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*Action) ProtoMessage() {}
-
-func (x *Action) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[6]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use Action.ProtoReflect.Descriptor instead.
-func (*Action) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{6}
-}
-
-func (x *Action) GetType() string {
-	if x != nil {
-		return x.Type
-	}
-	return ""
-}
-
-func (x *Action) GetBody() []byte {
-	if x != nil {
-		return x.Body
-	}
-	return nil
-}
-
-// The request of the CancelFlightInfo action.
-//
-// The request should be stored in Action.body.
-type CancelFlightInfoRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Info *FlightInfo `protobuf:"bytes,1,opt,name=info,proto3" json:"info,omitempty"`
-}
-
-func (x *CancelFlightInfoRequest) Reset() {
-	*x = CancelFlightInfoRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[7]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CancelFlightInfoRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CancelFlightInfoRequest) ProtoMessage() {}
-
-func (x *CancelFlightInfoRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[7]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CancelFlightInfoRequest.ProtoReflect.Descriptor instead.
-func (*CancelFlightInfoRequest) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{7}
-}
-
-func (x *CancelFlightInfoRequest) GetInfo() *FlightInfo {
-	if x != nil {
-		return x.Info
-	}
-	return nil
-}
-
-// The request of the RenewFlightEndpoint action.
-//
-// The request should be stored in Action.body.
-type RenewFlightEndpointRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Endpoint *FlightEndpoint `protobuf:"bytes,1,opt,name=endpoint,proto3" json:"endpoint,omitempty"`
-}
-
-func (x *RenewFlightEndpointRequest) Reset() {
-	*x = RenewFlightEndpointRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[8]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *RenewFlightEndpointRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*RenewFlightEndpointRequest) ProtoMessage() {}
-
-func (x *RenewFlightEndpointRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[8]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use RenewFlightEndpointRequest.ProtoReflect.Descriptor instead.
-func (*RenewFlightEndpointRequest) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{8}
-}
-
-func (x *RenewFlightEndpointRequest) GetEndpoint() *FlightEndpoint {
-	if x != nil {
-		return x.Endpoint
-	}
-	return nil
-}
-
-// An opaque result returned after executing an action.
-type Result struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Body []byte `protobuf:"bytes,1,opt,name=body,proto3" json:"body,omitempty"`
-}
-
-func (x *Result) Reset() {
-	*x = Result{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[9]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *Result) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*Result) ProtoMessage() {}
-
-func (x *Result) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[9]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use Result.ProtoReflect.Descriptor instead.
-func (*Result) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{9}
-}
-
-func (x *Result) GetBody() []byte {
-	if x != nil {
-		return x.Body
-	}
-	return nil
-}
-
-// The result of the CancelFlightInfo action.
-//
-// The result should be stored in Result.body.
-type CancelFlightInfoResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Status CancelStatus `protobuf:"varint,1,opt,name=status,proto3,enum=arrow.flight.protocol.CancelStatus" json:"status,omitempty"`
-}
-
-func (x *CancelFlightInfoResult) Reset() {
-	*x = CancelFlightInfoResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[10]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CancelFlightInfoResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CancelFlightInfoResult) ProtoMessage() {}
-
-func (x *CancelFlightInfoResult) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[10]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CancelFlightInfoResult.ProtoReflect.Descriptor instead.
-func (*CancelFlightInfoResult) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{10}
-}
-
-func (x *CancelFlightInfoResult) GetStatus() CancelStatus {
-	if x != nil {
-		return x.Status
-	}
-	return CancelStatus_CANCEL_STATUS_UNSPECIFIED
-}
-
-// Wrap the result of a getSchema call
-type SchemaResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The schema of the dataset in its IPC form:
-	//
-	//	4 bytes - an optional IPC_CONTINUATION_TOKEN prefix
-	//	4 bytes - the byte length of the payload
-	//	a flatbuffer Message whose header is the Schema
-	Schema []byte `protobuf:"bytes,1,opt,name=schema,proto3" json:"schema,omitempty"`
-}
-
-func (x *SchemaResult) Reset() {
-	*x = SchemaResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[11]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SchemaResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SchemaResult) ProtoMessage() {}
-
-func (x *SchemaResult) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[11]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SchemaResult.ProtoReflect.Descriptor instead.
-func (*SchemaResult) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{11}
-}
-
-func (x *SchemaResult) GetSchema() []byte {
-	if x != nil {
-		return x.Schema
-	}
-	return nil
-}
-
-// The name or tag for a Flight. May be used as a way to retrieve or generate
-// a flight or be used to expose a set of previously defined flights.
-type FlightDescriptor struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Type FlightDescriptor_DescriptorType `protobuf:"varint,1,opt,name=type,proto3,enum=arrow.flight.protocol.FlightDescriptor_DescriptorType" json:"type,omitempty"`
-	// Opaque value used to express a command. Should only be defined when
-	// type = CMD.
-	Cmd []byte `protobuf:"bytes,2,opt,name=cmd,proto3" json:"cmd,omitempty"`
-	// List of strings identifying a particular dataset. Should only be defined
-	// when type = PATH.
-	Path []string `protobuf:"bytes,3,rep,name=path,proto3" json:"path,omitempty"`
-}
-
-func (x *FlightDescriptor) Reset() {
-	*x = FlightDescriptor{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[12]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *FlightDescriptor) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*FlightDescriptor) ProtoMessage() {}
-
-func (x *FlightDescriptor) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[12]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use FlightDescriptor.ProtoReflect.Descriptor instead.
-func (*FlightDescriptor) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{12}
-}
-
-func (x *FlightDescriptor) GetType() FlightDescriptor_DescriptorType {
-	if x != nil {
-		return x.Type
-	}
-	return FlightDescriptor_UNKNOWN
-}
-
-func (x *FlightDescriptor) GetCmd() []byte {
-	if x != nil {
-		return x.Cmd
-	}
-	return nil
-}
-
-func (x *FlightDescriptor) GetPath() []string {
-	if x != nil {
-		return x.Path
-	}
-	return nil
-}
-
-// The access coordinates for retrieval of a dataset. With a FlightInfo, a
-// consumer is able to determine how to retrieve a dataset.
-type FlightInfo struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The schema of the dataset in its IPC form:
-	//
-	//	4 bytes - an optional IPC_CONTINUATION_TOKEN prefix
-	//	4 bytes - the byte length of the payload
-	//	a flatbuffer Message whose header is the Schema
-	Schema []byte `protobuf:"bytes,1,opt,name=schema,proto3" json:"schema,omitempty"`
-	// The descriptor associated with this info.
-	FlightDescriptor *FlightDescriptor `protobuf:"bytes,2,opt,name=flight_descriptor,json=flightDescriptor,proto3" json:"flight_descriptor,omitempty"`
-	// A list of endpoints associated with the flight. To consume the
-	// whole flight, all endpoints (and hence all Tickets) must be
-	// consumed. Endpoints can be consumed in any order.
-	//
-	// In other words, an application can use multiple endpoints to
-	// represent partitioned data.
-	//
-	// If the returned data has an ordering, an application can use
-	// "FlightInfo.ordered = true" or should return the all data in a
-	// single endpoint. Otherwise, there is no ordering defined on
-	// endpoints or the data within.
-	//
-	// A client can read ordered data by reading data from returned
-	// endpoints, in order, from front to back.
-	//
-	// Note that a client may ignore "FlightInfo.ordered = true". If an
-	// ordering is important for an application, an application must
-	// choose one of them:
-	//
-	//   - An application requires that all clients must read data in
-	//     returned endpoints order.
-	//   - An application must return the all data in a single endpoint.
-	Endpoint []*FlightEndpoint `protobuf:"bytes,3,rep,name=endpoint,proto3" json:"endpoint,omitempty"`
-	// Set these to -1 if unknown.
-	TotalRecords int64 `protobuf:"varint,4,opt,name=total_records,json=totalRecords,proto3" json:"total_records,omitempty"`
-	TotalBytes   int64 `protobuf:"varint,5,opt,name=total_bytes,json=totalBytes,proto3" json:"total_bytes,omitempty"`
-	// FlightEndpoints are in the same order as the data.
-	Ordered bool `protobuf:"varint,6,opt,name=ordered,proto3" json:"ordered,omitempty"`
-	// Application-defined metadata.
-	//
-	// There is no inherent or required relationship between this
-	// and the app_metadata fields in the FlightEndpoints or resulting
-	// FlightData messages. Since this metadata is application-defined,
-	// a given application could define there to be a relationship,
-	// but there is none required by the spec.
-	AppMetadata []byte `protobuf:"bytes,7,opt,name=app_metadata,json=appMetadata,proto3" json:"app_metadata,omitempty"`
-}
-
-func (x *FlightInfo) Reset() {
-	*x = FlightInfo{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[13]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *FlightInfo) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*FlightInfo) ProtoMessage() {}
-
-func (x *FlightInfo) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[13]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use FlightInfo.ProtoReflect.Descriptor instead.
-func (*FlightInfo) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{13}
-}
-
-func (x *FlightInfo) GetSchema() []byte {
-	if x != nil {
-		return x.Schema
-	}
-	return nil
-}
-
-func (x *FlightInfo) GetFlightDescriptor() *FlightDescriptor {
-	if x != nil {
-		return x.FlightDescriptor
-	}
-	return nil
-}
-
-func (x *FlightInfo) GetEndpoint() []*FlightEndpoint {
-	if x != nil {
-		return x.Endpoint
-	}
-	return nil
-}
-
-func (x *FlightInfo) GetTotalRecords() int64 {
-	if x != nil {
-		return x.TotalRecords
-	}
-	return 0
-}
-
-func (x *FlightInfo) GetTotalBytes() int64 {
-	if x != nil {
-		return x.TotalBytes
-	}
-	return 0
-}
-
-func (x *FlightInfo) GetOrdered() bool {
-	if x != nil {
-		return x.Ordered
-	}
-	return false
-}
-
-func (x *FlightInfo) GetAppMetadata() []byte {
-	if x != nil {
-		return x.AppMetadata
-	}
-	return nil
-}
-
-// The information to process a long-running query.
-type PollInfo struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The currently available results.
-	//
-	// If "flight_descriptor" is not specified, the query is complete
-	// and "info" specifies all results. Otherwise, "info" contains
-	// partial query results.
-	//
-	// Note that each PollInfo response contains a complete
-	// FlightInfo (not just the delta between the previous and current
-	// FlightInfo).
-	//
-	// Subsequent PollInfo responses may only append new endpoints to
-	// info.
-	//
-	// Clients can begin fetching results via DoGet(Ticket) with the
-	// ticket in the info before the query is
-	// completed. FlightInfo.ordered is also valid.
-	Info *FlightInfo `protobuf:"bytes,1,opt,name=info,proto3" json:"info,omitempty"`
-	// The descriptor the client should use on the next try.
-	// If unset, the query is complete.
-	FlightDescriptor *FlightDescriptor `protobuf:"bytes,2,opt,name=flight_descriptor,json=flightDescriptor,proto3" json:"flight_descriptor,omitempty"`
-	// Query progress. If known, must be in [0.0, 1.0] but need not be
-	// monotonic or nondecreasing. If unknown, do not set.
-	Progress *float64 `protobuf:"fixed64,3,opt,name=progress,proto3,oneof" json:"progress,omitempty"`
-	// Expiration time for this request. After this passes, the server
-	// might not accept the retry descriptor anymore (and the query may
-	// be cancelled). This may be updated on a call to PollFlightInfo.
-	ExpirationTime *timestamppb.Timestamp `protobuf:"bytes,4,opt,name=expiration_time,json=expirationTime,proto3" json:"expiration_time,omitempty"`
-}
-
-func (x *PollInfo) Reset() {
-	*x = PollInfo{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[14]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *PollInfo) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*PollInfo) ProtoMessage() {}
-
-func (x *PollInfo) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[14]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use PollInfo.ProtoReflect.Descriptor instead.
-func (*PollInfo) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{14}
-}
-
-func (x *PollInfo) GetInfo() *FlightInfo {
-	if x != nil {
-		return x.Info
-	}
-	return nil
-}
-
-func (x *PollInfo) GetFlightDescriptor() *FlightDescriptor {
-	if x != nil {
-		return x.FlightDescriptor
-	}
-	return nil
-}
-
-func (x *PollInfo) GetProgress() float64 {
-	if x != nil && x.Progress != nil {
-		return *x.Progress
-	}
-	return 0
-}
-
-func (x *PollInfo) GetExpirationTime() *timestamppb.Timestamp {
-	if x != nil {
-		return x.ExpirationTime
-	}
-	return nil
-}
-
-// A particular stream or split associated with a flight.
-type FlightEndpoint struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Token used to retrieve this stream.
-	Ticket *Ticket `protobuf:"bytes,1,opt,name=ticket,proto3" json:"ticket,omitempty"`
-	// A list of URIs where this ticket can be redeemed via DoGet().
-	//
-	// If the list is empty, the expectation is that the ticket can only
-	// be redeemed on the current service where the ticket was
-	// generated.
-	//
-	// If the list is not empty, the expectation is that the ticket can be
-	// redeemed at any of the locations, and that the data returned will be
-	// equivalent. In this case, the ticket may only be redeemed at one of the
-	// given locations, and not (necessarily) on the current service. If one
-	// of the given locations is "arrow-flight-reuse-connection://?", the
-	// client may redeem the ticket on the service where the ticket was
-	// generated (i.e., the same as above), in addition to the other
-	// locations. (This URI was chosen to maximize compatibility, as 'scheme:'
-	// or 'scheme://' are not accepted by Java's java.net.URI.)
-	//
-	// In other words, an application can use multiple locations to
-	// represent redundant and/or load balanced services.
-	Location []*Location `protobuf:"bytes,2,rep,name=location,proto3" json:"location,omitempty"`
-	// Expiration time of this stream. If present, clients may assume
-	// they can retry DoGet requests. Otherwise, it is
-	// application-defined whether DoGet requests may be retried.
-	ExpirationTime *timestamppb.Timestamp `protobuf:"bytes,3,opt,name=expiration_time,json=expirationTime,proto3" json:"expiration_time,omitempty"`
-	// Application-defined metadata.
-	//
-	// There is no inherent or required relationship between this
-	// and the app_metadata fields in the FlightInfo or resulting
-	// FlightData messages. Since this metadata is application-defined,
-	// a given application could define there to be a relationship,
-	// but there is none required by the spec.
-	AppMetadata []byte `protobuf:"bytes,4,opt,name=app_metadata,json=appMetadata,proto3" json:"app_metadata,omitempty"`
-}
-
-func (x *FlightEndpoint) Reset() {
-	*x = FlightEndpoint{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[15]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *FlightEndpoint) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*FlightEndpoint) ProtoMessage() {}
-
-func (x *FlightEndpoint) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[15]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use FlightEndpoint.ProtoReflect.Descriptor instead.
-func (*FlightEndpoint) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{15}
-}
-
-func (x *FlightEndpoint) GetTicket() *Ticket {
-	if x != nil {
-		return x.Ticket
-	}
-	return nil
-}
-
-func (x *FlightEndpoint) GetLocation() []*Location {
-	if x != nil {
-		return x.Location
-	}
-	return nil
-}
-
-func (x *FlightEndpoint) GetExpirationTime() *timestamppb.Timestamp {
-	if x != nil {
-		return x.ExpirationTime
-	}
-	return nil
-}
-
-func (x *FlightEndpoint) GetAppMetadata() []byte {
-	if x != nil {
-		return x.AppMetadata
-	}
-	return nil
-}
-
-// A location where a Flight service will accept retrieval of a particular
-// stream given a ticket.
-type Location struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Uri string `protobuf:"bytes,1,opt,name=uri,proto3" json:"uri,omitempty"`
-}
-
-func (x *Location) Reset() {
-	*x = Location{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[16]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *Location) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*Location) ProtoMessage() {}
-
-func (x *Location) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[16]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use Location.ProtoReflect.Descriptor instead.
-func (*Location) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{16}
-}
-
-func (x *Location) GetUri() string {
-	if x != nil {
-		return x.Uri
-	}
-	return ""
-}
-
-// An opaque identifier that the service can use to retrieve a particular
-// portion of a stream.
-//
-// Tickets are meant to be single use. It is an error/application-defined
-// behavior to reuse a ticket.
-type Ticket struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Ticket []byte `protobuf:"bytes,1,opt,name=ticket,proto3" json:"ticket,omitempty"`
-}
-
-func (x *Ticket) Reset() {
-	*x = Ticket{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[17]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *Ticket) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*Ticket) ProtoMessage() {}
-
-func (x *Ticket) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[17]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use Ticket.ProtoReflect.Descriptor instead.
-func (*Ticket) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{17}
-}
-
-func (x *Ticket) GetTicket() []byte {
-	if x != nil {
-		return x.Ticket
-	}
-	return nil
-}
-
-// A batch of Arrow data as part of a stream of batches.
-type FlightData struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The descriptor of the data. This is only relevant when a client is
-	// starting a new DoPut stream.
-	FlightDescriptor *FlightDescriptor `protobuf:"bytes,1,opt,name=flight_descriptor,json=flightDescriptor,proto3" json:"flight_descriptor,omitempty"`
-	// Header for message data as described in Message.fbs::Message.
-	DataHeader []byte `protobuf:"bytes,2,opt,name=data_header,json=dataHeader,proto3" json:"data_header,omitempty"`
-	// Application-defined metadata.
-	AppMetadata []byte `protobuf:"bytes,3,opt,name=app_metadata,json=appMetadata,proto3" json:"app_metadata,omitempty"`
-	// The actual batch of Arrow data. Preferably handled with minimal-copies
-	// coming last in the definition to help with sidecar patterns (it is
-	// expected that some implementations will fetch this field off the wire
-	// with specialized code to avoid extra memory copies).
-	DataBody []byte `protobuf:"bytes,1000,opt,name=data_body,json=dataBody,proto3" json:"data_body,omitempty"`
-}
-
-func (x *FlightData) Reset() {
-	*x = FlightData{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[18]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *FlightData) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*FlightData) ProtoMessage() {}
-
-func (x *FlightData) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[18]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use FlightData.ProtoReflect.Descriptor instead.
-func (*FlightData) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{18}
-}
-
-func (x *FlightData) GetFlightDescriptor() *FlightDescriptor {
-	if x != nil {
-		return x.FlightDescriptor
-	}
-	return nil
-}
-
-func (x *FlightData) GetDataHeader() []byte {
-	if x != nil {
-		return x.DataHeader
-	}
-	return nil
-}
-
-func (x *FlightData) GetAppMetadata() []byte {
-	if x != nil {
-		return x.AppMetadata
-	}
-	return nil
-}
-
-func (x *FlightData) GetDataBody() []byte {
-	if x != nil {
-		return x.DataBody
-	}
-	return nil
-}
-
-// *
-// The response message associated with the submission of a DoPut.
-type PutResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	AppMetadata []byte `protobuf:"bytes,1,opt,name=app_metadata,json=appMetadata,proto3" json:"app_metadata,omitempty"`
-}
-
-func (x *PutResult) Reset() {
-	*x = PutResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[19]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *PutResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*PutResult) ProtoMessage() {}
-
-func (x *PutResult) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[19]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use PutResult.ProtoReflect.Descriptor instead.
-func (*PutResult) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{19}
-}
-
-func (x *PutResult) GetAppMetadata() []byte {
-	if x != nil {
-		return x.AppMetadata
-	}
-	return nil
-}
-
-// EXPERIMENTAL: Union of possible value types for a Session Option to be set to.
-//
-// By convention, an attempt to set a valueless SessionOptionValue should
-// attempt to unset or clear the named option value on the server.
-type SessionOptionValue struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Types that are assignable to OptionValue:
-	//
-	//	*SessionOptionValue_StringValue
-	//	*SessionOptionValue_BoolValue
-	//	*SessionOptionValue_Int64Value
-	//	*SessionOptionValue_DoubleValue
-	//	*SessionOptionValue_StringListValue_
-	OptionValue isSessionOptionValue_OptionValue `protobuf_oneof:"option_value"`
-}
-
-func (x *SessionOptionValue) Reset() {
-	*x = SessionOptionValue{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[20]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SessionOptionValue) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SessionOptionValue) ProtoMessage() {}
-
-func (x *SessionOptionValue) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[20]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SessionOptionValue.ProtoReflect.Descriptor instead.
-func (*SessionOptionValue) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{20}
-}
-
-func (m *SessionOptionValue) GetOptionValue() isSessionOptionValue_OptionValue {
-	if m != nil {
-		return m.OptionValue
-	}
-	return nil
-}
-
-func (x *SessionOptionValue) GetStringValue() string {
-	if x, ok := x.GetOptionValue().(*SessionOptionValue_StringValue); ok {
-		return x.StringValue
-	}
-	return ""
-}
-
-func (x *SessionOptionValue) GetBoolValue() bool {
-	if x, ok := x.GetOptionValue().(*SessionOptionValue_BoolValue); ok {
-		return x.BoolValue
-	}
-	return false
-}
-
-func (x *SessionOptionValue) GetInt64Value() int64 {
-	if x, ok := x.GetOptionValue().(*SessionOptionValue_Int64Value); ok {
-		return x.Int64Value
-	}
-	return 0
-}
-
-func (x *SessionOptionValue) GetDoubleValue() float64 {
-	if x, ok := x.GetOptionValue().(*SessionOptionValue_DoubleValue); ok {
-		return x.DoubleValue
-	}
-	return 0
-}
-
-func (x *SessionOptionValue) GetStringListValue() *SessionOptionValue_StringListValue {
-	if x, ok := x.GetOptionValue().(*SessionOptionValue_StringListValue_); ok {
-		return x.StringListValue
-	}
-	return nil
-}
-
-type isSessionOptionValue_OptionValue interface {
-	isSessionOptionValue_OptionValue()
-}
-
-type SessionOptionValue_StringValue struct {
-	StringValue string `protobuf:"bytes,1,opt,name=string_value,json=stringValue,proto3,oneof"`
-}
-
-type SessionOptionValue_BoolValue struct {
-	BoolValue bool `protobuf:"varint,2,opt,name=bool_value,json=boolValue,proto3,oneof"`
-}
-
-type SessionOptionValue_Int64Value struct {
-	Int64Value int64 `protobuf:"fixed64,3,opt,name=int64_value,json=int64Value,proto3,oneof"`
-}
-
-type SessionOptionValue_DoubleValue struct {
-	DoubleValue float64 `protobuf:"fixed64,4,opt,name=double_value,json=doubleValue,proto3,oneof"`
-}
-
-type SessionOptionValue_StringListValue_ struct {
-	StringListValue *SessionOptionValue_StringListValue `protobuf:"bytes,5,opt,name=string_list_value,json=stringListValue,proto3,oneof"`
-}
-
-func (*SessionOptionValue_StringValue) isSessionOptionValue_OptionValue() {}
-
-func (*SessionOptionValue_BoolValue) isSessionOptionValue_OptionValue() {}
-
-func (*SessionOptionValue_Int64Value) isSessionOptionValue_OptionValue() {}
-
-func (*SessionOptionValue_DoubleValue) isSessionOptionValue_OptionValue() {}
-
-func (*SessionOptionValue_StringListValue_) isSessionOptionValue_OptionValue() {}
-
-// EXPERIMENTAL: A request to set session options for an existing or new (implicit)
-// server session.
-//
-// Sessions are persisted and referenced via a transport-level state management, typically
-// RFC 6265 HTTP cookies when using an HTTP transport.  The suggested cookie name or state
-// context key is 'arrow_flight_session_id', although implementations may freely choose their
-// own name.
-//
-// Session creation (if one does not already exist) is implied by this RPC request, however
-// server implementations may choose to initiate a session that also contains client-provided
-// session options at any other time, e.g. on authentication, or when any other call is made
-// and the server wishes to use a session to persist any state (or lack thereof).
-type SetSessionOptionsRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	SessionOptions map[string]*SessionOptionValue `protobuf:"bytes,1,rep,name=session_options,json=sessionOptions,proto3" json:"session_options,omitempty" protobuf_key:"bytes,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-}
-
-func (x *SetSessionOptionsRequest) Reset() {
-	*x = SetSessionOptionsRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[21]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SetSessionOptionsRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SetSessionOptionsRequest) ProtoMessage() {}
-
-func (x *SetSessionOptionsRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[21]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SetSessionOptionsRequest.ProtoReflect.Descriptor instead.
-func (*SetSessionOptionsRequest) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{21}
-}
-
-func (x *SetSessionOptionsRequest) GetSessionOptions() map[string]*SessionOptionValue {
-	if x != nil {
-		return x.SessionOptions
-	}
-	return nil
-}
-
-// EXPERIMENTAL: The results (individually) of setting a set of session options.
-//
-// Option names should only be present in the response if they were not successfully
-// set on the server; that is, a response without an Error for a name provided in the
-// SetSessionOptionsRequest implies that the named option value was set successfully.
-type SetSessionOptionsResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Errors map[string]*SetSessionOptionsResult_Error `protobuf:"bytes,1,rep,name=errors,proto3" json:"errors,omitempty" protobuf_key:"bytes,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-}
-
-func (x *SetSessionOptionsResult) Reset() {
-	*x = SetSessionOptionsResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[22]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SetSessionOptionsResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SetSessionOptionsResult) ProtoMessage() {}
-
-func (x *SetSessionOptionsResult) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[22]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SetSessionOptionsResult.ProtoReflect.Descriptor instead.
-func (*SetSessionOptionsResult) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{22}
-}
-
-func (x *SetSessionOptionsResult) GetErrors() map[string]*SetSessionOptionsResult_Error {
-	if x != nil {
-		return x.Errors
-	}
-	return nil
-}
-
-// EXPERIMENTAL: A request to access the session options for the current server session.
-//
-// The existing session is referenced via a cookie header or similar (see
-// SetSessionOptionsRequest above); it is an error to make this request with a missing,
-// invalid, or expired session cookie header or other implementation-defined session
-// reference token.
-type GetSessionOptionsRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-}
-
-func (x *GetSessionOptionsRequest) Reset() {
-	*x = GetSessionOptionsRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[23]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *GetSessionOptionsRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*GetSessionOptionsRequest) ProtoMessage() {}
-
-func (x *GetSessionOptionsRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[23]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use GetSessionOptionsRequest.ProtoReflect.Descriptor instead.
-func (*GetSessionOptionsRequest) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{23}
-}
-
-// EXPERIMENTAL: The result containing the current server session options.
-type GetSessionOptionsResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	SessionOptions map[string]*SessionOptionValue `protobuf:"bytes,1,rep,name=session_options,json=sessionOptions,proto3" json:"session_options,omitempty" protobuf_key:"bytes,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-}
-
-func (x *GetSessionOptionsResult) Reset() {
-	*x = GetSessionOptionsResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[24]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *GetSessionOptionsResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*GetSessionOptionsResult) ProtoMessage() {}
-
-func (x *GetSessionOptionsResult) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[24]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use GetSessionOptionsResult.ProtoReflect.Descriptor instead.
-func (*GetSessionOptionsResult) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{24}
-}
-
-func (x *GetSessionOptionsResult) GetSessionOptions() map[string]*SessionOptionValue {
-	if x != nil {
-		return x.SessionOptions
-	}
-	return nil
-}
-
-// Request message for the "Close Session" action.
-//
-// The exiting session is referenced via a cookie header.
-type CloseSessionRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-}
-
-func (x *CloseSessionRequest) Reset() {
-	*x = CloseSessionRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[25]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CloseSessionRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CloseSessionRequest) ProtoMessage() {}
-
-func (x *CloseSessionRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[25]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CloseSessionRequest.ProtoReflect.Descriptor instead.
-func (*CloseSessionRequest) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{25}
-}
-
-// The result of closing a session.
-type CloseSessionResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Status CloseSessionResult_Status `protobuf:"varint,1,opt,name=status,proto3,enum=arrow.flight.protocol.CloseSessionResult_Status" json:"status,omitempty"`
-}
-
-func (x *CloseSessionResult) Reset() {
-	*x = CloseSessionResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[26]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CloseSessionResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CloseSessionResult) ProtoMessage() {}
-
-func (x *CloseSessionResult) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[26]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CloseSessionResult.ProtoReflect.Descriptor instead.
-func (*CloseSessionResult) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{26}
-}
-
-func (x *CloseSessionResult) GetStatus() CloseSessionResult_Status {
-	if x != nil {
-		return x.Status
-	}
-	return CloseSessionResult_UNSPECIFIED
-}
-
-type SessionOptionValue_StringListValue struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Values []string `protobuf:"bytes,1,rep,name=values,proto3" json:"values,omitempty"`
-}
-
-func (x *SessionOptionValue_StringListValue) Reset() {
-	*x = SessionOptionValue_StringListValue{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[27]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SessionOptionValue_StringListValue) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SessionOptionValue_StringListValue) ProtoMessage() {}
-
-func (x *SessionOptionValue_StringListValue) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[27]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SessionOptionValue_StringListValue.ProtoReflect.Descriptor instead.
-func (*SessionOptionValue_StringListValue) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{20, 0}
-}
-
-func (x *SessionOptionValue_StringListValue) GetValues() []string {
-	if x != nil {
-		return x.Values
-	}
-	return nil
-}
-
-type SetSessionOptionsResult_Error struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Value SetSessionOptionsResult_ErrorValue `protobuf:"varint,1,opt,name=value,proto3,enum=arrow.flight.protocol.SetSessionOptionsResult_ErrorValue" json:"value,omitempty"`
-}
-
-func (x *SetSessionOptionsResult_Error) Reset() {
-	*x = SetSessionOptionsResult_Error{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_Flight_proto_msgTypes[29]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SetSessionOptionsResult_Error) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SetSessionOptionsResult_Error) ProtoMessage() {}
-
-func (x *SetSessionOptionsResult_Error) ProtoReflect() protoreflect.Message {
-	mi := &file_Flight_proto_msgTypes[29]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SetSessionOptionsResult_Error.ProtoReflect.Descriptor instead.
-func (*SetSessionOptionsResult_Error) Descriptor() ([]byte, []int) {
-	return file_Flight_proto_rawDescGZIP(), []int{22, 0}
-}
-
-func (x *SetSessionOptionsResult_Error) GetValue() SetSessionOptionsResult_ErrorValue {
-	if x != nil {
-		return x.Value
-	}
-	return SetSessionOptionsResult_UNSPECIFIED
-}
-
-var File_Flight_proto protoreflect.FileDescriptor
-
-var file_Flight_proto_rawDesc = []byte{
-	0x0a, 0x0c, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x12, 0x15,
-	0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f,
-	0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x1a, 0x1f, 0x67, 0x6f, 0x6f, 0x67, 0x6c, 0x65, 0x2f, 0x70, 0x72,
-	0x6f, 0x74, 0x6f, 0x62, 0x75, 0x66, 0x2f, 0x74, 0x69, 0x6d, 0x65, 0x73, 0x74, 0x61, 0x6d, 0x70,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x22, 0x57, 0x0a, 0x10, 0x48, 0x61, 0x6e, 0x64, 0x73, 0x68,
-	0x61, 0x6b, 0x65, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x29, 0x0a, 0x10, 0x70, 0x72,
-	0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x5f, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6f, 0x6e, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x04, 0x52, 0x0f, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x56, 0x65,
-	0x72, 0x73, 0x69, 0x6f, 0x6e, 0x12, 0x18, 0x0a, 0x07, 0x70, 0x61, 0x79, 0x6c, 0x6f, 0x61, 0x64,
-	0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x07, 0x70, 0x61, 0x79, 0x6c, 0x6f, 0x61, 0x64, 0x22,
-	0x58, 0x0a, 0x11, 0x48, 0x61, 0x6e, 0x64, 0x73, 0x68, 0x61, 0x6b, 0x65, 0x52, 0x65, 0x73, 0x70,
-	0x6f, 0x6e, 0x73, 0x65, 0x12, 0x29, 0x0a, 0x10, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c,
-	0x5f, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6f, 0x6e, 0x18, 0x01, 0x20, 0x01, 0x28, 0x04, 0x52, 0x0f,
-	0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x56, 0x65, 0x72, 0x73, 0x69, 0x6f, 0x6e, 0x12,
-	0x18, 0x0a, 0x07, 0x70, 0x61, 0x79, 0x6c, 0x6f, 0x61, 0x64, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0c,
-	0x52, 0x07, 0x70, 0x61, 0x79, 0x6c, 0x6f, 0x61, 0x64, 0x22, 0x43, 0x0a, 0x09, 0x42, 0x61, 0x73,
-	0x69, 0x63, 0x41, 0x75, 0x74, 0x68, 0x12, 0x1a, 0x0a, 0x08, 0x75, 0x73, 0x65, 0x72, 0x6e, 0x61,
-	0x6d, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x52, 0x08, 0x75, 0x73, 0x65, 0x72, 0x6e, 0x61,
-	0x6d, 0x65, 0x12, 0x1a, 0x0a, 0x08, 0x70, 0x61, 0x73, 0x73, 0x77, 0x6f, 0x72, 0x64, 0x18, 0x03,
-	0x20, 0x01, 0x28, 0x09, 0x52, 0x08, 0x70, 0x61, 0x73, 0x73, 0x77, 0x6f, 0x72, 0x64, 0x22, 0x07,
-	0x0a, 0x05, 0x45, 0x6d, 0x70, 0x74, 0x79, 0x22, 0x42, 0x0a, 0x0a, 0x41, 0x63, 0x74, 0x69, 0x6f,
-	0x6e, 0x54, 0x79, 0x70, 0x65, 0x12, 0x12, 0x0a, 0x04, 0x74, 0x79, 0x70, 0x65, 0x18, 0x01, 0x20,
-	0x01, 0x28, 0x09, 0x52, 0x04, 0x74, 0x79, 0x70, 0x65, 0x12, 0x20, 0x0a, 0x0b, 0x64, 0x65, 0x73,
-	0x63, 0x72, 0x69, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x52, 0x0b,
-	0x64, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x22, 0x2a, 0x0a, 0x08, 0x43,
-	0x72, 0x69, 0x74, 0x65, 0x72, 0x69, 0x61, 0x12, 0x1e, 0x0a, 0x0a, 0x65, 0x78, 0x70, 0x72, 0x65,
-	0x73, 0x73, 0x69, 0x6f, 0x6e, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0a, 0x65, 0x78, 0x70,
-	0x72, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x22, 0x30, 0x0a, 0x06, 0x41, 0x63, 0x74, 0x69, 0x6f,
-	0x6e, 0x12, 0x12, 0x0a, 0x04, 0x74, 0x79, 0x70, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52,
-	0x04, 0x74, 0x79, 0x70, 0x65, 0x12, 0x12, 0x0a, 0x04, 0x62, 0x6f, 0x64, 0x79, 0x18, 0x02, 0x20,
-	0x01, 0x28, 0x0c, 0x52, 0x04, 0x62, 0x6f, 0x64, 0x79, 0x22, 0x50, 0x0a, 0x17, 0x43, 0x61, 0x6e,
-	0x63, 0x65, 0x6c, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x49, 0x6e, 0x66, 0x6f, 0x52, 0x65, 0x71,
-	0x75, 0x65, 0x73, 0x74, 0x12, 0x35, 0x0a, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x18, 0x01, 0x20, 0x01,
-	0x28, 0x0b, 0x32, 0x21, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68,
-	0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68,
-	0x74, 0x49, 0x6e, 0x66, 0x6f, 0x52, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x22, 0x5f, 0x0a, 0x1a, 0x52,
-	0x65, 0x6e, 0x65, 0x77, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x45, 0x6e, 0x64, 0x70, 0x6f, 0x69,
-	0x6e, 0x74, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x41, 0x0a, 0x08, 0x65, 0x6e, 0x64,
-	0x70, 0x6f, 0x69, 0x6e, 0x74, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x25, 0x2e, 0x61, 0x72,
-	0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f,
-	0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x45, 0x6e, 0x64, 0x70, 0x6f, 0x69,
-	0x6e, 0x74, 0x52, 0x08, 0x65, 0x6e, 0x64, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x22, 0x1c, 0x0a, 0x06,
-	0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x12, 0x0a, 0x04, 0x62, 0x6f, 0x64, 0x79, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x0c, 0x52, 0x04, 0x62, 0x6f, 0x64, 0x79, 0x22, 0x55, 0x0a, 0x16, 0x43, 0x61,
-	0x6e, 0x63, 0x65, 0x6c, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x49, 0x6e, 0x66, 0x6f, 0x52, 0x65,
-	0x73, 0x75, 0x6c, 0x74, 0x12, 0x3b, 0x0a, 0x06, 0x73, 0x74, 0x61, 0x74, 0x75, 0x73, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x0e, 0x32, 0x23, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x43, 0x61, 0x6e,
-	0x63, 0x65, 0x6c, 0x53, 0x74, 0x61, 0x74, 0x75, 0x73, 0x52, 0x06, 0x73, 0x74, 0x61, 0x74, 0x75,
-	0x73, 0x22, 0x26, 0x0a, 0x0c, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x52, 0x65, 0x73, 0x75, 0x6c,
-	0x74, 0x12, 0x16, 0x0a, 0x06, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x01, 0x20, 0x01, 0x28,
-	0x0c, 0x52, 0x06, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0xb6, 0x01, 0x0a, 0x10, 0x46, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x12, 0x4a,
-	0x0a, 0x04, 0x74, 0x79, 0x70, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x36, 0x2e, 0x61,
-	0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72,
-	0x69, 0x70, 0x74, 0x6f, 0x72, 0x2e, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72,
-	0x54, 0x79, 0x70, 0x65, 0x52, 0x04, 0x74, 0x79, 0x70, 0x65, 0x12, 0x10, 0x0a, 0x03, 0x63, 0x6d,
-	0x64, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x03, 0x63, 0x6d, 0x64, 0x12, 0x12, 0x0a, 0x04,
-	0x70, 0x61, 0x74, 0x68, 0x18, 0x03, 0x20, 0x03, 0x28, 0x09, 0x52, 0x04, 0x70, 0x61, 0x74, 0x68,
-	0x22, 0x30, 0x0a, 0x0e, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x54, 0x79,
-	0x70, 0x65, 0x12, 0x0b, 0x0a, 0x07, 0x55, 0x4e, 0x4b, 0x4e, 0x4f, 0x57, 0x4e, 0x10, 0x00, 0x12,
-	0x08, 0x0a, 0x04, 0x50, 0x41, 0x54, 0x48, 0x10, 0x01, 0x12, 0x07, 0x0a, 0x03, 0x43, 0x4d, 0x44,
-	0x10, 0x02, 0x22, 0xc0, 0x02, 0x0a, 0x0a, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x49, 0x6e, 0x66,
-	0x6f, 0x12, 0x16, 0x0a, 0x06, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x01, 0x20, 0x01, 0x28,
-	0x0c, 0x52, 0x06, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x12, 0x54, 0x0a, 0x11, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x5f, 0x64, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x18, 0x02,
-	0x20, 0x01, 0x28, 0x0b, 0x32, 0x27, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x52, 0x10, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x12,
-	0x41, 0x0a, 0x08, 0x65, 0x6e, 0x64, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x18, 0x03, 0x20, 0x03, 0x28,
-	0x0b, 0x32, 0x25, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x45, 0x6e, 0x64, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x52, 0x08, 0x65, 0x6e, 0x64, 0x70, 0x6f, 0x69,
-	0x6e, 0x74, 0x12, 0x23, 0x0a, 0x0d, 0x74, 0x6f, 0x74, 0x61, 0x6c, 0x5f, 0x72, 0x65, 0x63, 0x6f,
-	0x72, 0x64, 0x73, 0x18, 0x04, 0x20, 0x01, 0x28, 0x03, 0x52, 0x0c, 0x74, 0x6f, 0x74, 0x61, 0x6c,
-	0x52, 0x65, 0x63, 0x6f, 0x72, 0x64, 0x73, 0x12, 0x1f, 0x0a, 0x0b, 0x74, 0x6f, 0x74, 0x61, 0x6c,
-	0x5f, 0x62, 0x79, 0x74, 0x65, 0x73, 0x18, 0x05, 0x20, 0x01, 0x28, 0x03, 0x52, 0x0a, 0x74, 0x6f,
-	0x74, 0x61, 0x6c, 0x42, 0x79, 0x74, 0x65, 0x73, 0x12, 0x18, 0x0a, 0x07, 0x6f, 0x72, 0x64, 0x65,
-	0x72, 0x65, 0x64, 0x18, 0x06, 0x20, 0x01, 0x28, 0x08, 0x52, 0x07, 0x6f, 0x72, 0x64, 0x65, 0x72,
-	0x65, 0x64, 0x12, 0x21, 0x0a, 0x0c, 0x61, 0x70, 0x70, 0x5f, 0x6d, 0x65, 0x74, 0x61, 0x64, 0x61,
-	0x74, 0x61, 0x18, 0x07, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0b, 0x61, 0x70, 0x70, 0x4d, 0x65, 0x74,
-	0x61, 0x64, 0x61, 0x74, 0x61, 0x22, 0x8a, 0x02, 0x0a, 0x08, 0x50, 0x6f, 0x6c, 0x6c, 0x49, 0x6e,
-	0x66, 0x6f, 0x12, 0x35, 0x0a, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0b,
-	0x32, 0x21, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e,
-	0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x49,
-	0x6e, 0x66, 0x6f, 0x52, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x12, 0x54, 0x0a, 0x11, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x5f, 0x64, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x18, 0x02,
-	0x20, 0x01, 0x28, 0x0b, 0x32, 0x27, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x52, 0x10, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x12,
-	0x1f, 0x0a, 0x08, 0x70, 0x72, 0x6f, 0x67, 0x72, 0x65, 0x73, 0x73, 0x18, 0x03, 0x20, 0x01, 0x28,
-	0x01, 0x48, 0x00, 0x52, 0x08, 0x70, 0x72, 0x6f, 0x67, 0x72, 0x65, 0x73, 0x73, 0x88, 0x01, 0x01,
-	0x12, 0x43, 0x0a, 0x0f, 0x65, 0x78, 0x70, 0x69, 0x72, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x74,
-	0x69, 0x6d, 0x65, 0x18, 0x04, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x1a, 0x2e, 0x67, 0x6f, 0x6f, 0x67,
-	0x6c, 0x65, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x62, 0x75, 0x66, 0x2e, 0x54, 0x69, 0x6d, 0x65,
-	0x73, 0x74, 0x61, 0x6d, 0x70, 0x52, 0x0e, 0x65, 0x78, 0x70, 0x69, 0x72, 0x61, 0x74, 0x69, 0x6f,
-	0x6e, 0x54, 0x69, 0x6d, 0x65, 0x42, 0x0b, 0x0a, 0x09, 0x5f, 0x70, 0x72, 0x6f, 0x67, 0x72, 0x65,
-	0x73, 0x73, 0x22, 0xec, 0x01, 0x0a, 0x0e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x45, 0x6e, 0x64,
-	0x70, 0x6f, 0x69, 0x6e, 0x74, 0x12, 0x35, 0x0a, 0x06, 0x74, 0x69, 0x63, 0x6b, 0x65, 0x74, 0x18,
-	0x01, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x1d, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x54, 0x69,
-	0x63, 0x6b, 0x65, 0x74, 0x52, 0x06, 0x74, 0x69, 0x63, 0x6b, 0x65, 0x74, 0x12, 0x3b, 0x0a, 0x08,
-	0x6c, 0x6f, 0x63, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x18, 0x02, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x1f,
-	0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72,
-	0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x4c, 0x6f, 0x63, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x52,
-	0x08, 0x6c, 0x6f, 0x63, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x12, 0x43, 0x0a, 0x0f, 0x65, 0x78, 0x70,
-	0x69, 0x72, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x74, 0x69, 0x6d, 0x65, 0x18, 0x03, 0x20, 0x01,
-	0x28, 0x0b, 0x32, 0x1a, 0x2e, 0x67, 0x6f, 0x6f, 0x67, 0x6c, 0x65, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x62, 0x75, 0x66, 0x2e, 0x54, 0x69, 0x6d, 0x65, 0x73, 0x74, 0x61, 0x6d, 0x70, 0x52, 0x0e,
-	0x65, 0x78, 0x70, 0x69, 0x72, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x54, 0x69, 0x6d, 0x65, 0x12, 0x21,
-	0x0a, 0x0c, 0x61, 0x70, 0x70, 0x5f, 0x6d, 0x65, 0x74, 0x61, 0x64, 0x61, 0x74, 0x61, 0x18, 0x04,
-	0x20, 0x01, 0x28, 0x0c, 0x52, 0x0b, 0x61, 0x70, 0x70, 0x4d, 0x65, 0x74, 0x61, 0x64, 0x61, 0x74,
-	0x61, 0x22, 0x1c, 0x0a, 0x08, 0x4c, 0x6f, 0x63, 0x61, 0x74, 0x69, 0x6f, 0x6e, 0x12, 0x10, 0x0a,
-	0x03, 0x75, 0x72, 0x69, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x03, 0x75, 0x72, 0x69, 0x22,
-	0x20, 0x0a, 0x06, 0x54, 0x69, 0x63, 0x6b, 0x65, 0x74, 0x12, 0x16, 0x0a, 0x06, 0x74, 0x69, 0x63,
-	0x6b, 0x65, 0x74, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x06, 0x74, 0x69, 0x63, 0x6b, 0x65,
-	0x74, 0x22, 0xc4, 0x01, 0x0a, 0x0a, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x61, 0x74, 0x61,
-	0x12, 0x54, 0x0a, 0x11, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x5f, 0x64, 0x65, 0x73, 0x63, 0x72,
-	0x69, 0x70, 0x74, 0x6f, 0x72, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x27, 0x2e, 0x61, 0x72,
-	0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f,
-	0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69,
-	0x70, 0x74, 0x6f, 0x72, 0x52, 0x10, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63,
-	0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x12, 0x1f, 0x0a, 0x0b, 0x64, 0x61, 0x74, 0x61, 0x5f, 0x68,
-	0x65, 0x61, 0x64, 0x65, 0x72, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0a, 0x64, 0x61, 0x74,
-	0x61, 0x48, 0x65, 0x61, 0x64, 0x65, 0x72, 0x12, 0x21, 0x0a, 0x0c, 0x61, 0x70, 0x70, 0x5f, 0x6d,
-	0x65, 0x74, 0x61, 0x64, 0x61, 0x74, 0x61, 0x18, 0x03, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0b, 0x61,
-	0x70, 0x70, 0x4d, 0x65, 0x74, 0x61, 0x64, 0x61, 0x74, 0x61, 0x12, 0x1c, 0x0a, 0x09, 0x64, 0x61,
-	0x74, 0x61, 0x5f, 0x62, 0x6f, 0x64, 0x79, 0x18, 0xe8, 0x07, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x08,
-	0x64, 0x61, 0x74, 0x61, 0x42, 0x6f, 0x64, 0x79, 0x22, 0x2e, 0x0a, 0x09, 0x50, 0x75, 0x74, 0x52,
-	0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x21, 0x0a, 0x0c, 0x61, 0x70, 0x70, 0x5f, 0x6d, 0x65, 0x74,
-	0x61, 0x64, 0x61, 0x74, 0x61, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0b, 0x61, 0x70, 0x70,
-	0x4d, 0x65, 0x74, 0x61, 0x64, 0x61, 0x74, 0x61, 0x22, 0xc6, 0x02, 0x0a, 0x12, 0x53, 0x65, 0x73,
-	0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x12,
-	0x23, 0x0a, 0x0c, 0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x5f, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18,
-	0x01, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x0b, 0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x56,
-	0x61, 0x6c, 0x75, 0x65, 0x12, 0x1f, 0x0a, 0x0a, 0x62, 0x6f, 0x6f, 0x6c, 0x5f, 0x76, 0x61, 0x6c,
-	0x75, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x08, 0x48, 0x00, 0x52, 0x09, 0x62, 0x6f, 0x6f, 0x6c,
-	0x56, 0x61, 0x6c, 0x75, 0x65, 0x12, 0x21, 0x0a, 0x0b, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x5f, 0x76,
-	0x61, 0x6c, 0x75, 0x65, 0x18, 0x03, 0x20, 0x01, 0x28, 0x10, 0x48, 0x00, 0x52, 0x0a, 0x69, 0x6e,
-	0x74, 0x36, 0x34, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x12, 0x23, 0x0a, 0x0c, 0x64, 0x6f, 0x75, 0x62,
-	0x6c, 0x65, 0x5f, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x04, 0x20, 0x01, 0x28, 0x01, 0x48, 0x00,
-	0x52, 0x0b, 0x64, 0x6f, 0x75, 0x62, 0x6c, 0x65, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x12, 0x67, 0x0a,
-	0x11, 0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x5f, 0x6c, 0x69, 0x73, 0x74, 0x5f, 0x76, 0x61, 0x6c,
-	0x75, 0x65, 0x18, 0x05, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x39, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77,
-	0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c,
-	0x2e, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x56, 0x61,
-	0x6c, 0x75, 0x65, 0x2e, 0x53, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x4c, 0x69, 0x73, 0x74, 0x56, 0x61,
-	0x6c, 0x75, 0x65, 0x48, 0x00, 0x52, 0x0f, 0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x4c, 0x69, 0x73,
-	0x74, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x1a, 0x29, 0x0a, 0x0f, 0x53, 0x74, 0x72, 0x69, 0x6e, 0x67,
-	0x4c, 0x69, 0x73, 0x74, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x12, 0x16, 0x0a, 0x06, 0x76, 0x61, 0x6c,
-	0x75, 0x65, 0x73, 0x18, 0x01, 0x20, 0x03, 0x28, 0x09, 0x52, 0x06, 0x76, 0x61, 0x6c, 0x75, 0x65,
-	0x73, 0x42, 0x0e, 0x0a, 0x0c, 0x6f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x76, 0x61, 0x6c, 0x75,
-	0x65, 0x22, 0xf6, 0x01, 0x0a, 0x18, 0x53, 0x65, 0x74, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e,
-	0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x6c,
-	0x0a, 0x0f, 0x73, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x5f, 0x6f, 0x70, 0x74, 0x69, 0x6f, 0x6e,
-	0x73, 0x18, 0x01, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x43, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e,
-	0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e,
-	0x53, 0x65, 0x74, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e,
-	0x73, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x2e, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e,
-	0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x52, 0x0e, 0x73, 0x65,
-	0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x1a, 0x6c, 0x0a, 0x13,
-	0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x45, 0x6e,
-	0x74, 0x72, 0x79, 0x12, 0x10, 0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09,
-	0x52, 0x03, 0x6b, 0x65, 0x79, 0x12, 0x3f, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x02,
-	0x20, 0x01, 0x28, 0x0b, 0x32, 0x29, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x53, 0x65, 0x73,
-	0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x52,
-	0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x3a, 0x02, 0x38, 0x01, 0x22, 0x87, 0x03, 0x0a, 0x17, 0x53,
-	0x65, 0x74, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73,
-	0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x52, 0x0a, 0x06, 0x65, 0x72, 0x72, 0x6f, 0x72, 0x73,
-	0x18, 0x01, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x3a, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x53,
-	0x65, 0x74, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73,
-	0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x2e, 0x45, 0x72, 0x72, 0x6f, 0x72, 0x73, 0x45, 0x6e, 0x74,
-	0x72, 0x79, 0x52, 0x06, 0x65, 0x72, 0x72, 0x6f, 0x72, 0x73, 0x1a, 0x58, 0x0a, 0x05, 0x45, 0x72,
-	0x72, 0x6f, 0x72, 0x12, 0x4f, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x01, 0x20, 0x01,
-	0x28, 0x0e, 0x32, 0x39, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68,
-	0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x53, 0x65, 0x74, 0x53, 0x65,
-	0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52, 0x65, 0x73, 0x75,
-	0x6c, 0x74, 0x2e, 0x45, 0x72, 0x72, 0x6f, 0x72, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x52, 0x05, 0x76,
-	0x61, 0x6c, 0x75, 0x65, 0x1a, 0x6f, 0x0a, 0x0b, 0x45, 0x72, 0x72, 0x6f, 0x72, 0x73, 0x45, 0x6e,
-	0x74, 0x72, 0x79, 0x12, 0x10, 0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09,
-	0x52, 0x03, 0x6b, 0x65, 0x79, 0x12, 0x4a, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x02,
-	0x20, 0x01, 0x28, 0x0b, 0x32, 0x34, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x53, 0x65, 0x74,
-	0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52, 0x65,
-	0x73, 0x75, 0x6c, 0x74, 0x2e, 0x45, 0x72, 0x72, 0x6f, 0x72, 0x52, 0x05, 0x76, 0x61, 0x6c, 0x75,
-	0x65, 0x3a, 0x02, 0x38, 0x01, 0x22, 0x4d, 0x0a, 0x0a, 0x45, 0x72, 0x72, 0x6f, 0x72, 0x56, 0x61,
-	0x6c, 0x75, 0x65, 0x12, 0x0f, 0x0a, 0x0b, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49,
-	0x45, 0x44, 0x10, 0x00, 0x12, 0x10, 0x0a, 0x0c, 0x49, 0x4e, 0x56, 0x41, 0x4c, 0x49, 0x44, 0x5f,
-	0x4e, 0x41, 0x4d, 0x45, 0x10, 0x01, 0x12, 0x11, 0x0a, 0x0d, 0x49, 0x4e, 0x56, 0x41, 0x4c, 0x49,
-	0x44, 0x5f, 0x56, 0x41, 0x4c, 0x55, 0x45, 0x10, 0x02, 0x12, 0x09, 0x0a, 0x05, 0x45, 0x52, 0x52,
-	0x4f, 0x52, 0x10, 0x03, 0x22, 0x1a, 0x0a, 0x18, 0x47, 0x65, 0x74, 0x53, 0x65, 0x73, 0x73, 0x69,
-	0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74,
-	0x22, 0xf4, 0x01, 0x0a, 0x17, 0x47, 0x65, 0x74, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f,
-	0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x6b, 0x0a, 0x0f,
-	0x73, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x5f, 0x6f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x18,
-	0x01, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x42, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x47, 0x65,
-	0x74, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52,
-	0x65, 0x73, 0x75, 0x6c, 0x74, 0x2e, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74,
-	0x69, 0x6f, 0x6e, 0x73, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x52, 0x0e, 0x73, 0x65, 0x73, 0x73, 0x69,
-	0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x1a, 0x6c, 0x0a, 0x13, 0x53, 0x65, 0x73,
-	0x73, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x45, 0x6e, 0x74, 0x72, 0x79,
-	0x12, 0x10, 0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x03, 0x6b,
-	0x65, 0x79, 0x12, 0x3f, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28,
-	0x0b, 0x32, 0x29, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f,
-	0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x56, 0x61, 0x6c, 0x75, 0x65, 0x52, 0x05, 0x76, 0x61,
-	0x6c, 0x75, 0x65, 0x3a, 0x02, 0x38, 0x01, 0x22, 0x15, 0x0a, 0x13, 0x43, 0x6c, 0x6f, 0x73, 0x65,
-	0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x22, 0xa5,
-	0x01, 0x0a, 0x12, 0x43, 0x6c, 0x6f, 0x73, 0x65, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x52,
-	0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x48, 0x0a, 0x06, 0x73, 0x74, 0x61, 0x74, 0x75, 0x73, 0x18,
-	0x01, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x30, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x43, 0x6c,
-	0x6f, 0x73, 0x65, 0x53, 0x65, 0x73, 0x73, 0x69, 0x6f, 0x6e, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74,
-	0x2e, 0x53, 0x74, 0x61, 0x74, 0x75, 0x73, 0x52, 0x06, 0x73, 0x74, 0x61, 0x74, 0x75, 0x73, 0x22,
-	0x45, 0x0a, 0x06, 0x53, 0x74, 0x61, 0x74, 0x75, 0x73, 0x12, 0x0f, 0x0a, 0x0b, 0x55, 0x4e, 0x53,
-	0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x0a, 0x0a, 0x06, 0x43, 0x4c,
-	0x4f, 0x53, 0x45, 0x44, 0x10, 0x01, 0x12, 0x0b, 0x0a, 0x07, 0x43, 0x4c, 0x4f, 0x53, 0x49, 0x4e,
-	0x47, 0x10, 0x02, 0x12, 0x11, 0x0a, 0x0d, 0x4e, 0x4f, 0x54, 0x5f, 0x43, 0x4c, 0x4f, 0x53, 0x45,
-	0x41, 0x42, 0x4c, 0x45, 0x10, 0x03, 0x2a, 0x8b, 0x01, 0x0a, 0x0c, 0x43, 0x61, 0x6e, 0x63, 0x65,
-	0x6c, 0x53, 0x74, 0x61, 0x74, 0x75, 0x73, 0x12, 0x1d, 0x0a, 0x19, 0x43, 0x41, 0x4e, 0x43, 0x45,
-	0x4c, 0x5f, 0x53, 0x54, 0x41, 0x54, 0x55, 0x53, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49,
-	0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x1b, 0x0a, 0x17, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c,
-	0x5f, 0x53, 0x54, 0x41, 0x54, 0x55, 0x53, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x4c, 0x45,
-	0x44, 0x10, 0x01, 0x12, 0x1c, 0x0a, 0x18, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x5f, 0x53, 0x54,
-	0x41, 0x54, 0x55, 0x53, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x4c, 0x49, 0x4e, 0x47, 0x10,
-	0x02, 0x12, 0x21, 0x0a, 0x1d, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x5f, 0x53, 0x54, 0x41, 0x54,
-	0x55, 0x53, 0x5f, 0x4e, 0x4f, 0x54, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x4c, 0x41, 0x42,
-	0x4c, 0x45, 0x10, 0x03, 0x32, 0x85, 0x07, 0x0a, 0x0d, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x53,
-	0x65, 0x72, 0x76, 0x69, 0x63, 0x65, 0x12, 0x64, 0x0a, 0x09, 0x48, 0x61, 0x6e, 0x64, 0x73, 0x68,
-	0x61, 0x6b, 0x65, 0x12, 0x27, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67,
-	0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x48, 0x61, 0x6e, 0x64,
-	0x73, 0x68, 0x61, 0x6b, 0x65, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x1a, 0x28, 0x2e, 0x61,
-	0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x48, 0x61, 0x6e, 0x64, 0x73, 0x68, 0x61, 0x6b, 0x65, 0x52, 0x65,
-	0x73, 0x70, 0x6f, 0x6e, 0x73, 0x65, 0x22, 0x00, 0x28, 0x01, 0x30, 0x01, 0x12, 0x55, 0x0a, 0x0b,
-	0x4c, 0x69, 0x73, 0x74, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x73, 0x12, 0x1f, 0x2e, 0x61, 0x72,
-	0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f,
-	0x63, 0x6f, 0x6c, 0x2e, 0x43, 0x72, 0x69, 0x74, 0x65, 0x72, 0x69, 0x61, 0x1a, 0x21, 0x2e, 0x61,
-	0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x49, 0x6e, 0x66, 0x6f, 0x22,
-	0x00, 0x30, 0x01, 0x12, 0x5d, 0x0a, 0x0d, 0x47, 0x65, 0x74, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x49, 0x6e, 0x66, 0x6f, 0x12, 0x27, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x1a, 0x21, 0x2e,
-	0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f,
-	0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x49, 0x6e, 0x66, 0x6f,
-	0x22, 0x00, 0x12, 0x5c, 0x0a, 0x0e, 0x50, 0x6f, 0x6c, 0x6c, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x49, 0x6e, 0x66, 0x6f, 0x12, 0x27, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x1a, 0x1f, 0x2e,
-	0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f,
-	0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x50, 0x6f, 0x6c, 0x6c, 0x49, 0x6e, 0x66, 0x6f, 0x22, 0x00,
-	0x12, 0x5b, 0x0a, 0x09, 0x47, 0x65, 0x74, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x12, 0x27, 0x2e,
-	0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f,
-	0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x65, 0x73, 0x63,
-	0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x1a, 0x23, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x53,
-	0x63, 0x68, 0x65, 0x6d, 0x61, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x22, 0x00, 0x12, 0x4d, 0x0a,
-	0x05, 0x44, 0x6f, 0x47, 0x65, 0x74, 0x12, 0x1d, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x54,
-	0x69, 0x63, 0x6b, 0x65, 0x74, 0x1a, 0x21, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x44, 0x61, 0x74, 0x61, 0x22, 0x00, 0x30, 0x01, 0x12, 0x52, 0x0a, 0x05,
-	0x44, 0x6f, 0x50, 0x75, 0x74, 0x12, 0x21, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x44, 0x61, 0x74, 0x61, 0x1a, 0x20, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77,
-	0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c,
-	0x2e, 0x50, 0x75, 0x74, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x22, 0x00, 0x28, 0x01, 0x30, 0x01,
-	0x12, 0x58, 0x0a, 0x0a, 0x44, 0x6f, 0x45, 0x78, 0x63, 0x68, 0x61, 0x6e, 0x67, 0x65, 0x12, 0x21,
-	0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72,
-	0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x44, 0x61, 0x74,
-	0x61, 0x1a, 0x21, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x44, 0x61, 0x74, 0x61, 0x22, 0x00, 0x28, 0x01, 0x30, 0x01, 0x12, 0x4c, 0x0a, 0x08, 0x44, 0x6f,
-	0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x12, 0x1d, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x41,
-	0x63, 0x74, 0x69, 0x6f, 0x6e, 0x1a, 0x1d, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x52, 0x65,
-	0x73, 0x75, 0x6c, 0x74, 0x22, 0x00, 0x30, 0x01, 0x12, 0x52, 0x0a, 0x0b, 0x4c, 0x69, 0x73, 0x74,
-	0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x12, 0x1c, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e,
-	0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e,
-	0x45, 0x6d, 0x70, 0x74, 0x79, 0x1a, 0x21, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x41, 0x63,
-	0x74, 0x69, 0x6f, 0x6e, 0x54, 0x79, 0x70, 0x65, 0x22, 0x00, 0x30, 0x01, 0x42, 0x71, 0x0a, 0x1c,
-	0x6f, 0x72, 0x67, 0x2e, 0x61, 0x70, 0x61, 0x63, 0x68, 0x65, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77,
-	0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x69, 0x6d, 0x70, 0x6c, 0x5a, 0x32, 0x67, 0x69,
-	0x74, 0x68, 0x75, 0x62, 0x2e, 0x63, 0x6f, 0x6d, 0x2f, 0x61, 0x70, 0x61, 0x63, 0x68, 0x65, 0x2f,
-	0x61, 0x72, 0x72, 0x6f, 0x77, 0x2f, 0x67, 0x6f, 0x2f, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2f, 0x66,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x2f, 0x67, 0x65, 0x6e, 0x2f, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0xaa, 0x02, 0x1c, 0x41, 0x70, 0x61, 0x63, 0x68, 0x65, 0x2e, 0x41, 0x72, 0x72, 0x6f, 0x77, 0x2e,
-	0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x50, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x62,
-	0x06, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x33,
-}
-
-var (
-	file_Flight_proto_rawDescOnce sync.Once
-	file_Flight_proto_rawDescData = file_Flight_proto_rawDesc
-)
-
-func file_Flight_proto_rawDescGZIP() []byte {
-	file_Flight_proto_rawDescOnce.Do(func() {
-		file_Flight_proto_rawDescData = protoimpl.X.CompressGZIP(file_Flight_proto_rawDescData)
-	})
-	return file_Flight_proto_rawDescData
-}
-
-var file_Flight_proto_enumTypes = make([]protoimpl.EnumInfo, 4)
-var file_Flight_proto_msgTypes = make([]protoimpl.MessageInfo, 32)
-var file_Flight_proto_goTypes = []interface{}{
-	(CancelStatus)(0),                          // 0: arrow.flight.protocol.CancelStatus
-	(FlightDescriptor_DescriptorType)(0),       // 1: arrow.flight.protocol.FlightDescriptor.DescriptorType
-	(SetSessionOptionsResult_ErrorValue)(0),    // 2: arrow.flight.protocol.SetSessionOptionsResult.ErrorValue
-	(CloseSessionResult_Status)(0),             // 3: arrow.flight.protocol.CloseSessionResult.Status
-	(*HandshakeRequest)(nil),                   // 4: arrow.flight.protocol.HandshakeRequest
-	(*HandshakeResponse)(nil),                  // 5: arrow.flight.protocol.HandshakeResponse
-	(*BasicAuth)(nil),                          // 6: arrow.flight.protocol.BasicAuth
-	(*Empty)(nil),                              // 7: arrow.flight.protocol.Empty
-	(*ActionType)(nil),                         // 8: arrow.flight.protocol.ActionType
-	(*Criteria)(nil),                           // 9: arrow.flight.protocol.Criteria
-	(*Action)(nil),                             // 10: arrow.flight.protocol.Action
-	(*CancelFlightInfoRequest)(nil),            // 11: arrow.flight.protocol.CancelFlightInfoRequest
-	(*RenewFlightEndpointRequest)(nil),         // 12: arrow.flight.protocol.RenewFlightEndpointRequest
-	(*Result)(nil),                             // 13: arrow.flight.protocol.Result
-	(*CancelFlightInfoResult)(nil),             // 14: arrow.flight.protocol.CancelFlightInfoResult
-	(*SchemaResult)(nil),                       // 15: arrow.flight.protocol.SchemaResult
-	(*FlightDescriptor)(nil),                   // 16: arrow.flight.protocol.FlightDescriptor
-	(*FlightInfo)(nil),                         // 17: arrow.flight.protocol.FlightInfo
-	(*PollInfo)(nil),                           // 18: arrow.flight.protocol.PollInfo
-	(*FlightEndpoint)(nil),                     // 19: arrow.flight.protocol.FlightEndpoint
-	(*Location)(nil),                           // 20: arrow.flight.protocol.Location
-	(*Ticket)(nil),                             // 21: arrow.flight.protocol.Ticket
-	(*FlightData)(nil),                         // 22: arrow.flight.protocol.FlightData
-	(*PutResult)(nil),                          // 23: arrow.flight.protocol.PutResult
-	(*SessionOptionValue)(nil),                 // 24: arrow.flight.protocol.SessionOptionValue
-	(*SetSessionOptionsRequest)(nil),           // 25: arrow.flight.protocol.SetSessionOptionsRequest
-	(*SetSessionOptionsResult)(nil),            // 26: arrow.flight.protocol.SetSessionOptionsResult
-	(*GetSessionOptionsRequest)(nil),           // 27: arrow.flight.protocol.GetSessionOptionsRequest
-	(*GetSessionOptionsResult)(nil),            // 28: arrow.flight.protocol.GetSessionOptionsResult
-	(*CloseSessionRequest)(nil),                // 29: arrow.flight.protocol.CloseSessionRequest
-	(*CloseSessionResult)(nil),                 // 30: arrow.flight.protocol.CloseSessionResult
-	(*SessionOptionValue_StringListValue)(nil), // 31: arrow.flight.protocol.SessionOptionValue.StringListValue
-	nil,                                   // 32: arrow.flight.protocol.SetSessionOptionsRequest.SessionOptionsEntry
-	(*SetSessionOptionsResult_Error)(nil), // 33: arrow.flight.protocol.SetSessionOptionsResult.Error
-	nil,                                   // 34: arrow.flight.protocol.SetSessionOptionsResult.ErrorsEntry
-	nil,                                   // 35: arrow.flight.protocol.GetSessionOptionsResult.SessionOptionsEntry
-	(*timestamppb.Timestamp)(nil),         // 36: google.protobuf.Timestamp
-}
-var file_Flight_proto_depIdxs = []int32{
-	17, // 0: arrow.flight.protocol.CancelFlightInfoRequest.info:type_name -> arrow.flight.protocol.FlightInfo
-	19, // 1: arrow.flight.protocol.RenewFlightEndpointRequest.endpoint:type_name -> arrow.flight.protocol.FlightEndpoint
-	0,  // 2: arrow.flight.protocol.CancelFlightInfoResult.status:type_name -> arrow.flight.protocol.CancelStatus
-	1,  // 3: arrow.flight.protocol.FlightDescriptor.type:type_name -> arrow.flight.protocol.FlightDescriptor.DescriptorType
-	16, // 4: arrow.flight.protocol.FlightInfo.flight_descriptor:type_name -> arrow.flight.protocol.FlightDescriptor
-	19, // 5: arrow.flight.protocol.FlightInfo.endpoint:type_name -> arrow.flight.protocol.FlightEndpoint
-	17, // 6: arrow.flight.protocol.PollInfo.info:type_name -> arrow.flight.protocol.FlightInfo
-	16, // 7: arrow.flight.protocol.PollInfo.flight_descriptor:type_name -> arrow.flight.protocol.FlightDescriptor
-	36, // 8: arrow.flight.protocol.PollInfo.expiration_time:type_name -> google.protobuf.Timestamp
-	21, // 9: arrow.flight.protocol.FlightEndpoint.ticket:type_name -> arrow.flight.protocol.Ticket
-	20, // 10: arrow.flight.protocol.FlightEndpoint.location:type_name -> arrow.flight.protocol.Location
-	36, // 11: arrow.flight.protocol.FlightEndpoint.expiration_time:type_name -> google.protobuf.Timestamp
-	16, // 12: arrow.flight.protocol.FlightData.flight_descriptor:type_name -> arrow.flight.protocol.FlightDescriptor
-	31, // 13: arrow.flight.protocol.SessionOptionValue.string_list_value:type_name -> arrow.flight.protocol.SessionOptionValue.StringListValue
-	32, // 14: arrow.flight.protocol.SetSessionOptionsRequest.session_options:type_name -> arrow.flight.protocol.SetSessionOptionsRequest.SessionOptionsEntry
-	34, // 15: arrow.flight.protocol.SetSessionOptionsResult.errors:type_name -> arrow.flight.protocol.SetSessionOptionsResult.ErrorsEntry
-	35, // 16: arrow.flight.protocol.GetSessionOptionsResult.session_options:type_name -> arrow.flight.protocol.GetSessionOptionsResult.SessionOptionsEntry
-	3,  // 17: arrow.flight.protocol.CloseSessionResult.status:type_name -> arrow.flight.protocol.CloseSessionResult.Status
-	24, // 18: arrow.flight.protocol.SetSessionOptionsRequest.SessionOptionsEntry.value:type_name -> arrow.flight.protocol.SessionOptionValue
-	2,  // 19: arrow.flight.protocol.SetSessionOptionsResult.Error.value:type_name -> arrow.flight.protocol.SetSessionOptionsResult.ErrorValue
-	33, // 20: arrow.flight.protocol.SetSessionOptionsResult.ErrorsEntry.value:type_name -> arrow.flight.protocol.SetSessionOptionsResult.Error
-	24, // 21: arrow.flight.protocol.GetSessionOptionsResult.SessionOptionsEntry.value:type_name -> arrow.flight.protocol.SessionOptionValue
-	4,  // 22: arrow.flight.protocol.FlightService.Handshake:input_type -> arrow.flight.protocol.HandshakeRequest
-	9,  // 23: arrow.flight.protocol.FlightService.ListFlights:input_type -> arrow.flight.protocol.Criteria
-	16, // 24: arrow.flight.protocol.FlightService.GetFlightInfo:input_type -> arrow.flight.protocol.FlightDescriptor
-	16, // 25: arrow.flight.protocol.FlightService.PollFlightInfo:input_type -> arrow.flight.protocol.FlightDescriptor
-	16, // 26: arrow.flight.protocol.FlightService.GetSchema:input_type -> arrow.flight.protocol.FlightDescriptor
-	21, // 27: arrow.flight.protocol.FlightService.DoGet:input_type -> arrow.flight.protocol.Ticket
-	22, // 28: arrow.flight.protocol.FlightService.DoPut:input_type -> arrow.flight.protocol.FlightData
-	22, // 29: arrow.flight.protocol.FlightService.DoExchange:input_type -> arrow.flight.protocol.FlightData
-	10, // 30: arrow.flight.protocol.FlightService.DoAction:input_type -> arrow.flight.protocol.Action
-	7,  // 31: arrow.flight.protocol.FlightService.ListActions:input_type -> arrow.flight.protocol.Empty
-	5,  // 32: arrow.flight.protocol.FlightService.Handshake:output_type -> arrow.flight.protocol.HandshakeResponse
-	17, // 33: arrow.flight.protocol.FlightService.ListFlights:output_type -> arrow.flight.protocol.FlightInfo
-	17, // 34: arrow.flight.protocol.FlightService.GetFlightInfo:output_type -> arrow.flight.protocol.FlightInfo
-	18, // 35: arrow.flight.protocol.FlightService.PollFlightInfo:output_type -> arrow.flight.protocol.PollInfo
-	15, // 36: arrow.flight.protocol.FlightService.GetSchema:output_type -> arrow.flight.protocol.SchemaResult
-	22, // 37: arrow.flight.protocol.FlightService.DoGet:output_type -> arrow.flight.protocol.FlightData
-	23, // 38: arrow.flight.protocol.FlightService.DoPut:output_type -> arrow.flight.protocol.PutResult
-	22, // 39: arrow.flight.protocol.FlightService.DoExchange:output_type -> arrow.flight.protocol.FlightData
-	13, // 40: arrow.flight.protocol.FlightService.DoAction:output_type -> arrow.flight.protocol.Result
-	8,  // 41: arrow.flight.protocol.FlightService.ListActions:output_type -> arrow.flight.protocol.ActionType
-	32, // [32:42] is the sub-list for method output_type
-	22, // [22:32] is the sub-list for method input_type
-	22, // [22:22] is the sub-list for extension type_name
-	22, // [22:22] is the sub-list for extension extendee
-	0,  // [0:22] is the sub-list for field type_name
-}
-
-func init() { file_Flight_proto_init() }
-func file_Flight_proto_init() {
-	if File_Flight_proto != nil {
-		return
-	}
-	if !protoimpl.UnsafeEnabled {
-		file_Flight_proto_msgTypes[0].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*HandshakeRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[1].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*HandshakeResponse); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[2].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*BasicAuth); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[3].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*Empty); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[4].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionType); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[5].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*Criteria); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[6].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*Action); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[7].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CancelFlightInfoRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[8].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*RenewFlightEndpointRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[9].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*Result); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[10].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CancelFlightInfoResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[11].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SchemaResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[12].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*FlightDescriptor); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[13].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*FlightInfo); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[14].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*PollInfo); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[15].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*FlightEndpoint); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[16].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*Location); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[17].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*Ticket); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[18].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*FlightData); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[19].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*PutResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[20].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SessionOptionValue); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[21].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SetSessionOptionsRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[22].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SetSessionOptionsResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[23].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*GetSessionOptionsRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[24].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*GetSessionOptionsResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[25].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CloseSessionRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[26].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CloseSessionResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[27].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SessionOptionValue_StringListValue); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_Flight_proto_msgTypes[29].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SetSessionOptionsResult_Error); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-	}
-	file_Flight_proto_msgTypes[14].OneofWrappers = []interface{}{}
-	file_Flight_proto_msgTypes[20].OneofWrappers = []interface{}{
-		(*SessionOptionValue_StringValue)(nil),
-		(*SessionOptionValue_BoolValue)(nil),
-		(*SessionOptionValue_Int64Value)(nil),
-		(*SessionOptionValue_DoubleValue)(nil),
-		(*SessionOptionValue_StringListValue_)(nil),
-	}
-	type x struct{}
-	out := protoimpl.TypeBuilder{
-		File: protoimpl.DescBuilder{
-			GoPackagePath: reflect.TypeOf(x{}).PkgPath(),
-			RawDescriptor: file_Flight_proto_rawDesc,
-			NumEnums:      4,
-			NumMessages:   32,
-			NumExtensions: 0,
-			NumServices:   1,
-		},
-		GoTypes:           file_Flight_proto_goTypes,
-		DependencyIndexes: file_Flight_proto_depIdxs,
-		EnumInfos:         file_Flight_proto_enumTypes,
-		MessageInfos:      file_Flight_proto_msgTypes,
-	}.Build()
-	File_Flight_proto = out.File
-	file_Flight_proto_rawDesc = nil
-	file_Flight_proto_goTypes = nil
-	file_Flight_proto_depIdxs = nil
-}
diff --git a/go/arrow/flight/gen/flight/FlightSql.pb.go b/go/arrow/flight/gen/flight/FlightSql.pb.go
deleted file mode 100644
index f8f5e17d76bd2..0000000000000
--- a/go/arrow/flight/gen/flight/FlightSql.pb.go
+++ /dev/null
@@ -1,6082 +0,0 @@
-//
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-// <p>
-// http://www.apache.org/licenses/LICENSE-2.0
-// <p>
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by protoc-gen-go. DO NOT EDIT.
-// versions:
-// 	protoc-gen-go v1.31.0
-// 	protoc        v4.25.3
-// source: FlightSql.proto
-
-package flight
-
-import (
-	reflect "reflect"
-	sync "sync"
-
-	protoreflect "google.golang.org/protobuf/reflect/protoreflect"
-	protoimpl "google.golang.org/protobuf/runtime/protoimpl"
-	descriptorpb "google.golang.org/protobuf/types/descriptorpb"
-)
-
-const (
-	// Verify that this generated code is sufficiently up-to-date.
-	_ = protoimpl.EnforceVersion(20 - protoimpl.MinVersion)
-	// Verify that runtime/protoimpl is sufficiently up-to-date.
-	_ = protoimpl.EnforceVersion(protoimpl.MaxVersion - 20)
-)
-
-// Options for CommandGetSqlInfo.
-type SqlInfo int32
-
-const (
-	// Retrieves a UTF-8 string with the name of the Flight SQL Server.
-	SqlInfo_FLIGHT_SQL_SERVER_NAME SqlInfo = 0
-	// Retrieves a UTF-8 string with the native version of the Flight SQL Server.
-	SqlInfo_FLIGHT_SQL_SERVER_VERSION SqlInfo = 1
-	// Retrieves a UTF-8 string with the Arrow format version of the Flight SQL Server.
-	SqlInfo_FLIGHT_SQL_SERVER_ARROW_VERSION SqlInfo = 2
-	// Retrieves a boolean value indicating whether the Flight SQL Server is read only.
-	//
-	// Returns:
-	// - false: if read-write
-	// - true: if read only
-	SqlInfo_FLIGHT_SQL_SERVER_READ_ONLY SqlInfo = 3
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports executing
-	// SQL queries.
-	//
-	// Note that the absence of this info (as opposed to a false value) does not necessarily
-	// mean that SQL is not supported, as this property was not originally defined.
-	SqlInfo_FLIGHT_SQL_SERVER_SQL SqlInfo = 4
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports executing
-	// Substrait plans.
-	SqlInfo_FLIGHT_SQL_SERVER_SUBSTRAIT SqlInfo = 5
-	// Retrieves a string value indicating the minimum supported Substrait version, or null
-	// if Substrait is not supported.
-	SqlInfo_FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION SqlInfo = 6
-	// Retrieves a string value indicating the maximum supported Substrait version, or null
-	// if Substrait is not supported.
-	SqlInfo_FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION SqlInfo = 7
-	// Retrieves an int32 indicating whether the Flight SQL Server supports the
-	// BeginTransaction/EndTransaction/BeginSavepoint/EndSavepoint actions.
-	//
-	// Even if this is not supported, the database may still support explicit "BEGIN
-	// TRANSACTION"/"COMMIT" SQL statements (see SQL_TRANSACTIONS_SUPPORTED); this property
-	// is only about whether the server implements the Flight SQL API endpoints.
-	//
-	// The possible values are listed in `SqlSupportedTransaction`.
-	SqlInfo_FLIGHT_SQL_SERVER_TRANSACTION SqlInfo = 8
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports explicit
-	// query cancellation (the CancelQuery action).
-	SqlInfo_FLIGHT_SQL_SERVER_CANCEL SqlInfo = 9
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports executing
-	// bulk ingestion.
-	SqlInfo_FLIGHT_SQL_SERVER_BULK_INGESTION SqlInfo = 10
-	// Retrieves a boolean value indicating whether transactions are supported for bulk ingestion. If not, invoking
-	// the method commit in the context of a bulk ingestion is a noop, and the isolation level is
-	// `arrow.flight.protocol.sql.SqlTransactionIsolationLevel.TRANSACTION_NONE`.
-	//
-	// Returns:
-	// - false: if bulk ingestion transactions are unsupported;
-	// - true: if bulk ingestion transactions are supported.
-	SqlInfo_FLIGHT_SQL_SERVER_INGEST_TRANSACTIONS_SUPPORTED SqlInfo = 11
-	// Retrieves an int32 indicating the timeout (in milliseconds) for prepared statement handles.
-	//
-	// If 0, there is no timeout.  Servers should reset the timeout when the handle is used in a command.
-	SqlInfo_FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT SqlInfo = 100
-	// Retrieves an int32 indicating the timeout (in milliseconds) for transactions, since transactions are not tied to a connection.
-	//
-	// If 0, there is no timeout.  Servers should reset the timeout when the handle is used in a command.
-	SqlInfo_FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT SqlInfo = 101
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports CREATE and DROP of catalogs.
-	//
-	// Returns:
-	// - false: if it doesn't support CREATE and DROP of catalogs.
-	// - true: if it supports CREATE and DROP of catalogs.
-	SqlInfo_SQL_DDL_CATALOG SqlInfo = 500
-	// Retrieves a boolean value indicating whether the Flight SQL Server supports CREATE and DROP of schemas.
-	//
-	// Returns:
-	// - false: if it doesn't support CREATE and DROP of schemas.
-	// - true: if it supports CREATE and DROP of schemas.
-	SqlInfo_SQL_DDL_SCHEMA SqlInfo = 501
-	// Indicates whether the Flight SQL Server supports CREATE and DROP of tables.
-	//
-	// Returns:
-	// - false: if it doesn't support CREATE and DROP of tables.
-	// - true: if it supports CREATE and DROP of tables.
-	SqlInfo_SQL_DDL_TABLE SqlInfo = 502
-	// Retrieves a int32 ordinal representing the case sensitivity of catalog, table, schema and table names.
-	//
-	// The possible values are listed in `arrow.flight.protocol.sql.SqlSupportedCaseSensitivity`.
-	SqlInfo_SQL_IDENTIFIER_CASE SqlInfo = 503
-	// Retrieves a UTF-8 string with the supported character(s) used to surround a delimited identifier.
-	SqlInfo_SQL_IDENTIFIER_QUOTE_CHAR SqlInfo = 504
-	// Retrieves a int32 describing the case sensitivity of quoted identifiers.
-	//
-	// The possible values are listed in `arrow.flight.protocol.sql.SqlSupportedCaseSensitivity`.
-	SqlInfo_SQL_QUOTED_IDENTIFIER_CASE SqlInfo = 505
-	// Retrieves a boolean value indicating whether all tables are selectable.
-	//
-	// Returns:
-	// - false: if not all tables are selectable or if none are;
-	// - true: if all tables are selectable.
-	SqlInfo_SQL_ALL_TABLES_ARE_SELECTABLE SqlInfo = 506
-	// Retrieves the null ordering.
-	//
-	// Returns a int32 ordinal for the null ordering being used, as described in
-	// `arrow.flight.protocol.sql.SqlNullOrdering`.
-	SqlInfo_SQL_NULL_ORDERING SqlInfo = 507
-	// Retrieves a UTF-8 string list with values of the supported keywords.
-	SqlInfo_SQL_KEYWORDS SqlInfo = 508
-	// Retrieves a UTF-8 string list with values of the supported numeric functions.
-	SqlInfo_SQL_NUMERIC_FUNCTIONS SqlInfo = 509
-	// Retrieves a UTF-8 string list with values of the supported string functions.
-	SqlInfo_SQL_STRING_FUNCTIONS SqlInfo = 510
-	// Retrieves a UTF-8 string list with values of the supported system functions.
-	SqlInfo_SQL_SYSTEM_FUNCTIONS SqlInfo = 511
-	// Retrieves a UTF-8 string list with values of the supported datetime functions.
-	SqlInfo_SQL_DATETIME_FUNCTIONS SqlInfo = 512
-	// Retrieves the UTF-8 string that can be used to escape wildcard characters.
-	// This is the string that can be used to escape '_' or '%' in the catalog search parameters that are a pattern
-	// (and therefore use one of the wildcard characters).
-	// The '_' character represents any single character; the '%' character represents any sequence of zero or more
-	// characters.
-	SqlInfo_SQL_SEARCH_STRING_ESCAPE SqlInfo = 513
-	// Retrieves a UTF-8 string with all the "extra" characters that can be used in unquoted identifier names
-	// (those beyond a-z, A-Z, 0-9 and _).
-	SqlInfo_SQL_EXTRA_NAME_CHARACTERS SqlInfo = 514
-	// Retrieves a boolean value indicating whether column aliasing is supported.
-	// If so, the SQL AS clause can be used to provide names for computed columns or to provide alias names for columns
-	// as required.
-	//
-	// Returns:
-	// - false: if column aliasing is unsupported;
-	// - true: if column aliasing is supported.
-	SqlInfo_SQL_SUPPORTS_COLUMN_ALIASING SqlInfo = 515
-	// Retrieves a boolean value indicating whether concatenations between null and non-null values being
-	// null are supported.
-	//
-	// - Returns:
-	// - false: if concatenations between null and non-null values being null are unsupported;
-	// - true: if concatenations between null and non-null values being null are supported.
-	SqlInfo_SQL_NULL_PLUS_NULL_IS_NULL SqlInfo = 516
-	// Retrieves a map where the key is the type to convert from and the value is a list with the types to convert to,
-	// indicating the supported conversions. Each key and each item on the list value is a value to a predefined type on
-	// SqlSupportsConvert enum.
-	// The returned map will be:  map<int32, list<int32>>
-	SqlInfo_SQL_SUPPORTS_CONVERT SqlInfo = 517
-	// Retrieves a boolean value indicating whether, when table correlation names are supported,
-	// they are restricted to being different from the names of the tables.
-	//
-	// Returns:
-	// - false: if table correlation names are unsupported;
-	// - true: if table correlation names are supported.
-	SqlInfo_SQL_SUPPORTS_TABLE_CORRELATION_NAMES SqlInfo = 518
-	// Retrieves a boolean value indicating whether, when table correlation names are supported,
-	// they are restricted to being different from the names of the tables.
-	//
-	// Returns:
-	// - false: if different table correlation names are unsupported;
-	// - true: if different table correlation names are supported
-	SqlInfo_SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES SqlInfo = 519
-	// Retrieves a boolean value indicating whether expressions in ORDER BY lists are supported.
-	//
-	// Returns:
-	// - false: if expressions in ORDER BY are unsupported;
-	// - true: if expressions in ORDER BY are supported;
-	SqlInfo_SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY SqlInfo = 520
-	// Retrieves a boolean value indicating whether using a column that is not in the SELECT statement in a GROUP BY
-	// clause is supported.
-	//
-	// Returns:
-	// - false: if using a column that is not in the SELECT statement in a GROUP BY clause is unsupported;
-	// - true: if using a column that is not in the SELECT statement in a GROUP BY clause is supported.
-	SqlInfo_SQL_SUPPORTS_ORDER_BY_UNRELATED SqlInfo = 521
-	// Retrieves the supported GROUP BY commands;
-	//
-	// Returns an int32 bitmask value representing the supported commands.
-	// The returned bitmask should be parsed in order to retrieve the supported commands.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (GROUP BY is unsupported);
-	// - return 1 (\b1)   => [SQL_GROUP_BY_UNRELATED];
-	// - return 2 (\b10)  => [SQL_GROUP_BY_BEYOND_SELECT];
-	// - return 3 (\b11)  => [SQL_GROUP_BY_UNRELATED, SQL_GROUP_BY_BEYOND_SELECT].
-	// Valid GROUP BY types are described under `arrow.flight.protocol.sql.SqlSupportedGroupBy`.
-	SqlInfo_SQL_SUPPORTED_GROUP_BY SqlInfo = 522
-	// Retrieves a boolean value indicating whether specifying a LIKE escape clause is supported.
-	//
-	// Returns:
-	// - false: if specifying a LIKE escape clause is unsupported;
-	// - true: if specifying a LIKE escape clause is supported.
-	SqlInfo_SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE SqlInfo = 523
-	// Retrieves a boolean value indicating whether columns may be defined as non-nullable.
-	//
-	// Returns:
-	// - false: if columns cannot be defined as non-nullable;
-	// - true: if columns may be defined as non-nullable.
-	SqlInfo_SQL_SUPPORTS_NON_NULLABLE_COLUMNS SqlInfo = 524
-	// Retrieves the supported SQL grammar level as per the ODBC specification.
-	//
-	// Returns an int32 bitmask value representing the supported SQL grammar level.
-	// The returned bitmask should be parsed in order to retrieve the supported grammar levels.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (SQL grammar is unsupported);
-	// - return 1 (\b1)   => [SQL_MINIMUM_GRAMMAR];
-	// - return 2 (\b10)  => [SQL_CORE_GRAMMAR];
-	// - return 3 (\b11)  => [SQL_MINIMUM_GRAMMAR, SQL_CORE_GRAMMAR];
-	// - return 4 (\b100) => [SQL_EXTENDED_GRAMMAR];
-	// - return 5 (\b101) => [SQL_MINIMUM_GRAMMAR, SQL_EXTENDED_GRAMMAR];
-	// - return 6 (\b110) => [SQL_CORE_GRAMMAR, SQL_EXTENDED_GRAMMAR];
-	// - return 7 (\b111) => [SQL_MINIMUM_GRAMMAR, SQL_CORE_GRAMMAR, SQL_EXTENDED_GRAMMAR].
-	// Valid SQL grammar levels are described under `arrow.flight.protocol.sql.SupportedSqlGrammar`.
-	SqlInfo_SQL_SUPPORTED_GRAMMAR SqlInfo = 525
-	// Retrieves the supported ANSI92 SQL grammar level.
-	//
-	// Returns an int32 bitmask value representing the supported ANSI92 SQL grammar level.
-	// The returned bitmask should be parsed in order to retrieve the supported commands.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (ANSI92 SQL grammar is unsupported);
-	// - return 1 (\b1)   => [ANSI92_ENTRY_SQL];
-	// - return 2 (\b10)  => [ANSI92_INTERMEDIATE_SQL];
-	// - return 3 (\b11)  => [ANSI92_ENTRY_SQL, ANSI92_INTERMEDIATE_SQL];
-	// - return 4 (\b100) => [ANSI92_FULL_SQL];
-	// - return 5 (\b101) => [ANSI92_ENTRY_SQL, ANSI92_FULL_SQL];
-	// - return 6 (\b110) => [ANSI92_INTERMEDIATE_SQL, ANSI92_FULL_SQL];
-	// - return 7 (\b111) => [ANSI92_ENTRY_SQL, ANSI92_INTERMEDIATE_SQL, ANSI92_FULL_SQL].
-	// Valid ANSI92 SQL grammar levels are described under `arrow.flight.protocol.sql.SupportedAnsi92SqlGrammarLevel`.
-	SqlInfo_SQL_ANSI92_SUPPORTED_LEVEL SqlInfo = 526
-	// Retrieves a boolean value indicating whether the SQL Integrity Enhancement Facility is supported.
-	//
-	// Returns:
-	// - false: if the SQL Integrity Enhancement Facility is supported;
-	// - true: if the SQL Integrity Enhancement Facility is supported.
-	SqlInfo_SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY SqlInfo = 527
-	// Retrieves the support level for SQL OUTER JOINs.
-	//
-	// Returns a int32 ordinal for the SQL ordering being used, as described in
-	// `arrow.flight.protocol.sql.SqlOuterJoinsSupportLevel`.
-	SqlInfo_SQL_OUTER_JOINS_SUPPORT_LEVEL SqlInfo = 528
-	// Retrieves a UTF-8 string with the preferred term for "schema".
-	SqlInfo_SQL_SCHEMA_TERM SqlInfo = 529
-	// Retrieves a UTF-8 string with the preferred term for "procedure".
-	SqlInfo_SQL_PROCEDURE_TERM SqlInfo = 530
-	// Retrieves a UTF-8 string with the preferred term for "catalog".
-	// If a empty string is returned its assumed that the server does NOT supports catalogs.
-	SqlInfo_SQL_CATALOG_TERM SqlInfo = 531
-	// Retrieves a boolean value indicating whether a catalog appears at the start of a fully qualified table name.
-	//
-	// - false: if a catalog does not appear at the start of a fully qualified table name;
-	// - true: if a catalog appears at the start of a fully qualified table name.
-	SqlInfo_SQL_CATALOG_AT_START SqlInfo = 532
-	// Retrieves the supported actions for a SQL schema.
-	//
-	// Returns an int32 bitmask value representing the supported actions for a SQL schema.
-	// The returned bitmask should be parsed in order to retrieve the supported actions for a SQL schema.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported actions for SQL schema);
-	// - return 1 (\b1)   => [SQL_ELEMENT_IN_PROCEDURE_CALLS];
-	// - return 2 (\b10)  => [SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 3 (\b11)  => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 4 (\b100) => [SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 5 (\b101) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 6 (\b110) => [SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 7 (\b111) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS].
-	// Valid actions for a SQL schema described under `arrow.flight.protocol.sql.SqlSupportedElementActions`.
-	SqlInfo_SQL_SCHEMAS_SUPPORTED_ACTIONS SqlInfo = 533
-	// Retrieves the supported actions for a SQL schema.
-	//
-	// Returns an int32 bitmask value representing the supported actions for a SQL catalog.
-	// The returned bitmask should be parsed in order to retrieve the supported actions for a SQL catalog.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported actions for SQL catalog);
-	// - return 1 (\b1)   => [SQL_ELEMENT_IN_PROCEDURE_CALLS];
-	// - return 2 (\b10)  => [SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 3 (\b11)  => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS];
-	// - return 4 (\b100) => [SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 5 (\b101) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 6 (\b110) => [SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
-	// - return 7 (\b111) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS].
-	// Valid actions for a SQL catalog are described under `arrow.flight.protocol.sql.SqlSupportedElementActions`.
-	SqlInfo_SQL_CATALOGS_SUPPORTED_ACTIONS SqlInfo = 534
-	// Retrieves the supported SQL positioned commands.
-	//
-	// Returns an int32 bitmask value representing the supported SQL positioned commands.
-	// The returned bitmask should be parsed in order to retrieve the supported SQL positioned commands.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported SQL positioned commands);
-	// - return 1 (\b1)   => [SQL_POSITIONED_DELETE];
-	// - return 2 (\b10)  => [SQL_POSITIONED_UPDATE];
-	// - return 3 (\b11)  => [SQL_POSITIONED_DELETE, SQL_POSITIONED_UPDATE].
-	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlSupportedPositionedCommands`.
-	SqlInfo_SQL_SUPPORTED_POSITIONED_COMMANDS SqlInfo = 535
-	// Retrieves a boolean value indicating whether SELECT FOR UPDATE statements are supported.
-	//
-	// Returns:
-	// - false: if SELECT FOR UPDATE statements are unsupported;
-	// - true: if SELECT FOR UPDATE statements are supported.
-	SqlInfo_SQL_SELECT_FOR_UPDATE_SUPPORTED SqlInfo = 536
-	// Retrieves a boolean value indicating whether stored procedure calls that use the stored procedure escape syntax
-	// are supported.
-	//
-	// Returns:
-	// - false: if stored procedure calls that use the stored procedure escape syntax are unsupported;
-	// - true: if stored procedure calls that use the stored procedure escape syntax are supported.
-	SqlInfo_SQL_STORED_PROCEDURES_SUPPORTED SqlInfo = 537
-	// Retrieves the supported SQL subqueries.
-	//
-	// Returns an int32 bitmask value representing the supported SQL subqueries.
-	// The returned bitmask should be parsed in order to retrieve the supported SQL subqueries.
-	//
-	// For instance:
-	// - return 0   (\b0)     => [] (no supported SQL subqueries);
-	// - return 1   (\b1)     => [SQL_SUBQUERIES_IN_COMPARISONS];
-	// - return 2   (\b10)    => [SQL_SUBQUERIES_IN_EXISTS];
-	// - return 3   (\b11)    => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS];
-	// - return 4   (\b100)   => [SQL_SUBQUERIES_IN_INS];
-	// - return 5   (\b101)   => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_INS];
-	// - return 6   (\b110)   => [SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_EXISTS];
-	// - return 7   (\b111)   => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS];
-	// - return 8   (\b1000)  => [SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 9   (\b1001)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 10  (\b1010)  => [SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 11  (\b1011)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 12  (\b1100)  => [SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 13  (\b1101)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 14  (\b1110)  => [SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - return 15  (\b1111)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
-	// - ...
-	// Valid SQL subqueries are described under `arrow.flight.protocol.sql.SqlSupportedSubqueries`.
-	SqlInfo_SQL_SUPPORTED_SUBQUERIES SqlInfo = 538
-	// Retrieves a boolean value indicating whether correlated subqueries are supported.
-	//
-	// Returns:
-	// - false: if correlated subqueries are unsupported;
-	// - true: if correlated subqueries are supported.
-	SqlInfo_SQL_CORRELATED_SUBQUERIES_SUPPORTED SqlInfo = 539
-	// Retrieves the supported SQL UNIONs.
-	//
-	// Returns an int32 bitmask value representing the supported SQL UNIONs.
-	// The returned bitmask should be parsed in order to retrieve the supported SQL UNIONs.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported SQL positioned commands);
-	// - return 1 (\b1)   => [SQL_UNION];
-	// - return 2 (\b10)  => [SQL_UNION_ALL];
-	// - return 3 (\b11)  => [SQL_UNION, SQL_UNION_ALL].
-	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlSupportedUnions`.
-	SqlInfo_SQL_SUPPORTED_UNIONS SqlInfo = 540
-	// Retrieves a int64 value representing the maximum number of hex characters allowed in an inline binary literal.
-	SqlInfo_SQL_MAX_BINARY_LITERAL_LENGTH SqlInfo = 541
-	// Retrieves a int64 value representing the maximum number of characters allowed for a character literal.
-	SqlInfo_SQL_MAX_CHAR_LITERAL_LENGTH SqlInfo = 542
-	// Retrieves a int64 value representing the maximum number of characters allowed for a column name.
-	SqlInfo_SQL_MAX_COLUMN_NAME_LENGTH SqlInfo = 543
-	// Retrieves a int64 value representing the maximum number of columns allowed in a GROUP BY clause.
-	SqlInfo_SQL_MAX_COLUMNS_IN_GROUP_BY SqlInfo = 544
-	// Retrieves a int64 value representing the maximum number of columns allowed in an index.
-	SqlInfo_SQL_MAX_COLUMNS_IN_INDEX SqlInfo = 545
-	// Retrieves a int64 value representing the maximum number of columns allowed in an ORDER BY clause.
-	SqlInfo_SQL_MAX_COLUMNS_IN_ORDER_BY SqlInfo = 546
-	// Retrieves a int64 value representing the maximum number of columns allowed in a SELECT list.
-	SqlInfo_SQL_MAX_COLUMNS_IN_SELECT SqlInfo = 547
-	// Retrieves a int64 value representing the maximum number of columns allowed in a table.
-	SqlInfo_SQL_MAX_COLUMNS_IN_TABLE SqlInfo = 548
-	// Retrieves a int64 value representing the maximum number of concurrent connections possible.
-	SqlInfo_SQL_MAX_CONNECTIONS SqlInfo = 549
-	// Retrieves a int64 value the maximum number of characters allowed in a cursor name.
-	SqlInfo_SQL_MAX_CURSOR_NAME_LENGTH SqlInfo = 550
-	// Retrieves a int64 value representing the maximum number of bytes allowed for an index,
-	// including all of the parts of the index.
-	SqlInfo_SQL_MAX_INDEX_LENGTH SqlInfo = 551
-	// Retrieves a int64 value representing the maximum number of characters allowed in a schema name.
-	SqlInfo_SQL_DB_SCHEMA_NAME_LENGTH SqlInfo = 552
-	// Retrieves a int64 value representing the maximum number of characters allowed in a procedure name.
-	SqlInfo_SQL_MAX_PROCEDURE_NAME_LENGTH SqlInfo = 553
-	// Retrieves a int64 value representing the maximum number of characters allowed in a catalog name.
-	SqlInfo_SQL_MAX_CATALOG_NAME_LENGTH SqlInfo = 554
-	// Retrieves a int64 value representing the maximum number of bytes allowed in a single row.
-	SqlInfo_SQL_MAX_ROW_SIZE SqlInfo = 555
-	// Retrieves a boolean indicating whether the return value for the JDBC method getMaxRowSize includes the SQL
-	// data types LONGVARCHAR and LONGVARBINARY.
-	//
-	// Returns:
-	//   - false: if return value for the JDBC method getMaxRowSize does
-	//     not include the SQL data types LONGVARCHAR and LONGVARBINARY;
-	//   - true: if return value for the JDBC method getMaxRowSize includes
-	//     the SQL data types LONGVARCHAR and LONGVARBINARY.
-	SqlInfo_SQL_MAX_ROW_SIZE_INCLUDES_BLOBS SqlInfo = 556
-	// Retrieves a int64 value representing the maximum number of characters allowed for an SQL statement;
-	// a result of 0 (zero) means that there is no limit or the limit is not known.
-	SqlInfo_SQL_MAX_STATEMENT_LENGTH SqlInfo = 557
-	// Retrieves a int64 value representing the maximum number of active statements that can be open at the same time.
-	SqlInfo_SQL_MAX_STATEMENTS SqlInfo = 558
-	// Retrieves a int64 value representing the maximum number of characters allowed in a table name.
-	SqlInfo_SQL_MAX_TABLE_NAME_LENGTH SqlInfo = 559
-	// Retrieves a int64 value representing the maximum number of tables allowed in a SELECT statement.
-	SqlInfo_SQL_MAX_TABLES_IN_SELECT SqlInfo = 560
-	// Retrieves a int64 value representing the maximum number of characters allowed in a user name.
-	SqlInfo_SQL_MAX_USERNAME_LENGTH SqlInfo = 561
-	// Retrieves this database's default transaction isolation level as described in
-	// `arrow.flight.protocol.sql.SqlTransactionIsolationLevel`.
-	//
-	// Returns a int32 ordinal for the SQL transaction isolation level.
-	SqlInfo_SQL_DEFAULT_TRANSACTION_ISOLATION SqlInfo = 562
-	// Retrieves a boolean value indicating whether transactions are supported. If not, invoking the method commit is a
-	// noop, and the isolation level is `arrow.flight.protocol.sql.SqlTransactionIsolationLevel.TRANSACTION_NONE`.
-	//
-	// Returns:
-	// - false: if transactions are unsupported;
-	// - true: if transactions are supported.
-	SqlInfo_SQL_TRANSACTIONS_SUPPORTED SqlInfo = 563
-	// Retrieves the supported transactions isolation levels.
-	//
-	// Returns an int32 bitmask value representing the supported transactions isolation levels.
-	// The returned bitmask should be parsed in order to retrieve the supported transactions isolation levels.
-	//
-	// For instance:
-	// - return 0   (\b0)     => [] (no supported SQL transactions isolation levels);
-	// - return 1   (\b1)     => [SQL_TRANSACTION_NONE];
-	// - return 2   (\b10)    => [SQL_TRANSACTION_READ_UNCOMMITTED];
-	// - return 3   (\b11)    => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED];
-	// - return 4   (\b100)   => [SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 5   (\b101)   => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 6   (\b110)   => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 7   (\b111)   => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 8   (\b1000)  => [SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 9   (\b1001)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 10  (\b1010)  => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 11  (\b1011)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 12  (\b1100)  => [SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 13  (\b1101)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 14  (\b1110)  => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 15  (\b1111)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
-	// - return 16  (\b10000) => [SQL_TRANSACTION_SERIALIZABLE];
-	// - ...
-	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlTransactionIsolationLevel`.
-	SqlInfo_SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS SqlInfo = 564
-	// Retrieves a boolean value indicating whether a data definition statement within a transaction forces
-	// the transaction to commit.
-	//
-	// Returns:
-	// - false: if a data definition statement within a transaction does not force the transaction to commit;
-	// - true: if a data definition statement within a transaction forces the transaction to commit.
-	SqlInfo_SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT SqlInfo = 565
-	// Retrieves a boolean value indicating whether a data definition statement within a transaction is ignored.
-	//
-	// Returns:
-	// - false: if a data definition statement within a transaction is taken into account;
-	// - true: a data definition statement within a transaction is ignored.
-	SqlInfo_SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED SqlInfo = 566
-	// Retrieves an int32 bitmask value representing the supported result set types.
-	// The returned bitmask should be parsed in order to retrieve the supported result set types.
-	//
-	// For instance:
-	// - return 0   (\b0)     => [] (no supported result set types);
-	// - return 1   (\b1)     => [SQL_RESULT_SET_TYPE_UNSPECIFIED];
-	// - return 2   (\b10)    => [SQL_RESULT_SET_TYPE_FORWARD_ONLY];
-	// - return 3   (\b11)    => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_FORWARD_ONLY];
-	// - return 4   (\b100)   => [SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 5   (\b101)   => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 6   (\b110)   => [SQL_RESULT_SET_TYPE_FORWARD_ONLY, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 7   (\b111)   => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_FORWARD_ONLY, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
-	// - return 8   (\b1000)  => [SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE];
-	// - ...
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetType`.
-	SqlInfo_SQL_SUPPORTED_RESULT_SET_TYPES SqlInfo = 567
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_UNSPECIFIED`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_UNSPECIFIED SqlInfo = 568
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_FORWARD_ONLY`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_FORWARD_ONLY SqlInfo = 569
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_SENSITIVE SqlInfo = 570
-	// Returns an int32 bitmask value concurrency types supported for
-	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE`.
-	//
-	// For instance:
-	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
-	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
-	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
-	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
-	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
-	SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_INSENSITIVE SqlInfo = 571
-	// Retrieves a boolean value indicating whether this database supports batch updates.
-	//
-	// - false: if this database does not support batch updates;
-	// - true: if this database supports batch updates.
-	SqlInfo_SQL_BATCH_UPDATES_SUPPORTED SqlInfo = 572
-	// Retrieves a boolean value indicating whether this database supports savepoints.
-	//
-	// Returns:
-	// - false: if this database does not support savepoints;
-	// - true: if this database supports savepoints.
-	SqlInfo_SQL_SAVEPOINTS_SUPPORTED SqlInfo = 573
-	// Retrieves a boolean value indicating whether named parameters are supported in callable statements.
-	//
-	// Returns:
-	// - false: if named parameters in callable statements are unsupported;
-	// - true: if named parameters in callable statements are supported.
-	SqlInfo_SQL_NAMED_PARAMETERS_SUPPORTED SqlInfo = 574
-	// Retrieves a boolean value indicating whether updates made to a LOB are made on a copy or directly to the LOB.
-	//
-	// Returns:
-	// - false: if updates made to a LOB are made directly to the LOB;
-	// - true: if updates made to a LOB are made on a copy.
-	SqlInfo_SQL_LOCATORS_UPDATE_COPY SqlInfo = 575
-	// Retrieves a boolean value indicating whether invoking user-defined or vendor functions
-	// using the stored procedure escape syntax is supported.
-	//
-	// Returns:
-	// - false: if invoking user-defined or vendor functions using the stored procedure escape syntax is unsupported;
-	// - true: if invoking user-defined or vendor functions using the stored procedure escape syntax is supported.
-	SqlInfo_SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED SqlInfo = 576
-)
-
-// Enum value maps for SqlInfo.
-var (
-	SqlInfo_name = map[int32]string{
-		0:   "FLIGHT_SQL_SERVER_NAME",
-		1:   "FLIGHT_SQL_SERVER_VERSION",
-		2:   "FLIGHT_SQL_SERVER_ARROW_VERSION",
-		3:   "FLIGHT_SQL_SERVER_READ_ONLY",
-		4:   "FLIGHT_SQL_SERVER_SQL",
-		5:   "FLIGHT_SQL_SERVER_SUBSTRAIT",
-		6:   "FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION",
-		7:   "FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION",
-		8:   "FLIGHT_SQL_SERVER_TRANSACTION",
-		9:   "FLIGHT_SQL_SERVER_CANCEL",
-		10:  "FLIGHT_SQL_SERVER_BULK_INGESTION",
-		11:  "FLIGHT_SQL_SERVER_INGEST_TRANSACTIONS_SUPPORTED",
-		100: "FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT",
-		101: "FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT",
-		500: "SQL_DDL_CATALOG",
-		501: "SQL_DDL_SCHEMA",
-		502: "SQL_DDL_TABLE",
-		503: "SQL_IDENTIFIER_CASE",
-		504: "SQL_IDENTIFIER_QUOTE_CHAR",
-		505: "SQL_QUOTED_IDENTIFIER_CASE",
-		506: "SQL_ALL_TABLES_ARE_SELECTABLE",
-		507: "SQL_NULL_ORDERING",
-		508: "SQL_KEYWORDS",
-		509: "SQL_NUMERIC_FUNCTIONS",
-		510: "SQL_STRING_FUNCTIONS",
-		511: "SQL_SYSTEM_FUNCTIONS",
-		512: "SQL_DATETIME_FUNCTIONS",
-		513: "SQL_SEARCH_STRING_ESCAPE",
-		514: "SQL_EXTRA_NAME_CHARACTERS",
-		515: "SQL_SUPPORTS_COLUMN_ALIASING",
-		516: "SQL_NULL_PLUS_NULL_IS_NULL",
-		517: "SQL_SUPPORTS_CONVERT",
-		518: "SQL_SUPPORTS_TABLE_CORRELATION_NAMES",
-		519: "SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES",
-		520: "SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY",
-		521: "SQL_SUPPORTS_ORDER_BY_UNRELATED",
-		522: "SQL_SUPPORTED_GROUP_BY",
-		523: "SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE",
-		524: "SQL_SUPPORTS_NON_NULLABLE_COLUMNS",
-		525: "SQL_SUPPORTED_GRAMMAR",
-		526: "SQL_ANSI92_SUPPORTED_LEVEL",
-		527: "SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY",
-		528: "SQL_OUTER_JOINS_SUPPORT_LEVEL",
-		529: "SQL_SCHEMA_TERM",
-		530: "SQL_PROCEDURE_TERM",
-		531: "SQL_CATALOG_TERM",
-		532: "SQL_CATALOG_AT_START",
-		533: "SQL_SCHEMAS_SUPPORTED_ACTIONS",
-		534: "SQL_CATALOGS_SUPPORTED_ACTIONS",
-		535: "SQL_SUPPORTED_POSITIONED_COMMANDS",
-		536: "SQL_SELECT_FOR_UPDATE_SUPPORTED",
-		537: "SQL_STORED_PROCEDURES_SUPPORTED",
-		538: "SQL_SUPPORTED_SUBQUERIES",
-		539: "SQL_CORRELATED_SUBQUERIES_SUPPORTED",
-		540: "SQL_SUPPORTED_UNIONS",
-		541: "SQL_MAX_BINARY_LITERAL_LENGTH",
-		542: "SQL_MAX_CHAR_LITERAL_LENGTH",
-		543: "SQL_MAX_COLUMN_NAME_LENGTH",
-		544: "SQL_MAX_COLUMNS_IN_GROUP_BY",
-		545: "SQL_MAX_COLUMNS_IN_INDEX",
-		546: "SQL_MAX_COLUMNS_IN_ORDER_BY",
-		547: "SQL_MAX_COLUMNS_IN_SELECT",
-		548: "SQL_MAX_COLUMNS_IN_TABLE",
-		549: "SQL_MAX_CONNECTIONS",
-		550: "SQL_MAX_CURSOR_NAME_LENGTH",
-		551: "SQL_MAX_INDEX_LENGTH",
-		552: "SQL_DB_SCHEMA_NAME_LENGTH",
-		553: "SQL_MAX_PROCEDURE_NAME_LENGTH",
-		554: "SQL_MAX_CATALOG_NAME_LENGTH",
-		555: "SQL_MAX_ROW_SIZE",
-		556: "SQL_MAX_ROW_SIZE_INCLUDES_BLOBS",
-		557: "SQL_MAX_STATEMENT_LENGTH",
-		558: "SQL_MAX_STATEMENTS",
-		559: "SQL_MAX_TABLE_NAME_LENGTH",
-		560: "SQL_MAX_TABLES_IN_SELECT",
-		561: "SQL_MAX_USERNAME_LENGTH",
-		562: "SQL_DEFAULT_TRANSACTION_ISOLATION",
-		563: "SQL_TRANSACTIONS_SUPPORTED",
-		564: "SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS",
-		565: "SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT",
-		566: "SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED",
-		567: "SQL_SUPPORTED_RESULT_SET_TYPES",
-		568: "SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_UNSPECIFIED",
-		569: "SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_FORWARD_ONLY",
-		570: "SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_SENSITIVE",
-		571: "SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_INSENSITIVE",
-		572: "SQL_BATCH_UPDATES_SUPPORTED",
-		573: "SQL_SAVEPOINTS_SUPPORTED",
-		574: "SQL_NAMED_PARAMETERS_SUPPORTED",
-		575: "SQL_LOCATORS_UPDATE_COPY",
-		576: "SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED",
-	}
-	SqlInfo_value = map[string]int32{
-		"FLIGHT_SQL_SERVER_NAME":                                        0,
-		"FLIGHT_SQL_SERVER_VERSION":                                     1,
-		"FLIGHT_SQL_SERVER_ARROW_VERSION":                               2,
-		"FLIGHT_SQL_SERVER_READ_ONLY":                                   3,
-		"FLIGHT_SQL_SERVER_SQL":                                         4,
-		"FLIGHT_SQL_SERVER_SUBSTRAIT":                                   5,
-		"FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION":                       6,
-		"FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION":                       7,
-		"FLIGHT_SQL_SERVER_TRANSACTION":                                 8,
-		"FLIGHT_SQL_SERVER_CANCEL":                                      9,
-		"FLIGHT_SQL_SERVER_BULK_INGESTION":                              10,
-		"FLIGHT_SQL_SERVER_INGEST_TRANSACTIONS_SUPPORTED":               11,
-		"FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT":                           100,
-		"FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT":                         101,
-		"SQL_DDL_CATALOG":                                               500,
-		"SQL_DDL_SCHEMA":                                                501,
-		"SQL_DDL_TABLE":                                                 502,
-		"SQL_IDENTIFIER_CASE":                                           503,
-		"SQL_IDENTIFIER_QUOTE_CHAR":                                     504,
-		"SQL_QUOTED_IDENTIFIER_CASE":                                    505,
-		"SQL_ALL_TABLES_ARE_SELECTABLE":                                 506,
-		"SQL_NULL_ORDERING":                                             507,
-		"SQL_KEYWORDS":                                                  508,
-		"SQL_NUMERIC_FUNCTIONS":                                         509,
-		"SQL_STRING_FUNCTIONS":                                          510,
-		"SQL_SYSTEM_FUNCTIONS":                                          511,
-		"SQL_DATETIME_FUNCTIONS":                                        512,
-		"SQL_SEARCH_STRING_ESCAPE":                                      513,
-		"SQL_EXTRA_NAME_CHARACTERS":                                     514,
-		"SQL_SUPPORTS_COLUMN_ALIASING":                                  515,
-		"SQL_NULL_PLUS_NULL_IS_NULL":                                    516,
-		"SQL_SUPPORTS_CONVERT":                                          517,
-		"SQL_SUPPORTS_TABLE_CORRELATION_NAMES":                          518,
-		"SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES":                519,
-		"SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY":                          520,
-		"SQL_SUPPORTS_ORDER_BY_UNRELATED":                               521,
-		"SQL_SUPPORTED_GROUP_BY":                                        522,
-		"SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE":                               523,
-		"SQL_SUPPORTS_NON_NULLABLE_COLUMNS":                             524,
-		"SQL_SUPPORTED_GRAMMAR":                                         525,
-		"SQL_ANSI92_SUPPORTED_LEVEL":                                    526,
-		"SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY":                   527,
-		"SQL_OUTER_JOINS_SUPPORT_LEVEL":                                 528,
-		"SQL_SCHEMA_TERM":                                               529,
-		"SQL_PROCEDURE_TERM":                                            530,
-		"SQL_CATALOG_TERM":                                              531,
-		"SQL_CATALOG_AT_START":                                          532,
-		"SQL_SCHEMAS_SUPPORTED_ACTIONS":                                 533,
-		"SQL_CATALOGS_SUPPORTED_ACTIONS":                                534,
-		"SQL_SUPPORTED_POSITIONED_COMMANDS":                             535,
-		"SQL_SELECT_FOR_UPDATE_SUPPORTED":                               536,
-		"SQL_STORED_PROCEDURES_SUPPORTED":                               537,
-		"SQL_SUPPORTED_SUBQUERIES":                                      538,
-		"SQL_CORRELATED_SUBQUERIES_SUPPORTED":                           539,
-		"SQL_SUPPORTED_UNIONS":                                          540,
-		"SQL_MAX_BINARY_LITERAL_LENGTH":                                 541,
-		"SQL_MAX_CHAR_LITERAL_LENGTH":                                   542,
-		"SQL_MAX_COLUMN_NAME_LENGTH":                                    543,
-		"SQL_MAX_COLUMNS_IN_GROUP_BY":                                   544,
-		"SQL_MAX_COLUMNS_IN_INDEX":                                      545,
-		"SQL_MAX_COLUMNS_IN_ORDER_BY":                                   546,
-		"SQL_MAX_COLUMNS_IN_SELECT":                                     547,
-		"SQL_MAX_COLUMNS_IN_TABLE":                                      548,
-		"SQL_MAX_CONNECTIONS":                                           549,
-		"SQL_MAX_CURSOR_NAME_LENGTH":                                    550,
-		"SQL_MAX_INDEX_LENGTH":                                          551,
-		"SQL_DB_SCHEMA_NAME_LENGTH":                                     552,
-		"SQL_MAX_PROCEDURE_NAME_LENGTH":                                 553,
-		"SQL_MAX_CATALOG_NAME_LENGTH":                                   554,
-		"SQL_MAX_ROW_SIZE":                                              555,
-		"SQL_MAX_ROW_SIZE_INCLUDES_BLOBS":                               556,
-		"SQL_MAX_STATEMENT_LENGTH":                                      557,
-		"SQL_MAX_STATEMENTS":                                            558,
-		"SQL_MAX_TABLE_NAME_LENGTH":                                     559,
-		"SQL_MAX_TABLES_IN_SELECT":                                      560,
-		"SQL_MAX_USERNAME_LENGTH":                                       561,
-		"SQL_DEFAULT_TRANSACTION_ISOLATION":                             562,
-		"SQL_TRANSACTIONS_SUPPORTED":                                    563,
-		"SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS":                   564,
-		"SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT":                 565,
-		"SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED":                  566,
-		"SQL_SUPPORTED_RESULT_SET_TYPES":                                567,
-		"SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_UNSPECIFIED":        568,
-		"SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_FORWARD_ONLY":       569,
-		"SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_SENSITIVE":   570,
-		"SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_INSENSITIVE": 571,
-		"SQL_BATCH_UPDATES_SUPPORTED":                                   572,
-		"SQL_SAVEPOINTS_SUPPORTED":                                      573,
-		"SQL_NAMED_PARAMETERS_SUPPORTED":                                574,
-		"SQL_LOCATORS_UPDATE_COPY":                                      575,
-		"SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED":              576,
-	}
-)
-
-func (x SqlInfo) Enum() *SqlInfo {
-	p := new(SqlInfo)
-	*p = x
-	return p
-}
-
-func (x SqlInfo) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlInfo) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[0].Descriptor()
-}
-
-func (SqlInfo) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[0]
-}
-
-func (x SqlInfo) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlInfo.Descriptor instead.
-func (SqlInfo) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{0}
-}
-
-// The level of support for Flight SQL transaction RPCs.
-type SqlSupportedTransaction int32
-
-const (
-	// Unknown/not indicated/no support
-	SqlSupportedTransaction_SQL_SUPPORTED_TRANSACTION_NONE SqlSupportedTransaction = 0
-	// Transactions, but not savepoints.
-	// A savepoint is a mark within a transaction that can be individually
-	// rolled back to. Not all databases support savepoints.
-	SqlSupportedTransaction_SQL_SUPPORTED_TRANSACTION_TRANSACTION SqlSupportedTransaction = 1
-	// Transactions and savepoints
-	SqlSupportedTransaction_SQL_SUPPORTED_TRANSACTION_SAVEPOINT SqlSupportedTransaction = 2
-)
-
-// Enum value maps for SqlSupportedTransaction.
-var (
-	SqlSupportedTransaction_name = map[int32]string{
-		0: "SQL_SUPPORTED_TRANSACTION_NONE",
-		1: "SQL_SUPPORTED_TRANSACTION_TRANSACTION",
-		2: "SQL_SUPPORTED_TRANSACTION_SAVEPOINT",
-	}
-	SqlSupportedTransaction_value = map[string]int32{
-		"SQL_SUPPORTED_TRANSACTION_NONE":        0,
-		"SQL_SUPPORTED_TRANSACTION_TRANSACTION": 1,
-		"SQL_SUPPORTED_TRANSACTION_SAVEPOINT":   2,
-	}
-)
-
-func (x SqlSupportedTransaction) Enum() *SqlSupportedTransaction {
-	p := new(SqlSupportedTransaction)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedTransaction) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedTransaction) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[1].Descriptor()
-}
-
-func (SqlSupportedTransaction) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[1]
-}
-
-func (x SqlSupportedTransaction) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedTransaction.Descriptor instead.
-func (SqlSupportedTransaction) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{1}
-}
-
-type SqlSupportedCaseSensitivity int32
-
-const (
-	SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_UNKNOWN          SqlSupportedCaseSensitivity = 0
-	SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_CASE_INSENSITIVE SqlSupportedCaseSensitivity = 1
-	SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_UPPERCASE        SqlSupportedCaseSensitivity = 2
-	SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_LOWERCASE        SqlSupportedCaseSensitivity = 3
-)
-
-// Enum value maps for SqlSupportedCaseSensitivity.
-var (
-	SqlSupportedCaseSensitivity_name = map[int32]string{
-		0: "SQL_CASE_SENSITIVITY_UNKNOWN",
-		1: "SQL_CASE_SENSITIVITY_CASE_INSENSITIVE",
-		2: "SQL_CASE_SENSITIVITY_UPPERCASE",
-		3: "SQL_CASE_SENSITIVITY_LOWERCASE",
-	}
-	SqlSupportedCaseSensitivity_value = map[string]int32{
-		"SQL_CASE_SENSITIVITY_UNKNOWN":          0,
-		"SQL_CASE_SENSITIVITY_CASE_INSENSITIVE": 1,
-		"SQL_CASE_SENSITIVITY_UPPERCASE":        2,
-		"SQL_CASE_SENSITIVITY_LOWERCASE":        3,
-	}
-)
-
-func (x SqlSupportedCaseSensitivity) Enum() *SqlSupportedCaseSensitivity {
-	p := new(SqlSupportedCaseSensitivity)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedCaseSensitivity) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedCaseSensitivity) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[2].Descriptor()
-}
-
-func (SqlSupportedCaseSensitivity) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[2]
-}
-
-func (x SqlSupportedCaseSensitivity) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedCaseSensitivity.Descriptor instead.
-func (SqlSupportedCaseSensitivity) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{2}
-}
-
-type SqlNullOrdering int32
-
-const (
-	SqlNullOrdering_SQL_NULLS_SORTED_HIGH     SqlNullOrdering = 0
-	SqlNullOrdering_SQL_NULLS_SORTED_LOW      SqlNullOrdering = 1
-	SqlNullOrdering_SQL_NULLS_SORTED_AT_START SqlNullOrdering = 2
-	SqlNullOrdering_SQL_NULLS_SORTED_AT_END   SqlNullOrdering = 3
-)
-
-// Enum value maps for SqlNullOrdering.
-var (
-	SqlNullOrdering_name = map[int32]string{
-		0: "SQL_NULLS_SORTED_HIGH",
-		1: "SQL_NULLS_SORTED_LOW",
-		2: "SQL_NULLS_SORTED_AT_START",
-		3: "SQL_NULLS_SORTED_AT_END",
-	}
-	SqlNullOrdering_value = map[string]int32{
-		"SQL_NULLS_SORTED_HIGH":     0,
-		"SQL_NULLS_SORTED_LOW":      1,
-		"SQL_NULLS_SORTED_AT_START": 2,
-		"SQL_NULLS_SORTED_AT_END":   3,
-	}
-)
-
-func (x SqlNullOrdering) Enum() *SqlNullOrdering {
-	p := new(SqlNullOrdering)
-	*p = x
-	return p
-}
-
-func (x SqlNullOrdering) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlNullOrdering) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[3].Descriptor()
-}
-
-func (SqlNullOrdering) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[3]
-}
-
-func (x SqlNullOrdering) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlNullOrdering.Descriptor instead.
-func (SqlNullOrdering) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{3}
-}
-
-type SupportedSqlGrammar int32
-
-const (
-	SupportedSqlGrammar_SQL_MINIMUM_GRAMMAR  SupportedSqlGrammar = 0
-	SupportedSqlGrammar_SQL_CORE_GRAMMAR     SupportedSqlGrammar = 1
-	SupportedSqlGrammar_SQL_EXTENDED_GRAMMAR SupportedSqlGrammar = 2
-)
-
-// Enum value maps for SupportedSqlGrammar.
-var (
-	SupportedSqlGrammar_name = map[int32]string{
-		0: "SQL_MINIMUM_GRAMMAR",
-		1: "SQL_CORE_GRAMMAR",
-		2: "SQL_EXTENDED_GRAMMAR",
-	}
-	SupportedSqlGrammar_value = map[string]int32{
-		"SQL_MINIMUM_GRAMMAR":  0,
-		"SQL_CORE_GRAMMAR":     1,
-		"SQL_EXTENDED_GRAMMAR": 2,
-	}
-)
-
-func (x SupportedSqlGrammar) Enum() *SupportedSqlGrammar {
-	p := new(SupportedSqlGrammar)
-	*p = x
-	return p
-}
-
-func (x SupportedSqlGrammar) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SupportedSqlGrammar) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[4].Descriptor()
-}
-
-func (SupportedSqlGrammar) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[4]
-}
-
-func (x SupportedSqlGrammar) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SupportedSqlGrammar.Descriptor instead.
-func (SupportedSqlGrammar) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{4}
-}
-
-type SupportedAnsi92SqlGrammarLevel int32
-
-const (
-	SupportedAnsi92SqlGrammarLevel_ANSI92_ENTRY_SQL        SupportedAnsi92SqlGrammarLevel = 0
-	SupportedAnsi92SqlGrammarLevel_ANSI92_INTERMEDIATE_SQL SupportedAnsi92SqlGrammarLevel = 1
-	SupportedAnsi92SqlGrammarLevel_ANSI92_FULL_SQL         SupportedAnsi92SqlGrammarLevel = 2
-)
-
-// Enum value maps for SupportedAnsi92SqlGrammarLevel.
-var (
-	SupportedAnsi92SqlGrammarLevel_name = map[int32]string{
-		0: "ANSI92_ENTRY_SQL",
-		1: "ANSI92_INTERMEDIATE_SQL",
-		2: "ANSI92_FULL_SQL",
-	}
-	SupportedAnsi92SqlGrammarLevel_value = map[string]int32{
-		"ANSI92_ENTRY_SQL":        0,
-		"ANSI92_INTERMEDIATE_SQL": 1,
-		"ANSI92_FULL_SQL":         2,
-	}
-)
-
-func (x SupportedAnsi92SqlGrammarLevel) Enum() *SupportedAnsi92SqlGrammarLevel {
-	p := new(SupportedAnsi92SqlGrammarLevel)
-	*p = x
-	return p
-}
-
-func (x SupportedAnsi92SqlGrammarLevel) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SupportedAnsi92SqlGrammarLevel) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[5].Descriptor()
-}
-
-func (SupportedAnsi92SqlGrammarLevel) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[5]
-}
-
-func (x SupportedAnsi92SqlGrammarLevel) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SupportedAnsi92SqlGrammarLevel.Descriptor instead.
-func (SupportedAnsi92SqlGrammarLevel) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{5}
-}
-
-type SqlOuterJoinsSupportLevel int32
-
-const (
-	SqlOuterJoinsSupportLevel_SQL_JOINS_UNSUPPORTED   SqlOuterJoinsSupportLevel = 0
-	SqlOuterJoinsSupportLevel_SQL_LIMITED_OUTER_JOINS SqlOuterJoinsSupportLevel = 1
-	SqlOuterJoinsSupportLevel_SQL_FULL_OUTER_JOINS    SqlOuterJoinsSupportLevel = 2
-)
-
-// Enum value maps for SqlOuterJoinsSupportLevel.
-var (
-	SqlOuterJoinsSupportLevel_name = map[int32]string{
-		0: "SQL_JOINS_UNSUPPORTED",
-		1: "SQL_LIMITED_OUTER_JOINS",
-		2: "SQL_FULL_OUTER_JOINS",
-	}
-	SqlOuterJoinsSupportLevel_value = map[string]int32{
-		"SQL_JOINS_UNSUPPORTED":   0,
-		"SQL_LIMITED_OUTER_JOINS": 1,
-		"SQL_FULL_OUTER_JOINS":    2,
-	}
-)
-
-func (x SqlOuterJoinsSupportLevel) Enum() *SqlOuterJoinsSupportLevel {
-	p := new(SqlOuterJoinsSupportLevel)
-	*p = x
-	return p
-}
-
-func (x SqlOuterJoinsSupportLevel) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlOuterJoinsSupportLevel) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[6].Descriptor()
-}
-
-func (SqlOuterJoinsSupportLevel) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[6]
-}
-
-func (x SqlOuterJoinsSupportLevel) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlOuterJoinsSupportLevel.Descriptor instead.
-func (SqlOuterJoinsSupportLevel) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{6}
-}
-
-type SqlSupportedGroupBy int32
-
-const (
-	SqlSupportedGroupBy_SQL_GROUP_BY_UNRELATED     SqlSupportedGroupBy = 0
-	SqlSupportedGroupBy_SQL_GROUP_BY_BEYOND_SELECT SqlSupportedGroupBy = 1
-)
-
-// Enum value maps for SqlSupportedGroupBy.
-var (
-	SqlSupportedGroupBy_name = map[int32]string{
-		0: "SQL_GROUP_BY_UNRELATED",
-		1: "SQL_GROUP_BY_BEYOND_SELECT",
-	}
-	SqlSupportedGroupBy_value = map[string]int32{
-		"SQL_GROUP_BY_UNRELATED":     0,
-		"SQL_GROUP_BY_BEYOND_SELECT": 1,
-	}
-)
-
-func (x SqlSupportedGroupBy) Enum() *SqlSupportedGroupBy {
-	p := new(SqlSupportedGroupBy)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedGroupBy) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedGroupBy) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[7].Descriptor()
-}
-
-func (SqlSupportedGroupBy) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[7]
-}
-
-func (x SqlSupportedGroupBy) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedGroupBy.Descriptor instead.
-func (SqlSupportedGroupBy) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{7}
-}
-
-type SqlSupportedElementActions int32
-
-const (
-	SqlSupportedElementActions_SQL_ELEMENT_IN_PROCEDURE_CALLS       SqlSupportedElementActions = 0
-	SqlSupportedElementActions_SQL_ELEMENT_IN_INDEX_DEFINITIONS     SqlSupportedElementActions = 1
-	SqlSupportedElementActions_SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS SqlSupportedElementActions = 2
-)
-
-// Enum value maps for SqlSupportedElementActions.
-var (
-	SqlSupportedElementActions_name = map[int32]string{
-		0: "SQL_ELEMENT_IN_PROCEDURE_CALLS",
-		1: "SQL_ELEMENT_IN_INDEX_DEFINITIONS",
-		2: "SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS",
-	}
-	SqlSupportedElementActions_value = map[string]int32{
-		"SQL_ELEMENT_IN_PROCEDURE_CALLS":       0,
-		"SQL_ELEMENT_IN_INDEX_DEFINITIONS":     1,
-		"SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS": 2,
-	}
-)
-
-func (x SqlSupportedElementActions) Enum() *SqlSupportedElementActions {
-	p := new(SqlSupportedElementActions)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedElementActions) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedElementActions) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[8].Descriptor()
-}
-
-func (SqlSupportedElementActions) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[8]
-}
-
-func (x SqlSupportedElementActions) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedElementActions.Descriptor instead.
-func (SqlSupportedElementActions) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{8}
-}
-
-type SqlSupportedPositionedCommands int32
-
-const (
-	SqlSupportedPositionedCommands_SQL_POSITIONED_DELETE SqlSupportedPositionedCommands = 0
-	SqlSupportedPositionedCommands_SQL_POSITIONED_UPDATE SqlSupportedPositionedCommands = 1
-)
-
-// Enum value maps for SqlSupportedPositionedCommands.
-var (
-	SqlSupportedPositionedCommands_name = map[int32]string{
-		0: "SQL_POSITIONED_DELETE",
-		1: "SQL_POSITIONED_UPDATE",
-	}
-	SqlSupportedPositionedCommands_value = map[string]int32{
-		"SQL_POSITIONED_DELETE": 0,
-		"SQL_POSITIONED_UPDATE": 1,
-	}
-)
-
-func (x SqlSupportedPositionedCommands) Enum() *SqlSupportedPositionedCommands {
-	p := new(SqlSupportedPositionedCommands)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedPositionedCommands) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedPositionedCommands) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[9].Descriptor()
-}
-
-func (SqlSupportedPositionedCommands) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[9]
-}
-
-func (x SqlSupportedPositionedCommands) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedPositionedCommands.Descriptor instead.
-func (SqlSupportedPositionedCommands) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{9}
-}
-
-type SqlSupportedSubqueries int32
-
-const (
-	SqlSupportedSubqueries_SQL_SUBQUERIES_IN_COMPARISONS SqlSupportedSubqueries = 0
-	SqlSupportedSubqueries_SQL_SUBQUERIES_IN_EXISTS      SqlSupportedSubqueries = 1
-	SqlSupportedSubqueries_SQL_SUBQUERIES_IN_INS         SqlSupportedSubqueries = 2
-	SqlSupportedSubqueries_SQL_SUBQUERIES_IN_QUANTIFIEDS SqlSupportedSubqueries = 3
-)
-
-// Enum value maps for SqlSupportedSubqueries.
-var (
-	SqlSupportedSubqueries_name = map[int32]string{
-		0: "SQL_SUBQUERIES_IN_COMPARISONS",
-		1: "SQL_SUBQUERIES_IN_EXISTS",
-		2: "SQL_SUBQUERIES_IN_INS",
-		3: "SQL_SUBQUERIES_IN_QUANTIFIEDS",
-	}
-	SqlSupportedSubqueries_value = map[string]int32{
-		"SQL_SUBQUERIES_IN_COMPARISONS": 0,
-		"SQL_SUBQUERIES_IN_EXISTS":      1,
-		"SQL_SUBQUERIES_IN_INS":         2,
-		"SQL_SUBQUERIES_IN_QUANTIFIEDS": 3,
-	}
-)
-
-func (x SqlSupportedSubqueries) Enum() *SqlSupportedSubqueries {
-	p := new(SqlSupportedSubqueries)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedSubqueries) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedSubqueries) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[10].Descriptor()
-}
-
-func (SqlSupportedSubqueries) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[10]
-}
-
-func (x SqlSupportedSubqueries) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedSubqueries.Descriptor instead.
-func (SqlSupportedSubqueries) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{10}
-}
-
-type SqlSupportedUnions int32
-
-const (
-	SqlSupportedUnions_SQL_UNION     SqlSupportedUnions = 0
-	SqlSupportedUnions_SQL_UNION_ALL SqlSupportedUnions = 1
-)
-
-// Enum value maps for SqlSupportedUnions.
-var (
-	SqlSupportedUnions_name = map[int32]string{
-		0: "SQL_UNION",
-		1: "SQL_UNION_ALL",
-	}
-	SqlSupportedUnions_value = map[string]int32{
-		"SQL_UNION":     0,
-		"SQL_UNION_ALL": 1,
-	}
-)
-
-func (x SqlSupportedUnions) Enum() *SqlSupportedUnions {
-	p := new(SqlSupportedUnions)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedUnions) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedUnions) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[11].Descriptor()
-}
-
-func (SqlSupportedUnions) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[11]
-}
-
-func (x SqlSupportedUnions) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedUnions.Descriptor instead.
-func (SqlSupportedUnions) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{11}
-}
-
-type SqlTransactionIsolationLevel int32
-
-const (
-	SqlTransactionIsolationLevel_SQL_TRANSACTION_NONE             SqlTransactionIsolationLevel = 0
-	SqlTransactionIsolationLevel_SQL_TRANSACTION_READ_UNCOMMITTED SqlTransactionIsolationLevel = 1
-	SqlTransactionIsolationLevel_SQL_TRANSACTION_READ_COMMITTED   SqlTransactionIsolationLevel = 2
-	SqlTransactionIsolationLevel_SQL_TRANSACTION_REPEATABLE_READ  SqlTransactionIsolationLevel = 3
-	SqlTransactionIsolationLevel_SQL_TRANSACTION_SERIALIZABLE     SqlTransactionIsolationLevel = 4
-)
-
-// Enum value maps for SqlTransactionIsolationLevel.
-var (
-	SqlTransactionIsolationLevel_name = map[int32]string{
-		0: "SQL_TRANSACTION_NONE",
-		1: "SQL_TRANSACTION_READ_UNCOMMITTED",
-		2: "SQL_TRANSACTION_READ_COMMITTED",
-		3: "SQL_TRANSACTION_REPEATABLE_READ",
-		4: "SQL_TRANSACTION_SERIALIZABLE",
-	}
-	SqlTransactionIsolationLevel_value = map[string]int32{
-		"SQL_TRANSACTION_NONE":             0,
-		"SQL_TRANSACTION_READ_UNCOMMITTED": 1,
-		"SQL_TRANSACTION_READ_COMMITTED":   2,
-		"SQL_TRANSACTION_REPEATABLE_READ":  3,
-		"SQL_TRANSACTION_SERIALIZABLE":     4,
-	}
-)
-
-func (x SqlTransactionIsolationLevel) Enum() *SqlTransactionIsolationLevel {
-	p := new(SqlTransactionIsolationLevel)
-	*p = x
-	return p
-}
-
-func (x SqlTransactionIsolationLevel) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlTransactionIsolationLevel) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[12].Descriptor()
-}
-
-func (SqlTransactionIsolationLevel) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[12]
-}
-
-func (x SqlTransactionIsolationLevel) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlTransactionIsolationLevel.Descriptor instead.
-func (SqlTransactionIsolationLevel) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{12}
-}
-
-type SqlSupportedTransactions int32
-
-const (
-	SqlSupportedTransactions_SQL_TRANSACTION_UNSPECIFIED        SqlSupportedTransactions = 0
-	SqlSupportedTransactions_SQL_DATA_DEFINITION_TRANSACTIONS   SqlSupportedTransactions = 1
-	SqlSupportedTransactions_SQL_DATA_MANIPULATION_TRANSACTIONS SqlSupportedTransactions = 2
-)
-
-// Enum value maps for SqlSupportedTransactions.
-var (
-	SqlSupportedTransactions_name = map[int32]string{
-		0: "SQL_TRANSACTION_UNSPECIFIED",
-		1: "SQL_DATA_DEFINITION_TRANSACTIONS",
-		2: "SQL_DATA_MANIPULATION_TRANSACTIONS",
-	}
-	SqlSupportedTransactions_value = map[string]int32{
-		"SQL_TRANSACTION_UNSPECIFIED":        0,
-		"SQL_DATA_DEFINITION_TRANSACTIONS":   1,
-		"SQL_DATA_MANIPULATION_TRANSACTIONS": 2,
-	}
-)
-
-func (x SqlSupportedTransactions) Enum() *SqlSupportedTransactions {
-	p := new(SqlSupportedTransactions)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedTransactions) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedTransactions) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[13].Descriptor()
-}
-
-func (SqlSupportedTransactions) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[13]
-}
-
-func (x SqlSupportedTransactions) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedTransactions.Descriptor instead.
-func (SqlSupportedTransactions) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{13}
-}
-
-type SqlSupportedResultSetType int32
-
-const (
-	SqlSupportedResultSetType_SQL_RESULT_SET_TYPE_UNSPECIFIED        SqlSupportedResultSetType = 0
-	SqlSupportedResultSetType_SQL_RESULT_SET_TYPE_FORWARD_ONLY       SqlSupportedResultSetType = 1
-	SqlSupportedResultSetType_SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE SqlSupportedResultSetType = 2
-	SqlSupportedResultSetType_SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE   SqlSupportedResultSetType = 3
-)
-
-// Enum value maps for SqlSupportedResultSetType.
-var (
-	SqlSupportedResultSetType_name = map[int32]string{
-		0: "SQL_RESULT_SET_TYPE_UNSPECIFIED",
-		1: "SQL_RESULT_SET_TYPE_FORWARD_ONLY",
-		2: "SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE",
-		3: "SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE",
-	}
-	SqlSupportedResultSetType_value = map[string]int32{
-		"SQL_RESULT_SET_TYPE_UNSPECIFIED":        0,
-		"SQL_RESULT_SET_TYPE_FORWARD_ONLY":       1,
-		"SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE": 2,
-		"SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE":   3,
-	}
-)
-
-func (x SqlSupportedResultSetType) Enum() *SqlSupportedResultSetType {
-	p := new(SqlSupportedResultSetType)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedResultSetType) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedResultSetType) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[14].Descriptor()
-}
-
-func (SqlSupportedResultSetType) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[14]
-}
-
-func (x SqlSupportedResultSetType) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedResultSetType.Descriptor instead.
-func (SqlSupportedResultSetType) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{14}
-}
-
-type SqlSupportedResultSetConcurrency int32
-
-const (
-	SqlSupportedResultSetConcurrency_SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED SqlSupportedResultSetConcurrency = 0
-	SqlSupportedResultSetConcurrency_SQL_RESULT_SET_CONCURRENCY_READ_ONLY   SqlSupportedResultSetConcurrency = 1
-	SqlSupportedResultSetConcurrency_SQL_RESULT_SET_CONCURRENCY_UPDATABLE   SqlSupportedResultSetConcurrency = 2
-)
-
-// Enum value maps for SqlSupportedResultSetConcurrency.
-var (
-	SqlSupportedResultSetConcurrency_name = map[int32]string{
-		0: "SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED",
-		1: "SQL_RESULT_SET_CONCURRENCY_READ_ONLY",
-		2: "SQL_RESULT_SET_CONCURRENCY_UPDATABLE",
-	}
-	SqlSupportedResultSetConcurrency_value = map[string]int32{
-		"SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED": 0,
-		"SQL_RESULT_SET_CONCURRENCY_READ_ONLY":   1,
-		"SQL_RESULT_SET_CONCURRENCY_UPDATABLE":   2,
-	}
-)
-
-func (x SqlSupportedResultSetConcurrency) Enum() *SqlSupportedResultSetConcurrency {
-	p := new(SqlSupportedResultSetConcurrency)
-	*p = x
-	return p
-}
-
-func (x SqlSupportedResultSetConcurrency) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportedResultSetConcurrency) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[15].Descriptor()
-}
-
-func (SqlSupportedResultSetConcurrency) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[15]
-}
-
-func (x SqlSupportedResultSetConcurrency) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportedResultSetConcurrency.Descriptor instead.
-func (SqlSupportedResultSetConcurrency) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{15}
-}
-
-type SqlSupportsConvert int32
-
-const (
-	SqlSupportsConvert_SQL_CONVERT_BIGINT              SqlSupportsConvert = 0
-	SqlSupportsConvert_SQL_CONVERT_BINARY              SqlSupportsConvert = 1
-	SqlSupportsConvert_SQL_CONVERT_BIT                 SqlSupportsConvert = 2
-	SqlSupportsConvert_SQL_CONVERT_CHAR                SqlSupportsConvert = 3
-	SqlSupportsConvert_SQL_CONVERT_DATE                SqlSupportsConvert = 4
-	SqlSupportsConvert_SQL_CONVERT_DECIMAL             SqlSupportsConvert = 5
-	SqlSupportsConvert_SQL_CONVERT_FLOAT               SqlSupportsConvert = 6
-	SqlSupportsConvert_SQL_CONVERT_INTEGER             SqlSupportsConvert = 7
-	SqlSupportsConvert_SQL_CONVERT_INTERVAL_DAY_TIME   SqlSupportsConvert = 8
-	SqlSupportsConvert_SQL_CONVERT_INTERVAL_YEAR_MONTH SqlSupportsConvert = 9
-	SqlSupportsConvert_SQL_CONVERT_LONGVARBINARY       SqlSupportsConvert = 10
-	SqlSupportsConvert_SQL_CONVERT_LONGVARCHAR         SqlSupportsConvert = 11
-	SqlSupportsConvert_SQL_CONVERT_NUMERIC             SqlSupportsConvert = 12
-	SqlSupportsConvert_SQL_CONVERT_REAL                SqlSupportsConvert = 13
-	SqlSupportsConvert_SQL_CONVERT_SMALLINT            SqlSupportsConvert = 14
-	SqlSupportsConvert_SQL_CONVERT_TIME                SqlSupportsConvert = 15
-	SqlSupportsConvert_SQL_CONVERT_TIMESTAMP           SqlSupportsConvert = 16
-	SqlSupportsConvert_SQL_CONVERT_TINYINT             SqlSupportsConvert = 17
-	SqlSupportsConvert_SQL_CONVERT_VARBINARY           SqlSupportsConvert = 18
-	SqlSupportsConvert_SQL_CONVERT_VARCHAR             SqlSupportsConvert = 19
-)
-
-// Enum value maps for SqlSupportsConvert.
-var (
-	SqlSupportsConvert_name = map[int32]string{
-		0:  "SQL_CONVERT_BIGINT",
-		1:  "SQL_CONVERT_BINARY",
-		2:  "SQL_CONVERT_BIT",
-		3:  "SQL_CONVERT_CHAR",
-		4:  "SQL_CONVERT_DATE",
-		5:  "SQL_CONVERT_DECIMAL",
-		6:  "SQL_CONVERT_FLOAT",
-		7:  "SQL_CONVERT_INTEGER",
-		8:  "SQL_CONVERT_INTERVAL_DAY_TIME",
-		9:  "SQL_CONVERT_INTERVAL_YEAR_MONTH",
-		10: "SQL_CONVERT_LONGVARBINARY",
-		11: "SQL_CONVERT_LONGVARCHAR",
-		12: "SQL_CONVERT_NUMERIC",
-		13: "SQL_CONVERT_REAL",
-		14: "SQL_CONVERT_SMALLINT",
-		15: "SQL_CONVERT_TIME",
-		16: "SQL_CONVERT_TIMESTAMP",
-		17: "SQL_CONVERT_TINYINT",
-		18: "SQL_CONVERT_VARBINARY",
-		19: "SQL_CONVERT_VARCHAR",
-	}
-	SqlSupportsConvert_value = map[string]int32{
-		"SQL_CONVERT_BIGINT":              0,
-		"SQL_CONVERT_BINARY":              1,
-		"SQL_CONVERT_BIT":                 2,
-		"SQL_CONVERT_CHAR":                3,
-		"SQL_CONVERT_DATE":                4,
-		"SQL_CONVERT_DECIMAL":             5,
-		"SQL_CONVERT_FLOAT":               6,
-		"SQL_CONVERT_INTEGER":             7,
-		"SQL_CONVERT_INTERVAL_DAY_TIME":   8,
-		"SQL_CONVERT_INTERVAL_YEAR_MONTH": 9,
-		"SQL_CONVERT_LONGVARBINARY":       10,
-		"SQL_CONVERT_LONGVARCHAR":         11,
-		"SQL_CONVERT_NUMERIC":             12,
-		"SQL_CONVERT_REAL":                13,
-		"SQL_CONVERT_SMALLINT":            14,
-		"SQL_CONVERT_TIME":                15,
-		"SQL_CONVERT_TIMESTAMP":           16,
-		"SQL_CONVERT_TINYINT":             17,
-		"SQL_CONVERT_VARBINARY":           18,
-		"SQL_CONVERT_VARCHAR":             19,
-	}
-)
-
-func (x SqlSupportsConvert) Enum() *SqlSupportsConvert {
-	p := new(SqlSupportsConvert)
-	*p = x
-	return p
-}
-
-func (x SqlSupportsConvert) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (SqlSupportsConvert) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[16].Descriptor()
-}
-
-func (SqlSupportsConvert) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[16]
-}
-
-func (x SqlSupportsConvert) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use SqlSupportsConvert.Descriptor instead.
-func (SqlSupportsConvert) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{16}
-}
-
-// *
-// The JDBC/ODBC-defined type of any object.
-// All the values here are the same as in the JDBC and ODBC specs.
-type XdbcDataType int32
-
-const (
-	XdbcDataType_XDBC_UNKNOWN_TYPE  XdbcDataType = 0
-	XdbcDataType_XDBC_CHAR          XdbcDataType = 1
-	XdbcDataType_XDBC_NUMERIC       XdbcDataType = 2
-	XdbcDataType_XDBC_DECIMAL       XdbcDataType = 3
-	XdbcDataType_XDBC_INTEGER       XdbcDataType = 4
-	XdbcDataType_XDBC_SMALLINT      XdbcDataType = 5
-	XdbcDataType_XDBC_FLOAT         XdbcDataType = 6
-	XdbcDataType_XDBC_REAL          XdbcDataType = 7
-	XdbcDataType_XDBC_DOUBLE        XdbcDataType = 8
-	XdbcDataType_XDBC_DATETIME      XdbcDataType = 9
-	XdbcDataType_XDBC_INTERVAL      XdbcDataType = 10
-	XdbcDataType_XDBC_VARCHAR       XdbcDataType = 12
-	XdbcDataType_XDBC_DATE          XdbcDataType = 91
-	XdbcDataType_XDBC_TIME          XdbcDataType = 92
-	XdbcDataType_XDBC_TIMESTAMP     XdbcDataType = 93
-	XdbcDataType_XDBC_LONGVARCHAR   XdbcDataType = -1
-	XdbcDataType_XDBC_BINARY        XdbcDataType = -2
-	XdbcDataType_XDBC_VARBINARY     XdbcDataType = -3
-	XdbcDataType_XDBC_LONGVARBINARY XdbcDataType = -4
-	XdbcDataType_XDBC_BIGINT        XdbcDataType = -5
-	XdbcDataType_XDBC_TINYINT       XdbcDataType = -6
-	XdbcDataType_XDBC_BIT           XdbcDataType = -7
-	XdbcDataType_XDBC_WCHAR         XdbcDataType = -8
-	XdbcDataType_XDBC_WVARCHAR      XdbcDataType = -9
-)
-
-// Enum value maps for XdbcDataType.
-var (
-	XdbcDataType_name = map[int32]string{
-		0:  "XDBC_UNKNOWN_TYPE",
-		1:  "XDBC_CHAR",
-		2:  "XDBC_NUMERIC",
-		3:  "XDBC_DECIMAL",
-		4:  "XDBC_INTEGER",
-		5:  "XDBC_SMALLINT",
-		6:  "XDBC_FLOAT",
-		7:  "XDBC_REAL",
-		8:  "XDBC_DOUBLE",
-		9:  "XDBC_DATETIME",
-		10: "XDBC_INTERVAL",
-		12: "XDBC_VARCHAR",
-		91: "XDBC_DATE",
-		92: "XDBC_TIME",
-		93: "XDBC_TIMESTAMP",
-		-1: "XDBC_LONGVARCHAR",
-		-2: "XDBC_BINARY",
-		-3: "XDBC_VARBINARY",
-		-4: "XDBC_LONGVARBINARY",
-		-5: "XDBC_BIGINT",
-		-6: "XDBC_TINYINT",
-		-7: "XDBC_BIT",
-		-8: "XDBC_WCHAR",
-		-9: "XDBC_WVARCHAR",
-	}
-	XdbcDataType_value = map[string]int32{
-		"XDBC_UNKNOWN_TYPE":  0,
-		"XDBC_CHAR":          1,
-		"XDBC_NUMERIC":       2,
-		"XDBC_DECIMAL":       3,
-		"XDBC_INTEGER":       4,
-		"XDBC_SMALLINT":      5,
-		"XDBC_FLOAT":         6,
-		"XDBC_REAL":          7,
-		"XDBC_DOUBLE":        8,
-		"XDBC_DATETIME":      9,
-		"XDBC_INTERVAL":      10,
-		"XDBC_VARCHAR":       12,
-		"XDBC_DATE":          91,
-		"XDBC_TIME":          92,
-		"XDBC_TIMESTAMP":     93,
-		"XDBC_LONGVARCHAR":   -1,
-		"XDBC_BINARY":        -2,
-		"XDBC_VARBINARY":     -3,
-		"XDBC_LONGVARBINARY": -4,
-		"XDBC_BIGINT":        -5,
-		"XDBC_TINYINT":       -6,
-		"XDBC_BIT":           -7,
-		"XDBC_WCHAR":         -8,
-		"XDBC_WVARCHAR":      -9,
-	}
-)
-
-func (x XdbcDataType) Enum() *XdbcDataType {
-	p := new(XdbcDataType)
-	*p = x
-	return p
-}
-
-func (x XdbcDataType) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (XdbcDataType) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[17].Descriptor()
-}
-
-func (XdbcDataType) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[17]
-}
-
-func (x XdbcDataType) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use XdbcDataType.Descriptor instead.
-func (XdbcDataType) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{17}
-}
-
-// *
-// Detailed subtype information for XDBC_TYPE_DATETIME and XDBC_TYPE_INTERVAL.
-type XdbcDatetimeSubcode int32
-
-const (
-	XdbcDatetimeSubcode_XDBC_SUBCODE_UNKNOWN                   XdbcDatetimeSubcode = 0
-	XdbcDatetimeSubcode_XDBC_SUBCODE_YEAR                      XdbcDatetimeSubcode = 1
-	XdbcDatetimeSubcode_XDBC_SUBCODE_DATE                      XdbcDatetimeSubcode = 1
-	XdbcDatetimeSubcode_XDBC_SUBCODE_TIME                      XdbcDatetimeSubcode = 2
-	XdbcDatetimeSubcode_XDBC_SUBCODE_MONTH                     XdbcDatetimeSubcode = 2
-	XdbcDatetimeSubcode_XDBC_SUBCODE_TIMESTAMP                 XdbcDatetimeSubcode = 3
-	XdbcDatetimeSubcode_XDBC_SUBCODE_DAY                       XdbcDatetimeSubcode = 3
-	XdbcDatetimeSubcode_XDBC_SUBCODE_TIME_WITH_TIMEZONE        XdbcDatetimeSubcode = 4
-	XdbcDatetimeSubcode_XDBC_SUBCODE_HOUR                      XdbcDatetimeSubcode = 4
-	XdbcDatetimeSubcode_XDBC_SUBCODE_TIMESTAMP_WITH_TIMEZONE   XdbcDatetimeSubcode = 5
-	XdbcDatetimeSubcode_XDBC_SUBCODE_MINUTE                    XdbcDatetimeSubcode = 5
-	XdbcDatetimeSubcode_XDBC_SUBCODE_SECOND                    XdbcDatetimeSubcode = 6
-	XdbcDatetimeSubcode_XDBC_SUBCODE_YEAR_TO_MONTH             XdbcDatetimeSubcode = 7
-	XdbcDatetimeSubcode_XDBC_SUBCODE_DAY_TO_HOUR               XdbcDatetimeSubcode = 8
-	XdbcDatetimeSubcode_XDBC_SUBCODE_DAY_TO_MINUTE             XdbcDatetimeSubcode = 9
-	XdbcDatetimeSubcode_XDBC_SUBCODE_DAY_TO_SECOND             XdbcDatetimeSubcode = 10
-	XdbcDatetimeSubcode_XDBC_SUBCODE_HOUR_TO_MINUTE            XdbcDatetimeSubcode = 11
-	XdbcDatetimeSubcode_XDBC_SUBCODE_HOUR_TO_SECOND            XdbcDatetimeSubcode = 12
-	XdbcDatetimeSubcode_XDBC_SUBCODE_MINUTE_TO_SECOND          XdbcDatetimeSubcode = 13
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_YEAR             XdbcDatetimeSubcode = 101
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_MONTH            XdbcDatetimeSubcode = 102
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_DAY              XdbcDatetimeSubcode = 103
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_HOUR             XdbcDatetimeSubcode = 104
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_MINUTE           XdbcDatetimeSubcode = 105
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_SECOND           XdbcDatetimeSubcode = 106
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_YEAR_TO_MONTH    XdbcDatetimeSubcode = 107
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_DAY_TO_HOUR      XdbcDatetimeSubcode = 108
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_DAY_TO_MINUTE    XdbcDatetimeSubcode = 109
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_DAY_TO_SECOND    XdbcDatetimeSubcode = 110
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_HOUR_TO_MINUTE   XdbcDatetimeSubcode = 111
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_HOUR_TO_SECOND   XdbcDatetimeSubcode = 112
-	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_MINUTE_TO_SECOND XdbcDatetimeSubcode = 113
-)
-
-// Enum value maps for XdbcDatetimeSubcode.
-var (
-	XdbcDatetimeSubcode_name = map[int32]string{
-		0: "XDBC_SUBCODE_UNKNOWN",
-		1: "XDBC_SUBCODE_YEAR",
-		// Duplicate value: 1: "XDBC_SUBCODE_DATE",
-		2: "XDBC_SUBCODE_TIME",
-		// Duplicate value: 2: "XDBC_SUBCODE_MONTH",
-		3: "XDBC_SUBCODE_TIMESTAMP",
-		// Duplicate value: 3: "XDBC_SUBCODE_DAY",
-		4: "XDBC_SUBCODE_TIME_WITH_TIMEZONE",
-		// Duplicate value: 4: "XDBC_SUBCODE_HOUR",
-		5: "XDBC_SUBCODE_TIMESTAMP_WITH_TIMEZONE",
-		// Duplicate value: 5: "XDBC_SUBCODE_MINUTE",
-		6:   "XDBC_SUBCODE_SECOND",
-		7:   "XDBC_SUBCODE_YEAR_TO_MONTH",
-		8:   "XDBC_SUBCODE_DAY_TO_HOUR",
-		9:   "XDBC_SUBCODE_DAY_TO_MINUTE",
-		10:  "XDBC_SUBCODE_DAY_TO_SECOND",
-		11:  "XDBC_SUBCODE_HOUR_TO_MINUTE",
-		12:  "XDBC_SUBCODE_HOUR_TO_SECOND",
-		13:  "XDBC_SUBCODE_MINUTE_TO_SECOND",
-		101: "XDBC_SUBCODE_INTERVAL_YEAR",
-		102: "XDBC_SUBCODE_INTERVAL_MONTH",
-		103: "XDBC_SUBCODE_INTERVAL_DAY",
-		104: "XDBC_SUBCODE_INTERVAL_HOUR",
-		105: "XDBC_SUBCODE_INTERVAL_MINUTE",
-		106: "XDBC_SUBCODE_INTERVAL_SECOND",
-		107: "XDBC_SUBCODE_INTERVAL_YEAR_TO_MONTH",
-		108: "XDBC_SUBCODE_INTERVAL_DAY_TO_HOUR",
-		109: "XDBC_SUBCODE_INTERVAL_DAY_TO_MINUTE",
-		110: "XDBC_SUBCODE_INTERVAL_DAY_TO_SECOND",
-		111: "XDBC_SUBCODE_INTERVAL_HOUR_TO_MINUTE",
-		112: "XDBC_SUBCODE_INTERVAL_HOUR_TO_SECOND",
-		113: "XDBC_SUBCODE_INTERVAL_MINUTE_TO_SECOND",
-	}
-	XdbcDatetimeSubcode_value = map[string]int32{
-		"XDBC_SUBCODE_UNKNOWN":                   0,
-		"XDBC_SUBCODE_YEAR":                      1,
-		"XDBC_SUBCODE_DATE":                      1,
-		"XDBC_SUBCODE_TIME":                      2,
-		"XDBC_SUBCODE_MONTH":                     2,
-		"XDBC_SUBCODE_TIMESTAMP":                 3,
-		"XDBC_SUBCODE_DAY":                       3,
-		"XDBC_SUBCODE_TIME_WITH_TIMEZONE":        4,
-		"XDBC_SUBCODE_HOUR":                      4,
-		"XDBC_SUBCODE_TIMESTAMP_WITH_TIMEZONE":   5,
-		"XDBC_SUBCODE_MINUTE":                    5,
-		"XDBC_SUBCODE_SECOND":                    6,
-		"XDBC_SUBCODE_YEAR_TO_MONTH":             7,
-		"XDBC_SUBCODE_DAY_TO_HOUR":               8,
-		"XDBC_SUBCODE_DAY_TO_MINUTE":             9,
-		"XDBC_SUBCODE_DAY_TO_SECOND":             10,
-		"XDBC_SUBCODE_HOUR_TO_MINUTE":            11,
-		"XDBC_SUBCODE_HOUR_TO_SECOND":            12,
-		"XDBC_SUBCODE_MINUTE_TO_SECOND":          13,
-		"XDBC_SUBCODE_INTERVAL_YEAR":             101,
-		"XDBC_SUBCODE_INTERVAL_MONTH":            102,
-		"XDBC_SUBCODE_INTERVAL_DAY":              103,
-		"XDBC_SUBCODE_INTERVAL_HOUR":             104,
-		"XDBC_SUBCODE_INTERVAL_MINUTE":           105,
-		"XDBC_SUBCODE_INTERVAL_SECOND":           106,
-		"XDBC_SUBCODE_INTERVAL_YEAR_TO_MONTH":    107,
-		"XDBC_SUBCODE_INTERVAL_DAY_TO_HOUR":      108,
-		"XDBC_SUBCODE_INTERVAL_DAY_TO_MINUTE":    109,
-		"XDBC_SUBCODE_INTERVAL_DAY_TO_SECOND":    110,
-		"XDBC_SUBCODE_INTERVAL_HOUR_TO_MINUTE":   111,
-		"XDBC_SUBCODE_INTERVAL_HOUR_TO_SECOND":   112,
-		"XDBC_SUBCODE_INTERVAL_MINUTE_TO_SECOND": 113,
-	}
-)
-
-func (x XdbcDatetimeSubcode) Enum() *XdbcDatetimeSubcode {
-	p := new(XdbcDatetimeSubcode)
-	*p = x
-	return p
-}
-
-func (x XdbcDatetimeSubcode) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (XdbcDatetimeSubcode) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[18].Descriptor()
-}
-
-func (XdbcDatetimeSubcode) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[18]
-}
-
-func (x XdbcDatetimeSubcode) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use XdbcDatetimeSubcode.Descriptor instead.
-func (XdbcDatetimeSubcode) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{18}
-}
-
-type Nullable int32
-
-const (
-	// *
-	// Indicates that the fields does not allow the use of null values.
-	Nullable_NULLABILITY_NO_NULLS Nullable = 0
-	// *
-	// Indicates that the fields allow the use of null values.
-	Nullable_NULLABILITY_NULLABLE Nullable = 1
-	// *
-	// Indicates that nullability of the fields cannot be determined.
-	Nullable_NULLABILITY_UNKNOWN Nullable = 2
-)
-
-// Enum value maps for Nullable.
-var (
-	Nullable_name = map[int32]string{
-		0: "NULLABILITY_NO_NULLS",
-		1: "NULLABILITY_NULLABLE",
-		2: "NULLABILITY_UNKNOWN",
-	}
-	Nullable_value = map[string]int32{
-		"NULLABILITY_NO_NULLS": 0,
-		"NULLABILITY_NULLABLE": 1,
-		"NULLABILITY_UNKNOWN":  2,
-	}
-)
-
-func (x Nullable) Enum() *Nullable {
-	p := new(Nullable)
-	*p = x
-	return p
-}
-
-func (x Nullable) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (Nullable) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[19].Descriptor()
-}
-
-func (Nullable) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[19]
-}
-
-func (x Nullable) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use Nullable.Descriptor instead.
-func (Nullable) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{19}
-}
-
-type Searchable int32
-
-const (
-	// *
-	// Indicates that column cannot be used in a WHERE clause.
-	Searchable_SEARCHABLE_NONE Searchable = 0
-	// *
-	// Indicates that the column can be used in a WHERE clause if it is using a
-	// LIKE operator.
-	Searchable_SEARCHABLE_CHAR Searchable = 1
-	// *
-	// Indicates that the column can be used In a WHERE clause with any
-	// operator other than LIKE.
-	//
-	//   - Allowed operators: comparison, quantified comparison, BETWEEN,
-	//     DISTINCT, IN, MATCH, and UNIQUE.
-	Searchable_SEARCHABLE_BASIC Searchable = 2
-	// *
-	// Indicates that the column can be used in a WHERE clause using any operator.
-	Searchable_SEARCHABLE_FULL Searchable = 3
-)
-
-// Enum value maps for Searchable.
-var (
-	Searchable_name = map[int32]string{
-		0: "SEARCHABLE_NONE",
-		1: "SEARCHABLE_CHAR",
-		2: "SEARCHABLE_BASIC",
-		3: "SEARCHABLE_FULL",
-	}
-	Searchable_value = map[string]int32{
-		"SEARCHABLE_NONE":  0,
-		"SEARCHABLE_CHAR":  1,
-		"SEARCHABLE_BASIC": 2,
-		"SEARCHABLE_FULL":  3,
-	}
-)
-
-func (x Searchable) Enum() *Searchable {
-	p := new(Searchable)
-	*p = x
-	return p
-}
-
-func (x Searchable) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (Searchable) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[20].Descriptor()
-}
-
-func (Searchable) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[20]
-}
-
-func (x Searchable) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use Searchable.Descriptor instead.
-func (Searchable) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{20}
-}
-
-type UpdateDeleteRules int32
-
-const (
-	UpdateDeleteRules_CASCADE     UpdateDeleteRules = 0
-	UpdateDeleteRules_RESTRICT    UpdateDeleteRules = 1
-	UpdateDeleteRules_SET_NULL    UpdateDeleteRules = 2
-	UpdateDeleteRules_NO_ACTION   UpdateDeleteRules = 3
-	UpdateDeleteRules_SET_DEFAULT UpdateDeleteRules = 4
-)
-
-// Enum value maps for UpdateDeleteRules.
-var (
-	UpdateDeleteRules_name = map[int32]string{
-		0: "CASCADE",
-		1: "RESTRICT",
-		2: "SET_NULL",
-		3: "NO_ACTION",
-		4: "SET_DEFAULT",
-	}
-	UpdateDeleteRules_value = map[string]int32{
-		"CASCADE":     0,
-		"RESTRICT":    1,
-		"SET_NULL":    2,
-		"NO_ACTION":   3,
-		"SET_DEFAULT": 4,
-	}
-)
-
-func (x UpdateDeleteRules) Enum() *UpdateDeleteRules {
-	p := new(UpdateDeleteRules)
-	*p = x
-	return p
-}
-
-func (x UpdateDeleteRules) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (UpdateDeleteRules) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[21].Descriptor()
-}
-
-func (UpdateDeleteRules) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[21]
-}
-
-func (x UpdateDeleteRules) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use UpdateDeleteRules.Descriptor instead.
-func (UpdateDeleteRules) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{21}
-}
-
-type ActionEndTransactionRequest_EndTransaction int32
-
-const (
-	ActionEndTransactionRequest_END_TRANSACTION_UNSPECIFIED ActionEndTransactionRequest_EndTransaction = 0
-	// Commit the transaction.
-	ActionEndTransactionRequest_END_TRANSACTION_COMMIT ActionEndTransactionRequest_EndTransaction = 1
-	// Roll back the transaction.
-	ActionEndTransactionRequest_END_TRANSACTION_ROLLBACK ActionEndTransactionRequest_EndTransaction = 2
-)
-
-// Enum value maps for ActionEndTransactionRequest_EndTransaction.
-var (
-	ActionEndTransactionRequest_EndTransaction_name = map[int32]string{
-		0: "END_TRANSACTION_UNSPECIFIED",
-		1: "END_TRANSACTION_COMMIT",
-		2: "END_TRANSACTION_ROLLBACK",
-	}
-	ActionEndTransactionRequest_EndTransaction_value = map[string]int32{
-		"END_TRANSACTION_UNSPECIFIED": 0,
-		"END_TRANSACTION_COMMIT":      1,
-		"END_TRANSACTION_ROLLBACK":    2,
-	}
-)
-
-func (x ActionEndTransactionRequest_EndTransaction) Enum() *ActionEndTransactionRequest_EndTransaction {
-	p := new(ActionEndTransactionRequest_EndTransaction)
-	*p = x
-	return p
-}
-
-func (x ActionEndTransactionRequest_EndTransaction) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (ActionEndTransactionRequest_EndTransaction) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[22].Descriptor()
-}
-
-func (ActionEndTransactionRequest_EndTransaction) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[22]
-}
-
-func (x ActionEndTransactionRequest_EndTransaction) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use ActionEndTransactionRequest_EndTransaction.Descriptor instead.
-func (ActionEndTransactionRequest_EndTransaction) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{19, 0}
-}
-
-type ActionEndSavepointRequest_EndSavepoint int32
-
-const (
-	ActionEndSavepointRequest_END_SAVEPOINT_UNSPECIFIED ActionEndSavepointRequest_EndSavepoint = 0
-	// Release the savepoint.
-	ActionEndSavepointRequest_END_SAVEPOINT_RELEASE ActionEndSavepointRequest_EndSavepoint = 1
-	// Roll back to a savepoint.
-	ActionEndSavepointRequest_END_SAVEPOINT_ROLLBACK ActionEndSavepointRequest_EndSavepoint = 2
-)
-
-// Enum value maps for ActionEndSavepointRequest_EndSavepoint.
-var (
-	ActionEndSavepointRequest_EndSavepoint_name = map[int32]string{
-		0: "END_SAVEPOINT_UNSPECIFIED",
-		1: "END_SAVEPOINT_RELEASE",
-		2: "END_SAVEPOINT_ROLLBACK",
-	}
-	ActionEndSavepointRequest_EndSavepoint_value = map[string]int32{
-		"END_SAVEPOINT_UNSPECIFIED": 0,
-		"END_SAVEPOINT_RELEASE":     1,
-		"END_SAVEPOINT_ROLLBACK":    2,
-	}
-)
-
-func (x ActionEndSavepointRequest_EndSavepoint) Enum() *ActionEndSavepointRequest_EndSavepoint {
-	p := new(ActionEndSavepointRequest_EndSavepoint)
-	*p = x
-	return p
-}
-
-func (x ActionEndSavepointRequest_EndSavepoint) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (ActionEndSavepointRequest_EndSavepoint) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[23].Descriptor()
-}
-
-func (ActionEndSavepointRequest_EndSavepoint) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[23]
-}
-
-func (x ActionEndSavepointRequest_EndSavepoint) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use ActionEndSavepointRequest_EndSavepoint.Descriptor instead.
-func (ActionEndSavepointRequest_EndSavepoint) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{20, 0}
-}
-
-// The action to take if the target table does not exist
-type CommandStatementIngest_TableDefinitionOptions_TableNotExistOption int32
-
-const (
-	// Do not use. Servers should error if this is specified by a client.
-	CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_UNSPECIFIED CommandStatementIngest_TableDefinitionOptions_TableNotExistOption = 0
-	// Create the table if it does not exist
-	CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_CREATE CommandStatementIngest_TableDefinitionOptions_TableNotExistOption = 1
-	// Fail if the table does not exist
-	CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_FAIL CommandStatementIngest_TableDefinitionOptions_TableNotExistOption = 2
-)
-
-// Enum value maps for CommandStatementIngest_TableDefinitionOptions_TableNotExistOption.
-var (
-	CommandStatementIngest_TableDefinitionOptions_TableNotExistOption_name = map[int32]string{
-		0: "TABLE_NOT_EXIST_OPTION_UNSPECIFIED",
-		1: "TABLE_NOT_EXIST_OPTION_CREATE",
-		2: "TABLE_NOT_EXIST_OPTION_FAIL",
-	}
-	CommandStatementIngest_TableDefinitionOptions_TableNotExistOption_value = map[string]int32{
-		"TABLE_NOT_EXIST_OPTION_UNSPECIFIED": 0,
-		"TABLE_NOT_EXIST_OPTION_CREATE":      1,
-		"TABLE_NOT_EXIST_OPTION_FAIL":        2,
-	}
-)
-
-func (x CommandStatementIngest_TableDefinitionOptions_TableNotExistOption) Enum() *CommandStatementIngest_TableDefinitionOptions_TableNotExistOption {
-	p := new(CommandStatementIngest_TableDefinitionOptions_TableNotExistOption)
-	*p = x
-	return p
-}
-
-func (x CommandStatementIngest_TableDefinitionOptions_TableNotExistOption) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (CommandStatementIngest_TableDefinitionOptions_TableNotExistOption) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[24].Descriptor()
-}
-
-func (CommandStatementIngest_TableDefinitionOptions_TableNotExistOption) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[24]
-}
-
-func (x CommandStatementIngest_TableDefinitionOptions_TableNotExistOption) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use CommandStatementIngest_TableDefinitionOptions_TableNotExistOption.Descriptor instead.
-func (CommandStatementIngest_TableDefinitionOptions_TableNotExistOption) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{27, 0, 0}
-}
-
-// The action to take if the target table already exists
-type CommandStatementIngest_TableDefinitionOptions_TableExistsOption int32
-
-const (
-	// Do not use. Servers should error if this is specified by a client.
-	CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_UNSPECIFIED CommandStatementIngest_TableDefinitionOptions_TableExistsOption = 0
-	// Fail if the table already exists
-	CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_FAIL CommandStatementIngest_TableDefinitionOptions_TableExistsOption = 1
-	// Append to the table if it already exists
-	CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_APPEND CommandStatementIngest_TableDefinitionOptions_TableExistsOption = 2
-	// Drop and recreate the table if it already exists
-	CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_REPLACE CommandStatementIngest_TableDefinitionOptions_TableExistsOption = 3
-)
-
-// Enum value maps for CommandStatementIngest_TableDefinitionOptions_TableExistsOption.
-var (
-	CommandStatementIngest_TableDefinitionOptions_TableExistsOption_name = map[int32]string{
-		0: "TABLE_EXISTS_OPTION_UNSPECIFIED",
-		1: "TABLE_EXISTS_OPTION_FAIL",
-		2: "TABLE_EXISTS_OPTION_APPEND",
-		3: "TABLE_EXISTS_OPTION_REPLACE",
-	}
-	CommandStatementIngest_TableDefinitionOptions_TableExistsOption_value = map[string]int32{
-		"TABLE_EXISTS_OPTION_UNSPECIFIED": 0,
-		"TABLE_EXISTS_OPTION_FAIL":        1,
-		"TABLE_EXISTS_OPTION_APPEND":      2,
-		"TABLE_EXISTS_OPTION_REPLACE":     3,
-	}
-)
-
-func (x CommandStatementIngest_TableDefinitionOptions_TableExistsOption) Enum() *CommandStatementIngest_TableDefinitionOptions_TableExistsOption {
-	p := new(CommandStatementIngest_TableDefinitionOptions_TableExistsOption)
-	*p = x
-	return p
-}
-
-func (x CommandStatementIngest_TableDefinitionOptions_TableExistsOption) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (CommandStatementIngest_TableDefinitionOptions_TableExistsOption) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[25].Descriptor()
-}
-
-func (CommandStatementIngest_TableDefinitionOptions_TableExistsOption) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[25]
-}
-
-func (x CommandStatementIngest_TableDefinitionOptions_TableExistsOption) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use CommandStatementIngest_TableDefinitionOptions_TableExistsOption.Descriptor instead.
-func (CommandStatementIngest_TableDefinitionOptions_TableExistsOption) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{27, 0, 1}
-}
-
-type ActionCancelQueryResult_CancelResult int32
-
-const (
-	// The cancellation status is unknown. Servers should avoid using
-	// this value (send a NOT_FOUND error if the requested query is
-	// not known). Clients can retry the request.
-	ActionCancelQueryResult_CANCEL_RESULT_UNSPECIFIED ActionCancelQueryResult_CancelResult = 0
-	// The cancellation request is complete. Subsequent requests with
-	// the same payload may return CANCELLED or a NOT_FOUND error.
-	ActionCancelQueryResult_CANCEL_RESULT_CANCELLED ActionCancelQueryResult_CancelResult = 1
-	// The cancellation request is in progress. The client may retry
-	// the cancellation request.
-	ActionCancelQueryResult_CANCEL_RESULT_CANCELLING ActionCancelQueryResult_CancelResult = 2
-	// The query is not cancellable. The client should not retry the
-	// cancellation request.
-	ActionCancelQueryResult_CANCEL_RESULT_NOT_CANCELLABLE ActionCancelQueryResult_CancelResult = 3
-)
-
-// Enum value maps for ActionCancelQueryResult_CancelResult.
-var (
-	ActionCancelQueryResult_CancelResult_name = map[int32]string{
-		0: "CANCEL_RESULT_UNSPECIFIED",
-		1: "CANCEL_RESULT_CANCELLED",
-		2: "CANCEL_RESULT_CANCELLING",
-		3: "CANCEL_RESULT_NOT_CANCELLABLE",
-	}
-	ActionCancelQueryResult_CancelResult_value = map[string]int32{
-		"CANCEL_RESULT_UNSPECIFIED":     0,
-		"CANCEL_RESULT_CANCELLED":       1,
-		"CANCEL_RESULT_CANCELLING":      2,
-		"CANCEL_RESULT_NOT_CANCELLABLE": 3,
-	}
-)
-
-func (x ActionCancelQueryResult_CancelResult) Enum() *ActionCancelQueryResult_CancelResult {
-	p := new(ActionCancelQueryResult_CancelResult)
-	*p = x
-	return p
-}
-
-func (x ActionCancelQueryResult_CancelResult) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (ActionCancelQueryResult_CancelResult) Descriptor() protoreflect.EnumDescriptor {
-	return file_FlightSql_proto_enumTypes[26].Descriptor()
-}
-
-func (ActionCancelQueryResult_CancelResult) Type() protoreflect.EnumType {
-	return &file_FlightSql_proto_enumTypes[26]
-}
-
-func (x ActionCancelQueryResult_CancelResult) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use ActionCancelQueryResult_CancelResult.Descriptor instead.
-func (ActionCancelQueryResult_CancelResult) EnumDescriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{31, 0}
-}
-
-// Represents a metadata request. Used in the command member of FlightDescriptor
-// for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	info_name: uint32 not null,
-//	value: dense_union<
-//	            string_value: utf8,
-//	            bool_value: bool,
-//	            bigint_value: int64,
-//	            int32_bitmask: int32,
-//	            string_list: list<string_data: utf8>
-//	            int32_to_int32_list_map: map<key: int32, value: list<$data$: int32>>
-//
-// >
-// where there is one row per requested piece of metadata information.
-type CommandGetSqlInfo struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Values are modelled after ODBC's SQLGetInfo() function. This information is intended to provide
-	// Flight SQL clients with basic, SQL syntax and SQL functions related information.
-	// More information types can be added in future releases.
-	// E.g. more SQL syntax support types, scalar functions support, type conversion support etc.
-	//
-	// Note that the set of metadata may expand.
-	//
-	// Initially, Flight SQL will support the following information types:
-	// - Server Information - Range [0-500)
-	// - Syntax Information - Range [500-1000)
-	// Range [0-10,000) is reserved for defaults (see SqlInfo enum for default options).
-	// Custom options should start at 10,000.
-	//
-	// If omitted, then all metadata will be retrieved.
-	// Flight SQL Servers may choose to include additional metadata above and beyond the specified set, however they must
-	// at least return the specified set. IDs ranging from 0 to 10,000 (exclusive) are reserved for future use.
-	// If additional metadata is included, the metadata IDs should start from 10,000.
-	Info []uint32 `protobuf:"varint,1,rep,packed,name=info,proto3" json:"info,omitempty"`
-}
-
-func (x *CommandGetSqlInfo) Reset() {
-	*x = CommandGetSqlInfo{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[0]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetSqlInfo) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetSqlInfo) ProtoMessage() {}
-
-func (x *CommandGetSqlInfo) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[0]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetSqlInfo.ProtoReflect.Descriptor instead.
-func (*CommandGetSqlInfo) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{0}
-}
-
-func (x *CommandGetSqlInfo) GetInfo() []uint32 {
-	if x != nil {
-		return x.Info
-	}
-	return nil
-}
-
-// Represents a request to retrieve information about data type supported on a Flight SQL enabled backend.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned schema will be:
-// <
-//
-//	type_name: utf8 not null (The name of the data type, for example: VARCHAR, INTEGER, etc),
-//	data_type: int32 not null (The SQL data type),
-//	column_size: int32 (The maximum size supported by that column.
-//	                    In case of exact numeric types, this represents the maximum precision.
-//	                    In case of string types, this represents the character length.
-//	                    In case of datetime data types, this represents the length in characters of the string representation.
-//	                    NULL is returned for data types where column size is not applicable.),
-//	literal_prefix: utf8 (Character or characters used to prefix a literal, NULL is returned for
-//	                      data types where a literal prefix is not applicable.),
-//	literal_suffix: utf8 (Character or characters used to terminate a literal,
-//	                      NULL is returned for data types where a literal suffix is not applicable.),
-//	create_params: list<utf8 not null>
-//	                     (A list of keywords corresponding to which parameters can be used when creating
-//	                      a column for that specific type.
-//	                      NULL is returned if there are no parameters for the data type definition.),
-//	nullable: int32 not null (Shows if the data type accepts a NULL value. The possible values can be seen in the
-//	                          Nullable enum.),
-//	case_sensitive: bool not null (Shows if a character data type is case-sensitive in collations and comparisons),
-//	searchable: int32 not null (Shows how the data type is used in a WHERE clause. The possible values can be seen in the
-//	                            Searchable enum.),
-//	unsigned_attribute: bool (Shows if the data type is unsigned. NULL is returned if the attribute is
-//	                          not applicable to the data type or the data type is not numeric.),
-//	fixed_prec_scale: bool not null (Shows if the data type has predefined fixed precision and scale.),
-//	auto_increment: bool (Shows if the data type is auto incremental. NULL is returned if the attribute
-//	                      is not applicable to the data type or the data type is not numeric.),
-//	local_type_name: utf8 (Localized version of the data source-dependent name of the data type. NULL
-//	                       is returned if a localized name is not supported by the data source),
-//	minimum_scale: int32 (The minimum scale of the data type on the data source.
-//	                      If a data type has a fixed scale, the MINIMUM_SCALE and MAXIMUM_SCALE
-//	                      columns both contain this value. NULL is returned if scale is not applicable.),
-//	maximum_scale: int32 (The maximum scale of the data type on the data source.
-//	                      NULL is returned if scale is not applicable.),
-//	sql_data_type: int32 not null (The value of the SQL DATA TYPE which has the same values
-//	                               as data_type value. Except for interval and datetime, which
-//	                               uses generic values. More info about those types can be
-//	                               obtained through datetime_subcode. The possible values can be seen
-//	                               in the XdbcDataType enum.),
-//	datetime_subcode: int32 (Only used when the SQL DATA TYPE is interval or datetime. It contains
-//	                         its sub types. For type different from interval and datetime, this value
-//	                         is NULL. The possible values can be seen in the XdbcDatetimeSubcode enum.),
-//	num_prec_radix: int32 (If the data type is an approximate numeric type, this column contains
-//	                       the value 2 to indicate that COLUMN_SIZE specifies a number of bits. For
-//	                       exact numeric types, this column contains the value 10 to indicate that
-//	                       column size specifies a number of decimal digits. Otherwise, this column is NULL.),
-//	interval_precision: int32 (If the data type is an interval data type, then this column contains the value
-//	                           of the interval leading precision. Otherwise, this column is NULL. This fields
-//	                           is only relevant to be used by ODBC).
-//
-// >
-// The returned data should be ordered by data_type and then by type_name.
-type CommandGetXdbcTypeInfo struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Specifies the data type to search for the info.
-	DataType *int32 `protobuf:"varint,1,opt,name=data_type,json=dataType,proto3,oneof" json:"data_type,omitempty"`
-}
-
-func (x *CommandGetXdbcTypeInfo) Reset() {
-	*x = CommandGetXdbcTypeInfo{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[1]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetXdbcTypeInfo) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetXdbcTypeInfo) ProtoMessage() {}
-
-func (x *CommandGetXdbcTypeInfo) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[1]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetXdbcTypeInfo.ProtoReflect.Descriptor instead.
-func (*CommandGetXdbcTypeInfo) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{1}
-}
-
-func (x *CommandGetXdbcTypeInfo) GetDataType() int32 {
-	if x != nil && x.DataType != nil {
-		return *x.DataType
-	}
-	return 0
-}
-
-// Represents a request to retrieve the list of catalogs on a Flight SQL enabled backend.
-// The definition of a catalog depends on vendor/implementation. It is usually the database itself
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	catalog_name: utf8 not null
-//
-// >
-// The returned data should be ordered by catalog_name.
-type CommandGetCatalogs struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-}
-
-func (x *CommandGetCatalogs) Reset() {
-	*x = CommandGetCatalogs{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[2]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetCatalogs) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetCatalogs) ProtoMessage() {}
-
-func (x *CommandGetCatalogs) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[2]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetCatalogs.ProtoReflect.Descriptor instead.
-func (*CommandGetCatalogs) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{2}
-}
-
-// Represents a request to retrieve the list of database schemas on a Flight SQL enabled backend.
-// The definition of a database schema depends on vendor/implementation. It is usually a collection of tables.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	catalog_name: utf8,
-//	db_schema_name: utf8 not null
-//
-// >
-// The returned data should be ordered by catalog_name, then db_schema_name.
-type CommandGetDbSchemas struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Specifies the Catalog to search for the tables.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
-	// Specifies a filter pattern for schemas to search for.
-	// When no db_schema_filter_pattern is provided, the pattern will not be used to narrow the search.
-	// In the pattern string, two special characters can be used to denote matching rules:
-	//   - "%" means to match any substring with 0 or more characters.
-	//   - "_" means to match any one character.
-	DbSchemaFilterPattern *string `protobuf:"bytes,2,opt,name=db_schema_filter_pattern,json=dbSchemaFilterPattern,proto3,oneof" json:"db_schema_filter_pattern,omitempty"`
-}
-
-func (x *CommandGetDbSchemas) Reset() {
-	*x = CommandGetDbSchemas{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[3]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetDbSchemas) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetDbSchemas) ProtoMessage() {}
-
-func (x *CommandGetDbSchemas) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[3]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetDbSchemas.ProtoReflect.Descriptor instead.
-func (*CommandGetDbSchemas) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{3}
-}
-
-func (x *CommandGetDbSchemas) GetCatalog() string {
-	if x != nil && x.Catalog != nil {
-		return *x.Catalog
-	}
-	return ""
-}
-
-func (x *CommandGetDbSchemas) GetDbSchemaFilterPattern() string {
-	if x != nil && x.DbSchemaFilterPattern != nil {
-		return *x.DbSchemaFilterPattern
-	}
-	return ""
-}
-
-// Represents a request to retrieve the list of tables, and optionally their schemas, on a Flight SQL enabled backend.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	catalog_name: utf8,
-//	db_schema_name: utf8,
-//	table_name: utf8 not null,
-//	table_type: utf8 not null,
-//	[optional] table_schema: bytes not null (schema of the table as described in Schema.fbs::Schema,
-//	                                         it is serialized as an IPC message.)
-//
-// >
-// Fields on table_schema may contain the following metadata:
-//   - ARROW:FLIGHT:SQL:CATALOG_NAME      - Table's catalog name
-//   - ARROW:FLIGHT:SQL:DB_SCHEMA_NAME    - Database schema name
-//   - ARROW:FLIGHT:SQL:TABLE_NAME        - Table name
-//   - ARROW:FLIGHT:SQL:TYPE_NAME         - The data source-specific name for the data type of the column.
-//   - ARROW:FLIGHT:SQL:PRECISION         - Column precision/size
-//   - ARROW:FLIGHT:SQL:SCALE             - Column scale/decimal digits if applicable
-//   - ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT - "1" indicates if the column is auto incremented, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE - "1" indicates if the column is case-sensitive, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_READ_ONLY      - "1" indicates if the column is read only, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_SEARCHABLE     - "1" indicates if the column is searchable via WHERE clause, "0" otherwise.
-//
-// The returned data should be ordered by catalog_name, db_schema_name, table_name, then table_type, followed by table_schema if requested.
-type CommandGetTables struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Specifies the Catalog to search for the tables.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
-	// Specifies a filter pattern for schemas to search for.
-	// When no db_schema_filter_pattern is provided, all schemas matching other filters are searched.
-	// In the pattern string, two special characters can be used to denote matching rules:
-	//   - "%" means to match any substring with 0 or more characters.
-	//   - "_" means to match any one character.
-	DbSchemaFilterPattern *string `protobuf:"bytes,2,opt,name=db_schema_filter_pattern,json=dbSchemaFilterPattern,proto3,oneof" json:"db_schema_filter_pattern,omitempty"`
-	// Specifies a filter pattern for tables to search for.
-	// When no table_name_filter_pattern is provided, all tables matching other filters are searched.
-	// In the pattern string, two special characters can be used to denote matching rules:
-	//   - "%" means to match any substring with 0 or more characters.
-	//   - "_" means to match any one character.
-	TableNameFilterPattern *string `protobuf:"bytes,3,opt,name=table_name_filter_pattern,json=tableNameFilterPattern,proto3,oneof" json:"table_name_filter_pattern,omitempty"`
-	// Specifies a filter of table types which must match.
-	// The table types depend on vendor/implementation. It is usually used to separate tables from views or system tables.
-	// TABLE, VIEW, and SYSTEM TABLE are commonly supported.
-	TableTypes []string `protobuf:"bytes,4,rep,name=table_types,json=tableTypes,proto3" json:"table_types,omitempty"`
-	// Specifies if the Arrow schema should be returned for found tables.
-	IncludeSchema bool `protobuf:"varint,5,opt,name=include_schema,json=includeSchema,proto3" json:"include_schema,omitempty"`
-}
-
-func (x *CommandGetTables) Reset() {
-	*x = CommandGetTables{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[4]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetTables) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetTables) ProtoMessage() {}
-
-func (x *CommandGetTables) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[4]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetTables.ProtoReflect.Descriptor instead.
-func (*CommandGetTables) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{4}
-}
-
-func (x *CommandGetTables) GetCatalog() string {
-	if x != nil && x.Catalog != nil {
-		return *x.Catalog
-	}
-	return ""
-}
-
-func (x *CommandGetTables) GetDbSchemaFilterPattern() string {
-	if x != nil && x.DbSchemaFilterPattern != nil {
-		return *x.DbSchemaFilterPattern
-	}
-	return ""
-}
-
-func (x *CommandGetTables) GetTableNameFilterPattern() string {
-	if x != nil && x.TableNameFilterPattern != nil {
-		return *x.TableNameFilterPattern
-	}
-	return ""
-}
-
-func (x *CommandGetTables) GetTableTypes() []string {
-	if x != nil {
-		return x.TableTypes
-	}
-	return nil
-}
-
-func (x *CommandGetTables) GetIncludeSchema() bool {
-	if x != nil {
-		return x.IncludeSchema
-	}
-	return false
-}
-
-// Represents a request to retrieve the list of table types on a Flight SQL enabled backend.
-// The table types depend on vendor/implementation. It is usually used to separate tables from views or system tables.
-// TABLE, VIEW, and SYSTEM TABLE are commonly supported.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	table_type: utf8 not null
-//
-// >
-// The returned data should be ordered by table_type.
-type CommandGetTableTypes struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-}
-
-func (x *CommandGetTableTypes) Reset() {
-	*x = CommandGetTableTypes{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[5]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetTableTypes) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetTableTypes) ProtoMessage() {}
-
-func (x *CommandGetTableTypes) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[5]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetTableTypes.ProtoReflect.Descriptor instead.
-func (*CommandGetTableTypes) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{5}
-}
-
-// Represents a request to retrieve the primary keys of a table on a Flight SQL enabled backend.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	catalog_name: utf8,
-//	db_schema_name: utf8,
-//	table_name: utf8 not null,
-//	column_name: utf8 not null,
-//	key_name: utf8,
-//	key_sequence: int32 not null
-//
-// >
-// The returned data should be ordered by catalog_name, db_schema_name, table_name, key_name, then key_sequence.
-type CommandGetPrimaryKeys struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Specifies the catalog to search for the table.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
-	// Specifies the schema to search for the table.
-	// An empty string retrieves those without a schema.
-	// If omitted the schema name should not be used to narrow the search.
-	DbSchema *string `protobuf:"bytes,2,opt,name=db_schema,json=dbSchema,proto3,oneof" json:"db_schema,omitempty"`
-	// Specifies the table to get the primary keys for.
-	Table string `protobuf:"bytes,3,opt,name=table,proto3" json:"table,omitempty"`
-}
-
-func (x *CommandGetPrimaryKeys) Reset() {
-	*x = CommandGetPrimaryKeys{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[6]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetPrimaryKeys) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetPrimaryKeys) ProtoMessage() {}
-
-func (x *CommandGetPrimaryKeys) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[6]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetPrimaryKeys.ProtoReflect.Descriptor instead.
-func (*CommandGetPrimaryKeys) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{6}
-}
-
-func (x *CommandGetPrimaryKeys) GetCatalog() string {
-	if x != nil && x.Catalog != nil {
-		return *x.Catalog
-	}
-	return ""
-}
-
-func (x *CommandGetPrimaryKeys) GetDbSchema() string {
-	if x != nil && x.DbSchema != nil {
-		return *x.DbSchema
-	}
-	return ""
-}
-
-func (x *CommandGetPrimaryKeys) GetTable() string {
-	if x != nil {
-		return x.Table
-	}
-	return ""
-}
-
-// Represents a request to retrieve a description of the foreign key columns that reference the given table's
-// primary key columns (the foreign keys exported by a table) of a table on a Flight SQL enabled backend.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	pk_catalog_name: utf8,
-//	pk_db_schema_name: utf8,
-//	pk_table_name: utf8 not null,
-//	pk_column_name: utf8 not null,
-//	fk_catalog_name: utf8,
-//	fk_db_schema_name: utf8,
-//	fk_table_name: utf8 not null,
-//	fk_column_name: utf8 not null,
-//	key_sequence: int32 not null,
-//	fk_key_name: utf8,
-//	pk_key_name: utf8,
-//	update_rule: uint8 not null,
-//	delete_rule: uint8 not null
-//
-// >
-// The returned data should be ordered by fk_catalog_name, fk_db_schema_name, fk_table_name, fk_key_name, then key_sequence.
-// update_rule and delete_rule returns a byte that is equivalent to actions declared on UpdateDeleteRules enum.
-type CommandGetExportedKeys struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Specifies the catalog to search for the foreign key table.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
-	// Specifies the schema to search for the foreign key table.
-	// An empty string retrieves those without a schema.
-	// If omitted the schema name should not be used to narrow the search.
-	DbSchema *string `protobuf:"bytes,2,opt,name=db_schema,json=dbSchema,proto3,oneof" json:"db_schema,omitempty"`
-	// Specifies the foreign key table to get the foreign keys for.
-	Table string `protobuf:"bytes,3,opt,name=table,proto3" json:"table,omitempty"`
-}
-
-func (x *CommandGetExportedKeys) Reset() {
-	*x = CommandGetExportedKeys{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[7]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetExportedKeys) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetExportedKeys) ProtoMessage() {}
-
-func (x *CommandGetExportedKeys) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[7]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetExportedKeys.ProtoReflect.Descriptor instead.
-func (*CommandGetExportedKeys) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{7}
-}
-
-func (x *CommandGetExportedKeys) GetCatalog() string {
-	if x != nil && x.Catalog != nil {
-		return *x.Catalog
-	}
-	return ""
-}
-
-func (x *CommandGetExportedKeys) GetDbSchema() string {
-	if x != nil && x.DbSchema != nil {
-		return *x.DbSchema
-	}
-	return ""
-}
-
-func (x *CommandGetExportedKeys) GetTable() string {
-	if x != nil {
-		return x.Table
-	}
-	return ""
-}
-
-// Represents a request to retrieve the foreign keys of a table on a Flight SQL enabled backend.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	pk_catalog_name: utf8,
-//	pk_db_schema_name: utf8,
-//	pk_table_name: utf8 not null,
-//	pk_column_name: utf8 not null,
-//	fk_catalog_name: utf8,
-//	fk_db_schema_name: utf8,
-//	fk_table_name: utf8 not null,
-//	fk_column_name: utf8 not null,
-//	key_sequence: int32 not null,
-//	fk_key_name: utf8,
-//	pk_key_name: utf8,
-//	update_rule: uint8 not null,
-//	delete_rule: uint8 not null
-//
-// >
-// The returned data should be ordered by pk_catalog_name, pk_db_schema_name, pk_table_name, pk_key_name, then key_sequence.
-// update_rule and delete_rule returns a byte that is equivalent to actions:
-//   - 0 = CASCADE
-//   - 1 = RESTRICT
-//   - 2 = SET NULL
-//   - 3 = NO ACTION
-//   - 4 = SET DEFAULT
-type CommandGetImportedKeys struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Specifies the catalog to search for the primary key table.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
-	// Specifies the schema to search for the primary key table.
-	// An empty string retrieves those without a schema.
-	// If omitted the schema name should not be used to narrow the search.
-	DbSchema *string `protobuf:"bytes,2,opt,name=db_schema,json=dbSchema,proto3,oneof" json:"db_schema,omitempty"`
-	// Specifies the primary key table to get the foreign keys for.
-	Table string `protobuf:"bytes,3,opt,name=table,proto3" json:"table,omitempty"`
-}
-
-func (x *CommandGetImportedKeys) Reset() {
-	*x = CommandGetImportedKeys{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[8]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetImportedKeys) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetImportedKeys) ProtoMessage() {}
-
-func (x *CommandGetImportedKeys) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[8]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetImportedKeys.ProtoReflect.Descriptor instead.
-func (*CommandGetImportedKeys) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{8}
-}
-
-func (x *CommandGetImportedKeys) GetCatalog() string {
-	if x != nil && x.Catalog != nil {
-		return *x.Catalog
-	}
-	return ""
-}
-
-func (x *CommandGetImportedKeys) GetDbSchema() string {
-	if x != nil && x.DbSchema != nil {
-		return *x.DbSchema
-	}
-	return ""
-}
-
-func (x *CommandGetImportedKeys) GetTable() string {
-	if x != nil {
-		return x.Table
-	}
-	return ""
-}
-
-// Represents a request to retrieve a description of the foreign key columns in the given foreign key table that
-// reference the primary key or the columns representing a unique constraint of the parent table (could be the same
-// or a different table) on a Flight SQL enabled backend.
-// Used in the command member of FlightDescriptor for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//   - GetFlightInfo: execute the catalog metadata request.
-//
-// The returned Arrow schema will be:
-// <
-//
-//	pk_catalog_name: utf8,
-//	pk_db_schema_name: utf8,
-//	pk_table_name: utf8 not null,
-//	pk_column_name: utf8 not null,
-//	fk_catalog_name: utf8,
-//	fk_db_schema_name: utf8,
-//	fk_table_name: utf8 not null,
-//	fk_column_name: utf8 not null,
-//	key_sequence: int32 not null,
-//	fk_key_name: utf8,
-//	pk_key_name: utf8,
-//	update_rule: uint8 not null,
-//	delete_rule: uint8 not null
-//
-// >
-// The returned data should be ordered by pk_catalog_name, pk_db_schema_name, pk_table_name, pk_key_name, then key_sequence.
-// update_rule and delete_rule returns a byte that is equivalent to actions:
-//   - 0 = CASCADE
-//   - 1 = RESTRICT
-//   - 2 = SET NULL
-//   - 3 = NO ACTION
-//   - 4 = SET DEFAULT
-type CommandGetCrossReference struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// *
-	// The catalog name where the parent table is.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	PkCatalog *string `protobuf:"bytes,1,opt,name=pk_catalog,json=pkCatalog,proto3,oneof" json:"pk_catalog,omitempty"`
-	// *
-	// The Schema name where the parent table is.
-	// An empty string retrieves those without a schema.
-	// If omitted the schema name should not be used to narrow the search.
-	PkDbSchema *string `protobuf:"bytes,2,opt,name=pk_db_schema,json=pkDbSchema,proto3,oneof" json:"pk_db_schema,omitempty"`
-	// *
-	// The parent table name. It cannot be null.
-	PkTable string `protobuf:"bytes,3,opt,name=pk_table,json=pkTable,proto3" json:"pk_table,omitempty"`
-	// *
-	// The catalog name where the foreign table is.
-	// An empty string retrieves those without a catalog.
-	// If omitted the catalog name should not be used to narrow the search.
-	FkCatalog *string `protobuf:"bytes,4,opt,name=fk_catalog,json=fkCatalog,proto3,oneof" json:"fk_catalog,omitempty"`
-	// *
-	// The schema name where the foreign table is.
-	// An empty string retrieves those without a schema.
-	// If omitted the schema name should not be used to narrow the search.
-	FkDbSchema *string `protobuf:"bytes,5,opt,name=fk_db_schema,json=fkDbSchema,proto3,oneof" json:"fk_db_schema,omitempty"`
-	// *
-	// The foreign table name. It cannot be null.
-	FkTable string `protobuf:"bytes,6,opt,name=fk_table,json=fkTable,proto3" json:"fk_table,omitempty"`
-}
-
-func (x *CommandGetCrossReference) Reset() {
-	*x = CommandGetCrossReference{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[9]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandGetCrossReference) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandGetCrossReference) ProtoMessage() {}
-
-func (x *CommandGetCrossReference) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[9]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandGetCrossReference.ProtoReflect.Descriptor instead.
-func (*CommandGetCrossReference) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{9}
-}
-
-func (x *CommandGetCrossReference) GetPkCatalog() string {
-	if x != nil && x.PkCatalog != nil {
-		return *x.PkCatalog
-	}
-	return ""
-}
-
-func (x *CommandGetCrossReference) GetPkDbSchema() string {
-	if x != nil && x.PkDbSchema != nil {
-		return *x.PkDbSchema
-	}
-	return ""
-}
-
-func (x *CommandGetCrossReference) GetPkTable() string {
-	if x != nil {
-		return x.PkTable
-	}
-	return ""
-}
-
-func (x *CommandGetCrossReference) GetFkCatalog() string {
-	if x != nil && x.FkCatalog != nil {
-		return *x.FkCatalog
-	}
-	return ""
-}
-
-func (x *CommandGetCrossReference) GetFkDbSchema() string {
-	if x != nil && x.FkDbSchema != nil {
-		return *x.FkDbSchema
-	}
-	return ""
-}
-
-func (x *CommandGetCrossReference) GetFkTable() string {
-	if x != nil {
-		return x.FkTable
-	}
-	return ""
-}
-
-// Request message for the "CreatePreparedStatement" action on a Flight SQL enabled backend.
-type ActionCreatePreparedStatementRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The valid SQL string to create a prepared statement for.
-	Query string `protobuf:"bytes,1,opt,name=query,proto3" json:"query,omitempty"`
-	// Create/execute the prepared statement as part of this transaction (if
-	// unset, executions of the prepared statement will be auto-committed).
-	TransactionId []byte `protobuf:"bytes,2,opt,name=transaction_id,json=transactionId,proto3,oneof" json:"transaction_id,omitempty"`
-}
-
-func (x *ActionCreatePreparedStatementRequest) Reset() {
-	*x = ActionCreatePreparedStatementRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[10]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionCreatePreparedStatementRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionCreatePreparedStatementRequest) ProtoMessage() {}
-
-func (x *ActionCreatePreparedStatementRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[10]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionCreatePreparedStatementRequest.ProtoReflect.Descriptor instead.
-func (*ActionCreatePreparedStatementRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{10}
-}
-
-func (x *ActionCreatePreparedStatementRequest) GetQuery() string {
-	if x != nil {
-		return x.Query
-	}
-	return ""
-}
-
-func (x *ActionCreatePreparedStatementRequest) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-// An embedded message describing a Substrait plan to execute.
-type SubstraitPlan struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The serialized substrait.Plan to create a prepared statement for.
-	// XXX(ARROW-16902): this is bytes instead of an embedded message
-	// because Protobuf does not really support one DLL using Protobuf
-	// definitions from another DLL.
-	Plan []byte `protobuf:"bytes,1,opt,name=plan,proto3" json:"plan,omitempty"`
-	// The Substrait release, e.g. "0.12.0". This information is not
-	// tracked in the plan itself, so this is the only way for consumers
-	// to potentially know if they can handle the plan.
-	Version string `protobuf:"bytes,2,opt,name=version,proto3" json:"version,omitempty"`
-}
-
-func (x *SubstraitPlan) Reset() {
-	*x = SubstraitPlan{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[11]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SubstraitPlan) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SubstraitPlan) ProtoMessage() {}
-
-func (x *SubstraitPlan) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[11]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SubstraitPlan.ProtoReflect.Descriptor instead.
-func (*SubstraitPlan) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{11}
-}
-
-func (x *SubstraitPlan) GetPlan() []byte {
-	if x != nil {
-		return x.Plan
-	}
-	return nil
-}
-
-func (x *SubstraitPlan) GetVersion() string {
-	if x != nil {
-		return x.Version
-	}
-	return ""
-}
-
-// Request message for the "CreatePreparedSubstraitPlan" action on a Flight SQL enabled backend.
-type ActionCreatePreparedSubstraitPlanRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The serialized substrait.Plan to create a prepared statement for.
-	Plan *SubstraitPlan `protobuf:"bytes,1,opt,name=plan,proto3" json:"plan,omitempty"`
-	// Create/execute the prepared statement as part of this transaction (if
-	// unset, executions of the prepared statement will be auto-committed).
-	TransactionId []byte `protobuf:"bytes,2,opt,name=transaction_id,json=transactionId,proto3,oneof" json:"transaction_id,omitempty"`
-}
-
-func (x *ActionCreatePreparedSubstraitPlanRequest) Reset() {
-	*x = ActionCreatePreparedSubstraitPlanRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[12]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionCreatePreparedSubstraitPlanRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionCreatePreparedSubstraitPlanRequest) ProtoMessage() {}
-
-func (x *ActionCreatePreparedSubstraitPlanRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[12]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionCreatePreparedSubstraitPlanRequest.ProtoReflect.Descriptor instead.
-func (*ActionCreatePreparedSubstraitPlanRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{12}
-}
-
-func (x *ActionCreatePreparedSubstraitPlanRequest) GetPlan() *SubstraitPlan {
-	if x != nil {
-		return x.Plan
-	}
-	return nil
-}
-
-func (x *ActionCreatePreparedSubstraitPlanRequest) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-// Wrap the result of a "CreatePreparedStatement" or "CreatePreparedSubstraitPlan" action.
-//
-// The resultant PreparedStatement can be closed either:
-// - Manually, through the "ClosePreparedStatement" action;
-// - Automatically, by a server timeout.
-//
-// The result should be wrapped in a google.protobuf.Any message.
-type ActionCreatePreparedStatementResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the prepared statement on the server.
-	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3" json:"prepared_statement_handle,omitempty"`
-	// If a result set generating query was provided, dataset_schema contains the
-	// schema of the result set.  It should be an IPC-encapsulated Schema, as described in Schema.fbs.
-	// For some queries, the schema of the results may depend on the schema of the parameters.  The server
-	// should provide its best guess as to the schema at this point.  Clients must not assume that this
-	// schema, if provided, will be accurate.
-	DatasetSchema []byte `protobuf:"bytes,2,opt,name=dataset_schema,json=datasetSchema,proto3" json:"dataset_schema,omitempty"`
-	// If the query provided contained parameters, parameter_schema contains the
-	// schema of the expected parameters.  It should be an IPC-encapsulated Schema, as described in Schema.fbs.
-	ParameterSchema []byte `protobuf:"bytes,3,opt,name=parameter_schema,json=parameterSchema,proto3" json:"parameter_schema,omitempty"`
-}
-
-func (x *ActionCreatePreparedStatementResult) Reset() {
-	*x = ActionCreatePreparedStatementResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[13]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionCreatePreparedStatementResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionCreatePreparedStatementResult) ProtoMessage() {}
-
-func (x *ActionCreatePreparedStatementResult) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[13]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionCreatePreparedStatementResult.ProtoReflect.Descriptor instead.
-func (*ActionCreatePreparedStatementResult) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{13}
-}
-
-func (x *ActionCreatePreparedStatementResult) GetPreparedStatementHandle() []byte {
-	if x != nil {
-		return x.PreparedStatementHandle
-	}
-	return nil
-}
-
-func (x *ActionCreatePreparedStatementResult) GetDatasetSchema() []byte {
-	if x != nil {
-		return x.DatasetSchema
-	}
-	return nil
-}
-
-func (x *ActionCreatePreparedStatementResult) GetParameterSchema() []byte {
-	if x != nil {
-		return x.ParameterSchema
-	}
-	return nil
-}
-
-// Request message for the "ClosePreparedStatement" action on a Flight SQL enabled backend.
-// Closes server resources associated with the prepared statement handle.
-type ActionClosePreparedStatementRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the prepared statement on the server.
-	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3" json:"prepared_statement_handle,omitempty"`
-}
-
-func (x *ActionClosePreparedStatementRequest) Reset() {
-	*x = ActionClosePreparedStatementRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[14]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionClosePreparedStatementRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionClosePreparedStatementRequest) ProtoMessage() {}
-
-func (x *ActionClosePreparedStatementRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[14]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionClosePreparedStatementRequest.ProtoReflect.Descriptor instead.
-func (*ActionClosePreparedStatementRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{14}
-}
-
-func (x *ActionClosePreparedStatementRequest) GetPreparedStatementHandle() []byte {
-	if x != nil {
-		return x.PreparedStatementHandle
-	}
-	return nil
-}
-
-// Request message for the "BeginTransaction" action.
-// Begins a transaction.
-type ActionBeginTransactionRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-}
-
-func (x *ActionBeginTransactionRequest) Reset() {
-	*x = ActionBeginTransactionRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[15]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionBeginTransactionRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionBeginTransactionRequest) ProtoMessage() {}
-
-func (x *ActionBeginTransactionRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[15]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionBeginTransactionRequest.ProtoReflect.Descriptor instead.
-func (*ActionBeginTransactionRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{15}
-}
-
-// Request message for the "BeginSavepoint" action.
-// Creates a savepoint within a transaction.
-//
-// Only supported if FLIGHT_SQL_TRANSACTION is
-// FLIGHT_SQL_TRANSACTION_SUPPORT_SAVEPOINT.
-type ActionBeginSavepointRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The transaction to which a savepoint belongs.
-	TransactionId []byte `protobuf:"bytes,1,opt,name=transaction_id,json=transactionId,proto3" json:"transaction_id,omitempty"`
-	// Name for the savepoint.
-	Name string `protobuf:"bytes,2,opt,name=name,proto3" json:"name,omitempty"`
-}
-
-func (x *ActionBeginSavepointRequest) Reset() {
-	*x = ActionBeginSavepointRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[16]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionBeginSavepointRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionBeginSavepointRequest) ProtoMessage() {}
-
-func (x *ActionBeginSavepointRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[16]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionBeginSavepointRequest.ProtoReflect.Descriptor instead.
-func (*ActionBeginSavepointRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{16}
-}
-
-func (x *ActionBeginSavepointRequest) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-func (x *ActionBeginSavepointRequest) GetName() string {
-	if x != nil {
-		return x.Name
-	}
-	return ""
-}
-
-// The result of a "BeginTransaction" action.
-//
-// The transaction can be manipulated with the "EndTransaction" action, or
-// automatically via server timeout. If the transaction times out, then it is
-// automatically rolled back.
-//
-// The result should be wrapped in a google.protobuf.Any message.
-type ActionBeginTransactionResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the transaction on the server.
-	TransactionId []byte `protobuf:"bytes,1,opt,name=transaction_id,json=transactionId,proto3" json:"transaction_id,omitempty"`
-}
-
-func (x *ActionBeginTransactionResult) Reset() {
-	*x = ActionBeginTransactionResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[17]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionBeginTransactionResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionBeginTransactionResult) ProtoMessage() {}
-
-func (x *ActionBeginTransactionResult) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[17]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionBeginTransactionResult.ProtoReflect.Descriptor instead.
-func (*ActionBeginTransactionResult) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{17}
-}
-
-func (x *ActionBeginTransactionResult) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-// The result of a "BeginSavepoint" action.
-//
-// The transaction can be manipulated with the "EndSavepoint" action.
-// If the associated transaction is committed, rolled back, or times
-// out, then the savepoint is also invalidated.
-//
-// The result should be wrapped in a google.protobuf.Any message.
-type ActionBeginSavepointResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the savepoint on the server.
-	SavepointId []byte `protobuf:"bytes,1,opt,name=savepoint_id,json=savepointId,proto3" json:"savepoint_id,omitempty"`
-}
-
-func (x *ActionBeginSavepointResult) Reset() {
-	*x = ActionBeginSavepointResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[18]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionBeginSavepointResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionBeginSavepointResult) ProtoMessage() {}
-
-func (x *ActionBeginSavepointResult) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[18]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionBeginSavepointResult.ProtoReflect.Descriptor instead.
-func (*ActionBeginSavepointResult) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{18}
-}
-
-func (x *ActionBeginSavepointResult) GetSavepointId() []byte {
-	if x != nil {
-		return x.SavepointId
-	}
-	return nil
-}
-
-// Request message for the "EndTransaction" action.
-//
-// Commit (COMMIT) or rollback (ROLLBACK) the transaction.
-//
-// If the action completes successfully, the transaction handle is
-// invalidated, as are all associated savepoints.
-type ActionEndTransactionRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the transaction on the server.
-	TransactionId []byte `protobuf:"bytes,1,opt,name=transaction_id,json=transactionId,proto3" json:"transaction_id,omitempty"`
-	// Whether to commit/rollback the given transaction.
-	Action ActionEndTransactionRequest_EndTransaction `protobuf:"varint,2,opt,name=action,proto3,enum=arrow.flight.protocol.sql.ActionEndTransactionRequest_EndTransaction" json:"action,omitempty"`
-}
-
-func (x *ActionEndTransactionRequest) Reset() {
-	*x = ActionEndTransactionRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[19]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionEndTransactionRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionEndTransactionRequest) ProtoMessage() {}
-
-func (x *ActionEndTransactionRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[19]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionEndTransactionRequest.ProtoReflect.Descriptor instead.
-func (*ActionEndTransactionRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{19}
-}
-
-func (x *ActionEndTransactionRequest) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-func (x *ActionEndTransactionRequest) GetAction() ActionEndTransactionRequest_EndTransaction {
-	if x != nil {
-		return x.Action
-	}
-	return ActionEndTransactionRequest_END_TRANSACTION_UNSPECIFIED
-}
-
-// Request message for the "EndSavepoint" action.
-//
-// Release (RELEASE) the savepoint or rollback (ROLLBACK) to the
-// savepoint.
-//
-// Releasing a savepoint invalidates that savepoint.  Rolling back to
-// a savepoint does not invalidate the savepoint, but invalidates all
-// savepoints created after the current savepoint.
-type ActionEndSavepointRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the savepoint on the server.
-	SavepointId []byte `protobuf:"bytes,1,opt,name=savepoint_id,json=savepointId,proto3" json:"savepoint_id,omitempty"`
-	// Whether to rollback/release the given savepoint.
-	Action ActionEndSavepointRequest_EndSavepoint `protobuf:"varint,2,opt,name=action,proto3,enum=arrow.flight.protocol.sql.ActionEndSavepointRequest_EndSavepoint" json:"action,omitempty"`
-}
-
-func (x *ActionEndSavepointRequest) Reset() {
-	*x = ActionEndSavepointRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[20]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionEndSavepointRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionEndSavepointRequest) ProtoMessage() {}
-
-func (x *ActionEndSavepointRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[20]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionEndSavepointRequest.ProtoReflect.Descriptor instead.
-func (*ActionEndSavepointRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{20}
-}
-
-func (x *ActionEndSavepointRequest) GetSavepointId() []byte {
-	if x != nil {
-		return x.SavepointId
-	}
-	return nil
-}
-
-func (x *ActionEndSavepointRequest) GetAction() ActionEndSavepointRequest_EndSavepoint {
-	if x != nil {
-		return x.Action
-	}
-	return ActionEndSavepointRequest_END_SAVEPOINT_UNSPECIFIED
-}
-
-// Represents a SQL query. Used in the command member of FlightDescriptor
-// for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//     Fields on this schema may contain the following metadata:
-//   - ARROW:FLIGHT:SQL:CATALOG_NAME      - Table's catalog name
-//   - ARROW:FLIGHT:SQL:DB_SCHEMA_NAME    - Database schema name
-//   - ARROW:FLIGHT:SQL:TABLE_NAME        - Table name
-//   - ARROW:FLIGHT:SQL:TYPE_NAME         - The data source-specific name for the data type of the column.
-//   - ARROW:FLIGHT:SQL:PRECISION         - Column precision/size
-//   - ARROW:FLIGHT:SQL:SCALE             - Column scale/decimal digits if applicable
-//   - ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT - "1" indicates if the column is auto incremented, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE - "1" indicates if the column is case-sensitive, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_READ_ONLY      - "1" indicates if the column is read only, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_SEARCHABLE     - "1" indicates if the column is searchable via WHERE clause, "0" otherwise.
-//   - GetFlightInfo: execute the query.
-type CommandStatementQuery struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The SQL syntax.
-	Query string `protobuf:"bytes,1,opt,name=query,proto3" json:"query,omitempty"`
-	// Include the query as part of this transaction (if unset, the query is auto-committed).
-	TransactionId []byte `protobuf:"bytes,2,opt,name=transaction_id,json=transactionId,proto3,oneof" json:"transaction_id,omitempty"`
-}
-
-func (x *CommandStatementQuery) Reset() {
-	*x = CommandStatementQuery{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[21]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandStatementQuery) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandStatementQuery) ProtoMessage() {}
-
-func (x *CommandStatementQuery) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[21]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandStatementQuery.ProtoReflect.Descriptor instead.
-func (*CommandStatementQuery) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{21}
-}
-
-func (x *CommandStatementQuery) GetQuery() string {
-	if x != nil {
-		return x.Query
-	}
-	return ""
-}
-
-func (x *CommandStatementQuery) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-// Represents a Substrait plan. Used in the command member of FlightDescriptor
-// for the following RPC calls:
-//   - GetSchema: return the Arrow schema of the query.
-//     Fields on this schema may contain the following metadata:
-//   - ARROW:FLIGHT:SQL:CATALOG_NAME      - Table's catalog name
-//   - ARROW:FLIGHT:SQL:DB_SCHEMA_NAME    - Database schema name
-//   - ARROW:FLIGHT:SQL:TABLE_NAME        - Table name
-//   - ARROW:FLIGHT:SQL:TYPE_NAME         - The data source-specific name for the data type of the column.
-//   - ARROW:FLIGHT:SQL:PRECISION         - Column precision/size
-//   - ARROW:FLIGHT:SQL:SCALE             - Column scale/decimal digits if applicable
-//   - ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT - "1" indicates if the column is auto incremented, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE - "1" indicates if the column is case-sensitive, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_READ_ONLY      - "1" indicates if the column is read only, "0" otherwise.
-//   - ARROW:FLIGHT:SQL:IS_SEARCHABLE     - "1" indicates if the column is searchable via WHERE clause, "0" otherwise.
-//   - GetFlightInfo: execute the query.
-//   - DoPut: execute the query.
-type CommandStatementSubstraitPlan struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// A serialized substrait.Plan
-	Plan *SubstraitPlan `protobuf:"bytes,1,opt,name=plan,proto3" json:"plan,omitempty"`
-	// Include the query as part of this transaction (if unset, the query is auto-committed).
-	TransactionId []byte `protobuf:"bytes,2,opt,name=transaction_id,json=transactionId,proto3,oneof" json:"transaction_id,omitempty"`
-}
-
-func (x *CommandStatementSubstraitPlan) Reset() {
-	*x = CommandStatementSubstraitPlan{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[22]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandStatementSubstraitPlan) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandStatementSubstraitPlan) ProtoMessage() {}
-
-func (x *CommandStatementSubstraitPlan) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[22]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandStatementSubstraitPlan.ProtoReflect.Descriptor instead.
-func (*CommandStatementSubstraitPlan) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{22}
-}
-
-func (x *CommandStatementSubstraitPlan) GetPlan() *SubstraitPlan {
-	if x != nil {
-		return x.Plan
-	}
-	return nil
-}
-
-func (x *CommandStatementSubstraitPlan) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-// *
-// Represents a ticket resulting from GetFlightInfo with a CommandStatementQuery.
-// This should be used only once and treated as an opaque value, that is, clients should not attempt to parse this.
-type TicketStatementQuery struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Unique identifier for the instance of the statement to execute.
-	StatementHandle []byte `protobuf:"bytes,1,opt,name=statement_handle,json=statementHandle,proto3" json:"statement_handle,omitempty"`
-}
-
-func (x *TicketStatementQuery) Reset() {
-	*x = TicketStatementQuery{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[23]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *TicketStatementQuery) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*TicketStatementQuery) ProtoMessage() {}
-
-func (x *TicketStatementQuery) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[23]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use TicketStatementQuery.ProtoReflect.Descriptor instead.
-func (*TicketStatementQuery) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{23}
-}
-
-func (x *TicketStatementQuery) GetStatementHandle() []byte {
-	if x != nil {
-		return x.StatementHandle
-	}
-	return nil
-}
-
-// Represents an instance of executing a prepared statement. Used in the command member of FlightDescriptor for
-// the following RPC calls:
-//
-//   - GetSchema: return the Arrow schema of the query.
-//     Fields on this schema may contain the following metadata:
-//
-//   - ARROW:FLIGHT:SQL:CATALOG_NAME      - Table's catalog name
-//
-//   - ARROW:FLIGHT:SQL:DB_SCHEMA_NAME    - Database schema name
-//
-//   - ARROW:FLIGHT:SQL:TABLE_NAME        - Table name
-//
-//   - ARROW:FLIGHT:SQL:TYPE_NAME         - The data source-specific name for the data type of the column.
-//
-//   - ARROW:FLIGHT:SQL:PRECISION         - Column precision/size
-//
-//   - ARROW:FLIGHT:SQL:SCALE             - Column scale/decimal digits if applicable
-//
-//   - ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT - "1" indicates if the column is auto incremented, "0" otherwise.
-//
-//   - ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE - "1" indicates if the column is case-sensitive, "0" otherwise.
-//
-//   - ARROW:FLIGHT:SQL:IS_READ_ONLY      - "1" indicates if the column is read only, "0" otherwise.
-//
-//   - ARROW:FLIGHT:SQL:IS_SEARCHABLE     - "1" indicates if the column is searchable via WHERE clause, "0" otherwise.
-//
-//     If the schema is retrieved after parameter values have been bound with DoPut, then the server should account
-//     for the parameters when determining the schema.
-//
-//   - DoPut: bind parameter values. All of the bound parameter sets will be executed as a single atomic execution.
-//
-//   - GetFlightInfo: execute the prepared statement instance.
-type CommandPreparedStatementQuery struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the prepared statement on the server.
-	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3" json:"prepared_statement_handle,omitempty"`
-}
-
-func (x *CommandPreparedStatementQuery) Reset() {
-	*x = CommandPreparedStatementQuery{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[24]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandPreparedStatementQuery) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandPreparedStatementQuery) ProtoMessage() {}
-
-func (x *CommandPreparedStatementQuery) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[24]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandPreparedStatementQuery.ProtoReflect.Descriptor instead.
-func (*CommandPreparedStatementQuery) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{24}
-}
-
-func (x *CommandPreparedStatementQuery) GetPreparedStatementHandle() []byte {
-	if x != nil {
-		return x.PreparedStatementHandle
-	}
-	return nil
-}
-
-// Represents a SQL update query. Used in the command member of FlightDescriptor
-// for the RPC call DoPut to cause the server to execute the included SQL update.
-type CommandStatementUpdate struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The SQL syntax.
-	Query string `protobuf:"bytes,1,opt,name=query,proto3" json:"query,omitempty"`
-	// Include the query as part of this transaction (if unset, the query is auto-committed).
-	TransactionId []byte `protobuf:"bytes,2,opt,name=transaction_id,json=transactionId,proto3,oneof" json:"transaction_id,omitempty"`
-}
-
-func (x *CommandStatementUpdate) Reset() {
-	*x = CommandStatementUpdate{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[25]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandStatementUpdate) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandStatementUpdate) ProtoMessage() {}
-
-func (x *CommandStatementUpdate) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[25]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandStatementUpdate.ProtoReflect.Descriptor instead.
-func (*CommandStatementUpdate) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{25}
-}
-
-func (x *CommandStatementUpdate) GetQuery() string {
-	if x != nil {
-		return x.Query
-	}
-	return ""
-}
-
-func (x *CommandStatementUpdate) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-// Represents a SQL update query. Used in the command member of FlightDescriptor
-// for the RPC call DoPut to cause the server to execute the included
-// prepared statement handle as an update.
-type CommandPreparedStatementUpdate struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Opaque handle for the prepared statement on the server.
-	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3" json:"prepared_statement_handle,omitempty"`
-}
-
-func (x *CommandPreparedStatementUpdate) Reset() {
-	*x = CommandPreparedStatementUpdate{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[26]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandPreparedStatementUpdate) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandPreparedStatementUpdate) ProtoMessage() {}
-
-func (x *CommandPreparedStatementUpdate) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[26]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandPreparedStatementUpdate.ProtoReflect.Descriptor instead.
-func (*CommandPreparedStatementUpdate) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{26}
-}
-
-func (x *CommandPreparedStatementUpdate) GetPreparedStatementHandle() []byte {
-	if x != nil {
-		return x.PreparedStatementHandle
-	}
-	return nil
-}
-
-// Represents a bulk ingestion request. Used in the command member of FlightDescriptor
-// for the the RPC call DoPut to cause the server load the contents of the stream's
-// FlightData into the target destination.
-type CommandStatementIngest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The behavior for handling the table definition.
-	TableDefinitionOptions *CommandStatementIngest_TableDefinitionOptions `protobuf:"bytes,1,opt,name=table_definition_options,json=tableDefinitionOptions,proto3" json:"table_definition_options,omitempty"`
-	// The table to load data into.
-	Table string `protobuf:"bytes,2,opt,name=table,proto3" json:"table,omitempty"`
-	// The db_schema of the destination table to load data into. If unset, a backend-specific default may be used.
-	Schema *string `protobuf:"bytes,3,opt,name=schema,proto3,oneof" json:"schema,omitempty"`
-	// The catalog of the destination table to load data into. If unset, a backend-specific default may be used.
-	Catalog *string `protobuf:"bytes,4,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
-	// Store ingested data in a temporary table.
-	// The effect of setting temporary is to place the table in a backend-defined namespace, and to drop the table at the end of the session.
-	// The namespacing may make use of a backend-specific schema and/or catalog.
-	// The server should return an error if an explicit choice of schema or catalog is incompatible with the server's namespacing decision.
-	Temporary bool `protobuf:"varint,5,opt,name=temporary,proto3" json:"temporary,omitempty"`
-	// Perform the ingestion as part of this transaction. If specified, results should not be committed in the event of an error/cancellation.
-	TransactionId []byte `protobuf:"bytes,6,opt,name=transaction_id,json=transactionId,proto3,oneof" json:"transaction_id,omitempty"`
-	// Backend-specific options.
-	Options map[string]string `protobuf:"bytes,1000,rep,name=options,proto3" json:"options,omitempty" protobuf_key:"bytes,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-}
-
-func (x *CommandStatementIngest) Reset() {
-	*x = CommandStatementIngest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[27]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandStatementIngest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandStatementIngest) ProtoMessage() {}
-
-func (x *CommandStatementIngest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[27]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandStatementIngest.ProtoReflect.Descriptor instead.
-func (*CommandStatementIngest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{27}
-}
-
-func (x *CommandStatementIngest) GetTableDefinitionOptions() *CommandStatementIngest_TableDefinitionOptions {
-	if x != nil {
-		return x.TableDefinitionOptions
-	}
-	return nil
-}
-
-func (x *CommandStatementIngest) GetTable() string {
-	if x != nil {
-		return x.Table
-	}
-	return ""
-}
-
-func (x *CommandStatementIngest) GetSchema() string {
-	if x != nil && x.Schema != nil {
-		return *x.Schema
-	}
-	return ""
-}
-
-func (x *CommandStatementIngest) GetCatalog() string {
-	if x != nil && x.Catalog != nil {
-		return *x.Catalog
-	}
-	return ""
-}
-
-func (x *CommandStatementIngest) GetTemporary() bool {
-	if x != nil {
-		return x.Temporary
-	}
-	return false
-}
-
-func (x *CommandStatementIngest) GetTransactionId() []byte {
-	if x != nil {
-		return x.TransactionId
-	}
-	return nil
-}
-
-func (x *CommandStatementIngest) GetOptions() map[string]string {
-	if x != nil {
-		return x.Options
-	}
-	return nil
-}
-
-// Returned from the RPC call DoPut when a CommandStatementUpdate,
-// CommandPreparedStatementUpdate, or CommandStatementIngest was
-// in the request, containing results from the update.
-type DoPutUpdateResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The number of records updated. A return value of -1 represents
-	// an unknown updated record count.
-	RecordCount int64 `protobuf:"varint,1,opt,name=record_count,json=recordCount,proto3" json:"record_count,omitempty"`
-}
-
-func (x *DoPutUpdateResult) Reset() {
-	*x = DoPutUpdateResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[28]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *DoPutUpdateResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*DoPutUpdateResult) ProtoMessage() {}
-
-func (x *DoPutUpdateResult) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[28]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use DoPutUpdateResult.ProtoReflect.Descriptor instead.
-func (*DoPutUpdateResult) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{28}
-}
-
-func (x *DoPutUpdateResult) GetRecordCount() int64 {
-	if x != nil {
-		return x.RecordCount
-	}
-	return 0
-}
-
-// An *optional* response returned when `DoPut` is called with `CommandPreparedStatementQuery`.
-//
-// *Note on legacy behavior*: previous versions of the protocol did not return any result for
-// this command, and that behavior should still be supported by clients. In that case, the client
-// can continue as though the fields in this message were not provided or set to sensible default values.
-type DoPutPreparedStatementResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// Represents a (potentially updated) opaque handle for the prepared statement on the server.
-	// Because the handle could potentially be updated, any previous handles for this prepared
-	// statement should be considered invalid, and all subsequent requests for this prepared
-	// statement must use this new handle.
-	// The updated handle allows implementing query parameters with stateless services.
-	//
-	// When an updated handle is not provided by the server, clients should contiue
-	// using the previous handle provided by `ActionCreatePreparedStatementResonse`.
-	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3,oneof" json:"prepared_statement_handle,omitempty"`
-}
-
-func (x *DoPutPreparedStatementResult) Reset() {
-	*x = DoPutPreparedStatementResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[29]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *DoPutPreparedStatementResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*DoPutPreparedStatementResult) ProtoMessage() {}
-
-func (x *DoPutPreparedStatementResult) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[29]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use DoPutPreparedStatementResult.ProtoReflect.Descriptor instead.
-func (*DoPutPreparedStatementResult) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{29}
-}
-
-func (x *DoPutPreparedStatementResult) GetPreparedStatementHandle() []byte {
-	if x != nil {
-		return x.PreparedStatementHandle
-	}
-	return nil
-}
-
-// Request message for the "CancelQuery" action.
-//
-// Explicitly cancel a running query.
-//
-// This lets a single client explicitly cancel work, no matter how many clients
-// are involved/whether the query is distributed or not, given server support.
-// The transaction/statement is not rolled back; it is the application's job to
-// commit or rollback as appropriate. This only indicates the client no longer
-// wishes to read the remainder of the query results or continue submitting
-// data.
-//
-// This command is idempotent.
-//
-// This command is deprecated since 13.0.0. Use the "CancelFlightInfo"
-// action with DoAction instead.
-//
-// Deprecated: Marked as deprecated in FlightSql.proto.
-type ActionCancelQueryRequest struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	// The result of the GetFlightInfo RPC that initiated the query.
-	// XXX(ARROW-16902): this must be a serialized FlightInfo, but is
-	// rendered as bytes because Protobuf does not really support one
-	// DLL using Protobuf definitions from another DLL.
-	Info []byte `protobuf:"bytes,1,opt,name=info,proto3" json:"info,omitempty"`
-}
-
-func (x *ActionCancelQueryRequest) Reset() {
-	*x = ActionCancelQueryRequest{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[30]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionCancelQueryRequest) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionCancelQueryRequest) ProtoMessage() {}
-
-func (x *ActionCancelQueryRequest) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[30]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionCancelQueryRequest.ProtoReflect.Descriptor instead.
-func (*ActionCancelQueryRequest) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{30}
-}
-
-func (x *ActionCancelQueryRequest) GetInfo() []byte {
-	if x != nil {
-		return x.Info
-	}
-	return nil
-}
-
-// The result of cancelling a query.
-//
-// The result should be wrapped in a google.protobuf.Any message.
-//
-// This command is deprecated since 13.0.0. Use the "CancelFlightInfo"
-// action with DoAction instead.
-//
-// Deprecated: Marked as deprecated in FlightSql.proto.
-type ActionCancelQueryResult struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Result ActionCancelQueryResult_CancelResult `protobuf:"varint,1,opt,name=result,proto3,enum=arrow.flight.protocol.sql.ActionCancelQueryResult_CancelResult" json:"result,omitempty"`
-}
-
-func (x *ActionCancelQueryResult) Reset() {
-	*x = ActionCancelQueryResult{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[31]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ActionCancelQueryResult) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ActionCancelQueryResult) ProtoMessage() {}
-
-func (x *ActionCancelQueryResult) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[31]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ActionCancelQueryResult.ProtoReflect.Descriptor instead.
-func (*ActionCancelQueryResult) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{31}
-}
-
-func (x *ActionCancelQueryResult) GetResult() ActionCancelQueryResult_CancelResult {
-	if x != nil {
-		return x.Result
-	}
-	return ActionCancelQueryResult_CANCEL_RESULT_UNSPECIFIED
-}
-
-// Options for table definition behavior
-type CommandStatementIngest_TableDefinitionOptions struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	IfNotExist CommandStatementIngest_TableDefinitionOptions_TableNotExistOption `protobuf:"varint,1,opt,name=if_not_exist,json=ifNotExist,proto3,enum=arrow.flight.protocol.sql.CommandStatementIngest_TableDefinitionOptions_TableNotExistOption" json:"if_not_exist,omitempty"`
-	IfExists   CommandStatementIngest_TableDefinitionOptions_TableExistsOption   `protobuf:"varint,2,opt,name=if_exists,json=ifExists,proto3,enum=arrow.flight.protocol.sql.CommandStatementIngest_TableDefinitionOptions_TableExistsOption" json:"if_exists,omitempty"`
-}
-
-func (x *CommandStatementIngest_TableDefinitionOptions) Reset() {
-	*x = CommandStatementIngest_TableDefinitionOptions{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_FlightSql_proto_msgTypes[32]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *CommandStatementIngest_TableDefinitionOptions) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*CommandStatementIngest_TableDefinitionOptions) ProtoMessage() {}
-
-func (x *CommandStatementIngest_TableDefinitionOptions) ProtoReflect() protoreflect.Message {
-	mi := &file_FlightSql_proto_msgTypes[32]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use CommandStatementIngest_TableDefinitionOptions.ProtoReflect.Descriptor instead.
-func (*CommandStatementIngest_TableDefinitionOptions) Descriptor() ([]byte, []int) {
-	return file_FlightSql_proto_rawDescGZIP(), []int{27, 0}
-}
-
-func (x *CommandStatementIngest_TableDefinitionOptions) GetIfNotExist() CommandStatementIngest_TableDefinitionOptions_TableNotExistOption {
-	if x != nil {
-		return x.IfNotExist
-	}
-	return CommandStatementIngest_TableDefinitionOptions_TABLE_NOT_EXIST_OPTION_UNSPECIFIED
-}
-
-func (x *CommandStatementIngest_TableDefinitionOptions) GetIfExists() CommandStatementIngest_TableDefinitionOptions_TableExistsOption {
-	if x != nil {
-		return x.IfExists
-	}
-	return CommandStatementIngest_TableDefinitionOptions_TABLE_EXISTS_OPTION_UNSPECIFIED
-}
-
-var file_FlightSql_proto_extTypes = []protoimpl.ExtensionInfo{
-	{
-		ExtendedType:  (*descriptorpb.MessageOptions)(nil),
-		ExtensionType: (*bool)(nil),
-		Field:         1000,
-		Name:          "arrow.flight.protocol.sql.experimental",
-		Tag:           "varint,1000,opt,name=experimental",
-		Filename:      "FlightSql.proto",
-	},
-}
-
-// Extension fields to descriptorpb.MessageOptions.
-var (
-	// optional bool experimental = 1000;
-	E_Experimental = &file_FlightSql_proto_extTypes[0]
-)
-
-var File_FlightSql_proto protoreflect.FileDescriptor
-
-var file_FlightSql_proto_rawDesc = []byte{
-	0x0a, 0x0f, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x53, 0x71, 0x6c, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x12, 0x19, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e,
-	0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x1a, 0x20, 0x67, 0x6f,
-	0x6f, 0x67, 0x6c, 0x65, 0x2f, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x62, 0x75, 0x66, 0x2f, 0x64, 0x65,
-	0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x22, 0x2c,
-	0x0a, 0x11, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x53, 0x71, 0x6c, 0x49,
-	0x6e, 0x66, 0x6f, 0x12, 0x12, 0x0a, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x18, 0x01, 0x20, 0x03, 0x28,
-	0x0d, 0x52, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x4d, 0x0a, 0x16,
-	0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x58, 0x64, 0x62, 0x63, 0x54, 0x79,
-	0x70, 0x65, 0x49, 0x6e, 0x66, 0x6f, 0x12, 0x20, 0x0a, 0x09, 0x64, 0x61, 0x74, 0x61, 0x5f, 0x74,
-	0x79, 0x70, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x05, 0x48, 0x00, 0x52, 0x08, 0x64, 0x61, 0x74,
-	0x61, 0x54, 0x79, 0x70, 0x65, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x0c, 0x0a,
-	0x0a, 0x5f, 0x64, 0x61, 0x74, 0x61, 0x5f, 0x74, 0x79, 0x70, 0x65, 0x22, 0x19, 0x0a, 0x12, 0x43,
-	0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x43, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67,
-	0x73, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0xa0, 0x01, 0x0a, 0x13, 0x43, 0x6f, 0x6d, 0x6d, 0x61,
-	0x6e, 0x64, 0x47, 0x65, 0x74, 0x44, 0x62, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x73, 0x12, 0x1d,
-	0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48,
-	0x00, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x3c, 0x0a,
-	0x18, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65,
-	0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48,
-	0x01, 0x52, 0x15, 0x64, 0x62, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x46, 0x69, 0x6c, 0x74, 0x65,
-	0x72, 0x50, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01,
-	0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42, 0x1b, 0x0a, 0x19,
-	0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65,
-	0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x22, 0xc3, 0x02, 0x0a, 0x10, 0x43, 0x6f,
-	0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x73, 0x12, 0x1d,
-	0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48,
-	0x00, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x3c, 0x0a,
-	0x18, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65,
-	0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48,
-	0x01, 0x52, 0x15, 0x64, 0x62, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x46, 0x69, 0x6c, 0x74, 0x65,
-	0x72, 0x50, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x88, 0x01, 0x01, 0x12, 0x3e, 0x0a, 0x19, 0x74,
-	0x61, 0x62, 0x6c, 0x65, 0x5f, 0x6e, 0x61, 0x6d, 0x65, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65, 0x72,
-	0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x48, 0x02,
-	0x52, 0x16, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x4e, 0x61, 0x6d, 0x65, 0x46, 0x69, 0x6c, 0x74, 0x65,
-	0x72, 0x50, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x88, 0x01, 0x01, 0x12, 0x1f, 0x0a, 0x0b, 0x74,
-	0x61, 0x62, 0x6c, 0x65, 0x5f, 0x74, 0x79, 0x70, 0x65, 0x73, 0x18, 0x04, 0x20, 0x03, 0x28, 0x09,
-	0x52, 0x0a, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x12, 0x25, 0x0a, 0x0e,
-	0x69, 0x6e, 0x63, 0x6c, 0x75, 0x64, 0x65, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x05,
-	0x20, 0x01, 0x28, 0x08, 0x52, 0x0d, 0x69, 0x6e, 0x63, 0x6c, 0x75, 0x64, 0x65, 0x53, 0x63, 0x68,
-	0x65, 0x6d, 0x61, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74,
-	0x61, 0x6c, 0x6f, 0x67, 0x42, 0x1b, 0x0a, 0x19, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65,
-	0x6d, 0x61, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65, 0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72,
-	0x6e, 0x42, 0x1c, 0x0a, 0x1a, 0x5f, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x5f, 0x6e, 0x61, 0x6d, 0x65,
-	0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65, 0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x22,
-	0x1b, 0x0a, 0x14, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x54, 0x61, 0x62,
-	0x6c, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x8d, 0x01, 0x0a,
-	0x15, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x50, 0x72, 0x69, 0x6d, 0x61,
-	0x72, 0x79, 0x4b, 0x65, 0x79, 0x73, 0x12, 0x1d, 0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f,
-	0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c,
-	0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x20, 0x0a, 0x09, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65,
-	0x6d, 0x61, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x08, 0x64, 0x62, 0x53, 0x63,
-	0x68, 0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x14, 0x0a, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65,
-	0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x3a, 0x03, 0xc0,
-	0x3e, 0x01, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42, 0x0c,
-	0x0a, 0x0a, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0x8e, 0x01, 0x0a,
-	0x16, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x45, 0x78, 0x70, 0x6f, 0x72,
-	0x74, 0x65, 0x64, 0x4b, 0x65, 0x79, 0x73, 0x12, 0x1d, 0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c,
-	0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61,
-	0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x20, 0x0a, 0x09, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68,
-	0x65, 0x6d, 0x61, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x08, 0x64, 0x62, 0x53,
-	0x63, 0x68, 0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x14, 0x0a, 0x05, 0x74, 0x61, 0x62, 0x6c,
-	0x65, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x3a, 0x03,
-	0xc0, 0x3e, 0x01, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42,
-	0x0c, 0x0a, 0x0a, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0x8e, 0x01,
-	0x0a, 0x16, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x49, 0x6d, 0x70, 0x6f,
-	0x72, 0x74, 0x65, 0x64, 0x4b, 0x65, 0x79, 0x73, 0x12, 0x1d, 0x0a, 0x07, 0x63, 0x61, 0x74, 0x61,
-	0x6c, 0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x07, 0x63, 0x61, 0x74,
-	0x61, 0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x20, 0x0a, 0x09, 0x64, 0x62, 0x5f, 0x73, 0x63,
-	0x68, 0x65, 0x6d, 0x61, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x08, 0x64, 0x62,
-	0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x14, 0x0a, 0x05, 0x74, 0x61, 0x62,
-	0x6c, 0x65, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x3a,
-	0x03, 0xc0, 0x3e, 0x01, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67,
-	0x42, 0x0c, 0x0a, 0x0a, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0xab,
-	0x02, 0x0a, 0x18, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x43, 0x72, 0x6f,
-	0x73, 0x73, 0x52, 0x65, 0x66, 0x65, 0x72, 0x65, 0x6e, 0x63, 0x65, 0x12, 0x22, 0x0a, 0x0a, 0x70,
-	0x6b, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48,
-	0x00, 0x52, 0x09, 0x70, 0x6b, 0x43, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12,
-	0x25, 0x0a, 0x0c, 0x70, 0x6b, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18,
-	0x02, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x0a, 0x70, 0x6b, 0x44, 0x62, 0x53, 0x63, 0x68,
-	0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x19, 0x0a, 0x08, 0x70, 0x6b, 0x5f, 0x74, 0x61, 0x62,
-	0x6c, 0x65, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x52, 0x07, 0x70, 0x6b, 0x54, 0x61, 0x62, 0x6c,
-	0x65, 0x12, 0x22, 0x0a, 0x0a, 0x66, 0x6b, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x18,
-	0x04, 0x20, 0x01, 0x28, 0x09, 0x48, 0x02, 0x52, 0x09, 0x66, 0x6b, 0x43, 0x61, 0x74, 0x61, 0x6c,
-	0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x25, 0x0a, 0x0c, 0x66, 0x6b, 0x5f, 0x64, 0x62, 0x5f, 0x73,
-	0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x05, 0x20, 0x01, 0x28, 0x09, 0x48, 0x03, 0x52, 0x0a, 0x66,
-	0x6b, 0x44, 0x62, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x19, 0x0a, 0x08,
-	0x66, 0x6b, 0x5f, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x18, 0x06, 0x20, 0x01, 0x28, 0x09, 0x52, 0x07,
-	0x66, 0x6b, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x0d, 0x0a, 0x0b,
-	0x5f, 0x70, 0x6b, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42, 0x0f, 0x0a, 0x0d, 0x5f,
-	0x70, 0x6b, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x42, 0x0d, 0x0a, 0x0b,
-	0x5f, 0x66, 0x6b, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42, 0x0f, 0x0a, 0x0d, 0x5f,
-	0x66, 0x6b, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0x80, 0x01, 0x0a,
-	0x24, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43, 0x72, 0x65, 0x61, 0x74, 0x65, 0x50, 0x72, 0x65,
-	0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x52, 0x65,
-	0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x14, 0x0a, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x12, 0x2a, 0x0a, 0x0e, 0x74,
-	0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x02, 0x20,
-	0x01, 0x28, 0x0c, 0x48, 0x00, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69,
-	0x6f, 0x6e, 0x49, 0x64, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x11, 0x0a, 0x0f,
-	0x5f, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x22,
-	0x42, 0x0a, 0x0d, 0x53, 0x75, 0x62, 0x73, 0x74, 0x72, 0x61, 0x69, 0x74, 0x50, 0x6c, 0x61, 0x6e,
-	0x12, 0x12, 0x0a, 0x04, 0x70, 0x6c, 0x61, 0x6e, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x04,
-	0x70, 0x6c, 0x61, 0x6e, 0x12, 0x18, 0x0a, 0x07, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6f, 0x6e, 0x18,
-	0x02, 0x20, 0x01, 0x28, 0x09, 0x52, 0x07, 0x76, 0x65, 0x72, 0x73, 0x69, 0x6f, 0x6e, 0x3a, 0x03,
-	0xc0, 0x3e, 0x01, 0x22, 0xac, 0x01, 0x0a, 0x28, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43, 0x72,
-	0x65, 0x61, 0x74, 0x65, 0x50, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x75, 0x62, 0x73,
-	0x74, 0x72, 0x61, 0x69, 0x74, 0x50, 0x6c, 0x61, 0x6e, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74,
-	0x12, 0x3c, 0x0a, 0x04, 0x70, 0x6c, 0x61, 0x6e, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x28,
-	0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72,
-	0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x53, 0x75, 0x62, 0x73, 0x74,
-	0x72, 0x61, 0x69, 0x74, 0x50, 0x6c, 0x61, 0x6e, 0x52, 0x04, 0x70, 0x6c, 0x61, 0x6e, 0x12, 0x2a,
-	0x0a, 0x0e, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64,
-	0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x48, 0x00, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61,
-	0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49, 0x64, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42,
-	0x11, 0x0a, 0x0f, 0x5f, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f,
-	0x69, 0x64, 0x22, 0xb8, 0x01, 0x0a, 0x23, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43, 0x72, 0x65,
-	0x61, 0x74, 0x65, 0x50, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65,
-	0x6d, 0x65, 0x6e, 0x74, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x3a, 0x0a, 0x19, 0x70, 0x72,
-	0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x5f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74,
-	0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x17, 0x70,
-	0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74,
-	0x48, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x12, 0x25, 0x0a, 0x0e, 0x64, 0x61, 0x74, 0x61, 0x73, 0x65,
-	0x74, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0d,
-	0x64, 0x61, 0x74, 0x61, 0x73, 0x65, 0x74, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x12, 0x29, 0x0a,
-	0x10, 0x70, 0x61, 0x72, 0x61, 0x6d, 0x65, 0x74, 0x65, 0x72, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d,
-	0x61, 0x18, 0x03, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0f, 0x70, 0x61, 0x72, 0x61, 0x6d, 0x65, 0x74,
-	0x65, 0x72, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x66, 0x0a,
-	0x23, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43, 0x6c, 0x6f, 0x73, 0x65, 0x50, 0x72, 0x65, 0x70,
-	0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x52, 0x65, 0x71,
-	0x75, 0x65, 0x73, 0x74, 0x12, 0x3a, 0x0a, 0x19, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64,
-	0x5f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c,
-	0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x17, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65,
-	0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x48, 0x61, 0x6e, 0x64, 0x6c, 0x65,
-	0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x24, 0x0a, 0x1d, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x42,
-	0x65, 0x67, 0x69, 0x6e, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x52,
-	0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x5d, 0x0a, 0x1b, 0x41,
-	0x63, 0x74, 0x69, 0x6f, 0x6e, 0x42, 0x65, 0x67, 0x69, 0x6e, 0x53, 0x61, 0x76, 0x65, 0x70, 0x6f,
-	0x69, 0x6e, 0x74, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x25, 0x0a, 0x0e, 0x74, 0x72,
-	0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x01, 0x20, 0x01,
-	0x28, 0x0c, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49,
-	0x64, 0x12, 0x12, 0x0a, 0x04, 0x6e, 0x61, 0x6d, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x52,
-	0x04, 0x6e, 0x61, 0x6d, 0x65, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x4a, 0x0a, 0x1c, 0x41, 0x63,
-	0x74, 0x69, 0x6f, 0x6e, 0x42, 0x65, 0x67, 0x69, 0x6e, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63,
-	0x74, 0x69, 0x6f, 0x6e, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x25, 0x0a, 0x0e, 0x74, 0x72,
-	0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x01, 0x20, 0x01,
-	0x28, 0x0c, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49,
-	0x64, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x44, 0x0a, 0x1a, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e,
-	0x42, 0x65, 0x67, 0x69, 0x6e, 0x53, 0x61, 0x76, 0x65, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x52, 0x65,
-	0x73, 0x75, 0x6c, 0x74, 0x12, 0x21, 0x0a, 0x0c, 0x73, 0x61, 0x76, 0x65, 0x70, 0x6f, 0x69, 0x6e,
-	0x74, 0x5f, 0x69, 0x64, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0b, 0x73, 0x61, 0x76, 0x65,
-	0x70, 0x6f, 0x69, 0x6e, 0x74, 0x49, 0x64, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x95, 0x02, 0x0a,
-	0x1b, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x45, 0x6e, 0x64, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61,
-	0x63, 0x74, 0x69, 0x6f, 0x6e, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x25, 0x0a, 0x0e,
-	0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x0c, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f,
-	0x6e, 0x49, 0x64, 0x12, 0x5d, 0x0a, 0x06, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x18, 0x02, 0x20,
-	0x01, 0x28, 0x0e, 0x32, 0x45, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67,
-	0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e,
-	0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x45, 0x6e, 0x64, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63,
-	0x74, 0x69, 0x6f, 0x6e, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x2e, 0x45, 0x6e, 0x64, 0x54,
-	0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x52, 0x06, 0x61, 0x63, 0x74, 0x69,
-	0x6f, 0x6e, 0x22, 0x6b, 0x0a, 0x0e, 0x45, 0x6e, 0x64, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63,
-	0x74, 0x69, 0x6f, 0x6e, 0x12, 0x1f, 0x0a, 0x1b, 0x45, 0x4e, 0x44, 0x5f, 0x54, 0x52, 0x41, 0x4e,
-	0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46,
-	0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x1a, 0x0a, 0x16, 0x45, 0x4e, 0x44, 0x5f, 0x54, 0x52, 0x41,
-	0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x43, 0x4f, 0x4d, 0x4d, 0x49, 0x54, 0x10,
-	0x01, 0x12, 0x1c, 0x0a, 0x18, 0x45, 0x4e, 0x44, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43,
-	0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x52, 0x4f, 0x4c, 0x4c, 0x42, 0x41, 0x43, 0x4b, 0x10, 0x02, 0x3a,
-	0x03, 0xc0, 0x3e, 0x01, 0x22, 0x84, 0x02, 0x0a, 0x19, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x45,
-	0x6e, 0x64, 0x53, 0x61, 0x76, 0x65, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x52, 0x65, 0x71, 0x75, 0x65,
-	0x73, 0x74, 0x12, 0x21, 0x0a, 0x0c, 0x73, 0x61, 0x76, 0x65, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x5f,
-	0x69, 0x64, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0b, 0x73, 0x61, 0x76, 0x65, 0x70, 0x6f,
-	0x69, 0x6e, 0x74, 0x49, 0x64, 0x12, 0x59, 0x0a, 0x06, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x18,
-	0x02, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x41, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c,
-	0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71,
-	0x6c, 0x2e, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x45, 0x6e, 0x64, 0x53, 0x61, 0x76, 0x65, 0x70,
-	0x6f, 0x69, 0x6e, 0x74, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73, 0x74, 0x2e, 0x45, 0x6e, 0x64, 0x53,
-	0x61, 0x76, 0x65, 0x70, 0x6f, 0x69, 0x6e, 0x74, 0x52, 0x06, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e,
-	0x22, 0x64, 0x0a, 0x0c, 0x45, 0x6e, 0x64, 0x53, 0x61, 0x76, 0x65, 0x70, 0x6f, 0x69, 0x6e, 0x74,
-	0x12, 0x1d, 0x0a, 0x19, 0x45, 0x4e, 0x44, 0x5f, 0x53, 0x41, 0x56, 0x45, 0x50, 0x4f, 0x49, 0x4e,
-	0x54, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12,
-	0x19, 0x0a, 0x15, 0x45, 0x4e, 0x44, 0x5f, 0x53, 0x41, 0x56, 0x45, 0x50, 0x4f, 0x49, 0x4e, 0x54,
-	0x5f, 0x52, 0x45, 0x4c, 0x45, 0x41, 0x53, 0x45, 0x10, 0x01, 0x12, 0x1a, 0x0a, 0x16, 0x45, 0x4e,
-	0x44, 0x5f, 0x53, 0x41, 0x56, 0x45, 0x50, 0x4f, 0x49, 0x4e, 0x54, 0x5f, 0x52, 0x4f, 0x4c, 0x4c,
-	0x42, 0x41, 0x43, 0x4b, 0x10, 0x02, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x71, 0x0a, 0x15, 0x43,
-	0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x51,
-	0x75, 0x65, 0x72, 0x79, 0x12, 0x14, 0x0a, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x18, 0x01, 0x20,
-	0x01, 0x28, 0x09, 0x52, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x12, 0x2a, 0x0a, 0x0e, 0x74, 0x72,
-	0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x02, 0x20, 0x01,
-	0x28, 0x0c, 0x48, 0x00, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f,
-	0x6e, 0x49, 0x64, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x11, 0x0a, 0x0f, 0x5f,
-	0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x22, 0xa1,
-	0x01, 0x0a, 0x1d, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d,
-	0x65, 0x6e, 0x74, 0x53, 0x75, 0x62, 0x73, 0x74, 0x72, 0x61, 0x69, 0x74, 0x50, 0x6c, 0x61, 0x6e,
-	0x12, 0x3c, 0x0a, 0x04, 0x70, 0x6c, 0x61, 0x6e, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x28,
-	0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72,
-	0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x53, 0x75, 0x62, 0x73, 0x74,
-	0x72, 0x61, 0x69, 0x74, 0x50, 0x6c, 0x61, 0x6e, 0x52, 0x04, 0x70, 0x6c, 0x61, 0x6e, 0x12, 0x2a,
-	0x0a, 0x0e, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64,
-	0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x48, 0x00, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61,
-	0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49, 0x64, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42,
-	0x11, 0x0a, 0x0f, 0x5f, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f,
-	0x69, 0x64, 0x22, 0x46, 0x0a, 0x14, 0x54, 0x69, 0x63, 0x6b, 0x65, 0x74, 0x53, 0x74, 0x61, 0x74,
-	0x65, 0x6d, 0x65, 0x6e, 0x74, 0x51, 0x75, 0x65, 0x72, 0x79, 0x12, 0x29, 0x0a, 0x10, 0x73, 0x74,
-	0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x0c, 0x52, 0x0f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x48,
-	0x61, 0x6e, 0x64, 0x6c, 0x65, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x60, 0x0a, 0x1d, 0x43, 0x6f,
-	0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x50, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61,
-	0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x51, 0x75, 0x65, 0x72, 0x79, 0x12, 0x3a, 0x0a, 0x19, 0x70,
-	0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x5f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e,
-	0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x17,
-	0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e,
-	0x74, 0x48, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x72, 0x0a, 0x16,
-	0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74,
-	0x55, 0x70, 0x64, 0x61, 0x74, 0x65, 0x12, 0x14, 0x0a, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x18,
-	0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x12, 0x2a, 0x0a, 0x0e,
-	0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x02,
-	0x20, 0x01, 0x28, 0x0c, 0x48, 0x00, 0x52, 0x0d, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74,
-	0x69, 0x6f, 0x6e, 0x49, 0x64, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x11, 0x0a,
-	0x0f, 0x5f, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64,
-	0x22, 0x61, 0x0a, 0x1e, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x50, 0x72, 0x65, 0x70, 0x61,
-	0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x55, 0x70, 0x64, 0x61,
-	0x74, 0x65, 0x12, 0x3a, 0x0a, 0x19, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x5f, 0x73,
-	0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x18,
-	0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x17, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53,
-	0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x48, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x3a, 0x03,
-	0xc0, 0x3e, 0x01, 0x22, 0xb1, 0x08, 0x0a, 0x16, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53,
-	0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x49, 0x6e, 0x67, 0x65, 0x73, 0x74, 0x12, 0x82,
-	0x01, 0x0a, 0x18, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x5f, 0x64, 0x65, 0x66, 0x69, 0x6e, 0x69, 0x74,
-	0x69, 0x6f, 0x6e, 0x5f, 0x6f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x18, 0x01, 0x20, 0x01, 0x28,
-	0x0b, 0x32, 0x48, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x43, 0x6f,
-	0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x49, 0x6e,
-	0x67, 0x65, 0x73, 0x74, 0x2e, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x44, 0x65, 0x66, 0x69, 0x6e, 0x69,
-	0x74, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x52, 0x16, 0x74, 0x61, 0x62,
-	0x6c, 0x65, 0x44, 0x65, 0x66, 0x69, 0x6e, 0x69, 0x74, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69,
-	0x6f, 0x6e, 0x73, 0x12, 0x14, 0x0a, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x18, 0x02, 0x20, 0x01,
-	0x28, 0x09, 0x52, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x12, 0x1b, 0x0a, 0x06, 0x73, 0x63, 0x68,
-	0x65, 0x6d, 0x61, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x06, 0x73, 0x63, 0x68,
-	0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x1d, 0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f,
-	0x67, 0x18, 0x04, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c,
-	0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x1c, 0x0a, 0x09, 0x74, 0x65, 0x6d, 0x70, 0x6f, 0x72, 0x61,
-	0x72, 0x79, 0x18, 0x05, 0x20, 0x01, 0x28, 0x08, 0x52, 0x09, 0x74, 0x65, 0x6d, 0x70, 0x6f, 0x72,
-	0x61, 0x72, 0x79, 0x12, 0x2a, 0x0a, 0x0e, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69,
-	0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x18, 0x06, 0x20, 0x01, 0x28, 0x0c, 0x48, 0x02, 0x52, 0x0d, 0x74,
-	0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49, 0x64, 0x88, 0x01, 0x01, 0x12,
-	0x59, 0x0a, 0x07, 0x6f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x18, 0xe8, 0x07, 0x20, 0x03, 0x28,
-	0x0b, 0x32, 0x3e, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x43, 0x6f,
-	0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x49, 0x6e,
-	0x67, 0x65, 0x73, 0x74, 0x2e, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x45, 0x6e, 0x74, 0x72,
-	0x79, 0x52, 0x07, 0x6f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x1a, 0xaf, 0x04, 0x0a, 0x16, 0x54,
-	0x61, 0x62, 0x6c, 0x65, 0x44, 0x65, 0x66, 0x69, 0x6e, 0x69, 0x74, 0x69, 0x6f, 0x6e, 0x4f, 0x70,
-	0x74, 0x69, 0x6f, 0x6e, 0x73, 0x12, 0x7e, 0x0a, 0x0c, 0x69, 0x66, 0x5f, 0x6e, 0x6f, 0x74, 0x5f,
-	0x65, 0x78, 0x69, 0x73, 0x74, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x5c, 0x2e, 0x61, 0x72,
-	0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f,
-	0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53,
-	0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x49, 0x6e, 0x67, 0x65, 0x73, 0x74, 0x2e, 0x54,
-	0x61, 0x62, 0x6c, 0x65, 0x44, 0x65, 0x66, 0x69, 0x6e, 0x69, 0x74, 0x69, 0x6f, 0x6e, 0x4f, 0x70,
-	0x74, 0x69, 0x6f, 0x6e, 0x73, 0x2e, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x4e, 0x6f, 0x74, 0x45, 0x78,
-	0x69, 0x73, 0x74, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x52, 0x0a, 0x69, 0x66, 0x4e, 0x6f, 0x74,
-	0x45, 0x78, 0x69, 0x73, 0x74, 0x12, 0x77, 0x0a, 0x09, 0x69, 0x66, 0x5f, 0x65, 0x78, 0x69, 0x73,
-	0x74, 0x73, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x5a, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77,
-	0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c,
-	0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74,
-	0x65, 0x6d, 0x65, 0x6e, 0x74, 0x49, 0x6e, 0x67, 0x65, 0x73, 0x74, 0x2e, 0x54, 0x61, 0x62, 0x6c,
-	0x65, 0x44, 0x65, 0x66, 0x69, 0x6e, 0x69, 0x74, 0x69, 0x6f, 0x6e, 0x4f, 0x70, 0x74, 0x69, 0x6f,
-	0x6e, 0x73, 0x2e, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x45, 0x78, 0x69, 0x73, 0x74, 0x73, 0x4f, 0x70,
-	0x74, 0x69, 0x6f, 0x6e, 0x52, 0x08, 0x69, 0x66, 0x45, 0x78, 0x69, 0x73, 0x74, 0x73, 0x22, 0x81,
-	0x01, 0x0a, 0x13, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x4e, 0x6f, 0x74, 0x45, 0x78, 0x69, 0x73, 0x74,
-	0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x12, 0x26, 0x0a, 0x22, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f,
-	0x4e, 0x4f, 0x54, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x5f, 0x4f, 0x50, 0x54, 0x49, 0x4f, 0x4e,
-	0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x21,
-	0x0a, 0x1d, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x4e, 0x4f, 0x54, 0x5f, 0x45, 0x58, 0x49, 0x53,
-	0x54, 0x5f, 0x4f, 0x50, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x43, 0x52, 0x45, 0x41, 0x54, 0x45, 0x10,
-	0x01, 0x12, 0x1f, 0x0a, 0x1b, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x4e, 0x4f, 0x54, 0x5f, 0x45,
-	0x58, 0x49, 0x53, 0x54, 0x5f, 0x4f, 0x50, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x46, 0x41, 0x49, 0x4c,
-	0x10, 0x02, 0x22, 0x97, 0x01, 0x0a, 0x11, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x45, 0x78, 0x69, 0x73,
-	0x74, 0x73, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x12, 0x23, 0x0a, 0x1f, 0x54, 0x41, 0x42, 0x4c,
-	0x45, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x53, 0x5f, 0x4f, 0x50, 0x54, 0x49, 0x4f, 0x4e, 0x5f,
-	0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x1c, 0x0a,
-	0x18, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x53, 0x5f, 0x4f, 0x50,
-	0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x46, 0x41, 0x49, 0x4c, 0x10, 0x01, 0x12, 0x1e, 0x0a, 0x1a, 0x54,
-	0x41, 0x42, 0x4c, 0x45, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x53, 0x5f, 0x4f, 0x50, 0x54, 0x49,
-	0x4f, 0x4e, 0x5f, 0x41, 0x50, 0x50, 0x45, 0x4e, 0x44, 0x10, 0x02, 0x12, 0x1f, 0x0a, 0x1b, 0x54,
-	0x41, 0x42, 0x4c, 0x45, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x53, 0x5f, 0x4f, 0x50, 0x54, 0x49,
-	0x4f, 0x4e, 0x5f, 0x52, 0x45, 0x50, 0x4c, 0x41, 0x43, 0x45, 0x10, 0x03, 0x1a, 0x3a, 0x0a, 0x0c,
-	0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x12, 0x10, 0x0a, 0x03,
-	0x6b, 0x65, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x03, 0x6b, 0x65, 0x79, 0x12, 0x14,
-	0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x76,
-	0x61, 0x6c, 0x75, 0x65, 0x3a, 0x02, 0x38, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x09, 0x0a,
-	0x07, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74,
-	0x61, 0x6c, 0x6f, 0x67, 0x42, 0x11, 0x0a, 0x0f, 0x5f, 0x74, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63,
-	0x74, 0x69, 0x6f, 0x6e, 0x5f, 0x69, 0x64, 0x22, 0x3b, 0x0a, 0x11, 0x44, 0x6f, 0x50, 0x75, 0x74,
-	0x55, 0x70, 0x64, 0x61, 0x74, 0x65, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x21, 0x0a, 0x0c,
-	0x72, 0x65, 0x63, 0x6f, 0x72, 0x64, 0x5f, 0x63, 0x6f, 0x75, 0x6e, 0x74, 0x18, 0x01, 0x20, 0x01,
-	0x28, 0x03, 0x52, 0x0b, 0x72, 0x65, 0x63, 0x6f, 0x72, 0x64, 0x43, 0x6f, 0x75, 0x6e, 0x74, 0x3a,
-	0x03, 0xc0, 0x3e, 0x01, 0x22, 0x82, 0x01, 0x0a, 0x1c, 0x44, 0x6f, 0x50, 0x75, 0x74, 0x50, 0x72,
-	0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x52,
-	0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x3f, 0x0a, 0x19, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65,
-	0x64, 0x5f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64,
-	0x6c, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x48, 0x00, 0x52, 0x17, 0x70, 0x72, 0x65, 0x70,
-	0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x48, 0x61, 0x6e,
-	0x64, 0x6c, 0x65, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x1c, 0x0a, 0x1a, 0x5f,
-	0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x5f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65,
-	0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x22, 0x35, 0x0a, 0x18, 0x41, 0x63, 0x74,
-	0x69, 0x6f, 0x6e, 0x43, 0x61, 0x6e, 0x63, 0x65, 0x6c, 0x51, 0x75, 0x65, 0x72, 0x79, 0x52, 0x65,
-	0x71, 0x75, 0x65, 0x73, 0x74, 0x12, 0x12, 0x0a, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x18, 0x01, 0x20,
-	0x01, 0x28, 0x0c, 0x52, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x3a, 0x05, 0xc0, 0x3e, 0x01, 0x18, 0x01,
-	0x22, 0x87, 0x02, 0x0a, 0x17, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43, 0x61, 0x6e, 0x63, 0x65,
-	0x6c, 0x51, 0x75, 0x65, 0x72, 0x79, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x57, 0x0a, 0x06,
-	0x72, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x3f, 0x2e, 0x61,
-	0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43,
-	0x61, 0x6e, 0x63, 0x65, 0x6c, 0x51, 0x75, 0x65, 0x72, 0x79, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74,
-	0x2e, 0x43, 0x61, 0x6e, 0x63, 0x65, 0x6c, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x52, 0x06, 0x72,
-	0x65, 0x73, 0x75, 0x6c, 0x74, 0x22, 0x8b, 0x01, 0x0a, 0x0c, 0x43, 0x61, 0x6e, 0x63, 0x65, 0x6c,
-	0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x1d, 0x0a, 0x19, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c,
-	0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46,
-	0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x1b, 0x0a, 0x17, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x5f,
-	0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x4c, 0x45, 0x44,
-	0x10, 0x01, 0x12, 0x1c, 0x0a, 0x18, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x5f, 0x52, 0x45, 0x53,
-	0x55, 0x4c, 0x54, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x4c, 0x49, 0x4e, 0x47, 0x10, 0x02,
-	0x12, 0x21, 0x0a, 0x1d, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c,
-	0x54, 0x5f, 0x4e, 0x4f, 0x54, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x4c, 0x41, 0x42, 0x4c,
-	0x45, 0x10, 0x03, 0x3a, 0x05, 0xc0, 0x3e, 0x01, 0x18, 0x01, 0x2a, 0x92, 0x19, 0x0a, 0x07, 0x53,
-	0x71, 0x6c, 0x49, 0x6e, 0x66, 0x6f, 0x12, 0x1a, 0x0a, 0x16, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54,
-	0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x4e, 0x41, 0x4d, 0x45,
-	0x10, 0x00, 0x12, 0x1d, 0x0a, 0x19, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c,
-	0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x56, 0x45, 0x52, 0x53, 0x49, 0x4f, 0x4e, 0x10,
-	0x01, 0x12, 0x23, 0x0a, 0x1f, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f,
-	0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x41, 0x52, 0x52, 0x4f, 0x57, 0x5f, 0x56, 0x45, 0x52,
-	0x53, 0x49, 0x4f, 0x4e, 0x10, 0x02, 0x12, 0x1f, 0x0a, 0x1b, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54,
-	0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x52, 0x45, 0x41, 0x44,
-	0x5f, 0x4f, 0x4e, 0x4c, 0x59, 0x10, 0x03, 0x12, 0x19, 0x0a, 0x15, 0x46, 0x4c, 0x49, 0x47, 0x48,
-	0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x53, 0x51, 0x4c,
-	0x10, 0x04, 0x12, 0x1f, 0x0a, 0x1b, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c,
-	0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x53, 0x55, 0x42, 0x53, 0x54, 0x52, 0x41, 0x49,
-	0x54, 0x10, 0x05, 0x12, 0x2b, 0x0a, 0x27, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51,
-	0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x53, 0x55, 0x42, 0x53, 0x54, 0x52, 0x41,
-	0x49, 0x54, 0x5f, 0x4d, 0x49, 0x4e, 0x5f, 0x56, 0x45, 0x52, 0x53, 0x49, 0x4f, 0x4e, 0x10, 0x06,
-	0x12, 0x2b, 0x0a, 0x27, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53,
-	0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x53, 0x55, 0x42, 0x53, 0x54, 0x52, 0x41, 0x49, 0x54, 0x5f,
-	0x4d, 0x41, 0x58, 0x5f, 0x56, 0x45, 0x52, 0x53, 0x49, 0x4f, 0x4e, 0x10, 0x07, 0x12, 0x21, 0x0a,
-	0x1d, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56,
-	0x45, 0x52, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x10, 0x08,
-	0x12, 0x1c, 0x0a, 0x18, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53,
-	0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x43, 0x41, 0x4e, 0x43, 0x45, 0x4c, 0x10, 0x09, 0x12, 0x24,
-	0x0a, 0x20, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52,
-	0x56, 0x45, 0x52, 0x5f, 0x42, 0x55, 0x4c, 0x4b, 0x5f, 0x49, 0x4e, 0x47, 0x45, 0x53, 0x54, 0x49,
-	0x4f, 0x4e, 0x10, 0x0a, 0x12, 0x33, 0x0a, 0x2f, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53,
-	0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x49, 0x4e, 0x47, 0x45, 0x53, 0x54,
-	0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x5f, 0x53, 0x55,
-	0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x0b, 0x12, 0x27, 0x0a, 0x23, 0x46, 0x4c, 0x49,
-	0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x53,
-	0x54, 0x41, 0x54, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x5f, 0x54, 0x49, 0x4d, 0x45, 0x4f, 0x55, 0x54,
-	0x10, 0x64, 0x12, 0x29, 0x0a, 0x25, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c,
-	0x5f, 0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54,
-	0x49, 0x4f, 0x4e, 0x5f, 0x54, 0x49, 0x4d, 0x45, 0x4f, 0x55, 0x54, 0x10, 0x65, 0x12, 0x14, 0x0a,
-	0x0f, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x44, 0x4c, 0x5f, 0x43, 0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47,
-	0x10, 0xf4, 0x03, 0x12, 0x13, 0x0a, 0x0e, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x44, 0x4c, 0x5f, 0x53,
-	0x43, 0x48, 0x45, 0x4d, 0x41, 0x10, 0xf5, 0x03, 0x12, 0x12, 0x0a, 0x0d, 0x53, 0x51, 0x4c, 0x5f,
-	0x44, 0x44, 0x4c, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x10, 0xf6, 0x03, 0x12, 0x18, 0x0a, 0x13,
-	0x53, 0x51, 0x4c, 0x5f, 0x49, 0x44, 0x45, 0x4e, 0x54, 0x49, 0x46, 0x49, 0x45, 0x52, 0x5f, 0x43,
-	0x41, 0x53, 0x45, 0x10, 0xf7, 0x03, 0x12, 0x1e, 0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x49, 0x44,
-	0x45, 0x4e, 0x54, 0x49, 0x46, 0x49, 0x45, 0x52, 0x5f, 0x51, 0x55, 0x4f, 0x54, 0x45, 0x5f, 0x43,
-	0x48, 0x41, 0x52, 0x10, 0xf8, 0x03, 0x12, 0x1f, 0x0a, 0x1a, 0x53, 0x51, 0x4c, 0x5f, 0x51, 0x55,
-	0x4f, 0x54, 0x45, 0x44, 0x5f, 0x49, 0x44, 0x45, 0x4e, 0x54, 0x49, 0x46, 0x49, 0x45, 0x52, 0x5f,
-	0x43, 0x41, 0x53, 0x45, 0x10, 0xf9, 0x03, 0x12, 0x22, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x41,
-	0x4c, 0x4c, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x53, 0x5f, 0x41, 0x52, 0x45, 0x5f, 0x53, 0x45,
-	0x4c, 0x45, 0x43, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x10, 0xfa, 0x03, 0x12, 0x16, 0x0a, 0x11, 0x53,
-	0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x5f, 0x4f, 0x52, 0x44, 0x45, 0x52, 0x49, 0x4e, 0x47,
-	0x10, 0xfb, 0x03, 0x12, 0x11, 0x0a, 0x0c, 0x53, 0x51, 0x4c, 0x5f, 0x4b, 0x45, 0x59, 0x57, 0x4f,
-	0x52, 0x44, 0x53, 0x10, 0xfc, 0x03, 0x12, 0x1a, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55,
-	0x4d, 0x45, 0x52, 0x49, 0x43, 0x5f, 0x46, 0x55, 0x4e, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10,
-	0xfd, 0x03, 0x12, 0x19, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x54, 0x52, 0x49, 0x4e, 0x47,
-	0x5f, 0x46, 0x55, 0x4e, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0xfe, 0x03, 0x12, 0x19, 0x0a,
-	0x14, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x59, 0x53, 0x54, 0x45, 0x4d, 0x5f, 0x46, 0x55, 0x4e, 0x43,
-	0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0xff, 0x03, 0x12, 0x1b, 0x0a, 0x16, 0x53, 0x51, 0x4c, 0x5f,
-	0x44, 0x41, 0x54, 0x45, 0x54, 0x49, 0x4d, 0x45, 0x5f, 0x46, 0x55, 0x4e, 0x43, 0x54, 0x49, 0x4f,
-	0x4e, 0x53, 0x10, 0x80, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x41,
-	0x52, 0x43, 0x48, 0x5f, 0x53, 0x54, 0x52, 0x49, 0x4e, 0x47, 0x5f, 0x45, 0x53, 0x43, 0x41, 0x50,
-	0x45, 0x10, 0x81, 0x04, 0x12, 0x1e, 0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x45, 0x58, 0x54, 0x52,
-	0x41, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x43, 0x48, 0x41, 0x52, 0x41, 0x43, 0x54, 0x45, 0x52,
-	0x53, 0x10, 0x82, 0x04, 0x12, 0x21, 0x0a, 0x1c, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50,
-	0x4f, 0x52, 0x54, 0x53, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x5f, 0x41, 0x4c, 0x49, 0x41,
-	0x53, 0x49, 0x4e, 0x47, 0x10, 0x83, 0x04, 0x12, 0x1f, 0x0a, 0x1a, 0x53, 0x51, 0x4c, 0x5f, 0x4e,
-	0x55, 0x4c, 0x4c, 0x5f, 0x50, 0x4c, 0x55, 0x53, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x5f, 0x49, 0x53,
-	0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x10, 0x84, 0x04, 0x12, 0x19, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f,
-	0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54,
-	0x10, 0x85, 0x04, 0x12, 0x29, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f,
-	0x52, 0x54, 0x53, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x43, 0x4f, 0x52, 0x52, 0x45, 0x4c,
-	0x41, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x53, 0x10, 0x86, 0x04, 0x12, 0x33,
-	0x0a, 0x2e, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x44,
-	0x49, 0x46, 0x46, 0x45, 0x52, 0x45, 0x4e, 0x54, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x43,
-	0x4f, 0x52, 0x52, 0x45, 0x4c, 0x41, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x53,
-	0x10, 0x87, 0x04, 0x12, 0x29, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f,
-	0x52, 0x54, 0x53, 0x5f, 0x45, 0x58, 0x50, 0x52, 0x45, 0x53, 0x53, 0x49, 0x4f, 0x4e, 0x53, 0x5f,
-	0x49, 0x4e, 0x5f, 0x4f, 0x52, 0x44, 0x45, 0x52, 0x5f, 0x42, 0x59, 0x10, 0x88, 0x04, 0x12, 0x24,
-	0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x4f,
-	0x52, 0x44, 0x45, 0x52, 0x5f, 0x42, 0x59, 0x5f, 0x55, 0x4e, 0x52, 0x45, 0x4c, 0x41, 0x54, 0x45,
-	0x44, 0x10, 0x89, 0x04, 0x12, 0x1b, 0x0a, 0x16, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50,
-	0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x47, 0x52, 0x4f, 0x55, 0x50, 0x5f, 0x42, 0x59, 0x10, 0x8a,
-	0x04, 0x12, 0x24, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54,
-	0x53, 0x5f, 0x4c, 0x49, 0x4b, 0x45, 0x5f, 0x45, 0x53, 0x43, 0x41, 0x50, 0x45, 0x5f, 0x43, 0x4c,
-	0x41, 0x55, 0x53, 0x45, 0x10, 0x8b, 0x04, 0x12, 0x26, 0x0a, 0x21, 0x53, 0x51, 0x4c, 0x5f, 0x53,
-	0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x4e, 0x4f, 0x4e, 0x5f, 0x4e, 0x55, 0x4c, 0x4c,
-	0x41, 0x42, 0x4c, 0x45, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x53, 0x10, 0x8c, 0x04, 0x12,
-	0x1a, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44,
-	0x5f, 0x47, 0x52, 0x41, 0x4d, 0x4d, 0x41, 0x52, 0x10, 0x8d, 0x04, 0x12, 0x1f, 0x0a, 0x1a, 0x53,
-	0x51, 0x4c, 0x5f, 0x41, 0x4e, 0x53, 0x49, 0x39, 0x32, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52,
-	0x54, 0x45, 0x44, 0x5f, 0x4c, 0x45, 0x56, 0x45, 0x4c, 0x10, 0x8e, 0x04, 0x12, 0x30, 0x0a, 0x2b,
-	0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x49, 0x4e, 0x54,
-	0x45, 0x47, 0x52, 0x49, 0x54, 0x59, 0x5f, 0x45, 0x4e, 0x48, 0x41, 0x4e, 0x43, 0x45, 0x4d, 0x45,
-	0x4e, 0x54, 0x5f, 0x46, 0x41, 0x43, 0x49, 0x4c, 0x49, 0x54, 0x59, 0x10, 0x8f, 0x04, 0x12, 0x22,
-	0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x4f, 0x55, 0x54, 0x45, 0x52, 0x5f, 0x4a, 0x4f, 0x49, 0x4e,
-	0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x5f, 0x4c, 0x45, 0x56, 0x45, 0x4c, 0x10,
-	0x90, 0x04, 0x12, 0x14, 0x0a, 0x0f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x43, 0x48, 0x45, 0x4d, 0x41,
-	0x5f, 0x54, 0x45, 0x52, 0x4d, 0x10, 0x91, 0x04, 0x12, 0x17, 0x0a, 0x12, 0x53, 0x51, 0x4c, 0x5f,
-	0x50, 0x52, 0x4f, 0x43, 0x45, 0x44, 0x55, 0x52, 0x45, 0x5f, 0x54, 0x45, 0x52, 0x4d, 0x10, 0x92,
-	0x04, 0x12, 0x15, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47,
-	0x5f, 0x54, 0x45, 0x52, 0x4d, 0x10, 0x93, 0x04, 0x12, 0x19, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f,
-	0x43, 0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47, 0x5f, 0x41, 0x54, 0x5f, 0x53, 0x54, 0x41, 0x52, 0x54,
-	0x10, 0x94, 0x04, 0x12, 0x22, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x43, 0x48, 0x45, 0x4d,
-	0x41, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x41, 0x43, 0x54,
-	0x49, 0x4f, 0x4e, 0x53, 0x10, 0x95, 0x04, 0x12, 0x23, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x43,
-	0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45,
-	0x44, 0x5f, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x96, 0x04, 0x12, 0x26, 0x0a, 0x21,
-	0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x50, 0x4f,
-	0x53, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x45, 0x44, 0x5f, 0x43, 0x4f, 0x4d, 0x4d, 0x41, 0x4e, 0x44,
-	0x53, 0x10, 0x97, 0x04, 0x12, 0x24, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x4c, 0x45,
-	0x43, 0x54, 0x5f, 0x46, 0x4f, 0x52, 0x5f, 0x55, 0x50, 0x44, 0x41, 0x54, 0x45, 0x5f, 0x53, 0x55,
-	0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x98, 0x04, 0x12, 0x24, 0x0a, 0x1f, 0x53, 0x51,
-	0x4c, 0x5f, 0x53, 0x54, 0x4f, 0x52, 0x45, 0x44, 0x5f, 0x50, 0x52, 0x4f, 0x43, 0x45, 0x44, 0x55,
-	0x52, 0x45, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x99, 0x04,
-	0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45,
-	0x44, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49, 0x45, 0x53, 0x10, 0x9a, 0x04, 0x12,
-	0x28, 0x0a, 0x23, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x52, 0x52, 0x45, 0x4c, 0x41, 0x54, 0x45,
-	0x44, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49, 0x45, 0x53, 0x5f, 0x53, 0x55, 0x50,
-	0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x9b, 0x04, 0x12, 0x19, 0x0a, 0x14, 0x53, 0x51, 0x4c,
-	0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x55, 0x4e, 0x49, 0x4f, 0x4e,
-	0x53, 0x10, 0x9c, 0x04, 0x12, 0x22, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f,
-	0x42, 0x49, 0x4e, 0x41, 0x52, 0x59, 0x5f, 0x4c, 0x49, 0x54, 0x45, 0x52, 0x41, 0x4c, 0x5f, 0x4c,
-	0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0x9d, 0x04, 0x12, 0x20, 0x0a, 0x1b, 0x53, 0x51, 0x4c, 0x5f,
-	0x4d, 0x41, 0x58, 0x5f, 0x43, 0x48, 0x41, 0x52, 0x5f, 0x4c, 0x49, 0x54, 0x45, 0x52, 0x41, 0x4c,
-	0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0x9e, 0x04, 0x12, 0x1f, 0x0a, 0x1a, 0x53, 0x51,
-	0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x5f, 0x4e, 0x41, 0x4d,
-	0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0x9f, 0x04, 0x12, 0x20, 0x0a, 0x1b, 0x53,
-	0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x53, 0x5f, 0x49,
-	0x4e, 0x5f, 0x47, 0x52, 0x4f, 0x55, 0x50, 0x5f, 0x42, 0x59, 0x10, 0xa0, 0x04, 0x12, 0x1d, 0x0a,
-	0x18, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x53,
-	0x5f, 0x49, 0x4e, 0x5f, 0x49, 0x4e, 0x44, 0x45, 0x58, 0x10, 0xa1, 0x04, 0x12, 0x20, 0x0a, 0x1b,
-	0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x53, 0x5f,
-	0x49, 0x4e, 0x5f, 0x4f, 0x52, 0x44, 0x45, 0x52, 0x5f, 0x42, 0x59, 0x10, 0xa2, 0x04, 0x12, 0x1e,
-	0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e,
-	0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x53, 0x45, 0x4c, 0x45, 0x43, 0x54, 0x10, 0xa3, 0x04, 0x12, 0x1d,
-	0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e,
-	0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x10, 0xa4, 0x04, 0x12, 0x18, 0x0a,
-	0x13, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4e, 0x4e, 0x45, 0x43, 0x54,
-	0x49, 0x4f, 0x4e, 0x53, 0x10, 0xa5, 0x04, 0x12, 0x1f, 0x0a, 0x1a, 0x53, 0x51, 0x4c, 0x5f, 0x4d,
-	0x41, 0x58, 0x5f, 0x43, 0x55, 0x52, 0x53, 0x4f, 0x52, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c,
-	0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xa6, 0x04, 0x12, 0x19, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f,
-	0x4d, 0x41, 0x58, 0x5f, 0x49, 0x4e, 0x44, 0x45, 0x58, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48,
-	0x10, 0xa7, 0x04, 0x12, 0x1e, 0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x42, 0x5f, 0x53, 0x43,
-	0x48, 0x45, 0x4d, 0x41, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48,
-	0x10, 0xa8, 0x04, 0x12, 0x22, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x50,
-	0x52, 0x4f, 0x43, 0x45, 0x44, 0x55, 0x52, 0x45, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c, 0x45,
-	0x4e, 0x47, 0x54, 0x48, 0x10, 0xa9, 0x04, 0x12, 0x20, 0x0a, 0x1b, 0x53, 0x51, 0x4c, 0x5f, 0x4d,
-	0x41, 0x58, 0x5f, 0x43, 0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f,
-	0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xaa, 0x04, 0x12, 0x15, 0x0a, 0x10, 0x53, 0x51, 0x4c,
-	0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x52, 0x4f, 0x57, 0x5f, 0x53, 0x49, 0x5a, 0x45, 0x10, 0xab, 0x04,
-	0x12, 0x24, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x52, 0x4f, 0x57, 0x5f,
-	0x53, 0x49, 0x5a, 0x45, 0x5f, 0x49, 0x4e, 0x43, 0x4c, 0x55, 0x44, 0x45, 0x53, 0x5f, 0x42, 0x4c,
-	0x4f, 0x42, 0x53, 0x10, 0xac, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41,
-	0x58, 0x5f, 0x53, 0x54, 0x41, 0x54, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x5f, 0x4c, 0x45, 0x4e, 0x47,
-	0x54, 0x48, 0x10, 0xad, 0x04, 0x12, 0x17, 0x0a, 0x12, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58,
-	0x5f, 0x53, 0x54, 0x41, 0x54, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x53, 0x10, 0xae, 0x04, 0x12, 0x1e,
-	0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f,
-	0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xaf, 0x04, 0x12, 0x1d,
-	0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x53,
-	0x5f, 0x49, 0x4e, 0x5f, 0x53, 0x45, 0x4c, 0x45, 0x43, 0x54, 0x10, 0xb0, 0x04, 0x12, 0x1c, 0x0a,
-	0x17, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x55, 0x53, 0x45, 0x52, 0x4e, 0x41, 0x4d,
-	0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xb1, 0x04, 0x12, 0x26, 0x0a, 0x21, 0x53,
-	0x51, 0x4c, 0x5f, 0x44, 0x45, 0x46, 0x41, 0x55, 0x4c, 0x54, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53,
-	0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x49, 0x53, 0x4f, 0x4c, 0x41, 0x54, 0x49, 0x4f, 0x4e,
-	0x10, 0xb2, 0x04, 0x12, 0x1f, 0x0a, 0x1a, 0x53, 0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53,
-	0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45,
-	0x44, 0x10, 0xb3, 0x04, 0x12, 0x30, 0x0a, 0x2b, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50,
-	0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f,
-	0x4e, 0x53, 0x5f, 0x49, 0x53, 0x4f, 0x4c, 0x41, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x4c, 0x45, 0x56,
-	0x45, 0x4c, 0x53, 0x10, 0xb4, 0x04, 0x12, 0x32, 0x0a, 0x2d, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x41,
-	0x54, 0x41, 0x5f, 0x44, 0x45, 0x46, 0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x43, 0x41,
-	0x55, 0x53, 0x45, 0x53, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e,
-	0x5f, 0x43, 0x4f, 0x4d, 0x4d, 0x49, 0x54, 0x10, 0xb5, 0x04, 0x12, 0x31, 0x0a, 0x2c, 0x53, 0x51,
-	0x4c, 0x5f, 0x44, 0x41, 0x54, 0x41, 0x5f, 0x44, 0x45, 0x46, 0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f,
-	0x4e, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f,
-	0x4e, 0x53, 0x5f, 0x49, 0x47, 0x4e, 0x4f, 0x52, 0x45, 0x44, 0x10, 0xb6, 0x04, 0x12, 0x23, 0x0a,
-	0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x52,
-	0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x54, 0x59, 0x50, 0x45, 0x53, 0x10,
-	0xb7, 0x04, 0x12, 0x3b, 0x0a, 0x36, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52,
-	0x54, 0x45, 0x44, 0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x49, 0x45,
-	0x53, 0x5f, 0x46, 0x4f, 0x52, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54,
-	0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0xb8, 0x04, 0x12,
-	0x3c, 0x0a, 0x37, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44,
-	0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x49, 0x45, 0x53, 0x5f, 0x46,
-	0x4f, 0x52, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x46, 0x4f,
-	0x52, 0x57, 0x41, 0x52, 0x44, 0x5f, 0x4f, 0x4e, 0x4c, 0x59, 0x10, 0xb9, 0x04, 0x12, 0x40, 0x0a,
-	0x3b, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x43,
-	0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x49, 0x45, 0x53, 0x5f, 0x46, 0x4f, 0x52,
-	0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x53, 0x43, 0x52, 0x4f,
-	0x4c, 0x4c, 0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x45, 0x10, 0xba, 0x04, 0x12,
-	0x42, 0x0a, 0x3d, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44,
-	0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x49, 0x45, 0x53, 0x5f, 0x46,
-	0x4f, 0x52, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x53, 0x43,
-	0x52, 0x4f, 0x4c, 0x4c, 0x5f, 0x49, 0x4e, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x45,
-	0x10, 0xbb, 0x04, 0x12, 0x20, 0x0a, 0x1b, 0x53, 0x51, 0x4c, 0x5f, 0x42, 0x41, 0x54, 0x43, 0x48,
-	0x5f, 0x55, 0x50, 0x44, 0x41, 0x54, 0x45, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54,
-	0x45, 0x44, 0x10, 0xbc, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x41, 0x56,
-	0x45, 0x50, 0x4f, 0x49, 0x4e, 0x54, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45,
-	0x44, 0x10, 0xbd, 0x04, 0x12, 0x23, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x41, 0x4d, 0x45,
-	0x44, 0x5f, 0x50, 0x41, 0x52, 0x41, 0x4d, 0x45, 0x54, 0x45, 0x52, 0x53, 0x5f, 0x53, 0x55, 0x50,
-	0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0xbe, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c,
-	0x5f, 0x4c, 0x4f, 0x43, 0x41, 0x54, 0x4f, 0x52, 0x53, 0x5f, 0x55, 0x50, 0x44, 0x41, 0x54, 0x45,
-	0x5f, 0x43, 0x4f, 0x50, 0x59, 0x10, 0xbf, 0x04, 0x12, 0x35, 0x0a, 0x30, 0x53, 0x51, 0x4c, 0x5f,
-	0x53, 0x54, 0x4f, 0x52, 0x45, 0x44, 0x5f, 0x46, 0x55, 0x4e, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53,
-	0x5f, 0x55, 0x53, 0x49, 0x4e, 0x47, 0x5f, 0x43, 0x41, 0x4c, 0x4c, 0x5f, 0x53, 0x59, 0x4e, 0x54,
-	0x41, 0x58, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0xc0, 0x04, 0x2a,
-	0x91, 0x01, 0x0a, 0x17, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64,
-	0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x12, 0x22, 0x0a, 0x1e, 0x53,
-	0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x54, 0x52, 0x41,
-	0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x4e, 0x4f, 0x4e, 0x45, 0x10, 0x00, 0x12,
-	0x29, 0x0a, 0x25, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44,
-	0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x54, 0x52, 0x41,
-	0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x10, 0x01, 0x12, 0x27, 0x0a, 0x23, 0x53, 0x51,
-	0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x54, 0x52, 0x41, 0x4e,
-	0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x53, 0x41, 0x56, 0x45, 0x50, 0x4f, 0x49, 0x4e,
-	0x54, 0x10, 0x02, 0x2a, 0xb2, 0x01, 0x0a, 0x1b, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f,
-	0x72, 0x74, 0x65, 0x64, 0x43, 0x61, 0x73, 0x65, 0x53, 0x65, 0x6e, 0x73, 0x69, 0x74, 0x69, 0x76,
-	0x69, 0x74, 0x79, 0x12, 0x20, 0x0a, 0x1c, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x53, 0x45, 0x5f,
-	0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x49, 0x54, 0x59, 0x5f, 0x55, 0x4e, 0x4b, 0x4e,
-	0x4f, 0x57, 0x4e, 0x10, 0x00, 0x12, 0x29, 0x0a, 0x25, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x53,
-	0x45, 0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x49, 0x54, 0x59, 0x5f, 0x43, 0x41,
-	0x53, 0x45, 0x5f, 0x49, 0x4e, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x45, 0x10, 0x01,
-	0x12, 0x22, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x53, 0x45, 0x5f, 0x53, 0x45, 0x4e,
-	0x53, 0x49, 0x54, 0x49, 0x56, 0x49, 0x54, 0x59, 0x5f, 0x55, 0x50, 0x50, 0x45, 0x52, 0x43, 0x41,
-	0x53, 0x45, 0x10, 0x02, 0x12, 0x22, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x53, 0x45,
-	0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x49, 0x54, 0x59, 0x5f, 0x4c, 0x4f, 0x57,
-	0x45, 0x52, 0x43, 0x41, 0x53, 0x45, 0x10, 0x03, 0x2a, 0x82, 0x01, 0x0a, 0x0f, 0x53, 0x71, 0x6c,
-	0x4e, 0x75, 0x6c, 0x6c, 0x4f, 0x72, 0x64, 0x65, 0x72, 0x69, 0x6e, 0x67, 0x12, 0x19, 0x0a, 0x15,
-	0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x5f, 0x53, 0x4f, 0x52, 0x54, 0x45, 0x44,
-	0x5f, 0x48, 0x49, 0x47, 0x48, 0x10, 0x00, 0x12, 0x18, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x4e,
-	0x55, 0x4c, 0x4c, 0x53, 0x5f, 0x53, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x4c, 0x4f, 0x57, 0x10,
-	0x01, 0x12, 0x1d, 0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x5f, 0x53,
-	0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x41, 0x54, 0x5f, 0x53, 0x54, 0x41, 0x52, 0x54, 0x10, 0x02,
-	0x12, 0x1b, 0x0a, 0x17, 0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x5f, 0x53, 0x4f,
-	0x52, 0x54, 0x45, 0x44, 0x5f, 0x41, 0x54, 0x5f, 0x45, 0x4e, 0x44, 0x10, 0x03, 0x2a, 0x5e, 0x0a,
-	0x13, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x53, 0x71, 0x6c, 0x47, 0x72, 0x61,
-	0x6d, 0x6d, 0x61, 0x72, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x49, 0x4e, 0x49,
-	0x4d, 0x55, 0x4d, 0x5f, 0x47, 0x52, 0x41, 0x4d, 0x4d, 0x41, 0x52, 0x10, 0x00, 0x12, 0x14, 0x0a,
-	0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x52, 0x45, 0x5f, 0x47, 0x52, 0x41, 0x4d, 0x4d, 0x41,
-	0x52, 0x10, 0x01, 0x12, 0x18, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x45, 0x58, 0x54, 0x45, 0x4e,
-	0x44, 0x45, 0x44, 0x5f, 0x47, 0x52, 0x41, 0x4d, 0x4d, 0x41, 0x52, 0x10, 0x02, 0x2a, 0x68, 0x0a,
-	0x1e, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x41, 0x6e, 0x73, 0x69, 0x39, 0x32,
-	0x53, 0x71, 0x6c, 0x47, 0x72, 0x61, 0x6d, 0x6d, 0x61, 0x72, 0x4c, 0x65, 0x76, 0x65, 0x6c, 0x12,
-	0x14, 0x0a, 0x10, 0x41, 0x4e, 0x53, 0x49, 0x39, 0x32, 0x5f, 0x45, 0x4e, 0x54, 0x52, 0x59, 0x5f,
-	0x53, 0x51, 0x4c, 0x10, 0x00, 0x12, 0x1b, 0x0a, 0x17, 0x41, 0x4e, 0x53, 0x49, 0x39, 0x32, 0x5f,
-	0x49, 0x4e, 0x54, 0x45, 0x52, 0x4d, 0x45, 0x44, 0x49, 0x41, 0x54, 0x45, 0x5f, 0x53, 0x51, 0x4c,
-	0x10, 0x01, 0x12, 0x13, 0x0a, 0x0f, 0x41, 0x4e, 0x53, 0x49, 0x39, 0x32, 0x5f, 0x46, 0x55, 0x4c,
-	0x4c, 0x5f, 0x53, 0x51, 0x4c, 0x10, 0x02, 0x2a, 0x6d, 0x0a, 0x19, 0x53, 0x71, 0x6c, 0x4f, 0x75,
-	0x74, 0x65, 0x72, 0x4a, 0x6f, 0x69, 0x6e, 0x73, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x4c,
-	0x65, 0x76, 0x65, 0x6c, 0x12, 0x19, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x4a, 0x4f, 0x49, 0x4e,
-	0x53, 0x5f, 0x55, 0x4e, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x00, 0x12,
-	0x1b, 0x0a, 0x17, 0x53, 0x51, 0x4c, 0x5f, 0x4c, 0x49, 0x4d, 0x49, 0x54, 0x45, 0x44, 0x5f, 0x4f,
-	0x55, 0x54, 0x45, 0x52, 0x5f, 0x4a, 0x4f, 0x49, 0x4e, 0x53, 0x10, 0x01, 0x12, 0x18, 0x0a, 0x14,
-	0x53, 0x51, 0x4c, 0x5f, 0x46, 0x55, 0x4c, 0x4c, 0x5f, 0x4f, 0x55, 0x54, 0x45, 0x52, 0x5f, 0x4a,
-	0x4f, 0x49, 0x4e, 0x53, 0x10, 0x02, 0x2a, 0x51, 0x0a, 0x13, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70,
-	0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x47, 0x72, 0x6f, 0x75, 0x70, 0x42, 0x79, 0x12, 0x1a, 0x0a,
-	0x16, 0x53, 0x51, 0x4c, 0x5f, 0x47, 0x52, 0x4f, 0x55, 0x50, 0x5f, 0x42, 0x59, 0x5f, 0x55, 0x4e,
-	0x52, 0x45, 0x4c, 0x41, 0x54, 0x45, 0x44, 0x10, 0x00, 0x12, 0x1e, 0x0a, 0x1a, 0x53, 0x51, 0x4c,
-	0x5f, 0x47, 0x52, 0x4f, 0x55, 0x50, 0x5f, 0x42, 0x59, 0x5f, 0x42, 0x45, 0x59, 0x4f, 0x4e, 0x44,
-	0x5f, 0x53, 0x45, 0x4c, 0x45, 0x43, 0x54, 0x10, 0x01, 0x2a, 0x90, 0x01, 0x0a, 0x1a, 0x53, 0x71,
-	0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x45, 0x6c, 0x65, 0x6d, 0x65, 0x6e,
-	0x74, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x12, 0x22, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f,
-	0x45, 0x4c, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x5f, 0x49, 0x4e, 0x5f, 0x50, 0x52, 0x4f, 0x43, 0x45,
-	0x44, 0x55, 0x52, 0x45, 0x5f, 0x43, 0x41, 0x4c, 0x4c, 0x53, 0x10, 0x00, 0x12, 0x24, 0x0a, 0x20,
-	0x53, 0x51, 0x4c, 0x5f, 0x45, 0x4c, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x5f, 0x49, 0x4e, 0x5f, 0x49,
-	0x4e, 0x44, 0x45, 0x58, 0x5f, 0x44, 0x45, 0x46, 0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x53,
-	0x10, 0x01, 0x12, 0x28, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x45, 0x4c, 0x45, 0x4d, 0x45, 0x4e,
-	0x54, 0x5f, 0x49, 0x4e, 0x5f, 0x50, 0x52, 0x49, 0x56, 0x49, 0x4c, 0x45, 0x47, 0x45, 0x5f, 0x44,
-	0x45, 0x46, 0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x02, 0x2a, 0x56, 0x0a, 0x1e,
-	0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x50, 0x6f, 0x73, 0x69,
-	0x74, 0x69, 0x6f, 0x6e, 0x65, 0x64, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x73, 0x12, 0x19,
-	0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x50, 0x4f, 0x53, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x45, 0x44,
-	0x5f, 0x44, 0x45, 0x4c, 0x45, 0x54, 0x45, 0x10, 0x00, 0x12, 0x19, 0x0a, 0x15, 0x53, 0x51, 0x4c,
-	0x5f, 0x50, 0x4f, 0x53, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x45, 0x44, 0x5f, 0x55, 0x50, 0x44, 0x41,
-	0x54, 0x45, 0x10, 0x01, 0x2a, 0x97, 0x01, 0x0a, 0x16, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70,
-	0x6f, 0x72, 0x74, 0x65, 0x64, 0x53, 0x75, 0x62, 0x71, 0x75, 0x65, 0x72, 0x69, 0x65, 0x73, 0x12,
-	0x21, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49, 0x45,
-	0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x43, 0x4f, 0x4d, 0x50, 0x41, 0x52, 0x49, 0x53, 0x4f, 0x4e, 0x53,
-	0x10, 0x00, 0x12, 0x1c, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45,
-	0x52, 0x49, 0x45, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x53, 0x10, 0x01,
-	0x12, 0x19, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49,
-	0x45, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x49, 0x4e, 0x53, 0x10, 0x02, 0x12, 0x21, 0x0a, 0x1d, 0x53,
-	0x51, 0x4c, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49, 0x45, 0x53, 0x5f, 0x49, 0x4e,
-	0x5f, 0x51, 0x55, 0x41, 0x4e, 0x54, 0x49, 0x46, 0x49, 0x45, 0x44, 0x53, 0x10, 0x03, 0x2a, 0x36,
-	0x0a, 0x12, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x55, 0x6e,
-	0x69, 0x6f, 0x6e, 0x73, 0x12, 0x0d, 0x0a, 0x09, 0x53, 0x51, 0x4c, 0x5f, 0x55, 0x4e, 0x49, 0x4f,
-	0x4e, 0x10, 0x00, 0x12, 0x11, 0x0a, 0x0d, 0x53, 0x51, 0x4c, 0x5f, 0x55, 0x4e, 0x49, 0x4f, 0x4e,
-	0x5f, 0x41, 0x4c, 0x4c, 0x10, 0x01, 0x2a, 0xc9, 0x01, 0x0a, 0x1c, 0x53, 0x71, 0x6c, 0x54, 0x72,
-	0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49, 0x73, 0x6f, 0x6c, 0x61, 0x74, 0x69,
-	0x6f, 0x6e, 0x4c, 0x65, 0x76, 0x65, 0x6c, 0x12, 0x18, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x54,
-	0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x4e, 0x4f, 0x4e, 0x45, 0x10,
-	0x00, 0x12, 0x24, 0x0a, 0x20, 0x53, 0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43,
-	0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x52, 0x45, 0x41, 0x44, 0x5f, 0x55, 0x4e, 0x43, 0x4f, 0x4d, 0x4d,
-	0x49, 0x54, 0x54, 0x45, 0x44, 0x10, 0x01, 0x12, 0x22, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x54,
-	0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x52, 0x45, 0x41, 0x44, 0x5f,
-	0x43, 0x4f, 0x4d, 0x4d, 0x49, 0x54, 0x54, 0x45, 0x44, 0x10, 0x02, 0x12, 0x23, 0x0a, 0x1f, 0x53,
-	0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x52,
-	0x45, 0x50, 0x45, 0x41, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x52, 0x45, 0x41, 0x44, 0x10, 0x03,
-	0x12, 0x20, 0x0a, 0x1c, 0x53, 0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54,
-	0x49, 0x4f, 0x4e, 0x5f, 0x53, 0x45, 0x52, 0x49, 0x41, 0x4c, 0x49, 0x5a, 0x41, 0x42, 0x4c, 0x45,
-	0x10, 0x04, 0x2a, 0x89, 0x01, 0x0a, 0x18, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72,
-	0x74, 0x65, 0x64, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x12,
-	0x1f, 0x0a, 0x1b, 0x53, 0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49,
-	0x4f, 0x4e, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00,
-	0x12, 0x24, 0x0a, 0x20, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x41, 0x54, 0x41, 0x5f, 0x44, 0x45, 0x46,
-	0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54,
-	0x49, 0x4f, 0x4e, 0x53, 0x10, 0x01, 0x12, 0x26, 0x0a, 0x22, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x41,
-	0x54, 0x41, 0x5f, 0x4d, 0x41, 0x4e, 0x49, 0x50, 0x55, 0x4c, 0x41, 0x54, 0x49, 0x4f, 0x4e, 0x5f,
-	0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x02, 0x2a, 0xbc,
-	0x01, 0x0a, 0x19, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x52,
-	0x65, 0x73, 0x75, 0x6c, 0x74, 0x53, 0x65, 0x74, 0x54, 0x79, 0x70, 0x65, 0x12, 0x23, 0x0a, 0x1f,
-	0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x54,
-	0x59, 0x50, 0x45, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10,
-	0x00, 0x12, 0x24, 0x0a, 0x20, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f,
-	0x53, 0x45, 0x54, 0x5f, 0x54, 0x59, 0x50, 0x45, 0x5f, 0x46, 0x4f, 0x52, 0x57, 0x41, 0x52, 0x44,
-	0x5f, 0x4f, 0x4e, 0x4c, 0x59, 0x10, 0x01, 0x12, 0x2a, 0x0a, 0x26, 0x53, 0x51, 0x4c, 0x5f, 0x52,
-	0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x54, 0x59, 0x50, 0x45, 0x5f, 0x53,
-	0x43, 0x52, 0x4f, 0x4c, 0x4c, 0x5f, 0x49, 0x4e, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56,
-	0x45, 0x10, 0x02, 0x12, 0x28, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c,
-	0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x54, 0x59, 0x50, 0x45, 0x5f, 0x53, 0x43, 0x52, 0x4f, 0x4c,
-	0x4c, 0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x45, 0x10, 0x03, 0x2a, 0xa2, 0x01,
-	0x0a, 0x20, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x52, 0x65,
-	0x73, 0x75, 0x6c, 0x74, 0x53, 0x65, 0x74, 0x43, 0x6f, 0x6e, 0x63, 0x75, 0x72, 0x72, 0x65, 0x6e,
-	0x63, 0x79, 0x12, 0x2a, 0x0a, 0x26, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54,
-	0x5f, 0x53, 0x45, 0x54, 0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x59,
-	0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12, 0x28,
-	0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54,
-	0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x59, 0x5f, 0x52, 0x45, 0x41,
-	0x44, 0x5f, 0x4f, 0x4e, 0x4c, 0x59, 0x10, 0x01, 0x12, 0x28, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f,
-	0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55,
-	0x52, 0x52, 0x45, 0x4e, 0x43, 0x59, 0x5f, 0x55, 0x50, 0x44, 0x41, 0x54, 0x41, 0x42, 0x4c, 0x45,
-	0x10, 0x02, 0x2a, 0x99, 0x04, 0x0a, 0x12, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72,
-	0x74, 0x73, 0x43, 0x6f, 0x6e, 0x76, 0x65, 0x72, 0x74, 0x12, 0x16, 0x0a, 0x12, 0x53, 0x51, 0x4c,
-	0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x42, 0x49, 0x47, 0x49, 0x4e, 0x54, 0x10,
-	0x00, 0x12, 0x16, 0x0a, 0x12, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54,
-	0x5f, 0x42, 0x49, 0x4e, 0x41, 0x52, 0x59, 0x10, 0x01, 0x12, 0x13, 0x0a, 0x0f, 0x53, 0x51, 0x4c,
-	0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x42, 0x49, 0x54, 0x10, 0x02, 0x12, 0x14,
-	0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x43, 0x48,
-	0x41, 0x52, 0x10, 0x03, 0x12, 0x14, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56,
-	0x45, 0x52, 0x54, 0x5f, 0x44, 0x41, 0x54, 0x45, 0x10, 0x04, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51,
-	0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x44, 0x45, 0x43, 0x49, 0x4d, 0x41,
-	0x4c, 0x10, 0x05, 0x12, 0x15, 0x0a, 0x11, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45,
-	0x52, 0x54, 0x5f, 0x46, 0x4c, 0x4f, 0x41, 0x54, 0x10, 0x06, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51,
-	0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x47, 0x45,
-	0x52, 0x10, 0x07, 0x12, 0x21, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45,
-	0x52, 0x54, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x5f,
-	0x54, 0x49, 0x4d, 0x45, 0x10, 0x08, 0x12, 0x23, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f,
-	0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x59,
-	0x45, 0x41, 0x52, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x09, 0x12, 0x1d, 0x0a, 0x19, 0x53,
-	0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x4c, 0x4f, 0x4e, 0x47, 0x56,
-	0x41, 0x52, 0x42, 0x49, 0x4e, 0x41, 0x52, 0x59, 0x10, 0x0a, 0x12, 0x1b, 0x0a, 0x17, 0x53, 0x51,
-	0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x4c, 0x4f, 0x4e, 0x47, 0x56, 0x41,
-	0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0x0b, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x43,
-	0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x4e, 0x55, 0x4d, 0x45, 0x52, 0x49, 0x43, 0x10, 0x0c,
-	0x12, 0x14, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f,
-	0x52, 0x45, 0x41, 0x4c, 0x10, 0x0d, 0x12, 0x18, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f,
-	0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x53, 0x4d, 0x41, 0x4c, 0x4c, 0x49, 0x4e, 0x54, 0x10, 0x0e,
-	0x12, 0x14, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f,
-	0x54, 0x49, 0x4d, 0x45, 0x10, 0x0f, 0x12, 0x19, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f,
-	0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x54, 0x49, 0x4d, 0x45, 0x53, 0x54, 0x41, 0x4d, 0x50, 0x10,
-	0x10, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54,
-	0x5f, 0x54, 0x49, 0x4e, 0x59, 0x49, 0x4e, 0x54, 0x10, 0x11, 0x12, 0x19, 0x0a, 0x15, 0x53, 0x51,
-	0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x56, 0x41, 0x52, 0x42, 0x49, 0x4e,
-	0x41, 0x52, 0x59, 0x10, 0x12, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e,
-	0x56, 0x45, 0x52, 0x54, 0x5f, 0x56, 0x41, 0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0x13, 0x2a, 0x8f,
-	0x04, 0x0a, 0x0c, 0x58, 0x64, 0x62, 0x63, 0x44, 0x61, 0x74, 0x61, 0x54, 0x79, 0x70, 0x65, 0x12,
-	0x15, 0x0a, 0x11, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x55, 0x4e, 0x4b, 0x4e, 0x4f, 0x57, 0x4e, 0x5f,
-	0x54, 0x59, 0x50, 0x45, 0x10, 0x00, 0x12, 0x0d, 0x0a, 0x09, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x43,
-	0x48, 0x41, 0x52, 0x10, 0x01, 0x12, 0x10, 0x0a, 0x0c, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x4e, 0x55,
-	0x4d, 0x45, 0x52, 0x49, 0x43, 0x10, 0x02, 0x12, 0x10, 0x0a, 0x0c, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x44, 0x45, 0x43, 0x49, 0x4d, 0x41, 0x4c, 0x10, 0x03, 0x12, 0x10, 0x0a, 0x0c, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x47, 0x45, 0x52, 0x10, 0x04, 0x12, 0x11, 0x0a, 0x0d, 0x58,
-	0x44, 0x42, 0x43, 0x5f, 0x53, 0x4d, 0x41, 0x4c, 0x4c, 0x49, 0x4e, 0x54, 0x10, 0x05, 0x12, 0x0e,
-	0x0a, 0x0a, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x46, 0x4c, 0x4f, 0x41, 0x54, 0x10, 0x06, 0x12, 0x0d,
-	0x0a, 0x09, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x52, 0x45, 0x41, 0x4c, 0x10, 0x07, 0x12, 0x0f, 0x0a,
-	0x0b, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x44, 0x4f, 0x55, 0x42, 0x4c, 0x45, 0x10, 0x08, 0x12, 0x11,
-	0x0a, 0x0d, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x44, 0x41, 0x54, 0x45, 0x54, 0x49, 0x4d, 0x45, 0x10,
-	0x09, 0x12, 0x11, 0x0a, 0x0d, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56,
-	0x41, 0x4c, 0x10, 0x0a, 0x12, 0x10, 0x0a, 0x0c, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x56, 0x41, 0x52,
-	0x43, 0x48, 0x41, 0x52, 0x10, 0x0c, 0x12, 0x0d, 0x0a, 0x09, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x44,
-	0x41, 0x54, 0x45, 0x10, 0x5b, 0x12, 0x0d, 0x0a, 0x09, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x54, 0x49,
-	0x4d, 0x45, 0x10, 0x5c, 0x12, 0x12, 0x0a, 0x0e, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x54, 0x49, 0x4d,
-	0x45, 0x53, 0x54, 0x41, 0x4d, 0x50, 0x10, 0x5d, 0x12, 0x1d, 0x0a, 0x10, 0x58, 0x44, 0x42, 0x43,
-	0x5f, 0x4c, 0x4f, 0x4e, 0x47, 0x56, 0x41, 0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0xff, 0xff, 0xff,
-	0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x18, 0x0a, 0x0b, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x42, 0x49, 0x4e, 0x41, 0x52, 0x59, 0x10, 0xfe, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
-	0x01, 0x12, 0x1b, 0x0a, 0x0e, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x56, 0x41, 0x52, 0x42, 0x49, 0x4e,
-	0x41, 0x52, 0x59, 0x10, 0xfd, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x1f,
-	0x0a, 0x12, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x4c, 0x4f, 0x4e, 0x47, 0x56, 0x41, 0x52, 0x42, 0x49,
-	0x4e, 0x41, 0x52, 0x59, 0x10, 0xfc, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12,
-	0x18, 0x0a, 0x0b, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x42, 0x49, 0x47, 0x49, 0x4e, 0x54, 0x10, 0xfb,
-	0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x19, 0x0a, 0x0c, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x54, 0x49, 0x4e, 0x59, 0x49, 0x4e, 0x54, 0x10, 0xfa, 0xff, 0xff, 0xff, 0xff, 0xff,
-	0xff, 0xff, 0xff, 0x01, 0x12, 0x15, 0x0a, 0x08, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x42, 0x49, 0x54,
-	0x10, 0xf9, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x17, 0x0a, 0x0a, 0x58,
-	0x44, 0x42, 0x43, 0x5f, 0x57, 0x43, 0x48, 0x41, 0x52, 0x10, 0xf8, 0xff, 0xff, 0xff, 0xff, 0xff,
-	0xff, 0xff, 0xff, 0x01, 0x12, 0x1a, 0x0a, 0x0d, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x57, 0x56, 0x41,
-	0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0xf7, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01,
-	0x2a, 0xa3, 0x08, 0x0a, 0x13, 0x58, 0x64, 0x62, 0x63, 0x44, 0x61, 0x74, 0x65, 0x74, 0x69, 0x6d,
-	0x65, 0x53, 0x75, 0x62, 0x63, 0x6f, 0x64, 0x65, 0x12, 0x18, 0x0a, 0x14, 0x58, 0x44, 0x42, 0x43,
-	0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x55, 0x4e, 0x4b, 0x4e, 0x4f, 0x57, 0x4e,
-	0x10, 0x00, 0x12, 0x15, 0x0a, 0x11, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f,
-	0x44, 0x45, 0x5f, 0x59, 0x45, 0x41, 0x52, 0x10, 0x01, 0x12, 0x15, 0x0a, 0x11, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x54, 0x45, 0x10, 0x01,
-	0x12, 0x15, 0x0a, 0x11, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45,
-	0x5f, 0x54, 0x49, 0x4d, 0x45, 0x10, 0x02, 0x12, 0x16, 0x0a, 0x12, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x02, 0x12,
-	0x1a, 0x0a, 0x16, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f,
-	0x54, 0x49, 0x4d, 0x45, 0x53, 0x54, 0x41, 0x4d, 0x50, 0x10, 0x03, 0x12, 0x14, 0x0a, 0x10, 0x58,
-	0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x59, 0x10,
-	0x03, 0x12, 0x23, 0x0a, 0x1f, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44,
-	0x45, 0x5f, 0x54, 0x49, 0x4d, 0x45, 0x5f, 0x57, 0x49, 0x54, 0x48, 0x5f, 0x54, 0x49, 0x4d, 0x45,
-	0x5a, 0x4f, 0x4e, 0x45, 0x10, 0x04, 0x12, 0x15, 0x0a, 0x11, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53,
-	0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x10, 0x04, 0x12, 0x28, 0x0a,
-	0x24, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x54, 0x49,
-	0x4d, 0x45, 0x53, 0x54, 0x41, 0x4d, 0x50, 0x5f, 0x57, 0x49, 0x54, 0x48, 0x5f, 0x54, 0x49, 0x4d,
-	0x45, 0x5a, 0x4f, 0x4e, 0x45, 0x10, 0x05, 0x12, 0x17, 0x0a, 0x13, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x05,
-	0x12, 0x17, 0x0a, 0x13, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45,
-	0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x06, 0x12, 0x1e, 0x0a, 0x1a, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x59, 0x45, 0x41, 0x52, 0x5f, 0x54,
-	0x4f, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x07, 0x12, 0x1c, 0x0a, 0x18, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f,
-	0x5f, 0x48, 0x4f, 0x55, 0x52, 0x10, 0x08, 0x12, 0x1e, 0x0a, 0x1a, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f, 0x5f, 0x4d,
-	0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x09, 0x12, 0x1e, 0x0a, 0x1a, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f, 0x5f, 0x53,
-	0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x0a, 0x12, 0x1f, 0x0a, 0x1b, 0x58, 0x44, 0x42, 0x43, 0x5f,
-	0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x5f, 0x54, 0x4f, 0x5f,
-	0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x0b, 0x12, 0x1f, 0x0a, 0x1b, 0x58, 0x44, 0x42, 0x43,
-	0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x5f, 0x54, 0x4f,
-	0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x0c, 0x12, 0x21, 0x0a, 0x1d, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45,
-	0x5f, 0x54, 0x4f, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x0d, 0x12, 0x1e, 0x0a, 0x1a,
-	0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54,
-	0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x59, 0x45, 0x41, 0x52, 0x10, 0x65, 0x12, 0x1f, 0x0a, 0x1b,
-	0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54,
-	0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x66, 0x12, 0x1d, 0x0a,
-	0x19, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e,
-	0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x10, 0x67, 0x12, 0x1e, 0x0a, 0x1a,
-	0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54,
-	0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x10, 0x68, 0x12, 0x20, 0x0a, 0x1c,
-	0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54,
-	0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x69, 0x12, 0x20,
-	0x0a, 0x1c, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49,
-	0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x6a,
-	0x12, 0x27, 0x0a, 0x23, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45,
-	0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x59, 0x45, 0x41, 0x52, 0x5f, 0x54,
-	0x4f, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x6b, 0x12, 0x25, 0x0a, 0x21, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56,
-	0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x10, 0x6c,
-	0x12, 0x27, 0x0a, 0x23, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45,
-	0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f,
-	0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x6d, 0x12, 0x27, 0x0a, 0x23, 0x58, 0x44, 0x42,
-	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56,
-	0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44,
-	0x10, 0x6e, 0x12, 0x28, 0x0a, 0x24, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f,
-	0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x48, 0x4f, 0x55, 0x52,
-	0x5f, 0x54, 0x4f, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x6f, 0x12, 0x28, 0x0a, 0x24,
-	0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54,
-	0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x5f, 0x54, 0x4f, 0x5f, 0x53, 0x45,
-	0x43, 0x4f, 0x4e, 0x44, 0x10, 0x70, 0x12, 0x2a, 0x0a, 0x26, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53,
-	0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f,
-	0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x5f, 0x54, 0x4f, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44,
-	0x10, 0x71, 0x1a, 0x02, 0x10, 0x01, 0x2a, 0x57, 0x0a, 0x08, 0x4e, 0x75, 0x6c, 0x6c, 0x61, 0x62,
-	0x6c, 0x65, 0x12, 0x18, 0x0a, 0x14, 0x4e, 0x55, 0x4c, 0x4c, 0x41, 0x42, 0x49, 0x4c, 0x49, 0x54,
-	0x59, 0x5f, 0x4e, 0x4f, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x10, 0x00, 0x12, 0x18, 0x0a, 0x14,
-	0x4e, 0x55, 0x4c, 0x4c, 0x41, 0x42, 0x49, 0x4c, 0x49, 0x54, 0x59, 0x5f, 0x4e, 0x55, 0x4c, 0x4c,
-	0x41, 0x42, 0x4c, 0x45, 0x10, 0x01, 0x12, 0x17, 0x0a, 0x13, 0x4e, 0x55, 0x4c, 0x4c, 0x41, 0x42,
-	0x49, 0x4c, 0x49, 0x54, 0x59, 0x5f, 0x55, 0x4e, 0x4b, 0x4e, 0x4f, 0x57, 0x4e, 0x10, 0x02, 0x2a,
-	0x61, 0x0a, 0x0a, 0x53, 0x65, 0x61, 0x72, 0x63, 0x68, 0x61, 0x62, 0x6c, 0x65, 0x12, 0x13, 0x0a,
-	0x0f, 0x53, 0x45, 0x41, 0x52, 0x43, 0x48, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x4e, 0x4f, 0x4e, 0x45,
-	0x10, 0x00, 0x12, 0x13, 0x0a, 0x0f, 0x53, 0x45, 0x41, 0x52, 0x43, 0x48, 0x41, 0x42, 0x4c, 0x45,
-	0x5f, 0x43, 0x48, 0x41, 0x52, 0x10, 0x01, 0x12, 0x14, 0x0a, 0x10, 0x53, 0x45, 0x41, 0x52, 0x43,
-	0x48, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x42, 0x41, 0x53, 0x49, 0x43, 0x10, 0x02, 0x12, 0x13, 0x0a,
-	0x0f, 0x53, 0x45, 0x41, 0x52, 0x43, 0x48, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x46, 0x55, 0x4c, 0x4c,
-	0x10, 0x03, 0x2a, 0x5c, 0x0a, 0x11, 0x55, 0x70, 0x64, 0x61, 0x74, 0x65, 0x44, 0x65, 0x6c, 0x65,
-	0x74, 0x65, 0x52, 0x75, 0x6c, 0x65, 0x73, 0x12, 0x0b, 0x0a, 0x07, 0x43, 0x41, 0x53, 0x43, 0x41,
-	0x44, 0x45, 0x10, 0x00, 0x12, 0x0c, 0x0a, 0x08, 0x52, 0x45, 0x53, 0x54, 0x52, 0x49, 0x43, 0x54,
-	0x10, 0x01, 0x12, 0x0c, 0x0a, 0x08, 0x53, 0x45, 0x54, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x10, 0x02,
-	0x12, 0x0d, 0x0a, 0x09, 0x4e, 0x4f, 0x5f, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x10, 0x03, 0x12,
-	0x0f, 0x0a, 0x0b, 0x53, 0x45, 0x54, 0x5f, 0x44, 0x45, 0x46, 0x41, 0x55, 0x4c, 0x54, 0x10, 0x04,
-	0x3a, 0x44, 0x0a, 0x0c, 0x65, 0x78, 0x70, 0x65, 0x72, 0x69, 0x6d, 0x65, 0x6e, 0x74, 0x61, 0x6c,
-	0x12, 0x1f, 0x2e, 0x67, 0x6f, 0x6f, 0x67, 0x6c, 0x65, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x62,
-	0x75, 0x66, 0x2e, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x4f, 0x70, 0x74, 0x69, 0x6f, 0x6e,
-	0x73, 0x18, 0xe8, 0x07, 0x20, 0x01, 0x28, 0x08, 0x52, 0x0c, 0x65, 0x78, 0x70, 0x65, 0x72, 0x69,
-	0x6d, 0x65, 0x6e, 0x74, 0x61, 0x6c, 0x42, 0x56, 0x0a, 0x20, 0x6f, 0x72, 0x67, 0x2e, 0x61, 0x70,
-	0x61, 0x63, 0x68, 0x65, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68,
-	0x74, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x69, 0x6d, 0x70, 0x6c, 0x5a, 0x32, 0x67, 0x69, 0x74, 0x68,
-	0x75, 0x62, 0x2e, 0x63, 0x6f, 0x6d, 0x2f, 0x61, 0x70, 0x61, 0x63, 0x68, 0x65, 0x2f, 0x61, 0x72,
-	0x72, 0x6f, 0x77, 0x2f, 0x67, 0x6f, 0x2f, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2f, 0x66, 0x6c, 0x69,
-	0x67, 0x68, 0x74, 0x2f, 0x67, 0x65, 0x6e, 0x2f, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x62, 0x06,
-	0x70, 0x72, 0x6f, 0x74, 0x6f, 0x33,
-}
-
-var (
-	file_FlightSql_proto_rawDescOnce sync.Once
-	file_FlightSql_proto_rawDescData = file_FlightSql_proto_rawDesc
-)
-
-func file_FlightSql_proto_rawDescGZIP() []byte {
-	file_FlightSql_proto_rawDescOnce.Do(func() {
-		file_FlightSql_proto_rawDescData = protoimpl.X.CompressGZIP(file_FlightSql_proto_rawDescData)
-	})
-	return file_FlightSql_proto_rawDescData
-}
-
-var file_FlightSql_proto_enumTypes = make([]protoimpl.EnumInfo, 27)
-var file_FlightSql_proto_msgTypes = make([]protoimpl.MessageInfo, 34)
-var file_FlightSql_proto_goTypes = []interface{}{
-	(SqlInfo)(0),                                    // 0: arrow.flight.protocol.sql.SqlInfo
-	(SqlSupportedTransaction)(0),                    // 1: arrow.flight.protocol.sql.SqlSupportedTransaction
-	(SqlSupportedCaseSensitivity)(0),                // 2: arrow.flight.protocol.sql.SqlSupportedCaseSensitivity
-	(SqlNullOrdering)(0),                            // 3: arrow.flight.protocol.sql.SqlNullOrdering
-	(SupportedSqlGrammar)(0),                        // 4: arrow.flight.protocol.sql.SupportedSqlGrammar
-	(SupportedAnsi92SqlGrammarLevel)(0),             // 5: arrow.flight.protocol.sql.SupportedAnsi92SqlGrammarLevel
-	(SqlOuterJoinsSupportLevel)(0),                  // 6: arrow.flight.protocol.sql.SqlOuterJoinsSupportLevel
-	(SqlSupportedGroupBy)(0),                        // 7: arrow.flight.protocol.sql.SqlSupportedGroupBy
-	(SqlSupportedElementActions)(0),                 // 8: arrow.flight.protocol.sql.SqlSupportedElementActions
-	(SqlSupportedPositionedCommands)(0),             // 9: arrow.flight.protocol.sql.SqlSupportedPositionedCommands
-	(SqlSupportedSubqueries)(0),                     // 10: arrow.flight.protocol.sql.SqlSupportedSubqueries
-	(SqlSupportedUnions)(0),                         // 11: arrow.flight.protocol.sql.SqlSupportedUnions
-	(SqlTransactionIsolationLevel)(0),               // 12: arrow.flight.protocol.sql.SqlTransactionIsolationLevel
-	(SqlSupportedTransactions)(0),                   // 13: arrow.flight.protocol.sql.SqlSupportedTransactions
-	(SqlSupportedResultSetType)(0),                  // 14: arrow.flight.protocol.sql.SqlSupportedResultSetType
-	(SqlSupportedResultSetConcurrency)(0),           // 15: arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency
-	(SqlSupportsConvert)(0),                         // 16: arrow.flight.protocol.sql.SqlSupportsConvert
-	(XdbcDataType)(0),                               // 17: arrow.flight.protocol.sql.XdbcDataType
-	(XdbcDatetimeSubcode)(0),                        // 18: arrow.flight.protocol.sql.XdbcDatetimeSubcode
-	(Nullable)(0),                                   // 19: arrow.flight.protocol.sql.Nullable
-	(Searchable)(0),                                 // 20: arrow.flight.protocol.sql.Searchable
-	(UpdateDeleteRules)(0),                          // 21: arrow.flight.protocol.sql.UpdateDeleteRules
-	(ActionEndTransactionRequest_EndTransaction)(0), // 22: arrow.flight.protocol.sql.ActionEndTransactionRequest.EndTransaction
-	(ActionEndSavepointRequest_EndSavepoint)(0),     // 23: arrow.flight.protocol.sql.ActionEndSavepointRequest.EndSavepoint
-	(CommandStatementIngest_TableDefinitionOptions_TableNotExistOption)(0), // 24: arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions.TableNotExistOption
-	(CommandStatementIngest_TableDefinitionOptions_TableExistsOption)(0),   // 25: arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions.TableExistsOption
-	(ActionCancelQueryResult_CancelResult)(0),                              // 26: arrow.flight.protocol.sql.ActionCancelQueryResult.CancelResult
-	(*CommandGetSqlInfo)(nil),                                              // 27: arrow.flight.protocol.sql.CommandGetSqlInfo
-	(*CommandGetXdbcTypeInfo)(nil),                                         // 28: arrow.flight.protocol.sql.CommandGetXdbcTypeInfo
-	(*CommandGetCatalogs)(nil),                                             // 29: arrow.flight.protocol.sql.CommandGetCatalogs
-	(*CommandGetDbSchemas)(nil),                                            // 30: arrow.flight.protocol.sql.CommandGetDbSchemas
-	(*CommandGetTables)(nil),                                               // 31: arrow.flight.protocol.sql.CommandGetTables
-	(*CommandGetTableTypes)(nil),                                           // 32: arrow.flight.protocol.sql.CommandGetTableTypes
-	(*CommandGetPrimaryKeys)(nil),                                          // 33: arrow.flight.protocol.sql.CommandGetPrimaryKeys
-	(*CommandGetExportedKeys)(nil),                                         // 34: arrow.flight.protocol.sql.CommandGetExportedKeys
-	(*CommandGetImportedKeys)(nil),                                         // 35: arrow.flight.protocol.sql.CommandGetImportedKeys
-	(*CommandGetCrossReference)(nil),                                       // 36: arrow.flight.protocol.sql.CommandGetCrossReference
-	(*ActionCreatePreparedStatementRequest)(nil),                           // 37: arrow.flight.protocol.sql.ActionCreatePreparedStatementRequest
-	(*SubstraitPlan)(nil),                                                  // 38: arrow.flight.protocol.sql.SubstraitPlan
-	(*ActionCreatePreparedSubstraitPlanRequest)(nil),                       // 39: arrow.flight.protocol.sql.ActionCreatePreparedSubstraitPlanRequest
-	(*ActionCreatePreparedStatementResult)(nil),                            // 40: arrow.flight.protocol.sql.ActionCreatePreparedStatementResult
-	(*ActionClosePreparedStatementRequest)(nil),                            // 41: arrow.flight.protocol.sql.ActionClosePreparedStatementRequest
-	(*ActionBeginTransactionRequest)(nil),                                  // 42: arrow.flight.protocol.sql.ActionBeginTransactionRequest
-	(*ActionBeginSavepointRequest)(nil),                                    // 43: arrow.flight.protocol.sql.ActionBeginSavepointRequest
-	(*ActionBeginTransactionResult)(nil),                                   // 44: arrow.flight.protocol.sql.ActionBeginTransactionResult
-	(*ActionBeginSavepointResult)(nil),                                     // 45: arrow.flight.protocol.sql.ActionBeginSavepointResult
-	(*ActionEndTransactionRequest)(nil),                                    // 46: arrow.flight.protocol.sql.ActionEndTransactionRequest
-	(*ActionEndSavepointRequest)(nil),                                      // 47: arrow.flight.protocol.sql.ActionEndSavepointRequest
-	(*CommandStatementQuery)(nil),                                          // 48: arrow.flight.protocol.sql.CommandStatementQuery
-	(*CommandStatementSubstraitPlan)(nil),                                  // 49: arrow.flight.protocol.sql.CommandStatementSubstraitPlan
-	(*TicketStatementQuery)(nil),                                           // 50: arrow.flight.protocol.sql.TicketStatementQuery
-	(*CommandPreparedStatementQuery)(nil),                                  // 51: arrow.flight.protocol.sql.CommandPreparedStatementQuery
-	(*CommandStatementUpdate)(nil),                                         // 52: arrow.flight.protocol.sql.CommandStatementUpdate
-	(*CommandPreparedStatementUpdate)(nil),                                 // 53: arrow.flight.protocol.sql.CommandPreparedStatementUpdate
-	(*CommandStatementIngest)(nil),                                         // 54: arrow.flight.protocol.sql.CommandStatementIngest
-	(*DoPutUpdateResult)(nil),                                              // 55: arrow.flight.protocol.sql.DoPutUpdateResult
-	(*DoPutPreparedStatementResult)(nil),                                   // 56: arrow.flight.protocol.sql.DoPutPreparedStatementResult
-	(*ActionCancelQueryRequest)(nil),                                       // 57: arrow.flight.protocol.sql.ActionCancelQueryRequest
-	(*ActionCancelQueryResult)(nil),                                        // 58: arrow.flight.protocol.sql.ActionCancelQueryResult
-	(*CommandStatementIngest_TableDefinitionOptions)(nil),                  // 59: arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions
-	nil,                                 // 60: arrow.flight.protocol.sql.CommandStatementIngest.OptionsEntry
-	(*descriptorpb.MessageOptions)(nil), // 61: google.protobuf.MessageOptions
-}
-var file_FlightSql_proto_depIdxs = []int32{
-	38, // 0: arrow.flight.protocol.sql.ActionCreatePreparedSubstraitPlanRequest.plan:type_name -> arrow.flight.protocol.sql.SubstraitPlan
-	22, // 1: arrow.flight.protocol.sql.ActionEndTransactionRequest.action:type_name -> arrow.flight.protocol.sql.ActionEndTransactionRequest.EndTransaction
-	23, // 2: arrow.flight.protocol.sql.ActionEndSavepointRequest.action:type_name -> arrow.flight.protocol.sql.ActionEndSavepointRequest.EndSavepoint
-	38, // 3: arrow.flight.protocol.sql.CommandStatementSubstraitPlan.plan:type_name -> arrow.flight.protocol.sql.SubstraitPlan
-	59, // 4: arrow.flight.protocol.sql.CommandStatementIngest.table_definition_options:type_name -> arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions
-	60, // 5: arrow.flight.protocol.sql.CommandStatementIngest.options:type_name -> arrow.flight.protocol.sql.CommandStatementIngest.OptionsEntry
-	26, // 6: arrow.flight.protocol.sql.ActionCancelQueryResult.result:type_name -> arrow.flight.protocol.sql.ActionCancelQueryResult.CancelResult
-	24, // 7: arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions.if_not_exist:type_name -> arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions.TableNotExistOption
-	25, // 8: arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions.if_exists:type_name -> arrow.flight.protocol.sql.CommandStatementIngest.TableDefinitionOptions.TableExistsOption
-	61, // 9: arrow.flight.protocol.sql.experimental:extendee -> google.protobuf.MessageOptions
-	10, // [10:10] is the sub-list for method output_type
-	10, // [10:10] is the sub-list for method input_type
-	10, // [10:10] is the sub-list for extension type_name
-	9,  // [9:10] is the sub-list for extension extendee
-	0,  // [0:9] is the sub-list for field type_name
-}
-
-func init() { file_FlightSql_proto_init() }
-func file_FlightSql_proto_init() {
-	if File_FlightSql_proto != nil {
-		return
-	}
-	if !protoimpl.UnsafeEnabled {
-		file_FlightSql_proto_msgTypes[0].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetSqlInfo); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[1].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetXdbcTypeInfo); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[2].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetCatalogs); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[3].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetDbSchemas); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[4].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetTables); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[5].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetTableTypes); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[6].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetPrimaryKeys); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[7].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetExportedKeys); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[8].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetImportedKeys); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[9].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandGetCrossReference); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[10].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionCreatePreparedStatementRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[11].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SubstraitPlan); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[12].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionCreatePreparedSubstraitPlanRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[13].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionCreatePreparedStatementResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[14].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionClosePreparedStatementRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[15].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionBeginTransactionRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[16].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionBeginSavepointRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[17].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionBeginTransactionResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[18].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionBeginSavepointResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[19].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionEndTransactionRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[20].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionEndSavepointRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[21].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandStatementQuery); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[22].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandStatementSubstraitPlan); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[23].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*TicketStatementQuery); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[24].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandPreparedStatementQuery); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[25].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandStatementUpdate); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[26].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandPreparedStatementUpdate); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[27].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandStatementIngest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[28].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*DoPutUpdateResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[29].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*DoPutPreparedStatementResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[30].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionCancelQueryRequest); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[31].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ActionCancelQueryResult); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_FlightSql_proto_msgTypes[32].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*CommandStatementIngest_TableDefinitionOptions); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-	}
-	file_FlightSql_proto_msgTypes[1].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[3].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[4].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[6].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[7].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[8].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[9].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[10].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[12].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[21].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[22].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[25].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[27].OneofWrappers = []interface{}{}
-	file_FlightSql_proto_msgTypes[29].OneofWrappers = []interface{}{}
-	type x struct{}
-	out := protoimpl.TypeBuilder{
-		File: protoimpl.DescBuilder{
-			GoPackagePath: reflect.TypeOf(x{}).PkgPath(),
-			RawDescriptor: file_FlightSql_proto_rawDesc,
-			NumEnums:      27,
-			NumMessages:   34,
-			NumExtensions: 1,
-			NumServices:   0,
-		},
-		GoTypes:           file_FlightSql_proto_goTypes,
-		DependencyIndexes: file_FlightSql_proto_depIdxs,
-		EnumInfos:         file_FlightSql_proto_enumTypes,
-		MessageInfos:      file_FlightSql_proto_msgTypes,
-		ExtensionInfos:    file_FlightSql_proto_extTypes,
-	}.Build()
-	File_FlightSql_proto = out.File
-	file_FlightSql_proto_rawDesc = nil
-	file_FlightSql_proto_goTypes = nil
-	file_FlightSql_proto_depIdxs = nil
-}
diff --git a/go/arrow/flight/gen/flight/Flight_grpc.pb.go b/go/arrow/flight/gen/flight/Flight_grpc.pb.go
deleted file mode 100644
index da5601b46ab95..0000000000000
--- a/go/arrow/flight/gen/flight/Flight_grpc.pb.go
+++ /dev/null
@@ -1,775 +0,0 @@
-// Code generated by protoc-gen-go-grpc. DO NOT EDIT.
-// versions:
-// - protoc-gen-go-grpc v1.2.0
-// - protoc             v4.25.3
-// source: Flight.proto
-
-package flight
-
-import (
-	context "context"
-
-	grpc "google.golang.org/grpc"
-	codes "google.golang.org/grpc/codes"
-	status "google.golang.org/grpc/status"
-)
-
-// This is a compile-time assertion to ensure that this generated file
-// is compatible with the grpc package it is being compiled against.
-// Requires gRPC-Go v1.32.0 or later.
-const _ = grpc.SupportPackageIsVersion7
-
-// FlightServiceClient is the client API for FlightService service.
-//
-// For semantics around ctx use and closing/ending streaming RPCs, please refer to https://pkg.go.dev/google.golang.org/grpc/?tab=doc#ClientConn.NewStream.
-type FlightServiceClient interface {
-	// Handshake between client and server. Depending on the server, the
-	// handshake may be required to determine the token that should be used for
-	// future operations. Both request and response are streams to allow multiple
-	// round-trips depending on auth mechanism.
-	Handshake(ctx context.Context, opts ...grpc.CallOption) (FlightService_HandshakeClient, error)
-	// Get a list of available streams given a particular criteria. Most flight
-	// services will expose one or more streams that are readily available for
-	// retrieval. This api allows listing the streams available for
-	// consumption. A user can also provide a criteria. The criteria can limit
-	// the subset of streams that can be listed via this interface. Each flight
-	// service allows its own definition of how to consume criteria.
-	ListFlights(ctx context.Context, in *Criteria, opts ...grpc.CallOption) (FlightService_ListFlightsClient, error)
-	// For a given FlightDescriptor, get information about how the flight can be
-	// consumed. This is a useful interface if the consumer of the interface
-	// already can identify the specific flight to consume. This interface can
-	// also allow a consumer to generate a flight stream through a specified
-	// descriptor. For example, a flight descriptor might be something that
-	// includes a SQL statement or a Pickled Python operation that will be
-	// executed. In those cases, the descriptor will not be previously available
-	// within the list of available streams provided by ListFlights but will be
-	// available for consumption for the duration defined by the specific flight
-	// service.
-	GetFlightInfo(ctx context.Context, in *FlightDescriptor, opts ...grpc.CallOption) (*FlightInfo, error)
-	// For a given FlightDescriptor, start a query and get information
-	// to poll its execution status. This is a useful interface if the
-	// query may be a long-running query. The first PollFlightInfo call
-	// should return as quickly as possible. (GetFlightInfo doesn't
-	// return until the query is complete.)
-	//
-	// A client can consume any available results before
-	// the query is completed. See PollInfo.info for details.
-	//
-	// A client can poll the updated query status by calling
-	// PollFlightInfo() with PollInfo.flight_descriptor. A server
-	// should not respond until the result would be different from last
-	// time. That way, the client can "long poll" for updates
-	// without constantly making requests. Clients can set a short timeout
-	// to avoid blocking calls if desired.
-	//
-	// A client can't use PollInfo.flight_descriptor after
-	// PollInfo.expiration_time passes. A server might not accept the
-	// retry descriptor anymore and the query may be cancelled.
-	//
-	// A client may use the CancelFlightInfo action with
-	// PollInfo.info to cancel the running query.
-	PollFlightInfo(ctx context.Context, in *FlightDescriptor, opts ...grpc.CallOption) (*PollInfo, error)
-	// For a given FlightDescriptor, get the Schema as described in Schema.fbs::Schema
-	// This is used when a consumer needs the Schema of flight stream. Similar to
-	// GetFlightInfo this interface may generate a new flight that was not previously
-	// available in ListFlights.
-	GetSchema(ctx context.Context, in *FlightDescriptor, opts ...grpc.CallOption) (*SchemaResult, error)
-	// Retrieve a single stream associated with a particular descriptor
-	// associated with the referenced ticket. A Flight can be composed of one or
-	// more streams where each stream can be retrieved using a separate opaque
-	// ticket that the flight service uses for managing a collection of streams.
-	DoGet(ctx context.Context, in *Ticket, opts ...grpc.CallOption) (FlightService_DoGetClient, error)
-	// Push a stream to the flight service associated with a particular
-	// flight stream. This allows a client of a flight service to upload a stream
-	// of data. Depending on the particular flight service, a client consumer
-	// could be allowed to upload a single stream per descriptor or an unlimited
-	// number. In the latter, the service might implement a 'seal' action that
-	// can be applied to a descriptor once all streams are uploaded.
-	DoPut(ctx context.Context, opts ...grpc.CallOption) (FlightService_DoPutClient, error)
-	// Open a bidirectional data channel for a given descriptor. This
-	// allows clients to send and receive arbitrary Arrow data and
-	// application-specific metadata in a single logical stream. In
-	// contrast to DoGet/DoPut, this is more suited for clients
-	// offloading computation (rather than storage) to a Flight service.
-	DoExchange(ctx context.Context, opts ...grpc.CallOption) (FlightService_DoExchangeClient, error)
-	// Flight services can support an arbitrary number of simple actions in
-	// addition to the possible ListFlights, GetFlightInfo, DoGet, DoPut
-	// operations that are potentially available. DoAction allows a flight client
-	// to do a specific action against a flight service. An action includes
-	// opaque request and response objects that are specific to the type action
-	// being undertaken.
-	DoAction(ctx context.Context, in *Action, opts ...grpc.CallOption) (FlightService_DoActionClient, error)
-	// A flight service exposes all of the available action types that it has
-	// along with descriptions. This allows different flight consumers to
-	// understand the capabilities of the flight service.
-	ListActions(ctx context.Context, in *Empty, opts ...grpc.CallOption) (FlightService_ListActionsClient, error)
-}
-
-type flightServiceClient struct {
-	cc grpc.ClientConnInterface
-}
-
-func NewFlightServiceClient(cc grpc.ClientConnInterface) FlightServiceClient {
-	return &flightServiceClient{cc}
-}
-
-func (c *flightServiceClient) Handshake(ctx context.Context, opts ...grpc.CallOption) (FlightService_HandshakeClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[0], "/arrow.flight.protocol.FlightService/Handshake", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceHandshakeClient{stream}
-	return x, nil
-}
-
-type FlightService_HandshakeClient interface {
-	Send(*HandshakeRequest) error
-	Recv() (*HandshakeResponse, error)
-	grpc.ClientStream
-}
-
-type flightServiceHandshakeClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceHandshakeClient) Send(m *HandshakeRequest) error {
-	return x.ClientStream.SendMsg(m)
-}
-
-func (x *flightServiceHandshakeClient) Recv() (*HandshakeResponse, error) {
-	m := new(HandshakeResponse)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func (c *flightServiceClient) ListFlights(ctx context.Context, in *Criteria, opts ...grpc.CallOption) (FlightService_ListFlightsClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[1], "/arrow.flight.protocol.FlightService/ListFlights", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceListFlightsClient{stream}
-	if err := x.ClientStream.SendMsg(in); err != nil {
-		return nil, err
-	}
-	if err := x.ClientStream.CloseSend(); err != nil {
-		return nil, err
-	}
-	return x, nil
-}
-
-type FlightService_ListFlightsClient interface {
-	Recv() (*FlightInfo, error)
-	grpc.ClientStream
-}
-
-type flightServiceListFlightsClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceListFlightsClient) Recv() (*FlightInfo, error) {
-	m := new(FlightInfo)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func (c *flightServiceClient) GetFlightInfo(ctx context.Context, in *FlightDescriptor, opts ...grpc.CallOption) (*FlightInfo, error) {
-	out := new(FlightInfo)
-	err := c.cc.Invoke(ctx, "/arrow.flight.protocol.FlightService/GetFlightInfo", in, out, opts...)
-	if err != nil {
-		return nil, err
-	}
-	return out, nil
-}
-
-func (c *flightServiceClient) PollFlightInfo(ctx context.Context, in *FlightDescriptor, opts ...grpc.CallOption) (*PollInfo, error) {
-	out := new(PollInfo)
-	err := c.cc.Invoke(ctx, "/arrow.flight.protocol.FlightService/PollFlightInfo", in, out, opts...)
-	if err != nil {
-		return nil, err
-	}
-	return out, nil
-}
-
-func (c *flightServiceClient) GetSchema(ctx context.Context, in *FlightDescriptor, opts ...grpc.CallOption) (*SchemaResult, error) {
-	out := new(SchemaResult)
-	err := c.cc.Invoke(ctx, "/arrow.flight.protocol.FlightService/GetSchema", in, out, opts...)
-	if err != nil {
-		return nil, err
-	}
-	return out, nil
-}
-
-func (c *flightServiceClient) DoGet(ctx context.Context, in *Ticket, opts ...grpc.CallOption) (FlightService_DoGetClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[2], "/arrow.flight.protocol.FlightService/DoGet", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceDoGetClient{stream}
-	if err := x.ClientStream.SendMsg(in); err != nil {
-		return nil, err
-	}
-	if err := x.ClientStream.CloseSend(); err != nil {
-		return nil, err
-	}
-	return x, nil
-}
-
-type FlightService_DoGetClient interface {
-	Recv() (*FlightData, error)
-	grpc.ClientStream
-}
-
-type flightServiceDoGetClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceDoGetClient) Recv() (*FlightData, error) {
-	m := new(FlightData)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func (c *flightServiceClient) DoPut(ctx context.Context, opts ...grpc.CallOption) (FlightService_DoPutClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[3], "/arrow.flight.protocol.FlightService/DoPut", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceDoPutClient{stream}
-	return x, nil
-}
-
-type FlightService_DoPutClient interface {
-	Send(*FlightData) error
-	Recv() (*PutResult, error)
-	grpc.ClientStream
-}
-
-type flightServiceDoPutClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceDoPutClient) Send(m *FlightData) error {
-	return x.ClientStream.SendMsg(m)
-}
-
-func (x *flightServiceDoPutClient) Recv() (*PutResult, error) {
-	m := new(PutResult)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func (c *flightServiceClient) DoExchange(ctx context.Context, opts ...grpc.CallOption) (FlightService_DoExchangeClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[4], "/arrow.flight.protocol.FlightService/DoExchange", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceDoExchangeClient{stream}
-	return x, nil
-}
-
-type FlightService_DoExchangeClient interface {
-	Send(*FlightData) error
-	Recv() (*FlightData, error)
-	grpc.ClientStream
-}
-
-type flightServiceDoExchangeClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceDoExchangeClient) Send(m *FlightData) error {
-	return x.ClientStream.SendMsg(m)
-}
-
-func (x *flightServiceDoExchangeClient) Recv() (*FlightData, error) {
-	m := new(FlightData)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func (c *flightServiceClient) DoAction(ctx context.Context, in *Action, opts ...grpc.CallOption) (FlightService_DoActionClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[5], "/arrow.flight.protocol.FlightService/DoAction", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceDoActionClient{stream}
-	if err := x.ClientStream.SendMsg(in); err != nil {
-		return nil, err
-	}
-	if err := x.ClientStream.CloseSend(); err != nil {
-		return nil, err
-	}
-	return x, nil
-}
-
-type FlightService_DoActionClient interface {
-	Recv() (*Result, error)
-	grpc.ClientStream
-}
-
-type flightServiceDoActionClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceDoActionClient) Recv() (*Result, error) {
-	m := new(Result)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func (c *flightServiceClient) ListActions(ctx context.Context, in *Empty, opts ...grpc.CallOption) (FlightService_ListActionsClient, error) {
-	stream, err := c.cc.NewStream(ctx, &FlightService_ServiceDesc.Streams[6], "/arrow.flight.protocol.FlightService/ListActions", opts...)
-	if err != nil {
-		return nil, err
-	}
-	x := &flightServiceListActionsClient{stream}
-	if err := x.ClientStream.SendMsg(in); err != nil {
-		return nil, err
-	}
-	if err := x.ClientStream.CloseSend(); err != nil {
-		return nil, err
-	}
-	return x, nil
-}
-
-type FlightService_ListActionsClient interface {
-	Recv() (*ActionType, error)
-	grpc.ClientStream
-}
-
-type flightServiceListActionsClient struct {
-	grpc.ClientStream
-}
-
-func (x *flightServiceListActionsClient) Recv() (*ActionType, error) {
-	m := new(ActionType)
-	if err := x.ClientStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-// FlightServiceServer is the server API for FlightService service.
-// All implementations must embed UnimplementedFlightServiceServer
-// for forward compatibility
-type FlightServiceServer interface {
-	// Handshake between client and server. Depending on the server, the
-	// handshake may be required to determine the token that should be used for
-	// future operations. Both request and response are streams to allow multiple
-	// round-trips depending on auth mechanism.
-	Handshake(FlightService_HandshakeServer) error
-	// Get a list of available streams given a particular criteria. Most flight
-	// services will expose one or more streams that are readily available for
-	// retrieval. This api allows listing the streams available for
-	// consumption. A user can also provide a criteria. The criteria can limit
-	// the subset of streams that can be listed via this interface. Each flight
-	// service allows its own definition of how to consume criteria.
-	ListFlights(*Criteria, FlightService_ListFlightsServer) error
-	// For a given FlightDescriptor, get information about how the flight can be
-	// consumed. This is a useful interface if the consumer of the interface
-	// already can identify the specific flight to consume. This interface can
-	// also allow a consumer to generate a flight stream through a specified
-	// descriptor. For example, a flight descriptor might be something that
-	// includes a SQL statement or a Pickled Python operation that will be
-	// executed. In those cases, the descriptor will not be previously available
-	// within the list of available streams provided by ListFlights but will be
-	// available for consumption for the duration defined by the specific flight
-	// service.
-	GetFlightInfo(context.Context, *FlightDescriptor) (*FlightInfo, error)
-	// For a given FlightDescriptor, start a query and get information
-	// to poll its execution status. This is a useful interface if the
-	// query may be a long-running query. The first PollFlightInfo call
-	// should return as quickly as possible. (GetFlightInfo doesn't
-	// return until the query is complete.)
-	//
-	// A client can consume any available results before
-	// the query is completed. See PollInfo.info for details.
-	//
-	// A client can poll the updated query status by calling
-	// PollFlightInfo() with PollInfo.flight_descriptor. A server
-	// should not respond until the result would be different from last
-	// time. That way, the client can "long poll" for updates
-	// without constantly making requests. Clients can set a short timeout
-	// to avoid blocking calls if desired.
-	//
-	// A client can't use PollInfo.flight_descriptor after
-	// PollInfo.expiration_time passes. A server might not accept the
-	// retry descriptor anymore and the query may be cancelled.
-	//
-	// A client may use the CancelFlightInfo action with
-	// PollInfo.info to cancel the running query.
-	PollFlightInfo(context.Context, *FlightDescriptor) (*PollInfo, error)
-	// For a given FlightDescriptor, get the Schema as described in Schema.fbs::Schema
-	// This is used when a consumer needs the Schema of flight stream. Similar to
-	// GetFlightInfo this interface may generate a new flight that was not previously
-	// available in ListFlights.
-	GetSchema(context.Context, *FlightDescriptor) (*SchemaResult, error)
-	// Retrieve a single stream associated with a particular descriptor
-	// associated with the referenced ticket. A Flight can be composed of one or
-	// more streams where each stream can be retrieved using a separate opaque
-	// ticket that the flight service uses for managing a collection of streams.
-	DoGet(*Ticket, FlightService_DoGetServer) error
-	// Push a stream to the flight service associated with a particular
-	// flight stream. This allows a client of a flight service to upload a stream
-	// of data. Depending on the particular flight service, a client consumer
-	// could be allowed to upload a single stream per descriptor or an unlimited
-	// number. In the latter, the service might implement a 'seal' action that
-	// can be applied to a descriptor once all streams are uploaded.
-	DoPut(FlightService_DoPutServer) error
-	// Open a bidirectional data channel for a given descriptor. This
-	// allows clients to send and receive arbitrary Arrow data and
-	// application-specific metadata in a single logical stream. In
-	// contrast to DoGet/DoPut, this is more suited for clients
-	// offloading computation (rather than storage) to a Flight service.
-	DoExchange(FlightService_DoExchangeServer) error
-	// Flight services can support an arbitrary number of simple actions in
-	// addition to the possible ListFlights, GetFlightInfo, DoGet, DoPut
-	// operations that are potentially available. DoAction allows a flight client
-	// to do a specific action against a flight service. An action includes
-	// opaque request and response objects that are specific to the type action
-	// being undertaken.
-	DoAction(*Action, FlightService_DoActionServer) error
-	// A flight service exposes all of the available action types that it has
-	// along with descriptions. This allows different flight consumers to
-	// understand the capabilities of the flight service.
-	ListActions(*Empty, FlightService_ListActionsServer) error
-	mustEmbedUnimplementedFlightServiceServer()
-}
-
-// UnimplementedFlightServiceServer must be embedded to have forward compatible implementations.
-type UnimplementedFlightServiceServer struct {
-}
-
-func (UnimplementedFlightServiceServer) Handshake(FlightService_HandshakeServer) error {
-	return status.Errorf(codes.Unimplemented, "method Handshake not implemented")
-}
-func (UnimplementedFlightServiceServer) ListFlights(*Criteria, FlightService_ListFlightsServer) error {
-	return status.Errorf(codes.Unimplemented, "method ListFlights not implemented")
-}
-func (UnimplementedFlightServiceServer) GetFlightInfo(context.Context, *FlightDescriptor) (*FlightInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "method GetFlightInfo not implemented")
-}
-func (UnimplementedFlightServiceServer) PollFlightInfo(context.Context, *FlightDescriptor) (*PollInfo, error) {
-	return nil, status.Errorf(codes.Unimplemented, "method PollFlightInfo not implemented")
-}
-func (UnimplementedFlightServiceServer) GetSchema(context.Context, *FlightDescriptor) (*SchemaResult, error) {
-	return nil, status.Errorf(codes.Unimplemented, "method GetSchema not implemented")
-}
-func (UnimplementedFlightServiceServer) DoGet(*Ticket, FlightService_DoGetServer) error {
-	return status.Errorf(codes.Unimplemented, "method DoGet not implemented")
-}
-func (UnimplementedFlightServiceServer) DoPut(FlightService_DoPutServer) error {
-	return status.Errorf(codes.Unimplemented, "method DoPut not implemented")
-}
-func (UnimplementedFlightServiceServer) DoExchange(FlightService_DoExchangeServer) error {
-	return status.Errorf(codes.Unimplemented, "method DoExchange not implemented")
-}
-func (UnimplementedFlightServiceServer) DoAction(*Action, FlightService_DoActionServer) error {
-	return status.Errorf(codes.Unimplemented, "method DoAction not implemented")
-}
-func (UnimplementedFlightServiceServer) ListActions(*Empty, FlightService_ListActionsServer) error {
-	return status.Errorf(codes.Unimplemented, "method ListActions not implemented")
-}
-func (UnimplementedFlightServiceServer) mustEmbedUnimplementedFlightServiceServer() {}
-
-// UnsafeFlightServiceServer may be embedded to opt out of forward compatibility for this service.
-// Use of this interface is not recommended, as added methods to FlightServiceServer will
-// result in compilation errors.
-type UnsafeFlightServiceServer interface {
-	mustEmbedUnimplementedFlightServiceServer()
-}
-
-func RegisterFlightServiceServer(s grpc.ServiceRegistrar, srv FlightServiceServer) {
-	s.RegisterService(&FlightService_ServiceDesc, srv)
-}
-
-func _FlightService_Handshake_Handler(srv interface{}, stream grpc.ServerStream) error {
-	return srv.(FlightServiceServer).Handshake(&flightServiceHandshakeServer{stream})
-}
-
-type FlightService_HandshakeServer interface {
-	Send(*HandshakeResponse) error
-	Recv() (*HandshakeRequest, error)
-	grpc.ServerStream
-}
-
-type flightServiceHandshakeServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceHandshakeServer) Send(m *HandshakeResponse) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-func (x *flightServiceHandshakeServer) Recv() (*HandshakeRequest, error) {
-	m := new(HandshakeRequest)
-	if err := x.ServerStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func _FlightService_ListFlights_Handler(srv interface{}, stream grpc.ServerStream) error {
-	m := new(Criteria)
-	if err := stream.RecvMsg(m); err != nil {
-		return err
-	}
-	return srv.(FlightServiceServer).ListFlights(m, &flightServiceListFlightsServer{stream})
-}
-
-type FlightService_ListFlightsServer interface {
-	Send(*FlightInfo) error
-	grpc.ServerStream
-}
-
-type flightServiceListFlightsServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceListFlightsServer) Send(m *FlightInfo) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-func _FlightService_GetFlightInfo_Handler(srv interface{}, ctx context.Context, dec func(interface{}) error, interceptor grpc.UnaryServerInterceptor) (interface{}, error) {
-	in := new(FlightDescriptor)
-	if err := dec(in); err != nil {
-		return nil, err
-	}
-	if interceptor == nil {
-		return srv.(FlightServiceServer).GetFlightInfo(ctx, in)
-	}
-	info := &grpc.UnaryServerInfo{
-		Server:     srv,
-		FullMethod: "/arrow.flight.protocol.FlightService/GetFlightInfo",
-	}
-	handler := func(ctx context.Context, req interface{}) (interface{}, error) {
-		return srv.(FlightServiceServer).GetFlightInfo(ctx, req.(*FlightDescriptor))
-	}
-	return interceptor(ctx, in, info, handler)
-}
-
-func _FlightService_PollFlightInfo_Handler(srv interface{}, ctx context.Context, dec func(interface{}) error, interceptor grpc.UnaryServerInterceptor) (interface{}, error) {
-	in := new(FlightDescriptor)
-	if err := dec(in); err != nil {
-		return nil, err
-	}
-	if interceptor == nil {
-		return srv.(FlightServiceServer).PollFlightInfo(ctx, in)
-	}
-	info := &grpc.UnaryServerInfo{
-		Server:     srv,
-		FullMethod: "/arrow.flight.protocol.FlightService/PollFlightInfo",
-	}
-	handler := func(ctx context.Context, req interface{}) (interface{}, error) {
-		return srv.(FlightServiceServer).PollFlightInfo(ctx, req.(*FlightDescriptor))
-	}
-	return interceptor(ctx, in, info, handler)
-}
-
-func _FlightService_GetSchema_Handler(srv interface{}, ctx context.Context, dec func(interface{}) error, interceptor grpc.UnaryServerInterceptor) (interface{}, error) {
-	in := new(FlightDescriptor)
-	if err := dec(in); err != nil {
-		return nil, err
-	}
-	if interceptor == nil {
-		return srv.(FlightServiceServer).GetSchema(ctx, in)
-	}
-	info := &grpc.UnaryServerInfo{
-		Server:     srv,
-		FullMethod: "/arrow.flight.protocol.FlightService/GetSchema",
-	}
-	handler := func(ctx context.Context, req interface{}) (interface{}, error) {
-		return srv.(FlightServiceServer).GetSchema(ctx, req.(*FlightDescriptor))
-	}
-	return interceptor(ctx, in, info, handler)
-}
-
-func _FlightService_DoGet_Handler(srv interface{}, stream grpc.ServerStream) error {
-	m := new(Ticket)
-	if err := stream.RecvMsg(m); err != nil {
-		return err
-	}
-	return srv.(FlightServiceServer).DoGet(m, &flightServiceDoGetServer{stream})
-}
-
-type FlightService_DoGetServer interface {
-	Send(*FlightData) error
-	grpc.ServerStream
-}
-
-type flightServiceDoGetServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceDoGetServer) Send(m *FlightData) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-func _FlightService_DoPut_Handler(srv interface{}, stream grpc.ServerStream) error {
-	return srv.(FlightServiceServer).DoPut(&flightServiceDoPutServer{stream})
-}
-
-type FlightService_DoPutServer interface {
-	Send(*PutResult) error
-	Recv() (*FlightData, error)
-	grpc.ServerStream
-}
-
-type flightServiceDoPutServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceDoPutServer) Send(m *PutResult) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-func (x *flightServiceDoPutServer) Recv() (*FlightData, error) {
-	m := new(FlightData)
-	if err := x.ServerStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func _FlightService_DoExchange_Handler(srv interface{}, stream grpc.ServerStream) error {
-	return srv.(FlightServiceServer).DoExchange(&flightServiceDoExchangeServer{stream})
-}
-
-type FlightService_DoExchangeServer interface {
-	Send(*FlightData) error
-	Recv() (*FlightData, error)
-	grpc.ServerStream
-}
-
-type flightServiceDoExchangeServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceDoExchangeServer) Send(m *FlightData) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-func (x *flightServiceDoExchangeServer) Recv() (*FlightData, error) {
-	m := new(FlightData)
-	if err := x.ServerStream.RecvMsg(m); err != nil {
-		return nil, err
-	}
-	return m, nil
-}
-
-func _FlightService_DoAction_Handler(srv interface{}, stream grpc.ServerStream) error {
-	m := new(Action)
-	if err := stream.RecvMsg(m); err != nil {
-		return err
-	}
-	return srv.(FlightServiceServer).DoAction(m, &flightServiceDoActionServer{stream})
-}
-
-type FlightService_DoActionServer interface {
-	Send(*Result) error
-	grpc.ServerStream
-}
-
-type flightServiceDoActionServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceDoActionServer) Send(m *Result) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-func _FlightService_ListActions_Handler(srv interface{}, stream grpc.ServerStream) error {
-	m := new(Empty)
-	if err := stream.RecvMsg(m); err != nil {
-		return err
-	}
-	return srv.(FlightServiceServer).ListActions(m, &flightServiceListActionsServer{stream})
-}
-
-type FlightService_ListActionsServer interface {
-	Send(*ActionType) error
-	grpc.ServerStream
-}
-
-type flightServiceListActionsServer struct {
-	grpc.ServerStream
-}
-
-func (x *flightServiceListActionsServer) Send(m *ActionType) error {
-	return x.ServerStream.SendMsg(m)
-}
-
-// FlightService_ServiceDesc is the grpc.ServiceDesc for FlightService service.
-// It's only intended for direct use with grpc.RegisterService,
-// and not to be introspected or modified (even as a copy)
-var FlightService_ServiceDesc = grpc.ServiceDesc{
-	ServiceName: "arrow.flight.protocol.FlightService",
-	HandlerType: (*FlightServiceServer)(nil),
-	Methods: []grpc.MethodDesc{
-		{
-			MethodName: "GetFlightInfo",
-			Handler:    _FlightService_GetFlightInfo_Handler,
-		},
-		{
-			MethodName: "PollFlightInfo",
-			Handler:    _FlightService_PollFlightInfo_Handler,
-		},
-		{
-			MethodName: "GetSchema",
-			Handler:    _FlightService_GetSchema_Handler,
-		},
-	},
-	Streams: []grpc.StreamDesc{
-		{
-			StreamName:    "Handshake",
-			Handler:       _FlightService_Handshake_Handler,
-			ServerStreams: true,
-			ClientStreams: true,
-		},
-		{
-			StreamName:    "ListFlights",
-			Handler:       _FlightService_ListFlights_Handler,
-			ServerStreams: true,
-		},
-		{
-			StreamName:    "DoGet",
-			Handler:       _FlightService_DoGet_Handler,
-			ServerStreams: true,
-		},
-		{
-			StreamName:    "DoPut",
-			Handler:       _FlightService_DoPut_Handler,
-			ServerStreams: true,
-			ClientStreams: true,
-		},
-		{
-			StreamName:    "DoExchange",
-			Handler:       _FlightService_DoExchange_Handler,
-			ServerStreams: true,
-			ClientStreams: true,
-		},
-		{
-			StreamName:    "DoAction",
-			Handler:       _FlightService_DoAction_Handler,
-			ServerStreams: true,
-		},
-		{
-			StreamName:    "ListActions",
-			Handler:       _FlightService_ListActions_Handler,
-			ServerStreams: true,
-		},
-	},
-	Metadata: "Flight.proto",
-}
diff --git a/go/arrow/flight/record_batch_reader.go b/go/arrow/flight/record_batch_reader.go
deleted file mode 100644
index 9067e9e2982e5..0000000000000
--- a/go/arrow/flight/record_batch_reader.go
+++ /dev/null
@@ -1,264 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"bytes"
-	"fmt"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// DataStreamReader is an interface for receiving flight data messages on a stream
-// such as via grpc with Arrow Flight.
-type DataStreamReader interface {
-	Recv() (*FlightData, error)
-}
-
-type dataMessageReader struct {
-	rdr DataStreamReader
-
-	peeked   *FlightData
-	refCount int64
-	msg      *ipc.Message
-
-	lastAppMetadata []byte
-	descr           *FlightDescriptor
-}
-
-func (d *dataMessageReader) Message() (*ipc.Message, error) {
-	var (
-		fd  *FlightData
-		err error
-	)
-
-	if d.peeked != nil {
-		fd = d.peeked
-		d.peeked = nil
-	} else {
-		fd, err = d.rdr.Recv()
-	}
-
-	if err != nil {
-		if d.msg != nil {
-			// clear the previous message in the error case
-			d.msg.Release()
-			d.msg = nil
-		}
-		d.lastAppMetadata = nil
-		d.descr = nil
-		return nil, err
-	}
-
-	d.lastAppMetadata = fd.AppMetadata
-	d.descr = fd.FlightDescriptor
-	d.msg = ipc.NewMessage(memory.NewBufferBytes(fd.DataHeader), memory.NewBufferBytes(fd.DataBody))
-	return d.msg, nil
-}
-
-func (d *dataMessageReader) Retain() {
-	atomic.AddInt64(&d.refCount, 1)
-}
-
-func (d *dataMessageReader) Release() {
-	debug.Assert(atomic.LoadInt64(&d.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&d.refCount, -1) == 0 {
-		if d.msg != nil {
-			d.msg.Release()
-			d.msg = nil
-		}
-		d.lastAppMetadata = nil
-	}
-}
-
-// Reader is an ipc.Reader which also keeps track of the metadata from
-// the FlightData messages as they come in, calling LatestAppMetadata
-// will return the metadata bytes from the most recently read message.
-type Reader struct {
-	*ipc.Reader
-	dmr *dataMessageReader
-}
-
-// Retain increases the reference count for the underlying message reader
-// and ipc.Reader which are utilized by this Reader.
-func (r *Reader) Retain() {
-	r.Reader.Retain()
-	r.dmr.Retain()
-}
-
-// Release reduces the reference count for the underlying message reader
-// and ipc.Reader, when the reference counts become zero, the allocated
-// memory is released for the stored record and metadata.
-func (r *Reader) Release() {
-	r.Reader.Release()
-	r.dmr.Release()
-}
-
-// LatestAppMetadata returns the bytes from the AppMetadata field of the
-// most recently read FlightData message that was processed by calling
-// the Next function. The metadata returned would correspond to the record
-// retrieved by calling Record().
-func (r *Reader) LatestAppMetadata() []byte {
-	return r.dmr.lastAppMetadata
-}
-
-// LatestFlightDescriptor returns a pointer to the last FlightDescriptor object
-// that was received in the most recently read FlightData message that was
-// processed by calling the Next function. The descriptor returned would correspond
-// to the record retrieved by calling Record().
-func (r *Reader) LatestFlightDescriptor() *FlightDescriptor {
-	return r.dmr.descr
-}
-
-// Chunk is a convenience function to return a chunk of the flight stream
-// returning the RecordBatch along with the FlightDescriptor and any AppMetadata.
-// Each of these can be retrieved separately with their respective functions,
-// this is just a convenience to retrieve all three with one function call.
-func (r *Reader) Chunk() StreamChunk {
-	return StreamChunk{
-		Data:        r.Record(),
-		Desc:        r.dmr.descr,
-		AppMetadata: r.dmr.lastAppMetadata,
-	}
-}
-
-// NewRecordReader constructs an ipc reader using the flight data stream reader
-// as the source of the ipc messages, opts passed will be passed to the underlying
-// ipc.Reader such as ipc.WithSchema and ipc.WithAllocator
-func NewRecordReader(r DataStreamReader, opts ...ipc.Option) (*Reader, error) {
-	// peek the first message for a descriptor
-	data, err := r.Recv()
-	if err != nil {
-		return nil, err
-	}
-
-	rdr := &Reader{dmr: &dataMessageReader{rdr: r, refCount: 1}}
-	rdr.dmr.descr = data.FlightDescriptor
-	if len(data.DataHeader) > 0 {
-		rdr.dmr.peeked = data
-	}
-
-	rdr.dmr.Retain()
-	if rdr.Reader, err = ipc.NewReaderFromMessageReader(rdr.dmr, opts...); err != nil {
-		return nil, fmt.Errorf("arrow/flight: could not create flight reader: %w", err)
-	}
-
-	return rdr, nil
-}
-
-// DeserializeSchema takes the schema bytes from FlightInfo or SchemaResult
-// and returns the deserialized arrow schema.
-func DeserializeSchema(info []byte, mem memory.Allocator) (*arrow.Schema, error) {
-	// even though the Flight proto file says that the bytes should be the
-	// flatbuffer message as per Schema.fbs, the current implementations send
-	// a serialized recordbatch with no body rows rather than just the
-	// schema message. So let's make sure to follow that.
-	rdr, err := ipc.NewReader(bytes.NewReader(info), ipc.WithAllocator(mem))
-	if err != nil {
-		return nil, err
-	}
-	defer rdr.Release()
-	return rdr.Schema(), nil
-}
-
-// StreamChunk represents a single chunk of a FlightData stream
-type StreamChunk struct {
-	Data        arrow.Record
-	Desc        *FlightDescriptor
-	AppMetadata []byte
-	Err         error
-}
-
-// MessageReader is an interface representing a RecordReader
-// that also provides StreamChunks and/or the ability to retrieve
-// FlightDescriptors and AppMetadata from the flight stream
-type MessageReader interface {
-	array.RecordReader
-	arrio.Reader
-	Err() error
-	Chunk() StreamChunk
-	LatestFlightDescriptor() *FlightDescriptor
-	LatestAppMetadata() []byte
-}
-
-type haserr interface {
-	Err() error
-}
-
-// StreamChunksFromReader is a convenience function to populate a channel
-// from a record reader. It is intended to be run using a separate goroutine
-// by calling `go flight.StreamChunksFromReader(rdr, ch)`.
-//
-// If the record reader panics, an error chunk will get sent on the channel.
-//
-// This will close the channel and release the reader when it completes.
-func StreamChunksFromReader(rdr array.RecordReader, ch chan<- StreamChunk) {
-	defer close(ch)
-	defer func() {
-		if err := recover(); err != nil {
-			ch <- StreamChunk{Err: utils.FormatRecoveredError("panic while reading", err)}
-		}
-	}()
-
-	defer rdr.Release()
-	for rdr.Next() {
-		rec := rdr.Record()
-		rec.Retain()
-		ch <- StreamChunk{Data: rec}
-	}
-
-	if e, ok := rdr.(haserr); ok {
-		if e.Err() != nil {
-			ch <- StreamChunk{Err: e.Err()}
-		}
-	}
-}
-
-func ConcatenateReaders(rdrs []array.RecordReader, ch chan<- StreamChunk) {
-	defer close(ch)
-	defer func() {
-		for _, r := range rdrs {
-			r.Release()
-		}
-
-		if err := recover(); err != nil {
-			ch <- StreamChunk{Err: utils.FormatRecoveredError("panic while reading", err)}
-		}
-	}()
-
-	for _, r := range rdrs {
-		for r.Next() {
-			rec := r.Record()
-			rec.Retain()
-			ch <- StreamChunk{Data: rec}
-		}
-		if e, ok := r.(haserr); ok {
-			if e.Err() != nil {
-				ch <- StreamChunk{Err: e.Err()}
-				return
-			}
-		}
-	}
-}
diff --git a/go/arrow/flight/record_batch_writer.go b/go/arrow/flight/record_batch_writer.go
deleted file mode 100644
index 27211277ab061..0000000000000
--- a/go/arrow/flight/record_batch_writer.go
+++ /dev/null
@@ -1,119 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"bytes"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// DataStreamWriter is an interface that represents an Arrow Flight stream
-// writer that writes FlightData objects
-type DataStreamWriter interface {
-	Send(*FlightData) error
-}
-
-type flightPayloadWriter struct {
-	w   DataStreamWriter
-	fd  FlightData
-	buf bytes.Buffer
-}
-
-func (f *flightPayloadWriter) Start() error { return nil }
-func (f *flightPayloadWriter) WritePayload(payload ipc.Payload) error {
-	m := payload.Meta()
-	defer m.Release()
-
-	f.fd.DataHeader = m.Bytes()
-	f.buf.Reset()
-
-	payload.SerializeBody(&f.buf)
-	f.fd.DataBody = f.buf.Bytes()
-
-	return f.w.Send(&f.fd)
-}
-
-func (f *flightPayloadWriter) Close() error { return nil }
-
-// Writer is an ipc.Writer which also adds a WriteWithAppMetadata function
-// in order to allow adding AppMetadata to the FlightData messages which
-// are written.
-type Writer struct {
-	*ipc.Writer
-	pw *flightPayloadWriter
-}
-
-// WriteMetadata writes a payload message to the stream containing only
-// the specified app metadata.
-func (w *Writer) WriteMetadata(appMetadata []byte) error {
-	return w.pw.w.Send(&FlightData{AppMetadata: appMetadata})
-}
-
-// SetFlightDescriptor sets the flight descriptor into the next payload that will
-// be written by the flight writer. It will only be put into the very next payload
-// and afterwards the writer will no longer keep it's pointer to the descriptor.
-func (w *Writer) SetFlightDescriptor(descr *FlightDescriptor) {
-	w.pw.fd.FlightDescriptor = descr
-}
-
-// Write writes a recordbatch payload and returns any error, implementing the arrio.Writer interface
-func (w *Writer) Write(rec arrow.Record) error {
-	if w.pw.fd.FlightDescriptor != nil {
-		defer func() {
-			w.pw.fd.FlightDescriptor = nil
-		}()
-	}
-	return w.Writer.Write(rec)
-}
-
-// WriteWithAppMetadata will write this record with the supplied application
-// metadata attached in the flightData message.
-func (w *Writer) WriteWithAppMetadata(rec arrow.Record, appMeta []byte) error {
-	w.pw.fd.AppMetadata = appMeta
-	defer func() {
-		w.pw.fd.AppMetadata = nil
-	}()
-	return w.Write(rec)
-}
-
-// NewRecordWriter can be used to construct a writer for arrow flight via
-// the grpc stream handler to write flight data objects and write
-// record batches to the stream. Options passed here will be passed to
-// ipc.NewWriter
-func NewRecordWriter(w DataStreamWriter, opts ...ipc.Option) *Writer {
-	pw := &flightPayloadWriter{w: w}
-	return &Writer{Writer: ipc.NewWriterWithPayloadWriter(pw, opts...), pw: pw}
-}
-
-// SerializeSchema returns the serialized schema bytes for use in Arrow Flight
-// protobuf messages.
-func SerializeSchema(rec *arrow.Schema, mem memory.Allocator) []byte {
-	// even though the spec says to send the message as in Schema.fbs,
-	// it looks like all the implementations actually send a fully serialized
-	// record batch just with no rows. So let's follow that pattern.
-	var buf bytes.Buffer
-	w := ipc.NewWriter(&buf, ipc.WithSchema(rec), ipc.WithAllocator(mem))
-	w.Close()
-	return buf.Bytes()
-}
-
-type MetadataWriter interface {
-	WriteMetadata([]byte) error
-}
diff --git a/go/arrow/flight/server.go b/go/arrow/flight/server.go
deleted file mode 100644
index b67e52f4357ce..0000000000000
--- a/go/arrow/flight/server.go
+++ /dev/null
@@ -1,405 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"context"
-	"fmt"
-	"net"
-	"os"
-	"os/signal"
-
-	"github.com/apache/arrow/go/v18/arrow/flight/gen/flight"
-	"google.golang.org/grpc"
-)
-
-type (
-	FlightServer                    = flight.FlightServiceServer
-	FlightService_HandshakeServer   = flight.FlightService_HandshakeServer
-	HandshakeResponse               = flight.HandshakeResponse
-	HandshakeRequest                = flight.HandshakeRequest
-	FlightService_ListFlightsServer = flight.FlightService_ListFlightsServer
-	FlightService_DoGetServer       = flight.FlightService_DoGetServer
-	FlightService_DoPutServer       = flight.FlightService_DoPutServer
-	FlightService_DoExchangeServer  = flight.FlightService_DoExchangeServer
-	FlightService_DoActionServer    = flight.FlightService_DoActionServer
-	FlightService_ListActionsServer = flight.FlightService_ListActionsServer
-	Criteria                        = flight.Criteria
-	FlightDescriptor                = flight.FlightDescriptor
-	FlightEndpoint                  = flight.FlightEndpoint
-	Location                        = flight.Location
-	FlightInfo                      = flight.FlightInfo
-	PollInfo                        = flight.PollInfo
-	FlightData                      = flight.FlightData
-	PutResult                       = flight.PutResult
-	Ticket                          = flight.Ticket
-	SchemaResult                    = flight.SchemaResult
-	Action                          = flight.Action
-	ActionType                      = flight.ActionType
-	CancelFlightInfoRequest         = flight.CancelFlightInfoRequest
-	RenewFlightEndpointRequest      = flight.RenewFlightEndpointRequest
-	Result                          = flight.Result
-	CancelFlightInfoResult          = flight.CancelFlightInfoResult
-	CancelStatus                    = flight.CancelStatus
-	SessionOptionValue              = flight.SessionOptionValue
-	SetSessionOptionsRequest        = flight.SetSessionOptionsRequest
-	SetSessionOptionsResult         = flight.SetSessionOptionsResult
-	SetSessionOptionsResultError    = flight.SetSessionOptionsResult_Error
-	GetSessionOptionsRequest        = flight.GetSessionOptionsRequest
-	GetSessionOptionsResult         = flight.GetSessionOptionsResult
-	CloseSessionRequest             = flight.CloseSessionRequest
-	CloseSessionResult              = flight.CloseSessionResult
-	Empty                           = flight.Empty
-)
-
-// Constants for Action types
-const (
-	CancelFlightInfoActionType    = "CancelFlightInfo"
-	RenewFlightEndpointActionType = "RenewFlightEndpoint"
-	SetSessionOptionsActionType   = "SetSessionOptions"
-	GetSessionOptionsActionType   = "GetSessionOptions"
-	CloseSessionActionType        = "CloseSession"
-)
-
-const (
-	// The set option error is unknown. Servers should avoid
-	// using this value (send a NOT_FOUND error if the requested
-	// FlightInfo is not known). Clients can retry the request.
-	SetSessionOptionsResultErrorUnspecified = flight.SetSessionOptionsResult_UNSPECIFIED
-	// The given session option name is invalid.
-	SetSessionOptionsResultErrorInvalidName = flight.SetSessionOptionsResult_INVALID_NAME
-	// The session option value or type is invalid.
-	SetSessionOptionsResultErrorInvalidValue = flight.SetSessionOptionsResult_INVALID_VALUE
-	// The session option cannot be set.
-	SetSessionOptionsResultErrorError = flight.SetSessionOptionsResult_ERROR
-)
-
-const (
-	// The close session status is unknown. Servers should avoid
-	// using this value (send a NOT_FOUND error if the requested
-	// FlightInfo is not known). Clients can retry the request.
-	CloseSessionResultUnspecified = flight.CloseSessionResult_UNSPECIFIED
-	// The session close request is complete.
-	CloseSessionResultClosed = flight.CloseSessionResult_CLOSED
-	// The session close request is in progress. The client may retry the request.
-	CloseSessionResultClosing = flight.CloseSessionResult_CLOSING
-	// The session is not closeable.
-	CloseSessionResultNotCloseable = flight.CloseSessionResult_NOT_CLOSEABLE
-)
-
-// NewSessionOptionValues returns a map with the same keys as the input map, but with all values converted
-// to SessionOptionValues. If any values fail conversion, an error will be returned.
-func NewSessionOptionValues(options map[string]any) (map[string]*flight.SessionOptionValue, error) {
-	sessionOptions := make(map[string]*flight.SessionOptionValue, len(options))
-	for key, val := range options {
-		optval, err := NewSessionOptionValue(val)
-		if err != nil {
-			return nil, err
-		}
-		sessionOptions[key] = &optval
-	}
-
-	return sessionOptions, nil
-}
-
-// NewSessionOptionValue takes any value and constructs a SessionOptionValue suitable for setting session values.
-// An error will be returned if the value is not one of the types supported by SessionOptionValue.
-func NewSessionOptionValue(value any) (flight.SessionOptionValue, error) {
-	if value == nil {
-		return flight.SessionOptionValue{}, nil
-	}
-
-	switch val := value.(type) {
-	case string:
-		return flight.SessionOptionValue{OptionValue: &flight.SessionOptionValue_StringValue{StringValue: val}}, nil
-	case bool:
-		return flight.SessionOptionValue{OptionValue: &flight.SessionOptionValue_BoolValue{BoolValue: val}}, nil
-	case int64:
-		return flight.SessionOptionValue{OptionValue: &flight.SessionOptionValue_Int64Value{Int64Value: val}}, nil
-	case float64:
-		return flight.SessionOptionValue{OptionValue: &flight.SessionOptionValue_DoubleValue{DoubleValue: val}}, nil
-	case []string:
-		return flight.SessionOptionValue{OptionValue: &flight.SessionOptionValue_StringListValue_{StringListValue: &flight.SessionOptionValue_StringListValue{Values: val}}}, nil
-	default:
-		return flight.SessionOptionValue{}, fmt.Errorf("invalid option type %[1]T for value %[1]v", val)
-	}
-}
-
-// Constants for CancelStatus
-const (
-	// The cancellation status is unknown. Servers should avoid
-	// using this value (send a NOT_FOUND error if the requested
-	// FlightInfo is not known). Clients can retry the request.
-	CancelStatusUnspecified = flight.CancelStatus_CANCEL_STATUS_UNSPECIFIED
-	// The cancellation request is complete. Subsequent requests
-	// with the same payload may return CancelStatusCancelled or a
-	// arrow.ErrNotFound error.
-	CancelStatusCancelled = flight.CancelStatus_CANCEL_STATUS_CANCELLED
-	// The cancellation request is in progress. The client may
-	// retry the cancellation request.
-	CancelStatusCancelling = flight.CancelStatus_CANCEL_STATUS_CANCELLING
-	// The FlightInfo is not cancellable. The client should not
-	// retry the cancellation request.
-	CancelStatusNotCancellable = flight.CancelStatus_CANCEL_STATUS_NOT_CANCELLABLE
-)
-
-// Constants for Location
-const (
-	// LocationReuseConnection is a special location that tells clients
-	// they may fetch the data from the same service that they obtained
-	// the FlightEndpoint response from.
-	LocationReuseConnection = "arrow-flight-reuse-connection://?"
-)
-
-// RegisterFlightServiceServer registers an existing flight server onto an
-// existing grpc server, or anything that is a grpc service registrar.
-func RegisterFlightServiceServer(s *grpc.Server, srv FlightServer) {
-	flight.RegisterFlightServiceServer(s, srv)
-}
-
-// From https://github.com/grpc/grpc-go/blob/4c776ec01572d55249df309251900554b46adb41/reflection/serverreflection.go#L69-L83
-// This interface is inlined to make this arrow library compatible with
-// grpc < 1.45 .
-// See "google.golang.org/grpc/reflection" 's reflection.ServiceInfoProvider .
-// serviceInfoProvider is an interface used to retrieve metadata about the
-// services to expose.
-//
-// The reflection service is only interested in the service names, but the
-// signature is this way so that *grpc.Server implements it. So it is okay
-// for a custom implementation to return zero values for the
-// grpc.ServiceInfo values in the map.
-//
-// # Experimental
-//
-// Notice: This type is EXPERIMENTAL and may be changed or removed in a
-// later release.
-type serviceInfoProvider interface {
-	GetServiceInfo() map[string]grpc.ServiceInfo
-}
-
-// Server is an interface for hiding some of the grpc specifics to make
-// it slightly easier to manage a flight service, slightly modeled after
-// the C++ implementation
-type Server interface {
-	// Init takes in the address to bind to and creates the listener. If both this
-	// and InitListener are called, then whichever was called last will be used.
-	Init(addr string) error
-	// InitListener initializes with an already created listener rather than
-	// creating a new one like Init does. If both this and Init are called,
-	// whichever was called last is what will be used as they both set a listener
-	// into the server.
-	InitListener(lis net.Listener)
-	// Addr will return the address that was bound to for the service to listen on
-	Addr() net.Addr
-	// SetShutdownOnSignals sets notifications on the given signals to call GracefulStop
-	// on the grpc service if any of those signals are received
-	SetShutdownOnSignals(sig ...os.Signal)
-	// Serve blocks until accepting a connection fails with a fatal error. It will return
-	// a non-nil error unless it stopped due to calling Shutdown or receiving one of the
-	// signals set in SetShutdownOnSignals
-	Serve() error
-	// Shutdown will call GracefulStop on the grpc server so that it stops accepting connections
-	// and will wait until current methods complete
-	Shutdown()
-	// RegisterFlightService sets up the handler for the Flight Endpoints as per
-	// normal Grpc setups
-	RegisterFlightService(FlightServer)
-	// ServiceRegistrar wraps a single method that supports service registration.
-	// For example, it may be used to register health check provided by grpc-go.
-	grpc.ServiceRegistrar
-	// serviceInfoProvider is an interface used to retrieve metadata about the services to expose.
-	// If reflection is enabled on the server, all the endpoints can be invoked using grpcurl.
-	serviceInfoProvider
-}
-
-// BaseFlightServer is the base flight server implementation and must be
-// embedded in any server implementation to ensure forward compatibility
-// with any modifications of the spec without compiler errors.
-type BaseFlightServer struct {
-	flight.UnimplementedFlightServiceServer
-	authHandler ServerAuthHandler
-}
-
-func (s *BaseFlightServer) GetAuthHandler() ServerAuthHandler { return s.authHandler }
-
-func (s *BaseFlightServer) SetAuthHandler(handler ServerAuthHandler) {
-	s.authHandler = handler
-}
-
-func (s *BaseFlightServer) Handshake(stream flight.FlightService_HandshakeServer) error {
-	if s.authHandler == nil {
-		return nil
-	}
-
-	return s.authHandler.Authenticate(&serverAuthConn{stream})
-}
-
-// CustomerServerMiddleware is a helper interface for more easily defining custom
-// grpc middleware without having to expose or understand all the grpc bells and whistles.
-type CustomServerMiddleware interface {
-	// StartCall will be called with the current context of the call, grpc.SetHeader can be used to add outgoing headers
-	// if the returned context is non-nil, then it will be used as the new context being passed through the calls
-	StartCall(ctx context.Context) context.Context
-	// CallCompleted is a callback which is called with the return from the handler
-	// it will be nil if everything was successful or will be the error about to be returned
-	// to grpc
-	CallCompleted(ctx context.Context, err error)
-}
-
-// CreateServerMiddlware constructs a ServerMiddleware object for the passed in custom
-// middleware, generating both the Unary and Stream interceptors from the interface.
-func CreateServerMiddleware(middleware CustomServerMiddleware) ServerMiddleware {
-	return ServerMiddleware{
-		Unary: func(ctx context.Context, req interface{}, _ *grpc.UnaryServerInfo, handler grpc.UnaryHandler) (ret interface{}, err error) {
-			nctx := middleware.StartCall(ctx)
-			if nctx != nil {
-				ctx = nctx
-			}
-
-			ret, err = handler(ctx, req)
-			middleware.CallCompleted(ctx, err)
-			return
-		},
-		Stream: func(srv interface{}, stream grpc.ServerStream, info *grpc.StreamServerInfo, handler grpc.StreamHandler) error {
-			ctx := middleware.StartCall(stream.Context())
-			if ctx != nil {
-				stream = &wrappedStream{ServerStream: stream, ctx: ctx}
-			}
-
-			err := handler(srv, stream)
-			middleware.CallCompleted(stream.Context(), err)
-			return err
-		},
-	}
-}
-
-type ServerMiddleware struct {
-	Stream grpc.StreamServerInterceptor
-	Unary  grpc.UnaryServerInterceptor
-}
-
-type server struct {
-	lis        net.Listener
-	sigChannel <-chan os.Signal
-	done       chan bool
-
-	server *grpc.Server
-}
-
-// NewFlightServer takes any grpc Server options desired, such as TLS certs and so
-// on which will just be passed through to the underlying grpc server.
-//
-// Alternatively, a grpc server can be created normally without this helper as the
-// grpc server generated code is still being exported. This only exists to allow
-// the utility of the helpers
-//
-// Deprecated: prefer to use NewServerWithMiddleware, due to auth handler middleware
-// this function will be problematic if any of the grpc options specify other middleware.
-func NewFlightServer(opt ...grpc.ServerOption) Server {
-	opt = append([]grpc.ServerOption{
-		grpc.ChainStreamInterceptor(serverAuthStreamInterceptor),
-		grpc.ChainUnaryInterceptor(serverAuthUnaryInterceptor),
-	}, opt...)
-
-	return &server{
-		server: grpc.NewServer(opt...),
-	}
-}
-
-// NewServerWithMiddleware takes a slice of middleware which will be used
-// by grpc and chained, the first middleware will be the outer most with the last
-// middleware being the inner most wrapper around the actual call. It also takes
-// any grpc Server options desired, such as TLS certs and so on which will just
-// be passed through to the underlying grpc server.
-//
-// Because of the usage of `ChainStreamInterceptor` and `ChainUnaryInterceptor` do
-// not specify any middleware using the grpc options, use the ServerMiddleware slice
-// instead as the auth middleware will be added for handling the case that a service
-// handler is registered that uses the ServerAuthHandler.
-//
-// Alternatively, a grpc server can be created normally without this helper as the
-// grpc server generated code is still being exported. This only exists to allow
-// the utility of the helpers.
-func NewServerWithMiddleware(middleware []ServerMiddleware, opts ...grpc.ServerOption) Server {
-	unary := make([]grpc.UnaryServerInterceptor, 1, len(middleware)+1)
-	unary[0] = serverAuthUnaryInterceptor
-	stream := make([]grpc.StreamServerInterceptor, 1, len(middleware)+1)
-	stream[0] = serverAuthStreamInterceptor
-
-	if len(middleware) > 0 {
-		for _, m := range middleware {
-			if m.Unary != nil {
-				unary = append(unary, m.Unary)
-			}
-			if m.Stream != nil {
-				stream = append(stream, m.Stream)
-			}
-		}
-	}
-	opts = append(opts, grpc.ChainUnaryInterceptor(unary...), grpc.ChainStreamInterceptor(stream...))
-
-	return &server{server: grpc.NewServer(opts...)}
-}
-
-func (s *server) Init(addr string) (err error) {
-	s.lis, err = net.Listen("tcp", addr)
-	return
-}
-
-func (s *server) InitListener(lis net.Listener) {
-	s.lis = lis
-}
-
-func (s *server) Addr() net.Addr {
-	return s.lis.Addr()
-}
-
-func (s *server) SetShutdownOnSignals(sig ...os.Signal) {
-	c := make(chan os.Signal, 1)
-	signal.Notify(c, sig...)
-	s.sigChannel = c
-}
-
-func (s *server) Serve() error {
-	s.done = make(chan bool)
-	go func() {
-		select {
-		case <-s.sigChannel:
-			s.server.GracefulStop()
-		case <-s.done:
-		}
-	}()
-	err := s.server.Serve(s.lis)
-	close(s.done)
-	return err
-}
-
-func (s *server) RegisterFlightService(svc FlightServer) {
-	flight.RegisterFlightServiceServer(s.server, svc)
-}
-
-func (s *server) Shutdown() {
-	s.server.GracefulStop()
-}
-
-func (s *server) RegisterService(sd *grpc.ServiceDesc, ss interface{}) {
-	s.server.RegisterService(sd, ss)
-}
-
-func (s *server) GetServiceInfo() map[string]grpc.ServiceInfo {
-	return s.server.GetServiceInfo()
-}
diff --git a/go/arrow/flight/server_auth.go b/go/arrow/flight/server_auth.go
deleted file mode 100644
index cc78d85abd7e8..0000000000000
--- a/go/arrow/flight/server_auth.go
+++ /dev/null
@@ -1,245 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight
-
-import (
-	"context"
-	"encoding/base64"
-	"strings"
-
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/grpc/status"
-)
-
-const (
-	grpcAuthHeader    = "auth-token-bin"
-	basicAuthHeader   = "authorization"
-	basicAuthPrefix   = "Basic"
-	bearerTokenPrefix = "Bearer"
-)
-
-// AuthConn wraps the stream from grpc for handshakes to simplify handling
-// handshake request and response from the flight.proto forwarding just the
-// payloads and errors instead of having to deal with the handshake request
-// and response protos directly
-type AuthConn interface {
-	Read() ([]byte, error)
-	Send([]byte) error
-}
-
-type serverAuthConn struct {
-	stream FlightService_HandshakeServer
-}
-
-func (a *serverAuthConn) Read() ([]byte, error) {
-	in, err := a.stream.Recv()
-	if err != nil {
-		return nil, err
-	}
-
-	return in.Payload, nil
-}
-
-func (a *serverAuthConn) Send(b []byte) error {
-	return a.stream.Send(&HandshakeResponse{Payload: b})
-}
-
-// ServerAuthHandler defines an interface for the server to perform the handshake.
-// The token is expected to be sent as part of the context metadata in subsequent
-// requests with a key of "auth-token-bin" which will then call IsValid to validate
-type ServerAuthHandler interface {
-	Authenticate(AuthConn) error
-	IsValid(token string) (interface{}, error)
-}
-
-type authCtxKey struct{}
-
-type wrappedStream struct {
-	grpc.ServerStream
-	ctx context.Context
-}
-
-func (a *wrappedStream) Context() context.Context { return a.ctx }
-
-// AuthFromContext will return back whatever object was returned from `IsValid` for a
-// given request context allowing handlers to retrieve identifying information
-// for the current request for use.
-func AuthFromContext(ctx context.Context) interface{} {
-	return ctx.Value(authCtxKey{})
-}
-
-type serverWithAuthHandler interface {
-	GetAuthHandler() ServerAuthHandler
-}
-
-func serverAuthUnaryInterceptor(ctx context.Context, req interface{}, srv *grpc.UnaryServerInfo, handler grpc.UnaryHandler) (interface{}, error) {
-	var auth ServerAuthHandler
-	if s, ok := srv.Server.(serverWithAuthHandler); ok {
-		auth = s.GetAuthHandler()
-	}
-
-	if auth == nil {
-		return handler(ctx, req)
-	}
-
-	var authTok string
-	md, ok := metadata.FromIncomingContext(ctx)
-	if ok {
-		vals := md.Get(grpcAuthHeader)
-		if len(vals) > 0 {
-			authTok = vals[0]
-		}
-	}
-
-	peerIdentity, err := auth.IsValid(authTok)
-	if err != nil {
-		return nil, status.Errorf(codes.PermissionDenied, "auth-error: %s", err)
-	}
-
-	return handler(context.WithValue(ctx, authCtxKey{}, peerIdentity), req)
-}
-
-func serverAuthStreamInterceptor(srv interface{}, stream grpc.ServerStream, info *grpc.StreamServerInfo, handler grpc.StreamHandler) error {
-	var auth ServerAuthHandler
-	if s, ok := srv.(serverWithAuthHandler); ok {
-		auth = s.GetAuthHandler()
-	}
-
-	if strings.HasSuffix(info.FullMethod, "/Handshake") || auth == nil {
-		return handler(srv, stream)
-	}
-
-	var authTok string
-	md, ok := metadata.FromIncomingContext(stream.Context())
-	if ok {
-		vals := md.Get(grpcAuthHeader)
-		if len(vals) > 0 {
-			authTok = vals[0]
-		}
-	}
-
-	peerIdentity, err := auth.IsValid(authTok)
-	if err != nil {
-		return status.Errorf(codes.Unauthenticated, "auth-error: %s", err)
-	}
-
-	stream = &wrappedStream{ServerStream: stream, ctx: context.WithValue(stream.Context(), authCtxKey{}, peerIdentity)}
-	return handler(srv, stream)
-}
-
-type BasicAuthValidator interface {
-	Validate(username, password string) (string, error)
-	IsValid(bearerToken string) (interface{}, error)
-}
-
-func createServerBearerTokenUnaryInterceptor(validator BasicAuthValidator) grpc.UnaryServerInterceptor {
-	return func(ctx context.Context, req interface{}, _ *grpc.UnaryServerInfo, handler grpc.UnaryHandler) (interface{}, error) {
-		var auth string
-		md, ok := metadata.FromIncomingContext(ctx)
-		if ok {
-			vals := md.Get(basicAuthHeader)
-			if len(vals) > 0 && strings.HasPrefix(vals[0], bearerTokenPrefix) {
-				auth = vals[0][len(bearerTokenPrefix)+1:]
-			}
-		}
-
-		identity, err := validator.IsValid(auth)
-		if err != nil {
-			return nil, err
-		}
-
-		return handler(context.WithValue(ctx, authCtxKey{}, identity), req)
-	}
-}
-
-func createServerBearerTokenStreamInterceptor(validator BasicAuthValidator) grpc.StreamServerInterceptor {
-	return func(srv interface{}, stream grpc.ServerStream, info *grpc.StreamServerInfo, handler grpc.StreamHandler) error {
-		var auth []string
-		md, ok := metadata.FromIncomingContext(stream.Context())
-		if ok {
-			auth = md.Get(basicAuthHeader)
-			if len(auth) > 0 {
-				auth = strings.Split(auth[0], " ")
-			}
-		}
-
-		if len(auth) == 0 {
-			return status.Error(codes.Unauthenticated, "must authenticate first")
-		}
-
-		if strings.HasSuffix(info.FullMethod, "/Handshake") {
-			if auth[0] == basicAuthPrefix {
-				val, err := base64.RawStdEncoding.DecodeString(auth[1])
-				if err != nil {
-					val, err = base64.StdEncoding.DecodeString(auth[1])
-					if err != nil {
-						return status.Errorf(codes.Unauthenticated, "invalid basic auth encoding: %s", err)
-					}
-				}
-
-				creds := strings.SplitN(string(val), ":", 2)
-				token, err := validator.Validate(creds[0], creds[1])
-				if err != nil {
-					return err
-				}
-
-				stream.SetTrailer(metadata.New(map[string]string{basicAuthHeader: strings.Join([]string{bearerTokenPrefix, token}, " ")}))
-				return handler(srv, stream)
-			}
-			return status.Errorf(codes.Unauthenticated, "only Basic Auth implemented")
-		}
-
-		if auth[0] == bearerTokenPrefix {
-			identity, err := validator.IsValid(auth[1])
-			if err != nil {
-				return err
-			}
-			return handler(srv, &wrappedStream{ServerStream: stream, ctx: context.WithValue(stream.Context(), authCtxKey{}, identity)})
-		}
-		return status.Errorf(codes.Unauthenticated, "Only bearer token auth implemented")
-	}
-}
-
-// CreateServerBearerTokenAuthInterceptors returns grpc interceptors for basic auth handling
-// via bearer tokens. validator cannot be nil
-//
-// Deprecated: use CreateServerBasicAuthMiddleware instead
-func CreateServerBearerTokenAuthInterceptors(validator BasicAuthValidator) (grpc.UnaryServerInterceptor, grpc.StreamServerInterceptor) {
-	if validator == nil {
-		panic("validator cannot be nil")
-	}
-
-	return createServerBearerTokenUnaryInterceptor(validator), createServerBearerTokenStreamInterceptor(validator)
-}
-
-// CreateServerBasicAuthMiddleware returns a ServerMiddleware that can be passed to NewServerWithMiddleware
-// in order to automatically add interceptors which will properly enforce auth validation
-// as per the passed in BasicAuthValidator.
-//
-// validator cannot be nil.
-func CreateServerBasicAuthMiddleware(validator BasicAuthValidator) ServerMiddleware {
-	if validator == nil {
-		panic("validator cannot be nil")
-	}
-
-	return ServerMiddleware{
-		Unary:  createServerBearerTokenUnaryInterceptor(validator),
-		Stream: createServerBearerTokenStreamInterceptor(validator),
-	}
-}
diff --git a/go/arrow/flight/server_example_test.go b/go/arrow/flight/server_example_test.go
deleted file mode 100644
index 60e5ec8f4e381..0000000000000
--- a/go/arrow/flight/server_example_test.go
+++ /dev/null
@@ -1,80 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_test
-
-import (
-	"context"
-	"fmt"
-	"net"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/grpc/health"
-	healthgrpc "google.golang.org/grpc/health/grpc_health_v1"
-)
-
-func ExampleRegisterFlightServiceServer() {
-	s := grpc.NewServer()
-	healthSrv := health.NewServer()
-	healthgrpc.RegisterHealthServer(s, healthSrv)
-
-	// add methods to this to override the desired methods
-	// like DoGet, DoPut, etc.
-	server := struct {
-		flight.BaseFlightServer
-	}{}
-
-	flight.RegisterFlightServiceServer(s, &server)
-	healthSrv.SetServingStatus("test", healthgrpc.HealthCheckResponse_SERVING)
-
-	lis, err := net.Listen("tcp", "localhost:0")
-	if err != nil {
-		panic(err)
-	}
-	go s.Serve(lis)
-	defer s.Stop()
-
-	conn, err := grpc.DialContext(context.Background(), lis.Addr().String(),
-		grpc.WithTransportCredentials(insecure.NewCredentials()))
-	if err != nil {
-		panic(err)
-	}
-	defer conn.Close()
-
-	hc := healthgrpc.NewHealthClient(conn)
-	rsp, err := hc.Check(context.Background(), &healthgrpc.HealthCheckRequest{Service: "test"})
-	if err != nil {
-		panic(err)
-	}
-
-	fmt.Println(rsp.Status)
-	fc := flight.NewClientFromConn(conn, nil)
-	if err != nil {
-		panic(err)
-	}
-
-	// we didn't implement GetFlightInfo so we should get an Unimplemented
-	// error, proving it did call into the base flight server. If we didn't
-	// register the service, we'd get an error that says "unknown service arrow.flight.protocol.FlightService"
-	_, err = fc.GetFlightInfo(context.Background(), &flight.FlightDescriptor{})
-	fmt.Println(err)
-
-	// Output:
-	// SERVING
-	// rpc error: code = Unimplemented desc = method GetFlightInfo not implemented
-}
diff --git a/go/arrow/flight/session/cookies.go b/go/arrow/flight/session/cookies.go
deleted file mode 100644
index 85dc5d10941ab..0000000000000
--- a/go/arrow/flight/session/cookies.go
+++ /dev/null
@@ -1,80 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package session
-
-import (
-	"context"
-	"fmt"
-	"net/http"
-
-	"google.golang.org/grpc/metadata"
-)
-
-func GetIncomingCookieByName(ctx context.Context, name string) (http.Cookie, error) {
-	md, ok := metadata.FromIncomingContext(ctx)
-	if !ok {
-		return http.Cookie{}, fmt.Errorf("no metadata found for incoming context")
-	}
-
-	header := make(http.Header, md.Len())
-	for k, v := range md {
-		for _, val := range v {
-			header.Add(k, val)
-		}
-	}
-
-	cookie, err := (&http.Request{Header: header}).Cookie(name)
-	if err != nil {
-		return http.Cookie{}, err
-	}
-
-	if cookie == nil {
-		return http.Cookie{}, fmt.Errorf("failed to get cookie with name: %s", name)
-	}
-
-	return *cookie, nil
-}
-
-func CreateCookieForSession(session ServerSession) (http.Cookie, error) {
-	var key string
-
-	if session == nil {
-		return http.Cookie{}, ErrNoSession
-	}
-
-	switch s := session.(type) {
-	case *statefulServerSession:
-		key = StatefulSessionCookieName
-	case *statelessServerSession:
-		key = StatelessSessionCookieName
-	default:
-		return http.Cookie{}, fmt.Errorf("cannot serialize session of type %T as cookie", s)
-	}
-
-	// Reuse the std http lib functionality for constructing cookies
-	cookie, err := (&http.Request{
-		Header: http.Header{"Cookie": []string{fmt.Sprintf("%s=%s", key, session.Token())}},
-	}).Cookie(key)
-	if err != nil {
-		return http.Cookie{}, err
-	}
-	if cookie == nil {
-		return http.Cookie{}, fmt.Errorf("failed to construct cookie for session: %s", session.Token())
-	}
-
-	return *cookie, nil
-}
diff --git a/go/arrow/flight/session/example_session_test.go b/go/arrow/flight/session/example_session_test.go
deleted file mode 100644
index 5a9e7e83d21e0..0000000000000
--- a/go/arrow/flight/session/example_session_test.go
+++ /dev/null
@@ -1,77 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package session_test
-
-import (
-	"log"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/flight/session"
-	"github.com/google/uuid"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials/insecure"
-)
-
-func Example_defaultMiddleware() {
-	// Setup server with default session middleware
-	middleware := session.NewServerSessionMiddleware(nil)
-	srv := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(middleware),
-	})
-	srv.RegisterFlightService(flightsql.NewFlightServer(&flightsql.BaseServer{}))
-	srv.Init("localhost:0")
-
-	go srv.Serve()
-	defer srv.Shutdown()
-
-	// Client will require cookie middleware in order to handle cookie-based server sessions
-	client, err := flightsql.NewClient(
-		srv.Addr().String(),
-		nil,
-		[]flight.ClientMiddleware{
-			flight.NewClientCookieMiddleware(),
-		},
-		grpc.WithTransportCredentials(insecure.NewCredentials()),
-	)
-	if err != nil {
-		log.Fatal(err)
-	}
-	defer client.Close()
-
-}
-
-func Example_customStatefulMiddleware() {
-	// Generate IDs for new sessions using provided function
-	factory := session.NewSessionFactory(uuid.NewString)
-
-	// Create a SessionStore to persist sessions.
-	// In-memory store is default; you may provide your own implementation.
-	store := session.NewSessionStore()
-
-	// Construct the middleware with the custom manager.
-	manager := session.NewStatefulServerSessionManager(session.WithFactory(factory), session.WithStore(store))
-	middleware := session.NewServerSessionMiddleware(manager)
-	_ = middleware // ... remaining setup is the same as DefaultMiddleware example
-}
-
-func Example_statelessMiddleware() {
-	// Construct the middleware with the stateless manager.
-	manager := session.NewStatelessServerSessionManager()
-	middleware := session.NewServerSessionMiddleware(manager)
-	_ = middleware // ... remaining setup is the same as DefaultMiddleware example
-}
diff --git a/go/arrow/flight/session/session.go b/go/arrow/flight/session/session.go
deleted file mode 100644
index 508f79befc258..0000000000000
--- a/go/arrow/flight/session/session.go
+++ /dev/null
@@ -1,240 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package session provides server middleware and reference implementations for Flight session management.
-//
-// For more details on the Flight Session Specification, see:
-// https://arrow.apache.org/docs/format/FlightSql.html#flight-server-session-management
-//
-// [NewServerSessionMiddleware] manages sessions using cookies, so any client would need its own
-// middleware/support for storing and sending those cookies. The cookies may be stateful or stateless:
-//
-//   - [NewStatefulServerSessionManager] implements stateful cookies.
-//
-//   - [NewStatelessServerSessionManager] implements stateless cookies.
-//
-// See details of either implementation for caveats and recommended usage scenarios.
-package session
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"net/http"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/metadata"
-	"google.golang.org/protobuf/proto"
-)
-
-var ErrNoSession error = errors.New("flight: server session not present")
-
-type sessionMiddlewareKey struct{}
-
-// NewSessionContex returns a copy of the provided context containing the provided ServerSession
-func NewSessionContext(ctx context.Context, session ServerSession) context.Context {
-	return context.WithValue(ctx, sessionMiddlewareKey{}, session)
-}
-
-// GetSessionFromContext retrieves the ServerSession from the provided context if it exists.
-// An error indicates that the session was not found in the context.
-func GetSessionFromContext(ctx context.Context) (ServerSession, error) {
-	session, ok := ctx.Value(sessionMiddlewareKey{}).(ServerSession)
-	if !ok {
-		return nil, ErrNoSession
-	}
-	return session, nil
-}
-
-// ServerSession is a container for named SessionOptionValues
-type ServerSession interface {
-	// An identifier for the session that the server can use to reconstruct
-	// the session state on future requests. It is the responsibility of
-	// each implementation to define the token's semantics.
-	Token() string
-	// Get session option value by name, or nil if it does not exist
-	GetSessionOption(name string) *flight.SessionOptionValue
-	// Get a copy of the session options
-	GetSessionOptions() map[string]*flight.SessionOptionValue
-	// Set session option by name to given value
-	SetSessionOption(name string, value *flight.SessionOptionValue)
-	// Idempotently remove name from this session
-	EraseSessionOption(name string)
-	// Close the session
-	Close() error
-	// Report whether the session has been closed
-	Closed() bool
-}
-
-// ServerSessionManager handles session lifecycle management
-type ServerSessionManager interface {
-	// Create a new, empty ServerSession
-	CreateSession(ctx context.Context) (ServerSession, error)
-	// Get the current ServerSession, if one exists
-	GetSession(ctx context.Context) (ServerSession, error)
-	// Cleanup any resources associated with the current ServerSession
-	CloseSession(session ServerSession) error
-}
-
-// Implementation of common session behavior. Intended to be extended
-// by specific session implementations.
-type serverSession struct {
-	closed bool
-
-	options map[string]*flight.SessionOptionValue
-	mu      sync.RWMutex
-}
-
-func (session *serverSession) GetSessionOption(name string) *flight.SessionOptionValue {
-	session.mu.RLock()
-	defer session.mu.RUnlock()
-	value, found := session.options[name]
-	if !found {
-		return nil
-	}
-
-	return value
-}
-
-func (session *serverSession) GetSessionOptions() map[string]*flight.SessionOptionValue {
-	options := make(map[string]*flight.SessionOptionValue, len(session.options))
-
-	session.mu.RLock()
-	defer session.mu.RUnlock()
-	for k, v := range session.options {
-		options[k] = proto.Clone(v).(*flight.SessionOptionValue)
-	}
-
-	return options
-}
-
-func (session *serverSession) SetSessionOption(name string, value *flight.SessionOptionValue) {
-	if value.GetOptionValue() == nil {
-		session.EraseSessionOption(name)
-		return
-	}
-
-	session.mu.Lock()
-	defer session.mu.Unlock()
-	session.options[name] = value
-}
-
-func (session *serverSession) EraseSessionOption(name string) {
-	session.mu.Lock()
-	defer session.mu.Unlock()
-	delete(session.options, name)
-}
-
-func (session *serverSession) Close() error {
-	session.options = nil
-	session.closed = true
-	return nil
-}
-
-func (session *serverSession) Closed() bool {
-	return session.closed
-}
-
-// NewServerSessionMiddleware creates new instance of CustomServerMiddleware implementing server session persistence.
-//
-// The provided manager can be used to customize session implementation/behavior.
-// If no manager is provided, a stateful in-memory, goroutine-safe implementation is used.
-func NewServerSessionMiddleware(manager ServerSessionManager) *serverSessionMiddleware {
-	// Default manager
-	if manager == nil {
-		manager = NewStatefulServerSessionManager()
-	}
-	return &serverSessionMiddleware{manager: manager}
-}
-
-type serverSessionMiddleware struct {
-	manager ServerSessionManager
-}
-
-// Get the existing session if one is found, otherwise create one. The resulting context will contain
-// the session at a well-known key for any internal RPC methods to read/update.
-func (middleware *serverSessionMiddleware) StartCall(ctx context.Context) context.Context {
-	session, err := middleware.manager.GetSession(ctx)
-	if err == nil {
-		return NewSessionContext(ctx, session)
-	}
-
-	if err != ErrNoSession {
-		panic(err)
-	}
-
-	session, err = middleware.manager.CreateSession(ctx)
-	if err != nil {
-		panic(err)
-	}
-
-	// TODO(joellubi): Remove this once Java clients support receiving cookies in gRPC trailer.
-	// Currently, both C++ and Go client cookie middlewares merge the header and trailer when setting cookies.
-	// Java middleware checks the metadata in the header, but only reads the trailer when there is an error.
-	// It is far simpler to only set cookies in the trailer, especially for streaming RPC.
-	sessionCookie, err := CreateCookieForSession(session)
-	if err != nil {
-		panic(err)
-	}
-	grpc.SetHeader(ctx, metadata.Pairs("Set-Cookie", sessionCookie.String()))
-
-	return NewSessionContext(ctx, session)
-}
-
-// Determine if the session state has changed. If it has then we need to inform the client
-// with a new cookie. The cookie is sent in the gRPC trailer because we would like to
-// determine its contents based on the final state the session at the end of the RPC call.
-func (middleware *serverSessionMiddleware) CallCompleted(ctx context.Context, _ error) {
-	session, err := middleware.manager.GetSession(ctx)
-	if err != nil {
-		panic(fmt.Sprintf("failed to get server session: %s", err))
-	}
-
-	sessionCookie, err := CreateCookieForSession(session)
-	if err != nil {
-		panic(err)
-	}
-
-	clientCookie, err := GetIncomingCookieByName(ctx, sessionCookie.Name)
-	if err == http.ErrNoCookie {
-		grpc.SetTrailer(ctx, metadata.Pairs("Set-Cookie", sessionCookie.String()))
-		return
-	}
-
-	if err != nil {
-		panic(err)
-	}
-
-	if session.Closed() {
-		// Invalidate the client's cookie
-		clientCookie.MaxAge = -1
-		grpc.SetTrailer(ctx, metadata.Pairs("Set-Cookie", clientCookie.String()))
-
-		if err = middleware.manager.CloseSession(session); err != nil {
-			panic(fmt.Sprintf("failed to close server session: %s", err))
-		}
-		return
-	}
-
-	if sessionCookie.String() != clientCookie.String() {
-		grpc.SetTrailer(ctx, metadata.Pairs("Set-Cookie", sessionCookie.String()))
-	}
-
-	// If the resulting cookie is exactly the same as the
-	// client's cookie, then there's no need to send it at all.
-}
diff --git a/go/arrow/flight/session/stateful_session.go b/go/arrow/flight/session/stateful_session.go
deleted file mode 100644
index 0fb1c8f729756..0000000000000
--- a/go/arrow/flight/session/stateful_session.go
+++ /dev/null
@@ -1,197 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package session
-
-import (
-	"context"
-	"fmt"
-	"net/http"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/google/uuid"
-)
-
-const StatefulSessionCookieName string = "arrow_flight_session_id"
-
-// SessionStore handles persistence of ServerSession instances for
-// stateful session implementations.
-type SessionStore interface {
-	// Get the session with the provided ID
-	Get(id string) (ServerSession, error)
-	// Persist the provided session
-	Put(session ServerSession) error
-	// Remove the session with the provided ID
-	Remove(id string) error
-}
-
-// SessionFactory creates ServerSession instances
-type SessionFactory interface {
-	// Create a new, empty ServerSession
-	CreateSession() (ServerSession, error)
-}
-
-// NewSessionStore creates a simple in-memory, goroutine-safe SessionStore
-func NewSessionStore() *sessionStore {
-	return &sessionStore{sessions: make(map[string]ServerSession)}
-}
-
-type sessionStore struct {
-	sessions map[string]ServerSession
-	mu       sync.RWMutex
-}
-
-func (store *sessionStore) Get(id string) (ServerSession, error) {
-	store.mu.RLock()
-	defer store.mu.RUnlock()
-	session, found := store.sessions[id]
-	if !found {
-		return nil, fmt.Errorf("session with ID %s not found", id)
-	}
-	return session, nil
-}
-
-func (store *sessionStore) Put(session ServerSession) error {
-	store.mu.Lock()
-	defer store.mu.Unlock()
-	store.sessions[session.Token()] = session
-	return nil
-}
-
-func (store *sessionStore) Remove(id string) error {
-	store.mu.Lock()
-	defer store.mu.Unlock()
-	delete(store.sessions, id)
-
-	return nil
-}
-
-// NewSessionFactory creates a new SessionFactory, producing in-memory, goroutine-safe ServerSessions.
-// The provided function MUST produce collision-free identifiers.
-func NewSessionFactory(generateID func() string) *sessionFactory {
-	return &sessionFactory{generateID: generateID}
-}
-
-type sessionFactory struct {
-	generateID func() string
-}
-
-func (factory *sessionFactory) CreateSession() (ServerSession, error) {
-	return &statefulServerSession{
-		id:            factory.generateID(),
-		serverSession: serverSession{options: make(map[string]*flight.SessionOptionValue)},
-	}, nil
-}
-
-type statefulServerSession struct {
-	serverSession
-	id string
-}
-
-func (session *statefulServerSession) Token() string {
-	return session.id
-}
-
-type StatefulSessionManagerOption func(*statefulServerSessionManager)
-
-// WithFactory specifies the SessionFactory to use for session creation
-func WithFactory(factory SessionFactory) StatefulSessionManagerOption {
-	return func(manager *statefulServerSessionManager) {
-		manager.factory = factory
-	}
-}
-
-// WithStore specifies the SessionStore to use for session persistence
-func WithStore(store SessionStore) StatefulSessionManagerOption {
-	return func(manager *statefulServerSessionManager) {
-		manager.store = store
-	}
-}
-
-// NewStatefulServerSessionManager creates a new ServerSessionManager.
-//
-//   - If unset via options, the default factory produces sessions with UUIDs.
-//   - If unset via options, sessions are stored in-memory.
-func NewStatefulServerSessionManager(opts ...StatefulSessionManagerOption) *statefulServerSessionManager {
-	manager := &statefulServerSessionManager{}
-	for _, opt := range opts {
-		opt(manager)
-	}
-
-	// Set defaults if not specified above
-	if manager.factory == nil {
-		manager.factory = NewSessionFactory(uuid.NewString)
-	}
-
-	if manager.store == nil {
-		manager.store = NewSessionStore()
-	}
-
-	return manager
-}
-
-type statefulServerSessionManager struct {
-	factory SessionFactory
-	store   SessionStore
-}
-
-func (manager *statefulServerSessionManager) CreateSession(ctx context.Context) (ServerSession, error) {
-	session, err := manager.factory.CreateSession()
-	if err != nil {
-		return nil, fmt.Errorf("failed to create new session: %w", err)
-	}
-
-	if err = manager.store.Put(session); err != nil {
-		return nil, fmt.Errorf("failed to persist new session: %w", err)
-	}
-
-	return session, nil
-}
-
-func (manager *statefulServerSessionManager) GetSession(ctx context.Context) (ServerSession, error) {
-	session, err := GetSessionFromContext(ctx)
-	if err == nil {
-		return session, nil
-	}
-
-	sessionID, err := getSessionIDFromIncomingCookie(ctx)
-	if err == nil {
-		return manager.store.Get(sessionID)
-	}
-	if err == http.ErrNoCookie {
-		return nil, ErrNoSession
-	}
-
-	return nil, fmt.Errorf("failed to get current session from cookie: %w", err)
-}
-
-func (manager *statefulServerSessionManager) CloseSession(session ServerSession) error {
-	if err := manager.store.Remove(session.Token()); err != nil {
-		return fmt.Errorf("failed to remove server session from store: %w", err)
-	}
-	return nil
-}
-
-// Check the provided context for cookies in the incoming gRPC metadata.
-func getSessionIDFromIncomingCookie(ctx context.Context) (string, error) {
-	cookie, err := GetIncomingCookieByName(ctx, StatefulSessionCookieName)
-	if err != nil {
-		return "", err
-	}
-
-	return cookie.Value, nil
-}
diff --git a/go/arrow/flight/session/stateless_session.go b/go/arrow/flight/session/stateless_session.go
deleted file mode 100644
index d792a91f84ece..0000000000000
--- a/go/arrow/flight/session/stateless_session.go
+++ /dev/null
@@ -1,122 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package session
-
-import (
-	"context"
-	"encoding/base64"
-	"fmt"
-	"net/http"
-
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"google.golang.org/protobuf/proto"
-)
-
-const StatelessSessionCookieName string = "arrow_flight_session"
-
-// NewStatelessServerSessionManager creates a new StatelessServerSessionManager.
-//
-// The tokens it produces contain the entire session state, so sessions can
-// be maintained across multiple backends.
-// Token contents are considered opaque but are NOT encrypted.
-func NewStatelessServerSessionManager() *statelessServerSessionManager {
-	return &statelessServerSessionManager{}
-}
-
-type statelessServerSessionManager struct{}
-
-func (manager *statelessServerSessionManager) CreateSession(ctx context.Context) (ServerSession, error) {
-	return NewStatelessServerSession(nil), nil
-}
-
-func (manager *statelessServerSessionManager) GetSession(ctx context.Context) (ServerSession, error) {
-	session, err := GetSessionFromContext(ctx)
-	if err == nil {
-		return session, nil
-	}
-
-	session, err = getSessionFromIncomingCookie(ctx)
-	if err == nil {
-		return session, err
-	}
-	if err == http.ErrNoCookie {
-		return nil, ErrNoSession
-	}
-
-	return nil, fmt.Errorf("failed to get current session from cookie: %w", err)
-}
-
-func (manager *statelessServerSessionManager) CloseSession(session ServerSession) error {
-	return nil
-}
-
-// NewStatelessServerSession creates a new instance of a server session that can serialize its entire state.
-// A map is provided containing the initial state. If it is nil, a new empty state will be created.
-func NewStatelessServerSession(options map[string]*flight.SessionOptionValue) *statelessServerSession {
-	if options == nil {
-		options = make(map[string]*flight.SessionOptionValue)
-	}
-
-	return &statelessServerSession{
-		serverSession: serverSession{options: options},
-	}
-}
-
-type statelessServerSession struct {
-	serverSession
-}
-
-// First encode session contents using protobuf binary marshaller.
-// Then base64 encode the resulting bytes for client compatibility.
-func (session *statelessServerSession) Token() string {
-	session.mu.RLock()
-	defer session.mu.RUnlock()
-
-	payload := flight.GetSessionOptionsResult{SessionOptions: session.options}
-	b, err := proto.Marshal(&payload)
-	if err != nil {
-		panic(fmt.Sprintf("failed to marshal stateless token: %s", err))
-	}
-
-	return base64.StdEncoding.EncodeToString(b)
-}
-
-// Reconstruct the session from its fully encoded token representation
-func decodeStatelessToken(token string) (*statelessServerSession, error) {
-	decoded, err := base64.StdEncoding.DecodeString(token)
-	if err != nil {
-		return nil, err
-	}
-
-	var parsed flight.GetSessionOptionsResult
-	if err := proto.Unmarshal(decoded, &parsed); err != nil {
-		return nil, err
-	}
-
-	return NewStatelessServerSession(parsed.SessionOptions), nil
-}
-
-// Check the provided context for a cookie in the incoming gRPC metadata containing the
-// stateless session token. Decode the token payload to reconstruct the session.
-func getSessionFromIncomingCookie(ctx context.Context) (*statelessServerSession, error) {
-	cookie, err := GetIncomingCookieByName(ctx, StatelessSessionCookieName)
-	if err != nil {
-		return nil, err
-	}
-
-	return decodeStatelessToken(cookie.Value)
-}
diff --git a/go/arrow/float16/float16.go b/go/arrow/float16/float16.go
deleted file mode 100644
index f61db40ef498c..0000000000000
--- a/go/arrow/float16/float16.go
+++ /dev/null
@@ -1,203 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package float16
-
-import (
-	"encoding/binary"
-	"math"
-	"strconv"
-)
-
-// Num represents a half-precision floating point value (float16)
-// stored on 16 bits.
-//
-// See https://en.wikipedia.org/wiki/Half-precision_floating-point_format for more informations.
-type Num struct {
-	bits uint16
-}
-
-var (
-	MaxNum = Num{bits: 0b0111101111111111}
-	MinNum = MaxNum.Negate()
-)
-
-// New creates a new half-precision floating point value from the provided
-// float32 value.
-func New(f float32) Num {
-	b := math.Float32bits(f)
-	sn := uint16((b >> 31) & 0x1)
-	exp := (b >> 23) & 0xff
-	res := int16(exp) - 127 + 15
-	fc := uint16(b>>13) & 0x3ff
-	switch {
-	case exp == 0:
-		res = 0
-	case exp == 0xff:
-		res = 0x1f
-	case res > 0x1e:
-		res = 0x1f
-		fc = 0
-	case res < 0x01:
-		res = 0
-		fc = 0
-	}
-	return Num{bits: (sn << 15) | uint16(res<<10) | fc}
-}
-
-func (f Num) Float32() float32 {
-	sn := uint32((f.bits >> 15) & 0x1)
-	exp := (f.bits >> 10) & 0x1f
-	res := uint32(exp) + 127 - 15
-	fc := uint32(f.bits & 0x3ff)
-	switch {
-	case exp == 0:
-		res = 0
-	case exp == 0x1f:
-		res = 0xff
-	}
-	return math.Float32frombits((sn << 31) | (res << 23) | (fc << 13))
-}
-
-func (n Num) Negate() Num {
-	return Num{bits: n.bits ^ 0x8000}
-}
-
-func (n Num) Add(rhs Num) Num {
-	return New(n.Float32() + rhs.Float32())
-}
-
-func (n Num) Sub(rhs Num) Num {
-	return New(n.Float32() - rhs.Float32())
-}
-
-func (n Num) Mul(rhs Num) Num {
-	return New(n.Float32() * rhs.Float32())
-}
-
-func (n Num) Div(rhs Num) Num {
-	return New(n.Float32() / rhs.Float32())
-}
-
-// Equal returns true if the value represented by n is == other
-func (n Num) Equal(other Num) bool {
-	return n.Float32() == other.Float32()
-}
-
-// Greater returns true if the value represented by n is > other
-func (n Num) Greater(other Num) bool {
-	return n.Float32() > other.Float32()
-}
-
-// GreaterEqual returns true if the value represented by n is >= other
-func (n Num) GreaterEqual(other Num) bool {
-	return n.Float32() >= other.Float32()
-}
-
-// Less returns true if the value represented by n is < other
-func (n Num) Less(other Num) bool {
-	return n.Float32() < other.Float32()
-}
-
-// LessEqual returns true if the value represented by n is <= other
-func (n Num) LessEqual(other Num) bool {
-	return n.Float32() <= other.Float32()
-}
-
-// Max returns the largest Decimal128 that was passed in the arguments
-func Max(first Num, rest ...Num) Num {
-	answer := first
-	for _, number := range rest {
-		if number.Greater(answer) {
-			answer = number
-		}
-	}
-	return answer
-}
-
-// Min returns the smallest Decimal128 that was passed in the arguments
-func Min(first Num, rest ...Num) Num {
-	answer := first
-	for _, number := range rest {
-		if number.Less(answer) {
-			answer = number
-		}
-	}
-	return answer
-}
-
-// Cmp compares the numbers represented by n and other and returns:
-//
-//	+1 if n > other
-//	 0 if n == other
-//	-1 if n < other
-func (n Num) Cmp(other Num) int {
-	switch {
-	case n.Greater(other):
-		return 1
-	case n.Less(other):
-		return -1
-	}
-	return 0
-}
-
-func (n Num) Abs() Num {
-	switch n.Sign() {
-	case -1:
-		return n.Negate()
-	}
-	return n
-}
-
-func (n Num) Sign() int {
-	if n.IsZero() {
-		return 0
-	} else if n.Signbit() {
-		return -1
-	}
-	return 1
-}
-
-func (n Num) Signbit() bool { return (n.bits & 0x8000) != 0 }
-
-func (n Num) IsNaN() bool { return (n.bits & 0x7fff) > 0x7c00 }
-
-func (n Num) IsInf() bool { return (n.bits & 0x7c00) == 0x7c00 }
-
-func (n Num) IsZero() bool { return (n.bits & 0x7fff) == 0 }
-
-func (f Num) Uint16() uint16 { return f.bits }
-func (f Num) String() string { return strconv.FormatFloat(float64(f.Float32()), 'g', -1, 32) }
-
-func Inf() Num { return Num{bits: 0x7c00} }
-
-func NaN() Num { return Num{bits: 0x7fff} }
-
-func FromBits(src uint16) Num { return Num{bits: src} }
-
-func FromLEBytes(src []byte) Num {
-	return Num{bits: binary.LittleEndian.Uint16(src)}
-}
-
-func (f Num) PutLEBytes(dst []byte) {
-	binary.LittleEndian.PutUint16(dst, f.bits)
-}
-
-func (f Num) ToLEBytes() []byte {
-	dst := make([]byte, 2)
-	f.PutLEBytes(dst)
-	return dst
-}
diff --git a/go/arrow/float16/float16_test.go b/go/arrow/float16/float16_test.go
deleted file mode 100644
index cfde440c5f9e4..0000000000000
--- a/go/arrow/float16/float16_test.go
+++ /dev/null
@@ -1,293 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package float16
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFloat16(t *testing.T) {
-	cases := map[Num]float32{
-		{bits: 0x3c00}: 1,
-		{bits: 0x4000}: 2,
-		{bits: 0xc000}: -2,
-		{bits: 0x0000}: 0,
-		{bits: 0x5b8f}: 241.875,
-		{bits: 0xdb8f}: -241.875,
-		{bits: 0x48c8}: 9.5625,
-		{bits: 0xc8c8}: -9.5625,
-	}
-	for k, v := range cases {
-		f := k.Float32()
-		assert.Equal(t, v, f, "float32 values should be the same")
-		i := New(v)
-		assert.Equal(t, k.bits, i.bits, "float16 values should be the same")
-		assert.Equal(t, k.Uint16(), i.Uint16(), "float16 values should be the same")
-		assert.Equal(t, k.String(), fmt.Sprintf("%v", v), "string representation differ")
-	}
-}
-
-func TestAdd(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want Num
-	}{
-		{Num{bits: 0x0000}, Num{bits: 0x0000}, Num{bits: 0x0000}}, // 0 + 0 = 0
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, Num{bits: 0x4200}}, // 1 + 2 = 3
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, Num{bits: 0x42AC}}, // 3.141 + 0.196 = 3.336
-	} {
-		t.Run("add", func(t *testing.T) {
-			n := tc.n.Add(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestSub(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want Num
-	}{
-		{Num{bits: 0x0000}, Num{bits: 0x0000}, Num{bits: 0x0000}}, // 0 - 0 = 0
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, Num{bits: 0xBC00}}, // 1 - 2 = -1
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, Num{bits: 0x41E3}}, // 3.141 - 0.196 = 2.944
-	} {
-		t.Run("sub", func(t *testing.T) {
-			n := tc.n.Sub(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMul(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want Num
-	}{
-		{Num{bits: 0x0000}, Num{bits: 0x0000}, Num{bits: 0x0000}}, // 0 * 0 = 0
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, Num{bits: 0x4000}}, // 1 * 2 = 2
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, Num{bits: 0x38EC}}, // 3.141 * 0.196 = 0.6153
-	} {
-		t.Run("mul", func(t *testing.T) {
-			n := tc.n.Mul(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestDiv(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want Num
-	}{
-		{Num{bits: 0x0000}, Num{bits: 0x3c00}, Num{bits: 0x0000}}, // 0 / 1 = 0
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, Num{bits: 0x3800}}, // 1 / 2 = 0.5
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, Num{bits: 0x4C01}}, // 3.141 * 0.196 = 16.02
-	} {
-		t.Run("div", func(t *testing.T) {
-			n := tc.n.Div(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestGreater(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want bool
-	}{
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, false}, // 1 > 2 = false
-		{Num{bits: 0x4900}, Num{bits: 0x4900}, false}, // 10 == 10 = false
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, true},  // 3.141 > 0.196 = true
-	} {
-		t.Run("greater", func(t *testing.T) {
-			n := tc.n.Greater(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestLess(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want bool
-	}{
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, true},  // 1 < 2 = true
-		{Num{bits: 0x4900}, Num{bits: 0x4900}, false}, // 10 == 10 = false
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, false}, // 3.141 < 0.196 = false
-	} {
-		t.Run("less", func(t *testing.T) {
-			n := tc.n.Less(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestCmp(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  Num
-		want int
-	}{
-		{Num{bits: 0x3c00}, Num{bits: 0x4000}, -1}, // cmp(1, 2) = -1
-		{Num{bits: 0x4900}, Num{bits: 0x4900}, 0},  // cmp(10, 10) = 0
-		{Num{bits: 0x4248}, Num{bits: 0x3245}, 1},  // cmp(3.141, 0.196) = 1
-	} {
-		t.Run("cmp", func(t *testing.T) {
-			n := tc.n.Cmp(tc.rhs)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMax(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  []Num
-		want Num
-	}{
-		{Num{bits: 0x3c00}, []Num{{bits: 0x4000}, {bits: 0x4580}, {bits: 0x3C00}, {bits: 0x4247}}, Num{bits: 0x4580}}, // max(2, 5.5, 1, 3.14) = 5.5
-		{Num{bits: 0x4248}, []Num{{bits: 0xC000}, {bits: 0xC580}, {bits: 0x3C00}, {bits: 0x4247}}, Num{bits: 0x4248}}, // max(-2, -5.5, 1, 3.14) = 3.14
-	} {
-		t.Run("max", func(t *testing.T) {
-			n := Max(tc.n, tc.rhs...)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestMin(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		rhs  []Num
-		want Num
-	}{
-		{Num{bits: 0x3c00}, []Num{{bits: 0x4000}, {bits: 0x4580}, {bits: 0x3C00}, {bits: 0x4247}}, Num{bits: 0x3C00}}, // min(2, 5.5, 1, 3.14) = 1
-		{Num{bits: 0x4248}, []Num{{bits: 0x4000}, {bits: 0xC580}, {bits: 0xBC00}, {bits: 0x4247}}, Num{bits: 0xC580}}, // min(2, -5.5, -1, 3.14) = -5.5
-	} {
-		t.Run("min", func(t *testing.T) {
-			n := Min(tc.n, tc.rhs...)
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestAbs(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		want Num
-	}{
-		{Num{bits: 0x4580}, Num{bits: 0x4580}}, // 5.5
-		{Num{bits: 0x0000}, Num{bits: 0x0000}}, // 0
-		{Num{bits: 0xC580}, Num{bits: 0x4580}}, // -5.5
-	} {
-		t.Run("abs", func(t *testing.T) {
-			n := tc.n.Abs()
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestSign(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		want int
-	}{
-		{Num{bits: 0x4580}, 1},  // 5.5
-		{Num{bits: 0x0000}, 0},  // 0
-		{Num{bits: 0x8000}, 0},  // -0
-		{Num{bits: 0xC580}, -1}, // -5.5
-	} {
-		t.Run("sign", func(t *testing.T) {
-			n := tc.n.Sign()
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestSignbit(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		want bool
-	}{
-		{Num{bits: 0x4580}, false}, // 5.5
-		{Num{bits: 0x0000}, false}, // 0
-		{Num{bits: 0x8000}, true},  // -0
-		{Num{bits: 0xC580}, true},  // -5.5
-	} {
-		t.Run("signbit", func(t *testing.T) {
-			n := tc.n.Signbit()
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
-
-func TestIsNaN(t *testing.T) {
-	for _, tc := range []struct {
-		n    Num
-		want bool
-	}{
-		{NaN(), true},
-		{NaN().Negate(), true},
-		{Inf(), false},
-		{Inf().Negate(), false},
-		{Num{bits: 0x7c01}, true}, // nan
-		{Num{bits: 0xfc01}, true}, // -nan
-		{Num{bits: 0x7e00}, true}, // nan
-		{Num{bits: 0xfe00}, true}, // -nan
-	} {
-		t.Run("isnan", func(t *testing.T) {
-			n := tc.n.IsNaN()
-			if got, want := n, tc.want; got != want {
-				t.Fatalf("invalid value. got=%v, want=%v", got, want)
-			}
-		})
-	}
-}
diff --git a/go/arrow/gen-flatbuffers.go b/go/arrow/gen-flatbuffers.go
deleted file mode 100644
index 720016e0bf168..0000000000000
--- a/go/arrow/gen-flatbuffers.go
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build ignore
-// +build ignore
-
-package main
-
-import (
-	"bytes"
-	"io/ioutil"
-	"log"
-	"os"
-	"os/exec"
-	"path/filepath"
-)
-
-func main() {
-	dir, err := ioutil.TempDir("", "go-arrow-")
-	if err != nil {
-		log.Fatalf("could not create top-level temporary directory: %v", err)
-	}
-	defer os.RemoveAll(dir)
-
-	genFormat(dir)
-}
-
-func genFormat(dir string) {
-	args := []string{"--go", "-o", filepath.Join(dir, "format")}
-	fnames, err := filepath.Glob("../../format/*.fbs")
-	if err != nil || len(fnames) == 0 {
-		log.Fatalf("could not retrieve list of format FlatBuffers files: files=%d err=%v",
-			len(fnames), err,
-		)
-	}
-	args = append(args, fnames...)
-
-	gen := exec.Command("flatc", args...)
-	gen.Stdout = os.Stdout
-	gen.Stderr = os.Stderr
-
-	err = gen.Run()
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	err = os.MkdirAll("./internal/flatbuf", 0755)
-	if err != nil {
-		log.Fatalf("could not create ./internal/flatbuf directory: %v", err)
-	}
-
-	base := filepath.Join(dir, "format", "org", "apache", "arrow", "flatbuf")
-	fnames, err = filepath.Glob(filepath.Join(base, "*.go"))
-	if err != nil {
-		log.Fatalf("could not glob %v/*.go: %v", base, err)
-	}
-
-	for _, fname := range fnames {
-		dst := filepath.Join(".", "internal", "flatbuf", filepath.Base(fname))
-		process(dst, fname)
-	}
-}
-
-func process(dst, fname string) {
-	raw, err := ioutil.ReadFile(fname)
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	f, err := os.Create(dst)
-	if err != nil {
-		log.Fatal(err)
-	}
-	defer f.Close()
-
-	if !bytes.HasPrefix(raw, []byte(hdr)) {
-		_, err = f.Write([]byte(hdr))
-		if err != nil {
-			log.Fatal(err)
-		}
-	}
-
-	_, err = f.Write(raw)
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	err = f.Close()
-	if err != nil {
-		log.Fatal(err)
-	}
-}
-
-const hdr = `// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-`
diff --git a/go/arrow/internal/arrdata/arrdata.go b/go/arrow/internal/arrdata/arrdata.go
deleted file mode 100644
index 5111f2dbc4da6..0000000000000
--- a/go/arrow/internal/arrdata/arrdata.go
+++ /dev/null
@@ -1,1835 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package arrdata exports arrays and records data ready to be used for tests.
-package arrdata
-
-import (
-	"fmt"
-	"sort"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/types"
-)
-
-var (
-	Records     = make(map[string][]arrow.Record)
-	RecordNames []string
-)
-
-func init() {
-	Records["nulls"] = makeNullRecords()
-	Records["primitives"] = makePrimitiveRecords()
-	Records["structs"] = makeStructsRecords()
-	Records["lists"] = makeListsRecords()
-	Records["list_views"] = makeListViewsRecords()
-	Records["strings"] = makeStringsRecords()
-	Records["fixed_size_lists"] = makeFixedSizeListsRecords()
-	Records["fixed_width_types"] = makeFixedWidthTypesRecords()
-	Records["fixed_size_binaries"] = makeFixedSizeBinariesRecords()
-	Records["intervals"] = makeIntervalsRecords()
-	Records["durations"] = makeDurationsRecords()
-	Records["decimal128"] = makeDecimal128sRecords()
-	Records["decimal256"] = makeDecimal256sRecords()
-	Records["maps"] = makeMapsRecords()
-	Records["extension"] = makeExtensionRecords()
-	Records["union"] = makeUnionRecords()
-	Records["run_end_encoded"] = makeRunEndEncodedRecords()
-	Records["view_types"] = makeStringViewRecords()
-
-	for k := range Records {
-		RecordNames = append(RecordNames, k)
-	}
-	sort.Strings(RecordNames)
-}
-
-func makeNullRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	meta := arrow.NewMetadata(
-		[]string{"k1", "k2", "k3"},
-		[]string{"v1", "v2", "v3"},
-	)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "nulls", Type: arrow.Null, Nullable: true},
-		}, &meta,
-	)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, []nullT{null, null, null, null, null}, mask),
-		},
-		{
-			arrayOf(mem, []nullT{null, null, null, null, null}, mask),
-		},
-		{
-			arrayOf(mem, []nullT{null, null, null, null, null}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makePrimitiveRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	meta := arrow.NewMetadata(
-		[]string{"k1", "k2", "k3"},
-		[]string{"v1", "v2", "v3"},
-	)
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "bools", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-			{Name: "int8s", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
-			{Name: "int16s", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
-			{Name: "int32s", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-			{Name: "int64s", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-			{Name: "uint8s", Type: arrow.PrimitiveTypes.Uint8, Nullable: true},
-			{Name: "uint16s", Type: arrow.PrimitiveTypes.Uint16, Nullable: true},
-			{Name: "uint32s", Type: arrow.PrimitiveTypes.Uint32, Nullable: true},
-			{Name: "uint64s", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-			{Name: "float32s", Type: arrow.PrimitiveTypes.Float32, Nullable: true},
-			{Name: "float64s", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		}, &meta,
-	)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, []bool{true, false, true, false, true}, mask),
-			arrayOf(mem, []int8{-1, -2, -3, -4, -5}, mask),
-			arrayOf(mem, []int16{-1, -2, -3, -4, -5}, mask),
-			arrayOf(mem, []int32{-1, -2, -3, -4, -5}, mask),
-			arrayOf(mem, []int64{-1, -2, -3, -4, -5}, mask),
-			arrayOf(mem, []uint8{+1, +2, +3, +4, +5}, mask),
-			arrayOf(mem, []uint16{+1, +2, +3, +4, +5}, mask),
-			arrayOf(mem, []uint32{+1, +2, +3, +4, +5}, mask),
-			arrayOf(mem, []uint64{+1, +2, +3, +4, +5}, mask),
-			arrayOf(mem, []float32{+1, +2, +3, +4, +5}, mask),
-			arrayOf(mem, []float64{+1, +2, +3, +4, +5}, mask),
-		},
-		{
-			arrayOf(mem, []bool{true, false, true, false, true}, mask),
-			arrayOf(mem, []int8{-11, -12, -13, -14, -15}, mask),
-			arrayOf(mem, []int16{-11, -12, -13, -14, -15}, mask),
-			arrayOf(mem, []int32{-11, -12, -13, -14, -15}, mask),
-			arrayOf(mem, []int64{-11, -12, -13, -14, -15}, mask),
-			arrayOf(mem, []uint8{+11, +12, +13, +14, +15}, mask),
-			arrayOf(mem, []uint16{+11, +12, +13, +14, +15}, mask),
-			arrayOf(mem, []uint32{+11, +12, +13, +14, +15}, mask),
-			arrayOf(mem, []uint64{+11, +12, +13, +14, +15}, mask),
-			arrayOf(mem, []float32{+11, +12, +13, +14, +15}, mask),
-			arrayOf(mem, []float64{+11, +12, +13, +14, +15}, mask),
-		},
-		{
-			arrayOf(mem, []bool{true, false, true, false, true}, mask),
-			arrayOf(mem, []int8{-21, -22, -23, -24, -25}, mask),
-			arrayOf(mem, []int16{-21, -22, -23, -24, -25}, mask),
-			arrayOf(mem, []int32{-21, -22, -23, -24, -25}, mask),
-			arrayOf(mem, []int64{-21, -22, -23, -24, -25}, mask),
-			arrayOf(mem, []uint8{+21, +22, +23, +24, +25}, mask),
-			arrayOf(mem, []uint16{+21, +22, +23, +24, +25}, mask),
-			arrayOf(mem, []uint32{+21, +22, +23, +24, +25}, mask),
-			arrayOf(mem, []uint64{+21, +22, +23, +24, +25}, mask),
-			arrayOf(mem, []float32{+21, +22, +23, +24, +25}, mask),
-			arrayOf(mem, []float64{+21, +22, +23, +24, +25}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeStructsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	fields := []arrow.Field{
-		{Name: "f1", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "f2", Type: arrow.BinaryTypes.String},
-	}
-	dtype := arrow.StructOf(fields...)
-	schema := arrow.NewSchema([]arrow.Field{{Name: "struct_nullable", Type: dtype, Nullable: true}}, nil)
-
-	mask := []bool{true, false, false, true, true, true, false, true}
-	chunks := [][]arrow.Array{
-		{
-			structOf(mem, dtype, [][]arrow.Array{
-				{
-					arrayOf(mem, []int32{-1, -2, -3, -4, -5}, mask[:5]),
-					arrayOf(mem, []string{"111", "222", "333", "444", "555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{-11, -12, -13, -14, -15}, mask[:5]),
-					arrayOf(mem, []string{"1111", "1222", "1333", "1444", "1555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{-21, -22, -23, -24, -25}, mask[:5]),
-					arrayOf(mem, []string{"2111", "2222", "2333", "2444", "2555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{-31, -32, -33, -34, -35}, mask[:5]),
-					arrayOf(mem, []string{"3111", "3222", "3333", "3444", "3555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{-41, -42, -43, -44, -45}, mask[:5]),
-					arrayOf(mem, []string{"4111", "4222", "4333", "4444", "4555"}, mask[:5]),
-				},
-			}, []bool{true, false, true, true, true}),
-		},
-		{
-			structOf(mem, dtype, [][]arrow.Array{
-				{
-					arrayOf(mem, []int32{1, 2, 3, 4, 5}, mask[:5]),
-					arrayOf(mem, []string{"-111", "-222", "-333", "-444", "-555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{11, 12, 13, 14, 15}, mask[:5]),
-					arrayOf(mem, []string{"-1111", "-1222", "-1333", "-1444", "-1555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{21, 22, 23, 24, 25}, mask[:5]),
-					arrayOf(mem, []string{"-2111", "-2222", "-2333", "-2444", "-2555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{31, 32, 33, 34, 35}, mask[:5]),
-					arrayOf(mem, []string{"-3111", "-3222", "-3333", "-3444", "-3555"}, mask[:5]),
-				},
-				{
-					arrayOf(mem, []int32{41, 42, 43, 44, 45}, mask[:5]),
-					arrayOf(mem, []string{"-4111", "-4222", "-4333", "-4444", "-4555"}, mask[:5]),
-				},
-			}, []bool{true, false, false, true, true}),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeListsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	dtype := arrow.ListOf(arrow.PrimitiveTypes.Int32)
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "list_nullable", Type: dtype, Nullable: true},
-	}, nil)
-
-	mask := []bool{true, false, false, true, true}
-
-	chunks := [][]arrow.Array{
-		{
-			listOf(mem, []arrow.Array{
-				arrayOf(mem, []int32{1, 2, 3, 4, 5}, mask),
-				arrayOf(mem, []int32{11, 12, 13, 14, 15}, mask),
-				arrayOf(mem, []int32{21, 22, 23, 24, 25}, mask),
-			}, nil),
-		},
-		{
-			listOf(mem, []arrow.Array{
-				arrayOf(mem, []int32{-1, -2, -3, -4, -5}, mask),
-				arrayOf(mem, []int32{-11, -12, -13, -14, -15}, mask),
-				arrayOf(mem, []int32{-21, -22, -23, -24, -25}, mask),
-			}, nil),
-		},
-		{
-			listOf(mem, []arrow.Array{
-				arrayOf(mem, []int32{-1, -2, -3, -4, -5}, mask),
-				arrayOf(mem, []int32{-11, -12, -13, -14, -15}, mask),
-				arrayOf(mem, []int32{-21, -22, -23, -24, -25}, mask),
-			}, []bool{true, false, true}),
-		},
-		{
-			func() arrow.Array {
-				bldr := array.NewListBuilder(mem, arrow.PrimitiveTypes.Int32)
-				defer bldr.Release()
-
-				return bldr.NewListArray()
-			}(),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeListViewsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	dtype := arrow.ListViewOf(arrow.PrimitiveTypes.Int32)
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "list_view_nullable", Type: dtype, Nullable: true},
-	}, nil)
-
-	mask := []bool{true, false, false, true, true}
-
-	chunks := [][]arrow.Array{
-		{
-			listViewOf(mem, []arrow.Array{
-				arrayOf(mem, []int32{1, 2, 3, 4, 5}, mask),
-				arrayOf(mem, []int32{11, 12, 13, 14, 15}, mask),
-				arrayOf(mem, []int32{21, 22, 23, 24, 25}, mask),
-			}, nil),
-		},
-		{
-			listViewOf(mem, []arrow.Array{
-				arrayOf(mem, []int32{-1, -2, -3, -4, -5}, mask),
-				arrayOf(mem, []int32{-11, -12, -13, -14, -15}, mask),
-				arrayOf(mem, []int32{-21, -22, -23, -24, -25}, mask),
-			}, nil),
-		},
-		{
-			listViewOf(mem, []arrow.Array{
-				arrayOf(mem, []int32{-1, -2, -3, -4, -5}, mask),
-				arrayOf(mem, []int32{}, []bool{}),
-				arrayOf(mem, []int32{-21, -22, -23, -24, -25}, mask),
-			}, []bool{true, false, true}),
-		},
-		{
-			func() arrow.Array {
-				bldr := array.NewListViewBuilder(mem, arrow.PrimitiveTypes.Int32)
-				defer bldr.Release()
-
-				return bldr.NewListViewArray()
-			}(),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeFixedSizeListsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	const N = 3
-	dtype := arrow.FixedSizeListOf(N, arrow.PrimitiveTypes.Int32)
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "fixed_size_list_nullable", Type: dtype, Nullable: true},
-	}, nil)
-
-	mask := []bool{true, false, true}
-
-	chunks := [][]arrow.Array{
-		{
-			fixedSizeListOf(mem, N, []arrow.Array{
-				arrayOf(mem, []int32{1, 2, 3}, mask),
-				arrayOf(mem, []int32{11, 12, 13}, mask),
-				arrayOf(mem, []int32{21, 22, 23}, mask),
-			}, nil),
-		},
-		{
-			fixedSizeListOf(mem, N, []arrow.Array{
-				arrayOf(mem, []int32{-1, -2, -3}, mask),
-				arrayOf(mem, []int32{-11, -12, -13}, mask),
-				arrayOf(mem, []int32{-21, -22, -23}, mask),
-			}, nil),
-		},
-		{
-			fixedSizeListOf(mem, N, []arrow.Array{
-				arrayOf(mem, []int32{-1, -2, -3}, mask),
-				arrayOf(mem, []int32{-11, -12, -13}, mask),
-				arrayOf(mem, []int32{-21, -22, -23}, mask),
-			}, []bool{true, false, true}),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeStringsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "strings", Type: arrow.BinaryTypes.String},
-		{Name: "bytes", Type: arrow.BinaryTypes.Binary},
-	}, nil)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, []string{"1é", "2", "3", "4", "5"}, mask),
-			arrayOf(mem, [][]byte{[]byte("1é"), []byte("2"), []byte("3"), []byte("4"), []byte("5")}, mask),
-		},
-		{
-			arrayOf(mem, []string{"11", "22", "33", "44", "55"}, mask),
-			arrayOf(mem, [][]byte{[]byte("11"), []byte("22"), []byte("33"), []byte("44"), []byte("55")}, mask),
-		},
-		{
-			arrayOf(mem, []string{"111", "222", "333", "444", "555"}, mask),
-			arrayOf(mem, [][]byte{[]byte("111"), []byte("222"), []byte("333"), []byte("444"), []byte("555")}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-type (
-	nullT        struct{}
-	time32s      arrow.Time32
-	time32ms     arrow.Time32
-	time64ns     arrow.Time64
-	time64us     arrow.Time64
-	timestamp_s  arrow.Timestamp
-	timestamp_ms arrow.Timestamp
-	timestamp_us arrow.Timestamp
-	timestamp_ns arrow.Timestamp
-)
-
-var (
-	null nullT
-)
-
-func makeFixedWidthTypesRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "float16s", Type: arrow.FixedWidthTypes.Float16, Nullable: true},
-			{Name: "time32ms", Type: arrow.FixedWidthTypes.Time32ms, Nullable: true},
-			{Name: "time32s", Type: arrow.FixedWidthTypes.Time32s, Nullable: true},
-			{Name: "time64ns", Type: arrow.FixedWidthTypes.Time64ns, Nullable: true},
-			{Name: "time64us", Type: arrow.FixedWidthTypes.Time64us, Nullable: true},
-			{Name: "timestamp_s", Type: arrow.FixedWidthTypes.Timestamp_s, Nullable: true},
-			{Name: "timestamp_ms", Type: arrow.FixedWidthTypes.Timestamp_ms, Nullable: true},
-			{Name: "timestamp_us", Type: arrow.FixedWidthTypes.Timestamp_us, Nullable: true},
-			{Name: "timestamp_ns", Type: arrow.FixedWidthTypes.Timestamp_ns, Nullable: true},
-			{Name: "date32s", Type: arrow.FixedWidthTypes.Date32, Nullable: true},
-			{Name: "date64s", Type: arrow.FixedWidthTypes.Date64, Nullable: true},
-		}, nil,
-	)
-
-	float16s := func(vs []float32) []float16.Num {
-		o := make([]float16.Num, len(vs))
-		for i, v := range vs {
-			o[i] = float16.New(v)
-		}
-		return o
-	}
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, float16s([]float32{+1, +2, +3, +4, +5}), mask),
-			arrayOf(mem, []time32ms{-2, -1, 0, +1, +2}, mask),
-			arrayOf(mem, []time32s{-2, -1, 0, +1, +2}, mask),
-			arrayOf(mem, []time64ns{-2, -1, 0, +1, +2}, mask),
-			arrayOf(mem, []time64us{-2, -1, 0, +1, +2}, mask),
-			arrayOf(mem, []timestamp_s{0, +1, +2, +3, +4}, mask),
-			arrayOf(mem, []timestamp_ms{0, +1, +2, +3, +4}, mask),
-			arrayOf(mem, []timestamp_us{0, +1, +2, +3, +4}, mask),
-			arrayOf(mem, []timestamp_ns{0, +1, +2, +3, +4}, mask),
-			arrayOf(mem, []arrow.Date32{-2, -1, 0, +1, +2}, mask),
-			arrayOf(mem, []arrow.Date64{-2, -1, 0, +1, +2}, mask),
-		},
-		{
-			arrayOf(mem, float16s([]float32{+11, +12, +13, +14, +15}), mask),
-			arrayOf(mem, []time32ms{-12, -11, 10, +11, +12}, mask),
-			arrayOf(mem, []time32s{-12, -11, 10, +11, +12}, mask),
-			arrayOf(mem, []time64ns{-12, -11, 10, +11, +12}, mask),
-			arrayOf(mem, []time64us{-12, -11, 10, +11, +12}, mask),
-			arrayOf(mem, []timestamp_s{10, +11, +12, +13, +14}, mask),
-			arrayOf(mem, []timestamp_ms{10, +11, +12, +13, +14}, mask),
-			arrayOf(mem, []timestamp_us{10, +11, +12, +13, +14}, mask),
-			arrayOf(mem, []timestamp_ns{10, +11, +12, +13, +14}, mask),
-			arrayOf(mem, []arrow.Date32{-12, -11, 10, +11, +12}, mask),
-			arrayOf(mem, []arrow.Date64{-12, -11, 10, +11, +12}, mask),
-		},
-		{
-			arrayOf(mem, float16s([]float32{+21, +22, +23, +24, +25}), mask),
-			arrayOf(mem, []time32ms{-22, -21, 20, +21, +22}, mask),
-			arrayOf(mem, []time32s{-22, -21, 20, +21, +22}, mask),
-			arrayOf(mem, []time64ns{-22, -21, 20, +21, +22}, mask),
-			arrayOf(mem, []time64us{-22, -21, 20, +21, +22}, mask),
-			arrayOf(mem, []timestamp_s{20, +21, +22, +23, +24}, mask),
-			arrayOf(mem, []timestamp_ms{20, +21, +22, +23, +24}, mask),
-			arrayOf(mem, []timestamp_us{20, +21, +22, +23, +24}, mask),
-			arrayOf(mem, []timestamp_ns{20, +21, +22, +23, +24}, mask),
-			arrayOf(mem, []arrow.Date32{-22, -21, 20, +21, +22}, mask),
-			arrayOf(mem, []arrow.Date64{-22, -21, 20, +21, +22}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-type fsb3 string
-
-func makeFixedSizeBinariesRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "fixed_size_binary_3", Type: &arrow.FixedSizeBinaryType{ByteWidth: 3}, Nullable: true},
-		}, nil,
-	)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, []fsb3{"001", "002", "003", "004", "005"}, mask),
-		},
-		{
-			arrayOf(mem, []fsb3{"011", "012", "013", "014", "015"}, mask),
-		},
-		{
-			arrayOf(mem, []fsb3{"021", "022", "023", "024", "025"}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeIntervalsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "months", Type: arrow.FixedWidthTypes.MonthInterval, Nullable: true},
-			{Name: "days", Type: arrow.FixedWidthTypes.DayTimeInterval, Nullable: true},
-			{Name: "nanos", Type: arrow.FixedWidthTypes.MonthDayNanoInterval, Nullable: true},
-		}, nil,
-	)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, []arrow.MonthInterval{1, 2, 3, 4, 5}, mask),
-			arrayOf(mem, []arrow.DayTimeInterval{
-				{Days: 1, Milliseconds: 1},
-				{Days: 2, Milliseconds: 2},
-				{Days: 3, Milliseconds: 3},
-				{Days: 4, Milliseconds: 4},
-				{Days: 5, Milliseconds: 5}},
-				mask),
-			arrayOf(mem, []arrow.MonthDayNanoInterval{
-				{Months: 1, Days: 1, Nanoseconds: 1000},
-				{Months: 2, Days: 2, Nanoseconds: 2000},
-				{Months: 3, Days: 3, Nanoseconds: 3000},
-				{Months: 4, Days: 4, Nanoseconds: 4000},
-				{Months: 5, Days: 5, Nanoseconds: 5000}},
-				mask),
-		},
-		{
-			arrayOf(mem, []arrow.MonthInterval{-11, -12, -13, -14, -15}, mask),
-			arrayOf(mem, []arrow.DayTimeInterval{
-				{Days: -11, Milliseconds: -11},
-				{Days: -12, Milliseconds: -12},
-				{Days: -13, Milliseconds: -13},
-				{Days: -14, Milliseconds: -14},
-				{Days: -15, Milliseconds: -15}},
-				mask),
-			arrayOf(mem, []arrow.MonthDayNanoInterval{
-				{Months: -11, Days: -11, Nanoseconds: -11000},
-				{Months: -12, Days: -12, Nanoseconds: -12000},
-				{Months: -13, Days: -13, Nanoseconds: -13000},
-				{Months: -14, Days: -14, Nanoseconds: -14000},
-				{Months: -15, Days: -15, Nanoseconds: -15000}}, mask),
-		},
-		{
-			arrayOf(mem, []arrow.MonthInterval{21, 22, 23, 24, 25, 0}, append(mask, true)),
-			arrayOf(mem, []arrow.DayTimeInterval{
-				{Days: 21, Milliseconds: 21},
-				{Days: 22, Milliseconds: 22},
-				{Days: 23, Milliseconds: 23},
-				{Days: 24, Milliseconds: 24},
-				{Days: 25, Milliseconds: 25},
-				{Days: 0, Milliseconds: 0}}, append(mask, true)),
-			arrayOf(mem, []arrow.MonthDayNanoInterval{
-				{Months: 21, Days: 21, Nanoseconds: 21000},
-				{Months: 22, Days: 22, Nanoseconds: 22000},
-				{Months: 23, Days: 23, Nanoseconds: 23000},
-				{Months: 24, Days: 24, Nanoseconds: 24000},
-				{Months: 25, Days: 25, Nanoseconds: 25000},
-				{Months: 0, Days: 0, Nanoseconds: 0}}, append(mask, true)),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-type (
-	duration_s  arrow.Duration
-	duration_ms arrow.Duration
-	duration_us arrow.Duration
-	duration_ns arrow.Duration
-)
-
-func makeDurationsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "durations-s", Type: &arrow.DurationType{Unit: arrow.Second}, Nullable: true},
-			{Name: "durations-ms", Type: &arrow.DurationType{Unit: arrow.Millisecond}, Nullable: true},
-			{Name: "durations-us", Type: &arrow.DurationType{Unit: arrow.Microsecond}, Nullable: true},
-			{Name: "durations-ns", Type: &arrow.DurationType{Unit: arrow.Nanosecond}, Nullable: true},
-		}, nil,
-	)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, []duration_s{1, 2, 3, 4, 5}, mask),
-			arrayOf(mem, []duration_ms{1, 2, 3, 4, 5}, mask),
-			arrayOf(mem, []duration_us{1, 2, 3, 4, 5}, mask),
-			arrayOf(mem, []duration_ns{1, 2, 3, 4, 5}, mask),
-		},
-		{
-			arrayOf(mem, []duration_s{11, 12, 13, 14, 15}, mask),
-			arrayOf(mem, []duration_ms{11, 12, 13, 14, 15}, mask),
-			arrayOf(mem, []duration_us{11, 12, 13, 14, 15}, mask),
-			arrayOf(mem, []duration_ns{11, 12, 13, 14, 15}, mask),
-		},
-		{
-			arrayOf(mem, []duration_s{21, 22, 23, 24, 25}, mask),
-			arrayOf(mem, []duration_ms{21, 22, 23, 24, 25}, mask),
-			arrayOf(mem, []duration_us{21, 22, 23, 24, 25}, mask),
-			arrayOf(mem, []duration_ns{21, 22, 23, 24, 25}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-var (
-	decimal128Type = &arrow.Decimal128Type{Precision: 10, Scale: 1}
-	decimal256Type = &arrow.Decimal256Type{Precision: 72, Scale: 2}
-)
-
-func makeDecimal128sRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "dec128s", Type: decimal128Type, Nullable: true},
-		}, nil,
-	)
-
-	dec128s := func(vs []int64) []decimal128.Num {
-		o := make([]decimal128.Num, len(vs))
-		for i, v := range vs {
-			o[i] = decimal128.New(v, uint64(v))
-		}
-		return o
-	}
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, dec128s([]int64{31, 32, 33, 34, 35}), mask),
-		},
-		{
-			arrayOf(mem, dec128s([]int64{41, 42, 43, 44, 45}), mask),
-		},
-		{
-			arrayOf(mem, dec128s([]int64{51, 52, 53, 54, 55}), mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeDecimal256sRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "dec256s", Type: decimal256Type, Nullable: true},
-		}, nil,
-	)
-
-	dec256s := func(vs []uint64) []decimal256.Num {
-		o := make([]decimal256.Num, len(vs))
-		for i, v := range vs {
-			o[i] = decimal256.New(v, v, v, v)
-		}
-		return o
-	}
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			arrayOf(mem, dec256s([]uint64{21, 22, 23, 24, 25}), mask),
-		},
-		{
-			arrayOf(mem, dec256s([]uint64{31, 32, 33, 34, 35}), mask),
-		},
-		{
-			arrayOf(mem, dec256s([]uint64{41, 42, 43, 44, 45}), mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeMapsRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	dtype := arrow.MapOf(arrow.PrimitiveTypes.Int32, arrow.BinaryTypes.String)
-	dtype.KeysSorted = true
-	schema := arrow.NewSchema([]arrow.Field{{Name: "map_int_utf8", Type: dtype, Nullable: true}}, nil)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			mapOf(mem, dtype.KeysSorted, []arrow.Array{
-				structOf(mem, dtype.Elem().(*arrow.StructType), [][]arrow.Array{
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"111", "222", "333", "444", "555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"1111", "1222", "1333", "1444", "1555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"2111", "2222", "2333", "2444", "2555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"3111", "3222", "3333", "3444", "3555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"4111", "4222", "4333", "4444", "4555"}, mask[:5]),
-					},
-				}, nil),
-				structOf(mem, dtype.Elem().(*arrow.StructType), [][]arrow.Array{
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-111", "-222", "-333", "-444", "-555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-1111", "-1222", "-1333", "-1444", "-1555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-2111", "-2222", "-2333", "-2444", "-2555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-3111", "-3222", "-3333", "-3444", "-3555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-4111", "-4222", "-4333", "-4444", "-4555"}, mask[:5]),
-					},
-				}, nil),
-			}, []bool{true, false, true, true, true}),
-		},
-		{
-			mapOf(mem, dtype.KeysSorted, []arrow.Array{
-				structOf(mem, dtype.Elem().(*arrow.StructType), [][]arrow.Array{
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-111", "-222", "-333", "-444", "-555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-1111", "-1222", "-1333", "-1444", "-1555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-2111", "-2222", "-2333", "-2444", "-2555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-3111", "-3222", "-3333", "-3444", "-3555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{1, 2, 3, 4, 5}, nil),
-						arrayOf(mem, []string{"-4111", "-4222", "-4333", "-4444", "-4555"}, mask[:5]),
-					},
-				}, nil),
-				structOf(mem, dtype.Elem().(*arrow.StructType), [][]arrow.Array{
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"111", "222", "333", "444", "555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"1111", "1222", "1333", "1444", "1555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"2111", "2222", "2333", "2444", "2555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"3111", "3222", "3333", "3444", "3555"}, mask[:5]),
-					},
-					{
-						arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil),
-						arrayOf(mem, []string{"4111", "4222", "4333", "4444", "4555"}, mask[:5]),
-					},
-				}, nil),
-			}, []bool{true, false, true, true, true}),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeExtensionRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	p1Type := types.NewParametric1Type(6)
-	p2Type := types.NewParametric1Type(12)
-	p3Type := types.NewParametric2Type(2)
-	p4Type := types.NewParametric2Type(3)
-	p5Type := types.NewExtStructType()
-
-	arrow.RegisterExtensionType(p1Type)
-	arrow.RegisterExtensionType(p3Type)
-	arrow.RegisterExtensionType(p4Type)
-	arrow.RegisterExtensionType(p5Type)
-
-	meta := arrow.NewMetadata(
-		[]string{"k1", "k2"},
-		[]string{"v1", "v2"},
-	)
-
-	unregisteredMeta := arrow.NewMetadata(
-		append(meta.Keys(), ipc.ExtensionTypeKeyName, ipc.ExtensionMetadataKeyName),
-		append(meta.Values(), "unregistered", ""))
-
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "p1", Type: p1Type, Nullable: true, Metadata: meta},
-			{Name: "p2", Type: p2Type, Nullable: true, Metadata: meta},
-			{Name: "p3", Type: p3Type, Nullable: true, Metadata: meta},
-			{Name: "p4", Type: p4Type, Nullable: true, Metadata: meta},
-			{Name: "p5", Type: p5Type, Nullable: true, Metadata: meta},
-			{Name: "unreg", Type: arrow.PrimitiveTypes.Int8, Nullable: true, Metadata: unregisteredMeta},
-		}, nil)
-
-	mask := []bool{true, false, true, true, false}
-	chunks := [][]arrow.Array{
-		{
-			extArray(mem, p1Type, []int32{1, -1, 2, 3, -1}, mask),
-			extArray(mem, p2Type, []int32{2, -1, 3, 4, -1}, mask),
-			extArray(mem, p3Type, []int32{5, -1, 6, 7, 8}, mask),
-			extArray(mem, p4Type, []int32{5, -1, 7, 9, -1}, mask),
-			extArray(mem, p5Type, [][]arrow.Array{
-				{
-					arrayOf(mem, []int64{1, -1, 2, 3, -1}, mask),
-					arrayOf(mem, []float64{0.1, -1, 0.2, 0.3, -1}, mask),
-				},
-			}, mask),
-			arrayOf(mem, []int8{-1, -2, -3, -4, -5}, mask),
-		},
-		{
-			extArray(mem, p1Type, []int32{10, -1, 20, 30, -1}, mask),
-			extArray(mem, p2Type, []int32{20, -1, 30, 40, -1}, mask),
-			extArray(mem, p3Type, []int32{50, -1, 60, 70, 8}, mask),
-			extArray(mem, p4Type, []int32{50, -1, 70, 90, -1}, mask),
-			extArray(mem, p5Type, [][]arrow.Array{
-				{
-					arrayOf(mem, []int64{10, -1, 20, 30, -1}, mask),
-					arrayOf(mem, []float64{0.01, -1, 0.02, 0.03, -1}, mask),
-				},
-			}, mask),
-			arrayOf(mem, []int8{-11, -12, -13, -14, -15}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeUnionRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-
-	unionFields := []arrow.Field{
-		{Name: "u0", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "u1", Type: arrow.PrimitiveTypes.Uint8, Nullable: true},
-	}
-
-	typeCodes := []arrow.UnionTypeCode{5, 10}
-	sparseType := arrow.SparseUnionOf(unionFields, typeCodes)
-	denseType := arrow.DenseUnionOf(unionFields, typeCodes)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "sparse", Type: sparseType, Nullable: true},
-		{Name: "dense", Type: denseType, Nullable: true},
-	}, nil)
-
-	sparseChildren := make([]arrow.Array, 4)
-	denseChildren := make([]arrow.Array, 4)
-
-	const length = 7
-
-	typeIDsBuffer := memory.NewBufferBytes(arrow.Uint8Traits.CastToBytes([]uint8{5, 10, 5, 5, 10, 10, 5}))
-	sparseChildren[0] = arrayOf(mem, []int32{0, 1, 2, 3, 4, 5, 6},
-		[]bool{true, true, true, false, true, true, true})
-	defer sparseChildren[0].Release()
-	sparseChildren[1] = arrayOf(mem, []uint8{10, 11, 12, 13, 14, 15, 16},
-		nil)
-	defer sparseChildren[1].Release()
-	sparseChildren[2] = arrayOf(mem, []int32{0, -1, -2, -3, -4, -5, -6},
-		[]bool{true, true, true, true, true, true, false})
-	defer sparseChildren[2].Release()
-	sparseChildren[3] = arrayOf(mem, []uint8{100, 101, 102, 103, 104, 105, 106},
-		nil)
-	defer sparseChildren[3].Release()
-
-	denseChildren[0] = arrayOf(mem, []int32{0, 2, 3, 7}, []bool{true, false, true, true})
-	defer denseChildren[0].Release()
-	denseChildren[1] = arrayOf(mem, []uint8{11, 14, 15}, nil)
-	defer denseChildren[1].Release()
-	denseChildren[2] = arrayOf(mem, []int32{0, -2, -3, -7}, []bool{false, true, true, false})
-	defer denseChildren[2].Release()
-	denseChildren[3] = arrayOf(mem, []uint8{101, 104, 105}, nil)
-	defer denseChildren[3].Release()
-
-	offsetsBuffer := memory.NewBufferBytes(arrow.Int32Traits.CastToBytes([]int32{0, 0, 1, 2, 1, 2, 3}))
-	sparse1 := array.NewSparseUnion(sparseType, length, sparseChildren[:2], typeIDsBuffer, 0)
-	dense1 := array.NewDenseUnion(denseType, length, denseChildren[:2], typeIDsBuffer, offsetsBuffer, 0)
-
-	sparse2 := array.NewSparseUnion(sparseType, length, sparseChildren[2:], typeIDsBuffer, 0)
-	dense2 := array.NewDenseUnion(denseType, length, denseChildren[2:], typeIDsBuffer, offsetsBuffer, 0)
-
-	defer sparse1.Release()
-	defer dense1.Release()
-	defer sparse2.Release()
-	defer dense2.Release()
-
-	return []arrow.Record{
-		array.NewRecord(schema, []arrow.Array{sparse1, dense1}, -1),
-		array.NewRecord(schema, []arrow.Array{sparse2, dense2}, -1)}
-}
-
-func makeRunEndEncodedRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "ree16", Type: arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)},
-		{Name: "ree32", Type: arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32)},
-		{Name: "ree64", Type: arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int64, arrow.BinaryTypes.Binary)},
-	}, nil)
-
-	schema.Field(1).Type.(*arrow.RunEndEncodedType).ValueNullable = false
-	isValid := []bool{true, false, true, false, true}
-	chunks := [][]arrow.Array{
-		{
-			runEndEncodedOf(
-				arrayOf(mem, []int16{5, 10, 20, 1020, 1120}, nil),
-				arrayOf(mem, []string{"foo", "bar", "baz", "foo", ""}, isValid), 1100, 20),
-			runEndEncodedOf(
-				arrayOf(mem, []int32{100, 200, 800, 1000, 1100}, nil),
-				arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil), 1100, 0),
-			runEndEncodedOf(
-				arrayOf(mem, []int64{100, 250, 450, 800, 1100}, nil),
-				arrayOf(mem, [][]byte{{0xde, 0xad}, {0xbe, 0xef}, {0xde, 0xad, 0xbe, 0xef}, {}, {0xba, 0xad, 0xf0, 0x0d}}, isValid), 1100, 0),
-		},
-		{
-			runEndEncodedOf(
-				arrayOf(mem, []int16{110, 160, 170, 1070, 1120}, nil),
-				arrayOf(mem, []string{"super", "dee", "", "duper", "doo"}, isValid), 1100, 20),
-			runEndEncodedOf(
-				arrayOf(mem, []int32{100, 120, 710, 810, 1100}, nil),
-				arrayOf(mem, []int32{-1, -2, -3, -4, -5}, nil), 1100, 0),
-			runEndEncodedOf(
-				arrayOf(mem, []int64{100, 250, 450, 800, 1100}, nil),
-				arrayOf(mem, [][]byte{{0xde, 0xad}, {0xbe, 0xef}, {0xde, 0xad, 0xbe, 0xef}, {}, {0xba, 0xad, 0xf0, 0x0d}}, isValid), 1100, 0),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func makeStringViewRecords() []arrow.Record {
-	mem := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "binary_view", Type: arrow.BinaryTypes.BinaryView, Nullable: true},
-		{Name: "string_view", Type: arrow.BinaryTypes.StringView, Nullable: true},
-	}, nil)
-
-	mask := []bool{true, false, false, true, true}
-	chunks := [][]arrow.Array{
-		{
-			viewTypeArrayOf(mem, [][]byte{[]byte("1é"), []byte("2"), []byte("3"), []byte("4"), []byte("5")}, mask),
-			viewTypeArrayOf(mem, []string{"1é", "2", "3", "4", "5"}, mask),
-		},
-		{
-			viewTypeArrayOf(mem, [][]byte{[]byte("1é"), []byte("22222222222222"), []byte("33333333333333"), []byte("4444"), []byte("5555")}, mask),
-			viewTypeArrayOf(mem, []string{"1é", "22222222222222", "33333333333333", "4444", "5555"}, nil),
-		},
-		{
-			viewTypeArrayOf(mem, [][]byte{[]byte("1é1é"), []byte("22222222222222"), []byte("33333333333333"), []byte("44"), []byte("55")}, nil),
-			viewTypeArrayOf(mem, []string{"1é1é", "22222222222222", "33333333333333", "44", "55"}, mask),
-		},
-	}
-
-	defer func() {
-		for _, chunk := range chunks {
-			for _, col := range chunk {
-				col.Release()
-			}
-		}
-	}()
-
-	recs := make([]arrow.Record, len(chunks))
-	for i, chunk := range chunks {
-		recs[i] = array.NewRecord(schema, chunk, -1)
-	}
-
-	return recs
-}
-
-func viewTypeArrayOf(mem memory.Allocator, a interface{}, valids []bool) arrow.Array {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	switch a := a.(type) {
-	case []string:
-		bldr := array.NewStringViewBuilder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-	case [][]byte:
-		bldr := array.NewBinaryViewBuilder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-	}
-	return nil
-}
-
-func extArray(mem memory.Allocator, dt arrow.ExtensionType, a interface{}, valids []bool) arrow.Array {
-	var storage arrow.Array
-	switch st := dt.StorageType().(type) {
-	case *arrow.StructType:
-		storage = structOf(mem, st, a.([][]arrow.Array), valids)
-	case *arrow.MapType:
-		storage = mapOf(mem, false, a.([]arrow.Array), valids)
-	case *arrow.ListType:
-		storage = listOf(mem, a.([]arrow.Array), valids)
-	default:
-		storage = arrayOf(mem, a, valids)
-	}
-	defer storage.Release()
-
-	return array.NewExtensionArrayWithStorage(dt, storage)
-}
-
-func arrayOf(mem memory.Allocator, a interface{}, valids []bool) arrow.Array {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	switch a := a.(type) {
-	case []nullT:
-		return array.NewNull(len(a))
-
-	case []bool:
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewBooleanArray()
-
-	case []int8:
-		bldr := array.NewInt8Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewInt8Array()
-
-	case []int16:
-		bldr := array.NewInt16Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewInt16Array()
-
-	case []int32:
-		bldr := array.NewInt32Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewInt32Array()
-
-	case []int64:
-		bldr := array.NewInt64Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewInt64Array()
-
-	case []uint8:
-		bldr := array.NewUint8Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewUint8Array()
-
-	case []uint16:
-		bldr := array.NewUint16Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewUint16Array()
-
-	case []uint32:
-		bldr := array.NewUint32Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewUint32Array()
-
-	case []uint64:
-		bldr := array.NewUint64Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewUint64Array()
-
-	case []float16.Num:
-		bldr := array.NewFloat16Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewFloat16Array()
-
-	case []float32:
-		bldr := array.NewFloat32Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewFloat32Array()
-
-	case []float64:
-		bldr := array.NewFloat64Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewFloat64Array()
-
-	case []decimal128.Num:
-		bldr := array.NewDecimal128Builder(mem, decimal128Type)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		aa := bldr.NewDecimal128Array()
-		return aa
-
-	case []decimal256.Num:
-		bldr := array.NewDecimal256Builder(mem, decimal256Type)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		aa := bldr.NewDecimal256Array()
-		return aa
-
-	case []string:
-		bldr := array.NewStringBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewStringArray()
-
-	case [][]byte:
-		bldr := array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewBinaryArray()
-
-	case []time32s:
-		bldr := array.NewTime32Builder(mem, arrow.FixedWidthTypes.Time32s.(*arrow.Time32Type))
-		defer bldr.Release()
-
-		vs := make([]arrow.Time32, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Time32(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []time32ms:
-		bldr := array.NewTime32Builder(mem, arrow.FixedWidthTypes.Time32ms.(*arrow.Time32Type))
-		defer bldr.Release()
-
-		vs := make([]arrow.Time32, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Time32(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []time64ns:
-		bldr := array.NewTime64Builder(mem, arrow.FixedWidthTypes.Time64ns.(*arrow.Time64Type))
-		defer bldr.Release()
-
-		vs := make([]arrow.Time64, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Time64(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []time64us:
-		bldr := array.NewTime64Builder(mem, arrow.FixedWidthTypes.Time64us.(*arrow.Time64Type))
-		defer bldr.Release()
-
-		vs := make([]arrow.Time64, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Time64(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []timestamp_s:
-		bldr := array.NewTimestampBuilder(mem, arrow.FixedWidthTypes.Timestamp_s.(*arrow.TimestampType))
-		defer bldr.Release()
-
-		vs := make([]arrow.Timestamp, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Timestamp(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []timestamp_ms:
-		bldr := array.NewTimestampBuilder(mem, arrow.FixedWidthTypes.Timestamp_ms.(*arrow.TimestampType))
-		defer bldr.Release()
-
-		vs := make([]arrow.Timestamp, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Timestamp(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []timestamp_us:
-		bldr := array.NewTimestampBuilder(mem, arrow.FixedWidthTypes.Timestamp_us.(*arrow.TimestampType))
-		defer bldr.Release()
-
-		vs := make([]arrow.Timestamp, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Timestamp(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []timestamp_ns:
-		bldr := array.NewTimestampBuilder(mem, arrow.FixedWidthTypes.Timestamp_ns.(*arrow.TimestampType))
-		defer bldr.Release()
-
-		vs := make([]arrow.Timestamp, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Timestamp(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []arrow.Date32:
-		bldr := array.NewDate32Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-
-	case []arrow.Date64:
-		bldr := array.NewDate64Builder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-
-	case []fsb3:
-		bldr := array.NewFixedSizeBinaryBuilder(mem, &arrow.FixedSizeBinaryType{ByteWidth: 3})
-		defer bldr.Release()
-		vs := make([][]byte, len(a))
-		for i, v := range a {
-			vs[i] = []byte(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []arrow.MonthInterval:
-		bldr := array.NewMonthIntervalBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-
-	case []arrow.DayTimeInterval:
-		bldr := array.NewDayTimeIntervalBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-
-	case []arrow.MonthDayNanoInterval:
-		bldr := array.NewMonthDayNanoIntervalBuilder(mem)
-		defer bldr.Release()
-
-		bldr.AppendValues(a, valids)
-		return bldr.NewArray()
-
-	case []duration_s:
-		bldr := array.NewDurationBuilder(mem, &arrow.DurationType{Unit: arrow.Second})
-		defer bldr.Release()
-		vs := make([]arrow.Duration, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Duration(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []duration_ms:
-		bldr := array.NewDurationBuilder(mem, &arrow.DurationType{Unit: arrow.Millisecond})
-		defer bldr.Release()
-		vs := make([]arrow.Duration, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Duration(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []duration_us:
-		bldr := array.NewDurationBuilder(mem, &arrow.DurationType{Unit: arrow.Microsecond})
-		defer bldr.Release()
-		vs := make([]arrow.Duration, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Duration(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	case []duration_ns:
-		bldr := array.NewDurationBuilder(mem, &arrow.DurationType{Unit: arrow.Nanosecond})
-		defer bldr.Release()
-		vs := make([]arrow.Duration, len(a))
-		for i, v := range a {
-			vs[i] = arrow.Duration(v)
-		}
-		bldr.AppendValues(vs, valids)
-		return bldr.NewArray()
-
-	default:
-		panic(fmt.Errorf("arrdata: invalid data slice type %T", a))
-	}
-}
-
-func listOf(mem memory.Allocator, values []arrow.Array, valids []bool) *array.List {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	bldr := array.NewListBuilder(mem, values[0].DataType())
-	defer bldr.Release()
-
-	valid := func(i int) bool {
-		return valids[i]
-	}
-
-	if valids == nil {
-		valid = func(i int) bool { return true }
-	}
-
-	for i, value := range values {
-		bldr.Append(valid(i))
-		buildArray(bldr.ValueBuilder(), value)
-	}
-
-	return bldr.NewListArray()
-}
-
-func listViewOf(mem memory.Allocator, values []arrow.Array, valids []bool) *array.ListView {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	bldr := array.NewListViewBuilder(mem, values[0].DataType())
-	defer bldr.Release()
-
-	valid := func(i int) bool {
-		return valids[i]
-	}
-
-	if valids == nil {
-		valid = func(i int) bool { return true }
-	}
-
-	for i, value := range values {
-		bldr.AppendWithSize(valid(i), value.Len())
-		buildArray(bldr.ValueBuilder(), value)
-	}
-
-	return bldr.NewListViewArray()
-}
-
-func fixedSizeListOf(mem memory.Allocator, n int32, values []arrow.Array, valids []bool) *array.FixedSizeList {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	bldr := array.NewFixedSizeListBuilder(mem, n, values[0].DataType())
-	defer bldr.Release()
-
-	valid := func(i int) bool {
-		return valids[i]
-	}
-
-	if valids == nil {
-		valid = func(i int) bool { return true }
-	}
-
-	for i, value := range values {
-		bldr.Append(valid(i))
-		buildArray(bldr.ValueBuilder(), value)
-	}
-
-	return bldr.NewListArray()
-}
-
-func structOf(mem memory.Allocator, dtype *arrow.StructType, fields [][]arrow.Array, valids []bool) *array.Struct {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	bldr := array.NewStructBuilder(mem, dtype)
-	defer bldr.Release()
-
-	if valids == nil {
-		valids = make([]bool, fields[0][0].Len())
-		for i := range valids {
-			valids[i] = true
-		}
-	}
-
-	for i := range fields {
-		bldr.AppendValues(valids)
-		for j := range dtype.Fields() {
-			fbldr := bldr.FieldBuilder(j)
-			buildArray(fbldr, fields[i][j])
-		}
-	}
-
-	return bldr.NewStructArray()
-}
-
-func mapOf(mem memory.Allocator, sortedKeys bool, values []arrow.Array, valids []bool) *array.Map {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	pairType := values[0].DataType().(*arrow.StructType)
-	bldr := array.NewMapBuilder(mem, pairType.Field(0).Type, pairType.Field(1).Type, sortedKeys)
-	defer bldr.Release()
-
-	valid := func(i int) bool {
-		return valids[i]
-	}
-
-	if valids == nil {
-		valid = func(i int) bool { return true }
-	}
-
-	vb := bldr.ValueBuilder().(*array.StructBuilder)
-	for i, value := range values {
-		bldr.Append(valid(i))
-		buildArray(vb.FieldBuilder(0), value.(*array.Struct).Field(0))
-		buildArray(vb.FieldBuilder(1), value.(*array.Struct).Field(1))
-	}
-
-	return bldr.NewMapArray()
-}
-
-func runEndEncodedOf(runEnds, values arrow.Array, logicalLen, offset int) arrow.Array {
-	defer runEnds.Release()
-	defer values.Release()
-	return array.NewRunEndEncodedArray(runEnds, values, logicalLen, offset)
-}
-
-func buildArray(bldr array.Builder, data arrow.Array) {
-	defer data.Release()
-
-	switch bldr := bldr.(type) {
-	case *array.BooleanBuilder:
-		data := data.(*array.Boolean)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Int8Builder:
-		data := data.(*array.Int8)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Int16Builder:
-		data := data.(*array.Int16)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Int32Builder:
-		data := data.(*array.Int32)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Int64Builder:
-		data := data.(*array.Int64)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Uint8Builder:
-		data := data.(*array.Uint8)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Uint16Builder:
-		data := data.(*array.Uint16)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Uint32Builder:
-		data := data.(*array.Uint32)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Uint64Builder:
-		data := data.(*array.Uint64)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Float32Builder:
-		data := data.(*array.Float32)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.Float64Builder:
-		data := data.(*array.Float64)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.StringBuilder:
-		data := data.(*array.String)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.LargeStringBuilder:
-		data := data.(*array.LargeString)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-
-	case *array.BinaryViewBuilder:
-		data := data.(*array.BinaryView)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-	case *array.StringViewBuilder:
-		data := data.(*array.StringView)
-		for i := 0; i < data.Len(); i++ {
-			switch {
-			case data.IsValid(i):
-				bldr.Append(data.Value(i))
-			default:
-				bldr.AppendNull()
-			}
-		}
-	}
-}
diff --git a/go/arrow/internal/arrdata/ioutil.go b/go/arrow/internal/arrdata/ioutil.go
deleted file mode 100644
index 715451ad9634d..0000000000000
--- a/go/arrow/internal/arrdata/ioutil.go
+++ /dev/null
@@ -1,275 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrdata
-
-import (
-	"fmt"
-	"io"
-	"os"
-	"sync"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// CheckArrowFile checks whether a given ARROW file contains the expected list of records.
-func CheckArrowFile(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	_, err := f.Seek(0, io.SeekStart)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	r, err := ipc.NewFileReader(f, ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer r.Close()
-
-	for i := 0; i < r.NumRecords(); i++ {
-		rec, err := r.Record(i)
-		if err != nil {
-			t.Fatalf("could not read record %d: %v", i, err)
-		}
-		if !array.RecordEqual(rec, recs[i]) {
-			t.Fatalf("records[%d] differ", i)
-		}
-	}
-
-	err = r.Close()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-}
-
-func CheckArrowConcurrentFile(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	_, err := f.Seek(0, io.SeekStart)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	r, err := ipc.NewFileReader(f, ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer r.Close()
-
-	var g sync.WaitGroup
-	errs := make(chan error, r.NumRecords())
-	checkRecord := func(i int) {
-		defer g.Done()
-		rec, err := r.RecordAt(i)
-		if err != nil {
-			errs <- fmt.Errorf("could not read record %d: %v", i, err)
-			return
-		}
-		defer rec.Release()
-		if !array.RecordEqual(rec, recs[i]) {
-			errs <- fmt.Errorf("records[%d] differ", i)
-		}
-	}
-
-	for i := 0; i < r.NumRecords(); i++ {
-		g.Add(1)
-		go checkRecord(i)
-	}
-
-	g.Wait()
-	close(errs)
-
-	for err := range errs {
-		if err != nil {
-			t.Fatal(err)
-		}
-	}
-
-	err = r.Close()
-	if err != nil {
-		t.Fatal(err)
-	}
-}
-
-// CheckArrowStream checks whether a given ARROW stream contains the expected list of records.
-func CheckArrowStream(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	_, err := f.Seek(0, io.SeekStart)
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	r, err := ipc.NewReader(f, ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer r.Release()
-
-	n := 0
-	for r.Next() {
-		rec := r.Record()
-		if !array.RecordEqual(rec, recs[n]) {
-			t.Fatalf("records[%d] differ, got: %s, expected %s", n, rec, recs[n])
-		}
-		n++
-	}
-
-	if len(recs) != n {
-		t.Fatalf("invalid number of records. got=%d, want=%d", n, len(recs))
-
-	}
-}
-
-// WriteFile writes a list of records to the given file descriptor, as an ARROW file.
-func WriteFile(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	w, err := ipc.NewFileWriter(f, ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer w.Close()
-
-	for i, rec := range recs {
-		err = w.Write(rec)
-		if err != nil {
-			t.Fatalf("could not write record[%d]: %v", i, err)
-		}
-	}
-
-	err = w.Close()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	err = f.Sync()
-	if err != nil {
-		t.Fatalf("could not sync data to disk: %v", err)
-	}
-
-	// put the cursor back at the start of the file before returning rather than
-	// leaving it at the end so the reader can just start reading from the handle
-	// immediately for the test.
-	_, err = f.Seek(0, io.SeekStart)
-	if err != nil {
-		t.Fatalf("could not seek to start: %v", err)
-	}
-}
-
-// WriteFile writes a list of records to the given file descriptor, as an ARROW file.
-func WriteFileCompressed(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record, codec flatbuf.CompressionType, concurrency int) {
-	t.Helper()
-
-	opts := []ipc.Option{ipc.WithSchema(schema), ipc.WithAllocator(mem), ipc.WithCompressConcurrency(concurrency)}
-	switch codec {
-	case flatbuf.CompressionTypeLZ4_FRAME:
-		opts = append(opts, ipc.WithLZ4())
-	case flatbuf.CompressionTypeZSTD:
-		opts = append(opts, ipc.WithZstd())
-	default:
-		t.Fatalf("invalid compression codec %v, only LZ4_FRAME or ZSTD is allowed", codec)
-	}
-
-	w, err := ipc.NewFileWriter(f, opts...)
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer w.Close()
-
-	for i, rec := range recs {
-		err = w.Write(rec)
-		if err != nil {
-			t.Fatalf("could not write record[%d]: %v", i, err)
-		}
-	}
-
-	err = w.Close()
-	if err != nil {
-		t.Fatal(err)
-	}
-
-	err = f.Sync()
-	if err != nil {
-		t.Fatalf("could not sync data to disk: %v", err)
-	}
-
-	// put the cursor back at the start of the file before returning rather than
-	// leaving it at the end so the reader can just start reading from the handle
-	// immediately for the test.
-	_, err = f.Seek(0, io.SeekStart)
-	if err != nil {
-		t.Fatalf("could not seek to start: %v", err)
-	}
-}
-
-// WriteStream writes a list of records to the given file descriptor, as an ARROW stream.
-func WriteStream(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record) {
-	t.Helper()
-
-	w := ipc.NewWriter(f, ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	defer w.Close()
-
-	for i, rec := range recs {
-		err := w.Write(rec)
-		if err != nil {
-			t.Fatalf("could not write record[%d]: %v", i, err)
-		}
-	}
-
-	err := w.Close()
-	if err != nil {
-		t.Fatal(err)
-	}
-}
-
-// WriteStreamCompressed writes a list of records to the given file descriptor as an ARROW stream
-// using the provided compression type.
-func WriteStreamCompressed(t *testing.T, f *os.File, mem memory.Allocator, schema *arrow.Schema, recs []arrow.Record, codec flatbuf.CompressionType, np int) {
-	t.Helper()
-
-	opts := []ipc.Option{ipc.WithSchema(schema), ipc.WithAllocator(mem), ipc.WithCompressConcurrency(np)}
-	switch codec {
-	case flatbuf.CompressionTypeLZ4_FRAME:
-		opts = append(opts, ipc.WithLZ4())
-	case flatbuf.CompressionTypeZSTD:
-		opts = append(opts, ipc.WithZstd())
-	default:
-		t.Fatalf("invalid compression codec %v, only LZ4_FRAME or ZSTD is allowed", codec)
-	}
-
-	w := ipc.NewWriter(f, opts...)
-	defer w.Close()
-
-	for i, rec := range recs {
-		err := w.Write(rec)
-		if err != nil {
-			t.Fatalf("could not write record[%d]: %v", i, err)
-		}
-	}
-
-	err := w.Close()
-	if err != nil {
-		t.Fatal(err)
-	}
-}
diff --git a/go/arrow/internal/arrjson/arrjson.go b/go/arrow/internal/arrjson/arrjson.go
deleted file mode 100644
index 42bbee8d5a2ec..0000000000000
--- a/go/arrow/internal/arrjson/arrjson.go
+++ /dev/null
@@ -1,2462 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package arrjson provides types and functions to encode and decode ARROW types and data
-// to and from JSON files.
-package arrjson
-
-import (
-	"bytes"
-	"encoding/hex"
-	"fmt"
-	"math/big"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type Schema struct {
-	Fields    []FieldWrapper `json:"fields"`
-	arrowMeta arrow.Metadata `json:"-"`
-	Metadata  []metaKV       `json:"metadata,omitempty"`
-}
-
-func (s Schema) MarshalJSON() ([]byte, error) {
-	if s.arrowMeta.Len() > 0 {
-		s.Metadata = make([]metaKV, 0, s.arrowMeta.Len())
-		keys := s.arrowMeta.Keys()
-		vals := s.arrowMeta.Values()
-		for i := range keys {
-			s.Metadata = append(s.Metadata, metaKV{Key: keys[i], Value: vals[i]})
-		}
-	}
-	type alias Schema
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-	enc.SetEscapeHTML(false)
-	err := enc.Encode(alias(s))
-	return buf.Bytes(), err
-}
-
-func (s *Schema) UnmarshalJSON(data []byte) error {
-	type Alias Schema
-	aux := &struct {
-		*Alias
-	}{Alias: (*Alias)(s)}
-	if err := json.Unmarshal(data, &aux); err != nil {
-		return err
-	}
-
-	var (
-		mdkeys = make([]string, 0)
-		mdvals = make([]string, 0)
-	)
-
-	for _, kv := range s.Metadata {
-		mdkeys = append(mdkeys, kv.Key)
-		mdvals = append(mdvals, kv.Value)
-	}
-
-	if len(s.Metadata) > 0 {
-		s.arrowMeta = arrow.NewMetadata(mdkeys, mdvals)
-	}
-	return nil
-}
-
-// FieldWrapper gets used in order to hook into the JSON marshalling and
-// unmarshalling without creating an infinite loop when dealing with the
-// children fields.
-type FieldWrapper struct {
-	Field
-}
-
-type FieldDict struct {
-	ID      int             `json:"id"`
-	Type    json.RawMessage `json:"indexType"`
-	idxType arrow.DataType  `json:"-"`
-	Ordered bool            `json:"isOrdered"`
-}
-
-type Field struct {
-	Name string `json:"name"`
-	// the arrowType will get populated during unmarshalling by processing the
-	// Type, and will be used to generate the Type during Marshalling to JSON
-	arrowType arrow.DataType `json:"-"`
-	// leave this as a json RawMessage in order to partially unmarshal as needed
-	// during marshal/unmarshal time so we can determine what the structure is
-	// actually expected to be.
-	Type       json.RawMessage `json:"type"`
-	Nullable   bool            `json:"nullable"`
-	Children   []FieldWrapper  `json:"children"`
-	arrowMeta  arrow.Metadata  `json:"-"`
-	Dictionary *FieldDict      `json:"dictionary,omitempty"`
-	Metadata   []metaKV        `json:"metadata,omitempty"`
-}
-
-type metaKV struct {
-	Key   string `json:"key"`
-	Value string `json:"value"`
-}
-
-func typeToJSON(arrowType arrow.DataType) (json.RawMessage, error) {
-	var typ interface{}
-	switch dt := arrowType.(type) {
-	case *arrow.NullType:
-		typ = nameJSON{"null"}
-	case *arrow.BooleanType:
-		typ = nameJSON{"bool"}
-	case *arrow.Int8Type:
-		typ = bitWidthJSON{Name: "int", Signed: true, BitWidth: 8}
-	case *arrow.Int16Type:
-		typ = bitWidthJSON{Name: "int", Signed: true, BitWidth: 16}
-	case *arrow.Int32Type:
-		typ = bitWidthJSON{Name: "int", Signed: true, BitWidth: 32}
-	case *arrow.Int64Type:
-		typ = bitWidthJSON{Name: "int", Signed: true, BitWidth: 64}
-	case *arrow.Uint8Type:
-		typ = bitWidthJSON{Name: "int", Signed: false, BitWidth: 8}
-	case *arrow.Uint16Type:
-		typ = bitWidthJSON{Name: "int", Signed: false, BitWidth: 16}
-	case *arrow.Uint32Type:
-		typ = bitWidthJSON{Name: "int", Signed: false, BitWidth: 32}
-	case *arrow.Uint64Type:
-		typ = bitWidthJSON{Name: "int", Signed: false, BitWidth: 64}
-	case *arrow.Float16Type:
-		typ = floatJSON{"floatingpoint", "HALF"}
-	case *arrow.Float32Type:
-		typ = floatJSON{"floatingpoint", "SINGLE"}
-	case *arrow.Float64Type:
-		typ = floatJSON{"floatingpoint", "DOUBLE"}
-	case *arrow.BinaryType:
-		typ = nameJSON{"binary"}
-	case *arrow.LargeBinaryType:
-		typ = nameJSON{"largebinary"}
-	case *arrow.StringType:
-		typ = nameJSON{"utf8"}
-	case *arrow.LargeStringType:
-		typ = nameJSON{"largeutf8"}
-	case *arrow.BinaryViewType:
-		typ = nameJSON{"binaryview"}
-	case *arrow.StringViewType:
-		typ = nameJSON{"utf8view"}
-	case *arrow.Date32Type:
-		typ = unitZoneJSON{Name: "date", Unit: "DAY"}
-	case *arrow.Date64Type:
-		typ = unitZoneJSON{Name: "date", Unit: "MILLISECOND"}
-	case *arrow.MonthIntervalType:
-		typ = unitZoneJSON{Name: "interval", Unit: "YEAR_MONTH"}
-	case *arrow.DayTimeIntervalType:
-		typ = unitZoneJSON{Name: "interval", Unit: "DAY_TIME"}
-	case *arrow.MonthDayNanoIntervalType:
-		typ = unitZoneJSON{Name: "interval", Unit: "MONTH_DAY_NANO"}
-	case *arrow.DurationType:
-		switch dt.Unit {
-		case arrow.Second:
-			typ = unitZoneJSON{Name: "duration", Unit: "SECOND"}
-		case arrow.Millisecond:
-			typ = unitZoneJSON{Name: "duration", Unit: "MILLISECOND"}
-		case arrow.Microsecond:
-			typ = unitZoneJSON{Name: "duration", Unit: "MICROSECOND"}
-		case arrow.Nanosecond:
-			typ = unitZoneJSON{Name: "duration", Unit: "NANOSECOND"}
-		}
-	case *arrow.Time32Type:
-		switch dt.Unit {
-		case arrow.Second:
-			typ = bitWidthJSON{Name: "time", BitWidth: dt.BitWidth(), Unit: "SECOND"}
-		case arrow.Millisecond:
-			typ = bitWidthJSON{Name: "time", BitWidth: dt.BitWidth(), Unit: "MILLISECOND"}
-		}
-	case *arrow.Time64Type:
-		switch dt.Unit {
-		case arrow.Microsecond:
-			typ = bitWidthJSON{Name: "time", BitWidth: dt.BitWidth(), Unit: "MICROSECOND"}
-		case arrow.Nanosecond:
-			typ = bitWidthJSON{Name: "time", BitWidth: dt.BitWidth(), Unit: "NANOSECOND"}
-		}
-	case *arrow.TimestampType:
-		switch dt.Unit {
-		case arrow.Second:
-			typ = unitZoneJSON{Name: "timestamp", Unit: "SECOND", TimeZone: dt.TimeZone}
-		case arrow.Millisecond:
-			typ = unitZoneJSON{Name: "timestamp", Unit: "MILLISECOND", TimeZone: dt.TimeZone}
-		case arrow.Microsecond:
-			typ = unitZoneJSON{Name: "timestamp", Unit: "MICROSECOND", TimeZone: dt.TimeZone}
-		case arrow.Nanosecond:
-			typ = unitZoneJSON{Name: "timestamp", Unit: "NANOSECOND", TimeZone: dt.TimeZone}
-		}
-	case *arrow.ListType:
-		typ = nameJSON{"list"}
-	case *arrow.LargeListType:
-		typ = nameJSON{"largelist"}
-	case *arrow.ListViewType:
-		typ = nameJSON{"listview"}
-	case *arrow.LargeListViewType:
-		typ = nameJSON{"largelistview"}
-	case *arrow.MapType:
-		typ = mapJSON{Name: "map", KeysSorted: dt.KeysSorted}
-	case *arrow.StructType:
-		typ = nameJSON{"struct"}
-	case *arrow.FixedSizeListType:
-		typ = listSizeJSON{"fixedsizelist", dt.Len()}
-	case *arrow.FixedSizeBinaryType:
-		typ = byteWidthJSON{"fixedsizebinary", dt.ByteWidth}
-	case *arrow.Decimal128Type:
-		typ = decimalJSON{"decimal", int(dt.Scale), int(dt.Precision), 128}
-	case *arrow.Decimal256Type:
-		typ = decimalJSON{"decimal", int(dt.Scale), int(dt.Precision), 256}
-	case arrow.UnionType:
-		typ = unionJSON{"union", dt.Mode().String(), dt.TypeCodes()}
-	case *arrow.RunEndEncodedType:
-		typ = nameJSON{"runendencoded"}
-	default:
-		return nil, fmt.Errorf("unknown arrow.DataType %v", arrowType)
-	}
-
-	return json.Marshal(typ)
-}
-
-func (f FieldWrapper) MarshalJSON() ([]byte, error) {
-	// for extension types, add the extension type metadata appropriately
-	// and then marshal as normal for the storage type.
-	if f.arrowType.ID() == arrow.EXTENSION {
-		exType := f.arrowType.(arrow.ExtensionType)
-
-		mdkeys := append(f.arrowMeta.Keys(), ipc.ExtensionTypeKeyName)
-		mdvals := append(f.arrowMeta.Values(), exType.ExtensionName())
-
-		serializedData := exType.Serialize()
-		if len(serializedData) > 0 {
-			mdkeys = append(mdkeys, ipc.ExtensionMetadataKeyName)
-			mdvals = append(mdvals, string(serializedData))
-		}
-
-		f.arrowMeta = arrow.NewMetadata(mdkeys, mdvals)
-		f.arrowType = exType.StorageType()
-	}
-
-	var err error
-	if f.arrowType.ID() == arrow.DICTIONARY {
-		f.arrowType = f.arrowType.(*arrow.DictionaryType).ValueType
-		if f.Dictionary.Type, err = typeToJSON(f.Dictionary.idxType); err != nil {
-			return nil, err
-		}
-	}
-
-	if f.Type, err = typeToJSON(f.arrowType); err != nil {
-		return nil, err
-	}
-
-	// if we have metadata then add the key/value pairs to the json
-	if f.arrowMeta.Len() > 0 {
-		f.Metadata = make([]metaKV, 0, f.arrowMeta.Len())
-		for i := 0; i < f.arrowMeta.Len(); i++ {
-			f.Metadata = append(f.Metadata, metaKV{Key: f.arrowMeta.Keys()[i], Value: f.arrowMeta.Values()[i]})
-		}
-	}
-
-	var buf bytes.Buffer
-	enc := json.NewEncoder(&buf)
-	enc.SetEscapeHTML(false)
-	err = enc.Encode(f.Field)
-	return buf.Bytes(), err
-}
-
-func typeFromJSON(typ json.RawMessage, children []FieldWrapper) (arrowType arrow.DataType, err error) {
-	tmp := nameJSON{}
-	if err = json.Unmarshal(typ, &tmp); err != nil {
-		return
-	}
-
-	switch tmp.Name {
-	case "null":
-		arrowType = arrow.Null
-	case "bool":
-		arrowType = arrow.FixedWidthTypes.Boolean
-	case "int":
-		t := bitWidthJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.Signed {
-		case true:
-			switch t.BitWidth {
-			case 8:
-				arrowType = arrow.PrimitiveTypes.Int8
-			case 16:
-				arrowType = arrow.PrimitiveTypes.Int16
-			case 32:
-				arrowType = arrow.PrimitiveTypes.Int32
-			case 64:
-				arrowType = arrow.PrimitiveTypes.Int64
-			}
-		default:
-			switch t.BitWidth {
-			case 8:
-				arrowType = arrow.PrimitiveTypes.Uint8
-			case 16:
-				arrowType = arrow.PrimitiveTypes.Uint16
-			case 32:
-				arrowType = arrow.PrimitiveTypes.Uint32
-			case 64:
-				arrowType = arrow.PrimitiveTypes.Uint64
-			}
-		}
-	case "floatingpoint":
-		t := floatJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.Precision {
-		case "HALF":
-			arrowType = arrow.FixedWidthTypes.Float16
-		case "SINGLE":
-			arrowType = arrow.PrimitiveTypes.Float32
-		case "DOUBLE":
-			arrowType = arrow.PrimitiveTypes.Float64
-		}
-	case "binary":
-		arrowType = arrow.BinaryTypes.Binary
-	case "largebinary":
-		arrowType = arrow.BinaryTypes.LargeBinary
-	case "utf8":
-		arrowType = arrow.BinaryTypes.String
-	case "largeutf8":
-		arrowType = arrow.BinaryTypes.LargeString
-	case "binaryview":
-		arrowType = arrow.BinaryTypes.BinaryView
-	case "utf8view":
-		arrowType = arrow.BinaryTypes.StringView
-	case "date":
-		t := unitZoneJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.Unit {
-		case "DAY":
-			arrowType = arrow.FixedWidthTypes.Date32
-		case "MILLISECOND":
-			arrowType = arrow.FixedWidthTypes.Date64
-		}
-	case "time":
-		t := bitWidthJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.BitWidth {
-		case 32:
-			switch t.Unit {
-			case "SECOND":
-				arrowType = arrow.FixedWidthTypes.Time32s
-			case "MILLISECOND":
-				arrowType = arrow.FixedWidthTypes.Time32ms
-			}
-		case 64:
-			switch t.Unit {
-			case "MICROSECOND":
-				arrowType = arrow.FixedWidthTypes.Time64us
-			case "NANOSECOND":
-				arrowType = arrow.FixedWidthTypes.Time64ns
-			}
-		}
-	case "timestamp":
-		t := unitZoneJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		arrowType = &arrow.TimestampType{TimeZone: t.TimeZone}
-		switch t.Unit {
-		case "SECOND":
-			arrowType.(*arrow.TimestampType).Unit = arrow.Second
-		case "MILLISECOND":
-			arrowType.(*arrow.TimestampType).Unit = arrow.Millisecond
-		case "MICROSECOND":
-			arrowType.(*arrow.TimestampType).Unit = arrow.Microsecond
-		case "NANOSECOND":
-			arrowType.(*arrow.TimestampType).Unit = arrow.Nanosecond
-		}
-	case "list":
-		arrowType = arrow.ListOfField(arrow.Field{
-			Name:     children[0].Name,
-			Type:     children[0].arrowType,
-			Metadata: children[0].arrowMeta,
-			Nullable: children[0].Nullable,
-		})
-	case "largelist":
-		arrowType = arrow.LargeListOfField(arrow.Field{
-			Name:     children[0].Name,
-			Type:     children[0].arrowType,
-			Metadata: children[0].arrowMeta,
-			Nullable: children[0].Nullable,
-		})
-	case "listview":
-		arrowType = arrow.ListViewOfField(arrow.Field{
-			Name:     children[0].Name,
-			Type:     children[0].arrowType,
-			Metadata: children[0].arrowMeta,
-			Nullable: children[0].Nullable,
-		})
-	case "largelistview":
-		arrowType = arrow.LargeListViewOfField(arrow.Field{
-			Name:     children[0].Name,
-			Type:     children[0].arrowType,
-			Metadata: children[0].arrowMeta,
-			Nullable: children[0].Nullable,
-		})
-	case "map":
-		t := mapJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		pairType := children[0].arrowType
-		arrowType = arrow.MapOf(pairType.(*arrow.StructType).Field(0).Type, pairType.(*arrow.StructType).Field(1).Type)
-		arrowType.(*arrow.MapType).KeysSorted = t.KeysSorted
-	case "struct":
-		arrowType = arrow.StructOf(fieldsFromJSON(children)...)
-	case "fixedsizebinary":
-		t := byteWidthJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		arrowType = &arrow.FixedSizeBinaryType{ByteWidth: t.ByteWidth}
-	case "fixedsizelist":
-		t := listSizeJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		arrowType = arrow.FixedSizeListOfField(t.ListSize, arrow.Field{
-			Name:     children[0].Name,
-			Type:     children[0].arrowType,
-			Metadata: children[0].arrowMeta,
-			Nullable: children[0].Nullable,
-		})
-	case "interval":
-		t := unitZoneJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.Unit {
-		case "YEAR_MONTH":
-			arrowType = arrow.FixedWidthTypes.MonthInterval
-		case "DAY_TIME":
-			arrowType = arrow.FixedWidthTypes.DayTimeInterval
-		case "MONTH_DAY_NANO":
-			arrowType = arrow.FixedWidthTypes.MonthDayNanoInterval
-		}
-	case "duration":
-		t := unitZoneJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.Unit {
-		case "SECOND":
-			arrowType = arrow.FixedWidthTypes.Duration_s
-		case "MILLISECOND":
-			arrowType = arrow.FixedWidthTypes.Duration_ms
-		case "MICROSECOND":
-			arrowType = arrow.FixedWidthTypes.Duration_us
-		case "NANOSECOND":
-			arrowType = arrow.FixedWidthTypes.Duration_ns
-		}
-	case "decimal":
-		t := decimalJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.BitWidth {
-		case 256:
-			arrowType = &arrow.Decimal256Type{Precision: int32(t.Precision), Scale: int32(t.Scale)}
-		case 128, 0: // default to 128 bits when missing
-			arrowType = &arrow.Decimal128Type{Precision: int32(t.Precision), Scale: int32(t.Scale)}
-		}
-	case "union":
-		t := unionJSON{}
-		if err = json.Unmarshal(typ, &t); err != nil {
-			return
-		}
-		switch t.Mode {
-		case "SPARSE":
-			arrowType = arrow.SparseUnionOf(fieldsFromJSON(children), t.TypeIDs)
-		case "DENSE":
-			arrowType = arrow.DenseUnionOf(fieldsFromJSON(children), t.TypeIDs)
-		}
-	case "runendencoded":
-		if len(children) != 2 {
-			err = fmt.Errorf("%w: run-end encoded array must have exactly 2 fields, but got %d",
-				arrow.ErrInvalid, len(children))
-			return
-		}
-		if children[0].Name != "run_ends" {
-			err = fmt.Errorf("%w: first child of run-end encoded array must be called run_ends, but got: %s",
-				arrow.ErrInvalid, children[0].Name)
-			return
-		}
-		switch children[0].arrowType.ID() {
-		case arrow.INT16, arrow.INT32, arrow.INT64:
-		default:
-			err = fmt.Errorf("%w: only int16, int32 and int64 type are supported as run ends array, but got: %s",
-				arrow.ErrInvalid, children[0].Type)
-			return
-		}
-
-		if children[0].Nullable {
-			err = fmt.Errorf("%w: run ends array cannot be nullable", arrow.ErrInvalid)
-			return
-		}
-		if children[1].Name != "values" {
-			err = fmt.Errorf("%w: second child of run-end encoded array must be called values, got: %s",
-				arrow.ErrInvalid, children[1].Name)
-			return
-		}
-		arrowType = arrow.RunEndEncodedOf(children[0].arrowType, children[1].arrowType)
-	}
-
-	if arrowType == nil {
-		err = fmt.Errorf("unhandled type unmarshalling from json: %s", tmp.Name)
-	}
-	return
-}
-
-func (f *FieldWrapper) UnmarshalJSON(data []byte) error {
-	var err error
-	if err = json.Unmarshal(data, &f.Field); err != nil {
-		return err
-	}
-
-	if f.arrowType, err = typeFromJSON(f.Type, f.Children); err != nil {
-		return err
-	}
-
-	if f.Dictionary != nil {
-		if f.Dictionary.idxType, err = typeFromJSON(f.Dictionary.Type, nil); err != nil {
-			return err
-		}
-		f.arrowType = &arrow.DictionaryType{IndexType: f.Dictionary.idxType, ValueType: f.arrowType}
-	}
-
-	if len(f.Metadata) > 0 { // unmarshal the key/value metadata pairs
-		var (
-			mdkeys         = make([]string, 0, len(f.Metadata))
-			mdvals         = make([]string, 0, len(f.Metadata))
-			extKeyIdx  int = -1
-			extDataIdx int = -1
-		)
-
-		for i, kv := range f.Metadata {
-			switch kv.Key {
-			case ipc.ExtensionTypeKeyName:
-				extKeyIdx = i
-			case ipc.ExtensionMetadataKeyName:
-				extDataIdx = i
-			}
-			mdkeys = append(mdkeys, kv.Key)
-			mdvals = append(mdvals, kv.Value)
-		}
-
-		if extKeyIdx == -1 { // no extension metadata just create the metadata
-			f.arrowMeta = arrow.NewMetadata(mdkeys, mdvals)
-			return nil
-		}
-
-		extType := arrow.GetExtensionType(mdvals[extKeyIdx])
-		if extType == nil { // unregistered extension type, just keep the metadata
-			f.arrowMeta = arrow.NewMetadata(mdkeys, mdvals)
-			return nil
-		}
-
-		var extData string
-		if extDataIdx > -1 {
-			extData = mdvals[extDataIdx]
-			// if both extension type and extension type metadata exist
-			// filter out both keys
-			newkeys := make([]string, 0, len(mdkeys)-2)
-			newvals := make([]string, 0, len(mdvals)-2)
-			for i := range mdkeys {
-				if i != extKeyIdx && i != extDataIdx {
-					newkeys = append(newkeys, mdkeys[i])
-					newvals = append(newvals, mdvals[i])
-				}
-			}
-			mdkeys = newkeys
-			mdvals = newvals
-		} else {
-			// if only extension type key is present, we can simplify filtering it out
-			mdkeys = append(mdkeys[:extKeyIdx], mdkeys[extKeyIdx+1:]...)
-			mdvals = append(mdvals[:extKeyIdx], mdvals[extKeyIdx+1:]...)
-		}
-
-		if f.arrowType, err = extType.Deserialize(f.arrowType, extData); err != nil {
-			return err
-		}
-
-		f.arrowMeta = arrow.NewMetadata(mdkeys, mdvals)
-	}
-
-	return err
-}
-
-// the structs below represent various configurations of the Type
-// json block and what fields will be expected. Sometimes there is
-// overlap between the same key used with different types, so it's
-// easier to partial unmarshal and then use these to ensure correct
-// typing.
-
-type nameJSON struct {
-	Name string `json:"name"`
-}
-
-type listSizeJSON struct {
-	Name     string `json:"name"`
-	ListSize int32  `json:"listSize,omitempty"`
-}
-
-type bitWidthJSON struct {
-	Name     string `json:"name"`
-	Signed   bool   `json:"isSigned,omitempty"`
-	BitWidth int    `json:"bitWidth,omitempty"`
-	Unit     string `json:"unit,omitempty"`
-}
-
-type floatJSON struct {
-	Name      string `json:"name"`
-	Precision string `json:"precision,omitempty"`
-}
-
-type unitZoneJSON struct {
-	Name     string `json:"name"`
-	Unit     string `json:"unit,omitempty"`
-	TimeZone string `json:"timezone,omitempty"`
-}
-
-type decimalJSON struct {
-	Name      string `json:"name"`
-	Scale     int    `json:"scale,omitempty"`
-	Precision int    `json:"precision,omitempty"`
-	BitWidth  int    `json:"bitWidth,omitempty"`
-}
-
-type byteWidthJSON struct {
-	Name      string `json:"name"`
-	ByteWidth int    `json:"byteWidth,omitempty"`
-}
-
-type mapJSON struct {
-	Name       string `json:"name"`
-	KeysSorted bool   `json:"keysSorted,omitempty"`
-}
-
-type unionJSON struct {
-	Name    string                `json:"name"`
-	Mode    string                `json:"mode"`
-	TypeIDs []arrow.UnionTypeCode `json:"typeIds"`
-}
-
-func schemaToJSON(schema *arrow.Schema, mapper *dictutils.Mapper) Schema {
-	return Schema{
-		Fields:    fieldsToJSON(schema.Fields(), dictutils.NewFieldPos(), mapper),
-		arrowMeta: schema.Metadata(),
-	}
-}
-
-func schemaFromJSON(schema Schema, memo *dictutils.Memo) *arrow.Schema {
-	sc := arrow.NewSchema(fieldsFromJSON(schema.Fields), &schema.arrowMeta)
-	dictInfoFromJSONFields(schema.Fields, dictutils.NewFieldPos(), memo)
-	return sc
-}
-
-func dictInfoFromJSONFields(fields []FieldWrapper, pos dictutils.FieldPos, memo *dictutils.Memo) {
-	for i, f := range fields {
-		dictInfoFromJSON(f, pos.Child(int32(i)), memo)
-	}
-}
-
-func dictInfoFromJSON(field FieldWrapper, pos dictutils.FieldPos, memo *dictutils.Memo) {
-	if field.Dictionary != nil {
-		typ := field.arrowType
-		if typ.ID() == arrow.EXTENSION {
-			typ = typ.(arrow.ExtensionType).StorageType()
-		}
-		valueType := typ.(*arrow.DictionaryType).ValueType
-
-		if err := memo.Mapper.AddField(int64(field.Dictionary.ID), pos.Path()); err != nil {
-			panic(err)
-		}
-		if err := memo.AddType(int64(field.Dictionary.ID), valueType); err != nil {
-			panic(err)
-		}
-	}
-	dictInfoFromJSONFields(field.Children, pos, memo)
-}
-
-func fieldsToJSON(fields []arrow.Field, parentPos dictutils.FieldPos, mapper *dictutils.Mapper) []FieldWrapper {
-	o := make([]FieldWrapper, len(fields))
-	for i, f := range fields {
-		pos := parentPos.Child(int32(i))
-		o[i] = FieldWrapper{Field{
-			Name:      f.Name,
-			arrowType: f.Type,
-			Nullable:  f.Nullable,
-			Children:  []FieldWrapper{},
-			arrowMeta: f.Metadata,
-		}}
-		typ := f.Type
-		if typ.ID() == arrow.EXTENSION {
-			typ = typ.(arrow.ExtensionType).StorageType()
-		}
-		if typ.ID() == arrow.DICTIONARY {
-			dictType := typ.(*arrow.DictionaryType)
-			typ = dictType.ValueType
-			dictID, err := mapper.GetFieldID(pos.Path())
-			if err != nil {
-				panic(err)
-			}
-			o[i].Dictionary = &FieldDict{
-				idxType: dictType.IndexType,
-				ID:      int(dictID),
-				Ordered: dictType.Ordered,
-			}
-		}
-
-		if dt, ok := typ.(arrow.NestedType); ok {
-			o[i].Children = fieldsToJSON(dt.Fields(), pos, mapper)
-		}
-	}
-	return o
-}
-
-func fieldsFromJSON(fields []FieldWrapper) []arrow.Field {
-	vs := make([]arrow.Field, len(fields))
-	for i, v := range fields {
-		vs[i] = fieldFromJSON(v.Field)
-	}
-	return vs
-}
-
-func fieldFromJSON(f Field) arrow.Field {
-	return arrow.Field{
-		Name:     f.Name,
-		Type:     f.arrowType,
-		Nullable: f.Nullable,
-		Metadata: f.arrowMeta,
-	}
-}
-
-type Dictionary struct {
-	ID   int64  `json:"id"`
-	Data Record `json:"data"`
-}
-
-func dictionariesFromJSON(mem memory.Allocator, dicts []Dictionary, memo *dictutils.Memo) {
-	for _, d := range dicts {
-		valueType, exists := memo.Type(d.ID)
-		if !exists {
-			panic(fmt.Errorf("arrow/json: no corresponding dictionary memo for id=%d", d.ID))
-		}
-
-		dict := arrayFromJSON(mem, valueType, d.Data.Columns[0])
-		defer dict.Release()
-		memo.Add(d.ID, dict)
-	}
-}
-
-type Record struct {
-	Count   int64   `json:"count"`
-	Columns []Array `json:"columns"`
-}
-
-func recordsFromJSON(mem memory.Allocator, schema *arrow.Schema, recs []Record, memo *dictutils.Memo) []arrow.Record {
-	vs := make([]arrow.Record, len(recs))
-	for i, rec := range recs {
-		vs[i] = recordFromJSON(mem, schema, rec, memo)
-	}
-	return vs
-}
-
-func recordFromJSON(mem memory.Allocator, schema *arrow.Schema, rec Record, memo *dictutils.Memo) arrow.Record {
-	arrs := arraysFromJSON(mem, schema, rec.Columns)
-	if err := dictutils.ResolveDictionaries(memo, arrs, dictutils.NewFieldPos(), mem); err != nil {
-		panic(err)
-	}
-
-	cols := make([]arrow.Array, len(arrs))
-	for i, d := range arrs {
-		cols[i] = array.MakeFromData(d)
-		defer d.Release()
-		defer cols[i].Release()
-	}
-	return array.NewRecord(schema, cols, int64(rec.Count))
-}
-
-func recordToJSON(rec arrow.Record) Record {
-	return Record{
-		Count:   rec.NumRows(),
-		Columns: arraysToJSON(rec.Schema(), rec.Columns()),
-	}
-}
-
-type Array struct {
-	Name     string                `json:"name"`
-	Count    int                   `json:"count"`
-	Valids   []int                 `json:"VALIDITY,omitempty"`
-	Data     []interface{}         `json:"DATA,omitempty"`
-	TypeID   []arrow.UnionTypeCode `json:"TYPE_ID,omitempty"`
-	Offset   interface{}           `json:"OFFSET,omitempty"`
-	Size     interface{}           `json:"SIZE,omitempty"`
-	Children []Array               `json:"children,omitempty"`
-	Variadic []string              `json:"VARIADIC_DATA_BUFFERS,omitempty"`
-	Views    []interface{}         `json:"VIEWS,omitempty"`
-}
-
-func (a *Array) MarshalJSON() ([]byte, error) {
-	type Alias Array
-	aux := struct {
-		*Alias
-		OutOffset interface{} `json:"OFFSET,omitempty"`
-		OutSize   interface{} `json:"SIZE,omitempty"`
-	}{Alias: (*Alias)(a), OutOffset: a.Offset, OutSize: a.Size}
-	return json.Marshal(aux)
-}
-
-func (a *Array) UnmarshalJSON(b []byte) (err error) {
-	type Alias Array
-	aux := &struct {
-		*Alias
-		RawOffset json.RawMessage `json:"OFFSET,omitempty"`
-		RawSize   json.RawMessage `json:"SIZE,omitempty"`
-	}{Alias: (*Alias)(a)}
-
-	dec := json.NewDecoder(bytes.NewReader(b))
-	dec.UseNumber()
-
-	if err = dec.Decode(&aux); err != nil {
-		return
-	}
-
-	// Offsets
-	if len(aux.RawOffset) == 0 {
-		return
-	}
-
-	var rawOffsets []interface{}
-	if err = json.Unmarshal(aux.RawOffset, &rawOffsets); err != nil {
-		return
-	}
-
-	if len(rawOffsets) == 0 {
-		return
-	}
-
-	switch rawOffsets[0].(type) {
-	case string:
-		out := make([]int64, len(rawOffsets))
-		for i, o := range rawOffsets {
-			out[i], err = strconv.ParseInt(o.(string), 10, 64)
-			if err != nil {
-				return
-			}
-		}
-		a.Offset = out
-	case float64:
-		out := make([]int32, len(rawOffsets))
-		for i, o := range rawOffsets {
-			out[i] = int32(o.(float64))
-		}
-		a.Offset = out
-	}
-
-	if len(aux.RawSize) == 0 {
-		return
-	}
-
-	// Sizes
-	var rawSizes []interface{}
-	if err = json.Unmarshal(aux.RawSize, &rawSizes); err != nil {
-		return
-	}
-
-	if len(rawSizes) == 0 {
-		return
-	}
-
-	switch rawSizes[0].(type) {
-	case string:
-		out := make([]int64, len(rawSizes))
-		for i, o := range rawSizes {
-			out[i], err = strconv.ParseInt(o.(string), 10, 64)
-			if err != nil {
-				return
-			}
-		}
-		a.Size = out
-	case float64:
-		out := make([]int32, len(rawSizes))
-		for i, o := range rawSizes {
-			out[i] = int32(o.(float64))
-		}
-		a.Size = out
-	}
-
-	return nil
-}
-
-func arraysFromJSON(mem memory.Allocator, schema *arrow.Schema, arrs []Array) []arrow.ArrayData {
-	o := make([]arrow.ArrayData, len(arrs))
-	for i, v := range arrs {
-		o[i] = arrayFromJSON(mem, schema.Field(i).Type, v)
-	}
-	return o
-}
-
-func arraysToJSON(schema *arrow.Schema, arrs []arrow.Array) []Array {
-	o := make([]Array, len(arrs))
-	for i, v := range arrs {
-		o[i] = arrayToJSON(schema.Field(i), v)
-	}
-	return o
-}
-
-func validsToBitmap(valids []bool, mem memory.Allocator) *memory.Buffer {
-	buf := memory.NewResizableBuffer(mem)
-	buf.Resize(int(bitutil.BytesForBits(int64(len(valids)))))
-
-	wr := bitutil.NewBitmapWriter(buf.Bytes(), 0, len(valids))
-	wr.AppendBools(valids)
-	wr.Finish()
-	return buf
-}
-
-func returnNewArrayData(bldr array.Builder) arrow.ArrayData {
-	arr := bldr.NewArray()
-	defer arr.Release()
-	arr.Data().Retain()
-	return arr.Data()
-}
-
-func arrayFromJSON(mem memory.Allocator, dt arrow.DataType, arr Array) arrow.ArrayData {
-	switch dt := dt.(type) {
-	case *arrow.NullType:
-		return array.NewNull(arr.Count).Data()
-
-	case *arrow.BooleanType:
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-		data := boolsFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Int8Type:
-		bldr := array.NewInt8Builder(mem)
-		defer bldr.Release()
-		data := i8FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Int16Type:
-		bldr := array.NewInt16Builder(mem)
-		defer bldr.Release()
-		data := i16FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Int32Type:
-		bldr := array.NewInt32Builder(mem)
-		defer bldr.Release()
-		data := i32FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Int64Type:
-		bldr := array.NewInt64Builder(mem)
-		defer bldr.Release()
-		data := i64FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Uint8Type:
-		bldr := array.NewUint8Builder(mem)
-		defer bldr.Release()
-		data := u8FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Uint16Type:
-		bldr := array.NewUint16Builder(mem)
-		defer bldr.Release()
-		data := u16FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Uint32Type:
-		bldr := array.NewUint32Builder(mem)
-		defer bldr.Release()
-		data := u32FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Uint64Type:
-		bldr := array.NewUint64Builder(mem)
-		defer bldr.Release()
-		data := u64FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Float16Type:
-		bldr := array.NewFloat16Builder(mem)
-		defer bldr.Release()
-		data := f16FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Float32Type:
-		bldr := array.NewFloat32Builder(mem)
-		defer bldr.Release()
-		data := f32FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Float64Type:
-		bldr := array.NewFloat64Builder(mem)
-		defer bldr.Release()
-		data := f64FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.StringType:
-		bldr := array.NewStringBuilder(mem)
-		defer bldr.Release()
-		data := strFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.LargeStringType:
-		bldr := array.NewLargeStringBuilder(mem)
-		defer bldr.Release()
-		data := strFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.LargeBinaryType:
-		bldr := array.NewBinaryBuilder(mem, dt)
-		defer bldr.Release()
-		data := bytesFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.BinaryType:
-		bldr := array.NewBinaryBuilder(mem, dt)
-		defer bldr.Release()
-		data := bytesFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case arrow.BinaryViewDataType:
-		valids := validsToBitmap(validsFromJSON(arr.Valids), mem)
-		nulls := arr.Count - bitutil.CountSetBits(valids.Bytes(), 0, arr.Count)
-		headers := stringHeadersFromJSON(mem, !dt.IsUtf8(), arr.Views)
-		extraBufs := variadicBuffersFromJSON(arr.Variadic)
-		defer valids.Release()
-		defer headers.Release()
-
-		return array.NewData(dt, arr.Count,
-			append([]*memory.Buffer{valids, headers}, extraBufs...),
-			nil, nulls, 0)
-
-	case *arrow.ListType:
-		valids := validsFromJSON(arr.Valids)
-		elems := arrayFromJSON(mem, dt.Elem(), arr.Children[0])
-		defer elems.Release()
-
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap,
-			memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(arr.Offset.([]int32)))},
-			[]arrow.ArrayData{elems}, nulls, 0)
-
-	case *arrow.LargeListType:
-		valids := validsFromJSON(arr.Valids)
-		elems := arrayFromJSON(mem, dt.Elem(), arr.Children[0])
-		defer elems.Release()
-
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap,
-			memory.NewBufferBytes(arrow.Int64Traits.CastToBytes(arr.Offset.([]int64)))},
-			[]arrow.ArrayData{elems}, nulls, 0)
-
-	case *arrow.ListViewType:
-		valids := validsFromJSON(arr.Valids)
-		elems := arrayFromJSON(mem, dt.Elem(), arr.Children[0])
-		defer elems.Release()
-
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-		var offsets, sizes *memory.Buffer
-		if arr.Count == 0 {
-			emptyBuffer := memory.NewBufferBytes(nil)
-			offsets, sizes = emptyBuffer, emptyBuffer
-		} else {
-			offsets = memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(arr.Offset.([]int32)))
-			sizes = memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(arr.Size.([]int32)))
-		}
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap, offsets, sizes}, []arrow.ArrayData{elems}, nulls, 0)
-
-	case *arrow.LargeListViewType:
-		valids := validsFromJSON(arr.Valids)
-		elems := arrayFromJSON(mem, dt.Elem(), arr.Children[0])
-		defer elems.Release()
-
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-		var offsets, sizes *memory.Buffer
-		if arr.Count == 0 {
-			emptyBuffer := memory.NewBufferBytes(nil)
-			offsets, sizes = emptyBuffer, emptyBuffer
-		} else {
-			offsets = memory.NewBufferBytes(arrow.Int64Traits.CastToBytes(arr.Offset.([]int64)))
-			sizes = memory.NewBufferBytes(arrow.Int64Traits.CastToBytes(arr.Size.([]int64)))
-		}
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap, offsets, sizes}, []arrow.ArrayData{elems}, nulls, 0)
-
-	case *arrow.FixedSizeListType:
-		valids := validsFromJSON(arr.Valids)
-		elems := arrayFromJSON(mem, dt.Elem(), arr.Children[0])
-		defer elems.Release()
-
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap}, []arrow.ArrayData{elems}, nulls, 0)
-
-	case *arrow.StructType:
-		valids := validsFromJSON(arr.Valids)
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-
-		fields := make([]arrow.ArrayData, dt.NumFields())
-		for i := range fields {
-			child := arrayFromJSON(mem, dt.Field(i).Type, arr.Children[i])
-			defer child.Release()
-			fields[i] = child
-		}
-
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap}, fields, nulls, 0)
-
-	case *arrow.FixedSizeBinaryType:
-		bldr := array.NewFixedSizeBinaryBuilder(mem, dt)
-		defer bldr.Release()
-		strdata := strFromJSON(arr.Data)
-		data := make([][]byte, len(strdata))
-		for i, v := range strdata {
-			if len(v) != 2*dt.ByteWidth {
-				panic(fmt.Errorf("arrjson: invalid hex-string length (got=%d, want=%d)", len(v), 2*dt.ByteWidth))
-			}
-			vv, err := hex.DecodeString(v)
-			if err != nil {
-				panic(err)
-			}
-			data[i] = vv
-		}
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.MapType:
-		valids := validsFromJSON(arr.Valids)
-		elems := arrayFromJSON(mem, dt.Elem(), arr.Children[0])
-		defer elems.Release()
-
-		bitmap := validsToBitmap(valids, mem)
-		defer bitmap.Release()
-
-		nulls := arr.Count - bitutil.CountSetBits(bitmap.Bytes(), 0, arr.Count)
-		return array.NewData(dt, arr.Count, []*memory.Buffer{bitmap,
-			memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(arr.Offset.([]int32)))},
-			[]arrow.ArrayData{elems}, nulls, 0)
-
-	case *arrow.Date32Type:
-		bldr := array.NewDate32Builder(mem)
-		defer bldr.Release()
-		data := date32FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Date64Type:
-		bldr := array.NewDate64Builder(mem)
-		defer bldr.Release()
-		data := date64FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Time32Type:
-		bldr := array.NewTime32Builder(mem, dt)
-		defer bldr.Release()
-		data := time32FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Time64Type:
-		bldr := array.NewTime64Builder(mem, dt)
-		defer bldr.Release()
-		data := time64FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.TimestampType:
-		bldr := array.NewTimestampBuilder(mem, dt)
-		defer bldr.Release()
-		data := timestampFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.MonthIntervalType:
-		bldr := array.NewMonthIntervalBuilder(mem)
-		defer bldr.Release()
-		data := monthintervalFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.DayTimeIntervalType:
-		bldr := array.NewDayTimeIntervalBuilder(mem)
-		defer bldr.Release()
-		data := daytimeintervalFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.MonthDayNanoIntervalType:
-		bldr := array.NewMonthDayNanoIntervalBuilder(mem)
-		defer bldr.Release()
-		data := monthDayNanointervalFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.DurationType:
-		bldr := array.NewDurationBuilder(mem, dt)
-		defer bldr.Release()
-		data := durationFromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Decimal128Type:
-		bldr := array.NewDecimal128Builder(mem, dt)
-		defer bldr.Release()
-		data := decimal128FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case *arrow.Decimal256Type:
-		bldr := array.NewDecimal256Builder(mem, dt)
-		defer bldr.Release()
-		data := decimal256FromJSON(arr.Data)
-		valids := validsFromJSON(arr.Valids)
-		bldr.AppendValues(data, valids)
-		return returnNewArrayData(bldr)
-
-	case arrow.ExtensionType:
-		storage := arrayFromJSON(mem, dt.StorageType(), arr)
-		defer storage.Release()
-		return array.NewData(dt, storage.Len(), storage.Buffers(), storage.Children(), storage.NullN(), storage.Offset())
-
-	case *arrow.DictionaryType:
-		indices := arrayFromJSON(mem, dt.IndexType, arr)
-		defer indices.Release()
-		return array.NewData(dt, indices.Len(), indices.Buffers(), indices.Children(), indices.NullN(), indices.Offset())
-
-	case *arrow.RunEndEncodedType:
-		runEnds := arrayFromJSON(mem, dt.RunEnds(), arr.Children[0])
-		defer runEnds.Release()
-		values := arrayFromJSON(mem, dt.Encoded(), arr.Children[1])
-		defer values.Release()
-		return array.NewData(dt, arr.Count, []*memory.Buffer{nil}, []arrow.ArrayData{runEnds, values}, 0, 0)
-
-	case arrow.UnionType:
-		fields := make([]arrow.ArrayData, dt.NumFields())
-		for i, f := range dt.Fields() {
-			child := arrayFromJSON(mem, f.Type, arr.Children[i])
-			defer child.Release()
-			fields[i] = child
-		}
-
-		typeIdBuf := memory.NewBufferBytes(arrow.Int8Traits.CastToBytes(arr.TypeID))
-		defer typeIdBuf.Release()
-		buffers := []*memory.Buffer{nil, typeIdBuf}
-		if dt.Mode() == arrow.DenseMode {
-			var offsets []byte
-			if arr.Offset == nil {
-				offsets = []byte{}
-			} else {
-				offsets = arrow.Int32Traits.CastToBytes(arr.Offset.([]int32))
-			}
-			offsetBuf := memory.NewBufferBytes(offsets)
-			defer offsetBuf.Release()
-			buffers = append(buffers, offsetBuf)
-		}
-
-		return array.NewData(dt, arr.Count, buffers, fields, 0, 0)
-
-	default:
-		panic(fmt.Errorf("unknown data type %v %T", dt, dt))
-	}
-}
-
-func arrayToJSON(field arrow.Field, arr arrow.Array) Array {
-	switch arr := arr.(type) {
-	case *array.Null:
-		return Array{
-			Name:  field.Name,
-			Count: arr.Len(),
-		}
-
-	case *array.Boolean:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   boolsToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Int8:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   i8ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Int16:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   i16ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Int32:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   i32ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Int64:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   i64ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Uint8:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   u8ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Uint16:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   u16ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Uint32:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   u32ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Uint64:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   u64ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Float16:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   f16ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Float32:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   f32ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Float64:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   f64ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.String:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   strToJSON(arr),
-			Valids: validsToJSON(arr),
-			Offset: arr.ValueOffsets(),
-		}
-
-	case *array.LargeString:
-		offsets := arr.ValueOffsets()
-		strOffsets := make([]string, len(offsets))
-		for i, o := range offsets {
-			strOffsets[i] = strconv.FormatInt(o, 10)
-		}
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   strToJSON(arr),
-			Valids: validsToJSON(arr),
-			Offset: strOffsets,
-		}
-
-	case *array.Binary:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   bytesToJSON(arr),
-			Valids: validsToJSON(arr),
-			Offset: arr.ValueOffsets(),
-		}
-
-	case *array.LargeBinary:
-		offsets := arr.ValueOffsets()
-		strOffsets := make([]string, len(offsets))
-		for i, o := range offsets {
-			strOffsets[i] = strconv.FormatInt(o, 10)
-		}
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   bytesToJSON(arr),
-			Valids: validsToJSON(arr),
-			Offset: strOffsets,
-		}
-
-	case *array.StringView:
-		variadic := variadicBuffersToJSON(arr.Data().Buffers()[2:])
-		return Array{
-			Name:     field.Name,
-			Count:    arr.Len(),
-			Valids:   validsToJSON(arr),
-			Views:    stringHeadersToJSON(arr, false),
-			Variadic: variadic,
-		}
-	case *array.BinaryView:
-		variadic := variadicBuffersToJSON(arr.Data().Buffers()[2:])
-		return Array{
-			Name:     field.Name,
-			Count:    arr.Len(),
-			Valids:   validsToJSON(arr),
-			Views:    stringHeadersToJSON(arr, true),
-			Variadic: variadic,
-		}
-	case *array.List:
-		o := Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Offset: arr.Offsets(),
-			Children: []Array{
-				arrayToJSON(arrow.Field{Name: "item", Type: arr.DataType().(*arrow.ListType).Elem()}, arr.ListValues()),
-			},
-		}
-		return o
-
-	case *array.LargeList:
-		offsets := arr.Offsets()
-		strOffsets := make([]string, len(offsets))
-		for i, o := range offsets {
-			strOffsets[i] = strconv.FormatInt(o, 10)
-		}
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Offset: strOffsets,
-			Children: []Array{
-				arrayToJSON(arrow.Field{Name: "item", Type: arr.DataType().(*arrow.LargeListType).Elem()}, arr.ListValues()),
-			},
-		}
-
-	case *array.ListView:
-		o := Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Offset: arr.Offsets(),
-			Size:   arr.Sizes(),
-			Children: []Array{
-				arrayToJSON(arrow.Field{Name: "item", Type: arr.DataType().(*arrow.ListViewType).Elem()}, arr.ListValues()),
-			},
-		}
-		if arr.Len() == 0 {
-			o.Offset, o.Size = []int32{}, []int32{}
-		}
-		return o
-
-	case *array.LargeListView:
-		offsets := arr.Offsets()
-		strOffsets := make([]string, len(offsets))
-		for i, o := range offsets {
-			strOffsets[i] = strconv.FormatInt(o, 10)
-		}
-		sizes := arr.Sizes()
-		strSizes := make([]string, len(sizes))
-		for i, s := range sizes {
-			strSizes[i] = strconv.FormatInt(s, 10)
-		}
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Offset: strOffsets,
-			Size:   strSizes,
-			Children: []Array{
-				arrayToJSON(arrow.Field{Name: "item", Type: arr.DataType().(*arrow.LargeListViewType).Elem()}, arr.ListValues()),
-			},
-		}
-
-	case *array.Map:
-		o := Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Offset: arr.Offsets(),
-			Children: []Array{
-				arrayToJSON(arrow.Field{Name: "entries", Type: arr.DataType().(*arrow.MapType).Elem()}, arr.ListValues()),
-			},
-		}
-		return o
-
-	case *array.FixedSizeList:
-		o := Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Children: []Array{
-				arrayToJSON(arrow.Field{Name: "", Type: arr.DataType().(*arrow.FixedSizeListType).Elem()}, arr.ListValues()),
-			},
-		}
-		return o
-
-	case *array.Struct:
-		dt := arr.DataType().(*arrow.StructType)
-		o := Array{
-			Name:     field.Name,
-			Count:    arr.Len(),
-			Valids:   validsToJSON(arr),
-			Children: make([]Array, dt.NumFields()),
-		}
-		for i := range o.Children {
-			o.Children[i] = arrayToJSON(dt.Field(i), arr.Field(i))
-		}
-		return o
-
-	case *array.FixedSizeBinary:
-		dt := arr.DataType().(*arrow.FixedSizeBinaryType)
-		o := Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Valids: validsToJSON(arr),
-			Data:   make([]interface{}, arr.Len()),
-		}
-		for i := range o.Data {
-			v := []byte(strings.ToUpper(hex.EncodeToString(arr.Value(i))))
-			if len(v) != 2*dt.ByteWidth {
-				panic(fmt.Errorf("arrjson: invalid hex-string length (got=%d, want=%d)", len(v), 2*dt.ByteWidth))
-			}
-			o.Data[i] = string(v) // re-convert as string to prevent json.Marshal from base64-encoding it.
-		}
-		return o
-
-	case *array.Date32:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   date32ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Date64:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   date64ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Time32:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   time32ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Time64:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   time64ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Timestamp:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   timestampToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-	case *array.MonthInterval:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   monthintervalToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-	case *array.DayTimeInterval:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   daytimeintervalToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-	case *array.MonthDayNanoInterval:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   monthDayNanointervalToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-	case *array.Duration:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   durationToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Decimal128:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   decimal128ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case *array.Decimal256:
-		return Array{
-			Name:   field.Name,
-			Count:  arr.Len(),
-			Data:   decimal256ToJSON(arr),
-			Valids: validsToJSON(arr),
-		}
-
-	case array.ExtensionArray:
-		return arrayToJSON(field, arr.Storage())
-
-	case *array.Dictionary:
-		return arrayToJSON(field, arr.Indices())
-
-	case array.Union:
-		dt := arr.DataType().(arrow.UnionType)
-		o := Array{
-			Name:     field.Name,
-			Count:    arr.Len(),
-			Valids:   validsToJSON(arr),
-			TypeID:   arr.RawTypeCodes(),
-			Children: make([]Array, dt.NumFields()),
-		}
-		if dt.Mode() == arrow.DenseMode {
-			o.Offset = arr.(*array.DenseUnion).RawValueOffsets()
-		}
-		fields := dt.Fields()
-		for i := range o.Children {
-			o.Children[i] = arrayToJSON(fields[i], arr.Field(i))
-		}
-		return o
-
-	case *array.RunEndEncoded:
-		dt := arr.DataType().(*arrow.RunEndEncodedType)
-		fields := dt.Fields()
-		runEnds := arr.LogicalRunEndsArray(memory.DefaultAllocator)
-		defer runEnds.Release()
-		values := arr.LogicalValuesArray()
-		defer values.Release()
-		return Array{
-			Name:  field.Name,
-			Count: arr.Len(),
-			Children: []Array{
-				arrayToJSON(fields[0], runEnds),
-				arrayToJSON(fields[1], values),
-			},
-		}
-
-	default:
-		panic(fmt.Errorf("unknown array type %T", arr))
-	}
-}
-
-func validsFromJSON(vs []int) []bool {
-	o := make([]bool, len(vs))
-	for i, v := range vs {
-		if v > 0 {
-			o[i] = true
-		}
-	}
-	return o
-}
-
-func validsToJSON(arr arrow.Array) []int {
-	o := make([]int, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = 1
-		}
-	}
-	return o
-}
-
-func boolsFromJSON(vs []interface{}) []bool {
-	o := make([]bool, len(vs))
-	for i, v := range vs {
-		o[i] = v.(bool)
-	}
-	return o
-}
-
-func boolsToJSON(arr *array.Boolean) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func i8FromJSON(vs []interface{}) []int8 {
-	o := make([]int8, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = int8(vv)
-	}
-	return o
-}
-
-func i8ToJSON(arr *array.Int8) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func i16FromJSON(vs []interface{}) []int16 {
-	o := make([]int16, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = int16(vv)
-	}
-	return o
-}
-
-func i16ToJSON(arr *array.Int16) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func i32FromJSON(vs []interface{}) []int32 {
-	o := make([]int32, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = int32(vv)
-	}
-	return o
-}
-
-func i32ToJSON(arr *array.Int32) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func i64FromJSON(vs []interface{}) []int64 {
-	o := make([]int64, len(vs))
-	for i, v := range vs {
-		vv, err := strconv.ParseInt(v.(string), 10, 64)
-		if err != nil {
-			panic(err)
-		}
-		o[i] = vv
-	}
-	return o
-}
-
-func i64ToJSON(arr *array.Int64) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = strconv.FormatInt(arr.Value(i), 10)
-		} else {
-			o[i] = "0"
-		}
-	}
-	return o
-}
-
-func u8FromJSON(vs []interface{}) []uint8 {
-	o := make([]uint8, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = uint8(vv)
-	}
-	return o
-}
-
-func u8ToJSON(arr *array.Uint8) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func u16FromJSON(vs []interface{}) []uint16 {
-	o := make([]uint16, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = uint16(vv)
-	}
-	return o
-}
-
-func u16ToJSON(arr *array.Uint16) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func u32FromJSON(vs []interface{}) []uint32 {
-	o := make([]uint32, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = uint32(vv)
-	}
-	return o
-}
-
-func u32ToJSON(arr *array.Uint32) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func u64FromJSON(vs []interface{}) []uint64 {
-	o := make([]uint64, len(vs))
-	for i, v := range vs {
-		vv, err := strconv.ParseUint(v.(string), 10, 64)
-		if err != nil {
-			panic(err)
-		}
-		o[i] = vv
-	}
-	return o
-}
-
-func u64ToJSON(arr *array.Uint64) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = strconv.FormatUint(arr.Value(i), 10)
-		} else {
-			o[i] = "0"
-		}
-	}
-	return o
-}
-
-func f16FromJSON(vs []interface{}) []float16.Num {
-	o := make([]float16.Num, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Float64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = float16.New(float32(vv))
-	}
-	return o
-}
-
-func f16ToJSON(arr *array.Float16) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i).Float32()
-	}
-	return o
-}
-
-func f32FromJSON(vs []interface{}) []float32 {
-	o := make([]float32, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Float64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = float32(vv)
-	}
-	return o
-}
-
-func f32ToJSON(arr *array.Float32) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func f64FromJSON(vs []interface{}) []float64 {
-	o := make([]float64, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Float64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = float64(vv)
-	}
-	return o
-}
-
-func f64ToJSON(arr *array.Float64) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func decimal128ToJSON(arr *array.Decimal128) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i).BigInt().String()
-	}
-	return o
-}
-
-func decimal128FromJSON(vs []interface{}) []decimal128.Num {
-	var tmp big.Int
-	o := make([]decimal128.Num, len(vs))
-	for i, v := range vs {
-		if err := tmp.UnmarshalJSON([]byte(v.(string))); err != nil {
-			panic(fmt.Errorf("could not convert %v (%T) to decimal128: %w", v, v, err))
-		}
-
-		o[i] = decimal128.FromBigInt(&tmp)
-	}
-	return o
-}
-
-func decimal256ToJSON(arr *array.Decimal256) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i).BigInt().String()
-	}
-	return o
-}
-
-func decimal256FromJSON(vs []interface{}) []decimal256.Num {
-	var tmp big.Int
-	o := make([]decimal256.Num, len(vs))
-	for i, v := range vs {
-		if err := tmp.UnmarshalJSON([]byte(v.(string))); err != nil {
-			panic(fmt.Errorf("could not convert %v (%T) to decimal128: %w", v, v, err))
-		}
-
-		o[i] = decimal256.FromBigInt(&tmp)
-	}
-	return o
-}
-
-func strFromJSON(vs []interface{}) []string {
-	o := make([]string, len(vs))
-	for i, v := range vs {
-		switch v := v.(type) {
-		case string:
-			o[i] = v
-		case json.Number:
-			o[i] = v.String()
-		default:
-			panic(fmt.Errorf("could not convert %v (%T) to a string", v, v))
-		}
-	}
-	return o
-}
-
-type strlike interface {
-	arrow.Array
-	Value(int) string
-}
-
-func strToJSON(arr strlike) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func bytesFromJSON(vs []interface{}) [][]byte {
-	o := make([][]byte, len(vs))
-	for i, v := range vs {
-		var err error
-		switch v := v.(type) {
-		case string:
-			o[i], err = hex.DecodeString(v)
-		case json.Number:
-			o[i], err = hex.DecodeString(v.String())
-		default:
-			panic(fmt.Errorf("could not convert %v (%T) to a string", v, v))
-		}
-		if err != nil {
-			panic(fmt.Errorf("could not decode %v: %v", v, err))
-		}
-	}
-	return o
-}
-
-type binarylike interface {
-	arrow.Array
-	Value(int) []byte
-}
-
-func bytesToJSON(arr binarylike) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = strings.ToUpper(hex.EncodeToString(arr.Value(i)))
-	}
-	return o
-}
-
-func date32FromJSON(vs []interface{}) []arrow.Date32 {
-	o := make([]arrow.Date32, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.Date32(vv)
-	}
-	return o
-}
-
-func date32ToJSON(arr *array.Date32) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = int32(arr.Value(i))
-	}
-	return o
-}
-
-func date64FromJSON(vs []interface{}) []arrow.Date64 {
-	o := make([]arrow.Date64, len(vs))
-	for i, v := range vs {
-		vv, err := strconv.ParseInt(v.(string), 10, 64)
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.Date64(vv)
-	}
-	return o
-}
-
-func date64ToJSON(arr *array.Date64) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-		} else {
-			o[i] = "0"
-		}
-	}
-	return o
-}
-
-func time32FromJSON(vs []interface{}) []arrow.Time32 {
-	o := make([]arrow.Time32, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.Time32(vv)
-	}
-	return o
-}
-
-func time32ToJSON(arr *array.Time32) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = int32(arr.Value(i))
-	}
-	return o
-}
-
-func time64FromJSON(vs []interface{}) []arrow.Time64 {
-	o := make([]arrow.Time64, len(vs))
-	for i, v := range vs {
-		vv, err := strconv.ParseInt(v.(string), 10, 64)
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.Time64(vv)
-	}
-	return o
-}
-
-func time64ToJSON(arr *array.Time64) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-		} else {
-			o[i] = "0"
-		}
-	}
-	return o
-}
-
-func timestampFromJSON(vs []interface{}) []arrow.Timestamp {
-	o := make([]arrow.Timestamp, len(vs))
-	for i, v := range vs {
-		vv, err := strconv.ParseInt(v.(string), 10, 64)
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.Timestamp(vv)
-	}
-	return o
-}
-
-func timestampToJSON(arr *array.Timestamp) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-		} else {
-			o[i] = "0"
-		}
-	}
-	return o
-}
-
-func monthintervalFromJSON(vs []interface{}) []arrow.MonthInterval {
-	o := make([]arrow.MonthInterval, len(vs))
-	for i, v := range vs {
-		vv, err := v.(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.MonthInterval(int32(vv))
-	}
-	return o
-}
-
-func monthintervalToJSON(arr *array.MonthInterval) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = int32(arr.Value(i))
-	}
-	return o
-}
-
-func daytimeintervalFromJSON(vs []interface{}) []arrow.DayTimeInterval {
-	o := make([]arrow.DayTimeInterval, len(vs))
-	for i, vv := range vs {
-		v := vv.(map[string]interface{})
-		days, err := v["days"].(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		ms, err := v["milliseconds"].(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.DayTimeInterval{Days: int32(days), Milliseconds: int32(ms)}
-	}
-	return o
-}
-
-func daytimeintervalToJSON(arr *array.DayTimeInterval) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func monthDayNanointervalFromJSON(vs []interface{}) []arrow.MonthDayNanoInterval {
-	o := make([]arrow.MonthDayNanoInterval, len(vs))
-	for i, vv := range vs {
-		v := vv.(map[string]interface{})
-		months, err := v["months"].(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		days, err := v["days"].(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		ns, err := v["nanoseconds"].(json.Number).Int64()
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.MonthDayNanoInterval{Months: int32(months), Days: int32(days), Nanoseconds: ns}
-	}
-	return o
-}
-
-func monthDayNanointervalToJSON(arr *array.MonthDayNanoInterval) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		o[i] = arr.Value(i)
-	}
-	return o
-}
-
-func durationFromJSON(vs []interface{}) []arrow.Duration {
-	o := make([]arrow.Duration, len(vs))
-	for i, v := range vs {
-		vv, err := strconv.ParseInt(v.(string), 10, 64)
-		if err != nil {
-			panic(err)
-		}
-		o[i] = arrow.Duration(vv)
-	}
-	return o
-}
-
-func durationToJSON(arr *array.Duration) []interface{} {
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		if arr.IsValid(i) {
-			o[i] = strconv.FormatInt(int64(arr.Value(i)), 10)
-		} else {
-			o[i] = "0"
-		}
-	}
-	return o
-}
-
-func variadicBuffersFromJSON(bufs []string) []*memory.Buffer {
-	out := make([]*memory.Buffer, len(bufs))
-	for i, data := range bufs {
-		rawData, err := hex.DecodeString(data)
-		if err != nil {
-			panic(err)
-		}
-
-		out[i] = memory.NewBufferBytes(rawData)
-	}
-	return out
-}
-
-func variadicBuffersToJSON(bufs []*memory.Buffer) []string {
-	out := make([]string, len(bufs))
-	for i, data := range bufs {
-		out[i] = strings.ToUpper(hex.EncodeToString(data.Bytes()))
-	}
-	return out
-}
-
-func stringHeadersFromJSON(mem memory.Allocator, isBinary bool, data []interface{}) *memory.Buffer {
-	buf := memory.NewResizableBuffer(mem)
-	buf.Resize(arrow.ViewHeaderTraits.BytesRequired(len(data)))
-
-	values := arrow.ViewHeaderTraits.CastFromBytes(buf.Bytes())
-
-	for i, d := range data {
-		switch v := d.(type) {
-		case nil:
-			continue
-		case map[string]interface{}:
-			if inlined, ok := v["INLINED"]; ok {
-				if isBinary {
-					val, err := hex.DecodeString(inlined.(string))
-					if err != nil {
-						panic(fmt.Errorf("could not decode %v: %v", inlined, err))
-					}
-					values[i].SetBytes(val)
-				} else {
-					values[i].SetString(inlined.(string))
-				}
-				continue
-			}
-
-			idx, offset := v["BUFFER_INDEX"].(json.Number), v["OFFSET"].(json.Number)
-			bufIdx, err := idx.Int64()
-			if err != nil {
-				panic(err)
-			}
-
-			bufOffset, err := offset.Int64()
-			if err != nil {
-				panic(err)
-			}
-
-			values[i].SetIndexOffset(int32(bufIdx), int32(bufOffset))
-			prefix, err := hex.DecodeString(v["PREFIX_HEX"].(string))
-			if err != nil {
-				panic(err)
-			}
-			sz, err := v["SIZE"].(json.Number).Int64()
-			if err != nil {
-				panic(err)
-			}
-
-			rawData := make([]byte, sz)
-			copy(rawData, prefix)
-			values[i].SetBytes(rawData)
-		}
-	}
-	return buf
-}
-
-func stringHeadersToJSON(arr array.ViewLike, isBinary bool) []interface{} {
-	type StringHeader struct {
-		Size      int     `json:"SIZE"`
-		Prefix    *string `json:"PREFIX_HEX,omitempty"`
-		BufferIdx *int    `json:"BUFFER_INDEX,omitempty"`
-		BufferOff *int    `json:"OFFSET,omitempty"`
-		Inlined   *string `json:"INLINED,omitempty"`
-	}
-
-	o := make([]interface{}, arr.Len())
-	for i := range o {
-		hdr := arr.ValueHeader(i)
-		if hdr.IsInline() {
-			data := hdr.InlineString()
-			if isBinary {
-				data = strings.ToUpper(hex.EncodeToString(hdr.InlineBytes()))
-			}
-			o[i] = StringHeader{
-				Size:    hdr.Len(),
-				Inlined: &data,
-			}
-			continue
-		}
-
-		idx, off := int(hdr.BufferIndex()), int(hdr.BufferOffset())
-		prefix := hdr.Prefix()
-		encodedPrefix := strings.ToUpper(hex.EncodeToString(prefix[:]))
-		o[i] = StringHeader{
-			Size:      hdr.Len(),
-			Prefix:    &encodedPrefix,
-			BufferIdx: &idx,
-			BufferOff: &off,
-		}
-	}
-	return o
-}
diff --git a/go/arrow/internal/arrjson/arrjson_test.go b/go/arrow/internal/arrjson/arrjson_test.go
deleted file mode 100644
index 7459ef8ae8f1d..0000000000000
--- a/go/arrow/internal/arrjson/arrjson_test.go
+++ /dev/null
@@ -1,6388 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrjson
-
-import (
-	"errors"
-	"io"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestReadWrite(t *testing.T) {
-	wantJSONs := make(map[string]string)
-	wantJSONs["nulls"] = makeNullWantJSONs()
-	wantJSONs["primitives"] = makePrimitiveWantJSONs()
-	wantJSONs["structs"] = makeStructsWantJSONs()
-	wantJSONs["lists"] = makeListsWantJSONs()
-	wantJSONs["list_views"] = makeListViewsWantJSONs()
-	wantJSONs["strings"] = makeStringsWantJSONs()
-	wantJSONs["fixed_size_lists"] = makeFixedSizeListsWantJSONs()
-	wantJSONs["fixed_width_types"] = makeFixedWidthTypesWantJSONs()
-	wantJSONs["fixed_size_binaries"] = makeFixedSizeBinariesWantJSONs()
-	wantJSONs["intervals"] = makeIntervalsWantJSONs()
-	wantJSONs["durations"] = makeDurationsWantJSONs()
-	wantJSONs["decimal128"] = makeDecimal128sWantJSONs()
-	wantJSONs["decimal256"] = makeDecimal256sWantJSONs()
-	wantJSONs["maps"] = makeMapsWantJSONs()
-	wantJSONs["extension"] = makeExtensionsWantJSONs()
-	wantJSONs["dictionary"] = makeDictionaryWantJSONs()
-	wantJSONs["union"] = makeUnionWantJSONs()
-	wantJSONs["run_end_encoded"] = makeRunEndEncodedWantJSONs()
-	wantJSONs["view_types"] = makeViewTypesWantJSONs()
-	tempDir := t.TempDir()
-
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			f, err := os.CreateTemp(tempDir, "go-arrow-read-write-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			w, err := NewWriter(f, recs[0].Schema())
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer w.Close()
-
-			for i, rec := range recs {
-				err = w.Write(rec)
-				if err != nil {
-					t.Fatalf("could not write record[%d] to JSON: %v", i, err)
-				}
-			}
-
-			err = w.Close()
-			if err != nil {
-				t.Fatalf("could not close JSON writer: %v", err)
-			}
-
-			err = f.Sync()
-			if err != nil {
-				t.Fatalf("could not sync data to disk: %v", err)
-			}
-
-			fileBytes, _ := os.ReadFile(f.Name())
-			assert.JSONEq(t, wantJSONs[name], string(fileBytes))
-
-			_, err = f.Seek(0, io.SeekStart)
-			if err != nil {
-				t.Fatalf("could not rewind file: %v", err)
-			}
-
-			r, err := NewReader(f, WithAllocator(mem), WithSchema(recs[0].Schema()))
-			if err != nil {
-				raw, _ := os.ReadFile(f.Name())
-				t.Fatalf("could not read JSON file: %v\n%v\n", err, string(raw))
-			}
-			defer r.Release()
-
-			r.Retain()
-			r.Release()
-
-			if got, want := r.Schema(), recs[0].Schema(); !got.Equal(want) {
-				t.Fatalf("invalid schema\ngot:\n%v\nwant:\n%v\n", got, want)
-			}
-
-			if got, want := r.NumRecords(), len(recs); got != want {
-				t.Fatalf("invalid number of records: got=%d, want=%d", got, want)
-			}
-
-			nrecs := 0
-			for {
-				rec, err := r.Read()
-				if errors.Is(err, io.EOF) {
-					break
-				}
-				if err != nil {
-					t.Fatalf("could not read record[%d]: %v", nrecs, err)
-				}
-
-				if !array.RecordEqual(rec, recs[nrecs]) {
-					t.Fatalf("records[%d] differ", nrecs)
-				}
-				nrecs++
-			}
-
-			if got, want := nrecs, len(recs); got != want {
-				t.Fatalf("invalid number of records: got=%d, want=%d", got, want)
-			}
-		})
-	}
-}
-
-func makeNullWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "nulls",
-        "type": {
-          "name": "null"
-        },
-        "nullable": true,
-        "children": []
-      }
-    ],
-    "metadata": [
-      {
-        "key": "k1",
-        "value": "v1"
-      },
-      {
-        "key": "k2",
-        "value": "v2"
-      },
-      {
-        "key": "k3",
-        "value": "v3"
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "nulls",
-          "count": 5
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "nulls",
-          "count": 5
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "nulls",
-          "count": 5
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makePrimitiveWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "bools",
-        "type": {
-          "name": "bool"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "int8s",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 8
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "int16s",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 16
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "int32s",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 32
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "int64s",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 64
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "uint8s",
-        "type": {
-          "name": "int",
-          "bitWidth": 8
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "uint16s",
-        "type": {
-          "name": "int",
-          "bitWidth": 16
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "uint32s",
-        "type": {
-          "name": "int",
-          "bitWidth": 32
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "uint64s",
-        "type": {
-          "name": "int",
-          "bitWidth": 64
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "float32s",
-        "type": {
-          "name": "floatingpoint",
-          "precision": "SINGLE"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "float64s",
-        "type": {
-          "name": "floatingpoint",
-          "precision": "DOUBLE"
-        },
-        "nullable": true,
-        "children": []
-      }
-    ],
-    "metadata": [
-      {
-        "key": "k1",
-        "value": "v1"
-      },
-      {
-        "key": "k2",
-        "value": "v2"
-      },
-      {
-        "key": "k3",
-        "value": "v3"
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "bools",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            true,
-            false,
-            true,
-            false,
-            true
-          ]
-        },
-        {
-          "name": "int8s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -1,
-            -2,
-            -3,
-            -4,
-            -5
-          ]
-        },
-        {
-          "name": "int16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -1,
-            -2,
-            -3,
-            -4,
-            -5
-          ]
-        },
-        {
-          "name": "int32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -1,
-            -2,
-            -3,
-            -4,
-            -5
-          ]
-        },
-        {
-          "name": "int64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-1",
-            "0",
-            "0",
-            "-4",
-            "-5"
-          ]
-        },
-        {
-          "name": "uint8s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        },
-        {
-          "name": "uint16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        },
-        {
-          "name": "uint32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        },
-        {
-          "name": "uint64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "1",
-            "0",
-            "0",
-            "4",
-            "5"
-          ]
-        },
-        {
-          "name": "float32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        },
-        {
-          "name": "float64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "bools",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            true,
-            false,
-            true,
-            false,
-            true
-          ]
-        },
-        {
-          "name": "int8s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -11,
-            -12,
-            -13,
-            -14,
-            -15
-          ]
-        },
-        {
-          "name": "int16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -11,
-            -12,
-            -13,
-            -14,
-            -15
-          ]
-        },
-        {
-          "name": "int32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -11,
-            -12,
-            -13,
-            -14,
-            -15
-          ]
-        },
-        {
-          "name": "int64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-11",
-            "0",
-            "0",
-            "-14",
-            "-15"
-          ]
-        },
-        {
-          "name": "uint8s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            11,
-            12,
-            13,
-            14,
-            15
-          ]
-        },
-        {
-          "name": "uint16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            11,
-            12,
-            13,
-            14,
-            15
-          ]
-        },
-        {
-          "name": "uint32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            11,
-            12,
-            13,
-            14,
-            15
-          ]
-        },
-        {
-          "name": "uint64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "11",
-            "0",
-            "0",
-            "14",
-            "15"
-          ]
-        },
-        {
-          "name": "float32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            11,
-            12,
-            13,
-            14,
-            15
-          ]
-        },
-        {
-          "name": "float64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            11,
-            12,
-            13,
-            14,
-            15
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "bools",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            true,
-            false,
-            true,
-            false,
-            true
-          ]
-        },
-        {
-          "name": "int8s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -21,
-            -22,
-            -23,
-            -24,
-            -25
-          ]
-        },
-        {
-          "name": "int16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -21,
-            -22,
-            -23,
-            -24,
-            -25
-          ]
-        },
-        {
-          "name": "int32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -21,
-            -22,
-            -23,
-            -24,
-            -25
-          ]
-        },
-        {
-          "name": "int64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-21",
-            "0",
-            "0",
-            "-24",
-            "-25"
-          ]
-        },
-        {
-          "name": "uint8s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25
-          ]
-        },
-        {
-          "name": "uint16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25
-          ]
-        },
-        {
-          "name": "uint32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25
-          ]
-        },
-        {
-          "name": "uint64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "21",
-            "0",
-            "0",
-            "24",
-            "25"
-          ]
-        },
-        {
-          "name": "float32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25
-          ]
-        },
-        {
-          "name": "float64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeStructsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "struct_nullable",
-        "type": {
-          "name": "struct"
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "f1",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": false,
-            "children": []
-          },
-          {
-            "name": "f2",
-            "type": {
-              "name": "utf8"
-            },
-            "nullable": false,
-            "children": []
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 25,
-      "columns": [
-        {
-          "name": "struct_nullable",
-          "count": 25,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            1,
-            1,
-            0,
-            1,
-            1,
-            1,
-            1,
-            0,
-            1,
-            1,
-            1,
-            1,
-            0,
-            1,
-            1,
-            1,
-            1,
-            0,
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "f1",
-              "count": 25,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                0,
-                -4,
-                -5,
-                -11,
-                0,
-                0,
-                -14,
-                -15,
-                -21,
-                0,
-                0,
-                -24,
-                -25,
-                -31,
-                0,
-                0,
-                -34,
-                -35,
-                -41,
-                0,
-                0,
-                -44,
-                -45
-              ]
-            },
-            {
-              "name": "f2",
-              "count": 25,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                "111",
-                "",
-                "",
-                "444",
-                "555",
-                "1111",
-                "",
-                "",
-                "1444",
-                "1555",
-                "2111",
-                "",
-                "",
-                "2444",
-                "2555",
-                "3111",
-                "",
-                "",
-                "3444",
-                "3555",
-                "4111",
-                "",
-                "",
-                "4444",
-                "4555"
-              ],
-              "OFFSET": [
-                0,
-                3,
-                3,
-                3,
-                6,
-                9,
-                13,
-                13,
-                13,
-                17,
-                21,
-                25,
-                25,
-                25,
-                29,
-                33,
-                37,
-                37,
-                37,
-                41,
-                45,
-                49,
-                49,
-                49,
-                53,
-                57
-              ]
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 25,
-      "columns": [
-        {
-          "name": "struct_nullable",
-          "count": 25,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1,
-            1,
-            0,
-            0,
-            1,
-            1,
-            1,
-            0,
-            0,
-            1,
-            1,
-            1,
-            0,
-            0,
-            1,
-            1,
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "f1",
-              "count": 25,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                1,
-                0,
-                0,
-                4,
-                5,
-                11,
-                0,
-                0,
-                14,
-                15,
-                21,
-                0,
-                0,
-                24,
-                25,
-                31,
-                0,
-                0,
-                34,
-                35,
-                41,
-                0,
-                0,
-                44,
-                45
-              ]
-            },
-            {
-              "name": "f2",
-              "count": 25,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                "-111",
-                "",
-                "",
-                "-444",
-                "-555",
-                "-1111",
-                "",
-                "",
-                "-1444",
-                "-1555",
-                "-2111",
-                "",
-                "",
-                "-2444",
-                "-2555",
-                "-3111",
-                "",
-                "",
-                "-3444",
-                "-3555",
-                "-4111",
-                "",
-                "",
-                "-4444",
-                "-4555"
-              ],
-              "OFFSET": [
-                0,
-                4,
-                4,
-                4,
-                8,
-                12,
-                17,
-                17,
-                17,
-                22,
-                27,
-                32,
-                32,
-                32,
-                37,
-                42,
-                47,
-                47,
-                47,
-                52,
-                57,
-                62,
-                62,
-                62,
-                67,
-                72
-              ]
-            }
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeListsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "list_nullable",
-        "type": {
-          "name": "list"
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "item",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "list_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "item",
-              "count": 15,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                1,
-                0,
-                0,
-                4,
-                5,
-                11,
-                0,
-                0,
-                14,
-                15,
-                21,
-                0,
-                0,
-                24,
-                25
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            5,
-            10,
-            15
-          ]
-        }
-      ]
-    },
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "list_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "item",
-              "count": 15,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                0,
-                -4,
-                -5,
-                -11,
-                0,
-                0,
-                -14,
-                -15,
-                -21,
-                0,
-                0,
-                -24,
-                -25
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            5,
-            10,
-            15
-          ]
-        }
-      ]
-    },
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "list_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            0,
-            1
-          ],
-          "children": [
-            {
-              "name": "item",
-              "count": 15,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                0,
-                -4,
-                -5,
-                -11,
-                0,
-                0,
-                -14,
-                -15,
-                -21,
-                0,
-                0,
-                -24,
-                -25
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            5,
-            10,
-            15
-          ]
-        }
-      ]
-    },
-    {
-      "count": 0,
-      "columns": [
-        {
-          "name": "list_nullable",
-          "count": 0,
-          "children": [
-            {
-              "name": "item",
-              "count": 0
-            }
-          ],
-          "OFFSET": [
-            0
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeListViewsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "list_view_nullable",
-        "type": {
-          "name": "listview"
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "item",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "list_view_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "item",
-              "count": 15,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                1,
-                0,
-                0,
-                4,
-                5,
-                11,
-                0,
-                0,
-                14,
-                15,
-                21,
-                0,
-                0,
-                24,
-                25
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            5,
-            10
-          ],
-          "SIZE": [
-            5,
-            5,
-            5
-          ]
-        }
-      ]
-    },
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "list_view_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "item",
-              "count": 15,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                0,
-                -4,
-                -5,
-                -11,
-                0,
-                0,
-                -14,
-                -15,
-                -21,
-                0,
-                0,
-                -24,
-                -25
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            5,
-            10
-          ],
-          "SIZE": [
-            5,
-            5,
-            5
-          ]
-        }
-      ]
-    },
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "list_view_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            0,
-            1
-          ],
-          "children": [
-            {
-              "name": "item",
-              "count": 10,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                0,
-                -4,
-                -5,
-                -21,
-                0,
-                0,
-                -24,
-                -25
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            5,
-            5
-          ],
-          "SIZE": [
-            5,
-            0,
-            5
-          ]
-        }
-      ]
-    },
-    {
-      "count": 0,
-      "columns": [
-        {
-          "name": "list_view_nullable",
-          "count": 0,
-          "children": [
-            {
-              "name": "item",
-              "count": 0
-            }
-          ],
-          "OFFSET": [
-          ],
-          "SIZE": [
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeFixedSizeListsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "fixed_size_list_nullable",
-        "type": {
-          "name": "fixedsizelist",
-          "listSize": 3
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "item",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "fixed_size_list_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "",
-              "count": 9,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0,
-                1,
-                1,
-                0,
-                1
-              ],
-              "DATA": [
-                1,
-                0,
-                3,
-                11,
-                0,
-                13,
-                21,
-                0,
-                23
-              ]
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "fixed_size_list_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            1,
-            1
-          ],
-          "children": [
-            {
-              "name": "",
-              "count": 9,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0,
-                1,
-                1,
-                0,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                -3,
-                -11,
-                0,
-                -13,
-                -21,
-                0,
-                -23
-              ]
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 3,
-      "columns": [
-        {
-          "name": "fixed_size_list_nullable",
-          "count": 3,
-          "VALIDITY": [
-            1,
-            0,
-            1
-          ],
-          "children": [
-            {
-              "name": "",
-              "count": 9,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0,
-                1,
-                1,
-                0,
-                1
-              ],
-              "DATA": [
-                -1,
-                0,
-                -3,
-                -11,
-                0,
-                -13,
-                -21,
-                0,
-                -23
-              ]
-            }
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeStringsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "strings",
-        "type": {
-          "name": "utf8"
-        },
-        "nullable": false,
-        "children": []
-      },
-      {
-        "name": "bytes",
-        "type": {
-          "name": "binary"
-        },
-        "nullable": false,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "strings",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "1é",
-            "2",
-            "3",
-            "4",
-            "5"
-          ],
-          "OFFSET": [
-            0,
-            3,
-            4,
-            5,
-            6,
-            7
-          ]
-        },
-        {
-          "name": "bytes",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "31C3A9",
-            "32",
-            "33",
-            "34",
-            "35"
-          ],
-          "OFFSET": [
-            0,
-            3,
-            4,
-            5,
-            6,
-            7
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "strings",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "11",
-            "22",
-            "33",
-            "44",
-            "55"
-          ],
-          "OFFSET": [
-            0,
-            2,
-            4,
-            6,
-            8,
-            10
-          ]
-        },
-        {
-          "name": "bytes",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "3131",
-            "3232",
-            "3333",
-            "3434",
-            "3535"
-          ],
-          "OFFSET": [
-            0,
-            2,
-            4,
-            6,
-            8,
-            10
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "strings",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "111",
-            "222",
-            "333",
-            "444",
-            "555"
-          ],
-          "OFFSET": [
-            0,
-            3,
-            6,
-            9,
-            12,
-            15
-          ]
-        },
-        {
-          "name": "bytes",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "313131",
-            "323232",
-            "333333",
-            "343434",
-            "353535"
-          ],
-          "OFFSET": [
-            0,
-            3,
-            6,
-            9,
-            12,
-            15
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeFixedWidthTypesWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "float16s",
-        "type": {
-          "name": "floatingpoint",
-          "precision": "HALF"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "time32ms",
-        "type": {
-          "name": "time",
-          "bitWidth": 32,
-          "unit": "MILLISECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "time32s",
-        "type": {
-          "name": "time",
-          "bitWidth": 32,
-          "unit": "SECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "time64ns",
-        "type": {
-          "name": "time",
-          "bitWidth": 64,
-          "unit": "NANOSECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "time64us",
-        "type": {
-          "name": "time",
-          "bitWidth": 64,
-          "unit": "MICROSECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "timestamp_s",
-        "type": {
-          "name": "timestamp",
-          "unit": "SECOND",
-          "timezone": "UTC"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "timestamp_ms",
-        "type": {
-          "name": "timestamp",
-          "unit": "MILLISECOND",
-          "timezone": "UTC"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "timestamp_us",
-        "type": {
-          "name": "timestamp",
-          "unit": "MICROSECOND",
-          "timezone": "UTC"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "timestamp_ns",
-        "type": {
-          "name": "timestamp",
-          "unit": "NANOSECOND",
-          "timezone": "UTC"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "date32s",
-        "type": {
-          "name": "date",
-          "unit": "DAY"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "date64s",
-        "type": {
-          "name": "date",
-          "unit": "MILLISECOND"
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "float16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        },
-        {
-          "name": "time32ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -2,
-            -1,
-            0,
-            1,
-            2
-          ]
-        },
-        {
-          "name": "time32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -2,
-            -1,
-            0,
-            1,
-            2
-          ]
-        },
-        {
-          "name": "time64ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-2",
-            "0",
-            "0",
-            "1",
-            "2"
-          ]
-        },
-        {
-          "name": "time64us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-2",
-            "0",
-            "0",
-            "1",
-            "2"
-          ]
-        },
-        {
-          "name": "timestamp_s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "0",
-            "0",
-            "0",
-            "3",
-            "4"
-          ]
-        },
-        {
-          "name": "timestamp_ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "0",
-            "0",
-            "0",
-            "3",
-            "4"
-          ]
-        },
-        {
-          "name": "timestamp_us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "0",
-            "0",
-            "0",
-            "3",
-            "4"
-          ]
-        },
-        {
-          "name": "timestamp_ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "0",
-            "0",
-            "0",
-            "3",
-            "4"
-          ]
-        },
-        {
-          "name": "date32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -2,
-            -1,
-            0,
-            1,
-            2
-          ]
-        },
-        {
-          "name": "date64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-2",
-            "0",
-            "0",
-            "1",
-            "2"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "float16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            11,
-            12,
-            13,
-            14,
-            15
-          ]
-        },
-        {
-          "name": "time32ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -12,
-            -11,
-            10,
-            11,
-            12
-          ]
-        },
-        {
-          "name": "time32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -12,
-            -11,
-            10,
-            11,
-            12
-          ]
-        },
-        {
-          "name": "time64ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-12",
-            "0",
-            "0",
-            "11",
-            "12"
-          ]
-        },
-        {
-          "name": "time64us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-12",
-            "0",
-            "0",
-            "11",
-            "12"
-          ]
-        },
-        {
-          "name": "timestamp_s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "10",
-            "0",
-            "0",
-            "13",
-            "14"
-          ]
-        },
-        {
-          "name": "timestamp_ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "10",
-            "0",
-            "0",
-            "13",
-            "14"
-          ]
-        },
-        {
-          "name": "timestamp_us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "10",
-            "0",
-            "0",
-            "13",
-            "14"
-          ]
-        },
-        {
-          "name": "timestamp_ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "10",
-            "0",
-            "0",
-            "13",
-            "14"
-          ]
-        },
-        {
-          "name": "date32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -12,
-            -11,
-            10,
-            11,
-            12
-          ]
-        },
-        {
-          "name": "date64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-12",
-            "0",
-            "0",
-            "11",
-            "12"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "float16s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25
-          ]
-        },
-        {
-          "name": "time32ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -22,
-            -21,
-            20,
-            21,
-            22
-          ]
-        },
-        {
-          "name": "time32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -22,
-            -21,
-            20,
-            21,
-            22
-          ]
-        },
-        {
-          "name": "time64ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-22",
-            "0",
-            "0",
-            "21",
-            "22"
-          ]
-        },
-        {
-          "name": "time64us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-22",
-            "0",
-            "0",
-            "21",
-            "22"
-          ]
-        },
-        {
-          "name": "timestamp_s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "20",
-            "0",
-            "0",
-            "23",
-            "24"
-          ]
-        },
-        {
-          "name": "timestamp_ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "20",
-            "0",
-            "0",
-            "23",
-            "24"
-          ]
-        },
-        {
-          "name": "timestamp_us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "20",
-            "0",
-            "0",
-            "23",
-            "24"
-          ]
-        },
-        {
-          "name": "timestamp_ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "20",
-            "0",
-            "0",
-            "23",
-            "24"
-          ]
-        },
-        {
-          "name": "date32s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -22,
-            -21,
-            20,
-            21,
-            22
-          ]
-        },
-        {
-          "name": "date64s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "-22",
-            "0",
-            "0",
-            "21",
-            "22"
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeFixedSizeBinariesWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "fixed_size_binary_3",
-        "type": {
-          "name": "fixedsizebinary",
-          "byteWidth": 3
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "fixed_size_binary_3",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "303031",
-            "303032",
-            "303033",
-            "303034",
-            "303035"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "fixed_size_binary_3",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "303131",
-            "303132",
-            "303133",
-            "303134",
-            "303135"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "fixed_size_binary_3",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "303231",
-            "303232",
-            "303233",
-            "303234",
-            "303235"
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeIntervalsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "months",
-        "type": {
-          "name": "interval",
-          "unit": "YEAR_MONTH"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "days",
-        "type": {
-          "name": "interval",
-          "unit": "DAY_TIME"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "nanos",
-        "type": {
-          "name": "interval",
-          "unit": "MONTH_DAY_NANO"
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "months",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            1,
-            2,
-            3,
-            4,
-            5
-          ]
-        },
-        {
-          "name": "days",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            {
-              "days": 1,
-              "milliseconds": 1
-            },
-            {
-              "days": 2,
-              "milliseconds": 2
-            },
-            {
-              "days": 3,
-              "milliseconds": 3
-            },
-            {
-              "days": 4,
-              "milliseconds": 4
-            },
-            {
-              "days": 5,
-              "milliseconds": 5
-            }
-          ]
-        },
-        {
-          "name": "nanos",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            {
-              "months": 1,
-              "days": 1,
-              "nanoseconds": 1000
-            },
-            {
-              "months": 2,
-              "days": 2,
-              "nanoseconds": 2000
-            },
-            {
-              "months": 3,
-              "days": 3,
-              "nanoseconds": 3000
-            },
-            {
-              "months": 4,
-              "days": 4,
-              "nanoseconds": 4000
-            },
-            {
-              "months": 5,
-              "days": 5,
-              "nanoseconds": 5000
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "months",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            -11,
-            -12,
-            -13,
-            -14,
-            -15
-          ]
-        },
-        {
-          "name": "days",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            {
-              "days": -11,
-              "milliseconds": -11
-            },
-            {
-              "days": -12,
-              "milliseconds": -12
-            },
-            {
-              "days": -13,
-              "milliseconds": -13
-            },
-            {
-              "days": -14,
-              "milliseconds": -14
-            },
-            {
-              "days": -15,
-              "milliseconds": -15
-            }
-          ]
-        },
-        {
-          "name": "nanos",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            {
-              "months": -11,
-              "days": -11,
-              "nanoseconds": -11000
-            },
-            {
-              "months": -12,
-              "days": -12,
-              "nanoseconds": -12000
-            },
-            {
-              "months": -13,
-              "days": -13,
-              "nanoseconds": -13000
-            },
-            {
-              "months": -14,
-              "days": -14,
-              "nanoseconds": -14000
-            },
-            {
-              "months": -15,
-              "days": -15,
-              "nanoseconds": -15000
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 6,
-      "columns": [
-        {
-          "name": "months",
-          "count": 6,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1,
-            1
-          ],
-          "DATA": [
-            21,
-            22,
-            23,
-            24,
-            25,
-            0
-          ]
-        },
-        {
-          "name": "days",
-          "count": 6,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1,
-            1
-          ],
-          "DATA": [
-            {
-              "days": 21,
-              "milliseconds": 21
-            },
-            {
-              "days": 22,
-              "milliseconds": 22
-            },
-            {
-              "days": 23,
-              "milliseconds": 23
-            },
-            {
-              "days": 24,
-              "milliseconds": 24
-            },
-            {
-              "days": 25,
-              "milliseconds": 25
-            },
-            {
-              "days": 0,
-              "milliseconds": 0
-            }
-          ]
-        },
-        {
-          "name": "nanos",
-          "count": 6,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1,
-            1
-          ],
-          "DATA": [
-            {
-              "months": 21,
-              "days": 21,
-              "nanoseconds": 21000
-            },
-            {
-              "months": 22,
-              "days": 22,
-              "nanoseconds": 22000
-            },
-            {
-              "months": 23,
-              "days": 23,
-              "nanoseconds": 23000
-            },
-            {
-              "months": 24,
-              "days": 24,
-              "nanoseconds": 24000
-            },
-            {
-              "months": 25,
-              "days": 25,
-              "nanoseconds": 25000
-            },
-            {
-              "months": 0,
-              "days": 0,
-              "nanoseconds": 0
-            }
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeDurationsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "durations-s",
-        "type": {
-          "name": "duration",
-          "unit": "SECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "durations-ms",
-        "type": {
-          "name": "duration",
-          "unit": "MILLISECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "durations-us",
-        "type": {
-          "name": "duration",
-          "unit": "MICROSECOND"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "durations-ns",
-        "type": {
-          "name": "duration",
-          "unit": "NANOSECOND"
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "durations-s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "1",
-            "0",
-            "0",
-            "4",
-            "5"
-          ]
-        },
-        {
-          "name": "durations-ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "1",
-            "0",
-            "0",
-            "4",
-            "5"
-          ]
-        },
-        {
-          "name": "durations-us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "1",
-            "0",
-            "0",
-            "4",
-            "5"
-          ]
-        },
-        {
-          "name": "durations-ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "1",
-            "0",
-            "0",
-            "4",
-            "5"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "durations-s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "11",
-            "0",
-            "0",
-            "14",
-            "15"
-          ]
-        },
-        {
-          "name": "durations-ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "11",
-            "0",
-            "0",
-            "14",
-            "15"
-          ]
-        },
-        {
-          "name": "durations-us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "11",
-            "0",
-            "0",
-            "14",
-            "15"
-          ]
-        },
-        {
-          "name": "durations-ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "11",
-            "0",
-            "0",
-            "14",
-            "15"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "durations-s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "21",
-            "0",
-            "0",
-            "24",
-            "25"
-          ]
-        },
-        {
-          "name": "durations-ms",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "21",
-            "0",
-            "0",
-            "24",
-            "25"
-          ]
-        },
-        {
-          "name": "durations-us",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "21",
-            "0",
-            "0",
-            "24",
-            "25"
-          ]
-        },
-        {
-          "name": "durations-ns",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "21",
-            "0",
-            "0",
-            "24",
-            "25"
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeDecimal128sWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "dec128s",
-        "type": {
-          "name": "decimal",
-          "scale": 1,
-          "precision": 10,
-          "bitWidth": 128
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "dec128s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "571849066284996100127",
-            "590295810358705651744",
-            "608742554432415203361",
-            "627189298506124754978",
-            "645636042579834306595"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "dec128s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "756316507022091616297",
-            "774763251095801167914",
-            "793209995169510719531",
-            "811656739243220271148",
-            "830103483316929822765"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "dec128s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "940783947759187132467",
-            "959230691832896684084",
-            "977677435906606235701",
-            "996124179980315787318",
-            "1014570924054025338935"
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeDecimal256sWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "dec256s",
-        "type": {
-          "name": "decimal",
-          "scale": 2,
-          "precision": 72,
-          "bitWidth": 256
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "dec256s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "131819136443120296047697507592700702471267712715359757795349",
-            "138096238178506976811873579382829307350851889511329270071318",
-            "144373339913893657576049651172957912230436066307298782347287",
-            "150650441649280338340225722963086517110020243103268294623256",
-            "156927543384667019104401794753215121989604419899237806899225"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "dec256s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "194590153796987103689458225493986751267109480675054880555039",
-            "200867255532373784453634297284115356146693657471024392831008",
-            "207144357267760465217810369074243961026277834266993905106977",
-            "213421459003147145981986440864372565905862011062963417382946",
-            "219698560738533826746162512654501170785446187858932929658915"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "dec256s",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "DATA": [
-            "257361171150853911331218943395272800062951248634750003314729",
-            "263638272886240592095395015185401404942535425430719515590698",
-            "269915374621627272859571086975530009822119602226689027866667",
-            "276192476357013953623747158765658614701703779022658540142636",
-            "282469578092400634387923230555787219581287955818628052418605"
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeMapsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "map_int_utf8",
-        "type": {
-          "name": "map",
-          "keysSorted": true
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "entries",
-            "type": {
-              "name": "struct"
-            },
-            "nullable": false,
-            "children": [
-              {
-                "name": "key",
-                "type": {
-                  "name": "int",
-                  "isSigned": true,
-                  "bitWidth": 32
-                },
-                "nullable": false,
-                "children": []
-              },
-              {
-                "name": "value",
-                "type": {
-                  "name": "utf8"
-                },
-                "nullable": true,
-                "children": []
-              }
-            ]
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 2,
-      "columns": [
-        {
-          "name": "map_int_utf8",
-          "count": 2,
-          "VALIDITY": [
-            1,
-            0
-          ],
-          "children": [
-            {
-              "name": "entries",
-              "count": 50,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "children": [
-                {
-                  "name": "key",
-                  "count": 50,
-                  "VALIDITY": [
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1
-                  ],
-                  "DATA": [
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5
-                  ]
-                },
-                {
-                  "name": "value",
-                  "count": 50,
-                  "VALIDITY": [
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1
-                  ],
-                  "DATA": [
-                    "111",
-                    "",
-                    "",
-                    "444",
-                    "555",
-                    "1111",
-                    "",
-                    "",
-                    "1444",
-                    "1555",
-                    "2111",
-                    "",
-                    "",
-                    "2444",
-                    "2555",
-                    "3111",
-                    "",
-                    "",
-                    "3444",
-                    "3555",
-                    "4111",
-                    "",
-                    "",
-                    "4444",
-                    "4555",
-                    "-111",
-                    "",
-                    "",
-                    "-444",
-                    "-555",
-                    "-1111",
-                    "",
-                    "",
-                    "-1444",
-                    "-1555",
-                    "-2111",
-                    "",
-                    "",
-                    "-2444",
-                    "-2555",
-                    "-3111",
-                    "",
-                    "",
-                    "-3444",
-                    "-3555",
-                    "-4111",
-                    "",
-                    "",
-                    "-4444",
-                    "-4555"
-                  ],
-                  "OFFSET": [
-                    0,
-                    3,
-                    3,
-                    3,
-                    6,
-                    9,
-                    13,
-                    13,
-                    13,
-                    17,
-                    21,
-                    25,
-                    25,
-                    25,
-                    29,
-                    33,
-                    37,
-                    37,
-                    37,
-                    41,
-                    45,
-                    49,
-                    49,
-                    49,
-                    53,
-                    57,
-                    61,
-                    61,
-                    61,
-                    65,
-                    69,
-                    74,
-                    74,
-                    74,
-                    79,
-                    84,
-                    89,
-                    89,
-                    89,
-                    94,
-                    99,
-                    104,
-                    104,
-                    104,
-                    109,
-                    114,
-                    119,
-                    119,
-                    119,
-                    124,
-                    129
-                  ]
-                }
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            25,
-            50
-          ]
-        }
-      ]
-    },
-    {
-      "count": 2,
-      "columns": [
-        {
-          "name": "map_int_utf8",
-          "count": 2,
-          "VALIDITY": [
-            1,
-            0
-          ],
-          "children": [
-            {
-              "name": "entries",
-              "count": 50,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "children": [
-                {
-                  "name": "key",
-                  "count": 50,
-                  "VALIDITY": [
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1,
-                    1
-                  ],
-                  "DATA": [
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    1,
-                    2,
-                    3,
-                    4,
-                    5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5,
-                    -1,
-                    -2,
-                    -3,
-                    -4,
-                    -5
-                  ]
-                },
-                {
-                  "name": "value",
-                  "count": 50,
-                  "VALIDITY": [
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1,
-                    1,
-                    0,
-                    0,
-                    1,
-                    1
-                  ],
-                  "DATA": [
-                    "-111",
-                    "",
-                    "",
-                    "-444",
-                    "-555",
-                    "-1111",
-                    "",
-                    "",
-                    "-1444",
-                    "-1555",
-                    "-2111",
-                    "",
-                    "",
-                    "-2444",
-                    "-2555",
-                    "-3111",
-                    "",
-                    "",
-                    "-3444",
-                    "-3555",
-                    "-4111",
-                    "",
-                    "",
-                    "-4444",
-                    "-4555",
-                    "111",
-                    "",
-                    "",
-                    "444",
-                    "555",
-                    "1111",
-                    "",
-                    "",
-                    "1444",
-                    "1555",
-                    "2111",
-                    "",
-                    "",
-                    "2444",
-                    "2555",
-                    "3111",
-                    "",
-                    "",
-                    "3444",
-                    "3555",
-                    "4111",
-                    "",
-                    "",
-                    "4444",
-                    "4555"
-                  ],
-                  "OFFSET": [
-                    0,
-                    4,
-                    4,
-                    4,
-                    8,
-                    12,
-                    17,
-                    17,
-                    17,
-                    22,
-                    27,
-                    32,
-                    32,
-                    32,
-                    37,
-                    42,
-                    47,
-                    47,
-                    47,
-                    52,
-                    57,
-                    62,
-                    62,
-                    62,
-                    67,
-                    72,
-                    75,
-                    75,
-                    75,
-                    78,
-                    81,
-                    85,
-                    85,
-                    85,
-                    89,
-                    93,
-                    97,
-                    97,
-                    97,
-                    101,
-                    105,
-                    109,
-                    109,
-                    109,
-                    113,
-                    117,
-                    121,
-                    121,
-                    121,
-                    125,
-                    129
-                  ]
-                }
-              ]
-            }
-          ],
-          "OFFSET": [
-            0,
-            25,
-            50
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeDictionaryWantJSONs() string {
-	return `{
-    "schema": {
-      "fields": [
-        {
-          "name": "dict0",
-          "type": {
-            "name": "utf8"
-          },
-          "nullable": true,
-          "children": [],
-          "dictionary": {
-            "id": 0,
-            "indexType": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 8
-            },
-            "isOrdered": false
-          }
-        },
-        {
-          "name": "dict1",
-          "type": {
-            "name": "utf8"
-          },
-          "nullable": true,
-          "children": [],
-          "dictionary": {
-            "id": 1,
-            "indexType": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "isOrdered": false
-          }
-        },
-        {
-          "name": "dict2",
-          "type": {
-            "name": "int",
-            "isSigned": true,
-            "bitWidth": 64
-          },
-          "nullable": true,
-          "children": [],
-          "dictionary": {
-            "id": 2,
-            "indexType": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 16
-            },
-            "isOrdered": false
-          }
-        }
-      ]
-    },
-    "dictionaries": [
-      {
-        "id": 0,
-        "data": {
-          "count": 10,
-          "columns": [
-            {
-              "name": "DICT0",
-              "count": 10,
-              "VALIDITY": [
-                1,
-                1,
-                0,
-                0,
-                0,
-                1,
-                1,
-                0,
-                1,
-                0
-              ],
-              "OFFSET": [
-                0,
-                7,
-                16,
-                16,
-                16,
-                16,
-                28,
-                39,
-                39,
-                46,
-                46
-              ],
-              "DATA": [
-                "gen3wjf",
-                "bbg61\u00b5\u00b0",
-                "",
-                "",
-                "",
-                "\u00f4\u00f42n\u20acm\u00a3",
-                "jb2b\u20acd\u20ac",
-                "",
-                "jfjddrg",
-                ""
-              ]
-            }
-          ]
-        }
-      },
-      {
-        "id": 1,
-        "data": {
-          "count": 5,
-          "columns": [
-            {
-              "name": "DICT1",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "OFFSET": [
-                0,
-                8,
-                18,
-                27,
-                35,
-                45
-              ],
-              "DATA": [
-                "\u00c2arcall",
-                "\u77e23b\u00b0eif",
-                "i3ak\u00b0k\u00b5",
-                "gp16\u00a3nd",
-                "f4\u00b01e\u00c2\u00b0"
-              ]
-            }
-          ]
-        }
-      },
-      {
-        "id": 2,
-        "data": {
-          "count": 50,
-          "columns": [
-            {
-              "name": "DICT2",
-              "count": 50,
-              "VALIDITY": [
-                1,
-                0,
-                0,
-                1,
-                1,
-                0,
-                1,
-                0,
-                0,
-                0,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                0,
-                1,
-                1,
-                1,
-                1,
-                0,
-                0,
-                0,
-                1,
-                0,
-                1,
-                0,
-                1,
-                1,
-                1,
-                0,
-                0,
-                0,
-                0,
-                0,
-                1,
-                1,
-                0,
-                1,
-                1,
-                1,
-                1,
-                0,
-                0,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                "-2147483648",
-                "2147483647",
-                "97251241",
-                "-315526314",
-                "-256834552",
-                "-1159355470",
-                "800976983",
-                "-1728247486",
-                "-1784101814",
-                "1320684343",
-                "-788965748",
-                "1298782506",
-                "1971840342",
-                "686564052",
-                "-115364825",
-                "1787500433",
-                "-123446338",
-                "-1973712113",
-                "870684092",
-                "-994630427",
-                "-1826738974",
-                "461928552",
-                "1374967188",
-                "1317234669",
-                "1129789963",
-                "312195995",
-                "1535930156",
-                "-1610317326",
-                "-721673697",
-                "1443186644",
-                "-643456149",
-                "1132307434",
-                "1240578589",
-                "379611602",
-                "2011416968",
-                "165842874",
-                "-570054451",
-                "893435720",
-                "835998817",
-                "1223423131",
-                "-1677568310",
-                "-230900360",
-                "-229961726",
-                "2113303164",
-                "201112068",
-                "452691328",
-                "-1980985397",
-                "675701869",
-                "-1802109191",
-                "-669843831"
-              ]
-            }
-          ]
-        }
-      }
-    ],
-    "batches": [
-      {
-        "count": 7,
-        "columns": [
-          {
-            "name": "dict0",
-            "count": 7,
-            "VALIDITY": [
-              1,
-              1,
-              0,
-              1,
-              0,
-              1,
-              1
-            ],
-            "DATA": [
-              7,
-              6,
-              3,
-              1,
-              2,
-              9,
-              1
-            ]
-          },
-          {
-            "name": "dict1",
-            "count": 7,
-            "VALIDITY": [
-              1,
-              1,
-              0,
-              0,
-              0,
-              1,
-              0
-            ],
-            "DATA": [
-              0,
-              0,
-              3,
-              3,
-              4,
-              2,
-              3
-            ]
-          },
-          {
-            "name": "dict2",
-            "count": 7,
-            "VALIDITY": [
-              0,
-              1,
-              0,
-              1,
-              1,
-              0,
-              1
-            ],
-            "DATA": [
-              3,
-              11,
-              0,
-              33,
-              5,
-              21,
-              9
-            ]
-          }
-        ]
-      },
-      {
-        "count": 10,
-        "columns": [
-          {
-            "name": "dict0",
-            "count": 10,
-            "VALIDITY": [
-              0,
-              0,
-              0,
-              1,
-              0,
-              0,
-              1,
-              0,
-              1,
-              1
-            ],
-            "DATA": [
-              9,
-              4,
-              3,
-              9,
-              5,
-              7,
-              9,
-              4,
-              0,
-              9
-            ]
-          },
-          {
-            "name": "dict1",
-            "count": 10,
-            "VALIDITY": [
-              0,
-              0,
-              0,
-              1,
-              0,
-              0,
-              1,
-              1,
-              1,
-              0
-            ],
-            "DATA": [
-              1,
-              2,
-              4,
-              3,
-              3,
-              3,
-              2,
-              4,
-              4,
-              4
-            ]
-          },
-          {
-            "name": "dict2",
-            "count": 10,
-            "VALIDITY": [
-              0,
-              0,
-              1,
-              1,
-              1,
-              1,
-              0,
-              0,
-              1,
-              0
-            ],
-            "DATA": [
-              24,
-              26,
-              39,
-              4,
-              23,
-              23,
-              6,
-              28,
-              9,
-              49
-            ]
-          }
-        ]
-      }
-    ]
-  }`
-}
-
-func makeExtensionsWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "p1",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 32
-        },
-        "nullable": true,
-        "children": [],
-        "metadata": [
-          {
-            "key": "k1",
-            "value": "v1"
-          },
-          {
-            "key": "k2",
-            "value": "v2"
-          },
-          {
-            "key": "ARROW:extension:name",
-            "value": "parametric-type-1"
-          },
-          {
-            "key": "ARROW:extension:metadata",
-            "value": "\u0006\u0000\u0000\u0000"
-          }
-        ]
-      },
-      {
-        "name": "p2",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 32
-        },
-        "nullable": true,
-        "children": [],
-        "metadata": [
-          {
-            "key": "k1",
-            "value": "v1"
-          },
-          {
-            "key": "k2",
-            "value": "v2"
-          },
-          {
-            "key": "ARROW:extension:name",
-            "value": "parametric-type-1"
-          },
-          {
-            "key": "ARROW:extension:metadata",
-            "value": "\u000c\u0000\u0000\u0000"
-          }
-        ]
-      },
-      {
-        "name": "p3",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 32
-        },
-        "nullable": true,
-        "children": [],
-        "metadata": [
-          {
-            "key": "k1",
-            "value": "v1"
-          },
-          {
-            "key": "k2",
-            "value": "v2"
-          },
-          {
-            "key": "ARROW:extension:name",
-            "value": "parametric-type-2<param=2>"
-          },
-          {
-            "key": "ARROW:extension:metadata",
-            "value": "\u0002\u0000\u0000\u0000"
-          }
-        ]
-      },
-      {
-        "name": "p4",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 32
-        },
-        "nullable": true,
-        "children": [],
-        "metadata": [
-          {
-            "key": "k1",
-            "value": "v1"
-          },
-          {
-            "key": "k2",
-            "value": "v2"
-          },
-          {
-            "key": "ARROW:extension:name",
-            "value": "parametric-type-2<param=3>"
-          },
-          {
-            "key": "ARROW:extension:metadata",
-            "value": "\u0003\u0000\u0000\u0000"
-          }
-        ]
-      },
-      {
-        "name": "p5",
-        "type": {
-          "name": "struct"
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "a",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 64
-            },
-            "nullable": false,
-            "children": []
-          },
-          {
-            "name": "b",
-            "type": {
-              "name": "floatingpoint",
-              "precision": "DOUBLE"
-            },
-            "nullable": false,
-            "children": []
-          }
-        ],
-        "metadata": [
-          {
-            "key": "k1",
-            "value": "v1"
-          },
-          {
-            "key": "k2",
-            "value": "v2"
-          },
-          {
-            "key": "ARROW:extension:name",
-            "value": "ext-struct-type"
-          },
-          {
-            "key": "ARROW:extension:metadata",
-            "value": "ext-struct-type-unique-code"
-          }
-        ]
-      },
-      {
-        "name": "unreg",
-        "type": {
-          "name": "int",
-          "isSigned": true,
-          "bitWidth": 8
-        },
-        "nullable": true,
-        "children": [],
-        "metadata": [
-          {
-            "key": "k1",
-            "value": "v1"
-          },
-          {
-            "key": "k2",
-            "value": "v2"
-          },
-          {
-            "key": "ARROW:extension:name",
-            "value": "unregistered"
-          },
-          {
-            "key": "ARROW:extension:metadata",
-            "value": ""
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "p1",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            1,
-            -1,
-            2,
-            3,
-            -1
-          ]
-        },
-        {
-          "name": "p2",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            2,
-            -1,
-            3,
-            4,
-            -1
-          ]
-        },
-        {
-          "name": "p3",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            5,
-            -1,
-            6,
-            7,
-            8
-          ]
-        },
-        {
-          "name": "p4",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            5,
-            -1,
-            7,
-            9,
-            -1
-          ]
-        },
-        {
-          "name": "p5",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "children": [
-            {
-              "name": "a",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                "1",
-                "0",
-                "2",
-                "3",
-                "0"
-              ]
-            },
-            {
-              "name": "b",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                0.1,
-                0,
-                0.2,
-                0.3,
-                0
-              ]
-            }
-          ]
-        },
-        {
-          "name": "unreg",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            -1,
-            -2,
-            -3,
-            -4,
-            -5
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "p1",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            10,
-            -1,
-            20,
-            30,
-            -1
-          ]
-        },
-        {
-          "name": "p2",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            20,
-            -1,
-            30,
-            40,
-            -1
-          ]
-        },
-        {
-          "name": "p3",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            50,
-            -1,
-            60,
-            70,
-            8
-          ]
-        },
-        {
-          "name": "p4",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            50,
-            -1,
-            70,
-            90,
-            -1
-          ]
-        },
-        {
-          "name": "p5",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "children": [
-            {
-              "name": "a",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                "10",
-                "0",
-                "20",
-                "30",
-                "0"
-              ]
-            },
-            {
-              "name": "b",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                0.01,
-                0,
-                0.02,
-                0.03,
-                0
-              ]
-            }
-          ]
-        },
-        {
-          "name": "unreg",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            1,
-            1,
-            0
-          ],
-          "DATA": [
-            -11,
-            -12,
-            -13,
-            -14,
-            -15
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeUnionWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "sparse",
-        "type": {
-          "name": "union",
-          "mode": "SPARSE",
-          "typeIds": [
-            5,
-            10
-          ]
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "u0",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": true,
-            "children": []
-          },
-          {
-            "name": "u1",
-            "type": {
-              "name": "int",
-              "bitWidth": 8
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      },
-      {
-        "name": "dense",
-        "type": {
-          "name": "union",
-          "mode": "DENSE",
-          "typeIds": [
-            5,
-            10
-          ]
-        },
-        "nullable": true,
-        "children": [
-          {
-            "name": "u0",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": true,
-            "children": []
-          },
-          {
-            "name": "u1",
-            "type": {
-              "name": "int",
-              "bitWidth": 8
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 7,
-      "columns": [
-        {
-          "name": "sparse",
-          "count": 7,
-          "VALIDITY": [
-            1,
-            1,
-            1,
-            1,
-            1,
-            1,
-            1
-          ],
-          "TYPE_ID": [
-            5,
-            10,
-            5,
-            5,
-            10,
-            10,
-            5
-          ],
-          "children": [
-            {
-              "name": "u0",
-              "count": 7,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                0,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                0,
-                1,
-                2,
-                3,
-                4,
-                5,
-                6
-              ]
-            },
-            {
-              "name": "u1",
-              "count": 7,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                10,
-                11,
-                12,
-                13,
-                14,
-                15,
-                16
-              ]
-            }
-          ]
-        },
-        {
-          "name": "dense",
-          "count": 7,
-          "VALIDITY": [
-            1,
-            1,
-            1,
-            1,
-            1,
-            1,
-            1
-          ],
-          "TYPE_ID": [
-            5,
-            10,
-            5,
-            5,
-            10,
-            10,
-            5
-          ],
-          "OFFSET": [
-            0,
-            0,
-            1,
-            2,
-            1,
-            2,
-            3
-          ],
-          "children": [
-            {
-              "name": "u0",
-              "count": 4,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                1
-              ],
-              "DATA": [
-                0,
-                2,
-                3,
-                7
-              ]
-            },
-            {
-              "name": "u1",
-              "count": 3,
-              "VALIDITY": [
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                11,
-                14,
-                15
-              ]
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 7,
-      "columns": [
-        {
-          "name": "sparse",
-          "count": 7,
-          "VALIDITY": [
-            1,
-            1,
-            1,
-            1,
-            1,
-            1,
-            1
-          ],
-          "TYPE_ID": [
-            5,
-            10,
-            5,
-            5,
-            10,
-            10,
-            5
-          ],
-          "children": [
-            {
-              "name": "u0",
-              "count": 7,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                0,
-                -1,
-                -2,
-                -3,
-                -4,
-                -5,
-                -6
-              ]
-            },
-            {
-              "name": "u1",
-              "count": 7,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                100,
-                101,
-                102,
-                103,
-                104,
-                105,
-                106
-              ]
-            }
-          ]
-        },
-        {
-          "name": "dense",
-          "count": 7,
-          "VALIDITY": [
-            1,
-            1,
-            1,
-            1,
-            1,
-            1,
-            1
-          ],
-          "TYPE_ID": [
-            5,
-            10,
-            5,
-            5,
-            10,
-            10,
-            5
-          ],
-          "OFFSET": [
-            0,
-            0,
-            1,
-            2,
-            1,
-            2,
-            3
-          ],
-          "children": [
-            {
-              "name": "u0",
-              "count": 4,
-              "VALIDITY": [
-                0,
-                1,
-                1,
-                0
-              ],
-              "DATA": [
-                0,
-                -2,
-                -3,
-                -7
-              ]
-            },
-            {
-              "name": "u1",
-              "count": 3,
-              "VALIDITY": [
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                101,
-                104,
-                105
-              ]
-            }
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeRunEndEncodedWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "ree16",
-        "type": {
-          "name": "runendencoded"
-        },
-        "nullable": false,
-        "children": [
-          {
-            "name": "run_ends",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 16
-            },
-            "nullable": false,
-            "children": []
-          },
-          {
-            "name": "values",
-            "type": {
-              "name": "utf8"
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      },
-      {
-        "name": "ree32",
-        "type": {
-          "name": "runendencoded"
-        },
-        "nullable": false,
-        "children": [
-          {
-            "name": "run_ends",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": false,
-            "children": []
-          },
-          {
-            "name": "values",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 32
-            },
-            "nullable": false,
-            "children": []
-          }
-        ]
-      },
-      {
-        "name": "ree64",
-        "type": {
-          "name": "runendencoded"
-        },
-        "nullable": false,
-        "children": [
-          {
-            "name": "run_ends",
-            "type": {
-              "name": "int",
-              "isSigned": true,
-              "bitWidth": 64
-            },
-            "nullable": false,
-            "children": []
-          },
-          {
-            "name": "values",
-            "type": {
-              "name": "binary"
-            },
-            "nullable": true,
-            "children": []
-          }
-        ]
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 1100,
-      "columns": [
-        {
-          "name": "ree16",
-          "count": 1100,
-          "children": [
-            {
-              "name": "run_ends",
-              "count": 2,
-              "VALIDITY": [
-                1,
-                1
-              ],
-              "DATA": [
-                1000,
-                1100
-              ]
-            },
-            {
-              "name": "values",
-              "count": 2,
-              "VALIDITY": [
-                0,
-                1
-              ],
-              "DATA": [
-                "foo",
-                ""
-              ],
-              "OFFSET": [
-                9,
-                12,
-                12
-              ]
-            }
-          ]
-        },
-        {
-          "name": "ree32",
-          "count": 1100,
-          "children": [
-            {
-              "name": "run_ends",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                100,
-                200,
-                800,
-                1000,
-                1100
-              ]
-            },
-            {
-              "name": "values",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                -2,
-                -3,
-                -4,
-                -5
-              ]
-            }
-          ]
-        },
-        {
-          "name": "ree64",
-          "count": 1100,
-          "children": [
-            {
-              "name": "run_ends",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                "100",
-                "250",
-                "450",
-                "800",
-                "1100"
-              ]
-            },
-            {
-              "name": "values",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                0,
-                1
-              ],
-              "DATA": [
-                "DEAD",
-                "BEEF",
-                "DEADBEEF",
-                "",
-                "BAADF00D"
-              ],
-              "OFFSET": [
-                0,
-                2,
-                4,
-                8,
-                8,
-                12
-              ]
-            }
-          ]
-        }
-      ]
-    },
-    {
-      "count": 1100,
-      "columns": [
-        {
-          "name": "ree16",
-          "count": 1100,
-          "children": [
-            {
-              "name": "run_ends",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                90,
-                140,
-                150,
-                1050,
-                1100
-              ]
-            },
-            {
-              "name": "values",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                0,
-                1
-              ],
-              "DATA": [
-                "super",
-                "dee",
-                "",
-                "duper",
-                "doo"
-              ],
-              "OFFSET": [
-                0,
-                5,
-                8,
-                8,
-                13,
-                16
-              ]
-            }
-          ]
-        },
-        {
-          "name": "ree32",
-          "count": 1100,
-          "children": [
-            {
-              "name": "run_ends",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                100,
-                120,
-                710,
-                810,
-                1100
-              ]
-            },
-            {
-              "name": "values",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                -1,
-                -2,
-                -3,
-                -4,
-                -5
-              ]
-            }
-          ]
-        },
-        {
-          "name": "ree64",
-          "count": 1100,
-          "children": [
-            {
-              "name": "run_ends",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                1,
-                1,
-                1,
-                1
-              ],
-              "DATA": [
-                "100",
-                "250",
-                "450",
-                "800",
-                "1100"
-              ]
-            },
-            {
-              "name": "values",
-              "count": 5,
-              "VALIDITY": [
-                1,
-                0,
-                1,
-                0,
-                1
-              ],
-              "DATA": [
-                "DEAD",
-                "BEEF",
-                "DEADBEEF",
-                "",
-                "BAADF00D"
-              ],
-              "OFFSET": [
-                0,
-                2,
-                4,
-                8,
-                8,
-                12
-              ]
-            }
-          ]
-        }
-      ]
-    }
-  ]
-}`
-}
-
-func makeViewTypesWantJSONs() string {
-	return `{
-  "schema": {
-    "fields": [
-      {
-        "name": "binary_view",
-        "type": {
-          "name": "binaryview"
-        },
-        "nullable": true,
-        "children": []
-      },
-      {
-        "name": "string_view",
-        "type": {
-          "name": "utf8view"
-        },
-        "nullable": true,
-        "children": []
-      }
-    ]
-  },
-  "batches": [
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "binary_view",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "VIEWS": [
-            {
-              "SIZE": 3,
-              "INLINED": "31C3A9"
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 1,
-              "INLINED": "34"
-            },
-            {
-              "SIZE": 1,
-              "INLINED": "35"
-            }
-          ],
-          "VARIADIC_DATA_BUFFERS": [""]
-        },
-        {
-          "name": "string_view",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "VIEWS": [
-            {
-              "SIZE": 3,
-              "INLINED": "1é" 
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 1,
-              "INLINED": "4"
-            },
-            {
-              "SIZE": 1,
-              "INLINED": "5"
-            }
-          ],
-          "VARIADIC_DATA_BUFFERS": [""]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "binary_view",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "VIEWS": [
-            {
-              "SIZE": 3,
-              "INLINED": "31C3A9"
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 4,
-              "INLINED": "34343434"
-            },
-            {
-              "SIZE": 4,
-              "INLINED": "35353535"
-            }
-          ],
-          "VARIADIC_DATA_BUFFERS": [""]
-        },
-        {
-          "name": "string_view",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            1,
-            1,
-            1,
-            1
-          ],
-          "VIEWS": [
-            {
-              "SIZE": 3,
-              "INLINED": "1é"              
-            },
-            {
-              "SIZE": 14,
-              "PREFIX_HEX": "32323232",
-              "BUFFER_INDEX": 0,
-              "OFFSET": 0
-            },
-            {
-              "SIZE": 14,
-              "PREFIX_HEX": "33333333",
-              "BUFFER_INDEX": 0,
-              "OFFSET": 14
-            },
-            {
-              "SIZE": 4,
-              "INLINED": "4444"
-            },
-            {
-              "SIZE": 4,
-              "INLINED": "5555"
-            }
-          ],
-          "VARIADIC_DATA_BUFFERS": [
-            "32323232323232323232323232323333333333333333333333333333"
-          ]
-        }
-      ]
-    },
-    {
-      "count": 5,
-      "columns": [
-        {
-          "name": "binary_view",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            1,
-            1,
-            1,
-            1
-          ],
-          "VIEWS": [
-            {
-              "SIZE": 6,
-              "INLINED": "31C3A931C3A9"
-            },
-            {
-              "SIZE": 14,
-              "PREFIX_HEX": "32323232",
-              "BUFFER_INDEX": 0,
-              "OFFSET": 0
-            },
-            {
-              "SIZE": 14,
-              "PREFIX_HEX": "33333333",
-              "BUFFER_INDEX": 0,
-              "OFFSET": 14
-            },
-            {
-              "SIZE": 2,
-              "INLINED": "3434"
-            },
-            {
-              "SIZE": 2,
-              "INLINED": "3535"
-            }
-          ],
-          "VARIADIC_DATA_BUFFERS": [
-            "32323232323232323232323232323333333333333333333333333333"
-          ]
-        },
-        {
-          "name": "string_view",
-          "count": 5,
-          "VALIDITY": [
-            1,
-            0,
-            0,
-            1,
-            1
-          ],
-          "VIEWS": [
-            {
-              "SIZE": 6,
-              "INLINED": "1é1é"
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 0,
-              "INLINED": ""
-            },
-            {
-              "SIZE": 2,
-              "INLINED": "44"
-            },
-            {
-              "SIZE": 2,
-              "INLINED": "55"
-            }
-          ],
-          "VARIADIC_DATA_BUFFERS": [""]
-        }
-      ]
-    }
-  ]
-}`
-}
diff --git a/go/arrow/internal/arrjson/option.go b/go/arrow/internal/arrjson/option.go
deleted file mode 100644
index 261bc75b64e6f..0000000000000
--- a/go/arrow/internal/arrjson/option.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrjson
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type config struct {
-	alloc  memory.Allocator
-	schema *arrow.Schema
-}
-
-func newConfig(opts ...Option) *config {
-	cfg := &config{
-		alloc: memory.NewGoAllocator(),
-	}
-
-	for _, opt := range opts {
-		opt(cfg)
-	}
-
-	return cfg
-}
-
-// Option is a functional option to configure opening or creating Arrow files
-// and streams.
-type Option func(*config)
-
-// WithAllocator specifies the Arrow memory allocator used while building records.
-func WithAllocator(mem memory.Allocator) Option {
-	return func(cfg *config) {
-		cfg.alloc = mem
-	}
-}
-
-// WithSchema specifies the Arrow schema to be used for reading or writing.
-func WithSchema(schema *arrow.Schema) Option {
-	return func(cfg *config) {
-		cfg.schema = schema
-	}
-}
diff --git a/go/arrow/internal/arrjson/reader.go b/go/arrow/internal/arrjson/reader.go
deleted file mode 100644
index 97fe2904cbe5f..0000000000000
--- a/go/arrow/internal/arrjson/reader.go
+++ /dev/null
@@ -1,111 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrjson
-
-import (
-	"io"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-type Reader struct {
-	refs int64
-
-	schema *arrow.Schema
-	recs   []arrow.Record
-	memo   *dictutils.Memo
-
-	irec int // current record index. used for the arrio.Reader interface.
-}
-
-func NewReader(r io.Reader, opts ...Option) (*Reader, error) {
-	dec := json.NewDecoder(r)
-	dec.UseNumber()
-	var raw rawJSON
-	err := dec.Decode(&raw)
-	if err != nil {
-		return nil, err
-	}
-
-	cfg := newConfig()
-	for _, opt := range opts {
-		opt(cfg)
-	}
-
-	memo := dictutils.NewMemo()
-	schema := schemaFromJSON(raw.Schema, &memo)
-	dictionariesFromJSON(cfg.alloc, raw.Dictionaries, &memo)
-	rr := &Reader{
-		refs:   1,
-		schema: schema,
-		recs:   recordsFromJSON(cfg.alloc, schema, raw.Records, &memo),
-		memo:   &memo,
-	}
-	return rr, nil
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (r *Reader) Retain() {
-	atomic.AddInt64(&r.refs, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (r *Reader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refs) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refs, -1) == 0 {
-		for i, rec := range r.recs {
-			if r.recs[i] != nil {
-				rec.Release()
-				r.recs[i] = nil
-			}
-		}
-		r.memo.Clear()
-		r.memo = nil
-	}
-}
-func (r *Reader) Schema() *arrow.Schema { return r.schema }
-func (r *Reader) NumRecords() int       { return len(r.recs) }
-
-func (r *Reader) Read() (arrow.Record, error) {
-	if r.irec == r.NumRecords() {
-		return nil, io.EOF
-	}
-	rec := r.recs[r.irec]
-	r.irec++
-	return rec, nil
-}
-
-func (r *Reader) ReadAt(index int) (arrow.Record, error) {
-	if index >= r.NumRecords() {
-		return nil, io.EOF
-	}
-	rec := r.recs[index]
-	return rec, nil
-}
-
-var (
-	_ arrio.Reader = (*Reader)(nil)
-)
diff --git a/go/arrow/internal/arrjson/writer.go b/go/arrow/internal/arrjson/writer.go
deleted file mode 100644
index 25004863abe0d..0000000000000
--- a/go/arrow/internal/arrjson/writer.go
+++ /dev/null
@@ -1,101 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrjson
-
-import (
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/internal/json"
-)
-
-const (
-	jsonIndent    = "  "
-	jsonPrefix    = "  "
-	jsonRecPrefix = "    "
-)
-
-type rawJSON struct {
-	Schema       Schema       `json:"schema"`
-	Records      []Record     `json:"batches"`
-	Dictionaries []Dictionary `json:"dictionaries,omitempty"`
-}
-
-type Writer struct {
-	w io.Writer
-
-	nrecs  int64
-	raw    rawJSON
-	mapper dictutils.Mapper
-}
-
-func NewWriter(w io.Writer, schema *arrow.Schema) (*Writer, error) {
-	ww := &Writer{
-		w: w,
-	}
-	ww.mapper.ImportSchema(schema)
-	ww.raw.Schema = schemaToJSON(schema, &ww.mapper)
-	ww.raw.Records = make([]Record, 0)
-	return ww, nil
-}
-
-func (w *Writer) Write(rec arrow.Record) error {
-	if w.nrecs == 0 {
-		pairs, err := dictutils.CollectDictionaries(rec, &w.mapper)
-		if err != nil {
-			return err
-		}
-
-		if len(pairs) > 0 {
-			w.raw.Dictionaries = make([]Dictionary, 0, len(pairs))
-		}
-
-		for _, p := range pairs {
-			defer p.Dict.Release()
-			sc := arrow.NewSchema([]arrow.Field{{Name: fmt.Sprintf("DICT%d", p.ID), Type: p.Dict.DataType(), Nullable: true}}, nil)
-			dummy := array.NewRecord(sc, []arrow.Array{p.Dict}, int64(p.Dict.Len()))
-			defer dummy.Release()
-			w.raw.Dictionaries = append(w.raw.Dictionaries, Dictionary{ID: p.ID, Data: recordToJSON(dummy)})
-		}
-	}
-
-	w.raw.Records = append(w.raw.Records, recordToJSON(rec))
-	w.nrecs++
-	return nil
-}
-
-func (w *Writer) Close() error {
-	if w.w == nil {
-		return nil
-	}
-
-	enc := json.NewEncoder(w.w)
-	enc.SetIndent("", jsonIndent)
-	// ensure that we don't convert <, >, !, etc. to their unicode equivalents
-	// in the output json since we aren't using this in an HTML context so that
-	// we can make sure that the json files match.
-	enc.SetEscapeHTML(false)
-	return enc.Encode(w.raw)
-}
-
-var (
-	_ arrio.Writer = (*Writer)(nil)
-)
diff --git a/go/arrow/internal/cdata_integration/entrypoints.go b/go/arrow/internal/cdata_integration/entrypoints.go
deleted file mode 100644
index 06f7cc8a41019..0000000000000
--- a/go/arrow/internal/cdata_integration/entrypoints.go
+++ /dev/null
@@ -1,193 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cdata_integration
-// +build cdata_integration
-
-package main
-
-import (
-	"fmt"
-	"os"
-	"runtime"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/cdata"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrjson"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// #include <stdint.h>
-// #include <stdlib.h>
-import "C"
-
-var alloc = memory.NewCheckedAllocator(memory.NewGoAllocator())
-
-//export ArrowGo_BytesAllocated
-func ArrowGo_BytesAllocated() int64 {
-	return int64(alloc.CurrentAlloc())
-}
-
-//export ArrowGo_RunGC
-func ArrowGo_RunGC() {
-	runtime.GC()
-}
-
-//export ArrowGo_FreeError
-func ArrowGo_FreeError(cError *C.char) {
-	C.free(unsafe.Pointer(cError))
-}
-
-// When used in a defer() statement, this functions catches an incoming
-// panic and converts it into a regular error. This avoids crashing the
-// archery integration process and lets other tests proceed.
-// Not all panics may be caught and some will still crash the process, though.
-func handlePanic(err *error) {
-	if e := recover(); e != nil {
-		// Add a prefix while wrapping the panic-error
-		*err = utils.FormatRecoveredError("panic", e)
-	}
-}
-
-func newJsonReader(cJsonPath *C.char) (*arrjson.Reader, error) {
-	jsonPath := C.GoString(cJsonPath)
-
-	f, err := os.Open(jsonPath)
-	if err != nil {
-		return nil, fmt.Errorf("could not open JSON file %q: %w", jsonPath, err)
-	}
-	defer f.Close()
-
-	jsonReader, err := arrjson.NewReader(f, arrjson.WithAllocator(alloc))
-	if err != nil {
-		return nil, fmt.Errorf("could not open JSON file reader from file %q: %w", jsonPath, err)
-	}
-	return jsonReader, nil
-}
-
-func exportSchemaFromJson(cJsonPath *C.char, out *cdata.CArrowSchema) error {
-	jsonReader, err := newJsonReader(cJsonPath)
-	if err != nil {
-		return err
-	}
-	defer jsonReader.Release()
-	schema := jsonReader.Schema()
-	defer handlePanic(&err)
-	cdata.ExportArrowSchema(schema, out)
-	return err
-}
-
-func importSchemaAndCompareToJson(cJsonPath *C.char, cSchema *cdata.CArrowSchema) error {
-	jsonReader, err := newJsonReader(cJsonPath)
-	if err != nil {
-		return err
-	}
-	defer jsonReader.Release()
-	schema := jsonReader.Schema()
-	importedSchema, err := cdata.ImportCArrowSchema(cSchema)
-	if err != nil {
-		return err
-	}
-	if !schema.Equal(importedSchema) || !schema.Metadata().Equal(importedSchema.Metadata()) {
-		return fmt.Errorf(
-			"Schemas are different:\n- Json Schema: %s\n- Imported Schema: %s",
-			schema.String(),
-			importedSchema.String())
-	}
-	return nil
-}
-
-func exportBatchFromJson(cJsonPath *C.char, num_batch int, out *cdata.CArrowArray) error {
-	// XXX this function exports a single batch at a time, but the JSON reader
-	// reads all batches at construction.
-	jsonReader, err := newJsonReader(cJsonPath)
-	if err != nil {
-		return err
-	}
-	defer jsonReader.Release()
-	batch, err := jsonReader.ReadAt(num_batch)
-	if err != nil {
-		return err
-	}
-	defer handlePanic(&err)
-	cdata.ExportArrowRecordBatch(batch, out, nil)
-	return err
-}
-
-func importBatchAndCompareToJson(cJsonPath *C.char, num_batch int, cArray *cdata.CArrowArray) error {
-	jsonReader, err := newJsonReader(cJsonPath)
-	if err != nil {
-		return err
-	}
-	defer jsonReader.Release()
-	schema := jsonReader.Schema()
-	batch, err := jsonReader.ReadAt(num_batch)
-	if err != nil {
-		return err
-	}
-
-	importedBatch, err := cdata.ImportCRecordBatchWithSchema(cArray, schema)
-	if err != nil {
-		return err
-	}
-	defer importedBatch.Release()
-	if !array.RecordEqual(batch, importedBatch) {
-		return fmt.Errorf(
-			"Batches are different:\n- Json Batch: %v\n- Imported Batch: %v",
-			batch, importedBatch)
-	}
-	return nil
-}
-
-//export ArrowGo_ExportSchemaFromJson
-func ArrowGo_ExportSchemaFromJson(cJsonPath *C.char, out uintptr) *C.char {
-	err := exportSchemaFromJson(cJsonPath, cdata.SchemaFromPtr(out))
-	if err != nil {
-		return C.CString(err.Error())
-	}
-	return nil
-}
-
-//export ArrowGo_ExportBatchFromJson
-func ArrowGo_ExportBatchFromJson(cJsonPath *C.char, num_batch int, out uintptr) *C.char {
-	err := exportBatchFromJson(cJsonPath, num_batch, cdata.ArrayFromPtr(out))
-	if err != nil {
-		return C.CString(err.Error())
-	}
-	return nil
-}
-
-//export ArrowGo_ImportSchemaAndCompareToJson
-func ArrowGo_ImportSchemaAndCompareToJson(cJsonPath *C.char, cSchema uintptr) *C.char {
-	err := importSchemaAndCompareToJson(cJsonPath, cdata.SchemaFromPtr(cSchema))
-	if err != nil {
-		return C.CString(err.Error())
-	}
-	return nil
-}
-
-//export ArrowGo_ImportBatchAndCompareToJson
-func ArrowGo_ImportBatchAndCompareToJson(cJsonPath *C.char, num_batch int, cArray uintptr) *C.char {
-	err := importBatchAndCompareToJson(cJsonPath, num_batch, cdata.ArrayFromPtr(cArray))
-	if err != nil {
-		return C.CString(err.Error())
-	}
-	return nil
-}
-
-func main() {}
diff --git a/go/arrow/internal/debug/assert_off.go b/go/arrow/internal/debug/assert_off.go
deleted file mode 100644
index 1450ecc98a26e..0000000000000
--- a/go/arrow/internal/debug/assert_off.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !assert
-// +build !assert
-
-package debug
-
-// Assert will panic with msg if cond is false.
-//
-// msg must be a string, func() string or fmt.Stringer.
-func Assert(cond bool, msg interface{}) {}
diff --git a/go/arrow/internal/debug/assert_on.go b/go/arrow/internal/debug/assert_on.go
deleted file mode 100644
index 4a57169b31358..0000000000000
--- a/go/arrow/internal/debug/assert_on.go
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build assert
-// +build assert
-
-package debug
-
-// Assert will panic with msg if cond is false.
-//
-// msg must be a string, func() string or fmt.Stringer.
-func Assert(cond bool, msg interface{}) {
-	if !cond {
-		panic(getStringValue(msg))
-	}
-}
diff --git a/go/arrow/internal/debug/doc.go b/go/arrow/internal/debug/doc.go
deleted file mode 100644
index 094e427a22e09..0000000000000
--- a/go/arrow/internal/debug/doc.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-/*
-Package debug provides APIs for conditional runtime assertions and debug logging.
-
-# Using Assert
-
-To enable runtime assertions, build with the assert tag. When the assert tag is omitted,
-the code for the assertion will be omitted from the binary.
-
-# Using Log
-
-To enable runtime debug logs, build with the debug tag. When the debug tag is omitted,
-the code for logging will be omitted from the binary.
-*/
-package debug
diff --git a/go/arrow/internal/debug/log_off.go b/go/arrow/internal/debug/log_off.go
deleted file mode 100644
index 760a5cdc0dc01..0000000000000
--- a/go/arrow/internal/debug/log_off.go
+++ /dev/null
@@ -1,22 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !debug
-// +build !debug
-
-package debug
-
-func Log(interface{}) {}
diff --git a/go/arrow/internal/debug/log_on.go b/go/arrow/internal/debug/log_on.go
deleted file mode 100644
index 2588e7d1069f0..0000000000000
--- a/go/arrow/internal/debug/log_on.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build debug
-// +build debug
-
-package debug
-
-import (
-	"log"
-	"os"
-)
-
-var (
-	debug = log.New(os.Stderr, "[D] ", log.LstdFlags)
-)
-
-func Log(msg interface{}) {
-	debug.Output(1, getStringValue(msg))
-}
diff --git a/go/arrow/internal/debug/util.go b/go/arrow/internal/debug/util.go
deleted file mode 100644
index ea4eba7fb5cb8..0000000000000
--- a/go/arrow/internal/debug/util.go
+++ /dev/null
@@ -1,38 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build debug || assert
-// +build debug assert
-
-package debug
-
-import "fmt"
-
-func getStringValue(v interface{}) string {
-	switch a := v.(type) {
-	case func() string:
-		return a()
-
-	case string:
-		return a
-
-	case fmt.Stringer:
-		return a.String()
-
-	default:
-		panic(fmt.Sprintf("unexpected type, %t", v))
-	}
-}
diff --git a/go/arrow/internal/dictutils/dict.go b/go/arrow/internal/dictutils/dict.go
deleted file mode 100644
index da18c2d0e3fae..0000000000000
--- a/go/arrow/internal/dictutils/dict.go
+++ /dev/null
@@ -1,411 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package dictutils
-
-import (
-	"errors"
-	"fmt"
-	"hash/maphash"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type Kind int8
-
-const (
-	KindNew Kind = iota
-	KindDelta
-	KindReplacement
-)
-
-type FieldPos struct {
-	parent       *FieldPos
-	index, depth int32
-}
-
-func NewFieldPos() FieldPos { return FieldPos{index: -1} }
-
-func (f *FieldPos) Child(index int32) FieldPos {
-	return FieldPos{parent: f, index: index, depth: f.depth + 1}
-}
-
-func (f *FieldPos) Path() []int32 {
-	path := make([]int32, f.depth)
-	cur := f
-	for i := f.depth - 1; i >= 0; i-- {
-		path[i] = int32(cur.index)
-		cur = cur.parent
-	}
-	return path
-}
-
-type Mapper struct {
-	pathToID map[uint64]int64
-	hasher   maphash.Hash
-}
-
-func (d *Mapper) NumDicts() int {
-	unique := make(map[int64]bool)
-	for _, id := range d.pathToID {
-		unique[id] = true
-	}
-	return len(unique)
-}
-
-func (d *Mapper) AddField(id int64, fieldPath []int32) error {
-	d.hasher.Write(arrow.Int32Traits.CastToBytes(fieldPath))
-	defer d.hasher.Reset()
-
-	sum := d.hasher.Sum64()
-	if _, ok := d.pathToID[sum]; ok {
-		return errors.New("field already mapped to id")
-	}
-
-	d.pathToID[sum] = id
-	return nil
-}
-
-func (d *Mapper) GetFieldID(fieldPath []int32) (int64, error) {
-	d.hasher.Write(arrow.Int32Traits.CastToBytes(fieldPath))
-	defer d.hasher.Reset()
-
-	id, ok := d.pathToID[d.hasher.Sum64()]
-	if !ok {
-		return -1, errors.New("arrow/ipc: dictionary field not found")
-	}
-	return id, nil
-}
-
-func (d *Mapper) NumFields() int {
-	return len(d.pathToID)
-}
-
-func (d *Mapper) InsertPath(pos FieldPos) {
-	id := len(d.pathToID)
-	d.hasher.Write(arrow.Int32Traits.CastToBytes(pos.Path()))
-
-	d.pathToID[d.hasher.Sum64()] = int64(id)
-	d.hasher.Reset()
-}
-
-func (d *Mapper) ImportField(pos FieldPos, field arrow.Field) {
-	dt := field.Type
-	if dt.ID() == arrow.EXTENSION {
-		dt = dt.(arrow.ExtensionType).StorageType()
-	}
-
-	if dt.ID() == arrow.DICTIONARY {
-		d.InsertPath(pos)
-		// import nested dicts
-		if nested, ok := dt.(*arrow.DictionaryType).ValueType.(arrow.NestedType); ok {
-			d.ImportFields(pos, nested.Fields())
-		}
-		return
-	}
-
-	if nested, ok := dt.(arrow.NestedType); ok {
-		d.ImportFields(pos, nested.Fields())
-	}
-}
-
-func (d *Mapper) ImportFields(pos FieldPos, fields []arrow.Field) {
-	for i := range fields {
-		d.ImportField(pos.Child(int32(i)), fields[i])
-	}
-}
-
-func (d *Mapper) ImportSchema(schema *arrow.Schema) {
-	d.pathToID = make(map[uint64]int64)
-	// This code path intentionally avoids calling ImportFields with
-	// schema.Fields to avoid allocations.
-	pos := NewFieldPos()
-	for i := 0; i < schema.NumFields(); i++ {
-		d.ImportField(pos.Child(int32(i)), schema.Field(i))
-	}
-}
-
-func hasUnresolvedNestedDict(data arrow.ArrayData) bool {
-	d := data.(*array.Data)
-	if d.DataType().ID() == arrow.DICTIONARY {
-		if d.Dictionary().(*array.Data) == nil {
-			return true
-		}
-		if hasUnresolvedNestedDict(d.Dictionary()) {
-			return true
-		}
-	}
-	for _, c := range d.Children() {
-		if hasUnresolvedNestedDict(c) {
-			return true
-		}
-	}
-	return false
-}
-
-type dictpair struct {
-	ID   int64
-	Dict arrow.Array
-}
-
-type dictCollector struct {
-	dictionaries []dictpair
-	mapper       *Mapper
-}
-
-func (d *dictCollector) visitChildren(pos FieldPos, typ arrow.DataType, arr arrow.Array) error {
-	for i, c := range arr.Data().Children() {
-		child := array.MakeFromData(c)
-		defer child.Release()
-		if err := d.visit(pos.Child(int32(i)), child); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (d *dictCollector) visit(pos FieldPos, arr arrow.Array) error {
-	dt := arr.DataType()
-	if dt.ID() == arrow.EXTENSION {
-		dt = dt.(arrow.ExtensionType).StorageType()
-		arr = arr.(array.ExtensionArray).Storage()
-	}
-
-	if dt.ID() == arrow.DICTIONARY {
-		dictarr := arr.(*array.Dictionary)
-		dict := dictarr.Dictionary()
-
-		// traverse the dictionary to first gather any nested dictionaries
-		// so they appear in the output before their respective parents
-		dictType := dt.(*arrow.DictionaryType)
-		d.visitChildren(pos, dictType.ValueType, dict)
-
-		id, err := d.mapper.GetFieldID(pos.Path())
-		if err != nil {
-			return err
-		}
-		dict.Retain()
-		d.dictionaries = append(d.dictionaries, dictpair{ID: id, Dict: dict})
-		return nil
-	}
-	return d.visitChildren(pos, dt, arr)
-}
-
-func (d *dictCollector) collect(batch arrow.Record) error {
-	var (
-		pos    = NewFieldPos()
-		schema = batch.Schema()
-	)
-	d.dictionaries = make([]dictpair, 0, d.mapper.NumFields())
-	for i := range schema.Fields() {
-		if err := d.visit(pos.Child(int32(i)), batch.Column(i)); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-type dictMap map[int64][]arrow.ArrayData
-type dictTypeMap map[int64]arrow.DataType
-
-type Memo struct {
-	Mapper  Mapper
-	dict2id map[arrow.ArrayData]int64
-
-	id2type dictTypeMap
-	id2dict dictMap // map of dictionary ID to dictionary array
-}
-
-func NewMemo() Memo {
-	return Memo{
-		dict2id: make(map[arrow.ArrayData]int64),
-		id2dict: make(dictMap),
-		id2type: make(dictTypeMap),
-		Mapper: Mapper{
-			pathToID: make(map[uint64]int64),
-		},
-	}
-}
-
-func (memo *Memo) Len() int { return len(memo.id2dict) }
-
-func (memo *Memo) Clear() {
-	for id, v := range memo.id2dict {
-		delete(memo.id2dict, id)
-		for _, d := range v {
-			delete(memo.dict2id, d)
-			d.Release()
-		}
-	}
-}
-
-func (memo *Memo) reify(id int64, mem memory.Allocator) (arrow.ArrayData, error) {
-	v, ok := memo.id2dict[id]
-	if !ok {
-		return nil, fmt.Errorf("arrow/ipc: no dictionaries found for id=%d", id)
-	}
-
-	if len(v) == 1 {
-		return v[0], nil
-	}
-
-	// there are deltas we need to concatenate them with the first dictionary
-	toCombine := make([]arrow.Array, 0, len(v))
-	// NOTE: at this point the dictionary data may not be trusted. it needs to
-	// be validated as concatenation can crash on invalid or corrupted data.
-	for _, data := range v {
-		if hasUnresolvedNestedDict(data) {
-			return nil, fmt.Errorf("arrow/ipc: delta dict with unresolved nested dictionary not implemented")
-		}
-		arr := array.MakeFromData(data)
-		defer arr.Release()
-
-		toCombine = append(toCombine, arr)
-		defer data.Release()
-	}
-
-	combined, err := array.Concatenate(toCombine, mem)
-	if err != nil {
-		return nil, err
-	}
-	defer combined.Release()
-	combined.Data().Retain()
-
-	memo.id2dict[id] = []arrow.ArrayData{combined.Data()}
-	return combined.Data(), nil
-}
-
-func (memo *Memo) Dict(id int64, mem memory.Allocator) (arrow.ArrayData, error) {
-	return memo.reify(id, mem)
-}
-
-func (memo *Memo) AddType(id int64, typ arrow.DataType) error {
-	if existing, dup := memo.id2type[id]; dup && !arrow.TypeEqual(existing, typ) {
-		return fmt.Errorf("arrow/ipc: conflicting dictionary types for id %d", id)
-	}
-
-	memo.id2type[id] = typ
-	return nil
-}
-
-func (memo *Memo) Type(id int64) (arrow.DataType, bool) {
-	t, ok := memo.id2type[id]
-	return t, ok
-}
-
-// func (memo *dictMemo) ID(v arrow.Array) int64 {
-// 	id, ok := memo.dict2id[v]
-// 	if ok {
-// 		return id
-// 	}
-
-// 	v.Retain()
-// 	id = int64(len(memo.dict2id))
-// 	memo.dict2id[v] = id
-// 	memo.id2dict[id] = v
-// 	return id
-// }
-
-func (memo Memo) HasDict(v arrow.ArrayData) bool {
-	_, ok := memo.dict2id[v]
-	return ok
-}
-
-func (memo Memo) HasID(id int64) bool {
-	_, ok := memo.id2dict[id]
-	return ok
-}
-
-func (memo *Memo) Add(id int64, v arrow.ArrayData) {
-	if _, dup := memo.id2dict[id]; dup {
-		panic(fmt.Errorf("arrow/ipc: duplicate id=%d", id))
-	}
-	v.Retain()
-	memo.id2dict[id] = []arrow.ArrayData{v}
-	memo.dict2id[v] = id
-}
-
-func (memo *Memo) AddDelta(id int64, v arrow.ArrayData) {
-	d, ok := memo.id2dict[id]
-	if !ok {
-		panic(fmt.Errorf("arrow/ipc: adding delta to non-existing id=%d", id))
-	}
-	v.Retain()
-	memo.id2dict[id] = append(d, v)
-}
-
-// AddOrReplace puts the provided dictionary into the memo table. If it
-// already exists, then the new data will replace it. Otherwise it is added
-// to the memo table.
-func (memo *Memo) AddOrReplace(id int64, v arrow.ArrayData) bool {
-	d, ok := memo.id2dict[id]
-	if ok {
-		// replace the dictionary and release any existing ones
-		for _, dict := range d {
-			dict.Release()
-		}
-		d[0] = v
-		d = d[:1]
-	} else {
-		d = []arrow.ArrayData{v}
-	}
-	v.Retain()
-	memo.id2dict[id] = d
-	return !ok
-}
-
-func CollectDictionaries(batch arrow.Record, mapper *Mapper) (out []dictpair, err error) {
-	collector := dictCollector{mapper: mapper}
-	err = collector.collect(batch)
-	out = collector.dictionaries
-	return
-}
-
-func ResolveFieldDict(memo *Memo, data arrow.ArrayData, pos FieldPos, mem memory.Allocator) error {
-	typ := data.DataType()
-	if typ.ID() == arrow.EXTENSION {
-		typ = typ.(arrow.ExtensionType).StorageType()
-	}
-	if typ.ID() == arrow.DICTIONARY {
-		id, err := memo.Mapper.GetFieldID(pos.Path())
-		if err != nil {
-			return err
-		}
-		dictData, err := memo.Dict(id, mem)
-		if err != nil {
-			return err
-		}
-		data.(*array.Data).SetDictionary(dictData)
-		if err := ResolveFieldDict(memo, dictData, pos, mem); err != nil {
-			return err
-		}
-	}
-	return ResolveDictionaries(memo, data.Children(), pos, mem)
-}
-
-func ResolveDictionaries(memo *Memo, cols []arrow.ArrayData, parentPos FieldPos, mem memory.Allocator) error {
-	for i, c := range cols {
-		if c == nil {
-			continue
-		}
-		if err := ResolveFieldDict(memo, c, parentPos.Child(int32(i)), mem); err != nil {
-			return err
-		}
-	}
-	return nil
-}
diff --git a/go/arrow/internal/dictutils/dict_test.go b/go/arrow/internal/dictutils/dict_test.go
deleted file mode 100644
index 7a68ae3073ddb..0000000000000
--- a/go/arrow/internal/dictutils/dict_test.go
+++ /dev/null
@@ -1,181 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package dictutils_test
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestDictMemo(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewFloat64Builder(mem)
-	defer bldr.Release()
-
-	bldr.AppendValues([]float64{1.0, 1.1, 1.2, 1.3}, nil)
-	f0 := bldr.NewFloat64Array()
-	defer f0.Release()
-
-	bldr.AppendValues([]float64{11.0, 11.1, 11.2, 11.3}, nil)
-	f1 := bldr.NewFloat64Array()
-	defer f1.Release()
-
-	bldr.AppendValues([]float64{11.0, 11.1, 11.2, 11.3}, nil)
-	f2 := bldr.NewFloat64Array()
-	defer f2.Release()
-
-	memo := dictutils.NewMemo()
-	defer memo.Clear()
-
-	if got, want := memo.Len(), 0; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	memo.Add(0, f0.Data())
-	memo.Add(1, f1.Data())
-
-	if !memo.HasID(0) {
-		t.Fatalf("could not find id=0")
-	}
-
-	if !memo.HasID(1) {
-		t.Fatalf("could not find id=1")
-	}
-
-	if got, want := memo.Len(), 2; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	var ff arrow.Array
-
-	ff = f0
-	if !memo.HasDict(ff.Data()) {
-		t.Fatalf("failed to find f0 through interface")
-	}
-
-	ff = f1
-	if !memo.HasDict(ff.Data()) {
-		t.Fatalf("failed to find f1 through interface")
-	}
-
-	ff = f2
-	if memo.HasDict(ff.Data()) {
-		t.Fatalf("should not have found f2")
-	}
-
-	fct := func(v arrow.Array) arrow.Array {
-		return v
-	}
-
-	if !memo.HasDict(fct(f1).Data()) {
-		t.Fatalf("failed to find dict through func through interface")
-	}
-
-	if memo.HasDict(f2.Data()) {
-		t.Fatalf("should not have found f2")
-	}
-
-	ff = f0
-	for i, f := range []arrow.Array{f0, f1, ff, fct(f0), fct(f1)} {
-		if !memo.HasDict(f.Data()) {
-			t.Fatalf("failed to find dict %d", i)
-		}
-	}
-
-	v, err := memo.Dict(0, mem)
-	if err != nil {
-		t.Fatalf("expected to find id=0")
-	}
-	if v != f0.Data() {
-		t.Fatalf("expected fo find id=0 array")
-	}
-
-	_, err = memo.Dict(2, mem)
-	if err == nil {
-		t.Fatalf("should not have found id=2")
-	}
-	_, err = memo.Dict(-2, mem)
-	if err == nil {
-		t.Fatalf("should not have found id=-2")
-	}
-
-	// test we don't leak nor "double-delete" when adding an array multiple times.
-	memo.Add(42, f2.Data())
-	memo.Add(43, f2.Data())
-	if got, want := memo.Len(), 4; got != want {
-		t.Fatalf("invalid length. got=%d, want=%d", got, want)
-	}
-}
-
-func TestDictMemoPanics(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bldr := array.NewFloat64Builder(mem)
-	defer bldr.Release()
-
-	bldr.AppendValues([]float64{1.0, 1.1, 1.2, 1.3}, nil)
-	f0 := bldr.NewFloat64Array()
-	defer f0.Release()
-
-	bldr.AppendValues([]float64{11.0, 11.1, 11.2, 11.3}, nil)
-	f1 := bldr.NewFloat64Array()
-	defer f1.Release()
-
-	for _, tc := range []struct {
-		vs  []arrow.Array
-		ids []int64
-	}{
-		{
-			vs:  []arrow.Array{f0, f1},
-			ids: []int64{0, 0},
-		},
-		{
-			vs:  []arrow.Array{f0, f0},
-			ids: []int64{0, 0},
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			defer func() {
-				e := recover()
-				if e == nil {
-					t.Fatalf("should have panicked!")
-				}
-				if got, want := e.(error), fmt.Errorf("arrow/ipc: duplicate id=%d", 0); got.Error() != want.Error() {
-					t.Fatalf("invalid panic message.\ngot= %q\nwant=%q", got, want)
-				}
-			}()
-
-			memo := dictutils.NewMemo()
-			defer memo.Clear()
-
-			if got, want := memo.Len(), 0; got != want {
-				t.Fatalf("invalid length: got=%d, want=%d", got, want)
-			}
-
-			memo.Add(tc.ids[0], tc.vs[0].Data())
-			memo.Add(tc.ids[1], tc.vs[1].Data())
-		})
-	}
-}
diff --git a/go/arrow/internal/flatbuf/Binary.go b/go/arrow/internal/flatbuf/Binary.go
deleted file mode 100644
index 95e015595b548..0000000000000
--- a/go/arrow/internal/flatbuf/Binary.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Opaque binary data
-type Binary struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsBinary(buf []byte, offset flatbuffers.UOffsetT) *Binary {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Binary{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Binary) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Binary) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func BinaryStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func BinaryEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/BinaryView.go b/go/arrow/internal/flatbuf/BinaryView.go
deleted file mode 100644
index f6906674bdbc7..0000000000000
--- a/go/arrow/internal/flatbuf/BinaryView.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Logically the same as Binary, but the internal representation uses a view
-// / struct that contains the string length and either the string's entire data
-// / inline (for small strings) or an inlined prefix, an index of another buffer,
-// / and an offset pointing to a slice in that buffer (for non-small strings).
-// /
-// / Since it uses a variable number of data buffers, each Field with this type
-// / must have a corresponding entry in `variadicBufferCounts`.
-type BinaryView struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsBinaryView(buf []byte, offset flatbuffers.UOffsetT) *BinaryView {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &BinaryView{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *BinaryView) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *BinaryView) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func BinaryViewStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func BinaryViewEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Block.go b/go/arrow/internal/flatbuf/Block.go
deleted file mode 100644
index 8e33d3e641543..0000000000000
--- a/go/arrow/internal/flatbuf/Block.go
+++ /dev/null
@@ -1,77 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Block struct {
-	_tab flatbuffers.Struct
-}
-
-func (rcv *Block) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Block) Table() flatbuffers.Table {
-	return rcv._tab.Table
-}
-
-// / Index to the start of the RecordBlock (note this is past the Message header)
-func (rcv *Block) Offset() int64 {
-	return rcv._tab.GetInt64(rcv._tab.Pos + flatbuffers.UOffsetT(0))
-}
-
-// / Index to the start of the RecordBlock (note this is past the Message header)
-func (rcv *Block) MutateOffset(n int64) bool {
-	return rcv._tab.MutateInt64(rcv._tab.Pos+flatbuffers.UOffsetT(0), n)
-}
-
-// / Length of the metadata
-func (rcv *Block) MetaDataLength() int32 {
-	return rcv._tab.GetInt32(rcv._tab.Pos + flatbuffers.UOffsetT(8))
-}
-
-// / Length of the metadata
-func (rcv *Block) MutateMetaDataLength(n int32) bool {
-	return rcv._tab.MutateInt32(rcv._tab.Pos+flatbuffers.UOffsetT(8), n)
-}
-
-// / Length of the data (this is aligned so there can be a gap between this and
-// / the metadata).
-func (rcv *Block) BodyLength() int64 {
-	return rcv._tab.GetInt64(rcv._tab.Pos + flatbuffers.UOffsetT(16))
-}
-
-// / Length of the data (this is aligned so there can be a gap between this and
-// / the metadata).
-func (rcv *Block) MutateBodyLength(n int64) bool {
-	return rcv._tab.MutateInt64(rcv._tab.Pos+flatbuffers.UOffsetT(16), n)
-}
-
-func CreateBlock(builder *flatbuffers.Builder, offset int64, metaDataLength int32, bodyLength int64) flatbuffers.UOffsetT {
-	builder.Prep(8, 24)
-	builder.PrependInt64(bodyLength)
-	builder.Pad(4)
-	builder.PrependInt32(metaDataLength)
-	builder.PrependInt64(offset)
-	return builder.Offset()
-}
diff --git a/go/arrow/internal/flatbuf/BodyCompression.go b/go/arrow/internal/flatbuf/BodyCompression.go
deleted file mode 100644
index c23c29190216b..0000000000000
--- a/go/arrow/internal/flatbuf/BodyCompression.go
+++ /dev/null
@@ -1,89 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Optional compression for the memory buffers constituting IPC message
-// / bodies. Intended for use with RecordBatch but could be used for other
-// / message types
-type BodyCompression struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsBodyCompression(buf []byte, offset flatbuffers.UOffsetT) *BodyCompression {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &BodyCompression{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *BodyCompression) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *BodyCompression) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Compressor library.
-// / For LZ4_FRAME, each compressed buffer must consist of a single frame.
-func (rcv *BodyCompression) Codec() CompressionType {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return CompressionType(rcv._tab.GetInt8(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-// / Compressor library.
-// / For LZ4_FRAME, each compressed buffer must consist of a single frame.
-func (rcv *BodyCompression) MutateCodec(n CompressionType) bool {
-	return rcv._tab.MutateInt8Slot(4, int8(n))
-}
-
-// / Indicates the way the record batch body was compressed
-func (rcv *BodyCompression) Method() BodyCompressionMethod {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return BodyCompressionMethod(rcv._tab.GetInt8(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-// / Indicates the way the record batch body was compressed
-func (rcv *BodyCompression) MutateMethod(n BodyCompressionMethod) bool {
-	return rcv._tab.MutateInt8Slot(6, int8(n))
-}
-
-func BodyCompressionStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func BodyCompressionAddCodec(builder *flatbuffers.Builder, codec CompressionType) {
-	builder.PrependInt8Slot(0, int8(codec), 0)
-}
-func BodyCompressionAddMethod(builder *flatbuffers.Builder, method BodyCompressionMethod) {
-	builder.PrependInt8Slot(1, int8(method), 0)
-}
-func BodyCompressionEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/BodyCompressionMethod.go b/go/arrow/internal/flatbuf/BodyCompressionMethod.go
deleted file mode 100644
index bb7234b3989b5..0000000000000
--- a/go/arrow/internal/flatbuf/BodyCompressionMethod.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-// / Provided for forward compatibility in case we need to support different
-// / strategies for compressing the IPC message body (like whole-body
-// / compression rather than buffer-level) in the future
-type BodyCompressionMethod int8
-
-const (
-	/// Each constituent buffer is first compressed with the indicated
-	/// compressor, and then written with the uncompressed length in the first 8
-	/// bytes as a 64-bit little-endian signed integer followed by the compressed
-	/// buffer bytes (and then padding as required by the protocol). The
-	/// uncompressed length may be set to -1 to indicate that the data that
-	/// follows is not compressed, which can be useful for cases where
-	/// compression does not yield appreciable savings.
-	BodyCompressionMethodBUFFER BodyCompressionMethod = 0
-)
-
-var EnumNamesBodyCompressionMethod = map[BodyCompressionMethod]string{
-	BodyCompressionMethodBUFFER: "BUFFER",
-}
-
-var EnumValuesBodyCompressionMethod = map[string]BodyCompressionMethod{
-	"BUFFER": BodyCompressionMethodBUFFER,
-}
-
-func (v BodyCompressionMethod) String() string {
-	if s, ok := EnumNamesBodyCompressionMethod[v]; ok {
-		return s
-	}
-	return "BodyCompressionMethod(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Bool.go b/go/arrow/internal/flatbuf/Bool.go
deleted file mode 100644
index 6a4a9d2686770..0000000000000
--- a/go/arrow/internal/flatbuf/Bool.go
+++ /dev/null
@@ -1,50 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Bool struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsBool(buf []byte, offset flatbuffers.UOffsetT) *Bool {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Bool{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Bool) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Bool) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func BoolStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func BoolEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Buffer.go b/go/arrow/internal/flatbuf/Buffer.go
deleted file mode 100644
index e650e06a57026..0000000000000
--- a/go/arrow/internal/flatbuf/Buffer.go
+++ /dev/null
@@ -1,75 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / A Buffer represents a single contiguous memory segment
-type Buffer struct {
-	_tab flatbuffers.Struct
-}
-
-func (rcv *Buffer) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Buffer) Table() flatbuffers.Table {
-	return rcv._tab.Table
-}
-
-// / The relative offset into the shared memory page where the bytes for this
-// / buffer starts
-func (rcv *Buffer) Offset() int64 {
-	return rcv._tab.GetInt64(rcv._tab.Pos + flatbuffers.UOffsetT(0))
-}
-
-// / The relative offset into the shared memory page where the bytes for this
-// / buffer starts
-func (rcv *Buffer) MutateOffset(n int64) bool {
-	return rcv._tab.MutateInt64(rcv._tab.Pos+flatbuffers.UOffsetT(0), n)
-}
-
-// / The absolute length (in bytes) of the memory buffer. The memory is found
-// / from offset (inclusive) to offset + length (non-inclusive). When building
-// / messages using the encapsulated IPC message, padding bytes may be written
-// / after a buffer, but such padding bytes do not need to be accounted for in
-// / the size here.
-func (rcv *Buffer) Length() int64 {
-	return rcv._tab.GetInt64(rcv._tab.Pos + flatbuffers.UOffsetT(8))
-}
-
-// / The absolute length (in bytes) of the memory buffer. The memory is found
-// / from offset (inclusive) to offset + length (non-inclusive). When building
-// / messages using the encapsulated IPC message, padding bytes may be written
-// / after a buffer, but such padding bytes do not need to be accounted for in
-// / the size here.
-func (rcv *Buffer) MutateLength(n int64) bool {
-	return rcv._tab.MutateInt64(rcv._tab.Pos+flatbuffers.UOffsetT(8), n)
-}
-
-func CreateBuffer(builder *flatbuffers.Builder, offset int64, length int64) flatbuffers.UOffsetT {
-	builder.Prep(8, 16)
-	builder.PrependInt64(length)
-	builder.PrependInt64(offset)
-	return builder.Offset()
-}
diff --git a/go/arrow/internal/flatbuf/CompressionType.go b/go/arrow/internal/flatbuf/CompressionType.go
deleted file mode 100644
index 96e9df0721c9f..0000000000000
--- a/go/arrow/internal/flatbuf/CompressionType.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type CompressionType int8
-
-const (
-	CompressionTypeLZ4_FRAME CompressionType = 0
-	CompressionTypeZSTD      CompressionType = 1
-)
-
-var EnumNamesCompressionType = map[CompressionType]string{
-	CompressionTypeLZ4_FRAME: "LZ4_FRAME",
-	CompressionTypeZSTD:      "ZSTD",
-}
-
-var EnumValuesCompressionType = map[string]CompressionType{
-	"LZ4_FRAME": CompressionTypeLZ4_FRAME,
-	"ZSTD":      CompressionTypeZSTD,
-}
-
-func (v CompressionType) String() string {
-	if s, ok := EnumNamesCompressionType[v]; ok {
-		return s
-	}
-	return "CompressionType(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Date.go b/go/arrow/internal/flatbuf/Date.go
deleted file mode 100644
index 985a8f79955a4..0000000000000
--- a/go/arrow/internal/flatbuf/Date.go
+++ /dev/null
@@ -1,71 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Date is either a 32-bit or 64-bit signed integer type representing an
-// / elapsed time since UNIX epoch (1970-01-01), stored in either of two units:
-// /
-// / * Milliseconds (64 bits) indicating UNIX time elapsed since the epoch (no
-// /   leap seconds), where the values are evenly divisible by 86400000
-// / * Days (32 bits) since the UNIX epoch
-type Date struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsDate(buf []byte, offset flatbuffers.UOffsetT) *Date {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Date{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Date) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Date) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Date) Unit() DateUnit {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return DateUnit(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 1
-}
-
-func (rcv *Date) MutateUnit(n DateUnit) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func DateStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func DateAddUnit(builder *flatbuffers.Builder, unit DateUnit) {
-	builder.PrependInt16Slot(0, int16(unit), 1)
-}
-func DateEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/DateUnit.go b/go/arrow/internal/flatbuf/DateUnit.go
deleted file mode 100644
index 8a12eec175fcf..0000000000000
--- a/go/arrow/internal/flatbuf/DateUnit.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type DateUnit int16
-
-const (
-	DateUnitDAY         DateUnit = 0
-	DateUnitMILLISECOND DateUnit = 1
-)
-
-var EnumNamesDateUnit = map[DateUnit]string{
-	DateUnitDAY:         "DAY",
-	DateUnitMILLISECOND: "MILLISECOND",
-}
-
-var EnumValuesDateUnit = map[string]DateUnit{
-	"DAY":         DateUnitDAY,
-	"MILLISECOND": DateUnitMILLISECOND,
-}
-
-func (v DateUnit) String() string {
-	if s, ok := EnumNamesDateUnit[v]; ok {
-		return s
-	}
-	return "DateUnit(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Decimal.go b/go/arrow/internal/flatbuf/Decimal.go
deleted file mode 100644
index 2fc9d5ad6586c..0000000000000
--- a/go/arrow/internal/flatbuf/Decimal.go
+++ /dev/null
@@ -1,107 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Exact decimal value represented as an integer value in two's
-// / complement. Currently only 128-bit (16-byte) and 256-bit (32-byte) integers
-// / are used. The representation uses the endianness indicated
-// / in the Schema.
-type Decimal struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsDecimal(buf []byte, offset flatbuffers.UOffsetT) *Decimal {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Decimal{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Decimal) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Decimal) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Total number of decimal digits
-func (rcv *Decimal) Precision() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / Total number of decimal digits
-func (rcv *Decimal) MutatePrecision(n int32) bool {
-	return rcv._tab.MutateInt32Slot(4, n)
-}
-
-// / Number of digits after the decimal point "."
-func (rcv *Decimal) Scale() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / Number of digits after the decimal point "."
-func (rcv *Decimal) MutateScale(n int32) bool {
-	return rcv._tab.MutateInt32Slot(6, n)
-}
-
-// / Number of bits per value. The only accepted widths are 128 and 256.
-// / We use bitWidth for consistency with Int::bitWidth.
-func (rcv *Decimal) BitWidth() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 128
-}
-
-// / Number of bits per value. The only accepted widths are 128 and 256.
-// / We use bitWidth for consistency with Int::bitWidth.
-func (rcv *Decimal) MutateBitWidth(n int32) bool {
-	return rcv._tab.MutateInt32Slot(8, n)
-}
-
-func DecimalStart(builder *flatbuffers.Builder) {
-	builder.StartObject(3)
-}
-func DecimalAddPrecision(builder *flatbuffers.Builder, precision int32) {
-	builder.PrependInt32Slot(0, precision, 0)
-}
-func DecimalAddScale(builder *flatbuffers.Builder, scale int32) {
-	builder.PrependInt32Slot(1, scale, 0)
-}
-func DecimalAddBitWidth(builder *flatbuffers.Builder, bitWidth int32) {
-	builder.PrependInt32Slot(2, bitWidth, 128)
-}
-func DecimalEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/DictionaryBatch.go b/go/arrow/internal/flatbuf/DictionaryBatch.go
deleted file mode 100644
index 999c5fda46384..0000000000000
--- a/go/arrow/internal/flatbuf/DictionaryBatch.go
+++ /dev/null
@@ -1,108 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / For sending dictionary encoding information. Any Field can be
-// / dictionary-encoded, but in this case none of its children may be
-// / dictionary-encoded.
-// / There is one vector / column per dictionary, but that vector / column
-// / may be spread across multiple dictionary batches by using the isDelta
-// / flag
-type DictionaryBatch struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsDictionaryBatch(buf []byte, offset flatbuffers.UOffsetT) *DictionaryBatch {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &DictionaryBatch{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *DictionaryBatch) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *DictionaryBatch) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *DictionaryBatch) Id() int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt64(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-func (rcv *DictionaryBatch) MutateId(n int64) bool {
-	return rcv._tab.MutateInt64Slot(4, n)
-}
-
-func (rcv *DictionaryBatch) Data(obj *RecordBatch) *RecordBatch {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(RecordBatch)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / If isDelta is true the values in the dictionary are to be appended to a
-// / dictionary with the indicated id. If isDelta is false this dictionary
-// / should replace the existing dictionary.
-func (rcv *DictionaryBatch) IsDelta() bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.GetBool(o + rcv._tab.Pos)
-	}
-	return false
-}
-
-// / If isDelta is true the values in the dictionary are to be appended to a
-// / dictionary with the indicated id. If isDelta is false this dictionary
-// / should replace the existing dictionary.
-func (rcv *DictionaryBatch) MutateIsDelta(n bool) bool {
-	return rcv._tab.MutateBoolSlot(8, n)
-}
-
-func DictionaryBatchStart(builder *flatbuffers.Builder) {
-	builder.StartObject(3)
-}
-func DictionaryBatchAddId(builder *flatbuffers.Builder, id int64) {
-	builder.PrependInt64Slot(0, id, 0)
-}
-func DictionaryBatchAddData(builder *flatbuffers.Builder, data flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(data), 0)
-}
-func DictionaryBatchAddIsDelta(builder *flatbuffers.Builder, isDelta bool) {
-	builder.PrependBoolSlot(2, isDelta, false)
-}
-func DictionaryBatchEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/DictionaryEncoding.go b/go/arrow/internal/flatbuf/DictionaryEncoding.go
deleted file mode 100644
index 44c3874219f1c..0000000000000
--- a/go/arrow/internal/flatbuf/DictionaryEncoding.go
+++ /dev/null
@@ -1,135 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type DictionaryEncoding struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsDictionaryEncoding(buf []byte, offset flatbuffers.UOffsetT) *DictionaryEncoding {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &DictionaryEncoding{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *DictionaryEncoding) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *DictionaryEncoding) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / The known dictionary id in the application where this data is used. In
-// / the file or streaming formats, the dictionary ids are found in the
-// / DictionaryBatch messages
-func (rcv *DictionaryEncoding) Id() int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt64(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / The known dictionary id in the application where this data is used. In
-// / the file or streaming formats, the dictionary ids are found in the
-// / DictionaryBatch messages
-func (rcv *DictionaryEncoding) MutateId(n int64) bool {
-	return rcv._tab.MutateInt64Slot(4, n)
-}
-
-// / The dictionary indices are constrained to be non-negative integers. If
-// / this field is null, the indices must be signed int32. To maximize
-// / cross-language compatibility and performance, implementations are
-// / recommended to prefer signed integer types over unsigned integer types
-// / and to avoid uint64 indices unless they are required by an application.
-func (rcv *DictionaryEncoding) IndexType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The dictionary indices are constrained to be non-negative integers. If
-// / this field is null, the indices must be signed int32. To maximize
-// / cross-language compatibility and performance, implementations are
-// / recommended to prefer signed integer types over unsigned integer types
-// / and to avoid uint64 indices unless they are required by an application.
-// / By default, dictionaries are not ordered, or the order does not have
-// / semantic meaning. In some statistical, applications, dictionary-encoding
-// / is used to represent ordered categorical data, and we provide a way to
-// / preserve that metadata here
-func (rcv *DictionaryEncoding) IsOrdered() bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.GetBool(o + rcv._tab.Pos)
-	}
-	return false
-}
-
-// / By default, dictionaries are not ordered, or the order does not have
-// / semantic meaning. In some statistical, applications, dictionary-encoding
-// / is used to represent ordered categorical data, and we provide a way to
-// / preserve that metadata here
-func (rcv *DictionaryEncoding) MutateIsOrdered(n bool) bool {
-	return rcv._tab.MutateBoolSlot(8, n)
-}
-
-func (rcv *DictionaryEncoding) DictionaryKind() DictionaryKind {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return DictionaryKind(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *DictionaryEncoding) MutateDictionaryKind(n DictionaryKind) bool {
-	return rcv._tab.MutateInt16Slot(10, int16(n))
-}
-
-func DictionaryEncodingStart(builder *flatbuffers.Builder) {
-	builder.StartObject(4)
-}
-func DictionaryEncodingAddId(builder *flatbuffers.Builder, id int64) {
-	builder.PrependInt64Slot(0, id, 0)
-}
-func DictionaryEncodingAddIndexType(builder *flatbuffers.Builder, indexType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(indexType), 0)
-}
-func DictionaryEncodingAddIsOrdered(builder *flatbuffers.Builder, isOrdered bool) {
-	builder.PrependBoolSlot(2, isOrdered, false)
-}
-func DictionaryEncodingAddDictionaryKind(builder *flatbuffers.Builder, dictionaryKind DictionaryKind) {
-	builder.PrependInt16Slot(3, int16(dictionaryKind), 0)
-}
-func DictionaryEncodingEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/DictionaryKind.go b/go/arrow/internal/flatbuf/DictionaryKind.go
deleted file mode 100644
index 6825100515612..0000000000000
--- a/go/arrow/internal/flatbuf/DictionaryKind.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-// / ----------------------------------------------------------------------
-// / Dictionary encoding metadata
-// / Maintained for forwards compatibility, in the future
-// / Dictionaries might be explicit maps between integers and values
-// / allowing for non-contiguous index values
-type DictionaryKind int16
-
-const (
-	DictionaryKindDenseArray DictionaryKind = 0
-)
-
-var EnumNamesDictionaryKind = map[DictionaryKind]string{
-	DictionaryKindDenseArray: "DenseArray",
-}
-
-var EnumValuesDictionaryKind = map[string]DictionaryKind{
-	"DenseArray": DictionaryKindDenseArray,
-}
-
-func (v DictionaryKind) String() string {
-	if s, ok := EnumNamesDictionaryKind[v]; ok {
-		return s
-	}
-	return "DictionaryKind(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Duration.go b/go/arrow/internal/flatbuf/Duration.go
deleted file mode 100644
index 57b7b2a037f19..0000000000000
--- a/go/arrow/internal/flatbuf/Duration.go
+++ /dev/null
@@ -1,65 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Duration struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsDuration(buf []byte, offset flatbuffers.UOffsetT) *Duration {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Duration{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Duration) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Duration) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Duration) Unit() TimeUnit {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return TimeUnit(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 1
-}
-
-func (rcv *Duration) MutateUnit(n TimeUnit) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func DurationStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func DurationAddUnit(builder *flatbuffers.Builder, unit TimeUnit) {
-	builder.PrependInt16Slot(0, int16(unit), 1)
-}
-func DurationEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Endianness.go b/go/arrow/internal/flatbuf/Endianness.go
deleted file mode 100644
index c9619b7b0d978..0000000000000
--- a/go/arrow/internal/flatbuf/Endianness.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-// / ----------------------------------------------------------------------
-// / Endianness of the platform producing the data
-type Endianness int16
-
-const (
-	EndiannessLittle Endianness = 0
-	EndiannessBig    Endianness = 1
-)
-
-var EnumNamesEndianness = map[Endianness]string{
-	EndiannessLittle: "Little",
-	EndiannessBig:    "Big",
-}
-
-var EnumValuesEndianness = map[string]Endianness{
-	"Little": EndiannessLittle,
-	"Big":    EndiannessBig,
-}
-
-func (v Endianness) String() string {
-	if s, ok := EnumNamesEndianness[v]; ok {
-		return s
-	}
-	return "Endianness(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Feature.go b/go/arrow/internal/flatbuf/Feature.go
deleted file mode 100644
index 2204c440ed4fe..0000000000000
--- a/go/arrow/internal/flatbuf/Feature.go
+++ /dev/null
@@ -1,71 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-// / Represents Arrow Features that might not have full support
-// / within implementations. This is intended to be used in
-// / two scenarios:
-// /  1.  A mechanism for readers of Arrow Streams
-// /      and files to understand that the stream or file makes
-// /      use of a feature that isn't supported or unknown to
-// /      the implementation (and therefore can meet the Arrow
-// /      forward compatibility guarantees).
-// /  2.  A means of negotiating between a client and server
-// /      what features a stream is allowed to use. The enums
-// /      values here are intented to represent higher level
-// /      features, additional details maybe negotiated
-// /      with key-value pairs specific to the protocol.
-// /
-// / Enums added to this list should be assigned power-of-two values
-// / to facilitate exchanging and comparing bitmaps for supported
-// / features.
-type Feature int64
-
-const (
-	/// Needed to make flatbuffers happy.
-	FeatureUNUSED Feature = 0
-	/// The stream makes use of multiple full dictionaries with the
-	/// same ID and assumes clients implement dictionary replacement
-	/// correctly.
-	FeatureDICTIONARY_REPLACEMENT Feature = 1
-	/// The stream makes use of compressed bodies as described
-	/// in Message.fbs.
-	FeatureCOMPRESSED_BODY Feature = 2
-)
-
-var EnumNamesFeature = map[Feature]string{
-	FeatureUNUSED:                 "UNUSED",
-	FeatureDICTIONARY_REPLACEMENT: "DICTIONARY_REPLACEMENT",
-	FeatureCOMPRESSED_BODY:        "COMPRESSED_BODY",
-}
-
-var EnumValuesFeature = map[string]Feature{
-	"UNUSED":                 FeatureUNUSED,
-	"DICTIONARY_REPLACEMENT": FeatureDICTIONARY_REPLACEMENT,
-	"COMPRESSED_BODY":        FeatureCOMPRESSED_BODY,
-}
-
-func (v Feature) String() string {
-	if s, ok := EnumNamesFeature[v]; ok {
-		return s
-	}
-	return "Feature(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Field.go b/go/arrow/internal/flatbuf/Field.go
deleted file mode 100644
index 8aed29bc48137..0000000000000
--- a/go/arrow/internal/flatbuf/Field.go
+++ /dev/null
@@ -1,188 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / A field represents a named column in a record / row batch or child of a
-// / nested type.
-type Field struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsField(buf []byte, offset flatbuffers.UOffsetT) *Field {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Field{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Field) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Field) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Name is not required, in i.e. a List
-func (rcv *Field) Name() []byte {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.ByteVector(o + rcv._tab.Pos)
-	}
-	return nil
-}
-
-// / Name is not required, in i.e. a List
-// / Whether or not this field can contain nulls. Should be true in general.
-func (rcv *Field) Nullable() bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.GetBool(o + rcv._tab.Pos)
-	}
-	return false
-}
-
-// / Whether or not this field can contain nulls. Should be true in general.
-func (rcv *Field) MutateNullable(n bool) bool {
-	return rcv._tab.MutateBoolSlot(6, n)
-}
-
-func (rcv *Field) TypeType() Type {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return Type(rcv._tab.GetByte(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Field) MutateTypeType(n Type) bool {
-	return rcv._tab.MutateByteSlot(8, byte(n))
-}
-
-// / This is the type of the decoded value if the field is dictionary encoded.
-func (rcv *Field) Type(obj *flatbuffers.Table) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		rcv._tab.Union(obj, o)
-		return true
-	}
-	return false
-}
-
-// / This is the type of the decoded value if the field is dictionary encoded.
-// / Present only if the field is dictionary encoded.
-func (rcv *Field) Dictionary(obj *DictionaryEncoding) *DictionaryEncoding {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(DictionaryEncoding)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / Present only if the field is dictionary encoded.
-// / children apply only to nested data types like Struct, List and Union. For
-// / primitive types children will have length 0.
-func (rcv *Field) Children(obj *Field, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(14))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Field) ChildrenLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(14))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / children apply only to nested data types like Struct, List and Union. For
-// / primitive types children will have length 0.
-// / User-defined metadata
-func (rcv *Field) CustomMetadata(obj *KeyValue, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(16))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Field) CustomMetadataLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(16))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / User-defined metadata
-func FieldStart(builder *flatbuffers.Builder) {
-	builder.StartObject(7)
-}
-func FieldAddName(builder *flatbuffers.Builder, name flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(0, flatbuffers.UOffsetT(name), 0)
-}
-func FieldAddNullable(builder *flatbuffers.Builder, nullable bool) {
-	builder.PrependBoolSlot(1, nullable, false)
-}
-func FieldAddTypeType(builder *flatbuffers.Builder, typeType Type) {
-	builder.PrependByteSlot(2, byte(typeType), 0)
-}
-func FieldAddType(builder *flatbuffers.Builder, type_ flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(type_), 0)
-}
-func FieldAddDictionary(builder *flatbuffers.Builder, dictionary flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(4, flatbuffers.UOffsetT(dictionary), 0)
-}
-func FieldAddChildren(builder *flatbuffers.Builder, children flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(5, flatbuffers.UOffsetT(children), 0)
-}
-func FieldStartChildrenVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func FieldAddCustomMetadata(builder *flatbuffers.Builder, customMetadata flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(6, flatbuffers.UOffsetT(customMetadata), 0)
-}
-func FieldStartCustomMetadataVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func FieldEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/FieldNode.go b/go/arrow/internal/flatbuf/FieldNode.go
deleted file mode 100644
index 0e258a3d2cde8..0000000000000
--- a/go/arrow/internal/flatbuf/FieldNode.go
+++ /dev/null
@@ -1,78 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / Data structures for describing a table row batch (a collection of
-// / equal-length Arrow arrays)
-// / Metadata about a field at some level of a nested type tree (but not
-// / its children).
-// /
-// / For example, a List<Int16> with values `[[1, 2, 3], null, [4], [5, 6], null]`
-// / would have {length: 5, null_count: 2} for its List node, and {length: 6,
-// / null_count: 0} for its Int16 node, as separate FieldNode structs
-type FieldNode struct {
-	_tab flatbuffers.Struct
-}
-
-func (rcv *FieldNode) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *FieldNode) Table() flatbuffers.Table {
-	return rcv._tab.Table
-}
-
-// / The number of value slots in the Arrow array at this level of a nested
-// / tree
-func (rcv *FieldNode) Length() int64 {
-	return rcv._tab.GetInt64(rcv._tab.Pos + flatbuffers.UOffsetT(0))
-}
-
-// / The number of value slots in the Arrow array at this level of a nested
-// / tree
-func (rcv *FieldNode) MutateLength(n int64) bool {
-	return rcv._tab.MutateInt64(rcv._tab.Pos+flatbuffers.UOffsetT(0), n)
-}
-
-// / The number of observed nulls. Fields with null_count == 0 may choose not
-// / to write their physical validity bitmap out as a materialized buffer,
-// / instead setting the length of the bitmap buffer to 0.
-func (rcv *FieldNode) NullCount() int64 {
-	return rcv._tab.GetInt64(rcv._tab.Pos + flatbuffers.UOffsetT(8))
-}
-
-// / The number of observed nulls. Fields with null_count == 0 may choose not
-// / to write their physical validity bitmap out as a materialized buffer,
-// / instead setting the length of the bitmap buffer to 0.
-func (rcv *FieldNode) MutateNullCount(n int64) bool {
-	return rcv._tab.MutateInt64(rcv._tab.Pos+flatbuffers.UOffsetT(8), n)
-}
-
-func CreateFieldNode(builder *flatbuffers.Builder, length int64, nullCount int64) flatbuffers.UOffsetT {
-	builder.Prep(8, 16)
-	builder.PrependInt64(nullCount)
-	builder.PrependInt64(length)
-	return builder.Offset()
-}
diff --git a/go/arrow/internal/flatbuf/FixedSizeBinary.go b/go/arrow/internal/flatbuf/FixedSizeBinary.go
deleted file mode 100644
index 2725dfb90b966..0000000000000
--- a/go/arrow/internal/flatbuf/FixedSizeBinary.go
+++ /dev/null
@@ -1,67 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type FixedSizeBinary struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsFixedSizeBinary(buf []byte, offset flatbuffers.UOffsetT) *FixedSizeBinary {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &FixedSizeBinary{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *FixedSizeBinary) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *FixedSizeBinary) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Number of bytes per value
-func (rcv *FixedSizeBinary) ByteWidth() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / Number of bytes per value
-func (rcv *FixedSizeBinary) MutateByteWidth(n int32) bool {
-	return rcv._tab.MutateInt32Slot(4, n)
-}
-
-func FixedSizeBinaryStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func FixedSizeBinaryAddByteWidth(builder *flatbuffers.Builder, byteWidth int32) {
-	builder.PrependInt32Slot(0, byteWidth, 0)
-}
-func FixedSizeBinaryEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/FixedSizeList.go b/go/arrow/internal/flatbuf/FixedSizeList.go
deleted file mode 100644
index 534ca27f2fe21..0000000000000
--- a/go/arrow/internal/flatbuf/FixedSizeList.go
+++ /dev/null
@@ -1,67 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type FixedSizeList struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsFixedSizeList(buf []byte, offset flatbuffers.UOffsetT) *FixedSizeList {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &FixedSizeList{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *FixedSizeList) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *FixedSizeList) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Number of list items per value
-func (rcv *FixedSizeList) ListSize() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / Number of list items per value
-func (rcv *FixedSizeList) MutateListSize(n int32) bool {
-	return rcv._tab.MutateInt32Slot(4, n)
-}
-
-func FixedSizeListStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func FixedSizeListAddListSize(builder *flatbuffers.Builder, listSize int32) {
-	builder.PrependInt32Slot(0, listSize, 0)
-}
-func FixedSizeListEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/FloatingPoint.go b/go/arrow/internal/flatbuf/FloatingPoint.go
deleted file mode 100644
index 241d448dcf9fd..0000000000000
--- a/go/arrow/internal/flatbuf/FloatingPoint.go
+++ /dev/null
@@ -1,65 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type FloatingPoint struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsFloatingPoint(buf []byte, offset flatbuffers.UOffsetT) *FloatingPoint {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &FloatingPoint{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *FloatingPoint) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *FloatingPoint) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *FloatingPoint) Precision() Precision {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return Precision(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *FloatingPoint) MutatePrecision(n Precision) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func FloatingPointStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func FloatingPointAddPrecision(builder *flatbuffers.Builder, precision Precision) {
-	builder.PrependInt16Slot(0, int16(precision), 0)
-}
-func FloatingPointEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Footer.go b/go/arrow/internal/flatbuf/Footer.go
deleted file mode 100644
index d65af41e7f62e..0000000000000
--- a/go/arrow/internal/flatbuf/Footer.go
+++ /dev/null
@@ -1,162 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / Arrow File metadata
-// /
-type Footer struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsFooter(buf []byte, offset flatbuffers.UOffsetT) *Footer {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Footer{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Footer) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Footer) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Footer) Version() MetadataVersion {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return MetadataVersion(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Footer) MutateVersion(n MetadataVersion) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func (rcv *Footer) Schema(obj *Schema) *Schema {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Schema)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-func (rcv *Footer) Dictionaries(obj *Block, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 24
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Footer) DictionariesLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-func (rcv *Footer) RecordBatches(obj *Block, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 24
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Footer) RecordBatchesLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / User-defined metadata
-func (rcv *Footer) CustomMetadata(obj *KeyValue, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Footer) CustomMetadataLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / User-defined metadata
-func FooterStart(builder *flatbuffers.Builder) {
-	builder.StartObject(5)
-}
-func FooterAddVersion(builder *flatbuffers.Builder, version MetadataVersion) {
-	builder.PrependInt16Slot(0, int16(version), 0)
-}
-func FooterAddSchema(builder *flatbuffers.Builder, schema flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(schema), 0)
-}
-func FooterAddDictionaries(builder *flatbuffers.Builder, dictionaries flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(dictionaries), 0)
-}
-func FooterStartDictionariesVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(24, numElems, 8)
-}
-func FooterAddRecordBatches(builder *flatbuffers.Builder, recordBatches flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(recordBatches), 0)
-}
-func FooterStartRecordBatchesVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(24, numElems, 8)
-}
-func FooterAddCustomMetadata(builder *flatbuffers.Builder, customMetadata flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(4, flatbuffers.UOffsetT(customMetadata), 0)
-}
-func FooterStartCustomMetadataVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func FooterEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Int.go b/go/arrow/internal/flatbuf/Int.go
deleted file mode 100644
index 9f4b1911705cd..0000000000000
--- a/go/arrow/internal/flatbuf/Int.go
+++ /dev/null
@@ -1,80 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Int struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsInt(buf []byte, offset flatbuffers.UOffsetT) *Int {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Int{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Int) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Int) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Int) BitWidth() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-func (rcv *Int) MutateBitWidth(n int32) bool {
-	return rcv._tab.MutateInt32Slot(4, n)
-}
-
-func (rcv *Int) IsSigned() bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.GetBool(o + rcv._tab.Pos)
-	}
-	return false
-}
-
-func (rcv *Int) MutateIsSigned(n bool) bool {
-	return rcv._tab.MutateBoolSlot(6, n)
-}
-
-func IntStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func IntAddBitWidth(builder *flatbuffers.Builder, bitWidth int32) {
-	builder.PrependInt32Slot(0, bitWidth, 0)
-}
-func IntAddIsSigned(builder *flatbuffers.Builder, isSigned bool) {
-	builder.PrependBoolSlot(1, isSigned, false)
-}
-func IntEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Interval.go b/go/arrow/internal/flatbuf/Interval.go
deleted file mode 100644
index 12c56d5c21001..0000000000000
--- a/go/arrow/internal/flatbuf/Interval.go
+++ /dev/null
@@ -1,65 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Interval struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsInterval(buf []byte, offset flatbuffers.UOffsetT) *Interval {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Interval{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Interval) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Interval) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Interval) Unit() IntervalUnit {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return IntervalUnit(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Interval) MutateUnit(n IntervalUnit) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func IntervalStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func IntervalAddUnit(builder *flatbuffers.Builder, unit IntervalUnit) {
-	builder.PrependInt16Slot(0, int16(unit), 0)
-}
-func IntervalEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/IntervalUnit.go b/go/arrow/internal/flatbuf/IntervalUnit.go
deleted file mode 100644
index f3ed1ae7b53a3..0000000000000
--- a/go/arrow/internal/flatbuf/IntervalUnit.go
+++ /dev/null
@@ -1,48 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type IntervalUnit int16
-
-const (
-	IntervalUnitYEAR_MONTH     IntervalUnit = 0
-	IntervalUnitDAY_TIME       IntervalUnit = 1
-	IntervalUnitMONTH_DAY_NANO IntervalUnit = 2
-)
-
-var EnumNamesIntervalUnit = map[IntervalUnit]string{
-	IntervalUnitYEAR_MONTH:     "YEAR_MONTH",
-	IntervalUnitDAY_TIME:       "DAY_TIME",
-	IntervalUnitMONTH_DAY_NANO: "MONTH_DAY_NANO",
-}
-
-var EnumValuesIntervalUnit = map[string]IntervalUnit{
-	"YEAR_MONTH":     IntervalUnitYEAR_MONTH,
-	"DAY_TIME":       IntervalUnitDAY_TIME,
-	"MONTH_DAY_NANO": IntervalUnitMONTH_DAY_NANO,
-}
-
-func (v IntervalUnit) String() string {
-	if s, ok := EnumNamesIntervalUnit[v]; ok {
-		return s
-	}
-	return "IntervalUnit(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/KeyValue.go b/go/arrow/internal/flatbuf/KeyValue.go
deleted file mode 100644
index 0cd5dc62923e3..0000000000000
--- a/go/arrow/internal/flatbuf/KeyValue.go
+++ /dev/null
@@ -1,75 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / user defined key value pairs to add custom metadata to arrow
-// / key namespacing is the responsibility of the user
-type KeyValue struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsKeyValue(buf []byte, offset flatbuffers.UOffsetT) *KeyValue {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &KeyValue{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *KeyValue) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *KeyValue) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *KeyValue) Key() []byte {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.ByteVector(o + rcv._tab.Pos)
-	}
-	return nil
-}
-
-func (rcv *KeyValue) Value() []byte {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.ByteVector(o + rcv._tab.Pos)
-	}
-	return nil
-}
-
-func KeyValueStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func KeyValueAddKey(builder *flatbuffers.Builder, key flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(0, flatbuffers.UOffsetT(key), 0)
-}
-func KeyValueAddValue(builder *flatbuffers.Builder, value flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(value), 0)
-}
-func KeyValueEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/LargeBinary.go b/go/arrow/internal/flatbuf/LargeBinary.go
deleted file mode 100644
index b25ecc41aff51..0000000000000
--- a/go/arrow/internal/flatbuf/LargeBinary.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Same as Binary, but with 64-bit offsets, allowing to represent
-// / extremely large data values.
-type LargeBinary struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsLargeBinary(buf []byte, offset flatbuffers.UOffsetT) *LargeBinary {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &LargeBinary{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *LargeBinary) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *LargeBinary) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func LargeBinaryStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func LargeBinaryEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/LargeList.go b/go/arrow/internal/flatbuf/LargeList.go
deleted file mode 100644
index d8bfb9c07df76..0000000000000
--- a/go/arrow/internal/flatbuf/LargeList.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Same as List, but with 64-bit offsets, allowing to represent
-// / extremely large data values.
-type LargeList struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsLargeList(buf []byte, offset flatbuffers.UOffsetT) *LargeList {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &LargeList{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *LargeList) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *LargeList) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func LargeListStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func LargeListEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/LargeListView.go b/go/arrow/internal/flatbuf/LargeListView.go
deleted file mode 100644
index 4608c1dec53d8..0000000000000
--- a/go/arrow/internal/flatbuf/LargeListView.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Same as ListView, but with 64-bit offsets and sizes, allowing to represent
-// / extremely large data values.
-type LargeListView struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsLargeListView(buf []byte, offset flatbuffers.UOffsetT) *LargeListView {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &LargeListView{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *LargeListView) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *LargeListView) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func LargeListViewStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func LargeListViewEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/LargeUtf8.go b/go/arrow/internal/flatbuf/LargeUtf8.go
deleted file mode 100644
index 4478fed856e6d..0000000000000
--- a/go/arrow/internal/flatbuf/LargeUtf8.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Same as Utf8, but with 64-bit offsets, allowing to represent
-// / extremely large data values.
-type LargeUtf8 struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsLargeUtf8(buf []byte, offset flatbuffers.UOffsetT) *LargeUtf8 {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &LargeUtf8{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *LargeUtf8) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *LargeUtf8) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func LargeUtf8Start(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func LargeUtf8End(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/List.go b/go/arrow/internal/flatbuf/List.go
deleted file mode 100644
index ba84319d3f690..0000000000000
--- a/go/arrow/internal/flatbuf/List.go
+++ /dev/null
@@ -1,50 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type List struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsList(buf []byte, offset flatbuffers.UOffsetT) *List {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &List{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *List) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *List) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func ListStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func ListEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/ListView.go b/go/arrow/internal/flatbuf/ListView.go
deleted file mode 100644
index cde43cf5b6893..0000000000000
--- a/go/arrow/internal/flatbuf/ListView.go
+++ /dev/null
@@ -1,53 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Represents the same logical types that List can, but contains offsets and
-// / sizes allowing for writes in any order and sharing of child values among
-// / list values.
-type ListView struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsListView(buf []byte, offset flatbuffers.UOffsetT) *ListView {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &ListView{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *ListView) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *ListView) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func ListViewStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func ListViewEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Map.go b/go/arrow/internal/flatbuf/Map.go
deleted file mode 100644
index d4871e558199f..0000000000000
--- a/go/arrow/internal/flatbuf/Map.go
+++ /dev/null
@@ -1,92 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / A Map is a logical nested type that is represented as
-// /
-// / List<entries: Struct<key: K, value: V>>
-// /
-// / In this layout, the keys and values are each respectively contiguous. We do
-// / not constrain the key and value types, so the application is responsible
-// / for ensuring that the keys are hashable and unique. Whether the keys are sorted
-// / may be set in the metadata for this field.
-// /
-// / In a field with Map type, the field has a child Struct field, which then
-// / has two children: key type and the second the value type. The names of the
-// / child fields may be respectively "entries", "key", and "value", but this is
-// / not enforced.
-// /
-// / Map
-// / ```text
-// /   - child[0] entries: Struct
-// /     - child[0] key: K
-// /     - child[1] value: V
-// / ```
-// / Neither the "entries" field nor the "key" field may be nullable.
-// /
-// / The metadata is structured so that Arrow systems without special handling
-// / for Map can make Map an alias for List. The "layout" attribute for the Map
-// / field must have the same contents as a List.
-type Map struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsMap(buf []byte, offset flatbuffers.UOffsetT) *Map {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Map{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Map) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Map) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Set to true if the keys within each value are sorted
-func (rcv *Map) KeysSorted() bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetBool(o + rcv._tab.Pos)
-	}
-	return false
-}
-
-// / Set to true if the keys within each value are sorted
-func (rcv *Map) MutateKeysSorted(n bool) bool {
-	return rcv._tab.MutateBoolSlot(4, n)
-}
-
-func MapStart(builder *flatbuffers.Builder) {
-	builder.StartObject(1)
-}
-func MapAddKeysSorted(builder *flatbuffers.Builder, keysSorted bool) {
-	builder.PrependBoolSlot(0, keysSorted, false)
-}
-func MapEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Message.go b/go/arrow/internal/flatbuf/Message.go
deleted file mode 100644
index f4b4a0ff80eef..0000000000000
--- a/go/arrow/internal/flatbuf/Message.go
+++ /dev/null
@@ -1,133 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Message struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsMessage(buf []byte, offset flatbuffers.UOffsetT) *Message {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Message{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Message) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Message) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Message) Version() MetadataVersion {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return MetadataVersion(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Message) MutateVersion(n MetadataVersion) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func (rcv *Message) HeaderType() MessageHeader {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return MessageHeader(rcv._tab.GetByte(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Message) MutateHeaderType(n MessageHeader) bool {
-	return rcv._tab.MutateByteSlot(6, byte(n))
-}
-
-func (rcv *Message) Header(obj *flatbuffers.Table) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		rcv._tab.Union(obj, o)
-		return true
-	}
-	return false
-}
-
-func (rcv *Message) BodyLength() int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.GetInt64(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-func (rcv *Message) MutateBodyLength(n int64) bool {
-	return rcv._tab.MutateInt64Slot(10, n)
-}
-
-func (rcv *Message) CustomMetadata(obj *KeyValue, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Message) CustomMetadataLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-func MessageStart(builder *flatbuffers.Builder) {
-	builder.StartObject(5)
-}
-func MessageAddVersion(builder *flatbuffers.Builder, version MetadataVersion) {
-	builder.PrependInt16Slot(0, int16(version), 0)
-}
-func MessageAddHeaderType(builder *flatbuffers.Builder, headerType MessageHeader) {
-	builder.PrependByteSlot(1, byte(headerType), 0)
-}
-func MessageAddHeader(builder *flatbuffers.Builder, header flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(header), 0)
-}
-func MessageAddBodyLength(builder *flatbuffers.Builder, bodyLength int64) {
-	builder.PrependInt64Slot(3, bodyLength, 0)
-}
-func MessageAddCustomMetadata(builder *flatbuffers.Builder, customMetadata flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(4, flatbuffers.UOffsetT(customMetadata), 0)
-}
-func MessageStartCustomMetadataVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func MessageEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/MessageHeader.go b/go/arrow/internal/flatbuf/MessageHeader.go
deleted file mode 100644
index d7f9907c7a7a2..0000000000000
--- a/go/arrow/internal/flatbuf/MessageHeader.go
+++ /dev/null
@@ -1,65 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-// / ----------------------------------------------------------------------
-// / The root Message type
-// / This union enables us to easily send different message types without
-// / redundant storage, and in the future we can easily add new message types.
-// /
-// / Arrow implementations do not need to implement all of the message types,
-// / which may include experimental metadata types. For maximum compatibility,
-// / it is best to send data using RecordBatch
-type MessageHeader byte
-
-const (
-	MessageHeaderNONE            MessageHeader = 0
-	MessageHeaderSchema          MessageHeader = 1
-	MessageHeaderDictionaryBatch MessageHeader = 2
-	MessageHeaderRecordBatch     MessageHeader = 3
-	MessageHeaderTensor          MessageHeader = 4
-	MessageHeaderSparseTensor    MessageHeader = 5
-)
-
-var EnumNamesMessageHeader = map[MessageHeader]string{
-	MessageHeaderNONE:            "NONE",
-	MessageHeaderSchema:          "Schema",
-	MessageHeaderDictionaryBatch: "DictionaryBatch",
-	MessageHeaderRecordBatch:     "RecordBatch",
-	MessageHeaderTensor:          "Tensor",
-	MessageHeaderSparseTensor:    "SparseTensor",
-}
-
-var EnumValuesMessageHeader = map[string]MessageHeader{
-	"NONE":            MessageHeaderNONE,
-	"Schema":          MessageHeaderSchema,
-	"DictionaryBatch": MessageHeaderDictionaryBatch,
-	"RecordBatch":     MessageHeaderRecordBatch,
-	"Tensor":          MessageHeaderTensor,
-	"SparseTensor":    MessageHeaderSparseTensor,
-}
-
-func (v MessageHeader) String() string {
-	if s, ok := EnumNamesMessageHeader[v]; ok {
-		return s
-	}
-	return "MessageHeader(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/MetadataVersion.go b/go/arrow/internal/flatbuf/MetadataVersion.go
deleted file mode 100644
index bb5e99dd588ad..0000000000000
--- a/go/arrow/internal/flatbuf/MetadataVersion.go
+++ /dev/null
@@ -1,65 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type MetadataVersion int16
-
-const (
-	/// 0.1.0 (October 2016).
-	MetadataVersionV1 MetadataVersion = 0
-	/// 0.2.0 (February 2017). Non-backwards compatible with V1.
-	MetadataVersionV2 MetadataVersion = 1
-	/// 0.3.0 -> 0.7.1 (May - December 2017). Non-backwards compatible with V2.
-	MetadataVersionV3 MetadataVersion = 2
-	/// >= 0.8.0 (December 2017). Non-backwards compatible with V3.
-	MetadataVersionV4 MetadataVersion = 3
-	/// >= 1.0.0 (July 2020). Backwards compatible with V4 (V5 readers can read V4
-	/// metadata and IPC messages). Implementations are recommended to provide a
-	/// V4 compatibility mode with V5 format changes disabled.
-	///
-	/// Incompatible changes between V4 and V5:
-	/// - Union buffer layout has changed. In V5, Unions don't have a validity
-	///   bitmap buffer.
-	MetadataVersionV5 MetadataVersion = 4
-)
-
-var EnumNamesMetadataVersion = map[MetadataVersion]string{
-	MetadataVersionV1: "V1",
-	MetadataVersionV2: "V2",
-	MetadataVersionV3: "V3",
-	MetadataVersionV4: "V4",
-	MetadataVersionV5: "V5",
-}
-
-var EnumValuesMetadataVersion = map[string]MetadataVersion{
-	"V1": MetadataVersionV1,
-	"V2": MetadataVersionV2,
-	"V3": MetadataVersionV3,
-	"V4": MetadataVersionV4,
-	"V5": MetadataVersionV5,
-}
-
-func (v MetadataVersion) String() string {
-	if s, ok := EnumNamesMetadataVersion[v]; ok {
-		return s
-	}
-	return "MetadataVersion(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Null.go b/go/arrow/internal/flatbuf/Null.go
deleted file mode 100644
index 3b93a1b6ee965..0000000000000
--- a/go/arrow/internal/flatbuf/Null.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / These are stored in the flatbuffer in the Type union below
-type Null struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsNull(buf []byte, offset flatbuffers.UOffsetT) *Null {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Null{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Null) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Null) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func NullStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func NullEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Precision.go b/go/arrow/internal/flatbuf/Precision.go
deleted file mode 100644
index d8021ccc44319..0000000000000
--- a/go/arrow/internal/flatbuf/Precision.go
+++ /dev/null
@@ -1,48 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type Precision int16
-
-const (
-	PrecisionHALF   Precision = 0
-	PrecisionSINGLE Precision = 1
-	PrecisionDOUBLE Precision = 2
-)
-
-var EnumNamesPrecision = map[Precision]string{
-	PrecisionHALF:   "HALF",
-	PrecisionSINGLE: "SINGLE",
-	PrecisionDOUBLE: "DOUBLE",
-}
-
-var EnumValuesPrecision = map[string]Precision{
-	"HALF":   PrecisionHALF,
-	"SINGLE": PrecisionSINGLE,
-	"DOUBLE": PrecisionDOUBLE,
-}
-
-func (v Precision) String() string {
-	if s, ok := EnumNamesPrecision[v]; ok {
-		return s
-	}
-	return "Precision(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/RecordBatch.go b/go/arrow/internal/flatbuf/RecordBatch.go
deleted file mode 100644
index 52c72a8a20ae4..0000000000000
--- a/go/arrow/internal/flatbuf/RecordBatch.go
+++ /dev/null
@@ -1,214 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / A data header describing the shared memory layout of a "record" or "row"
-// / batch. Some systems call this a "row batch" internally and others a "record
-// / batch".
-type RecordBatch struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsRecordBatch(buf []byte, offset flatbuffers.UOffsetT) *RecordBatch {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &RecordBatch{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *RecordBatch) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *RecordBatch) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / number of records / rows. The arrays in the batch should all have this
-// / length
-func (rcv *RecordBatch) Length() int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt64(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / number of records / rows. The arrays in the batch should all have this
-// / length
-func (rcv *RecordBatch) MutateLength(n int64) bool {
-	return rcv._tab.MutateInt64Slot(4, n)
-}
-
-// / Nodes correspond to the pre-ordered flattened logical schema
-func (rcv *RecordBatch) Nodes(obj *FieldNode, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 16
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *RecordBatch) NodesLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Nodes correspond to the pre-ordered flattened logical schema
-// / Buffers correspond to the pre-ordered flattened buffer tree
-// /
-// / The number of buffers appended to this list depends on the schema. For
-// / example, most primitive arrays will have 2 buffers, 1 for the validity
-// / bitmap and 1 for the values. For struct arrays, there will only be a
-// / single buffer for the validity (nulls) bitmap
-func (rcv *RecordBatch) Buffers(obj *Buffer, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 16
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *RecordBatch) BuffersLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Buffers correspond to the pre-ordered flattened buffer tree
-// /
-// / The number of buffers appended to this list depends on the schema. For
-// / example, most primitive arrays will have 2 buffers, 1 for the validity
-// / bitmap and 1 for the values. For struct arrays, there will only be a
-// / single buffer for the validity (nulls) bitmap
-// / Optional compression of the message body
-func (rcv *RecordBatch) Compression(obj *BodyCompression) *BodyCompression {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(BodyCompression)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / Optional compression of the message body
-// / Some types such as Utf8View are represented using a variable number of buffers.
-// / For each such Field in the pre-ordered flattened logical schema, there will be
-// / an entry in variadicBufferCounts to indicate the number of number of variadic
-// / buffers which belong to that Field in the current RecordBatch.
-// /
-// / For example, the schema
-// /     col1: Struct<alpha: Int32, beta: BinaryView, gamma: Float64>
-// /     col2: Utf8View
-// / contains two Fields with variadic buffers so variadicBufferCounts will have
-// / two entries, the first counting the variadic buffers of `col1.beta` and the
-// / second counting `col2`'s.
-// /
-// / This field may be omitted if and only if the schema contains no Fields with
-// / a variable number of buffers, such as BinaryView and Utf8View.
-func (rcv *RecordBatch) VariadicBufferCounts(j int) int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.GetInt64(a + flatbuffers.UOffsetT(j*8))
-	}
-	return 0
-}
-
-func (rcv *RecordBatch) VariadicBufferCountsLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Some types such as Utf8View are represented using a variable number of buffers.
-// / For each such Field in the pre-ordered flattened logical schema, there will be
-// / an entry in variadicBufferCounts to indicate the number of number of variadic
-// / buffers which belong to that Field in the current RecordBatch.
-// /
-// / For example, the schema
-// /     col1: Struct<alpha: Int32, beta: BinaryView, gamma: Float64>
-// /     col2: Utf8View
-// / contains two Fields with variadic buffers so variadicBufferCounts will have
-// / two entries, the first counting the variadic buffers of `col1.beta` and the
-// / second counting `col2`'s.
-// /
-// / This field may be omitted if and only if the schema contains no Fields with
-// / a variable number of buffers, such as BinaryView and Utf8View.
-func (rcv *RecordBatch) MutateVariadicBufferCounts(j int, n int64) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.MutateInt64(a+flatbuffers.UOffsetT(j*8), n)
-	}
-	return false
-}
-
-func RecordBatchStart(builder *flatbuffers.Builder) {
-	builder.StartObject(5)
-}
-func RecordBatchAddLength(builder *flatbuffers.Builder, length int64) {
-	builder.PrependInt64Slot(0, length, 0)
-}
-func RecordBatchAddNodes(builder *flatbuffers.Builder, nodes flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(nodes), 0)
-}
-func RecordBatchStartNodesVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(16, numElems, 8)
-}
-func RecordBatchAddBuffers(builder *flatbuffers.Builder, buffers flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(buffers), 0)
-}
-func RecordBatchStartBuffersVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(16, numElems, 8)
-}
-func RecordBatchAddCompression(builder *flatbuffers.Builder, compression flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(compression), 0)
-}
-func RecordBatchAddVariadicBufferCounts(builder *flatbuffers.Builder, variadicBufferCounts flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(4, flatbuffers.UOffsetT(variadicBufferCounts), 0)
-}
-func RecordBatchStartVariadicBufferCountsVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(8, numElems, 8)
-}
-func RecordBatchEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/RunEndEncoded.go b/go/arrow/internal/flatbuf/RunEndEncoded.go
deleted file mode 100644
index b88460b2e22bc..0000000000000
--- a/go/arrow/internal/flatbuf/RunEndEncoded.go
+++ /dev/null
@@ -1,55 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Contains two child arrays, run_ends and values.
-// / The run_ends child array must be a 16/32/64-bit integer array
-// / which encodes the indices at which the run with the value in
-// / each corresponding index in the values child array ends.
-// / Like list/struct types, the value array can be of any type.
-type RunEndEncoded struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsRunEndEncoded(buf []byte, offset flatbuffers.UOffsetT) *RunEndEncoded {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &RunEndEncoded{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *RunEndEncoded) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *RunEndEncoded) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func RunEndEncodedStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func RunEndEncodedEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/RunLengthEncoded.go b/go/arrow/internal/flatbuf/RunLengthEncoded.go
deleted file mode 100644
index 8822c0660007a..0000000000000
--- a/go/arrow/internal/flatbuf/RunLengthEncoded.go
+++ /dev/null
@@ -1,50 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type RunLengthEncoded struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsRunLengthEncoded(buf []byte, offset flatbuffers.UOffsetT) *RunLengthEncoded {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &RunLengthEncoded{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *RunLengthEncoded) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *RunLengthEncoded) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func RunLengthEncodedStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func RunLengthEncodedEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Schema.go b/go/arrow/internal/flatbuf/Schema.go
deleted file mode 100644
index ae5b248a766e3..0000000000000
--- a/go/arrow/internal/flatbuf/Schema.go
+++ /dev/null
@@ -1,159 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / A Schema describes the columns in a row batch
-type Schema struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsSchema(buf []byte, offset flatbuffers.UOffsetT) *Schema {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Schema{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Schema) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Schema) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / endianness of the buffer
-// / it is Little Endian by default
-// / if endianness doesn't match the underlying system then the vectors need to be converted
-func (rcv *Schema) Endianness() Endianness {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return Endianness(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-// / endianness of the buffer
-// / it is Little Endian by default
-// / if endianness doesn't match the underlying system then the vectors need to be converted
-func (rcv *Schema) MutateEndianness(n Endianness) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func (rcv *Schema) Fields(obj *Field, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Schema) FieldsLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-func (rcv *Schema) CustomMetadata(obj *KeyValue, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Schema) CustomMetadataLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Features used in the stream/file.
-func (rcv *Schema) Features(j int) Feature {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return Feature(rcv._tab.GetInt64(a + flatbuffers.UOffsetT(j*8)))
-	}
-	return 0
-}
-
-func (rcv *Schema) FeaturesLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Features used in the stream/file.
-func (rcv *Schema) MutateFeatures(j int, n Feature) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.MutateInt64(a+flatbuffers.UOffsetT(j*8), int64(n))
-	}
-	return false
-}
-
-func SchemaStart(builder *flatbuffers.Builder) {
-	builder.StartObject(4)
-}
-func SchemaAddEndianness(builder *flatbuffers.Builder, endianness Endianness) {
-	builder.PrependInt16Slot(0, int16(endianness), 0)
-}
-func SchemaAddFields(builder *flatbuffers.Builder, fields flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(fields), 0)
-}
-func SchemaStartFieldsVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func SchemaAddCustomMetadata(builder *flatbuffers.Builder, customMetadata flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(customMetadata), 0)
-}
-func SchemaStartCustomMetadataVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func SchemaAddFeatures(builder *flatbuffers.Builder, features flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(features), 0)
-}
-func SchemaStartFeaturesVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(8, numElems, 8)
-}
-func SchemaEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/SparseMatrixCompressedAxis.go b/go/arrow/internal/flatbuf/SparseMatrixCompressedAxis.go
deleted file mode 100644
index 2d86fdef785d7..0000000000000
--- a/go/arrow/internal/flatbuf/SparseMatrixCompressedAxis.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type SparseMatrixCompressedAxis int16
-
-const (
-	SparseMatrixCompressedAxisRow    SparseMatrixCompressedAxis = 0
-	SparseMatrixCompressedAxisColumn SparseMatrixCompressedAxis = 1
-)
-
-var EnumNamesSparseMatrixCompressedAxis = map[SparseMatrixCompressedAxis]string{
-	SparseMatrixCompressedAxisRow:    "Row",
-	SparseMatrixCompressedAxisColumn: "Column",
-}
-
-var EnumValuesSparseMatrixCompressedAxis = map[string]SparseMatrixCompressedAxis{
-	"Row":    SparseMatrixCompressedAxisRow,
-	"Column": SparseMatrixCompressedAxisColumn,
-}
-
-func (v SparseMatrixCompressedAxis) String() string {
-	if s, ok := EnumNamesSparseMatrixCompressedAxis[v]; ok {
-		return s
-	}
-	return "SparseMatrixCompressedAxis(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/SparseMatrixIndexCSR.go b/go/arrow/internal/flatbuf/SparseMatrixIndexCSR.go
deleted file mode 100644
index 2477af100355c..0000000000000
--- a/go/arrow/internal/flatbuf/SparseMatrixIndexCSR.go
+++ /dev/null
@@ -1,181 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Compressed Sparse Row format, that is matrix-specific.
-type SparseMatrixIndexCSR struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsSparseMatrixIndexCSR(buf []byte, offset flatbuffers.UOffsetT) *SparseMatrixIndexCSR {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &SparseMatrixIndexCSR{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *SparseMatrixIndexCSR) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *SparseMatrixIndexCSR) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / The type of values in indptrBuffer
-func (rcv *SparseMatrixIndexCSR) IndptrType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The type of values in indptrBuffer
-// / indptrBuffer stores the location and size of indptr array that
-// / represents the range of the rows.
-// / The i-th row spans from indptr[i] to indptr[i+1] in the data.
-// / The length of this array is 1 + (the number of rows), and the type
-// / of index value is long.
-// /
-// / For example, let X be the following 6x4 matrix:
-// /
-// /   X := [[0, 1, 2, 0],
-// /         [0, 0, 3, 0],
-// /         [0, 4, 0, 5],
-// /         [0, 0, 0, 0],
-// /         [6, 0, 7, 8],
-// /         [0, 9, 0, 0]].
-// /
-// / The array of non-zero values in X is:
-// /
-// /   values(X) = [1, 2, 3, 4, 5, 6, 7, 8, 9].
-// /
-// / And the indptr of X is:
-// /
-// /   indptr(X) = [0, 2, 3, 5, 5, 8, 10].
-func (rcv *SparseMatrixIndexCSR) IndptrBuffer(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / indptrBuffer stores the location and size of indptr array that
-// / represents the range of the rows.
-// / The i-th row spans from indptr[i] to indptr[i+1] in the data.
-// / The length of this array is 1 + (the number of rows), and the type
-// / of index value is long.
-// /
-// / For example, let X be the following 6x4 matrix:
-// /
-// /   X := [[0, 1, 2, 0],
-// /         [0, 0, 3, 0],
-// /         [0, 4, 0, 5],
-// /         [0, 0, 0, 0],
-// /         [6, 0, 7, 8],
-// /         [0, 9, 0, 0]].
-// /
-// / The array of non-zero values in X is:
-// /
-// /   values(X) = [1, 2, 3, 4, 5, 6, 7, 8, 9].
-// /
-// / And the indptr of X is:
-// /
-// /   indptr(X) = [0, 2, 3, 5, 5, 8, 10].
-// / The type of values in indicesBuffer
-func (rcv *SparseMatrixIndexCSR) IndicesType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The type of values in indicesBuffer
-// / indicesBuffer stores the location and size of the array that
-// / contains the column indices of the corresponding non-zero values.
-// / The type of index value is long.
-// /
-// / For example, the indices of the above X is:
-// /
-// /   indices(X) = [1, 2, 2, 1, 3, 0, 2, 3, 1].
-// /
-// / Note that the indices are sorted in lexicographical order for each row.
-func (rcv *SparseMatrixIndexCSR) IndicesBuffer(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / indicesBuffer stores the location and size of the array that
-// / contains the column indices of the corresponding non-zero values.
-// / The type of index value is long.
-// /
-// / For example, the indices of the above X is:
-// /
-// /   indices(X) = [1, 2, 2, 1, 3, 0, 2, 3, 1].
-// /
-// / Note that the indices are sorted in lexicographical order for each row.
-func SparseMatrixIndexCSRStart(builder *flatbuffers.Builder) {
-	builder.StartObject(4)
-}
-func SparseMatrixIndexCSRAddIndptrType(builder *flatbuffers.Builder, indptrType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(0, flatbuffers.UOffsetT(indptrType), 0)
-}
-func SparseMatrixIndexCSRAddIndptrBuffer(builder *flatbuffers.Builder, indptrBuffer flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(1, flatbuffers.UOffsetT(indptrBuffer), 0)
-}
-func SparseMatrixIndexCSRAddIndicesType(builder *flatbuffers.Builder, indicesType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(indicesType), 0)
-}
-func SparseMatrixIndexCSRAddIndicesBuffer(builder *flatbuffers.Builder, indicesBuffer flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(3, flatbuffers.UOffsetT(indicesBuffer), 0)
-}
-func SparseMatrixIndexCSREnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/SparseMatrixIndexCSX.go b/go/arrow/internal/flatbuf/SparseMatrixIndexCSX.go
deleted file mode 100644
index 7f262deedbfc1..0000000000000
--- a/go/arrow/internal/flatbuf/SparseMatrixIndexCSX.go
+++ /dev/null
@@ -1,200 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Compressed Sparse format, that is matrix-specific.
-type SparseMatrixIndexCSX struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsSparseMatrixIndexCSX(buf []byte, offset flatbuffers.UOffsetT) *SparseMatrixIndexCSX {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &SparseMatrixIndexCSX{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *SparseMatrixIndexCSX) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *SparseMatrixIndexCSX) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Which axis, row or column, is compressed
-func (rcv *SparseMatrixIndexCSX) CompressedAxis() SparseMatrixCompressedAxis {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return SparseMatrixCompressedAxis(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-// / Which axis, row or column, is compressed
-func (rcv *SparseMatrixIndexCSX) MutateCompressedAxis(n SparseMatrixCompressedAxis) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-// / The type of values in indptrBuffer
-func (rcv *SparseMatrixIndexCSX) IndptrType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The type of values in indptrBuffer
-// / indptrBuffer stores the location and size of indptr array that
-// / represents the range of the rows.
-// / The i-th row spans from `indptr[i]` to `indptr[i+1]` in the data.
-// / The length of this array is 1 + (the number of rows), and the type
-// / of index value is long.
-// /
-// / For example, let X be the following 6x4 matrix:
-// / ```text
-// /   X := [[0, 1, 2, 0],
-// /         [0, 0, 3, 0],
-// /         [0, 4, 0, 5],
-// /         [0, 0, 0, 0],
-// /         [6, 0, 7, 8],
-// /         [0, 9, 0, 0]].
-// / ```
-// / The array of non-zero values in X is:
-// / ```text
-// /   values(X) = [1, 2, 3, 4, 5, 6, 7, 8, 9].
-// / ```
-// / And the indptr of X is:
-// / ```text
-// /   indptr(X) = [0, 2, 3, 5, 5, 8, 10].
-// / ```
-func (rcv *SparseMatrixIndexCSX) IndptrBuffer(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / indptrBuffer stores the location and size of indptr array that
-// / represents the range of the rows.
-// / The i-th row spans from `indptr[i]` to `indptr[i+1]` in the data.
-// / The length of this array is 1 + (the number of rows), and the type
-// / of index value is long.
-// /
-// / For example, let X be the following 6x4 matrix:
-// / ```text
-// /   X := [[0, 1, 2, 0],
-// /         [0, 0, 3, 0],
-// /         [0, 4, 0, 5],
-// /         [0, 0, 0, 0],
-// /         [6, 0, 7, 8],
-// /         [0, 9, 0, 0]].
-// / ```
-// / The array of non-zero values in X is:
-// / ```text
-// /   values(X) = [1, 2, 3, 4, 5, 6, 7, 8, 9].
-// / ```
-// / And the indptr of X is:
-// / ```text
-// /   indptr(X) = [0, 2, 3, 5, 5, 8, 10].
-// / ```
-// / The type of values in indicesBuffer
-func (rcv *SparseMatrixIndexCSX) IndicesType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The type of values in indicesBuffer
-// / indicesBuffer stores the location and size of the array that
-// / contains the column indices of the corresponding non-zero values.
-// / The type of index value is long.
-// /
-// / For example, the indices of the above X is:
-// / ```text
-// /   indices(X) = [1, 2, 2, 1, 3, 0, 2, 3, 1].
-// / ```
-// / Note that the indices are sorted in lexicographical order for each row.
-func (rcv *SparseMatrixIndexCSX) IndicesBuffer(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / indicesBuffer stores the location and size of the array that
-// / contains the column indices of the corresponding non-zero values.
-// / The type of index value is long.
-// /
-// / For example, the indices of the above X is:
-// / ```text
-// /   indices(X) = [1, 2, 2, 1, 3, 0, 2, 3, 1].
-// / ```
-// / Note that the indices are sorted in lexicographical order for each row.
-func SparseMatrixIndexCSXStart(builder *flatbuffers.Builder) {
-	builder.StartObject(5)
-}
-func SparseMatrixIndexCSXAddCompressedAxis(builder *flatbuffers.Builder, compressedAxis SparseMatrixCompressedAxis) {
-	builder.PrependInt16Slot(0, int16(compressedAxis), 0)
-}
-func SparseMatrixIndexCSXAddIndptrType(builder *flatbuffers.Builder, indptrType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(indptrType), 0)
-}
-func SparseMatrixIndexCSXAddIndptrBuffer(builder *flatbuffers.Builder, indptrBuffer flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(2, flatbuffers.UOffsetT(indptrBuffer), 0)
-}
-func SparseMatrixIndexCSXAddIndicesType(builder *flatbuffers.Builder, indicesType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(indicesType), 0)
-}
-func SparseMatrixIndexCSXAddIndicesBuffer(builder *flatbuffers.Builder, indicesBuffer flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(4, flatbuffers.UOffsetT(indicesBuffer), 0)
-}
-func SparseMatrixIndexCSXEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/SparseTensor.go b/go/arrow/internal/flatbuf/SparseTensor.go
deleted file mode 100644
index 8f67e1fc08b84..0000000000000
--- a/go/arrow/internal/flatbuf/SparseTensor.go
+++ /dev/null
@@ -1,175 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type SparseTensor struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsSparseTensor(buf []byte, offset flatbuffers.UOffsetT) *SparseTensor {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &SparseTensor{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *SparseTensor) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *SparseTensor) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *SparseTensor) TypeType() Type {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return Type(rcv._tab.GetByte(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *SparseTensor) MutateTypeType(n Type) bool {
-	return rcv._tab.MutateByteSlot(4, byte(n))
-}
-
-// / The type of data contained in a value cell.
-// / Currently only fixed-width value types are supported,
-// / no strings or nested types.
-func (rcv *SparseTensor) Type(obj *flatbuffers.Table) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		rcv._tab.Union(obj, o)
-		return true
-	}
-	return false
-}
-
-// / The type of data contained in a value cell.
-// / Currently only fixed-width value types are supported,
-// / no strings or nested types.
-// / The dimensions of the tensor, optionally named.
-func (rcv *SparseTensor) Shape(obj *TensorDim, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *SparseTensor) ShapeLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / The dimensions of the tensor, optionally named.
-// / The number of non-zero values in a sparse tensor.
-func (rcv *SparseTensor) NonZeroLength() int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.GetInt64(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / The number of non-zero values in a sparse tensor.
-func (rcv *SparseTensor) MutateNonZeroLength(n int64) bool {
-	return rcv._tab.MutateInt64Slot(10, n)
-}
-
-func (rcv *SparseTensor) SparseIndexType() SparseTensorIndex {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		return SparseTensorIndex(rcv._tab.GetByte(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *SparseTensor) MutateSparseIndexType(n SparseTensorIndex) bool {
-	return rcv._tab.MutateByteSlot(12, byte(n))
-}
-
-// / Sparse tensor index
-func (rcv *SparseTensor) SparseIndex(obj *flatbuffers.Table) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(14))
-	if o != 0 {
-		rcv._tab.Union(obj, o)
-		return true
-	}
-	return false
-}
-
-// / Sparse tensor index
-// / The location and size of the tensor's data
-func (rcv *SparseTensor) Data(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(16))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The location and size of the tensor's data
-func SparseTensorStart(builder *flatbuffers.Builder) {
-	builder.StartObject(7)
-}
-func SparseTensorAddTypeType(builder *flatbuffers.Builder, typeType Type) {
-	builder.PrependByteSlot(0, byte(typeType), 0)
-}
-func SparseTensorAddType(builder *flatbuffers.Builder, type_ flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(type_), 0)
-}
-func SparseTensorAddShape(builder *flatbuffers.Builder, shape flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(shape), 0)
-}
-func SparseTensorStartShapeVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func SparseTensorAddNonZeroLength(builder *flatbuffers.Builder, nonZeroLength int64) {
-	builder.PrependInt64Slot(3, nonZeroLength, 0)
-}
-func SparseTensorAddSparseIndexType(builder *flatbuffers.Builder, sparseIndexType SparseTensorIndex) {
-	builder.PrependByteSlot(4, byte(sparseIndexType), 0)
-}
-func SparseTensorAddSparseIndex(builder *flatbuffers.Builder, sparseIndex flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(5, flatbuffers.UOffsetT(sparseIndex), 0)
-}
-func SparseTensorAddData(builder *flatbuffers.Builder, data flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(6, flatbuffers.UOffsetT(data), 0)
-}
-func SparseTensorEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/SparseTensorIndex.go b/go/arrow/internal/flatbuf/SparseTensorIndex.go
deleted file mode 100644
index 42aa818b0b33f..0000000000000
--- a/go/arrow/internal/flatbuf/SparseTensorIndex.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type SparseTensorIndex byte
-
-const (
-	SparseTensorIndexNONE                 SparseTensorIndex = 0
-	SparseTensorIndexSparseTensorIndexCOO SparseTensorIndex = 1
-	SparseTensorIndexSparseMatrixIndexCSX SparseTensorIndex = 2
-	SparseTensorIndexSparseTensorIndexCSF SparseTensorIndex = 3
-)
-
-var EnumNamesSparseTensorIndex = map[SparseTensorIndex]string{
-	SparseTensorIndexNONE:                 "NONE",
-	SparseTensorIndexSparseTensorIndexCOO: "SparseTensorIndexCOO",
-	SparseTensorIndexSparseMatrixIndexCSX: "SparseMatrixIndexCSX",
-	SparseTensorIndexSparseTensorIndexCSF: "SparseTensorIndexCSF",
-}
-
-var EnumValuesSparseTensorIndex = map[string]SparseTensorIndex{
-	"NONE":                 SparseTensorIndexNONE,
-	"SparseTensorIndexCOO": SparseTensorIndexSparseTensorIndexCOO,
-	"SparseMatrixIndexCSX": SparseTensorIndexSparseMatrixIndexCSX,
-	"SparseTensorIndexCSF": SparseTensorIndexSparseTensorIndexCSF,
-}
-
-func (v SparseTensorIndex) String() string {
-	if s, ok := EnumNamesSparseTensorIndex[v]; ok {
-		return s
-	}
-	return "SparseTensorIndex(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/SparseTensorIndexCOO.go b/go/arrow/internal/flatbuf/SparseTensorIndexCOO.go
deleted file mode 100644
index bf1c218e2e415..0000000000000
--- a/go/arrow/internal/flatbuf/SparseTensorIndexCOO.go
+++ /dev/null
@@ -1,179 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / EXPERIMENTAL: Data structures for sparse tensors
-// / Coordinate (COO) format of sparse tensor index.
-// /
-// / COO's index list are represented as a NxM matrix,
-// / where N is the number of non-zero values,
-// / and M is the number of dimensions of a sparse tensor.
-// /
-// / indicesBuffer stores the location and size of the data of this indices
-// / matrix.  The value type and the stride of the indices matrix is
-// / specified in indicesType and indicesStrides fields.
-// /
-// / For example, let X be a 2x3x4x5 tensor, and it has the following
-// / 6 non-zero values:
-// / ```text
-// /   X[0, 1, 2, 0] := 1
-// /   X[1, 1, 2, 3] := 2
-// /   X[0, 2, 1, 0] := 3
-// /   X[0, 1, 3, 0] := 4
-// /   X[0, 1, 2, 1] := 5
-// /   X[1, 2, 0, 4] := 6
-// / ```
-// / In COO format, the index matrix of X is the following 4x6 matrix:
-// / ```text
-// /   [[0, 0, 0, 0, 1, 1],
-// /    [1, 1, 1, 2, 1, 2],
-// /    [2, 2, 3, 1, 2, 0],
-// /    [0, 1, 0, 0, 3, 4]]
-// / ```
-// / When isCanonical is true, the indices is sorted in lexicographical order
-// / (row-major order), and it does not have duplicated entries.  Otherwise,
-// / the indices may not be sorted, or may have duplicated entries.
-type SparseTensorIndexCOO struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsSparseTensorIndexCOO(buf []byte, offset flatbuffers.UOffsetT) *SparseTensorIndexCOO {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &SparseTensorIndexCOO{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *SparseTensorIndexCOO) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *SparseTensorIndexCOO) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / The type of values in indicesBuffer
-func (rcv *SparseTensorIndexCOO) IndicesType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The type of values in indicesBuffer
-// / Non-negative byte offsets to advance one value cell along each dimension
-// / If omitted, default to row-major order (C-like).
-func (rcv *SparseTensorIndexCOO) IndicesStrides(j int) int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.GetInt64(a + flatbuffers.UOffsetT(j*8))
-	}
-	return 0
-}
-
-func (rcv *SparseTensorIndexCOO) IndicesStridesLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Non-negative byte offsets to advance one value cell along each dimension
-// / If omitted, default to row-major order (C-like).
-func (rcv *SparseTensorIndexCOO) MutateIndicesStrides(j int, n int64) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.MutateInt64(a+flatbuffers.UOffsetT(j*8), n)
-	}
-	return false
-}
-
-// / The location and size of the indices matrix's data
-func (rcv *SparseTensorIndexCOO) IndicesBuffer(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The location and size of the indices matrix's data
-// / This flag is true if and only if the indices matrix is sorted in
-// / row-major order, and does not have duplicated entries.
-// / This sort order is the same as of Tensorflow's SparseTensor,
-// / but it is inverse order of SciPy's canonical coo_matrix
-// / (SciPy employs column-major order for its coo_matrix).
-func (rcv *SparseTensorIndexCOO) IsCanonical() bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.GetBool(o + rcv._tab.Pos)
-	}
-	return false
-}
-
-// / This flag is true if and only if the indices matrix is sorted in
-// / row-major order, and does not have duplicated entries.
-// / This sort order is the same as of Tensorflow's SparseTensor,
-// / but it is inverse order of SciPy's canonical coo_matrix
-// / (SciPy employs column-major order for its coo_matrix).
-func (rcv *SparseTensorIndexCOO) MutateIsCanonical(n bool) bool {
-	return rcv._tab.MutateBoolSlot(10, n)
-}
-
-func SparseTensorIndexCOOStart(builder *flatbuffers.Builder) {
-	builder.StartObject(4)
-}
-func SparseTensorIndexCOOAddIndicesType(builder *flatbuffers.Builder, indicesType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(0, flatbuffers.UOffsetT(indicesType), 0)
-}
-func SparseTensorIndexCOOAddIndicesStrides(builder *flatbuffers.Builder, indicesStrides flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(indicesStrides), 0)
-}
-func SparseTensorIndexCOOStartIndicesStridesVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(8, numElems, 8)
-}
-func SparseTensorIndexCOOAddIndicesBuffer(builder *flatbuffers.Builder, indicesBuffer flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(2, flatbuffers.UOffsetT(indicesBuffer), 0)
-}
-func SparseTensorIndexCOOAddIsCanonical(builder *flatbuffers.Builder, isCanonical bool) {
-	builder.PrependBoolSlot(3, isCanonical, false)
-}
-func SparseTensorIndexCOOEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/SparseTensorIndexCSF.go b/go/arrow/internal/flatbuf/SparseTensorIndexCSF.go
deleted file mode 100644
index 66226e0412c21..0000000000000
--- a/go/arrow/internal/flatbuf/SparseTensorIndexCSF.go
+++ /dev/null
@@ -1,291 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Compressed Sparse Fiber (CSF) sparse tensor index.
-type SparseTensorIndexCSF struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsSparseTensorIndexCSF(buf []byte, offset flatbuffers.UOffsetT) *SparseTensorIndexCSF {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &SparseTensorIndexCSF{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *SparseTensorIndexCSF) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *SparseTensorIndexCSF) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / CSF is a generalization of compressed sparse row (CSR) index.
-// / See [smith2017knl](http://shaden.io/pub-files/smith2017knl.pdf)
-// /
-// / CSF index recursively compresses each dimension of a tensor into a set
-// / of prefix trees. Each path from a root to leaf forms one tensor
-// / non-zero index. CSF is implemented with two arrays of buffers and one
-// / arrays of integers.
-// /
-// / For example, let X be a 2x3x4x5 tensor and let it have the following
-// / 8 non-zero values:
-// / ```text
-// /   X[0, 0, 0, 1] := 1
-// /   X[0, 0, 0, 2] := 2
-// /   X[0, 1, 0, 0] := 3
-// /   X[0, 1, 0, 2] := 4
-// /   X[0, 1, 1, 0] := 5
-// /   X[1, 1, 1, 0] := 6
-// /   X[1, 1, 1, 1] := 7
-// /   X[1, 1, 1, 2] := 8
-// / ```
-// / As a prefix tree this would be represented as:
-// / ```text
-// /         0          1
-// /        / \         |
-// /       0   1        1
-// /      /   / \       |
-// /     0   0   1      1
-// /    /|  /|   |    /| |
-// /   1 2 0 2   0   0 1 2
-// / ```
-// / The type of values in indptrBuffers
-func (rcv *SparseTensorIndexCSF) IndptrType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / CSF is a generalization of compressed sparse row (CSR) index.
-// / See [smith2017knl](http://shaden.io/pub-files/smith2017knl.pdf)
-// /
-// / CSF index recursively compresses each dimension of a tensor into a set
-// / of prefix trees. Each path from a root to leaf forms one tensor
-// / non-zero index. CSF is implemented with two arrays of buffers and one
-// / arrays of integers.
-// /
-// / For example, let X be a 2x3x4x5 tensor and let it have the following
-// / 8 non-zero values:
-// / ```text
-// /   X[0, 0, 0, 1] := 1
-// /   X[0, 0, 0, 2] := 2
-// /   X[0, 1, 0, 0] := 3
-// /   X[0, 1, 0, 2] := 4
-// /   X[0, 1, 1, 0] := 5
-// /   X[1, 1, 1, 0] := 6
-// /   X[1, 1, 1, 1] := 7
-// /   X[1, 1, 1, 2] := 8
-// / ```
-// / As a prefix tree this would be represented as:
-// / ```text
-// /         0          1
-// /        / \         |
-// /       0   1        1
-// /      /   / \       |
-// /     0   0   1      1
-// /    /|  /|   |    /| |
-// /   1 2 0 2   0   0 1 2
-// / ```
-// / The type of values in indptrBuffers
-// / indptrBuffers stores the sparsity structure.
-// / Each two consecutive dimensions in a tensor correspond to a buffer in
-// / indptrBuffers. A pair of consecutive values at `indptrBuffers[dim][i]`
-// / and `indptrBuffers[dim][i + 1]` signify a range of nodes in
-// / `indicesBuffers[dim + 1]` who are children of `indicesBuffers[dim][i]` node.
-// /
-// / For example, the indptrBuffers for the above X is:
-// / ```text
-// /   indptrBuffer(X) = [
-// /                       [0, 2, 3],
-// /                       [0, 1, 3, 4],
-// /                       [0, 2, 4, 5, 8]
-// /                     ].
-// / ```
-func (rcv *SparseTensorIndexCSF) IndptrBuffers(obj *Buffer, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 16
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *SparseTensorIndexCSF) IndptrBuffersLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / indptrBuffers stores the sparsity structure.
-// / Each two consecutive dimensions in a tensor correspond to a buffer in
-// / indptrBuffers. A pair of consecutive values at `indptrBuffers[dim][i]`
-// / and `indptrBuffers[dim][i + 1]` signify a range of nodes in
-// / `indicesBuffers[dim + 1]` who are children of `indicesBuffers[dim][i]` node.
-// /
-// / For example, the indptrBuffers for the above X is:
-// / ```text
-// /   indptrBuffer(X) = [
-// /                       [0, 2, 3],
-// /                       [0, 1, 3, 4],
-// /                       [0, 2, 4, 5, 8]
-// /                     ].
-// / ```
-// / The type of values in indicesBuffers
-func (rcv *SparseTensorIndexCSF) IndicesType(obj *Int) *Int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Indirect(o + rcv._tab.Pos)
-		if obj == nil {
-			obj = new(Int)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The type of values in indicesBuffers
-// / indicesBuffers stores values of nodes.
-// / Each tensor dimension corresponds to a buffer in indicesBuffers.
-// / For example, the indicesBuffers for the above X is:
-// / ```text
-// /   indicesBuffer(X) = [
-// /                        [0, 1],
-// /                        [0, 1, 1],
-// /                        [0, 0, 1, 1],
-// /                        [1, 2, 0, 2, 0, 0, 1, 2]
-// /                      ].
-// / ```
-func (rcv *SparseTensorIndexCSF) IndicesBuffers(obj *Buffer, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 16
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *SparseTensorIndexCSF) IndicesBuffersLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / indicesBuffers stores values of nodes.
-// / Each tensor dimension corresponds to a buffer in indicesBuffers.
-// / For example, the indicesBuffers for the above X is:
-// / ```text
-// /   indicesBuffer(X) = [
-// /                        [0, 1],
-// /                        [0, 1, 1],
-// /                        [0, 0, 1, 1],
-// /                        [1, 2, 0, 2, 0, 0, 1, 2]
-// /                      ].
-// / ```
-// / axisOrder stores the sequence in which dimensions were traversed to
-// / produce the prefix tree.
-// / For example, the axisOrder for the above X is:
-// / ```text
-// /   axisOrder(X) = [0, 1, 2, 3].
-// / ```
-func (rcv *SparseTensorIndexCSF) AxisOrder(j int) int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.GetInt32(a + flatbuffers.UOffsetT(j*4))
-	}
-	return 0
-}
-
-func (rcv *SparseTensorIndexCSF) AxisOrderLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / axisOrder stores the sequence in which dimensions were traversed to
-// / produce the prefix tree.
-// / For example, the axisOrder for the above X is:
-// / ```text
-// /   axisOrder(X) = [0, 1, 2, 3].
-// / ```
-func (rcv *SparseTensorIndexCSF) MutateAxisOrder(j int, n int32) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.MutateInt32(a+flatbuffers.UOffsetT(j*4), n)
-	}
-	return false
-}
-
-func SparseTensorIndexCSFStart(builder *flatbuffers.Builder) {
-	builder.StartObject(5)
-}
-func SparseTensorIndexCSFAddIndptrType(builder *flatbuffers.Builder, indptrType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(0, flatbuffers.UOffsetT(indptrType), 0)
-}
-func SparseTensorIndexCSFAddIndptrBuffers(builder *flatbuffers.Builder, indptrBuffers flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(indptrBuffers), 0)
-}
-func SparseTensorIndexCSFStartIndptrBuffersVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(16, numElems, 8)
-}
-func SparseTensorIndexCSFAddIndicesType(builder *flatbuffers.Builder, indicesType flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(indicesType), 0)
-}
-func SparseTensorIndexCSFAddIndicesBuffers(builder *flatbuffers.Builder, indicesBuffers flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(indicesBuffers), 0)
-}
-func SparseTensorIndexCSFStartIndicesBuffersVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(16, numElems, 8)
-}
-func SparseTensorIndexCSFAddAxisOrder(builder *flatbuffers.Builder, axisOrder flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(4, flatbuffers.UOffsetT(axisOrder), 0)
-}
-func SparseTensorIndexCSFStartAxisOrderVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func SparseTensorIndexCSFEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Struct_.go b/go/arrow/internal/flatbuf/Struct_.go
deleted file mode 100644
index 73752a17e00fa..0000000000000
--- a/go/arrow/internal/flatbuf/Struct_.go
+++ /dev/null
@@ -1,53 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / A Struct_ in the flatbuffer metadata is the same as an Arrow Struct
-// / (according to the physical memory layout). We used Struct_ here as
-// / Struct is a reserved word in Flatbuffers
-type Struct_ struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsStruct_(buf []byte, offset flatbuffers.UOffsetT) *Struct_ {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Struct_{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Struct_) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Struct_) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func Struct_Start(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func Struct_End(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Tensor.go b/go/arrow/internal/flatbuf/Tensor.go
deleted file mode 100644
index 47bfe8067b57b..0000000000000
--- a/go/arrow/internal/flatbuf/Tensor.go
+++ /dev/null
@@ -1,163 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-type Tensor struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsTensor(buf []byte, offset flatbuffers.UOffsetT) *Tensor {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Tensor{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Tensor) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Tensor) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Tensor) TypeType() Type {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return Type(rcv._tab.GetByte(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Tensor) MutateTypeType(n Type) bool {
-	return rcv._tab.MutateByteSlot(4, byte(n))
-}
-
-// / The type of data contained in a value cell. Currently only fixed-width
-// / value types are supported, no strings or nested types
-func (rcv *Tensor) Type(obj *flatbuffers.Table) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		rcv._tab.Union(obj, o)
-		return true
-	}
-	return false
-}
-
-// / The type of data contained in a value cell. Currently only fixed-width
-// / value types are supported, no strings or nested types
-// / The dimensions of the tensor, optionally named
-func (rcv *Tensor) Shape(obj *TensorDim, j int) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		x := rcv._tab.Vector(o)
-		x += flatbuffers.UOffsetT(j) * 4
-		x = rcv._tab.Indirect(x)
-		obj.Init(rcv._tab.Bytes, x)
-		return true
-	}
-	return false
-}
-
-func (rcv *Tensor) ShapeLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(8))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / The dimensions of the tensor, optionally named
-// / Non-negative byte offsets to advance one value cell along each dimension
-// / If omitted, default to row-major order (C-like).
-func (rcv *Tensor) Strides(j int) int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.GetInt64(a + flatbuffers.UOffsetT(j*8))
-	}
-	return 0
-}
-
-func (rcv *Tensor) StridesLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-// / Non-negative byte offsets to advance one value cell along each dimension
-// / If omitted, default to row-major order (C-like).
-func (rcv *Tensor) MutateStrides(j int, n int64) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(10))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.MutateInt64(a+flatbuffers.UOffsetT(j*8), n)
-	}
-	return false
-}
-
-// / The location and size of the tensor's data
-func (rcv *Tensor) Data(obj *Buffer) *Buffer {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(12))
-	if o != 0 {
-		x := o + rcv._tab.Pos
-		if obj == nil {
-			obj = new(Buffer)
-		}
-		obj.Init(rcv._tab.Bytes, x)
-		return obj
-	}
-	return nil
-}
-
-// / The location and size of the tensor's data
-func TensorStart(builder *flatbuffers.Builder) {
-	builder.StartObject(5)
-}
-func TensorAddTypeType(builder *flatbuffers.Builder, typeType Type) {
-	builder.PrependByteSlot(0, byte(typeType), 0)
-}
-func TensorAddType(builder *flatbuffers.Builder, type_ flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(type_), 0)
-}
-func TensorAddShape(builder *flatbuffers.Builder, shape flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(2, flatbuffers.UOffsetT(shape), 0)
-}
-func TensorStartShapeVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func TensorAddStrides(builder *flatbuffers.Builder, strides flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(3, flatbuffers.UOffsetT(strides), 0)
-}
-func TensorStartStridesVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(8, numElems, 8)
-}
-func TensorAddData(builder *flatbuffers.Builder, data flatbuffers.UOffsetT) {
-	builder.PrependStructSlot(4, flatbuffers.UOffsetT(data), 0)
-}
-func TensorEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/TensorDim.go b/go/arrow/internal/flatbuf/TensorDim.go
deleted file mode 100644
index c6413b6a8c0bd..0000000000000
--- a/go/arrow/internal/flatbuf/TensorDim.go
+++ /dev/null
@@ -1,83 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / ----------------------------------------------------------------------
-// / Data structures for dense tensors
-// / Shape data for a single axis in a tensor
-type TensorDim struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsTensorDim(buf []byte, offset flatbuffers.UOffsetT) *TensorDim {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &TensorDim{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *TensorDim) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *TensorDim) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-// / Length of dimension
-func (rcv *TensorDim) Size() int64 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return rcv._tab.GetInt64(o + rcv._tab.Pos)
-	}
-	return 0
-}
-
-// / Length of dimension
-func (rcv *TensorDim) MutateSize(n int64) bool {
-	return rcv._tab.MutateInt64Slot(4, n)
-}
-
-// / Name of the dimension, optional
-func (rcv *TensorDim) Name() []byte {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.ByteVector(o + rcv._tab.Pos)
-	}
-	return nil
-}
-
-// / Name of the dimension, optional
-func TensorDimStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func TensorDimAddSize(builder *flatbuffers.Builder, size int64) {
-	builder.PrependInt64Slot(0, size, 0)
-}
-func TensorDimAddName(builder *flatbuffers.Builder, name flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(name), 0)
-}
-func TensorDimEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Time.go b/go/arrow/internal/flatbuf/Time.go
deleted file mode 100644
index 13038a6e33280..0000000000000
--- a/go/arrow/internal/flatbuf/Time.go
+++ /dev/null
@@ -1,94 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Time is either a 32-bit or 64-bit signed integer type representing an
-// / elapsed time since midnight, stored in either of four units: seconds,
-// / milliseconds, microseconds or nanoseconds.
-// /
-// / The integer `bitWidth` depends on the `unit` and must be one of the following:
-// / * SECOND and MILLISECOND: 32 bits
-// / * MICROSECOND and NANOSECOND: 64 bits
-// /
-// / The allowed values are between 0 (inclusive) and 86400 (=24*60*60) seconds
-// / (exclusive), adjusted for the time unit (for example, up to 86400000
-// / exclusive for the MILLISECOND unit).
-// / This definition doesn't allow for leap seconds. Time values from
-// / measurements with leap seconds will need to be corrected when ingesting
-// / into Arrow (for example by replacing the value 86400 with 86399).
-type Time struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsTime(buf []byte, offset flatbuffers.UOffsetT) *Time {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Time{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Time) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Time) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Time) Unit() TimeUnit {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return TimeUnit(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 1
-}
-
-func (rcv *Time) MutateUnit(n TimeUnit) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func (rcv *Time) BitWidth() int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.GetInt32(o + rcv._tab.Pos)
-	}
-	return 32
-}
-
-func (rcv *Time) MutateBitWidth(n int32) bool {
-	return rcv._tab.MutateInt32Slot(6, n)
-}
-
-func TimeStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func TimeAddUnit(builder *flatbuffers.Builder, unit TimeUnit) {
-	builder.PrependInt16Slot(0, int16(unit), 1)
-}
-func TimeAddBitWidth(builder *flatbuffers.Builder, bitWidth int32) {
-	builder.PrependInt32Slot(1, bitWidth, 32)
-}
-func TimeEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/TimeUnit.go b/go/arrow/internal/flatbuf/TimeUnit.go
deleted file mode 100644
index df14ece4f187b..0000000000000
--- a/go/arrow/internal/flatbuf/TimeUnit.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type TimeUnit int16
-
-const (
-	TimeUnitSECOND      TimeUnit = 0
-	TimeUnitMILLISECOND TimeUnit = 1
-	TimeUnitMICROSECOND TimeUnit = 2
-	TimeUnitNANOSECOND  TimeUnit = 3
-)
-
-var EnumNamesTimeUnit = map[TimeUnit]string{
-	TimeUnitSECOND:      "SECOND",
-	TimeUnitMILLISECOND: "MILLISECOND",
-	TimeUnitMICROSECOND: "MICROSECOND",
-	TimeUnitNANOSECOND:  "NANOSECOND",
-}
-
-var EnumValuesTimeUnit = map[string]TimeUnit{
-	"SECOND":      TimeUnitSECOND,
-	"MILLISECOND": TimeUnitMILLISECOND,
-	"MICROSECOND": TimeUnitMICROSECOND,
-	"NANOSECOND":  TimeUnitNANOSECOND,
-}
-
-func (v TimeUnit) String() string {
-	if s, ok := EnumNamesTimeUnit[v]; ok {
-		return s
-	}
-	return "TimeUnit(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Timestamp.go b/go/arrow/internal/flatbuf/Timestamp.go
deleted file mode 100644
index ce172bacdd3c3..0000000000000
--- a/go/arrow/internal/flatbuf/Timestamp.go
+++ /dev/null
@@ -1,201 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Timestamp is a 64-bit signed integer representing an elapsed time since a
-// / fixed epoch, stored in either of four units: seconds, milliseconds,
-// / microseconds or nanoseconds, and is optionally annotated with a timezone.
-// /
-// / Timestamp values do not include any leap seconds (in other words, all
-// / days are considered 86400 seconds long).
-// /
-// / Timestamps with a non-empty timezone
-// / ------------------------------------
-// /
-// / If a Timestamp column has a non-empty timezone value, its epoch is
-// / 1970-01-01 00:00:00 (January 1st 1970, midnight) in the *UTC* timezone
-// / (the Unix epoch), regardless of the Timestamp's own timezone.
-// /
-// / Therefore, timestamp values with a non-empty timezone correspond to
-// / physical points in time together with some additional information about
-// / how the data was obtained and/or how to display it (the timezone).
-// /
-// /   For example, the timestamp value 0 with the timezone string "Europe/Paris"
-// /   corresponds to "January 1st 1970, 00h00" in the UTC timezone, but the
-// /   application may prefer to display it as "January 1st 1970, 01h00" in
-// /   the Europe/Paris timezone (which is the same physical point in time).
-// /
-// / One consequence is that timestamp values with a non-empty timezone
-// / can be compared and ordered directly, since they all share the same
-// / well-known point of reference (the Unix epoch).
-// /
-// / Timestamps with an unset / empty timezone
-// / -----------------------------------------
-// /
-// / If a Timestamp column has no timezone value, its epoch is
-// / 1970-01-01 00:00:00 (January 1st 1970, midnight) in an *unknown* timezone.
-// /
-// / Therefore, timestamp values without a timezone cannot be meaningfully
-// / interpreted as physical points in time, but only as calendar / clock
-// / indications ("wall clock time") in an unspecified timezone.
-// /
-// /   For example, the timestamp value 0 with an empty timezone string
-// /   corresponds to "January 1st 1970, 00h00" in an unknown timezone: there
-// /   is not enough information to interpret it as a well-defined physical
-// /   point in time.
-// /
-// / One consequence is that timestamp values without a timezone cannot
-// / be reliably compared or ordered, since they may have different points of
-// / reference.  In particular, it is *not* possible to interpret an unset
-// / or empty timezone as the same as "UTC".
-// /
-// / Conversion between timezones
-// / ----------------------------
-// /
-// / If a Timestamp column has a non-empty timezone, changing the timezone
-// / to a different non-empty value is a metadata-only operation:
-// / the timestamp values need not change as their point of reference remains
-// / the same (the Unix epoch).
-// /
-// / However, if a Timestamp column has no timezone value, changing it to a
-// / non-empty value requires to think about the desired semantics.
-// / One possibility is to assume that the original timestamp values are
-// / relative to the epoch of the timezone being set; timestamp values should
-// / then adjusted to the Unix epoch (for example, changing the timezone from
-// / empty to "Europe/Paris" would require converting the timestamp values
-// / from "Europe/Paris" to "UTC", which seems counter-intuitive but is
-// / nevertheless correct).
-// /
-// / Guidelines for encoding data from external libraries
-// / ----------------------------------------------------
-// /
-// / Date & time libraries often have multiple different data types for temporal
-// / data. In order to ease interoperability between different implementations the
-// / Arrow project has some recommendations for encoding these types into a Timestamp
-// / column.
-// /
-// / An "instant" represents a physical point in time that has no relevant timezone
-// / (for example, astronomical data). To encode an instant, use a Timestamp with
-// / the timezone string set to "UTC", and make sure the Timestamp values
-// / are relative to the UTC epoch (January 1st 1970, midnight).
-// /
-// / A "zoned date-time" represents a physical point in time annotated with an
-// / informative timezone (for example, the timezone in which the data was
-// / recorded).  To encode a zoned date-time, use a Timestamp with the timezone
-// / string set to the name of the timezone, and make sure the Timestamp values
-// / are relative to the UTC epoch (January 1st 1970, midnight).
-// /
-// /  (There is some ambiguity between an instant and a zoned date-time with the
-// /   UTC timezone.  Both of these are stored the same in Arrow.  Typically,
-// /   this distinction does not matter.  If it does, then an application should
-// /   use custom metadata or an extension type to distinguish between the two cases.)
-// /
-// / An "offset date-time" represents a physical point in time combined with an
-// / explicit offset from UTC.  To encode an offset date-time, use a Timestamp
-// / with the timezone string set to the numeric timezone offset string
-// / (e.g. "+03:00"), and make sure the Timestamp values are relative to
-// / the UTC epoch (January 1st 1970, midnight).
-// /
-// / A "naive date-time" (also called "local date-time" in some libraries)
-// / represents a wall clock time combined with a calendar date, but with
-// / no indication of how to map this information to a physical point in time.
-// / Naive date-times must be handled with care because of this missing
-// / information, and also because daylight saving time (DST) may make
-// / some values ambiguous or nonexistent. A naive date-time may be
-// / stored as a struct with Date and Time fields. However, it may also be
-// / encoded into a Timestamp column with an empty timezone. The timestamp
-// / values should be computed "as if" the timezone of the date-time values
-// / was UTC; for example, the naive date-time "January 1st 1970, 00h00" would
-// / be encoded as timestamp value 0.
-type Timestamp struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsTimestamp(buf []byte, offset flatbuffers.UOffsetT) *Timestamp {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Timestamp{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Timestamp) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Timestamp) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Timestamp) Unit() TimeUnit {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return TimeUnit(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Timestamp) MutateUnit(n TimeUnit) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-// / The timezone is an optional string indicating the name of a timezone,
-// / one of:
-// /
-// / * As used in the Olson timezone database (the "tz database" or
-// /   "tzdata"), such as "America/New_York".
-// / * An absolute timezone offset of the form "+XX:XX" or "-XX:XX",
-// /   such as "+07:30".
-// /
-// / Whether a timezone string is present indicates different semantics about
-// / the data (see above).
-func (rcv *Timestamp) Timezone() []byte {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.ByteVector(o + rcv._tab.Pos)
-	}
-	return nil
-}
-
-// / The timezone is an optional string indicating the name of a timezone,
-// / one of:
-// /
-// / * As used in the Olson timezone database (the "tz database" or
-// /   "tzdata"), such as "America/New_York".
-// / * An absolute timezone offset of the form "+XX:XX" or "-XX:XX",
-// /   such as "+07:30".
-// /
-// / Whether a timezone string is present indicates different semantics about
-// / the data (see above).
-func TimestampStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func TimestampAddUnit(builder *flatbuffers.Builder, unit TimeUnit) {
-	builder.PrependInt16Slot(0, int16(unit), 0)
-}
-func TimestampAddTimezone(builder *flatbuffers.Builder, timezone flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(timezone), 0)
-}
-func TimestampEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Type.go b/go/arrow/internal/flatbuf/Type.go
deleted file mode 100644
index df8ba8650e1cd..0000000000000
--- a/go/arrow/internal/flatbuf/Type.go
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-// / ----------------------------------------------------------------------
-// / Top-level Type value, enabling extensible type-specific metadata. We can
-// / add new logical types to Type without breaking backwards compatibility
-type Type byte
-
-const (
-	TypeNONE            Type = 0
-	TypeNull            Type = 1
-	TypeInt             Type = 2
-	TypeFloatingPoint   Type = 3
-	TypeBinary          Type = 4
-	TypeUtf8            Type = 5
-	TypeBool            Type = 6
-	TypeDecimal         Type = 7
-	TypeDate            Type = 8
-	TypeTime            Type = 9
-	TypeTimestamp       Type = 10
-	TypeInterval        Type = 11
-	TypeList            Type = 12
-	TypeStruct_         Type = 13
-	TypeUnion           Type = 14
-	TypeFixedSizeBinary Type = 15
-	TypeFixedSizeList   Type = 16
-	TypeMap             Type = 17
-	TypeDuration        Type = 18
-	TypeLargeBinary     Type = 19
-	TypeLargeUtf8       Type = 20
-	TypeLargeList       Type = 21
-	TypeRunEndEncoded   Type = 22
-	TypeBinaryView      Type = 23
-	TypeUtf8View        Type = 24
-	TypeListView        Type = 25
-	TypeLargeListView   Type = 26
-)
-
-var EnumNamesType = map[Type]string{
-	TypeNONE:            "NONE",
-	TypeNull:            "Null",
-	TypeInt:             "Int",
-	TypeFloatingPoint:   "FloatingPoint",
-	TypeBinary:          "Binary",
-	TypeUtf8:            "Utf8",
-	TypeBool:            "Bool",
-	TypeDecimal:         "Decimal",
-	TypeDate:            "Date",
-	TypeTime:            "Time",
-	TypeTimestamp:       "Timestamp",
-	TypeInterval:        "Interval",
-	TypeList:            "List",
-	TypeStruct_:         "Struct_",
-	TypeUnion:           "Union",
-	TypeFixedSizeBinary: "FixedSizeBinary",
-	TypeFixedSizeList:   "FixedSizeList",
-	TypeMap:             "Map",
-	TypeDuration:        "Duration",
-	TypeLargeBinary:     "LargeBinary",
-	TypeLargeUtf8:       "LargeUtf8",
-	TypeLargeList:       "LargeList",
-	TypeRunEndEncoded:   "RunEndEncoded",
-	TypeBinaryView:      "BinaryView",
-	TypeUtf8View:        "Utf8View",
-	TypeListView:        "ListView",
-	TypeLargeListView:   "LargeListView",
-}
-
-var EnumValuesType = map[string]Type{
-	"NONE":            TypeNONE,
-	"Null":            TypeNull,
-	"Int":             TypeInt,
-	"FloatingPoint":   TypeFloatingPoint,
-	"Binary":          TypeBinary,
-	"Utf8":            TypeUtf8,
-	"Bool":            TypeBool,
-	"Decimal":         TypeDecimal,
-	"Date":            TypeDate,
-	"Time":            TypeTime,
-	"Timestamp":       TypeTimestamp,
-	"Interval":        TypeInterval,
-	"List":            TypeList,
-	"Struct_":         TypeStruct_,
-	"Union":           TypeUnion,
-	"FixedSizeBinary": TypeFixedSizeBinary,
-	"FixedSizeList":   TypeFixedSizeList,
-	"Map":             TypeMap,
-	"Duration":        TypeDuration,
-	"LargeBinary":     TypeLargeBinary,
-	"LargeUtf8":       TypeLargeUtf8,
-	"LargeList":       TypeLargeList,
-	"RunEndEncoded":   TypeRunEndEncoded,
-	"BinaryView":      TypeBinaryView,
-	"Utf8View":        TypeUtf8View,
-	"ListView":        TypeListView,
-	"LargeListView":   TypeLargeListView,
-}
-
-func (v Type) String() string {
-	if s, ok := EnumNamesType[v]; ok {
-		return s
-	}
-	return "Type(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Union.go b/go/arrow/internal/flatbuf/Union.go
deleted file mode 100644
index 0367fb3c1fb94..0000000000000
--- a/go/arrow/internal/flatbuf/Union.go
+++ /dev/null
@@ -1,101 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / A union is a complex type with children in Field
-// / By default ids in the type vector refer to the offsets in the children
-// / optionally typeIds provides an indirection between the child offset and the type id
-// / for each child `typeIds[offset]` is the id used in the type vector
-type Union struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsUnion(buf []byte, offset flatbuffers.UOffsetT) *Union {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Union{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Union) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Union) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func (rcv *Union) Mode() UnionMode {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(4))
-	if o != 0 {
-		return UnionMode(rcv._tab.GetInt16(o + rcv._tab.Pos))
-	}
-	return 0
-}
-
-func (rcv *Union) MutateMode(n UnionMode) bool {
-	return rcv._tab.MutateInt16Slot(4, int16(n))
-}
-
-func (rcv *Union) TypeIds(j int) int32 {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.GetInt32(a + flatbuffers.UOffsetT(j*4))
-	}
-	return 0
-}
-
-func (rcv *Union) TypeIdsLength() int {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		return rcv._tab.VectorLen(o)
-	}
-	return 0
-}
-
-func (rcv *Union) MutateTypeIds(j int, n int32) bool {
-	o := flatbuffers.UOffsetT(rcv._tab.Offset(6))
-	if o != 0 {
-		a := rcv._tab.Vector(o)
-		return rcv._tab.MutateInt32(a+flatbuffers.UOffsetT(j*4), n)
-	}
-	return false
-}
-
-func UnionStart(builder *flatbuffers.Builder) {
-	builder.StartObject(2)
-}
-func UnionAddMode(builder *flatbuffers.Builder, mode UnionMode) {
-	builder.PrependInt16Slot(0, int16(mode), 0)
-}
-func UnionAddTypeIds(builder *flatbuffers.Builder, typeIds flatbuffers.UOffsetT) {
-	builder.PrependUOffsetTSlot(1, flatbuffers.UOffsetT(typeIds), 0)
-}
-func UnionStartTypeIdsVector(builder *flatbuffers.Builder, numElems int) flatbuffers.UOffsetT {
-	return builder.StartVector(4, numElems, 4)
-}
-func UnionEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/UnionMode.go b/go/arrow/internal/flatbuf/UnionMode.go
deleted file mode 100644
index 357c1f3cb5f3a..0000000000000
--- a/go/arrow/internal/flatbuf/UnionMode.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import "strconv"
-
-type UnionMode int16
-
-const (
-	UnionModeSparse UnionMode = 0
-	UnionModeDense  UnionMode = 1
-)
-
-var EnumNamesUnionMode = map[UnionMode]string{
-	UnionModeSparse: "Sparse",
-	UnionModeDense:  "Dense",
-}
-
-var EnumValuesUnionMode = map[string]UnionMode{
-	"Sparse": UnionModeSparse,
-	"Dense":  UnionModeDense,
-}
-
-func (v UnionMode) String() string {
-	if s, ok := EnumNamesUnionMode[v]; ok {
-		return s
-	}
-	return "UnionMode(" + strconv.FormatInt(int64(v), 10) + ")"
-}
diff --git a/go/arrow/internal/flatbuf/Utf8.go b/go/arrow/internal/flatbuf/Utf8.go
deleted file mode 100644
index cab4ce7743ca9..0000000000000
--- a/go/arrow/internal/flatbuf/Utf8.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Unicode with UTF-8 encoding
-type Utf8 struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsUtf8(buf []byte, offset flatbuffers.UOffsetT) *Utf8 {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Utf8{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Utf8) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Utf8) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func Utf8Start(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func Utf8End(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flatbuf/Utf8View.go b/go/arrow/internal/flatbuf/Utf8View.go
deleted file mode 100644
index f294126a618b6..0000000000000
--- a/go/arrow/internal/flatbuf/Utf8View.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by the FlatBuffers compiler. DO NOT EDIT.
-
-package flatbuf
-
-import (
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// / Logically the same as Utf8, but the internal representation uses a view
-// / struct that contains the string length and either the string's entire data
-// / inline (for small strings) or an inlined prefix, an index of another buffer,
-// / and an offset pointing to a slice in that buffer (for non-small strings).
-// /
-// / Since it uses a variable number of data buffers, each Field with this type
-// / must have a corresponding entry in `variadicBufferCounts`.
-type Utf8View struct {
-	_tab flatbuffers.Table
-}
-
-func GetRootAsUtf8View(buf []byte, offset flatbuffers.UOffsetT) *Utf8View {
-	n := flatbuffers.GetUOffsetT(buf[offset:])
-	x := &Utf8View{}
-	x.Init(buf, n+offset)
-	return x
-}
-
-func (rcv *Utf8View) Init(buf []byte, i flatbuffers.UOffsetT) {
-	rcv._tab.Bytes = buf
-	rcv._tab.Pos = i
-}
-
-func (rcv *Utf8View) Table() flatbuffers.Table {
-	return rcv._tab
-}
-
-func Utf8ViewStart(builder *flatbuffers.Builder) {
-	builder.StartObject(0)
-}
-func Utf8ViewEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
-	return builder.EndObject()
-}
diff --git a/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-client/main.go b/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-client/main.go
deleted file mode 100755
index 105491d38e936..0000000000000
--- a/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-client/main.go
+++ /dev/null
@@ -1,54 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Client for use with Arrow Flight Integration tests via archery
-package main
-
-import (
-	"flag"
-	"fmt"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/flight_integration"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials/insecure"
-)
-
-var (
-	host     = flag.String("host", "localhost", "Server host to connect to")
-	port     = flag.Int("port", 31337, "Server port to connect to")
-	path     = flag.String("path", "", "Resource path to request")
-	scenario = flag.String("scenario", "", "Integration test scenario to run")
-)
-
-const retries = 3
-
-func main() {
-	flag.Parse()
-
-	c := flight_integration.GetScenario(*scenario, *path)
-	var err error
-	for i := 0; i < retries; i++ {
-		err = c.RunClient(fmt.Sprintf("%s:%d", *host, *port), grpc.WithTransportCredentials(insecure.NewCredentials()))
-		if err == nil {
-			break
-		}
-		time.Sleep(time.Duration(i+1) * 500 * time.Millisecond)
-	}
-	if err != nil {
-		panic(err)
-	}
-}
diff --git a/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-server/main.go b/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-server/main.go
deleted file mode 100644
index 5de4076b708b2..0000000000000
--- a/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-server/main.go
+++ /dev/null
@@ -1,43 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"flag"
-	"fmt"
-	"net"
-	"os"
-	"syscall"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/flight_integration"
-)
-
-var (
-	port     = flag.Int("port", 31337, "Server port to listen on")
-	scenario = flag.String("scenario", "", "Integration test scenario to run")
-)
-
-func main() {
-	flag.Parse()
-
-	s := flight_integration.GetScenario(*scenario)
-	srv := s.MakeServer(*port)
-	srv.SetShutdownOnSignals(syscall.SIGTERM, os.Interrupt)
-	_, p, _ := net.SplitHostPort(srv.Addr().String())
-	fmt.Printf("Server listening on localhost:%s\n", p)
-	srv.Serve()
-}
diff --git a/go/arrow/internal/flight_integration/middleware.go b/go/arrow/internal/flight_integration/middleware.go
deleted file mode 100644
index 073b284395306..0000000000000
--- a/go/arrow/internal/flight_integration/middleware.go
+++ /dev/null
@@ -1,58 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_integration
-
-import (
-	"context"
-
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/metadata"
-)
-
-type testServerMiddleware struct{}
-
-func (testServerMiddleware) StartCall(ctx context.Context) context.Context {
-	var val string
-
-	md, ok := metadata.FromIncomingContext(ctx)
-	if ok {
-		received := md.Get("x-middleware")
-		if len(received) > 0 {
-			val = received[0]
-		}
-	}
-
-	grpc.SetHeader(ctx, metadata.Pairs("x-middleware", val))
-	return nil
-}
-
-func (testServerMiddleware) CallCompleted(_ context.Context, _ error) {}
-
-type testClientMiddleware struct {
-	received string
-}
-
-func (tm *testClientMiddleware) StartCall(ctx context.Context) context.Context {
-	return metadata.AppendToOutgoingContext(ctx, "x-middleware", "expected value")
-}
-
-func (tm *testClientMiddleware) HeadersReceived(_ context.Context, md metadata.MD) {
-	received := md.Get("x-middleware")
-	if len(received) > 0 {
-		tm.received = received[0]
-	}
-}
diff --git a/go/arrow/internal/flight_integration/scenario.go b/go/arrow/internal/flight_integration/scenario.go
deleted file mode 100644
index b9535002a0a17..0000000000000
--- a/go/arrow/internal/flight_integration/scenario.go
+++ /dev/null
@@ -1,3082 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package flight_integration
-
-import (
-	"bytes"
-	"context"
-	"errors"
-	"fmt"
-	"io"
-	"math"
-	"net"
-	"os"
-	"reflect"
-	"sort"
-	"strconv"
-	"strings"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql"
-	"github.com/apache/arrow/go/v18/arrow/flight/flightsql/schema_ref"
-	"github.com/apache/arrow/go/v18/arrow/flight/session"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrjson"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/xerrors"
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/codes"
-	"google.golang.org/grpc/status"
-	"google.golang.org/protobuf/proto"
-	timestamppb "google.golang.org/protobuf/types/known/timestamppb"
-)
-
-type Scenario interface {
-	MakeServer(port int) flight.Server
-	RunClient(addr string, opts ...grpc.DialOption) error
-}
-
-func GetScenario(name string, args ...string) Scenario {
-	switch name {
-	case "auth:basic_proto":
-		return &authBasicProtoTester{}
-	case "middleware":
-		return &middlewareScenarioTester{}
-	case "ordered":
-		return &orderedScenarioTester{}
-	case "expiration_time:do_get":
-		return &expirationTimeDoGetScenarioTester{}
-	case "expiration_time:list_actions":
-		return &expirationTimeListActionsScenarioTester{}
-	case "expiration_time:cancel_flight_info":
-		return &expirationTimeCancelFlightInfoScenarioTester{}
-	case "expiration_time:renew_flight_endpoint":
-		return &expirationTimeRenewFlightEndpointScenarioTester{}
-	case "location:reuse_connection":
-		return &locationReuseConnectionScenarioTester{}
-	case "poll_flight_info":
-		return &pollFlightInfoScenarioTester{}
-	case "app_metadata_flight_info_endpoint":
-		return &appMetadataFlightInfoEndpointScenarioTester{}
-	case "flight_sql":
-		return &flightSqlScenarioTester{}
-	case "flight_sql:extension":
-		return &flightSqlExtensionScenarioTester{}
-	case "session_options":
-		return &sessionOptionsScenarioTester{}
-	case "flight_sql:ingestion":
-		return &flightSqlIngestionScenarioTester{}
-	case "":
-		if len(args) > 0 {
-			return &defaultIntegrationTester{path: args[0]}
-		}
-		return &defaultIntegrationTester{}
-	}
-	panic(fmt.Errorf("scenario not found: %s", name))
-}
-
-func initServer(port int, srv flight.Server) int {
-	srv.Init(fmt.Sprintf("0.0.0.0:%d", port))
-	_, p, _ := net.SplitHostPort(srv.Addr().String())
-	port, _ = strconv.Atoi(p)
-	return port
-}
-
-type integrationDataSet struct {
-	schema *arrow.Schema
-	chunks []arrow.Record
-}
-
-func consumeFlightLocation(ctx context.Context, loc *flight.Location, tkt *flight.Ticket, orig []arrow.Record, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(loc.GetUri(), nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	stream, err := client.DoGet(ctx, tkt)
-	if err != nil {
-		return err
-	}
-
-	rdr, err := flight.NewRecordReader(stream)
-	if err != nil {
-		return err
-	}
-	defer rdr.Release()
-
-	for i, chunk := range orig {
-		if !rdr.Next() {
-			return fmt.Errorf("got fewer batches than expected, received so far: %d, expected: %d", i, len(orig))
-		}
-
-		if !array.RecordEqual(chunk, rdr.Record()) {
-			return fmt.Errorf("batch %d doesn't match", i)
-		}
-
-		if string(rdr.LatestAppMetadata()) != strconv.Itoa(i) {
-			return fmt.Errorf("expected metadata value: %s, but got: %s", strconv.Itoa(i), string(rdr.LatestAppMetadata()))
-		}
-	}
-
-	if rdr.Next() {
-		return fmt.Errorf("got more batches than the expected: %d", len(orig))
-	}
-
-	return nil
-}
-
-type defaultIntegrationTester struct {
-	flight.BaseFlightServer
-
-	port           int
-	path           string
-	uploadedChunks map[string]integrationDataSet
-}
-
-func (s *defaultIntegrationTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-
-	descr := &flight.FlightDescriptor{
-		Type: flight.DescriptorPATH,
-		Path: []string{s.path},
-	}
-
-	fmt.Println("Opening JSON file '", s.path, "'")
-	r, err := os.Open(s.path)
-	if err != nil {
-		return fmt.Errorf("could not open JSON file: %q: %w", s.path, err)
-	}
-
-	rdr, err := arrjson.NewReader(r)
-	if err != nil {
-		return fmt.Errorf("could not create JSON file reader from file: %q: %w", s.path, err)
-	}
-
-	dataSet := integrationDataSet{
-		chunks: make([]arrow.Record, 0),
-		schema: rdr.Schema(),
-	}
-
-	for {
-		rec, err := rdr.Read()
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			return err
-		}
-		defer rec.Release()
-		dataSet.chunks = append(dataSet.chunks, rec)
-	}
-
-	stream, err := client.DoPut(ctx)
-	if err != nil {
-		return err
-	}
-
-	wr := flight.NewRecordWriter(stream, ipc.WithSchema(dataSet.schema))
-	wr.SetFlightDescriptor(descr)
-
-	for i, rec := range dataSet.chunks {
-		metadata := []byte(strconv.Itoa(i))
-		if err := wr.WriteWithAppMetadata(rec, metadata); err != nil {
-			return err
-		}
-
-		pr, err := stream.Recv()
-		if err != nil {
-			return err
-		}
-
-		acked := pr.GetAppMetadata()
-		switch {
-		case len(acked) == 0:
-			return fmt.Errorf("expected metadata value: %s, but got nothing", string(metadata))
-		case !bytes.Equal(metadata, acked):
-			return fmt.Errorf("expected metadata value: %s, but got: %s", string(metadata), string(acked))
-		}
-	}
-
-	wr.Close()
-
-	if err := stream.CloseSend(); err != nil {
-		return err
-	}
-
-	for {
-		_, err = stream.Recv()
-		if err != nil {
-			if err != io.EOF {
-				return err
-			}
-			break
-		}
-	}
-
-	info, err := client.GetFlightInfo(ctx, descr)
-	if err != nil {
-		return err
-	}
-
-	if len(info.Endpoint) == 0 {
-		fmt.Fprintln(os.Stderr, "no endpoints returned from flight server.")
-		return fmt.Errorf("no endpoints returned from flight server")
-	}
-
-	for _, ep := range info.Endpoint {
-		if len(ep.Location) == 0 {
-			return fmt.Errorf("no locations returned from flight server")
-		}
-
-		for _, loc := range ep.Location {
-			consumeFlightLocation(ctx, loc, ep.Ticket, dataSet.chunks, opts...)
-		}
-	}
-
-	return nil
-}
-
-func (s *defaultIntegrationTester) MakeServer(port int) flight.Server {
-	s.uploadedChunks = make(map[string]integrationDataSet)
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(s)
-	s.port = initServer(port, srv)
-	return srv
-}
-
-func (s *defaultIntegrationTester) GetFlightInfo(ctx context.Context, in *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if in.Type == flight.DescriptorPATH {
-		if len(in.Path) == 0 {
-			return nil, status.Error(codes.InvalidArgument, "invalid path")
-		}
-
-		data, ok := s.uploadedChunks[in.Path[0]]
-		if !ok {
-			return nil, status.Errorf(codes.NotFound, "could not find flight: %s", in.Path[0])
-		}
-
-		flightData := &flight.FlightInfo{
-			Schema:           flight.SerializeSchema(data.schema, memory.DefaultAllocator),
-			FlightDescriptor: in,
-			Endpoint: []*flight.FlightEndpoint{{
-				Ticket:   &flight.Ticket{Ticket: []byte(in.Path[0])},
-				Location: []*flight.Location{{Uri: fmt.Sprintf("grpc+tcp://127.0.0.1:%d", s.port)}},
-			}},
-			TotalRecords: 0,
-			TotalBytes:   -1,
-		}
-		for _, r := range data.chunks {
-			flightData.TotalRecords += r.NumRows()
-		}
-		return flightData, nil
-	}
-	return nil, status.Error(codes.Unimplemented, in.Type.String())
-}
-
-func (s *defaultIntegrationTester) DoGet(tkt *flight.Ticket, stream flight.FlightService_DoGetServer) error {
-	data, ok := s.uploadedChunks[string(tkt.Ticket)]
-	if !ok {
-		return status.Errorf(codes.NotFound, "could not find flight: %s", string(tkt.Ticket))
-	}
-
-	wr := flight.NewRecordWriter(stream, ipc.WithSchema(data.schema))
-	defer wr.Close()
-	for i, rec := range data.chunks {
-		wr.WriteWithAppMetadata(rec, []byte(strconv.Itoa(i)))
-	}
-
-	return nil
-}
-
-func (s *defaultIntegrationTester) DoPut(stream flight.FlightService_DoPutServer) error {
-	rdr, err := flight.NewRecordReader(stream)
-	if err != nil {
-		return status.Error(codes.Internal, err.Error())
-	}
-
-	var (
-		key     string
-		dataset integrationDataSet
-	)
-
-	// creating the reader should have gotten the first message which would
-	// have the schema, which should have a populated flight descriptor
-	desc := rdr.LatestFlightDescriptor()
-	if desc.Type != flight.DescriptorPATH || len(desc.Path) < 1 {
-		return status.Error(codes.InvalidArgument, "must specify a path")
-	}
-
-	key = desc.Path[0]
-	dataset.schema = rdr.Schema()
-	dataset.chunks = make([]arrow.Record, 0)
-	for rdr.Next() {
-		rec := rdr.Record()
-		rec.Retain()
-
-		dataset.chunks = append(dataset.chunks, rec)
-		if len(rdr.LatestAppMetadata()) > 0 {
-			stream.Send(&flight.PutResult{AppMetadata: rdr.LatestAppMetadata()})
-		}
-	}
-	s.uploadedChunks[key] = dataset
-	return nil
-}
-
-func CheckActionResults(ctx context.Context, client flight.Client, action *flight.Action, results []string) error {
-	stream, err := client.DoAction(ctx, action)
-	if err != nil {
-		return err
-	}
-	defer stream.CloseSend()
-
-	for _, expected := range results {
-		res, err := stream.Recv()
-		if err != nil {
-			return err
-		}
-
-		actual := string(res.Body)
-		if expected != actual {
-			return fmt.Errorf("got wrong result: expected: %s, got: %s", expected, actual)
-		}
-	}
-
-	res, err := stream.Recv()
-	if res != nil || err != io.EOF {
-		return xerrors.New("action result stream had too many entries")
-	}
-	return nil
-}
-
-const (
-	authUsername = "arrow"
-	authPassword = "flight"
-)
-
-type authBasicValidator struct {
-	auth flight.BasicAuth
-}
-
-func (a *authBasicValidator) Authenticate(conn flight.AuthConn) error {
-	token, err := conn.Read()
-	if err != nil {
-		return err
-	}
-
-	var incoming flight.BasicAuth
-	if err = proto.Unmarshal(token, &incoming); err != nil {
-		return err
-	}
-
-	if incoming.Username != a.auth.Username || incoming.Password != a.auth.Password {
-		return status.Error(codes.Unauthenticated, "invalid token")
-	}
-
-	return conn.Send([]byte(a.auth.Username))
-}
-
-func (a *authBasicValidator) IsValid(token string) (interface{}, error) {
-	if token != a.auth.Username {
-		return nil, status.Error(codes.Unauthenticated, "invalid token")
-	}
-	return token, nil
-}
-
-type clientAuthBasic struct {
-	auth  *flight.BasicAuth
-	token string
-}
-
-func (c *clientAuthBasic) Authenticate(_ context.Context, conn flight.AuthConn) error {
-	if c.auth != nil {
-		data, err := proto.Marshal(c.auth)
-		if err != nil {
-			return err
-		}
-		if err = conn.Send(data); err != nil {
-			return err
-		}
-
-		token, err := conn.Read()
-		c.token = string(token)
-		if err != io.EOF {
-			return err
-		}
-	}
-	return nil
-}
-
-func (c *clientAuthBasic) GetToken(context.Context) (string, error) {
-	return c.token, nil
-}
-
-type authBasicProtoTester struct {
-	flight.BaseFlightServer
-}
-
-func (s *authBasicProtoTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	auth := &clientAuthBasic{}
-
-	client, err := flight.NewClientWithMiddleware(addr, auth, nil, opts...)
-	if err != nil {
-		return err
-	}
-
-	ctx := context.Background()
-	stream, err := client.DoAction(ctx, &flight.Action{})
-	if err != nil {
-		return err
-	}
-
-	// should fail unauthenticated
-	_, err = stream.Recv()
-	st, ok := status.FromError(err)
-	if !ok {
-		return err
-	}
-
-	if st.Code() != codes.Unauthenticated {
-		return fmt.Errorf("expected Unauthenticated, got %s", st.Code())
-	}
-
-	auth.auth = &flight.BasicAuth{Username: authUsername, Password: authPassword}
-	if err := client.Authenticate(ctx); err != nil {
-		return err
-	}
-	return CheckActionResults(ctx, client, &flight.Action{}, []string{authUsername})
-}
-
-func (s *authBasicProtoTester) MakeServer(port int) flight.Server {
-	s.SetAuthHandler(&authBasicValidator{
-		auth: flight.BasicAuth{Username: authUsername, Password: authPassword}})
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(s)
-	initServer(port, srv)
-	return srv
-}
-
-func (authBasicProtoTester) DoAction(_ *flight.Action, stream flight.FlightService_DoActionServer) error {
-	auth := flight.AuthFromContext(stream.Context())
-	stream.Send(&flight.Result{Body: []byte(auth.(string))})
-	return nil
-}
-
-type middlewareScenarioTester struct {
-	flight.BaseFlightServer
-}
-
-func (m *middlewareScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	tm := &testClientMiddleware{}
-	client, err := flight.NewClientWithMiddleware(addr, nil, []flight.ClientMiddleware{
-		flight.CreateClientMiddleware(tm)}, opts...)
-	if err != nil {
-		return err
-	}
-
-	ctx := context.Background()
-	// this call is expected to fail
-	_, err = client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD})
-	if err == nil {
-		return xerrors.New("expected call to fail")
-	}
-
-	if tm.received != "expected value" {
-		return fmt.Errorf("expected to receive header 'x-middleware: expected value', but instead got %s", tm.received)
-	}
-
-	fmt.Fprintln(os.Stderr, "Headers received successfully on failing call.")
-	tm.received = ""
-	_, err = client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD, Cmd: []byte("success")})
-	if err != nil {
-		return err
-	}
-
-	if tm.received != "expected value" {
-		return fmt.Errorf("expected to receive header 'x-middleware: expected value', but instead got %s", tm.received)
-	}
-	fmt.Fprintln(os.Stderr, "Headers received successfully on passing call.")
-	return nil
-}
-
-func (m *middlewareScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(testServerMiddleware{})})
-	srv.RegisterFlightService(m)
-	initServer(port, srv)
-	return srv
-}
-
-func (m *middlewareScenarioTester) GetFlightInfo(ctx context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if desc.Type != flight.DescriptorCMD || string(desc.Cmd) != "success" {
-		return nil, status.Error(codes.Unknown, "unknown")
-	}
-
-	return &flight.FlightInfo{
-		Schema:           flight.SerializeSchema(arrow.NewSchema([]arrow.Field{}, nil), memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		Endpoint: []*flight.FlightEndpoint{{
-			Ticket:   &flight.Ticket{Ticket: []byte("foo")},
-			Location: []*flight.Location{{Uri: "grpc+tcp://localhost:10010"}},
-		}},
-		TotalRecords: -1,
-		TotalBytes:   -1,
-	}, nil
-}
-
-type orderedScenarioTester struct {
-	flight.BaseFlightServer
-}
-
-func (o *orderedScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	info, err := client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD, Cmd: []byte("ordered")})
-	if err != nil {
-		return err
-	}
-
-	if !info.GetOrdered() {
-		return fmt.Errorf("expected to server return FlightInfo.ordered = true")
-	}
-
-	var recs []arrow.Record
-	for _, ep := range info.Endpoint {
-		if len(ep.Location) != 0 {
-			return fmt.Errorf("expected to receive empty locations to use the original service: %s",
-				ep.Location)
-		}
-
-		stream, err := client.DoGet(ctx, ep.Ticket)
-		if err != nil {
-			return err
-		}
-
-		rdr, err := flight.NewRecordReader(stream)
-		if err != nil {
-			return err
-		}
-		defer rdr.Release()
-
-		for rdr.Next() {
-			record := rdr.Record()
-			record.Retain()
-			defer record.Release()
-			recs = append(recs, record)
-		}
-		if rdr.Err() != nil {
-			return rdr.Err()
-		}
-	}
-
-	// Build expected records
-	mem := memory.DefaultAllocator
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Int32},
-		},
-		nil,
-	)
-	expected_table, _ := array.TableFromJSON(mem, schema, []string{
-		`[
-                   {"number": 1},
-                   {"number": 2},
-                   {"number": 3}
-                 ]`,
-		`[
-                   {"number": 10},
-                   {"number": 20},
-                   {"number": 30}
-                 ]`,
-		`[
-                   {"number": 100},
-                   {"number": 200},
-                   {"number": 300}
-                 ]`,
-	})
-	defer expected_table.Release()
-
-	table := array.NewTableFromRecords(schema, recs)
-	defer table.Release()
-	if !array.TableEqual(table, expected_table) {
-		return fmt.Errorf("read data isn't expected\n"+
-			"Expected:\n"+
-			"%s\n"+
-			"num-rows: %d\n"+
-			"num-cols: %d\n"+
-			"Actual:\n"+
-			"%s\n"+
-			"num-rows: %d\n"+
-			"num-cols: %d",
-			expected_table.Schema(),
-			expected_table.NumRows(),
-			expected_table.NumCols(),
-			table.Schema(),
-			table.NumRows(),
-			table.NumCols())
-	}
-
-	return nil
-}
-
-func (o *orderedScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(o)
-	initServer(port, srv)
-	return srv
-}
-
-func (o *orderedScenarioTester) GetFlightInfo(ctx context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	ordered := desc.Type == flight.DescriptorCMD && string(desc.Cmd) == "ordered"
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Int32},
-		},
-		nil,
-	)
-	return &flight.FlightInfo{
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		Endpoint: []*flight.FlightEndpoint{
-			{
-				Ticket:   &flight.Ticket{Ticket: []byte("1")},
-				Location: []*flight.Location{},
-			},
-			{
-				Ticket:   &flight.Ticket{Ticket: []byte("2")},
-				Location: []*flight.Location{},
-			},
-			{
-				Ticket:   &flight.Ticket{Ticket: []byte("3")},
-				Location: []*flight.Location{},
-			},
-		},
-		TotalRecords: -1,
-		TotalBytes:   -1,
-		Ordered:      ordered,
-	}, nil
-}
-
-func (o *orderedScenarioTester) DoGet(tkt *flight.Ticket, fs flight.FlightService_DoGetServer) error {
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Int32},
-		},
-		nil,
-	)
-	b := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer b.Release()
-	if string(tkt.GetTicket()) == "1" {
-		b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3}, nil)
-	} else if string(tkt.GetTicket()) == "2" {
-		b.Field(0).(*array.Int32Builder).AppendValues([]int32{10, 20, 30}, nil)
-	} else if string(tkt.GetTicket()) == "3" {
-		b.Field(0).(*array.Int32Builder).AppendValues([]int32{100, 200, 300}, nil)
-	}
-	w := flight.NewRecordWriter(fs, ipc.WithSchema(schema))
-	rec := b.NewRecord()
-	defer rec.Release()
-	w.Write(rec)
-
-	return nil
-}
-
-type expirationTimeEndpointStatus struct {
-	expirationTime *time.Time
-	numGets        uint32
-	cancelled      bool
-}
-
-type expirationTimeScenarioTester struct {
-	flight.BaseFlightServer
-	statuses map[int]expirationTimeEndpointStatus
-}
-
-func (tester *expirationTimeScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(tester)
-	initServer(port, srv)
-	return srv
-}
-
-func (tester *expirationTimeScenarioTester) AppendGetFlightInfo(endpoints []*flight.FlightEndpoint, ticket string, expirationTime *time.Time) []*flight.FlightEndpoint {
-	index := len(tester.statuses)
-	endpoint := flight.FlightEndpoint{
-		Ticket:   &flight.Ticket{Ticket: []byte(strconv.Itoa(index) + ": " + ticket)},
-		Location: []*flight.Location{},
-	}
-	if expirationTime != nil {
-		endpoint.ExpirationTime = timestamppb.New(*expirationTime)
-	}
-	endpoints = append(endpoints, &endpoint)
-	tester.statuses[index] = expirationTimeEndpointStatus{
-		expirationTime: expirationTime,
-		numGets:        0,
-		cancelled:      false,
-	}
-	return endpoints
-}
-
-func (tester *expirationTimeScenarioTester) ExtractIndexFromTicket(ticket string) (int, error) {
-	indexString := strings.SplitN(ticket, ":", 2)[0]
-	index, err := strconv.Atoi(indexString)
-	if err != nil {
-		return 0, fmt.Errorf("invalid flight: no index: %s: %s", ticket, err)
-	}
-	if index >= len(tester.statuses) {
-		return 0, fmt.Errorf("invalid flight: out of index: %s", ticket)
-	}
-	return index, nil
-}
-
-func (tester *expirationTimeScenarioTester) GetFlightInfo(ctx context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	tester.statuses = make(map[int]expirationTimeEndpointStatus)
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Uint32},
-		},
-		nil,
-	)
-	var endpoints []*flight.FlightEndpoint
-	endpoints = tester.AppendGetFlightInfo(endpoints, "No expiration time", nil)
-	expirationTime5 := time.Now().Add(time.Second * 5)
-	endpoints = tester.AppendGetFlightInfo(endpoints, "5 seconds", &expirationTime5)
-	expirationTime6 := time.Now().Add(time.Second * 6)
-	endpoints = tester.AppendGetFlightInfo(endpoints, "6 seconds", &expirationTime6)
-	return &flight.FlightInfo{
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		Endpoint:         endpoints,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}, nil
-}
-
-func (tester *expirationTimeScenarioTester) DoGet(tkt *flight.Ticket, fs flight.FlightService_DoGetServer) error {
-	ticket := string(tkt.GetTicket())
-	index, err := tester.ExtractIndexFromTicket(ticket)
-	if err != nil {
-		return err
-	}
-	st := tester.statuses[index]
-	if st.cancelled {
-		return status.Errorf(codes.InvalidArgument,
-			"Invalid flight: cancelled: %s", ticket)
-	}
-	if st.expirationTime == nil {
-		if st.numGets > 0 {
-			return status.Errorf(codes.InvalidArgument,
-				"Invalid flight: "+
-					"can't read multiple times: %s", ticket)
-		}
-	} else {
-		availableDuration := time.Until(*st.expirationTime)
-		if availableDuration < 0 {
-			return status.Errorf(codes.InvalidArgument,
-				"Invalid flight: expired: %s", ticket)
-		}
-	}
-	st.numGets++
-	tester.statuses[index] = st
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Uint32},
-		},
-		nil,
-	)
-	b := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer b.Release()
-	b.Field(0).(*array.Uint32Builder).AppendValues([]uint32{uint32(index)}, nil)
-	w := flight.NewRecordWriter(fs, ipc.WithSchema(schema))
-	rec := b.NewRecord()
-	defer rec.Release()
-	w.Write(rec)
-
-	return nil
-}
-
-func (tester *expirationTimeScenarioTester) ListActions(_ *flight.Empty, stream flight.FlightService_ListActionsServer) error {
-	actions := []string{
-		flight.CancelFlightInfoActionType,
-		flight.RenewFlightEndpointActionType,
-	}
-
-	for _, a := range actions {
-		if err := stream.Send(&flight.ActionType{Type: a}); err != nil {
-			return err
-		}
-	}
-
-	return nil
-}
-
-func packActionResult(msg proto.Message) (*flight.Result, error) {
-	ret := &flight.Result{}
-	var err error
-	if ret.Body, err = proto.Marshal(msg); err != nil {
-		return nil, fmt.Errorf("%w: unable to marshal final response", err)
-	}
-	return ret, nil
-}
-
-func (tester *expirationTimeScenarioTester) DoAction(cmd *flight.Action, stream flight.FlightService_DoActionServer) error {
-	switch cmd.Type {
-	case flight.CancelFlightInfoActionType:
-		var request flight.CancelFlightInfoRequest
-		if err := proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		cancelStatus := flight.CancelStatusUnspecified
-		for _, ep := range request.Info.Endpoint {
-			ticket := string(ep.Ticket.Ticket)
-			index, err := tester.ExtractIndexFromTicket(ticket)
-			if err == nil {
-				st := tester.statuses[index]
-				if st.cancelled {
-					cancelStatus = flight.CancelStatusNotCancellable
-				} else {
-					st.cancelled = true
-					if cancelStatus == flight.CancelStatusUnspecified {
-						cancelStatus = flight.CancelStatusCancelled
-					}
-					tester.statuses[index] = st
-				}
-			} else {
-				cancelStatus = flight.CancelStatusNotCancellable
-			}
-		}
-		result := flight.CancelFlightInfoResult{Status: cancelStatus}
-		out, err := packActionResult(&result)
-		if err != nil {
-			return err
-		}
-		if err = stream.Send(out); err != nil {
-			return err
-		}
-		return nil
-	case flight.RenewFlightEndpointActionType:
-		var request flight.RenewFlightEndpointRequest
-		if err := proto.Unmarshal(cmd.Body, &request); err != nil {
-			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
-		}
-
-		endpoint := request.Endpoint
-		ticket := string(endpoint.Ticket.Ticket)
-		index, err := tester.ExtractIndexFromTicket(ticket)
-		if err != nil {
-			return err
-		}
-		endpoint.Ticket.Ticket = []byte(string(endpoint.Ticket.Ticket) + ": renewed (+ 10 seconds)")
-		renewedExpirationTime := time.Now().Add(time.Second * 10)
-		endpoint.ExpirationTime = timestamppb.New(renewedExpirationTime)
-		st := tester.statuses[index]
-		st.expirationTime = &renewedExpirationTime
-		tester.statuses[index] = st
-		out, err := packActionResult(endpoint)
-		if err != nil {
-			return err
-		}
-		if err = stream.Send(out); err != nil {
-			return err
-		}
-		return nil
-	default:
-		return status.Errorf(codes.InvalidArgument, "unsupported action: %s", cmd.Type)
-	}
-}
-
-type expirationTimeDoGetScenarioTester struct {
-	expirationTimeScenarioTester
-}
-
-func (tester *expirationTimeDoGetScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	info, err := client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD, Cmd: []byte("expiration_time")})
-	if err != nil {
-		return err
-	}
-
-	var recs []arrow.Record
-	for _, ep := range info.Endpoint {
-		if len(recs) == 0 {
-			if ep.ExpirationTime != nil {
-				return fmt.Errorf("endpoints[0] must not have " +
-					"expiration time")
-			}
-		} else {
-			if ep.ExpirationTime == nil {
-				return fmt.Errorf("endpoints[1] must have " +
-					"expiration time")
-			}
-		}
-
-		if len(ep.Location) != 0 {
-			return fmt.Errorf("expected to receive empty locations to use the original service: %s",
-				ep.Location)
-		}
-
-		stream, err := client.DoGet(ctx, ep.Ticket)
-		if err != nil {
-			return err
-		}
-
-		rdr, err := flight.NewRecordReader(stream)
-		if err != nil {
-			return err
-		}
-		defer rdr.Release()
-
-		for rdr.Next() {
-			record := rdr.Record()
-			record.Retain()
-			defer record.Release()
-			recs = append(recs, record)
-		}
-		if rdr.Err() != nil {
-			return rdr.Err()
-		}
-	}
-
-	// Build expected records
-	mem := memory.DefaultAllocator
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Uint32},
-		},
-		nil,
-	)
-	expectedTable, _ := array.TableFromJSON(mem, schema, []string{
-		`[{"number": 0}]`,
-		`[{"number": 1}]`,
-		`[{"number": 2}]`,
-	})
-	defer expectedTable.Release()
-
-	table := array.NewTableFromRecords(schema, recs)
-	defer table.Release()
-	if !array.TableEqual(table, expectedTable) {
-		return fmt.Errorf("read data isn't expected\n"+
-			"Expected:\n"+
-			"%s\n"+
-			"numRows: %d\n"+
-			"numCols: %d\n"+
-			"Actual:\n"+
-			"%s\n"+
-			"numRows: %d\n"+
-			"numCols: %d",
-			expectedTable.Schema(),
-			expectedTable.NumRows(),
-			expectedTable.NumCols(),
-			table.Schema(),
-			table.NumRows(),
-			table.NumCols())
-	}
-
-	return nil
-}
-
-type expirationTimeListActionsScenarioTester struct {
-	expirationTimeScenarioTester
-}
-
-func (tester *expirationTimeListActionsScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	stream, err := client.ListActions(ctx, &flight.Empty{})
-	if err != nil {
-		return err
-	}
-
-	var actionTypeNames []string
-	for {
-		actionType, err := stream.Recv()
-		if errors.Is(err, io.EOF) {
-			break
-		}
-		if err != nil {
-			return err
-		}
-		actionTypeNames = append(actionTypeNames, actionType.Type)
-	}
-	sort.Strings(actionTypeNames)
-	expectedActionTypeNames := []string{
-		"CancelFlightInfo",
-		"RenewFlightEndpoint",
-	}
-	if !reflect.DeepEqual(actionTypeNames, expectedActionTypeNames) {
-		return fmt.Errorf("action types aren't expected\n"+
-			"Expected:\n"+
-			"%s\n"+
-			"Actual:\n"+
-			"%s",
-			expectedActionTypeNames,
-			actionTypeNames)
-	}
-
-	return nil
-}
-
-type expirationTimeCancelFlightInfoScenarioTester struct {
-	expirationTimeScenarioTester
-}
-
-func (tester *expirationTimeCancelFlightInfoScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	info, err := client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD, Cmd: []byte("expiration_time")})
-	if err != nil {
-		return err
-	}
-
-	request := flight.CancelFlightInfoRequest{Info: info}
-	result, err := client.CancelFlightInfo(ctx, &request)
-	if err != nil && !errors.Is(err, io.EOF) {
-		return err
-	}
-	if result.Status != flight.CancelStatusCancelled {
-		return fmt.Errorf("invalid: CancelFlightInfo must return CANCEL_STATUS_CANCELLED: %s", result.Status)
-	}
-	for _, ep := range info.Endpoint {
-		stream, err := client.DoGet(ctx, ep.Ticket)
-		if err != nil {
-			return err
-		}
-		rdr, err := flight.NewRecordReader(stream)
-		if err == nil {
-			rdr.Release()
-			return fmt.Errorf("invalid: DoGet after CancelFlightInfo must be failed")
-		}
-	}
-
-	return nil
-}
-
-type expirationTimeRenewFlightEndpointScenarioTester struct {
-	expirationTimeScenarioTester
-}
-
-func (tester *expirationTimeRenewFlightEndpointScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	info, err := client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD, Cmd: []byte("expiration_time")})
-	if err != nil {
-		return err
-	}
-
-	// Renew all endpoints that have expiration time
-	for _, ep := range info.Endpoint {
-		if ep.ExpirationTime == nil {
-			continue
-		}
-		expirationTime := ep.ExpirationTime.AsTime()
-		request := flight.RenewFlightEndpointRequest{Endpoint: ep}
-		renewedEndpoint, err := client.RenewFlightEndpoint(ctx, &request)
-		if err != nil {
-			return err
-		}
-		if renewedEndpoint.ExpirationTime == nil {
-			return fmt.Errorf("renewed endpoint must have expiration time: %s",
-				renewedEndpoint)
-		}
-		renewedExpirationTime := renewedEndpoint.ExpirationTime.AsTime()
-		if renewedExpirationTime.Sub(expirationTime) <= 0 {
-			return fmt.Errorf("renewed endpoint must have newer expiration time\n"+
-				"Original: %s\nRenewed: %s",
-				ep, renewedEndpoint)
-		}
-	}
-
-	return nil
-}
-
-type locationReuseConnectionScenarioTester struct {
-	flight.BaseFlightServer
-}
-
-func (m *locationReuseConnectionScenarioTester) GetFlightInfo(ctx context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return &flight.FlightInfo{
-		Schema:           flight.SerializeSchema(arrow.NewSchema([]arrow.Field{}, nil), memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		Endpoint: []*flight.FlightEndpoint{{
-			Ticket:   &flight.Ticket{Ticket: []byte("reuse")},
-			Location: []*flight.Location{{Uri: flight.LocationReuseConnection}},
-		}},
-		TotalRecords: -1,
-		TotalBytes:   -1,
-	}, nil
-}
-
-func (tester *locationReuseConnectionScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(tester)
-	initServer(port, srv)
-	return srv
-}
-
-func (tester *locationReuseConnectionScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	info, err := client.GetFlightInfo(ctx, &flight.FlightDescriptor{Type: flight.DescriptorCMD, Cmd: []byte("reuse")})
-	if err != nil {
-		return err
-	}
-
-	if len(info.Endpoint) != 1 {
-		return fmt.Errorf("expected 1 endpoint, got %d", len(info.Endpoint))
-	}
-	endpoint := info.Endpoint[0]
-	if len(endpoint.Location) != 1 {
-		return fmt.Errorf("expected 1 location, got %d", len(endpoint.Location))
-	} else if endpoint.Location[0].Uri != flight.LocationReuseConnection {
-		return fmt.Errorf("expected %s, got %s", flight.LocationReuseConnection, endpoint.Location[0].Uri)
-	}
-
-	return nil
-}
-
-type pollFlightInfoScenarioTester struct {
-	flight.BaseFlightServer
-}
-
-func (tester *pollFlightInfoScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(tester)
-	initServer(port, srv)
-	return srv
-}
-
-func (tester *pollFlightInfoScenarioTester) PollFlightInfo(ctx context.Context, desc *flight.FlightDescriptor) (*flight.PollInfo, error) {
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Uint32},
-		},
-		nil,
-	)
-	endpoints := []*flight.FlightEndpoint{
-		{
-			Ticket:   &flight.Ticket{Ticket: []byte("long-running query")},
-			Location: []*flight.Location{},
-		},
-	}
-	info := &flight.FlightInfo{
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		Endpoint:         endpoints,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}
-	pollDesc := flight.FlightDescriptor{
-		Type: flight.DescriptorCMD,
-		Cmd:  []byte("poll"),
-	}
-	if desc.Type == pollDesc.Type && string(desc.Cmd) == string(pollDesc.Cmd) {
-		progress := float64(1.0)
-		return &flight.PollInfo{
-			Info:             info,
-			FlightDescriptor: nil,
-			Progress:         &progress,
-			ExpirationTime:   nil,
-		}, nil
-	} else {
-		progress := float64(0.1)
-		return &flight.PollInfo{
-			Info:             info,
-			FlightDescriptor: &pollDesc,
-			Progress:         &progress,
-			ExpirationTime:   timestamppb.New(time.Now().Add(time.Second * 10)),
-		}, nil
-	}
-}
-
-func (tester *pollFlightInfoScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	desc := flight.FlightDescriptor{
-		Type: flight.DescriptorCMD,
-		Cmd:  []byte("heavy query"),
-	}
-	info, err := client.PollFlightInfo(ctx, &desc)
-	if err != nil {
-		return err
-	}
-	switch {
-	case info.FlightDescriptor == nil:
-		return fmt.Errorf("description is missing: %s", info.String())
-	case info.Progress == nil:
-		return fmt.Errorf("progress is missing: %s", info.String())
-	case !(0.0 <= *info.Progress && *info.Progress <= 1.0):
-		return fmt.Errorf("invalid progress: %s", info.String())
-	case info.ExpirationTime == nil:
-		return fmt.Errorf("expiration time is missing: %s", info.String())
-	}
-
-	info, err = client.PollFlightInfo(ctx, info.FlightDescriptor)
-	if err != nil {
-		return err
-	}
-	switch {
-	case info.FlightDescriptor != nil:
-		return fmt.Errorf("retried but no finished yet: %s", info.String())
-	case info.Progress == nil:
-		return fmt.Errorf("progress is missing in finished query: %s",
-			info.String())
-	case math.Abs(*info.Progress-1.0) > 1e-5:
-		return fmt.Errorf("progress for finished query isn't 1.0: %s",
-			info.String())
-	case info.ExpirationTime != nil:
-		return fmt.Errorf("expiration time must not be set for finished query: %s",
-			info.String())
-	}
-
-	return nil
-}
-
-type appMetadataFlightInfoEndpointScenarioTester struct {
-	flight.BaseFlightServer
-}
-
-func (tester *appMetadataFlightInfoEndpointScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	srv.RegisterFlightService(tester)
-	initServer(port, srv)
-	return srv
-}
-
-func (tester *appMetadataFlightInfoEndpointScenarioTester) GetFlightInfo(ctx context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "number", Type: arrow.PrimitiveTypes.Uint32},
-		},
-		nil,
-	)
-
-	if desc.Type != flight.DescriptorCMD {
-		return nil, fmt.Errorf("%w: should have received CMD descriptor", arrow.ErrInvalid)
-	}
-	endpoints := []*flight.FlightEndpoint{{AppMetadata: desc.Cmd}}
-	return &flight.FlightInfo{
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		Endpoint:         endpoints,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-		AppMetadata:      desc.Cmd,
-	}, nil
-}
-
-func (tester *appMetadataFlightInfoEndpointScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flight.NewClientWithMiddleware(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	ctx := context.Background()
-	desc := flight.FlightDescriptor{
-		Type: flight.DescriptorCMD,
-		Cmd:  []byte("foobar"),
-	}
-	info, err := client.GetFlightInfo(ctx, &desc)
-	if err != nil {
-		return err
-	}
-	switch {
-	case !bytes.Equal(desc.Cmd, info.AppMetadata):
-		return fmt.Errorf("invalid flight info app_metadata: %s, expected: %s", info.AppMetadata, desc.Cmd)
-	case len(info.Endpoint) != 1:
-		return fmt.Errorf("expected exactly 1 flight endpoint, got: %d", len(info.Endpoint))
-	case !bytes.Equal(desc.Cmd, info.Endpoint[0].AppMetadata):
-		return fmt.Errorf("invalid flight endpoint app_metadata: %s, expected: %s", info.Endpoint[0].AppMetadata, desc.Cmd)
-	}
-	return nil
-}
-
-const (
-	updateStatementExpectedRows                        int64 = 10000
-	updateStatementWithTransactionExpectedRows         int64 = 15000
-	updatePreparedStatementExpectedRows                int64 = 20000
-	updatePreparedStatementWithTransactionExpectedRows int64 = 25000
-	ingestStatementExpectedRows                        int64 = 3
-)
-
-type flightSqlScenarioTester struct {
-	flightsql.BaseServer
-}
-
-func (m *flightSqlScenarioTester) flightInfoForCommand(desc *flight.FlightDescriptor, schema *arrow.Schema) *flight.FlightInfo {
-	return &flight.FlightInfo{
-		Endpoint: []*flight.FlightEndpoint{
-			{Ticket: &flight.Ticket{Ticket: desc.Cmd}},
-		},
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}
-}
-
-func (m *flightSqlScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerSql, false)
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerSubstrait, true)
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerSubstraitMinVersion, "min_version")
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerSubstraitMaxVersion, "max_version")
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerTransaction, int32(flightsql.SqlTransactionSavepoint))
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerCancel, true)
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerStatementTimeout, int32(42))
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerTransactionTimeout, int32(7))
-
-	srv.RegisterFlightService(flightsql.NewFlightServer(m))
-	initServer(port, srv)
-	return srv
-}
-
-func assertEq(expected, actual interface{}) error {
-	v := reflect.Indirect(reflect.ValueOf(actual))
-	if !reflect.DeepEqual(expected, v.Interface()) {
-		return fmt.Errorf("expected: '%s', got: '%s'", expected, actual)
-	}
-	return nil
-}
-
-func (m *flightSqlScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flightsql.NewClient(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	if err := m.ValidateMetadataRetrieval(client); err != nil {
-		return err
-	}
-
-	if err := m.ValidateStatementExecution(client); err != nil {
-		return err
-	}
-
-	return m.ValidatePreparedStatementExecution(client)
-}
-
-func (m *flightSqlScenarioTester) validate(expected *arrow.Schema, result *flight.FlightInfo, client *flightsql.Client) error {
-	rdr, err := client.DoGet(context.Background(), result.Endpoint[0].Ticket)
-	if err != nil {
-		return err
-	}
-
-	if !expected.Equal(rdr.Schema()) {
-		return fmt.Errorf("expected: %s, got: %s", expected, rdr.Schema())
-	}
-	for {
-		_, err := rdr.Read()
-		if err == io.EOF {
-			break
-		}
-		if err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (m *flightSqlScenarioTester) validateSchema(expected *arrow.Schema, result *flight.SchemaResult) error {
-	schema, err := flight.DeserializeSchema(result.GetSchema(), memory.DefaultAllocator)
-	if err != nil {
-		return err
-	}
-	if !expected.Equal(schema) {
-		return fmt.Errorf("expected: %s, got: %s", expected, schema)
-	}
-	return nil
-}
-
-func (m *flightSqlScenarioTester) ValidateMetadataRetrieval(client *flightsql.Client) error {
-	var (
-		catalog               = "catalog"
-		dbSchemaFilterPattern = "db_schema_filter_pattern"
-		tableFilterPattern    = "table_filter_pattern"
-		table                 = "table"
-		dbSchema              = "db_schema"
-		tableTypes            = []string{"table", "view"}
-
-		ref   = flightsql.TableRef{Catalog: &catalog, DBSchema: &dbSchema, Table: table}
-		pkRef = flightsql.TableRef{Catalog: proto.String("pk_catalog"), DBSchema: proto.String("pk_db_schema"), Table: "pk_table"}
-		fkRef = flightsql.TableRef{Catalog: proto.String("fk_catalog"), DBSchema: proto.String("fk_db_schema"), Table: "fk_table"}
-
-		ctx = context.Background()
-	)
-
-	info, err := client.GetCatalogs(ctx)
-	if err != nil {
-		return err
-	}
-	if err := m.validate(schema_ref.Catalogs, info, client); err != nil {
-		return err
-	}
-
-	schema, err := client.GetCatalogsSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err := m.validateSchema(schema_ref.Catalogs, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetDBSchemas(ctx, &flightsql.GetDBSchemasOpts{Catalog: &catalog, DbSchemaFilterPattern: &dbSchemaFilterPattern})
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.DBSchemas, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetDBSchemasSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.DBSchemas, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetTables(ctx, &flightsql.GetTablesOpts{Catalog: &catalog, DbSchemaFilterPattern: &dbSchemaFilterPattern, TableNameFilterPattern: &tableFilterPattern, IncludeSchema: true, TableTypes: tableTypes})
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.TablesWithIncludedSchema, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetTablesSchema(ctx, &flightsql.GetTablesOpts{IncludeSchema: true})
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.TablesWithIncludedSchema, schema); err != nil {
-		return err
-	}
-
-	schema, err = client.GetTablesSchema(ctx, &flightsql.GetTablesOpts{IncludeSchema: false})
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.Tables, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetTableTypes(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.TableTypes, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetTableTypesSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.TableTypes, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetPrimaryKeys(ctx, ref)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.PrimaryKeys, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetPrimaryKeysSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.PrimaryKeys, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetExportedKeys(ctx, ref)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.ExportedKeys, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetExportedKeysSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.ExportedKeys, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetImportedKeys(ctx, ref)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.ImportedKeys, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetImportedKeysSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.ImportedKeys, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetCrossReference(ctx, pkRef, fkRef)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.CrossReference, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetCrossReferenceSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.CrossReference, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetXdbcTypeInfo(ctx, nil)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.XdbcTypeInfo, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetXdbcTypeInfoSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.XdbcTypeInfo, schema); err != nil {
-		return err
-	}
-
-	info, err = client.GetSqlInfo(ctx, []flightsql.SqlInfo{flightsql.SqlInfoFlightSqlServerName, flightsql.SqlInfoFlightSqlServerReadOnly})
-	if err != nil {
-		return err
-	}
-	if err = m.validate(schema_ref.SqlInfo, info, client); err != nil {
-		return err
-	}
-
-	schema, err = client.GetSqlInfoSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(schema_ref.SqlInfo, schema); err != nil {
-		return err
-	}
-
-	return nil
-}
-
-func (m *flightSqlScenarioTester) ValidateStatementExecution(client *flightsql.Client) error {
-	ctx := context.Background()
-	info, err := client.Execute(ctx, "SELECT STATEMENT")
-	if err != nil {
-		return err
-	}
-	if err = m.validate(getQuerySchema(), info, client); err != nil {
-		return err
-	}
-
-	schema, err := client.GetExecuteSchema(ctx, "SELECT STATEMENT")
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(getQuerySchema(), schema); err != nil {
-		return err
-	}
-
-	updateResult, err := client.ExecuteUpdate(ctx, "UPDATE STATEMENT")
-	if err != nil {
-		return err
-	}
-	if updateResult != updateStatementExpectedRows {
-		return fmt.Errorf("expected 'UPDATE STATEMENT' return %d got %d", updateStatementExpectedRows, updateResult)
-	}
-	return nil
-}
-
-func (m *flightSqlScenarioTester) ValidatePreparedStatementExecution(client *flightsql.Client) error {
-	ctx := context.Background()
-	prepared, err := client.Prepare(ctx, "SELECT PREPARED STATEMENT")
-	if err != nil {
-		return err
-	}
-
-	arr, _, _ := array.FromJSON(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64, strings.NewReader("[1]"))
-	defer arr.Release()
-	params := array.NewRecord(getQuerySchema(), []arrow.Array{arr}, 1)
-	defer params.Release()
-	prepared.SetParameters(params)
-
-	info, err := prepared.Execute(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validate(getQuerySchema(), info, client); err != nil {
-		return err
-	}
-	schema, err := prepared.GetSchema(ctx)
-	if err != nil {
-		return err
-	}
-	if err = m.validateSchema(getQuerySchema(), schema); err != nil {
-		return err
-	}
-
-	if err = prepared.Close(ctx); err != nil {
-		return err
-	}
-
-	updatePrepared, err := client.Prepare(ctx, "UPDATE PREPARED STATEMENT")
-	if err != nil {
-		return err
-	}
-	updateResult, err := updatePrepared.ExecuteUpdate(ctx)
-	if err != nil {
-		return err
-	}
-
-	if updateResult != updatePreparedStatementExpectedRows {
-		return fmt.Errorf("expected 'UPDATE STATEMENT' return %d got %d", updatePreparedStatementExpectedRows, updateResult)
-	}
-	return updatePrepared.Close(ctx)
-}
-
-func (m *flightSqlScenarioTester) doGetForTestCase(schema *arrow.Schema) chan flight.StreamChunk {
-	ch := make(chan flight.StreamChunk)
-	close(ch)
-	return ch
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoStatement(ctx context.Context, cmd flightsql.StatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq(selectStatement, cmd.GetQuery()); err != nil {
-		return nil, err
-	}
-
-	var (
-		ticket []byte
-		schema *arrow.Schema
-	)
-	if len(cmd.GetTransactionId()) == 0 {
-		ticket = []byte("SELECT STATEMENT HANDLE")
-		schema = getQuerySchema()
-	} else {
-		ticket = []byte("SELECT STATEMENT WITH TXN HANDLE")
-		schema = getQueryWithTransactionSchema()
-	}
-
-	handle, err := flightsql.CreateStatementQueryTicket(ticket)
-	if err != nil {
-		return nil, err
-	}
-
-	return &flight.FlightInfo{
-		Endpoint: []*flight.FlightEndpoint{
-			{Ticket: &flight.Ticket{Ticket: handle}},
-		},
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}, nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoSubstraitPlan(ctx context.Context, cmd flightsql.StatementSubstraitPlan, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq([]byte(substraitPlanText), cmd.GetPlan().Plan); err != nil {
-		return nil, fmt.Errorf("%w: unexpected plan in GetFlightInfoSubstraitPlan", err)
-	}
-
-	if err := assertEq(substraitPlanVersion, cmd.GetPlan().Version); err != nil {
-		return nil, fmt.Errorf("%w: unexpected version in GetFlightInfoSubstraitPlan", err)
-	}
-
-	var (
-		ticket []byte
-		schema *arrow.Schema
-	)
-	if len(cmd.GetTransactionId()) == 0 {
-		ticket = []byte("PLAN HANDLE")
-		schema = getQuerySchema()
-	} else {
-		ticket = []byte("PLAN WITH TXN HANDLE")
-		schema = getQueryWithTransactionSchema()
-	}
-
-	handle, err := flightsql.CreateStatementQueryTicket(ticket)
-	if err != nil {
-		return nil, err
-	}
-
-	return &flight.FlightInfo{
-		Endpoint: []*flight.FlightEndpoint{
-			{Ticket: &flight.Ticket{Ticket: handle}},
-		},
-		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
-		FlightDescriptor: desc,
-		TotalRecords:     -1,
-		TotalBytes:       -1,
-	}, nil
-}
-
-func (m *flightSqlScenarioTester) GetSchemaStatement(ctx context.Context, cmd flightsql.StatementQuery, desc *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	if err := assertEq(selectStatement, cmd.GetQuery()); err != nil {
-		return nil, fmt.Errorf("%w: unexpected statement in GetSchemaStatement", err)
-	}
-
-	if len(cmd.GetTransactionId()) == 0 {
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(getQuerySchema(), memory.DefaultAllocator)}, nil
-	}
-
-	return &flight.SchemaResult{Schema: flight.SerializeSchema(getQueryWithTransactionSchema(), memory.DefaultAllocator)}, nil
-}
-
-func (m *flightSqlScenarioTester) GetSchemaSubstraitPlan(ctx context.Context, cmd flightsql.StatementSubstraitPlan, desc *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	if err := assertEq([]byte(substraitPlanText), cmd.GetPlan().Plan); err != nil {
-		return nil, fmt.Errorf("%w: unexpected plan in GetFlightInfoSubstraitPlan", err)
-	}
-
-	if err := assertEq(substraitPlanVersion, cmd.GetPlan().Version); err != nil {
-		return nil, fmt.Errorf("%w: unexpected version in GetFlightInfoSubstraitPlan", err)
-	}
-
-	if len(cmd.GetTransactionId()) == 0 {
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(getQuerySchema(), memory.DefaultAllocator)}, nil
-	}
-
-	return &flight.SchemaResult{Schema: flight.SerializeSchema(getQueryWithTransactionSchema(), memory.DefaultAllocator)}, nil
-}
-
-func (m *flightSqlScenarioTester) DoGetStatement(ctx context.Context, cmd flightsql.StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	switch string(cmd.GetStatementHandle()) {
-	case "SELECT STATEMENT HANDLE", "PLAN HANDLE":
-		return getQuerySchema(), m.doGetForTestCase(getQuerySchema()), nil
-	case "SELECT STATEMENT WITH TXN HANDLE", "PLAN WITH TXN HANDLE":
-		return getQueryWithTransactionSchema(), m.doGetForTestCase(getQueryWithTransactionSchema()), nil
-	}
-
-	return nil, nil, fmt.Errorf("%w: unknown handle %s", arrow.ErrInvalid, string(cmd.GetStatementHandle()))
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoPreparedStatement(_ context.Context, cmd flightsql.PreparedStatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	switch string(cmd.GetPreparedStatementHandle()) {
-	case "SELECT PREPARED STATEMENT HANDLE", "PLAN HANDLE":
-		return m.flightInfoForCommand(desc, getQuerySchema()), nil
-	case "SELECT PREPARED STATEMENT WITH TXN HANDLE", "PLAN WITH TXN HANDLE":
-		return m.flightInfoForCommand(desc, getQueryWithTransactionSchema()), nil
-	}
-	return nil, fmt.Errorf("%w: invalid handle for GetFlightInfoPreparedStatement %s",
-		arrow.ErrInvalid, string(cmd.GetPreparedStatementHandle()))
-}
-
-func (m *flightSqlScenarioTester) GetSchemaPreparedStatement(ctx context.Context, cmd flightsql.PreparedStatementQuery, desc *flight.FlightDescriptor) (*flight.SchemaResult, error) {
-	switch string(cmd.GetPreparedStatementHandle()) {
-	case "SELECT PREPARED STATEMENT HANDLE", "PLAN HANDLE":
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(getQuerySchema(), memory.DefaultAllocator)}, nil
-	case "SELECT PREPARED STATEMENT WITH TXN HANDLE", "PLAN WITH TXN HANDLE":
-		return &flight.SchemaResult{Schema: flight.SerializeSchema(getQueryWithTransactionSchema(), memory.DefaultAllocator)}, nil
-	}
-	return nil, fmt.Errorf("%w: invalid handle for GetSchemaPreparedStatement %s",
-		arrow.ErrInvalid, string(cmd.GetPreparedStatementHandle()))
-}
-
-func (m *flightSqlScenarioTester) DoGetPreparedStatement(_ context.Context, cmd flightsql.PreparedStatementQuery) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	switch string(cmd.GetPreparedStatementHandle()) {
-	case "SELECT PREPARED STATEMENT HANDLE", "PLAN HANDLE":
-		return getQuerySchema(), m.doGetForTestCase(getQuerySchema()), nil
-	case "SELECT PREPARED STATEMENT WITH TXN HANDLE", "PLAN WITH TXN HANDLE":
-		return getQueryWithTransactionSchema(), m.doGetForTestCase(getQueryWithTransactionSchema()), nil
-	}
-	return nil, nil, fmt.Errorf("%w: invalid handle: %s",
-		arrow.ErrInvalid, string(cmd.GetPreparedStatementHandle()))
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoCatalogs(_ context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return m.flightInfoForCommand(desc, schema_ref.Catalogs), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetCatalogs(_ context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.Catalogs, m.doGetForTestCase(schema_ref.Catalogs), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoXdbcTypeInfo(_ context.Context, cmd flightsql.GetXdbcTypeInfo, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return m.flightInfoForCommand(desc, schema_ref.XdbcTypeInfo), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetXdbcTypeInfo(context.Context, flightsql.GetXdbcTypeInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.XdbcTypeInfo, m.doGetForTestCase(schema_ref.XdbcTypeInfo), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoSqlInfo(ctx context.Context, cmd flightsql.GetSqlInfo, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if len(cmd.GetInfo()) == 2 {
-		// integration test for the protocol messages
-
-		if err := assertEq(int(2), len(cmd.GetInfo())); err != nil {
-			return nil, err
-		}
-		if err := assertEq(flightsql.SqlInfoFlightSqlServerName, flightsql.SqlInfo(cmd.GetInfo()[0])); err != nil {
-			return nil, err
-		}
-		if err := assertEq(flightsql.SqlInfoFlightSqlServerReadOnly, flightsql.SqlInfo(cmd.GetInfo()[1])); err != nil {
-			return nil, err
-		}
-
-		return m.flightInfoForCommand(desc, schema_ref.SqlInfo), nil
-	}
-
-	// integration test for the values themselves
-	return m.BaseServer.GetFlightInfoSqlInfo(ctx, cmd, desc)
-}
-
-func (m *flightSqlScenarioTester) DoGetSqlInfo(ctx context.Context, cmd flightsql.GetSqlInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	if len(cmd.GetInfo()) == 2 {
-		return schema_ref.SqlInfo, m.doGetForTestCase(schema_ref.SqlInfo), nil
-	}
-
-	return m.BaseServer.DoGetSqlInfo(ctx, cmd)
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoSchemas(_ context.Context, cmd flightsql.GetDBSchemas, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq("catalog", cmd.GetCatalog()); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("db_schema_filter_pattern", cmd.GetDBSchemaFilterPattern()); err != nil {
-		return nil, err
-	}
-
-	return m.flightInfoForCommand(desc, schema_ref.DBSchemas), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetDBSchemas(context.Context, flightsql.GetDBSchemas) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.DBSchemas, m.doGetForTestCase(schema_ref.DBSchemas), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoTables(_ context.Context, cmd flightsql.GetTables, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq("catalog", cmd.GetCatalog()); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("db_schema_filter_pattern", cmd.GetDBSchemaFilterPattern()); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("table_filter_pattern", cmd.GetTableNameFilterPattern()); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq(int(2), len(cmd.GetTableTypes())); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("table", cmd.GetTableTypes()[0]); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("view", cmd.GetTableTypes()[1]); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq(true, cmd.GetIncludeSchema()); err != nil {
-		return nil, err
-	}
-
-	return m.flightInfoForCommand(desc, schema_ref.TablesWithIncludedSchema), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetTables(context.Context, flightsql.GetTables) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.TablesWithIncludedSchema, m.doGetForTestCase(schema_ref.TablesWithIncludedSchema), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoTableTypes(_ context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	return m.flightInfoForCommand(desc, schema_ref.TableTypes), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetTableTypes(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.TableTypes, m.doGetForTestCase(schema_ref.TableTypes), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoPrimaryKeys(_ context.Context, cmd flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq("catalog", cmd.Catalog); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("db_schema", cmd.DBSchema); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("table", cmd.Table); err != nil {
-		return nil, err
-	}
-
-	return m.flightInfoForCommand(desc, schema_ref.PrimaryKeys), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetPrimaryKeys(context.Context, flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.PrimaryKeys, m.doGetForTestCase(schema_ref.PrimaryKeys), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoExportedKeys(_ context.Context, cmd flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq("catalog", cmd.Catalog); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("db_schema", cmd.DBSchema); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("table", cmd.Table); err != nil {
-		return nil, err
-	}
-
-	return m.flightInfoForCommand(desc, schema_ref.ExportedKeys), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetExportedKeys(context.Context, flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.ExportedKeys, m.doGetForTestCase(schema_ref.ExportedKeys), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoImportedKeys(_ context.Context, cmd flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq("catalog", cmd.Catalog); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("db_schema", cmd.DBSchema); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("table", cmd.Table); err != nil {
-		return nil, err
-	}
-
-	return m.flightInfoForCommand(desc, schema_ref.ImportedKeys), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetImportedKeys(context.Context, flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.ImportedKeys, m.doGetForTestCase(schema_ref.ImportedKeys), nil
-}
-
-func (m *flightSqlScenarioTester) GetFlightInfoCrossReference(_ context.Context, cmd flightsql.CrossTableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
-	if err := assertEq("pk_catalog", cmd.PKRef.Catalog); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("pk_db_schema", cmd.PKRef.DBSchema); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("pk_table", cmd.PKRef.Table); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("fk_catalog", cmd.FKRef.Catalog); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("fk_db_schema", cmd.FKRef.DBSchema); err != nil {
-		return nil, err
-	}
-
-	if err := assertEq("fk_table", cmd.FKRef.Table); err != nil {
-		return nil, err
-	}
-
-	return m.flightInfoForCommand(desc, schema_ref.TableTypes), nil
-}
-
-func (m *flightSqlScenarioTester) DoGetCrossReference(context.Context, flightsql.CrossTableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
-	return schema_ref.CrossReference, m.doGetForTestCase(schema_ref.CrossReference), nil
-}
-
-func (m *flightSqlScenarioTester) DoPutCommandStatementUpdate(_ context.Context, cmd flightsql.StatementUpdate) (int64, error) {
-	if err := assertEq("UPDATE STATEMENT", cmd.GetQuery()); err != nil {
-		return 0, err
-	}
-
-	if len(cmd.GetTransactionId()) == 0 {
-		return updateStatementExpectedRows, nil
-	}
-	return updateStatementWithTransactionExpectedRows, nil
-}
-
-func (m *flightSqlScenarioTester) DoPutCommandSubstraitPlan(_ context.Context, cmd flightsql.StatementSubstraitPlan) (int64, error) {
-	if err := assertEq([]byte(substraitPlanText), cmd.GetPlan().Plan); err != nil {
-		return 0, fmt.Errorf("%w: wrong plan for DoPutCommandSubstraitPlan", err)
-	}
-
-	if err := assertEq(substraitPlanVersion, cmd.GetPlan().Version); err != nil {
-		return 0, fmt.Errorf("%w: unexpected version in DoPutCommandSubstraitPlan", err)
-	}
-
-	if len(cmd.GetTransactionId()) == 0 {
-		return updateStatementExpectedRows, nil
-	}
-	return updateStatementWithTransactionExpectedRows, nil
-}
-
-func (m *flightSqlScenarioTester) CreatePreparedStatement(_ context.Context, request flightsql.ActionCreatePreparedStatementRequest) (res flightsql.ActionCreatePreparedStatementResult, err error) {
-	switch request.GetQuery() {
-	case "SELECT PREPARED STATEMENT", "UPDATE PREPARED STATEMENT":
-	default:
-		return res, fmt.Errorf("%w: unexpected query %s", arrow.ErrInvalid, request.GetQuery())
-	}
-
-	handle := request.GetQuery()
-	if len(request.GetTransactionId()) != 0 {
-		handle += " WITH TXN"
-	}
-	res.Handle = []byte(handle + " HANDLE")
-	return
-}
-
-func (m *flightSqlScenarioTester) CreatePreparedSubstraitPlan(_ context.Context, request flightsql.ActionCreatePreparedSubstraitPlanRequest) (res flightsql.ActionCreatePreparedStatementResult, err error) {
-	if err := assertEq([]byte(substraitPlanText), request.GetPlan().Plan); err != nil {
-		return res, fmt.Errorf("%w: wrong plan for CreatePreparedSubstraitPlan", err)
-	}
-
-	if err := assertEq(substraitPlanVersion, request.GetPlan().Version); err != nil {
-		return res, fmt.Errorf("%w: unexpected version in DoPutCommandSubstraitPlan", err)
-	}
-
-	if len(request.GetTransactionId()) == 0 {
-		res.Handle = []byte("PLAN HANDLE")
-	} else {
-		res.Handle = []byte("PLAN WITH TXN HANDLE")
-	}
-	return
-}
-
-func (m *flightSqlScenarioTester) ClosePreparedStatement(_ context.Context, request flightsql.ActionClosePreparedStatementRequest) error {
-	switch string(request.GetPreparedStatementHandle()) {
-	case "SELECT PREPARED STATEMENT HANDLE",
-		"UPDATE PREPARED STATEMENT HANDLE",
-		"PLAN HANDLE",
-		"SELECT PREPARED STATEMENT WITH TXN HANDLE",
-		"UPDATE PREPARED STATEMENT WITH TXN HANDLE",
-		"PLAN WITH TXN HANDLE":
-	default:
-		return fmt.Errorf("%w: invalid handle for ClosePreparedStatement: %s",
-			arrow.ErrInvalid, string(request.GetPreparedStatementHandle()))
-	}
-
-	return nil
-}
-
-func (m *flightSqlScenarioTester) DoPutPreparedStatementQuery(_ context.Context, cmd flightsql.PreparedStatementQuery, rdr flight.MessageReader, _ flight.MetadataWriter) ([]byte, error) {
-	switch string(cmd.GetPreparedStatementHandle()) {
-	case "SELECT PREPARED STATEMENT HANDLE",
-		"SELECT PREPARED STATEMENT WITH TXN HANDLE",
-		"PLAN HANDLE", "PLAN WITH TXN HANDLE":
-		actualSchema := rdr.Schema()
-		return cmd.GetPreparedStatementHandle(), assertEq(true, actualSchema.Equal(getQuerySchema()))
-	}
-
-	return cmd.GetPreparedStatementHandle(), fmt.Errorf("%w: handle for DoPutPreparedStatementQuery '%s'",
-		arrow.ErrInvalid, string(cmd.GetPreparedStatementHandle()))
-}
-
-func (m *flightSqlScenarioTester) DoPutPreparedStatementUpdate(_ context.Context, cmd flightsql.PreparedStatementUpdate, _ flight.MessageReader) (int64, error) {
-	switch string(cmd.GetPreparedStatementHandle()) {
-	case "UPDATE PREPARED STATEMENT HANDLE", "PLAN HANDLE":
-		return updatePreparedStatementExpectedRows, nil
-	case "UPDATE PREPARED STATEMENT WITH TXN HANDLE", "PLAN WITH TXN HANDLE":
-		return updatePreparedStatementWithTransactionExpectedRows, nil
-	}
-
-	return 0, fmt.Errorf("%w: handle for DoPutPreparedStatementUpdate '%s'",
-		arrow.ErrInvalid, string(cmd.GetPreparedStatementHandle()))
-}
-
-func (m *flightSqlScenarioTester) BeginSavepoint(_ context.Context, request flightsql.ActionBeginSavepointRequest) ([]byte, error) {
-	if err := assertEq(savepointName, request.GetName()); err != nil {
-		return nil, fmt.Errorf("%w: unexpected savepoint name in BeginSavepoint", err)
-	}
-
-	if err := assertEq([]byte(transactionID), request.GetTransactionId()); err != nil {
-		return nil, fmt.Errorf("%w: unexpected transaction ID in BeginSavepoint", err)
-	}
-
-	return []byte(savepointID), nil
-}
-
-func (m *flightSqlScenarioTester) BeginTransaction(context.Context, flightsql.ActionBeginTransactionRequest) ([]byte, error) {
-	return []byte(transactionID), nil
-}
-
-func (m *flightSqlScenarioTester) CancelFlightInfo(_ context.Context, request *flight.CancelFlightInfoRequest) (flight.CancelFlightInfoResult, error) {
-	result := flight.CancelFlightInfoResult{Status: flight.CancelStatusUnspecified}
-	if err := assertEq(1, len(request.Info.Endpoint)); err != nil {
-		return result, fmt.Errorf("%w: expected 1 endpoint for CancelQuery", err)
-	}
-
-	endpoint := request.Info.Endpoint[0]
-	tkt, err := flightsql.GetStatementQueryTicket(endpoint.Ticket)
-	if err != nil {
-		return result, err
-	}
-
-	if err := assertEq([]byte("PLAN HANDLE"), tkt.GetStatementHandle()); err != nil {
-		return result, fmt.Errorf("%w: unexpected ticket in CancelQuery", err)
-	}
-
-	result.Status = flight.CancelStatusCancelled
-	return result, nil
-}
-
-func (m *flightSqlScenarioTester) EndSavepoint(_ context.Context, request flightsql.ActionEndSavepointRequest) error {
-	switch request.GetAction() {
-	case flightsql.EndSavepointRelease, flightsql.EndSavepointRollback:
-		if err := assertEq([]byte(savepointID), request.GetSavepointId()); err != nil {
-			return fmt.Errorf("%w: unexpected savepoint ID in EndSavepoint", err)
-		}
-		return nil
-	}
-
-	return fmt.Errorf("%w: unknown action %v", arrow.ErrInvalid, request.GetAction())
-}
-
-func (m *flightSqlScenarioTester) EndTransaction(_ context.Context, request flightsql.ActionEndTransactionRequest) error {
-	switch request.GetAction() {
-	case flightsql.EndTransactionCommit, flightsql.EndTransactionRollback:
-		if err := assertEq([]byte(transactionID), request.GetTransactionId()); err != nil {
-			return fmt.Errorf("%w: unexpected transaction ID in EndTransaction", err)
-		}
-		return nil
-	}
-
-	return fmt.Errorf("%w: unknown action %v", arrow.ErrInvalid, request.GetAction())
-}
-
-// schema to be returned for mocking the statement/prepared statement results
-func getQuerySchema() *arrow.Schema {
-	return arrow.NewSchema([]arrow.Field{
-		{Name: "id", Type: arrow.PrimitiveTypes.Int64, Nullable: true,
-			Metadata: *flightsql.NewColumnMetadataBuilder().
-				TableName("test").
-				IsAutoIncrement(true).
-				IsCaseSensitive(false).
-				TypeName("type_test").
-				SchemaName("schema_test").
-				IsSearchable(true).
-				CatalogName("catalog_test").
-				Precision(100).
-				Build().Data}}, nil)
-}
-
-func getQueryWithTransactionSchema() *arrow.Schema {
-	return arrow.NewSchema([]arrow.Field{
-		{Name: "pkey", Type: arrow.PrimitiveTypes.Int32, Nullable: true,
-			Metadata: *flightsql.NewColumnMetadataBuilder().
-				TableName("test").
-				IsAutoIncrement(true).
-				IsCaseSensitive(false).
-				TypeName("type_test").
-				SchemaName("schema_test").
-				IsSearchable(true).
-				CatalogName("catalog_test").
-				Precision(100).Build().Data}}, nil)
-}
-
-const (
-	substraitPlanText    = "plan"
-	substraitPlanVersion = "version"
-	selectStatement      = "SELECT STATEMENT"
-	savepointID          = "savepoint_id"
-	savepointName        = "savepoint_name"
-	transactionID        = "transaction_id"
-)
-
-var substraitPlan = flightsql.SubstraitPlan{
-	Plan: []byte(substraitPlanText), Version: substraitPlanVersion}
-
-type flightSqlExtensionScenarioTester struct {
-	flightSqlScenarioTester
-}
-
-func (m *flightSqlExtensionScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flightsql.NewClient(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	if err := m.ValidateMetadataRetrieval(client); err != nil {
-		return err
-	}
-
-	if err := m.ValidateStatementExecution(client); err != nil {
-		return err
-	}
-	if err := m.ValidatePreparedStatementExecution(client); err != nil {
-		return err
-	}
-
-	return m.ValidateTransactions(client)
-}
-
-func (m *flightSqlExtensionScenarioTester) ValidateMetadataRetrieval(client *flightsql.Client) error {
-	sqlInfo := []flightsql.SqlInfo{
-		flightsql.SqlInfoFlightSqlServerSql,
-		flightsql.SqlInfoFlightSqlServerSubstrait,
-		flightsql.SqlInfoFlightSqlServerSubstraitMinVersion,
-		flightsql.SqlInfoFlightSqlServerSubstraitMaxVersion,
-		flightsql.SqlInfoFlightSqlServerTransaction,
-		flightsql.SqlInfoFlightSqlServerCancel,
-		flightsql.SqlInfoFlightSqlServerStatementTimeout,
-		flightsql.SqlInfoFlightSqlServerTransactionTimeout,
-	}
-	ctx := context.Background()
-
-	info, err := client.GetSqlInfo(ctx, sqlInfo)
-	if err != nil {
-		return err
-	}
-
-	rdr, err := client.DoGet(ctx, info.Endpoint[0].Ticket)
-	if err != nil {
-		return err
-	}
-	defer rdr.Release()
-
-	actualSchema := rdr.Schema()
-	if !schema_ref.SqlInfo.Equal(actualSchema) {
-		return fmt.Errorf("%w: schemas did not match. expected: %s\n got: %s",
-			arrow.ErrInvalid, schema_ref.SqlInfo, actualSchema)
-	}
-
-	infoValues := make(flightsql.SqlInfoResultMap)
-	for rdr.Next() {
-		rec := rdr.Record()
-		names, values := rec.Column(0).(*array.Uint32), rec.Column(1).(*array.DenseUnion)
-
-		for i := 0; i < int(rec.NumRows()); i++ {
-			code := names.Value(i)
-			if _, ok := infoValues[code]; ok {
-				return fmt.Errorf("%w: duplicate SqlInfo value %d", arrow.ErrInvalid, code)
-			}
-
-			switch values.TypeCode(i) {
-			case 0: // string
-				infoValues[code] = values.Field(0).(*array.String).
-					Value(int(values.ValueOffset(i)))
-			case 1: // bool
-				infoValues[code] = values.Field(1).(*array.Boolean).
-					Value(int(values.ValueOffset(i)))
-			case 2: // int64
-				infoValues[code] = values.Field(2).(*array.Int64).
-					Value(int(values.ValueOffset(i)))
-			case 3: // int32
-				infoValues[code] = values.Field(3).(*array.Int32).
-					Value(int(values.ValueOffset(i)))
-			default:
-				return fmt.Errorf("%w: decoding SqlInfoResult of type code %d",
-					arrow.ErrNotImplemented, values.TypeCode(i))
-			}
-		}
-	}
-
-	if rdr.Err() != nil {
-		return rdr.Err()
-	}
-
-	for k, v := range infoValues {
-		switch k {
-		case uint32(flightsql.SqlInfoFlightSqlServerSql):
-			if err := assertEq(false, v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerSubstrait):
-			if err := assertEq(true, v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerSubstraitMinVersion):
-			if err := assertEq("min_version", v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerSubstraitMaxVersion):
-			if err := assertEq("max_version", v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerTransaction):
-			if err := assertEq(int32(flightsql.SqlTransactionSavepoint), v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerCancel):
-			if err := assertEq(true, v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerStatementTimeout):
-			if err := assertEq(int32(42), v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		case uint32(flightsql.SqlInfoFlightSqlServerTransactionTimeout):
-			if err := assertEq(int32(7), v); err != nil {
-				return fmt.Errorf("%w: %v did not match", err, k)
-			}
-		}
-
-	}
-
-	return nil
-}
-
-func (m *flightSqlExtensionScenarioTester) ValidateStatementExecution(client *flightsql.Client) error {
-	ctx := context.Background()
-	info, err := client.ExecuteSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-	if err := m.validate(getQuerySchema(), info, client); err != nil {
-		return err
-	}
-
-	schema, err := client.GetExecuteSubstraitSchema(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validateSchema(getQuerySchema(), schema); err != nil {
-		return err
-	}
-
-	info, err = client.ExecuteSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	//lint:ignore SA1019 for backward compatibility
-	cancelResult, err := client.CancelQuery(ctx, info)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(flightsql.CancelResultCancelled, cancelResult); err != nil {
-		return fmt.Errorf("%w: wrong cancel result", err)
-	}
-
-	updatedRows, err := client.ExecuteSubstraitUpdate(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(updateStatementExpectedRows, updatedRows); err != nil {
-		return fmt.Errorf("%w: wrong number of updated rows for ExecuteSubstraitUpdate", err)
-	}
-
-	return nil
-}
-
-func (m *flightSqlExtensionScenarioTester) ValidatePreparedStatementExecution(client *flightsql.Client) error {
-	arr, _, _ := array.FromJSON(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64, strings.NewReader("[1]"))
-	defer arr.Release()
-	params := array.NewRecord(getQuerySchema(), []arrow.Array{arr}, 1)
-	defer params.Release()
-
-	ctx := context.Background()
-	stmt, err := client.PrepareSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	stmt.SetParameters(params)
-	info, err := stmt.Execute(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validate(getQuerySchema(), info, client); err != nil {
-		return err
-	}
-
-	schema, err := stmt.GetSchema(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validateSchema(getQuerySchema(), schema); err != nil {
-		return err
-	}
-
-	if err := stmt.Close(ctx); err != nil {
-		return err
-	}
-
-	updateStmt, err := client.PrepareSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	updatedRows, err := updateStmt.ExecuteUpdate(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(updatePreparedStatementExpectedRows, updatedRows); err != nil {
-		return err
-	}
-
-	return updateStmt.Close(ctx)
-}
-
-func (m *flightSqlExtensionScenarioTester) ValidateTransactions(client *flightsql.Client) error {
-	ctx := context.Background()
-	txn, err := client.BeginTransaction(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq([]byte(transactionID), []byte(txn.ID())); err != nil {
-		return err
-	}
-
-	sp, err := txn.BeginSavepoint(ctx, savepointName)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq([]byte(savepointID), []byte(sp)); err != nil {
-		return err
-	}
-
-	info, err := txn.Execute(ctx, selectStatement)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validate(getQueryWithTransactionSchema(), info, client); err != nil {
-		return err
-	}
-
-	info, err = txn.ExecuteSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validate(getQueryWithTransactionSchema(), info, client); err != nil {
-		return err
-	}
-
-	schema, err := txn.GetExecuteSchema(ctx, selectStatement)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validateSchema(getQueryWithTransactionSchema(), schema); err != nil {
-		return err
-	}
-
-	schema, err = txn.GetExecuteSubstraitSchema(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validateSchema(getQueryWithTransactionSchema(), schema); err != nil {
-		return err
-	}
-
-	updated, err := txn.ExecuteUpdate(ctx, "UPDATE STATEMENT")
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(updateStatementWithTransactionExpectedRows, updated); err != nil {
-		return err
-	}
-
-	updated, err = txn.ExecuteSubstraitUpdate(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(updateStatementWithTransactionExpectedRows, updated); err != nil {
-		return err
-	}
-
-	arr, _, _ := array.FromJSON(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64, strings.NewReader("[1]"))
-	defer arr.Release()
-	params := array.NewRecord(getQuerySchema(), []arrow.Array{arr}, 1)
-	defer params.Release()
-
-	prepared, err := txn.Prepare(ctx, "SELECT PREPARED STATEMENT")
-	if err != nil {
-		return err
-	}
-	prepared.SetParameters(params)
-
-	info, err = prepared.Execute(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validate(getQueryWithTransactionSchema(), info, client); err != nil {
-		return err
-	}
-
-	schema, err = prepared.GetSchema(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validateSchema(getQueryWithTransactionSchema(), schema); err != nil {
-		return err
-	}
-
-	if err := prepared.Close(ctx); err != nil {
-		return err
-	}
-
-	prepared, err = txn.PrepareSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-	prepared.SetParameters(params)
-
-	info, err = prepared.Execute(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validate(getQueryWithTransactionSchema(), info, client); err != nil {
-		return err
-	}
-
-	schema, err = prepared.GetSchema(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := m.validateSchema(getQueryWithTransactionSchema(), schema); err != nil {
-		return err
-	}
-
-	if err := prepared.Close(ctx); err != nil {
-		return err
-	}
-
-	prepared, err = txn.Prepare(ctx, "UPDATE PREPARED STATEMENT")
-	if err != nil {
-		return err
-	}
-
-	updated, err = prepared.ExecuteUpdate(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(updatePreparedStatementWithTransactionExpectedRows, updated); err != nil {
-		return err
-	}
-
-	if err := prepared.Close(ctx); err != nil {
-		return err
-	}
-
-	prepared, err = txn.PrepareSubstrait(ctx, substraitPlan)
-	if err != nil {
-		return err
-	}
-
-	updated, err = prepared.ExecuteUpdate(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq(updatePreparedStatementWithTransactionExpectedRows, updated); err != nil {
-		return err
-	}
-
-	if err := prepared.Close(ctx); err != nil {
-		return err
-	}
-
-	if err := txn.RollbackSavepoint(ctx, sp); err != nil {
-		return err
-	}
-
-	sp2, err := txn.BeginSavepoint(ctx, savepointName)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq([]byte(savepointID), []byte(sp2)); err != nil {
-		return err
-	}
-
-	if err := txn.ReleaseSavepoint(ctx, sp); err != nil {
-		return err
-	}
-
-	if err := txn.Commit(ctx); err != nil {
-		return err
-	}
-
-	txn, err = client.BeginTransaction(ctx)
-	if err != nil {
-		return err
-	}
-
-	if err := assertEq([]byte(transactionID), []byte(txn.ID())); err != nil {
-		return err
-	}
-
-	return txn.Rollback(ctx)
-}
-
-type sessionOptionsScenarioTester struct {
-	flightsql.BaseServer
-}
-
-func (tester *sessionOptionsScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware([]flight.ServerMiddleware{
-		flight.CreateServerMiddleware(session.NewServerSessionMiddleware(nil)),
-	})
-
-	srv.RegisterFlightService(flightsql.NewFlightServer(tester))
-	initServer(port, srv)
-	return srv
-}
-
-func (tester *sessionOptionsScenarioTester) SetSessionOptions(ctx context.Context, req *flight.SetSessionOptionsRequest) (*flight.SetSessionOptionsResult, error) {
-	session, err := session.GetSessionFromContext(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	errors := make(map[string]*flight.SetSessionOptionsResultError)
-	for key, val := range req.GetSessionOptions() {
-		if key == "lol_invalid" {
-			errors[key] = &flight.SetSessionOptionsResultError{Value: flight.SetSessionOptionsResultErrorInvalidName}
-			continue
-		}
-		if val.GetStringValue() == "lol_invalid" {
-			errors[key] = &flight.SetSessionOptionsResultError{Value: flight.SetSessionOptionsResultErrorInvalidValue}
-			continue
-		}
-
-		session.SetSessionOption(key, val)
-	}
-
-	return &flight.SetSessionOptionsResult{Errors: errors}, nil
-}
-
-func (tester *sessionOptionsScenarioTester) GetSessionOptions(ctx context.Context, req *flight.GetSessionOptionsRequest) (*flight.GetSessionOptionsResult, error) {
-	session, err := session.GetSessionFromContext(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	return &flight.GetSessionOptionsResult{SessionOptions: session.GetSessionOptions()}, nil
-}
-
-func (tester *sessionOptionsScenarioTester) CloseSession(ctx context.Context, req *flight.CloseSessionRequest) (*flight.CloseSessionResult, error) {
-	session, err := session.GetSessionFromContext(ctx)
-	if err != nil {
-		return nil, err
-	}
-
-	if err = session.Close(); err != nil {
-		return nil, err
-	}
-
-	return &flight.CloseSessionResult{Status: flight.CloseSessionResultClosed}, nil
-}
-
-func (tester *sessionOptionsScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	middleware := []flight.ClientMiddleware{
-		flight.NewClientCookieMiddleware(),
-	}
-	client, err := flight.NewClientWithMiddleware(addr, nil, middleware, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	// Run validations in order. We are changing session state in each step, so order is made explicit.
-	ctx := context.Background()
-	if err = tester.ValidateFirstGetSessionOptions(ctx, client); err != nil {
-		return err
-	}
-
-	if err = tester.ValidateSecondSetSessionOptions(ctx, client); err != nil {
-		return err
-	}
-
-	if err = tester.ValidateThirdGetSessionOptions(ctx, client); err != nil {
-		return err
-	}
-
-	if err = tester.ValidateFourthRemoveOption(ctx, client); err != nil {
-		return err
-	}
-
-	if err = tester.ValidateFifthGetSessionOptions(ctx, client); err != nil {
-		return err
-	}
-
-	if err = tester.ValidateSixthCloseSession(ctx, client); err != nil {
-		return err
-	}
-
-	// C++ impl currently fails with "Invalid or expired arrow_flight_session_id cookie", likely related to GH-39791
-	// if err = tester.ValidateSeventhGetSessionOptions(ctx, client); err != nil {
-	// 	return err
-	// }
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateFirstGetSessionOptions(ctx context.Context, client flight.Client) error {
-	res, err := client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	if err != nil {
-		return err
-	}
-
-	opts := res.GetSessionOptions()
-	if len(opts) != 0 {
-		return fmt.Errorf("expected new session to be empty, but found %d options already set", len(opts))
-	}
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateSecondSetSessionOptions(ctx context.Context, client flight.Client) error {
-	opts, err := flight.NewSessionOptionValues(map[string]any{
-		"foolong":                int64(123),
-		"bardouble":              456.0,
-		"lol_invalid":            "this won't get set",
-		"key_with_invalid_value": "lol_invalid",
-		"big_ol_string_list":     []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	})
-	if err != nil {
-		return err
-	}
-
-	res, err := client.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: opts})
-	if err != nil {
-		return err
-	}
-
-	expectedErrs := map[string]*flight.SetSessionOptionsResultError{
-		"lol_invalid":            {Value: flight.SetSessionOptionsResultErrorInvalidName},
-		"key_with_invalid_value": {Value: flight.SetSessionOptionsResultErrorInvalidValue},
-	}
-
-	errs := res.GetErrors()
-	if len(errs) != len(expectedErrs) {
-		return fmt.Errorf("errors expected: %d, got: %d", len(expectedErrs), len(errs))
-	}
-
-	for key, val := range errs {
-		if !reflect.DeepEqual(val, expectedErrs[key]) {
-			return fmt.Errorf("error mismatch for key %s. expected: %s, got: %s", key, expectedErrs[key], val)
-		}
-	}
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateThirdGetSessionOptions(ctx context.Context, client flight.Client) error {
-	res, err := client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	if err != nil {
-		return err
-	}
-
-	expectedOpts, err := flight.NewSessionOptionValues(map[string]any{
-		"foolong":            int64(123),
-		"bardouble":          456.0,
-		"big_ol_string_list": []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	})
-	if err != nil {
-		return err
-	}
-
-	opts := res.GetSessionOptions()
-	if len(opts) != len(expectedOpts) {
-		return fmt.Errorf("options expected: %d, got: %d", len(expectedOpts), len(opts))
-	}
-
-	for key, val := range opts {
-		if !reflect.DeepEqual(val, expectedOpts[key]) {
-			return fmt.Errorf("session options mismatch for key %s. expected: %s, got: %s", key, expectedOpts[key], val)
-		}
-	}
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateFourthRemoveOption(ctx context.Context, client flight.Client) error {
-	opts, err := flight.NewSessionOptionValues(map[string]any{
-		"foolong": nil,
-	})
-	if err != nil {
-		return err
-	}
-
-	res, err := client.SetSessionOptions(ctx, &flight.SetSessionOptionsRequest{SessionOptions: opts})
-	if err != nil {
-		return err
-	}
-
-	errs := res.GetErrors()
-	if len(errs) != 0 {
-		return fmt.Errorf("errors expected: %d, got: %d", 0, len(errs))
-	}
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateFifthGetSessionOptions(ctx context.Context, client flight.Client) error {
-	res, err := client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	if err != nil {
-		return err
-	}
-
-	expectedOpts, err := flight.NewSessionOptionValues(map[string]any{
-		"bardouble":          456.0,
-		"big_ol_string_list": []string{"a", "b", "sea", "dee", " ", "  ", "geee", "(づ｡◕‿‿◕｡)づ"},
-	})
-	if err != nil {
-		return err
-	}
-
-	opts := res.GetSessionOptions()
-	if len(opts) != len(expectedOpts) {
-		return fmt.Errorf("options expected: %d, got: %d", len(expectedOpts), len(opts))
-	}
-
-	for key, val := range opts {
-		if !reflect.DeepEqual(val, expectedOpts[key]) {
-			return fmt.Errorf("session options mismatch for key %s. expected: %s, got: %s", key, expectedOpts[key], val)
-		}
-	}
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateSixthCloseSession(ctx context.Context, client flight.Client) error {
-	res, err := client.CloseSession(ctx, &flight.CloseSessionRequest{})
-	if err != nil {
-		return err
-	}
-
-	if res.GetStatus() != flight.CloseSessionResultClosed {
-		return fmt.Errorf("expected session to successfully close, but found status: %s", res.GetStatus())
-	}
-
-	return nil
-}
-
-func (tester *sessionOptionsScenarioTester) ValidateSeventhGetSessionOptions(ctx context.Context, client flight.Client) error {
-	res, err := client.GetSessionOptions(ctx, &flight.GetSessionOptionsRequest{})
-	if err != nil {
-		return err
-	}
-
-	opts := res.GetSessionOptions()
-	if len(opts) != 0 {
-		return fmt.Errorf("expected new session to be empty, but found %d options already set", len(opts))
-	}
-
-	return nil
-}
-
-type flightSqlIngestionScenarioTester struct {
-	flightsql.BaseServer
-}
-
-func (m *flightSqlIngestionScenarioTester) MakeServer(port int) flight.Server {
-	srv := flight.NewServerWithMiddleware(nil)
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerBulkIngestion, true)
-	m.RegisterSqlInfo(flightsql.SqlInfoFlightSqlServerIngestTransactionsSupported, true)
-
-	srv.RegisterFlightService(flightsql.NewFlightServer(m))
-	initServer(port, srv)
-	return srv
-}
-
-func (m *flightSqlIngestionScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
-	client, err := flightsql.NewClient(addr, nil, nil, opts...)
-	if err != nil {
-		return err
-	}
-	defer client.Close()
-
-	return m.ValidateIngestion(client)
-}
-
-func (m *flightSqlIngestionScenarioTester) ValidateIngestion(client *flightsql.Client) error {
-	ctx := context.Background()
-	opts := getIngestOptions()
-	ingestResult, err := client.ExecuteIngest(ctx, getIngestRecords(), opts)
-	if err != nil {
-		return err
-	}
-	if ingestResult != ingestStatementExpectedRows {
-		return fmt.Errorf("expected ingest return %d got %d", ingestStatementExpectedRows, ingestResult)
-	}
-	return nil
-}
-
-func (m *flightSqlIngestionScenarioTester) DoPutCommandStatementIngest(ctx context.Context, cmd flightsql.StatementIngest, rdr flight.MessageReader) (int64, error) {
-	expectedSchema := getIngestSchema()
-	expectedOpts := getIngestOptions()
-
-	if err := assertEq(expectedOpts.TableDefinitionOptions.IfExists, cmd.GetTableDefinitionOptions().IfExists); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(expectedOpts.TableDefinitionOptions.IfNotExist, cmd.GetTableDefinitionOptions().IfNotExist); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(expectedOpts.Table, cmd.GetTable()); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(*expectedOpts.Schema, cmd.GetSchema()); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(*expectedOpts.Catalog, cmd.GetCatalog()); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(expectedOpts.Temporary, cmd.GetTemporary()); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(expectedOpts.TransactionId, cmd.GetTransactionId()); err != nil {
-		return 0, err
-	}
-
-	if err := assertEq(expectedOpts.Options, cmd.GetOptions()); err != nil {
-		return 0, err
-	}
-
-	var nRecords int64
-	for rdr.Next() {
-		rec := rdr.Record()
-		nRecords += rec.NumRows()
-
-		if err := assertEq(true, expectedSchema.Equal(rec.Schema())); err != nil {
-			return 0, err
-		}
-	}
-
-	return nRecords, nil
-}
-
-// Options to assert before/after mocked ingest call
-func getIngestOptions() *flightsql.ExecuteIngestOpts {
-	tableDefinitionOptions := flightsql.TableDefinitionOptions{
-		IfNotExist: flightsql.TableDefinitionOptionsTableNotExistOptionCreate,
-		IfExists:   flightsql.TableDefinitionOptionsTableExistsOptionReplace,
-	}
-	table := "test_table"
-	schema := "test_schema"
-	catalog := "test_catalog"
-	temporary := true
-	transactionId := []byte("123")
-	options := map[string]string{
-		"key1": "val1",
-		"key2": "val2",
-	}
-
-	return &flightsql.ExecuteIngestOpts{
-		TableDefinitionOptions: &tableDefinitionOptions,
-		Table:                  table,
-		Schema:                 &schema,
-		Catalog:                &catalog,
-		Temporary:              temporary,
-		TransactionId:          transactionId,
-		Options:                options,
-	}
-}
-
-// Schema for ingest records; asserted on records received by handler
-func getIngestSchema() *arrow.Schema {
-	return arrow.NewSchema([]arrow.Field{{Name: "test_field", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
-}
-
-// Prepare records for ingestion with known length and schema
-func getIngestRecords() array.RecordReader {
-	schema := getIngestSchema()
-
-	arr := array.MakeArrayOfNull(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64, int(ingestStatementExpectedRows))
-	defer arr.Release()
-
-	rec := array.NewRecord(schema, []arrow.Array{arr}, ingestStatementExpectedRows)
-	defer rec.Release()
-
-	rdr, _ := array.NewRecordReader(schema, []arrow.Record{rec})
-
-	return rdr
-}
diff --git a/go/arrow/internal/testing/gen/random_array_gen.go b/go/arrow/internal/testing/gen/random_array_gen.go
deleted file mode 100644
index b4623bc4c3596..0000000000000
--- a/go/arrow/internal/testing/gen/random_array_gen.go
+++ /dev/null
@@ -1,594 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package gen
-
-import (
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/exp/rand"
-	"gonum.org/v1/gonum/stat/distuv"
-)
-
-// RandomArrayGenerator is a struct used for constructing Random Arrow arrays
-// for use with testing.
-type RandomArrayGenerator struct {
-	seed     uint64
-	extra    uint64
-	src      rand.Source
-	seedRand *rand.Rand
-	mem      memory.Allocator
-}
-
-// NewRandomArrayGenerator constructs a new generator with the requested Seed
-func NewRandomArrayGenerator(seed uint64, mem memory.Allocator) RandomArrayGenerator {
-	src := rand.NewSource(seed)
-	return RandomArrayGenerator{seed, 0, src, rand.New(src), mem}
-}
-
-// GenerateBitmap generates a bitmap of n bits and stores it into buffer. Prob is the probability
-// that a given bit will be zero, with 1-prob being the probability it will be 1. The return value
-// is the number of bits that were left unset. The assumption being that buffer is currently
-// zero initialized as this function does not clear any bits, it only sets 1s.
-func (r *RandomArrayGenerator) GenerateBitmap(buffer []byte, n int64, prob float64) int64 {
-	count := int64(0)
-	r.extra++
-
-	// bernoulli distribution uses P to determine the probability of a 0 or a 1,
-	// which we'll use to generate the bitmap.
-	dist := distuv.Bernoulli{P: 1 - prob, Src: rand.NewSource(r.seed + r.extra)}
-	for i := 0; int64(i) < n; i++ {
-		if dist.Rand() != float64(0.0) {
-			bitutil.SetBit(buffer, i)
-		} else {
-			count++
-		}
-	}
-
-	return count
-}
-
-func (r *RandomArrayGenerator) Boolean(size int64, prob, nullProb float64) arrow.Array {
-	buffers := make([]*memory.Buffer, 2)
-	nullcount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(r.mem)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	defer buffers[0].Release()
-	nullcount = r.GenerateBitmap(buffers[0].Bytes(), size, nullProb)
-
-	buffers[1] = memory.NewResizableBuffer(r.mem)
-	buffers[1].Resize(int(bitutil.BytesForBits(size)))
-	defer buffers[1].Release()
-	r.GenerateBitmap(buffers[1].Bytes(), size, prob)
-
-	data := array.NewData(arrow.FixedWidthTypes.Boolean, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewBooleanData(data)
-}
-
-func (r *RandomArrayGenerator) baseGenPrimitive(size int64, prob float64, byteWidth int) ([]*memory.Buffer, int64) {
-	buffers := make([]*memory.Buffer, 2)
-	nullCount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(r.mem)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	nullCount = r.GenerateBitmap(buffers[0].Bytes(), size, prob)
-
-	buffers[1] = memory.NewResizableBuffer(r.mem)
-	buffers[1].Resize(int(size) * byteWidth)
-
-	return buffers, nullCount
-}
-
-func (r *RandomArrayGenerator) Int8(size int64, min, max int8, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Int8SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int8Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = int8(dist.Intn(int(max)-int(min+1))) + min
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Int8, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewInt8Data(data)
-}
-
-func (r *RandomArrayGenerator) Uint8(size int64, min, max uint8, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Uint8SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Uint8Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = uint8(dist.Intn(int(max)-int(min)+1)) + min
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Uint8, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewUint8Data(data)
-}
-
-func (r *RandomArrayGenerator) Int16(size int64, min, max int16, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Int16SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int16Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = int16(dist.Intn(int(max)-int(min)+1)) + min
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Int16, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewInt16Data(data)
-}
-
-func (r *RandomArrayGenerator) Uint16(size int64, min, max uint16, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Uint16SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Uint16Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = uint16(dist.Intn(int(max)-int(min)+1)) + min
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Uint16, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewUint16Data(data)
-}
-
-func (r *RandomArrayGenerator) Int32(size int64, min, max int32, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Int32SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int32Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = int32(dist.Intn(int(max)-int(min)+1)) + min
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Int32, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewInt32Data(data)
-}
-
-func (r *RandomArrayGenerator) Uint32(size int64, min, max uint32, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Uint32SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Uint32Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = uint32(dist.Uint64n(uint64(max)-uint64(min)+1)) + min
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Uint32, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewUint32Data(data)
-}
-
-func (r *RandomArrayGenerator) Int64(size int64, min, max int64, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Int64SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int64Traits.CastFromBytes(buffers[1].Bytes())
-	if max == math.MaxInt64 && min == math.MinInt64 {
-		for i := int64(0); i < size; i++ {
-			out[i] = int64(dist.Uint64())
-		}
-	} else {
-		for i := int64(0); i < size; i++ {
-			out[i] = dist.Int63n(max-min+1) + min
-		}
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Int64, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewInt64Data(data)
-}
-
-func (r *RandomArrayGenerator) Uint64(size int64, min, max uint64, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Uint64SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Uint64Traits.CastFromBytes(buffers[1].Bytes())
-	if max == math.MaxUint64 {
-		for i := int64(0); i < size; i++ {
-			out[i] = dist.Uint64() + min
-		}
-	} else {
-		for i := int64(0); i < size; i++ {
-			out[i] = dist.Uint64n(max-min+1) + min
-		}
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Uint64, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewUint64Data(data)
-}
-
-func (r *RandomArrayGenerator) Float32(size int64, min, max float32, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Float32SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Float32Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = min + dist.Float32()*(max+1-min)
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Float32, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewFloat32Data(data)
-}
-
-func (r *RandomArrayGenerator) Float64(size int64, min, max float64, prob float64) arrow.Array {
-	buffers, nullcount := r.baseGenPrimitive(size, prob, arrow.Float64SizeBytes)
-	for _, b := range buffers {
-		defer b.Release()
-	}
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Float64Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = dist.NormFloat64() + (max - min)
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Float64, int(size), buffers, nil, int(nullcount), 0)
-	defer data.Release()
-	return array.NewFloat64Data(data)
-}
-
-func (r *RandomArrayGenerator) String(size int64, minLength, maxLength int, nullprob float64) arrow.Array {
-	lengths := r.Int32(size, int32(minLength), int32(maxLength), nullprob).(*array.Int32)
-	defer lengths.Release()
-
-	bldr := array.NewStringBuilder(r.mem)
-	defer bldr.Release()
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-
-	buf := make([]byte, 0, maxLength)
-	gen := func(n int32) string {
-		out := buf[:n]
-		for i := range out {
-			out[i] = uint8(dist.Int31n(int32('z')-int32('A')+1) + int32('A'))
-		}
-		return string(out)
-	}
-
-	for i := 0; i < lengths.Len(); i++ {
-		if lengths.IsValid(i) {
-			bldr.Append(gen(lengths.Value(i)))
-		} else {
-			bldr.AppendNull()
-		}
-	}
-
-	return bldr.NewArray()
-}
-
-func (r *RandomArrayGenerator) LargeString(size int64, minLength, maxLength int64, nullprob float64) arrow.Array {
-	lengths := r.Int64(size, minLength, maxLength, nullprob).(*array.Int64)
-	defer lengths.Release()
-
-	bldr := array.NewLargeStringBuilder(r.mem)
-	defer bldr.Release()
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-
-	buf := make([]byte, 0, maxLength)
-	gen := func(n int64) string {
-		out := buf[:n]
-		for i := range out {
-			out[i] = uint8(dist.Int63n(int64('z')-int64('A')+1) + int64('A'))
-		}
-		return string(out)
-	}
-
-	for i := 0; i < lengths.Len(); i++ {
-		if lengths.IsValid(i) {
-			bldr.Append(gen(lengths.Value(i)))
-		} else {
-			bldr.AppendNull()
-		}
-	}
-
-	return bldr.NewArray()
-}
-
-func (r *RandomArrayGenerator) StringView(size int64, minLength, maxLength int64, nullProb float64) arrow.Array {
-	return r.generateBinaryView(arrow.BinaryTypes.StringView, size, minLength, maxLength, nullProb)
-}
-
-func (r *RandomArrayGenerator) generateBinaryView(dt arrow.DataType, size int64, minLength, maxLength int64, nullProb float64) arrow.Array {
-	lengths := r.Int32(size, int32(minLength), int32(maxLength), nullProb).(*array.Int32)
-	defer lengths.Release()
-
-	bldr := array.NewBuilder(r.mem, dt).(array.StringLikeBuilder)
-	defer bldr.Release()
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-
-	buf := make([]byte, 0, maxLength)
-	gen := func(n int32) string {
-		out := buf[:n]
-		for i := range out {
-			out[i] = uint8(dist.Int31n(int32('z')-int32('A')+1) + int32('A'))
-		}
-		return string(out)
-	}
-
-	for i := 0; i < lengths.Len(); i++ {
-		if lengths.IsNull(i) {
-			bldr.AppendNull()
-			continue
-		}
-		bldr.Append(gen(lengths.Value(i)))
-	}
-
-	return bldr.NewArray()
-}
-
-func (r *RandomArrayGenerator) Numeric(dt arrow.Type, size int64, min, max int64, nullprob float64) arrow.Array {
-	switch dt {
-	case arrow.INT8:
-		return r.Int8(size, int8(min), int8(max), nullprob)
-	case arrow.UINT8:
-		return r.Uint8(size, uint8(min), uint8(max), nullprob)
-	case arrow.INT16:
-		return r.Int16(size, int16(min), int16(max), nullprob)
-	case arrow.UINT16:
-		return r.Uint16(size, uint16(min), uint16(max), nullprob)
-	case arrow.INT32:
-		return r.Int32(size, int32(min), int32(max), nullprob)
-	case arrow.UINT32:
-		return r.Uint32(size, uint32(min), uint32(max), nullprob)
-	case arrow.INT64:
-		return r.Int64(size, int64(min), int64(max), nullprob)
-	case arrow.UINT64:
-		return r.Uint64(size, uint64(min), uint64(max), nullprob)
-	case arrow.FLOAT32:
-		return r.Float32(size, float32(min), float32(max), nullprob)
-	case arrow.FLOAT64:
-		return r.Float64(size, float64(min), float64(max), nullprob)
-	}
-	panic("invalid type for random numeric array")
-}
-
-// Generate an array of random offsets based on a given sizes array for
-// list-view arrays.
-//
-// Pre-condition: every non-null sizes[i] <= valuesLength.
-func viewOffsetsFromLengthsArray32(
-	seed uint64, avgLength int32, valuesLength int32,
-	sizesArray *array.Int32, forceEmptyNulls bool,
-	zeroUndefinedOffsets bool) *memory.Buffer {
-	sizes := sizesArray.Int32Values()
-	offsets := make([]int32, sizesArray.Len())
-
-	offsetDeltaRand := rand.New(rand.NewSource(seed))
-	sampleOffset := func(offsetBase int32) int32 {
-		delta := int32(offsetDeltaRand.Int63n(2*int64(avgLength)) - int64(avgLength))
-		offset := offsetBase + delta
-		if offset < 0 {
-			return 0
-		}
-		return offset
-	}
-	offsetBase := int32(0)
-	for i := 0; i < sizesArray.Len(); i += 1 {
-		isNull := sizesArray.IsNull(i)
-		if forceEmptyNulls && isNull {
-			sizes[i] = 0
-		}
-		if zeroUndefinedOffsets && (isNull || sizes[i] == 0) {
-			offsets[i] = 0
-		} else {
-			offset := sampleOffset(offsetBase)
-			if offset > valuesLength-sizes[i] {
-				offset = valuesLength - sizes[i]
-			}
-			offsets[i] = offset
-		}
-		offsetBase += avgLength
-	}
-
-	return memory.NewBufferBytes(arrow.Int32Traits.CastToBytes(offsets))
-}
-
-// Generate an array of random offsets based on a given sizes array for
-// large list-view arrays.
-//
-// Pre-condition: every non-null sizes[i] <= valuesLength.
-func viewOffsetsFromLengthsArray64(
-	seed uint64, avgLength int64, valuesLength int64,
-	sizesArray *array.Int64, forceEmptyNulls bool,
-	zeroUndefinedOffsets bool) *memory.Buffer {
-	sizes := sizesArray.Int64Values()
-	offsets := make([]int64, sizesArray.Len())
-
-	offsetDeltaRand := rand.New(rand.NewSource(seed))
-	sampleOffset := func(offsetBase int64) int64 {
-		delta := int64(offsetDeltaRand.Int63n(2*avgLength) - avgLength)
-		offset := offsetBase + delta
-		if offset < 0 {
-			return 0
-		}
-		return offset
-	}
-	offsetBase := int64(0)
-	for i := 0; i < sizesArray.Len(); i += 1 {
-		isNull := sizesArray.IsNull(i)
-		if forceEmptyNulls && isNull {
-			sizes[i] = 0
-		}
-		if zeroUndefinedOffsets && (isNull || sizes[i] == 0) {
-			offsets[i] = 0
-		} else {
-			offset := sampleOffset(offsetBase)
-			if offset > valuesLength-sizes[i] {
-				offset = valuesLength - sizes[i]
-			}
-			offsets[i] = offset
-		}
-		offsetBase += avgLength
-	}
-
-	return memory.NewBufferBytes(arrow.Int64Traits.CastToBytes(offsets))
-}
-
-// Generate a random data for ListView or LargeListView arrays.
-func (r *RandomArrayGenerator) genListViewData(dt arrow.VarLenListLikeType, length int64,
-	minLength, maxLength int, nullprob float64,
-	forceEmptyNulls bool, zeroUndefinedOffsets bool) arrow.ArrayData {
-	offsetByteWidth := dt.Layout().Buffers[1].ByteWidth
-	var lengths arrow.Array
-	if offsetByteWidth == 4 {
-		lengths = r.Int32(length, int32(minLength), int32(maxLength), nullprob)
-	} else {
-		lengths = r.Int64(length, int64(minLength), int64(maxLength), nullprob)
-	}
-	defer lengths.Release()
-
-	// List-views don't have to be disjoint, so let's make the valuesLength a
-	// multiple of the average list-view size. To make sure every list view
-	// into the values array can fit, it should be at least maxLength.
-	avgLength := minLength + (maxLength-minLength)/2
-	valuesLength := int64(avgLength) * (length - int64(lengths.NullN()))
-	if valuesLength < int64(maxLength) {
-		valuesLength = int64(maxLength)
-	}
-	debug.Assert(offsetByteWidth == 8 || valuesLength < math.MaxInt32,
-		"valuesLength must be less than math.MaxInt32")
-
-	values := r.ArrayOf(dt.Elem().ID(), int64(valuesLength), 0.0)
-	defer values.Release()
-
-	var offsets *memory.Buffer
-	if offsetByteWidth == 4 {
-		lengths32 := lengths.(*array.Int32)
-		offsets = viewOffsetsFromLengthsArray32(r.seed, int32(avgLength), int32(valuesLength), lengths32,
-			forceEmptyNulls, zeroUndefinedOffsets)
-	} else {
-		lengths64 := lengths.(*array.Int64)
-		offsets = viewOffsetsFromLengthsArray64(r.seed, int64(avgLength), int64(valuesLength), lengths64,
-			forceEmptyNulls, zeroUndefinedOffsets)
-	}
-	defer offsets.Release()
-
-	buffers := []*memory.Buffer{
-		memory.NewBufferBytes(lengths.NullBitmapBytes()),
-		offsets,
-		memory.NewBufferBytes(lengths.Data().Buffers()[1].Bytes()),
-	}
-	childData := []arrow.ArrayData{values.Data()}
-	return array.NewData(dt, int(length), buffers, childData, int(lengths.NullN()), 0)
-}
-
-func (r *RandomArrayGenerator) ListView(dt arrow.VarLenListLikeType, length int64,
-	minLength, maxLength int32, nullprob float64) *array.ListView {
-	forceEmptyNulls := false
-	zeroUndefineOffsets := false
-	data := r.genListViewData(dt, length, int(minLength), int(maxLength), nullprob,
-		forceEmptyNulls, zeroUndefineOffsets)
-	defer data.Release()
-	return array.NewListViewData(data)
-}
-
-func (r *RandomArrayGenerator) LargeListView(dt arrow.VarLenListLikeType, length int64,
-	minLength, maxLength int64, nullprob float64) *array.LargeListView {
-	forceEmptyNulls := false
-	zeroUndefineOffsets := false
-	data := r.genListViewData(dt, length, int(minLength), int(maxLength), nullprob,
-		forceEmptyNulls, zeroUndefineOffsets)
-	defer data.Release()
-	return array.NewLargeListViewData(data)
-}
-
-func (r *RandomArrayGenerator) ArrayOf(dt arrow.Type, size int64, nullprob float64) arrow.Array {
-	switch dt {
-	case arrow.BOOL:
-		return r.Boolean(size, 0.50, nullprob)
-	case arrow.STRING:
-		return r.String(size, 0, 20, nullprob)
-	case arrow.LARGE_STRING:
-		return r.LargeString(size, 0, 20, nullprob)
-	case arrow.INT8:
-		return r.Int8(size, math.MinInt8, math.MaxInt8, nullprob)
-	case arrow.UINT8:
-		return r.Uint8(size, 0, math.MaxUint8, nullprob)
-	case arrow.INT16:
-		return r.Int16(size, math.MinInt16, math.MaxInt16, nullprob)
-	case arrow.UINT16:
-		return r.Uint16(size, 0, math.MaxUint16, nullprob)
-	case arrow.INT32:
-		return r.Int32(size, math.MinInt32, math.MaxInt32, nullprob)
-	case arrow.UINT32:
-		return r.Uint32(size, 0, math.MaxUint32, nullprob)
-	case arrow.INT64:
-		return r.Int64(size, math.MinInt64, math.MaxInt64, nullprob)
-	case arrow.UINT64:
-		return r.Uint64(size, 0, math.MaxUint64, nullprob)
-	case arrow.FLOAT32:
-		return r.Float32(size, -math.MaxFloat32, math.MaxFloat32, nullprob)
-	case arrow.FLOAT64:
-		return r.Float64(size, -math.MaxFloat64, math.MaxFloat64, nullprob)
-	}
-	panic("unimplemented ArrayOf type")
-}
diff --git a/go/arrow/internal/testing/tools/bits.go b/go/arrow/internal/testing/tools/bits.go
deleted file mode 100644
index ea6a5432e5c91..0000000000000
--- a/go/arrow/internal/testing/tools/bits.go
+++ /dev/null
@@ -1,40 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tools
-
-import "math/bits"
-
-// IntsToBitsLSB encodes ints as LSB 0 bit numbering per https://en.wikipedia.org/wiki/Bit_numbering#LSB_0_bit_numbering
-// The low bit of each nibble is tested, therefore integers should be written as 8-digit
-// hex numbers consisting of 1s or 0s.
-//
-//	IntsToBitsLSB(0x11001010) -> 0x35
-func IntsToBitsLSB(v ...int32) []byte {
-	res := make([]byte, 0, len(v))
-	for _, b := range v {
-		c := uint8(0)
-		for i := uint(0); i < 8; i++ {
-			if b&1 == 1 {
-				c |= 1 << i
-			}
-			b >>= 4
-		}
-		c = bits.Reverse8(c)
-		res = append(res, c)
-	}
-	return res
-}
diff --git a/go/arrow/internal/testing/tools/bits_test.go b/go/arrow/internal/testing/tools/bits_test.go
deleted file mode 100644
index 6897485e4c702..0000000000000
--- a/go/arrow/internal/testing/tools/bits_test.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tools_test
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/tools"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestIntsToBitsLSB(t *testing.T) {
-	tests := []struct {
-		in  int32
-		exp byte
-	}{
-		{0x11001010, 0x53},
-		{0x00001111, 0xf0},
-		{0x11110000, 0x0f},
-	}
-	for _, test := range tests {
-		t.Run(fmt.Sprintf("%08x", test.in), func(t *testing.T) {
-			got := tools.IntsToBitsLSB(test.in)
-			assert.Equal(t, []byte{test.exp}, got)
-		})
-	}
-}
diff --git a/go/arrow/internal/testing/tools/bool.go b/go/arrow/internal/testing/tools/bool.go
deleted file mode 100644
index 757a8f52811ab..0000000000000
--- a/go/arrow/internal/testing/tools/bool.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tools
-
-func Bools(v ...int) []bool {
-	res := make([]bool, len(v))
-	for i, b := range v {
-		res[i] = b != 0
-	}
-	return res
-}
diff --git a/go/arrow/internal/testing/tools/data_types.go b/go/arrow/internal/testing/tools/data_types.go
deleted file mode 100644
index 545e3f8bc3a2c..0000000000000
--- a/go/arrow/internal/testing/tools/data_types.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package tools
-
-import (
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"golang.org/x/exp/constraints"
-)
-
-var typMap = map[reflect.Type]arrow.DataType{
-	reflect.TypeOf(false):           arrow.FixedWidthTypes.Boolean,
-	reflect.TypeOf(int8(0)):         arrow.PrimitiveTypes.Int8,
-	reflect.TypeOf(int16(0)):        arrow.PrimitiveTypes.Int16,
-	reflect.TypeOf(int32(0)):        arrow.PrimitiveTypes.Int32,
-	reflect.TypeOf(int64(0)):        arrow.PrimitiveTypes.Int64,
-	reflect.TypeOf(uint8(0)):        arrow.PrimitiveTypes.Uint8,
-	reflect.TypeOf(uint16(0)):       arrow.PrimitiveTypes.Uint16,
-	reflect.TypeOf(uint32(0)):       arrow.PrimitiveTypes.Uint32,
-	reflect.TypeOf(uint64(0)):       arrow.PrimitiveTypes.Uint64,
-	reflect.TypeOf(float32(0)):      arrow.PrimitiveTypes.Float32,
-	reflect.TypeOf(float64(0)):      arrow.PrimitiveTypes.Float64,
-	reflect.TypeOf(string("")):      arrow.BinaryTypes.String,
-	reflect.TypeOf(arrow.Date32(0)): arrow.FixedWidthTypes.Date32,
-	reflect.TypeOf(arrow.Date64(0)): arrow.FixedWidthTypes.Date64,
-	reflect.TypeOf(true):            arrow.FixedWidthTypes.Boolean,
-	reflect.TypeOf(float16.Num{}):   arrow.FixedWidthTypes.Float16,
-	reflect.TypeOf([]byte{}):        arrow.BinaryTypes.Binary,
-}
-
-func GetDataType[T constraints.Integer | constraints.Float | bool | string | []byte | float16.Num]() arrow.DataType {
-	var z T
-	return typMap[reflect.TypeOf(z)]
-}
diff --git a/go/arrow/internal/utils.go b/go/arrow/internal/utils.go
deleted file mode 100644
index bafd0cf0f6926..0000000000000
--- a/go/arrow/internal/utils.go
+++ /dev/null
@@ -1,59 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package internal
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-)
-
-const CurMetadataVersion = flatbuf.MetadataVersionV5
-
-// DefaultHasValidityBitmap is a convenience function equivalent to
-// calling HasValidityBitmap with CurMetadataVersion.
-func DefaultHasValidityBitmap(id arrow.Type) bool { return HasValidityBitmap(id, CurMetadataVersion) }
-
-// HasValidityBitmap returns whether the given type at the provided version is
-// expected to have a validity bitmap in it's representation.
-//
-// Typically this is necessary because of the change between V4 and V5
-// where union types no longer have validity bitmaps.
-func HasValidityBitmap(id arrow.Type, version flatbuf.MetadataVersion) bool {
-	// in <=V4 Null types had no validity bitmap
-	// in >=V5 Null and Union types have no validity bitmap
-	if version < flatbuf.MetadataVersionV5 {
-		return id != arrow.NULL
-	}
-
-	switch id {
-	case arrow.NULL, arrow.DENSE_UNION, arrow.SPARSE_UNION, arrow.RUN_END_ENCODED:
-		return false
-	}
-	return true
-}
-
-// HasBufferSizesBuffer returns whether a given type has an extra buffer
-// in the C ABI to store the sizes of other buffers. Currently this is only
-// StringView and BinaryView.
-func HasBufferSizesBuffer(id arrow.Type) bool {
-	switch id {
-	case arrow.STRING_VIEW, arrow.BINARY_VIEW:
-		return true
-	default:
-		return false
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-cat/main.go b/go/arrow/ipc/cmd/arrow-cat/main.go
deleted file mode 100644
index 3e8d47a86c249..0000000000000
--- a/go/arrow/ipc/cmd/arrow-cat/main.go
+++ /dev/null
@@ -1,215 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Command arrow-cat displays the content of an Arrow stream or file.
-//
-// Examples:
-//
-//	$> arrow-cat ./testdata/primitives.data
-//	version: V4
-//	record 1/3...
-//	  col[0] "bools": [true (null) (null) false true]
-//	  col[1] "int8s": [-1 (null) (null) -4 -5]
-//	  col[2] "int16s": [-1 (null) (null) -4 -5]
-//	  col[3] "int32s": [-1 (null) (null) -4 -5]
-//	  col[4] "int64s": [-1 (null) (null) -4 -5]
-//	  col[5] "uint8s": [1 (null) (null) 4 5]
-//	  col[6] "uint16s": [1 (null) (null) 4 5]
-//	  col[7] "uint32s": [1 (null) (null) 4 5]
-//	  col[8] "uint64s": [1 (null) (null) 4 5]
-//	  col[9] "float32s": [1 (null) (null) 4 5]
-//	  col[10] "float64s": [1 (null) (null) 4 5]
-//	record 2/3...
-//	  col[0] "bools": [true (null) (null) false true]
-//	[...]
-//
-//	$> gen-arrow-stream | arrow-cat
-//	record 1...
-//	  col[0] "bools": [true (null) (null) false true]
-//	  col[1] "int8s": [-1 (null) (null) -4 -5]
-//	  col[2] "int16s": [-1 (null) (null) -4 -5]
-//	  col[3] "int32s": [-1 (null) (null) -4 -5]
-//	  col[4] "int64s": [-1 (null) (null) -4 -5]
-//	  col[5] "uint8s": [1 (null) (null) 4 5]
-//	  col[6] "uint16s": [1 (null) (null) 4 5]
-//	  col[7] "uint32s": [1 (null) (null) 4 5]
-//	  col[8] "uint64s": [1 (null) (null) 4 5]
-//	  col[9] "float32s": [1 (null) (null) 4 5]
-//	  col[10] "float64s": [1 (null) (null) 4 5]
-//	record 2...
-//	  col[0] "bools": [true (null) (null) false true]
-//	[...]
-package main
-
-import (
-	"bytes"
-	"errors"
-	"flag"
-	"fmt"
-	"io"
-	"log"
-	"os"
-
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func main() {
-	log.SetPrefix("arrow-cat: ")
-	log.SetFlags(0)
-
-	flag.Parse()
-
-	var err error
-	switch flag.NArg() {
-	case 0:
-		err = processStream(os.Stdout, os.Stdin)
-	default:
-		err = processFiles(os.Stdout, flag.Args())
-	}
-	if err != nil {
-		log.Fatal(err)
-	}
-}
-
-func processStream(w io.Writer, rin io.Reader) error {
-	mem := memory.NewGoAllocator()
-	for {
-		r, err := ipc.NewReader(rin, ipc.WithAllocator(mem))
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				break
-			}
-			return err
-		}
-
-		n := 0
-		for r.Next() {
-			n++
-			fmt.Fprintf(w, "record %d...\n", n)
-			rec := r.Record()
-			for i, col := range rec.Columns() {
-				fmt.Fprintf(w, "  col[%d] %q: %v\n", i, rec.ColumnName(i), col)
-			}
-		}
-		r.Release()
-	}
-	return nil
-}
-
-func processFiles(w io.Writer, names []string) error {
-	for _, name := range names {
-		err := processFile(w, name)
-		if err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func processFile(w io.Writer, fname string) error {
-
-	f, err := os.Open(fname)
-	if err != nil {
-		return err
-	}
-	defer f.Close()
-
-	hdr := make([]byte, len(ipc.Magic))
-	_, err = io.ReadFull(f, hdr)
-	if err != nil {
-		return fmt.Errorf("could not read file header: %w", err)
-	}
-	f.Seek(0, io.SeekStart)
-
-	if !bytes.Equal(hdr, ipc.Magic) {
-		// try as a stream.
-		return processStream(w, f)
-	}
-
-	mem := memory.NewGoAllocator()
-
-	r, err := ipc.NewFileReader(f, ipc.WithAllocator(mem))
-	if err != nil {
-		if errors.Is(err, io.EOF) {
-			return nil
-		}
-		return err
-	}
-	defer r.Close()
-
-	fmt.Fprintf(w, "version: %v\n", r.Version())
-	for i := 0; i < r.NumRecords(); i++ {
-		fmt.Fprintf(w, "record %d/%d...\n", i+1, r.NumRecords())
-		rec, err := r.Record(i)
-		if err != nil {
-			return err
-		}
-
-		for i, col := range rec.Columns() {
-			fmt.Fprintf(w, "  col[%d] %q: %v\n", i, rec.ColumnName(i), col)
-		}
-	}
-
-	return nil
-}
-
-func init() {
-	flag.Usage = func() {
-		fmt.Fprintf(os.Stderr, `Command arrow-cat displays the content of an Arrow stream or file.
-
-Usage: arrow-cat [OPTIONS] [FILE1 [FILE2 [...]]]
-
-Examples:
-
- $> arrow-cat ./testdata/primitives.data
- version: V4
- record 1/3...
-   col[0] "bools": [true (null) (null) false true]
-   col[1] "int8s": [-1 (null) (null) -4 -5]
-   col[2] "int16s": [-1 (null) (null) -4 -5]
-   col[3] "int32s": [-1 (null) (null) -4 -5]
-   col[4] "int64s": [-1 (null) (null) -4 -5]
-   col[5] "uint8s": [1 (null) (null) 4 5]
-   col[6] "uint16s": [1 (null) (null) 4 5]
-   col[7] "uint32s": [1 (null) (null) 4 5]
-   col[8] "uint64s": [1 (null) (null) 4 5]
-   col[9] "float32s": [1 (null) (null) 4 5]
-   col[10] "float64s": [1 (null) (null) 4 5]
- record 2/3...
-   col[0] "bools": [true (null) (null) false true]
- [...]
-
- $> gen-arrow-stream | arrow-cat
- record 1...
-   col[0] "bools": [true (null) (null) false true]
-   col[1] "int8s": [-1 (null) (null) -4 -5]
-   col[2] "int16s": [-1 (null) (null) -4 -5]
-   col[3] "int32s": [-1 (null) (null) -4 -5]
-   col[4] "int64s": [-1 (null) (null) -4 -5]
-   col[5] "uint8s": [1 (null) (null) 4 5]
-   col[6] "uint16s": [1 (null) (null) 4 5]
-   col[7] "uint32s": [1 (null) (null) 4 5]
-   col[8] "uint64s": [1 (null) (null) 4 5]
-   col[9] "float32s": [1 (null) (null) 4 5]
-   col[10] "float64s": [1 (null) (null) 4 5]
- record 2...
-   col[0] "bools": [true (null) (null) false true]
- [...]
-`)
-		os.Exit(0)
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-cat/main_test.go b/go/arrow/ipc/cmd/arrow-cat/main_test.go
deleted file mode 100644
index 904480ed374d4..0000000000000
--- a/go/arrow/ipc/cmd/arrow-cat/main_test.go
+++ /dev/null
@@ -1,573 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"bytes"
-	"fmt"
-	"io"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestCatStream(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for _, tc := range []struct {
-		name string
-		want string
-	}{
-		{
-			name: "primitives",
-			want: `record 1...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-1 (null) (null) -4 -5]
-  col[2] "int16s": [-1 (null) (null) -4 -5]
-  col[3] "int32s": [-1 (null) (null) -4 -5]
-  col[4] "int64s": [-1 (null) (null) -4 -5]
-  col[5] "uint8s": [1 (null) (null) 4 5]
-  col[6] "uint16s": [1 (null) (null) 4 5]
-  col[7] "uint32s": [1 (null) (null) 4 5]
-  col[8] "uint64s": [1 (null) (null) 4 5]
-  col[9] "float32s": [1 (null) (null) 4 5]
-  col[10] "float64s": [1 (null) (null) 4 5]
-record 2...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-11 (null) (null) -14 -15]
-  col[2] "int16s": [-11 (null) (null) -14 -15]
-  col[3] "int32s": [-11 (null) (null) -14 -15]
-  col[4] "int64s": [-11 (null) (null) -14 -15]
-  col[5] "uint8s": [11 (null) (null) 14 15]
-  col[6] "uint16s": [11 (null) (null) 14 15]
-  col[7] "uint32s": [11 (null) (null) 14 15]
-  col[8] "uint64s": [11 (null) (null) 14 15]
-  col[9] "float32s": [11 (null) (null) 14 15]
-  col[10] "float64s": [11 (null) (null) 14 15]
-record 3...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-21 (null) (null) -24 -25]
-  col[2] "int16s": [-21 (null) (null) -24 -25]
-  col[3] "int32s": [-21 (null) (null) -24 -25]
-  col[4] "int64s": [-21 (null) (null) -24 -25]
-  col[5] "uint8s": [21 (null) (null) 24 25]
-  col[6] "uint16s": [21 (null) (null) 24 25]
-  col[7] "uint32s": [21 (null) (null) 24 25]
-  col[8] "uint64s": [21 (null) (null) 24 25]
-  col[9] "float32s": [21 (null) (null) 24 25]
-  col[10] "float64s": [21 (null) (null) 24 25]
-`,
-		},
-		{
-			name: "structs",
-			want: `record 1...
-  col[0] "struct_nullable": {[-1 (null) (null) -4 -5 -11 (null) (null) -14 -15 -21 (null) (null) -24 -25 -31 (null) (null) -34 -35 -41 (null) (null) -44 -45] ["111" (null) (null) "444" "555" "1111" (null) (null) "1444" "1555" "2111" (null) (null) "2444" "2555" "3111" (null) (null) "3444" "3555" "4111" (null) (null) "4444" "4555"]}
-record 2...
-  col[0] "struct_nullable": {[1 (null) (null) 4 5 11 (null) (null) 14 15 21 (null) (null) 24 25 31 (null) (null) 34 35 41 (null) (null) 44 45] ["-111" (null) (null) "-444" "-555" "-1111" (null) (null) "-1444" "-1555" "-2111" (null) (null) "-2444" "-2555" "-3111" (null) (null) "-3444" "-3555" "-4111" (null) (null) "-4444" "-4555"]}
-`,
-		},
-		{
-			name: "lists",
-			want: `record 1...
-  col[0] "list_nullable": [[1 (null) (null) 4 5] [11 (null) (null) 14 15] [21 (null) (null) 24 25]]
-record 2...
-  col[0] "list_nullable": [[-1 (null) (null) -4 -5] [-11 (null) (null) -14 -15] [-21 (null) (null) -24 -25]]
-record 3...
-  col[0] "list_nullable": [[-1 (null) (null) -4 -5] (null) [-21 (null) (null) -24 -25]]
-record 4...
-  col[0] "list_nullable": []
-`,
-		},
-		{
-			name: "strings",
-			want: `record 1...
-  col[0] "strings": ["1é" (null) (null) "4" "5"]
-  col[1] "bytes": ["1é" (null) (null) "4" "5"]
-record 2...
-  col[0] "strings": ["11" (null) (null) "44" "55"]
-  col[1] "bytes": ["11" (null) (null) "44" "55"]
-record 3...
-  col[0] "strings": ["111" (null) (null) "444" "555"]
-  col[1] "bytes": ["111" (null) (null) "444" "555"]
-`,
-		},
-		{
-			name: "fixed_size_lists",
-			want: `record 1...
-  col[0] "fixed_size_list_nullable": [[1 (null) 3] [11 (null) 13] [21 (null) 23]]
-record 2...
-  col[0] "fixed_size_list_nullable": [[-1 (null) -3] [-11 (null) -13] [-21 (null) -23]]
-record 3...
-  col[0] "fixed_size_list_nullable": [[-1 (null) -3] (null) [-21 (null) -23]]
-`,
-		},
-		{
-			name: "fixed_width_types",
-			want: `record 1...
-  col[0] "float16s": [1 (null) (null) 4 5]
-  col[1] "time32ms": [-2 (null) (null) 1 2]
-  col[2] "time32s": [-2 (null) (null) 1 2]
-  col[3] "time64ns": [-2 (null) (null) 1 2]
-  col[4] "time64us": [-2 (null) (null) 1 2]
-  col[5] "timestamp_s": [0 (null) (null) 3 4]
-  col[6] "timestamp_ms": [0 (null) (null) 3 4]
-  col[7] "timestamp_us": [0 (null) (null) 3 4]
-  col[8] "timestamp_ns": [0 (null) (null) 3 4]
-  col[9] "date32s": [-2 (null) (null) 1 2]
-  col[10] "date64s": [-2 (null) (null) 1 2]
-record 2...
-  col[0] "float16s": [11 (null) (null) 14 15]
-  col[1] "time32ms": [-12 (null) (null) 11 12]
-  col[2] "time32s": [-12 (null) (null) 11 12]
-  col[3] "time64ns": [-12 (null) (null) 11 12]
-  col[4] "time64us": [-12 (null) (null) 11 12]
-  col[5] "timestamp_s": [10 (null) (null) 13 14]
-  col[6] "timestamp_ms": [10 (null) (null) 13 14]
-  col[7] "timestamp_us": [10 (null) (null) 13 14]
-  col[8] "timestamp_ns": [10 (null) (null) 13 14]
-  col[9] "date32s": [-12 (null) (null) 11 12]
-  col[10] "date64s": [-12 (null) (null) 11 12]
-record 3...
-  col[0] "float16s": [21 (null) (null) 24 25]
-  col[1] "time32ms": [-22 (null) (null) 21 22]
-  col[2] "time32s": [-22 (null) (null) 21 22]
-  col[3] "time64ns": [-22 (null) (null) 21 22]
-  col[4] "time64us": [-22 (null) (null) 21 22]
-  col[5] "timestamp_s": [20 (null) (null) 23 24]
-  col[6] "timestamp_ms": [20 (null) (null) 23 24]
-  col[7] "timestamp_us": [20 (null) (null) 23 24]
-  col[8] "timestamp_ns": [20 (null) (null) 23 24]
-  col[9] "date32s": [-22 (null) (null) 21 22]
-  col[10] "date64s": [-22 (null) (null) 21 22]
-`,
-		},
-		{
-			name: "fixed_size_binaries",
-			want: `record 1...
-  col[0] "fixed_size_binary_3": ["001" (null) (null) "004" "005"]
-record 2...
-  col[0] "fixed_size_binary_3": ["011" (null) (null) "014" "015"]
-record 3...
-  col[0] "fixed_size_binary_3": ["021" (null) (null) "024" "025"]
-`,
-		},
-	} {
-		t.Run(tc.name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			fname := func() string {
-				f, err := os.CreateTemp(tempDir, "go-arrow-cat-stream-")
-				if err != nil {
-					t.Fatal(err)
-				}
-				defer f.Close()
-
-				w := ipc.NewWriter(f, ipc.WithSchema(arrdata.Records[tc.name][0].Schema()), ipc.WithAllocator(mem))
-				defer w.Close()
-
-				for _, rec := range arrdata.Records[tc.name] {
-					err = w.Write(rec)
-					if err != nil {
-						t.Fatal(err)
-					}
-				}
-
-				err = w.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				err = f.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				return f.Name()
-			}()
-
-			f, err := os.Open(fname)
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			w := new(bytes.Buffer)
-			err = processStream(w, f)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if got, want := w.String(), tc.want; got != want {
-				t.Fatalf("invalid output:\ngot:\n%s\nwant:\n%s\n", got, want)
-			}
-		})
-	}
-}
-
-func TestCatFile(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for _, tc := range []struct {
-		name   string
-		want   string
-		stream bool
-	}{
-		{
-			stream: true,
-			name:   "primitives",
-			want: `record 1...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-1 (null) (null) -4 -5]
-  col[2] "int16s": [-1 (null) (null) -4 -5]
-  col[3] "int32s": [-1 (null) (null) -4 -5]
-  col[4] "int64s": [-1 (null) (null) -4 -5]
-  col[5] "uint8s": [1 (null) (null) 4 5]
-  col[6] "uint16s": [1 (null) (null) 4 5]
-  col[7] "uint32s": [1 (null) (null) 4 5]
-  col[8] "uint64s": [1 (null) (null) 4 5]
-  col[9] "float32s": [1 (null) (null) 4 5]
-  col[10] "float64s": [1 (null) (null) 4 5]
-record 2...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-11 (null) (null) -14 -15]
-  col[2] "int16s": [-11 (null) (null) -14 -15]
-  col[3] "int32s": [-11 (null) (null) -14 -15]
-  col[4] "int64s": [-11 (null) (null) -14 -15]
-  col[5] "uint8s": [11 (null) (null) 14 15]
-  col[6] "uint16s": [11 (null) (null) 14 15]
-  col[7] "uint32s": [11 (null) (null) 14 15]
-  col[8] "uint64s": [11 (null) (null) 14 15]
-  col[9] "float32s": [11 (null) (null) 14 15]
-  col[10] "float64s": [11 (null) (null) 14 15]
-record 3...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-21 (null) (null) -24 -25]
-  col[2] "int16s": [-21 (null) (null) -24 -25]
-  col[3] "int32s": [-21 (null) (null) -24 -25]
-  col[4] "int64s": [-21 (null) (null) -24 -25]
-  col[5] "uint8s": [21 (null) (null) 24 25]
-  col[6] "uint16s": [21 (null) (null) 24 25]
-  col[7] "uint32s": [21 (null) (null) 24 25]
-  col[8] "uint64s": [21 (null) (null) 24 25]
-  col[9] "float32s": [21 (null) (null) 24 25]
-  col[10] "float64s": [21 (null) (null) 24 25]
-`,
-		},
-		{
-			name: "primitives",
-			want: `version: V5
-record 1/3...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-1 (null) (null) -4 -5]
-  col[2] "int16s": [-1 (null) (null) -4 -5]
-  col[3] "int32s": [-1 (null) (null) -4 -5]
-  col[4] "int64s": [-1 (null) (null) -4 -5]
-  col[5] "uint8s": [1 (null) (null) 4 5]
-  col[6] "uint16s": [1 (null) (null) 4 5]
-  col[7] "uint32s": [1 (null) (null) 4 5]
-  col[8] "uint64s": [1 (null) (null) 4 5]
-  col[9] "float32s": [1 (null) (null) 4 5]
-  col[10] "float64s": [1 (null) (null) 4 5]
-record 2/3...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-11 (null) (null) -14 -15]
-  col[2] "int16s": [-11 (null) (null) -14 -15]
-  col[3] "int32s": [-11 (null) (null) -14 -15]
-  col[4] "int64s": [-11 (null) (null) -14 -15]
-  col[5] "uint8s": [11 (null) (null) 14 15]
-  col[6] "uint16s": [11 (null) (null) 14 15]
-  col[7] "uint32s": [11 (null) (null) 14 15]
-  col[8] "uint64s": [11 (null) (null) 14 15]
-  col[9] "float32s": [11 (null) (null) 14 15]
-  col[10] "float64s": [11 (null) (null) 14 15]
-record 3/3...
-  col[0] "bools": [true (null) (null) false true]
-  col[1] "int8s": [-21 (null) (null) -24 -25]
-  col[2] "int16s": [-21 (null) (null) -24 -25]
-  col[3] "int32s": [-21 (null) (null) -24 -25]
-  col[4] "int64s": [-21 (null) (null) -24 -25]
-  col[5] "uint8s": [21 (null) (null) 24 25]
-  col[6] "uint16s": [21 (null) (null) 24 25]
-  col[7] "uint32s": [21 (null) (null) 24 25]
-  col[8] "uint64s": [21 (null) (null) 24 25]
-  col[9] "float32s": [21 (null) (null) 24 25]
-  col[10] "float64s": [21 (null) (null) 24 25]
-`,
-		},
-		{
-			stream: true,
-			name:   "structs",
-			want: `record 1...
-  col[0] "struct_nullable": {[-1 (null) (null) -4 -5 -11 (null) (null) -14 -15 -21 (null) (null) -24 -25 -31 (null) (null) -34 -35 -41 (null) (null) -44 -45] ["111" (null) (null) "444" "555" "1111" (null) (null) "1444" "1555" "2111" (null) (null) "2444" "2555" "3111" (null) (null) "3444" "3555" "4111" (null) (null) "4444" "4555"]}
-record 2...
-  col[0] "struct_nullable": {[1 (null) (null) 4 5 11 (null) (null) 14 15 21 (null) (null) 24 25 31 (null) (null) 34 35 41 (null) (null) 44 45] ["-111" (null) (null) "-444" "-555" "-1111" (null) (null) "-1444" "-1555" "-2111" (null) (null) "-2444" "-2555" "-3111" (null) (null) "-3444" "-3555" "-4111" (null) (null) "-4444" "-4555"]}
-`,
-		},
-		{
-			name: "structs",
-			want: `version: V5
-record 1/2...
-  col[0] "struct_nullable": {[-1 (null) (null) -4 -5 -11 (null) (null) -14 -15 -21 (null) (null) -24 -25 -31 (null) (null) -34 -35 -41 (null) (null) -44 -45] ["111" (null) (null) "444" "555" "1111" (null) (null) "1444" "1555" "2111" (null) (null) "2444" "2555" "3111" (null) (null) "3444" "3555" "4111" (null) (null) "4444" "4555"]}
-record 2/2...
-  col[0] "struct_nullable": {[1 (null) (null) 4 5 11 (null) (null) 14 15 21 (null) (null) 24 25 31 (null) (null) 34 35 41 (null) (null) 44 45] ["-111" (null) (null) "-444" "-555" "-1111" (null) (null) "-1444" "-1555" "-2111" (null) (null) "-2444" "-2555" "-3111" (null) (null) "-3444" "-3555" "-4111" (null) (null) "-4444" "-4555"]}
-`,
-		},
-		{
-			stream: true,
-			name:   "lists",
-			want: `record 1...
-  col[0] "list_nullable": [[1 (null) (null) 4 5] [11 (null) (null) 14 15] [21 (null) (null) 24 25]]
-record 2...
-  col[0] "list_nullable": [[-1 (null) (null) -4 -5] [-11 (null) (null) -14 -15] [-21 (null) (null) -24 -25]]
-record 3...
-  col[0] "list_nullable": [[-1 (null) (null) -4 -5] (null) [-21 (null) (null) -24 -25]]
-record 4...
-  col[0] "list_nullable": []
-`,
-		},
-		{
-			name: "lists",
-			want: `version: V5
-record 1/4...
-  col[0] "list_nullable": [[1 (null) (null) 4 5] [11 (null) (null) 14 15] [21 (null) (null) 24 25]]
-record 2/4...
-  col[0] "list_nullable": [[-1 (null) (null) -4 -5] [-11 (null) (null) -14 -15] [-21 (null) (null) -24 -25]]
-record 3/4...
-  col[0] "list_nullable": [[-1 (null) (null) -4 -5] (null) [-21 (null) (null) -24 -25]]
-record 4/4...
-  col[0] "list_nullable": []
-`,
-		},
-		{
-			stream: true,
-			name:   "strings",
-			want: `record 1...
-  col[0] "strings": ["1é" (null) (null) "4" "5"]
-  col[1] "bytes": ["1é" (null) (null) "4" "5"]
-record 2...
-  col[0] "strings": ["11" (null) (null) "44" "55"]
-  col[1] "bytes": ["11" (null) (null) "44" "55"]
-record 3...
-  col[0] "strings": ["111" (null) (null) "444" "555"]
-  col[1] "bytes": ["111" (null) (null) "444" "555"]
-`,
-		},
-		{
-			name: "strings",
-			want: `version: V5
-record 1/3...
-  col[0] "strings": ["1é" (null) (null) "4" "5"]
-  col[1] "bytes": ["1é" (null) (null) "4" "5"]
-record 2/3...
-  col[0] "strings": ["11" (null) (null) "44" "55"]
-  col[1] "bytes": ["11" (null) (null) "44" "55"]
-record 3/3...
-  col[0] "strings": ["111" (null) (null) "444" "555"]
-  col[1] "bytes": ["111" (null) (null) "444" "555"]
-`,
-		},
-		{
-			stream: true,
-			name:   "fixed_size_lists",
-			want: `record 1...
-  col[0] "fixed_size_list_nullable": [[1 (null) 3] [11 (null) 13] [21 (null) 23]]
-record 2...
-  col[0] "fixed_size_list_nullable": [[-1 (null) -3] [-11 (null) -13] [-21 (null) -23]]
-record 3...
-  col[0] "fixed_size_list_nullable": [[-1 (null) -3] (null) [-21 (null) -23]]
-`,
-		},
-		{
-			name: "fixed_size_lists",
-			want: `version: V5
-record 1/3...
-  col[0] "fixed_size_list_nullable": [[1 (null) 3] [11 (null) 13] [21 (null) 23]]
-record 2/3...
-  col[0] "fixed_size_list_nullable": [[-1 (null) -3] [-11 (null) -13] [-21 (null) -23]]
-record 3/3...
-  col[0] "fixed_size_list_nullable": [[-1 (null) -3] (null) [-21 (null) -23]]
-`,
-		},
-		{
-			stream: true,
-			name:   "fixed_width_types",
-			want: `record 1...
-  col[0] "float16s": [1 (null) (null) 4 5]
-  col[1] "time32ms": [-2 (null) (null) 1 2]
-  col[2] "time32s": [-2 (null) (null) 1 2]
-  col[3] "time64ns": [-2 (null) (null) 1 2]
-  col[4] "time64us": [-2 (null) (null) 1 2]
-  col[5] "timestamp_s": [0 (null) (null) 3 4]
-  col[6] "timestamp_ms": [0 (null) (null) 3 4]
-  col[7] "timestamp_us": [0 (null) (null) 3 4]
-  col[8] "timestamp_ns": [0 (null) (null) 3 4]
-  col[9] "date32s": [-2 (null) (null) 1 2]
-  col[10] "date64s": [-2 (null) (null) 1 2]
-record 2...
-  col[0] "float16s": [11 (null) (null) 14 15]
-  col[1] "time32ms": [-12 (null) (null) 11 12]
-  col[2] "time32s": [-12 (null) (null) 11 12]
-  col[3] "time64ns": [-12 (null) (null) 11 12]
-  col[4] "time64us": [-12 (null) (null) 11 12]
-  col[5] "timestamp_s": [10 (null) (null) 13 14]
-  col[6] "timestamp_ms": [10 (null) (null) 13 14]
-  col[7] "timestamp_us": [10 (null) (null) 13 14]
-  col[8] "timestamp_ns": [10 (null) (null) 13 14]
-  col[9] "date32s": [-12 (null) (null) 11 12]
-  col[10] "date64s": [-12 (null) (null) 11 12]
-record 3...
-  col[0] "float16s": [21 (null) (null) 24 25]
-  col[1] "time32ms": [-22 (null) (null) 21 22]
-  col[2] "time32s": [-22 (null) (null) 21 22]
-  col[3] "time64ns": [-22 (null) (null) 21 22]
-  col[4] "time64us": [-22 (null) (null) 21 22]
-  col[5] "timestamp_s": [20 (null) (null) 23 24]
-  col[6] "timestamp_ms": [20 (null) (null) 23 24]
-  col[7] "timestamp_us": [20 (null) (null) 23 24]
-  col[8] "timestamp_ns": [20 (null) (null) 23 24]
-  col[9] "date32s": [-22 (null) (null) 21 22]
-  col[10] "date64s": [-22 (null) (null) 21 22]
-`,
-		},
-		{
-			name: "fixed_width_types",
-			want: `version: V5
-record 1/3...
-  col[0] "float16s": [1 (null) (null) 4 5]
-  col[1] "time32ms": [-2 (null) (null) 1 2]
-  col[2] "time32s": [-2 (null) (null) 1 2]
-  col[3] "time64ns": [-2 (null) (null) 1 2]
-  col[4] "time64us": [-2 (null) (null) 1 2]
-  col[5] "timestamp_s": [0 (null) (null) 3 4]
-  col[6] "timestamp_ms": [0 (null) (null) 3 4]
-  col[7] "timestamp_us": [0 (null) (null) 3 4]
-  col[8] "timestamp_ns": [0 (null) (null) 3 4]
-  col[9] "date32s": [-2 (null) (null) 1 2]
-  col[10] "date64s": [-2 (null) (null) 1 2]
-record 2/3...
-  col[0] "float16s": [11 (null) (null) 14 15]
-  col[1] "time32ms": [-12 (null) (null) 11 12]
-  col[2] "time32s": [-12 (null) (null) 11 12]
-  col[3] "time64ns": [-12 (null) (null) 11 12]
-  col[4] "time64us": [-12 (null) (null) 11 12]
-  col[5] "timestamp_s": [10 (null) (null) 13 14]
-  col[6] "timestamp_ms": [10 (null) (null) 13 14]
-  col[7] "timestamp_us": [10 (null) (null) 13 14]
-  col[8] "timestamp_ns": [10 (null) (null) 13 14]
-  col[9] "date32s": [-12 (null) (null) 11 12]
-  col[10] "date64s": [-12 (null) (null) 11 12]
-record 3/3...
-  col[0] "float16s": [21 (null) (null) 24 25]
-  col[1] "time32ms": [-22 (null) (null) 21 22]
-  col[2] "time32s": [-22 (null) (null) 21 22]
-  col[3] "time64ns": [-22 (null) (null) 21 22]
-  col[4] "time64us": [-22 (null) (null) 21 22]
-  col[5] "timestamp_s": [20 (null) (null) 23 24]
-  col[6] "timestamp_ms": [20 (null) (null) 23 24]
-  col[7] "timestamp_us": [20 (null) (null) 23 24]
-  col[8] "timestamp_ns": [20 (null) (null) 23 24]
-  col[9] "date32s": [-22 (null) (null) 21 22]
-  col[10] "date64s": [-22 (null) (null) 21 22]
-`,
-		},
-		{
-			stream: true,
-			name:   "fixed_size_binaries",
-			want: `record 1...
-  col[0] "fixed_size_binary_3": ["001" (null) (null) "004" "005"]
-record 2...
-  col[0] "fixed_size_binary_3": ["011" (null) (null) "014" "015"]
-record 3...
-  col[0] "fixed_size_binary_3": ["021" (null) (null) "024" "025"]
-`,
-		},
-		{
-			name: "fixed_size_binaries",
-			want: `version: V5
-record 1/3...
-  col[0] "fixed_size_binary_3": ["001" (null) (null) "004" "005"]
-record 2/3...
-  col[0] "fixed_size_binary_3": ["011" (null) (null) "014" "015"]
-record 3/3...
-  col[0] "fixed_size_binary_3": ["021" (null) (null) "024" "025"]
-`,
-		},
-	} {
-		t.Run(fmt.Sprintf("%s-stream=%v", tc.name, tc.stream), func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			fname := func() string {
-				f, err := os.CreateTemp(tempDir, "go-arrow-cat-file-")
-				if err != nil {
-					t.Fatal(err)
-				}
-				defer f.Close()
-
-				var w interface {
-					io.Closer
-					Write(arrow.Record) error
-				}
-
-				switch {
-				case tc.stream:
-					w = ipc.NewWriter(f, ipc.WithSchema(arrdata.Records[tc.name][0].Schema()), ipc.WithAllocator(mem))
-				default:
-					w, err = ipc.NewFileWriter(f, ipc.WithSchema(arrdata.Records[tc.name][0].Schema()), ipc.WithAllocator(mem))
-					if err != nil {
-						t.Fatal(err)
-					}
-				}
-				defer w.Close()
-
-				for _, rec := range arrdata.Records[tc.name] {
-					err = w.Write(rec)
-					if err != nil {
-						t.Fatal(err)
-					}
-				}
-
-				err = w.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				err = f.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				return f.Name()
-			}()
-
-			w := new(bytes.Buffer)
-			err := processFile(w, fname)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if got, want := w.String(), tc.want; got != want {
-				t.Fatalf("invalid output:\ngot:\n%s\nwant:\n%s\n", got, want)
-			}
-		})
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-file-to-stream/main.go b/go/arrow/ipc/cmd/arrow-file-to-stream/main.go
deleted file mode 100644
index e8cdcd66ea3cb..0000000000000
--- a/go/arrow/ipc/cmd/arrow-file-to-stream/main.go
+++ /dev/null
@@ -1,84 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"errors"
-	"flag"
-	"fmt"
-	"io"
-	"log"
-	"os"
-
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func main() {
-	log.SetPrefix("arrow-file-to-stream: ")
-	log.SetFlags(0)
-
-	flag.Parse()
-
-	if flag.NArg() != 1 {
-		flag.Usage()
-		log.Fatalf("missing path to input ARROW file")
-	}
-
-	err := processFile(os.Stdout, flag.Arg(0))
-	if err != nil {
-		log.Fatal(err)
-	}
-}
-
-func processFile(w io.Writer, fname string) error {
-	r, err := os.Open(fname)
-	if err != nil {
-		log.Fatal(err)
-	}
-	defer r.Close()
-
-	mem := memory.NewGoAllocator()
-
-	rr, err := ipc.NewFileReader(r, ipc.WithAllocator(mem))
-	if err != nil {
-		if errors.Is(err, io.EOF) {
-			return nil
-		}
-		return err
-	}
-	defer rr.Close()
-
-	ww := ipc.NewWriter(w, ipc.WithAllocator(mem), ipc.WithSchema(rr.Schema()))
-	defer ww.Close()
-
-	n, err := arrio.Copy(ww, rr)
-	if err != nil {
-		return fmt.Errorf("could not copy ARROW stream: %w", err)
-	}
-	if got, want := n, int64(rr.NumRecords()); got != want {
-		return fmt.Errorf("invalid number of records written (got=%d, want=%d)", got, want)
-	}
-
-	err = ww.Close()
-	if err != nil {
-		return fmt.Errorf("could not close output ARROW stream: %w", err)
-	}
-
-	return nil
-}
diff --git a/go/arrow/ipc/cmd/arrow-file-to-stream/main_test.go b/go/arrow/ipc/cmd/arrow-file-to-stream/main_test.go
deleted file mode 100644
index e31430f5fa392..0000000000000
--- a/go/arrow/ipc/cmd/arrow-file-to-stream/main_test.go
+++ /dev/null
@@ -1,68 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"io"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestFileToStream(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			f, err := os.CreateTemp(tempDir, "go-arrow-file-to-stream-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			arrdata.WriteFile(t, f, mem, recs[0].Schema(), recs)
-
-			o, err := os.CreateTemp(tempDir, "go-arrow-file-to-stream-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer o.Close()
-
-			err = processFile(o, f.Name())
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			err = o.Sync()
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			_, err = o.Seek(0, io.SeekStart)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			arrdata.CheckArrowStream(t, o, mem, recs[0].Schema(), recs)
-		})
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-json-integration-test/main.go b/go/arrow/ipc/cmd/arrow-json-integration-test/main.go
deleted file mode 100644
index c47a091268be9..0000000000000
--- a/go/arrow/ipc/cmd/arrow-json-integration-test/main.go
+++ /dev/null
@@ -1,224 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"flag"
-	"fmt"
-	"log"
-	"os"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrjson"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-)
-
-func main() {
-	log.SetPrefix("arrow-json: ")
-	log.SetFlags(0)
-
-	var (
-		arrowPath = flag.String("arrow", "", "path to ARROW file")
-		jsonPath  = flag.String("json", "", "path to JSON file")
-		mode      = flag.String("mode", "VALIDATE", "mode of integration testing tool (ARROW_TO_JSON, JSON_TO_ARROW, VALIDATE)")
-		verbose   = flag.Bool("verbose", true, "enable/disable verbose mode")
-	)
-
-	flag.Parse()
-
-	err := runCommand(*jsonPath, *arrowPath, *mode, *verbose)
-	if err != nil {
-		log.Fatal(err)
-	}
-}
-
-func runCommand(jsonName, arrowName, mode string, verbose bool) error {
-	if jsonName == "" {
-		return fmt.Errorf("must specify json file name")
-	}
-
-	if arrowName == "" {
-		return fmt.Errorf("must specify arrow file name")
-	}
-
-	switch mode {
-	case "ARROW_TO_JSON":
-		return cnvToJSON(arrowName, jsonName, verbose)
-	case "JSON_TO_ARROW":
-		return cnvToARROW(arrowName, jsonName, verbose)
-	case "VALIDATE":
-		return validate(arrowName, jsonName, verbose)
-	default:
-		return fmt.Errorf("unknown command %q", mode)
-	}
-}
-
-func cnvToJSON(arrowName, jsonName string, verbose bool) error {
-	r, err := os.Open(arrowName)
-	if err != nil {
-		return fmt.Errorf("could not open ARROW file %q: %w", arrowName, err)
-	}
-	defer r.Close()
-
-	w, err := os.Create(jsonName)
-	if err != nil {
-		return fmt.Errorf("could not create JSON file %q: %w", jsonName, err)
-	}
-	defer w.Close()
-
-	rr, err := ipc.NewFileReader(r)
-	if err != nil {
-		return fmt.Errorf("could not open ARROW file reader from file %q: %w", arrowName, err)
-	}
-	defer rr.Close()
-
-	if verbose {
-		log.Printf("found schema:\n%v\n", rr.Schema())
-	}
-
-	ww, err := arrjson.NewWriter(w, rr.Schema())
-	if err != nil {
-		return fmt.Errorf("could not create JSON encoder: %w", err)
-	}
-	defer ww.Close()
-
-	n, err := arrio.Copy(ww, rr)
-	if err != nil {
-		return fmt.Errorf("could not convert ARROW file reader data to JSON data: %w", err)
-	}
-
-	if got, want := n, int64(rr.NumRecords()); got != want {
-		return fmt.Errorf("invalid number of records copied (got=%d, want=%d", got, want)
-	}
-
-	err = ww.Close()
-	if err != nil {
-		return fmt.Errorf("could not close JSON encoder %q: %w", jsonName, err)
-	}
-
-	err = w.Close()
-	if err != nil {
-		return fmt.Errorf("could not close JSON file %q: %w", jsonName, err)
-	}
-
-	return nil
-}
-
-func cnvToARROW(arrowName, jsonName string, verbose bool) error {
-	r, err := os.Open(jsonName)
-	if err != nil {
-		return fmt.Errorf("could not open JSON file %q: %w", jsonName, err)
-	}
-	defer r.Close()
-
-	w, err := os.Create(arrowName)
-	if err != nil {
-		return fmt.Errorf("could not create ARROW file %q: %w", arrowName, err)
-	}
-	defer w.Close()
-
-	rr, err := arrjson.NewReader(r)
-	if err != nil {
-		return fmt.Errorf("could not open JSON file reader from file %q: %w", jsonName, err)
-	}
-
-	if verbose {
-		log.Printf("found schema:\n%v\n", rr.Schema())
-	}
-
-	ww, err := ipc.NewFileWriter(w, ipc.WithSchema(rr.Schema()))
-	if err != nil {
-		return fmt.Errorf("could not create ARROW file writer: %w", err)
-	}
-	defer ww.Close()
-
-	n, err := arrio.Copy(ww, rr)
-	if err != nil {
-		return fmt.Errorf("could not convert JSON data to ARROW data: %w", err)
-	}
-
-	if got, want := n, int64(rr.NumRecords()); got != want {
-		return fmt.Errorf("invalid number of records copied (got=%d, want=%d", got, want)
-	}
-
-	err = ww.Close()
-	if err != nil {
-		return fmt.Errorf("could not close ARROW file writer %q: %w", arrowName, err)
-	}
-
-	err = w.Close()
-	if err != nil {
-		return fmt.Errorf("could not close ARROW file %q: %w", arrowName, err)
-	}
-
-	return nil
-}
-
-func validate(arrowName, jsonName string, verbose bool) error {
-	jr, err := os.Open(jsonName)
-	if err != nil {
-		return fmt.Errorf("could not open JSON file %q: %w", jsonName, err)
-	}
-	defer jr.Close()
-
-	jrr, err := arrjson.NewReader(jr)
-	if err != nil {
-		return fmt.Errorf("could not open JSON file reader from file %q: %w", jsonName, err)
-	}
-
-	ar, err := os.Open(arrowName)
-	if err != nil {
-		return fmt.Errorf("could not open ARROW file %q: %w", arrowName, err)
-	}
-	defer ar.Close()
-
-	arr, err := ipc.NewFileReader(ar)
-	if err != nil {
-		return fmt.Errorf("could not open ARROW file reader from file %q: %w", arrowName, err)
-	}
-	defer arr.Close()
-
-	if !arr.Schema().Equal(jrr.Schema()) {
-		if verbose {
-			log.Printf("JSON schema:\n%v\nArrow schema:\n%v", jrr.Schema(), arr.Schema())
-		}
-		return fmt.Errorf("schemas did not match")
-	}
-
-	for i := 0; i < arr.NumRecords(); i++ {
-		arec, err := arr.Read()
-		if err != nil {
-			return fmt.Errorf("could not read record %d from ARROW file: %w", i, err)
-		}
-		jrec, err := jrr.Read()
-		if err != nil {
-			return fmt.Errorf("could not read record %d from JSON file: %w", i, err)
-		}
-		if !array.RecordApproxEqual(jrec, arec) {
-			return fmt.Errorf("record batch %d did not match\nJSON:\n%v\nARROW:\n%v",
-				i, jrec, arec,
-			)
-		}
-	}
-
-	if jn, an := jrr.NumRecords(), arr.NumRecords(); jn != an {
-		return fmt.Errorf("different number of record batches: %d (JSON) vs %d (Arrow)", jn, an)
-	}
-
-	return nil
-}
diff --git a/go/arrow/ipc/cmd/arrow-json-integration-test/main_test.go b/go/arrow/ipc/cmd/arrow-json-integration-test/main_test.go
deleted file mode 100644
index 44e6aeb472f32..0000000000000
--- a/go/arrow/ipc/cmd/arrow-json-integration-test/main_test.go
+++ /dev/null
@@ -1,89 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestIntegration(t *testing.T) {
-	tempDir := t.TempDir()
-
-	const verbose = true
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			if name == "decimal128" {
-				t.Skip() // FIXME(sbinet): implement full decimal128 support
-			}
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			af1, err := os.CreateTemp(tempDir, "go-arrow-integration-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer af1.Close()
-
-			arrdata.WriteFile(t, af1, mem, recs[0].Schema(), recs)
-			arrdata.CheckArrowFile(t, af1, mem, recs[0].Schema(), recs)
-
-			aj, err := os.CreateTemp(tempDir, "arrow-json-integration-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer aj.Close()
-
-			err = cnvToJSON(af1.Name(), aj.Name(), verbose)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			err = validate(af1.Name(), aj.Name(), verbose)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			af2, err := os.CreateTemp(tempDir, "go-arrow-integration-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer af2.Close()
-
-			err = cnvToARROW(af2.Name(), aj.Name(), verbose)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			err = validate(af2.Name(), aj.Name(), verbose)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			af2, err = os.Open(af2.Name())
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer af2.Close()
-
-			arrdata.CheckArrowFile(t, af2, mem, recs[0].Schema(), recs)
-		})
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-ls/main.go b/go/arrow/ipc/cmd/arrow-ls/main.go
deleted file mode 100644
index f461131786d02..0000000000000
--- a/go/arrow/ipc/cmd/arrow-ls/main.go
+++ /dev/null
@@ -1,201 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Command arrow-ls displays the listing of an Arrow file.
-//
-// Examples:
-//
-//	$> arrow-ls ./testdata/primitives.data
-//	version: V4
-//	schema:
-//	  fields: 11
-//	    - bools: type=bool, nullable
-//	    - int8s: type=int8, nullable
-//	    - int16s: type=int16, nullable
-//	    - int32s: type=int32, nullable
-//	    - int64s: type=int64, nullable
-//	    - uint8s: type=uint8, nullable
-//	    - uint16s: type=uint16, nullable
-//	    - uint32s: type=uint32, nullable
-//	    - uint64s: type=uint64, nullable
-//	    - float32s: type=float32, nullable
-//	    - float64s: type=float64, nullable
-//	records: 3
-//
-//	$> gen-arrow-stream | arrow-ls
-//	schema:
-//	  fields: 11
-//	    - bools: type=bool, nullable
-//	    - int8s: type=int8, nullable
-//	    - int16s: type=int16, nullable
-//	    - int32s: type=int32, nullable
-//	    - int64s: type=int64, nullable
-//	    - uint8s: type=uint8, nullable
-//	    - uint16s: type=uint16, nullable
-//	    - uint32s: type=uint32, nullable
-//	    - uint64s: type=uint64, nullable
-//	    - float32s: type=float32, nullable
-//	    - float64s: type=float64, nullable
-//	records: 3
-package main
-
-import (
-	"bytes"
-	"errors"
-	"flag"
-	"fmt"
-	"io"
-	"log"
-	"os"
-
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func main() {
-	log.SetPrefix("arrow-ls: ")
-	log.SetFlags(0)
-
-	flag.Parse()
-
-	var err error
-	switch flag.NArg() {
-	case 0:
-		err = processStream(os.Stdout, os.Stdin)
-	default:
-		err = processFiles(os.Stdout, flag.Args())
-	}
-	if err != nil {
-		log.Fatal(err)
-	}
-}
-
-func processStream(w io.Writer, rin io.Reader) error {
-	mem := memory.NewGoAllocator()
-
-	for {
-		r, err := ipc.NewReader(rin, ipc.WithAllocator(mem))
-		if err != nil {
-			if errors.Is(err, io.EOF) {
-				return nil
-			}
-			return err
-		}
-
-		fmt.Fprintf(w, "%v\n", r.Schema())
-
-		nrecs := 0
-		for r.Next() {
-			nrecs++
-		}
-		fmt.Fprintf(w, "records: %d\n", nrecs)
-		r.Release()
-	}
-	return nil
-}
-
-func processFiles(w io.Writer, names []string) error {
-	for _, name := range names {
-		err := processFile(w, name)
-		if err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func processFile(w io.Writer, fname string) error {
-
-	f, err := os.Open(fname)
-	if err != nil {
-		return err
-	}
-	defer f.Close()
-
-	hdr := make([]byte, len(ipc.Magic))
-	_, err = io.ReadFull(f, hdr)
-	if err != nil {
-		return fmt.Errorf("could not read file header: %w", err)
-	}
-	f.Seek(0, io.SeekStart)
-
-	if !bytes.Equal(hdr, ipc.Magic) {
-		// try as a stream.
-		return processStream(w, f)
-	}
-
-	mem := memory.NewGoAllocator()
-
-	r, err := ipc.NewFileReader(f, ipc.WithAllocator(mem))
-	if err != nil {
-		if errors.Is(err, io.EOF) {
-			return nil
-		}
-		return err
-	}
-	defer r.Close()
-
-	fmt.Fprintf(w, "version: %v\n", r.Version())
-	fmt.Fprintf(w, "%v\n", r.Schema())
-	fmt.Fprintf(w, "records: %d\n", r.NumRecords())
-
-	return nil
-}
-
-func init() {
-	flag.Usage = func() {
-		fmt.Fprintf(os.Stderr, `Command arrow-ls displays the listing of an Arrow file.
-
-Usage: arrow-ls [OPTIONS] [FILE1 [FILE2 [...]]]
-
-Examples:
-
- $> arrow-ls ./testdata/primitives.data
- version: V4
- schema:
-   fields: 11
-     - bools: type=bool, nullable
-     - int8s: type=int8, nullable
-     - int16s: type=int16, nullable
-     - int32s: type=int32, nullable
-     - int64s: type=int64, nullable
-     - uint8s: type=uint8, nullable
-     - uint16s: type=uint16, nullable
-     - uint32s: type=uint32, nullable
-     - uint64s: type=uint64, nullable
-     - float32s: type=float32, nullable
-     - float64s: type=float64, nullable
- records: 3
-
- $> gen-arrow-stream | arrow-ls
- schema:
-   fields: 11
-     - bools: type=bool, nullable
-     - int8s: type=int8, nullable
-     - int16s: type=int16, nullable
-     - int32s: type=int32, nullable
-     - int64s: type=int64, nullable
-     - uint8s: type=uint8, nullable
-     - uint16s: type=uint16, nullable
-     - uint32s: type=uint32, nullable
-     - uint64s: type=uint64, nullable
-     - float32s: type=float32, nullable
-     - float64s: type=float64, nullable
- records: 3
-`)
-		os.Exit(0)
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-ls/main_test.go b/go/arrow/ipc/cmd/arrow-ls/main_test.go
deleted file mode 100644
index 6ec8ef862bc14..0000000000000
--- a/go/arrow/ipc/cmd/arrow-ls/main_test.go
+++ /dev/null
@@ -1,332 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"bytes"
-	"fmt"
-	"io"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestLsStream(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for _, tc := range []struct {
-		name string
-		want string
-	}{
-		{
-			name: "primitives",
-			want: `schema:
-  fields: 11
-    - bools: type=bool, nullable
-    - int8s: type=int8, nullable
-    - int16s: type=int16, nullable
-    - int32s: type=int32, nullable
-    - int64s: type=int64, nullable
-    - uint8s: type=uint8, nullable
-    - uint16s: type=uint16, nullable
-    - uint32s: type=uint32, nullable
-    - uint64s: type=uint64, nullable
-    - float32s: type=float32, nullable
-    - float64s: type=float64, nullable
-  metadata: ["k1": "v1", "k2": "v2", "k3": "v3"]
-records: 3
-`,
-		},
-		{
-			name: "structs",
-			want: `schema:
-  fields: 1
-    - struct_nullable: type=struct<f1: int32, f2: utf8>, nullable
-records: 2
-`,
-		},
-		{
-			name: "lists",
-			want: `schema:
-  fields: 1
-    - list_nullable: type=list<item: int32, nullable>, nullable
-records: 4
-`,
-		},
-		{
-			name: "strings",
-			want: `schema:
-  fields: 2
-    - strings: type=utf8
-    - bytes: type=binary
-records: 3
-`,
-		},
-		{
-			name: "fixed_size_lists",
-			want: `schema:
-  fields: 1
-    - fixed_size_list_nullable: type=fixed_size_list<item: int32, nullable>[3], nullable
-records: 3
-`,
-		},
-		{
-			name: "fixed_width_types",
-			want: `schema:
-  fields: 11
-    - float16s: type=float16, nullable
-    - time32ms: type=time32[ms], nullable
-    - time32s: type=time32[s], nullable
-    - time64ns: type=time64[ns], nullable
-    - time64us: type=time64[us], nullable
-    - timestamp_s: type=timestamp[s, tz=UTC], nullable
-    - timestamp_ms: type=timestamp[ms, tz=UTC], nullable
-    - timestamp_us: type=timestamp[us, tz=UTC], nullable
-    - timestamp_ns: type=timestamp[ns, tz=UTC], nullable
-    - date32s: type=date32, nullable
-    - date64s: type=date64, nullable
-records: 3
-`,
-		},
-		{
-			name: "fixed_size_binaries",
-			want: `schema:
-  fields: 1
-    - fixed_size_binary_3: type=fixed_size_binary[3], nullable
-records: 3
-`,
-		},
-	} {
-		t.Run(tc.name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			fname := func() string {
-				f, err := os.CreateTemp(tempDir, "go-arrow-ls-stream-")
-				if err != nil {
-					t.Fatal(err)
-				}
-				defer f.Close()
-
-				w := ipc.NewWriter(f, ipc.WithSchema(arrdata.Records[tc.name][0].Schema()), ipc.WithAllocator(mem))
-				defer w.Close()
-
-				for _, rec := range arrdata.Records[tc.name] {
-					err = w.Write(rec)
-					if err != nil {
-						t.Fatal(err)
-					}
-				}
-
-				err = w.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				err = f.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				return f.Name()
-			}()
-
-			f, err := os.Open(fname)
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			w := new(bytes.Buffer)
-			err = processStream(w, f)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if got, want := w.String(), tc.want; got != want {
-				t.Fatalf("invalid output:\ngot:\n%s\nwant:\n%s\n", got, want)
-			}
-		})
-	}
-}
-
-func TestLsFile(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for _, tc := range []struct {
-		stream bool
-		name   string
-		want   string
-	}{
-		{
-			stream: true,
-			name:   "primitives",
-			want: `schema:
-  fields: 11
-    - bools: type=bool, nullable
-    - int8s: type=int8, nullable
-    - int16s: type=int16, nullable
-    - int32s: type=int32, nullable
-    - int64s: type=int64, nullable
-    - uint8s: type=uint8, nullable
-    - uint16s: type=uint16, nullable
-    - uint32s: type=uint32, nullable
-    - uint64s: type=uint64, nullable
-    - float32s: type=float32, nullable
-    - float64s: type=float64, nullable
-  metadata: ["k1": "v1", "k2": "v2", "k3": "v3"]
-records: 3
-`,
-		},
-		{
-			name: "primitives",
-			want: `version: V5
-schema:
-  fields: 11
-    - bools: type=bool, nullable
-    - int8s: type=int8, nullable
-    - int16s: type=int16, nullable
-    - int32s: type=int32, nullable
-    - int64s: type=int64, nullable
-    - uint8s: type=uint8, nullable
-    - uint16s: type=uint16, nullable
-    - uint32s: type=uint32, nullable
-    - uint64s: type=uint64, nullable
-    - float32s: type=float32, nullable
-    - float64s: type=float64, nullable
-  metadata: ["k1": "v1", "k2": "v2", "k3": "v3"]
-records: 3
-`,
-		},
-		{
-			stream: true,
-			name:   "structs",
-			want: `schema:
-  fields: 1
-    - struct_nullable: type=struct<f1: int32, f2: utf8>, nullable
-records: 2
-`,
-		},
-		{
-			name: "structs",
-			want: `version: V5
-schema:
-  fields: 1
-    - struct_nullable: type=struct<f1: int32, f2: utf8>, nullable
-records: 2
-`,
-		},
-		{
-			stream: true,
-			name:   "lists",
-			want: `schema:
-  fields: 1
-    - list_nullable: type=list<item: int32, nullable>, nullable
-records: 4
-`,
-		},
-		{
-			name: "lists",
-			want: `version: V5
-schema:
-  fields: 1
-    - list_nullable: type=list<item: int32, nullable>, nullable
-records: 4
-`,
-		},
-		{
-			stream: true,
-			name:   "fixed_size_binaries",
-			want: `schema:
-  fields: 1
-    - fixed_size_binary_3: type=fixed_size_binary[3], nullable
-records: 3
-`,
-		},
-		{
-			name: "fixed_size_binaries",
-			want: `version: V5
-schema:
-  fields: 1
-    - fixed_size_binary_3: type=fixed_size_binary[3], nullable
-records: 3
-`,
-		},
-	} {
-		t.Run(fmt.Sprintf("%s-stream=%v", tc.name, tc.stream), func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			fname := func() string {
-				f, err := os.CreateTemp(tempDir, "go-arrow-ls-file-")
-				if err != nil {
-					t.Fatal(err)
-				}
-				defer f.Close()
-
-				var w interface {
-					io.Closer
-					Write(arrow.Record) error
-				}
-
-				switch {
-				case tc.stream:
-					w = ipc.NewWriter(f, ipc.WithSchema(arrdata.Records[tc.name][0].Schema()), ipc.WithAllocator(mem))
-				default:
-					w, err = ipc.NewFileWriter(f, ipc.WithSchema(arrdata.Records[tc.name][0].Schema()), ipc.WithAllocator(mem))
-					if err != nil {
-						t.Fatal(err)
-					}
-				}
-				defer w.Close()
-
-				for _, rec := range arrdata.Records[tc.name] {
-					err = w.Write(rec)
-					if err != nil {
-						t.Fatal(err)
-					}
-				}
-
-				err = w.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				err = f.Close()
-				if err != nil {
-					t.Fatal(err)
-				}
-
-				return f.Name()
-			}()
-
-			w := new(bytes.Buffer)
-			err := processFile(w, fname)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if got, want := w.String(), tc.want; got != want {
-				t.Fatalf("invalid output:\ngot:\n%s\nwant:\n%s\n", got, want)
-			}
-		})
-	}
-}
diff --git a/go/arrow/ipc/cmd/arrow-stream-to-file/main.go b/go/arrow/ipc/cmd/arrow-stream-to-file/main.go
deleted file mode 100644
index 5c9b768995ec9..0000000000000
--- a/go/arrow/ipc/cmd/arrow-stream-to-file/main.go
+++ /dev/null
@@ -1,72 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"errors"
-	"flag"
-	"fmt"
-	"io"
-	"log"
-	"os"
-
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func main() {
-	log.SetPrefix("arrow-stream-to-file: ")
-	log.SetFlags(0)
-
-	flag.Parse()
-
-	err := processStream(os.Stdout, os.Stdin)
-	if err != nil {
-		log.Fatal(err)
-	}
-}
-
-func processStream(w *os.File, r io.Reader) error {
-	mem := memory.NewGoAllocator()
-
-	rr, err := ipc.NewReader(r, ipc.WithAllocator(mem))
-	if err != nil {
-		if errors.Is(err, io.EOF) {
-			return nil
-		}
-		return err
-	}
-
-	ww, err := ipc.NewFileWriter(w, ipc.WithAllocator(mem), ipc.WithSchema(rr.Schema()))
-	if err != nil {
-		return fmt.Errorf("could not create ARROW file writer: %w", err)
-	}
-	defer ww.Close()
-
-	_, err = arrio.Copy(ww, rr)
-	if err != nil {
-		return fmt.Errorf("could not copy ARROW stream: %w", err)
-	}
-
-	err = ww.Close()
-	if err != nil {
-		return fmt.Errorf("could not close output ARROW file: %w", err)
-	}
-
-	return nil
-}
diff --git a/go/arrow/ipc/cmd/arrow-stream-to-file/main_test.go b/go/arrow/ipc/cmd/arrow-stream-to-file/main_test.go
deleted file mode 100644
index 13c566f3593cd..0000000000000
--- a/go/arrow/ipc/cmd/arrow-stream-to-file/main_test.go
+++ /dev/null
@@ -1,78 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"io"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestStreamToFile(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			f, err := os.CreateTemp(tempDir, "go-arrow-stream-to-file-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			arrdata.WriteStream(t, f, mem, recs[0].Schema(), recs)
-
-			err = f.Sync()
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			_, err = f.Seek(0, io.SeekStart)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			o, err := os.CreateTemp(tempDir, "go-arrow-stream-to-file-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer o.Close()
-
-			err = processStream(o, f)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			err = o.Sync()
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			_, err = o.Seek(0, io.SeekStart)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			arrdata.CheckArrowFile(t, o, mem, recs[0].Schema(), recs)
-		})
-	}
-}
diff --git a/go/arrow/ipc/compression.go b/go/arrow/ipc/compression.go
deleted file mode 100644
index 501d9b7c38159..0000000000000
--- a/go/arrow/ipc/compression.go
+++ /dev/null
@@ -1,137 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/klauspost/compress/zstd"
-	"github.com/pierrec/lz4/v4"
-)
-
-type compressor interface {
-	MaxCompressedLen(n int) int
-	Reset(io.Writer)
-	io.WriteCloser
-	Type() flatbuf.CompressionType
-}
-
-type lz4Compressor struct {
-	*lz4.Writer
-}
-
-func (lz4Compressor) MaxCompressedLen(n int) int {
-	return lz4.CompressBlockBound(n)
-}
-
-func (lz4Compressor) Type() flatbuf.CompressionType {
-	return flatbuf.CompressionTypeLZ4_FRAME
-}
-
-type zstdCompressor struct {
-	*zstd.Encoder
-}
-
-// from zstd.h, ZSTD_COMPRESSBOUND
-func (zstdCompressor) MaxCompressedLen(len int) int {
-	debug.Assert(len >= 0, "MaxCompressedLen called with len less than 0")
-	extra := uint((uint(128<<10) - uint(len)) >> 11)
-	if len >= (128 << 10) {
-		extra = 0
-	}
-	return int(uint(len+(len>>8)) + extra)
-}
-
-func (zstdCompressor) Type() flatbuf.CompressionType {
-	return flatbuf.CompressionTypeZSTD
-}
-
-func getCompressor(codec flatbuf.CompressionType) compressor {
-	switch codec {
-	case flatbuf.CompressionTypeLZ4_FRAME:
-		w := lz4.NewWriter(nil)
-		// options here chosen in order to match the C++ implementation
-		w.Apply(lz4.ChecksumOption(false), lz4.BlockSizeOption(lz4.Block64Kb))
-		return &lz4Compressor{w}
-	case flatbuf.CompressionTypeZSTD:
-		enc, err := zstd.NewWriter(nil)
-		if err != nil {
-			panic(err)
-		}
-		return zstdCompressor{enc}
-	}
-	return nil
-}
-
-type decompressor interface {
-	io.Reader
-	Reset(io.Reader)
-	Close()
-}
-
-type zstdDecompressor struct {
-	*zstd.Decoder
-}
-
-func (z *zstdDecompressor) Reset(r io.Reader) {
-	if err := z.Decoder.Reset(r); err != nil {
-		panic(err)
-	}
-}
-
-func (z *zstdDecompressor) Close() {
-	z.Decoder.Close()
-}
-
-type lz4Decompressor struct {
-	*lz4.Reader
-}
-
-func (z *lz4Decompressor) Close() {
-	z.Reader.Reset(nil)
-}
-
-func getDecompressor(codec flatbuf.CompressionType) decompressor {
-	switch codec {
-	case flatbuf.CompressionTypeLZ4_FRAME:
-		return &lz4Decompressor{lz4.NewReader(nil)}
-	case flatbuf.CompressionTypeZSTD:
-		dec, err := zstd.NewReader(nil)
-		if err != nil {
-			panic(err)
-		}
-		return &zstdDecompressor{dec}
-	}
-	return nil
-}
-
-type bufferWriter struct {
-	buf *memory.Buffer
-	pos int
-}
-
-func (bw *bufferWriter) Write(p []byte) (n int, err error) {
-	if bw.pos+len(p) >= bw.buf.Cap() {
-		bw.buf.Reserve(bw.pos + len(p))
-	}
-	n = copy(bw.buf.Buf()[bw.pos:], p)
-	bw.pos += n
-	return
-}
diff --git a/go/arrow/ipc/endian_swap.go b/go/arrow/ipc/endian_swap.go
deleted file mode 100644
index f10adf5c13e7d..0000000000000
--- a/go/arrow/ipc/endian_swap.go
+++ /dev/null
@@ -1,166 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"errors"
-	"fmt"
-	"math/bits"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// swap the endianness of the array's buffers as needed in-place to save
-// the cost of reallocation.
-//
-// assumes that nested data buffers are never re-used, if an *array.Data
-// child is re-used among the children or the dictionary then this might
-// end up double-swapping (putting it back into the original endianness).
-// if it is needed to support re-using the buffers, then this can be
-// re-factored to instead return a NEW array.Data object with newly
-// allocated buffers, rather than doing it in place.
-//
-// For now this is intended to be used by the IPC readers after loading
-// arrays from an IPC message which currently is guaranteed to not re-use
-// buffers between arrays.
-func swapEndianArrayData(data *array.Data) error {
-	if data.Offset() != 0 {
-		return errors.New("unsupported data format: data.offset != 0")
-	}
-	if err := swapType(data.DataType(), data); err != nil {
-		return err
-	}
-	return swapChildren(data.Children())
-}
-
-func swapChildren(children []arrow.ArrayData) (err error) {
-	for i := range children {
-		if err = swapEndianArrayData(children[i].(*array.Data)); err != nil {
-			break
-		}
-	}
-	return
-}
-
-func swapType(dt arrow.DataType, data *array.Data) (err error) {
-	switch dt.ID() {
-	case arrow.BINARY, arrow.STRING:
-		swapOffsets(1, 32, data)
-		return
-	case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-		swapOffsets(1, 64, data)
-		return
-	case arrow.NULL, arrow.BOOL, arrow.INT8, arrow.UINT8,
-		arrow.FIXED_SIZE_BINARY, arrow.FIXED_SIZE_LIST, arrow.STRUCT:
-		return
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.Decimal128Type:
-		rawdata := arrow.Uint64Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		length := data.Buffers()[1].Len() / arrow.Decimal128SizeBytes
-		for i := 0; i < length; i++ {
-			idx := i * 2
-			tmp := bits.ReverseBytes64(rawdata[idx])
-			rawdata[idx] = bits.ReverseBytes64(rawdata[idx+1])
-			rawdata[idx+1] = tmp
-		}
-	case *arrow.Decimal256Type:
-		rawdata := arrow.Uint64Traits.CastFromBytes(data.Buffers()[1].Bytes())
-		length := data.Buffers()[1].Len() / arrow.Decimal256SizeBytes
-		for i := 0; i < length; i++ {
-			idx := i * 4
-			tmp0 := bits.ReverseBytes64(rawdata[idx])
-			tmp1 := bits.ReverseBytes64(rawdata[idx+1])
-			tmp2 := bits.ReverseBytes64(rawdata[idx+2])
-			rawdata[idx] = bits.ReverseBytes64(rawdata[idx+3])
-			rawdata[idx+1] = tmp2
-			rawdata[idx+2] = tmp1
-			rawdata[idx+3] = tmp0
-		}
-	case arrow.UnionType:
-		if dt.Mode() == arrow.DenseMode {
-			swapOffsets(2, 32, data)
-		}
-	case *arrow.ListType:
-		swapOffsets(1, 32, data)
-	case *arrow.LargeListType:
-		swapOffsets(1, 64, data)
-	case *arrow.MapType:
-		swapOffsets(1, 32, data)
-	case *arrow.DayTimeIntervalType:
-		byteSwapBuffer(32, data.Buffers()[1])
-	case *arrow.MonthDayNanoIntervalType:
-		rawdata := arrow.MonthDayNanoIntervalTraits.CastFromBytes(data.Buffers()[1].Bytes())
-		for i, tmp := range rawdata {
-			rawdata[i].Days = int32(bits.ReverseBytes32(uint32(tmp.Days)))
-			rawdata[i].Months = int32(bits.ReverseBytes32(uint32(tmp.Months)))
-			rawdata[i].Nanoseconds = int64(bits.ReverseBytes64(uint64(tmp.Nanoseconds)))
-		}
-	case arrow.ExtensionType:
-		return swapType(dt.StorageType(), data)
-	case *arrow.DictionaryType:
-		// dictionary itself was already swapped in ReadDictionary calls
-		return swapType(dt.IndexType, data)
-	case arrow.FixedWidthDataType:
-		byteSwapBuffer(dt.BitWidth(), data.Buffers()[1])
-	default:
-		err = fmt.Errorf("%w: swapping endianness of %s", arrow.ErrNotImplemented, dt)
-	}
-
-	return
-}
-
-// this can get called on an invalid Array Data object by the IPC reader,
-// so we won't rely on the data.length and will instead rely on the buffer's
-// own size instead.
-func byteSwapBuffer(bw int, buf *memory.Buffer) {
-	if bw == 1 || buf == nil {
-		// if byte width == 1, no need to swap anything
-		return
-	}
-
-	switch bw {
-	case 16:
-		data := arrow.Uint16Traits.CastFromBytes(buf.Bytes())
-		for i := range data {
-			data[i] = bits.ReverseBytes16(data[i])
-		}
-	case 32:
-		data := arrow.Uint32Traits.CastFromBytes(buf.Bytes())
-		for i := range data {
-			data[i] = bits.ReverseBytes32(data[i])
-		}
-	case 64:
-		data := arrow.Uint64Traits.CastFromBytes(buf.Bytes())
-		for i := range data {
-			data[i] = bits.ReverseBytes64(data[i])
-		}
-	}
-}
-
-func swapOffsets(index int, bitWidth int, data *array.Data) {
-	if data.Buffers()[index] == nil || data.Buffers()[index].Len() == 0 {
-		return
-	}
-
-	// other than unions, offset has one more element than the data.length
-	// don't yet implement large types, so hardcode 32bit offsets for now
-	byteSwapBuffer(bitWidth, data.Buffers()[index])
-}
diff --git a/go/arrow/ipc/endian_swap_test.go b/go/arrow/ipc/endian_swap_test.go
deleted file mode 100644
index 498b7decad146..0000000000000
--- a/go/arrow/ipc/endian_swap_test.go
+++ /dev/null
@@ -1,300 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func AssertArrayDataEqualWithSwappedEndian(t *testing.T, target, expected arrow.ArrayData) bool {
-	assert.NoError(t, swapEndianArrayData(target.(*array.Data)))
-	swappedArray := array.MakeFromData(target)
-	defer swappedArray.Release()
-
-	expectedArray := array.MakeFromData(expected)
-	defer expectedArray.Release()
-
-	return assert.Truef(t, array.Equal(swappedArray, expectedArray), "got: %s, expected: %s\n", swappedArray, expectedArray)
-}
-
-func TestSwapEndianPrimitiveArrayData(t *testing.T) {
-	nullBuffer := memory.NewBufferBytes([]byte("\xff"))
-
-	tests := []struct {
-		dt              arrow.DataType
-		len             int
-		input, expected string
-	}{
-		{arrow.Null, 0, "", ""},
-		{arrow.PrimitiveTypes.Int32, 0, "", ""},
-		{arrow.FixedWidthTypes.Boolean, 8, "01234567", "01234567"},
-		{arrow.PrimitiveTypes.Int8, 8, "01234567", "01234567"},
-		{arrow.PrimitiveTypes.Uint16, 4, "01234567", "10325476"},
-		{arrow.PrimitiveTypes.Int32, 2, "01234567", "32107654"},
-		{arrow.PrimitiveTypes.Uint64, 1, "01234567", "76543210"},
-		{&arrow.Decimal128Type{Precision: 38, Scale: 10}, 1, "0123456789abcdef", "fedcba9876543210"},
-		{&arrow.Decimal256Type{Precision: 72, Scale: 10}, 1, "0123456789abcdef0123456789abcdef", "fedcba9876543210fedcba9876543210"},
-		{arrow.PrimitiveTypes.Float32, 2, "01200560", "02100650"},
-		{arrow.PrimitiveTypes.Float64, 1, "01200560", "06500210"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.dt.String(), func(t *testing.T) {
-			var target, expected arrow.ArrayData
-			if tt.dt == arrow.Null {
-				target = array.NewData(arrow.Null, 0, []*memory.Buffer{nil}, nil, 0, 0)
-				expected = target
-			} else {
-				target = array.NewData(tt.dt, tt.len, []*memory.Buffer{nullBuffer, memory.NewBufferBytes([]byte(tt.input))}, nil, 0, 0)
-				expected = array.NewData(tt.dt, tt.len, []*memory.Buffer{nullBuffer, memory.NewBufferBytes([]byte(tt.expected))}, nil, 0, 0)
-				defer target.Release()
-				defer expected.Release()
-			}
-			AssertArrayDataEqualWithSwappedEndian(t, target, expected)
-		})
-	}
-
-	data := array.NewData(arrow.PrimitiveTypes.Int64, 1, []*memory.Buffer{nullBuffer, memory.NewBufferBytes([]byte("01234567"))}, nil, 0, 1)
-	assert.Error(t, swapEndianArrayData(data))
-}
-
-func replaceBuffer(data *array.Data, idx int, bufdata []byte) *array.Data {
-	out := data.Copy()
-	buffers := out.Buffers()
-	buffers[idx].Release()
-	buffers[idx] = memory.NewBufferBytes(bufdata)
-	return out
-}
-
-func replaceBuffersInChild(data *array.Data, childIdx int, bufdata []byte) *array.Data {
-	out := data.Copy()
-	// assume updating only buffer[1] in child data
-	children := out.Children()
-	child := children[childIdx].(*array.Data).Copy()
-	children[childIdx].Release()
-	child.Buffers()[1].Release()
-	child.Buffers()[1] = memory.NewBufferBytes(bufdata)
-	children[childIdx] = child
-
-	return out
-}
-
-func replaceBuffersInDict(data *array.Data, bufferIdx int, bufdata []byte) *array.Data {
-	out := data.Copy()
-	dictData := out.Dictionary().(*array.Data).Copy()
-	dictData.Buffers()[bufferIdx].Release()
-	dictData.Buffers()[bufferIdx] = memory.NewBufferBytes(bufdata)
-	defer dictData.Release()
-	out.SetDictionary(dictData)
-	return out
-}
-
-func TestSwapEndianArrayDataBinary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	// binary type assumes the json string data is base64 encoded
-	// MDEyMw== -> 0123
-	// NDU= -> 45
-	arr, _, err := array.FromJSON(mem, arrow.BinaryTypes.Binary, strings.NewReader(`["MDEyMw==", null, "NDU="]`))
-	require.NoError(t, err)
-	defer arr.Release()
-
-	var offsets []byte
-	if endian.IsBigEndian {
-		offsets = []byte{0, 0, 0, 0, 4, 0, 0, 0, 4, 0, 0, 0, 6, 0, 0, 0}
-	} else {
-		offsets = []byte{0, 0, 0, 0, 0, 0, 0, 4, 0, 0, 0, 4, 0, 0, 0, 6}
-	}
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffer(expected, 1, offsets)
-	defer test.Release()
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
-
-func TestSwapEndianArrayString(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	arr, _, err := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["ABCD", null, "EF"]`))
-	require.NoError(t, err)
-	defer arr.Release()
-
-	var offsets []byte
-	if endian.IsBigEndian {
-		offsets = []byte{0, 0, 0, 0, 4, 0, 0, 0, 4, 0, 0, 0, 6, 0, 0, 0}
-	} else {
-		offsets = []byte{0, 0, 0, 0, 0, 0, 0, 4, 0, 0, 0, 4, 0, 0, 0, 6}
-	}
-
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffer(expected, 1, offsets)
-	defer test.Release()
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
-
-func TestSwapEndianArrayListType(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := arrow.ListOf(arrow.PrimitiveTypes.Int32)
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[[0, 1, 2, 3], null, [4, 5]]`))
-	require.NoError(t, err)
-	defer arr.Release()
-
-	var (
-		offsets, data []byte
-	)
-	if endian.IsBigEndian {
-		offsets = []byte{0, 0, 0, 0, 4, 0, 0, 0, 4, 0, 0, 0, 6, 0, 0, 0}
-		data = []byte{0, 0, 0, 0, 1, 0, 0, 0, 2, 0, 0, 0, 3, 0, 0, 0, 4, 0, 0, 0, 5, 0, 0, 0}
-	} else {
-		offsets = []byte{0, 0, 0, 0, 0, 0, 0, 4, 0, 0, 0, 4, 0, 0, 0, 6}
-		data = []byte{0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 2, 0, 0, 0, 3, 0, 0, 0, 4, 0, 0, 0, 5}
-	}
-
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffer(expected, 1, offsets)
-	defer test.Release()
-	test = replaceBuffersInChild(test, 0, data)
-	defer test.Release()
-
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
-
-func TestSwapEndianArrayFixedSizeList(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := arrow.FixedSizeListOf(2, arrow.PrimitiveTypes.Int32)
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[[0, 1], null, [2, 3]]`))
-	require.NoError(t, err)
-	defer arr.Release()
-
-	var data []byte
-	if endian.IsBigEndian {
-		data = []byte{0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 3, 0, 0, 0}
-	} else {
-		data = []byte{0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 3}
-	}
-
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffersInChild(expected, 0, data)
-	defer test.Release()
-
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
-
-func TestSwapEndianArrayDictType(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.PrimitiveTypes.Int16}
-	dict, _, err := array.FromJSON(mem, dt.ValueType, strings.NewReader(`[4, 5, 6, 7]`))
-	require.NoError(t, err)
-	defer dict.Release()
-
-	indices, _, _ := array.FromJSON(mem, dt.IndexType, strings.NewReader("[0, 2, 3]"))
-	defer indices.Release()
-
-	arr := array.NewDictionaryArray(dt, indices, dict)
-	defer arr.Release()
-
-	var (
-		data1, data2 []byte
-	)
-	if endian.IsBigEndian {
-		data1 = []byte{0, 0, 0, 0, 2, 0, 0, 0, 3, 0, 0, 0}
-		data2 = []byte{4, 0, 5, 0, 6, 0, 7, 0}
-	} else {
-		data1 = []byte{0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 3}
-		data2 = []byte{0, 4, 0, 5, 0, 6, 0, 7}
-	}
-
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffer(expected, 1, data1)
-	defer test.Release()
-	test = replaceBuffersInDict(test, 1, data2)
-	defer test.Release()
-
-	// dictionary must be explicitly swapped!
-	assert.NoError(t, swapEndianArrayData(test.Dictionary().(*array.Data)))
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
-
-func TestSwapEndianArrayStruct(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	arr, _, err := array.FromJSON(mem, arrow.StructOf(
-		arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
-	), strings.NewReader(`[{"a": 4, "b": null}, {"a": null, "b": "foo"}]`))
-	require.NoError(t, err)
-	defer arr.Release()
-
-	var data1, data2 []byte
-	if endian.IsBigEndian {
-		data1 = []byte{4, 0, 0, 0, 0, 0, 0, 0}
-		data2 = []byte{0, 0, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0}
-	} else {
-		data1 = []byte{0, 0, 0, 4, 0, 0, 0, 0}
-		data2 = []byte{0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3}
-	}
-
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffersInChild(expected, 0, data1)
-	defer test.Release()
-	test = replaceBuffersInChild(test, 1, data2)
-	defer test.Release()
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
-
-func TestSwapEndianArrayExtensionType(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	arrInt16, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int16, strings.NewReader(`[0, 1, 2, 3]`))
-	defer arrInt16.Release()
-
-	extData := array.NewData(types.NewSmallintType(), arrInt16.Len(), arrInt16.Data().Buffers(), nil, 0, 0)
-	defer extData.Release()
-
-	arr := array.MakeFromData(extData)
-	defer arr.Release()
-
-	var data []byte
-	if endian.IsBigEndian {
-		data = []byte{0, 0, 1, 0, 2, 0, 3, 0}
-	} else {
-		data = []byte{0, 0, 0, 1, 0, 2, 0, 3}
-	}
-
-	expected := arr.Data().(*array.Data)
-	test := replaceBuffer(expected, 1, data)
-	defer test.Release()
-	AssertArrayDataEqualWithSwappedEndian(t, test, expected)
-}
diff --git a/go/arrow/ipc/file_reader.go b/go/arrow/ipc/file_reader.go
deleted file mode 100644
index 947bbd474328f..0000000000000
--- a/go/arrow/ipc/file_reader.go
+++ /dev/null
@@ -1,770 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"bytes"
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// FileReader is an Arrow file reader.
-type FileReader struct {
-	r ReadAtSeeker
-
-	footer struct {
-		offset int64
-		buffer *memory.Buffer
-		data   *flatbuf.Footer
-	}
-
-	// fields dictTypeMap
-	memo dictutils.Memo
-
-	schema *arrow.Schema
-	record arrow.Record
-
-	irec int   // current record index. used for the arrio.Reader interface
-	err  error // last error
-
-	mem            memory.Allocator
-	swapEndianness bool
-}
-
-// NewFileReader opens an Arrow file using the provided reader r.
-func NewFileReader(r ReadAtSeeker, opts ...Option) (*FileReader, error) {
-	var (
-		cfg = newConfig(opts...)
-		err error
-
-		f = FileReader{
-			r:    r,
-			memo: dictutils.NewMemo(),
-			mem:  cfg.alloc,
-		}
-	)
-
-	if cfg.footer.offset <= 0 {
-		cfg.footer.offset, err = f.r.Seek(0, io.SeekEnd)
-		if err != nil {
-			return nil, fmt.Errorf("arrow/ipc: could retrieve footer offset: %w", err)
-		}
-	}
-	f.footer.offset = cfg.footer.offset
-
-	err = f.readFooter()
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not decode footer: %w", err)
-	}
-
-	err = f.readSchema(cfg.ensureNativeEndian)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not decode schema: %w", err)
-	}
-
-	if cfg.schema != nil && !cfg.schema.Equal(f.schema) {
-		return nil, fmt.Errorf("arrow/ipc: inconsistent schema for reading (got: %v, want: %v)", f.schema, cfg.schema)
-	}
-
-	return &f, err
-}
-
-func (f *FileReader) readFooter() error {
-	var err error
-
-	if f.footer.offset <= int64(len(Magic)*2+4) {
-		return fmt.Errorf("arrow/ipc: file too small (size=%d)", f.footer.offset)
-	}
-
-	eof := int64(len(Magic) + 4)
-	buf := make([]byte, eof)
-	n, err := f.r.ReadAt(buf, f.footer.offset-eof)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not read footer: %w", err)
-	}
-	if n != len(buf) {
-		return fmt.Errorf("arrow/ipc: could not read %d bytes from end of file", len(buf))
-	}
-
-	if !bytes.Equal(buf[4:], Magic) {
-		return errNotArrowFile
-	}
-
-	size := int64(binary.LittleEndian.Uint32(buf[:4]))
-	if size <= 0 || size+int64(len(Magic)*2+4) > f.footer.offset {
-		return errInconsistentFileMetadata
-	}
-
-	buf = make([]byte, size)
-	n, err = f.r.ReadAt(buf, f.footer.offset-size-eof)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not read footer data: %w", err)
-	}
-	if n != len(buf) {
-		return fmt.Errorf("arrow/ipc: could not read %d bytes from footer data", len(buf))
-	}
-
-	f.footer.buffer = memory.NewBufferBytes(buf)
-	f.footer.data = flatbuf.GetRootAsFooter(buf, 0)
-	return err
-}
-
-func (f *FileReader) readSchema(ensureNativeEndian bool) error {
-	var (
-		err  error
-		kind dictutils.Kind
-	)
-
-	schema := f.footer.data.Schema(nil)
-	if schema == nil {
-		return fmt.Errorf("arrow/ipc: could not load schema from flatbuffer data")
-	}
-	f.schema, err = schemaFromFB(schema, &f.memo)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not read schema: %w", err)
-	}
-
-	if ensureNativeEndian && !f.schema.IsNativeEndian() {
-		f.swapEndianness = true
-		f.schema = f.schema.WithEndianness(endian.NativeEndian)
-	}
-
-	for i := 0; i < f.NumDictionaries(); i++ {
-		blk, err := f.dict(i)
-		if err != nil {
-			return fmt.Errorf("arrow/ipc: could not read dictionary[%d]: %w", i, err)
-		}
-		switch {
-		case !bitutil.IsMultipleOf8(blk.Offset):
-			return fmt.Errorf("arrow/ipc: invalid file offset=%d for dictionary %d", blk.Offset, i)
-		case !bitutil.IsMultipleOf8(int64(blk.Meta)):
-			return fmt.Errorf("arrow/ipc: invalid file metadata=%d position for dictionary %d", blk.Meta, i)
-		case !bitutil.IsMultipleOf8(blk.Body):
-			return fmt.Errorf("arrow/ipc: invalid file body=%d position for dictionary %d", blk.Body, i)
-		}
-
-		msg, err := blk.NewMessage()
-		if err != nil {
-			return err
-		}
-
-		kind, err = readDictionary(&f.memo, msg.meta, bytes.NewReader(msg.body.Bytes()), f.swapEndianness, f.mem)
-		if err != nil {
-			return err
-		}
-		if kind == dictutils.KindReplacement {
-			return errors.New("arrow/ipc: unsupported dictionary replacement in IPC file")
-		}
-	}
-
-	return err
-}
-
-func (f *FileReader) block(i int) (fileBlock, error) {
-	var blk flatbuf.Block
-	if !f.footer.data.RecordBatches(&blk, i) {
-		return fileBlock{}, fmt.Errorf("arrow/ipc: could not extract file block %d", i)
-	}
-
-	return fileBlock{
-		Offset: blk.Offset(),
-		Meta:   blk.MetaDataLength(),
-		Body:   blk.BodyLength(),
-		r:      f.r,
-		mem:    f.mem,
-	}, nil
-}
-
-func (f *FileReader) dict(i int) (fileBlock, error) {
-	var blk flatbuf.Block
-	if !f.footer.data.Dictionaries(&blk, i) {
-		return fileBlock{}, fmt.Errorf("arrow/ipc: could not extract dictionary block %d", i)
-	}
-
-	return fileBlock{
-		Offset: blk.Offset(),
-		Meta:   blk.MetaDataLength(),
-		Body:   blk.BodyLength(),
-		r:      f.r,
-		mem:    f.mem,
-	}, nil
-}
-
-func (f *FileReader) Schema() *arrow.Schema {
-	return f.schema
-}
-
-func (f *FileReader) NumDictionaries() int {
-	if f.footer.data == nil {
-		return 0
-	}
-	return f.footer.data.DictionariesLength()
-}
-
-func (f *FileReader) NumRecords() int {
-	return f.footer.data.RecordBatchesLength()
-}
-
-func (f *FileReader) Version() MetadataVersion {
-	return MetadataVersion(f.footer.data.Version())
-}
-
-// Close cleans up resources used by the File.
-// Close does not close the underlying reader.
-func (f *FileReader) Close() error {
-	if f.footer.data != nil {
-		f.footer.data = nil
-	}
-
-	if f.footer.buffer != nil {
-		f.footer.buffer.Release()
-		f.footer.buffer = nil
-	}
-
-	if f.record != nil {
-		f.record.Release()
-		f.record = nil
-	}
-	return nil
-}
-
-// Record returns the i-th record from the file.
-// The returned value is valid until the next call to Record.
-// Users need to call Retain on that Record to keep it valid for longer.
-func (f *FileReader) Record(i int) (arrow.Record, error) {
-	record, err := f.RecordAt(i)
-	if err != nil {
-		return nil, err
-	}
-
-	if f.record != nil {
-		f.record.Release()
-	}
-
-	f.record = record
-	return record, nil
-}
-
-// Record returns the i-th record from the file. Ownership is transferred to the
-// caller and must call Release() to free the memory. This method is safe to
-// call concurrently.
-func (f *FileReader) RecordAt(i int) (arrow.Record, error) {
-	if i < 0 || i > f.NumRecords() {
-		panic("arrow/ipc: record index out of bounds")
-	}
-
-	blk, err := f.block(i)
-	if err != nil {
-		return nil, err
-	}
-	switch {
-	case !bitutil.IsMultipleOf8(blk.Offset):
-		return nil, fmt.Errorf("arrow/ipc: invalid file offset=%d for record %d", blk.Offset, i)
-	case !bitutil.IsMultipleOf8(int64(blk.Meta)):
-		return nil, fmt.Errorf("arrow/ipc: invalid file metadata=%d position for record %d", blk.Meta, i)
-	case !bitutil.IsMultipleOf8(blk.Body):
-		return nil, fmt.Errorf("arrow/ipc: invalid file body=%d position for record %d", blk.Body, i)
-	}
-
-	msg, err := blk.NewMessage()
-	if err != nil {
-		return nil, err
-	}
-	defer msg.Release()
-
-	if msg.Type() != MessageRecordBatch {
-		return nil, fmt.Errorf("arrow/ipc: message %d is not a Record", i)
-	}
-
-	return newRecord(f.schema, &f.memo, msg.meta, bytes.NewReader(msg.body.Bytes()), f.swapEndianness, f.mem), nil
-}
-
-// Read reads the current record from the underlying stream and an error, if any.
-// When the Reader reaches the end of the underlying stream, it returns (nil, io.EOF).
-//
-// The returned record value is valid until the next call to Read.
-// Users need to call Retain on that Record to keep it valid for longer.
-func (f *FileReader) Read() (rec arrow.Record, err error) {
-	if f.irec == f.NumRecords() {
-		return nil, io.EOF
-	}
-	rec, f.err = f.Record(f.irec)
-	f.irec++
-	return rec, f.err
-}
-
-// ReadAt reads the i-th record from the underlying stream and an error, if any.
-func (f *FileReader) ReadAt(i int64) (arrow.Record, error) {
-	return f.Record(int(i))
-}
-
-func newRecord(schema *arrow.Schema, memo *dictutils.Memo, meta *memory.Buffer, body ReadAtSeeker, swapEndianness bool, mem memory.Allocator) arrow.Record {
-	var (
-		msg   = flatbuf.GetRootAsMessage(meta.Bytes(), 0)
-		md    flatbuf.RecordBatch
-		codec decompressor
-	)
-	initFB(&md, msg.Header)
-	rows := md.Length()
-
-	bodyCompress := md.Compression(nil)
-	if bodyCompress != nil {
-		codec = getDecompressor(bodyCompress.Codec())
-		defer codec.Close()
-	}
-
-	ctx := &arrayLoaderContext{
-		src: ipcSource{
-			meta:  &md,
-			r:     body,
-			codec: codec,
-			mem:   mem,
-		},
-		memo:    memo,
-		max:     kMaxNestingDepth,
-		version: MetadataVersion(msg.Version()),
-	}
-
-	pos := dictutils.NewFieldPos()
-	cols := make([]arrow.Array, schema.NumFields())
-	for i := 0; i < schema.NumFields(); i++ {
-		data := ctx.loadArray(schema.Field(i).Type)
-		defer data.Release()
-
-		if err := dictutils.ResolveFieldDict(memo, data, pos.Child(int32(i)), mem); err != nil {
-			panic(err)
-		}
-
-		if swapEndianness {
-			swapEndianArrayData(data.(*array.Data))
-		}
-
-		cols[i] = array.MakeFromData(data)
-		defer cols[i].Release()
-	}
-
-	return array.NewRecord(schema, cols, rows)
-}
-
-type ipcSource struct {
-	meta  *flatbuf.RecordBatch
-	r     ReadAtSeeker
-	codec decompressor
-	mem   memory.Allocator
-}
-
-func (src *ipcSource) buffer(i int) *memory.Buffer {
-	var buf flatbuf.Buffer
-	if !src.meta.Buffers(&buf, i) {
-		panic("arrow/ipc: buffer index out of bound")
-	}
-
-	if buf.Length() == 0 {
-		return memory.NewBufferBytes(nil)
-	}
-
-	raw := memory.NewResizableBuffer(src.mem)
-	if src.codec == nil {
-		raw.Resize(int(buf.Length()))
-		_, err := src.r.ReadAt(raw.Bytes(), buf.Offset())
-		if err != nil {
-			panic(err)
-		}
-	} else {
-		sr := io.NewSectionReader(src.r, buf.Offset(), buf.Length())
-		var uncompressedSize uint64
-
-		err := binary.Read(sr, binary.LittleEndian, &uncompressedSize)
-		if err != nil {
-			panic(err)
-		}
-
-		var r io.Reader = sr
-		// check for an uncompressed buffer
-		if int64(uncompressedSize) != -1 {
-			raw.Resize(int(uncompressedSize))
-			src.codec.Reset(sr)
-			r = src.codec
-		} else {
-			raw.Resize(int(buf.Length() - 8))
-		}
-
-		if _, err = io.ReadFull(r, raw.Bytes()); err != nil {
-			panic(err)
-		}
-	}
-
-	return raw
-}
-
-func (src *ipcSource) fieldMetadata(i int) *flatbuf.FieldNode {
-	var node flatbuf.FieldNode
-	if !src.meta.Nodes(&node, i) {
-		panic("arrow/ipc: field metadata out of bound")
-	}
-	return &node
-}
-
-func (src *ipcSource) variadicCount(i int) int64 {
-	return src.meta.VariadicBufferCounts(i)
-}
-
-type arrayLoaderContext struct {
-	src       ipcSource
-	ifield    int
-	ibuffer   int
-	ivariadic int
-	max       int
-	memo      *dictutils.Memo
-	version   MetadataVersion
-}
-
-func (ctx *arrayLoaderContext) field() *flatbuf.FieldNode {
-	field := ctx.src.fieldMetadata(ctx.ifield)
-	ctx.ifield++
-	return field
-}
-
-func (ctx *arrayLoaderContext) buffer() *memory.Buffer {
-	buf := ctx.src.buffer(ctx.ibuffer)
-	ctx.ibuffer++
-	return buf
-}
-
-func (ctx *arrayLoaderContext) variadic() int64 {
-	v := ctx.src.variadicCount(ctx.ivariadic)
-	ctx.ivariadic++
-	return v
-}
-
-func (ctx *arrayLoaderContext) loadArray(dt arrow.DataType) arrow.ArrayData {
-	switch dt := dt.(type) {
-	case *arrow.NullType:
-		return ctx.loadNull()
-
-	case *arrow.DictionaryType:
-		indices := ctx.loadPrimitive(dt.IndexType)
-		defer indices.Release()
-		return array.NewData(dt, indices.Len(), indices.Buffers(), indices.Children(), indices.NullN(), indices.Offset())
-
-	case *arrow.BooleanType,
-		*arrow.Int8Type, *arrow.Int16Type, *arrow.Int32Type, *arrow.Int64Type,
-		*arrow.Uint8Type, *arrow.Uint16Type, *arrow.Uint32Type, *arrow.Uint64Type,
-		*arrow.Float16Type, *arrow.Float32Type, *arrow.Float64Type,
-		*arrow.Decimal128Type, *arrow.Decimal256Type,
-		*arrow.Time32Type, *arrow.Time64Type,
-		*arrow.TimestampType,
-		*arrow.Date32Type, *arrow.Date64Type,
-		*arrow.MonthIntervalType, *arrow.DayTimeIntervalType, *arrow.MonthDayNanoIntervalType,
-		*arrow.DurationType:
-		return ctx.loadPrimitive(dt)
-
-	case *arrow.BinaryType, *arrow.StringType, *arrow.LargeStringType, *arrow.LargeBinaryType:
-		return ctx.loadBinary(dt)
-
-	case arrow.BinaryViewDataType:
-		return ctx.loadBinaryView(dt)
-
-	case *arrow.FixedSizeBinaryType:
-		return ctx.loadFixedSizeBinary(dt)
-
-	case *arrow.ListType:
-		return ctx.loadList(dt)
-
-	case *arrow.LargeListType:
-		return ctx.loadList(dt)
-
-	case *arrow.ListViewType:
-		return ctx.loadListView(dt)
-
-	case *arrow.LargeListViewType:
-		return ctx.loadListView(dt)
-
-	case *arrow.FixedSizeListType:
-		return ctx.loadFixedSizeList(dt)
-
-	case *arrow.StructType:
-		return ctx.loadStruct(dt)
-
-	case *arrow.MapType:
-		return ctx.loadMap(dt)
-
-	case arrow.ExtensionType:
-		storage := ctx.loadArray(dt.StorageType())
-		defer storage.Release()
-		return array.NewData(dt, storage.Len(), storage.Buffers(), storage.Children(), storage.NullN(), storage.Offset())
-
-	case *arrow.RunEndEncodedType:
-		field, buffers := ctx.loadCommon(dt.ID(), 1)
-		defer memory.ReleaseBuffers(buffers)
-
-		runEnds := ctx.loadChild(dt.RunEnds())
-		defer runEnds.Release()
-		values := ctx.loadChild(dt.Encoded())
-		defer values.Release()
-
-		return array.NewData(dt, int(field.Length()), buffers, []arrow.ArrayData{runEnds, values}, int(field.NullCount()), 0)
-
-	case arrow.UnionType:
-		return ctx.loadUnion(dt)
-
-	default:
-		panic(fmt.Errorf("arrow/ipc: array type %T not handled yet", dt))
-	}
-}
-
-func (ctx *arrayLoaderContext) loadCommon(typ arrow.Type, nbufs int) (*flatbuf.FieldNode, []*memory.Buffer) {
-	buffers := make([]*memory.Buffer, 0, nbufs)
-	field := ctx.field()
-
-	var buf *memory.Buffer
-
-	if internal.HasValidityBitmap(typ, flatbuf.MetadataVersion(ctx.version)) {
-		switch field.NullCount() {
-		case 0:
-			ctx.ibuffer++
-		default:
-			buf = ctx.buffer()
-		}
-	}
-	buffers = append(buffers, buf)
-
-	return field, buffers
-}
-
-func (ctx *arrayLoaderContext) loadChild(dt arrow.DataType) arrow.ArrayData {
-	if ctx.max == 0 {
-		panic("arrow/ipc: nested type limit reached")
-	}
-	ctx.max--
-	sub := ctx.loadArray(dt)
-	ctx.max++
-	return sub
-}
-
-func (ctx *arrayLoaderContext) loadNull() arrow.ArrayData {
-	field := ctx.field()
-	return array.NewData(arrow.Null, int(field.Length()), nil, nil, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadPrimitive(dt arrow.DataType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 2)
-
-	switch field.Length() {
-	case 0:
-		buffers = append(buffers, nil)
-		ctx.ibuffer++
-	default:
-		buffers = append(buffers, ctx.buffer())
-	}
-
-	defer memory.ReleaseBuffers(buffers)
-
-	return array.NewData(dt, int(field.Length()), buffers, nil, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadBinary(dt arrow.DataType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 3)
-	buffers = append(buffers, ctx.buffer(), ctx.buffer())
-	defer memory.ReleaseBuffers(buffers)
-
-	return array.NewData(dt, int(field.Length()), buffers, nil, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadBinaryView(dt arrow.DataType) arrow.ArrayData {
-	nVariadicBufs := ctx.variadic()
-	field, buffers := ctx.loadCommon(dt.ID(), 2+int(nVariadicBufs))
-	buffers = append(buffers, ctx.buffer())
-	for i := 0; i < int(nVariadicBufs); i++ {
-		buffers = append(buffers, ctx.buffer())
-	}
-	defer memory.ReleaseBuffers(buffers)
-
-	return array.NewData(dt, int(field.Length()), buffers, nil, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadFixedSizeBinary(dt *arrow.FixedSizeBinaryType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 2)
-	buffers = append(buffers, ctx.buffer())
-	defer memory.ReleaseBuffers(buffers)
-
-	return array.NewData(dt, int(field.Length()), buffers, nil, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadMap(dt *arrow.MapType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 2)
-	buffers = append(buffers, ctx.buffer())
-	defer memory.ReleaseBuffers(buffers)
-
-	sub := ctx.loadChild(dt.Elem())
-	defer sub.Release()
-
-	return array.NewData(dt, int(field.Length()), buffers, []arrow.ArrayData{sub}, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadList(dt arrow.ListLikeType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 2)
-	buffers = append(buffers, ctx.buffer())
-	defer memory.ReleaseBuffers(buffers)
-
-	sub := ctx.loadChild(dt.Elem())
-	defer sub.Release()
-
-	return array.NewData(dt, int(field.Length()), buffers, []arrow.ArrayData{sub}, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadListView(dt arrow.VarLenListLikeType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 3)
-	buffers = append(buffers, ctx.buffer(), ctx.buffer())
-	defer memory.ReleaseBuffers(buffers)
-
-	sub := ctx.loadChild(dt.Elem())
-	defer sub.Release()
-
-	return array.NewData(dt, int(field.Length()), buffers, []arrow.ArrayData{sub}, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadFixedSizeList(dt *arrow.FixedSizeListType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 1)
-	defer memory.ReleaseBuffers(buffers)
-
-	sub := ctx.loadChild(dt.Elem())
-	defer sub.Release()
-
-	return array.NewData(dt, int(field.Length()), buffers, []arrow.ArrayData{sub}, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadStruct(dt *arrow.StructType) arrow.ArrayData {
-	field, buffers := ctx.loadCommon(dt.ID(), 1)
-	defer memory.ReleaseBuffers(buffers)
-
-	subs := make([]arrow.ArrayData, dt.NumFields())
-	for i, f := range dt.Fields() {
-		subs[i] = ctx.loadChild(f.Type)
-	}
-	defer func() {
-		for i := range subs {
-			subs[i].Release()
-		}
-	}()
-
-	return array.NewData(dt, int(field.Length()), buffers, subs, int(field.NullCount()), 0)
-}
-
-func (ctx *arrayLoaderContext) loadUnion(dt arrow.UnionType) arrow.ArrayData {
-	// Sparse unions have 2 buffers (a nil validity bitmap, and the type ids)
-	nBuffers := 2
-	// Dense unions have a third buffer, the offsets
-	if dt.Mode() == arrow.DenseMode {
-		nBuffers = 3
-	}
-
-	field, buffers := ctx.loadCommon(dt.ID(), nBuffers)
-	if field.NullCount() != 0 && buffers[0] != nil {
-		panic("arrow/ipc: cannot read pre-1.0.0 union array with top-level validity bitmap")
-	}
-
-	switch field.Length() {
-	case 0:
-		buffers = append(buffers, memory.NewBufferBytes([]byte{}))
-		ctx.ibuffer++
-		if dt.Mode() == arrow.DenseMode {
-			buffers = append(buffers, nil)
-			ctx.ibuffer++
-		}
-	default:
-		buffers = append(buffers, ctx.buffer())
-		if dt.Mode() == arrow.DenseMode {
-			buffers = append(buffers, ctx.buffer())
-		}
-	}
-
-	defer memory.ReleaseBuffers(buffers)
-	subs := make([]arrow.ArrayData, dt.NumFields())
-	for i, f := range dt.Fields() {
-		subs[i] = ctx.loadChild(f.Type)
-	}
-	defer func() {
-		for i := range subs {
-			subs[i].Release()
-		}
-	}()
-	return array.NewData(dt, int(field.Length()), buffers, subs, 0, 0)
-}
-
-func readDictionary(memo *dictutils.Memo, meta *memory.Buffer, body ReadAtSeeker, swapEndianness bool, mem memory.Allocator) (dictutils.Kind, error) {
-	var (
-		msg   = flatbuf.GetRootAsMessage(meta.Bytes(), 0)
-		md    flatbuf.DictionaryBatch
-		data  flatbuf.RecordBatch
-		codec decompressor
-	)
-	initFB(&md, msg.Header)
-
-	md.Data(&data)
-	bodyCompress := data.Compression(nil)
-	if bodyCompress != nil {
-		codec = getDecompressor(bodyCompress.Codec())
-		defer codec.Close()
-	}
-
-	id := md.Id()
-	// look up the dictionary value type, which must have been added to the
-	// memo already before calling this function
-	valueType, ok := memo.Type(id)
-	if !ok {
-		return 0, fmt.Errorf("arrow/ipc: no dictionary type found with id: %d", id)
-	}
-
-	ctx := &arrayLoaderContext{
-		src: ipcSource{
-			meta:  &data,
-			codec: codec,
-			r:     body,
-			mem:   mem,
-		},
-		memo: memo,
-		max:  kMaxNestingDepth,
-	}
-
-	dict := ctx.loadArray(valueType)
-	defer dict.Release()
-
-	if swapEndianness {
-		swapEndianArrayData(dict.(*array.Data))
-	}
-
-	if md.IsDelta() {
-		memo.AddDelta(id, dict)
-		return dictutils.KindDelta, nil
-	}
-	if memo.AddOrReplace(id, dict) {
-		return dictutils.KindNew, nil
-	}
-	return dictutils.KindReplacement, nil
-}
diff --git a/go/arrow/ipc/file_test.go b/go/arrow/ipc/file_test.go
deleted file mode 100644
index b9a4547a5126a..0000000000000
--- a/go/arrow/ipc/file_test.go
+++ /dev/null
@@ -1,117 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc_test
-
-import (
-	"bytes"
-	"fmt"
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/require"
-)
-
-func TestFile(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			f, err := os.CreateTemp(tempDir, "go-arrow-file-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			arrdata.WriteFile(t, f, mem, recs[0].Schema(), recs)
-			arrdata.CheckArrowFile(t, f, mem, recs[0].Schema(), recs)
-			arrdata.CheckArrowConcurrentFile(t, f, mem, recs[0].Schema(), recs)
-		})
-	}
-}
-
-func TestFileCompressed(t *testing.T) {
-	tempDir := t.TempDir()
-
-	compressTypes := []flatbuf.CompressionType{
-		flatbuf.CompressionTypeLZ4_FRAME, flatbuf.CompressionTypeZSTD,
-	}
-
-	for _, codec := range compressTypes {
-		for name, recs := range arrdata.Records {
-			for _, n := range []int{0, 1, 2, 3} {
-				t.Run(fmt.Sprintf("%s compress concurrency %d", name, n), func(t *testing.T) {
-					mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-					defer mem.AssertSize(t, 0)
-
-					f, err := os.CreateTemp(tempDir, "go-arrow-file-")
-					if err != nil {
-						t.Fatal(err)
-					}
-					defer f.Close()
-
-					arrdata.WriteFileCompressed(t, f, mem, recs[0].Schema(), recs, codec, n)
-					arrdata.CheckArrowFile(t, f, mem, recs[0].Schema(), recs)
-					arrdata.CheckArrowConcurrentFile(t, f, mem, recs[0].Schema(), recs)
-				})
-			}
-		}
-	}
-}
-
-func TestFileEmbedsStream(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	recs := arrdata.Records["primitives"]
-	schema := recs[0].Schema()
-
-	var buf bytes.Buffer
-	w, err := ipc.NewFileWriter(&buf, ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	require.NoError(t, err)
-	defer w.Close()
-
-	for _, rec := range recs {
-		require.NoError(t, w.Write(rec))
-	}
-
-	require.NoError(t, w.Close())
-
-	// we should be able to read a valid ipc stream within the ipc file
-
-	// create an ipc stream reader, skipping the file magic+padding bytes
-	rdr, err := ipc.NewReader(bytes.NewReader(buf.Bytes()[8:]), ipc.WithSchema(schema), ipc.WithAllocator(mem))
-	require.NoError(t, err)
-	defer rdr.Release()
-
-	// the stream reader should know to stop before the footer if the EOS indicator is properly written
-	var i int
-	for rdr.Next() {
-		rec := rdr.Record()
-		require.Truef(t, array.RecordEqual(rec, recs[i]), "records[%d] differ", i)
-		i++
-	}
-
-	require.NoError(t, rdr.Err())
-}
diff --git a/go/arrow/ipc/file_writer.go b/go/arrow/ipc/file_writer.go
deleted file mode 100644
index 9a3d7d3dbeb02..0000000000000
--- a/go/arrow/ipc/file_writer.go
+++ /dev/null
@@ -1,354 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"encoding/binary"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// PayloadWriter is an interface for injecting a different payloadwriter
-// allowing more reusability with the Writer object with other scenarios,
-// such as with Flight data
-type PayloadWriter interface {
-	Start() error
-	WritePayload(Payload) error
-	Close() error
-}
-
-type fileWriter struct {
-	streamWriter
-
-	schema *arrow.Schema
-	dicts  []fileBlock
-	recs   []fileBlock
-}
-
-func (w *fileWriter) Start() error {
-	var err error
-
-	// only necessary to align to 8-byte boundary at the start of the file
-	_, err = w.Write(Magic)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not write magic Arrow bytes: %w", err)
-	}
-
-	err = w.align(kArrowIPCAlignment)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not align start block: %w", err)
-	}
-
-	return w.streamWriter.Start()
-}
-
-func (w *fileWriter) WritePayload(p Payload) error {
-	blk := fileBlock{Offset: w.pos, Meta: 0, Body: p.size}
-	n, err := writeIPCPayload(w, p)
-	if err != nil {
-		return err
-	}
-
-	blk.Meta = int32(n)
-
-	switch flatbuf.MessageHeader(p.msg) {
-	case flatbuf.MessageHeaderDictionaryBatch:
-		w.dicts = append(w.dicts, blk)
-	case flatbuf.MessageHeaderRecordBatch:
-		w.recs = append(w.recs, blk)
-	}
-
-	return nil
-}
-
-func (w *fileWriter) Close() error {
-	var err error
-
-	if err = w.streamWriter.Close(); err != nil {
-		return err
-	}
-
-	pos := w.pos
-	if err = writeFileFooter(w.schema, w.dicts, w.recs, w); err != nil {
-		return fmt.Errorf("arrow/ipc: could not write file footer: %w", err)
-	}
-
-	size := w.pos - pos
-	if size <= 0 {
-		return fmt.Errorf("arrow/ipc: invalid file footer size (size=%d)", size)
-	}
-
-	buf := make([]byte, 4)
-	binary.LittleEndian.PutUint32(buf, uint32(size))
-	_, err = w.Write(buf)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not write file footer size: %w", err)
-	}
-
-	_, err = w.Write(Magic)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not write Arrow magic bytes: %w", err)
-	}
-
-	return nil
-}
-
-func (w *fileWriter) align(align int32) error {
-	remainder := paddedLength(w.pos, align) - w.pos
-	if remainder == 0 {
-		return nil
-	}
-
-	_, err := w.Write(paddingBytes[:int(remainder)])
-	return err
-}
-
-func writeIPCPayload(w io.Writer, p Payload) (int, error) {
-	n, err := writeMessage(p.meta, kArrowIPCAlignment, w)
-	if err != nil {
-		return n, err
-	}
-
-	// now write the buffers
-	for _, buf := range p.body {
-		var (
-			size    int64
-			padding int64
-		)
-
-		// the buffer might be null if we are handling zero row lengths.
-		if buf != nil {
-			size = int64(buf.Len())
-			padding = bitutil.CeilByte64(size) - size
-		}
-
-		if size > 0 {
-			_, err = w.Write(buf.Bytes())
-			if err != nil {
-				return n, fmt.Errorf("arrow/ipc: could not write payload message body: %w", err)
-			}
-		}
-
-		if padding > 0 {
-			_, err = w.Write(paddingBytes[:padding])
-			if err != nil {
-				return n, fmt.Errorf("arrow/ipc: could not write payload message padding: %w", err)
-			}
-		}
-	}
-
-	return n, err
-}
-
-// Payload is the underlying message object which is passed to the payload writer
-// for actually writing out ipc messages
-type Payload struct {
-	msg  MessageType
-	meta *memory.Buffer
-	body []*memory.Buffer
-	size int64 // length of body
-}
-
-// Meta returns the buffer containing the metadata for this payload,
-// callers must call Release on the buffer
-func (p *Payload) Meta() *memory.Buffer {
-	if p.meta != nil {
-		p.meta.Retain()
-	}
-	return p.meta
-}
-
-// SerializeBody serializes the body buffers and writes them to the provided
-// writer.
-func (p *Payload) SerializeBody(w io.Writer) error {
-	for _, data := range p.body {
-		if data == nil {
-			continue
-		}
-
-		size := int64(data.Len())
-		padding := bitutil.CeilByte64(size) - size
-		if size > 0 {
-			if _, err := w.Write(data.Bytes()); err != nil {
-				return fmt.Errorf("arrow/ipc: could not write payload message body: %w", err)
-			}
-
-			if padding > 0 {
-				if _, err := w.Write(paddingBytes[:padding]); err != nil {
-					return fmt.Errorf("arrow/ipc: could not write payload message padding bytes: %w", err)
-				}
-			}
-		}
-	}
-	return nil
-}
-
-func (p *Payload) Release() {
-	if p.meta != nil {
-		p.meta.Release()
-		p.meta = nil
-	}
-	for i, b := range p.body {
-		if b == nil {
-			continue
-		}
-		b.Release()
-		p.body[i] = nil
-	}
-}
-
-type payloads []Payload
-
-func (ps payloads) Release() {
-	for i := range ps {
-		ps[i].Release()
-	}
-}
-
-// FileWriter is an Arrow file writer.
-type FileWriter struct {
-	w io.Writer
-
-	mem memory.Allocator
-
-	headerStarted bool
-	footerWritten bool
-
-	pw PayloadWriter
-
-	schema          *arrow.Schema
-	mapper          dictutils.Mapper
-	codec           flatbuf.CompressionType
-	compressNP      int
-	compressors     []compressor
-	minSpaceSavings *float64
-
-	// map of the last written dictionaries by id
-	// so we can avoid writing the same dictionary over and over
-	// also needed for correctness when writing IPC format which
-	// does not allow replacements or deltas.
-	lastWrittenDicts map[int64]arrow.Array
-}
-
-// NewFileWriter opens an Arrow file using the provided writer w.
-func NewFileWriter(w io.Writer, opts ...Option) (*FileWriter, error) {
-	var (
-		cfg = newConfig(opts...)
-		err error
-	)
-
-	f := FileWriter{
-		w:               w,
-		pw:              &fileWriter{streamWriter: streamWriter{w: w}, schema: cfg.schema},
-		mem:             cfg.alloc,
-		schema:          cfg.schema,
-		codec:           cfg.codec,
-		compressNP:      cfg.compressNP,
-		minSpaceSavings: cfg.minSpaceSavings,
-		compressors:     make([]compressor, cfg.compressNP),
-	}
-
-	return &f, err
-}
-
-func (f *FileWriter) Close() error {
-	err := f.checkStarted()
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not write empty file: %w", err)
-	}
-
-	if f.footerWritten {
-		return nil
-	}
-
-	err = f.pw.Close()
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not close payload writer: %w", err)
-	}
-	f.footerWritten = true
-
-	return nil
-}
-
-func (f *FileWriter) Write(rec arrow.Record) error {
-	schema := rec.Schema()
-	if schema == nil || !schema.Equal(f.schema) {
-		return errInconsistentSchema
-	}
-
-	if err := f.checkStarted(); err != nil {
-		return fmt.Errorf("arrow/ipc: could not write header: %w", err)
-	}
-
-	const allow64b = true
-	var (
-		data = Payload{msg: MessageRecordBatch}
-		enc  = newRecordEncoder(
-			f.mem, 0, kMaxNestingDepth, allow64b, f.codec, f.compressNP, f.minSpaceSavings, f.compressors,
-		)
-	)
-	defer data.Release()
-
-	err := writeDictionaryPayloads(f.mem, rec, true, false, &f.mapper, f.lastWrittenDicts, f.pw, enc)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: failure writing dictionary batches: %w", err)
-	}
-
-	enc.reset()
-	if err := enc.Encode(&data, rec); err != nil {
-		return fmt.Errorf("arrow/ipc: could not encode record to payload: %w", err)
-	}
-
-	return f.pw.WritePayload(data)
-}
-
-func (f *FileWriter) checkStarted() error {
-	if !f.headerStarted {
-		return f.start()
-	}
-	return nil
-}
-
-func (f *FileWriter) start() error {
-	f.headerStarted = true
-	err := f.pw.Start()
-	if err != nil {
-		return err
-	}
-
-	f.mapper.ImportSchema(f.schema)
-	f.lastWrittenDicts = make(map[int64]arrow.Array)
-
-	// write out schema payloads
-	ps := payloadFromSchema(f.schema, f.mem, &f.mapper)
-	defer ps.Release()
-
-	for _, data := range ps {
-		err = f.pw.WritePayload(data)
-		if err != nil {
-			return err
-		}
-	}
-
-	return nil
-}
diff --git a/go/arrow/ipc/ipc.go b/go/arrow/ipc/ipc.go
deleted file mode 100644
index 76d12f061efa5..0000000000000
--- a/go/arrow/ipc/ipc.go
+++ /dev/null
@@ -1,203 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-const (
-	errNotArrowFile             = errString("arrow/ipc: not an Arrow file")
-	errInconsistentFileMetadata = errString("arrow/ipc: file is smaller than indicated metadata size")
-	errInconsistentSchema       = errString("arrow/ipc: tried to write record batch with different schema")
-	errMaxRecursion             = errString("arrow/ipc: max recursion depth reached")
-	errBigArray                 = errString("arrow/ipc: array larger than 2^31-1 in length")
-
-	kArrowAlignment    = 64 // buffers are padded to 64b boundaries (for SIMD)
-	kTensorAlignment   = 64 // tensors are padded to 64b boundaries
-	kArrowIPCAlignment = 8  // align on 8b boundaries in IPC
-)
-
-var (
-	paddingBytes  [kArrowAlignment]byte
-	kEOS                 = [8]byte{0xFF, 0xFF, 0xFF, 0xFF, 0, 0, 0, 0} // end of stream message
-	kIPCContToken uint32 = 0xFFFFFFFF                                  // 32b continuation indicator for FlatBuffers 8b alignment
-)
-
-func paddedLength(nbytes int64, alignment int32) int64 {
-	align := int64(alignment)
-	return ((nbytes + align - 1) / align) * align
-}
-
-type errString string
-
-func (s errString) Error() string {
-	return string(s)
-}
-
-type ReadAtSeeker interface {
-	io.Reader
-	io.Seeker
-	io.ReaderAt
-}
-
-type config struct {
-	alloc  memory.Allocator
-	schema *arrow.Schema
-	footer struct {
-		offset int64
-	}
-	codec              flatbuf.CompressionType
-	compressNP         int
-	ensureNativeEndian bool
-	noAutoSchema       bool
-	emitDictDeltas     bool
-	minSpaceSavings    *float64
-}
-
-func newConfig(opts ...Option) *config {
-	cfg := &config{
-		alloc:              memory.NewGoAllocator(),
-		codec:              -1, // uncompressed
-		ensureNativeEndian: true,
-		compressNP:         1,
-	}
-
-	for _, opt := range opts {
-		opt(cfg)
-	}
-
-	return cfg
-}
-
-// Option is a functional option to configure opening or creating Arrow files
-// and streams.
-type Option func(*config)
-
-// WithFooterOffset specifies the Arrow footer position in bytes.
-func WithFooterOffset(offset int64) Option {
-	return func(cfg *config) {
-		cfg.footer.offset = offset
-	}
-}
-
-// WithAllocator specifies the Arrow memory allocator used while building records.
-func WithAllocator(mem memory.Allocator) Option {
-	return func(cfg *config) {
-		cfg.alloc = mem
-	}
-}
-
-// WithSchema specifies the Arrow schema to be used for reading or writing.
-func WithSchema(schema *arrow.Schema) Option {
-	return func(cfg *config) {
-		cfg.schema = schema
-	}
-}
-
-// WithLZ4 tells the writer to use LZ4 Frame compression on the data
-// buffers before writing. Requires >= Arrow 1.0.0 to read/decompress
-func WithLZ4() Option {
-	return func(cfg *config) {
-		cfg.codec = flatbuf.CompressionTypeLZ4_FRAME
-	}
-}
-
-// WithZstd tells the writer to use ZSTD compression on the data
-// buffers before writing. Requires >= Arrow 1.0.0 to read/decompress
-func WithZstd() Option {
-	return func(cfg *config) {
-		cfg.codec = flatbuf.CompressionTypeZSTD
-	}
-}
-
-// WithCompressConcurrency specifies a number of goroutines to spin up for
-// concurrent compression of the body buffers when writing compress IPC records.
-// If n <= 1 then compression will be done serially without goroutine
-// parallelization. Default is 1.
-func WithCompressConcurrency(n int) Option {
-	return func(cfg *config) {
-		if n <= 0 {
-			n = 1
-		}
-		cfg.compressNP = n
-	}
-}
-
-// WithEnsureNativeEndian specifies whether or not to automatically byte-swap
-// buffers with endian-sensitive data if the schema's endianness is not the
-// platform-native endianness. This includes all numeric types, temporal types,
-// decimal types, as well as the offset buffers of variable-sized binary and
-// list-like types.
-//
-// This is only relevant to ipc Reader objects, not to writers. This defaults
-// to true.
-func WithEnsureNativeEndian(v bool) Option {
-	return func(cfg *config) {
-		cfg.ensureNativeEndian = v
-	}
-}
-
-// WithDelayedReadSchema alters the ipc.Reader behavior to delay attempting
-// to read the schema from the stream until the first call to Next instead
-// of immediately attempting to read a schema from the stream when created.
-func WithDelayReadSchema(v bool) Option {
-	return func(cfg *config) {
-		cfg.noAutoSchema = v
-	}
-}
-
-// WithDictionaryDeltas specifies whether or not to emit dictionary deltas.
-func WithDictionaryDeltas(v bool) Option {
-	return func(cfg *config) {
-		cfg.emitDictDeltas = v
-	}
-}
-
-// WithMinSpaceSavings specifies a percentage of space savings for
-// compression to be applied to buffers.
-//
-// Space savings is calculated as (1.0 - compressedSize / uncompressedSize).
-//
-// For example, if minSpaceSavings = 0.1, a 100-byte body buffer won't
-// undergo compression if its expected compressed size exceeds 90 bytes.
-// If this option is unset, compression will be used indiscriminately. If
-// no codec was supplied, this option is ignored.
-//
-// Values outside of the range [0,1] are handled as errors.
-//
-// Note that enabling this option may result in unreadable data for Arrow
-// Go and C++ versions prior to 12.0.0.
-func WithMinSpaceSavings(savings float64) Option {
-	return func(cfg *config) {
-		cfg.minSpaceSavings = &savings
-	}
-}
-
-var (
-	_ arrio.Reader = (*Reader)(nil)
-	_ arrio.Writer = (*Writer)(nil)
-	_ arrio.Reader = (*FileReader)(nil)
-	_ arrio.Writer = (*FileWriter)(nil)
-
-	_ arrio.ReaderAt = (*FileReader)(nil)
-)
diff --git a/go/arrow/ipc/ipc_test.go b/go/arrow/ipc/ipc_test.go
deleted file mode 100644
index 7df9bc8c28bb0..0000000000000
--- a/go/arrow/ipc/ipc_test.go
+++ /dev/null
@@ -1,690 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc_test
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-	"io"
-	"math/rand"
-	"strconv"
-	"strings"
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestArrow12072(t *testing.T) {
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "idx", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "A", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "B", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "C", Type: arrow.BinaryTypes.String},
-		},
-		nil, // no metadata
-	)
-	mem := memory.NewGoAllocator()
-	counter := int64(0)
-
-	b := array.NewRecordBuilder(mem, schema)
-	defer b.Release()
-
-	const size = 3
-	for i := 0; i < size; i++ {
-		b.Field(0).(*array.Int64Builder).AppendValues([]int64{counter}, nil)
-		counter++
-		b.Field(1).(*array.Int64Builder).AppendValues(
-			[]int64{int64(rand.Intn(100))}, nil)
-		b.Field(2).(*array.Int64Builder).AppendValues(
-			[]int64{int64(rand.Intn(100))}, nil)
-		b.Field(3).(*array.StringBuilder).AppendValues(
-			[]string{strconv.Itoa(rand.Intn(100))}, nil)
-	}
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	tbl := array.NewTableFromRecords(schema, []arrow.Record{rec})
-	defer tbl.Release()
-
-	tr := array.NewTableReader(tbl, 1)
-	defer tr.Release()
-
-	data := []arrow.Record{}
-	for tr.Next() {
-		rec := tr.Record()
-		rec.Retain()
-		defer rec.Release()
-		data = append(data, rec)
-	}
-
-	// tests writing out and then reading back in slices of the same record of length 1 each
-	// testing the bug that was reported in ARROW-12072 involving offsets for string arrays
-	// and correct truncation of slices when writing ipc FixedWidthDataType
-	for _, rec := range data {
-		var buf []byte
-		assert.NotPanics(t, func() {
-			var output bytes.Buffer
-			w := ipc.NewWriter(&output, ipc.WithSchema(rec.Schema()))
-			assert.NoError(t, w.Write(rec))
-			assert.NoError(t, w.Close())
-			buf = output.Bytes()
-		})
-
-		assert.NotPanics(t, func() {
-			rdr, err := ipc.NewReader(bytes.NewReader(buf))
-			assert.NoError(t, err)
-			for rdr.Next() {
-				out := rdr.Record()
-				assert.Truef(t, array.RecordEqual(rec, out), "expected: %s\ngot: %s\n", rec, out)
-			}
-			assert.NoError(t, rdr.Err())
-		})
-	}
-}
-
-type testMessageReader struct {
-	counter int
-}
-
-func (r *testMessageReader) Message() (*ipc.Message, error) {
-	if r.counter == 0 {
-		r.counter++
-		// return schema message
-		schema := arrow.NewSchema([]arrow.Field{
-			{Name: "f1", Type: arrow.PrimitiveTypes.Int32},
-		}, nil)
-		var buf bytes.Buffer
-		writer := ipc.NewWriter(&buf, ipc.WithSchema(schema))
-		if err := writer.Close(); err != nil {
-			return nil, err
-		}
-		reader := ipc.NewMessageReader(&buf)
-		return reader.Message()
-	}
-	// return error
-	return nil, errors.New("Error!")
-}
-func (r *testMessageReader) Release() {}
-func (r *testMessageReader) Retain()  {}
-
-// Ensure that if the MessageReader errors, we get the error from Read
-func TestArrow14769(t *testing.T) {
-	reader, err := ipc.NewReaderFromMessageReader(&testMessageReader{})
-	if err != nil {
-		t.Fatal(err)
-	}
-	_, err = reader.Read()
-	if err == nil || errors.Is(err, io.EOF) {
-		t.Fatalf("Expected an error, got %s", err)
-	}
-	if err.Error() != "Error!" {
-		t.Fatalf("Expected an error, not %s", err)
-	}
-}
-
-func makeTestCol(t *testing.T, alloc memory.Allocator, vals []int32, nulls []bool) (arrow.Field, *arrow.Column) {
-	t.Helper()
-	fld := arrow.Field{Name: "test", Type: arrow.PrimitiveTypes.Int32, Nullable: nulls != nil}
-
-	b := array.NewInt32Builder(alloc)
-	defer b.Release()
-	b.AppendValues(vals, nulls)
-
-	arr := b.NewArray()
-	defer arr.Release()
-
-	chk := arrow.NewChunked(arrow.PrimitiveTypes.Int32, []arrow.Array{arr})
-	defer chk.Release()
-
-	return fld, arrow.NewColumn(fld, chk)
-}
-
-func makeTestTable(t *testing.T, fld arrow.Field, col *arrow.Column) arrow.Table {
-	t.Helper()
-	schema := arrow.NewSchema([]arrow.Field{fld}, nil)
-	return array.NewTable(schema, []arrow.Column{*col}, -1)
-}
-
-func writeThenReadTable(t *testing.T, alloc memory.Allocator, table arrow.Table) arrow.Table {
-	t.Helper()
-
-	// write the table into a buffer
-	buf := new(bytes.Buffer)
-	writer := ipc.NewWriter(buf, ipc.WithAllocator(alloc), ipc.WithSchema(table.Schema()))
-	tr := array.NewTableReader(table, 0)
-	defer tr.Release()
-	for tr.Next() {
-		require.NoError(t, writer.Write(tr.Record()))
-	}
-	require.NoError(t, writer.Close())
-
-	// read the table from the buffer
-	reader, err := ipc.NewReader(buf, ipc.WithAllocator(alloc))
-	require.NoError(t, err)
-	defer reader.Release()
-	records := make([]arrow.Record, 0)
-	for reader.Next() {
-		rec := reader.Record()
-		rec.Retain()
-		defer rec.Release()
-		records = append(records, rec)
-	}
-	require.NoError(t, reader.Err())
-	return array.NewTableFromRecords(reader.Schema(), records)
-}
-
-func TestWriteColumnWithOffset(t *testing.T) {
-	alloc := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer alloc.AssertSize(t, 0)
-
-	t.Run("some nulls", func(t *testing.T) {
-		vals := []int32{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-		nulls := []bool{true, false, true, false, true, false, true, false, true, false, true}
-		fld, col := makeTestCol(t, alloc, vals, nulls)
-		defer col.Release()
-
-		// slice the column so there are offsets
-		col = array.NewColumnSlice(col, 3, 8)
-		defer col.Release()
-
-		table := makeTestTable(t, fld, col)
-		defer table.Release()
-
-		table = writeThenReadTable(t, alloc, table)
-		defer table.Release()
-
-		require.EqualValues(t, 1, table.NumCols())
-		col = table.Column(0)
-		colArr := col.Data().Chunk(0).(*array.Int32)
-		require.EqualValues(t, 5, colArr.Len())
-		assert.True(t, colArr.IsNull(0))
-		assert.False(t, colArr.IsNull(1))
-		assert.True(t, colArr.IsNull(2))
-		assert.False(t, colArr.IsNull(3))
-		assert.True(t, colArr.IsNull(4))
-	})
-
-	t.Run("all nulls", func(t *testing.T) {
-		vals := []int32{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-		nulls := []bool{false, false, false, false, false, false, false, false, false, false, false}
-		fld, col := makeTestCol(t, alloc, vals, nulls)
-		defer col.Release()
-
-		// slice the column so there are offsets
-		col = array.NewColumnSlice(col, 3, 8)
-		defer col.Release()
-
-		table := makeTestTable(t, fld, col)
-		defer table.Release()
-
-		table = writeThenReadTable(t, alloc, table)
-		defer table.Release()
-
-		require.EqualValues(t, 1, table.NumCols())
-		col = table.Column(0)
-		colArr := col.Data().Chunk(0).(*array.Int32)
-		require.EqualValues(t, 5, colArr.Len())
-		for i := 0; i < colArr.Len(); i++ {
-			assert.True(t, colArr.IsNull(i))
-		}
-	})
-
-	t.Run("no nulls", func(t *testing.T) {
-		vals := []int32{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-		nulls := []bool{true, true, true, true, true, true, true, true, true, true, true}
-		fld, col := makeTestCol(t, alloc, vals, nulls)
-		defer col.Release()
-
-		// slice the column so there are offsets
-		col = array.NewColumnSlice(col, 3, 8)
-		defer col.Release()
-
-		table := makeTestTable(t, fld, col)
-		defer table.Release()
-
-		table = writeThenReadTable(t, alloc, table)
-		defer table.Release()
-
-		require.EqualValues(t, 1, table.NumCols())
-		col = table.Column(0)
-		colArr := col.Data().Chunk(0).(*array.Int32)
-		require.EqualValues(t, 5, colArr.Len())
-		for i := 0; i < colArr.Len(); i++ {
-			assert.False(t, colArr.IsNull(i))
-		}
-	})
-}
-
-func TestIPCTable(t *testing.T) {
-	pool := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{{Name: "f1", Type: arrow.PrimitiveTypes.Int32}}, nil)
-	b := array.NewRecordBuilder(pool, schema)
-	defer b.Release()
-	b.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3, 4}, []bool{true, true, false, true})
-
-	rec1 := b.NewRecord()
-	defer rec1.Release()
-
-	tbl := array.NewTableFromRecords(schema, []arrow.Record{rec1})
-	defer tbl.Release()
-
-	var buf bytes.Buffer
-	ipcWriter := ipc.NewWriter(&buf, ipc.WithAllocator(pool), ipc.WithSchema(schema))
-	defer func(ipcWriter *ipc.Writer) {
-		err := ipcWriter.Close()
-		if err != nil {
-			t.Fatalf("error closing ipc writer: %s", err.Error())
-		}
-	}(ipcWriter)
-
-	t.Log("Reading data before")
-	tr := array.NewTableReader(tbl, 2)
-	defer tr.Release()
-
-	n := 0
-	for tr.Next() {
-		rec := tr.Record()
-		for i, col := range rec.Columns() {
-			t.Logf("rec[%d][%q]: %v nulls:%v\n", n,
-				rec.ColumnName(i), col, col.NullBitmapBytes())
-		}
-		n++
-		err := ipcWriter.Write(rec)
-		if err != nil {
-			panic(err)
-		}
-	}
-
-	t.Log("Reading data after")
-	ipcReader, err := ipc.NewReader(bytes.NewReader(buf.Bytes()), ipc.WithAllocator(pool))
-	if err != nil {
-		panic(err)
-	}
-	n = 0
-	for ipcReader.Next() {
-		rec := ipcReader.Record()
-		for i, col := range rec.Columns() {
-			t.Logf("rec[%d][%q]: %v nulls:%v\n", n,
-				rec.ColumnName(i), col, col.NullBitmapBytes())
-		}
-		n++
-	}
-}
-
-// ARROW-18317
-func TestDictionary(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	// A schema with a single dictionary field
-	schema := arrow.NewSchema([]arrow.Field{{Name: "field", Type: &arrow.DictionaryType{
-		IndexType: arrow.PrimitiveTypes.Uint16,
-		ValueType: arrow.BinaryTypes.String,
-		Ordered:   false,
-	}}}, nil)
-
-	// IPC writer and reader
-	var bufWriter bytes.Buffer
-	ipcWriter := ipc.NewWriter(&bufWriter, ipc.WithSchema(schema), ipc.WithAllocator(pool), ipc.WithDictionaryDeltas(false))
-	defer ipcWriter.Close()
-
-	bufReader := bytes.NewReader([]byte{})
-	var ipcReader *ipc.Reader
-
-	bldr := array.NewBuilder(pool, schema.Field(0).Type)
-	defer bldr.Release()
-	require.NoError(t, bldr.UnmarshalJSON([]byte(`["value_0"]`)))
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	// Create a first record with field = "value_0"
-	record := array.NewRecord(schema, []arrow.Array{arr}, 1)
-	defer record.Release()
-
-	expectedJson, err := record.MarshalJSON()
-	require.NoError(t, err)
-	// Serialize and deserialize the record via an IPC stream
-	json, ipcReader, err := encodeDecodeIpcStream(t, record, &bufWriter, ipcWriter, bufReader, ipcReader)
-	require.NoError(t, err)
-	// Compare the expected JSON with the actual JSON
-	require.JSONEq(t, string(expectedJson), string(json))
-
-	// Create a second record with field = "value_1"
-	require.NoError(t, bldr.UnmarshalJSON([]byte(`["value_1"]`)))
-	arr = bldr.NewArray()
-	defer arr.Release()
-	record = array.NewRecord(schema, []arrow.Array{arr}, 1)
-
-	// record, _, err = array.RecordFromJSON(pool, schema, strings.NewReader(`[{"field": ["value_1"]}]`))
-	// require.NoError(t, err)
-	defer record.Release()
-
-	expectedJson, err = record.MarshalJSON()
-	require.NoError(t, err)
-	// Serialize and deserialize the record via an IPC stream
-	json, ipcReader, err = encodeDecodeIpcStream(t, record, &bufWriter, ipcWriter, bufReader, ipcReader)
-	require.NoError(t, err)
-	// Compare the expected JSON with the actual JSON
-	// field = "value_0" but should be "value_1"
-	require.JSONEq(t, string(expectedJson), string(json))
-	require.NoError(t, ipcReader.Err())
-	ipcReader.Release()
-}
-
-// ARROW-18326
-func TestDictionaryDeltas(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	// A schema with a single dictionary field
-	schema := arrow.NewSchema([]arrow.Field{{Name: "field", Type: &arrow.DictionaryType{
-		IndexType: arrow.PrimitiveTypes.Uint16,
-		ValueType: arrow.BinaryTypes.String,
-		Ordered:   false,
-	}}}, nil)
-
-	// IPC writer and reader
-	var bufWriter bytes.Buffer
-	ipcWriter := ipc.NewWriter(&bufWriter, ipc.WithSchema(schema), ipc.WithAllocator(pool), ipc.WithDictionaryDeltas(true))
-	defer ipcWriter.Close()
-
-	bufReader := bytes.NewReader([]byte{})
-	var ipcReader *ipc.Reader
-
-	bldr := array.NewBuilder(pool, schema.Field(0).Type)
-	defer bldr.Release()
-	require.NoError(t, bldr.UnmarshalJSON([]byte(`["value_0"]`)))
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	// Create a first record with field = "value_0"
-	record := array.NewRecord(schema, []arrow.Array{arr}, 1)
-	defer record.Release()
-
-	expectedJson, err := record.MarshalJSON()
-	require.NoError(t, err)
-	// Serialize and deserialize the record via an IPC stream
-	json, ipcReader, err := encodeDecodeIpcStream(t, record, &bufWriter, ipcWriter, bufReader, ipcReader)
-	require.NoError(t, err)
-	// Compare the expected JSON with the actual JSON
-	require.JSONEq(t, string(expectedJson), string(json))
-
-	// Create a second record with field = "value_1"
-	require.NoError(t, bldr.UnmarshalJSON([]byte(`["value_1"]`)))
-	arr = bldr.NewArray()
-	defer arr.Release()
-	record = array.NewRecord(schema, []arrow.Array{arr}, 1)
-	defer record.Release()
-
-	expectedJson, err = record.MarshalJSON()
-	require.NoError(t, err)
-	// Serialize and deserialize the record via an IPC stream
-	json, ipcReader, err = encodeDecodeIpcStream(t, record, &bufWriter, ipcWriter, bufReader, ipcReader)
-	require.NoError(t, err)
-	// Compare the expected JSON with the actual JSON
-	// field = "value_0" but should be "value_1"
-	require.JSONEq(t, string(expectedJson), string(json))
-	require.NoError(t, ipcReader.Err())
-	ipcReader.Release()
-}
-
-// Encode and decode a record over a tuple of IPC writer and reader.
-// IPC writer and reader are the same from one call to another.
-func encodeDecodeIpcStream(t *testing.T,
-	record arrow.Record,
-	bufWriter *bytes.Buffer, ipcWriter *ipc.Writer,
-	bufReader *bytes.Reader, ipcReader *ipc.Reader) ([]byte, *ipc.Reader, error) {
-
-	// Serialize the record via an ipc writer
-	if err := ipcWriter.Write(record); err != nil {
-		return nil, ipcReader, err
-	}
-	serializedRecord := bufWriter.Bytes()
-	bufWriter.Reset()
-
-	// Deserialize the record via an ipc reader
-	bufReader.Reset(serializedRecord)
-	if ipcReader == nil {
-		newIpcReader, err := ipc.NewReader(bufReader)
-		if err != nil {
-			return nil, newIpcReader, err
-		}
-		ipcReader = newIpcReader
-	}
-	ipcReader.Next()
-	record = ipcReader.Record()
-
-	// Return the decoded record as a json string
-	json, err := record.MarshalJSON()
-	if err != nil {
-		return nil, ipcReader, err
-	}
-	return json, ipcReader, nil
-}
-
-func Example_mapSlice() {
-	mem := memory.DefaultAllocator
-	dt := arrow.MapOf(arrow.BinaryTypes.String, arrow.BinaryTypes.String)
-	schema := arrow.NewSchema([]arrow.Field{{
-		Name: "map",
-		Type: dt,
-	}}, nil)
-
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[
-		[{"key": "index1", "value": "main2"}],
-		[{"key": "index3", "value": "main4"}, {"key": "tag_int", "value": ""}],
-		[{"key":"index5","value":"main6"},{"key":"tag_int","value":""}],
-		[{"key":"index6","value":"main7"},{"key":"tag_int","value":""}],
-		[{"key":"index7","value":"main8"},{"key":"tag_int","value":""}],
-		[{"key":"index8","value":"main9"}]
-	]`))
-	if err != nil {
-		panic(err)
-	}
-	defer arr.Release()
-
-	rec := array.NewRecord(schema, []arrow.Array{arr}, int64(arr.Len()))
-	defer rec.Release()
-	rec2 := rec.NewSlice(1, 2)
-	defer rec2.Release()
-
-	var buf bytes.Buffer
-	w := ipc.NewWriter(&buf, ipc.WithSchema(rec.Schema()))
-	if err := w.Write(rec2); err != nil {
-		panic(err)
-	}
-	if err := w.Close(); err != nil {
-		panic(err)
-	}
-
-	r, err := ipc.NewReader(&buf)
-	if err != nil {
-		panic(err)
-	}
-	defer r.Release()
-
-	r.Next()
-	fmt.Println(r.Record())
-
-	// Output:
-	// record:
-	//   schema:
-	//   fields: 1
-	//     - map: type=map<utf8, utf8, items_nullable>
-	//   rows: 1
-	//   col[0][map]: [{["index3" "tag_int"] ["main4" ""]}]
-}
-
-func Example_listSlice() {
-	mem := memory.DefaultAllocator
-	dt := arrow.ListOf(arrow.BinaryTypes.String)
-	schema := arrow.NewSchema([]arrow.Field{{
-		Name: "list",
-		Type: dt,
-	}}, nil)
-
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[
-		["index1"], 
-		["index3", "tag_int"], ["index5", "tag_int"],
-		["index6", "tag_int"], ["index7", "tag_int"], 
-		["index7", "tag_int"],
-		["index8"]
-	]`))
-	if err != nil {
-		panic(err)
-	}
-	defer arr.Release()
-
-	rec := array.NewRecord(schema, []arrow.Array{arr}, int64(arr.Len()))
-	defer rec.Release()
-	rec2 := rec.NewSlice(1, 2)
-	defer rec2.Release()
-
-	var buf bytes.Buffer
-	w := ipc.NewWriter(&buf, ipc.WithSchema(rec.Schema()))
-	if err := w.Write(rec2); err != nil {
-		panic(err)
-	}
-	if err := w.Close(); err != nil {
-		panic(err)
-	}
-
-	r, err := ipc.NewReader(&buf)
-	if err != nil {
-		panic(err)
-	}
-	defer r.Release()
-
-	r.Next()
-	fmt.Println(r.Record())
-
-	// Output:
-	// record:
-	//   schema:
-	//   fields: 1
-	//     - list: type=list<item: utf8, nullable>
-	//   rows: 1
-	//   col[0][list]: [["index3" "tag_int"]]
-}
-
-func TestIpcEmptyMap(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	dt := arrow.MapOf(arrow.BinaryTypes.String, arrow.BinaryTypes.String)
-	schema := arrow.NewSchema([]arrow.Field{{
-		Name: "map",
-		Type: dt,
-	}}, nil)
-
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[]`))
-	require.NoError(t, err)
-	defer arr.Release()
-
-	rec := array.NewRecord(schema, []arrow.Array{arr}, int64(arr.Len()))
-	defer rec.Release()
-
-	var buf bytes.Buffer
-	w := ipc.NewWriter(&buf, ipc.WithSchema(rec.Schema()))
-	require.NoError(t, w.Write(rec))
-	assert.NoError(t, w.Close())
-
-	r, err := ipc.NewReader(&buf)
-	require.NoError(t, err)
-	defer r.Release()
-
-	assert.True(t, r.Next())
-	assert.Zero(t, r.Record().NumRows())
-	assert.True(t, arrow.TypeEqual(dt, r.Record().Column(0).DataType()))
-}
-
-// GH-41993
-func TestArrowBinaryIPCWriterTruncatedVOffsets(t *testing.T) {
-	var buf bytes.Buffer
-	buf.WriteString("apple")
-	buf.WriteString("pear")
-	buf.WriteString("banana")
-	values := buf.Bytes()
-
-	offsets := []int32{5, 9, 15} // <-- only "pear" and "banana"
-	voffsets := arrow.Int32Traits.CastToBytes(offsets)
-
-	validity := []byte{0}
-	bitutil.SetBit(validity, 0)
-	bitutil.SetBit(validity, 1)
-
-	data := array.NewData(
-		arrow.BinaryTypes.String,
-		2, // <-- only "pear" and "banana"
-		[]*memory.Buffer{
-			memory.NewBufferBytes(validity),
-			memory.NewBufferBytes(voffsets),
-			memory.NewBufferBytes(values),
-		},
-		nil,
-		0,
-		0,
-	)
-
-	str := array.NewStringData(data)
-	require.Equal(t, 2, str.Len())
-	require.Equal(t, "pear", str.Value(0))
-	require.Equal(t, "banana", str.Value(1))
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{
-			Name:     "string",
-			Type:     arrow.BinaryTypes.String,
-			Nullable: true,
-		},
-	}, nil)
-	record := array.NewRecord(schema, []arrow.Array{str}, 2)
-
-	var output bytes.Buffer
-	writer := ipc.NewWriter(&output, ipc.WithSchema(schema))
-
-	require.NoError(t, writer.Write(record))
-	require.NoError(t, writer.Close())
-
-	reader, err := ipc.NewReader(bytes.NewReader(output.Bytes()), ipc.WithSchema(schema))
-	require.NoError(t, err)
-	defer reader.Release()
-
-	require.True(t, reader.Next())
-	require.NoError(t, reader.Err())
-
-	rec := reader.Record()
-	require.EqualValues(t, 1, rec.NumCols())
-	require.EqualValues(t, 2, rec.NumRows())
-
-	col, ok := rec.Column(0).(*array.String)
-	require.True(t, ok)
-	require.Equal(t, "pear", col.Value(0))
-	require.Equal(t, "banana", col.Value(1))
-
-	require.False(t, reader.Next())
-}
diff --git a/go/arrow/ipc/message.go b/go/arrow/ipc/message.go
deleted file mode 100644
index 897f031791b2b..0000000000000
--- a/go/arrow/ipc/message.go
+++ /dev/null
@@ -1,242 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"encoding/binary"
-	"fmt"
-	"io"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-// MetadataVersion represents the Arrow metadata version.
-type MetadataVersion flatbuf.MetadataVersion
-
-const (
-	MetadataV1 = MetadataVersion(flatbuf.MetadataVersionV1) // version for Arrow Format-0.1.0
-	MetadataV2 = MetadataVersion(flatbuf.MetadataVersionV2) // version for Arrow Format-0.2.0
-	MetadataV3 = MetadataVersion(flatbuf.MetadataVersionV3) // version for Arrow Format-0.3.0 to 0.7.1
-	MetadataV4 = MetadataVersion(flatbuf.MetadataVersionV4) // version for >= Arrow Format-0.8.0
-	MetadataV5 = MetadataVersion(flatbuf.MetadataVersionV5) // version for >= Arrow Format-1.0.0, backward compatible with v4
-)
-
-func (m MetadataVersion) String() string {
-	if v, ok := flatbuf.EnumNamesMetadataVersion[flatbuf.MetadataVersion(m)]; ok {
-		return v
-	}
-	return fmt.Sprintf("MetadataVersion(%d)", int16(m))
-}
-
-// MessageType represents the type of Message in an Arrow format.
-type MessageType flatbuf.MessageHeader
-
-const (
-	MessageNone            = MessageType(flatbuf.MessageHeaderNONE)
-	MessageSchema          = MessageType(flatbuf.MessageHeaderSchema)
-	MessageDictionaryBatch = MessageType(flatbuf.MessageHeaderDictionaryBatch)
-	MessageRecordBatch     = MessageType(flatbuf.MessageHeaderRecordBatch)
-	MessageTensor          = MessageType(flatbuf.MessageHeaderTensor)
-	MessageSparseTensor    = MessageType(flatbuf.MessageHeaderSparseTensor)
-)
-
-func (m MessageType) String() string {
-	if v, ok := flatbuf.EnumNamesMessageHeader[flatbuf.MessageHeader(m)]; ok {
-		return v
-	}
-	return fmt.Sprintf("MessageType(%d)", int(m))
-}
-
-// Message is an IPC message, including metadata and body.
-type Message struct {
-	refCount int64
-	msg      *flatbuf.Message
-	meta     *memory.Buffer
-	body     *memory.Buffer
-}
-
-// NewMessage creates a new message from the metadata and body buffers.
-// NewMessage panics if any of these buffers is nil.
-func NewMessage(meta, body *memory.Buffer) *Message {
-	if meta == nil || body == nil {
-		panic("arrow/ipc: nil buffers")
-	}
-	meta.Retain()
-	body.Retain()
-	return &Message{
-		refCount: 1,
-		msg:      flatbuf.GetRootAsMessage(meta.Bytes(), 0),
-		meta:     meta,
-		body:     body,
-	}
-}
-
-func newMessageFromFB(meta *flatbuf.Message, body *memory.Buffer) *Message {
-	if meta == nil || body == nil {
-		panic("arrow/ipc: nil buffers")
-	}
-	body.Retain()
-	return &Message{
-		refCount: 1,
-		msg:      meta,
-		meta:     memory.NewBufferBytes(meta.Table().Bytes),
-		body:     body,
-	}
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (msg *Message) Retain() {
-	atomic.AddInt64(&msg.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// Release may be called simultaneously from multiple goroutines.
-// When the reference count goes to zero, the memory is freed.
-func (msg *Message) Release() {
-	debug.Assert(atomic.LoadInt64(&msg.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&msg.refCount, -1) == 0 {
-		msg.meta.Release()
-		msg.body.Release()
-		msg.msg = nil
-		msg.meta = nil
-		msg.body = nil
-	}
-}
-
-func (msg *Message) Version() MetadataVersion {
-	return MetadataVersion(msg.msg.Version())
-}
-
-func (msg *Message) Type() MessageType {
-	return MessageType(msg.msg.HeaderType())
-}
-
-func (msg *Message) BodyLen() int64 {
-	return msg.msg.BodyLength()
-}
-
-type MessageReader interface {
-	Message() (*Message, error)
-	Release()
-	Retain()
-}
-
-// MessageReader reads messages from an io.Reader.
-type messageReader struct {
-	r io.Reader
-
-	refCount int64
-	msg      *Message
-
-	mem memory.Allocator
-}
-
-// NewMessageReader returns a reader that reads messages from an input stream.
-func NewMessageReader(r io.Reader, opts ...Option) MessageReader {
-	cfg := newConfig()
-	for _, opt := range opts {
-		opt(cfg)
-	}
-
-	return &messageReader{r: r, refCount: 1, mem: cfg.alloc}
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (r *messageReader) Retain() {
-	atomic.AddInt64(&r.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (r *messageReader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refCount, -1) == 0 {
-		if r.msg != nil {
-			r.msg.Release()
-			r.msg = nil
-		}
-	}
-}
-
-// Message returns the current message that has been extracted from the
-// underlying stream.
-// It is valid until the next call to Message.
-func (r *messageReader) Message() (*Message, error) {
-	var buf = make([]byte, 4)
-	_, err := io.ReadFull(r.r, buf)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not read continuation indicator: %w", err)
-	}
-	var (
-		cid    = binary.LittleEndian.Uint32(buf)
-		msgLen int32
-	)
-	switch cid {
-	case 0:
-		// EOS message.
-		return nil, io.EOF // FIXME(sbinet): send nil instead? or a special EOS error?
-	case kIPCContToken:
-		_, err = io.ReadFull(r.r, buf)
-		if err != nil {
-			return nil, fmt.Errorf("arrow/ipc: could not read message length: %w", err)
-		}
-		msgLen = int32(binary.LittleEndian.Uint32(buf))
-		if msgLen == 0 {
-			// optional 0 EOS control message
-			return nil, io.EOF // FIXME(sbinet): send nil instead? or a special EOS error?
-		}
-
-	default:
-		// ARROW-6314: backwards compatibility for reading old IPC
-		// messages produced prior to version 0.15.0
-		msgLen = int32(cid)
-	}
-
-	buf = make([]byte, msgLen)
-	_, err = io.ReadFull(r.r, buf)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not read message metadata: %w", err)
-	}
-
-	meta := flatbuf.GetRootAsMessage(buf, 0)
-	bodyLen := meta.BodyLength()
-
-	body := memory.NewResizableBuffer(r.mem)
-	defer body.Release()
-	body.Resize(int(bodyLen))
-
-	_, err = io.ReadFull(r.r, body.Bytes())
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not read message body: %w", err)
-	}
-
-	if r.msg != nil {
-		r.msg.Release()
-		r.msg = nil
-	}
-	r.msg = newMessageFromFB(meta, body)
-
-	return r.msg, nil
-}
diff --git a/go/arrow/ipc/message_test.go b/go/arrow/ipc/message_test.go
deleted file mode 100644
index e5760c6f70719..0000000000000
--- a/go/arrow/ipc/message_test.go
+++ /dev/null
@@ -1,103 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"bytes"
-	"errors"
-	"io"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestMessageReaderBodyInAllocator(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	const numRecords = 3
-	buf := writeRecordsIntoBuffer(t, numRecords)
-	r := NewMessageReader(buf, WithAllocator(mem))
-	defer r.Release()
-
-	msgs := make([]*Message, 0)
-	for {
-		m, err := r.Message()
-		if errors.Is(err, io.EOF) {
-			break
-		}
-		if err != nil {
-			t.Fatal(err)
-		}
-		m.Retain()
-		msgs = append(msgs, m)
-	}
-	if len(msgs) != numRecords+1 {
-		t.Fatalf("expected %d messages but got %d", numRecords+1, len(msgs))
-	}
-
-	if mem.CurrentAlloc() <= 0 {
-		t.Fatal("message bodies should have been allocated")
-	}
-
-	for _, m := range msgs {
-		m.Release()
-	}
-}
-
-func writeRecordsIntoBuffer(t *testing.T, numRecords int) *bytes.Buffer {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	s, recs := getTestRecords(mem, numRecords)
-	buf := new(bytes.Buffer)
-	w := NewWriter(buf, WithAllocator(mem), WithSchema(s))
-	for _, rec := range recs {
-		err := w.Write(rec)
-		rec.Release()
-		if err != nil {
-			t.Fatal(err)
-		}
-	}
-	if err := w.Close(); err != nil {
-		t.Fatal(err)
-	}
-	return buf
-}
-
-func getTestRecords(mem memory.Allocator, numRecords int) (*arrow.Schema, []arrow.Record) {
-	meta := arrow.NewMetadata([]string{}, []string{})
-	s := arrow.NewSchema([]arrow.Field{
-		{Name: "test-col", Type: arrow.PrimitiveTypes.Int64},
-	}, &meta)
-
-	builder := array.NewRecordBuilder(mem, s)
-	defer builder.Release()
-
-	recs := make([]arrow.Record, numRecords)
-	for i := 0; i < len(recs); i++ {
-		col := builder.Field(0).(*array.Int64Builder)
-		for i := 0; i < 10; i++ {
-			col.Append(int64(i))
-		}
-		recs[i] = builder.NewRecord()
-	}
-
-	return s, recs
-}
diff --git a/go/arrow/ipc/metadata.go b/go/arrow/ipc/metadata.go
deleted file mode 100644
index ba90c993885d6..0000000000000
--- a/go/arrow/ipc/metadata.go
+++ /dev/null
@@ -1,1317 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"io"
-	"sort"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	flatbuffers "github.com/google/flatbuffers/go"
-)
-
-// Magic string identifying an Apache Arrow file.
-var Magic = []byte("ARROW1")
-
-const (
-	currentMetadataVersion = MetadataV5
-	minMetadataVersion     = MetadataV4
-
-	// constants for the extension type metadata keys for the type name and
-	// any extension metadata to be passed to deserialize.
-	ExtensionTypeKeyName     = "ARROW:extension:name"
-	ExtensionMetadataKeyName = "ARROW:extension:metadata"
-
-	// ARROW-109: We set this number arbitrarily to help catch user mistakes. For
-	// deeply nested schemas, it is expected the user will indicate explicitly the
-	// maximum allowed recursion depth
-	kMaxNestingDepth = 64
-)
-
-type startVecFunc func(b *flatbuffers.Builder, n int) flatbuffers.UOffsetT
-
-type fieldMetadata struct {
-	Len    int64
-	Nulls  int64
-	Offset int64
-}
-
-type bufferMetadata struct {
-	Offset int64 // relative offset into the memory page to the starting byte of the buffer
-	Len    int64 // absolute length in bytes of the buffer
-}
-
-type fileBlock struct {
-	Offset int64
-	Meta   int32
-	Body   int64
-
-	r   io.ReaderAt
-	mem memory.Allocator
-}
-
-func fileBlocksToFB(b *flatbuffers.Builder, blocks []fileBlock, start startVecFunc) flatbuffers.UOffsetT {
-	start(b, len(blocks))
-	for i := len(blocks) - 1; i >= 0; i-- {
-		blk := blocks[i]
-		flatbuf.CreateBlock(b, blk.Offset, blk.Meta, blk.Body)
-	}
-
-	return b.EndVector(len(blocks))
-}
-
-func (blk fileBlock) NewMessage() (*Message, error) {
-	var (
-		err  error
-		buf  []byte
-		body *memory.Buffer
-		meta *memory.Buffer
-		r    = blk.section()
-	)
-
-	meta = memory.NewResizableBuffer(blk.mem)
-	meta.Resize(int(blk.Meta))
-	defer meta.Release()
-
-	buf = meta.Bytes()
-	_, err = io.ReadFull(r, buf)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not read message metadata: %w", err)
-	}
-
-	prefix := 0
-	switch binary.LittleEndian.Uint32(buf) {
-	case 0:
-	case kIPCContToken:
-		prefix = 8
-	default:
-		// ARROW-6314: backwards compatibility for reading old IPC
-		// messages produced prior to version 0.15.0
-		prefix = 4
-	}
-
-	// drop buf-size already known from blk.Meta
-	meta = memory.SliceBuffer(meta, prefix, int(blk.Meta)-prefix)
-	defer meta.Release()
-
-	body = memory.NewResizableBuffer(blk.mem)
-	defer body.Release()
-	body.Resize(int(blk.Body))
-	buf = body.Bytes()
-	_, err = io.ReadFull(r, buf)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not read message body: %w", err)
-	}
-
-	return NewMessage(meta, body), nil
-}
-
-func (blk fileBlock) section() io.Reader {
-	return io.NewSectionReader(blk.r, blk.Offset, int64(blk.Meta)+blk.Body)
-}
-
-func unitFromFB(unit flatbuf.TimeUnit) arrow.TimeUnit {
-	switch unit {
-	case flatbuf.TimeUnitSECOND:
-		return arrow.Second
-	case flatbuf.TimeUnitMILLISECOND:
-		return arrow.Millisecond
-	case flatbuf.TimeUnitMICROSECOND:
-		return arrow.Microsecond
-	case flatbuf.TimeUnitNANOSECOND:
-		return arrow.Nanosecond
-	default:
-		panic(fmt.Errorf("arrow/ipc: invalid flatbuf.TimeUnit(%d) value", unit))
-	}
-}
-
-func unitToFB(unit arrow.TimeUnit) flatbuf.TimeUnit {
-	switch unit {
-	case arrow.Second:
-		return flatbuf.TimeUnitSECOND
-	case arrow.Millisecond:
-		return flatbuf.TimeUnitMILLISECOND
-	case arrow.Microsecond:
-		return flatbuf.TimeUnitMICROSECOND
-	case arrow.Nanosecond:
-		return flatbuf.TimeUnitNANOSECOND
-	default:
-		panic(fmt.Errorf("arrow/ipc: invalid arrow.TimeUnit(%d) value", unit))
-	}
-}
-
-// initFB is a helper function to handle flatbuffers' polymorphism.
-func initFB(t interface {
-	Table() flatbuffers.Table
-	Init([]byte, flatbuffers.UOffsetT)
-}, f func(tbl *flatbuffers.Table) bool) {
-	tbl := t.Table()
-	if !f(&tbl) {
-		panic(fmt.Errorf("arrow/ipc: could not initialize %T from flatbuffer", t))
-	}
-	t.Init(tbl.Bytes, tbl.Pos)
-}
-
-func fieldFromFB(field *flatbuf.Field, pos dictutils.FieldPos, memo *dictutils.Memo) (arrow.Field, error) {
-	var (
-		err error
-		o   arrow.Field
-	)
-
-	o.Name = string(field.Name())
-	o.Nullable = field.Nullable()
-	o.Metadata, err = metadataFromFB(field)
-	if err != nil {
-		return o, err
-	}
-
-	n := field.ChildrenLength()
-	children := make([]arrow.Field, n)
-	for i := range children {
-		var childFB flatbuf.Field
-		if !field.Children(&childFB, i) {
-			return o, fmt.Errorf("arrow/ipc: could not load field child %d", i)
-
-		}
-		child, err := fieldFromFB(&childFB, pos.Child(int32(i)), memo)
-		if err != nil {
-			return o, fmt.Errorf("arrow/ipc: could not convert field child %d: %w", i, err)
-		}
-		children[i] = child
-	}
-
-	o.Type, err = typeFromFB(field, pos, children, &o.Metadata, memo)
-	if err != nil {
-		return o, fmt.Errorf("arrow/ipc: could not convert field type: %w", err)
-	}
-
-	return o, nil
-}
-
-func fieldToFB(b *flatbuffers.Builder, pos dictutils.FieldPos, field arrow.Field, memo *dictutils.Mapper) flatbuffers.UOffsetT {
-	var visitor = fieldVisitor{b: b, memo: memo, pos: pos, meta: make(map[string]string)}
-	return visitor.result(field)
-}
-
-type fieldVisitor struct {
-	b      *flatbuffers.Builder
-	memo   *dictutils.Mapper
-	pos    dictutils.FieldPos
-	dtype  flatbuf.Type
-	offset flatbuffers.UOffsetT
-	kids   []flatbuffers.UOffsetT
-	meta   map[string]string
-}
-
-func (fv *fieldVisitor) visit(field arrow.Field) {
-	dt := field.Type
-	switch dt := dt.(type) {
-	case *arrow.NullType:
-		fv.dtype = flatbuf.TypeNull
-		flatbuf.NullStart(fv.b)
-		fv.offset = flatbuf.NullEnd(fv.b)
-
-	case *arrow.BooleanType:
-		fv.dtype = flatbuf.TypeBool
-		flatbuf.BoolStart(fv.b)
-		fv.offset = flatbuf.BoolEnd(fv.b)
-
-	case *arrow.Uint8Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), false)
-
-	case *arrow.Uint16Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), false)
-
-	case *arrow.Uint32Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), false)
-
-	case *arrow.Uint64Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), false)
-
-	case *arrow.Int8Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), true)
-
-	case *arrow.Int16Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), true)
-
-	case *arrow.Int32Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), true)
-
-	case *arrow.Int64Type:
-		fv.dtype = flatbuf.TypeInt
-		fv.offset = intToFB(fv.b, int32(dt.BitWidth()), true)
-
-	case *arrow.Float16Type:
-		fv.dtype = flatbuf.TypeFloatingPoint
-		fv.offset = floatToFB(fv.b, int32(dt.BitWidth()))
-
-	case *arrow.Float32Type:
-		fv.dtype = flatbuf.TypeFloatingPoint
-		fv.offset = floatToFB(fv.b, int32(dt.BitWidth()))
-
-	case *arrow.Float64Type:
-		fv.dtype = flatbuf.TypeFloatingPoint
-		fv.offset = floatToFB(fv.b, int32(dt.BitWidth()))
-
-	case *arrow.Decimal128Type:
-		fv.dtype = flatbuf.TypeDecimal
-		flatbuf.DecimalStart(fv.b)
-		flatbuf.DecimalAddPrecision(fv.b, dt.Precision)
-		flatbuf.DecimalAddScale(fv.b, dt.Scale)
-		flatbuf.DecimalAddBitWidth(fv.b, 128)
-		fv.offset = flatbuf.DecimalEnd(fv.b)
-
-	case *arrow.Decimal256Type:
-		fv.dtype = flatbuf.TypeDecimal
-		flatbuf.DecimalStart(fv.b)
-		flatbuf.DecimalAddPrecision(fv.b, dt.Precision)
-		flatbuf.DecimalAddScale(fv.b, dt.Scale)
-		flatbuf.DecimalAddBitWidth(fv.b, 256)
-		fv.offset = flatbuf.DecimalEnd(fv.b)
-
-	case *arrow.FixedSizeBinaryType:
-		fv.dtype = flatbuf.TypeFixedSizeBinary
-		flatbuf.FixedSizeBinaryStart(fv.b)
-		flatbuf.FixedSizeBinaryAddByteWidth(fv.b, int32(dt.ByteWidth))
-		fv.offset = flatbuf.FixedSizeBinaryEnd(fv.b)
-
-	case *arrow.BinaryType:
-		fv.dtype = flatbuf.TypeBinary
-		flatbuf.BinaryStart(fv.b)
-		fv.offset = flatbuf.BinaryEnd(fv.b)
-
-	case *arrow.LargeBinaryType:
-		fv.dtype = flatbuf.TypeLargeBinary
-		flatbuf.LargeBinaryStart(fv.b)
-		fv.offset = flatbuf.LargeBinaryEnd(fv.b)
-
-	case *arrow.StringType:
-		fv.dtype = flatbuf.TypeUtf8
-		flatbuf.Utf8Start(fv.b)
-		fv.offset = flatbuf.Utf8End(fv.b)
-
-	case *arrow.LargeStringType:
-		fv.dtype = flatbuf.TypeLargeUtf8
-		flatbuf.LargeUtf8Start(fv.b)
-		fv.offset = flatbuf.LargeUtf8End(fv.b)
-
-	case *arrow.BinaryViewType:
-		fv.dtype = flatbuf.TypeBinaryView
-		flatbuf.BinaryViewStart(fv.b)
-		fv.offset = flatbuf.BinaryViewEnd(fv.b)
-
-	case *arrow.StringViewType:
-		fv.dtype = flatbuf.TypeUtf8View
-		flatbuf.Utf8ViewStart(fv.b)
-		fv.offset = flatbuf.Utf8ViewEnd(fv.b)
-
-	case *arrow.Date32Type:
-		fv.dtype = flatbuf.TypeDate
-		flatbuf.DateStart(fv.b)
-		flatbuf.DateAddUnit(fv.b, flatbuf.DateUnitDAY)
-		fv.offset = flatbuf.DateEnd(fv.b)
-
-	case *arrow.Date64Type:
-		fv.dtype = flatbuf.TypeDate
-		flatbuf.DateStart(fv.b)
-		flatbuf.DateAddUnit(fv.b, flatbuf.DateUnitMILLISECOND)
-		fv.offset = flatbuf.DateEnd(fv.b)
-
-	case *arrow.Time32Type:
-		fv.dtype = flatbuf.TypeTime
-		flatbuf.TimeStart(fv.b)
-		flatbuf.TimeAddUnit(fv.b, unitToFB(dt.Unit))
-		flatbuf.TimeAddBitWidth(fv.b, 32)
-		fv.offset = flatbuf.TimeEnd(fv.b)
-
-	case *arrow.Time64Type:
-		fv.dtype = flatbuf.TypeTime
-		flatbuf.TimeStart(fv.b)
-		flatbuf.TimeAddUnit(fv.b, unitToFB(dt.Unit))
-		flatbuf.TimeAddBitWidth(fv.b, 64)
-		fv.offset = flatbuf.TimeEnd(fv.b)
-
-	case *arrow.TimestampType:
-		fv.dtype = flatbuf.TypeTimestamp
-		unit := unitToFB(dt.Unit)
-		var tz flatbuffers.UOffsetT
-		if dt.TimeZone != "" {
-			tz = fv.b.CreateString(dt.TimeZone)
-		}
-		flatbuf.TimestampStart(fv.b)
-		flatbuf.TimestampAddUnit(fv.b, unit)
-		flatbuf.TimestampAddTimezone(fv.b, tz)
-		fv.offset = flatbuf.TimestampEnd(fv.b)
-
-	case *arrow.StructType:
-		fv.dtype = flatbuf.TypeStruct_
-		offsets := make([]flatbuffers.UOffsetT, dt.NumFields())
-		for i, field := range dt.Fields() {
-			offsets[i] = fieldToFB(fv.b, fv.pos.Child(int32(i)), field, fv.memo)
-		}
-		flatbuf.Struct_Start(fv.b)
-		for i := len(offsets) - 1; i >= 0; i-- {
-			fv.b.PrependUOffsetT(offsets[i])
-		}
-		fv.offset = flatbuf.Struct_End(fv.b)
-		fv.kids = append(fv.kids, offsets...)
-
-	case *arrow.ListType:
-		fv.dtype = flatbuf.TypeList
-		fv.kids = append(fv.kids, fieldToFB(fv.b, fv.pos.Child(0), dt.ElemField(), fv.memo))
-		flatbuf.ListStart(fv.b)
-		fv.offset = flatbuf.ListEnd(fv.b)
-
-	case *arrow.LargeListType:
-		fv.dtype = flatbuf.TypeLargeList
-		fv.kids = append(fv.kids, fieldToFB(fv.b, fv.pos.Child(0), dt.ElemField(), fv.memo))
-		flatbuf.LargeListStart(fv.b)
-		fv.offset = flatbuf.LargeListEnd(fv.b)
-
-	case *arrow.ListViewType:
-		fv.dtype = flatbuf.TypeListView
-		fv.kids = append(fv.kids, fieldToFB(fv.b, fv.pos.Child(0), dt.ElemField(), fv.memo))
-		flatbuf.ListViewStart(fv.b)
-		fv.offset = flatbuf.ListViewEnd(fv.b)
-
-	case *arrow.LargeListViewType:
-		fv.dtype = flatbuf.TypeLargeListView
-		fv.kids = append(fv.kids, fieldToFB(fv.b, fv.pos.Child(0), dt.ElemField(), fv.memo))
-		flatbuf.LargeListViewStart(fv.b)
-		fv.offset = flatbuf.LargeListViewEnd(fv.b)
-
-	case *arrow.FixedSizeListType:
-		fv.dtype = flatbuf.TypeFixedSizeList
-		fv.kids = append(fv.kids, fieldToFB(fv.b, fv.pos.Child(0), dt.ElemField(), fv.memo))
-		flatbuf.FixedSizeListStart(fv.b)
-		flatbuf.FixedSizeListAddListSize(fv.b, dt.Len())
-		fv.offset = flatbuf.FixedSizeListEnd(fv.b)
-
-	case *arrow.MonthIntervalType:
-		fv.dtype = flatbuf.TypeInterval
-		flatbuf.IntervalStart(fv.b)
-		flatbuf.IntervalAddUnit(fv.b, flatbuf.IntervalUnitYEAR_MONTH)
-		fv.offset = flatbuf.IntervalEnd(fv.b)
-
-	case *arrow.DayTimeIntervalType:
-		fv.dtype = flatbuf.TypeInterval
-		flatbuf.IntervalStart(fv.b)
-		flatbuf.IntervalAddUnit(fv.b, flatbuf.IntervalUnitDAY_TIME)
-		fv.offset = flatbuf.IntervalEnd(fv.b)
-
-	case *arrow.MonthDayNanoIntervalType:
-		fv.dtype = flatbuf.TypeInterval
-		flatbuf.IntervalStart(fv.b)
-		flatbuf.IntervalAddUnit(fv.b, flatbuf.IntervalUnitMONTH_DAY_NANO)
-		fv.offset = flatbuf.IntervalEnd(fv.b)
-
-	case *arrow.DurationType:
-		fv.dtype = flatbuf.TypeDuration
-		unit := unitToFB(dt.Unit)
-		flatbuf.DurationStart(fv.b)
-		flatbuf.DurationAddUnit(fv.b, unit)
-		fv.offset = flatbuf.DurationEnd(fv.b)
-
-	case *arrow.MapType:
-		fv.dtype = flatbuf.TypeMap
-		fv.kids = append(fv.kids, fieldToFB(fv.b, fv.pos.Child(0), dt.ElemField(), fv.memo))
-		flatbuf.MapStart(fv.b)
-		flatbuf.MapAddKeysSorted(fv.b, dt.KeysSorted)
-		fv.offset = flatbuf.MapEnd(fv.b)
-
-	case *arrow.RunEndEncodedType:
-		fv.dtype = flatbuf.TypeRunEndEncoded
-		var offsets [2]flatbuffers.UOffsetT
-		offsets[0] = fieldToFB(fv.b, fv.pos.Child(0),
-			arrow.Field{Name: "run_ends", Type: dt.RunEnds()}, fv.memo)
-		offsets[1] = fieldToFB(fv.b, fv.pos.Child(1),
-			arrow.Field{Name: "values", Type: dt.Encoded(), Nullable: true}, fv.memo)
-		flatbuf.RunEndEncodedStart(fv.b)
-		fv.b.PrependUOffsetT(offsets[1])
-		fv.b.PrependUOffsetT(offsets[0])
-		fv.offset = flatbuf.RunEndEncodedEnd(fv.b)
-		fv.kids = append(fv.kids, offsets[0], offsets[1])
-
-	case arrow.ExtensionType:
-		field.Type = dt.StorageType()
-		fv.visit(field)
-		fv.meta[ExtensionTypeKeyName] = dt.ExtensionName()
-		fv.meta[ExtensionMetadataKeyName] = string(dt.Serialize())
-
-	case *arrow.DictionaryType:
-		field.Type = dt.ValueType
-		fv.visit(field)
-
-	case arrow.UnionType:
-		fv.dtype = flatbuf.TypeUnion
-		offsets := make([]flatbuffers.UOffsetT, dt.NumFields())
-		for i, field := range dt.Fields() {
-			offsets[i] = fieldToFB(fv.b, fv.pos.Child(int32(i)), field, fv.memo)
-		}
-
-		codes := dt.TypeCodes()
-		flatbuf.UnionStartTypeIdsVector(fv.b, len(codes))
-
-		for i := len(codes) - 1; i >= 0; i-- {
-			fv.b.PlaceInt32(int32(codes[i]))
-		}
-		fbTypeIDs := fv.b.EndVector(len(dt.TypeCodes()))
-		flatbuf.UnionStart(fv.b)
-		switch dt.Mode() {
-		case arrow.SparseMode:
-			flatbuf.UnionAddMode(fv.b, flatbuf.UnionModeSparse)
-		case arrow.DenseMode:
-			flatbuf.UnionAddMode(fv.b, flatbuf.UnionModeDense)
-		default:
-			panic("invalid union mode")
-		}
-		flatbuf.UnionAddTypeIds(fv.b, fbTypeIDs)
-		fv.offset = flatbuf.UnionEnd(fv.b)
-		fv.kids = append(fv.kids, offsets...)
-
-	default:
-		err := fmt.Errorf("arrow/ipc: invalid data type %v", dt)
-		panic(err) // FIXME(sbinet): implement all data-types.
-	}
-}
-
-func (fv *fieldVisitor) result(field arrow.Field) flatbuffers.UOffsetT {
-	nameFB := fv.b.CreateString(field.Name)
-
-	fv.visit(field)
-
-	flatbuf.FieldStartChildrenVector(fv.b, len(fv.kids))
-	for i := len(fv.kids) - 1; i >= 0; i-- {
-		fv.b.PrependUOffsetT(fv.kids[i])
-	}
-	kidsFB := fv.b.EndVector(len(fv.kids))
-
-	storageType := field.Type
-	if storageType.ID() == arrow.EXTENSION {
-		storageType = storageType.(arrow.ExtensionType).StorageType()
-	}
-
-	var dictFB flatbuffers.UOffsetT
-	if storageType.ID() == arrow.DICTIONARY {
-		idxType := field.Type.(*arrow.DictionaryType).IndexType.(arrow.FixedWidthDataType)
-
-		dictID, err := fv.memo.GetFieldID(fv.pos.Path())
-		if err != nil {
-			panic(err)
-		}
-		var signed bool
-		switch idxType.ID() {
-		case arrow.UINT8, arrow.UINT16, arrow.UINT32, arrow.UINT64:
-			signed = false
-		case arrow.INT8, arrow.INT16, arrow.INT32, arrow.INT64:
-			signed = true
-		}
-		indexTypeOffset := intToFB(fv.b, int32(idxType.BitWidth()), signed)
-		flatbuf.DictionaryEncodingStart(fv.b)
-		flatbuf.DictionaryEncodingAddId(fv.b, dictID)
-		flatbuf.DictionaryEncodingAddIndexType(fv.b, indexTypeOffset)
-		flatbuf.DictionaryEncodingAddIsOrdered(fv.b, field.Type.(*arrow.DictionaryType).Ordered)
-		dictFB = flatbuf.DictionaryEncodingEnd(fv.b)
-	}
-
-	var (
-		metaFB flatbuffers.UOffsetT
-		kvs    []flatbuffers.UOffsetT
-	)
-	for i, k := range field.Metadata.Keys() {
-		v := field.Metadata.Values()[i]
-		kk := fv.b.CreateString(k)
-		vv := fv.b.CreateString(v)
-		flatbuf.KeyValueStart(fv.b)
-		flatbuf.KeyValueAddKey(fv.b, kk)
-		flatbuf.KeyValueAddValue(fv.b, vv)
-		kvs = append(kvs, flatbuf.KeyValueEnd(fv.b))
-	}
-	{
-		keys := make([]string, 0, len(fv.meta))
-		for k := range fv.meta {
-			keys = append(keys, k)
-		}
-		sort.Strings(keys)
-		for _, k := range keys {
-			v := fv.meta[k]
-			kk := fv.b.CreateString(k)
-			vv := fv.b.CreateString(v)
-			flatbuf.KeyValueStart(fv.b)
-			flatbuf.KeyValueAddKey(fv.b, kk)
-			flatbuf.KeyValueAddValue(fv.b, vv)
-			kvs = append(kvs, flatbuf.KeyValueEnd(fv.b))
-		}
-	}
-	if len(kvs) > 0 {
-		flatbuf.FieldStartCustomMetadataVector(fv.b, len(kvs))
-		for i := len(kvs) - 1; i >= 0; i-- {
-			fv.b.PrependUOffsetT(kvs[i])
-		}
-		metaFB = fv.b.EndVector(len(kvs))
-	}
-
-	flatbuf.FieldStart(fv.b)
-	flatbuf.FieldAddName(fv.b, nameFB)
-	flatbuf.FieldAddNullable(fv.b, field.Nullable)
-	flatbuf.FieldAddTypeType(fv.b, fv.dtype)
-	flatbuf.FieldAddType(fv.b, fv.offset)
-	flatbuf.FieldAddDictionary(fv.b, dictFB)
-	flatbuf.FieldAddChildren(fv.b, kidsFB)
-	flatbuf.FieldAddCustomMetadata(fv.b, metaFB)
-
-	offset := flatbuf.FieldEnd(fv.b)
-
-	return offset
-}
-
-func typeFromFB(field *flatbuf.Field, pos dictutils.FieldPos, children []arrow.Field, md *arrow.Metadata, memo *dictutils.Memo) (arrow.DataType, error) {
-	var data flatbuffers.Table
-	if !field.Type(&data) {
-		return nil, fmt.Errorf("arrow/ipc: could not load field type data")
-	}
-
-	dt, err := concreteTypeFromFB(field.TypeType(), data, children)
-	if err != nil {
-		return dt, err
-	}
-
-	var (
-		dictID        = int64(-1)
-		dictValueType arrow.DataType
-		encoding      = field.Dictionary(nil)
-	)
-	if encoding != nil {
-		var idt flatbuf.Int
-		encoding.IndexType(&idt)
-		idxType, err := intFromFB(idt)
-		if err != nil {
-			return nil, err
-		}
-
-		dictValueType = dt
-		dt = &arrow.DictionaryType{IndexType: idxType, ValueType: dictValueType, Ordered: encoding.IsOrdered()}
-		dictID = encoding.Id()
-
-		if err = memo.Mapper.AddField(dictID, pos.Path()); err != nil {
-			return dt, err
-		}
-		if err = memo.AddType(dictID, dictValueType); err != nil {
-			return dt, err
-		}
-
-	}
-
-	// look for extension metadata in custom metadata field.
-	if md.Len() > 0 {
-		i := md.FindKey(ExtensionTypeKeyName)
-		if i < 0 {
-			return dt, err
-		}
-
-		extType := arrow.GetExtensionType(md.Values()[i])
-		if extType == nil {
-			// if the extension type is unknown, we do not error here.
-			// simply return the storage type.
-			return dt, err
-		}
-
-		var (
-			data    string
-			dataIdx int
-		)
-
-		if dataIdx = md.FindKey(ExtensionMetadataKeyName); dataIdx >= 0 {
-			data = md.Values()[dataIdx]
-		}
-
-		dt, err = extType.Deserialize(dt, data)
-		if err != nil {
-			return dt, err
-		}
-
-		mdkeys := md.Keys()
-		mdvals := md.Values()
-		if dataIdx < 0 {
-			// if there was no extension metadata, just the name, we only have to
-			// remove the extension name metadata key/value to ensure roundtrip
-			// metadata consistency
-			*md = arrow.NewMetadata(append(mdkeys[:i], mdkeys[i+1:]...), append(mdvals[:i], mdvals[i+1:]...))
-		} else {
-			// if there was extension metadata, we need to remove both the type name
-			// and the extension metadata keys and values.
-			newkeys := make([]string, 0, md.Len()-2)
-			newvals := make([]string, 0, md.Len()-2)
-			for j := range mdkeys {
-				if j != i && j != dataIdx { // copy everything except the extension metadata keys/values
-					newkeys = append(newkeys, mdkeys[j])
-					newvals = append(newvals, mdvals[j])
-				}
-			}
-			*md = arrow.NewMetadata(newkeys, newvals)
-		}
-	}
-
-	return dt, err
-}
-
-func concreteTypeFromFB(typ flatbuf.Type, data flatbuffers.Table, children []arrow.Field) (arrow.DataType, error) {
-	switch typ {
-	case flatbuf.TypeNONE:
-		return nil, fmt.Errorf("arrow/ipc: Type metadata cannot be none")
-
-	case flatbuf.TypeNull:
-		return arrow.Null, nil
-
-	case flatbuf.TypeInt:
-		var dt flatbuf.Int
-		dt.Init(data.Bytes, data.Pos)
-		return intFromFB(dt)
-
-	case flatbuf.TypeFloatingPoint:
-		var dt flatbuf.FloatingPoint
-		dt.Init(data.Bytes, data.Pos)
-		return floatFromFB(dt)
-
-	case flatbuf.TypeDecimal:
-		var dt flatbuf.Decimal
-		dt.Init(data.Bytes, data.Pos)
-		return decimalFromFB(dt)
-
-	case flatbuf.TypeBinary:
-		return arrow.BinaryTypes.Binary, nil
-
-	case flatbuf.TypeFixedSizeBinary:
-		var dt flatbuf.FixedSizeBinary
-		dt.Init(data.Bytes, data.Pos)
-		return &arrow.FixedSizeBinaryType{ByteWidth: int(dt.ByteWidth())}, nil
-
-	case flatbuf.TypeUtf8:
-		return arrow.BinaryTypes.String, nil
-
-	case flatbuf.TypeLargeBinary:
-		return arrow.BinaryTypes.LargeBinary, nil
-
-	case flatbuf.TypeLargeUtf8:
-		return arrow.BinaryTypes.LargeString, nil
-
-	case flatbuf.TypeUtf8View:
-		return arrow.BinaryTypes.StringView, nil
-
-	case flatbuf.TypeBinaryView:
-		return arrow.BinaryTypes.BinaryView, nil
-
-	case flatbuf.TypeBool:
-		return arrow.FixedWidthTypes.Boolean, nil
-
-	case flatbuf.TypeList:
-		if len(children) != 1 {
-			return nil, fmt.Errorf("arrow/ipc: List must have exactly 1 child field (got=%d)", len(children))
-		}
-		dt := arrow.ListOfField(children[0])
-		return dt, nil
-
-	case flatbuf.TypeLargeList:
-		if len(children) != 1 {
-			return nil, fmt.Errorf("arrow/ipc: LargeList must have exactly 1 child field (got=%d)", len(children))
-		}
-		dt := arrow.LargeListOfField(children[0])
-		return dt, nil
-
-	case flatbuf.TypeListView:
-		if len(children) != 1 {
-			return nil, fmt.Errorf("arrow/ipc: ListView must have exactly 1 child field (got=%d)", len(children))
-		}
-		dt := arrow.ListViewOfField(children[0])
-		return dt, nil
-
-	case flatbuf.TypeLargeListView:
-		if len(children) != 1 {
-			return nil, fmt.Errorf("arrow/ipc: LargeListView must have exactly 1 child field (got=%d)", len(children))
-		}
-		dt := arrow.LargeListViewOfField(children[0])
-		return dt, nil
-
-	case flatbuf.TypeFixedSizeList:
-		var dt flatbuf.FixedSizeList
-		dt.Init(data.Bytes, data.Pos)
-		if len(children) != 1 {
-			return nil, fmt.Errorf("arrow/ipc: FixedSizeList must have exactly 1 child field (got=%d)", len(children))
-		}
-		ret := arrow.FixedSizeListOfField(dt.ListSize(), children[0])
-		return ret, nil
-
-	case flatbuf.TypeStruct_:
-		return arrow.StructOf(children...), nil
-
-	case flatbuf.TypeUnion:
-		var dt flatbuf.Union
-		dt.Init(data.Bytes, data.Pos)
-		var (
-			mode    arrow.UnionMode
-			typeIDs []arrow.UnionTypeCode
-		)
-
-		switch dt.Mode() {
-		case flatbuf.UnionModeSparse:
-			mode = arrow.SparseMode
-		case flatbuf.UnionModeDense:
-			mode = arrow.DenseMode
-		}
-
-		typeIDLen := dt.TypeIdsLength()
-
-		if typeIDLen == 0 {
-			for i := range children {
-				typeIDs = append(typeIDs, int8(i))
-			}
-		} else {
-			for i := 0; i < typeIDLen; i++ {
-				id := dt.TypeIds(i)
-				code := arrow.UnionTypeCode(id)
-				if int32(code) != id {
-					return nil, errors.New("union type id out of bounds")
-				}
-				typeIDs = append(typeIDs, code)
-			}
-		}
-
-		return arrow.UnionOf(mode, children, typeIDs), nil
-
-	case flatbuf.TypeTime:
-		var dt flatbuf.Time
-		dt.Init(data.Bytes, data.Pos)
-		return timeFromFB(dt)
-
-	case flatbuf.TypeTimestamp:
-		var dt flatbuf.Timestamp
-		dt.Init(data.Bytes, data.Pos)
-		return timestampFromFB(dt)
-
-	case flatbuf.TypeDate:
-		var dt flatbuf.Date
-		dt.Init(data.Bytes, data.Pos)
-		return dateFromFB(dt)
-
-	case flatbuf.TypeInterval:
-		var dt flatbuf.Interval
-		dt.Init(data.Bytes, data.Pos)
-		return intervalFromFB(dt)
-
-	case flatbuf.TypeDuration:
-		var dt flatbuf.Duration
-		dt.Init(data.Bytes, data.Pos)
-		return durationFromFB(dt)
-
-	case flatbuf.TypeMap:
-		if len(children) != 1 {
-			return nil, fmt.Errorf("arrow/ipc: Map must have exactly 1 child field")
-		}
-
-		if children[0].Nullable || children[0].Type.ID() != arrow.STRUCT || len(children[0].Type.(*arrow.StructType).Fields()) != 2 {
-			return nil, fmt.Errorf("arrow/ipc: Map's key-item pairs must be non-nullable structs")
-		}
-
-		pairType := children[0].Type.(*arrow.StructType)
-		if pairType.Field(0).Nullable {
-			return nil, fmt.Errorf("arrow/ipc: Map's keys must be non-nullable")
-		}
-
-		var dt flatbuf.Map
-		dt.Init(data.Bytes, data.Pos)
-		ret := arrow.MapOf(pairType.Field(0).Type, pairType.Field(1).Type)
-		ret.SetItemNullable(pairType.Field(1).Nullable)
-		ret.KeysSorted = dt.KeysSorted()
-		return ret, nil
-
-	case flatbuf.TypeRunEndEncoded:
-		if len(children) != 2 {
-			return nil, fmt.Errorf("%w: arrow/ipc: RunEndEncoded must have exactly 2 child fields", arrow.ErrInvalid)
-		}
-		switch children[0].Type.ID() {
-		case arrow.INT16, arrow.INT32, arrow.INT64:
-		default:
-			return nil, fmt.Errorf("%w: arrow/ipc: run-end encoded run_ends field must be one of int16, int32, or int64 type", arrow.ErrInvalid)
-		}
-		return arrow.RunEndEncodedOf(children[0].Type, children[1].Type), nil
-
-	default:
-		panic(fmt.Errorf("arrow/ipc: type %v not implemented", flatbuf.EnumNamesType[typ]))
-	}
-}
-
-func intFromFB(data flatbuf.Int) (arrow.DataType, error) {
-	bw := data.BitWidth()
-	if bw > 64 {
-		return nil, fmt.Errorf("arrow/ipc: integers with more than 64 bits not implemented (bits=%d)", bw)
-	}
-	if bw < 8 {
-		return nil, fmt.Errorf("arrow/ipc: integers with less than 8 bits not implemented (bits=%d)", bw)
-	}
-
-	switch bw {
-	case 8:
-		if !data.IsSigned() {
-			return arrow.PrimitiveTypes.Uint8, nil
-		}
-		return arrow.PrimitiveTypes.Int8, nil
-
-	case 16:
-		if !data.IsSigned() {
-			return arrow.PrimitiveTypes.Uint16, nil
-		}
-		return arrow.PrimitiveTypes.Int16, nil
-
-	case 32:
-		if !data.IsSigned() {
-			return arrow.PrimitiveTypes.Uint32, nil
-		}
-		return arrow.PrimitiveTypes.Int32, nil
-
-	case 64:
-		if !data.IsSigned() {
-			return arrow.PrimitiveTypes.Uint64, nil
-		}
-		return arrow.PrimitiveTypes.Int64, nil
-	default:
-		return nil, fmt.Errorf("arrow/ipc: integers not in cstdint are not implemented")
-	}
-}
-
-func intToFB(b *flatbuffers.Builder, bw int32, isSigned bool) flatbuffers.UOffsetT {
-	flatbuf.IntStart(b)
-	flatbuf.IntAddBitWidth(b, bw)
-	flatbuf.IntAddIsSigned(b, isSigned)
-	return flatbuf.IntEnd(b)
-}
-
-func floatFromFB(data flatbuf.FloatingPoint) (arrow.DataType, error) {
-	switch p := data.Precision(); p {
-	case flatbuf.PrecisionHALF:
-		return arrow.FixedWidthTypes.Float16, nil
-	case flatbuf.PrecisionSINGLE:
-		return arrow.PrimitiveTypes.Float32, nil
-	case flatbuf.PrecisionDOUBLE:
-		return arrow.PrimitiveTypes.Float64, nil
-	default:
-		return nil, fmt.Errorf("arrow/ipc: floating point type with %d precision not implemented", p)
-	}
-}
-
-func floatToFB(b *flatbuffers.Builder, bw int32) flatbuffers.UOffsetT {
-	switch bw {
-	case 16:
-		flatbuf.FloatingPointStart(b)
-		flatbuf.FloatingPointAddPrecision(b, flatbuf.PrecisionHALF)
-		return flatbuf.FloatingPointEnd(b)
-	case 32:
-		flatbuf.FloatingPointStart(b)
-		flatbuf.FloatingPointAddPrecision(b, flatbuf.PrecisionSINGLE)
-		return flatbuf.FloatingPointEnd(b)
-	case 64:
-		flatbuf.FloatingPointStart(b)
-		flatbuf.FloatingPointAddPrecision(b, flatbuf.PrecisionDOUBLE)
-		return flatbuf.FloatingPointEnd(b)
-	default:
-		panic(fmt.Errorf("arrow/ipc: invalid floating point precision %d-bits", bw))
-	}
-}
-
-func decimalFromFB(data flatbuf.Decimal) (arrow.DataType, error) {
-	switch data.BitWidth() {
-	case 128:
-		return &arrow.Decimal128Type{Precision: data.Precision(), Scale: data.Scale()}, nil
-	case 256:
-		return &arrow.Decimal256Type{Precision: data.Precision(), Scale: data.Scale()}, nil
-	default:
-		return nil, fmt.Errorf("arrow/ipc: invalid decimal bitwidth: %d", data.BitWidth())
-	}
-}
-
-func timeFromFB(data flatbuf.Time) (arrow.DataType, error) {
-	bw := data.BitWidth()
-	unit := unitFromFB(data.Unit())
-
-	switch bw {
-	case 32:
-		switch unit {
-		case arrow.Millisecond:
-			return arrow.FixedWidthTypes.Time32ms, nil
-		case arrow.Second:
-			return arrow.FixedWidthTypes.Time32s, nil
-		default:
-			return nil, fmt.Errorf("arrow/ipc: Time32 type with %v unit not implemented", unit)
-		}
-	case 64:
-		switch unit {
-		case arrow.Nanosecond:
-			return arrow.FixedWidthTypes.Time64ns, nil
-		case arrow.Microsecond:
-			return arrow.FixedWidthTypes.Time64us, nil
-		default:
-			return nil, fmt.Errorf("arrow/ipc: Time64 type with %v unit not implemented", unit)
-		}
-	default:
-		return nil, fmt.Errorf("arrow/ipc: Time type with %d bitwidth not implemented", bw)
-	}
-}
-
-func timestampFromFB(data flatbuf.Timestamp) (arrow.DataType, error) {
-	unit := unitFromFB(data.Unit())
-	tz := string(data.Timezone())
-	return &arrow.TimestampType{Unit: unit, TimeZone: tz}, nil
-}
-
-func dateFromFB(data flatbuf.Date) (arrow.DataType, error) {
-	switch data.Unit() {
-	case flatbuf.DateUnitDAY:
-		return arrow.FixedWidthTypes.Date32, nil
-	case flatbuf.DateUnitMILLISECOND:
-		return arrow.FixedWidthTypes.Date64, nil
-	}
-	return nil, fmt.Errorf("arrow/ipc: Date type with %d unit not implemented", data.Unit())
-}
-
-func intervalFromFB(data flatbuf.Interval) (arrow.DataType, error) {
-	switch data.Unit() {
-	case flatbuf.IntervalUnitYEAR_MONTH:
-		return arrow.FixedWidthTypes.MonthInterval, nil
-	case flatbuf.IntervalUnitDAY_TIME:
-		return arrow.FixedWidthTypes.DayTimeInterval, nil
-	case flatbuf.IntervalUnitMONTH_DAY_NANO:
-		return arrow.FixedWidthTypes.MonthDayNanoInterval, nil
-	}
-	return nil, fmt.Errorf("arrow/ipc: Interval type with %d unit not implemented", data.Unit())
-}
-
-func durationFromFB(data flatbuf.Duration) (arrow.DataType, error) {
-	switch data.Unit() {
-	case flatbuf.TimeUnitSECOND:
-		return arrow.FixedWidthTypes.Duration_s, nil
-	case flatbuf.TimeUnitMILLISECOND:
-		return arrow.FixedWidthTypes.Duration_ms, nil
-	case flatbuf.TimeUnitMICROSECOND:
-		return arrow.FixedWidthTypes.Duration_us, nil
-	case flatbuf.TimeUnitNANOSECOND:
-		return arrow.FixedWidthTypes.Duration_ns, nil
-	}
-	return nil, fmt.Errorf("arrow/ipc: Duration type with %d unit not implemented", data.Unit())
-}
-
-type customMetadataer interface {
-	CustomMetadataLength() int
-	CustomMetadata(*flatbuf.KeyValue, int) bool
-}
-
-func metadataFromFB(md customMetadataer) (arrow.Metadata, error) {
-	var (
-		keys = make([]string, md.CustomMetadataLength())
-		vals = make([]string, md.CustomMetadataLength())
-	)
-
-	for i := range keys {
-		var kv flatbuf.KeyValue
-		if !md.CustomMetadata(&kv, i) {
-			return arrow.Metadata{}, fmt.Errorf("arrow/ipc: could not read key-value %d from flatbuffer", i)
-		}
-		keys[i] = string(kv.Key())
-		vals[i] = string(kv.Value())
-	}
-
-	return arrow.NewMetadata(keys, vals), nil
-}
-
-func metadataToFB(b *flatbuffers.Builder, meta arrow.Metadata, start startVecFunc) flatbuffers.UOffsetT {
-	if meta.Len() == 0 {
-		return 0
-	}
-
-	n := meta.Len()
-	kvs := make([]flatbuffers.UOffsetT, n)
-	for i := range kvs {
-		k := b.CreateString(meta.Keys()[i])
-		v := b.CreateString(meta.Values()[i])
-		flatbuf.KeyValueStart(b)
-		flatbuf.KeyValueAddKey(b, k)
-		flatbuf.KeyValueAddValue(b, v)
-		kvs[i] = flatbuf.KeyValueEnd(b)
-	}
-
-	start(b, n)
-	for i := n - 1; i >= 0; i-- {
-		b.PrependUOffsetT(kvs[i])
-	}
-	return b.EndVector(n)
-}
-
-func schemaFromFB(schema *flatbuf.Schema, memo *dictutils.Memo) (*arrow.Schema, error) {
-	var (
-		err    error
-		fields = make([]arrow.Field, schema.FieldsLength())
-		pos    = dictutils.NewFieldPos()
-	)
-
-	for i := range fields {
-		var field flatbuf.Field
-		if !schema.Fields(&field, i) {
-			return nil, fmt.Errorf("arrow/ipc: could not read field %d from schema", i)
-		}
-
-		fields[i], err = fieldFromFB(&field, pos.Child(int32(i)), memo)
-		if err != nil {
-			return nil, fmt.Errorf("arrow/ipc: could not convert field %d from flatbuf: %w", i, err)
-		}
-	}
-
-	md, err := metadataFromFB(schema)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not convert schema metadata from flatbuf: %w", err)
-	}
-
-	return arrow.NewSchemaWithEndian(fields, &md, endian.Endianness(schema.Endianness())), nil
-}
-
-func schemaToFB(b *flatbuffers.Builder, schema *arrow.Schema, memo *dictutils.Mapper) flatbuffers.UOffsetT {
-	fields := make([]flatbuffers.UOffsetT, schema.NumFields())
-	pos := dictutils.NewFieldPos()
-	for i := 0; i < schema.NumFields(); i++ {
-		fields[i] = fieldToFB(b, pos.Child(int32(i)), schema.Field(i), memo)
-	}
-
-	flatbuf.SchemaStartFieldsVector(b, len(fields))
-	for i := len(fields) - 1; i >= 0; i-- {
-		b.PrependUOffsetT(fields[i])
-	}
-	fieldsFB := b.EndVector(len(fields))
-
-	metaFB := metadataToFB(b, schema.Metadata(), flatbuf.SchemaStartCustomMetadataVector)
-
-	flatbuf.SchemaStart(b)
-	flatbuf.SchemaAddEndianness(b, flatbuf.Endianness(schema.Endianness()))
-	flatbuf.SchemaAddFields(b, fieldsFB)
-	flatbuf.SchemaAddCustomMetadata(b, metaFB)
-	offset := flatbuf.SchemaEnd(b)
-
-	return offset
-}
-
-// payloadFromSchema returns a slice of payloads corresponding to the given schema.
-// Callers of payloadFromSchema will need to call Release after use.
-func payloadFromSchema(schema *arrow.Schema, mem memory.Allocator, memo *dictutils.Mapper) payloads {
-	ps := make(payloads, 1)
-	ps[0].msg = MessageSchema
-	ps[0].meta = writeSchemaMessage(schema, mem, memo)
-
-	return ps
-}
-
-func writeFBBuilder(b *flatbuffers.Builder, mem memory.Allocator) *memory.Buffer {
-	raw := b.FinishedBytes()
-	buf := memory.NewResizableBuffer(mem)
-	buf.Resize(len(raw))
-	copy(buf.Bytes(), raw)
-	return buf
-}
-
-func writeMessageFB(b *flatbuffers.Builder, mem memory.Allocator, hdrType flatbuf.MessageHeader, hdr flatbuffers.UOffsetT, bodyLen int64) *memory.Buffer {
-
-	flatbuf.MessageStart(b)
-	flatbuf.MessageAddVersion(b, flatbuf.MetadataVersion(currentMetadataVersion))
-	flatbuf.MessageAddHeaderType(b, hdrType)
-	flatbuf.MessageAddHeader(b, hdr)
-	flatbuf.MessageAddBodyLength(b, bodyLen)
-	msg := flatbuf.MessageEnd(b)
-	b.Finish(msg)
-
-	return writeFBBuilder(b, mem)
-}
-
-func writeSchemaMessage(schema *arrow.Schema, mem memory.Allocator, dict *dictutils.Mapper) *memory.Buffer {
-	b := flatbuffers.NewBuilder(1024)
-	schemaFB := schemaToFB(b, schema, dict)
-	return writeMessageFB(b, mem, flatbuf.MessageHeaderSchema, schemaFB, 0)
-}
-
-func writeFileFooter(schema *arrow.Schema, dicts, recs []fileBlock, w io.Writer) error {
-	var (
-		b    = flatbuffers.NewBuilder(1024)
-		memo dictutils.Mapper
-	)
-	memo.ImportSchema(schema)
-
-	schemaFB := schemaToFB(b, schema, &memo)
-	dictsFB := fileBlocksToFB(b, dicts, flatbuf.FooterStartDictionariesVector)
-	recsFB := fileBlocksToFB(b, recs, flatbuf.FooterStartRecordBatchesVector)
-
-	flatbuf.FooterStart(b)
-	flatbuf.FooterAddVersion(b, flatbuf.MetadataVersion(currentMetadataVersion))
-	flatbuf.FooterAddSchema(b, schemaFB)
-	flatbuf.FooterAddDictionaries(b, dictsFB)
-	flatbuf.FooterAddRecordBatches(b, recsFB)
-	footer := flatbuf.FooterEnd(b)
-
-	b.Finish(footer)
-
-	_, err := w.Write(b.FinishedBytes())
-	return err
-}
-
-func writeRecordMessage(mem memory.Allocator, size, bodyLength int64, fields []fieldMetadata, meta []bufferMetadata, codec flatbuf.CompressionType, variadicCounts []int64) *memory.Buffer {
-	b := flatbuffers.NewBuilder(0)
-	recFB := recordToFB(b, size, bodyLength, fields, meta, codec, variadicCounts)
-	return writeMessageFB(b, mem, flatbuf.MessageHeaderRecordBatch, recFB, bodyLength)
-}
-
-func writeDictionaryMessage(mem memory.Allocator, id int64, isDelta bool, size, bodyLength int64, fields []fieldMetadata, meta []bufferMetadata, codec flatbuf.CompressionType, variadicCounts []int64) *memory.Buffer {
-	b := flatbuffers.NewBuilder(0)
-	recFB := recordToFB(b, size, bodyLength, fields, meta, codec, variadicCounts)
-
-	flatbuf.DictionaryBatchStart(b)
-	flatbuf.DictionaryBatchAddId(b, id)
-	flatbuf.DictionaryBatchAddData(b, recFB)
-	flatbuf.DictionaryBatchAddIsDelta(b, isDelta)
-	dictFB := flatbuf.DictionaryBatchEnd(b)
-	return writeMessageFB(b, mem, flatbuf.MessageHeaderDictionaryBatch, dictFB, bodyLength)
-}
-
-func recordToFB(b *flatbuffers.Builder, size, bodyLength int64, fields []fieldMetadata, meta []bufferMetadata, codec flatbuf.CompressionType, variadicCounts []int64) flatbuffers.UOffsetT {
-	fieldsFB := writeFieldNodes(b, fields, flatbuf.RecordBatchStartNodesVector)
-	metaFB := writeBuffers(b, meta, flatbuf.RecordBatchStartBuffersVector)
-	var bodyCompressFB flatbuffers.UOffsetT
-	if codec != -1 {
-		bodyCompressFB = writeBodyCompression(b, codec)
-	}
-
-	var vcFB *flatbuffers.UOffsetT
-	if len(variadicCounts) > 0 {
-		flatbuf.RecordBatchStartVariadicBufferCountsVector(b, len(variadicCounts))
-		for i := len(variadicCounts) - 1; i >= 0; i-- {
-			b.PrependInt64(variadicCounts[i])
-		}
-		vcFBVal := b.EndVector(len(variadicCounts))
-		vcFB = &vcFBVal
-	}
-
-	flatbuf.RecordBatchStart(b)
-	flatbuf.RecordBatchAddLength(b, size)
-	flatbuf.RecordBatchAddNodes(b, fieldsFB)
-	flatbuf.RecordBatchAddBuffers(b, metaFB)
-	if vcFB != nil {
-		flatbuf.RecordBatchAddVariadicBufferCounts(b, *vcFB)
-	}
-
-	if codec != -1 {
-		flatbuf.RecordBatchAddCompression(b, bodyCompressFB)
-	}
-
-	return flatbuf.RecordBatchEnd(b)
-}
-
-func writeFieldNodes(b *flatbuffers.Builder, fields []fieldMetadata, start startVecFunc) flatbuffers.UOffsetT {
-
-	start(b, len(fields))
-	for i := len(fields) - 1; i >= 0; i-- {
-		field := fields[i]
-		if field.Offset != 0 {
-			panic(fmt.Errorf("arrow/ipc: field metadata for IPC must have offset 0"))
-		}
-		flatbuf.CreateFieldNode(b, field.Len, field.Nulls)
-	}
-
-	return b.EndVector(len(fields))
-}
-
-func writeBuffers(b *flatbuffers.Builder, buffers []bufferMetadata, start startVecFunc) flatbuffers.UOffsetT {
-	start(b, len(buffers))
-	for i := len(buffers) - 1; i >= 0; i-- {
-		buffer := buffers[i]
-		flatbuf.CreateBuffer(b, buffer.Offset, buffer.Len)
-	}
-	return b.EndVector(len(buffers))
-}
-
-func writeBodyCompression(b *flatbuffers.Builder, codec flatbuf.CompressionType) flatbuffers.UOffsetT {
-	flatbuf.BodyCompressionStart(b)
-	flatbuf.BodyCompressionAddCodec(b, codec)
-	flatbuf.BodyCompressionAddMethod(b, flatbuf.BodyCompressionMethodBUFFER)
-	return flatbuf.BodyCompressionEnd(b)
-}
-
-func writeMessage(msg *memory.Buffer, alignment int32, w io.Writer) (int, error) {
-	var (
-		n   int
-		err error
-	)
-
-	// ARROW-3212: we do not make any assumption on whether the output stream is aligned or not.
-	paddedMsgLen := int32(msg.Len()) + 8
-	remainder := paddedMsgLen % alignment
-	if remainder != 0 {
-		paddedMsgLen += alignment - remainder
-	}
-
-	tmp := make([]byte, 4)
-
-	// write continuation indicator, to address 8-byte alignment requirement from FlatBuffers.
-	binary.LittleEndian.PutUint32(tmp, kIPCContToken)
-	_, err = w.Write(tmp)
-	if err != nil {
-		return 0, fmt.Errorf("arrow/ipc: could not write continuation bit indicator: %w", err)
-	}
-
-	// the returned message size includes the length prefix, the flatbuffer, + padding
-	n = int(paddedMsgLen)
-
-	// write the flatbuffer size prefix, including padding
-	sizeFB := paddedMsgLen - 8
-	binary.LittleEndian.PutUint32(tmp, uint32(sizeFB))
-	_, err = w.Write(tmp)
-	if err != nil {
-		return n, fmt.Errorf("arrow/ipc: could not write message flatbuffer size prefix: %w", err)
-	}
-
-	// write the flatbuffer
-	_, err = w.Write(msg.Bytes())
-	if err != nil {
-		return n, fmt.Errorf("arrow/ipc: could not write message flatbuffer: %w", err)
-	}
-
-	// write any padding
-	padding := paddedMsgLen - int32(msg.Len()) - 8
-	if padding > 0 {
-		_, err = w.Write(paddingBytes[:padding])
-		if err != nil {
-			return n, fmt.Errorf("arrow/ipc: could not write message padding bytes: %w", err)
-		}
-	}
-
-	return n, err
-}
diff --git a/go/arrow/ipc/metadata_test.go b/go/arrow/ipc/metadata_test.go
deleted file mode 100644
index 14b8da2cf7cf7..0000000000000
--- a/go/arrow/ipc/metadata_test.go
+++ /dev/null
@@ -1,227 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"bytes"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	flatbuffers "github.com/google/flatbuffers/go"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestRWSchema(t *testing.T) {
-	meta := arrow.NewMetadata([]string{"k1", "k2", "k3"}, []string{"v1", "v2", "v3"})
-
-	mType := arrow.MapOf(arrow.BinaryTypes.String, arrow.BinaryTypes.String)
-	mType.SetItemNullable(false)
-	for _, tc := range []struct {
-		schema *arrow.Schema
-		memo   dictutils.Memo
-	}{
-		{
-			schema: arrow.NewSchema([]arrow.Field{
-				{Name: "f1", Type: arrow.PrimitiveTypes.Int64},
-				{Name: "f2", Type: arrow.PrimitiveTypes.Uint16},
-				{Name: "f3", Type: arrow.PrimitiveTypes.Float64},
-				{Name: "f4", Type: mType},
-			}, &meta),
-			memo: dictutils.Memo{},
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			b := flatbuffers.NewBuilder(0)
-
-			tc.memo.Mapper.ImportSchema(tc.schema)
-			offset := schemaToFB(b, tc.schema, &tc.memo.Mapper)
-			b.Finish(offset)
-
-			buf := b.FinishedBytes()
-
-			fb := flatbuf.GetRootAsSchema(buf, 0)
-			got, err := schemaFromFB(fb, &tc.memo)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if !got.Equal(tc.schema) {
-				t.Fatalf("r/w schema failed:\ngot = %#v\nwant= %#v\n", got, tc.schema)
-			}
-
-			{
-				got := got.Metadata()
-				want := tc.schema.Metadata()
-				if got.Len() != want.Len() {
-					t.Fatalf("invalid metadata len: got=%d, want=%d", got.Len(), want.Len())
-				}
-				if got, want := got.Keys(), want.Keys(); !reflect.DeepEqual(got, want) {
-					t.Fatalf("invalid metadata keys:\ngot =%v\nwant=%v\n", got, want)
-				}
-				if got, want := got.Values(), want.Values(); !reflect.DeepEqual(got, want) {
-					t.Fatalf("invalid metadata values:\ngot =%v\nwant=%v\n", got, want)
-				}
-			}
-		})
-	}
-}
-
-func TestRWFooter(t *testing.T) {
-	for _, tc := range []struct {
-		schema *arrow.Schema
-		dicts  []fileBlock
-		recs   []fileBlock
-	}{
-		{
-			schema: arrow.NewSchema([]arrow.Field{
-				{Name: "f1", Type: arrow.PrimitiveTypes.Int64},
-				{Name: "f2", Type: arrow.PrimitiveTypes.Uint16},
-				{Name: "f3", Type: arrow.PrimitiveTypes.Float64},
-			}, nil),
-			dicts: []fileBlock{
-				{Offset: 1, Meta: 2, Body: 3},
-				{Offset: 4, Meta: 5, Body: 6},
-				{Offset: 7, Meta: 8, Body: 9},
-			},
-			recs: []fileBlock{
-				{Offset: 0, Meta: 10, Body: 30},
-				{Offset: 10, Meta: 30, Body: 60},
-				{Offset: 20, Meta: 30, Body: 40},
-			},
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			o := new(bytes.Buffer)
-
-			err := writeFileFooter(tc.schema, tc.dicts, tc.recs, o)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			footer := flatbuf.GetRootAsFooter(o.Bytes(), 0)
-
-			if got, want := MetadataVersion(footer.Version()), currentMetadataVersion; got != want {
-				t.Errorf("invalid metadata version: got=%[1]d %#[1]x, want=%[2]d %#[2]x", int16(got), int16(want))
-			}
-
-			schema, err := schemaFromFB(footer.Schema(nil), nil)
-			if err != nil {
-				t.Fatal(err)
-			}
-
-			if !schema.Equal(tc.schema) {
-				t.Fatalf("schema r/w error:\ngot= %v\nwant=%v", schema, tc.schema)
-			}
-
-			if got, want := footer.DictionariesLength(), len(tc.dicts); got != want {
-				t.Fatalf("dicts len differ: got=%d, want=%d", got, want)
-			}
-
-			for i, dict := range tc.dicts {
-				var blk flatbuf.Block
-				if !footer.Dictionaries(&blk, i) {
-					t.Fatalf("could not get dictionary %d", i)
-				}
-				got := fileBlock{Offset: blk.Offset(), Meta: blk.MetaDataLength(), Body: blk.BodyLength()}
-				want := dict
-				if got != want {
-					t.Errorf("dict[%d] differ:\ngot= %v\nwant=%v", i, got, want)
-				}
-			}
-
-			if got, want := footer.RecordBatchesLength(), len(tc.recs); got != want {
-				t.Fatalf("recs len differ: got=%d, want=%d", got, want)
-			}
-
-			for i, rec := range tc.recs {
-				var blk flatbuf.Block
-				if !footer.RecordBatches(&blk, i) {
-					t.Fatalf("could not get record %d", i)
-				}
-				got := fileBlock{Offset: blk.Offset(), Meta: blk.MetaDataLength(), Body: blk.BodyLength()}
-				want := rec
-				if got != want {
-					t.Errorf("record[%d] differ:\ngot= %v\nwant=%v", i, got, want)
-				}
-			}
-		})
-	}
-}
-
-func exampleUUID(mem memory.Allocator) arrow.Array {
-	extType := extensions.NewUUIDType()
-	bldr := array.NewExtensionBuilder(mem, extType)
-	defer bldr.Release()
-
-	bldr.Builder.(*array.FixedSizeBinaryBuilder).AppendValues(
-		[][]byte{nil, []byte("abcdefghijklmno0"), []byte("abcdefghijklmno1"), []byte("abcdefghijklmno2")},
-		[]bool{false, true, true, true})
-
-	return bldr.NewArray()
-}
-
-func TestUnrecognizedExtensionType(t *testing.T) {
-	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer pool.AssertSize(t, 0)
-
-	extArr := exampleUUID(pool)
-	defer extArr.Release()
-
-	batch := array.NewRecord(
-		arrow.NewSchema([]arrow.Field{
-			{Name: "f0", Type: extArr.DataType(), Nullable: true}}, nil),
-		[]arrow.Array{extArr}, 4)
-	defer batch.Release()
-
-	storageArr := extArr.(array.ExtensionArray).Storage()
-
-	var buf bytes.Buffer
-	wr := NewWriter(&buf, WithAllocator(pool), WithSchema(batch.Schema()))
-	assert.NoError(t, wr.Write(batch))
-	wr.Close()
-
-	// unregister the uuid type before we read back the buffer so it is
-	// unrecognized when reading back the record batch.
-	assert.NoError(t, arrow.UnregisterExtensionType("arrow.uuid"))
-	// re-register once the test is complete
-	defer arrow.RegisterExtensionType(extensions.NewUUIDType())
-	rdr, err := NewReader(&buf, WithAllocator(pool))
-	defer rdr.Release()
-
-	assert.NoError(t, err)
-	assert.True(t, rdr.Next())
-
-	rec := rdr.Record()
-	assert.NotNil(t, rec)
-
-	// create a record batch with the same data, but the field should contain the
-	// extension metadata and be of the storage type instead of being the extension type.
-	extMetadata := arrow.NewMetadata([]string{ExtensionTypeKeyName, ExtensionMetadataKeyName}, []string{"uuid", "uuid-serialized"})
-	batchNoExt := array.NewRecord(
-		arrow.NewSchema([]arrow.Field{
-			{Name: "f0", Type: storageArr.DataType(), Nullable: true, Metadata: extMetadata},
-		}, nil), []arrow.Array{storageArr}, 4)
-	defer batchNoExt.Release()
-
-	assert.Truef(t, array.RecordEqual(rec, batchNoExt), "expected: %s\ngot: %s\n", batchNoExt, rec)
-}
diff --git a/go/arrow/ipc/reader.go b/go/arrow/ipc/reader.go
deleted file mode 100644
index 147b22213debf..0000000000000
--- a/go/arrow/ipc/reader.go
+++ /dev/null
@@ -1,286 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-	"io"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// Reader reads records from an io.Reader.
-// Reader expects a schema (plus any dictionaries) as the first messages
-// in the stream, followed by records.
-type Reader struct {
-	r      MessageReader
-	schema *arrow.Schema
-
-	refCount int64
-	rec      arrow.Record
-	err      error
-
-	// types dictTypeMap
-	memo               dictutils.Memo
-	readInitialDicts   bool
-	done               bool
-	swapEndianness     bool
-	ensureNativeEndian bool
-	expectedSchema     *arrow.Schema
-
-	mem memory.Allocator
-}
-
-// NewReaderFromMessageReader allows constructing a new reader object with the
-// provided MessageReader allowing injection of reading messages other than
-// by simple streaming bytes such as Arrow Flight which receives a protobuf message
-func NewReaderFromMessageReader(r MessageReader, opts ...Option) (reader *Reader, err error) {
-	defer func() {
-		if pErr := recover(); pErr != nil {
-			err = utils.FormatRecoveredError("arrow/ipc: unknown error while reading", pErr)
-		}
-	}()
-	cfg := newConfig()
-	for _, opt := range opts {
-		opt(cfg)
-	}
-
-	rr := &Reader{
-		r:        r,
-		refCount: 1,
-		// types:    make(dictTypeMap),
-		memo:               dictutils.NewMemo(),
-		mem:                cfg.alloc,
-		ensureNativeEndian: cfg.ensureNativeEndian,
-		expectedSchema:     cfg.schema,
-	}
-
-	if !cfg.noAutoSchema {
-		if err := rr.readSchema(cfg.schema); err != nil {
-			return nil, err
-		}
-	}
-
-	return rr, nil
-}
-
-// NewReader returns a reader that reads records from an input stream.
-func NewReader(r io.Reader, opts ...Option) (*Reader, error) {
-	return NewReaderFromMessageReader(NewMessageReader(r, opts...), opts...)
-}
-
-// Err returns the last error encountered during the iteration over the
-// underlying stream.
-func (r *Reader) Err() error { return r.err }
-
-func (r *Reader) Schema() *arrow.Schema {
-	if r.schema == nil {
-		if err := r.readSchema(r.expectedSchema); err != nil {
-			r.err = fmt.Errorf("arrow/ipc: could not read schema from stream: %w", err)
-			r.done = true
-		}
-	}
-	return r.schema
-}
-
-func (r *Reader) readSchema(schema *arrow.Schema) error {
-	msg, err := r.r.Message()
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not read message schema: %w", err)
-	}
-
-	if msg.Type() != MessageSchema {
-		return fmt.Errorf("arrow/ipc: invalid message type (got=%v, want=%v)", msg.Type(), MessageSchema)
-	}
-
-	// FIXME(sbinet) refactor msg-header handling.
-	var schemaFB flatbuf.Schema
-	initFB(&schemaFB, msg.msg.Header)
-
-	r.schema, err = schemaFromFB(&schemaFB, &r.memo)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not decode schema from message schema: %w", err)
-	}
-
-	// check the provided schema match the one read from stream.
-	if schema != nil && !schema.Equal(r.schema) {
-		return errInconsistentSchema
-	}
-
-	if r.ensureNativeEndian && !r.schema.IsNativeEndian() {
-		r.swapEndianness = true
-		r.schema = r.schema.WithEndianness(endian.NativeEndian)
-	}
-
-	return nil
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (r *Reader) Retain() {
-	atomic.AddInt64(&r.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (r *Reader) Release() {
-	debug.Assert(atomic.LoadInt64(&r.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&r.refCount, -1) == 0 {
-		if r.rec != nil {
-			r.rec.Release()
-			r.rec = nil
-		}
-		if r.r != nil {
-			r.r.Release()
-			r.r = nil
-		}
-		r.memo.Clear()
-	}
-}
-
-// Next returns whether a Record could be extracted from the underlying stream.
-func (r *Reader) Next() bool {
-	if r.rec != nil {
-		r.rec.Release()
-		r.rec = nil
-	}
-
-	if r.err != nil || r.done {
-		return false
-	}
-
-	return r.next()
-}
-
-func (r *Reader) getInitialDicts() bool {
-	var msg *Message
-	// we have to get all dictionaries before reconstructing the first
-	// record. subsequent deltas and replacements modify the memo
-	numDicts := r.memo.Mapper.NumDicts()
-	// there should be numDicts dictionary messages
-	for i := 0; i < numDicts; i++ {
-		msg, r.err = r.r.Message()
-		if r.err != nil {
-			r.done = true
-			if r.err == io.EOF {
-				if i == 0 {
-					r.err = nil
-				} else {
-					r.err = fmt.Errorf("arrow/ipc: IPC stream ended without reading the expected (%d) dictionaries", numDicts)
-				}
-			}
-			return false
-		}
-
-		if msg.Type() != MessageDictionaryBatch {
-			r.err = fmt.Errorf("arrow/ipc: IPC stream did not have the expected (%d) dictionaries at the start of the stream", numDicts)
-		}
-		if _, err := readDictionary(&r.memo, msg.meta, bytes.NewReader(msg.body.Bytes()), r.swapEndianness, r.mem); err != nil {
-			r.done = true
-			r.err = err
-			return false
-		}
-	}
-	r.readInitialDicts = true
-	return true
-}
-
-func (r *Reader) next() bool {
-	defer func() {
-		if pErr := recover(); pErr != nil {
-			r.err = utils.FormatRecoveredError("arrow/ipc: unknown error while reading", pErr)
-		}
-	}()
-	if r.schema == nil {
-		if err := r.readSchema(r.expectedSchema); err != nil {
-			r.err = fmt.Errorf("arrow/ipc: could not read schema from stream: %w", err)
-			r.done = true
-			return false
-		}
-	}
-
-	if !r.readInitialDicts && !r.getInitialDicts() {
-		return false
-	}
-
-	var msg *Message
-	msg, r.err = r.r.Message()
-
-	for msg != nil && msg.Type() == MessageDictionaryBatch {
-		if _, r.err = readDictionary(&r.memo, msg.meta, bytes.NewReader(msg.body.Bytes()), r.swapEndianness, r.mem); r.err != nil {
-			r.done = true
-			return false
-		}
-		msg, r.err = r.r.Message()
-	}
-	if r.err != nil {
-		r.done = true
-		if errors.Is(r.err, io.EOF) {
-			r.err = nil
-		}
-		return false
-	}
-
-	if got, want := msg.Type(), MessageRecordBatch; got != want {
-		r.err = fmt.Errorf("arrow/ipc: invalid message type (got=%v, want=%v", got, want)
-		return false
-	}
-
-	r.rec = newRecord(r.schema, &r.memo, msg.meta, bytes.NewReader(msg.body.Bytes()), r.swapEndianness, r.mem)
-	return true
-}
-
-// Record returns the current record that has been extracted from the
-// underlying stream.
-// It is valid until the next call to Next.
-func (r *Reader) Record() arrow.Record {
-	return r.rec
-}
-
-// Read reads the current record from the underlying stream and an error, if any.
-// When the Reader reaches the end of the underlying stream, it returns (nil, io.EOF).
-func (r *Reader) Read() (arrow.Record, error) {
-	if r.rec != nil {
-		r.rec.Release()
-		r.rec = nil
-	}
-
-	if !r.next() {
-		if r.done && r.err == nil {
-			return nil, io.EOF
-		}
-		return nil, r.err
-	}
-
-	return r.rec, nil
-}
-
-var (
-	_ array.RecordReader = (*Reader)(nil)
-)
diff --git a/go/arrow/ipc/reader_test.go b/go/arrow/ipc/reader_test.go
deleted file mode 100644
index 44aee19ecadd6..0000000000000
--- a/go/arrow/ipc/reader_test.go
+++ /dev/null
@@ -1,185 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"bytes"
-	"fmt"
-	"io"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestReaderCatchPanic(t *testing.T) {
-	alloc := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "s", Type: arrow.BinaryTypes.String},
-	}, nil)
-
-	b := array.NewRecordBuilder(alloc, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.StringBuilder).AppendValues([]string{"foo", "bar", "baz"}, nil)
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	buf := new(bytes.Buffer)
-	writer := NewWriter(buf, WithSchema(schema))
-	require.NoError(t, writer.Write(rec))
-
-	for i := buf.Len() - 100; i < buf.Len(); i++ {
-		buf.Bytes()[i] = 0
-	}
-
-	reader, err := NewReader(buf)
-	require.NoError(t, err)
-
-	_, err = reader.Read()
-	if assert.Error(t, err) {
-		assert.Contains(t, err.Error(), "arrow/ipc: unknown error while reading")
-	}
-}
-
-func TestReaderCheckedAllocator(t *testing.T) {
-	alloc := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer alloc.AssertSize(t, 0)
-	schema := arrow.NewSchema([]arrow.Field{
-		{
-			Name: "s",
-			Type: &arrow.DictionaryType{
-				ValueType: arrow.BinaryTypes.String,
-				IndexType: arrow.PrimitiveTypes.Int32,
-			},
-		},
-	}, nil)
-
-	b := array.NewRecordBuilder(alloc, schema)
-	defer b.Release()
-
-	bldr := b.Field(0).(*array.BinaryDictionaryBuilder)
-	bldr.Append([]byte("foo"))
-	bldr.Append([]byte("bar"))
-	bldr.Append([]byte("baz"))
-
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	buf := new(bytes.Buffer)
-	writer := NewWriter(buf, WithSchema(schema), WithAllocator(alloc))
-	defer writer.Close()
-	require.NoError(t, writer.Write(rec))
-
-	reader, err := NewReader(buf, WithAllocator(alloc))
-	require.NoError(t, err)
-	defer reader.Release()
-
-	_, err = reader.Read()
-	require.NoError(t, err)
-}
-
-func BenchmarkIPC(b *testing.B) {
-	alloc := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer alloc.AssertSize(b, 0)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{
-			Name: "s",
-			Type: &arrow.DictionaryType{
-				ValueType: arrow.BinaryTypes.String,
-				IndexType: arrow.PrimitiveTypes.Int32,
-			},
-		},
-	}, nil)
-
-	rb := array.NewRecordBuilder(alloc, schema)
-	defer rb.Release()
-
-	bldr := rb.Field(0).(*array.BinaryDictionaryBuilder)
-	bldr.Append([]byte("foo"))
-	bldr.Append([]byte("bar"))
-	bldr.Append([]byte("baz"))
-
-	rec := rb.NewRecord()
-	defer rec.Release()
-
-	for _, codec := range []struct {
-		name        string
-		codecOption Option
-	}{
-		{
-			name: "plain",
-		},
-		{
-			name:        "zstd",
-			codecOption: WithZstd(),
-		},
-		{
-			name:        "lz4",
-			codecOption: WithLZ4(),
-		},
-	} {
-		options := []Option{WithSchema(schema), WithAllocator(alloc)}
-		if codec.codecOption != nil {
-			options = append(options, codec.codecOption)
-		}
-		b.Run(fmt.Sprintf("Writer/codec=%s", codec.name), func(b *testing.B) {
-			buf := new(bytes.Buffer)
-			for i := 0; i < b.N; i++ {
-				func() {
-					buf.Reset()
-					writer := NewWriter(buf, options...)
-					defer writer.Close()
-					if err := writer.Write(rec); err != nil {
-						b.Fatal(err)
-					}
-				}()
-			}
-		})
-
-		b.Run(fmt.Sprintf("Reader/codec=%s", codec.name), func(b *testing.B) {
-			buf := new(bytes.Buffer)
-			writer := NewWriter(buf, options...)
-			defer writer.Close()
-			require.NoError(b, writer.Write(rec))
-			bufBytes := buf.Bytes()
-
-			b.ResetTimer()
-			for i := 0; i < b.N; i++ {
-				func() {
-					reader, err := NewReader(bytes.NewReader(bufBytes), WithAllocator(alloc))
-					if err != nil {
-						b.Fatal(err)
-					}
-					defer reader.Release()
-					for {
-						if _, err := reader.Read(); err != nil {
-							if err == io.EOF {
-								break
-							}
-							b.Fatal(err)
-						}
-					}
-				}()
-			}
-		})
-	}
-}
diff --git a/go/arrow/ipc/stream_test.go b/go/arrow/ipc/stream_test.go
deleted file mode 100644
index b044acff5350d..0000000000000
--- a/go/arrow/ipc/stream_test.go
+++ /dev/null
@@ -1,102 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc_test
-
-import (
-	"io"
-	"os"
-	"strconv"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func TestStream(t *testing.T) {
-	tempDir := t.TempDir()
-
-	for name, recs := range arrdata.Records {
-		t.Run(name, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-			defer mem.AssertSize(t, 0)
-
-			f, err := os.CreateTemp(tempDir, "go-arrow-stream-")
-			if err != nil {
-				t.Fatal(err)
-			}
-			defer f.Close()
-
-			arrdata.WriteStream(t, f, mem, recs[0].Schema(), recs)
-
-			err = f.Sync()
-			if err != nil {
-				t.Fatalf("could not sync data to disk: %v", err)
-			}
-
-			_, err = f.Seek(0, io.SeekStart)
-			if err != nil {
-				t.Fatalf("could not seek to start: %v", err)
-			}
-
-			arrdata.CheckArrowStream(t, f, mem, recs[0].Schema(), recs)
-		})
-	}
-}
-
-func TestStreamCompressed(t *testing.T) {
-	tempDir := t.TempDir()
-
-	compressTypes := []flatbuf.CompressionType{
-		flatbuf.CompressionTypeLZ4_FRAME, flatbuf.CompressionTypeZSTD,
-	}
-
-	for np := 0; np < 3; np++ {
-		t.Run("compress concurrency "+strconv.Itoa(np), func(t *testing.T) {
-			for _, codec := range compressTypes {
-				t.Run(codec.String(), func(t *testing.T) {
-					for name, recs := range arrdata.Records {
-						t.Run(name, func(t *testing.T) {
-							mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-							defer mem.AssertSize(t, 0)
-
-							f, err := os.CreateTemp(tempDir, "go-arrow-stream-")
-							if err != nil {
-								t.Fatal(err)
-							}
-							defer f.Close()
-
-							arrdata.WriteStreamCompressed(t, f, mem, recs[0].Schema(), recs, codec, np)
-
-							err = f.Sync()
-							if err != nil {
-								t.Fatalf("could not sync data to disk: %v", err)
-							}
-
-							_, err = f.Seek(0, io.SeekStart)
-							if err != nil {
-								t.Fatalf("could not seek to start: %v", err)
-							}
-
-							arrdata.CheckArrowStream(t, f, mem, recs[0].Schema(), recs)
-						})
-					}
-				})
-			}
-		})
-	}
-}
diff --git a/go/arrow/ipc/writer.go b/go/arrow/ipc/writer.go
deleted file mode 100644
index 5a280fbf84a1f..0000000000000
--- a/go/arrow/ipc/writer.go
+++ /dev/null
@@ -1,1095 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"context"
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"io"
-	"math"
-	"sync"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-type streamWriter struct {
-	w   io.Writer
-	pos int64
-}
-
-func (w *streamWriter) Start() error { return nil }
-func (w *streamWriter) Close() error {
-	_, err := w.Write(kEOS[:])
-	return err
-}
-
-func (w *streamWriter) WritePayload(p Payload) error {
-	_, err := writeIPCPayload(w, p)
-	if err != nil {
-		return err
-	}
-	return nil
-}
-
-func (w *streamWriter) Write(p []byte) (int, error) {
-	n, err := w.w.Write(p)
-	w.pos += int64(n)
-	return n, err
-}
-
-func hasNestedDict(data arrow.ArrayData) bool {
-	if data.DataType().ID() == arrow.DICTIONARY {
-		return true
-	}
-	for _, c := range data.Children() {
-		if hasNestedDict(c) {
-			return true
-		}
-	}
-	return false
-}
-
-// Writer is an Arrow stream writer.
-type Writer struct {
-	w io.Writer
-
-	mem memory.Allocator
-	pw  PayloadWriter
-
-	started         bool
-	schema          *arrow.Schema
-	mapper          dictutils.Mapper
-	codec           flatbuf.CompressionType
-	compressNP      int
-	compressors     []compressor
-	minSpaceSavings *float64
-
-	// map of the last written dictionaries by id
-	// so we can avoid writing the same dictionary over and over
-	lastWrittenDicts map[int64]arrow.Array
-	emitDictDeltas   bool
-}
-
-// NewWriterWithPayloadWriter constructs a writer with the provided payload writer
-// instead of the default stream payload writer. This makes the writer more
-// reusable such as by the Arrow Flight writer.
-func NewWriterWithPayloadWriter(pw PayloadWriter, opts ...Option) *Writer {
-	cfg := newConfig(opts...)
-	return &Writer{
-		mem:             cfg.alloc,
-		pw:              pw,
-		schema:          cfg.schema,
-		codec:           cfg.codec,
-		compressNP:      cfg.compressNP,
-		minSpaceSavings: cfg.minSpaceSavings,
-		emitDictDeltas:  cfg.emitDictDeltas,
-		compressors:     make([]compressor, cfg.compressNP),
-	}
-}
-
-// NewWriter returns a writer that writes records to the provided output stream.
-func NewWriter(w io.Writer, opts ...Option) *Writer {
-	cfg := newConfig(opts...)
-	return &Writer{
-		w:              w,
-		mem:            cfg.alloc,
-		pw:             &streamWriter{w: w},
-		schema:         cfg.schema,
-		codec:          cfg.codec,
-		emitDictDeltas: cfg.emitDictDeltas,
-		compressNP:     cfg.compressNP,
-		compressors:    make([]compressor, cfg.compressNP),
-	}
-}
-
-func (w *Writer) Close() error {
-	if !w.started {
-		err := w.start()
-		if err != nil {
-			return err
-		}
-	}
-
-	if w.pw == nil {
-		return nil
-	}
-
-	err := w.pw.Close()
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: could not close payload writer: %w", err)
-	}
-	w.pw = nil
-
-	for _, d := range w.lastWrittenDicts {
-		d.Release()
-	}
-
-	return nil
-}
-
-func (w *Writer) Write(rec arrow.Record) (err error) {
-	defer func() {
-		if pErr := recover(); pErr != nil {
-			err = utils.FormatRecoveredError("arrow/ipc: unknown error while writing", pErr)
-		}
-	}()
-
-	incomingSchema := rec.Schema()
-
-	if !w.started {
-		if w.schema == nil {
-			w.schema = incomingSchema
-		}
-		err := w.start()
-		if err != nil {
-			return err
-		}
-	}
-
-	if incomingSchema == nil || !incomingSchema.Equal(w.schema) {
-		return errInconsistentSchema
-	}
-
-	const allow64b = true
-	var (
-		data = Payload{msg: MessageRecordBatch}
-		enc  = newRecordEncoder(
-			w.mem,
-			0,
-			kMaxNestingDepth,
-			allow64b,
-			w.codec,
-			w.compressNP,
-			w.minSpaceSavings,
-			w.compressors,
-		)
-	)
-	defer data.Release()
-
-	err = writeDictionaryPayloads(w.mem, rec, false, w.emitDictDeltas, &w.mapper, w.lastWrittenDicts, w.pw, enc)
-	if err != nil {
-		return fmt.Errorf("arrow/ipc: failure writing dictionary batches: %w", err)
-	}
-
-	enc.reset()
-	if err := enc.Encode(&data, rec); err != nil {
-		return fmt.Errorf("arrow/ipc: could not encode record to payload: %w", err)
-	}
-
-	return w.pw.WritePayload(data)
-}
-
-func writeDictionaryPayloads(mem memory.Allocator, batch arrow.Record, isFileFormat bool, emitDictDeltas bool, mapper *dictutils.Mapper, lastWrittenDicts map[int64]arrow.Array, pw PayloadWriter, encoder *recordEncoder) error {
-	dictionaries, err := dictutils.CollectDictionaries(batch, mapper)
-	if err != nil {
-		return err
-	}
-	defer func() {
-		for _, d := range dictionaries {
-			d.Dict.Release()
-		}
-	}()
-
-	eqopt := array.WithNaNsEqual(true)
-	for _, pair := range dictionaries {
-		encoder.reset()
-		var (
-			deltaStart int64
-			enc        = dictEncoder{encoder}
-		)
-		lastDict, exists := lastWrittenDicts[pair.ID]
-		if exists {
-			if lastDict.Data() == pair.Dict.Data() {
-				continue
-			}
-			newLen, lastLen := pair.Dict.Len(), lastDict.Len()
-			if lastLen == newLen && array.ApproxEqual(lastDict, pair.Dict, eqopt) {
-				// same dictionary by value
-				// might cost CPU, but required for IPC file format
-				continue
-			}
-			if isFileFormat {
-				return errors.New("arrow/ipc: Dictionary replacement detected when writing IPC file format. Arrow IPC File only supports single dictionary per field")
-			}
-
-			if newLen > lastLen &&
-				emitDictDeltas &&
-				!hasNestedDict(pair.Dict.Data()) &&
-				(array.SliceApproxEqual(lastDict, 0, int64(lastLen), pair.Dict, 0, int64(lastLen), eqopt)) {
-				deltaStart = int64(lastLen)
-			}
-		}
-
-		var data = Payload{msg: MessageDictionaryBatch}
-		defer data.Release()
-
-		dict := pair.Dict
-		if deltaStart > 0 {
-			dict = array.NewSlice(dict, deltaStart, int64(dict.Len()))
-			defer dict.Release()
-		}
-		if err := enc.Encode(&data, pair.ID, deltaStart > 0, dict); err != nil {
-			return err
-		}
-
-		if err := pw.WritePayload(data); err != nil {
-			return err
-		}
-
-		lastWrittenDicts[pair.ID] = pair.Dict
-		if lastDict != nil {
-			lastDict.Release()
-		}
-		pair.Dict.Retain()
-	}
-	return nil
-}
-
-func (w *Writer) start() error {
-	w.started = true
-
-	w.mapper.ImportSchema(w.schema)
-	w.lastWrittenDicts = make(map[int64]arrow.Array)
-
-	// write out schema payloads
-	ps := payloadFromSchema(w.schema, w.mem, &w.mapper)
-	defer ps.Release()
-
-	for _, data := range ps {
-		err := w.pw.WritePayload(data)
-		if err != nil {
-			return err
-		}
-	}
-
-	return nil
-}
-
-type dictEncoder struct {
-	*recordEncoder
-}
-
-func (d *dictEncoder) encodeMetadata(p *Payload, isDelta bool, id, nrows int64) error {
-	p.meta = writeDictionaryMessage(d.mem, id, isDelta, nrows, p.size, d.fields, d.meta, d.codec, d.variadicCounts)
-	return nil
-}
-
-func (d *dictEncoder) Encode(p *Payload, id int64, isDelta bool, dict arrow.Array) error {
-	d.start = 0
-	defer func() {
-		d.start = 0
-	}()
-
-	schema := arrow.NewSchema([]arrow.Field{{Name: "dictionary", Type: dict.DataType(), Nullable: true}}, nil)
-	batch := array.NewRecord(schema, []arrow.Array{dict}, int64(dict.Len()))
-	defer batch.Release()
-	if err := d.encode(p, batch); err != nil {
-		return err
-	}
-
-	return d.encodeMetadata(p, isDelta, id, batch.NumRows())
-}
-
-type recordEncoder struct {
-	mem memory.Allocator
-
-	fields         []fieldMetadata
-	meta           []bufferMetadata
-	variadicCounts []int64
-
-	depth           int64
-	start           int64
-	allow64b        bool
-	codec           flatbuf.CompressionType
-	compressNP      int
-	compressors     []compressor
-	minSpaceSavings *float64
-}
-
-func newRecordEncoder(
-	mem memory.Allocator,
-	startOffset,
-	maxDepth int64,
-	allow64b bool,
-	codec flatbuf.CompressionType,
-	compressNP int,
-	minSpaceSavings *float64,
-	compressors []compressor,
-) *recordEncoder {
-	return &recordEncoder{
-		mem:             mem,
-		start:           startOffset,
-		depth:           maxDepth,
-		allow64b:        allow64b,
-		codec:           codec,
-		compressNP:      compressNP,
-		compressors:     compressors,
-		minSpaceSavings: minSpaceSavings,
-	}
-}
-
-func (w *recordEncoder) shouldCompress(uncompressed, compressed int) bool {
-	debug.Assert(uncompressed > 0, "uncompressed size is 0")
-	if w.minSpaceSavings == nil {
-		return true
-	}
-
-	savings := 1.0 - float64(compressed)/float64(uncompressed)
-	return savings >= *w.minSpaceSavings
-}
-
-func (w *recordEncoder) reset() {
-	w.start = 0
-	w.fields = make([]fieldMetadata, 0)
-}
-
-func (w *recordEncoder) getCompressor(id int) compressor {
-	if w.compressors[id] == nil {
-		w.compressors[id] = getCompressor(w.codec)
-	}
-	return w.compressors[id]
-}
-
-func (w *recordEncoder) compressBodyBuffers(p *Payload) error {
-	compress := func(idx int, codec compressor) error {
-		if p.body[idx] == nil || p.body[idx].Len() == 0 {
-			return nil
-		}
-
-		buf := memory.NewResizableBuffer(w.mem)
-		buf.Reserve(codec.MaxCompressedLen(p.body[idx].Len()) + arrow.Int64SizeBytes)
-
-		binary.LittleEndian.PutUint64(buf.Buf(), uint64(p.body[idx].Len()))
-		bw := &bufferWriter{buf: buf, pos: arrow.Int64SizeBytes}
-		codec.Reset(bw)
-
-		n, err := codec.Write(p.body[idx].Bytes())
-		if err != nil {
-			return err
-		}
-		if err := codec.Close(); err != nil {
-			return err
-		}
-
-		finalLen := bw.pos
-		compressedLen := bw.pos - arrow.Int64SizeBytes
-		if !w.shouldCompress(n, compressedLen) {
-			n = copy(buf.Buf()[arrow.Int64SizeBytes:], p.body[idx].Bytes())
-			// size of -1 indicates to the reader that the body
-			// doesn't need to be decompressed
-			var noprefix int64 = -1
-			binary.LittleEndian.PutUint64(buf.Buf(), uint64(noprefix))
-			finalLen = n + arrow.Int64SizeBytes
-		}
-		bw.buf.Resize(finalLen)
-		p.body[idx].Release()
-		p.body[idx] = buf
-		return nil
-	}
-
-	if w.compressNP <= 1 {
-		codec := w.getCompressor(0)
-		for idx := range p.body {
-			if err := compress(idx, codec); err != nil {
-				return err
-			}
-		}
-		return nil
-	}
-
-	var (
-		wg          sync.WaitGroup
-		ch          = make(chan int)
-		errch       = make(chan error)
-		ctx, cancel = context.WithCancel(context.Background())
-	)
-	defer cancel()
-
-	for workerID := 0; workerID < w.compressNP; workerID++ {
-		wg.Add(1)
-		go func(id int) {
-			defer wg.Done()
-			codec := w.getCompressor(id)
-			for {
-				select {
-				case idx, ok := <-ch:
-					if !ok {
-						// we're done, channel is closed!
-						return
-					}
-
-					if err := compress(idx, codec); err != nil {
-						errch <- err
-						cancel()
-						return
-					}
-				case <-ctx.Done():
-					// cancelled, return early
-					return
-				}
-			}
-		}(workerID)
-	}
-
-	for idx := range p.body {
-		ch <- idx
-	}
-
-	close(ch)
-	wg.Wait()
-	close(errch)
-
-	return <-errch
-}
-
-func (w *recordEncoder) encode(p *Payload, rec arrow.Record) error {
-	// perform depth-first traversal of the row-batch
-	for i, col := range rec.Columns() {
-		err := w.visit(p, col)
-		if err != nil {
-			return fmt.Errorf("arrow/ipc: could not encode column %d (%q): %w", i, rec.ColumnName(i), err)
-		}
-	}
-
-	if w.codec != -1 {
-		if w.minSpaceSavings != nil {
-			pct := *w.minSpaceSavings
-			if pct < 0 || pct > 1 {
-				p.Release()
-				return fmt.Errorf("%w: minSpaceSavings not in range [0,1]. Provided %.05f",
-					arrow.ErrInvalid, pct)
-			}
-		}
-		w.compressBodyBuffers(p)
-	}
-
-	// position for the start of a buffer relative to the passed frame of reference.
-	// may be 0 or some other position in an address space.
-	offset := w.start
-	w.meta = make([]bufferMetadata, len(p.body))
-
-	// construct the metadata for the record batch header
-	for i, buf := range p.body {
-		var (
-			size    int64
-			padding int64
-		)
-		// the buffer might be null if we are handling zero row lengths.
-		if buf != nil {
-			size = int64(buf.Len())
-			padding = bitutil.CeilByte64(size) - size
-		}
-		w.meta[i] = bufferMetadata{
-			Offset: offset,
-			// even though we add padding, we need the Len to be correct
-			// so that decompressing works properly.
-			Len: size,
-		}
-		offset += size + padding
-	}
-
-	p.size = offset - w.start
-	if !bitutil.IsMultipleOf8(p.size) {
-		panic("not aligned")
-	}
-
-	return nil
-}
-
-func (w *recordEncoder) visit(p *Payload, arr arrow.Array) error {
-	if w.depth <= 0 {
-		return errMaxRecursion
-	}
-
-	if !w.allow64b && arr.Len() > math.MaxInt32 {
-		return errBigArray
-	}
-
-	if arr.DataType().ID() == arrow.EXTENSION {
-		arr := arr.(array.ExtensionArray)
-		err := w.visit(p, arr.Storage())
-		if err != nil {
-			return fmt.Errorf("failed visiting storage of for array %T: %w", arr, err)
-		}
-		return nil
-	}
-
-	if arr.DataType().ID() == arrow.DICTIONARY {
-		arr := arr.(*array.Dictionary)
-		return w.visit(p, arr.Indices())
-	}
-
-	// add all common elements
-	w.fields = append(w.fields, fieldMetadata{
-		Len:    int64(arr.Len()),
-		Nulls:  int64(arr.NullN()),
-		Offset: 0,
-	})
-
-	if arr.DataType().ID() == arrow.NULL {
-		return nil
-	}
-
-	if internal.HasValidityBitmap(arr.DataType().ID(), flatbuf.MetadataVersion(currentMetadataVersion)) {
-		switch arr.NullN() {
-		case 0:
-			// there are no null values, drop the null bitmap
-			p.body = append(p.body, nil)
-		default:
-			data := arr.Data()
-			var bitmap *memory.Buffer
-			if data.NullN() == data.Len() {
-				// every value is null, just use a new zero-initialized bitmap to avoid the expense of copying
-				bitmap = memory.NewResizableBuffer(w.mem)
-				minLength := paddedLength(bitutil.BytesForBits(int64(data.Len())), kArrowAlignment)
-				bitmap.Resize(int(minLength))
-			} else {
-				// otherwise truncate and copy the bits
-				bitmap = newTruncatedBitmap(w.mem, int64(data.Offset()), int64(data.Len()), data.Buffers()[0])
-			}
-			p.body = append(p.body, bitmap)
-		}
-	}
-
-	switch dtype := arr.DataType().(type) {
-	case *arrow.NullType:
-		// ok. NullArrays are completely empty.
-
-	case *arrow.BooleanType:
-		var (
-			data = arr.Data()
-			bitm *memory.Buffer
-		)
-
-		if data.Len() != 0 {
-			bitm = newTruncatedBitmap(w.mem, int64(data.Offset()), int64(data.Len()), data.Buffers()[1])
-		}
-		p.body = append(p.body, bitm)
-
-	case arrow.FixedWidthDataType:
-		data := arr.Data()
-		values := data.Buffers()[1]
-		arrLen := int64(arr.Len())
-		typeWidth := int64(dtype.BitWidth() / 8)
-		minLength := paddedLength(arrLen*typeWidth, kArrowAlignment)
-
-		switch {
-		case needTruncate(int64(data.Offset()), values, minLength):
-			// non-zero offset: slice the buffer
-			offset := int64(data.Offset()) * typeWidth
-			// send padding if available
-			len := minI64(bitutil.CeilByte64(arrLen*typeWidth), int64(values.Len())-offset)
-			values = memory.NewBufferBytes(values.Bytes()[offset : offset+len])
-		default:
-			if values != nil {
-				values.Retain()
-			}
-		}
-		p.body = append(p.body, values)
-
-	case *arrow.BinaryType, *arrow.LargeBinaryType, *arrow.StringType, *arrow.LargeStringType:
-		arr := arr.(array.BinaryLike)
-		voffsets := w.getZeroBasedValueOffsets(arr)
-		data := arr.Data()
-		values := data.Buffers()[2]
-
-		var totalDataBytes int64
-		if voffsets != nil {
-			totalDataBytes = int64(len(arr.ValueBytes()))
-		}
-
-		switch {
-		case needTruncate(int64(data.Offset()), values, totalDataBytes):
-			// slice data buffer to include the range we need now.
-			var (
-				beg = arr.ValueOffset64(0)
-				len = minI64(paddedLength(totalDataBytes, kArrowAlignment), int64(totalDataBytes))
-			)
-			values = memory.NewBufferBytes(data.Buffers()[2].Bytes()[beg : beg+len])
-		default:
-			if values != nil {
-				values.Retain()
-			}
-		}
-		p.body = append(p.body, voffsets)
-		p.body = append(p.body, values)
-
-	case arrow.BinaryViewDataType:
-		data := arr.Data()
-		values := data.Buffers()[1]
-		arrLen := int64(arr.Len())
-		typeWidth := int64(arrow.ViewHeaderSizeBytes)
-		minLength := paddedLength(arrLen*typeWidth, kArrowAlignment)
-
-		switch {
-		case needTruncate(int64(data.Offset()), values, minLength):
-			// non-zero offset: slice the buffer
-			offset := data.Offset() * int(typeWidth)
-			// send padding if available
-			len := int(minI64(bitutil.CeilByte64(arrLen*typeWidth), int64(values.Len()-offset)))
-			values = memory.SliceBuffer(values, offset, len)
-		default:
-			if values != nil {
-				values.Retain()
-			}
-		}
-		p.body = append(p.body, values)
-
-		w.variadicCounts = append(w.variadicCounts, int64(len(data.Buffers())-2))
-		for _, b := range data.Buffers()[2:] {
-			b.Retain()
-			p.body = append(p.body, b)
-		}
-
-	case *arrow.StructType:
-		w.depth--
-		arr := arr.(*array.Struct)
-		for i := 0; i < arr.NumField(); i++ {
-			err := w.visit(p, arr.Field(i))
-			if err != nil {
-				return fmt.Errorf("could not visit field %d of struct-array: %w", i, err)
-			}
-		}
-		w.depth++
-
-	case *arrow.SparseUnionType:
-		offset, length := arr.Data().Offset(), arr.Len()
-		arr := arr.(*array.SparseUnion)
-		typeCodes := getTruncatedBuffer(int64(offset), int64(length), int32(unsafe.Sizeof(arrow.UnionTypeCode(0))), arr.TypeCodes())
-		p.body = append(p.body, typeCodes)
-
-		w.depth--
-		for i := 0; i < arr.NumFields(); i++ {
-			err := w.visit(p, arr.Field(i))
-			if err != nil {
-				return fmt.Errorf("could not visit field %d of sparse union array: %w", i, err)
-			}
-		}
-		w.depth++
-	case *arrow.DenseUnionType:
-		offset, length := arr.Data().Offset(), arr.Len()
-		arr := arr.(*array.DenseUnion)
-		typeCodes := getTruncatedBuffer(int64(offset), int64(length), int32(unsafe.Sizeof(arrow.UnionTypeCode(0))), arr.TypeCodes())
-		p.body = append(p.body, typeCodes)
-
-		w.depth--
-		dt := arr.UnionType()
-
-		// union type codes are not necessarily 0-indexed
-		maxCode := dt.MaxTypeCode()
-
-		// allocate an array of child offsets. Set all to -1 to indicate we
-		// haven't observed a first occurrence of a particular child yet
-		offsets := make([]int32, maxCode+1)
-		lengths := make([]int32, maxCode+1)
-		offsets[0], lengths[0] = -1, 0
-		for i := 1; i < len(offsets); i *= 2 {
-			copy(offsets[i:], offsets[:i])
-			copy(lengths[i:], lengths[:i])
-		}
-
-		var valueOffsets *memory.Buffer
-		if offset != 0 {
-			valueOffsets = w.rebaseDenseUnionValueOffsets(arr, offsets, lengths)
-		} else {
-			valueOffsets = getTruncatedBuffer(int64(offset), int64(length), int32(arrow.Int32SizeBytes), arr.ValueOffsets())
-		}
-		p.body = append(p.body, valueOffsets)
-
-		// visit children and slice accordingly
-		for i := range dt.Fields() {
-			child := arr.Field(i)
-			// for sliced unions it's tricky to know how much to truncate
-			// the children. For now we'll truncate the children to be
-			// no longer than the parent union.
-
-			if offset != 0 {
-				code := dt.TypeCodes()[i]
-				childOffset := offsets[code]
-				childLen := lengths[code]
-
-				if childOffset > 0 {
-					child = array.NewSlice(child, int64(childOffset), int64(childOffset+childLen))
-					defer child.Release()
-				} else if childLen < int32(child.Len()) {
-					child = array.NewSlice(child, 0, int64(childLen))
-					defer child.Release()
-				}
-			}
-			if err := w.visit(p, child); err != nil {
-				return fmt.Errorf("could not visit field %d of dense union array: %w", i, err)
-			}
-		}
-		w.depth++
-	case *arrow.MapType, *arrow.ListType, *arrow.LargeListType:
-		arr := arr.(array.ListLike)
-		voffsets := w.getZeroBasedValueOffsets(arr)
-		p.body = append(p.body, voffsets)
-
-		w.depth--
-		var (
-			values        = arr.ListValues()
-			mustRelease   = false
-			values_offset int64
-			values_end    int64
-		)
-		defer func() {
-			if mustRelease {
-				values.Release()
-			}
-		}()
-
-		if arr.Len() > 0 && voffsets != nil {
-			values_offset, _ = arr.ValueOffsets(0)
-			_, values_end = arr.ValueOffsets(arr.Len() - 1)
-		}
-
-		if arr.Len() != 0 || values_end < int64(values.Len()) {
-			// must also slice the values
-			values = array.NewSlice(values, values_offset, values_end)
-			mustRelease = true
-		}
-		err := w.visit(p, values)
-
-		if err != nil {
-			return fmt.Errorf("could not visit list element for array %T: %w", arr, err)
-		}
-		w.depth++
-
-	case *arrow.ListViewType, *arrow.LargeListViewType:
-		arr := arr.(array.VarLenListLike)
-
-		voffsets, minOffset, maxEnd := w.getZeroBasedListViewOffsets(arr)
-		vsizes := w.getListViewSizes(arr)
-
-		p.body = append(p.body, voffsets)
-		p.body = append(p.body, vsizes)
-
-		w.depth--
-		var (
-			values = arr.ListValues()
-		)
-
-		if minOffset != 0 || maxEnd < int64(values.Len()) {
-			values = array.NewSlice(values, minOffset, maxEnd)
-			defer values.Release()
-		}
-		err := w.visit(p, values)
-
-		if err != nil {
-			return fmt.Errorf("could not visit list element for array %T: %w", arr, err)
-		}
-		w.depth++
-
-	case *arrow.FixedSizeListType:
-		arr := arr.(*array.FixedSizeList)
-
-		w.depth--
-
-		size := int64(arr.DataType().(*arrow.FixedSizeListType).Len())
-		beg := int64(arr.Offset()) * size
-		end := int64(arr.Offset()+arr.Len()) * size
-
-		values := array.NewSlice(arr.ListValues(), beg, end)
-		defer values.Release()
-
-		err := w.visit(p, values)
-
-		if err != nil {
-			return fmt.Errorf("could not visit list element for array %T: %w", arr, err)
-		}
-		w.depth++
-
-	case *arrow.RunEndEncodedType:
-		arr := arr.(*array.RunEndEncoded)
-		w.depth--
-		child := arr.LogicalRunEndsArray(w.mem)
-		defer child.Release()
-		if err := w.visit(p, child); err != nil {
-			return err
-		}
-		child = arr.LogicalValuesArray()
-		defer child.Release()
-		if err := w.visit(p, child); err != nil {
-			return err
-		}
-		w.depth++
-
-	default:
-		panic(fmt.Errorf("arrow/ipc: unknown array %T (dtype=%T)", arr, dtype))
-	}
-
-	return nil
-}
-
-func (w *recordEncoder) getZeroBasedValueOffsets(arr arrow.Array) *memory.Buffer {
-	data := arr.Data()
-	voffsets := data.Buffers()[1]
-	offsetTraits := arr.DataType().(arrow.OffsetsDataType).OffsetTypeTraits()
-	offsetBytesNeeded := offsetTraits.BytesRequired(data.Len() + 1)
-
-	if voffsets == nil || voffsets.Len() == 0 {
-		return nil
-	}
-
-	dataTypeWidth := arr.DataType().Layout().Buffers[1].ByteWidth
-
-	// if we have a non-zero offset, then the value offsets do not start at
-	// zero. we must a) create a new offsets array with shifted offsets and
-	// b) slice the values array accordingly
-	hasNonZeroOffset := data.Offset() != 0
-
-	// or if there are more value offsets than values (the array has been sliced)
-	// we need to trim off the trailing offsets
-	hasMoreOffsetsThanValues := offsetBytesNeeded < voffsets.Len()
-
-	// or if the offsets do not start from the zero index, we need to shift them
-	// and slice the values array
-	var firstOffset int64
-	if dataTypeWidth == 8 {
-		firstOffset = arrow.Int64Traits.CastFromBytes(voffsets.Bytes())[0]
-	} else {
-		firstOffset = int64(arrow.Int32Traits.CastFromBytes(voffsets.Bytes())[0])
-	}
-	offsetsDoNotStartFromZero := firstOffset != 0
-
-	// determine whether the offsets array should be shifted
-	needsTruncateAndShift := hasNonZeroOffset || hasMoreOffsetsThanValues || offsetsDoNotStartFromZero
-
-	if needsTruncateAndShift {
-		shiftedOffsets := memory.NewResizableBuffer(w.mem)
-		shiftedOffsets.Resize(offsetBytesNeeded)
-
-		switch dataTypeWidth {
-		case 8:
-			dest := arrow.Int64Traits.CastFromBytes(shiftedOffsets.Bytes())
-			offsets := arrow.Int64Traits.CastFromBytes(voffsets.Bytes())[data.Offset() : data.Offset()+data.Len()+1]
-
-			startOffset := offsets[0]
-			for i, o := range offsets {
-				dest[i] = o - startOffset
-			}
-
-		default:
-			debug.Assert(arr.DataType().Layout().Buffers[1].ByteWidth == 4, "invalid offset bytewidth")
-			dest := arrow.Int32Traits.CastFromBytes(shiftedOffsets.Bytes())
-			offsets := arrow.Int32Traits.CastFromBytes(voffsets.Bytes())[data.Offset() : data.Offset()+data.Len()+1]
-
-			startOffset := offsets[0]
-			for i, o := range offsets {
-				dest[i] = o - startOffset
-			}
-		}
-
-		voffsets = shiftedOffsets
-	} else {
-		voffsets.Retain()
-	}
-
-	return voffsets
-}
-
-func getZeroBasedListViewOffsets[OffsetT int32 | int64](mem memory.Allocator, arr array.VarLenListLike) (valueOffsets *memory.Buffer, minOffset, maxEnd OffsetT) {
-	requiredBytes := int(unsafe.Sizeof(minOffset)) * arr.Len()
-	if arr.Data().Offset() == 0 {
-		// slice offsets to used extent, in case we have truncated slice
-		minOffset, maxEnd = 0, OffsetT(arr.ListValues().Len())
-		valueOffsets = arr.Data().Buffers()[1]
-		if valueOffsets.Len() > requiredBytes {
-			valueOffsets = memory.SliceBuffer(valueOffsets, 0, requiredBytes)
-		} else {
-			valueOffsets.Retain()
-		}
-		return
-	}
-
-	// non-zero offset, it's likely that the smallest offset is not zero
-	// we must a) create a new offsets array with shifted offsets and
-	// b) slice the values array accordingly
-
-	valueOffsets = memory.NewResizableBuffer(mem)
-	valueOffsets.Resize(requiredBytes)
-	if arr.Len() > 0 {
-		// max value of int32/int64 based on type
-		minOffset = (^OffsetT(0)) << ((8 * unsafe.Sizeof(minOffset)) - 1)
-		for i := 0; i < arr.Len(); i++ {
-			start, end := arr.ValueOffsets(i)
-			minOffset = utils.Min(minOffset, OffsetT(start))
-			maxEnd = utils.Max(maxEnd, OffsetT(end))
-		}
-	}
-
-	offsets := arrow.GetData[OffsetT](arr.Data().Buffers()[1].Bytes())[arr.Data().Offset():]
-	destOffset := arrow.GetData[OffsetT](valueOffsets.Bytes())
-	for i := 0; i < arr.Len(); i++ {
-		destOffset[i] = offsets[i] - minOffset
-	}
-	return
-}
-
-func getListViewSizes[OffsetT int32 | int64](arr array.VarLenListLike) *memory.Buffer {
-	var z OffsetT
-	requiredBytes := int(unsafe.Sizeof(z)) * arr.Len()
-	sizes := arr.Data().Buffers()[2]
-
-	if arr.Data().Offset() != 0 || sizes.Len() > requiredBytes {
-		// slice offsets to used extent, in case we have truncated slice
-		offsetBytes := arr.Data().Offset() * int(unsafe.Sizeof(z))
-		sizes = memory.SliceBuffer(sizes, offsetBytes, requiredBytes)
-	} else {
-		sizes.Retain()
-	}
-	return sizes
-}
-
-func (w *recordEncoder) getZeroBasedListViewOffsets(arr array.VarLenListLike) (*memory.Buffer, int64, int64) {
-	if arr.Len() == 0 {
-		return nil, 0, 0
-	}
-
-	var (
-		outOffsets     *memory.Buffer
-		minOff, maxEnd int64
-	)
-
-	switch v := arr.(type) {
-	case *array.ListView:
-		voffsets, outOff, outEnd := getZeroBasedListViewOffsets[int32](w.mem, v)
-		outOffsets = voffsets
-		minOff, maxEnd = int64(outOff), int64(outEnd)
-	case *array.LargeListView:
-		outOffsets, minOff, maxEnd = getZeroBasedListViewOffsets[int64](w.mem, v)
-	}
-	return outOffsets, minOff, maxEnd
-}
-
-func (w *recordEncoder) getListViewSizes(arr array.VarLenListLike) *memory.Buffer {
-	if arr.Len() == 0 {
-		return nil
-	}
-
-	switch v := arr.(type) {
-	case *array.ListView:
-		return getListViewSizes[int32](v)
-	case *array.LargeListView:
-		return getListViewSizes[int64](v)
-	}
-	return nil
-}
-
-func (w *recordEncoder) rebaseDenseUnionValueOffsets(arr *array.DenseUnion, offsets, lengths []int32) *memory.Buffer {
-	// this case sucks. Because the offsets are different for each
-	// child array, when we have a sliced array, we need to re-base
-	// the value offsets for each array! ew.
-	unshiftedOffsets := arr.RawValueOffsets()
-	codes := arr.RawTypeCodes()
-
-	shiftedOffsetsBuf := memory.NewResizableBuffer(w.mem)
-	shiftedOffsetsBuf.Resize(arrow.Int32Traits.BytesRequired(arr.Len()))
-	shiftedOffsets := arrow.Int32Traits.CastFromBytes(shiftedOffsetsBuf.Bytes())
-
-	// compute shifted offsets by subtracting child offset
-	for i, c := range codes {
-		if offsets[c] == -1 {
-			// offsets are guaranteed to be increasing according to the spec
-			// so the first offset we find for a child is the initial offset
-			// and will become the "0" for this child.
-			offsets[c] = unshiftedOffsets[i]
-			shiftedOffsets[i] = 0
-		} else {
-			shiftedOffsets[i] = unshiftedOffsets[i] - offsets[c]
-		}
-		lengths[c] = maxI32(lengths[c], shiftedOffsets[i]+1)
-	}
-	return shiftedOffsetsBuf
-}
-
-func (w *recordEncoder) Encode(p *Payload, rec arrow.Record) error {
-	if err := w.encode(p, rec); err != nil {
-		return err
-	}
-	return w.encodeMetadata(p, rec.NumRows())
-}
-
-func (w *recordEncoder) encodeMetadata(p *Payload, nrows int64) error {
-	p.meta = writeRecordMessage(w.mem, nrows, p.size, w.fields, w.meta, w.codec, w.variadicCounts)
-	return nil
-}
-
-func newTruncatedBitmap(mem memory.Allocator, offset, length int64, input *memory.Buffer) *memory.Buffer {
-	if input == nil {
-		return nil
-	}
-
-	minLength := paddedLength(bitutil.BytesForBits(length), kArrowAlignment)
-	switch {
-	case offset != 0 || minLength < int64(input.Len()):
-		// with a sliced array / non-zero offset, we must copy the bitmap
-		buf := memory.NewResizableBuffer(mem)
-		buf.Resize(int(minLength))
-		bitutil.CopyBitmap(input.Bytes(), int(offset), int(length), buf.Bytes(), 0)
-		return buf
-	default:
-		input.Retain()
-		return input
-	}
-}
-
-func getTruncatedBuffer(offset, length int64, byteWidth int32, buf *memory.Buffer) *memory.Buffer {
-	if buf == nil {
-		return buf
-	}
-
-	paddedLen := paddedLength(length*int64(byteWidth), kArrowAlignment)
-	if offset != 0 || paddedLen < int64(buf.Len()) {
-		return memory.SliceBuffer(buf, int(offset*int64(byteWidth)), int(minI64(paddedLen, int64(buf.Len()))))
-	}
-	buf.Retain()
-	return buf
-}
-
-func needTruncate(offset int64, buf *memory.Buffer, minLength int64) bool {
-	if buf == nil {
-		return false
-	}
-	return offset != 0 || minLength < int64(buf.Len())
-}
-
-func minI64(a, b int64) int64 {
-	if a < b {
-		return a
-	}
-	return b
-}
-
-func maxI32(a, b int32) int32 {
-	if a > b {
-		return a
-	}
-	return b
-}
diff --git a/go/arrow/ipc/writer_test.go b/go/arrow/ipc/writer_test.go
deleted file mode 100644
index 60d811e68e87e..0000000000000
--- a/go/arrow/ipc/writer_test.go
+++ /dev/null
@@ -1,256 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package ipc
-
-import (
-	"bytes"
-	"encoding/binary"
-	"fmt"
-	"math"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-// reproducer from ARROW-13529
-func TestSliceAndWrite(t *testing.T) {
-	alloc := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "s", Type: arrow.BinaryTypes.String},
-	}, nil)
-
-	b := array.NewRecordBuilder(alloc, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.StringBuilder).AppendValues([]string{"foo", "bar", "baz"}, nil)
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	sliceAndWrite := func(rec arrow.Record, schema *arrow.Schema) {
-		slice := rec.NewSlice(1, 2)
-		defer slice.Release()
-
-		fmt.Println(slice.Columns()[0].(*array.String).Value(0))
-
-		var buf bytes.Buffer
-		w := NewWriter(&buf, WithSchema(schema))
-		w.Write(slice)
-		w.Close()
-	}
-
-	assert.NotPanics(t, func() {
-		for i := 0; i < 2; i++ {
-			sliceAndWrite(rec, schema)
-		}
-	})
-}
-
-func TestNewTruncatedBitmap(t *testing.T) {
-	alloc := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer alloc.AssertSize(t, 0)
-
-	assert.Nil(t, newTruncatedBitmap(alloc, 0, 0, nil), "input bitmap is null")
-
-	buf := memory.NewBufferBytes(make([]byte, bitutil.BytesForBits(8)))
-	defer buf.Release()
-
-	bitutil.SetBit(buf.Bytes(), 0)
-	bitutil.SetBit(buf.Bytes(), 2)
-	bitutil.SetBit(buf.Bytes(), 4)
-	bitutil.SetBit(buf.Bytes(), 6)
-
-	assert.Same(t, buf, newTruncatedBitmap(alloc, 0, 8, buf), "no truncation necessary")
-
-	result := newTruncatedBitmap(alloc, 1, 7, buf)
-	defer result.Release()
-	for i, exp := range []bool{false, true, false, true, false, true, false} {
-		assert.Equal(t, exp, bitutil.BitIsSet(result.Bytes(), i), "truncate for offset")
-	}
-
-	buf = memory.NewBufferBytes(make([]byte, 128))
-	defer buf.Release()
-	bitutil.SetBitsTo(buf.Bytes(), 0, 128*8, true)
-
-	result = newTruncatedBitmap(alloc, 0, 8, buf)
-	defer result.Release()
-	assert.Equal(t, 64, result.Len(), "truncate to smaller buffer")
-	assert.Equal(t, 8, bitutil.CountSetBits(result.Bytes(), 0, 8))
-}
-
-func TestGetZeroBasedValueOffsets(t *testing.T) {
-	alloc := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer alloc.AssertSize(t, 0)
-
-	vals := []string{"a", "b", "c", "d", "e", "f", "g", "h", "i", "j"}
-	b := array.NewStringBuilder(alloc)
-	defer b.Release()
-	b.AppendValues(vals, nil)
-
-	arr := b.NewArray()
-	defer arr.Release()
-
-	env := &recordEncoder{mem: alloc}
-
-	offsets := env.getZeroBasedValueOffsets(arr)
-	defer offsets.Release()
-	assert.Equal(t, 44, offsets.Len(), "include all offsets if array is not sliced")
-
-	sl := array.NewSlice(arr, 0, 4)
-	defer sl.Release()
-
-	offsets = env.getZeroBasedValueOffsets(sl)
-	defer offsets.Release()
-	assert.Equal(t, 20, offsets.Len(), "trim trailing offsets after slice")
-}
-
-func TestWriterCatchPanic(t *testing.T) {
-	alloc := memory.NewGoAllocator()
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "s", Type: arrow.BinaryTypes.String},
-	}, nil)
-
-	b := array.NewRecordBuilder(alloc, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.StringBuilder).AppendValues([]string{"foo", "bar", "baz"}, nil)
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	// mess up the first offset for the string column
-	offsetBuf := rec.Column(0).Data().Buffers()[1]
-	bitutil.SetBitsTo(offsetBuf.Bytes(), 0, 32, true)
-
-	buf := new(bytes.Buffer)
-
-	writer := NewWriter(buf, WithSchema(schema))
-	assert.EqualError(t, writer.Write(rec), "arrow/ipc: unknown error while writing: runtime error: slice bounds out of range [-1:]")
-}
-
-func TestWriterMemCompression(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "s", Type: arrow.BinaryTypes.String},
-	}, nil)
-
-	b := array.NewRecordBuilder(mem, schema)
-	defer b.Release()
-
-	b.Field(0).(*array.StringBuilder).AppendValues([]string{"foo", "bar", "baz"}, nil)
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	var buf bytes.Buffer
-	w := NewWriter(&buf, WithAllocator(mem), WithSchema(schema), WithZstd())
-	defer w.Close()
-
-	require.NoError(t, w.Write(rec))
-}
-
-func TestWriteWithCompressionAndMinSavings(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	// a small batch that is known to be compressible
-	batch, _, err := array.RecordFromJSON(mem, arrow.NewSchema([]arrow.Field{
-		{Name: "n", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil),
-		strings.NewReader(`[
-			{"n": 0}, {"n": 1}, {"n": 2}, {"n": 3}, {"n": 4},
-			{"n": 5}, {"n": 6}, {"n": 7}, {"n": 8}, {"n": 9}]`))
-	require.NoError(t, err)
-	defer batch.Release()
-
-	prefixedSize := func(buf *memory.Buffer) int64 {
-		if buf.Len() < arrow.Int64SizeBytes {
-			return 0
-		}
-		return int64(binary.LittleEndian.Uint64(buf.Bytes()))
-	}
-	contentSize := func(buf *memory.Buffer) int64 {
-		return int64(buf.Len()) - int64(arrow.Int64SizeBytes)
-	}
-
-	for _, codec := range []flatbuf.CompressionType{flatbuf.CompressionTypeLZ4_FRAME, flatbuf.CompressionTypeZSTD} {
-		compressors := []compressor{getCompressor(codec)}
-		enc := newRecordEncoder(mem, 0, 5, true, codec, 1, nil, compressors)
-		var payload Payload
-		require.NoError(t, enc.encode(&payload, batch))
-		assert.Len(t, payload.body, 2)
-
-		// compute the savings when body buffers are compressed unconditionally.
-		// We also validate that our test batch is indeed compressible.
-		uncompressedSize, compressedSize := prefixedSize(payload.body[1]), contentSize(payload.body[1])
-		assert.Less(t, compressedSize, uncompressedSize)
-		assert.Greater(t, compressedSize, int64(0))
-		expectedSavings := 1.0 - float64(compressedSize)/float64(uncompressedSize)
-
-		compressEncoder := newRecordEncoder(mem, 0, 5, true, codec, 1, &expectedSavings, compressors)
-		payload.Release()
-		payload.body = payload.body[:0]
-		require.NoError(t, compressEncoder.encode(&payload, batch))
-		assert.Len(t, payload.body, 2)
-		assert.Equal(t, uncompressedSize, prefixedSize(payload.body[1]))
-		assert.Equal(t, compressedSize, contentSize(payload.body[1]))
-
-		payload.Release()
-		payload.body = payload.body[:0]
-		// slightly bump the threshold. the body buffer should now be prefixed
-		// with -1 and its content left uncompressed
-		minSavings := math.Nextafter(expectedSavings, 1.0)
-		compressEncoder.minSpaceSavings = &minSavings
-		require.NoError(t, compressEncoder.encode(&payload, batch))
-		assert.Len(t, payload.body, 2)
-		assert.EqualValues(t, -1, prefixedSize(payload.body[1]))
-		assert.Equal(t, uncompressedSize, contentSize(payload.body[1]))
-		payload.Release()
-		payload.body = payload.body[:0]
-
-		for _, outOfRange := range []float64{math.Nextafter(1.0, 2.0), math.Nextafter(0, -1)} {
-			compressEncoder.minSpaceSavings = &outOfRange
-			err := compressEncoder.encode(&payload, batch)
-			assert.ErrorIs(t, err, arrow.ErrInvalid)
-			assert.ErrorContains(t, err, "minSpaceSavings not in range [0,1]")
-		}
-	}
-}
-
-func TestWriterInferSchema(t *testing.T) {
-	bldr := array.NewRecordBuilder(memory.DefaultAllocator, arrow.NewSchema([]arrow.Field{{Name: "col", Type: arrow.PrimitiveTypes.Int8}}, nil))
-	bldr.Field(0).(*array.Int8Builder).AppendValues([]int8{1, 2, 3, 4, 5}, nil)
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	var buf bytes.Buffer
-	w := NewWriter(&buf)
-
-	require.NoError(t, w.Write(rec))
-	require.NoError(t, w.Close())
-
-	r, err := NewReader(&buf)
-	require.NoError(t, err)
-	defer r.Release()
-
-	require.True(t, r.Schema().Equal(rec.Schema()))
-}
diff --git a/go/arrow/math/Makefile b/go/arrow/math/Makefile
deleted file mode 100644
index 3cc392071cde1..0000000000000
--- a/go/arrow/math/Makefile
+++ /dev/null
@@ -1,110 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-GO_BUILD=go build
-GO_GEN=go generate
-GO_TEST=go test
-GOPATH=$(realpath ../../../../../..)
-
-# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-
-C2GOASM=c2goasm -a -f
-CC=clang
-C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 -fno-asynchronous-unwind-tables \
-	-fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma -mllvm -force-vector-width=32
-ASM_FLAGS_SSE4=-msse4
-
-C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
-	     -fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-INTEL_SOURCES := \
-	float64_avx2_amd64.s float64_sse4_amd64.s \
-	int64_avx2_amd64.s int64_sse4_amd64.s \
-	uint64_avx2_amd64.s uint64_sse4_amd64.s
-
-.PHONEY: assembly
-
-#
-# ARROW-15172: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
-# The related Arm64 assembly (uint64_neon_arm64.s, int64_neon_arm64.s, float64_neon_arm64.s) were generated by asm2plan9s.
-# And manually formatted them as the Arm64 Plan9.
-#
-assembly: $(INTEL_SOURCES)
-
-generate: ../bin/tmpl
-	../bin/tmpl -i -data=float64.tmpldata type.go.tmpl=float64.go type_amd64.go.tmpl=float64_amd64.go type_arm64.go.tmpl=float64_arm64.go type_ppc64le.go.tmpl=float64_ppc64le.go type_s390x.go.tmpl=float64_s390x.go type_noasm.go.tmpl=float64_noasm.go type_test.go.tmpl=float64_test.go
-	../bin/tmpl -i -data=float64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=float64_avx2_amd64.go
-	../bin/tmpl -i -data=float64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=float64_sse4_amd64.go
-	../bin/tmpl -i -data=float64.tmpldata -d arch=neon type_simd_arm64.go.tmpl=float64_neon_arm64.go
-	../bin/tmpl -i -data=int64.tmpldata type.go.tmpl=int64.go type_amd64.go.tmpl=int64_amd64.go type_arm64.go.tmpl=int64_arm64.go type_ppc64le.go.tmpl=int64_ppc64le.go type_s390x.go.tmpl=int64_s390x.go type_noasm.go.tmpl=int64_noasm.go type_test.go.tmpl=int64_test.go
-	../bin/tmpl -i -data=int64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=int64_avx2_amd64.go
-	../bin/tmpl -i -data=int64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=int64_sse4_amd64.go
-	../bin/tmpl -i -data=int64.tmpldata -d arch=neon type_simd_arm64.go.tmpl=int64_neon_arm64.go
-	../bin/tmpl -i -data=uint64.tmpldata type.go.tmpl=uint64.go type_amd64.go.tmpl=uint64_amd64.go type_arm64.go.tmpl=uint64_arm64.go type_ppc64le.go.tmpl=uint64_ppc64le.go type_s390x.go.tmpl=uint64_s390x.go type_noasm.go.tmpl=uint64_noasm.go type_test.go.tmpl=uint64_test.go
-	../bin/tmpl -i -data=uint64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=uint64_avx2_amd64.go
-	../bin/tmpl -i -data=uint64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=uint64_sse4_amd64.go
-	../bin/tmpl -i -data=uint64.tmpldata -d arch=neon type_simd_arm64.go.tmpl=uint64_neon_arm64.go
-
-_lib/float64_avx2.s: _lib/float64.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/float64_sse4.s: _lib/float64.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/float64_neon.s: _lib/float64.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-float64_avx2_amd64.s: _lib/float64_avx2.s
-	$(C2GOASM) -a -f $^ $@
-
-float64_sse4_amd64.s: _lib/float64_sse4.s
-	$(C2GOASM) -a -f $^ $@
-
-_lib/int64_avx2.s: _lib/int64.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/int64_sse4.s: _lib/int64.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/int64_neon.s: _lib/int64.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-int64_avx2_amd64.s: _lib/int64_avx2.s
-	$(C2GOASM) -a -f $^ $@
-
-int64_sse4_amd64.s: _lib/int64_sse4.s
-	$(C2GOASM) -a -f $^ $@
-
-_lib/uint64_avx2.s: _lib/uint64.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/uint64_sse4.s: _lib/uint64.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/uint64_neon.s: _lib/uint64.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-uint64_avx2_amd64.s: _lib/uint64_avx2.s
-	$(C2GOASM) -a -f $^ $@
-
-uint64_sse4_amd64.s: _lib/uint64_sse4.s
-	$(C2GOASM) -a -f $^ $@
-
diff --git a/go/arrow/math/_lib/.gitignore b/go/arrow/math/_lib/.gitignore
deleted file mode 100644
index 72757d396c0a0..0000000000000
--- a/go/arrow/math/_lib/.gitignore
+++ /dev/null
@@ -1,18 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-.idea
-cmake-build-*
\ No newline at end of file
diff --git a/go/arrow/math/_lib/CMakeLists.txt b/go/arrow/math/_lib/CMakeLists.txt
deleted file mode 100644
index 050bd40804fc0..0000000000000
--- a/go/arrow/math/_lib/CMakeLists.txt
+++ /dev/null
@@ -1,22 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-cmake_minimum_required(VERSION 3.6)
-
-project(math-func)
-set(CMAKE_C_STANDARD 99)
-
-add_library(memory STATIC float64.c int64.c uint64.c)
diff --git a/go/arrow/math/_lib/arch.h b/go/arrow/math/_lib/arch.h
deleted file mode 100644
index 2d279de56ea17..0000000000000
--- a/go/arrow/math/_lib/arch.h
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#undef FULL_NAME
-
-#if  defined(__AVX2__)
-    #define FULL_NAME(x) x##_avx2
-#elif __SSE4_2__ == 1
-    #define FULL_NAME(x) x##_sse4
-#elif __SSE3__ == 1
-    #define FULL_NAME(x) x##_sse3
-#elif defined(__ARM_NEON) || defined(__ARM_NEON__)
-    #define FULL_NAME(x) x##_neon
-#else
-    #define FULL_NAME(x) x##_x86
-#endif
diff --git a/go/arrow/math/_lib/float64.c b/go/arrow/math/_lib/float64.c
deleted file mode 100644
index 9f59141666d7c..0000000000000
--- a/go/arrow/math/_lib/float64.c
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <memory.h>
-
-void FULL_NAME(sum_float64)(double buf[], size_t len, double *res) {
-    double acc = 0.0;
-    for(int i = 0; i < len; i++) {
-        acc += buf[i];
-    }
-    *res = acc;
-}
diff --git a/go/arrow/math/_lib/float64_avx2.s b/go/arrow/math/_lib/float64_avx2.s
deleted file mode 100644
index 8d90a949303ff..0000000000000
--- a/go/arrow/math/_lib/float64_avx2.s
+++ /dev/null
@@ -1,176 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/float64.c"
-	.globl	sum_float64_avx2
-	.p2align	4, 0x90
-	.type	sum_float64_avx2,@function
-sum_float64_avx2:                       # @sum_float64_avx2
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	vxorpd	xmm0, xmm0, xmm0
-	test	rsi, rsi
-	je	.LBB0_14
-# BB#1:
-	cmp	rsi, 31
-	jbe	.LBB0_2
-# BB#5:
-	mov	r9, rsi
-	and	r9, -32
-	je	.LBB0_2
-# BB#6:
-	lea	r8, [r9 - 32]
-	mov	eax, r8d
-	shr	eax, 5
-	inc	eax
-	and	rax, 7
-	je	.LBB0_7
-# BB#8:
-	neg	rax
-	vxorpd	ymm0, ymm0, ymm0
-	xor	ecx, ecx
-	vxorpd	ymm1, ymm1, ymm1
-	vxorpd	ymm2, ymm2, ymm2
-	vxorpd	ymm3, ymm3, ymm3
-	vxorpd	ymm4, ymm4, ymm4
-	vxorpd	ymm5, ymm5, ymm5
-	vxorpd	ymm6, ymm6, ymm6
-	vxorpd	ymm7, ymm7, ymm7
-	.p2align	4, 0x90
-.LBB0_9:                                # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm0, ymm0, ymmword ptr [rdi + 8*rcx]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdi + 8*rcx + 32]
-	vaddpd	ymm2, ymm2, ymmword ptr [rdi + 8*rcx + 64]
-	vaddpd	ymm3, ymm3, ymmword ptr [rdi + 8*rcx + 96]
-	vaddpd	ymm4, ymm4, ymmword ptr [rdi + 8*rcx + 128]
-	vaddpd	ymm5, ymm5, ymmword ptr [rdi + 8*rcx + 160]
-	vaddpd	ymm6, ymm6, ymmword ptr [rdi + 8*rcx + 192]
-	vaddpd	ymm7, ymm7, ymmword ptr [rdi + 8*rcx + 224]
-	add	rcx, 32
-	inc	rax
-	jne	.LBB0_9
-	jmp	.LBB0_10
-.LBB0_2:
-	xor	r9d, r9d
-.LBB0_3:
-	lea	rax, [rdi + 8*r9]
-	sub	rsi, r9
-	.p2align	4, 0x90
-.LBB0_4:                                # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm0, xmm0, qword ptr [rax]
-	add	rax, 8
-	dec	rsi
-	jne	.LBB0_4
-.LBB0_14:
-	vmovsd	qword ptr [rdx], xmm0
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_7:
-	xor	ecx, ecx
-	vxorpd	ymm0, ymm0, ymm0
-	vxorpd	ymm1, ymm1, ymm1
-	vxorpd	ymm2, ymm2, ymm2
-	vxorpd	ymm3, ymm3, ymm3
-	vxorpd	ymm4, ymm4, ymm4
-	vxorpd	ymm5, ymm5, ymm5
-	vxorpd	ymm6, ymm6, ymm6
-	vxorpd	ymm7, ymm7, ymm7
-.LBB0_10:
-	cmp	r8, 224
-	jb	.LBB0_13
-# BB#11:
-	mov	rax, r9
-	sub	rax, rcx
-	lea	rcx, [rdi + 8*rcx + 1792]
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 1568]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 1600]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 1632]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 1664]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 1696]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 1728]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 1760]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 1792]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 1536]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 1504]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 1472]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 1440]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 1408]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 1376]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 1344]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 1312]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 1056]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 1088]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 1120]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 1152]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 1184]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 1216]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 1248]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 1280]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 1024]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 992]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 960]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 928]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 896]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 864]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 832]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 800]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 544]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 576]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 608]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 640]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 672]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 704]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 736]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 768]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 512]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 480]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 448]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 416]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 384]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 352]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 320]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 288]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx - 32]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx - 64]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx - 96]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx - 128]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx - 160]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx - 192]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx - 224]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx - 256]
-	vaddpd	ymm0, ymm0, ymmword ptr [rcx]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 32]
-	vaddpd	ymm2, ymm2, ymmword ptr [rcx + 64]
-	vaddpd	ymm3, ymm3, ymmword ptr [rcx + 96]
-	vaddpd	ymm4, ymm4, ymmword ptr [rcx + 128]
-	vaddpd	ymm5, ymm5, ymmword ptr [rcx + 160]
-	vaddpd	ymm6, ymm6, ymmword ptr [rcx + 192]
-	vaddpd	ymm7, ymm7, ymmword ptr [rcx + 224]
-	add	rcx, 2048
-	add	rax, -256
-	jne	.LBB0_12
-.LBB0_13:
-	vaddpd	ymm1, ymm1, ymm5
-	vaddpd	ymm3, ymm3, ymm7
-	vaddpd	ymm0, ymm0, ymm4
-	vaddpd	ymm2, ymm2, ymm6
-	vaddpd	ymm0, ymm0, ymm2
-	vaddpd	ymm1, ymm1, ymm3
-	vaddpd	ymm0, ymm0, ymm1
-	vextractf128	xmm1, ymm0, 1
-	vaddpd	ymm0, ymm0, ymm1
-	vhaddpd	ymm0, ymm0, ymm0
-	cmp	r9, rsi
-	jne	.LBB0_3
-	jmp	.LBB0_14
-.Lfunc_end0:
-	.size	sum_float64_avx2, .Lfunc_end0-sum_float64_avx2
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/math/_lib/float64_neon.s b/go/arrow/math/_lib/float64_neon.s
deleted file mode 100644
index 6e5b06c6f7242..0000000000000
--- a/go/arrow/math/_lib/float64_neon.s
+++ /dev/null
@@ -1,60 +0,0 @@
-	.text
-	.file	"float64.c"
-	.globl	sum_float64_neon        // -- Begin function sum_float64_neon
-	.p2align	2
-	.type	sum_float64_neon,@function
-sum_float64_neon:                       // @sum_float64_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	mov	x29, sp
-	cbz	x1, .LBB0_3
-// %bb.1:
-	cmp	x1, #3                  // =3
-	b.hi	.LBB0_4
-// %bb.2:
-	mov	x8, xzr
-	fmov	d0, xzr
-	b	.LBB0_7
-.LBB0_3:
-	fmov	d0, xzr
-	str	d0, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB0_4:
-	and	x8, x1, #0xfffffffffffffffc
-	add	x9, x0, #16             // =16
-	movi	v0.2d, #0000000000000000
-	mov	x10, x8
-	movi	v1.2d, #0000000000000000
-.LBB0_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	q2, q3, [x9, #-16]
-	subs	x10, x10, #4            // =4
-	add	x9, x9, #32             // =32
-	fadd	v0.2d, v2.2d, v0.2d
-	fadd	v1.2d, v3.2d, v1.2d
-	b.ne	.LBB0_5
-// %bb.6:
-	fadd	v0.2d, v1.2d, v0.2d
-	dup	v1.2d, v0.d[1]
-	cmp	x8, x1
-	fadd	v0.2d, v0.2d, v1.2d
-	b.eq	.LBB0_9
-.LBB0_7:
-	add	x9, x0, x8, lsl #3
-	sub	x8, x1, x8
-.LBB0_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	d1, [x9], #8
-	subs	x8, x8, #1              // =1
-	fadd	d0, d1, d0
-	b.ne	.LBB0_8
-.LBB0_9:
-	str	d0, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end0:
-	.size	sum_float64_neon, .Lfunc_end0-sum_float64_neon
-                                        // -- End function
-
-	.ident	"clang version 9.0.1-12 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/math/_lib/float64_sse4.s b/go/arrow/math/_lib/float64_sse4.s
deleted file mode 100644
index 7a454ee2de37a..0000000000000
--- a/go/arrow/math/_lib/float64_sse4.s
+++ /dev/null
@@ -1,103 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/float64.c"
-	.globl	sum_float64_sse4
-	.p2align	4, 0x90
-	.type	sum_float64_sse4,@function
-sum_float64_sse4:                       # @sum_float64_sse4
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	xorpd	xmm0, xmm0
-	test	rsi, rsi
-	je	.LBB0_14
-# BB#1:
-	cmp	rsi, 3
-	jbe	.LBB0_2
-# BB#5:
-	mov	r9, rsi
-	and	r9, -4
-	je	.LBB0_2
-# BB#6:
-	lea	r8, [r9 - 4]
-	mov	eax, r8d
-	shr	eax, 2
-	inc	eax
-	and	rax, 3
-	je	.LBB0_7
-# BB#8:
-	neg	rax
-	xorpd	xmm0, xmm0
-	xor	ecx, ecx
-	xorpd	xmm1, xmm1
-	.p2align	4, 0x90
-.LBB0_9:                                # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdi + 8*rcx]
-	movupd	xmm3, xmmword ptr [rdi + 8*rcx + 16]
-	addpd	xmm0, xmm2
-	addpd	xmm1, xmm3
-	add	rcx, 4
-	inc	rax
-	jne	.LBB0_9
-	jmp	.LBB0_10
-.LBB0_2:
-	xor	r9d, r9d
-.LBB0_3:
-	lea	rax, [rdi + 8*r9]
-	sub	rsi, r9
-	.p2align	4, 0x90
-.LBB0_4:                                # =>This Inner Loop Header: Depth=1
-	addsd	xmm0, qword ptr [rax]
-	add	rax, 8
-	dec	rsi
-	jne	.LBB0_4
-.LBB0_14:
-	movsd	qword ptr [rdx], xmm0
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_7:
-	xor	ecx, ecx
-	xorpd	xmm0, xmm0
-	xorpd	xmm1, xmm1
-.LBB0_10:
-	cmp	r8, 12
-	jb	.LBB0_13
-# BB#11:
-	mov	rax, r9
-	sub	rax, rcx
-	lea	rcx, [rdi + 8*rcx + 112]
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx - 112]
-	movupd	xmm3, xmmword ptr [rcx - 96]
-	movupd	xmm4, xmmword ptr [rcx - 80]
-	movupd	xmm5, xmmword ptr [rcx - 64]
-	addpd	xmm2, xmm0
-	addpd	xmm3, xmm1
-	movupd	xmm6, xmmword ptr [rcx - 48]
-	movupd	xmm7, xmmword ptr [rcx - 32]
-	addpd	xmm6, xmm4
-	addpd	xmm6, xmm2
-	addpd	xmm7, xmm5
-	addpd	xmm7, xmm3
-	movupd	xmm0, xmmword ptr [rcx - 16]
-	movupd	xmm1, xmmword ptr [rcx]
-	addpd	xmm0, xmm6
-	addpd	xmm1, xmm7
-	sub	rcx, -128
-	add	rax, -16
-	jne	.LBB0_12
-.LBB0_13:
-	addpd	xmm0, xmm1
-	haddpd	xmm0, xmm0
-	cmp	r9, rsi
-	jne	.LBB0_3
-	jmp	.LBB0_14
-.Lfunc_end0:
-	.size	sum_float64_sse4, .Lfunc_end0-sum_float64_sse4
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/math/_lib/int64.c b/go/arrow/math/_lib/int64.c
deleted file mode 100644
index 4f47bcd94802a..0000000000000
--- a/go/arrow/math/_lib/int64.c
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <memory.h>
-#include <stdint.h>
-
-void FULL_NAME(sum_int64)(int64_t buf[], size_t len, int64_t *res) {
-    int64_t acc = 0;
-    for(int i = 0; i < len; i++) {
-        acc += buf[i];
-    }
-    *res = acc;
-}
diff --git a/go/arrow/math/_lib/int64_avx2.s b/go/arrow/math/_lib/int64_avx2.s
deleted file mode 100644
index f088c49e8b09a..0000000000000
--- a/go/arrow/math/_lib/int64_avx2.s
+++ /dev/null
@@ -1,181 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/int64.c"
-	.globl	sum_int64_avx2
-	.p2align	4, 0x90
-	.type	sum_int64_avx2,@function
-sum_int64_avx2:                         # @sum_int64_avx2
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	rsi, rsi
-	je	.LBB0_1
-# BB#2:
-	cmp	rsi, 31
-	jbe	.LBB0_3
-# BB#6:
-	mov	r9, rsi
-	and	r9, -32
-	je	.LBB0_3
-# BB#7:
-	lea	r8, [r9 - 32]
-	mov	eax, r8d
-	shr	eax, 5
-	inc	eax
-	and	rax, 7
-	je	.LBB0_8
-# BB#9:
-	neg	rax
-	vpxor	ymm0, ymm0, ymm0
-	xor	ecx, ecx
-	vpxor	ymm1, ymm1, ymm1
-	vpxor	ymm2, ymm2, ymm2
-	vpxor	ymm3, ymm3, ymm3
-	vpxor	ymm4, ymm4, ymm4
-	vpxor	ymm5, ymm5, ymm5
-	vpxor	ymm6, ymm6, ymm6
-	vpxor	ymm7, ymm7, ymm7
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm0, ymm0, ymmword ptr [rdi + 8*rcx]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdi + 8*rcx + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdi + 8*rcx + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdi + 8*rcx + 96]
-	vpaddq	ymm4, ymm4, ymmword ptr [rdi + 8*rcx + 128]
-	vpaddq	ymm5, ymm5, ymmword ptr [rdi + 8*rcx + 160]
-	vpaddq	ymm6, ymm6, ymmword ptr [rdi + 8*rcx + 192]
-	vpaddq	ymm7, ymm7, ymmword ptr [rdi + 8*rcx + 224]
-	add	rcx, 32
-	inc	rax
-	jne	.LBB0_10
-	jmp	.LBB0_11
-.LBB0_3:
-	xor	r9d, r9d
-	xor	eax, eax
-.LBB0_4:
-	lea	rcx, [rdi + 8*r9]
-	sub	rsi, r9
-	.p2align	4, 0x90
-.LBB0_5:                                # =>This Inner Loop Header: Depth=1
-	add	rax, qword ptr [rcx]
-	add	rcx, 8
-	dec	rsi
-	jne	.LBB0_5
-	jmp	.LBB0_15
-.LBB0_1:
-	xor	eax, eax
-.LBB0_15:
-	mov	qword ptr [rdx], rax
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_8:
-	xor	ecx, ecx
-	vpxor	ymm0, ymm0, ymm0
-	vpxor	ymm1, ymm1, ymm1
-	vpxor	ymm2, ymm2, ymm2
-	vpxor	ymm3, ymm3, ymm3
-	vpxor	ymm4, ymm4, ymm4
-	vpxor	ymm5, ymm5, ymm5
-	vpxor	ymm6, ymm6, ymm6
-	vpxor	ymm7, ymm7, ymm7
-.LBB0_11:
-	cmp	r8, 224
-	jb	.LBB0_14
-# BB#12:
-	mov	rax, r9
-	sub	rax, rcx
-	lea	rcx, [rdi + 8*rcx + 1792]
-	.p2align	4, 0x90
-.LBB0_13:                               # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 1568]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 1600]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 1632]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 1664]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 1696]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 1728]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 1760]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1792]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1536]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 1504]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 1472]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 1440]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 1408]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 1376]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 1344]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 1312]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 1056]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 1088]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 1120]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 1152]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 1184]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 1216]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 1248]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1280]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1024]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 992]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 960]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 928]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 896]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 864]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 832]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 800]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 544]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 576]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 608]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 640]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 672]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 704]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 736]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 768]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 512]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 480]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 448]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 416]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 384]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 352]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 320]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 288]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 32]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 64]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 96]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 128]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 160]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 192]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 224]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 256]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx + 96]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx + 128]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx + 160]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx + 192]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx + 224]
-	add	rcx, 2048
-	add	rax, -256
-	jne	.LBB0_13
-.LBB0_14:
-	vpaddq	ymm1, ymm1, ymm5
-	vpaddq	ymm3, ymm3, ymm7
-	vpaddq	ymm0, ymm0, ymm4
-	vpaddq	ymm2, ymm2, ymm6
-	vpaddq	ymm0, ymm0, ymm2
-	vpaddq	ymm1, ymm1, ymm3
-	vpaddq	ymm0, ymm0, ymm1
-	vextracti128	xmm1, ymm0, 1
-	vpaddq	ymm0, ymm0, ymm1
-	vpshufd	xmm1, xmm0, 78          # xmm1 = xmm0[2,3,0,1]
-	vpaddq	ymm0, ymm0, ymm1
-	vmovq	rax, xmm0
-	cmp	r9, rsi
-	jne	.LBB0_4
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	sum_int64_avx2, .Lfunc_end0-sum_int64_avx2
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/math/_lib/int64_neon.s b/go/arrow/math/_lib/int64_neon.s
deleted file mode 100644
index d8eca7a826bae..0000000000000
--- a/go/arrow/math/_lib/int64_neon.s
+++ /dev/null
@@ -1,60 +0,0 @@
-	.text
-	.file	"int64.c"
-	.globl	sum_int64_neon          // -- Begin function sum_int64_neon
-	.p2align	2
-	.type	sum_int64_neon,@function
-sum_int64_neon:                         // @sum_int64_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	mov	x29, sp
-	cbz	x1, .LBB0_3
-// %bb.1:
-	cmp	x1, #3                  // =3
-	b.hi	.LBB0_4
-// %bb.2:
-	mov	x8, xzr
-	mov	x9, xzr
-	b	.LBB0_7
-.LBB0_3:
-	mov	x9, xzr
-	str	x9, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB0_4:
-	and	x8, x1, #0xfffffffffffffffc
-	add	x9, x0, #16             // =16
-	movi	v0.2d, #0000000000000000
-	mov	x10, x8
-	movi	v1.2d, #0000000000000000
-.LBB0_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	q2, q3, [x9, #-16]
-	subs	x10, x10, #4            // =4
-	add	x9, x9, #32             // =32
-	add	v0.2d, v2.2d, v0.2d
-	add	v1.2d, v3.2d, v1.2d
-	b.ne	.LBB0_5
-// %bb.6:
-	add	v0.2d, v1.2d, v0.2d
-	addp	d0, v0.2d
-	cmp	x8, x1
-	fmov	x9, d0
-	b.eq	.LBB0_9
-.LBB0_7:
-	add	x10, x0, x8, lsl #3
-	sub	x8, x1, x8
-.LBB0_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1              // =1
-	add	x9, x11, x9
-	b.ne	.LBB0_8
-.LBB0_9:
-	str	x9, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end0:
-	.size	sum_int64_neon, .Lfunc_end0-sum_int64_neon
-                                        // -- End function
-
-	.ident	"clang version 9.0.1-12 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/math/_lib/int64_sse4.s b/go/arrow/math/_lib/int64_sse4.s
deleted file mode 100644
index d433260f7fb42..0000000000000
--- a/go/arrow/math/_lib/int64_sse4.s
+++ /dev/null
@@ -1,108 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/int64.c"
-	.globl	sum_int64_sse4
-	.p2align	4, 0x90
-	.type	sum_int64_sse4,@function
-sum_int64_sse4:                         # @sum_int64_sse4
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	rsi, rsi
-	je	.LBB0_1
-# BB#2:
-	cmp	rsi, 3
-	jbe	.LBB0_3
-# BB#6:
-	mov	r9, rsi
-	and	r9, -4
-	je	.LBB0_3
-# BB#7:
-	lea	r8, [r9 - 4]
-	mov	eax, r8d
-	shr	eax, 2
-	inc	eax
-	and	rax, 3
-	je	.LBB0_8
-# BB#9:
-	neg	rax
-	pxor	xmm0, xmm0
-	xor	ecx, ecx
-	pxor	xmm1, xmm1
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdi + 8*rcx]
-	movdqu	xmm3, xmmword ptr [rdi + 8*rcx + 16]
-	paddq	xmm0, xmm2
-	paddq	xmm1, xmm3
-	add	rcx, 4
-	inc	rax
-	jne	.LBB0_10
-	jmp	.LBB0_11
-.LBB0_3:
-	xor	r9d, r9d
-	xor	eax, eax
-.LBB0_4:
-	lea	rcx, [rdi + 8*r9]
-	sub	rsi, r9
-	.p2align	4, 0x90
-.LBB0_5:                                # =>This Inner Loop Header: Depth=1
-	add	rax, qword ptr [rcx]
-	add	rcx, 8
-	dec	rsi
-	jne	.LBB0_5
-	jmp	.LBB0_15
-.LBB0_1:
-	xor	eax, eax
-.LBB0_15:
-	mov	qword ptr [rdx], rax
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_8:
-	xor	ecx, ecx
-	pxor	xmm0, xmm0
-	pxor	xmm1, xmm1
-.LBB0_11:
-	cmp	r8, 12
-	jb	.LBB0_14
-# BB#12:
-	mov	rax, r9
-	sub	rax, rcx
-	lea	rcx, [rdi + 8*rcx + 112]
-	.p2align	4, 0x90
-.LBB0_13:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx - 112]
-	movdqu	xmm3, xmmword ptr [rcx - 96]
-	movdqu	xmm4, xmmword ptr [rcx - 80]
-	movdqu	xmm5, xmmword ptr [rcx - 64]
-	paddq	xmm2, xmm0
-	paddq	xmm3, xmm1
-	movdqu	xmm6, xmmword ptr [rcx - 48]
-	movdqu	xmm7, xmmword ptr [rcx - 32]
-	paddq	xmm6, xmm4
-	paddq	xmm6, xmm2
-	paddq	xmm7, xmm5
-	paddq	xmm7, xmm3
-	movdqu	xmm0, xmmword ptr [rcx - 16]
-	movdqu	xmm1, xmmword ptr [rcx]
-	paddq	xmm0, xmm6
-	paddq	xmm1, xmm7
-	sub	rcx, -128
-	add	rax, -16
-	jne	.LBB0_13
-.LBB0_14:
-	paddq	xmm0, xmm1
-	pshufd	xmm1, xmm0, 78          # xmm1 = xmm0[2,3,0,1]
-	paddq	xmm1, xmm0
-	movq	rax, xmm1
-	cmp	r9, rsi
-	jne	.LBB0_4
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	sum_int64_sse4, .Lfunc_end0-sum_int64_sse4
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/math/_lib/uint64.c b/go/arrow/math/_lib/uint64.c
deleted file mode 100644
index b1d40836e02c4..0000000000000
--- a/go/arrow/math/_lib/uint64.c
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <memory.h>
-#include <stdint.h>
-
-void FULL_NAME(sum_uint64)(uint64_t buf[], size_t len, uint64_t *res) {
-    uint64_t acc = 0;
-    for(int i = 0; i < len; i++) {
-        acc += buf[i];
-    }
-    *res = acc;
-}
diff --git a/go/arrow/math/_lib/uint64_avx2.s b/go/arrow/math/_lib/uint64_avx2.s
deleted file mode 100644
index e4502ee06ca40..0000000000000
--- a/go/arrow/math/_lib/uint64_avx2.s
+++ /dev/null
@@ -1,181 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/uint64.c"
-	.globl	sum_uint64_avx2
-	.p2align	4, 0x90
-	.type	sum_uint64_avx2,@function
-sum_uint64_avx2:                        # @sum_uint64_avx2
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	rsi, rsi
-	je	.LBB0_1
-# BB#2:
-	cmp	rsi, 31
-	jbe	.LBB0_3
-# BB#6:
-	mov	r9, rsi
-	and	r9, -32
-	je	.LBB0_3
-# BB#7:
-	lea	r8, [r9 - 32]
-	mov	eax, r8d
-	shr	eax, 5
-	inc	eax
-	and	rax, 7
-	je	.LBB0_8
-# BB#9:
-	neg	rax
-	vpxor	ymm0, ymm0, ymm0
-	xor	ecx, ecx
-	vpxor	ymm1, ymm1, ymm1
-	vpxor	ymm2, ymm2, ymm2
-	vpxor	ymm3, ymm3, ymm3
-	vpxor	ymm4, ymm4, ymm4
-	vpxor	ymm5, ymm5, ymm5
-	vpxor	ymm6, ymm6, ymm6
-	vpxor	ymm7, ymm7, ymm7
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm0, ymm0, ymmword ptr [rdi + 8*rcx]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdi + 8*rcx + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdi + 8*rcx + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdi + 8*rcx + 96]
-	vpaddq	ymm4, ymm4, ymmword ptr [rdi + 8*rcx + 128]
-	vpaddq	ymm5, ymm5, ymmword ptr [rdi + 8*rcx + 160]
-	vpaddq	ymm6, ymm6, ymmword ptr [rdi + 8*rcx + 192]
-	vpaddq	ymm7, ymm7, ymmword ptr [rdi + 8*rcx + 224]
-	add	rcx, 32
-	inc	rax
-	jne	.LBB0_10
-	jmp	.LBB0_11
-.LBB0_3:
-	xor	r9d, r9d
-	xor	eax, eax
-.LBB0_4:
-	lea	rcx, [rdi + 8*r9]
-	sub	rsi, r9
-	.p2align	4, 0x90
-.LBB0_5:                                # =>This Inner Loop Header: Depth=1
-	add	rax, qword ptr [rcx]
-	add	rcx, 8
-	dec	rsi
-	jne	.LBB0_5
-	jmp	.LBB0_15
-.LBB0_1:
-	xor	eax, eax
-.LBB0_15:
-	mov	qword ptr [rdx], rax
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_8:
-	xor	ecx, ecx
-	vpxor	ymm0, ymm0, ymm0
-	vpxor	ymm1, ymm1, ymm1
-	vpxor	ymm2, ymm2, ymm2
-	vpxor	ymm3, ymm3, ymm3
-	vpxor	ymm4, ymm4, ymm4
-	vpxor	ymm5, ymm5, ymm5
-	vpxor	ymm6, ymm6, ymm6
-	vpxor	ymm7, ymm7, ymm7
-.LBB0_11:
-	cmp	r8, 224
-	jb	.LBB0_14
-# BB#12:
-	mov	rax, r9
-	sub	rax, rcx
-	lea	rcx, [rdi + 8*rcx + 1792]
-	.p2align	4, 0x90
-.LBB0_13:                               # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 1568]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 1600]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 1632]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 1664]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 1696]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 1728]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 1760]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1792]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1536]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 1504]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 1472]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 1440]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 1408]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 1376]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 1344]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 1312]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 1056]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 1088]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 1120]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 1152]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 1184]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 1216]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 1248]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1280]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 1024]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 992]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 960]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 928]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 896]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 864]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 832]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 800]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 544]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 576]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 608]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 640]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 672]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 704]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 736]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 768]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 512]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 480]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 448]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 416]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 384]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 352]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 320]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 288]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx - 32]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx - 64]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx - 96]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx - 128]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx - 160]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx - 192]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx - 224]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx - 256]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx]
-	vpaddq	ymm1, ymm1, ymmword ptr [rcx + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rcx + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rcx + 96]
-	vpaddq	ymm4, ymm4, ymmword ptr [rcx + 128]
-	vpaddq	ymm5, ymm5, ymmword ptr [rcx + 160]
-	vpaddq	ymm6, ymm6, ymmword ptr [rcx + 192]
-	vpaddq	ymm7, ymm7, ymmword ptr [rcx + 224]
-	add	rcx, 2048
-	add	rax, -256
-	jne	.LBB0_13
-.LBB0_14:
-	vpaddq	ymm1, ymm1, ymm5
-	vpaddq	ymm3, ymm3, ymm7
-	vpaddq	ymm0, ymm0, ymm4
-	vpaddq	ymm2, ymm2, ymm6
-	vpaddq	ymm0, ymm0, ymm2
-	vpaddq	ymm1, ymm1, ymm3
-	vpaddq	ymm0, ymm0, ymm1
-	vextracti128	xmm1, ymm0, 1
-	vpaddq	ymm0, ymm0, ymm1
-	vpshufd	xmm1, xmm0, 78          # xmm1 = xmm0[2,3,0,1]
-	vpaddq	ymm0, ymm0, ymm1
-	vmovq	rax, xmm0
-	cmp	r9, rsi
-	jne	.LBB0_4
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	sum_uint64_avx2, .Lfunc_end0-sum_uint64_avx2
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/math/_lib/uint64_neon.s b/go/arrow/math/_lib/uint64_neon.s
deleted file mode 100644
index 3507ac7ce9142..0000000000000
--- a/go/arrow/math/_lib/uint64_neon.s
+++ /dev/null
@@ -1,60 +0,0 @@
-	.text
-	.file	"uint64.c"
-	.globl	sum_uint64_neon         // -- Begin function sum_uint64_neon
-	.p2align	2
-	.type	sum_uint64_neon,@function
-sum_uint64_neon:                        // @sum_uint64_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	mov	x29, sp
-	cbz	x1, .LBB0_3
-// %bb.1:
-	cmp	x1, #3                  // =3
-	b.hi	.LBB0_4
-// %bb.2:
-	mov	x8, xzr
-	mov	x9, xzr
-	b	.LBB0_7
-.LBB0_3:
-	mov	x9, xzr
-	str	x9, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB0_4:
-	and	x8, x1, #0xfffffffffffffffc
-	add	x9, x0, #16             // =16
-	movi	v0.2d, #0000000000000000
-	mov	x10, x8
-	movi	v1.2d, #0000000000000000
-.LBB0_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	q2, q3, [x9, #-16]
-	subs	x10, x10, #4            // =4
-	add	x9, x9, #32             // =32
-	add	v0.2d, v2.2d, v0.2d
-	add	v1.2d, v3.2d, v1.2d
-	b.ne	.LBB0_5
-// %bb.6:
-	add	v0.2d, v1.2d, v0.2d
-	addp	d0, v0.2d
-	cmp	x8, x1
-	fmov	x9, d0
-	b.eq	.LBB0_9
-.LBB0_7:
-	add	x10, x0, x8, lsl #3
-	sub	x8, x1, x8
-.LBB0_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	x11, [x10], #8
-	subs	x8, x8, #1              // =1
-	add	x9, x11, x9
-	b.ne	.LBB0_8
-.LBB0_9:
-	str	x9, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end0:
-	.size	sum_uint64_neon, .Lfunc_end0-sum_uint64_neon
-                                        // -- End function
-
-	.ident	"clang version 9.0.1-12 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/math/_lib/uint64_sse4.s b/go/arrow/math/_lib/uint64_sse4.s
deleted file mode 100644
index 04b4cc8536189..0000000000000
--- a/go/arrow/math/_lib/uint64_sse4.s
+++ /dev/null
@@ -1,108 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/uint64.c"
-	.globl	sum_uint64_sse4
-	.p2align	4, 0x90
-	.type	sum_uint64_sse4,@function
-sum_uint64_sse4:                        # @sum_uint64_sse4
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	rsi, rsi
-	je	.LBB0_1
-# BB#2:
-	cmp	rsi, 3
-	jbe	.LBB0_3
-# BB#6:
-	mov	r9, rsi
-	and	r9, -4
-	je	.LBB0_3
-# BB#7:
-	lea	r8, [r9 - 4]
-	mov	eax, r8d
-	shr	eax, 2
-	inc	eax
-	and	rax, 3
-	je	.LBB0_8
-# BB#9:
-	neg	rax
-	pxor	xmm0, xmm0
-	xor	ecx, ecx
-	pxor	xmm1, xmm1
-	.p2align	4, 0x90
-.LBB0_10:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rdi + 8*rcx]
-	movdqu	xmm3, xmmword ptr [rdi + 8*rcx + 16]
-	paddq	xmm0, xmm2
-	paddq	xmm1, xmm3
-	add	rcx, 4
-	inc	rax
-	jne	.LBB0_10
-	jmp	.LBB0_11
-.LBB0_3:
-	xor	r9d, r9d
-	xor	eax, eax
-.LBB0_4:
-	lea	rcx, [rdi + 8*r9]
-	sub	rsi, r9
-	.p2align	4, 0x90
-.LBB0_5:                                # =>This Inner Loop Header: Depth=1
-	add	rax, qword ptr [rcx]
-	add	rcx, 8
-	dec	rsi
-	jne	.LBB0_5
-	jmp	.LBB0_15
-.LBB0_1:
-	xor	eax, eax
-.LBB0_15:
-	mov	qword ptr [rdx], rax
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_8:
-	xor	ecx, ecx
-	pxor	xmm0, xmm0
-	pxor	xmm1, xmm1
-.LBB0_11:
-	cmp	r8, 12
-	jb	.LBB0_14
-# BB#12:
-	mov	rax, r9
-	sub	rax, rcx
-	lea	rcx, [rdi + 8*rcx + 112]
-	.p2align	4, 0x90
-.LBB0_13:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm2, xmmword ptr [rcx - 112]
-	movdqu	xmm3, xmmword ptr [rcx - 96]
-	movdqu	xmm4, xmmword ptr [rcx - 80]
-	movdqu	xmm5, xmmword ptr [rcx - 64]
-	paddq	xmm2, xmm0
-	paddq	xmm3, xmm1
-	movdqu	xmm6, xmmword ptr [rcx - 48]
-	movdqu	xmm7, xmmword ptr [rcx - 32]
-	paddq	xmm6, xmm4
-	paddq	xmm6, xmm2
-	paddq	xmm7, xmm5
-	paddq	xmm7, xmm3
-	movdqu	xmm0, xmmword ptr [rcx - 16]
-	movdqu	xmm1, xmmword ptr [rcx]
-	paddq	xmm0, xmm6
-	paddq	xmm1, xmm7
-	sub	rcx, -128
-	add	rax, -16
-	jne	.LBB0_13
-.LBB0_14:
-	paddq	xmm0, xmm1
-	pshufd	xmm1, xmm0, 78          # xmm1 = xmm0[2,3,0,1]
-	paddq	xmm1, xmm0
-	movq	rax, xmm1
-	cmp	r9, rsi
-	jne	.LBB0_4
-	jmp	.LBB0_15
-.Lfunc_end0:
-	.size	sum_uint64_sse4, .Lfunc_end0-sum_uint64_sse4
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/math/doc.go b/go/arrow/math/doc.go
deleted file mode 100644
index 30d50a2f16e8f..0000000000000
--- a/go/arrow/math/doc.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-/*
-Package math provides optimized mathematical functions for processing Arrow arrays.
-*/
-package math
-
-//go:generate go run ../_tools/tmpl/main.go -i -data=float64.tmpldata type.go.tmpl=float64.go type_amd64.go.tmpl=float64_amd64.go type_test.go.tmpl=float64_test.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=float64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=float64_avx2_amd64.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=float64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=float64_sse4_amd64.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=int64.tmpldata type.go.tmpl=int64.go type_amd64.go.tmpl=int64_amd64.go type_test.go.tmpl=int64_test.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=int64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=int64_avx2_amd64.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=int64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=int64_sse4_amd64.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=uint64.tmpldata type.go.tmpl=uint64.go type_amd64.go.tmpl=uint64_amd64.go type_test.go.tmpl=uint64_test.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=uint64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=uint64_avx2_amd64.go
-//go:generate go run ../_tools/tmpl/main.go -i -data=uint64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=uint64_sse4_amd64.go
diff --git a/go/arrow/math/float64.go b/go/arrow/math/float64.go
deleted file mode 100644
index b5429e50aec09..0000000000000
--- a/go/arrow/math/float64.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Code generated by type.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-type Float64Funcs struct {
-	sum func(a *array.Float64) float64
-}
-
-var (
-	Float64 Float64Funcs
-)
-
-// Sum returns the summation of all elements in a.
-func (f Float64Funcs) Sum(a *array.Float64) float64 {
-	if a.Len() == 0 {
-		return float64(0)
-	}
-	return f.sum(a)
-}
-
-func sum_float64_go(a *array.Float64) float64 {
-	acc := float64(0)
-	for _, v := range a.Float64Values() {
-		acc += v
-	}
-	return acc
-}
diff --git a/go/arrow/math/float64.tmpldata b/go/arrow/math/float64.tmpldata
deleted file mode 100644
index de54eea2a1056..0000000000000
--- a/go/arrow/math/float64.tmpldata
+++ /dev/null
@@ -1,4 +0,0 @@
-{
-  "Name": "Float64",
-  "Type": "float64"
-}
\ No newline at end of file
diff --git a/go/arrow/math/float64_amd64.go b/go/arrow/math/float64_amd64.go
deleted file mode 100644
index ef40cf613a3c9..0000000000000
--- a/go/arrow/math/float64_amd64.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Code generated by type_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initFloat64AVX2() {
-	Float64.sum = sum_float64_avx2
-}
-
-func initFloat64SSE4() {
-	Float64.sum = sum_float64_sse4
-}
-
-func initFloat64Go() {
-	Float64.sum = sum_float64_go
-}
diff --git a/go/arrow/math/float64_arm64.go b/go/arrow/math/float64_arm64.go
deleted file mode 100644
index 31ed189d5aeaa..0000000000000
--- a/go/arrow/math/float64_arm64.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Code generated by type_arm64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initFloat64NEON() {
-	Float64.sum = sum_float64_neon
-}
-
-func initFloat64Go() {
-	Float64.sum = sum_float64_go
-}
diff --git a/go/arrow/math/float64_avx2_amd64.go b/go/arrow/math/float64_avx2_amd64.go
deleted file mode 100644
index 8f11b1f2481a3..0000000000000
--- a/go/arrow/math/float64_avx2_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_float64_avx2(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_float64_avx2(a *array.Float64) float64 {
-	buf := a.Float64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res float64
-	)
-	_sum_float64_avx2(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/float64_avx2_amd64.s b/go/arrow/math/float64_avx2_amd64.s
deleted file mode 100644
index e5fe247ec158c..0000000000000
--- a/go/arrow/math/float64_avx2_amd64.s
+++ /dev/null
@@ -1,167 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_sum_float64_avx2(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ res+16(FP), DX
-
-	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB0_14
-	LONG $0x1ffe8348         // cmp    rsi, 31
-	JBE  LBB0_2
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0xe0e18349         // and    r9, -32
-	JE   LBB0_2
-	LONG $0xe0418d4d         // lea    r8, [r9 - 32]
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	WORD $0xe8c1; BYTE $0x05 // shr    eax, 5
-	WORD $0xc0ff             // inc    eax
-	LONG $0x07e08348         // and    rax, 7
-	JE   LBB0_7
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	LONG $0xc057fdc5         // vxorpd    ymm0, ymm0, ymm0
-	WORD $0xc931             // xor    ecx, ecx
-	LONG $0xc957f5c5         // vxorpd    ymm1, ymm1, ymm1
-	LONG $0xd257edc5         // vxorpd    ymm2, ymm2, ymm2
-	LONG $0xdb57e5c5         // vxorpd    ymm3, ymm3, ymm3
-	LONG $0xe457ddc5         // vxorpd    ymm4, ymm4, ymm4
-	LONG $0xed57d5c5         // vxorpd    ymm5, ymm5, ymm5
-	LONG $0xf657cdc5         // vxorpd    ymm6, ymm6, ymm6
-	LONG $0xff57c5c5         // vxorpd    ymm7, ymm7, ymm7
-
-LBB0_9:
-	LONG $0x0458fdc5; BYTE $0xcf         // vaddpd    ymm0, ymm0, yword [rdi + 8*rcx]
-	LONG $0x4c58f5c5; WORD $0x20cf       // vaddpd    ymm1, ymm1, yword [rdi + 8*rcx + 32]
-	LONG $0x5458edc5; WORD $0x40cf       // vaddpd    ymm2, ymm2, yword [rdi + 8*rcx + 64]
-	LONG $0x5c58e5c5; WORD $0x60cf       // vaddpd    ymm3, ymm3, yword [rdi + 8*rcx + 96]
-	QUAD $0x000080cfa458ddc5; BYTE $0x00 // vaddpd    ymm4, ymm4, yword [rdi + 8*rcx + 128]
-	QUAD $0x0000a0cfac58d5c5; BYTE $0x00 // vaddpd    ymm5, ymm5, yword [rdi + 8*rcx + 160]
-	QUAD $0x0000c0cfb458cdc5; BYTE $0x00 // vaddpd    ymm6, ymm6, yword [rdi + 8*rcx + 192]
-	QUAD $0x0000e0cfbc58c5c5; BYTE $0x00 // vaddpd    ymm7, ymm7, yword [rdi + 8*rcx + 224]
-	LONG $0x20c18348                     // add    rcx, 32
-	WORD $0xff48; BYTE $0xc0             // inc    rax
-	JNE  LBB0_9
-	JMP  LBB0_10
-
-LBB0_2:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-
-LBB0_3:
-	LONG $0xcf048d4a         // lea    rax, [rdi + 8*r9]
-	WORD $0x294c; BYTE $0xce // sub    rsi, r9
-
-LBB0_4:
-	LONG $0x0058fbc5         // vaddsd    xmm0, xmm0, qword [rax]
-	LONG $0x08c08348         // add    rax, 8
-	WORD $0xff48; BYTE $0xce // dec    rsi
-	JNE  LBB0_4
-
-LBB0_14:
-	LONG $0x0211fbc5 // vmovsd    qword [rdx], xmm0
-	VZEROUPPER
-	RET
-
-LBB0_7:
-	WORD $0xc931     // xor    ecx, ecx
-	LONG $0xc057fdc5 // vxorpd    ymm0, ymm0, ymm0
-	LONG $0xc957f5c5 // vxorpd    ymm1, ymm1, ymm1
-	LONG $0xd257edc5 // vxorpd    ymm2, ymm2, ymm2
-	LONG $0xdb57e5c5 // vxorpd    ymm3, ymm3, ymm3
-	LONG $0xe457ddc5 // vxorpd    ymm4, ymm4, ymm4
-	LONG $0xed57d5c5 // vxorpd    ymm5, ymm5, ymm5
-	LONG $0xf657cdc5 // vxorpd    ymm6, ymm6, ymm6
-	LONG $0xff57c5c5 // vxorpd    ymm7, ymm7, ymm7
-
-LBB0_10:
-	LONG $0xe0f88149; WORD $0x0000; BYTE $0x00 // cmp    r8, 224
-	JB   LBB0_13
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	WORD $0x2948; BYTE $0xc8                   // sub    rax, rcx
-	QUAD $0x00000700cf8c8d48                   // lea    rcx, [rdi + 8*rcx + 1792]
-
-LBB0_12:
-	QUAD $0xfffff9e0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx - 1568]
-	QUAD $0xfffff9c0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx - 1600]
-	QUAD $0xfffff9a0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx - 1632]
-	QUAD $0xfffff980a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx - 1664]
-	QUAD $0xfffff9609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 1696]
-	QUAD $0xfffff9409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 1728]
-	QUAD $0xfffff9208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 1760]
-	QUAD $0xfffff9008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 1792]
-	QUAD $0xfffffa008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 1536]
-	QUAD $0xfffffa208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 1504]
-	QUAD $0xfffffa409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 1472]
-	QUAD $0xfffffa609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 1440]
-	QUAD $0xfffffa80a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx - 1408]
-	QUAD $0xfffffaa0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx - 1376]
-	QUAD $0xfffffac0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx - 1344]
-	QUAD $0xfffffae0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx - 1312]
-	QUAD $0xfffffbe0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx - 1056]
-	QUAD $0xfffffbc0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx - 1088]
-	QUAD $0xfffffba0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx - 1120]
-	QUAD $0xfffffb80a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx - 1152]
-	QUAD $0xfffffb609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 1184]
-	QUAD $0xfffffb409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 1216]
-	QUAD $0xfffffb208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 1248]
-	QUAD $0xfffffb008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 1280]
-	QUAD $0xfffffc008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 1024]
-	QUAD $0xfffffc208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 992]
-	QUAD $0xfffffc409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 960]
-	QUAD $0xfffffc609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 928]
-	QUAD $0xfffffc80a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx - 896]
-	QUAD $0xfffffca0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx - 864]
-	QUAD $0xfffffcc0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx - 832]
-	QUAD $0xfffffce0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx - 800]
-	QUAD $0xfffffde0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx - 544]
-	QUAD $0xfffffdc0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx - 576]
-	QUAD $0xfffffda0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx - 608]
-	QUAD $0xfffffd80a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx - 640]
-	QUAD $0xfffffd609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 672]
-	QUAD $0xfffffd409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 704]
-	QUAD $0xfffffd208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 736]
-	QUAD $0xfffffd008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 768]
-	QUAD $0xfffffe008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 512]
-	QUAD $0xfffffe208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 480]
-	QUAD $0xfffffe409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 448]
-	QUAD $0xfffffe609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 416]
-	QUAD $0xfffffe80a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx - 384]
-	QUAD $0xfffffea0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx - 352]
-	QUAD $0xfffffec0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx - 320]
-	QUAD $0xfffffee0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx - 288]
-	LONG $0x7958c5c5; BYTE $0xe0               // vaddpd    ymm7, ymm7, yword [rcx - 32]
-	LONG $0x7158cdc5; BYTE $0xc0               // vaddpd    ymm6, ymm6, yword [rcx - 64]
-	LONG $0x6958d5c5; BYTE $0xa0               // vaddpd    ymm5, ymm5, yword [rcx - 96]
-	LONG $0x6158ddc5; BYTE $0x80               // vaddpd    ymm4, ymm4, yword [rcx - 128]
-	QUAD $0xffffff609958e5c5                   // vaddpd    ymm3, ymm3, yword [rcx - 160]
-	QUAD $0xffffff409158edc5                   // vaddpd    ymm2, ymm2, yword [rcx - 192]
-	QUAD $0xffffff208958f5c5                   // vaddpd    ymm1, ymm1, yword [rcx - 224]
-	QUAD $0xffffff008158fdc5                   // vaddpd    ymm0, ymm0, yword [rcx - 256]
-	LONG $0x0158fdc5                           // vaddpd    ymm0, ymm0, yword [rcx]
-	LONG $0x4958f5c5; BYTE $0x20               // vaddpd    ymm1, ymm1, yword [rcx + 32]
-	LONG $0x5158edc5; BYTE $0x40               // vaddpd    ymm2, ymm2, yword [rcx + 64]
-	LONG $0x5958e5c5; BYTE $0x60               // vaddpd    ymm3, ymm3, yword [rcx + 96]
-	QUAD $0x00000080a158ddc5                   // vaddpd    ymm4, ymm4, yword [rcx + 128]
-	QUAD $0x000000a0a958d5c5                   // vaddpd    ymm5, ymm5, yword [rcx + 160]
-	QUAD $0x000000c0b158cdc5                   // vaddpd    ymm6, ymm6, yword [rcx + 192]
-	QUAD $0x000000e0b958c5c5                   // vaddpd    ymm7, ymm7, yword [rcx + 224]
-	LONG $0x00c18148; WORD $0x0008; BYTE $0x00 // add    rcx, 2048
-	LONG $0xff000548; WORD $0xffff             // add    rax, -256
-	JNE  LBB0_12
-
-LBB0_13:
-	LONG $0xcd58f5c5               // vaddpd    ymm1, ymm1, ymm5
-	LONG $0xdf58e5c5               // vaddpd    ymm3, ymm3, ymm7
-	LONG $0xc458fdc5               // vaddpd    ymm0, ymm0, ymm4
-	LONG $0xd658edc5               // vaddpd    ymm2, ymm2, ymm6
-	LONG $0xc258fdc5               // vaddpd    ymm0, ymm0, ymm2
-	LONG $0xcb58f5c5               // vaddpd    ymm1, ymm1, ymm3
-	LONG $0xc158fdc5               // vaddpd    ymm0, ymm0, ymm1
-	LONG $0x197de3c4; WORD $0x01c1 // vextractf128    xmm1, ymm0, 1
-	LONG $0xc158fdc5               // vaddpd    ymm0, ymm0, ymm1
-	LONG $0xc07cfdc5               // vhaddpd    ymm0, ymm0, ymm0
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_3
-	JMP  LBB0_14
diff --git a/go/arrow/math/float64_neon_arm64.go b/go/arrow/math/float64_neon_arm64.go
deleted file mode 100755
index c41801714ea20..0000000000000
--- a/go/arrow/math/float64_neon_arm64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_arm64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_float64_neon(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_float64_neon(a *array.Float64) float64 {
-	buf := a.Float64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res float64
-	)
-	_sum_float64_neon(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/float64_neon_arm64.s b/go/arrow/math/float64_neon_arm64.s
deleted file mode 100755
index 05f4a275d63e2..0000000000000
--- a/go/arrow/math/float64_neon_arm64.s
+++ /dev/null
@@ -1,43 +0,0 @@
-//+build !noasm !appengine
-
-// ARROW-15172:
-// (C2GOASM doesn't work correctly for Arm64)
-// Partly GENERATED BY asm2plan9s.
-
-// func _sum_float64_neon(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-TEXT ·_sum_float64_neon(SB), $0-24
-
-	MOVD buf+0(FP), R0
-	MOVD len+8(FP), R1
-	MOVD res+16(FP), R2
-
-    WORD $0xd343fc29 // lsr    x9, x1, #3
-    WORD $0x92400828 // and    x8, x1, #0x7
-    CBZ R9, LBB0_6
-    WORD $0x927df02a // and    x10, x1, #0xfffffffffffffff8
-    WORD $0x6f00e400 // movi    v0.2d, #0000000000000000
-    WORD $0xaa0003eb // mov    x11, x0
-LBB0_2:
-    WORD $0x4cdf2d61 // ld1    { v1.2d, v2.2d, v3.2d, v4.2d }, [x11], #64
-    WORD $0xf1000529 // subs    x9, x9, #1
-    WORD $0x4e61d400 // fadd    v0.2d, v0.2d, v1.2d
-    WORD $0x4e60d440 // fadd    v0.2d, v2.2d, v0.2d
-    WORD $0x4e60d460 // fadd    v0.2d, v3.2d, v0.2d
-    WORD $0x4e60d480 // fadd    v0.2d, v4.2d, v0.2d
-    BNE LBB0_2
-    WORD $0x8b0a0c00 // add    x0, x0, x10, lsl #3
-    WORD $0x7e70d800 // faddp    d0, v0.2d
-    CBZ R8, LBB0_5
-LBB0_4:
-    WORD $0xfc408401 // ldr    d1, [x0], #8
-    WORD $0xf1000508 // subs    x8, x8, #1
-    WORD $0x1e612800 // fadd    d0, d0, d1
-    BNE LBB0_4
-LBB0_5:
-    WORD $0xfd000040 // str    d0, [x2]
-    RET
-LBB0_6:
-    WORD $0x6f00e400 // movi    v0.2d, #0000000000000000
-    WORD $0x7e70d800 // faddp    d0, v0.2d
-    CBNZ R8, LBB0_4
-	JMP LBB0_5
diff --git a/go/arrow/math/float64_noasm.go b/go/arrow/math/float64_noasm.go
deleted file mode 100644
index bfa3e6e589d1d..0000000000000
--- a/go/arrow/math/float64_noasm.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_noasm.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package math
-
-func initFloat64Go() {
-	Float64.sum = sum_float64_go
-}
diff --git a/go/arrow/math/float64_ppc64le.go b/go/arrow/math/float64_ppc64le.go
deleted file mode 100644
index 3d962005cebda..0000000000000
--- a/go/arrow/math/float64_ppc64le.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_ppc64le.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initFloat64Go() {
-	Float64.sum = sum_float64_go
-}
diff --git a/go/arrow/math/float64_s390x.go b/go/arrow/math/float64_s390x.go
deleted file mode 100644
index cf091f53d1761..0000000000000
--- a/go/arrow/math/float64_s390x.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_s390x.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initFloat64Go() {
-	Float64.sum = sum_float64_go
-}
diff --git a/go/arrow/math/float64_sse4_amd64.go b/go/arrow/math/float64_sse4_amd64.go
deleted file mode 100644
index bdd17559edfaf..0000000000000
--- a/go/arrow/math/float64_sse4_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_float64_sse4(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_float64_sse4(a *array.Float64) float64 {
-	buf := a.Float64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res float64
-	)
-	_sum_float64_sse4(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/float64_sse4_amd64.s b/go/arrow/math/float64_sse4_amd64.s
deleted file mode 100644
index 957efa427cad2..0000000000000
--- a/go/arrow/math/float64_sse4_amd64.s
+++ /dev/null
@@ -1,94 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_sum_float64_sse4(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ res+16(FP), DX
-
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB0_14
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JBE  LBB0_2
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0xfce18349         // and    r9, -4
-	JE   LBB0_2
-	LONG $0xfc418d4d         // lea    r8, [r9 - 4]
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	WORD $0xe8c1; BYTE $0x02 // shr    eax, 2
-	WORD $0xc0ff             // inc    eax
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_7
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	LONG $0xc0570f66         // xorpd    xmm0, xmm0
-	WORD $0xc931             // xor    ecx, ecx
-	LONG $0xc9570f66         // xorpd    xmm1, xmm1
-
-LBB0_9:
-	LONG $0x14100f66; BYTE $0xcf   // movupd    xmm2, oword [rdi + 8*rcx]
-	LONG $0x5c100f66; WORD $0x10cf // movupd    xmm3, oword [rdi + 8*rcx + 16]
-	LONG $0xc2580f66               // addpd    xmm0, xmm2
-	LONG $0xcb580f66               // addpd    xmm1, xmm3
-	LONG $0x04c18348               // add    rcx, 4
-	WORD $0xff48; BYTE $0xc0       // inc    rax
-	JNE  LBB0_9
-	JMP  LBB0_10
-
-LBB0_2:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-
-LBB0_3:
-	LONG $0xcf048d4a         // lea    rax, [rdi + 8*r9]
-	WORD $0x294c; BYTE $0xce // sub    rsi, r9
-
-LBB0_4:
-	LONG $0x00580ff2         // addsd    xmm0, qword [rax]
-	LONG $0x08c08348         // add    rax, 8
-	WORD $0xff48; BYTE $0xce // dec    rsi
-	JNE  LBB0_4
-
-LBB0_14:
-	LONG $0x02110ff2 // movsd    qword [rdx], xmm0
-	RET
-
-LBB0_7:
-	WORD $0xc931     // xor    ecx, ecx
-	LONG $0xc0570f66 // xorpd    xmm0, xmm0
-	LONG $0xc9570f66 // xorpd    xmm1, xmm1
-
-LBB0_10:
-	LONG $0x0cf88349             // cmp    r8, 12
-	JB   LBB0_13
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	WORD $0x2948; BYTE $0xc8     // sub    rax, rcx
-	LONG $0xcf4c8d48; BYTE $0x70 // lea    rcx, [rdi + 8*rcx + 112]
-
-LBB0_12:
-	LONG $0x51100f66; BYTE $0x90 // movupd    xmm2, oword [rcx - 112]
-	LONG $0x59100f66; BYTE $0xa0 // movupd    xmm3, oword [rcx - 96]
-	LONG $0x61100f66; BYTE $0xb0 // movupd    xmm4, oword [rcx - 80]
-	LONG $0x69100f66; BYTE $0xc0 // movupd    xmm5, oword [rcx - 64]
-	LONG $0xd0580f66             // addpd    xmm2, xmm0
-	LONG $0xd9580f66             // addpd    xmm3, xmm1
-	LONG $0x71100f66; BYTE $0xd0 // movupd    xmm6, oword [rcx - 48]
-	LONG $0x79100f66; BYTE $0xe0 // movupd    xmm7, oword [rcx - 32]
-	LONG $0xf4580f66             // addpd    xmm6, xmm4
-	LONG $0xf2580f66             // addpd    xmm6, xmm2
-	LONG $0xfd580f66             // addpd    xmm7, xmm5
-	LONG $0xfb580f66             // addpd    xmm7, xmm3
-	LONG $0x41100f66; BYTE $0xf0 // movupd    xmm0, oword [rcx - 16]
-	LONG $0x09100f66             // movupd    xmm1, oword [rcx]
-	LONG $0xc6580f66             // addpd    xmm0, xmm6
-	LONG $0xcf580f66             // addpd    xmm1, xmm7
-	LONG $0x80e98348             // sub    rcx, -128
-	LONG $0xf0c08348             // add    rax, -16
-	JNE  LBB0_12
-
-LBB0_13:
-	LONG $0xc1580f66         // addpd    xmm0, xmm1
-	LONG $0xc07c0f66         // haddpd    xmm0, xmm0
-	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
-	JNE  LBB0_3
-	JMP  LBB0_14
diff --git a/go/arrow/math/float64_test.go b/go/arrow/math/float64_test.go
deleted file mode 100644
index de1a1ef1ec3be..0000000000000
--- a/go/arrow/math/float64_test.go
+++ /dev/null
@@ -1,86 +0,0 @@
-// Code generated by type_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/math"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestFloat64Funcs_Sum(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	vec := makeArrayFloat64(10000, mem)
-	defer vec.Release()
-	res := math.Float64.Sum(vec)
-	assert.Equal(t, res, float64(49995000))
-}
-
-func TestFloat64Funcs_SumEmpty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	b := array.NewFloat64Builder(mem)
-	defer b.Release()
-	vec := b.NewFloat64Array()
-	defer vec.Release()
-	res := math.Float64.Sum(vec)
-	assert.Equal(t, res, float64(0))
-}
-
-func makeArrayFloat64(l int, mem memory.Allocator) *array.Float64 {
-	fb := array.NewFloat64Builder(mem)
-	defer fb.Release()
-	fb.Reserve(l)
-	for i := 0; i < l; i++ {
-		fb.Append(float64(i))
-	}
-	return fb.NewFloat64Array()
-}
-
-func benchmarkFloat64Funcs_Sum(b *testing.B, n int) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(b, 0)
-	vec := makeArrayFloat64(n, mem)
-	defer vec.Release()
-	b.SetBytes(int64(vec.Len() * 8))
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		math.Float64.Sum(vec)
-	}
-}
-
-func BenchmarkFloat64Funcs_Sum_256(b *testing.B) {
-	benchmarkFloat64Funcs_Sum(b, 256)
-}
-
-func BenchmarkFloat64Funcs_Sum_1024(b *testing.B) {
-	benchmarkFloat64Funcs_Sum(b, 1024)
-}
-
-func BenchmarkFloat64Funcs_Sum_8192(b *testing.B) {
-	benchmarkFloat64Funcs_Sum(b, 8192)
-}
-
-func BenchmarkFloat64Funcs_Sum_1000000(b *testing.B) {
-	benchmarkFloat64Funcs_Sum(b, 1e6)
-}
diff --git a/go/arrow/math/int64.go b/go/arrow/math/int64.go
deleted file mode 100644
index a7d2b76b69704..0000000000000
--- a/go/arrow/math/int64.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Code generated by type.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-type Int64Funcs struct {
-	sum func(a *array.Int64) int64
-}
-
-var (
-	Int64 Int64Funcs
-)
-
-// Sum returns the summation of all elements in a.
-func (f Int64Funcs) Sum(a *array.Int64) int64 {
-	if a.Len() == 0 {
-		return int64(0)
-	}
-	return f.sum(a)
-}
-
-func sum_int64_go(a *array.Int64) int64 {
-	acc := int64(0)
-	for _, v := range a.Int64Values() {
-		acc += v
-	}
-	return acc
-}
diff --git a/go/arrow/math/int64.tmpldata b/go/arrow/math/int64.tmpldata
deleted file mode 100644
index 94669f9d3897e..0000000000000
--- a/go/arrow/math/int64.tmpldata
+++ /dev/null
@@ -1,4 +0,0 @@
-{
-  "Name": "Int64",
-  "Type": "int64"
-}
\ No newline at end of file
diff --git a/go/arrow/math/int64_amd64.go b/go/arrow/math/int64_amd64.go
deleted file mode 100644
index ed616e84264e8..0000000000000
--- a/go/arrow/math/int64_amd64.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Code generated by type_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initInt64AVX2() {
-	Int64.sum = sum_int64_avx2
-}
-
-func initInt64SSE4() {
-	Int64.sum = sum_int64_sse4
-}
-
-func initInt64Go() {
-	Int64.sum = sum_int64_go
-}
diff --git a/go/arrow/math/int64_arm64.go b/go/arrow/math/int64_arm64.go
deleted file mode 100644
index 7bd200746e1b9..0000000000000
--- a/go/arrow/math/int64_arm64.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Code generated by type_arm64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initInt64NEON() {
-	Int64.sum = sum_int64_neon
-}
-
-func initInt64Go() {
-	Int64.sum = sum_int64_go
-}
diff --git a/go/arrow/math/int64_avx2_amd64.go b/go/arrow/math/int64_avx2_amd64.go
deleted file mode 100644
index 353338d43282a..0000000000000
--- a/go/arrow/math/int64_avx2_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_int64_avx2(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_int64_avx2(a *array.Int64) int64 {
-	buf := a.Int64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res int64
-	)
-	_sum_int64_avx2(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/int64_avx2_amd64.s b/go/arrow/math/int64_avx2_amd64.s
deleted file mode 100644
index 10d234cc4ac73..0000000000000
--- a/go/arrow/math/int64_avx2_amd64.s
+++ /dev/null
@@ -1,173 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_sum_int64_avx2(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ res+16(FP), DX
-
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB0_1
-	LONG $0x1ffe8348         // cmp    rsi, 31
-	JBE  LBB0_3
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0xe0e18349         // and    r9, -32
-	JE   LBB0_3
-	LONG $0xe0418d4d         // lea    r8, [r9 - 32]
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	WORD $0xe8c1; BYTE $0x05 // shr    eax, 5
-	WORD $0xc0ff             // inc    eax
-	LONG $0x07e08348         // and    rax, 7
-	JE   LBB0_8
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	LONG $0xc0effdc5         // vpxor    ymm0, ymm0, ymm0
-	WORD $0xc931             // xor    ecx, ecx
-	LONG $0xc9eff5c5         // vpxor    ymm1, ymm1, ymm1
-	LONG $0xd2efedc5         // vpxor    ymm2, ymm2, ymm2
-	LONG $0xdbefe5c5         // vpxor    ymm3, ymm3, ymm3
-	LONG $0xe4efddc5         // vpxor    ymm4, ymm4, ymm4
-	LONG $0xedefd5c5         // vpxor    ymm5, ymm5, ymm5
-	LONG $0xf6efcdc5         // vpxor    ymm6, ymm6, ymm6
-	LONG $0xffefc5c5         // vpxor    ymm7, ymm7, ymm7
-
-LBB0_10:
-	LONG $0x04d4fdc5; BYTE $0xcf         // vpaddq    ymm0, ymm0, yword [rdi + 8*rcx]
-	LONG $0x4cd4f5c5; WORD $0x20cf       // vpaddq    ymm1, ymm1, yword [rdi + 8*rcx + 32]
-	LONG $0x54d4edc5; WORD $0x40cf       // vpaddq    ymm2, ymm2, yword [rdi + 8*rcx + 64]
-	LONG $0x5cd4e5c5; WORD $0x60cf       // vpaddq    ymm3, ymm3, yword [rdi + 8*rcx + 96]
-	QUAD $0x000080cfa4d4ddc5; BYTE $0x00 // vpaddq    ymm4, ymm4, yword [rdi + 8*rcx + 128]
-	QUAD $0x0000a0cfacd4d5c5; BYTE $0x00 // vpaddq    ymm5, ymm5, yword [rdi + 8*rcx + 160]
-	QUAD $0x0000c0cfb4d4cdc5; BYTE $0x00 // vpaddq    ymm6, ymm6, yword [rdi + 8*rcx + 192]
-	QUAD $0x0000e0cfbcd4c5c5; BYTE $0x00 // vpaddq    ymm7, ymm7, yword [rdi + 8*rcx + 224]
-	LONG $0x20c18348                     // add    rcx, 32
-	WORD $0xff48; BYTE $0xc0             // inc    rax
-	JNE  LBB0_10
-	JMP  LBB0_11
-
-LBB0_3:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_4:
-	LONG $0xcf0c8d4a         // lea    rcx, [rdi + 8*r9]
-	WORD $0x294c; BYTE $0xce // sub    rsi, r9
-
-LBB0_5:
-	WORD $0x0348; BYTE $0x01 // add    rax, qword [rcx]
-	LONG $0x08c18348         // add    rcx, 8
-	WORD $0xff48; BYTE $0xce // dec    rsi
-	JNE  LBB0_5
-	JMP  LBB0_15
-
-LBB0_1:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_15:
-	WORD $0x8948; BYTE $0x02 // mov    qword [rdx], rax
-	VZEROUPPER
-	RET
-
-LBB0_8:
-	WORD $0xc931     // xor    ecx, ecx
-	LONG $0xc0effdc5 // vpxor    ymm0, ymm0, ymm0
-	LONG $0xc9eff5c5 // vpxor    ymm1, ymm1, ymm1
-	LONG $0xd2efedc5 // vpxor    ymm2, ymm2, ymm2
-	LONG $0xdbefe5c5 // vpxor    ymm3, ymm3, ymm3
-	LONG $0xe4efddc5 // vpxor    ymm4, ymm4, ymm4
-	LONG $0xedefd5c5 // vpxor    ymm5, ymm5, ymm5
-	LONG $0xf6efcdc5 // vpxor    ymm6, ymm6, ymm6
-	LONG $0xffefc5c5 // vpxor    ymm7, ymm7, ymm7
-
-LBB0_11:
-	LONG $0xe0f88149; WORD $0x0000; BYTE $0x00 // cmp    r8, 224
-	JB   LBB0_14
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	WORD $0x2948; BYTE $0xc8                   // sub    rax, rcx
-	QUAD $0x00000700cf8c8d48                   // lea    rcx, [rdi + 8*rcx + 1792]
-
-LBB0_13:
-	QUAD $0xfffff9e0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 1568]
-	QUAD $0xfffff9c0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 1600]
-	QUAD $0xfffff9a0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 1632]
-	QUAD $0xfffff980a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 1664]
-	QUAD $0xfffff96099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 1696]
-	QUAD $0xfffff94091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 1728]
-	QUAD $0xfffff92089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 1760]
-	QUAD $0xfffff90081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1792]
-	QUAD $0xfffffa0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1536]
-	QUAD $0xfffffa2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 1504]
-	QUAD $0xfffffa4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 1472]
-	QUAD $0xfffffa6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 1440]
-	QUAD $0xfffffa80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 1408]
-	QUAD $0xfffffaa0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 1376]
-	QUAD $0xfffffac0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 1344]
-	QUAD $0xfffffae0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 1312]
-	QUAD $0xfffffbe0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 1056]
-	QUAD $0xfffffbc0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 1088]
-	QUAD $0xfffffba0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 1120]
-	QUAD $0xfffffb80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 1152]
-	QUAD $0xfffffb6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 1184]
-	QUAD $0xfffffb4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 1216]
-	QUAD $0xfffffb2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 1248]
-	QUAD $0xfffffb0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1280]
-	QUAD $0xfffffc0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1024]
-	QUAD $0xfffffc2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 992]
-	QUAD $0xfffffc4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 960]
-	QUAD $0xfffffc6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 928]
-	QUAD $0xfffffc80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 896]
-	QUAD $0xfffffca0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 864]
-	QUAD $0xfffffcc0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 832]
-	QUAD $0xfffffce0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 800]
-	QUAD $0xfffffde0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 544]
-	QUAD $0xfffffdc0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 576]
-	QUAD $0xfffffda0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 608]
-	QUAD $0xfffffd80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 640]
-	QUAD $0xfffffd6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 672]
-	QUAD $0xfffffd4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 704]
-	QUAD $0xfffffd2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 736]
-	QUAD $0xfffffd0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 768]
-	QUAD $0xfffffe0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 512]
-	QUAD $0xfffffe2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 480]
-	QUAD $0xfffffe4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 448]
-	QUAD $0xfffffe6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 416]
-	QUAD $0xfffffe80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 384]
-	QUAD $0xfffffea0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 352]
-	QUAD $0xfffffec0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 320]
-	QUAD $0xfffffee0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 288]
-	LONG $0x79d4c5c5; BYTE $0xe0               // vpaddq    ymm7, ymm7, yword [rcx - 32]
-	LONG $0x71d4cdc5; BYTE $0xc0               // vpaddq    ymm6, ymm6, yword [rcx - 64]
-	LONG $0x69d4d5c5; BYTE $0xa0               // vpaddq    ymm5, ymm5, yword [rcx - 96]
-	LONG $0x61d4ddc5; BYTE $0x80               // vpaddq    ymm4, ymm4, yword [rcx - 128]
-	QUAD $0xffffff6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 160]
-	QUAD $0xffffff4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 192]
-	QUAD $0xffffff2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 224]
-	QUAD $0xffffff0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 256]
-	LONG $0x01d4fdc5                           // vpaddq    ymm0, ymm0, yword [rcx]
-	LONG $0x49d4f5c5; BYTE $0x20               // vpaddq    ymm1, ymm1, yword [rcx + 32]
-	LONG $0x51d4edc5; BYTE $0x40               // vpaddq    ymm2, ymm2, yword [rcx + 64]
-	LONG $0x59d4e5c5; BYTE $0x60               // vpaddq    ymm3, ymm3, yword [rcx + 96]
-	QUAD $0x00000080a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx + 128]
-	QUAD $0x000000a0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx + 160]
-	QUAD $0x000000c0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx + 192]
-	QUAD $0x000000e0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx + 224]
-	LONG $0x00c18148; WORD $0x0008; BYTE $0x00 // add    rcx, 2048
-	LONG $0xff000548; WORD $0xffff             // add    rax, -256
-	JNE  LBB0_13
-
-LBB0_14:
-	LONG $0xcdd4f5c5               // vpaddq    ymm1, ymm1, ymm5
-	LONG $0xdfd4e5c5               // vpaddq    ymm3, ymm3, ymm7
-	LONG $0xc4d4fdc5               // vpaddq    ymm0, ymm0, ymm4
-	LONG $0xd6d4edc5               // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xc2d4fdc5               // vpaddq    ymm0, ymm0, ymm2
-	LONG $0xcbd4f5c5               // vpaddq    ymm1, ymm1, ymm3
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0xc870f9c5; BYTE $0x4e   // vpshufd    xmm1, xmm0, 78
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_4
-	JMP  LBB0_15
diff --git a/go/arrow/math/int64_neon_arm64.go b/go/arrow/math/int64_neon_arm64.go
deleted file mode 100755
index 29c5a8eed6c89..0000000000000
--- a/go/arrow/math/int64_neon_arm64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_arm64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_int64_neon(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_int64_neon(a *array.Int64) int64 {
-	buf := a.Int64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res int64
-	)
-	_sum_int64_neon(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/int64_neon_arm64.s b/go/arrow/math/int64_neon_arm64.s
deleted file mode 100755
index 4f55163c72541..0000000000000
--- a/go/arrow/math/int64_neon_arm64.s
+++ /dev/null
@@ -1,58 +0,0 @@
-//+build !noasm !appengine
-
-// ARROW-15172:
-// (C2GOASM doesn't work correctly for Arm64)
-// Partly GENERATED BY asm2plan9s.
-
-// func _sum_int64_neon(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-TEXT ·_sum_int64_neon(SB), $0-24
-
-	MOVD	buf+0(FP), R0
-	MOVD	len+8(FP), R1
-	MOVD	res+16(FP), R2
-    
-	WORD $0xa9bf7bfd // stp x29, x30, [sp, #-16]!
-	WORD $0x910003fd // mov x29, sp
-	CBZ R1, LBB0_3
-	WORD $0xf1000c3f // cmp x1, #3
-	BHI LBB0_4
-	WORD $0xaa1f03e8 // mov     x8, xzr
-	WORD $0xaa1f03e9 // mov     x9, xzr
-	JMP LBB0_7
-LBB0_3:
-	WORD $0xaa1f03e9 // mov     x9, xzr
-	WORD $0xf9000049 // str     x9, [x2]
-	WORD $0xa8c17bfd // ldp     x29, x30, [sp], #16
-	RET
-LBB0_4:
-	WORD $0x927ef428 // and     x8, x1, #0xfffffffffffffffc
-	WORD $0x91004009 // add     x9, x0, #16
-	WORD $0x6f00e400 // movi    v0.2d, #0000000000000000
-	WORD $0xaa0803ea // mov     x10, x8
-	WORD $0x6f00e401 // movi    v1.2d, #0000000000000000
-LBB0_5:
-	WORD $0xad7f8d22 // ldp     q2, q3, [x9, #-16]
-	WORD $0xf100114a // subs    x10, x10, #4
-	WORD $0x91008129 // add     x9, x9, #32
-	WORD $0x4ee08440 // add     v0.2d, v2.2d, v0.2d
-	WORD $0x4ee18461 // add     v1.2d, v3.2d, v1.2d
-	BNE LBB0_5
-
-	WORD $0x4ee08420 // add     v0.2d, v1.2d, v0.2d
-	WORD $0x5ef1b800 // addp    d0, v0.2d
-	WORD $0xeb01011f // cmp     x8, x1
-	WORD $0x9e660009 // fmov    x9, d0
-	BEQ LBB0_9
-LBB0_7:
-	WORD $0x8b080c0a // add     x10, x0, x8, lsl #3
-	WORD $0xcb080028 // sub     x8, x1, x8
-LBB0_8:
-	WORD $0xf840854b // ldr     x11, [x10], #8
-	WORD $0xf1000508 // subs    x8, x8, #1
-	WORD $0x8b090169 // add     x9, x11, x9
-	BNE LBB0_8
-LBB0_9:
-	WORD $0xf9000049 // str     x9, [x2]
-	WORD $0xa8c17bfd // ldp     x29, x30, [sp], #16
-	RET
-
diff --git a/go/arrow/math/int64_noasm.go b/go/arrow/math/int64_noasm.go
deleted file mode 100644
index 09e945da7512d..0000000000000
--- a/go/arrow/math/int64_noasm.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_noasm.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package math
-
-func initInt64Go() {
-	Int64.sum = sum_int64_go
-}
diff --git a/go/arrow/math/int64_ppc64le.go b/go/arrow/math/int64_ppc64le.go
deleted file mode 100644
index ff40824cc1058..0000000000000
--- a/go/arrow/math/int64_ppc64le.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_ppc64le.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initInt64Go() {
-	Int64.sum = sum_int64_go
-}
diff --git a/go/arrow/math/int64_s390x.go b/go/arrow/math/int64_s390x.go
deleted file mode 100644
index d32d860ca0cc9..0000000000000
--- a/go/arrow/math/int64_s390x.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_s390x.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initInt64Go() {
-	Int64.sum = sum_int64_go
-}
diff --git a/go/arrow/math/int64_sse4_amd64.go b/go/arrow/math/int64_sse4_amd64.go
deleted file mode 100644
index cf443c5f1a7ec..0000000000000
--- a/go/arrow/math/int64_sse4_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_int64_sse4(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_int64_sse4(a *array.Int64) int64 {
-	buf := a.Int64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res int64
-	)
-	_sum_int64_sse4(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/int64_sse4_amd64.s b/go/arrow/math/int64_sse4_amd64.s
deleted file mode 100644
index ef27eee1649f1..0000000000000
--- a/go/arrow/math/int64_sse4_amd64.s
+++ /dev/null
@@ -1,100 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_sum_int64_sse4(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ res+16(FP), DX
-
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB0_1
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JBE  LBB0_3
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0xfce18349         // and    r9, -4
-	JE   LBB0_3
-	LONG $0xfc418d4d         // lea    r8, [r9 - 4]
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	WORD $0xe8c1; BYTE $0x02 // shr    eax, 2
-	WORD $0xc0ff             // inc    eax
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_8
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	WORD $0xc931             // xor    ecx, ecx
-	LONG $0xc9ef0f66         // pxor    xmm1, xmm1
-
-LBB0_10:
-	LONG $0x146f0ff3; BYTE $0xcf   // movdqu    xmm2, oword [rdi + 8*rcx]
-	LONG $0x5c6f0ff3; WORD $0x10cf // movdqu    xmm3, oword [rdi + 8*rcx + 16]
-	LONG $0xc2d40f66               // paddq    xmm0, xmm2
-	LONG $0xcbd40f66               // paddq    xmm1, xmm3
-	LONG $0x04c18348               // add    rcx, 4
-	WORD $0xff48; BYTE $0xc0       // inc    rax
-	JNE  LBB0_10
-	JMP  LBB0_11
-
-LBB0_3:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_4:
-	LONG $0xcf0c8d4a         // lea    rcx, [rdi + 8*r9]
-	WORD $0x294c; BYTE $0xce // sub    rsi, r9
-
-LBB0_5:
-	WORD $0x0348; BYTE $0x01 // add    rax, qword [rcx]
-	LONG $0x08c18348         // add    rcx, 8
-	WORD $0xff48; BYTE $0xce // dec    rsi
-	JNE  LBB0_5
-	JMP  LBB0_15
-
-LBB0_1:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_15:
-	WORD $0x8948; BYTE $0x02 // mov    qword [rdx], rax
-	RET
-
-LBB0_8:
-	WORD $0xc931     // xor    ecx, ecx
-	LONG $0xc0ef0f66 // pxor    xmm0, xmm0
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-
-LBB0_11:
-	LONG $0x0cf88349             // cmp    r8, 12
-	JB   LBB0_14
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	WORD $0x2948; BYTE $0xc8     // sub    rax, rcx
-	LONG $0xcf4c8d48; BYTE $0x70 // lea    rcx, [rdi + 8*rcx + 112]
-
-LBB0_13:
-	LONG $0x516f0ff3; BYTE $0x90 // movdqu    xmm2, oword [rcx - 112]
-	LONG $0x596f0ff3; BYTE $0xa0 // movdqu    xmm3, oword [rcx - 96]
-	LONG $0x616f0ff3; BYTE $0xb0 // movdqu    xmm4, oword [rcx - 80]
-	LONG $0x696f0ff3; BYTE $0xc0 // movdqu    xmm5, oword [rcx - 64]
-	LONG $0xd0d40f66             // paddq    xmm2, xmm0
-	LONG $0xd9d40f66             // paddq    xmm3, xmm1
-	LONG $0x716f0ff3; BYTE $0xd0 // movdqu    xmm6, oword [rcx - 48]
-	LONG $0x796f0ff3; BYTE $0xe0 // movdqu    xmm7, oword [rcx - 32]
-	LONG $0xf4d40f66             // paddq    xmm6, xmm4
-	LONG $0xf2d40f66             // paddq    xmm6, xmm2
-	LONG $0xfdd40f66             // paddq    xmm7, xmm5
-	LONG $0xfbd40f66             // paddq    xmm7, xmm3
-	LONG $0x416f0ff3; BYTE $0xf0 // movdqu    xmm0, oword [rcx - 16]
-	LONG $0x096f0ff3             // movdqu    xmm1, oword [rcx]
-	LONG $0xc6d40f66             // paddq    xmm0, xmm6
-	LONG $0xcfd40f66             // paddq    xmm1, xmm7
-	LONG $0x80e98348             // sub    rcx, -128
-	LONG $0xf0c08348             // add    rax, -16
-	JNE  LBB0_13
-
-LBB0_14:
-	LONG $0xc1d40f66             // paddq    xmm0, xmm1
-	LONG $0xc8700f66; BYTE $0x4e // pshufd    xmm1, xmm0, 78
-	LONG $0xc8d40f66             // paddq    xmm1, xmm0
-	LONG $0x7e0f4866; BYTE $0xc8 // movq    rax, xmm1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_4
-	JMP  LBB0_15
diff --git a/go/arrow/math/int64_test.go b/go/arrow/math/int64_test.go
deleted file mode 100644
index 0719d6955b367..0000000000000
--- a/go/arrow/math/int64_test.go
+++ /dev/null
@@ -1,86 +0,0 @@
-// Code generated by type_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/math"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestInt64Funcs_Sum(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	vec := makeArrayInt64(10000, mem)
-	defer vec.Release()
-	res := math.Int64.Sum(vec)
-	assert.Equal(t, res, int64(49995000))
-}
-
-func TestInt64Funcs_SumEmpty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	b := array.NewInt64Builder(mem)
-	defer b.Release()
-	vec := b.NewInt64Array()
-	defer vec.Release()
-	res := math.Int64.Sum(vec)
-	assert.Equal(t, res, int64(0))
-}
-
-func makeArrayInt64(l int, mem memory.Allocator) *array.Int64 {
-	fb := array.NewInt64Builder(mem)
-	defer fb.Release()
-	fb.Reserve(l)
-	for i := 0; i < l; i++ {
-		fb.Append(int64(i))
-	}
-	return fb.NewInt64Array()
-}
-
-func benchmarkInt64Funcs_Sum(b *testing.B, n int) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(b, 0)
-	vec := makeArrayInt64(n, mem)
-	defer vec.Release()
-	b.SetBytes(int64(vec.Len() * 8))
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		math.Int64.Sum(vec)
-	}
-}
-
-func BenchmarkInt64Funcs_Sum_256(b *testing.B) {
-	benchmarkInt64Funcs_Sum(b, 256)
-}
-
-func BenchmarkInt64Funcs_Sum_1024(b *testing.B) {
-	benchmarkInt64Funcs_Sum(b, 1024)
-}
-
-func BenchmarkInt64Funcs_Sum_8192(b *testing.B) {
-	benchmarkInt64Funcs_Sum(b, 8192)
-}
-
-func BenchmarkInt64Funcs_Sum_1000000(b *testing.B) {
-	benchmarkInt64Funcs_Sum(b, 1e6)
-}
diff --git a/go/arrow/math/math_amd64.go b/go/arrow/math/math_amd64.go
deleted file mode 100644
index 2397eef718df9..0000000000000
--- a/go/arrow/math/math_amd64.go
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		initAVX2()
-	} else if cpu.X86.HasSSE42 {
-		initSSE4()
-	} else {
-		initGo()
-	}
-}
-
-func initAVX2() {
-	initFloat64AVX2()
-	initInt64AVX2()
-	initUint64AVX2()
-}
-
-func initSSE4() {
-	initFloat64SSE4()
-	initInt64SSE4()
-	initUint64SSE4()
-}
-
-func initGo() {
-	initFloat64Go()
-	initInt64Go()
-	initUint64Go()
-}
diff --git a/go/arrow/math/math_arm64.go b/go/arrow/math/math_arm64.go
deleted file mode 100644
index b150eb061f9f5..0000000000000
--- a/go/arrow/math/math_arm64.go
+++ /dev/null
@@ -1,44 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.ARM64.HasASIMD {
-		initNEON()
-	} else {
-		initGo()
-	}
-}
-
-func initNEON() {
-	initFloat64NEON()
-	initInt64NEON()
-	initUint64NEON()
-}
-
-func initGo() {
-	initFloat64Go()
-	initInt64Go()
-	initUint64Go()
-}
diff --git a/go/arrow/math/math_noasm.go b/go/arrow/math/math_noasm.go
deleted file mode 100644
index 5527ebf801891..0000000000000
--- a/go/arrow/math/math_noasm.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package math
-
-func init() {
-	initGo()
-}
-
-func initGo() {
-	initFloat64Go()
-	initInt64Go()
-	initUint64Go()
-}
diff --git a/go/arrow/math/math_ppc64le.go b/go/arrow/math/math_ppc64le.go
deleted file mode 100644
index 85c8f2fe2e758..0000000000000
--- a/go/arrow/math/math_ppc64le.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func init() {
-	initGo()
-}
-
-func initGo() {
-	initFloat64Go()
-	initInt64Go()
-	initUint64Go()
-}
diff --git a/go/arrow/math/math_s390x.go b/go/arrow/math/math_s390x.go
deleted file mode 100644
index 85c8f2fe2e758..0000000000000
--- a/go/arrow/math/math_s390x.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func init() {
-	initGo()
-}
-
-func initGo() {
-	initFloat64Go()
-	initInt64Go()
-	initUint64Go()
-}
diff --git a/go/arrow/math/type.go.tmpl b/go/arrow/math/type.go.tmpl
deleted file mode 100644
index 28becffdb3842..0000000000000
--- a/go/arrow/math/type.go.tmpl
+++ /dev/null
@@ -1,48 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-{{$def := .D}}
-{{with .In}}
-type {{.Name}}Funcs struct {
-	sum func(a *array.{{.Name}}) {{.Type}}
-}
-
-var (
-	{{.Name}} {{.Name}}Funcs
-)
-
-// Sum returns the summation of all elements in a.
-func (f {{.Name}}Funcs) Sum(a *array.{{.Name}}) {{.Type}} {
-	if a.Len() == 0 {
-		return {{.Type}}(0)
-	}
-	return f.sum(a)
-}
-
-func sum_{{.Type}}_go(a *array.{{.Name}}) {{.Type}} {
-	acc := {{.Type}}(0)
-	for _, v := range a.{{.Name}}Values() {
-		acc += v
-	}
-	return acc
-}
-{{end}}
\ No newline at end of file
diff --git a/go/arrow/math/type_amd64.go.tmpl b/go/arrow/math/type_amd64.go.tmpl
deleted file mode 100644
index c3c27498be5dc..0000000000000
--- a/go/arrow/math/type_amd64.go.tmpl
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build !noasm
-
-package math
-
-{{with .In}}
-func init{{.Name}}AVX2() {
-	{{.Name}}.sum = sum_{{.Type}}_avx2
-}
-
-func init{{.Name}}SSE4() {
-	{{.Name}}.sum = sum_{{.Type}}_sse4
-}
-
-func init{{.Name}}Go() {
-	{{.Name}}.sum = sum_{{.Type}}_go
-}
-{{end}}
\ No newline at end of file
diff --git a/go/arrow/math/type_arm64.go.tmpl b/go/arrow/math/type_arm64.go.tmpl
deleted file mode 100755
index 1603c48c38e50..0000000000000
--- a/go/arrow/math/type_arm64.go.tmpl
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build !noasm
-
-package math
-
-{{with .In}}
-func init{{.Name}}NEON() {
-	{{.Name}}.sum = sum_{{.Type}}_neon
-}
-
-func init{{.Name}}Go() {
-	{{.Name}}.sum = sum_{{.Type}}_go
-}
-{{end}}
\ No newline at end of file
diff --git a/go/arrow/math/type_noasm.go.tmpl b/go/arrow/math/type_noasm.go.tmpl
deleted file mode 100644
index 66802f0fe50ac..0000000000000
--- a/go/arrow/math/type_noasm.go.tmpl
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build noasm
-
-package math
-
-{{with .In}}
-func init{{.Name}}Go() {
-	{{.Name}}.sum = sum_{{.Type}}_go
-}
-{{end}}
\ No newline at end of file
diff --git a/go/arrow/math/type_ppc64le.go.tmpl b/go/arrow/math/type_ppc64le.go.tmpl
deleted file mode 100644
index 49a7fc634fd67..0000000000000
--- a/go/arrow/math/type_ppc64le.go.tmpl
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build !noasm
-
-package math
-
-{{with .In}}
-func init{{.Name}}Go() {
-	{{.Name}}.sum = sum_{{.Type}}_go
-}
-{{end}}
diff --git a/go/arrow/math/type_s390x.go.tmpl b/go/arrow/math/type_s390x.go.tmpl
deleted file mode 100644
index 49a7fc634fd67..0000000000000
--- a/go/arrow/math/type_s390x.go.tmpl
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build !noasm
-
-package math
-
-{{with .In}}
-func init{{.Name}}Go() {
-	{{.Name}}.sum = sum_{{.Type}}_go
-}
-{{end}}
diff --git a/go/arrow/math/type_simd_amd64.go.tmpl b/go/arrow/math/type_simd_amd64.go.tmpl
deleted file mode 100644
index cb11dc0ff808c..0000000000000
--- a/go/arrow/math/type_simd_amd64.go.tmpl
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-{{$name := printf "%s_%s" .In.Type .D.arch}}
-{{with .In}}
-//go:noescape
-func _sum_{{$name}}(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_{{$name}}(a *array.{{.Name}}) {{.Type}} {
-	buf := a.{{.Name}}Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res {{.Type}}
-	)
-	_sum_{{$name}}(p1, p2, unsafe.Pointer(&res))
-	return res
-}
-{{end}}
\ No newline at end of file
diff --git a/go/arrow/math/type_simd_arm64.go.tmpl b/go/arrow/math/type_simd_arm64.go.tmpl
deleted file mode 100755
index cb11dc0ff808c..0000000000000
--- a/go/arrow/math/type_simd_arm64.go.tmpl
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-{{$name := printf "%s_%s" .In.Type .D.arch}}
-{{with .In}}
-//go:noescape
-func _sum_{{$name}}(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_{{$name}}(a *array.{{.Name}}) {{.Type}} {
-	buf := a.{{.Name}}Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res {{.Type}}
-	)
-	_sum_{{$name}}(p1, p2, unsafe.Pointer(&res))
-	return res
-}
-{{end}}
\ No newline at end of file
diff --git a/go/arrow/math/type_test.go.tmpl b/go/arrow/math/type_test.go.tmpl
deleted file mode 100644
index cc3d39a4a1ad6..0000000000000
--- a/go/arrow/math/type_test.go.tmpl
+++ /dev/null
@@ -1,87 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/math"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-{{$name := printf "%s_%s" .In.Type .D.arch}}
-{{with .In}}
-func Test{{.Name}}Funcs_Sum(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	vec := makeArray{{.Name}}(10000, mem)
-	defer vec.Release()
-	res := math.{{.Name}}.Sum(vec)
-	assert.Equal(t, res, {{.Type}}(49995000))
-}
-
-func Test{{.Name}}Funcs_SumEmpty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	b := array.New{{.Name}}Builder(mem)
-	defer b.Release()
-	vec := b.New{{.Name}}Array()
-	defer vec.Release()
-	res := math.{{.Name}}.Sum(vec)
-	assert.Equal(t, res, {{.Type}}(0))
-}
-
-func makeArray{{.Name}}(l int, mem memory.Allocator) *array.{{.Name}} {
-	fb := array.New{{.Name}}Builder(mem)
-	defer fb.Release()
-	fb.Reserve(l)
-	for i := 0; i < l; i++ {
-		fb.Append({{.Type}}(i))
-	}
-	return fb.New{{.Name}}Array()
-}
-
-func benchmark{{.Name}}Funcs_Sum(b *testing.B, n int) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(b, 0)
-	vec := makeArray{{.Name}}(n, mem)
-	defer vec.Release()
-	b.SetBytes(int64(vec.Len() * 8))
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		math.{{.Name}}.Sum(vec)
-	}
-}
-
-func Benchmark{{.Name}}Funcs_Sum_256(b *testing.B) {
-	benchmark{{.Name}}Funcs_Sum(b, 256)
-}
-
-func Benchmark{{.Name}}Funcs_Sum_1024(b *testing.B) {
-	benchmark{{.Name}}Funcs_Sum(b, 1024)
-}
-
-func Benchmark{{.Name}}Funcs_Sum_8192(b *testing.B) {
-	benchmark{{.Name}}Funcs_Sum(b, 8192)
-}
-
-func Benchmark{{.Name}}Funcs_Sum_1000000(b *testing.B) {
-	benchmark{{.Name}}Funcs_Sum(b, 1e6)
-}
-{{end}}
diff --git a/go/arrow/math/uint64.go b/go/arrow/math/uint64.go
deleted file mode 100644
index 2a24886ee5510..0000000000000
--- a/go/arrow/math/uint64.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Code generated by type.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-type Uint64Funcs struct {
-	sum func(a *array.Uint64) uint64
-}
-
-var (
-	Uint64 Uint64Funcs
-)
-
-// Sum returns the summation of all elements in a.
-func (f Uint64Funcs) Sum(a *array.Uint64) uint64 {
-	if a.Len() == 0 {
-		return uint64(0)
-	}
-	return f.sum(a)
-}
-
-func sum_uint64_go(a *array.Uint64) uint64 {
-	acc := uint64(0)
-	for _, v := range a.Uint64Values() {
-		acc += v
-	}
-	return acc
-}
diff --git a/go/arrow/math/uint64.tmpldata b/go/arrow/math/uint64.tmpldata
deleted file mode 100644
index 22165eb1d00ed..0000000000000
--- a/go/arrow/math/uint64.tmpldata
+++ /dev/null
@@ -1,4 +0,0 @@
-{
-  "Name": "Uint64",
-  "Type": "uint64"
-}
\ No newline at end of file
diff --git a/go/arrow/math/uint64_amd64.go b/go/arrow/math/uint64_amd64.go
deleted file mode 100644
index 726d3425614f8..0000000000000
--- a/go/arrow/math/uint64_amd64.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Code generated by type_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initUint64AVX2() {
-	Uint64.sum = sum_uint64_avx2
-}
-
-func initUint64SSE4() {
-	Uint64.sum = sum_uint64_sse4
-}
-
-func initUint64Go() {
-	Uint64.sum = sum_uint64_go
-}
diff --git a/go/arrow/math/uint64_arm64.go b/go/arrow/math/uint64_arm64.go
deleted file mode 100644
index 54981c2278150..0000000000000
--- a/go/arrow/math/uint64_arm64.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Code generated by type_arm64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initUint64NEON() {
-	Uint64.sum = sum_uint64_neon
-}
-
-func initUint64Go() {
-	Uint64.sum = sum_uint64_go
-}
diff --git a/go/arrow/math/uint64_avx2_amd64.go b/go/arrow/math/uint64_avx2_amd64.go
deleted file mode 100644
index ba6ea29b92201..0000000000000
--- a/go/arrow/math/uint64_avx2_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_uint64_avx2(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_uint64_avx2(a *array.Uint64) uint64 {
-	buf := a.Uint64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res uint64
-	)
-	_sum_uint64_avx2(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/uint64_avx2_amd64.s b/go/arrow/math/uint64_avx2_amd64.s
deleted file mode 100644
index 7edfd476aac25..0000000000000
--- a/go/arrow/math/uint64_avx2_amd64.s
+++ /dev/null
@@ -1,173 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_sum_uint64_avx2(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ res+16(FP), DX
-
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB0_1
-	LONG $0x1ffe8348         // cmp    rsi, 31
-	JBE  LBB0_3
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0xe0e18349         // and    r9, -32
-	JE   LBB0_3
-	LONG $0xe0418d4d         // lea    r8, [r9 - 32]
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	WORD $0xe8c1; BYTE $0x05 // shr    eax, 5
-	WORD $0xc0ff             // inc    eax
-	LONG $0x07e08348         // and    rax, 7
-	JE   LBB0_8
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	LONG $0xc0effdc5         // vpxor    ymm0, ymm0, ymm0
-	WORD $0xc931             // xor    ecx, ecx
-	LONG $0xc9eff5c5         // vpxor    ymm1, ymm1, ymm1
-	LONG $0xd2efedc5         // vpxor    ymm2, ymm2, ymm2
-	LONG $0xdbefe5c5         // vpxor    ymm3, ymm3, ymm3
-	LONG $0xe4efddc5         // vpxor    ymm4, ymm4, ymm4
-	LONG $0xedefd5c5         // vpxor    ymm5, ymm5, ymm5
-	LONG $0xf6efcdc5         // vpxor    ymm6, ymm6, ymm6
-	LONG $0xffefc5c5         // vpxor    ymm7, ymm7, ymm7
-
-LBB0_10:
-	LONG $0x04d4fdc5; BYTE $0xcf         // vpaddq    ymm0, ymm0, yword [rdi + 8*rcx]
-	LONG $0x4cd4f5c5; WORD $0x20cf       // vpaddq    ymm1, ymm1, yword [rdi + 8*rcx + 32]
-	LONG $0x54d4edc5; WORD $0x40cf       // vpaddq    ymm2, ymm2, yword [rdi + 8*rcx + 64]
-	LONG $0x5cd4e5c5; WORD $0x60cf       // vpaddq    ymm3, ymm3, yword [rdi + 8*rcx + 96]
-	QUAD $0x000080cfa4d4ddc5; BYTE $0x00 // vpaddq    ymm4, ymm4, yword [rdi + 8*rcx + 128]
-	QUAD $0x0000a0cfacd4d5c5; BYTE $0x00 // vpaddq    ymm5, ymm5, yword [rdi + 8*rcx + 160]
-	QUAD $0x0000c0cfb4d4cdc5; BYTE $0x00 // vpaddq    ymm6, ymm6, yword [rdi + 8*rcx + 192]
-	QUAD $0x0000e0cfbcd4c5c5; BYTE $0x00 // vpaddq    ymm7, ymm7, yword [rdi + 8*rcx + 224]
-	LONG $0x20c18348                     // add    rcx, 32
-	WORD $0xff48; BYTE $0xc0             // inc    rax
-	JNE  LBB0_10
-	JMP  LBB0_11
-
-LBB0_3:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_4:
-	LONG $0xcf0c8d4a         // lea    rcx, [rdi + 8*r9]
-	WORD $0x294c; BYTE $0xce // sub    rsi, r9
-
-LBB0_5:
-	WORD $0x0348; BYTE $0x01 // add    rax, qword [rcx]
-	LONG $0x08c18348         // add    rcx, 8
-	WORD $0xff48; BYTE $0xce // dec    rsi
-	JNE  LBB0_5
-	JMP  LBB0_15
-
-LBB0_1:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_15:
-	WORD $0x8948; BYTE $0x02 // mov    qword [rdx], rax
-	VZEROUPPER
-	RET
-
-LBB0_8:
-	WORD $0xc931     // xor    ecx, ecx
-	LONG $0xc0effdc5 // vpxor    ymm0, ymm0, ymm0
-	LONG $0xc9eff5c5 // vpxor    ymm1, ymm1, ymm1
-	LONG $0xd2efedc5 // vpxor    ymm2, ymm2, ymm2
-	LONG $0xdbefe5c5 // vpxor    ymm3, ymm3, ymm3
-	LONG $0xe4efddc5 // vpxor    ymm4, ymm4, ymm4
-	LONG $0xedefd5c5 // vpxor    ymm5, ymm5, ymm5
-	LONG $0xf6efcdc5 // vpxor    ymm6, ymm6, ymm6
-	LONG $0xffefc5c5 // vpxor    ymm7, ymm7, ymm7
-
-LBB0_11:
-	LONG $0xe0f88149; WORD $0x0000; BYTE $0x00 // cmp    r8, 224
-	JB   LBB0_14
-	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
-	WORD $0x2948; BYTE $0xc8                   // sub    rax, rcx
-	QUAD $0x00000700cf8c8d48                   // lea    rcx, [rdi + 8*rcx + 1792]
-
-LBB0_13:
-	QUAD $0xfffff9e0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 1568]
-	QUAD $0xfffff9c0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 1600]
-	QUAD $0xfffff9a0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 1632]
-	QUAD $0xfffff980a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 1664]
-	QUAD $0xfffff96099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 1696]
-	QUAD $0xfffff94091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 1728]
-	QUAD $0xfffff92089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 1760]
-	QUAD $0xfffff90081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1792]
-	QUAD $0xfffffa0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1536]
-	QUAD $0xfffffa2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 1504]
-	QUAD $0xfffffa4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 1472]
-	QUAD $0xfffffa6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 1440]
-	QUAD $0xfffffa80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 1408]
-	QUAD $0xfffffaa0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 1376]
-	QUAD $0xfffffac0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 1344]
-	QUAD $0xfffffae0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 1312]
-	QUAD $0xfffffbe0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 1056]
-	QUAD $0xfffffbc0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 1088]
-	QUAD $0xfffffba0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 1120]
-	QUAD $0xfffffb80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 1152]
-	QUAD $0xfffffb6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 1184]
-	QUAD $0xfffffb4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 1216]
-	QUAD $0xfffffb2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 1248]
-	QUAD $0xfffffb0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1280]
-	QUAD $0xfffffc0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 1024]
-	QUAD $0xfffffc2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 992]
-	QUAD $0xfffffc4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 960]
-	QUAD $0xfffffc6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 928]
-	QUAD $0xfffffc80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 896]
-	QUAD $0xfffffca0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 864]
-	QUAD $0xfffffcc0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 832]
-	QUAD $0xfffffce0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 800]
-	QUAD $0xfffffde0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 544]
-	QUAD $0xfffffdc0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 576]
-	QUAD $0xfffffda0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 608]
-	QUAD $0xfffffd80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 640]
-	QUAD $0xfffffd6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 672]
-	QUAD $0xfffffd4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 704]
-	QUAD $0xfffffd2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 736]
-	QUAD $0xfffffd0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 768]
-	QUAD $0xfffffe0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 512]
-	QUAD $0xfffffe2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 480]
-	QUAD $0xfffffe4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 448]
-	QUAD $0xfffffe6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 416]
-	QUAD $0xfffffe80a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx - 384]
-	QUAD $0xfffffea0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx - 352]
-	QUAD $0xfffffec0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx - 320]
-	QUAD $0xfffffee0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx - 288]
-	LONG $0x79d4c5c5; BYTE $0xe0               // vpaddq    ymm7, ymm7, yword [rcx - 32]
-	LONG $0x71d4cdc5; BYTE $0xc0               // vpaddq    ymm6, ymm6, yword [rcx - 64]
-	LONG $0x69d4d5c5; BYTE $0xa0               // vpaddq    ymm5, ymm5, yword [rcx - 96]
-	LONG $0x61d4ddc5; BYTE $0x80               // vpaddq    ymm4, ymm4, yword [rcx - 128]
-	QUAD $0xffffff6099d4e5c5                   // vpaddq    ymm3, ymm3, yword [rcx - 160]
-	QUAD $0xffffff4091d4edc5                   // vpaddq    ymm2, ymm2, yword [rcx - 192]
-	QUAD $0xffffff2089d4f5c5                   // vpaddq    ymm1, ymm1, yword [rcx - 224]
-	QUAD $0xffffff0081d4fdc5                   // vpaddq    ymm0, ymm0, yword [rcx - 256]
-	LONG $0x01d4fdc5                           // vpaddq    ymm0, ymm0, yword [rcx]
-	LONG $0x49d4f5c5; BYTE $0x20               // vpaddq    ymm1, ymm1, yword [rcx + 32]
-	LONG $0x51d4edc5; BYTE $0x40               // vpaddq    ymm2, ymm2, yword [rcx + 64]
-	LONG $0x59d4e5c5; BYTE $0x60               // vpaddq    ymm3, ymm3, yword [rcx + 96]
-	QUAD $0x00000080a1d4ddc5                   // vpaddq    ymm4, ymm4, yword [rcx + 128]
-	QUAD $0x000000a0a9d4d5c5                   // vpaddq    ymm5, ymm5, yword [rcx + 160]
-	QUAD $0x000000c0b1d4cdc5                   // vpaddq    ymm6, ymm6, yword [rcx + 192]
-	QUAD $0x000000e0b9d4c5c5                   // vpaddq    ymm7, ymm7, yword [rcx + 224]
-	LONG $0x00c18148; WORD $0x0008; BYTE $0x00 // add    rcx, 2048
-	LONG $0xff000548; WORD $0xffff             // add    rax, -256
-	JNE  LBB0_13
-
-LBB0_14:
-	LONG $0xcdd4f5c5               // vpaddq    ymm1, ymm1, ymm5
-	LONG $0xdfd4e5c5               // vpaddq    ymm3, ymm3, ymm7
-	LONG $0xc4d4fdc5               // vpaddq    ymm0, ymm0, ymm4
-	LONG $0xd6d4edc5               // vpaddq    ymm2, ymm2, ymm6
-	LONG $0xc2d4fdc5               // vpaddq    ymm0, ymm0, ymm2
-	LONG $0xcbd4f5c5               // vpaddq    ymm1, ymm1, ymm3
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0xc870f9c5; BYTE $0x4e   // vpshufd    xmm1, xmm0, 78
-	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
-	JNE  LBB0_4
-	JMP  LBB0_15
diff --git a/go/arrow/math/uint64_neon_arm64.go b/go/arrow/math/uint64_neon_arm64.go
deleted file mode 100755
index b83ca85e55701..0000000000000
--- a/go/arrow/math/uint64_neon_arm64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_arm64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_uint64_neon(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_uint64_neon(a *array.Uint64) uint64 {
-	buf := a.Uint64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res uint64
-	)
-	_sum_uint64_neon(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/uint64_neon_arm64.s b/go/arrow/math/uint64_neon_arm64.s
deleted file mode 100755
index edbc1a630789b..0000000000000
--- a/go/arrow/math/uint64_neon_arm64.s
+++ /dev/null
@@ -1,58 +0,0 @@
-//+build !noasm !appengine
-
-// ARROW-15172:
-// (C2GOASM doesn't work correctly for Arm64)
-// Partly GENERATED BY asm2plan9s.
-
-// func _sum_uint64_neon(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-TEXT ·_sum_uint64_neon(SB), $0-24
-
-	MOVD	buf+0(FP), R0
-	MOVD	len+8(FP), R1
-	MOVD	res+16(FP), R2
-    
-	WORD $0xa9bf7bfd // stp x29, x30, [sp, #-16]!
-	WORD $0x910003fd // mov x29, sp
-	CBZ R1, LBB0_3
-	WORD $0xf1000c3f // cmp x1, #3
-	BHI LBB0_4
-	WORD $0xaa1f03e8 // mov     x8, xzr
-	WORD $0xaa1f03e9 // mov     x9, xzr
-	JMP LBB0_7
-LBB0_3:
-	WORD $0xaa1f03e9 // mov     x9, xzr
-	WORD $0xf9000049 // str     x9, [x2]
-	WORD $0xa8c17bfd // ldp     x29, x30, [sp], #16
-	RET
-LBB0_4:
-	WORD $0x927ef428 // and     x8, x1, #0xfffffffffffffffc
-	WORD $0x91004009 // add     x9, x0, #16
-	WORD $0x6f00e400 // movi    v0.2d, #0000000000000000
-	WORD $0xaa0803ea // mov     x10, x8
-	WORD $0x6f00e401 // movi    v1.2d, #0000000000000000
-LBB0_5:
-	WORD $0xad7f8d22 // ldp     q2, q3, [x9, #-16]
-	WORD $0xf100114a // subs    x10, x10, #4
-	WORD $0x91008129 // add     x9, x9, #32
-	WORD $0x4ee08440 // add     v0.2d, v2.2d, v0.2d
-	WORD $0x4ee18461 // add     v1.2d, v3.2d, v1.2d
-	BNE LBB0_5
-
-	WORD $0x4ee08420 // add     v0.2d, v1.2d, v0.2d
-	WORD $0x5ef1b800 // addp    d0, v0.2d
-	WORD $0xeb01011f // cmp     x8, x1
-	WORD $0x9e660009 // fmov    x9, d0
-	BEQ LBB0_9
-LBB0_7:
-	WORD $0x8b080c0a // add     x10, x0, x8, lsl #3
-	WORD $0xcb080028 // sub     x8, x1, x8
-LBB0_8:
-	WORD $0xf840854b // ldr     x11, [x10], #8
-	WORD $0xf1000508 // subs    x8, x8, #1
-	WORD $0x8b090169 // add     x9, x11, x9
-	BNE LBB0_8
-LBB0_9:
-	WORD $0xf9000049 // str     x9, [x2]
-	WORD $0xa8c17bfd // ldp     x29, x30, [sp], #16
-	RET
-
diff --git a/go/arrow/math/uint64_noasm.go b/go/arrow/math/uint64_noasm.go
deleted file mode 100644
index c40ecc467890b..0000000000000
--- a/go/arrow/math/uint64_noasm.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_noasm.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package math
-
-func initUint64Go() {
-	Uint64.sum = sum_uint64_go
-}
diff --git a/go/arrow/math/uint64_ppc64le.go b/go/arrow/math/uint64_ppc64le.go
deleted file mode 100644
index b6b1c536af40b..0000000000000
--- a/go/arrow/math/uint64_ppc64le.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_ppc64le.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initUint64Go() {
-	Uint64.sum = sum_uint64_go
-}
diff --git a/go/arrow/math/uint64_s390x.go b/go/arrow/math/uint64_s390x.go
deleted file mode 100644
index d6e7da7cf36c9..0000000000000
--- a/go/arrow/math/uint64_s390x.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Code generated by type_s390x.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-func initUint64Go() {
-	Uint64.sum = sum_uint64_go
-}
diff --git a/go/arrow/math/uint64_sse4_amd64.go b/go/arrow/math/uint64_sse4_amd64.go
deleted file mode 100644
index a91ff4e5100d1..0000000000000
--- a/go/arrow/math/uint64_sse4_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Code generated by type_simd_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package math
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-//go:noescape
-func _sum_uint64_sse4(buf unsafe.Pointer, len uintptr, res unsafe.Pointer)
-
-func sum_uint64_sse4(a *array.Uint64) uint64 {
-	buf := a.Uint64Values()
-	var (
-		p1  = unsafe.Pointer(&buf[0])
-		p2  = uintptr(len(buf))
-		res uint64
-	)
-	_sum_uint64_sse4(p1, p2, unsafe.Pointer(&res))
-	return res
-}
diff --git a/go/arrow/math/uint64_sse4_amd64.s b/go/arrow/math/uint64_sse4_amd64.s
deleted file mode 100644
index 1af9cfeb582a9..0000000000000
--- a/go/arrow/math/uint64_sse4_amd64.s
+++ /dev/null
@@ -1,100 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_sum_uint64_sse4(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ res+16(FP), DX
-
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB0_1
-	LONG $0x03fe8348         // cmp    rsi, 3
-	JBE  LBB0_3
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	LONG $0xfce18349         // and    r9, -4
-	JE   LBB0_3
-	LONG $0xfc418d4d         // lea    r8, [r9 - 4]
-	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
-	WORD $0xe8c1; BYTE $0x02 // shr    eax, 2
-	WORD $0xc0ff             // inc    eax
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_8
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
-	WORD $0xc931             // xor    ecx, ecx
-	LONG $0xc9ef0f66         // pxor    xmm1, xmm1
-
-LBB0_10:
-	LONG $0x146f0ff3; BYTE $0xcf   // movdqu    xmm2, oword [rdi + 8*rcx]
-	LONG $0x5c6f0ff3; WORD $0x10cf // movdqu    xmm3, oword [rdi + 8*rcx + 16]
-	LONG $0xc2d40f66               // paddq    xmm0, xmm2
-	LONG $0xcbd40f66               // paddq    xmm1, xmm3
-	LONG $0x04c18348               // add    rcx, 4
-	WORD $0xff48; BYTE $0xc0       // inc    rax
-	JNE  LBB0_10
-	JMP  LBB0_11
-
-LBB0_3:
-	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_4:
-	LONG $0xcf0c8d4a         // lea    rcx, [rdi + 8*r9]
-	WORD $0x294c; BYTE $0xce // sub    rsi, r9
-
-LBB0_5:
-	WORD $0x0348; BYTE $0x01 // add    rax, qword [rcx]
-	LONG $0x08c18348         // add    rcx, 8
-	WORD $0xff48; BYTE $0xce // dec    rsi
-	JNE  LBB0_5
-	JMP  LBB0_15
-
-LBB0_1:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_15:
-	WORD $0x8948; BYTE $0x02 // mov    qword [rdx], rax
-	RET
-
-LBB0_8:
-	WORD $0xc931     // xor    ecx, ecx
-	LONG $0xc0ef0f66 // pxor    xmm0, xmm0
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-
-LBB0_11:
-	LONG $0x0cf88349             // cmp    r8, 12
-	JB   LBB0_14
-	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
-	WORD $0x2948; BYTE $0xc8     // sub    rax, rcx
-	LONG $0xcf4c8d48; BYTE $0x70 // lea    rcx, [rdi + 8*rcx + 112]
-
-LBB0_13:
-	LONG $0x516f0ff3; BYTE $0x90 // movdqu    xmm2, oword [rcx - 112]
-	LONG $0x596f0ff3; BYTE $0xa0 // movdqu    xmm3, oword [rcx - 96]
-	LONG $0x616f0ff3; BYTE $0xb0 // movdqu    xmm4, oword [rcx - 80]
-	LONG $0x696f0ff3; BYTE $0xc0 // movdqu    xmm5, oword [rcx - 64]
-	LONG $0xd0d40f66             // paddq    xmm2, xmm0
-	LONG $0xd9d40f66             // paddq    xmm3, xmm1
-	LONG $0x716f0ff3; BYTE $0xd0 // movdqu    xmm6, oword [rcx - 48]
-	LONG $0x796f0ff3; BYTE $0xe0 // movdqu    xmm7, oword [rcx - 32]
-	LONG $0xf4d40f66             // paddq    xmm6, xmm4
-	LONG $0xf2d40f66             // paddq    xmm6, xmm2
-	LONG $0xfdd40f66             // paddq    xmm7, xmm5
-	LONG $0xfbd40f66             // paddq    xmm7, xmm3
-	LONG $0x416f0ff3; BYTE $0xf0 // movdqu    xmm0, oword [rcx - 16]
-	LONG $0x096f0ff3             // movdqu    xmm1, oword [rcx]
-	LONG $0xc6d40f66             // paddq    xmm0, xmm6
-	LONG $0xcfd40f66             // paddq    xmm1, xmm7
-	LONG $0x80e98348             // sub    rcx, -128
-	LONG $0xf0c08348             // add    rax, -16
-	JNE  LBB0_13
-
-LBB0_14:
-	LONG $0xc1d40f66             // paddq    xmm0, xmm1
-	LONG $0xc8700f66; BYTE $0x4e // pshufd    xmm1, xmm0, 78
-	LONG $0xc8d40f66             // paddq    xmm1, xmm0
-	LONG $0x7e0f4866; BYTE $0xc8 // movq    rax, xmm1
-	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
-	JNE  LBB0_4
-	JMP  LBB0_15
diff --git a/go/arrow/math/uint64_test.go b/go/arrow/math/uint64_test.go
deleted file mode 100644
index 20418557b2101..0000000000000
--- a/go/arrow/math/uint64_test.go
+++ /dev/null
@@ -1,86 +0,0 @@
-// Code generated by type_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package math_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/math"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestUint64Funcs_Sum(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	vec := makeArrayUint64(10000, mem)
-	defer vec.Release()
-	res := math.Uint64.Sum(vec)
-	assert.Equal(t, res, uint64(49995000))
-}
-
-func TestUint64Funcs_SumEmpty(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	b := array.NewUint64Builder(mem)
-	defer b.Release()
-	vec := b.NewUint64Array()
-	defer vec.Release()
-	res := math.Uint64.Sum(vec)
-	assert.Equal(t, res, uint64(0))
-}
-
-func makeArrayUint64(l int, mem memory.Allocator) *array.Uint64 {
-	fb := array.NewUint64Builder(mem)
-	defer fb.Release()
-	fb.Reserve(l)
-	for i := 0; i < l; i++ {
-		fb.Append(uint64(i))
-	}
-	return fb.NewUint64Array()
-}
-
-func benchmarkUint64Funcs_Sum(b *testing.B, n int) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(b, 0)
-	vec := makeArrayUint64(n, mem)
-	defer vec.Release()
-	b.SetBytes(int64(vec.Len() * 8))
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		math.Uint64.Sum(vec)
-	}
-}
-
-func BenchmarkUint64Funcs_Sum_256(b *testing.B) {
-	benchmarkUint64Funcs_Sum(b, 256)
-}
-
-func BenchmarkUint64Funcs_Sum_1024(b *testing.B) {
-	benchmarkUint64Funcs_Sum(b, 1024)
-}
-
-func BenchmarkUint64Funcs_Sum_8192(b *testing.B) {
-	benchmarkUint64Funcs_Sum(b, 8192)
-}
-
-func BenchmarkUint64Funcs_Sum_1000000(b *testing.B) {
-	benchmarkUint64Funcs_Sum(b, 1e6)
-}
diff --git a/go/arrow/memory/Makefile b/go/arrow/memory/Makefile
deleted file mode 100644
index 1cc4079c4571e..0000000000000
--- a/go/arrow/memory/Makefile
+++ /dev/null
@@ -1,66 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-GO_BUILD=go build
-GO_GEN=go generate
-GO_TEST=go test
-GOPATH=$(realpath ../../../..)
-
-# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-
-C2GOASM=c2goasm -a -f
-CC=clang
-C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 -fno-asynchronous-unwind-tables \
-	-fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma -mllvm -force-vector-width=32
-ASM_FLAGS_SSE3=-msse3
-ASM_FLAGS_SSE4=-msse4
-
-C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
-	-fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-
-INTEL_SOURCES := \
-	memory_avx2_amd64.s memory_sse4_amd64.s
-
-.PHONEY: assembly
-
-#
-# ARROW-15320: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
-# memory_neon_arm64.s were generated by asm2plan9s.
-# And manually formatted it as the Arm64 Plan9.
-#
-
-assembly: $(INTEL_SOURCES)
-
-_lib/memory_avx2.s: _lib/memory.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/memory_sse4.s: _lib/memory.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/memory_neon.s: _lib/memory.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-memory_avx2_amd64.s: _lib/memory_avx2.s
-	$(C2GOASM) -a -f $^ $@
-
-memory_sse4_amd64.s: _lib/memory_sse4.s
-	$(C2GOASM) -a -f $^ $@
diff --git a/go/arrow/memory/_lib/.gitignore b/go/arrow/memory/_lib/.gitignore
deleted file mode 100644
index 72757d396c0a0..0000000000000
--- a/go/arrow/memory/_lib/.gitignore
+++ /dev/null
@@ -1,18 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-.idea
-cmake-build-*
\ No newline at end of file
diff --git a/go/arrow/memory/_lib/CMakeLists.txt b/go/arrow/memory/_lib/CMakeLists.txt
deleted file mode 100644
index 6126acd7c67f0..0000000000000
--- a/go/arrow/memory/_lib/CMakeLists.txt
+++ /dev/null
@@ -1,22 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-cmake_minimum_required(VERSION 3.6)
-
-project(memory-func)
-set(CMAKE_C_STANDARD 99)
-
-add_library(memory STATIC memory.c)
diff --git a/go/arrow/memory/_lib/arch.h b/go/arrow/memory/_lib/arch.h
deleted file mode 100644
index 6e5a519b21c7b..0000000000000
--- a/go/arrow/memory/_lib/arch.h
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#undef FULL_NAME
-
-#if  defined(__AVX2__)
-    #define FULL_NAME(x) x##_avx2
-#elif __SSE4_2__ == 1
-    #define FULL_NAME(x) x##_sse4
-#elif __SSE3__ == 1
-    #define FULL_NAME(x) x##_sse3
-#elif defined(__ARM_NEON) || defined(__ARM_NEON__)
-    #define FULL_NAME(x) x##_neon
-#else
-    #define FULL_NAME(x) x##_x86
-#endif
\ No newline at end of file
diff --git a/go/arrow/memory/_lib/memory.c b/go/arrow/memory/_lib/memory.c
deleted file mode 100644
index 3b03a21d3c8f9..0000000000000
--- a/go/arrow/memory/_lib/memory.c
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <memory.h>
-
-void FULL_NAME(memset)(void *buf, size_t len, int v) {
-    char *bytes = buf;
-    char *end   = buf+len;
-    const char val = v;
-    while (bytes < end) {
-        *bytes++ = val;
-    }
-}
diff --git a/go/arrow/memory/_lib/memory_avx2.s b/go/arrow/memory/_lib/memory_avx2.s
deleted file mode 100644
index f53fa15c5eff1..0000000000000
--- a/go/arrow/memory/_lib/memory_avx2.s
+++ /dev/null
@@ -1,97 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/memory.c"
-	.globl	memset_avx2
-	.p2align	4, 0x90
-	.type	memset_avx2,@function
-memset_avx2:                            # @memset_avx2
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	lea	r11, [rdi + rsi]
-	cmp	r11, rdi
-	jbe	.LBB0_13
-# BB#1:
-	cmp	rsi, 128
-	jb	.LBB0_12
-# BB#2:
-	mov	r8, rsi
-	and	r8, -128
-	mov	r10, rsi
-	and	r10, -128
-	je	.LBB0_12
-# BB#3:
-	vmovd	xmm0, edx
-	vpbroadcastb	ymm0, xmm0
-	lea	r9, [r10 - 128]
-	mov	eax, r9d
-	shr	eax, 7
-	inc	eax
-	and	rax, 3
-	je	.LBB0_4
-# BB#5:
-	neg	rax
-	xor	ecx, ecx
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymmword ptr [rdi + rcx], ymm0
-	vmovdqu	ymmword ptr [rdi + rcx + 32], ymm0
-	vmovdqu	ymmword ptr [rdi + rcx + 64], ymm0
-	vmovdqu	ymmword ptr [rdi + rcx + 96], ymm0
-	sub	rcx, -128
-	inc	rax
-	jne	.LBB0_6
-	jmp	.LBB0_7
-.LBB0_4:
-	xor	ecx, ecx
-.LBB0_7:
-	cmp	r9, 384
-	jb	.LBB0_10
-# BB#8:
-	mov	rax, r10
-	sub	rax, rcx
-	lea	rcx, [rdi + rcx + 480]
-	.p2align	4, 0x90
-.LBB0_9:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymmword ptr [rcx - 480], ymm0
-	vmovdqu	ymmword ptr [rcx - 448], ymm0
-	vmovdqu	ymmword ptr [rcx - 416], ymm0
-	vmovdqu	ymmword ptr [rcx - 384], ymm0
-	vmovdqu	ymmword ptr [rcx - 352], ymm0
-	vmovdqu	ymmword ptr [rcx - 320], ymm0
-	vmovdqu	ymmword ptr [rcx - 288], ymm0
-	vmovdqu	ymmword ptr [rcx - 256], ymm0
-	vmovdqu	ymmword ptr [rcx - 224], ymm0
-	vmovdqu	ymmword ptr [rcx - 192], ymm0
-	vmovdqu	ymmword ptr [rcx - 160], ymm0
-	vmovdqu	ymmword ptr [rcx - 128], ymm0
-	vmovdqu	ymmword ptr [rcx - 96], ymm0
-	vmovdqu	ymmword ptr [rcx - 64], ymm0
-	vmovdqu	ymmword ptr [rcx - 32], ymm0
-	vmovdqu	ymmword ptr [rcx], ymm0
-	add	rcx, 512
-	add	rax, -512
-	jne	.LBB0_9
-.LBB0_10:
-	cmp	r10, rsi
-	je	.LBB0_13
-# BB#11:
-	add	rdi, r8
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	mov	byte ptr [rdi], dl
-	inc	rdi
-	cmp	r11, rdi
-	jne	.LBB0_12
-.LBB0_13:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end0:
-	.size	memset_avx2, .Lfunc_end0-memset_avx2
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/memory/_lib/memory_neon.s b/go/arrow/memory/_lib/memory_neon.s
deleted file mode 100644
index f0ac4fe7933bd..0000000000000
--- a/go/arrow/memory/_lib/memory_neon.s
+++ /dev/null
@@ -1,46 +0,0 @@
-	.text
-	.file	"memory.c"
-	.globl	memset_neon             // -- Begin function memset_neon
-	.p2align	2
-	.type	memset_neon,@function
-memset_neon:                            // @memset_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	add	x8, x0, x1
-	cmp	x8, x0
-	mov	x29, sp
-	b.ls	.LBB0_7
-// %bb.1:
-	cmp	x1, #32                 // =32
-	b.hs	.LBB0_3
-// %bb.2:
-	mov	x9, x0
-	b	.LBB0_6
-.LBB0_3:
-	and	x10, x1, #0xffffffffffffffe0
-	dup	v0.16b, w2
-	add	x9, x0, x10
-	add	x11, x0, #16            // =16
-	mov	x12, x10
-.LBB0_4:                                // =>This Inner Loop Header: Depth=1
-	stp	q0, q0, [x11, #-16]
-	subs	x12, x12, #32           // =32
-	add	x11, x11, #32           // =32
-	b.ne	.LBB0_4
-// %bb.5:
-	cmp	x10, x1
-	b.eq	.LBB0_7
-.LBB0_6:                                // =>This Inner Loop Header: Depth=1
-	strb	w2, [x9], #1
-	cmp	x8, x9
-	b.ne	.LBB0_6
-.LBB0_7:
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end0:
-	.size	memset_neon, .Lfunc_end0-memset_neon
-                                        // -- End function
-
-	.ident	"clang version 9.0.1-12 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/arrow/memory/_lib/memory_sse4.s b/go/arrow/memory/_lib/memory_sse4.s
deleted file mode 100644
index 4b44cd31c315f..0000000000000
--- a/go/arrow/memory/_lib/memory_sse4.s
+++ /dev/null
@@ -1,96 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"_lib/memory.c"
-	.globl	memset_sse4
-	.p2align	4, 0x90
-	.type	memset_sse4,@function
-memset_sse4:                            # @memset_sse4
-# BB#0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	lea	r11, [rdi + rsi]
-	cmp	r11, rdi
-	jbe	.LBB0_13
-# BB#1:
-	cmp	rsi, 32
-	jb	.LBB0_12
-# BB#2:
-	mov	r8, rsi
-	and	r8, -32
-	mov	r10, rsi
-	and	r10, -32
-	je	.LBB0_12
-# BB#3:
-	movzx	eax, dl
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	r9, [r10 - 32]
-	mov	ecx, r9d
-	shr	ecx, 5
-	inc	ecx
-	and	rcx, 7
-	je	.LBB0_4
-# BB#5:
-	neg	rcx
-	xor	eax, eax
-	.p2align	4, 0x90
-.LBB0_6:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmmword ptr [rdi + rax], xmm0
-	movdqu	xmmword ptr [rdi + rax + 16], xmm0
-	add	rax, 32
-	inc	rcx
-	jne	.LBB0_6
-	jmp	.LBB0_7
-.LBB0_4:
-	xor	eax, eax
-.LBB0_7:
-	cmp	r9, 224
-	jb	.LBB0_10
-# BB#8:
-	mov	rcx, r10
-	sub	rcx, rax
-	lea	rax, [rdi + rax + 240]
-	.p2align	4, 0x90
-.LBB0_9:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmmword ptr [rax - 240], xmm0
-	movdqu	xmmword ptr [rax - 224], xmm0
-	movdqu	xmmword ptr [rax - 208], xmm0
-	movdqu	xmmword ptr [rax - 192], xmm0
-	movdqu	xmmword ptr [rax - 176], xmm0
-	movdqu	xmmword ptr [rax - 160], xmm0
-	movdqu	xmmword ptr [rax - 144], xmm0
-	movdqu	xmmword ptr [rax - 128], xmm0
-	movdqu	xmmword ptr [rax - 112], xmm0
-	movdqu	xmmword ptr [rax - 96], xmm0
-	movdqu	xmmword ptr [rax - 80], xmm0
-	movdqu	xmmword ptr [rax - 64], xmm0
-	movdqu	xmmword ptr [rax - 48], xmm0
-	movdqu	xmmword ptr [rax - 32], xmm0
-	movdqu	xmmword ptr [rax - 16], xmm0
-	movdqu	xmmword ptr [rax], xmm0
-	add	rax, 256
-	add	rcx, -256
-	jne	.LBB0_9
-.LBB0_10:
-	cmp	r10, rsi
-	je	.LBB0_13
-# BB#11:
-	add	rdi, r8
-	.p2align	4, 0x90
-.LBB0_12:                               # =>This Inner Loop Header: Depth=1
-	mov	byte ptr [rdi], dl
-	inc	rdi
-	cmp	r11, rdi
-	jne	.LBB0_12
-.LBB0_13:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	memset_sse4, .Lfunc_end0-memset_sse4
-
-
-	.ident	"Apple LLVM version 9.0.0 (clang-900.0.39.2)"
-	.section	".note.GNU-stack","",@progbits
diff --git a/go/arrow/memory/allocator.go b/go/arrow/memory/allocator.go
deleted file mode 100644
index 1427190eaacd4..0000000000000
--- a/go/arrow/memory/allocator.go
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-const (
-	alignment = 64
-)
-
-type Allocator interface {
-	Allocate(size int) []byte
-	Reallocate(size int, b []byte) []byte
-	Free(b []byte)
-}
diff --git a/go/arrow/memory/buffer.go b/go/arrow/memory/buffer.go
deleted file mode 100644
index 586ff387f83de..0000000000000
--- a/go/arrow/memory/buffer.go
+++ /dev/null
@@ -1,157 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-import (
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-// Buffer is a wrapper type for a buffer of bytes.
-type Buffer struct {
-	refCount int64
-	buf      []byte
-	length   int
-	mutable  bool
-	mem      Allocator
-
-	parent *Buffer
-}
-
-// NewBufferWithAllocator returns a buffer with the mutable flag set
-// as false. The intention here is to allow wrapping a byte slice along
-// with an allocator as a buffer to track the lifetime via refcounts
-// in order to call Free when the refcount goes to zero.
-//
-// The primary example this is used for, is currently importing data
-// through the c data interface and tracking the lifetime of the
-// imported buffers.
-func NewBufferWithAllocator(data []byte, mem Allocator) *Buffer {
-	return &Buffer{refCount: 1, buf: data, length: len(data), mem: mem}
-}
-
-// NewBufferBytes creates a fixed-size buffer from the specified data.
-func NewBufferBytes(data []byte) *Buffer {
-	return &Buffer{refCount: 0, buf: data, length: len(data)}
-}
-
-// NewResizableBuffer creates a mutable, resizable buffer with an Allocator for managing memory.
-func NewResizableBuffer(mem Allocator) *Buffer {
-	return &Buffer{refCount: 1, mutable: true, mem: mem}
-}
-
-func SliceBuffer(buf *Buffer, offset, length int) *Buffer {
-	buf.Retain()
-	return &Buffer{refCount: 1, parent: buf, buf: buf.Bytes()[offset : offset+length], length: length}
-}
-
-// Parent returns either nil or a pointer to the parent buffer if this buffer
-// was sliced from another.
-func (b *Buffer) Parent() *Buffer { return b.parent }
-
-// Retain increases the reference count by 1.
-func (b *Buffer) Retain() {
-	if b.mem != nil || b.parent != nil {
-		atomic.AddInt64(&b.refCount, 1)
-	}
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-func (b *Buffer) Release() {
-	if b.mem != nil || b.parent != nil {
-		debug.Assert(atomic.LoadInt64(&b.refCount) > 0, "too many releases")
-
-		if atomic.AddInt64(&b.refCount, -1) == 0 {
-			if b.mem != nil {
-				b.mem.Free(b.buf)
-			} else {
-				b.parent.Release()
-				b.parent = nil
-			}
-			b.buf, b.length = nil, 0
-		}
-	}
-}
-
-// Reset resets the buffer for reuse.
-func (b *Buffer) Reset(buf []byte) {
-	if b.parent != nil {
-		b.parent.Release()
-		b.parent = nil
-	}
-	b.buf = buf
-	b.length = len(buf)
-}
-
-// Buf returns the slice of memory allocated by the Buffer, which is adjusted by calling Reserve.
-func (b *Buffer) Buf() []byte { return b.buf }
-
-// Bytes returns a slice of size Len, which is adjusted by calling Resize.
-func (b *Buffer) Bytes() []byte { return b.buf[:b.length] }
-
-// Mutable returns a bool indicating whether the buffer is mutable or not.
-func (b *Buffer) Mutable() bool { return b.mutable }
-
-// Len returns the length of the buffer.
-func (b *Buffer) Len() int { return b.length }
-
-// Cap returns the capacity of the buffer.
-func (b *Buffer) Cap() int { return len(b.buf) }
-
-// Reserve reserves the provided amount of capacity for the buffer.
-func (b *Buffer) Reserve(capacity int) {
-	if capacity > len(b.buf) {
-		newCap := roundUpToMultipleOf64(capacity)
-		if len(b.buf) == 0 {
-			b.buf = b.mem.Allocate(newCap)
-		} else {
-			b.buf = b.mem.Reallocate(newCap, b.buf)
-		}
-	}
-}
-
-// Resize resizes the buffer to the target size.
-func (b *Buffer) Resize(newSize int) {
-	b.resize(newSize, true)
-}
-
-// ResizeNoShrink resizes the buffer to the target size, but will not
-// shrink it.
-func (b *Buffer) ResizeNoShrink(newSize int) {
-	b.resize(newSize, false)
-}
-
-func (b *Buffer) resize(newSize int, shrink bool) {
-	if !shrink || newSize > b.length {
-		b.Reserve(newSize)
-	} else {
-		// Buffer is not growing, so shrink to the requested size without
-		// excess space.
-		newCap := roundUpToMultipleOf64(newSize)
-		if len(b.buf) != newCap {
-			if newSize == 0 {
-				b.mem.Free(b.buf)
-				b.buf = nil
-			} else {
-				b.buf = b.mem.Reallocate(newCap, b.buf)
-			}
-		}
-	}
-	b.length = newSize
-}
diff --git a/go/arrow/memory/buffer_test.go b/go/arrow/memory/buffer_test.go
deleted file mode 100644
index ddc5871c85379..0000000000000
--- a/go/arrow/memory/buffer_test.go
+++ /dev/null
@@ -1,71 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestNewResizableBuffer(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	buf := memory.NewResizableBuffer(mem)
-	buf.Retain() // refCount == 2
-
-	exp := 10
-	buf.Resize(exp)
-	assert.NotNil(t, buf.Bytes())
-	assert.Equal(t, exp, len(buf.Bytes()))
-	assert.Equal(t, exp, buf.Len())
-
-	buf.Release() // refCount == 1
-	assert.NotNil(t, buf.Bytes())
-
-	buf.Release() // refCount == 0
-	assert.Nil(t, buf.Bytes())
-	assert.Zero(t, buf.Len())
-}
-
-func TestBufferReset(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	buf := memory.NewResizableBuffer(mem)
-
-	newBytes := []byte("some-new-bytes")
-	buf.Reset(newBytes)
-	assert.Equal(t, newBytes, buf.Bytes())
-	assert.Equal(t, len(newBytes), buf.Len())
-}
-
-func TestBufferSlice(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	buf := memory.NewResizableBuffer(mem)
-	buf.Resize(1024)
-	assert.Equal(t, 1024, mem.CurrentAlloc())
-
-	slice := memory.SliceBuffer(buf, 512, 256)
-	buf.Release()
-	assert.Equal(t, 1024, mem.CurrentAlloc())
-	slice.Release()
-}
diff --git a/go/arrow/memory/cgo_allocator.go b/go/arrow/memory/cgo_allocator.go
deleted file mode 100644
index c3cb0df47523d..0000000000000
--- a/go/arrow/memory/cgo_allocator.go
+++ /dev/null
@@ -1,108 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo && ccalloc
-// +build cgo,ccalloc
-
-package memory
-
-import (
-	"runtime"
-
-	cga "github.com/apache/arrow/go/v18/arrow/memory/internal/cgoalloc"
-)
-
-// CgoArrowAllocator is an allocator which exposes the C++ memory pool class
-// from the Arrow C++ Library as an allocator for memory buffers to use in Go.
-// The build tag 'ccalloc' must be used in order to include it as it requires
-// linking against the arrow library.
-//
-// The primary reason to use this would be as an allocator when dealing with
-// exporting data across the cdata interface in order to ensure that the memory
-// is allocated safely on the C side so it can be held on the CGO side beyond
-// the context of a single function call. If the memory in use isn't allocated
-// on the C side, then it is not safe for any pointers to data to be held outside
-// of Go beyond the context of a single Cgo function call as it will be invisible
-// to the Go garbage collector and could potentially get moved without being updated.
-//
-// As an alternative, if the arrow C++ libraries aren't available, remember that
-// Allocator is an interface, so anything which can allocate data using C/C++ can
-// be exposed and then used to meet the Allocator interface if wanting to export data
-// across the Cgo interfaces.
-type CgoArrowAllocator struct {
-	pool cga.CGOMemPool
-}
-
-// Allocate does what it says on the tin, allocates a chunk of memory using the underlying
-// memory pool, however CGO calls are 'relatively' expensive, which means doing tons of
-// small allocations can end up being expensive and potentially slower than just using
-// go memory. This means that preallocating via reserve becomes much more important when
-// using this allocator.
-//
-// Future development TODO: look into converting this more into a slab style allocator
-// which amortizes the cost of smaller allocations by allocating bigger chunks of memory
-// and passes them out.
-func (alloc *CgoArrowAllocator) Allocate(size int) []byte {
-	b := cga.CgoPoolAlloc(alloc.pool, size)
-	return b
-}
-
-func (alloc *CgoArrowAllocator) Free(b []byte) {
-	cga.CgoPoolFree(alloc.pool, b)
-}
-
-func (alloc *CgoArrowAllocator) Reallocate(size int, b []byte) []byte {
-	oldSize := len(b)
-	out := cga.CgoPoolRealloc(alloc.pool, size, b)
-
-	if size > oldSize {
-		// zero initialize the slice like go would do normally
-		// C won't zero initialize the memory.
-		Set(out[oldSize:], 0)
-	}
-	return out
-}
-
-// AllocatedBytes returns the current total of bytes that have been allocated by
-// the memory pool on the C++ side.
-func (alloc *CgoArrowAllocator) AllocatedBytes() int64 {
-	return cga.CgoPoolCurBytes(alloc.pool)
-}
-
-// AssertSize can be used for testing to ensure and check that there are no memory
-// leaks using the allocator.
-func (alloc *CgoArrowAllocator) AssertSize(t TestingT, sz int) {
-	cur := alloc.AllocatedBytes()
-	if int64(sz) != cur {
-		t.Helper()
-		t.Errorf("invalid memory size exp=%d, got=%d", sz, cur)
-	}
-}
-
-// NewCgoArrowAllocator creates a new allocator which is backed by the C++ Arrow
-// memory pool object which could potentially be using jemalloc or mimalloc or
-// otherwise as its backend. Memory allocated by this is invisible to the Go
-// garbage collector, and as such care should be taken to avoid any memory leaks.
-//
-// A finalizer is set on the allocator so when the allocator object itself is eventually
-// cleaned up by the garbage collector, it will delete the associated C++ memory pool
-// object. If the build tag 'cclog' is added, then the memory pool will output a log line
-// for every time memory is allocated, freed or reallocated.
-func NewCgoArrowAllocator() *CgoArrowAllocator {
-	alloc := &CgoArrowAllocator{pool: cga.NewCgoArrowAllocator(enableLogging)}
-	runtime.SetFinalizer(alloc, func(a *CgoArrowAllocator) { cga.ReleaseCGOMemPool(a.pool) })
-	return alloc
-}
diff --git a/go/arrow/memory/cgo_allocator_defaults.go b/go/arrow/memory/cgo_allocator_defaults.go
deleted file mode 100644
index 0a2e9a342d37c..0000000000000
--- a/go/arrow/memory/cgo_allocator_defaults.go
+++ /dev/null
@@ -1,22 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo && ccalloc && !cclog
-// +build cgo,ccalloc,!cclog
-
-package memory
-
-const enableLogging = false
diff --git a/go/arrow/memory/cgo_allocator_logging.go b/go/arrow/memory/cgo_allocator_logging.go
deleted file mode 100644
index fe2e3a940ce21..0000000000000
--- a/go/arrow/memory/cgo_allocator_logging.go
+++ /dev/null
@@ -1,22 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo && ccalloc && cclog
-// +build cgo,ccalloc,cclog
-
-package memory
-
-const enableLogging = true
diff --git a/go/arrow/memory/cgo_allocator_test.go b/go/arrow/memory/cgo_allocator_test.go
deleted file mode 100644
index 4c07cc326c87f..0000000000000
--- a/go/arrow/memory/cgo_allocator_test.go
+++ /dev/null
@@ -1,82 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build cgo && ccalloc
-// +build cgo,ccalloc
-
-package memory
-
-import (
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-)
-
-func TestCgoArrowAllocator_Allocate(t *testing.T) {
-	tests := []struct {
-		name string
-		sz   int
-	}{
-		{"lt alignment", 33},
-		{"gt alignment unaligned", 65},
-		{"eq alignment", 64},
-		{"large unaligned", 4097},
-		{"large aligned", 8192},
-	}
-
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			alloc := NewCgoArrowAllocator()
-			buf := alloc.Allocate(test.sz)
-			assert.NotNil(t, buf)
-			assert.Len(t, buf, test.sz)
-
-			alloc.AssertSize(t, test.sz)
-			defer alloc.AssertSize(t, 0)
-			defer alloc.Free(buf)
-		})
-	}
-}
-
-func TestCgoArrowAllocator_Reallocate(t *testing.T) {
-	tests := []struct {
-		name     string
-		sz1, sz2 int
-	}{
-		{"smaller", 200, 100},
-		{"same", 200, 200},
-		{"larger", 200, 300},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			alloc := NewCgoArrowAllocator()
-			buf := alloc.Allocate(test.sz1)
-			for i := range buf {
-				buf[i] = byte(i & 0xFF)
-			}
-
-			exp := make([]byte, test.sz2)
-			copy(exp, buf)
-
-			newBuf := alloc.Reallocate(test.sz2, buf)
-			assert.Equal(t, exp, newBuf)
-
-			alloc.AssertSize(t, test.sz2)
-			defer alloc.AssertSize(t, 0)
-			defer alloc.Free(newBuf)
-		})
-	}
-}
diff --git a/go/arrow/memory/checked_allocator.go b/go/arrow/memory/checked_allocator.go
deleted file mode 100644
index 78a09a57d74ba..0000000000000
--- a/go/arrow/memory/checked_allocator.go
+++ /dev/null
@@ -1,221 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !tinygo
-// +build !tinygo
-
-package memory
-
-import (
-	"fmt"
-	"os"
-	"runtime"
-	"strconv"
-	"strings"
-	"sync"
-	"sync/atomic"
-	"unsafe"
-)
-
-type CheckedAllocator struct {
-	mem Allocator
-	sz  int64
-
-	allocs sync.Map
-}
-
-func NewCheckedAllocator(mem Allocator) *CheckedAllocator {
-	return &CheckedAllocator{mem: mem}
-}
-
-func (a *CheckedAllocator) CurrentAlloc() int { return int(atomic.LoadInt64(&a.sz)) }
-
-func (a *CheckedAllocator) Allocate(size int) []byte {
-	atomic.AddInt64(&a.sz, int64(size))
-	out := a.mem.Allocate(size)
-	if size == 0 {
-		return out
-	}
-
-	ptr := uintptr(unsafe.Pointer(&out[0]))
-	pcs := make([]uintptr, maxRetainedFrames)
-
-	// For historical reasons the meaning of the skip argument
-	// differs between Caller and Callers. For Callers, 0 identifies
-	// the frame for the caller itself. We skip 2 additional frames
-	// here to get to the caller right before the call to Allocate.
-	runtime.Callers(allocFrames+2, pcs)
-	callersFrames := runtime.CallersFrames(pcs)
-	if pc, _, l, ok := runtime.Caller(allocFrames); ok {
-		a.allocs.Store(ptr, &dalloc{pc: pc, line: l, sz: size, callersFrames: callersFrames})
-	}
-	return out
-}
-
-func (a *CheckedAllocator) Reallocate(size int, b []byte) []byte {
-	atomic.AddInt64(&a.sz, int64(size-len(b)))
-
-	oldptr := uintptr(unsafe.Pointer(&b[0]))
-	out := a.mem.Reallocate(size, b)
-	if size == 0 {
-		return out
-	}
-
-	newptr := uintptr(unsafe.Pointer(&out[0]))
-	a.allocs.Delete(oldptr)
-	pcs := make([]uintptr, maxRetainedFrames)
-
-	// For historical reasons the meaning of the skip argument
-	// differs between Caller and Callers. For Callers, 0 identifies
-	// the frame for the caller itself. We skip 2 additional frames
-	// here to get to the caller right before the call to Reallocate.
-	runtime.Callers(reallocFrames+2, pcs)
-	callersFrames := runtime.CallersFrames(pcs)
-	if pc, _, l, ok := runtime.Caller(reallocFrames); ok {
-		a.allocs.Store(newptr, &dalloc{pc: pc, line: l, sz: size, callersFrames: callersFrames})
-	}
-
-	return out
-}
-
-func (a *CheckedAllocator) Free(b []byte) {
-	atomic.AddInt64(&a.sz, int64(len(b)*-1))
-	defer a.mem.Free(b)
-
-	if len(b) == 0 {
-		return
-	}
-
-	ptr := uintptr(unsafe.Pointer(&b[0]))
-	a.allocs.Delete(ptr)
-}
-
-// typically the allocations are happening in memory.Buffer, not by consumers calling
-// allocate/reallocate directly. As a result, we want to skip the caller frames
-// of the inner workings of Buffer in order to find the caller that actually triggered
-// the allocation via a call to Resize/Reserve/etc.
-const (
-	defAllocFrames       = 4
-	defReallocFrames     = 3
-	defMaxRetainedFrames = 0
-)
-
-// Use the environment variables ARROW_CHECKED_ALLOC_FRAMES and ARROW_CHECKED_REALLOC_FRAMES
-// to control how many frames it skips when storing the caller for allocations/reallocs
-// when using this to find memory leaks. Use ARROW_CHECKED_MAX_RETAINED_FRAMES to control how
-// many frames are retained for printing the stack trace of a leak.
-var allocFrames, reallocFrames, maxRetainedFrames int = defAllocFrames, defReallocFrames, defMaxRetainedFrames
-
-func init() {
-	if val, ok := os.LookupEnv("ARROW_CHECKED_ALLOC_FRAMES"); ok {
-		if f, err := strconv.Atoi(val); err == nil {
-			allocFrames = f
-		}
-	}
-
-	if val, ok := os.LookupEnv("ARROW_CHECKED_REALLOC_FRAMES"); ok {
-		if f, err := strconv.Atoi(val); err == nil {
-			reallocFrames = f
-		}
-	}
-
-	if val, ok := os.LookupEnv("ARROW_CHECKED_MAX_RETAINED_FRAMES"); ok {
-		if f, err := strconv.Atoi(val); err == nil {
-			maxRetainedFrames = f
-		}
-	}
-}
-
-type dalloc struct {
-	pc            uintptr
-	line          int
-	sz            int
-	callersFrames *runtime.Frames
-}
-
-type TestingT interface {
-	Errorf(format string, args ...interface{})
-	Helper()
-}
-
-func (a *CheckedAllocator) AssertSize(t TestingT, sz int) {
-	a.allocs.Range(func(_, value interface{}) bool {
-		info := value.(*dalloc)
-		f := runtime.FuncForPC(info.pc)
-		frames := info.callersFrames
-		var callersMsg strings.Builder
-		for {
-			frame, more := frames.Next()
-			if frame.Line == 0 {
-				break
-			}
-			callersMsg.WriteString("\t")
-			// frame.Func is a useful source of information if it's present.
-			// It may be nil for non-Go code or fully inlined functions.
-			if fn := frame.Func; fn != nil {
-				// format as func name + the offset in bytes from func entrypoint
-				callersMsg.WriteString(fmt.Sprintf("%s+%x", fn.Name(), frame.PC-fn.Entry()))
-			} else {
-				// fallback to outer func name + file line
-				callersMsg.WriteString(fmt.Sprintf("%s, line %d", frame.Function, frame.Line))
-			}
-
-			// Write a proper file name + line, so it's really easy to find the leak
-			callersMsg.WriteString("\n\t\t")
-			callersMsg.WriteString(frame.File + ":" + strconv.Itoa(frame.Line))
-			callersMsg.WriteString("\n")
-			if !more {
-				break
-			}
-		}
-
-		file, line := f.FileLine(info.pc)
-		t.Errorf("LEAK of %d bytes FROM\n\t%s+%x\n\t\t%s:%d\n%v",
-			info.sz,
-			f.Name(), info.pc-f.Entry(), // func name + offset in bytes between frame & entrypoint to func
-			file, line, // a proper file name + line, so it's really easy to find the leak
-			callersMsg.String(),
-		)
-		return true
-	})
-
-	if int(atomic.LoadInt64(&a.sz)) != sz {
-		t.Helper()
-		t.Errorf("invalid memory size exp=%d, got=%d", sz, a.sz)
-	}
-}
-
-type CheckedAllocatorScope struct {
-	alloc *CheckedAllocator
-	sz    int
-}
-
-func NewCheckedAllocatorScope(alloc *CheckedAllocator) *CheckedAllocatorScope {
-	sz := atomic.LoadInt64(&alloc.sz)
-	return &CheckedAllocatorScope{alloc: alloc, sz: int(sz)}
-}
-
-func (c *CheckedAllocatorScope) CheckSize(t TestingT) {
-	sz := int(atomic.LoadInt64(&c.alloc.sz))
-	if c.sz != sz {
-		t.Helper()
-		t.Errorf("invalid memory size exp=%d, got=%d", c.sz, sz)
-	}
-}
-
-var (
-	_ Allocator = (*CheckedAllocator)(nil)
-)
diff --git a/go/arrow/memory/default_allocator.go b/go/arrow/memory/default_allocator.go
deleted file mode 100644
index f60caccdb0e52..0000000000000
--- a/go/arrow/memory/default_allocator.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !mallocator || !cgo
-
-package memory
-
-// DefaultAllocator is a default implementation of Allocator and can be used anywhere
-// an Allocator is required.
-//
-// DefaultAllocator is safe to use from multiple goroutines.
-var DefaultAllocator Allocator = NewGoAllocator()
diff --git a/go/arrow/memory/default_mallocator.go b/go/arrow/memory/default_mallocator.go
deleted file mode 100644
index c1a4ed095fadf..0000000000000
--- a/go/arrow/memory/default_mallocator.go
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build mallocator && cgo
-
-package memory
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/memory/mallocator"
-)
-
-// DefaultAllocator is a default implementation of Allocator and can be used anywhere
-// an Allocator is required.
-//
-// DefaultAllocator is safe to use from multiple goroutines.
-var DefaultAllocator Allocator = mallocator.NewMallocator()
diff --git a/go/arrow/memory/default_mallocator_test.go b/go/arrow/memory/default_mallocator_test.go
deleted file mode 100644
index 7667de1111a31..0000000000000
--- a/go/arrow/memory/default_mallocator_test.go
+++ /dev/null
@@ -1,31 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build mallocator && cgo
-
-package memory_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/memory/mallocator"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestDefaultAllocator(t *testing.T) {
-	assert.IsType(t, &mallocator.Mallocator{}, memory.DefaultAllocator)
-}
diff --git a/go/arrow/memory/doc.go b/go/arrow/memory/doc.go
deleted file mode 100644
index 20a28e4e2a466..0000000000000
--- a/go/arrow/memory/doc.go
+++ /dev/null
@@ -1,22 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-/*
-Package memory provides support for allocating and manipulating memory at a low level.
-
-The build tag 'mallocator' will switch the default allocator to one backed by libc malloc. This also requires CGO.
-*/
-package memory
diff --git a/go/arrow/memory/go_allocator.go b/go/arrow/memory/go_allocator.go
deleted file mode 100644
index 1017eb688d2ff..0000000000000
--- a/go/arrow/memory/go_allocator.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-type GoAllocator struct{}
-
-func NewGoAllocator() *GoAllocator { return &GoAllocator{} }
-
-func (a *GoAllocator) Allocate(size int) []byte {
-	buf := make([]byte, size+alignment) // padding for 64-byte alignment
-	addr := int(addressOf(buf))
-	next := roundUpToMultipleOf64(addr)
-	if addr != next {
-		shift := next - addr
-		return buf[shift : size+shift : size+shift]
-	}
-	return buf[:size:size]
-}
-
-func (a *GoAllocator) Reallocate(size int, b []byte) []byte {
-	if cap(b) >= size {
-		return b[:size]
-	}
-	newBuf := a.Allocate(size)
-	copy(newBuf, b)
-	return newBuf
-}
-
-func (a *GoAllocator) Free(b []byte) {}
-
-var (
-	_ Allocator = (*GoAllocator)(nil)
-)
diff --git a/go/arrow/memory/go_allocator_test.go b/go/arrow/memory/go_allocator_test.go
deleted file mode 100644
index d146e301ae575..0000000000000
--- a/go/arrow/memory/go_allocator_test.go
+++ /dev/null
@@ -1,76 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-import (
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-)
-
-func isAlignedTo(addr, alignment int) bool {
-	return addr&(alignment-1) == 0
-}
-
-func TestGoAllocator_Allocate(t *testing.T) {
-	tests := []struct {
-		name string
-		sz   int
-	}{
-		{"lt alignment", 33},
-		{"gt alignment unaligned", 65},
-		{"eq alignment", 64},
-		{"large unaligned", 4097},
-		{"large aligned", 8192},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			a := &GoAllocator{}
-			buf := a.Allocate(test.sz)
-			addr := addressOf(buf)
-			assert.True(t, isAlignedTo(int(addr), alignment))
-			assert.Equal(t, test.sz, len(buf), "invalid len")
-			assert.Equal(t, test.sz, cap(buf), "invalid cap")
-		})
-	}
-}
-
-func TestGoAllocator_Reallocate(t *testing.T) {
-	tests := []struct {
-		name     string
-		sz1, sz2 int
-	}{
-		{"smaller", 200, 100},
-		{"same", 200, 200},
-		{"larger", 200, 300},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			a := &GoAllocator{}
-			buf := a.Allocate(test.sz1)
-			for i := range buf {
-				buf[i] = byte(i & 0xff)
-			}
-
-			exp := make([]byte, test.sz2)
-			copy(exp, buf)
-
-			newBuf := a.Reallocate(test.sz2, buf)
-			assert.Equal(t, exp, newBuf)
-		})
-	}
-}
diff --git a/go/arrow/memory/internal/cgoalloc/allocator.cc b/go/arrow/memory/internal/cgoalloc/allocator.cc
deleted file mode 100644
index b2b0373740dda..0000000000000
--- a/go/arrow/memory/internal/cgoalloc/allocator.cc
+++ /dev/null
@@ -1,71 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-// +build ccalloc
-
-#include "allocator.h"
-#include "arrow/memory_pool.h"
-#include "helpers.h"
-
-struct mem_holder {
-    std::unique_ptr<arrow::MemoryPool> owned_pool;    
-    arrow::MemoryPool* pool;
-};
-
-ArrowMemoryPool arrow_create_memory_pool(bool enable_logging) {
-    auto holder = std::make_shared<mem_holder>();    
-    if (enable_logging) {        
-        holder->owned_pool.reset(new arrow::LoggingMemoryPool(arrow::default_memory_pool()));
-        holder->pool = holder->owned_pool.get();
-    } else {
-        holder->pool = arrow::default_memory_pool();
-    }
-
-    return create_ref(holder);
-}
-
-void arrow_release_pool(ArrowMemoryPool pool) {
-    release_ref<mem_holder>(pool);
-}
-
-int arrow_pool_allocate(ArrowMemoryPool pool, int64_t size, uint8_t** out) {
-    auto holder = retrieve_instance<mem_holder>(pool);
-    auto status = holder->pool->Allocate(size, out);
-    if (!status.ok()) {
-        return 1;
-    }
-    return 0;
-}
-
-void arrow_pool_free(ArrowMemoryPool pool, uint8_t* buffer, int64_t size) {
-    auto holder = retrieve_instance<mem_holder>(pool);
-    holder->pool->Free(buffer, size);
-}
-
-int arrow_pool_reallocate(ArrowMemoryPool pool, int64_t old_size, int64_t new_size, uint8_t** ptr) {
-    auto holder = retrieve_instance<mem_holder>(pool);
-    auto status = holder->pool->Reallocate(old_size, new_size, ptr);
-    if (!status.ok()) {
-        return 1;
-    }
-    return 0;
-}
-
-int64_t arrow_pool_bytes_allocated(ArrowMemoryPool pool) {
-    auto holder = retrieve_instance<mem_holder>(pool);
-    return holder->pool->bytes_allocated();
-}
diff --git a/go/arrow/memory/internal/cgoalloc/allocator.go b/go/arrow/memory/internal/cgoalloc/allocator.go
deleted file mode 100644
index 48f34d86266d2..0000000000000
--- a/go/arrow/memory/internal/cgoalloc/allocator.go
+++ /dev/null
@@ -1,108 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build ccalloc
-// +build ccalloc
-
-package cgoalloc
-
-// #cgo !windows pkg-config: arrow
-// #cgo CXXFLAGS: -std=c++17
-// #cgo windows LDFLAGS:  -larrow
-// #include "allocator.h"
-import "C"
-import (
-	"reflect"
-	"unsafe"
-)
-
-// CGOMemPool is an alias to the typedef'd uintptr from the allocator.h file
-type CGOMemPool = C.ArrowMemoryPool
-
-// CgoPoolAlloc allocates a block of memory of length 'size' using the memory
-// pool that is passed in.
-func CgoPoolAlloc(pool CGOMemPool, size int) []byte {
-	var ret []byte
-	if size == 0 {
-		return ret
-	}
-
-	var out *C.uint8_t
-	C.arrow_pool_allocate(pool, C.int64_t(size), (**C.uint8_t)(unsafe.Pointer(&out)))
-
-	s := (*reflect.SliceHeader)(unsafe.Pointer(&ret))
-	s.Data = uintptr(unsafe.Pointer(out))
-	s.Len = size
-	s.Cap = size
-
-	return ret
-}
-
-// CgoPoolRealloc calls 'reallocate' on the block of memory passed in which must
-// be a slice that was returned by CgoPoolAlloc or CgoPoolRealloc.
-func CgoPoolRealloc(pool CGOMemPool, size int, b []byte) []byte {
-	if len(b) == 0 {
-		return CgoPoolAlloc(pool, size)
-	}
-
-	oldSize := C.int64_t(len(b))
-	data := (*C.uint8_t)(unsafe.Pointer(&b[0]))
-	C.arrow_pool_reallocate(pool, oldSize, C.int64_t(size), &data)
-
-	var ret []byte
-	s := (*reflect.SliceHeader)(unsafe.Pointer(&ret))
-	s.Data = uintptr(unsafe.Pointer(data))
-	s.Len = size
-	s.Cap = size
-
-	return ret
-}
-
-// CgoPoolFree uses the indicated memory pool to free a block of memory. The
-// slice passed in *must* be a slice which was returned by CgoPoolAlloc or
-// CgoPoolRealloc.
-func CgoPoolFree(pool CGOMemPool, b []byte) {
-	if len(b) == 0 {
-		return
-	}
-
-	oldSize := C.int64_t(len(b))
-	data := (*C.uint8_t)(unsafe.Pointer(&b[0]))
-	C.arrow_pool_free(pool, data, oldSize)
-}
-
-// CgoPoolCurBytes returns the current number of bytes allocated by the
-// passed in memory pool.
-func CgoPoolCurBytes(pool CGOMemPool) int64 {
-	return int64(C.arrow_pool_bytes_allocated(pool))
-}
-
-// ReleaseCGOMemPool deletes and frees the memory associated with the
-// passed in memory pool on the C++ side.
-func ReleaseCGOMemPool(pool CGOMemPool) {
-	C.arrow_release_pool(pool)
-}
-
-// NewCgoArrowAllocator constructs a new memory pool in C++ and returns
-// a reference to it which can then be used with the other functions
-// here in order to use it.
-//
-// Optionally if logging is true, a logging proxy will be wrapped around
-// the memory pool so that it will output a line every time memory is
-// allocated, reallocated or freed along with the size of the allocation.
-func NewCgoArrowAllocator(logging bool) CGOMemPool {
-	return C.arrow_create_memory_pool(C.bool(logging))
-}
diff --git a/go/arrow/memory/internal/cgoalloc/allocator.h b/go/arrow/memory/internal/cgoalloc/allocator.h
deleted file mode 100644
index 0c87443754fab..0000000000000
--- a/go/arrow/memory/internal/cgoalloc/allocator.h
+++ /dev/null
@@ -1,39 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#pragma once
-
-#include <stdint.h>
-#include <stdbool.h>
-
-#ifdef __cplusplus
-extern "C" {
-#endif
-
-typedef uintptr_t ArrowMemoryPool;
-
-ArrowMemoryPool arrow_create_memory_pool(bool enable_logging);
-int arrow_pool_allocate(ArrowMemoryPool pool, int64_t size, uint8_t** out);
-int arrow_pool_reallocate(ArrowMemoryPool pool, int64_t old_size, int64_t new_size, uint8_t** ptr);
-void arrow_pool_free(ArrowMemoryPool pool, uint8_t* buffer, int64_t size);
-int64_t arrow_pool_bytes_allocated(ArrowMemoryPool pool);
-void arrow_release_pool(ArrowMemoryPool pool);
-
-
-#ifdef __cplusplus
-}
-#endif
diff --git a/go/arrow/memory/internal/cgoalloc/helpers.h b/go/arrow/memory/internal/cgoalloc/helpers.h
deleted file mode 100644
index fa5feb6a99438..0000000000000
--- a/go/arrow/memory/internal/cgoalloc/helpers.h
+++ /dev/null
@@ -1,52 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#pragma once
-
-#include <cstdint>
-#include <memory>
-
-// helper functions to be included by C++ code for interacting with Cgo
-
-// create_ref will construct a shared_ptr on the heap and return a pointer
-// to it. the returned uintptr_t can then be used with retrieve_instance
-// to get back the shared_ptr and object it refers to. This ensures that
-// the object outlives the exported function so that Go can use it.
-template <typename T>
-uintptr_t create_ref(std::shared_ptr<T> t) {
-    std::shared_ptr<T>* retained_ptr = new std::shared_ptr<T>(t);
-    return reinterpret_cast<uintptr_t>(retained_ptr);
-}
-
-// retrieve_instance is used to get back the shared_ptr which was created with
-// create_ref in order to use it in functions where the caller passes back the
-// uintptr_t so that an object can be managed by C++ while a reference to it
-// is passed around in C/CGO
-template <typename T>
-std::shared_ptr<T> retrieve_instance(uintptr_t ref) {
-    std::shared_ptr<T>* retrieved_ptr = reinterpret_cast<std::shared_ptr<T>*>(ref);
-    return *retrieved_ptr;
-}
-
-// release_ref deletes the shared_ptr that was created by create_ref, freeing the
-// object if it was the last shared_ptr which referenced it as per normal smart_ptr
-// rules.
-template <typename T>
-void release_ref(uintptr_t ref) {
-    std::shared_ptr<T>* retrieved_ptr = reinterpret_cast<std::shared_ptr<T>*>(ref);
-    delete retrieved_ptr;
-}
diff --git a/go/arrow/memory/mallocator/doc.go b/go/arrow/memory/mallocator/doc.go
deleted file mode 100644
index a399d85ee877b..0000000000000
--- a/go/arrow/memory/mallocator/doc.go
+++ /dev/null
@@ -1,21 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-// Package mallocator defines an allocator implementation for
-// memory.Allocator which defers to libc malloc. It requires
-// usage of CGO.
-package mallocator
diff --git a/go/arrow/memory/mallocator/mallocator.go b/go/arrow/memory/mallocator/mallocator.go
deleted file mode 100644
index 9483bdfc2a05f..0000000000000
--- a/go/arrow/memory/mallocator/mallocator.go
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-package mallocator
-
-// #include <stdlib.h>
-// #include <string.h>
-//
-// void* realloc_and_initialize(void* ptr, size_t old_len, size_t new_len) {
-//   void* new_ptr = realloc(ptr, new_len);
-//   if (new_ptr && new_len > old_len) {
-//     memset(new_ptr + old_len, 0, new_len - old_len);
-//   }
-//   return new_ptr;
-// }
-import "C"
-
-import (
-	"sync/atomic"
-	"unsafe"
-)
-
-// Mallocator is an allocator which defers to libc malloc.
-//
-// The primary reason to use this is when exporting data across the C Data
-// Interface. CGO requires that pointers to Go memory are not stored in C
-// memory, which is exactly what the C Data Interface would otherwise
-// require. By allocating with Mallocator up front, we can safely export the
-// buffers in Arrow arrays without copying buffers or violating CGO rules.
-//
-// The build tag 'mallocator' will also make this the default allocator.
-type Mallocator struct {
-	allocatedBytes uint64
-}
-
-func NewMallocator() *Mallocator { return &Mallocator{} }
-
-func (alloc *Mallocator) Allocate(size int) []byte {
-	// Use calloc to zero-initialize memory.
-	// > ...the current implementation may sometimes cause a runtime error if the
-	// > contents of the C memory appear to be a Go pointer. Therefore, avoid
-	// > passing uninitialized C memory to Go code if the Go code is going to store
-	// > pointer values in it. Zero out the memory in C before passing it to Go.
-	if size < 0 {
-		panic("mallocator: negative size")
-	}
-	ptr, err := C.calloc(C.size_t(size), 1)
-	if err != nil {
-		// under some circumstances and allocation patterns, we can end up in a scenario
-		// where for some reason calloc return ENOMEM even though there is definitely memory
-		// available for use. So we attempt to fallback to simply doing malloc + memset in
-		// this case. If malloc returns a nil pointer, then we know we're out of memory
-		// and will surface the error.
-		if ptr = C.malloc(C.size_t(size)); ptr == nil {
-			panic(err)
-		}
-		C.memset(ptr, 0, C.size_t(size))
-	} else if ptr == nil {
-		panic("mallocator: out of memory")
-	}
-
-	atomic.AddUint64(&alloc.allocatedBytes, uint64(size))
-	return unsafe.Slice((*byte)(ptr), size)
-}
-
-func (alloc *Mallocator) Free(b []byte) {
-	sz := len(b)
-	C.free(getPtr(b))
-	// Subtract sh.Len via two's complement (since atomic doesn't offer subtract)
-	atomic.AddUint64(&alloc.allocatedBytes, ^(uint64(sz) - 1))
-}
-
-func (alloc *Mallocator) Reallocate(size int, b []byte) []byte {
-	if size < 0 {
-		panic("mallocator: negative size")
-	}
-	cp := cap(b)
-	ptr, err := C.realloc_and_initialize(getPtr(b), C.size_t(cp), C.size_t(size))
-	if err != nil {
-		panic(err)
-	} else if ptr == nil && size != 0 {
-		panic("mallocator: out of memory")
-	}
-	delta := size - len(b)
-	if delta >= 0 {
-		atomic.AddUint64(&alloc.allocatedBytes, uint64(delta))
-	} else {
-		atomic.AddUint64(&alloc.allocatedBytes, ^(uint64(-delta) - 1))
-	}
-	return unsafe.Slice((*byte)(ptr), size)
-}
-
-func (alloc *Mallocator) AllocatedBytes() int64 {
-	return int64(alloc.allocatedBytes)
-}
-
-// Duplicate interface to avoid circular import
-type TestingT interface {
-	Errorf(format string, args ...interface{})
-	Helper()
-}
-
-func (alloc *Mallocator) AssertSize(t TestingT, sz int) {
-	cur := alloc.AllocatedBytes()
-	if int64(sz) != cur {
-		t.Helper()
-		t.Errorf("invalid memory size exp=%d, got=%d", sz, cur)
-	}
-}
diff --git a/go/arrow/memory/mallocator/mallocator_test.go b/go/arrow/memory/mallocator/mallocator_test.go
deleted file mode 100644
index 5e1482b73697f..0000000000000
--- a/go/arrow/memory/mallocator/mallocator_test.go
+++ /dev/null
@@ -1,127 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-//go:build cgo
-
-package mallocator_test
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory/mallocator"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestMallocatorAllocate(t *testing.T) {
-	sizes := []int{0, 1, 4, 33, 65, 4095, 4096, 8193}
-	for _, size := range sizes {
-		t.Run(fmt.Sprint(size), func(t *testing.T) {
-			a := mallocator.NewMallocator()
-			buf := a.Allocate(size)
-			defer a.Free(buf)
-
-			assert.Equal(t, size, len(buf))
-			assert.LessOrEqual(t, size, cap(buf))
-			// check 0-initialized
-			for idx, c := range buf {
-				assert.Equal(t, uint8(0), c, fmt.Sprintf("Buf not zero-initialized at %d", idx))
-			}
-		})
-	}
-}
-
-func TestMallocatorReallocate(t *testing.T) {
-	sizes := []struct {
-		before, after int
-	}{
-		{0, 1},
-		{1, 0},
-		{1, 2},
-		{1, 33},
-		{4, 4},
-		{32, 16},
-		{32, 1},
-	}
-	for _, test := range sizes {
-		t.Run(fmt.Sprintf("%dTo%d", test.before, test.after), func(t *testing.T) {
-			a := mallocator.NewMallocator()
-			buf := a.Allocate(test.before)
-
-			assert.Equal(t, test.before, len(buf))
-			assert.LessOrEqual(t, test.before, cap(buf))
-			// check 0-initialized
-			for idx, c := range buf {
-				assert.Equal(t, uint8(0), c, fmt.Sprintf("Buf not zero-initialized at %d", idx))
-			}
-
-			buf = a.Reallocate(test.after, buf)
-			defer a.Free(buf)
-			assert.Equal(t, test.after, len(buf))
-			assert.LessOrEqual(t, test.after, cap(buf))
-			// check 0-initialized
-			for idx, c := range buf {
-				assert.Equal(t, uint8(0), c, fmt.Sprintf("Buf not zero-initialized at %d", idx))
-			}
-		})
-	}
-}
-
-func TestMallocatorAssertSize(t *testing.T) {
-	a := mallocator.NewMallocator()
-	assert.Equal(t, int64(0), a.AllocatedBytes())
-
-	buf1 := a.Allocate(64)
-	a.AssertSize(t, 64)
-
-	buf2 := a.Allocate(128)
-	a.AssertSize(t, 192)
-	assert.Equal(t, int64(192), a.AllocatedBytes())
-
-	a.Free(buf1)
-	a.AssertSize(t, 128)
-	assert.Equal(t, int64(128), a.AllocatedBytes())
-
-	buf2 = a.Reallocate(256, buf2)
-	a.AssertSize(t, 256)
-	assert.Equal(t, int64(256), a.AllocatedBytes())
-
-	buf2 = a.Reallocate(64, buf2)
-	a.AssertSize(t, 64)
-	assert.Equal(t, int64(64), a.AllocatedBytes())
-
-	a.Free(buf2)
-	a.AssertSize(t, 0)
-	assert.Equal(t, int64(0), a.AllocatedBytes())
-}
-
-func TestMallocatorAllocateNegative(t *testing.T) {
-	a := mallocator.NewMallocator()
-	assert.PanicsWithValue(t, "mallocator: negative size", func() {
-		a.Allocate(-1)
-	})
-}
-
-func TestMallocatorReallocateNegative(t *testing.T) {
-	a := mallocator.NewMallocator()
-	buf := a.Allocate(1)
-	defer a.Free(buf)
-
-	assert.PanicsWithValue(t, "mallocator: negative size", func() {
-		a.Reallocate(-1, buf)
-	})
-}
diff --git a/go/arrow/memory/mallocator/mallocator_util.go b/go/arrow/memory/mallocator/mallocator_util.go
deleted file mode 100644
index 0ab5f8f515e17..0000000000000
--- a/go/arrow/memory/mallocator/mallocator_util.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-//go:build go1.20 || tinygo
-
-package mallocator
-
-import "unsafe"
-
-func getPtr(b []byte) unsafe.Pointer {
-	return unsafe.Pointer(unsafe.SliceData(b))
-}
diff --git a/go/arrow/memory/memory.go b/go/arrow/memory/memory.go
deleted file mode 100644
index 43627f5ed18ba..0000000000000
--- a/go/arrow/memory/memory.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-var (
-	memset func(b []byte, c byte) = memory_memset_go
-)
-
-// Set assigns the value c to every element of the slice buf.
-func Set(buf []byte, c byte) {
-	memset(buf, c)
-}
-
-// memory_memset_go reference implementation
-func memory_memset_go(buf []byte, c byte) {
-	for i := 0; i < len(buf); i++ {
-		buf[i] = c
-	}
-}
diff --git a/go/arrow/memory/memory_amd64.go b/go/arrow/memory/memory_amd64.go
deleted file mode 100644
index 895ddc07cf81f..0000000000000
--- a/go/arrow/memory/memory_amd64.go
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package memory
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		memset = memory_memset_avx2
-	} else if cpu.X86.HasSSE42 {
-		memset = memory_memset_sse4
-	} else {
-		memset = memory_memset_go
-	}
-}
diff --git a/go/arrow/memory/memory_arm64.go b/go/arrow/memory/memory_arm64.go
deleted file mode 100755
index 5260334958526..0000000000000
--- a/go/arrow/memory/memory_arm64.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package memory
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.ARM64.HasASIMD {
-		memset = memory_memset_neon
-	} else {
-		memset = memory_memset_go
-	}
-}
diff --git a/go/arrow/memory/memory_avx2_amd64.go b/go/arrow/memory/memory_avx2_amd64.go
deleted file mode 100644
index 39fb3a5f7692f..0000000000000
--- a/go/arrow/memory/memory_avx2_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package memory
-
-import "unsafe"
-
-//go:noescape
-func _memset_avx2(buf unsafe.Pointer, len, c uintptr)
-
-func memory_memset_avx2(buf []byte, c byte) {
-	if len(buf) == 0 {
-		return
-	}
-
-	var (
-		p1 = unsafe.Pointer(&buf[0])
-		p2 = uintptr(len(buf))
-		p3 = uintptr(c)
-	)
-	if len(buf) > 2000 || isMultipleOfPowerOf2(len(buf), 256) {
-		_memset_avx2(p1, p2, p3)
-	} else {
-		_memset_sse4(p1, p2, p3)
-	}
-}
diff --git a/go/arrow/memory/memory_avx2_amd64.s b/go/arrow/memory/memory_avx2_amd64.s
deleted file mode 100644
index 2a77807cb27c3..0000000000000
--- a/go/arrow/memory/memory_avx2_amd64.s
+++ /dev/null
@@ -1,85 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_memset_avx2(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ c+16(FP), DX
-
-	LONG $0x371c8d4c                           // lea    r11, [rdi + rsi]
-	WORD $0x3949; BYTE $0xfb                   // cmp    r11, rdi
-	JBE  LBB0_13
-	LONG $0x80fe8148; WORD $0x0000; BYTE $0x00 // cmp    rsi, 128
-	JB   LBB0_12
-	WORD $0x8949; BYTE $0xf0                   // mov    r8, rsi
-	LONG $0x80e08349                           // and    r8, -128
-	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
-	LONG $0x80e28349                           // and    r10, -128
-	JE   LBB0_12
-	LONG $0xc26ef9c5                           // vmovd    xmm0, edx
-	LONG $0x787de2c4; BYTE $0xc0               // vpbroadcastb    ymm0, xmm0
-	LONG $0x804a8d4d                           // lea    r9, [r10 - 128]
-	WORD $0x8944; BYTE $0xc8                   // mov    eax, r9d
-	WORD $0xe8c1; BYTE $0x07                   // shr    eax, 7
-	WORD $0xc0ff                               // inc    eax
-	LONG $0x03e08348                           // and    rax, 3
-	JE   LBB0_4
-	WORD $0xf748; BYTE $0xd8                   // neg    rax
-	WORD $0xc931                               // xor    ecx, ecx
-
-LBB0_6:
-	LONG $0x047ffec5; BYTE $0x0f   // vmovdqu    yword [rdi + rcx], ymm0
-	LONG $0x447ffec5; WORD $0x200f // vmovdqu    yword [rdi + rcx + 32], ymm0
-	LONG $0x447ffec5; WORD $0x400f // vmovdqu    yword [rdi + rcx + 64], ymm0
-	LONG $0x447ffec5; WORD $0x600f // vmovdqu    yword [rdi + rcx + 96], ymm0
-	LONG $0x80e98348               // sub    rcx, -128
-	WORD $0xff48; BYTE $0xc0       // inc    rax
-	JNE  LBB0_6
-	JMP  LBB0_7
-
-LBB0_4:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB0_7:
-	LONG $0x80f98149; WORD $0x0001; BYTE $0x00 // cmp    r9, 384
-	JB   LBB0_10
-	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
-	WORD $0x2948; BYTE $0xc8                   // sub    rax, rcx
-	QUAD $0x000001e00f8c8d48                   // lea    rcx, [rdi + rcx + 480]
-
-LBB0_9:
-	QUAD $0xfffffe20817ffec5                   // vmovdqu    yword [rcx - 480], ymm0
-	QUAD $0xfffffe40817ffec5                   // vmovdqu    yword [rcx - 448], ymm0
-	QUAD $0xfffffe60817ffec5                   // vmovdqu    yword [rcx - 416], ymm0
-	QUAD $0xfffffe80817ffec5                   // vmovdqu    yword [rcx - 384], ymm0
-	QUAD $0xfffffea0817ffec5                   // vmovdqu    yword [rcx - 352], ymm0
-	QUAD $0xfffffec0817ffec5                   // vmovdqu    yword [rcx - 320], ymm0
-	QUAD $0xfffffee0817ffec5                   // vmovdqu    yword [rcx - 288], ymm0
-	QUAD $0xffffff00817ffec5                   // vmovdqu    yword [rcx - 256], ymm0
-	QUAD $0xffffff20817ffec5                   // vmovdqu    yword [rcx - 224], ymm0
-	QUAD $0xffffff40817ffec5                   // vmovdqu    yword [rcx - 192], ymm0
-	QUAD $0xffffff60817ffec5                   // vmovdqu    yword [rcx - 160], ymm0
-	LONG $0x417ffec5; BYTE $0x80               // vmovdqu    yword [rcx - 128], ymm0
-	LONG $0x417ffec5; BYTE $0xa0               // vmovdqu    yword [rcx - 96], ymm0
-	LONG $0x417ffec5; BYTE $0xc0               // vmovdqu    yword [rcx - 64], ymm0
-	LONG $0x417ffec5; BYTE $0xe0               // vmovdqu    yword [rcx - 32], ymm0
-	LONG $0x017ffec5                           // vmovdqu    yword [rcx], ymm0
-	LONG $0x00c18148; WORD $0x0002; BYTE $0x00 // add    rcx, 512
-	LONG $0xfe000548; WORD $0xffff             // add    rax, -512
-	JNE  LBB0_9
-
-LBB0_10:
-	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
-	JE   LBB0_13
-	WORD $0x014c; BYTE $0xc7 // add    rdi, r8
-
-LBB0_12:
-	WORD $0x1788             // mov    byte [rdi], dl
-	WORD $0xff48; BYTE $0xc7 // inc    rdi
-	WORD $0x3949; BYTE $0xfb // cmp    r11, rdi
-	JNE  LBB0_12
-
-LBB0_13:
-	VZEROUPPER
-	RET
diff --git a/go/arrow/memory/memory_js_wasm.go b/go/arrow/memory/memory_js_wasm.go
deleted file mode 100644
index 5cc0c84d39ee7..0000000000000
--- a/go/arrow/memory/memory_js_wasm.go
+++ /dev/null
@@ -1,24 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build wasm
-// +build wasm
-
-package memory
-
-func init() {
-	memset = memory_memset_go
-}
diff --git a/go/arrow/memory/memory_neon_arm64.go b/go/arrow/memory/memory_neon_arm64.go
deleted file mode 100755
index 806ca575f22dd..0000000000000
--- a/go/arrow/memory/memory_neon_arm64.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package memory
-
-import "unsafe"
-
-//go:noescape
-func _memset_neon(buf unsafe.Pointer, len, c uintptr)
-
-func memory_memset_neon(buf []byte, c byte) {
-	if len(buf) == 0 {
-		return
-	}
-	_memset_neon(unsafe.Pointer(&buf[0]), uintptr(len(buf)), uintptr(c))
-}
diff --git a/go/arrow/memory/memory_neon_arm64.s b/go/arrow/memory/memory_neon_arm64.s
deleted file mode 100755
index 18655cc7a25c7..0000000000000
--- a/go/arrow/memory/memory_neon_arm64.s
+++ /dev/null
@@ -1,43 +0,0 @@
-//+build !noasm !appengine
-
-// ARROW-15320:
-// (C2GOASM doesn't work correctly for Arm64)
-// Partly GENERATED BY asm2plan9s.
-
-// func _memset_neon(buf unsafe.Pointer, len, c uintptr)
-TEXT ·_memset_neon(SB), $0-24
-
-	MOVD	buf+0(FP), R0
-	MOVD	len+8(FP), R1
-	MOVD	c+16(FP), R2
-
-	WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
-	WORD $0x8b010008 // add    x8, x0, x1
-	WORD $0xeb00011f // cmp    x8, x0
-	WORD $0x910003fd // mov    x29, sp
-	BLS	LBB0_7
-
-	WORD $0xf100803f // cmp    x1, #32
-	BHS	LBB0_3
-	WORD $0xaa0003e9 // mov    x9, x0
-	JMP	LBB0_6
-LBB0_3:
-	WORD $0x927be82a // and    x10, x1, #0xffffffffffffffe0
-	WORD $0x4e010c40 // dup    v0.16b, w2
-	WORD $0x8b0a0009 // add    x9, x0, x10
-	WORD $0x9100400b // add    x11, x0, #16
-	WORD $0xaa0a03ec // mov    x12, x10
-LBB0_4:
-	WORD $0xad3f8160 // stp    q0, q0, [x11, #-16]
-	WORD $0xf100818c // subs    x12, x12, #32
-	WORD $0x9100816b // add    x11, x11, #32
-	BNE	LBB0_4
-	WORD $0xeb01015f // cmp    x10, x1
-	BEQ	LBB0_7
-LBB0_6:
-	WORD $0x38001522 // strb    w2, [x9], #1
-	WORD $0xeb09011f // cmp    x8, x9
-	BNE	LBB0_6
-LBB0_7:
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
diff --git a/go/arrow/memory/memory_noasm.go b/go/arrow/memory/memory_noasm.go
deleted file mode 100644
index 44f19c091c7e0..0000000000000
--- a/go/arrow/memory/memory_noasm.go
+++ /dev/null
@@ -1,24 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package memory
-
-func init() {
-	memset = memory_memset_go
-}
diff --git a/go/arrow/memory/memory_sse4_amd64.go b/go/arrow/memory/memory_sse4_amd64.go
deleted file mode 100644
index 1711a1ee3eaf7..0000000000000
--- a/go/arrow/memory/memory_sse4_amd64.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package memory
-
-import "unsafe"
-
-//go:noescape
-func _memset_sse4(buf unsafe.Pointer, len, c uintptr)
-
-func memory_memset_sse4(buf []byte, c byte) {
-	if len(buf) == 0 {
-		return
-	}
-	_memset_sse4(unsafe.Pointer(&buf[0]), uintptr(len(buf)), uintptr(c))
-}
diff --git a/go/arrow/memory/memory_sse4_amd64.s b/go/arrow/memory/memory_sse4_amd64.s
deleted file mode 100644
index b1906f99b7161..0000000000000
--- a/go/arrow/memory/memory_sse4_amd64.s
+++ /dev/null
@@ -1,84 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_memset_sse4(SB), $0-24
-
-	MOVQ buf+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ c+16(FP), DX
-
-	LONG $0x371c8d4c             // lea    r11, [rdi + rsi]
-	WORD $0x3949; BYTE $0xfb     // cmp    r11, rdi
-	JBE  LBB0_13
-	LONG $0x20fe8348             // cmp    rsi, 32
-	JB   LBB0_12
-	WORD $0x8949; BYTE $0xf0     // mov    r8, rsi
-	LONG $0xe0e08349             // and    r8, -32
-	WORD $0x8949; BYTE $0xf2     // mov    r10, rsi
-	LONG $0xe0e28349             // and    r10, -32
-	JE   LBB0_12
-	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04a8d4d             // lea    r9, [r10 - 32]
-	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
-	WORD $0xe9c1; BYTE $0x05     // shr    ecx, 5
-	WORD $0xc1ff                 // inc    ecx
-	LONG $0x07e18348             // and    rcx, 7
-	JE   LBB0_4
-	WORD $0xf748; BYTE $0xd9     // neg    rcx
-	WORD $0xc031                 // xor    eax, eax
-
-LBB0_6:
-	LONG $0x047f0ff3; BYTE $0x07   // movdqu    oword [rdi + rax], xmm0
-	LONG $0x447f0ff3; WORD $0x1007 // movdqu    oword [rdi + rax + 16], xmm0
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0xff48; BYTE $0xc1       // inc    rcx
-	JNE  LBB0_6
-	JMP  LBB0_7
-
-LBB0_4:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_7:
-	LONG $0xe0f98149; WORD $0x0000; BYTE $0x00 // cmp    r9, 224
-	JB   LBB0_10
-	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
-	WORD $0x2948; BYTE $0xc1                   // sub    rcx, rax
-	QUAD $0x000000f007848d48                   // lea    rax, [rdi + rax + 240]
-
-LBB0_9:
-	QUAD $0xffffff10807f0ff3                   // movdqu    oword [rax - 240], xmm0
-	QUAD $0xffffff20807f0ff3                   // movdqu    oword [rax - 224], xmm0
-	QUAD $0xffffff30807f0ff3                   // movdqu    oword [rax - 208], xmm0
-	QUAD $0xffffff40807f0ff3                   // movdqu    oword [rax - 192], xmm0
-	QUAD $0xffffff50807f0ff3                   // movdqu    oword [rax - 176], xmm0
-	QUAD $0xffffff60807f0ff3                   // movdqu    oword [rax - 160], xmm0
-	QUAD $0xffffff70807f0ff3                   // movdqu    oword [rax - 144], xmm0
-	LONG $0x407f0ff3; BYTE $0x80               // movdqu    oword [rax - 128], xmm0
-	LONG $0x407f0ff3; BYTE $0x90               // movdqu    oword [rax - 112], xmm0
-	LONG $0x407f0ff3; BYTE $0xa0               // movdqu    oword [rax - 96], xmm0
-	LONG $0x407f0ff3; BYTE $0xb0               // movdqu    oword [rax - 80], xmm0
-	LONG $0x407f0ff3; BYTE $0xc0               // movdqu    oword [rax - 64], xmm0
-	LONG $0x407f0ff3; BYTE $0xd0               // movdqu    oword [rax - 48], xmm0
-	LONG $0x407f0ff3; BYTE $0xe0               // movdqu    oword [rax - 32], xmm0
-	LONG $0x407f0ff3; BYTE $0xf0               // movdqu    oword [rax - 16], xmm0
-	LONG $0x007f0ff3                           // movdqu    oword [rax], xmm0
-	LONG $0x01000548; WORD $0x0000             // add    rax, 256
-	LONG $0x00c18148; WORD $0xffff; BYTE $0xff // add    rcx, -256
-	JNE  LBB0_9
-
-LBB0_10:
-	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
-	JE   LBB0_13
-	WORD $0x014c; BYTE $0xc7 // add    rdi, r8
-
-LBB0_12:
-	WORD $0x1788             // mov    byte [rdi], dl
-	WORD $0xff48; BYTE $0xc7 // inc    rdi
-	WORD $0x3949; BYTE $0xfb // cmp    r11, rdi
-	JNE  LBB0_12
-
-LBB0_13:
-	RET
diff --git a/go/arrow/memory/memory_test.go b/go/arrow/memory/memory_test.go
deleted file mode 100644
index 4a823494ff99b..0000000000000
--- a/go/arrow/memory/memory_test.go
+++ /dev/null
@@ -1,125 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/stretchr/testify/assert"
-)
-
-func makeExpectedBuf(sz, lo, hi int, c byte) []byte {
-	buf := make([]byte, sz)
-	for i := lo; i < hi; i++ {
-		buf[i] = c
-	}
-	return buf
-}
-
-func TestSet(t *testing.T) {
-	tests := []struct {
-		name   string
-		sz     int
-		lo, hi int
-		c      byte
-	}{
-		{"sz=0", 0, 0, 0, 0x00},
-		{"all,sz=7", 7, 0, 7, 0x1f},
-		{"part,sz=7", 7, 3, 4, 0x1f},
-		{"last,sz=7", 7, 6, 7, 0x1f},
-		{"all,sz=25", 25, 0, 25, 0x1f},
-		{"part,sz=25", 25, 13, 19, 0x1f},
-		{"last,sz=25", 25, 24, 25, 0x1f},
-		{"all,sz=4096", 4096, 0, 4096, 0x1f},
-		{"part,sz=4096", 4096, 1000, 3000, 0x1f},
-		{"last,sz=4096", 4096, 4095, 4096, 0x1f},
-		{"all,sz=16384", 16384, 0, 16384, 0x1f},
-		{"part,sz=16384", 16384, 3333, 10000, 0x1f},
-		{"last,sz=16384", 16384, 16383, 16384, 0x1f},
-	}
-	for _, test := range tests {
-		t.Run(test.name, func(t *testing.T) {
-			buf := make([]byte, test.sz)
-			memory.Set(buf[test.lo:test.hi], test.c)
-			exp := makeExpectedBuf(test.sz, test.lo, test.hi, test.c)
-			assert.Equal(t, exp, buf)
-		})
-	}
-}
-
-func benchmarkSet(b *testing.B, n int64) {
-	buf := make([]byte, n)
-	b.SetBytes(n)
-	b.ResetTimer()
-
-	for i := 0; i < b.N; i++ {
-		memory.Set(buf, 0x1f)
-	}
-}
-
-func BenchmarkSet_8(b *testing.B) {
-	benchmarkSet(b, 8)
-}
-
-func BenchmarkSet_32(b *testing.B) {
-	benchmarkSet(b, 32)
-}
-
-func BenchmarkSet_64(b *testing.B) {
-	benchmarkSet(b, 64)
-}
-
-func BenchmarkSet_500(b *testing.B) {
-	benchmarkSet(b, 500)
-}
-
-func BenchmarkSet_512(b *testing.B) {
-	benchmarkSet(b, 512)
-}
-
-func BenchmarkSet_1000(b *testing.B) {
-	benchmarkSet(b, 1000)
-}
-
-func BenchmarkSet_1024(b *testing.B) {
-	benchmarkSet(b, 1024)
-}
-
-func BenchmarkSet_2000(b *testing.B) {
-	benchmarkSet(b, 2000)
-}
-
-func BenchmarkSet_2048(b *testing.B) {
-	benchmarkSet(b, 2048)
-}
-
-func BenchmarkSet_4000(b *testing.B) {
-	benchmarkSet(b, 4000)
-}
-
-func BenchmarkSet_4096(b *testing.B) {
-	benchmarkSet(b, 4096)
-}
-
-func BenchmarkSet_8000(b *testing.B) {
-	benchmarkSet(b, 8000)
-}
-
-func BenchmarkSet_8192(b *testing.B) {
-	benchmarkSet(b, 8192)
-}
diff --git a/go/arrow/memory/util.go b/go/arrow/memory/util.go
deleted file mode 100644
index 6cc7ec91b9638..0000000000000
--- a/go/arrow/memory/util.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-import "unsafe"
-
-func roundToPowerOf2(v, round int) int {
-	forceCarry := round - 1
-	truncateMask := ^forceCarry
-	return (v + forceCarry) & truncateMask
-}
-
-func roundUpToMultipleOf64(v int) int {
-	return roundToPowerOf2(v, 64)
-}
-
-func isMultipleOfPowerOf2(v int, d int) bool {
-	return (v & (d - 1)) == 0
-}
-
-func addressOf(b []byte) uintptr {
-	return uintptr(unsafe.Pointer(&b[0]))
-}
-
-func ReleaseBuffers(buffers []*Buffer) {
-	for _, b := range buffers {
-		if b != nil {
-			b.Release()
-		}
-	}
-}
diff --git a/go/arrow/memory/util_test.go b/go/arrow/memory/util_test.go
deleted file mode 100644
index d8afe80a069e3..0000000000000
--- a/go/arrow/memory/util_test.go
+++ /dev/null
@@ -1,61 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package memory
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-)
-
-func TestRoundToPowerOf2(t *testing.T) {
-	tests := []struct {
-		v, round int
-		exp      int
-	}{
-		{60, 64, 64},
-		{122, 64, 128},
-		{16, 64, 64},
-		{64, 64, 64},
-		{13, 8, 16},
-	}
-	for _, test := range tests {
-		t.Run(fmt.Sprintf("v%d_r%d", test.v, test.round), func(t *testing.T) {
-			a := roundToPowerOf2(test.v, test.round)
-			assert.Equal(t, test.exp, a)
-		})
-	}
-}
-
-func TestIsMultipleOfPowerOf2(t *testing.T) {
-	tests := []struct {
-		v, d int
-		exp  bool
-	}{
-		{200, 256, false},
-		{256, 256, true},
-		{500, 256, false},
-		{512, 256, true},
-	}
-	for _, test := range tests {
-		t.Run(fmt.Sprintf("%d_%d_%t", test.v, test.d, test.exp), func(t *testing.T) {
-			got := isMultipleOfPowerOf2(test.v, test.d)
-			assert.Equal(t, test.exp, got)
-		})
-	}
-}
diff --git a/go/arrow/numeric.schema.json b/go/arrow/numeric.schema.json
deleted file mode 100644
index 7fa2800a57a37..0000000000000
--- a/go/arrow/numeric.schema.json
+++ /dev/null
@@ -1,15 +0,0 @@
-{
-  "title": "templates",
-  "type": "array",
-  "items": {
-    "title": "template",
-    "type": "object",
-    "properties": {
-      "Name": {
-        "type": "string",
-        "description": "The name of the template type"
-      }
-    },
-    "required": ["Name"]
-  }
-}
\ No newline at end of file
diff --git a/go/arrow/numeric.tmpldata b/go/arrow/numeric.tmpldata
deleted file mode 100644
index 3c2d63b7cb2bb..0000000000000
--- a/go/arrow/numeric.tmpldata
+++ /dev/null
@@ -1,135 +0,0 @@
-[
-  {
-    "Name": "Int64",
-    "name": "int64",
-    "Type": "int64",
-    "Default": "0",
-    "Size": "8",
-    "Opt": {
-      "BufferBuilder": true
-    }
-  },
-  {
-    "Name": "Uint64",
-    "name": "uint64",
-    "Type": "uint64",
-    "Default": "0",
-    "Size": "8"
-  },
-  {
-    "Name": "Float64",
-    "name": "float64",
-    "Type": "float64",
-    "Default": "0",
-    "Size": "8"
-  },
-  {
-    "Name": "Int32",
-    "name": "int32",
-    "Type": "int32",
-    "Default": "0",
-    "Size": "4",
-    "Opt": {
-      "BufferBuilder": true
-    }
-  },
-  {
-    "Name": "Uint32",
-    "name": "uint32",
-    "Type": "uint32",
-    "Default": "0",
-    "Size": "4"
-  },
-  {
-    "Name": "Float32",
-    "name": "float32",
-    "Type": "float32",
-    "Default": "0",
-    "Size": "4"
-  },
-  {
-    "Name": "Int16",
-    "name": "int16",
-    "Type": "int16",
-    "Default": "0",
-    "Size": "2"
-  },
-  {
-    "Name": "Uint16",
-    "name": "uint16",
-    "Type": "uint16",
-    "Default": "0",
-    "Size": "2"
-  },
-  {
-    "Name": "Int8",
-    "name": "int8",
-    "Type": "int8",
-    "Default": "0",
-    "Size": "1",
-    "Opt": {
-      "BufferBuilder": true
-    }
-  },
-  {
-    "Name": "Uint8",
-    "name": "uint8",
-    "Type": "uint8",
-    "Default": "0",
-    "Size": "1"
-  },
-  {
-    "Name": "Time32",
-    "name": "time32",
-    "Type": "Time32",
-    "QualifiedType": "arrow.Time32",
-    "InternalType": "int32",
-    "Default": "0",
-    "Size": "4",
-    "Opt": {
-      "Parametric": true
-    }
-  },
-  {
-    "Name": "Time64",
-    "name": "time64",
-    "Type": "Time64",
-    "QualifiedType": "arrow.Time64",
-    "InternalType": "int64",
-    "Default": "0",
-    "Size": "8",
-    "Opt": {
-      "Parametric": true
-    }
-  },
-  {
-    "Name": "Date32",
-    "name": "date32",
-    "Type": "Date32",
-    "QualifiedType": "arrow.Date32",
-    "InternalType": "int32",
-    "Default": "0",
-    "Size": "4"
-  },
-  {
-    "Name": "Date64",
-    "name": "date64",
-    "Type": "Date64",
-    "QualifiedType": "arrow.Date64",
-    "InternalType": "int64",
-    "Default": "0",
-    "Size": "8"
-  },
-  {
-    "Name": "Duration",
-    "name": "duration",
-    "Type": "Duration",
-    "QualifiedType": "arrow.Duration",
-    "InternalType": "int64",
-    "Default": "0",
-    "Size": "8",
-    "Opt": {
-      "Parametric": true
-    }
-  }
-]
diff --git a/go/arrow/record.go b/go/arrow/record.go
deleted file mode 100644
index b812fcd481a60..0000000000000
--- a/go/arrow/record.go
+++ /dev/null
@@ -1,49 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import "github.com/apache/arrow/go/v18/internal/json"
-
-// Record is a collection of equal-length arrays matching a particular Schema.
-// Also known as a RecordBatch in the spec and in some implementations.
-//
-// It is also possible to construct a Table from a collection of Records that
-// all have the same schema.
-type Record interface {
-	json.Marshaler
-
-	Release()
-	Retain()
-
-	Schema() *Schema
-
-	NumRows() int64
-	NumCols() int64
-
-	Columns() []Array
-	Column(i int) Array
-	ColumnName(i int) string
-	SetColumn(i int, col Array) (Record, error)
-
-	// NewSlice constructs a zero-copy slice of the record with the indicated
-	// indices i and j, corresponding to array[i:j].
-	// The returned record must be Release()'d after use.
-	//
-	// NewSlice panics if the slice is outside the valid range of the record array.
-	// NewSlice panics if j < i.
-	NewSlice(i, j int64) Record
-}
diff --git a/go/arrow/scalar/append.go b/go/arrow/scalar/append.go
deleted file mode 100644
index 3a5823775457d..0000000000000
--- a/go/arrow/scalar/append.go
+++ /dev/null
@@ -1,263 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package scalar
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"golang.org/x/exp/constraints"
-)
-
-type primitives interface {
-	bool | float16.Num | decimal128.Num |
-		decimal256.Num | constraints.Integer | constraints.Float |
-		arrow.DayTimeInterval | arrow.MonthInterval | arrow.MonthDayNanoInterval
-}
-
-type builder[T primitives | []byte] interface {
-	AppendNull()
-	UnsafeAppend(T)
-	UnsafeAppendBoolToBitmap(bool)
-}
-
-type binaryBuilder interface {
-	builder[[]byte]
-	ReserveData(int)
-}
-
-func appendPrimitive[T primitives, B builder[T]](bldr B, scalars []Scalar) {
-	for _, sc := range scalars {
-		if sc.IsValid() {
-			bldr.UnsafeAppend(sc.value().(T))
-		} else {
-			bldr.UnsafeAppendBoolToBitmap(false)
-		}
-	}
-}
-
-func appendBinary(bldr binaryBuilder, scalars []Scalar) {
-	var dataSize int
-	for _, s := range scalars {
-		s := s.(BinaryScalar)
-		if s.IsValid() {
-			dataSize += len(s.Data())
-		}
-	}
-
-	bldr.ReserveData(dataSize)
-	for _, sc := range scalars {
-		s := sc.(BinaryScalar)
-		if s.IsValid() {
-			bldr.UnsafeAppend(s.Data())
-		} else {
-			bldr.AppendNull()
-		}
-	}
-}
-
-// Append requires the passed in builder and scalar to have the same datatype
-// otherwise it will return an error. Will return arrow.ErrNotImplemented if
-// the type hasn't been implemented for this.
-//
-// NOTE only available in go1.18+
-func Append(bldr array.Builder, s Scalar) error {
-	return AppendSlice(bldr, []Scalar{s})
-}
-
-// AppendSlice requires the passed in builder and all scalars in the slice
-// to have the same datatype otherwise it will return an error. Will return
-// arrow.ErrNotImplemented if the type hasn't been implemented for this.
-//
-// NOTE only available in go1.18+
-func AppendSlice(bldr array.Builder, scalars []Scalar) error {
-	if len(scalars) == 0 {
-		return nil
-	}
-
-	ty := bldr.Type()
-	for _, sc := range scalars {
-		if !arrow.TypeEqual(ty, sc.DataType()) {
-			return fmt.Errorf("%w: cannot append scalar of type %s to builder for type %s",
-				arrow.ErrInvalid, scalars[0].DataType(), bldr.Type())
-		}
-	}
-
-	bldr.Reserve(len(scalars))
-	switch bldr := bldr.(type) {
-	case *array.BooleanBuilder:
-		appendPrimitive[bool](bldr, scalars)
-	case *array.Decimal128Builder:
-		appendPrimitive[decimal128.Num](bldr, scalars)
-	case *array.Decimal256Builder:
-		appendPrimitive[decimal256.Num](bldr, scalars)
-	case *array.FixedSizeBinaryBuilder:
-		for _, sc := range scalars {
-			s := sc.(*FixedSizeBinary)
-			if s.Valid {
-				bldr.UnsafeAppend(s.Value.Bytes())
-			} else {
-				bldr.UnsafeAppendBoolToBitmap(false)
-			}
-		}
-	case *array.Int8Builder:
-		appendPrimitive[int8](bldr, scalars)
-	case *array.Uint8Builder:
-		appendPrimitive[uint8](bldr, scalars)
-	case *array.Int16Builder:
-		appendPrimitive[int16](bldr, scalars)
-	case *array.Uint16Builder:
-		appendPrimitive[uint16](bldr, scalars)
-	case *array.Int32Builder:
-		appendPrimitive[int32](bldr, scalars)
-	case *array.Uint32Builder:
-		appendPrimitive[uint32](bldr, scalars)
-	case *array.Int64Builder:
-		appendPrimitive[int64](bldr, scalars)
-	case *array.Uint64Builder:
-		appendPrimitive[uint64](bldr, scalars)
-	case *array.Float16Builder:
-		appendPrimitive[float16.Num](bldr, scalars)
-	case *array.Float32Builder:
-		appendPrimitive[float32](bldr, scalars)
-	case *array.Float64Builder:
-		appendPrimitive[float64](bldr, scalars)
-	case *array.Date32Builder:
-		appendPrimitive[arrow.Date32](bldr, scalars)
-	case *array.Date64Builder:
-		appendPrimitive[arrow.Date64](bldr, scalars)
-	case *array.Time32Builder:
-		appendPrimitive[arrow.Time32](bldr, scalars)
-	case *array.Time64Builder:
-		appendPrimitive[arrow.Time64](bldr, scalars)
-	case *array.DayTimeIntervalBuilder:
-		appendPrimitive[arrow.DayTimeInterval](bldr, scalars)
-	case *array.MonthIntervalBuilder:
-		appendPrimitive[arrow.MonthInterval](bldr, scalars)
-	case *array.MonthDayNanoIntervalBuilder:
-		appendPrimitive[arrow.MonthDayNanoInterval](bldr, scalars)
-	case *array.DurationBuilder:
-		appendPrimitive[arrow.Duration](bldr, scalars)
-	case *array.TimestampBuilder:
-		appendPrimitive[arrow.Timestamp](bldr, scalars)
-	case array.StringLikeBuilder:
-		appendBinary(bldr, scalars)
-	case *array.BinaryBuilder:
-		appendBinary(bldr, scalars)
-	case array.ListLikeBuilder:
-		var numChildren int
-		for _, s := range scalars {
-			if !s.IsValid() {
-				continue
-			}
-			numChildren += s.(ListScalar).GetList().Len()
-		}
-		bldr.ValueBuilder().Reserve(numChildren)
-
-		for _, s := range scalars {
-			bldr.Append(s.IsValid())
-			if s.IsValid() {
-				list := s.(ListScalar).GetList()
-				for i := 0; i < list.Len(); i++ {
-					sc, err := GetScalar(list, i)
-					if err != nil {
-						return err
-					}
-					if err := Append(bldr.ValueBuilder(), sc); err != nil {
-						return err
-					}
-				}
-			}
-		}
-	case *array.StructBuilder:
-		for _, sc := range scalars {
-			s := sc.(*Struct)
-			for i := 0; i < bldr.NumField(); i++ {
-				if !s.Valid || s.Value[i] == nil {
-					bldr.FieldBuilder(i).UnsafeAppendBoolToBitmap(false)
-				} else {
-					if err := Append(bldr.FieldBuilder(i), s.Value[i]); err != nil {
-						return err
-					}
-				}
-			}
-			bldr.UnsafeAppendBoolToBitmap(s.Valid)
-		}
-	case *array.SparseUnionBuilder:
-		ty := ty.(*arrow.SparseUnionType)
-		for i := 0; i < bldr.NumChildren(); i++ {
-			bldr.Child(i).Reserve(len(scalars))
-		}
-
-		for _, s := range scalars {
-			// for each scalar
-			// 1. append the type code
-			// 2. append the value to the corresponding child
-			// 3. append null to the other children
-			s := s.(*SparseUnion)
-			bldr.Append(s.TypeCode)
-			for i := range ty.Fields() {
-				child := bldr.Child(i)
-				if s.ChildID == i {
-					if s.Valid {
-						if err := Append(child, s.Value[i]); err != nil {
-							return err
-						}
-					} else {
-						child.UnsafeAppendBoolToBitmap(false)
-					}
-				} else {
-					child.UnsafeAppendBoolToBitmap(false)
-				}
-			}
-		}
-	case *array.DenseUnionBuilder:
-		ty := ty.(*arrow.DenseUnionType)
-		for i := 0; i < bldr.NumChildren(); i++ {
-			bldr.Child(i).Reserve(len(scalars))
-		}
-
-		for _, s := range scalars {
-			s := s.(*DenseUnion)
-			fieldIndex := ty.ChildIDs()[s.TypeCode]
-			bldr.Append(s.TypeCode)
-
-			for i := range ty.Fields() {
-				child := bldr.Child(i)
-				if i == fieldIndex {
-					if s.Valid {
-						if err := Append(child, s.Value); err != nil {
-							return err
-						}
-					} else {
-						child.UnsafeAppendBoolToBitmap(false)
-					}
-				}
-			}
-		}
-	default:
-		return fmt.Errorf("%w: append scalar for type %s", arrow.ErrNotImplemented, ty)
-	}
-
-	return nil
-}
diff --git a/go/arrow/scalar/append_test.go b/go/arrow/scalar/append_test.go
deleted file mode 100644
index a8eca4ee455b4..0000000000000
--- a/go/arrow/scalar/append_test.go
+++ /dev/null
@@ -1,244 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package scalar_test
-
-import (
-	"math"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/testing/tools"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-	"golang.org/x/exp/constraints"
-	"golang.org/x/exp/rand"
-	"gonum.org/v1/gonum/stat/distuv"
-)
-
-type primitiveTypes interface {
-	constraints.Integer | constraints.Float
-}
-
-func draw[T constraints.Integer](n int64, min, max T) []T {
-	const seed = 1337
-	gen := rand.New(rand.NewSource(seed))
-
-	normalizedMin := uint64(math.Abs(float64(min)))
-	normalizedMax := uint64(max) + normalizedMin
-
-	out := make([]T, n)
-	for i := range out {
-		out[i] = T(gen.Uint64n(normalizedMax) - normalizedMin)
-	}
-	return out
-}
-
-func drawFloat[T float32 | float64](n int64) []T {
-	const seed = 0xdeadbeef
-	d := distuv.Uniform{
-		Min: -1000.0, Max: 1000.0,
-		Src: rand.NewSource(seed),
-	}
-
-	out := make([]T, n)
-	for i := range out {
-		out[i] = T(d.Rand())
-	}
-	return out
-}
-
-func drawBytes[T string | []byte](n int64, minLen, maxLen int) []T {
-	const seed = 1337
-	gen := rand.New(rand.NewSource(seed))
-
-	out := make([]T, n)
-	for i := range out {
-		l := gen.Intn(maxLen-minLen+1) + minLen
-		buf := make([]byte, l)
-		for j := range buf {
-			buf[j] = uint8(gen.Intn(int('z')-int('A')+1) + int('A'))
-		}
-		out[i] = T(buf)
-	}
-	return out
-}
-
-func randomBools(n int64, pctFalse float64) []bool {
-	const seed = 0
-	d := distuv.Uniform{
-		Min: 0.0, Max: 1.0,
-		Src: rand.NewSource(seed),
-	}
-
-	out := make([]bool, n)
-	for i := range out {
-		out[i] = d.Rand() > pctFalse
-	}
-	return out
-}
-
-type builder[T primitiveTypes | string | []byte] interface {
-	array.Builder
-	Append(T)
-}
-
-type PrimitiveAppendTestSuite[T primitiveTypes | string | []byte] struct {
-	suite.Suite
-
-	mem     *memory.CheckedAllocator
-	dt      arrow.DataType
-	bldr    builder[T]
-	bldrNN  builder[T]
-	scalars []scalar.Scalar
-
-	getRand func(n int64) []T
-
-	draws      []T
-	validBytes []bool
-}
-
-func (pt *PrimitiveAppendTestSuite[T]) SetupTest() {
-	pt.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	pt.dt = tools.GetDataType[T]()
-	pt.bldr = array.NewBuilder(pt.mem, pt.dt).(builder[T])
-	pt.bldrNN = array.NewBuilder(pt.mem, pt.dt).(builder[T])
-}
-
-func (pt *PrimitiveAppendTestSuite[T]) TearDownTest() {
-	pt.bldr.Release()
-	pt.bldrNN.Release()
-
-	pt.mem.AssertSize(pt.T(), 0)
-}
-
-func (pt *PrimitiveAppendTestSuite[T]) randomData(n int64, pctNull float64) {
-	pt.draws = pt.getRand(n)
-	pt.validBytes = randomBools(n, pctNull)
-}
-
-func (pt *PrimitiveAppendTestSuite[T]) TestAppendScalar() {
-	const size int = 1000
-
-	pt.randomData(int64(size), 0.1)
-
-	pt.bldr.Reserve(size)
-	pt.scalars = make([]scalar.Scalar, size)
-
-	var nullCount int
-	for i := 0; i < 1000; i++ {
-		if pt.validBytes[i] {
-			pt.bldr.Append(pt.draws[i])
-			pt.scalars[i] = scalar.MakeScalar(pt.draws[i])
-		} else {
-			pt.bldr.AppendNull()
-			nullCount++
-			pt.scalars[i] = scalar.MakeNullScalar(pt.dt)
-		}
-	}
-
-	pt.Require().NoError(scalar.AppendSlice(pt.bldrNN, pt.scalars))
-
-	pt.Equal(nullCount, pt.bldr.NullN())
-	pt.Equal(nullCount, pt.bldrNN.NullN())
-	pt.Equal(1000, pt.bldr.Len())
-	pt.Equal(1024, pt.bldr.Cap())
-	pt.Equal(1000, pt.bldrNN.Len())
-	pt.Equal(1024, pt.bldrNN.Cap())
-
-	expected := pt.bldr.NewArray()
-	defer expected.Release()
-	out := pt.bldrNN.NewArray()
-	defer out.Release()
-	pt.Truef(array.Equal(expected, out), "expected: %s, got: %s", expected, out)
-}
-
-type PrimitiveIntegralAppendTestSuite[T constraints.Integer] struct {
-	PrimitiveAppendTestSuite[T]
-	min, max T
-}
-
-func (pt *PrimitiveIntegralAppendTestSuite[T]) SetupSuite() {
-	pt.getRand = func(n int64) []T {
-		return draw(n, pt.min, pt.max)
-	}
-}
-
-type PrimitiveFloatingAppendTestSuite[T float32 | float64] struct {
-	PrimitiveAppendTestSuite[T]
-}
-
-func (pt *PrimitiveFloatingAppendTestSuite[T]) SetupSuite() {
-	pt.getRand = drawFloat[T]
-}
-
-type PrimitiveStringAppendTestSuite[T string | []byte] struct {
-	PrimitiveAppendTestSuite[T]
-}
-
-func (pt *PrimitiveStringAppendTestSuite[T]) SetupSuite() {
-	pt.getRand = func(n int64) []T {
-		return drawBytes[T](n, 3, 9)
-	}
-}
-
-func TestPrimitiveAppendScalar(t *testing.T) {
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[int8]{min: math.MinInt8, max: math.MaxInt8})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[int16]{min: math.MinInt16, max: math.MaxInt16})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[int32]{min: math.MinInt32, max: math.MaxInt32})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[arrow.Date32]{min: math.MinInt32, max: math.MaxInt32})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[arrow.Date64]{min: math.MinInt64, max: math.MaxInt64})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[int64]{min: math.MinInt64, max: math.MaxInt64})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[uint8]{min: 0, max: math.MaxUint8})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[uint16]{min: 0, max: math.MaxUint16})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[uint32]{min: 0, max: math.MaxUint32})
-	suite.Run(t, &PrimitiveIntegralAppendTestSuite[uint64]{min: 0, max: math.MaxUint64})
-	suite.Run(t, new(PrimitiveFloatingAppendTestSuite[float32]))
-	suite.Run(t, new(PrimitiveFloatingAppendTestSuite[float64]))
-	suite.Run(t, new(PrimitiveStringAppendTestSuite[string]))
-	suite.Run(t, new(PrimitiveStringAppendTestSuite[[]byte]))
-}
-
-func TestAppendMapScalar(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	expected, _, err := array.FromJSON(mem, arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int8),
-		strings.NewReader(`[[{"key": "a", "value": 1}, {"key": "b", "value": 2}]]`))
-	require.NoError(t, err)
-	defer expected.Release()
-
-	mapScalar, err := scalar.GetScalar(expected, 0)
-	require.NoError(t, err)
-	defer mapScalar.(scalar.Releasable).Release()
-
-	bldr := array.NewBuilder(mem, mapScalar.DataType())
-	defer bldr.Release()
-
-	require.NoError(t, scalar.Append(bldr, mapScalar))
-
-	result := bldr.NewArray()
-	defer result.Release()
-
-	assert.Truef(t, array.Equal(expected, result), "expected: %s, got: %s", expected, result)
-}
diff --git a/go/arrow/scalar/binary.go b/go/arrow/scalar/binary.go
deleted file mode 100644
index 26c153dc7a46d..0000000000000
--- a/go/arrow/scalar/binary.go
+++ /dev/null
@@ -1,203 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import (
-	"bytes"
-	"fmt"
-	"unicode/utf8"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type BinaryScalar interface {
-	Scalar
-
-	Retain()
-	Release()
-	Buffer() *memory.Buffer
-	Data() []byte
-}
-
-type Binary struct {
-	scalar
-
-	Value *memory.Buffer
-}
-
-func (b *Binary) Retain() {
-	if b.Value != nil {
-		b.Value.Retain()
-	}
-}
-
-func (b *Binary) Release() {
-	if b.Value != nil {
-		b.Value.Release()
-	}
-}
-
-func (b *Binary) value() interface{} { return b.Value }
-func (b *Binary) Data() []byte       { return b.Value.Bytes() }
-func (b *Binary) equals(rhs Scalar) bool {
-	return bytes.Equal(b.Value.Bytes(), rhs.(BinaryScalar).Data())
-}
-func (b *Binary) Buffer() *memory.Buffer { return b.Value }
-func (b *Binary) String() string {
-	if !b.Valid {
-		return "null"
-	}
-
-	return string(b.Value.Bytes())
-}
-
-func (b *Binary) CastTo(to arrow.DataType) (Scalar, error) {
-	if !b.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	switch to.ID() {
-	case arrow.BINARY:
-		return NewBinaryScalar(b.Value, b.Type), nil
-	case arrow.LARGE_BINARY:
-		return NewLargeBinaryScalar(b.Value), nil
-	case arrow.STRING:
-		return NewStringScalarFromBuffer(b.Value), nil
-	case arrow.LARGE_STRING:
-		return NewLargeStringScalarFromBuffer(b.Value), nil
-	case arrow.FIXED_SIZE_BINARY:
-		if b.Value.Len() == to.(*arrow.FixedSizeBinaryType).ByteWidth {
-			return NewFixedSizeBinaryScalar(b.Value, to), nil
-		}
-	}
-
-	return nil, fmt.Errorf("cannot cast non-null binary scalar to type %s", to)
-}
-
-func (b *Binary) Validate() (err error) {
-	err = b.scalar.Validate()
-	if err == nil {
-		err = validateOptional(&b.scalar, b.Value, "value")
-	}
-	return
-}
-
-func (b *Binary) ValidateFull() error {
-	return b.Validate()
-}
-
-func NewBinaryScalar(val *memory.Buffer, typ arrow.DataType) *Binary {
-	val.Retain()
-	return &Binary{scalar{typ, true}, val}
-}
-
-type LargeBinary struct {
-	*Binary
-}
-
-func NewLargeBinaryScalar(val *memory.Buffer) *LargeBinary {
-	return &LargeBinary{NewBinaryScalar(val, arrow.BinaryTypes.LargeBinary)}
-}
-
-type String struct {
-	*Binary
-}
-
-func (s *String) Validate() error {
-	return s.Binary.Validate()
-}
-
-func (s *String) ValidateFull() (err error) {
-	if err = s.Validate(); err != nil {
-		return
-	}
-	if s.Valid && !utf8.ValidString(string(s.Value.Bytes())) {
-		err = fmt.Errorf("%s scalar contains invalid utf8 data", s.Type)
-	}
-	return
-}
-
-func (s *String) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if to.ID() == arrow.FIXED_SIZE_BINARY {
-		if s.Value.Len() == to.(*arrow.FixedSizeBinaryType).ByteWidth {
-			return NewFixedSizeBinaryScalar(s.Value, to), nil
-		}
-		return nil, fmt.Errorf("cannot convert string scalar of %s to type %s", string(s.Value.Bytes()), to)
-	}
-
-	return ParseScalar(to, string(s.Value.Bytes()))
-}
-
-func NewStringScalar(val string) *String {
-	buf := memory.NewBufferBytes([]byte(val))
-	defer buf.Release()
-	return NewStringScalarFromBuffer(buf)
-}
-
-func NewStringScalarFromBuffer(val *memory.Buffer) *String {
-	// NewBinaryScalar will call Retain on val, so we don't have to
-	return &String{NewBinaryScalar(val, arrow.BinaryTypes.String)}
-}
-
-// alias the String struct we are embedding so it doesn't hide the
-// String() function that we want to expose
-type stringScalar = String
-
-type LargeString struct {
-	*stringScalar
-}
-
-func NewLargeStringScalar(val string) *LargeString {
-	buf := memory.NewBufferBytes([]byte(val))
-	defer buf.Release()
-	return NewLargeStringScalarFromBuffer(buf)
-}
-
-func NewLargeStringScalarFromBuffer(val *memory.Buffer) *LargeString {
-	// NewBinaryScalar will call retain on val, so we don't have to
-	return &LargeString{stringScalar: &String{NewBinaryScalar(val, arrow.BinaryTypes.LargeString)}}
-}
-
-type FixedSizeBinary struct {
-	*Binary
-}
-
-func (b *FixedSizeBinary) Validate() (err error) {
-	if err = b.Binary.Validate(); err != nil {
-		return
-	}
-
-	if b.Valid {
-		width := b.Type.(*arrow.FixedSizeBinaryType).ByteWidth
-		if b.Value.Len() != width {
-			err = fmt.Errorf("%s scalar should have a value of size %d, got %d", b.Type, width, b.Value.Len())
-		}
-	}
-	return
-}
-
-func (b *FixedSizeBinary) ValidateFull() error { return b.Validate() }
-
-func NewFixedSizeBinaryScalar(val *memory.Buffer, typ arrow.DataType) *FixedSizeBinary {
-	// NewBinaryScalar will call Retain on val, so we don't have to
-	return &FixedSizeBinary{NewBinaryScalar(val, typ)}
-}
diff --git a/go/arrow/scalar/compare.go b/go/arrow/scalar/compare.go
deleted file mode 100644
index d32a685b819c6..0000000000000
--- a/go/arrow/scalar/compare.go
+++ /dev/null
@@ -1,97 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import "github.com/apache/arrow/go/v18/arrow"
-
-// Equals returns true if two scalars are equal, which means they have the same
-// datatype, validity and value.
-func Equals(left, right Scalar) bool {
-	if left == right {
-		return true
-	}
-
-	if !arrow.TypeEqual(left.DataType(), right.DataType()) {
-		return false
-	}
-
-	if left.IsValid() != right.IsValid() {
-		return false
-	}
-
-	if !left.IsValid() {
-		return true
-	}
-
-	return left.equals(right)
-}
-
-type equalOption struct {
-	atol   float64 // absolute tolerance
-	nansEq bool    // whether NaNs are considered equal
-}
-
-// EqualOption is a functional option type used to configure how Records and Arrays are compared.
-type EqualOption func(*equalOption)
-
-// WithNaNsEqual configures the comparison functions so that NaNs are considered equal.
-func WithNaNsEqual(val bool) EqualOption {
-	return func(eo *equalOption) {
-		eo.nansEq = val
-	}
-}
-
-// WithAbsTolerance configures the comparison functions so that 2 floating point values
-// v1 and v2 are considered equal if |v1-v2| <= atol.
-func WithAbsTolerance(atol float64) EqualOption {
-	return func(eo *equalOption) {
-		eo.atol = atol
-	}
-}
-
-const defaultAbsoluteTolerance = 1e-5
-
-type approxEqualScalar interface {
-	approxEquals(Scalar, equalOption) bool
-}
-
-func ApproxEquals(left, right Scalar, opts ...EqualOption) bool {
-	eq := equalOption{
-		atol:   defaultAbsoluteTolerance,
-		nansEq: false,
-	}
-	for _, opt := range opts {
-		opt(&eq)
-	}
-
-	switch {
-	case left == right:
-		return true
-	case !arrow.TypeEqual(left.DataType(), right.DataType()):
-		return false
-	case left.IsValid() != right.IsValid():
-		return false
-	case !left.IsValid():
-		return true
-	}
-
-	if approx, ok := left.(approxEqualScalar); ok {
-		return approx.approxEquals(right, eq)
-	}
-
-	return left.equals(right)
-}
diff --git a/go/arrow/scalar/nested.go b/go/arrow/scalar/nested.go
deleted file mode 100644
index 5f3447e686873..0000000000000
--- a/go/arrow/scalar/nested.go
+++ /dev/null
@@ -1,808 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/xerrors"
-)
-
-type ListScalar interface {
-	Scalar
-	GetList() arrow.Array
-	Release()
-	Retain()
-}
-
-type List struct {
-	scalar
-	Value arrow.Array
-}
-
-func (l *List) Release() {
-	if l.Value != nil {
-		l.Value.Release()
-	}
-}
-
-func (l *List) Retain() {
-	if l.Value != nil {
-		l.Value.Retain()
-	}
-}
-
-func (l *List) value() interface{}   { return l.Value }
-func (l *List) GetList() arrow.Array { return l.Value }
-func (l *List) equals(rhs Scalar) bool {
-	return array.Equal(l.Value, rhs.(ListScalar).GetList())
-}
-func (l *List) Validate() (err error) {
-	if err = l.scalar.Validate(); err != nil {
-		return
-	}
-	if err = validateOptional(&l.scalar, l.Value, "value"); err != nil {
-		return
-	}
-
-	if !l.Valid {
-		return
-	}
-
-	valueType := l.Type.(arrow.ListLikeType).Elem()
-	listType := l.Type
-
-	if !arrow.TypeEqual(l.Value.DataType(), valueType) {
-		err = fmt.Errorf("%s scalar should have a value of type %s, got %s",
-			listType, valueType, l.Value.DataType())
-	}
-	return
-}
-
-func (l *List) ValidateFull() error { return l.Validate() }
-func (l *List) CastTo(to arrow.DataType) (Scalar, error) {
-	if !l.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if arrow.TypeEqual(l.Type, to) {
-		return l, nil
-	}
-
-	if to.ID() == arrow.STRING {
-		var bld bytes.Buffer
-		fmt.Fprint(&bld, l.Value)
-		buf := memory.NewBufferBytes(bld.Bytes())
-		defer buf.Release()
-		return NewStringScalarFromBuffer(buf), nil
-	}
-
-	return nil, fmt.Errorf("cannot convert non-nil list scalar to type %s", to)
-}
-
-func (l *List) String() string {
-	if !l.Valid {
-		return "null"
-	}
-	val, err := l.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func NewListScalar(val arrow.Array) *List {
-	return &List{scalar{arrow.ListOf(val.DataType()), true}, array.MakeFromData(val.Data())}
-}
-
-func NewListScalarData(val arrow.ArrayData) *List {
-	return &List{scalar{arrow.ListOf(val.DataType()), true}, array.MakeFromData(val)}
-}
-
-type LargeList struct {
-	*List
-}
-
-func NewLargeListScalar(val arrow.Array) *LargeList {
-	return &LargeList{&List{scalar{arrow.LargeListOf(val.DataType()), true}, array.MakeFromData(val.Data())}}
-}
-
-func NewLargeListScalarData(val arrow.ArrayData) *LargeList {
-	return &LargeList{&List{scalar{arrow.LargeListOf(val.DataType()), true}, array.MakeFromData(val)}}
-}
-
-func makeMapType(typ *arrow.StructType) *arrow.MapType {
-	debug.Assert(typ.NumFields() == 2, "must pass struct with only 2 fields for MapScalar")
-	return arrow.MapOf(typ.Field(0).Type, typ.Field(1).Type)
-}
-
-type Map struct {
-	*List
-}
-
-func NewMapScalar(val arrow.Array) *Map {
-	return &Map{&List{scalar{makeMapType(val.DataType().(*arrow.StructType)), true}, array.MakeFromData(val.Data())}}
-}
-
-type FixedSizeList struct {
-	*List
-}
-
-func (f *FixedSizeList) Validate() (err error) {
-	if err = f.List.Validate(); err != nil {
-		return
-	}
-
-	if f.Valid {
-		listType := f.Type.(*arrow.FixedSizeListType)
-		if f.Value.Len() != int(listType.Len()) {
-			return fmt.Errorf("%s scalar should have a child value of length %d, got %d",
-				f.Type, listType.Len(), f.Value.Len())
-		}
-	}
-	return
-}
-
-func (f *FixedSizeList) ValidateFull() error { return f.Validate() }
-
-func NewFixedSizeListScalar(val arrow.Array) *FixedSizeList {
-	return NewFixedSizeListScalarWithType(val, arrow.FixedSizeListOf(int32(val.Len()), val.DataType()))
-}
-
-func NewFixedSizeListScalarWithType(val arrow.Array, typ arrow.DataType) *FixedSizeList {
-	debug.Assert(val.Len() == int(typ.(*arrow.FixedSizeListType).Len()), "length of value for fixed size list scalar must match type")
-	return &FixedSizeList{&List{scalar{typ, true}, array.MakeFromData(val.Data())}}
-}
-
-type Vector []Scalar
-
-type Struct struct {
-	scalar
-	Value Vector
-}
-
-func (s *Struct) Release() {
-	for _, v := range s.Value {
-		if v, ok := v.(Releasable); ok {
-			v.Release()
-		}
-	}
-}
-
-func (s *Struct) Field(name string) (Scalar, error) {
-	idx, ok := s.Type.(*arrow.StructType).FieldIdx(name)
-	if !ok {
-		return nil, fmt.Errorf("no field named %s found in struct scalar %s", name, s.Type)
-	}
-
-	return s.Value[idx], nil
-}
-
-func (s *Struct) value() interface{} { return s.Value }
-
-func (s *Struct) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Struct) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if to.ID() != arrow.STRING {
-		return nil, fmt.Errorf("cannot cast non-null struct scalar to type %s", to)
-	}
-
-	var bld bytes.Buffer
-	st := s.Type.(*arrow.StructType)
-	bld.WriteByte('{')
-	for i, v := range s.Value {
-		if i > 0 {
-			bld.WriteString(", ")
-		}
-		bld.WriteString(fmt.Sprintf("%s:%s = %s", st.Field(i).Name, st.Field(i).Type, v.String()))
-	}
-	bld.WriteByte('}')
-	buf := memory.NewBufferBytes(bld.Bytes())
-	defer buf.Release()
-	return NewStringScalarFromBuffer(buf), nil
-}
-
-func (s *Struct) equals(rhs Scalar) bool {
-	right := rhs.(*Struct)
-	if len(s.Value) != len(right.Value) {
-		return false
-	}
-
-	for i := range s.Value {
-		if !Equals(s.Value[i], right.Value[i]) {
-			return false
-		}
-	}
-	return true
-}
-
-func (s *Struct) Validate() (err error) {
-	if err = s.scalar.Validate(); err != nil {
-		return
-	}
-
-	if !s.Valid {
-		for _, v := range s.Value {
-			if v.IsValid() {
-				err = fmt.Errorf("%s scalar is marked null but has child values", s.Type)
-				return
-			}
-		}
-		return
-	}
-
-	st := s.Type.(*arrow.StructType)
-	num := st.NumFields()
-	if len(s.Value) != num {
-		return fmt.Errorf("non-null %s scalar should have %d child values, got %d", s.Type, num, len(s.Value))
-	}
-
-	for i, f := range st.Fields() {
-		if s.Value[i] == nil {
-			return fmt.Errorf("non-null %s scalar has missing child value at index %d", s.Type, i)
-		}
-
-		err = s.Value[i].Validate()
-		if err != nil {
-			return fmt.Errorf("%s scalar fails validation for child at index %d: %w", s.Type, i, err)
-		}
-
-		if !arrow.TypeEqual(s.Value[i].DataType(), f.Type) {
-			return fmt.Errorf("%s scalar should have a child value of type %s at index %d, got %s", s.Type, f.Type, i, s.Value[i].DataType())
-		}
-	}
-	return
-}
-
-func (s *Struct) ValidateFull() (err error) {
-	if err = s.scalar.ValidateFull(); err != nil {
-		return
-	}
-
-	if !s.Valid {
-		for _, v := range s.Value {
-			if v.IsValid() {
-				err = fmt.Errorf("%s scalar is marked null but has child values", s.Type)
-				return
-			}
-		}
-		return
-	}
-
-	st := s.Type.(*arrow.StructType)
-	num := st.NumFields()
-	if len(s.Value) != num {
-		return fmt.Errorf("non-null %s scalar should have %d child values, got %d", s.Type, num, len(s.Value))
-	}
-
-	for i, f := range st.Fields() {
-		if s.Value[i] == nil {
-			return fmt.Errorf("non-null %s scalar has missing child value at index %d", s.Type, i)
-		}
-
-		err = s.Value[i].ValidateFull()
-		if err != nil {
-			return fmt.Errorf("%s scalar fails validation for child at index %d: %w", s.Type, i, err)
-		}
-
-		if !arrow.TypeEqual(s.Value[i].DataType(), f.Type) {
-			return fmt.Errorf("%s scalar should have a child value of type %s at index %d, got %s", s.Type, f.Type, i, s.Value[i].DataType())
-		}
-	}
-	return
-}
-
-func NewStructScalar(val []Scalar, typ arrow.DataType) *Struct {
-	return &Struct{scalar{typ, true}, val}
-}
-
-func NewStructScalarWithNames(val []Scalar, names []string) (*Struct, error) {
-	if len(val) != len(names) {
-		return nil, xerrors.New("mismatching number of field names and child scalars")
-	}
-
-	fields := make([]arrow.Field, len(names))
-	for i, n := range names {
-		fields[i] = arrow.Field{Name: n, Type: val[i].DataType(), Nullable: true}
-	}
-	return NewStructScalar(val, arrow.StructOf(fields...)), nil
-}
-
-type Dictionary struct {
-	scalar
-
-	Value struct {
-		Index Scalar
-		Dict  arrow.Array
-	}
-}
-
-func NewNullDictScalar(dt arrow.DataType) *Dictionary {
-	ret := &Dictionary{scalar: scalar{dt, false}}
-	ret.Value.Index = MakeNullScalar(dt.(*arrow.DictionaryType).IndexType)
-	ret.Value.Dict = nil
-	return ret
-}
-
-func NewDictScalar(index Scalar, dict arrow.Array) *Dictionary {
-	ret := &Dictionary{scalar: scalar{&arrow.DictionaryType{IndexType: index.DataType(), ValueType: dict.DataType()}, index.IsValid()}}
-	ret.Value.Index = index
-	ret.Value.Dict = dict
-	ret.Retain()
-	return ret
-}
-
-func (s *Dictionary) Data() []byte { return s.Value.Index.(PrimitiveScalar).Data() }
-
-func (s *Dictionary) Retain() {
-	if r, ok := s.Value.Index.(Releasable); ok {
-		r.Retain()
-	}
-	if s.Value.Dict != (arrow.Array)(nil) {
-		s.Value.Dict.Retain()
-	}
-}
-
-func (s *Dictionary) Release() {
-	if r, ok := s.Value.Index.(Releasable); ok {
-		r.Release()
-	}
-	if s.Value.Dict != (arrow.Array)(nil) {
-		s.Value.Dict.Release()
-	}
-}
-
-func (s *Dictionary) Validate() (err error) {
-	dt, ok := s.Type.(*arrow.DictionaryType)
-	if !ok {
-		return errors.New("arrow/scalar: dictionary scalar should have type Dictionary")
-	}
-
-	if s.Value.Index == (Scalar)(nil) {
-		return fmt.Errorf("%s scalar doesn't have an index value", dt)
-	}
-
-	if err = s.Value.Index.Validate(); err != nil {
-		return fmt.Errorf("%s scalar fails validation for index value: %w", dt, err)
-	}
-
-	if !arrow.TypeEqual(s.Value.Index.DataType(), dt.IndexType) {
-		return fmt.Errorf("%s scalar should have an index value of type %s, got %s",
-			dt, dt.IndexType, s.Value.Index.DataType())
-	}
-
-	if s.IsValid() && !s.Value.Index.IsValid() {
-		return fmt.Errorf("non-null %s scalar has null index value", dt)
-	}
-
-	if !s.IsValid() && s.Value.Index.IsValid() {
-		return fmt.Errorf("null %s scalar has non-null index value", dt)
-	}
-
-	if !s.IsValid() {
-		return
-	}
-
-	if s.Value.Dict == (arrow.Array)(nil) {
-		return fmt.Errorf("%s scalar doesn't have a dictionary value", dt)
-	}
-
-	if !arrow.TypeEqual(s.Value.Dict.DataType(), dt.ValueType) {
-		return fmt.Errorf("%s scalar's value type doesn't match dict type: got %s", dt, s.Value.Dict.DataType())
-	}
-
-	return
-}
-
-func (s *Dictionary) ValidateFull() (err error) {
-	if err = s.Validate(); err != nil {
-		return
-	}
-
-	if !s.Value.Index.IsValid() {
-		return nil
-	}
-
-	max := s.Value.Dict.Len() - 1
-	switch idx := s.Value.Index.value().(type) {
-	case int8:
-		if idx < 0 || int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case uint8:
-		if int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case int16:
-		if idx < 0 || int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case uint16:
-		if int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case int32:
-		if idx < 0 || int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case uint32:
-		if int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case int64:
-		if idx < 0 || int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	case uint64:
-		if int(idx) > max {
-			err = fmt.Errorf("%s scalar index value out of bounds: %d", s.DataType(), idx)
-		}
-	}
-
-	return
-}
-
-func (s *Dictionary) String() string {
-	if !s.Valid {
-		return "null"
-	}
-
-	return s.Value.Dict.String() + "[" + s.Value.Index.String() + "]"
-}
-
-func (s *Dictionary) equals(rhs Scalar) bool {
-	return s.Value.Index.equals(rhs.(*Dictionary).Value.Index) &&
-		array.Equal(s.Value.Dict, rhs.(*Dictionary).Value.Dict)
-}
-
-func (s *Dictionary) CastTo(arrow.DataType) (Scalar, error) {
-	return nil, fmt.Errorf("cast from scalar %s not implemented", s.DataType())
-}
-
-func (s *Dictionary) GetEncodedValue() (Scalar, error) {
-	dt := s.Type.(*arrow.DictionaryType)
-	if !s.IsValid() {
-		return MakeNullScalar(dt.ValueType), nil
-	}
-
-	var idxValue int
-	switch dt.IndexType.ID() {
-	case arrow.INT8:
-		idxValue = int(s.Value.Index.value().(int8))
-	case arrow.UINT8:
-		idxValue = int(s.Value.Index.value().(uint8))
-	case arrow.INT16:
-		idxValue = int(s.Value.Index.value().(int16))
-	case arrow.UINT16:
-		idxValue = int(s.Value.Index.value().(uint16))
-	case arrow.INT32:
-		idxValue = int(s.Value.Index.value().(int32))
-	case arrow.UINT32:
-		idxValue = int(s.Value.Index.value().(uint32))
-	case arrow.INT64:
-		idxValue = int(s.Value.Index.value().(int64))
-	case arrow.UINT64:
-		idxValue = int(s.Value.Index.value().(uint64))
-	default:
-		return nil, fmt.Errorf("unimplemented dictionary type %s", dt.IndexType)
-	}
-	return GetScalar(s.Value.Dict, idxValue)
-}
-
-func (s *Dictionary) value() interface{} {
-	return s.Value.Index.value()
-}
-
-type Union interface {
-	Scalar
-	ChildValue() Scalar
-	Release()
-}
-
-type SparseUnion struct {
-	scalar
-
-	TypeCode arrow.UnionTypeCode
-	Value    []Scalar
-	ChildID  int
-}
-
-func (s *SparseUnion) equals(rhs Scalar) bool {
-	right := rhs.(*SparseUnion)
-	return Equals(s.ChildValue(), right.ChildValue())
-}
-
-func (s *SparseUnion) value() interface{} { return s.ChildValue() }
-
-func (s *SparseUnion) String() string {
-	dt := s.Type.(*arrow.SparseUnionType)
-	val := s.ChildValue()
-	return "union{" + dt.Fields()[dt.ChildIDs()[s.TypeCode]].String() + " = " + val.String() + "}"
-}
-
-func (s *SparseUnion) Retain() {
-	for _, v := range s.Value {
-		if v, ok := v.(Releasable); ok {
-			v.Retain()
-		}
-	}
-}
-
-func (s *SparseUnion) Release() {
-	for _, v := range s.Value {
-		if v, ok := v.(Releasable); ok {
-			v.Release()
-		}
-	}
-}
-
-func (s *SparseUnion) Validate() (err error) {
-	dt := s.Type.(*arrow.SparseUnionType)
-	if dt.NumFields() != len(s.Value) {
-		return fmt.Errorf("sparse union scalar value had %d fields but type has %d fields", dt.NumFields(), len(s.Value))
-	}
-
-	if s.TypeCode < 0 || int(s.TypeCode) >= len(dt.ChildIDs()) || dt.ChildIDs()[s.TypeCode] == arrow.InvalidUnionChildID {
-		return fmt.Errorf("%s scalar has invalid type code %d", dt, s.TypeCode)
-	}
-
-	for i, f := range dt.Fields() {
-		v := s.Value[i]
-		if !arrow.TypeEqual(f.Type, v.DataType()) {
-			return fmt.Errorf("%s value for field %s had incorrect type of %s", dt, f, v.DataType())
-		}
-		if err = v.Validate(); err != nil {
-			return err
-		}
-	}
-	return
-}
-
-func (s *SparseUnion) ValidateFull() (err error) {
-	dt := s.Type.(*arrow.SparseUnionType)
-	if dt.NumFields() != len(s.Value) {
-		return fmt.Errorf("sparse union scalar value had %d fields but type has %d fields", dt.NumFields(), len(s.Value))
-	}
-
-	if s.TypeCode < 0 || int(s.TypeCode) >= len(dt.ChildIDs()) || dt.ChildIDs()[s.TypeCode] == arrow.InvalidUnionChildID {
-		return fmt.Errorf("%s scalar has invalid type code %d", dt, s.TypeCode)
-	}
-
-	for i, f := range dt.Fields() {
-		v := s.Value[i]
-		if !arrow.TypeEqual(f.Type, v.DataType()) {
-			return fmt.Errorf("%s value for field %s had incorrect type of %s", dt, f, v.DataType())
-		}
-		if err = v.ValidateFull(); err != nil {
-			return err
-		}
-	}
-	return
-}
-
-func (s *SparseUnion) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	switch to.ID() {
-	case arrow.STRING:
-		return NewStringScalar(s.String()), nil
-	case arrow.LARGE_STRING:
-		return NewLargeStringScalar(s.String()), nil
-	}
-
-	return nil, fmt.Errorf("cannot cast non-nil union to type other than string")
-}
-
-func (s *SparseUnion) ChildValue() Scalar { return s.Value[s.ChildID] }
-
-func NewSparseUnionScalar(val []Scalar, code arrow.UnionTypeCode, dt *arrow.SparseUnionType) *SparseUnion {
-	ret := &SparseUnion{
-		scalar:   scalar{dt, true},
-		TypeCode: code,
-		Value:    val,
-		ChildID:  dt.ChildIDs()[code],
-	}
-	ret.Valid = ret.Value[ret.ChildID].IsValid()
-	return ret
-}
-
-func NewSparseUnionScalarFromValue(val Scalar, idx int, dt *arrow.SparseUnionType) *SparseUnion {
-	code := dt.TypeCodes()[idx]
-	values := make([]Scalar, dt.NumFields())
-	for i, f := range dt.Fields() {
-		if i == idx {
-			values[i] = val
-		} else {
-			values[i] = MakeNullScalar(f.Type)
-		}
-	}
-	return NewSparseUnionScalar(values, code, dt)
-}
-
-type DenseUnion struct {
-	scalar
-
-	TypeCode arrow.UnionTypeCode
-	Value    Scalar
-}
-
-func (s *DenseUnion) equals(rhs Scalar) bool {
-	right := rhs.(*DenseUnion)
-	return Equals(s.Value, right.Value)
-}
-
-func (s *DenseUnion) value() interface{} { return s.ChildValue() }
-
-func (s *DenseUnion) String() string {
-	dt := s.Type.(*arrow.DenseUnionType)
-	return "union{" + dt.Fields()[dt.ChildIDs()[s.TypeCode]].String() + " = " + s.Value.String() + "}"
-}
-
-func (s *DenseUnion) Retain() {
-	if v, ok := s.Value.(Releasable); ok {
-		v.Retain()
-	}
-}
-
-func (s *DenseUnion) Release() {
-	if v, ok := s.Value.(Releasable); ok {
-		v.Release()
-	}
-}
-
-func (s *DenseUnion) Validate() (err error) {
-	dt := s.Type.(*arrow.DenseUnionType)
-	if s.TypeCode < 0 || int(s.TypeCode) >= len(dt.ChildIDs()) || dt.ChildIDs()[s.TypeCode] == arrow.InvalidUnionChildID {
-		return fmt.Errorf("%s scalar has invalid type code %d", dt, s.TypeCode)
-	}
-	fieldType := dt.Fields()[dt.ChildIDs()[s.TypeCode]].Type
-	if !arrow.TypeEqual(fieldType, s.Value.DataType()) {
-		return fmt.Errorf("%s scalar with type code %d should have an underlying value of type %s, got %s",
-			s.Type, s.TypeCode, fieldType, s.Value.DataType())
-	}
-	return s.Value.Validate()
-}
-
-func (s *DenseUnion) ValidateFull() error {
-	dt := s.Type.(*arrow.DenseUnionType)
-	if s.TypeCode < 0 || int(s.TypeCode) >= len(dt.ChildIDs()) || dt.ChildIDs()[s.TypeCode] == arrow.InvalidUnionChildID {
-		return fmt.Errorf("%s scalar has invalid type code %d", dt, s.TypeCode)
-	}
-	fieldType := dt.Fields()[dt.ChildIDs()[s.TypeCode]].Type
-	if !arrow.TypeEqual(fieldType, s.Value.DataType()) {
-		return fmt.Errorf("%s scalar with type code %d should have an underlying value of type %s, got %s",
-			s.Type, s.TypeCode, fieldType, s.Value.DataType())
-	}
-	return s.Value.ValidateFull()
-}
-
-func (s *DenseUnion) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	switch to.ID() {
-	case arrow.STRING:
-		return NewStringScalar(s.String()), nil
-	case arrow.LARGE_STRING:
-		return NewLargeStringScalar(s.String()), nil
-	}
-
-	return nil, fmt.Errorf("cannot cast non-nil union to type other than string")
-}
-
-func (s *DenseUnion) ChildValue() Scalar { return s.Value }
-
-func NewDenseUnionScalar(v Scalar, code arrow.UnionTypeCode, dt *arrow.DenseUnionType) *DenseUnion {
-	return &DenseUnion{scalar: scalar{dt, v.IsValid()}, TypeCode: code, Value: v}
-}
-
-type RunEndEncoded struct {
-	scalar
-
-	Value Scalar
-}
-
-func NewRunEndEncodedScalar(v Scalar, dt *arrow.RunEndEncodedType) *RunEndEncoded {
-	return &RunEndEncoded{scalar: scalar{dt, v.IsValid()}, Value: v}
-}
-
-func (s *RunEndEncoded) Release() {
-	if r, ok := s.Value.(Releasable); ok {
-		r.Release()
-	}
-}
-
-func (s *RunEndEncoded) value() interface{} { return s.Value.value() }
-
-func (s *RunEndEncoded) Validate() (err error) {
-	if err = s.Value.Validate(); err != nil {
-		return
-	}
-
-	if err = validateOptional(&s.scalar, s.value(), "value"); err != nil {
-		return
-	}
-
-	if !s.Valid {
-		return
-	}
-
-	if s.Type.ID() != arrow.RUN_END_ENCODED {
-		return fmt.Errorf("%w: run-end-encoded scalar should not have type %s",
-			arrow.ErrInvalid, s.Type)
-	}
-
-	if !arrow.TypeEqual(s.Value.DataType(), s.Type.(*arrow.RunEndEncodedType).Encoded()) {
-		return fmt.Errorf("%w: run-end-encoded scalar value type %s does not match type %s",
-			arrow.ErrInvalid, s.Value.DataType(), s.Type)
-	}
-	return
-}
-
-func (s *RunEndEncoded) ValidateFull() error { return s.Validate() }
-
-func (s *RunEndEncoded) equals(rhs Scalar) bool {
-	other := rhs.(*RunEndEncoded)
-	return Equals(s.Value, other.Value)
-}
-
-func (s *RunEndEncoded) String() string {
-	return s.Value.String()
-}
-
-func (s *RunEndEncoded) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if arrow.TypeEqual(s.Type, to) {
-		return s, nil
-	}
-
-	if otherREE, ok := to.(*arrow.RunEndEncodedType); ok {
-		sc, err := s.Value.CastTo(otherREE.Encoded())
-		if err != nil {
-			return nil, err
-		}
-
-		return NewRunEndEncodedScalar(sc, otherREE), nil
-	}
-
-	return s.Value.CastTo(to)
-}
diff --git a/go/arrow/scalar/numeric.gen.go b/go/arrow/scalar/numeric.gen.go
deleted file mode 100644
index 25bdc242ae8c9..0000000000000
--- a/go/arrow/scalar/numeric.gen.go
+++ /dev/null
@@ -1,797 +0,0 @@
-// Code generated by scalar/numeric.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import (
-	"fmt"
-	"math"
-	"reflect"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-)
-
-type Int8 struct {
-	scalar
-	Value int8
-}
-
-func (s *Int8) Data() []byte {
-	return (*[arrow.Int8SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Int8) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Int8).Value
-}
-
-func (s *Int8) value() interface{} {
-	return s.Value
-}
-
-func (s *Int8) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Int8) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type int8 to type %s", dt)
-}
-
-func NewInt8Scalar(val int8) *Int8 {
-	return &Int8{scalar{Type: arrow.PrimitiveTypes.Int8, Valid: true}, val}
-}
-
-type Int16 struct {
-	scalar
-	Value int16
-}
-
-func (s *Int16) Data() []byte {
-	return (*[arrow.Int16SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Int16) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Int16).Value
-}
-
-func (s *Int16) value() interface{} {
-	return s.Value
-}
-
-func (s *Int16) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Int16) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type int16 to type %s", dt)
-}
-
-func NewInt16Scalar(val int16) *Int16 {
-	return &Int16{scalar{Type: arrow.PrimitiveTypes.Int16, Valid: true}, val}
-}
-
-type Int32 struct {
-	scalar
-	Value int32
-}
-
-func (s *Int32) Data() []byte {
-	return (*[arrow.Int32SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Int32) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Int32).Value
-}
-
-func (s *Int32) value() interface{} {
-	return s.Value
-}
-
-func (s *Int32) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Int32) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type int32 to type %s", dt)
-}
-
-func NewInt32Scalar(val int32) *Int32 {
-	return &Int32{scalar{Type: arrow.PrimitiveTypes.Int32, Valid: true}, val}
-}
-
-type Int64 struct {
-	scalar
-	Value int64
-}
-
-func (s *Int64) Data() []byte {
-	return (*[arrow.Int64SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Int64) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Int64).Value
-}
-
-func (s *Int64) value() interface{} {
-	return s.Value
-}
-
-func (s *Int64) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Int64) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type int64 to type %s", dt)
-}
-
-func NewInt64Scalar(val int64) *Int64 {
-	return &Int64{scalar{Type: arrow.PrimitiveTypes.Int64, Valid: true}, val}
-}
-
-type Uint8 struct {
-	scalar
-	Value uint8
-}
-
-func (s *Uint8) Data() []byte {
-	return (*[arrow.Uint8SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Uint8) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Uint8).Value
-}
-
-func (s *Uint8) value() interface{} {
-	return s.Value
-}
-
-func (s *Uint8) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Uint8) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type uint8 to type %s", dt)
-}
-
-func NewUint8Scalar(val uint8) *Uint8 {
-	return &Uint8{scalar{Type: arrow.PrimitiveTypes.Uint8, Valid: true}, val}
-}
-
-type Uint16 struct {
-	scalar
-	Value uint16
-}
-
-func (s *Uint16) Data() []byte {
-	return (*[arrow.Uint16SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Uint16) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Uint16).Value
-}
-
-func (s *Uint16) value() interface{} {
-	return s.Value
-}
-
-func (s *Uint16) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Uint16) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type uint16 to type %s", dt)
-}
-
-func NewUint16Scalar(val uint16) *Uint16 {
-	return &Uint16{scalar{Type: arrow.PrimitiveTypes.Uint16, Valid: true}, val}
-}
-
-type Uint32 struct {
-	scalar
-	Value uint32
-}
-
-func (s *Uint32) Data() []byte {
-	return (*[arrow.Uint32SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Uint32) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Uint32).Value
-}
-
-func (s *Uint32) value() interface{} {
-	return s.Value
-}
-
-func (s *Uint32) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Uint32) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type uint32 to type %s", dt)
-}
-
-func NewUint32Scalar(val uint32) *Uint32 {
-	return &Uint32{scalar{Type: arrow.PrimitiveTypes.Uint32, Valid: true}, val}
-}
-
-type Uint64 struct {
-	scalar
-	Value uint64
-}
-
-func (s *Uint64) Data() []byte {
-	return (*[arrow.Uint64SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Uint64) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Uint64).Value
-}
-
-func (s *Uint64) value() interface{} {
-	return s.Value
-}
-
-func (s *Uint64) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Uint64) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		return NewDecimal128Scalar(decimal128.FromU64(s.Value), dt), nil
-	case *arrow.Decimal256Type:
-		return NewDecimal256Scalar(decimal256.FromU64(s.Value), dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type uint64 to type %s", dt)
-}
-
-func NewUint64Scalar(val uint64) *Uint64 {
-	return &Uint64{scalar{Type: arrow.PrimitiveTypes.Uint64, Valid: true}, val}
-}
-
-type Float32 struct {
-	scalar
-	Value float32
-}
-
-func (s *Float32) Data() []byte {
-	return (*[arrow.Float32SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Float32) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Float32).Value
-}
-
-func (s *Float32) approxEquals(rhs Scalar, eq equalOption) bool {
-	v1 := float64(s.Value)
-	v2 := float64(rhs.(*Float32).Value)
-	switch {
-	case eq.nansEq:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
-	default:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol
-	}
-}
-
-func (s *Float32) value() interface{} {
-	return s.Value
-}
-
-func (s *Float32) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Float32) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		v, err := decimal128.FromFloat32(s.Value, dt.Precision, dt.Scale)
-		if err != nil {
-			return nil, err
-		}
-		return NewDecimal128Scalar(v, dt), nil
-	case *arrow.Decimal256Type:
-		v, err := decimal256.FromFloat32(s.Value, dt.Precision, dt.Scale)
-		if err != nil {
-			return nil, err
-		}
-		return NewDecimal256Scalar(v, dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type float32 to type %s", dt)
-}
-
-func NewFloat32Scalar(val float32) *Float32 {
-	return &Float32{scalar{Type: arrow.PrimitiveTypes.Float32, Valid: true}, val}
-}
-
-type Float64 struct {
-	scalar
-	Value float64
-}
-
-func (s *Float64) Data() []byte {
-	return (*[arrow.Float64SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Float64) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Float64).Value
-}
-
-func (s *Float64) approxEquals(rhs Scalar, eq equalOption) bool {
-	v1 := float64(s.Value)
-	v2 := float64(rhs.(*Float64).Value)
-	switch {
-	case eq.nansEq:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
-	default:
-		return v1 == v2 || math.Abs(v1-v2) <= eq.atol
-	}
-}
-
-func (s *Float64) value() interface{} {
-	return s.Value
-}
-
-func (s *Float64) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Float64) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	r, ok := numericMap[dt.ID()]
-	if ok {
-		return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-	}
-
-	switch dt := dt.(type) {
-	case *arrow.BooleanType:
-		return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-	case *arrow.StringType:
-		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.LargeStringType:
-		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-	case *arrow.Decimal128Type:
-		v, err := decimal128.FromFloat64(s.Value, dt.Precision, dt.Scale)
-		if err != nil {
-			return nil, err
-		}
-		return NewDecimal128Scalar(v, dt), nil
-	case *arrow.Decimal256Type:
-		v, err := decimal256.FromFloat64(s.Value, dt.Precision, dt.Scale)
-		if err != nil {
-			return nil, err
-		}
-		return NewDecimal256Scalar(v, dt), nil
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type float64 to type %s", dt)
-}
-
-func NewFloat64Scalar(val float64) *Float64 {
-	return &Float64{scalar{Type: arrow.PrimitiveTypes.Float64, Valid: true}, val}
-}
-
-var numericMap = map[arrow.Type]struct {
-	scalarFunc reflect.Value
-	valueType  reflect.Type
-}{
-	arrow.INT8:    {scalarFunc: reflect.ValueOf(NewInt8Scalar), valueType: reflect.TypeOf(int8(0))},
-	arrow.INT16:   {scalarFunc: reflect.ValueOf(NewInt16Scalar), valueType: reflect.TypeOf(int16(0))},
-	arrow.INT32:   {scalarFunc: reflect.ValueOf(NewInt32Scalar), valueType: reflect.TypeOf(int32(0))},
-	arrow.INT64:   {scalarFunc: reflect.ValueOf(NewInt64Scalar), valueType: reflect.TypeOf(int64(0))},
-	arrow.UINT8:   {scalarFunc: reflect.ValueOf(NewUint8Scalar), valueType: reflect.TypeOf(uint8(0))},
-	arrow.UINT16:  {scalarFunc: reflect.ValueOf(NewUint16Scalar), valueType: reflect.TypeOf(uint16(0))},
-	arrow.UINT32:  {scalarFunc: reflect.ValueOf(NewUint32Scalar), valueType: reflect.TypeOf(uint32(0))},
-	arrow.UINT64:  {scalarFunc: reflect.ValueOf(NewUint64Scalar), valueType: reflect.TypeOf(uint64(0))},
-	arrow.FLOAT32: {scalarFunc: reflect.ValueOf(NewFloat32Scalar), valueType: reflect.TypeOf(float32(0))},
-	arrow.FLOAT64: {scalarFunc: reflect.ValueOf(NewFloat64Scalar), valueType: reflect.TypeOf(float64(0))},
-}
-
-var (
-	_ Scalar = (*Int8)(nil)
-	_ Scalar = (*Int16)(nil)
-	_ Scalar = (*Int32)(nil)
-	_ Scalar = (*Int64)(nil)
-	_ Scalar = (*Uint8)(nil)
-	_ Scalar = (*Uint16)(nil)
-	_ Scalar = (*Uint32)(nil)
-	_ Scalar = (*Uint64)(nil)
-	_ Scalar = (*Float32)(nil)
-	_ Scalar = (*Float64)(nil)
-)
diff --git a/go/arrow/scalar/numeric.gen.go.tmpl b/go/arrow/scalar/numeric.gen.go.tmpl
deleted file mode 100644
index c0733d6e515be..0000000000000
--- a/go/arrow/scalar/numeric.gen.go.tmpl
+++ /dev/null
@@ -1,149 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-{{range .In}}
-type {{.Name}} struct {
-    scalar
-    Value {{.Type}}
-}
-
-func (s *{{.Name}}) Data() []byte {
-    return (*[arrow.{{.Name}}SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *{{.Name}}) equals(rhs Scalar) bool {
-    return s.Value == rhs.(*{{.Name}}).Value
-}
-
-{{if or (eq .Name "Float32") (eq .Name "Float64") }}
-func (s *{{.Name}}) approxEquals(rhs Scalar, eq equalOption) bool {
-    v1 := float64(s.Value)
-    v2 := float64(rhs.(*{{.Name}}).Value)
-    switch {
-    case eq.nansEq:
-        return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
-    default:
-        return v1 == v2 || math.Abs(v1-v2) <= eq.atol
-    }
-}
-{{end}}
-
-func (s *{{.Name}}) value() interface{} {
-    return s.Value
-}
-
-func (s *{{.Name}}) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *{{.Name}}) CastTo(dt arrow.DataType) (Scalar, error) {
-    if !s.Valid {
-        return MakeNullScalar(dt), nil
-    }
-
-    r, ok := numericMap[dt.ID()]
-    if ok {
-        return convertToNumeric(reflect.ValueOf(s.Value), r.valueType, r.scalarFunc), nil
-    }
-
-    switch dt := dt.(type) {
-    case *arrow.BooleanType:
-        return NewBooleanScalar(s.Value != 0), nil
-	case *arrow.Date32Type:
-		return NewDate32Scalar(arrow.Date32(s.Value)), nil
-	case *arrow.Date64Type:
-		return NewDate64Scalar(arrow.Date64(s.Value)), nil
-	case *arrow.Time32Type:
-		return NewTime32Scalar(arrow.Time32(s.Value), dt), nil
-	case *arrow.Time64Type:
-		return NewTime64Scalar(arrow.Time64(s.Value), dt), nil
-	case *arrow.TimestampType:
-		return NewTimestampScalar(arrow.Timestamp(s.Value), dt), nil
-	case *arrow.MonthIntervalType:
-		return NewMonthIntervalScalar(arrow.MonthInterval(s.Value)), nil
-    case *arrow.StringType:
-        return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
-    case *arrow.LargeStringType:
-        return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
-    case *arrow.Decimal128Type:
-{{if eq .Name "Float32" -}}
-        v, err := decimal128.FromFloat32(s.Value, dt.Precision, dt.Scale)
-        if err != nil {
-            return nil, err
-        }
-        return NewDecimal128Scalar(v, dt), nil
-{{else if eq .Name "Float64" -}}
-        v, err := decimal128.FromFloat64(s.Value, dt.Precision, dt.Scale)
-        if err != nil {
-            return nil, err
-        }
-        return NewDecimal128Scalar(v, dt), nil
-{{else if eq .Name "Uint64" -}}
-        return NewDecimal128Scalar(decimal128.FromU64(s.Value), dt), nil
-{{else -}}
-        return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
-{{end -}}
-    case *arrow.Decimal256Type:
-{{if eq .Name "Float32" -}}
-        v, err := decimal256.FromFloat32(s.Value, dt.Precision, dt.Scale)
-        if err != nil {
-            return nil, err
-        }
-        return NewDecimal256Scalar(v, dt), nil
-{{else if eq .Name "Float64" -}}
-        v, err := decimal256.FromFloat64(s.Value, dt.Precision, dt.Scale)
-        if err != nil {
-            return nil, err
-        }
-        return NewDecimal256Scalar(v, dt), nil
-{{else if eq .Name "Uint64" -}}
-        return NewDecimal256Scalar(decimal256.FromU64(s.Value), dt), nil
-{{else -}}
-        return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
-{{end -}}
-	}
-
-	return nil, fmt.Errorf("invalid scalar cast from type {{.Type}} to type %s", dt)
-}
-
-func New{{.Name}}Scalar(val {{.Type}}) *{{.Name}} {
-    return &{{.Name}}{scalar{Type: arrow.PrimitiveTypes.{{.Name}}, Valid: true}, val}
-}
-{{end}}
-
-var numericMap = map[arrow.Type]struct{
-    scalarFunc reflect.Value
-    valueType reflect.Type
-}{
-{{range .In -}}
-    arrow.{{.Name|upper}}: {scalarFunc: reflect.ValueOf(New{{.Name}}Scalar), valueType: reflect.TypeOf({{.Type}}(0)) },
-{{end}}
-}
-
-var (
-{{range .In -}}
-    _ Scalar = (*{{.Name}})(nil)
-{{end}}
-)
diff --git a/go/arrow/scalar/numeric.gen.go.tmpldata b/go/arrow/scalar/numeric.gen.go.tmpldata
deleted file mode 100644
index 415b51b2e16bd..0000000000000
--- a/go/arrow/scalar/numeric.gen.go.tmpldata
+++ /dev/null
@@ -1,52 +0,0 @@
-[
-  {
-    "Name": "Int8",
-    "Type": "int8",
-    "Size": 8
-  },
-  {
-    "Name": "Int16",
-    "Type": "int16",
-    "Size": 16
-  },
-  {
-    "Name": "Int32",
-    "Type": "int32",
-    "Size": 32
-  },
-  {
-    "Name": "Int64",
-    "Type": "int64",
-    "Size": 64
-  },
-  {
-    "Name": "Uint8",
-    "Type": "uint8",
-    "Size": 8
-  },
-  {
-    "Name": "Uint16",
-    "Type": "uint16",
-    "Size": 16
-  },
-  {
-    "Name": "Uint32",
-    "Type": "uint32",
-    "Size": 32
-  },
-  {
-    "Name": "Uint64",
-    "Type": "uint64",
-    "Size": 64
-  },
-  {
-    "Name": "Float32",
-    "Type": "float32",
-    "Size": 32
-  },
-  {
-    "Name": "Float64",
-    "Type": "float64",
-    "Size": 64
-  }
-]
diff --git a/go/arrow/scalar/numeric.gen_test.go b/go/arrow/scalar/numeric.gen_test.go
deleted file mode 100644
index 9349022b65591..0000000000000
--- a/go/arrow/scalar/numeric.gen_test.go
+++ /dev/null
@@ -1,377 +0,0 @@
-// Code generated by scalar/numeric.gen_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBasicInt8Scalars(t *testing.T) {
-	value := int8(1)
-
-	scalarVal := scalar.NewInt8Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Int8
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := int8(2)
-	scalarOther := scalar.NewInt8Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Int8)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarInt8(t *testing.T) {
-	three := scalar.MakeScalar(int8(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewInt8Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewInt8Scalar(3), int8(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Int8, "3", scalar.NewInt8Scalar(3))
-}
-
-func TestBasicInt16Scalars(t *testing.T) {
-	value := int16(1)
-
-	scalarVal := scalar.NewInt16Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Int16
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := int16(2)
-	scalarOther := scalar.NewInt16Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Int16)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarInt16(t *testing.T) {
-	three := scalar.MakeScalar(int16(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewInt16Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewInt16Scalar(3), int16(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Int16, "3", scalar.NewInt16Scalar(3))
-}
-
-func TestBasicInt32Scalars(t *testing.T) {
-	value := int32(1)
-
-	scalarVal := scalar.NewInt32Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Int32
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := int32(2)
-	scalarOther := scalar.NewInt32Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Int32)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarInt32(t *testing.T) {
-	three := scalar.MakeScalar(int32(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewInt32Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewInt32Scalar(3), int32(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Int32, "3", scalar.NewInt32Scalar(3))
-}
-
-func TestBasicInt64Scalars(t *testing.T) {
-	value := int64(1)
-
-	scalarVal := scalar.NewInt64Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Int64
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := int64(2)
-	scalarOther := scalar.NewInt64Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Int64)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarInt64(t *testing.T) {
-	three := scalar.MakeScalar(int64(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewInt64Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewInt64Scalar(3), int64(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Int64, "3", scalar.NewInt64Scalar(3))
-}
-
-func TestBasicUint8Scalars(t *testing.T) {
-	value := uint8(1)
-
-	scalarVal := scalar.NewUint8Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Uint8
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := uint8(2)
-	scalarOther := scalar.NewUint8Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Uint8)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarUint8(t *testing.T) {
-	three := scalar.MakeScalar(uint8(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewUint8Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewUint8Scalar(3), uint8(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Uint8, "3", scalar.NewUint8Scalar(3))
-}
-
-func TestBasicUint16Scalars(t *testing.T) {
-	value := uint16(1)
-
-	scalarVal := scalar.NewUint16Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Uint16
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := uint16(2)
-	scalarOther := scalar.NewUint16Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Uint16)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarUint16(t *testing.T) {
-	three := scalar.MakeScalar(uint16(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewUint16Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewUint16Scalar(3), uint16(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Uint16, "3", scalar.NewUint16Scalar(3))
-}
-
-func TestBasicUint32Scalars(t *testing.T) {
-	value := uint32(1)
-
-	scalarVal := scalar.NewUint32Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Uint32
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := uint32(2)
-	scalarOther := scalar.NewUint32Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Uint32)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarUint32(t *testing.T) {
-	three := scalar.MakeScalar(uint32(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewUint32Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewUint32Scalar(3), uint32(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Uint32, "3", scalar.NewUint32Scalar(3))
-}
-
-func TestBasicUint64Scalars(t *testing.T) {
-	value := uint64(1)
-
-	scalarVal := scalar.NewUint64Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Uint64
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := uint64(2)
-	scalarOther := scalar.NewUint64Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Uint64)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarUint64(t *testing.T) {
-	three := scalar.MakeScalar(uint64(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewUint64Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewUint64Scalar(3), uint64(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Uint64, "3", scalar.NewUint64Scalar(3))
-}
-
-func TestBasicFloat32Scalars(t *testing.T) {
-	value := float32(1)
-
-	scalarVal := scalar.NewFloat32Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Float32
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := float32(2)
-	scalarOther := scalar.NewFloat32Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Float32)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarFloat32(t *testing.T) {
-	three := scalar.MakeScalar(float32(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewFloat32Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewFloat32Scalar(3), float32(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Float32, "3", scalar.NewFloat32Scalar(3))
-}
-
-func TestBasicFloat64Scalars(t *testing.T) {
-	value := float64(1)
-
-	scalarVal := scalar.NewFloat64Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.Float64
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := float64(2)
-	scalarOther := scalar.NewFloat64Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.Float64)
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalarFloat64(t *testing.T) {
-	three := scalar.MakeScalar(float64(3))
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.NewFloat64Scalar(3), three)
-
-	assertMakeScalar(t, scalar.NewFloat64Scalar(3), float64(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.Float64, "3", scalar.NewFloat64Scalar(3))
-}
diff --git a/go/arrow/scalar/numeric.gen_test.go.tmpl b/go/arrow/scalar/numeric.gen_test.go.tmpl
deleted file mode 100644
index f5de3f9dcbfa3..0000000000000
--- a/go/arrow/scalar/numeric.gen_test.go.tmpl
+++ /dev/null
@@ -1,63 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-)
-
-
-{{range .In}}
-func TestBasic{{.Name}}Scalars(t *testing.T) {
-	value := {{.Type}}(1)
-
-	scalarVal := scalar.New{{.Name}}Scalar(value)
-	assert.Equal(t, value, scalarVal.Value)
-	assert.True(t, scalarVal.IsValid())
-	assert.NoError(t, scalarVal.ValidateFull())
-
-	expectedType := arrow.PrimitiveTypes.{{.Name}}
-	assert.True(t, arrow.TypeEqual(scalarVal.DataType(), expectedType))
-
-	other := {{.Type}}(2)
-	scalarOther := scalar.New{{.Name}}Scalar(other)
-	assert.NotEqual(t, scalarVal, scalarOther)
-	assert.False(t, scalar.Equals(scalarVal, scalarOther))
-
-	scalarVal.Value = other
-	assert.Equal(t, other, scalarVal.Value)
-	assert.Equal(t, scalarVal, scalarOther)
-	assert.True(t, scalar.Equals(scalarVal, scalarOther))
-
-	nullVal := scalar.MakeNullScalar(arrow.PrimitiveTypes.{{.Name}})
-	assert.False(t, nullVal.IsValid())
-	assert.NoError(t, nullVal.ValidateFull())
-}
-
-func TestMakeScalar{{.Name}}(t *testing.T) {
-	three := scalar.MakeScalar({{.Type}}(3))	
-	assert.NoError(t, three.ValidateFull())
-	assert.Equal(t, scalar.New{{.Name}}Scalar(3), three)
-
-	assertMakeScalar(t, scalar.New{{.Name}}Scalar(3), {{.Type}}(3))
-	assertParseScalar(t, arrow.PrimitiveTypes.{{.Name}}, "3", scalar.New{{.Name}}Scalar(3))
-}
-{{end}}
diff --git a/go/arrow/scalar/parse.go b/go/arrow/scalar/parse.go
deleted file mode 100644
index 27db42afa69b1..0000000000000
--- a/go/arrow/scalar/parse.go
+++ /dev/null
@@ -1,777 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import (
-	"errors"
-	"fmt"
-	"math/bits"
-	"reflect"
-	"strconv"
-	"strings"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-type TypeToScalar interface {
-	ToScalar() (Scalar, error)
-}
-
-type TypeFromScalar interface {
-	FromStructScalar(*Struct) error
-}
-
-type hasTypename interface {
-	TypeName() string
-}
-
-var (
-	hasTypenameType = reflect.TypeOf((*hasTypename)(nil)).Elem()
-	dataTypeType    = reflect.TypeOf((*arrow.DataType)(nil)).Elem()
-)
-
-func FromScalar(sc *Struct, val interface{}) error {
-	if sc == nil || len(sc.Value) == 0 {
-		return nil
-	}
-
-	if v, ok := val.(TypeFromScalar); ok {
-		return v.FromStructScalar(sc)
-	}
-
-	v := reflect.ValueOf(val)
-	if v.Kind() != reflect.Ptr {
-		return errors.New("fromscalar must be given a pointer to an object to populate")
-	}
-	value := reflect.Indirect(v)
-
-	for i := 0; i < value.Type().NumField(); i++ {
-		fld := value.Type().Field(i)
-		tag := fld.Tag.Get("compute")
-		if tag == "-" || fld.Name == "_type_name" {
-			continue
-		}
-
-		fldVal, err := sc.Field(tag)
-		if err != nil {
-			return err
-		}
-		if err := setFromScalar(fldVal, value.Field(i)); err != nil {
-			return err
-		}
-	}
-
-	return nil
-}
-
-func setFromScalar(s Scalar, v reflect.Value) error {
-	if v.Type() == dataTypeType {
-		v.Set(reflect.ValueOf(s.DataType()))
-		return nil
-	}
-
-	switch s := s.(type) {
-	case BinaryScalar:
-		value := s.value().(*memory.Buffer)
-		switch v.Kind() {
-		case reflect.String:
-			if value == nil {
-				v.SetString("")
-			} else {
-				v.SetString(string(value.Bytes()))
-			}
-		default:
-			if value == nil {
-				v.SetBytes(nil)
-			} else {
-				v.SetBytes(value.Bytes())
-			}
-		}
-	case ListScalar:
-		return fromListScalar(s, v)
-	case *Struct:
-		return FromScalar(s, v.Interface())
-	default:
-		if v.Type() == reflect.TypeOf(arrow.TimeUnit(0)) {
-			v.Set(reflect.ValueOf(arrow.TimeUnit(s.value().(uint32))))
-		} else {
-			v.Set(reflect.ValueOf(s.value()))
-		}
-	}
-	return nil
-}
-
-func ToScalar(val interface{}, mem memory.Allocator) (Scalar, error) {
-	switch v := val.(type) {
-	case arrow.DataType:
-		return MakeScalar(v), nil
-	case TypeToScalar:
-		return v.ToScalar()
-	}
-
-	v := reflect.Indirect(reflect.ValueOf(val))
-	switch v.Kind() {
-	case reflect.Struct:
-		scalars := make([]Scalar, 0, v.Type().NumField())
-		fields := make([]string, 0, v.Type().NumField())
-		for i := 0; i < v.Type().NumField(); i++ {
-			fld := v.Type().Field(i)
-			tag := fld.Tag.Get("compute")
-			if tag == "-" {
-				continue
-			}
-
-			fldVal := v.Field(i)
-			s, err := ToScalar(fldVal.Interface(), mem)
-			if err != nil {
-				return nil, err
-			}
-			scalars = append(scalars, s)
-			fields = append(fields, tag)
-		}
-
-		if v.Type().Implements(hasTypenameType) {
-			t := val.(hasTypename)
-			scalars = append(scalars, NewBinaryScalar(memory.NewBufferBytes([]byte(t.TypeName())), arrow.BinaryTypes.Binary))
-			fields = append(fields, "_type_name")
-		}
-
-		return NewStructScalarWithNames(scalars, fields)
-	case reflect.Slice:
-		return createListScalar(v, mem)
-	default:
-		return MakeScalar(val), nil
-	}
-}
-
-func createListScalar(sliceval reflect.Value, mem memory.Allocator) (Scalar, error) {
-	if sliceval.Kind() != reflect.Slice {
-		return nil, fmt.Errorf("createListScalar only works for slices, not %s", sliceval.Kind())
-	}
-
-	var arr arrow.Array
-
-	switch sliceval.Type().Elem().Kind() {
-	case reflect.String:
-		bldr := array.NewStringBuilder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]string), nil)
-		arr = bldr.NewArray()
-	case reflect.Bool:
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]bool), nil)
-		arr = bldr.NewArray()
-	case reflect.Int8:
-		bldr := array.NewInt8Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]int8), nil)
-		arr = bldr.NewArray()
-	case reflect.Uint8:
-		bldr := array.NewUint8Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]uint8), nil)
-		arr = bldr.NewArray()
-	case reflect.Int16:
-		bldr := array.NewInt16Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]int16), nil)
-		arr = bldr.NewArray()
-	case reflect.Uint16:
-		bldr := array.NewUint16Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]uint16), nil)
-		arr = bldr.NewArray()
-	case reflect.Int32:
-		bldr := array.NewInt32Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]int32), nil)
-		arr = bldr.NewArray()
-	case reflect.Uint32:
-		bldr := array.NewUint32Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]uint32), nil)
-		arr = bldr.NewArray()
-	case reflect.Int64:
-		bldr := array.NewInt64Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]int64), nil)
-		arr = bldr.NewArray()
-	case reflect.Uint64:
-		bldr := array.NewUint64Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(sliceval.Interface().([]uint64), nil)
-		arr = bldr.NewArray()
-	case reflect.Int:
-		if bits.UintSize == 32 {
-			bldr := array.NewInt32Builder(mem)
-			defer bldr.Release()
-			for _, v := range sliceval.Interface().([]int) {
-				bldr.Append(int32(v))
-			}
-			arr = bldr.NewArray()
-			break
-		}
-		bldr := array.NewInt64Builder(mem)
-		defer bldr.Release()
-		for _, v := range sliceval.Interface().([]int) {
-			bldr.Append(int64(v))
-		}
-		arr = bldr.NewArray()
-	case reflect.Uint:
-		if bits.UintSize == 32 {
-			bldr := array.NewUint32Builder(mem)
-			defer bldr.Release()
-			for _, v := range sliceval.Interface().([]uint) {
-				bldr.Append(uint32(v))
-			}
-			arr = bldr.NewArray()
-			break
-		}
-		bldr := array.NewUint64Builder(mem)
-		defer bldr.Release()
-		for _, v := range sliceval.Interface().([]uint) {
-			bldr.Append(uint64(v))
-		}
-		arr = bldr.NewArray()
-	case reflect.Ptr:
-		meta, ok := sliceval.Interface().([]*arrow.Metadata)
-		if !ok {
-			break
-		}
-
-		bldr := array.NewMapBuilder(mem, arrow.BinaryTypes.Binary, arrow.BinaryTypes.Binary, false)
-		defer bldr.Release()
-
-		kbldr := bldr.KeyBuilder().(*array.BinaryBuilder)
-		ibldr := bldr.ItemBuilder().(*array.BinaryBuilder)
-		for _, md := range meta {
-			bldr.Append(true)
-			if md != nil {
-				kbldr.AppendStringValues(md.Keys(), nil)
-				ibldr.AppendStringValues(md.Values(), nil)
-			}
-		}
-
-		arr := bldr.NewMapArray()
-		defer arr.Release()
-
-		return NewListScalar(arr), nil
-	}
-
-	if arr == nil {
-		return nil, fmt.Errorf("createListScalar not implemented for %s", sliceval.Type())
-	}
-
-	defer arr.Release()
-	return MakeScalarParam(arr, arrow.ListOf(arr.DataType()))
-}
-
-func fromListScalar(s ListScalar, v reflect.Value) error {
-	if v.Kind() != reflect.Slice {
-		return fmt.Errorf("could not populate field from list scalar, incompatible types: %s is not a slice", v.Type().String())
-	}
-
-	arr := s.GetList()
-	v.Set(reflect.MakeSlice(v.Type(), arr.Len(), arr.Len()))
-	switch arr := arr.(type) {
-	case *array.Boolean:
-		for i := 0; i < arr.Len(); i++ {
-			v.Index(i).SetBool(arr.Value(i))
-		}
-	case *array.Int8:
-		reflect.Copy(v, reflect.ValueOf(arr.Int8Values()))
-	case *array.Uint8:
-		reflect.Copy(v, reflect.ValueOf(arr.Uint8Values()))
-	case *array.Int16:
-		reflect.Copy(v, reflect.ValueOf(arr.Int16Values()))
-	case *array.Uint16:
-		reflect.Copy(v, reflect.ValueOf(arr.Uint16Values()))
-	case *array.Int32:
-		reflect.Copy(v, reflect.ValueOf(arr.Int32Values()))
-	case *array.Uint32:
-		reflect.Copy(v, reflect.ValueOf(arr.Uint32Values()))
-	case *array.Int64:
-		reflect.Copy(v, reflect.ValueOf(arr.Int64Values()))
-	case *array.Uint64:
-		reflect.Copy(v, reflect.ValueOf(arr.Uint64Values()))
-	case *array.Float32:
-		reflect.Copy(v, reflect.ValueOf(arr.Float32Values()))
-	case *array.Float64:
-		reflect.Copy(v, reflect.ValueOf(arr.Float64Values()))
-	case *array.Binary:
-		for i := 0; i < arr.Len(); i++ {
-			v.Index(i).SetString(arr.ValueString(i))
-		}
-	case *array.String:
-		for i := 0; i < arr.Len(); i++ {
-			v.Index(i).SetString(arr.Value(i))
-		}
-	case *array.Map:
-		// only implementing slice of metadata for now
-		if v.Type().Elem() != reflect.PointerTo(reflect.TypeOf(arrow.Metadata{})) {
-			return fmt.Errorf("unimplemented fromListScalar type %s to %s", arr.DataType(), v.Type().String())
-		}
-
-		var (
-			offsets    = arr.Offsets()
-			keys       = arr.Keys().(*array.Binary)
-			values     = arr.Items().(*array.Binary)
-			metaKeys   []string
-			metaValues []string
-		)
-
-		for i, o := range offsets[:len(offsets)-1] {
-			start := o
-			end := offsets[i+1]
-
-			metaKeys = make([]string, end-start)
-			metaValues = make([]string, end-start)
-			for j := start; j < end; j++ {
-				metaKeys = append(metaKeys, keys.ValueString(int(j)))
-				metaValues = append(metaValues, values.ValueString(int(j)))
-			}
-
-			m := arrow.NewMetadata(metaKeys, metaValues)
-			v.Index(i).Set(reflect.ValueOf(&m))
-		}
-
-	default:
-		return fmt.Errorf("unimplemented fromListScalar type: %s", arr.DataType())
-	}
-
-	return nil
-}
-
-// MakeScalarParam is for converting a value to a scalar when it requires a
-// parameterized data type such as a time type that needs units, or a fixed
-// size list which needs it's size.
-//
-// Will fall back to MakeScalar without the passed in type if not one of the
-// parameterized types.
-func MakeScalarParam(val interface{}, dt arrow.DataType) (Scalar, error) {
-	switch v := val.(type) {
-	case []byte:
-		buf := memory.NewBufferBytes(v)
-		defer buf.Release()
-
-		switch dt.ID() {
-		case arrow.BINARY:
-			return NewBinaryScalar(buf, dt), nil
-		case arrow.LARGE_BINARY:
-			return NewLargeBinaryScalar(buf), nil
-		case arrow.STRING:
-			return NewStringScalarFromBuffer(buf), nil
-		case arrow.LARGE_STRING:
-			return NewLargeStringScalarFromBuffer(buf), nil
-		case arrow.FIXED_SIZE_BINARY:
-			if buf.Len() == dt.(*arrow.FixedSizeBinaryType).ByteWidth {
-				return NewFixedSizeBinaryScalar(buf, dt), nil
-			}
-			return nil, fmt.Errorf("invalid scalar value of len %d for type %s", v, dt)
-		}
-	case *memory.Buffer:
-		switch dt.ID() {
-		case arrow.BINARY:
-			return NewBinaryScalar(v, dt), nil
-		case arrow.LARGE_BINARY:
-			return NewLargeBinaryScalar(v), nil
-		case arrow.STRING:
-			return NewStringScalarFromBuffer(v), nil
-		case arrow.LARGE_STRING:
-			return NewLargeStringScalarFromBuffer(v), nil
-		case arrow.FIXED_SIZE_BINARY:
-			if v.Len() == dt.(*arrow.FixedSizeBinaryType).ByteWidth {
-				return NewFixedSizeBinaryScalar(v, dt), nil
-			}
-			return nil, fmt.Errorf("invalid scalar value of len %d for type %s", v.Len(), dt)
-		}
-	case string:
-		switch {
-		case arrow.IsBaseBinary(dt.ID()):
-			buf := memory.NewBufferBytes([]byte(v))
-			defer buf.Release()
-
-			switch dt.ID() {
-			case arrow.BINARY:
-				return NewBinaryScalar(buf, dt), nil
-			case arrow.LARGE_BINARY:
-				return NewLargeBinaryScalar(buf), nil
-			case arrow.STRING:
-				return NewStringScalar(v), nil
-			case arrow.LARGE_STRING:
-				return NewLargeStringScalar(v), nil
-			}
-		case arrow.IsInteger(dt.ID()):
-			bits := dt.(arrow.FixedWidthDataType).BitWidth()
-			if arrow.IsUnsignedInteger(dt.ID()) {
-				val, err := strconv.ParseUint(v, 0, bits)
-				if err != nil {
-					return nil, err
-				}
-				return MakeUnsignedIntegerScalar(val, bits)
-			}
-			val, err := strconv.ParseInt(v, 0, bits)
-			if err != nil {
-				return nil, err
-			}
-			return MakeIntegerScalar(val, bits)
-		case arrow.IsFixedSizeBinary(dt.ID()):
-			switch dt.ID() {
-			case arrow.FIXED_SIZE_BINARY:
-				ty := dt.(*arrow.FixedSizeBinaryType)
-				if len(v) != ty.ByteWidth {
-					return nil, fmt.Errorf("%w: invalid length for fixed size binary scalar", arrow.ErrInvalid)
-				}
-				return NewFixedSizeBinaryScalar(memory.NewBufferBytes([]byte(v)), ty), nil
-			case arrow.DECIMAL128:
-				ty := dt.(*arrow.Decimal128Type)
-				n, err := decimal128.FromString(v, ty.Precision, ty.Scale)
-				if err != nil {
-					return nil, err
-				}
-				return NewDecimal128Scalar(n, ty), nil
-			case arrow.DECIMAL256:
-				ty := dt.(*arrow.Decimal256Type)
-				n, err := decimal256.FromString(v, ty.Precision, ty.Scale)
-				if err != nil {
-					return nil, err
-				}
-				return NewDecimal256Scalar(n, ty), nil
-			}
-		case arrow.IsFloating(dt.ID()):
-			bits := dt.(arrow.FixedWidthDataType).BitWidth()
-			val, err := strconv.ParseFloat(v, bits)
-			if err != nil {
-				return nil, err
-			}
-			if bits == 32 {
-				return NewFloat32Scalar(float32(val)), nil
-			}
-			return NewFloat64Scalar(val), nil
-		case dt.ID() == arrow.TIMESTAMP:
-			ty := dt.(*arrow.TimestampType)
-			if ty.TimeZone == "" || strings.ToLower(ty.TimeZone) == "utc" {
-				ts, err := arrow.TimestampFromString(v, ty.Unit)
-				if err != nil {
-					return nil, err
-				}
-				return NewTimestampScalar(ts, dt), nil
-			}
-			loc, err := time.LoadLocation(ty.TimeZone)
-			if err != nil {
-				return nil, err
-			}
-			ts, _, err := arrow.TimestampFromStringInLocation(v, ty.Unit, loc)
-			if err != nil {
-				return nil, err
-			}
-			return NewTimestampScalar(ts, ty), nil
-		}
-	case arrow.Time32:
-		return NewTime32Scalar(v, dt), nil
-	case arrow.Time64:
-		return NewTime64Scalar(v, dt), nil
-	case arrow.Timestamp:
-		return NewTimestampScalar(v, dt), nil
-	case arrow.Array:
-		switch dt.ID() {
-		case arrow.LIST:
-			if !arrow.TypeEqual(v.DataType(), dt.(*arrow.ListType).Elem()) {
-				return nil, fmt.Errorf("inconsistent type for list scalar array and data type")
-			}
-			return NewListScalar(v), nil
-		case arrow.LARGE_LIST:
-			if !arrow.TypeEqual(v.DataType(), dt.(*arrow.LargeListType).Elem()) {
-				return nil, fmt.Errorf("inconsistent type for large list scalar array and data type")
-			}
-			return NewLargeListScalar(v), nil
-		case arrow.FIXED_SIZE_LIST:
-			if !arrow.TypeEqual(v.DataType(), dt.(*arrow.FixedSizeListType).Elem()) {
-				return nil, fmt.Errorf("inconsistent type for list scalar array and data type")
-			}
-			return NewFixedSizeListScalarWithType(v, dt), nil
-		case arrow.MAP:
-			if !arrow.TypeEqual(dt.(*arrow.MapType).Elem(), v.DataType()) {
-				return nil, fmt.Errorf("inconsistent type for map scalar type")
-			}
-			return NewMapScalar(v), nil
-		}
-	case decimal128.Num:
-		if _, ok := dt.(*arrow.Decimal128Type); !ok {
-			return nil, fmt.Errorf("mismatch cannot create decimal128 scalar with incorrect data type")
-		}
-
-		return NewDecimal128Scalar(v, dt), nil
-	case decimal256.Num:
-		if _, ok := dt.(*arrow.Decimal256Type); !ok {
-			return nil, fmt.Errorf("mismatch cannot create decimal256 scalar with incorrect data type")
-		}
-
-		return NewDecimal256Scalar(v, dt), nil
-
-	}
-
-	if arrow.IsInteger(dt.ID()) {
-		bits := dt.(arrow.FixedWidthDataType).BitWidth()
-		val := reflect.ValueOf(val)
-		if arrow.IsUnsignedInteger(dt.ID()) {
-			return MakeUnsignedIntegerScalar(val.Convert(reflect.TypeOf(uint64(0))).Uint(), bits)
-		}
-		return MakeIntegerScalar(val.Convert(reflect.TypeOf(int64(0))).Int(), bits)
-	}
-
-	if dt.ID() == arrow.DICTIONARY {
-		return MakeScalarParam(val, dt.(*arrow.DictionaryType).ValueType)
-	}
-	return MakeScalar(val), nil
-}
-
-// MakeScalar creates a scalar of the passed in type via reflection.
-func MakeScalar(val interface{}) Scalar {
-	switch v := val.(type) {
-	case nil:
-		return ScalarNull
-	case bool:
-		return NewBooleanScalar(v)
-	case int8:
-		return NewInt8Scalar(v)
-	case uint8:
-		return NewUint8Scalar(v)
-	case int16:
-		return NewInt16Scalar(v)
-	case uint16:
-		return NewUint16Scalar(v)
-	case int32:
-		return NewInt32Scalar(v)
-	case uint32:
-		return NewUint32Scalar(v)
-	case int64:
-		return NewInt64Scalar(v)
-	case uint64:
-		return NewUint64Scalar(v)
-	case int:
-		// determine size of an int on this system
-		switch bits.UintSize {
-		case 32:
-			return NewInt32Scalar(int32(v))
-		case 64:
-			return NewInt64Scalar(int64(v))
-		}
-	case uint:
-		// determine size of an int on this system
-		switch bits.UintSize {
-		case 32:
-			return NewUint32Scalar(uint32(v))
-		case 64:
-			return NewUint64Scalar(uint64(v))
-		}
-	case []byte:
-		buf := memory.NewBufferBytes(v)
-		defer buf.Release()
-		return NewBinaryScalar(buf, arrow.BinaryTypes.Binary)
-	case string:
-		return NewStringScalar(v)
-	case arrow.Date32:
-		return NewDate32Scalar(v)
-	case arrow.Date64:
-		return NewDate64Scalar(v)
-	case float16.Num:
-		return NewFloat16Scalar(v)
-	case float32:
-		return NewFloat32Scalar(v)
-	case float64:
-		return NewFloat64Scalar(v)
-	case arrow.MonthInterval:
-		return NewMonthIntervalScalar(v)
-	case arrow.DayTimeInterval:
-		return NewDayTimeIntervalScalar(v)
-	case arrow.MonthDayNanoInterval:
-		return NewMonthDayNanoIntervalScalar(v)
-	case arrow.DataType:
-		return MakeNullScalar(v)
-	default:
-		testval := reflect.ValueOf(v)
-		if testval.Type().ConvertibleTo(reflect.TypeOf(uint32(0))) {
-			return NewUint32Scalar(uint32(testval.Convert(reflect.TypeOf(uint32(0))).Uint()))
-		}
-	}
-
-	panic(fmt.Errorf("makescalar not implemented for type value %#v", val))
-}
-
-// MakeIntegerScalar is a helper function for creating an integer scalar of a
-// given bitsize.
-func MakeIntegerScalar(v int64, bitsize int) (Scalar, error) {
-	switch bitsize {
-	case 8:
-		return NewInt8Scalar(int8(v)), nil
-	case 16:
-		return NewInt16Scalar(int16(v)), nil
-	case 32:
-		return NewInt32Scalar(int32(v)), nil
-	case 64:
-		return NewInt64Scalar(int64(v)), nil
-	}
-	return nil, fmt.Errorf("invalid bitsize for integer scalar: %d", bitsize)
-}
-
-// MakeUnsignedIntegerScalar is a helper function for creating an unsigned int
-// scalar of the specified bit width.
-func MakeUnsignedIntegerScalar(v uint64, bitsize int) (Scalar, error) {
-	switch bitsize {
-	case 8:
-		return NewUint8Scalar(uint8(v)), nil
-	case 16:
-		return NewUint16Scalar(uint16(v)), nil
-	case 32:
-		return NewUint32Scalar(uint32(v)), nil
-	case 64:
-		return NewUint64Scalar(uint64(v)), nil
-	}
-	return nil, fmt.Errorf("invalid bitsize for uint scalar: %d", bitsize)
-}
-
-// ParseScalar parses a string to create a scalar of the passed in type. Currently
-// does not support any nested types such as Structs or Lists.
-func ParseScalar(dt arrow.DataType, val string) (Scalar, error) {
-	switch dt.ID() {
-	case arrow.STRING:
-		return NewStringScalar(val), nil
-	case arrow.BINARY:
-		buf := memory.NewBufferBytes([]byte(val))
-		defer buf.Release()
-		return NewBinaryScalar(buf, dt), nil
-	case arrow.FIXED_SIZE_BINARY:
-		if len(val) != dt.(*arrow.FixedSizeBinaryType).ByteWidth {
-			return nil, fmt.Errorf("invalid value %s for scalar of type %s", val, dt)
-		}
-		buf := memory.NewBufferBytes([]byte(val))
-		defer buf.Release()
-		return NewFixedSizeBinaryScalar(buf, dt), nil
-	case arrow.BOOL:
-		val, err := strconv.ParseBool(val)
-		if err != nil {
-			return nil, err
-		}
-		return NewBooleanScalar(val), nil
-	case arrow.INT8, arrow.INT16, arrow.INT32, arrow.INT64:
-		width := dt.(arrow.FixedWidthDataType).BitWidth()
-		val, err := strconv.ParseInt(val, 0, width)
-		if err != nil {
-			return nil, err
-		}
-		return MakeIntegerScalar(val, width)
-	case arrow.UINT8, arrow.UINT16, arrow.UINT32, arrow.UINT64:
-		width := dt.(arrow.FixedWidthDataType).BitWidth()
-		val, err := strconv.ParseUint(val, 0, width)
-		if err != nil {
-			return nil, err
-		}
-		return MakeUnsignedIntegerScalar(val, width)
-	case arrow.FLOAT16:
-		val, err := strconv.ParseFloat(val, 32)
-		if err != nil {
-			return nil, err
-		}
-		return NewFloat16ScalarFromFloat32(float32(val)), nil
-	case arrow.FLOAT32, arrow.FLOAT64:
-		width := dt.(arrow.FixedWidthDataType).BitWidth()
-		val, err := strconv.ParseFloat(val, width)
-		if err != nil {
-			return nil, err
-		}
-		switch width {
-		case 32:
-			return NewFloat32Scalar(float32(val)), nil
-		case 64:
-			return NewFloat64Scalar(float64(val)), nil
-		}
-	case arrow.TIMESTAMP:
-		value, err := arrow.TimestampFromString(val, dt.(*arrow.TimestampType).Unit)
-		if err != nil {
-			return nil, err
-		}
-		return NewTimestampScalar(value, dt), nil
-	case arrow.DURATION:
-		value, err := time.ParseDuration(val)
-		if err != nil {
-			return nil, err
-		}
-		unit := dt.(*arrow.DurationType).Unit
-		var out arrow.Duration
-		switch unit {
-		case arrow.Nanosecond:
-			out = arrow.Duration(value.Nanoseconds())
-		case arrow.Microsecond:
-			out = arrow.Duration(value.Microseconds())
-		case arrow.Millisecond:
-			out = arrow.Duration(value.Milliseconds())
-		case arrow.Second:
-			out = arrow.Duration(value.Seconds())
-		}
-		return NewDurationScalar(out, dt), nil
-	case arrow.DATE32, arrow.DATE64:
-		out, err := time.ParseInLocation("2006-01-02", val, time.UTC)
-		if err != nil {
-			return nil, err
-		}
-		if dt.ID() == arrow.DATE32 {
-			return NewDate32Scalar(arrow.Date32FromTime(out)), nil
-		} else {
-			return NewDate64Scalar(arrow.Date64FromTime(out)), nil
-		}
-	case arrow.TIME32:
-		tm, err := arrow.Time32FromString(val, dt.(*arrow.Time32Type).Unit)
-		if err != nil {
-			return nil, err
-		}
-
-		return NewTime32Scalar(tm, dt), nil
-	case arrow.TIME64:
-		tm, err := arrow.Time64FromString(val, dt.(*arrow.Time64Type).Unit)
-		if err != nil {
-			return nil, err
-		}
-
-		return NewTime64Scalar(tm, dt), nil
-	case arrow.DICTIONARY:
-		return ParseScalar(dt.(*arrow.DictionaryType).ValueType, val)
-	case arrow.DECIMAL128:
-		typ := dt.(*arrow.Decimal128Type)
-		n, err := decimal128.FromString(val, typ.Precision, typ.Scale)
-		if err != nil {
-			return nil, err
-		}
-		return NewDecimal128Scalar(n, typ), nil
-	case arrow.DECIMAL256:
-		typ := dt.(*arrow.Decimal256Type)
-		n, err := decimal256.FromString(val, typ.Precision, typ.Scale)
-		if err != nil {
-			return nil, err
-		}
-		return NewDecimal256Scalar(n, typ), nil
-	}
-
-	return nil, fmt.Errorf("parsing of scalar for type %s not implemented", dt)
-}
diff --git a/go/arrow/scalar/scalar.go b/go/arrow/scalar/scalar.go
deleted file mode 100644
index f81465278a1e0..0000000000000
--- a/go/arrow/scalar/scalar.go
+++ /dev/null
@@ -1,1064 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import (
-	"encoding/binary"
-	"fmt"
-	"hash/maphash"
-	"math"
-	"math/big"
-	"reflect"
-	"strconv"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/encoded"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/xerrors"
-)
-
-// Scalar represents a single value of a specific DataType as opposed to
-// an array.
-//
-// Scalars are useful for passing single value inputs to compute functions
-// (not yet implemented) or for representing individual array elements,
-// (with a non-trivial cost though).
-type Scalar interface {
-	fmt.Stringer
-	// IsValid returns true if the value is non-null, otherwise false.
-	IsValid() bool
-	// The datatype of the value in this scalar
-	DataType() arrow.DataType
-	// Performs cheap validation checks, returns nil if successful
-	Validate() error
-	// Perform more expensive validation checks, returns nil if successful
-	ValidateFull() error
-	// Cast the value to the desired DataType (returns an error if unable to do so)
-	// should take semantics into account and modify the value accordingly.
-	CastTo(arrow.DataType) (Scalar, error)
-
-	// internal only functions for delegation
-	value() interface{}
-	equals(Scalar) bool
-}
-
-type Releasable interface {
-	Release()
-	Retain()
-}
-
-func validateOptional(s *scalar, value interface{}, valueDesc string) error {
-	if s.Valid && value == nil {
-		return fmt.Errorf("%s scalar is marked valid but doesn't have a %s", s.Type, valueDesc)
-	}
-	if !s.Valid && value != nil && !reflect.ValueOf(value).IsNil() {
-		return fmt.Errorf("%s scalar is marked null but has a %s", s.Type, valueDesc)
-	}
-	return nil
-}
-
-type scalar struct {
-	Type  arrow.DataType
-	Valid bool
-}
-
-func (s *scalar) String() string {
-	if !s.Valid {
-		return "null"
-	}
-
-	return "..."
-}
-
-func (s *scalar) IsValid() bool { return s.Valid }
-
-func (s *scalar) Validate() error {
-	if s.Type == nil {
-		return xerrors.New("scalar lacks a type")
-	}
-	return nil
-}
-
-func (s *scalar) ValidateFull() error {
-	return s.Validate()
-}
-
-func (s scalar) DataType() arrow.DataType { return s.Type }
-
-type Null struct {
-	scalar
-}
-
-// by the time we get here we already know that the rhs is the right type
-func (n *Null) equals(s Scalar) bool {
-	debug.Assert(s.DataType().ID() == arrow.NULL, "scalar null equals should only receive null")
-	return true
-}
-
-func (n *Null) value() interface{} { return nil }
-
-func (n *Null) CastTo(dt arrow.DataType) (Scalar, error) {
-	return MakeNullScalar(dt), nil
-}
-
-func (n *Null) Validate() (err error) {
-	err = n.scalar.Validate()
-	if err != nil {
-		return
-	}
-	if n.Valid {
-		err = xerrors.New("null scalar should have Valid = false")
-	}
-	return
-}
-
-func (n *Null) ValidateFull() error { return n.Validate() }
-
-var (
-	ScalarNull *Null = &Null{scalar{Type: arrow.Null, Valid: false}}
-)
-
-type PrimitiveScalar interface {
-	Scalar
-	Data() []byte
-}
-
-type Boolean struct {
-	scalar
-	Value bool
-}
-
-// by the time we get here we already know that the rhs is the right type
-func (n *Boolean) equals(rhs Scalar) bool {
-	return n.Value == rhs.(*Boolean).Value
-}
-
-func (s *Boolean) value() interface{} { return s.Value }
-
-func (s *Boolean) Data() []byte {
-	return (*[1]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Boolean) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Boolean) CastTo(dt arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(dt), nil
-	}
-
-	if dt.ID() == arrow.STRING {
-		return NewStringScalar(strconv.FormatBool(s.Value)), nil
-	}
-
-	val := 0
-	if s.Value {
-		val = 1
-	}
-
-	switch dt.ID() {
-	case arrow.UINT8:
-		return NewUint8Scalar(uint8(val)), nil
-	case arrow.INT8:
-		return NewInt8Scalar(int8(val)), nil
-	case arrow.UINT16:
-		return NewUint16Scalar(uint16(val)), nil
-	case arrow.INT16:
-		return NewInt16Scalar(int16(val)), nil
-	case arrow.UINT32:
-		return NewUint32Scalar(uint32(val)), nil
-	case arrow.INT32:
-		return NewInt32Scalar(int32(val)), nil
-	case arrow.UINT64:
-		return NewUint64Scalar(uint64(val)), nil
-	case arrow.INT64:
-		return NewInt64Scalar(int64(val)), nil
-	case arrow.FLOAT16:
-		return NewFloat16Scalar(float16.New(float32(val))), nil
-	case arrow.FLOAT32:
-		return NewFloat32Scalar(float32(val)), nil
-	case arrow.FLOAT64:
-		return NewFloat64Scalar(float64(val)), nil
-	default:
-		return nil, fmt.Errorf("invalid scalar cast from type bool to type %s", dt)
-	}
-}
-
-func NewBooleanScalar(val bool) *Boolean {
-	return &Boolean{scalar{arrow.FixedWidthTypes.Boolean, true}, val}
-}
-
-type Float16 struct {
-	scalar
-	Value float16.Num
-}
-
-func (s *Float16) value() interface{} { return s.Value }
-
-func (f *Float16) Data() []byte {
-	return (*[arrow.Float16SizeBytes]byte)(unsafe.Pointer(&f.Value))[:]
-}
-func (f *Float16) equals(rhs Scalar) bool {
-	return f.Value == rhs.(*Float16).Value
-}
-func (f *Float16) CastTo(to arrow.DataType) (Scalar, error) {
-	if !f.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if r, ok := numericMap[to.ID()]; ok {
-		return convertToNumeric(reflect.ValueOf(f.Value.Float32()), r.valueType, r.scalarFunc), nil
-	}
-
-	if to.ID() == arrow.BOOL {
-		return NewBooleanScalar(f.Value.Uint16() != 0), nil
-	} else if to.ID() == arrow.STRING {
-		return NewStringScalar(f.Value.String()), nil
-	}
-
-	return nil, fmt.Errorf("cannot cast non-null float16 scalar to type %s", to)
-}
-
-func (s *Float16) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func NewFloat16ScalarFromFloat32(val float32) *Float16 {
-	return NewFloat16Scalar(float16.New(val))
-}
-
-func NewFloat16Scalar(val float16.Num) *Float16 {
-	return &Float16{scalar{arrow.FixedWidthTypes.Float16, true}, val}
-}
-
-type Decimal128 struct {
-	scalar
-	Value decimal128.Num
-}
-
-func (s *Decimal128) Data() []byte {
-	return (*[arrow.Decimal128SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Decimal128) value() interface{} { return s.Value }
-
-func (s *Decimal128) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Decimal128) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Decimal128).Value
-}
-
-func (s *Decimal128) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	dt := s.Type.(*arrow.Decimal128Type)
-
-	switch to.ID() {
-	case arrow.DECIMAL128:
-		to := to.(*arrow.Decimal128Type)
-		newVal, err := s.Value.Rescale(dt.Scale, to.Scale)
-		if err != nil {
-			return nil, err
-		}
-		if !newVal.FitsInPrecision(to.Precision) {
-			return nil, fmt.Errorf("decimal128 value %v will not fit in new precision %d", newVal, to.Precision)
-		}
-		return NewDecimal128Scalar(newVal, to), nil
-	case arrow.DECIMAL256:
-		to := to.(*arrow.Decimal256Type)
-		newVal, err := decimal256.FromDecimal128(s.Value).Rescale(dt.Scale, to.Scale)
-		if err != nil {
-			return nil, err
-		}
-		if !newVal.FitsInPrecision(to.Precision) {
-			return nil, fmt.Errorf("decimal256 value %v will not fit in new precision %d", newVal, to.Precision)
-		}
-		return NewDecimal256Scalar(newVal, to), nil
-	case arrow.STRING:
-		dt := s.Type.(*arrow.Decimal128Type)
-		scale := big.NewFloat(math.Pow10(int(dt.Scale)))
-		val := (&big.Float{}).SetInt(s.Value.BigInt())
-		return NewStringScalar(val.Quo(val, scale).Text('g', int(dt.Precision))), nil
-	}
-
-	return nil, fmt.Errorf("cannot cast non-nil decimal128 scalar to type %s", to)
-}
-
-func NewDecimal128Scalar(val decimal128.Num, typ arrow.DataType) *Decimal128 {
-	return &Decimal128{scalar{typ, true}, val}
-}
-
-type Decimal256 struct {
-	scalar
-	Value decimal256.Num
-}
-
-func (s *Decimal256) Data() []byte {
-	return (*[arrow.Decimal256SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Decimal256) value() interface{} { return s.Value }
-
-func (s *Decimal256) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Decimal256) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Decimal256).Value
-}
-
-func (s *Decimal256) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	dt := s.Type.(*arrow.Decimal256Type)
-
-	switch to.ID() {
-	case arrow.DECIMAL256:
-		to := to.(*arrow.Decimal256Type)
-		newVal, err := s.Value.Rescale(dt.Scale, to.Scale)
-		if err != nil {
-			return nil, err
-		}
-		if !newVal.FitsInPrecision(to.Precision) {
-			return nil, fmt.Errorf("decimal256 value %v will not fit in new precision %d", newVal, to.Precision)
-		}
-		return NewDecimal256Scalar(newVal, to), nil
-	case arrow.STRING:
-		scale := big.NewFloat(math.Pow10(int(dt.Scale)))
-		val := (&big.Float{}).SetInt(s.Value.BigInt())
-		return NewStringScalar(val.Quo(val, scale).Text('g', int(dt.Precision))), nil
-	}
-
-	return nil, fmt.Errorf("cannot cast non-nil decimal256 scalar to type %s", to)
-}
-
-func NewDecimal256Scalar(val decimal256.Num, typ arrow.DataType) *Decimal256 {
-	return &Decimal256{scalar{typ, true}, val}
-}
-
-type Extension struct {
-	scalar
-	Value Scalar
-}
-
-func (s *Extension) value() interface{} { return s.Value }
-func (s *Extension) equals(rhs Scalar) bool {
-	return Equals(s.Value, rhs.(*Extension).Value)
-}
-func (e *Extension) Validate() (err error) {
-	if err = e.scalar.Validate(); err != nil {
-		return err
-	}
-
-	if !e.Valid {
-		if e.Value != nil {
-			err = fmt.Errorf("null %s scalar has storage value", e.Type)
-		}
-		return
-	}
-
-	switch {
-	case e.Value == nil:
-		err = fmt.Errorf("non-null %s scalar doesn't have a storage value", e.Type)
-	case !e.Value.IsValid():
-		err = fmt.Errorf("non-null %s scalar has a null storage value", e.Type)
-	default:
-		if err = e.Value.Validate(); err != nil {
-			err = fmt.Errorf("%s scalar fails validation for storage value: %w", e.Type, err)
-		}
-	}
-	return
-}
-
-func (e *Extension) ValidateFull() error {
-	if err := e.Validate(); err != nil {
-		return err
-	}
-
-	if e.Valid {
-		return e.Value.ValidateFull()
-	}
-	return nil
-}
-
-func (s *Extension) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if arrow.TypeEqual(s.Type, to) {
-		return s, nil
-	}
-
-	return nil, fmt.Errorf("cannot cast non-null extension scalar of type %s to type %s", s.Type, to)
-}
-
-func (s *Extension) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func NewExtensionScalar(storage Scalar, typ arrow.DataType) *Extension {
-	return &Extension{scalar{typ, true}, storage}
-}
-
-func convertToNumeric(v reflect.Value, to reflect.Type, fn reflect.Value) Scalar {
-	return fn.Call([]reflect.Value{v.Convert(to)})[0].Interface().(Scalar)
-}
-
-// MakeNullScalar creates a scalar value of the desired type representing a null value
-func MakeNullScalar(dt arrow.DataType) Scalar {
-	return makeNullFn[byte(dt.ID()&0x3f)](dt)
-}
-
-func invalidScalarType(dt arrow.DataType) Scalar {
-	panic("invalid scalar type: " + dt.ID().String())
-}
-
-type scalarMakeNullFn func(arrow.DataType) Scalar
-
-var makeNullFn [64]scalarMakeNullFn
-
-func init() {
-	makeNullFn = [...]scalarMakeNullFn{
-		arrow.NULL:                    func(dt arrow.DataType) Scalar { return ScalarNull },
-		arrow.BOOL:                    func(dt arrow.DataType) Scalar { return &Boolean{scalar: scalar{dt, false}} },
-		arrow.UINT8:                   func(dt arrow.DataType) Scalar { return &Uint8{scalar: scalar{dt, false}} },
-		arrow.INT8:                    func(dt arrow.DataType) Scalar { return &Int8{scalar: scalar{dt, false}} },
-		arrow.UINT16:                  func(dt arrow.DataType) Scalar { return &Uint16{scalar: scalar{dt, false}} },
-		arrow.INT16:                   func(dt arrow.DataType) Scalar { return &Int16{scalar: scalar{dt, false}} },
-		arrow.UINT32:                  func(dt arrow.DataType) Scalar { return &Uint32{scalar: scalar{dt, false}} },
-		arrow.INT32:                   func(dt arrow.DataType) Scalar { return &Int32{scalar: scalar{dt, false}} },
-		arrow.UINT64:                  func(dt arrow.DataType) Scalar { return &Uint64{scalar: scalar{dt, false}} },
-		arrow.INT64:                   func(dt arrow.DataType) Scalar { return &Int64{scalar: scalar{dt, false}} },
-		arrow.FLOAT16:                 func(dt arrow.DataType) Scalar { return &Float16{scalar: scalar{dt, false}} },
-		arrow.FLOAT32:                 func(dt arrow.DataType) Scalar { return &Float32{scalar: scalar{dt, false}} },
-		arrow.FLOAT64:                 func(dt arrow.DataType) Scalar { return &Float64{scalar: scalar{dt, false}} },
-		arrow.STRING:                  func(dt arrow.DataType) Scalar { return &String{&Binary{scalar: scalar{dt, false}}} },
-		arrow.BINARY:                  func(dt arrow.DataType) Scalar { return &Binary{scalar: scalar{dt, false}} },
-		arrow.FIXED_SIZE_BINARY:       func(dt arrow.DataType) Scalar { return &FixedSizeBinary{&Binary{scalar: scalar{dt, false}}} },
-		arrow.DATE32:                  func(dt arrow.DataType) Scalar { return &Date32{scalar: scalar{dt, false}} },
-		arrow.DATE64:                  func(dt arrow.DataType) Scalar { return &Date64{scalar: scalar{dt, false}} },
-		arrow.TIMESTAMP:               func(dt arrow.DataType) Scalar { return &Timestamp{scalar: scalar{dt, false}} },
-		arrow.TIME32:                  func(dt arrow.DataType) Scalar { return &Time32{scalar: scalar{dt, false}} },
-		arrow.TIME64:                  func(dt arrow.DataType) Scalar { return &Time64{scalar: scalar{dt, false}} },
-		arrow.INTERVAL_MONTHS:         func(dt arrow.DataType) Scalar { return &MonthInterval{scalar: scalar{dt, false}} },
-		arrow.INTERVAL_DAY_TIME:       func(dt arrow.DataType) Scalar { return &DayTimeInterval{scalar: scalar{dt, false}} },
-		arrow.INTERVAL_MONTH_DAY_NANO: func(dt arrow.DataType) Scalar { return &MonthDayNanoInterval{scalar: scalar{dt, false}} },
-		arrow.DECIMAL128:              func(dt arrow.DataType) Scalar { return &Decimal128{scalar: scalar{dt, false}} },
-		arrow.LIST:                    func(dt arrow.DataType) Scalar { return &List{scalar: scalar{dt, false}} },
-		arrow.STRUCT: func(dt arrow.DataType) Scalar {
-			typ := dt.(*arrow.StructType)
-			values := make([]Scalar, typ.NumFields())
-			for i, f := range typ.Fields() {
-				values[i] = MakeNullScalar(f.Type)
-			}
-			return &Struct{scalar: scalar{dt, false}, Value: values}
-		},
-		arrow.SPARSE_UNION: func(dt arrow.DataType) Scalar {
-			typ := dt.(*arrow.SparseUnionType)
-			if typ.NumFields() == 0 {
-				panic("cannot make scalar of empty union type")
-			}
-			values := make([]Scalar, typ.NumFields())
-			for i, f := range typ.Fields() {
-				values[i] = MakeNullScalar(f.Type)
-			}
-			return NewSparseUnionScalar(values, typ.TypeCodes()[0], typ)
-		},
-		arrow.DENSE_UNION: func(dt arrow.DataType) Scalar {
-			typ := dt.(*arrow.DenseUnionType)
-			if typ.NumFields() == 0 {
-				panic("cannot make scalar of empty union type")
-			}
-			return NewDenseUnionScalar(MakeNullScalar(typ.Fields()[0].Type), typ.TypeCodes()[0], typ)
-		},
-		arrow.DICTIONARY:   func(dt arrow.DataType) Scalar { return NewNullDictScalar(dt) },
-		arrow.LARGE_STRING: func(dt arrow.DataType) Scalar { return &LargeString{&String{&Binary{scalar: scalar{dt, false}}}} },
-		arrow.LARGE_BINARY: func(dt arrow.DataType) Scalar { return &LargeBinary{&Binary{scalar: scalar{dt, false}}} },
-		arrow.LARGE_LIST:   func(dt arrow.DataType) Scalar { return &LargeList{&List{scalar: scalar{dt, false}}} },
-		arrow.DECIMAL256:   func(dt arrow.DataType) Scalar { return &Decimal256{scalar: scalar{dt, false}} },
-		arrow.MAP:          func(dt arrow.DataType) Scalar { return &Map{&List{scalar: scalar{dt, false}}} },
-		arrow.EXTENSION: func(dt arrow.DataType) Scalar {
-			return &Extension{scalar: scalar{dt, false}, Value: MakeNullScalar(dt.(arrow.ExtensionType).StorageType())}
-		},
-		arrow.FIXED_SIZE_LIST: func(dt arrow.DataType) Scalar { return &FixedSizeList{&List{scalar: scalar{dt, false}}} },
-		arrow.DURATION:        func(dt arrow.DataType) Scalar { return &Duration{scalar: scalar{dt, false}} },
-		arrow.RUN_END_ENCODED: func(dt arrow.DataType) Scalar { return &RunEndEncoded{scalar: scalar{dt, false}} },
-		// invalid data types to fill out array size 2^6 - 1
-		63: invalidScalarType,
-	}
-
-	f := numericMap[arrow.FLOAT16]
-	f.scalarFunc = reflect.ValueOf(NewFloat16ScalarFromFloat32)
-	f.valueType = reflect.TypeOf(float32(0))
-	numericMap[arrow.FLOAT16] = f
-}
-
-// GetScalar creates a scalar object from the value at a given index in the
-// passed in array, returns an error if unable to do so.
-func GetScalar(arr arrow.Array, idx int) (Scalar, error) {
-	if arr.DataType().ID() != arrow.DICTIONARY && arr.IsNull(idx) {
-		return MakeNullScalar(arr.DataType()), nil
-	}
-
-	if idx >= arr.Len() {
-		return nil, fmt.Errorf("%w: called GetScalar with index larger than array len",
-			arrow.ErrIndex)
-	}
-
-	switch arr := arr.(type) {
-	case *array.Binary:
-		buf := memory.NewBufferBytes(arr.Value(idx))
-		defer buf.Release()
-		return NewBinaryScalar(buf, arr.DataType()), nil
-	case *array.LargeBinary:
-		buf := memory.NewBufferBytes(arr.Value(idx))
-		defer buf.Release()
-		return NewLargeBinaryScalar(buf), nil
-	case *array.Boolean:
-		return NewBooleanScalar(arr.Value(idx)), nil
-	case *array.Date32:
-		return NewDate32Scalar(arr.Value(idx)), nil
-	case *array.Date64:
-		return NewDate64Scalar(arr.Value(idx)), nil
-	case *array.DayTimeInterval:
-		return NewDayTimeIntervalScalar(arr.Value(idx)), nil
-	case *array.Decimal128:
-		return NewDecimal128Scalar(arr.Value(idx), arr.DataType()), nil
-	case *array.Decimal256:
-		return NewDecimal256Scalar(arr.Value(idx), arr.DataType()), nil
-	case *array.Duration:
-		return NewDurationScalar(arr.Value(idx), arr.DataType()), nil
-	case array.ExtensionArray:
-		storage, err := GetScalar(arr.Storage(), idx)
-		if err != nil {
-			return nil, err
-		}
-		return NewExtensionScalar(storage, arr.DataType()), nil
-	case *array.FixedSizeBinary:
-		buf := memory.NewBufferBytes(arr.Value(idx))
-		defer buf.Release()
-		return NewFixedSizeBinaryScalar(buf, arr.DataType()), nil
-	case *array.FixedSizeList:
-		size := int(arr.DataType().(*arrow.FixedSizeListType).Len())
-		slice := array.NewSlice(arr.ListValues(), int64(idx*size), int64((idx+1)*size))
-		defer slice.Release()
-		return NewFixedSizeListScalarWithType(slice, arr.DataType()), nil
-	case *array.Float16:
-		return NewFloat16Scalar(arr.Value(idx)), nil
-	case *array.Float32:
-		return NewFloat32Scalar(arr.Value(idx)), nil
-	case *array.Float64:
-		return NewFloat64Scalar(arr.Value(idx)), nil
-	case *array.Int8:
-		return NewInt8Scalar(arr.Value(idx)), nil
-	case *array.Int16:
-		return NewInt16Scalar(arr.Value(idx)), nil
-	case *array.Int32:
-		return NewInt32Scalar(arr.Value(idx)), nil
-	case *array.Int64:
-		return NewInt64Scalar(arr.Value(idx)), nil
-	case *array.Uint8:
-		return NewUint8Scalar(arr.Value(idx)), nil
-	case *array.Uint16:
-		return NewUint16Scalar(arr.Value(idx)), nil
-	case *array.Uint32:
-		return NewUint32Scalar(arr.Value(idx)), nil
-	case *array.Uint64:
-		return NewUint64Scalar(arr.Value(idx)), nil
-	case *array.List:
-		offsets := arr.Offsets()
-		slice := array.NewSlice(arr.ListValues(), int64(offsets[idx]), int64(offsets[idx+1]))
-		defer slice.Release()
-		return NewListScalar(slice), nil
-	case *array.LargeList:
-		offsets := arr.Offsets()
-		slice := array.NewSlice(arr.ListValues(), int64(offsets[idx]), int64(offsets[idx+1]))
-		defer slice.Release()
-		return NewLargeListScalar(slice), nil
-	case *array.Map:
-		offsets := arr.Offsets()
-		slice := array.NewSlice(arr.ListValues(), int64(offsets[idx]), int64(offsets[idx+1]))
-		defer slice.Release()
-		return NewMapScalar(slice), nil
-	case *array.MonthInterval:
-		return NewMonthIntervalScalar(arr.Value(idx)), nil
-	case *array.MonthDayNanoInterval:
-		return NewMonthDayNanoIntervalScalar(arr.Value(idx)), nil
-	case *array.Null:
-		return ScalarNull, nil
-	case *array.String:
-		return NewStringScalar(arr.Value(idx)), nil
-	case *array.LargeString:
-		return NewLargeStringScalar(arr.Value(idx)), nil
-	case *array.Struct:
-		children := make(Vector, arr.NumField())
-		for i := range children {
-			child, err := GetScalar(arr.Field(i), idx)
-			if err != nil {
-				return nil, err
-			}
-			children[i] = child
-		}
-		return NewStructScalar(children, arr.DataType()), nil
-	case *array.Time32:
-		return NewTime32Scalar(arr.Value(idx), arr.DataType()), nil
-	case *array.Time64:
-		return NewTime64Scalar(arr.Value(idx), arr.DataType()), nil
-	case *array.Timestamp:
-		return NewTimestampScalar(arr.Value(idx), arr.DataType()), nil
-	case *array.RunEndEncoded:
-		physicalIndex := encoded.FindPhysicalIndex(arr.Data(), arr.Offset()+idx)
-		value, err := GetScalar(arr.Values(), physicalIndex)
-		if err != nil {
-			return nil, err
-		}
-
-		return NewRunEndEncodedScalar(value, arr.DataType().(*arrow.RunEndEncodedType)), nil
-	case *array.Dictionary:
-		ty := arr.DataType().(*arrow.DictionaryType)
-		valid := arr.IsValid(idx)
-		scalar := &Dictionary{scalar: scalar{ty, valid}}
-		if valid {
-			index, err := MakeScalarParam(arr.GetValueIndex(idx), ty.IndexType)
-			if err != nil {
-				return nil, err
-			}
-
-			scalar.Value.Index = index
-		} else {
-			scalar.Value.Index = MakeNullScalar(ty.IndexType)
-		}
-
-		scalar.Value.Dict = arr.Dictionary()
-		scalar.Value.Dict.Retain()
-		return scalar, nil
-	case *array.SparseUnion:
-		var err error
-		typeCode := arr.TypeCode(idx)
-		children := make([]Scalar, arr.NumFields())
-		defer func() {
-			if err != nil {
-				for _, c := range children {
-					if c == nil {
-						break
-					}
-
-					if v, ok := c.(Releasable); ok {
-						v.Release()
-					}
-				}
-			}
-		}()
-
-		for i := range arr.UnionType().Fields() {
-			if children[i], err = GetScalar(arr.Field(i), idx); err != nil {
-				return nil, err
-			}
-		}
-		return NewSparseUnionScalar(children, typeCode, arr.UnionType().(*arrow.SparseUnionType)), nil
-	case *array.DenseUnion:
-		typeCode := arr.TypeCode(idx)
-		child := arr.Field(arr.ChildID(idx))
-		offset := arr.ValueOffset(idx)
-		value, err := GetScalar(child, int(offset))
-		if err != nil {
-			return nil, err
-		}
-		return NewDenseUnionScalar(value, typeCode, arr.UnionType().(*arrow.DenseUnionType)), nil
-	}
-
-	return nil, fmt.Errorf("cannot create scalar from array of type %s", arr.DataType())
-}
-
-// MakeArrayOfNull creates an array of size length which is all null of the given data type.
-//
-// Deprecated: Use array.MakeArrayOfNull
-func MakeArrayOfNull(dt arrow.DataType, length int, mem memory.Allocator) arrow.Array {
-	var (
-		buffers  = []*memory.Buffer{nil}
-		children []arrow.ArrayData
-	)
-
-	buffers[0] = memory.NewResizableBuffer(mem)
-	buffers[0].Resize(int(bitutil.BytesForBits(int64(length))))
-	defer buffers[0].Release()
-
-	switch t := dt.(type) {
-	case arrow.NestedType:
-		fieldList := t.Fields()
-		children = make([]arrow.ArrayData, len(fieldList))
-		for i, f := range fieldList {
-			arr := MakeArrayOfNull(f.Type, length, mem)
-			defer arr.Release()
-			children[i] = arr.Data()
-		}
-	case arrow.FixedWidthDataType:
-		buffers = append(buffers, memory.NewResizableBuffer(mem))
-		buffers[1].Resize(int(bitutil.BytesForBits(int64(t.BitWidth()))) * length)
-		defer buffers[1].Release()
-	case arrow.BinaryDataType:
-		buffers = append(buffers, memory.NewResizableBuffer(mem), nil)
-		buffers[1].Resize(arrow.Int32Traits.BytesRequired(length + 1))
-		defer buffers[1].Release()
-	}
-
-	data := array.NewData(dt, length, buffers, children, length, 0)
-	defer data.Release()
-	return array.MakeFromData(data)
-}
-
-// MakeArrayFromScalar returns an array filled with the scalar value repeated length times.
-// Not yet implemented for nested types such as Struct, List, extension and so on.
-func MakeArrayFromScalar(sc Scalar, length int, mem memory.Allocator) (arrow.Array, error) {
-	if !sc.IsValid() {
-		return MakeArrayOfNull(sc.DataType(), length, mem), nil
-	}
-
-	createOffsets := func(valLength int32) *memory.Buffer {
-		buffer := memory.NewResizableBuffer(mem)
-		buffer.Resize(arrow.Int32Traits.BytesRequired(length + 1))
-
-		out := arrow.Int32Traits.CastFromBytes(buffer.Bytes())
-		for i, offset := 0, int32(0); i < length+1; i, offset = i+1, offset+valLength {
-			out[i] = offset
-		}
-		return buffer
-	}
-
-	createBuffer := func(data []byte) *memory.Buffer {
-		buffer := memory.NewResizableBuffer(mem)
-		buffer.Resize(len(data) * length)
-
-		out := buffer.Bytes()
-		copy(out, data)
-		for j := len(data); j < len(out); j *= 2 {
-			copy(out[j:], out[:j])
-		}
-		return buffer
-	}
-
-	finishFixedWidth := func(data []byte) arrow.ArrayData {
-		buffer := createBuffer(data)
-		defer buffer.Release()
-		return array.NewData(sc.DataType(), length, []*memory.Buffer{nil, buffer}, nil, 0, 0)
-	}
-
-	switch s := sc.(type) {
-	case *Boolean:
-		data := memory.NewResizableBuffer(mem)
-		defer data.Release()
-		data.Resize(int(bitutil.BytesForBits(int64(length))))
-		c := byte(0x00)
-		if s.Value {
-			c = 0xFF
-		}
-		memory.Set(data.Bytes(), c)
-		return array.NewBoolean(length, data, nil, 0), nil
-	case BinaryScalar:
-		if s.DataType().ID() == arrow.FIXED_SIZE_BINARY {
-			data := finishFixedWidth(s.Data())
-			defer data.Release()
-			return array.MakeFromData(data), nil
-		}
-
-		valuesBuf := createBuffer(s.Data())
-		offsetsBuf := createOffsets(int32(len(s.Data())))
-		data := array.NewData(sc.DataType(), length, []*memory.Buffer{nil, offsetsBuf, valuesBuf}, nil, 0, 0)
-		defer func() {
-			valuesBuf.Release()
-			offsetsBuf.Release()
-			data.Release()
-		}()
-		return array.MakeFromData(data), nil
-	case *Decimal128:
-		data := finishFixedWidth(arrow.Decimal128Traits.CastToBytes([]decimal128.Num{s.Value}))
-		defer data.Release()
-		return array.MakeFromData(data), nil
-	case *Decimal256:
-		data := finishFixedWidth(arrow.Decimal256Traits.CastToBytes([]decimal256.Num{s.Value}))
-		defer data.Release()
-		return array.MakeFromData(data), nil
-	case PrimitiveScalar:
-		data := finishFixedWidth(s.Data())
-		defer data.Release()
-		return array.MakeFromData(data), nil
-	case *List:
-		values := make([]arrow.Array, length)
-		for i := range values {
-			values[i] = s.Value
-		}
-
-		valueArray, err := array.Concatenate(values, mem)
-		if err != nil {
-			return nil, err
-		}
-		defer valueArray.Release()
-
-		offsetsBuf := createOffsets(int32(s.Value.Len()))
-		defer offsetsBuf.Release()
-		data := array.NewData(s.DataType(), length, []*memory.Buffer{nil, offsetsBuf}, []arrow.ArrayData{valueArray.Data()}, 0, 0)
-		defer data.Release()
-		return array.MakeFromData(data), nil
-	case *FixedSizeList:
-		values := make([]arrow.Array, length)
-		for i := range values {
-			values[i] = s.Value
-		}
-
-		valueArray, err := array.Concatenate(values, mem)
-		if err != nil {
-			return nil, err
-		}
-		defer valueArray.Release()
-
-		data := array.NewData(s.DataType(), length, []*memory.Buffer{nil}, []arrow.ArrayData{valueArray.Data()}, 0, 0)
-		defer data.Release()
-		return array.MakeFromData(data), nil
-	case *Struct:
-		fields := make([]arrow.ArrayData, 0)
-		for _, v := range s.Value {
-			arr, err := MakeArrayFromScalar(v, length, mem)
-			if err != nil {
-				return nil, err
-			}
-			defer arr.Release()
-			fields = append(fields, arr.Data())
-		}
-
-		data := array.NewData(s.DataType(), length, []*memory.Buffer{nil}, fields, 0, 0)
-		defer data.Release()
-		return array.NewStructData(data), nil
-	case *Map:
-		structArr := s.GetList().(*array.Struct)
-		keys := make([]arrow.Array, length)
-		values := make([]arrow.Array, length)
-		for i := 0; i < length; i++ {
-			keys[i] = structArr.Field(0)
-			values[i] = structArr.Field(1)
-		}
-
-		keyArr, err := array.Concatenate(keys, mem)
-		if err != nil {
-			return nil, err
-		}
-		defer keyArr.Release()
-
-		valueArr, err := array.Concatenate(values, mem)
-		if err != nil {
-			return nil, err
-		}
-		defer valueArr.Release()
-
-		offsetsBuf := createOffsets(int32(structArr.Len()))
-		outStructArr := array.NewData(structArr.DataType(), keyArr.Len(), []*memory.Buffer{nil}, []arrow.ArrayData{keyArr.Data(), valueArr.Data()}, 0, 0)
-		data := array.NewData(s.DataType(), length, []*memory.Buffer{nil, offsetsBuf}, []arrow.ArrayData{outStructArr}, 0, 0)
-		defer func() {
-			offsetsBuf.Release()
-			outStructArr.Release()
-			data.Release()
-		}()
-		return array.MakeFromData(data), nil
-	case *RunEndEncoded:
-		dt := s.DataType().(*arrow.RunEndEncodedType)
-
-		var endBytes []byte
-		switch dt.RunEnds().ID() {
-		case arrow.INT16:
-			if length > math.MaxInt16 {
-				return nil, fmt.Errorf("%w: length overflows int16 run ends", arrow.ErrInvalid)
-			}
-
-			v := int16(length)
-			endBytes = (*[2]byte)(unsafe.Pointer(&v))[:]
-		case arrow.INT32:
-			if length > math.MaxInt32 {
-				return nil, fmt.Errorf("%w: final length overflows int32 run ends", arrow.ErrInvalid)
-			}
-
-			v := int32(length)
-			endBytes = (*[4]byte)(unsafe.Pointer(&v))[:]
-		case arrow.INT64:
-			v := int64(length)
-			endBytes = (*[8]byte)(unsafe.Pointer(&v))[:]
-		}
-
-		endBuf := createBuffer(endBytes)
-		defer endBuf.Release()
-
-		valueArr, err := MakeArrayFromScalar(s.Value, 1, mem)
-		if err != nil {
-			return nil, err
-		}
-		defer valueArr.Release()
-
-		runEndsData := array.NewData(dt.RunEnds(), 1, []*memory.Buffer{nil, endBuf}, nil, 0, 0)
-		defer runEndsData.Release()
-
-		finalData := array.NewData(s.DataType(), length, []*memory.Buffer{nil},
-			[]arrow.ArrayData{runEndsData, valueArr.Data()}, 0, 0)
-		defer finalData.Release()
-		return array.NewRunEndEncodedData(finalData), nil
-	default:
-		return nil, fmt.Errorf("array from scalar not yet implemented for type %s", sc.DataType())
-	}
-}
-
-func Hash(seed maphash.Seed, s Scalar) uint64 {
-	var h maphash.Hash
-	h.SetSeed(seed)
-	binary.Write(&h, endian.Native, arrow.HashType(seed, s.DataType()))
-
-	out := h.Sum64()
-	if !s.IsValid() {
-		return out
-	}
-
-	hash := func() {
-		out ^= h.Sum64()
-		h.Reset()
-	}
-
-	valueHash := func(v interface{}) uint64 {
-		switch v := v.(type) {
-		case int32:
-			h.Write((*[4]byte)(unsafe.Pointer(&v))[:])
-		case int64:
-			h.Write((*[8]byte)(unsafe.Pointer(&v))[:])
-		case arrow.Date32:
-			binary.Write(&h, endian.Native, uint32(v))
-		case arrow.Time32:
-			binary.Write(&h, endian.Native, uint32(v))
-		case arrow.MonthInterval:
-			binary.Write(&h, endian.Native, uint32(v))
-		case arrow.Duration:
-			binary.Write(&h, endian.Native, uint64(v))
-		case arrow.Date64:
-			binary.Write(&h, endian.Native, uint64(v))
-		case arrow.Time64:
-			binary.Write(&h, endian.Native, uint64(v))
-		case arrow.Timestamp:
-			binary.Write(&h, endian.Native, uint64(v))
-		case float16.Num:
-			binary.Write(&h, endian.Native, v.Uint16())
-		case decimal128.Num:
-			binary.Write(&h, endian.Native, v.LowBits())
-			hash()
-			binary.Write(&h, endian.Native, uint64(v.HighBits()))
-		case decimal256.Num:
-			arr := v.Array()
-			binary.Write(&h, endian.Native, arr[3])
-			hash()
-			binary.Write(&h, endian.Native, arr[2])
-			hash()
-			binary.Write(&h, endian.Native, arr[1])
-			hash()
-			binary.Write(&h, endian.Native, arr[0])
-		}
-		hash()
-		return out
-	}
-
-	h.Reset()
-	switch s := s.(type) {
-	case *Null:
-	case *Extension:
-		out ^= Hash(seed, s.Value)
-	case *DayTimeInterval:
-		return valueHash(s.Value.Days) & valueHash(s.Value.Milliseconds)
-	case *MonthDayNanoInterval:
-		return valueHash(s.Value.Months) & valueHash(s.Value.Days) & valueHash(s.Value.Nanoseconds)
-	case *SparseUnion:
-		// typecode is ignored when comparing for equality, so don't hash it either
-		out ^= Hash(seed, s.Value[s.ChildID])
-	case *DenseUnion:
-		// typecode is ignored when comparing equality, so don't hash it either
-		out ^= Hash(seed, s.Value)
-	case *Dictionary:
-		if s.Value.Index.IsValid() {
-			out ^= Hash(seed, s.Value.Index)
-		}
-	case *RunEndEncoded:
-		return Hash(seed, s.Value)
-	case PrimitiveScalar:
-		h.Write(s.Data())
-		hash()
-	case TemporalScalar:
-		return valueHash(s.value())
-	case ListScalar:
-		array.Hash(&h, s.GetList().Data())
-		hash()
-	case *Struct:
-		for _, c := range s.Value {
-			if c.IsValid() {
-				out ^= Hash(seed, c)
-			}
-		}
-	}
-
-	return out
-}
diff --git a/go/arrow/scalar/scalar_test.go b/go/arrow/scalar/scalar_test.go
deleted file mode 100644
index 0775eecedd027..0000000000000
--- a/go/arrow/scalar/scalar_test.go
+++ /dev/null
@@ -1,1490 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar_test
-
-import (
-	"bytes"
-	"fmt"
-	"hash/maphash"
-	"math/bits"
-	"strings"
-	"testing"
-	"time"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/scalar"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-func assertScalarsEqual(t *testing.T, expected, actual scalar.Scalar) {
-	assert.Truef(t, scalar.Equals(expected, actual), "Expected:\n%s\nActual:\n%s", expected, actual)
-	seed := maphash.MakeSeed()
-	assert.Equal(t, scalar.Hash(seed, expected), scalar.Hash(seed, actual))
-}
-
-func assertMakeScalarParam(t *testing.T, expected scalar.Scalar, dt arrow.DataType, val interface{}) {
-	out, err := scalar.MakeScalarParam(val, dt)
-	assert.NoError(t, err)
-	assert.NoError(t, out.Validate())
-	assert.NoError(t, out.ValidateFull())
-	assertScalarsEqual(t, expected, out)
-}
-
-func assertMakeScalar(t *testing.T, expected scalar.Scalar, val interface{}) {
-	out := scalar.MakeScalar(val)
-	assert.NoError(t, out.Validate())
-	assert.NoError(t, out.ValidateFull())
-	assertScalarsEqual(t, expected, out)
-}
-
-func assertParseScalar(t *testing.T, dt arrow.DataType, str string, expected scalar.Scalar) {
-	out, err := scalar.ParseScalar(dt, str)
-	assert.NoError(t, err)
-	assert.NoError(t, out.Validate())
-	assert.NoError(t, out.ValidateFull())
-	assertScalarsEqual(t, expected, out)
-}
-
-func TestMakeScalarInt(t *testing.T) {
-	three := scalar.MakeScalar(int(3))
-	assert.NoError(t, three.ValidateFull())
-
-	var expected scalar.Scalar
-	if bits.UintSize == 32 {
-		expected = scalar.NewInt32Scalar(3)
-	} else {
-		expected = scalar.NewInt64Scalar(3)
-	}
-
-	assert.Equal(t, expected, three)
-	assertMakeScalar(t, expected, int(3))
-	assertParseScalar(t, expected.DataType(), "3", expected)
-}
-
-func checkMakeNullScalar(t *testing.T, dt arrow.DataType) scalar.Scalar {
-	s := scalar.MakeNullScalar(dt)
-	assert.NoError(t, s.Validate())
-	assert.NoError(t, s.ValidateFull())
-	assert.True(t, arrow.TypeEqual(s.DataType(), dt))
-	assert.False(t, s.IsValid())
-	return s
-}
-
-func TestMakeScalarUint(t *testing.T) {
-	three := scalar.MakeScalar(uint(3))
-	assert.NoError(t, three.ValidateFull())
-
-	var expected scalar.Scalar
-	if bits.UintSize == 32 {
-		expected = scalar.NewUint32Scalar(3)
-	} else {
-		expected = scalar.NewUint64Scalar(3)
-	}
-
-	assert.Equal(t, expected, three)
-	assertMakeScalar(t, expected, uint(3))
-	assertParseScalar(t, expected.DataType(), "3", expected)
-}
-
-func TestBasicDecimal128(t *testing.T) {
-	ty := &arrow.Decimal128Type{Precision: 3, Scale: 2}
-	pi := scalar.NewDecimal128Scalar(decimal128.New(0, 314), ty)
-	pi2 := scalar.NewDecimal128Scalar(decimal128.FromI64(628), ty)
-	null := checkMakeNullScalar(t, ty)
-
-	assert.NoError(t, pi.ValidateFull())
-	assert.True(t, pi.IsValid())
-	assert.Equal(t, decimal128.FromI64(314), pi.Value)
-
-	assert.NoError(t, null.ValidateFull())
-	assert.False(t, null.IsValid())
-
-	assert.False(t, scalar.Equals(pi, pi2))
-}
-
-func TestBasicDecimal256(t *testing.T) {
-	ty := &arrow.Decimal256Type{Precision: 3, Scale: 2}
-	pi := scalar.NewDecimal256Scalar(decimal256.New(0, 0, 0, 314), ty)
-	pi2 := scalar.NewDecimal256Scalar(decimal256.FromI64(628), ty)
-	null := checkMakeNullScalar(t, ty)
-
-	assert.NoError(t, pi.ValidateFull())
-	assert.True(t, pi.IsValid())
-	assert.Equal(t, decimal256.FromI64(314), pi.Value)
-
-	assert.NoError(t, null.ValidateFull())
-	assert.False(t, null.IsValid())
-
-	assert.False(t, scalar.Equals(pi, pi2))
-}
-
-func TestBinaryScalarBasics(t *testing.T) {
-	data := "test data"
-	buf := memory.NewBufferBytes([]byte(data))
-
-	value := scalar.NewBinaryScalar(buf, arrow.BinaryTypes.Binary)
-	assert.NoError(t, value.ValidateFull())
-	assert.True(t, bytes.Equal(value.Value.Bytes(), buf.Bytes()))
-	assert.True(t, value.IsValid())
-	assert.True(t, arrow.TypeEqual(value.DataType(), arrow.BinaryTypes.Binary))
-
-	nullValue := checkMakeNullScalar(t, arrow.BinaryTypes.Binary)
-	assert.False(t, nullValue.IsValid())
-	assert.Nil(t, nullValue.(*scalar.Binary).Value)
-	assert.NoError(t, nullValue.ValidateFull())
-
-	value2 := scalar.NewStringScalarFromBuffer(buf)
-	assert.NoError(t, value2.ValidateFull())
-	assert.True(t, bytes.Equal(value2.Value.Bytes(), buf.Bytes()))
-	assert.True(t, value2.IsValid())
-	assert.True(t, arrow.TypeEqual(arrow.BinaryTypes.String, value2.DataType()))
-
-	assert.NotEqual(t, value2, value)
-	assert.False(t, scalar.Equals(value2, value))
-
-	value3 := scalar.NewStringScalar(data)
-	assert.True(t, scalar.Equals(value2, value3))
-}
-
-func TestBinaryScalarValidateErrors(t *testing.T) {
-	sc := scalar.NewBinaryScalar(memory.NewBufferBytes([]byte("xxx")), arrow.BinaryTypes.Binary)
-	sc.Valid = false
-	assert.Error(t, sc.Validate())
-	assert.Error(t, sc.ValidateFull())
-
-	nullScalar := scalar.MakeNullScalar(arrow.BinaryTypes.Binary)
-	nullScalar.(*scalar.Binary).Valid = true
-	assert.Error(t, sc.Validate())
-	assert.Error(t, sc.ValidateFull())
-}
-
-func TestStringMakeScalar(t *testing.T) {
-	assertMakeScalar(t, scalar.NewStringScalar("three"), "three")
-	assertParseScalar(t, arrow.BinaryTypes.String, "three", scalar.NewStringScalar("three"))
-}
-
-func TestStringScalarValidateErrors(t *testing.T) {
-	sc := scalar.NewStringScalar("xxx")
-	sc.Valid = false
-	assert.Error(t, sc.Validate())
-	assert.Error(t, sc.ValidateFull())
-
-	nullScalar := scalar.MakeNullScalar(arrow.BinaryTypes.String)
-	nullScalar.(*scalar.String).Valid = true
-	assert.Error(t, sc.Validate())
-	assert.Error(t, sc.ValidateFull())
-
-	// invalid utf8
-	sc = scalar.NewStringScalarFromBuffer(memory.NewBufferBytes([]byte{0xff}))
-	assert.NoError(t, sc.Validate())
-	assert.Error(t, sc.ValidateFull())
-}
-
-func TestFixedSizeBinaryScalarBasics(t *testing.T) {
-	data := "test data"
-	buf := memory.NewBufferBytes([]byte(data))
-
-	exType := &arrow.FixedSizeBinaryType{ByteWidth: 9}
-
-	value := scalar.NewFixedSizeBinaryScalar(buf, exType)
-	assert.NoError(t, value.ValidateFull())
-	assert.True(t, bytes.Equal(value.Value.Bytes(), buf.Bytes()))
-	assert.True(t, value.Valid)
-	assert.True(t, arrow.TypeEqual(value.DataType(), exType))
-
-	nullValue := scalar.MakeNullScalar(exType)
-	assert.NoError(t, nullValue.ValidateFull())
-	assert.False(t, nullValue.IsValid())
-	assert.Nil(t, nullValue.(*scalar.FixedSizeBinary).Value)
-}
-
-func TestFixedSizeBinaryMakeScalar(t *testing.T) {
-	data := "test data"
-	buf := memory.NewBufferBytes([]byte(data))
-	exType := &arrow.FixedSizeBinaryType{ByteWidth: 9}
-
-	assertMakeScalarParam(t, scalar.NewFixedSizeBinaryScalar(buf, exType), exType, buf)
-	assertParseScalar(t, exType, data, scalar.NewFixedSizeBinaryScalar(buf, exType))
-
-	_, err := scalar.MakeScalarParam(buf.Bytes()[:3], exType)
-	assert.Error(t, err)
-	_, err = scalar.ParseScalar(exType, data[:3])
-	assert.Error(t, err)
-}
-
-func TestFixedSizeBinaryScalarValidateErrors(t *testing.T) {
-	data := "test data"
-	buf := memory.NewBufferBytes([]byte(data))
-	exType := &arrow.FixedSizeBinaryType{ByteWidth: 9}
-
-	value := scalar.NewFixedSizeBinaryScalar(buf, exType)
-	assert.NoError(t, value.ValidateFull())
-
-	value.Value.Reset(buf.Bytes()[:1])
-	assert.Error(t, value.ValidateFull())
-}
-
-func TestDateScalarBasics(t *testing.T) {
-	i32Val := arrow.Date32(1)
-	date32Val := scalar.NewDate32Scalar(i32Val)
-	date32Null := scalar.MakeNullScalar(arrow.FixedWidthTypes.Date32)
-	assert.NoError(t, date32Null.ValidateFull())
-	assert.NoError(t, date32Val.ValidateFull())
-
-	assert.True(t, arrow.TypeEqual(arrow.FixedWidthTypes.Date32, date32Val.DataType()))
-	assert.True(t, date32Val.IsValid())
-	assert.False(t, date32Null.IsValid())
-
-	i64Val := arrow.Date64(2)
-	date64Val := scalar.NewDate64Scalar(i64Val)
-	date64Null := scalar.MakeNullScalar(arrow.FixedWidthTypes.Date64)
-	assert.NoError(t, date64Null.ValidateFull())
-	assert.NoError(t, date64Val.ValidateFull())
-
-	assert.True(t, arrow.TypeEqual(arrow.FixedWidthTypes.Date64, date64Val.DataType()))
-	assert.True(t, date64Val.IsValid())
-	assert.False(t, date64Null.IsValid())
-}
-
-func TestDateScalarMakeScalar(t *testing.T) {
-	assertMakeScalar(t, scalar.NewDate32Scalar(arrow.Date32(1)), arrow.Date32(1))
-	assertParseScalar(t, arrow.FixedWidthTypes.Date32, "1454-10-22", scalar.NewDate32Scalar(arrow.Date32(-188171)))
-	assert.Equal(t, "1454-10-22", scalar.NewDate32Scalar(arrow.Date32(-188171)).String())
-
-	assertMakeScalar(t, scalar.NewDate64Scalar(arrow.Date64(1)), arrow.Date64(1))
-	assertParseScalar(t, arrow.FixedWidthTypes.Date64, "1454-10-22", scalar.NewDate64Scalar(arrow.Date64(-188171*(time.Hour*24).Milliseconds())))
-	assert.Equal(t, "1454-10-22", scalar.NewDate64Scalar(arrow.Date64(-188171*(time.Hour*24).Milliseconds())).String())
-
-	d32 := scalar.NewDate32Scalar(arrow.Date32(-188171))
-	d64 := scalar.NewDate64Scalar(arrow.Date64(-188171 * (time.Hour * 24).Milliseconds()))
-
-	d32Casted, err := d32.CastTo(arrow.FixedWidthTypes.Date64)
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(d64, d32Casted))
-
-	d64Casted, err := d64.CastTo(arrow.FixedWidthTypes.Date32)
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(d64Casted, d32))
-}
-
-func TestTimeScalarsBasics(t *testing.T) {
-	typ1 := arrow.FixedWidthTypes.Time32ms
-	typ2 := arrow.FixedWidthTypes.Time32s
-	typ3 := arrow.FixedWidthTypes.Time64us
-	typ4 := arrow.FixedWidthTypes.Time64ns
-
-	t32val := arrow.Time32(1)
-	time32Val := scalar.NewTime32Scalar(t32val, typ1)
-	time32Null := scalar.MakeNullScalar(typ2)
-	assert.NoError(t, time32Val.ValidateFull())
-	assert.NoError(t, time32Null.ValidateFull())
-
-	assert.Equal(t, t32val, time32Val.Value)
-	assert.True(t, arrow.TypeEqual(time32Val.Type, typ1))
-	assert.True(t, time32Val.IsValid())
-	assert.False(t, time32Null.IsValid())
-	assert.True(t, arrow.TypeEqual(time32Null.DataType(), typ2))
-
-	t64val := arrow.Time64(1)
-	time64Val := scalar.NewTime64Scalar(t64val, typ3)
-	time64Null := scalar.MakeNullScalar(typ4)
-	assert.NoError(t, time64Val.ValidateFull())
-	assert.NoError(t, time64Null.ValidateFull())
-
-	assert.Equal(t, t64val, time64Val.Value)
-	assert.True(t, arrow.TypeEqual(time64Val.Type, typ3))
-	assert.True(t, time64Val.IsValid())
-	assert.False(t, time64Null.IsValid())
-	assert.True(t, arrow.TypeEqual(time64Null.DataType(), typ4))
-}
-
-func TestTimeScalarsMakeScalar(t *testing.T) {
-	typ1 := arrow.FixedWidthTypes.Time32s
-	typ2 := arrow.FixedWidthTypes.Time32ms
-	typ3 := arrow.FixedWidthTypes.Time64us
-	typ4 := arrow.FixedWidthTypes.Time64ns
-
-	assertMakeScalarParam(t, scalar.NewTime32Scalar(arrow.Time32(1), typ1), typ1, arrow.Time32(1))
-	assertMakeScalarParam(t, scalar.NewTime32Scalar(arrow.Time32(1), typ2), typ2, arrow.Time32(1))
-	assertMakeScalarParam(t, scalar.NewTime64Scalar(arrow.Time64(1), typ3), typ3, arrow.Time64(1))
-	assertMakeScalarParam(t, scalar.NewTime64Scalar(arrow.Time64(1), typ4), typ4, arrow.Time64(1))
-
-	tententen := 60*(60*(10)+10) + 10
-	assertParseScalar(t, typ1, "10:10:10", scalar.NewTime32Scalar(arrow.Time32(tententen), typ1))
-	assert.Equal(t, "10:10:10", scalar.NewTime32Scalar(arrow.Time32(tententen), typ1).String())
-
-	tententen = 1000*tententen + 123
-	assertParseScalar(t, typ2, "10:10:10.123", scalar.NewTime32Scalar(arrow.Time32(tententen), typ2))
-	assert.Equal(t, "10:10:10.123", scalar.NewTime32Scalar(arrow.Time32(tententen), typ2).String())
-
-	tententen = 1000*tententen + 456
-	assertParseScalar(t, typ3, "10:10:10.123456", scalar.NewTime64Scalar(arrow.Time64(tententen), typ3))
-	assert.Equal(t, "10:10:10.123456", scalar.NewTime64Scalar(arrow.Time64(tententen), typ3).String())
-
-	tententen = 1000*tententen + 789
-	assertParseScalar(t, typ4, "10:10:10.123456789", scalar.NewTime64Scalar(arrow.Time64(tententen), typ4))
-	assert.Equal(t, "10:10:10.123456789", scalar.NewTime64Scalar(arrow.Time64(tententen), typ4).String())
-}
-
-func TestTimestampScalarBasics(t *testing.T) {
-	typ1 := arrow.FixedWidthTypes.Timestamp_ms
-	typ2 := arrow.FixedWidthTypes.Timestamp_s
-
-	val1 := arrow.Timestamp(1)
-	val2 := arrow.Timestamp(2)
-	tsVal1 := scalar.NewTimestampScalar(val1, typ1)
-	tsVal2 := scalar.NewTimestampScalar(val2, typ2)
-	tsNull := scalar.MakeNullScalar(typ1)
-	assert.NoError(t, tsVal1.ValidateFull())
-	assert.NoError(t, tsVal2.ValidateFull())
-	assert.NoError(t, tsNull.ValidateFull())
-
-	assert.Equal(t, val1, tsVal1.Value)
-
-	assert.True(t, arrow.TypeEqual(tsVal1.Type, typ1))
-	assert.True(t, arrow.TypeEqual(tsVal2.DataType(), typ2))
-	assert.True(t, tsVal1.Valid)
-	assert.True(t, tsVal2.IsValid())
-	assert.False(t, tsNull.IsValid())
-	assert.True(t, arrow.TypeEqual(tsNull.DataType(), typ1))
-
-	assert.NotEqual(t, tsVal1, tsVal2)
-	assert.False(t, scalar.Equals(tsVal1, tsVal2))
-	assert.NotEqual(t, tsVal1, tsNull)
-	assert.False(t, scalar.Equals(tsVal1, tsNull))
-	assert.NotEqual(t, tsVal2, tsNull)
-	assert.False(t, scalar.Equals(tsVal2, tsNull))
-}
-
-func TestTimestampScalarsMakeScalar(t *testing.T) {
-	typ1 := arrow.FixedWidthTypes.Timestamp_ms
-	typ2 := arrow.FixedWidthTypes.Timestamp_s
-	typ3 := arrow.FixedWidthTypes.Timestamp_us
-	typ4 := arrow.FixedWidthTypes.Timestamp_ns
-
-	epochPlus1s := "1970-01-01 00:00:01"
-
-	assertMakeScalarParam(t, scalar.NewTimestampScalar(arrow.Timestamp(1), typ1), typ1, arrow.Timestamp(1))
-	assertParseScalar(t, typ1, epochPlus1s, scalar.NewTimestampScalar(1000, typ1))
-
-	assertMakeScalarParam(t, scalar.NewTimestampScalar(arrow.Timestamp(1), typ2), typ2, arrow.Timestamp(1))
-	assertParseScalar(t, typ2, epochPlus1s, scalar.NewTimestampScalar(arrow.Timestamp(1), typ2))
-
-	assertMakeScalarParam(t, scalar.NewTimestampScalar(arrow.Timestamp(1), typ3), typ3, arrow.Timestamp(1))
-	assertParseScalar(t, typ3, epochPlus1s, scalar.NewTimestampScalar(arrow.Timestamp(1000*1000), typ3))
-
-	assertMakeScalarParam(t, scalar.NewTimestampScalar(arrow.Timestamp(1), typ4), typ4, arrow.Timestamp(1))
-	assertParseScalar(t, typ4, epochPlus1s, scalar.NewTimestampScalar(arrow.Timestamp(1000*1000*1000), typ4))
-}
-
-func TestTimestampScalarsCasting(t *testing.T) {
-	convert := func(in, out arrow.TimeUnit, val arrow.Timestamp) arrow.Timestamp {
-		s, err := scalar.NewTimestampScalar(val, &arrow.TimestampType{Unit: in}).CastTo(&arrow.TimestampType{Unit: out})
-		assert.NoError(t, err)
-		return s.(*scalar.Timestamp).Value
-	}
-
-	assert.EqualValues(t, convert(arrow.Second, arrow.Millisecond, arrow.Timestamp(1)), 1000)
-	assert.EqualValues(t, convert(arrow.Second, arrow.Nanosecond, arrow.Timestamp(1)), 1000000000)
-
-	assert.EqualValues(t, convert(arrow.Nanosecond, arrow.Microsecond, arrow.Timestamp(1234)), 1)
-	assert.EqualValues(t, convert(arrow.Microsecond, arrow.Millisecond, arrow.Timestamp(4567)), 4)
-
-	str, err := scalar.NewTimestampScalar(arrow.Timestamp(1024), arrow.FixedWidthTypes.Timestamp_ms).CastTo(arrow.BinaryTypes.String)
-	assert.NoError(t, err)
-	assert.Truef(t, scalar.Equals(scalar.NewStringScalar("1970-01-01 00:00:01.024"), str), "expected: '1970-01-01 00:00:01.024', got: %s", str)
-
-	i64, err := scalar.NewTimestampScalar(arrow.Timestamp(1024), arrow.FixedWidthTypes.Timestamp_ms).CastTo(arrow.PrimitiveTypes.Int64)
-	assert.NoError(t, err)
-	assert.Truef(t, scalar.Equals(scalar.NewInt64Scalar(1024), i64), "expected 1024, got %s", i64)
-
-	const millisInDay = 86400000
-	d64, err := scalar.NewTimestampScalar(arrow.Timestamp(1024*millisInDay+3), arrow.FixedWidthTypes.Timestamp_ms).CastTo(arrow.FixedWidthTypes.Date64)
-	assert.NoError(t, err)
-
-	d32, err := scalar.NewTimestampScalar(arrow.Timestamp(1024*millisInDay+3), arrow.FixedWidthTypes.Timestamp_ms).CastTo(arrow.FixedWidthTypes.Date32)
-	assert.NoError(t, err)
-
-	assert.True(t, scalar.Equals(scalar.NewDate32Scalar(arrow.Date32(1024)), d32))
-	assert.Truef(t, scalar.Equals(scalar.NewDate64Scalar(arrow.Date64(1024*millisInDay)), d64), "got %s", d64)
-	tms, err := scalar.NewDate64Scalar(arrow.Date64(1024 * millisInDay)).CastTo(arrow.FixedWidthTypes.Timestamp_ms)
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(tms, scalar.NewTimestampScalar(arrow.Timestamp(1024*millisInDay), arrow.FixedWidthTypes.Timestamp_ms)))
-
-	tms, err = scalar.NewDate32Scalar(arrow.Date32(1024)).CastTo(arrow.FixedWidthTypes.Timestamp_ms)
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(tms, scalar.NewTimestampScalar(arrow.Timestamp(1024*millisInDay), arrow.FixedWidthTypes.Timestamp_ms)))
-}
-
-func TestDurationScalarBasics(t *testing.T) {
-	typ1 := arrow.FixedWidthTypes.Duration_ms
-	typ2 := arrow.FixedWidthTypes.Duration_s
-
-	val1 := arrow.Duration(1)
-	val2 := arrow.Duration(2)
-	tsVal1 := scalar.NewDurationScalar(val1, typ1)
-	tsVal2 := scalar.NewDurationScalar(val2, typ2)
-	tsNull := scalar.MakeNullScalar(typ1)
-	assert.NoError(t, tsVal1.ValidateFull())
-	assert.NoError(t, tsVal2.ValidateFull())
-	assert.NoError(t, tsNull.ValidateFull())
-
-	assert.Equal(t, val1, tsVal1.Value)
-
-	assert.True(t, arrow.TypeEqual(tsVal1.Type, typ1))
-	assert.True(t, arrow.TypeEqual(tsVal2.DataType(), typ2))
-	assert.True(t, tsVal1.Valid)
-	assert.False(t, tsNull.IsValid())
-	assert.True(t, arrow.TypeEqual(typ1, tsNull.DataType()))
-
-	assert.False(t, scalar.Equals(tsVal1, tsVal2))
-	assert.False(t, scalar.Equals(tsVal1, tsNull))
-	assert.False(t, scalar.Equals(tsNull, tsVal2))
-}
-
-func TestMonthIntervalScalarBasics(t *testing.T) {
-	typ1 := arrow.FixedWidthTypes.MonthInterval
-	typ2 := arrow.FixedWidthTypes.MonthInterval
-
-	val1 := arrow.MonthInterval(1)
-	val2 := arrow.MonthInterval(2)
-	tsVal1 := scalar.NewMonthIntervalScalar(val1)
-	tsVal2 := scalar.NewMonthIntervalScalar(val2)
-	tsNull := scalar.MakeNullScalar(typ1)
-	assert.NoError(t, tsVal1.ValidateFull())
-	assert.NoError(t, tsVal2.ValidateFull())
-	assert.NoError(t, tsNull.ValidateFull())
-
-	assert.Equal(t, val1, tsVal1.Value)
-
-	assert.True(t, arrow.TypeEqual(tsVal1.Type, typ1))
-	assert.True(t, arrow.TypeEqual(tsVal2.DataType(), typ2))
-	assert.True(t, tsVal1.Valid)
-	assert.False(t, tsNull.IsValid())
-	assert.True(t, arrow.TypeEqual(typ1, tsNull.DataType()))
-
-	assert.False(t, scalar.Equals(tsVal1, tsVal2))
-	assert.False(t, scalar.Equals(tsVal1, tsNull))
-	assert.False(t, scalar.Equals(tsNull, tsVal2))
-}
-
-func TestDayTimeIntervalScalarBasics(t *testing.T) {
-	typ := arrow.FixedWidthTypes.DayTimeInterval
-
-	val1 := arrow.DayTimeInterval{Days: 1, Milliseconds: 1}
-	val2 := arrow.DayTimeInterval{Days: 2, Milliseconds: 2}
-	tsVal1 := scalar.NewDayTimeIntervalScalar(val1)
-	tsVal2 := scalar.NewDayTimeIntervalScalar(val2)
-	tsNull := scalar.MakeNullScalar(typ)
-	assert.NoError(t, tsVal1.ValidateFull())
-	assert.NoError(t, tsVal2.ValidateFull())
-	assert.NoError(t, tsNull.ValidateFull())
-
-	assert.Equal(t, val1, tsVal1.Value)
-
-	assert.True(t, arrow.TypeEqual(tsVal1.Type, typ))
-	assert.True(t, arrow.TypeEqual(tsVal2.DataType(), typ))
-	assert.True(t, tsVal1.Valid)
-	assert.False(t, tsNull.IsValid())
-	assert.True(t, arrow.TypeEqual(typ, tsNull.DataType()))
-
-	assert.False(t, scalar.Equals(tsVal1, tsVal2))
-	assert.False(t, scalar.Equals(tsVal1, tsNull))
-	assert.False(t, scalar.Equals(tsNull, tsVal2))
-}
-
-func TestMonthDayNanoIntervalScalarBasics(t *testing.T) {
-	typ := arrow.FixedWidthTypes.MonthDayNanoInterval
-
-	val1 := arrow.MonthDayNanoInterval{Months: 1, Days: 2, Nanoseconds: 3000}
-	val2 := arrow.MonthDayNanoInterval{Months: 2, Days: 3, Nanoseconds: 4000}
-	tsVal1 := scalar.NewMonthDayNanoIntervalScalar(val1)
-	tsVal2 := scalar.NewMonthDayNanoIntervalScalar(val2)
-	tsNull := scalar.MakeNullScalar(typ)
-	assert.NoError(t, tsVal1.ValidateFull())
-	assert.NoError(t, tsVal2.ValidateFull())
-	assert.NoError(t, tsNull.ValidateFull())
-
-	assert.Equal(t, val1, tsVal1.Value)
-
-	assert.True(t, arrow.TypeEqual(tsVal1.Type, typ))
-	assert.True(t, arrow.TypeEqual(tsVal2.DataType(), typ))
-	assert.True(t, tsVal1.Valid)
-	assert.False(t, tsNull.IsValid())
-	assert.True(t, arrow.TypeEqual(typ, tsNull.DataType()))
-
-	assert.False(t, scalar.Equals(tsVal1, tsVal2))
-	assert.False(t, scalar.Equals(tsVal1, tsNull))
-	assert.False(t, scalar.Equals(tsNull, tsVal2))
-}
-
-func TestNumericScalarCasts(t *testing.T) {
-	tests := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Int64,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Uint64,
-		arrow.PrimitiveTypes.Float32,
-		arrow.PrimitiveTypes.Float64,
-		arrow.FixedWidthTypes.Float16,
-	}
-
-	temporalTypes := []arrow.DataType{
-		arrow.FixedWidthTypes.Date32,
-		arrow.FixedWidthTypes.Date64,
-		arrow.FixedWidthTypes.Date64,
-		arrow.FixedWidthTypes.Time32ms,
-		arrow.FixedWidthTypes.Time64us,
-		arrow.FixedWidthTypes.Timestamp_ms,
-		arrow.FixedWidthTypes.MonthInterval,
-	}
-
-	falseScalar := scalar.NewBooleanScalar(false)
-	trueScalar := scalar.NewBooleanScalar(true)
-	nullBool := scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean)
-
-	for _, tt := range tests {
-		t.Run(tt.ID().String()+"from bool", func(t *testing.T) {
-			zero, _ := scalar.ParseScalar(tt, "0")
-			zeroFromBool, err := falseScalar.CastTo(tt)
-			assert.NoError(t, err)
-			assert.True(t, scalar.Equals(zero, zeroFromBool))
-
-			one, _ := scalar.ParseScalar(tt, "1")
-			oneFromBool, err := trueScalar.CastTo(tt)
-			assert.NoError(t, err)
-			assert.True(t, scalar.Equals(one, oneFromBool))
-		})
-		t.Run(tt.ID().String(), func(t *testing.T) {
-			for _, repr := range []string{"0", "1", "3"} {
-				nullTest := scalar.MakeNullScalar(tt)
-				assert.Equal(t, "null", nullTest.String())
-
-				castedNull, err := nullBool.CastTo(tt)
-				assert.NoError(t, err)
-				assert.True(t, scalar.Equals(castedNull, nullTest))
-
-				s, err := scalar.ParseScalar(tt, repr)
-				assert.NoError(t, err)
-
-				for _, other := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Uint32} {
-					otherNull, err := nullTest.CastTo(other)
-					assert.NoError(t, err)
-
-					expectedNull := scalar.MakeNullScalar(other)
-					assert.True(t, scalar.Equals(otherNull, expectedNull))
-
-					otherScalar, err := scalar.ParseScalar(other, repr)
-					assert.NoError(t, err)
-
-					castToOther, err := s.CastTo(other)
-					assert.NoError(t, err)
-					assert.True(t, scalar.Equals(castToOther, otherScalar))
-
-					castFromOther, err := otherScalar.CastTo(tt)
-					assert.NoError(t, err)
-					assert.True(t, scalar.Equals(castFromOther, s))
-				}
-
-				castToBool, err := s.CastTo(arrow.FixedWidthTypes.Boolean)
-				assert.NoError(t, err)
-				assert.True(t, castToBool.IsValid())
-				assert.Equal(t, repr != "0", castToBool.(*scalar.Boolean).Value)
-
-				castFromStr, err := scalar.NewStringScalar(repr).CastTo(tt)
-				assert.NoError(t, err)
-
-				assert.True(t, scalar.Equals(castFromStr, s))
-				assert.Equal(t, repr, s.String())
-				if tt == arrow.FixedWidthTypes.Float16 {
-					continue
-				}
-
-				for _, tmtyp := range temporalTypes {
-					castToTemporal, err := s.CastTo(tmtyp)
-					assert.NoError(t, err)
-					assert.NoError(t, castToTemporal.ValidateFull())
-					assert.True(t, arrow.TypeEqual(tmtyp, castToTemporal.DataType()))
-				}
-
-				if tt == arrow.PrimitiveTypes.Float32 || tt == arrow.PrimitiveTypes.Float64 {
-					continue
-				}
-
-				castToStr, err := s.CastTo(arrow.BinaryTypes.String)
-				assert.NoError(t, err)
-				assert.Equal(t, repr, string(castToStr.(*scalar.String).Value.Bytes()))
-			}
-		})
-	}
-}
-
-type ListScalarSuite struct {
-	suite.Suite
-
-	typ arrow.DataType
-	val arrow.Array
-}
-
-func (l *ListScalarSuite) SetupTest() {
-	bld := array.NewInt16Builder(memory.DefaultAllocator)
-	defer bld.Release()
-	bld.AppendValues([]int16{1, 2, 0}, []bool{true, true, false})
-
-	l.val = bld.NewInt16Array()
-}
-
-func (l *ListScalarSuite) TearDownTest() {
-	l.val.Release()
-}
-
-func (l *ListScalarSuite) TestBasics() {
-	s, err := scalar.MakeScalarParam(l.val, l.typ)
-	l.NoError(err)
-
-	l.NoError(s.ValidateFull())
-	l.True(s.IsValid())
-	l.True(arrow.TypeEqual(l.typ, s.DataType()))
-
-	nullScalar := checkMakeNullScalar(l.T(), l.typ)
-	l.NoError(nullScalar.ValidateFull())
-	l.False(nullScalar.IsValid())
-	l.True(arrow.TypeEqual(nullScalar.DataType(), l.typ))
-
-	l.Equal("[1 2 (null)]", s.String())
-}
-
-func (l *ListScalarSuite) TestValidateErrors() {
-	// inconsistent isvalid / value
-	s, _ := scalar.MakeScalarParam(l.val, l.typ)
-	switch s := s.(type) {
-	case *scalar.List:
-		s.Valid = false
-	case *scalar.FixedSizeList:
-		s.Valid = false
-	}
-	l.Error(s.Validate())
-
-	s, _ = scalar.MakeScalarParam(l.val, l.typ)
-	switch s := s.(type) {
-	case *scalar.List:
-		s.Value = nil
-	case *scalar.FixedSizeList:
-		s.Value = nil
-	}
-	l.Error(s.Validate())
-
-	// inconsistent child type
-	bld := array.NewInt32Builder(memory.DefaultAllocator)
-	defer bld.Release()
-	bld.AppendValues([]int32{1, 2, 0}, []bool{true, true, false})
-	arr := bld.NewArray()
-	defer arr.Release()
-
-	s, _ = scalar.MakeScalarParam(l.val, l.typ)
-	switch s := s.(type) {
-	case *scalar.List:
-		s.Value = arr
-	case *scalar.FixedSizeList:
-		s.Value = arr
-	}
-	l.Error(s.Validate())
-}
-
-func TestListScalars(t *testing.T) {
-	ls := new(ListScalarSuite)
-	ls.typ = arrow.ListOf(arrow.PrimitiveTypes.Int16)
-	suite.Run(t, ls)
-	ls.typ = arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int16)
-	suite.Run(t, ls)
-}
-
-func TestFixedSizeListScalarWrongNumber(t *testing.T) {
-	typ := arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int16)
-	bld := array.NewInt16Builder(memory.DefaultAllocator)
-	defer bld.Release()
-	bld.AppendValues([]int16{1, 2, 5}, nil)
-	arr := bld.NewArray()
-	defer arr.Release()
-
-	sc := scalar.NewFixedSizeListScalarWithType(arr, typ)
-	assert.NoError(t, sc.ValidateFull())
-
-	sc.Type = arrow.FixedSizeListOf(4, arrow.PrimitiveTypes.Int16)
-	assert.Error(t, sc.ValidateFull())
-}
-
-func TestMapScalarBasics(t *testing.T) {
-	bld := array.NewStructBuilder(memory.DefaultAllocator, arrow.StructOf(
-		arrow.Field{Name: "key", Type: arrow.BinaryTypes.String, Nullable: false},
-		arrow.Field{Name: "value", Type: arrow.PrimitiveTypes.Int8, Nullable: true}))
-	defer bld.Release()
-	bld.FieldBuilder(0).(*array.StringBuilder).AppendValues([]string{"a", "b"}, nil)
-	bld.FieldBuilder(1).(*array.Int8Builder).AppendValues([]int8{1, 2}, nil)
-	value := bld.NewArray()
-	defer value.Release()
-
-	s := scalar.NewMapScalar(value)
-	assert.NoError(t, s.ValidateFull())
-
-	expectedScalarType := arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int8)
-	assert.True(t, arrow.TypeEqual(s.DataType(), expectedScalarType))
-	assert.True(t, array.Equal(value, s.GetList()))
-
-	checkMakeNullScalar(t, expectedScalarType)
-}
-
-func TestStructScalar(t *testing.T) {
-	abc := scalar.NewStructScalar([]scalar.Scalar{
-		scalar.MakeScalar(true),
-		scalar.MakeNullScalar(arrow.PrimitiveTypes.Int32),
-		scalar.MakeScalar("hello"),
-		scalar.MakeNullScalar(arrow.PrimitiveTypes.Int64),
-	}, arrow.StructOf(
-		arrow.Field{Name: "a", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "c", Type: arrow.BinaryTypes.String, Nullable: true},
-		arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int64, Nullable: true}))
-
-	assert.NoError(t, abc.Validate())
-	assert.NoError(t, abc.ValidateFull())
-
-	a, err := abc.Field("a")
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(a, abc.Value[0]))
-
-	_, err = abc.Field("f")
-	assert.Error(t, err)
-
-	d, err := abc.Field("d")
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(scalar.MakeNullScalar(arrow.PrimitiveTypes.Int64), d))
-	assert.False(t, scalar.Equals(scalar.MakeScalar(int64(12)), d))
-
-	abc2, err := scalar.NewStructScalarWithNames(abc.Value, []string{"a", "b", "c", "d"})
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(abc, abc2))
-
-	assert.Equal(t, "{a:bool = true, b:int32 = null, c:utf8 = hello, d:int64 = null}", abc.String())
-}
-
-func TestNullStructScalar(t *testing.T) {
-	ty := arrow.StructOf(
-		arrow.Field{Name: "a", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "c", Type: arrow.BinaryTypes.String, Nullable: true},
-		arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int64, Nullable: true})
-	nullScalar := scalar.MakeNullScalar(ty)
-	assert.NoError(t, nullScalar.ValidateFull())
-	assert.False(t, nullScalar.IsValid())
-
-	sc := checkMakeNullScalar(t, ty)
-	assert.True(t, scalar.Equals(nullScalar, sc))
-}
-
-func TestStructScalarValidateErrors(t *testing.T) {
-	ty := arrow.StructOf(arrow.Field{Name: "a", Type: arrow.BinaryTypes.String})
-
-	// inconsistent isvalid value
-	sc := scalar.NewStructScalar([]scalar.Scalar{scalar.MakeScalar("hello")}, ty)
-	sc.Valid = false
-	assert.Error(t, sc.ValidateFull())
-
-	sc = scalar.NewStructScalar(nil, ty)
-	sc.Valid = true
-	assert.Error(t, sc.ValidateFull())
-
-	// inconsistent number of fields
-	sc = scalar.NewStructScalar([]scalar.Scalar{}, ty)
-	assert.Error(t, sc.ValidateFull())
-
-	sc = scalar.NewStructScalar([]scalar.Scalar{scalar.MakeScalar("foo"), scalar.MakeScalar("bar")}, ty)
-	assert.Error(t, sc.ValidateFull())
-
-	// inconsistent child value type
-	sc = scalar.NewStructScalar([]scalar.Scalar{scalar.MakeScalar(42)}, ty)
-	assert.Error(t, sc.ValidateFull())
-
-	// child value has invalid utf8 data
-	sc = scalar.NewStructScalar([]scalar.Scalar{scalar.MakeScalar("\xff")}, ty)
-	assert.NoError(t, sc.Validate())
-	assert.Error(t, sc.ValidateFull())
-}
-
-func getScalars(mem memory.Allocator) []scalar.Scalar {
-	hello := memory.NewBufferBytes([]byte("hello"))
-	daytime := arrow.DayTimeInterval{Days: 1, Milliseconds: 100}
-	monthdaynano := arrow.MonthDayNanoInterval{Months: 5, Days: 4, Nanoseconds: 100}
-
-	int8Bldr := array.NewInt8Builder(mem)
-	defer int8Bldr.Release()
-
-	int8Bldr.AppendValues([]int8{1, 2, 3, 4}, nil)
-	int8Arr := int8Bldr.NewInt8Array()
-	defer int8Arr.Release()
-
-	mapBldr := array.NewMapBuilder(mem, arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String, false)
-	defer mapBldr.Release()
-
-	kb := mapBldr.KeyBuilder().(*array.Int8Builder)
-	ib := mapBldr.ItemBuilder().(*array.StringBuilder)
-
-	mapBldr.Append(true)
-	kb.AppendValues([]int8{1, 2, 3}, nil)
-	ib.AppendValues([]string{"foo", "bar", "baz"}, nil)
-
-	mapArr := mapBldr.NewMapArray()
-	defer mapArr.Release()
-
-	return []scalar.Scalar{
-		scalar.NewBooleanScalar(false),
-		scalar.NewInt8Scalar(3),
-		scalar.NewUint16Scalar(3),
-		scalar.NewInt32Scalar(3),
-		scalar.NewUint64Scalar(3),
-		scalar.NewFloat64Scalar(3.0),
-		scalar.NewDate32Scalar(10),
-		scalar.NewDate64Scalar(11),
-		scalar.NewTime32Scalar(1000, arrow.FixedWidthTypes.Time32s),
-		scalar.NewTime64Scalar(1111, arrow.FixedWidthTypes.Time64us),
-		scalar.NewTimestampScalar(111, arrow.FixedWidthTypes.Timestamp_ms),
-		scalar.NewMonthIntervalScalar(1),
-		scalar.NewDayTimeIntervalScalar(daytime),
-		scalar.NewMonthDayNanoIntervalScalar(monthdaynano),
-		scalar.NewDurationScalar(60, arrow.FixedWidthTypes.Duration_s),
-		scalar.NewBinaryScalar(hello, arrow.BinaryTypes.Binary),
-		scalar.NewFixedSizeBinaryScalar(hello, &arrow.FixedSizeBinaryType{ByteWidth: hello.Len()}),
-		scalar.NewDecimal128Scalar(decimal128.FromI64(10), &arrow.Decimal128Type{Precision: 16, Scale: 4}),
-		scalar.NewDecimal256Scalar(decimal256.FromI64(10), &arrow.Decimal256Type{Precision: 16, Scale: 4}),
-		scalar.NewStringScalarFromBuffer(hello),
-		scalar.NewListScalar(int8Arr),
-		scalar.NewMapScalar(mapArr.List.ListValues()),
-		scalar.NewFixedSizeListScalar(int8Arr),
-		scalar.NewStructScalar([]scalar.Scalar{scalar.NewInt32Scalar(2), scalar.NewInt32Scalar(6)},
-			arrow.StructOf([]arrow.Field{{Name: "min", Type: arrow.PrimitiveTypes.Int32}, {Name: "max", Type: arrow.PrimitiveTypes.Int32}}...)),
-		scalar.NewRunEndEncodedScalar(scalar.NewStringScalarFromBuffer(hello),
-			arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int32, arrow.BinaryTypes.String)),
-	}
-}
-
-func TestMakeArrayFromScalar(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	nullArray, err := scalar.MakeArrayFromScalar(scalar.ScalarNull, 5, mem)
-	assert.NoError(t, err)
-	defer nullArray.Release()
-
-	assert.Equal(t, 5, nullArray.Len())
-	assert.Equal(t, 5, nullArray.NullN())
-
-	scalars := getScalars(mem)
-
-	for _, length := range []int{16} {
-		for _, s := range scalars {
-			t.Run(s.DataType().Name(), func(t *testing.T) {
-				if ls, ok := s.(scalar.Releasable); ok {
-					defer ls.Release()
-				}
-
-				arr, err := scalar.MakeArrayFromScalar(s, length, mem)
-				assert.NoError(t, err)
-				defer arr.Release()
-
-				assert.Equal(t, length, arr.Len())
-				assert.Zero(t, arr.NullN())
-
-				for _, i := range []int{0, length / 2, length - 1} {
-					scalarCompare, err := scalar.GetScalar(arr, i)
-					assert.NoError(t, err)
-					assert.True(t, scalar.Equals(s, scalarCompare))
-					if ls, ok := scalarCompare.(scalar.Releasable); ok {
-						ls.Release()
-					}
-				}
-			})
-		}
-	}
-}
-
-type OptionListTest struct {
-	FieldNames []string          `compute:"field_names"`
-	FieldNulls []bool            `compute:"field_null"`
-	FieldMeta  []*arrow.Metadata `compute:"field_metadata"`
-	Val8       []int8            `compute:"val8"`
-	ValU8      []uint8           `compute:"u8"`
-	Val16      []int16           `compute:"val16"`
-	ValU16     []uint16          `compute:"u16"`
-	Val32      []int32           `compute:"val32"`
-	ValU32     []uint32          `compute:"u32"`
-	Val64      []int64           `compute:"val64"`
-	ValU64     []uint64          `compute:"u64"`
-	ValInt     []int             `compute:"valint"`
-	ValUint    []uint            `compute:"valuint"`
-}
-
-type OptionValTest struct {
-	ToType arrow.DataType `compute:"type"`
-	Allow  bool           `compute:"allow"`
-}
-
-func (OptionValTest) TypeName() string { return "OptionValTest" }
-
-func TestToScalar(t *testing.T) {
-	ot := &OptionValTest{ToType: arrow.BinaryTypes.String, Allow: true}
-	sc, err := scalar.ToScalar(ot, memory.DefaultAllocator)
-	assert.NoError(t, err)
-	assert.Equal(t, `{type:utf8 = null, allow:bool = true, _type_name:binary = OptionValTest}`, sc.String())
-
-	meta := arrow.MetadataFrom(map[string]string{
-		"option":  "val",
-		"captain": "planet",
-		"souper":  "bowl",
-	})
-
-	olt := OptionListTest{
-		FieldNames: []string{"foo", "bar", "baz"},
-		FieldNulls: []bool{true, false},
-		FieldMeta:  []*arrow.Metadata{&meta, nil, &meta},
-		Val8:       []int8{1, 2, 3, 4},
-		ValU8:      []uint8{5, 6},
-		Val16:      []int16{7, 8, 9, 10},
-		ValU16:     []uint16{},
-		Val32:      nil,
-		ValU32:     []uint32{25, 26, 27, 28},
-		Val64:      []int64{-1, -2, -3, -4, -5},
-		ValU64:     []uint64{1, 2, 3},
-		ValInt:     []int{10, 11, 12, 13},
-		ValUint:    []uint{14, 15, 16},
-	}
-	sc, err = scalar.ToScalar(olt, memory.DefaultAllocator)
-	assert.NoError(t, err)
-
-	expected := `{field_names:list<item: utf8, nullable> = ["foo" "bar" "baz"], ` +
-		`field_null:list<item: bool, nullable> = [true false], ` +
-		`field_metadata:list<item: map<binary, binary, items_nullable>, nullable> = ` +
-		`[{["captain" "option" "souper"] ["planet" "val" "bowl"]} {[] []} {["captain" "option" "souper"] ["planet" "val" "bowl"]}], ` +
-		`val8:list<item: int8, nullable> = [1 2 3 4], ` +
-		`u8:list<item: uint8, nullable> = [5 6], ` +
-		`val16:list<item: int16, nullable> = [7 8 9 10], ` +
-		`u16:list<item: uint16, nullable> = [], ` +
-		`val32:list<item: int32, nullable> = [], ` +
-		`u32:list<item: uint32, nullable> = [25 26 27 28], ` +
-		`val64:list<item: int64, nullable> = [-1 -2 -3 -4 -5], ` +
-		`u64:list<item: uint64, nullable> = [1 2 3], ` +
-		`valint:list<item: int64, nullable> = [10 11 12 13], ` +
-		`valuint:list<item: uint64, nullable> = [14 15 16]}`
-
-	assert.Equal(t, expected, sc.String())
-}
-
-var dictIndexTypes = []arrow.DataType{
-	arrow.PrimitiveTypes.Int8,
-	arrow.PrimitiveTypes.Uint8,
-	arrow.PrimitiveTypes.Int16,
-	arrow.PrimitiveTypes.Uint16,
-	arrow.PrimitiveTypes.Int32,
-	arrow.PrimitiveTypes.Uint32,
-	arrow.PrimitiveTypes.Int64,
-	arrow.PrimitiveTypes.Uint64,
-}
-
-func TestDictionaryScalarBasics(t *testing.T) {
-	for _, indexType := range dictIndexTypes {
-		t.Run(fmt.Sprint(indexType), func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			ty := &arrow.DictionaryType{IndexType: indexType, ValueType: arrow.BinaryTypes.String}
-			dict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["alpha", null, "gamma"]`))
-			defer dict.Release()
-
-			idxScalar, _ := scalar.MakeScalarParam(0, indexType)
-			alpha := scalar.NewDictScalar(idxScalar, dict)
-			defer alpha.Release()
-
-			idxScalar, _ = scalar.MakeScalarParam(2, indexType)
-			gamma := scalar.NewDictScalar(idxScalar, dict)
-			defer gamma.Release()
-
-			idxScalar, _ = scalar.MakeScalarParam(1, indexType)
-			nullVal := scalar.NewDictScalar(idxScalar, dict)
-			defer nullVal.Release()
-
-			scalarNull := scalar.MakeNullScalar(ty)
-			scalarNull.(*scalar.Dictionary).Value.Dict = dict
-			dict.Retain()
-			defer scalarNull.(*scalar.Dictionary).Release()
-
-			assert.NoError(t, scalarNull.ValidateFull())
-			assert.NoError(t, alpha.ValidateFull())
-			assert.NoError(t, gamma.ValidateFull())
-
-			// index is valid, corresponding value is null
-			assert.NoError(t, nullVal.ValidateFull())
-
-			encodedNull, err := scalarNull.(*scalar.Dictionary).GetEncodedValue()
-			assert.NoError(t, err)
-			assert.NoError(t, encodedNull.ValidateFull())
-			assert.True(t, scalar.Equals(encodedNull, scalar.MakeNullScalar(arrow.BinaryTypes.String)))
-
-			encodedNullVal, err := nullVal.GetEncodedValue()
-			assert.NoError(t, err)
-			assert.NoError(t, encodedNullVal.ValidateFull())
-			assert.True(t, scalar.Equals(encodedNullVal, scalar.MakeNullScalar(arrow.BinaryTypes.String)))
-
-			encodedAlpha, err := alpha.GetEncodedValue()
-			assert.NoError(t, err)
-			assert.NoError(t, encodedAlpha.ValidateFull())
-			assert.True(t, scalar.Equals(encodedAlpha, scalar.MakeScalar("alpha")))
-
-			encodedGamma, err := gamma.GetEncodedValue()
-			assert.NoError(t, err)
-			assert.NoError(t, encodedGamma.ValidateFull())
-			assert.True(t, scalar.Equals(encodedGamma, scalar.MakeScalar("gamma")))
-
-			idxArr, _, _ := array.FromJSON(mem, indexType, strings.NewReader(`[2, 0, 1, null]`))
-			defer idxArr.Release()
-			arr := array.NewDictionaryArray(ty, idxArr, dict)
-			defer arr.Release()
-
-			first, err := scalar.GetScalar(arr, 0)
-			assert.NoError(t, err)
-			second, err := scalar.GetScalar(arr, 1)
-			assert.NoError(t, err)
-			third, err := scalar.GetScalar(arr, 2)
-			assert.NoError(t, err)
-			last, err := scalar.GetScalar(arr, 3)
-			assert.NoError(t, err)
-
-			defer func() {
-				first.(*scalar.Dictionary).Release()
-				second.(*scalar.Dictionary).Release()
-				third.(*scalar.Dictionary).Release()
-				last.(*scalar.Dictionary).Release()
-			}()
-
-			assert.NoError(t, first.ValidateFull())
-			assert.NoError(t, second.ValidateFull())
-			assert.NoError(t, third.ValidateFull())
-			assert.NoError(t, last.ValidateFull())
-
-			assert.True(t, first.IsValid())
-			assert.True(t, second.IsValid())
-			assert.True(t, third.IsValid()) // valid because of valid index despite null value
-			assert.False(t, last.IsValid())
-
-			assert.True(t, scalar.Equals(first, gamma))
-			assert.True(t, scalar.Equals(second, alpha))
-			assert.True(t, scalar.Equals(third, nullVal))
-			assert.True(t, scalar.Equals(last, scalarNull))
-
-			assert.Same(t, first.(*scalar.Dictionary).Value.Dict, arr.Dictionary())
-			assert.Same(t, second.(*scalar.Dictionary).Value.Dict, arr.Dictionary())
-		})
-	}
-}
-
-func TestDictionaryScalarValidateErrors(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	var (
-		indexTy = arrow.PrimitiveTypes.Int16
-		valueTy = arrow.BinaryTypes.String
-		dictTy  = &arrow.DictionaryType{IndexType: indexTy, ValueType: valueTy}
-	)
-
-	dict, _, _ := array.FromJSON(mem, valueTy, strings.NewReader(`["alpha", null, "gamma"]`))
-	defer dict.Release()
-
-	alpha := scalar.NewDictScalar(scalar.MakeScalar(int16(0)), dict)
-	defer alpha.Release()
-
-	// Valid index, null underlying value
-	nullVal := scalar.NewDictScalar(scalar.MakeScalar(int16(1)), dict)
-	defer nullVal.Release()
-
-	// inconsistent index type
-	dictSc := scalar.NewDictScalar(alpha.Value.Index, dict)
-	defer dictSc.Release()
-	dictSc.Type = &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: valueTy}
-	assert.Error(t, dictSc.Validate())
-
-	// inconsistent value type between dict and type
-	dictSc.Type = &arrow.DictionaryType{IndexType: indexTy, ValueType: arrow.BinaryTypes.Binary}
-	assert.Error(t, dictSc.Validate())
-
-	// inconsistent Valid/Value
-	dictSc.Type = dictTy
-	assert.NoError(t, dictSc.ValidateFull())
-	dictSc.Valid = false
-	assert.Error(t, dictSc.ValidateFull())
-
-	assert.NoError(t, nullVal.ValidateFull())
-	nullVal.Valid = false
-	assert.Error(t, nullVal.ValidateFull())
-
-	dictSc = scalar.NewNullDictScalar(dictTy)
-	dictSc.Valid = true
-	assert.Error(t, dictSc.ValidateFull())
-	dictSc.Valid = false
-	assert.NoError(t, dictSc.ValidateFull())
-
-	// index value out of bounds
-	for _, idx := range []int16{-1, 3} {
-		invalid := scalar.NewDictScalar(scalar.MakeScalar(idx), dict)
-		defer invalid.Release()
-
-		assert.NoError(t, invalid.Validate())
-		assert.Error(t, invalid.ValidateFull())
-	}
-}
-
-func checkGetValidUnionScalar(t *testing.T, arr arrow.Array, idx int, expected, expectedValue scalar.Scalar) {
-	s, err := scalar.GetScalar(arr, idx)
-	assert.NoError(t, err)
-	assert.NoError(t, s.ValidateFull())
-	assert.True(t, scalar.Equals(expected, s))
-
-	assert.True(t, s.IsValid())
-	assert.True(t, scalar.Equals(s.(scalar.Union).ChildValue(), expectedValue), s, expectedValue)
-}
-
-func checkGetNullUnionScalar(t *testing.T, arr arrow.Array, idx int) {
-	s, err := scalar.GetScalar(arr, idx)
-	assert.NoError(t, err)
-	assert.True(t, scalar.Equals(scalar.MakeNullScalar(arr.DataType()), s))
-	assert.False(t, s.IsValid())
-	assert.False(t, s.(scalar.Union).ChildValue().IsValid())
-}
-
-func makeSparseUnionScalar(ty *arrow.SparseUnionType, val scalar.Scalar, idx int) scalar.Scalar {
-	return scalar.NewSparseUnionScalarFromValue(val, idx, ty)
-}
-
-func makeDenseUnionScalar(ty *arrow.DenseUnionType, val scalar.Scalar, idx int) scalar.Scalar {
-	return scalar.NewDenseUnionScalar(val, ty.TypeCodes()[idx], ty)
-}
-
-func makeSpecificNullScalar(dt arrow.UnionType, idx int) scalar.Scalar {
-	switch dt.Mode() {
-	case arrow.SparseMode:
-		values := make([]scalar.Scalar, dt.NumFields())
-		for i, f := range dt.Fields() {
-			values[i] = scalar.MakeNullScalar(f.Type)
-		}
-		return scalar.NewSparseUnionScalar(values, dt.TypeCodes()[idx], dt.(*arrow.SparseUnionType))
-	case arrow.DenseMode:
-		code := dt.TypeCodes()[idx]
-		value := scalar.MakeNullScalar(dt.Fields()[idx].Type)
-		return scalar.NewDenseUnionScalar(value, code, dt.(*arrow.DenseUnionType))
-	}
-	return nil
-}
-
-type UnionScalarSuite struct {
-	suite.Suite
-
-	mode                                            arrow.UnionMode
-	dt                                              arrow.DataType
-	unionType                                       arrow.UnionType
-	alpha, beta, two, three                         scalar.Scalar
-	unionAlpha, unionBeta, unionTwo, unionThree     scalar.Scalar
-	unionOtherTwo, unionStringNull, unionNumberNull scalar.Scalar
-}
-
-func (s *UnionScalarSuite) scalarFromValue(idx int, val scalar.Scalar) scalar.Scalar {
-	switch s.mode {
-	case arrow.SparseMode:
-		return makeSparseUnionScalar(s.dt.(*arrow.SparseUnionType), val, idx)
-	case arrow.DenseMode:
-		return makeDenseUnionScalar(s.dt.(*arrow.DenseUnionType), val, idx)
-	}
-	return nil
-}
-
-func (s *UnionScalarSuite) specificNull(idx int) scalar.Scalar {
-	return makeSpecificNullScalar(s.unionType, idx)
-}
-
-func (s *UnionScalarSuite) SetupTest() {
-	s.dt = arrow.UnionOf(s.mode, []arrow.Field{
-		{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-		{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
-	}, []arrow.UnionTypeCode{3, 42, 43})
-
-	s.unionType = s.dt.(arrow.UnionType)
-
-	s.alpha = scalar.MakeScalar("alpha")
-	s.beta = scalar.MakeScalar("beta")
-	s.two = scalar.MakeScalar(uint64(2))
-	s.three = scalar.MakeScalar(uint64(3))
-
-	s.unionAlpha = s.scalarFromValue(0, s.alpha)
-	s.unionBeta = s.scalarFromValue(0, s.beta)
-	s.unionTwo = s.scalarFromValue(1, s.two)
-	s.unionOtherTwo = s.scalarFromValue(2, s.two)
-	s.unionThree = s.scalarFromValue(1, s.three)
-	s.unionStringNull = s.specificNull(0)
-	s.unionNumberNull = s.specificNull(1)
-}
-
-func (s *UnionScalarSuite) TestValidate() {
-	s.NoError(s.unionAlpha.ValidateFull())
-	s.NoError(s.unionAlpha.Validate())
-	s.NoError(s.unionBeta.ValidateFull())
-	s.NoError(s.unionBeta.Validate())
-	s.NoError(s.unionTwo.ValidateFull())
-	s.NoError(s.unionTwo.Validate())
-	s.NoError(s.unionOtherTwo.ValidateFull())
-	s.NoError(s.unionOtherTwo.Validate())
-	s.NoError(s.unionThree.ValidateFull())
-	s.NoError(s.unionThree.Validate())
-	s.NoError(s.unionStringNull.ValidateFull())
-	s.NoError(s.unionStringNull.Validate())
-	s.NoError(s.unionNumberNull.ValidateFull())
-	s.NoError(s.unionNumberNull.Validate())
-}
-
-func (s *UnionScalarSuite) setTypeCode(sc scalar.Scalar, c arrow.UnionTypeCode) {
-	switch sc := sc.(type) {
-	case *scalar.SparseUnion:
-		sc.TypeCode = c
-	case *scalar.DenseUnion:
-		sc.TypeCode = c
-	}
-}
-
-func (s *UnionScalarSuite) setIsValid(sc scalar.Scalar, v bool) {
-	switch sc := sc.(type) {
-	case *scalar.SparseUnion:
-		sc.Valid = v
-	case *scalar.DenseUnion:
-		sc.Valid = v
-	}
-}
-
-func (s *UnionScalarSuite) TestValidateErrors() {
-	// type code doesn't exist
-	sc := s.scalarFromValue(0, s.alpha)
-
-	// invalid type code
-	s.setTypeCode(sc, 0)
-	s.Error(sc.Validate())
-	s.Error(sc.ValidateFull())
-
-	s.setIsValid(sc, false)
-	s.Error(sc.Validate())
-	s.Error(sc.ValidateFull())
-
-	s.setTypeCode(sc, -42)
-	s.setIsValid(sc, true)
-	s.Error(sc.Validate())
-	s.Error(sc.ValidateFull())
-
-	s.setIsValid(sc, false)
-	s.Error(sc.Validate())
-	s.Error(sc.ValidateFull())
-
-	// type code doesn't correspond to child type
-	if sc, ok := sc.(*scalar.DenseUnion); ok {
-		sc.TypeCode = 42
-		sc.Valid = true
-		s.Error(sc.Validate())
-		s.Error(sc.ValidateFull())
-
-		sc = s.scalarFromValue(2, s.two).(*scalar.DenseUnion)
-		sc.TypeCode = 3
-		s.Error(sc.Validate())
-		s.Error(sc.ValidateFull())
-	}
-
-	// underlying value has invalid utf8
-	sc = s.scalarFromValue(0, scalar.NewStringScalar("\xff"))
-	s.NoError(sc.Validate())
-	s.Error(sc.ValidateFull())
-}
-
-func (s *UnionScalarSuite) TestEquals() {
-	// differing values
-	s.False(scalar.Equals(s.unionAlpha, s.unionBeta))
-	s.False(scalar.Equals(s.unionTwo, s.unionThree))
-	// differing validities
-	s.False(scalar.Equals(s.unionAlpha, s.unionStringNull))
-	// differing types
-	s.False(scalar.Equals(s.unionAlpha, s.unionTwo))
-	s.False(scalar.Equals(s.unionAlpha, s.unionOtherTwo))
-	// type codes don't count when comparing union scalars: the underlying
-	// values are identical even though their provenance is different
-	s.True(scalar.Equals(s.unionTwo, s.unionOtherTwo))
-	s.True(scalar.Equals(s.unionStringNull, s.unionNumberNull))
-}
-
-func (s *UnionScalarSuite) TestMakeNullScalar() {
-	sc := scalar.MakeNullScalar(s.dt)
-	s.True(arrow.TypeEqual(s.dt, sc.DataType()))
-	s.False(sc.IsValid())
-
-	// the first child field is chosen arbitrarily for the purposes of
-	// making a null scalar
-	switch s.mode {
-	case arrow.DenseMode:
-		asDense := sc.(*scalar.DenseUnion)
-		s.EqualValues(3, asDense.TypeCode)
-		s.False(asDense.Value.IsValid())
-	case arrow.SparseMode:
-		asSparse := sc.(*scalar.SparseUnion)
-		s.EqualValues(3, asSparse.TypeCode)
-		s.False(asSparse.Value[asSparse.ChildID].IsValid())
-	}
-}
-
-type SparseUnionSuite struct {
-	UnionScalarSuite
-}
-
-func (s *SparseUnionSuite) SetupSuite() {
-	s.mode = arrow.SparseMode
-}
-
-func (s *SparseUnionSuite) TestGetScalar() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(s.T(), 0)
-
-	children := make([]arrow.Array, 3)
-	children[0], _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["alpha", "", "beta", null, "gamma"]`))
-	defer children[0].Release()
-	children[1], _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Uint64, strings.NewReader(`[1, 2, 11, 22, null]`))
-	defer children[1].Release()
-	children[2], _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Uint64, strings.NewReader(`[100, 101, 102, 103, 104]`))
-	defer children[2].Release()
-
-	typeIDs, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[3, 42, 3, 3, 42]`))
-	defer typeIDs.Release()
-
-	arr := array.NewSparseUnion(s.dt.(*arrow.SparseUnionType), 5, children, typeIDs.Data().Buffers()[1], 0)
-	defer arr.Release()
-
-	checkGetValidUnionScalar(s.T(), arr, 0, s.unionAlpha, s.alpha)
-	checkGetValidUnionScalar(s.T(), arr, 1, s.unionTwo, s.two)
-	checkGetValidUnionScalar(s.T(), arr, 2, s.unionBeta, s.beta)
-	checkGetNullUnionScalar(s.T(), arr, 3)
-	checkGetNullUnionScalar(s.T(), arr, 4)
-}
-
-type DenseUnionSuite struct {
-	UnionScalarSuite
-}
-
-func (s *DenseUnionSuite) SetupSuite() {
-	s.mode = arrow.DenseMode
-}
-
-func (s *DenseUnionSuite) TestGetScalar() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(s.T(), 0)
-
-	children := make([]arrow.Array, 3)
-	children[0], _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["alpha", "beta", null]`))
-	defer children[0].Release()
-	children[1], _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Uint64, strings.NewReader(`[2, 3]`))
-	defer children[1].Release()
-	children[2], _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Uint64, strings.NewReader(`[]`))
-	defer children[2].Release()
-
-	typeIDs, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[3, 42, 3, 3, 42]`))
-	defer typeIDs.Release()
-	offsets, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 0, 1, 2, 1]`))
-	defer offsets.Release()
-
-	arr := array.NewDenseUnion(s.dt.(*arrow.DenseUnionType), 5, children, typeIDs.Data().Buffers()[1], offsets.Data().Buffers()[1], 0)
-	defer arr.Release()
-
-	checkGetValidUnionScalar(s.T(), arr, 0, s.unionAlpha, s.alpha)
-	checkGetValidUnionScalar(s.T(), arr, 1, s.unionTwo, s.two)
-	checkGetValidUnionScalar(s.T(), arr, 2, s.unionBeta, s.beta)
-	checkGetNullUnionScalar(s.T(), arr, 3)
-	checkGetValidUnionScalar(s.T(), arr, 4, s.unionThree, s.three)
-}
-
-func TestUnionScalars(t *testing.T) {
-	suite.Run(t, new(SparseUnionSuite))
-	suite.Run(t, new(DenseUnionSuite))
-}
-
-func TestRunEndEncodedGetScalar(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	runEnds, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[100, 200, 300, 400, 500]`))
-	defer runEnds.Release()
-
-	values, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["Hello", "beautiful", "world", "of", "RLE"]`))
-	defer values.Release()
-
-	reeArray := array.NewRunEndEncodedArray(runEnds, values, 500, 0)
-	defer reeArray.Release()
-
-	slice := array.NewSlice(reeArray, 199, 404).(*array.RunEndEncoded)
-	defer slice.Release()
-
-	tests := []struct {
-		name  string
-		arr   arrow.Array
-		idx   int
-		exval string
-	}{
-		{"simple", reeArray, 225, "world"},
-		{"offset", slice, 125, "of"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			sc, err := scalar.GetScalar(tt.arr, tt.idx)
-			require.NoError(t, err)
-			reeScalar := sc.(*scalar.RunEndEncoded)
-			defer reeScalar.Release()
-
-			assert.NoError(t, reeScalar.Validate())
-			expectedType := tt.arr.DataType().(*arrow.RunEndEncodedType).Encoded()
-			assert.Truef(t, arrow.TypeEqual(expectedType, reeScalar.Value.DataType()),
-				"expected: %s\ngot: %s", expectedType, reeScalar.Value.DataType())
-			assert.Equal(t, tt.exval, reeScalar.Value.String())
-		})
-	}
-}
-
-func TestRunEndEncodedNullScalar(t *testing.T) {
-	dt := arrow.RunEndEncodedOf(arrow.PrimitiveTypes.Int16, arrow.BinaryTypes.String)
-	sc := scalar.MakeNullScalar(dt)
-
-	assert.False(t, sc.IsValid())
-	assert.Truef(t, arrow.TypeEqual(dt, sc.DataType()), "expected: %s\ngot: %s", dt, sc.DataType())
-	assert.IsType(t, (*scalar.RunEndEncoded)(nil), sc)
-}
diff --git a/go/arrow/scalar/temporal.go b/go/arrow/scalar/temporal.go
deleted file mode 100644
index ee43f1b629c1d..0000000000000
--- a/go/arrow/scalar/temporal.go
+++ /dev/null
@@ -1,481 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package scalar
-
-import (
-	"fmt"
-	"reflect"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-func temporalToString(s TemporalScalar) string {
-	switch s := s.(type) {
-	case *Date32:
-		return time.Unix(0, 0).UTC().AddDate(0, 0, int(s.Value)).Format("2006-01-02")
-	case *Date64:
-		days := int(int64(s.Value) / (time.Hour * 24).Milliseconds())
-		return time.Unix(0, 0).UTC().AddDate(0, 0, days).Format("2006-01-02")
-	case *Duration:
-		return fmt.Sprint(time.Duration(s.Value) * s.Unit().Multiplier())
-	case *Time32:
-		return time.Unix(0, int64(s.Value)*int64(s.Unit().Multiplier())).UTC().Format("15:04:05.999")
-	case *Time64:
-		return time.Unix(0, int64(s.Value)*int64(s.Unit().Multiplier())).UTC().Format("15:04:05.999999999")
-	case *Timestamp:
-		return time.Unix(0, int64(s.Value)*int64(s.Unit().Multiplier())).UTC().Format("2006-01-02 15:04:05.999999999")
-	}
-	return "..."
-}
-
-type TemporalScalar interface {
-	Scalar
-	temporal()
-}
-
-type Duration struct {
-	scalar
-	Value arrow.Duration
-}
-
-func (Duration) temporal()                                   {}
-func (s *Duration) value() interface{}                       { return s.Value }
-func (s *Duration) CastTo(to arrow.DataType) (Scalar, error) { return castTemporal(s, to) }
-func (s *Duration) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Duration) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Duration).Value
-}
-
-func (s *Duration) Unit() arrow.TimeUnit {
-	return s.DataType().(*arrow.TimestampType).Unit
-}
-func (s *Duration) Data() []byte {
-	return (*[arrow.DurationSizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func NewDurationScalar(val arrow.Duration, typ arrow.DataType) *Duration {
-	return &Duration{scalar{typ, true}, val}
-}
-
-type DateScalar interface {
-	TemporalScalar
-	ToTime() time.Time
-	date()
-}
-
-type TimeScalar interface {
-	TemporalScalar
-	Unit() arrow.TimeUnit
-	ToTime() time.Time
-	time()
-}
-
-type IntervalScalar interface {
-	TemporalScalar
-	interval()
-}
-
-const millisecondsInDay = (time.Hour * 24) / time.Millisecond
-
-func castTemporal(from TemporalScalar, to arrow.DataType) (Scalar, error) {
-	if arrow.TypeEqual(from.DataType(), to) {
-		return from, nil
-	}
-
-	if !from.IsValid() {
-		return MakeNullScalar(to), nil
-	}
-
-	if r, ok := numericMap[to.ID()]; ok {
-		return convertToNumeric(reflect.ValueOf(from.value()), r.valueType, r.scalarFunc), nil
-	}
-
-	if to.ID() == arrow.STRING {
-		return NewStringScalar(temporalToString(from)), nil
-	}
-
-	switch s := from.(type) {
-	case DateScalar:
-		if to.ID() == arrow.TIMESTAMP {
-			var newValue int64
-			switch s := s.(type) {
-			case *Date32:
-				newValue = int64(s.Value) * int64(millisecondsInDay)
-			case *Date64:
-				newValue = int64(s.Value)
-			}
-			return NewTimestampScalar(arrow.Timestamp(arrow.ConvertTimestampValue(arrow.Millisecond, to.(*arrow.TimestampType).Unit, newValue)), to), nil
-		}
-
-		switch s := s.(type) {
-		case *Date32:
-			if to.ID() == arrow.DATE64 {
-				return NewDate64Scalar(arrow.Date64(s.Value) * arrow.Date64(millisecondsInDay)), nil
-			}
-		case *Date64:
-			if to.ID() == arrow.DATE32 {
-				return NewDate32Scalar(arrow.Date32(s.Value / arrow.Date64(millisecondsInDay))), nil
-			}
-		}
-	case *Timestamp:
-		switch to := to.(type) {
-		case *arrow.TimestampType:
-			return NewTimestampScalar(arrow.Timestamp(arrow.ConvertTimestampValue(s.Unit(), to.Unit, int64(s.Value))), to), nil
-		case *arrow.Date32Type:
-			millis := arrow.ConvertTimestampValue(s.Unit(), arrow.Millisecond, int64(s.Value))
-			return NewDate32Scalar(arrow.Date32(millis / int64(millisecondsInDay))), nil
-		case *arrow.Date64Type:
-			millis := arrow.ConvertTimestampValue(s.Unit(), arrow.Millisecond, int64(s.Value))
-			return NewDate64Scalar(arrow.Date64(millis - millis%int64(millisecondsInDay))), nil
-		}
-	case TimeScalar:
-		switch to := to.(type) {
-		case *arrow.Time32Type:
-			return NewTime32Scalar(arrow.Time32(arrow.ConvertTimestampValue(s.Unit(), to.Unit, int64(s.value().(arrow.Time64)))), to), nil
-		case *arrow.Time64Type:
-			return NewTime64Scalar(arrow.Time64(arrow.ConvertTimestampValue(s.Unit(), to.Unit, int64(s.value().(arrow.Time32)))), to), nil
-		}
-
-	case *Duration:
-		switch to := to.(type) {
-		case *arrow.StringType:
-
-		case *arrow.DurationType:
-			return NewDurationScalar(arrow.Duration(arrow.ConvertTimestampValue(s.Unit(), to.Unit, int64(s.Value))), to), nil
-		}
-	}
-
-	return nil, fmt.Errorf("")
-}
-
-type Date32 struct {
-	scalar
-	Value arrow.Date32
-}
-
-func (Date32) temporal()             {}
-func (Date32) date()                 {}
-func (s *Date32) value() interface{} { return s.Value }
-func (s *Date32) Data() []byte {
-	return (*[arrow.Date32SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-func (s *Date32) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Date32).Value
-}
-func (s *Date32) CastTo(to arrow.DataType) (Scalar, error) { return castTemporal(s, to) }
-func (s *Date32) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-func (s *Date32) ToTime() time.Time {
-	return s.Value.ToTime()
-}
-
-func NewDate32Scalar(val arrow.Date32) *Date32 {
-	return &Date32{scalar{arrow.FixedWidthTypes.Date32, true}, val}
-}
-
-type Date64 struct {
-	scalar
-	Value arrow.Date64
-}
-
-func (Date64) temporal()                                   {}
-func (Date64) date()                                       {}
-func (s *Date64) value() interface{}                       { return s.Value }
-func (s *Date64) CastTo(to arrow.DataType) (Scalar, error) { return castTemporal(s, to) }
-func (s *Date64) Data() []byte {
-	return (*[arrow.Date64SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-func (s *Date64) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Date64).Value
-}
-func (s *Date64) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-func (s *Date64) ToTime() time.Time {
-	return s.Value.ToTime()
-}
-
-func NewDate64Scalar(val arrow.Date64) *Date64 {
-	return &Date64{scalar{arrow.FixedWidthTypes.Date64, true}, val}
-}
-
-type Time32 struct {
-	scalar
-	Value arrow.Time32
-}
-
-func (Time32) temporal()                                   {}
-func (Time32) time()                                       {}
-func (s *Time32) value() interface{}                       { return s.Value }
-func (s *Time32) CastTo(to arrow.DataType) (Scalar, error) { return castTemporal(s, to) }
-func (s *Time32) Unit() arrow.TimeUnit {
-	return s.DataType().(*arrow.Time32Type).Unit
-}
-func (s *Time32) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Time32).Value
-}
-func (s *Time32) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Time32) Data() []byte {
-	return (*[arrow.Time32SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func (s *Time32) ToTime() time.Time {
-	return s.Value.ToTime(s.Unit())
-}
-
-func NewTime32Scalar(val arrow.Time32, typ arrow.DataType) *Time32 {
-	return &Time32{scalar{typ, true}, val}
-}
-
-type Time64 struct {
-	scalar
-	Value arrow.Time64
-}
-
-func (Time64) temporal()                                   {}
-func (Time64) time()                                       {}
-func (s *Time64) value() interface{}                       { return s.Value }
-func (s *Time64) CastTo(to arrow.DataType) (Scalar, error) { return castTemporal(s, to) }
-func (s *Time64) Unit() arrow.TimeUnit {
-	return s.DataType().(*arrow.Time64Type).Unit
-}
-func (s *Time64) Data() []byte {
-	return (*[arrow.Time64SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-func (s *Time64) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Time64).Value
-}
-func (s *Time64) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Time64) ToTime() time.Time {
-	return s.Value.ToTime(s.Unit())
-}
-
-func NewTime64Scalar(val arrow.Time64, typ arrow.DataType) *Time64 {
-	return &Time64{scalar{typ, true}, val}
-}
-
-type Timestamp struct {
-	scalar
-	Value arrow.Timestamp
-}
-
-func (Timestamp) temporal()                                   {}
-func (Timestamp) time()                                       {}
-func (s *Timestamp) value() interface{}                       { return s.Value }
-func (s *Timestamp) CastTo(to arrow.DataType) (Scalar, error) { return castTemporal(s, to) }
-func (s *Timestamp) Unit() arrow.TimeUnit {
-	return s.DataType().(*arrow.TimestampType).Unit
-}
-func (s *Timestamp) Data() []byte {
-	return (*[arrow.TimestampSizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-func (s *Timestamp) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*Timestamp).Value
-}
-func (s *Timestamp) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *Timestamp) ToTime() time.Time {
-	return s.Value.ToTime(s.Unit())
-}
-
-func NewTimestampScalar(val arrow.Timestamp, typ arrow.DataType) *Timestamp {
-	return &Timestamp{scalar{typ, true}, val}
-}
-
-type MonthInterval struct {
-	scalar
-	Value arrow.MonthInterval
-}
-
-func (MonthInterval) temporal()             {}
-func (MonthInterval) interval()             {}
-func (s *MonthInterval) value() interface{} { return s.Value }
-func (s *MonthInterval) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if !arrow.TypeEqual(s.DataType(), to) {
-		return nil, fmt.Errorf("non-null monthinterval scalar cannot be cast to anything other than monthinterval")
-	}
-
-	return s, nil
-}
-func (s *MonthInterval) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-func (s *MonthInterval) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*MonthInterval).Value
-}
-func (s *MonthInterval) Data() []byte {
-	return (*[arrow.MonthIntervalSizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-
-func NewMonthIntervalScalar(val arrow.MonthInterval) *MonthInterval {
-	return &MonthInterval{scalar{arrow.FixedWidthTypes.MonthInterval, true}, val}
-}
-
-type DayTimeInterval struct {
-	scalar
-	Value arrow.DayTimeInterval
-}
-
-func (DayTimeInterval) temporal()             {}
-func (DayTimeInterval) interval()             {}
-func (s *DayTimeInterval) value() interface{} { return s.Value }
-func (s *DayTimeInterval) Data() []byte {
-	return (*[arrow.DayTimeIntervalSizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-func (s *DayTimeInterval) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *DayTimeInterval) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if !arrow.TypeEqual(s.DataType(), to) {
-		return nil, fmt.Errorf("non-null daytimeinterval scalar cannot be cast to anything other than monthinterval")
-	}
-
-	return s, nil
-}
-
-func (s *DayTimeInterval) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*DayTimeInterval).Value
-}
-
-func NewDayTimeIntervalScalar(val arrow.DayTimeInterval) *DayTimeInterval {
-	return &DayTimeInterval{scalar{arrow.FixedWidthTypes.DayTimeInterval, true}, val}
-}
-
-type MonthDayNanoInterval struct {
-	scalar
-	Value arrow.MonthDayNanoInterval
-}
-
-func (MonthDayNanoInterval) temporal()             {}
-func (MonthDayNanoInterval) interval()             {}
-func (s *MonthDayNanoInterval) value() interface{} { return s.Value }
-func (s *MonthDayNanoInterval) Data() []byte {
-	return (*[arrow.MonthDayNanoIntervalSizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
-}
-func (s *MonthDayNanoInterval) String() string {
-	if !s.Valid {
-		return "null"
-	}
-	val, err := s.CastTo(arrow.BinaryTypes.String)
-	if err != nil {
-		return "..."
-	}
-	return string(val.(*String).Value.Bytes())
-}
-
-func (s *MonthDayNanoInterval) CastTo(to arrow.DataType) (Scalar, error) {
-	if !s.Valid {
-		return MakeNullScalar(to), nil
-	}
-
-	if !arrow.TypeEqual(s.DataType(), to) {
-		return nil, fmt.Errorf("non-null month_day_nano_interval scalar cannot be cast to anything other than monthinterval")
-	}
-
-	return s, nil
-}
-
-func (s *MonthDayNanoInterval) equals(rhs Scalar) bool {
-	return s.Value == rhs.(*MonthDayNanoInterval).Value
-}
-
-func NewMonthDayNanoIntervalScalar(val arrow.MonthDayNanoInterval) *MonthDayNanoInterval {
-	return &MonthDayNanoInterval{scalar{arrow.FixedWidthTypes.MonthDayNanoInterval, true}, val}
-}
-
-var (
-	_ Scalar = (*Date32)(nil)
-)
diff --git a/go/arrow/schema.go b/go/arrow/schema.go
deleted file mode 100644
index fd6c3cf1f4025..0000000000000
--- a/go/arrow/schema.go
+++ /dev/null
@@ -1,301 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-	"sort"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-type Metadata struct {
-	keys   []string
-	values []string
-}
-
-func NewMetadata(keys, values []string) Metadata {
-	if len(keys) != len(values) {
-		panic("arrow: len mismatch")
-	}
-
-	n := len(keys)
-	if n == 0 {
-		return Metadata{}
-	}
-
-	md := Metadata{
-		keys:   make([]string, n),
-		values: make([]string, n),
-	}
-	copy(md.keys, keys)
-	copy(md.values, values)
-	return md
-}
-
-func MetadataFrom(kv map[string]string) Metadata {
-	md := Metadata{
-		keys:   make([]string, 0, len(kv)),
-		values: make([]string, 0, len(kv)),
-	}
-	for k := range kv {
-		md.keys = append(md.keys, k)
-	}
-	sort.Strings(md.keys)
-	for _, k := range md.keys {
-		md.values = append(md.values, kv[k])
-	}
-	return md
-}
-
-func (md Metadata) Len() int         { return len(md.keys) }
-func (md Metadata) Keys() []string   { return md.keys }
-func (md Metadata) Values() []string { return md.values }
-func (md Metadata) ToMap() map[string]string {
-	m := make(map[string]string, len(md.keys))
-	for i := range md.keys {
-		m[md.keys[i]] = md.values[i]
-	}
-	return m
-}
-
-func (md Metadata) String() string {
-	o := new(strings.Builder)
-	fmt.Fprintf(o, "[")
-	for i := range md.keys {
-		if i > 0 {
-			fmt.Fprintf(o, ", ")
-		}
-		fmt.Fprintf(o, "%q: %q", md.keys[i], md.values[i])
-	}
-	fmt.Fprintf(o, "]")
-	return o.String()
-}
-
-// FindKey returns the index of the key-value pair with the provided key name,
-// or -1 if such a key does not exist.
-func (md Metadata) FindKey(k string) int {
-	for i, v := range md.keys {
-		if v == k {
-			return i
-		}
-	}
-	return -1
-}
-
-// GetValue returns the value associated with the provided key name.
-// If the key does not exist, the second return value is false.
-func (md Metadata) GetValue(k string) (string, bool) {
-	i := md.FindKey(k)
-	if i < 0 {
-		return "", false
-	}
-	return md.values[i], true
-}
-
-func (md Metadata) clone() Metadata {
-	if len(md.keys) == 0 {
-		return Metadata{}
-	}
-
-	o := Metadata{
-		keys:   make([]string, len(md.keys)),
-		values: make([]string, len(md.values)),
-	}
-	copy(o.keys, md.keys)
-	copy(o.values, md.values)
-
-	return o
-}
-
-func (md Metadata) sortedIndices() []int {
-	idxes := make([]int, len(md.keys))
-	for i := range idxes {
-		idxes[i] = i
-	}
-
-	sort.Slice(idxes, func(i, j int) bool {
-		return md.keys[idxes[i]] < md.keys[idxes[j]]
-	})
-	return idxes
-}
-
-func (md Metadata) Equal(rhs Metadata) bool {
-	if md.Len() != rhs.Len() {
-		return false
-	}
-
-	idxes := md.sortedIndices()
-	rhsIdxes := rhs.sortedIndices()
-	for i := range idxes {
-		j := idxes[i]
-		k := rhsIdxes[i]
-		if md.keys[j] != rhs.keys[k] || md.values[j] != rhs.values[k] {
-			return false
-		}
-	}
-	return true
-}
-
-// Schema is a sequence of Field values, describing the columns of a table or
-// a record batch.
-type Schema struct {
-	fields     []Field
-	index      map[string][]int
-	meta       Metadata
-	endianness endian.Endianness
-}
-
-// NewSchema returns a new Schema value from the slice of fields and metadata.
-//
-// NewSchema panics if there is a field with an invalid DataType.
-func NewSchema(fields []Field, metadata *Metadata) *Schema {
-	return NewSchemaWithEndian(fields, metadata, endian.NativeEndian)
-}
-
-func NewSchemaWithEndian(fields []Field, metadata *Metadata, e endian.Endianness) *Schema {
-	sc := &Schema{
-		fields:     make([]Field, 0, len(fields)),
-		index:      make(map[string][]int, len(fields)),
-		endianness: e,
-	}
-	if metadata != nil {
-		sc.meta = metadata.clone()
-	}
-	for i, field := range fields {
-		if field.Type == nil {
-			panic("arrow: field with nil DataType")
-		}
-		sc.fields = append(sc.fields, field)
-		sc.index[field.Name] = append(sc.index[field.Name], i)
-	}
-	return sc
-}
-
-func (sc *Schema) WithEndianness(e endian.Endianness) *Schema {
-	return NewSchemaWithEndian(sc.fields, &sc.meta, e)
-}
-
-func (sc *Schema) Endianness() endian.Endianness { return sc.endianness }
-func (sc *Schema) IsNativeEndian() bool          { return sc.endianness == endian.NativeEndian }
-func (sc *Schema) Metadata() Metadata            { return sc.meta }
-func (sc *Schema) Fields() []Field {
-	fields := make([]Field, len(sc.fields))
-	copy(fields, sc.fields)
-	return fields
-}
-func (sc *Schema) Field(i int) Field { return sc.fields[i] }
-func (sc *Schema) NumFields() int    { return len(sc.fields) }
-
-func (sc *Schema) FieldsByName(n string) ([]Field, bool) {
-	indices, ok := sc.index[n]
-	if !ok {
-		return nil, ok
-	}
-	fields := make([]Field, 0, len(indices))
-	for _, v := range indices {
-		fields = append(fields, sc.fields[v])
-	}
-	return fields, ok
-}
-
-// FieldIndices returns the indices of the named field or nil.
-func (sc *Schema) FieldIndices(n string) []int {
-	return sc.index[n]
-}
-
-func (sc *Schema) HasField(n string) bool { return len(sc.FieldIndices(n)) > 0 }
-func (sc *Schema) HasMetadata() bool      { return len(sc.meta.keys) > 0 }
-
-// Equal returns whether two schema are equal.
-// Equal does not compare the metadata.
-func (sc *Schema) Equal(o *Schema) bool {
-	switch {
-	case sc == o:
-		return true
-	case sc == nil || o == nil:
-		return false
-	case len(sc.fields) != len(o.fields):
-		return false
-	case sc.endianness != o.endianness:
-		return false
-	}
-
-	for i := range sc.fields {
-		if !sc.fields[i].Equal(o.fields[i]) {
-			return false
-		}
-	}
-	return true
-}
-
-// AddField adds a field at the given index and return a new schema.
-func (s *Schema) AddField(i int, field Field) (*Schema, error) {
-	if i < 0 || i > len(s.fields) {
-		return nil, fmt.Errorf("arrow: invalid field index %d", i)
-	}
-
-	fields := make([]Field, len(s.fields)+1)
-	copy(fields[:i], s.fields[:i])
-	fields[i] = field
-	copy(fields[i+1:], s.fields[i:])
-	return NewSchema(fields, &s.meta), nil
-}
-
-func (s *Schema) String() string {
-	o := new(strings.Builder)
-	fmt.Fprintf(o, "schema:\n  fields: %d\n", s.NumFields())
-	for i, f := range s.fields {
-		if i > 0 {
-			o.WriteString("\n")
-		}
-		fmt.Fprintf(o, "    - %v", f)
-	}
-	if s.endianness != endian.NativeEndian {
-		fmt.Fprintf(o, "\n  endianness: %v", s.endianness)
-	}
-	if meta := s.Metadata(); meta.Len() > 0 {
-		fmt.Fprintf(o, "\n  metadata: %v", meta)
-	}
-	return o.String()
-}
-
-func (s *Schema) Fingerprint() string {
-	if s == nil {
-		return ""
-	}
-
-	var b strings.Builder
-	b.WriteString("S{")
-	for _, f := range s.fields {
-		fieldFingerprint := f.Fingerprint()
-		if fieldFingerprint == "" {
-			return ""
-		}
-
-		b.WriteString(fieldFingerprint)
-		b.WriteByte(';')
-	}
-	if s.endianness == endian.LittleEndian {
-		b.WriteByte('L')
-	} else {
-		b.WriteByte('B')
-	}
-	b.WriteByte('}')
-	return b.String()
-}
diff --git a/go/arrow/schema_test.go b/go/arrow/schema_test.go
deleted file mode 100644
index ccdd8a02c9c2b..0000000000000
--- a/go/arrow/schema_test.go
+++ /dev/null
@@ -1,480 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestMetadata(t *testing.T) {
-	for _, tc := range []struct {
-		md           Metadata
-		kvs          map[string]string
-		keys, values []string
-		err          string
-		serialize    string
-	}{
-		{
-			md: Metadata{
-				keys:   []string{"k1", "k2"},
-				values: []string{"v1", "v2"},
-			},
-			keys:      []string{"k1", "k2"},
-			values:    []string{"v1", "v2"},
-			serialize: `["k1": "v1", "k2": "v2"]`,
-		},
-		{
-			md:        Metadata{},
-			serialize: "[]",
-		},
-		{
-			md: Metadata{
-				keys:   []string{"k1", "k2"},
-				values: []string{"v1", "v2"},
-			},
-			kvs:       map[string]string{"k1": "v1", "k2": "v2"},
-			serialize: `["k1": "v1", "k2": "v2"]`,
-		},
-		{
-			md:     Metadata{},
-			keys:   []string{"k1", "k2", "k3"},
-			values: []string{"v1", "v2"},
-			err:    "arrow: len mismatch",
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			if tc.err != "" {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("expected a panic")
-					}
-					if got := e.(string); got != tc.err {
-						t.Fatalf("invalid panic. got=%q, want=%q", got, tc.err)
-					}
-				}()
-			}
-			var md Metadata
-			switch len(tc.kvs) {
-			case 0:
-				md = NewMetadata(tc.keys, tc.values)
-			default:
-				md = MetadataFrom(tc.kvs)
-			}
-			if got, want := md.Len(), len(tc.md.keys); !reflect.DeepEqual(got, want) {
-				t.Fatalf("invalid len: got=%v, want=%v", got, want)
-			}
-			if got, want := md.Keys(), tc.md.keys; !reflect.DeepEqual(got, want) {
-				t.Fatalf("invalid keys: got=%v, want=%v", got, want)
-			}
-			if got, want := md.Values(), tc.md.values; !reflect.DeepEqual(got, want) {
-				t.Fatalf("invalid values: got=%v, want=%v", got, want)
-			}
-			if !reflect.DeepEqual(tc.md, md) {
-				t.Fatalf("invalid md: got=%#v, want=%#v", md, tc.md)
-			}
-			clone := md.clone()
-			if !reflect.DeepEqual(clone, md) {
-				t.Fatalf("invalid clone: got=%#v, want=%#v", clone, md)
-			}
-
-			if got, want := tc.md.String(), tc.serialize; got != want {
-				t.Fatalf("invalid stringer: got=%q, want=%q", got, want)
-			}
-			if len(tc.kvs) != 0 {
-				assert.Equal(t, tc.kvs, md.ToMap())
-			}
-		})
-	}
-
-	t.Run("find-key", func(t *testing.T) {
-		md := NewMetadata([]string{"k1", "k11"}, []string{"v1", "v11"})
-
-		if got, want := md.FindKey("k1"), 0; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-
-		gotVal, _ := md.GetValue("k1")
-		wantVal := "v1"
-		if gotVal != wantVal {
-			t.Fatalf("got=%s, want=%s", gotVal, wantVal)
-		}
-
-		if got, want := md.FindKey(""), -1; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-		_, gotFound := md.GetValue("")
-		if gotFound {
-			t.Fatalf("wasn't expecting to find empty key")
-		}
-
-		if got, want := md.FindKey("k"), -1; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-		_, gotFound = md.GetValue("k")
-		if gotFound {
-			t.Fatalf("wasn't expecting to find key: 'k'")
-		}
-
-		if got, want := md.FindKey(" "), -1; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-
-		if got, want := md.FindKey("k11"), 1; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-
-		if got, want := md.FindKey("k11 "), -1; got != want {
-			t.Fatalf("got=%d, want=%d", got, want)
-		}
-	})
-}
-
-func TestSchema(t *testing.T) {
-	for _, tc := range []struct {
-		fields    []Field
-		md        *Metadata
-		err       error
-		serialize string
-		addEndian bool
-	}{
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-			},
-			md: func() *Metadata {
-				md := MetadataFrom(map[string]string{"k1": "v1", "k2": "v2"})
-				return &md
-			}(),
-			serialize: `schema:
-  fields: 2
-    - f1: type=int32
-    - f2: type=int64
-  metadata: ["k1": "v1", "k2": "v2"]`,
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-			},
-			md: nil,
-			serialize: `schema:
-  fields: 2
-    - f1: type=int32
-    - f2: type=int64`,
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: nil},
-			},
-			md:  nil,
-			err: fmt.Errorf("arrow: field with nil DataType"),
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int64},
-				{Name: "dup", Type: PrimitiveTypes.Int32}, // duplicate
-				{Name: "dup", Type: PrimitiveTypes.Int64}, // duplicate
-			},
-			md: nil,
-			serialize: `schema:
-  fields: 4
-    - f1: type=int32
-    - f2: type=int64
-    - dup: type=int32
-    - dup: type=int64`,
-		},
-		{
-			fields: []Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32, Nullable: true},
-				{Name: "f2", Type: PrimitiveTypes.Uint8},
-				{Name: "f3", Type: BinaryTypes.String, Nullable: true},
-				{Name: "f4", Type: ListOf(PrimitiveTypes.Int16), Nullable: true},
-			},
-			md: func() *Metadata {
-				md := MetadataFrom(map[string]string{"k1": "v1", "k2": "v2"})
-				return &md
-			}(),
-			addEndian: true, // only print endianness if non-native endian
-			serialize: `schema:
-  fields: 4
-    - f1: type=int32, nullable
-    - f2: type=uint8
-    - f3: type=utf8, nullable
-    - f4: type=list<item: int16, nullable>, nullable
-  endianness: ` + endian.NonNativeEndian.String() + `
-  metadata: ["k1": "v1", "k2": "v2"]`,
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			if tc.err != nil {
-				defer func() {
-					e := recover()
-					if e == nil {
-						t.Fatalf("expected a panic %q", tc.err)
-					}
-					switch err := e.(type) {
-					case string:
-						if err != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					case error:
-						if err.Error() != tc.err.Error() {
-							t.Fatalf("invalid panic message. got=%q, want=%q", err, tc.err)
-						}
-					default:
-						t.Fatalf("invalid type for panic message: %T (err=%v)", err, err)
-					}
-				}()
-			}
-
-			s := NewSchema(tc.fields, tc.md)
-			if tc.addEndian {
-				s = s.WithEndianness(endian.NonNativeEndian)
-			}
-
-			if got, want := s.NumFields(), len(tc.fields); got != want {
-				t.Fatalf("invalid number of fields. got=%d, want=%d", got, want)
-			}
-
-			if got, want := s.Field(0), tc.fields[0]; !got.Equal(want) {
-				t.Fatalf("invalid field: got=%#v, want=%#v", got, want)
-			}
-
-			fields := s.Fields()
-			fields[0].Name = "other"
-			// check that the fields are copied and not shared
-			if got, want := s.Field(0), tc.fields[0]; !got.Equal(want) {
-				t.Fatalf("invalid field: got=%#v, want=%#v", got, want)
-			}
-
-			if got, want := s.HasMetadata(), tc.md != nil; got != want {
-				t.Fatalf("invalid metadata: got=%v, want=%v", got, want)
-			}
-
-			if tc.md != nil {
-				if got, want := s.Metadata(), *tc.md; !reflect.DeepEqual(got, want) {
-					t.Fatalf("invalid metadata: got=%#v, want=%#v", got, want)
-				}
-			}
-
-			for _, tc := range []struct {
-				name   string
-				ok     bool
-				fields []Field
-				i      []int
-			}{
-				{"f1", true, []Field{tc.fields[0]}, []int{0}},
-				{"f2", true, []Field{tc.fields[1]}, []int{1}},
-				{"N/A", false, nil, nil},
-			} {
-				t.Run(tc.name, func(t *testing.T) {
-					got, ok := s.FieldsByName(tc.name)
-					if ok != tc.ok {
-						t.Fatalf("invalid field %q: got=%v, want=%v", tc.name, ok, tc.ok)
-					}
-					if i := s.FieldIndices(tc.name); !reflect.DeepEqual(i, tc.i) {
-						t.Fatalf("invalid FieldIndices(%s): got=%v, want=%v\nfields: %v", tc.name, i, tc.i, s.fields)
-					}
-					if ok := s.HasField(tc.name); ok != tc.ok {
-						t.Fatalf("invalid HasField(%s): got=%v, want=%v", tc.name, ok, tc.ok)
-					}
-					for i, field := range got {
-						if !field.Equal(tc.fields[i]) {
-							t.Fatalf("invalid field[%d]: got=%#v, want=%#v", i, field, tc.fields[i])
-						}
-					}
-				})
-			}
-
-			if s.HasField("dup") {
-				got := s.FieldIndices("dup")
-				want := []int{2, 3}
-				if !reflect.DeepEqual(got, want) {
-					t.Fatalf("invalid duplicate fields: got=%v, want=%v", got, want)
-				}
-			}
-
-			if got, want := s.String(), tc.serialize; got != want {
-				t.Fatalf("invalid stringer: got=%q, want=%q", got, want)
-			}
-		})
-	}
-}
-
-func TestSchemaAddField(t *testing.T) {
-	s := NewSchema([]Field{
-		{Name: "f1", Type: PrimitiveTypes.Int32},
-		{Name: "f2", Type: PrimitiveTypes.Int64},
-	}, nil)
-
-	_, err := s.AddField(3, Field{Name: "f3", Type: PrimitiveTypes.Int32})
-	if err == nil {
-		t.Fatalf("expected an error")
-	}
-
-	s, err = s.AddField(2, Field{Name: "f3", Type: PrimitiveTypes.Int32})
-	if err != nil {
-		t.Fatalf("unexpected error: %v", err)
-	}
-	if got, want := s.NumFields(), 3; got != want {
-		t.Fatalf("invalid number of fields. got=%d, want=%d", got, want)
-	}
-	got, want := s.Field(2), Field{Name: "f3", Type: PrimitiveTypes.Int32}
-	if !got.Equal(want) {
-		t.Fatalf("invalid field: got=%#v, want=%#v", got, want)
-	}
-}
-
-func TestSchemaEqual(t *testing.T) {
-	fields := []Field{
-		{Name: "f1", Type: PrimitiveTypes.Int32},
-		{Name: "f2", Type: PrimitiveTypes.Int64},
-	}
-	md := func() *Metadata {
-		md := MetadataFrom(map[string]string{"k1": "v1", "k2": "v2"})
-		return &md
-	}()
-
-	for _, tc := range []struct {
-		a, b *Schema
-		want bool
-	}{
-		{
-			a:    nil,
-			b:    nil,
-			want: true,
-		},
-		{
-			a:    nil,
-			b:    NewSchema(nil, nil),
-			want: false,
-		},
-		{
-			a:    NewSchema(nil, nil),
-			b:    nil,
-			want: false,
-		},
-		{
-			a:    NewSchema(nil, nil),
-			b:    NewSchema(nil, nil),
-			want: true,
-		},
-		{
-			a:    NewSchema(fields, nil),
-			b:    NewSchema(fields, nil),
-			want: true,
-		},
-		{
-			a:    NewSchema(fields, md),
-			b:    NewSchema(fields, nil),
-			want: true,
-		},
-		{
-			a:    NewSchema(fields, md),
-			b:    NewSchema(fields, md),
-			want: true,
-		},
-		{
-			a:    NewSchema(fields[:1], md),
-			b:    NewSchema(fields, md),
-			want: false,
-		},
-		{
-			a: NewSchema(fields, md),
-			b: NewSchema([]Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "f2", Type: PrimitiveTypes.Int32},
-			}, md),
-			want: false,
-		},
-		{
-			a: NewSchema(fields, md),
-			b: NewSchema([]Field{
-				{Name: "f1", Type: PrimitiveTypes.Int32},
-				{Name: "fx", Type: PrimitiveTypes.Int64},
-			}, md),
-			want: false,
-		},
-		{
-			a:    NewSchemaWithEndian(fields, nil, endian.LittleEndian),
-			b:    NewSchemaWithEndian(fields, nil, endian.LittleEndian),
-			want: true,
-		},
-		{
-			a:    NewSchemaWithEndian(fields, nil, endian.LittleEndian),
-			b:    NewSchemaWithEndian(fields, nil, endian.BigEndian),
-			want: false,
-		},
-		{
-			a:    NewSchemaWithEndian(fields, nil, endian.LittleEndian),
-			b:    NewSchema(fields, nil),
-			want: !endian.IsBigEndian,
-		},
-		{
-			a:    NewSchemaWithEndian(fields, nil, endian.BigEndian),
-			b:    NewSchema(fields, nil),
-			want: endian.IsBigEndian,
-		},
-	} {
-		t.Run("", func(t *testing.T) {
-			if !tc.a.Equal(tc.a) {
-				t.Fatalf("a != a")
-			}
-			if !tc.b.Equal(tc.b) {
-				t.Fatalf("b != b")
-			}
-			ab := tc.a.Equal(tc.b)
-			if ab != tc.want {
-				t.Fatalf("got=%v, want=%v", ab, tc.want)
-			}
-
-			ba := tc.b.Equal(tc.a)
-			if ab != ba {
-				t.Fatalf("ab != ba")
-			}
-
-			if (tc.a.Fingerprint() == tc.b.Fingerprint()) != tc.want {
-				t.Fatalf("fingerprint: got=%v;%v, wanted=%v", tc.a.Fingerprint(), tc.b.Fingerprint(), tc.want)
-			}
-		})
-	}
-}
-
-func TestSchemaNumFields(t *testing.T) {
-	s := NewSchema([]Field{
-		{Name: "f1", Type: PrimitiveTypes.Int32},
-		{Name: "f2", Type: PrimitiveTypes.Int64},
-	}, nil)
-
-	assert.Equal(t, 2, s.NumFields())
-
-	var err error
-	s, err = s.AddField(2, Field{Name: "f3", Type: PrimitiveTypes.Int32})
-	assert.NoError(t, err)
-
-	assert.Equal(t, 3, s.NumFields())
-	assert.Equal(t, s.NumFields(), s.NumFields())
-}
diff --git a/go/arrow/table.go b/go/arrow/table.go
deleted file mode 100644
index c7a13fc37d28c..0000000000000
--- a/go/arrow/table.go
+++ /dev/null
@@ -1,195 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"fmt"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-// Table represents a logical sequence of chunked arrays of equal length. It is
-// similar to a Record except that the columns are ChunkedArrays instead,
-// allowing for a Table to be built up by chunks progressively whereas the columns
-// in a single Record are always each a single contiguous array.
-type Table interface {
-	Schema() *Schema
-	NumRows() int64
-	NumCols() int64
-	Column(i int) *Column
-
-	// AddColumn adds a new column to the table and a corresponding field (of the same type)
-	// to its schema, at the specified position. Returns the new table with updated columns and schema.
-	AddColumn(pos int, f Field, c Column) (Table, error)
-
-	Retain()
-	Release()
-
-	fmt.Stringer
-}
-
-// Column is an immutable column data structure consisting of
-// a field (type metadata) and a chunked data array.
-//
-// To get strongly typed data from a Column, you need to iterate the
-// chunks and type assert each individual Array. For example:
-//
-//	switch column.DataType().ID() {
-//	case arrow.INT32:
-//		for _, c := range column.Data().Chunks() {
-//			arr := c.(*array.Int32)
-//			// do something with arr
-//		}
-//	case arrow.INT64:
-//		for _, c := range column.Data().Chunks() {
-//			arr := c.(*array.Int64)
-//			// do something with arr
-//		}
-//	case ...
-//	}
-type Column struct {
-	field Field
-	data  *Chunked
-}
-
-// NewColumnFromArr is a convenience function to create a column from
-// a field and a non-chunked array.
-//
-// This provides a simple mechanism for bypassing the middle step of
-// constructing a Chunked array of one and then releasing it because
-// of the ref counting.
-func NewColumnFromArr(field Field, arr Array) Column {
-	if !TypeEqual(field.Type, arr.DataType()) {
-		panic(fmt.Errorf("%w: arrow/array: inconsistent data type %s vs %s", ErrInvalid, field.Type, arr.DataType()))
-	}
-
-	arr.Retain()
-	return Column{
-		field: field,
-		data: &Chunked{
-			refCount: 1,
-			chunks:   []Array{arr},
-			length:   arr.Len(),
-			nulls:    arr.NullN(),
-			dtype:    field.Type,
-		},
-	}
-}
-
-// NewColumn returns a column from a field and a chunked data array.
-//
-// NewColumn panics if the field's data type is inconsistent with the data type
-// of the chunked data array.
-func NewColumn(field Field, chunks *Chunked) *Column {
-	col := Column{
-		field: field,
-		data:  chunks,
-	}
-	col.data.Retain()
-
-	if !TypeEqual(col.data.DataType(), col.field.Type) {
-		col.data.Release()
-		panic(fmt.Errorf("%w: arrow/array: inconsistent data type %s vs %s", ErrInvalid, col.data.DataType(), col.field.Type))
-	}
-
-	return &col
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (col *Column) Retain() {
-	col.data.Retain()
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (col *Column) Release() {
-	col.data.Release()
-}
-
-func (col *Column) Len() int           { return col.data.Len() }
-func (col *Column) NullN() int         { return col.data.NullN() }
-func (col *Column) Data() *Chunked     { return col.data }
-func (col *Column) Field() Field       { return col.field }
-func (col *Column) Name() string       { return col.field.Name }
-func (col *Column) DataType() DataType { return col.field.Type }
-
-// Chunked manages a collection of primitives arrays as one logical large array.
-type Chunked struct {
-	refCount int64 // refCount must be first in the struct for 64 bit alignment and sync/atomic (https://github.com/golang/go/issues/37262)
-
-	chunks []Array
-
-	length int
-	nulls  int
-	dtype  DataType
-}
-
-// NewChunked returns a new chunked array from the slice of arrays.
-//
-// NewChunked panics if the chunks do not have the same data type.
-func NewChunked(dtype DataType, chunks []Array) *Chunked {
-	arr := &Chunked{
-		chunks:   make([]Array, 0, len(chunks)),
-		refCount: 1,
-		dtype:    dtype,
-	}
-	for _, chunk := range chunks {
-		if chunk == nil {
-			continue
-		}
-
-		if !TypeEqual(chunk.DataType(), dtype) {
-			panic(fmt.Errorf("%w: arrow/array: mismatch data type %s vs %s", ErrInvalid, chunk.DataType().String(), dtype.String()))
-		}
-		chunk.Retain()
-		arr.chunks = append(arr.chunks, chunk)
-		arr.length += chunk.Len()
-		arr.nulls += chunk.NullN()
-	}
-	return arr
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (a *Chunked) Retain() {
-	atomic.AddInt64(&a.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// When the reference count goes to zero, the memory is freed.
-// Release may be called simultaneously from multiple goroutines.
-func (a *Chunked) Release() {
-	debug.Assert(atomic.LoadInt64(&a.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&a.refCount, -1) == 0 {
-		for _, arr := range a.chunks {
-			arr.Release()
-		}
-		a.chunks = nil
-		a.length = 0
-		a.nulls = 0
-	}
-}
-
-func (a *Chunked) Len() int           { return a.length }
-func (a *Chunked) NullN() int         { return a.nulls }
-func (a *Chunked) DataType() DataType { return a.dtype }
-func (a *Chunked) Chunks() []Array    { return a.chunks }
-func (a *Chunked) Chunk(i int) Array  { return a.chunks[i] }
diff --git a/go/arrow/tensor/numeric.gen.go b/go/arrow/tensor/numeric.gen.go
deleted file mode 100644
index 81ae6af41b09e..0000000000000
--- a/go/arrow/tensor/numeric.gen.go
+++ /dev/null
@@ -1,326 +0,0 @@
-// Code generated by tensor/numeric.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tensor
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-// Int8 is an n-dim array of int8s.
-type Int8 struct {
-	tensorBase
-	values []int8
-}
-
-// NewInt8 returns a new n-dimensional array of int8s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewInt8(data arrow.ArrayData, shape, strides []int64, names []string) *Int8 {
-	tsr := &Int8{tensorBase: *newTensor(arrow.PrimitiveTypes.Int8, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Int8Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Int8) Value(i []int64) int8 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Int8) Int8Values() []int8   { return tsr.values }
-
-// Int16 is an n-dim array of int16s.
-type Int16 struct {
-	tensorBase
-	values []int16
-}
-
-// NewInt16 returns a new n-dimensional array of int16s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewInt16(data arrow.ArrayData, shape, strides []int64, names []string) *Int16 {
-	tsr := &Int16{tensorBase: *newTensor(arrow.PrimitiveTypes.Int16, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Int16Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Int16) Value(i []int64) int16 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Int16) Int16Values() []int16  { return tsr.values }
-
-// Int32 is an n-dim array of int32s.
-type Int32 struct {
-	tensorBase
-	values []int32
-}
-
-// NewInt32 returns a new n-dimensional array of int32s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewInt32(data arrow.ArrayData, shape, strides []int64, names []string) *Int32 {
-	tsr := &Int32{tensorBase: *newTensor(arrow.PrimitiveTypes.Int32, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Int32Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Int32) Value(i []int64) int32 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Int32) Int32Values() []int32  { return tsr.values }
-
-// Int64 is an n-dim array of int64s.
-type Int64 struct {
-	tensorBase
-	values []int64
-}
-
-// NewInt64 returns a new n-dimensional array of int64s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewInt64(data arrow.ArrayData, shape, strides []int64, names []string) *Int64 {
-	tsr := &Int64{tensorBase: *newTensor(arrow.PrimitiveTypes.Int64, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Int64Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Int64) Value(i []int64) int64 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Int64) Int64Values() []int64  { return tsr.values }
-
-// Uint8 is an n-dim array of uint8s.
-type Uint8 struct {
-	tensorBase
-	values []uint8
-}
-
-// NewUint8 returns a new n-dimensional array of uint8s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewUint8(data arrow.ArrayData, shape, strides []int64, names []string) *Uint8 {
-	tsr := &Uint8{tensorBase: *newTensor(arrow.PrimitiveTypes.Uint8, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Uint8Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Uint8) Value(i []int64) uint8 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Uint8) Uint8Values() []uint8  { return tsr.values }
-
-// Uint16 is an n-dim array of uint16s.
-type Uint16 struct {
-	tensorBase
-	values []uint16
-}
-
-// NewUint16 returns a new n-dimensional array of uint16s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewUint16(data arrow.ArrayData, shape, strides []int64, names []string) *Uint16 {
-	tsr := &Uint16{tensorBase: *newTensor(arrow.PrimitiveTypes.Uint16, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Uint16Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Uint16) Value(i []int64) uint16 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Uint16) Uint16Values() []uint16 { return tsr.values }
-
-// Uint32 is an n-dim array of uint32s.
-type Uint32 struct {
-	tensorBase
-	values []uint32
-}
-
-// NewUint32 returns a new n-dimensional array of uint32s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewUint32(data arrow.ArrayData, shape, strides []int64, names []string) *Uint32 {
-	tsr := &Uint32{tensorBase: *newTensor(arrow.PrimitiveTypes.Uint32, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Uint32Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Uint32) Value(i []int64) uint32 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Uint32) Uint32Values() []uint32 { return tsr.values }
-
-// Uint64 is an n-dim array of uint64s.
-type Uint64 struct {
-	tensorBase
-	values []uint64
-}
-
-// NewUint64 returns a new n-dimensional array of uint64s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewUint64(data arrow.ArrayData, shape, strides []int64, names []string) *Uint64 {
-	tsr := &Uint64{tensorBase: *newTensor(arrow.PrimitiveTypes.Uint64, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Uint64Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Uint64) Value(i []int64) uint64 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Uint64) Uint64Values() []uint64 { return tsr.values }
-
-// Float32 is an n-dim array of float32s.
-type Float32 struct {
-	tensorBase
-	values []float32
-}
-
-// NewFloat32 returns a new n-dimensional array of float32s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewFloat32(data arrow.ArrayData, shape, strides []int64, names []string) *Float32 {
-	tsr := &Float32{tensorBase: *newTensor(arrow.PrimitiveTypes.Float32, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Float32Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Float32) Value(i []int64) float32  { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Float32) Float32Values() []float32 { return tsr.values }
-
-// Float64 is an n-dim array of float64s.
-type Float64 struct {
-	tensorBase
-	values []float64
-}
-
-// NewFloat64 returns a new n-dimensional array of float64s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewFloat64(data arrow.ArrayData, shape, strides []int64, names []string) *Float64 {
-	tsr := &Float64{tensorBase: *newTensor(arrow.PrimitiveTypes.Float64, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Float64Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Float64) Value(i []int64) float64  { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Float64) Float64Values() []float64 { return tsr.values }
-
-// Date32 is an n-dim array of date32s.
-type Date32 struct {
-	tensorBase
-	values []arrow.Date32
-}
-
-// NewDate32 returns a new n-dimensional array of date32s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewDate32(data arrow.ArrayData, shape, strides []int64, names []string) *Date32 {
-	tsr := &Date32{tensorBase: *newTensor(arrow.PrimitiveTypes.Date32, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Date32Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Date32) Value(i []int64) arrow.Date32 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Date32) Date32Values() []arrow.Date32 { return tsr.values }
-
-// Date64 is an n-dim array of date64s.
-type Date64 struct {
-	tensorBase
-	values []arrow.Date64
-}
-
-// NewDate64 returns a new n-dimensional array of date64s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func NewDate64(data arrow.ArrayData, shape, strides []int64, names []string) *Date64 {
-	tsr := &Date64{tensorBase: *newTensor(arrow.PrimitiveTypes.Date64, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.Date64Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *Date64) Value(i []int64) arrow.Date64 { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *Date64) Date64Values() []arrow.Date64 { return tsr.values }
-
-var (
-	_ Interface = (*Int8)(nil)
-	_ Interface = (*Int16)(nil)
-	_ Interface = (*Int32)(nil)
-	_ Interface = (*Int64)(nil)
-	_ Interface = (*Uint8)(nil)
-	_ Interface = (*Uint16)(nil)
-	_ Interface = (*Uint32)(nil)
-	_ Interface = (*Uint64)(nil)
-	_ Interface = (*Float32)(nil)
-	_ Interface = (*Float64)(nil)
-	_ Interface = (*Date32)(nil)
-	_ Interface = (*Date64)(nil)
-)
diff --git a/go/arrow/tensor/numeric.gen.go.tmpl b/go/arrow/tensor/numeric.gen.go.tmpl
deleted file mode 100644
index 9f30297e1ac32..0000000000000
--- a/go/arrow/tensor/numeric.gen.go.tmpl
+++ /dev/null
@@ -1,55 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tensor
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-)
-
-{{range .In}}
-
-// {{.Name}} is an n-dim array of {{.Type}}s.
-type {{.Name}} struct {
-	tensorBase
-	values []{{or .QualifiedType .Type}}
-}
-
-// New{{.Name}} returns a new n-dimensional array of {{.Type}}s.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-func New{{.Name}}(data arrow.ArrayData, shape, strides []int64, names []string) *{{.Name}} {
-	tsr := &{{.Name}}{tensorBase:*newTensor(arrow.PrimitiveTypes.{{.Name}}, data, shape, strides, names)}
-	vals := tsr.data.Buffers()[1]
-	if vals != nil {
-		tsr.values = arrow.{{.Name}}Traits.CastFromBytes(vals.Bytes())
-		beg := tsr.data.Offset()
-		end := beg + tsr.data.Len()
-		tsr.values = tsr.values[beg:end]
-	}
-	return tsr
-}
-
-func (tsr *{{.Name}}) Value(i []int64)  {{or .QualifiedType .Type}} { j := int(tsr.offset(i)); return tsr.values[j] }
-func (tsr *{{.Name}}) {{.Name}}Values() []{{or .QualifiedType .Type}} { return tsr.values }
-{{end}}
-
-var (
-{{range .In}}
-	_ Interface = (*{{.Name}})(nil)
-{{- end}}
-)
diff --git a/go/arrow/tensor/numeric.gen_test.go b/go/arrow/tensor/numeric.gen_test.go
deleted file mode 100644
index 8039aea39667a..0000000000000
--- a/go/arrow/tensor/numeric.gen_test.go
+++ /dev/null
@@ -1,1170 +0,0 @@
-// Code generated by tensor/numeric.gen_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tensor_test
-
-import (
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/tensor"
-)
-
-func TestTensorInt8(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewInt8Builder(mem)
-	defer bld.Release()
-
-	raw := []int8{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewInt8Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Int8.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Int8)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Int8Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v int8
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorInt16(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewInt16Builder(mem)
-	defer bld.Release()
-
-	raw := []int16{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewInt16Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Int16.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Int16)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Int16Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v int16
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorInt32(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewInt32Builder(mem)
-	defer bld.Release()
-
-	raw := []int32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewInt32Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Int32.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Int32)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Int32Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v int32
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorInt64(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewInt64Builder(mem)
-	defer bld.Release()
-
-	raw := []int64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewInt64Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Int64.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Int64)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Int64Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v int64
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorUint8(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewUint8Builder(mem)
-	defer bld.Release()
-
-	raw := []uint8{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewUint8Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Uint8.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Uint8)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Uint8Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v uint8
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorUint16(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewUint16Builder(mem)
-	defer bld.Release()
-
-	raw := []uint16{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewUint16Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Uint16.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Uint16)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Uint16Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v uint16
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorUint32(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewUint32Builder(mem)
-	defer bld.Release()
-
-	raw := []uint32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewUint32Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Uint32.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Uint32)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Uint32Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v uint32
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorUint64(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewUint64Builder(mem)
-	defer bld.Release()
-
-	raw := []uint64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewUint64Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Uint64.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Uint64)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Uint64Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v uint64
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorFloat32(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewFloat32Builder(mem)
-	defer bld.Release()
-
-	raw := []float32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewFloat32Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Float32.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Float32)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Float32Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v float32
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorFloat64(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewFloat64Builder(mem)
-	defer bld.Release()
-
-	raw := []float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewFloat64Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Float64.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Float64)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Float64Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v float64
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorDate32(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewDate32Builder(mem)
-	defer bld.Release()
-
-	raw := []arrow.Date32{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewDate32Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Date32.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Date32)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Date32Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v arrow.Date32
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestTensorDate64(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewDate64Builder(mem)
-	defer bld.Release()
-
-	raw := []arrow.Date64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewDate64Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.Date64.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.Date64)
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5 * bw, 1 * bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.Date64Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v arrow.Date64
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
diff --git a/go/arrow/tensor/numeric.gen_test.go.tmpl b/go/arrow/tensor/numeric.gen_test.go.tmpl
deleted file mode 100644
index 593be259ce630..0000000000000
--- a/go/arrow/tensor/numeric.gen_test.go.tmpl
+++ /dev/null
@@ -1,126 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tensor_test
-
-import (
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/tensor"
-)
-
-{{range .In}}
-
-func TestTensor{{.Name}}(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.New{{.Name}}Builder(mem)
-	defer bld.Release()
-
-	raw := []{{or .QualifiedType .Type}}{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.New{{.Name}}Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-		bw    = int64(arrow.PrimitiveTypes.{{.Name}}.(arrow.FixedWidthDataType).BitWidth()) / 8
-	)
-
-	tsr := tensor.New(arr.Data(), shape, nil, names).(*tensor.{{.Name}})
-	defer tsr.Release()
-
-	tsr.Retain()
-	tsr.Release()
-
-	if got, want := tsr.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := tsr.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.Strides(), []int64{5*bw, 1*bw}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := tsr.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := tsr.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := tsr.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := tsr.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if tsr.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !tsr.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !tsr.IsRowMajor() || tsr.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := tsr.{{.Name}}Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v {{or .QualifiedType .Type}}
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := tsr.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-{{end}}
diff --git a/go/arrow/tensor/tensor.go b/go/arrow/tensor/tensor.go
deleted file mode 100644
index 067015f3a97d0..0000000000000
--- a/go/arrow/tensor/tensor.go
+++ /dev/null
@@ -1,246 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package tensor provides types that implement n-dimensional arrays.
-package tensor
-
-import (
-	"fmt"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-// Interface represents an n-dimensional array of numerical data.
-type Interface interface {
-	// Retain increases the reference count by 1.
-	// Retain may be called simultaneously from multiple goroutines.
-	Retain()
-
-	// Release decreases the reference count by 1.
-	// Release may be called simultaneously from multiple goroutines.
-	// When the reference count goes to zero, the memory is freed.
-	Release()
-
-	// Len returns the number of elements in the tensor.
-	Len() int
-
-	// Shape returns the size - in each dimension - of the tensor.
-	Shape() []int64
-
-	// Strides returns the number of bytes to step in each dimension when traversing the tensor.
-	Strides() []int64
-
-	// NumDims returns the number of dimensions of the tensor.
-	NumDims() int
-
-	// DimName returns the name of the i-th dimension.
-	DimName(i int) string
-
-	// DimNames returns the names for all dimensions
-	DimNames() []string
-
-	DataType() arrow.DataType
-	Data() arrow.ArrayData
-
-	// IsMutable returns whether the underlying data buffer is mutable.
-	IsMutable() bool
-	IsContiguous() bool
-	IsRowMajor() bool
-	IsColMajor() bool
-}
-
-type tensorBase struct {
-	refCount int64
-	dtype    arrow.DataType
-	bw       int64 // bytes width
-	data     arrow.ArrayData
-	shape    []int64
-	strides  []int64
-	names    []string
-}
-
-// Retain increases the reference count by 1.
-// Retain may be called simultaneously from multiple goroutines.
-func (tb *tensorBase) Retain() {
-	atomic.AddInt64(&tb.refCount, 1)
-}
-
-// Release decreases the reference count by 1.
-// Release may be called simultaneously from multiple goroutines.
-// When the reference count goes to zero, the memory is freed.
-func (tb *tensorBase) Release() {
-	debug.Assert(atomic.LoadInt64(&tb.refCount) > 0, "too many releases")
-
-	if atomic.AddInt64(&tb.refCount, -1) == 0 {
-		tb.data.Release()
-		tb.data = nil
-	}
-}
-
-func (tb *tensorBase) Len() int {
-	o := int64(1)
-	for _, v := range tb.shape {
-		o *= v
-	}
-	return int(o)
-}
-
-func (tb *tensorBase) Shape() []int64           { return tb.shape }
-func (tb *tensorBase) Strides() []int64         { return tb.strides }
-func (tb *tensorBase) NumDims() int             { return len(tb.shape) }
-func (tb *tensorBase) DimName(i int) string     { return tb.names[i] }
-func (tb *tensorBase) DataType() arrow.DataType { return tb.dtype }
-func (tb *tensorBase) Data() arrow.ArrayData    { return tb.data }
-func (tb *tensorBase) DimNames() []string       { return tb.names }
-
-// IsMutable returns whether the underlying data buffer is mutable.
-func (tb *tensorBase) IsMutable() bool { return false } // FIXME(sbinet): implement it at the array.Data level
-
-func (tb *tensorBase) IsContiguous() bool {
-	return tb.IsRowMajor() || tb.IsColMajor()
-}
-
-func (tb *tensorBase) IsRowMajor() bool {
-	strides := rowMajorStrides(tb.dtype, tb.shape)
-	return equalInt64s(strides, tb.strides)
-}
-
-func (tb *tensorBase) IsColMajor() bool {
-	strides := colMajorStrides(tb.dtype, tb.shape)
-	return equalInt64s(strides, tb.strides)
-}
-
-func (tb *tensorBase) offset(index []int64) int64 {
-	var offset int64
-	for i, v := range index {
-		offset += v * tb.strides[i]
-	}
-	return offset / tb.bw
-}
-
-// New returns a new n-dim array from the provided backing data and the shape and strides.
-// If strides is nil, row-major strides will be inferred.
-// If names is nil, a slice of empty strings will be created.
-//
-// New panics if the backing data is not a numerical type.
-func New(data arrow.ArrayData, shape, strides []int64, names []string) Interface {
-	dt := data.DataType()
-	switch dt.ID() {
-	case arrow.INT8:
-		return NewInt8(data, shape, strides, names)
-	case arrow.INT16:
-		return NewInt16(data, shape, strides, names)
-	case arrow.INT32:
-		return NewInt32(data, shape, strides, names)
-	case arrow.INT64:
-		return NewInt64(data, shape, strides, names)
-	case arrow.UINT8:
-		return NewUint8(data, shape, strides, names)
-	case arrow.UINT16:
-		return NewUint16(data, shape, strides, names)
-	case arrow.UINT32:
-		return NewUint32(data, shape, strides, names)
-	case arrow.UINT64:
-		return NewUint64(data, shape, strides, names)
-	case arrow.FLOAT32:
-		return NewFloat32(data, shape, strides, names)
-	case arrow.FLOAT64:
-		return NewFloat64(data, shape, strides, names)
-	case arrow.DATE32:
-		return NewDate32(data, shape, strides, names)
-	case arrow.DATE64:
-		return NewDate64(data, shape, strides, names)
-	default:
-		panic(fmt.Errorf("arrow/tensor: invalid data type %s", dt.Name()))
-	}
-}
-
-func newTensor(dtype arrow.DataType, data arrow.ArrayData, shape, strides []int64, names []string) *tensorBase {
-	tb := tensorBase{
-		refCount: 1,
-		dtype:    dtype,
-		bw:       int64(dtype.(arrow.FixedWidthDataType).BitWidth()) / 8,
-		data:     data,
-		shape:    shape,
-		strides:  strides,
-		names:    names,
-	}
-	tb.data.Retain()
-
-	if len(tb.shape) > 0 && len(tb.strides) == 0 {
-		tb.strides = rowMajorStrides(dtype, shape)
-	}
-	return &tb
-}
-
-func rowMajorStrides(dtype arrow.DataType, shape []int64) []int64 {
-	dt := dtype.(arrow.FixedWidthDataType)
-	rem := int64(dt.BitWidth() / 8)
-	for _, v := range shape {
-		rem *= v
-	}
-
-	if rem == 0 {
-		strides := make([]int64, len(shape))
-		rem := int64(dt.BitWidth() / 8)
-		for i := range strides {
-			strides[i] = rem
-		}
-		return strides
-	}
-
-	var strides []int64
-	for _, v := range shape {
-		rem /= v
-		strides = append(strides, rem)
-	}
-	return strides
-}
-
-func colMajorStrides(dtype arrow.DataType, shape []int64) []int64 {
-	dt := dtype.(arrow.FixedWidthDataType)
-	total := int64(dt.BitWidth() / 8)
-	for _, v := range shape {
-		if v == 0 {
-			strides := make([]int64, len(shape))
-			for i := range strides {
-				strides[i] = total
-			}
-			return strides
-		}
-	}
-
-	var strides []int64
-	for _, v := range shape {
-		strides = append(strides, total)
-		total *= v
-	}
-	return strides
-}
-
-func equalInt64s(a, b []int64) bool {
-	if len(a) != len(b) {
-		return false
-	}
-	for i := range a {
-		if a[i] != b[i] {
-			return false
-		}
-	}
-	return true
-}
diff --git a/go/arrow/tensor/tensor_test.go b/go/arrow/tensor/tensor_test.go
deleted file mode 100644
index 73547e32c3bcb..0000000000000
--- a/go/arrow/tensor/tensor_test.go
+++ /dev/null
@@ -1,166 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package tensor_test
-
-import (
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/tensor"
-)
-
-func TestTensor(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewFloat64Builder(mem)
-	defer bld.Release()
-
-	raw := []float64{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewFloat64Array()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-	)
-
-	f64 := tensor.New(arr.Data(), shape, nil, names).(*tensor.Float64)
-	defer f64.Release()
-
-	f64.Retain()
-	f64.Release()
-
-	if got, want := f64.Len(), 10; got != want {
-		t.Fatalf("invalid length: got=%d, want=%d", got, want)
-	}
-
-	if got, want := f64.Shape(), shape; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid shape: got=%v, want=%v", got, want)
-	}
-
-	if got, want := f64.Strides(), []int64{40, 8}; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid strides: got=%v, want=%v", got, want)
-	}
-
-	if got, want := f64.NumDims(), 2; got != want {
-		t.Fatalf("invalid dims: got=%d, want=%d", got, want)
-	}
-
-	if got, want := f64.DimNames(), names; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid dim-names: got=%v, want=%v", got, want)
-	}
-
-	for i, name := range names {
-		if got, want := f64.DimName(i), name; got != want {
-			t.Fatalf("invalid dim-name[%d]: got=%q, want=%q", i, got, want)
-		}
-	}
-
-	if got, want := f64.DataType(), arr.DataType(); got != want {
-		t.Fatalf("invalid data-type: got=%q, want=%q", got.Name(), want.Name())
-	}
-
-	if got, want := f64.Data(), arr.Data(); got != want {
-		t.Fatalf("invalid data: got=%v, want=%v", got, want)
-	}
-
-	if f64.IsMutable() {
-		t.Fatalf("should not be mutable")
-	}
-
-	if !f64.IsContiguous() {
-		t.Fatalf("should be contiguous")
-	}
-
-	if !f64.IsRowMajor() || f64.IsColMajor() {
-		t.Fatalf("should be row-major")
-	}
-
-	if got, want := f64.Float64Values(), raw; !reflect.DeepEqual(got, want) {
-		t.Fatalf("invalid backing array: got=%v, want=%v", got, want)
-	}
-
-	for _, tc := range []struct {
-		i []int64
-		v float64
-	}{
-		{i: []int64{0, 0}, v: 1},
-		{i: []int64{0, 1}, v: 2},
-		{i: []int64{0, 2}, v: 3},
-		{i: []int64{0, 3}, v: 4},
-		{i: []int64{0, 4}, v: 5},
-		{i: []int64{1, 0}, v: 6},
-		{i: []int64{1, 1}, v: 7},
-		{i: []int64{1, 2}, v: 8},
-		{i: []int64{1, 3}, v: 9},
-		{i: []int64{1, 4}, v: 10},
-	} {
-		t.Run(fmt.Sprintf("%v", tc.i), func(t *testing.T) {
-			got := f64.Value(tc.i)
-			if got != tc.v {
-				t.Fatalf("arr[%v]: got=%v, want=%v", tc.i, got, tc.v)
-			}
-		})
-	}
-}
-
-func TestInvalidTensor(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	bld := array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary)
-	defer bld.Release()
-
-	raw := [][]byte{{1}, {2, 2}, {3, 3}, {4}, {5}, {6}, {7}, {8}, {9}, {10}}
-	bld.AppendValues(raw, nil)
-
-	arr := bld.NewBinaryArray()
-	defer arr.Release()
-
-	var (
-		shape = []int64{2, 5}
-		names = []string{"x", "y"}
-	)
-
-	t.Run("invalid-binary", func(t *testing.T) {
-		want := fmt.Errorf("arrow/tensor: invalid data type binary")
-		defer func() {
-			e := recover()
-			if e == nil {
-				t.Fatalf("expected an error: %v", want)
-			}
-			switch err := e.(type) {
-			case error:
-				if !reflect.DeepEqual(err, want) {
-					t.Fatalf("invalid error: got=%v (%T), want=%v", err, err, want)
-				}
-			default:
-				t.Fatalf("invalid error: got=%v (%T), want=%v", err, err, want)
-			}
-		}()
-		tsr := tensor.New(arr.Data(), shape, nil, names)
-		defer tsr.Release()
-	})
-
-}
diff --git a/go/arrow/tools.go b/go/arrow/tools.go
deleted file mode 100644
index 37b6dde3659d6..0000000000000
--- a/go/arrow/tools.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build tools
-// +build tools
-
-package tools
-
-import (
-	_ "golang.org/x/tools/cmd/goimports"
-	_ "golang.org/x/tools/cmd/stringer"
-)
diff --git a/go/arrow/type_string.go b/go/arrow/type_string.go
deleted file mode 100644
index ee3ccb7ef9f0a..0000000000000
--- a/go/arrow/type_string.go
+++ /dev/null
@@ -1,65 +0,0 @@
-// Code generated by "stringer -type=Type"; DO NOT EDIT.
-
-package arrow
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[NULL-0]
-	_ = x[BOOL-1]
-	_ = x[UINT8-2]
-	_ = x[INT8-3]
-	_ = x[UINT16-4]
-	_ = x[INT16-5]
-	_ = x[UINT32-6]
-	_ = x[INT32-7]
-	_ = x[UINT64-8]
-	_ = x[INT64-9]
-	_ = x[FLOAT16-10]
-	_ = x[FLOAT32-11]
-	_ = x[FLOAT64-12]
-	_ = x[STRING-13]
-	_ = x[BINARY-14]
-	_ = x[FIXED_SIZE_BINARY-15]
-	_ = x[DATE32-16]
-	_ = x[DATE64-17]
-	_ = x[TIMESTAMP-18]
-	_ = x[TIME32-19]
-	_ = x[TIME64-20]
-	_ = x[INTERVAL_MONTHS-21]
-	_ = x[INTERVAL_DAY_TIME-22]
-	_ = x[DECIMAL128-23]
-	_ = x[DECIMAL256-24]
-	_ = x[LIST-25]
-	_ = x[STRUCT-26]
-	_ = x[SPARSE_UNION-27]
-	_ = x[DENSE_UNION-28]
-	_ = x[DICTIONARY-29]
-	_ = x[MAP-30]
-	_ = x[EXTENSION-31]
-	_ = x[FIXED_SIZE_LIST-32]
-	_ = x[DURATION-33]
-	_ = x[LARGE_STRING-34]
-	_ = x[LARGE_BINARY-35]
-	_ = x[LARGE_LIST-36]
-	_ = x[INTERVAL_MONTH_DAY_NANO-37]
-	_ = x[RUN_END_ENCODED-38]
-	_ = x[STRING_VIEW-39]
-	_ = x[BINARY_VIEW-40]
-	_ = x[LIST_VIEW-41]
-	_ = x[LARGE_LIST_VIEW-42]
-}
-
-const _Type_name = "NULLBOOLUINT8INT8UINT16INT16UINT32INT32UINT64INT64FLOAT16FLOAT32FLOAT64STRINGBINARYFIXED_SIZE_BINARYDATE32DATE64TIMESTAMPTIME32TIME64INTERVAL_MONTHSINTERVAL_DAY_TIMEDECIMAL128DECIMAL256LISTSTRUCTSPARSE_UNIONDENSE_UNIONDICTIONARYMAPEXTENSIONFIXED_SIZE_LISTDURATIONLARGE_STRINGLARGE_BINARYLARGE_LISTINTERVAL_MONTH_DAY_NANORUN_END_ENCODEDSTRING_VIEWBINARY_VIEWLIST_VIEWLARGE_LIST_VIEW"
-
-var _Type_index = [...]uint16{0, 4, 8, 13, 17, 23, 28, 34, 39, 45, 50, 57, 64, 71, 77, 83, 100, 106, 112, 121, 127, 133, 148, 165, 175, 185, 189, 195, 207, 218, 228, 231, 240, 255, 263, 275, 287, 297, 320, 335, 346, 357, 366, 381}
-
-func (i Type) String() string {
-	if i < 0 || i >= Type(len(_Type_index)-1) {
-		return "Type(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _Type_name[_Type_index[i]:_Type_index[i+1]]
-}
diff --git a/go/arrow/type_traits.go b/go/arrow/type_traits.go
deleted file mode 100644
index aae6ad106487f..0000000000000
--- a/go/arrow/type_traits.go
+++ /dev/null
@@ -1,162 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"reflect"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"golang.org/x/exp/constraints"
-)
-
-// IntType is a type constraint for raw values represented as signed
-// integer types by  We aren't just using constraints.Signed
-// because we don't want to include the raw `int` type here whose size
-// changes based on the architecture (int32 on 32-bit architectures and
-// int64 on 64-bit architectures).
-//
-// This will also cover types like MonthInterval or the time types
-// as their underlying types are int32 and int64 which will get covered
-// by using the ~
-type IntType interface {
-	~int8 | ~int16 | ~int32 | ~int64
-}
-
-// UintType is a type constraint for raw values represented as unsigned
-// integer types by  We aren't just using constraints.Unsigned
-// because we don't want to include the raw `uint` type here whose size
-// changes based on the architecture (uint32 on 32-bit architectures and
-// uint64 on 64-bit architectures). We also don't want to include uintptr
-type UintType interface {
-	~uint8 | ~uint16 | ~uint32 | ~uint64
-}
-
-// FloatType is a type constraint for raw values for representing
-// floating point values in  This consists of constraints.Float and
-// float16.Num
-type FloatType interface {
-	float16.Num | constraints.Float
-}
-
-// NumericType is a type constraint for just signed/unsigned integers
-// and float32/float64.
-type NumericType interface {
-	IntType | UintType | constraints.Float
-}
-
-// FixedWidthType is a type constraint for raw values in Arrow that
-// can be represented as FixedWidth byte slices. Specifically this is for
-// using Go generics to easily re-type a byte slice to a properly-typed
-// slice. Booleans are excluded here since they are represented by Arrow
-// as a bitmap and thus the buffer can't be just reinterpreted as a []bool
-type FixedWidthType interface {
-	IntType | UintType |
-		FloatType | decimal128.Num | decimal256.Num |
-		DayTimeInterval | MonthDayNanoInterval
-}
-
-type TemporalType interface {
-	Date32 | Date64 | Time32 | Time64 |
-		Timestamp | Duration | DayTimeInterval |
-		MonthInterval | MonthDayNanoInterval
-}
-
-func reinterpretSlice[Out, T any](b []T) []Out {
-	if cap(b) == 0 {
-		return nil
-	}
-	out := (*Out)(unsafe.Pointer(&b[:1][0]))
-
-	lenBytes := len(b) * int(unsafe.Sizeof(b[0]))
-	capBytes := cap(b) * int(unsafe.Sizeof(b[0]))
-
-	lenOut := lenBytes / int(unsafe.Sizeof(*out))
-	capOut := capBytes / int(unsafe.Sizeof(*out))
-
-	return unsafe.Slice(out, capOut)[:lenOut]
-}
-
-// GetValues reinterprets the data.Buffers()[i] to a slice of T with len=data.Len().
-//
-// If the buffer is nil, nil will be returned.
-//
-// NOTE: the buffer's length must be a multiple of Sizeof(T).
-func GetValues[T FixedWidthType](data ArrayData, i int) []T {
-	if data.Buffers()[i] == nil || data.Buffers()[i].Len() == 0 {
-		return nil
-	}
-	return reinterpretSlice[T](data.Buffers()[i].Bytes())[data.Offset() : data.Offset()+data.Len()]
-}
-
-// GetOffsets reinterprets the data.Buffers()[i] to a slice of T with len=data.Len()+1.
-//
-// NOTE: the buffer's length must be a multiple of Sizeof(T).
-func GetOffsets[T int32 | int64](data ArrayData, i int) []T {
-	return reinterpretSlice[T](data.Buffers()[i].Bytes())[data.Offset() : data.Offset()+data.Len()+1]
-}
-
-// GetBytes reinterprets a slice of T to a slice of bytes.
-func GetBytes[T FixedWidthType | ViewHeader](in []T) []byte {
-	return reinterpretSlice[byte](in)
-}
-
-// GetData reinterprets a slice of bytes to a slice of T.
-//
-// NOTE: the buffer's length must be a multiple of Sizeof(T).
-func GetData[T FixedWidthType | ViewHeader](in []byte) []T {
-	return reinterpretSlice[T](in)
-}
-
-var typMap = map[reflect.Type]DataType{
-	reflect.TypeOf(false):         FixedWidthTypes.Boolean,
-	reflect.TypeOf(int8(0)):       PrimitiveTypes.Int8,
-	reflect.TypeOf(int16(0)):      PrimitiveTypes.Int16,
-	reflect.TypeOf(int32(0)):      PrimitiveTypes.Int32,
-	reflect.TypeOf(int64(0)):      PrimitiveTypes.Int64,
-	reflect.TypeOf(uint8(0)):      PrimitiveTypes.Uint8,
-	reflect.TypeOf(uint16(0)):     PrimitiveTypes.Uint16,
-	reflect.TypeOf(uint32(0)):     PrimitiveTypes.Uint32,
-	reflect.TypeOf(uint64(0)):     PrimitiveTypes.Uint64,
-	reflect.TypeOf(float32(0)):    PrimitiveTypes.Float32,
-	reflect.TypeOf(float64(0)):    PrimitiveTypes.Float64,
-	reflect.TypeOf(string("")):    BinaryTypes.String,
-	reflect.TypeOf(Date32(0)):     FixedWidthTypes.Date32,
-	reflect.TypeOf(Date64(0)):     FixedWidthTypes.Date64,
-	reflect.TypeOf(true):          FixedWidthTypes.Boolean,
-	reflect.TypeOf(float16.Num{}): FixedWidthTypes.Float16,
-	reflect.TypeOf([]byte{}):      BinaryTypes.Binary,
-}
-
-// GetDataType returns the appropriate DataType for the given type T
-// only for non-parametric types. This uses a map and reflection internally
-// so don't call this in a tight loop, instead call this once and then use
-// a closure with the result.
-func GetDataType[T NumericType | bool | string | []byte | float16.Num]() DataType {
-	var z T
-	return typMap[reflect.TypeOf(z)]
-}
-
-// GetType returns the appropriate Type type T, only for non-parametric
-// types. This uses a map and reflection internally so don't call this in
-// a tight loop, instead call it once and then use a closure with the result.
-func GetType[T NumericType | bool | string]() Type {
-	var z T
-	return typMap[reflect.TypeOf(z)].ID()
-}
diff --git a/go/arrow/type_traits_boolean.go b/go/arrow/type_traits_boolean.go
deleted file mode 100644
index 74d643ba6206e..0000000000000
--- a/go/arrow/type_traits_boolean.go
+++ /dev/null
@@ -1,28 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-)
-
-type booleanTraits struct{}
-
-var BooleanTraits booleanTraits
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (booleanTraits) BytesRequired(n int) int { return bitutil.CeilByte(n) / 8 }
diff --git a/go/arrow/type_traits_decimal128.go b/go/arrow/type_traits_decimal128.go
deleted file mode 100644
index c93e781d934cb..0000000000000
--- a/go/arrow/type_traits_decimal128.go
+++ /dev/null
@@ -1,58 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-// Decimal128 traits
-var Decimal128Traits decimal128Traits
-
-const (
-	// Decimal128SizeBytes specifies the number of bytes required to store a single decimal128 in memory
-	Decimal128SizeBytes = int(unsafe.Sizeof(decimal128.Num{}))
-)
-
-type decimal128Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (decimal128Traits) BytesRequired(n int) int { return Decimal128SizeBytes * n }
-
-// PutValue
-func (decimal128Traits) PutValue(b []byte, v decimal128.Num) {
-	endian.Native.PutUint64(b[:8], uint64(v.LowBits()))
-	endian.Native.PutUint64(b[8:], uint64(v.HighBits()))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type uint16.
-//
-// NOTE: len(b) must be a multiple of Uint16SizeBytes.
-func (decimal128Traits) CastFromBytes(b []byte) []decimal128.Num {
-	return GetData[decimal128.Num](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (decimal128Traits) CastToBytes(b []decimal128.Num) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (decimal128Traits) Copy(dst, src []decimal128.Num) { copy(dst, src) }
diff --git a/go/arrow/type_traits_decimal256.go b/go/arrow/type_traits_decimal256.go
deleted file mode 100644
index 9ef47c31bdd04..0000000000000
--- a/go/arrow/type_traits_decimal256.go
+++ /dev/null
@@ -1,53 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-// Decimal256 traits
-var Decimal256Traits decimal256Traits
-
-const (
-	Decimal256SizeBytes = int(unsafe.Sizeof(decimal256.Num{}))
-)
-
-type decimal256Traits struct{}
-
-func (decimal256Traits) BytesRequired(n int) int { return Decimal256SizeBytes * n }
-
-func (decimal256Traits) PutValue(b []byte, v decimal256.Num) {
-	for i, a := range v.Array() {
-		start := i * 8
-		endian.Native.PutUint64(b[start:], a)
-	}
-}
-
-// CastFromBytes reinterprets the slice b to a slice of decimal256
-func (decimal256Traits) CastFromBytes(b []byte) []decimal256.Num {
-	return GetData[decimal256.Num](b)
-}
-
-func (decimal256Traits) CastToBytes(b []decimal256.Num) []byte {
-	return GetBytes(b)
-}
-
-func (decimal256Traits) Copy(dst, src []decimal256.Num) { copy(dst, src) }
diff --git a/go/arrow/type_traits_float16.go b/go/arrow/type_traits_float16.go
deleted file mode 100644
index 0552932cf9b02..0000000000000
--- a/go/arrow/type_traits_float16.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-)
-
-// Float16 traits
-var Float16Traits float16Traits
-
-const (
-	// Float16SizeBytes specifies the number of bytes required to store a single float16 in memory
-	Float16SizeBytes = int(unsafe.Sizeof(uint16(0)))
-)
-
-type float16Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (float16Traits) BytesRequired(n int) int { return Float16SizeBytes * n }
-
-// PutValue
-func (float16Traits) PutValue(b []byte, v float16.Num) {
-	endian.Native.PutUint16(b, uint16(v.Uint16()))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type uint16.
-//
-// NOTE: len(b) must be a multiple of Uint16SizeBytes.
-func (float16Traits) CastFromBytes(b []byte) []float16.Num {
-	return GetData[float16.Num](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (float16Traits) CastToBytes(b []float16.Num) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (float16Traits) Copy(dst, src []float16.Num) { copy(dst, src) }
diff --git a/go/arrow/type_traits_interval.go b/go/arrow/type_traits_interval.go
deleted file mode 100644
index 94b5274d45968..0000000000000
--- a/go/arrow/type_traits_interval.go
+++ /dev/null
@@ -1,135 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/internal/debug"
-)
-
-var (
-	MonthIntervalTraits        monthTraits
-	DayTimeIntervalTraits      daytimeTraits
-	MonthDayNanoIntervalTraits monthDayNanoTraits
-)
-
-func init() {
-	debug.Assert(MonthIntervalSizeBytes == 4, "MonthIntervalSizeBytes should be 4")
-	debug.Assert(DayTimeIntervalSizeBytes == 8, "DayTimeIntervalSizeBytes should be 8")
-	debug.Assert(MonthDayNanoIntervalSizeBytes == 16, "MonthDayNanoIntervalSizeBytes should be 16")
-}
-
-// MonthInterval traits
-
-const (
-	// MonthIntervalSizeBytes specifies the number of bytes required to store a single MonthInterval in memory
-	MonthIntervalSizeBytes = int(unsafe.Sizeof(MonthInterval(0)))
-)
-
-type monthTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (monthTraits) BytesRequired(n int) int { return MonthIntervalSizeBytes * n }
-
-// PutValue
-func (monthTraits) PutValue(b []byte, v MonthInterval) {
-	endian.Native.PutUint32(b, uint32(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type MonthInterval.
-//
-// NOTE: len(b) must be a multiple of MonthIntervalSizeBytes.
-func (monthTraits) CastFromBytes(b []byte) []MonthInterval {
-	return GetData[MonthInterval](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (monthTraits) CastToBytes(b []MonthInterval) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (monthTraits) Copy(dst, src []MonthInterval) { copy(dst, src) }
-
-// DayTimeInterval traits
-
-const (
-	// DayTimeIntervalSizeBytes specifies the number of bytes required to store a single DayTimeInterval in memory
-	DayTimeIntervalSizeBytes = int(unsafe.Sizeof(DayTimeInterval{}))
-)
-
-type daytimeTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (daytimeTraits) BytesRequired(n int) int { return DayTimeIntervalSizeBytes * n }
-
-// PutValue
-func (daytimeTraits) PutValue(b []byte, v DayTimeInterval) {
-	endian.Native.PutUint32(b[0:4], uint32(v.Days))
-	endian.Native.PutUint32(b[4:8], uint32(v.Milliseconds))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type DayTimeInterval.
-//
-// NOTE: len(b) must be a multiple of DayTimeIntervalSizeBytes.
-func (daytimeTraits) CastFromBytes(b []byte) []DayTimeInterval {
-	return GetData[DayTimeInterval](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (daytimeTraits) CastToBytes(b []DayTimeInterval) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (daytimeTraits) Copy(dst, src []DayTimeInterval) { copy(dst, src) }
-
-// DayTimeInterval traits
-
-const (
-	// MonthDayNanoIntervalSizeBytes specifies the number of bytes required to store a single DayTimeInterval in memory
-	MonthDayNanoIntervalSizeBytes = int(unsafe.Sizeof(MonthDayNanoInterval{}))
-)
-
-type monthDayNanoTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (monthDayNanoTraits) BytesRequired(n int) int { return MonthDayNanoIntervalSizeBytes * n }
-
-// PutValue
-func (monthDayNanoTraits) PutValue(b []byte, v MonthDayNanoInterval) {
-	endian.Native.PutUint32(b[0:4], uint32(v.Months))
-	endian.Native.PutUint32(b[4:8], uint32(v.Days))
-	endian.Native.PutUint64(b[8:], uint64(v.Nanoseconds))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type MonthDayNanoInterval.
-//
-// NOTE: len(b) must be a multiple of MonthDayNanoIntervalSizeBytes.
-func (monthDayNanoTraits) CastFromBytes(b []byte) []MonthDayNanoInterval {
-	return GetData[MonthDayNanoInterval](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (monthDayNanoTraits) CastToBytes(b []MonthDayNanoInterval) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (monthDayNanoTraits) Copy(dst, src []MonthDayNanoInterval) { copy(dst, src) }
diff --git a/go/arrow/type_traits_numeric.gen.go b/go/arrow/type_traits_numeric.gen.go
deleted file mode 100644
index 84a32a9115805..0000000000000
--- a/go/arrow/type_traits_numeric.gen.go
+++ /dev/null
@@ -1,524 +0,0 @@
-// Code generated by type_traits_numeric.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"math"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-var (
-	Int64Traits    int64Traits
-	Uint64Traits   uint64Traits
-	Float64Traits  float64Traits
-	Int32Traits    int32Traits
-	Uint32Traits   uint32Traits
-	Float32Traits  float32Traits
-	Int16Traits    int16Traits
-	Uint16Traits   uint16Traits
-	Int8Traits     int8Traits
-	Uint8Traits    uint8Traits
-	Time32Traits   time32Traits
-	Time64Traits   time64Traits
-	Date32Traits   date32Traits
-	Date64Traits   date64Traits
-	DurationTraits durationTraits
-)
-
-// Int64 traits
-
-const (
-	// Int64SizeBytes specifies the number of bytes required to store a single int64 in memory
-	Int64SizeBytes = int(unsafe.Sizeof(int64(0)))
-)
-
-type int64Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (int64Traits) BytesRequired(n int) int { return Int64SizeBytes * n }
-
-// PutValue
-func (int64Traits) PutValue(b []byte, v int64) {
-	endian.Native.PutUint64(b, uint64(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type int64.
-//
-// NOTE: len(b) must be a multiple of Int64SizeBytes.
-func (int64Traits) CastFromBytes(b []byte) []int64 {
-	return GetData[int64](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (int64Traits) CastToBytes(b []int64) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (int64Traits) Copy(dst, src []int64) { copy(dst, src) }
-
-// Uint64 traits
-
-const (
-	// Uint64SizeBytes specifies the number of bytes required to store a single uint64 in memory
-	Uint64SizeBytes = int(unsafe.Sizeof(uint64(0)))
-)
-
-type uint64Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (uint64Traits) BytesRequired(n int) int { return Uint64SizeBytes * n }
-
-// PutValue
-func (uint64Traits) PutValue(b []byte, v uint64) {
-	endian.Native.PutUint64(b, uint64(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type uint64.
-//
-// NOTE: len(b) must be a multiple of Uint64SizeBytes.
-func (uint64Traits) CastFromBytes(b []byte) []uint64 {
-	return GetData[uint64](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (uint64Traits) CastToBytes(b []uint64) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (uint64Traits) Copy(dst, src []uint64) { copy(dst, src) }
-
-// Float64 traits
-
-const (
-	// Float64SizeBytes specifies the number of bytes required to store a single float64 in memory
-	Float64SizeBytes = int(unsafe.Sizeof(float64(0)))
-)
-
-type float64Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (float64Traits) BytesRequired(n int) int { return Float64SizeBytes * n }
-
-// PutValue
-func (float64Traits) PutValue(b []byte, v float64) {
-	endian.Native.PutUint64(b, math.Float64bits(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type float64.
-//
-// NOTE: len(b) must be a multiple of Float64SizeBytes.
-func (float64Traits) CastFromBytes(b []byte) []float64 {
-	return GetData[float64](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (float64Traits) CastToBytes(b []float64) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (float64Traits) Copy(dst, src []float64) { copy(dst, src) }
-
-// Int32 traits
-
-const (
-	// Int32SizeBytes specifies the number of bytes required to store a single int32 in memory
-	Int32SizeBytes = int(unsafe.Sizeof(int32(0)))
-)
-
-type int32Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (int32Traits) BytesRequired(n int) int { return Int32SizeBytes * n }
-
-// PutValue
-func (int32Traits) PutValue(b []byte, v int32) {
-	endian.Native.PutUint32(b, uint32(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type int32.
-//
-// NOTE: len(b) must be a multiple of Int32SizeBytes.
-func (int32Traits) CastFromBytes(b []byte) []int32 {
-	return GetData[int32](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (int32Traits) CastToBytes(b []int32) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (int32Traits) Copy(dst, src []int32) { copy(dst, src) }
-
-// Uint32 traits
-
-const (
-	// Uint32SizeBytes specifies the number of bytes required to store a single uint32 in memory
-	Uint32SizeBytes = int(unsafe.Sizeof(uint32(0)))
-)
-
-type uint32Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (uint32Traits) BytesRequired(n int) int { return Uint32SizeBytes * n }
-
-// PutValue
-func (uint32Traits) PutValue(b []byte, v uint32) {
-	endian.Native.PutUint32(b, uint32(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type uint32.
-//
-// NOTE: len(b) must be a multiple of Uint32SizeBytes.
-func (uint32Traits) CastFromBytes(b []byte) []uint32 {
-	return GetData[uint32](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (uint32Traits) CastToBytes(b []uint32) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (uint32Traits) Copy(dst, src []uint32) { copy(dst, src) }
-
-// Float32 traits
-
-const (
-	// Float32SizeBytes specifies the number of bytes required to store a single float32 in memory
-	Float32SizeBytes = int(unsafe.Sizeof(float32(0)))
-)
-
-type float32Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (float32Traits) BytesRequired(n int) int { return Float32SizeBytes * n }
-
-// PutValue
-func (float32Traits) PutValue(b []byte, v float32) {
-	endian.Native.PutUint32(b, math.Float32bits(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type float32.
-//
-// NOTE: len(b) must be a multiple of Float32SizeBytes.
-func (float32Traits) CastFromBytes(b []byte) []float32 {
-	return GetData[float32](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (float32Traits) CastToBytes(b []float32) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (float32Traits) Copy(dst, src []float32) { copy(dst, src) }
-
-// Int16 traits
-
-const (
-	// Int16SizeBytes specifies the number of bytes required to store a single int16 in memory
-	Int16SizeBytes = int(unsafe.Sizeof(int16(0)))
-)
-
-type int16Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (int16Traits) BytesRequired(n int) int { return Int16SizeBytes * n }
-
-// PutValue
-func (int16Traits) PutValue(b []byte, v int16) {
-	endian.Native.PutUint16(b, uint16(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type int16.
-//
-// NOTE: len(b) must be a multiple of Int16SizeBytes.
-func (int16Traits) CastFromBytes(b []byte) []int16 {
-	return GetData[int16](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (int16Traits) CastToBytes(b []int16) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (int16Traits) Copy(dst, src []int16) { copy(dst, src) }
-
-// Uint16 traits
-
-const (
-	// Uint16SizeBytes specifies the number of bytes required to store a single uint16 in memory
-	Uint16SizeBytes = int(unsafe.Sizeof(uint16(0)))
-)
-
-type uint16Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (uint16Traits) BytesRequired(n int) int { return Uint16SizeBytes * n }
-
-// PutValue
-func (uint16Traits) PutValue(b []byte, v uint16) {
-	endian.Native.PutUint16(b, uint16(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type uint16.
-//
-// NOTE: len(b) must be a multiple of Uint16SizeBytes.
-func (uint16Traits) CastFromBytes(b []byte) []uint16 {
-	return GetData[uint16](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (uint16Traits) CastToBytes(b []uint16) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (uint16Traits) Copy(dst, src []uint16) { copy(dst, src) }
-
-// Int8 traits
-
-const (
-	// Int8SizeBytes specifies the number of bytes required to store a single int8 in memory
-	Int8SizeBytes = int(unsafe.Sizeof(int8(0)))
-)
-
-type int8Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (int8Traits) BytesRequired(n int) int { return Int8SizeBytes * n }
-
-// PutValue
-func (int8Traits) PutValue(b []byte, v int8) {
-	b[0] = byte(v)
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type int8.
-//
-// NOTE: len(b) must be a multiple of Int8SizeBytes.
-func (int8Traits) CastFromBytes(b []byte) []int8 {
-	return GetData[int8](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (int8Traits) CastToBytes(b []int8) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (int8Traits) Copy(dst, src []int8) { copy(dst, src) }
-
-// Uint8 traits
-
-const (
-	// Uint8SizeBytes specifies the number of bytes required to store a single uint8 in memory
-	Uint8SizeBytes = int(unsafe.Sizeof(uint8(0)))
-)
-
-type uint8Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (uint8Traits) BytesRequired(n int) int { return Uint8SizeBytes * n }
-
-// PutValue
-func (uint8Traits) PutValue(b []byte, v uint8) {
-	b[0] = byte(v)
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type uint8.
-//
-// NOTE: len(b) must be a multiple of Uint8SizeBytes.
-func (uint8Traits) CastFromBytes(b []byte) []uint8 {
-	return GetData[uint8](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (uint8Traits) CastToBytes(b []uint8) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (uint8Traits) Copy(dst, src []uint8) { copy(dst, src) }
-
-// Time32 traits
-
-const (
-	// Time32SizeBytes specifies the number of bytes required to store a single Time32 in memory
-	Time32SizeBytes = int(unsafe.Sizeof(Time32(0)))
-)
-
-type time32Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (time32Traits) BytesRequired(n int) int { return Time32SizeBytes * n }
-
-// PutValue
-func (time32Traits) PutValue(b []byte, v Time32) {
-	endian.Native.PutUint32(b, uint32(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type Time32.
-//
-// NOTE: len(b) must be a multiple of Time32SizeBytes.
-func (time32Traits) CastFromBytes(b []byte) []Time32 {
-	return GetData[Time32](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (time32Traits) CastToBytes(b []Time32) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (time32Traits) Copy(dst, src []Time32) { copy(dst, src) }
-
-// Time64 traits
-
-const (
-	// Time64SizeBytes specifies the number of bytes required to store a single Time64 in memory
-	Time64SizeBytes = int(unsafe.Sizeof(Time64(0)))
-)
-
-type time64Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (time64Traits) BytesRequired(n int) int { return Time64SizeBytes * n }
-
-// PutValue
-func (time64Traits) PutValue(b []byte, v Time64) {
-	endian.Native.PutUint64(b, uint64(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type Time64.
-//
-// NOTE: len(b) must be a multiple of Time64SizeBytes.
-func (time64Traits) CastFromBytes(b []byte) []Time64 {
-	return GetData[Time64](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (time64Traits) CastToBytes(b []Time64) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (time64Traits) Copy(dst, src []Time64) { copy(dst, src) }
-
-// Date32 traits
-
-const (
-	// Date32SizeBytes specifies the number of bytes required to store a single Date32 in memory
-	Date32SizeBytes = int(unsafe.Sizeof(Date32(0)))
-)
-
-type date32Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (date32Traits) BytesRequired(n int) int { return Date32SizeBytes * n }
-
-// PutValue
-func (date32Traits) PutValue(b []byte, v Date32) {
-	endian.Native.PutUint32(b, uint32(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type Date32.
-//
-// NOTE: len(b) must be a multiple of Date32SizeBytes.
-func (date32Traits) CastFromBytes(b []byte) []Date32 {
-	return GetData[Date32](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (date32Traits) CastToBytes(b []Date32) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (date32Traits) Copy(dst, src []Date32) { copy(dst, src) }
-
-// Date64 traits
-
-const (
-	// Date64SizeBytes specifies the number of bytes required to store a single Date64 in memory
-	Date64SizeBytes = int(unsafe.Sizeof(Date64(0)))
-)
-
-type date64Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (date64Traits) BytesRequired(n int) int { return Date64SizeBytes * n }
-
-// PutValue
-func (date64Traits) PutValue(b []byte, v Date64) {
-	endian.Native.PutUint64(b, uint64(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type Date64.
-//
-// NOTE: len(b) must be a multiple of Date64SizeBytes.
-func (date64Traits) CastFromBytes(b []byte) []Date64 {
-	return GetData[Date64](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (date64Traits) CastToBytes(b []Date64) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (date64Traits) Copy(dst, src []Date64) { copy(dst, src) }
-
-// Duration traits
-
-const (
-	// DurationSizeBytes specifies the number of bytes required to store a single Duration in memory
-	DurationSizeBytes = int(unsafe.Sizeof(Duration(0)))
-)
-
-type durationTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (durationTraits) BytesRequired(n int) int { return DurationSizeBytes * n }
-
-// PutValue
-func (durationTraits) PutValue(b []byte, v Duration) {
-	endian.Native.PutUint64(b, uint64(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type Duration.
-//
-// NOTE: len(b) must be a multiple of DurationSizeBytes.
-func (durationTraits) CastFromBytes(b []byte) []Duration {
-	return GetData[Duration](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (durationTraits) CastToBytes(b []Duration) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (durationTraits) Copy(dst, src []Duration) { copy(dst, src) }
diff --git a/go/arrow/type_traits_numeric.gen.go.tmpl b/go/arrow/type_traits_numeric.gen.go.tmpl
deleted file mode 100644
index e74194b5260fc..0000000000000
--- a/go/arrow/type_traits_numeric.gen.go.tmpl
+++ /dev/null
@@ -1,78 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"math"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-var (
-{{range .In}}
-	{{.Name}}Traits {{.name}}Traits
-{{- end}}
-)
-
-{{range .In}}
-// {{.Name}} traits
-
-const (
-	// {{.Name}}SizeBytes specifies the number of bytes required to store a single {{.Type}} in memory
-	{{.Name}}SizeBytes = int(unsafe.Sizeof({{.Type}}({{.Default}})))
-)
-
-type {{.name}}Traits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func ({{.name}}Traits) BytesRequired(n int) int { return {{.Name}}SizeBytes * n }
-
-// PutValue
-func ({{.name}}Traits) PutValue(b []byte, v {{.Type}}) {
-{{- if eq .Type "float32" -}}
-	endian.Native.PutUint32(b, math.Float32bits(v))
-{{- else if eq .Type "float64" -}}
-	endian.Native.PutUint64(b, math.Float64bits(v))
-{{- else if eq .Size "1" -}}
-	b[0] = byte(v)
-{{- else if eq .Size "2" -}}
-	endian.Native.PutUint16(b, uint16(v))
-{{- else if eq .Size "4" -}}
-	endian.Native.PutUint32(b, uint32(v))
-{{- else if eq .Size "8" -}}
-	endian.Native.PutUint64(b, uint64(v))
-{{- else -}}
-	panic("invalid type {{.Type}}")
-{{end}}
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type {{.Type}}.
-//
-// NOTE: len(b) must be a multiple of {{.Name}}SizeBytes.
-func ({{.name}}Traits) CastFromBytes(b []byte) []{{.Type}} {
-	return GetData[{{.Type}}](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func ({{.name}}Traits) CastToBytes(b []{{.Type}}) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func ({{.name}}Traits) Copy(dst, src []{{.Type}}) { copy(dst, src) }
-{{end}}
diff --git a/go/arrow/type_traits_numeric.gen_test.go b/go/arrow/type_traits_numeric.gen_test.go
deleted file mode 100644
index 3d021575a6654..0000000000000
--- a/go/arrow/type_traits_numeric.gen_test.go
+++ /dev/null
@@ -1,536 +0,0 @@
-// Code generated by type_traits_numeric.gen_test.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-func TestInt64Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Int64Traits.CastToBytes([]int64{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Int64Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Int64SizeBytes
-		end := (i + 1) * arrow.Int64SizeBytes
-		arrow.Int64Traits.PutValue(b2[beg:end], int64(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Int64Traits.CastFromBytes(b1)
-		v2 := arrow.Int64Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Int64Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, int64(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]int64, N)
-	arrow.Int64Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestUint64Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Uint64Traits.CastToBytes([]uint64{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Uint64Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Uint64SizeBytes
-		end := (i + 1) * arrow.Uint64SizeBytes
-		arrow.Uint64Traits.PutValue(b2[beg:end], uint64(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Uint64Traits.CastFromBytes(b1)
-		v2 := arrow.Uint64Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Uint64Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, uint64(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]uint64, N)
-	arrow.Uint64Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestFloat64Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Float64Traits.CastToBytes([]float64{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Float64Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Float64SizeBytes
-		end := (i + 1) * arrow.Float64SizeBytes
-		arrow.Float64Traits.PutValue(b2[beg:end], float64(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Float64Traits.CastFromBytes(b1)
-		v2 := arrow.Float64Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Float64Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, float64(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]float64, N)
-	arrow.Float64Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestInt32Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Int32Traits.CastToBytes([]int32{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Int32Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Int32SizeBytes
-		end := (i + 1) * arrow.Int32SizeBytes
-		arrow.Int32Traits.PutValue(b2[beg:end], int32(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Int32Traits.CastFromBytes(b1)
-		v2 := arrow.Int32Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Int32Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, int32(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]int32, N)
-	arrow.Int32Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestUint32Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Uint32Traits.CastToBytes([]uint32{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Uint32Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Uint32SizeBytes
-		end := (i + 1) * arrow.Uint32SizeBytes
-		arrow.Uint32Traits.PutValue(b2[beg:end], uint32(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Uint32Traits.CastFromBytes(b1)
-		v2 := arrow.Uint32Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Uint32Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, uint32(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]uint32, N)
-	arrow.Uint32Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestFloat32Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Float32Traits.CastToBytes([]float32{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Float32Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Float32SizeBytes
-		end := (i + 1) * arrow.Float32SizeBytes
-		arrow.Float32Traits.PutValue(b2[beg:end], float32(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Float32Traits.CastFromBytes(b1)
-		v2 := arrow.Float32Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Float32Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, float32(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]float32, N)
-	arrow.Float32Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestInt16Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Int16Traits.CastToBytes([]int16{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Int16Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Int16SizeBytes
-		end := (i + 1) * arrow.Int16SizeBytes
-		arrow.Int16Traits.PutValue(b2[beg:end], int16(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Int16Traits.CastFromBytes(b1)
-		v2 := arrow.Int16Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Int16Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, int16(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]int16, N)
-	arrow.Int16Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestUint16Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Uint16Traits.CastToBytes([]uint16{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Uint16Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Uint16SizeBytes
-		end := (i + 1) * arrow.Uint16SizeBytes
-		arrow.Uint16Traits.PutValue(b2[beg:end], uint16(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Uint16Traits.CastFromBytes(b1)
-		v2 := arrow.Uint16Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Uint16Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, uint16(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]uint16, N)
-	arrow.Uint16Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestInt8Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Int8Traits.CastToBytes([]int8{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Int8Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Int8SizeBytes
-		end := (i + 1) * arrow.Int8SizeBytes
-		arrow.Int8Traits.PutValue(b2[beg:end], int8(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Int8Traits.CastFromBytes(b1)
-		v2 := arrow.Int8Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Int8Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, int8(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]int8, N)
-	arrow.Int8Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestUint8Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Uint8Traits.CastToBytes([]uint8{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Uint8Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Uint8SizeBytes
-		end := (i + 1) * arrow.Uint8SizeBytes
-		arrow.Uint8Traits.PutValue(b2[beg:end], uint8(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Uint8Traits.CastFromBytes(b1)
-		v2 := arrow.Uint8Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Uint8Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, uint8(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]uint8, N)
-	arrow.Uint8Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestTime32Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Time32Traits.CastToBytes([]arrow.Time32{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Time32Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Time32SizeBytes
-		end := (i + 1) * arrow.Time32SizeBytes
-		arrow.Time32Traits.PutValue(b2[beg:end], arrow.Time32(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Time32Traits.CastFromBytes(b1)
-		v2 := arrow.Time32Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Time32Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.Time32(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.Time32, N)
-	arrow.Time32Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestTime64Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Time64Traits.CastToBytes([]arrow.Time64{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Time64Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Time64SizeBytes
-		end := (i + 1) * arrow.Time64SizeBytes
-		arrow.Time64Traits.PutValue(b2[beg:end], arrow.Time64(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Time64Traits.CastFromBytes(b1)
-		v2 := arrow.Time64Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Time64Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.Time64(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.Time64, N)
-	arrow.Time64Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestDate32Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Date32Traits.CastToBytes([]arrow.Date32{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Date32Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Date32SizeBytes
-		end := (i + 1) * arrow.Date32SizeBytes
-		arrow.Date32Traits.PutValue(b2[beg:end], arrow.Date32(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Date32Traits.CastFromBytes(b1)
-		v2 := arrow.Date32Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Date32Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.Date32(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.Date32, N)
-	arrow.Date32Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestDate64Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.Date64Traits.CastToBytes([]arrow.Date64{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.Date64Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Date64SizeBytes
-		end := (i + 1) * arrow.Date64SizeBytes
-		arrow.Date64Traits.PutValue(b2[beg:end], arrow.Date64(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Date64Traits.CastFromBytes(b1)
-		v2 := arrow.Date64Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Date64Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.Date64(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.Date64, N)
-	arrow.Date64Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestDurationTraits(t *testing.T) {
-	const N = 10
-	b1 := arrow.DurationTraits.CastToBytes([]arrow.Duration{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.DurationTraits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.DurationSizeBytes
-		end := (i + 1) * arrow.DurationSizeBytes
-		arrow.DurationTraits.PutValue(b2[beg:end], arrow.Duration(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.DurationTraits.CastFromBytes(b1)
-		v2 := arrow.DurationTraits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.DurationTraits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.Duration(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.Duration, N)
-	arrow.DurationTraits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
diff --git a/go/arrow/type_traits_numeric.gen_test.go.tmpl b/go/arrow/type_traits_numeric.gen_test.go.tmpl
deleted file mode 100644
index 9f7118eb8ec4a..0000000000000
--- a/go/arrow/type_traits_numeric.gen_test.go.tmpl
+++ /dev/null
@@ -1,61 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-{{- range .In}}
-
-func Test{{.Name}}Traits(t *testing.T) {
-	const N = 10
-	b1 := arrow.{{.Name}}Traits.CastToBytes([]{{or .QualifiedType .Type}}{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.{{.Name}}Traits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.{{.Name}}SizeBytes
-		end := (i + 1) * arrow.{{.Name}}SizeBytes
-		arrow.{{.Name}}Traits.PutValue(b2[beg:end], {{or .QualifiedType .Type}}(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.{{.Name}}Traits.CastFromBytes(b1)
-		v2 := arrow.{{.Name}}Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.{{.Name}}Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, {{or .QualifiedType .Type}}(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]{{or .QualifiedType .Type}}, N)
-	arrow.{{.Name}}Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-{{end}}
diff --git a/go/arrow/type_traits_test.go b/go/arrow/type_traits_test.go
deleted file mode 100644
index ec653c0b5bbae..0000000000000
--- a/go/arrow/type_traits_test.go
+++ /dev/null
@@ -1,315 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow_test
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-)
-
-func TestBooleanTraits(t *testing.T) {
-	for _, tc := range []struct {
-		i, want int
-	}{
-		{0, 0},
-		{1, 1}, {2, 1}, {3, 1}, {4, 1}, {5, 1}, {6, 1}, {7, 1}, {8, 1},
-		{9, 2},
-		{17, 3},
-	} {
-		t.Run(fmt.Sprintf("nbytes=%d", tc.i), func(t *testing.T) {
-			got := arrow.BooleanTraits.BytesRequired(tc.i)
-			if got != tc.want {
-				t.Fatalf("got=%v, want=%v", got, tc.want)
-			}
-		})
-	}
-}
-
-func TestFloat16Traits(t *testing.T) {
-	const N = 10
-	nbytes := arrow.Float16Traits.BytesRequired(N)
-	b1 := arrow.Float16Traits.CastToBytes([]float16.Num{
-		float16.New(0),
-		float16.New(1),
-		float16.New(2),
-		float16.New(3),
-		float16.New(4),
-		float16.New(5),
-		float16.New(6),
-		float16.New(7),
-		float16.New(8),
-		float16.New(9),
-	})
-
-	b2 := make([]byte, nbytes)
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Float16SizeBytes
-		end := (i + 1) * arrow.Float16SizeBytes
-		arrow.Float16Traits.PutValue(b2[beg:end], float16.New(float32(i)))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Float16Traits.CastFromBytes(b1)
-		v2 := arrow.Float16Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Float16Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v.Float32(), float32(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]float16.Num, N)
-	arrow.Float16Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestDecimal128Traits(t *testing.T) {
-	const N = 10
-	nbytes := arrow.Decimal128Traits.BytesRequired(N)
-	b1 := arrow.Decimal128Traits.CastToBytes([]decimal128.Num{
-		decimal128.New(0, 10),
-		decimal128.New(1, 10),
-		decimal128.New(2, 10),
-		decimal128.New(3, 10),
-		decimal128.New(4, 10),
-		decimal128.New(5, 10),
-		decimal128.New(6, 10),
-		decimal128.New(7, 10),
-		decimal128.New(8, 10),
-		decimal128.New(9, 10),
-	})
-
-	b2 := make([]byte, nbytes)
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Decimal128SizeBytes
-		end := (i + 1) * arrow.Decimal128SizeBytes
-		arrow.Decimal128Traits.PutValue(b2[beg:end], decimal128.New(int64(i), 10))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Decimal128Traits.CastFromBytes(b1)
-		v2 := arrow.Decimal128Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Decimal128Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, decimal128.New(int64(i), 10); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]decimal128.Num, N)
-	arrow.Decimal128Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestDecimal256Traits(t *testing.T) {
-	const N = 10
-	nbytes := arrow.Decimal256Traits.BytesRequired(N)
-	b1 := arrow.Decimal256Traits.CastToBytes([]decimal256.Num{
-		decimal256.New(0, 0, 0, 10),
-		decimal256.New(1, 1, 1, 10),
-		decimal256.New(2, 2, 2, 10),
-		decimal256.New(3, 3, 3, 10),
-		decimal256.New(4, 4, 4, 10),
-		decimal256.New(5, 5, 5, 10),
-		decimal256.New(6, 6, 6, 10),
-		decimal256.New(7, 7, 7, 10),
-		decimal256.New(8, 8, 8, 10),
-		decimal256.New(9, 9, 9, 10),
-	})
-
-	b2 := make([]byte, nbytes)
-	for i := 0; i < N; i++ {
-		beg := i * arrow.Decimal256SizeBytes
-		end := (i + 1) * arrow.Decimal256SizeBytes
-		arrow.Decimal256Traits.PutValue(b2[beg:end], decimal256.New(uint64(i), uint64(i), uint64(i), 10))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.Decimal256Traits.CastFromBytes(b1)
-		v2 := arrow.Decimal256Traits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.Decimal256Traits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, decimal256.New(uint64(i), uint64(i), uint64(i), 10); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]decimal256.Num, N)
-	arrow.Decimal256Traits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestMonthIntervalTraits(t *testing.T) {
-	const N = 10
-	b1 := arrow.MonthIntervalTraits.CastToBytes([]arrow.MonthInterval{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.MonthIntervalTraits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.MonthIntervalSizeBytes
-		end := (i + 1) * arrow.MonthIntervalSizeBytes
-		arrow.MonthIntervalTraits.PutValue(b2[beg:end], arrow.MonthInterval(i))
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.MonthIntervalTraits.CastFromBytes(b1)
-		v2 := arrow.MonthIntervalTraits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.MonthIntervalTraits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.MonthInterval(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.MonthInterval, N)
-	arrow.MonthIntervalTraits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestDayTimeIntervalTraits(t *testing.T) {
-	const N = 10
-	b1 := arrow.DayTimeIntervalTraits.CastToBytes([]arrow.DayTimeInterval{
-		{0, 0}, {1, 1}, {2, 2}, {3, 3}, {4, 4}, {5, 5}, {6, 6}, {7, 7}, {8, 8}, {9, 9},
-	})
-
-	b2 := make([]byte, arrow.DayTimeIntervalTraits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.DayTimeIntervalSizeBytes
-		end := (i + 1) * arrow.DayTimeIntervalSizeBytes
-		arrow.DayTimeIntervalTraits.PutValue(b2[beg:end], arrow.DayTimeInterval{int32(i), int32(i)})
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.DayTimeIntervalTraits.CastFromBytes(b1)
-		v2 := arrow.DayTimeIntervalTraits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.DayTimeIntervalTraits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, (arrow.DayTimeInterval{int32(i), int32(i)}); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.DayTimeInterval, N)
-	arrow.DayTimeIntervalTraits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestMonthDayNanoIntervalTraits(t *testing.T) {
-	const N = 10
-	b1 := arrow.MonthDayNanoIntervalTraits.CastToBytes([]arrow.MonthDayNanoInterval{
-		{0, 0, 0}, {1, 1, 1000}, {2, 2, 2000}, {3, 3, 3000}, {4, 4, 4000}, {5, 5, 5000}, {6, 6, 6000}, {7, 7, 7000}, {8, 8, 8000}, {9, 9, 9000},
-	})
-
-	b2 := make([]byte, arrow.MonthDayNanoIntervalTraits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.MonthDayNanoIntervalSizeBytes
-		end := (i + 1) * arrow.MonthDayNanoIntervalSizeBytes
-		arrow.MonthDayNanoIntervalTraits.PutValue(b2[beg:end], arrow.MonthDayNanoInterval{int32(i), int32(i), int64(i) * 1000})
-	}
-
-	if !reflect.DeepEqual(b1, b2) {
-		v1 := arrow.MonthDayNanoIntervalTraits.CastFromBytes(b1)
-		v2 := arrow.MonthDayNanoIntervalTraits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.MonthDayNanoIntervalTraits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, (arrow.MonthDayNanoInterval{int32(i), int32(i), int64(i) * 1000}); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.MonthDayNanoInterval, N)
-	arrow.MonthDayNanoIntervalTraits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
-
-func TestTimestampTraits(t *testing.T) {
-	const N = 10
-	b1 := arrow.TimestampTraits.CastToBytes([]arrow.Timestamp{
-		0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
-	})
-
-	b2 := make([]byte, arrow.TimestampTraits.BytesRequired(N))
-	for i := 0; i < N; i++ {
-		beg := i * arrow.TimestampSizeBytes
-		end := (i + 1) * arrow.TimestampSizeBytes
-		arrow.TimestampTraits.PutValue(b2[beg:end], arrow.Timestamp(i))
-	}
-
-	if !bytes.Equal(b1, b2) {
-		v1 := arrow.TimestampTraits.CastFromBytes(b1)
-		v2 := arrow.TimestampTraits.CastFromBytes(b2)
-		t.Fatalf("invalid values:\nb1=%v\nb2=%v\nv1=%v\nv2=%v\n", b1, b2, v1, v2)
-	}
-
-	v1 := arrow.TimestampTraits.CastFromBytes(b1)
-	for i, v := range v1 {
-		if got, want := v, arrow.Timestamp(i); got != want {
-			t.Fatalf("invalid value[%d]. got=%v, want=%v", i, got, want)
-		}
-	}
-
-	v2 := make([]arrow.Timestamp, N)
-	arrow.TimestampTraits.Copy(v2, v1)
-
-	if !reflect.DeepEqual(v1, v2) {
-		t.Fatalf("invalid values:\nv1=%v\nv2=%v\n", v1, v2)
-	}
-}
diff --git a/go/arrow/type_traits_timestamp.go b/go/arrow/type_traits_timestamp.go
deleted file mode 100644
index e506b6f473d80..0000000000000
--- a/go/arrow/type_traits_timestamp.go
+++ /dev/null
@@ -1,54 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-var TimestampTraits timestampTraits
-
-const (
-	// TimestampSizeBytes specifies the number of bytes required to store a single Timestamp in memory
-	TimestampSizeBytes = int(unsafe.Sizeof(Timestamp(0)))
-)
-
-type timestampTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n elements in memory.
-func (timestampTraits) BytesRequired(n int) int { return TimestampSizeBytes * n }
-
-func (timestampTraits) PutValue(b []byte, v Timestamp) {
-	endian.Native.PutUint64(b, uint64(v))
-}
-
-// CastFromBytes reinterprets the slice b to a slice of type Timestamp.
-//
-// NOTE: len(b) must be a multiple of TimestampSizeBytes.
-func (timestampTraits) CastFromBytes(b []byte) []Timestamp {
-	return GetData[Timestamp](b)
-}
-
-// CastToBytes reinterprets the slice b to a slice of bytes.
-func (timestampTraits) CastToBytes(b []Timestamp) []byte {
-	return GetBytes(b)
-}
-
-// Copy copies src to dst.
-func (timestampTraits) Copy(dst, src []Timestamp) { copy(dst, src) }
diff --git a/go/arrow/type_traits_view.go b/go/arrow/type_traits_view.go
deleted file mode 100644
index ef35bc0d7ec55..0000000000000
--- a/go/arrow/type_traits_view.go
+++ /dev/null
@@ -1,48 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package arrow
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/endian"
-)
-
-var ViewHeaderTraits viewHeaderTraits
-
-const (
-	ViewHeaderSizeBytes = int(unsafe.Sizeof(ViewHeader{}))
-)
-
-type viewHeaderTraits struct{}
-
-func (viewHeaderTraits) BytesRequired(n int) int { return ViewHeaderSizeBytes * n }
-
-func (viewHeaderTraits) PutValue(b []byte, v ViewHeader) {
-	endian.Native.PutUint32(b, uint32(v.size))
-	copy(b[4:], v.data[:])
-}
-
-func (viewHeaderTraits) CastFromBytes(b []byte) (res []ViewHeader) {
-	return GetData[ViewHeader](b)
-}
-
-func (viewHeaderTraits) CastToBytes(b []ViewHeader) (res []byte) {
-	return GetBytes(b)
-}
-
-func (viewHeaderTraits) Copy(dst, src []ViewHeader) { copy(dst, src) }
diff --git a/go/arrow/unionmode_string.go b/go/arrow/unionmode_string.go
deleted file mode 100644
index 394d4f6644277..0000000000000
--- a/go/arrow/unionmode_string.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Code generated by "stringer -type=UnionMode -linecomment"; DO NOT EDIT.
-
-package arrow
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[SparseMode-2]
-	_ = x[DenseMode-3]
-}
-
-const _UnionMode_name = "SPARSEDENSE"
-
-var _UnionMode_index = [...]uint8{0, 6, 11}
-
-func (i UnionMode) String() string {
-	i -= 2
-	if i < 0 || i >= UnionMode(len(_UnionMode_index)-1) {
-		return "UnionMode(" + strconv.FormatInt(int64(i+2), 10) + ")"
-	}
-	return _UnionMode_name[_UnionMode_index[i]:_UnionMode_index[i+1]]
-}
diff --git a/go/arrow/util/byte_size.go b/go/arrow/util/byte_size.go
deleted file mode 100644
index bb163fcef5fc0..0000000000000
--- a/go/arrow/util/byte_size.go
+++ /dev/null
@@ -1,79 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package util
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-)
-
-func isArrayDataNil(arrayData arrow.ArrayData) bool {
-	if arrayData == nil {
-		return true
-	}
-	if v, ok := arrayData.(*array.Data); ok {
-		return v == nil
-	}
-	panic("unknown ArrayData type")
-}
-
-func totalArrayDataSize(arrayData arrow.ArrayData, seenBuffers map[*memory.Buffer]struct{}) int64 {
-	var sum int64
-	var void = struct{}{}
-	for _, buf := range arrayData.Buffers() {
-		if buf == nil {
-			continue
-		}
-		if _, ok := seenBuffers[buf]; !ok {
-			sum += int64(buf.Len())
-			seenBuffers[buf] = void
-		}
-	}
-	for _, child := range arrayData.Children() {
-		sum += totalArrayDataSize(child, seenBuffers)
-	}
-	dict := arrayData.Dictionary()
-	if !isArrayDataNil(dict) {
-		sum += totalArrayDataSize(dict, seenBuffers)
-	}
-	return sum
-}
-
-func totalArraySize(arr arrow.Array, seenBuffers map[*memory.Buffer]struct{}) int64 {
-	return totalArrayDataSize(arr.Data(), seenBuffers)
-}
-
-func totalRecordSize(record arrow.Record, seenBuffers map[*memory.Buffer]struct{}) int64 {
-	var sum int64
-	for _, c := range record.Columns() {
-		sum += totalArraySize(c, seenBuffers)
-	}
-	return sum
-}
-
-// TotalArraySize returns the sum of the number of bytes in each buffer referenced by the Array.
-func TotalArraySize(arr arrow.Array) int64 {
-	seenBuffer := make(map[*memory.Buffer]struct{})
-	return totalArraySize(arr, seenBuffer)
-}
-
-// TotalRecordSize return the sum of bytes in each buffer referenced by the Record.
-func TotalRecordSize(record arrow.Record) int64 {
-	seenBuffer := make(map[*memory.Buffer]struct{})
-	return totalRecordSize(record, seenBuffer)
-}
diff --git a/go/arrow/util/byte_size_test.go b/go/arrow/util/byte_size_test.go
deleted file mode 100644
index ff6d8ea7edf0c..0000000000000
--- a/go/arrow/util/byte_size_test.go
+++ /dev/null
@@ -1,110 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package util_test
-
-import (
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/util"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestTotalArrayReusedBuffers(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-	bldr := array.NewBooleanBuilder(mem)
-	defer bldr.Release()
-	bldr.Append(true)
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	rec := array.NewRecord(arrow.NewSchema([]arrow.Field{
-		{Name: "a", Type: arrow.FixedWidthTypes.Boolean},
-		{Name: "b", Type: arrow.FixedWidthTypes.Boolean},
-	}, nil), []arrow.Array{arr, arr}, 1)
-	defer rec.Release()
-
-	assert.Equal(t, int64(5), util.TotalRecordSize(rec))
-
-	rec1 := array.NewRecord(arrow.NewSchema([]arrow.Field{
-		{Name: "a", Type: arrow.FixedWidthTypes.Boolean},
-	}, nil), []arrow.Array{arr}, 1)
-	defer rec1.Release()
-
-	// both records should have the same size as rec is using the same buffer
-	assert.Equal(t, int64(5), util.TotalRecordSize(rec1))
-}
-
-func TestTotalArraySizeBasic(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	noNulls, _, err := array.FromJSON(mem,
-		arrow.PrimitiveTypes.Int16,
-		strings.NewReader("[1, 2, 3]"))
-	assert.NoError(t, err)
-	defer noNulls.Release()
-	assert.Equal(t, int64(10), util.TotalArraySize(noNulls))
-
-	withNulls, _, err := array.FromJSON(mem,
-		arrow.PrimitiveTypes.Int16,
-		strings.NewReader("[1, 2, 3, 4, null, 6, 7, 8, 9]"))
-	assert.NoError(t, err)
-	defer withNulls.Release()
-	assert.Equal(t, int64(22), util.TotalArraySize(withNulls))
-
-	bldr := array.NewBooleanBuilder(mem)
-	defer bldr.Release()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	assert.Equal(t, int64(0), util.TotalArraySize(arr))
-}
-
-func TestTotalArraySizeNested(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	arrayWithChildren, _, err := array.FromJSON(mem,
-		arrow.ListOf(arrow.PrimitiveTypes.Int64),
-		strings.NewReader("[[0, 1, 2, 3, 4], [5], null]"))
-	assert.NoError(t, err)
-	defer arrayWithChildren.Release()
-	assert.Equal(t, int64(72), util.TotalArraySize(arrayWithChildren))
-}
-
-func TestTotalArraySizeRecord(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
-	defer mem.AssertSize(t, 0)
-
-	recordBldr := array.NewRecordBuilder(mem, arrow.NewSchema([]arrow.Field{
-		{Name: "a", Type: arrow.PrimitiveTypes.Int32},
-		{Name: "b", Type: arrow.PrimitiveTypes.Int64},
-	}, nil))
-	defer recordBldr.Release()
-	recordBldr.Field(0).(*array.Int32Builder).AppendValues([]int32{1, 2, 3}, nil)
-	recordBldr.Field(1).(*array.Int64Builder).AppendValues([]int64{4, 5, 6}, nil)
-	record := recordBldr.NewRecord()
-	defer record.Release()
-
-	assert.Equal(t, int64(44), util.TotalRecordSize(record))
-}
diff --git a/go/arrow/util/messages/README.md b/go/arrow/util/messages/README.md
deleted file mode 100644
index 312484f701a46..0000000000000
--- a/go/arrow/util/messages/README.md
+++ /dev/null
@@ -1,25 +0,0 @@
-<!---
-  Licensed to the Apache Software Foundation (ASF) under one
-  or more contributor license agreements.  See the NOTICE file
-  distributed with this work for additional information
-  regarding copyright ownership.  The ASF licenses this file
-  to you under the Apache License, Version 2.0 (the
-  "License"); you may not use this file except in compliance
-  with the License.  You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-  Unless required by applicable law or agreed to in writing,
-  software distributed under the License is distributed on an
-  "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-  KIND, either express or implied.  See the License for the
-  specific language governing permissions and limitations
-  under the License.
--->
-
-How to generate the .pb.go files
-
-```
-cd go/arrow/util/
-protoc -I ./ --go_out=./messages ./messages/types.proto
-```
diff --git a/go/arrow/util/messages/types.proto b/go/arrow/util/messages/types.proto
deleted file mode 100644
index 79b922a22a3be..0000000000000
--- a/go/arrow/util/messages/types.proto
+++ /dev/null
@@ -1,102 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-syntax = "proto3";
-import "google/protobuf/any.proto";
-
-option go_package = "../util_message";
-
-message ExampleMessage {
-  string field1 = 1;
-}
-
-message AllTheTypes {
-  string str = 1;
-  int32 int32 = 2;
-  int64 int64 = 3;
-  sint32 sint32 = 4;
-  sint64 sin64 = 5;
-  uint32 uint32 = 6;
-  uint64 uint64 = 7;
-  fixed32 fixed32 = 8;
-  fixed64 fixed64 = 9;
-  sfixed32 sfixed32 = 10;
-  bool bool = 11;
-  bytes bytes = 12;
-  double double = 13;
-  ExampleEnum enum = 14;
-  ExampleMessage message = 15;
-  oneof oneof {
-    string oneofstring = 16;
-    ExampleMessage oneofmessage = 17;
-  }
-  google.protobuf.Any any = 18;
-  map<int32, string> simple_map = 19;
-  map<string, ExampleMessage> complex_map = 20;
-  repeated string simple_list = 21;
-  repeated ExampleMessage complex_list = 22;
-
-  enum ExampleEnum {
-    OPTION_0 = 0;
-    OPTION_1 = 1;
-  }
-}
-
-message AllTheTypesNoAny {
-  string str = 1;
-  int32 int32 = 2;
-  int64 int64 = 3;
-  sint32 sint32 = 4;
-  sint64 sin64 = 5;
-  uint32 uint32 = 6;
-  uint64 uint64 = 7;
-  fixed32 fixed32 = 8;
-  fixed64 fixed64 = 9;
-  sfixed32 sfixed32 = 10;
-  bool bool = 11;
-  bytes bytes = 12;
-  double double = 13;
-  ExampleEnum enum = 14;
-  ExampleMessage message = 15;
-  oneof oneof {
-    string oneofstring = 16;
-    ExampleMessage oneofmessage = 17;
-  }
-  map<int32, string> simple_map = 19;
-  map<string, ExampleMessage> complex_map = 20;
-  repeated string simple_list = 21;
-  repeated ExampleMessage complex_list = 22;
-
-  enum ExampleEnum {
-    OPTION_0 = 0;
-    OPTION_1 = 1;
-  }
-}
-
-message SimpleNested {
-  repeated ExampleMessage simple_a = 1;
-  repeated ExampleMessage simple_b = 2;
-}
-
-message ComplexNested {
-  repeated AllTheTypesNoAny all_the_types_no_any_a = 1;
-  repeated AllTheTypesNoAny all_the_types_no_any_b = 2;
-}
-
-message DeepNested {
-  ComplexNested complex_nested = 1;
-  SimpleNested simple_nested = 2;
-}
diff --git a/go/arrow/util/protobuf_reflect.go b/go/arrow/util/protobuf_reflect.go
deleted file mode 100644
index c8cda96acf941..0000000000000
--- a/go/arrow/util/protobuf_reflect.go
+++ /dev/null
@@ -1,876 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package util
-
-import (
-	"fmt"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/huandu/xstrings"
-	"google.golang.org/protobuf/proto"
-	"google.golang.org/protobuf/reflect/protoreflect"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-// ProtobufTypeHandler provides options on how protobuf fields should be handled in the conversion to arrow
-type ProtobufTypeHandler int
-
-const (
-	// OneOfNull means do not wrap oneOfs in a union, they are treated as separate fields
-	OneOfNull ProtobufTypeHandler = iota
-	// OneOfDenseUnion maps the protobuf OneOf to an arrow.DENSE_UNION
-	OneOfDenseUnion
-	// EnumNumber uses the Enum numeric value
-	EnumNumber
-	// EnumValue uses the Enum string value
-	EnumValue
-	// EnumDictionary uses both the numeric and string value and maps to an arrow.Dictionary
-	EnumDictionary
-)
-
-type schemaOptions struct {
-	exclusionPolicy    func(pfr *ProtobufFieldReflection) bool
-	fieldNameFormatter func(str string) string
-	oneOfHandler       ProtobufTypeHandler
-	enumHandler        ProtobufTypeHandler
-}
-
-// ProtobufFieldReflection represents the metadata and values of a protobuf field
-type ProtobufFieldReflection struct {
-	parent     *ProtobufMessageReflection
-	descriptor protoreflect.FieldDescriptor
-	prValue    protoreflect.Value
-	rValue     reflect.Value
-	schemaOptions
-	arrow.Field
-	isListItem bool
-}
-
-func (pfr *ProtobufFieldReflection) isNull() bool {
-	for pfr.rValue.Kind() == reflect.Ptr {
-		if pfr.rValue.IsNil() {
-			return true
-		}
-		pfr.rValue = pfr.rValue.Elem()
-	}
-
-	if !pfr.rValue.IsValid() || !pfr.prValue.IsValid() {
-		return true
-	}
-	return false
-}
-
-func (pfr *ProtobufFieldReflection) arrowField() arrow.Field {
-	return arrow.Field{
-		Name:     pfr.name(),
-		Type:     pfr.getDataType(),
-		Nullable: true,
-	}
-}
-
-func (pfr *ProtobufFieldReflection) protoreflectValue() protoreflect.Value {
-	return pfr.prValue
-}
-
-func (pfr *ProtobufFieldReflection) reflectValue() reflect.Value {
-	return pfr.rValue
-}
-
-func (pfr *ProtobufFieldReflection) GetDescriptor() protoreflect.FieldDescriptor {
-	return pfr.descriptor
-}
-
-func (pfr *ProtobufFieldReflection) name() string {
-	if pfr.isOneOf() && pfr.schemaOptions.oneOfHandler != OneOfNull {
-		return pfr.fieldNameFormatter(string(pfr.descriptor.ContainingOneof().Name()))
-	}
-	return pfr.fieldNameFormatter(string(pfr.descriptor.Name()))
-}
-
-func (pfr *ProtobufFieldReflection) arrowType() arrow.Type {
-	if pfr.isOneOf() && pfr.schemaOptions.oneOfHandler == OneOfDenseUnion {
-		return arrow.DENSE_UNION
-	}
-	if pfr.isEnum() {
-		switch pfr.enumHandler {
-		case EnumNumber:
-			return arrow.INT32
-		case EnumValue:
-			return arrow.STRING
-		case EnumDictionary:
-			return arrow.DICTIONARY
-		}
-	}
-	if pfr.isStruct() {
-		return arrow.STRUCT
-	}
-	if pfr.isMap() {
-		return arrow.MAP
-	}
-	if pfr.isList() {
-		return arrow.LIST
-	}
-	switch pfr.descriptor.Kind() {
-	case protoreflect.Int32Kind:
-		return arrow.INT32
-	case protoreflect.Int64Kind:
-		return arrow.INT64
-	case protoreflect.Sint32Kind:
-		return arrow.INT32
-	case protoreflect.Sint64Kind:
-		return arrow.INT64
-	case protoreflect.Uint32Kind:
-		return arrow.UINT32
-	case protoreflect.Uint64Kind:
-		return arrow.UINT64
-	case protoreflect.Fixed32Kind:
-		return arrow.UINT32
-	case protoreflect.Fixed64Kind:
-		return arrow.UINT64
-	case protoreflect.Sfixed32Kind:
-		return arrow.INT32
-	case protoreflect.Sfixed64Kind:
-		return arrow.INT64
-	case protoreflect.FloatKind:
-		return arrow.FLOAT32
-	case protoreflect.DoubleKind:
-		return arrow.FLOAT64
-	case protoreflect.StringKind:
-		return arrow.STRING
-	case protoreflect.BytesKind:
-		return arrow.BINARY
-	case protoreflect.BoolKind:
-		return arrow.BOOL
-	}
-	return arrow.NULL
-}
-
-func (pfr *ProtobufFieldReflection) isOneOf() bool {
-	return pfr.descriptor.ContainingOneof() != nil
-}
-
-func (pfr *ProtobufFieldReflection) isEnum() bool {
-	return pfr.descriptor.Kind() == protoreflect.EnumKind
-}
-
-func (pfr *ProtobufFieldReflection) isStruct() bool {
-	return pfr.descriptor.Kind() == protoreflect.MessageKind && !pfr.descriptor.IsMap() && !pfr.isList()
-}
-
-func (pfr *ProtobufFieldReflection) isMap() bool {
-	return pfr.descriptor.Kind() == protoreflect.MessageKind && pfr.descriptor.IsMap()
-}
-
-func (pfr *ProtobufFieldReflection) isList() bool {
-	return pfr.descriptor.IsList() && !pfr.isListItem
-}
-
-// ProtobufMessageReflection represents the metadata and values of a protobuf message
-type ProtobufMessageReflection struct {
-	descriptor protoreflect.MessageDescriptor
-	message    protoreflect.Message
-	rValue     reflect.Value
-	schemaOptions
-	fields []ProtobufMessageFieldReflection
-}
-
-func (psr ProtobufMessageReflection) unmarshallAny() ProtobufMessageReflection {
-	if psr.descriptor.FullName() == "google.protobuf.Any" && psr.rValue.IsValid() {
-		for psr.rValue.Type().Kind() == reflect.Ptr {
-			psr.rValue = reflect.Indirect(psr.rValue)
-		}
-		fieldValueAsAny, _ := psr.rValue.Interface().(anypb.Any)
-		msg, _ := fieldValueAsAny.UnmarshalNew()
-
-		v := reflect.ValueOf(msg)
-		for v.Kind() == reflect.Ptr {
-			v = reflect.Indirect(v)
-		}
-
-		return ProtobufMessageReflection{
-			descriptor:    msg.ProtoReflect().Descriptor(),
-			message:       msg.ProtoReflect(),
-			rValue:        v,
-			schemaOptions: psr.schemaOptions,
-		}
-	} else {
-		return psr
-	}
-}
-
-func (psr ProtobufMessageReflection) getArrowFields() []arrow.Field {
-	var fields []arrow.Field
-
-	for pfr := range psr.generateStructFields() {
-		fields = append(fields, pfr.arrowField())
-	}
-
-	return fields
-}
-
-type protobufListReflection struct {
-	ProtobufFieldReflection
-}
-
-func (pfr *ProtobufFieldReflection) asList() protobufListReflection {
-	return protobufListReflection{*pfr}
-}
-
-func (plr protobufListReflection) getDataType() arrow.DataType {
-	pfr := ProtobufFieldReflection{
-		descriptor:    plr.descriptor,
-		schemaOptions: plr.schemaOptions,
-		isListItem:    true,
-	}
-	return arrow.ListOf(pfr.getDataType())
-}
-
-type protobufUnionReflection struct {
-	ProtobufFieldReflection
-}
-
-func (pfr *ProtobufFieldReflection) asUnion() protobufUnionReflection {
-	return protobufUnionReflection{*pfr}
-}
-
-func (pur protobufUnionReflection) isThisOne() bool {
-	for pur.rValue.Kind() == reflect.Ptr || pur.rValue.Kind() == reflect.Interface {
-		pur.rValue = pur.rValue.Elem()
-	}
-	return pur.rValue.Field(0).String() == pur.prValue.String()
-}
-
-func (pur protobufUnionReflection) whichOne() arrow.UnionTypeCode {
-	fds := pur.descriptor.ContainingOneof().Fields()
-	for i := 0; i < fds.Len(); i++ {
-		pfr := pur.parent.getFieldByName(string(fds.Get(i).Name()))
-		if pfr.asUnion().isThisOne() {
-			return pur.getUnionTypeCode(int32(pfr.descriptor.Number()))
-		}
-	}
-	// i.e. all null
-	return -1
-}
-
-func (pur protobufUnionReflection) getField() *ProtobufFieldReflection {
-	fds := pur.descriptor.ContainingOneof().Fields()
-	for i := 0; i < fds.Len(); i++ {
-		pfr := pur.parent.getFieldByName(string(fds.Get(i).Name()))
-		if pfr.asUnion().isThisOne() {
-			return pfr
-		}
-	}
-	// i.e. all null
-	return nil
-}
-
-func (pur protobufUnionReflection) getUnionTypeCode(n int32) arrow.UnionTypeCode {
-	//We use the index of the field number as there is a limit on the arrow.UnionTypeCode (127)
-	//which a protobuf Number could realistically exceed
-	fds := pur.descriptor.ContainingOneof().Fields()
-	for i := 0; i < fds.Len(); i++ {
-		if n == int32(fds.Get(i).Number()) {
-			return int8(i)
-		}
-	}
-	return -1
-}
-
-func (pur protobufUnionReflection) generateUnionFields() chan *ProtobufFieldReflection {
-	out := make(chan *ProtobufFieldReflection)
-	go func() {
-		defer close(out)
-		fds := pur.descriptor.ContainingOneof().Fields()
-		for i := 0; i < fds.Len(); i++ {
-			pfr := pur.parent.getFieldByName(string(fds.Get(i).Name()))
-			// Do not get stuck in a recursion loop
-			pfr.oneOfHandler = OneOfNull
-			if pfr.exclusionPolicy(pfr) {
-				continue
-			}
-			out <- pfr
-		}
-	}()
-
-	return out
-}
-
-func (pur protobufUnionReflection) getArrowFields() []arrow.Field {
-	var fields []arrow.Field
-
-	for pfr := range pur.generateUnionFields() {
-		fields = append(fields, pfr.arrowField())
-	}
-
-	return fields
-}
-
-func (pur protobufUnionReflection) getDataType() arrow.DataType {
-	fds := pur.getArrowFields()
-	typeCodes := make([]arrow.UnionTypeCode, len(fds))
-	for i := 0; i < len(fds); i++ {
-		typeCodes[i] = arrow.UnionTypeCode(i)
-	}
-	return arrow.DenseUnionOf(fds, typeCodes)
-}
-
-type protobufDictReflection struct {
-	ProtobufFieldReflection
-}
-
-func (pfr *ProtobufFieldReflection) asDictionary() protobufDictReflection {
-	return protobufDictReflection{*pfr}
-}
-
-func (pdr protobufDictReflection) getDataType() arrow.DataType {
-	return &arrow.DictionaryType{
-		IndexType: arrow.PrimitiveTypes.Int32,
-		ValueType: arrow.BinaryTypes.String,
-		Ordered:   false,
-	}
-}
-
-func (pdr protobufDictReflection) getDictValues(mem memory.Allocator) arrow.Array {
-	enumValues := pdr.descriptor.Enum().Values()
-	bldr := array.NewStringBuilder(mem)
-	for i := 0; i < enumValues.Len(); i++ {
-		bldr.Append(string(enumValues.Get(i).Name()))
-	}
-	return bldr.NewArray()
-}
-
-type protobufMapReflection struct {
-	ProtobufFieldReflection
-}
-
-func (pfr *ProtobufFieldReflection) asMap() protobufMapReflection {
-	return protobufMapReflection{*pfr}
-}
-
-func (pmr protobufMapReflection) getDataType() arrow.DataType {
-	for kvp := range pmr.generateKeyValuePairs() {
-		return kvp.getDataType()
-	}
-	return protobufMapKeyValuePairReflection{
-		k: ProtobufFieldReflection{
-			parent:        pmr.parent,
-			descriptor:    pmr.descriptor.MapKey(),
-			schemaOptions: pmr.schemaOptions,
-		},
-		v: ProtobufFieldReflection{
-			parent:        pmr.parent,
-			descriptor:    pmr.descriptor.MapValue(),
-			schemaOptions: pmr.schemaOptions,
-		},
-	}.getDataType()
-}
-
-type protobufMapKeyValuePairReflection struct {
-	k ProtobufFieldReflection
-	v ProtobufFieldReflection
-}
-
-func (pmr protobufMapKeyValuePairReflection) getDataType() arrow.DataType {
-	return arrow.MapOf(pmr.k.getDataType(), pmr.v.getDataType())
-}
-
-func (pmr protobufMapReflection) generateKeyValuePairs() chan protobufMapKeyValuePairReflection {
-	out := make(chan protobufMapKeyValuePairReflection)
-
-	go func() {
-		defer close(out)
-		if !pmr.rValue.IsValid() {
-			kvp := protobufMapKeyValuePairReflection{
-				k: ProtobufFieldReflection{
-					parent:        pmr.parent,
-					descriptor:    pmr.descriptor.MapKey(),
-					schemaOptions: pmr.schemaOptions,
-				},
-				v: ProtobufFieldReflection{
-					parent:        pmr.parent,
-					descriptor:    pmr.descriptor.MapValue(),
-					schemaOptions: pmr.schemaOptions,
-				},
-			}
-			out <- kvp
-			return
-		}
-		for _, k := range pmr.rValue.MapKeys() {
-			kvp := protobufMapKeyValuePairReflection{
-				k: ProtobufFieldReflection{
-					parent:        pmr.parent,
-					descriptor:    pmr.descriptor.MapKey(),
-					prValue:       getMapKey(k),
-					rValue:        k,
-					schemaOptions: pmr.schemaOptions,
-				},
-				v: ProtobufFieldReflection{
-					parent:        pmr.parent,
-					descriptor:    pmr.descriptor.MapValue(),
-					prValue:       pmr.prValue.Map().Get(protoreflect.MapKey(getMapKey(k))),
-					rValue:        pmr.rValue.MapIndex(k),
-					schemaOptions: pmr.schemaOptions,
-				},
-			}
-			out <- kvp
-		}
-	}()
-
-	return out
-}
-
-func getMapKey(v reflect.Value) protoreflect.Value {
-	switch v.Kind() {
-	case reflect.String:
-		return protoreflect.ValueOf(v.String())
-	case reflect.Int32, reflect.Int64:
-		return protoreflect.ValueOf(v.Int())
-	case reflect.Bool:
-		return protoreflect.ValueOf(v.Bool())
-	case reflect.Uint32, reflect.Uint64:
-		return protoreflect.ValueOf(v.Uint())
-	default:
-		panic("Unmapped protoreflect map key type")
-	}
-}
-
-func (psr ProtobufMessageReflection) generateStructFields() chan *ProtobufFieldReflection {
-	out := make(chan *ProtobufFieldReflection)
-
-	go func() {
-		defer close(out)
-		fds := psr.descriptor.Fields()
-		for i := 0; i < fds.Len(); i++ {
-			pfr := psr.getFieldByName(string(fds.Get(i).Name()))
-			if psr.exclusionPolicy(pfr) {
-				continue
-			}
-			if pfr.arrowType() == arrow.DENSE_UNION {
-				if pfr.descriptor.Number() != pfr.descriptor.ContainingOneof().Fields().Get(0).Number() {
-					continue
-				}
-			}
-			out <- pfr
-		}
-	}()
-
-	return out
-}
-
-func (psr ProtobufMessageReflection) generateFields() chan *ProtobufFieldReflection {
-	out := make(chan *ProtobufFieldReflection)
-
-	go func() {
-		defer close(out)
-		fds := psr.descriptor.Fields()
-		for i := 0; i < fds.Len(); i++ {
-			pfr := psr.getFieldByName(string(fds.Get(i).Name()))
-			if psr.exclusionPolicy(pfr) {
-				continue
-			}
-			if pfr.arrowType() == arrow.DENSE_UNION {
-				if pfr.descriptor.Number() != pfr.descriptor.ContainingOneof().Fields().Get(0).Number() {
-					continue
-				}
-			}
-			out <- pfr
-		}
-	}()
-
-	return out
-}
-
-func (pfr *ProtobufFieldReflection) asStruct() ProtobufMessageReflection {
-	psr := ProtobufMessageReflection{
-		descriptor:    pfr.descriptor.Message(),
-		rValue:        pfr.rValue,
-		schemaOptions: pfr.schemaOptions,
-	}
-	if pfr.prValue.IsValid() {
-		psr.message = pfr.prValue.Message()
-	}
-	psr = psr.unmarshallAny()
-	return psr
-}
-
-func (psr ProtobufMessageReflection) getDataType() arrow.DataType {
-	return arrow.StructOf(psr.getArrowFields()...)
-}
-
-func (psr ProtobufMessageReflection) getFieldByName(n string) *ProtobufFieldReflection {
-	fd := psr.descriptor.Fields().ByTextName(xstrings.ToSnakeCase(n))
-	fv := psr.rValue
-	if fv.IsValid() {
-		if !fv.IsZero() {
-			for fv.Kind() == reflect.Ptr || fv.Kind() == reflect.Interface {
-				fv = fv.Elem()
-			}
-			if fd.ContainingOneof() != nil {
-				n = string(fd.ContainingOneof().Name())
-			}
-			fv = fv.FieldByName(xstrings.ToCamelCase(n))
-			for fv.Kind() == reflect.Ptr {
-				fv = fv.Elem()
-			}
-		}
-	}
-	pfr := ProtobufFieldReflection{
-		parent:        &psr,
-		descriptor:    fd,
-		rValue:        fv,
-		schemaOptions: psr.schemaOptions,
-	}
-	if psr.message != nil {
-		pfr.prValue = psr.message.Get(fd)
-	}
-	return &pfr
-}
-
-func (plr protobufListReflection) generateListItems() chan ProtobufFieldReflection {
-	out := make(chan ProtobufFieldReflection)
-
-	go func() {
-		defer close(out)
-		for i := 0; i < plr.prValue.List().Len(); i++ {
-			out <- ProtobufFieldReflection{
-				descriptor:    plr.descriptor,
-				prValue:       plr.prValue.List().Get(i),
-				rValue:        plr.rValue.Index(i),
-				schemaOptions: plr.schemaOptions,
-			}
-		}
-	}()
-
-	return out
-}
-
-func (pfr *ProtobufFieldReflection) getDataType() arrow.DataType {
-	switch pfr.arrowType() {
-	case arrow.DENSE_UNION:
-		return pfr.asUnion().getDataType()
-	case arrow.DICTIONARY:
-		return pfr.asDictionary().getDataType()
-	case arrow.LIST:
-		return pfr.asList().getDataType()
-	case arrow.MAP:
-		return pfr.asMap().getDataType()
-	case arrow.STRUCT:
-		return pfr.asStruct().getDataType()
-	case arrow.INT32:
-		return arrow.PrimitiveTypes.Int32
-	case arrow.INT64:
-		return arrow.PrimitiveTypes.Int64
-	case arrow.UINT32:
-		return arrow.PrimitiveTypes.Uint32
-	case arrow.UINT64:
-		return arrow.PrimitiveTypes.Uint64
-	case arrow.FLOAT32:
-		return arrow.PrimitiveTypes.Float32
-	case arrow.FLOAT64:
-		return arrow.PrimitiveTypes.Float64
-	case arrow.STRING:
-		return arrow.BinaryTypes.String
-	case arrow.BINARY:
-		return arrow.BinaryTypes.Binary
-	case arrow.BOOL:
-		return arrow.FixedWidthTypes.Boolean
-	}
-	return nil
-}
-
-type protobufReflection interface {
-	name() string
-	arrowType() arrow.Type
-	protoreflectValue() protoreflect.Value
-	reflectValue() reflect.Value
-	GetDescriptor() protoreflect.FieldDescriptor
-	isNull() bool
-	isEnum() bool
-	asDictionary() protobufDictReflection
-	isList() bool
-	asList() protobufListReflection
-	isMap() bool
-	asMap() protobufMapReflection
-	isStruct() bool
-	asStruct() ProtobufMessageReflection
-	isOneOf() bool
-	asUnion() protobufUnionReflection
-}
-
-// ProtobufMessageFieldReflection links together the message and it's fields
-type ProtobufMessageFieldReflection struct {
-	parent *ProtobufMessageReflection
-	protobufReflection
-	arrow.Field
-}
-
-// Schema returns an arrow.Schema representing a protobuf message
-func (msg ProtobufMessageReflection) Schema() *arrow.Schema {
-	var fields []arrow.Field
-	for _, f := range msg.fields {
-		fields = append(fields, f.Field)
-	}
-	return arrow.NewSchema(fields, nil)
-}
-
-// Record returns an arrow.Record for a protobuf message
-func (msg ProtobufMessageReflection) Record(mem memory.Allocator) arrow.Record {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	schema := msg.Schema()
-
-	recordBuilder := array.NewRecordBuilder(mem, schema)
-
-	var fieldNames []string
-	for i, f := range msg.fields {
-		f.AppendValueOrNull(recordBuilder.Field(i), mem)
-		fieldNames = append(fieldNames, f.protobufReflection.name())
-	}
-
-	var arrays []arrow.Array
-	for _, bldr := range recordBuilder.Fields() {
-		a := bldr.NewArray()
-		arrays = append(arrays, a)
-	}
-
-	structArray, _ := array.NewStructArray(arrays, fieldNames)
-
-	return array.RecordFromStructArray(structArray, schema)
-}
-
-// NewProtobufMessageReflection initialises a ProtobufMessageReflection
-// can be used to convert a protobuf message into an arrow Record
-func NewProtobufMessageReflection(msg proto.Message, options ...option) *ProtobufMessageReflection {
-	v := reflect.ValueOf(msg)
-	for v.Kind() == reflect.Ptr {
-		v = v.Elem()
-	}
-	includeAll := func(pfr *ProtobufFieldReflection) bool {
-		return false
-	}
-	noFormatting := func(str string) string {
-		return str
-	}
-	psr := &ProtobufMessageReflection{
-		descriptor: msg.ProtoReflect().Descriptor(),
-		message:    msg.ProtoReflect(),
-		rValue:     v,
-		schemaOptions: schemaOptions{
-			exclusionPolicy:    includeAll,
-			fieldNameFormatter: noFormatting,
-			oneOfHandler:       OneOfNull,
-			enumHandler:        EnumDictionary,
-		},
-	}
-
-	for _, opt := range options {
-		opt(psr)
-	}
-
-	var fields []ProtobufMessageFieldReflection
-
-	for pfr := range psr.generateFields() {
-		fields = append(fields, ProtobufMessageFieldReflection{
-			parent:             psr,
-			protobufReflection: pfr,
-			Field:              pfr.arrowField(),
-		})
-	}
-
-	psr.fields = fields
-
-	return psr
-}
-
-type option func(*ProtobufMessageReflection)
-
-// WithExclusionPolicy is an option for a ProtobufMessageReflection
-// WithExclusionPolicy acts as a deny filter on the fields of a protobuf message
-// i.e. prevents them from being included in the schema.
-// A use case for this is to exclude fields containing PII.
-func WithExclusionPolicy(ex func(pfr *ProtobufFieldReflection) bool) option {
-	return func(psr *ProtobufMessageReflection) {
-		psr.exclusionPolicy = ex
-	}
-}
-
-// WithFieldNameFormatter is an option for a ProtobufMessageReflection
-// WithFieldNameFormatter enables customisation of the field names in the arrow schema
-// By default, the field names are taken from the protobuf message (.proto file)
-func WithFieldNameFormatter(formatter func(str string) string) option {
-	return func(psr *ProtobufMessageReflection) {
-		psr.fieldNameFormatter = formatter
-	}
-}
-
-// WithOneOfHandler is an option for a ProtobufMessageReflection
-// WithOneOfHandler enables customisation of the protobuf oneOf type in the arrow schema
-// By default, the oneOfs are mapped to separate columns
-func WithOneOfHandler(oneOfHandler ProtobufTypeHandler) option {
-	return func(psr *ProtobufMessageReflection) {
-		psr.oneOfHandler = oneOfHandler
-	}
-}
-
-// WithEnumHandler is an option for a ProtobufMessageReflection
-// WithEnumHandler enables customisation of the protobuf Enum type in the arrow schema
-// By default, the Enums are mapped to arrow.Dictionary
-func WithEnumHandler(enumHandler ProtobufTypeHandler) option {
-	return func(psr *ProtobufMessageReflection) {
-		psr.enumHandler = enumHandler
-	}
-}
-
-// AppendValueOrNull add the value of a protobuf field to an arrow array builder
-func (f ProtobufMessageFieldReflection) AppendValueOrNull(b array.Builder, mem memory.Allocator) error {
-	pv := f.protoreflectValue()
-	fd := f.GetDescriptor()
-
-	if f.isNull() {
-		b.AppendNull()
-		return nil
-	}
-
-	switch b.Type().ID() {
-	case arrow.STRING:
-		if f.protobufReflection.isEnum() {
-			b.(*array.StringBuilder).Append(string(fd.Enum().Values().ByNumber(pv.Enum()).Name()))
-		} else {
-			b.(*array.StringBuilder).Append(pv.String())
-		}
-	case arrow.BINARY:
-		b.(*array.BinaryBuilder).Append(pv.Bytes())
-	case arrow.INT32:
-		if f.protobufReflection.isEnum() {
-			b.(*array.Int32Builder).Append(int32(f.reflectValue().Int()))
-		} else {
-			b.(*array.Int32Builder).Append(int32(pv.Int()))
-		}
-	case arrow.INT64:
-		b.(*array.Int64Builder).Append(pv.Int())
-	case arrow.FLOAT64:
-		b.(*array.Float64Builder).Append(pv.Float())
-	case arrow.UINT32:
-		b.(*array.Uint32Builder).Append(uint32(pv.Uint()))
-	case arrow.UINT64:
-		b.(*array.Uint64Builder).Append(pv.Uint())
-	case arrow.BOOL:
-		b.(*array.BooleanBuilder).Append(pv.Bool())
-	case arrow.DENSE_UNION:
-		ub := b.(array.UnionBuilder)
-		pur := f.asUnion()
-		if pur.whichOne() == -1 {
-			ub.AppendNull()
-			break
-		}
-		ub.Append(pur.whichOne())
-		cb := ub.Child(int(pur.whichOne()))
-		err := ProtobufMessageFieldReflection{
-			parent:             f.parent,
-			protobufReflection: pur.getField(),
-			Field:              pur.arrowField(),
-		}.AppendValueOrNull(cb, mem)
-		if err != nil {
-			return err
-		}
-	case arrow.DICTIONARY:
-		pdr := f.asDictionary()
-		db := b.(*array.BinaryDictionaryBuilder)
-		err := db.InsertStringDictValues(pdr.getDictValues(mem).(*array.String))
-		if err != nil {
-			return err
-		}
-		enumNum := int(f.reflectValue().Int())
-		enumVal := fd.Enum().Values().ByNumber(protoreflect.EnumNumber(enumNum)).Name()
-		err = db.AppendValueFromString(string(enumVal))
-		if err != nil {
-			return err
-		}
-	case arrow.STRUCT:
-		sb := b.(*array.StructBuilder)
-		sb.Append(true)
-		child := ProtobufMessageFieldReflection{
-			parent: f.parent,
-		}
-		for i, field := range f.Field.Type.(*arrow.StructType).Fields() {
-			child.protobufReflection = f.asStruct().getFieldByName(field.Name)
-			child.Field = field
-			err := child.AppendValueOrNull(sb.FieldBuilder(i), mem)
-			if err != nil {
-				return err
-			}
-		}
-	case arrow.LIST:
-		lb := b.(*array.ListBuilder)
-		l := pv.List().Len()
-		if l == 0 {
-			lb.AppendEmptyValue()
-			break
-		}
-		lb.ValueBuilder().Reserve(l)
-		lb.Append(true)
-		child := ProtobufMessageFieldReflection{
-			parent: f.parent,
-			Field:  f.Field.Type.(*arrow.ListType).ElemField(),
-		}
-		for li := range f.asList().generateListItems() {
-			child.protobufReflection = &li
-			err := child.AppendValueOrNull(lb.ValueBuilder(), mem)
-			if err != nil {
-				return err
-			}
-		}
-	case arrow.MAP:
-		mb := b.(*array.MapBuilder)
-		l := pv.Map().Len()
-		if l == 0 {
-			mb.AppendEmptyValue()
-			break
-		}
-		mb.KeyBuilder().Reserve(l)
-		mb.ItemBuilder().Reserve(l)
-		mb.Append(true)
-		k := ProtobufMessageFieldReflection{
-			parent: f.parent,
-			Field:  f.Field.Type.(*arrow.MapType).KeyField(),
-		}
-		v := ProtobufMessageFieldReflection{
-			parent: f.parent,
-			Field:  f.Field.Type.(*arrow.MapType).ItemField(),
-		}
-		for kvp := range f.asMap().generateKeyValuePairs() {
-			k.protobufReflection = &kvp.k
-			err := k.AppendValueOrNull(mb.KeyBuilder(), mem)
-			if err != nil {
-				return err
-			}
-			v.protobufReflection = &kvp.v
-			err = v.AppendValueOrNull(mb.ItemBuilder(), mem)
-			if err != nil {
-				return err
-			}
-		}
-	default:
-		return fmt.Errorf("not able to appendValueOrNull for type %s", b.Type().ID())
-	}
-	return nil
-}
diff --git a/go/arrow/util/protobuf_reflect_test.go b/go/arrow/util/protobuf_reflect_test.go
deleted file mode 100644
index 7420aa726337d..0000000000000
--- a/go/arrow/util/protobuf_reflect_test.go
+++ /dev/null
@@ -1,498 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package util
-
-import (
-	"encoding/json"
-	"fmt"
-	"testing"
-
-	"google.golang.org/protobuf/proto"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/arrow/util/util_message"
-	"github.com/huandu/xstrings"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"google.golang.org/protobuf/types/known/anypb"
-)
-
-type Fixture struct {
-	msg     proto.Message
-	schema  string
-	jsonStr string
-}
-
-type J map[string]any
-
-func AllTheTypesFixture() Fixture {
-	e := J{"field1": "Example"}
-
-	m := J{
-		"str":          "Hello",
-		"int32":        10,
-		"int64":        100,
-		"sint32":       -10,
-		"sin64":        -100,
-		"uint32":       10,
-		"uint64":       100,
-		"fixed32":      10,
-		"fixed64":      1000,
-		"sfixed32":     10,
-		"bool":         false,
-		"bytes":        "SGVsbG8sIHdvcmxkIQ==",
-		"double":       1.1,
-		"enum":         "OPTION_1",
-		"message":      e,
-		"oneof":        []any{0, "World"},
-		"any":          J{"field1": "Example"},
-		"simple_map":   []J{{"key": 99, "value": "Hello"}},
-		"complex_map":  []J{{"key": "complex", "value": e}},
-		"simple_list":  []any{"Hello", "World"},
-		"complex_list": []J{e},
-	}
-	jm, err := json.Marshal(m)
-	if err != nil {
-		panic(err)
-	}
-	jsonString := string(jm)
-
-	exampleMsg := util_message.ExampleMessage{
-		Field1: "Example",
-	}
-	anyMsg, _ := anypb.New(&exampleMsg)
-
-	msg := util_message.AllTheTypes{
-		Str:      "Hello",
-		Int32:    10,
-		Int64:    100,
-		Sint32:   -10,
-		Sin64:    -100,
-		Uint32:   10,
-		Uint64:   100,
-		Fixed32:  10,
-		Fixed64:  1000,
-		Sfixed32: 10,
-		Bool:     false,
-		Bytes:    []byte("Hello, world!"),
-		Double:   1.1,
-		Enum:     util_message.AllTheTypes_OPTION_1,
-		Message:  &exampleMsg,
-		Oneof:    &util_message.AllTheTypes_Oneofstring{Oneofstring: "World"},
-		Any:      anyMsg,
-		//Breaks the test as the Golang maps have a non-deterministic order
-		//SimpleMap:   map[int32]string{99: "Hello", 100: "World", 98: "How", 101: "Are", 1: "You"},
-		SimpleMap:   map[int32]string{99: "Hello"},
-		ComplexMap:  map[string]*util_message.ExampleMessage{"complex": &exampleMsg},
-		SimpleList:  []string{"Hello", "World"},
-		ComplexList: []*util_message.ExampleMessage{&exampleMsg},
-	}
-
-	schema := `schema:
-  fields: 22
-    - str: type=utf8, nullable
-    - int32: type=int32, nullable
-    - int64: type=int64, nullable
-    - sint32: type=int32, nullable
-    - sin64: type=int64, nullable
-    - uint32: type=uint32, nullable
-    - uint64: type=uint64, nullable
-    - fixed32: type=uint32, nullable
-    - fixed64: type=uint64, nullable
-    - sfixed32: type=int32, nullable
-    - bool: type=bool, nullable
-    - bytes: type=binary, nullable
-    - double: type=float64, nullable
-    - enum: type=dictionary<values=utf8, indices=int32, ordered=false>, nullable
-    - message: type=struct<field1: utf8>, nullable
-    - oneofstring: type=utf8, nullable
-    - oneofmessage: type=struct<field1: utf8>, nullable
-    - any: type=struct<field1: utf8>, nullable
-    - simple_map: type=map<int32, utf8, items_nullable>, nullable
-    - complex_map: type=map<utf8, struct<field1: utf8>, items_nullable>, nullable
-    - simple_list: type=list<item: utf8, nullable>, nullable
-    - complex_list: type=list<item: struct<field1: utf8>, nullable>, nullable`
-
-	return Fixture{
-		msg:     &msg,
-		schema:  schema,
-		jsonStr: jsonString,
-	}
-}
-
-func AllTheTypesNoAnyFixture() Fixture {
-	exampleMsg := util_message.ExampleMessage{
-		Field1: "Example",
-	}
-
-	msg := util_message.AllTheTypesNoAny{
-		Str:      "Hello",
-		Int32:    10,
-		Int64:    100,
-		Sint32:   -10,
-		Sin64:    -100,
-		Uint32:   10,
-		Uint64:   100,
-		Fixed32:  10,
-		Fixed64:  1000,
-		Sfixed32: 10,
-		Bool:     false,
-		Bytes:    []byte("Hello, world!"),
-		Double:   1.1,
-		Enum:     util_message.AllTheTypesNoAny_OPTION_1,
-		Message:  &exampleMsg,
-		Oneof:    &util_message.AllTheTypesNoAny_Oneofstring{Oneofstring: "World"},
-		//Breaks the test as the Golang maps have a non-deterministic order
-		//SimpleMap:   map[int32]string{99: "Hello", 100: "World", 98: "How", 101: "Are", 1: "You"},
-		SimpleMap:   map[int32]string{99: "Hello"},
-		ComplexMap:  map[string]*util_message.ExampleMessage{"complex": &exampleMsg},
-		SimpleList:  []string{"Hello", "World"},
-		ComplexList: []*util_message.ExampleMessage{&exampleMsg},
-	}
-
-	schema := `schema:
-  fields: 22
-    - str: type=utf8, nullable
-    - int32: type=int32, nullable
-    - int64: type=int64, nullable
-    - sint32: type=int32, nullable
-    - sin64: type=int64, nullable
-    - uint32: type=uint32, nullable
-    - uint64: type=uint64, nullable
-    - fixed32: type=uint32, nullable
-    - fixed64: type=uint64, nullable
-    - sfixed32: type=int32, nullable
-    - bool: type=bool, nullable
-    - bytes: type=binary, nullable
-    - double: type=float64, nullable
-    - enum: type=dictionary<values=utf8, indices=int32, ordered=false>, nullable
-    - message: type=struct<field1: utf8>, nullable
-    - oneofstring: type=utf8, nullable
-    - oneofmessage: type=struct<field1: utf8>, nullable
-    - simple_map: type=map<int32, utf8, items_nullable>, nullable
-    - complex_map: type=map<utf8, struct<field1: utf8>, items_nullable>, nullable
-    - simple_list: type=list<item: utf8, nullable>, nullable
-    - complex_list: type=list<item: struct<field1: utf8>, nullable>, nullable`
-
-	jsonStr := `{
-			"str":"Hello",
-			"int32":10,
-			"int64":100,
-			"sint32":-10,
-			"sin64":-100,
-			"uint32":10,
-			"uint64":100,
-			"fixed32":10,
-			"fixed64":1000,
-			"sfixed32":10,
-			"bool":false,
-			"bytes":"SGVsbG8sIHdvcmxkIQ==",
-			"double":1.1,
-			"enum":"OPTION_1",
-			"message":{"field1":"Example"},
-			"oneofmessage": { "field1": null },
-			"oneofstring": "World",
-			"simple_map":[{"key":99,"value":"Hello"}],
-			"complex_map":[{"key":"complex","value":{"field1":"Example"}}],
-			"simple_list":["Hello","World"],
-			"complex_list":[{"field1":"Example"}]
-		}`
-
-	return Fixture{
-		msg:     &msg,
-		schema:  schema,
-		jsonStr: jsonStr,
-	}
-}
-
-func CheckSchema(t *testing.T, pmr *ProtobufMessageReflection, want string) {
-	got := pmr.Schema().String()
-	require.Equal(t, got, want, "got: %s\nwant: %s", got, want)
-}
-
-func CheckRecord(t *testing.T, pmr *ProtobufMessageReflection, jsonStr string) {
-	rec := pmr.Record(nil)
-	got, err := json.Marshal(rec)
-	assert.NoError(t, err)
-	assert.JSONEq(t, jsonStr, string(got), "got: %s\nwant: %s", got, jsonStr)
-}
-
-func TestGetSchema(t *testing.T) {
-	f := AllTheTypesFixture()
-
-	pmr := NewProtobufMessageReflection(f.msg)
-	CheckSchema(t, pmr, f.schema)
-
-	pmr = NewProtobufMessageReflection(f.msg, WithOneOfHandler(OneOfDenseUnion))
-	want := `schema:
-  fields: 21
-    - str: type=utf8, nullable
-    - int32: type=int32, nullable
-    - int64: type=int64, nullable
-    - sint32: type=int32, nullable
-    - sin64: type=int64, nullable
-    - uint32: type=uint32, nullable
-    - uint64: type=uint64, nullable
-    - fixed32: type=uint32, nullable
-    - fixed64: type=uint64, nullable
-    - sfixed32: type=int32, nullable
-    - bool: type=bool, nullable
-    - bytes: type=binary, nullable
-    - double: type=float64, nullable
-    - enum: type=dictionary<values=utf8, indices=int32, ordered=false>, nullable
-    - message: type=struct<field1: utf8>, nullable
-    - oneof: type=dense_union<oneofstring: type=utf8, nullable=0, oneofmessage: type=struct<field1: utf8>, nullable=1>, nullable
-    - any: type=struct<field1: utf8>, nullable
-    - simple_map: type=map<int32, utf8, items_nullable>, nullable
-    - complex_map: type=map<utf8, struct<field1: utf8>, items_nullable>, nullable
-    - simple_list: type=list<item: utf8, nullable>, nullable
-    - complex_list: type=list<item: struct<field1: utf8>, nullable>, nullable`
-	CheckSchema(t, pmr, want)
-
-	excludeComplex := func(pfr *ProtobufFieldReflection) bool {
-		return pfr.isMap() || pfr.isList() || pfr.isStruct()
-	}
-
-	pmr = NewProtobufMessageReflection(f.msg, WithExclusionPolicy(excludeComplex))
-	want = `schema:
-  fields: 15
-    - str: type=utf8, nullable
-    - int32: type=int32, nullable
-    - int64: type=int64, nullable
-    - sint32: type=int32, nullable
-    - sin64: type=int64, nullable
-    - uint32: type=uint32, nullable
-    - uint64: type=uint64, nullable
-    - fixed32: type=uint32, nullable
-    - fixed64: type=uint64, nullable
-    - sfixed32: type=int32, nullable
-    - bool: type=bool, nullable
-    - bytes: type=binary, nullable
-    - double: type=float64, nullable
-    - enum: type=dictionary<values=utf8, indices=int32, ordered=false>, nullable
-    - oneofstring: type=utf8, nullable`
-	CheckSchema(t, pmr, want)
-
-	pmr = NewProtobufMessageReflection(
-		f.msg,
-		WithExclusionPolicy(excludeComplex),
-		WithFieldNameFormatter(xstrings.ToCamelCase),
-	)
-	want = `schema:
-  fields: 15
-    - Str: type=utf8, nullable
-    - Int32: type=int32, nullable
-    - Int64: type=int64, nullable
-    - Sint32: type=int32, nullable
-    - Sin64: type=int64, nullable
-    - Uint32: type=uint32, nullable
-    - Uint64: type=uint64, nullable
-    - Fixed32: type=uint32, nullable
-    - Fixed64: type=uint64, nullable
-    - Sfixed32: type=int32, nullable
-    - Bool: type=bool, nullable
-    - Bytes: type=binary, nullable
-    - Double: type=float64, nullable
-    - Enum: type=dictionary<values=utf8, indices=int32, ordered=false>, nullable
-    - Oneofstring: type=utf8, nullable`
-	CheckSchema(t, pmr, want)
-
-	onlyEnum := func(pfr *ProtobufFieldReflection) bool {
-		return !pfr.isEnum()
-	}
-	pmr = NewProtobufMessageReflection(
-		f.msg,
-		WithExclusionPolicy(onlyEnum),
-		WithEnumHandler(EnumNumber),
-	)
-	want = `schema:
-  fields: 1
-    - enum: type=int32, nullable`
-	CheckSchema(t, pmr, want)
-
-	pmr = NewProtobufMessageReflection(
-		f.msg,
-		WithExclusionPolicy(onlyEnum),
-		WithEnumHandler(EnumValue),
-	)
-	want = `schema:
-  fields: 1
-    - enum: type=utf8, nullable`
-	CheckSchema(t, pmr, want)
-}
-
-func TestRecordFromProtobuf(t *testing.T) {
-	f := AllTheTypesFixture()
-
-	pmr := NewProtobufMessageReflection(f.msg, WithOneOfHandler(OneOfDenseUnion))
-	CheckRecord(t, pmr, fmt.Sprintf(`[%s]`, f.jsonStr))
-
-	onlyEnum := func(pfr *ProtobufFieldReflection) bool { return !pfr.isEnum() }
-	pmr = NewProtobufMessageReflection(f.msg, WithExclusionPolicy(onlyEnum), WithEnumHandler(EnumValue))
-	jsonStr := `[ { "enum":"OPTION_1" } ]`
-	CheckRecord(t, pmr, jsonStr)
-
-	pmr = NewProtobufMessageReflection(f.msg, WithExclusionPolicy(onlyEnum), WithEnumHandler(EnumNumber))
-	jsonStr = `[ { "enum":1 } ]`
-	CheckRecord(t, pmr, jsonStr)
-}
-
-func TestNullRecordFromProtobuf(t *testing.T) {
-	pmr := NewProtobufMessageReflection(&util_message.AllTheTypes{})
-	CheckRecord(t, pmr, `[{
-		"str":"",
-		"int32":0,
-		"int64":0,
-		"sint32":0,
-		"sin64":0,
-		"uint32":0,
-		"uint64":0,
-		"fixed32":0,
-		"fixed64":0,
-		"sfixed32":0,
-		"bool":false,
-		"bytes":null,
-		"double":0,
-		"enum":"OPTION_0",
-		"message":null,
-		"oneofmessage":{"field1":""},
-		"oneofstring":"",
-		"any": null,
-		"simple_map":[],
-		"complex_map":[],
-		"simple_list":[],
-		"complex_list":[]
-	}]`)
-}
-
-func TestExcludedNested(t *testing.T) {
-	msg := util_message.ExampleMessage{
-		Field1: "Example",
-	}
-	schema := `schema:
-  fields: 2
-    - simple_a: type=list<item: struct<field1: utf8>, nullable>, nullable
-    - simple_b: type=list<item: struct<field1: utf8>, nullable>, nullable`
-
-	simpleNested := util_message.SimpleNested{
-		SimpleA: []*util_message.ExampleMessage{&msg},
-		SimpleB: []*util_message.ExampleMessage{&msg},
-	}
-	pmr := NewProtobufMessageReflection(&simpleNested)
-	jsonStr := `[{ "simple_a":[{"field1":"Example"}], "simple_b":[{"field1":"Example"}] }]`
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	//exclude one value
-	simpleNested = util_message.SimpleNested{
-		SimpleA: []*util_message.ExampleMessage{&msg},
-	}
-	jsonStr = `[{ "simple_a":[{"field1":"Example"}], "simple_b":[]}]`
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	////exclude both values
-	simpleNested = util_message.SimpleNested{}
-	jsonStr = `[{ "simple_a":[], "simple_b":[] }]`
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	f := AllTheTypesNoAnyFixture()
-	schema = `schema:
-  fields: 2
-    - all_the_types_no_any_a: type=list<item: struct<str: utf8, int32: int32, int64: int64, sint32: int32, sin64: int64, uint32: uint32, uint64: uint64, fixed32: uint32, fixed64: uint64, sfixed32: int32, bool: bool, bytes: binary, double: float64, enum: dictionary<values=utf8, indices=int32, ordered=false>, message: struct<field1: utf8>, oneofstring: utf8, oneofmessage: struct<field1: utf8>, simple_map: map<int32, utf8, items_nullable>, complex_map: map<utf8, struct<field1: utf8>, items_nullable>, simple_list: list<item: utf8, nullable>, complex_list: list<item: struct<field1: utf8>, nullable>>, nullable>, nullable
-    - all_the_types_no_any_b: type=list<item: struct<str: utf8, int32: int32, int64: int64, sint32: int32, sin64: int64, uint32: uint32, uint64: uint64, fixed32: uint32, fixed64: uint64, sfixed32: int32, bool: bool, bytes: binary, double: float64, enum: dictionary<values=utf8, indices=int32, ordered=false>, message: struct<field1: utf8>, oneofstring: utf8, oneofmessage: struct<field1: utf8>, simple_map: map<int32, utf8, items_nullable>, complex_map: map<utf8, struct<field1: utf8>, items_nullable>, simple_list: list<item: utf8, nullable>, complex_list: list<item: struct<field1: utf8>, nullable>>, nullable>, nullable`
-
-	complexNested := util_message.ComplexNested{
-		AllTheTypesNoAnyA: []*util_message.AllTheTypesNoAny{f.msg.(*util_message.AllTheTypesNoAny)},
-		AllTheTypesNoAnyB: []*util_message.AllTheTypesNoAny{f.msg.(*util_message.AllTheTypesNoAny)},
-	}
-	jsonStr = fmt.Sprintf(`[{ "all_the_types_no_any_a": [%s], "all_the_types_no_any_b": [%s] }]`, f.jsonStr, f.jsonStr)
-	pmr = NewProtobufMessageReflection(&complexNested)
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	// exclude one value
-	complexNested = util_message.ComplexNested{
-		AllTheTypesNoAnyB: []*util_message.AllTheTypesNoAny{f.msg.(*util_message.AllTheTypesNoAny)},
-	}
-	jsonStr = fmt.Sprintf(`[{ "all_the_types_no_any_a": [], "all_the_types_no_any_b": [%s] }]`, f.jsonStr)
-	pmr = NewProtobufMessageReflection(&complexNested)
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	// exclude both values
-	complexNested = util_message.ComplexNested{}
-	jsonStr = `[{ "all_the_types_no_any_a": [], "all_the_types_no_any_b": [] }]`
-	pmr = NewProtobufMessageReflection(&complexNested)
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	schema = `schema:
-  fields: 2
-    - complex_nested: type=struct<all_the_types_no_any_a: list<item: struct<str: utf8, int32: int32, int64: int64, sint32: int32, sin64: int64, uint32: uint32, uint64: uint64, fixed32: uint32, fixed64: uint64, sfixed32: int32, bool: bool, bytes: binary, double: float64, enum: dictionary<values=utf8, indices=int32, ordered=false>, message: struct<field1: utf8>, oneofstring: utf8, oneofmessage: struct<field1: utf8>, simple_map: map<int32, utf8, items_nullable>, complex_map: map<utf8, struct<field1: utf8>, items_nullable>, simple_list: list<item: utf8, nullable>, complex_list: list<item: struct<field1: utf8>, nullable>>, nullable>, all_the_types_no_any_b: list<item: struct<str: utf8, int32: int32, int64: int64, sint32: int32, sin64: int64, uint32: uint32, uint64: uint64, fixed32: uint32, fixed64: uint64, sfixed32: int32, bool: bool, bytes: binary, double: float64, enum: dictionary<values=utf8, indices=int32, ordered=false>, message: struct<field1: utf8>, oneofstring: utf8, oneofmessage: struct<field1: utf8>, simple_map: map<int32, utf8, items_nullable>, complex_map: map<utf8, struct<field1: utf8>, items_nullable>, simple_list: list<item: utf8, nullable>, complex_list: list<item: struct<field1: utf8>, nullable>>, nullable>>, nullable
-    - simple_nested: type=struct<simple_a: list<item: struct<field1: utf8>, nullable>, simple_b: list<item: struct<field1: utf8>, nullable>>, nullable`
-
-	deepNested := util_message.DeepNested{
-		ComplexNested: &complexNested,
-		SimpleNested:  &simpleNested,
-	}
-	jsonStr = `[{ "simple_nested": {"simple_a":[], "simple_b":[]}, "complex_nested": {"all_the_types_no_any_a": [], "all_the_types_no_any_b": []} }]`
-	pmr = NewProtobufMessageReflection(&deepNested)
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	// exclude one value
-	deepNested = util_message.DeepNested{
-		ComplexNested: &complexNested,
-	}
-	jsonStr = `[{ "simple_nested": null, "complex_nested": {"all_the_types_no_any_a": [], "all_the_types_no_any_b": []} }]`
-	pmr = NewProtobufMessageReflection(&deepNested)
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-
-	// exclude both values
-	deepNested = util_message.DeepNested{}
-	pmr = NewProtobufMessageReflection(&deepNested)
-	jsonStr = `[{ "simple_nested": null, "complex_nested": null }]`
-	CheckSchema(t, pmr, schema)
-	CheckRecord(t, pmr, jsonStr)
-}
-
-type testProtobufReflection struct {
-	ProtobufFieldReflection
-}
-
-func (tpr testProtobufReflection) isNull() bool {
-	return false
-}
-
-func TestAppendValueOrNull(t *testing.T) {
-	unsupportedField := arrow.Field{Name: "Test", Type: arrow.FixedWidthTypes.Time32s}
-	schema := arrow.NewSchema([]arrow.Field{unsupportedField}, nil)
-	mem := memory.NewGoAllocator()
-	recordBuilder := array.NewRecordBuilder(mem, schema)
-	pmfr := ProtobufMessageFieldReflection{
-		protobufReflection: &testProtobufReflection{},
-		Field:              arrow.Field{Name: "Test", Type: arrow.FixedWidthTypes.Time32s},
-	}
-	got := pmfr.AppendValueOrNull(recordBuilder.Field(0), mem)
-	want := "not able to appendValueOrNull for type TIME32"
-	assert.EqualErrorf(t, got, want, "Error is: %v, want: %v", got, want)
-}
diff --git a/go/arrow/util/util_message/types.pb.go b/go/arrow/util/util_message/types.pb.go
deleted file mode 100644
index 6486b2cc87a09..0000000000000
--- a/go/arrow/util/util_message/types.pb.go
+++ /dev/null
@@ -1,1135 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Code generated by protoc-gen-go. DO NOT EDIT.
-// versions:
-// 	protoc-gen-go v1.31.0
-// 	protoc        v4.24.4
-// source: messages/types.proto
-
-package util_message
-
-import (
-	protoreflect "google.golang.org/protobuf/reflect/protoreflect"
-	protoimpl "google.golang.org/protobuf/runtime/protoimpl"
-	anypb "google.golang.org/protobuf/types/known/anypb"
-	reflect "reflect"
-	sync "sync"
-)
-
-const (
-	// Verify that this generated code is sufficiently up-to-date.
-	_ = protoimpl.EnforceVersion(20 - protoimpl.MinVersion)
-	// Verify that runtime/protoimpl is sufficiently up-to-date.
-	_ = protoimpl.EnforceVersion(protoimpl.MaxVersion - 20)
-)
-
-type AllTheTypes_ExampleEnum int32
-
-const (
-	AllTheTypes_OPTION_0 AllTheTypes_ExampleEnum = 0
-	AllTheTypes_OPTION_1 AllTheTypes_ExampleEnum = 1
-)
-
-// Enum value maps for AllTheTypes_ExampleEnum.
-var (
-	AllTheTypes_ExampleEnum_name = map[int32]string{
-		0: "OPTION_0",
-		1: "OPTION_1",
-	}
-	AllTheTypes_ExampleEnum_value = map[string]int32{
-		"OPTION_0": 0,
-		"OPTION_1": 1,
-	}
-)
-
-func (x AllTheTypes_ExampleEnum) Enum() *AllTheTypes_ExampleEnum {
-	p := new(AllTheTypes_ExampleEnum)
-	*p = x
-	return p
-}
-
-func (x AllTheTypes_ExampleEnum) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (AllTheTypes_ExampleEnum) Descriptor() protoreflect.EnumDescriptor {
-	return file_messages_types_proto_enumTypes[0].Descriptor()
-}
-
-func (AllTheTypes_ExampleEnum) Type() protoreflect.EnumType {
-	return &file_messages_types_proto_enumTypes[0]
-}
-
-func (x AllTheTypes_ExampleEnum) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use AllTheTypes_ExampleEnum.Descriptor instead.
-func (AllTheTypes_ExampleEnum) EnumDescriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{1, 0}
-}
-
-type AllTheTypesNoAny_ExampleEnum int32
-
-const (
-	AllTheTypesNoAny_OPTION_0 AllTheTypesNoAny_ExampleEnum = 0
-	AllTheTypesNoAny_OPTION_1 AllTheTypesNoAny_ExampleEnum = 1
-)
-
-// Enum value maps for AllTheTypesNoAny_ExampleEnum.
-var (
-	AllTheTypesNoAny_ExampleEnum_name = map[int32]string{
-		0: "OPTION_0",
-		1: "OPTION_1",
-	}
-	AllTheTypesNoAny_ExampleEnum_value = map[string]int32{
-		"OPTION_0": 0,
-		"OPTION_1": 1,
-	}
-)
-
-func (x AllTheTypesNoAny_ExampleEnum) Enum() *AllTheTypesNoAny_ExampleEnum {
-	p := new(AllTheTypesNoAny_ExampleEnum)
-	*p = x
-	return p
-}
-
-func (x AllTheTypesNoAny_ExampleEnum) String() string {
-	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
-}
-
-func (AllTheTypesNoAny_ExampleEnum) Descriptor() protoreflect.EnumDescriptor {
-	return file_messages_types_proto_enumTypes[1].Descriptor()
-}
-
-func (AllTheTypesNoAny_ExampleEnum) Type() protoreflect.EnumType {
-	return &file_messages_types_proto_enumTypes[1]
-}
-
-func (x AllTheTypesNoAny_ExampleEnum) Number() protoreflect.EnumNumber {
-	return protoreflect.EnumNumber(x)
-}
-
-// Deprecated: Use AllTheTypesNoAny_ExampleEnum.Descriptor instead.
-func (AllTheTypesNoAny_ExampleEnum) EnumDescriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{2, 0}
-}
-
-type ExampleMessage struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Field1 string `protobuf:"bytes,1,opt,name=field1,proto3" json:"field1,omitempty"`
-}
-
-func (x *ExampleMessage) Reset() {
-	*x = ExampleMessage{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_messages_types_proto_msgTypes[0]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ExampleMessage) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ExampleMessage) ProtoMessage() {}
-
-func (x *ExampleMessage) ProtoReflect() protoreflect.Message {
-	mi := &file_messages_types_proto_msgTypes[0]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ExampleMessage.ProtoReflect.Descriptor instead.
-func (*ExampleMessage) Descriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{0}
-}
-
-func (x *ExampleMessage) GetField1() string {
-	if x != nil {
-		return x.Field1
-	}
-	return ""
-}
-
-type AllTheTypes struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Str      string                  `protobuf:"bytes,1,opt,name=str,proto3" json:"str,omitempty"`
-	Int32    int32                   `protobuf:"varint,2,opt,name=int32,proto3" json:"int32,omitempty"`
-	Int64    int64                   `protobuf:"varint,3,opt,name=int64,proto3" json:"int64,omitempty"`
-	Sint32   int32                   `protobuf:"zigzag32,4,opt,name=sint32,proto3" json:"sint32,omitempty"`
-	Sin64    int64                   `protobuf:"zigzag64,5,opt,name=sin64,proto3" json:"sin64,omitempty"`
-	Uint32   uint32                  `protobuf:"varint,6,opt,name=uint32,proto3" json:"uint32,omitempty"`
-	Uint64   uint64                  `protobuf:"varint,7,opt,name=uint64,proto3" json:"uint64,omitempty"`
-	Fixed32  uint32                  `protobuf:"fixed32,8,opt,name=fixed32,proto3" json:"fixed32,omitempty"`
-	Fixed64  uint64                  `protobuf:"fixed64,9,opt,name=fixed64,proto3" json:"fixed64,omitempty"`
-	Sfixed32 int32                   `protobuf:"fixed32,10,opt,name=sfixed32,proto3" json:"sfixed32,omitempty"`
-	Bool     bool                    `protobuf:"varint,11,opt,name=bool,proto3" json:"bool,omitempty"`
-	Bytes    []byte                  `protobuf:"bytes,12,opt,name=bytes,proto3" json:"bytes,omitempty"`
-	Double   float64                 `protobuf:"fixed64,13,opt,name=double,proto3" json:"double,omitempty"`
-	Enum     AllTheTypes_ExampleEnum `protobuf:"varint,14,opt,name=enum,proto3,enum=AllTheTypes_ExampleEnum" json:"enum,omitempty"`
-	Message  *ExampleMessage         `protobuf:"bytes,15,opt,name=message,proto3" json:"message,omitempty"`
-	// Types that are assignable to Oneof:
-	//
-	//	*AllTheTypes_Oneofstring
-	//	*AllTheTypes_Oneofmessage
-	Oneof       isAllTheTypes_Oneof        `protobuf_oneof:"oneof"`
-	Any         *anypb.Any                 `protobuf:"bytes,18,opt,name=any,proto3" json:"any,omitempty"`
-	SimpleMap   map[int32]string           `protobuf:"bytes,19,rep,name=simple_map,json=simpleMap,proto3" json:"simple_map,omitempty" protobuf_key:"varint,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-	ComplexMap  map[string]*ExampleMessage `protobuf:"bytes,20,rep,name=complex_map,json=complexMap,proto3" json:"complex_map,omitempty" protobuf_key:"bytes,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-	SimpleList  []string                   `protobuf:"bytes,21,rep,name=simple_list,json=simpleList,proto3" json:"simple_list,omitempty"`
-	ComplexList []*ExampleMessage          `protobuf:"bytes,22,rep,name=complex_list,json=complexList,proto3" json:"complex_list,omitempty"`
-}
-
-func (x *AllTheTypes) Reset() {
-	*x = AllTheTypes{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_messages_types_proto_msgTypes[1]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *AllTheTypes) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*AllTheTypes) ProtoMessage() {}
-
-func (x *AllTheTypes) ProtoReflect() protoreflect.Message {
-	mi := &file_messages_types_proto_msgTypes[1]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use AllTheTypes.ProtoReflect.Descriptor instead.
-func (*AllTheTypes) Descriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{1}
-}
-
-func (x *AllTheTypes) GetStr() string {
-	if x != nil {
-		return x.Str
-	}
-	return ""
-}
-
-func (x *AllTheTypes) GetInt32() int32 {
-	if x != nil {
-		return x.Int32
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetInt64() int64 {
-	if x != nil {
-		return x.Int64
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetSint32() int32 {
-	if x != nil {
-		return x.Sint32
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetSin64() int64 {
-	if x != nil {
-		return x.Sin64
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetUint32() uint32 {
-	if x != nil {
-		return x.Uint32
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetUint64() uint64 {
-	if x != nil {
-		return x.Uint64
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetFixed32() uint32 {
-	if x != nil {
-		return x.Fixed32
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetFixed64() uint64 {
-	if x != nil {
-		return x.Fixed64
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetSfixed32() int32 {
-	if x != nil {
-		return x.Sfixed32
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetBool() bool {
-	if x != nil {
-		return x.Bool
-	}
-	return false
-}
-
-func (x *AllTheTypes) GetBytes() []byte {
-	if x != nil {
-		return x.Bytes
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetDouble() float64 {
-	if x != nil {
-		return x.Double
-	}
-	return 0
-}
-
-func (x *AllTheTypes) GetEnum() AllTheTypes_ExampleEnum {
-	if x != nil {
-		return x.Enum
-	}
-	return AllTheTypes_OPTION_0
-}
-
-func (x *AllTheTypes) GetMessage() *ExampleMessage {
-	if x != nil {
-		return x.Message
-	}
-	return nil
-}
-
-func (m *AllTheTypes) GetOneof() isAllTheTypes_Oneof {
-	if m != nil {
-		return m.Oneof
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetOneofstring() string {
-	if x, ok := x.GetOneof().(*AllTheTypes_Oneofstring); ok {
-		return x.Oneofstring
-	}
-	return ""
-}
-
-func (x *AllTheTypes) GetOneofmessage() *ExampleMessage {
-	if x, ok := x.GetOneof().(*AllTheTypes_Oneofmessage); ok {
-		return x.Oneofmessage
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetAny() *anypb.Any {
-	if x != nil {
-		return x.Any
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetSimpleMap() map[int32]string {
-	if x != nil {
-		return x.SimpleMap
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetComplexMap() map[string]*ExampleMessage {
-	if x != nil {
-		return x.ComplexMap
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetSimpleList() []string {
-	if x != nil {
-		return x.SimpleList
-	}
-	return nil
-}
-
-func (x *AllTheTypes) GetComplexList() []*ExampleMessage {
-	if x != nil {
-		return x.ComplexList
-	}
-	return nil
-}
-
-type isAllTheTypes_Oneof interface {
-	isAllTheTypes_Oneof()
-}
-
-type AllTheTypes_Oneofstring struct {
-	Oneofstring string `protobuf:"bytes,16,opt,name=oneofstring,proto3,oneof"`
-}
-
-type AllTheTypes_Oneofmessage struct {
-	Oneofmessage *ExampleMessage `protobuf:"bytes,17,opt,name=oneofmessage,proto3,oneof"`
-}
-
-func (*AllTheTypes_Oneofstring) isAllTheTypes_Oneof() {}
-
-func (*AllTheTypes_Oneofmessage) isAllTheTypes_Oneof() {}
-
-type AllTheTypesNoAny struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	Str      string                       `protobuf:"bytes,1,opt,name=str,proto3" json:"str,omitempty"`
-	Int32    int32                        `protobuf:"varint,2,opt,name=int32,proto3" json:"int32,omitempty"`
-	Int64    int64                        `protobuf:"varint,3,opt,name=int64,proto3" json:"int64,omitempty"`
-	Sint32   int32                        `protobuf:"zigzag32,4,opt,name=sint32,proto3" json:"sint32,omitempty"`
-	Sin64    int64                        `protobuf:"zigzag64,5,opt,name=sin64,proto3" json:"sin64,omitempty"`
-	Uint32   uint32                       `protobuf:"varint,6,opt,name=uint32,proto3" json:"uint32,omitempty"`
-	Uint64   uint64                       `protobuf:"varint,7,opt,name=uint64,proto3" json:"uint64,omitempty"`
-	Fixed32  uint32                       `protobuf:"fixed32,8,opt,name=fixed32,proto3" json:"fixed32,omitempty"`
-	Fixed64  uint64                       `protobuf:"fixed64,9,opt,name=fixed64,proto3" json:"fixed64,omitempty"`
-	Sfixed32 int32                        `protobuf:"fixed32,10,opt,name=sfixed32,proto3" json:"sfixed32,omitempty"`
-	Bool     bool                         `protobuf:"varint,11,opt,name=bool,proto3" json:"bool,omitempty"`
-	Bytes    []byte                       `protobuf:"bytes,12,opt,name=bytes,proto3" json:"bytes,omitempty"`
-	Double   float64                      `protobuf:"fixed64,13,opt,name=double,proto3" json:"double,omitempty"`
-	Enum     AllTheTypesNoAny_ExampleEnum `protobuf:"varint,14,opt,name=enum,proto3,enum=AllTheTypesNoAny_ExampleEnum" json:"enum,omitempty"`
-	Message  *ExampleMessage              `protobuf:"bytes,15,opt,name=message,proto3" json:"message,omitempty"`
-	// Types that are assignable to Oneof:
-	//
-	//	*AllTheTypesNoAny_Oneofstring
-	//	*AllTheTypesNoAny_Oneofmessage
-	Oneof       isAllTheTypesNoAny_Oneof   `protobuf_oneof:"oneof"`
-	SimpleMap   map[int32]string           `protobuf:"bytes,19,rep,name=simple_map,json=simpleMap,proto3" json:"simple_map,omitempty" protobuf_key:"varint,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-	ComplexMap  map[string]*ExampleMessage `protobuf:"bytes,20,rep,name=complex_map,json=complexMap,proto3" json:"complex_map,omitempty" protobuf_key:"bytes,1,opt,name=key,proto3" protobuf_val:"bytes,2,opt,name=value,proto3"`
-	SimpleList  []string                   `protobuf:"bytes,21,rep,name=simple_list,json=simpleList,proto3" json:"simple_list,omitempty"`
-	ComplexList []*ExampleMessage          `protobuf:"bytes,22,rep,name=complex_list,json=complexList,proto3" json:"complex_list,omitempty"`
-}
-
-func (x *AllTheTypesNoAny) Reset() {
-	*x = AllTheTypesNoAny{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_messages_types_proto_msgTypes[2]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *AllTheTypesNoAny) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*AllTheTypesNoAny) ProtoMessage() {}
-
-func (x *AllTheTypesNoAny) ProtoReflect() protoreflect.Message {
-	mi := &file_messages_types_proto_msgTypes[2]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use AllTheTypesNoAny.ProtoReflect.Descriptor instead.
-func (*AllTheTypesNoAny) Descriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{2}
-}
-
-func (x *AllTheTypesNoAny) GetStr() string {
-	if x != nil {
-		return x.Str
-	}
-	return ""
-}
-
-func (x *AllTheTypesNoAny) GetInt32() int32 {
-	if x != nil {
-		return x.Int32
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetInt64() int64 {
-	if x != nil {
-		return x.Int64
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetSint32() int32 {
-	if x != nil {
-		return x.Sint32
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetSin64() int64 {
-	if x != nil {
-		return x.Sin64
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetUint32() uint32 {
-	if x != nil {
-		return x.Uint32
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetUint64() uint64 {
-	if x != nil {
-		return x.Uint64
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetFixed32() uint32 {
-	if x != nil {
-		return x.Fixed32
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetFixed64() uint64 {
-	if x != nil {
-		return x.Fixed64
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetSfixed32() int32 {
-	if x != nil {
-		return x.Sfixed32
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetBool() bool {
-	if x != nil {
-		return x.Bool
-	}
-	return false
-}
-
-func (x *AllTheTypesNoAny) GetBytes() []byte {
-	if x != nil {
-		return x.Bytes
-	}
-	return nil
-}
-
-func (x *AllTheTypesNoAny) GetDouble() float64 {
-	if x != nil {
-		return x.Double
-	}
-	return 0
-}
-
-func (x *AllTheTypesNoAny) GetEnum() AllTheTypesNoAny_ExampleEnum {
-	if x != nil {
-		return x.Enum
-	}
-	return AllTheTypesNoAny_OPTION_0
-}
-
-func (x *AllTheTypesNoAny) GetMessage() *ExampleMessage {
-	if x != nil {
-		return x.Message
-	}
-	return nil
-}
-
-func (m *AllTheTypesNoAny) GetOneof() isAllTheTypesNoAny_Oneof {
-	if m != nil {
-		return m.Oneof
-	}
-	return nil
-}
-
-func (x *AllTheTypesNoAny) GetOneofstring() string {
-	if x, ok := x.GetOneof().(*AllTheTypesNoAny_Oneofstring); ok {
-		return x.Oneofstring
-	}
-	return ""
-}
-
-func (x *AllTheTypesNoAny) GetOneofmessage() *ExampleMessage {
-	if x, ok := x.GetOneof().(*AllTheTypesNoAny_Oneofmessage); ok {
-		return x.Oneofmessage
-	}
-	return nil
-}
-
-func (x *AllTheTypesNoAny) GetSimpleMap() map[int32]string {
-	if x != nil {
-		return x.SimpleMap
-	}
-	return nil
-}
-
-func (x *AllTheTypesNoAny) GetComplexMap() map[string]*ExampleMessage {
-	if x != nil {
-		return x.ComplexMap
-	}
-	return nil
-}
-
-func (x *AllTheTypesNoAny) GetSimpleList() []string {
-	if x != nil {
-		return x.SimpleList
-	}
-	return nil
-}
-
-func (x *AllTheTypesNoAny) GetComplexList() []*ExampleMessage {
-	if x != nil {
-		return x.ComplexList
-	}
-	return nil
-}
-
-type isAllTheTypesNoAny_Oneof interface {
-	isAllTheTypesNoAny_Oneof()
-}
-
-type AllTheTypesNoAny_Oneofstring struct {
-	Oneofstring string `protobuf:"bytes,16,opt,name=oneofstring,proto3,oneof"`
-}
-
-type AllTheTypesNoAny_Oneofmessage struct {
-	Oneofmessage *ExampleMessage `protobuf:"bytes,17,opt,name=oneofmessage,proto3,oneof"`
-}
-
-func (*AllTheTypesNoAny_Oneofstring) isAllTheTypesNoAny_Oneof() {}
-
-func (*AllTheTypesNoAny_Oneofmessage) isAllTheTypesNoAny_Oneof() {}
-
-type SimpleNested struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	SimpleA []*ExampleMessage `protobuf:"bytes,1,rep,name=simple_a,json=simpleA,proto3" json:"simple_a,omitempty"`
-	SimpleB []*ExampleMessage `protobuf:"bytes,2,rep,name=simple_b,json=simpleB,proto3" json:"simple_b,omitempty"`
-}
-
-func (x *SimpleNested) Reset() {
-	*x = SimpleNested{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_messages_types_proto_msgTypes[3]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *SimpleNested) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*SimpleNested) ProtoMessage() {}
-
-func (x *SimpleNested) ProtoReflect() protoreflect.Message {
-	mi := &file_messages_types_proto_msgTypes[3]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use SimpleNested.ProtoReflect.Descriptor instead.
-func (*SimpleNested) Descriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{3}
-}
-
-func (x *SimpleNested) GetSimpleA() []*ExampleMessage {
-	if x != nil {
-		return x.SimpleA
-	}
-	return nil
-}
-
-func (x *SimpleNested) GetSimpleB() []*ExampleMessage {
-	if x != nil {
-		return x.SimpleB
-	}
-	return nil
-}
-
-type ComplexNested struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	AllTheTypesNoAnyA []*AllTheTypesNoAny `protobuf:"bytes,1,rep,name=all_the_types_no_any_a,json=allTheTypesNoAnyA,proto3" json:"all_the_types_no_any_a,omitempty"`
-	AllTheTypesNoAnyB []*AllTheTypesNoAny `protobuf:"bytes,2,rep,name=all_the_types_no_any_b,json=allTheTypesNoAnyB,proto3" json:"all_the_types_no_any_b,omitempty"`
-}
-
-func (x *ComplexNested) Reset() {
-	*x = ComplexNested{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_messages_types_proto_msgTypes[4]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *ComplexNested) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*ComplexNested) ProtoMessage() {}
-
-func (x *ComplexNested) ProtoReflect() protoreflect.Message {
-	mi := &file_messages_types_proto_msgTypes[4]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use ComplexNested.ProtoReflect.Descriptor instead.
-func (*ComplexNested) Descriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{4}
-}
-
-func (x *ComplexNested) GetAllTheTypesNoAnyA() []*AllTheTypesNoAny {
-	if x != nil {
-		return x.AllTheTypesNoAnyA
-	}
-	return nil
-}
-
-func (x *ComplexNested) GetAllTheTypesNoAnyB() []*AllTheTypesNoAny {
-	if x != nil {
-		return x.AllTheTypesNoAnyB
-	}
-	return nil
-}
-
-type DeepNested struct {
-	state         protoimpl.MessageState
-	sizeCache     protoimpl.SizeCache
-	unknownFields protoimpl.UnknownFields
-
-	ComplexNested *ComplexNested `protobuf:"bytes,1,opt,name=complex_nested,json=complexNested,proto3" json:"complex_nested,omitempty"`
-	SimpleNested  *SimpleNested  `protobuf:"bytes,2,opt,name=simple_nested,json=simpleNested,proto3" json:"simple_nested,omitempty"`
-}
-
-func (x *DeepNested) Reset() {
-	*x = DeepNested{}
-	if protoimpl.UnsafeEnabled {
-		mi := &file_messages_types_proto_msgTypes[5]
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		ms.StoreMessageInfo(mi)
-	}
-}
-
-func (x *DeepNested) String() string {
-	return protoimpl.X.MessageStringOf(x)
-}
-
-func (*DeepNested) ProtoMessage() {}
-
-func (x *DeepNested) ProtoReflect() protoreflect.Message {
-	mi := &file_messages_types_proto_msgTypes[5]
-	if protoimpl.UnsafeEnabled && x != nil {
-		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
-		if ms.LoadMessageInfo() == nil {
-			ms.StoreMessageInfo(mi)
-		}
-		return ms
-	}
-	return mi.MessageOf(x)
-}
-
-// Deprecated: Use DeepNested.ProtoReflect.Descriptor instead.
-func (*DeepNested) Descriptor() ([]byte, []int) {
-	return file_messages_types_proto_rawDescGZIP(), []int{5}
-}
-
-func (x *DeepNested) GetComplexNested() *ComplexNested {
-	if x != nil {
-		return x.ComplexNested
-	}
-	return nil
-}
-
-func (x *DeepNested) GetSimpleNested() *SimpleNested {
-	if x != nil {
-		return x.SimpleNested
-	}
-	return nil
-}
-
-var File_messages_types_proto protoreflect.FileDescriptor
-
-var file_messages_types_proto_rawDesc = []byte{
-	0x0a, 0x14, 0x6d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x73, 0x2f, 0x74, 0x79, 0x70, 0x65, 0x73,
-	0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x1a, 0x19, 0x67, 0x6f, 0x6f, 0x67, 0x6c, 0x65, 0x2f, 0x70,
-	0x72, 0x6f, 0x74, 0x6f, 0x62, 0x75, 0x66, 0x2f, 0x61, 0x6e, 0x79, 0x2e, 0x70, 0x72, 0x6f, 0x74,
-	0x6f, 0x22, 0x28, 0x0a, 0x0e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73,
-	0x61, 0x67, 0x65, 0x12, 0x16, 0x0a, 0x06, 0x66, 0x69, 0x65, 0x6c, 0x64, 0x31, 0x18, 0x01, 0x20,
-	0x01, 0x28, 0x09, 0x52, 0x06, 0x66, 0x69, 0x65, 0x6c, 0x64, 0x31, 0x22, 0xa9, 0x07, 0x0a, 0x0b,
-	0x41, 0x6c, 0x6c, 0x54, 0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x12, 0x10, 0x0a, 0x03, 0x73,
-	0x74, 0x72, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x03, 0x73, 0x74, 0x72, 0x12, 0x14, 0x0a,
-	0x05, 0x69, 0x6e, 0x74, 0x33, 0x32, 0x18, 0x02, 0x20, 0x01, 0x28, 0x05, 0x52, 0x05, 0x69, 0x6e,
-	0x74, 0x33, 0x32, 0x12, 0x14, 0x0a, 0x05, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x18, 0x03, 0x20, 0x01,
-	0x28, 0x03, 0x52, 0x05, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x12, 0x16, 0x0a, 0x06, 0x73, 0x69, 0x6e,
-	0x74, 0x33, 0x32, 0x18, 0x04, 0x20, 0x01, 0x28, 0x11, 0x52, 0x06, 0x73, 0x69, 0x6e, 0x74, 0x33,
-	0x32, 0x12, 0x14, 0x0a, 0x05, 0x73, 0x69, 0x6e, 0x36, 0x34, 0x18, 0x05, 0x20, 0x01, 0x28, 0x12,
-	0x52, 0x05, 0x73, 0x69, 0x6e, 0x36, 0x34, 0x12, 0x16, 0x0a, 0x06, 0x75, 0x69, 0x6e, 0x74, 0x33,
-	0x32, 0x18, 0x06, 0x20, 0x01, 0x28, 0x0d, 0x52, 0x06, 0x75, 0x69, 0x6e, 0x74, 0x33, 0x32, 0x12,
-	0x16, 0x0a, 0x06, 0x75, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x18, 0x07, 0x20, 0x01, 0x28, 0x04, 0x52,
-	0x06, 0x75, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x12, 0x18, 0x0a, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64,
-	0x33, 0x32, 0x18, 0x08, 0x20, 0x01, 0x28, 0x07, 0x52, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64, 0x33,
-	0x32, 0x12, 0x18, 0x0a, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64, 0x36, 0x34, 0x18, 0x09, 0x20, 0x01,
-	0x28, 0x06, 0x52, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64, 0x36, 0x34, 0x12, 0x1a, 0x0a, 0x08, 0x73,
-	0x66, 0x69, 0x78, 0x65, 0x64, 0x33, 0x32, 0x18, 0x0a, 0x20, 0x01, 0x28, 0x0f, 0x52, 0x08, 0x73,
-	0x66, 0x69, 0x78, 0x65, 0x64, 0x33, 0x32, 0x12, 0x12, 0x0a, 0x04, 0x62, 0x6f, 0x6f, 0x6c, 0x18,
-	0x0b, 0x20, 0x01, 0x28, 0x08, 0x52, 0x04, 0x62, 0x6f, 0x6f, 0x6c, 0x12, 0x14, 0x0a, 0x05, 0x62,
-	0x79, 0x74, 0x65, 0x73, 0x18, 0x0c, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x05, 0x62, 0x79, 0x74, 0x65,
-	0x73, 0x12, 0x16, 0x0a, 0x06, 0x64, 0x6f, 0x75, 0x62, 0x6c, 0x65, 0x18, 0x0d, 0x20, 0x01, 0x28,
-	0x01, 0x52, 0x06, 0x64, 0x6f, 0x75, 0x62, 0x6c, 0x65, 0x12, 0x2c, 0x0a, 0x04, 0x65, 0x6e, 0x75,
-	0x6d, 0x18, 0x0e, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x18, 0x2e, 0x41, 0x6c, 0x6c, 0x54, 0x68, 0x65,
-	0x54, 0x79, 0x70, 0x65, 0x73, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x45, 0x6e, 0x75,
-	0x6d, 0x52, 0x04, 0x65, 0x6e, 0x75, 0x6d, 0x12, 0x29, 0x0a, 0x07, 0x6d, 0x65, 0x73, 0x73, 0x61,
-	0x67, 0x65, 0x18, 0x0f, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70,
-	0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x52, 0x07, 0x6d, 0x65, 0x73, 0x73, 0x61,
-	0x67, 0x65, 0x12, 0x22, 0x0a, 0x0b, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x73, 0x74, 0x72, 0x69, 0x6e,
-	0x67, 0x18, 0x10, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x0b, 0x6f, 0x6e, 0x65, 0x6f, 0x66,
-	0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x12, 0x35, 0x0a, 0x0c, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x6d,
-	0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x18, 0x11, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x0f, 0x2e, 0x45,
-	0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x48, 0x00, 0x52,
-	0x0c, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x6d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x12, 0x26, 0x0a,
-	0x03, 0x61, 0x6e, 0x79, 0x18, 0x12, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x14, 0x2e, 0x67, 0x6f, 0x6f,
-	0x67, 0x6c, 0x65, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x62, 0x75, 0x66, 0x2e, 0x41, 0x6e, 0x79,
-	0x52, 0x03, 0x61, 0x6e, 0x79, 0x12, 0x3a, 0x0a, 0x0a, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x5f,
-	0x6d, 0x61, 0x70, 0x18, 0x13, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x1b, 0x2e, 0x41, 0x6c, 0x6c, 0x54,
-	0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x2e, 0x53, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x61,
-	0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x52, 0x09, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x61,
-	0x70, 0x12, 0x3d, 0x0a, 0x0b, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x5f, 0x6d, 0x61, 0x70,
-	0x18, 0x14, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x1c, 0x2e, 0x41, 0x6c, 0x6c, 0x54, 0x68, 0x65, 0x54,
-	0x79, 0x70, 0x65, 0x73, 0x2e, 0x43, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4d, 0x61, 0x70, 0x45,
-	0x6e, 0x74, 0x72, 0x79, 0x52, 0x0a, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4d, 0x61, 0x70,
-	0x12, 0x1f, 0x0a, 0x0b, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x5f, 0x6c, 0x69, 0x73, 0x74, 0x18,
-	0x15, 0x20, 0x03, 0x28, 0x09, 0x52, 0x0a, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4c, 0x69, 0x73,
-	0x74, 0x12, 0x32, 0x0a, 0x0c, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x5f, 0x6c, 0x69, 0x73,
-	0x74, 0x18, 0x16, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c,
-	0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x52, 0x0b, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65,
-	0x78, 0x4c, 0x69, 0x73, 0x74, 0x1a, 0x3c, 0x0a, 0x0e, 0x53, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4d,
-	0x61, 0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x12, 0x10, 0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01,
-	0x20, 0x01, 0x28, 0x05, 0x52, 0x03, 0x6b, 0x65, 0x79, 0x12, 0x14, 0x0a, 0x05, 0x76, 0x61, 0x6c,
-	0x75, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x3a,
-	0x02, 0x38, 0x01, 0x1a, 0x4e, 0x0a, 0x0f, 0x43, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4d, 0x61,
-	0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x12, 0x10, 0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01, 0x20,
-	0x01, 0x28, 0x09, 0x52, 0x03, 0x6b, 0x65, 0x79, 0x12, 0x25, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75,
-	0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c,
-	0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x52, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x3a,
-	0x02, 0x38, 0x01, 0x22, 0x29, 0x0a, 0x0b, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x45, 0x6e,
-	0x75, 0x6d, 0x12, 0x0c, 0x0a, 0x08, 0x4f, 0x50, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x30, 0x10, 0x00,
-	0x12, 0x0c, 0x0a, 0x08, 0x4f, 0x50, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x31, 0x10, 0x01, 0x42, 0x07,
-	0x0a, 0x05, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x22, 0x95, 0x07, 0x0a, 0x10, 0x41, 0x6c, 0x6c, 0x54,
-	0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41, 0x6e, 0x79, 0x12, 0x10, 0x0a, 0x03,
-	0x73, 0x74, 0x72, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x03, 0x73, 0x74, 0x72, 0x12, 0x14,
-	0x0a, 0x05, 0x69, 0x6e, 0x74, 0x33, 0x32, 0x18, 0x02, 0x20, 0x01, 0x28, 0x05, 0x52, 0x05, 0x69,
-	0x6e, 0x74, 0x33, 0x32, 0x12, 0x14, 0x0a, 0x05, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x18, 0x03, 0x20,
-	0x01, 0x28, 0x03, 0x52, 0x05, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x12, 0x16, 0x0a, 0x06, 0x73, 0x69,
-	0x6e, 0x74, 0x33, 0x32, 0x18, 0x04, 0x20, 0x01, 0x28, 0x11, 0x52, 0x06, 0x73, 0x69, 0x6e, 0x74,
-	0x33, 0x32, 0x12, 0x14, 0x0a, 0x05, 0x73, 0x69, 0x6e, 0x36, 0x34, 0x18, 0x05, 0x20, 0x01, 0x28,
-	0x12, 0x52, 0x05, 0x73, 0x69, 0x6e, 0x36, 0x34, 0x12, 0x16, 0x0a, 0x06, 0x75, 0x69, 0x6e, 0x74,
-	0x33, 0x32, 0x18, 0x06, 0x20, 0x01, 0x28, 0x0d, 0x52, 0x06, 0x75, 0x69, 0x6e, 0x74, 0x33, 0x32,
-	0x12, 0x16, 0x0a, 0x06, 0x75, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x18, 0x07, 0x20, 0x01, 0x28, 0x04,
-	0x52, 0x06, 0x75, 0x69, 0x6e, 0x74, 0x36, 0x34, 0x12, 0x18, 0x0a, 0x07, 0x66, 0x69, 0x78, 0x65,
-	0x64, 0x33, 0x32, 0x18, 0x08, 0x20, 0x01, 0x28, 0x07, 0x52, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64,
-	0x33, 0x32, 0x12, 0x18, 0x0a, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64, 0x36, 0x34, 0x18, 0x09, 0x20,
-	0x01, 0x28, 0x06, 0x52, 0x07, 0x66, 0x69, 0x78, 0x65, 0x64, 0x36, 0x34, 0x12, 0x1a, 0x0a, 0x08,
-	0x73, 0x66, 0x69, 0x78, 0x65, 0x64, 0x33, 0x32, 0x18, 0x0a, 0x20, 0x01, 0x28, 0x0f, 0x52, 0x08,
-	0x73, 0x66, 0x69, 0x78, 0x65, 0x64, 0x33, 0x32, 0x12, 0x12, 0x0a, 0x04, 0x62, 0x6f, 0x6f, 0x6c,
-	0x18, 0x0b, 0x20, 0x01, 0x28, 0x08, 0x52, 0x04, 0x62, 0x6f, 0x6f, 0x6c, 0x12, 0x14, 0x0a, 0x05,
-	0x62, 0x79, 0x74, 0x65, 0x73, 0x18, 0x0c, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x05, 0x62, 0x79, 0x74,
-	0x65, 0x73, 0x12, 0x16, 0x0a, 0x06, 0x64, 0x6f, 0x75, 0x62, 0x6c, 0x65, 0x18, 0x0d, 0x20, 0x01,
-	0x28, 0x01, 0x52, 0x06, 0x64, 0x6f, 0x75, 0x62, 0x6c, 0x65, 0x12, 0x31, 0x0a, 0x04, 0x65, 0x6e,
-	0x75, 0x6d, 0x18, 0x0e, 0x20, 0x01, 0x28, 0x0e, 0x32, 0x1d, 0x2e, 0x41, 0x6c, 0x6c, 0x54, 0x68,
-	0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41, 0x6e, 0x79, 0x2e, 0x45, 0x78, 0x61, 0x6d,
-	0x70, 0x6c, 0x65, 0x45, 0x6e, 0x75, 0x6d, 0x52, 0x04, 0x65, 0x6e, 0x75, 0x6d, 0x12, 0x29, 0x0a,
-	0x07, 0x6d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x18, 0x0f, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x0f,
-	0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x52,
-	0x07, 0x6d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x12, 0x22, 0x0a, 0x0b, 0x6f, 0x6e, 0x65, 0x6f,
-	0x66, 0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x18, 0x10, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52,
-	0x0b, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x73, 0x74, 0x72, 0x69, 0x6e, 0x67, 0x12, 0x35, 0x0a, 0x0c,
-	0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x6d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x18, 0x11, 0x20, 0x01,
-	0x28, 0x0b, 0x32, 0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73,
-	0x61, 0x67, 0x65, 0x48, 0x00, 0x52, 0x0c, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x6d, 0x65, 0x73, 0x73,
-	0x61, 0x67, 0x65, 0x12, 0x3f, 0x0a, 0x0a, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x5f, 0x6d, 0x61,
-	0x70, 0x18, 0x13, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x20, 0x2e, 0x41, 0x6c, 0x6c, 0x54, 0x68, 0x65,
-	0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41, 0x6e, 0x79, 0x2e, 0x53, 0x69, 0x6d, 0x70, 0x6c,
-	0x65, 0x4d, 0x61, 0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x52, 0x09, 0x73, 0x69, 0x6d, 0x70, 0x6c,
-	0x65, 0x4d, 0x61, 0x70, 0x12, 0x42, 0x0a, 0x0b, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x5f,
-	0x6d, 0x61, 0x70, 0x18, 0x14, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x21, 0x2e, 0x41, 0x6c, 0x6c, 0x54,
-	0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41, 0x6e, 0x79, 0x2e, 0x43, 0x6f, 0x6d,
-	0x70, 0x6c, 0x65, 0x78, 0x4d, 0x61, 0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x52, 0x0a, 0x63, 0x6f,
-	0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4d, 0x61, 0x70, 0x12, 0x1f, 0x0a, 0x0b, 0x73, 0x69, 0x6d, 0x70,
-	0x6c, 0x65, 0x5f, 0x6c, 0x69, 0x73, 0x74, 0x18, 0x15, 0x20, 0x03, 0x28, 0x09, 0x52, 0x0a, 0x73,
-	0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4c, 0x69, 0x73, 0x74, 0x12, 0x32, 0x0a, 0x0c, 0x63, 0x6f, 0x6d,
-	0x70, 0x6c, 0x65, 0x78, 0x5f, 0x6c, 0x69, 0x73, 0x74, 0x18, 0x16, 0x20, 0x03, 0x28, 0x0b, 0x32,
-	0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65,
-	0x52, 0x0b, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4c, 0x69, 0x73, 0x74, 0x1a, 0x3c, 0x0a,
-	0x0e, 0x53, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x61, 0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x12,
-	0x10, 0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x05, 0x52, 0x03, 0x6b, 0x65,
-	0x79, 0x12, 0x14, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09,
-	0x52, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x3a, 0x02, 0x38, 0x01, 0x1a, 0x4e, 0x0a, 0x0f, 0x43,
-	0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4d, 0x61, 0x70, 0x45, 0x6e, 0x74, 0x72, 0x79, 0x12, 0x10,
-	0x0a, 0x03, 0x6b, 0x65, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x03, 0x6b, 0x65, 0x79,
-	0x12, 0x25, 0x0a, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0b, 0x32,
-	0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65,
-	0x52, 0x05, 0x76, 0x61, 0x6c, 0x75, 0x65, 0x3a, 0x02, 0x38, 0x01, 0x22, 0x29, 0x0a, 0x0b, 0x45,
-	0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x45, 0x6e, 0x75, 0x6d, 0x12, 0x0c, 0x0a, 0x08, 0x4f, 0x50,
-	0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x30, 0x10, 0x00, 0x12, 0x0c, 0x0a, 0x08, 0x4f, 0x50, 0x54, 0x49,
-	0x4f, 0x4e, 0x5f, 0x31, 0x10, 0x01, 0x42, 0x07, 0x0a, 0x05, 0x6f, 0x6e, 0x65, 0x6f, 0x66, 0x22,
-	0x66, 0x0a, 0x0c, 0x53, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4e, 0x65, 0x73, 0x74, 0x65, 0x64, 0x12,
-	0x2a, 0x0a, 0x08, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x5f, 0x61, 0x18, 0x01, 0x20, 0x03, 0x28,
-	0x0b, 0x32, 0x0f, 0x2e, 0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61,
-	0x67, 0x65, 0x52, 0x07, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x41, 0x12, 0x2a, 0x0a, 0x08, 0x73,
-	0x69, 0x6d, 0x70, 0x6c, 0x65, 0x5f, 0x62, 0x18, 0x02, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x0f, 0x2e,
-	0x45, 0x78, 0x61, 0x6d, 0x70, 0x6c, 0x65, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x52, 0x07,
-	0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x42, 0x22, 0x9b, 0x01, 0x0a, 0x0d, 0x43, 0x6f, 0x6d, 0x70,
-	0x6c, 0x65, 0x78, 0x4e, 0x65, 0x73, 0x74, 0x65, 0x64, 0x12, 0x44, 0x0a, 0x16, 0x61, 0x6c, 0x6c,
-	0x5f, 0x74, 0x68, 0x65, 0x5f, 0x74, 0x79, 0x70, 0x65, 0x73, 0x5f, 0x6e, 0x6f, 0x5f, 0x61, 0x6e,
-	0x79, 0x5f, 0x61, 0x18, 0x01, 0x20, 0x03, 0x28, 0x0b, 0x32, 0x11, 0x2e, 0x41, 0x6c, 0x6c, 0x54,
-	0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41, 0x6e, 0x79, 0x52, 0x11, 0x61, 0x6c,
-	0x6c, 0x54, 0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41, 0x6e, 0x79, 0x41, 0x12,
-	0x44, 0x0a, 0x16, 0x61, 0x6c, 0x6c, 0x5f, 0x74, 0x68, 0x65, 0x5f, 0x74, 0x79, 0x70, 0x65, 0x73,
-	0x5f, 0x6e, 0x6f, 0x5f, 0x61, 0x6e, 0x79, 0x5f, 0x62, 0x18, 0x02, 0x20, 0x03, 0x28, 0x0b, 0x32,
-	0x11, 0x2e, 0x41, 0x6c, 0x6c, 0x54, 0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e, 0x6f, 0x41,
-	0x6e, 0x79, 0x52, 0x11, 0x61, 0x6c, 0x6c, 0x54, 0x68, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x4e,
-	0x6f, 0x41, 0x6e, 0x79, 0x42, 0x22, 0x77, 0x0a, 0x0a, 0x44, 0x65, 0x65, 0x70, 0x4e, 0x65, 0x73,
-	0x74, 0x65, 0x64, 0x12, 0x35, 0x0a, 0x0e, 0x63, 0x6f, 0x6d, 0x70, 0x6c, 0x65, 0x78, 0x5f, 0x6e,
-	0x65, 0x73, 0x74, 0x65, 0x64, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0b, 0x32, 0x0e, 0x2e, 0x43, 0x6f,
-	0x6d, 0x70, 0x6c, 0x65, 0x78, 0x4e, 0x65, 0x73, 0x74, 0x65, 0x64, 0x52, 0x0d, 0x63, 0x6f, 0x6d,
-	0x70, 0x6c, 0x65, 0x78, 0x4e, 0x65, 0x73, 0x74, 0x65, 0x64, 0x12, 0x32, 0x0a, 0x0d, 0x73, 0x69,
-	0x6d, 0x70, 0x6c, 0x65, 0x5f, 0x6e, 0x65, 0x73, 0x74, 0x65, 0x64, 0x18, 0x02, 0x20, 0x01, 0x28,
-	0x0b, 0x32, 0x0d, 0x2e, 0x53, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4e, 0x65, 0x73, 0x74, 0x65, 0x64,
-	0x52, 0x0c, 0x73, 0x69, 0x6d, 0x70, 0x6c, 0x65, 0x4e, 0x65, 0x73, 0x74, 0x65, 0x64, 0x42, 0x11,
-	0x5a, 0x0f, 0x2e, 0x2e, 0x2f, 0x75, 0x74, 0x69, 0x6c, 0x5f, 0x6d, 0x65, 0x73, 0x73, 0x61, 0x67,
-	0x65, 0x62, 0x06, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x33,
-}
-
-var (
-	file_messages_types_proto_rawDescOnce sync.Once
-	file_messages_types_proto_rawDescData = file_messages_types_proto_rawDesc
-)
-
-func file_messages_types_proto_rawDescGZIP() []byte {
-	file_messages_types_proto_rawDescOnce.Do(func() {
-		file_messages_types_proto_rawDescData = protoimpl.X.CompressGZIP(file_messages_types_proto_rawDescData)
-	})
-	return file_messages_types_proto_rawDescData
-}
-
-var file_messages_types_proto_enumTypes = make([]protoimpl.EnumInfo, 2)
-var file_messages_types_proto_msgTypes = make([]protoimpl.MessageInfo, 10)
-var file_messages_types_proto_goTypes = []interface{}{
-	(AllTheTypes_ExampleEnum)(0),      // 0: AllTheTypes.ExampleEnum
-	(AllTheTypesNoAny_ExampleEnum)(0), // 1: AllTheTypesNoAny.ExampleEnum
-	(*ExampleMessage)(nil),            // 2: ExampleMessage
-	(*AllTheTypes)(nil),               // 3: AllTheTypes
-	(*AllTheTypesNoAny)(nil),          // 4: AllTheTypesNoAny
-	(*SimpleNested)(nil),              // 5: SimpleNested
-	(*ComplexNested)(nil),             // 6: ComplexNested
-	(*DeepNested)(nil),                // 7: DeepNested
-	nil,                               // 8: AllTheTypes.SimpleMapEntry
-	nil,                               // 9: AllTheTypes.ComplexMapEntry
-	nil,                               // 10: AllTheTypesNoAny.SimpleMapEntry
-	nil,                               // 11: AllTheTypesNoAny.ComplexMapEntry
-	(*anypb.Any)(nil),                 // 12: google.protobuf.Any
-}
-var file_messages_types_proto_depIdxs = []int32{
-	0,  // 0: AllTheTypes.enum:type_name -> AllTheTypes.ExampleEnum
-	2,  // 1: AllTheTypes.message:type_name -> ExampleMessage
-	2,  // 2: AllTheTypes.oneofmessage:type_name -> ExampleMessage
-	12, // 3: AllTheTypes.any:type_name -> google.protobuf.Any
-	8,  // 4: AllTheTypes.simple_map:type_name -> AllTheTypes.SimpleMapEntry
-	9,  // 5: AllTheTypes.complex_map:type_name -> AllTheTypes.ComplexMapEntry
-	2,  // 6: AllTheTypes.complex_list:type_name -> ExampleMessage
-	1,  // 7: AllTheTypesNoAny.enum:type_name -> AllTheTypesNoAny.ExampleEnum
-	2,  // 8: AllTheTypesNoAny.message:type_name -> ExampleMessage
-	2,  // 9: AllTheTypesNoAny.oneofmessage:type_name -> ExampleMessage
-	10, // 10: AllTheTypesNoAny.simple_map:type_name -> AllTheTypesNoAny.SimpleMapEntry
-	11, // 11: AllTheTypesNoAny.complex_map:type_name -> AllTheTypesNoAny.ComplexMapEntry
-	2,  // 12: AllTheTypesNoAny.complex_list:type_name -> ExampleMessage
-	2,  // 13: SimpleNested.simple_a:type_name -> ExampleMessage
-	2,  // 14: SimpleNested.simple_b:type_name -> ExampleMessage
-	4,  // 15: ComplexNested.all_the_types_no_any_a:type_name -> AllTheTypesNoAny
-	4,  // 16: ComplexNested.all_the_types_no_any_b:type_name -> AllTheTypesNoAny
-	6,  // 17: DeepNested.complex_nested:type_name -> ComplexNested
-	5,  // 18: DeepNested.simple_nested:type_name -> SimpleNested
-	2,  // 19: AllTheTypes.ComplexMapEntry.value:type_name -> ExampleMessage
-	2,  // 20: AllTheTypesNoAny.ComplexMapEntry.value:type_name -> ExampleMessage
-	21, // [21:21] is the sub-list for method output_type
-	21, // [21:21] is the sub-list for method input_type
-	21, // [21:21] is the sub-list for extension type_name
-	21, // [21:21] is the sub-list for extension extendee
-	0,  // [0:21] is the sub-list for field type_name
-}
-
-func init() { file_messages_types_proto_init() }
-func file_messages_types_proto_init() {
-	if File_messages_types_proto != nil {
-		return
-	}
-	if !protoimpl.UnsafeEnabled {
-		file_messages_types_proto_msgTypes[0].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ExampleMessage); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_messages_types_proto_msgTypes[1].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*AllTheTypes); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_messages_types_proto_msgTypes[2].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*AllTheTypesNoAny); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_messages_types_proto_msgTypes[3].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*SimpleNested); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_messages_types_proto_msgTypes[4].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*ComplexNested); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-		file_messages_types_proto_msgTypes[5].Exporter = func(v interface{}, i int) interface{} {
-			switch v := v.(*DeepNested); i {
-			case 0:
-				return &v.state
-			case 1:
-				return &v.sizeCache
-			case 2:
-				return &v.unknownFields
-			default:
-				return nil
-			}
-		}
-	}
-	file_messages_types_proto_msgTypes[1].OneofWrappers = []interface{}{
-		(*AllTheTypes_Oneofstring)(nil),
-		(*AllTheTypes_Oneofmessage)(nil),
-	}
-	file_messages_types_proto_msgTypes[2].OneofWrappers = []interface{}{
-		(*AllTheTypesNoAny_Oneofstring)(nil),
-		(*AllTheTypesNoAny_Oneofmessage)(nil),
-	}
-	type x struct{}
-	out := protoimpl.TypeBuilder{
-		File: protoimpl.DescBuilder{
-			GoPackagePath: reflect.TypeOf(x{}).PkgPath(),
-			RawDescriptor: file_messages_types_proto_rawDesc,
-			NumEnums:      2,
-			NumMessages:   10,
-			NumExtensions: 0,
-			NumServices:   0,
-		},
-		GoTypes:           file_messages_types_proto_goTypes,
-		DependencyIndexes: file_messages_types_proto_depIdxs,
-		EnumInfos:         file_messages_types_proto_enumTypes,
-		MessageInfos:      file_messages_types_proto_msgTypes,
-	}.Build()
-	File_messages_types_proto = out.File
-	file_messages_types_proto_rawDesc = nil
-	file_messages_types_proto_goTypes = nil
-	file_messages_types_proto_depIdxs = nil
-}
diff --git a/go/go.mod b/go/go.mod
deleted file mode 100644
index 77f98cefb0f0e..0000000000000
--- a/go/go.mod
+++ /dev/null
@@ -1,89 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-module github.com/apache/arrow/go/v18
-
-go 1.22
-
-require (
-	github.com/JohnCGriffin/overflow v0.0.0-20211019200055-46fa312c352c
-	github.com/andybalholm/brotli v1.1.0
-	github.com/apache/thrift v0.20.0
-	github.com/docopt/docopt-go v0.0.0-20180111231733-ee0de3bc6815
-	github.com/goccy/go-json v0.10.3
-	github.com/golang/snappy v0.0.4
-	github.com/google/flatbuffers v24.3.25+incompatible
-	github.com/klauspost/asmfmt v1.3.2
-	github.com/klauspost/compress v1.17.9
-	github.com/klauspost/cpuid/v2 v2.2.8
-	github.com/minio/asm2plan9s v0.0.0-20200509001527-cdd76441f9d8
-	github.com/minio/c2goasm v0.0.0-20190812172519-36a3d3bbc4f3
-	github.com/pierrec/lz4/v4 v4.1.21
-	github.com/stretchr/testify v1.9.0
-	github.com/zeebo/xxh3 v1.0.2
-	golang.org/x/exp v0.0.0-20240222234643-814bf88cf225
-	golang.org/x/sync v0.8.0
-	golang.org/x/sys v0.23.0
-	golang.org/x/tools v0.24.0
-	golang.org/x/xerrors v0.0.0-20231012003039-104605ab7028
-	gonum.org/v1/gonum v0.15.0
-	google.golang.org/grpc v1.63.2
-	google.golang.org/protobuf v1.34.2
-	modernc.org/sqlite v1.29.6
-)
-
-require (
-	github.com/google/uuid v1.6.0
-	github.com/hamba/avro/v2 v2.25.0
-	github.com/huandu/xstrings v1.4.0
-	github.com/substrait-io/substrait-go v0.7.0
-	github.com/tidwall/sjson v1.2.5
-)
-
-require (
-	github.com/alecthomas/participle/v2 v2.1.0 // indirect
-	github.com/davecgh/go-spew v1.1.1 // indirect
-	github.com/dustin/go-humanize v1.0.1 // indirect
-	github.com/fatih/color v1.15.0 // indirect
-	github.com/goccy/go-yaml v1.11.0 // indirect
-	github.com/hashicorp/golang-lru/v2 v2.0.7 // indirect
-	github.com/json-iterator/go v1.1.12 // indirect
-	github.com/kr/text v0.2.0 // indirect
-	github.com/mattn/go-colorable v0.1.13 // indirect
-	github.com/mattn/go-isatty v0.0.19 // indirect
-	github.com/mitchellh/mapstructure v1.5.0 // indirect
-	github.com/modern-go/concurrent v0.0.0-20180306012644-bacd9c7ef1dd // indirect
-	github.com/modern-go/reflect2 v1.0.2 // indirect
-	github.com/ncruces/go-strftime v0.1.9 // indirect
-	github.com/pmezard/go-difflib v1.0.0 // indirect
-	github.com/remyoudompheng/bigfft v0.0.0-20230129092748-24d4a6f8daec // indirect
-	github.com/rogpeppe/go-internal v1.9.0 // indirect
-	github.com/stretchr/objx v0.5.2 // indirect
-	github.com/tidwall/gjson v1.14.2 // indirect
-	github.com/tidwall/match v1.1.1 // indirect
-	github.com/tidwall/pretty v1.2.0 // indirect
-	golang.org/x/mod v0.20.0 // indirect
-	golang.org/x/net v0.28.0 // indirect
-	golang.org/x/text v0.17.0 // indirect
-	google.golang.org/genproto/googleapis/rpc v0.0.0-20240227224415-6ceb2ff114de // indirect
-	gopkg.in/yaml.v3 v3.0.1 // indirect
-	modernc.org/gc/v3 v3.0.0-20240107210532-573471604cb6 // indirect
-	modernc.org/libc v1.41.0 // indirect
-	modernc.org/mathutil v1.6.0 // indirect
-	modernc.org/memory v1.7.2 // indirect
-	modernc.org/strutil v1.2.0 // indirect
-	modernc.org/token v1.1.0 // indirect
-)
diff --git a/go/go.sum b/go/go.sum
deleted file mode 100644
index 6f22e11aef03a..0000000000000
--- a/go/go.sum
+++ /dev/null
@@ -1,165 +0,0 @@
-github.com/JohnCGriffin/overflow v0.0.0-20211019200055-46fa312c352c h1:RGWPOewvKIROun94nF7v2cua9qP+thov/7M50KEoeSU=
-github.com/JohnCGriffin/overflow v0.0.0-20211019200055-46fa312c352c/go.mod h1:X0CRv0ky0k6m906ixxpzmDRLvX58TFUKS2eePweuyxk=
-github.com/alecthomas/assert/v2 v2.3.0 h1:mAsH2wmvjsuvyBvAmCtm7zFsBlb8mIHx5ySLVdDZXL0=
-github.com/alecthomas/assert/v2 v2.3.0/go.mod h1:pXcQ2Asjp247dahGEmsZ6ru0UVwnkhktn7S0bBDLxvQ=
-github.com/alecthomas/participle/v2 v2.1.0 h1:z7dElHRrOEEq45F2TG5cbQihMtNTv8vwldytDj7Wrz4=
-github.com/alecthomas/participle/v2 v2.1.0/go.mod h1:Y1+hAs8DHPmc3YUFzqllV+eSQ9ljPTk0ZkPMtEdAx2c=
-github.com/alecthomas/repr v0.2.0 h1:HAzS41CIzNW5syS8Mf9UwXhNH1J9aix/BvDRf1Ml2Yk=
-github.com/alecthomas/repr v0.2.0/go.mod h1:Fr0507jx4eOXV7AlPV6AVZLYrLIuIeSOWtW57eE/O/4=
-github.com/andybalholm/brotli v1.1.0 h1:eLKJA0d02Lf0mVpIDgYnqXcUn0GqVmEFny3VuID1U3M=
-github.com/andybalholm/brotli v1.1.0/go.mod h1:sms7XGricyQI9K10gOSf56VKKWS4oLer58Q+mhRPtnY=
-github.com/apache/thrift v0.20.0 h1:631+KvYbsBZxmuJjYwhezVsrfc/TbqtZV4QcxOX1fOI=
-github.com/apache/thrift v0.20.0/go.mod h1:hOk1BQqcp2OLzGsyVXdfMk7YFlMxK3aoEVhjD06QhB8=
-github.com/creack/pty v1.1.9/go.mod h1:oKZEueFk5CKHvIhNR5MUki03XCEU+Q6VDXinZuGJ33E=
-github.com/davecgh/go-spew v1.1.0/go.mod h1:J7Y8YcW2NihsgmVo/mv3lAwl/skON4iLHjSsI+c5H38=
-github.com/davecgh/go-spew v1.1.1 h1:vj9j/u1bqnvCEfJOwUhtlOARqs3+rkHYY13jYWTU97c=
-github.com/davecgh/go-spew v1.1.1/go.mod h1:J7Y8YcW2NihsgmVo/mv3lAwl/skON4iLHjSsI+c5H38=
-github.com/docopt/docopt-go v0.0.0-20180111231733-ee0de3bc6815 h1:bWDMxwH3px2JBh6AyO7hdCn/PkvCZXii8TGj7sbtEbQ=
-github.com/docopt/docopt-go v0.0.0-20180111231733-ee0de3bc6815/go.mod h1:WwZ+bS3ebgob9U8Nd0kOddGdZWjyMGR8Wziv+TBNwSE=
-github.com/dustin/go-humanize v1.0.1 h1:GzkhY7T5VNhEkwH0PVJgjz+fX1rhBrR7pRT3mDkpeCY=
-github.com/dustin/go-humanize v1.0.1/go.mod h1:Mu1zIs6XwVuF/gI1OepvI0qD18qycQx+mFykh5fBlto=
-github.com/fatih/color v1.15.0 h1:kOqh6YHBtK8aywxGerMG2Eq3H6Qgoqeo13Bk2Mv/nBs=
-github.com/fatih/color v1.15.0/go.mod h1:0h5ZqXfHYED7Bhv2ZJamyIOUej9KtShiJESRwBDUSsw=
-github.com/go-playground/locales v0.13.0 h1:HyWk6mgj5qFqCT5fjGBuRArbVDfE4hi8+e8ceBS/t7Q=
-github.com/go-playground/locales v0.13.0/go.mod h1:taPMhCMXrRLJO55olJkUXHZBHCxTMfnGwq/HNwmWNS8=
-github.com/go-playground/universal-translator v0.17.0 h1:icxd5fm+REJzpZx7ZfpaD876Lmtgy7VtROAbHHXk8no=
-github.com/go-playground/universal-translator v0.17.0/go.mod h1:UkSxE5sNxxRwHyU+Scu5vgOQjsIJAF8j9muTVoKLVtA=
-github.com/go-playground/validator/v10 v10.11.1 h1:prmOlTVv+YjZjmRmNSF3VmspqJIxJWXmqUsHwfTRRkQ=
-github.com/go-playground/validator/v10 v10.11.1/go.mod h1:i+3WkQ1FvaUjjxh1kSvIA4dMGDBiPU55YFDl0WbKdWU=
-github.com/goccy/go-json v0.10.3 h1:KZ5WoDbxAIgm2HNbYckL0se1fHD6rz5j4ywS6ebzDqA=
-github.com/goccy/go-json v0.10.3/go.mod h1:oq7eo15ShAhp70Anwd5lgX2pLfOS3QCiwU/PULtXL6M=
-github.com/goccy/go-yaml v1.11.0 h1:n7Z+zx8S9f9KgzG6KtQKf+kwqXZlLNR2F6018Dgau54=
-github.com/goccy/go-yaml v1.11.0/go.mod h1:H+mJrWtjPTJAHvRbV09MCK9xYwODM+wRTVFFTWckfng=
-github.com/golang/protobuf v1.5.4 h1:i7eJL8qZTpSEXOPTxNKhASYpMn+8e5Q6AdndVa1dWek=
-github.com/golang/protobuf v1.5.4/go.mod h1:lnTiLA8Wa4RWRcIUkrtSVa5nRhsEGBg48fD6rSs7xps=
-github.com/golang/snappy v0.0.4 h1:yAGX7huGHXlcLOEtBnF4w7FQwA26wojNCwOYAEhLjQM=
-github.com/golang/snappy v0.0.4/go.mod h1:/XxbfmMg8lxefKM7IXC3fBNl/7bRcc72aCRzEWrmP2Q=
-github.com/google/flatbuffers v24.3.25+incompatible h1:CX395cjN9Kke9mmalRoL3d81AtFUxJM+yDthflgJGkI=
-github.com/google/flatbuffers v24.3.25+incompatible/go.mod h1:1AeVuKshWv4vARoZatz6mlQ0JxURH0Kv5+zNeJKJCa8=
-github.com/google/go-cmp v0.6.0 h1:ofyhxvXcZhMsU5ulbFiLKl/XBFqE1GSq7atu8tAmTRI=
-github.com/google/go-cmp v0.6.0/go.mod h1:17dUlkBOakJ0+DkrSSNjCkIjxS6bF9zb3elmeNGIjoY=
-github.com/google/gofuzz v1.0.0/go.mod h1:dBl0BpW6vV/+mYPU4Po3pmUjxk6FQPldtuIdl/M65Eg=
-github.com/google/pprof v0.0.0-20221118152302-e6195bd50e26 h1:Xim43kblpZXfIBQsbuBVKCudVG457BR2GZFIz3uw3hQ=
-github.com/google/pprof v0.0.0-20221118152302-e6195bd50e26/go.mod h1:dDKJzRmX4S37WGHujM7tX//fmj1uioxKzKxz3lo4HJo=
-github.com/google/uuid v1.6.0 h1:NIvaJDMOsjHA8n1jAhLSgzrAzy1Hgr+hNrb57e+94F0=
-github.com/google/uuid v1.6.0/go.mod h1:TIyPZe4MgqvfeYDBFedMoGGpEw/LqOeaOT+nhxU+yHo=
-github.com/hamba/avro/v2 v2.25.0 h1:9qig/K4VP5tMq6DuKGfI6YdXncTkPJT1IJDMSv82EeI=
-github.com/hamba/avro/v2 v2.25.0/go.mod h1:I8glyswHnpED3Nlx2ZdUe+4LJnCOOyiCzLMno9i/Uu0=
-github.com/hashicorp/golang-lru/v2 v2.0.7 h1:a+bsQ5rvGLjzHuww6tVxozPZFVghXaHOwFs4luLUK2k=
-github.com/hashicorp/golang-lru/v2 v2.0.7/go.mod h1:QeFd9opnmA6QUJc5vARoKUSoFhyfM2/ZepoAG6RGpeM=
-github.com/hexops/gotextdiff v1.0.3 h1:gitA9+qJrrTCsiCl7+kh75nPqQt1cx4ZkudSTLoUqJM=
-github.com/hexops/gotextdiff v1.0.3/go.mod h1:pSWU5MAI3yDq+fZBTazCSJysOMbxWL1BSow5/V2vxeg=
-github.com/huandu/xstrings v1.4.0 h1:D17IlohoQq4UcpqD7fDk80P7l+lwAmlFaBHgOipl2FU=
-github.com/huandu/xstrings v1.4.0/go.mod h1:y5/lhBue+AyNmUVz9RLU9xbLR0o4KIIExikq4ovT0aE=
-github.com/json-iterator/go v1.1.12 h1:PV8peI4a0ysnczrg+LtxykD8LfKY9ML6u2jnxaEnrnM=
-github.com/json-iterator/go v1.1.12/go.mod h1:e30LSqwooZae/UwlEbR2852Gd8hjQvJoHmT4TnhNGBo=
-github.com/klauspost/asmfmt v1.3.2 h1:4Ri7ox3EwapiOjCki+hw14RyKk201CN4rzyCJRFLpK4=
-github.com/klauspost/asmfmt v1.3.2/go.mod h1:AG8TuvYojzulgDAMCnYn50l/5QV3Bs/tp6j0HLHbNSE=
-github.com/klauspost/compress v1.17.9 h1:6KIumPrER1LHsvBVuDa0r5xaG0Es51mhhB9BQB2qeMA=
-github.com/klauspost/compress v1.17.9/go.mod h1:Di0epgTjJY877eYKx5yC51cX2A2Vl2ibi7bDH9ttBbw=
-github.com/klauspost/cpuid/v2 v2.2.8 h1:+StwCXwm9PdpiEkPyzBXIy+M9KUb4ODm0Zarf1kS5BM=
-github.com/klauspost/cpuid/v2 v2.2.8/go.mod h1:Lcz8mBdAVJIBVzewtcLocK12l3Y+JytZYpaMropDUws=
-github.com/kr/pretty v0.3.1 h1:flRD4NNwYAUpkphVc1HcthR4KEIFJ65n8Mw5qdRn3LE=
-github.com/kr/pretty v0.3.1/go.mod h1:hoEshYVHaxMs3cyo3Yncou5ZscifuDolrwPKZanG3xk=
-github.com/kr/text v0.2.0 h1:5Nx0Ya0ZqY2ygV366QzturHI13Jq95ApcVaJBhpS+AY=
-github.com/kr/text v0.2.0/go.mod h1:eLer722TekiGuMkidMxC/pM04lWEeraHUUmBw8l2grE=
-github.com/leodido/go-urn v1.2.0 h1:hpXL4XnriNwQ/ABnpepYM/1vCLWNDfUNts8dX3xTG6Y=
-github.com/leodido/go-urn v1.2.0/go.mod h1:+8+nEpDfqqsY+g338gtMEUOtuK+4dEMhiQEgxpxOKII=
-github.com/mattn/go-colorable v0.1.13 h1:fFA4WZxdEF4tXPZVKMLwD8oUnCTTo08duU7wxecdEvA=
-github.com/mattn/go-colorable v0.1.13/go.mod h1:7S9/ev0klgBDR4GtXTXX8a3vIGJpMovkB8vQcUbaXHg=
-github.com/mattn/go-isatty v0.0.16/go.mod h1:kYGgaQfpe5nmfYZH+SKPsOc2e4SrIfOl2e/yFXSvRLM=
-github.com/mattn/go-isatty v0.0.19 h1:JITubQf0MOLdlGRuRq+jtsDlekdYPia9ZFsB8h/APPA=
-github.com/mattn/go-isatty v0.0.19/go.mod h1:W+V8PltTTMOvKvAeJH7IuucS94S2C6jfK/D7dTCTo3Y=
-github.com/mattn/go-sqlite3 v1.14.22 h1:2gZY6PC6kBnID23Tichd1K+Z0oS6nE/XwU+Vz/5o4kU=
-github.com/mattn/go-sqlite3 v1.14.22/go.mod h1:Uh1q+B4BYcTPb+yiD3kU8Ct7aC0hY9fxUwlHK0RXw+Y=
-github.com/minio/asm2plan9s v0.0.0-20200509001527-cdd76441f9d8 h1:AMFGa4R4MiIpspGNG7Z948v4n35fFGB3RR3G/ry4FWs=
-github.com/minio/asm2plan9s v0.0.0-20200509001527-cdd76441f9d8/go.mod h1:mC1jAcsrzbxHt8iiaC+zU4b1ylILSosueou12R++wfY=
-github.com/minio/c2goasm v0.0.0-20190812172519-36a3d3bbc4f3 h1:+n/aFZefKZp7spd8DFdX7uMikMLXX4oubIzJF4kv/wI=
-github.com/minio/c2goasm v0.0.0-20190812172519-36a3d3bbc4f3/go.mod h1:RagcQ7I8IeTMnF8JTXieKnO4Z6JCsikNEzj0DwauVzE=
-github.com/mitchellh/mapstructure v1.5.0 h1:jeMsZIYE/09sWLaz43PL7Gy6RuMjD2eJVyuac5Z2hdY=
-github.com/mitchellh/mapstructure v1.5.0/go.mod h1:bFUtVrKA4DC2yAKiSyO/QUcy7e+RRV2QTWOzhPopBRo=
-github.com/modern-go/concurrent v0.0.0-20180228061459-e0a39a4cb421/go.mod h1:6dJC0mAP4ikYIbvyc7fijjWJddQyLn8Ig3JB5CqoB9Q=
-github.com/modern-go/concurrent v0.0.0-20180306012644-bacd9c7ef1dd h1:TRLaZ9cD/w8PVh93nsPXa1VrQ6jlwL5oN8l14QlcNfg=
-github.com/modern-go/concurrent v0.0.0-20180306012644-bacd9c7ef1dd/go.mod h1:6dJC0mAP4ikYIbvyc7fijjWJddQyLn8Ig3JB5CqoB9Q=
-github.com/modern-go/reflect2 v1.0.2 h1:xBagoLtFs94CBntxluKeaWgTMpvLxC4ur3nMaC9Gz0M=
-github.com/modern-go/reflect2 v1.0.2/go.mod h1:yWuevngMOJpCy52FWWMvUC8ws7m/LJsjYzDa0/r8luk=
-github.com/ncruces/go-strftime v0.1.9 h1:bY0MQC28UADQmHmaF5dgpLmImcShSi2kHU9XLdhx/f4=
-github.com/ncruces/go-strftime v0.1.9/go.mod h1:Fwc5htZGVVkseilnfgOVb9mKy6w1naJmn9CehxcKcls=
-github.com/pierrec/lz4/v4 v4.1.21 h1:yOVMLb6qSIDP67pl/5F7RepeKYu/VmTyEXvuMI5d9mQ=
-github.com/pierrec/lz4/v4 v4.1.21/go.mod h1:gZWDp/Ze/IJXGXf23ltt2EXimqmTUXEy0GFuRQyBid4=
-github.com/pmezard/go-difflib v1.0.0 h1:4DBwDE0NGyQoBHbLQYPwSUPoCMWR5BEzIk/f1lZbAQM=
-github.com/pmezard/go-difflib v1.0.0/go.mod h1:iKH77koFhYxTK1pcRnkKkqfTogsbg7gZNVY4sRDYZ/4=
-github.com/remyoudompheng/bigfft v0.0.0-20230129092748-24d4a6f8daec h1:W09IVJc94icq4NjY3clb7Lk8O1qJ8BdBEF8z0ibU0rE=
-github.com/remyoudompheng/bigfft v0.0.0-20230129092748-24d4a6f8daec/go.mod h1:qqbHyh8v60DhA7CoWK5oRCqLrMHRGoxYCSS9EjAz6Eo=
-github.com/rogpeppe/go-internal v1.9.0 h1:73kH8U+JUqXU8lRuOHeVHaa/SZPifC7BkcraZVejAe8=
-github.com/rogpeppe/go-internal v1.9.0/go.mod h1:WtVeX8xhTBvf0smdhujwtBcq4Qrzq/fJaraNFVN+nFs=
-github.com/stretchr/objx v0.1.0/go.mod h1:HFkY916IF+rwdDfMAkV7OtwuqBVzrE8GR6GFx+wExME=
-github.com/stretchr/objx v0.5.2 h1:xuMeJ0Sdp5ZMRXx/aWO6RZxdr3beISkG5/G/aIRr3pY=
-github.com/stretchr/objx v0.5.2/go.mod h1:FRsXN1f5AsAjCGJKqEizvkpNtU+EGNCLh3NxZ/8L+MA=
-github.com/stretchr/testify v1.3.0/go.mod h1:M5WIy9Dh21IEIfnGCwXGc5bZfKNJtfHm1UVUgZn+9EI=
-github.com/stretchr/testify v1.9.0 h1:HtqpIVDClZ4nwg75+f6Lvsy/wHu+3BoSGCbBAcpTsTg=
-github.com/stretchr/testify v1.9.0/go.mod h1:r2ic/lqez/lEtzL7wO/rwa5dbSLXVDPFyf8C91i36aY=
-github.com/substrait-io/substrait-go v0.7.0 h1:53yi73t4wW383+RD1YuhXhbjhP1KzF9GCxPC7SsRlqc=
-github.com/substrait-io/substrait-go v0.7.0/go.mod h1:7mjSvIaxk94bOF+YZn/vBOpHK4DWTpBv7nC/btjXCmc=
-github.com/tidwall/gjson v1.14.2 h1:6BBkirS0rAHjumnjHF6qgy5d2YAJ1TLIaFE2lzfOLqo=
-github.com/tidwall/gjson v1.14.2/go.mod h1:/wbyibRr2FHMks5tjHJ5F8dMZh3AcwJEMf5vlfC0lxk=
-github.com/tidwall/match v1.1.1 h1:+Ho715JplO36QYgwN9PGYNhgZvoUSc9X2c80KVTi+GA=
-github.com/tidwall/match v1.1.1/go.mod h1:eRSPERbgtNPcGhD8UCthc6PmLEQXEWd3PRB5JTxsfmM=
-github.com/tidwall/pretty v1.2.0 h1:RWIZEg2iJ8/g6fDDYzMpobmaoGh5OLl4AXtGUGPcqCs=
-github.com/tidwall/pretty v1.2.0/go.mod h1:ITEVvHYasfjBbM0u2Pg8T2nJnzm8xPwvNhhsoaGGjNU=
-github.com/tidwall/sjson v1.2.5 h1:kLy8mja+1c9jlljvWTlSazM7cKDRfJuR/bOJhcY5NcY=
-github.com/tidwall/sjson v1.2.5/go.mod h1:Fvgq9kS/6ociJEDnK0Fk1cpYF4FIW6ZF7LAe+6jwd28=
-github.com/zeebo/assert v1.3.0 h1:g7C04CbJuIDKNPFHmsk4hwZDO5O+kntRxzaUoNXj+IQ=
-github.com/zeebo/assert v1.3.0/go.mod h1:Pq9JiuJQpG8JLJdtkwrJESF0Foym2/D9XMU5ciN/wJ0=
-github.com/zeebo/xxh3 v1.0.2 h1:xZmwmqxHZA8AI603jOQ0tMqmBr9lPeFwGg6d+xy9DC0=
-github.com/zeebo/xxh3 v1.0.2/go.mod h1:5NWz9Sef7zIDm2JHfFlcQvNekmcEl9ekUZQQKCYaDcA=
-golang.org/x/crypto v0.26.0 h1:RrRspgV4mU+YwB4FYnuBoKsUapNIL5cohGAmSH3azsw=
-golang.org/x/crypto v0.26.0/go.mod h1:GY7jblb9wI+FOo5y8/S2oY4zWP07AkOJ4+jxCqdqn54=
-golang.org/x/exp v0.0.0-20240222234643-814bf88cf225 h1:LfspQV/FYTatPTr/3HzIcmiUFH7PGP+OQ6mgDYo3yuQ=
-golang.org/x/exp v0.0.0-20240222234643-814bf88cf225/go.mod h1:CxmFvTBINI24O/j8iY7H1xHzx2i4OsyguNBmN/uPtqc=
-golang.org/x/mod v0.20.0 h1:utOm6MM3R3dnawAiJgn0y+xvuYRsm1RKM/4giyfDgV0=
-golang.org/x/mod v0.20.0/go.mod h1:hTbmBsO62+eylJbnUtE2MGJUyE7QWk4xUqPFrRgJ+7c=
-golang.org/x/net v0.28.0 h1:a9JDOJc5GMUJ0+UDqmLT86WiEy7iWyIhz8gz8E4e5hE=
-golang.org/x/net v0.28.0/go.mod h1:yqtgsTWOOnlGLG9GFRrK3++bGOUEkNBoHZc8MEDWPNg=
-golang.org/x/sync v0.8.0 h1:3NFvSEYkUoMifnESzZl15y791HH1qU2xm6eCJU5ZPXQ=
-golang.org/x/sync v0.8.0/go.mod h1:Czt+wKu1gCyEFDUtn0jG5QVvpJ6rzVqr5aXyt9drQfk=
-golang.org/x/sys v0.0.0-20220811171246-fbc7d0a398ab/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
-golang.org/x/sys v0.5.0/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
-golang.org/x/sys v0.6.0/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
-golang.org/x/sys v0.23.0 h1:YfKFowiIMvtgl1UERQoTPPToxltDeZfbj4H7dVUCwmM=
-golang.org/x/sys v0.23.0/go.mod h1:/VUhepiaJMQUp4+oa/7Zr1D23ma6VTLIYjOOTFZPUcA=
-golang.org/x/text v0.17.0 h1:XtiM5bkSOt+ewxlOE/aE/AKEHibwj/6gvWMl9Rsh0Qc=
-golang.org/x/text v0.17.0/go.mod h1:BuEKDfySbSR4drPmRPG/7iBdf8hvFMuRexcpahXilzY=
-golang.org/x/tools v0.24.0 h1:J1shsA93PJUEVaUSaay7UXAyE8aimq3GW0pjlolpa24=
-golang.org/x/tools v0.24.0/go.mod h1:YhNqVBIfWHdzvTLs0d8LCuMhkKUgSUKldakyV7W/WDQ=
-golang.org/x/xerrors v0.0.0-20231012003039-104605ab7028 h1:+cNy6SZtPcJQH3LJVLOSmiC7MMxXNOb3PU/VUEz+EhU=
-golang.org/x/xerrors v0.0.0-20231012003039-104605ab7028/go.mod h1:NDW/Ps6MPRej6fsCIbMTohpP40sJ/P/vI1MoTEGwX90=
-gonum.org/v1/gonum v0.15.0 h1:2lYxjRbTYyxkJxlhC+LvJIx3SsANPdRybu1tGj9/OrQ=
-gonum.org/v1/gonum v0.15.0/go.mod h1:xzZVBJBtS+Mz4q0Yl2LJTk+OxOg4jiXZ7qBoM0uISGo=
-google.golang.org/genproto/googleapis/rpc v0.0.0-20240227224415-6ceb2ff114de h1:cZGRis4/ot9uVm639a+rHCUaG0JJHEsdyzSQTMX+suY=
-google.golang.org/genproto/googleapis/rpc v0.0.0-20240227224415-6ceb2ff114de/go.mod h1:H4O17MA/PE9BsGx3w+a+W2VOLLD1Qf7oJneAoU6WktY=
-google.golang.org/grpc v1.63.2 h1:MUeiw1B2maTVZthpU5xvASfTh3LDbxHd6IJ6QQVU+xM=
-google.golang.org/grpc v1.63.2/go.mod h1:WAX/8DgncnokcFUldAxq7GeB5DXHDbMF+lLvDomNkRA=
-google.golang.org/protobuf v1.34.2 h1:6xV6lTsCfpGD21XK49h7MhtcApnLqkfYgPcdHftf6hg=
-google.golang.org/protobuf v1.34.2/go.mod h1:qYOHts0dSfpeUzUFpOMr/WGzszTmLH+DiWniOlNbLDw=
-gopkg.in/check.v1 v0.0.0-20161208181325-20d25e280405/go.mod h1:Co6ibVJAznAaIkqp8huTwlJQCZ016jof/cbN4VW5Yz0=
-gopkg.in/check.v1 v1.0.0-20201130134442-10cb98267c6c h1:Hei/4ADfdWqJk1ZMxUNpqntNwaWcugrBjAiHlqqRiVk=
-gopkg.in/check.v1 v1.0.0-20201130134442-10cb98267c6c/go.mod h1:JHkPIbrfpd72SG/EVd6muEfDQjcINNoR0C8j2r3qZ4Q=
-gopkg.in/yaml.v3 v3.0.1 h1:fxVm/GzAzEWqLHuvctI91KS9hhNmmWOoWu0XTYJS7CA=
-gopkg.in/yaml.v3 v3.0.1/go.mod h1:K4uyk7z7BCEPqu6E+C64Yfv1cQ7kz7rIZviUmN+EgEM=
-modernc.org/fileutil v1.3.0 h1:gQ5SIzK3H9kdfai/5x41oQiKValumqNTDXMvKo62HvE=
-modernc.org/fileutil v1.3.0/go.mod h1:XatxS8fZi3pS8/hKG2GH/ArUogfxjpEKs3Ku3aK4JyQ=
-modernc.org/gc/v3 v3.0.0-20240107210532-573471604cb6 h1:5D53IMaUuA5InSeMu9eJtlQXS2NxAhyWQvkKEgXZhHI=
-modernc.org/gc/v3 v3.0.0-20240107210532-573471604cb6/go.mod h1:Qz0X07sNOR1jWYCrJMEnbW/X55x206Q7Vt4mz6/wHp4=
-modernc.org/libc v1.41.0 h1:g9YAc6BkKlgORsUWj+JwqoB1wU3o4DE3bM3yvA3k+Gk=
-modernc.org/libc v1.41.0/go.mod h1:w0eszPsiXoOnoMJgrXjglgLuDy/bt5RR4y3QzUUeodY=
-modernc.org/mathutil v1.6.0 h1:fRe9+AmYlaej+64JsEEhoWuAYBkOtQiMEU7n/XgfYi4=
-modernc.org/mathutil v1.6.0/go.mod h1:Ui5Q9q1TR2gFm0AQRqQUaBWFLAhQpCwNcuhBOSedWPo=
-modernc.org/memory v1.7.2 h1:Klh90S215mmH8c9gO98QxQFsY+W451E8AnzjoE2ee1E=
-modernc.org/memory v1.7.2/go.mod h1:NO4NVCQy0N7ln+T9ngWqOQfi7ley4vpwvARR+Hjw95E=
-modernc.org/sqlite v1.29.6 h1:0lOXGrycJPptfHDuohfYgNqoe4hu+gYuN/pKgY5XjS4=
-modernc.org/sqlite v1.29.6/go.mod h1:S02dvcmm7TnTRvGhv8IGYyLnIt7AS2KPaB1F/71p75U=
-modernc.org/strutil v1.2.0 h1:agBi9dp1I+eOnxXeiZawM8F4LawKv4NzGWSaLfyeNZA=
-modernc.org/strutil v1.2.0/go.mod h1:/mdcBmfOibveCTBxUl5B5l6W+TTH1FXPLHZE6bTosX0=
-modernc.org/token v1.1.0 h1:Xl7Ap9dKaEs5kLoOQeQmPWevfnk/DM5qcLcYlA8ys6Y=
-modernc.org/token v1.1.0/go.mod h1:UGzOrNV1mAFSEB63lOFHIpNRUVMvYTc6yu1SMY/XTDM=
diff --git a/go/internal/bitutils/bit_block_counter.go b/go/internal/bitutils/bit_block_counter.go
deleted file mode 100644
index 89e50b2dc6b1d..0000000000000
--- a/go/internal/bitutils/bit_block_counter.go
+++ /dev/null
@@ -1,452 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils
-
-import (
-	"math"
-	"math/bits"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-func loadWord(byt []byte) uint64 {
-	return utils.ToLEUint64(*(*uint64)(unsafe.Pointer(&byt[0])))
-}
-
-func shiftWord(current, next uint64, shift int64) uint64 {
-	if shift == 0 {
-		return current
-	}
-	return (current >> shift) | (next << (64 - shift))
-}
-
-// BitBlockCount is returned by the various bit block counter utilities
-// in order to return a length of bits and the population count of that
-// slice of bits.
-type BitBlockCount struct {
-	Len    int16
-	Popcnt int16
-}
-
-// NoneSet returns true if ALL the bits were 0 in this set, ie: Popcnt == 0
-func (b BitBlockCount) NoneSet() bool {
-	return b.Popcnt == 0
-}
-
-// AllSet returns true if ALL the bits were 1 in this set, ie: Popcnt == Len
-func (b BitBlockCount) AllSet() bool {
-	return b.Len == b.Popcnt
-}
-
-// BitBlockCounter is a utility for grabbing chunks of a bitmap at a time and efficiently
-// counting the number of bits which are 1.
-type BitBlockCounter struct {
-	bitmap        []byte
-	bitsRemaining int64
-	bitOffset     int8
-}
-
-const (
-	wordBits      int64 = 64
-	fourWordsBits int64 = wordBits * 4
-)
-
-// NewBitBlockCounter returns a BitBlockCounter for the passed bitmap starting at startOffset
-// of length nbits.
-func NewBitBlockCounter(bitmap []byte, startOffset, nbits int64) *BitBlockCounter {
-	return &BitBlockCounter{
-		bitmap:        bitmap[startOffset/8:],
-		bitsRemaining: nbits,
-		bitOffset:     int8(startOffset % 8),
-	}
-}
-
-// getBlockSlow is for returning a block of the requested size when there aren't
-// enough bits remaining to do a full word computation.
-func (b *BitBlockCounter) getBlockSlow(blockSize int64) BitBlockCount {
-	runlen := int16(utils.Min(b.bitsRemaining, blockSize))
-	popcnt := int16(bitutil.CountSetBits(b.bitmap, int(b.bitOffset), int(runlen)))
-	b.bitsRemaining -= int64(runlen)
-	b.bitmap = b.bitmap[runlen/8:]
-	return BitBlockCount{runlen, popcnt}
-}
-
-// NextFourWords returns the next run of available bits, usually 256. The
-// returned pair contains the size of run and the number of true values.
-// The last block will have a length less than 256 if the bitmap length
-// is not a multiple of 256, and will return 0-length blocks in subsequent
-// invocations.
-func (b *BitBlockCounter) NextFourWords() BitBlockCount {
-	if b.bitsRemaining == 0 {
-		return BitBlockCount{0, 0}
-	}
-
-	totalPopcnt := 0
-	if b.bitOffset == 0 {
-		// if we're aligned at 0 bitoffset, then we can easily just jump from
-		// word to word nice and easy.
-		if b.bitsRemaining < fourWordsBits {
-			return b.getBlockSlow(fourWordsBits)
-		}
-		totalPopcnt += bits.OnesCount64(loadWord(b.bitmap))
-		totalPopcnt += bits.OnesCount64(loadWord(b.bitmap[8:]))
-		totalPopcnt += bits.OnesCount64(loadWord(b.bitmap[16:]))
-		totalPopcnt += bits.OnesCount64(loadWord(b.bitmap[24:]))
-	} else {
-		// When the offset is > 0, we need there to be a word beyond the last
-		// aligned word in the bitmap for the bit shifting logic.
-		if b.bitsRemaining < 5*fourWordsBits-int64(b.bitOffset) {
-			return b.getBlockSlow(fourWordsBits)
-		}
-
-		current := loadWord(b.bitmap)
-		next := loadWord(b.bitmap[8:])
-		totalPopcnt += bits.OnesCount64(shiftWord(current, next, int64(b.bitOffset)))
-
-		current = next
-		next = loadWord(b.bitmap[16:])
-		totalPopcnt += bits.OnesCount64(shiftWord(current, next, int64(b.bitOffset)))
-
-		current = next
-		next = loadWord(b.bitmap[24:])
-		totalPopcnt += bits.OnesCount64(shiftWord(current, next, int64(b.bitOffset)))
-
-		current = next
-		next = loadWord(b.bitmap[32:])
-		totalPopcnt += bits.OnesCount64(shiftWord(current, next, int64(b.bitOffset)))
-	}
-	b.bitmap = b.bitmap[bitutil.BytesForBits(fourWordsBits):]
-	b.bitsRemaining -= fourWordsBits
-	return BitBlockCount{256, int16(totalPopcnt)}
-}
-
-// NextWord returns the next run of available bits, usually 64. The returned
-// pair contains the size of run and the number of true values. The last
-// block will have a length less than 64 if the bitmap length is not a
-// multiple of 64, and will return 0-length blocks in subsequent
-// invocations.
-func (b *BitBlockCounter) NextWord() BitBlockCount {
-	if b.bitsRemaining == 0 {
-		return BitBlockCount{0, 0}
-	}
-	popcnt := 0
-	if b.bitOffset == 0 {
-		if b.bitsRemaining < wordBits {
-			return b.getBlockSlow(wordBits)
-		}
-		popcnt = bits.OnesCount64(loadWord(b.bitmap))
-	} else {
-		// When the offset is > 0, we need there to be a word beyond the last
-		// aligned word in the bitmap for the bit shifting logic.
-		if b.bitsRemaining < (2*wordBits - int64(b.bitOffset)) {
-			return b.getBlockSlow(wordBits)
-		}
-		popcnt = bits.OnesCount64(shiftWord(loadWord(b.bitmap), loadWord(b.bitmap[8:]), int64(b.bitOffset)))
-	}
-	b.bitmap = b.bitmap[wordBits/8:]
-	b.bitsRemaining -= wordBits
-	return BitBlockCount{64, int16(popcnt)}
-}
-
-// OptionalBitBlockCounter is a useful counter to iterate through a possibly
-// nonexistent validity bitmap to allow us to write one code path for both
-// the with-nulls and no-nulls cases without giving up a lot of performance.
-type OptionalBitBlockCounter struct {
-	hasBitmap bool
-	pos       int64
-	len       int64
-	counter   *BitBlockCounter
-}
-
-// NewOptionalBitBlockCounter constructs and returns a new bit block counter that
-// can properly handle the case when a bitmap is null, if it is guaranteed that the
-// the bitmap is not nil, then prefer NewBitBlockCounter here.
-func NewOptionalBitBlockCounter(bitmap []byte, offset, length int64) *OptionalBitBlockCounter {
-	var counter *BitBlockCounter
-	if bitmap != nil {
-		counter = NewBitBlockCounter(bitmap, offset, length)
-	}
-	return &OptionalBitBlockCounter{
-		hasBitmap: bitmap != nil,
-		pos:       0,
-		len:       length,
-		counter:   counter,
-	}
-}
-
-// NextBlock returns block count for next word when the bitmap is available otherwise
-// return a block with length up to INT16_MAX when there is no validity
-// bitmap (so all the referenced values are not null).
-func (obc *OptionalBitBlockCounter) NextBlock() BitBlockCount {
-	const maxBlockSize = math.MaxInt16
-	if obc.hasBitmap {
-		block := obc.counter.NextWord()
-		obc.pos += int64(block.Len)
-		return block
-	}
-
-	blockSize := int16(utils.Min(maxBlockSize, obc.len-obc.pos))
-	obc.pos += int64(blockSize)
-	// all values are non-null
-	return BitBlockCount{blockSize, blockSize}
-}
-
-// NextWord is like NextBlock, but returns a word-sized block even when there is no
-// validity bitmap
-func (obc *OptionalBitBlockCounter) NextWord() BitBlockCount {
-	const wordsize = 64
-	if obc.hasBitmap {
-		block := obc.counter.NextWord()
-		obc.pos += int64(block.Len)
-		return block
-	}
-	blockSize := int16(utils.Min(wordsize, obc.len-obc.pos))
-	obc.pos += int64(blockSize)
-	// all values are non-null
-	return BitBlockCount{blockSize, blockSize}
-}
-
-// VisitBitBlocks is a utility for easily iterating through the blocks of bits in a bitmap,
-// calling the appropriate visitValid/visitInvalid function as we iterate through the bits.
-// visitValid is called with the bitoffset of the valid bit. Don't use this inside a tight
-// loop when performance is needed and instead prefer manually constructing these loops
-// in that scenario.
-func VisitBitBlocks(bitmap []byte, offset, length int64, visitValid func(pos int64), visitInvalid func()) {
-	counter := NewOptionalBitBlockCounter(bitmap, offset, length)
-	pos := int64(0)
-	for pos < length {
-		block := counter.NextBlock()
-		if block.AllSet() {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				visitValid(pos)
-			}
-		} else if block.NoneSet() {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				visitInvalid()
-			}
-		} else {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				if bitutil.BitIsSet(bitmap, int(offset+pos)) {
-					visitValid(pos)
-				} else {
-					visitInvalid()
-				}
-			}
-		}
-	}
-}
-
-// VisitBitBlocks is a utility for easily iterating through the blocks of bits in a bitmap,
-// calling the appropriate visitValid/visitInvalid function as we iterate through the bits.
-// visitValid is called with the bitoffset of the valid bit. Don't use this inside a tight
-// loop when performance is needed and instead prefer manually constructing these loops
-// in that scenario.
-func VisitBitBlocksShort(bitmap []byte, offset, length int64, visitValid func(pos int64) error, visitInvalid func() error) error {
-	counter := NewOptionalBitBlockCounter(bitmap, offset, length)
-	pos := int64(0)
-	for pos < length {
-		block := counter.NextBlock()
-		if block.AllSet() {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				if err := visitValid(pos); err != nil {
-					return err
-				}
-			}
-		} else if block.NoneSet() {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				if err := visitInvalid(); err != nil {
-					return err
-				}
-			}
-		} else {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				if bitutil.BitIsSet(bitmap, int(offset+pos)) {
-					if err := visitValid(pos); err != nil {
-						return err
-					}
-				} else {
-					if err := visitInvalid(); err != nil {
-						return err
-					}
-				}
-			}
-		}
-	}
-	return nil
-}
-
-func VisitTwoBitBlocks(leftBitmap, rightBitmap []byte, leftOffset, rightOffset int64, len int64, visitValid func(pos int64), visitNull func()) {
-	if leftBitmap == nil || rightBitmap == nil {
-		// at most one is present
-		if leftBitmap == nil {
-			VisitBitBlocks(rightBitmap, rightOffset, len, visitValid, visitNull)
-		} else {
-			VisitBitBlocks(leftBitmap, leftOffset, len, visitValid, visitNull)
-		}
-		return
-	}
-
-	bitCounter := NewBinaryBitBlockCounter(leftBitmap, rightBitmap, leftOffset, rightOffset, len)
-	var pos int64
-	for pos < len {
-		block := bitCounter.NextAndWord()
-		if block.AllSet() {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				visitValid(pos)
-			}
-		} else if block.NoneSet() {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				visitNull()
-			}
-		} else {
-			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
-				if bitutil.BitIsSet(leftBitmap, int(leftOffset+pos)) && bitutil.BitIsSet(rightBitmap, int(rightOffset+pos)) {
-					visitValid(pos)
-				} else {
-					visitNull()
-				}
-			}
-		}
-	}
-}
-
-type bitOp struct {
-	bit  func(bool, bool) bool
-	word func(uint64, uint64) uint64
-}
-
-var (
-	bitBlockAnd = bitOp{
-		bit:  func(a, b bool) bool { return a && b },
-		word: func(a, b uint64) uint64 { return a & b },
-	}
-	bitBlockAndNot = bitOp{
-		bit:  func(a, b bool) bool { return a && !b },
-		word: func(a, b uint64) uint64 { return a &^ b },
-	}
-	bitBlockOr = bitOp{
-		bit:  func(a, b bool) bool { return a || b },
-		word: func(a, b uint64) uint64 { return a | b },
-	}
-	bitBlockOrNot = bitOp{
-		bit:  func(a, b bool) bool { return a || !b },
-		word: func(a, b uint64) uint64 { return a | ^b },
-	}
-)
-
-// BinaryBitBlockCounter computes popcounts on the result of bitwise
-// operations between two bitmaps, 64 bits at a time. A 64-bit word
-// is loaded from each bitmap, then the popcount is computed on
-// e.g. the bitwise-and of the two words
-type BinaryBitBlockCounter struct {
-	left                    []byte
-	right                   []byte
-	bitsRemaining           int64
-	leftOffset, rightOffset int64
-
-	bitsRequiredForWords int64
-}
-
-// NewBinaryBitBlockCounter constructs a binary bit block counter for
-// computing the popcounts on the results of operations between
-// the passed in bitmaps, with their respective offsets.
-func NewBinaryBitBlockCounter(left, right []byte, leftOffset, rightOffset int64, length int64) *BinaryBitBlockCounter {
-	ret := &BinaryBitBlockCounter{
-		left:          left[leftOffset/8:],
-		right:         right[rightOffset/8:],
-		leftOffset:    leftOffset % 8,
-		rightOffset:   rightOffset % 8,
-		bitsRemaining: length,
-	}
-
-	leftBitsReq := int64(64)
-	if ret.leftOffset != 0 {
-		leftBitsReq = 64 + (64 - ret.leftOffset)
-	}
-	rightBitsReq := int64(64)
-	if ret.rightOffset != 0 {
-		rightBitsReq = 64 + (64 - ret.rightOffset)
-	}
-
-	if leftBitsReq > rightBitsReq {
-		ret.bitsRequiredForWords = leftBitsReq
-	} else {
-		ret.bitsRequiredForWords = rightBitsReq
-	}
-
-	return ret
-}
-
-// NextAndWord returns the popcount of the bitwise-and of the next run
-// of available bits, up to 64. The returned pair contains the size of
-// the run and the number of true values. the last block will have a
-// length less than 64 if the bitmap length is not a multiple of 64,
-// and will return 0-length blocks in subsequent invocations
-func (b *BinaryBitBlockCounter) NextAndWord() BitBlockCount { return b.nextWord(bitBlockAnd) }
-
-// NextAndNotWord is like NextAndWord but performs x &^ y on each run
-func (b *BinaryBitBlockCounter) NextAndNotWord() BitBlockCount { return b.nextWord(bitBlockAndNot) }
-
-// NextOrWord is like NextAndWord but performs x | y on each run
-func (b *BinaryBitBlockCounter) NextOrWord() BitBlockCount { return b.nextWord(bitBlockOr) }
-
-// NextOrWord is like NextAndWord but performs x | ^y on each run
-func (b *BinaryBitBlockCounter) NextOrNotWord() BitBlockCount { return b.nextWord(bitBlockOrNot) }
-
-func (b *BinaryBitBlockCounter) nextWord(op bitOp) BitBlockCount {
-	if b.bitsRemaining == 0 {
-		return BitBlockCount{}
-	}
-
-	// when offset is >0, we need there to be a word beyond the last
-	// aligned word in the bitmap for the bit shifting logic
-	if b.bitsRemaining < b.bitsRequiredForWords {
-		runLength := int16(b.bitsRemaining)
-		if runLength > int16(wordBits) {
-			runLength = int16(wordBits)
-		}
-
-		var popcount int16
-		for i := int16(0); i < runLength; i++ {
-			if op.bit(bitutil.BitIsSet(b.left, int(b.leftOffset)+int(i)),
-				bitutil.BitIsSet(b.right, int(b.rightOffset)+int(i))) {
-				popcount++
-			}
-		}
-		// this code path should trigger _at most_ 2 times. in the "two times"
-		// case, the first time the run length will be a multiple of 8.
-		b.left = b.left[runLength/8:]
-		b.right = b.right[runLength/8:]
-		b.bitsRemaining -= int64(runLength)
-		return BitBlockCount{Len: runLength, Popcnt: popcount}
-	}
-
-	var popcount int
-	if b.leftOffset == 0 && b.rightOffset == 0 {
-		popcount = bits.OnesCount64(op.word(loadWord(b.left), loadWord(b.right)))
-	} else {
-		leftWord := shiftWord(loadWord(b.left), loadWord(b.left[8:]), b.leftOffset)
-		rightWord := shiftWord(loadWord(b.right), loadWord(b.right[8:]), b.rightOffset)
-		popcount = bits.OnesCount64(op.word(leftWord, rightWord))
-	}
-	b.left = b.left[wordBits/8:]
-	b.right = b.right[wordBits/8:]
-	b.bitsRemaining -= wordBits
-	return BitBlockCount{Len: int16(wordBits), Popcnt: int16(popcount)}
-}
diff --git a/go/internal/bitutils/bit_block_counter_test.go b/go/internal/bitutils/bit_block_counter_test.go
deleted file mode 100644
index 064d4b46b452f..0000000000000
--- a/go/internal/bitutils/bit_block_counter_test.go
+++ /dev/null
@@ -1,201 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/stretchr/testify/assert"
-	"golang.org/x/exp/rand"
-)
-
-const kWordSize = 64
-
-func create(nbytes, offset, length int64) (*memory.Buffer, *bitutils.BitBlockCounter) {
-	buf := memory.NewResizableBuffer(memory.DefaultAllocator)
-	buf.Resize(int(nbytes))
-	return buf, bitutils.NewBitBlockCounter(buf.Bytes(), offset, length)
-}
-
-func TestOneWordBasics(t *testing.T) {
-	const nbytes = 1024
-
-	buf, counter := create(nbytes, 0, nbytes*8)
-	defer buf.Release()
-
-	var bitsScanned int64
-	for i := 0; i < nbytes/8; i++ {
-		block := counter.NextWord()
-		assert.EqualValues(t, kWordSize, block.Len)
-		assert.EqualValues(t, 0, block.Popcnt)
-		bitsScanned += int64(block.Len)
-	}
-	assert.EqualValues(t, 1024*8, bitsScanned)
-
-	block := counter.NextWord()
-	assert.Zero(t, block.Len)
-	assert.Zero(t, block.Popcnt)
-	assert.True(t, block.NoneSet())
-}
-
-func TestFourWordsBasics(t *testing.T) {
-	const nbytes = 1024
-
-	buf, counter := create(nbytes, 0, nbytes*8)
-	defer buf.Release()
-
-	var bitsScanned int64
-	for i := 0; i < nbytes/32; i++ {
-		block := counter.NextFourWords()
-		assert.EqualValues(t, 4*kWordSize, block.Len)
-		assert.EqualValues(t, 0, block.Popcnt)
-		bitsScanned += int64(block.Len)
-	}
-	assert.EqualValues(t, 1024*8, bitsScanned)
-
-	block := counter.NextFourWords()
-	assert.Zero(t, block.Len)
-	assert.Zero(t, block.Popcnt)
-}
-
-func TestOneWordWithOffsets(t *testing.T) {
-	checkWithOffset := func(offset int64) {
-		const (
-			nwords     int64 = 4
-			totalBytes       = nwords*8 + 1
-		)
-
-		// Trim a bit from the end of the bitmap so we can check
-		// the remainder bits behavior
-		buf, counter := create(totalBytes, offset, nwords*kWordSize-offset-1)
-		defer buf.Release()
-
-		memory.Set(buf.Bytes(), byte(0xFF))
-
-		block := counter.NextWord()
-		assert.EqualValues(t, kWordSize, block.Len)
-		assert.EqualValues(t, 64, block.Popcnt)
-
-		// add a false value to the next word
-		bitutil.SetBitTo(buf.Bytes(), kWordSize+int(offset), false)
-		block = counter.NextWord()
-		assert.EqualValues(t, 64, block.Len)
-		assert.EqualValues(t, 63, block.Popcnt)
-
-		// Set the next word to all false
-		bitutil.SetBitsTo(buf.Bytes(), 2*kWordSize+offset, kWordSize, false)
-
-		block = counter.NextWord()
-		assert.EqualValues(t, 64, block.Len)
-		assert.Zero(t, block.Popcnt)
-
-		block = counter.NextWord()
-		assert.EqualValues(t, kWordSize-offset-1, block.Len)
-		assert.EqualValues(t, block.Len, block.Popcnt)
-		assert.True(t, block.AllSet())
-
-		// we can keep calling nextword safely
-		block = counter.NextWord()
-		assert.Zero(t, block.Len)
-		assert.Zero(t, block.Popcnt)
-	}
-
-	for offsetI := int64(0); offsetI < 8; offsetI++ {
-		checkWithOffset(offsetI)
-	}
-}
-
-func TestFourWordsWithOffsets(t *testing.T) {
-	checkWithOffset := func(offset int64) {
-		const (
-			nwords     = 17
-			totalBytes = nwords*8 + 1
-		)
-
-		// trim a bit from the end of the bitmap so we can check the remainder
-		// bits behavior
-		buf, counter := create(totalBytes, offset, nwords*kWordSize-offset-1)
-
-		// start with all set
-		memory.Set(buf.Bytes(), 0xFF)
-
-		block := counter.NextFourWords()
-		assert.EqualValues(t, 4*kWordSize, block.Len)
-		assert.EqualValues(t, block.Len, block.Popcnt)
-
-		// add some false values to the next 3 shifted words
-		bitutil.ClearBit(buf.Bytes(), int(4*kWordSize+offset))
-		bitutil.ClearBit(buf.Bytes(), int(5*kWordSize+offset))
-		bitutil.ClearBit(buf.Bytes(), int(6*kWordSize+offset))
-
-		block = counter.NextFourWords()
-		assert.EqualValues(t, 4*kWordSize, block.Len)
-		assert.EqualValues(t, 253, block.Popcnt)
-
-		// set the next two words to all false
-		bitutil.SetBitsTo(buf.Bytes(), 8*kWordSize+offset, 2*kWordSize, false)
-
-		// block is half set
-		block = counter.NextFourWords()
-		assert.EqualValues(t, 4*kWordSize, block.Len)
-		assert.EqualValues(t, 128, block.Popcnt)
-
-		// last full block whether offset or no
-		block = counter.NextFourWords()
-		assert.EqualValues(t, 4*kWordSize, block.Len)
-		assert.EqualValues(t, block.Len, block.Popcnt)
-
-		// partial block
-		block = counter.NextFourWords()
-		assert.EqualValues(t, kWordSize-offset-1, block.Len)
-		assert.EqualValues(t, block.Len, block.Popcnt)
-
-		// we can keep calling NextFourWords safely
-		block = counter.NextFourWords()
-		assert.Zero(t, block.Len)
-		assert.Zero(t, block.Popcnt)
-	}
-
-	for offsetI := int64(0); offsetI < 8; offsetI++ {
-		checkWithOffset(offsetI)
-	}
-}
-
-func TestFourWordsRandomData(t *testing.T) {
-	const (
-		nbytes = 1024
-	)
-
-	buf := make([]byte, nbytes)
-	r := rand.New(rand.NewSource(0))
-	r.Read(buf)
-
-	checkWithOffset := func(offset int64) {
-		counter := bitutils.NewBitBlockCounter(buf, offset, nbytes*8-offset)
-		for i := 0; i < nbytes/32; i++ {
-			block := counter.NextFourWords()
-			assert.EqualValues(t, bitutil.CountSetBits(buf, i*256+int(offset), int(block.Len)), block.Popcnt)
-		}
-	}
-
-	for offsetI := int64(0); offsetI < 8; offsetI++ {
-		checkWithOffset(offsetI)
-	}
-}
diff --git a/go/internal/bitutils/bit_run_reader.go b/go/internal/bitutils/bit_run_reader.go
deleted file mode 100644
index cce6792a6d0c8..0000000000000
--- a/go/internal/bitutils/bit_run_reader.go
+++ /dev/null
@@ -1,151 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils
-
-import (
-	"encoding/binary"
-	"fmt"
-	"math/bits"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// BitRun represents a run of bits with the same value of length Len
-// with Set representing if the group of bits were 1 or 0.
-type BitRun struct {
-	Len int64
-	Set bool
-}
-
-// BitRunReader is an interface that is usable by multiple callers to provide
-// multiple types of bit run readers such as a reverse reader and so on.
-//
-// It's a convenience interface for counting contiguous set/unset bits in a bitmap.
-// In places where BitBlockCounter can be used, then it would be preferred to use that
-// as it would be faster than using BitRunReader.
-type BitRunReader interface {
-	NextRun() BitRun
-}
-
-func (b BitRun) String() string {
-	return fmt.Sprintf("{Length: %d, set=%t}", b.Len, b.Set)
-}
-
-type bitRunReader struct {
-	bitmap       []byte
-	pos          int64
-	length       int64
-	word         uint64
-	curRunBitSet bool
-}
-
-// NewBitRunReader returns a reader for the given bitmap, offset and length that
-// grabs runs of the same value bit at a time for easy iteration.
-func NewBitRunReader(bitmap []byte, offset int64, length int64) BitRunReader {
-	ret := &bitRunReader{
-		bitmap: bitmap[offset/8:],
-		pos:    offset % 8,
-		length: (offset % 8) + length,
-	}
-
-	if length == 0 {
-		return ret
-	}
-
-	ret.curRunBitSet = bitutil.BitIsNotSet(bitmap, int(offset))
-	bitsRemaining := length + ret.pos
-	ret.loadWord(bitsRemaining)
-	ret.word = ret.word &^ LeastSignificantBitMask(ret.pos)
-	return ret
-}
-
-// NextRun returns a new BitRun containing the number of contiguous bits with the
-// same value. Len == 0 indicates the end of the bitmap.
-func (b *bitRunReader) NextRun() BitRun {
-	if b.pos >= b.length {
-		return BitRun{0, false}
-	}
-
-	// This implementation relies on a efficient implementations of
-	// CountTrailingZeros and assumes that runs are more often then
-	// not.  The logic is to incrementally find the next bit change
-	// from the current position.  This is done by zeroing all
-	// bits in word_ up to position_ and using the TrailingZeroCount
-	// to find the index of the next set bit.
-
-	// The runs alternate on each call, so flip the bit.
-	b.curRunBitSet = !b.curRunBitSet
-
-	start := b.pos
-	startOffset := start & 63
-
-	// Invert the word for proper use of CountTrailingZeros and
-	// clear bits so CountTrailingZeros can do it magic.
-	b.word = ^b.word &^ LeastSignificantBitMask(startOffset)
-
-	// Go  forward until the next change from unset to set.
-	newbits := int64(bits.TrailingZeros64(b.word)) - startOffset
-	b.pos += newbits
-
-	if IsMultipleOf64(b.pos) && b.pos < b.length {
-		b.advanceUntilChange()
-	}
-	return BitRun{b.pos - start, b.curRunBitSet}
-}
-
-func (b *bitRunReader) advanceUntilChange() {
-	newbits := int64(0)
-	for {
-		b.bitmap = b.bitmap[arrow.Uint64SizeBytes:]
-		b.loadNextWord()
-		newbits = int64(bits.TrailingZeros64(b.word))
-		b.pos += newbits
-		if !IsMultipleOf64(b.pos) || b.pos >= b.length || newbits <= 0 {
-			break
-		}
-	}
-}
-
-func (b *bitRunReader) loadNextWord() {
-	b.loadWord(b.length - b.pos)
-}
-
-func (b *bitRunReader) loadWord(bitsRemaining int64) {
-	b.word = 0
-	if bitsRemaining >= 64 {
-		b.word = binary.LittleEndian.Uint64(b.bitmap)
-	} else {
-		nbytes := bitutil.BytesForBits(bitsRemaining)
-		wordptr := (*(*[8]byte)(unsafe.Pointer(&b.word)))[:]
-		copy(wordptr, b.bitmap[:nbytes])
-
-		bitutil.SetBitTo(wordptr, int(bitsRemaining), bitutil.BitIsNotSet(wordptr, int(bitsRemaining-1)))
-		// reset the value to little endian for big endian architectures
-		b.word = utils.ToLEUint64(b.word)
-	}
-
-	// Two cases:
-	//   1. For unset, CountTrailingZeros works naturally so we don't
-	//   invert the word.
-	//   2. Otherwise invert so we can use CountTrailingZeros.
-	if b.curRunBitSet {
-		b.word = ^b.word
-	}
-}
diff --git a/go/internal/bitutils/bit_run_reader_test.go b/go/internal/bitutils/bit_run_reader_test.go
deleted file mode 100644
index e3e53c92621cd..0000000000000
--- a/go/internal/bitutils/bit_run_reader_test.go
+++ /dev/null
@@ -1,158 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils_test
-
-import (
-	"math/bits"
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/stretchr/testify/assert"
-)
-
-var toLittleEndian func(uint64) uint64
-
-func init() {
-	if endian.IsBigEndian {
-		toLittleEndian = bits.ReverseBytes64
-	} else {
-		toLittleEndian = func(in uint64) uint64 { return in }
-	}
-}
-
-func TestBitRunReaderZeroLength(t *testing.T) {
-	reader := bitutils.NewBitRunReader(nil, 0, 0)
-	assert.Zero(t, reader.NextRun().Len)
-}
-
-func bitmapFromSlice(vals []int, bitOffset int64) []byte {
-	out := make([]byte, int(bitutil.BytesForBits(int64(len(vals))+bitOffset)))
-	writer := bitutil.NewBitmapWriter(out, int(bitOffset), len(vals))
-	for _, val := range vals {
-		if val == 1 {
-			writer.Set()
-		} else {
-			writer.Clear()
-		}
-		writer.Next()
-	}
-	writer.Finish()
-
-	return out
-}
-
-func TestBitRunReader(t *testing.T) {
-	tests := []struct {
-		name     string
-		val      []int
-		bmvec    []int
-		offset   int64
-		len      int64
-		expected []bitutils.BitRun
-	}{
-		{"normal operation",
-			[]int{5, 0, 7, 1, 3, 0, 25, 1, 21, 0, 26, 1, 130, 0, 65, 1},
-			[]int{1, 0, 1},
-			0, -1,
-			[]bitutils.BitRun{
-				{1, true},
-				{1, false},
-				{1, true},
-				{5, false},
-				{7, true},
-				{3, false},
-				{25, true},
-				{21, false},
-				{26, true},
-				{130, false},
-				{65, true},
-			},
-		},
-		{"truncated at word", []int{7, 1, 58, 0}, []int{}, 1, 63,
-			[]bitutils.BitRun{{6, true}, {57, false}},
-		},
-		{"truncated within word multiple of 8 bits",
-			[]int{7, 1, 5, 0}, []int{}, 1, 7,
-			[]bitutils.BitRun{{6, true}, {1, false}},
-		},
-		{"truncated within word", []int{37 + 40, 0, 23, 1}, []int{}, 37, 53,
-			[]bitutils.BitRun{{40, false}, {13, true}},
-		},
-		{"truncated multiple words", []int{5, 0, 30, 1, 95, 0}, []int{1, 0, 1},
-			5, (3 + 5 + 30 + 95) - (5 + 3), []bitutils.BitRun{{3, false}, {30, true}, {92, false}},
-		},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			bmvec := tt.bmvec
-
-			for i := 0; i < len(tt.val); i += 2 {
-				for j := 0; j < tt.val[i]; j++ {
-					bmvec = append(bmvec, tt.val[i+1])
-				}
-			}
-
-			bitmap := bitmapFromSlice(bmvec, 0)
-			length := int64(len(bmvec)) - tt.offset
-			if tt.len != -1 {
-				length = tt.len
-			}
-			reader := bitutils.NewBitRunReader(bitmap, tt.offset, length)
-
-			results := make([]bitutils.BitRun, 0)
-			for {
-				results = append(results, reader.NextRun())
-				if results[len(results)-1].Len == 0 {
-					break
-				}
-			}
-			assert.Zero(t, results[len(results)-1].Len)
-			results = results[:len(results)-1]
-
-			assert.Equal(t, tt.expected, results)
-		})
-	}
-}
-
-func TestBitRunReaderAllFirstByteCombos(t *testing.T) {
-	for offset := int64(0); offset < 8; offset++ {
-		for x := int64(0); x < (1<<8)-1; x++ {
-			bits := int64(toLittleEndian(uint64(x)))
-			reader := bitutils.NewBitRunReader((*(*[8]byte)(unsafe.Pointer(&bits)))[:], offset, 8-offset)
-
-			results := make([]bitutils.BitRun, 0)
-			for {
-				results = append(results, reader.NextRun())
-				if results[len(results)-1].Len == 0 {
-					break
-				}
-			}
-			assert.Zero(t, results[len(results)-1].Len)
-			results = results[:len(results)-1]
-
-			var sum int64
-			for _, r := range results {
-				sum += r.Len
-			}
-			assert.EqualValues(t, sum, 8-offset)
-		}
-	}
-}
diff --git a/go/internal/bitutils/bit_set_run_reader.go b/go/internal/bitutils/bit_set_run_reader.go
deleted file mode 100644
index 2c6a39f5352e6..0000000000000
--- a/go/internal/bitutils/bit_set_run_reader.go
+++ /dev/null
@@ -1,361 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils
-
-import (
-	"encoding/binary"
-	"math/bits"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// IsMultipleOf64 returns whether v is a multiple of 64.
-func IsMultipleOf64(v int64) bool { return v&63 == 0 }
-
-// LeastSignificantBitMask returns a bit mask to return the least significant
-// bits for a value starting from the bit index passed in. ie: if you want a
-// mask for the 4 least significant bits, you call LeastSignificantBitMask(4)
-func LeastSignificantBitMask(index int64) uint64 {
-	return (uint64(1) << index) - 1
-}
-
-// SetBitRun describes a run of contiguous set bits in a bitmap with Pos being
-// the starting position of the run and Length being the number of bits.
-type SetBitRun struct {
-	Pos    int64
-	Length int64
-}
-
-// AtEnd returns true if this bit run is the end of the set by checking
-// that the length is 0.
-func (s SetBitRun) AtEnd() bool {
-	return s.Length == 0
-}
-
-// Equal returns whether rhs is the same run as s
-func (s SetBitRun) Equal(rhs SetBitRun) bool {
-	return s.Pos == rhs.Pos && s.Length == rhs.Length
-}
-
-// SetBitRunReader is an interface for reading groups of contiguous set bits
-// from a bitmap. The interface allows us to create different reader implementations
-// that share the same interface easily such as a reverse set reader.
-type SetBitRunReader interface {
-	// NextRun will return the next run of contiguous set bits in the bitmap
-	NextRun() SetBitRun
-	// Reset allows re-using the reader by providing a new bitmap, offset and length. The arguments
-	// match the New function for the reader being used.
-	Reset([]byte, int64, int64)
-	// VisitSetBitRuns calls visitFn for each set in a loop starting from the current position
-	// it's roughly equivalent to simply looping, calling NextRun and calling visitFn on the run
-	// for each run.
-	VisitSetBitRuns(visitFn VisitFn) error
-}
-
-type baseSetBitRunReader struct {
-	bitmap     []byte
-	pos        int64
-	length     int64
-	remaining  int64
-	curWord    uint64
-	curNumBits int32
-	reversed   bool
-
-	firstBit uint64
-}
-
-// NewSetBitRunReader returns a SetBitRunReader for the bitmap starting at startOffset which will read
-// numvalues bits.
-func NewSetBitRunReader(validBits []byte, startOffset, numValues int64) SetBitRunReader {
-	return newBaseSetBitRunReader(validBits, startOffset, numValues, false)
-}
-
-// NewReverseSetBitRunReader returns a SetBitRunReader like NewSetBitRunReader, except it will
-// return runs starting from the end of the bitmap until it reaches startOffset rather than starting
-// at startOffset and reading from there. The SetBitRuns will still operate the same, so Pos
-// will still be the position of the "left-most" bit of the run or the "start" of the run. It
-// just returns runs starting from the end instead of starting from the beginning.
-func NewReverseSetBitRunReader(validBits []byte, startOffset, numValues int64) SetBitRunReader {
-	return newBaseSetBitRunReader(validBits, startOffset, numValues, true)
-}
-
-func newBaseSetBitRunReader(bitmap []byte, startOffset, length int64, reverse bool) *baseSetBitRunReader {
-	ret := &baseSetBitRunReader{reversed: reverse}
-	ret.Reset(bitmap, startOffset, length)
-	return ret
-}
-
-func (br *baseSetBitRunReader) Reset(bitmap []byte, startOffset, length int64) {
-	br.bitmap = bitmap
-	br.length = length
-	br.remaining = length
-	br.curNumBits = 0
-	br.curWord = 0
-
-	if !br.reversed {
-		br.pos = startOffset / 8
-		br.firstBit = 1
-
-		bitOffset := int8(startOffset % 8)
-		if length > 0 && bitOffset != 0 {
-			br.curNumBits = int32(utils.Min(int(length), int(8-bitOffset)))
-			br.curWord = br.loadPartial(bitOffset, int64(br.curNumBits))
-		}
-		return
-	}
-
-	br.pos = (startOffset + length) / 8
-	br.firstBit = uint64(0x8000000000000000)
-	endBitOffset := int8((startOffset + length) % 8)
-	if length > 0 && endBitOffset != 0 {
-		br.pos++
-		br.curNumBits = int32(utils.Min(int(length), int(endBitOffset)))
-		br.curWord = br.loadPartial(8-endBitOffset, int64(br.curNumBits))
-	}
-}
-
-func (br *baseSetBitRunReader) consumeBits(word uint64, nbits int32) uint64 {
-	if br.reversed {
-		return word << nbits
-	}
-	return word >> nbits
-}
-
-func (br *baseSetBitRunReader) countFirstZeros(word uint64) int32 {
-	if br.reversed {
-		return int32(bits.LeadingZeros64(word))
-	}
-	return int32(bits.TrailingZeros64(word))
-}
-
-func (br *baseSetBitRunReader) loadPartial(bitOffset int8, numBits int64) uint64 {
-	var word [8]byte
-	nbytes := bitutil.BytesForBits(numBits)
-	if br.reversed {
-		br.pos -= nbytes
-		copy(word[8-nbytes:], br.bitmap[br.pos:br.pos+nbytes])
-		return (binary.LittleEndian.Uint64(word[:]) << bitOffset) &^ LeastSignificantBitMask(64-numBits)
-	}
-
-	copy(word[:], br.bitmap[br.pos:br.pos+nbytes])
-	br.pos += nbytes
-	return (binary.LittleEndian.Uint64(word[:]) >> bitOffset) & LeastSignificantBitMask(numBits)
-}
-
-func (br *baseSetBitRunReader) findCurrentRun() SetBitRun {
-	nzeros := br.countFirstZeros(br.curWord)
-	if nzeros >= br.curNumBits {
-		br.remaining -= int64(br.curNumBits)
-		br.curWord = 0
-		br.curNumBits = 0
-		return SetBitRun{0, 0}
-	}
-
-	br.curWord = br.consumeBits(br.curWord, nzeros)
-	br.curNumBits -= nzeros
-	br.remaining -= int64(nzeros)
-	pos := br.position()
-
-	numOnes := br.countFirstZeros(^br.curWord)
-	br.curWord = br.consumeBits(br.curWord, numOnes)
-	br.curNumBits -= numOnes
-	br.remaining -= int64(numOnes)
-	return SetBitRun{pos, int64(numOnes)}
-}
-
-func (br *baseSetBitRunReader) position() int64 {
-	if br.reversed {
-		return br.remaining
-	}
-	return br.length - br.remaining
-}
-
-func (br *baseSetBitRunReader) adjustRun(run SetBitRun) SetBitRun {
-	if br.reversed {
-		run.Pos -= run.Length
-	}
-	return run
-}
-
-func (br *baseSetBitRunReader) loadFull() (ret uint64) {
-	if br.reversed {
-		br.pos -= 8
-	}
-	ret = binary.LittleEndian.Uint64(br.bitmap[br.pos : br.pos+8])
-	if !br.reversed {
-		br.pos += 8
-	}
-	return
-}
-
-func (br *baseSetBitRunReader) skipNextZeros() {
-	for br.remaining >= 64 {
-		br.curWord = br.loadFull()
-		nzeros := br.countFirstZeros(br.curWord)
-		if nzeros < 64 {
-			br.curWord = br.consumeBits(br.curWord, nzeros)
-			br.curNumBits = 64 - nzeros
-			br.remaining -= int64(nzeros)
-			return
-		}
-		br.remaining -= 64
-	}
-	// run of zeros continues in last bitmap word
-	if br.remaining > 0 {
-		br.curWord = br.loadPartial(0, br.remaining)
-		br.curNumBits = int32(br.remaining)
-		nzeros := int32(utils.Min(int(br.curNumBits), int(br.countFirstZeros(br.curWord))))
-		br.curWord = br.consumeBits(br.curWord, nzeros)
-		br.curNumBits -= nzeros
-		br.remaining -= int64(nzeros)
-	}
-}
-
-func (br *baseSetBitRunReader) countNextOnes() int64 {
-	var length int64
-	if ^br.curWord != 0 {
-		numOnes := br.countFirstZeros(^br.curWord)
-		br.remaining -= int64(numOnes)
-		br.curWord = br.consumeBits(br.curWord, numOnes)
-		br.curNumBits -= numOnes
-		if br.curNumBits != 0 {
-			return int64(numOnes)
-		}
-		length = int64(numOnes)
-	} else {
-		br.remaining -= 64
-		br.curNumBits = 0
-		length = 64
-	}
-
-	for br.remaining >= 64 {
-		br.curWord = br.loadFull()
-		numOnes := br.countFirstZeros(^br.curWord)
-		length += int64(numOnes)
-		br.remaining -= int64(numOnes)
-		if numOnes < 64 {
-			br.curWord = br.consumeBits(br.curWord, numOnes)
-			br.curNumBits = 64 - numOnes
-			return length
-		}
-	}
-
-	if br.remaining > 0 {
-		br.curWord = br.loadPartial(0, br.remaining)
-		br.curNumBits = int32(br.remaining)
-		numOnes := br.countFirstZeros(^br.curWord)
-		br.curWord = br.consumeBits(br.curWord, numOnes)
-		br.curNumBits -= numOnes
-		br.remaining -= int64(numOnes)
-		length += int64(numOnes)
-	}
-	return length
-}
-
-func (br *baseSetBitRunReader) NextRun() SetBitRun {
-	var (
-		pos    int64 = 0
-		length int64 = 0
-	)
-
-	if br.curNumBits != 0 {
-		run := br.findCurrentRun()
-		if run.Length != 0 && br.curNumBits != 0 {
-			return br.adjustRun(run)
-		}
-		pos = run.Pos
-		length = run.Length
-	}
-
-	if length == 0 {
-		// we didn't get any ones in curWord, so we can skip any zeros
-		// in the following words
-		br.skipNextZeros()
-		if br.remaining == 0 {
-			return SetBitRun{0, 0}
-		}
-		pos = br.position()
-	} else if br.curNumBits == 0 {
-		if br.remaining >= 64 {
-			br.curWord = br.loadFull()
-			br.curNumBits = 64
-		} else if br.remaining > 0 {
-			br.curWord = br.loadPartial(0, br.remaining)
-			br.curNumBits = int32(br.remaining)
-		} else {
-			return br.adjustRun(SetBitRun{pos, length})
-		}
-		if (br.curWord & br.firstBit) == 0 {
-			return br.adjustRun(SetBitRun{pos, length})
-		}
-	}
-
-	length += br.countNextOnes()
-	return br.adjustRun(SetBitRun{pos, length})
-}
-
-// VisitFn is a callback function for visiting runs of contiguous bits
-type VisitFn func(pos int64, length int64) error
-
-func (br *baseSetBitRunReader) VisitSetBitRuns(visitFn VisitFn) error {
-	for {
-		run := br.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		if err := visitFn(run.Pos, run.Length); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-// VisitSetBitRuns is just a convenience function for calling NewSetBitRunReader and then VisitSetBitRuns
-func VisitSetBitRuns(bitmap []byte, bitmapOffset int64, length int64, visitFn VisitFn) error {
-	if bitmap == nil {
-		return visitFn(0, length)
-	}
-	rdr := NewSetBitRunReader(bitmap, bitmapOffset, length)
-	for {
-		run := rdr.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		if err := visitFn(run.Pos, run.Length); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func VisitSetBitRunsNoErr(bitmap []byte, bitmapOffset int64, length int64, visitFn func(pos, length int64)) {
-	if bitmap == nil {
-		visitFn(0, length)
-		return
-	}
-	rdr := NewSetBitRunReader(bitmap, bitmapOffset, length)
-	for {
-		run := rdr.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		visitFn(run.Pos, run.Length)
-	}
-}
diff --git a/go/internal/bitutils/bit_set_run_reader_test.go b/go/internal/bitutils/bit_set_run_reader_test.go
deleted file mode 100644
index c42f8b0d6dce7..0000000000000
--- a/go/internal/bitutils/bit_set_run_reader_test.go
+++ /dev/null
@@ -1,274 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils_test
-
-import (
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/stretchr/testify/suite"
-)
-
-func reverseAny(s interface{}) {
-	n := reflect.ValueOf(s).Len()
-	swap := reflect.Swapper(s)
-	for i, j := 0, n-1; i < j; i, j = i+1, j-1 {
-		swap(i, j)
-	}
-}
-
-type linearBitRunReader struct {
-	reader *bitutil.BitmapReader
-}
-
-func (l linearBitRunReader) NextRun() bitutils.BitRun {
-	r := bitutils.BitRun{0, l.reader.Set()}
-	for l.reader.Pos() < l.reader.Len() && l.reader.Set() == r.Set {
-		r.Len++
-		l.reader.Next()
-	}
-	return r
-}
-
-func bitmapFromString(s string) []byte {
-	maxLen := bitutil.BytesForBits(int64(len(s)))
-	ret := make([]byte, maxLen)
-	i := 0
-	for _, c := range s {
-		switch c {
-		case '0':
-			bitutil.ClearBit(ret, i)
-			i++
-		case '1':
-			bitutil.SetBit(ret, i)
-			i++
-		case ' ', '\t', '\r', '\n':
-		default:
-			panic("unexpected character for bitmap string")
-		}
-	}
-
-	actualLen := bitutil.BytesForBits(int64(i))
-	return ret[:actualLen]
-}
-
-func referenceBitRuns(data []byte, offset, length int) (ret []bitutils.SetBitRun) {
-	ret = make([]bitutils.SetBitRun, 0)
-	reader := linearBitRunReader{bitutil.NewBitmapReader(data, offset, length)}
-	pos := 0
-	for pos < length {
-		br := reader.NextRun()
-		if br.Set {
-			ret = append(ret, bitutils.SetBitRun{int64(pos), br.Len})
-		}
-		pos += int(br.Len)
-	}
-	return
-}
-
-type BitSetRunReaderSuite struct {
-	suite.Suite
-
-	testOffsets []int64
-}
-
-func TestBitSetRunReader(t *testing.T) {
-	suite.Run(t, new(BitSetRunReaderSuite))
-}
-
-func (br *BitSetRunReaderSuite) SetupSuite() {
-	br.testOffsets = []int64{0, 1, 6, 7, 8, 33, 63, 64, 65, 71}
-	br.T().Parallel()
-}
-
-type Range struct {
-	Offset int64
-	Len    int64
-}
-
-func (r Range) EndOffset() int64 { return r.Offset + r.Len }
-
-func (br *BitSetRunReaderSuite) bufferTestRanges(buf []byte) []Range {
-	bufSize := int64(len(buf) * 8) // in bits
-	rg := make([]Range, 0)
-	for _, offset := range br.testOffsets {
-		for _, lenAdjust := range br.testOffsets {
-			length := utils.Min(bufSize-offset, lenAdjust)
-			br.GreaterOrEqual(length, int64(0))
-			rg = append(rg, Range{offset, length})
-			length = utils.Min(bufSize-offset, bufSize-lenAdjust)
-			br.GreaterOrEqual(length, int64(0))
-			rg = append(rg, Range{offset, length})
-		}
-	}
-	return rg
-}
-
-func (br *BitSetRunReaderSuite) assertBitRuns(buf []byte, start, length int64, expected []bitutils.SetBitRun) {
-	{
-		runs := make([]bitutils.SetBitRun, 0)
-		reader := bitutils.NewSetBitRunReader(buf, start, length)
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			runs = append(runs, run)
-		}
-		br.Equal(expected, runs)
-	}
-	{
-		runs := make([]bitutils.SetBitRun, 0)
-		reader := bitutils.NewReverseSetBitRunReader(buf, start, length)
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			runs = append(runs, run)
-		}
-		reverseAny(expected)
-		br.Equal(expected, runs)
-	}
-}
-
-func (br *BitSetRunReaderSuite) TestEmpty() {
-	for _, offset := range br.testOffsets {
-		br.assertBitRuns(nil, offset, 0, []bitutils.SetBitRun{})
-	}
-}
-
-func (br *BitSetRunReaderSuite) TestOneByte() {
-	buffer := bitmapFromString("01101101")
-	br.assertBitRuns(buffer, 0, 8, []bitutils.SetBitRun{
-		{1, 2}, {4, 2}, {7, 1},
-	})
-
-	for _, str := range []string{"01101101", "10110110", "00000000", "11111111"} {
-		buf := bitmapFromString(str)
-		for offset := 0; offset < 8; offset++ {
-			for length := 0; length <= 8-offset; length++ {
-				expected := referenceBitRuns(buf, offset, length)
-				br.assertBitRuns(buf, int64(offset), int64(length), expected)
-			}
-		}
-	}
-}
-
-func (br *BitSetRunReaderSuite) TestTiny() {
-	buf := bitmapFromString("11100011 10001110 00111000 11100011 10001110 00111000")
-
-	br.assertBitRuns(buf, 0, 48, []bitutils.SetBitRun{
-		{0, 3}, {6, 3}, {12, 3}, {18, 3}, {24, 3}, {30, 3}, {36, 3}, {42, 3},
-	})
-	br.assertBitRuns(buf, 0, 46, []bitutils.SetBitRun{
-		{0, 3}, {6, 3}, {12, 3}, {18, 3}, {24, 3}, {30, 3}, {36, 3}, {42, 3},
-	})
-	br.assertBitRuns(buf, 0, 45, []bitutils.SetBitRun{
-		{0, 3}, {6, 3}, {12, 3}, {18, 3}, {24, 3}, {30, 3}, {36, 3}, {42, 3},
-	})
-	br.assertBitRuns(buf, 0, 42, []bitutils.SetBitRun{
-		{0, 3}, {6, 3}, {12, 3}, {18, 3}, {24, 3}, {30, 3}, {36, 3},
-	})
-	br.assertBitRuns(buf, 3, 45, []bitutils.SetBitRun{
-		{3, 3}, {9, 3}, {15, 3}, {21, 3}, {27, 3}, {33, 3}, {39, 3},
-	})
-	br.assertBitRuns(buf, 3, 43, []bitutils.SetBitRun{
-		{3, 3}, {9, 3}, {15, 3}, {21, 3}, {27, 3}, {33, 3}, {39, 3},
-	})
-	br.assertBitRuns(buf, 3, 42, []bitutils.SetBitRun{
-		{3, 3}, {9, 3}, {15, 3}, {21, 3}, {27, 3}, {33, 3}, {39, 3},
-	})
-	br.assertBitRuns(buf, 3, 39, []bitutils.SetBitRun{
-		{3, 3}, {9, 3}, {15, 3}, {21, 3}, {27, 3}, {33, 3},
-	})
-}
-
-func (br *BitSetRunReaderSuite) TestAllZeros() {
-	const bufferSize = 256
-	buf := make([]byte, int(bitutil.BytesForBits(bufferSize)))
-
-	for _, rg := range br.bufferTestRanges(buf) {
-		br.assertBitRuns(buf, rg.Offset, rg.Len, []bitutils.SetBitRun{})
-	}
-}
-
-func (br *BitSetRunReaderSuite) TestAllOnes() {
-	const bufferSize = 256
-	buf := make([]byte, int(bitutil.BytesForBits(bufferSize)))
-	bitutil.SetBitsTo(buf, 0, bufferSize, true)
-
-	for _, rg := range br.bufferTestRanges(buf) {
-		if rg.Len > 0 {
-			br.assertBitRuns(buf, rg.Offset, rg.Len, []bitutils.SetBitRun{{0, rg.Len}})
-		} else {
-			br.assertBitRuns(buf, rg.Offset, rg.Len, []bitutils.SetBitRun{})
-		}
-	}
-}
-
-func (br *BitSetRunReaderSuite) TestSmall() {
-	// ones then zeros then ones
-	const (
-		bufferSize      = 256
-		onesLen         = 64
-		secondOnesStart = bufferSize - onesLen
-	)
-
-	buf := make([]byte, int(bitutil.BytesForBits(bufferSize)))
-	bitutil.SetBitsTo(buf, 0, bufferSize, false)
-	bitutil.SetBitsTo(buf, 0, onesLen, true)
-	bitutil.SetBitsTo(buf, secondOnesStart, onesLen, true)
-
-	for _, rg := range br.bufferTestRanges(buf) {
-		expected := []bitutils.SetBitRun{}
-		if rg.Offset < onesLen && rg.Len > 0 {
-			expected = append(expected, bitutils.SetBitRun{0, utils.Min(onesLen-rg.Offset, rg.Len)})
-		}
-		if rg.Offset+rg.Len > secondOnesStart {
-			expected = append(expected, bitutils.SetBitRun{secondOnesStart - rg.Offset, rg.Len + rg.Offset - secondOnesStart})
-		}
-		br.assertBitRuns(buf, rg.Offset, rg.Len, expected)
-	}
-}
-
-func (br *BitSetRunReaderSuite) TestSingleRun() {
-	// one single run of ones, at varying places in the buffer
-	const bufferSize = 512
-	buf := make([]byte, int(bitutil.BytesForBits(bufferSize)))
-
-	for _, onesRg := range br.bufferTestRanges(buf) {
-		bitutil.SetBitsTo(buf, 0, bufferSize, false)
-		bitutil.SetBitsTo(buf, onesRg.Offset, onesRg.Len, true)
-
-		for _, rg := range br.bufferTestRanges(buf) {
-			expect := []bitutils.SetBitRun{}
-			if rg.Len != 0 && onesRg.Len != 0 && rg.Offset < onesRg.EndOffset() && onesRg.Offset < rg.EndOffset() {
-				// the two ranges intersect
-				var (
-					intersectStart = utils.Max(rg.Offset, onesRg.Offset)
-					intersectStop  = utils.Min(rg.EndOffset(), onesRg.EndOffset())
-				)
-				expect = append(expect, bitutils.SetBitRun{intersectStart - rg.Offset, intersectStop - intersectStart})
-			}
-			br.assertBitRuns(buf, rg.Offset, rg.Len, expect)
-		}
-	}
-}
diff --git a/go/internal/bitutils/bitmap_generate.go b/go/internal/bitutils/bitmap_generate.go
deleted file mode 100644
index a6d43b4622f93..0000000000000
--- a/go/internal/bitutils/bitmap_generate.go
+++ /dev/null
@@ -1,109 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils
-
-import "github.com/apache/arrow/go/v18/arrow/bitutil"
-
-// GenerateBits writes sequential bits to a bitmap. Bits preceding the
-// initial start offset are preserved, bits following the bitmap may
-// get clobbered.
-func GenerateBits(bitmap []byte, start, length int64, g func() bool) {
-	if length == 0 {
-		return
-	}
-
-	cur := bitmap[start/8:]
-	mask := bitutil.BitMask[start%8]
-	curbyte := cur[0] & bitutil.PrecedingBitmask[start%8]
-
-	for i := int64(0); i < length; i++ {
-		bit := g()
-		if bit {
-			curbyte = curbyte | mask
-		}
-		mask <<= 1
-		if mask == 0 {
-			mask = 1
-			cur[0] = curbyte
-			cur = cur[1:]
-			curbyte = 0
-		}
-	}
-
-	if mask != 1 {
-		cur[0] = curbyte
-	}
-}
-
-// GenerateBitsUnrolled is like GenerateBits but unrolls its main loop for
-// higher performance.
-//
-// See the benchmarks for evidence.
-func GenerateBitsUnrolled(bitmap []byte, start, length int64, g func() bool) {
-	if length == 0 {
-		return
-	}
-
-	var (
-		curbyte        byte
-		cur                   = bitmap[start/8:]
-		startBitOffset uint64 = uint64(start % 8)
-		mask                  = bitutil.BitMask[startBitOffset]
-		remaining             = length
-	)
-
-	if mask != 0x01 {
-		curbyte = cur[0] & bitutil.PrecedingBitmask[startBitOffset]
-		for mask != 0 && remaining > 0 {
-			if g() {
-				curbyte |= mask
-			}
-			mask <<= 1
-			remaining--
-		}
-		cur[0] = curbyte
-		cur = cur[1:]
-	}
-
-	var outResults [8]byte
-	for remainingBytes := remaining / 8; remainingBytes > 0; remainingBytes-- {
-		for i := 0; i < 8; i++ {
-			if g() {
-				outResults[i] = 1
-			} else {
-				outResults[i] = 0
-			}
-		}
-		cur[0] = (outResults[0] | outResults[1]<<1 | outResults[2]<<2 |
-			outResults[3]<<3 | outResults[4]<<4 | outResults[5]<<5 |
-			outResults[6]<<6 | outResults[7]<<7)
-		cur = cur[1:]
-	}
-
-	remainingBits := remaining % 8
-	if remainingBits > 0 {
-		curbyte = 0
-		mask = 0x01
-		for ; remainingBits > 0; remainingBits-- {
-			if g() {
-				curbyte |= mask
-			}
-			mask <<= 1
-		}
-		cur[0] = curbyte
-	}
-}
diff --git a/go/internal/bitutils/bitmap_generate_test.go b/go/internal/bitutils/bitmap_generate_test.go
deleted file mode 100644
index d75f5a72147b1..0000000000000
--- a/go/internal/bitutils/bitmap_generate_test.go
+++ /dev/null
@@ -1,68 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bitutils_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"golang.org/x/exp/rand"
-)
-
-const kBufferSize int64 = 1024 * 8
-
-var pattern = []bool{false, false, false, true, true, true}
-
-func runBench(b *testing.B, bitmap []byte, nbits int64, fn func([]byte, int64, int64, func() bool)) {
-	for n := 0; n < b.N; n++ {
-		patternIndex := 0
-		gen := func() bool {
-			b := pattern[patternIndex]
-			patternIndex++
-			if patternIndex == len(pattern) {
-				patternIndex = 0
-			}
-			return b
-		}
-
-		fn(bitmap, 0, nbits, gen)
-	}
-}
-
-func BenchmarkGenerateBits(b *testing.B) {
-	nbits := kBufferSize * 8
-	// random bytes
-	r := rand.New(rand.NewSource(0))
-	bitmap := make([]byte, kBufferSize)
-	r.Read(bitmap)
-
-	b.ResetTimer()
-	b.SetBytes(kBufferSize)
-	runBench(b, bitmap, nbits, bitutils.GenerateBits)
-}
-
-func BenchmarkGenerateBitsUnrolled(b *testing.B) {
-	nbits := kBufferSize * 8
-	// random bytes
-	r := rand.New(rand.NewSource(0))
-	bitmap := make([]byte, kBufferSize)
-	r.Read(bitmap)
-
-	b.ResetTimer()
-	b.SetBytes(kBufferSize)
-	runBench(b, bitmap, nbits, bitutils.GenerateBitsUnrolled)
-}
diff --git a/go/internal/hashing/hash_funcs.go b/go/internal/hashing/hash_funcs.go
deleted file mode 100644
index c1bdfeb6ddf6e..0000000000000
--- a/go/internal/hashing/hash_funcs.go
+++ /dev/null
@@ -1,90 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package hashing
-
-import (
-	"math/bits"
-	"unsafe"
-
-	"github.com/zeebo/xxh3"
-)
-
-func hashInt(val uint64, alg uint64) uint64 {
-	// Two of xxhash's prime multipliers (which are chosen for their
-	// bit dispersion properties)
-	var multipliers = [2]uint64{11400714785074694791, 14029467366897019727}
-	// Multiplying by the prime number mixes the low bits into the high bits,
-	// then byte-swapping (which is a single CPU instruction) allows the
-	// combined high and low bits to participate in the initial hash table index.
-	return bits.ReverseBytes64(multipliers[alg] * val)
-}
-
-func hashFloat32(val float32, alg uint64) uint64 {
-	// grab the raw byte pattern of the
-	bt := *(*[4]byte)(unsafe.Pointer(&val))
-	x := uint64(*(*uint32)(unsafe.Pointer(&bt[0])))
-	hx := hashInt(x, alg)
-	hy := hashInt(x, alg^1)
-	return 4 ^ hx ^ hy
-}
-
-func hashFloat64(val float64, alg uint64) uint64 {
-	bt := *(*[8]byte)(unsafe.Pointer(&val))
-	hx := hashInt(uint64(*(*uint32)(unsafe.Pointer(&bt[4]))), alg)
-	hy := hashInt(uint64(*(*uint32)(unsafe.Pointer(&bt[0]))), alg^1)
-	return 8 ^ hx ^ hy
-}
-
-// prime constants used for slightly increasing the hash quality further
-var exprimes = [2]uint64{1609587929392839161, 9650029242287828579}
-
-// for smaller amounts of bytes this is faster than even calling into
-// xxh3 to do the Hash, so we specialize in order to get the benefits
-// of that performance.
-func Hash(b []byte, alg uint64) uint64 {
-	n := uint32(len(b))
-	if n <= 16 {
-		switch {
-		case n > 8:
-			// 8 < length <= 16
-			// apply same principle as above, but as two 64-bit ints
-			x := *(*uint64)(unsafe.Pointer(&b[n-8]))
-			y := *(*uint64)(unsafe.Pointer(&b[0]))
-			hx := hashInt(x, alg)
-			hy := hashInt(y, alg^1)
-			return uint64(n) ^ hx ^ hy
-		case n >= 4:
-			// 4 < length <= 8
-			// we can read the bytes as two overlapping 32-bit ints, apply different
-			// hash functions to each in parallel
-			// then xor the results
-			x := *(*uint32)(unsafe.Pointer(&b[n-4]))
-			y := *(*uint32)(unsafe.Pointer(&b[0]))
-			hx := hashInt(uint64(x), alg)
-			hy := hashInt(uint64(y), alg^1)
-			return uint64(n) ^ hx ^ hy
-		case n > 0:
-			x := uint32((n << 24) ^ (uint32(b[0]) << 16) ^ (uint32(b[n/2]) << 8) ^ uint32(b[n-1]))
-			return hashInt(uint64(x), alg)
-		case n == 0:
-			return 1
-		}
-	}
-
-	// increase differentiation enough to improve hash quality
-	return xxh3.Hash(b) + exprimes[alg]
-}
diff --git a/go/internal/hashing/hash_string.go b/go/internal/hashing/hash_string.go
deleted file mode 100644
index c8579c1ec5eaa..0000000000000
--- a/go/internal/hashing/hash_string.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.20 || tinygo
-
-package hashing
-
-import "unsafe"
-
-func hashString(val string, alg uint64) uint64 {
-	buf := unsafe.Slice(unsafe.StringData(val), len(val))
-	return Hash(buf, alg)
-}
-
-func strToBytes(v string) []byte {
-	return unsafe.Slice(unsafe.StringData(v), len(v))
-}
diff --git a/go/internal/hashing/hashing_test.go b/go/internal/hashing/hashing_test.go
deleted file mode 100644
index 4527f5f8196b7..0000000000000
--- a/go/internal/hashing/hashing_test.go
+++ /dev/null
@@ -1,114 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package hashing
-
-import (
-	"math/rand"
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-)
-
-func MakeDistinctIntegers(nvals int) map[int]bool {
-	r := rand.New(rand.NewSource(42))
-	values := make(map[int]bool)
-	for len(values) < nvals {
-		values[r.Int()] = true
-	}
-	return values
-}
-
-func MakeSequentialIntegers(nvals int) map[int]bool {
-	values := make(map[int]bool)
-	for i := 0; i < nvals; i++ {
-		values[i] = true
-	}
-	return values
-}
-
-func MakeDistinctStrings(nvals int) map[string]bool {
-	values := make(map[string]bool)
-
-	r := rand.New(rand.NewSource(42))
-
-	max := 'z'
-	min := '0'
-	for len(values) < nvals {
-		data := make([]byte, r.Intn(24))
-		for idx := range data {
-			data[idx] = byte(r.Intn(int(max-min+1)) + int(min))
-		}
-		values[string(data)] = true
-	}
-	return values
-}
-
-func TestHashingQualityInt(t *testing.T) {
-	const nvalues = 10000
-
-	tests := []struct {
-		name    string
-		values  map[int]bool
-		quality float64
-	}{
-		{"distinct", MakeDistinctIntegers(nvalues), 0.96},
-		{"sequential", MakeSequentialIntegers(nvalues), 0.96},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			hashes := make(map[uint64]bool)
-			for k := range tt.values {
-				hashes[hashInt(uint64(k), 0)] = true
-				hashes[hashInt(uint64(k), 1)] = true
-			}
-			assert.GreaterOrEqual(t, float64(len(hashes)), tt.quality*float64(2*len(tt.values)))
-		})
-	}
-}
-
-func TestHashingBoundsStrings(t *testing.T) {
-	sizes := []int{1, 2, 3, 4, 5, 7, 8, 9, 15, 16, 17, 18, 19, 20, 21}
-	for _, s := range sizes {
-		str := make([]byte, s)
-		for idx := range str {
-			str[idx] = uint8(idx)
-		}
-
-		h := Hash(str, 1)
-		diff := 0
-		for i := 0; i < 120; i++ {
-			str[len(str)-1] = uint8(i)
-			if Hash(str, 1) != h {
-				diff++
-			}
-		}
-		assert.GreaterOrEqual(t, diff, 118)
-	}
-}
-
-func TestHashingQualityString(t *testing.T) {
-	const nvalues = 10000
-	values := MakeDistinctStrings(nvalues)
-
-	hashes := make(map[uint64]bool)
-	for k := range values {
-		hashes[hashString(k, 0)] = true
-		hashes[hashString(k, 1)] = true
-	}
-	assert.GreaterOrEqual(t, float64(len(hashes)), 0.96*float64(2*len(values)))
-}
diff --git a/go/internal/hashing/types.tmpldata b/go/internal/hashing/types.tmpldata
deleted file mode 100644
index 0ba6f765d2080..0000000000000
--- a/go/internal/hashing/types.tmpldata
+++ /dev/null
@@ -1,42 +0,0 @@
-[
-  {
-    "Name": "Int8",
-    "name": "int8"
-  },
-  {
-    "Name": "Uint8",
-    "name": "uint8"
-  },
-  {
-    "Name": "Int16",
-    "name": "int16"
-  },
-  {
-    "Name": "Uint16",
-    "name": "uint16"
-  },
-  {
-    "Name": "Int32",
-    "name": "int32"
-  },
-  {
-    "Name": "Int64",
-    "name": "int64"
-  },
-  {
-    "Name": "Uint32",
-    "name": "uint32"
-  },
-  {
-    "Name": "Uint64",
-    "name": "uint64"
-  },
-  {
-    "Name": "Float32",
-    "name": "float32"
-  },
-  {
-    "Name": "Float64",
-    "name": "float64"
-  }
-]
diff --git a/go/internal/hashing/xxh3_memo_table.gen.go b/go/internal/hashing/xxh3_memo_table.gen.go
deleted file mode 100644
index c8f56ed21565e..0000000000000
--- a/go/internal/hashing/xxh3_memo_table.gen.go
+++ /dev/null
@@ -1,2833 +0,0 @@
-// Code generated by xxh3_memo_table.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package hashing
-
-import (
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-type payloadInt8 struct {
-	val     int8
-	memoIdx int32
-}
-
-type entryInt8 struct {
-	h       uint64
-	payload payloadInt8
-}
-
-func (e entryInt8) Valid() bool { return e.h != sentinel }
-
-// Int8HashTable is a hashtable specifically for int8 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Int8HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryInt8
-}
-
-// NewInt8HashTable returns a new hash table for int8 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewInt8HashTable(cap uint64) *Int8HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Int8HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryInt8, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Int8HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryInt8, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Int8HashTable) CopyValues(out []int8) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Int8HashTable) CopyValuesSubset(start int, out []int8) {
-	h.VisitEntries(func(e *entryInt8) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Int8HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Int8HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Int8Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryInt8) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Int8HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Int8HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Int8HashTable) Lookup(v uint64, cmp func(int8) bool) (*entryInt8, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Int8HashTable) lookup(v uint64, szMask uint64, cmp func(int8) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryInt8
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Int8HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryInt8, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(int8) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Int8HashTable) Insert(e *entryInt8, v uint64, val int8, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Int8HashTable) VisitEntries(visit func(*entryInt8)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Int8MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Int8MemoTable struct {
-	tbl     *Int8HashTable
-	nullIdx int32
-}
-
-// NewInt8MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewInt8MemoTable(num int64) *Int8MemoTable {
-	return &Int8MemoTable{tbl: NewInt8HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Int8MemoTable) TypeTraits() TypeTraits {
-	return arrow.Int8Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Int8MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Int8MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Int8MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Int8MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Int8MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Int8MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]int8))
-}
-
-func (s *Int8MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Int8Traits.CastFromBytes(out))
-}
-
-func (s *Int8MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Int8Traits.CastFromBytes(out))
-}
-
-func (s *Int8MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Int8MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Int8MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(int8)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v int8) bool { return val.(int8) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Int8MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(int8)), 0)
-	e, ok := s.tbl.Lookup(h, func(v int8) bool {
-		return val.(int8) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(int8), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Int8MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadUint8 struct {
-	val     uint8
-	memoIdx int32
-}
-
-type entryUint8 struct {
-	h       uint64
-	payload payloadUint8
-}
-
-func (e entryUint8) Valid() bool { return e.h != sentinel }
-
-// Uint8HashTable is a hashtable specifically for uint8 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Uint8HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryUint8
-}
-
-// NewUint8HashTable returns a new hash table for uint8 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewUint8HashTable(cap uint64) *Uint8HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Uint8HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryUint8, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Uint8HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryUint8, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Uint8HashTable) CopyValues(out []uint8) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Uint8HashTable) CopyValuesSubset(start int, out []uint8) {
-	h.VisitEntries(func(e *entryUint8) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Uint8HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Uint8HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Uint8Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryUint8) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Uint8HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Uint8HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Uint8HashTable) Lookup(v uint64, cmp func(uint8) bool) (*entryUint8, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Uint8HashTable) lookup(v uint64, szMask uint64, cmp func(uint8) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryUint8
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Uint8HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryUint8, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(uint8) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Uint8HashTable) Insert(e *entryUint8, v uint64, val uint8, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Uint8HashTable) VisitEntries(visit func(*entryUint8)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Uint8MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Uint8MemoTable struct {
-	tbl     *Uint8HashTable
-	nullIdx int32
-}
-
-// NewUint8MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewUint8MemoTable(num int64) *Uint8MemoTable {
-	return &Uint8MemoTable{tbl: NewUint8HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Uint8MemoTable) TypeTraits() TypeTraits {
-	return arrow.Uint8Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Uint8MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Uint8MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Uint8MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Uint8MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Uint8MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Uint8MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]uint8))
-}
-
-func (s *Uint8MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Uint8Traits.CastFromBytes(out))
-}
-
-func (s *Uint8MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Uint8Traits.CastFromBytes(out))
-}
-
-func (s *Uint8MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Uint8MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Uint8MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(uint8)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v uint8) bool { return val.(uint8) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Uint8MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(uint8)), 0)
-	e, ok := s.tbl.Lookup(h, func(v uint8) bool {
-		return val.(uint8) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(uint8), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Uint8MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadInt16 struct {
-	val     int16
-	memoIdx int32
-}
-
-type entryInt16 struct {
-	h       uint64
-	payload payloadInt16
-}
-
-func (e entryInt16) Valid() bool { return e.h != sentinel }
-
-// Int16HashTable is a hashtable specifically for int16 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Int16HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryInt16
-}
-
-// NewInt16HashTable returns a new hash table for int16 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewInt16HashTable(cap uint64) *Int16HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Int16HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryInt16, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Int16HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryInt16, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Int16HashTable) CopyValues(out []int16) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Int16HashTable) CopyValuesSubset(start int, out []int16) {
-	h.VisitEntries(func(e *entryInt16) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Int16HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Int16HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Int16Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryInt16) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEInt16(e.payload.val)
-		}
-	})
-}
-
-func (h *Int16HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Int16HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Int16HashTable) Lookup(v uint64, cmp func(int16) bool) (*entryInt16, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Int16HashTable) lookup(v uint64, szMask uint64, cmp func(int16) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryInt16
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Int16HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryInt16, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(int16) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Int16HashTable) Insert(e *entryInt16, v uint64, val int16, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Int16HashTable) VisitEntries(visit func(*entryInt16)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Int16MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Int16MemoTable struct {
-	tbl     *Int16HashTable
-	nullIdx int32
-}
-
-// NewInt16MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewInt16MemoTable(num int64) *Int16MemoTable {
-	return &Int16MemoTable{tbl: NewInt16HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Int16MemoTable) TypeTraits() TypeTraits {
-	return arrow.Int16Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Int16MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Int16MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Int16MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Int16MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Int16MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Int16MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]int16))
-}
-
-func (s *Int16MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Int16Traits.CastFromBytes(out))
-}
-
-func (s *Int16MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Int16Traits.CastFromBytes(out))
-}
-
-func (s *Int16MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Int16MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Int16MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(int16)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v int16) bool { return val.(int16) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Int16MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(int16)), 0)
-	e, ok := s.tbl.Lookup(h, func(v int16) bool {
-		return val.(int16) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(int16), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Int16MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadUint16 struct {
-	val     uint16
-	memoIdx int32
-}
-
-type entryUint16 struct {
-	h       uint64
-	payload payloadUint16
-}
-
-func (e entryUint16) Valid() bool { return e.h != sentinel }
-
-// Uint16HashTable is a hashtable specifically for uint16 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Uint16HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryUint16
-}
-
-// NewUint16HashTable returns a new hash table for uint16 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewUint16HashTable(cap uint64) *Uint16HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Uint16HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryUint16, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Uint16HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryUint16, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Uint16HashTable) CopyValues(out []uint16) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Uint16HashTable) CopyValuesSubset(start int, out []uint16) {
-	h.VisitEntries(func(e *entryUint16) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Uint16HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Uint16HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Uint16Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryUint16) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEUint16(e.payload.val)
-		}
-	})
-}
-
-func (h *Uint16HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Uint16HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Uint16HashTable) Lookup(v uint64, cmp func(uint16) bool) (*entryUint16, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Uint16HashTable) lookup(v uint64, szMask uint64, cmp func(uint16) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryUint16
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Uint16HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryUint16, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(uint16) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Uint16HashTable) Insert(e *entryUint16, v uint64, val uint16, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Uint16HashTable) VisitEntries(visit func(*entryUint16)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Uint16MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Uint16MemoTable struct {
-	tbl     *Uint16HashTable
-	nullIdx int32
-}
-
-// NewUint16MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewUint16MemoTable(num int64) *Uint16MemoTable {
-	return &Uint16MemoTable{tbl: NewUint16HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Uint16MemoTable) TypeTraits() TypeTraits {
-	return arrow.Uint16Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Uint16MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Uint16MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Uint16MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Uint16MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Uint16MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Uint16MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]uint16))
-}
-
-func (s *Uint16MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Uint16Traits.CastFromBytes(out))
-}
-
-func (s *Uint16MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Uint16Traits.CastFromBytes(out))
-}
-
-func (s *Uint16MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Uint16MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Uint16MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(uint16)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v uint16) bool { return val.(uint16) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Uint16MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(uint16)), 0)
-	e, ok := s.tbl.Lookup(h, func(v uint16) bool {
-		return val.(uint16) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(uint16), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Uint16MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadInt32 struct {
-	val     int32
-	memoIdx int32
-}
-
-type entryInt32 struct {
-	h       uint64
-	payload payloadInt32
-}
-
-func (e entryInt32) Valid() bool { return e.h != sentinel }
-
-// Int32HashTable is a hashtable specifically for int32 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Int32HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryInt32
-}
-
-// NewInt32HashTable returns a new hash table for int32 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewInt32HashTable(cap uint64) *Int32HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Int32HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryInt32, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Int32HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryInt32, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Int32HashTable) CopyValues(out []int32) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Int32HashTable) CopyValuesSubset(start int, out []int32) {
-	h.VisitEntries(func(e *entryInt32) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Int32HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Int32HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Int32Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryInt32) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEInt32(e.payload.val)
-		}
-	})
-}
-
-func (h *Int32HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Int32HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Int32HashTable) Lookup(v uint64, cmp func(int32) bool) (*entryInt32, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Int32HashTable) lookup(v uint64, szMask uint64, cmp func(int32) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryInt32
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Int32HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryInt32, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(int32) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Int32HashTable) Insert(e *entryInt32, v uint64, val int32, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Int32HashTable) VisitEntries(visit func(*entryInt32)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Int32MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Int32MemoTable struct {
-	tbl     *Int32HashTable
-	nullIdx int32
-}
-
-// NewInt32MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewInt32MemoTable(num int64) *Int32MemoTable {
-	return &Int32MemoTable{tbl: NewInt32HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Int32MemoTable) TypeTraits() TypeTraits {
-	return arrow.Int32Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Int32MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Int32MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Int32MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Int32MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Int32MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Int32MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]int32))
-}
-
-func (s *Int32MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Int32Traits.CastFromBytes(out))
-}
-
-func (s *Int32MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Int32Traits.CastFromBytes(out))
-}
-
-func (s *Int32MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Int32MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Int32MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(int32)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v int32) bool { return val.(int32) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Int32MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(int32)), 0)
-	e, ok := s.tbl.Lookup(h, func(v int32) bool {
-		return val.(int32) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(int32), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Int32MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadInt64 struct {
-	val     int64
-	memoIdx int32
-}
-
-type entryInt64 struct {
-	h       uint64
-	payload payloadInt64
-}
-
-func (e entryInt64) Valid() bool { return e.h != sentinel }
-
-// Int64HashTable is a hashtable specifically for int64 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Int64HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryInt64
-}
-
-// NewInt64HashTable returns a new hash table for int64 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewInt64HashTable(cap uint64) *Int64HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Int64HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryInt64, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Int64HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryInt64, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Int64HashTable) CopyValues(out []int64) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Int64HashTable) CopyValuesSubset(start int, out []int64) {
-	h.VisitEntries(func(e *entryInt64) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Int64HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Int64HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Int64Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryInt64) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEInt64(e.payload.val)
-		}
-	})
-}
-
-func (h *Int64HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Int64HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Int64HashTable) Lookup(v uint64, cmp func(int64) bool) (*entryInt64, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Int64HashTable) lookup(v uint64, szMask uint64, cmp func(int64) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryInt64
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Int64HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryInt64, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(int64) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Int64HashTable) Insert(e *entryInt64, v uint64, val int64, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Int64HashTable) VisitEntries(visit func(*entryInt64)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Int64MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Int64MemoTable struct {
-	tbl     *Int64HashTable
-	nullIdx int32
-}
-
-// NewInt64MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewInt64MemoTable(num int64) *Int64MemoTable {
-	return &Int64MemoTable{tbl: NewInt64HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Int64MemoTable) TypeTraits() TypeTraits {
-	return arrow.Int64Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Int64MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Int64MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Int64MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Int64MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Int64MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Int64MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]int64))
-}
-
-func (s *Int64MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Int64Traits.CastFromBytes(out))
-}
-
-func (s *Int64MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Int64Traits.CastFromBytes(out))
-}
-
-func (s *Int64MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Int64MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Int64MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(int64)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v int64) bool { return val.(int64) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Int64MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(int64)), 0)
-	e, ok := s.tbl.Lookup(h, func(v int64) bool {
-		return val.(int64) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(int64), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Int64MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadUint32 struct {
-	val     uint32
-	memoIdx int32
-}
-
-type entryUint32 struct {
-	h       uint64
-	payload payloadUint32
-}
-
-func (e entryUint32) Valid() bool { return e.h != sentinel }
-
-// Uint32HashTable is a hashtable specifically for uint32 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Uint32HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryUint32
-}
-
-// NewUint32HashTable returns a new hash table for uint32 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewUint32HashTable(cap uint64) *Uint32HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Uint32HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryUint32, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Uint32HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryUint32, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Uint32HashTable) CopyValues(out []uint32) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Uint32HashTable) CopyValuesSubset(start int, out []uint32) {
-	h.VisitEntries(func(e *entryUint32) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Uint32HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Uint32HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Uint32Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryUint32) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEUint32(e.payload.val)
-		}
-	})
-}
-
-func (h *Uint32HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Uint32HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Uint32HashTable) Lookup(v uint64, cmp func(uint32) bool) (*entryUint32, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Uint32HashTable) lookup(v uint64, szMask uint64, cmp func(uint32) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryUint32
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Uint32HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryUint32, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(uint32) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Uint32HashTable) Insert(e *entryUint32, v uint64, val uint32, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Uint32HashTable) VisitEntries(visit func(*entryUint32)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Uint32MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Uint32MemoTable struct {
-	tbl     *Uint32HashTable
-	nullIdx int32
-}
-
-// NewUint32MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewUint32MemoTable(num int64) *Uint32MemoTable {
-	return &Uint32MemoTable{tbl: NewUint32HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Uint32MemoTable) TypeTraits() TypeTraits {
-	return arrow.Uint32Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Uint32MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Uint32MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Uint32MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Uint32MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Uint32MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Uint32MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]uint32))
-}
-
-func (s *Uint32MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Uint32Traits.CastFromBytes(out))
-}
-
-func (s *Uint32MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Uint32Traits.CastFromBytes(out))
-}
-
-func (s *Uint32MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Uint32MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Uint32MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(uint32)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v uint32) bool { return val.(uint32) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Uint32MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(uint32)), 0)
-	e, ok := s.tbl.Lookup(h, func(v uint32) bool {
-		return val.(uint32) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(uint32), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Uint32MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadUint64 struct {
-	val     uint64
-	memoIdx int32
-}
-
-type entryUint64 struct {
-	h       uint64
-	payload payloadUint64
-}
-
-func (e entryUint64) Valid() bool { return e.h != sentinel }
-
-// Uint64HashTable is a hashtable specifically for uint64 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Uint64HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryUint64
-}
-
-// NewUint64HashTable returns a new hash table for uint64 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewUint64HashTable(cap uint64) *Uint64HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Uint64HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryUint64, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Uint64HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryUint64, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Uint64HashTable) CopyValues(out []uint64) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Uint64HashTable) CopyValuesSubset(start int, out []uint64) {
-	h.VisitEntries(func(e *entryUint64) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Uint64HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Uint64HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Uint64Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryUint64) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEUint64(e.payload.val)
-		}
-	})
-}
-
-func (h *Uint64HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Uint64HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Uint64HashTable) Lookup(v uint64, cmp func(uint64) bool) (*entryUint64, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Uint64HashTable) lookup(v uint64, szMask uint64, cmp func(uint64) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryUint64
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Uint64HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryUint64, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(uint64) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Uint64HashTable) Insert(e *entryUint64, v uint64, val uint64, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Uint64HashTable) VisitEntries(visit func(*entryUint64)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Uint64MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Uint64MemoTable struct {
-	tbl     *Uint64HashTable
-	nullIdx int32
-}
-
-// NewUint64MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewUint64MemoTable(num int64) *Uint64MemoTable {
-	return &Uint64MemoTable{tbl: NewUint64HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Uint64MemoTable) TypeTraits() TypeTraits {
-	return arrow.Uint64Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Uint64MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Uint64MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Uint64MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Uint64MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Uint64MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Uint64MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]uint64))
-}
-
-func (s *Uint64MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Uint64Traits.CastFromBytes(out))
-}
-
-func (s *Uint64MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Uint64Traits.CastFromBytes(out))
-}
-
-func (s *Uint64MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Uint64MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Uint64MemoTable) Get(val interface{}) (int, bool) {
-
-	h := hashInt(uint64(val.(uint64)), 0)
-	if e, ok := s.tbl.Lookup(h, func(v uint64) bool { return val.(uint64) == v }); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Uint64MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	h := hashInt(uint64(val.(uint64)), 0)
-	e, ok := s.tbl.Lookup(h, func(v uint64) bool {
-		return val.(uint64) == v
-	})
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(uint64), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Uint64MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadFloat32 struct {
-	val     float32
-	memoIdx int32
-}
-
-type entryFloat32 struct {
-	h       uint64
-	payload payloadFloat32
-}
-
-func (e entryFloat32) Valid() bool { return e.h != sentinel }
-
-// Float32HashTable is a hashtable specifically for float32 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Float32HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryFloat32
-}
-
-// NewFloat32HashTable returns a new hash table for float32 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewFloat32HashTable(cap uint64) *Float32HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Float32HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryFloat32, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Float32HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryFloat32, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Float32HashTable) CopyValues(out []float32) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Float32HashTable) CopyValuesSubset(start int, out []float32) {
-	h.VisitEntries(func(e *entryFloat32) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Float32HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Float32HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Float32Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryFloat32) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEFloat32(e.payload.val)
-		}
-	})
-}
-
-func (h *Float32HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Float32HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Float32HashTable) Lookup(v uint64, cmp func(float32) bool) (*entryFloat32, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Float32HashTable) lookup(v uint64, szMask uint64, cmp func(float32) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryFloat32
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Float32HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryFloat32, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(float32) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Float32HashTable) Insert(e *entryFloat32, v uint64, val float32, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Float32HashTable) VisitEntries(visit func(*entryFloat32)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Float32MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Float32MemoTable struct {
-	tbl     *Float32HashTable
-	nullIdx int32
-}
-
-// NewFloat32MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewFloat32MemoTable(num int64) *Float32MemoTable {
-	return &Float32MemoTable{tbl: NewFloat32HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Float32MemoTable) TypeTraits() TypeTraits {
-	return arrow.Float32Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Float32MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Float32MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Float32MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Float32MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Float32MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Float32MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]float32))
-}
-
-func (s *Float32MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Float32Traits.CastFromBytes(out))
-}
-
-func (s *Float32MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Float32Traits.CastFromBytes(out))
-}
-
-func (s *Float32MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Float32MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Float32MemoTable) Get(val interface{}) (int, bool) {
-	var cmp func(float32) bool
-
-	if math.IsNaN(float64(val.(float32))) {
-		cmp = isNan32Cmp
-		// use consistent internal bit pattern for NaN regardless of the pattern
-		// that is passed to us. NaN is NaN is NaN
-		val = float32(math.NaN())
-	} else {
-		cmp = func(v float32) bool { return val.(float32) == v }
-	}
-
-	h := hashFloat32(val.(float32), 0)
-	if e, ok := s.tbl.Lookup(h, cmp); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Float32MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	var cmp func(float32) bool
-
-	if math.IsNaN(float64(val.(float32))) {
-		cmp = isNan32Cmp
-		// use consistent internal bit pattern for NaN regardless of the pattern
-		// that is passed to us. NaN is NaN is NaN
-		val = float32(math.NaN())
-	} else {
-		cmp = func(v float32) bool { return val.(float32) == v }
-	}
-
-	h := hashFloat32(val.(float32), 0)
-	e, ok := s.tbl.Lookup(h, cmp)
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(float32), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Float32MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
-
-type payloadFloat64 struct {
-	val     float64
-	memoIdx int32
-}
-
-type entryFloat64 struct {
-	h       uint64
-	payload payloadFloat64
-}
-
-func (e entryFloat64) Valid() bool { return e.h != sentinel }
-
-// Float64HashTable is a hashtable specifically for float64 that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type Float64HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entryFloat64
-}
-
-// NewFloat64HashTable returns a new hash table for float64 values
-// initialized with the passed in capacity or 32 whichever is larger.
-func NewFloat64HashTable(cap uint64) *Float64HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &Float64HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entryFloat64, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *Float64HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entryFloat64, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *Float64HashTable) CopyValues(out []float64) {
-	h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *Float64HashTable) CopyValuesSubset(start int, out []float64) {
-	h.VisitEntries(func(e *entryFloat64) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			out[idx] = e.payload.val
-		}
-	})
-}
-
-func (h *Float64HashTable) WriteOut(out []byte) {
-	h.WriteOutSubset(0, out)
-}
-
-func (h *Float64HashTable) WriteOutSubset(start int, out []byte) {
-	data := arrow.Float64Traits.CastFromBytes(out)
-	h.VisitEntries(func(e *entryFloat64) {
-		idx := e.payload.memoIdx - int32(start)
-		if idx >= 0 {
-			data[idx] = utils.ToLEFloat64(e.payload.val)
-		}
-	})
-}
-
-func (h *Float64HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func (Float64HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *Float64HashTable) Lookup(v uint64, cmp func(float64) bool) (*entryFloat64, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *Float64HashTable) lookup(v uint64, szMask uint64, cmp func(float64) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entryFloat64
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *Float64HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entryFloat64, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func(float64) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *Float64HashTable) Insert(e *entryFloat64, v uint64, val float64, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *Float64HashTable) VisitEntries(visit func(*entryFloat64)) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// Float64MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type Float64MemoTable struct {
-	tbl     *Float64HashTable
-	nullIdx int32
-}
-
-// NewFloat64MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func NewFloat64MemoTable(num int64) *Float64MemoTable {
-	return &Float64MemoTable{tbl: NewFloat64HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func (Float64MemoTable) TypeTraits() TypeTraits {
-	return arrow.Float64Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *Float64MemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *Float64MemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *Float64MemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *Float64MemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = s.GetNull()
-	if !found {
-		idx = s.Size()
-		s.nullIdx = int32(idx)
-	}
-	return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *Float64MemoTable) CopyValues(out interface{}) {
-	s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *Float64MemoTable) CopyValuesSubset(start int, out interface{}) {
-	s.tbl.CopyValuesSubset(start, out.([]float64))
-}
-
-func (s *Float64MemoTable) WriteOut(out []byte) {
-	s.tbl.CopyValues(arrow.Float64Traits.CastFromBytes(out))
-}
-
-func (s *Float64MemoTable) WriteOutSubset(start int, out []byte) {
-	s.tbl.CopyValuesSubset(start, arrow.Float64Traits.CastFromBytes(out))
-}
-
-func (s *Float64MemoTable) WriteOutLE(out []byte) {
-	s.tbl.WriteOut(out)
-}
-
-func (s *Float64MemoTable) WriteOutSubsetLE(start int, out []byte) {
-	s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *Float64MemoTable) Get(val interface{}) (int, bool) {
-	var cmp func(float64) bool
-	if math.IsNaN(val.(float64)) {
-		cmp = math.IsNaN
-		// use consistent internal bit pattern for NaN regardless of the pattern
-		// that is passed to us. NaN is NaN is NaN
-		val = math.NaN()
-	} else {
-		cmp = func(v float64) bool { return val.(float64) == v }
-	}
-
-	h := hashFloat64(val.(float64), 0)
-	if e, ok := s.tbl.Lookup(h, cmp); ok {
-		return int(e.payload.memoIdx), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *Float64MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-
-	var cmp func(float64) bool
-	if math.IsNaN(val.(float64)) {
-		cmp = math.IsNaN
-		// use consistent internal bit pattern for NaN regardless of the pattern
-		// that is passed to us. NaN is NaN is NaN
-		val = math.NaN()
-	} else {
-		cmp = func(v float64) bool { return val.(float64) == v }
-	}
-
-	h := hashFloat64(val.(float64), 0)
-	e, ok := s.tbl.Lookup(h, cmp)
-
-	if ok {
-		idx = int(e.payload.memoIdx)
-		found = true
-	} else {
-		idx = s.Size()
-		s.tbl.Insert(e, h, val.(float64), int32(idx))
-	}
-	return
-}
-
-// GetOrInsertBytes is unimplemented
-func (s *Float64MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	panic("unimplemented")
-}
diff --git a/go/internal/hashing/xxh3_memo_table.gen.go.tmpl b/go/internal/hashing/xxh3_memo_table.gen.go.tmpl
deleted file mode 100644
index b852a9d79a39b..0000000000000
--- a/go/internal/hashing/xxh3_memo_table.gen.go.tmpl
+++ /dev/null
@@ -1,349 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package hashing
-
-import (
-  "github.com/apache/arrow/go/v18/arrow/bitutil"  
-  "github.com/apache/arrow/go/v18/internal/utils"  
-)
-
-{{range .In}}
-type payload{{.Name}} struct {
-	val     {{.name}}
-	memoIdx int32
-}
-
-type entry{{.Name}} struct {
-	h       uint64
-	payload payload{{.Name}}
-}
-
-func (e entry{{.Name}}) Valid() bool { return e.h != sentinel }
-
-// {{.Name}}HashTable is a hashtable specifically for {{.name}} that
-// is utilized with the MemoTable to generalize interactions for easier
-// implementation of dictionaries without losing performance.
-type {{.Name}}HashTable struct {
-	cap     uint64
-	capMask uint64
-	size    uint64
-
-	entries []entry{{.Name}}
-}
-
-// New{{.Name}}HashTable returns a new hash table for {{.name}} values
-// initialized with the passed in capacity or 32 whichever is larger.
-func New{{.Name}}HashTable(cap uint64) *{{.Name}}HashTable {
-	initCap := uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	ret := &{{.Name}}HashTable{cap: initCap, capMask: initCap - 1, size: 0}
-	ret.entries = make([]entry{{.Name}}, initCap)
-	return ret
-}
-
-// Reset drops all of the values in this hash table and re-initializes it
-// with the specified initial capacity as if by calling New, but without having
-// to reallocate the object.
-func (h *{{.Name}}HashTable) Reset(cap uint64) {
-	h.cap = uint64(bitutil.NextPowerOf2(int(max(cap, 32))))
-	h.capMask = h.cap - 1
-	h.size = 0
-	h.entries = make([]entry{{.Name}}, h.cap)
-}
-
-// CopyValues is used for copying the values out of the hash table into the
-// passed in slice, in the order that they were first inserted
-func (h *{{.Name}}HashTable) CopyValues(out []{{.name}}) {
-  h.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies a subset of the values in the hashtable out, starting
-// with the value at start, in the order that they were inserted.
-func (h *{{.Name}}HashTable) CopyValuesSubset(start int, out []{{.name}}) {
-  h.VisitEntries(func(e *entry{{.Name}}) {
-    idx := e.payload.memoIdx - int32(start)
-    if idx >= 0 {
-      out[idx] = e.payload.val
-    }
-  })
-}
-
-func (h *{{.Name}}HashTable) WriteOut(out []byte) {
-  h.WriteOutSubset(0, out)
-}
-
-func (h *{{.Name}}HashTable) WriteOutSubset(start int, out []byte) {
-  data := arrow.{{.Name}}Traits.CastFromBytes(out)
-  h.VisitEntries(func(e *entry{{.Name}}) {
-    idx := e.payload.memoIdx - int32(start)
-    if idx >= 0 {
-{{if and (ne .Name "Int8") (ne .Name "Uint8") -}}    
-      data[idx] = utils.ToLE{{.Name}}(e.payload.val)
-{{else -}}
-      data[idx] = e.payload.val
-{{end -}}
-    }
-  })
-}
-
-func (h *{{.Name}}HashTable) needUpsize() bool { return h.size*uint64(loadFactor) >= h.cap }
-
-func ({{.Name}}HashTable) fixHash(v uint64) uint64 {
-	if v == sentinel {
-		return 42
-	}
-	return v
-}
-
-// Lookup retrieves the entry for a given hash value assuming it's payload value returns
-// true when passed to the cmp func. Returns a pointer to the entry for the given hash value,
-// and a boolean as to whether it was found. It is not safe to use the pointer if the bool is false.
-func (h *{{.Name}}HashTable) Lookup(v uint64, cmp func({{.name}}) bool) (*entry{{.Name}}, bool) {
-	idx, ok := h.lookup(v, h.capMask, cmp)
-	return &h.entries[idx], ok
-}
-
-func (h *{{.Name}}HashTable) lookup(v uint64, szMask uint64, cmp func({{.name}}) bool) (uint64, bool) {
-	const perturbShift uint8 = 5
-
-	var (
-		idx     uint64
-		perturb uint64
-		e       *entry{{.Name}}
-	)
-
-	v = h.fixHash(v)
-	idx = v & szMask
-	perturb = (v >> uint64(perturbShift)) + 1
-
-	for {
-		e = &h.entries[idx]
-		if e.h == v && cmp(e.payload.val) {
-			return idx, true
-		}
-
-		if e.h == sentinel {
-			return idx, false
-		}
-
-		// perturbation logic inspired from CPython's set/dict object
-		// the goal is that all 64 bits of unmasked hash value eventually
-		// participate int he probing sequence, to minimize clustering
-		idx = (idx + perturb) & szMask
-		perturb = (perturb >> uint64(perturbShift)) + 1
-	}
-}
-
-func (h *{{.Name}}HashTable) upsize(newcap uint64) error {
-	newMask := newcap - 1
-
-	oldEntries := h.entries
-	h.entries = make([]entry{{.Name}}, newcap)
-	for _, e := range oldEntries {
-		if e.Valid() {
-			idx, _ := h.lookup(e.h, newMask, func({{.name}}) bool { return false })
-			h.entries[idx] = e
-		}
-	}
-	h.cap = newcap
-	h.capMask = newMask
-	return nil
-}
-
-// Insert updates the given entry with the provided hash value, payload value and memo index.
-// The entry pointer must have been retrieved via lookup in order to actually insert properly.
-func (h *{{.Name}}HashTable) Insert(e *entry{{.Name}}, v uint64, val {{.name}}, memoIdx int32) error {
-	e.h = h.fixHash(v)
-	e.payload.val = val
-	e.payload.memoIdx = memoIdx
-	h.size++
-
-	if h.needUpsize() {
-		h.upsize(h.cap * uint64(loadFactor) * 2)
-	}
-	return nil
-}
-
-// VisitEntries will call the passed in function on each *valid* entry in the hash table,
-// a valid entry being one which has had a value inserted into it.
-func (h *{{.Name}}HashTable) VisitEntries(visit func(*entry{{.Name}})) {
-	for _, e := range h.entries {
-		if e.Valid() {
-			visit(&e)
-		}
-	}
-}
-
-// {{.Name}}MemoTable is a wrapper over the appropriate hashtable to provide an interface
-// conforming to the MemoTable interface defined in the encoding package for general interactions
-// regarding dictionaries.
-type {{.Name}}MemoTable struct {
-  tbl *{{.Name}}HashTable
-  nullIdx int32
-}
-
-// New{{.Name}}MemoTable returns a new memotable with num entries pre-allocated to reduce further
-// allocations when inserting.
-func New{{.Name}}MemoTable(num int64) *{{.Name}}MemoTable {
-  return &{{.Name}}MemoTable{tbl: New{{.Name}}HashTable(uint64(num)), nullIdx: KeyNotFound}
-}
-
-func ({{.Name}}MemoTable) TypeTraits() TypeTraits {
-  return arrow.{{.Name}}Traits
-}
-
-// Reset allows this table to be re-used by dumping all the data currently in the table.
-func (s *{{.Name}}MemoTable) Reset() {
-  s.tbl.Reset(32)
-  s.nullIdx = KeyNotFound
-}
-
-// Size returns the current number of inserted elements into the table including if a null
-// has been inserted.
-func (s *{{.Name}}MemoTable) Size() int {
-  sz := int(s.tbl.size)
-  if _, ok := s.GetNull(); ok {
-    sz++
-  }
-  return sz
-}
-
-// GetNull returns the index of an inserted null or KeyNotFound along with a bool
-// that will be true if found and false if not.
-func (s *{{.Name}}MemoTable) GetNull() (int, bool) {
-  return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// GetOrInsertNull will return the index of the null entry or insert a null entry
-// if one currently doesn't exist. The found value will be true if there was already
-// a null in the table, and false if it inserted one.
-func (s *{{.Name}}MemoTable) GetOrInsertNull() (idx int, found bool) {
-  idx, found = s.GetNull()
-  if !found {
-    idx = s.Size()
-    s.nullIdx = int32(idx)
-  }
-  return
-}
-
-// CopyValues will copy the values from the memo table out into the passed in slice
-// which must be of the appropriate type.
-func (s *{{.Name}}MemoTable) CopyValues(out interface{}) {
-  s.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-// at the provided start index
-func (s *{{.Name}}MemoTable) CopyValuesSubset(start int, out interface{}) {
-  s.tbl.CopyValuesSubset(start, out.([]{{.name}}))
-}
-
-func (s *{{.Name}}MemoTable) WriteOut(out []byte) {
-  s.tbl.CopyValues(arrow.{{.Name}}Traits.CastFromBytes(out))
-}
-
-func (s *{{.Name}}MemoTable) WriteOutSubset(start int, out []byte) {
-  s.tbl.CopyValuesSubset(start, arrow.{{.Name}}Traits.CastFromBytes(out))
-}
-
-func (s *{{.Name}}MemoTable) WriteOutLE(out []byte) {
-  s.tbl.WriteOut(out)
-}
-
-func (s *{{.Name}}MemoTable) WriteOutSubsetLE(start int, out []byte) {
-  s.tbl.WriteOutSubset(start, out)
-}
-
-// Get returns the index of the requested value in the hash table or KeyNotFound
-// along with a boolean indicating if it was found or not.
-func (s *{{.Name}}MemoTable) Get(val interface{}) (int, bool) {
-{{if and (ne .Name "Float32") (ne .Name "Float64") }}
-  h := hashInt(uint64(val.({{.name}})), 0)
-  if e, ok := s.tbl.Lookup(h, func(v {{.name}}) bool { return val.({{.name}}) == v }); ok {
-{{ else -}}
-  var cmp func({{.name}}) bool
-  {{if eq .Name "Float32"}}
-  if math.IsNaN(float64(val.(float32))) {
-    cmp = isNan32Cmp
-    // use consistent internal bit pattern for NaN regardless of the pattern
-    // that is passed to us. NaN is NaN is NaN
-    val = float32(math.NaN())
-  {{ else -}}
-  if math.IsNaN(val.(float64)) {
-    cmp = math.IsNaN
-    // use consistent internal bit pattern for NaN regardless of the pattern
-    // that is passed to us. NaN is NaN is NaN
-    val = math.NaN()
-  {{end -}}
-  } else {
-    cmp = func(v {{.name}}) bool { return val.({{.name}}) == v }
-  }
-
-  h := hash{{.Name}}(val.({{.name}}), 0)  
-  if e, ok := s.tbl.Lookup(h, cmp); ok {
-{{ end -}}
-    return int(e.payload.memoIdx), ok
-  }
-  return KeyNotFound, false
-}
-
-// GetOrInsert will return the index of the specified value in the table, or insert the
-// value into the table and return the new index. found indicates whether or not it already
-// existed in the table (true) or was inserted by this call (false).
-func (s *{{.Name}}MemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-  {{if and (ne .Name "Float32") (ne .Name "Float64") }}
-  h := hashInt(uint64(val.({{.name}})), 0)
-  e, ok := s.tbl.Lookup(h, func(v {{.name}}) bool {
-    return val.({{.name}}) == v
-  })
-{{ else }}  
-  var cmp func({{.name}}) bool
-  {{if eq .Name "Float32"}}
-  if math.IsNaN(float64(val.(float32))) {
-    cmp = isNan32Cmp
-    // use consistent internal bit pattern for NaN regardless of the pattern
-    // that is passed to us. NaN is NaN is NaN
-    val = float32(math.NaN()) 
-  {{ else -}}
-  if math.IsNaN(val.(float64)) {  
-    cmp = math.IsNaN
-    // use consistent internal bit pattern for NaN regardless of the pattern
-    // that is passed to us. NaN is NaN is NaN
-    val = math.NaN()
-  {{end -}}
-  } else {
-    cmp = func(v {{.name}}) bool { return val.({{.name}}) == v }
-  }
-  
-  h := hash{{.Name}}(val.({{.name}}), 0)
-  e, ok := s.tbl.Lookup(h, cmp)
-{{ end }}
-  if ok {
-    idx = int(e.payload.memoIdx)
-    found = true
-  } else {
-    idx = s.Size()
-    s.tbl.Insert(e, h, val.({{.name}}), int32(idx))
-  }
-  return
-}
-
-
-// GetOrInsertBytes is unimplemented
-func (s *{{.Name}}MemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-    panic("unimplemented")
-}
-{{end}}
diff --git a/go/internal/hashing/xxh3_memo_table.go b/go/internal/hashing/xxh3_memo_table.go
deleted file mode 100644
index fbb8b33531bbd..0000000000000
--- a/go/internal/hashing/xxh3_memo_table.go
+++ /dev/null
@@ -1,436 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package hashing provides utilities for and an implementation of a hash
-// table which is more performant than the default go map implementation
-// by leveraging xxh3 and some custom hash functions.
-package hashing
-
-import (
-	"bytes"
-	"math"
-	"unsafe"
-)
-
-//go:generate go run ../../arrow/_tools/tmpl/main.go -i -data=types.tmpldata xxh3_memo_table.gen.go.tmpl
-
-type TypeTraits interface {
-	BytesRequired(n int) int
-}
-
-type ByteSlice interface {
-	Bytes() []byte
-}
-
-// MemoTable interface for hash tables and dictionary encoding.
-//
-// Values will remember the order they are inserted to generate a valid
-// dictionary.
-type MemoTable interface {
-	TypeTraits() TypeTraits
-	// Reset drops everything in the table allowing it to be reused
-	Reset()
-	// Size returns the current number of unique values stored in
-	// the table, including whether or not a null value has been
-	// inserted via GetOrInsertNull.
-	Size() int
-	// GetOrInsert returns the index of the table the specified value is,
-	// and a boolean indicating whether or not the value was found in
-	// the table (if false, the value was inserted). An error is returned
-	// if val is not the appropriate type for the table.
-	GetOrInsert(val interface{}) (idx int, existed bool, err error)
-	// GetOrInsertBytes returns the index of the table the specified value is,
-	// and a boolean indicating whether or not the value was found in
-	// the table (if false, the value was inserted). An error is returned
-	// if val is not the appropriate type for the table. This function is intended to be used by
-	// the BinaryMemoTable to prevent unnecessary allocations of the data when converting from a []byte to interface{}.
-	GetOrInsertBytes(val []byte) (idx int, existed bool, err error)
-	// GetOrInsertNull returns the index of the null value in the table,
-	// inserting one if it hasn't already been inserted. It returns a boolean
-	// indicating if the null value already existed or not in the table.
-	GetOrInsertNull() (idx int, existed bool)
-	// GetNull returns the index of the null value in the table, but does not
-	// insert one if it doesn't already exist. Will return -1 if it doesn't exist
-	// indicated by a false value for the boolean.
-	GetNull() (idx int, exists bool)
-	// WriteOut copies the unique values of the memotable out to the byte slice
-	// provided. Must have allocated enough bytes for all the values.
-	WriteOut(out []byte)
-	// WriteOutSubset is like WriteOut, but only writes a subset of values
-	// starting with the index offset.
-	WriteOutSubset(offset int, out []byte)
-}
-
-type NumericMemoTable interface {
-	MemoTable
-	WriteOutLE(out []byte)
-	WriteOutSubsetLE(offset int, out []byte)
-}
-
-const (
-	sentinel   uint64 = 0
-	loadFactor int64  = 2
-)
-
-func max(a, b uint64) uint64 {
-	if a > b {
-		return a
-	}
-	return b
-}
-
-var isNan32Cmp = func(v float32) bool { return math.IsNaN(float64(v)) }
-
-// KeyNotFound is the constant returned by memo table functions when a key isn't found in the table
-const KeyNotFound = -1
-
-type BinaryBuilderIFace interface {
-	Reserve(int)
-	ReserveData(int)
-	Retain()
-	Resize(int)
-	ResizeData(int)
-	Release()
-	DataLen() int
-	Value(int) []byte
-	Len() int
-	AppendNull()
-	AppendString(string)
-	Append([]byte)
-}
-
-// BinaryMemoTable is our hashtable for binary data using the BinaryBuilder
-// to construct the actual data in an easy to pass around way with minimal copies
-// while using a hash table to keep track of the indexes into the dictionary that
-// is created as we go.
-type BinaryMemoTable struct {
-	tbl     *Int32HashTable
-	builder BinaryBuilderIFace
-	nullIdx int
-}
-
-// NewBinaryMemoTable returns a hash table for Binary data, the passed in allocator will
-// be utilized for the BinaryBuilder, if nil then memory.DefaultAllocator will be used.
-// initial and valuesize can be used to pre-allocate the table to reduce allocations. With
-// initial being the initial number of entries to allocate for and valuesize being the starting
-// amount of space allocated for writing the actual binary data.
-func NewBinaryMemoTable(initial, valuesize int, bldr BinaryBuilderIFace) *BinaryMemoTable {
-	bldr.Reserve(int(initial))
-	datasize := valuesize
-	if datasize <= 0 {
-		datasize = initial * 4
-	}
-	bldr.ReserveData(datasize)
-	return &BinaryMemoTable{tbl: NewInt32HashTable(uint64(initial)), builder: bldr, nullIdx: KeyNotFound}
-}
-
-type unimplementedtraits struct{}
-
-func (unimplementedtraits) BytesRequired(int) int { panic("unimplemented") }
-
-func (BinaryMemoTable) TypeTraits() TypeTraits {
-	return unimplementedtraits{}
-}
-
-// Reset dumps all of the data in the table allowing it to be reutilized.
-func (s *BinaryMemoTable) Reset() {
-	s.tbl.Reset(32)
-	s.builder.Resize(0)
-	s.builder.ResizeData(0)
-	s.builder.Reserve(int(32))
-	s.builder.ReserveData(int(32) * 4)
-	s.nullIdx = KeyNotFound
-}
-
-// GetNull returns the index of a null that has been inserted into the table or
-// KeyNotFound. The bool returned will be true if there was a null inserted into
-// the table, and false otherwise.
-func (s *BinaryMemoTable) GetNull() (int, bool) {
-	return int(s.nullIdx), s.nullIdx != KeyNotFound
-}
-
-// Size returns the current size of the memo table including the null value
-// if one has been inserted.
-func (s *BinaryMemoTable) Size() int {
-	sz := int(s.tbl.size)
-	if _, ok := s.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-// helper function to easily return a byte slice for any given value
-// regardless of the type if it's a []byte, string, or fulfills the
-// ByteSlice interface.
-func (BinaryMemoTable) valAsByteSlice(val interface{}) []byte {
-	switch v := val.(type) {
-	case []byte:
-		return v
-	case ByteSlice:
-		return v.Bytes()
-	case string:
-		return strToBytes(v)
-	default:
-		panic("invalid type for binarymemotable")
-	}
-}
-
-// helper function to get the hash value regardless of the underlying binary type
-func (BinaryMemoTable) getHash(val interface{}) uint64 {
-	switch v := val.(type) {
-	case string:
-		return hashString(v, 0)
-	case []byte:
-		return Hash(v, 0)
-	case ByteSlice:
-		return Hash(v.Bytes(), 0)
-	default:
-		panic("invalid type for binarymemotable")
-	}
-}
-
-// helper function to append the given value to the builder regardless
-// of the underlying binary type.
-func (b *BinaryMemoTable) appendVal(val interface{}) {
-	switch v := val.(type) {
-	case string:
-		b.builder.AppendString(v)
-	case []byte:
-		b.builder.Append(v)
-	case ByteSlice:
-		b.builder.Append(v.Bytes())
-	}
-}
-
-func (b *BinaryMemoTable) lookup(h uint64, val []byte) (*entryInt32, bool) {
-	return b.tbl.Lookup(h, func(i int32) bool {
-		return bytes.Equal(val, b.builder.Value(int(i)))
-	})
-}
-
-// Get returns the index of the specified value in the table or KeyNotFound,
-// and a boolean indicating whether it was found in the table.
-func (b *BinaryMemoTable) Get(val interface{}) (int, bool) {
-	if p, ok := b.lookup(b.getHash(val), b.valAsByteSlice(val)); ok {
-		return int(p.payload.val), ok
-	}
-	return KeyNotFound, false
-}
-
-// GetOrInsertBytes returns the index of the given value in the table, if not found
-// it is inserted into the table. The return value 'found' indicates whether the value
-// was found in the table (true) or inserted (false) along with any possible error.
-func (b *BinaryMemoTable) GetOrInsertBytes(val []byte) (idx int, found bool, err error) {
-	h := Hash(val, 0)
-	p, found := b.lookup(h, val)
-	if found {
-		idx = int(p.payload.val)
-	} else {
-		idx = b.Size()
-		b.builder.Append(val)
-		b.tbl.Insert(p, h, int32(idx), -1)
-	}
-	return
-}
-
-// GetOrInsert returns the index of the given value in the table, if not found
-// it is inserted into the table. The return value 'found' indicates whether the value
-// was found in the table (true) or inserted (false) along with any possible error.
-func (b *BinaryMemoTable) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	h := b.getHash(val)
-	p, found := b.lookup(h, b.valAsByteSlice(val))
-	if found {
-		idx = int(p.payload.val)
-	} else {
-		idx = b.Size()
-		b.appendVal(val)
-		b.tbl.Insert(p, h, int32(idx), -1)
-	}
-	return
-}
-
-// GetOrInsertNull retrieves the index of a null in the table or inserts
-// null into the table, returning the index and a boolean indicating if it was
-// found in the table (true) or was inserted (false).
-func (b *BinaryMemoTable) GetOrInsertNull() (idx int, found bool) {
-	idx, found = b.GetNull()
-	if !found {
-		idx = b.Size()
-		b.nullIdx = idx
-		b.builder.AppendNull()
-	}
-	return
-}
-
-func (b *BinaryMemoTable) Value(i int) []byte {
-	return b.builder.Value(i)
-}
-
-// helper function to get the offset into the builder data for a given
-// index value.
-func (b *BinaryMemoTable) findOffset(idx int) uintptr {
-	if b.builder.DataLen() == 0 {
-		// only empty strings, short circuit
-		return 0
-	}
-
-	val := b.builder.Value(idx)
-	for len(val) == 0 {
-		idx++
-		if idx >= b.builder.Len() {
-			break
-		}
-		val = b.builder.Value(idx)
-	}
-	if len(val) != 0 {
-		return uintptr(unsafe.Pointer(&val[0]))
-	}
-	return uintptr(b.builder.DataLen()) + b.findOffset(0)
-}
-
-// CopyOffsets copies the list of offsets into the passed in slice, the offsets
-// being the start and end values of the underlying allocated bytes in the builder
-// for the individual values of the table. out should be at least sized to Size()+1
-func (b *BinaryMemoTable) CopyOffsets(out []int32) {
-	b.CopyOffsetsSubset(0, out)
-}
-
-// CopyOffsetsSubset is like CopyOffsets but instead of copying all of the offsets,
-// it gets a subset of the offsets in the table starting at the index provided by "start".
-func (b *BinaryMemoTable) CopyOffsetsSubset(start int, out []int32) {
-	if b.builder.Len() <= start {
-		return
-	}
-
-	first := b.findOffset(0)
-	delta := b.findOffset(start)
-	sz := b.Size()
-	for i := start; i < sz; i++ {
-		offset := int32(b.findOffset(i) - delta)
-		out[i-start] = offset
-	}
-
-	out[sz-start] = int32(b.builder.DataLen() - (int(delta) - int(first)))
-}
-
-// CopyLargeOffsets copies the list of offsets into the passed in slice, the offsets
-// being the start and end values of the underlying allocated bytes in the builder
-// for the individual values of the table. out should be at least sized to Size()+1
-func (b *BinaryMemoTable) CopyLargeOffsets(out []int64) {
-	b.CopyLargeOffsetsSubset(0, out)
-}
-
-// CopyLargeOffsetsSubset is like CopyOffsets but instead of copying all of the offsets,
-// it gets a subset of the offsets in the table starting at the index provided by "start".
-func (b *BinaryMemoTable) CopyLargeOffsetsSubset(start int, out []int64) {
-	if b.builder.Len() <= start {
-		return
-	}
-
-	first := b.findOffset(0)
-	delta := b.findOffset(start)
-	sz := b.Size()
-	for i := start; i < sz; i++ {
-		offset := int64(b.findOffset(i) - delta)
-		out[i-start] = offset
-	}
-
-	out[sz-start] = int64(b.builder.DataLen() - (int(delta) - int(first)))
-}
-
-// CopyValues copies the raw binary data bytes out, out should be a []byte
-// with at least ValuesSize bytes allocated to copy into.
-func (b *BinaryMemoTable) CopyValues(out interface{}) {
-	b.CopyValuesSubset(0, out)
-}
-
-// CopyValuesSubset copies the raw binary data bytes out starting with the value
-// at the index start, out should be a []byte with at least ValuesSize bytes allocated
-func (b *BinaryMemoTable) CopyValuesSubset(start int, out interface{}) {
-	if b.builder.Len() <= start {
-		return
-	}
-
-	var (
-		first  = b.findOffset(0)
-		offset = b.findOffset(int(start))
-		length = b.builder.DataLen() - int(offset-first)
-	)
-
-	outval := out.([]byte)
-	copy(outval, b.builder.Value(start)[0:length])
-}
-
-func (b *BinaryMemoTable) WriteOut(out []byte) {
-	b.CopyValues(out)
-}
-
-func (b *BinaryMemoTable) WriteOutSubset(start int, out []byte) {
-	b.CopyValuesSubset(start, out)
-}
-
-// CopyFixedWidthValues exists to cope with the fact that the table doesn't keep
-// track of the fixed width when inserting the null value the databuffer holds a
-// zero length byte slice for the null value (if found)
-func (b *BinaryMemoTable) CopyFixedWidthValues(start, width int, out []byte) {
-	if start >= b.Size() {
-		return
-	}
-
-	null, exists := b.GetNull()
-	if !exists || null < start {
-		// nothing to skip, proceed as usual
-		b.CopyValuesSubset(start, out)
-		return
-	}
-
-	var (
-		leftOffset  = b.findOffset(start)
-		nullOffset  = b.findOffset(null)
-		leftSize    = nullOffset - leftOffset
-		rightOffset = leftOffset + uintptr(b.ValuesSize())
-	)
-
-	if leftSize > 0 {
-		copy(out, b.builder.Value(start)[0:leftSize])
-	}
-
-	rightSize := rightOffset - nullOffset
-	if rightSize > 0 {
-		// skip the null fixed size value
-		copy(out[int(leftSize)+width:], b.builder.Value(null + 1)[0:rightSize])
-	}
-}
-
-// VisitValues exists to run the visitFn on each value currently in the hash table.
-func (b *BinaryMemoTable) VisitValues(start int, visitFn func([]byte)) {
-	for i := int(start); i < b.Size(); i++ {
-		visitFn(b.builder.Value(i))
-	}
-}
-
-// Release is used to tell the underlying builder that it can release the memory allocated
-// when the reference count reaches 0, this is safe to be called from multiple goroutines
-// simultaneously
-func (b *BinaryMemoTable) Release() { b.builder.Release() }
-
-// Retain increases the ref count, it is safe to call it from multiple goroutines
-// simultaneously.
-func (b *BinaryMemoTable) Retain() { b.builder.Retain() }
-
-// ValuesSize returns the current total size of all the raw bytes that have been inserted
-// into the memotable so far.
-func (b *BinaryMemoTable) ValuesSize() int { return b.builder.DataLen() }
diff --git a/go/internal/json/json.go b/go/internal/json/json.go
deleted file mode 100644
index 319b12c5549c2..0000000000000
--- a/go/internal/json/json.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !tinygo
-// +build !tinygo
-
-package json
-
-import (
-	"io"
-
-	"github.com/goccy/go-json"
-)
-
-type Decoder = json.Decoder
-type Encoder = json.Encoder
-type Marshaler = json.Marshaler
-type Delim = json.Delim
-type UnmarshalTypeError = json.UnmarshalTypeError
-type Number = json.Number
-type Unmarshaler = json.Unmarshaler
-type RawMessage = json.RawMessage
-
-func Marshal(v interface{}) ([]byte, error) {
-	return json.Marshal(v)
-}
-
-func Unmarshal(data []byte, v interface{}) error {
-	return json.Unmarshal(data, v)
-}
-
-func NewDecoder(r io.Reader) *Decoder {
-	return json.NewDecoder(r)
-}
-
-func NewEncoder(w io.Writer) *Encoder {
-	return json.NewEncoder(w)
-}
diff --git a/go/internal/json/json_tinygo.go b/go/internal/json/json_tinygo.go
deleted file mode 100644
index 8e4f447b3c385..0000000000000
--- a/go/internal/json/json_tinygo.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build tinygo
-// +build tinygo
-
-package json
-
-import (
-	"io"
-
-	"encoding/json"
-)
-
-type Decoder = json.Decoder
-type Encoder = json.Encoder
-type Marshaler = json.Marshaler
-type Delim = json.Delim
-type UnmarshalTypeError = json.UnmarshalTypeError
-type Number = json.Number
-type Unmarshaler = json.Unmarshaler
-type RawMessage = json.RawMessage
-
-func Marshal(v interface{}) ([]byte, error) {
-	return json.Marshal(v)
-}
-
-func Unmarshal(data []byte, v interface{}) error {
-	return json.Unmarshal(data, v)
-}
-
-func NewDecoder(r io.Reader) *Decoder {
-	return json.NewDecoder(r)
-}
-
-func NewEncoder(w io.Writer) *Encoder {
-	return json.NewEncoder(w)
-}
diff --git a/go/internal/types/extension_types.go b/go/internal/types/extension_types.go
deleted file mode 100644
index 33ada2d488f71..0000000000000
--- a/go/internal/types/extension_types.go
+++ /dev/null
@@ -1,325 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package types contains user-defined types for use in the tests for the arrow package
-package types
-
-import (
-	"encoding/binary"
-	"fmt"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"golang.org/x/xerrors"
-)
-
-// Parametric1Array is a simple int32 array for use with the Parametric1Type
-// in testing a parameterized user-defined extension type.
-type Parametric1Array struct {
-	array.ExtensionArrayBase
-}
-
-func (a Parametric1Array) ValueStr(i int) string {
-	arr := a.Storage().(*array.Int32)
-	if a.IsNull(i) {
-		return array.NullValueStr
-	}
-	return fmt.Sprintf("%d", arr.Value(i))
-}
-
-// Parametric2Array is another simple int32 array for use with the Parametric2Type
-// also for testing a parameterized user-defined extension type that utilizes
-// the parameter for defining different types based on the param.
-type Parametric2Array struct {
-	array.ExtensionArrayBase
-}
-
-func (a Parametric2Array) ValueStr(i int) string {
-	arr := a.Storage().(*array.Int32)
-	if a.IsNull(i) {
-		return array.NullValueStr
-	}
-	return fmt.Sprintf("%d", arr.Value(i))
-}
-
-// A type where ExtensionName is always the same
-type Parametric1Type struct {
-	arrow.ExtensionBase
-
-	param int32
-}
-
-func NewParametric1Type(p int32) *Parametric1Type {
-	ret := &Parametric1Type{param: p}
-	ret.ExtensionBase.Storage = arrow.PrimitiveTypes.Int32
-	return ret
-}
-
-func (p *Parametric1Type) String() string { return "extension<" + p.ExtensionName() + ">" }
-
-// ExtensionEquals returns true if other is a *Parametric1Type and has the same param
-func (p *Parametric1Type) ExtensionEquals(other arrow.ExtensionType) bool {
-	o, ok := other.(*Parametric1Type)
-	if !ok {
-		return false
-	}
-	return p.param == o.param
-}
-
-// ExtensionName is always "parametric-type-1"
-func (Parametric1Type) ExtensionName() string { return "parametric-type-1" }
-
-// ArrayType returns the TypeOf(Parametric1Array{})
-func (Parametric1Type) ArrayType() reflect.Type { return reflect.TypeOf(Parametric1Array{}) }
-
-// Serialize returns the param as 4 little endian bytes
-func (p *Parametric1Type) Serialize() string {
-	var buf [4]byte
-	binary.LittleEndian.PutUint32(buf[:], uint32(p.param))
-	return string(buf[:])
-}
-
-// Deserialize requires storage to be an int32 type and data should be a 4 byte little endian int32 value
-func (Parametric1Type) Deserialize(storage arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if len(data) != 4 {
-		return nil, fmt.Errorf("parametric1type: invalid serialized data size: %d", len(data))
-	}
-
-	if storage.ID() != arrow.INT32 {
-		return nil, xerrors.New("parametric1type: must have int32 as underlying storage type")
-	}
-
-	return &Parametric1Type{arrow.ExtensionBase{Storage: arrow.PrimitiveTypes.Int32}, int32(binary.LittleEndian.Uint32([]byte(data)))}, nil
-}
-
-// a parametric type where the extension name is different for each
-// parameter, and must be registered separately
-type Parametric2Type struct {
-	arrow.ExtensionBase
-
-	param int32
-}
-
-func NewParametric2Type(p int32) *Parametric2Type {
-	ret := &Parametric2Type{param: p}
-	ret.ExtensionBase.Storage = arrow.PrimitiveTypes.Int32
-	return ret
-}
-
-func (p *Parametric2Type) String() string { return "extension<" + p.ExtensionName() + ">" }
-
-// ExtensionEquals returns true if other is a *Parametric2Type and has the same param
-func (p *Parametric2Type) ExtensionEquals(other arrow.ExtensionType) bool {
-	o, ok := other.(*Parametric2Type)
-	if !ok {
-		return false
-	}
-	return p.param == o.param
-}
-
-// ExtensionName incorporates the param in the name requiring different instances of
-// Parametric2Type to be registered separately if they have different params. this is
-// used for testing registration of different types with the same struct type.
-func (p *Parametric2Type) ExtensionName() string {
-	return fmt.Sprintf("parametric-type-2<param=%d>", p.param)
-}
-
-// ArrayType returns TypeOf(Parametric2Array{})
-func (Parametric2Type) ArrayType() reflect.Type { return reflect.TypeOf(Parametric2Array{}) }
-
-// Serialize returns the param as a 4 byte little endian slice
-func (p *Parametric2Type) Serialize() string {
-	var buf [4]byte
-	binary.LittleEndian.PutUint32(buf[:], uint32(p.param))
-	return string(buf[:])
-}
-
-// Deserialize expects storage to be int32 type and data must be a 4 byte little endian slice.
-func (Parametric2Type) Deserialize(storage arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if len(data) != 4 {
-		return nil, fmt.Errorf("parametric1type: invalid serialized data size: %d", len(data))
-	}
-
-	if storage.ID() != arrow.INT32 {
-		return nil, xerrors.New("parametric1type: must have int32 as underlying storage type")
-	}
-
-	return &Parametric2Type{arrow.ExtensionBase{Storage: arrow.PrimitiveTypes.Int32}, int32(binary.LittleEndian.Uint32([]byte(data)))}, nil
-}
-
-// ExtStructArray is a struct array type for testing an extension type with non-primitive storage
-type ExtStructArray struct {
-	array.ExtensionArrayBase
-}
-
-func (a ExtStructArray) ValueStr(i int) string {
-	arr := a.Storage().(*array.Struct)
-	if a.IsNull(i) {
-		return array.NullValueStr
-	}
-	b, err := arr.MarshalJSON()
-	if err != nil {
-		panic(err)
-	}
-	return string(b)
-}
-
-// ExtStructType is an extension type with a non-primitive storage type containing a struct
-// with fields {a: int64, b: float64}
-type ExtStructType struct {
-	arrow.ExtensionBase
-}
-
-func NewExtStructType() *ExtStructType {
-	return &ExtStructType{
-		ExtensionBase: arrow.ExtensionBase{Storage: arrow.StructOf(
-			arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int64},
-			arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Float64},
-		)},
-	}
-}
-
-func (p *ExtStructType) String() string { return "extension<" + p.ExtensionName() + ">" }
-
-// ExtensionName is always "ext-struct-type"
-func (ExtStructType) ExtensionName() string { return "ext-struct-type" }
-
-// ExtensionEquals returns true if other is a *ExtStructType
-func (ExtStructType) ExtensionEquals(other arrow.ExtensionType) bool {
-	_, ok := other.(*ExtStructType)
-	return ok
-}
-
-// ArrayType returns TypeOf(ExtStructType{})
-func (ExtStructType) ArrayType() reflect.Type { return reflect.TypeOf(ExtStructArray{}) }
-
-// Serialize just returns "ext-struct-type-unique-code" to test metadata passing in IPC
-func (ExtStructType) Serialize() string { return "ext-struct-type-unique-code" }
-
-// Deserialize ignores the passed in storage datatype and only checks the serialized data byte slice
-// returning the correct type if it matches "ext-struct-type-unique-code".
-func (ExtStructType) Deserialize(_ arrow.DataType, serialized string) (arrow.ExtensionType, error) {
-	if string(serialized) != "ext-struct-type-unique-code" {
-		return nil, xerrors.New("type identifier did not match")
-	}
-	return NewExtStructType(), nil
-}
-
-type DictExtensionArray struct {
-	array.ExtensionArrayBase
-}
-
-func (a DictExtensionArray) ValueStr(i int) string {
-	arr := a.Storage().(*array.Dictionary)
-	if a.IsNull(i) {
-		return array.NullValueStr
-	}
-	b, err := arr.MarshalJSON()
-	if err != nil {
-		panic(err)
-	}
-	return string(b)
-}
-
-type DictExtensionType struct {
-	arrow.ExtensionBase
-}
-
-func NewDictExtensionType() *DictExtensionType {
-	return &DictExtensionType{
-		ExtensionBase: arrow.ExtensionBase{
-			Storage: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String},
-		},
-	}
-}
-
-func (p *DictExtensionType) ExtensionEquals(other arrow.ExtensionType) bool {
-	return other.ExtensionName() == p.ExtensionName()
-}
-
-func (DictExtensionType) ExtensionName() string { return "dict-extension" }
-
-func (DictExtensionType) Serialize() string { return "dict-extension-serialized" }
-
-func (DictExtensionType) ArrayType() reflect.Type { return reflect.TypeOf(DictExtensionArray{}) }
-
-func (p *DictExtensionType) String() string { return "extension<" + p.ExtensionName() + ">" }
-
-func (p *DictExtensionType) Deserialize(storage arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if data != "dict-extension-serialized" {
-		return nil, fmt.Errorf("type identifier did not match: '%s'", data)
-	}
-	if !arrow.TypeEqual(p.StorageType(), storage) {
-		return nil, fmt.Errorf("invalid storage type for DictExtensionType: %s", storage)
-	}
-	return NewDictExtensionType(), nil
-}
-
-// SmallintArray is an int16 array
-type SmallintArray struct {
-	array.ExtensionArrayBase
-}
-
-func (a SmallintArray) ValueStr(i int) string {
-	if a.IsNull(i) {
-		return array.NullValueStr
-	}
-	arr := a.Storage().(*array.Int16)
-	return fmt.Sprintf("%d", arr.Value(i))
-}
-
-type SmallintType struct {
-	arrow.ExtensionBase
-}
-
-func NewSmallintType() *SmallintType {
-	return &SmallintType{ExtensionBase: arrow.ExtensionBase{
-		Storage: arrow.PrimitiveTypes.Int16}}
-}
-
-func (SmallintType) ArrayType() reflect.Type { return reflect.TypeOf(SmallintArray{}) }
-
-func (SmallintType) ExtensionName() string { return "smallint" }
-
-func (SmallintType) Serialize() string { return "smallint-serialized" }
-
-func (s *SmallintType) ExtensionEquals(other arrow.ExtensionType) bool {
-	return s.Name() == other.Name()
-}
-
-func (SmallintType) Deserialize(storageType arrow.DataType, data string) (arrow.ExtensionType, error) {
-	if data != "smallint-serialized" {
-		return nil, fmt.Errorf("type identifier did not match: '%s'", data)
-	}
-	if !arrow.TypeEqual(storageType, arrow.PrimitiveTypes.Int16) {
-		return nil, fmt.Errorf("invalid storage type for SmallintType: %s", storageType)
-	}
-	return NewSmallintType(), nil
-}
-
-var (
-	_ arrow.ExtensionType  = (*Parametric1Type)(nil)
-	_ arrow.ExtensionType  = (*Parametric2Type)(nil)
-	_ arrow.ExtensionType  = (*ExtStructType)(nil)
-	_ arrow.ExtensionType  = (*DictExtensionType)(nil)
-	_ arrow.ExtensionType  = (*SmallintType)(nil)
-	_ array.ExtensionArray = (*Parametric1Array)(nil)
-	_ array.ExtensionArray = (*Parametric2Array)(nil)
-	_ array.ExtensionArray = (*ExtStructArray)(nil)
-	_ array.ExtensionArray = (*DictExtensionArray)(nil)
-	_ array.ExtensionArray = (*SmallintArray)(nil)
-)
diff --git a/go/internal/utils/Makefile b/go/internal/utils/Makefile
deleted file mode 100644
index fded9d1d5b69b..0000000000000
--- a/go/internal/utils/Makefile
+++ /dev/null
@@ -1,80 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-
-C2GOASM=c2goasm
-CC=clang-11
-C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 \
-				-fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma
-ASM_FLAGS_SSE4=-msse4
-ASM_FLAGS_BMI2=-mbmi2
-ASM_FLAGS_POPCNT=-mpopcnt
-
-C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
-	-fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-.PHONEY: assembly
-
-INTEL_SOURCES := \
-	min_max_avx2_amd64.s min_max_sse4_amd64.s transpose_ints_avx2_amd64.s transpose_ints_sse4_amd64.s
-
-#
-# ARROW-15336: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
-# min_max_neon_arm64.s was generated by asm2plan9s.
-# And manually formatted it as the Arm64 Plan9.
-#
-
-assembly: $(INTEL_SOURCES)
-
-_lib/min_max_avx2_amd64.s: _lib/min_max.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/min_max_sse4_amd64.s: _lib/min_max.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/min_max_neon.s: _lib/min_max.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/transpose_ints_avx2_amd64.s: _lib/transpose_ints.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/transpose_ints_sse4_amd64.s: _lib/transpose_ints.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/transpose_ints_neon.s: _lib/transpose_ints.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-min_max_avx2_amd64.s: _lib/min_max_avx2_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-min_max_sse4_amd64.s: _lib/min_max_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-transpose_ints_avx2_amd64.s: _lib/transpose_ints_avx2_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-transpose_ints_sse4_amd64.s: _lib/transpose_ints_sse4_amd64.s
-	$(C2GOASM) -a -f $^ $@
-
-clean:
-	rm -f $(INTEL_SOURCES)
-	rm -f $(addprefix _lib/,$(INTEL_SOURCES))
diff --git a/go/internal/utils/_lib/arch.h b/go/internal/utils/_lib/arch.h
deleted file mode 100644
index 7c75cd2f60fd7..0000000000000
--- a/go/internal/utils/_lib/arch.h
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#undef FULL_NAME
-
-#if defined(__AVX2__)
-    #define FULL_NAME(x) x##_avx2
-#elif __SSE4_2__ == 1
-    #define FULL_NAME(x) x##_sse4
-#elif __SSE3__ == 1
-    #define FULL_NAME(x) x##_sse3
-#elif defined(__ARM_NEON) || defined(__ARM_NEON__)
-    #define FULL_NAME(x) x##_neon
-#else
-    #define FULL_NAME(x) x##_x86
-#endif
diff --git a/go/internal/utils/_lib/min_max.c b/go/internal/utils/_lib/min_max.c
deleted file mode 100644
index d876f31a11f29..0000000000000
--- a/go/internal/utils/_lib/min_max.c
+++ /dev/null
@@ -1,125 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdint.h>
-#include <limits.h>
-#include <math.h>
-#include <float.h>
-
-void FULL_NAME(int8_max_min)(int8_t values[], int len, int8_t* minout, int8_t* maxout) {
-  int8_t max = INT8_MIN;
-  int8_t min = INT8_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(uint8_max_min)(uint8_t values[], int len, uint8_t* minout, uint8_t* maxout) {
-  uint8_t max = 0;
-  uint8_t min = UINT8_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(int16_max_min)(int16_t values[], int len, int16_t* minout, int16_t* maxout) {
-  int16_t max = INT16_MIN;
-  int16_t min = INT16_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(uint16_max_min)(uint16_t values[], int len, uint16_t* minout, uint16_t* maxout) {
-  uint16_t max = 0;
-  uint16_t min = UINT16_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(int32_max_min)(int32_t values[], int len, int32_t* minout, int32_t* maxout) {
-  int32_t max = INT32_MIN;
-  int32_t min = INT32_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(uint32_max_min)(uint32_t values[], int len, uint32_t* minout, uint32_t* maxout) {
-  uint32_t max = 0;
-  uint32_t min = UINT32_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(int64_max_min)(int64_t values[], int len, int64_t* minout, int64_t* maxout) {
-  int64_t max = INT64_MIN;
-  int64_t min = INT64_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
-
-void FULL_NAME(uint64_max_min)(uint64_t values[], int len, uint64_t* minout, uint64_t* maxout) {
-  uint64_t max = 0;
-  uint64_t min = UINT64_MAX;
-
-  for (int i = 0; i < len; ++i) {
-    min = min < values[i] ? min : values[i];
-    max = max > values[i] ? max : values[i];
-  }
-
-  *maxout = max;
-  *minout = min;
-}
diff --git a/go/internal/utils/_lib/min_max_avx2_amd64.s b/go/internal/utils/_lib/min_max_avx2_amd64.s
deleted file mode 100644
index e4e73fd414e0c..0000000000000
--- a/go/internal/utils/_lib/min_max_avx2_amd64.s
+++ /dev/null
@@ -1,1009 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"min_max.c"
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function int8_max_min_avx2
-.LCPI0_0:
-	.zero	32,128
-.LCPI0_1:
-	.zero	32,127
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI0_2:
-	.zero	16,127
-.LCPI0_3:
-	.zero	16,128
-	.text
-	.globl	int8_max_min_avx2
-	.p2align	4, 0x90
-	.type	int8_max_min_avx2,@function
-int8_max_min_avx2:                      # @int8_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB0_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 63
-	ja	.LBB0_4
-# %bb.3:
-	mov	r8b, -128
-	mov	sil, 127
-	xor	r10d, r10d
-	jmp	.LBB0_11
-.LBB0_1:
-	mov	sil, 127
-	mov	r8b, -128
-	jmp	.LBB0_12
-.LBB0_4:
-	mov	r10d, r9d
-	and	r10d, -64
-	lea	rax, [r10 - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_5
-# %bb.6:
-	mov	rsi, r8
-	and	rsi, -2
-	neg	rsi
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_0] # ymm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_1] # ymm0 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
-	xor	eax, eax
-	vmovdqa	ymm2, ymm0
-	vmovdqa	ymm3, ymm1
-	.p2align	4, 0x90
-.LBB0_7:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdi + rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + rax + 32]
-	vmovdqu	ymm6, ymmword ptr [rdi + rax + 64]
-	vmovdqu	ymm7, ymmword ptr [rdi + rax + 96]
-	vpminsb	ymm0, ymm0, ymm4
-	vpminsb	ymm2, ymm2, ymm5
-	vpmaxsb	ymm1, ymm1, ymm4
-	vpmaxsb	ymm3, ymm3, ymm5
-	vpminsb	ymm0, ymm0, ymm6
-	vpminsb	ymm2, ymm2, ymm7
-	vpmaxsb	ymm1, ymm1, ymm6
-	vpmaxsb	ymm3, ymm3, ymm7
-	sub	rax, -128
-	add	rsi, 2
-	jne	.LBB0_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB0_10
-.LBB0_9:
-	vmovdqu	ymm4, ymmword ptr [rdi + rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + rax + 32]
-	vpmaxsb	ymm3, ymm3, ymm5
-	vpmaxsb	ymm1, ymm1, ymm4
-	vpminsb	ymm2, ymm2, ymm5
-	vpminsb	ymm0, ymm0, ymm4
-.LBB0_10:
-	vpmaxsb	ymm1, ymm1, ymm3
-	vextracti128	xmm3, ymm1, 1
-	vpmaxsb	xmm1, xmm1, xmm3
-	vpxor	xmm1, xmm1, xmmword ptr [rip + .LCPI0_2]
-	vpminsb	ymm0, ymm0, ymm2
-	vpsrlw	xmm2, xmm1, 8
-	vpminub	xmm1, xmm1, xmm2
-	vphminposuw	xmm1, xmm1
-	vmovd	r8d, xmm1
-	xor	r8b, 127
-	vextracti128	xmm1, ymm0, 1
-	vpminsb	xmm0, xmm0, xmm1
-	vpxor	xmm0, xmm0, xmmword ptr [rip + .LCPI0_3]
-	vpsrlw	xmm1, xmm0, 8
-	vpminub	xmm0, xmm0, xmm1
-	vphminposuw	xmm0, xmm0
-	vmovd	esi, xmm0
-	xor	sil, -128
-	cmp	r10, r9
-	je	.LBB0_12
-	.p2align	4, 0x90
-.LBB0_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r10]
-	cmp	sil, al
-	movzx	esi, sil
-	cmovg	esi, eax
-	cmp	r8b, al
-	movzx	r8d, r8b
-	cmovl	r8d, eax
-	add	r10, 1
-	cmp	r9, r10
-	jne	.LBB0_11
-.LBB0_12:
-	mov	byte ptr [rcx], r8b
-	mov	byte ptr [rdx], sil
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_5:
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_0] # ymm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_1] # ymm0 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
-	xor	eax, eax
-	vmovdqa	ymm2, ymm0
-	vmovdqa	ymm3, ymm1
-	test	r8b, 1
-	jne	.LBB0_9
-	jmp	.LBB0_10
-.Lfunc_end0:
-	.size	int8_max_min_avx2, .Lfunc_end0-int8_max_min_avx2
-                                        # -- End function
-	.globl	uint8_max_min_avx2              # -- Begin function uint8_max_min_avx2
-	.p2align	4, 0x90
-	.type	uint8_max_min_avx2,@function
-uint8_max_min_avx2:                     # @uint8_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB1_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 63
-	ja	.LBB1_4
-# %bb.3:
-	mov	sil, -1
-	xor	r10d, r10d
-	xor	eax, eax
-	jmp	.LBB1_11
-.LBB1_1:
-	mov	sil, -1
-	xor	eax, eax
-	jmp	.LBB1_12
-.LBB1_4:
-	mov	r10d, r9d
-	and	r10d, -64
-	lea	rax, [r10 - 64]
-	mov	r8, rax
-	shr	r8, 6
-	add	r8, 1
-	test	rax, rax
-	je	.LBB1_5
-# %bb.6:
-	mov	rsi, r8
-	and	rsi, -2
-	neg	rsi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	xor	eax, eax
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpxor	xmm3, xmm3, xmm3
-	.p2align	4, 0x90
-.LBB1_7:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdi + rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + rax + 32]
-	vmovdqu	ymm6, ymmword ptr [rdi + rax + 64]
-	vmovdqu	ymm7, ymmword ptr [rdi + rax + 96]
-	vpminub	ymm1, ymm1, ymm4
-	vpminub	ymm2, ymm2, ymm5
-	vpmaxub	ymm0, ymm0, ymm4
-	vpmaxub	ymm3, ymm3, ymm5
-	vpminub	ymm1, ymm1, ymm6
-	vpminub	ymm2, ymm2, ymm7
-	vpmaxub	ymm0, ymm0, ymm6
-	vpmaxub	ymm3, ymm3, ymm7
-	sub	rax, -128
-	add	rsi, 2
-	jne	.LBB1_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB1_10
-.LBB1_9:
-	vmovdqu	ymm4, ymmword ptr [rdi + rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + rax + 32]
-	vpmaxub	ymm3, ymm3, ymm5
-	vpmaxub	ymm0, ymm0, ymm4
-	vpminub	ymm2, ymm2, ymm5
-	vpminub	ymm1, ymm1, ymm4
-.LBB1_10:
-	vpminub	ymm1, ymm1, ymm2
-	vpmaxub	ymm0, ymm0, ymm3
-	vextracti128	xmm2, ymm0, 1
-	vpmaxub	xmm0, xmm0, xmm2
-	vpcmpeqd	xmm2, xmm2, xmm2
-	vpxor	xmm0, xmm0, xmm2
-	vpsrlw	xmm2, xmm0, 8
-	vpminub	xmm0, xmm0, xmm2
-	vphminposuw	xmm0, xmm0
-	vmovd	eax, xmm0
-	not	al
-	vextracti128	xmm0, ymm1, 1
-	vpminub	xmm0, xmm1, xmm0
-	vpsrlw	xmm1, xmm0, 8
-	vpminub	xmm0, xmm0, xmm1
-	vphminposuw	xmm0, xmm0
-	vmovd	esi, xmm0
-	cmp	r10, r9
-	je	.LBB1_12
-	.p2align	4, 0x90
-.LBB1_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	r8d, byte ptr [rdi + r10]
-	cmp	sil, r8b
-	movzx	esi, sil
-	cmovae	esi, r8d
-	cmp	al, r8b
-	movzx	eax, al
-	cmovbe	eax, r8d
-	add	r10, 1
-	cmp	r9, r10
-	jne	.LBB1_11
-.LBB1_12:
-	mov	byte ptr [rcx], al
-	mov	byte ptr [rdx], sil
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB1_5:
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	xor	eax, eax
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpxor	xmm3, xmm3, xmm3
-	test	r8b, 1
-	jne	.LBB1_9
-	jmp	.LBB1_10
-.Lfunc_end1:
-	.size	uint8_max_min_avx2, .Lfunc_end1-uint8_max_min_avx2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function int16_max_min_avx2
-.LCPI2_0:
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-.LCPI2_1:
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI2_2:
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-.LCPI2_3:
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.text
-	.globl	int16_max_min_avx2
-	.p2align	4, 0x90
-	.type	int16_max_min_avx2,@function
-int16_max_min_avx2:                     # @int16_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB2_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 31
-	ja	.LBB2_4
-# %bb.3:
-	mov	r8w, -32768
-	mov	si, 32767
-	xor	r10d, r10d
-	jmp	.LBB2_11
-.LBB2_1:
-	mov	si, 32767
-	mov	r8w, -32768
-	jmp	.LBB2_12
-.LBB2_4:
-	mov	r10d, r9d
-	and	r10d, -32
-	lea	rax, [r10 - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB2_5
-# %bb.6:
-	mov	rsi, r8
-	and	rsi, -2
-	neg	rsi
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI2_0] # ymm1 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI2_1] # ymm0 = [32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767]
-	xor	eax, eax
-	vmovdqa	ymm2, ymm0
-	vmovdqa	ymm3, ymm1
-	.p2align	4, 0x90
-.LBB2_7:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdi + 2*rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + 2*rax + 32]
-	vmovdqu	ymm6, ymmword ptr [rdi + 2*rax + 64]
-	vmovdqu	ymm7, ymmword ptr [rdi + 2*rax + 96]
-	vpminsw	ymm0, ymm0, ymm4
-	vpminsw	ymm2, ymm2, ymm5
-	vpmaxsw	ymm1, ymm1, ymm4
-	vpmaxsw	ymm3, ymm3, ymm5
-	vpminsw	ymm0, ymm0, ymm6
-	vpminsw	ymm2, ymm2, ymm7
-	vpmaxsw	ymm1, ymm1, ymm6
-	vpmaxsw	ymm3, ymm3, ymm7
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB2_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB2_10
-.LBB2_9:
-	vmovdqu	ymm4, ymmword ptr [rdi + 2*rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + 2*rax + 32]
-	vpmaxsw	ymm3, ymm3, ymm5
-	vpmaxsw	ymm1, ymm1, ymm4
-	vpminsw	ymm2, ymm2, ymm5
-	vpminsw	ymm0, ymm0, ymm4
-.LBB2_10:
-	vpmaxsw	ymm1, ymm1, ymm3
-	vextracti128	xmm3, ymm1, 1
-	vpmaxsw	xmm1, xmm1, xmm3
-	vpxor	xmm1, xmm1, xmmword ptr [rip + .LCPI2_2]
-	vpminsw	ymm0, ymm0, ymm2
-	vphminposuw	xmm1, xmm1
-	vmovd	r8d, xmm1
-	xor	r8d, 32767
-	vextracti128	xmm1, ymm0, 1
-	vpminsw	xmm0, xmm0, xmm1
-	vpxor	xmm0, xmm0, xmmword ptr [rip + .LCPI2_3]
-	vphminposuw	xmm0, xmm0
-	vmovd	esi, xmm0
-	xor	esi, 32768
-	cmp	r10, r9
-	je	.LBB2_12
-	.p2align	4, 0x90
-.LBB2_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r10]
-	cmp	si, ax
-	cmovg	esi, eax
-	cmp	r8w, ax
-	cmovl	r8d, eax
-	add	r10, 1
-	cmp	r9, r10
-	jne	.LBB2_11
-.LBB2_12:
-	mov	word ptr [rcx], r8w
-	mov	word ptr [rdx], si
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB2_5:
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI2_0] # ymm1 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI2_1] # ymm0 = [32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767,32767]
-	xor	eax, eax
-	vmovdqa	ymm2, ymm0
-	vmovdqa	ymm3, ymm1
-	test	r8b, 1
-	jne	.LBB2_9
-	jmp	.LBB2_10
-.Lfunc_end2:
-	.size	int16_max_min_avx2, .Lfunc_end2-int16_max_min_avx2
-                                        # -- End function
-	.globl	uint16_max_min_avx2             # -- Begin function uint16_max_min_avx2
-	.p2align	4, 0x90
-	.type	uint16_max_min_avx2,@function
-uint16_max_min_avx2:                    # @uint16_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB3_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 31
-	ja	.LBB3_4
-# %bb.3:
-	mov	r8w, -1
-	xor	r10d, r10d
-	xor	esi, esi
-	jmp	.LBB3_11
-.LBB3_1:
-	mov	r8w, -1
-	xor	esi, esi
-	jmp	.LBB3_12
-.LBB3_4:
-	mov	r10d, r9d
-	and	r10d, -32
-	lea	rax, [r10 - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_5
-# %bb.6:
-	mov	rsi, r8
-	and	rsi, -2
-	neg	rsi
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	xor	eax, eax
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpxor	xmm3, xmm3, xmm3
-	.p2align	4, 0x90
-.LBB3_7:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm4, ymmword ptr [rdi + 2*rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + 2*rax + 32]
-	vmovdqu	ymm6, ymmword ptr [rdi + 2*rax + 64]
-	vmovdqu	ymm7, ymmword ptr [rdi + 2*rax + 96]
-	vpminuw	ymm1, ymm1, ymm4
-	vpminuw	ymm2, ymm2, ymm5
-	vpmaxuw	ymm0, ymm0, ymm4
-	vpmaxuw	ymm3, ymm3, ymm5
-	vpminuw	ymm1, ymm1, ymm6
-	vpminuw	ymm2, ymm2, ymm7
-	vpmaxuw	ymm0, ymm0, ymm6
-	vpmaxuw	ymm3, ymm3, ymm7
-	add	rax, 64
-	add	rsi, 2
-	jne	.LBB3_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB3_10
-.LBB3_9:
-	vmovdqu	ymm4, ymmword ptr [rdi + 2*rax]
-	vmovdqu	ymm5, ymmword ptr [rdi + 2*rax + 32]
-	vpmaxuw	ymm3, ymm3, ymm5
-	vpmaxuw	ymm0, ymm0, ymm4
-	vpminuw	ymm2, ymm2, ymm5
-	vpminuw	ymm1, ymm1, ymm4
-.LBB3_10:
-	vpminuw	ymm1, ymm1, ymm2
-	vpmaxuw	ymm0, ymm0, ymm3
-	vextracti128	xmm2, ymm0, 1
-	vpmaxuw	xmm0, xmm0, xmm2
-	vpcmpeqd	xmm2, xmm2, xmm2
-	vpxor	xmm0, xmm0, xmm2
-	vphminposuw	xmm0, xmm0
-	vmovd	esi, xmm0
-	not	esi
-	vextracti128	xmm0, ymm1, 1
-	vpminuw	xmm0, xmm1, xmm0
-	vphminposuw	xmm0, xmm0
-	vmovd	r8d, xmm0
-	cmp	r10, r9
-	je	.LBB3_12
-	.p2align	4, 0x90
-.LBB3_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r10]
-	cmp	r8w, ax
-	cmovae	r8d, eax
-	cmp	si, ax
-	cmovbe	esi, eax
-	add	r10, 1
-	cmp	r9, r10
-	jne	.LBB3_11
-.LBB3_12:
-	mov	word ptr [rcx], si
-	mov	word ptr [rdx], r8w
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.LBB3_5:
-	vpxor	xmm0, xmm0, xmm0
-	vpcmpeqd	ymm1, ymm1, ymm1
-	xor	eax, eax
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpxor	xmm3, xmm3, xmm3
-	test	r8b, 1
-	jne	.LBB3_9
-	jmp	.LBB3_10
-.Lfunc_end3:
-	.size	uint16_max_min_avx2, .Lfunc_end3-uint16_max_min_avx2
-                                        # -- End function
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2                               # -- Begin function int32_max_min_avx2
-.LCPI4_0:
-	.long	2147483648                      # 0x80000000
-.LCPI4_1:
-	.long	2147483647                      # 0x7fffffff
-	.text
-	.globl	int32_max_min_avx2
-	.p2align	4, 0x90
-	.type	int32_max_min_avx2,@function
-int32_max_min_avx2:                     # @int32_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB4_1
-# %bb.2:
-	mov	r8d, esi
-	cmp	esi, 31
-	ja	.LBB4_4
-# %bb.3:
-	mov	r10d, -2147483648
-	mov	eax, 2147483647
-	xor	r9d, r9d
-	jmp	.LBB4_7
-.LBB4_1:
-	mov	eax, 2147483647
-	mov	esi, -2147483648
-	jmp	.LBB4_8
-.LBB4_4:
-	mov	r9d, r8d
-	vpbroadcastd	ymm4, dword ptr [rip + .LCPI4_0] # ymm4 = [2147483648,2147483648,2147483648,2147483648,2147483648,2147483648,2147483648,2147483648]
-	and	r9d, -32
-	vpbroadcastd	ymm0, dword ptr [rip + .LCPI4_1] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
-	xor	eax, eax
-	vmovdqa	ymm1, ymm0
-	vmovdqa	ymm2, ymm0
-	vmovdqa	ymm3, ymm0
-	vmovdqa	ymm5, ymm4
-	vmovdqa	ymm6, ymm4
-	vmovdqa	ymm7, ymm4
-	.p2align	4, 0x90
-.LBB4_5:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm8, ymmword ptr [rdi + 4*rax]
-	vmovdqu	ymm9, ymmword ptr [rdi + 4*rax + 32]
-	vmovdqu	ymm10, ymmword ptr [rdi + 4*rax + 64]
-	vmovdqu	ymm11, ymmword ptr [rdi + 4*rax + 96]
-	vpminsd	ymm0, ymm0, ymm8
-	vpminsd	ymm1, ymm1, ymm9
-	vpminsd	ymm2, ymm2, ymm10
-	vpminsd	ymm3, ymm3, ymm11
-	vpmaxsd	ymm4, ymm4, ymm8
-	vpmaxsd	ymm5, ymm5, ymm9
-	vpmaxsd	ymm6, ymm6, ymm10
-	vpmaxsd	ymm7, ymm7, ymm11
-	add	rax, 32
-	cmp	r9, rax
-	jne	.LBB4_5
-# %bb.6:
-	vpmaxsd	ymm4, ymm4, ymm5
-	vpmaxsd	ymm4, ymm4, ymm6
-	vpmaxsd	ymm4, ymm4, ymm7
-	vextracti128	xmm5, ymm4, 1
-	vpmaxsd	xmm4, xmm4, xmm5
-	vpshufd	xmm5, xmm4, 78                  # xmm5 = xmm4[2,3,0,1]
-	vpmaxsd	xmm4, xmm4, xmm5
-	vpshufd	xmm5, xmm4, 229                 # xmm5 = xmm4[1,1,2,3]
-	vpmaxsd	xmm4, xmm4, xmm5
-	vmovd	r10d, xmm4
-	vpminsd	ymm0, ymm0, ymm1
-	vpminsd	ymm0, ymm0, ymm2
-	vpminsd	ymm0, ymm0, ymm3
-	vextracti128	xmm1, ymm0, 1
-	vpminsd	xmm0, xmm0, xmm1
-	vpshufd	xmm1, xmm0, 78                  # xmm1 = xmm0[2,3,0,1]
-	vpminsd	xmm0, xmm0, xmm1
-	vpshufd	xmm1, xmm0, 229                 # xmm1 = xmm0[1,1,2,3]
-	vpminsd	xmm0, xmm0, xmm1
-	vmovd	eax, xmm0
-	mov	esi, r10d
-	cmp	r9, r8
-	je	.LBB4_8
-	.p2align	4, 0x90
-.LBB4_7:                                # =>This Inner Loop Header: Depth=1
-	mov	esi, dword ptr [rdi + 4*r9]
-	cmp	eax, esi
-	cmovg	eax, esi
-	cmp	r10d, esi
-	cmovge	esi, r10d
-	add	r9, 1
-	mov	r10d, esi
-	cmp	r8, r9
-	jne	.LBB4_7
-.LBB4_8:
-	mov	dword ptr [rcx], esi
-	mov	dword ptr [rdx], eax
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end4:
-	.size	int32_max_min_avx2, .Lfunc_end4-int32_max_min_avx2
-                                        # -- End function
-	.globl	uint32_max_min_avx2             # -- Begin function uint32_max_min_avx2
-	.p2align	4, 0x90
-	.type	uint32_max_min_avx2,@function
-uint32_max_min_avx2:                    # @uint32_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB5_1
-# %bb.2:
-	mov	r8d, esi
-	cmp	esi, 31
-	ja	.LBB5_4
-# %bb.3:
-	xor	r9d, r9d
-	mov	eax, -1
-	xor	r10d, r10d
-	jmp	.LBB5_7
-.LBB5_1:
-	mov	eax, -1
-	xor	esi, esi
-	jmp	.LBB5_8
-.LBB5_4:
-	mov	r9d, r8d
-	and	r9d, -32
-	vpxor	xmm4, xmm4, xmm4
-	vpcmpeqd	ymm0, ymm0, ymm0
-	xor	eax, eax
-	vpcmpeqd	ymm1, ymm1, ymm1
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpcmpeqd	ymm3, ymm3, ymm3
-	vpxor	xmm5, xmm5, xmm5
-	vpxor	xmm6, xmm6, xmm6
-	vpxor	xmm7, xmm7, xmm7
-	.p2align	4, 0x90
-.LBB5_5:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm8, ymmword ptr [rdi + 4*rax]
-	vmovdqu	ymm9, ymmword ptr [rdi + 4*rax + 32]
-	vmovdqu	ymm10, ymmword ptr [rdi + 4*rax + 64]
-	vmovdqu	ymm11, ymmword ptr [rdi + 4*rax + 96]
-	vpminud	ymm0, ymm0, ymm8
-	vpminud	ymm1, ymm1, ymm9
-	vpminud	ymm2, ymm2, ymm10
-	vpminud	ymm3, ymm3, ymm11
-	vpmaxud	ymm4, ymm4, ymm8
-	vpmaxud	ymm5, ymm5, ymm9
-	vpmaxud	ymm6, ymm6, ymm10
-	vpmaxud	ymm7, ymm7, ymm11
-	add	rax, 32
-	cmp	r9, rax
-	jne	.LBB5_5
-# %bb.6:
-	vpmaxud	ymm4, ymm4, ymm5
-	vpmaxud	ymm4, ymm4, ymm6
-	vpmaxud	ymm4, ymm4, ymm7
-	vextracti128	xmm5, ymm4, 1
-	vpmaxud	xmm4, xmm4, xmm5
-	vpshufd	xmm5, xmm4, 78                  # xmm5 = xmm4[2,3,0,1]
-	vpmaxud	xmm4, xmm4, xmm5
-	vpshufd	xmm5, xmm4, 229                 # xmm5 = xmm4[1,1,2,3]
-	vpmaxud	xmm4, xmm4, xmm5
-	vmovd	r10d, xmm4
-	vpminud	ymm0, ymm0, ymm1
-	vpminud	ymm0, ymm0, ymm2
-	vpminud	ymm0, ymm0, ymm3
-	vextracti128	xmm1, ymm0, 1
-	vpminud	xmm0, xmm0, xmm1
-	vpshufd	xmm1, xmm0, 78                  # xmm1 = xmm0[2,3,0,1]
-	vpminud	xmm0, xmm0, xmm1
-	vpshufd	xmm1, xmm0, 229                 # xmm1 = xmm0[1,1,2,3]
-	vpminud	xmm0, xmm0, xmm1
-	vmovd	eax, xmm0
-	mov	esi, r10d
-	cmp	r9, r8
-	je	.LBB5_8
-	.p2align	4, 0x90
-.LBB5_7:                                # =>This Inner Loop Header: Depth=1
-	mov	esi, dword ptr [rdi + 4*r9]
-	cmp	eax, esi
-	cmovae	eax, esi
-	cmp	r10d, esi
-	cmova	esi, r10d
-	add	r9, 1
-	mov	r10d, esi
-	cmp	r8, r9
-	jne	.LBB5_7
-.LBB5_8:
-	mov	dword ptr [rcx], esi
-	mov	dword ptr [rdx], eax
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end5:
-	.size	uint32_max_min_avx2, .Lfunc_end5-uint32_max_min_avx2
-                                        # -- End function
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function int64_max_min_avx2
-.LCPI6_0:
-	.quad	-9223372036854775808            # 0x8000000000000000
-.LCPI6_1:
-	.quad	9223372036854775807             # 0x7fffffffffffffff
-	.text
-	.globl	int64_max_min_avx2
-	.p2align	4, 0x90
-	.type	int64_max_min_avx2,@function
-int64_max_min_avx2:                     # @int64_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	movabs	rax, 9223372036854775807
-	test	esi, esi
-	jle	.LBB6_1
-# %bb.2:
-	mov	r8d, esi
-	cmp	esi, 15
-	ja	.LBB6_4
-# %bb.3:
-	lea	r10, [rax + 1]
-	xor	r9d, r9d
-	jmp	.LBB6_7
-.LBB6_1:
-	lea	rsi, [rax + 1]
-	jmp	.LBB6_8
-.LBB6_4:
-	mov	r9d, r8d
-	vpbroadcastq	ymm4, qword ptr [rip + .LCPI6_0] # ymm4 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
-	and	r9d, -16
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI6_1] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
-	xor	eax, eax
-	vmovdqa	ymm3, ymm0
-	vmovdqa	ymm2, ymm0
-	vmovdqa	ymm1, ymm0
-	vmovdqa	ymm7, ymm4
-	vmovdqa	ymm6, ymm4
-	vmovdqa	ymm5, ymm4
-	.p2align	4, 0x90
-.LBB6_5:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm8, ymmword ptr [rdi + 8*rax]
-	vpcmpgtq	ymm9, ymm8, ymm0
-	vblendvpd	ymm0, ymm8, ymm0, ymm9
-	vmovdqu	ymm9, ymmword ptr [rdi + 8*rax + 32]
-	vpcmpgtq	ymm10, ymm9, ymm3
-	vblendvpd	ymm3, ymm9, ymm3, ymm10
-	vmovdqu	ymm10, ymmword ptr [rdi + 8*rax + 64]
-	vpcmpgtq	ymm11, ymm10, ymm2
-	vblendvpd	ymm2, ymm10, ymm2, ymm11
-	vmovdqu	ymm11, ymmword ptr [rdi + 8*rax + 96]
-	vpcmpgtq	ymm12, ymm11, ymm1
-	vblendvpd	ymm1, ymm11, ymm1, ymm12
-	vpcmpgtq	ymm12, ymm4, ymm8
-	vblendvpd	ymm4, ymm8, ymm4, ymm12
-	vpcmpgtq	ymm8, ymm7, ymm9
-	vblendvpd	ymm7, ymm9, ymm7, ymm8
-	vpcmpgtq	ymm8, ymm6, ymm10
-	vblendvpd	ymm6, ymm10, ymm6, ymm8
-	vpcmpgtq	ymm8, ymm5, ymm11
-	vblendvpd	ymm5, ymm11, ymm5, ymm8
-	add	rax, 16
-	cmp	r9, rax
-	jne	.LBB6_5
-# %bb.6:
-	vpcmpgtq	ymm8, ymm4, ymm7
-	vblendvpd	ymm4, ymm7, ymm4, ymm8
-	vpcmpgtq	ymm7, ymm4, ymm6
-	vblendvpd	ymm4, ymm6, ymm4, ymm7
-	vpcmpgtq	ymm6, ymm4, ymm5
-	vblendvpd	ymm4, ymm5, ymm4, ymm6
-	vextractf128	xmm5, ymm4, 1
-	vpcmpgtq	xmm6, xmm4, xmm5
-	vblendvpd	xmm4, xmm5, xmm4, xmm6
-	vpermilps	xmm5, xmm4, 78          # xmm5 = xmm4[2,3,0,1]
-	vpcmpgtq	xmm6, xmm4, xmm5
-	vblendvpd	xmm4, xmm5, xmm4, xmm6
-	vmovq	r10, xmm4
-	vpcmpgtq	ymm4, ymm3, ymm0
-	vblendvpd	ymm0, ymm3, ymm0, ymm4
-	vpcmpgtq	ymm3, ymm2, ymm0
-	vblendvpd	ymm0, ymm2, ymm0, ymm3
-	vpcmpgtq	ymm2, ymm1, ymm0
-	vblendvpd	ymm0, ymm1, ymm0, ymm2
-	vextractf128	xmm1, ymm0, 1
-	vpcmpgtq	xmm2, xmm1, xmm0
-	vblendvpd	xmm0, xmm1, xmm0, xmm2
-	vpermilps	xmm1, xmm0, 78          # xmm1 = xmm0[2,3,0,1]
-	vpcmpgtq	xmm2, xmm1, xmm0
-	vblendvpd	xmm0, xmm1, xmm0, xmm2
-	vmovq	rax, xmm0
-	mov	rsi, r10
-	cmp	r9, r8
-	je	.LBB6_8
-	.p2align	4, 0x90
-.LBB6_7:                                # =>This Inner Loop Header: Depth=1
-	mov	rsi, qword ptr [rdi + 8*r9]
-	cmp	rax, rsi
-	cmovg	rax, rsi
-	cmp	r10, rsi
-	cmovge	rsi, r10
-	add	r9, 1
-	mov	r10, rsi
-	cmp	r8, r9
-	jne	.LBB6_7
-.LBB6_8:
-	mov	qword ptr [rcx], rsi
-	mov	qword ptr [rdx], rax
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end6:
-	.size	int64_max_min_avx2, .Lfunc_end6-int64_max_min_avx2
-                                        # -- End function
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function uint64_max_min_avx2
-.LCPI7_0:
-	.quad	-9223372036854775808            # 0x8000000000000000
-	.text
-	.globl	uint64_max_min_avx2
-	.p2align	4, 0x90
-	.type	uint64_max_min_avx2,@function
-uint64_max_min_avx2:                    # @uint64_max_min_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB7_1
-# %bb.2:
-	mov	r8d, esi
-	cmp	esi, 15
-	ja	.LBB7_4
-# %bb.3:
-	mov	rax, -1
-	xor	r9d, r9d
-	xor	r10d, r10d
-	jmp	.LBB7_7
-.LBB7_1:
-	mov	rax, -1
-	xor	esi, esi
-	jmp	.LBB7_8
-.LBB7_4:
-	mov	r9d, r8d
-	and	r9d, -16
-	vpxor	xmm5, xmm5, xmm5
-	vpcmpeqd	ymm1, ymm1, ymm1
-	xor	eax, eax
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI7_0] # ymm0 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
-	vpcmpeqd	ymm4, ymm4, ymm4
-	vpcmpeqd	ymm3, ymm3, ymm3
-	vpcmpeqd	ymm2, ymm2, ymm2
-	vpxor	xmm8, xmm8, xmm8
-	vpxor	xmm7, xmm7, xmm7
-	vpxor	xmm6, xmm6, xmm6
-	.p2align	4, 0x90
-.LBB7_5:                                # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm9, ymmword ptr [rdi + 8*rax]
-	vpxor	ymm10, ymm1, ymm0
-	vpxor	ymm11, ymm9, ymm0
-	vpcmpgtq	ymm10, ymm11, ymm10
-	vblendvpd	ymm1, ymm9, ymm1, ymm10
-	vpxor	ymm10, ymm5, ymm0
-	vpcmpgtq	ymm10, ymm10, ymm11
-	vblendvpd	ymm5, ymm9, ymm5, ymm10
-	vmovdqu	ymm9, ymmword ptr [rdi + 8*rax + 32]
-	vpxor	ymm10, ymm4, ymm0
-	vpxor	ymm11, ymm9, ymm0
-	vpcmpgtq	ymm10, ymm11, ymm10
-	vblendvpd	ymm4, ymm9, ymm4, ymm10
-	vpxor	ymm10, ymm8, ymm0
-	vpcmpgtq	ymm10, ymm10, ymm11
-	vmovdqu	ymm11, ymmword ptr [rdi + 8*rax + 64]
-	vblendvpd	ymm8, ymm9, ymm8, ymm10
-	vpxor	ymm9, ymm3, ymm0
-	vpxor	ymm10, ymm11, ymm0
-	vpcmpgtq	ymm9, ymm10, ymm9
-	vblendvpd	ymm3, ymm11, ymm3, ymm9
-	vpxor	ymm9, ymm7, ymm0
-	vpcmpgtq	ymm9, ymm9, ymm10
-	vblendvpd	ymm7, ymm11, ymm7, ymm9
-	vmovdqu	ymm9, ymmword ptr [rdi + 8*rax + 96]
-	vpxor	ymm10, ymm2, ymm0
-	vpxor	ymm11, ymm9, ymm0
-	vpcmpgtq	ymm10, ymm11, ymm10
-	vblendvpd	ymm2, ymm9, ymm2, ymm10
-	vpxor	ymm10, ymm6, ymm0
-	vpcmpgtq	ymm10, ymm10, ymm11
-	vblendvpd	ymm6, ymm9, ymm6, ymm10
-	add	rax, 16
-	cmp	r9, rax
-	jne	.LBB7_5
-# %bb.6:
-	vpxor	ymm9, ymm8, ymm0
-	vpxor	ymm10, ymm5, ymm0
-	vpcmpgtq	ymm9, ymm10, ymm9
-	vblendvpd	ymm5, ymm8, ymm5, ymm9
-	vxorpd	ymm8, ymm5, ymm0
-	vpxor	ymm9, ymm7, ymm0
-	vpcmpgtq	ymm8, ymm8, ymm9
-	vblendvpd	ymm5, ymm7, ymm5, ymm8
-	vxorpd	ymm7, ymm5, ymm0
-	vpxor	ymm8, ymm6, ymm0
-	vpcmpgtq	ymm7, ymm7, ymm8
-	vblendvpd	ymm5, ymm6, ymm5, ymm7
-	vextractf128	xmm6, ymm5, 1
-	vxorpd	xmm8, xmm6, xmm0
-	vxorpd	xmm7, xmm5, xmm0
-	vpcmpgtq	xmm7, xmm7, xmm8
-	vblendvpd	xmm5, xmm6, xmm5, xmm7
-	vpermilps	xmm6, xmm5, 78          # xmm6 = xmm5[2,3,0,1]
-	vxorpd	xmm8, xmm5, xmm0
-	vxorpd	xmm7, xmm6, xmm0
-	vpcmpgtq	xmm7, xmm8, xmm7
-	vblendvpd	xmm5, xmm6, xmm5, xmm7
-	vpxor	ymm6, ymm1, ymm0
-	vpxor	ymm7, ymm4, ymm0
-	vpcmpgtq	ymm6, ymm7, ymm6
-	vblendvpd	ymm1, ymm4, ymm1, ymm6
-	vxorpd	ymm4, ymm1, ymm0
-	vpxor	ymm6, ymm3, ymm0
-	vpcmpgtq	ymm4, ymm6, ymm4
-	vblendvpd	ymm1, ymm3, ymm1, ymm4
-	vmovq	r10, xmm5
-	vxorpd	ymm3, ymm1, ymm0
-	vpxor	ymm4, ymm2, ymm0
-	vpcmpgtq	ymm3, ymm4, ymm3
-	vblendvpd	ymm1, ymm2, ymm1, ymm3
-	vextractf128	xmm2, ymm1, 1
-	vxorpd	xmm3, xmm1, xmm0
-	vxorpd	xmm4, xmm2, xmm0
-	vpcmpgtq	xmm3, xmm4, xmm3
-	vblendvpd	xmm1, xmm2, xmm1, xmm3
-	vpermilps	xmm2, xmm1, 78          # xmm2 = xmm1[2,3,0,1]
-	vxorpd	xmm3, xmm1, xmm0
-	vxorpd	xmm0, xmm2, xmm0
-	vpcmpgtq	xmm0, xmm0, xmm3
-	vblendvpd	xmm0, xmm2, xmm1, xmm0
-	vmovq	rax, xmm0
-	mov	rsi, r10
-	cmp	r9, r8
-	je	.LBB7_8
-	.p2align	4, 0x90
-.LBB7_7:                                # =>This Inner Loop Header: Depth=1
-	mov	rsi, qword ptr [rdi + 8*r9]
-	cmp	rax, rsi
-	cmovae	rax, rsi
-	cmp	r10, rsi
-	cmova	rsi, r10
-	add	r9, 1
-	mov	r10, rsi
-	cmp	r8, r9
-	jne	.LBB7_7
-.LBB7_8:
-	mov	qword ptr [rcx], rsi
-	mov	qword ptr [rdx], rax
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end7:
-	.size	uint64_max_min_avx2, .Lfunc_end7-uint64_max_min_avx2
-                                        # -- End function
-	.ident	"Debian clang version 11.0.1-2"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/internal/utils/_lib/min_max_neon.s b/go/internal/utils/_lib/min_max_neon.s
deleted file mode 100644
index db48ea4ab196c..0000000000000
--- a/go/internal/utils/_lib/min_max_neon.s
+++ /dev/null
@@ -1,318 +0,0 @@
-	.text
-	.file	"min_max.c"
-	.globl	int32_max_min_neon      // -- Begin function int32_max_min_neon
-	.p2align	2
-	.type	int32_max_min_neon,@function
-int32_max_min_neon:                     // @int32_max_min_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	cmp	w1, #1                  // =1
-	mov	x29, sp
-	b.lt	.LBB0_3
-// %bb.1:
-	cmp	w1, #3                  // =3
-	mov	w8, w1
-	b.hi	.LBB0_4
-// %bb.2:
-	mov	x9, xzr
-	mov	w11, #-2147483648
-	mov	w10, #2147483647
-	b	.LBB0_7
-.LBB0_3:
-	mov	w10, #2147483647
-	mov	w11, #-2147483648
-	str	w11, [x3]
-	str	w10, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB0_4:
-	and	x9, x8, #0xfffffffc
-	add	x10, x0, #8             // =8
-	movi	v2.2s, #128, lsl #24
-	mvni	v0.2s, #128, lsl #24
-	mvni	v1.2s, #128, lsl #24
-	mov	x11, x9
-	movi	v3.2s, #128, lsl #24
-.LBB0_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	d4, d5, [x10, #-8]
-	subs	x11, x11, #4            // =4
-	add	x10, x10, #16           // =16
-	smin	v0.2s, v0.2s, v4.2s
-	smin	v1.2s, v1.2s, v5.2s
-	smax	v2.2s, v2.2s, v4.2s
-	smax	v3.2s, v3.2s, v5.2s
-	b.ne	.LBB0_5
-// %bb.6:
-	smax	v2.2s, v2.2s, v3.2s
-	smin	v0.2s, v0.2s, v1.2s
-	dup	v1.2s, v2.s[1]
-	dup	v3.2s, v0.s[1]
-	smax	v1.2s, v2.2s, v1.2s
-	smin	v0.2s, v0.2s, v3.2s
-	cmp	x9, x8
-	fmov	w11, s1
-	fmov	w10, s0
-	b.eq	.LBB0_9
-.LBB0_7:
-	add	x12, x0, x9, lsl #2
-	sub	x8, x8, x9
-.LBB0_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	w9, [x12], #4
-	cmp	w10, w9
-	csel	w10, w10, w9, lt
-	cmp	w11, w9
-	csel	w11, w11, w9, gt
-	subs	x8, x8, #1              // =1
-	b.ne	.LBB0_8
-.LBB0_9:
-	str	w11, [x3]
-	str	w10, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end0:
-	.size	int32_max_min_neon, .Lfunc_end0-int32_max_min_neon
-                                        // -- End function
-	.globl	uint32_max_min_neon     // -- Begin function uint32_max_min_neon
-	.p2align	2
-	.type	uint32_max_min_neon,@function
-uint32_max_min_neon:                    // @uint32_max_min_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	cmp	w1, #1                  // =1
-	mov	x29, sp
-	b.lt	.LBB1_3
-// %bb.1:
-	cmp	w1, #3                  // =3
-	mov	w8, w1
-	b.hi	.LBB1_4
-// %bb.2:
-	mov	x9, xzr
-	mov	w10, wzr
-	mov	w11, #-1
-	b	.LBB1_7
-.LBB1_3:
-	mov	w10, wzr
-	mov	w11, #-1
-	str	w10, [x3]
-	str	w11, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB1_4:
-	and	x9, x8, #0xfffffffc
-	movi	v1.2d, #0000000000000000
-	movi	v0.2d, #0xffffffffffffffff
-	add	x10, x0, #8             // =8
-	movi	v2.2d, #0xffffffffffffffff
-	mov	x11, x9
-	movi	v3.2d, #0000000000000000
-.LBB1_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	d4, d5, [x10, #-8]
-	subs	x11, x11, #4            // =4
-	add	x10, x10, #16           // =16
-	umin	v0.2s, v0.2s, v4.2s
-	umin	v2.2s, v2.2s, v5.2s
-	umax	v1.2s, v1.2s, v4.2s
-	umax	v3.2s, v3.2s, v5.2s
-	b.ne	.LBB1_5
-// %bb.6:
-	umax	v1.2s, v1.2s, v3.2s
-	umin	v0.2s, v0.2s, v2.2s
-	dup	v2.2s, v1.s[1]
-	dup	v3.2s, v0.s[1]
-	umax	v1.2s, v1.2s, v2.2s
-	umin	v0.2s, v0.2s, v3.2s
-	cmp	x9, x8
-	fmov	w10, s1
-	fmov	w11, s0
-	b.eq	.LBB1_9
-.LBB1_7:
-	add	x12, x0, x9, lsl #2
-	sub	x8, x8, x9
-.LBB1_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	w9, [x12], #4
-	cmp	w11, w9
-	csel	w11, w11, w9, lo
-	cmp	w10, w9
-	csel	w10, w10, w9, hi
-	subs	x8, x8, #1              // =1
-	b.ne	.LBB1_8
-.LBB1_9:
-	str	w10, [x3]
-	str	w11, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end1:
-	.size	uint32_max_min_neon, .Lfunc_end1-uint32_max_min_neon
-                                        // -- End function
-	.globl	int64_max_min_neon      // -- Begin function int64_max_min_neon
-	.p2align	2
-	.type	int64_max_min_neon,@function
-int64_max_min_neon:                     // @int64_max_min_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	cmp	w1, #1                  // =1
-	mov	x29, sp
-	b.lt	.LBB2_3
-// %bb.1:
-	mov	w8, w1
-	mov	x11, #-9223372036854775808
-	cmp	w1, #3                  // =3
-	mov	x10, #9223372036854775807
-	b.hi	.LBB2_4
-// %bb.2:
-	mov	x9, xzr
-	b	.LBB2_7
-.LBB2_3:
-	mov	x10, #9223372036854775807
-	mov	x11, #-9223372036854775808
-	str	x11, [x3]
-	str	x10, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB2_4:
-	and	x9, x8, #0xfffffffc
-	dup	v1.2d, x11
-	dup	v0.2d, x10
-	add	x10, x0, #16            // =16
-	mov	x11, x9
-	mov	v2.16b, v0.16b
-	mov	v3.16b, v1.16b
-.LBB2_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	q4, q5, [x10, #-16]
-	mov	v6.16b, v3.16b
-	mov	v7.16b, v1.16b
-	mov	v3.16b, v2.16b
-	mov	v1.16b, v0.16b
-	cmgt	v0.2d, v4.2d, v0.2d
-	cmgt	v2.2d, v5.2d, v2.2d
-	bsl	v0.16b, v1.16b, v4.16b
-	cmgt	v1.2d, v7.2d, v4.2d
-	bsl	v2.16b, v3.16b, v5.16b
-	cmgt	v3.2d, v6.2d, v5.2d
-	subs	x11, x11, #4            // =4
-	bsl	v1.16b, v7.16b, v4.16b
-	bsl	v3.16b, v6.16b, v5.16b
-	add	x10, x10, #32           // =32
-	b.ne	.LBB2_5
-// %bb.6:
-	cmgt	v4.2d, v1.2d, v3.2d
-	cmgt	v5.2d, v2.2d, v0.2d
-	bsl	v4.16b, v1.16b, v3.16b
-	bsl	v5.16b, v0.16b, v2.16b
-	dup	v0.2d, v4.d[1]
-	dup	v1.2d, v5.d[1]
-	cmgt	v2.2d, v4.2d, v0.2d
-	cmgt	v3.2d, v1.2d, v5.2d
-	bsl	v2.16b, v4.16b, v0.16b
-	bsl	v3.16b, v5.16b, v1.16b
-	cmp	x9, x8
-	fmov	x11, d2
-	fmov	x10, d3
-	b.eq	.LBB2_9
-.LBB2_7:
-	add	x12, x0, x9, lsl #3
-	sub	x8, x8, x9
-.LBB2_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	x9, [x12], #8
-	cmp	x10, x9
-	csel	x10, x10, x9, lt
-	cmp	x11, x9
-	csel	x11, x11, x9, gt
-	subs	x8, x8, #1              // =1
-	b.ne	.LBB2_8
-.LBB2_9:
-	str	x11, [x3]
-	str	x10, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end2:
-	.size	int64_max_min_neon, .Lfunc_end2-int64_max_min_neon
-                                        // -- End function
-	.globl	uint64_max_min_neon     // -- Begin function uint64_max_min_neon
-	.p2align	2
-	.type	uint64_max_min_neon,@function
-uint64_max_min_neon:                    // @uint64_max_min_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	cmp	w1, #1                  // =1
-	mov	x29, sp
-	b.lt	.LBB3_3
-// %bb.1:
-	cmp	w1, #3                  // =3
-	mov	w8, w1
-	b.hi	.LBB3_4
-// %bb.2:
-	mov	x9, xzr
-	mov	x10, xzr
-	mov	x11, #-1
-	b	.LBB3_7
-.LBB3_3:
-	mov	x10, xzr
-	mov	x11, #-1
-	str	x10, [x3]
-	str	x11, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.LBB3_4:
-	and	x9, x8, #0xfffffffc
-	add	x10, x0, #16            // =16
-	movi	v1.2d, #0000000000000000
-	movi	v0.2d, #0xffffffffffffffff
-	movi	v2.2d, #0xffffffffffffffff
-	mov	x11, x9
-	movi	v3.2d, #0000000000000000
-.LBB3_5:                                // =>This Inner Loop Header: Depth=1
-	ldp	q4, q5, [x10, #-16]
-	mov	v6.16b, v3.16b
-	mov	v7.16b, v1.16b
-	mov	v3.16b, v2.16b
-	mov	v1.16b, v0.16b
-	cmhi	v0.2d, v4.2d, v0.2d
-	cmhi	v2.2d, v5.2d, v2.2d
-	bsl	v0.16b, v1.16b, v4.16b
-	cmhi	v1.2d, v7.2d, v4.2d
-	bsl	v2.16b, v3.16b, v5.16b
-	cmhi	v3.2d, v6.2d, v5.2d
-	subs	x11, x11, #4            // =4
-	bsl	v1.16b, v7.16b, v4.16b
-	bsl	v3.16b, v6.16b, v5.16b
-	add	x10, x10, #32           // =32
-	b.ne	.LBB3_5
-// %bb.6:
-	cmhi	v4.2d, v1.2d, v3.2d
-	cmhi	v5.2d, v2.2d, v0.2d
-	bsl	v4.16b, v1.16b, v3.16b
-	bsl	v5.16b, v0.16b, v2.16b
-	dup	v0.2d, v4.d[1]
-	dup	v1.2d, v5.d[1]
-	cmhi	v2.2d, v4.2d, v0.2d
-	cmhi	v3.2d, v1.2d, v5.2d
-	bsl	v2.16b, v4.16b, v0.16b
-	bsl	v3.16b, v5.16b, v1.16b
-	cmp	x9, x8
-	fmov	x10, d2
-	fmov	x11, d3
-	b.eq	.LBB3_9
-.LBB3_7:
-	add	x12, x0, x9, lsl #3
-	sub	x8, x8, x9
-.LBB3_8:                                // =>This Inner Loop Header: Depth=1
-	ldr	x9, [x12], #8
-	cmp	x11, x9
-	csel	x11, x11, x9, lo
-	cmp	x10, x9
-	csel	x10, x10, x9, hi
-	subs	x8, x8, #1              // =1
-	b.ne	.LBB3_8
-.LBB3_9:
-	str	x10, [x3]
-	str	x11, [x2]
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end3:
-	.size	uint64_max_min_neon, .Lfunc_end3-uint64_max_min_neon
-                                        // -- End function
-
-	.ident	"clang version 9.0.1-12 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/internal/utils/_lib/min_max_sse4_amd64.s b/go/internal/utils/_lib/min_max_sse4_amd64.s
deleted file mode 100644
index 32866abd3e29b..0000000000000
--- a/go/internal/utils/_lib/min_max_sse4_amd64.s
+++ /dev/null
@@ -1,1091 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"min_max.c"
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function int8_max_min_sse4
-.LCPI0_0:
-	.zero	16,128
-.LCPI0_1:
-	.zero	16,127
-	.text
-	.globl	int8_max_min_sse4
-	.p2align	4, 0x90
-	.type	int8_max_min_sse4,@function
-int8_max_min_sse4:                      # @int8_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB0_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 31
-	ja	.LBB0_4
-# %bb.3:
-	mov	r8b, -128
-	mov	sil, 127
-	xor	r11d, r11d
-	jmp	.LBB0_11
-.LBB0_1:
-	mov	sil, 127
-	mov	r8b, -128
-	jmp	.LBB0_12
-.LBB0_4:
-	mov	r11d, r9d
-	and	r11d, -32
-	lea	rax, [r11 - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB0_5
-# %bb.6:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_1] # xmm0 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	movdqa	xmm3, xmm1
-	.p2align	4, 0x90
-.LBB0_7:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdi + rax]
-	movdqu	xmm5, xmmword ptr [rdi + rax + 16]
-	movdqu	xmm6, xmmword ptr [rdi + rax + 32]
-	movdqu	xmm7, xmmword ptr [rdi + rax + 48]
-	pminsb	xmm0, xmm4
-	pminsb	xmm2, xmm5
-	pmaxsb	xmm1, xmm4
-	pmaxsb	xmm3, xmm5
-	pminsb	xmm0, xmm6
-	pminsb	xmm2, xmm7
-	pmaxsb	xmm1, xmm6
-	pmaxsb	xmm3, xmm7
-	add	rax, 64
-	add	r10, 2
-	jne	.LBB0_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB0_10
-.LBB0_9:
-	movdqu	xmm4, xmmword ptr [rdi + rax]
-	movdqu	xmm5, xmmword ptr [rdi + rax + 16]
-	pmaxsb	xmm3, xmm5
-	pmaxsb	xmm1, xmm4
-	pminsb	xmm2, xmm5
-	pminsb	xmm0, xmm4
-.LBB0_10:
-	pminsb	xmm0, xmm2
-	pmaxsb	xmm1, xmm3
-	pxor	xmm1, xmmword ptr [rip + .LCPI0_1]
-	movdqa	xmm2, xmm1
-	psrlw	xmm2, 8
-	pminub	xmm2, xmm1
-	phminposuw	xmm1, xmm2
-	movd	r8d, xmm1
-	xor	r8b, 127
-	pxor	xmm0, xmmword ptr [rip + .LCPI0_0]
-	movdqa	xmm1, xmm0
-	psrlw	xmm1, 8
-	pminub	xmm1, xmm0
-	phminposuw	xmm0, xmm1
-	movd	esi, xmm0
-	xor	sil, -128
-	cmp	r11, r9
-	je	.LBB0_12
-	.p2align	4, 0x90
-.LBB0_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r11]
-	cmp	sil, al
-	movzx	esi, sil
-	cmovg	esi, eax
-	cmp	r8b, al
-	movzx	r8d, r8b
-	cmovl	r8d, eax
-	add	r11, 1
-	cmp	r9, r11
-	jne	.LBB0_11
-.LBB0_12:
-	mov	byte ptr [rcx], r8b
-	mov	byte ptr [rdx], sil
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB0_5:
-	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
-	movdqa	xmm0, xmmword ptr [rip + .LCPI0_1] # xmm0 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	movdqa	xmm3, xmm1
-	test	r8b, 1
-	jne	.LBB0_9
-	jmp	.LBB0_10
-.Lfunc_end0:
-	.size	int8_max_min_sse4, .Lfunc_end0-int8_max_min_sse4
-                                        # -- End function
-	.globl	uint8_max_min_sse4              # -- Begin function uint8_max_min_sse4
-	.p2align	4, 0x90
-	.type	uint8_max_min_sse4,@function
-uint8_max_min_sse4:                     # @uint8_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB1_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 31
-	ja	.LBB1_4
-# %bb.3:
-	mov	sil, -1
-	xor	r11d, r11d
-	xor	eax, eax
-	jmp	.LBB1_11
-.LBB1_1:
-	mov	sil, -1
-	xor	eax, eax
-	jmp	.LBB1_12
-.LBB1_4:
-	mov	r11d, r9d
-	and	r11d, -32
-	lea	rax, [r11 - 32]
-	mov	r8, rax
-	shr	r8, 5
-	add	r8, 1
-	test	rax, rax
-	je	.LBB1_5
-# %bb.6:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	pxor	xmm1, xmm1
-	pcmpeqd	xmm0, xmm0
-	xor	eax, eax
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm3, xmm3
-	.p2align	4, 0x90
-.LBB1_7:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdi + rax]
-	movdqu	xmm5, xmmword ptr [rdi + rax + 16]
-	movdqu	xmm6, xmmword ptr [rdi + rax + 32]
-	movdqu	xmm7, xmmword ptr [rdi + rax + 48]
-	pminub	xmm0, xmm4
-	pminub	xmm2, xmm5
-	pmaxub	xmm1, xmm4
-	pmaxub	xmm3, xmm5
-	pminub	xmm0, xmm6
-	pminub	xmm2, xmm7
-	pmaxub	xmm1, xmm6
-	pmaxub	xmm3, xmm7
-	add	rax, 64
-	add	r10, 2
-	jne	.LBB1_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB1_10
-.LBB1_9:
-	movdqu	xmm4, xmmword ptr [rdi + rax]
-	movdqu	xmm5, xmmword ptr [rdi + rax + 16]
-	pmaxub	xmm3, xmm5
-	pmaxub	xmm1, xmm4
-	pminub	xmm2, xmm5
-	pminub	xmm0, xmm4
-.LBB1_10:
-	pminub	xmm0, xmm2
-	pmaxub	xmm1, xmm3
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm2, xmm1
-	movdqa	xmm1, xmm2
-	psrlw	xmm1, 8
-	pminub	xmm1, xmm2
-	phminposuw	xmm1, xmm1
-	movd	eax, xmm1
-	not	al
-	movdqa	xmm1, xmm0
-	psrlw	xmm1, 8
-	pminub	xmm1, xmm0
-	phminposuw	xmm0, xmm1
-	movd	esi, xmm0
-	cmp	r11, r9
-	je	.LBB1_12
-	.p2align	4, 0x90
-.LBB1_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	r8d, byte ptr [rdi + r11]
-	cmp	sil, r8b
-	movzx	esi, sil
-	cmovae	esi, r8d
-	cmp	al, r8b
-	movzx	eax, al
-	cmovbe	eax, r8d
-	add	r11, 1
-	cmp	r9, r11
-	jne	.LBB1_11
-.LBB1_12:
-	mov	byte ptr [rcx], al
-	mov	byte ptr [rdx], sil
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB1_5:
-	pxor	xmm1, xmm1
-	pcmpeqd	xmm0, xmm0
-	xor	eax, eax
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm3, xmm3
-	test	r8b, 1
-	jne	.LBB1_9
-	jmp	.LBB1_10
-.Lfunc_end1:
-	.size	uint8_max_min_sse4, .Lfunc_end1-uint8_max_min_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function int16_max_min_sse4
-.LCPI2_0:
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-	.short	32768                           # 0x8000
-.LCPI2_1:
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.short	32767                           # 0x7fff
-	.text
-	.globl	int16_max_min_sse4
-	.p2align	4, 0x90
-	.type	int16_max_min_sse4,@function
-int16_max_min_sse4:                     # @int16_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB2_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 15
-	ja	.LBB2_4
-# %bb.3:
-	mov	r8w, -32768
-	mov	si, 32767
-	xor	r11d, r11d
-	jmp	.LBB2_11
-.LBB2_1:
-	mov	si, 32767
-	mov	r8w, -32768
-	jmp	.LBB2_12
-.LBB2_4:
-	mov	r11d, r9d
-	and	r11d, -16
-	lea	rax, [r11 - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB2_5
-# %bb.6:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	movdqa	xmm1, xmmword ptr [rip + .LCPI2_0] # xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]
-	movdqa	xmm0, xmmword ptr [rip + .LCPI2_1] # xmm0 = [32767,32767,32767,32767,32767,32767,32767,32767]
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	movdqa	xmm3, xmm1
-	.p2align	4, 0x90
-.LBB2_7:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdi + 2*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 2*rax + 16]
-	movdqu	xmm6, xmmword ptr [rdi + 2*rax + 32]
-	movdqu	xmm7, xmmword ptr [rdi + 2*rax + 48]
-	pminsw	xmm0, xmm4
-	pminsw	xmm2, xmm5
-	pmaxsw	xmm1, xmm4
-	pmaxsw	xmm3, xmm5
-	pminsw	xmm0, xmm6
-	pminsw	xmm2, xmm7
-	pmaxsw	xmm1, xmm6
-	pmaxsw	xmm3, xmm7
-	add	rax, 32
-	add	r10, 2
-	jne	.LBB2_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB2_10
-.LBB2_9:
-	movdqu	xmm4, xmmword ptr [rdi + 2*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 2*rax + 16]
-	pmaxsw	xmm3, xmm5
-	pmaxsw	xmm1, xmm4
-	pminsw	xmm2, xmm5
-	pminsw	xmm0, xmm4
-.LBB2_10:
-	pminsw	xmm0, xmm2
-	pmaxsw	xmm1, xmm3
-	pxor	xmm1, xmmword ptr [rip + .LCPI2_1]
-	phminposuw	xmm1, xmm1
-	movd	r8d, xmm1
-	xor	r8d, 32767
-	pxor	xmm0, xmmword ptr [rip + .LCPI2_0]
-	phminposuw	xmm0, xmm0
-	movd	esi, xmm0
-	xor	esi, 32768
-	cmp	r11, r9
-	je	.LBB2_12
-	.p2align	4, 0x90
-.LBB2_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r11]
-	cmp	si, ax
-	cmovg	esi, eax
-	cmp	r8w, ax
-	cmovl	r8d, eax
-	add	r11, 1
-	cmp	r9, r11
-	jne	.LBB2_11
-.LBB2_12:
-	mov	word ptr [rcx], r8w
-	mov	word ptr [rdx], si
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB2_5:
-	movdqa	xmm1, xmmword ptr [rip + .LCPI2_0] # xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]
-	movdqa	xmm0, xmmword ptr [rip + .LCPI2_1] # xmm0 = [32767,32767,32767,32767,32767,32767,32767,32767]
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	movdqa	xmm3, xmm1
-	test	r8b, 1
-	jne	.LBB2_9
-	jmp	.LBB2_10
-.Lfunc_end2:
-	.size	int16_max_min_sse4, .Lfunc_end2-int16_max_min_sse4
-                                        # -- End function
-	.globl	uint16_max_min_sse4             # -- Begin function uint16_max_min_sse4
-	.p2align	4, 0x90
-	.type	uint16_max_min_sse4,@function
-uint16_max_min_sse4:                    # @uint16_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB3_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 15
-	ja	.LBB3_4
-# %bb.3:
-	mov	r8w, -1
-	xor	r11d, r11d
-	xor	esi, esi
-	jmp	.LBB3_11
-.LBB3_1:
-	mov	r8w, -1
-	xor	esi, esi
-	jmp	.LBB3_12
-.LBB3_4:
-	mov	r11d, r9d
-	and	r11d, -16
-	lea	rax, [r11 - 16]
-	mov	r8, rax
-	shr	r8, 4
-	add	r8, 1
-	test	rax, rax
-	je	.LBB3_5
-# %bb.6:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	pxor	xmm1, xmm1
-	pcmpeqd	xmm0, xmm0
-	xor	eax, eax
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm3, xmm3
-	.p2align	4, 0x90
-.LBB3_7:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdi + 2*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 2*rax + 16]
-	movdqu	xmm6, xmmword ptr [rdi + 2*rax + 32]
-	movdqu	xmm7, xmmword ptr [rdi + 2*rax + 48]
-	pminuw	xmm0, xmm4
-	pminuw	xmm2, xmm5
-	pmaxuw	xmm1, xmm4
-	pmaxuw	xmm3, xmm5
-	pminuw	xmm0, xmm6
-	pminuw	xmm2, xmm7
-	pmaxuw	xmm1, xmm6
-	pmaxuw	xmm3, xmm7
-	add	rax, 32
-	add	r10, 2
-	jne	.LBB3_7
-# %bb.8:
-	test	r8b, 1
-	je	.LBB3_10
-.LBB3_9:
-	movdqu	xmm4, xmmword ptr [rdi + 2*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 2*rax + 16]
-	pmaxuw	xmm3, xmm5
-	pmaxuw	xmm1, xmm4
-	pminuw	xmm2, xmm5
-	pminuw	xmm0, xmm4
-.LBB3_10:
-	pminuw	xmm0, xmm2
-	pmaxuw	xmm1, xmm3
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm2, xmm1
-	phminposuw	xmm1, xmm2
-	movd	esi, xmm1
-	not	esi
-	phminposuw	xmm0, xmm0
-	movd	r8d, xmm0
-	cmp	r11, r9
-	je	.LBB3_12
-	.p2align	4, 0x90
-.LBB3_11:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r11]
-	cmp	r8w, ax
-	cmovae	r8d, eax
-	cmp	si, ax
-	cmovbe	esi, eax
-	add	r11, 1
-	cmp	r9, r11
-	jne	.LBB3_11
-.LBB3_12:
-	mov	word ptr [rcx], si
-	mov	word ptr [rdx], r8w
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB3_5:
-	pxor	xmm1, xmm1
-	pcmpeqd	xmm0, xmm0
-	xor	eax, eax
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm3, xmm3
-	test	r8b, 1
-	jne	.LBB3_9
-	jmp	.LBB3_10
-.Lfunc_end3:
-	.size	uint16_max_min_sse4, .Lfunc_end3-uint16_max_min_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function int32_max_min_sse4
-.LCPI4_0:
-	.long	2147483648                      # 0x80000000
-	.long	2147483648                      # 0x80000000
-	.long	2147483648                      # 0x80000000
-	.long	2147483648                      # 0x80000000
-.LCPI4_1:
-	.long	2147483647                      # 0x7fffffff
-	.long	2147483647                      # 0x7fffffff
-	.long	2147483647                      # 0x7fffffff
-	.long	2147483647                      # 0x7fffffff
-	.text
-	.globl	int32_max_min_sse4
-	.p2align	4, 0x90
-	.type	int32_max_min_sse4,@function
-int32_max_min_sse4:                     # @int32_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB4_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 7
-	ja	.LBB4_6
-# %bb.3:
-	mov	eax, -2147483648
-	mov	r8d, 2147483647
-	xor	r11d, r11d
-	jmp	.LBB4_4
-.LBB4_1:
-	mov	r8d, 2147483647
-	mov	eax, -2147483648
-	jmp	.LBB4_13
-.LBB4_6:
-	mov	r11d, r9d
-	and	r11d, -8
-	lea	rax, [r11 - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB4_7
-# %bb.8:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [2147483648,2147483648,2147483648,2147483648]
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_1] # xmm0 = [2147483647,2147483647,2147483647,2147483647]
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	movdqa	xmm3, xmm1
-	.p2align	4, 0x90
-.LBB4_9:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdi + 4*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 4*rax + 16]
-	movdqu	xmm6, xmmword ptr [rdi + 4*rax + 32]
-	movdqu	xmm7, xmmword ptr [rdi + 4*rax + 48]
-	pminsd	xmm0, xmm4
-	pminsd	xmm2, xmm5
-	pmaxsd	xmm1, xmm4
-	pmaxsd	xmm3, xmm5
-	pminsd	xmm0, xmm6
-	pminsd	xmm2, xmm7
-	pmaxsd	xmm1, xmm6
-	pmaxsd	xmm3, xmm7
-	add	rax, 16
-	add	r10, 2
-	jne	.LBB4_9
-# %bb.10:
-	test	r8b, 1
-	je	.LBB4_12
-.LBB4_11:
-	movdqu	xmm4, xmmword ptr [rdi + 4*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 4*rax + 16]
-	pmaxsd	xmm3, xmm5
-	pmaxsd	xmm1, xmm4
-	pminsd	xmm2, xmm5
-	pminsd	xmm0, xmm4
-.LBB4_12:
-	pminsd	xmm0, xmm2
-	pmaxsd	xmm1, xmm3
-	pshufd	xmm2, xmm1, 78                  # xmm2 = xmm1[2,3,0,1]
-	pmaxsd	xmm2, xmm1
-	pshufd	xmm1, xmm2, 229                 # xmm1 = xmm2[1,1,2,3]
-	pmaxsd	xmm1, xmm2
-	movd	eax, xmm1
-	pshufd	xmm1, xmm0, 78                  # xmm1 = xmm0[2,3,0,1]
-	pminsd	xmm1, xmm0
-	pshufd	xmm0, xmm1, 229                 # xmm0 = xmm1[1,1,2,3]
-	pminsd	xmm0, xmm1
-	movd	r8d, xmm0
-	cmp	r11, r9
-	je	.LBB4_13
-.LBB4_4:
-	mov	esi, eax
-	.p2align	4, 0x90
-.LBB4_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r11]
-	cmp	r8d, eax
-	cmovg	r8d, eax
-	cmp	esi, eax
-	cmovge	eax, esi
-	add	r11, 1
-	mov	esi, eax
-	cmp	r9, r11
-	jne	.LBB4_5
-.LBB4_13:
-	mov	dword ptr [rcx], eax
-	mov	dword ptr [rdx], r8d
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB4_7:
-	movdqa	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [2147483648,2147483648,2147483648,2147483648]
-	movdqa	xmm0, xmmword ptr [rip + .LCPI4_1] # xmm0 = [2147483647,2147483647,2147483647,2147483647]
-	xor	eax, eax
-	movdqa	xmm2, xmm0
-	movdqa	xmm3, xmm1
-	test	r8b, 1
-	jne	.LBB4_11
-	jmp	.LBB4_12
-.Lfunc_end4:
-	.size	int32_max_min_sse4, .Lfunc_end4-int32_max_min_sse4
-                                        # -- End function
-	.globl	uint32_max_min_sse4             # -- Begin function uint32_max_min_sse4
-	.p2align	4, 0x90
-	.type	uint32_max_min_sse4,@function
-uint32_max_min_sse4:                    # @uint32_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB5_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 7
-	ja	.LBB5_6
-# %bb.3:
-	xor	r11d, r11d
-	mov	r8d, -1
-	xor	esi, esi
-	jmp	.LBB5_4
-.LBB5_1:
-	mov	r8d, -1
-	xor	esi, esi
-	jmp	.LBB5_13
-.LBB5_6:
-	mov	r11d, r9d
-	and	r11d, -8
-	lea	rax, [r11 - 8]
-	mov	r8, rax
-	shr	r8, 3
-	add	r8, 1
-	test	rax, rax
-	je	.LBB5_7
-# %bb.8:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	pxor	xmm1, xmm1
-	pcmpeqd	xmm0, xmm0
-	xor	eax, eax
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm3, xmm3
-	.p2align	4, 0x90
-.LBB5_9:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm4, xmmword ptr [rdi + 4*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 4*rax + 16]
-	movdqu	xmm6, xmmword ptr [rdi + 4*rax + 32]
-	movdqu	xmm7, xmmword ptr [rdi + 4*rax + 48]
-	pminud	xmm0, xmm4
-	pminud	xmm2, xmm5
-	pmaxud	xmm1, xmm4
-	pmaxud	xmm3, xmm5
-	pminud	xmm0, xmm6
-	pminud	xmm2, xmm7
-	pmaxud	xmm1, xmm6
-	pmaxud	xmm3, xmm7
-	add	rax, 16
-	add	r10, 2
-	jne	.LBB5_9
-# %bb.10:
-	test	r8b, 1
-	je	.LBB5_12
-.LBB5_11:
-	movdqu	xmm4, xmmword ptr [rdi + 4*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 4*rax + 16]
-	pmaxud	xmm3, xmm5
-	pmaxud	xmm1, xmm4
-	pminud	xmm2, xmm5
-	pminud	xmm0, xmm4
-.LBB5_12:
-	pminud	xmm0, xmm2
-	pmaxud	xmm1, xmm3
-	pshufd	xmm2, xmm1, 78                  # xmm2 = xmm1[2,3,0,1]
-	pmaxud	xmm2, xmm1
-	pshufd	xmm1, xmm2, 229                 # xmm1 = xmm2[1,1,2,3]
-	pmaxud	xmm1, xmm2
-	movd	esi, xmm1
-	pshufd	xmm1, xmm0, 78                  # xmm1 = xmm0[2,3,0,1]
-	pminud	xmm1, xmm0
-	pshufd	xmm0, xmm1, 229                 # xmm0 = xmm1[1,1,2,3]
-	pminud	xmm0, xmm1
-	movd	r8d, xmm0
-	cmp	r11, r9
-	je	.LBB5_13
-.LBB5_4:
-	mov	eax, esi
-	.p2align	4, 0x90
-.LBB5_5:                                # =>This Inner Loop Header: Depth=1
-	mov	esi, dword ptr [rdi + 4*r11]
-	cmp	r8d, esi
-	cmovae	r8d, esi
-	cmp	eax, esi
-	cmova	esi, eax
-	add	r11, 1
-	mov	eax, esi
-	cmp	r9, r11
-	jne	.LBB5_5
-.LBB5_13:
-	mov	dword ptr [rcx], esi
-	mov	dword ptr [rdx], r8d
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB5_7:
-	pxor	xmm1, xmm1
-	pcmpeqd	xmm0, xmm0
-	xor	eax, eax
-	pcmpeqd	xmm2, xmm2
-	pxor	xmm3, xmm3
-	test	r8b, 1
-	jne	.LBB5_11
-	jmp	.LBB5_12
-.Lfunc_end5:
-	.size	uint32_max_min_sse4, .Lfunc_end5-uint32_max_min_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function int64_max_min_sse4
-.LCPI6_0:
-	.quad	-9223372036854775808            # 0x8000000000000000
-	.quad	-9223372036854775808            # 0x8000000000000000
-.LCPI6_1:
-	.quad	9223372036854775807             # 0x7fffffffffffffff
-	.quad	9223372036854775807             # 0x7fffffffffffffff
-	.text
-	.globl	int64_max_min_sse4
-	.p2align	4, 0x90
-	.type	int64_max_min_sse4,@function
-int64_max_min_sse4:                     # @int64_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	movabs	r8, 9223372036854775807
-	test	esi, esi
-	jle	.LBB6_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 3
-	ja	.LBB6_6
-# %bb.3:
-	lea	rsi, [r8 + 1]
-	xor	r11d, r11d
-	jmp	.LBB6_4
-.LBB6_1:
-	lea	rsi, [r8 + 1]
-	jmp	.LBB6_13
-.LBB6_6:
-	mov	r11d, r9d
-	and	r11d, -4
-	lea	rax, [r11 - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB6_7
-# %bb.8:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	movdqa	xmm9, xmmword ptr [rip + .LCPI6_0] # xmm9 = [9223372036854775808,9223372036854775808]
-	movdqa	xmm8, xmmword ptr [rip + .LCPI6_1] # xmm8 = [9223372036854775807,9223372036854775807]
-	xor	eax, eax
-	movdqa	xmm2, xmm8
-	movdqa	xmm6, xmm9
-	.p2align	4, 0x90
-.LBB6_9:                                # =>This Inner Loop Header: Depth=1
-	movdqu	xmm7, xmmword ptr [rdi + 8*rax]
-	movdqa	xmm0, xmm7
-	pcmpgtq	xmm0, xmm8
-	movdqa	xmm4, xmm7
-	blendvpd	xmm4, xmm8, xmm0
-	movdqu	xmm1, xmmword ptr [rdi + 8*rax + 16]
-	movdqa	xmm0, xmm1
-	pcmpgtq	xmm0, xmm2
-	movdqa	xmm5, xmm1
-	blendvpd	xmm5, xmm2, xmm0
-	movdqa	xmm0, xmm9
-	pcmpgtq	xmm0, xmm7
-	blendvpd	xmm7, xmm9, xmm0
-	movdqa	xmm0, xmm6
-	pcmpgtq	xmm0, xmm1
-	blendvpd	xmm1, xmm6, xmm0
-	movdqu	xmm3, xmmword ptr [rdi + 8*rax + 32]
-	movdqa	xmm0, xmm3
-	pcmpgtq	xmm0, xmm4
-	movdqa	xmm8, xmm3
-	blendvpd	xmm8, xmm4, xmm0
-	movdqu	xmm4, xmmword ptr [rdi + 8*rax + 48]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm5
-	movdqa	xmm2, xmm4
-	blendvpd	xmm2, xmm5, xmm0
-	movapd	xmm0, xmm7
-	pcmpgtq	xmm0, xmm3
-	blendvpd	xmm3, xmm7, xmm0
-	movapd	xmm0, xmm1
-	pcmpgtq	xmm0, xmm4
-	blendvpd	xmm4, xmm1, xmm0
-	add	rax, 8
-	movapd	xmm9, xmm3
-	movapd	xmm6, xmm4
-	add	r10, 2
-	jne	.LBB6_9
-# %bb.10:
-	test	r8b, 1
-	je	.LBB6_12
-.LBB6_11:
-	movdqu	xmm1, xmmword ptr [rdi + 8*rax + 16]
-	movapd	xmm0, xmm4
-	pcmpgtq	xmm0, xmm1
-	movdqa	xmm5, xmm1
-	blendvpd	xmm5, xmm4, xmm0
-	movdqu	xmm4, xmmword ptr [rdi + 8*rax]
-	movapd	xmm0, xmm3
-	pcmpgtq	xmm0, xmm4
-	movdqa	xmm6, xmm4
-	blendvpd	xmm6, xmm3, xmm0
-	movdqa	xmm0, xmm1
-	pcmpgtq	xmm0, xmm2
-	blendvpd	xmm1, xmm2, xmm0
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm8
-	blendvpd	xmm4, xmm8, xmm0
-	movapd	xmm8, xmm4
-	movapd	xmm2, xmm1
-	movapd	xmm3, xmm6
-	movapd	xmm4, xmm5
-.LBB6_12:
-	movapd	xmm0, xmm3
-	pcmpgtq	xmm0, xmm4
-	blendvpd	xmm4, xmm3, xmm0
-	pshufd	xmm1, xmm4, 78                  # xmm1 = xmm4[2,3,0,1]
-	movdqa	xmm0, xmm4
-	pcmpgtq	xmm0, xmm1
-	blendvpd	xmm1, xmm4, xmm0
-	movq	rsi, xmm1
-	movdqa	xmm0, xmm2
-	pcmpgtq	xmm0, xmm8
-	blendvpd	xmm2, xmm8, xmm0
-	pshufd	xmm1, xmm2, 78                  # xmm1 = xmm2[2,3,0,1]
-	movdqa	xmm0, xmm1
-	pcmpgtq	xmm0, xmm2
-	blendvpd	xmm1, xmm2, xmm0
-	movq	r8, xmm1
-	cmp	r11, r9
-	je	.LBB6_13
-.LBB6_4:
-	mov	rax, rsi
-	.p2align	4, 0x90
-.LBB6_5:                                # =>This Inner Loop Header: Depth=1
-	mov	rsi, qword ptr [rdi + 8*r11]
-	cmp	r8, rsi
-	cmovg	r8, rsi
-	cmp	rax, rsi
-	cmovge	rsi, rax
-	add	r11, 1
-	mov	rax, rsi
-	cmp	r9, r11
-	jne	.LBB6_5
-.LBB6_13:
-	mov	qword ptr [rcx], rsi
-	mov	qword ptr [rdx], r8
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB6_7:
-	movapd	xmm3, xmmword ptr [rip + .LCPI6_0] # xmm3 = [9223372036854775808,9223372036854775808]
-	movdqa	xmm8, xmmword ptr [rip + .LCPI6_1] # xmm8 = [9223372036854775807,9223372036854775807]
-	xor	eax, eax
-	movdqa	xmm2, xmm8
-	movapd	xmm4, xmm3
-	test	r8b, 1
-	jne	.LBB6_11
-	jmp	.LBB6_12
-.Lfunc_end6:
-	.size	int64_max_min_sse4, .Lfunc_end6-int64_max_min_sse4
-                                        # -- End function
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4                               # -- Begin function uint64_max_min_sse4
-.LCPI7_0:
-	.quad	-9223372036854775808            # 0x8000000000000000
-	.quad	-9223372036854775808            # 0x8000000000000000
-	.text
-	.globl	uint64_max_min_sse4
-	.p2align	4, 0x90
-	.type	uint64_max_min_sse4,@function
-uint64_max_min_sse4:                    # @uint64_max_min_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB7_1
-# %bb.2:
-	mov	r9d, esi
-	cmp	esi, 3
-	ja	.LBB7_6
-# %bb.3:
-	mov	r8, -1
-	xor	r11d, r11d
-	xor	eax, eax
-	jmp	.LBB7_4
-.LBB7_1:
-	mov	r8, -1
-	xor	eax, eax
-	jmp	.LBB7_13
-.LBB7_6:
-	mov	r11d, r9d
-	and	r11d, -4
-	lea	rax, [r11 - 4]
-	mov	r8, rax
-	shr	r8, 2
-	add	r8, 1
-	test	rax, rax
-	je	.LBB7_7
-# %bb.8:
-	mov	r10, r8
-	and	r10, -2
-	neg	r10
-	pxor	xmm9, xmm9
-	pcmpeqd	xmm10, xmm10
-	xor	eax, eax
-	movdqa	xmm8, xmmword ptr [rip + .LCPI7_0] # xmm8 = [9223372036854775808,9223372036854775808]
-	pcmpeqd	xmm11, xmm11
-	pxor	xmm12, xmm12
-	.p2align	4, 0x90
-.LBB7_9:                                # =>This Inner Loop Header: Depth=1
-	movdqa	xmm2, xmm10
-	pxor	xmm2, xmm8
-	movdqu	xmm4, xmmword ptr [rdi + 8*rax]
-	movdqu	xmm5, xmmword ptr [rdi + 8*rax + 16]
-	movdqu	xmm13, xmmword ptr [rdi + 8*rax + 32]
-	movdqa	xmm0, xmm4
-	pxor	xmm0, xmm8
-	movdqa	xmm1, xmm9
-	pxor	xmm1, xmm8
-	pcmpgtq	xmm1, xmm0
-	pcmpgtq	xmm0, xmm2
-	movdqa	xmm3, xmm4
-	blendvpd	xmm3, xmm10, xmm0
-	movdqu	xmm6, xmmword ptr [rdi + 8*rax + 48]
-	movdqa	xmm7, xmm11
-	pxor	xmm7, xmm8
-	movdqa	xmm0, xmm5
-	pxor	xmm0, xmm8
-	movdqa	xmm2, xmm12
-	pxor	xmm2, xmm8
-	pcmpgtq	xmm2, xmm0
-	pcmpgtq	xmm0, xmm7
-	movdqa	xmm7, xmm5
-	blendvpd	xmm7, xmm11, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm4, xmm9, xmm0
-	movdqa	xmm0, xmm2
-	blendvpd	xmm5, xmm12, xmm0
-	movapd	xmm2, xmm3
-	xorpd	xmm2, xmm8
-	movdqa	xmm0, xmm13
-	pxor	xmm0, xmm8
-	movapd	xmm1, xmm4
-	xorpd	xmm1, xmm8
-	pcmpgtq	xmm1, xmm0
-	pcmpgtq	xmm0, xmm2
-	movdqa	xmm10, xmm13
-	blendvpd	xmm10, xmm3, xmm0
-	movapd	xmm3, xmm7
-	xorpd	xmm3, xmm8
-	movdqa	xmm0, xmm6
-	pxor	xmm0, xmm8
-	movapd	xmm2, xmm5
-	xorpd	xmm2, xmm8
-	pcmpgtq	xmm2, xmm0
-	pcmpgtq	xmm0, xmm3
-	movdqa	xmm11, xmm6
-	blendvpd	xmm11, xmm7, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm13, xmm4, xmm0
-	movdqa	xmm0, xmm2
-	blendvpd	xmm6, xmm5, xmm0
-	add	rax, 8
-	movapd	xmm9, xmm13
-	movapd	xmm12, xmm6
-	add	r10, 2
-	jne	.LBB7_9
-# %bb.10:
-	test	r8b, 1
-	je	.LBB7_12
-.LBB7_11:
-	movupd	xmm4, xmmword ptr [rdi + 8*rax]
-	movupd	xmm3, xmmword ptr [rdi + 8*rax + 16]
-	movapd	xmm5, xmmword ptr [rip + .LCPI7_0] # xmm5 = [9223372036854775808,9223372036854775808]
-	movapd	xmm0, xmm6
-	xorpd	xmm0, xmm5
-	movapd	xmm1, xmm3
-	xorpd	xmm1, xmm5
-	pcmpgtq	xmm0, xmm1
-	movapd	xmm7, xmm3
-	blendvpd	xmm7, xmm6, xmm0
-	movapd	xmm0, xmm13
-	xorpd	xmm0, xmm5
-	movapd	xmm2, xmm4
-	xorpd	xmm2, xmm5
-	pcmpgtq	xmm0, xmm2
-	movapd	xmm6, xmm4
-	blendvpd	xmm6, xmm13, xmm0
-	movapd	xmm0, xmm11
-	xorpd	xmm0, xmm5
-	pcmpgtq	xmm1, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm3, xmm11, xmm0
-	xorpd	xmm5, xmm10
-	pcmpgtq	xmm2, xmm5
-	movdqa	xmm0, xmm2
-	blendvpd	xmm4, xmm10, xmm0
-	movapd	xmm10, xmm4
-	movapd	xmm11, xmm3
-	movapd	xmm13, xmm6
-	movapd	xmm6, xmm7
-.LBB7_12:
-	movapd	xmm1, xmmword ptr [rip + .LCPI7_0] # xmm1 = [9223372036854775808,9223372036854775808]
-	movapd	xmm2, xmm6
-	xorpd	xmm2, xmm1
-	movapd	xmm0, xmm13
-	xorpd	xmm0, xmm1
-	pcmpgtq	xmm0, xmm2
-	blendvpd	xmm6, xmm13, xmm0
-	pshufd	xmm2, xmm6, 78                  # xmm2 = xmm6[2,3,0,1]
-	movapd	xmm0, xmm6
-	xorpd	xmm0, xmm1
-	movdqa	xmm3, xmm2
-	pxor	xmm3, xmm1
-	pcmpgtq	xmm0, xmm3
-	blendvpd	xmm2, xmm6, xmm0
-	movq	rax, xmm2
-	movdqa	xmm2, xmm10
-	pxor	xmm2, xmm1
-	movdqa	xmm0, xmm11
-	pxor	xmm0, xmm1
-	pcmpgtq	xmm0, xmm2
-	blendvpd	xmm11, xmm10, xmm0
-	pshufd	xmm2, xmm11, 78                 # xmm2 = xmm11[2,3,0,1]
-	movdqa	xmm0, xmm11
-	pxor	xmm0, xmm1
-	pxor	xmm1, xmm2
-	pcmpgtq	xmm1, xmm0
-	movdqa	xmm0, xmm1
-	blendvpd	xmm2, xmm11, xmm0
-	movq	r8, xmm2
-	cmp	r11, r9
-	je	.LBB7_13
-.LBB7_4:
-	mov	rsi, rax
-	.p2align	4, 0x90
-.LBB7_5:                                # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r11]
-	cmp	r8, rax
-	cmovae	r8, rax
-	cmp	rsi, rax
-	cmova	rax, rsi
-	add	r11, 1
-	mov	rsi, rax
-	cmp	r9, r11
-	jne	.LBB7_5
-.LBB7_13:
-	mov	qword ptr [rcx], rax
-	mov	qword ptr [rdx], r8
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.LBB7_7:
-	xorpd	xmm13, xmm13
-	pcmpeqd	xmm10, xmm10
-	xor	eax, eax
-	pcmpeqd	xmm11, xmm11
-	xorpd	xmm6, xmm6
-	test	r8b, 1
-	jne	.LBB7_11
-	jmp	.LBB7_12
-.Lfunc_end7:
-	.size	uint64_max_min_sse4, .Lfunc_end7-uint64_max_min_sse4
-                                        # -- End function
-	.ident	"Debian clang version 11.0.1-2"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/internal/utils/_lib/transpose_ints.c b/go/internal/utils/_lib/transpose_ints.c
deleted file mode 100644
index e37aed62e0b60..0000000000000
--- a/go/internal/utils/_lib/transpose_ints.c
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdint.h>
-
-#define CREATE_TRANSPOSE(SRC, DEST) \
-    void FULL_NAME(transpose_ ## SRC ## _ ## DEST)(const SRC ## _t* src, DEST ## _t* dest, int length, const int32_t* transpose_map) { \
-        while (length >= 4) {                                       \
-            dest[0] = (DEST ## _t)(transpose_map[src[0]]);          \
-            dest[1] = (DEST ## _t)(transpose_map[src[1]]);          \
-            dest[2] = (DEST ## _t)(transpose_map[src[2]]);          \
-            dest[3] = (DEST ## _t)(transpose_map[src[3]]);          \
-            length -= 4;                                            \
-            src += 4;                                               \
-            dest += 4;                                              \
-        }                                                           \
-        while (length > 0) {                                        \
-            *dest++ = (DEST ## _t)(transpose_map[*src++]);          \
-            --length;                                               \
-        }                                                           \
-    }
-
-#define CREATE_TRANSPOSE_ALL_DEST(DEST) \
-    CREATE_TRANSPOSE(uint8, DEST)     \
-    CREATE_TRANSPOSE(int8, DEST)      \
-    CREATE_TRANSPOSE(uint16, DEST)    \
-    CREATE_TRANSPOSE(int16, DEST)     \
-    CREATE_TRANSPOSE(uint32, DEST)    \
-    CREATE_TRANSPOSE(int32, DEST)     \
-    CREATE_TRANSPOSE(uint64, DEST)    \
-    CREATE_TRANSPOSE(int64, DEST)
-
-#define CREATE_TRANSPOSE_ALL()        \
-    CREATE_TRANSPOSE_ALL_DEST(uint8)  \
-    CREATE_TRANSPOSE_ALL_DEST(int8)   \
-    CREATE_TRANSPOSE_ALL_DEST(uint16) \
-    CREATE_TRANSPOSE_ALL_DEST(int16)  \
-    CREATE_TRANSPOSE_ALL_DEST(uint32) \
-    CREATE_TRANSPOSE_ALL_DEST(int32)  \
-    CREATE_TRANSPOSE_ALL_DEST(uint64) \
-    CREATE_TRANSPOSE_ALL_DEST(int64)
-
-CREATE_TRANSPOSE_ALL()
diff --git a/go/internal/utils/_lib/transpose_ints_avx2_amd64.s b/go/internal/utils/_lib/transpose_ints_avx2_amd64.s
deleted file mode 100644
index 697947567465f..0000000000000
--- a/go/internal/utils/_lib/transpose_ints_avx2_amd64.s
+++ /dev/null
@@ -1,3334 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"transpose_ints.c"
-	.globl	transpose_uint8_uint8_avx2      # -- Begin function transpose_uint8_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint8_avx2,@function
-transpose_uint8_uint8_avx2:             # @transpose_uint8_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB0_1
-	.p2align	4, 0x90
-.LBB0_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB0_5
-.LBB0_1:
-	test	edx, edx
-	jle	.LBB0_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB0_3:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB0_3
-.LBB0_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	transpose_uint8_uint8_avx2, .Lfunc_end0-transpose_uint8_uint8_avx2
-                                        # -- End function
-	.globl	transpose_int8_uint8_avx2       # -- Begin function transpose_int8_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_uint8_avx2,@function
-transpose_int8_uint8_avx2:              # @transpose_int8_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB1_1
-	.p2align	4, 0x90
-.LBB1_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB1_5
-.LBB1_1:
-	test	edx, edx
-	jle	.LBB1_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB1_3:                                # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB1_3
-.LBB1_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end1:
-	.size	transpose_int8_uint8_avx2, .Lfunc_end1-transpose_int8_uint8_avx2
-                                        # -- End function
-	.globl	transpose_uint16_uint8_avx2     # -- Begin function transpose_uint16_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint8_avx2,@function
-transpose_uint16_uint8_avx2:            # @transpose_uint16_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB2_1
-	.p2align	4, 0x90
-.LBB2_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB2_5
-.LBB2_1:
-	test	edx, edx
-	jle	.LBB2_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB2_3:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB2_3
-.LBB2_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end2:
-	.size	transpose_uint16_uint8_avx2, .Lfunc_end2-transpose_uint16_uint8_avx2
-                                        # -- End function
-	.globl	transpose_int16_uint8_avx2      # -- Begin function transpose_int16_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_uint8_avx2,@function
-transpose_int16_uint8_avx2:             # @transpose_int16_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB3_1
-	.p2align	4, 0x90
-.LBB3_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB3_5
-.LBB3_1:
-	test	edx, edx
-	jle	.LBB3_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB3_3:                                # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB3_3
-.LBB3_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end3:
-	.size	transpose_int16_uint8_avx2, .Lfunc_end3-transpose_int16_uint8_avx2
-                                        # -- End function
-	.globl	transpose_uint32_uint8_avx2     # -- Begin function transpose_uint32_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint8_avx2,@function
-transpose_uint32_uint8_avx2:            # @transpose_uint32_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB4_1
-	.p2align	4, 0x90
-.LBB4_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB4_5
-.LBB4_1:
-	test	edx, edx
-	jle	.LBB4_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB4_3:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB4_3
-.LBB4_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end4:
-	.size	transpose_uint32_uint8_avx2, .Lfunc_end4-transpose_uint32_uint8_avx2
-                                        # -- End function
-	.globl	transpose_int32_uint8_avx2      # -- Begin function transpose_int32_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_uint8_avx2,@function
-transpose_int32_uint8_avx2:             # @transpose_int32_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB5_1
-	.p2align	4, 0x90
-.LBB5_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB5_5
-.LBB5_1:
-	test	edx, edx
-	jle	.LBB5_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB5_3:                                # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB5_3
-.LBB5_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end5:
-	.size	transpose_int32_uint8_avx2, .Lfunc_end5-transpose_int32_uint8_avx2
-                                        # -- End function
-	.globl	transpose_uint64_uint8_avx2     # -- Begin function transpose_uint64_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint8_avx2,@function
-transpose_uint64_uint8_avx2:            # @transpose_uint64_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB6_1
-	.p2align	4, 0x90
-.LBB6_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB6_5
-.LBB6_1:
-	test	edx, edx
-	jle	.LBB6_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB6_3:                                # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB6_3
-.LBB6_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end6:
-	.size	transpose_uint64_uint8_avx2, .Lfunc_end6-transpose_uint64_uint8_avx2
-                                        # -- End function
-	.globl	transpose_int64_uint8_avx2      # -- Begin function transpose_int64_uint8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_uint8_avx2,@function
-transpose_int64_uint8_avx2:             # @transpose_int64_uint8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB7_1
-	.p2align	4, 0x90
-.LBB7_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB7_5
-.LBB7_1:
-	test	edx, edx
-	jle	.LBB7_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB7_3:                                # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB7_3
-.LBB7_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end7:
-	.size	transpose_int64_uint8_avx2, .Lfunc_end7-transpose_int64_uint8_avx2
-                                        # -- End function
-	.globl	transpose_uint8_int8_avx2       # -- Begin function transpose_uint8_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_int8_avx2,@function
-transpose_uint8_int8_avx2:              # @transpose_uint8_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB8_1
-	.p2align	4, 0x90
-.LBB8_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB8_5
-.LBB8_1:
-	test	edx, edx
-	jle	.LBB8_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB8_3:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB8_3
-.LBB8_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end8:
-	.size	transpose_uint8_int8_avx2, .Lfunc_end8-transpose_uint8_int8_avx2
-                                        # -- End function
-	.globl	transpose_int8_int8_avx2        # -- Begin function transpose_int8_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_int8_avx2,@function
-transpose_int8_int8_avx2:               # @transpose_int8_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB9_1
-	.p2align	4, 0x90
-.LBB9_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB9_5
-.LBB9_1:
-	test	edx, edx
-	jle	.LBB9_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB9_3:                                # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB9_3
-.LBB9_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end9:
-	.size	transpose_int8_int8_avx2, .Lfunc_end9-transpose_int8_int8_avx2
-                                        # -- End function
-	.globl	transpose_uint16_int8_avx2      # -- Begin function transpose_uint16_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_int8_avx2,@function
-transpose_uint16_int8_avx2:             # @transpose_uint16_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB10_1
-	.p2align	4, 0x90
-.LBB10_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB10_5
-.LBB10_1:
-	test	edx, edx
-	jle	.LBB10_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB10_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB10_3
-.LBB10_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end10:
-	.size	transpose_uint16_int8_avx2, .Lfunc_end10-transpose_uint16_int8_avx2
-                                        # -- End function
-	.globl	transpose_int16_int8_avx2       # -- Begin function transpose_int16_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_int8_avx2,@function
-transpose_int16_int8_avx2:              # @transpose_int16_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB11_1
-	.p2align	4, 0x90
-.LBB11_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB11_5
-.LBB11_1:
-	test	edx, edx
-	jle	.LBB11_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB11_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB11_3
-.LBB11_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end11:
-	.size	transpose_int16_int8_avx2, .Lfunc_end11-transpose_int16_int8_avx2
-                                        # -- End function
-	.globl	transpose_uint32_int8_avx2      # -- Begin function transpose_uint32_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_int8_avx2,@function
-transpose_uint32_int8_avx2:             # @transpose_uint32_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB12_1
-	.p2align	4, 0x90
-.LBB12_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB12_5
-.LBB12_1:
-	test	edx, edx
-	jle	.LBB12_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB12_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB12_3
-.LBB12_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end12:
-	.size	transpose_uint32_int8_avx2, .Lfunc_end12-transpose_uint32_int8_avx2
-                                        # -- End function
-	.globl	transpose_int32_int8_avx2       # -- Begin function transpose_int32_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_int8_avx2,@function
-transpose_int32_int8_avx2:              # @transpose_int32_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB13_1
-	.p2align	4, 0x90
-.LBB13_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB13_5
-.LBB13_1:
-	test	edx, edx
-	jle	.LBB13_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB13_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB13_3
-.LBB13_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end13:
-	.size	transpose_int32_int8_avx2, .Lfunc_end13-transpose_int32_int8_avx2
-                                        # -- End function
-	.globl	transpose_uint64_int8_avx2      # -- Begin function transpose_uint64_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_int8_avx2,@function
-transpose_uint64_int8_avx2:             # @transpose_uint64_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB14_1
-	.p2align	4, 0x90
-.LBB14_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB14_5
-.LBB14_1:
-	test	edx, edx
-	jle	.LBB14_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB14_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB14_3
-.LBB14_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end14:
-	.size	transpose_uint64_int8_avx2, .Lfunc_end14-transpose_uint64_int8_avx2
-                                        # -- End function
-	.globl	transpose_int64_int8_avx2       # -- Begin function transpose_int64_int8_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_int8_avx2,@function
-transpose_int64_int8_avx2:              # @transpose_int64_int8_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB15_1
-	.p2align	4, 0x90
-.LBB15_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB15_5
-.LBB15_1:
-	test	edx, edx
-	jle	.LBB15_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB15_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB15_3
-.LBB15_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end15:
-	.size	transpose_int64_int8_avx2, .Lfunc_end15-transpose_int64_int8_avx2
-                                        # -- End function
-	.globl	transpose_uint8_uint16_avx2     # -- Begin function transpose_uint8_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint16_avx2,@function
-transpose_uint8_uint16_avx2:            # @transpose_uint8_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB16_1
-	.p2align	4, 0x90
-.LBB16_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB16_5
-.LBB16_1:
-	test	edx, edx
-	jle	.LBB16_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB16_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB16_3
-.LBB16_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end16:
-	.size	transpose_uint8_uint16_avx2, .Lfunc_end16-transpose_uint8_uint16_avx2
-                                        # -- End function
-	.globl	transpose_int8_uint16_avx2      # -- Begin function transpose_int8_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_uint16_avx2,@function
-transpose_int8_uint16_avx2:             # @transpose_int8_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB17_1
-	.p2align	4, 0x90
-.LBB17_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB17_5
-.LBB17_1:
-	test	edx, edx
-	jle	.LBB17_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB17_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB17_3
-.LBB17_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end17:
-	.size	transpose_int8_uint16_avx2, .Lfunc_end17-transpose_int8_uint16_avx2
-                                        # -- End function
-	.globl	transpose_uint16_uint16_avx2    # -- Begin function transpose_uint16_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint16_avx2,@function
-transpose_uint16_uint16_avx2:           # @transpose_uint16_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB18_1
-	.p2align	4, 0x90
-.LBB18_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB18_5
-.LBB18_1:
-	test	edx, edx
-	jle	.LBB18_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB18_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB18_3
-.LBB18_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end18:
-	.size	transpose_uint16_uint16_avx2, .Lfunc_end18-transpose_uint16_uint16_avx2
-                                        # -- End function
-	.globl	transpose_int16_uint16_avx2     # -- Begin function transpose_int16_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_uint16_avx2,@function
-transpose_int16_uint16_avx2:            # @transpose_int16_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB19_1
-	.p2align	4, 0x90
-.LBB19_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB19_5
-.LBB19_1:
-	test	edx, edx
-	jle	.LBB19_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB19_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB19_3
-.LBB19_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end19:
-	.size	transpose_int16_uint16_avx2, .Lfunc_end19-transpose_int16_uint16_avx2
-                                        # -- End function
-	.globl	transpose_uint32_uint16_avx2    # -- Begin function transpose_uint32_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint16_avx2,@function
-transpose_uint32_uint16_avx2:           # @transpose_uint32_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB20_1
-	.p2align	4, 0x90
-.LBB20_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB20_5
-.LBB20_1:
-	test	edx, edx
-	jle	.LBB20_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB20_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB20_3
-.LBB20_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end20:
-	.size	transpose_uint32_uint16_avx2, .Lfunc_end20-transpose_uint32_uint16_avx2
-                                        # -- End function
-	.globl	transpose_int32_uint16_avx2     # -- Begin function transpose_int32_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_uint16_avx2,@function
-transpose_int32_uint16_avx2:            # @transpose_int32_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB21_1
-	.p2align	4, 0x90
-.LBB21_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB21_5
-.LBB21_1:
-	test	edx, edx
-	jle	.LBB21_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB21_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB21_3
-.LBB21_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end21:
-	.size	transpose_int32_uint16_avx2, .Lfunc_end21-transpose_int32_uint16_avx2
-                                        # -- End function
-	.globl	transpose_uint64_uint16_avx2    # -- Begin function transpose_uint64_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint16_avx2,@function
-transpose_uint64_uint16_avx2:           # @transpose_uint64_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB22_1
-	.p2align	4, 0x90
-.LBB22_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB22_5
-.LBB22_1:
-	test	edx, edx
-	jle	.LBB22_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB22_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB22_3
-.LBB22_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end22:
-	.size	transpose_uint64_uint16_avx2, .Lfunc_end22-transpose_uint64_uint16_avx2
-                                        # -- End function
-	.globl	transpose_int64_uint16_avx2     # -- Begin function transpose_int64_uint16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_uint16_avx2,@function
-transpose_int64_uint16_avx2:            # @transpose_int64_uint16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB23_1
-	.p2align	4, 0x90
-.LBB23_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB23_5
-.LBB23_1:
-	test	edx, edx
-	jle	.LBB23_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB23_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB23_3
-.LBB23_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end23:
-	.size	transpose_int64_uint16_avx2, .Lfunc_end23-transpose_int64_uint16_avx2
-                                        # -- End function
-	.globl	transpose_uint8_int16_avx2      # -- Begin function transpose_uint8_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_int16_avx2,@function
-transpose_uint8_int16_avx2:             # @transpose_uint8_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB24_1
-	.p2align	4, 0x90
-.LBB24_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB24_5
-.LBB24_1:
-	test	edx, edx
-	jle	.LBB24_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB24_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB24_3
-.LBB24_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end24:
-	.size	transpose_uint8_int16_avx2, .Lfunc_end24-transpose_uint8_int16_avx2
-                                        # -- End function
-	.globl	transpose_int8_int16_avx2       # -- Begin function transpose_int8_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_int16_avx2,@function
-transpose_int8_int16_avx2:              # @transpose_int8_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB25_1
-	.p2align	4, 0x90
-.LBB25_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB25_5
-.LBB25_1:
-	test	edx, edx
-	jle	.LBB25_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB25_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB25_3
-.LBB25_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end25:
-	.size	transpose_int8_int16_avx2, .Lfunc_end25-transpose_int8_int16_avx2
-                                        # -- End function
-	.globl	transpose_uint16_int16_avx2     # -- Begin function transpose_uint16_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_int16_avx2,@function
-transpose_uint16_int16_avx2:            # @transpose_uint16_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB26_1
-	.p2align	4, 0x90
-.LBB26_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB26_5
-.LBB26_1:
-	test	edx, edx
-	jle	.LBB26_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB26_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB26_3
-.LBB26_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end26:
-	.size	transpose_uint16_int16_avx2, .Lfunc_end26-transpose_uint16_int16_avx2
-                                        # -- End function
-	.globl	transpose_int16_int16_avx2      # -- Begin function transpose_int16_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_int16_avx2,@function
-transpose_int16_int16_avx2:             # @transpose_int16_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB27_1
-	.p2align	4, 0x90
-.LBB27_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB27_5
-.LBB27_1:
-	test	edx, edx
-	jle	.LBB27_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB27_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB27_3
-.LBB27_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end27:
-	.size	transpose_int16_int16_avx2, .Lfunc_end27-transpose_int16_int16_avx2
-                                        # -- End function
-	.globl	transpose_uint32_int16_avx2     # -- Begin function transpose_uint32_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_int16_avx2,@function
-transpose_uint32_int16_avx2:            # @transpose_uint32_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB28_1
-	.p2align	4, 0x90
-.LBB28_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB28_5
-.LBB28_1:
-	test	edx, edx
-	jle	.LBB28_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB28_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB28_3
-.LBB28_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end28:
-	.size	transpose_uint32_int16_avx2, .Lfunc_end28-transpose_uint32_int16_avx2
-                                        # -- End function
-	.globl	transpose_int32_int16_avx2      # -- Begin function transpose_int32_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_int16_avx2,@function
-transpose_int32_int16_avx2:             # @transpose_int32_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB29_1
-	.p2align	4, 0x90
-.LBB29_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB29_5
-.LBB29_1:
-	test	edx, edx
-	jle	.LBB29_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB29_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB29_3
-.LBB29_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end29:
-	.size	transpose_int32_int16_avx2, .Lfunc_end29-transpose_int32_int16_avx2
-                                        # -- End function
-	.globl	transpose_uint64_int16_avx2     # -- Begin function transpose_uint64_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_int16_avx2,@function
-transpose_uint64_int16_avx2:            # @transpose_uint64_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB30_1
-	.p2align	4, 0x90
-.LBB30_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB30_5
-.LBB30_1:
-	test	edx, edx
-	jle	.LBB30_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB30_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB30_3
-.LBB30_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end30:
-	.size	transpose_uint64_int16_avx2, .Lfunc_end30-transpose_uint64_int16_avx2
-                                        # -- End function
-	.globl	transpose_int64_int16_avx2      # -- Begin function transpose_int64_int16_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_int16_avx2,@function
-transpose_int64_int16_avx2:             # @transpose_int64_int16_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB31_1
-	.p2align	4, 0x90
-.LBB31_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB31_5
-.LBB31_1:
-	test	edx, edx
-	jle	.LBB31_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB31_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB31_3
-.LBB31_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end31:
-	.size	transpose_int64_int16_avx2, .Lfunc_end31-transpose_int64_int16_avx2
-                                        # -- End function
-	.globl	transpose_uint8_uint32_avx2     # -- Begin function transpose_uint8_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint32_avx2,@function
-transpose_uint8_uint32_avx2:            # @transpose_uint8_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB32_1
-	.p2align	4, 0x90
-.LBB32_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB32_5
-.LBB32_1:
-	test	edx, edx
-	jle	.LBB32_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB32_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB32_3
-.LBB32_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end32:
-	.size	transpose_uint8_uint32_avx2, .Lfunc_end32-transpose_uint8_uint32_avx2
-                                        # -- End function
-	.globl	transpose_int8_uint32_avx2      # -- Begin function transpose_int8_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_uint32_avx2,@function
-transpose_int8_uint32_avx2:             # @transpose_int8_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB33_1
-	.p2align	4, 0x90
-.LBB33_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB33_5
-.LBB33_1:
-	test	edx, edx
-	jle	.LBB33_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB33_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB33_3
-.LBB33_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end33:
-	.size	transpose_int8_uint32_avx2, .Lfunc_end33-transpose_int8_uint32_avx2
-                                        # -- End function
-	.globl	transpose_uint16_uint32_avx2    # -- Begin function transpose_uint16_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint32_avx2,@function
-transpose_uint16_uint32_avx2:           # @transpose_uint16_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB34_1
-	.p2align	4, 0x90
-.LBB34_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB34_5
-.LBB34_1:
-	test	edx, edx
-	jle	.LBB34_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB34_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB34_3
-.LBB34_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end34:
-	.size	transpose_uint16_uint32_avx2, .Lfunc_end34-transpose_uint16_uint32_avx2
-                                        # -- End function
-	.globl	transpose_int16_uint32_avx2     # -- Begin function transpose_int16_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_uint32_avx2,@function
-transpose_int16_uint32_avx2:            # @transpose_int16_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB35_1
-	.p2align	4, 0x90
-.LBB35_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB35_5
-.LBB35_1:
-	test	edx, edx
-	jle	.LBB35_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB35_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB35_3
-.LBB35_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end35:
-	.size	transpose_int16_uint32_avx2, .Lfunc_end35-transpose_int16_uint32_avx2
-                                        # -- End function
-	.globl	transpose_uint32_uint32_avx2    # -- Begin function transpose_uint32_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint32_avx2,@function
-transpose_uint32_uint32_avx2:           # @transpose_uint32_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB36_1
-	.p2align	4, 0x90
-.LBB36_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	edx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	edx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	edx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB36_5
-.LBB36_1:
-	test	edx, edx
-	jle	.LBB36_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB36_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB36_3
-.LBB36_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end36:
-	.size	transpose_uint32_uint32_avx2, .Lfunc_end36-transpose_uint32_uint32_avx2
-                                        # -- End function
-	.globl	transpose_int32_uint32_avx2     # -- Begin function transpose_int32_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_uint32_avx2,@function
-transpose_int32_uint32_avx2:            # @transpose_int32_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB37_1
-	.p2align	4, 0x90
-.LBB37_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsxd	rdx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsxd	rdx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsxd	rdx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB37_5
-.LBB37_1:
-	test	edx, edx
-	jle	.LBB37_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB37_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB37_3
-.LBB37_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end37:
-	.size	transpose_int32_uint32_avx2, .Lfunc_end37-transpose_int32_uint32_avx2
-                                        # -- End function
-	.globl	transpose_uint64_uint32_avx2    # -- Begin function transpose_uint64_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint32_avx2,@function
-transpose_uint64_uint32_avx2:           # @transpose_uint64_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB38_1
-	.p2align	4, 0x90
-.LBB38_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB38_5
-.LBB38_1:
-	test	edx, edx
-	jle	.LBB38_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB38_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB38_3
-.LBB38_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end38:
-	.size	transpose_uint64_uint32_avx2, .Lfunc_end38-transpose_uint64_uint32_avx2
-                                        # -- End function
-	.globl	transpose_int64_uint32_avx2     # -- Begin function transpose_int64_uint32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_uint32_avx2,@function
-transpose_int64_uint32_avx2:            # @transpose_int64_uint32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB39_1
-	.p2align	4, 0x90
-.LBB39_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB39_5
-.LBB39_1:
-	test	edx, edx
-	jle	.LBB39_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB39_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB39_3
-.LBB39_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end39:
-	.size	transpose_int64_uint32_avx2, .Lfunc_end39-transpose_int64_uint32_avx2
-                                        # -- End function
-	.globl	transpose_uint8_int32_avx2      # -- Begin function transpose_uint8_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_int32_avx2,@function
-transpose_uint8_int32_avx2:             # @transpose_uint8_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB40_1
-	.p2align	4, 0x90
-.LBB40_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB40_5
-.LBB40_1:
-	test	edx, edx
-	jle	.LBB40_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB40_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB40_3
-.LBB40_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end40:
-	.size	transpose_uint8_int32_avx2, .Lfunc_end40-transpose_uint8_int32_avx2
-                                        # -- End function
-	.globl	transpose_int8_int32_avx2       # -- Begin function transpose_int8_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_int32_avx2,@function
-transpose_int8_int32_avx2:              # @transpose_int8_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB41_1
-	.p2align	4, 0x90
-.LBB41_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB41_5
-.LBB41_1:
-	test	edx, edx
-	jle	.LBB41_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB41_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB41_3
-.LBB41_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end41:
-	.size	transpose_int8_int32_avx2, .Lfunc_end41-transpose_int8_int32_avx2
-                                        # -- End function
-	.globl	transpose_uint16_int32_avx2     # -- Begin function transpose_uint16_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_int32_avx2,@function
-transpose_uint16_int32_avx2:            # @transpose_uint16_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB42_1
-	.p2align	4, 0x90
-.LBB42_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB42_5
-.LBB42_1:
-	test	edx, edx
-	jle	.LBB42_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB42_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB42_3
-.LBB42_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end42:
-	.size	transpose_uint16_int32_avx2, .Lfunc_end42-transpose_uint16_int32_avx2
-                                        # -- End function
-	.globl	transpose_int16_int32_avx2      # -- Begin function transpose_int16_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_int32_avx2,@function
-transpose_int16_int32_avx2:             # @transpose_int16_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB43_1
-	.p2align	4, 0x90
-.LBB43_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB43_5
-.LBB43_1:
-	test	edx, edx
-	jle	.LBB43_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB43_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB43_3
-.LBB43_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end43:
-	.size	transpose_int16_int32_avx2, .Lfunc_end43-transpose_int16_int32_avx2
-                                        # -- End function
-	.globl	transpose_uint32_int32_avx2     # -- Begin function transpose_uint32_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_int32_avx2,@function
-transpose_uint32_int32_avx2:            # @transpose_uint32_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB44_1
-	.p2align	4, 0x90
-.LBB44_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	edx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	edx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	edx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB44_5
-.LBB44_1:
-	test	edx, edx
-	jle	.LBB44_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB44_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB44_3
-.LBB44_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end44:
-	.size	transpose_uint32_int32_avx2, .Lfunc_end44-transpose_uint32_int32_avx2
-                                        # -- End function
-	.globl	transpose_int32_int32_avx2      # -- Begin function transpose_int32_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_int32_avx2,@function
-transpose_int32_int32_avx2:             # @transpose_int32_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB45_1
-	.p2align	4, 0x90
-.LBB45_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsxd	rdx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsxd	rdx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsxd	rdx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB45_5
-.LBB45_1:
-	test	edx, edx
-	jle	.LBB45_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB45_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB45_3
-.LBB45_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end45:
-	.size	transpose_int32_int32_avx2, .Lfunc_end45-transpose_int32_int32_avx2
-                                        # -- End function
-	.globl	transpose_uint64_int32_avx2     # -- Begin function transpose_uint64_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_int32_avx2,@function
-transpose_uint64_int32_avx2:            # @transpose_uint64_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB46_1
-	.p2align	4, 0x90
-.LBB46_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB46_5
-.LBB46_1:
-	test	edx, edx
-	jle	.LBB46_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB46_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB46_3
-.LBB46_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end46:
-	.size	transpose_uint64_int32_avx2, .Lfunc_end46-transpose_uint64_int32_avx2
-                                        # -- End function
-	.globl	transpose_int64_int32_avx2      # -- Begin function transpose_int64_int32_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_int32_avx2,@function
-transpose_int64_int32_avx2:             # @transpose_int64_int32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB47_1
-	.p2align	4, 0x90
-.LBB47_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB47_5
-.LBB47_1:
-	test	edx, edx
-	jle	.LBB47_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB47_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB47_3
-.LBB47_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end47:
-	.size	transpose_int64_int32_avx2, .Lfunc_end47-transpose_int64_int32_avx2
-                                        # -- End function
-	.globl	transpose_uint8_uint64_avx2     # -- Begin function transpose_uint8_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint64_avx2,@function
-transpose_uint8_uint64_avx2:            # @transpose_uint8_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB48_1
-	.p2align	4, 0x90
-.LBB48_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB48_5
-.LBB48_1:
-	test	edx, edx
-	jle	.LBB48_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB48_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB48_3
-.LBB48_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end48:
-	.size	transpose_uint8_uint64_avx2, .Lfunc_end48-transpose_uint8_uint64_avx2
-                                        # -- End function
-	.globl	transpose_int8_uint64_avx2      # -- Begin function transpose_int8_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_uint64_avx2,@function
-transpose_int8_uint64_avx2:             # @transpose_int8_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB49_1
-	.p2align	4, 0x90
-.LBB49_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB49_5
-.LBB49_1:
-	test	edx, edx
-	jle	.LBB49_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB49_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB49_3
-.LBB49_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end49:
-	.size	transpose_int8_uint64_avx2, .Lfunc_end49-transpose_int8_uint64_avx2
-                                        # -- End function
-	.globl	transpose_uint16_uint64_avx2    # -- Begin function transpose_uint16_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint64_avx2,@function
-transpose_uint16_uint64_avx2:           # @transpose_uint16_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB50_1
-	.p2align	4, 0x90
-.LBB50_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB50_5
-.LBB50_1:
-	test	edx, edx
-	jle	.LBB50_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB50_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB50_3
-.LBB50_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end50:
-	.size	transpose_uint16_uint64_avx2, .Lfunc_end50-transpose_uint16_uint64_avx2
-                                        # -- End function
-	.globl	transpose_int16_uint64_avx2     # -- Begin function transpose_int16_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_uint64_avx2,@function
-transpose_int16_uint64_avx2:            # @transpose_int16_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB51_1
-	.p2align	4, 0x90
-.LBB51_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB51_5
-.LBB51_1:
-	test	edx, edx
-	jle	.LBB51_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB51_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB51_3
-.LBB51_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end51:
-	.size	transpose_int16_uint64_avx2, .Lfunc_end51-transpose_int16_uint64_avx2
-                                        # -- End function
-	.globl	transpose_uint32_uint64_avx2    # -- Begin function transpose_uint32_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint64_avx2,@function
-transpose_uint32_uint64_avx2:           # @transpose_uint32_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB52_1
-	.p2align	4, 0x90
-.LBB52_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	edx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	edx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	edx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB52_5
-.LBB52_1:
-	test	edx, edx
-	jle	.LBB52_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB52_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB52_3
-.LBB52_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end52:
-	.size	transpose_uint32_uint64_avx2, .Lfunc_end52-transpose_uint32_uint64_avx2
-                                        # -- End function
-	.globl	transpose_int32_uint64_avx2     # -- Begin function transpose_int32_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_uint64_avx2,@function
-transpose_int32_uint64_avx2:            # @transpose_int32_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB53_1
-	.p2align	4, 0x90
-.LBB53_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB53_5
-.LBB53_1:
-	test	edx, edx
-	jle	.LBB53_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB53_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB53_3
-.LBB53_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end53:
-	.size	transpose_int32_uint64_avx2, .Lfunc_end53-transpose_int32_uint64_avx2
-                                        # -- End function
-	.globl	transpose_uint64_uint64_avx2    # -- Begin function transpose_uint64_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint64_avx2,@function
-transpose_uint64_uint64_avx2:           # @transpose_uint64_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB54_1
-	.p2align	4, 0x90
-.LBB54_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB54_5
-.LBB54_1:
-	test	edx, edx
-	jle	.LBB54_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB54_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB54_3
-.LBB54_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end54:
-	.size	transpose_uint64_uint64_avx2, .Lfunc_end54-transpose_uint64_uint64_avx2
-                                        # -- End function
-	.globl	transpose_int64_uint64_avx2     # -- Begin function transpose_int64_uint64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_uint64_avx2,@function
-transpose_int64_uint64_avx2:            # @transpose_int64_uint64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB55_1
-	.p2align	4, 0x90
-.LBB55_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB55_5
-.LBB55_1:
-	test	edx, edx
-	jle	.LBB55_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB55_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB55_3
-.LBB55_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end55:
-	.size	transpose_int64_uint64_avx2, .Lfunc_end55-transpose_int64_uint64_avx2
-                                        # -- End function
-	.globl	transpose_uint8_int64_avx2      # -- Begin function transpose_uint8_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint8_int64_avx2,@function
-transpose_uint8_int64_avx2:             # @transpose_uint8_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB56_1
-	.p2align	4, 0x90
-.LBB56_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB56_5
-.LBB56_1:
-	test	edx, edx
-	jle	.LBB56_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB56_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB56_3
-.LBB56_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end56:
-	.size	transpose_uint8_int64_avx2, .Lfunc_end56-transpose_uint8_int64_avx2
-                                        # -- End function
-	.globl	transpose_int8_int64_avx2       # -- Begin function transpose_int8_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int8_int64_avx2,@function
-transpose_int8_int64_avx2:              # @transpose_int8_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB57_1
-	.p2align	4, 0x90
-.LBB57_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB57_5
-.LBB57_1:
-	test	edx, edx
-	jle	.LBB57_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB57_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB57_3
-.LBB57_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end57:
-	.size	transpose_int8_int64_avx2, .Lfunc_end57-transpose_int8_int64_avx2
-                                        # -- End function
-	.globl	transpose_uint16_int64_avx2     # -- Begin function transpose_uint16_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint16_int64_avx2,@function
-transpose_uint16_int64_avx2:            # @transpose_uint16_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB58_1
-	.p2align	4, 0x90
-.LBB58_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB58_5
-.LBB58_1:
-	test	edx, edx
-	jle	.LBB58_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB58_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB58_3
-.LBB58_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end58:
-	.size	transpose_uint16_int64_avx2, .Lfunc_end58-transpose_uint16_int64_avx2
-                                        # -- End function
-	.globl	transpose_int16_int64_avx2      # -- Begin function transpose_int16_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int16_int64_avx2,@function
-transpose_int16_int64_avx2:             # @transpose_int16_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB59_1
-	.p2align	4, 0x90
-.LBB59_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB59_5
-.LBB59_1:
-	test	edx, edx
-	jle	.LBB59_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB59_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB59_3
-.LBB59_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end59:
-	.size	transpose_int16_int64_avx2, .Lfunc_end59-transpose_int16_int64_avx2
-                                        # -- End function
-	.globl	transpose_uint32_int64_avx2     # -- Begin function transpose_uint32_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint32_int64_avx2,@function
-transpose_uint32_int64_avx2:            # @transpose_uint32_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB60_1
-	.p2align	4, 0x90
-.LBB60_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	edx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	edx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	edx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB60_5
-.LBB60_1:
-	test	edx, edx
-	jle	.LBB60_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB60_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB60_3
-.LBB60_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end60:
-	.size	transpose_uint32_int64_avx2, .Lfunc_end60-transpose_uint32_int64_avx2
-                                        # -- End function
-	.globl	transpose_int32_int64_avx2      # -- Begin function transpose_int32_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int32_int64_avx2,@function
-transpose_int32_int64_avx2:             # @transpose_int32_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB61_1
-	.p2align	4, 0x90
-.LBB61_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB61_5
-.LBB61_1:
-	test	edx, edx
-	jle	.LBB61_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB61_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB61_3
-.LBB61_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end61:
-	.size	transpose_int32_int64_avx2, .Lfunc_end61-transpose_int32_int64_avx2
-                                        # -- End function
-	.globl	transpose_uint64_int64_avx2     # -- Begin function transpose_uint64_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_uint64_int64_avx2,@function
-transpose_uint64_int64_avx2:            # @transpose_uint64_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB62_1
-	.p2align	4, 0x90
-.LBB62_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB62_5
-.LBB62_1:
-	test	edx, edx
-	jle	.LBB62_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB62_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB62_3
-.LBB62_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end62:
-	.size	transpose_uint64_int64_avx2, .Lfunc_end62-transpose_uint64_int64_avx2
-                                        # -- End function
-	.globl	transpose_int64_int64_avx2      # -- Begin function transpose_int64_int64_avx2
-	.p2align	4, 0x90
-	.type	transpose_int64_int64_avx2,@function
-transpose_int64_int64_avx2:             # @transpose_int64_int64_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB63_1
-	.p2align	4, 0x90
-.LBB63_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB63_5
-.LBB63_1:
-	test	edx, edx
-	jle	.LBB63_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB63_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB63_3
-.LBB63_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end63:
-	.size	transpose_int64_int64_avx2, .Lfunc_end63-transpose_int64_int64_avx2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.0.0-2~ubuntu20.04.1"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/internal/utils/_lib/transpose_ints_sse4_amd64.s b/go/internal/utils/_lib/transpose_ints_sse4_amd64.s
deleted file mode 100644
index c177d4478c948..0000000000000
--- a/go/internal/utils/_lib/transpose_ints_sse4_amd64.s
+++ /dev/null
@@ -1,3334 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"transpose_ints.c"
-	.globl	transpose_uint8_uint8_sse4      # -- Begin function transpose_uint8_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint8_sse4,@function
-transpose_uint8_uint8_sse4:             # @transpose_uint8_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB0_1
-	.p2align	4, 0x90
-.LBB0_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB0_5
-.LBB0_1:
-	test	edx, edx
-	jle	.LBB0_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB0_3:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB0_3
-.LBB0_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	transpose_uint8_uint8_sse4, .Lfunc_end0-transpose_uint8_uint8_sse4
-                                        # -- End function
-	.globl	transpose_int8_uint8_sse4       # -- Begin function transpose_int8_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_uint8_sse4,@function
-transpose_int8_uint8_sse4:              # @transpose_int8_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB1_1
-	.p2align	4, 0x90
-.LBB1_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB1_5
-.LBB1_1:
-	test	edx, edx
-	jle	.LBB1_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB1_3:                                # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB1_3
-.LBB1_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end1:
-	.size	transpose_int8_uint8_sse4, .Lfunc_end1-transpose_int8_uint8_sse4
-                                        # -- End function
-	.globl	transpose_uint16_uint8_sse4     # -- Begin function transpose_uint16_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint8_sse4,@function
-transpose_uint16_uint8_sse4:            # @transpose_uint16_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB2_1
-	.p2align	4, 0x90
-.LBB2_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB2_5
-.LBB2_1:
-	test	edx, edx
-	jle	.LBB2_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB2_3:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB2_3
-.LBB2_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end2:
-	.size	transpose_uint16_uint8_sse4, .Lfunc_end2-transpose_uint16_uint8_sse4
-                                        # -- End function
-	.globl	transpose_int16_uint8_sse4      # -- Begin function transpose_int16_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_uint8_sse4,@function
-transpose_int16_uint8_sse4:             # @transpose_int16_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB3_1
-	.p2align	4, 0x90
-.LBB3_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB3_5
-.LBB3_1:
-	test	edx, edx
-	jle	.LBB3_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB3_3:                                # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB3_3
-.LBB3_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end3:
-	.size	transpose_int16_uint8_sse4, .Lfunc_end3-transpose_int16_uint8_sse4
-                                        # -- End function
-	.globl	transpose_uint32_uint8_sse4     # -- Begin function transpose_uint32_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint8_sse4,@function
-transpose_uint32_uint8_sse4:            # @transpose_uint32_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB4_1
-	.p2align	4, 0x90
-.LBB4_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB4_5
-.LBB4_1:
-	test	edx, edx
-	jle	.LBB4_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB4_3:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB4_3
-.LBB4_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end4:
-	.size	transpose_uint32_uint8_sse4, .Lfunc_end4-transpose_uint32_uint8_sse4
-                                        # -- End function
-	.globl	transpose_int32_uint8_sse4      # -- Begin function transpose_int32_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_uint8_sse4,@function
-transpose_int32_uint8_sse4:             # @transpose_int32_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB5_1
-	.p2align	4, 0x90
-.LBB5_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB5_5
-.LBB5_1:
-	test	edx, edx
-	jle	.LBB5_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB5_3:                                # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB5_3
-.LBB5_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end5:
-	.size	transpose_int32_uint8_sse4, .Lfunc_end5-transpose_int32_uint8_sse4
-                                        # -- End function
-	.globl	transpose_uint64_uint8_sse4     # -- Begin function transpose_uint64_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint8_sse4,@function
-transpose_uint64_uint8_sse4:            # @transpose_uint64_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB6_1
-	.p2align	4, 0x90
-.LBB6_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB6_5
-.LBB6_1:
-	test	edx, edx
-	jle	.LBB6_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB6_3:                                # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB6_3
-.LBB6_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end6:
-	.size	transpose_uint64_uint8_sse4, .Lfunc_end6-transpose_uint64_uint8_sse4
-                                        # -- End function
-	.globl	transpose_int64_uint8_sse4      # -- Begin function transpose_int64_uint8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_uint8_sse4,@function
-transpose_int64_uint8_sse4:             # @transpose_int64_uint8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB7_1
-	.p2align	4, 0x90
-.LBB7_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB7_5
-.LBB7_1:
-	test	edx, edx
-	jle	.LBB7_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB7_3:                                # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB7_3
-.LBB7_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end7:
-	.size	transpose_int64_uint8_sse4, .Lfunc_end7-transpose_int64_uint8_sse4
-                                        # -- End function
-	.globl	transpose_uint8_int8_sse4       # -- Begin function transpose_uint8_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_int8_sse4,@function
-transpose_uint8_int8_sse4:              # @transpose_uint8_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB8_1
-	.p2align	4, 0x90
-.LBB8_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB8_5
-.LBB8_1:
-	test	edx, edx
-	jle	.LBB8_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB8_3:                                # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB8_3
-.LBB8_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end8:
-	.size	transpose_uint8_int8_sse4, .Lfunc_end8-transpose_uint8_int8_sse4
-                                        # -- End function
-	.globl	transpose_int8_int8_sse4        # -- Begin function transpose_int8_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_int8_sse4,@function
-transpose_int8_int8_sse4:               # @transpose_int8_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB9_1
-	.p2align	4, 0x90
-.LBB9_5:                                # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB9_5
-.LBB9_1:
-	test	edx, edx
-	jle	.LBB9_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB9_3:                                # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB9_3
-.LBB9_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end9:
-	.size	transpose_int8_int8_sse4, .Lfunc_end9-transpose_int8_int8_sse4
-                                        # -- End function
-	.globl	transpose_uint16_int8_sse4      # -- Begin function transpose_uint16_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_int8_sse4,@function
-transpose_uint16_int8_sse4:             # @transpose_uint16_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB10_1
-	.p2align	4, 0x90
-.LBB10_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB10_5
-.LBB10_1:
-	test	edx, edx
-	jle	.LBB10_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB10_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB10_3
-.LBB10_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end10:
-	.size	transpose_uint16_int8_sse4, .Lfunc_end10-transpose_uint16_int8_sse4
-                                        # -- End function
-	.globl	transpose_int16_int8_sse4       # -- Begin function transpose_int16_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_int8_sse4,@function
-transpose_int16_int8_sse4:              # @transpose_int16_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB11_1
-	.p2align	4, 0x90
-.LBB11_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB11_5
-.LBB11_1:
-	test	edx, edx
-	jle	.LBB11_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB11_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + 2*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB11_3
-.LBB11_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end11:
-	.size	transpose_int16_int8_sse4, .Lfunc_end11-transpose_int16_int8_sse4
-                                        # -- End function
-	.globl	transpose_uint32_int8_sse4      # -- Begin function transpose_uint32_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_int8_sse4,@function
-transpose_uint32_int8_sse4:             # @transpose_uint32_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB12_1
-	.p2align	4, 0x90
-.LBB12_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB12_5
-.LBB12_1:
-	test	edx, edx
-	jle	.LBB12_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB12_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB12_3
-.LBB12_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end12:
-	.size	transpose_uint32_int8_sse4, .Lfunc_end12-transpose_uint32_int8_sse4
-                                        # -- End function
-	.globl	transpose_int32_int8_sse4       # -- Begin function transpose_int32_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_int8_sse4,@function
-transpose_int32_int8_sse4:              # @transpose_int32_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB13_1
-	.p2align	4, 0x90
-.LBB13_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB13_5
-.LBB13_1:
-	test	edx, edx
-	jle	.LBB13_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB13_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 4*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB13_3
-.LBB13_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end13:
-	.size	transpose_int32_int8_sse4, .Lfunc_end13-transpose_int32_int8_sse4
-                                        # -- End function
-	.globl	transpose_uint64_int8_sse4      # -- Begin function transpose_uint64_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_int8_sse4,@function
-transpose_uint64_int8_sse4:             # @transpose_uint64_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB14_1
-	.p2align	4, 0x90
-.LBB14_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB14_5
-.LBB14_1:
-	test	edx, edx
-	jle	.LBB14_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB14_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB14_3
-.LBB14_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end14:
-	.size	transpose_uint64_int8_sse4, .Lfunc_end14-transpose_uint64_int8_sse4
-                                        # -- End function
-	.globl	transpose_int64_int8_sse4       # -- Begin function transpose_int64_int8_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_int8_sse4,@function
-transpose_int64_int8_sse4:              # @transpose_int64_int8_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB15_1
-	.p2align	4, 0x90
-.LBB15_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi], dl
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 1], dl
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 2], dl
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, byte ptr [rcx + 4*rdx]
-	mov	byte ptr [rsi + 3], dl
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 4
-	cmp	eax, 7
-	jg	.LBB15_5
-.LBB15_1:
-	test	edx, edx
-	jle	.LBB15_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB15_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 8*r8]
-	movzx	eax, byte ptr [rcx + 4*rax]
-	mov	byte ptr [rsi + r8], al
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB15_3
-.LBB15_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end15:
-	.size	transpose_int64_int8_sse4, .Lfunc_end15-transpose_int64_int8_sse4
-                                        # -- End function
-	.globl	transpose_uint8_uint16_sse4     # -- Begin function transpose_uint8_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint16_sse4,@function
-transpose_uint8_uint16_sse4:            # @transpose_uint8_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB16_1
-	.p2align	4, 0x90
-.LBB16_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB16_5
-.LBB16_1:
-	test	edx, edx
-	jle	.LBB16_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB16_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB16_3
-.LBB16_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end16:
-	.size	transpose_uint8_uint16_sse4, .Lfunc_end16-transpose_uint8_uint16_sse4
-                                        # -- End function
-	.globl	transpose_int8_uint16_sse4      # -- Begin function transpose_int8_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_uint16_sse4,@function
-transpose_int8_uint16_sse4:             # @transpose_int8_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB17_1
-	.p2align	4, 0x90
-.LBB17_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB17_5
-.LBB17_1:
-	test	edx, edx
-	jle	.LBB17_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB17_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB17_3
-.LBB17_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end17:
-	.size	transpose_int8_uint16_sse4, .Lfunc_end17-transpose_int8_uint16_sse4
-                                        # -- End function
-	.globl	transpose_uint16_uint16_sse4    # -- Begin function transpose_uint16_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint16_sse4,@function
-transpose_uint16_uint16_sse4:           # @transpose_uint16_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB18_1
-	.p2align	4, 0x90
-.LBB18_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB18_5
-.LBB18_1:
-	test	edx, edx
-	jle	.LBB18_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB18_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB18_3
-.LBB18_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end18:
-	.size	transpose_uint16_uint16_sse4, .Lfunc_end18-transpose_uint16_uint16_sse4
-                                        # -- End function
-	.globl	transpose_int16_uint16_sse4     # -- Begin function transpose_int16_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_uint16_sse4,@function
-transpose_int16_uint16_sse4:            # @transpose_int16_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB19_1
-	.p2align	4, 0x90
-.LBB19_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB19_5
-.LBB19_1:
-	test	edx, edx
-	jle	.LBB19_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB19_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB19_3
-.LBB19_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end19:
-	.size	transpose_int16_uint16_sse4, .Lfunc_end19-transpose_int16_uint16_sse4
-                                        # -- End function
-	.globl	transpose_uint32_uint16_sse4    # -- Begin function transpose_uint32_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint16_sse4,@function
-transpose_uint32_uint16_sse4:           # @transpose_uint32_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB20_1
-	.p2align	4, 0x90
-.LBB20_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB20_5
-.LBB20_1:
-	test	edx, edx
-	jle	.LBB20_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB20_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB20_3
-.LBB20_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end20:
-	.size	transpose_uint32_uint16_sse4, .Lfunc_end20-transpose_uint32_uint16_sse4
-                                        # -- End function
-	.globl	transpose_int32_uint16_sse4     # -- Begin function transpose_int32_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_uint16_sse4,@function
-transpose_int32_uint16_sse4:            # @transpose_int32_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB21_1
-	.p2align	4, 0x90
-.LBB21_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB21_5
-.LBB21_1:
-	test	edx, edx
-	jle	.LBB21_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB21_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB21_3
-.LBB21_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end21:
-	.size	transpose_int32_uint16_sse4, .Lfunc_end21-transpose_int32_uint16_sse4
-                                        # -- End function
-	.globl	transpose_uint64_uint16_sse4    # -- Begin function transpose_uint64_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint16_sse4,@function
-transpose_uint64_uint16_sse4:           # @transpose_uint64_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB22_1
-	.p2align	4, 0x90
-.LBB22_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB22_5
-.LBB22_1:
-	test	edx, edx
-	jle	.LBB22_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB22_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB22_3
-.LBB22_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end22:
-	.size	transpose_uint64_uint16_sse4, .Lfunc_end22-transpose_uint64_uint16_sse4
-                                        # -- End function
-	.globl	transpose_int64_uint16_sse4     # -- Begin function transpose_int64_uint16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_uint16_sse4,@function
-transpose_int64_uint16_sse4:            # @transpose_int64_uint16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB23_1
-	.p2align	4, 0x90
-.LBB23_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB23_5
-.LBB23_1:
-	test	edx, edx
-	jle	.LBB23_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB23_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB23_3
-.LBB23_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end23:
-	.size	transpose_int64_uint16_sse4, .Lfunc_end23-transpose_int64_uint16_sse4
-                                        # -- End function
-	.globl	transpose_uint8_int16_sse4      # -- Begin function transpose_uint8_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_int16_sse4,@function
-transpose_uint8_int16_sse4:             # @transpose_uint8_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB24_1
-	.p2align	4, 0x90
-.LBB24_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB24_5
-.LBB24_1:
-	test	edx, edx
-	jle	.LBB24_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB24_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB24_3
-.LBB24_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end24:
-	.size	transpose_uint8_int16_sse4, .Lfunc_end24-transpose_uint8_int16_sse4
-                                        # -- End function
-	.globl	transpose_int8_int16_sse4       # -- Begin function transpose_int8_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_int16_sse4,@function
-transpose_int8_int16_sse4:              # @transpose_int8_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB25_1
-	.p2align	4, 0x90
-.LBB25_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, byte ptr [rdi + 1]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, byte ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, byte ptr [rdi + 3]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB25_5
-.LBB25_1:
-	test	edx, edx
-	jle	.LBB25_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB25_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + 2*r8], ax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB25_3
-.LBB25_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end25:
-	.size	transpose_int8_int16_sse4, .Lfunc_end25-transpose_int8_int16_sse4
-                                        # -- End function
-	.globl	transpose_uint16_int16_sse4     # -- Begin function transpose_uint16_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_int16_sse4,@function
-transpose_uint16_int16_sse4:            # @transpose_uint16_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB26_1
-	.p2align	4, 0x90
-.LBB26_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movzx	edx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movzx	edx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movzx	edx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB26_5
-.LBB26_1:
-	test	edx, edx
-	jle	.LBB26_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB26_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB26_3
-.LBB26_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end26:
-	.size	transpose_uint16_int16_sse4, .Lfunc_end26-transpose_uint16_int16_sse4
-                                        # -- End function
-	.globl	transpose_int16_int16_sse4      # -- Begin function transpose_int16_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_int16_sse4,@function
-transpose_int16_int16_sse4:             # @transpose_int16_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB27_1
-	.p2align	4, 0x90
-.LBB27_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsx	rdx, word ptr [rdi + 2]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsx	rdx, word ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsx	rdx, word ptr [rdi + 6]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB27_5
-.LBB27_1:
-	test	edx, edx
-	jle	.LBB27_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB27_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB27_3
-.LBB27_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end27:
-	.size	transpose_int16_int16_sse4, .Lfunc_end27-transpose_int16_int16_sse4
-                                        # -- End function
-	.globl	transpose_uint32_int16_sse4     # -- Begin function transpose_uint32_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_int16_sse4,@function
-transpose_uint32_int16_sse4:            # @transpose_uint32_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB28_1
-	.p2align	4, 0x90
-.LBB28_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	edx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	edx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	edx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB28_5
-.LBB28_1:
-	test	edx, edx
-	jle	.LBB28_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB28_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB28_3
-.LBB28_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end28:
-	.size	transpose_uint32_int16_sse4, .Lfunc_end28-transpose_uint32_int16_sse4
-                                        # -- End function
-	.globl	transpose_int32_int16_sse4      # -- Begin function transpose_int32_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_int16_sse4,@function
-transpose_int32_int16_sse4:             # @transpose_int32_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB29_1
-	.p2align	4, 0x90
-.LBB29_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB29_5
-.LBB29_1:
-	test	edx, edx
-	jle	.LBB29_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB29_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + 2*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB29_3
-.LBB29_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end29:
-	.size	transpose_int32_int16_sse4, .Lfunc_end29-transpose_int32_int16_sse4
-                                        # -- End function
-	.globl	transpose_uint64_int16_sse4     # -- Begin function transpose_uint64_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_int16_sse4,@function
-transpose_uint64_int16_sse4:            # @transpose_uint64_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB30_1
-	.p2align	4, 0x90
-.LBB30_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB30_5
-.LBB30_1:
-	test	edx, edx
-	jle	.LBB30_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB30_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB30_3
-.LBB30_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end30:
-	.size	transpose_uint64_int16_sse4, .Lfunc_end30-transpose_uint64_int16_sse4
-                                        # -- End function
-	.globl	transpose_int64_int16_sse4      # -- Begin function transpose_int64_int16_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_int16_sse4,@function
-transpose_int64_int16_sse4:             # @transpose_int64_int16_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB31_1
-	.p2align	4, 0x90
-.LBB31_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi], dx
-	mov	rdx, qword ptr [rdi + 8]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 2], dx
-	mov	rdx, qword ptr [rdi + 16]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 4], dx
-	mov	rdx, qword ptr [rdi + 24]
-	movzx	edx, word ptr [rcx + 4*rdx]
-	mov	word ptr [rsi + 6], dx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 8
-	cmp	eax, 7
-	jg	.LBB31_5
-.LBB31_1:
-	test	edx, edx
-	jle	.LBB31_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB31_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 4*r8]
-	movzx	eax, word ptr [rcx + 4*rax]
-	mov	word ptr [rsi + r8], ax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB31_3
-.LBB31_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end31:
-	.size	transpose_int64_int16_sse4, .Lfunc_end31-transpose_int64_int16_sse4
-                                        # -- End function
-	.globl	transpose_uint8_uint32_sse4     # -- Begin function transpose_uint8_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint32_sse4,@function
-transpose_uint8_uint32_sse4:            # @transpose_uint8_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB32_1
-	.p2align	4, 0x90
-.LBB32_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB32_5
-.LBB32_1:
-	test	edx, edx
-	jle	.LBB32_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB32_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB32_3
-.LBB32_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end32:
-	.size	transpose_uint8_uint32_sse4, .Lfunc_end32-transpose_uint8_uint32_sse4
-                                        # -- End function
-	.globl	transpose_int8_uint32_sse4      # -- Begin function transpose_int8_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_uint32_sse4,@function
-transpose_int8_uint32_sse4:             # @transpose_int8_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB33_1
-	.p2align	4, 0x90
-.LBB33_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB33_5
-.LBB33_1:
-	test	edx, edx
-	jle	.LBB33_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB33_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB33_3
-.LBB33_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end33:
-	.size	transpose_int8_uint32_sse4, .Lfunc_end33-transpose_int8_uint32_sse4
-                                        # -- End function
-	.globl	transpose_uint16_uint32_sse4    # -- Begin function transpose_uint16_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint32_sse4,@function
-transpose_uint16_uint32_sse4:           # @transpose_uint16_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB34_1
-	.p2align	4, 0x90
-.LBB34_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB34_5
-.LBB34_1:
-	test	edx, edx
-	jle	.LBB34_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB34_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB34_3
-.LBB34_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end34:
-	.size	transpose_uint16_uint32_sse4, .Lfunc_end34-transpose_uint16_uint32_sse4
-                                        # -- End function
-	.globl	transpose_int16_uint32_sse4     # -- Begin function transpose_int16_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_uint32_sse4,@function
-transpose_int16_uint32_sse4:            # @transpose_int16_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB35_1
-	.p2align	4, 0x90
-.LBB35_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB35_5
-.LBB35_1:
-	test	edx, edx
-	jle	.LBB35_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB35_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB35_3
-.LBB35_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end35:
-	.size	transpose_int16_uint32_sse4, .Lfunc_end35-transpose_int16_uint32_sse4
-                                        # -- End function
-	.globl	transpose_uint32_uint32_sse4    # -- Begin function transpose_uint32_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint32_sse4,@function
-transpose_uint32_uint32_sse4:           # @transpose_uint32_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB36_1
-	.p2align	4, 0x90
-.LBB36_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	edx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	edx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	edx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB36_5
-.LBB36_1:
-	test	edx, edx
-	jle	.LBB36_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB36_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB36_3
-.LBB36_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end36:
-	.size	transpose_uint32_uint32_sse4, .Lfunc_end36-transpose_uint32_uint32_sse4
-                                        # -- End function
-	.globl	transpose_int32_uint32_sse4     # -- Begin function transpose_int32_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_uint32_sse4,@function
-transpose_int32_uint32_sse4:            # @transpose_int32_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB37_1
-	.p2align	4, 0x90
-.LBB37_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsxd	rdx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsxd	rdx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsxd	rdx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB37_5
-.LBB37_1:
-	test	edx, edx
-	jle	.LBB37_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB37_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB37_3
-.LBB37_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end37:
-	.size	transpose_int32_uint32_sse4, .Lfunc_end37-transpose_int32_uint32_sse4
-                                        # -- End function
-	.globl	transpose_uint64_uint32_sse4    # -- Begin function transpose_uint64_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint32_sse4,@function
-transpose_uint64_uint32_sse4:           # @transpose_uint64_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB38_1
-	.p2align	4, 0x90
-.LBB38_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB38_5
-.LBB38_1:
-	test	edx, edx
-	jle	.LBB38_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB38_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB38_3
-.LBB38_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end38:
-	.size	transpose_uint64_uint32_sse4, .Lfunc_end38-transpose_uint64_uint32_sse4
-                                        # -- End function
-	.globl	transpose_int64_uint32_sse4     # -- Begin function transpose_int64_uint32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_uint32_sse4,@function
-transpose_int64_uint32_sse4:            # @transpose_int64_uint32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB39_1
-	.p2align	4, 0x90
-.LBB39_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB39_5
-.LBB39_1:
-	test	edx, edx
-	jle	.LBB39_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB39_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB39_3
-.LBB39_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end39:
-	.size	transpose_int64_uint32_sse4, .Lfunc_end39-transpose_int64_uint32_sse4
-                                        # -- End function
-	.globl	transpose_uint8_int32_sse4      # -- Begin function transpose_uint8_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_int32_sse4,@function
-transpose_uint8_int32_sse4:             # @transpose_uint8_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB40_1
-	.p2align	4, 0x90
-.LBB40_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB40_5
-.LBB40_1:
-	test	edx, edx
-	jle	.LBB40_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB40_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB40_3
-.LBB40_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end40:
-	.size	transpose_uint8_int32_sse4, .Lfunc_end40-transpose_uint8_int32_sse4
-                                        # -- End function
-	.globl	transpose_int8_int32_sse4       # -- Begin function transpose_int8_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_int32_sse4,@function
-transpose_int8_int32_sse4:              # @transpose_int8_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB41_1
-	.p2align	4, 0x90
-.LBB41_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, byte ptr [rdi + 1]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, byte ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, byte ptr [rdi + 3]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB41_5
-.LBB41_1:
-	test	edx, edx
-	jle	.LBB41_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB41_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 4*r8], eax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB41_3
-.LBB41_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end41:
-	.size	transpose_int8_int32_sse4, .Lfunc_end41-transpose_int8_int32_sse4
-                                        # -- End function
-	.globl	transpose_uint16_int32_sse4     # -- Begin function transpose_uint16_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_int32_sse4,@function
-transpose_uint16_int32_sse4:            # @transpose_uint16_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB42_1
-	.p2align	4, 0x90
-.LBB42_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movzx	edx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movzx	edx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movzx	edx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB42_5
-.LBB42_1:
-	test	edx, edx
-	jle	.LBB42_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB42_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB42_3
-.LBB42_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end42:
-	.size	transpose_uint16_int32_sse4, .Lfunc_end42-transpose_uint16_int32_sse4
-                                        # -- End function
-	.globl	transpose_int16_int32_sse4      # -- Begin function transpose_int16_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_int32_sse4,@function
-transpose_int16_int32_sse4:             # @transpose_int16_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB43_1
-	.p2align	4, 0x90
-.LBB43_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsx	rdx, word ptr [rdi + 2]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsx	rdx, word ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsx	rdx, word ptr [rdi + 6]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB43_5
-.LBB43_1:
-	test	edx, edx
-	jle	.LBB43_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB43_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + 2*r8], eax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB43_3
-.LBB43_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end43:
-	.size	transpose_int16_int32_sse4, .Lfunc_end43-transpose_int16_int32_sse4
-                                        # -- End function
-	.globl	transpose_uint32_int32_sse4     # -- Begin function transpose_uint32_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_int32_sse4,@function
-transpose_uint32_int32_sse4:            # @transpose_uint32_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB44_1
-	.p2align	4, 0x90
-.LBB44_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	edx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	edx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	edx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB44_5
-.LBB44_1:
-	test	edx, edx
-	jle	.LBB44_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB44_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB44_3
-.LBB44_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end44:
-	.size	transpose_uint32_int32_sse4, .Lfunc_end44-transpose_uint32_int32_sse4
-                                        # -- End function
-	.globl	transpose_int32_int32_sse4      # -- Begin function transpose_int32_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_int32_sse4,@function
-transpose_int32_int32_sse4:             # @transpose_int32_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB45_1
-	.p2align	4, 0x90
-.LBB45_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	movsxd	rdx, dword ptr [rdi + 4]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	movsxd	rdx, dword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	movsxd	rdx, dword ptr [rdi + 12]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB45_5
-.LBB45_1:
-	test	edx, edx
-	jle	.LBB45_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB45_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB45_3
-.LBB45_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end45:
-	.size	transpose_int32_int32_sse4, .Lfunc_end45-transpose_int32_int32_sse4
-                                        # -- End function
-	.globl	transpose_uint64_int32_sse4     # -- Begin function transpose_uint64_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_int32_sse4,@function
-transpose_uint64_int32_sse4:            # @transpose_uint64_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB46_1
-	.p2align	4, 0x90
-.LBB46_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB46_5
-.LBB46_1:
-	test	edx, edx
-	jle	.LBB46_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB46_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB46_3
-.LBB46_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end46:
-	.size	transpose_uint64_int32_sse4, .Lfunc_end46-transpose_uint64_int32_sse4
-                                        # -- End function
-	.globl	transpose_int64_int32_sse4      # -- Begin function transpose_int64_int32_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_int32_sse4,@function
-transpose_int64_int32_sse4:             # @transpose_int64_int32_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB47_1
-	.p2align	4, 0x90
-.LBB47_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi], edx
-	mov	rdx, qword ptr [rdi + 8]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 4], edx
-	mov	rdx, qword ptr [rdi + 16]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 8], edx
-	mov	rdx, qword ptr [rdi + 24]
-	mov	edx, dword ptr [rcx + 4*rdx]
-	mov	dword ptr [rsi + 12], edx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 16
-	cmp	eax, 7
-	jg	.LBB47_5
-.LBB47_1:
-	test	edx, edx
-	jle	.LBB47_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB47_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + 2*r8]
-	mov	eax, dword ptr [rcx + 4*rax]
-	mov	dword ptr [rsi + r8], eax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB47_3
-.LBB47_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end47:
-	.size	transpose_int64_int32_sse4, .Lfunc_end47-transpose_int64_int32_sse4
-                                        # -- End function
-	.globl	transpose_uint8_uint64_sse4     # -- Begin function transpose_uint8_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_uint64_sse4,@function
-transpose_uint8_uint64_sse4:            # @transpose_uint8_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB48_1
-	.p2align	4, 0x90
-.LBB48_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB48_5
-.LBB48_1:
-	test	edx, edx
-	jle	.LBB48_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB48_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB48_3
-.LBB48_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end48:
-	.size	transpose_uint8_uint64_sse4, .Lfunc_end48-transpose_uint8_uint64_sse4
-                                        # -- End function
-	.globl	transpose_int8_uint64_sse4      # -- Begin function transpose_int8_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_uint64_sse4,@function
-transpose_int8_uint64_sse4:             # @transpose_int8_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB49_1
-	.p2align	4, 0x90
-.LBB49_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB49_5
-.LBB49_1:
-	test	edx, edx
-	jle	.LBB49_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB49_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB49_3
-.LBB49_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end49:
-	.size	transpose_int8_uint64_sse4, .Lfunc_end49-transpose_int8_uint64_sse4
-                                        # -- End function
-	.globl	transpose_uint16_uint64_sse4    # -- Begin function transpose_uint16_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_uint64_sse4,@function
-transpose_uint16_uint64_sse4:           # @transpose_uint16_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB50_1
-	.p2align	4, 0x90
-.LBB50_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB50_5
-.LBB50_1:
-	test	edx, edx
-	jle	.LBB50_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB50_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB50_3
-.LBB50_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end50:
-	.size	transpose_uint16_uint64_sse4, .Lfunc_end50-transpose_uint16_uint64_sse4
-                                        # -- End function
-	.globl	transpose_int16_uint64_sse4     # -- Begin function transpose_int16_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_uint64_sse4,@function
-transpose_int16_uint64_sse4:            # @transpose_int16_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB51_1
-	.p2align	4, 0x90
-.LBB51_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB51_5
-.LBB51_1:
-	test	edx, edx
-	jle	.LBB51_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB51_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB51_3
-.LBB51_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end51:
-	.size	transpose_int16_uint64_sse4, .Lfunc_end51-transpose_int16_uint64_sse4
-                                        # -- End function
-	.globl	transpose_uint32_uint64_sse4    # -- Begin function transpose_uint32_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_uint64_sse4,@function
-transpose_uint32_uint64_sse4:           # @transpose_uint32_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB52_1
-	.p2align	4, 0x90
-.LBB52_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	edx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	edx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	edx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB52_5
-.LBB52_1:
-	test	edx, edx
-	jle	.LBB52_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB52_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB52_3
-.LBB52_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end52:
-	.size	transpose_uint32_uint64_sse4, .Lfunc_end52-transpose_uint32_uint64_sse4
-                                        # -- End function
-	.globl	transpose_int32_uint64_sse4     # -- Begin function transpose_int32_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_uint64_sse4,@function
-transpose_int32_uint64_sse4:            # @transpose_int32_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB53_1
-	.p2align	4, 0x90
-.LBB53_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB53_5
-.LBB53_1:
-	test	edx, edx
-	jle	.LBB53_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB53_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB53_3
-.LBB53_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end53:
-	.size	transpose_int32_uint64_sse4, .Lfunc_end53-transpose_int32_uint64_sse4
-                                        # -- End function
-	.globl	transpose_uint64_uint64_sse4    # -- Begin function transpose_uint64_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_uint64_sse4,@function
-transpose_uint64_uint64_sse4:           # @transpose_uint64_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB54_1
-	.p2align	4, 0x90
-.LBB54_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB54_5
-.LBB54_1:
-	test	edx, edx
-	jle	.LBB54_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB54_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB54_3
-.LBB54_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end54:
-	.size	transpose_uint64_uint64_sse4, .Lfunc_end54-transpose_uint64_uint64_sse4
-                                        # -- End function
-	.globl	transpose_int64_uint64_sse4     # -- Begin function transpose_int64_uint64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_uint64_sse4,@function
-transpose_int64_uint64_sse4:            # @transpose_int64_uint64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB55_1
-	.p2align	4, 0x90
-.LBB55_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB55_5
-.LBB55_1:
-	test	edx, edx
-	jle	.LBB55_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB55_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB55_3
-.LBB55_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end55:
-	.size	transpose_int64_uint64_sse4, .Lfunc_end55-transpose_int64_uint64_sse4
-                                        # -- End function
-	.globl	transpose_uint8_int64_sse4      # -- Begin function transpose_uint8_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint8_int64_sse4,@function
-transpose_uint8_int64_sse4:             # @transpose_uint8_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB56_1
-	.p2align	4, 0x90
-.LBB56_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB56_5
-.LBB56_1:
-	test	edx, edx
-	jle	.LBB56_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB56_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB56_3
-.LBB56_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end56:
-	.size	transpose_uint8_int64_sse4, .Lfunc_end56-transpose_uint8_int64_sse4
-                                        # -- End function
-	.globl	transpose_int8_int64_sse4       # -- Begin function transpose_int8_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int8_int64_sse4,@function
-transpose_int8_int64_sse4:              # @transpose_int8_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB57_1
-	.p2align	4, 0x90
-.LBB57_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, byte ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, byte ptr [rdi + 1]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, byte ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, byte ptr [rdi + 3]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 4
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB57_5
-.LBB57_1:
-	test	edx, edx
-	jle	.LBB57_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB57_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, byte ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 8*r8], rax
-	add	r8, 1
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB57_3
-.LBB57_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end57:
-	.size	transpose_int8_int64_sse4, .Lfunc_end57-transpose_int8_int64_sse4
-                                        # -- End function
-	.globl	transpose_uint16_int64_sse4     # -- Begin function transpose_uint16_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint16_int64_sse4,@function
-transpose_uint16_int64_sse4:            # @transpose_uint16_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB58_1
-	.p2align	4, 0x90
-.LBB58_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movzx	edx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movzx	edx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movzx	edx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movzx	edx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB58_5
-.LBB58_1:
-	test	edx, edx
-	jle	.LBB58_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB58_3:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB58_3
-.LBB58_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end58:
-	.size	transpose_uint16_int64_sse4, .Lfunc_end58-transpose_uint16_int64_sse4
-                                        # -- End function
-	.globl	transpose_int16_int64_sse4      # -- Begin function transpose_int16_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int16_int64_sse4,@function
-transpose_int16_int64_sse4:             # @transpose_int16_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB59_1
-	.p2align	4, 0x90
-.LBB59_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsx	rdx, word ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsx	rdx, word ptr [rdi + 2]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsx	rdx, word ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsx	rdx, word ptr [rdi + 6]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 8
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB59_5
-.LBB59_1:
-	test	edx, edx
-	jle	.LBB59_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB59_3:                               # =>This Inner Loop Header: Depth=1
-	movsx	rax, word ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 4*r8], rax
-	add	r8, 2
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB59_3
-.LBB59_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end59:
-	.size	transpose_int16_int64_sse4, .Lfunc_end59-transpose_int16_int64_sse4
-                                        # -- End function
-	.globl	transpose_uint32_int64_sse4     # -- Begin function transpose_uint32_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint32_int64_sse4,@function
-transpose_uint32_int64_sse4:            # @transpose_uint32_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB60_1
-	.p2align	4, 0x90
-.LBB60_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	edx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	edx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	edx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	edx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB60_5
-.LBB60_1:
-	test	edx, edx
-	jle	.LBB60_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB60_3:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB60_3
-.LBB60_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end60:
-	.size	transpose_uint32_int64_sse4, .Lfunc_end60-transpose_uint32_int64_sse4
-                                        # -- End function
-	.globl	transpose_int32_int64_sse4      # -- Begin function transpose_int32_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int32_int64_sse4,@function
-transpose_int32_int64_sse4:             # @transpose_int32_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB61_1
-	.p2align	4, 0x90
-.LBB61_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	movsxd	rdx, dword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	movsxd	rdx, dword ptr [rdi + 4]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	movsxd	rdx, dword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	movsxd	rdx, dword ptr [rdi + 12]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 16
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB61_5
-.LBB61_1:
-	test	edx, edx
-	jle	.LBB61_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB61_3:                               # =>This Inner Loop Header: Depth=1
-	movsxd	rax, dword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + 2*r8], rax
-	add	r8, 4
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB61_3
-.LBB61_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end61:
-	.size	transpose_int32_int64_sse4, .Lfunc_end61-transpose_int32_int64_sse4
-                                        # -- End function
-	.globl	transpose_uint64_int64_sse4     # -- Begin function transpose_uint64_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_uint64_int64_sse4,@function
-transpose_uint64_int64_sse4:            # @transpose_uint64_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB62_1
-	.p2align	4, 0x90
-.LBB62_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB62_5
-.LBB62_1:
-	test	edx, edx
-	jle	.LBB62_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB62_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB62_3
-.LBB62_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end62:
-	.size	transpose_uint64_int64_sse4, .Lfunc_end62-transpose_uint64_int64_sse4
-                                        # -- End function
-	.globl	transpose_int64_int64_sse4      # -- Begin function transpose_int64_int64_sse4
-	.p2align	4, 0x90
-	.type	transpose_int64_int64_sse4,@function
-transpose_int64_int64_sse4:             # @transpose_int64_int64_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	cmp	edx, 4
-	jl	.LBB63_1
-	.p2align	4, 0x90
-.LBB63_5:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, edx
-	mov	rdx, qword ptr [rdi]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi], rdx
-	mov	rdx, qword ptr [rdi + 8]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 8], rdx
-	mov	rdx, qword ptr [rdi + 16]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 16], rdx
-	mov	rdx, qword ptr [rdi + 24]
-	movsxd	rdx, dword ptr [rcx + 4*rdx]
-	mov	qword ptr [rsi + 24], rdx
-	lea	edx, [rax - 4]
-	add	rdi, 32
-	add	rsi, 32
-	cmp	eax, 7
-	jg	.LBB63_5
-.LBB63_1:
-	test	edx, edx
-	jle	.LBB63_4
-# %bb.2:
-	add	edx, 1
-	xor	r8d, r8d
-	.p2align	4, 0x90
-.LBB63_3:                               # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdi + r8]
-	movsxd	rax, dword ptr [rcx + 4*rax]
-	mov	qword ptr [rsi + r8], rax
-	add	r8, 8
-	add	edx, -1
-	cmp	edx, 1
-	jg	.LBB63_3
-.LBB63_4:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end63:
-	.size	transpose_int64_int64_sse4, .Lfunc_end63-transpose_int64_int64_sse4
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.0.0-2~ubuntu20.04.1"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/internal/utils/buf_reader.go b/go/internal/utils/buf_reader.go
deleted file mode 100644
index 0b2381da1ceb6..0000000000000
--- a/go/internal/utils/buf_reader.go
+++ /dev/null
@@ -1,212 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"bufio"
-	"errors"
-	"fmt"
-	"io"
-)
-
-// bufferedReader is similar to bufio.Reader except
-// it will expand the buffer if necessary when asked to Peek
-// more bytes than are in the buffer
-type bufferedReader struct {
-	bufferSz int
-	buf      []byte
-	r, w     int
-	rd       io.Reader
-	err      error
-}
-
-// NewBufferedReader returns a buffered reader with similar semantics to bufio.Reader
-// except Peek will expand the internal buffer if needed rather than return
-// an error.
-func NewBufferedReader(rd io.Reader, sz int) *bufferedReader {
-	// if rd is already a buffered reader whose buffer is >= the requested size
-	// then just return it as is. no need to make a new object.
-	b, ok := rd.(*bufferedReader)
-	if ok && len(b.buf) >= sz {
-		return b
-	}
-
-	r := &bufferedReader{
-		rd: rd,
-	}
-	r.resizeBuffer(sz)
-	return r
-}
-
-func (b *bufferedReader) resetBuffer() {
-	if b.buf == nil {
-		b.buf = make([]byte, b.bufferSz)
-	} else if b.bufferSz > cap(b.buf) {
-		buf := b.buf
-		b.buf = make([]byte, b.bufferSz)
-		copy(b.buf, buf)
-	} else {
-		b.buf = b.buf[:b.bufferSz]
-	}
-}
-
-func (b *bufferedReader) resizeBuffer(newSize int) {
-	b.bufferSz = newSize
-	b.resetBuffer()
-}
-
-func (b *bufferedReader) fill() error {
-	// slide existing data to the beginning
-	if b.r > 0 {
-		copy(b.buf, b.buf[b.r:b.w])
-		b.w -= b.r
-		b.r = 0
-	}
-
-	if b.w >= len(b.buf) {
-		return fmt.Errorf("arrow/bufferedreader: %w", bufio.ErrBufferFull)
-	}
-
-	n, err := io.ReadAtLeast(b.rd, b.buf[b.w:], 1)
-	if n < 0 {
-		return fmt.Errorf("arrow/bufferedreader: filling buffer: %w", bufio.ErrNegativeCount)
-	}
-
-	b.w += n
-	b.err = err
-	return nil
-}
-
-func (b *bufferedReader) readErr() error {
-	err := b.err
-	b.err = nil
-	return err
-}
-
-// Buffered returns the number of bytes currently buffered
-func (b *bufferedReader) Buffered() int { return b.w - b.r }
-
-// SetBufferSize resets the size of the internal buffer to the desired size.
-// Will return an error if newSize is <= 0 or if newSize is less than the size
-// of the buffered data.
-func (b *bufferedReader) SetBufferSize(newSize int) error {
-	if newSize <= 0 {
-		return errors.New("buffer size should be positive")
-	}
-
-	if b.w >= newSize {
-		return errors.New("cannot shrink read buffer if buffered data remains")
-	}
-
-	b.resizeBuffer(newSize)
-	return nil
-}
-
-// Peek will buffer and return n bytes from the underlying reader without advancing
-// the reader itself. If n is larger than the current buffer size, the buffer will
-// be expanded to accommodate the extra bytes rather than error.
-func (b *bufferedReader) Peek(n int) ([]byte, error) {
-	if n < 0 {
-		return nil, fmt.Errorf("arrow/bufferedreader: %w", bufio.ErrNegativeCount)
-	}
-
-	if n > len(b.buf) {
-		if err := b.SetBufferSize(n); err != nil {
-			return nil, err
-		}
-	}
-
-	for b.w-b.r < n && b.w-b.r < len(b.buf) && b.err == nil {
-		b.fill() // b.w-b.r < len(b.buf) => buffer is not full
-	}
-
-	return b.buf[b.r : b.r+n], b.readErr()
-}
-
-// Discard skips the next n bytes either by advancing the internal buffer
-// or by reading that many bytes in and throwing them away.
-func (b *bufferedReader) Discard(n int) (discarded int, err error) {
-	if n < 0 {
-		return 0, fmt.Errorf("arrow/bufferedreader: %w", bufio.ErrNegativeCount)
-	}
-
-	if n == 0 {
-		return
-	}
-
-	remain := n
-	for {
-		skip := b.Buffered()
-		if skip == 0 {
-			b.fill()
-			skip = b.Buffered()
-		}
-		if skip > remain {
-			skip = remain
-		}
-		b.r += skip
-		remain -= skip
-		if remain == 0 {
-			return n, nil
-		}
-		if b.err != nil {
-			return n - remain, b.readErr()
-		}
-	}
-}
-
-func (b *bufferedReader) Read(p []byte) (n int, err error) {
-	n = len(p)
-	if n == 0 {
-		if b.Buffered() > 0 {
-			return 0, nil
-		}
-		return 0, b.readErr()
-	}
-
-	if b.r == b.w {
-		if b.err != nil {
-			return 0, b.readErr()
-		}
-		if len(p) >= len(b.buf) {
-			// large read, empty buffer
-			// read directly into p to avoid extra copy
-			n, b.err = b.rd.Read(p)
-			if n < 0 {
-				return n, fmt.Errorf("arrow/bufferedreader: %w", bufio.ErrNegativeCount)
-			}
-			return n, b.readErr()
-		}
-
-		// one read
-		// don't use b.fill
-		b.r, b.w = 0, 0
-		n, b.err = b.rd.Read(b.buf)
-		if n < 0 {
-			return n, fmt.Errorf("arrow/bufferedreader: %w", bufio.ErrNegativeCount)
-		}
-		if n == 0 {
-			return 0, b.readErr()
-		}
-		b.w += n
-	}
-
-	// copy as much as we can
-	n = copy(p, b.buf[b.r:b.w])
-	b.r += n
-	return n, nil
-}
diff --git a/go/internal/utils/endians_default.go b/go/internal/utils/endians_default.go
deleted file mode 100644
index 5fd257f52e287..0000000000000
--- a/go/internal/utils/endians_default.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !s390x
-
-package utils
-
-var (
-	ToLEInt16   = func(x int16) int16 { return x }
-	ToLEUint16  = func(x uint16) uint16 { return x }
-	ToLEUint32  = func(x uint32) uint32 { return x }
-	ToLEUint64  = func(x uint64) uint64 { return x }
-	ToLEInt32   = func(x int32) int32 { return x }
-	ToLEInt64   = func(x int64) int64 { return x }
-	ToLEFloat32 = func(x float32) float32 { return x }
-	ToLEFloat64 = func(x float64) float64 { return x }
-)
diff --git a/go/internal/utils/endians_s390x.go b/go/internal/utils/endians_s390x.go
deleted file mode 100644
index 7bb27cd810537..0000000000000
--- a/go/internal/utils/endians_s390x.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"math"
-	"math/bits"
-)
-
-var (
-	ToLEInt16   = func(x int16) int16 { return int16(bits.ReverseBytes16(uint16(x))) }
-	ToLEUint16  = bits.ReverseBytes16
-	ToLEUint32  = bits.ReverseBytes32
-	ToLEUint64  = bits.ReverseBytes64
-	ToLEInt32   = func(x int32) int32 { return int32(bits.ReverseBytes32(uint32(x))) }
-	ToLEInt64   = func(x int64) int64 { return int64(bits.ReverseBytes64(uint64(x))) }
-	ToLEFloat32 = func(x float32) float32 { return math.Float32frombits(bits.ReverseBytes32(math.Float32bits(x))) }
-	ToLEFloat64 = func(x float64) float64 { return math.Float64frombits(bits.ReverseBytes64(math.Float64bits(x))) }
-)
diff --git a/go/internal/utils/math.go b/go/internal/utils/math.go
deleted file mode 100644
index c8311750e3a4c..0000000000000
--- a/go/internal/utils/math.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import "golang.org/x/exp/constraints"
-
-func Min[T constraints.Ordered](a, b T) T {
-	if a < b {
-		return a
-	}
-	return b
-}
-
-func Max[T constraints.Ordered](a, b T) T {
-	if a > b {
-		return a
-	}
-	return b
-}
diff --git a/go/internal/utils/min_max.go b/go/internal/utils/min_max.go
deleted file mode 100644
index 3d7b0024a66ca..0000000000000
--- a/go/internal/utils/min_max.go
+++ /dev/null
@@ -1,212 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"math"
-)
-
-// this file contains pure go implementations of the min_max functions that are
-// SIMD accelerated so that we can fallback to these if the cpu doesn't support
-// AVX2 or SSE4 instructions.
-
-func int8MinMax(values []int8) (min, max int8) {
-	min = math.MaxInt8
-	max = math.MinInt8
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func uint8MinMax(values []uint8) (min, max uint8) {
-	min = math.MaxUint8
-	max = 0
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func int16MinMax(values []int16) (min, max int16) {
-	min = math.MaxInt16
-	max = math.MinInt16
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func uint16MinMax(values []uint16) (min, max uint16) {
-	min = math.MaxUint16
-	max = 0
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func int32MinMax(values []int32) (min, max int32) {
-	min = math.MaxInt32
-	max = math.MinInt32
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func uint32MinMax(values []uint32) (min, max uint32) {
-	min = math.MaxUint32
-	max = 0
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func int64MinMax(values []int64) (min, max int64) {
-	min = math.MaxInt64
-	max = math.MinInt64
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-func uint64MinMax(values []uint64) (min, max uint64) {
-	min = math.MaxUint64
-	max = 0
-
-	for _, v := range values {
-		if min > v {
-			min = v
-		}
-		if max < v {
-			max = v
-		}
-	}
-	return
-}
-
-var minmaxFuncs = struct {
-	i8   func([]int8) (int8, int8)
-	ui8  func([]uint8) (uint8, uint8)
-	i16  func([]int16) (int16, int16)
-	ui16 func([]uint16) (uint16, uint16)
-	i32  func([]int32) (int32, int32)
-	ui32 func([]uint32) (uint32, uint32)
-	i64  func([]int64) (int64, int64)
-	ui64 func([]uint64) (uint64, uint64)
-}{}
-
-// GetMinMaxInt8 returns the min and max for a int8 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxInt8(v []int8) (min, max int8) {
-	return minmaxFuncs.i8(v)
-}
-
-// GetMinMaxUint8 returns the min and max for a uint8 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxUint8(v []uint8) (min, max uint8) {
-	return minmaxFuncs.ui8(v)
-}
-
-// GetMinMaxInt16 returns the min and max for a int16 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxInt16(v []int16) (min, max int16) {
-	return minmaxFuncs.i16(v)
-}
-
-// GetMinMaxUint16 returns the min and max for a uint16 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxUint16(v []uint16) (min, max uint16) {
-	return minmaxFuncs.ui16(v)
-}
-
-// GetMinMaxInt32 returns the min and max for a int32 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxInt32(v []int32) (min, max int32) {
-	return minmaxFuncs.i32(v)
-}
-
-// GetMinMaxUint32 returns the min and max for a uint32 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxUint32(v []uint32) (min, max uint32) {
-	return minmaxFuncs.ui32(v)
-}
-
-// GetMinMaxInt64 returns the min and max for a int64 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxInt64(v []int64) (min, max int64) {
-	return minmaxFuncs.i64(v)
-}
-
-// GetMinMaxUint64 returns the min and max for a uint64 slice, using AVX2 or
-// SSE4 cpu extensions if available, falling back to a pure go implementation
-// if they are unavailable or built with the noasm tag.
-func GetMinMaxUint64(v []uint64) (min, max uint64) {
-	return minmaxFuncs.ui64(v)
-}
diff --git a/go/internal/utils/min_max_amd64.go b/go/internal/utils/min_max_amd64.go
deleted file mode 100644
index 5fccddbee2952..0000000000000
--- a/go/internal/utils/min_max_amd64.go
+++ /dev/null
@@ -1,55 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import "golang.org/x/sys/cpu"
-
-func init() {
-	// if the CPU supports AVX2 or SSE4 then let's use those to benefit from SIMD
-	// to accelerate the performance for finding the min and max for an integral slice.
-	// otherwise fallback to a pure go implementation if the cpu doesn't have these features.
-	if cpu.X86.HasAVX2 {
-		minmaxFuncs.i8 = int8MaxMinAVX2
-		minmaxFuncs.ui8 = uint8MaxMinAVX2
-		minmaxFuncs.i16 = int16MaxMinAVX2
-		minmaxFuncs.ui16 = uint16MaxMinAVX2
-		minmaxFuncs.i32 = int32MaxMinAVX2
-		minmaxFuncs.ui32 = uint32MaxMinAVX2
-		minmaxFuncs.i64 = int64MaxMinAVX2
-		minmaxFuncs.ui64 = uint64MaxMinAVX2
-	} else if cpu.X86.HasSSE42 {
-		minmaxFuncs.i8 = int8MaxMinSSE4
-		minmaxFuncs.ui8 = uint8MaxMinSSE4
-		minmaxFuncs.i16 = int16MaxMinSSE4
-		minmaxFuncs.ui16 = uint16MaxMinSSE4
-		minmaxFuncs.i32 = int32MaxMinSSE4
-		minmaxFuncs.ui32 = uint32MaxMinSSE4
-		minmaxFuncs.i64 = int64MaxMinSSE4
-		minmaxFuncs.ui64 = uint64MaxMinSSE4
-	} else {
-		minmaxFuncs.i8 = int8MinMax
-		minmaxFuncs.ui8 = uint8MinMax
-		minmaxFuncs.i16 = int16MinMax
-		minmaxFuncs.ui16 = uint16MinMax
-		minmaxFuncs.i32 = int32MinMax
-		minmaxFuncs.ui32 = uint32MinMax
-		minmaxFuncs.i64 = int64MinMax
-		minmaxFuncs.ui64 = uint64MinMax
-	}
-}
diff --git a/go/internal/utils/min_max_arm64.go b/go/internal/utils/min_max_arm64.go
deleted file mode 100644
index d02849665df56..0000000000000
--- a/go/internal/utils/min_max_arm64.go
+++ /dev/null
@@ -1,66 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import (
-	"os"
-	"strings"
-
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	// Added ability to enable extension via environment:
-	// ARM_ENABLE_EXT=NEON go test
-	if ext, ok := os.LookupEnv("ARM_ENABLE_EXT"); ok {
-		exts := strings.Split(ext, ",")
-
-		for _, x := range exts {
-			switch x {
-			case "NEON":
-				cpu.ARM64.HasASIMD = true
-			case "AES":
-				cpu.ARM64.HasAES = true
-			case "PMULL":
-				cpu.ARM64.HasPMULL = true
-			default:
-				cpu.ARM64.HasASIMD = false
-				cpu.ARM64.HasAES = false
-				cpu.ARM64.HasPMULL = false
-			}
-		}
-	}
-	if cpu.ARM64.HasASIMD {
-		minmaxFuncs.i32 = int32MaxMinNEON
-		minmaxFuncs.ui32 = uint32MaxMinNEON
-		minmaxFuncs.i64 = int64MaxMinNEON
-		minmaxFuncs.ui64 = uint64MaxMinNEON
-	} else {
-		minmaxFuncs.i32 = int32MinMax
-		minmaxFuncs.ui32 = uint32MinMax
-		minmaxFuncs.i64 = int64MinMax
-		minmaxFuncs.ui64 = uint64MinMax
-	}
-
-	// haven't yet generated the NEON arm64 for these
-	minmaxFuncs.i8 = int8MinMax
-	minmaxFuncs.ui8 = uint8MinMax
-	minmaxFuncs.i16 = int16MinMax
-	minmaxFuncs.ui16 = uint16MinMax
-}
diff --git a/go/internal/utils/min_max_avx2_amd64.go b/go/internal/utils/min_max_avx2_amd64.go
deleted file mode 100644
index af6726243da2b..0000000000000
--- a/go/internal/utils/min_max_avx2_amd64.go
+++ /dev/null
@@ -1,90 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import (
-	"unsafe"
-)
-
-// This file contains convenience functions for utilizing AVX2 intrinsics to quickly
-// and efficiently get the min and max from an integral slice.
-
-//go:noescape
-func _int8_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int8MaxMinAVX2(values []int8) (min, max int8) {
-	_int8_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint8_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint8MaxMinAVX2(values []uint8) (min, max uint8) {
-	_uint8_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int16_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int16MaxMinAVX2(values []int16) (min, max int16) {
-	_int16_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint16_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint16MaxMinAVX2(values []uint16) (min, max uint16) {
-	_uint16_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int32_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int32MaxMinAVX2(values []int32) (min, max int32) {
-	_int32_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint32_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint32MaxMinAVX2(values []uint32) (min, max uint32) {
-	_uint32_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int64_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int64MaxMinAVX2(values []int64) (min, max int64) {
-	_int64_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint64_max_min_avx2(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint64MaxMinAVX2(values []uint64) (min, max uint64) {
-	_uint64_max_min_avx2(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
diff --git a/go/internal/utils/min_max_avx2_amd64.s b/go/internal/utils/min_max_avx2_amd64.s
deleted file mode 100644
index fe0c36e0e1659..0000000000000
--- a/go/internal/utils/min_max_avx2_amd64.s
+++ /dev/null
@@ -1,927 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x008(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x010(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x018(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x020(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x028(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x030(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x038(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x040(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x048(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x050(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x058(SB)/8, $0x8080808080808080
-GLOBL LCDATA1<>(SB), 8, $96
-
-TEXT ·_int8_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB0_1
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x3f // cmp    esi, 63
-	JA   LBB0_4
-	WORD $0xb041; BYTE $0x80 // mov    r8b, -128
-	WORD $0xb640; BYTE $0x7f // mov    sil, 127
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	JMP  LBB0_11
-
-LBB0_1:
-	WORD $0xb640; BYTE $0x7f // mov    sil, 127
-	WORD $0xb041; BYTE $0x80 // mov    r8b, -128
-	JMP  LBB0_12
-
-LBB0_4:
-	WORD $0x8945; BYTE $0xca     // mov    r10d, r9d
-	LONG $0xc0e28341             // and    r10d, -64
-	LONG $0xc0428d49             // lea    rax, [r10 - 64]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x06e8c149             // shr    r8, 6
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_5
-	WORD $0x894c; BYTE $0xc6     // mov    rsi, r8
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	LONG $0x4d6ffdc5; BYTE $0x00 // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0x456ffdc5; BYTE $0x20 // vmovdqa    ymm0, yword 32[rbp] /* [rip + .LCPI0_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06ffdc5             // vmovdqa    ymm2, ymm0
-	LONG $0xd96ffdc5             // vmovdqa    ymm3, ymm1
-
-LBB0_7:
-	LONG $0x246ffec5; BYTE $0x07   // vmovdqu    ymm4, yword [rdi + rax]
-	LONG $0x6c6ffec5; WORD $0x2007 // vmovdqu    ymm5, yword [rdi + rax + 32]
-	LONG $0x746ffec5; WORD $0x4007 // vmovdqu    ymm6, yword [rdi + rax + 64]
-	LONG $0x7c6ffec5; WORD $0x6007 // vmovdqu    ymm7, yword [rdi + rax + 96]
-	LONG $0x387de2c4; BYTE $0xc4   // vpminsb    ymm0, ymm0, ymm4
-	LONG $0x386de2c4; BYTE $0xd5   // vpminsb    ymm2, ymm2, ymm5
-	LONG $0x3c75e2c4; BYTE $0xcc   // vpmaxsb    ymm1, ymm1, ymm4
-	LONG $0x3c65e2c4; BYTE $0xdd   // vpmaxsb    ymm3, ymm3, ymm5
-	LONG $0x387de2c4; BYTE $0xc6   // vpminsb    ymm0, ymm0, ymm6
-	LONG $0x386de2c4; BYTE $0xd7   // vpminsb    ymm2, ymm2, ymm7
-	LONG $0x3c75e2c4; BYTE $0xce   // vpmaxsb    ymm1, ymm1, ymm6
-	LONG $0x3c65e2c4; BYTE $0xdf   // vpmaxsb    ymm3, ymm3, ymm7
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB0_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_10
-
-LBB0_9:
-	LONG $0x246ffec5; BYTE $0x07   // vmovdqu    ymm4, yword [rdi + rax]
-	LONG $0x6c6ffec5; WORD $0x2007 // vmovdqu    ymm5, yword [rdi + rax + 32]
-	LONG $0x3c65e2c4; BYTE $0xdd   // vpmaxsb    ymm3, ymm3, ymm5
-	LONG $0x3c75e2c4; BYTE $0xcc   // vpmaxsb    ymm1, ymm1, ymm4
-	LONG $0x386de2c4; BYTE $0xd5   // vpminsb    ymm2, ymm2, ymm5
-	LONG $0x387de2c4; BYTE $0xc4   // vpminsb    ymm0, ymm0, ymm4
-
-LBB0_10:
-	LONG $0x3c75e2c4; BYTE $0xcb   // vpmaxsb    ymm1, ymm1, ymm3
-	LONG $0x397de3c4; WORD $0x01cb // vextracti128    xmm3, ymm1, 1
-	LONG $0x3c71e2c4; BYTE $0xcb   // vpmaxsb    xmm1, xmm1, xmm3
-	LONG $0x4deff1c5; BYTE $0x40   // vpxor    xmm1, xmm1, oword 64[rbp] /* [rip + .LCPI0_2] */
-	LONG $0x387de2c4; BYTE $0xc2   // vpminsb    ymm0, ymm0, ymm2
-	LONG $0xd171e9c5; BYTE $0x08   // vpsrlw    xmm2, xmm1, 8
-	LONG $0xcadaf1c5               // vpminub    xmm1, xmm1, xmm2
-	LONG $0x4179e2c4; BYTE $0xc9   // vphminposuw    xmm1, xmm1
-	LONG $0x7e79c1c4; BYTE $0xc8   // vmovd    r8d, xmm1
-	LONG $0x7ff08041               // xor    r8b, 127
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0x3879e2c4; BYTE $0xc1   // vpminsb    xmm0, xmm0, xmm1
-	LONG $0x45eff9c5; BYTE $0x50   // vpxor    xmm0, xmm0, oword 80[rbp] /* [rip + .LCPI0_3] */
-	LONG $0xd071f1c5; BYTE $0x08   // vpsrlw    xmm1, xmm0, 8
-	LONG $0xc1daf9c5               // vpminub    xmm0, xmm0, xmm1
-	LONG $0x4179e2c4; BYTE $0xc0   // vphminposuw    xmm0, xmm0
-	LONG $0xc67ef9c5               // vmovd    esi, xmm0
-	LONG $0x80f68040               // xor    sil, -128
-	WORD $0x394d; BYTE $0xca       // cmp    r10, r9
-	JE   LBB0_12
-
-LBB0_11:
-	LONG $0x04b60f42; BYTE $0x17 // movzx    eax, byte [rdi + r10]
-	WORD $0x3840; BYTE $0xc6     // cmp    sil, al
-	LONG $0xf6b60f40             // movzx    esi, sil
-	WORD $0x4f0f; BYTE $0xf0     // cmovg    esi, eax
-	WORD $0x3841; BYTE $0xc0     // cmp    r8b, al
-	LONG $0xc0b60f45             // movzx    r8d, r8b
-	LONG $0xc04c0f44             // cmovl    r8d, eax
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x394d; BYTE $0xd1     // cmp    r9, r10
-	JNE  LBB0_11
-
-LBB0_12:
-	WORD $0x8844; BYTE $0x01 // mov    byte [rcx], r8b
-	WORD $0x8840; BYTE $0x32 // mov    byte [rdx], sil
-	VZEROUPPER
-	RET
-
-LBB0_5:
-	LONG $0x4d6ffdc5; BYTE $0x00 // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0x456ffdc5; BYTE $0x20 // vmovdqa    ymm0, yword 32[rbp] /* [rip + .LCPI0_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06ffdc5             // vmovdqa    ymm2, ymm0
-	LONG $0xd96ffdc5             // vmovdqa    ymm3, ymm1
-	LONG $0x01c0f641             // test    r8b, 1
-	JNE  LBB0_9
-	JMP  LBB0_10
-
-TEXT ·_uint8_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB1_1
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x3f // cmp    esi, 63
-	JA   LBB1_4
-	WORD $0xb640; BYTE $0xff // mov    sil, -1
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB1_11
-
-LBB1_1:
-	WORD $0xb640; BYTE $0xff // mov    sil, -1
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB1_12
-
-LBB1_4:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xc0e28341         // and    r10d, -64
-	LONG $0xc0428d49         // lea    rax, [r10 - 64]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x06e8c149         // shr    r8, 6
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB1_5
-	WORD $0x894c; BYTE $0xc6 // mov    rsi, r8
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd276edc5         // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xdbefe1c5         // vpxor    xmm3, xmm3, xmm3
-
-LBB1_7:
-	LONG $0x246ffec5; BYTE $0x07   // vmovdqu    ymm4, yword [rdi + rax]
-	LONG $0x6c6ffec5; WORD $0x2007 // vmovdqu    ymm5, yword [rdi + rax + 32]
-	LONG $0x746ffec5; WORD $0x4007 // vmovdqu    ymm6, yword [rdi + rax + 64]
-	LONG $0x7c6ffec5; WORD $0x6007 // vmovdqu    ymm7, yword [rdi + rax + 96]
-	LONG $0xccdaf5c5               // vpminub    ymm1, ymm1, ymm4
-	LONG $0xd5daedc5               // vpminub    ymm2, ymm2, ymm5
-	LONG $0xc4defdc5               // vpmaxub    ymm0, ymm0, ymm4
-	LONG $0xdddee5c5               // vpmaxub    ymm3, ymm3, ymm5
-	LONG $0xcedaf5c5               // vpminub    ymm1, ymm1, ymm6
-	LONG $0xd7daedc5               // vpminub    ymm2, ymm2, ymm7
-	LONG $0xc6defdc5               // vpmaxub    ymm0, ymm0, ymm6
-	LONG $0xdfdee5c5               // vpmaxub    ymm3, ymm3, ymm7
-	LONG $0x80e88348               // sub    rax, -128
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB1_10
-
-LBB1_9:
-	LONG $0x246ffec5; BYTE $0x07   // vmovdqu    ymm4, yword [rdi + rax]
-	LONG $0x6c6ffec5; WORD $0x2007 // vmovdqu    ymm5, yword [rdi + rax + 32]
-	LONG $0xdddee5c5               // vpmaxub    ymm3, ymm3, ymm5
-	LONG $0xc4defdc5               // vpmaxub    ymm0, ymm0, ymm4
-	LONG $0xd5daedc5               // vpminub    ymm2, ymm2, ymm5
-	LONG $0xccdaf5c5               // vpminub    ymm1, ymm1, ymm4
-
-LBB1_10:
-	LONG $0xcadaf5c5               // vpminub    ymm1, ymm1, ymm2
-	LONG $0xc3defdc5               // vpmaxub    ymm0, ymm0, ymm3
-	LONG $0x397de3c4; WORD $0x01c2 // vextracti128    xmm2, ymm0, 1
-	LONG $0xc2def9c5               // vpmaxub    xmm0, xmm0, xmm2
-	LONG $0xd276e9c5               // vpcmpeqd    xmm2, xmm2, xmm2
-	LONG $0xc2eff9c5               // vpxor    xmm0, xmm0, xmm2
-	LONG $0xd071e9c5; BYTE $0x08   // vpsrlw    xmm2, xmm0, 8
-	LONG $0xc2daf9c5               // vpminub    xmm0, xmm0, xmm2
-	LONG $0x4179e2c4; BYTE $0xc0   // vphminposuw    xmm0, xmm0
-	LONG $0xc07ef9c5               // vmovd    eax, xmm0
-	WORD $0xd0f6                   // not    al
-	LONG $0x397de3c4; WORD $0x01c8 // vextracti128    xmm0, ymm1, 1
-	LONG $0xc0daf1c5               // vpminub    xmm0, xmm1, xmm0
-	LONG $0xd071f1c5; BYTE $0x08   // vpsrlw    xmm1, xmm0, 8
-	LONG $0xc1daf9c5               // vpminub    xmm0, xmm0, xmm1
-	LONG $0x4179e2c4; BYTE $0xc0   // vphminposuw    xmm0, xmm0
-	LONG $0xc67ef9c5               // vmovd    esi, xmm0
-	WORD $0x394d; BYTE $0xca       // cmp    r10, r9
-	JE   LBB1_12
-
-LBB1_11:
-	LONG $0x04b60f46; BYTE $0x17 // movzx    r8d, byte [rdi + r10]
-	WORD $0x3844; BYTE $0xc6     // cmp    sil, r8b
-	LONG $0xf6b60f40             // movzx    esi, sil
-	LONG $0xf0430f41             // cmovae    esi, r8d
-	WORD $0x3844; BYTE $0xc0     // cmp    al, r8b
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0xc0460f41             // cmovbe    eax, r8d
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x394d; BYTE $0xd1     // cmp    r9, r10
-	JNE  LBB1_11
-
-LBB1_12:
-	WORD $0x0188             // mov    byte [rcx], al
-	WORD $0x8840; BYTE $0x32 // mov    byte [rdx], sil
-	VZEROUPPER
-	RET
-
-LBB1_5:
-	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5 // vpcmpeqd    ymm1, ymm1, ymm1
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xd276edc5 // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xdbefe1c5 // vpxor    xmm3, xmm3, xmm3
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB1_9
-	JMP  LBB1_10
-
-DATA LCDATA2<>+0x000(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x008(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x010(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x018(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x020(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x028(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x030(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x038(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x040(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x048(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x050(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x058(SB)/8, $0x8000800080008000
-GLOBL LCDATA2<>(SB), 8, $96
-
-TEXT ·_int16_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA2<>(SB), BP
-
-	WORD $0xf685                 // test    esi, esi
-	JLE  LBB2_1
-	WORD $0x8941; BYTE $0xf1     // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x1f     // cmp    esi, 31
-	JA   LBB2_4
-	LONG $0x00b84166; BYTE $0x80 // mov    r8w, -32768
-	LONG $0x7fffbe66             // mov    si, 32767
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	JMP  LBB2_11
-
-LBB2_1:
-	LONG $0x7fffbe66             // mov    si, 32767
-	LONG $0x00b84166; BYTE $0x80 // mov    r8w, -32768
-	JMP  LBB2_12
-
-LBB2_4:
-	WORD $0x8945; BYTE $0xca     // mov    r10d, r9d
-	LONG $0xe0e28341             // and    r10d, -32
-	LONG $0xe0428d49             // lea    rax, [r10 - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_5
-	WORD $0x894c; BYTE $0xc6     // mov    rsi, r8
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	LONG $0x4d6ffdc5; BYTE $0x00 // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0x456ffdc5; BYTE $0x20 // vmovdqa    ymm0, yword 32[rbp] /* [rip + .LCPI2_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06ffdc5             // vmovdqa    ymm2, ymm0
-	LONG $0xd96ffdc5             // vmovdqa    ymm3, ymm1
-
-LBB2_7:
-	LONG $0x246ffec5; BYTE $0x47   // vmovdqu    ymm4, yword [rdi + 2*rax]
-	LONG $0x6c6ffec5; WORD $0x2047 // vmovdqu    ymm5, yword [rdi + 2*rax + 32]
-	LONG $0x746ffec5; WORD $0x4047 // vmovdqu    ymm6, yword [rdi + 2*rax + 64]
-	LONG $0x7c6ffec5; WORD $0x6047 // vmovdqu    ymm7, yword [rdi + 2*rax + 96]
-	LONG $0xc4eafdc5               // vpminsw    ymm0, ymm0, ymm4
-	LONG $0xd5eaedc5               // vpminsw    ymm2, ymm2, ymm5
-	LONG $0xcceef5c5               // vpmaxsw    ymm1, ymm1, ymm4
-	LONG $0xddeee5c5               // vpmaxsw    ymm3, ymm3, ymm5
-	LONG $0xc6eafdc5               // vpminsw    ymm0, ymm0, ymm6
-	LONG $0xd7eaedc5               // vpminsw    ymm2, ymm2, ymm7
-	LONG $0xceeef5c5               // vpmaxsw    ymm1, ymm1, ymm6
-	LONG $0xdfeee5c5               // vpmaxsw    ymm3, ymm3, ymm7
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB2_10
-
-LBB2_9:
-	LONG $0x246ffec5; BYTE $0x47   // vmovdqu    ymm4, yword [rdi + 2*rax]
-	LONG $0x6c6ffec5; WORD $0x2047 // vmovdqu    ymm5, yword [rdi + 2*rax + 32]
-	LONG $0xddeee5c5               // vpmaxsw    ymm3, ymm3, ymm5
-	LONG $0xcceef5c5               // vpmaxsw    ymm1, ymm1, ymm4
-	LONG $0xd5eaedc5               // vpminsw    ymm2, ymm2, ymm5
-	LONG $0xc4eafdc5               // vpminsw    ymm0, ymm0, ymm4
-
-LBB2_10:
-	LONG $0xcbeef5c5                           // vpmaxsw    ymm1, ymm1, ymm3
-	LONG $0x397de3c4; WORD $0x01cb             // vextracti128    xmm3, ymm1, 1
-	LONG $0xcbeef1c5                           // vpmaxsw    xmm1, xmm1, xmm3
-	LONG $0x4deff1c5; BYTE $0x40               // vpxor    xmm1, xmm1, oword 64[rbp] /* [rip + .LCPI2_2] */
-	LONG $0xc2eafdc5                           // vpminsw    ymm0, ymm0, ymm2
-	LONG $0x4179e2c4; BYTE $0xc9               // vphminposuw    xmm1, xmm1
-	LONG $0x7e79c1c4; BYTE $0xc8               // vmovd    r8d, xmm1
-	LONG $0xfff08141; WORD $0x007f; BYTE $0x00 // xor    r8d, 32767
-	LONG $0x397de3c4; WORD $0x01c1             // vextracti128    xmm1, ymm0, 1
-	LONG $0xc1eaf9c5                           // vpminsw    xmm0, xmm0, xmm1
-	LONG $0x45eff9c5; BYTE $0x50               // vpxor    xmm0, xmm0, oword 80[rbp] /* [rip + .LCPI2_3] */
-	LONG $0x4179e2c4; BYTE $0xc0               // vphminposuw    xmm0, xmm0
-	LONG $0xc67ef9c5                           // vmovd    esi, xmm0
-	LONG $0x8000f681; WORD $0x0000             // xor    esi, 32768
-	WORD $0x394d; BYTE $0xca                   // cmp    r10, r9
-	JE   LBB2_12
-
-LBB2_11:
-	LONG $0x04b70f42; BYTE $0x57 // movzx    eax, word [rdi + 2*r10]
-	WORD $0x3966; BYTE $0xc6     // cmp    si, ax
-	WORD $0x4f0f; BYTE $0xf0     // cmovg    esi, eax
-	LONG $0xc0394166             // cmp    r8w, ax
-	LONG $0xc04c0f44             // cmovl    r8d, eax
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x394d; BYTE $0xd1     // cmp    r9, r10
-	JNE  LBB2_11
-
-LBB2_12:
-	LONG $0x01894466         // mov    word [rcx], r8w
-	WORD $0x8966; BYTE $0x32 // mov    word [rdx], si
-	VZEROUPPER
-	RET
-
-LBB2_5:
-	LONG $0x4d6ffdc5; BYTE $0x00 // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0x456ffdc5; BYTE $0x20 // vmovdqa    ymm0, yword 32[rbp] /* [rip + .LCPI2_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06ffdc5             // vmovdqa    ymm2, ymm0
-	LONG $0xd96ffdc5             // vmovdqa    ymm3, ymm1
-	LONG $0x01c0f641             // test    r8b, 1
-	JNE  LBB2_9
-	JMP  LBB2_10
-
-TEXT ·_uint16_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-
-	WORD $0xf685                 // test    esi, esi
-	JLE  LBB3_1
-	WORD $0x8941; BYTE $0xf1     // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x1f     // cmp    esi, 31
-	JA   LBB3_4
-	LONG $0xffb84166; BYTE $0xff // mov    r8w, -1
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB3_11
-
-LBB3_1:
-	LONG $0xffb84166; BYTE $0xff // mov    r8w, -1
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB3_12
-
-LBB3_4:
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0xe0e28341         // and    r10d, -32
-	LONG $0xe0428d49         // lea    rax, [r10 - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_5
-	WORD $0x894c; BYTE $0xc6 // mov    rsi, r8
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd276edc5         // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xdbefe1c5         // vpxor    xmm3, xmm3, xmm3
-
-LBB3_7:
-	LONG $0x246ffec5; BYTE $0x47   // vmovdqu    ymm4, yword [rdi + 2*rax]
-	LONG $0x6c6ffec5; WORD $0x2047 // vmovdqu    ymm5, yword [rdi + 2*rax + 32]
-	LONG $0x746ffec5; WORD $0x4047 // vmovdqu    ymm6, yword [rdi + 2*rax + 64]
-	LONG $0x7c6ffec5; WORD $0x6047 // vmovdqu    ymm7, yword [rdi + 2*rax + 96]
-	LONG $0x3a75e2c4; BYTE $0xcc   // vpminuw    ymm1, ymm1, ymm4
-	LONG $0x3a6de2c4; BYTE $0xd5   // vpminuw    ymm2, ymm2, ymm5
-	LONG $0x3e7de2c4; BYTE $0xc4   // vpmaxuw    ymm0, ymm0, ymm4
-	LONG $0x3e65e2c4; BYTE $0xdd   // vpmaxuw    ymm3, ymm3, ymm5
-	LONG $0x3a75e2c4; BYTE $0xce   // vpminuw    ymm1, ymm1, ymm6
-	LONG $0x3a6de2c4; BYTE $0xd7   // vpminuw    ymm2, ymm2, ymm7
-	LONG $0x3e7de2c4; BYTE $0xc6   // vpmaxuw    ymm0, ymm0, ymm6
-	LONG $0x3e65e2c4; BYTE $0xdf   // vpmaxuw    ymm3, ymm3, ymm7
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB3_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_10
-
-LBB3_9:
-	LONG $0x246ffec5; BYTE $0x47   // vmovdqu    ymm4, yword [rdi + 2*rax]
-	LONG $0x6c6ffec5; WORD $0x2047 // vmovdqu    ymm5, yword [rdi + 2*rax + 32]
-	LONG $0x3e65e2c4; BYTE $0xdd   // vpmaxuw    ymm3, ymm3, ymm5
-	LONG $0x3e7de2c4; BYTE $0xc4   // vpmaxuw    ymm0, ymm0, ymm4
-	LONG $0x3a6de2c4; BYTE $0xd5   // vpminuw    ymm2, ymm2, ymm5
-	LONG $0x3a75e2c4; BYTE $0xcc   // vpminuw    ymm1, ymm1, ymm4
-
-LBB3_10:
-	LONG $0x3a75e2c4; BYTE $0xca   // vpminuw    ymm1, ymm1, ymm2
-	LONG $0x3e7de2c4; BYTE $0xc3   // vpmaxuw    ymm0, ymm0, ymm3
-	LONG $0x397de3c4; WORD $0x01c2 // vextracti128    xmm2, ymm0, 1
-	LONG $0x3e79e2c4; BYTE $0xc2   // vpmaxuw    xmm0, xmm0, xmm2
-	LONG $0xd276e9c5               // vpcmpeqd    xmm2, xmm2, xmm2
-	LONG $0xc2eff9c5               // vpxor    xmm0, xmm0, xmm2
-	LONG $0x4179e2c4; BYTE $0xc0   // vphminposuw    xmm0, xmm0
-	LONG $0xc67ef9c5               // vmovd    esi, xmm0
-	WORD $0xd6f7                   // not    esi
-	LONG $0x397de3c4; WORD $0x01c8 // vextracti128    xmm0, ymm1, 1
-	LONG $0x3a71e2c4; BYTE $0xc0   // vpminuw    xmm0, xmm1, xmm0
-	LONG $0x4179e2c4; BYTE $0xc0   // vphminposuw    xmm0, xmm0
-	LONG $0x7e79c1c4; BYTE $0xc0   // vmovd    r8d, xmm0
-	WORD $0x394d; BYTE $0xca       // cmp    r10, r9
-	JE   LBB3_12
-
-LBB3_11:
-	LONG $0x04b70f42; BYTE $0x57 // movzx    eax, word [rdi + 2*r10]
-	LONG $0xc0394166             // cmp    r8w, ax
-	LONG $0xc0430f44             // cmovae    r8d, eax
-	WORD $0x3966; BYTE $0xc6     // cmp    si, ax
-	WORD $0x460f; BYTE $0xf0     // cmovbe    esi, eax
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x394d; BYTE $0xd1     // cmp    r9, r10
-	JNE  LBB3_11
-
-LBB3_12:
-	WORD $0x8966; BYTE $0x31 // mov    word [rcx], si
-	LONG $0x02894466         // mov    word [rdx], r8w
-	VZEROUPPER
-	RET
-
-LBB3_5:
-	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
-	LONG $0xc976f5c5 // vpcmpeqd    ymm1, ymm1, ymm1
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xd276edc5 // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xdbefe1c5 // vpxor    xmm3, xmm3, xmm3
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB3_9
-	JMP  LBB3_10
-
-DATA LCDATA3<>+0x000(SB)/8, $0x7fffffff80000000
-GLOBL LCDATA3<>(SB), 8, $8
-
-TEXT ·_int32_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA3<>(SB), BP
-
-	WORD $0xf685                   // test    esi, esi
-	JLE  LBB4_1
-	WORD $0x8941; BYTE $0xf0       // mov    r8d, esi
-	WORD $0xfe83; BYTE $0x1f       // cmp    esi, 31
-	JA   LBB4_4
-	LONG $0x0000ba41; WORD $0x8000 // mov    r10d, -2147483648
-	LONG $0xffffffb8; BYTE $0x7f   // mov    eax, 2147483647
-	WORD $0x3145; BYTE $0xc9       // xor    r9d, r9d
-	JMP  LBB4_7
-
-LBB4_1:
-	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
-	LONG $0x000000be; BYTE $0x80 // mov    esi, -2147483648
-	JMP  LBB4_8
-
-LBB4_4:
-	WORD $0x8945; BYTE $0xc1       // mov    r9d, r8d
-	LONG $0x587de2c4; WORD $0x0065 // vpbroadcastd    ymm4, dword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0xe0e18341               // and    r9d, -32
-	LONG $0x587de2c4; WORD $0x0445 // vpbroadcastd    ymm0, dword 4[rbp] /* [rip + .LCPI4_1] */
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xc86ffdc5               // vmovdqa    ymm1, ymm0
-	LONG $0xd06ffdc5               // vmovdqa    ymm2, ymm0
-	LONG $0xd86ffdc5               // vmovdqa    ymm3, ymm0
-	LONG $0xec6ffdc5               // vmovdqa    ymm5, ymm4
-	LONG $0xf46ffdc5               // vmovdqa    ymm6, ymm4
-	LONG $0xfc6ffdc5               // vmovdqa    ymm7, ymm4
-
-LBB4_5:
-	LONG $0x046f7ec5; BYTE $0x87   // vmovdqu    ymm8, yword [rdi + 4*rax]
-	LONG $0x4c6f7ec5; WORD $0x2087 // vmovdqu    ymm9, yword [rdi + 4*rax + 32]
-	LONG $0x546f7ec5; WORD $0x4087 // vmovdqu    ymm10, yword [rdi + 4*rax + 64]
-	LONG $0x5c6f7ec5; WORD $0x6087 // vmovdqu    ymm11, yword [rdi + 4*rax + 96]
-	LONG $0x397dc2c4; BYTE $0xc0   // vpminsd    ymm0, ymm0, ymm8
-	LONG $0x3975c2c4; BYTE $0xc9   // vpminsd    ymm1, ymm1, ymm9
-	LONG $0x396dc2c4; BYTE $0xd2   // vpminsd    ymm2, ymm2, ymm10
-	LONG $0x3965c2c4; BYTE $0xdb   // vpminsd    ymm3, ymm3, ymm11
-	LONG $0x3d5dc2c4; BYTE $0xe0   // vpmaxsd    ymm4, ymm4, ymm8
-	LONG $0x3d55c2c4; BYTE $0xe9   // vpmaxsd    ymm5, ymm5, ymm9
-	LONG $0x3d4dc2c4; BYTE $0xf2   // vpmaxsd    ymm6, ymm6, ymm10
-	LONG $0x3d45c2c4; BYTE $0xfb   // vpmaxsd    ymm7, ymm7, ymm11
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0x3949; BYTE $0xc1       // cmp    r9, rax
-	JNE  LBB4_5
-	LONG $0x3d5de2c4; BYTE $0xe5   // vpmaxsd    ymm4, ymm4, ymm5
-	LONG $0x3d5de2c4; BYTE $0xe6   // vpmaxsd    ymm4, ymm4, ymm6
-	LONG $0x3d5de2c4; BYTE $0xe7   // vpmaxsd    ymm4, ymm4, ymm7
-	LONG $0x397de3c4; WORD $0x01e5 // vextracti128    xmm5, ymm4, 1
-	LONG $0x3d59e2c4; BYTE $0xe5   // vpmaxsd    xmm4, xmm4, xmm5
-	LONG $0xec70f9c5; BYTE $0x4e   // vpshufd    xmm5, xmm4, 78
-	LONG $0x3d59e2c4; BYTE $0xe5   // vpmaxsd    xmm4, xmm4, xmm5
-	LONG $0xec70f9c5; BYTE $0xe5   // vpshufd    xmm5, xmm4, 229
-	LONG $0x3d59e2c4; BYTE $0xe5   // vpmaxsd    xmm4, xmm4, xmm5
-	LONG $0x7e79c1c4; BYTE $0xe2   // vmovd    r10d, xmm4
-	LONG $0x397de2c4; BYTE $0xc1   // vpminsd    ymm0, ymm0, ymm1
-	LONG $0x397de2c4; BYTE $0xc2   // vpminsd    ymm0, ymm0, ymm2
-	LONG $0x397de2c4; BYTE $0xc3   // vpminsd    ymm0, ymm0, ymm3
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0x3979e2c4; BYTE $0xc1   // vpminsd    xmm0, xmm0, xmm1
-	LONG $0xc870f9c5; BYTE $0x4e   // vpshufd    xmm1, xmm0, 78
-	LONG $0x3979e2c4; BYTE $0xc1   // vpminsd    xmm0, xmm0, xmm1
-	LONG $0xc870f9c5; BYTE $0xe5   // vpshufd    xmm1, xmm0, 229
-	LONG $0x3979e2c4; BYTE $0xc1   // vpminsd    xmm0, xmm0, xmm1
-	LONG $0xc07ef9c5               // vmovd    eax, xmm0
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	WORD $0x394d; BYTE $0xc1       // cmp    r9, r8
-	JE   LBB4_8
-
-LBB4_7:
-	LONG $0x8f348b42         // mov    esi, dword [rdi + 4*r9]
-	WORD $0xf039             // cmp    eax, esi
-	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
-	WORD $0x3941; BYTE $0xf2 // cmp    r10d, esi
-	LONG $0xf24d0f41         // cmovge    esi, r10d
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8941; BYTE $0xf2 // mov    r10d, esi
-	WORD $0x394d; BYTE $0xc8 // cmp    r8, r9
-	JNE  LBB4_7
-
-LBB4_8:
-	WORD $0x3189 // mov    dword [rcx], esi
-	WORD $0x0289 // mov    dword [rdx], eax
-	VZEROUPPER
-	RET
-
-TEXT ·_uint32_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-
-	WORD $0xf685                 // test    esi, esi
-	JLE  LBB5_1
-	WORD $0x8941; BYTE $0xf0     // mov    r8d, esi
-	WORD $0xfe83; BYTE $0x1f     // cmp    esi, 31
-	JA   LBB5_4
-	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
-	LONG $0xffffffb8; BYTE $0xff // mov    eax, -1
-	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
-	JMP  LBB5_7
-
-LBB5_1:
-	LONG $0xffffffb8; BYTE $0xff // mov    eax, -1
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB5_8
-
-LBB5_4:
-	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
-	LONG $0xe0e18341         // and    r9d, -32
-	LONG $0xe4efd9c5         // vpxor    xmm4, xmm4, xmm4
-	LONG $0xc076fdc5         // vpcmpeqd    ymm0, ymm0, ymm0
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
-	LONG $0xd276edc5         // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xdb76e5c5         // vpcmpeqd    ymm3, ymm3, ymm3
-	LONG $0xedefd1c5         // vpxor    xmm5, xmm5, xmm5
-	LONG $0xf6efc9c5         // vpxor    xmm6, xmm6, xmm6
-	LONG $0xffefc1c5         // vpxor    xmm7, xmm7, xmm7
-
-LBB5_5:
-	LONG $0x046f7ec5; BYTE $0x87   // vmovdqu    ymm8, yword [rdi + 4*rax]
-	LONG $0x4c6f7ec5; WORD $0x2087 // vmovdqu    ymm9, yword [rdi + 4*rax + 32]
-	LONG $0x546f7ec5; WORD $0x4087 // vmovdqu    ymm10, yword [rdi + 4*rax + 64]
-	LONG $0x5c6f7ec5; WORD $0x6087 // vmovdqu    ymm11, yword [rdi + 4*rax + 96]
-	LONG $0x3b7dc2c4; BYTE $0xc0   // vpminud    ymm0, ymm0, ymm8
-	LONG $0x3b75c2c4; BYTE $0xc9   // vpminud    ymm1, ymm1, ymm9
-	LONG $0x3b6dc2c4; BYTE $0xd2   // vpminud    ymm2, ymm2, ymm10
-	LONG $0x3b65c2c4; BYTE $0xdb   // vpminud    ymm3, ymm3, ymm11
-	LONG $0x3f5dc2c4; BYTE $0xe0   // vpmaxud    ymm4, ymm4, ymm8
-	LONG $0x3f55c2c4; BYTE $0xe9   // vpmaxud    ymm5, ymm5, ymm9
-	LONG $0x3f4dc2c4; BYTE $0xf2   // vpmaxud    ymm6, ymm6, ymm10
-	LONG $0x3f45c2c4; BYTE $0xfb   // vpmaxud    ymm7, ymm7, ymm11
-	LONG $0x20c08348               // add    rax, 32
-	WORD $0x3949; BYTE $0xc1       // cmp    r9, rax
-	JNE  LBB5_5
-	LONG $0x3f5de2c4; BYTE $0xe5   // vpmaxud    ymm4, ymm4, ymm5
-	LONG $0x3f5de2c4; BYTE $0xe6   // vpmaxud    ymm4, ymm4, ymm6
-	LONG $0x3f5de2c4; BYTE $0xe7   // vpmaxud    ymm4, ymm4, ymm7
-	LONG $0x397de3c4; WORD $0x01e5 // vextracti128    xmm5, ymm4, 1
-	LONG $0x3f59e2c4; BYTE $0xe5   // vpmaxud    xmm4, xmm4, xmm5
-	LONG $0xec70f9c5; BYTE $0x4e   // vpshufd    xmm5, xmm4, 78
-	LONG $0x3f59e2c4; BYTE $0xe5   // vpmaxud    xmm4, xmm4, xmm5
-	LONG $0xec70f9c5; BYTE $0xe5   // vpshufd    xmm5, xmm4, 229
-	LONG $0x3f59e2c4; BYTE $0xe5   // vpmaxud    xmm4, xmm4, xmm5
-	LONG $0x7e79c1c4; BYTE $0xe2   // vmovd    r10d, xmm4
-	LONG $0x3b7de2c4; BYTE $0xc1   // vpminud    ymm0, ymm0, ymm1
-	LONG $0x3b7de2c4; BYTE $0xc2   // vpminud    ymm0, ymm0, ymm2
-	LONG $0x3b7de2c4; BYTE $0xc3   // vpminud    ymm0, ymm0, ymm3
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0x3b79e2c4; BYTE $0xc1   // vpminud    xmm0, xmm0, xmm1
-	LONG $0xc870f9c5; BYTE $0x4e   // vpshufd    xmm1, xmm0, 78
-	LONG $0x3b79e2c4; BYTE $0xc1   // vpminud    xmm0, xmm0, xmm1
-	LONG $0xc870f9c5; BYTE $0xe5   // vpshufd    xmm1, xmm0, 229
-	LONG $0x3b79e2c4; BYTE $0xc1   // vpminud    xmm0, xmm0, xmm1
-	LONG $0xc07ef9c5               // vmovd    eax, xmm0
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	WORD $0x394d; BYTE $0xc1       // cmp    r9, r8
-	JE   LBB5_8
-
-LBB5_7:
-	LONG $0x8f348b42         // mov    esi, dword [rdi + 4*r9]
-	WORD $0xf039             // cmp    eax, esi
-	WORD $0x430f; BYTE $0xc6 // cmovae    eax, esi
-	WORD $0x3941; BYTE $0xf2 // cmp    r10d, esi
-	LONG $0xf2470f41         // cmova    esi, r10d
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8941; BYTE $0xf2 // mov    r10d, esi
-	WORD $0x394d; BYTE $0xc8 // cmp    r8, r9
-	JNE  LBB5_7
-
-LBB5_8:
-	WORD $0x3189 // mov    dword [rcx], esi
-	WORD $0x0289 // mov    dword [rdx], eax
-	VZEROUPPER
-	RET
-
-DATA LCDATA4<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x008(SB)/8, $0x7fffffffffffffff
-GLOBL LCDATA4<>(SB), 8, $16
-
-TEXT ·_int64_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA4<>(SB), BP
-
-	QUAD $0xffffffffffffb848; WORD $0x7fff // mov    rax, 9223372036854775807
-	WORD $0xf685                           // test    esi, esi
-	JLE  LBB6_1
-	WORD $0x8941; BYTE $0xf0               // mov    r8d, esi
-	WORD $0xfe83; BYTE $0x0f               // cmp    esi, 15
-	JA   LBB6_4
-	LONG $0x01508d4c                       // lea    r10, [rax + 1]
-	WORD $0x3145; BYTE $0xc9               // xor    r9d, r9d
-	JMP  LBB6_7
-
-LBB6_1:
-	LONG $0x01708d48 // lea    rsi, [rax + 1]
-	JMP  LBB6_8
-
-LBB6_4:
-	WORD $0x8945; BYTE $0xc1       // mov    r9d, r8d
-	LONG $0x597de2c4; WORD $0x0065 // vpbroadcastq    ymm4, qword 0[rbp] /* [rip + .LCPI6_0] */
-	LONG $0xf0e18341               // and    r9d, -16
-	LONG $0x597de2c4; WORD $0x0845 // vpbroadcastq    ymm0, qword 8[rbp] /* [rip + .LCPI6_1] */
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xd86ffdc5               // vmovdqa    ymm3, ymm0
-	LONG $0xd06ffdc5               // vmovdqa    ymm2, ymm0
-	LONG $0xc86ffdc5               // vmovdqa    ymm1, ymm0
-	LONG $0xfc6ffdc5               // vmovdqa    ymm7, ymm4
-	LONG $0xf46ffdc5               // vmovdqa    ymm6, ymm4
-	LONG $0xec6ffdc5               // vmovdqa    ymm5, ymm4
-
-LBB6_5:
-	LONG $0x046f7ec5; BYTE $0xc7   // vmovdqu    ymm8, yword [rdi + 8*rax]
-	LONG $0x373d62c4; BYTE $0xc8   // vpcmpgtq    ymm9, ymm8, ymm0
-	LONG $0x4b3de3c4; WORD $0x90c0 // vblendvpd    ymm0, ymm8, ymm0, ymm9
-	LONG $0x4c6f7ec5; WORD $0x20c7 // vmovdqu    ymm9, yword [rdi + 8*rax + 32]
-	LONG $0x373562c4; BYTE $0xd3   // vpcmpgtq    ymm10, ymm9, ymm3
-	LONG $0x4b35e3c4; WORD $0xa0db // vblendvpd    ymm3, ymm9, ymm3, ymm10
-	LONG $0x546f7ec5; WORD $0x40c7 // vmovdqu    ymm10, yword [rdi + 8*rax + 64]
-	LONG $0x372d62c4; BYTE $0xda   // vpcmpgtq    ymm11, ymm10, ymm2
-	LONG $0x4b2de3c4; WORD $0xb0d2 // vblendvpd    ymm2, ymm10, ymm2, ymm11
-	LONG $0x5c6f7ec5; WORD $0x60c7 // vmovdqu    ymm11, yword [rdi + 8*rax + 96]
-	LONG $0x372562c4; BYTE $0xe1   // vpcmpgtq    ymm12, ymm11, ymm1
-	LONG $0x4b25e3c4; WORD $0xc0c9 // vblendvpd    ymm1, ymm11, ymm1, ymm12
-	LONG $0x375d42c4; BYTE $0xe0   // vpcmpgtq    ymm12, ymm4, ymm8
-	LONG $0x4b3de3c4; WORD $0xc0e4 // vblendvpd    ymm4, ymm8, ymm4, ymm12
-	LONG $0x374542c4; BYTE $0xc1   // vpcmpgtq    ymm8, ymm7, ymm9
-	LONG $0x4b35e3c4; WORD $0x80ff // vblendvpd    ymm7, ymm9, ymm7, ymm8
-	LONG $0x374d42c4; BYTE $0xc2   // vpcmpgtq    ymm8, ymm6, ymm10
-	LONG $0x4b2de3c4; WORD $0x80f6 // vblendvpd    ymm6, ymm10, ymm6, ymm8
-	LONG $0x375542c4; BYTE $0xc3   // vpcmpgtq    ymm8, ymm5, ymm11
-	LONG $0x4b25e3c4; WORD $0x80ed // vblendvpd    ymm5, ymm11, ymm5, ymm8
-	LONG $0x10c08348               // add    rax, 16
-	WORD $0x3949; BYTE $0xc1       // cmp    r9, rax
-	JNE  LBB6_5
-	LONG $0x375d62c4; BYTE $0xc7   // vpcmpgtq    ymm8, ymm4, ymm7
-	LONG $0x4b45e3c4; WORD $0x80e4 // vblendvpd    ymm4, ymm7, ymm4, ymm8
-	LONG $0x375de2c4; BYTE $0xfe   // vpcmpgtq    ymm7, ymm4, ymm6
-	LONG $0x4b4de3c4; WORD $0x70e4 // vblendvpd    ymm4, ymm6, ymm4, ymm7
-	LONG $0x375de2c4; BYTE $0xf5   // vpcmpgtq    ymm6, ymm4, ymm5
-	LONG $0x4b55e3c4; WORD $0x60e4 // vblendvpd    ymm4, ymm5, ymm4, ymm6
-	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
-	LONG $0x3759e2c4; BYTE $0xf5   // vpcmpgtq    xmm6, xmm4, xmm5
-	LONG $0x4b51e3c4; WORD $0x60e4 // vblendvpd    xmm4, xmm5, xmm4, xmm6
-	LONG $0x0479e3c4; WORD $0x4eec // vpermilps    xmm5, xmm4, 78
-	LONG $0x3759e2c4; BYTE $0xf5   // vpcmpgtq    xmm6, xmm4, xmm5
-	LONG $0x4b51e3c4; WORD $0x60e4 // vblendvpd    xmm4, xmm5, xmm4, xmm6
-	LONG $0x7ef9c1c4; BYTE $0xe2   // vmovq    r10, xmm4
-	LONG $0x3765e2c4; BYTE $0xe0   // vpcmpgtq    ymm4, ymm3, ymm0
-	LONG $0x4b65e3c4; WORD $0x40c0 // vblendvpd    ymm0, ymm3, ymm0, ymm4
-	LONG $0x376de2c4; BYTE $0xd8   // vpcmpgtq    ymm3, ymm2, ymm0
-	LONG $0x4b6de3c4; WORD $0x30c0 // vblendvpd    ymm0, ymm2, ymm0, ymm3
-	LONG $0x3775e2c4; BYTE $0xd0   // vpcmpgtq    ymm2, ymm1, ymm0
-	LONG $0x4b75e3c4; WORD $0x20c0 // vblendvpd    ymm0, ymm1, ymm0, ymm2
-	LONG $0x197de3c4; WORD $0x01c1 // vextractf128    xmm1, ymm0, 1
-	LONG $0x3771e2c4; BYTE $0xd0   // vpcmpgtq    xmm2, xmm1, xmm0
-	LONG $0x4b71e3c4; WORD $0x20c0 // vblendvpd    xmm0, xmm1, xmm0, xmm2
-	LONG $0x0479e3c4; WORD $0x4ec8 // vpermilps    xmm1, xmm0, 78
-	LONG $0x3771e2c4; BYTE $0xd0   // vpcmpgtq    xmm2, xmm1, xmm0
-	LONG $0x4b71e3c4; WORD $0x20c0 // vblendvpd    xmm0, xmm1, xmm0, xmm2
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	WORD $0x894c; BYTE $0xd6       // mov    rsi, r10
-	WORD $0x394d; BYTE $0xc1       // cmp    r9, r8
-	JE   LBB6_8
-
-LBB6_7:
-	LONG $0xcf348b4a         // mov    rsi, qword [rdi + 8*r9]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	LONG $0xc64f0f48         // cmovg    rax, rsi
-	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
-	LONG $0xf24d0f49         // cmovge    rsi, r10
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0x394d; BYTE $0xc8 // cmp    r8, r9
-	JNE  LBB6_7
-
-LBB6_8:
-	WORD $0x8948; BYTE $0x31 // mov    qword [rcx], rsi
-	WORD $0x8948; BYTE $0x02 // mov    qword [rdx], rax
-	VZEROUPPER
-	RET
-
-DATA LCDATA5<>+0x000(SB)/8, $0x8000000000000000
-GLOBL LCDATA5<>(SB), 8, $8
-
-TEXT ·_uint64_max_min_avx2(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA5<>(SB), BP
-
-	WORD $0xf685                               // test    esi, esi
-	JLE  LBB7_1
-	WORD $0x8941; BYTE $0xf0                   // mov    r8d, esi
-	WORD $0xfe83; BYTE $0x0f                   // cmp    esi, 15
-	JA   LBB7_4
-	LONG $0xffc0c748; WORD $0xffff; BYTE $0xff // mov    rax, -1
-	WORD $0x3145; BYTE $0xc9                   // xor    r9d, r9d
-	WORD $0x3145; BYTE $0xd2                   // xor    r10d, r10d
-	JMP  LBB7_7
-
-LBB7_1:
-	LONG $0xffc0c748; WORD $0xffff; BYTE $0xff // mov    rax, -1
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB7_8
-
-LBB7_4:
-	WORD $0x8945; BYTE $0xc1       // mov    r9d, r8d
-	LONG $0xf0e18341               // and    r9d, -16
-	LONG $0xedefd1c5               // vpxor    xmm5, xmm5, xmm5
-	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x597de2c4; WORD $0x0045 // vpbroadcastq    ymm0, qword 0[rbp] /* [rip + .LCPI7_0] */
-	LONG $0xe476ddc5               // vpcmpeqd    ymm4, ymm4, ymm4
-	LONG $0xdb76e5c5               // vpcmpeqd    ymm3, ymm3, ymm3
-	LONG $0xd276edc5               // vpcmpeqd    ymm2, ymm2, ymm2
-	LONG $0xef3941c4; BYTE $0xc0   // vpxor    xmm8, xmm8, xmm8
-	LONG $0xffefc1c5               // vpxor    xmm7, xmm7, xmm7
-	LONG $0xf6efc9c5               // vpxor    xmm6, xmm6, xmm6
-
-LBB7_5:
-	LONG $0x0c6f7ec5; BYTE $0xc7   // vmovdqu    ymm9, yword [rdi + 8*rax]
-	LONG $0xd0ef75c5               // vpxor    ymm10, ymm1, ymm0
-	LONG $0xd8ef35c5               // vpxor    ymm11, ymm9, ymm0
-	LONG $0x372542c4; BYTE $0xd2   // vpcmpgtq    ymm10, ymm11, ymm10
-	LONG $0x4b35e3c4; WORD $0xa0c9 // vblendvpd    ymm1, ymm9, ymm1, ymm10
-	LONG $0xd0ef55c5               // vpxor    ymm10, ymm5, ymm0
-	LONG $0x372d42c4; BYTE $0xd3   // vpcmpgtq    ymm10, ymm10, ymm11
-	LONG $0x4b35e3c4; WORD $0xa0ed // vblendvpd    ymm5, ymm9, ymm5, ymm10
-	LONG $0x4c6f7ec5; WORD $0x20c7 // vmovdqu    ymm9, yword [rdi + 8*rax + 32]
-	LONG $0xd0ef5dc5               // vpxor    ymm10, ymm4, ymm0
-	LONG $0xd8ef35c5               // vpxor    ymm11, ymm9, ymm0
-	LONG $0x372542c4; BYTE $0xd2   // vpcmpgtq    ymm10, ymm11, ymm10
-	LONG $0x4b35e3c4; WORD $0xa0e4 // vblendvpd    ymm4, ymm9, ymm4, ymm10
-	LONG $0xd0ef3dc5               // vpxor    ymm10, ymm8, ymm0
-	LONG $0x372d42c4; BYTE $0xd3   // vpcmpgtq    ymm10, ymm10, ymm11
-	LONG $0x5c6f7ec5; WORD $0x40c7 // vmovdqu    ymm11, yword [rdi + 8*rax + 64]
-	LONG $0x4b3543c4; WORD $0xa0c0 // vblendvpd    ymm8, ymm9, ymm8, ymm10
-	LONG $0xc8ef65c5               // vpxor    ymm9, ymm3, ymm0
-	LONG $0xd0ef25c5               // vpxor    ymm10, ymm11, ymm0
-	LONG $0x372d42c4; BYTE $0xc9   // vpcmpgtq    ymm9, ymm10, ymm9
-	LONG $0x4b25e3c4; WORD $0x90db // vblendvpd    ymm3, ymm11, ymm3, ymm9
-	LONG $0xc8ef45c5               // vpxor    ymm9, ymm7, ymm0
-	LONG $0x373542c4; BYTE $0xca   // vpcmpgtq    ymm9, ymm9, ymm10
-	LONG $0x4b25e3c4; WORD $0x90ff // vblendvpd    ymm7, ymm11, ymm7, ymm9
-	LONG $0x4c6f7ec5; WORD $0x60c7 // vmovdqu    ymm9, yword [rdi + 8*rax + 96]
-	LONG $0xd0ef6dc5               // vpxor    ymm10, ymm2, ymm0
-	LONG $0xd8ef35c5               // vpxor    ymm11, ymm9, ymm0
-	LONG $0x372542c4; BYTE $0xd2   // vpcmpgtq    ymm10, ymm11, ymm10
-	LONG $0x4b35e3c4; WORD $0xa0d2 // vblendvpd    ymm2, ymm9, ymm2, ymm10
-	LONG $0xd0ef4dc5               // vpxor    ymm10, ymm6, ymm0
-	LONG $0x372d42c4; BYTE $0xd3   // vpcmpgtq    ymm10, ymm10, ymm11
-	LONG $0x4b35e3c4; WORD $0xa0f6 // vblendvpd    ymm6, ymm9, ymm6, ymm10
-	LONG $0x10c08348               // add    rax, 16
-	WORD $0x3949; BYTE $0xc1       // cmp    r9, rax
-	JNE  LBB7_5
-	LONG $0xc8ef3dc5               // vpxor    ymm9, ymm8, ymm0
-	LONG $0xd0ef55c5               // vpxor    ymm10, ymm5, ymm0
-	LONG $0x372d42c4; BYTE $0xc9   // vpcmpgtq    ymm9, ymm10, ymm9
-	LONG $0x4b3de3c4; WORD $0x90ed // vblendvpd    ymm5, ymm8, ymm5, ymm9
-	LONG $0xc05755c5               // vxorpd    ymm8, ymm5, ymm0
-	LONG $0xc8ef45c5               // vpxor    ymm9, ymm7, ymm0
-	LONG $0x373d42c4; BYTE $0xc1   // vpcmpgtq    ymm8, ymm8, ymm9
-	LONG $0x4b45e3c4; WORD $0x80ed // vblendvpd    ymm5, ymm7, ymm5, ymm8
-	LONG $0xf857d5c5               // vxorpd    ymm7, ymm5, ymm0
-	LONG $0xc0ef4dc5               // vpxor    ymm8, ymm6, ymm0
-	LONG $0x3745c2c4; BYTE $0xf8   // vpcmpgtq    ymm7, ymm7, ymm8
-	LONG $0x4b4de3c4; WORD $0x70ed // vblendvpd    ymm5, ymm6, ymm5, ymm7
-	LONG $0x197de3c4; WORD $0x01ee // vextractf128    xmm6, ymm5, 1
-	LONG $0xc05749c5               // vxorpd    xmm8, xmm6, xmm0
-	LONG $0xf857d1c5               // vxorpd    xmm7, xmm5, xmm0
-	LONG $0x3741c2c4; BYTE $0xf8   // vpcmpgtq    xmm7, xmm7, xmm8
-	LONG $0x4b49e3c4; WORD $0x70ed // vblendvpd    xmm5, xmm6, xmm5, xmm7
-	LONG $0x0479e3c4; WORD $0x4ef5 // vpermilps    xmm6, xmm5, 78
-	LONG $0xc05751c5               // vxorpd    xmm8, xmm5, xmm0
-	LONG $0xf857c9c5               // vxorpd    xmm7, xmm6, xmm0
-	LONG $0x3739e2c4; BYTE $0xff   // vpcmpgtq    xmm7, xmm8, xmm7
-	LONG $0x4b49e3c4; WORD $0x70ed // vblendvpd    xmm5, xmm6, xmm5, xmm7
-	LONG $0xf0eff5c5               // vpxor    ymm6, ymm1, ymm0
-	LONG $0xf8efddc5               // vpxor    ymm7, ymm4, ymm0
-	LONG $0x3745e2c4; BYTE $0xf6   // vpcmpgtq    ymm6, ymm7, ymm6
-	LONG $0x4b5de3c4; WORD $0x60c9 // vblendvpd    ymm1, ymm4, ymm1, ymm6
-	LONG $0xe057f5c5               // vxorpd    ymm4, ymm1, ymm0
-	LONG $0xf0efe5c5               // vpxor    ymm6, ymm3, ymm0
-	LONG $0x374de2c4; BYTE $0xe4   // vpcmpgtq    ymm4, ymm6, ymm4
-	LONG $0x4b65e3c4; WORD $0x40c9 // vblendvpd    ymm1, ymm3, ymm1, ymm4
-	LONG $0x7ef9c1c4; BYTE $0xea   // vmovq    r10, xmm5
-	LONG $0xd857f5c5               // vxorpd    ymm3, ymm1, ymm0
-	LONG $0xe0efedc5               // vpxor    ymm4, ymm2, ymm0
-	LONG $0x375de2c4; BYTE $0xdb   // vpcmpgtq    ymm3, ymm4, ymm3
-	LONG $0x4b6de3c4; WORD $0x30c9 // vblendvpd    ymm1, ymm2, ymm1, ymm3
-	LONG $0x197de3c4; WORD $0x01ca // vextractf128    xmm2, ymm1, 1
-	LONG $0xd857f1c5               // vxorpd    xmm3, xmm1, xmm0
-	LONG $0xe057e9c5               // vxorpd    xmm4, xmm2, xmm0
-	LONG $0x3759e2c4; BYTE $0xdb   // vpcmpgtq    xmm3, xmm4, xmm3
-	LONG $0x4b69e3c4; WORD $0x30c9 // vblendvpd    xmm1, xmm2, xmm1, xmm3
-	LONG $0x0479e3c4; WORD $0x4ed1 // vpermilps    xmm2, xmm1, 78
-	LONG $0xd857f1c5               // vxorpd    xmm3, xmm1, xmm0
-	LONG $0xc057e9c5               // vxorpd    xmm0, xmm2, xmm0
-	LONG $0x3779e2c4; BYTE $0xc3   // vpcmpgtq    xmm0, xmm0, xmm3
-	LONG $0x4b69e3c4; WORD $0x00c1 // vblendvpd    xmm0, xmm2, xmm1, xmm0
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	WORD $0x894c; BYTE $0xd6       // mov    rsi, r10
-	WORD $0x394d; BYTE $0xc1       // cmp    r9, r8
-	JE   LBB7_8
-
-LBB7_7:
-	LONG $0xcf348b4a         // mov    rsi, qword [rdi + 8*r9]
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	LONG $0xc6430f48         // cmovae    rax, rsi
-	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
-	LONG $0xf2470f49         // cmova    rsi, r10
-	LONG $0x01c18349         // add    r9, 1
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0x394d; BYTE $0xc8 // cmp    r8, r9
-	JNE  LBB7_7
-
-LBB7_8:
-	WORD $0x8948; BYTE $0x31 // mov    qword [rcx], rsi
-	WORD $0x8948; BYTE $0x02 // mov    qword [rdx], rax
-	VZEROUPPER
-	RET
diff --git a/go/internal/utils/min_max_neon_arm64.go b/go/internal/utils/min_max_neon_arm64.go
deleted file mode 100755
index f9d3c44e370cc..0000000000000
--- a/go/internal/utils/min_max_neon_arm64.go
+++ /dev/null
@@ -1,56 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import "unsafe"
-
-// This file contains convenience functions for utilizing Arm64 Neon intrinsics to quickly
-// and efficiently get the min and max from an integral slice.
-
-//go:noescape
-func _int32_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int32MaxMinNEON(values []int32) (min, max int32) {
-	_int32_max_min_neon(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint32_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint32MaxMinNEON(values []uint32) (min, max uint32) {
-	_uint32_max_min_neon(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int64_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int64MaxMinNEON(values []int64) (min, max int64) {
-	_int64_max_min_neon(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint64_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint64MaxMinNEON(values []uint64) (min, max uint64) {
-	_uint64_max_min_neon(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
diff --git a/go/internal/utils/min_max_neon_arm64.s b/go/internal/utils/min_max_neon_arm64.s
deleted file mode 100755
index b679bb6e3888a..0000000000000
--- a/go/internal/utils/min_max_neon_arm64.s
+++ /dev/null
@@ -1,324 +0,0 @@
-//+build !noasm !appengine
-
-// ARROW-15336
-// (C2GOASM doesn't work correctly for Arm64)
-// Partly GENERATED BY asm2plan9s.
-
-
-// func _int32_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-TEXT ·_int32_max_min_neon(SB), $0-32
-
-	MOVD    values+0(FP), R0
-	MOVD    length+8(FP), R1
-	MOVD    minout+16(FP), R2
-	MOVD    maxout+24(FP), R3
-
-	WORD $0xa9bf7bfd // stp x29, x30, [sp, #-16]!
-	WORD $0x7100043f // cmp    w1, #1
-	WORD $0x910003fd // mov    x29, sp
-	BLT LBB0_3
-
-	WORD $0x71000c3f // cmp    w1, #3
-	WORD $0x2a0103e8 // mov    w8, w1
-	BHI LBB0_4
-
-	WORD $0xaa1f03e9 // mov    x9, xzr
-	WORD $0x52b0000b // mov    w11, #-2147483648
-	WORD $0x12b0000a // mov    w10, #2147483647
-	JMP LBB0_7
-LBB0_3:
-	WORD $0x12b0000a // mov    w10, #2147483647
-	WORD $0x52b0000b // mov    w11, #-2147483648
-	WORD $0xb900006b // str    w11, [x3]
-	WORD $0xb900004a // str    w10, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-LBB0_4:
-	WORD $0x927e7509 // and    x9, x8, #0xfffffffc
-	WORD $0x9100200a // add    x10, x0, #8
-	WORD $0x0f046402 // movi    v2.2s, #128, lsl #24
-	WORD $0x2f046400 // mvni    v0.2s, #128, lsl #24
-	WORD $0x2f046401 // mvni    v1.2s, #128, lsl #24
-	WORD $0xaa0903eb // mov    x11, x9
-	WORD $0x0f046403 // movi    v3.2s, #128, lsl #24
-LBB0_5:
-	WORD $0x6d7f9544 // ldp    d4, d5, [x10, #-8]
-	WORD $0xf100116b // subs    x11, x11, #4
-	WORD $0x9100414a // add    x10, x10, #16
-	WORD $0x0ea46c00 // smin    v0.2s, v0.2s, v4.2s
-	WORD $0x0ea56c21 // smin    v1.2s, v1.2s, v5.2s
-	WORD $0x0ea46442 // smax    v2.2s, v2.2s, v4.2s
-	WORD $0x0ea56463 // smax    v3.2s, v3.2s, v5.2s
-	BNE LBB0_5
-
-	WORD $0x0ea36442 // smax    v2.2s, v2.2s, v3.2s
-	WORD $0x0ea16c00 // smin    v0.2s, v0.2s, v1.2s
-	WORD $0x0e0c0441 // dup    v1.2s, v2.s[1]
-	WORD $0x0e0c0403 // dup    v3.2s, v0.s[1]
-	WORD $0x0ea16441 // smax    v1.2s, v2.2s, v1.2s
-	WORD $0x0ea36c00 // smin    v0.2s, v0.2s, v3.2s
-	WORD $0xeb08013f // cmp    x9, x8
-	WORD $0x1e26002b // fmov    w11, s1
-	WORD $0x1e26000a // fmov    w10, s0
-	BEQ LBB0_9
-LBB0_7:
-	WORD $0x8b09080c // add    x12, x0, x9, lsl #2
-	WORD $0xcb090108 // sub    x8, x8, x9
-LBB0_8:
-	WORD $0xb8404589 // ldr    w9, [x12], #4
-	WORD $0x6b09015f // cmp    w10, w9
-	WORD $0x1a89b14a // csel    w10, w10, w9, lt
-	WORD $0x6b09017f // cmp    w11, w9
-	WORD $0x1a89c16b // csel    w11, w11, w9, gt
-	WORD $0xf1000508 // subs    x8, x8, #1
-	BNE LBB0_8
-LBB0_9:
-	WORD $0xb900006b // str    w11, [x3]
-	WORD $0xb900004a // str    w10, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-
-// func _uint32_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-TEXT ·_uint32_max_min_neon(SB), $0-32
-
-	MOVD    values+0(FP), R0
-	MOVD    length+8(FP), R1
-	MOVD    minout+16(FP), R2
-	MOVD    maxout+24(FP), R3
-    
-	WORD $0xa9bf7bfd // stp x29, x30, [sp, #-16]!
-	WORD $0x7100043f // cmp    w1, #1
-	WORD $0x910003fd // mov    x29, sp
-	BLT LBB1_3
-
-	WORD $0x71000c3f // cmp    w1, #3
-	WORD $0x2a0103e8 // mov    w8, w1
-	BHI LBB1_4
-
-	WORD $0xaa1f03e9 // mov    x9, xzr
-	WORD $0x2a1f03ea // mov    w10, wzr
-	WORD $0x1280000b // mov    w11, #-1
-	JMP LBB1_7
-LBB1_3:
-	WORD $0x2a1f03ea // mov    w10, wzr
-	WORD $0x1280000b // mov    w11, #-1
-	WORD $0xb900006a // str    w10, [x3]
-	WORD $0xb900004b // str    w11, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-LBB1_4:
-	WORD $0x927e7509 // and    x9, x8, #0xfffffffc
-	WORD $0x6f00e401 // movi    v1.2d, #0000000000000000
-	WORD $0x6f07e7e0 // movi    v0.2d, #0xffffffffffffffff
-	WORD $0x9100200a // add    x10, x0, #8
-	WORD $0x6f07e7e2 // movi    v2.2d, #0xffffffffffffffff
-	WORD $0xaa0903eb // mov    x11, x9
-	WORD $0x6f00e403 // movi    v3.2d, #0000000000000000
-LBB1_5:
-	WORD $0x6d7f9544 // ldp    d4, d5, [x10, #-8]
-	WORD $0xf100116b // subs    x11, x11, #4
-	WORD $0x9100414a // add    x10, x10, #16
-	WORD $0x2ea46c00 // umin    v0.2s, v0.2s, v4.2s
-	WORD $0x2ea56c42 // umin    v2.2s, v2.2s, v5.2s
-	WORD $0x2ea46421 // umax    v1.2s, v1.2s, v4.2s
-	WORD $0x2ea56463 // umax    v3.2s, v3.2s, v5.2s
-	BNE LBB1_5
-
-	WORD $0x2ea36421 // umax    v1.2s, v1.2s, v3.2s
-	WORD $0x2ea26c00 // umin    v0.2s, v0.2s, v2.2s
-	WORD $0x0e0c0422 // dup    v2.2s, v1.s[1]
-	WORD $0x0e0c0403 // dup    v3.2s, v0.s[1]
-	WORD $0x2ea26421 // umax    v1.2s, v1.2s, v2.2s
-	WORD $0x2ea36c00 // umin    v0.2s, v0.2s, v3.2s
-	WORD $0xeb08013f // cmp    x9, x8
-	WORD $0x1e26002a // fmov    w10, s1
-	WORD $0x1e26000b // fmov    w11, s0
-	BEQ LBB1_9
-LBB1_7:
-	WORD $0x8b09080c // add    x12, x0, x9, lsl #2
-	WORD $0xcb090108 // sub    x8, x8, x9
-LBB1_8:
-	WORD $0xb8404589 // ldr    w9, [x12], #4
-	WORD $0x6b09017f // cmp    w11, w9
-	WORD $0x1a89316b // csel    w11, w11, w9, lo
-	WORD $0x6b09015f // cmp    w10, w9
-	WORD $0x1a89814a // csel    w10, w10, w9, hi
-	WORD $0xf1000508 // subs    x8, x8, #1
-	BNE LBB1_8
-LBB1_9:
-	WORD $0xb900006a // str    w10, [x3]
-	WORD $0xb900004b // str    w11, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-
-// func _int64_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-TEXT ·_int64_max_min_neon(SB), $0-32
-
-        MOVD    values+0(FP), R0
-        MOVD    length+8(FP), R1
-        MOVD    minout+16(FP), R2
-        MOVD    maxout+24(FP), R3
-
-	WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
-	WORD $0x7100043f // cmp    w1, #1
-	WORD $0x910003fd // mov    x29, sp
-	BLT LBB2_3
-
-	WORD $0x2a0103e8 // mov    w8, w1
-	WORD $0xd2f0000b // mov    x11, #-9223372036854775808
-	WORD $0x71000c3f // cmp    w1, #3
-	WORD $0x92f0000a // mov    x10, #9223372036854775807
-	BHI LBB2_4
-
-	WORD $0xaa1f03e9 // mov    x9, xzr
-	JMP LBB2_7
-LBB2_3:
-	WORD $0x92f0000a // mov    x10, #9223372036854775807
-	WORD $0xd2f0000b // mov    x11, #-9223372036854775808
-	WORD $0xf900006b // str    x11, [x3]
-	WORD $0xf900004a // str    x10, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-LBB2_4:
-	WORD $0x927e7509 // and    x9, x8, #0xfffffffc
-	WORD $0x4e080d61 // dup    v1.2d, x11
-	WORD $0x4e080d40 // dup    v0.2d, x10
-	WORD $0x9100400a // add    x10, x0, #16
-	WORD $0xaa0903eb // mov    x11, x9
-	WORD $0x4ea01c02 // mov    v2.16b, v0.16b
-	WORD $0x4ea11c23 // mov    v3.16b, v1.16b
-LBB2_5:
-	WORD $0xad7f9544 // ldp    q4, q5, [x10, #-16]
-	WORD $0x4ea31c66 // mov    v6.16b, v3.16b
-	WORD $0x4ea11c27 // mov    v7.16b, v1.16b
-	WORD $0x4ea21c43 // mov    v3.16b, v2.16b
-	WORD $0x4ea01c01 // mov    v1.16b, v0.16b
-	WORD $0x4ee03480 // cmgt    v0.2d, v4.2d, v0.2d
-	WORD $0x4ee234a2 // cmgt    v2.2d, v5.2d, v2.2d
-	WORD $0x6e641c20 // bsl    v0.16b, v1.16b, v4.16b
-	WORD $0x4ee434e1 // cmgt    v1.2d, v7.2d, v4.2d
-	WORD $0x6e651c62 // bsl    v2.16b, v3.16b, v5.16b
-	WORD $0x4ee534c3 // cmgt    v3.2d, v6.2d, v5.2d
-	WORD $0xf100116b // subs    x11, x11, #4
-	WORD $0x6e641ce1 // bsl    v1.16b, v7.16b, v4.16b
-	WORD $0x6e651cc3 // bsl    v3.16b, v6.16b, v5.16b
-	WORD $0x9100814a // add    x10, x10, #32
-	BNE LBB2_5
-
-	WORD $0x4ee33424 // cmgt    v4.2d, v1.2d, v3.2d
-	WORD $0x4ee03445 // cmgt    v5.2d, v2.2d, v0.2d
-	WORD $0x6e631c24 // bsl    v4.16b, v1.16b, v3.16b
-	WORD $0x6e621c05 // bsl    v5.16b, v0.16b, v2.16b
-	WORD $0x4e180480 // dup    v0.2d, v4.d[1]
-	WORD $0x4e1804a1 // dup    v1.2d, v5.d[1]
-	WORD $0x4ee03482 // cmgt    v2.2d, v4.2d, v0.2d
-	WORD $0x4ee53423 // cmgt    v3.2d, v1.2d, v5.2d
-	WORD $0x6e601c82 // bsl    v2.16b, v4.16b, v0.16b
-	WORD $0x6e611ca3 // bsl    v3.16b, v5.16b, v1.16b
-	WORD $0xeb08013f // cmp    x9, x8
-	WORD $0x9e66004b // fmov    x11, d2
-	WORD $0x9e66006a // fmov    x10, d3
-	BEQ LBB2_9
-LBB2_7:
-	WORD $0x8b090c0c // add    x12, x0, x9, lsl #3
-	WORD $0xcb090108 // sub    x8, x8, x9
-LBB2_8:
-	WORD $0xf8408589 // ldr    x9, [x12], #8
-	WORD $0xeb09015f // cmp    x10, x9
-	WORD $0x9a89b14a // csel    x10, x10, x9, lt
-	WORD $0xeb09017f // cmp    x11, x9
-	WORD $0x9a89c16b // csel    x11, x11, x9, gt
-	WORD $0xf1000508 // subs    x8, x8, #1
-	BNE LBB2_8
-LBB2_9:
-	WORD $0xf900006b // str    x11, [x3]
-	WORD $0xf900004a // str    x10, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-
-
-// func _uint64_max_min_neon(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-TEXT ·_uint64_max_min_neon(SB), $0-32
-
-        MOVD    values+0(FP), R0
-        MOVD    length+8(FP), R1
-        MOVD    minout+16(FP), R2
-        MOVD    maxout+24(FP), R3
-
-	WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
-	WORD $0x7100043f // cmp    w1, #1
-	WORD $0x910003fd // mov    x29, sp
-	BLT LBB3_3
-
-	WORD $0x71000c3f // cmp    w1, #3
-	WORD $0x2a0103e8 // mov    w8, w1
-	BHI LBB3_4
-
-	WORD $0xaa1f03e9 // mov    x9, xzr
-	WORD $0xaa1f03ea // mov    x10, xzr
-	WORD $0x9280000b // mov    x11, #-1
-	JMP LBB3_7
-LBB3_3:
-	WORD $0xaa1f03ea // mov    x10, xzr
-	WORD $0x9280000b // mov    x11, #-1
-	WORD $0xf900006a // str    x10, [x3]
-	WORD $0xf900004b // str    x11, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-LBB3_4:
-	WORD $0x927e7509 // and    x9, x8, #0xfffffffc
-	WORD $0x9100400a // add    x10, x0, #16
-	WORD $0x6f00e401 // movi    v1.2d, #0000000000000000
-	WORD $0x6f07e7e0 // movi    v0.2d, #0xffffffffffffffff
-	WORD $0x6f07e7e2 // movi    v2.2d, #0xffffffffffffffff
-	WORD $0xaa0903eb // mov    x11, x9
-	WORD $0x6f00e403 // movi    v3.2d, #0000000000000000
-LBB3_5:
-	WORD $0xad7f9544 // ldp    q4, q5, [x10, #-16]
-	WORD $0x4ea31c66 // mov    v6.16b, v3.16b
-	WORD $0x4ea11c27 // mov    v7.16b, v1.16b
-	WORD $0x4ea21c43 // mov    v3.16b, v2.16b
-	WORD $0x4ea01c01 // mov    v1.16b, v0.16b
-	WORD $0x6ee03480 // cmhi    v0.2d, v4.2d, v0.2d
-	WORD $0x6ee234a2 // cmhi    v2.2d, v5.2d, v2.2d
-	WORD $0x6e641c20 // bsl    v0.16b, v1.16b, v4.16b
-	WORD $0x6ee434e1 // cmhi    v1.2d, v7.2d, v4.2d
-	WORD $0x6e651c62 // bsl    v2.16b, v3.16b, v5.16b
-	WORD $0x6ee534c3 // cmhi    v3.2d, v6.2d, v5.2d
-	WORD $0xf100116b // subs    x11, x11, #4
-	WORD $0x6e641ce1 // bsl    v1.16b, v7.16b, v4.16b
-	WORD $0x6e651cc3 // bsl    v3.16b, v6.16b, v5.16b
-	WORD $0x9100814a // add    x10, x10, #32
-	BNE LBB3_5
-
-	WORD $0x6ee33424 // cmhi    v4.2d, v1.2d, v3.2d
-	WORD $0x6ee03445 // cmhi    v5.2d, v2.2d, v0.2d
-	WORD $0x6e631c24 // bsl    v4.16b, v1.16b, v3.16b
-	WORD $0x6e621c05 // bsl    v5.16b, v0.16b, v2.16b
-	WORD $0x4e180480 // dup    v0.2d, v4.d[1]
-	WORD $0x4e1804a1 // dup    v1.2d, v5.d[1]
-	WORD $0x6ee03482 // cmhi    v2.2d, v4.2d, v0.2d
-	WORD $0x6ee53423 // cmhi    v3.2d, v1.2d, v5.2d
-	WORD $0x6e601c82 // bsl    v2.16b, v4.16b, v0.16b
-	WORD $0x6e611ca3 // bsl    v3.16b, v5.16b, v1.16b
-	WORD $0xeb08013f // cmp    x9, x8
-	WORD $0x9e66004a // fmov    x10, d2
-	WORD $0x9e66006b // fmov    x11, d3
-	BEQ LBB3_9
-LBB3_7:
-	WORD $0x8b090c0c // add    x12, x0, x9, lsl #3
-	WORD $0xcb090108 // sub    x8, x8, x9
-LBB3_8:
-	WORD $0xf8408589 // ldr    x9, [x12], #8
-	WORD $0xeb09017f // cmp    x11, x9
-	WORD $0x9a89316b // csel    x11, x11, x9, lo
-	WORD $0xeb09015f // cmp    x10, x9
-	WORD $0x9a89814a // csel    x10, x10, x9, hi
-	WORD $0xf1000508 // subs    x8, x8, #1
-	BNE LBB3_8
-LBB3_9:
-	WORD $0xf900006a // str    x10, [x3]
-	WORD $0xf900004b // str    x11, [x2]
-	WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-	RET
-
diff --git a/go/internal/utils/min_max_noasm.go b/go/internal/utils/min_max_noasm.go
deleted file mode 100644
index 625f0ea3b01f8..0000000000000
--- a/go/internal/utils/min_max_noasm.go
+++ /dev/null
@@ -1,31 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm || (!amd64 && !arm64 && !s390x && !ppc64le)
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-func init() {
-	minmaxFuncs.i8 = int8MinMax
-	minmaxFuncs.ui8 = uint8MinMax
-	minmaxFuncs.i16 = int16MinMax
-	minmaxFuncs.ui16 = uint16MinMax
-	minmaxFuncs.i32 = int32MinMax
-	minmaxFuncs.ui32 = uint32MinMax
-	minmaxFuncs.i64 = int64MinMax
-	minmaxFuncs.ui64 = uint64MinMax
-}
diff --git a/go/internal/utils/min_max_ppc64le.go b/go/internal/utils/min_max_ppc64le.go
deleted file mode 100644
index ffd2db006dcd4..0000000000000
--- a/go/internal/utils/min_max_ppc64le.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-func init() {
-	minmaxFuncs.i8 = int8MinMax
-	minmaxFuncs.ui8 = uint8MinMax
-	minmaxFuncs.i16 = int16MinMax
-	minmaxFuncs.ui16 = uint16MinMax
-	minmaxFuncs.i32 = int32MinMax
-	minmaxFuncs.ui32 = uint32MinMax
-	minmaxFuncs.i64 = int64MinMax
-	minmaxFuncs.ui64 = uint64MinMax
-}
diff --git a/go/internal/utils/min_max_s390x.go b/go/internal/utils/min_max_s390x.go
deleted file mode 100644
index ffd2db006dcd4..0000000000000
--- a/go/internal/utils/min_max_s390x.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-func init() {
-	minmaxFuncs.i8 = int8MinMax
-	minmaxFuncs.ui8 = uint8MinMax
-	minmaxFuncs.i16 = int16MinMax
-	minmaxFuncs.ui16 = uint16MinMax
-	minmaxFuncs.i32 = int32MinMax
-	minmaxFuncs.ui32 = uint32MinMax
-	minmaxFuncs.i64 = int64MinMax
-	minmaxFuncs.ui64 = uint64MinMax
-}
diff --git a/go/internal/utils/min_max_sse4_amd64.go b/go/internal/utils/min_max_sse4_amd64.go
deleted file mode 100644
index 1e12a8d178655..0000000000000
--- a/go/internal/utils/min_max_sse4_amd64.go
+++ /dev/null
@@ -1,88 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import "unsafe"
-
-// This file contains convenience functions for utilizing SSE4 intrinsics to quickly
-// and efficiently get the min and max from an integral slice.
-
-//go:noescape
-func _int8_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int8MaxMinSSE4(values []int8) (min, max int8) {
-	_int8_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint8_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint8MaxMinSSE4(values []uint8) (min, max uint8) {
-	_uint8_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int16_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int16MaxMinSSE4(values []int16) (min, max int16) {
-	_int16_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint16_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint16MaxMinSSE4(values []uint16) (min, max uint16) {
-	_uint16_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int32_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int32MaxMinSSE4(values []int32) (min, max int32) {
-	_int32_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint32_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint32MaxMinSSE4(values []uint32) (min, max uint32) {
-	_uint32_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _int64_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func int64MaxMinSSE4(values []int64) (min, max int64) {
-	_int64_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
-
-//go:noescape
-func _uint64_max_min_sse4(values unsafe.Pointer, length int, minout, maxout unsafe.Pointer)
-
-func uint64MaxMinSSE4(values []uint64) (min, max uint64) {
-	_uint64_max_min_sse4(unsafe.Pointer(&values[0]), len(values), unsafe.Pointer(&min), unsafe.Pointer(&max))
-	return
-}
diff --git a/go/internal/utils/min_max_sse4_amd64.s b/go/internal/utils/min_max_sse4_amd64.s
deleted file mode 100644
index 8f1eccf60b49e..0000000000000
--- a/go/internal/utils/min_max_sse4_amd64.s
+++ /dev/null
@@ -1,1044 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x008(SB)/8, $0x8080808080808080
-DATA LCDATA1<>+0x010(SB)/8, $0x7f7f7f7f7f7f7f7f
-DATA LCDATA1<>+0x018(SB)/8, $0x7f7f7f7f7f7f7f7f
-GLOBL LCDATA1<>(SB), 8, $32
-
-TEXT ·_int8_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB0_1
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x1f // cmp    esi, 31
-	JA   LBB0_4
-	WORD $0xb041; BYTE $0x80 // mov    r8b, -128
-	WORD $0xb640; BYTE $0x7f // mov    sil, 127
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	JMP  LBB0_11
-
-LBB0_1:
-	WORD $0xb640; BYTE $0x7f // mov    sil, 127
-	WORD $0xb041; BYTE $0x80 // mov    r8b, -128
-	JMP  LBB0_12
-
-LBB0_4:
-	WORD $0x8945; BYTE $0xcb     // mov    r11d, r9d
-	LONG $0xe0e38341             // and    r11d, -32
-	LONG $0xe0438d49             // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x05e8c149             // shr    r8, 5
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB0_5
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	LONG $0x4d6f0f66; BYTE $0x00 // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI0_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd96f0f66             // movdqa    xmm3, xmm1
-
-LBB0_7:
-	LONG $0x246f0ff3; BYTE $0x07   // movdqu    xmm4, oword [rdi + rax]
-	LONG $0x6c6f0ff3; WORD $0x1007 // movdqu    xmm5, oword [rdi + rax + 16]
-	LONG $0x746f0ff3; WORD $0x2007 // movdqu    xmm6, oword [rdi + rax + 32]
-	LONG $0x7c6f0ff3; WORD $0x3007 // movdqu    xmm7, oword [rdi + rax + 48]
-	LONG $0x38380f66; BYTE $0xc4   // pminsb    xmm0, xmm4
-	LONG $0x38380f66; BYTE $0xd5   // pminsb    xmm2, xmm5
-	LONG $0x3c380f66; BYTE $0xcc   // pmaxsb    xmm1, xmm4
-	LONG $0x3c380f66; BYTE $0xdd   // pmaxsb    xmm3, xmm5
-	LONG $0x38380f66; BYTE $0xc6   // pminsb    xmm0, xmm6
-	LONG $0x38380f66; BYTE $0xd7   // pminsb    xmm2, xmm7
-	LONG $0x3c380f66; BYTE $0xce   // pmaxsb    xmm1, xmm6
-	LONG $0x3c380f66; BYTE $0xdf   // pmaxsb    xmm3, xmm7
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB0_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB0_10
-
-LBB0_9:
-	LONG $0x246f0ff3; BYTE $0x07   // movdqu    xmm4, oword [rdi + rax]
-	LONG $0x6c6f0ff3; WORD $0x1007 // movdqu    xmm5, oword [rdi + rax + 16]
-	LONG $0x3c380f66; BYTE $0xdd   // pmaxsb    xmm3, xmm5
-	LONG $0x3c380f66; BYTE $0xcc   // pmaxsb    xmm1, xmm4
-	LONG $0x38380f66; BYTE $0xd5   // pminsb    xmm2, xmm5
-	LONG $0x38380f66; BYTE $0xc4   // pminsb    xmm0, xmm4
-
-LBB0_10:
-	LONG $0x38380f66; BYTE $0xc2 // pminsb    xmm0, xmm2
-	LONG $0x3c380f66; BYTE $0xcb // pmaxsb    xmm1, xmm3
-	LONG $0x4def0f66; BYTE $0x10 // pxor    xmm1, oword 16[rbp] /* [rip + .LCPI0_1] */
-	LONG $0xd16f0f66             // movdqa    xmm2, xmm1
-	LONG $0xd2710f66; BYTE $0x08 // psrlw    xmm2, 8
-	LONG $0xd1da0f66             // pminub    xmm2, xmm1
-	LONG $0x41380f66; BYTE $0xca // phminposuw    xmm1, xmm2
-	LONG $0x7e0f4166; BYTE $0xc8 // movd    r8d, xmm1
-	LONG $0x7ff08041             // xor    r8b, 127
-	LONG $0x45ef0f66; BYTE $0x00 // pxor    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0xc86f0f66             // movdqa    xmm1, xmm0
-	LONG $0xd1710f66; BYTE $0x08 // psrlw    xmm1, 8
-	LONG $0xc8da0f66             // pminub    xmm1, xmm0
-	LONG $0x41380f66; BYTE $0xc1 // phminposuw    xmm0, xmm1
-	LONG $0xc67e0f66             // movd    esi, xmm0
-	LONG $0x80f68040             // xor    sil, -128
-	WORD $0x394d; BYTE $0xcb     // cmp    r11, r9
-	JE   LBB0_12
-
-LBB0_11:
-	LONG $0x04b60f42; BYTE $0x1f // movzx    eax, byte [rdi + r11]
-	WORD $0x3840; BYTE $0xc6     // cmp    sil, al
-	LONG $0xf6b60f40             // movzx    esi, sil
-	WORD $0x4f0f; BYTE $0xf0     // cmovg    esi, eax
-	WORD $0x3841; BYTE $0xc0     // cmp    r8b, al
-	LONG $0xc0b60f45             // movzx    r8d, r8b
-	LONG $0xc04c0f44             // cmovl    r8d, eax
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB0_11
-
-LBB0_12:
-	WORD $0x8844; BYTE $0x01 // mov    byte [rcx], r8b
-	WORD $0x8840; BYTE $0x32 // mov    byte [rdx], sil
-	RET
-
-LBB0_5:
-	LONG $0x4d6f0f66; BYTE $0x00 // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI0_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd96f0f66             // movdqa    xmm3, xmm1
-	LONG $0x01c0f641             // test    r8b, 1
-	JNE  LBB0_9
-	JMP  LBB0_10
-
-TEXT ·_uint8_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB1_1
-	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x1f // cmp    esi, 31
-	JA   LBB1_4
-	WORD $0xb640; BYTE $0xff // mov    sil, -1
-	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB1_11
-
-LBB1_1:
-	WORD $0xb640; BYTE $0xff // mov    sil, -1
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB1_12
-
-LBB1_4:
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0xe0e38341         // and    r11d, -32
-	LONG $0xe0438d49         // lea    rax, [r11 - 32]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x05e8c149         // shr    r8, 5
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB1_5
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	LONG $0xc9ef0f66         // pxor    xmm1, xmm1
-	LONG $0xc0760f66         // pcmpeqd    xmm0, xmm0
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2760f66         // pcmpeqd    xmm2, xmm2
-	LONG $0xdbef0f66         // pxor    xmm3, xmm3
-
-LBB1_7:
-	LONG $0x246f0ff3; BYTE $0x07   // movdqu    xmm4, oword [rdi + rax]
-	LONG $0x6c6f0ff3; WORD $0x1007 // movdqu    xmm5, oword [rdi + rax + 16]
-	LONG $0x746f0ff3; WORD $0x2007 // movdqu    xmm6, oword [rdi + rax + 32]
-	LONG $0x7c6f0ff3; WORD $0x3007 // movdqu    xmm7, oword [rdi + rax + 48]
-	LONG $0xc4da0f66               // pminub    xmm0, xmm4
-	LONG $0xd5da0f66               // pminub    xmm2, xmm5
-	LONG $0xccde0f66               // pmaxub    xmm1, xmm4
-	LONG $0xddde0f66               // pmaxub    xmm3, xmm5
-	LONG $0xc6da0f66               // pminub    xmm0, xmm6
-	LONG $0xd7da0f66               // pminub    xmm2, xmm7
-	LONG $0xcede0f66               // pmaxub    xmm1, xmm6
-	LONG $0xdfde0f66               // pmaxub    xmm3, xmm7
-	LONG $0x40c08348               // add    rax, 64
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB1_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB1_10
-
-LBB1_9:
-	LONG $0x246f0ff3; BYTE $0x07   // movdqu    xmm4, oword [rdi + rax]
-	LONG $0x6c6f0ff3; WORD $0x1007 // movdqu    xmm5, oword [rdi + rax + 16]
-	LONG $0xddde0f66               // pmaxub    xmm3, xmm5
-	LONG $0xccde0f66               // pmaxub    xmm1, xmm4
-	LONG $0xd5da0f66               // pminub    xmm2, xmm5
-	LONG $0xc4da0f66               // pminub    xmm0, xmm4
-
-LBB1_10:
-	LONG $0xc2da0f66             // pminub    xmm0, xmm2
-	LONG $0xcbde0f66             // pmaxub    xmm1, xmm3
-	LONG $0xd2760f66             // pcmpeqd    xmm2, xmm2
-	LONG $0xd1ef0f66             // pxor    xmm2, xmm1
-	LONG $0xca6f0f66             // movdqa    xmm1, xmm2
-	LONG $0xd1710f66; BYTE $0x08 // psrlw    xmm1, 8
-	LONG $0xcada0f66             // pminub    xmm1, xmm2
-	LONG $0x41380f66; BYTE $0xc9 // phminposuw    xmm1, xmm1
-	LONG $0xc87e0f66             // movd    eax, xmm1
-	WORD $0xd0f6                 // not    al
-	LONG $0xc86f0f66             // movdqa    xmm1, xmm0
-	LONG $0xd1710f66; BYTE $0x08 // psrlw    xmm1, 8
-	LONG $0xc8da0f66             // pminub    xmm1, xmm0
-	LONG $0x41380f66; BYTE $0xc1 // phminposuw    xmm0, xmm1
-	LONG $0xc67e0f66             // movd    esi, xmm0
-	WORD $0x394d; BYTE $0xcb     // cmp    r11, r9
-	JE   LBB1_12
-
-LBB1_11:
-	LONG $0x04b60f46; BYTE $0x1f // movzx    r8d, byte [rdi + r11]
-	WORD $0x3844; BYTE $0xc6     // cmp    sil, r8b
-	LONG $0xf6b60f40             // movzx    esi, sil
-	LONG $0xf0430f41             // cmovae    esi, r8d
-	WORD $0x3844; BYTE $0xc0     // cmp    al, r8b
-	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
-	LONG $0xc0460f41             // cmovbe    eax, r8d
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB1_11
-
-LBB1_12:
-	WORD $0x0188             // mov    byte [rcx], al
-	WORD $0x8840; BYTE $0x32 // mov    byte [rdx], sil
-	RET
-
-LBB1_5:
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-	LONG $0xc0760f66 // pcmpeqd    xmm0, xmm0
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xd2760f66 // pcmpeqd    xmm2, xmm2
-	LONG $0xdbef0f66 // pxor    xmm3, xmm3
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB1_9
-	JMP  LBB1_10
-
-DATA LCDATA2<>+0x000(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x008(SB)/8, $0x8000800080008000
-DATA LCDATA2<>+0x010(SB)/8, $0x7fff7fff7fff7fff
-DATA LCDATA2<>+0x018(SB)/8, $0x7fff7fff7fff7fff
-GLOBL LCDATA2<>(SB), 8, $32
-
-TEXT ·_int16_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA2<>(SB), BP
-
-	WORD $0xf685                 // test    esi, esi
-	JLE  LBB2_1
-	WORD $0x8941; BYTE $0xf1     // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x0f     // cmp    esi, 15
-	JA   LBB2_4
-	LONG $0x00b84166; BYTE $0x80 // mov    r8w, -32768
-	LONG $0x7fffbe66             // mov    si, 32767
-	WORD $0x3145; BYTE $0xdb     // xor    r11d, r11d
-	JMP  LBB2_11
-
-LBB2_1:
-	LONG $0x7fffbe66             // mov    si, 32767
-	LONG $0x00b84166; BYTE $0x80 // mov    r8w, -32768
-	JMP  LBB2_12
-
-LBB2_4:
-	WORD $0x8945; BYTE $0xcb     // mov    r11d, r9d
-	LONG $0xf0e38341             // and    r11d, -16
-	LONG $0xf0438d49             // lea    rax, [r11 - 16]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x04e8c149             // shr    r8, 4
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_5
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	LONG $0x4d6f0f66; BYTE $0x00 // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI2_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd96f0f66             // movdqa    xmm3, xmm1
-
-LBB2_7:
-	LONG $0x246f0ff3; BYTE $0x47   // movdqu    xmm4, oword [rdi + 2*rax]
-	LONG $0x6c6f0ff3; WORD $0x1047 // movdqu    xmm5, oword [rdi + 2*rax + 16]
-	LONG $0x746f0ff3; WORD $0x2047 // movdqu    xmm6, oword [rdi + 2*rax + 32]
-	LONG $0x7c6f0ff3; WORD $0x3047 // movdqu    xmm7, oword [rdi + 2*rax + 48]
-	LONG $0xc4ea0f66               // pminsw    xmm0, xmm4
-	LONG $0xd5ea0f66               // pminsw    xmm2, xmm5
-	LONG $0xccee0f66               // pmaxsw    xmm1, xmm4
-	LONG $0xddee0f66               // pmaxsw    xmm3, xmm5
-	LONG $0xc6ea0f66               // pminsw    xmm0, xmm6
-	LONG $0xd7ea0f66               // pminsw    xmm2, xmm7
-	LONG $0xceee0f66               // pmaxsw    xmm1, xmm6
-	LONG $0xdfee0f66               // pmaxsw    xmm3, xmm7
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB2_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB2_10
-
-LBB2_9:
-	LONG $0x246f0ff3; BYTE $0x47   // movdqu    xmm4, oword [rdi + 2*rax]
-	LONG $0x6c6f0ff3; WORD $0x1047 // movdqu    xmm5, oword [rdi + 2*rax + 16]
-	LONG $0xddee0f66               // pmaxsw    xmm3, xmm5
-	LONG $0xccee0f66               // pmaxsw    xmm1, xmm4
-	LONG $0xd5ea0f66               // pminsw    xmm2, xmm5
-	LONG $0xc4ea0f66               // pminsw    xmm0, xmm4
-
-LBB2_10:
-	LONG $0xc2ea0f66                           // pminsw    xmm0, xmm2
-	LONG $0xcbee0f66                           // pmaxsw    xmm1, xmm3
-	LONG $0x4def0f66; BYTE $0x10               // pxor    xmm1, oword 16[rbp] /* [rip + .LCPI2_1] */
-	LONG $0x41380f66; BYTE $0xc9               // phminposuw    xmm1, xmm1
-	LONG $0x7e0f4166; BYTE $0xc8               // movd    r8d, xmm1
-	LONG $0xfff08141; WORD $0x007f; BYTE $0x00 // xor    r8d, 32767
-	LONG $0x45ef0f66; BYTE $0x00               // pxor    xmm0, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0x41380f66; BYTE $0xc0               // phminposuw    xmm0, xmm0
-	LONG $0xc67e0f66                           // movd    esi, xmm0
-	LONG $0x8000f681; WORD $0x0000             // xor    esi, 32768
-	WORD $0x394d; BYTE $0xcb                   // cmp    r11, r9
-	JE   LBB2_12
-
-LBB2_11:
-	LONG $0x04b70f42; BYTE $0x5f // movzx    eax, word [rdi + 2*r11]
-	WORD $0x3966; BYTE $0xc6     // cmp    si, ax
-	WORD $0x4f0f; BYTE $0xf0     // cmovg    esi, eax
-	LONG $0xc0394166             // cmp    r8w, ax
-	LONG $0xc04c0f44             // cmovl    r8d, eax
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB2_11
-
-LBB2_12:
-	LONG $0x01894466         // mov    word [rcx], r8w
-	WORD $0x8966; BYTE $0x32 // mov    word [rdx], si
-	RET
-
-LBB2_5:
-	LONG $0x4d6f0f66; BYTE $0x00 // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI2_0] */
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI2_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd96f0f66             // movdqa    xmm3, xmm1
-	LONG $0x01c0f641             // test    r8b, 1
-	JNE  LBB2_9
-	JMP  LBB2_10
-
-TEXT ·_uint16_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-
-	WORD $0xf685                 // test    esi, esi
-	JLE  LBB3_1
-	WORD $0x8941; BYTE $0xf1     // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x0f     // cmp    esi, 15
-	JA   LBB3_4
-	LONG $0xffb84166; BYTE $0xff // mov    r8w, -1
-	WORD $0x3145; BYTE $0xdb     // xor    r11d, r11d
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB3_11
-
-LBB3_1:
-	LONG $0xffb84166; BYTE $0xff // mov    r8w, -1
-	WORD $0xf631                 // xor    esi, esi
-	JMP  LBB3_12
-
-LBB3_4:
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0xf0e38341         // and    r11d, -16
-	LONG $0xf0438d49         // lea    rax, [r11 - 16]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x04e8c149         // shr    r8, 4
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB3_5
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	LONG $0xc9ef0f66         // pxor    xmm1, xmm1
-	LONG $0xc0760f66         // pcmpeqd    xmm0, xmm0
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2760f66         // pcmpeqd    xmm2, xmm2
-	LONG $0xdbef0f66         // pxor    xmm3, xmm3
-
-LBB3_7:
-	LONG $0x246f0ff3; BYTE $0x47   // movdqu    xmm4, oword [rdi + 2*rax]
-	LONG $0x6c6f0ff3; WORD $0x1047 // movdqu    xmm5, oword [rdi + 2*rax + 16]
-	LONG $0x746f0ff3; WORD $0x2047 // movdqu    xmm6, oword [rdi + 2*rax + 32]
-	LONG $0x7c6f0ff3; WORD $0x3047 // movdqu    xmm7, oword [rdi + 2*rax + 48]
-	LONG $0x3a380f66; BYTE $0xc4   // pminuw    xmm0, xmm4
-	LONG $0x3a380f66; BYTE $0xd5   // pminuw    xmm2, xmm5
-	LONG $0x3e380f66; BYTE $0xcc   // pmaxuw    xmm1, xmm4
-	LONG $0x3e380f66; BYTE $0xdd   // pmaxuw    xmm3, xmm5
-	LONG $0x3a380f66; BYTE $0xc6   // pminuw    xmm0, xmm6
-	LONG $0x3a380f66; BYTE $0xd7   // pminuw    xmm2, xmm7
-	LONG $0x3e380f66; BYTE $0xce   // pmaxuw    xmm1, xmm6
-	LONG $0x3e380f66; BYTE $0xdf   // pmaxuw    xmm3, xmm7
-	LONG $0x20c08348               // add    rax, 32
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB3_7
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB3_10
-
-LBB3_9:
-	LONG $0x246f0ff3; BYTE $0x47   // movdqu    xmm4, oword [rdi + 2*rax]
-	LONG $0x6c6f0ff3; WORD $0x1047 // movdqu    xmm5, oword [rdi + 2*rax + 16]
-	LONG $0x3e380f66; BYTE $0xdd   // pmaxuw    xmm3, xmm5
-	LONG $0x3e380f66; BYTE $0xcc   // pmaxuw    xmm1, xmm4
-	LONG $0x3a380f66; BYTE $0xd5   // pminuw    xmm2, xmm5
-	LONG $0x3a380f66; BYTE $0xc4   // pminuw    xmm0, xmm4
-
-LBB3_10:
-	LONG $0x3a380f66; BYTE $0xc2 // pminuw    xmm0, xmm2
-	LONG $0x3e380f66; BYTE $0xcb // pmaxuw    xmm1, xmm3
-	LONG $0xd2760f66             // pcmpeqd    xmm2, xmm2
-	LONG $0xd1ef0f66             // pxor    xmm2, xmm1
-	LONG $0x41380f66; BYTE $0xca // phminposuw    xmm1, xmm2
-	LONG $0xce7e0f66             // movd    esi, xmm1
-	WORD $0xd6f7                 // not    esi
-	LONG $0x41380f66; BYTE $0xc0 // phminposuw    xmm0, xmm0
-	LONG $0x7e0f4166; BYTE $0xc0 // movd    r8d, xmm0
-	WORD $0x394d; BYTE $0xcb     // cmp    r11, r9
-	JE   LBB3_12
-
-LBB3_11:
-	LONG $0x04b70f42; BYTE $0x5f // movzx    eax, word [rdi + 2*r11]
-	LONG $0xc0394166             // cmp    r8w, ax
-	LONG $0xc0430f44             // cmovae    r8d, eax
-	WORD $0x3966; BYTE $0xc6     // cmp    si, ax
-	WORD $0x460f; BYTE $0xf0     // cmovbe    esi, eax
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
-	JNE  LBB3_11
-
-LBB3_12:
-	WORD $0x8966; BYTE $0x31 // mov    word [rcx], si
-	LONG $0x02894466         // mov    word [rdx], r8w
-	RET
-
-LBB3_5:
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-	LONG $0xc0760f66 // pcmpeqd    xmm0, xmm0
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xd2760f66 // pcmpeqd    xmm2, xmm2
-	LONG $0xdbef0f66 // pxor    xmm3, xmm3
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB3_9
-	JMP  LBB3_10
-
-DATA LCDATA3<>+0x000(SB)/8, $0x8000000080000000
-DATA LCDATA3<>+0x008(SB)/8, $0x8000000080000000
-DATA LCDATA3<>+0x010(SB)/8, $0x7fffffff7fffffff
-DATA LCDATA3<>+0x018(SB)/8, $0x7fffffff7fffffff
-GLOBL LCDATA3<>(SB), 8, $32
-
-TEXT ·_int32_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA3<>(SB), BP
-
-	WORD $0xf685                   // test    esi, esi
-	JLE  LBB4_1
-	WORD $0x8941; BYTE $0xf1       // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x07       // cmp    esi, 7
-	JA   LBB4_6
-	LONG $0x000000b8; BYTE $0x80   // mov    eax, -2147483648
-	LONG $0xffffb841; WORD $0x7fff // mov    r8d, 2147483647
-	WORD $0x3145; BYTE $0xdb       // xor    r11d, r11d
-	JMP  LBB4_4
-
-LBB4_1:
-	LONG $0xffffb841; WORD $0x7fff // mov    r8d, 2147483647
-	LONG $0x000000b8; BYTE $0x80   // mov    eax, -2147483648
-	JMP  LBB4_13
-
-LBB4_6:
-	WORD $0x8945; BYTE $0xcb     // mov    r11d, r9d
-	LONG $0xf8e38341             // and    r11d, -8
-	LONG $0xf8438d49             // lea    rax, [r11 - 8]
-	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
-	LONG $0x03e8c149             // shr    r8, 3
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB4_7
-	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
-	LONG $0xfee28349             // and    r10, -2
-	WORD $0xf749; BYTE $0xda     // neg    r10
-	LONG $0x4d6f0f66; BYTE $0x00 // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI4_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd96f0f66             // movdqa    xmm3, xmm1
-
-LBB4_9:
-	LONG $0x246f0ff3; BYTE $0x87   // movdqu    xmm4, oword [rdi + 4*rax]
-	LONG $0x6c6f0ff3; WORD $0x1087 // movdqu    xmm5, oword [rdi + 4*rax + 16]
-	LONG $0x746f0ff3; WORD $0x2087 // movdqu    xmm6, oword [rdi + 4*rax + 32]
-	LONG $0x7c6f0ff3; WORD $0x3087 // movdqu    xmm7, oword [rdi + 4*rax + 48]
-	LONG $0x39380f66; BYTE $0xc4   // pminsd    xmm0, xmm4
-	LONG $0x39380f66; BYTE $0xd5   // pminsd    xmm2, xmm5
-	LONG $0x3d380f66; BYTE $0xcc   // pmaxsd    xmm1, xmm4
-	LONG $0x3d380f66; BYTE $0xdd   // pmaxsd    xmm3, xmm5
-	LONG $0x39380f66; BYTE $0xc6   // pminsd    xmm0, xmm6
-	LONG $0x39380f66; BYTE $0xd7   // pminsd    xmm2, xmm7
-	LONG $0x3d380f66; BYTE $0xce   // pmaxsd    xmm1, xmm6
-	LONG $0x3d380f66; BYTE $0xdf   // pmaxsd    xmm3, xmm7
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB4_9
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB4_12
-
-LBB4_11:
-	LONG $0x246f0ff3; BYTE $0x87   // movdqu    xmm4, oword [rdi + 4*rax]
-	LONG $0x6c6f0ff3; WORD $0x1087 // movdqu    xmm5, oword [rdi + 4*rax + 16]
-	LONG $0x3d380f66; BYTE $0xdd   // pmaxsd    xmm3, xmm5
-	LONG $0x3d380f66; BYTE $0xcc   // pmaxsd    xmm1, xmm4
-	LONG $0x39380f66; BYTE $0xd5   // pminsd    xmm2, xmm5
-	LONG $0x39380f66; BYTE $0xc4   // pminsd    xmm0, xmm4
-
-LBB4_12:
-	LONG $0x39380f66; BYTE $0xc2 // pminsd    xmm0, xmm2
-	LONG $0x3d380f66; BYTE $0xcb // pmaxsd    xmm1, xmm3
-	LONG $0xd1700f66; BYTE $0x4e // pshufd    xmm2, xmm1, 78
-	LONG $0x3d380f66; BYTE $0xd1 // pmaxsd    xmm2, xmm1
-	LONG $0xca700f66; BYTE $0xe5 // pshufd    xmm1, xmm2, 229
-	LONG $0x3d380f66; BYTE $0xca // pmaxsd    xmm1, xmm2
-	LONG $0xc87e0f66             // movd    eax, xmm1
-	LONG $0xc8700f66; BYTE $0x4e // pshufd    xmm1, xmm0, 78
-	LONG $0x39380f66; BYTE $0xc8 // pminsd    xmm1, xmm0
-	LONG $0xc1700f66; BYTE $0xe5 // pshufd    xmm0, xmm1, 229
-	LONG $0x39380f66; BYTE $0xc1 // pminsd    xmm0, xmm1
-	LONG $0x7e0f4166; BYTE $0xc0 // movd    r8d, xmm0
-	WORD $0x394d; BYTE $0xcb     // cmp    r11, r9
-	JE   LBB4_13
-
-LBB4_4:
-	WORD $0xc689 // mov    esi, eax
-
-LBB4_5:
-	LONG $0x9f048b42         // mov    eax, dword [rdi + 4*r11]
-	WORD $0x3941; BYTE $0xc0 // cmp    r8d, eax
-	LONG $0xc04f0f44         // cmovg    r8d, eax
-	WORD $0xc639             // cmp    esi, eax
-	WORD $0x4d0f; BYTE $0xc6 // cmovge    eax, esi
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0xc689             // mov    esi, eax
-	WORD $0x394d; BYTE $0xd9 // cmp    r9, r11
-	JNE  LBB4_5
-
-LBB4_13:
-	WORD $0x0189             // mov    dword [rcx], eax
-	WORD $0x8944; BYTE $0x02 // mov    dword [rdx], r8d
-	RET
-
-LBB4_7:
-	LONG $0x4d6f0f66; BYTE $0x00 // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
-	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI4_1] */
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
-	LONG $0xd96f0f66             // movdqa    xmm3, xmm1
-	LONG $0x01c0f641             // test    r8b, 1
-	JNE  LBB4_11
-	JMP  LBB4_12
-
-TEXT ·_uint32_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-
-	WORD $0xf685                   // test    esi, esi
-	JLE  LBB5_1
-	WORD $0x8941; BYTE $0xf1       // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x07       // cmp    esi, 7
-	JA   LBB5_6
-	WORD $0x3145; BYTE $0xdb       // xor    r11d, r11d
-	LONG $0xffffb841; WORD $0xffff // mov    r8d, -1
-	WORD $0xf631                   // xor    esi, esi
-	JMP  LBB5_4
-
-LBB5_1:
-	LONG $0xffffb841; WORD $0xffff // mov    r8d, -1
-	WORD $0xf631                   // xor    esi, esi
-	JMP  LBB5_13
-
-LBB5_6:
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0xf8e38341         // and    r11d, -8
-	LONG $0xf8438d49         // lea    rax, [r11 - 8]
-	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
-	LONG $0x03e8c149         // shr    r8, 3
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB5_7
-	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
-	LONG $0xfee28349         // and    r10, -2
-	WORD $0xf749; BYTE $0xda // neg    r10
-	LONG $0xc9ef0f66         // pxor    xmm1, xmm1
-	LONG $0xc0760f66         // pcmpeqd    xmm0, xmm0
-	WORD $0xc031             // xor    eax, eax
-	LONG $0xd2760f66         // pcmpeqd    xmm2, xmm2
-	LONG $0xdbef0f66         // pxor    xmm3, xmm3
-
-LBB5_9:
-	LONG $0x246f0ff3; BYTE $0x87   // movdqu    xmm4, oword [rdi + 4*rax]
-	LONG $0x6c6f0ff3; WORD $0x1087 // movdqu    xmm5, oword [rdi + 4*rax + 16]
-	LONG $0x746f0ff3; WORD $0x2087 // movdqu    xmm6, oword [rdi + 4*rax + 32]
-	LONG $0x7c6f0ff3; WORD $0x3087 // movdqu    xmm7, oword [rdi + 4*rax + 48]
-	LONG $0x3b380f66; BYTE $0xc4   // pminud    xmm0, xmm4
-	LONG $0x3b380f66; BYTE $0xd5   // pminud    xmm2, xmm5
-	LONG $0x3f380f66; BYTE $0xcc   // pmaxud    xmm1, xmm4
-	LONG $0x3f380f66; BYTE $0xdd   // pmaxud    xmm3, xmm5
-	LONG $0x3b380f66; BYTE $0xc6   // pminud    xmm0, xmm6
-	LONG $0x3b380f66; BYTE $0xd7   // pminud    xmm2, xmm7
-	LONG $0x3f380f66; BYTE $0xce   // pmaxud    xmm1, xmm6
-	LONG $0x3f380f66; BYTE $0xdf   // pmaxud    xmm3, xmm7
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB5_9
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB5_12
-
-LBB5_11:
-	LONG $0x246f0ff3; BYTE $0x87   // movdqu    xmm4, oword [rdi + 4*rax]
-	LONG $0x6c6f0ff3; WORD $0x1087 // movdqu    xmm5, oword [rdi + 4*rax + 16]
-	LONG $0x3f380f66; BYTE $0xdd   // pmaxud    xmm3, xmm5
-	LONG $0x3f380f66; BYTE $0xcc   // pmaxud    xmm1, xmm4
-	LONG $0x3b380f66; BYTE $0xd5   // pminud    xmm2, xmm5
-	LONG $0x3b380f66; BYTE $0xc4   // pminud    xmm0, xmm4
-
-LBB5_12:
-	LONG $0x3b380f66; BYTE $0xc2 // pminud    xmm0, xmm2
-	LONG $0x3f380f66; BYTE $0xcb // pmaxud    xmm1, xmm3
-	LONG $0xd1700f66; BYTE $0x4e // pshufd    xmm2, xmm1, 78
-	LONG $0x3f380f66; BYTE $0xd1 // pmaxud    xmm2, xmm1
-	LONG $0xca700f66; BYTE $0xe5 // pshufd    xmm1, xmm2, 229
-	LONG $0x3f380f66; BYTE $0xca // pmaxud    xmm1, xmm2
-	LONG $0xce7e0f66             // movd    esi, xmm1
-	LONG $0xc8700f66; BYTE $0x4e // pshufd    xmm1, xmm0, 78
-	LONG $0x3b380f66; BYTE $0xc8 // pminud    xmm1, xmm0
-	LONG $0xc1700f66; BYTE $0xe5 // pshufd    xmm0, xmm1, 229
-	LONG $0x3b380f66; BYTE $0xc1 // pminud    xmm0, xmm1
-	LONG $0x7e0f4166; BYTE $0xc0 // movd    r8d, xmm0
-	WORD $0x394d; BYTE $0xcb     // cmp    r11, r9
-	JE   LBB5_13
-
-LBB5_4:
-	WORD $0xf089 // mov    eax, esi
-
-LBB5_5:
-	LONG $0x9f348b42         // mov    esi, dword [rdi + 4*r11]
-	WORD $0x3941; BYTE $0xf0 // cmp    r8d, esi
-	LONG $0xc6430f44         // cmovae    r8d, esi
-	WORD $0xf039             // cmp    eax, esi
-	WORD $0x470f; BYTE $0xf0 // cmova    esi, eax
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0xf089             // mov    eax, esi
-	WORD $0x394d; BYTE $0xd9 // cmp    r9, r11
-	JNE  LBB5_5
-
-LBB5_13:
-	WORD $0x3189             // mov    dword [rcx], esi
-	WORD $0x8944; BYTE $0x02 // mov    dword [rdx], r8d
-	RET
-
-LBB5_7:
-	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
-	LONG $0xc0760f66 // pcmpeqd    xmm0, xmm0
-	WORD $0xc031     // xor    eax, eax
-	LONG $0xd2760f66 // pcmpeqd    xmm2, xmm2
-	LONG $0xdbef0f66 // pxor    xmm3, xmm3
-	LONG $0x01c0f641 // test    r8b, 1
-	JNE  LBB5_11
-	JMP  LBB5_12
-
-DATA LCDATA4<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x008(SB)/8, $0x8000000000000000
-DATA LCDATA4<>+0x010(SB)/8, $0x7fffffffffffffff
-DATA LCDATA4<>+0x018(SB)/8, $0x7fffffffffffffff
-GLOBL LCDATA4<>(SB), 8, $32
-
-TEXT ·_int64_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA4<>(SB), BP
-
-	QUAD $0xffffffffffffb849; WORD $0x7fff // mov    r8, 9223372036854775807
-	WORD $0xf685                           // test    esi, esi
-	JLE  LBB6_1
-	WORD $0x8941; BYTE $0xf1               // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x03               // cmp    esi, 3
-	JA   LBB6_6
-	LONG $0x01708d49                       // lea    rsi, [r8 + 1]
-	WORD $0x3145; BYTE $0xdb               // xor    r11d, r11d
-	JMP  LBB6_4
-
-LBB6_1:
-	LONG $0x01708d49 // lea    rsi, [r8 + 1]
-	JMP  LBB6_13
-
-LBB6_6:
-	WORD $0x8945; BYTE $0xcb       // mov    r11d, r9d
-	LONG $0xfce38341               // and    r11d, -4
-	LONG $0xfc438d49               // lea    rax, [r11 - 4]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x02e8c149               // shr    r8, 2
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB6_7
-	WORD $0x894d; BYTE $0xc2       // mov    r10, r8
-	LONG $0xfee28349               // and    r10, -2
-	WORD $0xf749; BYTE $0xda       // neg    r10
-	LONG $0x6f0f4466; WORD $0x004d // movdqa    xmm9, oword 0[rbp] /* [rip + .LCPI6_0] */
-	LONG $0x6f0f4466; WORD $0x1045 // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI6_1] */
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x6f0f4166; BYTE $0xd0   // movdqa    xmm2, xmm8
-	LONG $0x6f0f4166; BYTE $0xf1   // movdqa    xmm6, xmm9
-
-LBB6_9:
-	LONG $0x3c6f0ff3; BYTE $0xc7   // movdqu    xmm7, oword [rdi + 8*rax]
-	LONG $0xc76f0f66               // movdqa    xmm0, xmm7
-	LONG $0x380f4166; WORD $0xc037 // pcmpgtq    xmm0, xmm8
-	LONG $0xe76f0f66               // movdqa    xmm4, xmm7
-	LONG $0x380f4166; WORD $0xe015 // blendvpd    xmm4, xmm8, xmm0
-	LONG $0x4c6f0ff3; WORD $0x10c7 // movdqu    xmm1, oword [rdi + 8*rax + 16]
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0x15380f66; BYTE $0xea   // blendvpd    xmm5, xmm2, xmm0
-	LONG $0x6f0f4166; BYTE $0xc1   // movdqa    xmm0, xmm9
-	LONG $0x37380f66; BYTE $0xc7   // pcmpgtq    xmm0, xmm7
-	LONG $0x380f4166; WORD $0xf915 // blendvpd    xmm7, xmm9, xmm0
-	LONG $0xc66f0f66               // movdqa    xmm0, xmm6
-	LONG $0x37380f66; BYTE $0xc1   // pcmpgtq    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xce   // blendvpd    xmm1, xmm6, xmm0
-	LONG $0x5c6f0ff3; WORD $0x20c7 // movdqu    xmm3, oword [rdi + 8*rax + 32]
-	LONG $0xc36f0f66               // movdqa    xmm0, xmm3
-	LONG $0x37380f66; BYTE $0xc4   // pcmpgtq    xmm0, xmm4
-	LONG $0x6f0f4466; BYTE $0xc3   // movdqa    xmm8, xmm3
-	LONG $0x380f4466; WORD $0xc415 // blendvpd    xmm8, xmm4, xmm0
-	LONG $0x646f0ff3; WORD $0x30c7 // movdqu    xmm4, oword [rdi + 8*rax + 48]
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc5   // pcmpgtq    xmm0, xmm5
-	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
-	LONG $0x15380f66; BYTE $0xd5   // blendvpd    xmm2, xmm5, xmm0
-	LONG $0xc7280f66               // movapd    xmm0, xmm7
-	LONG $0x37380f66; BYTE $0xc3   // pcmpgtq    xmm0, xmm3
-	LONG $0x15380f66; BYTE $0xdf   // blendvpd    xmm3, xmm7, xmm0
-	LONG $0xc1280f66               // movapd    xmm0, xmm1
-	LONG $0x37380f66; BYTE $0xc4   // pcmpgtq    xmm0, xmm4
-	LONG $0x15380f66; BYTE $0xe1   // blendvpd    xmm4, xmm1, xmm0
-	LONG $0x08c08348               // add    rax, 8
-	LONG $0x280f4466; BYTE $0xcb   // movapd    xmm9, xmm3
-	LONG $0xf4280f66               // movapd    xmm6, xmm4
-	LONG $0x02c28349               // add    r10, 2
-	JNE  LBB6_9
-	LONG $0x01c0f641               // test    r8b, 1
-	JE   LBB6_12
-
-LBB6_11:
-	LONG $0x4c6f0ff3; WORD $0x10c7 // movdqu    xmm1, oword [rdi + 8*rax + 16]
-	LONG $0xc4280f66               // movapd    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc1   // pcmpgtq    xmm0, xmm1
-	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
-	LONG $0x15380f66; BYTE $0xec   // blendvpd    xmm5, xmm4, xmm0
-	LONG $0x246f0ff3; BYTE $0xc7   // movdqu    xmm4, oword [rdi + 8*rax]
-	LONG $0xc3280f66               // movapd    xmm0, xmm3
-	LONG $0x37380f66; BYTE $0xc4   // pcmpgtq    xmm0, xmm4
-	LONG $0xf46f0f66               // movdqa    xmm6, xmm4
-	LONG $0x15380f66; BYTE $0xf3   // blendvpd    xmm6, xmm3, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xca   // blendvpd    xmm1, xmm2, xmm0
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0x380f4166; WORD $0xc037 // pcmpgtq    xmm0, xmm8
-	LONG $0x380f4166; WORD $0xe015 // blendvpd    xmm4, xmm8, xmm0
-	LONG $0x280f4466; BYTE $0xc4   // movapd    xmm8, xmm4
-	LONG $0xd1280f66               // movapd    xmm2, xmm1
-	LONG $0xde280f66               // movapd    xmm3, xmm6
-	LONG $0xe5280f66               // movapd    xmm4, xmm5
-
-LBB6_12:
-	LONG $0xc3280f66               // movapd    xmm0, xmm3
-	LONG $0x37380f66; BYTE $0xc4   // pcmpgtq    xmm0, xmm4
-	LONG $0x15380f66; BYTE $0xe3   // blendvpd    xmm4, xmm3, xmm0
-	LONG $0xcc700f66; BYTE $0x4e   // pshufd    xmm1, xmm4, 78
-	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
-	LONG $0x37380f66; BYTE $0xc1   // pcmpgtq    xmm0, xmm1
-	LONG $0x15380f66; BYTE $0xcc   // blendvpd    xmm1, xmm4, xmm0
-	LONG $0x7e0f4866; BYTE $0xce   // movq    rsi, xmm1
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xc037 // pcmpgtq    xmm0, xmm8
-	LONG $0x380f4166; WORD $0xd015 // blendvpd    xmm2, xmm8, xmm0
-	LONG $0xca700f66; BYTE $0x4e   // pshufd    xmm1, xmm2, 78
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xca   // blendvpd    xmm1, xmm2, xmm0
-	LONG $0x7e0f4966; BYTE $0xc8   // movq    r8, xmm1
-	WORD $0x394d; BYTE $0xcb       // cmp    r11, r9
-	JE   LBB6_13
-
-LBB6_4:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-
-LBB6_5:
-	LONG $0xdf348b4a         // mov    rsi, qword [rdi + 8*r11]
-	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
-	LONG $0xc64f0f4c         // cmovg    r8, rsi
-	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
-	LONG $0xf04d0f48         // cmovge    rsi, rax
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0x394d; BYTE $0xd9 // cmp    r9, r11
-	JNE  LBB6_5
-
-LBB6_13:
-	WORD $0x8948; BYTE $0x31 // mov    qword [rcx], rsi
-	WORD $0x894c; BYTE $0x02 // mov    qword [rdx], r8
-	RET
-
-LBB6_7:
-	LONG $0x5d280f66; BYTE $0x00   // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI6_0] */
-	LONG $0x6f0f4466; WORD $0x1045 // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI6_1] */
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x6f0f4166; BYTE $0xd0   // movdqa    xmm2, xmm8
-	LONG $0xe3280f66               // movapd    xmm4, xmm3
-	LONG $0x01c0f641               // test    r8b, 1
-	JNE  LBB6_11
-	JMP  LBB6_12
-
-DATA LCDATA5<>+0x000(SB)/8, $0x8000000000000000
-DATA LCDATA5<>+0x008(SB)/8, $0x8000000000000000
-GLOBL LCDATA5<>(SB), 8, $16
-
-TEXT ·_uint64_max_min_sse4(SB), $0-32
-
-	MOVQ values+0(FP), DI
-	MOVQ length+8(FP), SI
-	MOVQ minout+16(FP), DX
-	MOVQ maxout+24(FP), CX
-	LEAQ LCDATA5<>(SB), BP
-
-	WORD $0xf685                               // test    esi, esi
-	JLE  LBB7_1
-	WORD $0x8941; BYTE $0xf1                   // mov    r9d, esi
-	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
-	JA   LBB7_6
-	LONG $0xffc0c749; WORD $0xffff; BYTE $0xff // mov    r8, -1
-	WORD $0x3145; BYTE $0xdb                   // xor    r11d, r11d
-	WORD $0xc031                               // xor    eax, eax
-	JMP  LBB7_4
-
-LBB7_1:
-	LONG $0xffc0c749; WORD $0xffff; BYTE $0xff // mov    r8, -1
-	WORD $0xc031                               // xor    eax, eax
-	JMP  LBB7_13
-
-LBB7_6:
-	WORD $0x8945; BYTE $0xcb       // mov    r11d, r9d
-	LONG $0xfce38341               // and    r11d, -4
-	LONG $0xfc438d49               // lea    rax, [r11 - 4]
-	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
-	LONG $0x02e8c149               // shr    r8, 2
-	LONG $0x01c08349               // add    r8, 1
-	WORD $0x8548; BYTE $0xc0       // test    rax, rax
-	JE   LBB7_7
-	WORD $0x894d; BYTE $0xc2       // mov    r10, r8
-	LONG $0xfee28349               // and    r10, -2
-	WORD $0xf749; BYTE $0xda       // neg    r10
-	LONG $0xef0f4566; BYTE $0xc9   // pxor    xmm9, xmm9
-	LONG $0x760f4566; BYTE $0xd2   // pcmpeqd    xmm10, xmm10
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0x6f0f4466; WORD $0x0045 // movdqa    xmm8, oword 0[rbp] /* [rip + .LCPI7_0] */
-	LONG $0x760f4566; BYTE $0xdb   // pcmpeqd    xmm11, xmm11
-	LONG $0xef0f4566; BYTE $0xe4   // pxor    xmm12, xmm12
-
-LBB7_9:
-	LONG $0x6f0f4166; BYTE $0xd2               // movdqa    xmm2, xmm10
-	LONG $0xef0f4166; BYTE $0xd0               // pxor    xmm2, xmm8
-	LONG $0x246f0ff3; BYTE $0xc7               // movdqu    xmm4, oword [rdi + 8*rax]
-	LONG $0x6c6f0ff3; WORD $0x10c7             // movdqu    xmm5, oword [rdi + 8*rax + 16]
-	LONG $0x6f0f44f3; WORD $0xc76c; BYTE $0x20 // movdqu    xmm13, oword [rdi + 8*rax + 32]
-	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
-	LONG $0xef0f4166; BYTE $0xc0               // pxor    xmm0, xmm8
-	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
-	LONG $0xef0f4166; BYTE $0xc8               // pxor    xmm1, xmm8
-	LONG $0x37380f66; BYTE $0xc8               // pcmpgtq    xmm1, xmm0
-	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
-	LONG $0xdc6f0f66                           // movdqa    xmm3, xmm4
-	LONG $0x380f4166; WORD $0xda15             // blendvpd    xmm3, xmm10, xmm0
-	LONG $0x746f0ff3; WORD $0x30c7             // movdqu    xmm6, oword [rdi + 8*rax + 48]
-	LONG $0x6f0f4166; BYTE $0xfb               // movdqa    xmm7, xmm11
-	LONG $0xef0f4166; BYTE $0xf8               // pxor    xmm7, xmm8
-	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
-	LONG $0xef0f4166; BYTE $0xc0               // pxor    xmm0, xmm8
-	LONG $0x6f0f4166; BYTE $0xd4               // movdqa    xmm2, xmm12
-	LONG $0xef0f4166; BYTE $0xd0               // pxor    xmm2, xmm8
-	LONG $0x37380f66; BYTE $0xd0               // pcmpgtq    xmm2, xmm0
-	LONG $0x37380f66; BYTE $0xc7               // pcmpgtq    xmm0, xmm7
-	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
-	LONG $0x380f4166; WORD $0xfb15             // blendvpd    xmm7, xmm11, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xe115             // blendvpd    xmm4, xmm9, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xec15             // blendvpd    xmm5, xmm12, xmm0
-	LONG $0xd3280f66                           // movapd    xmm2, xmm3
-	LONG $0x570f4166; BYTE $0xd0               // xorpd    xmm2, xmm8
-	LONG $0x6f0f4166; BYTE $0xc5               // movdqa    xmm0, xmm13
-	LONG $0xef0f4166; BYTE $0xc0               // pxor    xmm0, xmm8
-	LONG $0xcc280f66                           // movapd    xmm1, xmm4
-	LONG $0x570f4166; BYTE $0xc8               // xorpd    xmm1, xmm8
-	LONG $0x37380f66; BYTE $0xc8               // pcmpgtq    xmm1, xmm0
-	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
-	LONG $0x6f0f4566; BYTE $0xd5               // movdqa    xmm10, xmm13
-	LONG $0x380f4466; WORD $0xd315             // blendvpd    xmm10, xmm3, xmm0
-	LONG $0xdf280f66                           // movapd    xmm3, xmm7
-	LONG $0x570f4166; BYTE $0xd8               // xorpd    xmm3, xmm8
-	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
-	LONG $0xef0f4166; BYTE $0xc0               // pxor    xmm0, xmm8
-	LONG $0xd5280f66                           // movapd    xmm2, xmm5
-	LONG $0x570f4166; BYTE $0xd0               // xorpd    xmm2, xmm8
-	LONG $0x37380f66; BYTE $0xd0               // pcmpgtq    xmm2, xmm0
-	LONG $0x37380f66; BYTE $0xc3               // pcmpgtq    xmm0, xmm3
-	LONG $0x6f0f4466; BYTE $0xde               // movdqa    xmm11, xmm6
-	LONG $0x380f4466; WORD $0xdf15             // blendvpd    xmm11, xmm7, xmm0
-	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
-	LONG $0x380f4466; WORD $0xec15             // blendvpd    xmm13, xmm4, xmm0
-	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
-	LONG $0x15380f66; BYTE $0xf5               // blendvpd    xmm6, xmm5, xmm0
-	LONG $0x08c08348                           // add    rax, 8
-	LONG $0x280f4566; BYTE $0xcd               // movapd    xmm9, xmm13
-	LONG $0x280f4466; BYTE $0xe6               // movapd    xmm12, xmm6
-	LONG $0x02c28349                           // add    r10, 2
-	JNE  LBB7_9
-	LONG $0x01c0f641                           // test    r8b, 1
-	JE   LBB7_12
-
-LBB7_11:
-	LONG $0x24100f66; BYTE $0xc7   // movupd    xmm4, oword [rdi + 8*rax]
-	LONG $0x5c100f66; WORD $0x10c7 // movupd    xmm3, oword [rdi + 8*rax + 16]
-	LONG $0x6d280f66; BYTE $0x00   // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI7_0] */
-	LONG $0xc6280f66               // movapd    xmm0, xmm6
-	LONG $0xc5570f66               // xorpd    xmm0, xmm5
-	LONG $0xcb280f66               // movapd    xmm1, xmm3
-	LONG $0xcd570f66               // xorpd    xmm1, xmm5
-	LONG $0x37380f66; BYTE $0xc1   // pcmpgtq    xmm0, xmm1
-	LONG $0xfb280f66               // movapd    xmm7, xmm3
-	LONG $0x15380f66; BYTE $0xfe   // blendvpd    xmm7, xmm6, xmm0
-	LONG $0x280f4166; BYTE $0xc5   // movapd    xmm0, xmm13
-	LONG $0xc5570f66               // xorpd    xmm0, xmm5
-	LONG $0xd4280f66               // movapd    xmm2, xmm4
-	LONG $0xd5570f66               // xorpd    xmm2, xmm5
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0xf4280f66               // movapd    xmm6, xmm4
-	LONG $0x380f4166; WORD $0xf515 // blendvpd    xmm6, xmm13, xmm0
-	LONG $0x280f4166; BYTE $0xc3   // movapd    xmm0, xmm11
-	LONG $0xc5570f66               // xorpd    xmm0, xmm5
-	LONG $0x37380f66; BYTE $0xc8   // pcmpgtq    xmm1, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xdb15 // blendvpd    xmm3, xmm11, xmm0
-	LONG $0x570f4166; BYTE $0xea   // xorpd    xmm5, xmm10
-	LONG $0x37380f66; BYTE $0xd5   // pcmpgtq    xmm2, xmm5
-	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xe215 // blendvpd    xmm4, xmm10, xmm0
-	LONG $0x280f4466; BYTE $0xd4   // movapd    xmm10, xmm4
-	LONG $0x280f4466; BYTE $0xdb   // movapd    xmm11, xmm3
-	LONG $0x280f4466; BYTE $0xee   // movapd    xmm13, xmm6
-	LONG $0xf7280f66               // movapd    xmm6, xmm7
-
-LBB7_12:
-	LONG $0x4d280f66; BYTE $0x00   // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI7_0] */
-	LONG $0xd6280f66               // movapd    xmm2, xmm6
-	LONG $0xd1570f66               // xorpd    xmm2, xmm1
-	LONG $0x280f4166; BYTE $0xc5   // movapd    xmm0, xmm13
-	LONG $0xc1570f66               // xorpd    xmm0, xmm1
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0x380f4166; WORD $0xf515 // blendvpd    xmm6, xmm13, xmm0
-	LONG $0xd6700f66; BYTE $0x4e   // pshufd    xmm2, xmm6, 78
-	LONG $0xc6280f66               // movapd    xmm0, xmm6
-	LONG $0xc1570f66               // xorpd    xmm0, xmm1
-	LONG $0xda6f0f66               // movdqa    xmm3, xmm2
-	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
-	LONG $0x37380f66; BYTE $0xc3   // pcmpgtq    xmm0, xmm3
-	LONG $0x15380f66; BYTE $0xd6   // blendvpd    xmm2, xmm6, xmm0
-	LONG $0x7e0f4866; BYTE $0xd0   // movq    rax, xmm2
-	LONG $0x6f0f4166; BYTE $0xd2   // movdqa    xmm2, xmm10
-	LONG $0xd1ef0f66               // pxor    xmm2, xmm1
-	LONG $0x6f0f4166; BYTE $0xc3   // movdqa    xmm0, xmm11
-	LONG $0xc1ef0f66               // pxor    xmm0, xmm1
-	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
-	LONG $0x380f4566; WORD $0xda15 // blendvpd    xmm11, xmm10, xmm0
-	LONG $0x700f4166; WORD $0x4ed3 // pshufd    xmm2, xmm11, 78
-	LONG $0x6f0f4166; BYTE $0xc3   // movdqa    xmm0, xmm11
-	LONG $0xc1ef0f66               // pxor    xmm0, xmm1
-	LONG $0xcaef0f66               // pxor    xmm1, xmm2
-	LONG $0x37380f66; BYTE $0xc8   // pcmpgtq    xmm1, xmm0
-	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
-	LONG $0x380f4166; WORD $0xd315 // blendvpd    xmm2, xmm11, xmm0
-	LONG $0x7e0f4966; BYTE $0xd0   // movq    r8, xmm2
-	WORD $0x394d; BYTE $0xcb       // cmp    r11, r9
-	JE   LBB7_13
-
-LBB7_4:
-	WORD $0x8948; BYTE $0xc6 // mov    rsi, rax
-
-LBB7_5:
-	LONG $0xdf048b4a         // mov    rax, qword [rdi + 8*r11]
-	WORD $0x3949; BYTE $0xc0 // cmp    r8, rax
-	LONG $0xc0430f4c         // cmovae    r8, rax
-	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
-	LONG $0xc6470f48         // cmova    rax, rsi
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8948; BYTE $0xc6 // mov    rsi, rax
-	WORD $0x394d; BYTE $0xd9 // cmp    r9, r11
-	JNE  LBB7_5
-
-LBB7_13:
-	WORD $0x8948; BYTE $0x01 // mov    qword [rcx], rax
-	WORD $0x894c; BYTE $0x02 // mov    qword [rdx], r8
-	RET
-
-LBB7_7:
-	LONG $0x570f4566; BYTE $0xed // xorpd    xmm13, xmm13
-	LONG $0x760f4566; BYTE $0xd2 // pcmpeqd    xmm10, xmm10
-	WORD $0xc031                 // xor    eax, eax
-	LONG $0x760f4566; BYTE $0xdb // pcmpeqd    xmm11, xmm11
-	LONG $0xf6570f66             // xorpd    xmm6, xmm6
-	LONG $0x01c0f641             // test    r8b, 1
-	JNE  LBB7_11
-	JMP  LBB7_12
diff --git a/go/internal/utils/recovery.go b/go/internal/utils/recovery.go
deleted file mode 100644
index 58aede47fb98d..0000000000000
--- a/go/internal/utils/recovery.go
+++ /dev/null
@@ -1,31 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import "fmt"
-
-// FormatRecoveredError is used in cases where a panic/recover receives an
-// object which is potentially an error that could be wrapped, instead of
-// formatted, so that callers can see it.  This may be useful, for example,
-// with custom Allocators which panic to signal failure; these panics will be
-// recovered as wrapped errors, letting the client distinguish them.
-func FormatRecoveredError(msg string, recovered any) error {
-	if err, ok := recovered.(error); ok {
-		return fmt.Errorf("%s: %w", msg, err)
-	}
-	return fmt.Errorf("%s: %v", msg, recovered)
-}
diff --git a/go/internal/utils/recovery_test.go b/go/internal/utils/recovery_test.go
deleted file mode 100644
index 6ebab9ba5d3d1..0000000000000
--- a/go/internal/utils/recovery_test.go
+++ /dev/null
@@ -1,62 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"errors"
-	"testing"
-
-	"github.com/stretchr/testify/assert"
-)
-
-type testError struct{}
-
-var _ error = testError{}
-
-func (testError) Error() string {
-	return "test error"
-}
-
-func TestFormatRecoveredError(t *testing.T) {
-	defer func() {
-		thing := recover()
-		assert.NotNil(t, thing)
-		assert.Error(t, thing.(testError))
-
-		err := FormatRecoveredError("recovered thing", thing)
-
-		assert.Equal(t, "recovered thing: test error", err.Error())
-		assert.True(t, errors.Is(err, testError{}))
-		assert.Equal(t, "test error", errors.Unwrap(err).(testError).Error())
-	}()
-
-	panic(testError{})
-}
-
-func TestFormatRecoveredNonError(t *testing.T) {
-	defer func() {
-		thing := recover()
-		assert.NotNil(t, thing)
-
-		err := FormatRecoveredError("recovered thing", thing)
-
-		assert.Equal(t, "recovered thing: just a message", err.Error())
-		assert.False(t, errors.Is(err, testError{}))
-	}()
-
-	panic("just a message")
-}
diff --git a/go/internal/utils/ref_count.go b/go/internal/utils/ref_count.go
deleted file mode 100644
index 9b85f75b14363..0000000000000
--- a/go/internal/utils/ref_count.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import "sync/atomic"
-
-// NewRefCount creates a new atomic counter set to the specified initial value.
-func NewRefCount(initial int64) *atomic.Int64 {
-	var val atomic.Int64
-	val.Store(initial)
-	return &val
-}
diff --git a/go/internal/utils/transpose_ints.go b/go/internal/utils/transpose_ints.go
deleted file mode 100644
index 1666df1296d08..0000000000000
--- a/go/internal/utils/transpose_ints.go
+++ /dev/null
@@ -1,407 +0,0 @@
-// Code generated by transpose_ints.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-// when we upgrade to support go1.18, this can be massively simplified by using
-// Go Generics, but since we aren't supporting go1.18 yet, I didn't want to use
-// them here so we can maintain the backwards compatibility.
-
-func transposeInt8Int8(src []int8, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeInt8Uint8(src []int8, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeInt8Int16(src []int8, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeInt8Uint16(src []int8, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeInt8Int32(src []int8, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeInt8Uint32(src []int8, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeInt8Int64(src []int8, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeInt8Uint64(src []int8, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeUint8Int8(src []uint8, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeUint8Uint8(src []uint8, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeUint8Int16(src []uint8, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeUint8Uint16(src []uint8, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeUint8Int32(src []uint8, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeUint8Uint32(src []uint8, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeUint8Int64(src []uint8, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeUint8Uint64(src []uint8, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeInt16Int8(src []int16, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeInt16Uint8(src []int16, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeInt16Int16(src []int16, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeInt16Uint16(src []int16, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeInt16Int32(src []int16, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeInt16Uint32(src []int16, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeInt16Int64(src []int16, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeInt16Uint64(src []int16, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeUint16Int8(src []uint16, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeUint16Uint8(src []uint16, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeUint16Int16(src []uint16, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeUint16Uint16(src []uint16, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeUint16Int32(src []uint16, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeUint16Uint32(src []uint16, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeUint16Int64(src []uint16, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeUint16Uint64(src []uint16, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeInt32Int8(src []int32, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeInt32Uint8(src []int32, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeInt32Int16(src []int32, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeInt32Uint16(src []int32, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeInt32Int32(src []int32, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeInt32Uint32(src []int32, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeInt32Int64(src []int32, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeInt32Uint64(src []int32, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeUint32Int8(src []uint32, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeUint32Uint8(src []uint32, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeUint32Int16(src []uint32, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeUint32Uint16(src []uint32, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeUint32Int32(src []uint32, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeUint32Uint32(src []uint32, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeUint32Int64(src []uint32, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeUint32Uint64(src []uint32, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeInt64Int8(src []int64, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeInt64Uint8(src []int64, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeInt64Int16(src []int64, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeInt64Uint16(src []int64, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeInt64Int32(src []int64, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeInt64Uint32(src []int64, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeInt64Int64(src []int64, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeInt64Uint64(src []int64, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
-
-func transposeUint64Int8(src []uint64, dest []int8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int8(transposeMap[s])
-	}
-}
-
-func transposeUint64Uint8(src []uint64, dest []uint8, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint8(transposeMap[s])
-	}
-}
-
-func transposeUint64Int16(src []uint64, dest []int16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int16(transposeMap[s])
-	}
-}
-
-func transposeUint64Uint16(src []uint64, dest []uint16, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint16(transposeMap[s])
-	}
-}
-
-func transposeUint64Int32(src []uint64, dest []int32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int32(transposeMap[s])
-	}
-}
-
-func transposeUint64Uint32(src []uint64, dest []uint32, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint32(transposeMap[s])
-	}
-}
-
-func transposeUint64Int64(src []uint64, dest []int64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = int64(transposeMap[s])
-	}
-}
-
-func transposeUint64Uint64(src []uint64, dest []uint64, transposeMap []int32) {
-	for i, s := range src {
-		dest[i] = uint64(transposeMap[s])
-	}
-}
diff --git a/go/internal/utils/transpose_ints.go.tmpl b/go/internal/utils/transpose_ints.go.tmpl
deleted file mode 100644
index 680ae1ee71d0e..0000000000000
--- a/go/internal/utils/transpose_ints.go.tmpl
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type }}
-{{ $srcName := .Name }}
-{{ range $typelist }}
-{{ $dest := .Type }}
-{{ $destName := .Name }}
-
-func transpose{{ $srcName }}{{ $destName }}(src []{{$src}}, dest []{{$dest}}, transposeMap []int32) {
-    for i, s := range src {
-        dest[i] = {{ $dest }}(transposeMap[s])
-    }
-}
-
-{{ end }}
-{{ end }}
diff --git a/go/internal/utils/transpose_ints.tmpldata b/go/internal/utils/transpose_ints.tmpldata
deleted file mode 100644
index 72eaf300c415c..0000000000000
--- a/go/internal/utils/transpose_ints.tmpldata
+++ /dev/null
@@ -1,34 +0,0 @@
-[
-    {
-        "Name": "Int8",
-        "Type": "int8"
-    },
-    {
-        "Name": "Uint8",
-        "Type": "uint8"
-    },
-    {
-        "Name": "Int16",
-        "Type": "int16"
-    },
-    {
-        "Name": "Uint16",
-        "Type": "uint16"
-    },
-    {
-        "Name": "Int32",
-        "Type": "int32"
-    },
-    {
-        "Name": "Uint32",
-        "Type": "uint32"
-    },
-    {
-        "Name": "Int64",
-        "Type": "int64"
-    },
-    {
-        "Name": "Uint64",
-        "Type": "uint64"
-    }
-]
diff --git a/go/internal/utils/transpose_ints_amd64.go b/go/internal/utils/transpose_ints_amd64.go
deleted file mode 100644
index d4433d3687102..0000000000000
--- a/go/internal/utils/transpose_ints_amd64.go
+++ /dev/null
@@ -1,325 +0,0 @@
-// Code generated by transpose_ints_amd64.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-var (
-	TransposeInt8Int8   func([]int8, []int8, []int32)
-	TransposeInt8Uint8  func([]int8, []uint8, []int32)
-	TransposeInt8Int16  func([]int8, []int16, []int32)
-	TransposeInt8Uint16 func([]int8, []uint16, []int32)
-	TransposeInt8Int32  func([]int8, []int32, []int32)
-	TransposeInt8Uint32 func([]int8, []uint32, []int32)
-	TransposeInt8Int64  func([]int8, []int64, []int32)
-	TransposeInt8Uint64 func([]int8, []uint64, []int32)
-
-	TransposeUint8Int8   func([]uint8, []int8, []int32)
-	TransposeUint8Uint8  func([]uint8, []uint8, []int32)
-	TransposeUint8Int16  func([]uint8, []int16, []int32)
-	TransposeUint8Uint16 func([]uint8, []uint16, []int32)
-	TransposeUint8Int32  func([]uint8, []int32, []int32)
-	TransposeUint8Uint32 func([]uint8, []uint32, []int32)
-	TransposeUint8Int64  func([]uint8, []int64, []int32)
-	TransposeUint8Uint64 func([]uint8, []uint64, []int32)
-
-	TransposeInt16Int8   func([]int16, []int8, []int32)
-	TransposeInt16Uint8  func([]int16, []uint8, []int32)
-	TransposeInt16Int16  func([]int16, []int16, []int32)
-	TransposeInt16Uint16 func([]int16, []uint16, []int32)
-	TransposeInt16Int32  func([]int16, []int32, []int32)
-	TransposeInt16Uint32 func([]int16, []uint32, []int32)
-	TransposeInt16Int64  func([]int16, []int64, []int32)
-	TransposeInt16Uint64 func([]int16, []uint64, []int32)
-
-	TransposeUint16Int8   func([]uint16, []int8, []int32)
-	TransposeUint16Uint8  func([]uint16, []uint8, []int32)
-	TransposeUint16Int16  func([]uint16, []int16, []int32)
-	TransposeUint16Uint16 func([]uint16, []uint16, []int32)
-	TransposeUint16Int32  func([]uint16, []int32, []int32)
-	TransposeUint16Uint32 func([]uint16, []uint32, []int32)
-	TransposeUint16Int64  func([]uint16, []int64, []int32)
-	TransposeUint16Uint64 func([]uint16, []uint64, []int32)
-
-	TransposeInt32Int8   func([]int32, []int8, []int32)
-	TransposeInt32Uint8  func([]int32, []uint8, []int32)
-	TransposeInt32Int16  func([]int32, []int16, []int32)
-	TransposeInt32Uint16 func([]int32, []uint16, []int32)
-	TransposeInt32Int32  func([]int32, []int32, []int32)
-	TransposeInt32Uint32 func([]int32, []uint32, []int32)
-	TransposeInt32Int64  func([]int32, []int64, []int32)
-	TransposeInt32Uint64 func([]int32, []uint64, []int32)
-
-	TransposeUint32Int8   func([]uint32, []int8, []int32)
-	TransposeUint32Uint8  func([]uint32, []uint8, []int32)
-	TransposeUint32Int16  func([]uint32, []int16, []int32)
-	TransposeUint32Uint16 func([]uint32, []uint16, []int32)
-	TransposeUint32Int32  func([]uint32, []int32, []int32)
-	TransposeUint32Uint32 func([]uint32, []uint32, []int32)
-	TransposeUint32Int64  func([]uint32, []int64, []int32)
-	TransposeUint32Uint64 func([]uint32, []uint64, []int32)
-
-	TransposeInt64Int8   func([]int64, []int8, []int32)
-	TransposeInt64Uint8  func([]int64, []uint8, []int32)
-	TransposeInt64Int16  func([]int64, []int16, []int32)
-	TransposeInt64Uint16 func([]int64, []uint16, []int32)
-	TransposeInt64Int32  func([]int64, []int32, []int32)
-	TransposeInt64Uint32 func([]int64, []uint32, []int32)
-	TransposeInt64Int64  func([]int64, []int64, []int32)
-	TransposeInt64Uint64 func([]int64, []uint64, []int32)
-
-	TransposeUint64Int8   func([]uint64, []int8, []int32)
-	TransposeUint64Uint8  func([]uint64, []uint8, []int32)
-	TransposeUint64Int16  func([]uint64, []int16, []int32)
-	TransposeUint64Uint16 func([]uint64, []uint16, []int32)
-	TransposeUint64Int32  func([]uint64, []int32, []int32)
-	TransposeUint64Uint32 func([]uint64, []uint32, []int32)
-	TransposeUint64Int64  func([]uint64, []int64, []int32)
-	TransposeUint64Uint64 func([]uint64, []uint64, []int32)
-)
-
-func init() {
-	if cpu.X86.HasAVX2 {
-
-		TransposeInt8Int8 = transposeInt8Int8avx2
-		TransposeInt8Uint8 = transposeInt8Uint8avx2
-		TransposeInt8Int16 = transposeInt8Int16avx2
-		TransposeInt8Uint16 = transposeInt8Uint16avx2
-		TransposeInt8Int32 = transposeInt8Int32avx2
-		TransposeInt8Uint32 = transposeInt8Uint32avx2
-		TransposeInt8Int64 = transposeInt8Int64avx2
-		TransposeInt8Uint64 = transposeInt8Uint64avx2
-
-		TransposeUint8Int8 = transposeUint8Int8avx2
-		TransposeUint8Uint8 = transposeUint8Uint8avx2
-		TransposeUint8Int16 = transposeUint8Int16avx2
-		TransposeUint8Uint16 = transposeUint8Uint16avx2
-		TransposeUint8Int32 = transposeUint8Int32avx2
-		TransposeUint8Uint32 = transposeUint8Uint32avx2
-		TransposeUint8Int64 = transposeUint8Int64avx2
-		TransposeUint8Uint64 = transposeUint8Uint64avx2
-
-		TransposeInt16Int8 = transposeInt16Int8avx2
-		TransposeInt16Uint8 = transposeInt16Uint8avx2
-		TransposeInt16Int16 = transposeInt16Int16avx2
-		TransposeInt16Uint16 = transposeInt16Uint16avx2
-		TransposeInt16Int32 = transposeInt16Int32avx2
-		TransposeInt16Uint32 = transposeInt16Uint32avx2
-		TransposeInt16Int64 = transposeInt16Int64avx2
-		TransposeInt16Uint64 = transposeInt16Uint64avx2
-
-		TransposeUint16Int8 = transposeUint16Int8avx2
-		TransposeUint16Uint8 = transposeUint16Uint8avx2
-		TransposeUint16Int16 = transposeUint16Int16avx2
-		TransposeUint16Uint16 = transposeUint16Uint16avx2
-		TransposeUint16Int32 = transposeUint16Int32avx2
-		TransposeUint16Uint32 = transposeUint16Uint32avx2
-		TransposeUint16Int64 = transposeUint16Int64avx2
-		TransposeUint16Uint64 = transposeUint16Uint64avx2
-
-		TransposeInt32Int8 = transposeInt32Int8avx2
-		TransposeInt32Uint8 = transposeInt32Uint8avx2
-		TransposeInt32Int16 = transposeInt32Int16avx2
-		TransposeInt32Uint16 = transposeInt32Uint16avx2
-		TransposeInt32Int32 = transposeInt32Int32avx2
-		TransposeInt32Uint32 = transposeInt32Uint32avx2
-		TransposeInt32Int64 = transposeInt32Int64avx2
-		TransposeInt32Uint64 = transposeInt32Uint64avx2
-
-		TransposeUint32Int8 = transposeUint32Int8avx2
-		TransposeUint32Uint8 = transposeUint32Uint8avx2
-		TransposeUint32Int16 = transposeUint32Int16avx2
-		TransposeUint32Uint16 = transposeUint32Uint16avx2
-		TransposeUint32Int32 = transposeUint32Int32avx2
-		TransposeUint32Uint32 = transposeUint32Uint32avx2
-		TransposeUint32Int64 = transposeUint32Int64avx2
-		TransposeUint32Uint64 = transposeUint32Uint64avx2
-
-		TransposeInt64Int8 = transposeInt64Int8avx2
-		TransposeInt64Uint8 = transposeInt64Uint8avx2
-		TransposeInt64Int16 = transposeInt64Int16avx2
-		TransposeInt64Uint16 = transposeInt64Uint16avx2
-		TransposeInt64Int32 = transposeInt64Int32avx2
-		TransposeInt64Uint32 = transposeInt64Uint32avx2
-		TransposeInt64Int64 = transposeInt64Int64avx2
-		TransposeInt64Uint64 = transposeInt64Uint64avx2
-
-		TransposeUint64Int8 = transposeUint64Int8avx2
-		TransposeUint64Uint8 = transposeUint64Uint8avx2
-		TransposeUint64Int16 = transposeUint64Int16avx2
-		TransposeUint64Uint16 = transposeUint64Uint16avx2
-		TransposeUint64Int32 = transposeUint64Int32avx2
-		TransposeUint64Uint32 = transposeUint64Uint32avx2
-		TransposeUint64Int64 = transposeUint64Int64avx2
-		TransposeUint64Uint64 = transposeUint64Uint64avx2
-
-	} else if cpu.X86.HasSSE42 {
-
-		TransposeInt8Int8 = transposeInt8Int8sse4
-		TransposeInt8Uint8 = transposeInt8Uint8sse4
-		TransposeInt8Int16 = transposeInt8Int16sse4
-		TransposeInt8Uint16 = transposeInt8Uint16sse4
-		TransposeInt8Int32 = transposeInt8Int32sse4
-		TransposeInt8Uint32 = transposeInt8Uint32sse4
-		TransposeInt8Int64 = transposeInt8Int64sse4
-		TransposeInt8Uint64 = transposeInt8Uint64sse4
-
-		TransposeUint8Int8 = transposeUint8Int8sse4
-		TransposeUint8Uint8 = transposeUint8Uint8sse4
-		TransposeUint8Int16 = transposeUint8Int16sse4
-		TransposeUint8Uint16 = transposeUint8Uint16sse4
-		TransposeUint8Int32 = transposeUint8Int32sse4
-		TransposeUint8Uint32 = transposeUint8Uint32sse4
-		TransposeUint8Int64 = transposeUint8Int64sse4
-		TransposeUint8Uint64 = transposeUint8Uint64sse4
-
-		TransposeInt16Int8 = transposeInt16Int8sse4
-		TransposeInt16Uint8 = transposeInt16Uint8sse4
-		TransposeInt16Int16 = transposeInt16Int16sse4
-		TransposeInt16Uint16 = transposeInt16Uint16sse4
-		TransposeInt16Int32 = transposeInt16Int32sse4
-		TransposeInt16Uint32 = transposeInt16Uint32sse4
-		TransposeInt16Int64 = transposeInt16Int64sse4
-		TransposeInt16Uint64 = transposeInt16Uint64sse4
-
-		TransposeUint16Int8 = transposeUint16Int8sse4
-		TransposeUint16Uint8 = transposeUint16Uint8sse4
-		TransposeUint16Int16 = transposeUint16Int16sse4
-		TransposeUint16Uint16 = transposeUint16Uint16sse4
-		TransposeUint16Int32 = transposeUint16Int32sse4
-		TransposeUint16Uint32 = transposeUint16Uint32sse4
-		TransposeUint16Int64 = transposeUint16Int64sse4
-		TransposeUint16Uint64 = transposeUint16Uint64sse4
-
-		TransposeInt32Int8 = transposeInt32Int8sse4
-		TransposeInt32Uint8 = transposeInt32Uint8sse4
-		TransposeInt32Int16 = transposeInt32Int16sse4
-		TransposeInt32Uint16 = transposeInt32Uint16sse4
-		TransposeInt32Int32 = transposeInt32Int32sse4
-		TransposeInt32Uint32 = transposeInt32Uint32sse4
-		TransposeInt32Int64 = transposeInt32Int64sse4
-		TransposeInt32Uint64 = transposeInt32Uint64sse4
-
-		TransposeUint32Int8 = transposeUint32Int8sse4
-		TransposeUint32Uint8 = transposeUint32Uint8sse4
-		TransposeUint32Int16 = transposeUint32Int16sse4
-		TransposeUint32Uint16 = transposeUint32Uint16sse4
-		TransposeUint32Int32 = transposeUint32Int32sse4
-		TransposeUint32Uint32 = transposeUint32Uint32sse4
-		TransposeUint32Int64 = transposeUint32Int64sse4
-		TransposeUint32Uint64 = transposeUint32Uint64sse4
-
-		TransposeInt64Int8 = transposeInt64Int8sse4
-		TransposeInt64Uint8 = transposeInt64Uint8sse4
-		TransposeInt64Int16 = transposeInt64Int16sse4
-		TransposeInt64Uint16 = transposeInt64Uint16sse4
-		TransposeInt64Int32 = transposeInt64Int32sse4
-		TransposeInt64Uint32 = transposeInt64Uint32sse4
-		TransposeInt64Int64 = transposeInt64Int64sse4
-		TransposeInt64Uint64 = transposeInt64Uint64sse4
-
-		TransposeUint64Int8 = transposeUint64Int8sse4
-		TransposeUint64Uint8 = transposeUint64Uint8sse4
-		TransposeUint64Int16 = transposeUint64Int16sse4
-		TransposeUint64Uint16 = transposeUint64Uint16sse4
-		TransposeUint64Int32 = transposeUint64Int32sse4
-		TransposeUint64Uint32 = transposeUint64Uint32sse4
-		TransposeUint64Int64 = transposeUint64Int64sse4
-		TransposeUint64Uint64 = transposeUint64Uint64sse4
-
-	} else {
-
-		TransposeInt8Int8 = transposeInt8Int8
-		TransposeInt8Uint8 = transposeInt8Uint8
-		TransposeInt8Int16 = transposeInt8Int16
-		TransposeInt8Uint16 = transposeInt8Uint16
-		TransposeInt8Int32 = transposeInt8Int32
-		TransposeInt8Uint32 = transposeInt8Uint32
-		TransposeInt8Int64 = transposeInt8Int64
-		TransposeInt8Uint64 = transposeInt8Uint64
-
-		TransposeUint8Int8 = transposeUint8Int8
-		TransposeUint8Uint8 = transposeUint8Uint8
-		TransposeUint8Int16 = transposeUint8Int16
-		TransposeUint8Uint16 = transposeUint8Uint16
-		TransposeUint8Int32 = transposeUint8Int32
-		TransposeUint8Uint32 = transposeUint8Uint32
-		TransposeUint8Int64 = transposeUint8Int64
-		TransposeUint8Uint64 = transposeUint8Uint64
-
-		TransposeInt16Int8 = transposeInt16Int8
-		TransposeInt16Uint8 = transposeInt16Uint8
-		TransposeInt16Int16 = transposeInt16Int16
-		TransposeInt16Uint16 = transposeInt16Uint16
-		TransposeInt16Int32 = transposeInt16Int32
-		TransposeInt16Uint32 = transposeInt16Uint32
-		TransposeInt16Int64 = transposeInt16Int64
-		TransposeInt16Uint64 = transposeInt16Uint64
-
-		TransposeUint16Int8 = transposeUint16Int8
-		TransposeUint16Uint8 = transposeUint16Uint8
-		TransposeUint16Int16 = transposeUint16Int16
-		TransposeUint16Uint16 = transposeUint16Uint16
-		TransposeUint16Int32 = transposeUint16Int32
-		TransposeUint16Uint32 = transposeUint16Uint32
-		TransposeUint16Int64 = transposeUint16Int64
-		TransposeUint16Uint64 = transposeUint16Uint64
-
-		TransposeInt32Int8 = transposeInt32Int8
-		TransposeInt32Uint8 = transposeInt32Uint8
-		TransposeInt32Int16 = transposeInt32Int16
-		TransposeInt32Uint16 = transposeInt32Uint16
-		TransposeInt32Int32 = transposeInt32Int32
-		TransposeInt32Uint32 = transposeInt32Uint32
-		TransposeInt32Int64 = transposeInt32Int64
-		TransposeInt32Uint64 = transposeInt32Uint64
-
-		TransposeUint32Int8 = transposeUint32Int8
-		TransposeUint32Uint8 = transposeUint32Uint8
-		TransposeUint32Int16 = transposeUint32Int16
-		TransposeUint32Uint16 = transposeUint32Uint16
-		TransposeUint32Int32 = transposeUint32Int32
-		TransposeUint32Uint32 = transposeUint32Uint32
-		TransposeUint32Int64 = transposeUint32Int64
-		TransposeUint32Uint64 = transposeUint32Uint64
-
-		TransposeInt64Int8 = transposeInt64Int8
-		TransposeInt64Uint8 = transposeInt64Uint8
-		TransposeInt64Int16 = transposeInt64Int16
-		TransposeInt64Uint16 = transposeInt64Uint16
-		TransposeInt64Int32 = transposeInt64Int32
-		TransposeInt64Uint32 = transposeInt64Uint32
-		TransposeInt64Int64 = transposeInt64Int64
-		TransposeInt64Uint64 = transposeInt64Uint64
-
-		TransposeUint64Int8 = transposeUint64Int8
-		TransposeUint64Uint8 = transposeUint64Uint8
-		TransposeUint64Int16 = transposeUint64Int16
-		TransposeUint64Uint16 = transposeUint64Uint16
-		TransposeUint64Int32 = transposeUint64Int32
-		TransposeUint64Uint32 = transposeUint64Uint32
-		TransposeUint64Int64 = transposeUint64Int64
-		TransposeUint64Uint64 = transposeUint64Uint64
-
-	}
-}
diff --git a/go/internal/utils/transpose_ints_amd64.go.tmpl b/go/internal/utils/transpose_ints_amd64.go.tmpl
deleted file mode 100644
index eac0208e5e1b5..0000000000000
--- a/go/internal/utils/transpose_ints_amd64.go.tmpl
+++ /dev/null
@@ -1,75 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-    "golang.org/x/sys/cpu"
-)
-
-var (
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type -}}
-{{ $srcName := .Name -}}
-{{ range $typelist -}}
-{{ $dest := .Type -}}
-{{ $destName := .Name -}}
-    Transpose{{$srcName}}{{$destName}} func([]{{$src}}, []{{$dest}}, []int32)
-{{end}}
-{{end}}
-)
-
-
-func init() {
-    if cpu.X86.HasAVX2 {
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type -}}
-{{ $srcName := .Name -}}
-{{ range $typelist -}}
-{{ $dest := .Type -}}
-{{ $destName := .Name -}}
-        Transpose{{$srcName}}{{$destName}} = transpose{{ $srcName }}{{ $destName }}avx2
-{{end}}
-{{end}}
-    } else if cpu.X86.HasSSE42 {
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type -}}
-{{ $srcName := .Name -}}
-{{ range $typelist -}}
-{{ $dest := .Type -}}
-{{ $destName := .Name -}}
-        Transpose{{$srcName}}{{$destName}} = transpose{{ $srcName }}{{ $destName }}sse4
-{{end}}
-{{end}}    
-    } else {
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type -}}
-{{ $srcName := .Name -}}
-{{ range $typelist -}}
-{{ $dest := .Type -}}
-{{ $destName := .Name -}}
-        Transpose{{$srcName}}{{$destName}} = transpose{{ $srcName }}{{ $destName }}
-{{end}}
-{{end}}    
-    }
-}
diff --git a/go/internal/utils/transpose_ints_arm64.go b/go/internal/utils/transpose_ints_arm64.go
deleted file mode 100644
index cc957cdaa9ff7..0000000000000
--- a/go/internal/utils/transpose_ints_arm64.go
+++ /dev/null
@@ -1,96 +0,0 @@
-// Code generated by transpose_ints_s390x.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-var (
-	TransposeInt8Int8   = transposeInt8Int8
-	TransposeInt8Uint8  = transposeInt8Uint8
-	TransposeInt8Int16  = transposeInt8Int16
-	TransposeInt8Uint16 = transposeInt8Uint16
-	TransposeInt8Int32  = transposeInt8Int32
-	TransposeInt8Uint32 = transposeInt8Uint32
-	TransposeInt8Int64  = transposeInt8Int64
-	TransposeInt8Uint64 = transposeInt8Uint64
-
-	TransposeUint8Int8   = transposeUint8Int8
-	TransposeUint8Uint8  = transposeUint8Uint8
-	TransposeUint8Int16  = transposeUint8Int16
-	TransposeUint8Uint16 = transposeUint8Uint16
-	TransposeUint8Int32  = transposeUint8Int32
-	TransposeUint8Uint32 = transposeUint8Uint32
-	TransposeUint8Int64  = transposeUint8Int64
-	TransposeUint8Uint64 = transposeUint8Uint64
-
-	TransposeInt16Int8   = transposeInt16Int8
-	TransposeInt16Uint8  = transposeInt16Uint8
-	TransposeInt16Int16  = transposeInt16Int16
-	TransposeInt16Uint16 = transposeInt16Uint16
-	TransposeInt16Int32  = transposeInt16Int32
-	TransposeInt16Uint32 = transposeInt16Uint32
-	TransposeInt16Int64  = transposeInt16Int64
-	TransposeInt16Uint64 = transposeInt16Uint64
-
-	TransposeUint16Int8   = transposeUint16Int8
-	TransposeUint16Uint8  = transposeUint16Uint8
-	TransposeUint16Int16  = transposeUint16Int16
-	TransposeUint16Uint16 = transposeUint16Uint16
-	TransposeUint16Int32  = transposeUint16Int32
-	TransposeUint16Uint32 = transposeUint16Uint32
-	TransposeUint16Int64  = transposeUint16Int64
-	TransposeUint16Uint64 = transposeUint16Uint64
-
-	TransposeInt32Int8   = transposeInt32Int8
-	TransposeInt32Uint8  = transposeInt32Uint8
-	TransposeInt32Int16  = transposeInt32Int16
-	TransposeInt32Uint16 = transposeInt32Uint16
-	TransposeInt32Int32  = transposeInt32Int32
-	TransposeInt32Uint32 = transposeInt32Uint32
-	TransposeInt32Int64  = transposeInt32Int64
-	TransposeInt32Uint64 = transposeInt32Uint64
-
-	TransposeUint32Int8   = transposeUint32Int8
-	TransposeUint32Uint8  = transposeUint32Uint8
-	TransposeUint32Int16  = transposeUint32Int16
-	TransposeUint32Uint16 = transposeUint32Uint16
-	TransposeUint32Int32  = transposeUint32Int32
-	TransposeUint32Uint32 = transposeUint32Uint32
-	TransposeUint32Int64  = transposeUint32Int64
-	TransposeUint32Uint64 = transposeUint32Uint64
-
-	TransposeInt64Int8   = transposeInt64Int8
-	TransposeInt64Uint8  = transposeInt64Uint8
-	TransposeInt64Int16  = transposeInt64Int16
-	TransposeInt64Uint16 = transposeInt64Uint16
-	TransposeInt64Int32  = transposeInt64Int32
-	TransposeInt64Uint32 = transposeInt64Uint32
-	TransposeInt64Int64  = transposeInt64Int64
-	TransposeInt64Uint64 = transposeInt64Uint64
-
-	TransposeUint64Int8   = transposeUint64Int8
-	TransposeUint64Uint8  = transposeUint64Uint8
-	TransposeUint64Int16  = transposeUint64Int16
-	TransposeUint64Uint16 = transposeUint64Uint16
-	TransposeUint64Int32  = transposeUint64Int32
-	TransposeUint64Uint32 = transposeUint64Uint32
-	TransposeUint64Int64  = transposeUint64Int64
-	TransposeUint64Uint64 = transposeUint64Uint64
-)
diff --git a/go/internal/utils/transpose_ints_avx2_amd64.go b/go/internal/utils/transpose_ints_avx2_amd64.go
deleted file mode 100644
index f1421ddf5edb7..0000000000000
--- a/go/internal/utils/transpose_ints_avx2_amd64.go
+++ /dev/null
@@ -1,473 +0,0 @@
-// Code generated by transpose_ints_simd.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import (
-	"unsafe"
-)
-
-//go:noescape
-func _transpose_int8_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int8avx2(src []int8, dest []int8, transposeMap []int32) {
-	_transpose_int8_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint8avx2(src []int8, dest []uint8, transposeMap []int32) {
-	_transpose_int8_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int16avx2(src []int8, dest []int16, transposeMap []int32) {
-	_transpose_int8_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint16avx2(src []int8, dest []uint16, transposeMap []int32) {
-	_transpose_int8_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int32avx2(src []int8, dest []int32, transposeMap []int32) {
-	_transpose_int8_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint32avx2(src []int8, dest []uint32, transposeMap []int32) {
-	_transpose_int8_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int64avx2(src []int8, dest []int64, transposeMap []int32) {
-	_transpose_int8_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint64avx2(src []int8, dest []uint64, transposeMap []int32) {
-	_transpose_int8_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int8avx2(src []uint8, dest []int8, transposeMap []int32) {
-	_transpose_uint8_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint8avx2(src []uint8, dest []uint8, transposeMap []int32) {
-	_transpose_uint8_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int16avx2(src []uint8, dest []int16, transposeMap []int32) {
-	_transpose_uint8_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint16avx2(src []uint8, dest []uint16, transposeMap []int32) {
-	_transpose_uint8_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int32avx2(src []uint8, dest []int32, transposeMap []int32) {
-	_transpose_uint8_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint32avx2(src []uint8, dest []uint32, transposeMap []int32) {
-	_transpose_uint8_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int64avx2(src []uint8, dest []int64, transposeMap []int32) {
-	_transpose_uint8_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint64avx2(src []uint8, dest []uint64, transposeMap []int32) {
-	_transpose_uint8_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int8avx2(src []int16, dest []int8, transposeMap []int32) {
-	_transpose_int16_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint8avx2(src []int16, dest []uint8, transposeMap []int32) {
-	_transpose_int16_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int16avx2(src []int16, dest []int16, transposeMap []int32) {
-	_transpose_int16_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint16avx2(src []int16, dest []uint16, transposeMap []int32) {
-	_transpose_int16_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int32avx2(src []int16, dest []int32, transposeMap []int32) {
-	_transpose_int16_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint32avx2(src []int16, dest []uint32, transposeMap []int32) {
-	_transpose_int16_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int64avx2(src []int16, dest []int64, transposeMap []int32) {
-	_transpose_int16_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint64avx2(src []int16, dest []uint64, transposeMap []int32) {
-	_transpose_int16_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int8avx2(src []uint16, dest []int8, transposeMap []int32) {
-	_transpose_uint16_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint8avx2(src []uint16, dest []uint8, transposeMap []int32) {
-	_transpose_uint16_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int16avx2(src []uint16, dest []int16, transposeMap []int32) {
-	_transpose_uint16_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint16avx2(src []uint16, dest []uint16, transposeMap []int32) {
-	_transpose_uint16_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int32avx2(src []uint16, dest []int32, transposeMap []int32) {
-	_transpose_uint16_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint32avx2(src []uint16, dest []uint32, transposeMap []int32) {
-	_transpose_uint16_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int64avx2(src []uint16, dest []int64, transposeMap []int32) {
-	_transpose_uint16_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint64avx2(src []uint16, dest []uint64, transposeMap []int32) {
-	_transpose_uint16_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int8avx2(src []int32, dest []int8, transposeMap []int32) {
-	_transpose_int32_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint8avx2(src []int32, dest []uint8, transposeMap []int32) {
-	_transpose_int32_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int16avx2(src []int32, dest []int16, transposeMap []int32) {
-	_transpose_int32_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint16avx2(src []int32, dest []uint16, transposeMap []int32) {
-	_transpose_int32_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int32avx2(src []int32, dest []int32, transposeMap []int32) {
-	_transpose_int32_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint32avx2(src []int32, dest []uint32, transposeMap []int32) {
-	_transpose_int32_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int64avx2(src []int32, dest []int64, transposeMap []int32) {
-	_transpose_int32_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint64avx2(src []int32, dest []uint64, transposeMap []int32) {
-	_transpose_int32_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int8avx2(src []uint32, dest []int8, transposeMap []int32) {
-	_transpose_uint32_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint8avx2(src []uint32, dest []uint8, transposeMap []int32) {
-	_transpose_uint32_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int16avx2(src []uint32, dest []int16, transposeMap []int32) {
-	_transpose_uint32_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint16avx2(src []uint32, dest []uint16, transposeMap []int32) {
-	_transpose_uint32_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int32avx2(src []uint32, dest []int32, transposeMap []int32) {
-	_transpose_uint32_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint32avx2(src []uint32, dest []uint32, transposeMap []int32) {
-	_transpose_uint32_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int64avx2(src []uint32, dest []int64, transposeMap []int32) {
-	_transpose_uint32_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint64avx2(src []uint32, dest []uint64, transposeMap []int32) {
-	_transpose_uint32_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int8avx2(src []int64, dest []int8, transposeMap []int32) {
-	_transpose_int64_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint8avx2(src []int64, dest []uint8, transposeMap []int32) {
-	_transpose_int64_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int16avx2(src []int64, dest []int16, transposeMap []int32) {
-	_transpose_int64_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint16avx2(src []int64, dest []uint16, transposeMap []int32) {
-	_transpose_int64_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int32avx2(src []int64, dest []int32, transposeMap []int32) {
-	_transpose_int64_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint32avx2(src []int64, dest []uint32, transposeMap []int32) {
-	_transpose_int64_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int64avx2(src []int64, dest []int64, transposeMap []int32) {
-	_transpose_int64_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint64avx2(src []int64, dest []uint64, transposeMap []int32) {
-	_transpose_int64_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int8avx2(src []uint64, dest []int8, transposeMap []int32) {
-	_transpose_uint64_int8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint8_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint8avx2(src []uint64, dest []uint8, transposeMap []int32) {
-	_transpose_uint64_uint8_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int16avx2(src []uint64, dest []int16, transposeMap []int32) {
-	_transpose_uint64_int16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint16_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint16avx2(src []uint64, dest []uint16, transposeMap []int32) {
-	_transpose_uint64_uint16_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int32avx2(src []uint64, dest []int32, transposeMap []int32) {
-	_transpose_uint64_int32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint32_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint32avx2(src []uint64, dest []uint32, transposeMap []int32) {
-	_transpose_uint64_uint32_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int64avx2(src []uint64, dest []int64, transposeMap []int32) {
-	_transpose_uint64_int64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint64_avx2(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint64avx2(src []uint64, dest []uint64, transposeMap []int32) {
-	_transpose_uint64_uint64_avx2(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
diff --git a/go/internal/utils/transpose_ints_avx2_amd64.s b/go/internal/utils/transpose_ints_avx2_amd64.s
deleted file mode 100644
index fbcc101eb21a5..0000000000000
--- a/go/internal/utils/transpose_ints_avx2_amd64.s
+++ /dev/null
@@ -1,3074 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_transpose_uint8_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB0_1
-
-LBB0_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB0_5
-
-LBB0_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB0_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB0_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB0_3
-
-LBB0_4:
-	RET
-
-TEXT ·_transpose_int8_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB1_1
-
-LBB1_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB1_5
-
-LBB1_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB1_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB1_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB1_3
-
-LBB1_4:
-	RET
-
-TEXT ·_transpose_uint16_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB2_1
-
-LBB2_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB2_5
-
-LBB2_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB2_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB2_3:
-	LONG $0x04b70f42; BYTE $0x47 // movzx    eax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB2_3
-
-LBB2_4:
-	RET
-
-TEXT ·_transpose_int16_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB3_1
-
-LBB3_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB3_5
-
-LBB3_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB3_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB3_3:
-	LONG $0x04bf0f4a; BYTE $0x47 // movsx    rax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB3_3
-
-LBB3_4:
-	RET
-
-TEXT ·_transpose_uint32_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB4_1
-
-LBB4_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB4_5
-
-LBB4_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB4_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB4_3:
-	LONG $0x87048b42         // mov    eax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB4_3
-
-LBB4_4:
-	RET
-
-TEXT ·_transpose_int32_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB5_1
-
-LBB5_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB5_5
-
-LBB5_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB5_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB5_3:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB5_3
-
-LBB5_4:
-	RET
-
-TEXT ·_transpose_uint64_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB6_1
-
-LBB6_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB6_5
-
-LBB6_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB6_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB6_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB6_3
-
-LBB6_4:
-	RET
-
-TEXT ·_transpose_int64_uint8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB7_1
-
-LBB7_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB7_5
-
-LBB7_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB7_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB7_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB7_3
-
-LBB7_4:
-	RET
-
-TEXT ·_transpose_uint8_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB8_1
-
-LBB8_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB8_5
-
-LBB8_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB8_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB8_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB8_3
-
-LBB8_4:
-	RET
-
-TEXT ·_transpose_int8_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB9_1
-
-LBB9_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB9_5
-
-LBB9_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB9_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB9_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB9_3
-
-LBB9_4:
-	RET
-
-TEXT ·_transpose_uint16_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB10_1
-
-LBB10_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB10_5
-
-LBB10_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB10_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB10_3:
-	LONG $0x04b70f42; BYTE $0x47 // movzx    eax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB10_3
-
-LBB10_4:
-	RET
-
-TEXT ·_transpose_int16_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB11_1
-
-LBB11_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB11_5
-
-LBB11_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB11_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB11_3:
-	LONG $0x04bf0f4a; BYTE $0x47 // movsx    rax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB11_3
-
-LBB11_4:
-	RET
-
-TEXT ·_transpose_uint32_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB12_1
-
-LBB12_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB12_5
-
-LBB12_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB12_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB12_3:
-	LONG $0x87048b42         // mov    eax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB12_3
-
-LBB12_4:
-	RET
-
-TEXT ·_transpose_int32_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB13_1
-
-LBB13_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB13_5
-
-LBB13_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB13_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB13_3:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB13_3
-
-LBB13_4:
-	RET
-
-TEXT ·_transpose_uint64_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB14_1
-
-LBB14_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB14_5
-
-LBB14_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB14_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB14_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB14_3
-
-LBB14_4:
-	RET
-
-TEXT ·_transpose_int64_int8_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB15_1
-
-LBB15_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB15_5
-
-LBB15_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB15_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB15_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB15_3
-
-LBB15_4:
-	RET
-
-TEXT ·_transpose_uint8_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB16_1
-
-LBB16_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB16_5
-
-LBB16_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB16_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB16_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB16_3
-
-LBB16_4:
-	RET
-
-TEXT ·_transpose_int8_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB17_1
-
-LBB17_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB17_5
-
-LBB17_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB17_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB17_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB17_3
-
-LBB17_4:
-	RET
-
-TEXT ·_transpose_uint16_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB18_1
-
-LBB18_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB18_5
-
-LBB18_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB18_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB18_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB18_3
-
-LBB18_4:
-	RET
-
-TEXT ·_transpose_int16_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB19_1
-
-LBB19_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB19_5
-
-LBB19_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB19_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB19_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB19_3
-
-LBB19_4:
-	RET
-
-TEXT ·_transpose_uint32_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB20_1
-
-LBB20_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB20_5
-
-LBB20_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB20_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB20_3:
-	LONG $0x47048b42             // mov    eax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB20_3
-
-LBB20_4:
-	RET
-
-TEXT ·_transpose_int32_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB21_1
-
-LBB21_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB21_5
-
-LBB21_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB21_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB21_3:
-	LONG $0x4704634a             // movsxd    rax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB21_3
-
-LBB21_4:
-	RET
-
-TEXT ·_transpose_uint64_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB22_1
-
-LBB22_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB22_5
-
-LBB22_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB22_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB22_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB22_3
-
-LBB22_4:
-	RET
-
-TEXT ·_transpose_int64_uint16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB23_1
-
-LBB23_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB23_5
-
-LBB23_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB23_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB23_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB23_3
-
-LBB23_4:
-	RET
-
-TEXT ·_transpose_uint8_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB24_1
-
-LBB24_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB24_5
-
-LBB24_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB24_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB24_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB24_3
-
-LBB24_4:
-	RET
-
-TEXT ·_transpose_int8_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB25_1
-
-LBB25_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB25_5
-
-LBB25_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB25_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB25_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB25_3
-
-LBB25_4:
-	RET
-
-TEXT ·_transpose_uint16_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB26_1
-
-LBB26_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB26_5
-
-LBB26_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB26_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB26_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB26_3
-
-LBB26_4:
-	RET
-
-TEXT ·_transpose_int16_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB27_1
-
-LBB27_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB27_5
-
-LBB27_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB27_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB27_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB27_3
-
-LBB27_4:
-	RET
-
-TEXT ·_transpose_uint32_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB28_1
-
-LBB28_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB28_5
-
-LBB28_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB28_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB28_3:
-	LONG $0x47048b42             // mov    eax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB28_3
-
-LBB28_4:
-	RET
-
-TEXT ·_transpose_int32_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB29_1
-
-LBB29_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB29_5
-
-LBB29_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB29_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB29_3:
-	LONG $0x4704634a             // movsxd    rax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB29_3
-
-LBB29_4:
-	RET
-
-TEXT ·_transpose_uint64_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB30_1
-
-LBB30_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB30_5
-
-LBB30_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB30_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB30_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB30_3
-
-LBB30_4:
-	RET
-
-TEXT ·_transpose_int64_int16_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB31_1
-
-LBB31_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB31_5
-
-LBB31_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB31_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB31_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB31_3
-
-LBB31_4:
-	RET
-
-TEXT ·_transpose_uint8_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB32_1
-
-LBB32_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB32_5
-
-LBB32_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB32_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB32_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB32_3
-
-LBB32_4:
-	RET
-
-TEXT ·_transpose_int8_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB33_1
-
-LBB33_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB33_5
-
-LBB33_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB33_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB33_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB33_3
-
-LBB33_4:
-	RET
-
-TEXT ·_transpose_uint16_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB34_1
-
-LBB34_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB34_5
-
-LBB34_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB34_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB34_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB34_3
-
-LBB34_4:
-	RET
-
-TEXT ·_transpose_int16_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB35_1
-
-LBB35_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB35_5
-
-LBB35_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB35_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB35_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB35_3
-
-LBB35_4:
-	RET
-
-TEXT ·_transpose_uint32_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB36_1
-
-LBB36_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB36_5
-
-LBB36_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB36_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB36_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB36_3
-
-LBB36_4:
-	RET
-
-TEXT ·_transpose_int32_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB37_1
-
-LBB37_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB37_5
-
-LBB37_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB37_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB37_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB37_3
-
-LBB37_4:
-	RET
-
-TEXT ·_transpose_uint64_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB38_1
-
-LBB38_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB38_5
-
-LBB38_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB38_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB38_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB38_3
-
-LBB38_4:
-	RET
-
-TEXT ·_transpose_int64_uint32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB39_1
-
-LBB39_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB39_5
-
-LBB39_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB39_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB39_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB39_3
-
-LBB39_4:
-	RET
-
-TEXT ·_transpose_uint8_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB40_1
-
-LBB40_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB40_5
-
-LBB40_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB40_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB40_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB40_3
-
-LBB40_4:
-	RET
-
-TEXT ·_transpose_int8_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB41_1
-
-LBB41_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB41_5
-
-LBB41_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB41_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB41_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB41_3
-
-LBB41_4:
-	RET
-
-TEXT ·_transpose_uint16_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB42_1
-
-LBB42_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB42_5
-
-LBB42_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB42_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB42_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB42_3
-
-LBB42_4:
-	RET
-
-TEXT ·_transpose_int16_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB43_1
-
-LBB43_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB43_5
-
-LBB43_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB43_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB43_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB43_3
-
-LBB43_4:
-	RET
-
-TEXT ·_transpose_uint32_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB44_1
-
-LBB44_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB44_5
-
-LBB44_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB44_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB44_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB44_3
-
-LBB44_4:
-	RET
-
-TEXT ·_transpose_int32_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB45_1
-
-LBB45_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB45_5
-
-LBB45_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB45_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB45_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB45_3
-
-LBB45_4:
-	RET
-
-TEXT ·_transpose_uint64_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB46_1
-
-LBB46_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB46_5
-
-LBB46_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB46_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB46_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB46_3
-
-LBB46_4:
-	RET
-
-TEXT ·_transpose_int64_int32_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB47_1
-
-LBB47_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB47_5
-
-LBB47_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB47_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB47_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB47_3
-
-LBB47_4:
-	RET
-
-TEXT ·_transpose_uint8_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB48_1
-
-LBB48_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB48_5
-
-LBB48_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB48_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB48_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB48_3
-
-LBB48_4:
-	RET
-
-TEXT ·_transpose_int8_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB49_1
-
-LBB49_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB49_5
-
-LBB49_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB49_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB49_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB49_3
-
-LBB49_4:
-	RET
-
-TEXT ·_transpose_uint16_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB50_1
-
-LBB50_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB50_5
-
-LBB50_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB50_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB50_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB50_3
-
-LBB50_4:
-	RET
-
-TEXT ·_transpose_int16_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB51_1
-
-LBB51_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB51_5
-
-LBB51_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB51_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB51_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB51_3
-
-LBB51_4:
-	RET
-
-TEXT ·_transpose_uint32_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB52_1
-
-LBB52_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB52_5
-
-LBB52_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB52_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB52_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB52_3
-
-LBB52_4:
-	RET
-
-TEXT ·_transpose_int32_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB53_1
-
-LBB53_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB53_5
-
-LBB53_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB53_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB53_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB53_3
-
-LBB53_4:
-	RET
-
-TEXT ·_transpose_uint64_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB54_1
-
-LBB54_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB54_5
-
-LBB54_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB54_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB54_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB54_3
-
-LBB54_4:
-	RET
-
-TEXT ·_transpose_int64_uint64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB55_1
-
-LBB55_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB55_5
-
-LBB55_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB55_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB55_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB55_3
-
-LBB55_4:
-	RET
-
-TEXT ·_transpose_uint8_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB56_1
-
-LBB56_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB56_5
-
-LBB56_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB56_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB56_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB56_3
-
-LBB56_4:
-	RET
-
-TEXT ·_transpose_int8_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB57_1
-
-LBB57_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB57_5
-
-LBB57_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB57_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB57_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB57_3
-
-LBB57_4:
-	RET
-
-TEXT ·_transpose_uint16_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB58_1
-
-LBB58_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB58_5
-
-LBB58_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB58_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB58_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB58_3
-
-LBB58_4:
-	RET
-
-TEXT ·_transpose_int16_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB59_1
-
-LBB59_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB59_5
-
-LBB59_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB59_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB59_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB59_3
-
-LBB59_4:
-	RET
-
-TEXT ·_transpose_uint32_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB60_1
-
-LBB60_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB60_5
-
-LBB60_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB60_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB60_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB60_3
-
-LBB60_4:
-	RET
-
-TEXT ·_transpose_int32_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB61_1
-
-LBB61_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB61_5
-
-LBB61_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB61_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB61_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB61_3
-
-LBB61_4:
-	RET
-
-TEXT ·_transpose_uint64_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB62_1
-
-LBB62_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB62_5
-
-LBB62_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB62_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB62_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB62_3
-
-LBB62_4:
-	RET
-
-TEXT ·_transpose_int64_int64_avx2(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB63_1
-
-LBB63_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB63_5
-
-LBB63_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB63_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB63_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB63_3
-
-LBB63_4:
-	RET
diff --git a/go/internal/utils/transpose_ints_def.go b/go/internal/utils/transpose_ints_def.go
deleted file mode 100644
index 2095b3d08c54b..0000000000000
--- a/go/internal/utils/transpose_ints_def.go
+++ /dev/null
@@ -1,227 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"errors"
-
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-//go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata -d arch=avx2 transpose_ints_simd.go.tmpl=transpose_ints_avx2_amd64.go
-//go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata -d arch=sse4 transpose_ints_simd.go.tmpl=transpose_ints_sse4_amd64.go
-//go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata transpose_ints_s390x.go.tmpl=transpose_ints_s390x.go
-//go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata transpose_ints_s390x.go.tmpl=transpose_ints_arm64.go
-//go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata transpose_ints_noasm.go.tmpl=transpose_ints_noasm.go
-//go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata transpose_ints.go.tmpl=transpose_ints.go
-
-func bufToTyped(typ arrow.DataType, buf []byte, offset, length int) (interface{}, error) {
-	switch typ.ID() {
-	case arrow.INT8:
-		return arrow.Int8Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.INT16:
-		return arrow.Int16Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.INT32:
-		return arrow.Int32Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.INT64:
-		return arrow.Int64Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.UINT8:
-		return arrow.Uint8Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.UINT16:
-		return arrow.Uint16Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.UINT32:
-		return arrow.Uint32Traits.CastFromBytes(buf)[offset : offset+length], nil
-	case arrow.UINT64:
-		return arrow.Uint64Traits.CastFromBytes(buf)[offset : offset+length], nil
-	}
-	return nil, errors.New("only accepts integral types")
-}
-
-// TransposeIntsBuffers takes the data-types, byte buffers, and offsets of a source and destination
-// buffer to perform TransposeInts on with the provided mapping data.
-func TransposeIntsBuffers(inType, outType arrow.DataType, indata, outdata []byte, inOffset, outOffset int, length int, transposeMap []int32) error {
-	src, err := bufToTyped(inType, indata, inOffset, length)
-	if err != nil {
-		return err
-	}
-	dest, err := bufToTyped(outType, outdata, outOffset, length)
-	if err != nil {
-		return err
-	}
-
-	return TransposeInts(src, dest, transposeMap)
-}
-
-// TransposeInts expects two integral slices and the values they map to. Returning
-// an error if either src or dest are not an integral type.
-func TransposeInts(src, dest interface{}, mapping []int32) error {
-	switch s := src.(type) {
-	case []int8:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeInt8Int8(s, d, mapping)
-		case []int16:
-			TransposeInt8Int16(s, d, mapping)
-		case []int32:
-			TransposeInt8Int32(s, d, mapping)
-		case []int64:
-			TransposeInt8Int64(s, d, mapping)
-		case []uint8:
-			TransposeInt8Uint8(s, d, mapping)
-		case []uint16:
-			TransposeInt8Uint16(s, d, mapping)
-		case []uint32:
-			TransposeInt8Uint32(s, d, mapping)
-		case []uint64:
-			TransposeInt8Uint64(s, d, mapping)
-		}
-	case []int16:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeInt16Int8(s, d, mapping)
-		case []int16:
-			TransposeInt16Int16(s, d, mapping)
-		case []int32:
-			TransposeInt16Int32(s, d, mapping)
-		case []int64:
-			TransposeInt16Int64(s, d, mapping)
-		case []uint8:
-			TransposeInt16Uint8(s, d, mapping)
-		case []uint16:
-			TransposeInt16Uint16(s, d, mapping)
-		case []uint32:
-			TransposeInt16Uint32(s, d, mapping)
-		case []uint64:
-			TransposeInt16Uint64(s, d, mapping)
-		}
-	case []int32:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeInt32Int8(s, d, mapping)
-		case []int16:
-			TransposeInt32Int16(s, d, mapping)
-		case []int32:
-			TransposeInt32Int32(s, d, mapping)
-		case []int64:
-			TransposeInt32Int64(s, d, mapping)
-		case []uint8:
-			TransposeInt32Uint8(s, d, mapping)
-		case []uint16:
-			TransposeInt32Uint16(s, d, mapping)
-		case []uint32:
-			TransposeInt32Uint32(s, d, mapping)
-		case []uint64:
-			TransposeInt32Uint64(s, d, mapping)
-		}
-	case []int64:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeInt64Int8(s, d, mapping)
-		case []int16:
-			TransposeInt64Int16(s, d, mapping)
-		case []int32:
-			TransposeInt64Int32(s, d, mapping)
-		case []int64:
-			TransposeInt64Int64(s, d, mapping)
-		case []uint8:
-			TransposeInt64Uint8(s, d, mapping)
-		case []uint16:
-			TransposeInt64Uint16(s, d, mapping)
-		case []uint32:
-			TransposeInt64Uint32(s, d, mapping)
-		case []uint64:
-			TransposeInt64Uint64(s, d, mapping)
-		}
-	case []uint8:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeUint8Int8(s, d, mapping)
-		case []int16:
-			TransposeUint8Int16(s, d, mapping)
-		case []int32:
-			TransposeUint8Int32(s, d, mapping)
-		case []int64:
-			TransposeUint8Int64(s, d, mapping)
-		case []uint8:
-			TransposeUint8Uint8(s, d, mapping)
-		case []uint16:
-			TransposeUint8Uint16(s, d, mapping)
-		case []uint32:
-			TransposeUint8Uint32(s, d, mapping)
-		case []uint64:
-			TransposeUint8Uint64(s, d, mapping)
-		}
-	case []uint16:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeUint16Int8(s, d, mapping)
-		case []int16:
-			TransposeUint16Int16(s, d, mapping)
-		case []int32:
-			TransposeUint16Int32(s, d, mapping)
-		case []int64:
-			TransposeUint16Int64(s, d, mapping)
-		case []uint8:
-			TransposeUint16Uint8(s, d, mapping)
-		case []uint16:
-			TransposeUint16Uint16(s, d, mapping)
-		case []uint32:
-			TransposeUint16Uint32(s, d, mapping)
-		case []uint64:
-			TransposeUint16Uint64(s, d, mapping)
-		}
-	case []uint32:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeUint32Int8(s, d, mapping)
-		case []int16:
-			TransposeUint32Int16(s, d, mapping)
-		case []int32:
-			TransposeUint32Int32(s, d, mapping)
-		case []int64:
-			TransposeUint32Int64(s, d, mapping)
-		case []uint8:
-			TransposeUint32Uint8(s, d, mapping)
-		case []uint16:
-			TransposeUint32Uint16(s, d, mapping)
-		case []uint32:
-			TransposeUint32Uint32(s, d, mapping)
-		case []uint64:
-			TransposeUint32Uint64(s, d, mapping)
-		}
-	case []uint64:
-		switch d := dest.(type) {
-		case []int8:
-			TransposeUint64Int8(s, d, mapping)
-		case []int16:
-			TransposeUint64Int16(s, d, mapping)
-		case []int32:
-			TransposeUint64Int32(s, d, mapping)
-		case []int64:
-			TransposeUint64Int64(s, d, mapping)
-		case []uint8:
-			TransposeUint64Uint8(s, d, mapping)
-		case []uint16:
-			TransposeUint64Uint16(s, d, mapping)
-		case []uint32:
-			TransposeUint64Uint32(s, d, mapping)
-		case []uint64:
-			TransposeUint64Uint64(s, d, mapping)
-		}
-	}
-	return nil
-}
diff --git a/go/internal/utils/transpose_ints_noasm.go b/go/internal/utils/transpose_ints_noasm.go
deleted file mode 100644
index 461aaf31fb71e..0000000000000
--- a/go/internal/utils/transpose_ints_noasm.go
+++ /dev/null
@@ -1,96 +0,0 @@
-// Code generated by transpose_ints_noasm.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm || (!amd64 && !arm64 && !s390x && !ppc64le)
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-var (
-	TransposeInt8Int8   = transposeInt8Int8
-	TransposeInt8Uint8  = transposeInt8Uint8
-	TransposeInt8Int16  = transposeInt8Int16
-	TransposeInt8Uint16 = transposeInt8Uint16
-	TransposeInt8Int32  = transposeInt8Int32
-	TransposeInt8Uint32 = transposeInt8Uint32
-	TransposeInt8Int64  = transposeInt8Int64
-	TransposeInt8Uint64 = transposeInt8Uint64
-
-	TransposeUint8Int8   = transposeUint8Int8
-	TransposeUint8Uint8  = transposeUint8Uint8
-	TransposeUint8Int16  = transposeUint8Int16
-	TransposeUint8Uint16 = transposeUint8Uint16
-	TransposeUint8Int32  = transposeUint8Int32
-	TransposeUint8Uint32 = transposeUint8Uint32
-	TransposeUint8Int64  = transposeUint8Int64
-	TransposeUint8Uint64 = transposeUint8Uint64
-
-	TransposeInt16Int8   = transposeInt16Int8
-	TransposeInt16Uint8  = transposeInt16Uint8
-	TransposeInt16Int16  = transposeInt16Int16
-	TransposeInt16Uint16 = transposeInt16Uint16
-	TransposeInt16Int32  = transposeInt16Int32
-	TransposeInt16Uint32 = transposeInt16Uint32
-	TransposeInt16Int64  = transposeInt16Int64
-	TransposeInt16Uint64 = transposeInt16Uint64
-
-	TransposeUint16Int8   = transposeUint16Int8
-	TransposeUint16Uint8  = transposeUint16Uint8
-	TransposeUint16Int16  = transposeUint16Int16
-	TransposeUint16Uint16 = transposeUint16Uint16
-	TransposeUint16Int32  = transposeUint16Int32
-	TransposeUint16Uint32 = transposeUint16Uint32
-	TransposeUint16Int64  = transposeUint16Int64
-	TransposeUint16Uint64 = transposeUint16Uint64
-
-	TransposeInt32Int8   = transposeInt32Int8
-	TransposeInt32Uint8  = transposeInt32Uint8
-	TransposeInt32Int16  = transposeInt32Int16
-	TransposeInt32Uint16 = transposeInt32Uint16
-	TransposeInt32Int32  = transposeInt32Int32
-	TransposeInt32Uint32 = transposeInt32Uint32
-	TransposeInt32Int64  = transposeInt32Int64
-	TransposeInt32Uint64 = transposeInt32Uint64
-
-	TransposeUint32Int8   = transposeUint32Int8
-	TransposeUint32Uint8  = transposeUint32Uint8
-	TransposeUint32Int16  = transposeUint32Int16
-	TransposeUint32Uint16 = transposeUint32Uint16
-	TransposeUint32Int32  = transposeUint32Int32
-	TransposeUint32Uint32 = transposeUint32Uint32
-	TransposeUint32Int64  = transposeUint32Int64
-	TransposeUint32Uint64 = transposeUint32Uint64
-
-	TransposeInt64Int8   = transposeInt64Int8
-	TransposeInt64Uint8  = transposeInt64Uint8
-	TransposeInt64Int16  = transposeInt64Int16
-	TransposeInt64Uint16 = transposeInt64Uint16
-	TransposeInt64Int32  = transposeInt64Int32
-	TransposeInt64Uint32 = transposeInt64Uint32
-	TransposeInt64Int64  = transposeInt64Int64
-	TransposeInt64Uint64 = transposeInt64Uint64
-
-	TransposeUint64Int8   = transposeUint64Int8
-	TransposeUint64Uint8  = transposeUint64Uint8
-	TransposeUint64Int16  = transposeUint64Int16
-	TransposeUint64Uint16 = transposeUint64Uint16
-	TransposeUint64Int32  = transposeUint64Int32
-	TransposeUint64Uint32 = transposeUint64Uint32
-	TransposeUint64Int64  = transposeUint64Int64
-	TransposeUint64Uint64 = transposeUint64Uint64
-)
diff --git a/go/internal/utils/transpose_ints_noasm.go.tmpl b/go/internal/utils/transpose_ints_noasm.go.tmpl
deleted file mode 100644
index faffdce350cf7..0000000000000
--- a/go/internal/utils/transpose_ints_noasm.go.tmpl
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-var (
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type -}}
-{{ $srcName := .Name -}}
-{{ range $typelist -}}
-{{ $dest := .Type -}}
-{{ $destName := .Name -}}
-    Transpose{{$srcName}}{{$destName}} = transpose{{$srcName}}{{$destName}}
-{{end}}
-{{end}}
-)
diff --git a/go/internal/utils/transpose_ints_ppc64le.go b/go/internal/utils/transpose_ints_ppc64le.go
deleted file mode 100644
index cc957cdaa9ff7..0000000000000
--- a/go/internal/utils/transpose_ints_ppc64le.go
+++ /dev/null
@@ -1,96 +0,0 @@
-// Code generated by transpose_ints_s390x.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-var (
-	TransposeInt8Int8   = transposeInt8Int8
-	TransposeInt8Uint8  = transposeInt8Uint8
-	TransposeInt8Int16  = transposeInt8Int16
-	TransposeInt8Uint16 = transposeInt8Uint16
-	TransposeInt8Int32  = transposeInt8Int32
-	TransposeInt8Uint32 = transposeInt8Uint32
-	TransposeInt8Int64  = transposeInt8Int64
-	TransposeInt8Uint64 = transposeInt8Uint64
-
-	TransposeUint8Int8   = transposeUint8Int8
-	TransposeUint8Uint8  = transposeUint8Uint8
-	TransposeUint8Int16  = transposeUint8Int16
-	TransposeUint8Uint16 = transposeUint8Uint16
-	TransposeUint8Int32  = transposeUint8Int32
-	TransposeUint8Uint32 = transposeUint8Uint32
-	TransposeUint8Int64  = transposeUint8Int64
-	TransposeUint8Uint64 = transposeUint8Uint64
-
-	TransposeInt16Int8   = transposeInt16Int8
-	TransposeInt16Uint8  = transposeInt16Uint8
-	TransposeInt16Int16  = transposeInt16Int16
-	TransposeInt16Uint16 = transposeInt16Uint16
-	TransposeInt16Int32  = transposeInt16Int32
-	TransposeInt16Uint32 = transposeInt16Uint32
-	TransposeInt16Int64  = transposeInt16Int64
-	TransposeInt16Uint64 = transposeInt16Uint64
-
-	TransposeUint16Int8   = transposeUint16Int8
-	TransposeUint16Uint8  = transposeUint16Uint8
-	TransposeUint16Int16  = transposeUint16Int16
-	TransposeUint16Uint16 = transposeUint16Uint16
-	TransposeUint16Int32  = transposeUint16Int32
-	TransposeUint16Uint32 = transposeUint16Uint32
-	TransposeUint16Int64  = transposeUint16Int64
-	TransposeUint16Uint64 = transposeUint16Uint64
-
-	TransposeInt32Int8   = transposeInt32Int8
-	TransposeInt32Uint8  = transposeInt32Uint8
-	TransposeInt32Int16  = transposeInt32Int16
-	TransposeInt32Uint16 = transposeInt32Uint16
-	TransposeInt32Int32  = transposeInt32Int32
-	TransposeInt32Uint32 = transposeInt32Uint32
-	TransposeInt32Int64  = transposeInt32Int64
-	TransposeInt32Uint64 = transposeInt32Uint64
-
-	TransposeUint32Int8   = transposeUint32Int8
-	TransposeUint32Uint8  = transposeUint32Uint8
-	TransposeUint32Int16  = transposeUint32Int16
-	TransposeUint32Uint16 = transposeUint32Uint16
-	TransposeUint32Int32  = transposeUint32Int32
-	TransposeUint32Uint32 = transposeUint32Uint32
-	TransposeUint32Int64  = transposeUint32Int64
-	TransposeUint32Uint64 = transposeUint32Uint64
-
-	TransposeInt64Int8   = transposeInt64Int8
-	TransposeInt64Uint8  = transposeInt64Uint8
-	TransposeInt64Int16  = transposeInt64Int16
-	TransposeInt64Uint16 = transposeInt64Uint16
-	TransposeInt64Int32  = transposeInt64Int32
-	TransposeInt64Uint32 = transposeInt64Uint32
-	TransposeInt64Int64  = transposeInt64Int64
-	TransposeInt64Uint64 = transposeInt64Uint64
-
-	TransposeUint64Int8   = transposeUint64Int8
-	TransposeUint64Uint8  = transposeUint64Uint8
-	TransposeUint64Int16  = transposeUint64Int16
-	TransposeUint64Uint16 = transposeUint64Uint16
-	TransposeUint64Int32  = transposeUint64Int32
-	TransposeUint64Uint32 = transposeUint64Uint32
-	TransposeUint64Int64  = transposeUint64Int64
-	TransposeUint64Uint64 = transposeUint64Uint64
-)
diff --git a/go/internal/utils/transpose_ints_s390x.go b/go/internal/utils/transpose_ints_s390x.go
deleted file mode 100644
index cc957cdaa9ff7..0000000000000
--- a/go/internal/utils/transpose_ints_s390x.go
+++ /dev/null
@@ -1,96 +0,0 @@
-// Code generated by transpose_ints_s390x.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-var (
-	TransposeInt8Int8   = transposeInt8Int8
-	TransposeInt8Uint8  = transposeInt8Uint8
-	TransposeInt8Int16  = transposeInt8Int16
-	TransposeInt8Uint16 = transposeInt8Uint16
-	TransposeInt8Int32  = transposeInt8Int32
-	TransposeInt8Uint32 = transposeInt8Uint32
-	TransposeInt8Int64  = transposeInt8Int64
-	TransposeInt8Uint64 = transposeInt8Uint64
-
-	TransposeUint8Int8   = transposeUint8Int8
-	TransposeUint8Uint8  = transposeUint8Uint8
-	TransposeUint8Int16  = transposeUint8Int16
-	TransposeUint8Uint16 = transposeUint8Uint16
-	TransposeUint8Int32  = transposeUint8Int32
-	TransposeUint8Uint32 = transposeUint8Uint32
-	TransposeUint8Int64  = transposeUint8Int64
-	TransposeUint8Uint64 = transposeUint8Uint64
-
-	TransposeInt16Int8   = transposeInt16Int8
-	TransposeInt16Uint8  = transposeInt16Uint8
-	TransposeInt16Int16  = transposeInt16Int16
-	TransposeInt16Uint16 = transposeInt16Uint16
-	TransposeInt16Int32  = transposeInt16Int32
-	TransposeInt16Uint32 = transposeInt16Uint32
-	TransposeInt16Int64  = transposeInt16Int64
-	TransposeInt16Uint64 = transposeInt16Uint64
-
-	TransposeUint16Int8   = transposeUint16Int8
-	TransposeUint16Uint8  = transposeUint16Uint8
-	TransposeUint16Int16  = transposeUint16Int16
-	TransposeUint16Uint16 = transposeUint16Uint16
-	TransposeUint16Int32  = transposeUint16Int32
-	TransposeUint16Uint32 = transposeUint16Uint32
-	TransposeUint16Int64  = transposeUint16Int64
-	TransposeUint16Uint64 = transposeUint16Uint64
-
-	TransposeInt32Int8   = transposeInt32Int8
-	TransposeInt32Uint8  = transposeInt32Uint8
-	TransposeInt32Int16  = transposeInt32Int16
-	TransposeInt32Uint16 = transposeInt32Uint16
-	TransposeInt32Int32  = transposeInt32Int32
-	TransposeInt32Uint32 = transposeInt32Uint32
-	TransposeInt32Int64  = transposeInt32Int64
-	TransposeInt32Uint64 = transposeInt32Uint64
-
-	TransposeUint32Int8   = transposeUint32Int8
-	TransposeUint32Uint8  = transposeUint32Uint8
-	TransposeUint32Int16  = transposeUint32Int16
-	TransposeUint32Uint16 = transposeUint32Uint16
-	TransposeUint32Int32  = transposeUint32Int32
-	TransposeUint32Uint32 = transposeUint32Uint32
-	TransposeUint32Int64  = transposeUint32Int64
-	TransposeUint32Uint64 = transposeUint32Uint64
-
-	TransposeInt64Int8   = transposeInt64Int8
-	TransposeInt64Uint8  = transposeInt64Uint8
-	TransposeInt64Int16  = transposeInt64Int16
-	TransposeInt64Uint16 = transposeInt64Uint16
-	TransposeInt64Int32  = transposeInt64Int32
-	TransposeInt64Uint32 = transposeInt64Uint32
-	TransposeInt64Int64  = transposeInt64Int64
-	TransposeInt64Uint64 = transposeInt64Uint64
-
-	TransposeUint64Int8   = transposeUint64Int8
-	TransposeUint64Uint8  = transposeUint64Uint8
-	TransposeUint64Int16  = transposeUint64Int16
-	TransposeUint64Uint16 = transposeUint64Uint16
-	TransposeUint64Int32  = transposeUint64Int32
-	TransposeUint64Uint32 = transposeUint64Uint32
-	TransposeUint64Int64  = transposeUint64Int64
-	TransposeUint64Uint64 = transposeUint64Uint64
-)
diff --git a/go/internal/utils/transpose_ints_s390x.go.tmpl b/go/internal/utils/transpose_ints_s390x.go.tmpl
deleted file mode 100644
index d93c8779c7c86..0000000000000
--- a/go/internal/utils/transpose_ints_s390x.go.tmpl
+++ /dev/null
@@ -1,34 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-// if building with the 'noasm' tag, then point to the pure go implementations
-var (
-{{ $typelist := .In }}
-{{range .In}}
-{{ $src := .Type -}}
-{{ $srcName := .Name -}}
-{{ range $typelist -}}
-{{ $dest := .Type -}}
-{{ $destName := .Name -}}
-    Transpose{{$srcName}}{{$destName}} = transpose{{$srcName}}{{$destName}}
-{{end}}
-{{end}}
-)
diff --git a/go/internal/utils/transpose_ints_simd.go.tmpl b/go/internal/utils/transpose_ints_simd.go.tmpl
deleted file mode 100644
index 034d0e9d2d446..0000000000000
--- a/go/internal/utils/transpose_ints_simd.go.tmpl
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-	"unsafe"
-)
-
-{{ $arch := .D.arch}}
-{{ $typelist := .In}}
-{{range .In}}
-{{ $src := .Type }}
-{{ $srcName := .Name }}
-{{ range $typelist}}
-{{ $dest := .Type }}
-{{ $destName := .Name }}
-
-//go:noescape
-func _transpose_{{printf "%s_%s_%s" $src $dest $arch}}(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transpose{{ $srcName }}{{ $destName }}{{ $arch }}(src []{{$src}}, dest []{{$dest}}, transposeMap []int32) {
-	_transpose_{{printf "%s_%s_%s" $src $dest $arch}}(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-{{ end }}
-{{ end }}
diff --git a/go/internal/utils/transpose_ints_sse4_amd64.go b/go/internal/utils/transpose_ints_sse4_amd64.go
deleted file mode 100644
index 241ca74a76737..0000000000000
--- a/go/internal/utils/transpose_ints_sse4_amd64.go
+++ /dev/null
@@ -1,473 +0,0 @@
-// Code generated by transpose_ints_simd.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils
-
-import (
-	"unsafe"
-)
-
-//go:noescape
-func _transpose_int8_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int8sse4(src []int8, dest []int8, transposeMap []int32) {
-	_transpose_int8_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint8sse4(src []int8, dest []uint8, transposeMap []int32) {
-	_transpose_int8_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int16sse4(src []int8, dest []int16, transposeMap []int32) {
-	_transpose_int8_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint16sse4(src []int8, dest []uint16, transposeMap []int32) {
-	_transpose_int8_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int32sse4(src []int8, dest []int32, transposeMap []int32) {
-	_transpose_int8_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint32sse4(src []int8, dest []uint32, transposeMap []int32) {
-	_transpose_int8_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Int64sse4(src []int8, dest []int64, transposeMap []int32) {
-	_transpose_int8_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int8_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt8Uint64sse4(src []int8, dest []uint64, transposeMap []int32) {
-	_transpose_int8_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int8sse4(src []uint8, dest []int8, transposeMap []int32) {
-	_transpose_uint8_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint8sse4(src []uint8, dest []uint8, transposeMap []int32) {
-	_transpose_uint8_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int16sse4(src []uint8, dest []int16, transposeMap []int32) {
-	_transpose_uint8_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint16sse4(src []uint8, dest []uint16, transposeMap []int32) {
-	_transpose_uint8_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int32sse4(src []uint8, dest []int32, transposeMap []int32) {
-	_transpose_uint8_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint32sse4(src []uint8, dest []uint32, transposeMap []int32) {
-	_transpose_uint8_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Int64sse4(src []uint8, dest []int64, transposeMap []int32) {
-	_transpose_uint8_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint8_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint8Uint64sse4(src []uint8, dest []uint64, transposeMap []int32) {
-	_transpose_uint8_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int8sse4(src []int16, dest []int8, transposeMap []int32) {
-	_transpose_int16_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint8sse4(src []int16, dest []uint8, transposeMap []int32) {
-	_transpose_int16_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int16sse4(src []int16, dest []int16, transposeMap []int32) {
-	_transpose_int16_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint16sse4(src []int16, dest []uint16, transposeMap []int32) {
-	_transpose_int16_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int32sse4(src []int16, dest []int32, transposeMap []int32) {
-	_transpose_int16_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint32sse4(src []int16, dest []uint32, transposeMap []int32) {
-	_transpose_int16_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Int64sse4(src []int16, dest []int64, transposeMap []int32) {
-	_transpose_int16_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int16_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt16Uint64sse4(src []int16, dest []uint64, transposeMap []int32) {
-	_transpose_int16_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int8sse4(src []uint16, dest []int8, transposeMap []int32) {
-	_transpose_uint16_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint8sse4(src []uint16, dest []uint8, transposeMap []int32) {
-	_transpose_uint16_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int16sse4(src []uint16, dest []int16, transposeMap []int32) {
-	_transpose_uint16_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint16sse4(src []uint16, dest []uint16, transposeMap []int32) {
-	_transpose_uint16_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int32sse4(src []uint16, dest []int32, transposeMap []int32) {
-	_transpose_uint16_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint32sse4(src []uint16, dest []uint32, transposeMap []int32) {
-	_transpose_uint16_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Int64sse4(src []uint16, dest []int64, transposeMap []int32) {
-	_transpose_uint16_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint16_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint16Uint64sse4(src []uint16, dest []uint64, transposeMap []int32) {
-	_transpose_uint16_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int8sse4(src []int32, dest []int8, transposeMap []int32) {
-	_transpose_int32_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint8sse4(src []int32, dest []uint8, transposeMap []int32) {
-	_transpose_int32_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int16sse4(src []int32, dest []int16, transposeMap []int32) {
-	_transpose_int32_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint16sse4(src []int32, dest []uint16, transposeMap []int32) {
-	_transpose_int32_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int32sse4(src []int32, dest []int32, transposeMap []int32) {
-	_transpose_int32_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint32sse4(src []int32, dest []uint32, transposeMap []int32) {
-	_transpose_int32_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Int64sse4(src []int32, dest []int64, transposeMap []int32) {
-	_transpose_int32_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int32_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt32Uint64sse4(src []int32, dest []uint64, transposeMap []int32) {
-	_transpose_int32_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int8sse4(src []uint32, dest []int8, transposeMap []int32) {
-	_transpose_uint32_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint8sse4(src []uint32, dest []uint8, transposeMap []int32) {
-	_transpose_uint32_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int16sse4(src []uint32, dest []int16, transposeMap []int32) {
-	_transpose_uint32_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint16sse4(src []uint32, dest []uint16, transposeMap []int32) {
-	_transpose_uint32_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int32sse4(src []uint32, dest []int32, transposeMap []int32) {
-	_transpose_uint32_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint32sse4(src []uint32, dest []uint32, transposeMap []int32) {
-	_transpose_uint32_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Int64sse4(src []uint32, dest []int64, transposeMap []int32) {
-	_transpose_uint32_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint32_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint32Uint64sse4(src []uint32, dest []uint64, transposeMap []int32) {
-	_transpose_uint32_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int8sse4(src []int64, dest []int8, transposeMap []int32) {
-	_transpose_int64_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint8sse4(src []int64, dest []uint8, transposeMap []int32) {
-	_transpose_int64_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int16sse4(src []int64, dest []int16, transposeMap []int32) {
-	_transpose_int64_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint16sse4(src []int64, dest []uint16, transposeMap []int32) {
-	_transpose_int64_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int32sse4(src []int64, dest []int32, transposeMap []int32) {
-	_transpose_int64_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint32sse4(src []int64, dest []uint32, transposeMap []int32) {
-	_transpose_int64_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Int64sse4(src []int64, dest []int64, transposeMap []int32) {
-	_transpose_int64_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_int64_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeInt64Uint64sse4(src []int64, dest []uint64, transposeMap []int32) {
-	_transpose_int64_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int8sse4(src []uint64, dest []int8, transposeMap []int32) {
-	_transpose_uint64_int8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint8_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint8sse4(src []uint64, dest []uint8, transposeMap []int32) {
-	_transpose_uint64_uint8_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int16sse4(src []uint64, dest []int16, transposeMap []int32) {
-	_transpose_uint64_int16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint16_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint16sse4(src []uint64, dest []uint16, transposeMap []int32) {
-	_transpose_uint64_uint16_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int32sse4(src []uint64, dest []int32, transposeMap []int32) {
-	_transpose_uint64_int32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint32_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint32sse4(src []uint64, dest []uint32, transposeMap []int32) {
-	_transpose_uint64_uint32_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_int64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Int64sse4(src []uint64, dest []int64, transposeMap []int32) {
-	_transpose_uint64_int64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
-
-//go:noescape
-func _transpose_uint64_uint64_sse4(src, dest unsafe.Pointer, length int, transposeMap unsafe.Pointer)
-
-func transposeUint64Uint64sse4(src []uint64, dest []uint64, transposeMap []int32) {
-	_transpose_uint64_uint64_sse4(unsafe.Pointer(&src[0]), unsafe.Pointer(&dest[0]), len(dest), unsafe.Pointer(&transposeMap[0]))
-}
diff --git a/go/internal/utils/transpose_ints_sse4_amd64.s b/go/internal/utils/transpose_ints_sse4_amd64.s
deleted file mode 100644
index ee5199a5a8491..0000000000000
--- a/go/internal/utils/transpose_ints_sse4_amd64.s
+++ /dev/null
@@ -1,3074 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_transpose_uint8_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB0_1
-
-LBB0_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB0_5
-
-LBB0_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB0_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB0_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB0_3
-
-LBB0_4:
-	RET
-
-TEXT ·_transpose_int8_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB1_1
-
-LBB1_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB1_5
-
-LBB1_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB1_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB1_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB1_3
-
-LBB1_4:
-	RET
-
-TEXT ·_transpose_uint16_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB2_1
-
-LBB2_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB2_5
-
-LBB2_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB2_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB2_3:
-	LONG $0x04b70f42; BYTE $0x47 // movzx    eax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB2_3
-
-LBB2_4:
-	RET
-
-TEXT ·_transpose_int16_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB3_1
-
-LBB3_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB3_5
-
-LBB3_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB3_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB3_3:
-	LONG $0x04bf0f4a; BYTE $0x47 // movsx    rax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB3_3
-
-LBB3_4:
-	RET
-
-TEXT ·_transpose_uint32_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB4_1
-
-LBB4_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB4_5
-
-LBB4_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB4_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB4_3:
-	LONG $0x87048b42         // mov    eax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB4_3
-
-LBB4_4:
-	RET
-
-TEXT ·_transpose_int32_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB5_1
-
-LBB5_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB5_5
-
-LBB5_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB5_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB5_3:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB5_3
-
-LBB5_4:
-	RET
-
-TEXT ·_transpose_uint64_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB6_1
-
-LBB6_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB6_5
-
-LBB6_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB6_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB6_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB6_3
-
-LBB6_4:
-	RET
-
-TEXT ·_transpose_int64_uint8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB7_1
-
-LBB7_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB7_5
-
-LBB7_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB7_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB7_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB7_3
-
-LBB7_4:
-	RET
-
-TEXT ·_transpose_uint8_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB8_1
-
-LBB8_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB8_5
-
-LBB8_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB8_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB8_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB8_3
-
-LBB8_4:
-	RET
-
-TEXT ·_transpose_int8_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB9_1
-
-LBB9_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB9_5
-
-LBB9_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB9_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB9_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB9_3
-
-LBB9_4:
-	RET
-
-TEXT ·_transpose_uint16_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB10_1
-
-LBB10_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB10_5
-
-LBB10_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB10_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB10_3:
-	LONG $0x04b70f42; BYTE $0x47 // movzx    eax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB10_3
-
-LBB10_4:
-	RET
-
-TEXT ·_transpose_int16_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB11_1
-
-LBB11_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688                 // mov    byte [rsi], dl
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01     // mov    byte [rsi + 1], dl
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02     // mov    byte [rsi + 2], dl
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b60f             // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03     // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB11_5
-
-LBB11_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB11_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB11_3:
-	LONG $0x04bf0f4a; BYTE $0x47 // movsx    rax, word [rdi + 2*r8]
-	LONG $0x8104b60f             // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842             // mov    byte [rsi + r8], al
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB11_3
-
-LBB11_4:
-	RET
-
-TEXT ·_transpose_uint32_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB12_1
-
-LBB12_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB12_5
-
-LBB12_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB12_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB12_3:
-	LONG $0x87048b42         // mov    eax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB12_3
-
-LBB12_4:
-	RET
-
-TEXT ·_transpose_int32_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB13_1
-
-LBB13_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB13_5
-
-LBB13_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB13_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB13_3:
-	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB13_3
-
-LBB13_4:
-	RET
-
-TEXT ·_transpose_uint64_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB14_1
-
-LBB14_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB14_5
-
-LBB14_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB14_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB14_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB14_3
-
-LBB14_4:
-	RET
-
-TEXT ·_transpose_int64_int8_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB15_1
-
-LBB15_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x1688             // mov    byte [rsi], dl
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x01 // mov    byte [rsi + 1], dl
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x02 // mov    byte [rsi + 2], dl
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b60f         // movzx    edx, byte [rcx + 4*rdx]
-	WORD $0x5688; BYTE $0x03 // mov    byte [rsi + 3], dl
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x04c68348         // add    rsi, 4
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB15_5
-
-LBB15_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB15_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB15_3:
-	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
-	LONG $0x8104b60f         // movzx    eax, byte [rcx + 4*rax]
-	LONG $0x06048842         // mov    byte [rsi + r8], al
-	LONG $0x01c08349         // add    r8, 1
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB15_3
-
-LBB15_4:
-	RET
-
-TEXT ·_transpose_uint8_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB16_1
-
-LBB16_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB16_5
-
-LBB16_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB16_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB16_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB16_3
-
-LBB16_4:
-	RET
-
-TEXT ·_transpose_int8_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB17_1
-
-LBB17_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB17_5
-
-LBB17_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB17_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB17_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB17_3
-
-LBB17_4:
-	RET
-
-TEXT ·_transpose_uint16_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB18_1
-
-LBB18_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB18_5
-
-LBB18_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB18_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB18_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB18_3
-
-LBB18_4:
-	RET
-
-TEXT ·_transpose_int16_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB19_1
-
-LBB19_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB19_5
-
-LBB19_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB19_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB19_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB19_3
-
-LBB19_4:
-	RET
-
-TEXT ·_transpose_uint32_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB20_1
-
-LBB20_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB20_5
-
-LBB20_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB20_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB20_3:
-	LONG $0x47048b42             // mov    eax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB20_3
-
-LBB20_4:
-	RET
-
-TEXT ·_transpose_int32_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB21_1
-
-LBB21_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB21_5
-
-LBB21_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB21_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB21_3:
-	LONG $0x4704634a             // movsxd    rax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB21_3
-
-LBB21_4:
-	RET
-
-TEXT ·_transpose_uint64_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB22_1
-
-LBB22_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB22_5
-
-LBB22_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB22_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB22_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB22_3
-
-LBB22_4:
-	RET
-
-TEXT ·_transpose_int64_uint16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB23_1
-
-LBB23_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB23_5
-
-LBB23_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB23_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB23_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB23_3
-
-LBB23_4:
-	RET
-
-TEXT ·_transpose_uint8_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB24_1
-
-LBB24_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB24_5
-
-LBB24_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB24_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB24_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB24_3
-
-LBB24_4:
-	RET
-
-TEXT ·_transpose_int8_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB25_1
-
-LBB25_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB25_5
-
-LBB25_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB25_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB25_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x46 // mov    word [rsi + 2*r8], ax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB25_3
-
-LBB25_4:
-	RET
-
-TEXT ·_transpose_uint16_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB26_1
-
-LBB26_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB26_5
-
-LBB26_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB26_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB26_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB26_3
-
-LBB26_4:
-	RET
-
-TEXT ·_transpose_int16_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB27_1
-
-LBB27_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16     // mov    word [rsi], dx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966             // mov    word [rsi + 2], dx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966             // mov    word [rsi + 4], dx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x9114b70f             // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966             // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x08c68348             // add    rsi, 8
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB27_5
-
-LBB27_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB27_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB27_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB27_3
-
-LBB27_4:
-	RET
-
-TEXT ·_transpose_uint32_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB28_1
-
-LBB28_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB28_5
-
-LBB28_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB28_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB28_3:
-	LONG $0x47048b42             // mov    eax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB28_3
-
-LBB28_4:
-	RET
-
-TEXT ·_transpose_int32_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB29_1
-
-LBB29_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB29_5
-
-LBB29_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB29_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB29_3:
-	LONG $0x4704634a             // movsxd    rax, dword [rdi + 2*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB29_3
-
-LBB29_4:
-	RET
-
-TEXT ·_transpose_uint64_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB30_1
-
-LBB30_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB30_5
-
-LBB30_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB30_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB30_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB30_3
-
-LBB30_4:
-	RET
-
-TEXT ·_transpose_int64_int16_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB31_1
-
-LBB31_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	WORD $0x8966; BYTE $0x16 // mov    word [rsi], dx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x02568966         // mov    word [rsi + 2], dx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x04568966         // mov    word [rsi + 4], dx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x9114b70f         // movzx    edx, word [rcx + 4*rdx]
-	LONG $0x06568966         // mov    word [rsi + 6], dx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x08c68348         // add    rsi, 8
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB31_5
-
-LBB31_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB31_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB31_3:
-	LONG $0x87048b4a             // mov    rax, qword [rdi + 4*r8]
-	LONG $0x8104b70f             // movzx    eax, word [rcx + 4*rax]
-	LONG $0x04894266; BYTE $0x06 // mov    word [rsi + r8], ax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB31_3
-
-LBB31_4:
-	RET
-
-TEXT ·_transpose_uint8_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB32_1
-
-LBB32_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB32_5
-
-LBB32_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB32_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB32_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB32_3
-
-LBB32_4:
-	RET
-
-TEXT ·_transpose_int8_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB33_1
-
-LBB33_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB33_5
-
-LBB33_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB33_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB33_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB33_3
-
-LBB33_4:
-	RET
-
-TEXT ·_transpose_uint16_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB34_1
-
-LBB34_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB34_5
-
-LBB34_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB34_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB34_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB34_3
-
-LBB34_4:
-	RET
-
-TEXT ·_transpose_int16_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB35_1
-
-LBB35_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB35_5
-
-LBB35_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB35_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB35_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB35_3
-
-LBB35_4:
-	RET
-
-TEXT ·_transpose_uint32_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB36_1
-
-LBB36_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB36_5
-
-LBB36_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB36_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB36_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB36_3
-
-LBB36_4:
-	RET
-
-TEXT ·_transpose_int32_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB37_1
-
-LBB37_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB37_5
-
-LBB37_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB37_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB37_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB37_3
-
-LBB37_4:
-	RET
-
-TEXT ·_transpose_uint64_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB38_1
-
-LBB38_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB38_5
-
-LBB38_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB38_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB38_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB38_3
-
-LBB38_4:
-	RET
-
-TEXT ·_transpose_int64_uint32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB39_1
-
-LBB39_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB39_5
-
-LBB39_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB39_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB39_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB39_3
-
-LBB39_4:
-	RET
-
-TEXT ·_transpose_uint8_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB40_1
-
-LBB40_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB40_5
-
-LBB40_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB40_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB40_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB40_3
-
-LBB40_4:
-	RET
-
-TEXT ·_transpose_int8_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB41_1
-
-LBB41_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB41_5
-
-LBB41_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB41_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB41_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB41_3
-
-LBB41_4:
-	RET
-
-TEXT ·_transpose_uint16_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB42_1
-
-LBB42_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB42_5
-
-LBB42_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB42_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB42_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB42_3
-
-LBB42_4:
-	RET
-
-TEXT ·_transpose_int16_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB43_1
-
-LBB43_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689                 // mov    dword [rsi], edx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04     // mov    dword [rsi + 4], edx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08     // mov    dword [rsi + 8], edx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	WORD $0x148b; BYTE $0x91     // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c     // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x10c68348             // add    rsi, 16
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB43_5
-
-LBB43_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB43_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB43_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	WORD $0x048b; BYTE $0x81     // mov    eax, dword [rcx + 4*rax]
-	LONG $0x46048942             // mov    dword [rsi + 2*r8], eax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB43_3
-
-LBB43_4:
-	RET
-
-TEXT ·_transpose_uint32_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB44_1
-
-LBB44_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB44_5
-
-LBB44_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB44_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB44_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB44_3
-
-LBB44_4:
-	RET
-
-TEXT ·_transpose_int32_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB45_1
-
-LBB45_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB45_5
-
-LBB45_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB45_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB45_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB45_3
-
-LBB45_4:
-	RET
-
-TEXT ·_transpose_uint64_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB46_1
-
-LBB46_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB46_5
-
-LBB46_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB46_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB46_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB46_3
-
-LBB46_4:
-	RET
-
-TEXT ·_transpose_int64_int32_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB47_1
-
-LBB47_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x1689             // mov    dword [rsi], edx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x04 // mov    dword [rsi + 4], edx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x08 // mov    dword [rsi + 8], edx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	WORD $0x148b; BYTE $0x91 // mov    edx, dword [rcx + 4*rdx]
-	WORD $0x5689; BYTE $0x0c // mov    dword [rsi + 12], edx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x10c68348         // add    rsi, 16
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB47_5
-
-LBB47_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB47_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB47_3:
-	LONG $0x47048b4a         // mov    rax, qword [rdi + 2*r8]
-	WORD $0x048b; BYTE $0x81 // mov    eax, dword [rcx + 4*rax]
-	LONG $0x06048942         // mov    dword [rsi + r8], eax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB47_3
-
-LBB47_4:
-	RET
-
-TEXT ·_transpose_uint8_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB48_1
-
-LBB48_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB48_5
-
-LBB48_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB48_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB48_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB48_3
-
-LBB48_4:
-	RET
-
-TEXT ·_transpose_int8_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB49_1
-
-LBB49_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB49_5
-
-LBB49_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB49_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB49_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB49_3
-
-LBB49_4:
-	RET
-
-TEXT ·_transpose_uint16_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB50_1
-
-LBB50_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB50_5
-
-LBB50_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB50_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB50_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB50_3
-
-LBB50_4:
-	RET
-
-TEXT ·_transpose_int16_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB51_1
-
-LBB51_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB51_5
-
-LBB51_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB51_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB51_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB51_3
-
-LBB51_4:
-	RET
-
-TEXT ·_transpose_uint32_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB52_1
-
-LBB52_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB52_5
-
-LBB52_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB52_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB52_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB52_3
-
-LBB52_4:
-	RET
-
-TEXT ·_transpose_int32_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB53_1
-
-LBB53_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB53_5
-
-LBB53_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB53_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB53_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB53_3
-
-LBB53_4:
-	RET
-
-TEXT ·_transpose_uint64_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB54_1
-
-LBB54_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB54_5
-
-LBB54_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB54_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB54_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB54_3
-
-LBB54_4:
-	RET
-
-TEXT ·_transpose_int64_uint64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB55_1
-
-LBB55_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB55_5
-
-LBB55_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB55_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB55_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB55_3
-
-LBB55_4:
-	RET
-
-TEXT ·_transpose_uint8_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB56_1
-
-LBB56_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb60f; BYTE $0x17 // movzx    edx, byte [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0157b60f         // movzx    edx, byte [rdi + 1]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0257b60f         // movzx    edx, byte [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0357b60f         // movzx    edx, byte [rdi + 3]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x04c78348         // add    rdi, 4
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB56_5
-
-LBB56_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB56_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB56_3:
-	LONG $0x04b60f42; BYTE $0x07 // movzx    eax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB56_3
-
-LBB56_4:
-	RET
-
-TEXT ·_transpose_int8_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB57_1
-
-LBB57_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17be0f48             // movsx    rdx, byte [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57be0f48; BYTE $0x01 // movsx    rdx, byte [rdi + 1]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57be0f48; BYTE $0x02 // movsx    rdx, byte [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57be0f48; BYTE $0x03 // movsx    rdx, byte [rdi + 3]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x04c78348             // add    rdi, 4
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB57_5
-
-LBB57_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB57_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB57_3:
-	LONG $0x04be0f4a; BYTE $0x07 // movsx    rax, byte [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
-	LONG $0x01c08349             // add    r8, 1
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB57_3
-
-LBB57_4:
-	RET
-
-TEXT ·_transpose_uint16_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB58_1
-
-LBB58_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0xb70f; BYTE $0x17 // movzx    edx, word [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x0257b70f         // movzx    edx, word [rdi + 2]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x0457b70f         // movzx    edx, word [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0657b70f         // movzx    edx, word [rdi + 6]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x08c78348         // add    rdi, 8
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB58_5
-
-LBB58_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB58_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB58_3:
-	LONG $0x04b70f42; BYTE $0x07 // movzx    eax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB58_3
-
-LBB58_4:
-	RET
-
-TEXT ·_transpose_int16_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB59_1
-
-LBB59_5:
-	WORD $0xd089                 // mov    eax, edx
-	LONG $0x17bf0f48             // movsx    rdx, word [rdi]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16     // mov    qword [rsi], rdx
-	LONG $0x57bf0f48; BYTE $0x02 // movsx    rdx, word [rdi + 2]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948             // mov    qword [rsi + 8], rdx
-	LONG $0x57bf0f48; BYTE $0x04 // movsx    rdx, word [rdi + 4]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948             // mov    qword [rsi + 16], rdx
-	LONG $0x57bf0f48; BYTE $0x06 // movsx    rdx, word [rdi + 6]
-	LONG $0x91146348             // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948             // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc     // lea    edx, [rax - 4]
-	LONG $0x08c78348             // add    rdi, 8
-	LONG $0x20c68348             // add    rsi, 32
-	WORD $0xf883; BYTE $0x07     // cmp    eax, 7
-	JG   LBB59_5
-
-LBB59_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB59_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB59_3:
-	LONG $0x04bf0f4a; BYTE $0x07 // movsx    rax, word [rdi + r8]
-	LONG $0x81046348             // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x8604894a             // mov    qword [rsi + 4*r8], rax
-	LONG $0x02c08349             // add    r8, 2
-	WORD $0xc283; BYTE $0xff     // add    edx, -1
-	WORD $0xfa83; BYTE $0x01     // cmp    edx, 1
-	JG   LBB59_3
-
-LBB59_4:
-	RET
-
-TEXT ·_transpose_uint32_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB60_1
-
-LBB60_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x178b             // mov    edx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	WORD $0x578b; BYTE $0x04 // mov    edx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	WORD $0x578b; BYTE $0x08 // mov    edx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	WORD $0x578b; BYTE $0x0c // mov    edx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB60_5
-
-LBB60_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB60_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB60_3:
-	LONG $0x07048b42         // mov    eax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB60_3
-
-LBB60_4:
-	RET
-
-TEXT ·_transpose_int32_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB61_1
-
-LBB61_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x6348; BYTE $0x17 // movsxd    rdx, dword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x04576348         // movsxd    rdx, dword [rdi + 4]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x08576348         // movsxd    rdx, dword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x0c576348         // movsxd    rdx, dword [rdi + 12]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x10c78348         // add    rdi, 16
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB61_5
-
-LBB61_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB61_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB61_3:
-	LONG $0x0704634a         // movsxd    rax, dword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x4604894a         // mov    qword [rsi + 2*r8], rax
-	LONG $0x04c08349         // add    r8, 4
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB61_3
-
-LBB61_4:
-	RET
-
-TEXT ·_transpose_uint64_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB62_1
-
-LBB62_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB62_5
-
-LBB62_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB62_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB62_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB62_3
-
-LBB62_4:
-	RET
-
-TEXT ·_transpose_int64_int64_sse4(SB), $0-32
-
-	MOVQ src+0(FP), DI
-	MOVQ dest+8(FP), SI
-	MOVQ length+16(FP), DX
-	MOVQ transposeMap+24(FP), CX
-
-	WORD $0xfa83; BYTE $0x04 // cmp    edx, 4
-	JL   LBB63_1
-
-LBB63_5:
-	WORD $0xd089             // mov    eax, edx
-	WORD $0x8b48; BYTE $0x17 // mov    rdx, qword [rdi]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	WORD $0x8948; BYTE $0x16 // mov    qword [rsi], rdx
-	LONG $0x08578b48         // mov    rdx, qword [rdi + 8]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x08568948         // mov    qword [rsi + 8], rdx
-	LONG $0x10578b48         // mov    rdx, qword [rdi + 16]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x10568948         // mov    qword [rsi + 16], rdx
-	LONG $0x18578b48         // mov    rdx, qword [rdi + 24]
-	LONG $0x91146348         // movsxd    rdx, dword [rcx + 4*rdx]
-	LONG $0x18568948         // mov    qword [rsi + 24], rdx
-	WORD $0x508d; BYTE $0xfc // lea    edx, [rax - 4]
-	LONG $0x20c78348         // add    rdi, 32
-	LONG $0x20c68348         // add    rsi, 32
-	WORD $0xf883; BYTE $0x07 // cmp    eax, 7
-	JG   LBB63_5
-
-LBB63_1:
-	WORD $0xd285             // test    edx, edx
-	JLE  LBB63_4
-	WORD $0xc283; BYTE $0x01 // add    edx, 1
-	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
-
-LBB63_3:
-	LONG $0x07048b4a         // mov    rax, qword [rdi + r8]
-	LONG $0x81046348         // movsxd    rax, dword [rcx + 4*rax]
-	LONG $0x0604894a         // mov    qword [rsi + r8], rax
-	LONG $0x08c08349         // add    r8, 8
-	WORD $0xc283; BYTE $0xff // add    edx, -1
-	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
-	JG   LBB63_3
-
-LBB63_4:
-	RET
diff --git a/go/internal/utils/transpose_ints_test.go b/go/internal/utils/transpose_ints_test.go
deleted file mode 100644
index 427a1ad041c55..0000000000000
--- a/go/internal/utils/transpose_ints_test.go
+++ /dev/null
@@ -1,49 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-
-package utils_test
-
-import (
-	"math/rand"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-var (
-	src     = make([]int8, 1000)
-	mapping = make([]int32, 50)
-)
-
-func init() {
-	for i := range mapping {
-		mapping[i] = int32(i * 100)
-	}
-
-	for i := range src {
-		src[i] = int8(rand.Intn(50))
-	}
-}
-
-func BenchmarkTransposeASM(b *testing.B) {
-	dest := make([]int64, len(src))
-	b.ResetTimer()
-	for n := 0; n < b.N; n++ {
-		utils.TransposeInts(src, dest, mapping)
-	}
-}
diff --git a/go/parquet/.gitignore b/go/parquet/.gitignore
deleted file mode 100644
index 4120c5119f03a..0000000000000
--- a/go/parquet/.gitignore
+++ /dev/null
@@ -1,31 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# Binaries for programs and plugins
-*.exe
-*.exe~
-*.dll
-*.so
-*.dylib
-
-# Test binary, built with `go test -c`
-*.test
-
-# Output of the go coverage tool, specifically when used with LiteIDE
-*.out
-
-# Dependency directories (remove the comment below to include it)
-# vendor/
diff --git a/go/parquet/cmd/parquet_reader/README.md b/go/parquet/cmd/parquet_reader/README.md
deleted file mode 100644
index dfb590a94ff3f..0000000000000
--- a/go/parquet/cmd/parquet_reader/README.md
+++ /dev/null
@@ -1,106 +0,0 @@
-<!---
-  Licensed to the Apache Software Foundation (ASF) under one
-  or more contributor license agreements.  See the NOTICE file
-  distributed with this work for additional information
-  regarding copyright ownership.  The ASF licenses this file
-  to you under the Apache License, Version 2.0 (the
-  "License"); you may not use this file except in compliance
-  with the License.  You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-  Unless required by applicable law or agreed to in writing,
-  software distributed under the License is distributed on an
-  "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-  KIND, either express or implied.  See the License for the
-  specific language governing permissions and limitations
-  under the License.
--->
-
-# parquet\_reader
-
-A tool to read Parquet files and write selected columns into TEXT, JSON, or CSV files.
-
-## Usage
-
-```
-$ ./parquet_reader -h
-Parquet Reader (version 0.1.20220629.1846)
-Usage:
-  parquet_reader -h | --help
-  parquet_reader [--only-metadata] [--no-metadata] [--no-memory-map] [--json] [--csv] [--output=FILE]
-                 [--print-key-value-metadata] [--int96-timestamp] [--columns=COLUMNS] <file>
-Options:
-  -h --help                     Show this screen.
-  --print-key-value-metadata    Print out the key-value metadata. [default: false]
-  --only-metadata               Stop after printing metadata, no values.
-  --no-metadata                 Do not print metadata.
-  --output=FILE                 Specify output file for data. [default: -]
-  --no-memory-map               Disable memory mapping the file.
-  --int96-timestamp             Parse INT96 as TIMESTAMP for legacy support.
-  --json                        Format output as JSON instead of text.
-  --csv                         Format output as CSV instead of text.
-  --columns=COLUMNS             Specify a subset of columns to print, comma delimited indexes.
-```
-
-# Examples
-
-## Text
-```
-$ ./parquet_reader --no-metadata v0.7.1.parquet
-carat             |cut               |color             |clarity           |depth             |table             |price             |x                 |y                 |z                 |__index_level_0__ |
-0.230000          |Ideal             |E                 |SI2               |61.500000         |55.000000         |326               |3.950000          |3.980000          |2.430000          |0                 |
-0.210000          |Premium           |E                 |SI1               |59.800000         |61.000000         |326               |3.890000          |3.840000          |2.310000          |1                 |
-0.230000          |Good              |E                 |VS1               |56.900000         |65.000000         |327               |4.050000          |4.070000          |2.310000          |2                 |
-0.290000          |Premium           |I                 |VS2               |62.400000         |58.000000         |334               |4.200000          |4.230000          |2.630000          |3                 |
-0.310000          |Good              |J                 |SI2               |63.300000         |58.000000         |335               |4.340000          |4.350000          |2.750000          |4                 |
-0.240000          |Very Good         |J                 |VVS2              |62.800000         |57.000000         |336               |3.940000          |3.960000          |2.480000          |5                 |
-0.240000          |Very Good         |I                 |VVS1              |62.300000         |57.000000         |336               |3.950000          |3.980000          |2.470000          |6                 |
-0.260000          |Very Good         |H                 |SI1               |61.900000         |55.000000         |337               |4.070000          |4.110000          |2.530000          |7                 |
-0.220000          |Fair              |E                 |VS2               |65.100000         |61.000000         |337               |3.870000          |3.780000          |2.490000          |8                 |
-0.230000          |Very Good         |H                 |VS1               |59.400000         |61.000000         |338               |4.000000          |4.050000          |2.390000          |9                 |
-```
-
-## JSON
-```
-$ ./parquet_reader --no-metadata --json v0.7.1.parquet
-[{"carat":0.23,"cut":"Ideal","color":"E","clarity":"SI2","depth":61.5,"table":55,"price":326,"x":3.95,"y":3.98,"z":2.43,"__index_level_0__":0},{"carat":0.21,"cut":"Premium","color":"E","clarity":"SI1","depth":59.8,"table":61,"price":326,"x":3.89,"y":3.84,"z":2.31,"__index_level_0__":1},{"carat":0.23,"cut":"Good","color":"E","clarity":"VS1","depth":56.9,"table":65,"price":327,"x":4.05,"y":4.07,"z":2.31,"__index_level_0__":2},{"carat":0.29,"cut":"Premium","color":"I","clarity":"VS2","depth":62.4,"table":58,"price":334,"x":4.2,"y":4.23,"z":2.63,"__index_level_0__":3},{"carat":0.31,"cut":"Good","color":"J","clarity":"SI2","depth":63.3,"table":58,"price":335,"x":4.34,"y":4.35,"z":2.75,"__index_level_0__":4},{"carat":0.24,"cut":"Very Good","color":"J","clarity":"VVS2","depth":62.8,"table":57,"price":336,"x":3.94,"y":3.96,"z":2.48,"__index_level_0__":5},{"carat":0.24,"cut":"Very Good","color":"I","clarity":"VVS1","depth":62.3,"table":57,"price":336,"x":3.95,"y":3.98,"z":2.47,"__index_level_0__":6},{"carat":0.26,"cut":"Very Good","color":"H","clarity":"SI1","depth":61.9,"table":55,"price":337,"x":4.07,"y":4.11,"z":2.53,"__index_level_0__":7},{"carat":0.22,"cut":"Fair","color":"E","clarity":"VS2","depth":65.1,"table":61,"price":337,"x":3.87,"y":3.78,"z":2.49,"__index_level_0__":8},{"carat":0.23,"cut":"Very Good","color":"H","clarity":"VS1","depth":59.4,"table":61,"price":338,"x":4,"y":4.05,"z":2.39,"__index_level_0__":9}]
-```
-
-## CSV
-```
-$ ./parquet_reader --no-metadata --csv v0.7.1.parquet
-"carat","cut","color","clarity","depth","table","price","x","y","z","__index_level_0__"
-0.23,"Ideal","E","SI2",61.5,55,326,3.95,3.98,2.43,0
-0.21,"Premium","E","SI1",59.8,61,326,3.89,3.84,2.31,1
-0.23,"Good","E","VS1",56.9,65,327,4.05,4.07,2.31,2
-0.29,"Premium","I","VS2",62.4,58,334,4.2,4.23,2.63,3
-0.31,"Good","J","SI2",63.3,58,335,4.34,4.35,2.75,4
-0.24,"Very Good","J","VVS2",62.8,57,336,3.94,3.96,2.48,5
-0.24,"Very Good","I","VVS1",62.3,57,336,3.95,3.98,2.47,6
-0.26,"Very Good","H","SI1",61.9,55,337,4.07,4.11,2.53,7
-0.22,"Fair","E","VS2",65.1,61,337,3.87,3.78,2.49,8
-0.23,"Very Good","H","VS1",59.4,61,338,4,4.05,2.39,9
-```
-
-## Write JSON to output file
-```
-$ ./parquet_reader --no-metadata --json --output=data.json v0.7.1.parquet
-$ jq . data.json
-[
-  {
-    "carat": 0.23,
-    "cut": "Ideal",
-    "color": "E",
-    "clarity": "SI2",
-    "depth": 61.5,
-    "table": 55,
-    "price": 326,
-    "x": 3.95,
-...
-```
-
-## Write CSV to output file
-```
-$ ./parquet_reader --no-metadata --csv --output=data.csv v0.7.1.parquet
-```
diff --git a/go/parquet/cmd/parquet_reader/dumper.go b/go/parquet/cmd/parquet_reader/dumper.go
deleted file mode 100644
index bab9939bfd243..0000000000000
--- a/go/parquet/cmd/parquet_reader/dumper.go
+++ /dev/null
@@ -1,182 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"encoding/binary"
-	"fmt"
-	"reflect"
-	"time"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-const defaultBatchSize = 128
-
-type Dumper struct {
-	reader         file.ColumnChunkReader
-	batchSize      int64
-	valueOffset    int
-	valuesBuffered int
-
-	levelOffset    int64
-	levelsBuffered int64
-	defLevels      []int16
-	repLevels      []int16
-
-	valueBuffer interface{}
-}
-
-func createDumper(reader file.ColumnChunkReader) *Dumper {
-	batchSize := defaultBatchSize
-
-	var valueBuffer interface{}
-	switch reader.(type) {
-	case *file.BooleanColumnChunkReader:
-		valueBuffer = make([]bool, batchSize)
-	case *file.Int32ColumnChunkReader:
-		valueBuffer = make([]int32, batchSize)
-	case *file.Int64ColumnChunkReader:
-		valueBuffer = make([]int64, batchSize)
-	case *file.Float32ColumnChunkReader:
-		valueBuffer = make([]float32, batchSize)
-	case *file.Float64ColumnChunkReader:
-		valueBuffer = make([]float64, batchSize)
-	case *file.Int96ColumnChunkReader:
-		valueBuffer = make([]parquet.Int96, batchSize)
-	case *file.ByteArrayColumnChunkReader:
-		valueBuffer = make([]parquet.ByteArray, batchSize)
-	case *file.FixedLenByteArrayColumnChunkReader:
-		valueBuffer = make([]parquet.FixedLenByteArray, batchSize)
-	}
-
-	return &Dumper{
-		reader:      reader,
-		batchSize:   int64(batchSize),
-		defLevels:   make([]int16, batchSize),
-		repLevels:   make([]int16, batchSize),
-		valueBuffer: valueBuffer,
-	}
-}
-
-func (dump *Dumper) readNextBatch() {
-	switch reader := dump.reader.(type) {
-	case *file.BooleanColumnChunkReader:
-		values := dump.valueBuffer.([]bool)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.Int32ColumnChunkReader:
-		values := dump.valueBuffer.([]int32)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.Int64ColumnChunkReader:
-		values := dump.valueBuffer.([]int64)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.Float32ColumnChunkReader:
-		values := dump.valueBuffer.([]float32)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.Float64ColumnChunkReader:
-		values := dump.valueBuffer.([]float64)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.Int96ColumnChunkReader:
-		values := dump.valueBuffer.([]parquet.Int96)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.ByteArrayColumnChunkReader:
-		values := dump.valueBuffer.([]parquet.ByteArray)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	case *file.FixedLenByteArrayColumnChunkReader:
-		values := dump.valueBuffer.([]parquet.FixedLenByteArray)
-		dump.levelsBuffered, dump.valuesBuffered, _ = reader.ReadBatch(dump.batchSize, values, dump.defLevels, dump.repLevels)
-	}
-
-	dump.valueOffset = 0
-	dump.levelOffset = 0
-}
-
-func (dump *Dumper) hasNext() bool {
-	return dump.levelOffset < dump.levelsBuffered || dump.reader.HasNext()
-}
-
-const microSecondsPerDay = 24 * 3600e6
-
-var parseInt96AsTimestamp = false
-
-func (dump *Dumper) FormatValue(val interface{}, width int) string {
-	fmtstring := fmt.Sprintf("-%d", width)
-	switch val := val.(type) {
-	case nil:
-		return fmt.Sprintf("%"+fmtstring+"s", "NULL")
-	case bool:
-		return fmt.Sprintf("%"+fmtstring+"t", val)
-	case int32:
-		return fmt.Sprintf("%"+fmtstring+"d", val)
-	case int64:
-		return fmt.Sprintf("%"+fmtstring+"d", val)
-	case float32:
-		return fmt.Sprintf("%"+fmtstring+"f", val)
-	case float64:
-		return fmt.Sprintf("%"+fmtstring+"f", val)
-	case parquet.Int96:
-		if parseInt96AsTimestamp {
-			usec := int64(binary.LittleEndian.Uint64(val[:8])/1000) +
-				(int64(binary.LittleEndian.Uint32(val[8:]))-2440588)*microSecondsPerDay
-			t := time.Unix(usec/1e6, (usec%1e6)*1e3).UTC()
-			return fmt.Sprintf("%"+fmtstring+"s", t)
-		} else {
-			return fmt.Sprintf("%"+fmtstring+"s",
-				fmt.Sprintf("%d %d %d",
-					binary.LittleEndian.Uint32(val[:4]),
-					binary.LittleEndian.Uint32(val[4:]),
-					binary.LittleEndian.Uint32(val[8:])))
-		}
-	case parquet.ByteArray:
-		if dump.reader.Descriptor().ConvertedType() == schema.ConvertedTypes.UTF8 {
-			return fmt.Sprintf("%"+fmtstring+"s", string(val))
-		}
-		return fmt.Sprintf("% "+fmtstring+"X", val)
-	case parquet.FixedLenByteArray:
-		return fmt.Sprintf("% "+fmtstring+"X", val)
-	default:
-		return fmt.Sprintf("%"+fmtstring+"s", fmt.Sprintf("%v", val))
-	}
-}
-
-func (dump *Dumper) Next() (interface{}, bool) {
-	if dump.levelOffset == dump.levelsBuffered {
-		if !dump.hasNext() {
-			return nil, false
-		}
-		dump.readNextBatch()
-		if dump.levelsBuffered == 0 {
-			return nil, false
-		}
-	}
-
-	defLevel := dump.defLevels[int(dump.levelOffset)]
-	// repLevel := dump.repLevels[int(dump.levelOffset)]
-	dump.levelOffset++
-
-	if defLevel < dump.reader.Descriptor().MaxDefinitionLevel() {
-		return nil, true
-	}
-
-	vb := reflect.ValueOf(dump.valueBuffer)
-	v := vb.Index(dump.valueOffset).Interface()
-	dump.valueOffset++
-
-	return v, true
-}
diff --git a/go/parquet/cmd/parquet_reader/main.go b/go/parquet/cmd/parquet_reader/main.go
deleted file mode 100644
index 4e480aeb8660b..0000000000000
--- a/go/parquet/cmd/parquet_reader/main.go
+++ /dev/null
@@ -1,382 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"bufio"
-	"fmt"
-	"io"
-	"log"
-	"os"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-
-	"github.com/docopt/docopt-go"
-)
-
-var version = ""
-var usage = `Parquet Reader (version ` + version + `)
-Usage:
-  parquet_reader -h | --help
-  parquet_reader [--only-metadata] [--no-metadata] [--no-memory-map] [--json] [--csv] [--output=FILE]
-                 [--print-key-value-metadata] [--int96-timestamp] [--columns=COLUMNS] <file>
-Options:
-  -h --help                     Show this screen.
-  --print-key-value-metadata    Print out the key-value metadata. [default: false]
-  --only-metadata               Stop after printing metadata, no values.
-  --no-metadata                 Do not print metadata.
-  --output=FILE                 Specify output file for data. [default: -]
-  --no-memory-map               Disable memory mapping the file.
-  --int96-timestamp             Parse INT96 as TIMESTAMP for legacy support.
-  --json                        Format output as JSON instead of text.
-  --csv                         Format output as CSV instead of text.
-  --columns=COLUMNS             Specify a subset of columns to print, comma delimited indexes.`
-
-func main() {
-	opts, _ := docopt.ParseDoc(usage)
-	var config struct {
-		PrintKeyValueMetadata bool
-		OnlyMetadata          bool
-		NoMetadata            bool
-		Output                string
-		NoMemoryMap           bool
-		JSON                  bool `docopt:"--json"`
-		CSV                   bool `docopt:"--csv"`
-		ParseInt96AsTimestamp bool `docopt:"--int96-timestamp"`
-		Columns               string
-		File                  string
-	}
-	opts.Bind(&config)
-
-	parseInt96AsTimestamp = config.ParseInt96AsTimestamp
-
-	var dataOut io.Writer
-	dataOut = os.Stdout
-	if config.Output != "-" {
-		var err error
-		fileOut, err := os.Create(config.Output)
-		if err != nil {
-			fmt.Fprintf(os.Stderr, "error: --output %q cannot be created, %s\n", config.Output, err)
-			os.Exit(1)
-		}
-		bufOut := bufio.NewWriter(fileOut)
-		defer func() {
-			bufOut.Flush()
-			fileOut.Close()
-		}()
-		dataOut = bufOut
-	}
-
-	if config.CSV && config.JSON {
-		fmt.Fprintln(os.Stderr, "error: both --json and --csv outputs selected.")
-		os.Exit(1)
-	}
-
-	selectedColumns := []int{}
-	if config.Columns != "" {
-		for _, c := range strings.Split(config.Columns, ",") {
-			cval, err := strconv.Atoi(c)
-			if err != nil {
-				fmt.Fprintln(os.Stderr, "error: --columns needs to be comma-delimited integers")
-				os.Exit(1)
-			}
-			selectedColumns = append(selectedColumns, cval)
-		}
-	}
-
-	rdr, err := file.OpenParquetFile(config.File, !config.NoMemoryMap)
-	if err != nil {
-		fmt.Fprintln(os.Stderr, "error opening parquet file: ", err)
-		os.Exit(1)
-	}
-
-	fileMetadata := rdr.MetaData()
-
-	if !config.NoMetadata {
-		fmt.Println("File name:", config.File)
-		fmt.Println("Version:", fileMetadata.Version())
-		fmt.Println("Created By:", fileMetadata.GetCreatedBy())
-		fmt.Println("Num Rows:", rdr.NumRows())
-
-		keyvaluemeta := fileMetadata.KeyValueMetadata()
-		if config.PrintKeyValueMetadata && keyvaluemeta != nil {
-			fmt.Println("Key Value File Metadata:", keyvaluemeta.Len(), "entries")
-			keys := keyvaluemeta.Keys()
-			values := keyvaluemeta.Values()
-			for i := 0; i < keyvaluemeta.Len(); i++ {
-				fmt.Printf("Key nr %d %s: %s\n", i, keys[i], values[i])
-			}
-		}
-
-		fmt.Println("Number of RowGroups:", rdr.NumRowGroups())
-		fmt.Println("Number of Real Columns:", fileMetadata.Schema.Root().NumFields())
-		fmt.Println("Number of Columns:", fileMetadata.Schema.NumColumns())
-	}
-
-	if len(selectedColumns) == 0 {
-		for i := 0; i < fileMetadata.Schema.NumColumns(); i++ {
-			selectedColumns = append(selectedColumns, i)
-		}
-	} else {
-		for _, c := range selectedColumns {
-			if c < 0 || c >= fileMetadata.Schema.NumColumns() {
-				fmt.Fprintln(os.Stderr, "selected column is out of range")
-				os.Exit(1)
-			}
-		}
-	}
-
-	if !config.NoMetadata {
-		fmt.Println("Number of Selected Columns:", len(selectedColumns))
-		for _, c := range selectedColumns {
-			descr := fileMetadata.Schema.Column(c)
-			fmt.Printf("Column %d: %s (%s", c, descr.Path(), descr.PhysicalType())
-			if descr.ConvertedType() != schema.ConvertedTypes.None {
-				fmt.Printf("/%s", descr.ConvertedType())
-				if descr.ConvertedType() == schema.ConvertedTypes.Decimal {
-					dec := descr.LogicalType().(schema.DecimalLogicalType)
-					fmt.Printf("(%d,%d)", dec.Precision(), dec.Scale())
-				}
-			}
-			fmt.Print(")\n")
-		}
-	}
-
-	for r := 0; r < rdr.NumRowGroups(); r++ {
-		if !config.NoMetadata {
-			fmt.Println("--- Row Group:", r, " ---")
-		}
-
-		rgr := rdr.RowGroup(r)
-		rowGroupMeta := rgr.MetaData()
-		if !config.NoMetadata {
-			fmt.Println("--- Total Bytes:", rowGroupMeta.TotalByteSize(), " ---")
-			fmt.Println("--- Rows:", rgr.NumRows(), " ---")
-		}
-
-		for _, c := range selectedColumns {
-			chunkMeta, err := rowGroupMeta.ColumnChunk(c)
-			if err != nil {
-				log.Fatal(err)
-			}
-
-			if !config.NoMetadata {
-				fmt.Println("Column", c)
-				if set, _ := chunkMeta.StatsSet(); set {
-					stats, err := chunkMeta.Statistics()
-					if err != nil {
-						log.Fatal(err)
-					}
-					fmt.Printf(" Values: %d", chunkMeta.NumValues())
-					if stats.HasMinMax() {
-						fmt.Printf(", Min: %v, Max: %v",
-							metadata.GetStatValue(stats.Type(), stats.EncodeMin()),
-							metadata.GetStatValue(stats.Type(), stats.EncodeMax()))
-					}
-					if stats.HasNullCount() {
-						fmt.Printf(", Null Values: %d", stats.NullCount())
-					}
-					if stats.HasDistinctCount() {
-						fmt.Printf(", Distinct Values: %d", stats.DistinctCount())
-					}
-					fmt.Println()
-				} else {
-					fmt.Println(" Values:", chunkMeta.NumValues(), "Statistics Not Set")
-				}
-
-				fmt.Print(" Compression: ", chunkMeta.Compression())
-				fmt.Print(", Encodings:")
-				for _, enc := range chunkMeta.Encodings() {
-					fmt.Print(" ", enc)
-				}
-				fmt.Println()
-
-				fmt.Print(" Uncompressed Size: ", chunkMeta.TotalUncompressedSize())
-				fmt.Println(", Compressed Size:", chunkMeta.TotalCompressedSize())
-			}
-		}
-
-		if config.OnlyMetadata {
-			continue
-		}
-
-		if !config.NoMetadata {
-			fmt.Println("--- Values ---")
-		}
-
-		switch {
-		case config.JSON:
-			fmt.Fprint(dataOut, "[")
-
-			scanners := make([]*Dumper, len(selectedColumns))
-			fields := make([]string, len(selectedColumns))
-			for idx, c := range selectedColumns {
-				col, err := rgr.Column(c)
-				if err != nil {
-					log.Fatalf("unable to fetch column=%d err=%s", c, err)
-				}
-				scanners[idx] = createDumper(col)
-				fields[idx] = col.Descriptor().Path()
-			}
-
-			var line string
-			for {
-				if line == "" {
-					line = "\n  {"
-				} else {
-					line = ",\n  {"
-				}
-
-				data := false
-				first := true
-				for idx, s := range scanners {
-					if val, ok := s.Next(); ok {
-						if !data {
-							fmt.Fprint(dataOut, line)
-						}
-						data = true
-						if val == nil {
-							continue
-						}
-						if !first {
-							fmt.Fprint(dataOut, ",")
-						}
-						first = false
-						switch val.(type) {
-						case bool, int32, int64, float32, float64:
-						default:
-							val = s.FormatValue(val, 0)
-						}
-						jsonVal, err := json.Marshal(val)
-						if err != nil {
-							fmt.Fprintf(os.Stderr, "error: marshalling json for %+v, %s\n", val, err)
-							os.Exit(1)
-						}
-						fmt.Fprintf(dataOut, "\n    %q: %s", fields[idx], jsonVal)
-					}
-				}
-				if !data {
-					break
-				}
-				fmt.Fprint(dataOut, "\n  }")
-			}
-
-			fmt.Fprintln(dataOut, "\n]")
-		case config.CSV:
-			scanners := make([]*Dumper, len(selectedColumns))
-			for idx, c := range selectedColumns {
-				if idx > 0 {
-					fmt.Fprint(dataOut, ",")
-				}
-				col, err := rgr.Column(c)
-				if err != nil {
-					log.Fatalf("unable to fetch col=%d err=%s", c, err)
-				}
-				scanners[idx] = createDumper(col)
-				fmt.Fprintf(dataOut, "%q", col.Descriptor().Path())
-			}
-			fmt.Fprintln(dataOut)
-
-			var line string
-			for {
-				data := false
-				for idx, s := range scanners {
-					if idx > 0 {
-						if data {
-							fmt.Fprint(dataOut, ",")
-						} else {
-							line += ","
-						}
-					}
-					if val, ok := s.Next(); ok {
-						if !data {
-							fmt.Fprint(dataOut, line)
-						}
-						data = true
-						if val == nil {
-							fmt.Fprint(dataOut, "")
-							continue
-						}
-						switch val.(type) {
-						case bool, int32, int64, parquet.Int96, float32, float64:
-							fmt.Fprintf(dataOut, "%v", val)
-						default:
-							fmt.Fprintf(dataOut, "%q", s.FormatValue(val, 0))
-						}
-					} else {
-						if data {
-							fmt.Fprint(dataOut, ",")
-						} else {
-							line += ","
-						}
-					}
-				}
-				if !data {
-					break
-				}
-				fmt.Fprintln(dataOut)
-				line = ""
-			}
-			fmt.Fprintln(dataOut)
-		default:
-			const colwidth = 18
-
-			scanners := make([]*Dumper, len(selectedColumns))
-			for idx, c := range selectedColumns {
-				col, err := rgr.Column(c)
-				if err != nil {
-					log.Fatalf("unable to fetch column=%d err=%s", c, err)
-				}
-				scanners[idx] = createDumper(col)
-				fmt.Fprintf(dataOut, fmt.Sprintf("%%-%ds|", colwidth), col.Descriptor().Name())
-			}
-			fmt.Fprintln(dataOut)
-
-			var line string
-			for {
-				data := false
-				for _, s := range scanners {
-					if val, ok := s.Next(); ok {
-						if !data {
-							fmt.Fprint(dataOut, line)
-						}
-						fmt.Fprint(dataOut, s.FormatValue(val, colwidth), "|")
-						data = true
-					} else {
-						if data {
-							fmt.Fprintf(dataOut, fmt.Sprintf("%%-%ds|", colwidth), "")
-						} else {
-							line += fmt.Sprintf(fmt.Sprintf("%%-%ds|", colwidth), "")
-						}
-					}
-				}
-				if !data {
-					break
-				}
-				fmt.Fprintln(dataOut)
-				line = ""
-			}
-			fmt.Fprintln(dataOut)
-		}
-	}
-}
diff --git a/go/parquet/cmd/parquet_reader/v0.7.1.parquet b/go/parquet/cmd/parquet_reader/v0.7.1.parquet
deleted file mode 100644
index 44670bcd19afa..0000000000000
Binary files a/go/parquet/cmd/parquet_reader/v0.7.1.parquet and /dev/null differ
diff --git a/go/parquet/cmd/parquet_schema/main.go b/go/parquet/cmd/parquet_schema/main.go
deleted file mode 100644
index 0cd0700e4e41e..0000000000000
--- a/go/parquet/cmd/parquet_schema/main.go
+++ /dev/null
@@ -1,44 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package main
-
-import (
-	"fmt"
-	"os"
-
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/docopt/docopt-go"
-)
-
-const usage = `Parquet Schema Dumper.
-Usage:
-  parquet_schema -h | --help
-  parquet_schema <file>
-Options:
-  -h --help   Show this screen.`
-
-func main() {
-	args, _ := docopt.ParseDoc(usage)
-	rdr, err := file.OpenParquetFile(args["<file>"].(string), false)
-	if err != nil {
-		fmt.Fprintln(os.Stderr, "Error opening parquet file: ", err)
-		os.Exit(1)
-	}
-
-	schema.PrintSchema(rdr.MetaData().Schema.Root(), os.Stdout, 2)
-}
diff --git a/go/parquet/compress/brotli.go b/go/parquet/compress/brotli.go
deleted file mode 100644
index 9d3a22c9e58e8..0000000000000
--- a/go/parquet/compress/brotli.go
+++ /dev/null
@@ -1,114 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compress
-
-import (
-	"bytes"
-	"io"
-
-	"github.com/andybalholm/brotli"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-)
-
-type brotliCodec struct{}
-
-func (brotliCodec) NewReader(r io.Reader) io.ReadCloser {
-	return io.NopCloser(brotli.NewReader(r))
-}
-
-func (b brotliCodec) EncodeLevel(dst, src []byte, level int) []byte {
-	if level == DefaultCompressionLevel {
-		level = brotli.DefaultCompression
-	}
-
-	maxlen := int(b.CompressBound(int64(len(src))))
-	if dst == nil || cap(dst) < maxlen {
-		dst = make([]byte, 0, maxlen)
-	}
-	buf := bytes.NewBuffer(dst[:0])
-	w := brotli.NewWriterLevel(buf, level)
-	_, err := w.Write(src)
-	if err != nil {
-		panic(err)
-	}
-	if err := w.Close(); err != nil {
-		panic(err)
-	}
-	return buf.Bytes()
-}
-
-func (b brotliCodec) Encode(dst, src []byte) []byte {
-	return b.EncodeLevel(dst, src, brotli.DefaultCompression)
-}
-
-func (brotliCodec) Decode(dst, src []byte) []byte {
-	rdr := brotli.NewReader(bytes.NewReader(src))
-	if dst != nil {
-		var (
-			sofar       = 0
-			n           = -1
-			err   error = nil
-		)
-		for n != 0 && err == nil {
-			n, err = rdr.Read(dst[sofar:])
-			sofar += n
-		}
-		if err != nil && err != io.EOF {
-			panic(err)
-		}
-		return dst[:sofar]
-	}
-
-	dst, err := io.ReadAll(rdr)
-	if err != nil {
-		panic(err)
-	}
-
-	return dst
-}
-
-// taken from brotli/enc/encode.c:1426
-// BrotliEncoderMaxCompressedSize
-func (brotliCodec) CompressBound(len int64) int64 {
-	// [window bits / empty metadata] + N * [uncompressed] + [last empty]
-	debug.Assert(len > 0, "brotli compressbound should be > 0")
-	nlarge := len >> 14
-	overhead := 2 + (4 * nlarge) + 3 + 1
-	result := len + overhead
-	if len == 0 {
-		return 2
-	}
-	if result < len {
-		return 0
-	}
-	return len
-}
-
-func (brotliCodec) NewWriter(w io.Writer) io.WriteCloser {
-	return brotli.NewWriter(w)
-}
-
-func (brotliCodec) NewWriterLevel(w io.Writer, level int) (io.WriteCloser, error) {
-	if level == DefaultCompressionLevel {
-		level = brotli.DefaultCompression
-	}
-	return brotli.NewWriterLevel(w, level), nil
-}
-
-func init() {
-	RegisterCodec(Codecs.Brotli, brotliCodec{})
-}
diff --git a/go/parquet/compress/compress.go b/go/parquet/compress/compress.go
deleted file mode 100644
index 92f2ae99bb13f..0000000000000
--- a/go/parquet/compress/compress.go
+++ /dev/null
@@ -1,181 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package compress contains the interfaces and implementations for handling compression/decompression
-// of parquet data at the column levels.
-package compress
-
-import (
-	"compress/flate"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-// Compression is an alias to the thrift compression codec enum type for easy use
-type Compression parquet.CompressionCodec
-
-func (c Compression) String() string {
-	return parquet.CompressionCodec(c).String()
-}
-
-// DefaultCompressionLevel will use flate.DefaultCompression since many of the compression libraries
-// use that to denote "use the default".
-const DefaultCompressionLevel = flate.DefaultCompression
-
-// Codecs is a useful struct to provide namespaced enum values to use for specifying the compression type to use
-// which make for easy internal swapping between them and the thrift enum since they are initialized to the same
-// constant values.
-var Codecs = struct {
-	Uncompressed Compression
-	Snappy       Compression
-	Gzip         Compression
-	// LZO is unsupported in this library since LZO license is incompatible with Apache License
-	Lzo    Compression
-	Brotli Compression
-	// LZ4 unsupported in this library due to problematic issues between the Hadoop LZ4 spec vs regular lz4
-	// see: http://mail-archives.apache.org/mod_mbox/arrow-dev/202007.mbox/%3CCAAri41v24xuA8MGHLDvgSnE+7AAgOhiEukemW_oPNHMvfMmrWw@mail.gmail.com%3E
-	Lz4    Compression
-	Zstd   Compression
-	Lz4Raw Compression
-}{
-	Uncompressed: Compression(parquet.CompressionCodec_UNCOMPRESSED),
-	Snappy:       Compression(parquet.CompressionCodec_SNAPPY),
-	Gzip:         Compression(parquet.CompressionCodec_GZIP),
-	Lzo:          Compression(parquet.CompressionCodec_LZO),
-	Brotli:       Compression(parquet.CompressionCodec_BROTLI),
-	Lz4:          Compression(parquet.CompressionCodec_LZ4),
-	Zstd:         Compression(parquet.CompressionCodec_ZSTD),
-	Lz4Raw:       Compression(parquet.CompressionCodec_LZ4_RAW),
-}
-
-// Codec is an interface which is implemented for each compression type in order to make the interactions easy to
-// implement. Most consumers won't be calling GetCodec directly.
-type Codec interface {
-	// Encode encodes a block of data given by src and returns the compressed block. dst should be either nil
-	// or sized large enough to fit the compressed block (use CompressBound to allocate). dst and src should not
-	// overlap since some of the compression types don't allow it.
-	//
-	// The returned slice will be one of the following:
-	//	1. If dst was nil or dst was too small to fit the compressed data, it will be a newly allocated slice
-	//	2. If dst was large enough to fit the compressed data (depending on the compression algorithm it might
-	//		 be required to be at least CompressBound length) then it might be a slice of dst.
-	Encode(dst, src []byte) []byte
-	// EncodeLevel is like Encode, but specifies a particular encoding level instead of the default.
-	EncodeLevel(dst, src []byte, level int) []byte
-	// CompressBound returns the boundary of maximum size of compressed data under the chosen codec.
-	CompressBound(int64) int64
-	// Decode is for decoding a single block rather than a stream, like with Encode, dst must be either nil or
-	// sized large enough to accommodate the uncompressed data and should not overlap with src.
-	//
-	// the returned slice *might* be a slice of dst.
-	Decode(dst, src []byte) []byte
-}
-
-// StreamingCodec is an interface that may be implemented for compression codecs that expose a streaming API.
-type StreamingCodec interface {
-	// NewReader provides a reader that wraps a stream with compressed data to stream the uncompressed data
-	NewReader(io.Reader) io.ReadCloser
-	// NewWriter provides a wrapper around a write stream to compress data before writing it.
-	NewWriter(io.Writer) io.WriteCloser
-	// NewWriterLevel is like NewWriter but allows specifying the compression level
-	NewWriterLevel(io.Writer, int) (io.WriteCloser, error)
-}
-
-var codecs = map[Compression]Codec{}
-
-// RegisterCodec adds or overrides a codec implementation for a given compression algorithm.
-// The intended use case is within the init() section of a package. For example,
-//
-//	// inside a custom codec package, say czstd
-//
-//	func init() {
-//	    RegisterCodec(compress.Codecs.Zstd, czstdCodec{})
-//	}
-//
-//	type czstdCodec struct{} // implementing Codec interface using CGO based ZSTD wrapper
-//
-// And user of the custom codec can import the above package like below,
-//
-//	package main
-//
-//	import _ "package/path/to/czstd"
-func RegisterCodec(compression Compression, codec Codec) {
-	codecs[compression] = codec
-}
-
-type nocodec struct{}
-
-func (nocodec) NewReader(r io.Reader) io.ReadCloser {
-	ret, ok := r.(io.ReadCloser)
-	if !ok {
-		return io.NopCloser(r)
-	}
-	return ret
-}
-
-func (nocodec) Decode(dst, src []byte) []byte {
-	if dst != nil {
-		copy(dst, src)
-	}
-	return dst
-}
-
-type writerNopCloser struct {
-	io.Writer
-}
-
-func (writerNopCloser) Close() error {
-	return nil
-}
-
-func (nocodec) Encode(dst, src []byte) []byte {
-	copy(dst, src)
-	return dst
-}
-
-func (nocodec) EncodeLevel(dst, src []byte, _ int) []byte {
-	copy(dst, src)
-	return dst
-}
-
-func (nocodec) NewWriter(w io.Writer) io.WriteCloser {
-	ret, ok := w.(io.WriteCloser)
-	if !ok {
-		return writerNopCloser{w}
-	}
-	return ret
-}
-
-func (n nocodec) NewWriterLevel(w io.Writer, _ int) (io.WriteCloser, error) {
-	return n.NewWriter(w), nil
-}
-
-func (nocodec) CompressBound(len int64) int64 { return len }
-
-func init() {
-	codecs[Codecs.Uncompressed] = nocodec{}
-}
-
-// GetCodec returns a Codec interface for the requested Compression type
-func GetCodec(typ Compression) (Codec, error) {
-	ret, ok := codecs[typ]
-	if !ok {
-		return nil, fmt.Errorf("compression for %s unimplemented", typ.String())
-	}
-	return ret, nil
-}
diff --git a/go/parquet/compress/compress_test.go b/go/parquet/compress/compress_test.go
deleted file mode 100644
index 5aac74759e1f9..0000000000000
--- a/go/parquet/compress/compress_test.go
+++ /dev/null
@@ -1,140 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compress_test
-
-import (
-	"bytes"
-	"io"
-	"math/rand"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/stretchr/testify/assert"
-)
-
-const (
-	RandomDataSize       = 3 * 1024 * 1024
-	CompressibleDataSize = 8 * 1024 * 1024
-)
-
-func makeRandomData(size int) []byte {
-	ret := make([]byte, size)
-	r := rand.New(rand.NewSource(1234))
-	r.Read(ret)
-	return ret
-}
-
-func makeCompressibleData(size int) []byte {
-	const base = "Apache Arrow is a cross-language development platform for in-memory data"
-
-	data := make([]byte, size)
-	n := copy(data, base)
-	for i := n; i < len(data); i *= 2 {
-		copy(data[i:], data[:i])
-	}
-	return data
-}
-
-func TestErrorForUnimplemented(t *testing.T) {
-	_, err := compress.GetCodec(compress.Codecs.Lzo)
-	assert.Error(t, err)
-
-	_, err = compress.GetCodec(compress.Codecs.Lz4)
-	assert.Error(t, err)
-}
-
-func TestCompressDataOneShot(t *testing.T) {
-	tests := []struct {
-		c compress.Compression
-	}{
-		{compress.Codecs.Uncompressed},
-		{compress.Codecs.Snappy},
-		{compress.Codecs.Gzip},
-		{compress.Codecs.Brotli},
-		{compress.Codecs.Zstd},
-		{compress.Codecs.Lz4Raw},
-		// {compress.Codecs.Lzo},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.c.String(), func(t *testing.T) {
-			codec, err := compress.GetCodec(tt.c)
-			assert.NoError(t, err)
-			data := makeCompressibleData(CompressibleDataSize)
-
-			buf := make([]byte, codec.CompressBound(int64(len(data))))
-			compressed := codec.Encode(buf, data)
-			assert.Same(t, &buf[0], &compressed[0])
-
-			out := make([]byte, len(data))
-			uncompressed := codec.Decode(out, compressed)
-			assert.Same(t, &out[0], &uncompressed[0])
-
-			assert.Exactly(t, data, uncompressed)
-		})
-	}
-}
-
-func TestCompressReaderWriter(t *testing.T) {
-	tests := []struct {
-		c compress.Compression
-	}{
-		{compress.Codecs.Uncompressed},
-		{compress.Codecs.Snappy},
-		{compress.Codecs.Gzip},
-		{compress.Codecs.Brotli},
-		{compress.Codecs.Zstd},
-		// {compress.Codecs.Lzo},
-		// {compress.Codecs.Lz4},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.c.String(), func(t *testing.T) {
-			var buf bytes.Buffer
-			codec, err := compress.GetCodec(tt.c)
-			assert.NoError(t, err)
-			streamingCodec, ok := codec.(compress.StreamingCodec)
-			assert.True(t, ok)
-			data := makeRandomData(RandomDataSize)
-
-			wr := streamingCodec.NewWriter(&buf)
-
-			const chunkSize = 1111
-			input := data
-			for len(input) > 0 {
-				var (
-					n   int
-					err error
-				)
-				if len(input) > chunkSize {
-					n, err = wr.Write(input[:chunkSize])
-				} else {
-					n, err = wr.Write(input)
-				}
-
-				assert.NoError(t, err)
-				input = input[n:]
-			}
-			wr.Close()
-
-			rdr := streamingCodec.NewReader(&buf)
-			out, err := io.ReadAll(rdr)
-			assert.NoError(t, err)
-			assert.Exactly(t, data, out)
-		})
-	}
-}
diff --git a/go/parquet/compress/gzip.go b/go/parquet/compress/gzip.go
deleted file mode 100644
index 4b43f8e906599..0000000000000
--- a/go/parquet/compress/gzip.go
+++ /dev/null
@@ -1,97 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compress
-
-import (
-	"bytes"
-	"fmt"
-	"io"
-
-	"github.com/klauspost/compress/gzip"
-)
-
-type gzipCodec struct{}
-
-func (gzipCodec) NewReader(r io.Reader) io.ReadCloser {
-	ret, err := gzip.NewReader(r)
-	if err != nil {
-		panic(fmt.Errorf("codec: gzip: %w", err))
-	}
-	return ret
-}
-
-func (gzipCodec) Decode(dst, src []byte) []byte {
-	rdr, err := gzip.NewReader(bytes.NewReader(src))
-	if err != nil {
-		panic(err)
-	}
-
-	if dst != nil {
-		n, err := io.ReadFull(rdr, dst)
-		if err != nil {
-			panic(err)
-		}
-		return dst[:n]
-	}
-
-	dst, err = io.ReadAll(rdr)
-	if err != nil {
-		panic(err)
-	}
-
-	return dst
-}
-
-func (g gzipCodec) EncodeLevel(dst, src []byte, level int) []byte {
-	maxlen := int(g.CompressBound(int64(len(src))))
-	if dst == nil || cap(dst) < maxlen {
-		dst = make([]byte, 0, maxlen)
-	}
-	buf := bytes.NewBuffer(dst[:0])
-	w, err := gzip.NewWriterLevel(buf, level)
-	if err != nil {
-		panic(err)
-	}
-	_, err = w.Write(src)
-	if err != nil {
-		panic(err)
-	}
-	if err := w.Close(); err != nil {
-		panic(err)
-	}
-	return buf.Bytes()
-}
-
-func (g gzipCodec) Encode(dst, src []byte) []byte {
-	return g.EncodeLevel(dst, src, DefaultCompressionLevel)
-}
-
-func (gzipCodec) CompressBound(len int64) int64 {
-	return len + ((len + 7) >> 3) + ((len + 63) >> 6) + 5
-}
-
-func (gzipCodec) NewWriter(w io.Writer) io.WriteCloser {
-	return gzip.NewWriter(w)
-}
-
-func (gzipCodec) NewWriterLevel(w io.Writer, level int) (io.WriteCloser, error) {
-	return gzip.NewWriterLevel(w, level)
-}
-
-func init() {
-	RegisterCodec(Codecs.Gzip, gzipCodec{})
-}
diff --git a/go/parquet/compress/lz4_raw.go b/go/parquet/compress/lz4_raw.go
deleted file mode 100644
index 788d9520a668b..0000000000000
--- a/go/parquet/compress/lz4_raw.go
+++ /dev/null
@@ -1,66 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compress
-
-import (
-	"sync"
-
-	"github.com/pierrec/lz4/v4"
-)
-
-// lz4.Compressor is not goroutine-safe, so we use a pool to amortize the cost
-// of allocating a new one for each call to Encode().
-var compressorPool = sync.Pool{New: func() interface{} { return new(lz4.Compressor) }}
-
-func compressBlock(src, dst []byte) (int, error) {
-	c := compressorPool.Get().(*lz4.Compressor)
-	defer compressorPool.Put(c)
-	return c.CompressBlock(src, dst)
-}
-
-type lz4RawCodec struct{}
-
-func (c lz4RawCodec) Encode(dst, src []byte) []byte {
-	n, err := compressBlock(src, dst[:cap(dst)])
-	if err != nil {
-		panic(err)
-	}
-
-	return dst[:n]
-}
-
-func (c lz4RawCodec) EncodeLevel(dst, src []byte, _ int) []byte {
-	// the lz4 block implementation does not allow level to be set
-	return c.Encode(dst, src)
-}
-
-func (lz4RawCodec) Decode(dst, src []byte) []byte {
-	n, err := lz4.UncompressBlock(src, dst)
-	if err != nil {
-		panic(err)
-	}
-
-	return dst[:n]
-}
-
-func (c lz4RawCodec) CompressBound(len int64) int64 {
-	return int64(lz4.CompressBlockBound(int(len)))
-}
-
-func init() {
-	RegisterCodec(Codecs.Lz4Raw, lz4RawCodec{})
-}
diff --git a/go/parquet/compress/snappy.go b/go/parquet/compress/snappy.go
deleted file mode 100644
index 5c82a2c8dc33e..0000000000000
--- a/go/parquet/compress/snappy.go
+++ /dev/null
@@ -1,61 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compress
-
-import (
-	"io"
-
-	"github.com/golang/snappy"
-)
-
-type snappyCodec struct{}
-
-func (snappyCodec) Encode(dst, src []byte) []byte {
-	return snappy.Encode(dst, src)
-}
-
-func (snappyCodec) EncodeLevel(dst, src []byte, _ int) []byte {
-	return snappy.Encode(dst, src)
-}
-
-func (snappyCodec) Decode(dst, src []byte) []byte {
-	dst, err := snappy.Decode(dst, src)
-	if err != nil {
-		panic(err)
-	}
-	return dst
-}
-
-func (snappyCodec) NewReader(r io.Reader) io.ReadCloser {
-	return io.NopCloser(snappy.NewReader(r))
-}
-
-func (snappyCodec) CompressBound(len int64) int64 {
-	return int64(snappy.MaxEncodedLen(int(len)))
-}
-
-func (snappyCodec) NewWriter(w io.Writer) io.WriteCloser {
-	return snappy.NewBufferedWriter(w)
-}
-
-func (s snappyCodec) NewWriterLevel(w io.Writer, _ int) (io.WriteCloser, error) {
-	return s.NewWriter(w), nil
-}
-
-func init() {
-	RegisterCodec(Codecs.Snappy, snappyCodec{})
-}
diff --git a/go/parquet/compress/zstd.go b/go/parquet/compress/zstd.go
deleted file mode 100644
index ea2126be18cc9..0000000000000
--- a/go/parquet/compress/zstd.go
+++ /dev/null
@@ -1,112 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package compress
-
-import (
-	"io"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	"github.com/klauspost/compress/zstd"
-)
-
-type zstdCodec struct{}
-
-type zstdcloser struct {
-	*zstd.Decoder
-}
-
-var (
-	enc         *zstd.Encoder
-	dec         *zstd.Decoder
-	initEncoder sync.Once
-	initDecoder sync.Once
-)
-
-func getencoder() *zstd.Encoder {
-	initEncoder.Do(func() {
-		enc, _ = zstd.NewWriter(nil, zstd.WithZeroFrames(true))
-	})
-	return enc
-}
-
-func getdecoder() *zstd.Decoder {
-	initDecoder.Do(func() {
-		dec, _ = zstd.NewReader(nil)
-	})
-	return dec
-}
-
-func (zstdCodec) Decode(dst, src []byte) []byte {
-	dst, err := getdecoder().DecodeAll(src, dst[:0])
-	if err != nil {
-		panic(err)
-	}
-	return dst
-}
-
-func (z *zstdcloser) Close() error {
-	z.Decoder.Close()
-	return nil
-}
-
-func (zstdCodec) NewReader(r io.Reader) io.ReadCloser {
-	ret, _ := zstd.NewReader(r)
-	return &zstdcloser{ret}
-}
-
-func (zstdCodec) NewWriter(w io.Writer) io.WriteCloser {
-	ret, _ := zstd.NewWriter(w)
-	return ret
-}
-
-func (zstdCodec) NewWriterLevel(w io.Writer, level int) (io.WriteCloser, error) {
-	var compressLevel zstd.EncoderLevel
-	if level == DefaultCompressionLevel {
-		compressLevel = zstd.SpeedDefault
-	} else {
-		compressLevel = zstd.EncoderLevelFromZstd(level)
-	}
-	return zstd.NewWriter(w, zstd.WithEncoderLevel(compressLevel))
-}
-
-func (z zstdCodec) Encode(dst, src []byte) []byte {
-	return getencoder().EncodeAll(src, dst[:0])
-}
-
-func (z zstdCodec) EncodeLevel(dst, src []byte, level int) []byte {
-	compressLevel := zstd.EncoderLevelFromZstd(level)
-	if level == DefaultCompressionLevel {
-		compressLevel = zstd.SpeedDefault
-	}
-	enc, _ := zstd.NewWriter(nil, zstd.WithZeroFrames(true), zstd.WithEncoderLevel(compressLevel))
-	return enc.EncodeAll(src, dst[:0])
-}
-
-// from zstd.h, ZSTD_COMPRESSBOUND
-func (zstdCodec) CompressBound(len int64) int64 {
-	debug.Assert(len > 0, "len for zstd CompressBound should be > 0")
-	extra := ((128 << 10) - len) >> 11
-	if len >= (128 << 10) {
-		extra = 0
-	}
-	return len + (len >> 8) + extra
-}
-
-func init() {
-	RegisterCodec(Codecs.Zstd, zstdCodec{})
-}
diff --git a/go/parquet/doc.go b/go/parquet/doc.go
deleted file mode 100644
index a4fdd6e5dda21..0000000000000
--- a/go/parquet/doc.go
+++ /dev/null
@@ -1,81 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package parquet provides an implementation of Apache Parquet for Go.
-//
-// Apache Parquet is an open-source columnar data storage format using the record
-// shredding and assembly algorithm to accommodate complex data structures which
-// can then be used to efficiently store the data.
-//
-// While the go.mod states go1.18, everything here should be compatible
-// with go versions 1.17 and 1.16.
-//
-// This implementation is a native go implementation for reading and writing the
-// parquet file format.
-//
-// # Install
-//
-// You can download the library and cli utilities via:
-//
-//	go get -u github.com/apache/arrow/go/v18/parquet
-//	go install github.com/apache/arrow/go/v18/parquet/cmd/parquet_reader@latest
-//	go install github.com/apache/arrow/go/v18/parquet/cmd/parquet_schema@latest
-//
-// # Modules
-//
-// This top level parquet package contains the basic common types and reader/writer
-// properties along with some utilities that are used throughout the other modules.
-//
-// The file module contains the functions for directly reading/writing parquet files
-// including Column Readers and Column Writers.
-//
-// The metadata module contains the types for managing the lower level file/rowgroup/column
-// metadata inside of a ParquetFile including inspecting the statistics.
-//
-// The pqarrow module contains helper functions and types for converting directly
-// between Parquet and Apache Arrow formats.
-//
-// The schema module contains the types for manipulating / inspecting / creating
-// parquet file schemas.
-//
-// # Primitive Types
-//
-// The Parquet Primitive Types and their corresponding Go types are Boolean (bool),
-// Int32 (int32), Int64 (int64), Int96 (parquet.Int96), Float (float32), Double (float64),
-// ByteArray (parquet.ByteArray) and FixedLenByteArray (parquet.FixedLenByteArray).
-//
-// # Encodings
-//
-// The encoding types supported in this package are:
-//
-//   - Plain
-//
-//   - Plain/RLE Dictionary
-//
-//   - Delta Binary Packed (only integer types)
-//
-//   - Delta Byte Array (only ByteArray)
-//
-//   - Delta Length Byte Array (only ByteArray)
-//
-//   - Byte Stream Split (Float, Double, Int32, Int64, FixedLenByteArray)
-//
-// Tip: Some platforms don't necessarily support all kinds of encodings. If you're not
-// sure what to use, just use Plain and Dictionary encoding.
-package parquet
-
-//go:generate go run golang.org/x/tools/cmd/stringer -type=Version -linecomment
-//go:generate thrift -o internal -r --gen go ../../cpp/src/parquet/parquet.thrift
diff --git a/go/parquet/encryption_properties.go b/go/parquet/encryption_properties.go
deleted file mode 100644
index e9cb07d18bfe4..0000000000000
--- a/go/parquet/encryption_properties.go
+++ /dev/null
@@ -1,711 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet
-
-import (
-	"crypto/rand"
-	"unicode/utf8"
-
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-// Constants that will be used as the default values with encryption/decryption
-const (
-	// By default we'll use AesGCM as our encryption algorithm
-	DefaultEncryptionAlgorithm       = AesGcm
-	MaximalAadMetadataLength   int32 = 256
-	// if encryption is turned on, we will default to also encrypting the footer
-	DefaultEncryptedFooter = true
-	DefaultCheckSignature  = true
-	// by default if you set the file decryption properties, we will error
-	// on any plaintext files unless otherwise specified.
-	DefaultAllowPlaintextFiles       = false
-	AadFileUniqueLength        int32 = 8
-)
-
-// ColumnPathToDecryptionPropsMap maps column paths to decryption properties
-type ColumnPathToDecryptionPropsMap map[string]*ColumnDecryptionProperties
-
-// ColumnPathToEncryptionPropsMap maps column paths to encryption properties
-type ColumnPathToEncryptionPropsMap map[string]*ColumnEncryptionProperties
-
-// ColumnEncryptionProperties specifies how to encrypt a given column
-type ColumnEncryptionProperties struct {
-	columnPath             string
-	encrypted              bool
-	encryptedWithFooterKey bool
-	key                    string
-	keyMetadata            string
-	utilized               bool
-}
-
-// ColumnPath returns which column these properties are for
-func (ce *ColumnEncryptionProperties) ColumnPath() string {
-	return ce.columnPath
-}
-
-// IsEncrypted returns true if this column is encrypted.
-func (ce *ColumnEncryptionProperties) IsEncrypted() bool { return ce.encrypted }
-
-// IsEncryptedWithFooterKey returns if this column was encrypted with the footer key itself, or false if a separate
-// key was used for encrypting this column.
-func (ce *ColumnEncryptionProperties) IsEncryptedWithFooterKey() bool {
-	return ce.encryptedWithFooterKey
-}
-
-// Key returns the key used for encrypting this column if it isn't encrypted by the footer key
-func (ce *ColumnEncryptionProperties) Key() string { return ce.key }
-
-// KeyMetadata returns the key identifier which is used with a KeyRetriever to get the key for this column if it is not
-// encrypted using the footer key
-func (ce *ColumnEncryptionProperties) KeyMetadata() string { return ce.keyMetadata }
-
-// WipeOutEncryptionKey Clears the encryption key, used after completion of file writing
-func (ce *ColumnEncryptionProperties) WipeOutEncryptionKey() { ce.key = "" }
-
-// IsUtilized returns whether or not these properties have already been used, if the key is empty
-// then this is always false
-func (ce *ColumnEncryptionProperties) IsUtilized() bool {
-	if ce.key == "" {
-		return false
-	}
-	return ce.utilized
-}
-
-// SetUtilized is used for marking it as utilized once it is used in FileEncryptionProperties
-// as the encryption key will be wiped out on completion of writing
-func (ce *ColumnEncryptionProperties) SetUtilized() {
-	ce.utilized = true
-}
-
-// Clone returns a instance of ColumnEncryptionProperties with the same key and metadata
-func (ce *ColumnEncryptionProperties) Clone() *ColumnEncryptionProperties {
-	copy := ce.key
-	return NewColumnEncryptionProperties(ce.columnPath, WithKey(copy), WithKeyMetadata(ce.keyMetadata))
-}
-
-type colEncryptConfig struct {
-	key         string
-	keyMetadata string
-	encrypted   bool
-}
-
-// ColumnEncryptOption how to specify options to the NewColumnEncryptionProperties function.
-type ColumnEncryptOption func(*colEncryptConfig)
-
-// WithKey sets a column specific key.
-// If key is not set on an encrypted column, the column will be encrypted with the footer key.
-// key length must be either 16, 24, or 32 bytes
-// the key is cloned and will be wiped out (array values set to 0) upon completion of file writing.
-// Caller is responsible for wiping out input key array
-func WithKey(key string) ColumnEncryptOption {
-	return func(c *colEncryptConfig) {
-		if key != "" {
-			c.key = key
-		}
-	}
-}
-
-// WithKeyMetadata sets the key retrieval metadata, use either KeyMetadata or KeyID but not both
-func WithKeyMetadata(keyMeta string) ColumnEncryptOption {
-	return func(c *colEncryptConfig) {
-		c.keyMetadata = keyMeta
-	}
-}
-
-// WithKeyID is a convenience function to set the key metadata using a string id.
-// Set a key retrieval metadata (converted from String). and use either KeyMetadata or KeyID, not both.
-// KeyID will be converted to metadata (UTF-8 Array)
-func WithKeyID(keyID string) ColumnEncryptOption {
-	if !utf8.ValidString(keyID) {
-		panic("parquet: key id should be UTF8 encoded")
-	}
-	return WithKeyMetadata(keyID)
-}
-
-// NewColumnEncryptionProperties constructs properties for the provided column path, modified by the options provided
-func NewColumnEncryptionProperties(name string, opts ...ColumnEncryptOption) *ColumnEncryptionProperties {
-	var cfg colEncryptConfig
-	cfg.encrypted = true
-	for _, o := range opts {
-		o(&cfg)
-	}
-	return &ColumnEncryptionProperties{
-		utilized:               false,
-		encrypted:              cfg.encrypted,
-		encryptedWithFooterKey: cfg.encrypted && cfg.key == "",
-		keyMetadata:            cfg.keyMetadata,
-		key:                    cfg.key,
-		columnPath:             name,
-	}
-}
-
-// ColumnDecryptionProperties are the specifications for how to decrypt a given column.
-type ColumnDecryptionProperties struct {
-	columnPath string
-	key        string
-	utilized   bool
-}
-
-// NewColumnDecryptionProperties constructs a new ColumnDecryptionProperties for the given column path, modified by
-// the provided options
-func NewColumnDecryptionProperties(column string, opts ...ColumnDecryptOption) *ColumnDecryptionProperties {
-	var cfg columnDecryptConfig
-	for _, o := range opts {
-		o(&cfg)
-	}
-
-	return &ColumnDecryptionProperties{
-		columnPath: column,
-		utilized:   false,
-		key:        cfg.key,
-	}
-}
-
-// ColumnPath returns which column these properties describe how to decrypt
-func (cd *ColumnDecryptionProperties) ColumnPath() string { return cd.columnPath }
-
-// Key returns the key specified to decrypt this column, or is empty if the Footer Key should be used.
-func (cd *ColumnDecryptionProperties) Key() string { return cd.key }
-
-// IsUtilized returns whether or not these properties have been used for decryption already
-func (cd *ColumnDecryptionProperties) IsUtilized() bool { return cd.utilized }
-
-// SetUtilized is used by the reader to specify when we've decrypted the column and have used the key so we know
-// to wipe out the keys.
-func (cd *ColumnDecryptionProperties) SetUtilized() { cd.utilized = true }
-
-// WipeOutDecryptionKey is called after decryption to ensure the key doesn't stick around and get re-used.
-func (cd *ColumnDecryptionProperties) WipeOutDecryptionKey() { cd.key = "" }
-
-// Clone returns a new instance of ColumnDecryptionProperties with the same key and column
-func (cd *ColumnDecryptionProperties) Clone() *ColumnDecryptionProperties {
-	return NewColumnDecryptionProperties(cd.columnPath, WithDecryptKey(cd.key))
-}
-
-type columnDecryptConfig struct {
-	key string
-}
-
-// ColumnDecryptOption is the type of the options passed for constructing Decryption Properties
-type ColumnDecryptOption func(*columnDecryptConfig)
-
-// WithDecryptKey specifies the key to utilize for decryption
-func WithDecryptKey(key string) ColumnDecryptOption {
-	return func(cfg *columnDecryptConfig) {
-		if key != "" {
-			cfg.key = key
-		}
-	}
-}
-
-// AADPrefixVerifier is an interface for any object that can be used to verify the identity of the file being decrypted.
-// It should panic if the provided AAD identity is bad.
-//
-// In a data set, AAD Prefixes should be collected, and then checked for missing files.
-type AADPrefixVerifier interface {
-	// Verify identity of file. panic if bad
-	Verify(string)
-}
-
-// DecryptionKeyRetriever is an interface for getting the desired key for decryption from metadata. It should take in
-// some metadata identifier and return the actual Key to use for decryption.
-type DecryptionKeyRetriever interface {
-	GetKey(keyMetadata []byte) string
-}
-
-// FileDecryptionProperties define the File Level configuration for decrypting a parquet file. Once constructed they are
-// read only.
-type FileDecryptionProperties struct {
-	footerKey                     string
-	aadPrefix                     string
-	checkPlaintextFooterIntegrity bool
-	plaintextAllowed              bool
-	utilized                      bool
-	columnDecryptProps            ColumnPathToDecryptionPropsMap
-	Verifier                      AADPrefixVerifier
-	KeyRetriever                  DecryptionKeyRetriever
-}
-
-// NewFileDecryptionProperties takes in the options for constructing a new FileDecryptionProperties object, otherwise
-// it will use the default configuration which will check footer integrity of a plaintext footer for an encrypted file
-// for unencrypted parquet files, the decryption properties should not be set.
-func NewFileDecryptionProperties(opts ...FileDecryptionOption) *FileDecryptionProperties {
-	var cfg fileDecryptConfig
-	cfg.checkFooterIntegrity = DefaultCheckSignature
-	cfg.plaintextAllowed = DefaultAllowPlaintextFiles
-	for _, o := range opts {
-		o(&cfg)
-	}
-	return &FileDecryptionProperties{
-		Verifier:                      cfg.verifier,
-		footerKey:                     cfg.footerKey,
-		checkPlaintextFooterIntegrity: cfg.checkFooterIntegrity,
-		KeyRetriever:                  cfg.retriever,
-		aadPrefix:                     cfg.aadPrefix,
-		columnDecryptProps:            cfg.colDecrypt,
-		plaintextAllowed:              cfg.plaintextAllowed,
-		utilized:                      false,
-	}
-}
-
-// ColumnKey returns the key to be used for decrypting the provided column.
-func (fd *FileDecryptionProperties) ColumnKey(path string) string {
-	if d, ok := fd.columnDecryptProps[path]; ok {
-		if d != nil {
-			return d.Key()
-		}
-	}
-	return ""
-}
-
-// FooterKey returns the key utilized for decrypting the Footer if encrypted and any columns that are encrypted with
-// the footer key.
-func (fd *FileDecryptionProperties) FooterKey() string { return fd.footerKey }
-
-// AadPrefix returns the prefix to be supplied for constructing the identification strings when decrypting
-func (fd *FileDecryptionProperties) AadPrefix() string { return fd.aadPrefix }
-
-// PlaintextFooterIntegrity returns whether or not an integrity check will be performed on a plaintext footer for an
-// encrypted file.
-func (fd *FileDecryptionProperties) PlaintextFooterIntegrity() bool {
-	return fd.checkPlaintextFooterIntegrity
-}
-
-// PlaintextFilesAllowed returns whether or not this instance of decryption properties are allowed on a plaintext file.
-func (fd *FileDecryptionProperties) PlaintextFilesAllowed() bool { return fd.plaintextAllowed }
-
-// SetUtilized is called to mark this instance as utilized once it is used to read a file. A single instance
-// can be used for reading one file only. Setting this ensures the keys will be wiped out upon completion of file reading.
-func (fd *FileDecryptionProperties) SetUtilized() { fd.utilized = true }
-
-// IsUtilized returns whether or not this instance has been used to decrypt a file. If the footer key and prefix are
-// empty and there are no column decryption properties, then this is always false.
-func (fd *FileDecryptionProperties) IsUtilized() bool {
-	if fd.footerKey == "" && len(fd.columnDecryptProps) == 0 && fd.aadPrefix == "" {
-		return false
-	}
-	return fd.utilized
-}
-
-// WipeOutDecryptionKeys will clear all the keys for this instance including the column level ones, this will be called
-// after this instance has been utilized.
-func (fd *FileDecryptionProperties) WipeOutDecryptionKeys() {
-	fd.footerKey = ""
-	for _, cd := range fd.columnDecryptProps {
-		cd.WipeOutDecryptionKey()
-	}
-}
-
-// Clone returns a new instance of these properties, changing the prefix if set (keeping the same prefix if left empty)
-func (fd *FileDecryptionProperties) Clone(newAadPrefix string) *FileDecryptionProperties {
-	keyCopy := fd.footerKey
-	colDecryptMapCopy := make(ColumnPathToDecryptionPropsMap)
-	for k, v := range fd.columnDecryptProps {
-		colDecryptMapCopy[k] = v.Clone()
-	}
-	if newAadPrefix == "" {
-		newAadPrefix = fd.aadPrefix
-	}
-	return &FileDecryptionProperties{
-		footerKey:                     keyCopy,
-		KeyRetriever:                  fd.KeyRetriever,
-		checkPlaintextFooterIntegrity: fd.checkPlaintextFooterIntegrity,
-		Verifier:                      fd.Verifier,
-		columnDecryptProps:            colDecryptMapCopy,
-		aadPrefix:                     newAadPrefix,
-		plaintextAllowed:              fd.plaintextAllowed,
-		utilized:                      false,
-	}
-}
-
-type fileDecryptConfig struct {
-	footerKey            string
-	aadPrefix            string
-	verifier             AADPrefixVerifier
-	colDecrypt           ColumnPathToDecryptionPropsMap
-	retriever            DecryptionKeyRetriever
-	checkFooterIntegrity bool
-	plaintextAllowed     bool
-}
-
-// FileDecryptionOption is how to supply options to constructing a new FileDecryptionProperties instance.
-type FileDecryptionOption func(*fileDecryptConfig)
-
-// WithFooterKey sets an explicit footer key. If Applied on a file that contains footer key
-// metadata the metadata will be ignored, the footer will be decrypted/verified with this key.
-//
-// If the explicit key is not set, footer key will be fetched from the key retriever.
-// With explicit keys or AAD prefix, new encryption properties object must be created for each
-// encrypted file.
-//
-// Explicit encryption keys (footer and column) are cloned.
-// Upon completion of file reading, the cloned encryption keys in the properties will be wiped out
-// Caller is responsible for wiping out the input key array
-// footer key length must be either 16, 24, or 32 bytes
-func WithFooterKey(key string) FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		if key != "" {
-			cfg.footerKey = key
-		}
-	}
-}
-
-// WithPrefixVerifier supplies a verifier object to use for verifying the AAD Prefixes stored in the file.
-func WithPrefixVerifier(verifier AADPrefixVerifier) FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		if verifier != nil {
-			cfg.verifier = verifier
-		}
-	}
-}
-
-// WithColumnKeys sets explicit column keys.
-//
-// It's also possible to set a key retriever on this property object.
-//
-// Upon file decryption, availability of explicit keys is checked before invocation
-// of the retriever callback.
-//
-// If an explicit key is available for a footer or a column, its key metadata will be ignored.
-func WithColumnKeys(decrypt ColumnPathToDecryptionPropsMap) FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		if len(decrypt) == 0 {
-			return
-		}
-		if len(cfg.colDecrypt) != 0 {
-			panic("column properties already set")
-		}
-		for _, v := range decrypt {
-			if v.IsUtilized() {
-				panic("parquet: column properties utilized in another file")
-			}
-			v.SetUtilized()
-		}
-		cfg.colDecrypt = decrypt
-	}
-}
-
-// WithKeyRetriever sets a key retriever callback. It's also possible to set explicit footer or column keys.
-func WithKeyRetriever(retriever DecryptionKeyRetriever) FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		if retriever != nil {
-			cfg.retriever = retriever
-		}
-	}
-}
-
-// DisableFooterSignatureVerification skips integrity verification of plaintext footers.
-//
-// If not called, integrity of plaintext footers will be checked in runtime, and will panic
-// if the footer signing key is not available
-// or if the footer content and signature don't match
-func DisableFooterSignatureVerification() FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		cfg.checkFooterIntegrity = false
-	}
-}
-
-// WithPlaintextAllowed sets allowing plaintext files.
-//
-// By default, reading plaintext (unencrypted) files is not allowed when using
-// a decryptor.
-//
-// In order to detect files that were not encrypted by mistake.
-// However the default behavior can be overridden by using this method.
-func WithPlaintextAllowed() FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		cfg.plaintextAllowed = true
-	}
-}
-
-// WithDecryptAadPrefix explicitly supplies the file aad prefix.
-//
-// A must when a prefix is used for file encryption, but not stored in the file.
-func WithDecryptAadPrefix(prefix string) FileDecryptionOption {
-	return func(cfg *fileDecryptConfig) {
-		if prefix != "" {
-			cfg.aadPrefix = prefix
-		}
-	}
-}
-
-// Algorithm describes how something was encrypted, representing the EncryptionAlgorithm object from the
-// parquet.thrift file.
-type Algorithm struct {
-	Algo Cipher
-	Aad  struct {
-		AadPrefix       []byte
-		AadFileUnique   []byte
-		SupplyAadPrefix bool
-	}
-}
-
-// ToThrift returns an instance to be used for serializing when writing a file.
-func (e Algorithm) ToThrift() *format.EncryptionAlgorithm {
-	if e.Algo == AesGcm {
-		return &format.EncryptionAlgorithm{
-			AES_GCM_V1: &format.AesGcmV1{
-				AadPrefix:       e.Aad.AadPrefix,
-				AadFileUnique:   e.Aad.AadFileUnique,
-				SupplyAadPrefix: &e.Aad.SupplyAadPrefix,
-			},
-		}
-	}
-	return &format.EncryptionAlgorithm{
-		AES_GCM_CTR_V1: &format.AesGcmCtrV1{
-			AadPrefix:       e.Aad.AadPrefix,
-			AadFileUnique:   e.Aad.AadFileUnique,
-			SupplyAadPrefix: &e.Aad.SupplyAadPrefix,
-		},
-	}
-}
-
-// AlgorithmFromThrift converts the thrift object to the Algorithm struct for easier usage.
-func AlgorithmFromThrift(enc *format.EncryptionAlgorithm) (ret Algorithm) {
-	if enc.IsSetAES_GCM_V1() {
-		ret.Algo = AesGcm
-		ret.Aad.AadFileUnique = enc.AES_GCM_V1.AadFileUnique
-		ret.Aad.AadPrefix = enc.AES_GCM_V1.AadPrefix
-		ret.Aad.SupplyAadPrefix = *enc.AES_GCM_V1.SupplyAadPrefix
-		return
-	}
-	ret.Algo = AesCtr
-	ret.Aad.AadFileUnique = enc.AES_GCM_CTR_V1.AadFileUnique
-	ret.Aad.AadPrefix = enc.AES_GCM_CTR_V1.AadPrefix
-	ret.Aad.SupplyAadPrefix = *enc.AES_GCM_CTR_V1.SupplyAadPrefix
-	return
-}
-
-// FileEncryptionProperties describe how to encrypt a parquet file when writing data.
-type FileEncryptionProperties struct {
-	alg                  Algorithm
-	footerKey            string
-	footerKeyMetadata    string
-	encryptedFooter      bool
-	fileAad              string
-	utilized             bool
-	storeAadPrefixInFile bool
-	aadPrefix            string
-	encryptedCols        ColumnPathToEncryptionPropsMap
-}
-
-// EncryptedFooter returns if the footer for this file should be encrypted or left in plaintext.
-func (fe *FileEncryptionProperties) EncryptedFooter() bool { return fe.encryptedFooter }
-
-// Algorithm returns the description of how we will perform the encryption, the algorithm, prefixes, and so on.
-func (fe *FileEncryptionProperties) Algorithm() Algorithm { return fe.alg }
-
-// FooterKey returns the actual key used to encrypt the footer if it is encrypted, or to encrypt any columns which
-// will be encrypted with it rather than their own keys.
-func (fe *FileEncryptionProperties) FooterKey() string { return fe.footerKey }
-
-// FooterKeyMetadata is used for retrieving a key from the key retriever in order to set the footer key
-func (fe *FileEncryptionProperties) FooterKeyMetadata() string { return fe.footerKeyMetadata }
-
-// FileAad returns the aad identification to be used at the file level which gets concatenated with the row and column
-// information for encrypting data.
-func (fe *FileEncryptionProperties) FileAad() string { return fe.fileAad }
-
-// IsUtilized returns whether or not this instance has been used to encrypt a file
-func (fe *FileEncryptionProperties) IsUtilized() bool { return fe.utilized }
-
-// SetUtilized is called after writing a file. A FileEncryptionProperties object can be used for writing one file only,
-// the encryption keys will be wiped out upon completion of writing the file.
-func (fe *FileEncryptionProperties) SetUtilized() { fe.utilized = true }
-
-// EncryptedColumns returns the mapping of column paths to column encryption properties
-func (fe *FileEncryptionProperties) EncryptedColumns() ColumnPathToEncryptionPropsMap {
-	return fe.encryptedCols
-}
-
-// ColumnEncryptionProperties returns the properties for encrypting a given column.
-//
-// This may be nil for columns that aren't encrypted or may be default properties.
-func (fe *FileEncryptionProperties) ColumnEncryptionProperties(path string) *ColumnEncryptionProperties {
-	if len(fe.encryptedCols) == 0 {
-		return NewColumnEncryptionProperties(path)
-	}
-	if c, ok := fe.encryptedCols[path]; ok {
-		return c
-	}
-	return nil
-}
-
-// Clone allows returning an identical property setup for another file with the option to update the aadPrefix,
-// (if given the empty string, the current aad prefix will be used) since a single instance can only be used
-// to encrypt one file before wiping out the keys.
-func (fe *FileEncryptionProperties) Clone(newAadPrefix string) *FileEncryptionProperties {
-	footerKeyCopy := fe.footerKey
-	encryptedColsCopy := make(ColumnPathToEncryptionPropsMap)
-	for k, v := range fe.encryptedCols {
-		encryptedColsCopy[k] = v.Clone()
-	}
-	if newAadPrefix == "" {
-		newAadPrefix = fe.aadPrefix
-	}
-
-	opts := []EncryptOption{
-		WithAlg(fe.alg.Algo), WithFooterKeyMetadata(fe.footerKeyMetadata),
-		WithAadPrefix(newAadPrefix), WithEncryptedColumns(encryptedColsCopy),
-	}
-	if !fe.encryptedFooter {
-		opts = append(opts, WithPlaintextFooter())
-	}
-	if !fe.storeAadPrefixInFile {
-		opts = append(opts, DisableAadPrefixStorage())
-	}
-	return NewFileEncryptionProperties(footerKeyCopy, opts...)
-}
-
-// WipeOutEncryptionKeys clears all of the encryption keys for this and the columns
-func (fe *FileEncryptionProperties) WipeOutEncryptionKeys() {
-	fe.footerKey = ""
-	for _, elem := range fe.encryptedCols {
-		elem.WipeOutEncryptionKey()
-	}
-}
-
-type configEncrypt struct {
-	cipher               Cipher
-	encryptFooter        bool
-	keyMetadata          string
-	aadprefix            string
-	storeAadPrefixInFile bool
-	encryptedCols        ColumnPathToEncryptionPropsMap
-}
-
-// EncryptOption is used for specifying values when building FileEncryptionProperties
-type EncryptOption func(*configEncrypt)
-
-// WithPlaintextFooter sets the writer to write the footer in plain text, otherwise the footer will be encrypted
-// too (which is the default behavior).
-func WithPlaintextFooter() EncryptOption {
-	return func(cfg *configEncrypt) {
-		cfg.encryptFooter = false
-	}
-}
-
-// WithAlg sets the encryption algorithm to utilize. (default is AesGcm)
-func WithAlg(cipher Cipher) EncryptOption {
-	return func(cfg *configEncrypt) {
-		cfg.cipher = cipher
-	}
-}
-
-// WithFooterKeyID sets a key retrieval metadata to use (converted from string), this must be a utf8 string.
-//
-// use either WithFooterKeyID or WithFooterKeyMetadata, not both.
-func WithFooterKeyID(key string) EncryptOption {
-	if !utf8.ValidString(key) {
-		panic("parquet: footer key id should be UTF8 encoded")
-	}
-	return WithFooterKeyMetadata(key)
-}
-
-// WithFooterKeyMetadata sets a key retrieval metadata to use for getting the key.
-//
-// Use either WithFooterKeyID or WithFooterKeyMetadata, not both.
-func WithFooterKeyMetadata(keyMeta string) EncryptOption {
-	return func(cfg *configEncrypt) {
-		if keyMeta != "" {
-			cfg.keyMetadata = keyMeta
-		}
-	}
-}
-
-// WithAadPrefix sets the AAD prefix to use for encryption and by default will store it in the file
-func WithAadPrefix(aadPrefix string) EncryptOption {
-	return func(cfg *configEncrypt) {
-		if aadPrefix != "" {
-			cfg.aadprefix = aadPrefix
-			cfg.storeAadPrefixInFile = true
-		}
-	}
-}
-
-// DisableAadPrefixStorage will set the properties to not store the AadPrefix in the file. If this isn't called
-// and the AadPrefix is set, then it will be stored. This needs to in the options *after* WithAadPrefix to have an effect.
-func DisableAadPrefixStorage() EncryptOption {
-	return func(cfg *configEncrypt) {
-		cfg.storeAadPrefixInFile = false
-	}
-}
-
-// WithEncryptedColumns sets the map of columns and their properties (keys etc.) If not called, then all columns will
-// be encrypted with the footer key. If called, then columns not in the map will be left unencrypted.
-func WithEncryptedColumns(encrypted ColumnPathToEncryptionPropsMap) EncryptOption {
-	none := func(*configEncrypt) {}
-	if len(encrypted) == 0 {
-		return none
-	}
-	return func(cfg *configEncrypt) {
-		if len(cfg.encryptedCols) != 0 {
-			panic("column properties already set")
-		}
-		for _, v := range encrypted {
-			if v.IsUtilized() {
-				panic("column properties utilized in another file")
-			}
-			v.SetUtilized()
-		}
-		cfg.encryptedCols = encrypted
-	}
-}
-
-// NewFileEncryptionProperties returns a new File Encryption description object using the options provided.
-func NewFileEncryptionProperties(footerKey string, opts ...EncryptOption) *FileEncryptionProperties {
-	var cfg configEncrypt
-	cfg.cipher = DefaultEncryptionAlgorithm
-	cfg.encryptFooter = DefaultEncryptedFooter
-	for _, o := range opts {
-		o(&cfg)
-	}
-
-	props := &FileEncryptionProperties{
-		footerKey:            footerKey,
-		footerKeyMetadata:    cfg.keyMetadata,
-		encryptedFooter:      cfg.encryptFooter,
-		aadPrefix:            cfg.aadprefix,
-		storeAadPrefixInFile: cfg.storeAadPrefixInFile,
-		encryptedCols:        cfg.encryptedCols,
-		utilized:             false,
-	}
-
-	aadFileUnique := [AadFileUniqueLength]uint8{}
-	_, err := rand.Read(aadFileUnique[:])
-	if err != nil {
-		panic(err)
-	}
-
-	supplyAadPrefix := false
-	if props.aadPrefix == "" {
-		props.fileAad = string(aadFileUnique[:])
-	} else {
-		props.fileAad = props.aadPrefix + string(aadFileUnique[:])
-		if !props.storeAadPrefixInFile {
-			supplyAadPrefix = true
-		}
-	}
-	props.alg.Algo = cfg.cipher
-	props.alg.Aad.AadFileUnique = aadFileUnique[:]
-	props.alg.Aad.SupplyAadPrefix = supplyAadPrefix
-	if cfg.aadprefix != "" && cfg.storeAadPrefixInFile {
-		props.alg.Aad.AadPrefix = []byte(props.aadPrefix)
-	}
-	return props
-}
diff --git a/go/parquet/encryption_properties_test.go b/go/parquet/encryption_properties_test.go
deleted file mode 100644
index 8f50e5880b555..0000000000000
--- a/go/parquet/encryption_properties_test.go
+++ /dev/null
@@ -1,217 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/stretchr/testify/assert"
-)
-
-const (
-	FooterEncryptionKey  = "0123456789012345"
-	ColumnEncryptionKey1 = "1234567890123450"
-	ColumnEncryptionKey2 = "1234567890123451"
-	FileName             = "tester"
-)
-
-func TestColumnEncryptedWithOwnKey(t *testing.T) {
-	t.Parallel()
-
-	columnPath1 := "column_1"
-	colprops1 := parquet.NewColumnEncryptionProperties(columnPath1,
-		parquet.WithKey(ColumnEncryptionKey1), parquet.WithKeyID("kc1"))
-
-	assert.Equal(t, columnPath1, colprops1.ColumnPath())
-	assert.True(t, colprops1.IsEncrypted())
-	assert.False(t, colprops1.IsEncryptedWithFooterKey())
-	assert.Equal(t, ColumnEncryptionKey1, colprops1.Key())
-	assert.Equal(t, "kc1", colprops1.KeyMetadata())
-}
-
-func TestColumnEncryptedWithFooterKey(t *testing.T) {
-	t.Parallel()
-
-	colPath1 := "column_1"
-	colprops1 := parquet.NewColumnEncryptionProperties(colPath1)
-
-	assert.Equal(t, colPath1, colprops1.ColumnPath())
-	assert.True(t, colprops1.IsEncrypted())
-	assert.True(t, colprops1.IsEncryptedWithFooterKey())
-}
-
-func TestUniformEncryption(t *testing.T) {
-	t.Parallel()
-
-	props := parquet.NewFileEncryptionProperties(FooterEncryptionKey, parquet.WithFooterKeyMetadata("kf"))
-
-	assert.True(t, props.EncryptedFooter())
-	assert.Equal(t, parquet.DefaultEncryptionAlgorithm, props.Algorithm().Algo)
-	assert.Equal(t, FooterEncryptionKey, props.FooterKey())
-	assert.Equal(t, "kf", props.FooterKeyMetadata())
-
-	colPath := parquet.ColumnPathFromString("a_column")
-	outColProps := props.ColumnEncryptionProperties(colPath.String())
-
-	assert.True(t, outColProps.IsEncrypted())
-	assert.True(t, outColProps.IsEncryptedWithFooterKey())
-}
-
-func TestEncryptFooterAndTwoColumns(t *testing.T) {
-	t.Parallel()
-
-	columnPath1 := parquet.ColumnPathFromString("column_1")
-	columnPath2 := parquet.ColumnPathFromString("column_2")
-
-	encryptedColumns := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptedColumns[columnPath1.String()] = parquet.NewColumnEncryptionProperties(columnPath1.String(),
-		parquet.WithKey(ColumnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptedColumns[columnPath2.String()] = parquet.NewColumnEncryptionProperties(columnPath2.String(),
-		parquet.WithKey(ColumnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(FooterEncryptionKey,
-		parquet.WithFooterKeyMetadata("kf"), parquet.WithEncryptedColumns(encryptedColumns))
-
-	assert.True(t, props.EncryptedFooter())
-	assert.Equal(t, parquet.DefaultEncryptionAlgorithm, props.Algorithm().Algo)
-	assert.Equal(t, FooterEncryptionKey, props.FooterKey())
-
-	outColProps1 := props.ColumnEncryptionProperties(columnPath1.String())
-	assert.Equal(t, columnPath1.String(), outColProps1.ColumnPath())
-	assert.True(t, outColProps1.IsEncrypted())
-	assert.False(t, outColProps1.IsEncryptedWithFooterKey())
-	assert.Equal(t, ColumnEncryptionKey1, outColProps1.Key())
-	assert.Equal(t, "kc1", outColProps1.KeyMetadata())
-
-	outColProps2 := props.ColumnEncryptionProperties(columnPath2.String())
-	assert.Equal(t, columnPath2.String(), outColProps2.ColumnPath())
-	assert.True(t, outColProps2.IsEncrypted())
-	assert.False(t, outColProps2.IsEncryptedWithFooterKey())
-	assert.Equal(t, ColumnEncryptionKey2, outColProps2.Key())
-	assert.Equal(t, "kc2", outColProps2.KeyMetadata())
-
-	columnPath3 := parquet.ColumnPathFromString("column_3")
-	outColProps3 := props.ColumnEncryptionProperties(columnPath3.String())
-	assert.Nil(t, outColProps3)
-}
-
-func TestEncryptTwoColumnsNotFooter(t *testing.T) {
-	t.Parallel()
-
-	columnPath1 := parquet.ColumnPathFromString("column_1")
-	columnPath2 := parquet.ColumnPathFromString("column_2")
-
-	encryptedColumns := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptedColumns[columnPath1.String()] = parquet.NewColumnEncryptionProperties(columnPath1.String(),
-		parquet.WithKey(ColumnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptedColumns[columnPath2.String()] = parquet.NewColumnEncryptionProperties(columnPath2.String(),
-		parquet.WithKey(ColumnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(FooterEncryptionKey,
-		parquet.WithFooterKeyMetadata("kf"), parquet.WithPlaintextFooter(), parquet.WithEncryptedColumns(encryptedColumns))
-
-	assert.False(t, props.EncryptedFooter())
-	assert.Equal(t, parquet.DefaultEncryptionAlgorithm, props.Algorithm().Algo)
-	assert.Equal(t, FooterEncryptionKey, props.FooterKey())
-
-	outColProps1 := props.ColumnEncryptionProperties(columnPath1.String())
-	assert.Equal(t, columnPath1.String(), outColProps1.ColumnPath())
-	assert.True(t, outColProps1.IsEncrypted())
-	assert.False(t, outColProps1.IsEncryptedWithFooterKey())
-	assert.Equal(t, ColumnEncryptionKey1, outColProps1.Key())
-	assert.Equal(t, "kc1", outColProps1.KeyMetadata())
-
-	outColProps2 := props.ColumnEncryptionProperties(columnPath2.String())
-	assert.Equal(t, columnPath2.String(), outColProps2.ColumnPath())
-	assert.True(t, outColProps2.IsEncrypted())
-	assert.False(t, outColProps2.IsEncryptedWithFooterKey())
-	assert.Equal(t, ColumnEncryptionKey2, outColProps2.Key())
-	assert.Equal(t, "kc2", outColProps2.KeyMetadata())
-
-	columnPath3 := "column_3"
-	outColProps3 := props.ColumnEncryptionProperties(columnPath3)
-	assert.Nil(t, outColProps3)
-}
-
-func TestUseAadPrefix(t *testing.T) {
-	t.Parallel()
-
-	props := parquet.NewFileEncryptionProperties(FooterEncryptionKey, parquet.WithAadPrefix(FileName))
-
-	assert.Equal(t, FileName, string(props.Algorithm().Aad.AadPrefix))
-	assert.False(t, props.Algorithm().Aad.SupplyAadPrefix)
-}
-
-func TestUseAadPrefixNotStoreInFile(t *testing.T) {
-	t.Parallel()
-
-	props := parquet.NewFileEncryptionProperties(FooterEncryptionKey,
-		parquet.WithAadPrefix(FileName), parquet.DisableAadPrefixStorage())
-
-	assert.Empty(t, props.Algorithm().Aad.AadPrefix)
-	assert.True(t, props.Algorithm().Aad.SupplyAadPrefix)
-}
-
-func TestUseAES_GCM_CTR_V1Algo(t *testing.T) {
-	t.Parallel()
-
-	props := parquet.NewFileEncryptionProperties(FooterEncryptionKey,
-		parquet.WithAlg(parquet.AesCtr))
-
-	assert.Equal(t, parquet.AesCtr, props.Algorithm().Algo)
-}
-
-func TestUseKeyRetriever(t *testing.T) {
-	t.Parallel()
-
-	stringKr1 := make(encryption.StringKeyIDRetriever)
-	stringKr1.PutKey("kf", FooterEncryptionKey)
-	stringKr1.PutKey("kc1", ColumnEncryptionKey1)
-	stringKr1.PutKey("kc2", ColumnEncryptionKey2)
-
-	props := parquet.NewFileDecryptionProperties(parquet.WithKeyRetriever(stringKr1))
-	assert.Equal(t, FooterEncryptionKey, props.KeyRetriever.GetKey([]byte("kf")))
-	assert.Equal(t, ColumnEncryptionKey1, props.KeyRetriever.GetKey([]byte("kc1")))
-	assert.Equal(t, ColumnEncryptionKey2, props.KeyRetriever.GetKey([]byte("kc2")))
-}
-
-func TestSupplyAadPrefix(t *testing.T) {
-	props := parquet.NewFileDecryptionProperties(
-		parquet.WithFooterKey(FooterEncryptionKey), parquet.WithDecryptAadPrefix(FileName))
-	assert.Equal(t, FileName, props.AadPrefix())
-}
-
-func TestSetKey(t *testing.T) {
-	columnPath1 := parquet.ColumnPathFromString("column_1")
-	props := parquet.NewColumnDecryptionProperties(columnPath1.String(), parquet.WithDecryptKey(ColumnEncryptionKey1))
-	assert.Equal(t, ColumnEncryptionKey1, props.Key())
-}
-
-func TestUsingExplicitFooterAndColumnKeys(t *testing.T) {
-	colPath1 := "column_1"
-	colPath2 := "column_2"
-	decryptCols := make(parquet.ColumnPathToDecryptionPropsMap)
-	decryptCols[colPath1] = parquet.NewColumnDecryptionProperties(colPath1, parquet.WithDecryptKey(ColumnEncryptionKey1))
-	decryptCols[colPath2] = parquet.NewColumnDecryptionProperties(colPath2, parquet.WithDecryptKey(ColumnEncryptionKey2))
-
-	props := parquet.NewFileDecryptionProperties(parquet.WithFooterKey(FooterEncryptionKey), parquet.WithColumnKeys(decryptCols))
-	assert.Equal(t, FooterEncryptionKey, props.FooterKey())
-	assert.Equal(t, ColumnEncryptionKey1, props.ColumnKey(colPath1))
-	assert.Equal(t, ColumnEncryptionKey2, props.ColumnKey(colPath2))
-}
diff --git a/go/parquet/encryption_read_config_test.go b/go/parquet/encryption_read_config_test.go
deleted file mode 100644
index 1e2de16416d31..0000000000000
--- a/go/parquet/encryption_read_config_test.go
+++ /dev/null
@@ -1,473 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet_test
-
-import (
-	"encoding/binary"
-	"fmt"
-	"os"
-	"path"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/stretchr/testify/suite"
-)
-
-/*
- * This file contains a unit-test for reading encrypted Parquet files with
- * different decryption configurations.
- *
- * The unit-test is called multiple times, each time to decrypt parquet files using
- * different decryption configuration as described below.
- * In each call two encrypted files are read: one temporary file that was generated using
- * encryption_write_config_test.go test and will be deleted upon
- * reading it, while the second resides in
- * parquet-testing/data repository. Those two encrypted files were encrypted using the
- * same encryption configuration.
- * The encrypted parquet file names are passed as parameter to the unit-test.
- *
- * A detailed description of the Parquet Modular Encryption specification can be found
- * here:
- * https://github.com/apache/parquet-format/blob/encryption/Encryption.md
- *
- * The following decryption configurations are used to decrypt each parquet file:
- *
- *  - Decryption configuration 1:   Decrypt using key retriever that holds the keys of
- *                                  two encrypted columns and the footer key.
- *  - Decryption configuration 2:   Decrypt using key retriever that holds the keys of
- *                                  two encrypted columns and the footer key. Supplies
- *                                  aad_prefix to verify file identity.
- *  - Decryption configuration 3:   Decrypt using explicit column and footer keys
- *                                  (instead of key retrieval callback).
- *  - Decryption Configuration 4:   PlainText Footer mode - test legacy reads,
- *                                  read the footer + all non-encrypted columns.
- *                                  (pairs with encryption configuration 3)
- *
- * The encrypted parquet files that is read was encrypted using one of the configurations
- * below:
- *
- *  - Encryption configuration 1:   Encrypt all columns and the footer with the same key.
- *                                  (uniform encryption)
- *  - Encryption configuration 2:   Encrypt two columns and the footer, with different
- *                                  keys.
- *  - Encryption configuration 3:   Encrypt two columns, with different keys.
- *                                  Don’t encrypt footer (to enable legacy readers)
- *                                  - plaintext footer mode.
- *  - Encryption configuration 4:   Encrypt two columns and the footer, with different
- *                                  keys. Supply aad_prefix for file identity
- *                                  verification.
- *  - Encryption configuration 5:   Encrypt two columns and the footer, with different
- *                                  keys. Supply aad_prefix, and call
- *                                  disable_aad_prefix_storage to prevent file
- *                                  identity storage in file metadata.
- *  - Encryption configuration 6:   Encrypt two columns and the footer, with different
- *                                  keys. Use the alternative (AES_GCM_CTR_V1) algorithm.
- */
-
-func getDataDir() string {
-	datadir := os.Getenv("PARQUET_TEST_DATA")
-	if datadir == "" {
-		panic("please point the PARQUET_TEST_DATA environment variable to the test data dir")
-	}
-	return datadir
-}
-
-type TestDecryptionSuite struct {
-	suite.Suite
-
-	pathToDouble        string
-	pathToFloat         string
-	decryptionConfigs   []*parquet.FileDecryptionProperties
-	footerEncryptionKey string
-	colEncryptionKey1   string
-	colEncryptionKey2   string
-	fileName            string
-	rowsPerRG           int
-}
-
-func (d *TestDecryptionSuite) TearDownSuite() {
-	os.Remove(tempdir)
-}
-
-func TestFileEncryptionDecryption(t *testing.T) {
-	suite.Run(t, new(EncryptionConfigTestSuite))
-	suite.Run(t, new(TestDecryptionSuite))
-}
-
-func (d *TestDecryptionSuite) SetupSuite() {
-	d.pathToDouble = "double_field"
-	d.pathToFloat = "float_field"
-	d.footerEncryptionKey = FooterEncryptionKey
-	d.colEncryptionKey1 = ColumnEncryptionKey1
-	d.colEncryptionKey2 = ColumnEncryptionKey2
-	d.fileName = FileName
-	d.rowsPerRG = 50 // same as write encryption test
-
-	d.createDecryptionConfigs()
-}
-
-func (d *TestDecryptionSuite) createDecryptionConfigs() {
-	// Decryption configuration 1: Decrypt using key retriever callback that holds the
-	// keys of two encrypted columns and the footer key.
-	stringKr1 := make(encryption.StringKeyIDRetriever)
-	stringKr1.PutKey("kf", d.footerEncryptionKey)
-	stringKr1.PutKey("kc1", d.colEncryptionKey1)
-	stringKr1.PutKey("kc2", d.colEncryptionKey2)
-
-	d.decryptionConfigs = append(d.decryptionConfigs,
-		parquet.NewFileDecryptionProperties(parquet.WithKeyRetriever(stringKr1)))
-
-	// Decryption configuration 2: Decrypt using key retriever callback that holds the
-	// keys of two encrypted columns and the footer key. Supply aad_prefix.
-	stringKr2 := make(encryption.StringKeyIDRetriever)
-	stringKr2.PutKey("kf", d.footerEncryptionKey)
-	stringKr2.PutKey("kc1", d.colEncryptionKey1)
-	stringKr2.PutKey("kc2", d.colEncryptionKey2)
-	d.decryptionConfigs = append(d.decryptionConfigs,
-		parquet.NewFileDecryptionProperties(parquet.WithKeyRetriever(stringKr2), parquet.WithDecryptAadPrefix(d.fileName)))
-
-	// Decryption configuration 3: Decrypt using explicit column and footer keys. Supply
-	// aad_prefix.
-	decryptCols := make(parquet.ColumnPathToDecryptionPropsMap)
-	decryptCols[d.pathToFloat] = parquet.NewColumnDecryptionProperties(d.pathToFloat, parquet.WithDecryptKey(d.colEncryptionKey2))
-	decryptCols[d.pathToDouble] = parquet.NewColumnDecryptionProperties(d.pathToDouble, parquet.WithDecryptKey(d.colEncryptionKey1))
-	d.decryptionConfigs = append(d.decryptionConfigs,
-		parquet.NewFileDecryptionProperties(parquet.WithFooterKey(d.footerEncryptionKey), parquet.WithColumnKeys(decryptCols)))
-
-	// Decryption Configuration 4: use plaintext footer mode, read only footer + plaintext
-	// columns.
-	d.decryptionConfigs = append(d.decryptionConfigs, nil)
-}
-
-func (d *TestDecryptionSuite) decryptFile(filename string, decryptConfigNum int) {
-	// if we get decryption_config_num = x then it means the actual number is x+1
-	// and since we want decryption_config_num=4 we set the condition to 3
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	if decryptConfigNum != 3 {
-		props.FileDecryptProps = d.decryptionConfigs[decryptConfigNum].Clone("")
-	}
-
-	fileReader, err := file.OpenParquetFile(filename, false, file.WithReadProps(props))
-	if err != nil {
-		panic(err)
-	}
-	defer fileReader.Close()
-	// get metadata
-	fileMetadata := fileReader.MetaData()
-	// get number of rowgroups
-	numRowGroups := len(fileMetadata.RowGroups)
-	// number of columns
-	numColumns := fileMetadata.Schema.NumColumns()
-	d.Equal(8, numColumns)
-
-	for r := 0; r < numRowGroups; r++ {
-		rowGroupReader := fileReader.RowGroup(r)
-
-		// get rowgroup meta
-		rgMeta := fileMetadata.RowGroup(r)
-		d.EqualValues(d.rowsPerRG, rgMeta.NumRows())
-
-		valuesRead := 0
-		rowsRead := int64(0)
-
-		// get col reader for boolean column
-		colReader, err := rowGroupReader.Column(0)
-		if err != nil {
-			panic(err)
-		}
-		boolReader := colReader.(*file.BooleanColumnChunkReader)
-
-		// get column chunk metadata for boolean column
-		boolMd, _ := rgMeta.ColumnChunk(0)
-		d.EqualValues(d.rowsPerRG, boolMd.NumValues())
-
-		// Read all rows in column
-		i := 0
-		for boolReader.HasNext() {
-			var val [1]bool
-			// read one value at a time. the number of rows read is returned. values
-			// read contains the number of non-null rows
-			rowsRead, valuesRead, _ = boolReader.ReadBatch(1, val[:], nil, nil)
-			// ensure only 1 value is read
-			d.EqualValues(1, rowsRead)
-			// there are no null values
-			d.EqualValues(1, valuesRead)
-			// verify the value
-			expected := i%2 == 0
-			d.Equal(expected, val[0], "i: ", i)
-			i++
-		}
-		d.EqualValues(i, boolMd.NumValues())
-
-		// Get column reader for int32 column
-		colReader, err = rowGroupReader.Column(1)
-		if err != nil {
-			panic(err)
-		}
-		int32reader := colReader.(*file.Int32ColumnChunkReader)
-
-		int32md, _ := rgMeta.ColumnChunk(1)
-		d.EqualValues(d.rowsPerRG, int32md.NumValues())
-		// Read all rows in column
-		i = 0
-		for int32reader.HasNext() {
-			var val [1]int32
-			// read one value at a time. the number of rows read is returned. values
-			// read contains the number of non-null rows
-			rowsRead, valuesRead, _ = int32reader.ReadBatch(1, val[:], nil, nil)
-			// ensure only 1 value is read
-			d.EqualValues(1, rowsRead)
-			// there are no null values
-			d.EqualValues(1, valuesRead)
-			// verify the value
-			d.EqualValues(i, val[0])
-			i++
-		}
-		d.EqualValues(i, int32md.NumValues())
-
-		// Get column reader for int64 column
-		colReader, err = rowGroupReader.Column(2)
-		if err != nil {
-			panic(err)
-		}
-		int64reader := colReader.(*file.Int64ColumnChunkReader)
-
-		int64md, _ := rgMeta.ColumnChunk(2)
-		// repeated column, we should have 2*d.rowsPerRG values
-		d.EqualValues(2*d.rowsPerRG, int64md.NumValues())
-		// Read all rows in column
-		i = 0
-		for int64reader.HasNext() {
-			var (
-				val [1]int64
-				def [1]int16
-				rep [1]int16
-			)
-
-			// read one value at a time. the number of rows read is returned. values
-			// read contains the number of non-null rows
-			rowsRead, valuesRead, _ = int64reader.ReadBatch(1, val[:], def[:], rep[:])
-			// ensure only 1 value is read
-			d.EqualValues(1, rowsRead)
-			// there are no null values
-			d.EqualValues(1, valuesRead)
-			// verify the value
-			expectedValue := int64(i) * 1000 * 1000 * 1000 * 1000
-			d.Equal(expectedValue, val[0])
-			if i%2 == 0 {
-				d.EqualValues(1, rep[0])
-			} else {
-				d.Zero(rep[0])
-			}
-			i++
-		}
-		d.EqualValues(i, int64md.NumValues())
-
-		// Get column reader for int96 column
-		colReader, err = rowGroupReader.Column(3)
-		if err != nil {
-			panic(err)
-		}
-		int96reader := colReader.(*file.Int96ColumnChunkReader)
-
-		int96md, _ := rgMeta.ColumnChunk(3)
-		// Read all rows in column
-		i = 0
-		for int96reader.HasNext() {
-			var (
-				val [1]parquet.Int96
-			)
-
-			// read one value at a time. the number of rows read is returned. values
-			// read contains the number of non-null rows
-			rowsRead, valuesRead, _ = int96reader.ReadBatch(1, val[:], nil, nil)
-			// ensure only 1 value is read
-			d.EqualValues(1, rowsRead)
-			// there are no null values
-			d.EqualValues(1, valuesRead)
-			// verify the value
-			var expectedValue parquet.Int96
-			binary.LittleEndian.PutUint32(expectedValue[:4], uint32(i))
-			binary.LittleEndian.PutUint32(expectedValue[4:], uint32(i+1))
-			binary.LittleEndian.PutUint32(expectedValue[8:], uint32(i+2))
-			d.Equal(expectedValue, val[0])
-			i++
-		}
-		d.EqualValues(i, int96md.NumValues())
-
-		// these two columns are always encrypted when we write them, so don't
-		// try to read them during the plaintext test.
-		if props.FileDecryptProps != nil {
-			// Get column reader for the float column
-			colReader, err = rowGroupReader.Column(4)
-			if err != nil {
-				panic(err)
-			}
-			floatReader := colReader.(*file.Float32ColumnChunkReader)
-
-			floatmd, _ := rgMeta.ColumnChunk(4)
-
-			i = 0
-			for floatReader.HasNext() {
-				var value [1]float32
-				// read one value at a time. the number of rows read is returned. values
-				// read contains the number of non-null rows
-				rowsRead, valuesRead, _ = floatReader.ReadBatch(1, value[:], nil, nil)
-				// ensure only 1 value is read
-				d.EqualValues(1, rowsRead)
-				// there are no null values
-				d.EqualValues(1, valuesRead)
-				// verify the value
-				expectedValue := float32(i) * 1.1
-				d.Equal(expectedValue, value[0])
-				i++
-			}
-			d.EqualValues(i, floatmd.NumValues())
-
-			// Get column reader for the double column
-			colReader, err = rowGroupReader.Column(5)
-			if err != nil {
-				panic(err)
-			}
-			dblReader := colReader.(*file.Float64ColumnChunkReader)
-
-			dblmd, _ := rgMeta.ColumnChunk(5)
-
-			i = 0
-			for dblReader.HasNext() {
-				var value [1]float64
-				// read one value at a time. the number of rows read is returned. values
-				// read contains the number of non-null rows
-				rowsRead, valuesRead, _ = dblReader.ReadBatch(1, value[:], nil, nil)
-				// ensure only 1 value is read
-				d.EqualValues(1, rowsRead)
-				// there are no null values
-				d.EqualValues(1, valuesRead)
-				// verify the value
-				expectedValue := float64(i) * 1.1111111
-				d.Equal(expectedValue, value[0])
-				i++
-			}
-			d.EqualValues(i, dblmd.NumValues())
-		}
-
-		colReader, err = rowGroupReader.Column(6)
-		if err != nil {
-			panic(err)
-		}
-		bareader := colReader.(*file.ByteArrayColumnChunkReader)
-
-		bamd, _ := rgMeta.ColumnChunk(6)
-
-		i = 0
-		for bareader.HasNext() {
-			var value [1]parquet.ByteArray
-			var def [1]int16
-
-			rowsRead, valuesRead, _ := bareader.ReadBatch(1, value[:], def[:], nil)
-			d.EqualValues(1, rowsRead)
-			expected := [10]byte{'p', 'a', 'r', 'q', 'u', 'e', 't', 0, 0, 0}
-			expected[7] = byte('0') + byte(i/100)
-			expected[8] = byte('0') + byte(i/10)%10
-			expected[9] = byte('0') + byte(i%10)
-			if i%2 == 0 {
-				d.Equal(1, valuesRead)
-				d.Len(value[0], 10)
-				d.EqualValues(expected[:], value[0])
-				d.EqualValues(1, def[0])
-			} else {
-				d.Zero(valuesRead)
-				d.Zero(def[0])
-			}
-			i++
-		}
-		d.EqualValues(i, bamd.NumValues())
-	}
-}
-
-func (d *TestDecryptionSuite) checkResults(fileName string, decryptionConfig, encryptionConfig uint) {
-	decFn := func() { d.decryptFile(fileName, int(decryptionConfig-1)) }
-
-	// Encryption configuration number 5 contains aad_prefix and disable_aad_prefix_storage
-	// an exception is expected to be thrown if the file is not decrypted with aad_prefix
-	if encryptionConfig == 5 {
-		if decryptionConfig == 1 || decryptionConfig == 3 {
-			d.Panics(decFn)
-			return
-		}
-	}
-
-	// decryption config number two contains aad_prefix. an exception
-	// is expected to be thrown if the file was not encrypted with the same aad_prefix
-	if decryptionConfig == 2 {
-		if encryptionConfig != 5 && encryptionConfig != 4 {
-			d.Panics(decFn)
-			return
-		}
-	}
-
-	// decryption config 4 can only work when the encryption config is 3
-	if decryptionConfig == 4 && encryptionConfig != 3 {
-		return
-	}
-	d.NotPanics(decFn)
-}
-
-// Read encrypted parquet file.
-// the test reads two parquet files that were encrypted using the same encryption config
-// one was generated in encryption_write_configurations_test.go tests and is deleted
-// once the file is read and the second exists in parquet-testing/data folder
-func (d *TestDecryptionSuite) TestDecryption() {
-	tests := []struct {
-		file   string
-		config uint
-	}{
-		{"uniform_encryption.parquet.encrypted", 1},
-		{"encrypt_columns_and_footer.parquet.encrypted", 2},
-		{"encrypt_columns_plaintext_footer.parquet.encrypted", 3},
-		{"encrypt_columns_and_footer_aad.parquet.encrypted", 4},
-		{"encrypt_columns_and_footer_disable_aad_storage.parquet.encrypted", 5},
-		{"encrypt_columns_and_footer_ctr.parquet.encrypted", 6},
-	}
-	for _, tt := range tests {
-		d.Run(tt.file, func() {
-			// decrypt file that was generated in encryption-write-tests
-			tmpFile := path.Join(tempdir, "tmp_"+tt.file)
-			d.Require().FileExists(tmpFile)
-
-			// iterate over decryption configs and use each one to read the encrypted file
-			for idx := range d.decryptionConfigs {
-				decConfig := idx + 1
-				d.checkResults(tmpFile, uint(decConfig), tt.config)
-			}
-			os.Remove(tmpFile)
-
-			file := path.Join(getDataDir(), tt.file)
-			d.Require().FileExists(file)
-
-			for idx := range d.decryptionConfigs {
-				decConfig := idx + 1
-				d.Run(fmt.Sprintf("config %d", decConfig), func() {
-					d.checkResults(file, uint(decConfig), tt.config)
-				})
-			}
-		})
-	}
-}
diff --git a/go/parquet/encryption_write_config_test.go b/go/parquet/encryption_write_config_test.go
deleted file mode 100644
index 01a5c2be93a46..0000000000000
--- a/go/parquet/encryption_write_config_test.go
+++ /dev/null
@@ -1,321 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet_test
-
-import (
-	"encoding/binary"
-	"fmt"
-	"os"
-	"path/filepath"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/suite"
-)
-
-/*
- * This file contains unit-tests for writing encrypted Parquet files with
- * different encryption configurations.
- * The files are saved in temporary folder and will be deleted after reading
- * them in encryption_read_config_test.go test.
- *
- * A detailed description of the Parquet Modular Encryption specification can be found
- * here:
- * https://github.com/apache/parquet-format/blob/encryption/Encryption.md
- *
- * Each unit-test creates a single parquet file with eight columns using one of the
- * following encryption configurations:
- *
- *  - Encryption configuration 1:   Encrypt all columns and the footer with the same key.
- *                                  (uniform encryption)
- *  - Encryption configuration 2:   Encrypt two columns and the footer, with different
- *                                  keys.
- *  - Encryption configuration 3:   Encrypt two columns, with different keys.
- *                                  Don’t encrypt footer (to enable legacy readers)
- *                                  - plaintext footer mode.
- *  - Encryption configuration 4:   Encrypt two columns and the footer, with different
- *                                  keys. Supply aad_prefix for file identity
- *                                  verification.
- *  - Encryption configuration 5:   Encrypt two columns and the footer, with different
- *                                  keys. Supply aad_prefix, and call
- *                                  disable_aad_prefix_storage to prevent file
- *                                  identity storage in file metadata.
- *  - Encryption configuration 6:   Encrypt two columns and the footer, with different
- *                                  keys. Use the alternative (AES_GCM_CTR_V1) algorithm.
- */
-
-var (
-	tempdir string
-)
-
-type EncryptionConfigTestSuite struct {
-	suite.Suite
-
-	pathToDoubleField    string
-	pathToFloatField     string
-	fileName             string
-	numRgs               int
-	rowsPerRG            int
-	schema               *schema.GroupNode
-	footerEncryptionKey  string
-	columnEncryptionKey1 string
-	columnEncryptionKey2 string
-}
-
-func (en *EncryptionConfigTestSuite) encryptFile(configs *parquet.FileEncryptionProperties, filename string) {
-	filename = filepath.Join(tempdir, filename)
-
-	props := parquet.NewWriterProperties(parquet.WithCompression(compress.Codecs.Snappy), parquet.WithEncryptionProperties(configs))
-	outFile, err := os.Create(filename)
-	en.Require().NoError(err)
-	en.Require().NotNil(outFile)
-
-	writer := file.NewParquetWriter(outFile, en.schema, file.WithWriterProps(props))
-	defer writer.Close()
-
-	for r := 0; r < en.numRgs; r++ {
-		var (
-			bufferedMode = r%2 == 0
-			rgr          file.RowGroupWriter
-			colIndex     = 0
-		)
-
-		if bufferedMode {
-			rgr = writer.AppendBufferedRowGroup()
-		} else {
-			rgr = writer.AppendRowGroup()
-		}
-
-		nextColumn := func() file.ColumnChunkWriter {
-			defer func() { colIndex++ }()
-			if bufferedMode {
-				cw, _ := rgr.(file.BufferedRowGroupWriter).Column(colIndex)
-				return cw
-			}
-			cw, _ := rgr.(file.SerialRowGroupWriter).NextColumn()
-			return cw
-		}
-
-		// write the bool col
-		boolWriter := nextColumn().(*file.BooleanColumnChunkWriter)
-		for i := 0; i < en.rowsPerRG; i++ {
-			value := (i % 2) == 0
-			n, err := boolWriter.WriteBatch([]bool{value}, nil, nil)
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-
-		// write the int32 col
-		int32Writer := nextColumn().(*file.Int32ColumnChunkWriter)
-		for i := int32(0); i < int32(en.rowsPerRG); i++ {
-			n, err := int32Writer.WriteBatch([]int32{i}, nil, nil)
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-
-		// write the int64 column, each row repeats twice
-		int64Writer := nextColumn().(*file.Int64ColumnChunkWriter)
-		for i := 0; i < 2*en.rowsPerRG; i++ {
-			var (
-				defLevel       = [1]int16{1}
-				repLevel       = [1]int16{0}
-				value    int64 = int64(i) * 1000 * 1000 * 1000 * 1000
-			)
-			if i%2 == 0 {
-				repLevel[0] = 1
-			}
-
-			n, err := int64Writer.WriteBatch([]int64{value}, defLevel[:], repLevel[:])
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-
-		// write the int96 col
-		int96Writer := nextColumn().(*file.Int96ColumnChunkWriter)
-		for i := 0; i < en.rowsPerRG; i++ {
-			val := parquet.Int96{}
-			binary.LittleEndian.PutUint32(val[:], uint32(i))
-			binary.LittleEndian.PutUint32(val[4:], uint32(i+1))
-			binary.LittleEndian.PutUint32(val[8:], uint32(i+2))
-			n, err := int96Writer.WriteBatch([]parquet.Int96{val}, nil, nil)
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-
-		// write the float column
-		floatWriter := nextColumn().(*file.Float32ColumnChunkWriter)
-		for i := 0; i < en.rowsPerRG; i++ {
-			val := float32(i) * 1.1
-			n, err := floatWriter.WriteBatch([]float32{val}, nil, nil)
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-
-		// write the double column
-		doubleWriter := nextColumn().(*file.Float64ColumnChunkWriter)
-		for i := 0; i < en.rowsPerRG; i++ {
-			value := float64(i) * 1.1111111
-			n, err := doubleWriter.WriteBatch([]float64{value}, nil, nil)
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-
-		// write the bytearray column. make every alternate value NULL
-		baWriter := nextColumn().(*file.ByteArrayColumnChunkWriter)
-		for i := 0; i < en.rowsPerRG; i++ {
-			var (
-				n     int64
-				err   error
-				hello = []byte{'p', 'a', 'r', 'q', 'u', 'e', 't', 0, 0, 0}
-			)
-			hello[7] = byte(int('0') + i/100)
-			hello[8] = byte(int('0') + (i/10)%10)
-			hello[9] = byte(int('0') + i%10)
-			if i%2 == 0 {
-				n, err = baWriter.WriteBatch([]parquet.ByteArray{hello}, []int16{1}, nil)
-				en.EqualValues(1, n)
-			} else {
-				n, err = baWriter.WriteBatch([]parquet.ByteArray{nil}, []int16{0}, nil)
-				en.Zero(n)
-			}
-
-			en.Require().NoError(err)
-		}
-
-		// write fixedlength byte array column
-		flbaWriter := nextColumn().(*file.FixedLenByteArrayColumnChunkWriter)
-		for i := 0; i < en.rowsPerRG; i++ {
-			v := byte(i)
-			value := parquet.FixedLenByteArray{v, v, v, v, v, v, v, v, v, v}
-			n, err := flbaWriter.WriteBatch([]parquet.FixedLenByteArray{value}, nil, nil)
-			en.EqualValues(1, n)
-			en.Require().NoError(err)
-		}
-	}
-}
-
-func (en *EncryptionConfigTestSuite) SetupSuite() {
-	var err error
-	tempdir, err = os.MkdirTemp("", "parquet-encryption-test-*")
-	en.Require().NoError(err)
-	fmt.Println(tempdir)
-
-	en.fileName = FileName
-	en.rowsPerRG = 50
-	en.numRgs = 5
-	en.pathToDoubleField = "double_field"
-	en.pathToFloatField = "float_field"
-	en.footerEncryptionKey = FooterEncryptionKey
-	en.columnEncryptionKey1 = ColumnEncryptionKey1
-	en.columnEncryptionKey2 = ColumnEncryptionKey2
-
-	fields := make(schema.FieldList, 0)
-	// create a primitive node named "boolean_field" with type BOOLEAN
-	// repetition:REQUIRED
-	fields = append(fields, schema.NewBooleanNode("boolean_field", parquet.Repetitions.Required, -1))
-	// create a primitive node named "int32_field" with type INT32 repetition REQUIRED
-	// and logical type: TIME_MILLIS
-	f, _ := schema.NewPrimitiveNodeLogical("int32_field", parquet.Repetitions.Required,
-		schema.NewTimeLogicalType(true, schema.TimeUnitMillis), parquet.Types.Int32, 0, -1)
-	fields = append(fields, f)
-
-	// create a primitive node named "int64_field" with type int64, repetition:REPEATED
-	fields = append(fields, schema.NewInt64Node("int64_field", parquet.Repetitions.Repeated, -1))
-
-	fields = append(fields,
-		schema.NewInt96Node("int96_field", parquet.Repetitions.Required, -1),
-		schema.NewFloat32Node("float_field", parquet.Repetitions.Required, -1),
-		schema.NewFloat64Node("double_field", parquet.Repetitions.Required, -1))
-
-	// create a primitive node named ba_field with type:BYTE_ARRAY repetition:OPTIONAL
-	fields = append(fields, schema.NewByteArrayNode("ba_field", parquet.Repetitions.Optional, -1))
-
-	// create a primitive node for flba_field
-	fields = append(fields, schema.NewFixedLenByteArrayNode("flba_field", parquet.Repetitions.Required, 10, -1))
-
-	// flba_field fixedlenbytearray
-	en.schema, _ = schema.NewGroupNode("schema", parquet.Repetitions.Required, fields, -1)
-}
-
-// Encryption Config 1: Encrypt All columns and the footer with the same key
-// (uniform encryption)
-func (en *EncryptionConfigTestSuite) TestUniformEncryption() {
-	props := parquet.NewFileEncryptionProperties(en.footerEncryptionKey, parquet.WithFooterKeyMetadata("kf"))
-	en.encryptFile(props, "tmp_uniform_encryption.parquet.encrypted")
-}
-
-// Encryption config 2: Encrypt Two Columns and the Footer, with different keys
-func (en *EncryptionConfigTestSuite) TestEncryptTwoColumnsAndFooter() {
-	encryptCols := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptCols[en.pathToDoubleField] = parquet.NewColumnEncryptionProperties(en.pathToDoubleField, parquet.WithKey(en.columnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptCols[en.pathToFloatField] = parquet.NewColumnEncryptionProperties(en.pathToFloatField, parquet.WithKey(en.columnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(en.footerEncryptionKey, parquet.WithFooterKeyMetadata("kf"), parquet.WithEncryptedColumns(encryptCols))
-	en.encryptFile(props, "tmp_encrypt_columns_and_footer.parquet.encrypted")
-}
-
-// Encryption Config 3: encrypt two columns, with different keys.
-// plaintext footer
-// (plaintext footer mode, readable by legacy readers)
-func (en *EncryptionConfigTestSuite) TestEncryptTwoColumnsPlaintextFooter() {
-	encryptCols := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptCols[en.pathToDoubleField] = parquet.NewColumnEncryptionProperties(en.pathToDoubleField, parquet.WithKey(en.columnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptCols[en.pathToFloatField] = parquet.NewColumnEncryptionProperties(en.pathToFloatField, parquet.WithKey(en.columnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(en.footerEncryptionKey, parquet.WithFooterKeyMetadata("kf"), parquet.WithEncryptedColumns(encryptCols), parquet.WithPlaintextFooter())
-	en.encryptFile(props, "tmp_encrypt_columns_plaintext_footer.parquet.encrypted")
-}
-
-// Encryption Config 4: Encrypt two columns and the footer, with different keys
-// use aad_prefix
-func (en *EncryptionConfigTestSuite) TestEncryptTwoColumnsAndFooterWithAadPrefix() {
-	encryptCols := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptCols[en.pathToDoubleField] = parquet.NewColumnEncryptionProperties(en.pathToDoubleField, parquet.WithKey(en.columnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptCols[en.pathToFloatField] = parquet.NewColumnEncryptionProperties(en.pathToFloatField, parquet.WithKey(en.columnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(en.footerEncryptionKey, parquet.WithFooterKeyMetadata("kf"), parquet.WithEncryptedColumns(encryptCols), parquet.WithAadPrefix(en.fileName))
-	en.encryptFile(props, "tmp_encrypt_columns_and_footer_aad.parquet.encrypted")
-}
-
-// Encryption Config 5: Encrypt Two columns and the footer, with different keys
-// use aad_prefix and disable_aad_prefix_storage
-func (en *EncryptionConfigTestSuite) TestEncryptTwoColumnsAndFooterWithAadPrefixDisableAadStorage() {
-	encryptCols := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptCols[en.pathToDoubleField] = parquet.NewColumnEncryptionProperties(en.pathToDoubleField, parquet.WithKey(en.columnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptCols[en.pathToFloatField] = parquet.NewColumnEncryptionProperties(en.pathToFloatField, parquet.WithKey(en.columnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(en.footerEncryptionKey, parquet.WithFooterKeyMetadata("kf"), parquet.WithAadPrefix(en.fileName), parquet.DisableAadPrefixStorage())
-	en.encryptFile(props, "tmp_encrypt_columns_and_footer_disable_aad_storage.parquet.encrypted")
-}
-
-// Encryption Config 6: Encrypt two columns and the footer, with different keys.
-// Use AES_GCM_CTR_V1
-func (en *EncryptionConfigTestSuite) TestEncryptTwoColumnsAndFooterAesGcmCtr() {
-	encryptCols := make(parquet.ColumnPathToEncryptionPropsMap)
-	encryptCols[en.pathToDoubleField] = parquet.NewColumnEncryptionProperties(en.pathToDoubleField, parquet.WithKey(en.columnEncryptionKey1), parquet.WithKeyID("kc1"))
-	encryptCols[en.pathToFloatField] = parquet.NewColumnEncryptionProperties(en.pathToFloatField, parquet.WithKey(en.columnEncryptionKey2), parquet.WithKeyID("kc2"))
-
-	props := parquet.NewFileEncryptionProperties(en.footerEncryptionKey, parquet.WithFooterKeyMetadata("kf"), parquet.WithEncryptedColumns(encryptCols), parquet.WithAlg(parquet.AesCtr))
-	en.encryptFile(props, "tmp_encrypt_columns_and_footer_ctr.parquet.encrypted")
-}
-
-func TestFileEncryption(t *testing.T) {
-	suite.Run(t, new(EncryptionConfigTestSuite))
-}
diff --git a/go/parquet/file/column_reader.go b/go/parquet/file/column_reader.go
deleted file mode 100644
index 38ebcf2893c46..0000000000000
--- a/go/parquet/file/column_reader.go
+++ /dev/null
@@ -1,526 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"errors"
-	"fmt"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-const (
-	// 4 MB is the default maximum page header size
-	defaultMaxPageHeaderSize = 4 * 1024 * 1024
-	// 16 KB is the default expected page header size
-	defaultPageHeaderSize = 16 * 1024
-)
-
-//go:generate go run ../../arrow/_tools/tmpl/main.go -i -data=../internal/encoding/physical_types.tmpldata column_reader_types.gen.go.tmpl
-
-func isDictIndexEncoding(e format.Encoding) bool {
-	return e == format.Encoding_RLE_DICTIONARY || e == format.Encoding_PLAIN_DICTIONARY
-}
-
-// CryptoContext is a context for keeping track of the current methods for decrypting.
-// It keeps track of the row group and column numbers along with references to the
-// decryptor objects.
-type CryptoContext struct {
-	StartDecryptWithDictionaryPage bool
-	RowGroupOrdinal                int16
-	ColumnOrdinal                  int16
-	MetaDecryptor                  encryption.Decryptor
-	DataDecryptor                  encryption.Decryptor
-}
-
-// ColumnChunkReader is the basic interface for all column readers. It will use
-// a page reader to read all the pages in a column chunk from a row group.
-//
-// To actually Read out the column data, you need to convert to the properly
-// typed ColumnChunkReader type such as *BooleanColumnReader etc.
-//
-// Some things to clarify when working with column readers:
-//
-// "Values" refers to the physical data values in a data page.
-//
-// This is separate from the number of "rows" in a column and the total number
-// of "elements" in a column because null values aren't stored physically in the
-// data page but are represented via definition levels, so the number of values
-// in a column can be less than the number of rows.
-//
-// The total number of "elements" in a column also differs because of potential
-// repeated fields, where you can have multiple values in the page which
-// together make up a single element (such as a list) or depending on the repetition
-// level and definition level, could represent an entire null list or just a null
-// element inside of a list.
-type ColumnChunkReader interface {
-	// HasNext returns whether there is more data to be read in this column
-	// and row group.
-	HasNext() bool
-	// Type returns the underlying physical type of the column
-	Type() parquet.Type
-	// Descriptor returns the column schema container
-	Descriptor() *schema.Column
-	// if HasNext returns false because of an error, this will return the error
-	// it encountered. Otherwise this will be nil if it's just the end of the
-	// column
-	Err() error
-	// Skip buffered values
-	consumeBufferedValues(int64)
-	// number of available buffered values that have not been decoded yet
-	// when this returns 0, you're at the end of a page.
-	numAvailValues() int64
-	// read the definition levels and return the number of definitions,
-	// and the number of values to be read (number of def levels == maxdef level)
-	// it also populates the passed in slice which should be sized appropriately.
-	readDefinitionLevels(levels []int16) (int, int64)
-	// read the repetition levels and return the number of repetition levels read
-	// also populates the passed in slice, which should be sized appropriately.
-	readRepetitionLevels(levels []int16) int
-	// a column is made up of potentially multiple pages across potentially multiple
-	// row groups. A PageReader allows looping through the pages in a single row group.
-	// When moving to another row group for reading, use setPageReader to re-use the
-	// column reader for reading the pages of the new row group.
-	pager() PageReader
-	// set a page reader into the columnreader so it can be reused.
-	//
-	// This will clear any current error in the reader but does not
-	// automatically read the first page of the page reader passed in until
-	// HasNext which will read in the next page.
-	setPageReader(PageReader)
-}
-
-type columnChunkReader struct {
-	descr             *schema.Column
-	rdr               PageReader
-	repetitionDecoder encoding.LevelDecoder
-	definitionDecoder encoding.LevelDecoder
-
-	curPage     Page
-	curEncoding format.Encoding
-	curDecoder  encoding.TypedDecoder
-
-	// number of currently buffered values in the current page
-	numBuffered int64
-	// the number of values we've decoded so far
-	numDecoded int64
-	mem        memory.Allocator
-	bufferPool *sync.Pool
-
-	decoders      map[format.Encoding]encoding.TypedDecoder
-	decoderTraits encoding.DecoderTraits
-
-	// is set when an error is encountered
-	err          error
-	defLvlBuffer []int16
-
-	newDictionary bool
-}
-
-// NewColumnReader returns a column reader for the provided column initialized with the given pagereader that will
-// provide the pages of data for this column. The type is determined from the column passed in.
-//
-// In addition to the page reader and allocator, a pointer to a shared sync.Pool is expected to provide buffers for temporary
-// usage to minimize allocations. The bufferPool should provide *memory.Buffer objects that can be resized as necessary, buffers
-// should have `ResizeNoShrink(0)` called on them before being put back into the pool.
-func NewColumnReader(descr *schema.Column, pageReader PageReader, mem memory.Allocator, bufferPool *sync.Pool) ColumnChunkReader {
-	base := columnChunkReader{descr: descr, rdr: pageReader, mem: mem, decoders: make(map[format.Encoding]encoding.TypedDecoder), bufferPool: bufferPool}
-	switch descr.PhysicalType() {
-	case parquet.Types.FixedLenByteArray:
-		base.decoderTraits = &encoding.FixedLenByteArrayDecoderTraits
-		return &FixedLenByteArrayColumnChunkReader{base}
-	case parquet.Types.Float:
-		base.decoderTraits = &encoding.Float32DecoderTraits
-		return &Float32ColumnChunkReader{base}
-	case parquet.Types.Double:
-		base.decoderTraits = &encoding.Float64DecoderTraits
-		return &Float64ColumnChunkReader{base}
-	case parquet.Types.ByteArray:
-		base.decoderTraits = &encoding.ByteArrayDecoderTraits
-		return &ByteArrayColumnChunkReader{base}
-	case parquet.Types.Int32:
-		base.decoderTraits = &encoding.Int32DecoderTraits
-		return &Int32ColumnChunkReader{base}
-	case parquet.Types.Int64:
-		base.decoderTraits = &encoding.Int64DecoderTraits
-		return &Int64ColumnChunkReader{base}
-	case parquet.Types.Int96:
-		base.decoderTraits = &encoding.Int96DecoderTraits
-		return &Int96ColumnChunkReader{base}
-	case parquet.Types.Boolean:
-		base.decoderTraits = &encoding.BooleanDecoderTraits
-		return &BooleanColumnChunkReader{base}
-	}
-	return nil
-}
-
-func (c *columnChunkReader) Err() error                    { return c.err }
-func (c *columnChunkReader) Type() parquet.Type            { return c.descr.PhysicalType() }
-func (c *columnChunkReader) Descriptor() *schema.Column    { return c.descr }
-func (c *columnChunkReader) consumeBufferedValues(n int64) { c.numDecoded += n }
-func (c *columnChunkReader) numAvailValues() int64         { return c.numBuffered - c.numDecoded }
-func (c *columnChunkReader) pager() PageReader             { return c.rdr }
-func (c *columnChunkReader) setPageReader(rdr PageReader) {
-	c.rdr, c.err = rdr, nil
-	c.decoders = make(map[format.Encoding]encoding.TypedDecoder)
-	c.numBuffered, c.numDecoded = 0, 0
-}
-
-func (c *columnChunkReader) getDefLvlBuffer(sz int64) []int16 {
-	if int64(len(c.defLvlBuffer)) < sz {
-		c.defLvlBuffer = make([]int16, sz)
-		return c.defLvlBuffer
-	}
-
-	return c.defLvlBuffer[:sz]
-}
-
-// HasNext returns whether there is more data to be read in this column
-// and row group.
-func (c *columnChunkReader) HasNext() bool {
-	if c.numBuffered == 0 || c.numDecoded == c.numBuffered {
-		return c.readNewPage() && c.numBuffered != 0
-	}
-	return true
-}
-
-func (c *columnChunkReader) configureDict(page *DictionaryPage) error {
-	enc := page.encoding
-	if enc == format.Encoding_PLAIN_DICTIONARY || enc == format.Encoding_PLAIN {
-		enc = format.Encoding_RLE_DICTIONARY
-	}
-
-	if _, ok := c.decoders[enc]; ok {
-		return xerrors.New("parquet: column chunk cannot have more than one dictionary.")
-	}
-
-	switch page.Encoding() {
-	case format.Encoding_PLAIN, format.Encoding_PLAIN_DICTIONARY:
-		dict := c.decoderTraits.Decoder(parquet.Encodings.Plain, c.descr, false, c.mem)
-		dict.SetData(int(page.NumValues()), page.Data())
-
-		decoder := c.decoderTraits.Decoder(parquet.Encodings.Plain, c.descr, true, c.mem).(encoding.DictDecoder)
-		decoder.SetDict(dict)
-		c.decoders[enc] = decoder
-	default:
-		return xerrors.New("parquet: dictionary index must be plain encoding")
-	}
-
-	c.newDictionary = true
-	c.curDecoder = c.decoders[enc]
-	return nil
-}
-
-// read a new page from the page reader
-func (c *columnChunkReader) readNewPage() bool {
-	for c.rdr.Next() { // keep going until we get a data page
-		c.curPage = c.rdr.Page()
-		if c.curPage == nil {
-			break
-		}
-
-		var lvlByteLen int64
-		switch p := c.curPage.(type) {
-		case *DictionaryPage:
-			if err := c.configureDict(p); err != nil {
-				c.err = err
-				return false
-			}
-			continue
-		case *DataPageV1:
-			lvlByteLen, c.err = c.initLevelDecodersV1(p, p.repLvlEncoding, p.defLvlEncoding)
-			if c.err != nil {
-				return false
-			}
-		case *DataPageV2:
-			lvlByteLen, c.err = c.initLevelDecodersV2(p)
-			if c.err != nil {
-				return false
-			}
-		default:
-			// we can skip non-data pages
-			continue
-		}
-
-		c.err = c.initDataDecoder(c.curPage, lvlByteLen)
-		return c.err == nil
-	}
-	c.err = c.rdr.Err()
-	return false
-}
-
-func (c *columnChunkReader) initLevelDecodersV2(page *DataPageV2) (int64, error) {
-	c.numBuffered = int64(page.nvals)
-	c.numDecoded = 0
-	buf := page.Data()
-	totalLvlLen := int64(page.repLvlByteLen) + int64(page.defLvlByteLen)
-
-	if totalLvlLen > int64(len(buf)) {
-		return totalLvlLen, xerrors.New("parquet: data page too small for levels (corrupt header?)")
-	}
-
-	if c.descr.MaxRepetitionLevel() > 0 {
-		c.repetitionDecoder.SetDataV2(page.repLvlByteLen, c.descr.MaxRepetitionLevel(), int(c.numBuffered), buf)
-	}
-	// ARROW-17453: Some writers will write repetition levels even when
-	// the max repetition level is 0, so we should respect the value
-	// in the page header regardless of whether MaxRepetitionLevel is 0
-	// or not.
-	buf = buf[page.repLvlByteLen:]
-
-	if c.descr.MaxDefinitionLevel() > 0 {
-		c.definitionDecoder.SetDataV2(page.defLvlByteLen, c.descr.MaxDefinitionLevel(), int(c.numBuffered), buf)
-	}
-
-	return totalLvlLen, nil
-}
-
-func (c *columnChunkReader) initLevelDecodersV1(page *DataPageV1, repLvlEncoding, defLvlEncoding format.Encoding) (int64, error) {
-	c.numBuffered = int64(page.nvals)
-	c.numDecoded = 0
-
-	buf := page.Data()
-	maxSize := len(buf)
-	levelsByteLen := int64(0)
-
-	// Data page layout: Repetition Levels - Definition Levels - encoded values.
-	// Levels are encoded as rle or bit-packed
-	if c.descr.MaxRepetitionLevel() > 0 {
-		repBytes, err := c.repetitionDecoder.SetData(parquet.Encoding(repLvlEncoding), c.descr.MaxRepetitionLevel(), int(c.numBuffered), buf)
-		if err != nil {
-			return levelsByteLen, err
-		}
-		buf = buf[repBytes:]
-		maxSize -= repBytes
-		levelsByteLen += int64(repBytes)
-	}
-
-	if c.descr.MaxDefinitionLevel() > 0 {
-		defBytes, err := c.definitionDecoder.SetData(parquet.Encoding(defLvlEncoding), c.descr.MaxDefinitionLevel(), int(c.numBuffered), buf)
-		if err != nil {
-			return levelsByteLen, err
-		}
-		levelsByteLen += int64(defBytes)
-		maxSize -= defBytes
-	}
-
-	return levelsByteLen, nil
-}
-
-func (c *columnChunkReader) initDataDecoder(page Page, lvlByteLen int64) error {
-	buf := page.Data()
-	if int64(len(buf)) < lvlByteLen {
-		return xerrors.New("parquet: page smaller than size of encoded levels")
-	}
-
-	buf = buf[lvlByteLen:]
-	encoding := page.Encoding()
-
-	if isDictIndexEncoding(encoding) {
-		encoding = format.Encoding_RLE_DICTIONARY
-	}
-
-	if decoder, ok := c.decoders[encoding]; ok {
-		c.curDecoder = decoder
-	} else {
-		switch encoding {
-		case format.Encoding_RLE:
-			if c.descr.PhysicalType() != parquet.Types.Boolean {
-				return fmt.Errorf("parquet: only boolean supports RLE encoding, got %s", c.descr.PhysicalType())
-			}
-			fallthrough
-		case format.Encoding_PLAIN,
-			format.Encoding_DELTA_BYTE_ARRAY,
-			format.Encoding_DELTA_LENGTH_BYTE_ARRAY,
-			format.Encoding_DELTA_BINARY_PACKED,
-			format.Encoding_BYTE_STREAM_SPLIT:
-			c.curDecoder = c.decoderTraits.Decoder(parquet.Encoding(encoding), c.descr, false, c.mem)
-			c.decoders[encoding] = c.curDecoder
-		case format.Encoding_RLE_DICTIONARY:
-			return errors.New("parquet: dictionary page must be before data page")
-		default:
-			return fmt.Errorf("parquet: unknown encoding type %s", encoding)
-		}
-	}
-
-	c.curEncoding = encoding
-	c.curDecoder.SetData(int(c.numBuffered), buf)
-	return nil
-}
-
-// readDefinitionLevels decodes the definition levels from the page and returns
-// it returns the total number of levels that were decoded (and thus populated
-// in the passed in slice) and the number of physical values that exist to read
-// (the number of levels that are equal to the max definition level).
-//
-// If the max definition level is 0, the assumption is that there no nulls in the
-// column and therefore no definition levels to read, so it will always return 0, 0
-func (c *columnChunkReader) readDefinitionLevels(levels []int16) (totalDecoded int, valuesToRead int64) {
-	if c.descr.MaxDefinitionLevel() == 0 {
-		return 0, 0
-	}
-
-	return c.definitionDecoder.Decode(levels)
-}
-
-// readRepetitionLevels decodes the repetition levels from the page and returns
-// the total number of values decoded (and thus populated in the passed in levels
-// slice).
-//
-// If max repetition level is 0, it is assumed there are no repetition levels,
-// and thus will always return 0.
-func (c *columnChunkReader) readRepetitionLevels(levels []int16) int {
-	if c.descr.MaxRepetitionLevel() == 0 {
-		return 0
-	}
-
-	nlevels, _ := c.repetitionDecoder.Decode(levels)
-	return nlevels
-}
-
-// determineNumToRead reads the definition levels (and optionally populates the repetition levels)
-// in order to determine how many values need to be read to fulfill this batch read.
-//
-// batchLen is the number of values it is desired to read. defLvls must be either nil (in which case
-// a buffer will be used) or must be at least batchLen in length to be safe. repLvls should be either nil
-// (in which case it is ignored) or should be at least batchLen in length to be safe.
-//
-// In the return values: ndef is the number of definition levels that were actually read in which will
-// typically be the minimum of batchLen and numAvailValues.
-// toRead is the number of physical values that should be read in based on the definition levels (the number
-// of definition levels that were equal to maxDefinitionLevel). and err being either nil or any error encountered
-func (c *columnChunkReader) determineNumToRead(batchLen int64, defLvls, repLvls []int16) (ndefs int, toRead int64, err error) {
-	if !c.HasNext() {
-		return 0, 0, c.err
-	}
-
-	size := utils.Min(batchLen, c.numBuffered-c.numDecoded)
-
-	if c.descr.MaxDefinitionLevel() > 0 {
-		if defLvls == nil {
-			defLvls = c.getDefLvlBuffer(size)
-		}
-		ndefs, toRead = c.readDefinitionLevels(defLvls[:size])
-	} else {
-		toRead = size
-	}
-
-	if c.descr.MaxRepetitionLevel() > 0 && repLvls != nil {
-		nreps := c.readRepetitionLevels(repLvls[:size])
-		if defLvls != nil && ndefs != nreps {
-			err = xerrors.New("parquet: number of decoded rep/def levels did not match")
-		}
-	}
-	return
-}
-
-// skipValues some number of rows using readFn as the function to read the data and throw it away.
-// If we can skipValues a whole page based on its metadata, then we do so, otherwise we read the
-// page until we have skipped the number of rows desired.
-func (c *columnChunkReader) skipValues(nvalues int64, readFn func(batch int64, buf []byte) (int64, error)) (int64, error) {
-	var err error
-	toskip := nvalues
-	for c.HasNext() && toskip > 0 {
-		// if number to skip is more than the number of undecoded values, skip the page
-		if toskip > (c.numBuffered - c.numDecoded) {
-			toskip -= c.numBuffered - c.numDecoded
-			c.numDecoded = c.numBuffered
-		} else {
-			var (
-				batchSize int64 = 1024
-				valsRead  int64 = 0
-			)
-
-			scratch := c.bufferPool.Get().(*memory.Buffer)
-			defer func() {
-				scratch.ResizeNoShrink(0)
-				c.bufferPool.Put(scratch)
-			}()
-			bufMult := 1
-			if c.descr.PhysicalType() == parquet.Types.Boolean {
-				// for bools, BytesRequired returns 1 byte per 8 bool, but casting []byte to []bool requires 1 byte per 1 bool
-				bufMult = 8
-			}
-			scratch.Reserve(c.decoderTraits.BytesRequired(int(batchSize) * bufMult))
-
-			for {
-				batchSize = utils.Min(batchSize, toskip)
-				valsRead, err = readFn(batchSize, scratch.Buf())
-				toskip -= valsRead
-				if valsRead <= 0 || toskip <= 0 || err != nil {
-					break
-				}
-			}
-		}
-	}
-	if c.err != nil {
-		err = c.err
-	}
-	return nvalues - toskip, err
-}
-
-type readerFunc func(int64, int64) (int, error)
-
-// base function for reading a batch of values, this will read until it either reads in batchSize values or
-// it hits the end of the column chunk, including reading multiple pages.
-//
-// totalValues is the total number of values which were read in, and thus would be the total number
-// of definition levels and repetition levels which were populated (if they were non-nil). totalRead
-// is the number of physical values that were read in (ie: the number of non-null values)
-func (c *columnChunkReader) readBatch(batchSize int64, defLvls, repLvls []int16, readFn readerFunc) (totalLvls int64, totalRead int, err error) {
-	var (
-		read   int
-		defs   []int16
-		reps   []int16
-		ndefs  int
-		toRead int64
-	)
-
-	for c.HasNext() && totalLvls < batchSize && err == nil {
-		if defLvls != nil {
-			defs = defLvls[totalLvls:]
-		}
-		if repLvls != nil {
-			reps = repLvls[totalLvls:]
-		}
-		ndefs, toRead, err = c.determineNumToRead(batchSize-totalLvls, defs, reps)
-		if err != nil {
-			return totalLvls, totalRead, err
-		}
-
-		read, err = readFn(int64(totalRead), toRead)
-		// the total number of values processed here is the maximum of
-		// the number of definition levels or the number of physical values read.
-		// if this is a required field, ndefs will be 0 since there is no definition
-		// levels stored with it and `read` will be the number of values, otherwise
-		// we use ndefs since it will be equal to or greater than read.
-		totalVals := int64(utils.Max(ndefs, read))
-		c.consumeBufferedValues(totalVals)
-
-		totalLvls += totalVals
-		totalRead += read
-	}
-	return totalLvls, totalRead, err
-}
diff --git a/go/parquet/file/column_reader_test.go b/go/parquet/file/column_reader_test.go
deleted file mode 100755
index b744c561d3b96..0000000000000
--- a/go/parquet/file/column_reader_test.go
+++ /dev/null
@@ -1,644 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file_test
-
-import (
-	"math"
-	"math/rand"
-	"reflect"
-	"runtime"
-	"sync"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-func initValues(values reflect.Value) {
-	if values.Kind() != reflect.Slice {
-		panic("must init values with slice")
-	}
-
-	r := rand.New(rand.NewSource(0))
-	typ := values.Type().Elem()
-	switch {
-	case typ.Kind() == reflect.Bool:
-		for i := 0; i < values.Len(); i++ {
-			values.Index(i).Set(reflect.ValueOf(r.Int31n(2) == 1))
-		}
-	case typ.Bits() <= 32:
-		max := int64(math.MaxInt32)
-		min := int64(math.MinInt32)
-		for i := 0; i < values.Len(); i++ {
-			values.Index(i).Set(reflect.ValueOf(r.Int63n(max-min+1) + min).Convert(reflect.TypeOf(int32(0))))
-		}
-	case typ.Bits() <= 64:
-		max := int64(math.MaxInt64)
-		min := int64(math.MinInt64)
-		for i := 0; i < values.Len(); i++ {
-			values.Index(i).Set(reflect.ValueOf(r.Int63n(max-min+1) + min))
-		}
-	}
-}
-
-func initDictValues(values reflect.Value, numDicts int) {
-	repeatFactor := values.Len() / numDicts
-	initValues(values)
-	// add some repeated values
-	for j := 1; j < repeatFactor; j++ {
-		for i := 0; i < numDicts; i++ {
-			values.Index(numDicts*j + i).Set(values.Index(i))
-		}
-	}
-	// computed only dict_per_page * repeat_factor - 1 values < num_values compute remaining
-	for i := numDicts * repeatFactor; i < values.Len(); i++ {
-		values.Index(i).Set(values.Index(i - numDicts*repeatFactor))
-	}
-}
-
-func makePages(version parquet.DataPageVersion, d *schema.Column, npages, lvlsPerPage int, typ reflect.Type, enc parquet.Encoding) ([]file.Page, int, reflect.Value, []int16, []int16) {
-	nlevels := lvlsPerPage * npages
-	nvalues := 0
-
-	maxDef := d.MaxDefinitionLevel()
-	maxRep := d.MaxRepetitionLevel()
-
-	var (
-		defLevels []int16
-		repLevels []int16
-	)
-
-	valuesPerPage := make([]int, npages)
-	if maxDef > 0 {
-		defLevels = make([]int16, nlevels)
-		testutils.FillRandomInt16(0, 0, maxDef, defLevels)
-		for idx := range valuesPerPage {
-			numPerPage := 0
-			for i := 0; i < lvlsPerPage; i++ {
-				if defLevels[i+idx*lvlsPerPage] == maxDef {
-					numPerPage++
-					nvalues++
-				}
-			}
-			valuesPerPage[idx] = numPerPage
-		}
-	} else {
-		nvalues = nlevels
-		valuesPerPage[0] = lvlsPerPage
-		for i := 1; i < len(valuesPerPage); i *= 2 {
-			copy(valuesPerPage[i:], valuesPerPage[:i])
-		}
-	}
-
-	if maxRep > 0 {
-		repLevels = make([]int16, nlevels)
-		testutils.FillRandomInt16(0, 0, maxRep, repLevels)
-	}
-
-	values := reflect.MakeSlice(reflect.SliceOf(typ), nvalues, nvalues)
-	if enc == parquet.Encodings.Plain {
-		initValues(values)
-		return testutils.PaginatePlain(version, d, values, defLevels, repLevels, maxDef, maxRep, lvlsPerPage, valuesPerPage, parquet.Encodings.Plain), nvalues, values, defLevels, repLevels
-	} else if enc == parquet.Encodings.PlainDict || enc == parquet.Encodings.RLEDict {
-		initDictValues(values, lvlsPerPage)
-		return testutils.PaginateDict(version, d, values, defLevels, repLevels, maxDef, maxRep, lvlsPerPage, valuesPerPage, parquet.Encodings.RLEDict), nvalues, values, defLevels, repLevels
-	}
-	panic("invalid encoding type for make pages")
-}
-
-//lint:ignore U1000 compareVectorWithDefLevels
-func compareVectorWithDefLevels(left, right reflect.Value, defLevels []int16, maxDef, maxRep int16) assert.Comparison {
-	return func() bool {
-		if left.Kind() != reflect.Slice || right.Kind() != reflect.Slice {
-			return false
-		}
-
-		if left.Type().Elem() != right.Type().Elem() {
-			return false
-		}
-
-		iLeft, iRight := 0, 0
-		for _, def := range defLevels {
-			if def == maxDef {
-				if !reflect.DeepEqual(left.Index(iLeft).Interface(), right.Index(iRight).Interface()) {
-					return false
-				}
-				iLeft++
-				iRight++
-			} else if def == (maxDef - 1) {
-				// null entry on the lowest nested level
-				iRight++
-			} else if def < (maxDef - 1) {
-				// null entry on higher nesting level, only supported for non-repeating data
-				if maxRep == 0 {
-					iRight++
-				}
-			}
-		}
-		return true
-	}
-}
-
-var mem = memory.DefaultAllocator
-
-type PrimitiveReaderSuite struct {
-	suite.Suite
-
-	dataPageVersion parquet.DataPageVersion
-	pager           file.PageReader
-	reader          file.ColumnChunkReader
-	pages           []file.Page
-	values          reflect.Value
-	defLevels       []int16
-	repLevels       []int16
-	nlevels         int
-	nvalues         int
-	maxDefLvl       int16
-	maxRepLvl       int16
-
-	bufferPool sync.Pool
-}
-
-func (p *PrimitiveReaderSuite) SetupTest() {
-	p.bufferPool = sync.Pool{
-		New: func() interface{} {
-			buf := memory.NewResizableBuffer(mem)
-			runtime.SetFinalizer(buf, func(obj *memory.Buffer) {
-				obj.Release()
-			})
-			return buf
-		},
-	}
-}
-
-func (p *PrimitiveReaderSuite) TearDownTest() {
-	p.clear()
-	p.bufferPool = sync.Pool{}
-}
-
-func (p *PrimitiveReaderSuite) initReader(d *schema.Column) {
-	m := new(testutils.MockPageReader)
-	m.Test(p.T())
-	m.TestData().Set("pages", p.pages)
-	m.On("Err").Return((error)(nil))
-	p.pager = m
-	p.reader = file.NewColumnReader(d, m, mem, &p.bufferPool)
-}
-
-func (p *PrimitiveReaderSuite) checkResults(typ reflect.Type) {
-	vresult := reflect.MakeSlice(reflect.SliceOf(typ), p.nvalues, p.nvalues)
-	dresult := make([]int16, p.nlevels)
-	rresult := make([]int16, p.nlevels)
-
-	var (
-		read        int64 = 0
-		totalRead   int   = 0
-		batchActual int   = 0
-		batchSize   int32 = 8
-		batch       int   = 0
-	)
-
-	p.Require().NotNil(p.reader)
-
-	// this will cover both cases:
-	// 1) batch size < page size (multiple ReadBatch from a single page)
-	// 2) batch size > page size (BatchRead limits to single page)
-	for {
-		switch rdr := p.reader.(type) {
-		case *file.Int32ColumnChunkReader:
-			intVals := make([]int32, batchSize)
-			read, batch, _ = rdr.ReadBatch(int64(batchSize), intVals, dresult[batchActual:], rresult[batchActual:])
-			for i := 0; i < batch; i++ {
-				vresult.Index(totalRead + i).Set(reflect.ValueOf(intVals[i]))
-			}
-
-		case *file.BooleanColumnChunkReader:
-			boolVals := make([]bool, batchSize)
-			read, batch, _ = rdr.ReadBatch(int64(batchSize), boolVals, dresult[batchActual:], rresult[batchActual:])
-			for i := 0; i < batch; i++ {
-				vresult.Index(totalRead + i).Set(reflect.ValueOf(boolVals[i]))
-			}
-		default:
-			p.Fail("column reader not implemented")
-		}
-
-		totalRead += batch
-		batchActual += int(read)
-		batchSize = int32(utils.Min(1<<24, utils.Max(int(batchSize*2), 4096)))
-		if batch <= 0 {
-			break
-		}
-	}
-
-	p.Equal(p.nlevels, batchActual)
-	p.Equal(p.nvalues, totalRead)
-	p.Equal(p.values.Interface(), vresult.Interface())
-	if p.maxDefLvl > 0 {
-		p.Equal(p.defLevels, dresult)
-	}
-	if p.maxRepLvl > 0 {
-		p.Equal(p.repLevels, rresult)
-	}
-
-	// catch improper writes at EOS
-	switch rdr := p.reader.(type) {
-	case *file.Int32ColumnChunkReader:
-		intVals := make([]int32, batchSize)
-		read, batchActual, _ = rdr.ReadBatch(5, intVals, nil, nil)
-	case *file.BooleanColumnChunkReader:
-		boolVals := make([]bool, batchSize)
-		read, batchActual, _ = rdr.ReadBatch(5, boolVals, nil, nil)
-	default:
-		p.Fail("column reader not implemented")
-	}
-
-	p.Zero(batchActual)
-	p.Zero(read)
-}
-
-func (p *PrimitiveReaderSuite) clear() {
-	p.values = reflect.ValueOf(nil)
-	p.defLevels = nil
-	p.repLevels = nil
-	p.pages = nil
-	p.pager = nil
-	p.reader = nil
-}
-
-func (p *PrimitiveReaderSuite) testPlain(npages, levels int, d *schema.Column, typ reflect.Type) {
-	p.pages, p.nvalues, p.values, p.defLevels, p.repLevels = makePages(p.dataPageVersion, d, npages, levels, typ, parquet.Encodings.Plain)
-	p.nlevels = npages * levels
-	p.initReader(d)
-	p.checkResults(typ)
-	p.clear()
-}
-
-func (p *PrimitiveReaderSuite) testDict(npages, levels int, d *schema.Column, typ reflect.Type) {
-	p.pages, p.nvalues, p.values, p.defLevels, p.repLevels = makePages(p.dataPageVersion, d, npages, levels, typ, parquet.Encodings.RLEDict)
-	p.nlevels = npages * levels
-	p.initReader(d)
-	p.checkResults(typ)
-	p.clear()
-}
-
-func (p *PrimitiveReaderSuite) TestBoolFlatRequired() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 50
-	)
-
-	p.maxDefLvl = 0
-	p.maxRepLvl = 0
-	typ := schema.NewBooleanNode("a", parquet.Repetitions.Required, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.testPlain(npages, levelsPerPage, d, reflect.TypeOf(true))
-}
-
-func (p *PrimitiveReaderSuite) TestBoolFlatOptional() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 50
-	)
-
-	p.maxDefLvl = 4
-	p.maxRepLvl = 0
-	typ := schema.NewBooleanNode("b", parquet.Repetitions.Optional, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.testPlain(npages, levelsPerPage, d, reflect.TypeOf(true))
-}
-
-func (p *PrimitiveReaderSuite) TestBoolFlatOptionalSkip() {
-	const (
-		levelsPerPage int = 1000
-		npages        int = 5
-	)
-
-	p.maxDefLvl = 4
-	p.maxRepLvl = 0
-	typ := schema.NewBooleanNode("a", parquet.Repetitions.Optional, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.pages, p.nvalues, p.values, p.defLevels, p.repLevels = makePages(p.dataPageVersion, d, npages, levelsPerPage, reflect.TypeOf(true), parquet.Encodings.Plain)
-	p.initReader(d)
-
-	vresult := make([]bool, levelsPerPage/2)
-	dresult := make([]int16, levelsPerPage/2)
-	rresult := make([]int16, levelsPerPage/2)
-
-	rdr := p.reader.(*file.BooleanColumnChunkReader)
-
-	values := p.values.Interface().([]bool)
-	rIdx := int64(0)
-
-	p.Run("skip_size > page_size", func() {
-		// skip first 2 pages
-		skipped, _ := rdr.Skip(int64(2 * levelsPerPage))
-		// move test values forward
-		for i := int64(0); i < skipped; i++ {
-			if p.defLevels[rIdx] == p.maxDefLvl {
-				values = values[1:]
-			}
-			rIdx++
-		}
-		p.Equal(int64(2*levelsPerPage), skipped)
-
-		// Read half a page
-		rowsRead, valsRead, _ := rdr.ReadBatch(int64(levelsPerPage/2), vresult, dresult, rresult)
-		subVals := values[0:valsRead]
-		p.Equal(subVals, vresult[:valsRead])
-		// move test values forward
-		rIdx += rowsRead
-		values = values[valsRead:]
-	})
-
-	p.Run("skip_size == page_size", func() {
-		// skip one page worth of values across page 2 and 3
-		skipped, _ := rdr.Skip(int64(levelsPerPage))
-		// move test values forward
-		for i := int64(0); i < skipped; i++ {
-			if p.defLevels[rIdx] == p.maxDefLvl {
-				values = values[1:]
-			}
-			rIdx++
-		}
-		p.Equal(int64(levelsPerPage), skipped)
-
-		// read half a page
-		rowsRead, valsRead, _ := rdr.ReadBatch(int64(levelsPerPage/2), vresult, dresult, rresult)
-		subVals := values[0:valsRead]
-		p.Equal(subVals, vresult[:valsRead])
-		// move test values forward
-		rIdx += rowsRead
-		values = values[valsRead:]
-	})
-
-	p.Run("skip_size < page_size", func() {
-		// skip limited to a single page
-		// skip half a page
-		skipped, _ := rdr.Skip(int64(levelsPerPage / 2))
-		// move test values forward
-		for i := int64(0); i < skipped; i++ {
-			if p.defLevels[rIdx] == p.maxDefLvl {
-				values = values[1:] // move test values forward
-			}
-			rIdx++
-		}
-		p.Equal(int64(0.5*float32(levelsPerPage)), skipped)
-
-		// Read half a page
-		rowsRead, valsRead, _ := rdr.ReadBatch(int64(levelsPerPage/2), vresult, dresult, rresult)
-		subVals := values[0:valsRead]
-		p.Equal(subVals, vresult[:valsRead])
-		// move test values forward
-		rIdx += rowsRead
-		values = values[valsRead:]
-	})
-}
-
-func (p *PrimitiveReaderSuite) TestInt32FlatRequired() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 50
-	)
-
-	p.maxDefLvl = 0
-	p.maxRepLvl = 0
-	typ := schema.NewInt32Node("a", parquet.Repetitions.Required, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.testPlain(npages, levelsPerPage, d, reflect.TypeOf(int32(0)))
-	p.testDict(npages, levelsPerPage, d, reflect.TypeOf(int32(0)))
-}
-
-func (p *PrimitiveReaderSuite) TestInt32FlatOptional() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 50
-	)
-
-	p.maxDefLvl = 4
-	p.maxRepLvl = 0
-	typ := schema.NewInt32Node("b", parquet.Repetitions.Optional, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.testPlain(npages, levelsPerPage, d, reflect.TypeOf(int32(0)))
-	p.testDict(npages, levelsPerPage, d, reflect.TypeOf(int32(0)))
-}
-
-func (p *PrimitiveReaderSuite) TestInt32FlatRepeated() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 50
-	)
-
-	p.maxDefLvl = 4
-	p.maxRepLvl = 2
-	typ := schema.NewInt32Node("c", parquet.Repetitions.Repeated, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.testPlain(npages, levelsPerPage, d, reflect.TypeOf(int32(0)))
-	p.testDict(npages, levelsPerPage, d, reflect.TypeOf(int32(0)))
-}
-
-func (p *PrimitiveReaderSuite) TestReadBatchMultiPage() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 3
-	)
-
-	p.maxDefLvl = 0
-	p.maxRepLvl = 0
-	typ := schema.NewInt32Node("a", parquet.Repetitions.Required, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.pages, p.nvalues, p.values, p.defLevels, p.repLevels = makePages(p.dataPageVersion, d, npages, levelsPerPage, reflect.TypeOf(int32(0)), parquet.Encodings.Plain)
-	p.initReader(d)
-
-	vresult := make([]int32, levelsPerPage*npages)
-	dresult := make([]int16, levelsPerPage*npages)
-	rresult := make([]int16, levelsPerPage*npages)
-
-	rdr := p.reader.(*file.Int32ColumnChunkReader)
-	total, read, err := rdr.ReadBatch(int64(levelsPerPage*npages), vresult, dresult, rresult)
-	p.NoError(err)
-	p.EqualValues(levelsPerPage*npages, total)
-	p.EqualValues(levelsPerPage*npages, read)
-}
-
-func (p *PrimitiveReaderSuite) TestInt32FlatRequiredSkip() {
-	const (
-		levelsPerPage int = 100
-		npages        int = 5
-	)
-
-	p.maxDefLvl = 0
-	p.maxRepLvl = 0
-	typ := schema.NewInt32Node("a", parquet.Repetitions.Required, -1)
-	d := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	p.pages, p.nvalues, p.values, p.defLevels, p.repLevels = makePages(p.dataPageVersion, d, npages, levelsPerPage, reflect.TypeOf(int32(0)), parquet.Encodings.Plain)
-	p.initReader(d)
-
-	vresult := make([]int32, levelsPerPage/2)
-	dresult := make([]int16, levelsPerPage/2)
-	rresult := make([]int16, levelsPerPage/2)
-
-	rdr := p.reader.(*file.Int32ColumnChunkReader)
-
-	p.Run("skip_size > page_size", func() {
-		// Skip first 2 pages
-		skipped, _ := rdr.Skip(int64(2 * levelsPerPage))
-		p.Equal(int64(2*levelsPerPage), skipped)
-
-		rdr.ReadBatch(int64(levelsPerPage/2), vresult, dresult, rresult)
-		subVals := p.values.Slice(2*levelsPerPage, int(2.5*float64(levelsPerPage))).Interface().([]int32)
-		p.Equal(subVals, vresult)
-	})
-
-	p.Run("skip_size == page_size", func() {
-		// skip across two pages
-		skipped, _ := rdr.Skip(int64(levelsPerPage))
-		p.Equal(int64(levelsPerPage), skipped)
-		// read half a page
-		rdr.ReadBatch(int64(levelsPerPage/2), vresult, dresult, rresult)
-		subVals := p.values.Slice(int(3.5*float64(levelsPerPage)), 4*levelsPerPage).Interface().([]int32)
-		p.Equal(subVals, vresult)
-	})
-
-	p.Run("skip_size < page_size", func() {
-		// skip limited to a single page
-		// Skip half a page
-		skipped, _ := rdr.Skip(int64(levelsPerPage / 2))
-		p.Equal(int64(0.5*float32(levelsPerPage)), skipped)
-		// Read half a page
-		rdr.ReadBatch(int64(levelsPerPage/2), vresult, dresult, rresult)
-		subVals := p.values.Slice(int(4.5*float64(levelsPerPage)), p.values.Len()).Interface().([]int32)
-		p.Equal(subVals, vresult)
-	})
-}
-
-func (p *PrimitiveReaderSuite) TestRepetitionLvlBytesWithMaxRepZero() {
-	const batchSize = 4
-	p.maxDefLvl = 1
-	p.maxRepLvl = 0
-	typ := schema.NewInt32Node("a", parquet.Repetitions.Optional, -1)
-	descr := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	// Bytes here came from the example parquet file in ARROW-17453's int32
-	// column which was delta bit-packed. The key part is the first three
-	// bytes: the page header reports 1 byte for repetition levels even
-	// though the max rep level is 0. If that byte isn't skipped then
-	// we get def levels of [1, 1, 0, 0] instead of the correct [1, 1, 1, 0].
-	pageData := [...]byte{0x3, 0x3, 0x7, 0x80, 0x1, 0x4, 0x3,
-		0x18, 0x1, 0x2, 0x0, 0x0, 0x0, 0xc,
-		0x0, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0}
-
-	p.pages = append(p.pages, file.NewDataPageV2(memory.NewBufferBytes(pageData[:]), batchSize, 1, batchSize,
-		parquet.Encodings.DeltaBinaryPacked, 2, 1, int32(len(pageData)), false))
-
-	p.initReader(descr)
-	p.NotPanics(func() { p.reader.HasNext() })
-
-	var (
-		values  [4]int32
-		defLvls [4]int16
-	)
-	i32Rdr := p.reader.(*file.Int32ColumnChunkReader)
-	total, read, err := i32Rdr.ReadBatch(batchSize, values[:], defLvls[:], nil)
-	p.NoError(err)
-	p.EqualValues(batchSize, total)
-	p.EqualValues(3, read)
-	p.Equal([]int16{1, 1, 1, 0}, defLvls[:])
-	p.Equal([]int32{12, 11, 13, 0}, values[:])
-}
-
-func (p *PrimitiveReaderSuite) TestDictionaryEncodedPages() {
-	p.maxDefLvl = 0
-	p.maxRepLvl = 0
-	typ := schema.NewInt32Node("a", parquet.Repetitions.Required, -1)
-	descr := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
-	dummy := memory.NewResizableBuffer(mem)
-
-	p.Run("Dict: Plain, Data: RLEDict", func() {
-		dictPage := file.NewDictionaryPage(dummy, 0, parquet.Encodings.Plain)
-		dataPage := testutils.MakeDataPage(p.dataPageVersion, descr, nil, 0, parquet.Encodings.RLEDict, dummy, nil, nil, 0, 0)
-
-		p.pages = append(p.pages, dictPage, dataPage)
-		p.initReader(descr)
-		p.NotPanics(func() { p.reader.HasNext() })
-		p.NoError(p.reader.Err())
-		p.pages = p.pages[:0]
-	})
-
-	p.Run("Dict: Plain Dictionary, Data: Plain Dictionary", func() {
-		dictPage := file.NewDictionaryPage(dummy, 0, parquet.Encodings.PlainDict)
-		dataPage := testutils.MakeDataPage(p.dataPageVersion, descr, nil, 0, parquet.Encodings.PlainDict, dummy, nil, nil, 0, 0)
-		p.pages = append(p.pages, dictPage, dataPage)
-		p.initReader(descr)
-		p.NotPanics(func() { p.reader.HasNext() })
-		p.NoError(p.reader.Err())
-		p.pages = p.pages[:0]
-	})
-
-	p.Run("Panic if dict page not first", func() {
-		dataPage := testutils.MakeDataPage(p.dataPageVersion, descr, nil, 0, parquet.Encodings.RLEDict, dummy, nil, nil, 0, 0)
-		p.pages = append(p.pages, dataPage)
-		p.initReader(descr)
-		p.NotPanics(func() { p.False(p.reader.HasNext()) })
-		p.Error(p.reader.Err())
-		p.pages = p.pages[:0]
-	})
-
-	p.Run("Only RLE is supported", func() {
-		dictPage := file.NewDictionaryPage(dummy, 0, parquet.Encodings.DeltaByteArray)
-		p.pages = append(p.pages, dictPage)
-		p.initReader(descr)
-		p.NotPanics(func() { p.False(p.reader.HasNext()) })
-		p.Error(p.reader.Err())
-		p.pages = p.pages[:0]
-	})
-
-	p.Run("Cannot have more than one dict", func() {
-		dictPage1 := file.NewDictionaryPage(dummy, 0, parquet.Encodings.PlainDict)
-		dictPage2 := file.NewDictionaryPage(dummy, 0, parquet.Encodings.Plain)
-		p.pages = append(p.pages, dictPage1, dictPage2)
-		p.initReader(descr)
-		p.NotPanics(func() { p.False(p.reader.HasNext()) })
-		p.Error(p.reader.Err())
-		p.pages = p.pages[:0]
-	})
-
-	p.Run("Unsupported encoding", func() {
-		dataPage := testutils.MakeDataPage(p.dataPageVersion, descr, nil, 0, parquet.Encodings.DeltaByteArray, dummy, nil, nil, 0, 0)
-		p.pages = append(p.pages, dataPage)
-		p.initReader(descr)
-		p.Panics(func() { p.reader.HasNext() })
-		// p.Error(p.reader.Err())
-		p.pages = p.pages[:0]
-	})
-
-	p.pages = p.pages[:2]
-}
-
-func TestPrimitiveReader(t *testing.T) {
-	t.Parallel()
-	t.Run("datapage v1", func(t *testing.T) {
-		suite.Run(t, new(PrimitiveReaderSuite))
-	})
-	t.Run("datapage v2", func(t *testing.T) {
-		suite.Run(t, &PrimitiveReaderSuite{dataPageVersion: parquet.DataPageV2})
-	})
-}
diff --git a/go/parquet/file/column_reader_types.gen.go b/go/parquet/file/column_reader_types.gen.go
deleted file mode 100644
index e0d0afac38ac2..0000000000000
--- a/go/parquet/file/column_reader_types.gen.go
+++ /dev/null
@@ -1,299 +0,0 @@
-// Code generated by column_reader_types.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-)
-
-// Int32ColumnChunkReader is the Typed Column chunk reader instance for reading
-// Int32 column data.
-type Int32ColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *Int32ColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				arrow.Int32Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *Int32ColumnChunkReader) ReadBatch(batchSize int64, values []int32, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.Int32Decoder).Decode(values[start : start+len])
-	})
-}
-
-// Int64ColumnChunkReader is the Typed Column chunk reader instance for reading
-// Int64 column data.
-type Int64ColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *Int64ColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				arrow.Int64Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *Int64ColumnChunkReader) ReadBatch(batchSize int64, values []int64, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.Int64Decoder).Decode(values[start : start+len])
-	})
-}
-
-// Int96ColumnChunkReader is the Typed Column chunk reader instance for reading
-// Int96 column data.
-type Int96ColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *Int96ColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				parquet.Int96Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *Int96ColumnChunkReader) ReadBatch(batchSize int64, values []parquet.Int96, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.Int96Decoder).Decode(values[start : start+len])
-	})
-}
-
-// Float32ColumnChunkReader is the Typed Column chunk reader instance for reading
-// Float32 column data.
-type Float32ColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *Float32ColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				arrow.Float32Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *Float32ColumnChunkReader) ReadBatch(batchSize int64, values []float32, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.Float32Decoder).Decode(values[start : start+len])
-	})
-}
-
-// Float64ColumnChunkReader is the Typed Column chunk reader instance for reading
-// Float64 column data.
-type Float64ColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *Float64ColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				arrow.Float64Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *Float64ColumnChunkReader) ReadBatch(batchSize int64, values []float64, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.Float64Decoder).Decode(values[start : start+len])
-	})
-}
-
-// BooleanColumnChunkReader is the Typed Column chunk reader instance for reading
-// Boolean column data.
-type BooleanColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *BooleanColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				*(*[]bool)(unsafe.Pointer(&buf)),
-				nil,
-				nil)
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *BooleanColumnChunkReader) ReadBatch(batchSize int64, values []bool, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.BooleanDecoder).Decode(values[start : start+len])
-	})
-}
-
-// ByteArrayColumnChunkReader is the Typed Column chunk reader instance for reading
-// ByteArray column data.
-type ByteArrayColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *ByteArrayColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				parquet.ByteArrayTraits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *ByteArrayColumnChunkReader) ReadBatch(batchSize int64, values []parquet.ByteArray, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.ByteArrayDecoder).Decode(values[start : start+len])
-	})
-}
-
-// FixedLenByteArrayColumnChunkReader is the Typed Column chunk reader instance for reading
-// FixedLenByteArray column data.
-type FixedLenByteArrayColumnChunkReader struct {
-	columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *FixedLenByteArrayColumnChunkReader) Skip(nvalues int64) (int64, error) {
-	return cr.columnChunkReader.skipValues(nvalues,
-		func(batch int64, buf []byte) (int64, error) {
-			vals, _, err := cr.ReadBatch(batch,
-				parquet.FixedLenByteArrayTraits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf),
-				arrow.Int16Traits.CastFromBytes(buf))
-			return vals, err
-		})
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *FixedLenByteArrayColumnChunkReader) ReadBatch(batchSize int64, values []parquet.FixedLenByteArray, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-	return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-		return cr.curDecoder.(encoding.FixedLenByteArrayDecoder).Decode(values[start : start+len])
-	})
-}
diff --git a/go/parquet/file/column_reader_types.gen.go.tmpl b/go/parquet/file/column_reader_types.gen.go.tmpl
deleted file mode 100644
index b6056836d76f4..0000000000000
--- a/go/parquet/file/column_reader_types.gen.go.tmpl
+++ /dev/null
@@ -1,64 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-    "github.com/apache/arrow/go/v18/parquet"
-    "github.com/apache/arrow/go/v18/parquet/internal/encoding"
-)
-
-{{range .In}}
-// {{.Name}}ColumnChunkReader is the Typed Column chunk reader instance for reading
-// {{.Name}} column data.
-type {{.Name}}ColumnChunkReader struct {
-  columnChunkReader
-}
-
-// Skip skips the next nvalues so that the next call to ReadBatch
-// will start reading *after* the skipped values.
-func (cr *{{.Name}}ColumnChunkReader) Skip(nvalues int64) (int64, error) {
-  return cr.columnChunkReader.skipValues(nvalues,
-    func(batch int64, buf []byte) (int64, error) {
-      vals, _, err := cr.ReadBatch(batch,
-        {{- if ne .Name "Boolean"}}
-        {{.prefix}}.{{.Name}}Traits.CastFromBytes(buf),
-        arrow.Int16Traits.CastFromBytes(buf),
-        arrow.Int16Traits.CastFromBytes(buf))
-        {{- else}}
-        *(*[]bool)(unsafe.Pointer(&buf)),
-        nil,
-        nil)
-        {{- end}}
-      return vals, err
-    })
-}
-
-// ReadBatch reads batchSize values from the column.
-//
-// Returns error if values is not at least big enough to hold the number of values that will be read.
-//
-// defLvls and repLvls can be nil, or will be populated if not nil. If not nil, they must be
-// at least large enough to hold the number of values that will be read.
-//
-// total is the number of rows that were read, valuesRead is the actual number of physical values
-// that were read excluding nulls
-func (cr *{{.Name}}ColumnChunkReader) ReadBatch(batchSize int64, values []{{.name}}, defLvls, repLvls []int16) (total int64, valuesRead int, err error) {
-  return cr.readBatch(batchSize, defLvls, repLvls, func(start, len int64) (int, error) {
-    return cr.curDecoder.(encoding.{{.Name}}Decoder).Decode(values[start:start+len])
-  })
-}
-{{end}}
diff --git a/go/parquet/file/column_writer.go b/go/parquet/file/column_writer.go
deleted file mode 100755
index bbf30e03087d5..0000000000000
--- a/go/parquet/file/column_writer.go
+++ /dev/null
@@ -1,677 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"bytes"
-	"encoding/binary"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-//go:generate go run ../../arrow/_tools/tmpl/main.go -i -data=../internal/encoding/physical_types.tmpldata column_writer_types.gen.go.tmpl
-
-// ColumnChunkWriter is the base interface for all columnwriters. To directly write
-// data to the column, you need to assert it to the correctly typed ColumnChunkWriter
-// instance, such as Int32ColumnWriter.
-type ColumnChunkWriter interface {
-	// Close ends this column and returns the number of bytes written
-	Close() error
-	// Type returns the underlying physical parquet type for this column
-	Type() parquet.Type
-	// Descr returns the column information for this writer
-	Descr() *schema.Column
-	// RowsWritten returns the number of rows that have so far been written with this writer
-	RowsWritten() int
-	// TotalCompressedBytes returns the number of bytes, after compression, that have been written so far
-	TotalCompressedBytes() int64
-	// TotalBytesWritten includes the bytes for writing dictionary pages, while TotalCompressedBytes is
-	// just the data and page headers
-	TotalBytesWritten() int64
-	// Properties returns the current WriterProperties in use for this writer
-	Properties() *parquet.WriterProperties
-	// CurrentEncoder returns the current encoder that is being used
-	// to encode new data written to this column
-	CurrentEncoder() encoding.TypedEncoder
-	// FallbackToPlain forces a dictionary encoded column writer to
-	// fallback to plain encoding, first flushing out any data it has
-	// and then changing the encoder to use plain encoding from
-	// here on out.
-	//
-	// This is automatically called if the dictionary reaches the
-	// limit in the write properties or under specific conditions.
-	//
-	// Has no effect if the column is not currently dictionary encoded.
-	FallbackToPlain()
-	// PageStatistics returns the current page statistics for this
-	// column writer. May be nil if stats are not enabled.
-	PageStatistics() metadata.TypedStatistics
-	// WriteDictIndices writes an arrow array of dictionary indices
-	// to this column. This should only be called by pqarrow or
-	// if you *really* know what you're doing.
-	WriteDictIndices(arrow.Array, []int16, []int16) error
-
-	LevelInfo() LevelInfo
-	SetBitsBuffer(*memory.Buffer)
-	HasBitsBuffer() bool
-}
-
-func computeLevelInfo(descr *schema.Column) (info LevelInfo) {
-	info.DefLevel = descr.MaxDefinitionLevel()
-	info.RepLevel = descr.MaxRepetitionLevel()
-
-	minSpacedDefLevel := descr.MaxDefinitionLevel()
-	n := descr.SchemaNode()
-	for n != nil && n.RepetitionType() != parquet.Repetitions.Repeated {
-		if n.RepetitionType() == parquet.Repetitions.Optional {
-			minSpacedDefLevel--
-		}
-		n = n.Parent()
-	}
-	info.RepeatedAncestorDefLevel = minSpacedDefLevel
-	return
-}
-
-type columnWriter struct {
-	metaData *metadata.ColumnChunkMetaDataBuilder
-	descr    *schema.Column
-
-	// scratch buffer if validity bits need to be recalculated
-	bitsBuffer *memory.Buffer
-	levelInfo  LevelInfo
-	pager      PageWriter
-	hasDict    bool
-	encoding   parquet.Encoding
-	props      *parquet.WriterProperties
-	defEncoder encoding.LevelEncoder
-	repEncoder encoding.LevelEncoder
-	mem        memory.Allocator
-
-	pageStatistics  metadata.TypedStatistics
-	chunkStatistics metadata.TypedStatistics
-
-	// total number of values stored in the current data page. this is the maximum
-	// of the number of encoded def levels or encoded values. for
-	// non-repeated, required columns, this is equal to the number of encoded
-	// values. For repeated or optional values, there may be fewer data values
-	// than levels, and this tells you how many encoded levels there are in that case
-	numBufferedValues int64
-
-	// total number of rows stored in the current data page. This may be larger
-	// than numBufferedValues when writing a column with repeated values. This is
-	// the number of rows written since the last time we flushed a page.
-	numBufferedRows int
-
-	// the total number of stored values in the current page. for repeated or optional
-	// values. this number may be lower than numBuffered
-	numDataValues int64
-
-	rowsWritten       int
-	totalBytesWritten int64
-	// records the current number of compressed bytes in a column
-	totalCompressedBytes int64
-	closed               bool
-	fallbackToNonDict    bool
-
-	pages []DataPage
-
-	defLevelSink *encoding.PooledBufferWriter
-	repLevelSink *encoding.PooledBufferWriter
-
-	uncompressedData bytes.Buffer
-	compressedTemp   *bytes.Buffer
-
-	currentEncoder encoding.TypedEncoder
-}
-
-func newColumnWriterBase(metaData *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) columnWriter {
-	ret := columnWriter{
-		metaData:     metaData,
-		descr:        metaData.Descr(),
-		levelInfo:    computeLevelInfo(metaData.Descr()),
-		pager:        pager,
-		hasDict:      useDict,
-		encoding:     enc,
-		props:        props,
-		mem:          props.Allocator(),
-		defLevelSink: encoding.NewPooledBufferWriter(0),
-		repLevelSink: encoding.NewPooledBufferWriter(0),
-	}
-	if pager.HasCompressor() {
-		ret.compressedTemp = new(bytes.Buffer)
-	}
-	if props.StatisticsEnabledFor(ret.descr.Path()) && ret.descr.SortOrder() != schema.SortUNKNOWN {
-		ret.pageStatistics = metadata.NewStatistics(ret.descr, props.Allocator())
-		ret.chunkStatistics = metadata.NewStatistics(ret.descr, props.Allocator())
-	}
-
-	ret.defEncoder.Init(parquet.Encodings.RLE, ret.descr.MaxDefinitionLevel(), ret.defLevelSink)
-	ret.repEncoder.Init(parquet.Encodings.RLE, ret.descr.MaxRepetitionLevel(), ret.repLevelSink)
-
-	ret.reset()
-
-	return ret
-}
-
-func (w *columnWriter) CurrentEncoder() encoding.TypedEncoder    { return w.currentEncoder }
-func (w *columnWriter) HasBitsBuffer() bool                      { return w.bitsBuffer != nil }
-func (w *columnWriter) SetBitsBuffer(buf *memory.Buffer)         { w.bitsBuffer = buf }
-func (w *columnWriter) PageStatistics() metadata.TypedStatistics { return w.pageStatistics }
-func (w *columnWriter) LevelInfo() LevelInfo                     { return w.levelInfo }
-
-func (w *columnWriter) Type() parquet.Type {
-	return w.descr.PhysicalType()
-}
-
-func (w *columnWriter) Descr() *schema.Column {
-	return w.descr
-}
-
-func (w *columnWriter) Properties() *parquet.WriterProperties {
-	return w.props
-}
-
-func (w *columnWriter) TotalCompressedBytes() int64 {
-	return w.totalCompressedBytes
-}
-
-func (w *columnWriter) TotalBytesWritten() int64 {
-	bufferedPagesBytes := int64(0)
-	for _, p := range w.pages {
-		bufferedPagesBytes += int64(len(p.Data()))
-	}
-
-	return w.totalBytesWritten + bufferedPagesBytes
-}
-
-func (w *columnWriter) RowsWritten() int {
-	return w.rowsWritten + w.numBufferedRows
-}
-
-func (w *columnWriter) WriteDataPage(page DataPage) error {
-	written, err := w.pager.WriteDataPage(page)
-	w.totalBytesWritten += written
-	return err
-}
-
-func (w *columnWriter) WriteDefinitionLevels(levels []int16) {
-	w.defEncoder.EncodeNoFlush(levels)
-}
-
-func (w *columnWriter) WriteRepetitionLevels(levels []int16) {
-	w.repEncoder.EncodeNoFlush(levels)
-}
-
-func (w *columnWriter) reset() {
-	w.defLevelSink.Reset(0)
-	w.repLevelSink.Reset(0)
-
-	if w.props.DataPageVersion() == parquet.DataPageV1 {
-		// offset the buffers to make room to record the number of levels at the
-		// beginning of each after we've encoded them with RLE
-		if w.descr.MaxDefinitionLevel() > 0 {
-			w.defLevelSink.SetOffset(arrow.Uint32SizeBytes)
-		}
-		if w.descr.MaxRepetitionLevel() > 0 {
-			w.repLevelSink.SetOffset(arrow.Uint32SizeBytes)
-		}
-	}
-
-	w.defEncoder.Reset(w.descr.MaxDefinitionLevel())
-	w.repEncoder.Reset(w.descr.MaxRepetitionLevel())
-}
-
-func (w *columnWriter) concatBuffers(defLevelsSize, repLevelsSize int32, values []byte, wr io.Writer) {
-	wr.Write(w.repLevelSink.Bytes()[:repLevelsSize])
-	wr.Write(w.defLevelSink.Bytes()[:defLevelsSize])
-	wr.Write(values)
-}
-
-func (w *columnWriter) EstimatedBufferedValueBytes() int64 {
-	return w.currentEncoder.EstimatedDataEncodedSize()
-}
-
-func (w *columnWriter) commitWriteAndCheckPageLimit(numLevels, numValues int64) error {
-	w.numBufferedValues += numLevels
-	w.numDataValues += numValues
-
-	enc := w.currentEncoder.EstimatedDataEncodedSize()
-	if enc >= w.props.DataPageSize() {
-		return w.FlushCurrentPage()
-	}
-	return nil
-}
-
-func (w *columnWriter) FlushCurrentPage() error {
-	var (
-		defLevelsRLESize int32 = 0
-		repLevelsRLESize int32 = 0
-	)
-
-	values, err := w.currentEncoder.FlushValues()
-	if err != nil {
-		return err
-	}
-	defer values.Release()
-
-	isV1DataPage := w.props.DataPageVersion() == parquet.DataPageV1
-	if w.descr.MaxDefinitionLevel() > 0 {
-		w.defEncoder.Flush()
-		w.defLevelSink.SetOffset(0)
-		sz := w.defEncoder.Len()
-		if isV1DataPage {
-			sz += arrow.Uint32SizeBytes
-			binary.LittleEndian.PutUint32(w.defLevelSink.Bytes(), uint32(w.defEncoder.Len()))
-		}
-		defLevelsRLESize = int32(sz)
-	}
-
-	if w.descr.MaxRepetitionLevel() > 0 {
-		w.repEncoder.Flush()
-		w.repLevelSink.SetOffset(0)
-		if isV1DataPage {
-			binary.LittleEndian.PutUint32(w.repLevelSink.Bytes(), uint32(w.repEncoder.Len()))
-		}
-		repLevelsRLESize = int32(w.repLevelSink.Len())
-	}
-
-	uncompressed := defLevelsRLESize + repLevelsRLESize + int32(values.Len())
-	if isV1DataPage {
-		err = w.buildDataPageV1(defLevelsRLESize, repLevelsRLESize, uncompressed, values.Bytes())
-	} else {
-		err = w.buildDataPageV2(defLevelsRLESize, repLevelsRLESize, uncompressed, values.Bytes())
-	}
-
-	w.reset()
-	w.rowsWritten += w.numBufferedRows
-	w.numBufferedValues, w.numDataValues, w.numBufferedRows = 0, 0, 0
-	return err
-}
-
-func (w *columnWriter) buildDataPageV1(defLevelsRLESize, repLevelsRLESize, uncompressed int32, values []byte) error {
-	w.uncompressedData.Reset()
-	w.uncompressedData.Grow(int(uncompressed))
-	w.concatBuffers(defLevelsRLESize, repLevelsRLESize, values, &w.uncompressedData)
-
-	pageStats, err := w.getPageStatistics()
-	if err != nil {
-		return err
-	}
-	pageStats.ApplyStatSizeLimits(int(w.props.MaxStatsSizeFor(w.descr.Path())))
-	pageStats.Signed = schema.SortSIGNED == w.descr.SortOrder()
-	w.resetPageStatistics()
-
-	var data []byte
-	if w.pager.HasCompressor() {
-		w.compressedTemp.Reset()
-		data = w.pager.Compress(w.compressedTemp, w.uncompressedData.Bytes())
-	} else {
-		data = w.uncompressedData.Bytes()
-	}
-
-	// write the page to sink eagerly if there's no dictionary or if dictionary encoding has fallen back
-	if w.hasDict && !w.fallbackToNonDict {
-		pageSlice := make([]byte, len(data))
-		copy(pageSlice, data)
-		page := NewDataPageV1WithStats(memory.NewBufferBytes(pageSlice), int32(w.numBufferedValues), w.encoding, parquet.Encodings.RLE, parquet.Encodings.RLE, uncompressed, pageStats)
-		w.totalCompressedBytes += int64(page.buf.Len()) // + size of Pageheader
-		w.pages = append(w.pages, page)
-	} else {
-		w.totalCompressedBytes += int64(len(data))
-		dp := NewDataPageV1WithStats(memory.NewBufferBytes(data), int32(w.numBufferedValues), w.encoding, parquet.Encodings.RLE, parquet.Encodings.RLE, uncompressed, pageStats)
-		defer dp.Release()
-		return w.WriteDataPage(dp)
-	}
-	return nil
-}
-
-func (w *columnWriter) buildDataPageV2(defLevelsRLESize, repLevelsRLESize, uncompressed int32, values []byte) error {
-	var data []byte
-	if w.pager.HasCompressor() {
-		w.compressedTemp.Reset()
-		data = w.pager.Compress(w.compressedTemp, values)
-	} else {
-		data = values
-	}
-
-	// concatenate uncompressed levels and the possibly compressed values
-	var combined bytes.Buffer
-	combined.Grow(int(defLevelsRLESize + repLevelsRLESize + int32(len(data))))
-	w.concatBuffers(defLevelsRLESize, repLevelsRLESize, data, &combined)
-
-	pageStats, err := w.getPageStatistics()
-	if err != nil {
-		return err
-	}
-	pageStats.ApplyStatSizeLimits(int(w.props.MaxStatsSizeFor(w.descr.Path())))
-	pageStats.Signed = schema.SortSIGNED == w.descr.SortOrder()
-	w.resetPageStatistics()
-
-	numValues := int32(w.numBufferedValues)
-	numRows := int32(w.numBufferedRows)
-	nullCount := int32(pageStats.NullCount)
-	defLevelsByteLen := int32(defLevelsRLESize)
-	repLevelsByteLen := int32(repLevelsRLESize)
-
-	page := NewDataPageV2WithStats(memory.NewBufferBytes(combined.Bytes()), numValues, nullCount, numRows, w.encoding,
-		defLevelsByteLen, repLevelsByteLen, uncompressed, w.pager.HasCompressor(), pageStats)
-	if w.hasDict && !w.fallbackToNonDict {
-		w.totalCompressedBytes += int64(page.buf.Len()) // + sizeof pageheader
-		w.pages = append(w.pages, page)
-	} else {
-		w.totalCompressedBytes += int64(combined.Len())
-		defer page.Release()
-		return w.WriteDataPage(page)
-	}
-	return nil
-}
-
-func (w *columnWriter) FlushBufferedDataPages() (err error) {
-	if w.numBufferedValues > 0 {
-		if err = w.FlushCurrentPage(); err != nil {
-			return err
-		}
-	}
-
-	for _, p := range w.pages {
-		defer p.Release()
-		if err = w.WriteDataPage(p); err != nil {
-			return err
-		}
-	}
-	w.pages = w.pages[:0]
-	return
-}
-
-func (w *columnWriter) writeLevels(numValues int64, defLevels, repLevels []int16) int64 {
-	toWrite := int64(0)
-	// if the field is required and non-repeated, no definition levels
-	if defLevels != nil && w.descr.MaxDefinitionLevel() > 0 {
-		for _, v := range defLevels[:numValues] {
-			if v == w.descr.MaxDefinitionLevel() {
-				toWrite++
-			}
-		}
-		w.WriteDefinitionLevels(defLevels[:numValues])
-	} else {
-		toWrite = numValues
-	}
-
-	if repLevels != nil && w.descr.MaxRepetitionLevel() > 0 {
-		// a row could include more than one value
-		//count the occasions where we start a new row
-		for _, v := range repLevels[:numValues] {
-			if v == 0 {
-				w.numBufferedRows++
-			}
-		}
-
-		w.WriteRepetitionLevels(repLevels[:numValues])
-	} else {
-		// each value is exactly 1 row
-		w.numBufferedRows += int(numValues)
-	}
-	return toWrite
-}
-
-func (w *columnWriter) writeLevelsSpaced(numLevels int64, defLevels, repLevels []int16) {
-	if w.descr.MaxDefinitionLevel() > 0 {
-		w.WriteDefinitionLevels(defLevels[:numLevels])
-	}
-
-	if w.descr.MaxRepetitionLevel() > 0 {
-		for _, v := range repLevels {
-			if v == 0 {
-				w.numBufferedRows++
-			}
-		}
-		w.WriteRepetitionLevels(repLevels[:numLevels])
-	} else {
-		w.numBufferedRows += int(numLevels)
-	}
-}
-
-func (w *columnWriter) WriteDictionaryPage() error {
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-	buffer := memory.NewResizableBuffer(w.mem)
-	buffer.Resize(dictEncoder.DictEncodedSize())
-	dictEncoder.WriteDict(buffer.Bytes())
-	defer buffer.Release()
-
-	page := NewDictionaryPage(buffer, int32(dictEncoder.NumEntries()), w.props.DictionaryPageEncoding())
-	written, err := w.pager.WriteDictionaryPage(page)
-	w.totalBytesWritten += written
-	return err
-}
-
-type batchWriteInfo struct {
-	batchNum  int64
-	nullCount int64
-}
-
-func (b batchWriteInfo) numSpaced() int64 { return b.batchNum + b.nullCount }
-
-// this will always update the three output params
-// outValsToWrite, outSpacedValsToWrite, and NullCount. Additionally
-// it will update the validity bitmap if required (i.e. if at least one
-// level of nullable structs directly precede the leaf node)
-func (w *columnWriter) maybeCalculateValidityBits(defLevels []int16, batchSize int64) (out batchWriteInfo) {
-	if w.bitsBuffer == nil {
-		if w.levelInfo.DefLevel == 0 {
-			// in this case def levels should be null and we only
-			// need to output counts which will always be equal to
-			// the batch size passed in (max def level == 0 indicates
-			// there cannot be repeated or null fields)
-			out.batchNum = batchSize
-			out.nullCount = 0
-		} else {
-			var (
-				toWrite       int64
-				spacedToWrite int64
-			)
-			for i := int64(0); i < batchSize; i++ {
-				if defLevels[i] == w.levelInfo.DefLevel {
-					toWrite++
-				}
-				if defLevels[i] >= w.levelInfo.RepeatedAncestorDefLevel {
-					spacedToWrite++
-				}
-			}
-			out.batchNum += toWrite
-			out.nullCount = spacedToWrite - toWrite
-		}
-		return
-	}
-
-	// shrink to fit possible causes another allocation
-	newBitmapSize := bitutil.BytesForBits(batchSize)
-	if newBitmapSize != int64(w.bitsBuffer.Len()) {
-		w.bitsBuffer.ResizeNoShrink(int(newBitmapSize))
-	}
-
-	io := ValidityBitmapInputOutput{
-		ValidBits:      w.bitsBuffer.Bytes(),
-		ReadUpperBound: batchSize,
-	}
-	DefLevelsToBitmap(defLevels[:batchSize], w.levelInfo, &io)
-	out.batchNum = io.Read - io.NullCount
-	out.nullCount = io.NullCount
-	return
-}
-
-func (w *columnWriter) getPageStatistics() (enc metadata.EncodedStatistics, err error) {
-	if w.pageStatistics != nil {
-		enc, err = w.pageStatistics.Encode()
-	}
-	return
-}
-
-func (w *columnWriter) getChunkStatistics() (enc metadata.EncodedStatistics, err error) {
-	if w.chunkStatistics != nil {
-		enc, err = w.chunkStatistics.Encode()
-	}
-	return
-}
-
-func (w *columnWriter) resetPageStatistics() {
-	if w.chunkStatistics != nil {
-		w.chunkStatistics.Merge(w.pageStatistics)
-		w.pageStatistics.Reset()
-	}
-}
-
-func (w *columnWriter) Close() (err error) {
-	if !w.closed {
-		w.closed = true
-		if w.hasDict && !w.fallbackToNonDict {
-			if err = w.WriteDictionaryPage(); err != nil {
-				return err
-			}
-		}
-
-		if err = w.FlushBufferedDataPages(); err != nil {
-			return err
-		}
-
-		// ensure we release and reset everything even if we
-		// error out from the chunk statistics handling
-		defer func() {
-			w.defLevelSink.Reset(0)
-			w.repLevelSink.Reset(0)
-			if w.bitsBuffer != nil {
-				w.bitsBuffer.Release()
-				w.bitsBuffer = nil
-			}
-
-			w.currentEncoder.Release()
-			w.currentEncoder = nil
-		}()
-
-		var chunkStats metadata.EncodedStatistics
-		chunkStats, err = w.getChunkStatistics()
-		if err != nil {
-			return err
-		}
-
-		chunkStats.ApplyStatSizeLimits(int(w.props.MaxStatsSizeFor(w.descr.Path())))
-		chunkStats.Signed = schema.SortSIGNED == w.descr.SortOrder()
-
-		if w.rowsWritten > 0 && chunkStats.IsSet() {
-			w.metaData.SetStats(chunkStats)
-		}
-		err = w.pager.Close(w.hasDict, w.fallbackToNonDict)
-	}
-	return err
-}
-
-func (w *columnWriter) doBatches(total int64, repLevels []int16, action func(offset, batch int64)) {
-	batchSize := w.props.WriteBatchSize()
-	// if we're writing V1 data pages, have no replevels or the max replevel is 0 then just
-	// use the regular doBatches function
-	if w.props.DataPageVersion() == parquet.DataPageV1 || repLevels == nil || w.descr.MaxRepetitionLevel() == 0 {
-		doBatches(total, batchSize, action)
-		return
-	}
-
-	// if we get here that means we have repetition levels to write and we're writing
-	// V2 data pages. since we check whether to flush after each batch we write
-	// if we ensure all the batches begin and end on row boundaries we can avoid
-	// complex logic inside of our flushing or batch writing functions.
-	// the WriteBatch function recovers from panics so we can just panic here on a failure
-	// and it'll get caught by the WriteBatch functions above it
-	if int64(len(repLevels)) < total {
-		// if we're writing repLevels there has to be at least enough in the slice
-		// to write the total number that we're being asked to write
-		panic("columnwriter: not enough repetition levels for batch to write")
-	}
-
-	if repLevels[0] != 0 {
-		panic("columnwriter: batch writing for V2 data pages must start at a row boundary")
-	}
-
-	// loop by batchSize, but make sure we're ending/starting each batch on a row boundary
-	var (
-		batchStart, batch int64
-	)
-	for batchStart = 0; batchStart+batchSize < int64(len(repLevels)); batchStart += batch {
-		// check one past the last value of the batch for if it's a new row
-		// if it's not, shrink the batch and feel back to the beginning of a
-		// previous row boundary to end on
-		batch = batchSize
-		for ; repLevels[batchStart+batch] != 0; batch-- {
-		}
-		// batchStart <--> batch now begins and ends on a row boundary!
-		action(batchStart, batch)
-	}
-	action(batchStart, int64(len(repLevels))-batchStart)
-}
-
-func doBatches(total, batchSize int64, action func(offset, batch int64)) {
-	numBatches := total / batchSize
-	for i := int64(0); i < numBatches; i++ {
-		action(i*batchSize, batchSize)
-	}
-	if total%batchSize > 0 {
-		action(numBatches*batchSize, total%batchSize)
-	}
-}
-
-func levelSliceOrNil(rep []int16, offset, batch int64) []int16 {
-	if rep == nil {
-		return nil
-	}
-	return rep[offset : batch+offset]
-}
-
-//lint:ignore U1000 maybeReplaceValidity
-func (w *columnWriter) maybeReplaceValidity(values arrow.Array, newNullCount int64) arrow.Array {
-	if w.bitsBuffer == nil {
-		values.Retain()
-		return values
-	}
-
-	if len(values.Data().Buffers()) == 0 {
-		values.Retain()
-		return values
-	}
-
-	buffers := make([]*memory.Buffer, len(values.Data().Buffers()))
-	copy(buffers, values.Data().Buffers())
-	// bitsBuffer should already be the offset slice of the validity bits
-	// we want so we don't need to manually slice the validity buffer
-	buffers[0] = w.bitsBuffer
-
-	if values.Data().Offset() > 0 {
-		data := values.Data()
-		elemSize := data.DataType().(arrow.FixedWidthDataType).Bytes()
-		start := data.Offset() * elemSize
-		end := start + data.Len()*elemSize
-		buffers[1] = memory.NewBufferBytes(data.Buffers()[1].Bytes()[start:end])
-	}
-
-	data := array.NewData(values.DataType(), values.Len(), buffers, nil, int(newNullCount), 0)
-	defer data.Release()
-	return array.MakeFromData(data)
-}
diff --git a/go/parquet/file/column_writer_test.go b/go/parquet/file/column_writer_test.go
deleted file mode 100755
index 009c8c8bc51fd..0000000000000
--- a/go/parquet/file/column_writer_test.go
+++ /dev/null
@@ -1,791 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file_test
-
-import (
-	"bytes"
-	"math"
-	"reflect"
-	"runtime"
-	"sync"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	arrutils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/mock"
-	"github.com/stretchr/testify/suite"
-)
-
-const (
-	SmallSize = 100
-	// larger to test some corner cases, only in some specific cases
-	LargeSize = 100000
-	// very large to test dictionary fallback
-	VeryLargeSize = 400000
-	// dictionary page size for testing fallback
-	DictionaryPageSize = 1024 * 1024
-)
-
-type mockpagewriter struct {
-	mock.Mock
-}
-
-func (m *mockpagewriter) Close(hasDict, fallBack bool) error {
-	return m.Called(hasDict, fallBack).Error(0)
-}
-func (m *mockpagewriter) WriteDataPage(page file.DataPage) (int64, error) {
-	args := m.Called(page)
-	return int64(args.Int(0)), args.Error(1)
-}
-func (m *mockpagewriter) WriteDictionaryPage(page *file.DictionaryPage) (int64, error) {
-	args := m.Called(page)
-	return int64(args.Int(0)), args.Error(1)
-}
-func (m *mockpagewriter) HasCompressor() bool {
-	return m.Called().Bool(0)
-}
-func (m *mockpagewriter) Compress(buf *bytes.Buffer, src []byte) []byte {
-	return m.Called(buf, src).Get(0).([]byte)
-}
-func (m *mockpagewriter) Reset(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rgOrdinal, columnOrdinal int16, metaEncryptor, dataEncryptor encryption.Encryptor) error {
-	return m.Called().Error(0)
-}
-
-func TestWriteDataPageV1NumValues(t *testing.T) {
-	sc := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.ListOf(
-			schema.Must(schema.NewPrimitiveNode("column", parquet.Repetitions.Optional, parquet.Types.Int32, -1, -1)),
-			parquet.Repetitions.Optional, -1)),
-	}, -1)))
-	descr := sc.Column(0)
-	props := parquet.NewWriterProperties(
-		parquet.WithStats(true),
-		parquet.WithVersion(parquet.V1_0),
-		parquet.WithDataPageVersion(parquet.DataPageV1),
-		parquet.WithDictionaryDefault(false))
-
-	metadata := metadata.NewColumnChunkMetaDataBuilder(props, descr)
-	pager := new(mockpagewriter)
-	defer pager.AssertExpectations(t)
-	pager.On("HasCompressor").Return(false)
-	wr := file.NewColumnChunkWriter(metadata, pager, props).(*file.Int32ColumnChunkWriter)
-
-	// write a list "[[0, 1], null, [2, null, 3]]"
-	// should be 6 values, 2 nulls and 3 rows
-	wr.WriteBatch([]int32{0, 1, 2, 3},
-		[]int16{3, 3, 0, 3, 2, 3},
-		[]int16{0, 1, 0, 0, 1, 1})
-
-	pager.On("WriteDataPage", mock.MatchedBy(func(page file.DataPage) bool {
-		pagev1, ok := page.(*file.DataPageV1)
-		if !ok {
-			return false
-		}
-
-		encodedStats := pagev1.Statistics()
-		// only match if the page being written has 2 nulls, 6 values and 3 rows
-		return pagev1.NumValues() == 6 &&
-			encodedStats.HasNullCount &&
-			encodedStats.NullCount == 2
-	})).Return(10, nil)
-
-	wr.FlushBufferedDataPages()
-	assert.EqualValues(t, 3, wr.RowsWritten())
-}
-
-func TestWriteDataPageV2NumRows(t *testing.T) {
-	// test issue from PARQUET-2066
-	sc := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.ListOf(
-			schema.Must(schema.NewPrimitiveNode("column", parquet.Repetitions.Optional, parquet.Types.Int32, -1, -1)),
-			parquet.Repetitions.Optional, -1)),
-	}, -1)))
-	descr := sc.Column(0)
-	props := parquet.NewWriterProperties(
-		parquet.WithStats(true),
-		parquet.WithVersion(parquet.V2_LATEST),
-		parquet.WithDataPageVersion(parquet.DataPageV2),
-		parquet.WithDictionaryDefault(false))
-
-	metadata := metadata.NewColumnChunkMetaDataBuilder(props, descr)
-	pager := new(mockpagewriter)
-	defer pager.AssertExpectations(t)
-	pager.On("HasCompressor").Return(false)
-	wr := file.NewColumnChunkWriter(metadata, pager, props).(*file.Int32ColumnChunkWriter)
-
-	// write a list "[[0, 1], null, [2, null, 3]]"
-	// should be 6 values, 2 nulls and 3 rows
-	wr.WriteBatch([]int32{0, 1, 2, 3},
-		[]int16{3, 3, 0, 3, 2, 3},
-		[]int16{0, 1, 0, 0, 1, 1})
-
-	pager.On("WriteDataPage", mock.MatchedBy(func(page file.DataPage) bool {
-		pagev2, ok := page.(*file.DataPageV2)
-		if !ok {
-			return false
-		}
-
-		encodedStats := pagev2.Statistics()
-		// only match if the page being written has 2 nulls, 6 values and 3 rows
-		return !pagev2.IsCompressed() &&
-			pagev2.NumNulls() == 2 && encodedStats.NullCount == 2 &&
-			pagev2.NumValues() == 6 &&
-			pagev2.NumRows() == 3
-	})).Return(10, nil)
-
-	wr.FlushBufferedDataPages()
-	assert.EqualValues(t, 3, wr.RowsWritten())
-}
-
-func TestDataPageV2RowBoundaries(t *testing.T) {
-	sc := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.ListOf(
-			schema.Must(schema.NewPrimitiveNode("column", parquet.Repetitions.Optional, parquet.Types.Int32, -1, -1)),
-			parquet.Repetitions.Optional, -1)),
-	}, -1)))
-	descr := sc.Column(0)
-	props := parquet.NewWriterProperties(
-		parquet.WithBatchSize(128),
-		parquet.WithDataPageSize(1024),
-		parquet.WithVersion(parquet.V2_LATEST),
-		parquet.WithDataPageVersion(parquet.DataPageV2),
-		parquet.WithDictionaryDefault(false))
-
-	metadata := metadata.NewColumnChunkMetaDataBuilder(props, descr)
-	pager := new(mockpagewriter)
-	defer pager.AssertExpectations(t)
-	pager.On("HasCompressor").Return(false)
-	wr := file.NewColumnChunkWriter(metadata, pager, props).(*file.Int32ColumnChunkWriter)
-
-	pager.On("WriteDataPage", mock.MatchedBy(func(page file.DataPage) bool {
-		pagev2, ok := page.(*file.DataPageV2)
-		if !ok {
-			return false
-		}
-
-		// only match if the page being written has 2 nulls, 6 values and 3 rows
-		return !pagev2.IsCompressed() &&
-			pagev2.NumNulls() == 0 &&
-			pagev2.NumValues() == 378 &&
-			pagev2.NumRows() == 126
-	})).Return(10, nil)
-
-	// create rows of lists of 3 values each
-	values := make([]int32, 1024)
-	defLevels := make([]int16, 1024)
-	repLevels := make([]int16, 1024)
-	for i := range values {
-		values[i] = int32(i)
-		defLevels[i] = 3
-
-		switch i % 3 {
-		case 0:
-			repLevels[i] = 0
-		case 1, 2:
-			repLevels[i] = 1
-		}
-	}
-
-	wr.WriteBatch(values, defLevels, repLevels)
-}
-
-type PrimitiveWriterTestSuite struct {
-	testutils.PrimitiveTypedTest
-	suite.Suite
-
-	props *parquet.WriterProperties
-	descr *schema.Column
-
-	metadata   *metadata.ColumnChunkMetaDataBuilder
-	sink       *encoding.BufferWriter
-	readbuffer *memory.Buffer
-
-	bufferPool sync.Pool
-}
-
-func (p *PrimitiveWriterTestSuite) SetupTest() {
-	p.SetupValuesOut(SmallSize)
-	p.props = parquet.NewWriterProperties()
-	p.SetupSchema(parquet.Repetitions.Required, 1)
-	p.descr = p.Schema.Column(0)
-
-	p.bufferPool = sync.Pool{
-		New: func() interface{} {
-			buf := memory.NewResizableBuffer(mem)
-			runtime.SetFinalizer(buf, func(obj *memory.Buffer) {
-				obj.Release()
-			})
-			return buf
-		},
-	}
-}
-
-func (p *PrimitiveWriterTestSuite) TearDownTest() {
-	p.bufferPool = sync.Pool{}
-}
-
-func (p *PrimitiveWriterTestSuite) buildReader(nrows int64, compression compress.Compression) file.ColumnChunkReader {
-	p.readbuffer = p.sink.Finish()
-	pagereader, _ := file.NewPageReader(arrutils.NewBufferedReader(bytes.NewReader(p.readbuffer.Bytes()), p.readbuffer.Len()), nrows, compression, mem, nil)
-	return file.NewColumnReader(p.descr, pagereader, mem, &p.bufferPool)
-}
-
-func (p *PrimitiveWriterTestSuite) buildWriter(_ int64, columnProps parquet.ColumnProperties, opts ...parquet.WriterProperty) file.ColumnChunkWriter {
-	p.sink = encoding.NewBufferWriter(0, mem)
-	if columnProps.Encoding == parquet.Encodings.PlainDict || columnProps.Encoding == parquet.Encodings.RLEDict {
-		opts = append(opts, parquet.WithDictionaryDefault(true), parquet.WithDictionaryPageSizeLimit(DictionaryPageSize))
-	} else {
-		opts = append(opts, parquet.WithDictionaryDefault(false), parquet.WithEncoding(columnProps.Encoding))
-	}
-	opts = append(opts, parquet.WithMaxStatsSize(columnProps.MaxStatsSize), parquet.WithStats(columnProps.StatsEnabled))
-	p.props = parquet.NewWriterProperties(opts...)
-
-	p.metadata = metadata.NewColumnChunkMetaDataBuilder(p.props, p.descr)
-	pager, _ := file.NewPageWriter(p.sink, columnProps.Codec, compress.DefaultCompressionLevel, p.metadata, -1, -1, memory.DefaultAllocator, false, nil, nil)
-	return file.NewColumnChunkWriter(p.metadata, pager, p.props)
-}
-
-func (p *PrimitiveWriterTestSuite) readColumn(compression compress.Compression) int64 {
-	totalValues := int64(len(p.DefLevelsOut))
-	reader := p.buildReader(totalValues, compression)
-	return p.ReadBatch(reader, totalValues, 0, p.DefLevelsOut, p.RepLevelsOut)
-}
-
-func (p *PrimitiveWriterTestSuite) readColumnFully(compression compress.Compression) int64 {
-	totalValues := int64(len(p.DefLevelsOut))
-	reader := p.buildReader(totalValues, compression)
-	valuesRead := int64(0)
-	for valuesRead < totalValues {
-		read := p.ReadBatch(reader, totalValues-valuesRead, valuesRead, p.DefLevelsOut[valuesRead:], p.RepLevelsOut[valuesRead:])
-		valuesRead += read
-	}
-	return valuesRead
-}
-
-func (p *PrimitiveWriterTestSuite) readAndCompare(compression compress.Compression, nrows int64) {
-	p.SetupValuesOut(nrows)
-	p.readColumnFully(compression)
-	p.Equal(p.Values, p.ValuesOut)
-}
-
-func (p *PrimitiveWriterTestSuite) writeRequiredWithSettings(encoding parquet.Encoding, compression compress.Compression, dict, stats bool, compressLvl int, nrows int64) {
-	columnProperties := parquet.ColumnProperties{
-		Encoding:          encoding,
-		Codec:             compression,
-		DictionaryEnabled: dict,
-		StatsEnabled:      stats,
-		CompressionLevel:  compressLvl,
-	}
-	writer := p.buildWriter(nrows, columnProperties, parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValues(writer, nil, nil)
-	// behavior should be independent of the number of calls to Close
-	writer.Close()
-	writer.Close()
-}
-
-func (p *PrimitiveWriterTestSuite) writeRequiredWithSettingsSpaced(encoding parquet.Encoding, compression compress.Compression, dict, stats bool, nrows int64, compressionLvl int) {
-	validBits := make([]byte, int(bitutil.BytesForBits(int64(len(p.DefLevels))))+1)
-	memory.Set(validBits, 255)
-	columnProperties := parquet.ColumnProperties{
-		Encoding:          encoding,
-		Codec:             compression,
-		DictionaryEnabled: dict,
-		StatsEnabled:      stats,
-		CompressionLevel:  compressionLvl,
-	}
-	writer := p.buildWriter(nrows, columnProperties, parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValuesSpaced(writer, nil, nil, validBits, 0)
-	// behavior should be independent from the number of close calls
-	writer.Close()
-	writer.Close()
-}
-
-func (p *PrimitiveWriterTestSuite) testRequiredWithSettings(encoding parquet.Encoding, compression compress.Compression, dict, stats bool, nrows int64, compressLvl int) {
-	p.GenerateData(nrows)
-	p.writeRequiredWithSettings(encoding, compression, dict, stats, compressLvl, nrows)
-	p.NotPanics(func() { p.readAndCompare(compression, nrows) })
-	p.writeRequiredWithSettingsSpaced(encoding, compression, dict, stats, nrows, compressLvl)
-	p.NotPanics(func() { p.readAndCompare(compression, nrows) })
-}
-
-func (p *PrimitiveWriterTestSuite) testRequiredWithEncoding(encoding parquet.Encoding) {
-	p.testRequiredWithSettings(encoding, compress.Codecs.Uncompressed, false, false, SmallSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) metadataNumValues() int64 {
-	// metadata accessor created lazily
-	metadata, _ := metadata.NewColumnChunkMetaData(p.metadata.Contents(), p.descr, nil, 0, 0, nil)
-	return metadata.NumValues()
-}
-
-func (p *PrimitiveWriterTestSuite) metadataEncodings() []parquet.Encoding {
-	metadata, _ := metadata.NewColumnChunkMetaData(p.metadata.Contents(), p.descr, nil, 0, 0, nil)
-	return metadata.Encodings()
-}
-
-func (p *PrimitiveWriterTestSuite) metadataEncodingStats() []metadata.PageEncodingStats {
-	metadata, _ := metadata.NewColumnChunkMetaData(p.metadata.Contents(), p.descr, nil, 0, 0, nil)
-	return metadata.EncodingStats()
-}
-
-func (p *PrimitiveWriterTestSuite) metadataStatsHasMinMax() (hasMin, hasMax bool) {
-	appVersion := metadata.NewAppVersion(p.props.CreatedBy())
-	metadata, _ := metadata.NewColumnChunkMetaData(p.metadata.Contents(), p.descr, appVersion, 0, 0, nil)
-	stats, _ := metadata.Statistics()
-	encoded, _ := stats.Encode()
-	return encoded.HasMin, encoded.HasMax
-}
-
-func (p *PrimitiveWriterTestSuite) metadataIsStatsSet() bool {
-	appVersion := metadata.NewAppVersion(p.props.CreatedBy())
-	metadata, _ := metadata.NewColumnChunkMetaData(p.metadata.Contents(), p.descr, appVersion, 0, 0, nil)
-	set, _ := metadata.StatsSet()
-	return set
-}
-
-func (p *PrimitiveWriterTestSuite) testDictionaryFallbackEncoding(version parquet.Version) {
-	p.GenerateData(VeryLargeSize)
-	props := parquet.DefaultColumnProperties()
-	props.DictionaryEnabled = true
-
-	if version == parquet.V1_0 {
-		props.Encoding = parquet.Encodings.PlainDict
-	} else {
-		props.Encoding = parquet.Encodings.RLEDict
-	}
-
-	writer := p.buildWriter(VeryLargeSize, props, parquet.WithVersion(version))
-	p.WriteBatchValues(writer, nil, nil)
-	writer.Close()
-
-	// Read all the rows so that we are sure that also the non-dictionary pages are read correctly
-	p.SetupValuesOut(VeryLargeSize)
-	valuesRead := p.readColumnFully(compress.Codecs.Uncompressed)
-	p.EqualValues(VeryLargeSize, valuesRead)
-	p.Equal(p.Values, p.ValuesOut)
-
-	encodings := p.metadataEncodings()
-	if p.Typ.Kind() == reflect.Bool || p.Typ == reflect.TypeOf(parquet.Int96{}) {
-		// dictionary encoding is not allowed for booleans
-		// there are 2 encodings (PLAIN, RLE) in a non dictionary encoding case
-		p.Equal([]parquet.Encoding{parquet.Encodings.Plain, parquet.Encodings.RLE}, encodings)
-	} else if version == parquet.V1_0 {
-		// There are 4 encodings (PLAIN_DICTIONARY, PLAIN, RLE, PLAIN) in a fallback case
-		// for version 1.0
-		p.Equal([]parquet.Encoding{parquet.Encodings.PlainDict, parquet.Encodings.Plain, parquet.Encodings.RLE, parquet.Encodings.Plain}, encodings)
-	} else {
-		// There are 4 encodings (RLE_DICTIONARY, PLAIN, RLE, PLAIN) in a fallback case for
-		// version 2.0
-		p.Equal([]parquet.Encoding{parquet.Encodings.RLEDict, parquet.Encodings.Plain, parquet.Encodings.RLE, parquet.Encodings.Plain}, encodings)
-	}
-
-	encodingStats := p.metadataEncodingStats()
-	if p.Typ.Kind() == reflect.Bool || p.Typ == reflect.TypeOf(parquet.Int96{}) {
-		p.Equal(parquet.Encodings.Plain, encodingStats[0].Encoding)
-		p.Equal(format.PageType_DATA_PAGE, encodingStats[0].PageType)
-	} else if version == parquet.V1_0 {
-		expected := []metadata.PageEncodingStats{
-			{Encoding: parquet.Encodings.PlainDict, PageType: format.PageType_DICTIONARY_PAGE},
-			{Encoding: parquet.Encodings.Plain, PageType: format.PageType_DATA_PAGE},
-			{Encoding: parquet.Encodings.PlainDict, PageType: format.PageType_DATA_PAGE}}
-		p.Equal(expected[0], encodingStats[0])
-		p.ElementsMatch(expected[1:], encodingStats[1:])
-	} else {
-		expected := []metadata.PageEncodingStats{
-			{Encoding: parquet.Encodings.Plain, PageType: format.PageType_DICTIONARY_PAGE},
-			{Encoding: parquet.Encodings.Plain, PageType: format.PageType_DATA_PAGE},
-			{Encoding: parquet.Encodings.RLEDict, PageType: format.PageType_DATA_PAGE}}
-		p.Equal(expected[0], encodingStats[0])
-		p.ElementsMatch(expected[1:], encodingStats[1:])
-	}
-}
-
-func (p *PrimitiveWriterTestSuite) testDictionaryFallbackAndCompressedSize(version parquet.Version) {
-	// skip boolean as dictionary encoding is not used
-	if p.Typ.Kind() == reflect.Bool {
-		return
-	}
-
-	p.GenerateData(SmallSize)
-	props := parquet.DefaultColumnProperties()
-	props.DictionaryEnabled = true
-
-	if version == parquet.V1_0 {
-		props.Encoding = parquet.Encodings.PlainDict
-	} else {
-		props.Encoding = parquet.Encodings.RLEDict
-	}
-
-	writer := p.buildWriter(SmallSize, props, parquet.WithVersion(version), parquet.WithDataPageSize(SmallSize-1))
-	p.WriteBatchValues(writer, nil, nil)
-	p.NotZero(writer.TotalBytesWritten())
-	writer.FallbackToPlain()
-	p.NotZero(writer.TotalCompressedBytes())
-	writer.Close()
-	p.NotZero(writer.TotalCompressedBytes())
-	p.NotZero(writer.TotalBytesWritten())
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlain() {
-	p.testRequiredWithEncoding(parquet.Encodings.Plain)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredByteStreamSplit() {
-	switch p.Typ {
-	case reflect.TypeOf(float32(0)), reflect.TypeOf(float64(0)), reflect.TypeOf(int32(0)), reflect.TypeOf(int64(0)), reflect.TypeOf(parquet.FixedLenByteArray{}):
-		p.testRequiredWithEncoding(parquet.Encodings.ByteStreamSplit)
-	default:
-		p.Panics(func() { p.testRequiredWithEncoding(parquet.Encodings.ByteStreamSplit) })
-	}
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredDictionary() {
-	p.testRequiredWithEncoding(parquet.Encodings.PlainDict)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithStats() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Uncompressed, false, true, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithSnappy() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Snappy, false, false, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithStatsAndSnappy() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Snappy, false, true, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithBrotli() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Brotli, false, false, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithBrotliAndLevel() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Brotli, false, false, LargeSize, 10)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithStatsAndBrotli() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Brotli, false, true, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithGzip() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Gzip, false, false, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithGzipAndLevel() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Gzip, false, false, LargeSize, 10)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithStatsAndGzip() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Gzip, false, true, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithZstd() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Zstd, false, false, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithZstdAndLevel() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Zstd, false, false, LargeSize, 6)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredPlainWithStatsAndZstd() {
-	p.testRequiredWithSettings(parquet.Encodings.Plain, compress.Codecs.Zstd, false, true, LargeSize, compress.DefaultCompressionLevel)
-}
-
-func (p *PrimitiveWriterTestSuite) TestOptionalNonRepeated() {
-	p.SetupSchema(parquet.Repetitions.Optional, 1)
-	p.descr = p.Schema.Column(0)
-
-	p.GenerateData(SmallSize)
-	p.DefLevels[1] = 0
-
-	writer := p.buildWriter(SmallSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValues(writer, p.DefLevels, nil)
-	writer.Close()
-
-	p.Equal(int64(100), p.metadataNumValues())
-
-	values := p.readColumn(compress.Codecs.Uncompressed)
-	p.EqualValues(99, values)
-	p.Equal(reflect.ValueOf(p.Values).Slice(0, 99).Interface(), reflect.ValueOf(p.ValuesOut).Slice(0, 99).Interface())
-}
-
-func (p *PrimitiveWriterTestSuite) TestOptionalSpaced() {
-	p.SetupSchema(parquet.Repetitions.Optional, 1)
-	p.descr = p.Schema.Column(0)
-
-	p.GenerateData(SmallSize)
-	validBits := make([]byte, int(bitutil.BytesForBits(SmallSize)))
-	memory.Set(validBits, 255)
-	p.DefLevels[SmallSize-1] = 0
-	bitutil.ClearBit(validBits, SmallSize-1)
-	p.DefLevels[1] = 0
-	bitutil.ClearBit(validBits, 1)
-
-	writer := p.buildWriter(SmallSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValuesSpaced(writer, p.DefLevels, nil, validBits, 0)
-	writer.Close()
-
-	p.Equal(int64(100), p.metadataNumValues())
-
-	values := p.readColumn(compress.Codecs.Uncompressed)
-	p.EqualValues(98, values)
-
-	orig := reflect.ValueOf(p.Values)
-	orig = orig.Slice(0, 99)
-	reflect.Copy(orig.Slice(1, orig.Len()), orig.Slice(2, orig.Len()))
-	orig = orig.Slice(0, 98)
-	out := reflect.ValueOf(p.ValuesOut)
-	out = out.Slice(0, 98)
-
-	p.Equal(orig.Interface(), out.Interface())
-}
-
-func (p *PrimitiveWriterTestSuite) TestWriteRepeated() {
-	// optional and repeated so def and repetition levels
-	p.SetupSchema(parquet.Repetitions.Repeated, 1)
-	p.descr = p.Schema.Column(0)
-	p.GenerateData(SmallSize)
-	p.DefLevels[1] = 0
-	p.RepLevels = make([]int16, SmallSize)
-	for idx := range p.RepLevels {
-		p.RepLevels[idx] = 0
-	}
-
-	writer := p.buildWriter(SmallSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValues(writer, p.DefLevels, p.RepLevels)
-	writer.Close()
-
-	values := p.readColumn(compress.Codecs.Uncompressed)
-	p.EqualValues(SmallSize-1, values)
-	out := reflect.ValueOf(p.ValuesOut).Slice(0, SmallSize-1).Interface()
-	vals := reflect.ValueOf(p.Values).Slice(0, SmallSize-1).Interface()
-	p.Equal(vals, out)
-}
-
-func (p *PrimitiveWriterTestSuite) TestRequiredLargeChunk() {
-	p.GenerateData(LargeSize)
-
-	// Test 1: required and non-repeated, so no def or rep levels
-	writer := p.buildWriter(LargeSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValues(writer, nil, nil)
-	writer.Close()
-
-	// just read the first SmallSize rows to ensure we could read it back in
-	values := p.readColumn(compress.Codecs.Uncompressed)
-	p.EqualValues(SmallSize, values)
-	p.Equal(reflect.ValueOf(p.Values).Slice(0, SmallSize).Interface(), p.ValuesOut)
-}
-
-func (p *PrimitiveWriterTestSuite) TestDictionaryFallbackEncodingV1() {
-	p.testDictionaryFallbackEncoding(parquet.V1_0)
-}
-
-func (p *PrimitiveWriterTestSuite) TestDictionaryFallbackEncodingV2() {
-	p.testDictionaryFallbackEncoding(parquet.V2_LATEST)
-}
-
-func (p *PrimitiveWriterTestSuite) TestDictionaryFallbackStatsV1() {
-	p.testDictionaryFallbackAndCompressedSize(parquet.V1_0)
-}
-
-func (p *PrimitiveWriterTestSuite) TestDictionaryFallbackStatsV2() {
-	p.testDictionaryFallbackAndCompressedSize(parquet.V2_LATEST)
-}
-
-func (p *PrimitiveWriterTestSuite) TestOptionalNullValueChunk() {
-	// test case for NULL values
-	p.SetupSchema(parquet.Repetitions.Optional, 1)
-	p.descr = p.Schema.Column(0)
-	p.GenerateData(LargeSize)
-	p.RepLevels = make([]int16, LargeSize)
-	for idx := range p.DefLevels {
-		p.DefLevels[idx] = 0
-		p.RepLevels[idx] = 0
-	}
-
-	writer := p.buildWriter(LargeSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	p.WriteBatchValues(writer, p.DefLevels, p.RepLevels)
-	writer.Close()
-
-	valuesRead := p.readColumn(compress.Codecs.Uncompressed)
-	p.Zero(valuesRead)
-}
-
-func createWriterTestSuite(typ reflect.Type) suite.TestingSuite {
-	switch typ {
-	case reflect.TypeOf(true):
-		return &BooleanValueWriterSuite{PrimitiveWriterTestSuite{PrimitiveTypedTest: testutils.NewPrimitiveTypedTest(typ)}}
-	case reflect.TypeOf(parquet.ByteArray{}):
-		return &ByteArrayWriterSuite{PrimitiveWriterTestSuite{PrimitiveTypedTest: testutils.NewPrimitiveTypedTest(typ)}}
-	}
-	return &PrimitiveWriterTestSuite{PrimitiveTypedTest: testutils.NewPrimitiveTypedTest(typ)}
-}
-
-func TestColumnWriter(t *testing.T) {
-	t.Parallel()
-	types := []struct {
-		typ reflect.Type
-	}{
-		{reflect.TypeOf(true)},
-		{reflect.TypeOf(int32(0))},
-		{reflect.TypeOf(int64(0))},
-		{reflect.TypeOf(float32(0))},
-		{reflect.TypeOf(float64(0))},
-		{reflect.TypeOf(parquet.Int96{})},
-		{reflect.TypeOf(parquet.ByteArray{})},
-		{reflect.TypeOf(parquet.FixedLenByteArray{})},
-	}
-	for _, tt := range types {
-		tt := tt
-		t.Run(tt.typ.String(), func(t *testing.T) {
-			t.Parallel()
-			suite.Run(t, createWriterTestSuite(tt.typ))
-		})
-	}
-}
-
-type ByteArrayWriterSuite struct {
-	PrimitiveWriterTestSuite
-}
-
-func (b *ByteArrayWriterSuite) TestOmitStats() {
-	// prevent writing large MIN,MAX stats
-	minLen := 1024 * 4
-	maxLen := 1024 * 8
-	b.SetupSchema(parquet.Repetitions.Required, 1)
-	b.Values = make([]parquet.ByteArray, SmallSize)
-	writer := b.buildWriter(SmallSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	testutils.RandomByteArray(0, b.Values.([]parquet.ByteArray), b.Buffer, minLen, maxLen)
-	writer.(*file.ByteArrayColumnChunkWriter).WriteBatch(b.Values.([]parquet.ByteArray), nil, nil)
-	writer.Close()
-
-	hasMin, hasMax := b.metadataStatsHasMinMax()
-	b.False(hasMin)
-	b.False(hasMax)
-}
-
-func (b *ByteArrayWriterSuite) TestOmitDataPageStats() {
-	// prevent writing large stats in DataPageHeader
-	minLen := math.Pow10(7)
-	maxLen := math.Pow10(7)
-	b.SetupSchema(parquet.Repetitions.Required, 1)
-	colprops := parquet.DefaultColumnProperties()
-	colprops.StatsEnabled = false
-
-	writer := b.buildWriter(SmallSize, colprops, parquet.WithVersion(parquet.V1_0))
-	b.Values = make([]parquet.ByteArray, 1)
-	testutils.RandomByteArray(0, b.Values.([]parquet.ByteArray), b.Buffer, int(minLen), int(maxLen))
-	writer.(*file.ByteArrayColumnChunkWriter).WriteBatch(b.Values.([]parquet.ByteArray), nil, nil)
-	writer.Close()
-
-	b.NotPanics(func() { b.readColumn(compress.Codecs.Uncompressed) })
-}
-
-func (b *ByteArrayWriterSuite) TestLimitStats() {
-	minLen := 1024 * 4
-	maxLen := 1024 * 8
-	b.SetupSchema(parquet.Repetitions.Required, 1)
-	colprops := parquet.DefaultColumnProperties()
-	colprops.MaxStatsSize = int64(maxLen)
-
-	writer := b.buildWriter(SmallSize, colprops, parquet.WithVersion(parquet.V1_0)).(*file.ByteArrayColumnChunkWriter)
-	b.Values = make([]parquet.ByteArray, SmallSize)
-	testutils.RandomByteArray(0, b.Values.([]parquet.ByteArray), b.Buffer, minLen, maxLen)
-	writer.WriteBatch(b.Values.([]parquet.ByteArray), nil, nil)
-	writer.Close()
-
-	b.True(b.metadataIsStatsSet())
-}
-
-func (b *ByteArrayWriterSuite) TestCheckDefaultStats() {
-	b.SetupSchema(parquet.Repetitions.Required, 1)
-	writer := b.buildWriter(SmallSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0))
-	b.GenerateData(SmallSize)
-	b.WriteBatchValues(writer, nil, nil)
-	writer.Close()
-
-	b.True(b.metadataIsStatsSet())
-}
-
-type BooleanValueWriterSuite struct {
-	PrimitiveWriterTestSuite
-}
-
-func (b *BooleanValueWriterSuite) TestAlternateBooleanValues() {
-	b.SetupSchema(parquet.Repetitions.Required, 1)
-	// We use an unusual data-page size to try to flush out Boolean encoder issues in usage of the BitMapWriter
-	writer := b.buildWriter(SmallSize, parquet.DefaultColumnProperties(), parquet.WithVersion(parquet.V1_0), parquet.WithDataPageSize(7)).(*file.BooleanColumnChunkWriter)
-	for i := 0; i < SmallSize; i++ {
-		val := i%2 == 0
-		writer.WriteBatch([]bool{val}, nil, nil)
-	}
-	writer.Close()
-	b.readColumn(compress.Codecs.Uncompressed)
-	for i := 0; i < SmallSize; i++ {
-		b.Equal(i%2 == 0, b.ValuesOut.([]bool)[i])
-	}
-}
-
-func TestDictionaryReslice(t *testing.T) {
-	pts := []arrow.DataType{
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Int64,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Uint64,
-	}
-	for _, pt := range pts {
-		t.Run(pt.String(), func(t *testing.T) {
-			mem := memory.NewGoAllocator()
-			dt := &arrow.DictionaryType{
-				IndexType: pt,
-				ValueType: &arrow.StringType{},
-			}
-			field := arrow.Field{Name: "test_field", Type: dt, Nullable: true}
-			schema := arrow.NewSchema([]arrow.Field{field}, nil)
-			b := array.NewRecordBuilder(mem, schema)
-			for i := 0; i < 2000; i++ {
-				b.Field(0).(*array.BinaryDictionaryBuilder).AppendString("test_value")
-			}
-			rec := b.NewRecord()
-			out := &bytes.Buffer{}
-			pqw, err := pqarrow.NewFileWriter(rec.Schema(), out, nil, pqarrow.NewArrowWriterProperties())
-			assert.NoError(t, err)
-			err = pqw.WriteBuffered(rec)
-			assert.NoError(t, err)
-
-		})
-	}
-}
diff --git a/go/parquet/file/column_writer_types.gen.go b/go/parquet/file/column_writer_types.gen.go
deleted file mode 100644
index 612b4095098a1..0000000000000
--- a/go/parquet/file/column_writer_types.gen.go
+++ /dev/null
@@ -1,1594 +0,0 @@
-// Code generated by column_writer_types.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-// Int32ColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for Int32 columns.
-type Int32ColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewInt32ColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewInt32ColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *Int32ColumnChunkWriter {
-	ret := &Int32ColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.Int32EncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *Int32ColumnChunkWriter) WriteBatch(values []int32, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []int32
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *Int32ColumnChunkWriter) WriteBatchSpaced(values []int32, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []int32
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *Int32ColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *Int32ColumnChunkWriter) writeValues(values []int32, numNulls int64) {
-	w.currentEncoder.(encoding.Int32Encoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.Int32Statistics).Update(values, numNulls)
-	}
-}
-
-func (w *Int32ColumnChunkWriter) writeValuesSpaced(spacedValues []int32, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.Int32Encoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.Int32Encoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.Int32Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *Int32ColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *Int32ColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.Int32EncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// Int64ColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for Int64 columns.
-type Int64ColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewInt64ColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewInt64ColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *Int64ColumnChunkWriter {
-	ret := &Int64ColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.Int64EncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *Int64ColumnChunkWriter) WriteBatch(values []int64, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []int64
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *Int64ColumnChunkWriter) WriteBatchSpaced(values []int64, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []int64
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *Int64ColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *Int64ColumnChunkWriter) writeValues(values []int64, numNulls int64) {
-	w.currentEncoder.(encoding.Int64Encoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.Int64Statistics).Update(values, numNulls)
-	}
-}
-
-func (w *Int64ColumnChunkWriter) writeValuesSpaced(spacedValues []int64, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.Int64Encoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.Int64Encoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.Int64Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *Int64ColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *Int64ColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.Int64EncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// Int96ColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for Int96 columns.
-type Int96ColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewInt96ColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewInt96ColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *Int96ColumnChunkWriter {
-	ret := &Int96ColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.Int96EncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *Int96ColumnChunkWriter) WriteBatch(values []parquet.Int96, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []parquet.Int96
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *Int96ColumnChunkWriter) WriteBatchSpaced(values []parquet.Int96, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []parquet.Int96
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *Int96ColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *Int96ColumnChunkWriter) writeValues(values []parquet.Int96, numNulls int64) {
-	w.currentEncoder.(encoding.Int96Encoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.Int96Statistics).Update(values, numNulls)
-	}
-}
-
-func (w *Int96ColumnChunkWriter) writeValuesSpaced(spacedValues []parquet.Int96, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.Int96Encoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.Int96Encoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.Int96Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *Int96ColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *Int96ColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.Int96EncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// Float32ColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for Float32 columns.
-type Float32ColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewFloat32ColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewFloat32ColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *Float32ColumnChunkWriter {
-	ret := &Float32ColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.Float32EncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *Float32ColumnChunkWriter) WriteBatch(values []float32, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []float32
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *Float32ColumnChunkWriter) WriteBatchSpaced(values []float32, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []float32
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *Float32ColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *Float32ColumnChunkWriter) writeValues(values []float32, numNulls int64) {
-	w.currentEncoder.(encoding.Float32Encoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.Float32Statistics).Update(values, numNulls)
-	}
-}
-
-func (w *Float32ColumnChunkWriter) writeValuesSpaced(spacedValues []float32, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.Float32Encoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.Float32Encoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.Float32Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *Float32ColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *Float32ColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.Float32EncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// Float64ColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for Float64 columns.
-type Float64ColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewFloat64ColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewFloat64ColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *Float64ColumnChunkWriter {
-	ret := &Float64ColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.Float64EncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *Float64ColumnChunkWriter) WriteBatch(values []float64, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []float64
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *Float64ColumnChunkWriter) WriteBatchSpaced(values []float64, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []float64
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *Float64ColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *Float64ColumnChunkWriter) writeValues(values []float64, numNulls int64) {
-	w.currentEncoder.(encoding.Float64Encoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.Float64Statistics).Update(values, numNulls)
-	}
-}
-
-func (w *Float64ColumnChunkWriter) writeValuesSpaced(spacedValues []float64, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.Float64Encoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.Float64Encoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.Float64Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *Float64ColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *Float64ColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.Float64EncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// BooleanColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for Boolean columns.
-type BooleanColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewBooleanColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewBooleanColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *BooleanColumnChunkWriter {
-	if useDict {
-		panic("cannot use dictionary for boolean writer")
-	}
-	ret := &BooleanColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.BooleanEncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *BooleanColumnChunkWriter) WriteBatch(values []bool, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []bool
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *BooleanColumnChunkWriter) WriteBatchSpaced(values []bool, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []bool
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *BooleanColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *BooleanColumnChunkWriter) writeValues(values []bool, numNulls int64) {
-	w.currentEncoder.(encoding.BooleanEncoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.BooleanStatistics).Update(values, numNulls)
-	}
-}
-
-func (w *BooleanColumnChunkWriter) writeValuesSpaced(spacedValues []bool, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.BooleanEncoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.BooleanEncoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.BooleanStatistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *BooleanColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *BooleanColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.BooleanEncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// ByteArrayColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for ByteArray columns.
-type ByteArrayColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewByteArrayColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewByteArrayColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *ByteArrayColumnChunkWriter {
-	ret := &ByteArrayColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.ByteArrayEncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *ByteArrayColumnChunkWriter) WriteBatch(values []parquet.ByteArray, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []parquet.ByteArray
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *ByteArrayColumnChunkWriter) WriteBatchSpaced(values []parquet.ByteArray, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []parquet.ByteArray
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *ByteArrayColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *ByteArrayColumnChunkWriter) writeValues(values []parquet.ByteArray, numNulls int64) {
-	w.currentEncoder.(encoding.ByteArrayEncoder).Put(values)
-	if w.pageStatistics != nil {
-		w.pageStatistics.(*metadata.ByteArrayStatistics).Update(values, numNulls)
-	}
-}
-
-func (w *ByteArrayColumnChunkWriter) writeValuesSpaced(spacedValues []parquet.ByteArray, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.ByteArrayEncoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.ByteArrayEncoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		w.pageStatistics.(*metadata.ByteArrayStatistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-	}
-}
-
-func (w *ByteArrayColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *ByteArrayColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.ByteArrayEncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// FixedLenByteArrayColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for FixedLenByteArray columns.
-type FixedLenByteArrayColumnChunkWriter struct {
-	columnWriter
-}
-
-// NewFixedLenByteArrayColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func NewFixedLenByteArrayColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *FixedLenByteArrayColumnChunkWriter {
-	ret := &FixedLenByteArrayColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-	ret.currentEncoder = encoding.FixedLenByteArrayEncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-	return ret
-}
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *FixedLenByteArrayColumnChunkWriter) WriteBatch(values []parquet.FixedLenByteArray, defLevels, repLevels []int16) (valueOffset int64, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-	// We check for DataPage limits only after we have inserted the values. If a user
-	// writes a large number of values, the DataPage size can be much above the limit.
-	// The purpose of this chunking is to bound this. Even if a user writes large number
-	// of values, the chunking will ensure the AddDataPage() is called at a reasonable
-	// pagesize limit
-	var n int64
-	switch {
-	case defLevels != nil:
-		n = int64(len(defLevels))
-	case values != nil:
-		n = int64(len(values))
-	}
-	w.doBatches(n, repLevels, func(offset, batch int64) {
-		var vals []parquet.FixedLenByteArray
-
-		toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+toWrite]
-		}
-
-		w.writeValues(vals, batch-toWrite)
-		if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-			panic(err)
-		}
-
-		valueOffset += toWrite
-		w.checkDictionarySizeLimit()
-	})
-	return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *FixedLenByteArrayColumnChunkWriter) WriteBatchSpaced(values []parquet.FixedLenByteArray, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = len(values)
-	}
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		var vals []parquet.FixedLenByteArray
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-		if values != nil {
-			vals = values[valueOffset : valueOffset+info.numSpaced()]
-		}
-
-		if w.bitsBuffer != nil {
-			w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-		} else {
-			w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-		}
-		w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-		valueOffset += info.numSpaced()
-
-		w.checkDictionarySizeLimit()
-	})
-}
-
-func (w *FixedLenByteArrayColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = utils.FormatRecoveredError("unknown error type", r)
-		}
-	}()
-
-	valueOffset := int64(0)
-	length := len(defLevels)
-	if defLevels == nil {
-		length = indices.Len()
-	}
-
-	dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-	doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-		info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-		w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-		writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-		defer writeableIndices.Release()
-		writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-		defer writeableIndices.Release()
-
-		if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-			panic(err) // caught above
-		}
-
-		if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-			panic(err)
-		}
-
-		valueOffset += info.numSpaced()
-	})
-
-	return
-}
-
-func (w *FixedLenByteArrayColumnChunkWriter) writeValues(values []parquet.FixedLenByteArray, numNulls int64) {
-	w.currentEncoder.(encoding.FixedLenByteArrayEncoder).Put(values)
-	if w.pageStatistics != nil {
-		if w.Descr().LogicalType().Equals(schema.Float16LogicalType{}) {
-			w.pageStatistics.(*metadata.Float16Statistics).Update(values, numNulls)
-		} else {
-			w.pageStatistics.(*metadata.FixedLenByteArrayStatistics).Update(values, numNulls)
-		}
-	}
-}
-
-func (w *FixedLenByteArrayColumnChunkWriter) writeValuesSpaced(spacedValues []parquet.FixedLenByteArray, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-	if len(spacedValues) != int(numRead) {
-		w.currentEncoder.(encoding.FixedLenByteArrayEncoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-	} else {
-		w.currentEncoder.(encoding.FixedLenByteArrayEncoder).Put(spacedValues)
-	}
-	if w.pageStatistics != nil {
-		nulls := numValues - numRead
-		if w.Descr().LogicalType().Equals(schema.Float16LogicalType{}) {
-			w.pageStatistics.(*metadata.Float16Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-		} else {
-			w.pageStatistics.(*metadata.FixedLenByteArrayStatistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-		}
-	}
-}
-
-func (w *FixedLenByteArrayColumnChunkWriter) checkDictionarySizeLimit() {
-	if !w.hasDict || w.fallbackToNonDict {
-		return
-	}
-
-	if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-		w.FallbackToPlain()
-	}
-}
-
-func (w *FixedLenByteArrayColumnChunkWriter) FallbackToPlain() {
-	if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-		w.WriteDictionaryPage()
-		w.FlushBufferedDataPages()
-		w.fallbackToNonDict = true
-		w.currentEncoder.Release()
-		w.currentEncoder = encoding.FixedLenByteArrayEncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-		w.encoding = parquet.Encodings.Plain
-	}
-}
-
-// NewColumnChunkWriter constructs a column writer of the appropriate type by using the metadata builder
-// and writer properties to determine the correct type of column writer to construct and whether
-// or not to use dictionary encoding.
-func NewColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, props *parquet.WriterProperties) ColumnChunkWriter {
-	descr := meta.Descr()
-	useDict := props.DictionaryEnabledFor(descr.Path()) && descr.PhysicalType() != parquet.Types.Boolean && descr.PhysicalType() != parquet.Types.Int96
-	enc := props.EncodingFor(descr.Path())
-	if useDict {
-		enc = props.DictionaryIndexEncoding()
-	}
-
-	switch descr.PhysicalType() {
-	case parquet.Types.Int32:
-		return NewInt32ColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.Int64:
-		return NewInt64ColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.Int96:
-		return NewInt96ColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.Float:
-		return NewFloat32ColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.Double:
-		return NewFloat64ColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.Boolean:
-		return NewBooleanColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.ByteArray:
-		return NewByteArrayColumnChunkWriter(meta, pager, useDict, enc, props)
-	case parquet.Types.FixedLenByteArray:
-		return NewFixedLenByteArrayColumnChunkWriter(meta, pager, useDict, enc, props)
-	default:
-		panic("unimplemented")
-	}
-}
diff --git a/go/parquet/file/column_writer_types.gen.go.tmpl b/go/parquet/file/column_writer_types.gen.go.tmpl
deleted file mode 100644
index cb48dd64ceedc..0000000000000
--- a/go/parquet/file/column_writer_types.gen.go.tmpl
+++ /dev/null
@@ -1,263 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-    "fmt"
-
-    "github.com/apache/arrow/go/v18/internal/utils"
-    "github.com/apache/arrow/go/v18/parquet"
-    "github.com/apache/arrow/go/v18/parquet/metadata"
-    "github.com/apache/arrow/go/v18/parquet/internal/encoding"
-    format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-{{range .In}}
-// {{.Name}}ColumnChunkWriter is the typed interface for writing columns to a parquet
-// file for {{.Name}} columns.
-type {{.Name}}ColumnChunkWriter struct {
-  columnWriter
-}
-
-// New{{.Name}}ColumnChunkWriter constructs a new column writer using the given metadata chunk builder
-// provided Pager, and desired encoding and properties.
-//
-// This will likely not be often called directly by consumers but rather used internally.
-//
-// ColumnChunkWriters should be acquired by using fileWriter and RowGroupWriter objects
-func New{{.Name}}ColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, useDict bool, enc parquet.Encoding, props *parquet.WriterProperties) *{{.Name}}ColumnChunkWriter {
-{{- if eq .Name "Boolean"}}
-  if useDict {
-    panic("cannot use dictionary for boolean writer")
-  }
-
-{{- end}}
-  ret := &{{.Name}}ColumnChunkWriter{columnWriter: newColumnWriterBase(meta, pager, useDict, enc, props)}
-  ret.currentEncoder = encoding.{{.Name}}EncoderTraits.Encoder(format.Encoding(enc), useDict, meta.Descr(), props.Allocator())
-  return ret
-}
-
-
-// WriteBatch writes a batch of repetition levels, definition levels, and values to the
-// column.
-// `def_levels` (resp. `rep_levels`) can be null if the column's max definition level
-// (resp. max repetition level) is 0.
-// If not null, each of `def_levels` and `rep_levels` must have at least
-// `len(values)`.
-//
-// The number of physical values written (taken from `values`) is returned.
-// It can be smaller than `len(values)` is there are some undefined values.
-//
-// When using DataPageV2 to write a repeated column rows cannot cross data
-// page boundaries. To ensure this the writer ensures that every batch of
-// w.props.BatchSize begins and ends on a row boundary. As a consequence,
-// the first value to WriteBatch must always be the beginning of a row if
-// repLevels is not nil (repLevels[0] should always be 0) and using DataPageV2.
-func (w *{{.Name}}ColumnChunkWriter) WriteBatch(values []{{.name}}, defLevels, repLevels []int16) (valueOffset int64, err error) {
-  defer func() {
-    if r := recover(); r != nil {
-      err = utils.FormatRecoveredError("unknown error type", r)
-    }
-  }()
-  // We check for DataPage limits only after we have inserted the values. If a user
-  // writes a large number of values, the DataPage size can be much above the limit.
-  // The purpose of this chunking is to bound this. Even if a user writes large number
-  // of values, the chunking will ensure the AddDataPage() is called at a reasonable
-  // pagesize limit
-  var n int64
-  switch {
-  case defLevels != nil:
-    n = int64(len(defLevels))
-  case values != nil:
-    n = int64(len(values))
-  }
-  w.doBatches(n, repLevels, func(offset, batch int64) {
-    var vals []{{.name}}
-
-    toWrite := w.writeLevels(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-    if values != nil {
-      vals = values[valueOffset:valueOffset+toWrite]
-    }
-
-    w.writeValues(vals, batch - toWrite)
-    if err := w.commitWriteAndCheckPageLimit(batch, toWrite); err != nil {
-        panic(err)
-    }
-
-    valueOffset += toWrite
-    w.checkDictionarySizeLimit()
-  })
-  return
-}
-
-// WriteBatchSpaced writes a batch of repetition levels, definition levels, and values to the
-// column.
-//
-// In comparison to WriteBatch the length of repetition and definition levels
-// is the same as of the number of values read for max_definition_level == 1.
-// In the case of max_definition_level > 1, the repetition and definition
-// levels are larger than the values but the values include the null entries
-// with definition_level == (max_definition_level - 1). Thus we have to differentiate
-// in the parameters of this function if the input has the length of num_values or the
-// _number of rows in the lowest nesting level_.
-//
-// In the case that the most inner node in the Parquet is required, the _number of rows
-// in the lowest nesting level_ is equal to the number of non-null values. If the
-// inner-most schema node is optional, the _number of rows in the lowest nesting level_
-// also includes all values with definition_level == (max_definition_level - 1).
-func (w *{{.Name}}ColumnChunkWriter) WriteBatchSpaced(values []{{.name}}, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-  valueOffset := int64(0)
-  length := len(defLevels)
-  if defLevels == nil {
-    length = len(values)
-  }
-  doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-    var vals []{{.name}}
-    info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-
-    w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-    if values != nil {
-      vals = values[valueOffset:valueOffset+info.numSpaced()]
-    }
-
-    if w.bitsBuffer != nil {
-      w.writeValuesSpaced(vals, info.batchNum, batch, w.bitsBuffer.Bytes(), 0)
-    } else {
-      w.writeValuesSpaced(vals, info.batchNum, batch, validBits, validBitsOffset+valueOffset)
-    }
-    w.commitWriteAndCheckPageLimit(batch, info.numSpaced())
-    valueOffset += info.numSpaced()
-
-    w.checkDictionarySizeLimit()
-  })
-}
-
-func (w *{{.Name}}ColumnChunkWriter) WriteDictIndices(indices arrow.Array, defLevels, repLevels []int16) (err error) {
-  defer func() {
-    if r := recover(); r != nil {
-      err = utils.FormatRecoveredError("unknown error type", r)
-    }
-  }()
-
-  valueOffset := int64(0)
-  length := len(defLevels)
-  if defLevels == nil {
-    length = indices.Len()
-  }
-
-  dictEncoder := w.currentEncoder.(encoding.DictEncoder)
-
-  doBatches(int64(length), w.props.WriteBatchSize(), func(offset, batch int64) {
-    info := w.maybeCalculateValidityBits(levelSliceOrNil(defLevels, offset, batch), batch)
-    w.writeLevelsSpaced(batch, levelSliceOrNil(defLevels, offset, batch), levelSliceOrNil(repLevels, offset, batch))
-
-    writeableIndices := array.NewSlice(indices, valueOffset, valueOffset+info.numSpaced())
-    defer writeableIndices.Release()
-    writeableIndices = w.maybeReplaceValidity(writeableIndices, info.nullCount)
-    defer writeableIndices.Release()
-
-    if err := dictEncoder.PutIndices(writeableIndices); err != nil {
-      panic(err) // caught above
-    }
-
-    if err := w.commitWriteAndCheckPageLimit(batch, info.batchNum); err != nil {
-      panic(err)
-    }
-
-    valueOffset += info.numSpaced()
-  })
-
-  return
-}
-
-func (w *{{.Name}}ColumnChunkWriter) writeValues(values []{{.name}}, numNulls int64) {
-  w.currentEncoder.(encoding.{{.Name}}Encoder).Put(values)
-  if w.pageStatistics != nil {
-{{- if ne .Name "FixedLenByteArray"}}
-    w.pageStatistics.(*metadata.{{.Name}}Statistics).Update(values, numNulls)
-{{- else}}
-    if w.Descr().LogicalType().Equals(schema.Float16LogicalType{}) {
-      w.pageStatistics.(*metadata.Float16Statistics).Update(values, numNulls)
-    } else {
-      w.pageStatistics.(*metadata.{{.Name}}Statistics).Update(values, numNulls)
-    }
-{{- end}}
-  }
-}
-
-func (w *{{.Name}}ColumnChunkWriter) writeValuesSpaced(spacedValues []{{.name}}, numRead, numValues int64, validBits []byte, validBitsOffset int64) {
-  if len(spacedValues) != int(numRead) {
-    w.currentEncoder.(encoding.{{.Name}}Encoder).PutSpaced(spacedValues, validBits, validBitsOffset)
-  } else {
-    w.currentEncoder.(encoding.{{.Name}}Encoder).Put(spacedValues)
-  }
-  if w.pageStatistics != nil {
-    nulls := numValues - numRead
-{{- if ne .Name "FixedLenByteArray"}}
-    w.pageStatistics.(*metadata.{{.Name}}Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-{{- else}}
-    if w.Descr().LogicalType().Equals(schema.Float16LogicalType{}) {
-      w.pageStatistics.(*metadata.Float16Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-    } else {
-      w.pageStatistics.(*metadata.{{.Name}}Statistics).UpdateSpaced(spacedValues, validBits, validBitsOffset, nulls)
-    }
-{{- end}}
-  }
-}
-
-func (w *{{.Name}}ColumnChunkWriter) checkDictionarySizeLimit() {
-  if !w.hasDict || w.fallbackToNonDict {
-    return
-  }
-
-  if w.currentEncoder.(encoding.DictEncoder).DictEncodedSize() >= int(w.props.DictionaryPageSizeLimit()) {
-    w.FallbackToPlain()
-  }
-}
-
-func (w *{{.Name}}ColumnChunkWriter) FallbackToPlain() {
-  if w.currentEncoder.Encoding() == parquet.Encodings.PlainDict {
-    w.WriteDictionaryPage()
-    w.FlushBufferedDataPages()
-    w.fallbackToNonDict = true
-    w.currentEncoder.Release()
-    w.currentEncoder = encoding.{{.Name}}EncoderTraits.Encoder(format.Encoding(parquet.Encodings.Plain), false, w.descr, w.mem)
-    w.encoding = parquet.Encodings.Plain
-  }
-}
-{{end}}
-
-// NewColumnChunkWriter constructs a column writer of the appropriate type by using the metadata builder
-// and writer properties to determine the correct type of column writer to construct and whether
-// or not to use dictionary encoding.
-func NewColumnChunkWriter(meta *metadata.ColumnChunkMetaDataBuilder, pager PageWriter, props *parquet.WriterProperties) ColumnChunkWriter {
-  descr := meta.Descr()
-  useDict := props.DictionaryEnabledFor(descr.Path()) && descr.PhysicalType() != parquet.Types.Boolean && descr.PhysicalType() != parquet.Types.Int96
-  enc := props.EncodingFor(descr.Path())
-  if useDict {
-    enc = props.DictionaryIndexEncoding()
-  }
-
-  switch descr.PhysicalType() {
-{{- range .In}}
-  case parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}:
-    return New{{.Name}}ColumnChunkWriter(meta, pager, useDict, enc, props)
-{{- end}}
-  default:
-    panic("unimplemented")
-  }
-}
diff --git a/go/parquet/file/file_reader.go b/go/parquet/file/file_reader.go
deleted file mode 100644
index f25b882e00647..0000000000000
--- a/go/parquet/file/file_reader.go
+++ /dev/null
@@ -1,317 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"bytes"
-	"encoding/binary"
-	"fmt"
-	"io"
-	"os"
-	"runtime"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"golang.org/x/xerrors"
-)
-
-const (
-	footerSize uint32 = 8
-)
-
-var (
-	magicBytes                  = []byte("PAR1")
-	magicEBytes                 = []byte("PARE")
-	errInconsistentFileMetadata = xerrors.New("parquet: file is smaller than indicated metadata size")
-)
-
-// Reader is the main interface for reading a parquet file
-type Reader struct {
-	r             parquet.ReaderAtSeeker
-	props         *parquet.ReaderProperties
-	metadata      *metadata.FileMetaData
-	footerOffset  int64
-	fileDecryptor encryption.FileDecryptor
-
-	bufferPool sync.Pool
-}
-
-type ReadOption func(*Reader)
-
-// WithReadProps specifies a specific reader properties instance to use, rather
-// than using the default ReaderProperties.
-func WithReadProps(props *parquet.ReaderProperties) ReadOption {
-	return func(r *Reader) {
-		r.props = props
-	}
-}
-
-// WithMetadata allows providing a specific FileMetaData object rather than reading
-// the file metadata from the file itself.
-func WithMetadata(m *metadata.FileMetaData) ReadOption {
-	return func(r *Reader) {
-		r.metadata = m
-	}
-}
-
-// OpenParquetFile will return a Reader for the given parquet file on the local file system.
-//
-// Optionally the file can be memory mapped for faster reading. If no read properties are provided
-// then the default ReaderProperties will be used. The WithMetadata option can be used to provide
-// a FileMetaData object rather than reading the file metadata from the file.
-func OpenParquetFile(filename string, memoryMap bool, opts ...ReadOption) (*Reader, error) {
-	var source parquet.ReaderAtSeeker
-
-	var err error
-	if memoryMap {
-		source, err = mmapOpen(filename)
-		if err != nil {
-			return nil, err
-		}
-	} else {
-		source, err = os.Open(filename)
-		if err != nil {
-			return nil, err
-		}
-	}
-	return NewParquetReader(source, opts...)
-}
-
-// NewParquetReader returns a FileReader instance that reads a parquet file which can be read from r.
-// This reader needs to support Read, ReadAt and Seeking.
-//
-// If no read properties are provided then the default ReaderProperties will be used. The WithMetadata
-// option can be used to provide a FileMetaData object rather than reading the file metadata from the file.
-func NewParquetReader(r parquet.ReaderAtSeeker, opts ...ReadOption) (*Reader, error) {
-	var err error
-	f := &Reader{r: r}
-	for _, o := range opts {
-		o(f)
-	}
-
-	if f.footerOffset <= 0 {
-		f.footerOffset, err = r.Seek(0, io.SeekEnd)
-		if err != nil {
-			return nil, fmt.Errorf("parquet: could not retrieve footer offset: %w", err)
-		}
-	}
-
-	if f.props == nil {
-		f.props = parquet.NewReaderProperties(memory.NewGoAllocator())
-	}
-
-	f.bufferPool = sync.Pool{
-		New: func() interface{} {
-			buf := memory.NewResizableBuffer(f.props.Allocator())
-			runtime.SetFinalizer(buf, func(obj *memory.Buffer) {
-				obj.Release()
-			})
-			return buf
-		},
-	}
-
-	if f.metadata == nil {
-		return f, f.parseMetaData()
-	}
-
-	return f, nil
-}
-
-// BufferPool returns the internal buffer pool being utilized by this reader.
-// This is primarily for use by the pqarrow.FileReader or anything that builds
-// on top of the Reader and constructs their own ColumnReaders (like the
-// RecordReader)
-func (f *Reader) BufferPool() *sync.Pool {
-	return &f.bufferPool
-}
-
-// Close will close the current reader, and if the underlying reader being used
-// is an `io.Closer` then Close will be called on it too.
-func (f *Reader) Close() error {
-	if r, ok := f.r.(io.Closer); ok {
-		return r.Close()
-	}
-	return nil
-}
-
-// MetaData returns the underlying FileMetadata object
-func (f *Reader) MetaData() *metadata.FileMetaData { return f.metadata }
-
-// parseMetaData handles parsing the metadata from the opened file.
-func (f *Reader) parseMetaData() error {
-	if f.footerOffset <= int64(footerSize) {
-		return fmt.Errorf("parquet: file too small (size=%d)", f.footerOffset)
-	}
-
-	buf := make([]byte, footerSize)
-	// backup 8 bytes to read the footer size (first four bytes) and the magic bytes (last 4 bytes)
-	n, err := f.r.ReadAt(buf, f.footerOffset-int64(footerSize))
-	if err != nil && err != io.EOF {
-		return fmt.Errorf("parquet: could not read footer: %w", err)
-	}
-	if n != len(buf) {
-		return fmt.Errorf("parquet: could not read %d bytes from end of file", len(buf))
-	}
-
-	size := int64(binary.LittleEndian.Uint32(buf[:4]))
-	if size < 0 || size+int64(footerSize) > f.footerOffset {
-		return errInconsistentFileMetadata
-	}
-
-	fileDecryptProps := f.props.FileDecryptProps
-
-	switch {
-	case bytes.Equal(buf[4:], magicBytes): // non-encrypted metadata
-		buf = make([]byte, size)
-		if _, err := f.r.ReadAt(buf, f.footerOffset-int64(footerSize)-size); err != nil {
-			return fmt.Errorf("parquet: could not read footer: %w", err)
-		}
-
-		f.metadata, err = metadata.NewFileMetaData(buf, nil)
-		if err != nil {
-			return fmt.Errorf("parquet: could not read footer: %w", err)
-		}
-
-		if !f.metadata.IsSetEncryptionAlgorithm() {
-			if fileDecryptProps != nil && !fileDecryptProps.PlaintextFilesAllowed() {
-				return fmt.Errorf("parquet: applying decryption properties on plaintext file")
-			}
-		} else {
-			if err := f.parseMetaDataEncryptedFilePlaintextFooter(fileDecryptProps, buf); err != nil {
-				return err
-			}
-		}
-	case bytes.Equal(buf[4:], magicEBytes): // encrypted metadata
-		buf = make([]byte, size)
-		if _, err := f.r.ReadAt(buf, f.footerOffset-int64(footerSize)-size); err != nil {
-			return fmt.Errorf("parquet: could not read footer: %w", err)
-		}
-
-		if fileDecryptProps == nil {
-			return xerrors.New("could not read encrypted metadata, no decryption found in reader's properties")
-		}
-
-		fileCryptoMetadata, err := metadata.NewFileCryptoMetaData(buf)
-		if err != nil {
-			return err
-		}
-		algo := fileCryptoMetadata.EncryptionAlgorithm()
-		fileAad, err := f.handleAadPrefix(fileDecryptProps, &algo)
-		if err != nil {
-			return err
-		}
-		f.fileDecryptor = encryption.NewFileDecryptor(fileDecryptProps, fileAad, algo.Algo, string(fileCryptoMetadata.KeyMetadata()), f.props.Allocator())
-
-		f.metadata, err = metadata.NewFileMetaData(buf[fileCryptoMetadata.Len():], f.fileDecryptor)
-		if err != nil {
-			return fmt.Errorf("parquet: could not read footer: %w", err)
-		}
-	default:
-		return fmt.Errorf("parquet: magic bytes not found in footer. Either the file is corrupted or this isn't a parquet file")
-	}
-
-	return nil
-}
-
-func (f *Reader) handleAadPrefix(fileDecrypt *parquet.FileDecryptionProperties, algo *parquet.Algorithm) (string, error) {
-	aadPrefixInProps := fileDecrypt.AadPrefix()
-	aadPrefix := []byte(aadPrefixInProps)
-	fileHasAadPrefix := len(algo.Aad.AadPrefix) > 0
-	aadPrefixInFile := algo.Aad.AadPrefix
-
-	if algo.Aad.SupplyAadPrefix && aadPrefixInProps == "" {
-		return "", xerrors.New("AAD Prefix used for file encryption but not stored in file and not supplied in decryption props")
-	}
-
-	if fileHasAadPrefix {
-		if aadPrefixInProps != "" {
-			if aadPrefixInProps != string(aadPrefixInFile) {
-				return "", xerrors.New("AAD prefix in file and in properties but not the same")
-			}
-		}
-		aadPrefix = aadPrefixInFile
-		if fileDecrypt.Verifier != nil {
-			fileDecrypt.Verifier.Verify(string(aadPrefix))
-		}
-	} else {
-		if !algo.Aad.SupplyAadPrefix && aadPrefixInProps != "" {
-			return "", xerrors.New("AAD Prefix set in decryptionproperties but was not used for file encryption")
-		}
-		if fileDecrypt.Verifier != nil {
-			return "", xerrors.New("AAD Prefix Verifier is set but AAD Prefix not found in file")
-		}
-	}
-	return string(append(aadPrefix, algo.Aad.AadFileUnique...)), nil
-}
-
-func (f *Reader) parseMetaDataEncryptedFilePlaintextFooter(decryptProps *parquet.FileDecryptionProperties, data []byte) error {
-	if decryptProps != nil {
-		algo := f.metadata.EncryptionAlgorithm()
-		fileAad, err := f.handleAadPrefix(decryptProps, &algo)
-		if err != nil {
-			return err
-		}
-		f.fileDecryptor = encryption.NewFileDecryptor(decryptProps, fileAad, algo.Algo, string(f.metadata.GetFooterSigningKeyMetadata()), f.props.Allocator())
-		// set the InternalFileDecryptor in the metadata as well, as it's used
-		// for signature verification and for ColumnChunkMetaData creation.
-		f.metadata.FileDecryptor = f.fileDecryptor
-		if decryptProps.PlaintextFooterIntegrity() {
-			if len(data)-f.metadata.Size() != encryption.GcmTagLength+encryption.NonceLength {
-				return xerrors.New("failed reading metadata for encryption signature")
-			}
-
-			if !f.metadata.VerifySignature(data[f.metadata.Size():]) {
-				return xerrors.New("parquet crypto signature verification failed")
-			}
-		}
-	}
-	return nil
-}
-
-// WriterVersion returns the Application Version that was written in the file
-// metadata
-func (f *Reader) WriterVersion() *metadata.AppVersion {
-	return f.metadata.WriterVersion()
-}
-
-// NumRows returns the total number of rows in this parquet file.
-func (f *Reader) NumRows() int64 {
-	return f.metadata.GetNumRows()
-}
-
-// NumRowGroups returns the total number of row groups in this file.
-func (f *Reader) NumRowGroups() int {
-	return len(f.metadata.GetRowGroups())
-}
-
-// RowGroup returns a reader for the desired (0-based) row group
-func (f *Reader) RowGroup(i int) *RowGroupReader {
-	rg := f.metadata.RowGroups[i]
-
-	return &RowGroupReader{
-		fileMetadata:  f.metadata,
-		rgMetadata:    metadata.NewRowGroupMetaData(rg, f.metadata.Schema, f.WriterVersion(), f.fileDecryptor),
-		props:         f.props,
-		r:             f.r,
-		sourceSz:      f.footerOffset,
-		fileDecryptor: f.fileDecryptor,
-		bufferPool:    &f.bufferPool,
-	}
-}
diff --git a/go/parquet/file/file_reader_mmap.go b/go/parquet/file/file_reader_mmap.go
deleted file mode 100644
index 77afb6b639bff..0000000000000
--- a/go/parquet/file/file_reader_mmap.go
+++ /dev/null
@@ -1,77 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !windows
-// +build !windows
-
-package file
-
-import (
-	"io"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/exp/mmap"
-	"golang.org/x/xerrors"
-)
-
-func mmapOpen(filename string) (parquet.ReaderAtSeeker, error) {
-	rdr, err := mmap.Open(filename)
-	if err != nil {
-		return nil, err
-	}
-	return &mmapAdapter{rdr, 0}, nil
-}
-
-// an adapter for mmap'd files
-type mmapAdapter struct {
-	*mmap.ReaderAt
-
-	pos int64
-}
-
-func (m *mmapAdapter) Close() error {
-	return m.ReaderAt.Close()
-}
-
-func (m *mmapAdapter) ReadAt(p []byte, off int64) (int, error) {
-	return m.ReaderAt.ReadAt(p, off)
-}
-
-func (m *mmapAdapter) Read(p []byte) (n int, err error) {
-	n, err = m.ReaderAt.ReadAt(p, m.pos)
-	m.pos += int64(n)
-	return
-}
-
-func (m *mmapAdapter) Seek(offset int64, whence int) (int64, error) {
-	newPos, offs := int64(0), offset
-	switch whence {
-	case io.SeekStart:
-		newPos = offs
-	case io.SeekCurrent:
-		newPos = m.pos + offs
-	case io.SeekEnd:
-		newPos = int64(m.ReaderAt.Len()) + offs
-	}
-	if newPos < 0 {
-		return 0, xerrors.New("negative result pos")
-	}
-	if newPos > int64(m.ReaderAt.Len()) {
-		return 0, xerrors.New("new position exceeds size of file")
-	}
-	m.pos = newPos
-	return newPos, nil
-}
diff --git a/go/parquet/file/file_reader_mmap_windows.go b/go/parquet/file/file_reader_mmap_windows.go
deleted file mode 100644
index 87aaafd9e7d81..0000000000000
--- a/go/parquet/file/file_reader_mmap_windows.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build windows
-// +build windows
-
-package file
-
-import (
-	"errors"
-
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-func mmapOpen(filename string) (parquet.ReaderAtSeeker, error) {
-	return nil, errors.New("mmap not implemented on windows")
-}
diff --git a/go/parquet/file/file_reader_test.go b/go/parquet/file/file_reader_test.go
deleted file mode 100644
index 74926c958e2f7..0000000000000
--- a/go/parquet/file/file_reader_test.go
+++ /dev/null
@@ -1,822 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file_test
-
-import (
-	"bytes"
-	"context"
-	"crypto/rand"
-	"encoding/binary"
-	"fmt"
-	"io"
-	"os"
-	"path"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	libthrift "github.com/apache/thrift/lib/go/thrift"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-func getDummyStats(statSize int, fillAll bool) *format.Statistics {
-	statBytes := make([]byte, statSize)
-	memory.Set(statBytes, 1)
-
-	ret := format.NewStatistics()
-	ret.Max = statBytes
-	if fillAll {
-		ret.Min = statBytes
-		ret.NullCount = libthrift.Int64Ptr(42)
-		ret.DistinctCount = libthrift.Int64Ptr(1)
-	}
-	return ret
-}
-
-func checkStatistics(t *testing.T, stats format.Statistics, actual metadata.EncodedStatistics) {
-	if stats.IsSetMax() {
-		assert.Equal(t, stats.Max, actual.Max)
-	}
-	if stats.IsSetMin() {
-		assert.Equal(t, stats.Min, actual.Min)
-	}
-	if stats.IsSetNullCount() {
-		assert.Equal(t, stats.GetNullCount(), actual.NullCount)
-	}
-	if stats.IsSetDistinctCount() {
-		assert.Equal(t, stats.GetDistinctCount(), actual.DistinctCount)
-	}
-}
-
-type testReader struct {
-	*bytes.Reader
-}
-
-// ReadAt for testReader returns io.EOF when off + len(b) is exactly the length of the underlying input source.
-func (tr testReader) ReadAt(b []byte, off int64) (int, error) {
-	n, err := tr.Reader.ReadAt(b, off)
-	if err == nil && (int64(n)+off == tr.Size()) {
-		return n, io.EOF
-	}
-	return n, err
-}
-
-type PageSerdeSuite struct {
-	suite.Suite
-
-	sink   *encoding.BufferWriter
-	buffer *memory.Buffer
-
-	pageHdr       format.PageHeader
-	dataPageHdr   format.DataPageHeader
-	dataPageHdrV2 format.DataPageHeaderV2
-
-	pageReader file.PageReader
-}
-
-func TestFileDeserializing(t *testing.T) {
-	t.Parallel()
-	suite.Run(t, new(PageSerdeSuite))
-}
-
-func (p *PageSerdeSuite) ResetStream() {
-	p.sink = encoding.NewBufferWriter(0, memory.DefaultAllocator)
-}
-
-func (p *PageSerdeSuite) EndStream() {
-	p.buffer = p.sink.Finish()
-}
-
-func (p *PageSerdeSuite) SetupTest() {
-	p.dataPageHdr.Encoding = format.Encoding_PLAIN
-	p.dataPageHdr.DefinitionLevelEncoding = format.Encoding_RLE
-	p.dataPageHdr.RepetitionLevelEncoding = format.Encoding_RLE
-
-	p.ResetStream()
-}
-
-func (p *PageSerdeSuite) InitSerializedPageReader(nrows int64, codec compress.Compression) {
-	p.EndStream()
-
-	p.pageReader, _ = file.NewPageReader(utils.NewBufferedReader(bytes.NewReader(p.buffer.Bytes()), p.buffer.Len()), nrows, codec, memory.DefaultAllocator, nil)
-}
-
-func (p *PageSerdeSuite) WriteDataPageHeader(maxSerialized int, uncompressed, compressed int32) {
-	// simplifying writing serialized data page headers which may or may
-	// not have meaningful data associated with them
-
-	p.pageHdr.DataPageHeader = &p.dataPageHdr
-	p.pageHdr.UncompressedPageSize = uncompressed
-	p.pageHdr.CompressedPageSize = compressed
-	p.pageHdr.Type = format.PageType_DATA_PAGE
-
-	serializer := thrift.NewThriftSerializer()
-	p.NotPanics(func() {
-		serializer.Serialize(&p.pageHdr, p.sink, nil)
-	})
-}
-
-func (p *PageSerdeSuite) WriteDataPageHeaderV2(maxSerialized int, uncompressed, compressed int32) {
-	p.pageHdr.DataPageHeaderV2 = &p.dataPageHdrV2
-	p.pageHdr.UncompressedPageSize = uncompressed
-	p.pageHdr.CompressedPageSize = compressed
-	p.pageHdr.Type = format.PageType_DATA_PAGE_V2
-
-	serializer := thrift.NewThriftSerializer()
-	p.NotPanics(func() {
-		serializer.Serialize(&p.pageHdr, p.sink, nil)
-	})
-}
-
-func (p *PageSerdeSuite) CheckDataPageHeader(expected format.DataPageHeader, page file.Page) {
-	p.Equal(format.PageType_DATA_PAGE, page.Type())
-
-	p.IsType(&file.DataPageV1{}, page)
-	p.Equal(expected.NumValues, page.NumValues())
-	p.Equal(expected.Encoding, page.Encoding())
-	p.EqualValues(expected.DefinitionLevelEncoding, page.(*file.DataPageV1).DefinitionLevelEncoding())
-	p.EqualValues(expected.RepetitionLevelEncoding, page.(*file.DataPageV1).RepetitionLevelEncoding())
-	checkStatistics(p.T(), *expected.Statistics, page.(file.DataPage).Statistics())
-}
-
-func (p *PageSerdeSuite) CheckDataPageHeaderV2(expected format.DataPageHeaderV2, page file.Page) {
-	p.Equal(format.PageType_DATA_PAGE_V2, page.Type())
-
-	p.IsType(&file.DataPageV2{}, page)
-	p.Equal(expected.NumValues, page.NumValues())
-	p.Equal(expected.Encoding, page.Encoding())
-	p.Equal(expected.NumNulls, page.(*file.DataPageV2).NumNulls())
-	p.Equal(expected.DefinitionLevelsByteLength, page.(*file.DataPageV2).DefinitionLevelByteLen())
-	p.Equal(expected.RepetitionLevelsByteLength, page.(*file.DataPageV2).RepetitionLevelByteLen())
-	p.Equal(expected.IsCompressed, page.(*file.DataPageV2).IsCompressed())
-	checkStatistics(p.T(), *expected.Statistics, page.(file.DataPage).Statistics())
-}
-
-func (p *PageSerdeSuite) TestDataPageV1() {
-	const (
-		statsSize = 512
-		nrows     = 4444
-	)
-	p.dataPageHdr.Statistics = getDummyStats(statsSize, true)
-	p.dataPageHdr.NumValues = nrows
-
-	p.WriteDataPageHeader(1024, 0, 0)
-	p.InitSerializedPageReader(nrows, compress.Codecs.Uncompressed)
-	p.True(p.pageReader.Next())
-	currentPage := p.pageReader.Page()
-	p.CheckDataPageHeader(p.dataPageHdr, currentPage)
-}
-
-func (p *PageSerdeSuite) TestDataPageV2() {
-	const (
-		statsSize = 512
-		nrows     = 4444
-	)
-	p.dataPageHdrV2.Statistics = getDummyStats(statsSize, true)
-	p.dataPageHdrV2.NumValues = nrows
-	p.WriteDataPageHeaderV2(1024, 0, 0)
-	p.InitSerializedPageReader(nrows, compress.Codecs.Uncompressed)
-	p.True(p.pageReader.Next())
-	p.CheckDataPageHeaderV2(p.dataPageHdrV2, p.pageReader.Page())
-}
-
-func (p *PageSerdeSuite) TestLargePageHeaders() {
-	const (
-		statsSize     = 256 * 1024 // 256KB
-		nrows         = 4141
-		maxHeaderSize = 512 * 1024 // 512KB
-	)
-
-	p.dataPageHdr.Statistics = getDummyStats(statsSize, false)
-	p.dataPageHdr.NumValues = nrows
-	p.WriteDataPageHeader(maxHeaderSize, 0, 0)
-	pos, err := p.sink.Seek(0, io.SeekCurrent)
-	p.NoError(err)
-	p.GreaterOrEqual(maxHeaderSize, int(pos))
-	p.LessOrEqual(statsSize, int(pos))
-	p.GreaterOrEqual(16*1024*1024, int(pos))
-
-	p.InitSerializedPageReader(nrows, compress.Codecs.Uncompressed)
-	p.True(p.pageReader.Next())
-	p.CheckDataPageHeader(p.dataPageHdr, p.pageReader.Page())
-}
-
-func (p *PageSerdeSuite) TestFailLargePageHeaders() {
-	const (
-		statsSize      = 256 * 1024 // 256KB
-		nrows          = 1337       // dummy value
-		maxHeaderSize  = 512 * 1024 // 512 KB
-		smallerMaxSize = 128 * 1024 // 128KB
-	)
-	p.dataPageHdr.Statistics = getDummyStats(statsSize, false)
-	p.WriteDataPageHeader(maxHeaderSize, 0, 0)
-	pos, err := p.sink.Seek(0, io.SeekCurrent)
-	p.NoError(err)
-	p.GreaterOrEqual(maxHeaderSize, int(pos))
-
-	p.LessOrEqual(smallerMaxSize, int(pos))
-	p.InitSerializedPageReader(nrows, compress.Codecs.Uncompressed)
-	p.pageReader.SetMaxPageHeaderSize(smallerMaxSize)
-	p.NotPanics(func() { p.False(p.pageReader.Next()) })
-	p.Error(p.pageReader.Err())
-}
-
-func (p *PageSerdeSuite) TestCompression() {
-	codecs := []compress.Compression{
-		compress.Codecs.Snappy,
-		compress.Codecs.Brotli,
-		compress.Codecs.Gzip,
-		// compress.Codecs.Lz4, // not yet implemented
-		compress.Codecs.Zstd,
-	}
-
-	const (
-		nrows  = 32 // dummy value
-		npages = 10
-	)
-	p.dataPageHdr.NumValues = nrows
-
-	fauxData := make([][]byte, npages)
-	for idx := range fauxData {
-		// each page is larger
-		fauxData[idx] = make([]byte, (idx+1)*64)
-		rand.Read(fauxData[idx])
-	}
-	for _, c := range codecs {
-		p.Run(c.String(), func() {
-			codec, _ := compress.GetCodec(c)
-			for _, data := range fauxData {
-				maxCompressed := codec.CompressBound(int64(len(data)))
-				buffer := make([]byte, maxCompressed)
-				buffer = codec.Encode(buffer, data)
-				p.WriteDataPageHeader(1024, int32(len(data)), int32(len(buffer)))
-				_, err := p.sink.Write(buffer)
-				p.NoError(err)
-			}
-
-			p.InitSerializedPageReader(nrows*npages, c)
-
-			for _, data := range fauxData {
-				p.True(p.pageReader.Next())
-				page := p.pageReader.Page()
-				p.IsType(&file.DataPageV1{}, page)
-				p.Equal(data, page.Data())
-			}
-			p.ResetStream()
-		})
-	}
-}
-
-func TestWithEOFReader(t *testing.T) {
-	root, _ := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, schema.FieldList{
-		schema.NewInt32Node("int_col", parquet.Repetitions.Required, -1)}, -1)
-	props := parquet.NewWriterProperties(parquet.WithVersion(parquet.V2_LATEST))
-
-	var buf bytes.Buffer
-	wr := file.NewParquetWriter(&buf, root, file.WithWriterProps(props))
-	require.NoError(t, wr.Close())
-
-	r := bytes.NewReader(buf.Bytes())
-	_, err := file.NewParquetReader(testReader{Reader: r})
-	assert.NoError(t, err)
-}
-
-func TestInvalidHeaders(t *testing.T) {
-	badHeader := []byte("PAR2")
-	_, err := file.NewParquetReader(bytes.NewReader(badHeader))
-	assert.Error(t, err)
-}
-
-func TestInvalidFooter(t *testing.T) {
-	// file is smaller than FOOTER_SIZE
-	badFile := []byte("PAR1PAR")
-	_, err := file.NewParquetReader(bytes.NewReader(badFile))
-	assert.Error(t, err)
-
-	// Magic Number Incorrect
-	badFile2 := []byte("PAR1PAR2")
-	_, err = file.NewParquetReader(bytes.NewReader(badFile2))
-	assert.Error(t, err)
-}
-
-func TestIncompleteMetadata(t *testing.T) {
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	magic := []byte("PAR1")
-
-	sink.Write(magic)
-	sink.Write(make([]byte, 10))
-	const metadataLen = 24
-	binary.Write(sink, binary.LittleEndian, uint32(metadataLen))
-	sink.Write(magic)
-	buf := sink.Finish()
-	defer buf.Release()
-	_, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	assert.Error(t, err)
-}
-
-func TestDeltaLengthByteArrayPackingWithNulls(t *testing.T) {
-	// produce file with DeltaLengthByteArray Encoding with mostly null values but one actual value.
-	root, _ := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, schema.FieldList{
-		schema.NewByteArrayNode("byte_array_col", parquet.Repetitions.Optional, -1),
-	}, -1)
-	props := parquet.NewWriterProperties(parquet.WithVersion(parquet.V2_LATEST),
-		parquet.WithEncoding(parquet.Encodings.DeltaLengthByteArray), parquet.WithDictionaryDefault(false))
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-	writer := file.NewParquetWriter(sink, root, file.WithWriterProps(props))
-	rgw := writer.AppendRowGroup()
-	ccw, err := rgw.NextColumn()
-	assert.NoError(t, err)
-	const elements = 500
-	data := make([]parquet.ByteArray, elements)
-	data[0] = parquet.ByteArray{1, 2, 3, 4, 5, 6, 7, 8}
-
-	defLvls := make([]int16, elements)
-	repLvls := make([]int16, elements)
-	defLvls[0] = 1
-
-	_, err = ccw.(*file.ByteArrayColumnChunkWriter).WriteBatch(data, defLvls, repLvls)
-	assert.NoError(t, err)
-	assert.NoError(t, ccw.Close())
-	assert.NoError(t, rgw.Close())
-	assert.NoError(t, writer.Close())
-	buf := sink.Finish()
-	defer buf.Release()
-
-	// read file back in
-	reader, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	assert.NoError(t, err)
-	defer reader.Close()
-	ccr, err := reader.RowGroup(0).Column(0)
-	assert.NoError(t, err)
-	const batchSize = 500
-
-	for ccr.HasNext() {
-		readData := make([]parquet.ByteArray, batchSize)
-		readdevLvls := make([]int16, batchSize)
-		readrepLvls := make([]int16, batchSize)
-		cr := ccr.(*file.ByteArrayColumnChunkReader)
-
-		total, read, err := cr.ReadBatch(batchSize, readData, readdevLvls, readrepLvls)
-		assert.NoError(t, err)
-		assert.Equal(t, int64(batchSize), total)
-		assert.Equal(t, 1, read)
-		assert.Equal(t, data[0], readData[0])
-		assert.NotNil(t, readData[0])
-	}
-}
-
-func TestRleBooleanEncodingFileRead(t *testing.T) {
-	dir := os.Getenv("PARQUET_TEST_DATA")
-	if dir == "" {
-		t.Skip("no path supplied with PARQUET_TEST_DATA")
-	}
-	assert.DirExists(t, dir)
-
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	fileReader, err := file.OpenParquetFile(path.Join(dir, "rle_boolean_encoding.parquet"),
-		false, file.WithReadProps(props))
-	require.NoError(t, err)
-	defer fileReader.Close()
-
-	assert.Equal(t, 1, fileReader.NumRowGroups())
-	rgr := fileReader.RowGroup(0)
-	assert.EqualValues(t, 68, rgr.NumRows())
-
-	rdr, err := rgr.Column(0)
-	require.NoError(t, err)
-	brdr := rdr.(*file.BooleanColumnChunkReader)
-
-	values := make([]bool, 68)
-	defLvls, repLvls := make([]int16, 68), make([]int16, 68)
-	total, read, err := brdr.ReadBatch(68, values, defLvls, repLvls)
-	require.NoError(t, err)
-
-	assert.EqualValues(t, 68, total)
-	md, err := rgr.MetaData().ColumnChunk(0)
-	require.NoError(t, err)
-	stats, err := md.Statistics()
-	require.NoError(t, err)
-	assert.EqualValues(t, total-stats.NullCount(), read)
-
-	expected := []bool{
-		true, false, true, true, false, false,
-		true, true, true, false, false, true, true,
-		false, true, true, false, false, true, true,
-		false, true, true, false, false, true, true,
-		true, false, false, false, false, true, true,
-		false, true, true, false, false, true, true,
-		true, false, false, true, true, false, false,
-		true, true, true, false, true, true, false,
-		true, true, false, false, true, true, true,
-	}
-	expectedNulls := []int{2, 15, 23, 38, 48, 60}
-
-	expectedNullIdx := 0
-	for i, v := range defLvls {
-		if expectedNullIdx < len(expectedNulls) && i == expectedNulls[expectedNullIdx] {
-			assert.Zero(t, v)
-			expectedNullIdx++
-		} else {
-			assert.EqualValues(t, 1, v)
-		}
-	}
-
-	assert.Equal(t, expected, values[:len(expected)])
-}
-
-type mockBadReader struct {
-	cnt    int
-	reader *os.File
-}
-
-func (m *mockBadReader) Seek(offset int64, whence int) (int64, error) {
-	return m.reader.Seek(offset, whence)
-}
-
-func (m *mockBadReader) ReadAt(p []byte, off int64) (n int, err error) {
-	if m.cnt == 0 {
-		return 0, fmt.Errorf("mock error")
-	}
-	m.cnt--
-	return m.reader.ReadAt(p, off)
-}
-
-func TestBadReader(t *testing.T) {
-	dir := os.Getenv("PARQUET_TEST_DATA")
-	if dir == "" {
-		t.Skip("no path supplied with PARQUET_TEST_DATA")
-	}
-	require.DirExists(t, dir)
-
-	filePath := path.Join(dir, "byte_stream_split_extended.gzip.parquet")
-	f, err := os.Open(filePath)
-	assert.NoError(t, err)
-	defer f.Close()
-
-	reader := &mockBadReader{
-		cnt:    2,
-		reader: f,
-	}
-	r, err := file.NewParquetReader(reader, file.WithReadProps(&parquet.ReaderProperties{
-		BufferSize:            int64(1024),
-		BufferedStreamEnabled: true,
-	}))
-	assert.NoError(t, err)
-
-	fileReader, err := pqarrow.NewFileReader(r, pqarrow.ArrowReadProperties{}, memory.DefaultAllocator)
-	assert.NoError(t, err)
-
-	columnReader, err := fileReader.GetColumn(context.Background(), 0)
-	assert.NoError(t, err)
-
-	_, err = columnReader.NextBatch(1)
-	assert.ErrorContains(t, err, "mock error") // Expect an error to occur.
-}
-
-func TestByteStreamSplitEncodingFileRead(t *testing.T) {
-	dir := os.Getenv("PARQUET_TEST_DATA")
-	if dir == "" {
-		t.Skip("no path supplied with PARQUET_TEST_DATA")
-	}
-	require.DirExists(t, dir)
-
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	fileReader, err := file.OpenParquetFile(path.Join(dir, "byte_stream_split_extended.gzip.parquet"),
-		false, file.WithReadProps(props))
-	require.NoError(t, err)
-	defer fileReader.Close()
-
-	nRows := 200
-	nCols := 14
-	require.Equal(t, 1, fileReader.NumRowGroups())
-	rgr := fileReader.RowGroup(0)
-	require.EqualValues(t, nRows, rgr.NumRows())
-	require.EqualValues(t, nCols, rgr.NumColumns())
-
-	// Helper to unpack values from column of a specific type
-	getValues := func(rdr file.ColumnChunkReader, typ parquet.Type) any {
-		var (
-			vals  any
-			total int64
-			read  int
-			err   error
-		)
-
-		switch typ {
-		case parquet.Types.FixedLenByteArray:
-			r, ok := rdr.(*file.FixedLenByteArrayColumnChunkReader)
-			require.True(t, ok)
-
-			values := make([]parquet.FixedLenByteArray, nRows)
-			total, read, err = r.ReadBatch(int64(nRows), values, nil, nil)
-			vals = values
-		case parquet.Types.Float:
-			r, ok := rdr.(*file.Float32ColumnChunkReader)
-			require.True(t, ok)
-
-			values := make([]float32, nRows)
-			total, read, err = r.ReadBatch(int64(nRows), values, nil, nil)
-			vals = values
-		case parquet.Types.Double:
-			r, ok := rdr.(*file.Float64ColumnChunkReader)
-			require.True(t, ok)
-
-			values := make([]float64, nRows)
-			total, read, err = r.ReadBatch(int64(nRows), values, nil, nil)
-			vals = values
-		case parquet.Types.Int32:
-			r, ok := rdr.(*file.Int32ColumnChunkReader)
-			require.True(t, ok)
-
-			values := make([]int32, nRows)
-			total, read, err = r.ReadBatch(int64(nRows), values, nil, nil)
-			vals = values
-		case parquet.Types.Int64:
-			r, ok := rdr.(*file.Int64ColumnChunkReader)
-			require.True(t, ok)
-
-			values := make([]int64, nRows)
-			total, read, err = r.ReadBatch(int64(nRows), values, nil, nil)
-			vals = values
-		default:
-			t.Fatalf("unrecognized parquet type: %s", typ)
-		}
-
-		require.NoError(t, err)
-		require.EqualValues(t, nRows, total)
-		require.EqualValues(t, nRows, read)
-
-		return vals
-	}
-
-	// Test conformance against Parquet reference
-	// Expected structure: https://github.com/apache/parquet-testing/blob/1bf4bd39df2135d132451c281754268f03dc1c0e/data/README.md?plain=1#L358
-	for i, tc := range []struct {
-		PhysicalType parquet.Type
-		LogicalType  schema.LogicalType
-	}{
-		{
-			PhysicalType: parquet.Types.FixedLenByteArray,
-			LogicalType:  schema.Float16LogicalType{},
-		},
-		{
-			PhysicalType: parquet.Types.Float,
-			LogicalType:  schema.NoLogicalType{},
-		},
-		{
-			PhysicalType: parquet.Types.Double,
-			LogicalType:  schema.NoLogicalType{},
-		},
-		{
-			PhysicalType: parquet.Types.Int32,
-			LogicalType:  schema.NoLogicalType{},
-		},
-		{
-			PhysicalType: parquet.Types.Int64,
-			LogicalType:  schema.NoLogicalType{},
-		},
-		{
-			PhysicalType: parquet.Types.FixedLenByteArray,
-			LogicalType:  schema.NoLogicalType{},
-		},
-		{
-			PhysicalType: parquet.Types.FixedLenByteArray,
-			LogicalType:  schema.NewDecimalLogicalType(7, 3),
-		},
-	} {
-		t.Run(fmt.Sprintf("(Physical:%s/Logical:%s)", tc.PhysicalType, tc.LogicalType), func(t *testing.T) {
-			// Iterate through pairs of adjacent columns
-			colIdx := 2 * i
-
-			// Read Plain-encoded column
-			rdrPlain, err := rgr.Column(colIdx)
-			require.NoError(t, err)
-
-			// Read ByteStreamSplit-encoded column
-			rdrByteStreamSplit, err := rgr.Column(colIdx + 1)
-			require.NoError(t, err)
-
-			// Logical types match
-			require.True(t, rdrPlain.Descriptor().LogicalType().Equals(tc.LogicalType))
-			require.True(t, rdrByteStreamSplit.Descriptor().LogicalType().Equals(tc.LogicalType))
-
-			// Decoded values match
-			valuesPlain := getValues(rdrPlain, tc.PhysicalType)
-			valuesByteStreamSplit := getValues(rdrByteStreamSplit, tc.PhysicalType)
-			require.Equal(t, valuesPlain, valuesByteStreamSplit)
-		})
-	}
-}
-
-func TestDeltaBinaryPackedMultipleBatches(t *testing.T) {
-	size := 10
-	batchSize := size / 2 // write 2 batches
-
-	// Define the schema for the test data
-	fields := []arrow.Field{
-		{Name: "int64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-	}
-	schema := arrow.NewSchema(fields, nil)
-
-	// Create a record batch with the test data
-	b := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer b.Release()
-
-	for i := 0; i < size; i++ {
-		b.Field(0).(*array.Int64Builder).Append(int64(i))
-	}
-	rec := b.NewRecord()
-	defer rec.Release()
-
-	// Write the data to Parquet using the file writer
-	props := parquet.NewWriterProperties(
-		parquet.WithDictionaryDefault(false),
-		parquet.WithEncoding(parquet.Encodings.DeltaBinaryPacked))
-	writerProps := pqarrow.DefaultWriterProps()
-
-	var buf bytes.Buffer
-	pw, err := pqarrow.NewFileWriter(schema, &buf, props, writerProps)
-	require.NoError(t, err)
-	require.NoError(t, pw.Write(rec))
-	require.NoError(t, pw.Close())
-
-	// Read the data back from the Parquet file
-	reader, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	require.NoError(t, err)
-	defer reader.Close()
-
-	pr, err := pqarrow.NewFileReader(reader, pqarrow.ArrowReadProperties{BatchSize: int64(batchSize)}, memory.DefaultAllocator)
-	require.NoError(t, err)
-
-	rr, err := pr.GetRecordReader(context.Background(), nil, nil)
-	require.NoError(t, err)
-
-	totalRows := 0
-	for rr.Next() {
-		rec := rr.Record()
-		for i := 0; i < int(rec.NumRows()); i++ {
-			col := rec.Column(0).(*array.Int64)
-
-			val := col.Value(i)
-			require.Equal(t, val, int64(totalRows+i))
-		}
-		totalRows += int(rec.NumRows())
-	}
-
-	require.Equalf(t, size, totalRows, "Expected %d rows, but got %d rows", size, totalRows)
-}
-
-// Test read file lz4_raw_compressed.parquet
-// Contents documented at https://github.com/apache/parquet-testing/commit/ddd898958803cb89b7156c6350584d1cda0fe8de
-func TestLZ4RawFileRead(t *testing.T) {
-	dir := os.Getenv("PARQUET_TEST_DATA")
-	if dir == "" {
-		t.Skip("no path supplied with PARQUET_TEST_DATA")
-	}
-	require.DirExists(t, dir)
-
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	fileReader, err := file.OpenParquetFile(path.Join(dir, "lz4_raw_compressed.parquet"),
-		false, file.WithReadProps(props))
-	require.NoError(t, err)
-	defer fileReader.Close()
-
-	nRows := 4
-	nCols := 3
-	require.Equal(t, 1, fileReader.NumRowGroups())
-	rgr := fileReader.RowGroup(0)
-	require.EqualValues(t, nRows, rgr.NumRows())
-	require.EqualValues(t, nCols, rgr.NumColumns())
-
-	rdr, err := rgr.Column(0)
-	require.NoError(t, err)
-
-	rowsInt64, ok := rdr.(*file.Int64ColumnChunkReader)
-	require.True(t, ok)
-
-	valsInt64 := make([]int64, nRows)
-	total, read, err := rowsInt64.ReadBatch(int64(nRows), valsInt64, nil, nil)
-	require.NoError(t, err)
-	require.Equal(t, int64(nRows), total)
-	require.Equal(t, nRows, read)
-
-	expectedValsInt64 := []int64{
-		1593604800,
-		1593604800,
-		1593604801,
-		1593604801,
-	}
-	require.Equal(t, expectedValsInt64, valsInt64)
-
-	rdr, err = rgr.Column(1)
-	require.NoError(t, err)
-
-	rowsByteArray, ok := rdr.(*file.ByteArrayColumnChunkReader)
-	require.True(t, ok)
-
-	valsByteArray := make([]parquet.ByteArray, nRows)
-	total, read, err = rowsByteArray.ReadBatch(int64(nRows), valsByteArray, nil, nil)
-	require.NoError(t, err)
-	require.Equal(t, int64(nRows), total)
-	require.Equal(t, nRows, read)
-
-	expectedValsByteArray := []parquet.ByteArray{
-		[]byte("abc"),
-		[]byte("def"),
-		[]byte("abc"),
-		[]byte("def"),
-	}
-	require.Equal(t, expectedValsByteArray, valsByteArray)
-
-	rdr, err = rgr.Column(2)
-	require.NoError(t, err)
-
-	rowsFloat64, ok := rdr.(*file.Float64ColumnChunkReader)
-	require.True(t, ok)
-
-	valsFloat64 := make([]float64, nRows)
-	total, read, err = rowsFloat64.ReadBatch(int64(nRows), valsFloat64, nil, nil)
-	require.NoError(t, err)
-	require.Equal(t, int64(nRows), total)
-	require.Equal(t, nRows, read)
-
-	expectedValsFloat64 := []float64{
-		42.0,
-		7.7,
-		42.125,
-		7.7,
-	}
-	require.Equal(t, expectedValsFloat64, valsFloat64)
-}
-
-// Test read file lz4_raw_compressed_larger.parquet
-// Contents documented at https://github.com/apache/parquet-testing/commit/ddd898958803cb89b7156c6350584d1cda0fe8de
-func TestLZ4RawLargerFileRead(t *testing.T) {
-	dir := os.Getenv("PARQUET_TEST_DATA")
-	if dir == "" {
-		t.Skip("no path supplied with PARQUET_TEST_DATA")
-	}
-	require.DirExists(t, dir)
-
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	fileReader, err := file.OpenParquetFile(path.Join(dir, "lz4_raw_compressed_larger.parquet"),
-		false, file.WithReadProps(props))
-	require.NoError(t, err)
-	defer fileReader.Close()
-
-	nRows := 10000
-	nCols := 1
-	require.Equal(t, 1, fileReader.NumRowGroups())
-	rgr := fileReader.RowGroup(0)
-	require.EqualValues(t, nRows, rgr.NumRows())
-	require.EqualValues(t, nCols, rgr.NumColumns())
-
-	rdr, err := rgr.Column(0)
-	require.NoError(t, err)
-
-	rows, ok := rdr.(*file.ByteArrayColumnChunkReader)
-	require.True(t, ok)
-
-	vals := make([]parquet.ByteArray, nRows)
-	total, read, err := rows.ReadBatch(int64(nRows), vals, nil, nil)
-	require.NoError(t, err)
-	require.Equal(t, int64(nRows), total)
-	require.Equal(t, nRows, read)
-
-	expectedValsHead := []parquet.ByteArray{
-		[]byte("c7ce6bef-d5b0-4863-b199-8ea8c7fb117b"),
-		[]byte("e8fb9197-cb9f-4118-b67f-fbfa65f61843"),
-		[]byte("885136e1-0aa1-4fdb-8847-63d87b07c205"),
-		[]byte("ce7b2019-8ebe-4906-a74d-0afa2409e5df"),
-		[]byte("a9ee2527-821b-4b71-a926-03f73c3fc8b7"),
-	}
-	require.Equal(t, expectedValsHead, vals[:len(expectedValsHead)])
-}
diff --git a/go/parquet/file/file_writer.go b/go/parquet/file/file_writer.go
deleted file mode 100644
index 6fb64f3b8c315..0000000000000
--- a/go/parquet/file/file_writer.go
+++ /dev/null
@@ -1,304 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"encoding/binary"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-// Writer is the primary interface for writing a parquet file
-type Writer struct {
-	sink           utils.WriteCloserTell
-	open           bool
-	footerFlushed  bool
-	props          *parquet.WriterProperties
-	rowGroups      int
-	nrows          int
-	metadata       metadata.FileMetaDataBuilder
-	fileEncryptor  encryption.FileEncryptor
-	rowGroupWriter *rowGroupWriter
-
-	// The Schema of this writer
-	Schema *schema.Schema
-}
-
-type writerConfig struct {
-	props            *parquet.WriterProperties
-	keyValueMetadata metadata.KeyValueMetadata
-}
-
-type WriteOption func(*writerConfig)
-
-func WithWriterProps(props *parquet.WriterProperties) WriteOption {
-	return func(c *writerConfig) {
-		c.props = props
-	}
-}
-
-func WithWriteMetadata(meta metadata.KeyValueMetadata) WriteOption {
-	return func(c *writerConfig) {
-		c.keyValueMetadata = meta
-	}
-}
-
-// NewParquetWriter returns a Writer that writes to the provided WriteSeeker with the given schema.
-//
-// If props is nil, then the default Writer Properties will be used. If the key value metadata is not nil,
-// it will be added to the file.
-func NewParquetWriter(w io.Writer, sc *schema.GroupNode, opts ...WriteOption) *Writer {
-	config := &writerConfig{}
-	for _, o := range opts {
-		o(config)
-	}
-	if config.props == nil {
-		config.props = parquet.NewWriterProperties()
-	}
-
-	fileSchema := schema.NewSchema(sc)
-	fw := &Writer{
-		props:  config.props,
-		sink:   &utils.TellWrapper{Writer: w},
-		open:   true,
-		Schema: fileSchema,
-	}
-
-	fw.metadata = *metadata.NewFileMetadataBuilder(fw.Schema, fw.props, config.keyValueMetadata)
-	fw.startFile()
-	return fw
-}
-
-// NumColumns returns the number of columns to write as defined by the schema.
-func (fw *Writer) NumColumns() int { return fw.Schema.NumColumns() }
-
-// NumRowGroups returns the current number of row groups that will be written for this file.
-func (fw *Writer) NumRowGroups() int { return fw.rowGroups }
-
-// NumRows returns the current number of rows that have be written
-func (fw *Writer) NumRows() int { return fw.nrows }
-
-// Properties returns the writer properties that are in use for this file.
-func (fw *Writer) Properties() *parquet.WriterProperties { return fw.props }
-
-// AppendBufferedRowGroup appends a rowgroup to the file and returns a writer
-// that buffers the row group in memory allowing writing multiple columns
-// at once to the row group. Data is not flushed out until the row group
-// is closed.
-//
-// When calling Close, all columns must have the same number of rows written.
-func (fw *Writer) AppendBufferedRowGroup() BufferedRowGroupWriter {
-	return fw.appendRowGroup(true)
-}
-
-// AppendRowGroup appends a row group to the file and returns a writer
-// that writes columns to the row group in serial via calling NextColumn.
-//
-// When calling NextColumn, the same number of rows need to have been written
-// to each column before moving on. Otherwise the rowgroup writer will panic.
-func (fw *Writer) AppendRowGroup() SerialRowGroupWriter {
-	return fw.appendRowGroup(false)
-}
-
-func (fw *Writer) appendRowGroup(buffered bool) *rowGroupWriter {
-	if fw.rowGroupWriter != nil {
-		fw.nrows += fw.rowGroupWriter.nrows
-		fw.rowGroupWriter.Close()
-	}
-	fw.rowGroups++
-	fw.footerFlushed = false
-	rgMeta := fw.metadata.AppendRowGroup()
-	fw.rowGroupWriter = newRowGroupWriter(fw.sink, rgMeta, int16(fw.rowGroups)-1, fw.props, buffered, fw.fileEncryptor)
-	return fw.rowGroupWriter
-}
-
-func (fw *Writer) startFile() {
-	encryptionProps := fw.props.FileEncryptionProperties()
-	magic := magicBytes
-	if encryptionProps != nil {
-		// check that all columns in columnEncryptionProperties exist in the schema
-		encryptedCols := encryptionProps.EncryptedColumns()
-		// if columnEncryptionProperties is empty, every column in the file schema will be encrypted with the footer key
-		if len(encryptedCols) != 0 {
-			colPaths := make(map[string]bool)
-			for i := 0; i < fw.Schema.NumColumns(); i++ {
-				colPaths[fw.Schema.Column(i).Path()] = true
-			}
-			for k := range encryptedCols {
-				if _, ok := colPaths[k]; !ok {
-					panic("encrypted column " + k + " not found in file schema")
-				}
-			}
-		}
-
-		fw.fileEncryptor = encryption.NewFileEncryptor(encryptionProps, fw.props.Allocator())
-		if encryptionProps.EncryptedFooter() {
-			magic = magicEBytes
-		}
-	}
-	n, err := fw.sink.Write(magic)
-	if n != 4 || err != nil {
-		panic("failed to write magic number")
-	}
-}
-
-// AppendKeyValueMetadata appends a key/value pair to the existing key/value metadata
-func (fw *Writer) AppendKeyValueMetadata(key string, value string) error {
-	return fw.metadata.AppendKeyValueMetadata(key, value)
-}
-
-// Close closes any open row group writer and writes the file footer. Subsequent
-// calls to close will have no effect.
-func (fw *Writer) Close() (err error) {
-	if fw.open {
-		// if any functions here panic, we set open to be false so
-		// that this doesn't get called again
-		fw.open = false
-
-		defer func() {
-			fw.closeEncryptor()
-			ierr := fw.sink.Close()
-			if err != nil {
-				if ierr != nil {
-					err = fmt.Errorf("error on close:%w, %s", err, ierr)
-				}
-				return
-			}
-
-			err = ierr
-		}()
-
-		err = fw.FlushWithFooter()
-		fw.metadata.Clear()
-	}
-	return nil
-}
-
-// FlushWithFooter closes any open row group writer and writes the file footer, leaving
-// the writer open for additional row groups.  Additional footers written by later
-// calls to FlushWithFooter or Close will be cumulative, so that only the last footer
-// written need ever be read by a reader.
-func (fw *Writer) FlushWithFooter() error {
-	if !fw.footerFlushed {
-		if fw.rowGroupWriter != nil {
-			fw.nrows += fw.rowGroupWriter.nrows
-			fw.rowGroupWriter.Close()
-		}
-		fw.rowGroupWriter = nil
-
-		fileMetadata, err := fw.metadata.Snapshot()
-		if err != nil {
-			return err
-		}
-
-		fileEncryptProps := fw.props.FileEncryptionProperties()
-		if fileEncryptProps == nil { // non encrypted file
-			if _, err = writeFileMetadata(fileMetadata, fw.sink); err != nil {
-				return err
-			}
-		} else {
-			if err := fw.flushEncryptedFile(fileMetadata, fileEncryptProps); err != nil {
-				return err
-			}
-		}
-
-		fw.footerFlushed = true
-	}
-	return nil
-}
-
-func (fw *Writer) flushEncryptedFile(fileMetadata *metadata.FileMetaData, props *parquet.FileEncryptionProperties) error {
-	// encrypted file with encrypted footer
-	if props.EncryptedFooter() {
-		footerLen := int64(0)
-
-		cryptoMetadata := fw.metadata.GetFileCryptoMetaData()
-		n, err := writeFileCryptoMetadata(cryptoMetadata, fw.sink)
-		if err != nil {
-			return err
-		}
-
-		footerLen += n
-		footerEncryptor := fw.fileEncryptor.GetFooterEncryptor()
-		n, err = writeEncryptedFileMetadata(fileMetadata, fw.sink, footerEncryptor, true)
-		if err != nil {
-			return err
-		}
-		footerLen += n
-
-		if err = binary.Write(fw.sink, binary.LittleEndian, uint32(footerLen)); err != nil {
-			return err
-		}
-		if _, err = fw.sink.Write(magicEBytes); err != nil {
-			return err
-		}
-	} else {
-		footerSigningEncryptor := fw.fileEncryptor.GetFooterSigningEncryptor()
-		if _, err := writeEncryptedFileMetadata(fileMetadata, fw.sink, footerSigningEncryptor, false); err != nil {
-			return err
-		}
-	}
-	return nil
-}
-
-func (fw *Writer) closeEncryptor() {
-	if fw.fileEncryptor != nil {
-		fw.fileEncryptor.WipeOutEncryptionKeys()
-	}
-}
-
-func writeFileMetadata(fileMetadata *metadata.FileMetaData, w io.Writer) (n int64, err error) {
-	n, err = fileMetadata.WriteTo(w, nil)
-	if err != nil {
-		return
-	}
-
-	if err = binary.Write(w, binary.LittleEndian, uint32(n)); err != nil {
-		return
-	}
-	if _, err = w.Write(magicBytes); err != nil {
-		return
-	}
-	return n + int64(4+len(magicBytes)), nil
-}
-
-func writeEncryptedFileMetadata(fileMetadata *metadata.FileMetaData, w io.Writer, encryptor encryption.Encryptor, encryptFooter bool) (n int64, err error) {
-	n, err = fileMetadata.WriteTo(w, encryptor)
-	if encryptFooter {
-		return
-	}
-	if err != nil {
-		return
-	}
-	if err = binary.Write(w, binary.LittleEndian, uint32(n)); err != nil {
-		return
-	}
-	if _, err = w.Write(magicBytes); err != nil {
-		return
-	}
-	return n + int64(4+len(magicBytes)), nil
-}
-
-func writeFileCryptoMetadata(crypto *metadata.FileCryptoMetadata, w io.Writer) (int64, error) {
-	return crypto.WriteTo(w)
-}
diff --git a/go/parquet/file/file_writer_test.go b/go/parquet/file/file_writer_test.go
deleted file mode 100644
index 12ac93d1ef4b2..0000000000000
--- a/go/parquet/file/file_writer_test.go
+++ /dev/null
@@ -1,598 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file_test
-
-import (
-	"bytes"
-	"fmt"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-type SerializeTestSuite struct {
-	testutils.PrimitiveTypedTest
-	suite.Suite
-
-	numCols      int
-	numRowGroups int
-	rowsPerRG    int
-	rowsPerBatch int
-}
-
-func (t *SerializeTestSuite) SetupTest() {
-	t.numCols = 4
-	t.numRowGroups = 4
-	t.rowsPerRG = 50
-	t.rowsPerBatch = 10
-	t.SetupSchema(parquet.Repetitions.Optional, t.numCols)
-}
-
-func (t *SerializeTestSuite) fileSerializeTest(codec compress.Compression, expected compress.Compression) {
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-	opts := make([]parquet.WriterProperty, 0)
-	for i := 0; i < t.numCols; i++ {
-		opts = append(opts, parquet.WithCompressionFor(t.Schema.Column(i).Name(), codec))
-	}
-
-	props := parquet.NewWriterProperties(opts...)
-
-	writer := file.NewParquetWriter(sink, t.Schema.Root(), file.WithWriterProps(props))
-	t.GenerateData(int64(t.rowsPerRG))
-
-	t.serializeGeneratedData(writer)
-	writer.FlushWithFooter()
-
-	t.validateSerializedData(writer, sink, expected)
-
-	t.serializeGeneratedData(writer)
-	writer.Close()
-
-	t.numRowGroups *= 2
-	t.validateSerializedData(writer, sink, expected)
-}
-
-func (t *SerializeTestSuite) serializeGeneratedData(writer *file.Writer) {
-	for rg := 0; rg < t.numRowGroups/2; rg++ {
-		rgw := writer.AppendRowGroup()
-		for col := 0; col < t.numCols; col++ {
-			cw, _ := rgw.NextColumn()
-			t.WriteBatchValues(cw, t.DefLevels, nil)
-			cw.Close()
-			// ensure column() api which is specific to bufferedrowgroups cannot be called
-			t.Panics(func() { rgw.(file.BufferedRowGroupWriter).Column(col) })
-		}
-		rgw.Close()
-	}
-
-	// write half buffered row groups
-	for rg := 0; rg < t.numRowGroups/2; rg++ {
-		rgw := writer.AppendBufferedRowGroup()
-		for batch := 0; batch < (t.rowsPerRG / t.rowsPerBatch); batch++ {
-			for col := 0; col < t.numCols; col++ {
-				cw, _ := rgw.Column(col)
-				offset := batch * t.rowsPerBatch
-				t.WriteBatchSubset(t.rowsPerBatch, offset, cw, t.DefLevels[offset:t.rowsPerBatch+offset], nil)
-				// Ensure NextColumn api which is specific to RowGroup cannot be called
-				t.Panics(func() { rgw.(file.SerialRowGroupWriter).NextColumn() })
-			}
-		}
-		for col := 0; col < t.numCols; col++ {
-			cw, _ := rgw.Column(col)
-			cw.Close()
-		}
-		rgw.Close()
-	}
-}
-
-func (t *SerializeTestSuite) validateSerializedData(writer *file.Writer, sink *encoding.BufferWriter, expected compress.Compression) {
-	nrows := t.numRowGroups * t.rowsPerRG
-	t.EqualValues(nrows, writer.NumRows())
-
-	reader, err := file.NewParquetReader(bytes.NewReader(sink.Bytes()))
-	t.NoError(err)
-	t.Equal(t.numCols, reader.MetaData().Schema.NumColumns())
-	t.Equal(t.numRowGroups, reader.NumRowGroups())
-	t.EqualValues(nrows, reader.NumRows())
-
-	for rg := 0; rg < t.numRowGroups; rg++ {
-		rgr := reader.RowGroup(rg)
-		t.Equal(t.numCols, rgr.NumColumns())
-		t.EqualValues(t.rowsPerRG, rgr.NumRows())
-		chunk, _ := rgr.MetaData().ColumnChunk(0)
-		t.Equal(expected, chunk.Compression())
-
-		valuesRead := int64(0)
-
-		for i := 0; i < t.numCols; i++ {
-			chunk, _ := rgr.MetaData().ColumnChunk(i)
-			t.False(chunk.HasIndexPage())
-			t.DefLevelsOut = make([]int16, t.rowsPerRG)
-			t.RepLevelsOut = make([]int16, t.rowsPerRG)
-			colReader, err := rgr.Column(i)
-			t.NoError(err)
-			t.SetupValuesOut(int64(t.rowsPerRG))
-			valuesRead = t.ReadBatch(colReader, int64(t.rowsPerRG), 0, t.DefLevelsOut, t.RepLevelsOut)
-			t.EqualValues(t.rowsPerRG, valuesRead)
-			t.Equal(t.Values, t.ValuesOut)
-			t.Equal(t.DefLevels, t.DefLevelsOut)
-		}
-	}
-}
-
-func (t *SerializeTestSuite) unequalNumRows(maxRows int64, rowsPerCol []int64) {
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	props := parquet.NewWriterProperties()
-	writer := file.NewParquetWriter(sink, t.Schema.Root(), file.WithWriterProps(props))
-	defer writer.Close()
-
-	rgw := writer.AppendRowGroup()
-	t.GenerateData(maxRows)
-	for col := 0; col < t.numCols; col++ {
-		cw, _ := rgw.NextColumn()
-		t.WriteBatchSubset(int(rowsPerCol[col]), 0, cw, t.DefLevels[:rowsPerCol[col]], nil)
-		cw.Close()
-	}
-	err := rgw.Close()
-	t.Error(err)
-	t.ErrorContains(err, "row mismatch for unbuffered row group")
-}
-
-func (t *SerializeTestSuite) unequalNumRowsBuffered(maxRows int64, rowsPerCol []int64) {
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	writer := file.NewParquetWriter(sink, t.Schema.Root())
-	defer writer.Close()
-
-	rgw := writer.AppendBufferedRowGroup()
-	t.GenerateData(maxRows)
-	for col := 0; col < t.numCols; col++ {
-		cw, _ := rgw.Column(col)
-		t.WriteBatchSubset(int(rowsPerCol[col]), 0, cw, t.DefLevels[:rowsPerCol[col]], nil)
-		cw.Close()
-	}
-	err := rgw.Close()
-	t.Error(err)
-	t.ErrorContains(err, "row mismatch for buffered row group")
-}
-
-func (t *SerializeTestSuite) TestZeroRows() {
-	t.NotPanics(func() {
-		sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-		writer := file.NewParquetWriter(sink, t.Schema.Root())
-		defer writer.Close()
-
-		srgw := writer.AppendRowGroup()
-		for col := 0; col < t.numCols; col++ {
-			cw, _ := srgw.NextColumn()
-			cw.Close()
-		}
-		srgw.Close()
-
-		brgw := writer.AppendBufferedRowGroup()
-		for col := 0; col < t.numCols; col++ {
-			cw, _ := brgw.Column(col)
-			cw.Close()
-		}
-		brgw.Close()
-	})
-}
-
-func (t *SerializeTestSuite) TestTooManyColumns() {
-	t.SetupSchema(parquet.Repetitions.Optional, 1)
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	writer := file.NewParquetWriter(sink, t.Schema.Root())
-	rgw := writer.AppendRowGroup()
-
-	rgw.NextColumn()                      // first column
-	t.Panics(func() { rgw.NextColumn() }) // only one column!
-}
-
-func (t *SerializeTestSuite) TestRepeatedTooFewRows() {
-	// optional and repeated, so definition and repetition levels
-	t.SetupSchema(parquet.Repetitions.Repeated, 1)
-	const nrows = 100
-	t.GenerateData(nrows)
-
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	writer := file.NewParquetWriter(sink, t.Schema.Root())
-
-	rgw := writer.AppendRowGroup()
-	t.RepLevels = make([]int16, nrows)
-	for idx := range t.RepLevels {
-		t.RepLevels[idx] = 0
-	}
-
-	cw, _ := rgw.NextColumn()
-	t.WriteBatchValues(cw, t.DefLevels, t.RepLevels)
-	cw.Close()
-
-	t.RepLevels[3] = 1 // this makes it so that values 2 and 3 are a single row
-	// as a result there's one too few rows in the result
-
-	t.Panics(func() {
-		cw, _ = rgw.NextColumn()
-		t.WriteBatchValues(cw, t.DefLevels, t.RepLevels)
-		cw.Close()
-	})
-}
-
-func (t *SerializeTestSuite) TestTooFewRows() {
-	rowsPerCol := []int64{100, 100, 100, 99}
-	t.NotPanics(func() { t.unequalNumRows(100, rowsPerCol) })
-	t.NotPanics(func() { t.unequalNumRowsBuffered(100, rowsPerCol) })
-}
-
-func (t *SerializeTestSuite) TestTooManyRows() {
-	rowsPerCol := []int64{100, 100, 100, 101}
-	t.NotPanics(func() { t.unequalNumRows(101, rowsPerCol) })
-	t.NotPanics(func() { t.unequalNumRowsBuffered(101, rowsPerCol) })
-}
-
-func (t *SerializeTestSuite) TestSmallFile() {
-	codecs := []compress.Compression{
-		compress.Codecs.Uncompressed,
-		compress.Codecs.Snappy,
-		compress.Codecs.Brotli,
-		compress.Codecs.Gzip,
-		compress.Codecs.Zstd,
-		compress.Codecs.Lz4Raw,
-		// compress.Codecs.Lzo,
-	}
-	for _, c := range codecs {
-		t.Run(c.String(), func() {
-			t.NotPanics(func() { t.fileSerializeTest(c, c) })
-		})
-	}
-}
-
-func TestBufferedDisabledDictionary(t *testing.T) {
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	fields := schema.FieldList{schema.NewInt32Node("col", parquet.Repetitions.Required, 1)}
-	sc, _ := schema.NewGroupNode("schema", parquet.Repetitions.Required, fields, 0)
-	props := parquet.NewWriterProperties(parquet.WithDictionaryDefault(false))
-
-	writer := file.NewParquetWriter(sink, sc, file.WithWriterProps(props))
-	rgw := writer.AppendBufferedRowGroup()
-	cwr, _ := rgw.Column(0)
-	cw := cwr.(*file.Int32ColumnChunkWriter)
-	cw.WriteBatch([]int32{1}, nil, nil)
-	rgw.Close()
-	writer.Close()
-
-	buffer := sink.Finish()
-	defer buffer.Release()
-	reader, err := file.NewParquetReader(bytes.NewReader(buffer.Bytes()))
-	assert.NoError(t, err)
-	assert.EqualValues(t, 1, reader.NumRowGroups())
-	rgReader := reader.RowGroup(0)
-	assert.EqualValues(t, 1, rgReader.NumRows())
-	chunk, _ := rgReader.MetaData().ColumnChunk(0)
-	assert.False(t, chunk.HasDictionaryPage())
-}
-
-func TestBufferedMultiPageDisabledDictionary(t *testing.T) {
-	const (
-		valueCount = 10000
-		pageSize   = 16384
-	)
-	var (
-		sink  = encoding.NewBufferWriter(0, memory.DefaultAllocator)
-		props = parquet.NewWriterProperties(parquet.WithDictionaryDefault(false), parquet.WithDataPageSize(pageSize))
-		sc, _ = schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{
-			schema.NewInt32Node("col", parquet.Repetitions.Required, -1),
-		}, -1)
-	)
-
-	writer := file.NewParquetWriter(sink, sc, file.WithWriterProps(props))
-	rgWriter := writer.AppendBufferedRowGroup()
-	cwr, _ := rgWriter.Column(0)
-	cw := cwr.(*file.Int32ColumnChunkWriter)
-	valuesIn := make([]int32, 0, valueCount)
-	for i := int32(0); i < valueCount; i++ {
-		valuesIn = append(valuesIn, (i%100)+1)
-	}
-	cw.WriteBatch(valuesIn, nil, nil)
-	rgWriter.Close()
-	writer.Close()
-	buffer := sink.Finish()
-	defer buffer.Release()
-
-	reader, err := file.NewParquetReader(bytes.NewReader(buffer.Bytes()))
-	assert.NoError(t, err)
-
-	assert.EqualValues(t, 1, reader.NumRowGroups())
-	valuesOut := make([]int32, valueCount)
-
-	for r := 0; r < reader.NumRowGroups(); r++ {
-		rgr := reader.RowGroup(r)
-		assert.EqualValues(t, 1, rgr.NumColumns())
-		assert.EqualValues(t, valueCount, rgr.NumRows())
-
-		var totalRead int64
-		col, err := rgr.Column(0)
-		assert.NoError(t, err)
-		colReader := col.(*file.Int32ColumnChunkReader)
-		for colReader.HasNext() {
-			total, _, _ := colReader.ReadBatch(valueCount-totalRead, valuesOut[totalRead:], nil, nil)
-			totalRead += total
-		}
-		assert.EqualValues(t, valueCount, totalRead)
-		assert.Equal(t, valuesIn, valuesOut)
-	}
-}
-
-func TestAllNulls(t *testing.T) {
-	sc, _ := schema.NewGroupNode("root", parquet.Repetitions.Required, schema.FieldList{
-		schema.NewInt32Node("nulls", parquet.Repetitions.Optional, -1),
-	}, -1)
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-	writer := file.NewParquetWriter(sink, sc)
-	rgw := writer.AppendRowGroup()
-	cwr, _ := rgw.NextColumn()
-	cw := cwr.(*file.Int32ColumnChunkWriter)
-
-	var (
-		values    [3]int32
-		defLevels = [...]int16{0, 0, 0}
-	)
-
-	cw.WriteBatch(values[:], defLevels[:], nil)
-	cw.Close()
-	rgw.Close()
-	writer.Close()
-
-	buffer := sink.Finish()
-	defer buffer.Release()
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	props.BufferedStreamEnabled = true
-
-	reader, err := file.NewParquetReader(bytes.NewReader(buffer.Bytes()), file.WithReadProps(props))
-	assert.NoError(t, err)
-
-	rgr := reader.RowGroup(0)
-	col, err := rgr.Column(0)
-	assert.NoError(t, err)
-	cr := col.(*file.Int32ColumnChunkReader)
-
-	defLevels[0] = -1
-	defLevels[1] = -1
-	defLevels[2] = -1
-	valRead, read, _ := cr.ReadBatch(3, values[:], defLevels[:], nil)
-	assert.EqualValues(t, 3, valRead)
-	assert.EqualValues(t, 0, read)
-	assert.Equal(t, []int16{0, 0, 0}, defLevels[:])
-}
-
-func TestKeyValueMetadata(t *testing.T) {
-	fields := schema.FieldList{
-		schema.NewInt32Node("unused", parquet.Repetitions.Optional, -1),
-	}
-	sc, _ := schema.NewGroupNode("root", parquet.Repetitions.Required, fields, -1)
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-	writer := file.NewParquetWriter(sink, sc)
-
-	testKey := "testKey"
-	testValue := "testValue"
-	writer.AppendKeyValueMetadata(testKey, testValue)
-	writer.Close()
-
-	buffer := sink.Finish()
-	defer buffer.Release()
-	props := parquet.NewReaderProperties(memory.DefaultAllocator)
-	props.BufferedStreamEnabled = true
-
-	reader, err := file.NewParquetReader(bytes.NewReader(buffer.Bytes()), file.WithReadProps(props))
-	assert.NoError(t, err)
-
-	metadata := reader.MetaData()
-	got := metadata.KeyValueMetadata().FindValue(testKey)
-	require.NotNil(t, got)
-	assert.Equal(t, testValue, *got)
-}
-
-func createSerializeTestSuite(typ reflect.Type) suite.TestingSuite {
-	return &SerializeTestSuite{PrimitiveTypedTest: testutils.NewPrimitiveTypedTest(typ)}
-}
-
-func TestSerialize(t *testing.T) {
-	t.Parallel()
-	types := []struct {
-		typ reflect.Type
-	}{
-		{reflect.TypeOf(true)},
-		{reflect.TypeOf(int32(0))},
-		{reflect.TypeOf(int64(0))},
-		{reflect.TypeOf(float32(0))},
-		{reflect.TypeOf(float64(0))},
-		{reflect.TypeOf(parquet.Int96{})},
-		{reflect.TypeOf(parquet.ByteArray{})},
-	}
-	for _, tt := range types {
-		tt := tt
-		t.Run(tt.typ.String(), func(t *testing.T) {
-			t.Parallel()
-			suite.Run(t, createSerializeTestSuite(tt.typ))
-		})
-	}
-}
-
-type errCloseWriter struct {
-	sink *encoding.BufferWriter
-}
-
-func (c *errCloseWriter) Write(p []byte) (n int, err error) {
-	return c.sink.Write(p)
-}
-func (c *errCloseWriter) Close() error {
-	return fmt.Errorf("error during close")
-}
-func (c *errCloseWriter) Bytes() []byte {
-	return c.sink.Bytes()
-}
-
-func TestCloseError(t *testing.T) {
-	fields := schema.FieldList{schema.NewInt32Node("col", parquet.Repetitions.Required, 1)}
-	sc, _ := schema.NewGroupNode("schema", parquet.Repetitions.Required, fields, 0)
-	sink := &errCloseWriter{sink: encoding.NewBufferWriter(0, memory.DefaultAllocator)}
-	writer := file.NewParquetWriter(sink, sc)
-	assert.Error(t, writer.Close())
-}
-
-func TestBatchedByteStreamSplitFileRoundtrip(t *testing.T) {
-	input := []parquet.FixedLenByteArray{
-		{1, 2},
-		{3, 4},
-		{5, 6},
-		{7, 8},
-	}
-
-	size := len(input)
-	chunk := size / 2
-
-	props := parquet.NewWriterProperties(
-		parquet.WithEncoding(parquet.Encodings.ByteStreamSplit),
-		parquet.WithDictionaryDefault(false),
-		parquet.WithBatchSize(int64(chunk)),
-		parquet.WithDataPageSize(int64(size)*2),
-	)
-
-	field, err := schema.NewPrimitiveNodeLogical("f16", parquet.Repetitions.Required, schema.Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2, 1)
-	require.NoError(t, err)
-
-	schema, err := schema.NewGroupNode("test", parquet.Repetitions.Required, schema.FieldList{field}, 0)
-	require.NoError(t, err)
-
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	writer := file.NewParquetWriter(sink, schema, file.WithWriterProps(props))
-
-	rgw := writer.AppendRowGroup()
-	cw, err := rgw.NextColumn()
-	require.NoError(t, err)
-
-	f16ColumnWriter, ok := cw.(*file.FixedLenByteArrayColumnChunkWriter)
-	require.True(t, ok)
-
-	nVals, err := f16ColumnWriter.WriteBatch(input[:chunk], nil, nil)
-	require.NoError(t, err)
-	require.EqualValues(t, chunk, nVals)
-
-	nVals, err = f16ColumnWriter.WriteBatch(input[chunk:], nil, nil)
-	require.NoError(t, err)
-	require.EqualValues(t, chunk, nVals)
-
-	require.NoError(t, cw.Close())
-	require.NoError(t, rgw.Close())
-	require.NoError(t, writer.Close())
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(sink.Bytes()))
-	require.NoError(t, err)
-
-	require.Equal(t, 1, rdr.NumRowGroups())
-	require.EqualValues(t, size, rdr.NumRows())
-
-	rgr := rdr.RowGroup(0)
-	cr, err := rgr.Column(0)
-	require.NoError(t, err)
-
-	f16ColumnReader, ok := cr.(*file.FixedLenByteArrayColumnChunkReader)
-	require.True(t, ok)
-
-	output := make([]parquet.FixedLenByteArray, size)
-
-	total, valuesRead, err := f16ColumnReader.ReadBatch(int64(chunk), output[:chunk], nil, nil)
-	require.NoError(t, err)
-	require.EqualValues(t, chunk, total)
-	require.EqualValues(t, chunk, valuesRead)
-
-	total, valuesRead, err = f16ColumnReader.ReadBatch(int64(chunk), output[chunk:], nil, nil)
-	require.NoError(t, err)
-	require.EqualValues(t, chunk, total)
-	require.EqualValues(t, chunk, valuesRead)
-
-	require.Equal(t, input, output)
-
-	require.NoError(t, rdr.Close())
-}
-
-func TestLZ4RawFileRoundtrip(t *testing.T) {
-	input := []int64{
-		-1, 0, 1, 2, 3, 4, 5, 123456789, -123456789,
-	}
-
-	size := len(input)
-
-	field, err := schema.NewPrimitiveNodeLogical("int64", parquet.Repetitions.Required, nil, parquet.Types.Int64, 0, 1)
-	require.NoError(t, err)
-
-	schema, err := schema.NewGroupNode("test", parquet.Repetitions.Required, schema.FieldList{field}, 0)
-	require.NoError(t, err)
-
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	writer := file.NewParquetWriter(sink, schema, file.WithWriterProps(parquet.NewWriterProperties(parquet.WithCompression(compress.Codecs.Lz4Raw))))
-
-	rgw := writer.AppendRowGroup()
-	cw, err := rgw.NextColumn()
-	require.NoError(t, err)
-
-	i64ColumnWriter, ok := cw.(*file.Int64ColumnChunkWriter)
-	require.True(t, ok)
-
-	nVals, err := i64ColumnWriter.WriteBatch(input, nil, nil)
-	require.NoError(t, err)
-	require.EqualValues(t, size, nVals)
-
-	require.NoError(t, cw.Close())
-	require.NoError(t, rgw.Close())
-	require.NoError(t, writer.Close())
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(sink.Bytes()))
-	require.NoError(t, err)
-
-	require.Equal(t, 1, rdr.NumRowGroups())
-	require.EqualValues(t, size, rdr.NumRows())
-
-	rgr := rdr.RowGroup(0)
-	cr, err := rgr.Column(0)
-	require.NoError(t, err)
-
-	i64ColumnReader, ok := cr.(*file.Int64ColumnChunkReader)
-	require.True(t, ok)
-
-	output := make([]int64, size)
-
-	total, valuesRead, err := i64ColumnReader.ReadBatch(int64(size), output, nil, nil)
-	require.NoError(t, err)
-	require.EqualValues(t, size, total)
-	require.EqualValues(t, size, valuesRead)
-
-	require.Equal(t, input, output)
-
-	require.NoError(t, rdr.Close())
-}
diff --git a/go/parquet/file/level_conversion.go b/go/parquet/file/level_conversion.go
deleted file mode 100755
index 29aa613de0db6..0000000000000
--- a/go/parquet/file/level_conversion.go
+++ /dev/null
@@ -1,267 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"fmt"
-	"math"
-	"math/bits"
-	"unsafe"
-
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/bmi"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-type LevelInfo struct {
-	// How many slots an undefined but present (i.e. null) element in
-	// parquet consumes when decoding to Arrow.
-	// "Slot" is used in the same context as the Arrow specification
-	// (i.e. a value holder).
-	// This is only ever >1 for descendents of FixedSizeList.
-	NullSlotUsage int32
-	// The definition level at which the value for the field
-	// is considered not null (definition levels greater than
-	// or equal to this value indicate a not-null
-	// value for the field). For list fields definition levels
-	// greater than or equal to this field indicate a present,
-	// possibly null, child value.
-	DefLevel int16
-	// The repetition level corresponding to this element
-	// or the closest repeated ancestor.  Any repetition
-	// level less than this indicates either a new list OR
-	// an empty list (which is determined in conjunction
-	// with definition levels).
-	RepLevel int16
-	// The definition level indicating the level at which the closest
-	// repeated ancestor is not empty.  This is used to discriminate
-	// between a value less than |def_level| being null or excluded entirely.
-	// For instance if we have an arrow schema like:
-	// list(struct(f0: int)).  Then then there are the following
-	// definition levels:
-	//   0 = null list
-	//   1 = present but empty list.
-	//   2 = a null value in the list
-	//   3 = a non null struct but null integer.
-	//   4 = a present integer.
-	// When reconstructing, the struct and integer arrays'
-	// repeated_ancestor_def_level would be 2.  Any
-	// def_level < 2 indicates that there isn't a corresponding
-	// child value in the list.
-	// i.e. [null, [], [null], [{f0: null}], [{f0: 1}]]
-	// has the def levels [0, 1, 2, 3, 4].  The actual
-	// struct array is only of length 3: [not-set, set, set] and
-	// the int array is also of length 3: [N/A, null, 1].
-	RepeatedAncestorDefLevel int16
-}
-
-func (l *LevelInfo) Equal(rhs *LevelInfo) bool {
-	return l.NullSlotUsage == rhs.NullSlotUsage &&
-		l.DefLevel == rhs.DefLevel &&
-		l.RepLevel == rhs.RepLevel &&
-		l.RepeatedAncestorDefLevel == rhs.RepeatedAncestorDefLevel
-}
-
-func (l *LevelInfo) HasNullableValues() bool {
-	return l.RepeatedAncestorDefLevel < l.DefLevel
-}
-
-func (l *LevelInfo) IncrementOptional() {
-	l.DefLevel++
-}
-
-func (l *LevelInfo) IncrementRepeated() int16 {
-	lastRepAncestor := l.RepeatedAncestorDefLevel
-	// Repeated fields add both a repetition and definition level. This is used
-	// to distinguish between an empty list and a list with an item in it.
-	l.RepLevel++
-	l.DefLevel++
-
-	// For levels >= repeated_ancestor_def_level it indicates the list was
-	// non-null and had at least one element.  This is important
-	// for later decoding because we need to add a slot for these
-	// values.  for levels < current_def_level no slots are added
-	// to arrays.
-	l.RepeatedAncestorDefLevel = l.DefLevel
-	return lastRepAncestor
-}
-
-func (l *LevelInfo) Increment(n schema.Node) {
-	switch n.RepetitionType() {
-	case parquet.Repetitions.Repeated:
-		l.IncrementRepeated()
-	case parquet.Repetitions.Optional:
-		l.IncrementOptional()
-	}
-}
-
-// Input/Output structure for reconstructed validity bitmaps.
-type ValidityBitmapInputOutput struct {
-	// Input only.
-	// The maximum number of values_read expected (actual
-	// values read must be less than or equal to this value).
-	// If this number is exceeded methods will throw a
-	// ParquetException. Exceeding this limit indicates
-	// either a corrupt or incorrectly written file.
-	ReadUpperBound int64
-	// Output only. The number of values added to the encountered
-	// (this is logically the count of the number of elements
-	// for an Arrow array).
-	Read int64
-	// Input/Output. The number of nulls encountered.
-	NullCount int64
-	// Output only. The validity bitmap to populate. May be be null only
-	// for DefRepLevelsToListInfo (if all that is needed is list offsets).
-	ValidBits []byte
-	// Input only, offset into valid_bits to start at.
-	ValidBitsOffset int64
-}
-
-// create a bitmap out of the definition Levels and return the number of non-null values
-func defLevelsBatchToBitmap(defLevels []int16, remainingUpperBound int64, info LevelInfo, wr utils.BitmapWriter, hasRepeatedParent bool) (count uint64) {
-	const maxbatch = 8 * int(unsafe.Sizeof(uint64(0)))
-
-	if !hasRepeatedParent && int64(len(defLevels)) > remainingUpperBound {
-		panic("values read exceed upper bound")
-	}
-
-	var batch []int16
-	for len(defLevels) > 0 {
-		batchSize := shared_utils.Min(maxbatch, len(defLevels))
-		batch, defLevels = defLevels[:batchSize], defLevels[batchSize:]
-		definedBitmap := bmi.GreaterThanBitmap(batch, info.DefLevel-1)
-
-		if hasRepeatedParent {
-			// Greater than level_info.repeated_ancestor_def_level - 1 implies >= the
-			// repeated_ancestor_def_level
-			presentBitmap := bmi.GreaterThanBitmap(batch, info.RepeatedAncestorDefLevel-1)
-			selectedBits := bmi.ExtractBits(definedBitmap, presentBitmap)
-			selectedCount := int64(bits.OnesCount64(presentBitmap))
-			if selectedCount > remainingUpperBound {
-				panic("values read exceeded upper bound")
-			}
-			wr.AppendWord(selectedBits, selectedCount)
-			count += uint64(bits.OnesCount64(selectedBits))
-			continue
-		}
-
-		wr.AppendWord(definedBitmap, int64(len(batch)))
-		count += uint64(bits.OnesCount64(definedBitmap))
-	}
-	return
-}
-
-// create a bitmap out of the definition Levels
-func defLevelsToBitmapInternal(defLevels []int16, info LevelInfo, out *ValidityBitmapInputOutput, hasRepeatedParent bool) {
-	wr := utils.NewFirstTimeBitmapWriter(out.ValidBits, out.ValidBitsOffset, int64(out.ReadUpperBound))
-	defer wr.Finish()
-	setCount := defLevelsBatchToBitmap(defLevels, out.ReadUpperBound, info, wr, hasRepeatedParent)
-	out.Read = int64(wr.Pos())
-	out.NullCount += out.Read - int64(setCount)
-}
-
-// DefLevelsToBitmap creates a validitybitmap out of the passed in definition levels and info object.
-func DefLevelsToBitmap(defLevels []int16, info LevelInfo, out *ValidityBitmapInputOutput) {
-	hasRepeatedParent := false
-	if info.RepLevel > 0 {
-		hasRepeatedParent = true
-	}
-	defLevelsToBitmapInternal(defLevels, info, out, hasRepeatedParent)
-}
-
-// DefRepLevelsToListInfo takes in the definition and repetition levels in order to populate the validity bitmap
-// and properly handle nested lists and update the offsets for them.
-func DefRepLevelsToListInfo(defLevels, repLevels []int16, info LevelInfo, out *ValidityBitmapInputOutput, offsets []int32) error {
-	var wr utils.BitmapWriter
-	if out.ValidBits != nil {
-		wr = utils.NewFirstTimeBitmapWriter(out.ValidBits, out.ValidBitsOffset, out.ReadUpperBound)
-		defer wr.Finish()
-	}
-	offsetPos := 0
-	for idx := range defLevels {
-		// skip items that belong to empty or null ancestor lists and further nested lists
-		if defLevels[idx] < info.RepeatedAncestorDefLevel || repLevels[idx] > info.RepLevel {
-			continue
-		}
-
-		if repLevels[idx] == info.RepLevel {
-			// continuation of an existing list.
-			// offsets can be null for structs with repeated children
-			if offsetPos < len(offsets) {
-				if offsets[offsetPos] == math.MaxInt32 {
-					return xerrors.New("list index overflow")
-				}
-				offsets[offsetPos]++
-			}
-		} else {
-			if (wr != nil && int64(wr.Pos()) >= out.ReadUpperBound) || (offsetPos >= int(out.ReadUpperBound)) {
-				return fmt.Errorf("definition levels exceeded upper bound: %d", out.ReadUpperBound)
-			}
-
-			// current_rep < list rep_level i.e. start of a list (ancestor empty lists
-			// are filtered out above)
-			// offsets can be null for structs with repeated children
-			if offsetPos+1 < len(offsets) {
-				offsetPos++
-				// use cumulative offsets because variable size lists are more common
-				// than fixed size lists so it should be cheaper to make these
-				// cumulative and subtract when validating fixed size lists
-				offsets[offsetPos] = offsets[offsetPos-1]
-				if defLevels[idx] >= info.DefLevel {
-					if offsets[offsetPos] == math.MaxInt32 {
-						return xerrors.New("list index overflow")
-					}
-					offsets[offsetPos]++
-				}
-			}
-
-			if wr != nil {
-				// the level info def level for lists reflects element present level
-				// the prior level distinguishes between empty lists
-				if defLevels[idx] >= info.DefLevel-1 {
-					wr.Set()
-				} else {
-					out.NullCount++
-					wr.Clear()
-				}
-				wr.Next()
-			}
-		}
-	}
-
-	if len(offsets) > 0 {
-		out.Read = int64(offsetPos)
-	} else if wr != nil {
-		out.Read = int64(wr.Pos())
-	}
-
-	if out.NullCount > 0 && info.NullSlotUsage > 1 {
-		return xerrors.New("null values with null_slot_usage > 1 not supported.")
-	}
-	return nil
-}
-
-// DefRepLevelsToBitmap constructs a full validitybitmap out of the definition and repetition levels
-// properly handling nested lists and parents.
-func DefRepLevelsToBitmap(defLevels, repLevels []int16, info LevelInfo, out *ValidityBitmapInputOutput) error {
-	info.RepLevel++
-	info.DefLevel++
-	return DefRepLevelsToListInfo(defLevels, repLevels, info, out, nil)
-}
diff --git a/go/parquet/file/level_conversion_test.go b/go/parquet/file/level_conversion_test.go
deleted file mode 100644
index 740c0e674469b..0000000000000
--- a/go/parquet/file/level_conversion_test.go
+++ /dev/null
@@ -1,194 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/parquet/internal/bmi"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/stretchr/testify/assert"
-)
-
-func bitmapToString(bitmap []byte, bitCount int64) string {
-	var bld strings.Builder
-	bld.Grow(int(bitCount))
-	for i := 0; i < int(bitCount); i++ {
-		if bitutil.BitIsSet(bitmap, i) {
-			bld.WriteByte('1')
-		} else {
-			bld.WriteByte('0')
-		}
-	}
-	return bld.String()
-}
-
-func TestDefLevelsToBitmap(t *testing.T) {
-	defLevels := []int16{3, 3, 3, 2, 3, 3, 3, 3, 3}
-	validBits := []byte{2, 0}
-
-	var info LevelInfo
-	info.DefLevel = 3
-	info.RepLevel = 1
-
-	var io ValidityBitmapInputOutput
-	io.ReadUpperBound = int64(len(defLevels))
-	io.Read = -1
-	io.ValidBits = validBits
-
-	DefLevelsToBitmap(defLevels, info, &io)
-	assert.Equal(t, int64(9), io.Read)
-	assert.Equal(t, int64(1), io.NullCount)
-
-	// call again with 0 definition levels make sure that valid bits is unmodified
-	curByte := validBits[1]
-	io.NullCount = 0
-	DefLevelsToBitmap(defLevels[:0], info, &io)
-
-	assert.Zero(t, io.Read)
-	assert.Zero(t, io.NullCount)
-	assert.Equal(t, curByte, validBits[1])
-}
-
-func TestDefLevelsToBitmapPowerOf2(t *testing.T) {
-	defLevels := []int16{3, 3, 3, 2, 3, 3, 3, 3}
-	validBits := []byte{1, 0}
-
-	var (
-		info LevelInfo
-		io   ValidityBitmapInputOutput
-	)
-
-	info.RepLevel = 1
-	info.DefLevel = 3
-	io.Read = -1
-	io.ReadUpperBound = int64(len(defLevels))
-	io.ValidBits = validBits
-
-	DefLevelsToBitmap(defLevels[4:8], info, &io)
-	assert.Equal(t, int64(4), io.Read)
-	assert.Zero(t, io.NullCount)
-}
-
-func TestGreaterThanBitmapGeneratesExpectedBitmasks(t *testing.T) {
-	defLevels := []int16{
-		0, 1, 2, 3, 4, 5, 6, 7, 0, 1, 2, 3, 4, 5, 6, 7,
-		0, 1, 2, 3, 4, 5, 6, 7, 0, 1, 2, 3, 4, 5, 6, 7,
-		0, 1, 2, 3, 4, 5, 6, 7, 0, 1, 2, 3, 4, 5, 6, 7,
-		0, 1, 2, 3, 4, 5, 6, 7, 0, 1, 2, 3, 4, 5, 6, 7}
-
-	tests := []struct {
-		name     string
-		num      int
-		rhs      int16
-		expected uint64
-	}{
-		{"no levels", 0, 0, 0},
-		{"64 and 8", 64, 8, 0},
-		{"64 and -1", 64, -1, 0xFFFFFFFFFFFFFFFF},
-		// should be zero padded
-		{"zero pad 47, -1", 47, -1, 0x7FFFFFFFFFFF},
-		{"zero pad 64 and 6", 64, 6, 0x8080808080808080},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.Equal(t, tt.expected, bmi.GreaterThanBitmap(defLevels[:tt.num], tt.rhs))
-		})
-	}
-}
-
-func TestWithRepetitionlevelFiltersOutEmptyListValues(t *testing.T) {
-	validityBitmap := make([]byte, 8)
-	io := ValidityBitmapInputOutput{
-		ReadUpperBound:  64,
-		Read:            1,
-		NullCount:       5,
-		ValidBits:       validityBitmap,
-		ValidBitsOffset: 1,
-	}
-
-	info := LevelInfo{
-		RepeatedAncestorDefLevel: 1,
-		DefLevel:                 2,
-		RepLevel:                 1,
-	}
-
-	defLevels := []int16{0, 0, 0, 2, 2, 1, 0, 2}
-	DefLevelsToBitmap(defLevels, info, &io)
-
-	assert.Equal(t, bitmapToString(validityBitmap, 8), "01101000")
-	for _, x := range validityBitmap[1:] {
-		assert.Zero(t, x)
-	}
-	assert.EqualValues(t, 6, io.NullCount)
-	assert.EqualValues(t, 4, io.Read)
-}
-
-type MultiLevelTestData struct {
-	defLevels []int16
-	repLevels []int16
-}
-
-func TriplNestedList() MultiLevelTestData {
-	// Triply nested list values borrow from write_path
-	// [null, [[1, null, 3], []], []],
-	// [[[]], [[], [1, 2]], null, [[3]]],
-	// null,
-	// []
-	return MultiLevelTestData{
-		defLevels: []int16{2, 7, 6, 7, 5, 3, // first row
-			5, 5, 7, 7, 2, 7, // second row
-			0, // third row
-			1},
-		repLevels: []int16{0, 1, 3, 3, 2, 1, // first row
-			0, 1, 2, 3, 1, 1, // second row
-			0, 0},
-	}
-}
-
-func TestActualCase(t *testing.T) {
-	out := make([]byte, 512)
-	defs := make([]int16, 64)
-	for i := range defs {
-		defs[i] = 3
-	}
-
-	defs[0] = 0
-	defs[25] = 0
-	defs[33] = 0
-	defs[49] = 0
-	defs[58] = 0
-	defs[59] = 0
-	defs[60] = 0
-	defs[61] = 0
-
-	remaining := int64(4096)
-	info := LevelInfo{
-		NullSlotUsage:            0,
-		DefLevel:                 3,
-		RepLevel:                 1,
-		RepeatedAncestorDefLevel: 2,
-	}
-
-	wr := utils.NewFirstTimeBitmapWriter(out, 0, 4096)
-	v := defLevelsBatchToBitmap(defs, remaining, info, wr, true)
-	assert.EqualValues(t, 56, v)
-	assert.Equal(t, []byte{255, 255, 255, 255}, out[:4])
-}
diff --git a/go/parquet/file/page_reader.go b/go/parquet/file/page_reader.go
deleted file mode 100644
index 91dcc3c66aa5d..0000000000000
--- a/go/parquet/file/page_reader.go
+++ /dev/null
@@ -1,617 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"bytes"
-	"fmt"
-	"io"
-	"sync"
-
-	"github.com/JohnCGriffin/overflow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"golang.org/x/xerrors"
-)
-
-// PageReader is the interface used by the columnreader in order to read
-// and handle DataPages and loop through them.
-type PageReader interface {
-	// Set the maximum Page header size allowed to be read
-	SetMaxPageHeaderSize(int)
-	// Return the current page, or nil if there are no more
-	Page() Page
-	// Fetch the next page, returns false if there are no more pages
-	Next() bool
-	// if Next returns false, Err will return the error encountered or
-	// nil if there was no error and you just hit the end of the page
-	Err() error
-	// Reset allows reusing a page reader
-	Reset(r parquet.BufferedReader, nrows int64, compressType compress.Compression, ctx *CryptoContext)
-}
-
-// Page is an interface for handling DataPages or Dictionary Pages
-type Page interface {
-	// Returns which kind of page this is
-	Type() format.PageType
-	// Get the raw bytes of this page
-	Data() []byte
-	// return the encoding used for this page, Plain/RLE, etc.
-	Encoding() format.Encoding
-	// get the number of values in this page
-	NumValues() int32
-	// release this page object back into the page pool for re-use
-	Release()
-}
-
-type page struct {
-	buf *memory.Buffer
-	typ format.PageType
-
-	nvals    int32
-	encoding format.Encoding
-}
-
-func (p *page) Type() format.PageType     { return p.typ }
-func (p *page) Data() []byte              { return p.buf.Bytes() }
-func (p *page) NumValues() int32          { return p.nvals }
-func (p *page) Encoding() format.Encoding { return p.encoding }
-
-// DataPage is the base interface for both DataPageV1 and DataPageV2 of the
-// parquet spec.
-type DataPage interface {
-	Page
-	UncompressedSize() int32
-	Statistics() metadata.EncodedStatistics
-}
-
-// Create some pools to use for reusing the data page objects themselves so that
-// we can avoid tight loops that are creating and destroying tons of individual
-// objects. This combined with a Release function on the pages themselves
-// which will put them back into the pool yields significant memory reduction
-// and performance benefits
-
-var dataPageV1Pool = sync.Pool{
-	New: func() interface{} { return (*DataPageV1)(nil) },
-}
-
-var dataPageV2Pool = sync.Pool{
-	New: func() interface{} { return (*DataPageV2)(nil) },
-}
-
-var dictPagePool = sync.Pool{
-	New: func() interface{} { return (*DictionaryPage)(nil) },
-}
-
-// DataPageV1 represents a DataPage version 1 from the parquet.thrift file
-type DataPageV1 struct {
-	page
-
-	defLvlEncoding   format.Encoding
-	repLvlEncoding   format.Encoding
-	uncompressedSize int32
-	statistics       metadata.EncodedStatistics
-}
-
-// NewDataPageV1 returns a V1 data page with the given buffer as its data and the specified encoding information
-//
-// Will utilize objects that have been released back into the data page pool and
-// re-use them if available as opposed to creating new objects. Calling Release on the
-// data page object will release it back to the pool for re-use.
-func NewDataPageV1(buffer *memory.Buffer, num int32, encoding, defEncoding, repEncoding parquet.Encoding, uncompressedSize int32) *DataPageV1 {
-	dp := dataPageV1Pool.Get().(*DataPageV1)
-	if dp == nil {
-		return &DataPageV1{
-			page:             page{buf: buffer, typ: format.PageType_DATA_PAGE, nvals: num, encoding: format.Encoding(encoding)},
-			defLvlEncoding:   format.Encoding(defEncoding),
-			repLvlEncoding:   format.Encoding(repEncoding),
-			uncompressedSize: uncompressedSize,
-		}
-	}
-
-	dp.buf, dp.nvals = buffer, num
-	dp.encoding = format.Encoding(encoding)
-	dp.defLvlEncoding, dp.repLvlEncoding = format.Encoding(defEncoding), format.Encoding(repEncoding)
-	dp.statistics.HasMax, dp.statistics.HasMin = false, false
-	dp.statistics.HasNullCount, dp.statistics.HasDistinctCount = false, false
-	dp.uncompressedSize = uncompressedSize
-	return dp
-}
-
-// NewDataPageV1WithStats is the same as NewDataPageV1, but also allows adding the stat info into the created page
-func NewDataPageV1WithStats(buffer *memory.Buffer, num int32, encoding, defEncoding, repEncoding parquet.Encoding, uncompressedSize int32, stats metadata.EncodedStatistics) *DataPageV1 {
-	ret := NewDataPageV1(buffer, num, encoding, defEncoding, repEncoding, uncompressedSize)
-	ret.statistics = stats
-	return ret
-}
-
-// Release this page back into the DataPage object pool so that it can be reused.
-//
-// After calling this function, the object should not be utilized anymore, otherwise
-// conflicts can arise.
-func (d *DataPageV1) Release() {
-	d.buf.Release()
-	d.buf = nil
-	dataPageV1Pool.Put(d)
-}
-
-// UncompressedSize returns the size of the data in this data page when uncompressed
-func (d *DataPageV1) UncompressedSize() int32 { return d.uncompressedSize }
-
-// Statistics returns the encoded statistics on this data page
-func (d *DataPageV1) Statistics() metadata.EncodedStatistics { return d.statistics }
-
-// DefinitionLevelEncoding returns the encoding utilized for the Definition Levels
-func (d *DataPageV1) DefinitionLevelEncoding() parquet.Encoding {
-	return parquet.Encoding(d.defLvlEncoding)
-}
-
-// RepetitionLevelEncoding returns the encoding utilized for the Repetition Levels
-func (d *DataPageV1) RepetitionLevelEncoding() parquet.Encoding {
-	return parquet.Encoding(d.repLvlEncoding)
-}
-
-// DataPageV2 is the representation of the V2 data page from the parquet.thrift spec
-type DataPageV2 struct {
-	page
-
-	nulls            int32
-	nrows            int32
-	defLvlByteLen    int32
-	repLvlByteLen    int32
-	compressed       bool
-	uncompressedSize int32
-	statistics       metadata.EncodedStatistics
-}
-
-// NewDataPageV2 constructs a new V2 data page with the provided information and a buffer of the raw data.
-func NewDataPageV2(buffer *memory.Buffer, numValues, numNulls, numRows int32, encoding parquet.Encoding, defLvlsByteLen, repLvlsByteLen, uncompressed int32, isCompressed bool) *DataPageV2 {
-	dp := dataPageV2Pool.Get().(*DataPageV2)
-	if dp == nil {
-		return &DataPageV2{
-			page:             page{buf: buffer, typ: format.PageType_DATA_PAGE_V2, nvals: numValues, encoding: format.Encoding(encoding)},
-			nulls:            numNulls,
-			nrows:            numRows,
-			defLvlByteLen:    defLvlsByteLen,
-			repLvlByteLen:    repLvlsByteLen,
-			compressed:       isCompressed,
-			uncompressedSize: uncompressed,
-		}
-	}
-
-	dp.buf, dp.nvals = buffer, numValues
-	dp.encoding = format.Encoding(encoding)
-	dp.nulls, dp.nrows = numNulls, numRows
-	dp.defLvlByteLen, dp.repLvlByteLen = defLvlsByteLen, repLvlsByteLen
-	dp.compressed, dp.uncompressedSize = isCompressed, uncompressed
-	dp.statistics.HasMax, dp.statistics.HasMin = false, false
-	dp.statistics.HasNullCount, dp.statistics.HasDistinctCount = false, false
-	return dp
-}
-
-// NewDataPageV2WithStats is the same as NewDataPageV2 but allows providing the encoded stats with the page.
-func NewDataPageV2WithStats(buffer *memory.Buffer, numValues, numNulls, numRows int32, encoding parquet.Encoding, defLvlsByteLen, repLvlsByteLen, uncompressed int32, isCompressed bool, stats metadata.EncodedStatistics) *DataPageV2 {
-	ret := NewDataPageV2(buffer, numValues, numNulls, numRows, encoding, defLvlsByteLen, repLvlsByteLen, uncompressed, isCompressed)
-	ret.statistics = stats
-	return ret
-}
-
-// Release this page back into the DataPage object pool so that it can be reused.
-//
-// After calling this function, the object should not be utilized anymore, otherwise
-// conflicts can arise.
-func (d *DataPageV2) Release() {
-	d.buf.Release()
-	d.buf = nil
-	dataPageV2Pool.Put(d)
-}
-
-// UncompressedSize is the size of the raw page when uncompressed. If `IsCompressed` is true, then
-// the raw data in the buffer is expected to be compressed.
-func (d *DataPageV2) UncompressedSize() int32 { return d.uncompressedSize }
-
-// Statistics are the encoded statistics in the data page
-func (d *DataPageV2) Statistics() metadata.EncodedStatistics { return d.statistics }
-
-// NumNulls is the reported number of nulls in this datapage
-func (d *DataPageV2) NumNulls() int32 { return d.nulls }
-
-// NumRows is the number of rows recorded in the page header
-func (d *DataPageV2) NumRows() int32 { return d.nrows }
-
-// DefinitionLevelByteLen is the number of bytes in the buffer that are used to represent the definition levels
-func (d *DataPageV2) DefinitionLevelByteLen() int32 { return d.defLvlByteLen }
-
-// RepetitionLevelByteLen is the number of bytes in the buffer which are used to represent the repetition Levels
-func (d *DataPageV2) RepetitionLevelByteLen() int32 { return d.repLvlByteLen }
-
-// IsCompressed returns true if the data of this page is compressed
-func (d *DataPageV2) IsCompressed() bool { return d.compressed }
-
-// DictionaryPage represents the a page of data that uses dictionary encoding
-type DictionaryPage struct {
-	page
-
-	sorted bool
-}
-
-// NewDictionaryPage constructs a new dictionary page with the provided data buffer and number of values.
-func NewDictionaryPage(buffer *memory.Buffer, nvals int32, encoding parquet.Encoding) *DictionaryPage {
-	dp := dictPagePool.Get().(*DictionaryPage)
-	if dp == nil {
-		return &DictionaryPage{
-			page: page{
-				buf:      buffer,
-				typ:      format.PageType_DICTIONARY_PAGE,
-				nvals:    nvals,
-				encoding: format.Encoding(encoding),
-			},
-		}
-	}
-
-	dp.buf = buffer
-	dp.nvals = nvals
-	dp.encoding = format.Encoding(encoding)
-	dp.sorted = false
-	return dp
-}
-
-// Release this page back into the DataPage object pool so that it can be reused.
-//
-// After calling this function, the object should not be utilized anymore, otherwise
-// conflicts can arise.
-func (d *DictionaryPage) Release() {
-	d.buf.Release()
-	d.buf = nil
-	dictPagePool.Put(d)
-}
-
-// IsSorted returns whether the dictionary itself is sorted
-func (d *DictionaryPage) IsSorted() bool { return d.sorted }
-
-type serializedPageReader struct {
-	r        parquet.BufferedReader
-	nrows    int64
-	rowsSeen int64
-	mem      memory.Allocator
-	codec    compress.Codec
-
-	curPageHdr        *format.PageHeader
-	pageOrd           int16
-	maxPageHeaderSize int
-
-	curPage           Page
-	cryptoCtx         CryptoContext
-	dataPageAad       string
-	dataPageHeaderAad string
-
-	decompressBuffer bytes.Buffer
-	err              error
-}
-
-// NewPageReader returns a page reader for the data which can be read from the provided reader and compression.
-func NewPageReader(r parquet.BufferedReader, nrows int64, compressType compress.Compression, mem memory.Allocator, ctx *CryptoContext) (PageReader, error) {
-	if mem == nil {
-		mem = memory.NewGoAllocator()
-	}
-
-	codec, err := compress.GetCodec(compressType)
-	if err != nil {
-		return nil, err
-	}
-
-	rdr := &serializedPageReader{
-		r:                 r,
-		maxPageHeaderSize: defaultMaxPageHeaderSize,
-		nrows:             nrows,
-		mem:               mem,
-		codec:             codec,
-	}
-	rdr.decompressBuffer.Grow(defaultPageHeaderSize)
-	if ctx != nil {
-		rdr.cryptoCtx = *ctx
-		rdr.initDecryption()
-	}
-	return rdr, nil
-}
-
-func (p *serializedPageReader) Reset(r parquet.BufferedReader, nrows int64, compressType compress.Compression, ctx *CryptoContext) {
-	p.rowsSeen, p.pageOrd, p.nrows = 0, 0, nrows
-	p.curPageHdr, p.curPage, p.err = nil, nil, nil
-	p.r = r
-
-	p.codec, p.err = compress.GetCodec(compressType)
-	if p.err != nil {
-		return
-	}
-	p.decompressBuffer.Reset()
-	if ctx != nil {
-		p.cryptoCtx = *ctx
-		p.initDecryption()
-	} else {
-		p.cryptoCtx = CryptoContext{}
-		p.dataPageAad = ""
-		p.dataPageHeaderAad = ""
-	}
-}
-
-func (p *serializedPageReader) Err() error { return p.err }
-
-func (p *serializedPageReader) SetMaxPageHeaderSize(sz int) {
-	p.maxPageHeaderSize = sz
-}
-
-func (p *serializedPageReader) initDecryption() {
-	if p.cryptoCtx.DataDecryptor != nil {
-		p.dataPageAad = encryption.CreateModuleAad(p.cryptoCtx.DataDecryptor.FileAad(), encryption.DataPageModule,
-			p.cryptoCtx.RowGroupOrdinal, p.cryptoCtx.ColumnOrdinal, -1)
-	}
-	if p.cryptoCtx.MetaDecryptor != nil {
-		p.dataPageHeaderAad = encryption.CreateModuleAad(p.cryptoCtx.MetaDecryptor.FileAad(), encryption.DataPageHeaderModule,
-			p.cryptoCtx.RowGroupOrdinal, p.cryptoCtx.ColumnOrdinal, -1)
-	}
-}
-
-func (p *serializedPageReader) updateDecryption(decrypt encryption.Decryptor, moduleType int8, pageAad string) {
-	if p.cryptoCtx.StartDecryptWithDictionaryPage {
-		aad := encryption.CreateModuleAad(decrypt.FileAad(), moduleType, p.cryptoCtx.RowGroupOrdinal, p.cryptoCtx.ColumnOrdinal, -1)
-		decrypt.UpdateAad(aad)
-	} else {
-		pageaad := []byte(pageAad)
-		encryption.QuickUpdatePageAad(pageaad, p.pageOrd)
-		decrypt.UpdateAad(string(pageaad))
-	}
-}
-
-func (p *serializedPageReader) Page() Page {
-	return p.curPage
-}
-
-func (p *serializedPageReader) decompress(lenCompressed int, buf []byte) ([]byte, error) {
-	p.decompressBuffer.Grow(lenCompressed)
-	if _, err := io.CopyN(&p.decompressBuffer, p.r, int64(lenCompressed)); err != nil {
-		return nil, err
-	}
-
-	data := p.decompressBuffer.Bytes()
-	if p.cryptoCtx.DataDecryptor != nil {
-		data = p.cryptoCtx.DataDecryptor.Decrypt(p.decompressBuffer.Bytes())
-	}
-
-	return p.codec.Decode(buf, data), nil
-}
-
-type dataheader interface {
-	IsSetStatistics() bool
-	GetStatistics() *format.Statistics
-}
-
-func extractStats(dataHeader dataheader) (pageStats metadata.EncodedStatistics) {
-	if dataHeader.IsSetStatistics() {
-		stats := dataHeader.GetStatistics()
-		if stats.IsSetMaxValue() {
-			pageStats.SetMax(stats.GetMaxValue())
-		} else if stats.IsSetMax() {
-			pageStats.SetMax(stats.GetMax())
-		}
-		if stats.IsSetMinValue() {
-			pageStats.SetMin(stats.GetMinValue())
-		} else if stats.IsSetMin() {
-			pageStats.SetMin(stats.GetMin())
-		}
-
-		if stats.IsSetNullCount() {
-			pageStats.SetNullCount(stats.GetNullCount())
-		}
-		if stats.IsSetDistinctCount() {
-			pageStats.SetDistinctCount(stats.GetDistinctCount())
-		}
-	}
-	return
-}
-
-func (p *serializedPageReader) Next() bool {
-	// Loop here because there may be unhandled page types that we skip until
-	// finding a page that we do know what to do with
-	if p.curPage != nil {
-		p.curPage.Release()
-	}
-	p.curPage = nil
-	p.curPageHdr = format.NewPageHeader()
-	p.err = nil
-
-	for p.rowsSeen < p.nrows {
-		allowedPgSz := defaultPageHeaderSize
-		p.decompressBuffer.Reset()
-		for {
-			view, err := p.r.Peek(allowedPgSz)
-			if err != nil && err != io.EOF {
-				p.err = err
-				return false
-			}
-
-			if len(view) == 0 {
-				return false
-			}
-
-			extra := 0
-			if p.cryptoCtx.MetaDecryptor != nil {
-				p.updateDecryption(p.cryptoCtx.MetaDecryptor, encryption.DictPageHeaderModule, p.dataPageHeaderAad)
-				view = p.cryptoCtx.MetaDecryptor.Decrypt(view)
-				extra = p.cryptoCtx.MetaDecryptor.CiphertextSizeDelta()
-			}
-
-			remaining, err := thrift.DeserializeThrift(p.curPageHdr, view)
-			if err != nil {
-				allowedPgSz *= 2
-				if allowedPgSz > p.maxPageHeaderSize {
-					p.err = xerrors.New("parquet: deserializing page header failed")
-					return false
-				}
-				continue
-			}
-
-			p.r.Discard(len(view) - int(remaining) + extra)
-			break
-		}
-
-		lenCompressed := int(p.curPageHdr.GetCompressedPageSize())
-		lenUncompressed := int(p.curPageHdr.GetUncompressedPageSize())
-		if lenCompressed < 0 || lenUncompressed < 0 {
-			p.err = xerrors.New("parquet: invalid page header")
-			return false
-		}
-
-		if p.cryptoCtx.DataDecryptor != nil {
-			p.updateDecryption(p.cryptoCtx.DataDecryptor, encryption.DictPageModule, p.dataPageAad)
-		}
-
-		buf := memory.NewResizableBuffer(p.mem)
-		defer buf.Release()
-		buf.ResizeNoShrink(lenUncompressed)
-
-		switch p.curPageHdr.GetType() {
-		case format.PageType_DICTIONARY_PAGE:
-			p.cryptoCtx.StartDecryptWithDictionaryPage = false
-			dictHeader := p.curPageHdr.GetDictionaryPageHeader()
-			if dictHeader.GetNumValues() < 0 {
-				p.err = xerrors.New("parquet: invalid page header (negative number of values)")
-				return false
-			}
-
-			data, err := p.decompress(lenCompressed, buf.Bytes())
-			if err != nil {
-				p.err = err
-				return false
-			}
-			if len(data) != lenUncompressed {
-				p.err = fmt.Errorf("parquet: metadata said %d bytes uncompressed dictionary page, got %d bytes", lenUncompressed, len(data))
-				return false
-			}
-
-			// make dictionary page
-			p.curPage = &DictionaryPage{
-				page: page{
-					buf:      memory.NewBufferBytes(data),
-					typ:      p.curPageHdr.Type,
-					nvals:    dictHeader.GetNumValues(),
-					encoding: dictHeader.GetEncoding(),
-				},
-				sorted: dictHeader.IsSetIsSorted() && dictHeader.GetIsSorted(),
-			}
-
-		case format.PageType_DATA_PAGE:
-			p.pageOrd++
-			dataHeader := p.curPageHdr.GetDataPageHeader()
-			if dataHeader.GetNumValues() < 0 {
-				p.err = xerrors.New("parquet: invalid page header (negative number of values)")
-				return false
-			}
-
-			p.rowsSeen += int64(dataHeader.GetNumValues())
-			data, err := p.decompress(lenCompressed, buf.Bytes())
-			if err != nil {
-				p.err = err
-				return false
-			}
-			if len(data) != lenUncompressed {
-				p.err = fmt.Errorf("parquet: metadata said %d bytes uncompressed data page, got %d bytes", lenUncompressed, len(data))
-				return false
-			}
-
-			// make datapagev1
-			p.curPage = &DataPageV1{
-				page: page{
-					buf:      memory.NewBufferBytes(data),
-					typ:      p.curPageHdr.Type,
-					nvals:    dataHeader.GetNumValues(),
-					encoding: dataHeader.GetEncoding(),
-				},
-				defLvlEncoding:   dataHeader.GetDefinitionLevelEncoding(),
-				repLvlEncoding:   dataHeader.GetRepetitionLevelEncoding(),
-				uncompressedSize: int32(lenUncompressed),
-				statistics:       extractStats(dataHeader),
-			}
-		case format.PageType_DATA_PAGE_V2:
-			p.pageOrd++
-			dataHeader := p.curPageHdr.GetDataPageHeaderV2()
-			if dataHeader.GetNumValues() < 0 {
-				p.err = xerrors.New("parquet: invalid page header (negative number of values)")
-				return false
-			}
-
-			if dataHeader.GetDefinitionLevelsByteLength() < 0 || dataHeader.GetRepetitionLevelsByteLength() < 0 {
-				p.err = xerrors.New("parquet: invalid page header (negative levels byte length)")
-				return false
-			}
-
-			compressed := dataHeader.GetIsCompressed()
-			// extract stats
-			p.rowsSeen += int64(dataHeader.GetNumValues())
-			levelsBytelen, ok := overflow.Add(int(dataHeader.GetDefinitionLevelsByteLength()), int(dataHeader.GetRepetitionLevelsByteLength()))
-			if !ok {
-				p.err = xerrors.New("parquet: levels size too large (corrupt file?)")
-				return false
-			}
-
-			if compressed {
-				if levelsBytelen > 0 {
-					io.ReadFull(p.r, buf.Bytes()[:levelsBytelen])
-				}
-				if _, p.err = p.decompress(lenCompressed-levelsBytelen, buf.Bytes()[levelsBytelen:]); p.err != nil {
-					return false
-				}
-			} else {
-				io.ReadFull(p.r, buf.Bytes())
-			}
-			buf.Retain()
-
-			if buf.Len() != lenUncompressed {
-				p.err = fmt.Errorf("parquet: metadata said %d bytes uncompressed data page, got %d bytes", lenUncompressed, buf.Len())
-				return false
-			}
-
-			// make datapage v2
-			p.curPage = &DataPageV2{
-				page: page{
-					buf:      buf,
-					typ:      p.curPageHdr.Type,
-					nvals:    dataHeader.GetNumValues(),
-					encoding: dataHeader.GetEncoding(),
-				},
-				nulls:            dataHeader.GetNumNulls(),
-				nrows:            dataHeader.GetNumRows(),
-				defLvlByteLen:    dataHeader.GetDefinitionLevelsByteLength(),
-				repLvlByteLen:    dataHeader.GetRepetitionLevelsByteLength(),
-				compressed:       compressed,
-				uncompressedSize: int32(lenUncompressed),
-				statistics:       extractStats(dataHeader),
-			}
-		default:
-			// we don't know this page type, we're allowed to skip non-data pages
-			continue
-		}
-		return true
-	}
-
-	return false
-}
diff --git a/go/parquet/file/page_writer.go b/go/parquet/file/page_writer.go
deleted file mode 100644
index 82cd37e1a7774..0000000000000
--- a/go/parquet/file/page_writer.go
+++ /dev/null
@@ -1,468 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"bytes"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	libthrift "github.com/apache/thrift/lib/go/thrift"
-	"golang.org/x/xerrors"
-)
-
-// PageWriter is the interface for both serialized and buffered page writers
-type PageWriter interface {
-	// Closes the current page, flushing any buffered data pages/dictionary pages
-	// based on the input parameters. Subsequent calls have no effect.
-	Close(hasDict, fallback bool) error
-	// Write the provided datapage out to the underlying writer
-	WriteDataPage(page DataPage) (int64, error)
-	// Write the provided dictionary page out to the underlying writer
-	WriteDictionaryPage(page *DictionaryPage) (int64, error)
-	// returns true if there is a configured compressor for the data
-	HasCompressor() bool
-	// use the configured compressor and writer properties to compress the data in src
-	// using the buffer buf. Returns the slice of the compressed bytes which may be
-	// the bytes in the provided buffer
-	Compress(buf *bytes.Buffer, src []byte) []byte
-	// Allow reuse of the pagewriter object by resetting it using these values instead
-	// of having to create a new object.
-	Reset(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rgOrdinal, columnOrdinal int16, metaEncryptor, dataEncryptor encryption.Encryptor) error
-}
-
-type serializedPageWriter struct {
-	mem      memory.Allocator
-	metaData *metadata.ColumnChunkMetaDataBuilder
-	sink     utils.WriterTell
-
-	nvalues           int64
-	dictPageOffset    int64
-	dataPageOffset    int64
-	totalUncompressed int64
-	totalCompressed   int64
-	pageOrdinal       int16
-	rgOrdinal         int16
-	columnOrdinal     int16
-
-	compressLevel int
-	compressor    compress.Codec
-	metaEncryptor encryption.Encryptor
-	dataEncryptor encryption.Encryptor
-	encryptionBuf bytes.Buffer
-
-	dataPageAAD       []byte
-	dataPageHeaderAAD []byte
-
-	dictEncodingStats map[parquet.Encoding]int32
-	dataEncodingStats map[parquet.Encoding]int32
-
-	thriftSerializer *thrift.Serializer
-}
-
-func createSerializedPageWriter(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rowGroupOrdinal, columnChunkOrdinal int16, mem memory.Allocator, metaEncryptor, dataEncryptor encryption.Encryptor) (PageWriter, error) {
-	var (
-		compressor compress.Codec
-		err        error
-	)
-	if codec != compress.Codecs.Uncompressed {
-		compressor, err = compress.GetCodec(codec)
-		if err != nil {
-			return nil, err
-		}
-	}
-
-	pgwriter := &serializedPageWriter{
-		sink:              sink,
-		compressor:        compressor,
-		compressLevel:     compressionLevel,
-		metaData:          metadata,
-		rgOrdinal:         rowGroupOrdinal,
-		columnOrdinal:     columnChunkOrdinal,
-		mem:               mem,
-		metaEncryptor:     metaEncryptor,
-		dataEncryptor:     dataEncryptor,
-		dictEncodingStats: make(map[parquet.Encoding]int32),
-		dataEncodingStats: make(map[parquet.Encoding]int32),
-		thriftSerializer:  thrift.NewThriftSerializer(),
-	}
-	if metaEncryptor != nil || dataEncryptor != nil {
-		pgwriter.initEncryption()
-	}
-	return pgwriter, nil
-}
-
-// NewPageWriter returns a page writer using either the buffered or serialized implementations
-func NewPageWriter(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rowGroupOrdinal, columnChunkOrdinal int16, mem memory.Allocator, buffered bool, metaEncryptor, dataEncryptor encryption.Encryptor) (PageWriter, error) {
-	if buffered {
-		return newBufferedPageWriter(sink, codec, compressionLevel, metadata, rowGroupOrdinal, columnChunkOrdinal, mem, metaEncryptor, dataEncryptor)
-	}
-	return createSerializedPageWriter(sink, codec, compressionLevel, metadata, rowGroupOrdinal, columnChunkOrdinal, mem, metaEncryptor, dataEncryptor)
-}
-
-// Reset allows reusing the pagewriter object instead of creating a new one.
-func (pw *serializedPageWriter) Reset(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rowGroupOrdinal, columnChunkOrdinal int16, metaEncryptor, dataEncryptor encryption.Encryptor) error {
-	var (
-		compressor compress.Codec
-		err        error
-	)
-	if codec != compress.Codecs.Uncompressed {
-		compressor, err = compress.GetCodec(codec)
-		if err != nil {
-			return err
-		}
-	}
-
-	pw.sink = sink
-	pw.compressor = compressor
-	pw.compressLevel = compressionLevel
-	pw.metaData = metadata
-	pw.rgOrdinal = rowGroupOrdinal
-	pw.columnOrdinal = columnChunkOrdinal
-	pw.metaEncryptor = metaEncryptor
-	pw.dataEncryptor = dataEncryptor
-	pw.dictEncodingStats = make(map[parquet.Encoding]int32)
-	pw.dataEncodingStats = make(map[parquet.Encoding]int32)
-
-	pw.nvalues = 0
-	pw.dictPageOffset = 0
-	pw.dataPageOffset = 0
-	pw.totalUncompressed = 0
-	pw.totalCompressed = 0
-	pw.pageOrdinal = 0
-
-	if metaEncryptor != nil || dataEncryptor != nil {
-		pw.initEncryption()
-	}
-	return nil
-}
-
-func (pw *serializedPageWriter) initEncryption() {
-	if pw.dataEncryptor != nil {
-		pw.dataPageAAD = []byte(encryption.CreateModuleAad(pw.dataEncryptor.FileAad(), encryption.DataPageModule, pw.rgOrdinal, pw.columnOrdinal, -1))
-	}
-	if pw.metaEncryptor != nil {
-		pw.dataPageHeaderAAD = []byte(encryption.CreateModuleAad(pw.metaEncryptor.FileAad(), encryption.DataPageHeaderModule, pw.rgOrdinal, pw.columnOrdinal, -1))
-	}
-}
-
-func (pw *serializedPageWriter) updateEncryption(moduleType int8) error {
-	switch moduleType {
-	case encryption.ColumnMetaModule:
-		pw.metaEncryptor.UpdateAad(encryption.CreateModuleAad(pw.metaEncryptor.FileAad(), moduleType, pw.rgOrdinal, pw.columnOrdinal, -1))
-	case encryption.DataPageModule:
-		encryption.QuickUpdatePageAad(pw.dataPageAAD, pw.pageOrdinal)
-		pw.dataEncryptor.UpdateAad(string(pw.dataPageAAD))
-	case encryption.DataPageHeaderModule:
-		encryption.QuickUpdatePageAad(pw.dataPageHeaderAAD, pw.pageOrdinal)
-		pw.metaEncryptor.UpdateAad(string(pw.dataPageHeaderAAD))
-	case encryption.DictPageHeaderModule:
-		pw.metaEncryptor.UpdateAad(encryption.CreateModuleAad(pw.metaEncryptor.FileAad(), moduleType, pw.rgOrdinal, pw.columnOrdinal, -1))
-	case encryption.DictPageModule:
-		pw.dataEncryptor.UpdateAad(encryption.CreateModuleAad(pw.dataEncryptor.FileAad(), moduleType, pw.rgOrdinal, pw.columnOrdinal, -1))
-	default:
-		return xerrors.New("unknown module type in updateencryption")
-	}
-	return nil
-}
-
-func (pw *serializedPageWriter) Close(hasDict, fallback bool) error {
-	if pw.metaEncryptor != nil {
-		pw.updateEncryption(encryption.ColumnMetaModule)
-	}
-
-	chunkInfo := metadata.ChunkMetaInfo{
-		NumValues:        pw.nvalues,
-		DictPageOffset:   pw.dictPageOffset,
-		IndexPageOffset:  -1,
-		DataPageOffset:   pw.dataPageOffset,
-		CompressedSize:   pw.totalCompressed,
-		UncompressedSize: pw.totalUncompressed,
-	}
-	encodingStats := metadata.EncodingStats{
-		DictEncodingStats: pw.dictEncodingStats,
-		DataEncodingStats: pw.dataEncodingStats,
-	}
-	pw.metaData.Finish(chunkInfo, hasDict, fallback, encodingStats, pw.metaEncryptor)
-	_, err := pw.metaData.WriteTo(pw.sink)
-	return err
-}
-
-func (pw *serializedPageWriter) Compress(buf *bytes.Buffer, src []byte) []byte {
-	maxCompressed := pw.compressor.CompressBound(int64(len(src)))
-	buf.Grow(int(maxCompressed))
-	return pw.compressor.EncodeLevel(buf.Bytes(), src, pw.compressLevel)
-}
-
-var dataPageV1HeaderPool = sync.Pool{
-	New: func() interface{} { return format.NewDataPageHeader() },
-}
-
-func (pw *serializedPageWriter) setDataPageHeader(pageHdr *format.PageHeader, page *DataPageV1) {
-	pageHdr.Type = format.PageType_DATA_PAGE
-	hdr := dataPageV1HeaderPool.Get().(*format.DataPageHeader)
-	hdr.NumValues = page.nvals
-	hdr.Encoding = page.encoding
-	hdr.DefinitionLevelEncoding = page.defLvlEncoding
-	hdr.RepetitionLevelEncoding = page.repLvlEncoding
-	hdr.Statistics = page.statistics.ToThrift()
-	pageHdr.DataPageHeader = hdr
-	pageHdr.DataPageHeaderV2 = nil
-	pageHdr.DictionaryPageHeader = nil
-}
-
-var dataPageV2HeaderPool = sync.Pool{
-	New: func() interface{} { return format.NewDataPageHeaderV2() },
-}
-
-func (pw *serializedPageWriter) setDataPageV2Header(pageHdr *format.PageHeader, page *DataPageV2) {
-	pageHdr.Type = format.PageType_DATA_PAGE_V2
-	hdr := dataPageV2HeaderPool.Get().(*format.DataPageHeaderV2)
-	hdr.NumValues = page.nvals
-	hdr.NumNulls = page.nulls
-	hdr.NumRows = page.nrows
-	hdr.Encoding = page.encoding
-	hdr.DefinitionLevelsByteLength = page.defLvlByteLen
-	hdr.RepetitionLevelsByteLength = page.repLvlByteLen
-	hdr.IsCompressed = page.compressed
-	hdr.Statistics = page.statistics.ToThrift()
-	pageHdr.DataPageHeaderV2 = hdr
-	pageHdr.DataPageHeader = nil
-	pageHdr.DictionaryPageHeader = nil
-}
-
-func (pw *serializedPageWriter) HasCompressor() bool          { return pw.compressor != nil }
-func (pw *serializedPageWriter) NumValues() int64             { return pw.nvalues }
-func (pw *serializedPageWriter) DictionaryPageOffset() int64  { return pw.dictPageOffset }
-func (pw *serializedPageWriter) DataPageoffset() int64        { return pw.dataPageOffset }
-func (pw *serializedPageWriter) TotalCompressedSize() int64   { return pw.totalCompressed }
-func (pw *serializedPageWriter) TotalUncompressedSize() int64 { return pw.totalUncompressed }
-
-func (pw *serializedPageWriter) WriteDictionaryPage(page *DictionaryPage) (int64, error) {
-	uncompressed := len(page.Data())
-
-	var data []byte
-	if pw.HasCompressor() {
-		var buffer bytes.Buffer
-		data = pw.Compress(&buffer, page.Data())
-		// data = buffer.Bytes()
-	} else {
-		data = page.Data()
-	}
-
-	dictPageHeader := &format.DictionaryPageHeader{
-		NumValues: page.NumValues(),
-		Encoding:  page.Encoding(),
-		IsSorted:  libthrift.BoolPtr(page.IsSorted()),
-	}
-
-	if pw.dataEncryptor != nil {
-		pw.updateEncryption(encryption.DictPageModule)
-		pw.encryptionBuf.Reset()
-		pw.encryptionBuf.Grow(pw.dataEncryptor.CiphertextSizeDelta() + len(data))
-		pw.dataEncryptor.Encrypt(&pw.encryptionBuf, data)
-		data = pw.encryptionBuf.Bytes()
-	}
-
-	pageHdr := pageHeaderPool.Get().(*format.PageHeader)
-	defer pageHeaderPool.Put(pageHdr)
-	pageHdr.Type = format.PageType_DICTIONARY_PAGE
-	pageHdr.UncompressedPageSize = int32(uncompressed)
-	pageHdr.CompressedPageSize = int32(len(data))
-	pageHdr.DictionaryPageHeader = dictPageHeader
-	pageHdr.DataPageHeader = nil
-	pageHdr.DataPageHeaderV2 = nil
-
-	startPos := pw.sink.Tell()
-	if pw.dictPageOffset == 0 {
-		pw.dictPageOffset = int64(startPos)
-	}
-
-	if pw.metaEncryptor != nil {
-		if err := pw.updateEncryption(encryption.DictPageHeaderModule); err != nil {
-			return 0, err
-		}
-	}
-	headerSize, err := pw.thriftSerializer.Serialize(pageHdr, pw.sink, pw.metaEncryptor)
-	if err != nil {
-		return 0, err
-	}
-	written, err := pw.sink.Write(data)
-	if err != nil {
-		return 0, err
-	}
-
-	written += headerSize
-
-	pw.totalUncompressed += int64(uncompressed + headerSize)
-	pw.totalCompressed = int64(written)
-	pw.dictEncodingStats[parquet.Encoding(page.encoding)]++
-	return int64(written), nil
-}
-
-var pageHeaderPool = sync.Pool{
-	New: func() interface{} {
-		return format.NewPageHeader()
-	},
-}
-
-func (pw *serializedPageWriter) WriteDataPage(page DataPage) (int64, error) {
-	uncompressed := page.UncompressedSize()
-	data := page.Data()
-
-	if pw.dataEncryptor != nil {
-		if err := pw.updateEncryption(encryption.DataPageModule); err != nil {
-			return 0, err
-		}
-		pw.encryptionBuf.Reset()
-		pw.encryptionBuf.Grow(pw.dataEncryptor.CiphertextSizeDelta() + len(data))
-		pw.dataEncryptor.Encrypt(&pw.encryptionBuf, data)
-		data = pw.encryptionBuf.Bytes()
-	}
-
-	pageHdr := pageHeaderPool.Get().(*format.PageHeader)
-	defer pageHeaderPool.Put(pageHdr)
-	pageHdr.UncompressedPageSize = uncompressed
-	pageHdr.CompressedPageSize = int32(len(data))
-
-	switch dpage := page.(type) {
-	case *DataPageV1:
-		pw.setDataPageHeader(pageHdr, dpage)
-		defer dataPageV1HeaderPool.Put(pageHdr.DataPageHeader)
-	case *DataPageV2:
-		pw.setDataPageV2Header(pageHdr, dpage)
-		defer dataPageV2HeaderPool.Put(pageHdr.DataPageHeaderV2)
-	default:
-		return 0, xerrors.New("parquet: unexpected page type")
-	}
-
-	startPos := pw.sink.Tell()
-	if pw.pageOrdinal == 0 {
-		pw.dataPageOffset = int64(startPos)
-	}
-
-	if pw.metaEncryptor != nil {
-		if err := pw.updateEncryption(encryption.DataPageHeaderModule); err != nil {
-			return 0, err
-		}
-	}
-	headerSize, err := pw.thriftSerializer.Serialize(pageHdr, pw.sink, pw.metaEncryptor)
-	if err != nil {
-		return 0, err
-	}
-	written, err := pw.sink.Write(data)
-	if err != nil {
-		return int64(written), err
-	}
-	written += headerSize
-
-	pw.totalUncompressed += int64(uncompressed) + int64(headerSize)
-	pw.totalCompressed += int64(written)
-	pw.nvalues += int64(page.NumValues())
-	pw.dataEncodingStats[parquet.Encoding(page.Encoding())]++
-	pw.pageOrdinal++
-	return int64(written), nil
-}
-
-type bufferedPageWriter struct {
-	finalSink          utils.WriterTell
-	inMemSink          *encoding.BufferWriter
-	metadata           *metadata.ColumnChunkMetaDataBuilder
-	pager              *serializedPageWriter
-	hasDictionaryPages bool
-}
-
-func newBufferedPageWriter(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rgOrdinal, columnOrdinal int16, mem memory.Allocator, metaEncryptor, dataEncryptor encryption.Encryptor) (PageWriter, error) {
-	wr := &bufferedPageWriter{
-		finalSink:          sink,
-		metadata:           metadata,
-		hasDictionaryPages: false,
-		inMemSink:          encoding.NewBufferWriter(0, mem),
-	}
-	pager, err := createSerializedPageWriter(wr.inMemSink, codec, compressionLevel, metadata, rgOrdinal, columnOrdinal, mem, metaEncryptor, dataEncryptor)
-	if err != nil {
-		return nil, err
-	}
-	wr.pager = pager.(*serializedPageWriter)
-	return wr, nil
-}
-
-func (bw *bufferedPageWriter) Reset(sink utils.WriterTell, codec compress.Compression, compressionLevel int, metadata *metadata.ColumnChunkMetaDataBuilder, rgOrdinal, columnOrdinal int16, metaEncryptor, dataEncryptor encryption.Encryptor) error {
-	bw.finalSink = sink
-	bw.metadata = metadata
-	bw.hasDictionaryPages = false
-	bw.inMemSink.Reset(0)
-
-	return bw.pager.Reset(bw.inMemSink, codec, compressionLevel, metadata, rgOrdinal, columnOrdinal, metaEncryptor, dataEncryptor)
-}
-
-func (bw *bufferedPageWriter) WriteDictionaryPage(page *DictionaryPage) (int64, error) {
-	bw.hasDictionaryPages = true
-	return bw.pager.WriteDictionaryPage(page)
-}
-
-func (bw *bufferedPageWriter) Close(hasDict, fallback bool) error {
-	if bw.pager.metaEncryptor != nil {
-		bw.pager.updateEncryption(encryption.ColumnMetaModule)
-	}
-
-	position := bw.finalSink.Tell()
-	dictOffset := int64(0)
-	if bw.hasDictionaryPages {
-		dictOffset = bw.pager.DictionaryPageOffset() + position
-	}
-
-	chunkInfo := metadata.ChunkMetaInfo{
-		NumValues:        bw.pager.NumValues(),
-		DictPageOffset:   dictOffset,
-		IndexPageOffset:  -1,
-		DataPageOffset:   bw.pager.DataPageoffset() + position,
-		CompressedSize:   bw.pager.TotalCompressedSize(),
-		UncompressedSize: bw.pager.TotalUncompressedSize(),
-	}
-	encodingStats := metadata.EncodingStats{
-		DictEncodingStats: bw.pager.dictEncodingStats,
-		DataEncodingStats: bw.pager.dataEncodingStats,
-	}
-	bw.metadata.Finish(chunkInfo, hasDict, fallback, encodingStats, bw.pager.metaEncryptor)
-	bw.metadata.WriteTo(bw.inMemSink)
-
-	buf := bw.inMemSink.Finish()
-	defer buf.Release()
-	_, err := bw.finalSink.Write(buf.Bytes())
-	return err
-}
-
-func (bw *bufferedPageWriter) WriteDataPage(page DataPage) (int64, error) {
-	return bw.pager.WriteDataPage(page)
-}
-
-func (bw *bufferedPageWriter) HasCompressor() bool {
-	return bw.pager.HasCompressor()
-}
-
-func (bw *bufferedPageWriter) Compress(buf *bytes.Buffer, src []byte) []byte {
-	return bw.pager.Compress(buf, src)
-}
diff --git a/go/parquet/file/record_reader.go b/go/parquet/file/record_reader.go
deleted file mode 100755
index 765f4a9d34b33..0000000000000
--- a/go/parquet/file/record_reader.go
+++ /dev/null
@@ -1,986 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"fmt"
-	"sync"
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/JohnCGriffin/overflow"
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-// RecordReader is an interface for reading entire records/rows at a time
-// from a parquet file for both flat and nested columns. Properly delimiting
-// semantic records according to the def and repetition levels.
-type RecordReader interface {
-	// DefLevels returns the current crop of definition levels for this record
-	DefLevels() []int16
-	// LevelsPos is the number of definition / repetition levels (from the decoded ones)
-	// which the reader has already consumed.
-	LevelsPos() int64
-	// RepLevels returns the current decoded repetition levels
-	RepLevels() []int16
-	// Reset resets the state, clearing consumed values and repetition/definition
-	// levels as the result of calling ReadRecords
-	Reset()
-	// Reserve pre-allocates space for data
-	Reserve(int64) error
-	// HasMore returns true if there is more internal data which hasn't been
-	// processed yet.
-	HasMore() bool
-	// ReadRecords attempts to read the provided number of records from the
-	// column chunk, returning the number of records read and any error.
-	ReadRecords(num int64) (int64, error)
-	// ValuesWritten is the number of values written internally including any nulls
-	ValuesWritten() int
-	// ReleaseValidBits transfers the buffer of bits for the validity bitmap
-	// to the caller, subsequent calls will allocate a new one in the reader.
-	ReleaseValidBits() *memory.Buffer
-	// ReleaseValues transfers the buffer of data with the values to the caller,
-	// a new buffer will be allocated on subsequent calls.
-	ReleaseValues() *memory.Buffer
-	// NullCount returns the number of nulls decoded
-	NullCount() int64
-	// Type returns the parquet physical type of the column
-	Type() parquet.Type
-	// Values returns the decoded data buffer, including any nulls, without
-	// transferring ownership
-	Values() []byte
-	// SetPageReader allows progressing to the next column chunk while reusing
-	// this record reader by providing the page reader for the next chunk.
-	SetPageReader(PageReader)
-	// Retain increments the ref count by one
-	Retain()
-	// Release decrements the ref count by one, releasing the internal buffers when
-	// the ref count is 0.
-	Release()
-}
-
-// BinaryRecordReader provides an extra GetBuilderChunks function above and beyond
-// the plain RecordReader to allow for efficiently building chunked arrays.
-type BinaryRecordReader interface {
-	RecordReader
-	GetBuilderChunks() []arrow.Array
-	ReadDictionary() bool
-}
-
-// recordReaderImpl is the internal interface implemented for different types
-// enabling reuse of the higher level record reader logic.
-type recordReaderImpl interface {
-	ColumnChunkReader
-	ReadValuesDense(int64) error
-	ReadValuesSpaced(int64, int64) error
-	ReserveValues(int64, bool) error
-	ResetValues()
-	GetValidBits() []byte
-	IncrementWritten(int64, int64)
-	ValuesWritten() int64
-	ReleaseValidBits() *memory.Buffer
-	ReleaseValues() *memory.Buffer
-	NullCount() int64
-	Values() []byte
-	SetPageReader(PageReader)
-	Retain()
-	Release()
-}
-
-type binaryRecordReaderImpl interface {
-	recordReaderImpl
-	GetBuilderChunks() []arrow.Array
-	ReadDictionary() bool
-}
-
-// primitiveRecordReader is a record reader for primitive types, ie: not byte array or fixed len byte array
-type primitiveRecordReader struct {
-	ColumnChunkReader
-
-	valuesWritten int64
-	valuesCap     int64
-	nullCount     int64
-	values        *memory.Buffer
-	validBits     *memory.Buffer
-	mem           memory.Allocator
-
-	refCount  int64
-	useValues bool
-}
-
-func createPrimitiveRecordReader(descr *schema.Column, mem memory.Allocator, bufferPool *sync.Pool) primitiveRecordReader {
-	return primitiveRecordReader{
-		ColumnChunkReader: NewColumnReader(descr, nil, mem, bufferPool),
-		values:            memory.NewResizableBuffer(mem),
-		validBits:         memory.NewResizableBuffer(mem),
-		mem:               mem,
-		refCount:          1,
-		useValues:         descr.PhysicalType() != parquet.Types.ByteArray && descr.PhysicalType() != parquet.Types.FixedLenByteArray,
-	}
-}
-
-func (pr *primitiveRecordReader) Retain() {
-	atomic.AddInt64(&pr.refCount, 1)
-}
-
-func (pr *primitiveRecordReader) Release() {
-	if atomic.AddInt64(&pr.refCount, -1) == 0 {
-		if pr.values != nil {
-			pr.values.Release()
-			pr.values = nil
-		}
-		if pr.validBits != nil {
-			pr.validBits.Release()
-			pr.validBits = nil
-		}
-	}
-}
-
-func (pr *primitiveRecordReader) SetPageReader(rdr PageReader) {
-	pr.ColumnChunkReader.setPageReader(rdr)
-}
-
-func (pr *primitiveRecordReader) ReleaseValidBits() *memory.Buffer {
-	res := pr.validBits
-	res.Resize(int(bitutil.BytesForBits(pr.valuesWritten)))
-	pr.validBits = memory.NewResizableBuffer(pr.mem)
-	return res
-}
-
-func (pr *primitiveRecordReader) ReleaseValues() (res *memory.Buffer) {
-	res = pr.values
-	nbytes, err := pr.numBytesForValues(pr.valuesWritten)
-	if err != nil {
-		panic(err)
-	}
-	res.Resize(int(nbytes))
-	pr.values = memory.NewResizableBuffer(pr.mem)
-	pr.valuesCap = 0
-
-	return
-}
-
-func (pr *primitiveRecordReader) NullCount() int64 { return pr.nullCount }
-
-func (pr *primitiveRecordReader) IncrementWritten(w, n int64) {
-	pr.valuesWritten += w
-	pr.nullCount += n
-}
-func (pr *primitiveRecordReader) GetValidBits() []byte { return pr.validBits.Bytes() }
-func (pr *primitiveRecordReader) ValuesWritten() int64 { return pr.valuesWritten }
-func (pr *primitiveRecordReader) Values() []byte       { return pr.values.Bytes() }
-func (pr *primitiveRecordReader) ResetValues() {
-	if pr.valuesWritten > 0 {
-		pr.values.ResizeNoShrink(0)
-		pr.validBits.ResizeNoShrink(0)
-		pr.valuesWritten = 0
-		pr.valuesCap = 0
-		pr.nullCount = 0
-	}
-}
-
-func (pr *primitiveRecordReader) numBytesForValues(nitems int64) (num int64, err error) {
-	typeSize := int64(pr.Descriptor().PhysicalType().ByteSize())
-	var ok bool
-	if num, ok = overflow.Mul64(nitems, typeSize); !ok {
-		err = xerrors.New("total size of items too large")
-	}
-	return
-}
-
-func (pr *primitiveRecordReader) ReserveValues(extra int64, hasNullable bool) error {
-	newCap, err := updateCapacity(pr.valuesCap, pr.valuesWritten, extra)
-	if err != nil {
-		return err
-	}
-	if newCap > pr.valuesCap {
-		capBytes, err := pr.numBytesForValues(newCap)
-		if err != nil {
-			return err
-		}
-		if pr.useValues {
-			pr.values.ResizeNoShrink(int(capBytes))
-		}
-		pr.valuesCap = newCap
-	}
-	if hasNullable {
-		validBytesCap := bitutil.BytesForBits(pr.valuesCap)
-		if pr.validBits.Len() < int(validBytesCap) {
-			pr.validBits.ResizeNoShrink(int(validBytesCap))
-		}
-	}
-	return nil
-}
-
-func (pr *primitiveRecordReader) ReadValuesDense(toRead int64) (err error) {
-	switch cr := pr.ColumnChunkReader.(type) {
-	case *BooleanColumnChunkReader:
-		data := pr.values.Bytes()[int(pr.valuesWritten):]
-		values := *(*[]bool)(unsafe.Pointer(&data))
-		_, err = cr.curDecoder.(encoding.BooleanDecoder).Decode(values[:toRead])
-	case *Int32ColumnChunkReader:
-		values := arrow.Int32Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Int32Decoder).Decode(values[:toRead])
-	case *Int64ColumnChunkReader:
-		values := arrow.Int64Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Int64Decoder).Decode(values[:toRead])
-	case *Int96ColumnChunkReader:
-		values := parquet.Int96Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Int96Decoder).Decode(values[:toRead])
-	case *ByteArrayColumnChunkReader:
-		values := parquet.ByteArrayTraits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.ByteArrayDecoder).Decode(values[:toRead])
-	case *FixedLenByteArrayColumnChunkReader:
-		values := parquet.FixedLenByteArrayTraits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.FixedLenByteArrayDecoder).Decode(values[:toRead])
-	case *Float32ColumnChunkReader:
-		values := arrow.Float32Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Float32Decoder).Decode(values[:toRead])
-	case *Float64ColumnChunkReader:
-		values := arrow.Float64Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Float64Decoder).Decode(values[:toRead])
-	default:
-		panic("invalid type for record reader")
-	}
-	return
-}
-
-func (pr *primitiveRecordReader) ReadValuesSpaced(valuesWithNulls, nullCount int64) (err error) {
-	validBits := pr.validBits.Bytes()
-	offset := pr.valuesWritten
-
-	switch cr := pr.ColumnChunkReader.(type) {
-	case *BooleanColumnChunkReader:
-		data := pr.values.Bytes()[int(pr.valuesWritten):]
-		values := *(*[]bool)(unsafe.Pointer(&data))
-		_, err = cr.curDecoder.(encoding.BooleanDecoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *Int32ColumnChunkReader:
-		values := arrow.Int32Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Int32Decoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *Int64ColumnChunkReader:
-		values := arrow.Int64Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Int64Decoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *Int96ColumnChunkReader:
-		values := parquet.Int96Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Int96Decoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *ByteArrayColumnChunkReader:
-		values := parquet.ByteArrayTraits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.ByteArrayDecoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *FixedLenByteArrayColumnChunkReader:
-		values := parquet.FixedLenByteArrayTraits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.FixedLenByteArrayDecoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *Float32ColumnChunkReader:
-		values := arrow.Float32Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Float32Decoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	case *Float64ColumnChunkReader:
-		values := arrow.Float64Traits.CastFromBytes(pr.values.Bytes())[int(pr.valuesWritten):]
-		_, err = cr.curDecoder.(encoding.Float64Decoder).DecodeSpaced(values[:int(valuesWithNulls)], int(nullCount), validBits, offset)
-	default:
-		panic("invalid type for record reader")
-	}
-	return
-}
-
-type recordReader struct {
-	recordReaderImpl
-	leafInfo LevelInfo
-
-	atRecStart  bool
-	recordsRead int64
-
-	levelsWritten int64
-	levelsPos     int64
-	levelsCap     int64
-
-	defLevels *memory.Buffer
-	repLevels *memory.Buffer
-
-	refCount int64
-}
-
-// binaryRecordReader is the recordReaderImpl for non-primitive data
-type binaryRecordReader struct {
-	*recordReader
-}
-
-func (b *binaryRecordReader) ReadDictionary() bool {
-	return b.recordReaderImpl.(binaryRecordReaderImpl).ReadDictionary()
-}
-
-func (b *binaryRecordReader) GetBuilderChunks() []arrow.Array {
-	return b.recordReaderImpl.(binaryRecordReaderImpl).GetBuilderChunks()
-}
-
-func newRecordReader(descr *schema.Column, info LevelInfo, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-
-	pr := createPrimitiveRecordReader(descr, mem, bufferPool)
-	return &recordReader{
-		refCount:         1,
-		recordReaderImpl: &pr,
-		leafInfo:         info,
-		defLevels:        memory.NewResizableBuffer(mem),
-		repLevels:        memory.NewResizableBuffer(mem),
-	}
-}
-
-func (rr *recordReader) Retain() {
-	atomic.AddInt64(&rr.refCount, 1)
-}
-
-func (rr *recordReader) Release() {
-	if atomic.AddInt64(&rr.refCount, -1) == 0 {
-		rr.recordReaderImpl.Release()
-		rr.defLevels.Release()
-		rr.repLevels.Release()
-		rr.defLevels, rr.repLevels = nil, nil
-	}
-}
-
-func (rr *recordReader) DefLevels() []int16 {
-	return arrow.Int16Traits.CastFromBytes(rr.defLevels.Bytes())
-}
-
-func (rr *recordReader) RepLevels() []int16 {
-	return arrow.Int16Traits.CastFromBytes(rr.repLevels.Bytes())
-}
-
-func (rr *recordReader) HasMore() bool {
-	return rr.pager() != nil
-}
-
-func (rr *recordReader) SetPageReader(pr PageReader) {
-	rr.atRecStart = true
-	rr.recordReaderImpl.SetPageReader(pr)
-}
-
-func (rr *recordReader) ValuesWritten() int {
-	return int(rr.recordReaderImpl.ValuesWritten())
-}
-
-func (rr *recordReader) LevelsPos() int64 { return rr.levelsPos }
-
-func updateCapacity(cap, size, extra int64) (int64, error) {
-	if extra < 0 {
-		return 0, xerrors.New("negative size (corrupt file?)")
-	}
-	target, ok := overflow.Add64(size, extra)
-	if !ok {
-		return 0, xerrors.New("allocation size too large (corrupt file?)")
-	}
-	if target >= (1 << 62) {
-		return 0, xerrors.New("allocation size too large (corrupt file?)")
-	}
-	if cap >= target {
-		return cap, nil
-	}
-	return int64(bitutil.NextPowerOf2(int(target))), nil
-}
-
-func (rr *recordReader) Reserve(cap int64) error {
-	if err := rr.reserveLevels(cap); err != nil {
-		return err
-	}
-	if err := rr.reserveValues(cap); err != nil {
-		return err
-	}
-	return nil
-}
-
-func (rr *recordReader) reserveLevels(extra int64) error {
-	if rr.Descriptor().MaxDefinitionLevel() > 0 {
-		newCap, err := updateCapacity(rr.levelsCap, rr.levelsWritten, extra)
-		if err != nil {
-			return err
-		}
-
-		if newCap > rr.levelsCap {
-			capBytes, ok := overflow.Mul(int(newCap), arrow.Int16SizeBytes)
-			if !ok {
-				return fmt.Errorf("allocation size too large (corrupt file?)")
-			}
-			rr.defLevels.ResizeNoShrink(capBytes)
-			if rr.Descriptor().MaxRepetitionLevel() > 0 {
-				rr.repLevels.ResizeNoShrink(capBytes)
-			}
-			rr.levelsCap = newCap
-		}
-	}
-	return nil
-}
-
-func (rr *recordReader) reserveValues(extra int64) error {
-	return rr.recordReaderImpl.ReserveValues(extra, rr.leafInfo.HasNullableValues())
-}
-
-func (rr *recordReader) resetValues() {
-	rr.recordReaderImpl.ResetValues()
-}
-
-func (rr *recordReader) Reset() {
-	rr.resetValues()
-
-	if rr.levelsWritten > 0 {
-		remain := int(rr.levelsWritten - rr.levelsPos)
-		// shift remaining levels to beginning of buffer and trim only the
-		// number decoded remaining
-		defData := rr.DefLevels()
-
-		copy(defData, defData[int(rr.levelsPos):int(rr.levelsWritten)])
-		rr.defLevels.ResizeNoShrink(remain * int(arrow.Int16SizeBytes))
-
-		if rr.Descriptor().MaxRepetitionLevel() > 0 {
-			repData := rr.RepLevels()
-			copy(repData, repData[int(rr.levelsPos):int(rr.levelsWritten)])
-			rr.repLevels.ResizeNoShrink(remain * int(arrow.Int16SizeBytes))
-		}
-
-		rr.levelsWritten -= rr.levelsPos
-		rr.levelsPos = 0
-		rr.levelsCap = int64(remain)
-	}
-
-	rr.recordsRead = 0
-}
-
-// process written rep/def levels to read the end of records
-// process no more levels than necessary to delimit the indicated
-// number of logical records. updates internal state of recordreader
-// returns number of records delimited
-func (rr *recordReader) delimitRecords(numRecords int64) (recordsRead, valsToRead int64) {
-	var (
-		curRep int16
-		curDef int16
-	)
-
-	defLevels := rr.DefLevels()[int(rr.levelsPos):]
-	repLevels := rr.RepLevels()[int(rr.levelsPos):]
-
-	for rr.levelsPos < rr.levelsWritten {
-		curRep, repLevels = repLevels[0], repLevels[1:]
-		if curRep == 0 {
-			// if at record start, we are seeing the start of a record
-			// for the second time, such as after repeated calls to delimitrecords.
-			// in this case we must continue until we find another record start
-			// or exhaust the column chunk
-			if !rr.atRecStart {
-				// end of a record, increment count
-				recordsRead++
-				if recordsRead == numRecords {
-					// found the number of records we wanted, set record start to true and break
-					rr.atRecStart = true
-					break
-				}
-			}
-		}
-		// we have decided to consume the level at this position
-		// advance until we find another boundary
-		rr.atRecStart = false
-
-		curDef, defLevels = defLevels[0], defLevels[1:]
-		if curDef == rr.Descriptor().MaxDefinitionLevel() {
-			valsToRead++
-		}
-		rr.levelsPos++
-	}
-	return
-}
-
-func (rr *recordReader) ReadRecordData(numRecords int64) (int64, error) {
-	possibleNum := utils.Max(numRecords, rr.levelsWritten-rr.levelsPos)
-	if err := rr.reserveValues(possibleNum); err != nil {
-		return 0, err
-	}
-
-	var (
-		startPos     = rr.levelsPos
-		valuesToRead int64
-		recordsRead  int64
-		nullCount    int64
-		err          error
-	)
-
-	if rr.Descriptor().MaxRepetitionLevel() > 0 {
-		recordsRead, valuesToRead = rr.delimitRecords(numRecords)
-	} else if rr.Descriptor().MaxDefinitionLevel() > 0 {
-		// no repetition levels, skip delimiting logic. each level
-		// represents null or not null entry
-		recordsRead = utils.Min(rr.levelsWritten-rr.levelsPos, numRecords)
-		// this is advanced by delimitRecords which we skipped
-		rr.levelsPos += recordsRead
-	} else {
-		recordsRead, valuesToRead = numRecords, numRecords
-	}
-
-	if rr.leafInfo.HasNullableValues() {
-		validityIO := ValidityBitmapInputOutput{
-			ReadUpperBound:  rr.levelsPos - startPos,
-			ValidBits:       rr.GetValidBits(),
-			ValidBitsOffset: rr.recordReaderImpl.ValuesWritten(),
-		}
-		DefLevelsToBitmap(rr.DefLevels()[startPos:int(rr.levelsPos)], rr.leafInfo, &validityIO)
-		valuesToRead = validityIO.Read - validityIO.NullCount
-		nullCount = validityIO.NullCount
-		err = rr.ReadValuesSpaced(validityIO.Read, nullCount)
-	} else {
-		err = rr.ReadValuesDense(valuesToRead)
-	}
-	if err != nil {
-		return 0, err
-	}
-
-	if rr.leafInfo.DefLevel > 0 {
-		rr.consumeBufferedValues(rr.levelsPos - startPos)
-	} else {
-		rr.consumeBufferedValues(valuesToRead)
-	}
-
-	// total values, including nullspaces if any
-	rr.IncrementWritten(valuesToRead+nullCount, nullCount)
-	return recordsRead, nil
-}
-
-const minLevelBatchSize = 1024
-
-func (rr *recordReader) ReadRecords(numRecords int64) (int64, error) {
-	// delimit records, then read values at the end
-	recordsRead := int64(0)
-
-	if rr.levelsPos < rr.levelsWritten {
-		additional, err := rr.ReadRecordData(numRecords)
-		if err != nil {
-			return 0, err
-		}
-		recordsRead += additional
-	}
-
-	levelBatch := utils.Max(minLevelBatchSize, numRecords)
-
-	// if we are in the middle of a record, continue until reaching
-	// the desired number of records or the end of the current record
-	// if we have enough
-	for !rr.atRecStart || recordsRead < numRecords {
-		// is there more data in this row group?
-		if !rr.HasNext() {
-			if !rr.atRecStart {
-				// ended the row group while inside a record we haven't seen
-				// the end of yet. increment the record count for the last record
-				// in the row group
-				recordsRead++
-				rr.atRecStart = true
-			}
-			break
-		}
-
-		// we perform multiple batch reads until we either exhaust the row group
-		// or observe the desired number of records
-		batchSize := utils.Min(levelBatch, rr.numAvailValues())
-		if batchSize == 0 {
-			// no more data in column
-			break
-		}
-
-		if rr.Descriptor().MaxDefinitionLevel() > 0 {
-			if err := rr.reserveLevels(batchSize); err != nil {
-				return 0, err
-			}
-
-			defLevels := rr.DefLevels()[int(rr.levelsWritten):]
-
-			levelsRead := 0
-			// not present for non-repeated fields
-			if rr.Descriptor().MaxRepetitionLevel() > 0 {
-				repLevels := rr.RepLevels()[int(rr.levelsWritten):]
-				levelsRead, _ = rr.readDefinitionLevels(defLevels[:batchSize])
-				if rr.readRepetitionLevels(repLevels[:batchSize]) != levelsRead {
-					return 0, xerrors.New("number of decoded rep/def levels did not match")
-				}
-			} else if rr.Descriptor().MaxDefinitionLevel() > 0 {
-				levelsRead, _ = rr.readDefinitionLevels(defLevels[:batchSize])
-			}
-
-			if levelsRead == 0 {
-				// exhausted column chunk
-				break
-			}
-
-			rr.levelsWritten += int64(levelsRead)
-			read, err := rr.ReadRecordData(numRecords - recordsRead)
-			if err != nil {
-				return recordsRead, err
-			}
-			recordsRead += read
-		} else {
-			// no rep or def levels
-			batchSize = utils.Min(numRecords-recordsRead, batchSize)
-			read, err := rr.ReadRecordData(batchSize)
-			if err != nil {
-				return recordsRead, err
-			}
-			recordsRead += read
-		}
-	}
-
-	return recordsRead, rr.Err()
-}
-
-func (rr *recordReader) ReleaseValidBits() *memory.Buffer {
-	if rr.leafInfo.HasNullableValues() {
-		return rr.recordReaderImpl.ReleaseValidBits()
-	}
-	return nil
-}
-
-// flbaRecordReader is the specialization for optimizing reading fixed-length
-// byte array records.
-type flbaRecordReader struct {
-	primitiveRecordReader
-
-	bldr     *array.FixedSizeBinaryBuilder
-	valueBuf []parquet.FixedLenByteArray
-}
-
-func (fr *flbaRecordReader) ReserveValues(extra int64, hasNullable bool) error {
-	fr.bldr.Reserve(int(extra))
-	return fr.primitiveRecordReader.ReserveValues(extra, hasNullable)
-}
-
-func (fr *flbaRecordReader) Retain() {
-	fr.bldr.Retain()
-	fr.primitiveRecordReader.Retain()
-}
-
-func (fr *flbaRecordReader) Release() {
-	fr.bldr.Release()
-	fr.primitiveRecordReader.Release()
-}
-
-func (fr *flbaRecordReader) ReadValuesDense(toRead int64) error {
-	if int64(cap(fr.valueBuf)) < toRead {
-		fr.valueBuf = make([]parquet.FixedLenByteArray, 0, toRead)
-	}
-
-	values := fr.valueBuf[:toRead]
-	dec := fr.ColumnChunkReader.(*FixedLenByteArrayColumnChunkReader).curDecoder.(encoding.FixedLenByteArrayDecoder)
-
-	_, err := dec.Decode(values)
-	if err != nil {
-		return err
-	}
-
-	for _, val := range values {
-		fr.bldr.Append(val)
-	}
-	fr.ResetValues()
-	return nil
-}
-
-func (fr *flbaRecordReader) ReadValuesSpaced(valuesWithNulls, nullCount int64) error {
-	validBits := fr.validBits.Bytes()
-	offset := fr.valuesWritten
-
-	if int64(cap(fr.valueBuf)) < valuesWithNulls {
-		fr.valueBuf = make([]parquet.FixedLenByteArray, 0, valuesWithNulls)
-	}
-
-	values := fr.valueBuf[:valuesWithNulls]
-	dec := fr.ColumnChunkReader.(*FixedLenByteArrayColumnChunkReader).curDecoder.(encoding.FixedLenByteArrayDecoder)
-	_, err := dec.DecodeSpaced(values, int(nullCount), validBits, offset)
-	if err != nil {
-		return err
-	}
-
-	for idx, val := range values {
-		if bitutil.BitIsSet(validBits, int(offset)+idx) {
-			fr.bldr.Append(val)
-		} else {
-			fr.bldr.AppendNull()
-		}
-	}
-	fr.ResetValues()
-	return nil
-}
-
-func (fr *flbaRecordReader) GetBuilderChunks() []arrow.Array {
-	return []arrow.Array{fr.bldr.NewArray()}
-}
-
-func (fr *flbaRecordReader) ReadDictionary() bool { return false }
-
-func newFLBARecordReader(descr *schema.Column, info LevelInfo, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-
-	byteWidth := descr.TypeLength()
-
-	return &binaryRecordReader{&recordReader{
-		recordReaderImpl: &flbaRecordReader{
-			createPrimitiveRecordReader(descr, mem, bufferPool),
-			array.NewFixedSizeBinaryBuilder(mem, &arrow.FixedSizeBinaryType{ByteWidth: byteWidth}),
-			nil,
-		},
-		leafInfo:  info,
-		defLevels: memory.NewResizableBuffer(mem),
-		repLevels: memory.NewResizableBuffer(mem),
-		refCount:  1,
-	}}
-}
-
-// byteArrayRecordReader is the specialization impl for byte-array columns
-type byteArrayRecordReader struct {
-	primitiveRecordReader
-
-	bldr     array.Builder
-	valueBuf []parquet.ByteArray
-}
-
-func newByteArrayRecordReader(descr *schema.Column, info LevelInfo, dtype arrow.DataType, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-
-	dt, ok := dtype.(arrow.BinaryDataType)
-	// arrow.DecimalType will also come through here, which we want to treat as binary
-	if !ok {
-		dt = arrow.BinaryTypes.Binary
-	}
-
-	return &binaryRecordReader{&recordReader{
-		recordReaderImpl: &byteArrayRecordReader{
-			createPrimitiveRecordReader(descr, mem, bufferPool),
-			array.NewBinaryBuilder(mem, dt),
-			nil,
-		},
-		leafInfo:  info,
-		defLevels: memory.NewResizableBuffer(mem),
-		repLevels: memory.NewResizableBuffer(mem),
-		refCount:  1,
-	}}
-}
-
-func (br *byteArrayRecordReader) ReserveValues(extra int64, hasNullable bool) error {
-	br.bldr.Reserve(int(extra))
-	return br.primitiveRecordReader.ReserveValues(extra, hasNullable)
-}
-
-func (br *byteArrayRecordReader) Retain() {
-	br.bldr.Retain()
-	br.primitiveRecordReader.Retain()
-}
-
-func (br *byteArrayRecordReader) Release() {
-	br.bldr.Release()
-	br.primitiveRecordReader.Release()
-}
-
-func (br *byteArrayRecordReader) ReadValuesDense(toRead int64) error {
-	if int64(cap(br.valueBuf)) < toRead {
-		br.valueBuf = make([]parquet.ByteArray, 0, toRead)
-	}
-
-	values := br.valueBuf[:toRead]
-	dec := br.ColumnChunkReader.(*ByteArrayColumnChunkReader).curDecoder.(encoding.ByteArrayDecoder)
-
-	_, err := dec.Decode(values)
-	if err != nil {
-		return err
-	}
-
-	switch bldr := br.bldr.(type) {
-	case *array.BinaryBuilder:
-		for _, val := range values {
-			bldr.Append(val)
-		}
-	case *array.BinaryDictionaryBuilder:
-		for _, val := range values {
-			if err := bldr.Append(val); err != nil {
-				return err
-			}
-		}
-	}
-
-	br.ResetValues()
-	return nil
-}
-
-func (br *byteArrayRecordReader) ReadValuesSpaced(valuesWithNulls, nullCount int64) error {
-	validBits := br.validBits.Bytes()
-	offset := br.valuesWritten
-
-	if int64(cap(br.valueBuf)) < valuesWithNulls {
-		br.valueBuf = make([]parquet.ByteArray, 0, valuesWithNulls)
-	}
-
-	values := br.valueBuf[:valuesWithNulls]
-	dec := br.ColumnChunkReader.(*ByteArrayColumnChunkReader).curDecoder.(encoding.ByteArrayDecoder)
-	_, err := dec.DecodeSpaced(values, int(nullCount), validBits, offset)
-	if err != nil {
-		return err
-	}
-
-	switch bldr := br.bldr.(type) {
-	case *array.BinaryBuilder:
-		for idx, val := range values {
-			if bitutil.BitIsSet(validBits, int(offset)+idx) {
-				bldr.Append(val)
-			} else {
-				bldr.AppendNull()
-			}
-		}
-	case *array.BinaryDictionaryBuilder:
-		for idx, val := range values {
-			if bitutil.BitIsSet(validBits, int(offset)+idx) {
-				if err := bldr.Append(val); err != nil {
-					return err
-				}
-			} else {
-				bldr.AppendNull()
-			}
-		}
-	}
-
-	br.ResetValues()
-	return nil
-}
-
-func (br *byteArrayRecordReader) GetBuilderChunks() []arrow.Array {
-	return []arrow.Array{br.bldr.NewArray()}
-}
-
-func (br *byteArrayRecordReader) ReadDictionary() bool { return false }
-
-type byteArrayDictRecordReader struct {
-	byteArrayRecordReader
-
-	resultChunks []arrow.Array
-}
-
-func newByteArrayDictRecordReader(descr *schema.Column, info LevelInfo, dtype arrow.DataType, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-
-	dt := dtype.(*arrow.DictionaryType)
-	if _, ok := dt.ValueType.(arrow.BinaryDataType); !ok {
-		dt.ValueType = arrow.BinaryTypes.Binary
-	}
-
-	return &binaryRecordReader{&recordReader{
-		recordReaderImpl: &byteArrayDictRecordReader{
-			byteArrayRecordReader: byteArrayRecordReader{
-				createPrimitiveRecordReader(descr, mem, bufferPool),
-				array.NewDictionaryBuilder(mem, dt),
-				nil,
-			},
-			resultChunks: make([]arrow.Array, 0),
-		},
-		leafInfo:  info,
-		defLevels: memory.NewResizableBuffer(mem),
-		repLevels: memory.NewResizableBuffer(mem),
-		refCount:  1,
-	}}
-}
-
-func (bd *byteArrayDictRecordReader) GetBuilderChunks() []arrow.Array {
-	bd.flushBuilder()
-	chunks := bd.resultChunks
-	bd.resultChunks = make([]arrow.Array, 0, 1)
-	return chunks
-}
-
-func (bd *byteArrayDictRecordReader) flushBuilder() {
-	if bd.bldr.Len() > 0 {
-		chunk := bd.bldr.NewArray()
-		bd.resultChunks = append(bd.resultChunks, chunk)
-	}
-}
-
-func (bd *byteArrayDictRecordReader) maybeWriteNewDictionary() error {
-	rdr := bd.ColumnChunkReader.(*ByteArrayColumnChunkReader)
-	if rdr.newDictionary {
-		// if there is a new dictionary, we may need to flush the builder,
-		// then insert the new dictionary values
-		bd.flushBuilder()
-		bd.bldr.(*array.BinaryDictionaryBuilder).ResetFull()
-		dec := rdr.curDecoder.(*encoding.DictByteArrayDecoder)
-		if err := dec.InsertDictionary(bd.bldr); err != nil {
-			return err
-		}
-		rdr.newDictionary = false
-	}
-	return nil
-}
-
-func (bd *byteArrayDictRecordReader) ReadValuesDense(toRead int64) error {
-	dec := bd.ColumnChunkReader.(*ByteArrayColumnChunkReader).curDecoder.(encoding.ByteArrayDecoder)
-	if dec.Encoding() == parquet.Encodings.RLEDict {
-		if err := bd.maybeWriteNewDictionary(); err != nil {
-			return err
-		}
-
-		rdr := bd.ColumnChunkReader.(*ByteArrayColumnChunkReader)
-		_, err := rdr.curDecoder.(*encoding.DictByteArrayDecoder).DecodeIndices(int(toRead), bd.bldr)
-		return err
-	}
-	return bd.byteArrayRecordReader.ReadValuesDense(toRead)
-}
-
-func (bd *byteArrayDictRecordReader) ReadValuesSpaced(valuesWithNulls, nullCount int64) error {
-	validBits := bd.validBits.Bytes()
-	offset := bd.valuesWritten
-
-	dec := bd.ColumnChunkReader.(*ByteArrayColumnChunkReader).curDecoder.(encoding.ByteArrayDecoder)
-	if dec.Encoding() == parquet.Encodings.RLEDict {
-		if err := bd.maybeWriteNewDictionary(); err != nil {
-			return err
-		}
-
-		rdr := bd.ColumnChunkReader.(*ByteArrayColumnChunkReader)
-		_, err := rdr.curDecoder.(*encoding.DictByteArrayDecoder).DecodeIndicesSpaced(int(valuesWithNulls), int(nullCount), validBits, offset, bd.bldr)
-		return err
-
-	}
-
-	return bd.byteArrayRecordReader.ReadValuesSpaced(valuesWithNulls, int64(nullCount))
-}
-
-func (bd *byteArrayDictRecordReader) ReadDictionary() bool { return true }
-
-func NewRecordReader(descr *schema.Column, info LevelInfo, dtype arrow.DataType, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
-	switch descr.PhysicalType() {
-	case parquet.Types.ByteArray:
-		if dtype.ID() == arrow.DICTIONARY {
-			return newByteArrayDictRecordReader(descr, info, dtype, mem, bufferPool)
-		}
-		return newByteArrayRecordReader(descr, info, dtype, mem, bufferPool)
-	case parquet.Types.FixedLenByteArray:
-		return newFLBARecordReader(descr, info, mem, bufferPool)
-	default:
-		return newRecordReader(descr, info, mem, bufferPool)
-	}
-}
diff --git a/go/parquet/file/row_group_reader.go b/go/parquet/file/row_group_reader.go
deleted file mode 100644
index 25ca6d87d895f..0000000000000
--- a/go/parquet/file/row_group_reader.go
+++ /dev/null
@@ -1,144 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"fmt"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"golang.org/x/xerrors"
-)
-
-const (
-	maxDictHeaderSize int64 = 100
-)
-
-// RowGroupReader is the primary interface for reading a single row group
-type RowGroupReader struct {
-	r             parquet.ReaderAtSeeker
-	sourceSz      int64
-	fileMetadata  *metadata.FileMetaData
-	rgMetadata    *metadata.RowGroupMetaData
-	props         *parquet.ReaderProperties
-	fileDecryptor encryption.FileDecryptor
-
-	bufferPool *sync.Pool
-}
-
-// MetaData returns the metadata of the current Row Group
-func (r *RowGroupReader) MetaData() *metadata.RowGroupMetaData { return r.rgMetadata }
-
-// NumColumns returns the number of columns of data as defined in the metadata of this row group
-func (r *RowGroupReader) NumColumns() int { return r.rgMetadata.NumColumns() }
-
-// NumRows returns the number of rows in just this row group
-func (r *RowGroupReader) NumRows() int64 { return r.rgMetadata.NumRows() }
-
-// ByteSize returns the full byte size of this row group as defined in its metadata
-func (r *RowGroupReader) ByteSize() int64 { return r.rgMetadata.TotalByteSize() }
-
-// Column returns a column reader for the requested (0-indexed) column
-//
-// panics if passed a column not in the range [0, NumColumns)
-func (r *RowGroupReader) Column(i int) (ColumnChunkReader, error) {
-	if i >= r.NumColumns() || i < 0 {
-		return nil, fmt.Errorf("parquet: trying to read column index %d but row group metadata only has %d columns", i, r.rgMetadata.NumColumns())
-	}
-
-	descr := r.fileMetadata.Schema.Column(i)
-	pageRdr, err := r.GetColumnPageReader(i)
-	if err != nil {
-		return nil, fmt.Errorf("parquet: unable to initialize page reader: %w", err)
-	}
-	return NewColumnReader(descr, pageRdr, r.props.Allocator(), r.bufferPool), nil
-}
-
-func (r *RowGroupReader) GetColumnPageReader(i int) (PageReader, error) {
-	col, err := r.rgMetadata.ColumnChunk(i)
-	if err != nil {
-		return nil, err
-	}
-
-	colStart := col.DataPageOffset()
-	if col.HasDictionaryPage() && col.DictionaryPageOffset() > 0 && colStart > col.DictionaryPageOffset() {
-		colStart = col.DictionaryPageOffset()
-	}
-
-	colLen := col.TotalCompressedSize()
-	// PARQUET-816 workaround for old files created by older parquet-mr
-	if r.fileMetadata.WriterVersion().LessThan(metadata.Parquet816FixedVersion) {
-		// The Parquet MR writer had a bug in 1.2.8 and below where it didn't include the
-		// dictionary page header size in total_compressed_size and total_uncompressed_size
-		// (see IMPALA-694). We add padding to compensate.
-		if colStart < 0 || colLen < 0 {
-			return nil, fmt.Errorf("invalid column chunk metadata, offset (%d) and length (%d) should both be positive", colStart, colLen)
-		}
-		if colStart > r.sourceSz || colLen > r.sourceSz {
-			return nil, fmt.Errorf("invalid column chunk metadata, offset (%d) and length (%d) must both be less than total source size (%d)", colStart, colLen, r.sourceSz)
-		}
-		bytesRemain := r.sourceSz - (colStart + colLen)
-		padding := utils.Min(maxDictHeaderSize, bytesRemain)
-		colLen += padding
-	}
-
-	stream, err := r.props.GetStream(r.r, colStart, colLen)
-	if err != nil {
-		return nil, err
-	}
-
-	cryptoMetadata := col.CryptoMetadata()
-	if cryptoMetadata == nil {
-		return NewPageReader(stream, col.NumValues(), col.Compression(), r.props.Allocator(), nil)
-	}
-
-	if r.fileDecryptor == nil {
-		return nil, xerrors.New("column in rowgroup is encrypted, but no file decryptor")
-	}
-
-	const encryptedRowGroupsLimit = 32767
-	if i > encryptedRowGroupsLimit {
-		return nil, xerrors.New("encrypted files cannot contain more than 32767 column chunks")
-	}
-
-	if cryptoMetadata.IsSetENCRYPTION_WITH_FOOTER_KEY() {
-		ctx := CryptoContext{
-			StartDecryptWithDictionaryPage: col.HasDictionaryPage(),
-			RowGroupOrdinal:                r.rgMetadata.Ordinal(),
-			ColumnOrdinal:                  int16(i),
-			MetaDecryptor:                  r.fileDecryptor.GetFooterDecryptorForColumnMeta(""),
-			DataDecryptor:                  r.fileDecryptor.GetFooterDecryptorForColumnData(""),
-		}
-		return NewPageReader(stream, col.NumValues(), col.Compression(), r.props.Allocator(), &ctx)
-	}
-
-	// column encrypted with it's own key
-	columnKeyMeta := cryptoMetadata.GetENCRYPTION_WITH_COLUMN_KEY().KeyMetadata
-	columnPath := cryptoMetadata.GetENCRYPTION_WITH_COLUMN_KEY().PathInSchema
-
-	ctx := CryptoContext{
-		StartDecryptWithDictionaryPage: col.HasDictionaryPage(),
-		RowGroupOrdinal:                r.rgMetadata.Ordinal(),
-		ColumnOrdinal:                  int16(i),
-		MetaDecryptor:                  r.fileDecryptor.GetColumnMetaDecryptor(parquet.ColumnPath(columnPath).String(), string(columnKeyMeta), ""),
-		DataDecryptor:                  r.fileDecryptor.GetColumnDataDecryptor(parquet.ColumnPath(columnPath).String(), string(columnKeyMeta), ""),
-	}
-	return NewPageReader(stream, col.NumValues(), col.Compression(), r.props.Allocator(), &ctx)
-}
diff --git a/go/parquet/file/row_group_writer.go b/go/parquet/file/row_group_writer.go
deleted file mode 100644
index d18ff270939d2..0000000000000
--- a/go/parquet/file/row_group_writer.go
+++ /dev/null
@@ -1,255 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file
-
-import (
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"golang.org/x/xerrors"
-)
-
-// RowGroupWriter is the base interface for writing rowgroups, the actual writer
-// will be either the SerialRowGroupWriter or the BufferedRowGroupWriter
-type RowGroupWriter interface {
-	// Returns the number of columns for this row group writer
-	NumColumns() int
-	// returns the current number of rows that have been written.
-	// Returns an error if they are unequal between columns that have been written so far
-	NumRows() (int, error)
-	// The total compressed bytes so
-	TotalCompressedBytes() int64
-	// the total bytes written and flushed out
-	TotalBytesWritten() int64
-	// Closes any unclosed columnwriters, and closes the rowgroup, writing out
-	// the metadata. subsequent calls have no effect
-	// returns an error if columns contain unequal numbers of rows.
-	Close() error
-	// Buffered returns true if it's a BufferedRowGroupWriter and false for a
-	// SerialRowGroupWriter
-	Buffered() bool
-}
-
-// SerialRowGroupWriter expects each column to be written one after the other,
-// data is flushed every time NextColumn is called and will panic if there is
-// an unequal number of rows written per column.
-type SerialRowGroupWriter interface {
-	RowGroupWriter
-	NextColumn() (ColumnChunkWriter, error)
-	// returns the current column being built, if buffered it will equal NumColumns
-	// if serialized then it will return which column is currently being written
-	CurrentColumn() int
-}
-
-// BufferedRowGroupWriter allows writing to multiple columns simultaneously, data
-// will not be flushed to the underlying writer until closing the RowGroupWriter.
-//
-// All columns must have equal numbers of rows before closing the row group or it will panic.
-type BufferedRowGroupWriter interface {
-	RowGroupWriter
-	Column(i int) (ColumnChunkWriter, error)
-}
-
-type rowGroupWriter struct {
-	sink          utils.WriterTell
-	metadata      *metadata.RowGroupMetaDataBuilder
-	props         *parquet.WriterProperties
-	bytesWritten  int64
-	closed        bool
-	ordinal       int16
-	nextColumnIdx int
-	nrows         int
-	buffered      bool
-	fileEncryptor encryption.FileEncryptor
-
-	columnWriters []ColumnChunkWriter
-	pager         PageWriter
-}
-
-func newRowGroupWriter(sink utils.WriterTell, metadata *metadata.RowGroupMetaDataBuilder, ordinal int16, props *parquet.WriterProperties, buffered bool, fileEncryptor encryption.FileEncryptor) *rowGroupWriter {
-	ret := &rowGroupWriter{
-		sink:          sink,
-		metadata:      metadata,
-		props:         props,
-		ordinal:       ordinal,
-		buffered:      buffered,
-		fileEncryptor: fileEncryptor,
-	}
-	if buffered {
-		ret.initColumns()
-	} else {
-		ret.columnWriters = []ColumnChunkWriter{nil}
-	}
-	return ret
-}
-
-func (rg *rowGroupWriter) Buffered() bool { return rg.buffered }
-
-func (rg *rowGroupWriter) checkRowsWritten() error {
-	if len(rg.columnWriters) == 0 {
-		return nil
-	}
-
-	if !rg.buffered && rg.columnWriters[0] != nil {
-		current := rg.columnWriters[0].RowsWritten()
-		if rg.nrows == 0 {
-			rg.nrows = current
-		} else if rg.nrows != current {
-			return xerrors.Errorf("row mismatch for unbuffered row group: %d, count expected: %d, actual: %d", rg.ordinal, current, rg.nrows)
-		}
-	} else if rg.buffered {
-		current := rg.columnWriters[0].RowsWritten()
-		for i, wr := range rg.columnWriters[1:] {
-			if current != wr.RowsWritten() {
-				return xerrors.Errorf("row mismatch for buffered row group: %d, column: %d, count expected: %d, actual: %d", rg.ordinal, i+1, current, wr.RowsWritten())
-			}
-		}
-		rg.nrows = current
-	}
-	return nil
-}
-
-func (rg *rowGroupWriter) NumColumns() int { return rg.metadata.NumColumns() }
-func (rg *rowGroupWriter) NumRows() (int, error) {
-	err := rg.checkRowsWritten()
-	return rg.nrows, err
-}
-
-func (rg *rowGroupWriter) NextColumn() (ColumnChunkWriter, error) {
-	if rg.buffered {
-		panic("next column is not supported when a rowgroup is written by size")
-	}
-	if rg.columnWriters[0] != nil {
-		if err := rg.checkRowsWritten(); err != nil {
-			return nil, err
-		}
-	}
-
-	// throw an error if more columns are being written
-	colMeta := rg.metadata.NextColumnChunk()
-	if rg.columnWriters[0] != nil {
-		if err := rg.columnWriters[0].Close(); err != nil {
-			return nil, err
-		}
-		rg.bytesWritten += rg.columnWriters[0].TotalBytesWritten()
-	}
-	rg.nextColumnIdx++
-
-	path := colMeta.Descr().Path()
-	var (
-		metaEncryptor encryption.Encryptor
-		dataEncryptor encryption.Encryptor
-	)
-	if rg.fileEncryptor != nil {
-		metaEncryptor = rg.fileEncryptor.GetColumnMetaEncryptor(path)
-		dataEncryptor = rg.fileEncryptor.GetColumnDataEncryptor(path)
-	}
-
-	if rg.pager == nil {
-		var err error
-		rg.pager, err = NewPageWriter(rg.sink, rg.props.CompressionFor(path), rg.props.CompressionLevelFor(path), colMeta, rg.ordinal, int16(rg.nextColumnIdx-1), rg.props.Allocator(), false, metaEncryptor, dataEncryptor)
-		if err != nil {
-			return nil, err
-		}
-	} else {
-		rg.pager.Reset(rg.sink, rg.props.CompressionFor(path), rg.props.CompressionLevelFor(path), colMeta, rg.ordinal, int16(rg.nextColumnIdx-1), metaEncryptor, dataEncryptor)
-	}
-
-	rg.columnWriters[0] = NewColumnChunkWriter(colMeta, rg.pager, rg.props)
-	return rg.columnWriters[0], nil
-}
-
-func (rg *rowGroupWriter) Column(i int) (ColumnChunkWriter, error) {
-	if !rg.buffered {
-		panic("column is only supported when a bufferedrowgroup is being written")
-	}
-
-	if i >= 0 && i < len(rg.columnWriters) {
-		return rg.columnWriters[i], nil
-	}
-	return nil, xerrors.Errorf("invalid column number requested: %d", i)
-}
-
-func (rg *rowGroupWriter) CurrentColumn() int { return rg.metadata.CurrentColumn() }
-func (rg *rowGroupWriter) TotalCompressedBytes() int64 {
-	total := int64(0)
-	for _, wr := range rg.columnWriters {
-		if wr != nil {
-			total += wr.TotalCompressedBytes()
-		}
-	}
-	return total
-}
-
-func (rg *rowGroupWriter) TotalBytesWritten() int64 {
-	total := int64(0)
-	for _, wr := range rg.columnWriters {
-		if wr != nil {
-			total += wr.TotalBytesWritten()
-		}
-	}
-	return total + rg.bytesWritten
-}
-
-func (rg *rowGroupWriter) Close() error {
-	if !rg.closed {
-		rg.closed = true
-		if err := rg.checkRowsWritten(); err != nil {
-			return err
-		}
-
-		for _, wr := range rg.columnWriters {
-			if wr != nil {
-				if err := wr.Close(); err != nil {
-					return err
-				}
-				rg.bytesWritten += wr.TotalBytesWritten()
-			}
-		}
-
-		rg.columnWriters = nil
-		rg.metadata.SetNumRows(rg.nrows)
-		rg.metadata.Finish(rg.bytesWritten, rg.ordinal)
-	}
-	return nil
-}
-
-func (rg *rowGroupWriter) initColumns() error {
-	if rg.columnWriters == nil {
-		rg.columnWriters = make([]ColumnChunkWriter, 0, rg.NumColumns())
-	}
-	for i := 0; i < rg.NumColumns(); i++ {
-		colMeta := rg.metadata.NextColumnChunk()
-		path := colMeta.Descr().Path()
-		var (
-			metaEncryptor encryption.Encryptor
-			dataEncryptor encryption.Encryptor
-		)
-		if rg.fileEncryptor != nil {
-			metaEncryptor = rg.fileEncryptor.GetColumnMetaEncryptor(path)
-			dataEncryptor = rg.fileEncryptor.GetColumnDataEncryptor(path)
-		}
-		pager, err := NewPageWriter(rg.sink, rg.props.CompressionFor(path), rg.props.CompressionLevelFor(path), colMeta, rg.ordinal, int16(rg.nextColumnIdx), rg.props.Allocator(), rg.buffered, metaEncryptor, dataEncryptor)
-		if err != nil {
-			return err
-		}
-		rg.nextColumnIdx++
-		rg.columnWriters = append(rg.columnWriters, NewColumnChunkWriter(colMeta, pager, rg.props))
-	}
-	return nil
-}
diff --git a/go/parquet/file/row_group_writer_test.go b/go/parquet/file/row_group_writer_test.go
deleted file mode 100644
index 0074611235245..0000000000000
--- a/go/parquet/file/row_group_writer_test.go
+++ /dev/null
@@ -1,97 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package file_test
-
-import (
-	"bytes"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/apache/thrift/lib/go/thrift"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestBufferedRowGroupNulls(t *testing.T) {
-	type SimpleSchema struct {
-		Col1 *int32
-		Col2 *float32
-		Col3 *float64
-		Col4 *int64
-	}
-
-	data := []SimpleSchema{
-		{thrift.Int32Ptr(5), thrift.Float32Ptr(10), thrift.Float64Ptr(20), thrift.Int64Ptr(8)},
-		{nil, thrift.Float32Ptr(10), thrift.Float64Ptr(20), thrift.Int64Ptr(8)},
-		{thrift.Int32Ptr(5), nil, thrift.Float64Ptr(20), thrift.Int64Ptr(8)},
-		{thrift.Int32Ptr(5), thrift.Float32Ptr(10), nil, thrift.Int64Ptr(8)},
-		{thrift.Int32Ptr(5), thrift.Float32Ptr(10), thrift.Float64Ptr(20), nil},
-		{thrift.Int32Ptr(5), thrift.Float32Ptr(10), thrift.Float64Ptr(20), thrift.Int64Ptr(8)},
-	}
-
-	sink := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-	sc, err := schema.NewSchemaFromStruct(SimpleSchema{})
-	assert.NoError(t, err)
-
-	writer := file.NewParquetWriter(sink, sc.Root())
-	rgWriter := writer.AppendBufferedRowGroup()
-
-	for _, d := range data {
-		cw, _ := rgWriter.Column(0)
-		if d.Col1 != nil {
-			cw.(*file.Int32ColumnChunkWriter).WriteBatch([]int32{*d.Col1}, []int16{1}, nil)
-		} else {
-			cw.(*file.Int32ColumnChunkWriter).WriteBatch(nil, []int16{0}, nil)
-		}
-
-		cw, _ = rgWriter.Column(1)
-		if d.Col2 != nil {
-			cw.(*file.Float32ColumnChunkWriter).WriteBatch([]float32{*d.Col2}, []int16{1}, nil)
-		} else {
-			cw.(*file.Float32ColumnChunkWriter).WriteBatch(nil, []int16{0}, nil)
-		}
-
-		cw, _ = rgWriter.Column(2)
-		if d.Col3 != nil {
-			cw.(*file.Float64ColumnChunkWriter).WriteBatch([]float64{*d.Col3}, []int16{1}, nil)
-		} else {
-			cw.(*file.Float64ColumnChunkWriter).WriteBatch(nil, []int16{0}, nil)
-		}
-
-		cw, _ = rgWriter.Column(3)
-		if d.Col4 != nil {
-			cw.(*file.Int64ColumnChunkWriter).WriteBatch([]int64{*d.Col4}, []int16{1}, nil)
-		} else {
-			cw.(*file.Int64ColumnChunkWriter).WriteBatch(nil, []int16{0}, nil)
-		}
-	}
-
-	rgWriter.Close()
-	writer.Close()
-
-	buffer := sink.Finish()
-	defer buffer.Release()
-
-	reader, err := file.NewParquetReader(bytes.NewReader(buffer.Bytes()))
-	assert.NoError(t, err)
-
-	assert.EqualValues(t, 1, reader.NumRowGroups())
-	rgr := reader.RowGroup(0)
-	assert.EqualValues(t, len(data), rgr.NumRows())
-}
diff --git a/go/parquet/internal/bmi/Makefile b/go/parquet/internal/bmi/Makefile
deleted file mode 100644
index f196d81924389..0000000000000
--- a/go/parquet/internal/bmi/Makefile
+++ /dev/null
@@ -1,47 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-# since we're passing an int16, swap the MOVQ for the argument to a MOVW as per
-# the message given by go vet since it's a 2-byte value.
-PERL_FIXUP_MOVQ_MOVW=perl -i -pe 's/MOVQ rhs\+16\(FP\)/MOVW rhs+16(FP)/'
-C2GOASM=c2goasm -a -f
-CC=clang
-C_FLAGS=-masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 \
-				-fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma
-ASM_FLAGS_BMI2=-mbmi2
-ASM_FLAGS_POPCNT=-mpopcnt
-
-GO_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-INTEL_SOURCES := \
-	bitmap_bmi2.s
-
-.PHONEY: assembly
-
-assembly: $(INTEL_SOURCES)
-
-_lib/bitmap_bmi2.s: _lib/bitmap_bmi2.c
-	$(CC) -S $(ASM_FLAGS_AVX2) $(ASM_FLAGS_BMI2) $(ASM_FLAGS_POPCNT) $(C_FLAGS)  $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-bitmap_bmi2.s: _lib/bitmap_bmi2.s
-	$(C2GOASM) $^ $@ ; $(PERL_FIXUP_MOVQ_MOVW) $@
-
-clean:
-	rm -f $(INTEL_SOURCES)
-	rm -f _lib/$(INTEL_SOURCES)
diff --git a/go/parquet/internal/bmi/_lib/arch.h b/go/parquet/internal/bmi/_lib/arch.h
deleted file mode 100755
index 1d060277a3bb9..0000000000000
--- a/go/parquet/internal/bmi/_lib/arch.h
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#undef FULL_NAME
-
-#if defined(__BMI2__)
-    #include <x86intrin.h>
-    #define FULL_NAME(x) x##_bmi2
-#elif defined(__ARM_NEON) || defined(__ARM_NEON__)
-    #define FULL_NAME(x) x##_neon
-#else
-    #define FULL_NAME(x) x##_x86
-#endif
diff --git a/go/parquet/internal/bmi/_lib/bitmap_bmi2.c b/go/parquet/internal/bmi/_lib/bitmap_bmi2.c
deleted file mode 100644
index a020294fd6a38..0000000000000
--- a/go/parquet/internal/bmi/_lib/bitmap_bmi2.c
+++ /dev/null
@@ -1,47 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdint.h>
-
-#if !defined(__ARM_NEON) && !defined(__ARM_NEON__)
-// don't compile this for ARM, the pure go lookup table version
-// is more performant anyways since ARM doesn't have a BMI2/pext_u64
-// instruction we can call directly.
-uint64_t FULL_NAME(extract_bits)(uint64_t bitmap, uint64_t select_bitmap) {
-#if defined(__BMI2__)
-   return (uint64_t)(_pext_u64(bitmap, select_bitmap));
-#else
-  uint64_t res = 0;
-  for (uint64_t bp = 1; select_bitmap != 0; bp += bp) {
-    if (bitmap & select_bitmap & -select_bitmap) {
-      res |= bp;
-    }
-    select_bitmap &= (select_bitmap - 1);
-  }
-  return res;
-#endif
-}
-
-#endif
-
-uint64_t FULL_NAME(levels_to_bitmap)(const int16_t* levels, const int num_levels, const int16_t rhs) {
-  uint64_t mask = 0;
-  for (int x = 0; x < num_levels; x++) {
-    mask |= (uint64_t)(levels[x] > rhs ? 1 : 0) << x;
-  }
-  return mask;
-}
diff --git a/go/parquet/internal/bmi/_lib/bitmap_bmi2.s b/go/parquet/internal/bmi/_lib/bitmap_bmi2.s
deleted file mode 100644
index 1176b46428c59..0000000000000
--- a/go/parquet/internal/bmi/_lib/bitmap_bmi2.s
+++ /dev/null
@@ -1,140 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"bitmap_bmi2.c"
-	.globl	extract_bits_bmi2                    # -- Begin function extract_bits_bmi2
-	.p2align	4, 0x90
-	.type	extract_bits_bmi2,@function
-extract_bits_bmi2:                           # @extract_bits_bmi2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	pext	rax, rdi, rsi
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	extract_bits_bmi2, .Lfunc_end0-extract_bits_bmi2
-                                        # -- End function
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5                               # -- Begin function levels_to_bitmap_bmi2
-.LCPI1_0:
-	.quad	0                               # 0x0
-	.quad	1                               # 0x1
-	.quad	2                               # 0x2
-	.quad	3                               # 0x3
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3
-.LCPI1_1:
-	.quad	4                               # 0x4
-.LCPI1_2:
-	.quad	8                               # 0x8
-.LCPI1_3:
-	.quad	12                              # 0xc
-.LCPI1_4:
-	.quad	1                               # 0x1
-.LCPI1_5:
-	.quad	16                              # 0x10
-	.text
-	.globl	levels_to_bitmap_bmi2
-	.p2align	4, 0x90
-	.type	levels_to_bitmap_bmi2,@function
-levels_to_bitmap_bmi2:                       # @levels_to_bitmap_bmi2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB1_1
-# %bb.2:
-	mov	r8d, esi
-	cmp	esi, 15
-	ja	.LBB1_4
-# %bb.3:
-	xor	esi, esi
-	xor	eax, eax
-	jmp	.LBB1_7
-.LBB1_1:
-	xor	eax, eax
-	jmp	.LBB1_8
-.LBB1_4:
-	mov	esi, r8d
-	and	esi, -16
-	vmovd	xmm0, edx
-	vpbroadcastw	xmm1, xmm0
-	vpxor	xmm0, xmm0, xmm0
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [0,1,2,3]
-	vpbroadcastq	ymm12, qword ptr [rip + .LCPI1_1] # ymm12 = [4,4,4,4]
-	vpbroadcastq	ymm4, qword ptr [rip + .LCPI1_2] # ymm4 = [8,8,8,8]
-	vpbroadcastq	ymm5, qword ptr [rip + .LCPI1_3] # ymm5 = [12,12,12,12]
-	vpbroadcastq	ymm6, qword ptr [rip + .LCPI1_4] # ymm6 = [1,1,1,1]
-	vpbroadcastq	ymm7, qword ptr [rip + .LCPI1_5] # ymm7 = [16,16,16,16]
-	xor	eax, eax
-	vpxor	xmm8, xmm8, xmm8
-	vpxor	xmm9, xmm9, xmm9
-	vpxor	xmm10, xmm10, xmm10
-	.p2align	4, 0x90
-.LBB1_5:                                # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm11, ymm12, ymm2
-	vmovq	xmm3, qword ptr [rdi + 2*rax + 8] # xmm3 = mem[0],zero
-	vpcmpgtw	xmm3, xmm3, xmm1
-	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	ymm3, ymm3, ymm6
-	vpsllvq	ymm3, ymm3, ymm11
-	vpaddq	ymm11, ymm2, ymm4
-	vpor	ymm8, ymm8, ymm3
-	vmovq	xmm3, qword ptr [rdi + 2*rax + 16] # xmm3 = mem[0],zero
-	vpcmpgtw	xmm3, xmm3, xmm1
-	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	ymm3, ymm3, ymm6
-	vpsllvq	ymm3, ymm3, ymm11
-	vpaddq	ymm11, ymm2, ymm5
-	vpor	ymm9, ymm9, ymm3
-	vmovq	xmm3, qword ptr [rdi + 2*rax + 24] # xmm3 = mem[0],zero
-	vpcmpgtw	xmm3, xmm3, xmm1
-	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	ymm3, ymm3, ymm6
-	vpsllvq	ymm3, ymm3, ymm11
-	vpor	ymm10, ymm10, ymm3
-	vmovq	xmm3, qword ptr [rdi + 2*rax]   # xmm3 = mem[0],zero
-	vpcmpgtw	xmm3, xmm3, xmm1
-	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
-	vpand	ymm3, ymm3, ymm6
-	vpsllvq	ymm3, ymm3, ymm2
-	vpor	ymm0, ymm3, ymm0
-	add	rax, 16
-	vpaddq	ymm2, ymm2, ymm7
-	cmp	rsi, rax
-	jne	.LBB1_5
-# %bb.6:
-	vpor	ymm0, ymm8, ymm0
-	vpor	ymm0, ymm9, ymm0
-	vpor	ymm0, ymm10, ymm0
-	vextracti128	xmm1, ymm0, 1
-	vpor	xmm0, xmm0, xmm1
-	vpshufd	xmm1, xmm0, 78                  # xmm1 = xmm0[2,3,0,1]
-	vpor	xmm0, xmm0, xmm1
-	vmovq	rax, xmm0
-	cmp	rsi, r8
-	je	.LBB1_8
-	.p2align	4, 0x90
-.LBB1_7:                                # =>This Inner Loop Header: Depth=1
-	xor	ecx, ecx
-	cmp	word ptr [rdi + 2*rsi], dx
-	setg	cl
-	shlx	rcx, rcx, rsi
-	or	rax, rcx
-	add	rsi, 1
-	cmp	r8, rsi
-	jne	.LBB1_7
-.LBB1_8:
-	mov	rsp, rbp
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end1:
-	.size	levels_to_bitmap_bmi2, .Lfunc_end1-levels_to_bitmap_bmi2
-                                        # -- End function
-	.ident	"Ubuntu clang version 11.1.0-++20210204121720+1fdec59bffc1-1~exp1~20210203232336.162"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/parquet/internal/bmi/_lib/bitmap_neon.s b/go/parquet/internal/bmi/_lib/bitmap_neon.s
deleted file mode 100644
index d1d146f55cfab..0000000000000
--- a/go/parquet/internal/bmi/_lib/bitmap_neon.s
+++ /dev/null
@@ -1,95 +0,0 @@
-	.text
-	.file	"bitmap_bmi2.c"
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4               // -- Begin function levels_to_bitmap_neon
-.LCPI1_0:
-	.xword	0                       // 0x0
-	.xword	1                       // 0x1
-	.text
-	.globl	levels_to_bitmap_neon
-	.p2align	2
-	.type	levels_to_bitmap_neon,@function
-levels_to_bitmap_neon:                  // @levels_to_bitmap_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	cmp	w1, #1                  // =1
-	mov	x29, sp
-	b.lt	.LBB1_3
-// %bb.1:
-	cmp	w1, #3                  // =3
-	mov	w9, w1
-	b.hi	.LBB1_4
-// %bb.2:
-	mov	x10, xzr
-	mov	x8, xzr
-	b	.LBB1_7
-.LBB1_3:
-	mov	x8, xzr
-	b	.LBB1_8
-.LBB1_4:
-	adrp	x11, .LCPI1_0
-	ldr	q1, [x11, :lo12:.LCPI1_0]
-	mov	w11, #2
-	dup	v3.2s, w2
-	dup	v2.2d, x11
-	mov	w11, #1
-	and	x10, x9, #0xfffffffc
-	shl	v4.2s, v3.2s, #16
-	dup	v3.2d, x11
-	mov	w11, #4
-	add	x8, x0, #4              // =4
-	movi	v0.2d, #0000000000000000
-	sshr	v4.2s, v4.2s, #16
-	dup	v5.2d, x11
-	mov	x11, x10
-	movi	v6.2d, #0000000000000000
-.LBB1_5:                                // =>This Inner Loop Header: Depth=1
-	ldursh	w12, [x8, #-4]
-	ldrsh	w13, [x8]
-	ldursh	w14, [x8, #-2]
-	add	v17.2d, v1.2d, v2.2d
-	fmov	s7, w12
-	ldrsh	w12, [x8, #2]
-	fmov	s16, w13
-	mov	v7.s[1], w14
-	cmgt	v7.2s, v7.2s, v4.2s
-	mov	v16.s[1], w12
-	cmgt	v16.2s, v16.2s, v4.2s
-	ushll	v7.2d, v7.2s, #0
-	ushll	v16.2d, v16.2s, #0
-	and	v7.16b, v7.16b, v3.16b
-	and	v16.16b, v16.16b, v3.16b
-	ushl	v7.2d, v7.2d, v1.2d
-	ushl	v16.2d, v16.2d, v17.2d
-	subs	x11, x11, #4            // =4
-	add	v1.2d, v1.2d, v5.2d
-	orr	v0.16b, v7.16b, v0.16b
-	orr	v6.16b, v16.16b, v6.16b
-	add	x8, x8, #8              // =8
-	b.ne	.LBB1_5
-// %bb.6:
-	orr	v0.16b, v6.16b, v0.16b
-	dup	v1.2d, v0.d[1]
-	orr	v0.16b, v0.16b, v1.16b
-	cmp	x10, x9
-	fmov	x8, d0
-	b.eq	.LBB1_8
-.LBB1_7:                                // =>This Inner Loop Header: Depth=1
-	ldrsh	w11, [x0, x10, lsl #1]
-	cmp	w11, w2, sxth
-	cset	w11, gt
-	lsl	x11, x11, x10
-	add	x10, x10, #1            // =1
-	cmp	x9, x10
-	orr	x8, x11, x8
-	b.ne	.LBB1_7
-.LBB1_8:
-	mov	x0, x8
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end1:
-	.size	levels_to_bitmap_neon, .Lfunc_end1-levels_to_bitmap_neon
-                                        // -- End function
-	.ident	"clang version 10.0.0-4ubuntu1 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_386.go b/go/parquet/internal/bmi/bitmap_bmi2_386.go
deleted file mode 100644
index 60f898f6bd557..0000000000000
--- a/go/parquet/internal/bmi/bitmap_bmi2_386.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-func init() {
-	funclist.extractBits = extractBitsGo
-	funclist.gtbitmap = greaterThanBitmapGo
-}
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_amd64.go b/go/parquet/internal/bmi/bitmap_bmi2_amd64.go
deleted file mode 100644
index 7fe5a1654911e..0000000000000
--- a/go/parquet/internal/bmi/bitmap_bmi2_amd64.go
+++ /dev/null
@@ -1,51 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-import "unsafe"
-
-//go:noescape
-func _extract_bits_bmi2(bitmap, selectBitmap uint64) (res uint64)
-
-// extractBitsBMI2 uses BMI2 to call the pext instruction, Parallel Bits Extract
-// in order to quickly and efficiently extract the bits selected in a parallel
-// fashion. See the definition of the PEXT instruction for x86/x86-64 cpus
-func extractBitsBMI2(bitmap, selectBitmap uint64) uint64 {
-	return _extract_bits_bmi2(bitmap, selectBitmap)
-}
-
-//go:noescape
-func _levels_to_bitmap_bmi2(levels unsafe.Pointer, numLevels int, rhs int16) (res uint64)
-
-// greaterThanBitmapBMI2 builds a bitmap where each set bit indicates the corresponding level
-// is greater than the rhs value.
-func greaterThanBitmapBMI2(levels []int16, rhs int16) uint64 {
-	if len(levels) == 0 {
-		return 0
-	}
-
-	var (
-		p1 = unsafe.Pointer(&levels[0])
-		p2 = len(levels)
-		p3 = rhs
-	)
-
-	return _levels_to_bitmap_bmi2(p1, p2, p3)
-}
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_amd64.s b/go/parquet/internal/bmi/bitmap_bmi2_amd64.s
deleted file mode 100644
index 0cd9b68284c05..0000000000000
--- a/go/parquet/internal/bmi/bitmap_bmi2_amd64.s
+++ /dev/null
@@ -1,117 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_extract_bits_bmi2(SB), $0-24
-
-	MOVQ bitmap+0(FP), DI
-	MOVQ selectBitmap+8(FP), SI
-
-	LONG $0xf5c2e2c4; BYTE $0xc6 // pext    rax, rdi, rsi
-	MOVQ AX, res+16(FP)
-	RET
-
-DATA LCDATA1<>+0x000(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x008(SB)/8, $0x0000000000000001
-DATA LCDATA1<>+0x010(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x018(SB)/8, $0x0000000000000003
-DATA LCDATA1<>+0x020(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x028(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x030(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x038(SB)/8, $0x0000000000000001
-DATA LCDATA1<>+0x040(SB)/8, $0x0000000000000010
-GLOBL LCDATA1<>(SB), 8, $72
-
-TEXT ·_levels_to_bitmap_bmi2(SB), $0-32
-
-	MOVQ levels+0(FP), DI
-	MOVQ numLevels+8(FP), SI
-	MOVW rhs+16(FP), DX
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB1_1
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	WORD $0xfe83; BYTE $0x0f // cmp    esi, 15
-	JA   LBB1_4
-	WORD $0xf631             // xor    esi, esi
-	WORD $0xc031             // xor    eax, eax
-	JMP  LBB1_7
-
-LBB1_1:
-	WORD $0xc031 // xor    eax, eax
-	JMP  LBB1_8
-
-LBB1_4:
-	WORD $0x8944; BYTE $0xc6       // mov    esi, r8d
-	WORD $0xe683; BYTE $0xf0       // and    esi, -16
-	LONG $0xc26ef9c5               // vmovd    xmm0, edx
-	LONG $0x7979e2c4; BYTE $0xc8   // vpbroadcastw    xmm1, xmm0
-	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
-	LONG $0x556ffdc5; BYTE $0x00   // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
-	LONG $0x597d62c4; WORD $0x2065 // vpbroadcastq    ymm12, qword 32[rbp] /* [rip + .LCPI1_1] */
-	LONG $0x597de2c4; WORD $0x2865 // vpbroadcastq    ymm4, qword 40[rbp] /* [rip + .LCPI1_2] */
-	LONG $0x597de2c4; WORD $0x306d // vpbroadcastq    ymm5, qword 48[rbp] /* [rip + .LCPI1_3] */
-	LONG $0x597de2c4; WORD $0x3875 // vpbroadcastq    ymm6, qword 56[rbp] /* [rip + .LCPI1_4] */
-	LONG $0x597de2c4; WORD $0x407d // vpbroadcastq    ymm7, qword 64[rbp] /* [rip + .LCPI1_5] */
-	WORD $0xc031                   // xor    eax, eax
-	LONG $0xef3941c4; BYTE $0xc0   // vpxor    xmm8, xmm8, xmm8
-	LONG $0xef3141c4; BYTE $0xc9   // vpxor    xmm9, xmm9, xmm9
-	LONG $0xef2941c4; BYTE $0xd2   // vpxor    xmm10, xmm10, xmm10
-
-LBB1_5:
-	LONG $0xdad41dc5               // vpaddq    ymm11, ymm12, ymm2
-	LONG $0x5c7efac5; WORD $0x0847 // vmovq    xmm3, qword [rdi + 2*rax + 8]
-	LONG $0xd965e1c5               // vpcmpgtw    xmm3, xmm3, xmm1
-	LONG $0x347de2c4; BYTE $0xdb   // vpmovzxwq    ymm3, xmm3
-	LONG $0xdedbe5c5               // vpand    ymm3, ymm3, ymm6
-	LONG $0x47e5c2c4; BYTE $0xdb   // vpsllvq    ymm3, ymm3, ymm11
-	LONG $0xdcd46dc5               // vpaddq    ymm11, ymm2, ymm4
-	LONG $0xc3eb3dc5               // vpor    ymm8, ymm8, ymm3
-	LONG $0x5c7efac5; WORD $0x1047 // vmovq    xmm3, qword [rdi + 2*rax + 16]
-	LONG $0xd965e1c5               // vpcmpgtw    xmm3, xmm3, xmm1
-	LONG $0x347de2c4; BYTE $0xdb   // vpmovzxwq    ymm3, xmm3
-	LONG $0xdedbe5c5               // vpand    ymm3, ymm3, ymm6
-	LONG $0x47e5c2c4; BYTE $0xdb   // vpsllvq    ymm3, ymm3, ymm11
-	LONG $0xddd46dc5               // vpaddq    ymm11, ymm2, ymm5
-	LONG $0xcbeb35c5               // vpor    ymm9, ymm9, ymm3
-	LONG $0x5c7efac5; WORD $0x1847 // vmovq    xmm3, qword [rdi + 2*rax + 24]
-	LONG $0xd965e1c5               // vpcmpgtw    xmm3, xmm3, xmm1
-	LONG $0x347de2c4; BYTE $0xdb   // vpmovzxwq    ymm3, xmm3
-	LONG $0xdedbe5c5               // vpand    ymm3, ymm3, ymm6
-	LONG $0x47e5c2c4; BYTE $0xdb   // vpsllvq    ymm3, ymm3, ymm11
-	LONG $0xd3eb2dc5               // vpor    ymm10, ymm10, ymm3
-	LONG $0x1c7efac5; BYTE $0x47   // vmovq    xmm3, qword [rdi + 2*rax]
-	LONG $0xd965e1c5               // vpcmpgtw    xmm3, xmm3, xmm1
-	LONG $0x347de2c4; BYTE $0xdb   // vpmovzxwq    ymm3, xmm3
-	LONG $0xdedbe5c5               // vpand    ymm3, ymm3, ymm6
-	LONG $0x47e5e2c4; BYTE $0xda   // vpsllvq    ymm3, ymm3, ymm2
-	LONG $0xc0ebe5c5               // vpor    ymm0, ymm3, ymm0
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0xd7d4edc5               // vpaddq    ymm2, ymm2, ymm7
-	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
-	JNE  LBB1_5
-	LONG $0xc0ebbdc5               // vpor    ymm0, ymm8, ymm0
-	LONG $0xc0ebb5c5               // vpor    ymm0, ymm9, ymm0
-	LONG $0xc0ebadc5               // vpor    ymm0, ymm10, ymm0
-	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
-	LONG $0xc1ebf9c5               // vpor    xmm0, xmm0, xmm1
-	LONG $0xc870f9c5; BYTE $0x4e   // vpshufd    xmm1, xmm0, 78
-	LONG $0xc1ebf9c5               // vpor    xmm0, xmm0, xmm1
-	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
-	WORD $0x394c; BYTE $0xc6       // cmp    rsi, r8
-	JE   LBB1_8
-
-LBB1_7:
-	WORD $0xc931                 // xor    ecx, ecx
-	LONG $0x77143966             // cmp    word [rdi + 2*rsi], dx
-	WORD $0x9f0f; BYTE $0xd1     // setg    cl
-	LONG $0xf7c9e2c4; BYTE $0xc9 // shlx    rcx, rcx, rsi
-	WORD $0x0948; BYTE $0xc8     // or    rax, rcx
-	LONG $0x01c68348             // add    rsi, 1
-	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
-	JNE  LBB1_7
-
-LBB1_8:
-	VZEROUPPER
-	MOVQ AX, res+24(FP)
-	RET
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_noasm.go b/go/parquet/internal/bmi/bitmap_bmi2_noasm.go
deleted file mode 100644
index 03be648e011a7..0000000000000
--- a/go/parquet/internal/bmi/bitmap_bmi2_noasm.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package bmi
-
-func init() {
-	funclist.extractBits = extractBitsGo
-	funclist.gtbitmap = greaterThanBitmapGo
-}
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_ppc64le.go b/go/parquet/internal/bmi/bitmap_bmi2_ppc64le.go
deleted file mode 100644
index 60f898f6bd557..0000000000000
--- a/go/parquet/internal/bmi/bitmap_bmi2_ppc64le.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-func init() {
-	funclist.extractBits = extractBitsGo
-	funclist.gtbitmap = greaterThanBitmapGo
-}
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_s390x.go b/go/parquet/internal/bmi/bitmap_bmi2_s390x.go
deleted file mode 100644
index 60f898f6bd557..0000000000000
--- a/go/parquet/internal/bmi/bitmap_bmi2_s390x.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-func init() {
-	funclist.extractBits = extractBitsGo
-	funclist.gtbitmap = greaterThanBitmapGo
-}
diff --git a/go/parquet/internal/bmi/bitmap_neon_arm64.go b/go/parquet/internal/bmi/bitmap_neon_arm64.go
deleted file mode 100755
index 65471d35288c3..0000000000000
--- a/go/parquet/internal/bmi/bitmap_neon_arm64.go
+++ /dev/null
@@ -1,41 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-import "unsafe"
-
-//go:noescape
-func _levels_to_bitmap_neon(levels unsafe.Pointer, numLevels int, rhs int16) (res uint64)
-
-// greaterThanBitmapNEON builds a bitmap where each set bit indicates the corresponding level
-// is greater than the rhs value.
-func greaterThanBitmapNEON(levels []int16, rhs int16) uint64 {
-	if len(levels) == 0 {
-		return 0
-	}
-
-	var (
-		p1 = unsafe.Pointer(&levels[0])
-		p2 = len(levels)
-		p3 = rhs
-	)
-
-	return _levels_to_bitmap_neon(p1, p2, p3)
-}
diff --git a/go/parquet/internal/bmi/bitmap_neon_arm64.s b/go/parquet/internal/bmi/bitmap_neon_arm64.s
deleted file mode 100755
index abde5843c68e2..0000000000000
--- a/go/parquet/internal/bmi/bitmap_neon_arm64.s
+++ /dev/null
@@ -1,84 +0,0 @@
-//+build !noasm !appengine
-
-// (C2GOASM doesn't work correctly for Arm64)
-// func _levels_to_bitmap_neon(levels unsafe.Pointer, numLevels int, rhs int16) (res uint64)
-TEXT ·_levels_to_bitmap_neon(SB), $0-32
-
-    MOVD levels+0(FP), R0
-    MOVD numLevels+8(FP), R1
-    MOVD rhs+16(FP), R2
-
-    WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
-    WORD $0x7100043f // cmp    w1, #1
-    WORD $0x910003fd // mov    x29, sp
-    BLT LBB1_3
-
-    WORD $0x71000c3f // cmp    w1, #3
-    WORD $0x2a0103e9 // mov    w9, w1
-    BHI LBB1_4
-    WORD $0xaa1f03ea // mov    x10, xzr
-    WORD $0xaa1f03e8 // mov    x8, xzr
-    JMP LBB1_7
-LBB1_3:
-    WORD $0xaa1f03e8 // mov    x8, xzr
-    JMP LBB1_8
-LBB1_4:
-    VMOVQ $0x0000000000000000, $0x0000000000000001, V1 // adrp	x11, .LCPI1_0; ldr q1, [x11, :lo12:.LCPI1_0]
-    WORD $0x5280004b // mov    w11, #2
-    WORD $0x0e040c43 // dup    v3.2s, w2
-    WORD $0x4e080d62 // dup    v2.2d, x11
-    WORD $0x5280002b // mov    w11, #1
-    WORD $0x927e752a // and    x10, x9, #0xfffffffc
-    WORD $0x0f305464 // shl    v4.2s, v3.2s, #16
-    WORD $0x4e080d63 // dup    v3.2d, x11
-    WORD $0x5280008b // mov    w11, #4
-    WORD $0x91001008 // add    x8, x0, #4
-    WORD $0x6f00e400 // movi    v0.2d, #0000000000000000
-    WORD $0x0f300484 // sshr    v4.2s, v4.2s, #16
-    WORD $0x4e080d65 // dup    v5.2d, x11
-    WORD $0xaa0a03eb // mov    x11, x10
-    WORD $0x6f00e406 // movi    v6.2d, #0000000000000000
-LBB1_5:
-    WORD $0x78dfc10c // ldursh    w12, [x8, #-4]
-    WORD $0x79c0010d // ldrsh    w13, [x8]
-    WORD $0x78dfe10e // ldursh    w14, [x8, #-2]
-    WORD $0x4ee28431 // add    v17.2d, v1.2d, v2.2d
-    WORD $0x1e270187 // fmov    s7, w12
-    WORD $0x79c0050c // ldrsh    w12, [x8, #2]
-    WORD $0x1e2701b0 // fmov    s16, w13
-    WORD $0x4e0c1dc7 // mov    v7.s[1], w14
-    WORD $0x0ea434e7 // cmgt    v7.2s, v7.2s, v4.2s
-    WORD $0x4e0c1d90 // mov    v16.s[1], w12
-    WORD $0x0ea43610 // cmgt    v16.2s, v16.2s, v4.2s
-    WORD $0x2f20a4e7 // ushll    v7.2d, v7.2s, #0
-    WORD $0x2f20a610 // ushll    v16.2d, v16.2s, #0
-    WORD $0x4e231ce7 // and    v7.16b, v7.16b, v3.16b
-    WORD $0x4e231e10 // and    v16.16b, v16.16b, v3.16b
-    WORD $0x6ee144e7 // ushl    v7.2d, v7.2d, v1.2d
-    WORD $0x6ef14610 // ushl    v16.2d, v16.2d, v17.2d
-    WORD $0xf100116b // subs    x11, x11, #4
-    WORD $0x4ee58421 // add    v1.2d, v1.2d, v5.2d
-    WORD $0x4ea01ce0 // orr    v0.16b, v7.16b, v0.16b
-    WORD $0x4ea61e06 // orr    v6.16b, v16.16b, v6.16b
-    WORD $0x91002108 // add    x8, x8, #8
-    BNE LBB1_5
-    WORD $0x4ea01cc0 // orr    v0.16b, v6.16b, v0.16b
-    WORD $0x4e180401 // dup    v1.2d, v0.d[1]
-    WORD $0x4ea11c00 // orr    v0.16b, v0.16b, v1.16b
-    WORD $0xeb09015f // cmp    x10, x9
-    WORD $0x9e660008 // fmov    x8, d0
-    BEQ LBB1_8
-LBB1_7:
-    WORD $0x78ea780b // ldrsh    w11, [x0, x10, lsl #1]
-    WORD $0x6b22a17f // cmp    w11, w2, sxth
-    WORD $0x1a9fd7eb // cset    w11, gt
-    WORD $0x9aca216b // lsl    x11, x11, x10
-    WORD $0x9100054a // add    x10, x10, #1
-    WORD $0xeb0a013f // cmp    x9, x10
-    WORD $0xaa080168 // orr    x8, x11, x8
-    BNE LBB1_7
-LBB1_8:
-    WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-    MOVD R8, res+24(FP)
-    RET
-
diff --git a/go/parquet/internal/bmi/bmi.go b/go/parquet/internal/bmi/bmi.go
deleted file mode 100644
index a12af3e75d8e4..0000000000000
--- a/go/parquet/internal/bmi/bmi.go
+++ /dev/null
@@ -1,275 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package bmi contains helpers for manipulating bitmaps via BMI2 extensions
-// properly falling back to pure go implementations if the CPU doesn't support
-// BMI2.
-package bmi
-
-import "math/bits"
-
-type funcs struct {
-	extractBits func(uint64, uint64) uint64
-	gtbitmap    func([]int16, int16) uint64
-}
-
-var funclist funcs
-
-// ExtractBits performs a Parallel Bit extract as per the PEXT instruction for
-// x86/x86-64 cpus to use the second parameter as a mask to extract the bits from
-// the first argument into a new bitmap.
-//
-// For each bit Set in selectBitmap, the corresponding bits are extracted from bitmap
-// and written to contiguous lower bits of the result, the remaining upper bits are zeroed.
-func ExtractBits(bitmap, selectBitmap uint64) uint64 {
-	return funclist.extractBits(bitmap, selectBitmap)
-}
-
-// GreaterThanBitmap builds a bitmap where each bit corresponds to whether or not
-// the level in that index is greater than the value of rhs.
-func GreaterThanBitmap(levels []int16, rhs int16) uint64 {
-	return funclist.gtbitmap(levels, rhs)
-}
-
-/* Python code to generate lookup table:
-kLookupBits = 5
-count = 0
-print('constexpr int kLookupBits = {};'.format(kLookupBits))
-print('constexpr uint8_t kPextTable[1 << kLookupBits][1 << kLookupBits] = {')
-print(' ', end = '')
-for mask in range(1 << kLookupBits):
-    for data in range(1 << kLookupBits):
-        bit_value = 0
-        bit_len = 0
-        for i in range(kLookupBits):
-            if mask & (1 << i):
-                bit_value |= (((data >> i) & 1) << bit_len)
-                bit_len += 1
-        out = '0x{:02X},'.format(bit_value)
-        count += 1
-        if count % (1 << kLookupBits) == 1:
-            print(' {')
-        if count % 8 == 1:
-            print('    ', end = '')
-        if count % 8 == 0:
-            print(out, end = '\n')
-        else:
-            print(out, end = ' ')
-        if count % (1 << kLookupBits) == 0:
-            print('  },', end = '')
-print('\n};')
-*/
-
-const lookupBits = 5
-
-var pextTable = [1 << lookupBits][1 << lookupBits]uint8{
-	{
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00,
-		0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01,
-		0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01,
-		0x01, 0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01, 0x01, 0x00, 0x00,
-		0x01, 0x01, 0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01, 0x01,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02,
-		0x03, 0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02, 0x03, 0x00, 0x01,
-		0x02, 0x03, 0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02, 0x03,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01, 0x01, 0x00, 0x00, 0x00,
-		0x00, 0x01, 0x01, 0x01, 0x01, 0x00, 0x00, 0x00, 0x00, 0x01, 0x01,
-		0x01, 0x01, 0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01, 0x01,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02, 0x03, 0x00, 0x01, 0x00,
-		0x01, 0x02, 0x03, 0x02, 0x03, 0x00, 0x01, 0x00, 0x01, 0x02, 0x03,
-		0x02, 0x03, 0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02, 0x03,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03, 0x03, 0x00, 0x00, 0x01,
-		0x01, 0x02, 0x02, 0x03, 0x03, 0x00, 0x00, 0x01, 0x01, 0x02, 0x02,
-		0x03, 0x03, 0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03, 0x03,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x00, 0x01, 0x02,
-		0x03, 0x04, 0x05, 0x06, 0x07, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05,
-		0x06, 0x07, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01,
-		0x01, 0x01, 0x01, 0x01, 0x01, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
-		0x00, 0x00, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02,
-		0x03, 0x02, 0x03, 0x02, 0x03, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01,
-		0x00, 0x01, 0x02, 0x03, 0x02, 0x03, 0x02, 0x03, 0x02, 0x03,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03,
-		0x03, 0x02, 0x02, 0x03, 0x03, 0x00, 0x00, 0x01, 0x01, 0x00, 0x00,
-		0x01, 0x01, 0x02, 0x02, 0x03, 0x03, 0x02, 0x02, 0x03, 0x03,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06,
-		0x07, 0x04, 0x05, 0x06, 0x07, 0x00, 0x01, 0x02, 0x03, 0x00, 0x01,
-		0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x04, 0x05, 0x06, 0x07,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01, 0x01, 0x02, 0x02, 0x02,
-		0x02, 0x03, 0x03, 0x03, 0x03, 0x00, 0x00, 0x00, 0x00, 0x01, 0x01,
-		0x01, 0x01, 0x02, 0x02, 0x02, 0x02, 0x03, 0x03, 0x03, 0x03,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02, 0x03, 0x04, 0x05, 0x04,
-		0x05, 0x06, 0x07, 0x06, 0x07, 0x00, 0x01, 0x00, 0x01, 0x02, 0x03,
-		0x02, 0x03, 0x04, 0x05, 0x04, 0x05, 0x06, 0x07, 0x06, 0x07,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03, 0x03, 0x04, 0x04, 0x05,
-		0x05, 0x06, 0x06, 0x07, 0x07, 0x00, 0x00, 0x01, 0x01, 0x02, 0x02,
-		0x03, 0x03, 0x04, 0x04, 0x05, 0x05, 0x06, 0x06, 0x07, 0x07,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x08, 0x09, 0x0A,
-		0x0B, 0x0C, 0x0D, 0x0E, 0x0F, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05,
-		0x06, 0x07, 0x08, 0x09, 0x0A, 0x0B, 0x0C, 0x0D, 0x0E, 0x0F,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01,
-		0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00,
-		0x01, 0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02, 0x03, 0x02, 0x03,
-		0x02, 0x03, 0x02, 0x03, 0x02, 0x03, 0x02, 0x03, 0x02, 0x03,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01,
-		0x01, 0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03, 0x03, 0x02, 0x02,
-		0x03, 0x03, 0x02, 0x02, 0x03, 0x03, 0x02, 0x02, 0x03, 0x03,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02,
-		0x03, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x04, 0x05,
-		0x06, 0x07, 0x04, 0x05, 0x06, 0x07, 0x04, 0x05, 0x06, 0x07,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01, 0x01, 0x00, 0x00, 0x00,
-		0x00, 0x01, 0x01, 0x01, 0x01, 0x02, 0x02, 0x02, 0x02, 0x03, 0x03,
-		0x03, 0x03, 0x02, 0x02, 0x02, 0x02, 0x03, 0x03, 0x03, 0x03,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02, 0x03, 0x00, 0x01, 0x00,
-		0x01, 0x02, 0x03, 0x02, 0x03, 0x04, 0x05, 0x04, 0x05, 0x06, 0x07,
-		0x06, 0x07, 0x04, 0x05, 0x04, 0x05, 0x06, 0x07, 0x06, 0x07,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03, 0x03, 0x00, 0x00, 0x01,
-		0x01, 0x02, 0x02, 0x03, 0x03, 0x04, 0x04, 0x05, 0x05, 0x06, 0x06,
-		0x07, 0x07, 0x04, 0x04, 0x05, 0x05, 0x06, 0x06, 0x07, 0x07,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x00, 0x01, 0x02,
-		0x03, 0x04, 0x05, 0x06, 0x07, 0x08, 0x09, 0x0A, 0x0B, 0x0C, 0x0D,
-		0x0E, 0x0F, 0x08, 0x09, 0x0A, 0x0B, 0x0C, 0x0D, 0x0E, 0x0F,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01,
-		0x01, 0x01, 0x01, 0x01, 0x01, 0x02, 0x02, 0x02, 0x02, 0x02, 0x02,
-		0x02, 0x02, 0x03, 0x03, 0x03, 0x03, 0x03, 0x03, 0x03, 0x03,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02,
-		0x03, 0x02, 0x03, 0x02, 0x03, 0x04, 0x05, 0x04, 0x05, 0x04, 0x05,
-		0x04, 0x05, 0x06, 0x07, 0x06, 0x07, 0x06, 0x07, 0x06, 0x07,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03,
-		0x03, 0x02, 0x02, 0x03, 0x03, 0x04, 0x04, 0x05, 0x05, 0x04, 0x04,
-		0x05, 0x05, 0x06, 0x06, 0x07, 0x07, 0x06, 0x06, 0x07, 0x07,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06,
-		0x07, 0x04, 0x05, 0x06, 0x07, 0x08, 0x09, 0x0A, 0x0B, 0x08, 0x09,
-		0x0A, 0x0B, 0x0C, 0x0D, 0x0E, 0x0F, 0x0C, 0x0D, 0x0E, 0x0F,
-	},
-	{
-		0x00, 0x00, 0x00, 0x00, 0x01, 0x01, 0x01, 0x01, 0x02, 0x02, 0x02,
-		0x02, 0x03, 0x03, 0x03, 0x03, 0x04, 0x04, 0x04, 0x04, 0x05, 0x05,
-		0x05, 0x05, 0x06, 0x06, 0x06, 0x06, 0x07, 0x07, 0x07, 0x07,
-	},
-	{
-		0x00, 0x01, 0x00, 0x01, 0x02, 0x03, 0x02, 0x03, 0x04, 0x05, 0x04,
-		0x05, 0x06, 0x07, 0x06, 0x07, 0x08, 0x09, 0x08, 0x09, 0x0A, 0x0B,
-		0x0A, 0x0B, 0x0C, 0x0D, 0x0C, 0x0D, 0x0E, 0x0F, 0x0E, 0x0F,
-	},
-	{
-		0x00, 0x00, 0x01, 0x01, 0x02, 0x02, 0x03, 0x03, 0x04, 0x04, 0x05,
-		0x05, 0x06, 0x06, 0x07, 0x07, 0x08, 0x08, 0x09, 0x09, 0x0A, 0x0A,
-		0x0B, 0x0B, 0x0C, 0x0C, 0x0D, 0x0D, 0x0E, 0x0E, 0x0F, 0x0F,
-	},
-	{
-		0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x08, 0x09, 0x0A,
-		0x0B, 0x0C, 0x0D, 0x0E, 0x0F, 0x10, 0x11, 0x12, 0x13, 0x14, 0x15,
-		0x16, 0x17, 0x18, 0x19, 0x1A, 0x1B, 0x1C, 0x1D, 0x1E, 0x1F,
-	},
-}
-
-// software emulation of _pext_u64
-func extractBitsGo(bitmap, selectBitmap uint64) uint64 {
-	if selectBitmap == ^uint64(0) {
-		return bitmap
-	} else if selectBitmap == 0 {
-		return 0
-	}
-
-	// fallback to lookup table method
-	bitValue := uint64(0)
-	bitLen := int(0)
-	const lookupMask = uint64((uint(1) << lookupBits) - 1)
-
-	for selectBitmap != 0 {
-		maskLen := bits.OnesCount32(uint32(selectBitmap & lookupMask))
-		value := pextTable[selectBitmap&lookupMask][bitmap&lookupMask]
-		bitValue |= uint64(value) << bitLen
-		bitLen += maskLen
-		bitmap >>= lookupBits
-		selectBitmap >>= lookupBits
-	}
-	return bitValue
-}
-
-func greaterThanBitmapGo(levels []int16, rhs int16) uint64 {
-	mask := uint64(0)
-	for idx, lvl := range levels {
-		if lvl > rhs {
-			mask |= uint64(1) << idx
-		} else {
-			mask |= uint64(0) << idx
-		}
-	}
-	return mask
-}
diff --git a/go/parquet/internal/bmi/bmi_amd64.go b/go/parquet/internal/bmi/bmi_amd64.go
deleted file mode 100644
index f894b160d4c8b..0000000000000
--- a/go/parquet/internal/bmi/bmi_amd64.go
+++ /dev/null
@@ -1,37 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.X86.HasBMI2 {
-		funclist.extractBits = extractBitsBMI2
-	} else {
-		funclist.extractBits = extractBitsGo
-	}
-	if cpu.X86.HasAVX2 {
-		funclist.gtbitmap = greaterThanBitmapBMI2
-	} else {
-		funclist.gtbitmap = greaterThanBitmapGo
-	}
-}
diff --git a/go/parquet/internal/bmi/bmi_arm64.go b/go/parquet/internal/bmi/bmi_arm64.go
deleted file mode 100755
index 4174f6d06d989..0000000000000
--- a/go/parquet/internal/bmi/bmi_arm64.go
+++ /dev/null
@@ -1,64 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package bmi
-
-import (
-	"fmt"
-	"os"
-	"strings"
-
-	"github.com/klauspost/cpuid/v2"
-)
-
-func init() {
-	// Added ability to enable extension via environment:
-	// ARM_ENABLE_EXT=NEON go test
-	if ext, ok := os.LookupEnv("ARM_ENABLE_EXT"); ok {
-		if ext == "DISABLE" {
-			cpuid.CPU.Disable(cpuid.ASIMD, cpuid.AESARM, cpuid.PMULL)
-		} else {
-			exts := strings.Split(ext, ",")
-
-			for _, x := range exts {
-				switch x {
-				case "NEON":
-					cpuid.CPU.Enable(cpuid.ASIMD)
-				case "AES":
-					cpuid.CPU.Enable(cpuid.AESARM)
-				case "PMULL":
-					cpuid.CPU.Enable(cpuid.PMULL)
-				default:
-					fmt.Fprintln(os.Stderr, "unrecognized value for ARM_ENABLE_EXT:", x)
-				}
-			}
-		}
-	}
-
-	// after benchmarking, turns out the pure go lookup table version
-	// is nearly twice as fast as the non-lookup table assembly
-	// because arm doesn't have a PEXT instruction.
-	funclist.extractBits = extractBitsGo
-
-	if cpuid.CPU.Has(cpuid.ASIMD) {
-		funclist.gtbitmap = greaterThanBitmapNEON
-	} else {
-		funclist.gtbitmap = greaterThanBitmapGo
-	}
-}
diff --git a/go/parquet/internal/bmi/bmi_test.go b/go/parquet/internal/bmi/bmi_test.go
deleted file mode 100644
index 41a74ba3afcc3..0000000000000
--- a/go/parquet/internal/bmi/bmi_test.go
+++ /dev/null
@@ -1,47 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package bmi_test
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet/internal/bmi"
-	"github.com/stretchr/testify/assert"
-)
-
-// Testing the issue in GH-37712
-func TestBasicExtractBits(t *testing.T) {
-	tests := []struct {
-		bitmap, selection uint64
-		expected          uint64
-	}{
-		{0, 0, 0},
-		{0xFF, 0, 0},
-		{0xFF, ^uint64(0), 0xFF},
-		{0xFF00FF, 0xAAAA, 0x000F},
-		{0xFF0AFF, 0xAFAA, 0x00AF},
-		{0xFFAAFF, 0xAFAA, 0x03AF},
-		{0xFECBDA9876543210, 0xF00FF00FF00FF00F, 0xFBD87430},
-	}
-
-	for _, tt := range tests {
-		t.Run(fmt.Sprintf("%d-%d=>%d", tt.bitmap, tt.selection, tt.expected), func(t *testing.T) {
-			assert.Equal(t, tt.expected, bmi.ExtractBits(tt.bitmap, tt.selection))
-		})
-	}
-}
diff --git a/go/parquet/internal/debug/assert_off.go b/go/parquet/internal/debug/assert_off.go
deleted file mode 100644
index 1450ecc98a26e..0000000000000
--- a/go/parquet/internal/debug/assert_off.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !assert
-// +build !assert
-
-package debug
-
-// Assert will panic with msg if cond is false.
-//
-// msg must be a string, func() string or fmt.Stringer.
-func Assert(cond bool, msg interface{}) {}
diff --git a/go/parquet/internal/debug/assert_on.go b/go/parquet/internal/debug/assert_on.go
deleted file mode 100644
index 1a47460fd542a..0000000000000
--- a/go/parquet/internal/debug/assert_on.go
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build assert
-// +build assert
-
-package debug
-
-// Assert will panic with msg if cond is false.
-//
-// msg should be a string or fmt.Stringer
-func Assert(cond bool, msg interface{}) {
-	if !cond {
-		panic(msg)
-	}
-}
diff --git a/go/parquet/internal/debug/doc.go b/go/parquet/internal/debug/doc.go
deleted file mode 100644
index d3965793a0825..0000000000000
--- a/go/parquet/internal/debug/doc.go
+++ /dev/null
@@ -1,23 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package debug provides APIs for conditional runtime assertions and debug logging.
-//
-// # Using Assert
-//
-// To enable runtime assertions, build with the assert tag. When the assert tag is omitted,
-// the code for the assertion will be omitted from the binary.
-package debug
diff --git a/go/parquet/internal/debug/log_off.go b/go/parquet/internal/debug/log_off.go
deleted file mode 100644
index 09f0e09a5ed1d..0000000000000
--- a/go/parquet/internal/debug/log_off.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !debug
-// +build !debug
-
-package debug
-
-// use build tags in order to control the existence of this log function vs it getting
-// optimized away as a noop without the debug build tag.
-
-func Log(interface{}) {}
diff --git a/go/parquet/internal/debug/log_on.go b/go/parquet/internal/debug/log_on.go
deleted file mode 100644
index 0067e442d3693..0000000000000
--- a/go/parquet/internal/debug/log_on.go
+++ /dev/null
@@ -1,33 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build debug
-// +build debug
-
-package debug
-
-import (
-	"log"
-	"os"
-)
-
-var (
-	debug = log.New(os.Stderr, "[D] ", log.LstdFlags)
-)
-
-func Log(msg interface{}) {
-	debug.Println(msg)
-}
diff --git a/go/parquet/internal/encoding/boolean_decoder.go b/go/parquet/internal/encoding/boolean_decoder.go
deleted file mode 100644
index 772fe96fde8f0..0000000000000
--- a/go/parquet/internal/encoding/boolean_decoder.go
+++ /dev/null
@@ -1,189 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"bytes"
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-)
-
-// PlainBooleanDecoder is for the Plain Encoding type, there is no
-// dictionary decoding for bools.
-type PlainBooleanDecoder struct {
-	decoder
-
-	bitOffset int
-}
-
-// Type for the PlainBooleanDecoder is parquet.Types.Boolean
-func (PlainBooleanDecoder) Type() parquet.Type {
-	return parquet.Types.Boolean
-}
-
-func (dec *PlainBooleanDecoder) SetData(nvals int, data []byte) error {
-	if err := dec.decoder.SetData(nvals, data); err != nil {
-		return err
-	}
-	dec.bitOffset = 0
-	return nil
-}
-
-// Decode fills out with bools decoded from the data at the current point
-// or until we reach the end of the data.
-//
-// Returns the number of values decoded
-func (dec *PlainBooleanDecoder) Decode(out []bool) (int, error) {
-	max := shared_utils.Min(len(out), dec.nvals)
-
-	// attempts to read all remaining bool values from the current data byte
-	unalignedExtract := func(i int) int {
-		for ; dec.bitOffset < 8 && i < max; i, dec.bitOffset = i+1, dec.bitOffset+1 {
-			out[i] = (dec.data[0] & byte(1<<dec.bitOffset)) != 0
-		}
-		if dec.bitOffset == 8 {
-			// we read every bit from this byte
-			dec.bitOffset = 0
-			dec.data = dec.data[1:] // move data forward
-		}
-		return i // return the next index for out[]
-	}
-
-	// if we aren't at a byte boundary, then get bools until we hit
-	// a byte boundary with the bit offset.
-	i := 0
-	if dec.bitOffset != 0 {
-		i = unalignedExtract(i)
-	}
-
-	// determine the number of full bytes worth of bits we can decode
-	// given the number of values we want to decode.
-	bitsRemain := max - i
-	batch := (bitsRemain / 8) * 8
-	if batch > 0 { // only go in here if there's at least one full byte to decode
-		// determine the number of aligned bytes we can grab using SIMD optimized
-		// functions to improve performance.
-		alignedBytes := bitutil.BytesForBits(int64(batch))
-		utils.BytesToBools(dec.data[:alignedBytes], out[i:])
-
-		dec.data = dec.data[alignedBytes:] // move data forward
-		i += int(alignedBytes) * 8
-	}
-
-	// grab any trailing bits now that we've got our aligned bytes.
-	_ = unalignedExtract(i)
-
-	dec.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is like Decode except it expands the values to leave spaces for null
-// as determined by the validBits bitmap.
-func (dec *PlainBooleanDecoder) DecodeSpaced(out []bool, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount > 0 {
-		toRead := len(out) - nullCount
-		valuesRead, err := dec.Decode(out[:toRead])
-		if err != nil {
-			return 0, err
-		}
-		if valuesRead != toRead {
-			return valuesRead, errors.New("parquet: boolean decoder: number of values / definition levels read did not match")
-		}
-		return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-	}
-	return dec.Decode(out)
-}
-
-type RleBooleanDecoder struct {
-	decoder
-
-	rleDec *utils.RleDecoder
-}
-
-func (RleBooleanDecoder) Type() parquet.Type {
-	return parquet.Types.Boolean
-}
-
-func (dec *RleBooleanDecoder) SetData(nvals int, data []byte) error {
-	dec.nvals = nvals
-
-	if len(data) < 4 {
-		return fmt.Errorf("invalid length - %d (corrupt data page?)", len(data))
-	}
-
-	// load the first 4 bytes in little-endian which indicates the length
-	nbytes := binary.LittleEndian.Uint32(data[:4])
-	if nbytes > uint32(len(data)-4) {
-		return fmt.Errorf("received invalid number of bytes - %d (corrupt data page?)", nbytes)
-	}
-
-	dec.data = data[4:]
-	if dec.rleDec == nil {
-		dec.rleDec = utils.NewRleDecoder(bytes.NewReader(dec.data), 1)
-	} else {
-		dec.rleDec.Reset(bytes.NewReader(dec.data), 1)
-	}
-	return nil
-}
-
-func (dec *RleBooleanDecoder) Decode(out []bool) (int, error) {
-	max := shared_utils.Min(len(out), dec.nvals)
-
-	var (
-		buf [1024]uint64
-		n   = max
-	)
-
-	for n > 0 {
-		batch := shared_utils.Min(len(buf), n)
-		decoded := dec.rleDec.GetBatch(buf[:batch])
-		if decoded != batch {
-			return max - n, io.ErrUnexpectedEOF
-		}
-
-		for i := 0; i < batch; i++ {
-			out[i] = buf[i] != 0
-		}
-		n -= batch
-		out = out[batch:]
-	}
-
-	dec.nvals -= max
-	return max, nil
-}
-
-func (dec *RleBooleanDecoder) DecodeSpaced(out []bool, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount > 0 {
-		toRead := len(out) - nullCount
-		valuesRead, err := dec.Decode(out[:toRead])
-		if err != nil {
-			return 0, err
-		}
-		if valuesRead != toRead {
-			return valuesRead, errors.New("parquet: rle boolean decoder: number of values / definition levels read did not match")
-		}
-		return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-	}
-	return dec.Decode(out)
-}
diff --git a/go/parquet/internal/encoding/boolean_encoder.go b/go/parquet/internal/encoding/boolean_encoder.go
deleted file mode 100644
index b95707cb2b1da..0000000000000
--- a/go/parquet/internal/encoding/boolean_encoder.go
+++ /dev/null
@@ -1,144 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"encoding/binary"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-)
-
-const (
-	boolBufSize = 1024
-	boolsInBuf  = boolBufSize * 8
-)
-
-// PlainBooleanEncoder encodes bools as a bitmap as per the Plain Encoding
-type PlainBooleanEncoder struct {
-	encoder
-	bitsBuffer []byte
-	wr         utils.BitmapWriter
-}
-
-// Type for the PlainBooleanEncoder is parquet.Types.Boolean
-func (PlainBooleanEncoder) Type() parquet.Type {
-	return parquet.Types.Boolean
-}
-
-// Put encodes the contents of in into the underlying data buffer.
-func (enc *PlainBooleanEncoder) Put(in []bool) {
-	if enc.bitsBuffer == nil {
-		enc.bitsBuffer = make([]byte, boolBufSize)
-	}
-	if enc.wr == nil {
-		enc.wr = utils.NewBitmapWriter(enc.bitsBuffer, 0, boolsInBuf)
-	}
-	if len(in) == 0 {
-		return
-	}
-
-	n := enc.wr.AppendBools(in)
-	for n < len(in) {
-		enc.wr.Finish()
-		enc.append(enc.bitsBuffer)
-		enc.wr.Reset(0, boolsInBuf)
-		in = in[n:]
-		n = enc.wr.AppendBools(in)
-	}
-}
-
-// PutSpaced will use the validBits bitmap to determine which values are nulls
-// and can be left out from the slice, and the encoded without those nulls.
-func (enc *PlainBooleanEncoder) PutSpaced(in []bool, validBits []byte, validBitsOffset int64) {
-	bufferOut := make([]bool, len(in))
-	nvalid := spacedCompress(in, bufferOut, validBits, validBitsOffset)
-	enc.Put(bufferOut[:nvalid])
-}
-
-// EstimatedDataEncodedSize returns the current number of bytes that have
-// been buffered so far
-func (enc *PlainBooleanEncoder) EstimatedDataEncodedSize() int64 {
-	return int64(enc.sink.Len() + int(bitutil.BytesForBits(int64(enc.wr.Pos()))))
-}
-
-// FlushValues returns the buffered data, the responsibility is on the caller
-// to release the buffer memory
-func (enc *PlainBooleanEncoder) FlushValues() (Buffer, error) {
-	if enc.wr.Pos() > 0 {
-		toFlush := int(enc.wr.Pos())
-		enc.append(enc.bitsBuffer[:bitutil.BytesForBits(int64(toFlush))])
-	}
-
-	enc.wr.Reset(0, boolsInBuf)
-
-	return enc.sink.Finish(), nil
-}
-
-const rleLengthInBytes = 4
-
-type RleBooleanEncoder struct {
-	encoder
-
-	bufferedValues []bool
-}
-
-func (RleBooleanEncoder) Type() parquet.Type {
-	return parquet.Types.Boolean
-}
-
-func (enc *RleBooleanEncoder) Put(in []bool) {
-	enc.bufferedValues = append(enc.bufferedValues, in...)
-}
-
-func (enc *RleBooleanEncoder) PutSpaced(in []bool, validBits []byte, validBitsOffset int64) {
-	bufferOut := make([]bool, len(in))
-	nvalid := spacedCompress(in, bufferOut, validBits, validBitsOffset)
-	enc.Put(bufferOut[:nvalid])
-}
-
-func (enc *RleBooleanEncoder) EstimatedDataEncodedSize() int64 {
-	return rleLengthInBytes + int64(enc.maxRleBufferSize())
-}
-
-func (enc *RleBooleanEncoder) maxRleBufferSize() int {
-	return utils.MaxRLEBufferSize(1, len(enc.bufferedValues)) +
-		utils.MinRLEBufferSize(1)
-}
-
-func (enc *RleBooleanEncoder) FlushValues() (Buffer, error) {
-	rleBufferSizeMax := enc.maxRleBufferSize()
-	enc.sink.SetOffset(rleLengthInBytes)
-	enc.sink.Reserve(rleBufferSizeMax)
-
-	rleEncoder := utils.NewRleEncoder(enc.sink, 1)
-	for _, v := range enc.bufferedValues {
-		if v {
-			rleEncoder.Put(1)
-		} else {
-			rleEncoder.Put(0)
-		}
-	}
-	n := rleEncoder.Flush()
-	debug.Assert(n <= rleBufferSizeMax, "num encoded bytes larger than expected max")
-	buf := enc.sink.Finish()
-	binary.LittleEndian.PutUint32(buf.Bytes(), uint32(n))
-
-	return buf, nil
-}
diff --git a/go/parquet/internal/encoding/byte_array_decoder.go b/go/parquet/internal/encoding/byte_array_decoder.go
deleted file mode 100644
index 6a87e5f3b9832..0000000000000
--- a/go/parquet/internal/encoding/byte_array_decoder.go
+++ /dev/null
@@ -1,130 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"encoding/binary"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	pqutils "github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"golang.org/x/xerrors"
-)
-
-// PlainByteArrayDecoder decodes a data chunk for bytearrays according to
-// the plain encoding. The byte arrays will use slices to reference the
-// data rather than copying it.
-//
-// The parquet spec defines Plain encoding for ByteArrays as a 4 byte little
-// endian integer containing the length of the bytearray followed by that many
-// bytes being the raw data of the byte array.
-type PlainByteArrayDecoder struct {
-	decoder
-}
-
-// Type returns parquet.Types.ByteArray for this decoder
-func (PlainByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-// Decode will populate the slice of bytearrays in full or until the number
-// of values is consumed.
-//
-// Returns the number of values that were decoded.
-func (pbad *PlainByteArrayDecoder) Decode(out []parquet.ByteArray) (int, error) {
-	max := utils.Min(len(out), pbad.nvals)
-
-	for i := 0; i < max; i++ {
-		// there should always be at least four bytes which is the length of the
-		// next value in the data.
-		if len(pbad.data) < 4 {
-			return i, xerrors.New("parquet: eof reading bytearray")
-		}
-
-		// the first 4 bytes are a little endian int32 length
-		byteLen := int32(binary.LittleEndian.Uint32(pbad.data[:4]))
-		if byteLen < 0 {
-			return i, xerrors.New("parquet: invalid BYTE_ARRAY value")
-		}
-
-		if int64(len(pbad.data)) < int64(byteLen)+4 {
-			return i, xerrors.New("parquet: eof reading bytearray")
-		}
-
-		out[i] = pbad.data[4 : byteLen+4 : byteLen+4]
-		pbad.data = pbad.data[byteLen+4:]
-	}
-
-	pbad.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is like Decode, but expands the slice out to leave empty values
-// where the validBits bitmap has 0s
-func (pbad *PlainByteArrayDecoder) DecodeSpaced(out []parquet.ByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toRead := len(out) - nullCount
-	valuesRead, err := pbad.Decode(out[:toRead])
-	if err != nil {
-		return valuesRead, err
-	}
-	if valuesRead != toRead {
-		return valuesRead, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
-
-func (d *DictByteArrayDecoder) InsertDictionary(bldr array.Builder) error {
-	conv := d.dictValueDecoder.(*ByteArrayDictConverter)
-	dictLength := cap(conv.dict)
-	conv.ensure(pqutils.IndexType(dictLength))
-
-	byteArrayData := memory.NewResizableBuffer(d.mem)
-	defer byteArrayData.Release()
-	byteArrayOffsets := memory.NewResizableBuffer(d.mem)
-	defer byteArrayOffsets.Release()
-
-	var totalLen int
-	for _, v := range conv.dict {
-		totalLen += len(v)
-	}
-	byteArrayData.ResizeNoShrink(totalLen)
-	byteArrayOffsets.ResizeNoShrink((dictLength + 1) * arrow.Int32SizeBytes)
-
-	byteData := byteArrayData.Bytes()
-	byteOffsets := arrow.Int32Traits.CastFromBytes(byteArrayOffsets.Bytes())
-
-	var offset int32
-	for i, v := range conv.dict {
-		n := copy(byteData, v)
-		byteData, byteOffsets[i] = byteData[n:], offset
-		offset += int32(n)
-	}
-	byteOffsets[dictLength] = offset
-
-	data := array.NewData(bldr.Type().(*arrow.DictionaryType).ValueType, dictLength,
-		[]*memory.Buffer{nil, byteArrayOffsets, byteArrayData}, nil, 0, 0)
-	defer data.Release()
-	arr := array.NewBinaryData(data)
-	defer arr.Release()
-
-	binaryBldr := bldr.(*array.BinaryDictionaryBuilder)
-	return binaryBldr.InsertDictValues(arr)
-}
diff --git a/go/parquet/internal/encoding/byte_array_encoder.go b/go/parquet/internal/encoding/byte_array_encoder.go
deleted file mode 100644
index 518c2e7f7324e..0000000000000
--- a/go/parquet/internal/encoding/byte_array_encoder.go
+++ /dev/null
@@ -1,158 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"encoding/binary"
-	"fmt"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-// PlainByteArrayEncoder encodes byte arrays according to the spec for Plain encoding
-// by encoding the length as a int32 followed by the bytes of the value.
-type PlainByteArrayEncoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// PutByteArray writes out the 4 bytes for the length followed by the data
-func (enc *PlainByteArrayEncoder) PutByteArray(val parquet.ByteArray) {
-	inc := val.Len() + arrow.Uint32SizeBytes
-	enc.sink.Reserve(inc)
-	vlen := utils.ToLEUint32(uint32(val.Len()))
-	enc.sink.UnsafeWrite((*(*[4]byte)(unsafe.Pointer(&vlen)))[:])
-	enc.sink.UnsafeWrite(val)
-}
-
-// Put writes out all of the values in this slice to the encoding sink
-func (enc *PlainByteArrayEncoder) Put(in []parquet.ByteArray) {
-	for _, val := range in {
-		enc.PutByteArray(val)
-	}
-}
-
-// PutSpaced uses the bitmap of validBits to leave out anything that is null according
-// to the bitmap.
-//
-// If validBits is nil, this is equivalent to calling Put
-func (enc *PlainByteArrayEncoder) PutSpaced(in []parquet.ByteArray, validBits []byte, validBitsOffset int64) {
-	if validBits != nil {
-		if enc.bitSetReader == nil {
-			enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-		} else {
-			enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-		}
-
-		for {
-			run := enc.bitSetReader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-		}
-	} else {
-		enc.Put(in)
-	}
-}
-
-// Type returns parquet.Types.ByteArray for the bytearray encoder
-func (PlainByteArrayEncoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-// WriteDict writes the dictionary out to the provided slice, out should be
-// at least DictEncodedSize() bytes
-func (enc *DictByteArrayEncoder) WriteDict(out []byte) {
-	enc.memo.(BinaryMemoTable).VisitValues(0, func(v []byte) {
-		binary.LittleEndian.PutUint32(out, uint32(len(v)))
-		out = out[arrow.Uint32SizeBytes:]
-		copy(out, v)
-		out = out[len(v):]
-	})
-}
-
-// PutByteArray adds a single byte array to buffer, updating the dictionary
-// and encoded size if it's a new value
-func (enc *DictByteArrayEncoder) PutByteArray(in parquet.ByteArray) {
-	memoIdx, found, err := enc.memo.GetOrInsert(in)
-	if err != nil {
-		panic(err)
-	}
-	if !found {
-		enc.dictEncodedSize += in.Len() + arrow.Uint32SizeBytes
-	}
-	enc.addIndex(memoIdx)
-}
-
-// Put takes a slice of ByteArrays to add and encode.
-func (enc *DictByteArrayEncoder) Put(in []parquet.ByteArray) {
-	for _, val := range in {
-		enc.PutByteArray(val)
-	}
-}
-
-// PutSpaced like with the non-dict encoder leaves out the values where the validBits bitmap is 0
-func (enc *DictByteArrayEncoder) PutSpaced(in []parquet.ByteArray, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		for i := int64(0); i < length; i++ {
-			enc.PutByteArray(in[i+pos])
-		}
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictByteArrayEncoder) PutDictionary(values arrow.Array) error {
-	if err := enc.canPutDictionary(values); err != nil {
-		return err
-	}
-
-	if !arrow.IsBaseBinary(values.DataType().ID()) {
-		return fmt.Errorf("%w: only binary and string arrays are supported", arrow.ErrInvalid)
-	}
-
-	arr := values.(array.BinaryLike)
-	data := arr.ValueBytes()
-	for i := 0; i < arr.Len(); i++ {
-		curOffset := arr.ValueOffset64(i)
-		var v []byte
-		if i == arr.Len()-1 {
-			v = data[curOffset:]
-		} else {
-			v = data[curOffset:arr.ValueOffset64(i+1)]
-		}
-		enc.dictEncodedSize += len(v) + arrow.Uint32SizeBytes
-		if _, _, err := enc.memo.GetOrInsert(v); err != nil {
-			return err
-		}
-	}
-
-	values.Retain()
-	enc.preservedDict = values
-	return nil
-}
diff --git a/go/parquet/internal/encoding/byte_stream_split.go b/go/parquet/internal/encoding/byte_stream_split.go
deleted file mode 100644
index e5fe91ada6d77..0000000000000
--- a/go/parquet/internal/encoding/byte_stream_split.go
+++ /dev/null
@@ -1,389 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	"golang.org/x/xerrors"
-)
-
-// encodeByteStreamSplit encodes the raw bytes provided by 'in' into the output buffer 'data' using BYTE_STREAM_SPLIT encoding.
-// 'data' must have space for at least len(in) bytes.
-func encodeByteStreamSplit(data []byte, in []byte, width int) {
-	debug.Assert(len(data) >= len(in), fmt.Sprintf("not enough space in destination buffer for encoding, dest: %d bytes, src: %d bytes", len(data), len(in)))
-	numElements := len(in) / width
-	for stream := 0; stream < width; stream++ {
-		for element := 0; element < numElements; element++ {
-			encLoc := numElements*stream + element
-			decLoc := width*element + stream
-			data[encLoc] = in[decLoc]
-		}
-	}
-}
-
-// encodeByteStreamSplitWidth2 implements encodeByteStreamSplit optimized for types stored using 2 bytes.
-// 'data' must have space for at least len(in) bytes.
-func encodeByteStreamSplitWidth2(data []byte, in []byte) {
-	debug.Assert(len(data) >= len(in), fmt.Sprintf("not enough space in destination buffer for encoding, dest: %d bytes, src: %d bytes", len(data), len(in)))
-	const width = 2
-	numElements := len(in) / width
-	for element := 0; element < numElements; element++ {
-		decLoc := width * element
-		data[element] = in[decLoc]
-		data[numElements+element] = in[decLoc+1]
-	}
-}
-
-// encodeByteStreamSplitWidth4 implements encodeByteStreamSplit optimized for types stored using 4 bytes.
-// 'data' must have space for at least len(in) bytes.
-func encodeByteStreamSplitWidth4(data []byte, in []byte) {
-	debug.Assert(len(data) >= len(in), fmt.Sprintf("not enough space in destination buffer for encoding, dest: %d bytes, src: %d bytes", len(data), len(in)))
-	const width = 4
-	numElements := len(in) / width
-	for element := 0; element < numElements; element++ {
-		decLoc := width * element
-		data[element] = in[decLoc]
-		data[numElements+element] = in[decLoc+1]
-		data[numElements*2+element] = in[decLoc+2]
-		data[numElements*3+element] = in[decLoc+3]
-	}
-}
-
-// encodeByteStreamSplitWidth8 implements encodeByteStreamSplit optimized for types stored using 8 bytes.
-// 'data' must have space for at least len(in) bytes.
-func encodeByteStreamSplitWidth8(data []byte, in []byte) {
-	debug.Assert(len(data) >= len(in), fmt.Sprintf("not enough space in destination buffer for encoding, dest: %d bytes, src: %d bytes", len(data), len(in)))
-	const width = 8
-	numElements := len(in) / width
-	for element := 0; element < numElements; element++ {
-		decLoc := width * element
-		data[element] = in[decLoc]
-		data[numElements+element] = in[decLoc+1]
-		data[numElements*2+element] = in[decLoc+2]
-		data[numElements*3+element] = in[decLoc+3]
-		data[numElements*4+element] = in[decLoc+4]
-		data[numElements*5+element] = in[decLoc+5]
-		data[numElements*6+element] = in[decLoc+6]
-		data[numElements*7+element] = in[decLoc+7]
-	}
-}
-
-// decodeByteStreamSplitBatchWidth4 decodes the batch of nValues raw bytes representing a 4-byte datatype provided by 'data',
-// into the output buffer 'out' using BYTE_STREAM_SPLIT encoding.
-// 'out' must have space for at least len(data) bytes.
-func decodeByteStreamSplitBatchWidth4(data []byte, nValues, stride int, out []byte) {
-	debug.Assert(len(out) >= len(data), fmt.Sprintf("not enough space in output buffer for decoding, out: %d bytes, data: %d bytes", len(out), len(data)))
-	const width = 4
-	for element := 0; element < nValues; element++ {
-		out[width*element] = data[element]
-		out[width*element+1] = data[stride+element]
-		out[width*element+2] = data[2*stride+element]
-		out[width*element+3] = data[3*stride+element]
-	}
-}
-
-// decodeByteStreamSplitBatchWidth8 decodes the batch of nValues raw bytes representing a 8-byte datatype provided by 'data',
-// into the output buffer 'out' using BYTE_STREAM_SPLIT encoding.
-// 'out' must have space for at least len(data) bytes.
-func decodeByteStreamSplitBatchWidth8(data []byte, nValues, stride int, out []byte) {
-	debug.Assert(len(out) >= len(data), fmt.Sprintf("not enough space in output buffer for decoding, out: %d bytes, data: %d bytes", len(out), len(data)))
-	const width = 8
-	for element := 0; element < nValues; element++ {
-		out[width*element] = data[element]
-		out[width*element+1] = data[stride+element]
-		out[width*element+2] = data[2*stride+element]
-		out[width*element+3] = data[3*stride+element]
-		out[width*element+4] = data[4*stride+element]
-		out[width*element+5] = data[5*stride+element]
-		out[width*element+6] = data[6*stride+element]
-		out[width*element+7] = data[7*stride+element]
-	}
-}
-
-// decodeByteStreamSplitBatchFLBA decodes the batch of nValues FixedLenByteArrays provided by 'data',
-// into the output slice 'out' using BYTE_STREAM_SPLIT encoding.
-// 'out' must have space for at least nValues slices.
-func decodeByteStreamSplitBatchFLBA(data []byte, nValues, stride, width int, out []parquet.FixedLenByteArray) {
-	debug.Assert(len(out) >= nValues, fmt.Sprintf("not enough space in output slice for decoding, out: %d values, data: %d values", len(out), nValues))
-	for stream := 0; stream < width; stream++ {
-		for element := 0; element < nValues; element++ {
-			encLoc := stride*stream + element
-			out[element][stream] = data[encLoc]
-		}
-	}
-}
-
-// decodeByteStreamSplitBatchFLBAWidth2 decodes the batch of nValues FixedLenByteArrays of length 2 provided by 'data',
-// into the output slice 'out' using BYTE_STREAM_SPLIT encoding.
-// 'out' must have space for at least nValues slices.
-func decodeByteStreamSplitBatchFLBAWidth2(data []byte, nValues, stride int, out []parquet.FixedLenByteArray) {
-	debug.Assert(len(out) >= nValues, fmt.Sprintf("not enough space in output slice for decoding, out: %d values, data: %d values", len(out), nValues))
-	for element := 0; element < nValues; element++ {
-		out[element][0] = data[element]
-		out[element][1] = data[stride+element]
-	}
-}
-
-// decodeByteStreamSplitBatchFLBAWidth4 decodes the batch of nValues FixedLenByteArrays of length 4 provided by 'data',
-// into the output slice 'out' using BYTE_STREAM_SPLIT encoding.
-// 'out' must have space for at least nValues slices.
-func decodeByteStreamSplitBatchFLBAWidth4(data []byte, nValues, stride int, out []parquet.FixedLenByteArray) {
-	debug.Assert(len(out) >= nValues, fmt.Sprintf("not enough space in output slice for decoding, out: %d values, data: %d values", len(out), nValues))
-	for element := 0; element < nValues; element++ {
-		out[element][0] = data[element]
-		out[element][1] = data[stride+element]
-		out[element][2] = data[stride*2+element]
-		out[element][3] = data[stride*3+element]
-	}
-}
-
-// decodeByteStreamSplitBatchFLBAWidth8 decodes the batch of nValues FixedLenByteArrays of length 8 provided by 'data',
-// into the output slice 'out' using BYTE_STREAM_SPLIT encoding.
-// 'out' must have space for at least nValues slices.
-func decodeByteStreamSplitBatchFLBAWidth8(data []byte, nValues, stride int, out []parquet.FixedLenByteArray) {
-	debug.Assert(len(out) >= nValues, fmt.Sprintf("not enough space in output slice for decoding, out: %d values, data: %d values", len(out), nValues))
-	for element := 0; element < nValues; element++ {
-		out[element][0] = data[element]
-		out[element][1] = data[stride+element]
-		out[element][2] = data[stride*2+element]
-		out[element][3] = data[stride*3+element]
-		out[element][4] = data[stride*4+element]
-		out[element][5] = data[stride*5+element]
-		out[element][6] = data[stride*6+element]
-		out[element][7] = data[stride*7+element]
-	}
-}
-
-func releaseBufferToPool(pooled *PooledBufferWriter) {
-	buf := pooled.buf
-	memory.Set(buf.Buf(), 0)
-	buf.ResizeNoShrink(0)
-	bufferPool.Put(buf)
-}
-
-func validateByteStreamSplitPageData(typeLen, nvals int, data []byte) (int, error) {
-	if nvals*typeLen < len(data) {
-		return 0, fmt.Errorf("data size (%d) is too small for the number of values in in BYTE_STREAM_SPLIT (%d)", len(data), nvals)
-	}
-
-	if len(data)%typeLen != 0 {
-		return 0, fmt.Errorf("ByteStreamSplit data size %d not aligned with byte_width: %d", len(data), typeLen)
-	}
-
-	return len(data) / typeLen, nil
-}
-
-// ByteStreamSplitFloat32Encoder writes the underlying bytes of the Float32
-// into interlaced streams as defined by the BYTE_STREAM_SPLIT encoding
-type ByteStreamSplitFloat32Encoder struct {
-	PlainFloat32Encoder
-	flushBuffer *PooledBufferWriter
-}
-
-func (enc *ByteStreamSplitFloat32Encoder) FlushValues() (Buffer, error) {
-	in, err := enc.PlainFloat32Encoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-
-	if enc.flushBuffer == nil {
-		enc.flushBuffer = NewPooledBufferWriter(in.Len())
-	}
-
-	enc.flushBuffer.buf.Resize(in.Len())
-	encodeByteStreamSplitWidth4(enc.flushBuffer.Bytes(), in.Bytes())
-	return enc.flushBuffer.Finish(), nil
-}
-
-func (enc *ByteStreamSplitFloat32Encoder) Release() {
-	enc.PlainFloat32Encoder.Release()
-	releaseBufferToPool(enc.flushBuffer)
-	enc.flushBuffer = nil
-}
-
-// ByteStreamSplitFloat64Encoder writes the underlying bytes of the Float64
-// into interlaced streams as defined by the BYTE_STREAM_SPLIT encoding
-type ByteStreamSplitFloat64Encoder struct {
-	PlainFloat64Encoder
-	flushBuffer *PooledBufferWriter
-}
-
-func (enc *ByteStreamSplitFloat64Encoder) FlushValues() (Buffer, error) {
-	in, err := enc.PlainFloat64Encoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-
-	if enc.flushBuffer == nil {
-		enc.flushBuffer = NewPooledBufferWriter(in.Len())
-	}
-
-	enc.flushBuffer.buf.Resize(in.Len())
-	encodeByteStreamSplitWidth8(enc.flushBuffer.Bytes(), in.Bytes())
-	return enc.flushBuffer.Finish(), nil
-}
-
-func (enc *ByteStreamSplitFloat64Encoder) Release() {
-	enc.PlainFloat64Encoder.Release()
-	releaseBufferToPool(enc.flushBuffer)
-	enc.flushBuffer = nil
-}
-
-// ByteStreamSplitInt32Encoder writes the underlying bytes of the Int32
-// into interlaced streams as defined by the BYTE_STREAM_SPLIT encoding
-type ByteStreamSplitInt32Encoder struct {
-	PlainInt32Encoder
-	flushBuffer *PooledBufferWriter
-}
-
-func (enc *ByteStreamSplitInt32Encoder) FlushValues() (Buffer, error) {
-	in, err := enc.PlainInt32Encoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-
-	if enc.flushBuffer == nil {
-		enc.flushBuffer = NewPooledBufferWriter(in.Len())
-	}
-
-	enc.flushBuffer.buf.Resize(in.Len())
-	encodeByteStreamSplitWidth4(enc.flushBuffer.Bytes(), in.Bytes())
-	return enc.flushBuffer.Finish(), nil
-}
-
-func (enc *ByteStreamSplitInt32Encoder) Release() {
-	enc.PlainInt32Encoder.Release()
-	releaseBufferToPool(enc.flushBuffer)
-	enc.flushBuffer = nil
-}
-
-// ByteStreamSplitInt64Encoder writes the underlying bytes of the Int64
-// into interlaced streams as defined by the BYTE_STREAM_SPLIT encoding
-type ByteStreamSplitInt64Encoder struct {
-	PlainInt64Encoder
-	flushBuffer *PooledBufferWriter
-}
-
-func (enc *ByteStreamSplitInt64Encoder) FlushValues() (Buffer, error) {
-	in, err := enc.PlainInt64Encoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-
-	if enc.flushBuffer == nil {
-		enc.flushBuffer = NewPooledBufferWriter(in.Len())
-	}
-
-	enc.flushBuffer.buf.Resize(in.Len())
-	encodeByteStreamSplitWidth8(enc.flushBuffer.Bytes(), in.Bytes())
-	return enc.flushBuffer.Finish(), nil
-}
-
-func (enc *ByteStreamSplitInt64Encoder) Release() {
-	enc.PlainInt64Encoder.Release()
-	releaseBufferToPool(enc.flushBuffer)
-	enc.flushBuffer = nil
-}
-
-// ByteStreamSplitFloat32Decoder is a decoder for BYTE_STREAM_SPLIT-encoded
-// bytes representing Float32 values
-type ByteStreamSplitFloat32Decoder = ByteStreamSplitDecoder[float32]
-
-// ByteStreamSplitFloat64Decoder is a decoder for BYTE_STREAM_SPLIT-encoded
-// bytes representing Float64 values
-type ByteStreamSplitFloat64Decoder = ByteStreamSplitDecoder[float64]
-
-// ByteStreamSplitInt32Decoder is a decoder for BYTE_STREAM_SPLIT-encoded
-// bytes representing Int32 values
-type ByteStreamSplitInt32Decoder = ByteStreamSplitDecoder[int32]
-
-// ByteStreamSplitInt64Decoder is a decoder for BYTE_STREAM_SPLIT-encoded
-// bytes representing Int64 values
-type ByteStreamSplitInt64Decoder = ByteStreamSplitDecoder[int64]
-
-type ByteStreamSplitDecoder[T float32 | float64 | int32 | int64] struct {
-	decoder
-	stride int
-}
-
-func (dec *ByteStreamSplitDecoder[T]) Type() parquet.Type {
-	switch v := any(dec).(type) {
-	case *ByteStreamSplitDecoder[float32]:
-		return parquet.Types.Float
-	case *ByteStreamSplitDecoder[float64]:
-		return parquet.Types.Double
-	case *ByteStreamSplitDecoder[int32]:
-		return parquet.Types.Int32
-	case *ByteStreamSplitDecoder[int64]:
-		return parquet.Types.Int64
-	default:
-		panic(fmt.Sprintf("ByteStreamSplitDecoder is not supported for type: %T", v))
-	}
-}
-
-func (dec *ByteStreamSplitDecoder[T]) SetData(nvals int, data []byte) error {
-	nvals, err := validateByteStreamSplitPageData(dec.Type().ByteSize(), nvals, data)
-	if err != nil {
-		return err
-	}
-
-	dec.stride = nvals
-	return dec.decoder.SetData(nvals, data)
-}
-
-func (dec *ByteStreamSplitDecoder[T]) Decode(out []T) (int, error) {
-	typeLen := dec.Type().ByteSize()
-	toRead := len(out)
-	numBytesNeeded := toRead * typeLen
-	if numBytesNeeded > len(dec.data) || numBytesNeeded > math.MaxInt32 {
-		return 0, xerrors.New("parquet: eof exception")
-	}
-
-	outBytes := arrow.GetBytes(out)
-	switch typeLen {
-	case 4:
-		decodeByteStreamSplitBatchWidth4(dec.data, toRead, dec.stride, outBytes)
-	case 8:
-		decodeByteStreamSplitBatchWidth8(dec.data, toRead, dec.stride, outBytes)
-	default:
-		return 0, fmt.Errorf("encoding ByteStreamSplit is only defined for numeric type of width 4 or 8, found: %d", typeLen)
-	}
-
-	dec.nvals -= toRead
-	dec.data = dec.data[toRead:]
-
-	return toRead, nil
-}
-
-func (dec *ByteStreamSplitDecoder[T]) DecodeSpaced(out []T, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toRead := len(out) - nullCount
-	valuesRead, err := dec.Decode(out[:toRead])
-	if err != nil {
-		return valuesRead, err
-	}
-	if valuesRead != toRead {
-		return valuesRead, xerrors.New("parquet: number of values / definitions levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
diff --git a/go/parquet/internal/encoding/decoder.go b/go/parquet/internal/encoding/decoder.go
deleted file mode 100644
index 12a670198afa6..0000000000000
--- a/go/parquet/internal/encoding/decoder.go
+++ /dev/null
@@ -1,238 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"bytes"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-// DecoderTraits provides an interface for more easily interacting with types
-// to generate decoders for specific types.
-type DecoderTraits interface {
-	Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder
-	BytesRequired(int) int
-}
-
-// NewDecoder constructs a decoder for a given type and encoding
-func NewDecoder(t parquet.Type, e parquet.Encoding, descr *schema.Column, mem memory.Allocator) TypedDecoder {
-	traits := getDecodingTraits(t)
-	if traits == nil {
-		return nil
-	}
-
-	return traits.Decoder(e, descr, false /* use dictionary */, mem)
-}
-
-// NewDictDecoder is like NewDecoder but for dictionary encodings, panics if type is bool.
-//
-// if mem is nil, memory.DefaultAllocator will be used
-func NewDictDecoder(t parquet.Type, descr *schema.Column, mem memory.Allocator) DictDecoder {
-	traits := getDecodingTraits(t)
-	if traits == nil {
-		return nil
-	}
-
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-
-	return traits.Decoder(parquet.Encodings.RLEDict, descr, true /* use dictionary */, mem).(DictDecoder)
-}
-
-type decoder struct {
-	descr    *schema.Column
-	encoding format.Encoding
-	nvals    int
-	data     []byte
-	typeLen  int
-}
-
-// newDecoderBase constructs the base decoding object that is embedded in the
-// type specific decoders.
-func newDecoderBase(e format.Encoding, descr *schema.Column) decoder {
-	typeLen := -1
-	if descr != nil && descr.PhysicalType() == parquet.Types.FixedLenByteArray {
-		typeLen = int(descr.TypeLength())
-	}
-
-	return decoder{
-		descr:    descr,
-		encoding: e,
-		typeLen:  typeLen,
-	}
-}
-
-// SetData sets the data for decoding into the decoder to update the available
-// data bytes and number of values available.
-func (d *decoder) SetData(nvals int, data []byte) error {
-	d.data = data
-	d.nvals = nvals
-	return nil
-}
-
-// ValuesLeft returns the number of remaining values that can be decoded
-func (d *decoder) ValuesLeft() int { return d.nvals }
-
-// Encoding returns the encoding type used by this decoder to decode the bytes.
-func (d *decoder) Encoding() parquet.Encoding { return parquet.Encoding(d.encoding) }
-
-type dictDecoder struct {
-	decoder
-	mem              memory.Allocator
-	dictValueDecoder utils.DictionaryConverter
-	idxDecoder       *utils.RleDecoder
-
-	idxScratchSpace []uint64
-}
-
-// SetDict sets a decoder that can be used to decode the dictionary that is
-// used for this column in order to return the proper values.
-func (d *dictDecoder) SetDict(dict TypedDecoder) {
-	if dict.Type() != d.descr.PhysicalType() {
-		panic("parquet: mismatch dictionary and column data type")
-	}
-
-	d.dictValueDecoder = NewDictConverter(dict)
-}
-
-// SetData sets the index value data into the decoder.
-func (d *dictDecoder) SetData(nvals int, data []byte) error {
-	d.nvals = nvals
-	if len(data) == 0 {
-		// no data, bitwidth can safely be 0
-		d.idxDecoder = utils.NewRleDecoder(bytes.NewReader(data), 0 /* bitwidth */)
-		return nil
-	}
-
-	// grab the bit width from the first byte
-	width := uint8(data[0])
-	if width >= 64 {
-		return xerrors.New("parquet: invalid or corrupted bit width")
-	}
-
-	// pass the rest of the data, minus that first byte, to the decoder
-	d.idxDecoder = utils.NewRleDecoder(bytes.NewReader(data[1:]), int(width))
-	return nil
-}
-
-func (d *dictDecoder) decode(out interface{}) (int, error) {
-	n, err := d.idxDecoder.GetBatchWithDict(d.dictValueDecoder, out)
-	d.nvals -= n
-	return n, err
-}
-
-func (d *dictDecoder) decodeSpaced(out interface{}, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	n, err := d.idxDecoder.GetBatchWithDictSpaced(d.dictValueDecoder, out, nullCount, validBits, validBitsOffset)
-	d.nvals -= n
-	return n, err
-}
-
-func (d *dictDecoder) DecodeIndices(numValues int, bldr array.Builder) (int, error) {
-	n := shared_utils.Min(numValues, d.nvals)
-	if cap(d.idxScratchSpace) < n {
-		d.idxScratchSpace = make([]uint64, n, bitutil.NextPowerOf2(n))
-	} else {
-		d.idxScratchSpace = d.idxScratchSpace[:n]
-	}
-
-	n = d.idxDecoder.GetBatch(d.idxScratchSpace)
-
-	toAppend := make([]int, n)
-	for i, v := range d.idxScratchSpace {
-		toAppend[i] = int(v)
-	}
-	bldr.(*array.BinaryDictionaryBuilder).AppendIndices(toAppend, nil)
-	d.nvals -= n
-	return n, nil
-}
-
-func (d *dictDecoder) DecodeIndicesSpaced(numValues, nullCount int, validBits []byte, offset int64, bldr array.Builder) (int, error) {
-	if cap(d.idxScratchSpace) < numValues {
-		d.idxScratchSpace = make([]uint64, numValues, bitutil.NextPowerOf2(numValues))
-	} else {
-		d.idxScratchSpace = d.idxScratchSpace[:numValues]
-	}
-
-	n, err := d.idxDecoder.GetBatchSpaced(d.idxScratchSpace, nullCount, validBits, offset)
-	if err != nil {
-		return n, err
-	}
-
-	valid := make([]bool, n)
-	bitutils.VisitBitBlocks(validBits, offset, int64(n),
-		func(pos int64) { valid[pos] = true }, func() {})
-
-	toAppend := make([]int, n)
-	for i, v := range d.idxScratchSpace {
-		toAppend[i] = int(v)
-	}
-	bldr.(*array.BinaryDictionaryBuilder).AppendIndices(toAppend, valid)
-	d.nvals -= n - nullCount
-	return n, nil
-}
-
-// spacedExpand is used to take a slice of data and utilize the bitmap provided to fill in nulls into the
-// correct slots according to the bitmap in order to produce a fully expanded result slice with nulls
-// in the correct slots.
-func spacedExpand(buffer interface{}, nullCount int, validBits []byte, validBitsOffset int64) int {
-	bufferRef := reflect.ValueOf(buffer)
-	if bufferRef.Kind() != reflect.Slice {
-		panic("invalid spacedexpand type, not slice")
-	}
-
-	var (
-		numValues int = bufferRef.Len()
-	)
-
-	idxDecode := int64(numValues - nullCount)
-	if idxDecode == 0 { // if there's nothing to decode there's nothing to do.
-		return numValues
-	}
-
-	// read the bitmap in reverse grabbing runs of valid bits where possible.
-	rdr := bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(numValues))
-	for {
-		run := rdr.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		// copy data from the end of the slice to it's proper location in the slice after accounting for the nulls
-		// because we technically don't care what is in the null slots we don't actually have to clean
-		// up after ourselves because we're doing this in reverse to guarantee that we'll always simply
-		// overwrite any existing data with the correctly spaced data. Any data that happens to be left in the null
-		// slots is fine since it shouldn't matter and saves us work.
-		idxDecode -= run.Length
-		n := reflect.Copy(bufferRef.Slice(int(run.Pos), bufferRef.Len()), bufferRef.Slice(int(idxDecode), int(int64(idxDecode)+run.Length)))
-		debug.Assert(n == int(run.Length), "reflect.Copy copied incorrect number of elements in spacedExpand")
-	}
-
-	return numValues
-}
diff --git a/go/parquet/internal/encoding/delta_bit_packing.go b/go/parquet/internal/encoding/delta_bit_packing.go
deleted file mode 100644
index ac91953a7f903..0000000000000
--- a/go/parquet/internal/encoding/delta_bit_packing.go
+++ /dev/null
@@ -1,421 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"bytes"
-	"errors"
-	"fmt"
-	"math"
-	"math/bits"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-)
-
-// see the deltaBitPack encoder for a description of the encoding format that is
-// used for delta-bitpacking.
-type deltaBitPackDecoder[T int32 | int64] struct {
-	decoder
-
-	mem memory.Allocator
-
-	usedFirst            bool
-	bitdecoder           *utils.BitReader
-	blockSize            uint64
-	currentBlockVals     uint32
-	miniBlocksPerBlock   uint64
-	valsPerMini          uint32
-	currentMiniBlockVals uint32
-	minDelta             int64
-	miniBlockIdx         uint64
-
-	deltaBitWidths *memory.Buffer
-	deltaBitWidth  byte
-
-	totalValues uint64
-	lastVal     int64
-
-	miniBlockValues []T
-}
-
-// returns the number of bytes read so far
-func (d *deltaBitPackDecoder[T]) bytesRead() int64 {
-	return d.bitdecoder.CurOffset()
-}
-
-func (d *deltaBitPackDecoder[T]) Allocator() memory.Allocator { return d.mem }
-
-// SetData sets the bytes and the expected number of values to decode
-// into the decoder, updating the decoder and allowing it to be reused.
-func (d *deltaBitPackDecoder[T]) SetData(nvalues int, data []byte) error {
-	// set our data into the underlying decoder for the type
-	if err := d.decoder.SetData(nvalues, data); err != nil {
-		return err
-	}
-	// create a bit reader for our decoder's values
-	d.bitdecoder = utils.NewBitReader(bytes.NewReader(d.data))
-	d.currentBlockVals = 0
-	d.currentMiniBlockVals = 0
-	if d.deltaBitWidths == nil {
-		d.deltaBitWidths = memory.NewResizableBuffer(d.mem)
-	}
-
-	var ok bool
-	d.blockSize, ok = d.bitdecoder.GetVlqInt()
-	if !ok {
-		return errors.New("parquet: eof exception")
-	}
-
-	if d.miniBlocksPerBlock, ok = d.bitdecoder.GetVlqInt(); !ok {
-		return errors.New("parquet: eof exception")
-	}
-	if d.miniBlocksPerBlock == 0 {
-		return errors.New("parquet: cannot have zero miniblock per block")
-	}
-
-	if d.totalValues, ok = d.bitdecoder.GetVlqInt(); !ok {
-		return errors.New("parquet: eof exception")
-	}
-
-	if d.lastVal, ok = d.bitdecoder.GetZigZagVlqInt(); !ok {
-		return errors.New("parquet: eof exception")
-	}
-
-	d.valsPerMini = uint32(d.blockSize / d.miniBlocksPerBlock)
-	d.usedFirst = false
-	return nil
-}
-
-// initialize a block to decode
-func (d *deltaBitPackDecoder[T]) initBlock() error {
-	// first we grab the min delta value that we'll start from
-	var ok bool
-	if d.minDelta, ok = d.bitdecoder.GetZigZagVlqInt(); !ok {
-		return errors.New("parquet: eof exception")
-	}
-
-	// ensure we have enough space for our miniblocks to decode the widths
-	d.deltaBitWidths.Resize(int(d.miniBlocksPerBlock))
-
-	var err error
-	for i := uint64(0); i < d.miniBlocksPerBlock; i++ {
-		if d.deltaBitWidths.Bytes()[i], err = d.bitdecoder.ReadByte(); err != nil {
-			return err
-		}
-	}
-
-	d.miniBlockIdx = 0
-	d.deltaBitWidth = d.deltaBitWidths.Bytes()[0]
-	d.currentBlockVals = uint32(d.blockSize)
-	return nil
-}
-
-func (d *deltaBitPackDecoder[T]) unpackNextMini() error {
-	if d.miniBlockValues == nil {
-		d.miniBlockValues = make([]T, 0, int(d.valsPerMini))
-	} else {
-		d.miniBlockValues = d.miniBlockValues[:0]
-	}
-	d.deltaBitWidth = d.deltaBitWidths.Bytes()[int(d.miniBlockIdx)]
-	d.currentMiniBlockVals = d.valsPerMini
-
-	for j := 0; j < int(d.valsPerMini); j++ {
-		delta, ok := d.bitdecoder.GetValue(int(d.deltaBitWidth))
-		if !ok {
-			return errors.New("parquet: eof exception")
-		}
-
-		d.lastVal += int64(delta) + int64(d.minDelta)
-		d.miniBlockValues = append(d.miniBlockValues, T(d.lastVal))
-	}
-	d.miniBlockIdx++
-	return nil
-}
-
-// Decode retrieves min(remaining values, len(out)) values from the data and returns the number
-// of values actually decoded and any errors encountered.
-func (d *deltaBitPackDecoder[T]) Decode(out []T) (int, error) {
-	max := shared_utils.Min(len(out), int(d.nvals))
-	if max == 0 {
-		return 0, nil
-	}
-
-	out = out[:max]
-	if !d.usedFirst { // starting value to calculate deltas against
-		out[0] = T(d.lastVal)
-		out = out[1:]
-		d.usedFirst = true
-	}
-
-	var err error
-	for len(out) > 0 { // unpack mini blocks until we get all the values we need
-		if d.currentBlockVals == 0 {
-			err = d.initBlock()
-			if err != nil {
-				return 0, err
-			}
-		}
-		if d.currentMiniBlockVals == 0 {
-			err = d.unpackNextMini()
-		}
-		if err != nil {
-			return 0, err
-		}
-
-		// copy as many values from our mini block as we can into out
-		start := int(d.valsPerMini - d.currentMiniBlockVals)
-		numCopied := copy(out, d.miniBlockValues[start:])
-
-		out = out[numCopied:]
-		d.currentBlockVals -= uint32(numCopied)
-		d.currentMiniBlockVals -= uint32(numCopied)
-	}
-	d.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is like Decode, but the result is spaced out appropriately based on the passed in bitmap
-func (d *deltaBitPackDecoder[T]) DecodeSpaced(out []T, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := d.Decode(out[:toread])
-	if err != nil {
-		return values, err
-	}
-	if values != toread {
-		return values, errors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
-
-// Type returns the underlying physical type this decoder works with
-func (dec *deltaBitPackDecoder[T]) Type() parquet.Type {
-	switch v := any(dec).(type) {
-	case *deltaBitPackDecoder[int32]:
-		return parquet.Types.Int32
-	case *deltaBitPackDecoder[int64]:
-		return parquet.Types.Int64
-	default:
-		panic(fmt.Sprintf("deltaBitPackDecoder is not supported for type: %T", v))
-	}
-}
-
-// DeltaBitPackInt32Decoder decodes Int32 values which are packed using the Delta BitPacking algorithm.
-type DeltaBitPackInt32Decoder = deltaBitPackDecoder[int32]
-
-// DeltaBitPackInt64Decoder decodes Int64 values which are packed using the Delta BitPacking algorithm.
-type DeltaBitPackInt64Decoder = deltaBitPackDecoder[int64]
-
-const (
-	// block size must be a multiple of 128
-	defaultBlockSize     = 128
-	defaultNumMiniBlocks = 4
-	// block size / number of mini blocks must result in a multiple of 32
-	defaultNumValuesPerMini = 32
-	// max size of the header for the delta blocks
-	maxHeaderWriterSize = 32
-)
-
-// deltaBitPackEncoder is an encoder for the DeltaBinary Packing format
-// as per the parquet spec.
-//
-// Consists of a header followed by blocks of delta encoded values binary packed.
-//
-//	Format
-//		[header] [block 1] [block 2] ... [block N]
-//
-//	Header
-//		[block size] [number of mini blocks per block] [total value count] [first value]
-//
-//	Block
-//		[min delta] [list of bitwidths of the miniblocks] [miniblocks...]
-//
-// Sets aside bytes at the start of the internal buffer where the header will be written,
-// and only writes the header when FlushValues is called before returning it.
-type deltaBitPackEncoder[T int32 | int64] struct {
-	encoder
-
-	bitWriter  *utils.BitWriter
-	totalVals  uint64
-	firstVal   int64
-	currentVal int64
-
-	blockSize     uint64
-	miniBlockSize uint64
-	numMiniBlocks uint64
-	deltas        []int64
-}
-
-// flushBlock flushes out a finished block for writing to the underlying encoder
-func (enc *deltaBitPackEncoder[T]) flushBlock() {
-	if len(enc.deltas) == 0 {
-		return
-	}
-
-	// determine the minimum delta value
-	minDelta := int64(math.MaxInt64)
-	for _, delta := range enc.deltas {
-		if delta < minDelta {
-			minDelta = delta
-		}
-	}
-
-	enc.bitWriter.WriteZigZagVlqInt(minDelta)
-	// reserve enough bytes to write out our miniblock deltas
-	offset, _ := enc.bitWriter.SkipBytes(int(enc.numMiniBlocks))
-
-	valuesToWrite := int64(len(enc.deltas))
-	for i := 0; i < int(enc.numMiniBlocks); i++ {
-		n := shared_utils.Min(int64(enc.miniBlockSize), valuesToWrite)
-		if n == 0 {
-			break
-		}
-
-		maxDelta := int64(math.MinInt64)
-		start := i * int(enc.miniBlockSize)
-		for _, val := range enc.deltas[start : start+int(n)] {
-			maxDelta = shared_utils.Max(maxDelta, val)
-		}
-
-		// compute bit width to store (max_delta - min_delta)
-		width := uint(bits.Len64(uint64(maxDelta - minDelta)))
-		// write out the bit width we used into the bytes we reserved earlier
-		enc.bitWriter.WriteAt([]byte{byte(width)}, int64(offset+i))
-
-		// write out our deltas
-		for _, val := range enc.deltas[start : start+int(n)] {
-			enc.bitWriter.WriteValue(uint64(val-minDelta), width)
-		}
-
-		valuesToWrite -= n
-
-		// pad the last block if n < miniBlockSize
-		for ; n < int64(enc.miniBlockSize); n++ {
-			enc.bitWriter.WriteValue(0, width)
-		}
-	}
-	enc.deltas = enc.deltas[:0]
-}
-
-// putInternal is the implementation for actually writing data which must be
-// integral data as int, int8, int32, or int64.
-func (enc *deltaBitPackEncoder[T]) Put(in []T) {
-	if len(in) == 0 {
-		return
-	}
-
-	idx := 0
-	if enc.totalVals == 0 {
-		enc.blockSize = defaultBlockSize
-		enc.numMiniBlocks = defaultNumMiniBlocks
-		enc.miniBlockSize = defaultNumValuesPerMini
-
-		enc.firstVal = int64(in[0])
-		enc.currentVal = enc.firstVal
-		idx = 1
-
-		enc.bitWriter = utils.NewBitWriter(enc.sink)
-	}
-
-	enc.totalVals += uint64(len(in))
-	for ; idx < len(in); idx++ {
-		val := int64(in[idx])
-		enc.deltas = append(enc.deltas, val-enc.currentVal)
-		enc.currentVal = val
-		if len(enc.deltas) == int(enc.blockSize) {
-			enc.flushBlock()
-		}
-	}
-}
-
-// FlushValues flushes any remaining data and returns the finished encoded buffer
-// or returns nil and any error encountered during flushing.
-func (enc *deltaBitPackEncoder[T]) FlushValues() (Buffer, error) {
-	if enc.bitWriter != nil {
-		// write any remaining values
-		enc.flushBlock()
-		enc.bitWriter.Flush(true)
-	} else {
-		enc.blockSize = defaultBlockSize
-		enc.numMiniBlocks = defaultNumMiniBlocks
-		enc.miniBlockSize = defaultNumValuesPerMini
-	}
-
-	buffer := make([]byte, maxHeaderWriterSize)
-	headerWriter := utils.NewBitWriter(utils.NewWriterAtBuffer(buffer))
-
-	headerWriter.WriteVlqInt(uint64(enc.blockSize))
-	headerWriter.WriteVlqInt(uint64(enc.numMiniBlocks))
-	headerWriter.WriteVlqInt(uint64(enc.totalVals))
-	headerWriter.WriteZigZagVlqInt(int64(enc.firstVal))
-	headerWriter.Flush(false)
-
-	buffer = buffer[:headerWriter.Written()]
-	enc.totalVals = 0
-
-	if enc.bitWriter != nil {
-		flushed := enc.sink.Finish()
-		defer flushed.Release()
-
-		buffer = append(buffer, flushed.Buf()[:enc.bitWriter.Written()]...)
-	}
-	return poolBuffer{memory.NewBufferBytes(buffer)}, nil
-}
-
-// EstimatedDataEncodedSize returns the current amount of data actually flushed out and written
-func (enc *deltaBitPackEncoder[T]) EstimatedDataEncodedSize() int64 {
-	if enc.bitWriter == nil {
-		return 0
-	}
-
-	return int64(enc.bitWriter.Written())
-}
-
-// PutSpaced takes a slice of values along with a bitmap that describes the nulls and an offset into the bitmap
-// in order to write spaced data to the encoder.
-func (enc *deltaBitPackEncoder[T]) PutSpaced(in []T, validBits []byte, validBitsOffset int64) {
-	buffer := memory.NewResizableBuffer(enc.mem)
-	dt := arrow.GetDataType[T]().(arrow.FixedWidthDataType)
-	buffer.Reserve(dt.Bytes() * len(in))
-	defer buffer.Release()
-
-	data := arrow.GetData[T](buffer.Buf())
-	nvalid := spacedCompress(in, data, validBits, validBitsOffset)
-	enc.Put(data[:nvalid])
-}
-
-// Type returns the underlying physical type this encoder works with
-func (dec *deltaBitPackEncoder[T]) Type() parquet.Type {
-	switch v := any(dec).(type) {
-	case *deltaBitPackEncoder[int32]:
-		return parquet.Types.Int32
-	case *deltaBitPackEncoder[int64]:
-		return parquet.Types.Int64
-	default:
-		panic(fmt.Sprintf("deltaBitPackEncoder is not supported for type: %T", v))
-	}
-}
-
-// DeltaBitPackInt32Encoder is an encoder for the delta bitpacking encoding for Int32 data.
-type DeltaBitPackInt32Encoder = deltaBitPackEncoder[int32]
-
-// DeltaBitPackInt64Encoder is an encoder for the delta bitpacking encoding for Int64 data.
-type DeltaBitPackInt64Encoder = deltaBitPackEncoder[int64]
diff --git a/go/parquet/internal/encoding/delta_byte_array.go b/go/parquet/internal/encoding/delta_byte_array.go
deleted file mode 100644
index 62c8d08999972..0000000000000
--- a/go/parquet/internal/encoding/delta_byte_array.go
+++ /dev/null
@@ -1,238 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-// DeltaByteArrayEncoder is an encoder for writing bytearrays which are delta encoded
-// this is also known as incremental encoding or front compression. For each element
-// in a sequence of strings, we store the prefix length of the previous entry plus the suffix
-// see https://en.wikipedia.org/wiki/Incremental_encoding for a longer description.
-//
-// This is stored as a sequence of delta-encoded prefix lengths followed by the suffixes
-// encoded as delta length byte arrays.
-type DeltaByteArrayEncoder struct {
-	encoder
-
-	prefixEncoder *DeltaBitPackInt32Encoder
-	suffixEncoder *DeltaLengthByteArrayEncoder
-
-	lastVal parquet.ByteArray
-}
-
-func (enc *DeltaByteArrayEncoder) EstimatedDataEncodedSize() int64 {
-	prefixEstimatedSize := int64(0)
-	if enc.prefixEncoder != nil {
-		prefixEstimatedSize = enc.prefixEncoder.EstimatedDataEncodedSize()
-	}
-	suffixEstimatedSize := int64(0)
-	if enc.suffixEncoder != nil {
-		suffixEstimatedSize = enc.suffixEncoder.EstimatedDataEncodedSize()
-	}
-	return prefixEstimatedSize + suffixEstimatedSize
-}
-
-func (enc *DeltaByteArrayEncoder) initEncoders() {
-	enc.prefixEncoder = &DeltaBitPackInt32Encoder{
-		encoder: newEncoderBase(enc.encoding, nil, enc.mem),
-	}
-	enc.suffixEncoder = &DeltaLengthByteArrayEncoder{
-		newEncoderBase(enc.encoding, nil, enc.mem),
-		&DeltaBitPackInt32Encoder{
-			encoder: newEncoderBase(enc.encoding, nil, enc.mem),
-		},
-	}
-}
-
-// Type returns the underlying physical type this operates on, in this case ByteArrays only
-func (DeltaByteArrayEncoder) Type() parquet.Type { return parquet.Types.ByteArray }
-
-// Put writes a slice of ByteArrays to the encoder
-func (enc *DeltaByteArrayEncoder) Put(in []parquet.ByteArray) {
-	if len(in) == 0 {
-		return
-	}
-
-	var suf parquet.ByteArray
-	if enc.prefixEncoder == nil { // initialize our encoders if we haven't yet
-		enc.initEncoders()
-		enc.prefixEncoder.Put([]int32{0})
-		suf = in[0]
-		enc.lastVal = in[0]
-		enc.suffixEncoder.Put([]parquet.ByteArray{suf})
-		in = in[1:]
-	}
-
-	// for each value, figure out the common prefix with the previous value
-	// and then write the prefix length and the suffix.
-	for _, val := range in {
-		l1 := enc.lastVal.Len()
-		l2 := val.Len()
-		j := 0
-		for j < l1 && j < l2 {
-			if enc.lastVal[j] != val[j] {
-				break
-			}
-			j++
-		}
-		enc.prefixEncoder.Put([]int32{int32(j)})
-		suf = val[j:]
-		enc.suffixEncoder.Put([]parquet.ByteArray{suf})
-		enc.lastVal = val
-	}
-
-	// do the memcpy after the loops to keep a copy of the lastVal
-	// we do a copy here so that we only copy and keep a reference
-	// to the suffix, and aren't forcing the *entire* value to stay
-	// in memory while we have this reference to just the suffix.
-	enc.lastVal = append([]byte{}, enc.lastVal...)
-}
-
-// PutSpaced is like Put, but assumes the data is already spaced for nulls and uses the bitmap provided and offset
-// to compress the data before writing it without the null slots.
-func (enc *DeltaByteArrayEncoder) PutSpaced(in []parquet.ByteArray, validBits []byte, validBitsOffset int64) {
-	if validBits != nil {
-		data := make([]parquet.ByteArray, len(in))
-		nvalid := spacedCompress(in, data, validBits, validBitsOffset)
-		enc.Put(data[:nvalid])
-	} else {
-		enc.Put(in)
-	}
-}
-
-// Flush flushes any remaining data out and returns the finished encoded buffer.
-// or returns nil and any error encountered during flushing.
-func (enc *DeltaByteArrayEncoder) FlushValues() (Buffer, error) {
-	if enc.prefixEncoder == nil {
-		enc.initEncoders()
-	}
-	prefixBuf, err := enc.prefixEncoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-	defer prefixBuf.Release()
-
-	suffixBuf, err := enc.suffixEncoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-	defer suffixBuf.Release()
-
-	ret := bufferPool.Get().(*memory.Buffer)
-	ret.ResizeNoShrink(prefixBuf.Len() + suffixBuf.Len())
-	copy(ret.Bytes(), prefixBuf.Bytes())
-	copy(ret.Bytes()[prefixBuf.Len():], suffixBuf.Bytes())
-	return poolBuffer{ret}, nil
-}
-
-// DeltaByteArrayDecoder is a decoder for a column of data encoded using incremental or prefix encoding.
-type DeltaByteArrayDecoder struct {
-	*DeltaLengthByteArrayDecoder
-
-	prefixLengths []int32
-	lastVal       parquet.ByteArray
-}
-
-// Type returns the underlying physical type this decoder operates on, in this case ByteArrays only
-func (DeltaByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-func (d *DeltaByteArrayDecoder) Allocator() memory.Allocator { return d.mem }
-
-// SetData expects the passed in data to be the prefix lengths, followed by the
-// blocks of suffix data in order to initialize the decoder.
-func (d *DeltaByteArrayDecoder) SetData(nvalues int, data []byte) error {
-	prefixLenDec := DeltaBitPackInt32Decoder{
-		decoder: newDecoderBase(d.encoding, d.descr),
-		mem:     d.mem,
-	}
-
-	if err := prefixLenDec.SetData(nvalues, data); err != nil {
-		return err
-	}
-
-	d.prefixLengths = make([]int32, nvalues)
-	// decode all the prefix lengths first so we know how many bytes it took to get the
-	// prefix lengths for nvalues
-	prefixLenDec.Decode(d.prefixLengths)
-
-	// now that we know how many bytes we needed for the prefix lengths, the rest are the
-	// delta length byte array encoding.
-	return d.DeltaLengthByteArrayDecoder.SetData(nvalues, data[int(prefixLenDec.bytesRead()):])
-}
-
-// Decode decodes byte arrays into the slice provided and returns the number of values actually decoded
-func (d *DeltaByteArrayDecoder) Decode(out []parquet.ByteArray) (int, error) {
-	max := utils.Min(len(out), d.nvals)
-	if max == 0 {
-		return 0, nil
-	}
-	out = out[:max]
-
-	var err error
-	if d.lastVal == nil {
-		_, err = d.DeltaLengthByteArrayDecoder.Decode(out[:1])
-		if err != nil {
-			return 0, err
-		}
-		d.lastVal = out[0]
-		out = out[1:]
-		d.prefixLengths = d.prefixLengths[1:]
-	}
-
-	var prefixLen int32
-	suffixHolder := make([]parquet.ByteArray, 1)
-	for len(out) > 0 {
-		prefixLen, d.prefixLengths = d.prefixLengths[0], d.prefixLengths[1:]
-
-		prefix := d.lastVal[:prefixLen:prefixLen]
-		_, err = d.DeltaLengthByteArrayDecoder.Decode(suffixHolder)
-		if err != nil {
-			return 0, err
-		}
-
-		if len(suffixHolder[0]) == 0 {
-			d.lastVal = prefix
-		} else {
-			d.lastVal = make([]byte, int(prefixLen)+len(suffixHolder[0]))
-			copy(d.lastVal, prefix)
-			copy(d.lastVal[prefixLen:], suffixHolder[0])
-		}
-		out[0], out = d.lastVal, out[1:]
-	}
-	return max, nil
-}
-
-// DecodeSpaced is like decode, but the result is spaced out based on the bitmap provided.
-func (d *DeltaByteArrayDecoder) DecodeSpaced(out []parquet.ByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := d.Decode(out[:toread])
-	if err != nil {
-		return values, err
-	}
-	if values != toread {
-		return values, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
diff --git a/go/parquet/internal/encoding/delta_byte_array_test.go b/go/parquet/internal/encoding/delta_byte_array_test.go
deleted file mode 100644
index ec344cbecf845..0000000000000
--- a/go/parquet/internal/encoding/delta_byte_array_test.go
+++ /dev/null
@@ -1,48 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"fmt"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestDeltaByteArrayDecoder_SetData(t *testing.T) {
-	tests := []struct {
-		name    string
-		nvalues int
-		data    []byte
-		wantErr assert.ErrorAssertionFunc
-	}{
-		{
-			name:    "null only page",
-			nvalues: 126609,
-			data:    []byte{128, 1, 4, 0, 0},
-			wantErr: assert.NoError,
-		},
-	}
-	for _, tt := range tests {
-		d := NewDecoder(parquet.Types.ByteArray, parquet.Encodings.DeltaLengthByteArray, nil, memory.DefaultAllocator)
-		t.Run(tt.name, func(t *testing.T) {
-			tt.wantErr(t, d.SetData(tt.nvalues, tt.data), fmt.Sprintf("SetData(%v, %v)", tt.nvalues, tt.data))
-		})
-	}
-}
diff --git a/go/parquet/internal/encoding/delta_length_byte_array.go b/go/parquet/internal/encoding/delta_length_byte_array.go
deleted file mode 100644
index 87c48d574ed68..0000000000000
--- a/go/parquet/internal/encoding/delta_length_byte_array.go
+++ /dev/null
@@ -1,148 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-// DeltaLengthByteArrayEncoder encodes data using by taking all of the byte array lengths
-// and encoding them in front using delta encoding, followed by all of the binary data
-// concatenated back to back. The expected savings is from the cost of encoding the lengths
-// and possibly better compression in the data which will no longer be interleaved with the lengths.
-//
-// This encoding is always preferred over PLAIN for byte array columns where possible.
-//
-// For example, if the data was "Hello", "World", "Foobar", "ABCDEF" the encoded data would be:
-// DeltaEncoding(5, 5, 6, 6) "HelloWorldFoobarABCDEF"
-type DeltaLengthByteArrayEncoder struct {
-	encoder
-
-	lengthEncoder *DeltaBitPackInt32Encoder
-}
-
-// Put writes the provided slice of byte arrays to the encoder
-func (enc *DeltaLengthByteArrayEncoder) Put(in []parquet.ByteArray) {
-	lengths := make([]int32, len(in))
-	totalLen := int(0)
-	for idx, val := range in {
-		lengths[idx] = int32(val.Len())
-		totalLen += val.Len()
-	}
-
-	enc.lengthEncoder.Put(lengths)
-	enc.sink.Reserve(totalLen)
-	for _, val := range in {
-		enc.sink.UnsafeWrite(val)
-	}
-}
-
-// PutSpaced is like Put, but the data is spaced out according to the bitmap provided and is compressed
-// accordingly before it is written to drop the null data from the write.
-func (enc *DeltaLengthByteArrayEncoder) PutSpaced(in []parquet.ByteArray, validBits []byte, validBitsOffset int64) {
-	if validBits != nil {
-		data := make([]parquet.ByteArray, len(in))
-		nvalid := spacedCompress(in, data, validBits, validBitsOffset)
-		enc.Put(data[:nvalid])
-	} else {
-		enc.Put(in)
-	}
-}
-
-// Type returns the underlying type which is handled by this encoder, ByteArrays only.
-func (DeltaLengthByteArrayEncoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-// FlushValues flushes any remaining data and returns the final encoded buffer of data
-// or returns nil and any error encountered.
-func (enc *DeltaLengthByteArrayEncoder) FlushValues() (Buffer, error) {
-	ret, err := enc.lengthEncoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-	defer ret.Release()
-
-	data := enc.sink.Finish()
-	defer data.Release()
-
-	output := bufferPool.Get().(*memory.Buffer)
-	output.ResizeNoShrink(ret.Len() + data.Len())
-	copy(output.Bytes(), ret.Bytes())
-	copy(output.Bytes()[ret.Len():], data.Bytes())
-	return poolBuffer{output}, nil
-}
-
-// DeltaLengthByteArrayDecoder is a decoder for handling data produced by the corresponding
-// encoder which expects delta packed lengths followed by the bytes of data.
-type DeltaLengthByteArrayDecoder struct {
-	decoder
-
-	mem     memory.Allocator
-	lengths []int32
-}
-
-// Type returns the underlying type which is handled by this encoder, ByteArrays only.
-func (DeltaLengthByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-func (d *DeltaLengthByteArrayDecoder) Allocator() memory.Allocator { return d.mem }
-
-// SetData sets in the expected data to the decoder which should be nvalues delta packed lengths
-// followed by the rest of the byte array data immediately after.
-func (d *DeltaLengthByteArrayDecoder) SetData(nvalues int, data []byte) error {
-	dec := DeltaBitPackInt32Decoder{
-		decoder: newDecoderBase(d.encoding, d.descr),
-		mem:     d.mem,
-	}
-
-	if err := dec.SetData(nvalues, data); err != nil {
-		return err
-	}
-	d.lengths = make([]int32, dec.totalValues)
-	dec.Decode(d.lengths)
-
-	return d.decoder.SetData(nvalues, data[int(dec.bytesRead()):])
-}
-
-// Decode populates the passed in slice with data decoded until it hits the length of out
-// or runs out of values in the column to decode, then returns the number of values actually decoded.
-func (d *DeltaLengthByteArrayDecoder) Decode(out []parquet.ByteArray) (int, error) {
-	max := utils.Min(len(out), d.nvals)
-	for i := 0; i < max; i++ {
-		out[i] = d.data[:d.lengths[i]:d.lengths[i]]
-		d.data = d.data[d.lengths[i]:]
-	}
-	d.nvals -= max
-	d.lengths = d.lengths[max:]
-	return max, nil
-}
-
-// DecodeSpaced is like Decode, but for spaced data using the provided bitmap to determine where the nulls should be inserted.
-func (d *DeltaLengthByteArrayDecoder) DecodeSpaced(out []parquet.ByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, _ := d.Decode(out[:toread])
-	if values != toread {
-		return values, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
diff --git a/go/parquet/internal/encoding/encoder.go b/go/parquet/internal/encoding/encoder.go
deleted file mode 100644
index 2373449370f23..0000000000000
--- a/go/parquet/internal/encoding/encoder.go
+++ /dev/null
@@ -1,412 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"fmt"
-	"math/bits"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-//go:generate go run ../../../arrow/_tools/tmpl/main.go -i -data=physical_types.tmpldata plain_encoder_types.gen.go.tmpl typed_encoder.gen.go.tmpl
-
-// EncoderTraits is an interface for the different types to make it more
-// convenient to construct encoders for specific types.
-type EncoderTraits interface {
-	Encoder(format.Encoding, bool, *schema.Column, memory.Allocator) TypedEncoder
-}
-
-// NewEncoder will return the appropriately typed encoder for the requested physical type
-// and encoding.
-//
-// If mem is nil, memory.DefaultAllocator will be used.
-func NewEncoder(t parquet.Type, e parquet.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	traits := getEncodingTraits(t)
-	if traits == nil {
-		return nil
-	}
-
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-	return traits.Encoder(format.Encoding(e), useDict, descr, mem)
-}
-
-type encoder struct {
-	descr    *schema.Column
-	encoding format.Encoding
-	typeLen  int
-	mem      memory.Allocator
-
-	sink *PooledBufferWriter
-}
-
-// newEncoderBase constructs a new base encoder for embedding on the typed encoders
-// encapsulating the common functionality.
-func newEncoderBase(e format.Encoding, descr *schema.Column, mem memory.Allocator) encoder {
-	typelen := -1
-	if descr != nil && descr.PhysicalType() == parquet.Types.FixedLenByteArray {
-		typelen = int(descr.TypeLength())
-	}
-	return encoder{
-		descr:    descr,
-		encoding: e,
-		mem:      mem,
-		typeLen:  typelen,
-		sink:     NewPooledBufferWriter(1024),
-	}
-}
-
-func (e *encoder) Release() {
-	poolbuf := e.sink.buf
-	memory.Set(poolbuf.Buf(), 0)
-	poolbuf.ResizeNoShrink(0)
-	bufferPool.Put(poolbuf)
-	e.sink = nil
-}
-
-// ReserveForWrite allocates n bytes so that the next n bytes written do not require new allocations.
-func (e *encoder) ReserveForWrite(n int)           { e.sink.Reserve(n) }
-func (e *encoder) EstimatedDataEncodedSize() int64 { return int64(e.sink.Len()) }
-func (e *encoder) Encoding() parquet.Encoding      { return parquet.Encoding(e.encoding) }
-func (e *encoder) Allocator() memory.Allocator     { return e.mem }
-func (e *encoder) append(data []byte)              { e.sink.Write(data) }
-
-// FlushValues flushes any unwritten data to the buffer and returns the finished encoded buffer of data.
-// This also clears the encoder, ownership of the data belongs to whomever called FlushValues, Release
-// should be called on the resulting Buffer when done.
-func (e *encoder) FlushValues() (Buffer, error) { return e.sink.Finish(), nil }
-
-// Bytes returns the current bytes that have been written to the encoder's buffer but doesn't transfer ownership.
-func (e *encoder) Bytes() []byte { return e.sink.Bytes() }
-
-// Reset drops the data currently in the encoder and resets for new use.
-func (e *encoder) Reset() { e.sink.Reset(0) }
-
-type dictEncoder struct {
-	encoder
-
-	dictEncodedSize int
-	idxBuffer       *memory.Buffer
-	idxValues       []int32
-	memo            MemoTable
-
-	preservedDict arrow.Array
-}
-
-// newDictEncoderBase constructs and returns a dictionary encoder for the appropriate type using the passed
-// in memo table for constructing the index.
-func newDictEncoderBase(descr *schema.Column, memo MemoTable, mem memory.Allocator) dictEncoder {
-	return dictEncoder{
-		encoder:   newEncoderBase(format.Encoding_PLAIN_DICTIONARY, descr, mem),
-		idxBuffer: memory.NewResizableBuffer(mem),
-		memo:      memo,
-	}
-}
-
-// Reset drops all the currently encoded values from the index and indexes from the data to allow
-// restarting the encoding process.
-func (d *dictEncoder) Reset() {
-	d.encoder.Reset()
-	d.dictEncodedSize = 0
-	d.idxValues = d.idxValues[:0]
-	d.idxBuffer.ResizeNoShrink(0)
-	d.memo.Reset()
-	if d.preservedDict != nil {
-		d.preservedDict.Release()
-		d.preservedDict = nil
-	}
-}
-
-func (d *dictEncoder) Release() {
-	d.encoder.Release()
-	d.idxBuffer.Release()
-	if m, ok := d.memo.(BinaryMemoTable); ok {
-		m.Release()
-	} else {
-		d.memo.Reset()
-	}
-	if d.preservedDict != nil {
-		d.preservedDict.Release()
-		d.preservedDict = nil
-	}
-}
-
-func (d *dictEncoder) expandBuffer(newCap int) {
-	if cap(d.idxValues) >= newCap {
-		return
-	}
-
-	curLen := len(d.idxValues)
-	d.idxBuffer.ResizeNoShrink(arrow.Int32Traits.BytesRequired(bitutil.NextPowerOf2(newCap)))
-	d.idxValues = arrow.Int32Traits.CastFromBytes(d.idxBuffer.Buf())[: curLen : d.idxBuffer.Len()/arrow.Int32SizeBytes]
-}
-
-func (d *dictEncoder) PutIndices(data arrow.Array) error {
-	newValues := data.Len() - data.NullN()
-	curPos := len(d.idxValues)
-	newLen := newValues + curPos
-	d.expandBuffer(newLen)
-	d.idxValues = d.idxValues[:newLen:cap(d.idxValues)]
-
-	switch data.DataType().ID() {
-	case arrow.UINT8, arrow.INT8:
-		values := arrow.Uint8Traits.CastFromBytes(data.Data().Buffers()[1].Bytes())[data.Data().Offset():]
-		bitutils.VisitSetBitRunsNoErr(data.NullBitmapBytes(),
-			int64(data.Data().Offset()), int64(data.Len()),
-			func(pos, length int64) {
-				for i := int64(0); i < length; i++ {
-					d.idxValues[curPos] = int32(values[i+pos])
-					curPos++
-				}
-			})
-	case arrow.UINT16, arrow.INT16:
-		values := arrow.Uint16Traits.CastFromBytes(data.Data().Buffers()[1].Bytes())[data.Data().Offset():]
-		bitutils.VisitSetBitRunsNoErr(data.NullBitmapBytes(),
-			int64(data.Data().Offset()), int64(data.Len()),
-			func(pos, length int64) {
-				for i := int64(0); i < length; i++ {
-					d.idxValues[curPos] = int32(values[i+pos])
-					curPos++
-				}
-			})
-	case arrow.UINT32, arrow.INT32:
-		values := arrow.Uint32Traits.CastFromBytes(data.Data().Buffers()[1].Bytes())[data.Data().Offset():]
-		bitutils.VisitSetBitRunsNoErr(data.NullBitmapBytes(),
-			int64(data.Data().Offset()), int64(data.Len()),
-			func(pos, length int64) {
-				for i := int64(0); i < length; i++ {
-					d.idxValues[curPos] = int32(values[i+pos])
-					curPos++
-				}
-			})
-	case arrow.UINT64, arrow.INT64:
-		values := arrow.Uint64Traits.CastFromBytes(data.Data().Buffers()[1].Bytes())[data.Data().Offset():]
-		bitutils.VisitSetBitRunsNoErr(data.NullBitmapBytes(),
-			int64(data.Data().Offset()), int64(data.Len()),
-			func(pos, length int64) {
-				for i := int64(0); i < length; i++ {
-					d.idxValues[curPos] = int32(values[i+pos])
-					curPos++
-				}
-			})
-	default:
-		return fmt.Errorf("%w: passed non-integer array to PutIndices", arrow.ErrInvalid)
-	}
-
-	return nil
-}
-
-// append the passed index to the indexbuffer
-func (d *dictEncoder) addIndex(idx int) {
-	curLen := len(d.idxValues)
-	d.expandBuffer(curLen + 1)
-	d.idxValues = append(d.idxValues, int32(idx))
-}
-
-// FlushValues dumps all the currently buffered indexes that would become the data page to a buffer and
-// returns it or returns nil and any error encountered.
-func (d *dictEncoder) FlushValues() (Buffer, error) {
-	buf := bufferPool.Get().(*memory.Buffer)
-	buf.Reserve(int(d.EstimatedDataEncodedSize()))
-	size, err := d.WriteIndices(buf.Buf())
-	if err != nil {
-		poolBuffer{buf}.Release()
-		return nil, err
-	}
-	buf.ResizeNoShrink(size)
-	return poolBuffer{buf}, nil
-}
-
-// EstimatedDataEncodedSize returns the maximum number of bytes needed to store the RLE encoded indexes, not including the
-// dictionary index in the computation.
-func (d *dictEncoder) EstimatedDataEncodedSize() int64 {
-	return 1 + int64(utils.MaxRLEBufferSize(d.BitWidth(), len(d.idxValues))+utils.MinRLEBufferSize(d.BitWidth()))
-}
-
-// NumEntries returns the number of entires in the dictionary index for this encoder.
-func (d *dictEncoder) NumEntries() int {
-	return d.memo.Size()
-}
-
-// BitWidth returns the max bitwidth that would be necessary for encoding the index values currently
-// in the dictionary based on the size of the dictionary index.
-func (d *dictEncoder) BitWidth() int {
-	switch d.NumEntries() {
-	case 0:
-		return 0
-	case 1:
-		return 1
-	default:
-		return bits.Len32(uint32(d.NumEntries() - 1))
-	}
-}
-
-// WriteDict writes the dictionary index to the given byte slice.
-func (d *dictEncoder) WriteDict(out []byte) {
-	d.memo.WriteOut(out)
-}
-
-// WriteIndices performs Run Length encoding on the indexes and the writes the encoded
-// index value data to the provided byte slice, returning the number of bytes actually written.
-// If any error is encountered, it will return -1 and the error.
-func (d *dictEncoder) WriteIndices(out []byte) (int, error) {
-	out[0] = byte(d.BitWidth())
-
-	enc := utils.NewRleEncoder(utils.NewWriterAtBuffer(out[1:]), d.BitWidth())
-	for _, idx := range d.idxValues {
-		if err := enc.Put(uint64(idx)); err != nil {
-			return -1, err
-		}
-	}
-	nbytes := enc.Flush()
-
-	d.idxValues = d.idxValues[:0]
-	return nbytes + 1, nil
-}
-
-// Put adds a value to the dictionary data column, inserting the value if it
-// didn't already exist in the dictionary.
-func (d *dictEncoder) Put(v interface{}) {
-	memoIdx, found, err := d.memo.GetOrInsert(v)
-	if err != nil {
-		panic(err)
-	}
-	if !found {
-		d.dictEncodedSize += int(reflect.TypeOf(v).Size())
-	}
-	d.addIndex(memoIdx)
-}
-
-// DictEncodedSize returns the current size of the encoded dictionary
-func (d *dictEncoder) DictEncodedSize() int {
-	return d.dictEncodedSize
-}
-
-func (d *dictEncoder) canPutDictionary(values arrow.Array) error {
-	switch {
-	case values.NullN() > 0:
-		return fmt.Errorf("%w: inserted dictionary cannot contain nulls",
-			arrow.ErrInvalid)
-	case d.NumEntries() > 0:
-		return fmt.Errorf("%w: can only call PutDictionary on an empty DictEncoder",
-			arrow.ErrInvalid)
-	}
-
-	return nil
-}
-
-func (d *dictEncoder) PreservedDictionary() arrow.Array { return d.preservedDict }
-
-// spacedCompress is a helper function for encoders to remove the slots in the slices passed in according
-// to the bitmap which are null into an output slice that is no longer spaced out with slots for nulls.
-func spacedCompress(src, out interface{}, validBits []byte, validBitsOffset int64) int {
-	nvalid := 0
-
-	// for efficiency we use a type switch because the copy runs significantly faster when typed
-	// than calling reflect.Copy
-	switch s := src.(type) {
-	case []int32:
-		o := out.([]int32)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	case []int64:
-		o := out.([]int64)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	case []float32:
-		o := out.([]float32)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	case []float64:
-		o := out.([]float64)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	case []parquet.ByteArray:
-		o := out.([]parquet.ByteArray)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	case []parquet.FixedLenByteArray:
-		o := out.([]parquet.FixedLenByteArray)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	case []bool:
-		o := out.([]bool)
-		reader := bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(s)))
-		for {
-			run := reader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			copy(o[nvalid:], s[int(run.Pos):int(run.Pos+run.Length)])
-			nvalid += int(run.Length)
-		}
-	}
-
-	return nvalid
-}
diff --git a/go/parquet/internal/encoding/encoding_benchmarks_test.go b/go/parquet/internal/encoding/encoding_benchmarks_test.go
deleted file mode 100644
index 2ca414eec6b90..0000000000000
--- a/go/parquet/internal/encoding/encoding_benchmarks_test.go
+++ /dev/null
@@ -1,681 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding_test
-
-import (
-	"fmt"
-	"math"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/hashing"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-const (
-	MINSIZE = 1024
-	MAXSIZE = 65536
-)
-
-func BenchmarkPlainEncodingBoolean(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]bool, sz)
-			for idx := range values {
-				values[idx] = true
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Boolean, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.BooleanEncoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values)))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkPlainEncodingInt32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkPlainEncodingInt64(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]int64, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.Int64Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int64SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkPlainEncodingFloat32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]float32, sz)
-			for idx := range values {
-				values[idx] = 64.0
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Float, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.Float32Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Float32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkPlainEncodingFloat64(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]float64, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Double, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.Float64Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Float64SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkPlainDecodingBoolean(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]bool, sz)
-			values := make([]bool, sz)
-			for idx := range values {
-				values[idx] = true
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Boolean, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.BooleanEncoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.Boolean, parquet.Encodings.Plain, nil, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values)))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				decoder.(encoding.BooleanDecoder).Decode(output)
-			}
-		})
-	}
-}
-
-func BenchmarkPlainDecodingInt32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]int32, sz)
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.Plain,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.Plain, nil, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values)))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				decoder.(encoding.Int32Decoder).Decode(output)
-			}
-		})
-	}
-}
-
-func BenchmarkMemoTableFloat64(b *testing.B) {
-	tests := []struct {
-		nunique int32
-		nvalues int64
-	}{
-		{100, 65535},
-		{1000, 65535},
-		{5000, 65535},
-	}
-
-	for _, tt := range tests {
-		b.Run(fmt.Sprintf("%d unique n %d", tt.nunique, tt.nvalues), func(b *testing.B) {
-			rag := testutils.NewRandomArrayGenerator(0)
-			dict := rag.Float64(int64(tt.nunique), 0)
-			indices := rag.Int32(tt.nvalues, 0, int32(tt.nunique)-1, 0)
-
-			values := make([]float64, tt.nvalues)
-			for idx := range values {
-				values[idx] = dict.Value(int(indices.Value(idx)))
-			}
-
-			b.ResetTimer()
-			b.Run("go map", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := encoding.NewFloat64MemoTable(memory.DefaultAllocator)
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nunique) {
-						b.Fatal(tbl.Size(), tt.nunique)
-					}
-				}
-			})
-			b.ResetTimer()
-			b.Run("xxh3", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := hashing.NewFloat64MemoTable(0)
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nunique) {
-						b.Fatal(tbl.Size(), tt.nunique)
-					}
-				}
-			})
-		})
-	}
-}
-
-func BenchmarkMemoTableInt32(b *testing.B) {
-	tests := []struct {
-		nunique int32
-		nvalues int64
-	}{
-		{100, 65535},
-		{1000, 65535},
-		{5000, 65535},
-	}
-
-	for _, tt := range tests {
-		b.Run(fmt.Sprintf("%d unique n %d", tt.nunique, tt.nvalues), func(b *testing.B) {
-			rag := testutils.NewRandomArrayGenerator(0)
-			dict := rag.Int32(int64(tt.nunique), 0, math.MaxInt32-1, 0)
-			indices := rag.Int32(tt.nvalues, 0, int32(tt.nunique)-1, 0)
-
-			values := make([]int32, tt.nvalues)
-			for idx := range values {
-				values[idx] = dict.Value(int(indices.Value(idx)))
-			}
-			b.ResetTimer()
-			b.Run("xxh3", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := hashing.NewInt32MemoTable(0)
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nunique) {
-						b.Fatal(tbl.Size(), tt.nunique)
-					}
-				}
-			})
-
-			b.Run("go map", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := encoding.NewInt32MemoTable(memory.DefaultAllocator)
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nunique) {
-						b.Fatal(tbl.Size(), tt.nunique)
-					}
-				}
-			})
-		})
-	}
-}
-
-func BenchmarkMemoTable(b *testing.B) {
-	tests := []struct {
-		nunique int32
-		minLen  int32
-		maxLen  int32
-		nvalues int64
-	}{
-		{100, 32, 32, 65535},
-		{100, 8, 32, 65535},
-		{1000, 32, 32, 65535},
-		{1000, 8, 32, 65535},
-		{5000, 32, 32, 65535},
-		{5000, 8, 32, 65535},
-	}
-
-	for _, tt := range tests {
-		b.Run(fmt.Sprintf("%d unique len %d-%d n %d", tt.nunique, tt.minLen, tt.maxLen, tt.nvalues), func(b *testing.B) {
-
-			rag := testutils.NewRandomArrayGenerator(0)
-			dict := rag.ByteArray(int64(tt.nunique), tt.minLen, tt.maxLen, 0).(*array.String)
-			indices := rag.Int32(tt.nvalues, 0, int32(tt.nunique)-1, 0)
-
-			values := make([]parquet.ByteArray, tt.nvalues)
-			for idx := range values {
-				values[idx] = []byte(dict.Value(int(indices.Value(idx))))
-			}
-
-			b.ResetTimer()
-
-			b.Run("xxh3", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := hashing.NewBinaryMemoTable(0, -1, array.NewBinaryBuilder(memory.DefaultAllocator, arrow.BinaryTypes.Binary))
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nunique) {
-						b.Fatal(tbl.Size(), tt.nunique)
-					}
-					tbl.Release()
-				}
-			})
-			b.ResetTimer()
-			b.Run("go map", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := encoding.NewBinaryMemoTable(memory.DefaultAllocator)
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nunique) {
-						b.Fatal(tbl.Size(), tt.nunique)
-					}
-					tbl.Release()
-				}
-			})
-		})
-	}
-}
-
-func BenchmarkMemoTableAllUnique(b *testing.B) {
-	tests := []struct {
-		minLen  int32
-		maxLen  int32
-		nvalues int64
-	}{
-		{32, 32, 1024},
-		{8, 32, 1024},
-		{32, 32, 32767},
-		{8, 32, 32767},
-		{32, 32, 65535},
-		{8, 32, 65535},
-	}
-	for _, tt := range tests {
-		b.Run(fmt.Sprintf("values %d len %d-%d", tt.nvalues, tt.minLen, tt.maxLen), func(b *testing.B) {
-
-			rag := testutils.NewRandomArrayGenerator(0)
-			dict := rag.ByteArray(tt.nvalues, tt.minLen, tt.maxLen, 0).(*array.String)
-
-			values := make([]parquet.ByteArray, tt.nvalues)
-			for idx := range values {
-				values[idx] = []byte(dict.Value(idx))
-			}
-
-			b.ResetTimer()
-			b.Run("go map", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := encoding.NewBinaryMemoTable(memory.DefaultAllocator)
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nvalues) {
-						b.Fatal(tbl.Size(), tt.nvalues)
-					}
-					tbl.Release()
-				}
-			})
-
-			b.Run("xxh3", func(b *testing.B) {
-				for i := 0; i < b.N; i++ {
-					tbl := hashing.NewBinaryMemoTable(0, -1, array.NewBinaryBuilder(memory.DefaultAllocator, arrow.BinaryTypes.Binary))
-					for _, v := range values {
-						tbl.GetOrInsert(v)
-					}
-					if tbl.Size() != int(tt.nvalues) {
-						b.Fatal(tbl.Size(), tt.nvalues)
-					}
-					tbl.Release()
-				}
-			})
-		})
-	}
-
-}
-
-func BenchmarkEncodeDictByteArray(b *testing.B) {
-	const (
-		nunique = 100
-		minLen  = 8
-		maxLen  = 32
-		nvalues = 65535
-	)
-
-	rag := testutils.NewRandomArrayGenerator(0)
-	dict := rag.ByteArray(nunique, minLen, maxLen, 0).(*array.String)
-	indices := rag.Int32(nvalues, 0, nunique-1, 0)
-
-	values := make([]parquet.ByteArray, nvalues)
-	for idx := range values {
-		values[idx] = []byte(dict.Value(int(indices.Value(idx))))
-	}
-	col := schema.NewColumn(schema.NewByteArrayNode("bytearray", parquet.Repetitions.Required, -1), 0, 0)
-
-	out := make([]byte, nunique*(maxLen+arrow.Uint32SizeBytes))
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		enc := encoding.NewEncoder(parquet.Types.ByteArray, parquet.Encodings.PlainDict, true, col, memory.DefaultAllocator).(*encoding.DictByteArrayEncoder)
-		enc.Put(values)
-		enc.WriteDict(out)
-	}
-}
-
-func BenchmarkDecodeDictByteArray(b *testing.B) {
-	const (
-		nunique = 100
-		minLen  = 32
-		maxLen  = 32
-		nvalues = 65535
-	)
-
-	rag := testutils.NewRandomArrayGenerator(0)
-	dict := rag.ByteArray(nunique, minLen, maxLen, 0).(*array.String)
-	indices := rag.Int32(nvalues, 0, nunique-1, 0)
-
-	values := make([]parquet.ByteArray, nvalues)
-	for idx := range values {
-		values[idx] = []byte(dict.Value(int(indices.Value(idx))))
-	}
-
-	col := schema.NewColumn(schema.NewByteArrayNode("bytearray", parquet.Repetitions.Required, -1), 0, 0)
-	enc := encoding.NewEncoder(parquet.Types.ByteArray, parquet.Encodings.PlainDict, true, col, memory.DefaultAllocator).(*encoding.DictByteArrayEncoder)
-	enc.Put(values)
-
-	dictBuf := make([]byte, enc.DictEncodedSize())
-	enc.WriteDict(dictBuf)
-
-	idxBuf := make([]byte, enc.EstimatedDataEncodedSize())
-	enc.WriteIndices(idxBuf)
-
-	out := make([]parquet.ByteArray, nvalues)
-
-	b.ResetTimer()
-
-	for i := 0; i < b.N; i++ {
-		dec := encoding.NewDecoder(parquet.Types.ByteArray, parquet.Encodings.Plain, col, memory.DefaultAllocator)
-		dec.SetData(nunique, dictBuf)
-		dictDec := encoding.NewDictDecoder(parquet.Types.ByteArray, col, memory.DefaultAllocator).(*encoding.DictByteArrayDecoder)
-		dictDec.SetDict(dec)
-		dictDec.SetData(nvalues, idxBuf)
-
-		dictDec.Decode(out)
-	}
-}
-
-func BenchmarkByteStreamSplitEncodingInt32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.ByteStreamSplit,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkByteStreamSplitDecodingInt32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]int32, sz)
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.ByteStreamSplit,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.ByteStreamSplit, nil, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				decoder.(encoding.Int32Decoder).Decode(output)
-			}
-		})
-	}
-}
-
-func BenchmarkByteStreamSplitDecodingInt32Batched(b *testing.B) {
-	const batchSize = 512
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]int32, sz)
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.ByteStreamSplit,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.ByteStreamSplit, nil, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				for batch := 0; batch*batchSize < sz; batch++ {
-					offset := batch * batchSize
-					decoder.(encoding.Int32Decoder).Decode(output[offset : offset+batchSize])
-				}
-			}
-		})
-	}
-}
-
-func BenchmarkByteStreamSplitEncodingInt64(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]int64, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.ByteStreamSplit,
-				false, nil, memory.DefaultAllocator).(encoding.Int64Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int64SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkByteStreamSplitDecodingInt64(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]int64, sz)
-			values := make([]int64, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.ByteStreamSplit,
-				false, nil, memory.DefaultAllocator).(encoding.Int64Encoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.ByteStreamSplit, nil, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int64SizeBytes))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				decoder.(encoding.Int64Decoder).Decode(output)
-			}
-		})
-	}
-}
-
-func BenchmarkByteStreamSplitEncodingFixedLenByteArray(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]parquet.FixedLenByteArray, sz)
-			for idx := range values {
-				values[idx] = []byte{0x12, 0x34, 0x56, 0x78}
-			}
-
-			arraySize := len(values[0])
-			col := schema.NewColumn(schema.NewFixedLenByteArrayNode("fixedlenbytearray", parquet.Repetitions.Required, int32(arraySize), -1), 0, 0)
-			encoder := encoding.NewEncoder(parquet.Types.FixedLenByteArray, parquet.Encodings.ByteStreamSplit,
-				false, col, memory.DefaultAllocator).(encoding.FixedLenByteArrayEncoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arraySize))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkByteStreamSplitDecodingFixedLenByteArray(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]parquet.FixedLenByteArray, sz)
-			values := make([]parquet.FixedLenByteArray, sz)
-			for idx := range values {
-				values[idx] = []byte{0x12, 0x34, 0x56, 0x78}
-			}
-
-			arraySize := len(values[0])
-			col := schema.NewColumn(schema.NewFixedLenByteArrayNode("fixedlenbytearray", parquet.Repetitions.Required, int32(arraySize), -1), 0, 0)
-			encoder := encoding.NewEncoder(parquet.Types.FixedLenByteArray, parquet.Encodings.ByteStreamSplit,
-				false, col, memory.DefaultAllocator).(encoding.FixedLenByteArrayEncoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.FixedLenByteArray, parquet.Encodings.ByteStreamSplit, col, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arraySize))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				decoder.(encoding.FixedLenByteArrayDecoder).Decode(output)
-			}
-		})
-	}
-}
-
-func BenchmarkDeltaBinaryPackedEncodingInt32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				encoder.Put(values)
-				buf, _ := encoder.FlushValues()
-				buf.Release()
-			}
-		})
-	}
-}
-
-func BenchmarkDeltaBinaryPackedDecodingInt32(b *testing.B) {
-	for sz := MINSIZE; sz < MAXSIZE+1; sz *= 2 {
-		b.Run(fmt.Sprintf("len %d", sz), func(b *testing.B) {
-			output := make([]int32, sz)
-			values := make([]int32, sz)
-			for idx := range values {
-				values[idx] = 64
-			}
-			encoder := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked,
-				false, nil, memory.DefaultAllocator).(encoding.Int32Encoder)
-			encoder.Put(values)
-			buf, _ := encoder.FlushValues()
-			defer buf.Release()
-
-			decoder := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, nil, memory.DefaultAllocator)
-			b.ResetTimer()
-			b.SetBytes(int64(len(values) * arrow.Int32SizeBytes))
-			for n := 0; n < b.N; n++ {
-				decoder.SetData(sz, buf.Bytes())
-				decoder.(encoding.Int32Decoder).Decode(output)
-			}
-		})
-	}
-}
diff --git a/go/parquet/internal/encoding/encoding_test.go b/go/parquet/internal/encoding/encoding_test.go
deleted file mode 100644
index 4d681eaf02307..0000000000000
--- a/go/parquet/internal/encoding/encoding_test.go
+++ /dev/null
@@ -1,873 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding_test
-
-import (
-	"bufio"
-	"fmt"
-	"os"
-	"path"
-	"reflect"
-	"strconv"
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-type nodeFactory func(string, parquet.Repetition, int32) *schema.PrimitiveNode
-
-func createNodeFactory(t reflect.Type) nodeFactory {
-	switch t {
-	case reflect.TypeOf(true):
-		return schema.NewBooleanNode
-	case reflect.TypeOf(int32(0)):
-		return schema.NewInt32Node
-	case reflect.TypeOf(int64(0)):
-		return schema.NewInt64Node
-	case reflect.TypeOf(parquet.Int96{}):
-		return schema.NewInt96Node
-	case reflect.TypeOf(float32(0)):
-		return schema.NewFloat32Node
-	case reflect.TypeOf(float64(0)):
-		return schema.NewFloat64Node
-	case reflect.TypeOf(parquet.ByteArray{}):
-		return schema.NewByteArrayNode
-	case reflect.TypeOf(parquet.FixedLenByteArray{}):
-		return func(name string, rep parquet.Repetition, field int32) *schema.PrimitiveNode {
-			return schema.NewFixedLenByteArrayNode(name, rep, 12, field)
-		}
-	}
-	return nil
-}
-
-func initdata(t reflect.Type, drawbuf, decodebuf []byte, nvals, repeats int, heap *memory.Buffer) (interface{}, interface{}) {
-	switch t {
-	case reflect.TypeOf(true):
-		draws := *(*[]bool)(unsafe.Pointer(&drawbuf))
-		decode := *(*[]bool)(unsafe.Pointer(&decodebuf))
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(int32(0)):
-		draws := arrow.Int32Traits.CastFromBytes(drawbuf)
-		decode := arrow.Int32Traits.CastFromBytes(decodebuf)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(int64(0)):
-		draws := arrow.Int64Traits.CastFromBytes(drawbuf)
-		decode := arrow.Int64Traits.CastFromBytes(decodebuf)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(parquet.Int96{}):
-		draws := parquet.Int96Traits.CastFromBytes(drawbuf)
-		decode := parquet.Int96Traits.CastFromBytes(decodebuf)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(float32(0)):
-		draws := arrow.Float32Traits.CastFromBytes(drawbuf)
-		decode := arrow.Float32Traits.CastFromBytes(decodebuf)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(float64(0)):
-		draws := arrow.Float64Traits.CastFromBytes(drawbuf)
-		decode := arrow.Float64Traits.CastFromBytes(decodebuf)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(parquet.ByteArray{}):
-		draws := make([]parquet.ByteArray, nvals*repeats)
-		decode := make([]parquet.ByteArray, nvals*repeats)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	case reflect.TypeOf(parquet.FixedLenByteArray{}):
-		draws := make([]parquet.FixedLenByteArray, nvals*repeats)
-		decode := make([]parquet.FixedLenByteArray, nvals*repeats)
-		testutils.InitValues(draws[:nvals], heap)
-
-		for j := 1; j < repeats; j++ {
-			for k := 0; k < nvals; k++ {
-				draws[nvals*j+k] = draws[k]
-			}
-		}
-
-		return draws[:nvals*repeats], decode[:nvals*repeats]
-	}
-	return nil, nil
-}
-
-func encode(enc encoding.TypedEncoder, vals interface{}) {
-	switch v := vals.(type) {
-	case []bool:
-		enc.(encoding.BooleanEncoder).Put(v)
-	case []int32:
-		enc.(encoding.Int32Encoder).Put(v)
-	case []int64:
-		enc.(encoding.Int64Encoder).Put(v)
-	case []parquet.Int96:
-		enc.(encoding.Int96Encoder).Put(v)
-	case []float32:
-		enc.(encoding.Float32Encoder).Put(v)
-	case []float64:
-		enc.(encoding.Float64Encoder).Put(v)
-	case []parquet.ByteArray:
-		enc.(encoding.ByteArrayEncoder).Put(v)
-	case []parquet.FixedLenByteArray:
-		enc.(encoding.FixedLenByteArrayEncoder).Put(v)
-	}
-}
-
-func encodeSpaced(enc encoding.TypedEncoder, vals interface{}, validBits []byte, validBitsOffset int64) {
-	switch v := vals.(type) {
-	case []bool:
-		enc.(encoding.BooleanEncoder).PutSpaced(v, validBits, validBitsOffset)
-	case []int32:
-		enc.(encoding.Int32Encoder).PutSpaced(v, validBits, validBitsOffset)
-	case []int64:
-		enc.(encoding.Int64Encoder).PutSpaced(v, validBits, validBitsOffset)
-	case []parquet.Int96:
-		enc.(encoding.Int96Encoder).PutSpaced(v, validBits, validBitsOffset)
-	case []float32:
-		enc.(encoding.Float32Encoder).PutSpaced(v, validBits, validBitsOffset)
-	case []float64:
-		enc.(encoding.Float64Encoder).PutSpaced(v, validBits, validBitsOffset)
-	case []parquet.ByteArray:
-		enc.(encoding.ByteArrayEncoder).PutSpaced(v, validBits, validBitsOffset)
-	case []parquet.FixedLenByteArray:
-		enc.(encoding.FixedLenByteArrayEncoder).PutSpaced(v, validBits, validBitsOffset)
-	}
-}
-
-func decode(dec encoding.TypedDecoder, out interface{}) (int, error) {
-	switch v := out.(type) {
-	case []bool:
-		return dec.(encoding.BooleanDecoder).Decode(v)
-	case []int32:
-		return dec.(encoding.Int32Decoder).Decode(v)
-	case []int64:
-		return dec.(encoding.Int64Decoder).Decode(v)
-	case []parquet.Int96:
-		return dec.(encoding.Int96Decoder).Decode(v)
-	case []float32:
-		return dec.(encoding.Float32Decoder).Decode(v)
-	case []float64:
-		return dec.(encoding.Float64Decoder).Decode(v)
-	case []parquet.ByteArray:
-		return dec.(encoding.ByteArrayDecoder).Decode(v)
-	case []parquet.FixedLenByteArray:
-		return dec.(encoding.FixedLenByteArrayDecoder).Decode(v)
-	}
-	return 0, nil
-}
-
-func decodeSpaced(dec encoding.TypedDecoder, out interface{}, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	switch v := out.(type) {
-	case []bool:
-		return dec.(encoding.BooleanDecoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []int32:
-		return dec.(encoding.Int32Decoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []int64:
-		return dec.(encoding.Int64Decoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []parquet.Int96:
-		return dec.(encoding.Int96Decoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []float32:
-		return dec.(encoding.Float32Decoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []float64:
-		return dec.(encoding.Float64Decoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []parquet.ByteArray:
-		return dec.(encoding.ByteArrayDecoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	case []parquet.FixedLenByteArray:
-		return dec.(encoding.FixedLenByteArrayDecoder).DecodeSpaced(v, nullCount, validBits, validBitsOffset)
-	}
-	return 0, nil
-}
-
-type BaseEncodingTestSuite struct {
-	suite.Suite
-
-	descr   *schema.Column
-	typeLen int
-	mem     memory.Allocator
-	typ     reflect.Type
-
-	nvalues     int
-	heap        *memory.Buffer
-	inputBytes  *memory.Buffer
-	outputBytes *memory.Buffer
-	nodeFactory nodeFactory
-
-	draws     interface{}
-	decodeBuf interface{}
-}
-
-func (b *BaseEncodingTestSuite) SetupSuite() {
-	b.mem = memory.DefaultAllocator
-	b.inputBytes = memory.NewResizableBuffer(b.mem)
-	b.outputBytes = memory.NewResizableBuffer(b.mem)
-	b.heap = memory.NewResizableBuffer(b.mem)
-	b.nodeFactory = createNodeFactory(b.typ)
-}
-
-func (b *BaseEncodingTestSuite) TearDownSuite() {
-	b.inputBytes.Release()
-	b.outputBytes.Release()
-	b.heap.Release()
-}
-
-func (b *BaseEncodingTestSuite) SetupTest() {
-	b.descr = schema.NewColumn(b.nodeFactory("name", parquet.Repetitions.Optional, -1), 0, 0)
-	b.typeLen = int(b.descr.TypeLength())
-}
-
-func (b *BaseEncodingTestSuite) initData(nvalues, repeats int) {
-	b.nvalues = nvalues * repeats
-	b.inputBytes.ResizeNoShrink(b.nvalues * int(b.typ.Size()))
-	b.outputBytes.ResizeNoShrink(b.nvalues * int(b.typ.Size()))
-	memory.Set(b.inputBytes.Buf(), 0)
-	memory.Set(b.outputBytes.Buf(), 0)
-
-	b.draws, b.decodeBuf = initdata(b.typ, b.inputBytes.Buf(), b.outputBytes.Buf(), nvalues, repeats, b.heap)
-}
-
-func (b *BaseEncodingTestSuite) encodeTestData(e parquet.Encoding) (encoding.Buffer, error) {
-	enc := encoding.NewEncoder(testutils.TypeToParquetType(b.typ), e, false, b.descr, memory.DefaultAllocator)
-	b.Equal(e, enc.Encoding())
-	b.Equal(b.descr.PhysicalType(), enc.Type())
-	encode(enc, reflect.ValueOf(b.draws).Slice(0, b.nvalues).Interface())
-	return enc.FlushValues()
-}
-
-func (b *BaseEncodingTestSuite) decodeTestData(e parquet.Encoding, buf []byte) {
-	dec := encoding.NewDecoder(testutils.TypeToParquetType(b.typ), e, b.descr, b.mem)
-	b.Equal(e, dec.Encoding())
-	b.Equal(b.descr.PhysicalType(), dec.Type())
-
-	dec.SetData(b.nvalues, buf)
-	decoded, _ := decode(dec, b.decodeBuf)
-	b.Equal(b.nvalues, decoded)
-	b.Equal(reflect.ValueOf(b.draws).Slice(0, b.nvalues).Interface(), reflect.ValueOf(b.decodeBuf).Slice(0, b.nvalues).Interface())
-}
-
-func (b *BaseEncodingTestSuite) encodeTestDataSpaced(e parquet.Encoding, validBits []byte, validBitsOffset int64) (encoding.Buffer, error) {
-	enc := encoding.NewEncoder(testutils.TypeToParquetType(b.typ), e, false, b.descr, memory.DefaultAllocator)
-	encodeSpaced(enc, reflect.ValueOf(b.draws).Slice(0, b.nvalues).Interface(), validBits, validBitsOffset)
-	return enc.FlushValues()
-}
-
-func (b *BaseEncodingTestSuite) decodeTestDataSpaced(e parquet.Encoding, nullCount int, buf []byte, validBits []byte, validBitsOffset int64) {
-	dec := encoding.NewDecoder(testutils.TypeToParquetType(b.typ), e, b.descr, b.mem)
-	dec.SetData(b.nvalues-nullCount, buf)
-	decoded, _ := decodeSpaced(dec, b.decodeBuf, nullCount, validBits, validBitsOffset)
-	b.Equal(b.nvalues, decoded)
-
-	drawval := reflect.ValueOf(b.draws)
-	decodeval := reflect.ValueOf(b.decodeBuf)
-	for j := 0; j < b.nvalues; j++ {
-		if bitutil.BitIsSet(validBits, int(validBitsOffset)+j) {
-			b.Equal(drawval.Index(j).Interface(), decodeval.Index(j).Interface())
-		}
-	}
-}
-
-func (b *BaseEncodingTestSuite) checkRoundTrip(e parquet.Encoding) {
-	buf, _ := b.encodeTestData(e)
-	defer buf.Release()
-	b.decodeTestData(e, buf.Bytes())
-}
-
-func (b *BaseEncodingTestSuite) checkRoundTripSpaced(e parquet.Encoding, validBits []byte, validBitsOffset int64) {
-	buf, _ := b.encodeTestDataSpaced(e, validBits, validBitsOffset)
-	defer buf.Release()
-
-	nullCount := 0
-	for i := 0; i < b.nvalues; i++ {
-		if bitutil.BitIsNotSet(validBits, int(validBitsOffset)+i) {
-			nullCount++
-		}
-	}
-	b.decodeTestDataSpaced(e, nullCount, buf.Bytes(), validBits, validBitsOffset)
-}
-
-func (b *BaseEncodingTestSuite) TestBasicRoundTrip() {
-	b.initData(10000, 1)
-	b.checkRoundTrip(parquet.Encodings.Plain)
-}
-
-func (b *BaseEncodingTestSuite) TestRleBooleanEncodingRoundTrip() {
-	switch b.typ {
-	case reflect.TypeOf(true):
-		b.initData(2000, 200)
-		b.checkRoundTrip(parquet.Encodings.RLE)
-	default:
-		b.T().SkipNow()
-	}
-}
-
-func (b *BaseEncodingTestSuite) TestDeltaEncodingRoundTrip() {
-	b.initData(10000, 1)
-
-	switch b.typ {
-	case reflect.TypeOf(int32(0)), reflect.TypeOf(int64(0)):
-		b.checkRoundTrip(parquet.Encodings.DeltaBinaryPacked)
-	default:
-		b.Panics(func() { b.checkRoundTrip(parquet.Encodings.DeltaBinaryPacked) })
-	}
-}
-
-func (b *BaseEncodingTestSuite) TestDeltaLengthByteArrayRoundTrip() {
-	b.initData(10000, 1)
-
-	switch b.typ {
-	case reflect.TypeOf(parquet.ByteArray{}):
-		b.checkRoundTrip(parquet.Encodings.DeltaLengthByteArray)
-	default:
-		b.Panics(func() { b.checkRoundTrip(parquet.Encodings.DeltaLengthByteArray) })
-	}
-}
-
-func (b *BaseEncodingTestSuite) TestDeltaByteArrayRoundTrip() {
-	b.initData(10000, 1)
-
-	switch b.typ {
-	case reflect.TypeOf(parquet.ByteArray{}):
-		b.checkRoundTrip(parquet.Encodings.DeltaByteArray)
-	default:
-		b.Panics(func() { b.checkRoundTrip(parquet.Encodings.DeltaLengthByteArray) })
-	}
-}
-
-func (b *BaseEncodingTestSuite) TestByteStreamSplitRoundTrip() {
-	b.initData(10000, 1)
-
-	switch b.typ {
-	case reflect.TypeOf(float32(0)), reflect.TypeOf(float64(0)), reflect.TypeOf(int32(0)), reflect.TypeOf(int64(0)), reflect.TypeOf(parquet.FixedLenByteArray{}):
-		b.checkRoundTrip(parquet.Encodings.ByteStreamSplit)
-	default:
-		b.Panics(func() { b.checkRoundTrip(parquet.Encodings.ByteStreamSplit) })
-	}
-}
-
-func (b *BaseEncodingTestSuite) TestSpacedRoundTrip() {
-	exec := func(vals, repeats int, validBitsOffset int64, nullProb float64) {
-		b.Run(fmt.Sprintf("%d vals %d repeats %d offset %0.3f null", vals, repeats, validBitsOffset, 1-nullProb), func() {
-			b.initData(vals, repeats)
-
-			size := int64(b.nvalues) + validBitsOffset
-			r := testutils.NewRandomArrayGenerator(1923)
-			arr := r.Uint8(size, 0, 100, 1-nullProb)
-			validBits := arr.NullBitmapBytes()
-			if validBits != nil {
-				b.checkRoundTripSpaced(parquet.Encodings.Plain, validBits, validBitsOffset)
-				switch b.typ {
-				case reflect.TypeOf(false):
-					b.checkRoundTripSpaced(parquet.Encodings.RLE, validBits, validBitsOffset)
-				case reflect.TypeOf(int32(0)), reflect.TypeOf(int64(0)):
-					b.checkRoundTripSpaced(parquet.Encodings.DeltaBinaryPacked, validBits, validBitsOffset)
-				case reflect.TypeOf(parquet.ByteArray{}):
-					b.checkRoundTripSpaced(parquet.Encodings.DeltaLengthByteArray, validBits, validBitsOffset)
-					b.checkRoundTripSpaced(parquet.Encodings.DeltaByteArray, validBits, validBitsOffset)
-				}
-			}
-		})
-	}
-
-	const (
-		avx512Size    = 64
-		simdSize      = avx512Size
-		multiSimdSize = simdSize * 33
-	)
-
-	for _, nullProb := range []float64{0.001, 0.1, 0.5, 0.9, 0.999} {
-		// Test with both size and offset up to 3 simd block
-		for i := 1; i < simdSize*3; i++ {
-			exec(i, 1, 0, nullProb)
-			exec(i, 1, int64(i+1), nullProb)
-		}
-		// large block and offset
-		exec(multiSimdSize, 1, 0, nullProb)
-		exec(multiSimdSize+33, 1, 0, nullProb)
-		exec(multiSimdSize, 1, 33, nullProb)
-		exec(multiSimdSize+33, 1, 33, nullProb)
-	}
-}
-
-func TestEncoding(t *testing.T) {
-	tests := []struct {
-		name string
-		typ  reflect.Type
-	}{
-		{"Bool", reflect.TypeOf(true)},
-		{"Int32", reflect.TypeOf(int32(0))},
-		{"Int64", reflect.TypeOf(int64(0))},
-		{"Float32", reflect.TypeOf(float32(0))},
-		{"Float64", reflect.TypeOf(float64(0))},
-		{"Int96", reflect.TypeOf(parquet.Int96{})},
-		{"ByteArray", reflect.TypeOf(parquet.ByteArray{})},
-		{"FixedLenByteArray", reflect.TypeOf(parquet.FixedLenByteArray{})},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			suite.Run(t, &BaseEncodingTestSuite{typ: tt.typ})
-		})
-	}
-}
-
-type DictionaryEncodingTestSuite struct {
-	BaseEncodingTestSuite
-}
-
-func (d *DictionaryEncodingTestSuite) encodeTestDataDict(e parquet.Encoding) (dictBuffer, indices encoding.Buffer, numEntries int) {
-	enc := encoding.NewEncoder(testutils.TypeToParquetType(d.typ), e, true, d.descr, memory.DefaultAllocator).(encoding.DictEncoder)
-
-	d.Equal(parquet.Encodings.PlainDict, enc.Encoding())
-	d.Equal(d.descr.PhysicalType(), enc.Type())
-	encode(enc, reflect.ValueOf(d.draws).Slice(0, d.nvalues).Interface())
-	dictBuffer = memory.NewResizableBuffer(d.mem)
-	dictBuffer.Resize(enc.DictEncodedSize())
-	enc.WriteDict(dictBuffer.Bytes())
-	indices, _ = enc.FlushValues()
-	numEntries = enc.NumEntries()
-	return
-}
-
-func (d *DictionaryEncodingTestSuite) encodeTestDataDictSpaced(e parquet.Encoding, validBits []byte, validBitsOffset int64) (dictBuffer, indices encoding.Buffer, numEntries int) {
-	enc := encoding.NewEncoder(testutils.TypeToParquetType(d.typ), e, true, d.descr, memory.DefaultAllocator).(encoding.DictEncoder)
-	d.Equal(d.descr.PhysicalType(), enc.Type())
-
-	encodeSpaced(enc, reflect.ValueOf(d.draws).Slice(0, d.nvalues).Interface(), validBits, validBitsOffset)
-	dictBuffer = memory.NewResizableBuffer(d.mem)
-	dictBuffer.Resize(enc.DictEncodedSize())
-	enc.WriteDict(dictBuffer.Bytes())
-	indices, _ = enc.FlushValues()
-	numEntries = enc.NumEntries()
-	return
-}
-
-func (d *DictionaryEncodingTestSuite) checkRoundTrip() {
-	dictBuffer, indices, numEntries := d.encodeTestDataDict(parquet.Encodings.Plain)
-	defer dictBuffer.Release()
-	defer indices.Release()
-	validBits := make([]byte, int(bitutil.BytesForBits(int64(d.nvalues)))+1)
-	memory.Set(validBits, 255)
-
-	spacedBuffer, indicesSpaced, _ := d.encodeTestDataDictSpaced(parquet.Encodings.Plain, validBits, 0)
-	defer spacedBuffer.Release()
-	defer indicesSpaced.Release()
-	d.Equal(indices.Bytes(), indicesSpaced.Bytes())
-
-	dictDecoder := encoding.NewDecoder(testutils.TypeToParquetType(d.typ), parquet.Encodings.Plain, d.descr, d.mem)
-	d.Equal(d.descr.PhysicalType(), dictDecoder.Type())
-	dictDecoder.SetData(numEntries, dictBuffer.Bytes())
-	decoder := encoding.NewDictDecoder(testutils.TypeToParquetType(d.typ), d.descr, d.mem)
-	decoder.SetDict(dictDecoder)
-	decoder.SetData(d.nvalues, indices.Bytes())
-
-	decoded, _ := decode(decoder, d.decodeBuf)
-	d.Equal(d.nvalues, decoded)
-	d.Equal(reflect.ValueOf(d.draws).Slice(0, d.nvalues).Interface(), reflect.ValueOf(d.decodeBuf).Slice(0, d.nvalues).Interface())
-
-	decoder.SetData(d.nvalues, indices.Bytes())
-	decoded, _ = decodeSpaced(decoder, d.decodeBuf, 0, validBits, 0)
-	d.Equal(d.nvalues, decoded)
-	d.Equal(reflect.ValueOf(d.draws).Slice(0, d.nvalues).Interface(), reflect.ValueOf(d.decodeBuf).Slice(0, d.nvalues).Interface())
-}
-
-func (d *DictionaryEncodingTestSuite) TestBasicRoundTrip() {
-	d.initData(2500, 2)
-	d.checkRoundTrip()
-}
-
-func TestDictEncoding(t *testing.T) {
-	tests := []struct {
-		name string
-		typ  reflect.Type
-	}{
-		{"Int32", reflect.TypeOf(int32(0))},
-		{"Int64", reflect.TypeOf(int64(0))},
-		{"Float32", reflect.TypeOf(float32(0))},
-		{"Float64", reflect.TypeOf(float64(0))},
-		{"ByteArray", reflect.TypeOf(parquet.ByteArray{})},
-		{"FixedLenByteArray", reflect.TypeOf(parquet.FixedLenByteArray{})},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			suite.Run(t, &DictionaryEncodingTestSuite{BaseEncodingTestSuite{typ: tt.typ}})
-		})
-	}
-}
-
-func TestWriteDeltaBitPackedInt32(t *testing.T) {
-	column := schema.NewColumn(schema.NewInt32Node("int32", parquet.Repetitions.Required, -1), 0, 0)
-
-	tests := []struct {
-		name     string
-		toencode []int32
-		expected []byte
-	}{
-		{"simple 12345", []int32{1, 2, 3, 4, 5}, []byte{128, 1, 4, 5, 2, 2, 0, 0, 0, 0}},
-		{"odd vals", []int32{7, 5, 3, 1, 2, 3, 4, 5}, []byte{128, 1, 4, 8, 14, 3, 2, 0, 0, 0, 192, 63, 0, 0, 0, 0, 0, 0}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			enc := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-
-			enc.(encoding.Int32Encoder).Put(tt.toencode)
-			buf, _ := enc.FlushValues()
-			defer buf.Release()
-
-			assert.Equal(t, tt.expected, buf.Bytes())
-
-			dec := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-
-			dec.(encoding.Int32Decoder).SetData(len(tt.toencode), tt.expected)
-			out := make([]int32, len(tt.toencode))
-			dec.(encoding.Int32Decoder).Decode(out)
-			assert.Equal(t, tt.toencode, out)
-		})
-	}
-
-	t.Run("test progressive decoding", func(t *testing.T) {
-		values := make([]int32, 1000)
-		testutils.FillRandomInt32(0, values)
-
-		enc := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-		enc.(encoding.Int32Encoder).Put(values)
-		buf, _ := enc.FlushValues()
-		defer buf.Release()
-
-		dec := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-		dec.(encoding.Int32Decoder).SetData(len(values), buf.Bytes())
-
-		valueBuf := make([]int32, 100)
-		for i, j := 0, len(valueBuf); j <= len(values); i, j = i+len(valueBuf), j+len(valueBuf) {
-			dec.(encoding.Int32Decoder).Decode(valueBuf)
-			assert.Equalf(t, values[i:j], valueBuf, "indexes %d:%d", i, j)
-		}
-	})
-
-	t.Run("test decoding multiple pages", func(t *testing.T) {
-		values := make([]int32, 1000)
-		testutils.FillRandomInt32(0, values)
-
-		enc := encoding.NewEncoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-		enc.(encoding.Int32Encoder).Put(values)
-		buf, _ := enc.FlushValues()
-		defer buf.Release()
-
-		// Using same Decoder to decode the data.
-		dec := encoding.NewDecoder(parquet.Types.Int32, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-		for i := 0; i < 5; i += 1 {
-			dec.(encoding.Int32Decoder).SetData(len(values), buf.Bytes())
-
-			valueBuf := make([]int32, 100)
-			for i, j := 0, len(valueBuf); j <= len(values); i, j = i+len(valueBuf), j+len(valueBuf) {
-				dec.(encoding.Int32Decoder).Decode(valueBuf)
-				assert.Equalf(t, values[i:j], valueBuf, "indexes %d:%d", i, j)
-			}
-		}
-	})
-}
-
-func TestWriteDeltaBitPackedInt64(t *testing.T) {
-	column := schema.NewColumn(schema.NewInt64Node("int64", parquet.Repetitions.Required, -1), 0, 0)
-
-	tests := []struct {
-		name     string
-		toencode []int64
-		expected []byte
-	}{
-		{"simple 12345", []int64{1, 2, 3, 4, 5}, []byte{128, 1, 4, 5, 2, 2, 0, 0, 0, 0}},
-		{"odd vals", []int64{7, 5, 3, 1, 2, 3, 4, 5}, []byte{128, 1, 4, 8, 14, 3, 2, 0, 0, 0, 192, 63, 0, 0, 0, 0, 0, 0}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			enc := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-
-			enc.(encoding.Int64Encoder).Put(tt.toencode)
-			buf, _ := enc.FlushValues()
-			defer buf.Release()
-
-			assert.Equal(t, tt.expected, buf.Bytes())
-
-			dec := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-
-			dec.(encoding.Int64Decoder).SetData(len(tt.toencode), tt.expected)
-			out := make([]int64, len(tt.toencode))
-			dec.(encoding.Int64Decoder).Decode(out)
-			assert.Equal(t, tt.toencode, out)
-		})
-	}
-
-	t.Run("test progressive decoding", func(t *testing.T) {
-		values := make([]int64, 1000)
-		testutils.FillRandomInt64(0, values)
-
-		enc := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-		enc.(encoding.Int64Encoder).Put(values)
-		buf, _ := enc.FlushValues()
-		defer buf.Release()
-
-		dec := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-		dec.(encoding.Int64Decoder).SetData(len(values), buf.Bytes())
-
-		valueBuf := make([]int64, 100)
-		for i, j := 0, len(valueBuf); j <= len(values); i, j = i+len(valueBuf), j+len(valueBuf) {
-			decoded, _ := dec.(encoding.Int64Decoder).Decode(valueBuf)
-			assert.Equal(t, len(valueBuf), decoded)
-			assert.Equalf(t, values[i:j], valueBuf, "indexes %d:%d", i, j)
-		}
-	})
-
-	t.Run("GH-37102", func(t *testing.T) {
-		values := []int64{
-			0, 3000000000000000000, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
-			0, 3000000000000000000, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
-			0, 3000000000000000000, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
-			0, 3000000000000000000, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
-			0, 0,
-		}
-
-		enc := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-		enc.(encoding.Int64Encoder).Put(values)
-		buf, _ := enc.FlushValues()
-		defer buf.Release()
-
-		dec := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-		dec.(encoding.Int64Decoder).SetData(len(values), buf.Bytes())
-
-		valueBuf := make([]int64, len(values))
-
-		decoded, _ := dec.(encoding.Int64Decoder).Decode(valueBuf)
-		assert.Equal(t, len(valueBuf), decoded)
-		assert.Equal(t, values, valueBuf)
-	})
-
-	t.Run("test decoding multiple pages", func(t *testing.T) {
-		values := make([]int64, 1000)
-		testutils.FillRandomInt64(0, values)
-
-		enc := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, false, column, memory.DefaultAllocator)
-		enc.(encoding.Int64Encoder).Put(values)
-		buf, _ := enc.FlushValues()
-		defer buf.Release()
-
-		// Using same Decoder to decode the data.
-		dec := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, column, memory.DefaultAllocator)
-		for i := 0; i < 5; i += 1 {
-			dec.(encoding.Int64Decoder).SetData(len(values), buf.Bytes())
-
-			valueBuf := make([]int64, 100)
-			for i, j := 0, len(valueBuf); j <= len(values); i, j = i+len(valueBuf), j+len(valueBuf) {
-				dec.(encoding.Int64Decoder).Decode(valueBuf)
-				assert.Equalf(t, values[i:j], valueBuf, "indexes %d:%d", i, j)
-			}
-		}
-	})
-}
-
-func TestDeltaLengthByteArrayEncoding(t *testing.T) {
-	column := schema.NewColumn(schema.NewByteArrayNode("bytearray", parquet.Repetitions.Required, -1), 0, 0)
-
-	test := []parquet.ByteArray{[]byte("Hello"), []byte("World"), []byte("Foobar"), []byte("ABCDEF")}
-	expected := []byte{128, 1, 4, 4, 10, 0, 1, 0, 0, 0, 2, 0, 0, 0, 72, 101, 108, 108, 111, 87, 111, 114, 108, 100, 70, 111, 111, 98, 97, 114, 65, 66, 67, 68, 69, 70}
-
-	enc := encoding.NewEncoder(parquet.Types.ByteArray, parquet.Encodings.DeltaLengthByteArray, false, column, memory.DefaultAllocator)
-	enc.(encoding.ByteArrayEncoder).Put(test)
-	buf, _ := enc.FlushValues()
-	defer buf.Release()
-
-	assert.Equal(t, expected, buf.Bytes())
-
-	dec := encoding.NewDecoder(parquet.Types.ByteArray, parquet.Encodings.DeltaLengthByteArray, column, nil)
-	dec.SetData(len(test), expected)
-	out := make([]parquet.ByteArray, len(test))
-	decoded, _ := dec.(encoding.ByteArrayDecoder).Decode(out)
-	assert.Equal(t, len(test), decoded)
-	assert.Equal(t, test, out)
-}
-
-func TestDeltaByteArrayEncoding(t *testing.T) {
-	test := []parquet.ByteArray{[]byte("Hello"), []byte("World"), []byte("Foobar"), []byte("ABCDEF")}
-	expected := []byte{128, 1, 4, 4, 0, 0, 0, 0, 0, 0, 128, 1, 4, 4, 10, 0, 1, 0, 0, 0, 2, 0, 0, 0, 72, 101, 108, 108, 111, 87, 111, 114, 108, 100, 70, 111, 111, 98, 97, 114, 65, 66, 67, 68, 69, 70}
-
-	enc := encoding.NewEncoder(parquet.Types.ByteArray, parquet.Encodings.DeltaByteArray, false, nil, nil)
-	enc.(encoding.ByteArrayEncoder).Put(test)
-	buf, _ := enc.FlushValues()
-	defer buf.Release()
-
-	assert.Equal(t, expected, buf.Bytes())
-
-	dec := encoding.NewDecoder(parquet.Types.ByteArray, parquet.Encodings.DeltaByteArray, nil, nil)
-	dec.SetData(len(test), expected)
-	out := make([]parquet.ByteArray, len(test))
-	decoded, _ := dec.(encoding.ByteArrayDecoder).Decode(out)
-	assert.Equal(t, len(test), decoded)
-	assert.Equal(t, test, out)
-}
-
-func TestDeltaBitPacking(t *testing.T) {
-	datadir := os.Getenv("ARROW_TEST_DATA")
-	if datadir == "" {
-		return
-	}
-
-	fname := path.Join(datadir, "parquet/timestamp.data")
-	require.FileExists(t, fname)
-	f, err := os.Open(fname)
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer f.Close()
-
-	values := make([]int64, 0)
-
-	scanner := bufio.NewScanner(f)
-	for scanner.Scan() {
-		v, err := strconv.ParseInt(scanner.Text(), 10, 64)
-		if err != nil {
-			t.Fatal(err)
-		}
-		values = append(values, v)
-	}
-
-	if err := scanner.Err(); err != nil {
-		t.Fatal(err)
-	}
-
-	col := schema.NewColumn(schema.MustPrimitive(schema.NewPrimitiveNode("foo", parquet.Repetitions.Required,
-		parquet.Types.Int64, -1, -1)), 0, 0)
-	enc := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, false, col, memory.DefaultAllocator).(encoding.Int64Encoder)
-
-	enc.Put(values)
-	buf, err := enc.FlushValues()
-	if err != nil {
-		t.Fatal(err)
-	}
-	defer buf.Release()
-
-	dec := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, col, memory.DefaultAllocator).(encoding.Int64Decoder)
-	dec.SetData(len(values), buf.Bytes())
-
-	ll := len(values)
-	for i := 0; i < ll; i += 1024 {
-		out := make([]int64, 1024)
-		n, err := dec.Decode(out)
-		if err != nil {
-			t.Fatal(err)
-		}
-		assert.Equal(t, values[:n], out[:n])
-		values = values[n:]
-	}
-	assert.Equal(t, dec.ValuesLeft(), 0)
-}
-
-func TestBooleanPlainDecoderAfterFlushing(t *testing.T) {
-	descr := schema.NewColumn(schema.NewBooleanNode("bool", parquet.Repetitions.Optional, -1), 0, 0)
-	enc := encoding.NewEncoder(parquet.Types.Boolean, parquet.Encodings.Plain, false, descr, memory.DefaultAllocator)
-	benc := enc.(encoding.BooleanEncoder)
-
-	dec := encoding.NewDecoder(parquet.Types.Boolean, parquet.Encodings.Plain, descr, memory.DefaultAllocator)
-	decSlice := make([]bool, 1)
-	bdec := dec.(encoding.BooleanDecoder)
-
-	// Write and extract two different values
-	// This is validating that `FlushValues` wholly
-	// resets the encoder state.
-	benc.Put([]bool{true})
-	buf1, err := benc.FlushValues()
-	assert.NoError(t, err)
-
-	benc.Put([]bool{false})
-	buf2, err := benc.FlushValues()
-	assert.NoError(t, err)
-
-	// Decode buf1, expect true
-	err = bdec.SetData(1, buf1.Buf())
-	assert.NoError(t, err)
-	n, err := bdec.Decode(decSlice)
-	assert.NoError(t, err)
-	assert.Equal(t, n, 1)
-	assert.Equal(t, decSlice[0], true)
-
-	// Decode buf2, expect false
-	err = bdec.SetData(1, buf2.Buf())
-	assert.NoError(t, err)
-	n, err = bdec.Decode(decSlice)
-	assert.NoError(t, err)
-	assert.Equal(t, n, 1)
-	assert.Equal(t, decSlice[0], false)
-}
diff --git a/go/parquet/internal/encoding/fixed_len_byte_array_decoder.go b/go/parquet/internal/encoding/fixed_len_byte_array_decoder.go
deleted file mode 100644
index 7e319845a8089..0000000000000
--- a/go/parquet/internal/encoding/fixed_len_byte_array_decoder.go
+++ /dev/null
@@ -1,137 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-// PlainFixedLenByteArrayDecoder is a plain encoding decoder for Fixed Length Byte Arrays
-type PlainFixedLenByteArrayDecoder struct {
-	decoder
-}
-
-// Type returns the physical type this decoder operates on, FixedLength Byte Arrays
-func (PlainFixedLenByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.FixedLenByteArray
-}
-
-// Decode populates out with fixed length byte array values until either there are no more
-// values to decode or the length of out has been filled. Then returns the total number of values
-// that were decoded.
-func (pflba *PlainFixedLenByteArrayDecoder) Decode(out []parquet.FixedLenByteArray) (int, error) {
-	max := utils.Min(len(out), pflba.nvals)
-	numBytesNeeded := max * pflba.typeLen
-	if numBytesNeeded > len(pflba.data) || numBytesNeeded > math.MaxInt32 {
-		return 0, xerrors.New("parquet: eof exception")
-	}
-
-	for idx := range out[:max] {
-		out[idx] = pflba.data[:pflba.typeLen]
-		pflba.data = pflba.data[pflba.typeLen:]
-	}
-	return max, nil
-}
-
-// DecodeSpaced does the same as Decode but spaces out the resulting slice according to the bitmap leaving space for null values
-func (pflba *PlainFixedLenByteArrayDecoder) DecodeSpaced(out []parquet.FixedLenByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toRead := len(out) - nullCount
-	valuesRead, err := pflba.Decode(out[:toRead])
-	if err != nil {
-		return valuesRead, err
-	}
-	if valuesRead != toRead {
-		return valuesRead, xerrors.New("parquet: number of values / definitions levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
-
-// ByteStreamSplitFixedLenByteArrayDecoder is a decoder for BYTE_STREAM_SPLIT-encoded
-// bytes representing FixedLenByteArray values
-type ByteStreamSplitFixedLenByteArrayDecoder struct {
-	decoder
-	stride int
-}
-
-func (dec *ByteStreamSplitFixedLenByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.FixedLenByteArray
-}
-
-func (dec *ByteStreamSplitFixedLenByteArrayDecoder) SetData(nvals int, data []byte) error {
-	if nvals*dec.typeLen < len(data) {
-		return fmt.Errorf("data size (%d) is too small for the number of values in in BYTE_STREAM_SPLIT (%d)", len(data), nvals)
-	}
-
-	if len(data)%dec.typeLen != 0 {
-		return fmt.Errorf("ByteStreamSplit data size %d not aligned with type %s and byte_width: %d", len(data), dec.Type(), dec.typeLen)
-	}
-
-	nvals = len(data) / dec.typeLen
-	dec.stride = nvals
-
-	return dec.decoder.SetData(nvals, data)
-}
-
-func (dec *ByteStreamSplitFixedLenByteArrayDecoder) Decode(out []parquet.FixedLenByteArray) (int, error) {
-	toRead := len(out)
-	numBytesNeeded := toRead * dec.typeLen
-	if numBytesNeeded > len(dec.data) || numBytesNeeded > math.MaxInt32 {
-		return 0, xerrors.New("parquet: eof exception")
-	}
-
-	for i := range out {
-		if cap(out[i]) < dec.typeLen {
-			out[i] = make(parquet.FixedLenByteArray, dec.typeLen)
-		} else {
-			out[i] = out[i][:dec.typeLen]
-		}
-	}
-
-	switch dec.typeLen {
-	case 2:
-		decodeByteStreamSplitBatchFLBAWidth2(dec.data, toRead, dec.stride, out)
-	case 4:
-		decodeByteStreamSplitBatchFLBAWidth4(dec.data, toRead, dec.stride, out)
-	case 8:
-		decodeByteStreamSplitBatchFLBAWidth8(dec.data, toRead, dec.stride, out)
-	default:
-		decodeByteStreamSplitBatchFLBA(dec.data, toRead, dec.stride, dec.typeLen, out)
-	}
-
-	dec.nvals -= toRead
-	dec.data = dec.data[toRead:]
-	return toRead, nil
-}
-
-func (dec *ByteStreamSplitFixedLenByteArrayDecoder) DecodeSpaced(out []parquet.FixedLenByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toRead := len(out) - nullCount
-	valuesRead, err := dec.Decode(out[:toRead])
-	if err != nil {
-		return valuesRead, err
-	}
-	if valuesRead != toRead {
-		return valuesRead, xerrors.New("parquet: number of values / definitions levels read did not match")
-	}
-
-	return spacedExpand(out, nullCount, validBits, validBitsOffset), nil
-}
diff --git a/go/parquet/internal/encoding/fixed_len_byte_array_encoder.go b/go/parquet/internal/encoding/fixed_len_byte_array_encoder.go
deleted file mode 100644
index 9e6377db868f1..0000000000000
--- a/go/parquet/internal/encoding/fixed_len_byte_array_encoder.go
+++ /dev/null
@@ -1,176 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-// PlainFixedLenByteArrayEncoder writes the raw bytes of the byte array
-// always writing typeLength bytes for each value.
-type PlainFixedLenByteArrayEncoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Put writes the provided values to the encoder
-func (enc *PlainFixedLenByteArrayEncoder) Put(in []parquet.FixedLenByteArray) {
-	typeLen := enc.descr.TypeLength()
-	if typeLen == 0 {
-		return
-	}
-
-	bytesNeeded := len(in) * typeLen
-	enc.sink.Reserve(bytesNeeded)
-	for _, val := range in {
-		if val == nil {
-			panic("value cannot be nil")
-		}
-		enc.sink.UnsafeWrite(val[:typeLen])
-	}
-}
-
-// PutSpaced is like Put but works with data that is spaced out according to the passed in bitmap
-func (enc *PlainFixedLenByteArrayEncoder) PutSpaced(in []parquet.FixedLenByteArray, validBits []byte, validBitsOffset int64) {
-	if validBits != nil {
-		if enc.bitSetReader == nil {
-			enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-		} else {
-			enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-		}
-
-		for {
-			run := enc.bitSetReader.NextRun()
-			if run.Length == 0 {
-				break
-			}
-			enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-		}
-	} else {
-		enc.Put(in)
-	}
-}
-
-// Type returns the underlying physical type this encoder works with, Fixed Length byte arrays.
-func (PlainFixedLenByteArrayEncoder) Type() parquet.Type {
-	return parquet.Types.FixedLenByteArray
-}
-
-// ByteStreamSplitFixedLenByteArrayEncoder writes the underlying bytes of the FixedLenByteArray
-// into interlaced streams as defined by the BYTE_STREAM_SPLIT encoding
-type ByteStreamSplitFixedLenByteArrayEncoder struct {
-	PlainFixedLenByteArrayEncoder
-	flushBuffer *PooledBufferWriter
-}
-
-func (enc *ByteStreamSplitFixedLenByteArrayEncoder) FlushValues() (Buffer, error) {
-	in, err := enc.PlainFixedLenByteArrayEncoder.FlushValues()
-	if err != nil {
-		return nil, err
-	}
-
-	if enc.flushBuffer == nil {
-		enc.flushBuffer = NewPooledBufferWriter(in.Len())
-	}
-
-	enc.flushBuffer.buf.ResizeNoShrink(in.Len())
-
-	switch enc.typeLen {
-	case 2:
-		encodeByteStreamSplitWidth2(enc.flushBuffer.Bytes(), in.Bytes())
-	case 4:
-		encodeByteStreamSplitWidth4(enc.flushBuffer.Bytes(), in.Bytes())
-	case 8:
-		encodeByteStreamSplitWidth8(enc.flushBuffer.Bytes(), in.Bytes())
-	default:
-		encodeByteStreamSplit(enc.flushBuffer.Bytes(), in.Bytes(), enc.typeLen)
-	}
-
-	return enc.flushBuffer.Finish(), nil
-}
-
-func (enc *ByteStreamSplitFixedLenByteArrayEncoder) Release() {
-	enc.PlainFixedLenByteArrayEncoder.Release()
-	releaseBufferToPool(enc.flushBuffer)
-	enc.flushBuffer = nil
-}
-
-// WriteDict overrides the embedded WriteDict function to call a specialized function
-// for copying out the Fixed length values from the dictionary more efficiently.
-func (enc *DictFixedLenByteArrayEncoder) WriteDict(out []byte) {
-	enc.memo.(BinaryMemoTable).CopyFixedWidthValues(0, enc.typeLen, out)
-}
-
-// Put writes fixed length values to a dictionary encoded column
-func (enc *DictFixedLenByteArrayEncoder) Put(in []parquet.FixedLenByteArray) {
-	for _, v := range in {
-		memoIdx, found, err := enc.memo.GetOrInsert(v)
-		if err != nil {
-			panic(err)
-		}
-		if !found {
-			enc.dictEncodedSize += enc.typeLen
-		}
-		enc.addIndex(memoIdx)
-	}
-}
-
-// PutSpaced is like Put but leaves space for nulls
-func (enc *DictFixedLenByteArrayEncoder) PutSpaced(in []parquet.FixedLenByteArray, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		enc.Put(in[pos : pos+length])
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictFixedLenByteArrayEncoder) PutDictionary(values arrow.Array) error {
-	if values.DataType().ID() != arrow.FIXED_SIZE_BINARY && values.DataType().ID() != arrow.DECIMAL {
-		return fmt.Errorf("%w: only fixed size binary and decimal128 arrays are supported", arrow.ErrInvalid)
-	}
-
-	if values.DataType().(arrow.FixedWidthDataType).Bytes() != enc.typeLen {
-		return fmt.Errorf("%w: size mismatch: %s should have been %d wide",
-			arrow.ErrInvalid, values.DataType(), enc.typeLen)
-	}
-
-	if err := enc.canPutDictionary(values); err != nil {
-		return err
-	}
-
-	enc.dictEncodedSize += enc.typeLen * values.Len()
-	data := values.Data().Buffers()[1].Bytes()[values.Data().Offset()*enc.typeLen:]
-	for i := 0; i < values.Len(); i++ {
-		_, _, err := enc.memo.GetOrInsert(data[i*enc.typeLen : (i+1)*enc.typeLen])
-		if err != nil {
-			return err
-		}
-	}
-
-	values.Retain()
-	enc.preservedDict = values
-	return nil
-}
diff --git a/go/parquet/internal/encoding/levels.go b/go/parquet/internal/encoding/levels.go
deleted file mode 100644
index 81c9011c78e1e..0000000000000
--- a/go/parquet/internal/encoding/levels.go
+++ /dev/null
@@ -1,289 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"bytes"
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"math/bits"
-
-	"github.com/JohnCGriffin/overflow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-)
-
-// LevelEncoder is for handling the encoding of Definition and Repetition levels
-// to parquet files.
-type LevelEncoder struct {
-	bitWidth int
-	rleLen   int
-	encoding format.Encoding
-	rle      *utils.RleEncoder
-	bit      *utils.BitWriter
-}
-
-// LevelEncodingMaxBufferSize estimates the max number of bytes needed to encode data with the
-// specified encoding given the max level and number of buffered values provided.
-func LevelEncodingMaxBufferSize(encoding parquet.Encoding, maxLvl int16, nbuffered int) int {
-	bitWidth := bits.Len64(uint64(maxLvl))
-	nbytes := 0
-	switch encoding {
-	case parquet.Encodings.RLE:
-		nbytes = utils.MaxRLEBufferSize(bitWidth, nbuffered) + utils.MinRLEBufferSize(bitWidth)
-	case parquet.Encodings.BitPacked:
-		nbytes = int(bitutil.BytesForBits(int64(nbuffered * bitWidth)))
-	default:
-		panic("parquet: unknown encoding type for levels")
-	}
-	return nbytes
-}
-
-// Reset resets the encoder allowing it to be reused and updating the maxlevel to the new
-// specified value.
-func (l *LevelEncoder) Reset(maxLvl int16) {
-	l.bitWidth = bits.Len64(uint64(maxLvl))
-	switch l.encoding {
-	case format.Encoding_RLE:
-		l.rle.Clear()
-		l.rle.BitWidth = l.bitWidth
-	case format.Encoding_BIT_PACKED:
-		l.bit.Clear()
-	default:
-		panic("parquet: unknown encoding type")
-	}
-}
-
-// Init is called to set up the desired encoding type, max level and underlying writer for a
-// level encoder to control where the resulting encoded buffer will end up.
-func (l *LevelEncoder) Init(encoding parquet.Encoding, maxLvl int16, w utils.WriterAtWithLen) {
-	l.bitWidth = bits.Len64(uint64(maxLvl))
-	l.encoding = format.Encoding(encoding)
-	switch l.encoding {
-	case format.Encoding_RLE:
-		l.rle = utils.NewRleEncoder(w, l.bitWidth)
-	case format.Encoding_BIT_PACKED:
-		l.bit = utils.NewBitWriter(w)
-	default:
-		panic("parquet: unknown encoding type for levels")
-	}
-}
-
-// EncodeNoFlush encodes the provided levels in the encoder, but doesn't flush
-// the buffer and return it yet, appending these encoded values. Returns the number
-// of values encoded and any error encountered or nil. If err is not nil, nencoded
-// will be the number of values encoded before the error was encountered
-func (l *LevelEncoder) EncodeNoFlush(lvls []int16) (nencoded int, err error) {
-	if l.rle == nil && l.bit == nil {
-		panic("parquet: level encoders are not initialized")
-	}
-
-	switch l.encoding {
-	case format.Encoding_RLE:
-		for _, level := range lvls {
-			if err = l.rle.Put(uint64(level)); err != nil {
-				return
-			}
-			nencoded++
-		}
-	default:
-		for _, level := range lvls {
-			if err = l.bit.WriteValue(uint64(level), uint(l.bitWidth)); err != nil {
-				return
-			}
-			nencoded++
-		}
-	}
-	return
-}
-
-// Flush flushes out any encoded data to the underlying writer.
-func (l *LevelEncoder) Flush() {
-	if l.rle == nil && l.bit == nil {
-		panic("parquet: level encoders are not initialized")
-	}
-
-	switch l.encoding {
-	case format.Encoding_RLE:
-		l.rleLen = l.rle.Flush()
-	default:
-		l.bit.Flush(false)
-	}
-}
-
-// Encode encodes the slice of definition or repetition levels based on
-// the currently configured encoding type and returns the number of
-// values that were encoded.
-func (l *LevelEncoder) Encode(lvls []int16) (nencoded int, err error) {
-	if l.rle == nil && l.bit == nil {
-		panic("parquet: level encoders are not initialized")
-	}
-
-	switch l.encoding {
-	case format.Encoding_RLE:
-		defer func() { l.rleLen = l.rle.Flush() }()
-		for _, level := range lvls {
-			if err = l.rle.Put(uint64(level)); err != nil {
-				return
-			}
-			nencoded++
-		}
-
-	default:
-		defer l.bit.Flush(false)
-		for _, level := range lvls {
-			if err = l.bit.WriteValue(uint64(level), uint(l.bitWidth)); err != nil {
-				return
-			}
-			nencoded++
-		}
-	}
-	return
-}
-
-// Len returns the number of bytes that were written as Run Length encoded
-// levels, this is only valid for run length encoding and will panic if using
-// deprecated bit packed encoding.
-func (l *LevelEncoder) Len() int {
-	if l.encoding != format.Encoding_RLE {
-		panic("parquet: level encoder, only implemented for RLE")
-	}
-	return l.rleLen
-}
-
-// LevelDecoder handles the decoding of repetition and definition levels from a
-// parquet file supporting bit packed and run length encoded values.
-type LevelDecoder struct {
-	bitWidth  int
-	remaining int // the number of values left to be decoded in the input data
-	maxLvl    int16
-	encoding  format.Encoding
-	// only one of the following should ever be set at a time based on the
-	// encoding format.
-	rle *utils.RleDecoder
-	bit *utils.BitReader
-}
-
-// SetData sets in the data to be decoded by subsequent calls by specifying the encoding type
-// the maximum level (which is what determines the bit width), the number of values expected
-// and the raw bytes to decode. Returns the number of bytes expected to be decoded.
-func (l *LevelDecoder) SetData(encoding parquet.Encoding, maxLvl int16, nbuffered int, data []byte) (int, error) {
-	l.maxLvl = maxLvl
-	l.encoding = format.Encoding(encoding)
-	l.remaining = nbuffered
-	l.bitWidth = bits.Len64(uint64(maxLvl))
-
-	switch encoding {
-	case parquet.Encodings.RLE:
-		if len(data) < 4 {
-			return 0, errors.New("parquet: received invalid levels (corrupt data page?)")
-		}
-
-		nbytes := int32(binary.LittleEndian.Uint32(data[:4]))
-		if nbytes < 0 || nbytes > int32(len(data)-4) {
-			return 0, errors.New("parquet: received invalid number of bytes (corrupt data page?)")
-		}
-
-		buf := data[4:]
-		if l.rle == nil {
-			l.rle = utils.NewRleDecoder(bytes.NewReader(buf), l.bitWidth)
-		} else {
-			l.rle.Reset(bytes.NewReader(buf), l.bitWidth)
-		}
-		return int(nbytes) + 4, nil
-	case parquet.Encodings.BitPacked:
-		nbits, ok := overflow.Mul(nbuffered, l.bitWidth)
-		if !ok {
-			return 0, errors.New("parquet: number of buffered values too large (corrupt data page?)")
-		}
-
-		nbytes := bitutil.BytesForBits(int64(nbits))
-		if nbytes < 0 || nbytes > int64(len(data)) {
-			return 0, errors.New("parquet: received invalid number of bytes (corrupt data page?)")
-		}
-		if l.bit == nil {
-			l.bit = utils.NewBitReader(bytes.NewReader(data))
-		} else {
-			l.bit.Reset(bytes.NewReader(data))
-		}
-		return int(nbytes), nil
-	default:
-		return 0, fmt.Errorf("parquet: unknown encoding type for levels '%s'", encoding)
-	}
-}
-
-// SetDataV2 is the same as SetData but only for DataPageV2 pages and only supports
-// run length encoding.
-func (l *LevelDecoder) SetDataV2(nbytes int32, maxLvl int16, nbuffered int, data []byte) error {
-	if nbytes < 0 {
-		return errors.New("parquet: invalid page header (corrupt data page?)")
-	}
-
-	l.maxLvl = maxLvl
-	l.encoding = format.Encoding_RLE
-	l.remaining = nbuffered
-	l.bitWidth = bits.Len64(uint64(maxLvl))
-
-	if l.rle == nil {
-		l.rle = utils.NewRleDecoder(bytes.NewReader(data), l.bitWidth)
-	} else {
-		l.rle.Reset(bytes.NewReader(data), l.bitWidth)
-	}
-	return nil
-}
-
-// Decode decodes the bytes that were set with SetData into the slice of levels
-// returning the total number of levels that were decoded and the number of
-// values which had a level equal to the max level, indicating how many physical
-// values exist to be read.
-func (l *LevelDecoder) Decode(levels []int16) (int, int64) {
-	var (
-		buf          [1024]uint64
-		totaldecoded int
-		decoded      int
-		valsToRead   int64
-	)
-
-	n := shared_utils.Min(int64(l.remaining), int64(len(levels)))
-	for n > 0 {
-		batch := shared_utils.Min(1024, n)
-		switch l.encoding {
-		case format.Encoding_RLE:
-			decoded = l.rle.GetBatch(buf[:batch])
-		case format.Encoding_BIT_PACKED:
-			decoded, _ = l.bit.GetBatch(uint(l.bitWidth), buf[:batch])
-		}
-		l.remaining -= decoded
-		totaldecoded += decoded
-		n -= batch
-
-		for idx, val := range buf[:decoded] {
-			lvl := int16(val)
-			levels[idx] = lvl
-			if lvl == l.maxLvl {
-				valsToRead++
-			}
-		}
-		levels = levels[decoded:]
-	}
-
-	return totaldecoded, valsToRead
-}
diff --git a/go/parquet/internal/encoding/levels_test.go b/go/parquet/internal/encoding/levels_test.go
deleted file mode 100644
index 1990df90a0195..0000000000000
--- a/go/parquet/internal/encoding/levels_test.go
+++ /dev/null
@@ -1,293 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding_test
-
-import (
-	"encoding/binary"
-	"strconv"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/stretchr/testify/assert"
-)
-
-func generateLevels(minRepeat, maxRepeat int, maxLevel int16) []int16 {
-	// for each repetition count up to max repeat
-	ret := make([]int16, 0)
-	for rep := minRepeat; rep <= maxRepeat; rep++ {
-		var (
-			repCount       = 1 << rep
-			val      int16 = 0
-			bwidth         = 0
-		)
-		// generate levels for repetition count up to max level
-		for val <= maxLevel {
-			for i := 0; i < repCount; i++ {
-				ret = append(ret, val)
-			}
-			val = int16((2 << bwidth) - 1)
-			bwidth++
-		}
-	}
-	return ret
-}
-
-func encodeLevels(t *testing.T, enc parquet.Encoding, maxLvl int16, numLevels int, input []int16) []byte {
-	var (
-		encoder  encoding.LevelEncoder
-		lvlCount = 0
-		buf      = encoding.NewBufferWriter(2*numLevels, memory.DefaultAllocator)
-	)
-
-	if enc == parquet.Encodings.RLE {
-		buf.SetOffset(arrow.Int32SizeBytes)
-		// leave space to write the rle length value
-		encoder.Init(enc, maxLvl, buf)
-		lvlCount, _ = encoder.Encode(input)
-		buf.SetOffset(0)
-		arrow.Int32Traits.CastFromBytes(buf.Bytes())[0] = utils.ToLEInt32(int32(encoder.Len()))
-	} else {
-		encoder.Init(enc, maxLvl, buf)
-		lvlCount, _ = encoder.Encode(input)
-	}
-
-	assert.Equal(t, numLevels, lvlCount)
-	return buf.Bytes()
-}
-
-func verifyDecodingLvls(t *testing.T, enc parquet.Encoding, maxLvl int16, input []int16, buf []byte) {
-	var (
-		decoder        encoding.LevelDecoder
-		lvlCount       = 0
-		numLevels      = len(input)
-		output         = make([]int16, numLevels)
-		decodeCount    = 4
-		numInnerLevels = numLevels / decodeCount
-	)
-
-	// decode levels and test with multiple decode calls
-	_, err := decoder.SetData(enc, maxLvl, numLevels, buf)
-	assert.NoError(t, err)
-	// try multiple decoding on a single setdata call
-	for ct := 0; ct < decodeCount; ct++ {
-		offset := ct * numInnerLevels
-		lvlCount, _ = decoder.Decode(output[:numInnerLevels])
-		assert.Equal(t, numInnerLevels, lvlCount)
-		assert.Equal(t, input[offset:offset+numInnerLevels], output[:numInnerLevels])
-	}
-
-	// check the remaining levels
-	var (
-		levelsCompleted = decodeCount * (numLevels / decodeCount)
-		remaining       = numLevels - levelsCompleted
-	)
-
-	if remaining > 0 {
-		lvlCount, _ = decoder.Decode(output[:remaining])
-		assert.Equal(t, remaining, lvlCount)
-		assert.Equal(t, input[levelsCompleted:], output[:remaining])
-	}
-	// test decode zero values
-	lvlCount, _ = decoder.Decode(output[:1])
-	assert.Zero(t, lvlCount)
-}
-
-func verifyDecodingMultipleSetData(t *testing.T, enc parquet.Encoding, max int16, input []int16, buf [][]byte) {
-	var (
-		decoder      encoding.LevelDecoder
-		lvlCount     = 0
-		setdataCount = len(buf)
-		numLevels    = len(input) / setdataCount
-		output       = make([]int16, numLevels)
-	)
-
-	for ct := 0; ct < setdataCount; ct++ {
-		offset := ct * numLevels
-		assert.Len(t, output, numLevels)
-		_, err := decoder.SetData(enc, max, numLevels, buf[ct])
-		assert.NoError(t, err)
-		lvlCount, _ = decoder.Decode(output)
-		assert.Equal(t, numLevels, lvlCount)
-		assert.Equal(t, input[offset:offset+numLevels], output)
-	}
-}
-
-func TestLevelsDecodeMultipleBitWidth(t *testing.T) {
-	t.Parallel()
-	// Test levels with maximum bit-width from 1 to 8
-	// increase the repetition count for each iteration by a factor of 2
-	var (
-		minRepeat   = 0
-		maxRepeat   = 7 // 128
-		maxBitWidth = 8
-		input       []int16
-		buf         []byte
-		encodings   = [2]parquet.Encoding{parquet.Encodings.RLE, parquet.Encodings.BitPacked}
-	)
-
-	for _, enc := range encodings {
-		t.Run(enc.String(), func(t *testing.T) {
-			// bitpacked requires a sequence of at least 8
-			if enc == parquet.Encodings.BitPacked {
-				minRepeat = 3
-			}
-			// for each max bit width
-			for bitWidth := 1; bitWidth <= maxBitWidth; bitWidth++ {
-				t.Run(strconv.Itoa(bitWidth), func(t *testing.T) {
-					max := int16((1 << bitWidth) - 1)
-					// generate levels
-					input = generateLevels(minRepeat, maxRepeat, max)
-					assert.NotPanics(t, func() {
-						buf = encodeLevels(t, enc, max, len(input), input)
-					})
-					assert.NotPanics(t, func() {
-						verifyDecodingLvls(t, enc, max, input, buf)
-					})
-				})
-			}
-		})
-	}
-}
-
-func TestLevelsDecodeMultipleSetData(t *testing.T) {
-	t.Parallel()
-
-	var (
-		minRepeat = 3
-		maxRepeat = 7
-		bitWidth  = 8
-		maxLevel  = int16((1 << bitWidth) - 1)
-		encodings = [2]parquet.Encoding{parquet.Encodings.RLE, parquet.Encodings.BitPacked}
-	)
-
-	input := generateLevels(minRepeat, maxRepeat, maxLevel)
-
-	var (
-		numLevels      = len(input)
-		setdataFactor  = 8
-		splitLevelSize = numLevels / setdataFactor
-		buf            = make([][]byte, setdataFactor)
-	)
-
-	for _, enc := range encodings {
-		t.Run(enc.String(), func(t *testing.T) {
-			for rf := 0; rf < setdataFactor; rf++ {
-				offset := rf * splitLevelSize
-				assert.NotPanics(t, func() {
-					buf[rf] = encodeLevels(t, enc, maxLevel, splitLevelSize, input[offset:offset+splitLevelSize])
-				})
-			}
-			assert.NotPanics(t, func() {
-				verifyDecodingMultipleSetData(t, enc, maxLevel, input, buf)
-			})
-		})
-	}
-}
-
-func TestMinimumBufferSize(t *testing.T) {
-	t.Parallel()
-
-	const numToEncode = 1024
-	levels := make([]int16, numToEncode)
-
-	for idx := range levels {
-		if idx%9 == 0 {
-			levels[idx] = 0
-		} else {
-			levels[idx] = 1
-		}
-	}
-
-	output := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-	var encoder encoding.LevelEncoder
-	encoder.Init(parquet.Encodings.RLE, 1, output)
-	count, _ := encoder.Encode(levels)
-	assert.Equal(t, numToEncode, count)
-}
-
-func TestMinimumBufferSize2(t *testing.T) {
-	t.Parallel()
-
-	// test the worst case for bit_width=2 consisting of
-	// LiteralRun(size=8)
-	// RepeatedRun(size=8)
-	// LiteralRun(size=8)
-	// ...
-	const numToEncode = 1024
-	levels := make([]int16, numToEncode)
-
-	for idx := range levels {
-		// This forces a literal run of 00000001
-		// followed by eight 1s
-		if (idx % 16) < 7 {
-			levels[idx] = 0
-		} else {
-			levels[idx] = 1
-		}
-	}
-
-	for bitWidth := int16(1); bitWidth <= 8; bitWidth++ {
-		output := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-		var encoder encoding.LevelEncoder
-		encoder.Init(parquet.Encodings.RLE, bitWidth, output)
-		count, _ := encoder.Encode(levels)
-		assert.Equal(t, numToEncode, count)
-	}
-}
-
-func TestEncodeDecodeLevels(t *testing.T) {
-	t.Parallel()
-	const numToEncode = 2048
-	levels := make([]int16, numToEncode)
-	numones := 0
-	for idx := range levels {
-		if (idx % 16) < 7 {
-			levels[idx] = 0
-		} else {
-			levels[idx] = 1
-			numones++
-		}
-	}
-
-	output := encoding.NewBufferWriter(0, memory.DefaultAllocator)
-
-	var encoder encoding.LevelEncoder
-	encoder.Init(parquet.Encodings.RLE, 1, output)
-	count, _ := encoder.Encode(levels)
-	assert.Equal(t, numToEncode, count)
-	encoder.Flush()
-
-	buf := output.Bytes()
-	var prefix [4]byte
-	binary.LittleEndian.PutUint32(prefix[:], uint32(len(buf)))
-
-	var decoder encoding.LevelDecoder
-	_, err := decoder.SetData(parquet.Encodings.RLE, 1, numToEncode, append(prefix[:], buf...))
-	assert.NoError(t, err)
-
-	var levelOut [numToEncode]int16
-	total, vals := decoder.Decode(levelOut[:])
-	assert.EqualValues(t, numToEncode, total)
-	assert.EqualValues(t, numones, vals)
-	assert.Equal(t, levels, levelOut[:])
-}
diff --git a/go/parquet/internal/encoding/memo_table.go b/go/parquet/internal/encoding/memo_table.go
deleted file mode 100644
index 117ca85346d57..0000000000000
--- a/go/parquet/internal/encoding/memo_table.go
+++ /dev/null
@@ -1,411 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"math"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/hashing"
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-//go:generate go run ../../../arrow/_tools/tmpl/main.go -i -data=physical_types.tmpldata memo_table_types.gen.go.tmpl
-
-// MemoTable interface that can be used to swap out implementations of the hash table
-// used for handling dictionary encoding. Dictionary encoding is built against this interface
-// to make it easy for code generation and changing implementations.
-//
-// Values should remember the order they are inserted to generate a valid dictionary index
-type MemoTable interface {
-	// Reset drops everything in the table allowing it to be reused
-	Reset()
-	// Size returns the current number of unique values stored in the table
-	// including whether or not a null value has been passed in using GetOrInsertNull
-	Size() int
-	// CopyValues populates out with the values currently in the table, out must
-	// be a slice of the appropriate type for the table type.
-	CopyValues(out interface{})
-	// CopyValuesSubset is like CopyValues but only copies a subset of values starting
-	// at the indicated index.
-	CopyValuesSubset(start int, out interface{})
-
-	WriteOut(out []byte)
-	WriteOutSubset(start int, out []byte)
-	// Get returns the index of the table the specified value is, and a boolean indicating
-	// whether or not the value was found in the table. Will panic if val is not the appropriate
-	// type for the underlying table.
-	Get(val interface{}) (int, bool)
-	// GetOrInsert is the same as Get, except if the value is not currently in the table it will
-	// be inserted into the table.
-	GetOrInsert(val interface{}) (idx int, existed bool, err error)
-	// GetNull returns the index of the null value and whether or not it was found in the table
-	GetNull() (int, bool)
-	// GetOrInsertNull returns the index of the null value, if it didn't already exist in the table,
-	// it is inserted.
-	GetOrInsertNull() (idx int, existed bool)
-}
-
-type NumericMemoTable interface {
-	MemoTable
-	// WriteOutLE writes the contents of the memo table out to the byteslice
-	// but ensures the values are little-endian before writing them (converting
-	// if on a big endian system).
-	WriteOutLE(out []byte)
-	// WriteOutSubsetLE writes the contents of the memo table out to the byteslice
-	// starting with the index indicated by start, but ensures the values are little
-	// endian before writing them (converting if on a big-endian system).
-	WriteOutSubsetLE(start int, out []byte)
-}
-
-// BinaryMemoTable is an extension of the MemoTable interface adding extra methods
-// for handling byte arrays/strings/fixed length byte arrays.
-type BinaryMemoTable interface {
-	MemoTable
-	// ValuesSize returns the total number of bytes needed to copy all of the values
-	// from this table.
-	ValuesSize() int
-	// CopyOffsets populates out with the start and end offsets of each value in the
-	// table data. Out should be sized to Size()+1 to accomodate all of the offsets.
-	CopyOffsets(out []int32)
-	// CopyOffsetsSubset is like CopyOffsets but only gets a subset of the offsets
-	// starting at the specified index.
-	CopyOffsetsSubset(start int, out []int32)
-	// CopyFixedWidthValues exists to cope with the fact that the table doesn't track
-	// the fixed width when inserting the null value into the databuffer populating
-	// a zero length byte slice for the null value (if found).
-	CopyFixedWidthValues(start int, width int, out []byte)
-	// VisitValues calls visitFn on each value in the table starting with the index specified
-	VisitValues(start int, visitFn func([]byte))
-	// Retain increases the reference count of the separately stored binary data that is
-	// kept alongside the table which contains all of the values in the table. This is
-	// safe to call simultaneously across multiple goroutines.
-	Retain()
-	// Release decreases the reference count by 1 of the separately stored binary data
-	// kept alongside the table containing the values. When the reference count goes to
-	// 0, the memory is freed. This is safe to call across multiple goroutines simultaneously.
-	Release()
-}
-
-// NewInt32Dictionary returns a memotable interface for use with Int32 values only
-func NewInt32Dictionary() MemoTable {
-	return hashing.NewInt32MemoTable(0)
-}
-
-// NewInt64Dictionary returns a memotable interface for use with Int64 values only
-func NewInt64Dictionary() MemoTable {
-	return hashing.NewInt64MemoTable(0)
-}
-
-// NewFloat32Dictionary returns a memotable interface for use with Float32 values only
-func NewFloat32Dictionary() MemoTable {
-	return hashing.NewFloat32MemoTable(0)
-}
-
-// NewFloat64Dictionary returns a memotable interface for use with Float64 values only
-func NewFloat64Dictionary() MemoTable {
-	return hashing.NewFloat64MemoTable(0)
-}
-
-// NewBinaryDictionary returns a memotable interface for use with strings, byte slices,
-// parquet.ByteArray and parquet.FixedLengthByteArray only.
-func NewBinaryDictionary(mem memory.Allocator) BinaryMemoTable {
-	return hashing.NewBinaryMemoTable(0, -1, array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary))
-}
-
-const keyNotFound = hashing.KeyNotFound
-
-// standard map based implementation of a binary memotable which is only kept around
-// currently to be used as a benchmark against the memotables in the internal/hashing
-// module as a baseline comparison.
-
-func NewBinaryMemoTable(mem memory.Allocator) BinaryMemoTable {
-	return &binaryMemoTableImpl{
-		table:     make(map[string]int),
-		nullIndex: keyNotFound,
-		builder:   array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary),
-	}
-}
-
-type binaryMemoTableImpl struct {
-	table     map[string]int
-	builder   *array.BinaryBuilder
-	nullIndex int
-}
-
-func (m *binaryMemoTableImpl) Reset() {
-	m.table = make(map[string]int)
-	m.nullIndex = keyNotFound
-	m.builder.NewArray().Release()
-}
-
-func (m *binaryMemoTableImpl) CopyValues(out interface{}) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *binaryMemoTableImpl) GetNull() (int, bool) {
-	return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *binaryMemoTableImpl) ValuesSize() int {
-	return m.builder.DataLen()
-}
-
-func (m *binaryMemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-func (m *binaryMemoTableImpl) valAsString(val interface{}) string {
-	switch v := val.(type) {
-	case string:
-		return v
-	case []byte:
-		return *(*string)(unsafe.Pointer(&v))
-	case parquet.ByteArray:
-		return *(*string)(unsafe.Pointer(&v))
-	case parquet.FixedLenByteArray:
-		return *(*string)(unsafe.Pointer(&v))
-	default:
-		panic("invalid type for value in binarymemotable")
-	}
-}
-
-func (m *binaryMemoTableImpl) Get(val interface{}) (int, bool) {
-	key := m.valAsString(val)
-	if p, ok := m.table[key]; ok {
-		return p, true
-	}
-	return keyNotFound, false
-}
-
-func (m *binaryMemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	key := m.valAsString(val)
-	idx, found = m.table[key]
-	if !found {
-		idx = m.Size()
-		m.builder.AppendString(key)
-		m.table[key] = idx
-	}
-	return
-}
-
-func (m *binaryMemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-	idx, found = m.GetNull()
-	if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-		m.builder.AppendNull()
-	}
-	return
-}
-
-func (m *binaryMemoTableImpl) findOffset(idx int) uintptr {
-	val := m.builder.Value(idx)
-	for len(val) == 0 {
-		idx++
-		if idx >= m.builder.Len() {
-			break
-		}
-		val = m.builder.Value(idx)
-	}
-	if len(val) != 0 {
-		return uintptr(unsafe.Pointer(&val[0]))
-	}
-	return uintptr(m.builder.DataLen()) + m.findOffset(0)
-}
-
-func (m *binaryMemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	var (
-		first  = m.findOffset(0)
-		offset = m.findOffset(int(start))
-		length = m.builder.DataLen() - int(offset-first)
-	)
-
-	outval := out.([]byte)
-	copy(outval, m.builder.Value(start)[0:length])
-}
-
-func (m *binaryMemoTableImpl) WriteOut(out []byte) {
-	m.CopyValues(out)
-}
-
-func (m *binaryMemoTableImpl) WriteOutSubset(start int, out []byte) {
-	m.CopyValuesSubset(start, out)
-}
-
-func (m *binaryMemoTableImpl) CopyFixedWidthValues(start, width int, out []byte) {
-
-}
-
-func (m *binaryMemoTableImpl) CopyOffsetsSubset(start int, out []int32) {
-	if m.builder.Len() <= start {
-		return
-	}
-
-	first := m.findOffset(0)
-	delta := m.findOffset(start)
-	for i := start; i < m.Size(); i++ {
-		offset := int32(m.findOffset(i) - delta)
-		out[i-start] = offset
-	}
-
-	out[m.Size()-start] = int32(m.builder.DataLen() - int(delta) - int(first))
-}
-
-func (m *binaryMemoTableImpl) CopyOffsets(out []int32) {
-	m.CopyOffsetsSubset(0, out)
-}
-
-func (m *binaryMemoTableImpl) VisitValues(start int, visitFn func([]byte)) {
-	for i := int(start); i < m.Size(); i++ {
-		visitFn(m.builder.Value(i))
-	}
-}
-
-func (m *binaryMemoTableImpl) Release() {
-	m.builder.Release()
-}
-
-func (m *binaryMemoTableImpl) Retain() {
-	m.builder.Retain()
-}
-
-// standard map based implementation of a float64 memotable which is only kept around
-// currently to be used as a benchmark against the memotables in the internal/hashing
-// module as a baseline comparison.
-
-func NewFloat64MemoTable(memory.Allocator) MemoTable {
-	return &float64MemoTableImpl{
-		table: make(map[float64]struct {
-			value     float64
-			memoIndex int
-		}),
-		nullIndex: keyNotFound,
-		nanIndex:  keyNotFound,
-	}
-}
-
-type float64MemoTableImpl struct {
-	table map[float64]struct {
-		value     float64
-		memoIndex int
-	}
-	nullIndex int
-	nanIndex  int
-}
-
-func (m *float64MemoTableImpl) Reset() {
-	m.table = make(map[float64]struct {
-		value     float64
-		memoIndex int
-	})
-	m.nullIndex = keyNotFound
-	m.nanIndex = keyNotFound
-}
-
-func (m *float64MemoTableImpl) GetNull() (int, bool) {
-	return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *float64MemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	if m.nanIndex != keyNotFound {
-		sz++
-	}
-	return sz
-}
-
-func (m *float64MemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-	idx, found = m.GetNull()
-	if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-	}
-	return
-}
-
-func (m *float64MemoTableImpl) Get(val interface{}) (int, bool) {
-	v := val.(float64)
-	if p, ok := m.table[v]; ok {
-		return p.memoIndex, true
-	}
-	if math.IsNaN(v) && m.nanIndex != keyNotFound {
-		return m.nanIndex, true
-	}
-	return keyNotFound, false
-}
-
-func (m *float64MemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	v := val.(float64)
-	if math.IsNaN(v) {
-		if m.nanIndex == keyNotFound {
-			idx = m.Size()
-			m.nanIndex = idx
-		} else {
-			idx = m.nanIndex
-			found = true
-		}
-		return
-	}
-
-	p, ok := m.table[v]
-	if ok {
-		idx = p.memoIndex
-	} else {
-		idx = m.Size()
-		p.value = v
-		p.memoIndex = idx
-		m.table[v] = p
-		found = true
-	}
-	return
-}
-
-func (m *float64MemoTableImpl) CopyValues(out interface{}) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *float64MemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	outval := out.([]float64)
-	for _, v := range m.table {
-		idx := v.memoIndex - start
-		if idx >= 0 {
-			outval[idx] = v.value
-		}
-	}
-	if m.nanIndex != keyNotFound {
-		outval[m.nanIndex] = math.NaN()
-	}
-}
-
-func (m *float64MemoTableImpl) WriteOut(out []byte) {
-	m.CopyValuesSubset(0, arrow.Float64Traits.CastFromBytes(out))
-}
-
-func (m *float64MemoTableImpl) WriteOutSubset(start int, out []byte) {
-	m.CopyValuesSubset(start, arrow.Float64Traits.CastFromBytes(out))
-}
diff --git a/go/parquet/internal/encoding/memo_table_test.go b/go/parquet/internal/encoding/memo_table_test.go
deleted file mode 100644
index 904502cafc193..0000000000000
--- a/go/parquet/internal/encoding/memo_table_test.go
+++ /dev/null
@@ -1,293 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding_test
-
-import (
-	"math"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/hashing"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/stretchr/testify/suite"
-)
-
-type MemoTableTestSuite struct {
-	suite.Suite
-}
-
-func TestMemoTable(t *testing.T) {
-	suite.Run(t, new(MemoTableTestSuite))
-}
-
-func (m *MemoTableTestSuite) assertGetNotFound(table encoding.MemoTable, v interface{}) {
-	_, ok := table.Get(v)
-	m.False(ok)
-}
-
-func (m *MemoTableTestSuite) assertGet(table encoding.MemoTable, v interface{}, expected int) {
-	idx, ok := table.Get(v)
-	m.Equal(expected, idx)
-	m.True(ok)
-}
-
-func (m *MemoTableTestSuite) assertGetOrInsert(table encoding.MemoTable, v interface{}, expected int) {
-	idx, _, err := table.GetOrInsert(v)
-	m.NoError(err)
-	m.Equal(expected, idx)
-}
-
-func (m *MemoTableTestSuite) assertGetNullNotFound(table encoding.MemoTable) {
-	_, ok := table.GetNull()
-	m.False(ok)
-}
-
-func (m *MemoTableTestSuite) assertGetNull(table encoding.MemoTable, expected int) {
-	idx, ok := table.GetNull()
-	m.Equal(expected, idx)
-	m.True(ok)
-}
-
-func (m *MemoTableTestSuite) assertGetOrInsertNull(table encoding.MemoTable, expected int) {
-	idx, _ := table.GetOrInsertNull()
-	m.Equal(expected, idx)
-}
-
-func (m *MemoTableTestSuite) TestInt64() {
-	const (
-		A int64 = 1234
-		B int64 = 0
-		C int64 = -98765321
-		D int64 = 12345678901234
-		E int64 = -1
-		F int64 = 1
-		G int64 = 9223372036854775807
-		H int64 = -9223372036854775807 - 1
-	)
-
-	// table := encoding.NewInt64MemoTable(nil)
-	table := hashing.NewInt64MemoTable(0)
-	m.Zero(table.Size())
-	m.assertGetNotFound(table, A)
-	m.assertGetNullNotFound(table)
-	m.assertGetOrInsert(table, A, 0)
-	m.assertGetNotFound(table, B)
-	m.assertGetOrInsert(table, B, 1)
-	m.assertGetOrInsert(table, C, 2)
-	m.assertGetOrInsert(table, D, 3)
-	m.assertGetOrInsert(table, E, 4)
-	m.assertGetOrInsertNull(table, 5)
-
-	m.assertGet(table, A, 0)
-	m.assertGetOrInsert(table, A, 0)
-	m.assertGet(table, E, 4)
-	m.assertGetOrInsert(table, E, 4)
-
-	m.assertGetOrInsert(table, F, 6)
-	m.assertGetOrInsert(table, G, 7)
-	m.assertGetOrInsert(table, H, 8)
-
-	m.assertGetOrInsert(table, G, 7)
-	m.assertGetOrInsert(table, F, 6)
-	m.assertGetOrInsertNull(table, 5)
-	m.assertGetOrInsert(table, E, 4)
-	m.assertGetOrInsert(table, D, 3)
-	m.assertGetOrInsert(table, C, 2)
-	m.assertGetOrInsert(table, B, 1)
-	m.assertGetOrInsert(table, A, 0)
-
-	const sz int = 9
-	m.Equal(sz, table.Size())
-	m.Panics(func() {
-		values := make([]int32, sz)
-		table.CopyValues(values)
-	}, "should panic because wrong type")
-	m.Panics(func() {
-		values := make([]int64, sz-3)
-		table.CopyValues(values)
-	}, "should panic because out of bounds")
-
-	{
-		values := make([]int64, sz)
-		table.CopyValues(values)
-		m.Equal([]int64{A, B, C, D, E, 0, F, G, H}, values)
-	}
-	{
-		const offset = 3
-		values := make([]int64, sz-offset)
-		table.CopyValuesSubset(offset, values)
-		m.Equal([]int64{D, E, 0, F, G, H}, values)
-	}
-}
-
-func (m *MemoTableTestSuite) TestFloat64() {
-	const (
-		A float64 = 0.0
-		B float64 = 1.5
-		C float64 = -0.1
-	)
-	var (
-		D = math.Inf(1)
-		E = -D
-		F = math.NaN()                                       // uses Quiet NaN i.e. 0x7FF8000000000001
-		G = math.Float64frombits(uint64(0x7FF0000000000001)) // test Signalling NaN
-		H = math.Float64frombits(uint64(0xFFF7FFFFFFFFFFFF)) // other NaN bit pattern
-	)
-
-	// table := encoding.NewFloat64MemoTable(nil)
-	table := hashing.NewFloat64MemoTable(0)
-	m.Zero(table.Size())
-	m.assertGetNotFound(table, A)
-	m.assertGetNullNotFound(table)
-	m.assertGetOrInsert(table, A, 0)
-	m.assertGetNotFound(table, B)
-	m.assertGetOrInsert(table, B, 1)
-	m.assertGetOrInsert(table, C, 2)
-	m.assertGetOrInsert(table, D, 3)
-	m.assertGetOrInsert(table, E, 4)
-	m.assertGetOrInsert(table, F, 5)
-	m.assertGetOrInsert(table, G, 5)
-	m.assertGetOrInsert(table, H, 5)
-
-	m.assertGet(table, A, 0)
-	m.assertGetOrInsert(table, A, 0)
-	m.assertGetOrInsert(table, B, 1)
-	m.assertGetOrInsert(table, C, 2)
-	m.assertGetOrInsert(table, D, 3)
-	m.assertGet(table, E, 4)
-	m.assertGetOrInsert(table, E, 4)
-	m.assertGet(table, F, 5)
-	m.assertGetOrInsert(table, F, 5)
-	m.assertGet(table, G, 5)
-	m.assertGetOrInsert(table, G, 5)
-	m.assertGet(table, H, 5)
-	m.assertGetOrInsert(table, H, 5)
-
-	m.Equal(6, table.Size())
-	expected := []float64{A, B, C, D, E, F}
-	m.Panics(func() {
-		values := make([]int32, 6)
-		table.CopyValues(values)
-	}, "should panic because wrong type")
-	m.Panics(func() {
-		values := make([]float64, 3)
-		table.CopyValues(values)
-	}, "should panic because out of bounds")
-
-	values := make([]float64, len(expected))
-	table.CopyValues(values)
-	for idx, ex := range expected {
-		if math.IsNaN(ex) {
-			m.True(math.IsNaN(values[idx]))
-		} else {
-			m.Equal(ex, values[idx])
-		}
-	}
-}
-
-func (m *MemoTableTestSuite) TestBinaryBasics() {
-	const (
-		A = ""
-		B = "a"
-		C = "foo"
-		D = "bar"
-		E = "\000"
-		F = "\000trailing"
-	)
-
-	table := hashing.NewBinaryMemoTable(0, -1, array.NewBinaryBuilder(memory.DefaultAllocator, arrow.BinaryTypes.Binary))
-	defer table.Release()
-
-	m.Zero(table.Size())
-	m.assertGetNotFound(table, A)
-	m.assertGetNullNotFound(table)
-	m.assertGetOrInsert(table, A, 0)
-	m.assertGetNotFound(table, B)
-	m.assertGetOrInsert(table, B, 1)
-	m.assertGetOrInsert(table, C, 2)
-	m.assertGetOrInsert(table, D, 3)
-	m.assertGetOrInsert(table, E, 4)
-	m.assertGetOrInsert(table, F, 5)
-	m.assertGetOrInsertNull(table, 6)
-
-	m.assertGet(table, A, 0)
-	m.assertGetOrInsert(table, A, 0)
-	m.assertGet(table, B, 1)
-	m.assertGetOrInsert(table, B, 1)
-	m.assertGetOrInsert(table, C, 2)
-	m.assertGetOrInsert(table, D, 3)
-	m.assertGetOrInsert(table, E, 4)
-	m.assertGet(table, F, 5)
-	m.assertGetOrInsert(table, F, 5)
-	m.assertGetNull(table, 6)
-	m.assertGetOrInsertNull(table, 6)
-
-	m.Equal(7, table.Size())
-	m.Equal(17, table.ValuesSize())
-
-	size := table.Size()
-	{
-		offsets := make([]int32, size+1)
-		table.CopyOffsets(offsets)
-		m.Equal([]int32{0, 0, 1, 4, 7, 8, 17, 17}, offsets)
-
-		expectedValues := "afoobar"
-		expectedValues += "\000"
-		expectedValues += "\000"
-		expectedValues += "trailing"
-		values := make([]byte, 17)
-		table.CopyValues(values)
-		m.Equal(expectedValues, string(values))
-	}
-
-	{
-		startOffset := 4
-		offsets := make([]int32, size+1-int(startOffset))
-		table.CopyOffsetsSubset(startOffset, offsets)
-		m.Equal([]int32{0, 1, 10, 10}, offsets)
-
-		expectedValues := ""
-		expectedValues += "\000"
-		expectedValues += "\000"
-		expectedValues += "trailing"
-
-		values := make([]byte, 10)
-		table.CopyValuesSubset(startOffset, values)
-		m.Equal(expectedValues, string(values))
-	}
-
-	{
-		startOffset := 1
-		values := make([]string, 0)
-		table.VisitValues(startOffset, func(b []byte) {
-			values = append(values, string(b))
-		})
-		m.Equal([]string{B, C, D, E, F, ""}, values)
-	}
-}
-
-func (m *MemoTableTestSuite) TestBinaryEmpty() {
-	table := encoding.NewBinaryMemoTable(memory.DefaultAllocator)
-	defer table.Release()
-
-	m.Zero(table.Size())
-	offsets := make([]int32, 1)
-	table.CopyOffsetsSubset(0, offsets)
-	m.Equal(int32(0), offsets[0])
-}
diff --git a/go/parquet/internal/encoding/memo_table_types.gen.go b/go/parquet/internal/encoding/memo_table_types.gen.go
deleted file mode 100644
index 1169afc455ff5..0000000000000
--- a/go/parquet/internal/encoding/memo_table_types.gen.go
+++ /dev/null
@@ -1,398 +0,0 @@
-// Code generated by memo_table_types.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-// standard map based implementation of memo tables which can be more efficient
-// in some cases based on the uniqueness / amount / size of the data.
-// these are left here for now for use in the benchmarks to compare against the
-// custom hash table implementation in the internal/hashing package as a base
-// benchmark comparison.
-
-func NewInt32MemoTable(memory.Allocator) MemoTable {
-	return &int32MemoTableImpl{
-		table: make(map[int32]struct {
-			value     int32
-			memoIndex int
-		}),
-		nullIndex: keyNotFound,
-	}
-}
-
-type int32MemoTableImpl struct {
-	table map[int32]struct {
-		value     int32
-		memoIndex int
-	}
-	nullIndex int
-}
-
-func (m *int32MemoTableImpl) Reset() {
-	m.table = make(map[int32]struct {
-		value     int32
-		memoIndex int
-	})
-	m.nullIndex = keyNotFound
-}
-
-func (m *int32MemoTableImpl) GetNull() (int, bool) {
-	return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *int32MemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-func (m *int32MemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-	idx, found = m.GetNull()
-	if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-	}
-	return
-}
-
-func (m *int32MemoTableImpl) Get(val interface{}) (int, bool) {
-	v := val.(int32)
-	if p, ok := m.table[v]; ok {
-		return p.memoIndex, true
-	}
-	return keyNotFound, false
-}
-
-func (m *int32MemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	v := val.(int32)
-	p, ok := m.table[v]
-	if ok {
-		idx = p.memoIndex
-	} else {
-		idx = m.Size()
-		p.value = v
-		p.memoIndex = idx
-		m.table[v] = p
-		found = true
-	}
-	return
-}
-
-func (m *int32MemoTableImpl) WriteOut(out []byte) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *int32MemoTableImpl) WriteOutSubset(start int, out []byte) {
-	m.CopyValuesSubset(start, out)
-}
-
-func (m *int32MemoTableImpl) CopyValues(out interface{}) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *int32MemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	outval := out.([]int32)
-	for _, v := range m.table {
-		idx := v.memoIndex - start
-		if idx >= 0 {
-			outval[idx] = v.value
-		}
-	}
-}
-
-func NewInt64MemoTable(memory.Allocator) MemoTable {
-	return &int64MemoTableImpl{
-		table: make(map[int64]struct {
-			value     int64
-			memoIndex int
-		}),
-		nullIndex: keyNotFound,
-	}
-}
-
-type int64MemoTableImpl struct {
-	table map[int64]struct {
-		value     int64
-		memoIndex int
-	}
-	nullIndex int
-}
-
-func (m *int64MemoTableImpl) Reset() {
-	m.table = make(map[int64]struct {
-		value     int64
-		memoIndex int
-	})
-	m.nullIndex = keyNotFound
-}
-
-func (m *int64MemoTableImpl) GetNull() (int, bool) {
-	return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *int64MemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-func (m *int64MemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-	idx, found = m.GetNull()
-	if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-	}
-	return
-}
-
-func (m *int64MemoTableImpl) Get(val interface{}) (int, bool) {
-	v := val.(int64)
-	if p, ok := m.table[v]; ok {
-		return p.memoIndex, true
-	}
-	return keyNotFound, false
-}
-
-func (m *int64MemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	v := val.(int64)
-	p, ok := m.table[v]
-	if ok {
-		idx = p.memoIndex
-	} else {
-		idx = m.Size()
-		p.value = v
-		p.memoIndex = idx
-		m.table[v] = p
-		found = true
-	}
-	return
-}
-
-func (m *int64MemoTableImpl) WriteOut(out []byte) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *int64MemoTableImpl) WriteOutSubset(start int, out []byte) {
-	m.CopyValuesSubset(start, out)
-}
-
-func (m *int64MemoTableImpl) CopyValues(out interface{}) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *int64MemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	outval := out.([]int64)
-	for _, v := range m.table {
-		idx := v.memoIndex - start
-		if idx >= 0 {
-			outval[idx] = v.value
-		}
-	}
-}
-
-func NewInt96MemoTable(memory.Allocator) MemoTable {
-	return &int96MemoTableImpl{
-		table: make(map[parquet.Int96]struct {
-			value     parquet.Int96
-			memoIndex int
-		}),
-		nullIndex: keyNotFound,
-	}
-}
-
-type int96MemoTableImpl struct {
-	table map[parquet.Int96]struct {
-		value     parquet.Int96
-		memoIndex int
-	}
-	nullIndex int
-}
-
-func (m *int96MemoTableImpl) Reset() {
-	m.table = make(map[parquet.Int96]struct {
-		value     parquet.Int96
-		memoIndex int
-	})
-	m.nullIndex = keyNotFound
-}
-
-func (m *int96MemoTableImpl) GetNull() (int, bool) {
-	return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *int96MemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-func (m *int96MemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-	idx, found = m.GetNull()
-	if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-	}
-	return
-}
-
-func (m *int96MemoTableImpl) Get(val interface{}) (int, bool) {
-	v := val.(parquet.Int96)
-	if p, ok := m.table[v]; ok {
-		return p.memoIndex, true
-	}
-	return keyNotFound, false
-}
-
-func (m *int96MemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	v := val.(parquet.Int96)
-	p, ok := m.table[v]
-	if ok {
-		idx = p.memoIndex
-	} else {
-		idx = m.Size()
-		p.value = v
-		p.memoIndex = idx
-		m.table[v] = p
-		found = true
-	}
-	return
-}
-
-func (m *int96MemoTableImpl) WriteOut(out []byte) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *int96MemoTableImpl) WriteOutSubset(start int, out []byte) {
-	m.CopyValuesSubset(start, out)
-}
-
-func (m *int96MemoTableImpl) CopyValues(out interface{}) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *int96MemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	outval := out.([]parquet.Int96)
-	for _, v := range m.table {
-		idx := v.memoIndex - start
-		if idx >= 0 {
-			outval[idx] = v.value
-		}
-	}
-}
-
-func NewFloat32MemoTable(memory.Allocator) MemoTable {
-	return &float32MemoTableImpl{
-		table: make(map[float32]struct {
-			value     float32
-			memoIndex int
-		}),
-		nullIndex: keyNotFound,
-	}
-}
-
-type float32MemoTableImpl struct {
-	table map[float32]struct {
-		value     float32
-		memoIndex int
-	}
-	nullIndex int
-}
-
-func (m *float32MemoTableImpl) Reset() {
-	m.table = make(map[float32]struct {
-		value     float32
-		memoIndex int
-	})
-	m.nullIndex = keyNotFound
-}
-
-func (m *float32MemoTableImpl) GetNull() (int, bool) {
-	return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *float32MemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-func (m *float32MemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-	idx, found = m.GetNull()
-	if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-	}
-	return
-}
-
-func (m *float32MemoTableImpl) Get(val interface{}) (int, bool) {
-	v := val.(float32)
-	if p, ok := m.table[v]; ok {
-		return p.memoIndex, true
-	}
-	return keyNotFound, false
-}
-
-func (m *float32MemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-	v := val.(float32)
-	p, ok := m.table[v]
-	if ok {
-		idx = p.memoIndex
-	} else {
-		idx = m.Size()
-		p.value = v
-		p.memoIndex = idx
-		m.table[v] = p
-		found = true
-	}
-	return
-}
-
-func (m *float32MemoTableImpl) WriteOut(out []byte) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *float32MemoTableImpl) WriteOutSubset(start int, out []byte) {
-	m.CopyValuesSubset(start, out)
-}
-
-func (m *float32MemoTableImpl) CopyValues(out interface{}) {
-	m.CopyValuesSubset(0, out)
-}
-
-func (m *float32MemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	outval := out.([]float32)
-	for _, v := range m.table {
-		idx := v.memoIndex - start
-		if idx >= 0 {
-			outval[idx] = v.value
-		}
-	}
-}
diff --git a/go/parquet/internal/encoding/memo_table_types.gen.go.tmpl b/go/parquet/internal/encoding/memo_table_types.gen.go.tmpl
deleted file mode 100644
index 9708b0b97e527..0000000000000
--- a/go/parquet/internal/encoding/memo_table_types.gen.go.tmpl
+++ /dev/null
@@ -1,123 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-  "github.com/apache/arrow/go/v18/parquet"
-)
-
-// standard map based implementation of memo tables which can be more efficient
-// in some cases based on the uniqueness / amount / size of the data.
-// these are left here for now for use in the benchmarks to compare against the
-// custom hash table implementation in the internal/hashing package as a base
-// benchmark comparison.
-
-{{range .In}}
-{{if and (ne .Name "ByteArray") (ne .Name "FixedLenByteArray") (ne .Name "Float64") (ne .Name "Boolean")}}
-func New{{.Name}}MemoTable(memory.Allocator) MemoTable {
-  return &{{.lower}}MemoTableImpl{
-      table: make(map[{{.name}}]struct{
-        value {{.name}}
-        memoIndex int
-      }),
-      nullIndex: keyNotFound,
-    }
-}
-
-type {{.lower}}MemoTableImpl struct {
-  table map[{{.name}}]struct{
-    value {{.name}}
-    memoIndex int
-  }
-  nullIndex int
-}
-
-func (m *{{.lower}}MemoTableImpl) Reset() {
-  m.table = make(map[{{.name}}]struct{
-    value {{.name}}
-    memoIndex int
-  })
-  m.nullIndex = keyNotFound
-}
-
-func (m *{{.lower}}MemoTableImpl) GetNull() (int, bool) {
-  return m.nullIndex, m.nullIndex != keyNotFound
-}
-
-func (m *{{.lower}}MemoTableImpl) Size() int {
-	sz := len(m.table)
-	if _, ok := m.GetNull(); ok {
-		sz++
-	}
-	return sz
-}
-
-func (m *{{.lower}}MemoTableImpl) GetOrInsertNull() (idx int, found bool) {
-  idx, found = m.GetNull()
-  if !found {
-		idx = m.Size()
-		m.nullIndex = idx
-	}
-	return
-}
-
-func (m *{{.lower}}MemoTableImpl) Get(val interface{}) (int, bool) {
-  v := val.({{.name}})
-  if p, ok := m.table[v]; ok {
-    return p.memoIndex, true
-  }
-  return keyNotFound, false
-}
-
-func (m *{{.lower}}MemoTableImpl) GetOrInsert(val interface{}) (idx int, found bool, err error) {
-  v := val.({{.name}})
-  p, ok := m.table[v]
-  if ok {
-    idx = p.memoIndex
-  } else {
-    idx = m.Size()
-    p.value = v
-    p.memoIndex = idx
-    m.table[v] = p
-    found = true
-  }
-  return
-}
-
-func (m *{{.lower}}MemoTableImpl) WriteOut(out []byte) {
-  m.CopyValuesSubset(0, out)
-}
-
-func (m *{{.lower}}MemoTableImpl) WriteOutSubset(start int, out []byte) {
-  m.CopyValuesSubset(start, out)
-}
-
-func (m *{{.lower}}MemoTableImpl) CopyValues(out interface{}) {
-  m.CopyValuesSubset(0, out)
-}
-
-func (m *{{.lower}}MemoTableImpl) CopyValuesSubset(start int, out interface{}) {
-	outval := out.([]{{.name}})
-	for _, v := range m.table {
-		idx := v.memoIndex - start
-		if idx >= 0 {
-			outval[idx] = v.value
-		}
-	}
-}
-{{end}}
-{{end}}
diff --git a/go/parquet/internal/encoding/physical_types.tmpldata b/go/parquet/internal/encoding/physical_types.tmpldata
deleted file mode 100644
index 0adeb9955bf6b..0000000000000
--- a/go/parquet/internal/encoding/physical_types.tmpldata
+++ /dev/null
@@ -1,52 +0,0 @@
-[
-  {
-    "Name": "Int32",
-    "name": "int32",
-    "lower": "int32",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "Int64",
-    "name": "int64",
-    "lower": "int64",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "Int96",
-    "name": "parquet.Int96",
-    "lower": "int96",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "Float32",
-    "name": "float32",
-    "lower": "float32",
-    "prefix": "arrow",
-    "physical": "Float"
-  },
-  {
-    "Name": "Float64",
-    "name": "float64",
-    "lower": "float64",
-    "prefix": "arrow",
-    "physical": "Double"
-  },
-  {
-    "Name": "Boolean",
-    "name": "bool",
-    "lower": "bool",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "ByteArray",
-    "name": "parquet.ByteArray",
-    "lower": "byteArray",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "FixedLenByteArray",
-    "name": "parquet.FixedLenByteArray",
-    "lower": "fixedLenByteArray",
-    "prefix": "parquet"
-  }
-]
diff --git a/go/parquet/internal/encoding/plain_encoder_types.gen.go b/go/parquet/internal/encoding/plain_encoder_types.gen.go
deleted file mode 100644
index b651fe2d71864..0000000000000
--- a/go/parquet/internal/encoding/plain_encoder_types.gen.go
+++ /dev/null
@@ -1,641 +0,0 @@
-// Code generated by plain_encoder_types.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"bytes"
-	"encoding/binary"
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-var (
-	writeInt32LE      func(*encoder, []int32)
-	copyFromInt32LE   func(dst []int32, src []byte)
-	writeInt64LE      func(*encoder, []int64)
-	copyFromInt64LE   func(dst []int64, src []byte)
-	writeInt96LE      func(*encoder, []parquet.Int96)
-	copyFromInt96LE   func(dst []parquet.Int96, src []byte)
-	writeFloat32LE    func(*encoder, []float32)
-	copyFromFloat32LE func(dst []float32, src []byte)
-	writeFloat64LE    func(*encoder, []float64)
-	copyFromFloat64LE func(dst []float64, src []byte)
-)
-
-func init() {
-	// int96 is already internally represented as little endian data
-	// no need to have special behavior on big endian architectures
-	// for read/write, consumers will need to be aware of the fact
-	// that it is internally 12 bytes little endian when attempting
-	// to utilize it.
-	writeInt96LE = func(e *encoder, in []parquet.Int96) {
-		e.append(parquet.Int96Traits.CastToBytes(in))
-	}
-	copyFromInt96LE = func(dst []parquet.Int96, src []byte) {
-		copy(parquet.Int96Traits.CastToBytes(dst), src)
-	}
-
-	if endian.IsBigEndian {
-		writeInt32LE = func(e *encoder, in []int32) {
-			binary.Write(e.sink, binary.LittleEndian, in)
-		}
-		copyFromInt32LE = func(dst []int32, src []byte) {
-			r := bytes.NewReader(src)
-			binary.Read(r, binary.LittleEndian, &dst)
-		}
-		writeInt64LE = func(e *encoder, in []int64) {
-			binary.Write(e.sink, binary.LittleEndian, in)
-		}
-		copyFromInt64LE = func(dst []int64, src []byte) {
-			r := bytes.NewReader(src)
-			binary.Read(r, binary.LittleEndian, &dst)
-		}
-		writeFloat32LE = func(e *encoder, in []float32) {
-			binary.Write(e.sink, binary.LittleEndian, in)
-		}
-		copyFromFloat32LE = func(dst []float32, src []byte) {
-			r := bytes.NewReader(src)
-			binary.Read(r, binary.LittleEndian, &dst)
-		}
-		writeFloat64LE = func(e *encoder, in []float64) {
-			binary.Write(e.sink, binary.LittleEndian, in)
-		}
-		copyFromFloat64LE = func(dst []float64, src []byte) {
-			r := bytes.NewReader(src)
-			binary.Read(r, binary.LittleEndian, &dst)
-		}
-	} else {
-		writeInt32LE = func(e *encoder, in []int32) {
-			e.append(arrow.Int32Traits.CastToBytes(in))
-		}
-		copyFromInt32LE = func(dst []int32, src []byte) {
-			copy(arrow.Int32Traits.CastToBytes(dst), src)
-		}
-		writeInt64LE = func(e *encoder, in []int64) {
-			e.append(arrow.Int64Traits.CastToBytes(in))
-		}
-		copyFromInt64LE = func(dst []int64, src []byte) {
-			copy(arrow.Int64Traits.CastToBytes(dst), src)
-		}
-		writeFloat32LE = func(e *encoder, in []float32) {
-			e.append(arrow.Float32Traits.CastToBytes(in))
-		}
-		copyFromFloat32LE = func(dst []float32, src []byte) {
-			copy(arrow.Float32Traits.CastToBytes(dst), src)
-		}
-		writeFloat64LE = func(e *encoder, in []float64) {
-			e.append(arrow.Float64Traits.CastToBytes(in))
-		}
-		copyFromFloat64LE = func(dst []float64, src []byte) {
-			copy(arrow.Float64Traits.CastToBytes(dst), src)
-		}
-	}
-}
-
-// PlainInt32Encoder is an encoder for int32 values using Plain Encoding
-// which in general is just storing the values as raw bytes of the appropriate size
-type PlainInt32Encoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Put encodes a slice of values into the underlying buffer
-func (enc *PlainInt32Encoder) Put(in []int32) {
-	writeInt32LE(&enc.encoder, in)
-}
-
-// PutSpaced encodes a slice of values into the underlying buffer which are spaced out
-// including null values defined by the validBits bitmap starting at a given bit offset.
-// the values are first compressed by having the null slots removed before writing to the buffer
-func (enc *PlainInt32Encoder) PutSpaced(in []int32, validBits []byte, validBitsOffset int64) {
-	nbytes := arrow.Int32Traits.BytesRequired(len(in))
-	enc.ReserveForWrite(nbytes)
-
-	if enc.bitSetReader == nil {
-		enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-	} else {
-		enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-	}
-
-	for {
-		run := enc.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-	}
-}
-
-// Type returns the underlying physical type this encoder is able to encode
-func (PlainInt32Encoder) Type() parquet.Type {
-	return parquet.Types.Int32
-}
-
-// PlainInt32Decoder is a decoder specifically for decoding Plain Encoding data
-// of int32 type.
-type PlainInt32Decoder struct {
-	decoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Type returns the physical type this decoder is able to decode for
-func (PlainInt32Decoder) Type() parquet.Type {
-	return parquet.Types.Int32
-}
-
-// Decode populates the given slice with values from the data to be decoded,
-// decoding the min(len(out), remaining values).
-// It returns the number of values actually decoded and any error encountered.
-func (dec *PlainInt32Decoder) Decode(out []int32) (int, error) {
-	max := utils.Min(len(out), dec.nvals)
-	nbytes := int64(max) * int64(arrow.Int32SizeBytes)
-	if nbytes > int64(len(dec.data)) || nbytes > math.MaxInt32 {
-		return 0, fmt.Errorf("parquet: eof exception decode plain Int32, nvals: %d, nbytes: %d, datalen: %d", dec.nvals, nbytes, len(dec.data))
-	}
-
-	copyFromInt32LE(out, dec.data[:nbytes])
-	dec.data = dec.data[nbytes:]
-	dec.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is the same as decode, except it expands the data out to leave spaces for null values
-// as defined by the bitmap provided.
-func (dec *PlainInt32Decoder) DecodeSpaced(out []int32, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := dec.Decode(out[:toread])
-	if err != nil {
-		return 0, err
-	}
-	if values != toread {
-		return 0, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	nvalues := len(out)
-	if nullCount == 0 {
-		return nvalues, nil
-	}
-
-	idxDecode := nvalues - nullCount
-	if dec.bitSetReader == nil {
-		dec.bitSetReader = bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(nvalues))
-	} else {
-		dec.bitSetReader.Reset(validBits, validBitsOffset, int64(nvalues))
-	}
-
-	for {
-		run := dec.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		idxDecode -= int(run.Length)
-		copy(out[int(run.Pos):], out[idxDecode:idxDecode+int(run.Length)])
-	}
-	return nvalues, nil
-}
-
-// PlainInt64Encoder is an encoder for int64 values using Plain Encoding
-// which in general is just storing the values as raw bytes of the appropriate size
-type PlainInt64Encoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Put encodes a slice of values into the underlying buffer
-func (enc *PlainInt64Encoder) Put(in []int64) {
-	writeInt64LE(&enc.encoder, in)
-}
-
-// PutSpaced encodes a slice of values into the underlying buffer which are spaced out
-// including null values defined by the validBits bitmap starting at a given bit offset.
-// the values are first compressed by having the null slots removed before writing to the buffer
-func (enc *PlainInt64Encoder) PutSpaced(in []int64, validBits []byte, validBitsOffset int64) {
-	nbytes := arrow.Int64Traits.BytesRequired(len(in))
-	enc.ReserveForWrite(nbytes)
-
-	if enc.bitSetReader == nil {
-		enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-	} else {
-		enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-	}
-
-	for {
-		run := enc.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-	}
-}
-
-// Type returns the underlying physical type this encoder is able to encode
-func (PlainInt64Encoder) Type() parquet.Type {
-	return parquet.Types.Int64
-}
-
-// PlainInt64Decoder is a decoder specifically for decoding Plain Encoding data
-// of int64 type.
-type PlainInt64Decoder struct {
-	decoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Type returns the physical type this decoder is able to decode for
-func (PlainInt64Decoder) Type() parquet.Type {
-	return parquet.Types.Int64
-}
-
-// Decode populates the given slice with values from the data to be decoded,
-// decoding the min(len(out), remaining values).
-// It returns the number of values actually decoded and any error encountered.
-func (dec *PlainInt64Decoder) Decode(out []int64) (int, error) {
-	max := utils.Min(len(out), dec.nvals)
-	nbytes := int64(max) * int64(arrow.Int64SizeBytes)
-	if nbytes > int64(len(dec.data)) || nbytes > math.MaxInt32 {
-		return 0, fmt.Errorf("parquet: eof exception decode plain Int64, nvals: %d, nbytes: %d, datalen: %d", dec.nvals, nbytes, len(dec.data))
-	}
-
-	copyFromInt64LE(out, dec.data[:nbytes])
-	dec.data = dec.data[nbytes:]
-	dec.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is the same as decode, except it expands the data out to leave spaces for null values
-// as defined by the bitmap provided.
-func (dec *PlainInt64Decoder) DecodeSpaced(out []int64, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := dec.Decode(out[:toread])
-	if err != nil {
-		return 0, err
-	}
-	if values != toread {
-		return 0, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	nvalues := len(out)
-	if nullCount == 0 {
-		return nvalues, nil
-	}
-
-	idxDecode := nvalues - nullCount
-	if dec.bitSetReader == nil {
-		dec.bitSetReader = bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(nvalues))
-	} else {
-		dec.bitSetReader.Reset(validBits, validBitsOffset, int64(nvalues))
-	}
-
-	for {
-		run := dec.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		idxDecode -= int(run.Length)
-		copy(out[int(run.Pos):], out[idxDecode:idxDecode+int(run.Length)])
-	}
-	return nvalues, nil
-}
-
-// PlainInt96Encoder is an encoder for parquet.Int96 values using Plain Encoding
-// which in general is just storing the values as raw bytes of the appropriate size
-type PlainInt96Encoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Put encodes a slice of values into the underlying buffer
-func (enc *PlainInt96Encoder) Put(in []parquet.Int96) {
-	writeInt96LE(&enc.encoder, in)
-}
-
-// PutSpaced encodes a slice of values into the underlying buffer which are spaced out
-// including null values defined by the validBits bitmap starting at a given bit offset.
-// the values are first compressed by having the null slots removed before writing to the buffer
-func (enc *PlainInt96Encoder) PutSpaced(in []parquet.Int96, validBits []byte, validBitsOffset int64) {
-	nbytes := parquet.Int96Traits.BytesRequired(len(in))
-	enc.ReserveForWrite(nbytes)
-
-	if enc.bitSetReader == nil {
-		enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-	} else {
-		enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-	}
-
-	for {
-		run := enc.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-	}
-}
-
-// Type returns the underlying physical type this encoder is able to encode
-func (PlainInt96Encoder) Type() parquet.Type {
-	return parquet.Types.Int96
-}
-
-// PlainInt96Decoder is a decoder specifically for decoding Plain Encoding data
-// of parquet.Int96 type.
-type PlainInt96Decoder struct {
-	decoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Type returns the physical type this decoder is able to decode for
-func (PlainInt96Decoder) Type() parquet.Type {
-	return parquet.Types.Int96
-}
-
-// Decode populates the given slice with values from the data to be decoded,
-// decoding the min(len(out), remaining values).
-// It returns the number of values actually decoded and any error encountered.
-func (dec *PlainInt96Decoder) Decode(out []parquet.Int96) (int, error) {
-	max := utils.Min(len(out), dec.nvals)
-	nbytes := int64(max) * int64(parquet.Int96SizeBytes)
-	if nbytes > int64(len(dec.data)) || nbytes > math.MaxInt32 {
-		return 0, fmt.Errorf("parquet: eof exception decode plain Int96, nvals: %d, nbytes: %d, datalen: %d", dec.nvals, nbytes, len(dec.data))
-	}
-
-	copyFromInt96LE(out, dec.data[:nbytes])
-	dec.data = dec.data[nbytes:]
-	dec.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is the same as decode, except it expands the data out to leave spaces for null values
-// as defined by the bitmap provided.
-func (dec *PlainInt96Decoder) DecodeSpaced(out []parquet.Int96, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := dec.Decode(out[:toread])
-	if err != nil {
-		return 0, err
-	}
-	if values != toread {
-		return 0, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	nvalues := len(out)
-	if nullCount == 0 {
-		return nvalues, nil
-	}
-
-	idxDecode := nvalues - nullCount
-	if dec.bitSetReader == nil {
-		dec.bitSetReader = bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(nvalues))
-	} else {
-		dec.bitSetReader.Reset(validBits, validBitsOffset, int64(nvalues))
-	}
-
-	for {
-		run := dec.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		idxDecode -= int(run.Length)
-		copy(out[int(run.Pos):], out[idxDecode:idxDecode+int(run.Length)])
-	}
-	return nvalues, nil
-}
-
-// PlainFloat32Encoder is an encoder for float32 values using Plain Encoding
-// which in general is just storing the values as raw bytes of the appropriate size
-type PlainFloat32Encoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Put encodes a slice of values into the underlying buffer
-func (enc *PlainFloat32Encoder) Put(in []float32) {
-	writeFloat32LE(&enc.encoder, in)
-}
-
-// PutSpaced encodes a slice of values into the underlying buffer which are spaced out
-// including null values defined by the validBits bitmap starting at a given bit offset.
-// the values are first compressed by having the null slots removed before writing to the buffer
-func (enc *PlainFloat32Encoder) PutSpaced(in []float32, validBits []byte, validBitsOffset int64) {
-	nbytes := arrow.Float32Traits.BytesRequired(len(in))
-	enc.ReserveForWrite(nbytes)
-
-	if enc.bitSetReader == nil {
-		enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-	} else {
-		enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-	}
-
-	for {
-		run := enc.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-	}
-}
-
-// Type returns the underlying physical type this encoder is able to encode
-func (PlainFloat32Encoder) Type() parquet.Type {
-	return parquet.Types.Float
-}
-
-// PlainFloat32Decoder is a decoder specifically for decoding Plain Encoding data
-// of float32 type.
-type PlainFloat32Decoder struct {
-	decoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Type returns the physical type this decoder is able to decode for
-func (PlainFloat32Decoder) Type() parquet.Type {
-	return parquet.Types.Float
-}
-
-// Decode populates the given slice with values from the data to be decoded,
-// decoding the min(len(out), remaining values).
-// It returns the number of values actually decoded and any error encountered.
-func (dec *PlainFloat32Decoder) Decode(out []float32) (int, error) {
-	max := utils.Min(len(out), dec.nvals)
-	nbytes := int64(max) * int64(arrow.Float32SizeBytes)
-	if nbytes > int64(len(dec.data)) || nbytes > math.MaxInt32 {
-		return 0, fmt.Errorf("parquet: eof exception decode plain Float32, nvals: %d, nbytes: %d, datalen: %d", dec.nvals, nbytes, len(dec.data))
-	}
-
-	copyFromFloat32LE(out, dec.data[:nbytes])
-	dec.data = dec.data[nbytes:]
-	dec.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is the same as decode, except it expands the data out to leave spaces for null values
-// as defined by the bitmap provided.
-func (dec *PlainFloat32Decoder) DecodeSpaced(out []float32, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := dec.Decode(out[:toread])
-	if err != nil {
-		return 0, err
-	}
-	if values != toread {
-		return 0, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	nvalues := len(out)
-	if nullCount == 0 {
-		return nvalues, nil
-	}
-
-	idxDecode := nvalues - nullCount
-	if dec.bitSetReader == nil {
-		dec.bitSetReader = bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(nvalues))
-	} else {
-		dec.bitSetReader.Reset(validBits, validBitsOffset, int64(nvalues))
-	}
-
-	for {
-		run := dec.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		idxDecode -= int(run.Length)
-		copy(out[int(run.Pos):], out[idxDecode:idxDecode+int(run.Length)])
-	}
-	return nvalues, nil
-}
-
-// PlainFloat64Encoder is an encoder for float64 values using Plain Encoding
-// which in general is just storing the values as raw bytes of the appropriate size
-type PlainFloat64Encoder struct {
-	encoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Put encodes a slice of values into the underlying buffer
-func (enc *PlainFloat64Encoder) Put(in []float64) {
-	writeFloat64LE(&enc.encoder, in)
-}
-
-// PutSpaced encodes a slice of values into the underlying buffer which are spaced out
-// including null values defined by the validBits bitmap starting at a given bit offset.
-// the values are first compressed by having the null slots removed before writing to the buffer
-func (enc *PlainFloat64Encoder) PutSpaced(in []float64, validBits []byte, validBitsOffset int64) {
-	nbytes := arrow.Float64Traits.BytesRequired(len(in))
-	enc.ReserveForWrite(nbytes)
-
-	if enc.bitSetReader == nil {
-		enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-	} else {
-		enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-	}
-
-	for {
-		run := enc.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-	}
-}
-
-// Type returns the underlying physical type this encoder is able to encode
-func (PlainFloat64Encoder) Type() parquet.Type {
-	return parquet.Types.Double
-}
-
-// PlainFloat64Decoder is a decoder specifically for decoding Plain Encoding data
-// of float64 type.
-type PlainFloat64Decoder struct {
-	decoder
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// Type returns the physical type this decoder is able to decode for
-func (PlainFloat64Decoder) Type() parquet.Type {
-	return parquet.Types.Double
-}
-
-// Decode populates the given slice with values from the data to be decoded,
-// decoding the min(len(out), remaining values).
-// It returns the number of values actually decoded and any error encountered.
-func (dec *PlainFloat64Decoder) Decode(out []float64) (int, error) {
-	max := utils.Min(len(out), dec.nvals)
-	nbytes := int64(max) * int64(arrow.Float64SizeBytes)
-	if nbytes > int64(len(dec.data)) || nbytes > math.MaxInt32 {
-		return 0, fmt.Errorf("parquet: eof exception decode plain Float64, nvals: %d, nbytes: %d, datalen: %d", dec.nvals, nbytes, len(dec.data))
-	}
-
-	copyFromFloat64LE(out, dec.data[:nbytes])
-	dec.data = dec.data[nbytes:]
-	dec.nvals -= max
-	return max, nil
-}
-
-// DecodeSpaced is the same as decode, except it expands the data out to leave spaces for null values
-// as defined by the bitmap provided.
-func (dec *PlainFloat64Decoder) DecodeSpaced(out []float64, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	toread := len(out) - nullCount
-	values, err := dec.Decode(out[:toread])
-	if err != nil {
-		return 0, err
-	}
-	if values != toread {
-		return 0, xerrors.New("parquet: number of values / definition levels read did not match")
-	}
-
-	nvalues := len(out)
-	if nullCount == 0 {
-		return nvalues, nil
-	}
-
-	idxDecode := nvalues - nullCount
-	if dec.bitSetReader == nil {
-		dec.bitSetReader = bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(nvalues))
-	} else {
-		dec.bitSetReader.Reset(validBits, validBitsOffset, int64(nvalues))
-	}
-
-	for {
-		run := dec.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-
-		idxDecode -= int(run.Length)
-		copy(out[int(run.Pos):], out[idxDecode:idxDecode+int(run.Length)])
-	}
-	return nvalues, nil
-}
diff --git a/go/parquet/internal/encoding/plain_encoder_types.gen.go.tmpl b/go/parquet/internal/encoding/plain_encoder_types.gen.go.tmpl
deleted file mode 100644
index 1f2bc047464ea..0000000000000
--- a/go/parquet/internal/encoding/plain_encoder_types.gen.go.tmpl
+++ /dev/null
@@ -1,184 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (  
-  "encoding/binary"
-  "fmt"
-
-  "github.com/apache/arrow/go/v18/arrow"
-  "github.com/apache/arrow/go/v18/parquet"
-  "github.com/apache/arrow/go/v18/internal/utils"
-  "github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-var (
-{{range .In}}
-{{if and (ne .Name "Boolean") (ne .Name "ByteArray") (ne .Name "FixedLenByteArray") -}}
-	write{{.Name}}LE   func(*encoder, []{{.name}})
-  copyFrom{{.Name}}LE  func(dst []{{.name}}, src []byte)
-{{- end}}
-{{- end}}
-)
-
-func init() {
-  // int96 is already internally represented as little endian data
-  // no need to have special behavior on big endian architectures
-  // for read/write, consumers will need to be aware of the fact
-  // that it is internally 12 bytes little endian when attempting
-  // to utilize it.
-  writeInt96LE = func(e *encoder, in []parquet.Int96) {
-    e.append(parquet.Int96Traits.CastToBytes(in))
-  }
-  copyFromInt96LE = func(dst []parquet.Int96, src []byte) {
-    copy(parquet.Int96Traits.CastToBytes(dst), src)
-  }
-
-	if endian.IsBigEndian {
-{{- range .In}}
-{{- if and (ne .Name "Boolean") (ne .Name "ByteArray") (ne .Name "FixedLenByteArray") (ne .Name "Int96")}}
-    write{{.Name}}LE = func(e *encoder, in []{{.name}}) {
-      binary.Write(e.sink, binary.LittleEndian, in)
-    }
-    copyFrom{{.Name}}LE = func(dst []{{.name}}, src []byte) {
-      r := bytes.NewReader(src)
-      binary.Read(r, binary.LittleEndian, &dst)
-    }
-{{- end -}}
-{{- end}}
-	} else {
-{{- range .In}}
-{{- if and (ne .Name "Boolean") (ne .Name "ByteArray") (ne .Name "FixedLenByteArray") (ne .Name "Int96")}}
-    write{{.Name}}LE = func(e *encoder, in []{{.name}}) {
-      e.append({{.prefix}}.{{.Name}}Traits.CastToBytes(in))
-    }
-    copyFrom{{.Name}}LE = func(dst []{{.name}}, src []byte) {
-      copy({{.prefix}}.{{.Name}}Traits.CastToBytes(dst), src)
-    }
-{{- end -}}
-{{- end}}
-	}
-}
-
-{{range .In}}
-{{if and (ne .Name "Boolean") (ne .Name "ByteArray") (ne .Name "FixedLenByteArray")}}
-// Plain{{.Name}}Encoder is an encoder for {{.name}} values using Plain Encoding
-// which in general is just storing the values as raw bytes of the appropriate size
-type Plain{{.Name}}Encoder struct {
-  encoder
-
-  bitSetReader bitutils.SetBitRunReader
-}
-
-// Put encodes a slice of values into the underlying buffer
-func (enc *Plain{{.Name}}Encoder) Put(in []{{.name}}) {
-  write{{.Name}}LE(&enc.encoder, in)
-}
-
-// PutSpaced encodes a slice of values into the underlying buffer which are spaced out
-// including null values defined by the validBits bitmap starting at a given bit offset.
-// the values are first compressed by having the null slots removed before writing to the buffer
-func (enc *Plain{{.Name}}Encoder) PutSpaced(in []{{.name}}, validBits []byte, validBitsOffset int64) {
-  nbytes := {{.prefix}}.{{.Name}}Traits.BytesRequired(len(in))
-  enc.ReserveForWrite(nbytes)
-
-  if enc.bitSetReader == nil {
-    enc.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(in)))
-  } else {
-    enc.bitSetReader.Reset(validBits, validBitsOffset, int64(len(in)))
-  }
-
-  for {
-    run := enc.bitSetReader.NextRun()
-    if run.Length == 0 {
-      break
-    }
-    enc.Put(in[int(run.Pos):int(run.Pos+run.Length)])
-  }
-}
-
-// Type returns the underlying physical type this encoder is able to encode
-func (Plain{{.Name}}Encoder) Type() parquet.Type {
-  return parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}
-}
-
-// Plain{{.Name}}Decoder is a decoder specifically for decoding Plain Encoding data
-// of {{.name}} type.
-type Plain{{.Name}}Decoder struct {
-  decoder
-
-  bitSetReader bitutils.SetBitRunReader
-}
-
-// Type returns the physical type this decoder is able to decode for
-func (Plain{{.Name}}Decoder) Type() parquet.Type {
-  return parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}
-}
-
-// Decode populates the given slice with values from the data to be decoded,
-// decoding the min(len(out), remaining values).
-// It returns the number of values actually decoded and any error encountered.
-func (dec *Plain{{.Name}}Decoder) Decode(out []{{.name}}) (int, error) {
-  max := utils.Min(len(out), dec.nvals)
-  nbytes := int64(max) * int64({{.prefix}}.{{.Name}}SizeBytes)
-  if nbytes > int64(len(dec.data)) || nbytes > math.MaxInt32 {
-    return 0, fmt.Errorf("parquet: eof exception decode plain {{.Name}}, nvals: %d, nbytes: %d, datalen: %d", dec.nvals, nbytes, len(dec.data))
-  }
-
-  copyFrom{{.Name}}LE(out, dec.data[:nbytes])
-  dec.data = dec.data[nbytes:]
-  dec.nvals -= max
-  return max, nil
-}
-
-// DecodeSpaced is the same as decode, except it expands the data out to leave spaces for null values
-// as defined by the bitmap provided.
-func (dec *Plain{{.Name}}Decoder) DecodeSpaced(out []{{.name}}, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-  toread := len(out) - nullCount
-  values, err := dec.Decode(out[:toread])
-  if err != nil {
-    return 0, err
-  }
-  if values != toread {
-    return 0, xerrors.New("parquet: number of values / definition levels read did not match")
-  }
-
-  nvalues := len(out)
-  if nullCount == 0 {
-    return nvalues, nil
-  }
-
-  idxDecode := nvalues - nullCount
-  if dec.bitSetReader == nil {
-    dec.bitSetReader = bitutils.NewReverseSetBitRunReader(validBits, validBitsOffset, int64(nvalues))
-  } else {
-    dec.bitSetReader.Reset(validBits, validBitsOffset, int64(nvalues))
-  }
-
-  for {
-    run := dec.bitSetReader.NextRun()
-    if run.Length == 0 {
-      break
-    }
-
-    idxDecode -= int(run.Length)
-    copy(out[int(run.Pos):], out[idxDecode:idxDecode+int(run.Length)])
-  }
-  return nvalues, nil
-}
-{{end}}
-{{end}}
diff --git a/go/parquet/internal/encoding/typed_encoder.gen.go b/go/parquet/internal/encoding/typed_encoder.gen.go
deleted file mode 100644
index e67c976adc042..0000000000000
--- a/go/parquet/internal/encoding/typed_encoder.gen.go
+++ /dev/null
@@ -1,1735 +0,0 @@
-// Code generated by typed_encoder.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"fmt"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-// fully typed encoder interfaces to enable writing against encoder/decoders
-// without having to care about what encoding type is actually being used.
-
-var (
-	Int32EncoderTraits             int32EncoderTraits
-	Int32DecoderTraits             int32DecoderTraits
-	Int64EncoderTraits             int64EncoderTraits
-	Int64DecoderTraits             int64DecoderTraits
-	Int96EncoderTraits             int96EncoderTraits
-	Int96DecoderTraits             int96DecoderTraits
-	Float32EncoderTraits           float32EncoderTraits
-	Float32DecoderTraits           float32DecoderTraits
-	Float64EncoderTraits           float64EncoderTraits
-	Float64DecoderTraits           float64DecoderTraits
-	BooleanEncoderTraits           boolEncoderTraits
-	BooleanDecoderTraits           boolDecoderTraits
-	ByteArrayEncoderTraits         byteArrayEncoderTraits
-	ByteArrayDecoderTraits         byteArrayDecoderTraits
-	FixedLenByteArrayEncoderTraits fixedLenByteArrayEncoderTraits
-	FixedLenByteArrayDecoderTraits fixedLenByteArrayDecoderTraits
-)
-
-// Int32Encoder is the interface for all encoding types that implement encoding
-// int32 values.
-type Int32Encoder interface {
-	TypedEncoder
-	Put([]int32)
-	PutSpaced([]int32, []byte, int64)
-}
-
-// Int32Decoder is the interface for all encoding types that implement decoding
-// int32 values.
-type Int32Decoder interface {
-	TypedDecoder
-	Decode([]int32) (int, error)
-	DecodeSpaced([]int32, int, []byte, int64) (int, error)
-}
-
-// the int32EncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type int32EncoderTraits struct{}
-
-// Encoder returns an encoder for int32 type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (int32EncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictInt32Encoder{newDictEncoderBase(descr, NewInt32Dictionary(), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainInt32Encoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_DELTA_BINARY_PACKED:
-		return &DeltaBitPackInt32Encoder{
-			encoder: newEncoderBase(e, descr, mem),
-		}
-	case format.Encoding_BYTE_STREAM_SPLIT:
-		return &ByteStreamSplitInt32Encoder{PlainInt32Encoder: PlainInt32Encoder{encoder: newEncoderBase(e, descr, mem)}}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// int32DecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for int32 values
-type int32DecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n int32 values.
-func (int32DecoderTraits) BytesRequired(n int) int {
-	return arrow.Int32Traits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for int32 typed data of the requested encoding type if available
-func (int32DecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictInt32Decoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainInt32Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.DeltaBinaryPacked:
-		if mem == nil {
-			mem = memory.DefaultAllocator
-		}
-		return &DeltaBitPackInt32Decoder{
-			decoder: newDecoderBase(format.Encoding(e), descr),
-			mem:     mem,
-		}
-	case parquet.Encodings.ByteStreamSplit:
-		return &ByteStreamSplitInt32Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictInt32Encoder is an encoder for int32 data using dictionary encoding
-type DictInt32Encoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictInt32Encoder) Type() parquet.Type {
-	return parquet.Types.Int32
-}
-
-// WriteDict populates the byte slice with the dictionary index
-func (enc *DictInt32Encoder) WriteDict(out []byte) {
-	enc.memo.(NumericMemoTable).WriteOutLE(out)
-}
-
-// Put encodes the values passed in, adding to the index as needed.
-func (enc *DictInt32Encoder) Put(in []int32) {
-	for _, val := range in {
-		enc.dictEncoder.Put(val)
-	}
-}
-
-// PutSpaced is the same as Put but for when the data being encoded has slots open for
-// null values, using the bitmap provided to skip values as needed.
-func (enc *DictInt32Encoder) PutSpaced(in []int32, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		for i := int64(0); i < length; i++ {
-			enc.dictEncoder.Put(in[i+pos])
-		}
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictInt32Encoder) PutDictionary(values arrow.Array) error {
-	if err := enc.canPutDictionary(values); err != nil {
-		return err
-	}
-
-	enc.dictEncodedSize += values.Len() * arrow.Int32SizeBytes
-	data := values.(*array.Int32).Int32Values()
-	for _, v := range data {
-		if _, _, err := enc.memo.GetOrInsert(v); err != nil {
-			return err
-		}
-	}
-
-	values.Retain()
-	enc.preservedDict = values
-	return nil
-}
-
-// DictInt32Decoder is a decoder for decoding dictionary encoded data for int32 columns
-type DictInt32Decoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictInt32Decoder) Type() parquet.Type {
-	return parquet.Types.Int32
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictInt32Decoder) Decode(out []int32) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictInt32Decoder) DecodeSpaced(out []int32, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// Int32DictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type Int32DictConverter struct {
-	valueDecoder Int32Decoder
-	dict         []int32
-	zeroVal      int32
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *Int32DictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]int32, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *Int32DictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *Int32DictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]int32)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for int32
-func (dc *Int32DictConverter) FillZero(out interface{}) {
-	o := out.([]int32)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *Int32DictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]int32)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// Int64Encoder is the interface for all encoding types that implement encoding
-// int64 values.
-type Int64Encoder interface {
-	TypedEncoder
-	Put([]int64)
-	PutSpaced([]int64, []byte, int64)
-}
-
-// Int64Decoder is the interface for all encoding types that implement decoding
-// int64 values.
-type Int64Decoder interface {
-	TypedDecoder
-	Decode([]int64) (int, error)
-	DecodeSpaced([]int64, int, []byte, int64) (int, error)
-}
-
-// the int64EncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type int64EncoderTraits struct{}
-
-// Encoder returns an encoder for int64 type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (int64EncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictInt64Encoder{newDictEncoderBase(descr, NewInt64Dictionary(), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainInt64Encoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_DELTA_BINARY_PACKED:
-		return &DeltaBitPackInt64Encoder{
-			encoder: newEncoderBase(e, descr, mem),
-		}
-	case format.Encoding_BYTE_STREAM_SPLIT:
-		return &ByteStreamSplitInt64Encoder{PlainInt64Encoder: PlainInt64Encoder{encoder: newEncoderBase(e, descr, mem)}}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// int64DecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for int64 values
-type int64DecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n int64 values.
-func (int64DecoderTraits) BytesRequired(n int) int {
-	return arrow.Int64Traits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for int64 typed data of the requested encoding type if available
-func (int64DecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictInt64Decoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainInt64Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.DeltaBinaryPacked:
-		if mem == nil {
-			mem = memory.DefaultAllocator
-		}
-		return &DeltaBitPackInt64Decoder{
-			decoder: newDecoderBase(format.Encoding(e), descr),
-			mem:     mem,
-		}
-	case parquet.Encodings.ByteStreamSplit:
-		return &ByteStreamSplitInt64Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictInt64Encoder is an encoder for int64 data using dictionary encoding
-type DictInt64Encoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictInt64Encoder) Type() parquet.Type {
-	return parquet.Types.Int64
-}
-
-// WriteDict populates the byte slice with the dictionary index
-func (enc *DictInt64Encoder) WriteDict(out []byte) {
-	enc.memo.(NumericMemoTable).WriteOutLE(out)
-}
-
-// Put encodes the values passed in, adding to the index as needed.
-func (enc *DictInt64Encoder) Put(in []int64) {
-	for _, val := range in {
-		enc.dictEncoder.Put(val)
-	}
-}
-
-// PutSpaced is the same as Put but for when the data being encoded has slots open for
-// null values, using the bitmap provided to skip values as needed.
-func (enc *DictInt64Encoder) PutSpaced(in []int64, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		for i := int64(0); i < length; i++ {
-			enc.dictEncoder.Put(in[i+pos])
-		}
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictInt64Encoder) PutDictionary(values arrow.Array) error {
-	if err := enc.canPutDictionary(values); err != nil {
-		return err
-	}
-
-	enc.dictEncodedSize += values.Len() * arrow.Int64SizeBytes
-	data := values.(*array.Int64).Int64Values()
-	for _, v := range data {
-		if _, _, err := enc.memo.GetOrInsert(v); err != nil {
-			return err
-		}
-	}
-
-	values.Retain()
-	enc.preservedDict = values
-	return nil
-}
-
-// DictInt64Decoder is a decoder for decoding dictionary encoded data for int64 columns
-type DictInt64Decoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictInt64Decoder) Type() parquet.Type {
-	return parquet.Types.Int64
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictInt64Decoder) Decode(out []int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictInt64Decoder) DecodeSpaced(out []int64, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// Int64DictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type Int64DictConverter struct {
-	valueDecoder Int64Decoder
-	dict         []int64
-	zeroVal      int64
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *Int64DictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]int64, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *Int64DictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *Int64DictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]int64)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for int64
-func (dc *Int64DictConverter) FillZero(out interface{}) {
-	o := out.([]int64)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *Int64DictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]int64)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// Int96Encoder is the interface for all encoding types that implement encoding
-// parquet.Int96 values.
-type Int96Encoder interface {
-	TypedEncoder
-	Put([]parquet.Int96)
-	PutSpaced([]parquet.Int96, []byte, int64)
-}
-
-// Int96Decoder is the interface for all encoding types that implement decoding
-// parquet.Int96 values.
-type Int96Decoder interface {
-	TypedDecoder
-	Decode([]parquet.Int96) (int, error)
-	DecodeSpaced([]parquet.Int96, int, []byte, int64) (int, error)
-}
-
-// the int96EncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type int96EncoderTraits struct{}
-
-// Encoder returns an encoder for int96 type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (int96EncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictInt96Encoder{newDictEncoderBase(descr, NewBinaryDictionary(mem), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainInt96Encoder{encoder: newEncoderBase(e, descr, mem)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// int96DecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for int96 values
-type int96DecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n int96 values.
-func (int96DecoderTraits) BytesRequired(n int) int {
-	return parquet.Int96Traits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for int96 typed data of the requested encoding type if available
-func (int96DecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictInt96Decoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainInt96Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictInt96Encoder is an encoder for parquet.Int96 data using dictionary encoding
-type DictInt96Encoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictInt96Encoder) Type() parquet.Type {
-	return parquet.Types.Int96
-}
-
-// WriteDict populates the byte slice with the dictionary index
-func (enc *DictInt96Encoder) WriteDict(out []byte) {
-	enc.memo.(BinaryMemoTable).CopyFixedWidthValues(0, parquet.Int96SizeBytes, out)
-}
-
-// Put encodes the values passed in, adding to the index as needed
-func (enc *DictInt96Encoder) Put(in []parquet.Int96) {
-	for _, v := range in {
-		memoIdx, found, err := enc.memo.GetOrInsert(v)
-		if err != nil {
-			panic(err)
-		}
-		if !found {
-			enc.dictEncodedSize += parquet.Int96SizeBytes
-		}
-		enc.addIndex(memoIdx)
-	}
-}
-
-// PutSpaced is like Put but assumes space for nulls
-func (enc *DictInt96Encoder) PutSpaced(in []parquet.Int96, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		enc.Put(in[pos : pos+length])
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictInt96Encoder) PutDictionary(arrow.Array) error {
-	return fmt.Errorf("%w: direct PutDictionary to Int96", arrow.ErrNotImplemented)
-}
-
-// DictInt96Decoder is a decoder for decoding dictionary encoded data for parquet.Int96 columns
-type DictInt96Decoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictInt96Decoder) Type() parquet.Type {
-	return parquet.Types.Int96
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictInt96Decoder) Decode(out []parquet.Int96) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictInt96Decoder) DecodeSpaced(out []parquet.Int96, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// Int96DictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type Int96DictConverter struct {
-	valueDecoder Int96Decoder
-	dict         []parquet.Int96
-	zeroVal      parquet.Int96
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *Int96DictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]parquet.Int96, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *Int96DictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *Int96DictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]parquet.Int96)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for parquet.Int96
-func (dc *Int96DictConverter) FillZero(out interface{}) {
-	o := out.([]parquet.Int96)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *Int96DictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]parquet.Int96)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// Float32Encoder is the interface for all encoding types that implement encoding
-// float32 values.
-type Float32Encoder interface {
-	TypedEncoder
-	Put([]float32)
-	PutSpaced([]float32, []byte, int64)
-}
-
-// Float32Decoder is the interface for all encoding types that implement decoding
-// float32 values.
-type Float32Decoder interface {
-	TypedDecoder
-	Decode([]float32) (int, error)
-	DecodeSpaced([]float32, int, []byte, int64) (int, error)
-}
-
-// the float32EncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type float32EncoderTraits struct{}
-
-// Encoder returns an encoder for float32 type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (float32EncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictFloat32Encoder{newDictEncoderBase(descr, NewFloat32Dictionary(), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainFloat32Encoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_BYTE_STREAM_SPLIT:
-		return &ByteStreamSplitFloat32Encoder{PlainFloat32Encoder: PlainFloat32Encoder{encoder: newEncoderBase(e, descr, mem)}}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// float32DecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for float32 values
-type float32DecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n float32 values.
-func (float32DecoderTraits) BytesRequired(n int) int {
-	return arrow.Float32Traits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for float32 typed data of the requested encoding type if available
-func (float32DecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictFloat32Decoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainFloat32Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.ByteStreamSplit:
-		return &ByteStreamSplitFloat32Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictFloat32Encoder is an encoder for float32 data using dictionary encoding
-type DictFloat32Encoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictFloat32Encoder) Type() parquet.Type {
-	return parquet.Types.Float
-}
-
-// WriteDict populates the byte slice with the dictionary index
-func (enc *DictFloat32Encoder) WriteDict(out []byte) {
-	enc.memo.(NumericMemoTable).WriteOutLE(out)
-}
-
-// Put encodes the values passed in, adding to the index as needed.
-func (enc *DictFloat32Encoder) Put(in []float32) {
-	for _, val := range in {
-		enc.dictEncoder.Put(val)
-	}
-}
-
-// PutSpaced is the same as Put but for when the data being encoded has slots open for
-// null values, using the bitmap provided to skip values as needed.
-func (enc *DictFloat32Encoder) PutSpaced(in []float32, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		for i := int64(0); i < length; i++ {
-			enc.dictEncoder.Put(in[i+pos])
-		}
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictFloat32Encoder) PutDictionary(values arrow.Array) error {
-	if err := enc.canPutDictionary(values); err != nil {
-		return err
-	}
-
-	enc.dictEncodedSize += values.Len() * arrow.Float32SizeBytes
-	data := values.(*array.Float32).Float32Values()
-	for _, v := range data {
-		if _, _, err := enc.memo.GetOrInsert(v); err != nil {
-			return err
-		}
-	}
-
-	values.Retain()
-	enc.preservedDict = values
-	return nil
-}
-
-// DictFloat32Decoder is a decoder for decoding dictionary encoded data for float32 columns
-type DictFloat32Decoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictFloat32Decoder) Type() parquet.Type {
-	return parquet.Types.Float
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictFloat32Decoder) Decode(out []float32) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictFloat32Decoder) DecodeSpaced(out []float32, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// Float32DictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type Float32DictConverter struct {
-	valueDecoder Float32Decoder
-	dict         []float32
-	zeroVal      float32
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *Float32DictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]float32, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *Float32DictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *Float32DictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]float32)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for float32
-func (dc *Float32DictConverter) FillZero(out interface{}) {
-	o := out.([]float32)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *Float32DictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]float32)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// Float64Encoder is the interface for all encoding types that implement encoding
-// float64 values.
-type Float64Encoder interface {
-	TypedEncoder
-	Put([]float64)
-	PutSpaced([]float64, []byte, int64)
-}
-
-// Float64Decoder is the interface for all encoding types that implement decoding
-// float64 values.
-type Float64Decoder interface {
-	TypedDecoder
-	Decode([]float64) (int, error)
-	DecodeSpaced([]float64, int, []byte, int64) (int, error)
-}
-
-// the float64EncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type float64EncoderTraits struct{}
-
-// Encoder returns an encoder for float64 type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (float64EncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictFloat64Encoder{newDictEncoderBase(descr, NewFloat64Dictionary(), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainFloat64Encoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_BYTE_STREAM_SPLIT:
-		return &ByteStreamSplitFloat64Encoder{PlainFloat64Encoder: PlainFloat64Encoder{encoder: newEncoderBase(e, descr, mem)}}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// float64DecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for float64 values
-type float64DecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n float64 values.
-func (float64DecoderTraits) BytesRequired(n int) int {
-	return arrow.Float64Traits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for float64 typed data of the requested encoding type if available
-func (float64DecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictFloat64Decoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainFloat64Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.ByteStreamSplit:
-		return &ByteStreamSplitFloat64Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictFloat64Encoder is an encoder for float64 data using dictionary encoding
-type DictFloat64Encoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictFloat64Encoder) Type() parquet.Type {
-	return parquet.Types.Double
-}
-
-// WriteDict populates the byte slice with the dictionary index
-func (enc *DictFloat64Encoder) WriteDict(out []byte) {
-	enc.memo.(NumericMemoTable).WriteOutLE(out)
-}
-
-// Put encodes the values passed in, adding to the index as needed.
-func (enc *DictFloat64Encoder) Put(in []float64) {
-	for _, val := range in {
-		enc.dictEncoder.Put(val)
-	}
-}
-
-// PutSpaced is the same as Put but for when the data being encoded has slots open for
-// null values, using the bitmap provided to skip values as needed.
-func (enc *DictFloat64Encoder) PutSpaced(in []float64, validBits []byte, validBitsOffset int64) {
-	bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-		for i := int64(0); i < length; i++ {
-			enc.dictEncoder.Put(in[i+pos])
-		}
-		return nil
-	})
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictFloat64Encoder) PutDictionary(values arrow.Array) error {
-	if err := enc.canPutDictionary(values); err != nil {
-		return err
-	}
-
-	enc.dictEncodedSize += values.Len() * arrow.Float64SizeBytes
-	data := values.(*array.Float64).Float64Values()
-	for _, v := range data {
-		if _, _, err := enc.memo.GetOrInsert(v); err != nil {
-			return err
-		}
-	}
-
-	values.Retain()
-	enc.preservedDict = values
-	return nil
-}
-
-// DictFloat64Decoder is a decoder for decoding dictionary encoded data for float64 columns
-type DictFloat64Decoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictFloat64Decoder) Type() parquet.Type {
-	return parquet.Types.Double
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictFloat64Decoder) Decode(out []float64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictFloat64Decoder) DecodeSpaced(out []float64, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// Float64DictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type Float64DictConverter struct {
-	valueDecoder Float64Decoder
-	dict         []float64
-	zeroVal      float64
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *Float64DictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]float64, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *Float64DictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *Float64DictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]float64)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for float64
-func (dc *Float64DictConverter) FillZero(out interface{}) {
-	o := out.([]float64)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *Float64DictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]float64)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// BooleanEncoder is the interface for all encoding types that implement encoding
-// bool values.
-type BooleanEncoder interface {
-	TypedEncoder
-	Put([]bool)
-	PutSpaced([]bool, []byte, int64)
-}
-
-// BooleanDecoder is the interface for all encoding types that implement decoding
-// bool values.
-type BooleanDecoder interface {
-	TypedDecoder
-	Decode([]bool) (int, error)
-	DecodeSpaced([]bool, int, []byte, int64) (int, error)
-}
-
-// the boolEncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type boolEncoderTraits struct{}
-
-// Encoder returns an encoder for bool type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-// dictionary encoding does not exist for this type and Encoder will panic if useDict is true
-func (boolEncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		panic("parquet: no bool dictionary encoding")
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainBooleanEncoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_RLE:
-		return &RleBooleanEncoder{encoder: newEncoderBase(e, descr, mem)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// boolDecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for bool values
-type boolDecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n bool values.
-func (boolDecoderTraits) BytesRequired(n int) int {
-	return arrow.BooleanTraits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for bool typed data of the requested encoding type if available
-func (boolDecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		panic("dictionary decoding unimplemented for bool")
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainBooleanDecoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.RLE:
-		return &RleBooleanDecoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// ByteArrayEncoder is the interface for all encoding types that implement encoding
-// parquet.ByteArray values.
-type ByteArrayEncoder interface {
-	TypedEncoder
-	Put([]parquet.ByteArray)
-	PutSpaced([]parquet.ByteArray, []byte, int64)
-}
-
-// ByteArrayDecoder is the interface for all encoding types that implement decoding
-// parquet.ByteArray values.
-type ByteArrayDecoder interface {
-	TypedDecoder
-	Decode([]parquet.ByteArray) (int, error)
-	DecodeSpaced([]parquet.ByteArray, int, []byte, int64) (int, error)
-}
-
-// the byteArrayEncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type byteArrayEncoderTraits struct{}
-
-// Encoder returns an encoder for byteArray type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (byteArrayEncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictByteArrayEncoder{newDictEncoderBase(descr, NewBinaryDictionary(mem), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainByteArrayEncoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_DELTA_LENGTH_BYTE_ARRAY:
-		return &DeltaLengthByteArrayEncoder{
-			encoder: newEncoderBase(e, descr, mem),
-			lengthEncoder: &DeltaBitPackInt32Encoder{
-				encoder: newEncoderBase(e, descr, mem),
-			},
-		}
-	case format.Encoding_DELTA_BYTE_ARRAY:
-		return &DeltaByteArrayEncoder{
-			encoder: newEncoderBase(e, descr, mem),
-		}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// byteArrayDecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for byteArray values
-type byteArrayDecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n byteArray values.
-func (byteArrayDecoderTraits) BytesRequired(n int) int {
-	return parquet.ByteArrayTraits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for byteArray typed data of the requested encoding type if available
-func (byteArrayDecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictByteArrayDecoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainByteArrayDecoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.DeltaLengthByteArray:
-		if mem == nil {
-			mem = memory.DefaultAllocator
-		}
-		return &DeltaLengthByteArrayDecoder{
-			decoder: newDecoderBase(format.Encoding(e), descr),
-			mem:     mem,
-		}
-	case parquet.Encodings.DeltaByteArray:
-		if mem == nil {
-			mem = memory.DefaultAllocator
-		}
-		return &DeltaByteArrayDecoder{
-			DeltaLengthByteArrayDecoder: &DeltaLengthByteArrayDecoder{
-				decoder: newDecoderBase(format.Encoding(e), descr),
-				mem:     mem,
-			}}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictByteArrayEncoder is an encoder for parquet.ByteArray data using dictionary encoding
-type DictByteArrayEncoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictByteArrayEncoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-// DictByteArrayDecoder is a decoder for decoding dictionary encoded data for parquet.ByteArray columns
-type DictByteArrayDecoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.ByteArray
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictByteArrayDecoder) Decode(out []parquet.ByteArray) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictByteArrayDecoder) DecodeSpaced(out []parquet.ByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// ByteArrayDictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type ByteArrayDictConverter struct {
-	valueDecoder ByteArrayDecoder
-	dict         []parquet.ByteArray
-	zeroVal      parquet.ByteArray
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *ByteArrayDictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]parquet.ByteArray, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *ByteArrayDictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *ByteArrayDictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]parquet.ByteArray)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for parquet.ByteArray
-func (dc *ByteArrayDictConverter) FillZero(out interface{}) {
-	o := out.([]parquet.ByteArray)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *ByteArrayDictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]parquet.ByteArray)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// FixedLenByteArrayEncoder is the interface for all encoding types that implement encoding
-// parquet.FixedLenByteArray values.
-type FixedLenByteArrayEncoder interface {
-	TypedEncoder
-	Put([]parquet.FixedLenByteArray)
-	PutSpaced([]parquet.FixedLenByteArray, []byte, int64)
-}
-
-// FixedLenByteArrayDecoder is the interface for all encoding types that implement decoding
-// parquet.FixedLenByteArray values.
-type FixedLenByteArrayDecoder interface {
-	TypedDecoder
-	Decode([]parquet.FixedLenByteArray) (int, error)
-	DecodeSpaced([]parquet.FixedLenByteArray, int, []byte, int64) (int, error)
-}
-
-// the fixedLenByteArrayEncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type fixedLenByteArrayEncoderTraits struct{}
-
-// Encoder returns an encoder for fixedLenByteArray type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-func (fixedLenByteArrayEncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-	if useDict {
-		return &DictFixedLenByteArrayEncoder{newDictEncoderBase(descr, NewBinaryDictionary(mem), mem)}
-	}
-
-	switch e {
-	case format.Encoding_PLAIN:
-		return &PlainFixedLenByteArrayEncoder{encoder: newEncoderBase(e, descr, mem)}
-	case format.Encoding_BYTE_STREAM_SPLIT:
-		return &ByteStreamSplitFixedLenByteArrayEncoder{PlainFixedLenByteArrayEncoder: PlainFixedLenByteArrayEncoder{encoder: newEncoderBase(e, descr, mem)}}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// fixedLenByteArrayDecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for fixedLenByteArray values
-type fixedLenByteArrayDecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n fixedLenByteArray values.
-func (fixedLenByteArrayDecoderTraits) BytesRequired(n int) int {
-	return parquet.FixedLenByteArrayTraits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for fixedLenByteArray typed data of the requested encoding type if available
-func (fixedLenByteArrayDecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-	if useDict {
-		return &DictFixedLenByteArrayDecoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-	}
-
-	switch e {
-	case parquet.Encodings.Plain:
-		return &PlainFixedLenByteArrayDecoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	case parquet.Encodings.ByteStreamSplit:
-		return &ByteStreamSplitFixedLenByteArrayDecoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-	default:
-		panic("unimplemented encoding type")
-	}
-}
-
-// DictFixedLenByteArrayEncoder is an encoder for parquet.FixedLenByteArray data using dictionary encoding
-type DictFixedLenByteArrayEncoder struct {
-	dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *DictFixedLenByteArrayEncoder) Type() parquet.Type {
-	return parquet.Types.FixedLenByteArray
-}
-
-// DictFixedLenByteArrayDecoder is a decoder for decoding dictionary encoded data for parquet.FixedLenByteArray columns
-type DictFixedLenByteArrayDecoder struct {
-	dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (DictFixedLenByteArrayDecoder) Type() parquet.Type {
-	return parquet.Types.FixedLenByteArray
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *DictFixedLenByteArrayDecoder) Decode(out []parquet.FixedLenByteArray) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decode(out[:vals])
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict eof exception")
-	}
-	return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *DictFixedLenByteArrayDecoder) DecodeSpaced(out []parquet.FixedLenByteArray, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	vals := shared_utils.Min(len(out), d.nvals)
-	decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-	if err != nil {
-		return decoded, err
-	}
-	if vals != decoded {
-		return decoded, xerrors.New("parquet: dict spaced eof exception")
-	}
-	return vals, nil
-}
-
-// FixedLenByteArrayDictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type FixedLenByteArrayDictConverter struct {
-	valueDecoder FixedLenByteArrayDecoder
-	dict         []parquet.FixedLenByteArray
-	zeroVal      parquet.FixedLenByteArray
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *FixedLenByteArrayDictConverter) ensure(idx utils.IndexType) error {
-	if len(dc.dict) <= int(idx) {
-		if cap(dc.dict) <= int(idx) {
-			val := make([]parquet.FixedLenByteArray, int(idx+1)-len(dc.dict))
-			n, err := dc.valueDecoder.Decode(val)
-			if err != nil {
-				return err
-			}
-			dc.dict = append(dc.dict, val[:n]...)
-		} else {
-			cur := len(dc.dict)
-			n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-			if err != nil {
-				return err
-			}
-			dc.dict = dc.dict[:cur+n]
-		}
-	}
-	return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *FixedLenByteArrayDictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-	dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *FixedLenByteArrayDictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]parquet.FixedLenByteArray)
-	if err := dc.ensure(val); err != nil {
-		return err
-	}
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-	return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for parquet.FixedLenByteArray
-func (dc *FixedLenByteArrayDictConverter) FillZero(out interface{}) {
-	o := out.([]parquet.FixedLenByteArray)
-	o[0] = dc.zeroVal
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *FixedLenByteArrayDictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]parquet.FixedLenByteArray)
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-	return nil
-}
-
-// NewDictConverter creates a dict converter of the appropriate type, using the passed in
-// decoder as the decoder to decode the dictionary index.
-func NewDictConverter(dict TypedDecoder) utils.DictionaryConverter {
-	switch dict.Type() {
-	case parquet.Types.Int32:
-		return &Int32DictConverter{valueDecoder: dict.(Int32Decoder), dict: make([]int32, 0, dict.ValuesLeft())}
-	case parquet.Types.Int64:
-		return &Int64DictConverter{valueDecoder: dict.(Int64Decoder), dict: make([]int64, 0, dict.ValuesLeft())}
-	case parquet.Types.Int96:
-		return &Int96DictConverter{valueDecoder: dict.(Int96Decoder), dict: make([]parquet.Int96, 0, dict.ValuesLeft())}
-	case parquet.Types.Float:
-		return &Float32DictConverter{valueDecoder: dict.(Float32Decoder), dict: make([]float32, 0, dict.ValuesLeft())}
-	case parquet.Types.Double:
-		return &Float64DictConverter{valueDecoder: dict.(Float64Decoder), dict: make([]float64, 0, dict.ValuesLeft())}
-	case parquet.Types.ByteArray:
-		return &ByteArrayDictConverter{valueDecoder: dict.(ByteArrayDecoder), dict: make([]parquet.ByteArray, 0, dict.ValuesLeft())}
-	case parquet.Types.FixedLenByteArray:
-		return &FixedLenByteArrayDictConverter{valueDecoder: dict.(FixedLenByteArrayDecoder), dict: make([]parquet.FixedLenByteArray, 0, dict.ValuesLeft())}
-	default:
-		return nil
-	}
-}
-
-// helper function to get encoding traits object for the physical type indicated
-func getEncodingTraits(t parquet.Type) EncoderTraits {
-	switch t {
-	case parquet.Types.Int32:
-		return Int32EncoderTraits
-	case parquet.Types.Int64:
-		return Int64EncoderTraits
-	case parquet.Types.Int96:
-		return Int96EncoderTraits
-	case parquet.Types.Float:
-		return Float32EncoderTraits
-	case parquet.Types.Double:
-		return Float64EncoderTraits
-	case parquet.Types.Boolean:
-		return BooleanEncoderTraits
-	case parquet.Types.ByteArray:
-		return ByteArrayEncoderTraits
-	case parquet.Types.FixedLenByteArray:
-		return FixedLenByteArrayEncoderTraits
-	default:
-		return nil
-	}
-}
-
-// helper function to get decoding traits object for the physical type indicated
-func getDecodingTraits(t parquet.Type) DecoderTraits {
-	switch t {
-	case parquet.Types.Int32:
-		return Int32DecoderTraits
-	case parquet.Types.Int64:
-		return Int64DecoderTraits
-	case parquet.Types.Int96:
-		return Int96DecoderTraits
-	case parquet.Types.Float:
-		return Float32DecoderTraits
-	case parquet.Types.Double:
-		return Float64DecoderTraits
-	case parquet.Types.Boolean:
-		return BooleanDecoderTraits
-	case parquet.Types.ByteArray:
-		return ByteArrayDecoderTraits
-	case parquet.Types.FixedLenByteArray:
-		return FixedLenByteArrayDecoderTraits
-	default:
-		return nil
-	}
-}
diff --git a/go/parquet/internal/encoding/typed_encoder.gen.go.tmpl b/go/parquet/internal/encoding/typed_encoder.gen.go.tmpl
deleted file mode 100644
index 601d90712baa6..0000000000000
--- a/go/parquet/internal/encoding/typed_encoder.gen.go.tmpl
+++ /dev/null
@@ -1,419 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-  "github.com/apache/arrow/go/v18/parquet"
-  "github.com/apache/arrow/go/v18/parquet/schema"
-  format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-  "github.com/apache/arrow/go/v18/arrow"
-  "github.com/apache/arrow/go/v18/parquet/internal/utils"
-  shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-  "github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-// fully typed encoder interfaces to enable writing against encoder/decoders
-// without having to care about what encoding type is actually being used.
-
-var (
-{{range .In}}
-  {{.Name}}EncoderTraits {{.lower}}EncoderTraits
-  {{.Name}}DecoderTraits {{.lower}}DecoderTraits
-{{- end}}
-)
-
-{{range .In}}
-// {{.Name}}Encoder is the interface for all encoding types that implement encoding
-// {{.name}} values.
-type {{.Name}}Encoder interface {
-  TypedEncoder
-  Put([]{{.name}})
-  PutSpaced([]{{.name}}, []byte, int64)
-}
-
-// {{.Name}}Decoder is the interface for all encoding types that implement decoding
-// {{.name}} values.
-type {{.Name}}Decoder interface {
-  TypedDecoder
-  Decode([]{{.name}}) (int, error)
-  DecodeSpaced([]{{.name}}, int, []byte, int64) (int, error)
-}
-
-// the {{.lower}}EncoderTraits struct is used to make it easy to create encoders and decoders based on type
-type {{.lower}}EncoderTraits struct{}
-
-// Encoder returns an encoder for {{.lower}} type data, using the specified encoding type and whether or not
-// it should be dictionary encoded.
-{{- if or (eq .Name "Boolean") }}
-// dictionary encoding does not exist for this type and Encoder will panic if useDict is true
-{{- end }}
-func ({{.lower}}EncoderTraits) Encoder(e format.Encoding, useDict bool, descr *schema.Column, mem memory.Allocator) TypedEncoder {
-  if useDict {
-{{- if or (eq .Name "Boolean") }}
-    panic("parquet: no {{.name}} dictionary encoding")
-{{- else}}
-    return &Dict{{.Name}}Encoder{newDictEncoderBase(descr, New{{if and (ne .Name "Int96") (ne .Name "ByteArray") (ne .Name "FixedLenByteArray")}}{{.Name}}Dictionary(){{else}}BinaryDictionary(mem){{end}}, mem)}
-{{- end}}
-  }
-
-  switch e {
-  case format.Encoding_PLAIN:
-    return &Plain{{.Name}}Encoder{encoder: newEncoderBase(e, descr, mem)}
-{{- if eq .Name "Boolean" }}
-  case format.Encoding_RLE:
-    return &RleBooleanEncoder{encoder: newEncoderBase(e, descr, mem)}
-{{- end}}
-{{- if or (eq .Name "Int32") (eq .Name "Int64")}}
-  case format.Encoding_DELTA_BINARY_PACKED:
-    return &DeltaBitPack{{.Name}}Encoder{
-      encoder: newEncoderBase(e, descr, mem),
-    }
-{{- end}}
-{{- if eq .Name "ByteArray"}}
-  case format.Encoding_DELTA_LENGTH_BYTE_ARRAY:
-    return &DeltaLengthByteArrayEncoder{
-      encoder: newEncoderBase(e, descr, mem),
-      lengthEncoder: &DeltaBitPackInt32Encoder{
-        encoder: newEncoderBase(e, descr, mem),
-      },
-    }
-  case format.Encoding_DELTA_BYTE_ARRAY:
-    return &DeltaByteArrayEncoder{
-      encoder: newEncoderBase(e, descr, mem),
-    }
-{{- end}}
-{{- if or (eq .Name "FixedLenByteArray") (eq .Name "Float32") (eq .Name "Float64") (eq .Name "Int32") (eq .Name "Int64")}}
-  case format.Encoding_BYTE_STREAM_SPLIT:
-    return &ByteStreamSplit{{.Name}}Encoder{Plain{{.Name}}Encoder: Plain{{.Name}}Encoder{encoder: newEncoderBase(e,descr,mem)}}
-{{- end}}
-  default:
-    panic("unimplemented encoding type")
-  }
-}
-
-// {{.lower}}DecoderTraits is a helper struct for providing information regardless of the type
-// and used as a generic way to create a Decoder or Dictionary Decoder for {{.lower}} values
-type {{.lower}}DecoderTraits struct{}
-
-// BytesRequired returns the number of bytes required to store n {{.lower}} values.
-func ({{.lower}}DecoderTraits) BytesRequired(n int) int {
-  return {{.prefix}}.{{.Name}}Traits.BytesRequired(n)
-}
-
-// Decoder returns a decoder for {{.lower}} typed data of the requested encoding type if available
-func ({{.lower}}DecoderTraits) Decoder(e parquet.Encoding, descr *schema.Column, useDict bool, mem memory.Allocator) TypedDecoder {
-  if useDict {
-{{- if and (ne .Name "Boolean") }}
-    return &Dict{{.Name}}Decoder{dictDecoder{decoder: newDecoderBase(format.Encoding_RLE_DICTIONARY, descr), mem: mem}}
-{{- else}}
-    panic("dictionary decoding unimplemented for {{.lower}}")
-{{- end}}
-  }
-
-  switch e {
-  case parquet.Encodings.Plain:
-    return &Plain{{.Name}}Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-{{- if eq .Name "Boolean" }}
-  case parquet.Encodings.RLE:
-    return &RleBooleanDecoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-{{- end}}
-{{- if or (eq .Name "Int32") (eq .Name "Int64")}}
-  case parquet.Encodings.DeltaBinaryPacked:
-    if mem == nil {
-      mem = memory.DefaultAllocator
-    }
-    return &DeltaBitPack{{.Name}}Decoder{
-      decoder: newDecoderBase(format.Encoding(e), descr),
-      mem:     mem,
-    }
-{{- end}}
-{{- if eq .Name "ByteArray"}}
-  case parquet.Encodings.DeltaLengthByteArray:
-    if mem == nil {
-      mem = memory.DefaultAllocator
-    }
-    return &DeltaLengthByteArrayDecoder{
-      decoder: newDecoderBase(format.Encoding(e), descr),
-      mem: mem,
-    }
-  case parquet.Encodings.DeltaByteArray:
-    if mem == nil {
-      mem = memory.DefaultAllocator
-    }
-    return &DeltaByteArrayDecoder{
-      DeltaLengthByteArrayDecoder: &DeltaLengthByteArrayDecoder{
-        decoder: newDecoderBase(format.Encoding(e), descr),
-        mem: mem,
-      }}
-{{- end}}
-{{- if or (eq .Name "FixedLenByteArray") (eq .Name "Float32") (eq .Name "Float64") (eq .Name "Int32") (eq .Name "Int64")}}
-  case parquet.Encodings.ByteStreamSplit:
-    return &ByteStreamSplit{{.Name}}Decoder{decoder: newDecoderBase(format.Encoding(e), descr)}
-{{- end}}
-  default:
-    panic("unimplemented encoding type")
-  }
-}
-
-{{if and (ne .Name "Boolean") }}
-// Dict{{.Name}}Encoder is an encoder for {{.name}} data using dictionary encoding
-type Dict{{.Name}}Encoder struct {
-  dictEncoder
-}
-
-// Type returns the underlying physical type that can be encoded with this encoder
-func (enc *Dict{{.Name}}Encoder) Type() parquet.Type {
-  return parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}
-}
-
-{{if and (ne .Name "ByteArray") (ne .Name "FixedLenByteArray")}}
-{{if (ne .Name "Int96")}}
-// WriteDict populates the byte slice with the dictionary index
-func (enc *Dict{{.Name}}Encoder) WriteDict(out []byte) {
-  enc.memo.(NumericMemoTable).WriteOutLE(out)
-}
-
-// Put encodes the values passed in, adding to the index as needed.
-func (enc *Dict{{.Name}}Encoder) Put(in []{{.name}}) {
-  for _, val := range in {
-    enc.dictEncoder.Put(val)
-  }
-}
-
-// PutSpaced is the same as Put but for when the data being encoded has slots open for
-// null values, using the bitmap provided to skip values as needed.
-func (enc *Dict{{.Name}}Encoder) PutSpaced(in []{{.name}}, validBits []byte, validBitsOffset int64) {
-  bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-    for i := int64(0); i < length; i++ {
-      enc.dictEncoder.Put(in[i+pos])
-    }
-    return nil
-  })
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *Dict{{.Name}}Encoder) PutDictionary(values arrow.Array) error {
-  if err := enc.canPutDictionary(values); err != nil {
-    return err
-  }
-
-  enc.dictEncodedSize += values.Len() * arrow.{{.Name}}SizeBytes
-  data := values.(*array.{{.Name}}).{{.Name}}Values()
-  for _, v := range data {
-    if _, _, err := enc.memo.GetOrInsert(v); err != nil {
-      return err
-    }
-  }
-
-  values.Retain()
-  enc.preservedDict = values
-  return nil
-}
-{{else}}
-// WriteDict populates the byte slice with the dictionary index
-func (enc *DictInt96Encoder) WriteDict(out []byte) {
-  enc.memo.(BinaryMemoTable).CopyFixedWidthValues(0, parquet.Int96SizeBytes, out)
-}
-
-// Put encodes the values passed in, adding to the index as needed
-func (enc *DictInt96Encoder) Put(in []parquet.Int96) {
-  for _, v := range in {
-    memoIdx, found, err := enc.memo.GetOrInsert(v)
-    if err != nil {
-      panic(err)
-    }
-    if !found {
-      enc.dictEncodedSize += parquet.Int96SizeBytes
-    }
-    enc.addIndex(memoIdx)
-  }
-}
-
-// PutSpaced is like Put but assumes space for nulls
-func (enc *DictInt96Encoder) PutSpaced(in []parquet.Int96, validBits []byte, validBitsOffset int64) {
-  bitutils.VisitSetBitRuns(validBits, validBitsOffset, int64(len(in)), func(pos, length int64) error {
-    enc.Put(in[pos : pos+length])
-    return nil
-  })
-}
-
-// PutDictionary allows pre-seeding a dictionary encoder with
-// a dictionary from an Arrow Array.
-//
-// The passed in array must not have any nulls and this can only
-// be called on an empty encoder.
-func (enc *DictInt96Encoder) PutDictionary(arrow.Array) error {
-  return fmt.Errorf("%w: direct PutDictionary to Int96", arrow.ErrNotImplemented)
-}
-{{end}}
-{{end}}
-
-// Dict{{.Name}}Decoder is a decoder for decoding dictionary encoded data for {{.name}} columns
-type Dict{{.Name}}Decoder struct {
-  dictDecoder
-}
-
-// Type returns the underlying physical type that can be decoded with this decoder
-func (Dict{{.Name}}Decoder) Type() parquet.Type {
-  return parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}
-}
-
-// Decode populates the passed in slice with min(len(out), remaining values) values,
-// decoding using the dictionary to get the actual values. Returns the number of values
-// actually decoded and any error encountered.
-func (d *Dict{{.Name}}Decoder) Decode(out []{{.name}}) (int, error) {
-  vals := shared_utils.Min(len(out), d.nvals)
-  decoded, err := d.decode(out[:vals])
-  if err != nil {
-    return decoded, err
-  }
-  if vals != decoded {
-    return decoded, xerrors.New("parquet: dict eof exception")
-  }  
-  return vals, nil
-}
-
-// Decode spaced is like Decode but will space out the data leaving slots for null values
-// based on the provided bitmap.
-func (d *Dict{{.Name}}Decoder) DecodeSpaced(out []{{.name}}, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-  vals := shared_utils.Min(len(out), d.nvals)
-  decoded, err := d.decodeSpaced(out[:vals], nullCount, validBits, validBitsOffset)
-  if err != nil {
-    return decoded, err
-  }
-  if vals != decoded {
-    return decoded, xerrors.New("parquet: dict spaced eof exception")
-  }  
-  return vals, nil
-}
-
-// {{.Name}}DictConverter is a helper for dictionary handling which is used for converting
-// run length encoded indexes into the actual values that are stored in the dictionary index page.
-type {{.Name}}DictConverter struct {
-  valueDecoder {{.Name}}Decoder
-  dict []{{.name}}
-  zeroVal {{.name}}
-}
-
-// ensure validates that we've decoded dictionary values up to the index
-// provided so that we don't need to decode the entire dictionary at start.
-func (dc *{{.Name}}DictConverter) ensure(idx utils.IndexType) error {
-  if len(dc.dict) <= int(idx) {
-    if cap(dc.dict) <= int(idx) {
-      val := make([]{{.name}}, int(idx+1)-len(dc.dict))
-      n, err := dc.valueDecoder.Decode(val)
-      if err != nil {
-        return err
-      }
-      dc.dict = append(dc.dict, val[:n]...)
-    } else {
-      cur := len(dc.dict)
-      n, err := dc.valueDecoder.Decode(dc.dict[cur : idx+1])
-      if err != nil {
-        return err
-      }
-      dc.dict = dc.dict[:cur+n]
-    }
-  }
-  return nil
-}
-
-// IsValid verifies that the set of indexes passed in are all valid indexes
-// in the dictionary and if necessary decodes dictionary indexes up to the index
-// requested.
-func (dc *{{.Name}}DictConverter) IsValid(idxes ...utils.IndexType) bool {
-	min, max := shared_utils.GetMinMaxInt32(*(*[]int32)(unsafe.Pointer(&idxes)))
-  dc.ensure(utils.IndexType(max))
-
-	return min >= 0 && int(min) < len(dc.dict) && int(max) >= 0 && int(max) < len(dc.dict)
-}
-
-// Fill populates the slice passed in entirely with the value at dictionary index indicated by val
-func (dc *{{.Name}}DictConverter) Fill(out interface{}, val utils.IndexType) error {
-	o := out.([]{{.name}})
-	if err := dc.ensure(val); err != nil {
-    return err
-  }
-	o[0] = dc.dict[val]
-	for i := 1; i < len(o); i *= 2 {
-		copy(o[i:], o[:i])
-	}
-  return nil
-}
-
-// FillZero populates the entire slice of out with the zero value for {{.name}}
-func (dc *{{.Name}}DictConverter) FillZero(out interface{}) {
-  o := out.([]{{.name}})
-  o[0] = dc.zeroVal
-  for i := 1; i < len(o); i *= 2 {
-    copy(o[i:], o[:i])
-  }
-}
-
-// Copy populates the slice provided with the values in the dictionary at the indexes
-// in the vals slice.
-func (dc *{{.Name}}DictConverter) Copy(out interface{}, vals []utils.IndexType) error {
-	o := out.([]{{.name}})
-	for idx, val := range vals {
-		o[idx] = dc.dict[val]
-	}
-  return nil
-}
-{{end}}
-
-{{end}}
-
-// NewDictConverter creates a dict converter of the appropriate type, using the passed in
-// decoder as the decoder to decode the dictionary index.
-func NewDictConverter(dict TypedDecoder) utils.DictionaryConverter {
-  switch dict.Type() {
-  {{ range .In }}{{ if and (ne .Name "Boolean") -}}
-  case parquet.Types.{{if .physical }}{{.physical}}{{else}}{{.Name}}{{end}}:
-    return &{{.Name}}DictConverter{valueDecoder: dict.({{.Name}}Decoder), dict: make([]{{.name}}, 0, dict.ValuesLeft())}
-  {{ end }}{{ end -}}
-  default:
-    return nil
-  }
-}
-
-// helper function to get encoding traits object for the physical type indicated
-func getEncodingTraits(t parquet.Type) EncoderTraits {
-  switch t {
-  {{ range .In -}}
-  case parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}:
-    return {{.Name}}EncoderTraits
-  {{ end -}}
-  default:
-    return nil
-  }
-}
-
-// helper function to get decoding traits object for the physical type indicated
-func getDecodingTraits(t parquet.Type) DecoderTraits {
-  switch t {
-  {{ range .In -}}
-  case parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}:
-    return {{.Name}}DecoderTraits
-  {{ end -}}
-  default:
-    return nil
-  }
-}
diff --git a/go/parquet/internal/encoding/types.go b/go/parquet/internal/encoding/types.go
deleted file mode 100644
index fb81ba8729cca..0000000000000
--- a/go/parquet/internal/encoding/types.go
+++ /dev/null
@@ -1,467 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encoding
-
-import (
-	"io"
-	"sync"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-// TypedDecoder is the general interface for all decoder types which can
-// then be type asserted to a specific Type Decoder
-type TypedDecoder interface {
-	// SetData updates the data in the decoder with the passed in byte slice and the
-	// stated number of values as expected to be decoded.
-	SetData(buffered int, buf []byte) error
-	// Encoding returns the encoding type that this decoder decodes data of
-	Encoding() parquet.Encoding
-	// ValuesLeft returns the number of remaining values to be decoded
-	ValuesLeft() int
-	// Type returns the physical type this can decode.
-	Type() parquet.Type
-}
-
-// DictDecoder is a special TypedDecoder which implements dictionary decoding
-type DictDecoder interface {
-	TypedDecoder
-	// SetDict takes in a decoder which can decode the dictionary index to be used
-	SetDict(TypedDecoder)
-}
-
-// TypedEncoder is the general interface for all encoding types which
-// can then be type asserted to a specific Type Encoder
-type TypedEncoder interface {
-	// Bytes returns the current slice of bytes that have been encoded but does not pass ownership
-	Bytes() []byte
-	// Reset resets the encoder and dumps all the data to let it be reused.
-	Reset()
-	// ReserveForWrite reserves n bytes in the buffer so that the next n bytes written will not
-	// cause a memory allocation.
-	ReserveForWrite(n int)
-	// EstimatedDataEncodedSize returns the estimated number of bytes in the buffer
-	// so far.
-	EstimatedDataEncodedSize() int64
-	// FlushValues finishes up any unwritten data and returns the buffer of data passing
-	// ownership to the caller, Release needs to be called on the Buffer to free the memory
-	// if error is nil
-	FlushValues() (Buffer, error)
-	// Encoding returns the type of encoding that this encoder operates with
-	Encoding() parquet.Encoding
-	// Allocator returns the allocator that was used when creating this encoder
-	Allocator() memory.Allocator
-	// Type returns the underlying physical type this encodes.
-	Type() parquet.Type
-	Release()
-}
-
-// DictEncoder is a special kind of TypedEncoder which implements Dictionary
-// encoding.
-type DictEncoder interface {
-	TypedEncoder
-	// WriteIndices populates the byte slice with the final indexes of data and returns
-	// the number of bytes written
-	WriteIndices(out []byte) (int, error)
-	// DictEncodedSize returns the current size of the encoded dictionary index.
-	DictEncodedSize() int
-	// BitWidth returns the bitwidth needed to encode all of the index values based
-	// on the number of values in the dictionary index.
-	BitWidth() int
-	// WriteDict populates out with the dictionary index values, out should be sized to at least
-	// as many bytes as DictEncodedSize
-	WriteDict(out []byte)
-	// NumEntries returns the number of values currently in the dictionary index.
-	NumEntries() int
-	// PutDictionary allows pre-seeding a dictionary encoder with
-	// a dictionary from an Arrow Array.
-	//
-	// The passed in array must not have any nulls and this can only
-	// be called on an empty encoder. The dictionary passed in will
-	// be stored internally as a preserved dictionary, and will be
-	// released when this encoder is reset or released.
-	PutDictionary(arrow.Array) error
-	// PreservedDictionary returns the currently stored preserved dict
-	// from PutDictionary or nil.
-	PreservedDictionary() arrow.Array
-	// PutIndices adds the indices from the passed in integral array to
-	// the column data. It is assumed that the indices are within the bounds
-	// of [0,dictSize) and is not validated. Returns an error if a non-integral
-	// array is passed.
-	PutIndices(arrow.Array) error
-}
-
-var bufferPool = sync.Pool{
-	New: func() interface{} {
-		return memory.NewResizableBuffer(memory.DefaultAllocator)
-	},
-}
-
-// Buffer is an interface used as a general interface for handling buffers
-// regardless of the underlying implementation.
-type Buffer interface {
-	Len() int
-	Buf() []byte
-	Bytes() []byte
-	Resize(int)
-	Release()
-}
-
-// poolBuffer is a buffer that will release the allocated buffer to a pool
-// of buffers when release is called in order to allow it to be reused to
-// cut down on the number of allocations.
-type poolBuffer struct {
-	buf *memory.Buffer
-}
-
-func (p poolBuffer) Resize(n int) { p.buf.ResizeNoShrink(n) }
-
-func (p poolBuffer) Len() int { return p.buf.Len() }
-
-func (p poolBuffer) Bytes() []byte { return p.buf.Bytes() }
-
-func (p poolBuffer) Buf() []byte { return p.buf.Buf() }
-
-func (p poolBuffer) Release() {
-	if p.buf.Mutable() {
-		memory.Set(p.buf.Buf(), 0)
-		p.buf.ResizeNoShrink(0)
-		bufferPool.Put(p.buf)
-		return
-	}
-
-	p.buf.Release()
-}
-
-// PooledBufferWriter uses buffers from the buffer pool to back it while
-// implementing io.Writer and io.WriterAt interfaces
-type PooledBufferWriter struct {
-	buf    *memory.Buffer
-	pos    int
-	offset int
-}
-
-// NewPooledBufferWriter returns a new buffer with 'initial' bytes reserved
-// and pre-allocated to guarantee that writing that many more bytes will not
-// require another allocation.
-func NewPooledBufferWriter(initial int) *PooledBufferWriter {
-	ret := &PooledBufferWriter{}
-	ret.Reserve(initial)
-	return ret
-}
-
-// SetOffset sets an offset in the buffer which will ensure that all references
-// to offsets and sizes in the buffer will be offset by this many bytes, allowing
-// the writer to reserve space in the buffer.
-func (b *PooledBufferWriter) SetOffset(offset int) {
-	b.pos -= b.offset
-	b.offset = offset
-	b.pos += offset
-}
-
-// Reserve pre-allocates nbytes to ensure that the next write of that many bytes
-// will not require another allocation.
-func (b *PooledBufferWriter) Reserve(nbytes int) {
-	if b.buf == nil {
-		b.buf = bufferPool.Get().(*memory.Buffer)
-	}
-
-	newCap := utils.Max(b.buf.Cap(), 256)
-	for newCap < b.pos+nbytes {
-		newCap = bitutil.NextPowerOf2(b.pos + nbytes)
-	}
-	b.buf.Reserve(newCap)
-}
-
-// Reset will release any current memory and initialize it with the new
-// allocated bytes.
-func (b *PooledBufferWriter) Reset(initial int) {
-	if b.buf != nil {
-		memory.Set(b.buf.Buf(), 0)
-		b.buf.ResizeNoShrink(0)
-		bufferPool.Put(b.buf)
-		b.buf = nil
-	}
-
-	b.pos = 0
-	b.offset = 0
-	b.Reserve(initial)
-}
-
-// Finish returns the current buffer, with the responsibility for releasing
-// the memory on the caller, resetting this writer to be re-used
-func (b *PooledBufferWriter) Finish() Buffer {
-	if b.buf.Len() < b.pos {
-		b.buf.ResizeNoShrink(b.pos)
-	}
-	buf := poolBuffer{b.buf}
-
-	b.buf = nil
-	b.Reset(0)
-	return buf
-}
-
-// WriteAt writes the bytes from p into this buffer starting at offset.
-//
-// Does not affect the internal position of the writer.
-func (b *PooledBufferWriter) WriteAt(p []byte, offset int64) (n int, err error) {
-	if len(p) == 0 {
-		return 0, nil
-	}
-	offset += int64(b.offset)
-	need := int(offset) + len(p)
-
-	if need >= b.buf.Cap() {
-		b.Reserve(need - b.pos)
-	}
-	n = copy(b.buf.Buf()[offset:], p)
-
-	if need > b.buf.Len() {
-		b.buf.ResizeNoShrink(need)
-	}
-	return
-}
-
-func (b *PooledBufferWriter) Write(buf []byte) (int, error) {
-	if len(buf) == 0 {
-		return 0, nil
-	}
-	b.Reserve(len(buf))
-	return b.UnsafeWrite(buf)
-}
-
-func (b *PooledBufferWriter) UnsafeWriteCopy(ncopies int, pattern []byte) (int, error) {
-	nbytes := len(pattern) * ncopies
-	slc := b.buf.Buf()[b.pos : b.pos+nbytes]
-	copy(slc, pattern)
-	for j := len(pattern); j < len(slc); j *= 2 {
-		copy(slc[j:], slc[:j])
-	}
-	b.pos += nbytes
-	return nbytes, nil
-}
-
-// UnsafeWrite does not check the capacity / length before writing.
-func (b *PooledBufferWriter) UnsafeWrite(buf []byte) (n int, err error) {
-	n = copy(b.buf.Buf()[b.pos:], buf)
-	b.pos += n
-	return
-}
-
-func (b *PooledBufferWriter) Tell() int64 {
-	return int64(b.pos)
-}
-
-// Bytes returns the current bytes slice of slice Len
-func (b *PooledBufferWriter) Bytes() []byte {
-	if b.buf.Len() < b.pos {
-		b.buf.ResizeNoShrink(b.pos)
-	}
-	return b.buf.Bytes()[b.offset:]
-}
-
-// Len provides the current Length of the byte slice
-func (b *PooledBufferWriter) Len() int {
-	if b.buf.Len() < b.pos {
-		b.buf.ResizeNoShrink(b.pos)
-	}
-	return b.buf.Len() - b.offset
-}
-
-// BufferWriter is a utility class for building and writing to a memory.Buffer
-// with a given allocator that fulfills the interfaces io.Write, io.WriteAt
-// and io.Seeker, while providing the ability to pre-allocate memory.
-type BufferWriter struct {
-	buffer *memory.Buffer
-	pos    int
-	mem    memory.Allocator
-
-	offset int
-}
-
-// NewBufferWriterFromBuffer wraps the provided buffer to allow it to fulfill these
-// interfaces.
-func NewBufferWriterFromBuffer(b *memory.Buffer, mem memory.Allocator) *BufferWriter {
-	return &BufferWriter{b, 0, mem, 0}
-}
-
-// NewBufferWriter constructs a buffer with initially reserved/allocated memory.
-func NewBufferWriter(initial int, mem memory.Allocator) *BufferWriter {
-	buf := memory.NewResizableBuffer(mem)
-	buf.Reserve(initial)
-	return &BufferWriter{buffer: buf, mem: mem}
-}
-
-func (b *BufferWriter) SetOffset(offset int) {
-	b.offset = offset
-}
-
-// Bytes returns the current bytes slice of slice Len
-func (b *BufferWriter) Bytes() []byte {
-	return b.buffer.Bytes()[b.offset:]
-}
-
-// Len provides the current Length of the byte slice
-func (b *BufferWriter) Len() int {
-	return b.buffer.Len() - b.offset
-}
-
-// Cap returns the current capacity of the underlying buffer
-func (b *BufferWriter) Cap() int {
-	return b.buffer.Cap() - b.offset
-}
-
-// Finish returns the current buffer, with the responsibility for releasing
-// the memory on the caller, resetting this writer to be re-used
-func (b *BufferWriter) Finish() *memory.Buffer {
-	buf := b.buffer
-	b.buffer = nil
-	b.Reset(0)
-	return buf
-}
-
-// Release the underlying buffer and not allocate anything else. To re-use this buffer, Reset() or Finish() should be called
-func (b *BufferWriter) Release() {
-	b.buffer.Release()
-	b.buffer = nil
-}
-
-func (b *BufferWriter) Truncate() {
-	b.pos = 0
-	b.offset = 0
-
-	if b.buffer == nil {
-		b.Reserve(1024)
-	} else {
-		b.buffer.ResizeNoShrink(0)
-	}
-}
-
-// Reset will release any current memory and initialize it with the new
-// allocated bytes.
-func (b *BufferWriter) Reset(initial int) {
-	if b.buffer != nil {
-		b.buffer.Release()
-	} else {
-		b.buffer = memory.NewResizableBuffer(b.mem)
-	}
-
-	b.pos = 0
-	b.offset = 0
-
-	if initial > 0 {
-		b.Reserve(initial)
-	}
-}
-
-// Reserve ensures that there is at least enough capacity to write nbytes
-// without another allocation, may allocate more than that in order to
-// efficiently reduce allocations
-func (b *BufferWriter) Reserve(nbytes int) {
-	if b.buffer == nil {
-		b.buffer = memory.NewResizableBuffer(b.mem)
-	}
-	newCap := utils.Max(b.buffer.Cap(), 256)
-	for newCap < b.pos+nbytes {
-		newCap = bitutil.NextPowerOf2(b.pos + nbytes)
-	}
-	b.buffer.Reserve(newCap)
-}
-
-// WriteAt writes the bytes from p into this buffer starting at offset.
-//
-// Does not affect the internal position of the writer.
-func (b *BufferWriter) WriteAt(p []byte, offset int64) (n int, err error) {
-	if len(p) == 0 {
-		return 0, nil
-	}
-	offset += int64(b.offset)
-	need := int(offset) + len(p)
-
-	if need >= b.buffer.Cap() {
-		b.Reserve(need - b.pos)
-	}
-	copy(b.buffer.Buf()[offset:], p)
-
-	if need > b.buffer.Len() {
-		b.buffer.ResizeNoShrink(need)
-	}
-	return len(p), nil
-}
-
-func (b *BufferWriter) Write(buf []byte) (int, error) {
-	if len(buf) == 0 {
-		return 0, nil
-	}
-	if b.buffer == nil {
-		b.Reserve(len(buf))
-	}
-
-	if b.pos+b.offset+len(buf) >= b.buffer.Cap() {
-		b.Reserve(len(buf))
-	}
-	return b.UnsafeWrite(buf)
-}
-
-func (b *BufferWriter) UnsafeWriteCopy(ncopies int, pattern []byte) (int, error) {
-	nbytes := len(pattern) * ncopies
-	slc := b.buffer.Buf()[b.pos : b.pos+nbytes]
-	copy(slc, pattern)
-	for j := len(pattern); j < len(slc); j *= 2 {
-		copy(slc[j:], slc[:j])
-	}
-	b.pos += nbytes
-	b.buffer.ResizeNoShrink(b.pos)
-	return nbytes, nil
-}
-
-// UnsafeWrite does not check the capacity / length before writing.
-func (b *BufferWriter) UnsafeWrite(buf []byte) (int, error) {
-	copy(b.buffer.Buf()[b.pos+b.offset:], buf)
-	b.pos += len(buf)
-	b.buffer.ResizeNoShrink(b.pos)
-	return len(buf), nil
-}
-
-// Seek fulfills the io.Seeker interface returning it's new position
-// whence must be io.SeekStart, io.SeekCurrent or io.SeekEnd or it will be ignored.
-func (b *BufferWriter) Seek(offset int64, whence int) (int64, error) {
-	newPos, offs := 0, int(offset)
-	offs += b.offset
-	switch whence {
-	case io.SeekStart:
-		newPos = offs
-	case io.SeekCurrent:
-		newPos = b.pos + offs
-	case io.SeekEnd:
-		newPos = b.buffer.Len() + offs
-	}
-	if newPos < 0 {
-		return 0, xerrors.New("negative result pos")
-	}
-	b.pos = newPos
-	return int64(newPos), nil
-}
-
-func (b *BufferWriter) Tell() int64 {
-	return int64(b.pos)
-}
diff --git a/go/parquet/internal/encryption/aes.go b/go/parquet/internal/encryption/aes.go
deleted file mode 100644
index 1e861ffd2a1d0..0000000000000
--- a/go/parquet/internal/encryption/aes.go
+++ /dev/null
@@ -1,310 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package encryption contains the internal helpers for the parquet AES encryption/decryption handling.
-//
-// Testing for this is done via integration testing at the top level parquet package via attempting to
-// read and write encrypted files with different configurations to match test files in parquet-testing
-package encryption
-
-import (
-	"bytes"
-	"crypto/aes"
-	"crypto/cipher"
-	"crypto/rand"
-	"encoding/binary"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-// important constants for handling the aes encryption
-const (
-	GcmTagLength = 16
-	NonceLength  = 12
-
-	gcmMode          = 0
-	ctrMode          = 1
-	ctrIVLen         = 16
-	bufferSizeLength = 4
-)
-
-// Module constants for constructing the AAD bytes, the order here is
-// important as the constants are set via iota.
-const (
-	FooterModule int8 = iota
-	ColumnMetaModule
-	DataPageModule
-	DictPageModule
-	DataPageHeaderModule
-	DictPageHeaderModule
-	ColumnIndexModule
-	OffsetIndexModule
-)
-
-type aesEncryptor struct {
-	mode                int
-	ciphertextSizeDelta int
-}
-
-// NewAesEncryptor constructs an encryptor for the passed in cipher and whether
-// or not it's being used to encrypt metadata.
-func NewAesEncryptor(alg parquet.Cipher, metadata bool) *aesEncryptor {
-	ret := &aesEncryptor{}
-	ret.ciphertextSizeDelta = bufferSizeLength + NonceLength
-	if metadata || alg == parquet.AesGcm {
-		ret.mode = gcmMode
-		ret.ciphertextSizeDelta += GcmTagLength
-	} else {
-		ret.mode = ctrMode
-	}
-
-	return ret
-}
-
-// CiphertextSizeDelta is the number of extra bytes that are part of the encrypted data
-// above and beyond the plaintext value.
-func (a *aesEncryptor) CiphertextSizeDelta() int { return a.ciphertextSizeDelta }
-
-// SignedFooterEncrypt writes the signature for the provided footer bytes using the given key, AAD and nonce.
-// It returns the number of bytes that were written to w.
-func (a *aesEncryptor) SignedFooterEncrypt(w io.Writer, footer, key, aad, nonce []byte) int {
-	if a.mode != gcmMode {
-		panic("must use AES GCM (metadata) encryptor")
-	}
-
-	block, err := aes.NewCipher(key)
-	if err != nil {
-		panic(err)
-	}
-
-	aead, err := cipher.NewGCM(block)
-	if err != nil {
-		panic(err)
-	}
-	if aead.NonceSize() != NonceLength {
-		panic(fmt.Errorf("nonce size mismatch %d, %d", aead.NonceSize(), NonceLength))
-	}
-	if aead.Overhead() != GcmTagLength {
-		panic(fmt.Errorf("tagsize mismatch %d %d", aead.Overhead(), GcmTagLength))
-	}
-
-	ciphertext := aead.Seal(nil, nonce, footer, aad)
-	bufferSize := uint32(len(ciphertext) + len(nonce))
-	// data is written with a prefix of the size written as a little endian 32bit int.
-	if err := binary.Write(w, binary.LittleEndian, bufferSize); err != nil {
-		panic(err)
-	}
-	w.Write(nonce)
-	w.Write(ciphertext)
-	return bufferSizeLength + int(bufferSize)
-}
-
-// Encrypt calculates the ciphertext for src with the given key and aad, then writes it to w.
-// Returns the total number of bytes written.
-func (a *aesEncryptor) Encrypt(w io.Writer, src, key, aad []byte) int {
-	block, err := aes.NewCipher(key)
-	if err != nil {
-		panic(err)
-	}
-
-	nonce := make([]byte, NonceLength)
-	rand.Read(nonce)
-
-	if a.mode == gcmMode {
-		aead, err := cipher.NewGCM(block)
-		if err != nil {
-			panic(err)
-		}
-		if aead.NonceSize() != NonceLength {
-			panic(fmt.Errorf("nonce size mismatch %d, %d", aead.NonceSize(), NonceLength))
-		}
-		if aead.Overhead() != GcmTagLength {
-			panic(fmt.Errorf("tagsize mismatch %d %d", aead.Overhead(), GcmTagLength))
-		}
-
-		ciphertext := aead.Seal(nil, nonce, src, aad)
-		bufferSize := len(ciphertext) + len(nonce)
-		// data is written with a prefix of the size written as a little endian 32bit int.
-		if err := binary.Write(w, binary.LittleEndian, uint32(bufferSize)); err != nil {
-			panic(err)
-		}
-		w.Write(nonce)
-		w.Write(ciphertext)
-		return bufferSizeLength + bufferSize
-	}
-
-	// Parquet CTR IVs are comprised of a 12-byte nonce and a 4-byte initial
-	// counter field.
-	// The first 31 bits of the initial counter field are set to 0, the last bit
-	// is set to 1.
-	iv := make([]byte, ctrIVLen)
-	copy(iv, nonce)
-	iv[ctrIVLen-1] = 1
-
-	bufferSize := NonceLength + len(src)
-	// data is written with a prefix of the size written as a little endian 32bit int.
-	if err := binary.Write(w, binary.LittleEndian, uint32(bufferSize)); err != nil {
-		panic(err)
-	}
-	w.Write(nonce)
-	cipher.StreamWriter{S: cipher.NewCTR(block, iv), W: w}.Write(src)
-	return bufferSizeLength + bufferSize
-}
-
-type aesDecryptor struct {
-	mode                int
-	ciphertextSizeDelta int
-}
-
-// newAesDecryptor constructs and returns a decryptor for the given cipher type and whether or
-// not it is intended to be used for decrypting metadata.
-func newAesDecryptor(alg parquet.Cipher, metadata bool) *aesDecryptor {
-	ret := &aesDecryptor{}
-	ret.ciphertextSizeDelta = bufferSizeLength + NonceLength
-	if metadata || alg == parquet.AesGcm {
-		ret.mode = gcmMode
-		ret.ciphertextSizeDelta += GcmTagLength
-	} else {
-		ret.mode = ctrMode
-	}
-
-	return ret
-}
-
-// CiphertextSizeDelta is the number of bytes in the ciphertext that will not exist in the
-// plaintext due to be used for the decryption. The total size - the CiphertextSizeDelta is
-// the length of the plaintext after decryption.
-func (a *aesDecryptor) CiphertextSizeDelta() int { return a.ciphertextSizeDelta }
-
-// DecryptFrom
-func (a *aesDecryptor) DecryptFrom(r io.Reader, key, aad []byte) []byte {
-	block, err := aes.NewCipher(key)
-	if err != nil {
-		panic(err)
-	}
-
-	var writtenCiphertextLen uint32
-	if err := binary.Read(r, binary.LittleEndian, &writtenCiphertextLen); err != nil {
-		panic(err)
-	}
-
-	cipherText := make([]byte, writtenCiphertextLen)
-	if n, err := io.ReadFull(r, cipherText); n != int(writtenCiphertextLen) || err != nil {
-		panic(err)
-	}
-
-	nonce := cipherText[:NonceLength]
-	cipherText = cipherText[NonceLength:]
-	if a.mode == gcmMode {
-		aead, err := cipher.NewGCM(block)
-		if err != nil {
-			panic(err)
-		}
-
-		plain, err := aead.Open(cipherText[:0], nonce, cipherText, aad)
-		if err != nil {
-			panic(err)
-		}
-		return plain
-	}
-
-	// Parquet CTR IVs are comprised of a 12-byte nonce and a 4-byte initial
-	// counter field.
-	// The first 31 bits of the initial counter field are set to 0, the last bit
-	// is set to 1.
-	iv := make([]byte, ctrIVLen)
-	copy(iv, nonce)
-	iv[ctrIVLen-1] = 1
-
-	stream := cipher.NewCTR(block, iv)
-	// dst := make([]byte, len(cipherText))
-	stream.XORKeyStream(cipherText, cipherText)
-	return cipherText
-}
-
-// Decrypt returns the plaintext version of the given ciphertext when decrypted
-// with the provided key and AAD security bytes.
-func (a *aesDecryptor) Decrypt(cipherText, key, aad []byte) []byte {
-	block, err := aes.NewCipher(key)
-	if err != nil {
-		panic(err)
-	}
-
-	writtenCiphertextLen := binary.LittleEndian.Uint32(cipherText)
-	cipherLen := writtenCiphertextLen + bufferSizeLength
-	nonce := cipherText[bufferSizeLength : bufferSizeLength+NonceLength]
-
-	if a.mode == gcmMode {
-		aead, err := cipher.NewGCM(block)
-		if err != nil {
-			panic(err)
-		}
-
-		plain, err := aead.Open(nil, nonce, cipherText[bufferSizeLength+NonceLength:cipherLen], aad)
-		if err != nil {
-			panic(err)
-		}
-		return plain
-	}
-
-	// Parquet CTR IVs are comprised of a 12-byte nonce and a 4-byte initial
-	// counter field.
-	// The first 31 bits of the initial counter field are set to 0, the last bit
-	// is set to 1.
-	iv := make([]byte, ctrIVLen)
-	copy(iv, nonce)
-	iv[ctrIVLen-1] = 1
-
-	stream := cipher.NewCTR(block, iv)
-	dst := make([]byte, len(cipherText)-bufferSizeLength-NonceLength)
-	stream.XORKeyStream(dst, cipherText[bufferSizeLength+NonceLength:])
-	return dst
-}
-
-// CreateModuleAad creates the section AAD security bytes for the file, module, row group, column and page.
-//
-// This should be used for being passed to the encryptor and decryptor whenever requesting AAD bytes.
-func CreateModuleAad(fileAad string, moduleType int8, rowGroupOrdinal, columnOrdinal, pageOrdinal int16) string {
-	buf := bytes.NewBuffer([]byte(fileAad))
-	buf.WriteByte(byte(moduleType))
-
-	if moduleType == FooterModule {
-		return buf.String()
-	}
-
-	binary.Write(buf, binary.LittleEndian, rowGroupOrdinal)
-	binary.Write(buf, binary.LittleEndian, columnOrdinal)
-	if DataPageModule != moduleType && DataPageHeaderModule != moduleType {
-		return buf.String()
-	}
-
-	binary.Write(buf, binary.LittleEndian, pageOrdinal)
-	return buf.String()
-}
-
-// CreateFooterAad takes an aadPrefix and constructs the security AAD bytes for encrypting
-// and decrypting the parquet footer bytes.
-func CreateFooterAad(aadPrefix string) string {
-	return CreateModuleAad(aadPrefix, FooterModule, -1, -1, -1)
-}
-
-// QuickUpdatePageAad updates aad with the new page ordinal, modifying the
-// last two bytes of aad.
-func QuickUpdatePageAad(aad []byte, newPageOrdinal int16) {
-	binary.LittleEndian.PutUint16(aad[len(aad)-2:], uint16(newPageOrdinal))
-}
diff --git a/go/parquet/internal/encryption/decryptor.go b/go/parquet/internal/encryption/decryptor.go
deleted file mode 100644
index 6af9a4aacfe15..0000000000000
--- a/go/parquet/internal/encryption/decryptor.go
+++ /dev/null
@@ -1,268 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encryption
-
-import (
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-// FileDecryptor is an interface used by the filereader for decrypting an
-// entire parquet file as we go, usually constructed from the DecryptionProperties
-type FileDecryptor interface {
-	// Returns the key for decrypting the footer if provided
-	GetFooterKey() string
-	// Provides the file level AAD security bytes
-	FileAad() string
-	// return which algorithm this decryptor was constructed for
-	Algorithm() parquet.Cipher
-	// return the FileDecryptionProperties that were used for this decryptor
-	Properties() *parquet.FileDecryptionProperties
-	// Clear out the decryption keys, this is automatically called after every
-	// successfully decrypted file to ensure that keys aren't kept around.
-	WipeOutDecryptionKeys()
-	// GetFooterDecryptor returns a Decryptor interface for use to decrypt the footer
-	// of a parquet file.
-	GetFooterDecryptor() Decryptor
-	// GetFooterDecryptorForColumnMeta returns a Decryptor interface for Column Metadata
-	// in the file footer using the AAD bytes provided.
-	GetFooterDecryptorForColumnMeta(aad string) Decryptor
-	// GetFooterDecryptorForColumnData returns the decryptor that can be used for decrypting
-	// actual column data footer bytes, not column metadata.
-	GetFooterDecryptorForColumnData(aad string) Decryptor
-	// GetColumnMetaDecryptor returns a decryptor for the requested column path, key and AAD bytes
-	// but only for decrypting the row group level metadata
-	GetColumnMetaDecryptor(columnPath, columnKeyMetadata, aad string) Decryptor
-	// GetColumnDataDecryptor returns a decryptor for the requested column path, key, and AAD bytes
-	// but only for the rowgroup column data.
-	GetColumnDataDecryptor(columnPath, columnKeyMetadata, aad string) Decryptor
-}
-
-type fileDecryptor struct {
-	// the properties contains the key retriever for us to get keys
-	// from the key metadata
-	props *parquet.FileDecryptionProperties
-	// concatenation of aad_prefix (if exists) and aad_file_unique
-	fileAad                 string
-	columnDataMap           map[string]Decryptor
-	columnMetaDataMap       map[string]Decryptor
-	footerMetadataDecryptor Decryptor
-	footerDataDecryptor     Decryptor
-	alg                     parquet.Cipher
-	footerKeyMetadata       string
-	metaDecryptor           *aesDecryptor
-	dataDecryptor           *aesDecryptor
-	mem                     memory.Allocator
-}
-
-// NewFileDecryptor constructs a decryptor from the provided configuration of properties, cipher and key metadata. Using the provided memory allocator or
-// the default allocator if one isn't provided.
-func NewFileDecryptor(props *parquet.FileDecryptionProperties, fileAad string, alg parquet.Cipher, keymetadata string, mem memory.Allocator) FileDecryptor {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-	return &fileDecryptor{
-		fileAad:           fileAad,
-		props:             props,
-		alg:               alg,
-		footerKeyMetadata: keymetadata,
-		mem:               mem,
-		columnDataMap:     make(map[string]Decryptor),
-		columnMetaDataMap: make(map[string]Decryptor),
-	}
-}
-
-func (d *fileDecryptor) FileAad() string                               { return d.fileAad }
-func (d *fileDecryptor) Properties() *parquet.FileDecryptionProperties { return d.props }
-func (d *fileDecryptor) Algorithm() parquet.Cipher                     { return d.alg }
-func (d *fileDecryptor) GetFooterKey() string {
-	footerKey := d.props.FooterKey()
-	if footerKey == "" {
-		if d.footerKeyMetadata == "" {
-			panic("no footer key or key metadata")
-		}
-		if d.props.KeyRetriever == nil {
-			panic("no footer key or key retriever")
-		}
-		footerKey = d.props.KeyRetriever.GetKey([]byte(d.footerKeyMetadata))
-	}
-	if footerKey == "" {
-		panic("invalid footer encryption key. Could not parse footer metadata")
-	}
-	return footerKey
-}
-
-func (d *fileDecryptor) GetFooterDecryptor() Decryptor {
-	aad := CreateFooterAad(d.fileAad)
-	return d.getFooterDecryptor(aad, true)
-}
-
-func (d *fileDecryptor) GetFooterDecryptorForColumnMeta(aad string) Decryptor {
-	return d.getFooterDecryptor(aad, true)
-}
-
-func (d *fileDecryptor) GetFooterDecryptorForColumnData(aad string) Decryptor {
-	return d.getFooterDecryptor(aad, false)
-}
-
-func (d *fileDecryptor) GetColumnMetaDecryptor(columnPath, columnKeyMetadata, aad string) Decryptor {
-	return d.getColumnDecryptor(columnPath, columnKeyMetadata, aad, true)
-}
-
-func (d *fileDecryptor) GetColumnDataDecryptor(columnPath, columnKeyMetadata, aad string) Decryptor {
-	return d.getColumnDecryptor(columnPath, columnKeyMetadata, aad, false)
-}
-
-func (d *fileDecryptor) WipeOutDecryptionKeys() {
-	d.props.WipeOutDecryptionKeys()
-}
-
-func (d *fileDecryptor) getFooterDecryptor(aad string, metadata bool) Decryptor {
-	if metadata {
-		if d.footerMetadataDecryptor != nil {
-			return d.footerMetadataDecryptor
-		}
-	} else {
-		if d.footerDataDecryptor != nil {
-			return d.footerDataDecryptor
-		}
-	}
-
-	footerKey := d.GetFooterKey()
-
-	// Create both data and metadata decryptors to avoid redundant retrieval of key
-	// from the key_retriever.
-	aesMetaDecrypt := d.getMetaAesDecryptor()
-	aesDataDecrypt := d.getDataAesDecryptor()
-
-	d.footerMetadataDecryptor = &decryptor{
-		decryptor: aesMetaDecrypt,
-		key:       []byte(footerKey),
-		fileAad:   []byte(d.fileAad),
-		aad:       []byte(aad),
-		mem:       d.mem,
-	}
-	d.footerDataDecryptor = &decryptor{
-		decryptor: aesDataDecrypt,
-		key:       []byte(footerKey),
-		fileAad:   []byte(d.fileAad),
-		aad:       []byte(aad),
-		mem:       d.mem,
-	}
-
-	if metadata {
-		return d.footerMetadataDecryptor
-	}
-	return d.footerDataDecryptor
-}
-
-func (d *fileDecryptor) getColumnDecryptor(columnPath, columnMeta, aad string, metadata bool) Decryptor {
-	if metadata {
-		if res, ok := d.columnMetaDataMap[columnPath]; ok {
-			res.UpdateAad(aad)
-			return res
-		}
-	} else {
-		if res, ok := d.columnDataMap[columnPath]; ok {
-			res.UpdateAad(aad)
-			return res
-		}
-	}
-
-	columnKey := d.props.ColumnKey(columnPath)
-	// No explicit column key given via API. Retrieve via key metadata.
-	if columnKey == "" && columnMeta != "" && d.props.KeyRetriever != nil {
-		columnKey = d.props.KeyRetriever.GetKey([]byte(columnMeta))
-	}
-	if columnKey == "" {
-		panic("hidden column exception, path=" + columnPath)
-	}
-
-	aesDataDecrypt := d.getDataAesDecryptor()
-	aesMetaDecrypt := d.getMetaAesDecryptor()
-
-	d.columnDataMap[columnPath] = &decryptor{
-		decryptor: aesDataDecrypt,
-		key:       []byte(columnKey),
-		fileAad:   []byte(d.fileAad),
-		aad:       []byte(aad),
-		mem:       d.mem,
-	}
-	d.columnMetaDataMap[columnPath] = &decryptor{
-		decryptor: aesMetaDecrypt,
-		key:       []byte(columnKey),
-		fileAad:   []byte(d.fileAad),
-		aad:       []byte(aad),
-		mem:       d.mem,
-	}
-
-	if metadata {
-		return d.columnMetaDataMap[columnPath]
-	}
-	return d.columnDataMap[columnPath]
-}
-
-func (d *fileDecryptor) getMetaAesDecryptor() *aesDecryptor {
-	if d.metaDecryptor == nil {
-		d.metaDecryptor = newAesDecryptor(d.alg, true)
-	}
-	return d.metaDecryptor
-}
-
-func (d *fileDecryptor) getDataAesDecryptor() *aesDecryptor {
-	if d.dataDecryptor == nil {
-		d.dataDecryptor = newAesDecryptor(d.alg, false)
-	}
-	return d.dataDecryptor
-}
-
-// Decryptor is the basic interface for any decryptor generated from a FileDecryptor
-type Decryptor interface {
-	// returns the File Level AAD bytes
-	FileAad() string
-	// returns the current allocator that was used for any extra allocations of buffers
-	Allocator() memory.Allocator
-	// returns the CiphertextSizeDelta from the decryptor
-	CiphertextSizeDelta() int
-	// Decrypt just returns the decrypted plaintext from the src ciphertext
-	Decrypt(src []byte) []byte
-	// Decrypt just returns the decrypted plaintext from the src ciphertext
-	DecryptFrom(r io.Reader) []byte
-	// set the AAD bytes of the decryptor to the provided string
-	UpdateAad(string)
-}
-
-type decryptor struct {
-	decryptor *aesDecryptor
-	key       []byte
-	fileAad   []byte
-	aad       []byte
-	mem       memory.Allocator
-}
-
-func (d *decryptor) Allocator() memory.Allocator { return d.mem }
-func (d *decryptor) FileAad() string             { return string(d.fileAad) }
-func (d *decryptor) UpdateAad(aad string)        { d.aad = []byte(aad) }
-func (d *decryptor) CiphertextSizeDelta() int    { return d.decryptor.CiphertextSizeDelta() }
-func (d *decryptor) Decrypt(src []byte) []byte {
-	return d.decryptor.Decrypt(src, d.key, d.aad)
-}
-func (d *decryptor) DecryptFrom(r io.Reader) []byte {
-	return d.decryptor.DecryptFrom(r, d.key, d.aad)
-}
diff --git a/go/parquet/internal/encryption/encryptor.go b/go/parquet/internal/encryption/encryptor.go
deleted file mode 100644
index 57ff0a4173cdf..0000000000000
--- a/go/parquet/internal/encryption/encryptor.go
+++ /dev/null
@@ -1,237 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encryption
-
-import (
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-// FileEncryptor is the interface for constructing encryptors for the different
-// sections of a parquet file.
-type FileEncryptor interface {
-	// GetFooterEncryptor returns an encryptor for the footer metadata
-	GetFooterEncryptor() Encryptor
-	// GetFooterSigningEncryptor returns an encryptor for creating the signature
-	// for the footer as opposed to encrypting the footer bytes directly.
-	GetFooterSigningEncryptor() Encryptor
-	// GetColumnMetaEncryptor returns an encryptor for the metadata only of the requested
-	// column path string.
-	GetColumnMetaEncryptor(columnPath string) Encryptor
-	// GetColumnDataEncryptor returns an encryptor for the column data ONLY of
-	// the requested column path string.
-	GetColumnDataEncryptor(columnPath string) Encryptor
-	// WipeOutEncryptionKeys deletes the keys that were used for encryption,
-	// called after every successfully encrypted file to ensure against accidental
-	// key re-use.
-	WipeOutEncryptionKeys()
-}
-
-type fileEncryptor struct {
-	props                  *parquet.FileEncryptionProperties
-	columnDataMap          map[string]Encryptor
-	columnMetaDataMap      map[string]Encryptor
-	footerSigningEncryptor Encryptor
-	footerEncryptor        Encryptor
-
-	// Key must be 16, 24, or 32 bytes in length thus there could be up to
-	// three types of meta_encryptors and data_encryptors
-	metaEncryptor *aesEncryptor
-	dataEncryptor *aesEncryptor
-
-	mem memory.Allocator
-}
-
-// NewFileEncryptor returns a new encryptor using the given encryption properties.
-//
-// Panics if the properties passed have already been used to construct an encryptor
-// ie: props.IsUtilized returns true. If mem is nil, will default to memory.DefaultAllocator
-func NewFileEncryptor(props *parquet.FileEncryptionProperties, mem memory.Allocator) FileEncryptor {
-	if props.IsUtilized() {
-		panic("re-using encryption properties for another file")
-	}
-
-	props.SetUtilized()
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-
-	return &fileEncryptor{
-		props:             props,
-		mem:               mem,
-		columnDataMap:     make(map[string]Encryptor),
-		columnMetaDataMap: make(map[string]Encryptor),
-	}
-}
-
-func (e *fileEncryptor) WipeOutEncryptionKeys() {
-	e.props.WipeOutEncryptionKeys()
-}
-
-func (e *fileEncryptor) GetFooterEncryptor() Encryptor {
-	if e.footerEncryptor == nil {
-		alg := e.props.Algorithm().Algo
-		footerAad := CreateFooterAad(e.props.FileAad())
-		footerKey := e.props.FooterKey()
-		enc := e.getMetaAesEncryptor(alg)
-		e.footerEncryptor = &encryptor{
-			aesEncryptor: enc,
-			key:          []byte(footerKey),
-			fileAad:      e.props.FileAad(),
-			aad:          footerAad,
-			mem:          e.mem,
-		}
-	}
-	return e.footerEncryptor
-}
-
-func (e *fileEncryptor) GetFooterSigningEncryptor() Encryptor {
-	if e.footerSigningEncryptor == nil {
-		alg := e.props.Algorithm().Algo
-		footerAad := CreateFooterAad(e.props.FileAad())
-		footerKey := e.props.FooterKey()
-		enc := e.getMetaAesEncryptor(alg)
-		e.footerSigningEncryptor = &encryptor{
-			aesEncryptor: enc,
-			key:          []byte(footerKey),
-			fileAad:      e.props.FileAad(),
-			aad:          footerAad,
-			mem:          e.mem,
-		}
-	}
-	return e.footerSigningEncryptor
-}
-
-func (e *fileEncryptor) getMetaAesEncryptor(alg parquet.Cipher) *aesEncryptor {
-	if e.metaEncryptor == nil {
-		e.metaEncryptor = NewAesEncryptor(alg, true)
-	}
-	return e.metaEncryptor
-}
-
-func (e *fileEncryptor) getDataAesEncryptor(alg parquet.Cipher) *aesEncryptor {
-	if e.dataEncryptor == nil {
-		e.dataEncryptor = NewAesEncryptor(alg, false)
-	}
-	return e.dataEncryptor
-}
-
-func (e *fileEncryptor) GetColumnMetaEncryptor(columnPath string) Encryptor {
-	return e.getColumnEncryptor(columnPath, true)
-}
-
-func (e *fileEncryptor) GetColumnDataEncryptor(columnPath string) Encryptor {
-	return e.getColumnEncryptor(columnPath, false)
-}
-
-func (e *fileEncryptor) getColumnEncryptor(columnPath string, metadata bool) Encryptor {
-	if metadata {
-		if enc, ok := e.columnMetaDataMap[columnPath]; ok {
-			return enc
-		}
-	} else {
-		if enc, ok := e.columnDataMap[columnPath]; ok {
-			return enc
-		}
-	}
-
-	columnProp := e.props.ColumnEncryptionProperties(columnPath)
-	if columnProp == nil {
-		return nil
-	}
-
-	var key string
-	if columnProp.IsEncryptedWithFooterKey() {
-		key = e.props.FooterKey()
-	} else {
-		key = columnProp.Key()
-	}
-
-	alg := e.props.Algorithm().Algo
-	var enc *aesEncryptor
-	if metadata {
-		enc = e.getMetaAesEncryptor(alg)
-	} else {
-		enc = e.getDataAesEncryptor(alg)
-	}
-
-	fileAad := e.props.FileAad()
-	ret := &encryptor{
-		aesEncryptor: enc,
-		key:          []byte(key),
-		fileAad:      fileAad,
-		aad:          "",
-		mem:          e.mem,
-	}
-	if metadata {
-		e.columnMetaDataMap[columnPath] = ret
-	} else {
-		e.columnDataMap[columnPath] = ret
-	}
-	return ret
-}
-
-// Encryptor is the basic interface for encryptors, for now there's only the single
-// aes encryptor implementation, but having it as an interface allows easy addition
-// manipulation of encryptor implementations in the future.
-type Encryptor interface {
-	// FileAad returns the file level AAD bytes for this encryptor
-	FileAad() string
-	// UpdateAad sets the aad bytes for encryption to the provided string
-	UpdateAad(string)
-	// Allocator returns the allocator that was used to construct the encryptor
-	Allocator() memory.Allocator
-	// CiphertextSizeDelta returns the extra bytes that will be added to the ciphertext
-	// for a total size of len(plaintext) + CiphertextSizeDelta bytes
-	CiphertextSizeDelta() int
-	// Encrypt writes the encrypted ciphertext for src to w and returns the total
-	// number of bytes written.
-	Encrypt(w io.Writer, src []byte) int
-	// EncryptColumnMetaData returns true if the column metadata should be encrypted based on the
-	// column encryption settings and footer encryption setting.
-	EncryptColumnMetaData(encryptFooter bool, properties *parquet.ColumnEncryptionProperties) bool
-}
-
-type encryptor struct {
-	aesEncryptor *aesEncryptor
-	key          []byte
-	fileAad      string
-	aad          string
-	mem          memory.Allocator
-}
-
-func (e *encryptor) FileAad() string             { return e.fileAad }
-func (e *encryptor) UpdateAad(aad string)        { e.aad = aad }
-func (e *encryptor) Allocator() memory.Allocator { return e.mem }
-func (e *encryptor) CiphertextSizeDelta() int    { return e.aesEncryptor.CiphertextSizeDelta() }
-
-func (e *encryptor) EncryptColumnMetaData(encryptFooter bool, properties *parquet.ColumnEncryptionProperties) bool {
-	if properties == nil || !properties.IsEncrypted() {
-		return false
-	}
-	if !encryptFooter {
-		return false
-	}
-	// if not encrypted with footer key then encrypt the metadata
-	return !properties.IsEncryptedWithFooterKey()
-}
-
-func (e *encryptor) Encrypt(w io.Writer, src []byte) int {
-	return e.aesEncryptor.Encrypt(w, src, e.key, []byte(e.aad))
-}
diff --git a/go/parquet/internal/encryption/key_handling.go b/go/parquet/internal/encryption/key_handling.go
deleted file mode 100644
index 87a9ed761fe9e..0000000000000
--- a/go/parquet/internal/encryption/key_handling.go
+++ /dev/null
@@ -1,61 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package encryption
-
-import (
-	"encoding/binary"
-	"fmt"
-	"unsafe"
-)
-
-// StringKeyIDRetriever implements the KeyRetriever interface GetKey
-// to allow setting in keys with a string id.
-type StringKeyIDRetriever map[string]string
-
-// PutKey adds a key with the given string ID that can be retrieved
-func (s StringKeyIDRetriever) PutKey(keyID, key string) {
-	s[keyID] = key
-}
-
-// GetKey expects the keymetadata to match one of the keys that were added
-// with PutKey and panics if the key cannot be found.
-func (s StringKeyIDRetriever) GetKey(keyMetadata []byte) string {
-	k, ok := s[*(*string)(unsafe.Pointer(&keyMetadata))]
-	if !ok {
-		panic(fmt.Errorf("parquet: key missing for id %s", keyMetadata))
-	}
-	return k
-}
-
-// IntegerKeyIDRetriever is used for using unsigned 32bit integers as key ids.
-type IntegerKeyIDRetriever map[uint32]string
-
-// PutKey adds keys with uint32 IDs
-func (i IntegerKeyIDRetriever) PutKey(keyID uint32, key string) {
-	i[keyID] = key
-}
-
-// GetKey expects the key metadata bytes to be a little endian uint32 which
-// is then used to retrieve the key bytes. Panics if the key id cannot be found.
-func (i IntegerKeyIDRetriever) GetKey(keyMetadata []byte) string {
-	keyID := binary.LittleEndian.Uint32(keyMetadata)
-	k, ok := i[keyID]
-	if !ok {
-		panic(fmt.Errorf("parquet: key missing for id %d", keyID))
-	}
-	return k
-}
diff --git a/go/parquet/internal/gen-go/parquet/GoUnusedProtection__.go b/go/parquet/internal/gen-go/parquet/GoUnusedProtection__.go
deleted file mode 100644
index c2a8e5415ed64..0000000000000
--- a/go/parquet/internal/gen-go/parquet/GoUnusedProtection__.go
+++ /dev/null
@@ -1,5 +0,0 @@
-// Code generated by Thrift Compiler (0.18.1). DO NOT EDIT.
-
-package parquet
-
-var GoUnusedProtection__ int
diff --git a/go/parquet/internal/gen-go/parquet/parquet-consts.go b/go/parquet/internal/gen-go/parquet/parquet-consts.go
deleted file mode 100644
index f83e0be7640ff..0000000000000
--- a/go/parquet/internal/gen-go/parquet/parquet-consts.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Code generated by Thrift Compiler (0.18.1). DO NOT EDIT.
-
-package parquet
-
-import (
-	"bytes"
-	"context"
-	"errors"
-	"fmt"
-	"regexp"
-	"strings"
-	"time"
-
-	thrift "github.com/apache/thrift/lib/go/thrift"
-)
-
-// (needed to ensure safety because of naive import list construction.)
-var _ = thrift.ZERO
-var _ = fmt.Printf
-var _ = errors.New
-var _ = context.Background
-var _ = time.Now
-var _ = bytes.Equal
-
-// (needed by validator.)
-var _ = strings.Contains
-var _ = regexp.MatchString
-
-func init() {
-}
diff --git a/go/parquet/internal/gen-go/parquet/parquet.go b/go/parquet/internal/gen-go/parquet/parquet.go
deleted file mode 100644
index 5b616d1335150..0000000000000
--- a/go/parquet/internal/gen-go/parquet/parquet.go
+++ /dev/null
@@ -1,12796 +0,0 @@
-// Code generated by Thrift Compiler (0.18.1). DO NOT EDIT.
-
-package parquet
-
-import (
-	"bytes"
-	"context"
-	"database/sql/driver"
-	"errors"
-	"fmt"
-	"regexp"
-	"strings"
-	"time"
-
-	thrift "github.com/apache/thrift/lib/go/thrift"
-)
-
-// (needed to ensure safety because of naive import list construction.)
-var _ = thrift.ZERO
-var _ = fmt.Printf
-var _ = errors.New
-var _ = context.Background
-var _ = time.Now
-var _ = bytes.Equal
-
-// (needed by validator.)
-var _ = strings.Contains
-var _ = regexp.MatchString
-
-// Types supported by Parquet.  These types are intended to be used in combination
-// with the encodings to control the on disk storage format.
-// For example INT16 is not included as a type since a good encoding of INT32
-// would handle this.
-type Type int64
-
-const (
-	Type_BOOLEAN              Type = 0
-	Type_INT32                Type = 1
-	Type_INT64                Type = 2
-	Type_INT96                Type = 3
-	Type_FLOAT                Type = 4
-	Type_DOUBLE               Type = 5
-	Type_BYTE_ARRAY           Type = 6
-	Type_FIXED_LEN_BYTE_ARRAY Type = 7
-)
-
-func (p Type) String() string {
-	switch p {
-	case Type_BOOLEAN:
-		return "BOOLEAN"
-	case Type_INT32:
-		return "INT32"
-	case Type_INT64:
-		return "INT64"
-	case Type_INT96:
-		return "INT96"
-	case Type_FLOAT:
-		return "FLOAT"
-	case Type_DOUBLE:
-		return "DOUBLE"
-	case Type_BYTE_ARRAY:
-		return "BYTE_ARRAY"
-	case Type_FIXED_LEN_BYTE_ARRAY:
-		return "FIXED_LEN_BYTE_ARRAY"
-	}
-	return "<UNSET>"
-}
-
-func TypeFromString(s string) (Type, error) {
-	switch s {
-	case "BOOLEAN":
-		return Type_BOOLEAN, nil
-	case "INT32":
-		return Type_INT32, nil
-	case "INT64":
-		return Type_INT64, nil
-	case "INT96":
-		return Type_INT96, nil
-	case "FLOAT":
-		return Type_FLOAT, nil
-	case "DOUBLE":
-		return Type_DOUBLE, nil
-	case "BYTE_ARRAY":
-		return Type_BYTE_ARRAY, nil
-	case "FIXED_LEN_BYTE_ARRAY":
-		return Type_FIXED_LEN_BYTE_ARRAY, nil
-	}
-	return Type(0), fmt.Errorf("not a valid Type string")
-}
-
-func TypePtr(v Type) *Type { return &v }
-
-func (p Type) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *Type) UnmarshalText(text []byte) error {
-	q, err := TypeFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *Type) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = Type(v)
-	return nil
-}
-
-func (p *Type) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-// DEPRECATED: Common types used by frameworks(e.g. hive, pig) using parquet.
-// ConvertedType is superseded by LogicalType.  This enum should not be extended.
-//
-// See LogicalTypes.md for conversion between ConvertedType and LogicalType.
-type ConvertedType int64
-
-const (
-	ConvertedType_UTF8             ConvertedType = 0
-	ConvertedType_MAP              ConvertedType = 1
-	ConvertedType_MAP_KEY_VALUE    ConvertedType = 2
-	ConvertedType_LIST             ConvertedType = 3
-	ConvertedType_ENUM             ConvertedType = 4
-	ConvertedType_DECIMAL          ConvertedType = 5
-	ConvertedType_DATE             ConvertedType = 6
-	ConvertedType_TIME_MILLIS      ConvertedType = 7
-	ConvertedType_TIME_MICROS      ConvertedType = 8
-	ConvertedType_TIMESTAMP_MILLIS ConvertedType = 9
-	ConvertedType_TIMESTAMP_MICROS ConvertedType = 10
-	ConvertedType_UINT_8           ConvertedType = 11
-	ConvertedType_UINT_16          ConvertedType = 12
-	ConvertedType_UINT_32          ConvertedType = 13
-	ConvertedType_UINT_64          ConvertedType = 14
-	ConvertedType_INT_8            ConvertedType = 15
-	ConvertedType_INT_16           ConvertedType = 16
-	ConvertedType_INT_32           ConvertedType = 17
-	ConvertedType_INT_64           ConvertedType = 18
-	ConvertedType_JSON             ConvertedType = 19
-	ConvertedType_BSON             ConvertedType = 20
-	ConvertedType_INTERVAL         ConvertedType = 21
-)
-
-func (p ConvertedType) String() string {
-	switch p {
-	case ConvertedType_UTF8:
-		return "UTF8"
-	case ConvertedType_MAP:
-		return "MAP"
-	case ConvertedType_MAP_KEY_VALUE:
-		return "MAP_KEY_VALUE"
-	case ConvertedType_LIST:
-		return "LIST"
-	case ConvertedType_ENUM:
-		return "ENUM"
-	case ConvertedType_DECIMAL:
-		return "DECIMAL"
-	case ConvertedType_DATE:
-		return "DATE"
-	case ConvertedType_TIME_MILLIS:
-		return "TIME_MILLIS"
-	case ConvertedType_TIME_MICROS:
-		return "TIME_MICROS"
-	case ConvertedType_TIMESTAMP_MILLIS:
-		return "TIMESTAMP_MILLIS"
-	case ConvertedType_TIMESTAMP_MICROS:
-		return "TIMESTAMP_MICROS"
-	case ConvertedType_UINT_8:
-		return "UINT_8"
-	case ConvertedType_UINT_16:
-		return "UINT_16"
-	case ConvertedType_UINT_32:
-		return "UINT_32"
-	case ConvertedType_UINT_64:
-		return "UINT_64"
-	case ConvertedType_INT_8:
-		return "INT_8"
-	case ConvertedType_INT_16:
-		return "INT_16"
-	case ConvertedType_INT_32:
-		return "INT_32"
-	case ConvertedType_INT_64:
-		return "INT_64"
-	case ConvertedType_JSON:
-		return "JSON"
-	case ConvertedType_BSON:
-		return "BSON"
-	case ConvertedType_INTERVAL:
-		return "INTERVAL"
-	}
-	return "<UNSET>"
-}
-
-func ConvertedTypeFromString(s string) (ConvertedType, error) {
-	switch s {
-	case "UTF8":
-		return ConvertedType_UTF8, nil
-	case "MAP":
-		return ConvertedType_MAP, nil
-	case "MAP_KEY_VALUE":
-		return ConvertedType_MAP_KEY_VALUE, nil
-	case "LIST":
-		return ConvertedType_LIST, nil
-	case "ENUM":
-		return ConvertedType_ENUM, nil
-	case "DECIMAL":
-		return ConvertedType_DECIMAL, nil
-	case "DATE":
-		return ConvertedType_DATE, nil
-	case "TIME_MILLIS":
-		return ConvertedType_TIME_MILLIS, nil
-	case "TIME_MICROS":
-		return ConvertedType_TIME_MICROS, nil
-	case "TIMESTAMP_MILLIS":
-		return ConvertedType_TIMESTAMP_MILLIS, nil
-	case "TIMESTAMP_MICROS":
-		return ConvertedType_TIMESTAMP_MICROS, nil
-	case "UINT_8":
-		return ConvertedType_UINT_8, nil
-	case "UINT_16":
-		return ConvertedType_UINT_16, nil
-	case "UINT_32":
-		return ConvertedType_UINT_32, nil
-	case "UINT_64":
-		return ConvertedType_UINT_64, nil
-	case "INT_8":
-		return ConvertedType_INT_8, nil
-	case "INT_16":
-		return ConvertedType_INT_16, nil
-	case "INT_32":
-		return ConvertedType_INT_32, nil
-	case "INT_64":
-		return ConvertedType_INT_64, nil
-	case "JSON":
-		return ConvertedType_JSON, nil
-	case "BSON":
-		return ConvertedType_BSON, nil
-	case "INTERVAL":
-		return ConvertedType_INTERVAL, nil
-	}
-	return ConvertedType(0), fmt.Errorf("not a valid ConvertedType string")
-}
-
-func ConvertedTypePtr(v ConvertedType) *ConvertedType { return &v }
-
-func (p ConvertedType) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *ConvertedType) UnmarshalText(text []byte) error {
-	q, err := ConvertedTypeFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *ConvertedType) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = ConvertedType(v)
-	return nil
-}
-
-func (p *ConvertedType) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-// Representation of Schemas
-type FieldRepetitionType int64
-
-const (
-	FieldRepetitionType_REQUIRED FieldRepetitionType = 0
-	FieldRepetitionType_OPTIONAL FieldRepetitionType = 1
-	FieldRepetitionType_REPEATED FieldRepetitionType = 2
-)
-
-func (p FieldRepetitionType) String() string {
-	switch p {
-	case FieldRepetitionType_REQUIRED:
-		return "REQUIRED"
-	case FieldRepetitionType_OPTIONAL:
-		return "OPTIONAL"
-	case FieldRepetitionType_REPEATED:
-		return "REPEATED"
-	}
-	return "<UNSET>"
-}
-
-func FieldRepetitionTypeFromString(s string) (FieldRepetitionType, error) {
-	switch s {
-	case "REQUIRED":
-		return FieldRepetitionType_REQUIRED, nil
-	case "OPTIONAL":
-		return FieldRepetitionType_OPTIONAL, nil
-	case "REPEATED":
-		return FieldRepetitionType_REPEATED, nil
-	}
-	return FieldRepetitionType(0), fmt.Errorf("not a valid FieldRepetitionType string")
-}
-
-func FieldRepetitionTypePtr(v FieldRepetitionType) *FieldRepetitionType { return &v }
-
-func (p FieldRepetitionType) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *FieldRepetitionType) UnmarshalText(text []byte) error {
-	q, err := FieldRepetitionTypeFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *FieldRepetitionType) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = FieldRepetitionType(v)
-	return nil
-}
-
-func (p *FieldRepetitionType) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-// Encodings supported by Parquet.  Not all encodings are valid for all types.  These
-// enums are also used to specify the encoding of definition and repetition levels.
-// See the accompanying doc for the details of the more complicated encodings.
-type Encoding int64
-
-const (
-	Encoding_PLAIN                   Encoding = 0
-	Encoding_PLAIN_DICTIONARY        Encoding = 2
-	Encoding_RLE                     Encoding = 3
-	Encoding_BIT_PACKED              Encoding = 4
-	Encoding_DELTA_BINARY_PACKED     Encoding = 5
-	Encoding_DELTA_LENGTH_BYTE_ARRAY Encoding = 6
-	Encoding_DELTA_BYTE_ARRAY        Encoding = 7
-	Encoding_RLE_DICTIONARY          Encoding = 8
-	Encoding_BYTE_STREAM_SPLIT       Encoding = 9
-)
-
-func (p Encoding) String() string {
-	switch p {
-	case Encoding_PLAIN:
-		return "PLAIN"
-	case Encoding_PLAIN_DICTIONARY:
-		return "PLAIN_DICTIONARY"
-	case Encoding_RLE:
-		return "RLE"
-	case Encoding_BIT_PACKED:
-		return "BIT_PACKED"
-	case Encoding_DELTA_BINARY_PACKED:
-		return "DELTA_BINARY_PACKED"
-	case Encoding_DELTA_LENGTH_BYTE_ARRAY:
-		return "DELTA_LENGTH_BYTE_ARRAY"
-	case Encoding_DELTA_BYTE_ARRAY:
-		return "DELTA_BYTE_ARRAY"
-	case Encoding_RLE_DICTIONARY:
-		return "RLE_DICTIONARY"
-	case Encoding_BYTE_STREAM_SPLIT:
-		return "BYTE_STREAM_SPLIT"
-	}
-	return "<UNSET>"
-}
-
-func EncodingFromString(s string) (Encoding, error) {
-	switch s {
-	case "PLAIN":
-		return Encoding_PLAIN, nil
-	case "PLAIN_DICTIONARY":
-		return Encoding_PLAIN_DICTIONARY, nil
-	case "RLE":
-		return Encoding_RLE, nil
-	case "BIT_PACKED":
-		return Encoding_BIT_PACKED, nil
-	case "DELTA_BINARY_PACKED":
-		return Encoding_DELTA_BINARY_PACKED, nil
-	case "DELTA_LENGTH_BYTE_ARRAY":
-		return Encoding_DELTA_LENGTH_BYTE_ARRAY, nil
-	case "DELTA_BYTE_ARRAY":
-		return Encoding_DELTA_BYTE_ARRAY, nil
-	case "RLE_DICTIONARY":
-		return Encoding_RLE_DICTIONARY, nil
-	case "BYTE_STREAM_SPLIT":
-		return Encoding_BYTE_STREAM_SPLIT, nil
-	}
-	return Encoding(0), fmt.Errorf("not a valid Encoding string")
-}
-
-func EncodingPtr(v Encoding) *Encoding { return &v }
-
-func (p Encoding) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *Encoding) UnmarshalText(text []byte) error {
-	q, err := EncodingFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *Encoding) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = Encoding(v)
-	return nil
-}
-
-func (p *Encoding) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-// Supported compression algorithms.
-//
-// Codecs added in format version X.Y can be read by readers based on X.Y and later.
-// Codec support may vary between readers based on the format version and
-// libraries available at runtime.
-//
-// See Compression.md for a detailed specification of these algorithms.
-type CompressionCodec int64
-
-const (
-	CompressionCodec_UNCOMPRESSED CompressionCodec = 0
-	CompressionCodec_SNAPPY       CompressionCodec = 1
-	CompressionCodec_GZIP         CompressionCodec = 2
-	CompressionCodec_LZO          CompressionCodec = 3
-	CompressionCodec_BROTLI       CompressionCodec = 4
-	CompressionCodec_LZ4          CompressionCodec = 5
-	CompressionCodec_ZSTD         CompressionCodec = 6
-	CompressionCodec_LZ4_RAW      CompressionCodec = 7
-)
-
-func (p CompressionCodec) String() string {
-	switch p {
-	case CompressionCodec_UNCOMPRESSED:
-		return "UNCOMPRESSED"
-	case CompressionCodec_SNAPPY:
-		return "SNAPPY"
-	case CompressionCodec_GZIP:
-		return "GZIP"
-	case CompressionCodec_LZO:
-		return "LZO"
-	case CompressionCodec_BROTLI:
-		return "BROTLI"
-	case CompressionCodec_LZ4:
-		return "LZ4"
-	case CompressionCodec_ZSTD:
-		return "ZSTD"
-	case CompressionCodec_LZ4_RAW:
-		return "LZ4_RAW"
-	}
-	return "<UNSET>"
-}
-
-func CompressionCodecFromString(s string) (CompressionCodec, error) {
-	switch s {
-	case "UNCOMPRESSED":
-		return CompressionCodec_UNCOMPRESSED, nil
-	case "SNAPPY":
-		return CompressionCodec_SNAPPY, nil
-	case "GZIP":
-		return CompressionCodec_GZIP, nil
-	case "LZO":
-		return CompressionCodec_LZO, nil
-	case "BROTLI":
-		return CompressionCodec_BROTLI, nil
-	case "LZ4":
-		return CompressionCodec_LZ4, nil
-	case "ZSTD":
-		return CompressionCodec_ZSTD, nil
-	case "LZ4_RAW":
-		return CompressionCodec_LZ4_RAW, nil
-	}
-	return CompressionCodec(0), fmt.Errorf("not a valid CompressionCodec string")
-}
-
-func CompressionCodecPtr(v CompressionCodec) *CompressionCodec { return &v }
-
-func (p CompressionCodec) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *CompressionCodec) UnmarshalText(text []byte) error {
-	q, err := CompressionCodecFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *CompressionCodec) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = CompressionCodec(v)
-	return nil
-}
-
-func (p *CompressionCodec) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-type PageType int64
-
-const (
-	PageType_DATA_PAGE       PageType = 0
-	PageType_INDEX_PAGE      PageType = 1
-	PageType_DICTIONARY_PAGE PageType = 2
-	PageType_DATA_PAGE_V2    PageType = 3
-)
-
-func (p PageType) String() string {
-	switch p {
-	case PageType_DATA_PAGE:
-		return "DATA_PAGE"
-	case PageType_INDEX_PAGE:
-		return "INDEX_PAGE"
-	case PageType_DICTIONARY_PAGE:
-		return "DICTIONARY_PAGE"
-	case PageType_DATA_PAGE_V2:
-		return "DATA_PAGE_V2"
-	}
-	return "<UNSET>"
-}
-
-func PageTypeFromString(s string) (PageType, error) {
-	switch s {
-	case "DATA_PAGE":
-		return PageType_DATA_PAGE, nil
-	case "INDEX_PAGE":
-		return PageType_INDEX_PAGE, nil
-	case "DICTIONARY_PAGE":
-		return PageType_DICTIONARY_PAGE, nil
-	case "DATA_PAGE_V2":
-		return PageType_DATA_PAGE_V2, nil
-	}
-	return PageType(0), fmt.Errorf("not a valid PageType string")
-}
-
-func PageTypePtr(v PageType) *PageType { return &v }
-
-func (p PageType) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *PageType) UnmarshalText(text []byte) error {
-	q, err := PageTypeFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *PageType) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = PageType(v)
-	return nil
-}
-
-func (p *PageType) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-// Enum to annotate whether lists of min/max elements inside ColumnIndex
-// are ordered and if so, in which direction.
-type BoundaryOrder int64
-
-const (
-	BoundaryOrder_UNORDERED  BoundaryOrder = 0
-	BoundaryOrder_ASCENDING  BoundaryOrder = 1
-	BoundaryOrder_DESCENDING BoundaryOrder = 2
-)
-
-func (p BoundaryOrder) String() string {
-	switch p {
-	case BoundaryOrder_UNORDERED:
-		return "UNORDERED"
-	case BoundaryOrder_ASCENDING:
-		return "ASCENDING"
-	case BoundaryOrder_DESCENDING:
-		return "DESCENDING"
-	}
-	return "<UNSET>"
-}
-
-func BoundaryOrderFromString(s string) (BoundaryOrder, error) {
-	switch s {
-	case "UNORDERED":
-		return BoundaryOrder_UNORDERED, nil
-	case "ASCENDING":
-		return BoundaryOrder_ASCENDING, nil
-	case "DESCENDING":
-		return BoundaryOrder_DESCENDING, nil
-	}
-	return BoundaryOrder(0), fmt.Errorf("not a valid BoundaryOrder string")
-}
-
-func BoundaryOrderPtr(v BoundaryOrder) *BoundaryOrder { return &v }
-
-func (p BoundaryOrder) MarshalText() ([]byte, error) {
-	return []byte(p.String()), nil
-}
-
-func (p *BoundaryOrder) UnmarshalText(text []byte) error {
-	q, err := BoundaryOrderFromString(string(text))
-	if err != nil {
-		return err
-	}
-	*p = q
-	return nil
-}
-
-func (p *BoundaryOrder) Scan(value interface{}) error {
-	v, ok := value.(int64)
-	if !ok {
-		return errors.New("Scan value is not int64")
-	}
-	*p = BoundaryOrder(v)
-	return nil
-}
-
-func (p *BoundaryOrder) Value() (driver.Value, error) {
-	if p == nil {
-		return nil, nil
-	}
-	return int64(*p), nil
-}
-
-// Statistics per row group and per page
-// All fields are optional.
-//
-// Attributes:
-//   - Max: DEPRECATED: min and max value of the column. Use min_value and max_value.
-//
-// Values are encoded using PLAIN encoding, except that variable-length byte
-// arrays do not include a length prefix.
-//
-// These fields encode min and max values determined by signed comparison
-// only. New files should use the correct order for a column's logical type
-// and store the values in the min_value and max_value fields.
-//
-// To support older readers, these may be set when the column order is
-// signed.
-//   - Min
-//   - NullCount: count of null value in the column
-//   - DistinctCount: count of distinct values occurring
-//   - MaxValue: Min and max values for the column, determined by its ColumnOrder.
-//
-// Values are encoded using PLAIN encoding, except that variable-length byte
-// arrays do not include a length prefix.
-//   - MinValue
-type Statistics struct {
-	Max           []byte `thrift:"max,1" db:"max" json:"max,omitempty"`
-	Min           []byte `thrift:"min,2" db:"min" json:"min,omitempty"`
-	NullCount     *int64 `thrift:"null_count,3" db:"null_count" json:"null_count,omitempty"`
-	DistinctCount *int64 `thrift:"distinct_count,4" db:"distinct_count" json:"distinct_count,omitempty"`
-	MaxValue      []byte `thrift:"max_value,5" db:"max_value" json:"max_value,omitempty"`
-	MinValue      []byte `thrift:"min_value,6" db:"min_value" json:"min_value,omitempty"`
-}
-
-func NewStatistics() *Statistics {
-	return &Statistics{}
-}
-
-var Statistics_Max_DEFAULT []byte
-
-func (p *Statistics) GetMax() []byte {
-	return p.Max
-}
-
-var Statistics_Min_DEFAULT []byte
-
-func (p *Statistics) GetMin() []byte {
-	return p.Min
-}
-
-var Statistics_NullCount_DEFAULT int64
-
-func (p *Statistics) GetNullCount() int64 {
-	if !p.IsSetNullCount() {
-		return Statistics_NullCount_DEFAULT
-	}
-	return *p.NullCount
-}
-
-var Statistics_DistinctCount_DEFAULT int64
-
-func (p *Statistics) GetDistinctCount() int64 {
-	if !p.IsSetDistinctCount() {
-		return Statistics_DistinctCount_DEFAULT
-	}
-	return *p.DistinctCount
-}
-
-var Statistics_MaxValue_DEFAULT []byte
-
-func (p *Statistics) GetMaxValue() []byte {
-	return p.MaxValue
-}
-
-var Statistics_MinValue_DEFAULT []byte
-
-func (p *Statistics) GetMinValue() []byte {
-	return p.MinValue
-}
-func (p *Statistics) IsSetMax() bool {
-	return p.Max != nil
-}
-
-func (p *Statistics) IsSetMin() bool {
-	return p.Min != nil
-}
-
-func (p *Statistics) IsSetNullCount() bool {
-	return p.NullCount != nil
-}
-
-func (p *Statistics) IsSetDistinctCount() bool {
-	return p.DistinctCount != nil
-}
-
-func (p *Statistics) IsSetMaxValue() bool {
-	return p.MaxValue != nil
-}
-
-func (p *Statistics) IsSetMinValue() bool {
-	return p.MinValue != nil
-}
-
-func (p *Statistics) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *Statistics) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.Max = v
-	}
-	return nil
-}
-
-func (p *Statistics) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.Min = v
-	}
-	return nil
-}
-
-func (p *Statistics) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.NullCount = &v
-	}
-	return nil
-}
-
-func (p *Statistics) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		p.DistinctCount = &v
-	}
-	return nil
-}
-
-func (p *Statistics) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 5: ", err)
-	} else {
-		p.MaxValue = v
-	}
-	return nil
-}
-
-func (p *Statistics) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		p.MinValue = v
-	}
-	return nil
-}
-
-func (p *Statistics) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "Statistics"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *Statistics) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMax() {
-		if err := oprot.WriteFieldBegin(ctx, "max", thrift.STRING, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:max: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.Max); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.max (1) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:max: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *Statistics) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMin() {
-		if err := oprot.WriteFieldBegin(ctx, "min", thrift.STRING, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:min: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.Min); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.min (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:min: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *Statistics) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetNullCount() {
-		if err := oprot.WriteFieldBegin(ctx, "null_count", thrift.I64, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:null_count: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.NullCount)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.null_count (3) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:null_count: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *Statistics) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDistinctCount() {
-		if err := oprot.WriteFieldBegin(ctx, "distinct_count", thrift.I64, 4); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:distinct_count: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.DistinctCount)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.distinct_count (4) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 4:distinct_count: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *Statistics) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMaxValue() {
-		if err := oprot.WriteFieldBegin(ctx, "max_value", thrift.STRING, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:max_value: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.MaxValue); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.max_value (5) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:max_value: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *Statistics) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMinValue() {
-		if err := oprot.WriteFieldBegin(ctx, "min_value", thrift.STRING, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:min_value: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.MinValue); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.min_value (6) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:min_value: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *Statistics) Equals(other *Statistics) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if bytes.Compare(p.Max, other.Max) != 0 {
-		return false
-	}
-	if bytes.Compare(p.Min, other.Min) != 0 {
-		return false
-	}
-	if p.NullCount != other.NullCount {
-		if p.NullCount == nil || other.NullCount == nil {
-			return false
-		}
-		if (*p.NullCount) != (*other.NullCount) {
-			return false
-		}
-	}
-	if p.DistinctCount != other.DistinctCount {
-		if p.DistinctCount == nil || other.DistinctCount == nil {
-			return false
-		}
-		if (*p.DistinctCount) != (*other.DistinctCount) {
-			return false
-		}
-	}
-	if bytes.Compare(p.MaxValue, other.MaxValue) != 0 {
-		return false
-	}
-	if bytes.Compare(p.MinValue, other.MinValue) != 0 {
-		return false
-	}
-	return true
-}
-
-func (p *Statistics) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("Statistics(%+v)", *p)
-}
-
-func (p *Statistics) Validate() error {
-	return nil
-}
-
-// Empty structs to use as logical type annotations
-type StringType struct {
-}
-
-func NewStringType() *StringType {
-	return &StringType{}
-}
-
-func (p *StringType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *StringType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "StringType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *StringType) Equals(other *StringType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *StringType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("StringType(%+v)", *p)
-}
-
-func (p *StringType) Validate() error {
-	return nil
-}
-
-type UUIDType struct {
-}
-
-func NewUUIDType() *UUIDType {
-	return &UUIDType{}
-}
-
-func (p *UUIDType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *UUIDType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "UUIDType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *UUIDType) Equals(other *UUIDType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *UUIDType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("UUIDType(%+v)", *p)
-}
-
-func (p *UUIDType) Validate() error {
-	return nil
-}
-
-type MapType struct {
-}
-
-func NewMapType() *MapType {
-	return &MapType{}
-}
-
-func (p *MapType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *MapType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "MapType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *MapType) Equals(other *MapType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *MapType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("MapType(%+v)", *p)
-}
-
-func (p *MapType) Validate() error {
-	return nil
-}
-
-type ListType struct {
-}
-
-func NewListType() *ListType {
-	return &ListType{}
-}
-
-func (p *ListType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *ListType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "ListType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *ListType) Equals(other *ListType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *ListType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("ListType(%+v)", *p)
-}
-
-func (p *ListType) Validate() error {
-	return nil
-}
-
-type EnumType struct {
-}
-
-func NewEnumType() *EnumType {
-	return &EnumType{}
-}
-
-func (p *EnumType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *EnumType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "EnumType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *EnumType) Equals(other *EnumType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *EnumType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("EnumType(%+v)", *p)
-}
-
-func (p *EnumType) Validate() error {
-	return nil
-}
-
-type DateType struct {
-}
-
-func NewDateType() *DateType {
-	return &DateType{}
-}
-
-func (p *DateType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *DateType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "DateType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *DateType) Equals(other *DateType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *DateType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("DateType(%+v)", *p)
-}
-
-func (p *DateType) Validate() error {
-	return nil
-}
-
-type Float16Type struct {
-}
-
-func NewFloat16Type() *Float16Type {
-	return &Float16Type{}
-}
-
-func (p *Float16Type) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *Float16Type) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "Float16Type"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *Float16Type) Equals(other *Float16Type) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *Float16Type) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("Float16Type(%+v)", *p)
-}
-
-func (p *Float16Type) Validate() error {
-	return nil
-}
-
-// Logical type to annotate a column that is always null.
-//
-// Sometimes when discovering the schema of existing data, values are always
-// null and the physical type can't be determined. This annotation signals
-// the case where the physical type was guessed from all null values.
-type NullType struct {
-}
-
-func NewNullType() *NullType {
-	return &NullType{}
-}
-
-func (p *NullType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *NullType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "NullType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *NullType) Equals(other *NullType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *NullType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("NullType(%+v)", *p)
-}
-
-func (p *NullType) Validate() error {
-	return nil
-}
-
-// Decimal logical type annotation
-//
-// To maintain forward-compatibility in v1, implementations using this logical
-// type must also set scale and precision on the annotated SchemaElement.
-//
-// Allowed for physical types: INT32, INT64, FIXED, and BINARY
-//
-// Attributes:
-//   - Scale
-//   - Precision
-type DecimalType struct {
-	Scale     int32 `thrift:"scale,1,required" db:"scale" json:"scale"`
-	Precision int32 `thrift:"precision,2,required" db:"precision" json:"precision"`
-}
-
-func NewDecimalType() *DecimalType {
-	return &DecimalType{}
-}
-
-func (p *DecimalType) GetScale() int32 {
-	return p.Scale
-}
-
-func (p *DecimalType) GetPrecision() int32 {
-	return p.Precision
-}
-func (p *DecimalType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetScale bool = false
-	var issetPrecision bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetScale = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetPrecision = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetScale {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Scale is not set"))
-	}
-	if !issetPrecision {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Precision is not set"))
-	}
-	return nil
-}
-
-func (p *DecimalType) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.Scale = v
-	}
-	return nil
-}
-
-func (p *DecimalType) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.Precision = v
-	}
-	return nil
-}
-
-func (p *DecimalType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "DecimalType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *DecimalType) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "scale", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:scale: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Scale)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.scale (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:scale: ", p), err)
-	}
-	return err
-}
-
-func (p *DecimalType) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "precision", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:precision: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Precision)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.precision (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:precision: ", p), err)
-	}
-	return err
-}
-
-func (p *DecimalType) Equals(other *DecimalType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Scale != other.Scale {
-		return false
-	}
-	if p.Precision != other.Precision {
-		return false
-	}
-	return true
-}
-
-func (p *DecimalType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("DecimalType(%+v)", *p)
-}
-
-func (p *DecimalType) Validate() error {
-	return nil
-}
-
-// Time units for logical types
-type MilliSeconds struct {
-}
-
-func NewMilliSeconds() *MilliSeconds {
-	return &MilliSeconds{}
-}
-
-func (p *MilliSeconds) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *MilliSeconds) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "MilliSeconds"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *MilliSeconds) Equals(other *MilliSeconds) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *MilliSeconds) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("MilliSeconds(%+v)", *p)
-}
-
-func (p *MilliSeconds) Validate() error {
-	return nil
-}
-
-type MicroSeconds struct {
-}
-
-func NewMicroSeconds() *MicroSeconds {
-	return &MicroSeconds{}
-}
-
-func (p *MicroSeconds) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *MicroSeconds) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "MicroSeconds"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *MicroSeconds) Equals(other *MicroSeconds) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *MicroSeconds) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("MicroSeconds(%+v)", *p)
-}
-
-func (p *MicroSeconds) Validate() error {
-	return nil
-}
-
-type NanoSeconds struct {
-}
-
-func NewNanoSeconds() *NanoSeconds {
-	return &NanoSeconds{}
-}
-
-func (p *NanoSeconds) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *NanoSeconds) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "NanoSeconds"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *NanoSeconds) Equals(other *NanoSeconds) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *NanoSeconds) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("NanoSeconds(%+v)", *p)
-}
-
-func (p *NanoSeconds) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - MILLIS
-//   - MICROS
-//   - NANOS
-type TimeUnit struct {
-	MILLIS *MilliSeconds `thrift:"MILLIS,1" db:"MILLIS" json:"MILLIS,omitempty"`
-	MICROS *MicroSeconds `thrift:"MICROS,2" db:"MICROS" json:"MICROS,omitempty"`
-	NANOS  *NanoSeconds  `thrift:"NANOS,3" db:"NANOS" json:"NANOS,omitempty"`
-}
-
-func NewTimeUnit() *TimeUnit {
-	return &TimeUnit{}
-}
-
-var TimeUnit_MILLIS_DEFAULT *MilliSeconds
-
-func (p *TimeUnit) GetMILLIS() *MilliSeconds {
-	if !p.IsSetMILLIS() {
-		return TimeUnit_MILLIS_DEFAULT
-	}
-	return p.MILLIS
-}
-
-var TimeUnit_MICROS_DEFAULT *MicroSeconds
-
-func (p *TimeUnit) GetMICROS() *MicroSeconds {
-	if !p.IsSetMICROS() {
-		return TimeUnit_MICROS_DEFAULT
-	}
-	return p.MICROS
-}
-
-var TimeUnit_NANOS_DEFAULT *NanoSeconds
-
-func (p *TimeUnit) GetNANOS() *NanoSeconds {
-	if !p.IsSetNANOS() {
-		return TimeUnit_NANOS_DEFAULT
-	}
-	return p.NANOS
-}
-func (p *TimeUnit) CountSetFieldsTimeUnit() int {
-	count := 0
-	if p.IsSetMILLIS() {
-		count++
-	}
-	if p.IsSetMICROS() {
-		count++
-	}
-	if p.IsSetNANOS() {
-		count++
-	}
-	return count
-
-}
-
-func (p *TimeUnit) IsSetMILLIS() bool {
-	return p.MILLIS != nil
-}
-
-func (p *TimeUnit) IsSetMICROS() bool {
-	return p.MICROS != nil
-}
-
-func (p *TimeUnit) IsSetNANOS() bool {
-	return p.NANOS != nil
-}
-
-func (p *TimeUnit) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *TimeUnit) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.MILLIS = &MilliSeconds{}
-	if err := p.MILLIS.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.MILLIS), err)
-	}
-	return nil
-}
-
-func (p *TimeUnit) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.MICROS = &MicroSeconds{}
-	if err := p.MICROS.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.MICROS), err)
-	}
-	return nil
-}
-
-func (p *TimeUnit) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	p.NANOS = &NanoSeconds{}
-	if err := p.NANOS.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.NANOS), err)
-	}
-	return nil
-}
-
-func (p *TimeUnit) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsTimeUnit(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "TimeUnit"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *TimeUnit) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMILLIS() {
-		if err := oprot.WriteFieldBegin(ctx, "MILLIS", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:MILLIS: ", p), err)
-		}
-		if err := p.MILLIS.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.MILLIS), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:MILLIS: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *TimeUnit) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMICROS() {
-		if err := oprot.WriteFieldBegin(ctx, "MICROS", thrift.STRUCT, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:MICROS: ", p), err)
-		}
-		if err := p.MICROS.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.MICROS), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:MICROS: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *TimeUnit) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetNANOS() {
-		if err := oprot.WriteFieldBegin(ctx, "NANOS", thrift.STRUCT, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:NANOS: ", p), err)
-		}
-		if err := p.NANOS.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.NANOS), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:NANOS: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *TimeUnit) Equals(other *TimeUnit) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.MILLIS.Equals(other.MILLIS) {
-		return false
-	}
-	if !p.MICROS.Equals(other.MICROS) {
-		return false
-	}
-	if !p.NANOS.Equals(other.NANOS) {
-		return false
-	}
-	return true
-}
-
-func (p *TimeUnit) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("TimeUnit(%+v)", *p)
-}
-
-func (p *TimeUnit) Validate() error {
-	return nil
-}
-
-// Timestamp logical type annotation
-//
-// Allowed for physical types: INT64
-//
-// Attributes:
-//   - IsAdjustedToUTC
-//   - Unit
-type TimestampType struct {
-	IsAdjustedToUTC bool      `thrift:"isAdjustedToUTC,1,required" db:"isAdjustedToUTC" json:"isAdjustedToUTC"`
-	Unit            *TimeUnit `thrift:"unit,2,required" db:"unit" json:"unit"`
-}
-
-func NewTimestampType() *TimestampType {
-	return &TimestampType{}
-}
-
-func (p *TimestampType) GetIsAdjustedToUTC() bool {
-	return p.IsAdjustedToUTC
-}
-
-var TimestampType_Unit_DEFAULT *TimeUnit
-
-func (p *TimestampType) GetUnit() *TimeUnit {
-	if !p.IsSetUnit() {
-		return TimestampType_Unit_DEFAULT
-	}
-	return p.Unit
-}
-func (p *TimestampType) IsSetUnit() bool {
-	return p.Unit != nil
-}
-
-func (p *TimestampType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetIsAdjustedToUTC bool = false
-	var issetUnit bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetIsAdjustedToUTC = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetUnit = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetIsAdjustedToUTC {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field IsAdjustedToUTC is not set"))
-	}
-	if !issetUnit {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Unit is not set"))
-	}
-	return nil
-}
-
-func (p *TimestampType) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.IsAdjustedToUTC = v
-	}
-	return nil
-}
-
-func (p *TimestampType) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Unit = &TimeUnit{}
-	if err := p.Unit.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Unit), err)
-	}
-	return nil
-}
-
-func (p *TimestampType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "TimestampType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *TimestampType) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "isAdjustedToUTC", thrift.BOOL, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:isAdjustedToUTC: ", p), err)
-	}
-	if err := oprot.WriteBool(ctx, bool(p.IsAdjustedToUTC)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.isAdjustedToUTC (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:isAdjustedToUTC: ", p), err)
-	}
-	return err
-}
-
-func (p *TimestampType) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "unit", thrift.STRUCT, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:unit: ", p), err)
-	}
-	if err := p.Unit.Write(ctx, oprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Unit), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:unit: ", p), err)
-	}
-	return err
-}
-
-func (p *TimestampType) Equals(other *TimestampType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.IsAdjustedToUTC != other.IsAdjustedToUTC {
-		return false
-	}
-	if !p.Unit.Equals(other.Unit) {
-		return false
-	}
-	return true
-}
-
-func (p *TimestampType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("TimestampType(%+v)", *p)
-}
-
-func (p *TimestampType) Validate() error {
-	return nil
-}
-
-// Time logical type annotation
-//
-// Allowed for physical types: INT32 (millis), INT64 (micros, nanos)
-//
-// Attributes:
-//   - IsAdjustedToUTC
-//   - Unit
-type TimeType struct {
-	IsAdjustedToUTC bool      `thrift:"isAdjustedToUTC,1,required" db:"isAdjustedToUTC" json:"isAdjustedToUTC"`
-	Unit            *TimeUnit `thrift:"unit,2,required" db:"unit" json:"unit"`
-}
-
-func NewTimeType() *TimeType {
-	return &TimeType{}
-}
-
-func (p *TimeType) GetIsAdjustedToUTC() bool {
-	return p.IsAdjustedToUTC
-}
-
-var TimeType_Unit_DEFAULT *TimeUnit
-
-func (p *TimeType) GetUnit() *TimeUnit {
-	if !p.IsSetUnit() {
-		return TimeType_Unit_DEFAULT
-	}
-	return p.Unit
-}
-func (p *TimeType) IsSetUnit() bool {
-	return p.Unit != nil
-}
-
-func (p *TimeType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetIsAdjustedToUTC bool = false
-	var issetUnit bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetIsAdjustedToUTC = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetUnit = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetIsAdjustedToUTC {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field IsAdjustedToUTC is not set"))
-	}
-	if !issetUnit {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Unit is not set"))
-	}
-	return nil
-}
-
-func (p *TimeType) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.IsAdjustedToUTC = v
-	}
-	return nil
-}
-
-func (p *TimeType) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Unit = &TimeUnit{}
-	if err := p.Unit.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Unit), err)
-	}
-	return nil
-}
-
-func (p *TimeType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "TimeType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *TimeType) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "isAdjustedToUTC", thrift.BOOL, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:isAdjustedToUTC: ", p), err)
-	}
-	if err := oprot.WriteBool(ctx, bool(p.IsAdjustedToUTC)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.isAdjustedToUTC (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:isAdjustedToUTC: ", p), err)
-	}
-	return err
-}
-
-func (p *TimeType) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "unit", thrift.STRUCT, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:unit: ", p), err)
-	}
-	if err := p.Unit.Write(ctx, oprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Unit), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:unit: ", p), err)
-	}
-	return err
-}
-
-func (p *TimeType) Equals(other *TimeType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.IsAdjustedToUTC != other.IsAdjustedToUTC {
-		return false
-	}
-	if !p.Unit.Equals(other.Unit) {
-		return false
-	}
-	return true
-}
-
-func (p *TimeType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("TimeType(%+v)", *p)
-}
-
-func (p *TimeType) Validate() error {
-	return nil
-}
-
-// Integer logical type annotation
-//
-// bitWidth must be 8, 16, 32, or 64.
-//
-// Allowed for physical types: INT32, INT64
-//
-// Attributes:
-//   - BitWidth
-//   - IsSigned
-type IntType struct {
-	BitWidth int8 `thrift:"bitWidth,1,required" db:"bitWidth" json:"bitWidth"`
-	IsSigned bool `thrift:"isSigned,2,required" db:"isSigned" json:"isSigned"`
-}
-
-func NewIntType() *IntType {
-	return &IntType{}
-}
-
-func (p *IntType) GetBitWidth() int8 {
-	return p.BitWidth
-}
-
-func (p *IntType) GetIsSigned() bool {
-	return p.IsSigned
-}
-func (p *IntType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetBitWidth bool = false
-	var issetIsSigned bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.BYTE {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetBitWidth = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetIsSigned = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetBitWidth {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field BitWidth is not set"))
-	}
-	if !issetIsSigned {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field IsSigned is not set"))
-	}
-	return nil
-}
-
-func (p *IntType) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadByte(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		temp := int8(v)
-		p.BitWidth = temp
-	}
-	return nil
-}
-
-func (p *IntType) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.IsSigned = v
-	}
-	return nil
-}
-
-func (p *IntType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "IntType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *IntType) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "bitWidth", thrift.BYTE, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:bitWidth: ", p), err)
-	}
-	if err := oprot.WriteByte(ctx, int8(p.BitWidth)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.bitWidth (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:bitWidth: ", p), err)
-	}
-	return err
-}
-
-func (p *IntType) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "isSigned", thrift.BOOL, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:isSigned: ", p), err)
-	}
-	if err := oprot.WriteBool(ctx, bool(p.IsSigned)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.isSigned (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:isSigned: ", p), err)
-	}
-	return err
-}
-
-func (p *IntType) Equals(other *IntType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.BitWidth != other.BitWidth {
-		return false
-	}
-	if p.IsSigned != other.IsSigned {
-		return false
-	}
-	return true
-}
-
-func (p *IntType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("IntType(%+v)", *p)
-}
-
-func (p *IntType) Validate() error {
-	return nil
-}
-
-// Embedded JSON logical type annotation
-//
-// Allowed for physical types: BINARY
-type JsonType struct {
-}
-
-func NewJsonType() *JsonType {
-	return &JsonType{}
-}
-
-func (p *JsonType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *JsonType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "JsonType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *JsonType) Equals(other *JsonType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *JsonType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("JsonType(%+v)", *p)
-}
-
-func (p *JsonType) Validate() error {
-	return nil
-}
-
-// Embedded BSON logical type annotation
-//
-// Allowed for physical types: BINARY
-type BsonType struct {
-}
-
-func NewBsonType() *BsonType {
-	return &BsonType{}
-}
-
-func (p *BsonType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *BsonType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "BsonType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *BsonType) Equals(other *BsonType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *BsonType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("BsonType(%+v)", *p)
-}
-
-func (p *BsonType) Validate() error {
-	return nil
-}
-
-// LogicalType annotations to replace ConvertedType.
-//
-// To maintain compatibility, implementations using LogicalType for a
-// SchemaElement must also set the corresponding ConvertedType (if any)
-// from the following table.
-//
-// Attributes:
-//   - STRING
-//   - MAP
-//   - LIST
-//   - ENUM
-//   - DECIMAL
-//   - DATE
-//   - TIME
-//   - TIMESTAMP
-//   - INTEGER
-//   - UNKNOWN
-//   - JSON
-//   - BSON
-//   - UUID
-//   - FLOAT16
-type LogicalType struct {
-	STRING    *StringType    `thrift:"STRING,1" db:"STRING" json:"STRING,omitempty"`
-	MAP       *MapType       `thrift:"MAP,2" db:"MAP" json:"MAP,omitempty"`
-	LIST      *ListType      `thrift:"LIST,3" db:"LIST" json:"LIST,omitempty"`
-	ENUM      *EnumType      `thrift:"ENUM,4" db:"ENUM" json:"ENUM,omitempty"`
-	DECIMAL   *DecimalType   `thrift:"DECIMAL,5" db:"DECIMAL" json:"DECIMAL,omitempty"`
-	DATE      *DateType      `thrift:"DATE,6" db:"DATE" json:"DATE,omitempty"`
-	TIME      *TimeType      `thrift:"TIME,7" db:"TIME" json:"TIME,omitempty"`
-	TIMESTAMP *TimestampType `thrift:"TIMESTAMP,8" db:"TIMESTAMP" json:"TIMESTAMP,omitempty"`
-	// unused field # 9
-	INTEGER *IntType     `thrift:"INTEGER,10" db:"INTEGER" json:"INTEGER,omitempty"`
-	UNKNOWN *NullType    `thrift:"UNKNOWN,11" db:"UNKNOWN" json:"UNKNOWN,omitempty"`
-	JSON    *JsonType    `thrift:"JSON,12" db:"JSON" json:"JSON,omitempty"`
-	BSON    *BsonType    `thrift:"BSON,13" db:"BSON" json:"BSON,omitempty"`
-	UUID    *UUIDType    `thrift:"UUID,14" db:"UUID" json:"UUID,omitempty"`
-	FLOAT16 *Float16Type `thrift:"FLOAT16,15" db:"FLOAT16" json:"FLOAT16,omitempty"`
-}
-
-func NewLogicalType() *LogicalType {
-	return &LogicalType{}
-}
-
-var LogicalType_STRING_DEFAULT *StringType
-
-func (p *LogicalType) GetSTRING() *StringType {
-	if !p.IsSetSTRING() {
-		return LogicalType_STRING_DEFAULT
-	}
-	return p.STRING
-}
-
-var LogicalType_MAP_DEFAULT *MapType
-
-func (p *LogicalType) GetMAP() *MapType {
-	if !p.IsSetMAP() {
-		return LogicalType_MAP_DEFAULT
-	}
-	return p.MAP
-}
-
-var LogicalType_LIST_DEFAULT *ListType
-
-func (p *LogicalType) GetLIST() *ListType {
-	if !p.IsSetLIST() {
-		return LogicalType_LIST_DEFAULT
-	}
-	return p.LIST
-}
-
-var LogicalType_ENUM_DEFAULT *EnumType
-
-func (p *LogicalType) GetENUM() *EnumType {
-	if !p.IsSetENUM() {
-		return LogicalType_ENUM_DEFAULT
-	}
-	return p.ENUM
-}
-
-var LogicalType_DECIMAL_DEFAULT *DecimalType
-
-func (p *LogicalType) GetDECIMAL() *DecimalType {
-	if !p.IsSetDECIMAL() {
-		return LogicalType_DECIMAL_DEFAULT
-	}
-	return p.DECIMAL
-}
-
-var LogicalType_DATE_DEFAULT *DateType
-
-func (p *LogicalType) GetDATE() *DateType {
-	if !p.IsSetDATE() {
-		return LogicalType_DATE_DEFAULT
-	}
-	return p.DATE
-}
-
-var LogicalType_TIME_DEFAULT *TimeType
-
-func (p *LogicalType) GetTIME() *TimeType {
-	if !p.IsSetTIME() {
-		return LogicalType_TIME_DEFAULT
-	}
-	return p.TIME
-}
-
-var LogicalType_TIMESTAMP_DEFAULT *TimestampType
-
-func (p *LogicalType) GetTIMESTAMP() *TimestampType {
-	if !p.IsSetTIMESTAMP() {
-		return LogicalType_TIMESTAMP_DEFAULT
-	}
-	return p.TIMESTAMP
-}
-
-var LogicalType_INTEGER_DEFAULT *IntType
-
-func (p *LogicalType) GetINTEGER() *IntType {
-	if !p.IsSetINTEGER() {
-		return LogicalType_INTEGER_DEFAULT
-	}
-	return p.INTEGER
-}
-
-var LogicalType_UNKNOWN_DEFAULT *NullType
-
-func (p *LogicalType) GetUNKNOWN() *NullType {
-	if !p.IsSetUNKNOWN() {
-		return LogicalType_UNKNOWN_DEFAULT
-	}
-	return p.UNKNOWN
-}
-
-var LogicalType_JSON_DEFAULT *JsonType
-
-func (p *LogicalType) GetJSON() *JsonType {
-	if !p.IsSetJSON() {
-		return LogicalType_JSON_DEFAULT
-	}
-	return p.JSON
-}
-
-var LogicalType_BSON_DEFAULT *BsonType
-
-func (p *LogicalType) GetBSON() *BsonType {
-	if !p.IsSetBSON() {
-		return LogicalType_BSON_DEFAULT
-	}
-	return p.BSON
-}
-
-var LogicalType_UUID_DEFAULT *UUIDType
-
-func (p *LogicalType) GetUUID() *UUIDType {
-	if !p.IsSetUUID() {
-		return LogicalType_UUID_DEFAULT
-	}
-	return p.UUID
-}
-
-var LogicalType_FLOAT16_DEFAULT *Float16Type
-
-func (p *LogicalType) GetFLOAT16() *Float16Type {
-	if !p.IsSetFLOAT16() {
-		return LogicalType_FLOAT16_DEFAULT
-	}
-	return p.FLOAT16
-}
-func (p *LogicalType) CountSetFieldsLogicalType() int {
-	count := 0
-	if p.IsSetSTRING() {
-		count++
-	}
-	if p.IsSetMAP() {
-		count++
-	}
-	if p.IsSetLIST() {
-		count++
-	}
-	if p.IsSetENUM() {
-		count++
-	}
-	if p.IsSetDECIMAL() {
-		count++
-	}
-	if p.IsSetDATE() {
-		count++
-	}
-	if p.IsSetTIME() {
-		count++
-	}
-	if p.IsSetTIMESTAMP() {
-		count++
-	}
-	if p.IsSetINTEGER() {
-		count++
-	}
-	if p.IsSetUNKNOWN() {
-		count++
-	}
-	if p.IsSetJSON() {
-		count++
-	}
-	if p.IsSetBSON() {
-		count++
-	}
-	if p.IsSetUUID() {
-		count++
-	}
-	if p.IsSetFLOAT16() {
-		count++
-	}
-	return count
-
-}
-
-func (p *LogicalType) IsSetSTRING() bool {
-	return p.STRING != nil
-}
-
-func (p *LogicalType) IsSetMAP() bool {
-	return p.MAP != nil
-}
-
-func (p *LogicalType) IsSetLIST() bool {
-	return p.LIST != nil
-}
-
-func (p *LogicalType) IsSetENUM() bool {
-	return p.ENUM != nil
-}
-
-func (p *LogicalType) IsSetDECIMAL() bool {
-	return p.DECIMAL != nil
-}
-
-func (p *LogicalType) IsSetDATE() bool {
-	return p.DATE != nil
-}
-
-func (p *LogicalType) IsSetTIME() bool {
-	return p.TIME != nil
-}
-
-func (p *LogicalType) IsSetTIMESTAMP() bool {
-	return p.TIMESTAMP != nil
-}
-
-func (p *LogicalType) IsSetINTEGER() bool {
-	return p.INTEGER != nil
-}
-
-func (p *LogicalType) IsSetUNKNOWN() bool {
-	return p.UNKNOWN != nil
-}
-
-func (p *LogicalType) IsSetJSON() bool {
-	return p.JSON != nil
-}
-
-func (p *LogicalType) IsSetBSON() bool {
-	return p.BSON != nil
-}
-
-func (p *LogicalType) IsSetUUID() bool {
-	return p.UUID != nil
-}
-
-func (p *LogicalType) IsSetFLOAT16() bool {
-	return p.FLOAT16 != nil
-}
-
-func (p *LogicalType) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 10:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField10(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 11:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField11(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 12:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField12(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 13:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField13(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 14:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField14(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 15:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField15(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.STRING = &StringType{}
-	if err := p.STRING.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.STRING), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.MAP = &MapType{}
-	if err := p.MAP.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.MAP), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	p.LIST = &ListType{}
-	if err := p.LIST.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.LIST), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	p.ENUM = &EnumType{}
-	if err := p.ENUM.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.ENUM), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	p.DECIMAL = &DecimalType{}
-	if err := p.DECIMAL.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.DECIMAL), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	p.DATE = &DateType{}
-	if err := p.DATE.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.DATE), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	p.TIME = &TimeType{}
-	if err := p.TIME.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.TIME), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	p.TIMESTAMP = &TimestampType{}
-	if err := p.TIMESTAMP.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.TIMESTAMP), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField10(ctx context.Context, iprot thrift.TProtocol) error {
-	p.INTEGER = &IntType{}
-	if err := p.INTEGER.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.INTEGER), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField11(ctx context.Context, iprot thrift.TProtocol) error {
-	p.UNKNOWN = &NullType{}
-	if err := p.UNKNOWN.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.UNKNOWN), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField12(ctx context.Context, iprot thrift.TProtocol) error {
-	p.JSON = &JsonType{}
-	if err := p.JSON.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.JSON), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField13(ctx context.Context, iprot thrift.TProtocol) error {
-	p.BSON = &BsonType{}
-	if err := p.BSON.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.BSON), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField14(ctx context.Context, iprot thrift.TProtocol) error {
-	p.UUID = &UUIDType{}
-	if err := p.UUID.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.UUID), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) ReadField15(ctx context.Context, iprot thrift.TProtocol) error {
-	p.FLOAT16 = &Float16Type{}
-	if err := p.FLOAT16.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.FLOAT16), err)
-	}
-	return nil
-}
-
-func (p *LogicalType) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsLogicalType(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "LogicalType"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField10(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField11(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField12(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField13(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField14(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField15(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *LogicalType) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetSTRING() {
-		if err := oprot.WriteFieldBegin(ctx, "STRING", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:STRING: ", p), err)
-		}
-		if err := p.STRING.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.STRING), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:STRING: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMAP() {
-		if err := oprot.WriteFieldBegin(ctx, "MAP", thrift.STRUCT, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:MAP: ", p), err)
-		}
-		if err := p.MAP.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.MAP), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:MAP: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetLIST() {
-		if err := oprot.WriteFieldBegin(ctx, "LIST", thrift.STRUCT, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:LIST: ", p), err)
-		}
-		if err := p.LIST.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.LIST), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:LIST: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetENUM() {
-		if err := oprot.WriteFieldBegin(ctx, "ENUM", thrift.STRUCT, 4); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:ENUM: ", p), err)
-		}
-		if err := p.ENUM.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.ENUM), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 4:ENUM: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDECIMAL() {
-		if err := oprot.WriteFieldBegin(ctx, "DECIMAL", thrift.STRUCT, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:DECIMAL: ", p), err)
-		}
-		if err := p.DECIMAL.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.DECIMAL), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:DECIMAL: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDATE() {
-		if err := oprot.WriteFieldBegin(ctx, "DATE", thrift.STRUCT, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:DATE: ", p), err)
-		}
-		if err := p.DATE.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.DATE), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:DATE: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetTIME() {
-		if err := oprot.WriteFieldBegin(ctx, "TIME", thrift.STRUCT, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:TIME: ", p), err)
-		}
-		if err := p.TIME.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.TIME), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:TIME: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetTIMESTAMP() {
-		if err := oprot.WriteFieldBegin(ctx, "TIMESTAMP", thrift.STRUCT, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:TIMESTAMP: ", p), err)
-		}
-		if err := p.TIMESTAMP.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.TIMESTAMP), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:TIMESTAMP: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField10(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetINTEGER() {
-		if err := oprot.WriteFieldBegin(ctx, "INTEGER", thrift.STRUCT, 10); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 10:INTEGER: ", p), err)
-		}
-		if err := p.INTEGER.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.INTEGER), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 10:INTEGER: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField11(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetUNKNOWN() {
-		if err := oprot.WriteFieldBegin(ctx, "UNKNOWN", thrift.STRUCT, 11); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 11:UNKNOWN: ", p), err)
-		}
-		if err := p.UNKNOWN.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.UNKNOWN), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 11:UNKNOWN: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField12(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetJSON() {
-		if err := oprot.WriteFieldBegin(ctx, "JSON", thrift.STRUCT, 12); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 12:JSON: ", p), err)
-		}
-		if err := p.JSON.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.JSON), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 12:JSON: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField13(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetBSON() {
-		if err := oprot.WriteFieldBegin(ctx, "BSON", thrift.STRUCT, 13); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 13:BSON: ", p), err)
-		}
-		if err := p.BSON.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.BSON), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 13:BSON: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField14(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetUUID() {
-		if err := oprot.WriteFieldBegin(ctx, "UUID", thrift.STRUCT, 14); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 14:UUID: ", p), err)
-		}
-		if err := p.UUID.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.UUID), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 14:UUID: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) writeField15(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetFLOAT16() {
-		if err := oprot.WriteFieldBegin(ctx, "FLOAT16", thrift.STRUCT, 15); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 15:FLOAT16: ", p), err)
-		}
-		if err := p.FLOAT16.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.FLOAT16), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 15:FLOAT16: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *LogicalType) Equals(other *LogicalType) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.STRING.Equals(other.STRING) {
-		return false
-	}
-	if !p.MAP.Equals(other.MAP) {
-		return false
-	}
-	if !p.LIST.Equals(other.LIST) {
-		return false
-	}
-	if !p.ENUM.Equals(other.ENUM) {
-		return false
-	}
-	if !p.DECIMAL.Equals(other.DECIMAL) {
-		return false
-	}
-	if !p.DATE.Equals(other.DATE) {
-		return false
-	}
-	if !p.TIME.Equals(other.TIME) {
-		return false
-	}
-	if !p.TIMESTAMP.Equals(other.TIMESTAMP) {
-		return false
-	}
-	if !p.INTEGER.Equals(other.INTEGER) {
-		return false
-	}
-	if !p.UNKNOWN.Equals(other.UNKNOWN) {
-		return false
-	}
-	if !p.JSON.Equals(other.JSON) {
-		return false
-	}
-	if !p.BSON.Equals(other.BSON) {
-		return false
-	}
-	if !p.UUID.Equals(other.UUID) {
-		return false
-	}
-	if !p.FLOAT16.Equals(other.FLOAT16) {
-		return false
-	}
-	return true
-}
-
-func (p *LogicalType) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("LogicalType(%+v)", *p)
-}
-
-func (p *LogicalType) Validate() error {
-	return nil
-}
-
-// Represents a element inside a schema definition.
-//   - if it is a group (inner node) then type is undefined and num_children is defined
-//   - if it is a primitive type (leaf) then type is defined and num_children is undefined
-//
-// the nodes are listed in depth first traversal order.
-//
-// Attributes:
-//   - Type: Data type for this field. Not set if the current element is a non-leaf node
-//   - TypeLength: If type is FIXED_LEN_BYTE_ARRAY, this is the byte length of the values.
-//
-// Otherwise, if specified, this is the maximum bit length to store any of the values.
-// (e.g. a low cardinality INT col could have this set to 3).  Note that this is
-// in the schema, and therefore fixed for the entire file.
-//   - RepetitionType: repetition of the field. The root of the schema does not have a repetition_type.
-//
-// All other nodes must have one
-//   - Name: Name of the field in the schema
-//   - NumChildren: Nested fields.  Since thrift does not support nested fields,
-//
-// the nesting is flattened to a single list by a depth-first traversal.
-// The children count is used to construct the nested relationship.
-// This field is not set when the element is a primitive type
-//   - ConvertedType: DEPRECATED: When the schema is the result of a conversion from another model.
-//
-// Used to record the original type to help with cross conversion.
-//
-// This is superseded by logicalType.
-//   - Scale: DEPRECATED: Used when this column contains decimal data.
-//
-// See the DECIMAL converted type for more details.
-//
-// This is superseded by using the DecimalType annotation in logicalType.
-//   - Precision
-//   - FieldID: When the original schema supports field ids, this will save the
-//
-// original field id in the parquet schema
-//   - LogicalType: The logical type of this SchemaElement
-//
-// LogicalType replaces ConvertedType, but ConvertedType is still required
-// for some logical types to ensure forward-compatibility in format v1.
-type SchemaElement struct {
-	Type           *Type                `thrift:"type,1" db:"type" json:"type,omitempty"`
-	TypeLength     *int32               `thrift:"type_length,2" db:"type_length" json:"type_length,omitempty"`
-	RepetitionType *FieldRepetitionType `thrift:"repetition_type,3" db:"repetition_type" json:"repetition_type,omitempty"`
-	Name           string               `thrift:"name,4,required" db:"name" json:"name"`
-	NumChildren    *int32               `thrift:"num_children,5" db:"num_children" json:"num_children,omitempty"`
-	ConvertedType  *ConvertedType       `thrift:"converted_type,6" db:"converted_type" json:"converted_type,omitempty"`
-	Scale          *int32               `thrift:"scale,7" db:"scale" json:"scale,omitempty"`
-	Precision      *int32               `thrift:"precision,8" db:"precision" json:"precision,omitempty"`
-	FieldID        *int32               `thrift:"field_id,9" db:"field_id" json:"field_id,omitempty"`
-	LogicalType    *LogicalType         `thrift:"logicalType,10" db:"logicalType" json:"logicalType,omitempty"`
-}
-
-func NewSchemaElement() *SchemaElement {
-	return &SchemaElement{}
-}
-
-var SchemaElement_Type_DEFAULT Type
-
-func (p *SchemaElement) GetType() Type {
-	if !p.IsSetType() {
-		return SchemaElement_Type_DEFAULT
-	}
-	return *p.Type
-}
-
-var SchemaElement_TypeLength_DEFAULT int32
-
-func (p *SchemaElement) GetTypeLength() int32 {
-	if !p.IsSetTypeLength() {
-		return SchemaElement_TypeLength_DEFAULT
-	}
-	return *p.TypeLength
-}
-
-var SchemaElement_RepetitionType_DEFAULT FieldRepetitionType
-
-func (p *SchemaElement) GetRepetitionType() FieldRepetitionType {
-	if !p.IsSetRepetitionType() {
-		return SchemaElement_RepetitionType_DEFAULT
-	}
-	return *p.RepetitionType
-}
-
-func (p *SchemaElement) GetName() string {
-	return p.Name
-}
-
-var SchemaElement_NumChildren_DEFAULT int32
-
-func (p *SchemaElement) GetNumChildren() int32 {
-	if !p.IsSetNumChildren() {
-		return SchemaElement_NumChildren_DEFAULT
-	}
-	return *p.NumChildren
-}
-
-var SchemaElement_ConvertedType_DEFAULT ConvertedType
-
-func (p *SchemaElement) GetConvertedType() ConvertedType {
-	if !p.IsSetConvertedType() {
-		return SchemaElement_ConvertedType_DEFAULT
-	}
-	return *p.ConvertedType
-}
-
-var SchemaElement_Scale_DEFAULT int32
-
-func (p *SchemaElement) GetScale() int32 {
-	if !p.IsSetScale() {
-		return SchemaElement_Scale_DEFAULT
-	}
-	return *p.Scale
-}
-
-var SchemaElement_Precision_DEFAULT int32
-
-func (p *SchemaElement) GetPrecision() int32 {
-	if !p.IsSetPrecision() {
-		return SchemaElement_Precision_DEFAULT
-	}
-	return *p.Precision
-}
-
-var SchemaElement_FieldID_DEFAULT int32
-
-func (p *SchemaElement) GetFieldID() int32 {
-	if !p.IsSetFieldID() {
-		return SchemaElement_FieldID_DEFAULT
-	}
-	return *p.FieldID
-}
-
-var SchemaElement_LogicalType_DEFAULT *LogicalType
-
-func (p *SchemaElement) GetLogicalType() *LogicalType {
-	if !p.IsSetLogicalType() {
-		return SchemaElement_LogicalType_DEFAULT
-	}
-	return p.LogicalType
-}
-func (p *SchemaElement) IsSetType() bool {
-	return p.Type != nil
-}
-
-func (p *SchemaElement) IsSetTypeLength() bool {
-	return p.TypeLength != nil
-}
-
-func (p *SchemaElement) IsSetRepetitionType() bool {
-	return p.RepetitionType != nil
-}
-
-func (p *SchemaElement) IsSetNumChildren() bool {
-	return p.NumChildren != nil
-}
-
-func (p *SchemaElement) IsSetConvertedType() bool {
-	return p.ConvertedType != nil
-}
-
-func (p *SchemaElement) IsSetScale() bool {
-	return p.Scale != nil
-}
-
-func (p *SchemaElement) IsSetPrecision() bool {
-	return p.Precision != nil
-}
-
-func (p *SchemaElement) IsSetFieldID() bool {
-	return p.FieldID != nil
-}
-
-func (p *SchemaElement) IsSetLogicalType() bool {
-	return p.LogicalType != nil
-}
-
-func (p *SchemaElement) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetName bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetName = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 9:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField9(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 10:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField10(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetName {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Name is not set"))
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		temp := Type(v)
-		p.Type = &temp
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.TypeLength = &v
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		temp := FieldRepetitionType(v)
-		p.RepetitionType = &temp
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadString(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		p.Name = v
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 5: ", err)
-	} else {
-		p.NumChildren = &v
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		temp := ConvertedType(v)
-		p.ConvertedType = &temp
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 7: ", err)
-	} else {
-		p.Scale = &v
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 8: ", err)
-	} else {
-		p.Precision = &v
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField9(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 9: ", err)
-	} else {
-		p.FieldID = &v
-	}
-	return nil
-}
-
-func (p *SchemaElement) ReadField10(ctx context.Context, iprot thrift.TProtocol) error {
-	p.LogicalType = &LogicalType{}
-	if err := p.LogicalType.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.LogicalType), err)
-	}
-	return nil
-}
-
-func (p *SchemaElement) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "SchemaElement"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField9(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField10(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *SchemaElement) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetType() {
-		if err := oprot.WriteFieldBegin(ctx, "type", thrift.I32, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:type: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.Type)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.type (1) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:type: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetTypeLength() {
-		if err := oprot.WriteFieldBegin(ctx, "type_length", thrift.I32, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:type_length: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.TypeLength)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.type_length (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:type_length: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetRepetitionType() {
-		if err := oprot.WriteFieldBegin(ctx, "repetition_type", thrift.I32, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:repetition_type: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.RepetitionType)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.repetition_type (3) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:repetition_type: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "name", thrift.STRING, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:name: ", p), err)
-	}
-	if err := oprot.WriteString(ctx, string(p.Name)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.name (4) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:name: ", p), err)
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetNumChildren() {
-		if err := oprot.WriteFieldBegin(ctx, "num_children", thrift.I32, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:num_children: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.NumChildren)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.num_children (5) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:num_children: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetConvertedType() {
-		if err := oprot.WriteFieldBegin(ctx, "converted_type", thrift.I32, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:converted_type: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.ConvertedType)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.converted_type (6) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:converted_type: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetScale() {
-		if err := oprot.WriteFieldBegin(ctx, "scale", thrift.I32, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:scale: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.Scale)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.scale (7) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:scale: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetPrecision() {
-		if err := oprot.WriteFieldBegin(ctx, "precision", thrift.I32, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:precision: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.Precision)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.precision (8) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:precision: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField9(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetFieldID() {
-		if err := oprot.WriteFieldBegin(ctx, "field_id", thrift.I32, 9); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 9:field_id: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.FieldID)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.field_id (9) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 9:field_id: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) writeField10(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetLogicalType() {
-		if err := oprot.WriteFieldBegin(ctx, "logicalType", thrift.STRUCT, 10); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 10:logicalType: ", p), err)
-		}
-		if err := p.LogicalType.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.LogicalType), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 10:logicalType: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *SchemaElement) Equals(other *SchemaElement) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Type != other.Type {
-		if p.Type == nil || other.Type == nil {
-			return false
-		}
-		if (*p.Type) != (*other.Type) {
-			return false
-		}
-	}
-	if p.TypeLength != other.TypeLength {
-		if p.TypeLength == nil || other.TypeLength == nil {
-			return false
-		}
-		if (*p.TypeLength) != (*other.TypeLength) {
-			return false
-		}
-	}
-	if p.RepetitionType != other.RepetitionType {
-		if p.RepetitionType == nil || other.RepetitionType == nil {
-			return false
-		}
-		if (*p.RepetitionType) != (*other.RepetitionType) {
-			return false
-		}
-	}
-	if p.Name != other.Name {
-		return false
-	}
-	if p.NumChildren != other.NumChildren {
-		if p.NumChildren == nil || other.NumChildren == nil {
-			return false
-		}
-		if (*p.NumChildren) != (*other.NumChildren) {
-			return false
-		}
-	}
-	if p.ConvertedType != other.ConvertedType {
-		if p.ConvertedType == nil || other.ConvertedType == nil {
-			return false
-		}
-		if (*p.ConvertedType) != (*other.ConvertedType) {
-			return false
-		}
-	}
-	if p.Scale != other.Scale {
-		if p.Scale == nil || other.Scale == nil {
-			return false
-		}
-		if (*p.Scale) != (*other.Scale) {
-			return false
-		}
-	}
-	if p.Precision != other.Precision {
-		if p.Precision == nil || other.Precision == nil {
-			return false
-		}
-		if (*p.Precision) != (*other.Precision) {
-			return false
-		}
-	}
-	if p.FieldID != other.FieldID {
-		if p.FieldID == nil || other.FieldID == nil {
-			return false
-		}
-		if (*p.FieldID) != (*other.FieldID) {
-			return false
-		}
-	}
-	if !p.LogicalType.Equals(other.LogicalType) {
-		return false
-	}
-	return true
-}
-
-func (p *SchemaElement) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("SchemaElement(%+v)", *p)
-}
-
-func (p *SchemaElement) Validate() error {
-	return nil
-}
-
-// Data page header
-//
-// Attributes:
-//   - NumValues: Number of values, including NULLs, in this data page. *
-//   - Encoding: Encoding used for this data page *
-//   - DefinitionLevelEncoding: Encoding used for definition levels *
-//   - RepetitionLevelEncoding: Encoding used for repetition levels *
-//   - Statistics: Optional statistics for the data in this page*
-type DataPageHeader struct {
-	NumValues               int32       `thrift:"num_values,1,required" db:"num_values" json:"num_values"`
-	Encoding                Encoding    `thrift:"encoding,2,required" db:"encoding" json:"encoding"`
-	DefinitionLevelEncoding Encoding    `thrift:"definition_level_encoding,3,required" db:"definition_level_encoding" json:"definition_level_encoding"`
-	RepetitionLevelEncoding Encoding    `thrift:"repetition_level_encoding,4,required" db:"repetition_level_encoding" json:"repetition_level_encoding"`
-	Statistics              *Statistics `thrift:"statistics,5" db:"statistics" json:"statistics,omitempty"`
-}
-
-func NewDataPageHeader() *DataPageHeader {
-	return &DataPageHeader{}
-}
-
-func (p *DataPageHeader) GetNumValues() int32 {
-	return p.NumValues
-}
-
-func (p *DataPageHeader) GetEncoding() Encoding {
-	return p.Encoding
-}
-
-func (p *DataPageHeader) GetDefinitionLevelEncoding() Encoding {
-	return p.DefinitionLevelEncoding
-}
-
-func (p *DataPageHeader) GetRepetitionLevelEncoding() Encoding {
-	return p.RepetitionLevelEncoding
-}
-
-var DataPageHeader_Statistics_DEFAULT *Statistics
-
-func (p *DataPageHeader) GetStatistics() *Statistics {
-	if !p.IsSetStatistics() {
-		return DataPageHeader_Statistics_DEFAULT
-	}
-	return p.Statistics
-}
-func (p *DataPageHeader) IsSetStatistics() bool {
-	return p.Statistics != nil
-}
-
-func (p *DataPageHeader) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetNumValues bool = false
-	var issetEncoding bool = false
-	var issetDefinitionLevelEncoding bool = false
-	var issetRepetitionLevelEncoding bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumValues = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetEncoding = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetDefinitionLevelEncoding = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetRepetitionLevelEncoding = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetNumValues {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumValues is not set"))
-	}
-	if !issetEncoding {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Encoding is not set"))
-	}
-	if !issetDefinitionLevelEncoding {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field DefinitionLevelEncoding is not set"))
-	}
-	if !issetRepetitionLevelEncoding {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field RepetitionLevelEncoding is not set"))
-	}
-	return nil
-}
-
-func (p *DataPageHeader) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.NumValues = v
-	}
-	return nil
-}
-
-func (p *DataPageHeader) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		temp := Encoding(v)
-		p.Encoding = temp
-	}
-	return nil
-}
-
-func (p *DataPageHeader) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		temp := Encoding(v)
-		p.DefinitionLevelEncoding = temp
-	}
-	return nil
-}
-
-func (p *DataPageHeader) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		temp := Encoding(v)
-		p.RepetitionLevelEncoding = temp
-	}
-	return nil
-}
-
-func (p *DataPageHeader) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Statistics = &Statistics{}
-	if err := p.Statistics.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Statistics), err)
-	}
-	return nil
-}
-
-func (p *DataPageHeader) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "DataPageHeader"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *DataPageHeader) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_values", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:num_values: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.NumValues)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_values (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:num_values: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeader) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "encoding", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:encoding: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Encoding)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.encoding (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:encoding: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeader) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "definition_level_encoding", thrift.I32, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:definition_level_encoding: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.DefinitionLevelEncoding)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.definition_level_encoding (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:definition_level_encoding: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeader) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "repetition_level_encoding", thrift.I32, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:repetition_level_encoding: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.RepetitionLevelEncoding)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.repetition_level_encoding (4) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:repetition_level_encoding: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeader) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetStatistics() {
-		if err := oprot.WriteFieldBegin(ctx, "statistics", thrift.STRUCT, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:statistics: ", p), err)
-		}
-		if err := p.Statistics.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Statistics), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:statistics: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *DataPageHeader) Equals(other *DataPageHeader) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.NumValues != other.NumValues {
-		return false
-	}
-	if p.Encoding != other.Encoding {
-		return false
-	}
-	if p.DefinitionLevelEncoding != other.DefinitionLevelEncoding {
-		return false
-	}
-	if p.RepetitionLevelEncoding != other.RepetitionLevelEncoding {
-		return false
-	}
-	if !p.Statistics.Equals(other.Statistics) {
-		return false
-	}
-	return true
-}
-
-func (p *DataPageHeader) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("DataPageHeader(%+v)", *p)
-}
-
-func (p *DataPageHeader) Validate() error {
-	return nil
-}
-
-type IndexPageHeader struct {
-}
-
-func NewIndexPageHeader() *IndexPageHeader {
-	return &IndexPageHeader{}
-}
-
-func (p *IndexPageHeader) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *IndexPageHeader) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "IndexPageHeader"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *IndexPageHeader) Equals(other *IndexPageHeader) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *IndexPageHeader) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("IndexPageHeader(%+v)", *p)
-}
-
-func (p *IndexPageHeader) Validate() error {
-	return nil
-}
-
-// The dictionary page must be placed at the first position of the column chunk
-// if it is partly or completely dictionary encoded. At most one dictionary page
-// can be placed in a column chunk.
-//
-// Attributes:
-//   - NumValues: Number of values in the dictionary *
-//   - Encoding: Encoding using this dictionary page *
-//   - IsSorted: If true, the entries in the dictionary are sorted in ascending order *
-type DictionaryPageHeader struct {
-	NumValues int32    `thrift:"num_values,1,required" db:"num_values" json:"num_values"`
-	Encoding  Encoding `thrift:"encoding,2,required" db:"encoding" json:"encoding"`
-	IsSorted  *bool    `thrift:"is_sorted,3" db:"is_sorted" json:"is_sorted,omitempty"`
-}
-
-func NewDictionaryPageHeader() *DictionaryPageHeader {
-	return &DictionaryPageHeader{}
-}
-
-func (p *DictionaryPageHeader) GetNumValues() int32 {
-	return p.NumValues
-}
-
-func (p *DictionaryPageHeader) GetEncoding() Encoding {
-	return p.Encoding
-}
-
-var DictionaryPageHeader_IsSorted_DEFAULT bool
-
-func (p *DictionaryPageHeader) GetIsSorted() bool {
-	if !p.IsSetIsSorted() {
-		return DictionaryPageHeader_IsSorted_DEFAULT
-	}
-	return *p.IsSorted
-}
-func (p *DictionaryPageHeader) IsSetIsSorted() bool {
-	return p.IsSorted != nil
-}
-
-func (p *DictionaryPageHeader) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetNumValues bool = false
-	var issetEncoding bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumValues = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetEncoding = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetNumValues {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumValues is not set"))
-	}
-	if !issetEncoding {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Encoding is not set"))
-	}
-	return nil
-}
-
-func (p *DictionaryPageHeader) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.NumValues = v
-	}
-	return nil
-}
-
-func (p *DictionaryPageHeader) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		temp := Encoding(v)
-		p.Encoding = temp
-	}
-	return nil
-}
-
-func (p *DictionaryPageHeader) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.IsSorted = &v
-	}
-	return nil
-}
-
-func (p *DictionaryPageHeader) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "DictionaryPageHeader"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *DictionaryPageHeader) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_values", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:num_values: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.NumValues)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_values (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:num_values: ", p), err)
-	}
-	return err
-}
-
-func (p *DictionaryPageHeader) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "encoding", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:encoding: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Encoding)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.encoding (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:encoding: ", p), err)
-	}
-	return err
-}
-
-func (p *DictionaryPageHeader) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetIsSorted() {
-		if err := oprot.WriteFieldBegin(ctx, "is_sorted", thrift.BOOL, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:is_sorted: ", p), err)
-		}
-		if err := oprot.WriteBool(ctx, bool(*p.IsSorted)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.is_sorted (3) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:is_sorted: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *DictionaryPageHeader) Equals(other *DictionaryPageHeader) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.NumValues != other.NumValues {
-		return false
-	}
-	if p.Encoding != other.Encoding {
-		return false
-	}
-	if p.IsSorted != other.IsSorted {
-		if p.IsSorted == nil || other.IsSorted == nil {
-			return false
-		}
-		if (*p.IsSorted) != (*other.IsSorted) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *DictionaryPageHeader) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("DictionaryPageHeader(%+v)", *p)
-}
-
-func (p *DictionaryPageHeader) Validate() error {
-	return nil
-}
-
-// New page format allowing reading levels without decompressing the data
-// Repetition and definition levels are uncompressed
-// The remaining section containing the data is compressed if is_compressed is true
-//
-// Attributes:
-//   - NumValues: Number of values, including NULLs, in this data page. *
-//   - NumNulls: Number of NULL values, in this data page.
-//
-// Number of non-null = num_values - num_nulls which is also the number of values in the data section *
-//   - NumRows: Number of rows in this data page. which means pages change on record boundaries (r = 0) *
-//   - Encoding: Encoding used for data in this page *
-//   - DefinitionLevelsByteLength: length of the definition levels
-//   - RepetitionLevelsByteLength: length of the repetition levels
-//   - IsCompressed: whether the values are compressed.
-//
-// Which means the section of the page between
-// definition_levels_byte_length + repetition_levels_byte_length + 1 and compressed_page_size (included)
-// is compressed with the compression_codec.
-// If missing it is considered compressed
-//   - Statistics: optional statistics for the data in this page *
-type DataPageHeaderV2 struct {
-	NumValues                  int32       `thrift:"num_values,1,required" db:"num_values" json:"num_values"`
-	NumNulls                   int32       `thrift:"num_nulls,2,required" db:"num_nulls" json:"num_nulls"`
-	NumRows                    int32       `thrift:"num_rows,3,required" db:"num_rows" json:"num_rows"`
-	Encoding                   Encoding    `thrift:"encoding,4,required" db:"encoding" json:"encoding"`
-	DefinitionLevelsByteLength int32       `thrift:"definition_levels_byte_length,5,required" db:"definition_levels_byte_length" json:"definition_levels_byte_length"`
-	RepetitionLevelsByteLength int32       `thrift:"repetition_levels_byte_length,6,required" db:"repetition_levels_byte_length" json:"repetition_levels_byte_length"`
-	IsCompressed               bool        `thrift:"is_compressed,7" db:"is_compressed" json:"is_compressed"`
-	Statistics                 *Statistics `thrift:"statistics,8" db:"statistics" json:"statistics,omitempty"`
-}
-
-func NewDataPageHeaderV2() *DataPageHeaderV2 {
-	return &DataPageHeaderV2{
-		IsCompressed: true,
-	}
-}
-
-func (p *DataPageHeaderV2) GetNumValues() int32 {
-	return p.NumValues
-}
-
-func (p *DataPageHeaderV2) GetNumNulls() int32 {
-	return p.NumNulls
-}
-
-func (p *DataPageHeaderV2) GetNumRows() int32 {
-	return p.NumRows
-}
-
-func (p *DataPageHeaderV2) GetEncoding() Encoding {
-	return p.Encoding
-}
-
-func (p *DataPageHeaderV2) GetDefinitionLevelsByteLength() int32 {
-	return p.DefinitionLevelsByteLength
-}
-
-func (p *DataPageHeaderV2) GetRepetitionLevelsByteLength() int32 {
-	return p.RepetitionLevelsByteLength
-}
-
-var DataPageHeaderV2_IsCompressed_DEFAULT bool = true
-
-func (p *DataPageHeaderV2) GetIsCompressed() bool {
-	return p.IsCompressed
-}
-
-var DataPageHeaderV2_Statistics_DEFAULT *Statistics
-
-func (p *DataPageHeaderV2) GetStatistics() *Statistics {
-	if !p.IsSetStatistics() {
-		return DataPageHeaderV2_Statistics_DEFAULT
-	}
-	return p.Statistics
-}
-func (p *DataPageHeaderV2) IsSetIsCompressed() bool {
-	return p.IsCompressed != DataPageHeaderV2_IsCompressed_DEFAULT
-}
-
-func (p *DataPageHeaderV2) IsSetStatistics() bool {
-	return p.Statistics != nil
-}
-
-func (p *DataPageHeaderV2) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetNumValues bool = false
-	var issetNumNulls bool = false
-	var issetNumRows bool = false
-	var issetEncoding bool = false
-	var issetDefinitionLevelsByteLength bool = false
-	var issetRepetitionLevelsByteLength bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumValues = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumNulls = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumRows = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetEncoding = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-				issetDefinitionLevelsByteLength = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-				issetRepetitionLevelsByteLength = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetNumValues {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumValues is not set"))
-	}
-	if !issetNumNulls {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumNulls is not set"))
-	}
-	if !issetNumRows {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumRows is not set"))
-	}
-	if !issetEncoding {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Encoding is not set"))
-	}
-	if !issetDefinitionLevelsByteLength {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field DefinitionLevelsByteLength is not set"))
-	}
-	if !issetRepetitionLevelsByteLength {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field RepetitionLevelsByteLength is not set"))
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.NumValues = v
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.NumNulls = v
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.NumRows = v
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		temp := Encoding(v)
-		p.Encoding = temp
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 5: ", err)
-	} else {
-		p.DefinitionLevelsByteLength = v
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		p.RepetitionLevelsByteLength = v
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 7: ", err)
-	} else {
-		p.IsCompressed = v
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Statistics = &Statistics{}
-	if err := p.Statistics.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Statistics), err)
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "DataPageHeaderV2"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *DataPageHeaderV2) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_values", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:num_values: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.NumValues)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_values (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:num_values: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_nulls", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:num_nulls: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.NumNulls)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_nulls (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:num_nulls: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_rows", thrift.I32, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:num_rows: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.NumRows)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_rows (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:num_rows: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "encoding", thrift.I32, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:encoding: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Encoding)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.encoding (4) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:encoding: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "definition_levels_byte_length", thrift.I32, 5); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:definition_levels_byte_length: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.DefinitionLevelsByteLength)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.definition_levels_byte_length (5) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 5:definition_levels_byte_length: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "repetition_levels_byte_length", thrift.I32, 6); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:repetition_levels_byte_length: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.RepetitionLevelsByteLength)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.repetition_levels_byte_length (6) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 6:repetition_levels_byte_length: ", p), err)
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetIsCompressed() {
-		if err := oprot.WriteFieldBegin(ctx, "is_compressed", thrift.BOOL, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:is_compressed: ", p), err)
-		}
-		if err := oprot.WriteBool(ctx, bool(p.IsCompressed)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.is_compressed (7) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:is_compressed: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetStatistics() {
-		if err := oprot.WriteFieldBegin(ctx, "statistics", thrift.STRUCT, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:statistics: ", p), err)
-		}
-		if err := p.Statistics.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Statistics), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:statistics: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *DataPageHeaderV2) Equals(other *DataPageHeaderV2) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.NumValues != other.NumValues {
-		return false
-	}
-	if p.NumNulls != other.NumNulls {
-		return false
-	}
-	if p.NumRows != other.NumRows {
-		return false
-	}
-	if p.Encoding != other.Encoding {
-		return false
-	}
-	if p.DefinitionLevelsByteLength != other.DefinitionLevelsByteLength {
-		return false
-	}
-	if p.RepetitionLevelsByteLength != other.RepetitionLevelsByteLength {
-		return false
-	}
-	if p.IsCompressed != other.IsCompressed {
-		return false
-	}
-	if !p.Statistics.Equals(other.Statistics) {
-		return false
-	}
-	return true
-}
-
-func (p *DataPageHeaderV2) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("DataPageHeaderV2(%+v)", *p)
-}
-
-func (p *DataPageHeaderV2) Validate() error {
-	return nil
-}
-
-// Block-based algorithm type annotation. *
-type SplitBlockAlgorithm struct {
-}
-
-func NewSplitBlockAlgorithm() *SplitBlockAlgorithm {
-	return &SplitBlockAlgorithm{}
-}
-
-func (p *SplitBlockAlgorithm) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *SplitBlockAlgorithm) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "SplitBlockAlgorithm"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *SplitBlockAlgorithm) Equals(other *SplitBlockAlgorithm) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *SplitBlockAlgorithm) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("SplitBlockAlgorithm(%+v)", *p)
-}
-
-func (p *SplitBlockAlgorithm) Validate() error {
-	return nil
-}
-
-// The algorithm used in Bloom filter. *
-//
-// Attributes:
-//   - BLOCK: Block-based Bloom filter. *
-type BloomFilterAlgorithm struct {
-	BLOCK *SplitBlockAlgorithm `thrift:"BLOCK,1" db:"BLOCK" json:"BLOCK,omitempty"`
-}
-
-func NewBloomFilterAlgorithm() *BloomFilterAlgorithm {
-	return &BloomFilterAlgorithm{}
-}
-
-var BloomFilterAlgorithm_BLOCK_DEFAULT *SplitBlockAlgorithm
-
-func (p *BloomFilterAlgorithm) GetBLOCK() *SplitBlockAlgorithm {
-	if !p.IsSetBLOCK() {
-		return BloomFilterAlgorithm_BLOCK_DEFAULT
-	}
-	return p.BLOCK
-}
-func (p *BloomFilterAlgorithm) CountSetFieldsBloomFilterAlgorithm() int {
-	count := 0
-	if p.IsSetBLOCK() {
-		count++
-	}
-	return count
-
-}
-
-func (p *BloomFilterAlgorithm) IsSetBLOCK() bool {
-	return p.BLOCK != nil
-}
-
-func (p *BloomFilterAlgorithm) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterAlgorithm) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.BLOCK = &SplitBlockAlgorithm{}
-	if err := p.BLOCK.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.BLOCK), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterAlgorithm) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsBloomFilterAlgorithm(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "BloomFilterAlgorithm"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *BloomFilterAlgorithm) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetBLOCK() {
-		if err := oprot.WriteFieldBegin(ctx, "BLOCK", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:BLOCK: ", p), err)
-		}
-		if err := p.BLOCK.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.BLOCK), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:BLOCK: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *BloomFilterAlgorithm) Equals(other *BloomFilterAlgorithm) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.BLOCK.Equals(other.BLOCK) {
-		return false
-	}
-	return true
-}
-
-func (p *BloomFilterAlgorithm) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("BloomFilterAlgorithm(%+v)", *p)
-}
-
-func (p *BloomFilterAlgorithm) Validate() error {
-	return nil
-}
-
-// Hash strategy type annotation. xxHash is an extremely fast non-cryptographic hash
-// algorithm. It uses 64 bits version of xxHash.
-type XxHash struct {
-}
-
-func NewXxHash() *XxHash {
-	return &XxHash{}
-}
-
-func (p *XxHash) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *XxHash) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "XxHash"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *XxHash) Equals(other *XxHash) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *XxHash) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("XxHash(%+v)", *p)
-}
-
-func (p *XxHash) Validate() error {
-	return nil
-}
-
-// The hash function used in Bloom filter. This function takes the hash of a column value
-// using plain encoding.
-//
-// Attributes:
-//   - XXHASH: xxHash Strategy. *
-type BloomFilterHash struct {
-	XXHASH *XxHash `thrift:"XXHASH,1" db:"XXHASH" json:"XXHASH,omitempty"`
-}
-
-func NewBloomFilterHash() *BloomFilterHash {
-	return &BloomFilterHash{}
-}
-
-var BloomFilterHash_XXHASH_DEFAULT *XxHash
-
-func (p *BloomFilterHash) GetXXHASH() *XxHash {
-	if !p.IsSetXXHASH() {
-		return BloomFilterHash_XXHASH_DEFAULT
-	}
-	return p.XXHASH
-}
-func (p *BloomFilterHash) CountSetFieldsBloomFilterHash() int {
-	count := 0
-	if p.IsSetXXHASH() {
-		count++
-	}
-	return count
-
-}
-
-func (p *BloomFilterHash) IsSetXXHASH() bool {
-	return p.XXHASH != nil
-}
-
-func (p *BloomFilterHash) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHash) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.XXHASH = &XxHash{}
-	if err := p.XXHASH.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.XXHASH), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHash) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsBloomFilterHash(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "BloomFilterHash"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHash) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetXXHASH() {
-		if err := oprot.WriteFieldBegin(ctx, "XXHASH", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:XXHASH: ", p), err)
-		}
-		if err := p.XXHASH.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.XXHASH), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:XXHASH: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *BloomFilterHash) Equals(other *BloomFilterHash) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.XXHASH.Equals(other.XXHASH) {
-		return false
-	}
-	return true
-}
-
-func (p *BloomFilterHash) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("BloomFilterHash(%+v)", *p)
-}
-
-func (p *BloomFilterHash) Validate() error {
-	return nil
-}
-
-// The compression used in the Bloom filter.
-type Uncompressed struct {
-}
-
-func NewUncompressed() *Uncompressed {
-	return &Uncompressed{}
-}
-
-func (p *Uncompressed) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *Uncompressed) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "Uncompressed"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *Uncompressed) Equals(other *Uncompressed) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *Uncompressed) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("Uncompressed(%+v)", *p)
-}
-
-func (p *Uncompressed) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - UNCOMPRESSED
-type BloomFilterCompression struct {
-	UNCOMPRESSED *Uncompressed `thrift:"UNCOMPRESSED,1" db:"UNCOMPRESSED" json:"UNCOMPRESSED,omitempty"`
-}
-
-func NewBloomFilterCompression() *BloomFilterCompression {
-	return &BloomFilterCompression{}
-}
-
-var BloomFilterCompression_UNCOMPRESSED_DEFAULT *Uncompressed
-
-func (p *BloomFilterCompression) GetUNCOMPRESSED() *Uncompressed {
-	if !p.IsSetUNCOMPRESSED() {
-		return BloomFilterCompression_UNCOMPRESSED_DEFAULT
-	}
-	return p.UNCOMPRESSED
-}
-func (p *BloomFilterCompression) CountSetFieldsBloomFilterCompression() int {
-	count := 0
-	if p.IsSetUNCOMPRESSED() {
-		count++
-	}
-	return count
-
-}
-
-func (p *BloomFilterCompression) IsSetUNCOMPRESSED() bool {
-	return p.UNCOMPRESSED != nil
-}
-
-func (p *BloomFilterCompression) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterCompression) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.UNCOMPRESSED = &Uncompressed{}
-	if err := p.UNCOMPRESSED.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.UNCOMPRESSED), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterCompression) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsBloomFilterCompression(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "BloomFilterCompression"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *BloomFilterCompression) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetUNCOMPRESSED() {
-		if err := oprot.WriteFieldBegin(ctx, "UNCOMPRESSED", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:UNCOMPRESSED: ", p), err)
-		}
-		if err := p.UNCOMPRESSED.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.UNCOMPRESSED), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:UNCOMPRESSED: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *BloomFilterCompression) Equals(other *BloomFilterCompression) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.UNCOMPRESSED.Equals(other.UNCOMPRESSED) {
-		return false
-	}
-	return true
-}
-
-func (p *BloomFilterCompression) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("BloomFilterCompression(%+v)", *p)
-}
-
-func (p *BloomFilterCompression) Validate() error {
-	return nil
-}
-
-// Bloom filter header is stored at beginning of Bloom filter data of each column
-// and followed by its bitset.
-//
-// Attributes:
-//   - NumBytes: The size of bitset in bytes *
-//   - Algorithm: The algorithm for setting bits. *
-//   - Hash: The hash function used for Bloom filter. *
-//   - Compression: The compression used in the Bloom filter *
-type BloomFilterHeader struct {
-	NumBytes    int32                   `thrift:"numBytes,1,required" db:"numBytes" json:"numBytes"`
-	Algorithm   *BloomFilterAlgorithm   `thrift:"algorithm,2,required" db:"algorithm" json:"algorithm"`
-	Hash        *BloomFilterHash        `thrift:"hash,3,required" db:"hash" json:"hash"`
-	Compression *BloomFilterCompression `thrift:"compression,4,required" db:"compression" json:"compression"`
-}
-
-func NewBloomFilterHeader() *BloomFilterHeader {
-	return &BloomFilterHeader{}
-}
-
-func (p *BloomFilterHeader) GetNumBytes() int32 {
-	return p.NumBytes
-}
-
-var BloomFilterHeader_Algorithm_DEFAULT *BloomFilterAlgorithm
-
-func (p *BloomFilterHeader) GetAlgorithm() *BloomFilterAlgorithm {
-	if !p.IsSetAlgorithm() {
-		return BloomFilterHeader_Algorithm_DEFAULT
-	}
-	return p.Algorithm
-}
-
-var BloomFilterHeader_Hash_DEFAULT *BloomFilterHash
-
-func (p *BloomFilterHeader) GetHash() *BloomFilterHash {
-	if !p.IsSetHash() {
-		return BloomFilterHeader_Hash_DEFAULT
-	}
-	return p.Hash
-}
-
-var BloomFilterHeader_Compression_DEFAULT *BloomFilterCompression
-
-func (p *BloomFilterHeader) GetCompression() *BloomFilterCompression {
-	if !p.IsSetCompression() {
-		return BloomFilterHeader_Compression_DEFAULT
-	}
-	return p.Compression
-}
-func (p *BloomFilterHeader) IsSetAlgorithm() bool {
-	return p.Algorithm != nil
-}
-
-func (p *BloomFilterHeader) IsSetHash() bool {
-	return p.Hash != nil
-}
-
-func (p *BloomFilterHeader) IsSetCompression() bool {
-	return p.Compression != nil
-}
-
-func (p *BloomFilterHeader) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetNumBytes bool = false
-	var issetAlgorithm bool = false
-	var issetHash bool = false
-	var issetCompression bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumBytes = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetAlgorithm = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetHash = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetCompression = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetNumBytes {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumBytes is not set"))
-	}
-	if !issetAlgorithm {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Algorithm is not set"))
-	}
-	if !issetHash {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Hash is not set"))
-	}
-	if !issetCompression {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Compression is not set"))
-	}
-	return nil
-}
-
-func (p *BloomFilterHeader) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.NumBytes = v
-	}
-	return nil
-}
-
-func (p *BloomFilterHeader) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Algorithm = &BloomFilterAlgorithm{}
-	if err := p.Algorithm.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Algorithm), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHeader) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Hash = &BloomFilterHash{}
-	if err := p.Hash.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Hash), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHeader) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Compression = &BloomFilterCompression{}
-	if err := p.Compression.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Compression), err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHeader) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "BloomFilterHeader"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *BloomFilterHeader) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "numBytes", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:numBytes: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.NumBytes)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.numBytes (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:numBytes: ", p), err)
-	}
-	return err
-}
-
-func (p *BloomFilterHeader) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "algorithm", thrift.STRUCT, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:algorithm: ", p), err)
-	}
-	if err := p.Algorithm.Write(ctx, oprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Algorithm), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:algorithm: ", p), err)
-	}
-	return err
-}
-
-func (p *BloomFilterHeader) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "hash", thrift.STRUCT, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:hash: ", p), err)
-	}
-	if err := p.Hash.Write(ctx, oprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Hash), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:hash: ", p), err)
-	}
-	return err
-}
-
-func (p *BloomFilterHeader) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "compression", thrift.STRUCT, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:compression: ", p), err)
-	}
-	if err := p.Compression.Write(ctx, oprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Compression), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:compression: ", p), err)
-	}
-	return err
-}
-
-func (p *BloomFilterHeader) Equals(other *BloomFilterHeader) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.NumBytes != other.NumBytes {
-		return false
-	}
-	if !p.Algorithm.Equals(other.Algorithm) {
-		return false
-	}
-	if !p.Hash.Equals(other.Hash) {
-		return false
-	}
-	if !p.Compression.Equals(other.Compression) {
-		return false
-	}
-	return true
-}
-
-func (p *BloomFilterHeader) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("BloomFilterHeader(%+v)", *p)
-}
-
-func (p *BloomFilterHeader) Validate() error {
-	return nil
-}
-
-// Attributes:
-//
-//   - Type: the type of the page: indicates which of the *_header fields is set *
-//
-//   - UncompressedPageSize: Uncompressed page size in bytes (not including this header) *
-//
-//   - CompressedPageSize: Compressed (and potentially encrypted) page size in bytes, not including this header *
-//
-//   - Crc: The 32-bit CRC checksum for the page, to be be calculated as follows:
-//
-//   - The standard CRC32 algorithm is used (with polynomial 0x04C11DB7,
-//     the same as in e.g. GZip).
-//
-//   - All page types can have a CRC (v1 and v2 data pages, dictionary pages,
-//     etc.).
-//
-//   - The CRC is computed on the serialization binary representation of the page
-//     (as written to disk), excluding the page header. For example, for v1
-//     data pages, the CRC is computed on the concatenation of repetition levels,
-//     definition levels and column values (optionally compressed, optionally
-//     encrypted).
-//
-//   - The CRC computation therefore takes place after any compression
-//     and encryption steps, if any.
-//
-// If enabled, this allows for disabling checksumming in HDFS if only a few
-// pages need to be read.
-//   - DataPageHeader
-//   - IndexPageHeader
-//   - DictionaryPageHeader
-//   - DataPageHeaderV2
-type PageHeader struct {
-	Type                 PageType              `thrift:"type,1,required" db:"type" json:"type"`
-	UncompressedPageSize int32                 `thrift:"uncompressed_page_size,2,required" db:"uncompressed_page_size" json:"uncompressed_page_size"`
-	CompressedPageSize   int32                 `thrift:"compressed_page_size,3,required" db:"compressed_page_size" json:"compressed_page_size"`
-	Crc                  *int32                `thrift:"crc,4" db:"crc" json:"crc,omitempty"`
-	DataPageHeader       *DataPageHeader       `thrift:"data_page_header,5" db:"data_page_header" json:"data_page_header,omitempty"`
-	IndexPageHeader      *IndexPageHeader      `thrift:"index_page_header,6" db:"index_page_header" json:"index_page_header,omitempty"`
-	DictionaryPageHeader *DictionaryPageHeader `thrift:"dictionary_page_header,7" db:"dictionary_page_header" json:"dictionary_page_header,omitempty"`
-	DataPageHeaderV2     *DataPageHeaderV2     `thrift:"data_page_header_v2,8" db:"data_page_header_v2" json:"data_page_header_v2,omitempty"`
-}
-
-func NewPageHeader() *PageHeader {
-	return &PageHeader{}
-}
-
-func (p *PageHeader) GetType() PageType {
-	return p.Type
-}
-
-func (p *PageHeader) GetUncompressedPageSize() int32 {
-	return p.UncompressedPageSize
-}
-
-func (p *PageHeader) GetCompressedPageSize() int32 {
-	return p.CompressedPageSize
-}
-
-var PageHeader_Crc_DEFAULT int32
-
-func (p *PageHeader) GetCrc() int32 {
-	if !p.IsSetCrc() {
-		return PageHeader_Crc_DEFAULT
-	}
-	return *p.Crc
-}
-
-var PageHeader_DataPageHeader_DEFAULT *DataPageHeader
-
-func (p *PageHeader) GetDataPageHeader() *DataPageHeader {
-	if !p.IsSetDataPageHeader() {
-		return PageHeader_DataPageHeader_DEFAULT
-	}
-	return p.DataPageHeader
-}
-
-var PageHeader_IndexPageHeader_DEFAULT *IndexPageHeader
-
-func (p *PageHeader) GetIndexPageHeader() *IndexPageHeader {
-	if !p.IsSetIndexPageHeader() {
-		return PageHeader_IndexPageHeader_DEFAULT
-	}
-	return p.IndexPageHeader
-}
-
-var PageHeader_DictionaryPageHeader_DEFAULT *DictionaryPageHeader
-
-func (p *PageHeader) GetDictionaryPageHeader() *DictionaryPageHeader {
-	if !p.IsSetDictionaryPageHeader() {
-		return PageHeader_DictionaryPageHeader_DEFAULT
-	}
-	return p.DictionaryPageHeader
-}
-
-var PageHeader_DataPageHeaderV2_DEFAULT *DataPageHeaderV2
-
-func (p *PageHeader) GetDataPageHeaderV2() *DataPageHeaderV2 {
-	if !p.IsSetDataPageHeaderV2() {
-		return PageHeader_DataPageHeaderV2_DEFAULT
-	}
-	return p.DataPageHeaderV2
-}
-func (p *PageHeader) IsSetCrc() bool {
-	return p.Crc != nil
-}
-
-func (p *PageHeader) IsSetDataPageHeader() bool {
-	return p.DataPageHeader != nil
-}
-
-func (p *PageHeader) IsSetIndexPageHeader() bool {
-	return p.IndexPageHeader != nil
-}
-
-func (p *PageHeader) IsSetDictionaryPageHeader() bool {
-	return p.DictionaryPageHeader != nil
-}
-
-func (p *PageHeader) IsSetDataPageHeaderV2() bool {
-	return p.DataPageHeaderV2 != nil
-}
-
-func (p *PageHeader) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetType bool = false
-	var issetUncompressedPageSize bool = false
-	var issetCompressedPageSize bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetType = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetUncompressedPageSize = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetCompressedPageSize = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetType {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Type is not set"))
-	}
-	if !issetUncompressedPageSize {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field UncompressedPageSize is not set"))
-	}
-	if !issetCompressedPageSize {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field CompressedPageSize is not set"))
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		temp := PageType(v)
-		p.Type = temp
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.UncompressedPageSize = v
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.CompressedPageSize = v
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		p.Crc = &v
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	p.DataPageHeader = &DataPageHeader{}
-	if err := p.DataPageHeader.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.DataPageHeader), err)
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	p.IndexPageHeader = &IndexPageHeader{}
-	if err := p.IndexPageHeader.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.IndexPageHeader), err)
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	p.DictionaryPageHeader = &DictionaryPageHeader{}
-	if err := p.DictionaryPageHeader.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.DictionaryPageHeader), err)
-	}
-	return nil
-}
-
-func (p *PageHeader) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	p.DataPageHeaderV2 = &DataPageHeaderV2{
-		IsCompressed: true,
-	}
-	if err := p.DataPageHeaderV2.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.DataPageHeaderV2), err)
-	}
-	return nil
-}
-
-func (p *PageHeader) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "PageHeader"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *PageHeader) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "type", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:type: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Type)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.type (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:type: ", p), err)
-	}
-	return err
-}
-
-func (p *PageHeader) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "uncompressed_page_size", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:uncompressed_page_size: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.UncompressedPageSize)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.uncompressed_page_size (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:uncompressed_page_size: ", p), err)
-	}
-	return err
-}
-
-func (p *PageHeader) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "compressed_page_size", thrift.I32, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:compressed_page_size: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.CompressedPageSize)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.compressed_page_size (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:compressed_page_size: ", p), err)
-	}
-	return err
-}
-
-func (p *PageHeader) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetCrc() {
-		if err := oprot.WriteFieldBegin(ctx, "crc", thrift.I32, 4); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:crc: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.Crc)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.crc (4) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 4:crc: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *PageHeader) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDataPageHeader() {
-		if err := oprot.WriteFieldBegin(ctx, "data_page_header", thrift.STRUCT, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:data_page_header: ", p), err)
-		}
-		if err := p.DataPageHeader.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.DataPageHeader), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:data_page_header: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *PageHeader) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetIndexPageHeader() {
-		if err := oprot.WriteFieldBegin(ctx, "index_page_header", thrift.STRUCT, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:index_page_header: ", p), err)
-		}
-		if err := p.IndexPageHeader.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.IndexPageHeader), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:index_page_header: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *PageHeader) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDictionaryPageHeader() {
-		if err := oprot.WriteFieldBegin(ctx, "dictionary_page_header", thrift.STRUCT, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:dictionary_page_header: ", p), err)
-		}
-		if err := p.DictionaryPageHeader.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.DictionaryPageHeader), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:dictionary_page_header: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *PageHeader) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDataPageHeaderV2() {
-		if err := oprot.WriteFieldBegin(ctx, "data_page_header_v2", thrift.STRUCT, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:data_page_header_v2: ", p), err)
-		}
-		if err := p.DataPageHeaderV2.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.DataPageHeaderV2), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:data_page_header_v2: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *PageHeader) Equals(other *PageHeader) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Type != other.Type {
-		return false
-	}
-	if p.UncompressedPageSize != other.UncompressedPageSize {
-		return false
-	}
-	if p.CompressedPageSize != other.CompressedPageSize {
-		return false
-	}
-	if p.Crc != other.Crc {
-		if p.Crc == nil || other.Crc == nil {
-			return false
-		}
-		if (*p.Crc) != (*other.Crc) {
-			return false
-		}
-	}
-	if !p.DataPageHeader.Equals(other.DataPageHeader) {
-		return false
-	}
-	if !p.IndexPageHeader.Equals(other.IndexPageHeader) {
-		return false
-	}
-	if !p.DictionaryPageHeader.Equals(other.DictionaryPageHeader) {
-		return false
-	}
-	if !p.DataPageHeaderV2.Equals(other.DataPageHeaderV2) {
-		return false
-	}
-	return true
-}
-
-func (p *PageHeader) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("PageHeader(%+v)", *p)
-}
-
-func (p *PageHeader) Validate() error {
-	return nil
-}
-
-// Wrapper struct to store key values
-//
-// Attributes:
-//   - Key
-//   - Value
-type KeyValue struct {
-	Key   string  `thrift:"key,1,required" db:"key" json:"key"`
-	Value *string `thrift:"value,2" db:"value" json:"value,omitempty"`
-}
-
-func NewKeyValue() *KeyValue {
-	return &KeyValue{}
-}
-
-func (p *KeyValue) GetKey() string {
-	return p.Key
-}
-
-var KeyValue_Value_DEFAULT string
-
-func (p *KeyValue) GetValue() string {
-	if !p.IsSetValue() {
-		return KeyValue_Value_DEFAULT
-	}
-	return *p.Value
-}
-func (p *KeyValue) IsSetValue() bool {
-	return p.Value != nil
-}
-
-func (p *KeyValue) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetKey bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetKey = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetKey {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Key is not set"))
-	}
-	return nil
-}
-
-func (p *KeyValue) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadString(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.Key = v
-	}
-	return nil
-}
-
-func (p *KeyValue) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadString(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.Value = &v
-	}
-	return nil
-}
-
-func (p *KeyValue) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "KeyValue"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *KeyValue) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "key", thrift.STRING, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:key: ", p), err)
-	}
-	if err := oprot.WriteString(ctx, string(p.Key)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.key (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:key: ", p), err)
-	}
-	return err
-}
-
-func (p *KeyValue) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetValue() {
-		if err := oprot.WriteFieldBegin(ctx, "value", thrift.STRING, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:value: ", p), err)
-		}
-		if err := oprot.WriteString(ctx, string(*p.Value)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.value (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:value: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *KeyValue) Equals(other *KeyValue) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Key != other.Key {
-		return false
-	}
-	if p.Value != other.Value {
-		if p.Value == nil || other.Value == nil {
-			return false
-		}
-		if (*p.Value) != (*other.Value) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *KeyValue) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("KeyValue(%+v)", *p)
-}
-
-func (p *KeyValue) Validate() error {
-	return nil
-}
-
-// Wrapper struct to specify sort order
-//
-// Attributes:
-//   - ColumnIdx: The column index (in this row group) *
-//   - Descending: If true, indicates this column is sorted in descending order. *
-//   - NullsFirst: If true, nulls will come before non-null values, otherwise,
-//
-// nulls go at the end.
-type SortingColumn struct {
-	ColumnIdx  int32 `thrift:"column_idx,1,required" db:"column_idx" json:"column_idx"`
-	Descending bool  `thrift:"descending,2,required" db:"descending" json:"descending"`
-	NullsFirst bool  `thrift:"nulls_first,3,required" db:"nulls_first" json:"nulls_first"`
-}
-
-func NewSortingColumn() *SortingColumn {
-	return &SortingColumn{}
-}
-
-func (p *SortingColumn) GetColumnIdx() int32 {
-	return p.ColumnIdx
-}
-
-func (p *SortingColumn) GetDescending() bool {
-	return p.Descending
-}
-
-func (p *SortingColumn) GetNullsFirst() bool {
-	return p.NullsFirst
-}
-func (p *SortingColumn) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetColumnIdx bool = false
-	var issetDescending bool = false
-	var issetNullsFirst bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetColumnIdx = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetDescending = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetNullsFirst = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetColumnIdx {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field ColumnIdx is not set"))
-	}
-	if !issetDescending {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Descending is not set"))
-	}
-	if !issetNullsFirst {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NullsFirst is not set"))
-	}
-	return nil
-}
-
-func (p *SortingColumn) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.ColumnIdx = v
-	}
-	return nil
-}
-
-func (p *SortingColumn) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.Descending = v
-	}
-	return nil
-}
-
-func (p *SortingColumn) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.NullsFirst = v
-	}
-	return nil
-}
-
-func (p *SortingColumn) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "SortingColumn"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *SortingColumn) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "column_idx", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:column_idx: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.ColumnIdx)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.column_idx (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:column_idx: ", p), err)
-	}
-	return err
-}
-
-func (p *SortingColumn) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "descending", thrift.BOOL, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:descending: ", p), err)
-	}
-	if err := oprot.WriteBool(ctx, bool(p.Descending)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.descending (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:descending: ", p), err)
-	}
-	return err
-}
-
-func (p *SortingColumn) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "nulls_first", thrift.BOOL, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:nulls_first: ", p), err)
-	}
-	if err := oprot.WriteBool(ctx, bool(p.NullsFirst)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.nulls_first (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:nulls_first: ", p), err)
-	}
-	return err
-}
-
-func (p *SortingColumn) Equals(other *SortingColumn) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.ColumnIdx != other.ColumnIdx {
-		return false
-	}
-	if p.Descending != other.Descending {
-		return false
-	}
-	if p.NullsFirst != other.NullsFirst {
-		return false
-	}
-	return true
-}
-
-func (p *SortingColumn) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("SortingColumn(%+v)", *p)
-}
-
-func (p *SortingColumn) Validate() error {
-	return nil
-}
-
-// statistics of a given page type and encoding
-//
-// Attributes:
-//   - PageType: the page type (data/dic/...) *
-//   - Encoding: encoding of the page *
-//   - Count: number of pages of this type with this encoding *
-type PageEncodingStats struct {
-	PageType PageType `thrift:"page_type,1,required" db:"page_type" json:"page_type"`
-	Encoding Encoding `thrift:"encoding,2,required" db:"encoding" json:"encoding"`
-	Count    int32    `thrift:"count,3,required" db:"count" json:"count"`
-}
-
-func NewPageEncodingStats() *PageEncodingStats {
-	return &PageEncodingStats{}
-}
-
-func (p *PageEncodingStats) GetPageType() PageType {
-	return p.PageType
-}
-
-func (p *PageEncodingStats) GetEncoding() Encoding {
-	return p.Encoding
-}
-
-func (p *PageEncodingStats) GetCount() int32 {
-	return p.Count
-}
-func (p *PageEncodingStats) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetPageType bool = false
-	var issetEncoding bool = false
-	var issetCount bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetPageType = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetEncoding = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetCount = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetPageType {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field PageType is not set"))
-	}
-	if !issetEncoding {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Encoding is not set"))
-	}
-	if !issetCount {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Count is not set"))
-	}
-	return nil
-}
-
-func (p *PageEncodingStats) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		temp := PageType(v)
-		p.PageType = temp
-	}
-	return nil
-}
-
-func (p *PageEncodingStats) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		temp := Encoding(v)
-		p.Encoding = temp
-	}
-	return nil
-}
-
-func (p *PageEncodingStats) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.Count = v
-	}
-	return nil
-}
-
-func (p *PageEncodingStats) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "PageEncodingStats"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *PageEncodingStats) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "page_type", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:page_type: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.PageType)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.page_type (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:page_type: ", p), err)
-	}
-	return err
-}
-
-func (p *PageEncodingStats) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "encoding", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:encoding: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Encoding)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.encoding (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:encoding: ", p), err)
-	}
-	return err
-}
-
-func (p *PageEncodingStats) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "count", thrift.I32, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:count: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Count)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.count (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:count: ", p), err)
-	}
-	return err
-}
-
-func (p *PageEncodingStats) Equals(other *PageEncodingStats) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.PageType != other.PageType {
-		return false
-	}
-	if p.Encoding != other.Encoding {
-		return false
-	}
-	if p.Count != other.Count {
-		return false
-	}
-	return true
-}
-
-func (p *PageEncodingStats) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("PageEncodingStats(%+v)", *p)
-}
-
-func (p *PageEncodingStats) Validate() error {
-	return nil
-}
-
-// Description for column metadata
-//
-// Attributes:
-//   - Type: Type of this column *
-//   - Encodings: Set of all encodings used for this column. The purpose is to validate
-//
-// whether we can decode those pages. *
-//   - PathInSchema: Path in schema *
-//   - Codec: Compression codec *
-//   - NumValues: Number of values in this column *
-//   - TotalUncompressedSize: total byte size of all uncompressed pages in this column chunk (including the headers) *
-//   - TotalCompressedSize: total byte size of all compressed, and potentially encrypted, pages
-//
-// in this column chunk (including the headers) *
-//   - KeyValueMetadata: Optional key/value metadata *
-//   - DataPageOffset: Byte offset from beginning of file to first data page *
-//   - IndexPageOffset: Byte offset from beginning of file to root index page *
-//   - DictionaryPageOffset: Byte offset from the beginning of file to first (only) dictionary page *
-//   - Statistics: optional statistics for this column chunk
-//   - EncodingStats: Set of all encodings used for pages in this column chunk.
-//
-// This information can be used to determine if all data pages are
-// dictionary encoded for example *
-//   - BloomFilterOffset: Byte offset from beginning of file to Bloom filter data. *
-type ColumnMetaData struct {
-	Type                  Type                 `thrift:"type,1,required" db:"type" json:"type"`
-	Encodings             []Encoding           `thrift:"encodings,2,required" db:"encodings" json:"encodings"`
-	PathInSchema          []string             `thrift:"path_in_schema,3,required" db:"path_in_schema" json:"path_in_schema"`
-	Codec                 CompressionCodec     `thrift:"codec,4,required" db:"codec" json:"codec"`
-	NumValues             int64                `thrift:"num_values,5,required" db:"num_values" json:"num_values"`
-	TotalUncompressedSize int64                `thrift:"total_uncompressed_size,6,required" db:"total_uncompressed_size" json:"total_uncompressed_size"`
-	TotalCompressedSize   int64                `thrift:"total_compressed_size,7,required" db:"total_compressed_size" json:"total_compressed_size"`
-	KeyValueMetadata      []*KeyValue          `thrift:"key_value_metadata,8" db:"key_value_metadata" json:"key_value_metadata,omitempty"`
-	DataPageOffset        int64                `thrift:"data_page_offset,9,required" db:"data_page_offset" json:"data_page_offset"`
-	IndexPageOffset       *int64               `thrift:"index_page_offset,10" db:"index_page_offset" json:"index_page_offset,omitempty"`
-	DictionaryPageOffset  *int64               `thrift:"dictionary_page_offset,11" db:"dictionary_page_offset" json:"dictionary_page_offset,omitempty"`
-	Statistics            *Statistics          `thrift:"statistics,12" db:"statistics" json:"statistics,omitempty"`
-	EncodingStats         []*PageEncodingStats `thrift:"encoding_stats,13" db:"encoding_stats" json:"encoding_stats,omitempty"`
-	BloomFilterOffset     *int64               `thrift:"bloom_filter_offset,14" db:"bloom_filter_offset" json:"bloom_filter_offset,omitempty"`
-}
-
-func NewColumnMetaData() *ColumnMetaData {
-	return &ColumnMetaData{}
-}
-
-func (p *ColumnMetaData) GetType() Type {
-	return p.Type
-}
-
-func (p *ColumnMetaData) GetEncodings() []Encoding {
-	return p.Encodings
-}
-
-func (p *ColumnMetaData) GetPathInSchema() []string {
-	return p.PathInSchema
-}
-
-func (p *ColumnMetaData) GetCodec() CompressionCodec {
-	return p.Codec
-}
-
-func (p *ColumnMetaData) GetNumValues() int64 {
-	return p.NumValues
-}
-
-func (p *ColumnMetaData) GetTotalUncompressedSize() int64 {
-	return p.TotalUncompressedSize
-}
-
-func (p *ColumnMetaData) GetTotalCompressedSize() int64 {
-	return p.TotalCompressedSize
-}
-
-var ColumnMetaData_KeyValueMetadata_DEFAULT []*KeyValue
-
-func (p *ColumnMetaData) GetKeyValueMetadata() []*KeyValue {
-	return p.KeyValueMetadata
-}
-
-func (p *ColumnMetaData) GetDataPageOffset() int64 {
-	return p.DataPageOffset
-}
-
-var ColumnMetaData_IndexPageOffset_DEFAULT int64
-
-func (p *ColumnMetaData) GetIndexPageOffset() int64 {
-	if !p.IsSetIndexPageOffset() {
-		return ColumnMetaData_IndexPageOffset_DEFAULT
-	}
-	return *p.IndexPageOffset
-}
-
-var ColumnMetaData_DictionaryPageOffset_DEFAULT int64
-
-func (p *ColumnMetaData) GetDictionaryPageOffset() int64 {
-	if !p.IsSetDictionaryPageOffset() {
-		return ColumnMetaData_DictionaryPageOffset_DEFAULT
-	}
-	return *p.DictionaryPageOffset
-}
-
-var ColumnMetaData_Statistics_DEFAULT *Statistics
-
-func (p *ColumnMetaData) GetStatistics() *Statistics {
-	if !p.IsSetStatistics() {
-		return ColumnMetaData_Statistics_DEFAULT
-	}
-	return p.Statistics
-}
-
-var ColumnMetaData_EncodingStats_DEFAULT []*PageEncodingStats
-
-func (p *ColumnMetaData) GetEncodingStats() []*PageEncodingStats {
-	return p.EncodingStats
-}
-
-var ColumnMetaData_BloomFilterOffset_DEFAULT int64
-
-func (p *ColumnMetaData) GetBloomFilterOffset() int64 {
-	if !p.IsSetBloomFilterOffset() {
-		return ColumnMetaData_BloomFilterOffset_DEFAULT
-	}
-	return *p.BloomFilterOffset
-}
-func (p *ColumnMetaData) IsSetKeyValueMetadata() bool {
-	return p.KeyValueMetadata != nil
-}
-
-func (p *ColumnMetaData) IsSetIndexPageOffset() bool {
-	return p.IndexPageOffset != nil
-}
-
-func (p *ColumnMetaData) IsSetDictionaryPageOffset() bool {
-	return p.DictionaryPageOffset != nil
-}
-
-func (p *ColumnMetaData) IsSetStatistics() bool {
-	return p.Statistics != nil
-}
-
-func (p *ColumnMetaData) IsSetEncodingStats() bool {
-	return p.EncodingStats != nil
-}
-
-func (p *ColumnMetaData) IsSetBloomFilterOffset() bool {
-	return p.BloomFilterOffset != nil
-}
-
-func (p *ColumnMetaData) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetType bool = false
-	var issetEncodings bool = false
-	var issetPathInSchema bool = false
-	var issetCodec bool = false
-	var issetNumValues bool = false
-	var issetTotalUncompressedSize bool = false
-	var issetTotalCompressedSize bool = false
-	var issetDataPageOffset bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetType = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetEncodings = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetPathInSchema = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetCodec = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumValues = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-				issetTotalUncompressedSize = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-				issetTotalCompressedSize = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 9:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField9(ctx, iprot); err != nil {
-					return err
-				}
-				issetDataPageOffset = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 10:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField10(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 11:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField11(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 12:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField12(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 13:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField13(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 14:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField14(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetType {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Type is not set"))
-	}
-	if !issetEncodings {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Encodings is not set"))
-	}
-	if !issetPathInSchema {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field PathInSchema is not set"))
-	}
-	if !issetCodec {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Codec is not set"))
-	}
-	if !issetNumValues {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumValues is not set"))
-	}
-	if !issetTotalUncompressedSize {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field TotalUncompressedSize is not set"))
-	}
-	if !issetTotalCompressedSize {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field TotalCompressedSize is not set"))
-	}
-	if !issetDataPageOffset {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field DataPageOffset is not set"))
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		temp := Type(v)
-		p.Type = temp
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]Encoding, 0, size)
-	p.Encodings = tSlice
-	for i := 0; i < size; i++ {
-		var _elem0 Encoding
-		if v, err := iprot.ReadI32(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			temp := Encoding(v)
-			_elem0 = temp
-		}
-		p.Encodings = append(p.Encodings, _elem0)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]string, 0, size)
-	p.PathInSchema = tSlice
-	for i := 0; i < size; i++ {
-		var _elem1 string
-		if v, err := iprot.ReadString(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			_elem1 = v
-		}
-		p.PathInSchema = append(p.PathInSchema, _elem1)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		temp := CompressionCodec(v)
-		p.Codec = temp
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 5: ", err)
-	} else {
-		p.NumValues = v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		p.TotalUncompressedSize = v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 7: ", err)
-	} else {
-		p.TotalCompressedSize = v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*KeyValue, 0, size)
-	p.KeyValueMetadata = tSlice
-	for i := 0; i < size; i++ {
-		_elem2 := &KeyValue{}
-		if err := _elem2.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem2), err)
-		}
-		p.KeyValueMetadata = append(p.KeyValueMetadata, _elem2)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField9(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 9: ", err)
-	} else {
-		p.DataPageOffset = v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField10(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 10: ", err)
-	} else {
-		p.IndexPageOffset = &v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField11(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 11: ", err)
-	} else {
-		p.DictionaryPageOffset = &v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField12(ctx context.Context, iprot thrift.TProtocol) error {
-	p.Statistics = &Statistics{}
-	if err := p.Statistics.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.Statistics), err)
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField13(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*PageEncodingStats, 0, size)
-	p.EncodingStats = tSlice
-	for i := 0; i < size; i++ {
-		_elem3 := &PageEncodingStats{}
-		if err := _elem3.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem3), err)
-		}
-		p.EncodingStats = append(p.EncodingStats, _elem3)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) ReadField14(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 14: ", err)
-	} else {
-		p.BloomFilterOffset = &v
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "ColumnMetaData"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField9(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField10(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField11(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField12(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField13(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField14(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnMetaData) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "type", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:type: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Type)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.type (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:type: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "encodings", thrift.LIST, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:encodings: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.I32, len(p.Encodings)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.Encodings {
-		if err := oprot.WriteI32(ctx, int32(v)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:encodings: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "path_in_schema", thrift.LIST, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:path_in_schema: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRING, len(p.PathInSchema)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.PathInSchema {
-		if err := oprot.WriteString(ctx, string(v)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:path_in_schema: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "codec", thrift.I32, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:codec: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Codec)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.codec (4) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:codec: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_values", thrift.I64, 5); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:num_values: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.NumValues)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_values (5) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 5:num_values: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "total_uncompressed_size", thrift.I64, 6); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:total_uncompressed_size: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.TotalUncompressedSize)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.total_uncompressed_size (6) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 6:total_uncompressed_size: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "total_compressed_size", thrift.I64, 7); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:total_compressed_size: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.TotalCompressedSize)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.total_compressed_size (7) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 7:total_compressed_size: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetKeyValueMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "key_value_metadata", thrift.LIST, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:key_value_metadata: ", p), err)
-		}
-		if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.KeyValueMetadata)); err != nil {
-			return thrift.PrependError("error writing list begin: ", err)
-		}
-		for _, v := range p.KeyValueMetadata {
-			if err := v.Write(ctx, oprot); err != nil {
-				return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-			}
-		}
-		if err := oprot.WriteListEnd(ctx); err != nil {
-			return thrift.PrependError("error writing list end: ", err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:key_value_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField9(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "data_page_offset", thrift.I64, 9); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 9:data_page_offset: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.DataPageOffset)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.data_page_offset (9) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 9:data_page_offset: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField10(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetIndexPageOffset() {
-		if err := oprot.WriteFieldBegin(ctx, "index_page_offset", thrift.I64, 10); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 10:index_page_offset: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.IndexPageOffset)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.index_page_offset (10) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 10:index_page_offset: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField11(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetDictionaryPageOffset() {
-		if err := oprot.WriteFieldBegin(ctx, "dictionary_page_offset", thrift.I64, 11); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 11:dictionary_page_offset: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.DictionaryPageOffset)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.dictionary_page_offset (11) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 11:dictionary_page_offset: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField12(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetStatistics() {
-		if err := oprot.WriteFieldBegin(ctx, "statistics", thrift.STRUCT, 12); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 12:statistics: ", p), err)
-		}
-		if err := p.Statistics.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.Statistics), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 12:statistics: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField13(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetEncodingStats() {
-		if err := oprot.WriteFieldBegin(ctx, "encoding_stats", thrift.LIST, 13); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 13:encoding_stats: ", p), err)
-		}
-		if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.EncodingStats)); err != nil {
-			return thrift.PrependError("error writing list begin: ", err)
-		}
-		for _, v := range p.EncodingStats {
-			if err := v.Write(ctx, oprot); err != nil {
-				return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-			}
-		}
-		if err := oprot.WriteListEnd(ctx); err != nil {
-			return thrift.PrependError("error writing list end: ", err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 13:encoding_stats: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnMetaData) writeField14(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetBloomFilterOffset() {
-		if err := oprot.WriteFieldBegin(ctx, "bloom_filter_offset", thrift.I64, 14); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 14:bloom_filter_offset: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.BloomFilterOffset)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.bloom_filter_offset (14) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 14:bloom_filter_offset: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnMetaData) Equals(other *ColumnMetaData) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Type != other.Type {
-		return false
-	}
-	if len(p.Encodings) != len(other.Encodings) {
-		return false
-	}
-	for i, _tgt := range p.Encodings {
-		_src4 := other.Encodings[i]
-		if _tgt != _src4 {
-			return false
-		}
-	}
-	if len(p.PathInSchema) != len(other.PathInSchema) {
-		return false
-	}
-	for i, _tgt := range p.PathInSchema {
-		_src5 := other.PathInSchema[i]
-		if _tgt != _src5 {
-			return false
-		}
-	}
-	if p.Codec != other.Codec {
-		return false
-	}
-	if p.NumValues != other.NumValues {
-		return false
-	}
-	if p.TotalUncompressedSize != other.TotalUncompressedSize {
-		return false
-	}
-	if p.TotalCompressedSize != other.TotalCompressedSize {
-		return false
-	}
-	if len(p.KeyValueMetadata) != len(other.KeyValueMetadata) {
-		return false
-	}
-	for i, _tgt := range p.KeyValueMetadata {
-		_src6 := other.KeyValueMetadata[i]
-		if !_tgt.Equals(_src6) {
-			return false
-		}
-	}
-	if p.DataPageOffset != other.DataPageOffset {
-		return false
-	}
-	if p.IndexPageOffset != other.IndexPageOffset {
-		if p.IndexPageOffset == nil || other.IndexPageOffset == nil {
-			return false
-		}
-		if (*p.IndexPageOffset) != (*other.IndexPageOffset) {
-			return false
-		}
-	}
-	if p.DictionaryPageOffset != other.DictionaryPageOffset {
-		if p.DictionaryPageOffset == nil || other.DictionaryPageOffset == nil {
-			return false
-		}
-		if (*p.DictionaryPageOffset) != (*other.DictionaryPageOffset) {
-			return false
-		}
-	}
-	if !p.Statistics.Equals(other.Statistics) {
-		return false
-	}
-	if len(p.EncodingStats) != len(other.EncodingStats) {
-		return false
-	}
-	for i, _tgt := range p.EncodingStats {
-		_src7 := other.EncodingStats[i]
-		if !_tgt.Equals(_src7) {
-			return false
-		}
-	}
-	if p.BloomFilterOffset != other.BloomFilterOffset {
-		if p.BloomFilterOffset == nil || other.BloomFilterOffset == nil {
-			return false
-		}
-		if (*p.BloomFilterOffset) != (*other.BloomFilterOffset) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *ColumnMetaData) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("ColumnMetaData(%+v)", *p)
-}
-
-func (p *ColumnMetaData) Validate() error {
-	return nil
-}
-
-type EncryptionWithFooterKey struct {
-}
-
-func NewEncryptionWithFooterKey() *EncryptionWithFooterKey {
-	return &EncryptionWithFooterKey{}
-}
-
-func (p *EncryptionWithFooterKey) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *EncryptionWithFooterKey) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "EncryptionWithFooterKey"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *EncryptionWithFooterKey) Equals(other *EncryptionWithFooterKey) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *EncryptionWithFooterKey) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("EncryptionWithFooterKey(%+v)", *p)
-}
-
-func (p *EncryptionWithFooterKey) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - PathInSchema: Column path in schema *
-//   - KeyMetadata: Retrieval metadata of column encryption key *
-type EncryptionWithColumnKey struct {
-	PathInSchema []string `thrift:"path_in_schema,1,required" db:"path_in_schema" json:"path_in_schema"`
-	KeyMetadata  []byte   `thrift:"key_metadata,2" db:"key_metadata" json:"key_metadata,omitempty"`
-}
-
-func NewEncryptionWithColumnKey() *EncryptionWithColumnKey {
-	return &EncryptionWithColumnKey{}
-}
-
-func (p *EncryptionWithColumnKey) GetPathInSchema() []string {
-	return p.PathInSchema
-}
-
-var EncryptionWithColumnKey_KeyMetadata_DEFAULT []byte
-
-func (p *EncryptionWithColumnKey) GetKeyMetadata() []byte {
-	return p.KeyMetadata
-}
-func (p *EncryptionWithColumnKey) IsSetKeyMetadata() bool {
-	return p.KeyMetadata != nil
-}
-
-func (p *EncryptionWithColumnKey) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetPathInSchema bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetPathInSchema = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetPathInSchema {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field PathInSchema is not set"))
-	}
-	return nil
-}
-
-func (p *EncryptionWithColumnKey) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]string, 0, size)
-	p.PathInSchema = tSlice
-	for i := 0; i < size; i++ {
-		var _elem8 string
-		if v, err := iprot.ReadString(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			_elem8 = v
-		}
-		p.PathInSchema = append(p.PathInSchema, _elem8)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *EncryptionWithColumnKey) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.KeyMetadata = v
-	}
-	return nil
-}
-
-func (p *EncryptionWithColumnKey) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "EncryptionWithColumnKey"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *EncryptionWithColumnKey) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "path_in_schema", thrift.LIST, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:path_in_schema: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRING, len(p.PathInSchema)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.PathInSchema {
-		if err := oprot.WriteString(ctx, string(v)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:path_in_schema: ", p), err)
-	}
-	return err
-}
-
-func (p *EncryptionWithColumnKey) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetKeyMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "key_metadata", thrift.STRING, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:key_metadata: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.KeyMetadata); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.key_metadata (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:key_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *EncryptionWithColumnKey) Equals(other *EncryptionWithColumnKey) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if len(p.PathInSchema) != len(other.PathInSchema) {
-		return false
-	}
-	for i, _tgt := range p.PathInSchema {
-		_src9 := other.PathInSchema[i]
-		if _tgt != _src9 {
-			return false
-		}
-	}
-	if bytes.Compare(p.KeyMetadata, other.KeyMetadata) != 0 {
-		return false
-	}
-	return true
-}
-
-func (p *EncryptionWithColumnKey) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("EncryptionWithColumnKey(%+v)", *p)
-}
-
-func (p *EncryptionWithColumnKey) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - ENCRYPTION_WITH_FOOTER_KEY
-//   - ENCRYPTION_WITH_COLUMN_KEY
-type ColumnCryptoMetaData struct {
-	ENCRYPTION_WITH_FOOTER_KEY *EncryptionWithFooterKey `thrift:"ENCRYPTION_WITH_FOOTER_KEY,1" db:"ENCRYPTION_WITH_FOOTER_KEY" json:"ENCRYPTION_WITH_FOOTER_KEY,omitempty"`
-	ENCRYPTION_WITH_COLUMN_KEY *EncryptionWithColumnKey `thrift:"ENCRYPTION_WITH_COLUMN_KEY,2" db:"ENCRYPTION_WITH_COLUMN_KEY" json:"ENCRYPTION_WITH_COLUMN_KEY,omitempty"`
-}
-
-func NewColumnCryptoMetaData() *ColumnCryptoMetaData {
-	return &ColumnCryptoMetaData{}
-}
-
-var ColumnCryptoMetaData_ENCRYPTION_WITH_FOOTER_KEY_DEFAULT *EncryptionWithFooterKey
-
-func (p *ColumnCryptoMetaData) GetENCRYPTION_WITH_FOOTER_KEY() *EncryptionWithFooterKey {
-	if !p.IsSetENCRYPTION_WITH_FOOTER_KEY() {
-		return ColumnCryptoMetaData_ENCRYPTION_WITH_FOOTER_KEY_DEFAULT
-	}
-	return p.ENCRYPTION_WITH_FOOTER_KEY
-}
-
-var ColumnCryptoMetaData_ENCRYPTION_WITH_COLUMN_KEY_DEFAULT *EncryptionWithColumnKey
-
-func (p *ColumnCryptoMetaData) GetENCRYPTION_WITH_COLUMN_KEY() *EncryptionWithColumnKey {
-	if !p.IsSetENCRYPTION_WITH_COLUMN_KEY() {
-		return ColumnCryptoMetaData_ENCRYPTION_WITH_COLUMN_KEY_DEFAULT
-	}
-	return p.ENCRYPTION_WITH_COLUMN_KEY
-}
-func (p *ColumnCryptoMetaData) CountSetFieldsColumnCryptoMetaData() int {
-	count := 0
-	if p.IsSetENCRYPTION_WITH_FOOTER_KEY() {
-		count++
-	}
-	if p.IsSetENCRYPTION_WITH_COLUMN_KEY() {
-		count++
-	}
-	return count
-
-}
-
-func (p *ColumnCryptoMetaData) IsSetENCRYPTION_WITH_FOOTER_KEY() bool {
-	return p.ENCRYPTION_WITH_FOOTER_KEY != nil
-}
-
-func (p *ColumnCryptoMetaData) IsSetENCRYPTION_WITH_COLUMN_KEY() bool {
-	return p.ENCRYPTION_WITH_COLUMN_KEY != nil
-}
-
-func (p *ColumnCryptoMetaData) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *ColumnCryptoMetaData) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.ENCRYPTION_WITH_FOOTER_KEY = &EncryptionWithFooterKey{}
-	if err := p.ENCRYPTION_WITH_FOOTER_KEY.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.ENCRYPTION_WITH_FOOTER_KEY), err)
-	}
-	return nil
-}
-
-func (p *ColumnCryptoMetaData) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.ENCRYPTION_WITH_COLUMN_KEY = &EncryptionWithColumnKey{}
-	if err := p.ENCRYPTION_WITH_COLUMN_KEY.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.ENCRYPTION_WITH_COLUMN_KEY), err)
-	}
-	return nil
-}
-
-func (p *ColumnCryptoMetaData) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsColumnCryptoMetaData(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "ColumnCryptoMetaData"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnCryptoMetaData) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetENCRYPTION_WITH_FOOTER_KEY() {
-		if err := oprot.WriteFieldBegin(ctx, "ENCRYPTION_WITH_FOOTER_KEY", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:ENCRYPTION_WITH_FOOTER_KEY: ", p), err)
-		}
-		if err := p.ENCRYPTION_WITH_FOOTER_KEY.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.ENCRYPTION_WITH_FOOTER_KEY), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:ENCRYPTION_WITH_FOOTER_KEY: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnCryptoMetaData) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetENCRYPTION_WITH_COLUMN_KEY() {
-		if err := oprot.WriteFieldBegin(ctx, "ENCRYPTION_WITH_COLUMN_KEY", thrift.STRUCT, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:ENCRYPTION_WITH_COLUMN_KEY: ", p), err)
-		}
-		if err := p.ENCRYPTION_WITH_COLUMN_KEY.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.ENCRYPTION_WITH_COLUMN_KEY), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:ENCRYPTION_WITH_COLUMN_KEY: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnCryptoMetaData) Equals(other *ColumnCryptoMetaData) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.ENCRYPTION_WITH_FOOTER_KEY.Equals(other.ENCRYPTION_WITH_FOOTER_KEY) {
-		return false
-	}
-	if !p.ENCRYPTION_WITH_COLUMN_KEY.Equals(other.ENCRYPTION_WITH_COLUMN_KEY) {
-		return false
-	}
-	return true
-}
-
-func (p *ColumnCryptoMetaData) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("ColumnCryptoMetaData(%+v)", *p)
-}
-
-func (p *ColumnCryptoMetaData) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - FilePath: File where column data is stored.  If not set, assumed to be same file as
-//
-// metadata.  This path is relative to the current file.
-//
-//   - FileOffset: Byte offset in file_path to the ColumnMetaData *
-//   - MetaData: Column metadata for this chunk. This is the same content as what is at
-//
-// file_path/file_offset.  Having it here has it replicated in the file
-// metadata.
-//
-//   - OffsetIndexOffset: File offset of ColumnChunk's OffsetIndex *
-//   - OffsetIndexLength: Size of ColumnChunk's OffsetIndex, in bytes *
-//   - ColumnIndexOffset: File offset of ColumnChunk's ColumnIndex *
-//   - ColumnIndexLength: Size of ColumnChunk's ColumnIndex, in bytes *
-//   - CryptoMetadata: Crypto metadata of encrypted columns *
-//   - EncryptedColumnMetadata: Encrypted column metadata for this chunk *
-type ColumnChunk struct {
-	FilePath                *string               `thrift:"file_path,1" db:"file_path" json:"file_path,omitempty"`
-	FileOffset              int64                 `thrift:"file_offset,2,required" db:"file_offset" json:"file_offset"`
-	MetaData                *ColumnMetaData       `thrift:"meta_data,3" db:"meta_data" json:"meta_data,omitempty"`
-	OffsetIndexOffset       *int64                `thrift:"offset_index_offset,4" db:"offset_index_offset" json:"offset_index_offset,omitempty"`
-	OffsetIndexLength       *int32                `thrift:"offset_index_length,5" db:"offset_index_length" json:"offset_index_length,omitempty"`
-	ColumnIndexOffset       *int64                `thrift:"column_index_offset,6" db:"column_index_offset" json:"column_index_offset,omitempty"`
-	ColumnIndexLength       *int32                `thrift:"column_index_length,7" db:"column_index_length" json:"column_index_length,omitempty"`
-	CryptoMetadata          *ColumnCryptoMetaData `thrift:"crypto_metadata,8" db:"crypto_metadata" json:"crypto_metadata,omitempty"`
-	EncryptedColumnMetadata []byte                `thrift:"encrypted_column_metadata,9" db:"encrypted_column_metadata" json:"encrypted_column_metadata,omitempty"`
-}
-
-func NewColumnChunk() *ColumnChunk {
-	return &ColumnChunk{}
-}
-
-var ColumnChunk_FilePath_DEFAULT string
-
-func (p *ColumnChunk) GetFilePath() string {
-	if !p.IsSetFilePath() {
-		return ColumnChunk_FilePath_DEFAULT
-	}
-	return *p.FilePath
-}
-
-func (p *ColumnChunk) GetFileOffset() int64 {
-	return p.FileOffset
-}
-
-var ColumnChunk_MetaData_DEFAULT *ColumnMetaData
-
-func (p *ColumnChunk) GetMetaData() *ColumnMetaData {
-	if !p.IsSetMetaData() {
-		return ColumnChunk_MetaData_DEFAULT
-	}
-	return p.MetaData
-}
-
-var ColumnChunk_OffsetIndexOffset_DEFAULT int64
-
-func (p *ColumnChunk) GetOffsetIndexOffset() int64 {
-	if !p.IsSetOffsetIndexOffset() {
-		return ColumnChunk_OffsetIndexOffset_DEFAULT
-	}
-	return *p.OffsetIndexOffset
-}
-
-var ColumnChunk_OffsetIndexLength_DEFAULT int32
-
-func (p *ColumnChunk) GetOffsetIndexLength() int32 {
-	if !p.IsSetOffsetIndexLength() {
-		return ColumnChunk_OffsetIndexLength_DEFAULT
-	}
-	return *p.OffsetIndexLength
-}
-
-var ColumnChunk_ColumnIndexOffset_DEFAULT int64
-
-func (p *ColumnChunk) GetColumnIndexOffset() int64 {
-	if !p.IsSetColumnIndexOffset() {
-		return ColumnChunk_ColumnIndexOffset_DEFAULT
-	}
-	return *p.ColumnIndexOffset
-}
-
-var ColumnChunk_ColumnIndexLength_DEFAULT int32
-
-func (p *ColumnChunk) GetColumnIndexLength() int32 {
-	if !p.IsSetColumnIndexLength() {
-		return ColumnChunk_ColumnIndexLength_DEFAULT
-	}
-	return *p.ColumnIndexLength
-}
-
-var ColumnChunk_CryptoMetadata_DEFAULT *ColumnCryptoMetaData
-
-func (p *ColumnChunk) GetCryptoMetadata() *ColumnCryptoMetaData {
-	if !p.IsSetCryptoMetadata() {
-		return ColumnChunk_CryptoMetadata_DEFAULT
-	}
-	return p.CryptoMetadata
-}
-
-var ColumnChunk_EncryptedColumnMetadata_DEFAULT []byte
-
-func (p *ColumnChunk) GetEncryptedColumnMetadata() []byte {
-	return p.EncryptedColumnMetadata
-}
-func (p *ColumnChunk) IsSetFilePath() bool {
-	return p.FilePath != nil
-}
-
-func (p *ColumnChunk) IsSetMetaData() bool {
-	return p.MetaData != nil
-}
-
-func (p *ColumnChunk) IsSetOffsetIndexOffset() bool {
-	return p.OffsetIndexOffset != nil
-}
-
-func (p *ColumnChunk) IsSetOffsetIndexLength() bool {
-	return p.OffsetIndexLength != nil
-}
-
-func (p *ColumnChunk) IsSetColumnIndexOffset() bool {
-	return p.ColumnIndexOffset != nil
-}
-
-func (p *ColumnChunk) IsSetColumnIndexLength() bool {
-	return p.ColumnIndexLength != nil
-}
-
-func (p *ColumnChunk) IsSetCryptoMetadata() bool {
-	return p.CryptoMetadata != nil
-}
-
-func (p *ColumnChunk) IsSetEncryptedColumnMetadata() bool {
-	return p.EncryptedColumnMetadata != nil
-}
-
-func (p *ColumnChunk) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetFileOffset bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetFileOffset = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 9:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField9(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetFileOffset {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field FileOffset is not set"))
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadString(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.FilePath = &v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.FileOffset = v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	p.MetaData = &ColumnMetaData{}
-	if err := p.MetaData.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.MetaData), err)
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		p.OffsetIndexOffset = &v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 5: ", err)
-	} else {
-		p.OffsetIndexLength = &v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		p.ColumnIndexOffset = &v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 7: ", err)
-	} else {
-		p.ColumnIndexLength = &v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	p.CryptoMetadata = &ColumnCryptoMetaData{}
-	if err := p.CryptoMetadata.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.CryptoMetadata), err)
-	}
-	return nil
-}
-
-func (p *ColumnChunk) ReadField9(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 9: ", err)
-	} else {
-		p.EncryptedColumnMetadata = v
-	}
-	return nil
-}
-
-func (p *ColumnChunk) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "ColumnChunk"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField9(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnChunk) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetFilePath() {
-		if err := oprot.WriteFieldBegin(ctx, "file_path", thrift.STRING, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:file_path: ", p), err)
-		}
-		if err := oprot.WriteString(ctx, string(*p.FilePath)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.file_path (1) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:file_path: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "file_offset", thrift.I64, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:file_offset: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.FileOffset)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.file_offset (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:file_offset: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetMetaData() {
-		if err := oprot.WriteFieldBegin(ctx, "meta_data", thrift.STRUCT, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:meta_data: ", p), err)
-		}
-		if err := p.MetaData.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.MetaData), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:meta_data: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetOffsetIndexOffset() {
-		if err := oprot.WriteFieldBegin(ctx, "offset_index_offset", thrift.I64, 4); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:offset_index_offset: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.OffsetIndexOffset)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.offset_index_offset (4) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 4:offset_index_offset: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetOffsetIndexLength() {
-		if err := oprot.WriteFieldBegin(ctx, "offset_index_length", thrift.I32, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:offset_index_length: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.OffsetIndexLength)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.offset_index_length (5) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:offset_index_length: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetColumnIndexOffset() {
-		if err := oprot.WriteFieldBegin(ctx, "column_index_offset", thrift.I64, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:column_index_offset: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.ColumnIndexOffset)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.column_index_offset (6) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:column_index_offset: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetColumnIndexLength() {
-		if err := oprot.WriteFieldBegin(ctx, "column_index_length", thrift.I32, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:column_index_length: ", p), err)
-		}
-		if err := oprot.WriteI32(ctx, int32(*p.ColumnIndexLength)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.column_index_length (7) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:column_index_length: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetCryptoMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "crypto_metadata", thrift.STRUCT, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:crypto_metadata: ", p), err)
-		}
-		if err := p.CryptoMetadata.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.CryptoMetadata), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:crypto_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) writeField9(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetEncryptedColumnMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "encrypted_column_metadata", thrift.STRING, 9); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 9:encrypted_column_metadata: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.EncryptedColumnMetadata); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.encrypted_column_metadata (9) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 9:encrypted_column_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnChunk) Equals(other *ColumnChunk) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.FilePath != other.FilePath {
-		if p.FilePath == nil || other.FilePath == nil {
-			return false
-		}
-		if (*p.FilePath) != (*other.FilePath) {
-			return false
-		}
-	}
-	if p.FileOffset != other.FileOffset {
-		return false
-	}
-	if !p.MetaData.Equals(other.MetaData) {
-		return false
-	}
-	if p.OffsetIndexOffset != other.OffsetIndexOffset {
-		if p.OffsetIndexOffset == nil || other.OffsetIndexOffset == nil {
-			return false
-		}
-		if (*p.OffsetIndexOffset) != (*other.OffsetIndexOffset) {
-			return false
-		}
-	}
-	if p.OffsetIndexLength != other.OffsetIndexLength {
-		if p.OffsetIndexLength == nil || other.OffsetIndexLength == nil {
-			return false
-		}
-		if (*p.OffsetIndexLength) != (*other.OffsetIndexLength) {
-			return false
-		}
-	}
-	if p.ColumnIndexOffset != other.ColumnIndexOffset {
-		if p.ColumnIndexOffset == nil || other.ColumnIndexOffset == nil {
-			return false
-		}
-		if (*p.ColumnIndexOffset) != (*other.ColumnIndexOffset) {
-			return false
-		}
-	}
-	if p.ColumnIndexLength != other.ColumnIndexLength {
-		if p.ColumnIndexLength == nil || other.ColumnIndexLength == nil {
-			return false
-		}
-		if (*p.ColumnIndexLength) != (*other.ColumnIndexLength) {
-			return false
-		}
-	}
-	if !p.CryptoMetadata.Equals(other.CryptoMetadata) {
-		return false
-	}
-	if bytes.Compare(p.EncryptedColumnMetadata, other.EncryptedColumnMetadata) != 0 {
-		return false
-	}
-	return true
-}
-
-func (p *ColumnChunk) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("ColumnChunk(%+v)", *p)
-}
-
-func (p *ColumnChunk) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - Columns: Metadata for each column chunk in this row group.
-//
-// This list must have the same order as the SchemaElement list in FileMetaData.
-//
-//   - TotalByteSize: Total byte size of all the uncompressed column data in this row group *
-//   - NumRows: Number of rows in this row group *
-//   - SortingColumns: If set, specifies a sort ordering of the rows in this RowGroup.
-//
-// The sorting columns can be a subset of all the columns.
-//   - FileOffset: Byte offset from beginning of file to first page (data or dictionary)
-//
-// in this row group *
-//   - TotalCompressedSize: Total byte size of all compressed (and potentially encrypted) column data
-//
-// in this row group *
-//   - Ordinal: Row group ordinal in the file *
-type RowGroup struct {
-	Columns             []*ColumnChunk   `thrift:"columns,1,required" db:"columns" json:"columns"`
-	TotalByteSize       int64            `thrift:"total_byte_size,2,required" db:"total_byte_size" json:"total_byte_size"`
-	NumRows             int64            `thrift:"num_rows,3,required" db:"num_rows" json:"num_rows"`
-	SortingColumns      []*SortingColumn `thrift:"sorting_columns,4" db:"sorting_columns" json:"sorting_columns,omitempty"`
-	FileOffset          *int64           `thrift:"file_offset,5" db:"file_offset" json:"file_offset,omitempty"`
-	TotalCompressedSize *int64           `thrift:"total_compressed_size,6" db:"total_compressed_size" json:"total_compressed_size,omitempty"`
-	Ordinal             *int16           `thrift:"ordinal,7" db:"ordinal" json:"ordinal,omitempty"`
-}
-
-func NewRowGroup() *RowGroup {
-	return &RowGroup{}
-}
-
-func (p *RowGroup) GetColumns() []*ColumnChunk {
-	return p.Columns
-}
-
-func (p *RowGroup) GetTotalByteSize() int64 {
-	return p.TotalByteSize
-}
-
-func (p *RowGroup) GetNumRows() int64 {
-	return p.NumRows
-}
-
-var RowGroup_SortingColumns_DEFAULT []*SortingColumn
-
-func (p *RowGroup) GetSortingColumns() []*SortingColumn {
-	return p.SortingColumns
-}
-
-var RowGroup_FileOffset_DEFAULT int64
-
-func (p *RowGroup) GetFileOffset() int64 {
-	if !p.IsSetFileOffset() {
-		return RowGroup_FileOffset_DEFAULT
-	}
-	return *p.FileOffset
-}
-
-var RowGroup_TotalCompressedSize_DEFAULT int64
-
-func (p *RowGroup) GetTotalCompressedSize() int64 {
-	if !p.IsSetTotalCompressedSize() {
-		return RowGroup_TotalCompressedSize_DEFAULT
-	}
-	return *p.TotalCompressedSize
-}
-
-var RowGroup_Ordinal_DEFAULT int16
-
-func (p *RowGroup) GetOrdinal() int16 {
-	if !p.IsSetOrdinal() {
-		return RowGroup_Ordinal_DEFAULT
-	}
-	return *p.Ordinal
-}
-func (p *RowGroup) IsSetSortingColumns() bool {
-	return p.SortingColumns != nil
-}
-
-func (p *RowGroup) IsSetFileOffset() bool {
-	return p.FileOffset != nil
-}
-
-func (p *RowGroup) IsSetTotalCompressedSize() bool {
-	return p.TotalCompressedSize != nil
-}
-
-func (p *RowGroup) IsSetOrdinal() bool {
-	return p.Ordinal != nil
-}
-
-func (p *RowGroup) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetColumns bool = false
-	var issetTotalByteSize bool = false
-	var issetNumRows bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetColumns = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetTotalByteSize = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumRows = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.I16 {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetColumns {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Columns is not set"))
-	}
-	if !issetTotalByteSize {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field TotalByteSize is not set"))
-	}
-	if !issetNumRows {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumRows is not set"))
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*ColumnChunk, 0, size)
-	p.Columns = tSlice
-	for i := 0; i < size; i++ {
-		_elem10 := &ColumnChunk{}
-		if err := _elem10.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem10), err)
-		}
-		p.Columns = append(p.Columns, _elem10)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.TotalByteSize = v
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.NumRows = v
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*SortingColumn, 0, size)
-	p.SortingColumns = tSlice
-	for i := 0; i < size; i++ {
-		_elem11 := &SortingColumn{}
-		if err := _elem11.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem11), err)
-		}
-		p.SortingColumns = append(p.SortingColumns, _elem11)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 5: ", err)
-	} else {
-		p.FileOffset = &v
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		p.TotalCompressedSize = &v
-	}
-	return nil
-}
-
-func (p *RowGroup) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI16(ctx); err != nil {
-		return thrift.PrependError("error reading field 7: ", err)
-	} else {
-		p.Ordinal = &v
-	}
-	return nil
-}
-
-func (p *RowGroup) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "RowGroup"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *RowGroup) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "columns", thrift.LIST, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:columns: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.Columns)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.Columns {
-		if err := v.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:columns: ", p), err)
-	}
-	return err
-}
-
-func (p *RowGroup) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "total_byte_size", thrift.I64, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:total_byte_size: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.TotalByteSize)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.total_byte_size (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:total_byte_size: ", p), err)
-	}
-	return err
-}
-
-func (p *RowGroup) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_rows", thrift.I64, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:num_rows: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.NumRows)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_rows (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:num_rows: ", p), err)
-	}
-	return err
-}
-
-func (p *RowGroup) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetSortingColumns() {
-		if err := oprot.WriteFieldBegin(ctx, "sorting_columns", thrift.LIST, 4); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:sorting_columns: ", p), err)
-		}
-		if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.SortingColumns)); err != nil {
-			return thrift.PrependError("error writing list begin: ", err)
-		}
-		for _, v := range p.SortingColumns {
-			if err := v.Write(ctx, oprot); err != nil {
-				return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-			}
-		}
-		if err := oprot.WriteListEnd(ctx); err != nil {
-			return thrift.PrependError("error writing list end: ", err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 4:sorting_columns: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *RowGroup) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetFileOffset() {
-		if err := oprot.WriteFieldBegin(ctx, "file_offset", thrift.I64, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:file_offset: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.FileOffset)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.file_offset (5) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:file_offset: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *RowGroup) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetTotalCompressedSize() {
-		if err := oprot.WriteFieldBegin(ctx, "total_compressed_size", thrift.I64, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:total_compressed_size: ", p), err)
-		}
-		if err := oprot.WriteI64(ctx, int64(*p.TotalCompressedSize)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.total_compressed_size (6) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:total_compressed_size: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *RowGroup) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetOrdinal() {
-		if err := oprot.WriteFieldBegin(ctx, "ordinal", thrift.I16, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:ordinal: ", p), err)
-		}
-		if err := oprot.WriteI16(ctx, int16(*p.Ordinal)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.ordinal (7) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:ordinal: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *RowGroup) Equals(other *RowGroup) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if len(p.Columns) != len(other.Columns) {
-		return false
-	}
-	for i, _tgt := range p.Columns {
-		_src12 := other.Columns[i]
-		if !_tgt.Equals(_src12) {
-			return false
-		}
-	}
-	if p.TotalByteSize != other.TotalByteSize {
-		return false
-	}
-	if p.NumRows != other.NumRows {
-		return false
-	}
-	if len(p.SortingColumns) != len(other.SortingColumns) {
-		return false
-	}
-	for i, _tgt := range p.SortingColumns {
-		_src13 := other.SortingColumns[i]
-		if !_tgt.Equals(_src13) {
-			return false
-		}
-	}
-	if p.FileOffset != other.FileOffset {
-		if p.FileOffset == nil || other.FileOffset == nil {
-			return false
-		}
-		if (*p.FileOffset) != (*other.FileOffset) {
-			return false
-		}
-	}
-	if p.TotalCompressedSize != other.TotalCompressedSize {
-		if p.TotalCompressedSize == nil || other.TotalCompressedSize == nil {
-			return false
-		}
-		if (*p.TotalCompressedSize) != (*other.TotalCompressedSize) {
-			return false
-		}
-	}
-	if p.Ordinal != other.Ordinal {
-		if p.Ordinal == nil || other.Ordinal == nil {
-			return false
-		}
-		if (*p.Ordinal) != (*other.Ordinal) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *RowGroup) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("RowGroup(%+v)", *p)
-}
-
-func (p *RowGroup) Validate() error {
-	return nil
-}
-
-// Empty struct to signal the order defined by the physical or logical type
-type TypeDefinedOrder struct {
-}
-
-func NewTypeDefinedOrder() *TypeDefinedOrder {
-	return &TypeDefinedOrder{}
-}
-
-func (p *TypeDefinedOrder) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-			return err
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *TypeDefinedOrder) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "TypeDefinedOrder"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *TypeDefinedOrder) Equals(other *TypeDefinedOrder) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	return true
-}
-
-func (p *TypeDefinedOrder) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("TypeDefinedOrder(%+v)", *p)
-}
-
-func (p *TypeDefinedOrder) Validate() error {
-	return nil
-}
-
-// Union to specify the order used for the min_value and max_value fields for a
-// column. This union takes the role of an enhanced enum that allows rich
-// elements (which will be needed for a collation-based ordering in the future).
-//
-// Possible values are:
-//   - TypeDefinedOrder - the column uses the order defined by its logical or
-//     physical type (if there is no logical type).
-//
-// If the reader does not support the value of this union, min and max stats
-// for this column should be ignored.
-//
-// Attributes:
-//   - TYPE_ORDER: The sort orders for logical types are:
-//     UTF8 - unsigned byte-wise comparison
-//     INT8 - signed comparison
-//     INT16 - signed comparison
-//     INT32 - signed comparison
-//     INT64 - signed comparison
-//     UINT8 - unsigned comparison
-//     UINT16 - unsigned comparison
-//     UINT32 - unsigned comparison
-//     UINT64 - unsigned comparison
-//     DECIMAL - signed comparison of the represented value
-//     DATE - signed comparison
-//     TIME_MILLIS - signed comparison
-//     TIME_MICROS - signed comparison
-//     TIMESTAMP_MILLIS - signed comparison
-//     TIMESTAMP_MICROS - signed comparison
-//     INTERVAL - unsigned comparison
-//     JSON - unsigned byte-wise comparison
-//     BSON - unsigned byte-wise comparison
-//     ENUM - unsigned byte-wise comparison
-//     LIST - undefined
-//     MAP - undefined
-//
-// In the absence of logical types, the sort order is determined by the physical type:
-//
-//	BOOLEAN - false, true
-//	INT32 - signed comparison
-//	INT64 - signed comparison
-//	INT96 (only used for legacy timestamps) - undefined
-//	FLOAT - signed comparison of the represented value (*)
-//	DOUBLE - signed comparison of the represented value (*)
-//	BYTE_ARRAY - unsigned byte-wise comparison
-//	FIXED_LEN_BYTE_ARRAY - unsigned byte-wise comparison
-//
-// (*) Because the sorting order is not specified properly for floating
-//
-//	point values (relations vs. total ordering) the following
-//	compatibility rules should be applied when reading statistics:
-//	- If the min is a NaN, it should be ignored.
-//	- If the max is a NaN, it should be ignored.
-//	- If the min is +0, the row group may contain -0 values as well.
-//	- If the max is -0, the row group may contain +0 values as well.
-//	- When looking for NaN values, min and max should be ignored.
-//
-//	When writing statistics the following rules should be followed:
-//	- NaNs should not be written to min or max statistics fields.
-//	- If the computed max value is zero (whether negative or positive),
-//	  `+0.0` should be written into the max statistics field.
-//	- If the computed min value is zero (whether negative or positive),
-//	  `-0.0` should be written into the min statistics field.
-type ColumnOrder struct {
-	TYPE_ORDER *TypeDefinedOrder `thrift:"TYPE_ORDER,1" db:"TYPE_ORDER" json:"TYPE_ORDER,omitempty"`
-}
-
-func NewColumnOrder() *ColumnOrder {
-	return &ColumnOrder{}
-}
-
-var ColumnOrder_TYPE_ORDER_DEFAULT *TypeDefinedOrder
-
-func (p *ColumnOrder) GetTYPE_ORDER() *TypeDefinedOrder {
-	if !p.IsSetTYPE_ORDER() {
-		return ColumnOrder_TYPE_ORDER_DEFAULT
-	}
-	return p.TYPE_ORDER
-}
-func (p *ColumnOrder) CountSetFieldsColumnOrder() int {
-	count := 0
-	if p.IsSetTYPE_ORDER() {
-		count++
-	}
-	return count
-
-}
-
-func (p *ColumnOrder) IsSetTYPE_ORDER() bool {
-	return p.TYPE_ORDER != nil
-}
-
-func (p *ColumnOrder) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *ColumnOrder) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.TYPE_ORDER = &TypeDefinedOrder{}
-	if err := p.TYPE_ORDER.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.TYPE_ORDER), err)
-	}
-	return nil
-}
-
-func (p *ColumnOrder) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsColumnOrder(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "ColumnOrder"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnOrder) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetTYPE_ORDER() {
-		if err := oprot.WriteFieldBegin(ctx, "TYPE_ORDER", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:TYPE_ORDER: ", p), err)
-		}
-		if err := p.TYPE_ORDER.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.TYPE_ORDER), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:TYPE_ORDER: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnOrder) Equals(other *ColumnOrder) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.TYPE_ORDER.Equals(other.TYPE_ORDER) {
-		return false
-	}
-	return true
-}
-
-func (p *ColumnOrder) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("ColumnOrder(%+v)", *p)
-}
-
-func (p *ColumnOrder) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - Offset: Offset of the page in the file *
-//   - CompressedPageSize: Size of the page, including header. Sum of compressed_page_size and header
-//
-// length
-//   - FirstRowIndex: Index within the RowGroup of the first row of the page; this means pages
-//
-// change on record boundaries (r = 0).
-type PageLocation struct {
-	Offset             int64 `thrift:"offset,1,required" db:"offset" json:"offset"`
-	CompressedPageSize int32 `thrift:"compressed_page_size,2,required" db:"compressed_page_size" json:"compressed_page_size"`
-	FirstRowIndex      int64 `thrift:"first_row_index,3,required" db:"first_row_index" json:"first_row_index"`
-}
-
-func NewPageLocation() *PageLocation {
-	return &PageLocation{}
-}
-
-func (p *PageLocation) GetOffset() int64 {
-	return p.Offset
-}
-
-func (p *PageLocation) GetCompressedPageSize() int32 {
-	return p.CompressedPageSize
-}
-
-func (p *PageLocation) GetFirstRowIndex() int64 {
-	return p.FirstRowIndex
-}
-func (p *PageLocation) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetOffset bool = false
-	var issetCompressedPageSize bool = false
-	var issetFirstRowIndex bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetOffset = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetCompressedPageSize = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetFirstRowIndex = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetOffset {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Offset is not set"))
-	}
-	if !issetCompressedPageSize {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field CompressedPageSize is not set"))
-	}
-	if !issetFirstRowIndex {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field FirstRowIndex is not set"))
-	}
-	return nil
-}
-
-func (p *PageLocation) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.Offset = v
-	}
-	return nil
-}
-
-func (p *PageLocation) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.CompressedPageSize = v
-	}
-	return nil
-}
-
-func (p *PageLocation) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.FirstRowIndex = v
-	}
-	return nil
-}
-
-func (p *PageLocation) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "PageLocation"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *PageLocation) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "offset", thrift.I64, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:offset: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.Offset)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.offset (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:offset: ", p), err)
-	}
-	return err
-}
-
-func (p *PageLocation) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "compressed_page_size", thrift.I32, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:compressed_page_size: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.CompressedPageSize)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.compressed_page_size (2) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:compressed_page_size: ", p), err)
-	}
-	return err
-}
-
-func (p *PageLocation) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "first_row_index", thrift.I64, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:first_row_index: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.FirstRowIndex)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.first_row_index (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:first_row_index: ", p), err)
-	}
-	return err
-}
-
-func (p *PageLocation) Equals(other *PageLocation) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Offset != other.Offset {
-		return false
-	}
-	if p.CompressedPageSize != other.CompressedPageSize {
-		return false
-	}
-	if p.FirstRowIndex != other.FirstRowIndex {
-		return false
-	}
-	return true
-}
-
-func (p *PageLocation) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("PageLocation(%+v)", *p)
-}
-
-func (p *PageLocation) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - PageLocations: PageLocations, ordered by increasing PageLocation.offset. It is required
-//
-// that page_locations[i].first_row_index < page_locations[i+1].first_row_index.
-type OffsetIndex struct {
-	PageLocations []*PageLocation `thrift:"page_locations,1,required" db:"page_locations" json:"page_locations"`
-}
-
-func NewOffsetIndex() *OffsetIndex {
-	return &OffsetIndex{}
-}
-
-func (p *OffsetIndex) GetPageLocations() []*PageLocation {
-	return p.PageLocations
-}
-func (p *OffsetIndex) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetPageLocations bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetPageLocations = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetPageLocations {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field PageLocations is not set"))
-	}
-	return nil
-}
-
-func (p *OffsetIndex) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*PageLocation, 0, size)
-	p.PageLocations = tSlice
-	for i := 0; i < size; i++ {
-		_elem14 := &PageLocation{}
-		if err := _elem14.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem14), err)
-		}
-		p.PageLocations = append(p.PageLocations, _elem14)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *OffsetIndex) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "OffsetIndex"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *OffsetIndex) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "page_locations", thrift.LIST, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:page_locations: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.PageLocations)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.PageLocations {
-		if err := v.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:page_locations: ", p), err)
-	}
-	return err
-}
-
-func (p *OffsetIndex) Equals(other *OffsetIndex) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if len(p.PageLocations) != len(other.PageLocations) {
-		return false
-	}
-	for i, _tgt := range p.PageLocations {
-		_src15 := other.PageLocations[i]
-		if !_tgt.Equals(_src15) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *OffsetIndex) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("OffsetIndex(%+v)", *p)
-}
-
-func (p *OffsetIndex) Validate() error {
-	return nil
-}
-
-// Description for ColumnIndex.
-// Each <array-field>[i] refers to the page at OffsetIndex.page_locations[i]
-//
-// Attributes:
-//   - NullPages: A list of Boolean values to determine the validity of the corresponding
-//
-// min and max values. If true, a page contains only null values, and writers
-// have to set the corresponding entries in min_values and max_values to
-// byte[0], so that all lists have the same length. If false, the
-// corresponding entries in min_values and max_values must be valid.
-//   - MinValues: Two lists containing lower and upper bounds for the values of each page
-//
-// determined by the ColumnOrder of the column. These may be the actual
-// minimum and maximum values found on a page, but can also be (more compact)
-// values that do not exist on a page. For example, instead of storing ""Blart
-// Versenwald III", a writer may set min_values[i]="B", max_values[i]="C".
-// Such more compact values must still be valid values within the column's
-// logical type. Readers must make sure that list entries are populated before
-// using them by inspecting null_pages.
-//   - MaxValues
-//   - BoundaryOrder: Stores whether both min_values and max_values are ordered and if so, in
-//
-// which direction. This allows readers to perform binary searches in both
-// lists. Readers cannot assume that max_values[i] <= min_values[i+1], even
-// if the lists are ordered.
-//   - NullCounts: A list containing the number of null values for each page *
-type ColumnIndex struct {
-	NullPages     []bool        `thrift:"null_pages,1,required" db:"null_pages" json:"null_pages"`
-	MinValues     [][]byte      `thrift:"min_values,2,required" db:"min_values" json:"min_values"`
-	MaxValues     [][]byte      `thrift:"max_values,3,required" db:"max_values" json:"max_values"`
-	BoundaryOrder BoundaryOrder `thrift:"boundary_order,4,required" db:"boundary_order" json:"boundary_order"`
-	NullCounts    []int64       `thrift:"null_counts,5" db:"null_counts" json:"null_counts,omitempty"`
-}
-
-func NewColumnIndex() *ColumnIndex {
-	return &ColumnIndex{}
-}
-
-func (p *ColumnIndex) GetNullPages() []bool {
-	return p.NullPages
-}
-
-func (p *ColumnIndex) GetMinValues() [][]byte {
-	return p.MinValues
-}
-
-func (p *ColumnIndex) GetMaxValues() [][]byte {
-	return p.MaxValues
-}
-
-func (p *ColumnIndex) GetBoundaryOrder() BoundaryOrder {
-	return p.BoundaryOrder
-}
-
-var ColumnIndex_NullCounts_DEFAULT []int64
-
-func (p *ColumnIndex) GetNullCounts() []int64 {
-	return p.NullCounts
-}
-func (p *ColumnIndex) IsSetNullCounts() bool {
-	return p.NullCounts != nil
-}
-
-func (p *ColumnIndex) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetNullPages bool = false
-	var issetMinValues bool = false
-	var issetMaxValues bool = false
-	var issetBoundaryOrder bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetNullPages = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetMinValues = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetMaxValues = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetBoundaryOrder = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetNullPages {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NullPages is not set"))
-	}
-	if !issetMinValues {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field MinValues is not set"))
-	}
-	if !issetMaxValues {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field MaxValues is not set"))
-	}
-	if !issetBoundaryOrder {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field BoundaryOrder is not set"))
-	}
-	return nil
-}
-
-func (p *ColumnIndex) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]bool, 0, size)
-	p.NullPages = tSlice
-	for i := 0; i < size; i++ {
-		var _elem16 bool
-		if v, err := iprot.ReadBool(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			_elem16 = v
-		}
-		p.NullPages = append(p.NullPages, _elem16)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnIndex) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([][]byte, 0, size)
-	p.MinValues = tSlice
-	for i := 0; i < size; i++ {
-		var _elem17 []byte
-		if v, err := iprot.ReadBinary(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			_elem17 = v
-		}
-		p.MinValues = append(p.MinValues, _elem17)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnIndex) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([][]byte, 0, size)
-	p.MaxValues = tSlice
-	for i := 0; i < size; i++ {
-		var _elem18 []byte
-		if v, err := iprot.ReadBinary(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			_elem18 = v
-		}
-		p.MaxValues = append(p.MaxValues, _elem18)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnIndex) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 4: ", err)
-	} else {
-		temp := BoundaryOrder(v)
-		p.BoundaryOrder = temp
-	}
-	return nil
-}
-
-func (p *ColumnIndex) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]int64, 0, size)
-	p.NullCounts = tSlice
-	for i := 0; i < size; i++ {
-		var _elem19 int64
-		if v, err := iprot.ReadI64(ctx); err != nil {
-			return thrift.PrependError("error reading field 0: ", err)
-		} else {
-			_elem19 = v
-		}
-		p.NullCounts = append(p.NullCounts, _elem19)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnIndex) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "ColumnIndex"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *ColumnIndex) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "null_pages", thrift.LIST, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:null_pages: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.BOOL, len(p.NullPages)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.NullPages {
-		if err := oprot.WriteBool(ctx, bool(v)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:null_pages: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnIndex) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "min_values", thrift.LIST, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:min_values: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRING, len(p.MinValues)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.MinValues {
-		if err := oprot.WriteBinary(ctx, v); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:min_values: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnIndex) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "max_values", thrift.LIST, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:max_values: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRING, len(p.MaxValues)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.MaxValues {
-		if err := oprot.WriteBinary(ctx, v); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:max_values: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnIndex) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "boundary_order", thrift.I32, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:boundary_order: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.BoundaryOrder)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.boundary_order (4) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:boundary_order: ", p), err)
-	}
-	return err
-}
-
-func (p *ColumnIndex) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetNullCounts() {
-		if err := oprot.WriteFieldBegin(ctx, "null_counts", thrift.LIST, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:null_counts: ", p), err)
-		}
-		if err := oprot.WriteListBegin(ctx, thrift.I64, len(p.NullCounts)); err != nil {
-			return thrift.PrependError("error writing list begin: ", err)
-		}
-		for _, v := range p.NullCounts {
-			if err := oprot.WriteI64(ctx, int64(v)); err != nil {
-				return thrift.PrependError(fmt.Sprintf("%T. (0) field write error: ", p), err)
-			}
-		}
-		if err := oprot.WriteListEnd(ctx); err != nil {
-			return thrift.PrependError("error writing list end: ", err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:null_counts: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *ColumnIndex) Equals(other *ColumnIndex) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if len(p.NullPages) != len(other.NullPages) {
-		return false
-	}
-	for i, _tgt := range p.NullPages {
-		_src20 := other.NullPages[i]
-		if _tgt != _src20 {
-			return false
-		}
-	}
-	if len(p.MinValues) != len(other.MinValues) {
-		return false
-	}
-	for i, _tgt := range p.MinValues {
-		_src21 := other.MinValues[i]
-		if bytes.Compare(_tgt, _src21) != 0 {
-			return false
-		}
-	}
-	if len(p.MaxValues) != len(other.MaxValues) {
-		return false
-	}
-	for i, _tgt := range p.MaxValues {
-		_src22 := other.MaxValues[i]
-		if bytes.Compare(_tgt, _src22) != 0 {
-			return false
-		}
-	}
-	if p.BoundaryOrder != other.BoundaryOrder {
-		return false
-	}
-	if len(p.NullCounts) != len(other.NullCounts) {
-		return false
-	}
-	for i, _tgt := range p.NullCounts {
-		_src23 := other.NullCounts[i]
-		if _tgt != _src23 {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *ColumnIndex) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("ColumnIndex(%+v)", *p)
-}
-
-func (p *ColumnIndex) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - AadPrefix: AAD prefix *
-//   - AadFileUnique: Unique file identifier part of AAD suffix *
-//   - SupplyAadPrefix: In files encrypted with AAD prefix without storing it,
-//
-// readers must supply the prefix *
-type AesGcmV1 struct {
-	AadPrefix       []byte `thrift:"aad_prefix,1" db:"aad_prefix" json:"aad_prefix,omitempty"`
-	AadFileUnique   []byte `thrift:"aad_file_unique,2" db:"aad_file_unique" json:"aad_file_unique,omitempty"`
-	SupplyAadPrefix *bool  `thrift:"supply_aad_prefix,3" db:"supply_aad_prefix" json:"supply_aad_prefix,omitempty"`
-}
-
-func NewAesGcmV1() *AesGcmV1 {
-	return &AesGcmV1{}
-}
-
-var AesGcmV1_AadPrefix_DEFAULT []byte
-
-func (p *AesGcmV1) GetAadPrefix() []byte {
-	return p.AadPrefix
-}
-
-var AesGcmV1_AadFileUnique_DEFAULT []byte
-
-func (p *AesGcmV1) GetAadFileUnique() []byte {
-	return p.AadFileUnique
-}
-
-var AesGcmV1_SupplyAadPrefix_DEFAULT bool
-
-func (p *AesGcmV1) GetSupplyAadPrefix() bool {
-	if !p.IsSetSupplyAadPrefix() {
-		return AesGcmV1_SupplyAadPrefix_DEFAULT
-	}
-	return *p.SupplyAadPrefix
-}
-func (p *AesGcmV1) IsSetAadPrefix() bool {
-	return p.AadPrefix != nil
-}
-
-func (p *AesGcmV1) IsSetAadFileUnique() bool {
-	return p.AadFileUnique != nil
-}
-
-func (p *AesGcmV1) IsSetSupplyAadPrefix() bool {
-	return p.SupplyAadPrefix != nil
-}
-
-func (p *AesGcmV1) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *AesGcmV1) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.AadPrefix = v
-	}
-	return nil
-}
-
-func (p *AesGcmV1) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.AadFileUnique = v
-	}
-	return nil
-}
-
-func (p *AesGcmV1) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.SupplyAadPrefix = &v
-	}
-	return nil
-}
-
-func (p *AesGcmV1) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "AesGcmV1"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *AesGcmV1) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetAadPrefix() {
-		if err := oprot.WriteFieldBegin(ctx, "aad_prefix", thrift.STRING, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:aad_prefix: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.AadPrefix); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.aad_prefix (1) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:aad_prefix: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *AesGcmV1) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetAadFileUnique() {
-		if err := oprot.WriteFieldBegin(ctx, "aad_file_unique", thrift.STRING, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:aad_file_unique: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.AadFileUnique); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.aad_file_unique (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:aad_file_unique: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *AesGcmV1) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetSupplyAadPrefix() {
-		if err := oprot.WriteFieldBegin(ctx, "supply_aad_prefix", thrift.BOOL, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:supply_aad_prefix: ", p), err)
-		}
-		if err := oprot.WriteBool(ctx, bool(*p.SupplyAadPrefix)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.supply_aad_prefix (3) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:supply_aad_prefix: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *AesGcmV1) Equals(other *AesGcmV1) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if bytes.Compare(p.AadPrefix, other.AadPrefix) != 0 {
-		return false
-	}
-	if bytes.Compare(p.AadFileUnique, other.AadFileUnique) != 0 {
-		return false
-	}
-	if p.SupplyAadPrefix != other.SupplyAadPrefix {
-		if p.SupplyAadPrefix == nil || other.SupplyAadPrefix == nil {
-			return false
-		}
-		if (*p.SupplyAadPrefix) != (*other.SupplyAadPrefix) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *AesGcmV1) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("AesGcmV1(%+v)", *p)
-}
-
-func (p *AesGcmV1) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - AadPrefix: AAD prefix *
-//   - AadFileUnique: Unique file identifier part of AAD suffix *
-//   - SupplyAadPrefix: In files encrypted with AAD prefix without storing it,
-//
-// readers must supply the prefix *
-type AesGcmCtrV1 struct {
-	AadPrefix       []byte `thrift:"aad_prefix,1" db:"aad_prefix" json:"aad_prefix,omitempty"`
-	AadFileUnique   []byte `thrift:"aad_file_unique,2" db:"aad_file_unique" json:"aad_file_unique,omitempty"`
-	SupplyAadPrefix *bool  `thrift:"supply_aad_prefix,3" db:"supply_aad_prefix" json:"supply_aad_prefix,omitempty"`
-}
-
-func NewAesGcmCtrV1() *AesGcmCtrV1 {
-	return &AesGcmCtrV1{}
-}
-
-var AesGcmCtrV1_AadPrefix_DEFAULT []byte
-
-func (p *AesGcmCtrV1) GetAadPrefix() []byte {
-	return p.AadPrefix
-}
-
-var AesGcmCtrV1_AadFileUnique_DEFAULT []byte
-
-func (p *AesGcmCtrV1) GetAadFileUnique() []byte {
-	return p.AadFileUnique
-}
-
-var AesGcmCtrV1_SupplyAadPrefix_DEFAULT bool
-
-func (p *AesGcmCtrV1) GetSupplyAadPrefix() bool {
-	if !p.IsSetSupplyAadPrefix() {
-		return AesGcmCtrV1_SupplyAadPrefix_DEFAULT
-	}
-	return *p.SupplyAadPrefix
-}
-func (p *AesGcmCtrV1) IsSetAadPrefix() bool {
-	return p.AadPrefix != nil
-}
-
-func (p *AesGcmCtrV1) IsSetAadFileUnique() bool {
-	return p.AadFileUnique != nil
-}
-
-func (p *AesGcmCtrV1) IsSetSupplyAadPrefix() bool {
-	return p.SupplyAadPrefix != nil
-}
-
-func (p *AesGcmCtrV1) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.BOOL {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *AesGcmCtrV1) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.AadPrefix = v
-	}
-	return nil
-}
-
-func (p *AesGcmCtrV1) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.AadFileUnique = v
-	}
-	return nil
-}
-
-func (p *AesGcmCtrV1) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBool(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.SupplyAadPrefix = &v
-	}
-	return nil
-}
-
-func (p *AesGcmCtrV1) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "AesGcmCtrV1"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *AesGcmCtrV1) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetAadPrefix() {
-		if err := oprot.WriteFieldBegin(ctx, "aad_prefix", thrift.STRING, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:aad_prefix: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.AadPrefix); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.aad_prefix (1) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:aad_prefix: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *AesGcmCtrV1) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetAadFileUnique() {
-		if err := oprot.WriteFieldBegin(ctx, "aad_file_unique", thrift.STRING, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:aad_file_unique: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.AadFileUnique); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.aad_file_unique (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:aad_file_unique: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *AesGcmCtrV1) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetSupplyAadPrefix() {
-		if err := oprot.WriteFieldBegin(ctx, "supply_aad_prefix", thrift.BOOL, 3); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:supply_aad_prefix: ", p), err)
-		}
-		if err := oprot.WriteBool(ctx, bool(*p.SupplyAadPrefix)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.supply_aad_prefix (3) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 3:supply_aad_prefix: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *AesGcmCtrV1) Equals(other *AesGcmCtrV1) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if bytes.Compare(p.AadPrefix, other.AadPrefix) != 0 {
-		return false
-	}
-	if bytes.Compare(p.AadFileUnique, other.AadFileUnique) != 0 {
-		return false
-	}
-	if p.SupplyAadPrefix != other.SupplyAadPrefix {
-		if p.SupplyAadPrefix == nil || other.SupplyAadPrefix == nil {
-			return false
-		}
-		if (*p.SupplyAadPrefix) != (*other.SupplyAadPrefix) {
-			return false
-		}
-	}
-	return true
-}
-
-func (p *AesGcmCtrV1) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("AesGcmCtrV1(%+v)", *p)
-}
-
-func (p *AesGcmCtrV1) Validate() error {
-	return nil
-}
-
-// Attributes:
-//   - AES_GCM_V1
-//   - AES_GCM_CTR_V1
-type EncryptionAlgorithm struct {
-	AES_GCM_V1     *AesGcmV1    `thrift:"AES_GCM_V1,1" db:"AES_GCM_V1" json:"AES_GCM_V1,omitempty"`
-	AES_GCM_CTR_V1 *AesGcmCtrV1 `thrift:"AES_GCM_CTR_V1,2" db:"AES_GCM_CTR_V1" json:"AES_GCM_CTR_V1,omitempty"`
-}
-
-func NewEncryptionAlgorithm() *EncryptionAlgorithm {
-	return &EncryptionAlgorithm{}
-}
-
-var EncryptionAlgorithm_AES_GCM_V1_DEFAULT *AesGcmV1
-
-func (p *EncryptionAlgorithm) GetAES_GCM_V1() *AesGcmV1 {
-	if !p.IsSetAES_GCM_V1() {
-		return EncryptionAlgorithm_AES_GCM_V1_DEFAULT
-	}
-	return p.AES_GCM_V1
-}
-
-var EncryptionAlgorithm_AES_GCM_CTR_V1_DEFAULT *AesGcmCtrV1
-
-func (p *EncryptionAlgorithm) GetAES_GCM_CTR_V1() *AesGcmCtrV1 {
-	if !p.IsSetAES_GCM_CTR_V1() {
-		return EncryptionAlgorithm_AES_GCM_CTR_V1_DEFAULT
-	}
-	return p.AES_GCM_CTR_V1
-}
-func (p *EncryptionAlgorithm) CountSetFieldsEncryptionAlgorithm() int {
-	count := 0
-	if p.IsSetAES_GCM_V1() {
-		count++
-	}
-	if p.IsSetAES_GCM_CTR_V1() {
-		count++
-	}
-	return count
-
-}
-
-func (p *EncryptionAlgorithm) IsSetAES_GCM_V1() bool {
-	return p.AES_GCM_V1 != nil
-}
-
-func (p *EncryptionAlgorithm) IsSetAES_GCM_CTR_V1() bool {
-	return p.AES_GCM_CTR_V1 != nil
-}
-
-func (p *EncryptionAlgorithm) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	return nil
-}
-
-func (p *EncryptionAlgorithm) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.AES_GCM_V1 = &AesGcmV1{}
-	if err := p.AES_GCM_V1.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.AES_GCM_V1), err)
-	}
-	return nil
-}
-
-func (p *EncryptionAlgorithm) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	p.AES_GCM_CTR_V1 = &AesGcmCtrV1{}
-	if err := p.AES_GCM_CTR_V1.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.AES_GCM_CTR_V1), err)
-	}
-	return nil
-}
-
-func (p *EncryptionAlgorithm) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if c := p.CountSetFieldsEncryptionAlgorithm(); c != 1 {
-		return fmt.Errorf("%T write union: exactly one field must be set (%d set)", p, c)
-	}
-	if err := oprot.WriteStructBegin(ctx, "EncryptionAlgorithm"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *EncryptionAlgorithm) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetAES_GCM_V1() {
-		if err := oprot.WriteFieldBegin(ctx, "AES_GCM_V1", thrift.STRUCT, 1); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:AES_GCM_V1: ", p), err)
-		}
-		if err := p.AES_GCM_V1.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.AES_GCM_V1), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 1:AES_GCM_V1: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *EncryptionAlgorithm) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetAES_GCM_CTR_V1() {
-		if err := oprot.WriteFieldBegin(ctx, "AES_GCM_CTR_V1", thrift.STRUCT, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:AES_GCM_CTR_V1: ", p), err)
-		}
-		if err := p.AES_GCM_CTR_V1.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.AES_GCM_CTR_V1), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:AES_GCM_CTR_V1: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *EncryptionAlgorithm) Equals(other *EncryptionAlgorithm) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.AES_GCM_V1.Equals(other.AES_GCM_V1) {
-		return false
-	}
-	if !p.AES_GCM_CTR_V1.Equals(other.AES_GCM_CTR_V1) {
-		return false
-	}
-	return true
-}
-
-func (p *EncryptionAlgorithm) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("EncryptionAlgorithm(%+v)", *p)
-}
-
-func (p *EncryptionAlgorithm) Validate() error {
-	return nil
-}
-
-// Description for file metadata
-//
-// Attributes:
-//   - Version: Version of this file *
-//   - Schema: Parquet schema for this file.  This schema contains metadata for all the columns.
-//
-// The schema is represented as a tree with a single root.  The nodes of the tree
-// are flattened to a list by doing a depth-first traversal.
-// The column metadata contains the path in the schema for that column which can be
-// used to map columns to nodes in the schema.
-// The first element is the root *
-//   - NumRows: Number of rows in this file *
-//   - RowGroups: Row groups in this file *
-//   - KeyValueMetadata: Optional key/value metadata *
-//   - CreatedBy: String for application that wrote this file.  This should be in the format
-//
-// <Application> version <App Version> (build <App Build Hash>).
-// e.g. impala version 1.0 (build 6cf94d29b2b7115df4de2c06e2ab4326d721eb55)
-//
-//   - ColumnOrders: Sort order used for the min_value and max_value fields in the Statistics
-//
-// objects and the min_values and max_values fields in the ColumnIndex
-// objects of each column in this file. Sort orders are listed in the order
-// matching the columns in the schema. The indexes are not necessary the same
-// though, because only leaf nodes of the schema are represented in the list
-// of sort orders.
-//
-// Without column_orders, the meaning of the min_value and max_value fields
-// in the Statistics object and the ColumnIndex object is undefined. To ensure
-// well-defined behaviour, if these fields are written to a Parquet file,
-// column_orders must be written as well.
-//
-// The obsolete min and max fields in the Statistics object are always sorted
-// by signed comparison regardless of column_orders.
-//   - EncryptionAlgorithm: Encryption algorithm. This field is set only in encrypted files
-//
-// with plaintext footer. Files with encrypted footer store algorithm id
-// in FileCryptoMetaData structure.
-//   - FooterSigningKeyMetadata: Retrieval metadata of key used for signing the footer.
-//
-// Used only in encrypted files with plaintext footer.
-type FileMetaData struct {
-	Version                  int32                `thrift:"version,1,required" db:"version" json:"version"`
-	Schema                   []*SchemaElement     `thrift:"schema,2,required" db:"schema" json:"schema"`
-	NumRows                  int64                `thrift:"num_rows,3,required" db:"num_rows" json:"num_rows"`
-	RowGroups                []*RowGroup          `thrift:"row_groups,4,required" db:"row_groups" json:"row_groups"`
-	KeyValueMetadata         []*KeyValue          `thrift:"key_value_metadata,5" db:"key_value_metadata" json:"key_value_metadata,omitempty"`
-	CreatedBy                *string              `thrift:"created_by,6" db:"created_by" json:"created_by,omitempty"`
-	ColumnOrders             []*ColumnOrder       `thrift:"column_orders,7" db:"column_orders" json:"column_orders,omitempty"`
-	EncryptionAlgorithm      *EncryptionAlgorithm `thrift:"encryption_algorithm,8" db:"encryption_algorithm" json:"encryption_algorithm,omitempty"`
-	FooterSigningKeyMetadata []byte               `thrift:"footer_signing_key_metadata,9" db:"footer_signing_key_metadata" json:"footer_signing_key_metadata,omitempty"`
-}
-
-func NewFileMetaData() *FileMetaData {
-	return &FileMetaData{}
-}
-
-func (p *FileMetaData) GetVersion() int32 {
-	return p.Version
-}
-
-func (p *FileMetaData) GetSchema() []*SchemaElement {
-	return p.Schema
-}
-
-func (p *FileMetaData) GetNumRows() int64 {
-	return p.NumRows
-}
-
-func (p *FileMetaData) GetRowGroups() []*RowGroup {
-	return p.RowGroups
-}
-
-var FileMetaData_KeyValueMetadata_DEFAULT []*KeyValue
-
-func (p *FileMetaData) GetKeyValueMetadata() []*KeyValue {
-	return p.KeyValueMetadata
-}
-
-var FileMetaData_CreatedBy_DEFAULT string
-
-func (p *FileMetaData) GetCreatedBy() string {
-	if !p.IsSetCreatedBy() {
-		return FileMetaData_CreatedBy_DEFAULT
-	}
-	return *p.CreatedBy
-}
-
-var FileMetaData_ColumnOrders_DEFAULT []*ColumnOrder
-
-func (p *FileMetaData) GetColumnOrders() []*ColumnOrder {
-	return p.ColumnOrders
-}
-
-var FileMetaData_EncryptionAlgorithm_DEFAULT *EncryptionAlgorithm
-
-func (p *FileMetaData) GetEncryptionAlgorithm() *EncryptionAlgorithm {
-	if !p.IsSetEncryptionAlgorithm() {
-		return FileMetaData_EncryptionAlgorithm_DEFAULT
-	}
-	return p.EncryptionAlgorithm
-}
-
-var FileMetaData_FooterSigningKeyMetadata_DEFAULT []byte
-
-func (p *FileMetaData) GetFooterSigningKeyMetadata() []byte {
-	return p.FooterSigningKeyMetadata
-}
-func (p *FileMetaData) IsSetKeyValueMetadata() bool {
-	return p.KeyValueMetadata != nil
-}
-
-func (p *FileMetaData) IsSetCreatedBy() bool {
-	return p.CreatedBy != nil
-}
-
-func (p *FileMetaData) IsSetColumnOrders() bool {
-	return p.ColumnOrders != nil
-}
-
-func (p *FileMetaData) IsSetEncryptionAlgorithm() bool {
-	return p.EncryptionAlgorithm != nil
-}
-
-func (p *FileMetaData) IsSetFooterSigningKeyMetadata() bool {
-	return p.FooterSigningKeyMetadata != nil
-}
-
-func (p *FileMetaData) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetVersion bool = false
-	var issetSchema bool = false
-	var issetNumRows bool = false
-	var issetRowGroups bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.I32 {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetVersion = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-				issetSchema = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 3:
-			if fieldTypeId == thrift.I64 {
-				if err := p.ReadField3(ctx, iprot); err != nil {
-					return err
-				}
-				issetNumRows = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 4:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField4(ctx, iprot); err != nil {
-					return err
-				}
-				issetRowGroups = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 5:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField5(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 6:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField6(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 7:
-			if fieldTypeId == thrift.LIST {
-				if err := p.ReadField7(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 8:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField8(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 9:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField9(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetVersion {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Version is not set"))
-	}
-	if !issetSchema {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field Schema is not set"))
-	}
-	if !issetNumRows {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field NumRows is not set"))
-	}
-	if !issetRowGroups {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field RowGroups is not set"))
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI32(ctx); err != nil {
-		return thrift.PrependError("error reading field 1: ", err)
-	} else {
-		p.Version = v
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*SchemaElement, 0, size)
-	p.Schema = tSlice
-	for i := 0; i < size; i++ {
-		_elem24 := &SchemaElement{}
-		if err := _elem24.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem24), err)
-		}
-		p.Schema = append(p.Schema, _elem24)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField3(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadI64(ctx); err != nil {
-		return thrift.PrependError("error reading field 3: ", err)
-	} else {
-		p.NumRows = v
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField4(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*RowGroup, 0, size)
-	p.RowGroups = tSlice
-	for i := 0; i < size; i++ {
-		_elem25 := &RowGroup{}
-		if err := _elem25.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem25), err)
-		}
-		p.RowGroups = append(p.RowGroups, _elem25)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField5(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*KeyValue, 0, size)
-	p.KeyValueMetadata = tSlice
-	for i := 0; i < size; i++ {
-		_elem26 := &KeyValue{}
-		if err := _elem26.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem26), err)
-		}
-		p.KeyValueMetadata = append(p.KeyValueMetadata, _elem26)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField6(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadString(ctx); err != nil {
-		return thrift.PrependError("error reading field 6: ", err)
-	} else {
-		p.CreatedBy = &v
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField7(ctx context.Context, iprot thrift.TProtocol) error {
-	_, size, err := iprot.ReadListBegin(ctx)
-	if err != nil {
-		return thrift.PrependError("error reading list begin: ", err)
-	}
-	tSlice := make([]*ColumnOrder, 0, size)
-	p.ColumnOrders = tSlice
-	for i := 0; i < size; i++ {
-		_elem27 := &ColumnOrder{}
-		if err := _elem27.Read(ctx, iprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", _elem27), err)
-		}
-		p.ColumnOrders = append(p.ColumnOrders, _elem27)
-	}
-	if err := iprot.ReadListEnd(ctx); err != nil {
-		return thrift.PrependError("error reading list end: ", err)
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField8(ctx context.Context, iprot thrift.TProtocol) error {
-	p.EncryptionAlgorithm = &EncryptionAlgorithm{}
-	if err := p.EncryptionAlgorithm.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.EncryptionAlgorithm), err)
-	}
-	return nil
-}
-
-func (p *FileMetaData) ReadField9(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 9: ", err)
-	} else {
-		p.FooterSigningKeyMetadata = v
-	}
-	return nil
-}
-
-func (p *FileMetaData) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "FileMetaData"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField3(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField4(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField5(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField6(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField7(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField8(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField9(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *FileMetaData) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "version", thrift.I32, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:version: ", p), err)
-	}
-	if err := oprot.WriteI32(ctx, int32(p.Version)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.version (1) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:version: ", p), err)
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "schema", thrift.LIST, 2); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:schema: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.Schema)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.Schema {
-		if err := v.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 2:schema: ", p), err)
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField3(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "num_rows", thrift.I64, 3); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 3:num_rows: ", p), err)
-	}
-	if err := oprot.WriteI64(ctx, int64(p.NumRows)); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T.num_rows (3) field write error: ", p), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 3:num_rows: ", p), err)
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField4(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "row_groups", thrift.LIST, 4); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 4:row_groups: ", p), err)
-	}
-	if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.RowGroups)); err != nil {
-		return thrift.PrependError("error writing list begin: ", err)
-	}
-	for _, v := range p.RowGroups {
-		if err := v.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-		}
-	}
-	if err := oprot.WriteListEnd(ctx); err != nil {
-		return thrift.PrependError("error writing list end: ", err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 4:row_groups: ", p), err)
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField5(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetKeyValueMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "key_value_metadata", thrift.LIST, 5); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 5:key_value_metadata: ", p), err)
-		}
-		if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.KeyValueMetadata)); err != nil {
-			return thrift.PrependError("error writing list begin: ", err)
-		}
-		for _, v := range p.KeyValueMetadata {
-			if err := v.Write(ctx, oprot); err != nil {
-				return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-			}
-		}
-		if err := oprot.WriteListEnd(ctx); err != nil {
-			return thrift.PrependError("error writing list end: ", err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 5:key_value_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField6(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetCreatedBy() {
-		if err := oprot.WriteFieldBegin(ctx, "created_by", thrift.STRING, 6); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 6:created_by: ", p), err)
-		}
-		if err := oprot.WriteString(ctx, string(*p.CreatedBy)); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.created_by (6) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 6:created_by: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField7(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetColumnOrders() {
-		if err := oprot.WriteFieldBegin(ctx, "column_orders", thrift.LIST, 7); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 7:column_orders: ", p), err)
-		}
-		if err := oprot.WriteListBegin(ctx, thrift.STRUCT, len(p.ColumnOrders)); err != nil {
-			return thrift.PrependError("error writing list begin: ", err)
-		}
-		for _, v := range p.ColumnOrders {
-			if err := v.Write(ctx, oprot); err != nil {
-				return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", v), err)
-			}
-		}
-		if err := oprot.WriteListEnd(ctx); err != nil {
-			return thrift.PrependError("error writing list end: ", err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 7:column_orders: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField8(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetEncryptionAlgorithm() {
-		if err := oprot.WriteFieldBegin(ctx, "encryption_algorithm", thrift.STRUCT, 8); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 8:encryption_algorithm: ", p), err)
-		}
-		if err := p.EncryptionAlgorithm.Write(ctx, oprot); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.EncryptionAlgorithm), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 8:encryption_algorithm: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *FileMetaData) writeField9(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetFooterSigningKeyMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "footer_signing_key_metadata", thrift.STRING, 9); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 9:footer_signing_key_metadata: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.FooterSigningKeyMetadata); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.footer_signing_key_metadata (9) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 9:footer_signing_key_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *FileMetaData) Equals(other *FileMetaData) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if p.Version != other.Version {
-		return false
-	}
-	if len(p.Schema) != len(other.Schema) {
-		return false
-	}
-	for i, _tgt := range p.Schema {
-		_src28 := other.Schema[i]
-		if !_tgt.Equals(_src28) {
-			return false
-		}
-	}
-	if p.NumRows != other.NumRows {
-		return false
-	}
-	if len(p.RowGroups) != len(other.RowGroups) {
-		return false
-	}
-	for i, _tgt := range p.RowGroups {
-		_src29 := other.RowGroups[i]
-		if !_tgt.Equals(_src29) {
-			return false
-		}
-	}
-	if len(p.KeyValueMetadata) != len(other.KeyValueMetadata) {
-		return false
-	}
-	for i, _tgt := range p.KeyValueMetadata {
-		_src30 := other.KeyValueMetadata[i]
-		if !_tgt.Equals(_src30) {
-			return false
-		}
-	}
-	if p.CreatedBy != other.CreatedBy {
-		if p.CreatedBy == nil || other.CreatedBy == nil {
-			return false
-		}
-		if (*p.CreatedBy) != (*other.CreatedBy) {
-			return false
-		}
-	}
-	if len(p.ColumnOrders) != len(other.ColumnOrders) {
-		return false
-	}
-	for i, _tgt := range p.ColumnOrders {
-		_src31 := other.ColumnOrders[i]
-		if !_tgt.Equals(_src31) {
-			return false
-		}
-	}
-	if !p.EncryptionAlgorithm.Equals(other.EncryptionAlgorithm) {
-		return false
-	}
-	if bytes.Compare(p.FooterSigningKeyMetadata, other.FooterSigningKeyMetadata) != 0 {
-		return false
-	}
-	return true
-}
-
-func (p *FileMetaData) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("FileMetaData(%+v)", *p)
-}
-
-func (p *FileMetaData) Validate() error {
-	return nil
-}
-
-// Crypto metadata for files with encrypted footer *
-//
-// Attributes:
-//   - EncryptionAlgorithm: Encryption algorithm. This field is only used for files
-//
-// with encrypted footer. Files with plaintext footer store algorithm id
-// inside footer (FileMetaData structure).
-//   - KeyMetadata: Retrieval metadata of key used for encryption of footer,
-//
-// and (possibly) columns *
-type FileCryptoMetaData struct {
-	EncryptionAlgorithm *EncryptionAlgorithm `thrift:"encryption_algorithm,1,required" db:"encryption_algorithm" json:"encryption_algorithm"`
-	KeyMetadata         []byte               `thrift:"key_metadata,2" db:"key_metadata" json:"key_metadata,omitempty"`
-}
-
-func NewFileCryptoMetaData() *FileCryptoMetaData {
-	return &FileCryptoMetaData{}
-}
-
-var FileCryptoMetaData_EncryptionAlgorithm_DEFAULT *EncryptionAlgorithm
-
-func (p *FileCryptoMetaData) GetEncryptionAlgorithm() *EncryptionAlgorithm {
-	if !p.IsSetEncryptionAlgorithm() {
-		return FileCryptoMetaData_EncryptionAlgorithm_DEFAULT
-	}
-	return p.EncryptionAlgorithm
-}
-
-var FileCryptoMetaData_KeyMetadata_DEFAULT []byte
-
-func (p *FileCryptoMetaData) GetKeyMetadata() []byte {
-	return p.KeyMetadata
-}
-func (p *FileCryptoMetaData) IsSetEncryptionAlgorithm() bool {
-	return p.EncryptionAlgorithm != nil
-}
-
-func (p *FileCryptoMetaData) IsSetKeyMetadata() bool {
-	return p.KeyMetadata != nil
-}
-
-func (p *FileCryptoMetaData) Read(ctx context.Context, iprot thrift.TProtocol) error {
-	if _, err := iprot.ReadStructBegin(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read error: ", p), err)
-	}
-
-	var issetEncryptionAlgorithm bool = false
-
-	for {
-		_, fieldTypeId, fieldId, err := iprot.ReadFieldBegin(ctx)
-		if err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T field %d read error: ", p, fieldId), err)
-		}
-		if fieldTypeId == thrift.STOP {
-			break
-		}
-		switch fieldId {
-		case 1:
-			if fieldTypeId == thrift.STRUCT {
-				if err := p.ReadField1(ctx, iprot); err != nil {
-					return err
-				}
-				issetEncryptionAlgorithm = true
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		case 2:
-			if fieldTypeId == thrift.STRING {
-				if err := p.ReadField2(ctx, iprot); err != nil {
-					return err
-				}
-			} else {
-				if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-					return err
-				}
-			}
-		default:
-			if err := iprot.Skip(ctx, fieldTypeId); err != nil {
-				return err
-			}
-		}
-		if err := iprot.ReadFieldEnd(ctx); err != nil {
-			return err
-		}
-	}
-	if err := iprot.ReadStructEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T read struct end error: ", p), err)
-	}
-	if !issetEncryptionAlgorithm {
-		return thrift.NewTProtocolExceptionWithType(thrift.INVALID_DATA, fmt.Errorf("Required field EncryptionAlgorithm is not set"))
-	}
-	return nil
-}
-
-func (p *FileCryptoMetaData) ReadField1(ctx context.Context, iprot thrift.TProtocol) error {
-	p.EncryptionAlgorithm = &EncryptionAlgorithm{}
-	if err := p.EncryptionAlgorithm.Read(ctx, iprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error reading struct: ", p.EncryptionAlgorithm), err)
-	}
-	return nil
-}
-
-func (p *FileCryptoMetaData) ReadField2(ctx context.Context, iprot thrift.TProtocol) error {
-	if v, err := iprot.ReadBinary(ctx); err != nil {
-		return thrift.PrependError("error reading field 2: ", err)
-	} else {
-		p.KeyMetadata = v
-	}
-	return nil
-}
-
-func (p *FileCryptoMetaData) Write(ctx context.Context, oprot thrift.TProtocol) error {
-	if err := oprot.WriteStructBegin(ctx, "FileCryptoMetaData"); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write struct begin error: ", p), err)
-	}
-	if p != nil {
-		if err := p.writeField1(ctx, oprot); err != nil {
-			return err
-		}
-		if err := p.writeField2(ctx, oprot); err != nil {
-			return err
-		}
-	}
-	if err := oprot.WriteFieldStop(ctx); err != nil {
-		return thrift.PrependError("write field stop error: ", err)
-	}
-	if err := oprot.WriteStructEnd(ctx); err != nil {
-		return thrift.PrependError("write struct stop error: ", err)
-	}
-	return nil
-}
-
-func (p *FileCryptoMetaData) writeField1(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if err := oprot.WriteFieldBegin(ctx, "encryption_algorithm", thrift.STRUCT, 1); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field begin error 1:encryption_algorithm: ", p), err)
-	}
-	if err := p.EncryptionAlgorithm.Write(ctx, oprot); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T error writing struct: ", p.EncryptionAlgorithm), err)
-	}
-	if err := oprot.WriteFieldEnd(ctx); err != nil {
-		return thrift.PrependError(fmt.Sprintf("%T write field end error 1:encryption_algorithm: ", p), err)
-	}
-	return err
-}
-
-func (p *FileCryptoMetaData) writeField2(ctx context.Context, oprot thrift.TProtocol) (err error) {
-	if p.IsSetKeyMetadata() {
-		if err := oprot.WriteFieldBegin(ctx, "key_metadata", thrift.STRING, 2); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field begin error 2:key_metadata: ", p), err)
-		}
-		if err := oprot.WriteBinary(ctx, p.KeyMetadata); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T.key_metadata (2) field write error: ", p), err)
-		}
-		if err := oprot.WriteFieldEnd(ctx); err != nil {
-			return thrift.PrependError(fmt.Sprintf("%T write field end error 2:key_metadata: ", p), err)
-		}
-	}
-	return err
-}
-
-func (p *FileCryptoMetaData) Equals(other *FileCryptoMetaData) bool {
-	if p == other {
-		return true
-	} else if p == nil || other == nil {
-		return false
-	}
-	if !p.EncryptionAlgorithm.Equals(other.EncryptionAlgorithm) {
-		return false
-	}
-	if bytes.Compare(p.KeyMetadata, other.KeyMetadata) != 0 {
-		return false
-	}
-	return true
-}
-
-func (p *FileCryptoMetaData) String() string {
-	if p == nil {
-		return "<nil>"
-	}
-	return fmt.Sprintf("FileCryptoMetaData(%+v)", *p)
-}
-
-func (p *FileCryptoMetaData) Validate() error {
-	return nil
-}
diff --git a/go/parquet/internal/gen-go/parquet/staticcheck.conf b/go/parquet/internal/gen-go/parquet/staticcheck.conf
deleted file mode 100644
index d714bfd89ba9f..0000000000000
--- a/go/parquet/internal/gen-go/parquet/staticcheck.conf
+++ /dev/null
@@ -1,17 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-checks = ["all", "-ST1005", "-ST1000"]
diff --git a/go/parquet/internal/testutils/pagebuilder.go b/go/parquet/internal/testutils/pagebuilder.go
deleted file mode 100644
index e3b8ffccb341c..0000000000000
--- a/go/parquet/internal/testutils/pagebuilder.go
+++ /dev/null
@@ -1,305 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package testutils
-
-import (
-	"encoding/binary"
-	"fmt"
-	"io"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/mock"
-)
-
-type DataPageBuilder struct {
-	sink    io.Writer
-	version parquet.DataPageVersion
-
-	nvals          int
-	encoding       parquet.Encoding
-	defLvlEncoding parquet.Encoding
-	repLvlEncoding parquet.Encoding
-	defLvlBytesLen int
-	repLvlBytesLen int
-	hasDefLvls     bool
-	hasRepLvls     bool
-	hasValues      bool
-}
-
-var mem = memory.NewGoAllocator()
-
-func (d *DataPageBuilder) appendLevels(lvls []int16, maxLvl int16, e parquet.Encoding) int {
-	if e != parquet.Encodings.RLE {
-		panic("parquet: only rle encoding currently implemented")
-	}
-
-	buf := encoding.NewBufferWriter(encoding.LevelEncodingMaxBufferSize(e, maxLvl, len(lvls)), memory.DefaultAllocator)
-	var enc encoding.LevelEncoder
-	enc.Init(e, maxLvl, buf)
-	enc.Encode(lvls)
-
-	rleBytes := enc.Len()
-	if d.version == parquet.DataPageV1 {
-		if err := binary.Write(d.sink, binary.LittleEndian, int32(rleBytes)); err != nil {
-			panic(err)
-		}
-	}
-
-	if _, err := d.sink.Write(buf.Bytes()[:rleBytes]); err != nil {
-		panic(err)
-	}
-	return rleBytes
-}
-
-func (d *DataPageBuilder) AppendDefLevels(lvls []int16, maxLvl int16) {
-	d.defLvlBytesLen = d.appendLevels(lvls, maxLvl, parquet.Encodings.RLE)
-
-	d.nvals = utils.Max(len(lvls), d.nvals)
-	d.defLvlEncoding = parquet.Encodings.RLE
-	d.hasDefLvls = true
-}
-
-func (d *DataPageBuilder) AppendRepLevels(lvls []int16, maxLvl int16) {
-	d.repLvlBytesLen = d.appendLevels(lvls, maxLvl, parquet.Encodings.RLE)
-
-	d.nvals = utils.Max(len(lvls), d.nvals)
-	d.repLvlEncoding = parquet.Encodings.RLE
-	d.hasRepLvls = true
-}
-
-func (d *DataPageBuilder) AppendValues(desc *schema.Column, values interface{}, e parquet.Encoding) {
-	enc := encoding.NewEncoder(desc.PhysicalType(), e, false, desc, mem)
-	var sz int
-	switch v := values.(type) {
-	case []bool:
-		enc.(encoding.BooleanEncoder).Put(v)
-		sz = len(v)
-	case []int32:
-		enc.(encoding.Int32Encoder).Put(v)
-		sz = len(v)
-	case []int64:
-		enc.(encoding.Int64Encoder).Put(v)
-		sz = len(v)
-	case []parquet.Int96:
-		enc.(encoding.Int96Encoder).Put(v)
-		sz = len(v)
-	case []float32:
-		enc.(encoding.Float32Encoder).Put(v)
-		sz = len(v)
-	case []float64:
-		enc.(encoding.Float64Encoder).Put(v)
-		sz = len(v)
-	case []parquet.ByteArray:
-		enc.(encoding.ByteArrayEncoder).Put(v)
-		sz = len(v)
-	default:
-		panic(fmt.Sprintf("no testutil data page builder for type %T", values))
-	}
-	buf, _ := enc.FlushValues()
-	_, err := d.sink.Write(buf.Bytes())
-	if err != nil {
-		panic(err)
-	}
-
-	d.nvals = utils.Max(sz, d.nvals)
-	d.encoding = e
-	d.hasValues = true
-}
-
-type DictionaryPageBuilder struct {
-	traits        encoding.DictEncoder
-	numDictValues int32
-	hasValues     bool
-}
-
-func NewDictionaryPageBuilder(d *schema.Column) *DictionaryPageBuilder {
-	return &DictionaryPageBuilder{
-		encoding.NewEncoder(d.PhysicalType(), parquet.Encodings.Plain, true, d, mem).(encoding.DictEncoder),
-		0, false}
-}
-
-func (d *DictionaryPageBuilder) AppendValues(values interface{}) encoding.Buffer {
-	switch v := values.(type) {
-	case []int32:
-		d.traits.(encoding.Int32Encoder).Put(v)
-	case []int64:
-		d.traits.(encoding.Int64Encoder).Put(v)
-	case []parquet.Int96:
-		d.traits.(encoding.Int96Encoder).Put(v)
-	case []float32:
-		d.traits.(encoding.Float32Encoder).Put(v)
-	case []float64:
-		d.traits.(encoding.Float64Encoder).Put(v)
-	case []parquet.ByteArray:
-		d.traits.(encoding.ByteArrayEncoder).Put(v)
-	default:
-		panic(fmt.Sprintf("no testutil dictionary page builder for type %T", values))
-	}
-
-	d.numDictValues = int32(d.traits.NumEntries())
-	d.hasValues = true
-	buf, _ := d.traits.FlushValues()
-	return buf
-}
-
-func (d *DictionaryPageBuilder) WriteDict() *memory.Buffer {
-	buf := memory.NewBufferBytes(make([]byte, d.traits.DictEncodedSize()))
-	d.traits.WriteDict(buf.Bytes())
-	return buf
-}
-
-func (d *DictionaryPageBuilder) NumValues() int32 {
-	return d.numDictValues
-}
-
-func MakeDataPage(dataPageVersion parquet.DataPageVersion, d *schema.Column, values interface{}, nvals int, e parquet.Encoding, indexBuffer encoding.Buffer, defLvls, repLvls []int16, maxDef, maxRep int16) file.Page {
-	num := 0
-
-	stream := encoding.NewBufferWriter(1024, mem)
-	builder := DataPageBuilder{sink: stream, version: dataPageVersion}
-
-	if len(repLvls) > 0 {
-		builder.AppendRepLevels(repLvls, maxRep)
-	}
-	if len(defLvls) > 0 {
-		builder.AppendDefLevels(defLvls, maxDef)
-	}
-
-	if e == parquet.Encodings.Plain {
-		builder.AppendValues(d, values, e)
-		num = builder.nvals
-	} else {
-		stream.Write(indexBuffer.Bytes())
-		num = utils.Max(builder.nvals, nvals)
-	}
-
-	buf := stream.Finish()
-	if dataPageVersion == parquet.DataPageV1 {
-		return file.NewDataPageV1(buf, int32(num), e, builder.defLvlEncoding, builder.repLvlEncoding, int32(buf.Len()))
-	}
-	return file.NewDataPageV2(buf, int32(num), 0, int32(num), e, int32(builder.defLvlBytesLen), int32(builder.repLvlBytesLen), int32(buf.Len()), false)
-}
-
-func MakeDictPage(d *schema.Column, values interface{}, valuesPerPage []int, e parquet.Encoding) (*file.DictionaryPage, []encoding.Buffer) {
-	bldr := NewDictionaryPageBuilder(d)
-	npages := len(valuesPerPage)
-
-	ref := reflect.ValueOf(values)
-	valStart := 0
-
-	rleIndices := make([]encoding.Buffer, 0, npages)
-	for _, nvals := range valuesPerPage {
-		rleIndices = append(rleIndices, bldr.AppendValues(ref.Slice(valStart, valStart+nvals).Interface()))
-		valStart += nvals
-	}
-
-	buffer := bldr.WriteDict()
-	return file.NewDictionaryPage(buffer, bldr.NumValues(), parquet.Encodings.Plain), rleIndices
-}
-
-type MockPageReader struct {
-	mock.Mock
-
-	curpage int
-}
-
-func (m *MockPageReader) Err() error {
-	return m.Called().Error(0)
-}
-
-func (m *MockPageReader) Reset(parquet.BufferedReader, int64, compress.Compression, *file.CryptoContext) {
-}
-
-func (m *MockPageReader) SetMaxPageHeaderSize(int) {}
-
-func (m *MockPageReader) Page() file.Page {
-	return m.TestData().Get("pages").Data().([]file.Page)[m.curpage-1]
-}
-
-func (m *MockPageReader) Next() bool {
-	pageList := m.TestData().Get("pages").Data().([]file.Page)
-	m.curpage++
-	return len(pageList) >= m.curpage
-}
-
-func PaginatePlain(version parquet.DataPageVersion, d *schema.Column, values reflect.Value, defLevels, repLevels []int16,
-	maxDef, maxRep int16, lvlsPerPage int, valuesPerPage []int, enc parquet.Encoding) []file.Page {
-
-	var (
-		npages      = len(valuesPerPage)
-		defLvlStart = 0
-		defLvlEnd   = 0
-		repLvlStart = 0
-		repLvlEnd   = 0
-		valueStart  = 0
-	)
-
-	pageList := make([]file.Page, 0, npages)
-	for i := 0; i < npages; i++ {
-		if maxDef > 0 {
-			defLvlStart = i * lvlsPerPage
-			defLvlEnd = (i + 1) * lvlsPerPage
-		}
-		if maxRep > 0 {
-			repLvlStart = i * lvlsPerPage
-			repLvlEnd = (i + 1) * lvlsPerPage
-		}
-
-		page := MakeDataPage(version, d,
-			values.Slice(valueStart, valueStart+valuesPerPage[i]).Interface(),
-			valuesPerPage[i], enc, nil, defLevels[defLvlStart:defLvlEnd],
-			repLevels[repLvlStart:repLvlEnd], maxDef, maxRep)
-		valueStart += valuesPerPage[i]
-		pageList = append(pageList, page)
-	}
-	return pageList
-}
-
-func PaginateDict(version parquet.DataPageVersion, d *schema.Column, values reflect.Value, defLevels, repLevels []int16, maxDef, maxRep int16, lvlsPerPage int, valuesPerPage []int, enc parquet.Encoding) []file.Page {
-	var (
-		npages   = len(valuesPerPage)
-		pages    = make([]file.Page, 0, npages)
-		defStart = 0
-		defEnd   = 0
-		repStart = 0
-		repEnd   = 0
-	)
-
-	dictPage, rleIndices := MakeDictPage(d, values.Interface(), valuesPerPage, enc)
-	pages = append(pages, dictPage)
-	for i := 0; i < npages; i++ {
-		if maxDef > 0 {
-			defStart = i * lvlsPerPage
-			defEnd = (i + 1) * lvlsPerPage
-		}
-		if maxRep > 0 {
-			repStart = i * lvlsPerPage
-			repEnd = (i + 1) * lvlsPerPage
-		}
-		page := MakeDataPage(version, d, nil, valuesPerPage[i], enc, rleIndices[i],
-			defLevels[defStart:defEnd], repLevels[repStart:repEnd], maxDef, maxRep)
-		pages = append(pages, page)
-	}
-	return pages
-}
diff --git a/go/parquet/internal/testutils/primitive_typed.go b/go/parquet/internal/testutils/primitive_typed.go
deleted file mode 100644
index d97677c54d727..0000000000000
--- a/go/parquet/internal/testutils/primitive_typed.go
+++ /dev/null
@@ -1,305 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package testutils
-
-import (
-	"fmt"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-type PrimitiveTypedTest struct {
-	Node   schema.Node
-	Schema *schema.Schema
-
-	Typ reflect.Type
-
-	DefLevels []int16
-	RepLevels []int16
-	Buffer    *memory.Buffer
-	Values    interface{}
-
-	ValuesOut    interface{}
-	DefLevelsOut []int16
-	RepLevelsOut []int16
-}
-
-func NewPrimitiveTypedTest(typ reflect.Type) PrimitiveTypedTest {
-	return PrimitiveTypedTest{Typ: typ}
-}
-
-func (p *PrimitiveTypedTest) SetupValuesOut(nvalues int64) {
-	p.ValuesOut = reflect.MakeSlice(reflect.SliceOf(p.Typ), int(nvalues), int(nvalues)).Interface()
-	p.DefLevelsOut = make([]int16, nvalues)
-	p.RepLevelsOut = make([]int16, nvalues)
-}
-
-func (p *PrimitiveTypedTest) GenerateData(nvalues int64) {
-	p.DefLevels = make([]int16, nvalues)
-	p.Values = reflect.MakeSlice(reflect.SliceOf(p.Typ), int(nvalues), int(nvalues)).Interface()
-	InitValues(p.Values, p.Buffer)
-	for idx := range p.DefLevels {
-		p.DefLevels[idx] = 1
-	}
-}
-
-func (p *PrimitiveTypedTest) SetupSchema(rep parquet.Repetition, ncols int) {
-	fields := make([]schema.Node, ncols)
-	for i := 0; i < ncols; i++ {
-		name := fmt.Sprintf("column_%d", i)
-		fields[i], _ = schema.NewPrimitiveNode(name, rep, TypeToParquetType(p.Typ), -1, 12)
-	}
-	p.Node, _ = schema.NewGroupNode("schema", parquet.Repetitions.Required, fields, -1)
-	p.Schema = schema.NewSchema(p.Node.(*schema.GroupNode))
-	p.Buffer = memory.NewResizableBuffer(memory.DefaultAllocator)
-}
-
-func (p *PrimitiveTypedTest) UpdateStats(stat metadata.TypedStatistics, numNull int64) {
-	nvalues := int64(len(p.DefLevels))
-	switch s := stat.(type) {
-	case *metadata.Int32Statistics:
-		s.Update(p.Values.([]int32)[:nvalues-numNull], numNull)
-	case *metadata.Int64Statistics:
-		s.Update(p.Values.([]int64)[:nvalues-numNull], numNull)
-	case *metadata.Float32Statistics:
-		s.Update(p.Values.([]float32)[:nvalues-numNull], numNull)
-	case *metadata.Float64Statistics:
-		s.Update(p.Values.([]float64)[:nvalues-numNull], numNull)
-	case *metadata.Int96Statistics:
-		s.Update(p.Values.([]parquet.Int96)[:nvalues-numNull], numNull)
-	case *metadata.ByteArrayStatistics:
-		s.Update(p.Values.([]parquet.ByteArray)[:nvalues-numNull], numNull)
-	case *metadata.BooleanStatistics:
-		s.Update(p.Values.([]bool)[:nvalues-numNull], numNull)
-	case *metadata.FixedLenByteArrayStatistics:
-		s.Update(p.Values.([]parquet.FixedLenByteArray)[:nvalues-numNull], numNull)
-	default:
-		panic("unimplemented")
-	}
-}
-
-func (p *PrimitiveTypedTest) UpdateStatsSpaced(stat metadata.TypedStatistics, numNull int64, validBits []byte, validBitsOffset int64) {
-	switch s := stat.(type) {
-	case *metadata.Int32Statistics:
-		s.UpdateSpaced(p.Values.([]int32), validBits, validBitsOffset, numNull)
-	case *metadata.Int64Statistics:
-		s.UpdateSpaced(p.Values.([]int64), validBits, validBitsOffset, numNull)
-	case *metadata.Float32Statistics:
-		s.UpdateSpaced(p.Values.([]float32), validBits, validBitsOffset, numNull)
-	case *metadata.Float64Statistics:
-		s.UpdateSpaced(p.Values.([]float64), validBits, validBitsOffset, numNull)
-	case *metadata.Int96Statistics:
-		s.UpdateSpaced(p.Values.([]parquet.Int96), validBits, validBitsOffset, numNull)
-	case *metadata.ByteArrayStatistics:
-		s.UpdateSpaced(p.Values.([]parquet.ByteArray), validBits, validBitsOffset, numNull)
-	case *metadata.BooleanStatistics:
-		s.UpdateSpaced(p.Values.([]bool), validBits, validBitsOffset, numNull)
-	case *metadata.FixedLenByteArrayStatistics:
-		s.UpdateSpaced(p.Values.([]parquet.FixedLenByteArray), validBits, validBitsOffset, numNull)
-	default:
-		panic("unimplemented")
-	}
-}
-
-func (p *PrimitiveTypedTest) GetMinMax(stat metadata.TypedStatistics) (min, max interface{}) {
-	switch s := stat.(type) {
-	case *metadata.Int32Statistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.Int64Statistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.Float32Statistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.Float64Statistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.ByteArrayStatistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.Int96Statistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.BooleanStatistics:
-		min = s.Min()
-		max = s.Max()
-	case *metadata.FixedLenByteArrayStatistics:
-		min = s.Min()
-		max = s.Max()
-	default:
-		panic("unimplemented")
-	}
-	return
-}
-
-func (p *PrimitiveTypedTest) WriteBatchValues(writer file.ColumnChunkWriter, defLevels, repLevels []int16) (int64, error) {
-	switch w := writer.(type) {
-	case *file.Int32ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]int32), defLevels, repLevels)
-	case *file.Int64ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]int64), defLevels, repLevels)
-	case *file.Float32ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]float32), defLevels, repLevels)
-	case *file.Float64ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]float64), defLevels, repLevels)
-	case *file.Int96ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]parquet.Int96), defLevels, repLevels)
-	case *file.ByteArrayColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]parquet.ByteArray), defLevels, repLevels)
-	case *file.BooleanColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]bool), defLevels, repLevels)
-	case *file.FixedLenByteArrayColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]parquet.FixedLenByteArray), defLevels, repLevels)
-	default:
-		panic("unimplemented")
-	}
-}
-
-func (p *PrimitiveTypedTest) WriteBatchSubset(batch, offset int, writer file.ColumnChunkWriter, defLevels, repLevels []int16) (int64, error) {
-	switch w := writer.(type) {
-	case *file.Int32ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]int32)[offset:batch+offset], defLevels, repLevels)
-	case *file.Int64ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]int64)[offset:batch+offset], defLevels, repLevels)
-	case *file.Float32ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]float32)[offset:batch+offset], defLevels, repLevels)
-	case *file.Float64ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]float64)[offset:batch+offset], defLevels, repLevels)
-	case *file.Int96ColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]parquet.Int96)[offset:batch+offset], defLevels, repLevels)
-	case *file.ByteArrayColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]parquet.ByteArray)[offset:batch+offset], defLevels, repLevels)
-	case *file.BooleanColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]bool)[offset:batch+offset], defLevels, repLevels)
-	case *file.FixedLenByteArrayColumnChunkWriter:
-		return w.WriteBatch(p.Values.([]parquet.FixedLenByteArray)[offset:batch+offset], defLevels, repLevels)
-	default:
-		panic("unimplemented")
-	}
-}
-
-func (p *PrimitiveTypedTest) WriteBatchValuesSpaced(writer file.ColumnChunkWriter, defLevels, repLevels []int16, validBits []byte, validBitsOffset int64) {
-	switch w := writer.(type) {
-	case *file.Int32ColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]int32), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.Int64ColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]int64), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.Float32ColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]float32), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.Float64ColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]float64), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.Int96ColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]parquet.Int96), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.ByteArrayColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]parquet.ByteArray), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.BooleanColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]bool), defLevels, repLevels, validBits, validBitsOffset)
-	case *file.FixedLenByteArrayColumnChunkWriter:
-		w.WriteBatchSpaced(p.Values.([]parquet.FixedLenByteArray), defLevels, repLevels, validBits, validBitsOffset)
-	default:
-		panic("unimplemented")
-	}
-}
-
-func (p *PrimitiveTypedTest) ReadBatch(reader file.ColumnChunkReader, batch, valuesRead int64, defLevels, repLevels []int16) int64 {
-	switch r := reader.(type) {
-	case *file.Int32ColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]int32)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.Int64ColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]int64)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.Float32ColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]float32)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.Float64ColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]float64)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.Int96ColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]parquet.Int96)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.ByteArrayColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]parquet.ByteArray)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.BooleanColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]bool)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	case *file.FixedLenByteArrayColumnChunkReader:
-		_, read, _ := r.ReadBatch(batch, p.ValuesOut.([]parquet.FixedLenByteArray)[valuesRead:], defLevels, repLevels)
-		return int64(read)
-	default:
-		panic("unimplemented")
-	}
-}
-
-func Min(v1, v2 interface{}) interface{} {
-	switch n1 := v1.(type) {
-	case int32:
-		if n1 < v2.(int32) {
-			return n1
-		}
-		return v2
-	case int64:
-		if n1 < v2.(int64) {
-			return n1
-		}
-		return v2
-	case float32:
-		if n1 < v2.(float32) {
-			return n1
-		}
-		return v2
-	case float64:
-		if n1 < v2.(float64) {
-			return n1
-		}
-		return v2
-	}
-	panic("min utility only implemented for int32, int64, float32, float64")
-}
-
-func Max(v1, v2 interface{}) interface{} {
-	switch n1 := v1.(type) {
-	case int32:
-		if n1 < v2.(int32) {
-			return v2
-		}
-		return n1
-	case int64:
-		if n1 < v2.(int64) {
-			return v2
-		}
-		return n1
-	case float32:
-		if n1 < v2.(float32) {
-			return v2
-		}
-		return n1
-	case float64:
-		if n1 < v2.(float64) {
-			return v2
-		}
-		return n1
-	}
-	panic("max utility only implemented for int32, int64, float32, float64")
-}
diff --git a/go/parquet/internal/testutils/random.go b/go/parquet/internal/testutils/random.go
deleted file mode 100644
index 1f4b1b7068beb..0000000000000
--- a/go/parquet/internal/testutils/random.go
+++ /dev/null
@@ -1,538 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package testutils contains utilities for generating random data and other
-// helpers that are used for testing the various aspects of the parquet library.
-package testutils
-
-import (
-	"encoding/binary"
-	"math"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/endian"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-
-	"golang.org/x/exp/rand"
-	"gonum.org/v1/gonum/stat/distuv"
-)
-
-// RandomArrayGenerator is a struct used for constructing Random Arrow arrays
-// for use with testing.
-type RandomArrayGenerator struct {
-	seed     uint64
-	extra    uint64
-	src      rand.Source
-	seedRand *rand.Rand
-}
-
-// NewRandomArrayGenerator constructs a new generator with the requested Seed
-func NewRandomArrayGenerator(seed uint64) RandomArrayGenerator {
-	src := rand.NewSource(seed)
-	return RandomArrayGenerator{seed, 0, src, rand.New(src)}
-}
-
-// GenerateBitmap generates a bitmap of n bits and stores it into buffer. Prob is the probability
-// that a given bit will be zero, with 1-prob being the probability it will be 1. The return value
-// is the number of bits that were left unset. The assumption being that buffer is currently
-// zero initialized as this function does not clear any bits, it only sets 1s.
-func (r *RandomArrayGenerator) GenerateBitmap(buffer []byte, n int64, prob float64) int64 {
-	count := int64(0)
-	r.extra++
-
-	// bernoulli distribution uses P to determine the probability of a 0 or a 1,
-	// which we'll use to generate the bitmap.
-	dist := distuv.Bernoulli{P: prob, Src: rand.NewSource(r.seed + r.extra)}
-	for i := 0; int64(i) < n; i++ {
-		if dist.Rand() != float64(0.0) {
-			bitutil.SetBit(buffer, i)
-		} else {
-			count++
-		}
-	}
-
-	return count
-}
-
-// ByteArray creates an array.String for use of creating random ByteArray values for testing parquet
-// writing/reading. minLen/maxLen are the min and max length for a given value in the resulting array,
-// with nullProb being the probability of a given index being null.
-//
-// For this generation we only generate ascii values with a min of 'A' and max of 'z'.
-func (r *RandomArrayGenerator) ByteArray(size int64, minLen, maxLen int32, nullProb float64) arrow.Array {
-	if nullProb < 0 || nullProb > 1 {
-		panic("null prob must be between 0 and 1")
-	}
-
-	lengths := r.Int32(size, minLen, maxLen, nullProb)
-	defer lengths.Release()
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	bldr := array.NewStringBuilder(memory.DefaultAllocator)
-	defer bldr.Release()
-
-	strbuf := make([]byte, maxLen)
-
-	for i := 0; int64(i) < size; i++ {
-		if lengths.IsValid(i) {
-			l := lengths.Value(i)
-			for j := int32(0); j < l; j++ {
-				strbuf[j] = byte(dist.Int31n(int32('z')-int32('A')+1) + int32('A'))
-			}
-			val := strbuf[:l]
-			bldr.Append(*(*string)(unsafe.Pointer(&val)))
-		} else {
-			bldr.AppendNull()
-		}
-	}
-
-	return bldr.NewArray()
-}
-
-// Uint8 generates a random array.Uint8 of the requested size whose values are between min and max
-// with prob as the probability that a given index will be null.
-func (r *RandomArrayGenerator) Uint8(size int64, min, max uint8, prob float64) arrow.Array {
-	buffers := make([]*memory.Buffer, 2)
-	nullCount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	nullCount = r.GenerateBitmap(buffers[0].Bytes(), size, prob)
-
-	buffers[1] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[1].Resize(int(size * int64(arrow.Uint8SizeBytes)))
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Uint8Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = uint8(dist.Intn(int(max-min+1))) + min
-	}
-
-	return array.NewUint8Data(array.NewData(arrow.PrimitiveTypes.Uint8, int(size), buffers, nil, int(nullCount), 0))
-}
-
-// Int32 generates a random array.Int32 of the given size with each value between min and max,
-// and pctNull as the probability that a given index will be null.
-func (r *RandomArrayGenerator) Int32(size int64, min, max int32, pctNull float64) *array.Int32 {
-	buffers := make([]*memory.Buffer, 2)
-	nullCount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	nullCount = r.GenerateBitmap(buffers[0].Bytes(), size, 1-pctNull)
-
-	buffers[1] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[1].Resize(arrow.Int32Traits.BytesRequired(int(size)))
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int32Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = dist.Int31n(max-min+1) + min
-	}
-	return array.NewInt32Data(array.NewData(arrow.PrimitiveTypes.Int32, int(size), buffers, nil, int(nullCount), 0))
-}
-
-// Int64 generates a random array.Int64 of the given size with each value between min and max,
-// and pctNull as the probability that a given index will be null.
-func (r *RandomArrayGenerator) Int64(size int64, min, max int64, pctNull float64) *array.Int64 {
-	buffers := make([]*memory.Buffer, 2)
-	nullCount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	nullCount = r.GenerateBitmap(buffers[0].Bytes(), size, 1-pctNull)
-
-	buffers[1] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[1].Resize(arrow.Int64Traits.BytesRequired(int(size)))
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int64Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = dist.Int63n(max-min+1) + min
-	}
-	return array.NewInt64Data(array.NewData(arrow.PrimitiveTypes.Int64, int(size), buffers, nil, int(nullCount), 0))
-}
-
-// Float64 generates a random array.Float64 of the requested size with pctNull as the probability
-// that a given index will be null.
-func (r *RandomArrayGenerator) Float64(size int64, pctNull float64) *array.Float64 {
-	buffers := make([]*memory.Buffer, 2)
-	nullCount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	nullCount = r.GenerateBitmap(buffers[0].Bytes(), size, 1-pctNull)
-
-	buffers[1] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[1].Resize(arrow.Float64Traits.BytesRequired(int(size)))
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Float64Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = dist.NormFloat64()
-	}
-	return array.NewFloat64Data(array.NewData(arrow.PrimitiveTypes.Float64, int(size), buffers, nil, int(nullCount), 0))
-}
-
-func (r *RandomArrayGenerator) StringWithRepeats(mem memory.Allocator, sz, unique int64, minLen, maxLen int32, nullProb float64) *array.String {
-	if unique > sz {
-		panic("invalid config for random StringWithRepeats")
-	}
-
-	// generate a random string dictionary without any nulls
-	arr := r.ByteArray(unique, minLen, maxLen, 0)
-	defer arr.Release()
-	dict := arr.(*array.String)
-
-	// generate random indices to sample dictionary with
-	idArray := r.Int64(sz, 0, unique-1, nullProb)
-	defer idArray.Release()
-
-	bldr := array.NewStringBuilder(mem)
-	defer bldr.Release()
-
-	for i := int64(0); i < sz; i++ {
-		if idArray.IsValid(int(i)) {
-			idx := idArray.Value(int(i))
-			bldr.Append(dict.Value(int(idx)))
-		} else {
-			bldr.AppendNull()
-		}
-	}
-
-	return bldr.NewStringArray()
-}
-
-// FillRandomInt8 populates the slice out with random int8 values between min and max using
-// seed as the random see for generation to allow consistency for testing.
-func FillRandomInt8(seed uint64, min, max int8, out []int8) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = int8(r.Intn(int(max-min+1))) + min
-	}
-}
-
-// FillRandomUint8 populates the slice out with random uint8 values between min and max using
-// seed as the random see for generation to allow consistency for testing.
-func FillRandomUint8(seed uint64, min, max uint8, out []uint8) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = uint8(r.Intn(int(max-min+1))) + min
-	}
-}
-
-// FillRandomInt16 populates the slice out with random int16 values between min and max using
-// seed as the random see for generation to allow consistency for testing.
-func FillRandomInt16(seed uint64, min, max int16, out []int16) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = int16(r.Intn(int(max-min+1))) + min
-	}
-}
-
-// FillRandomUint16 populates the slice out with random uint16 values between min and max using
-// seed as the random see for generation to allow consistency for testing.
-func FillRandomUint16(seed uint64, min, max uint16, out []uint16) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = uint16(r.Intn(int(max-min+1))) + min
-	}
-}
-
-// FillRandomInt32 populates out with random int32 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomInt32(seed uint64, out []int32) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = int32(r.Uint32())
-	}
-}
-
-// FillRandomInt32Max populates out with random int32 values between 0 and max using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomInt32Max(seed uint64, max int32, out []int32) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = r.Int31n(max)
-	}
-}
-
-// FillRandomUint32Max populates out with random uint32 values between 0 and max using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomUint32Max(seed uint64, max uint32, out []uint32) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = uint32(r.Uint64n(uint64(max)))
-	}
-}
-
-// FillRandomInt64Max populates out with random int64 values between 0 and max using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomInt64Max(seed uint64, max int64, out []int64) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = r.Int63n(max)
-	}
-}
-
-// FillRandomUint32 populates out with random uint32 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomUint32(seed uint64, out []uint32) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = r.Uint32()
-	}
-}
-
-// FillRandomUint64 populates out with random uint64 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomUint64(seed uint64, out []uint64) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = r.Uint64()
-	}
-}
-
-// FillRandomUint64Max populates out with random uint64 values between 0 and max using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomUint64Max(seed uint64, max uint64, out []uint64) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = r.Uint64n(max)
-	}
-}
-
-// FillRandomInt64 populates out with random int64 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomInt64(seed uint64, out []int64) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = int64(r.Uint64())
-	}
-}
-
-// FillRandomInt96 populates out with random Int96 values using seed as the random
-// seed for the generator to allow consistency for testing. It does this by generating
-// three random uint32 values for each int96 value.
-func FillRandomInt96(seed uint64, out []parquet.Int96) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		*(*int32)(unsafe.Pointer(&out[idx][0])) = int32(r.Uint32())
-		*(*int32)(unsafe.Pointer(&out[idx][4])) = int32(r.Uint32())
-		*(*int32)(unsafe.Pointer(&out[idx][8])) = int32(r.Uint32())
-	}
-}
-
-// randFloat32 creates a random float value with a normal distribution
-// to better spread the values out and ensure we do not return any NaN values.
-func randFloat32(r *rand.Rand) float32 {
-	for {
-		f := math.Float32frombits(r.Uint32())
-		if !math.IsNaN(float64(f)) {
-			return f
-		}
-	}
-}
-
-// randFloat64 creates a random float value with a normal distribution
-// to better spread the values out and ensure we do not return any NaN values.
-func randFloat64(r *rand.Rand) float64 {
-	for {
-		f := math.Float64frombits(r.Uint64())
-		if !math.IsNaN(f) {
-			return f
-		}
-	}
-}
-
-// randFloat16 creates a random float value with a normal distribution
-// to better spread the values out and ensure we do not return any NaN or Inf values.
-func randFloat16(r *rand.Rand) float16.Num {
-	for {
-		f := float16.FromBits(uint16(r.Uint64n(math.MaxUint16 + 1)))
-		if !f.IsNaN() {
-			return f
-		}
-	}
-}
-
-// FillRandomFloat32 populates out with random float32 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomFloat32(seed uint64, out []float32) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = randFloat32(r)
-	}
-}
-
-// FillRandomFloat64 populates out with random float64 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomFloat64(seed uint64, out []float64) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = randFloat64(r)
-	}
-}
-
-// FillRandomFloat16 populates out with random float64 values using seed as the random
-// seed for the generator to allow consistency for testing.
-func FillRandomFloat16(seed uint64, out []float16.Num) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = randFloat16(r)
-	}
-}
-
-// FillRandomByteArray populates out with random ByteArray values with lengths between 2 and 12
-// using heap as the actual memory storage used for the bytes generated. Each element of
-// out will be some slice of the bytes in heap, and as such heap must outlive the byte array slices.
-func FillRandomByteArray(seed uint64, out []parquet.ByteArray, heap *memory.Buffer) {
-	const (
-		maxByteArrayLen = 12
-		minByteArrayLen = 2
-	)
-	RandomByteArray(seed, out, heap, minByteArrayLen, maxByteArrayLen)
-}
-
-// FillRandomFixedByteArray populates out with random FixedLenByteArray values with of a length equal to size
-// using heap as the actual memory storage used for the bytes generated. Each element of
-// out will be a slice of size bytes in heap, and as such heap must outlive the byte array slices.
-func FillRandomFixedByteArray(seed uint64, out []parquet.FixedLenByteArray, heap *memory.Buffer, size int) {
-	heap.Resize(len(out) * size)
-
-	buf := heap.Bytes()
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		r.Read(buf[:size])
-		out[idx] = buf[:size]
-		buf = buf[size:]
-	}
-}
-
-// FillRandomBooleans populates out with random bools with the probability p of being false using
-// seed as the random seed to the generator in order to allow consistency for testing. This uses
-// a Bernoulli distribution of values.
-func FillRandomBooleans(p float64, seed uint64, out []bool) {
-	dist := distuv.Bernoulli{P: p, Src: rand.NewSource(seed)}
-	for idx := range out {
-		out[idx] = dist.Rand() != float64(0.0)
-	}
-}
-
-// fillRandomIsValid populates out with random bools with the probability pctNull of being false using
-// seed as the random seed to the generator in order to allow consistency for testing. This uses
-// the default Golang random generator distribution of float64 values between 0 and 1 comparing against
-// pctNull. If the random value is > pctNull, it is true.
-func fillRandomIsValid(seed uint64, pctNull float64, out []bool) {
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		out[idx] = r.Float64() > pctNull
-	}
-}
-
-// InitValues is a convenience function for generating a slice of random values based on the type.
-// If the type is parquet.ByteArray or parquet.FixedLenByteArray, heap must not be null.
-//
-// The default values are:
-//
-//	[]bool uses the current time as the seed with only values of 1 being false, for use
-//	 of creating validity boolean slices.
-//	all other types use 0 as the seed
-//	a []parquet.ByteArray is populated with lengths between 2 and 12
-//	a []parquet.FixedLenByteArray is populated with fixed size random byte arrays of length 12.
-func InitValues(values interface{}, heap *memory.Buffer) {
-	switch arr := values.(type) {
-	case []bool:
-		fillRandomIsValid(uint64(time.Now().Unix()), 0.5, arr)
-	case []int32:
-		FillRandomInt32(0, arr)
-	case []int64:
-		FillRandomInt64(0, arr)
-	case []float32:
-		FillRandomFloat32(0, arr)
-	case []float64:
-		FillRandomFloat64(0, arr)
-	case []float16.Num:
-		FillRandomFloat16(0, arr)
-	case []parquet.Int96:
-		FillRandomInt96(0, arr)
-	case []parquet.ByteArray:
-		FillRandomByteArray(0, arr, heap)
-	case []parquet.FixedLenByteArray:
-		FillRandomFixedByteArray(0, arr, heap, 12)
-	}
-}
-
-// RandomByteArray populates out with random ByteArray values with lengths between minlen and maxlen
-// using heap as the actual memory storage used for the bytes generated. Each element of
-// out will be some slice of the bytes in heap, and as such heap must outlive the byte array slices.
-func RandomByteArray(seed uint64, out []parquet.ByteArray, heap *memory.Buffer, minlen, maxlen int) {
-	heap.Resize(len(out) * (maxlen + arrow.Uint32SizeBytes))
-
-	buf := heap.Bytes()
-	r := rand.New(rand.NewSource(seed))
-	for idx := range out {
-		length := r.Intn(maxlen-minlen+1) + minlen
-		r.Read(buf[:length])
-		out[idx] = buf[:length]
-
-		buf = buf[length:]
-	}
-}
-
-// RandomDecimals generates n random decimal values with precision determining the byte width
-// for the values and seed as the random generator seed to allow consistency for testing. The
-// resulting values will be either 32 bytes or 16 bytes each depending on the precision.
-func RandomDecimals(n int64, seed uint64, precision int32) []byte {
-	r := rand.New(rand.NewSource(seed))
-	nreqBytes := pqarrow.DecimalSize(precision)
-	byteWidth := 32
-	if precision <= 38 {
-		byteWidth = 16
-	}
-
-	out := make([]byte, int(int64(byteWidth)*n))
-	for i := int64(0); i < n; i++ {
-		start := int(i) * byteWidth
-		r.Read(out[start : start+int(nreqBytes)])
-		// sign extend if the sign bit is set for the last generated byte
-		// 0b10000000 == 0x80 == 128
-		if out[start+int(nreqBytes)-1]&byte(0x80) != 0 {
-			memory.Set(out[start+int(nreqBytes):start+byteWidth], 0xFF)
-		}
-
-		// byte swap for big endian
-		if endian.IsBigEndian {
-			for j := 0; j+8 <= byteWidth; j += 8 {
-				v := binary.LittleEndian.Uint64(out[start+j : start+j+8])
-				binary.BigEndian.PutUint64(out[start+j:start+j+8], v)
-			}
-		}
-	}
-	return out
-}
diff --git a/go/parquet/internal/testutils/random_arrow.go b/go/parquet/internal/testutils/random_arrow.go
deleted file mode 100644
index f9a199de77963..0000000000000
--- a/go/parquet/internal/testutils/random_arrow.go
+++ /dev/null
@@ -1,518 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package testutils
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"golang.org/x/exp/rand"
-)
-
-// RandomNonNull generates a random arrow array of the requested type with length size with no nulls.
-// Accepts float32, float64, all integer primitives, Date32, date64, string, binary, fixed_size_binary, bool and decimal.
-//
-// Always uses 0 as the seed with the following min/max restrictions:
-// int16, uint16, int8, and uint8 will be min 0, max 64
-// Date32 and Date64 will be between 0 and 24 * 86400000 in increments of 86400000
-// String will all have the value "test-string"
-// binary will have each value between length 2 and 12 but random bytes that are not limited to ascii
-// fixed size binary will all be of length 10, random bytes are not limited to ascii
-// bool will be approximately half false and half true randomly.
-func RandomNonNull(mem memory.Allocator, dt arrow.DataType, size int) arrow.Array {
-	switch dt.ID() {
-	case arrow.FLOAT32:
-		bldr := array.NewFloat32Builder(mem)
-		defer bldr.Release()
-		values := make([]float32, size)
-		FillRandomFloat32(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.FLOAT64:
-		bldr := array.NewFloat64Builder(mem)
-		defer bldr.Release()
-		values := make([]float64, size)
-		FillRandomFloat64(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.FLOAT16:
-		bldr := array.NewFloat16Builder(mem)
-		defer bldr.Release()
-		values := make([]float16.Num, size)
-		FillRandomFloat16(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.INT64:
-		bldr := array.NewInt64Builder(mem)
-		defer bldr.Release()
-		values := make([]int64, size)
-		FillRandomInt64(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.UINT64:
-		bldr := array.NewUint64Builder(mem)
-		defer bldr.Release()
-		values := make([]uint64, size)
-		FillRandomUint64(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.INT32:
-		bldr := array.NewInt32Builder(mem)
-		defer bldr.Release()
-		values := make([]int32, size)
-		FillRandomInt32(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.UINT32:
-		bldr := array.NewUint32Builder(mem)
-		defer bldr.Release()
-		values := make([]uint32, size)
-		FillRandomUint32(0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.INT16:
-		bldr := array.NewInt16Builder(mem)
-		defer bldr.Release()
-		values := make([]int16, size)
-		FillRandomInt16(0, 0, 64, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.UINT16:
-		bldr := array.NewUint16Builder(mem)
-		defer bldr.Release()
-		values := make([]uint16, size)
-		FillRandomUint16(0, 0, 64, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.INT8:
-		bldr := array.NewInt8Builder(mem)
-		defer bldr.Release()
-		values := make([]int8, size)
-		FillRandomInt8(0, 0, 64, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.UINT8:
-		bldr := array.NewUint8Builder(mem)
-		defer bldr.Release()
-		values := make([]uint8, size)
-		FillRandomUint8(0, 0, 64, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	case arrow.DATE32:
-		bldr := array.NewDate32Builder(mem)
-		defer bldr.Release()
-		values := make([]int32, size)
-		FillRandomInt32Max(0, 24, values)
-
-		dates := make([]arrow.Date32, size)
-		for idx, val := range values {
-			dates[idx] = arrow.Date32(val) * 86400000
-		}
-		bldr.AppendValues(dates, nil)
-		return bldr.NewArray()
-	case arrow.DATE64:
-		bldr := array.NewDate64Builder(mem)
-		defer bldr.Release()
-		values := make([]int64, size)
-		FillRandomInt64Max(0, 24, values)
-
-		dates := make([]arrow.Date64, size)
-		for idx, val := range values {
-			dates[idx] = arrow.Date64(val) * 86400000
-		}
-		bldr.AppendValues(dates, nil)
-		return bldr.NewArray()
-	case arrow.STRING:
-		bldr := array.NewStringBuilder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append("test-string")
-		}
-		return bldr.NewArray()
-	case arrow.LARGE_STRING:
-		bldr := array.NewLargeStringBuilder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append("test-large-string")
-		}
-		return bldr.NewArray()
-	case arrow.BINARY, arrow.LARGE_BINARY:
-		bldr := array.NewBinaryBuilder(mem, dt.(arrow.BinaryDataType))
-		defer bldr.Release()
-
-		buf := make([]byte, 12)
-		r := rand.New(rand.NewSource(0))
-		for i := 0; i < size; i++ {
-			length := r.Intn(12-2+1) + 2
-			r.Read(buf[:length])
-			bldr.Append(buf[:length])
-		}
-		return bldr.NewArray()
-	case arrow.FIXED_SIZE_BINARY:
-		bldr := array.NewFixedSizeBinaryBuilder(mem, &arrow.FixedSizeBinaryType{ByteWidth: 10})
-		defer bldr.Release()
-
-		buf := make([]byte, 10)
-		r := rand.New(rand.NewSource(0))
-		for i := 0; i < size; i++ {
-			r.Read(buf)
-			bldr.Append(buf)
-		}
-		return bldr.NewArray()
-	case arrow.DECIMAL:
-		dectype := dt.(*arrow.Decimal128Type)
-		bldr := array.NewDecimal128Builder(mem, dectype)
-		defer bldr.Release()
-
-		data := RandomDecimals(int64(size), 0, dectype.Precision)
-		bldr.AppendValues(arrow.Decimal128Traits.CastFromBytes(data), nil)
-		return bldr.NewArray()
-	case arrow.BOOL:
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-
-		values := make([]bool, size)
-		FillRandomBooleans(0.5, 0, values)
-		bldr.AppendValues(values, nil)
-		return bldr.NewArray()
-	}
-	return nil
-}
-
-// RandomNullable generates a random arrow array of length size with approximately numNulls,
-// at most there can be size/2 nulls. Other than there being nulls, the values follow the same rules
-// as described in the docs for RandomNonNull.
-func RandomNullable(dt arrow.DataType, size int, numNulls int) arrow.Array {
-	switch dt.ID() {
-	case arrow.FLOAT32:
-		bldr := array.NewFloat32Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]float32, size)
-		FillRandomFloat32(0, values)
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.FLOAT64:
-		bldr := array.NewFloat64Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]float64, size)
-		FillRandomFloat64(0, values)
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.FLOAT16:
-		bldr := array.NewFloat16Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]float16.Num, size)
-		FillRandomFloat16(0, values)
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.INT8:
-		bldr := array.NewInt8Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]int8, size)
-		FillRandomInt8(0, 0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.UINT8:
-		bldr := array.NewUint8Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]uint8, size)
-		FillRandomUint8(0, 0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.INT16:
-		bldr := array.NewInt16Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]int16, size)
-		FillRandomInt16(0, 0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.UINT16:
-		bldr := array.NewUint16Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]uint16, size)
-		FillRandomUint16(0, 0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.INT32:
-		bldr := array.NewInt32Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]int32, size)
-		FillRandomInt32Max(0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.UINT32:
-		bldr := array.NewUint32Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]uint32, size)
-		FillRandomUint32Max(0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-
-	case arrow.INT64:
-		bldr := array.NewInt64Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]int64, size)
-		FillRandomInt64Max(0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.UINT64:
-		bldr := array.NewUint64Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]uint64, size)
-		FillRandomUint64Max(0, 64, values)
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	case arrow.DATE32:
-		bldr := array.NewDate32Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]int32, size)
-		FillRandomInt32Max(0, 24, values)
-
-		dates := make([]arrow.Date32, size)
-		for idx, val := range values {
-			dates[idx] = arrow.Date32(val) * 86400000
-		}
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-		bldr.AppendValues(dates, valid)
-		return bldr.NewArray()
-	case arrow.DATE64:
-		bldr := array.NewDate64Builder(memory.DefaultAllocator)
-		defer bldr.Release()
-		values := make([]int64, size)
-		FillRandomInt64Max(0, 24, values)
-
-		dates := make([]arrow.Date64, size)
-		for idx, val := range values {
-			dates[idx] = arrow.Date64(val) * 86400000
-		}
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-		bldr.AppendValues(dates, valid)
-		return bldr.NewArray()
-	case arrow.BINARY:
-		bldr := array.NewBinaryBuilder(memory.DefaultAllocator, arrow.BinaryTypes.Binary)
-		defer bldr.Release()
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		buf := make([]byte, 12)
-		r := rand.New(rand.NewSource(0))
-		for i := 0; i < size; i++ {
-			if !valid[i] {
-				bldr.AppendNull()
-				continue
-			}
-
-			length := r.Intn(12-2+1) + 2
-			r.Read(buf[:length])
-			bldr.Append(buf[:length])
-		}
-		return bldr.NewArray()
-	case arrow.STRING:
-		bldr := array.NewStringBuilder(memory.DefaultAllocator)
-		defer bldr.Release()
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		buf := make([]byte, 12)
-		r := rand.New(rand.NewSource(0))
-		for i := 0; i < size; i++ {
-			if !valid[i] {
-				bldr.AppendNull()
-				continue
-			}
-
-			length := r.Intn(12-2+1) + 2
-			r.Read(buf[:length])
-			// trivially force data to be valid UTF8 by making it all ASCII
-			for idx := range buf[:length] {
-				buf[idx] &= 0x7f
-			}
-			bldr.Append(string(buf[:length]))
-		}
-		return bldr.NewArray()
-	case arrow.FIXED_SIZE_BINARY:
-		bldr := array.NewFixedSizeBinaryBuilder(memory.DefaultAllocator, &arrow.FixedSizeBinaryType{ByteWidth: 10})
-		defer bldr.Release()
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		buf := make([]byte, 10)
-		r := rand.New(rand.NewSource(0))
-		for i := 0; i < size; i++ {
-			if !valid[i] {
-				bldr.AppendNull()
-				continue
-			}
-
-			r.Read(buf)
-			bldr.Append(buf)
-		}
-		return bldr.NewArray()
-	case arrow.DECIMAL:
-		dectype := dt.(*arrow.Decimal128Type)
-		bldr := array.NewDecimal128Builder(memory.DefaultAllocator, dectype)
-		defer bldr.Release()
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		data := RandomDecimals(int64(size), 0, dectype.Precision)
-		bldr.AppendValues(arrow.Decimal128Traits.CastFromBytes(data), valid)
-		return bldr.NewArray()
-	case arrow.BOOL:
-		bldr := array.NewBooleanBuilder(memory.DefaultAllocator)
-		defer bldr.Release()
-
-		valid := make([]bool, size)
-		for idx := range valid {
-			valid[idx] = true
-		}
-		for i := 0; i < numNulls; i++ {
-			valid[i*2] = false
-		}
-
-		values := make([]bool, size)
-		FillRandomBooleans(0.5, 0, values)
-		bldr.AppendValues(values, valid)
-		return bldr.NewArray()
-	}
-	return nil
-}
diff --git a/go/parquet/internal/testutils/utils.go b/go/parquet/internal/testutils/utils.go
deleted file mode 100644
index 823f7fbd07d1d..0000000000000
--- a/go/parquet/internal/testutils/utils.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package testutils
-
-import (
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/parquet"
-)
-
-var typeToParquetTypeMap = map[reflect.Type]parquet.Type{
-	reflect.TypeOf(true):                        parquet.Types.Boolean,
-	reflect.TypeOf(int32(0)):                    parquet.Types.Int32,
-	reflect.TypeOf(int64(0)):                    parquet.Types.Int64,
-	reflect.TypeOf(float32(0)):                  parquet.Types.Float,
-	reflect.TypeOf(float64(0)):                  parquet.Types.Double,
-	reflect.TypeOf(parquet.ByteArray{}):         parquet.Types.ByteArray,
-	reflect.TypeOf(parquet.Int96{}):             parquet.Types.Int96,
-	reflect.TypeOf(parquet.FixedLenByteArray{}): parquet.Types.FixedLenByteArray,
-}
-
-func TypeToParquetType(typ reflect.Type) parquet.Type {
-	ret, ok := typeToParquetTypeMap[typ]
-	if !ok {
-		panic("invalid type for parquet type")
-	}
-	return ret
-}
diff --git a/go/parquet/internal/thrift/helpers.go b/go/parquet/internal/thrift/helpers.go
deleted file mode 100644
index f8b0f2170c45d..0000000000000
--- a/go/parquet/internal/thrift/helpers.go
+++ /dev/null
@@ -1,87 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package thrift is just some useful helpers for interacting with thrift to
-// make other code easier to read/write and centralize interactions.
-package thrift
-
-import (
-	"bytes"
-	"context"
-	"io"
-
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	"github.com/apache/thrift/lib/go/thrift"
-)
-
-// default factory for creating thrift protocols for serialization/deserialization
-var protocolFactory = thrift.NewTCompactProtocolFactoryConf(&thrift.TConfiguration{})
-
-// DeserializeThrift deserializes the bytes in buf into the given thrift msg type
-// returns the number of remaining bytes in the buffer that weren't needed for deserialization
-// and any error if there was one, or nil.
-func DeserializeThrift(msg thrift.TStruct, buf []byte) (remain uint64, err error) {
-	tbuf := &thrift.TMemoryBuffer{Buffer: bytes.NewBuffer(buf)}
-	err = msg.Read(context.TODO(), protocolFactory.GetProtocol(tbuf))
-	remain = tbuf.RemainingBytes()
-	return
-}
-
-// SerializeThriftStream writes out the serialized bytes of the passed in type
-// to the given writer stream.
-func SerializeThriftStream(msg thrift.TStruct, w io.Writer) error {
-	return msg.Write(context.TODO(), protocolFactory.GetProtocol(thrift.NewStreamTransportW(w)))
-}
-
-// DeserializeThriftStream populates the given msg by reading from the provided
-// stream until it completes the deserialization.
-func DeserializeThriftStream(msg thrift.TStruct, r io.Reader) error {
-	return msg.Read(context.TODO(), protocolFactory.GetProtocol(thrift.NewStreamTransportR(r)))
-}
-
-// Serializer is an object that can stick around to provide convenience
-// functions and allow object reuse
-type Serializer struct {
-	thrift.TSerializer
-}
-
-// NewThriftSerializer constructs a serializer with a default buffer of 1024
-func NewThriftSerializer() *Serializer {
-	tbuf := thrift.NewTMemoryBufferLen(1024)
-	return &Serializer{thrift.TSerializer{
-		Transport: tbuf,
-		Protocol:  protocolFactory.GetProtocol(tbuf),
-	}}
-}
-
-// Serialize will serialize the given msg to the writer stream w, optionally encrypting it on the way
-// if enc is not nil, returning the total number of bytes written and any error received, or nil
-func (t *Serializer) Serialize(msg thrift.TStruct, w io.Writer, enc encryption.Encryptor) (int, error) {
-	b, err := t.Write(context.Background(), msg)
-	if err != nil {
-		return 0, err
-	}
-
-	if enc == nil {
-		return w.Write(b)
-	}
-
-	var cipherBuf bytes.Buffer
-	cipherBuf.Grow(enc.CiphertextSizeDelta() + len(b))
-	enc.Encrypt(&cipherBuf, b)
-	n, err := cipherBuf.WriteTo(w)
-	return int(n), err
-}
diff --git a/go/parquet/internal/utils/Makefile b/go/parquet/internal/utils/Makefile
deleted file mode 100644
index f6dce46197fef..0000000000000
--- a/go/parquet/internal/utils/Makefile
+++ /dev/null
@@ -1,78 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
-PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
-
-C2GOASM=c2goasm
-CC=clang-11
-C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 \
-				-fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib
-ASM_FLAGS_AVX2=-mavx2 -mfma
-ASM_FLAGS_SSE4=-msse4
-ASM_FLAGS_BMI2=-mbmi2
-ASM_FLAGS_POPCNT=-mpopcnt
-
-C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
-	-fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib
-
-GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
-ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
-
-.PHONY: assembly
-
-INTEL_SOURCES := \
-	bit_packing_avx2_amd64.s \
-	unpack_bool_avx2_amd64.s unpack_bool_sse4_amd64.s
-
-ARM_SOURCES := \
-	bit_packing_neon_arm64.s unpack_bool_neon_arm64.s
-
-#
-# ARROW-15336: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
-# min_max_neon_arm64.s was generated by asm2plan9s.
-# And manually formatted it as the Arm64 Plan9.
-#
-
-assembly: $(INTEL_SOURCES)
-
-_lib/bit_packing_avx2.s: _lib/bit_packing_avx2.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@; perl -i -pe 's/mem(cpy|set)/clib·_mem\1(SB)/' $@
-
-_lib/unpack_bool_avx2.s: _lib/unpack_bool.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/unpack_bool_sse4.s: _lib/unpack_bool.c
-	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/unpack_bool_neon.s: _lib/unpack_bool.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
-
-_lib/bit_packing_neon.s: _lib/bit_packing_neon.c
-	$(CC) -S $(C_FLAGS_NEON) $^ -o $@
-
-bit_packing_avx2_amd64.s: _lib/bit_packing_avx2.s
-	$(C2GOASM) -a -f $^ $@
-
-unpack_bool_avx2_amd64.s: _lib/unpack_bool_avx2.s
-	$(C2GOASM) -a -f $^ $@
-
-unpack_bool_sse4_amd64.s: _lib/unpack_bool_sse4.s
-	$(C2GOASM) -a -f $^ $@
-
-clean:
-	rm -f $(INTEL_SOURCES)
-	rm -f $(addprefix _lib/,$(INTEL_SOURCES))
diff --git a/go/parquet/internal/utils/_lib/README.md b/go/parquet/internal/utils/_lib/README.md
deleted file mode 100644
index 17c3006a5ce08..0000000000000
--- a/go/parquet/internal/utils/_lib/README.md
+++ /dev/null
@@ -1,154 +0,0 @@
-<!---
-  Licensed to the Apache Software Foundation (ASF) under one
-  or more contributor license agreements.  See the NOTICE file
-  distributed with this work for additional information
-  regarding copyright ownership.  The ASF licenses this file
-  to you under the Apache License, Version 2.0 (the
-  "License"); you may not use this file except in compliance
-  with the License.  You may obtain a copy of the License at
-
-    http://www.apache.org/licenses/LICENSE-2.0
-
-  Unless required by applicable law or agreed to in writing,
-  software distributed under the License is distributed on an
-  "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-  KIND, either express or implied.  See the License for the
-  specific language governing permissions and limitations
-  under the License.
--->
-
-# SIMD Bit Packing Implementation
-
-Go doesn't have any SIMD intrinsics so for some low-level optimizations we can 
-leverage auto-vectorization by C++ compilers and the fact that Go lets you specify the body of a
-function in assembly to benefit from SIMD.
-
-In here we have implementations using SIMD intrinsics for AVX (amd64) and NEON (arm64).
-
-## Generating the Go assembly
-
-c2goasm and asm2plan9s are two projects which can be used in conjunction to generate
-compatible Go assembly from C assembly.
-
-First the tools need to be installed:
-
-```bash
-go install github.com/klauspost/asmfmt/cmd/asmfmt@latest
-go install github.com/minio/asm2plan9s@latest
-go install github.com/minio/c2goasm@latest
-```
-
-### Generating for amd64
-
-The Makefile in the directory above will work for amd64. `make assembly` will compile
-the c sources and then call `c2goasm` to generate the Go assembly for amd64 
-architectures.
-
-### Generating for arm64
-
-Unfortunately there are some caveats for arm64. c2goasm / asm2plan9s doesn't fully
-support arm64 correctly. However, proper assembly can be created with some slight
-manipulation of the result.
-
-The Makefile has the NEON flags for compiling the assembly by using 
-`make _lib/bit_packing_neon.s` and `make _lib/unpack_bool_neon.s` to generate the
-raw assembly sources. 
-
-Before calling `c2goasm` there's a few things that need to be modified in the assembly:
-
-* x86-64 assembly uses `#` for comments while arm64 assembly uses `//` for comments.
-  `c2goasm` assumes `#` for comments and splits lines based on them. For most lines
-  this isn't an issue, but for any constants this is important and will need to have
-  the comment character converted from `//` to `#`.
-* A `word` for x86-64 is 16 bits, a `double` word is 32 bits, and a `quad` is 64 bits.
-  For arm64, a `word` is 32 bits. This means that constants in the assembly need to be
-  modified. `c2goasm` and `asm2plan9s` expect the x86-64 meaning for the sizes, so
-  usage of `.word ######` needs to be converted to `.long #####` before running
-  `c2goasm`. In addition, `.xword` is an 8-byte value and as such should be changed to
-  `.quad` before running `c2goasm`.
-* Because of this change in bits, `MOVQ` instructions will also be converted to 
-  `MOVD` instructions.
-
-After running `c2goasm` there will still need to be modifications made to the 
-resulting assembly.
-
-* Most of the ARM instructions will be converted to using the Go assembly construction
-  of `WORD $0x########` to provide an instruction directly to the processor rather than
-  going through the Go assembler. Some of the instructions, however, aren't recognized
-  by `c2goasm` and will need to added. If you look at the assembly, you'll see these
-  as assembly that is commented out without any `WORD` instruction. For example:
-  ```asm
-  // stp x29, x30, [sp, #-48]!
-  WORD $0x11007c48 // add  w8, w2, #31
-  ```
-  The `stp` instruction needs to be added. This can be done in one of two ways:
-  1. Many instructions are properly handled by the Go assembler correctly. You can
-     find the arm-specific caveats to Go's assembly [here](https://pkg.go.dev/cmd/internal/obj/arm64). In this case, the instruction would be `STP.W (R29, R30), -48(RSP)`.
-  2. Assuming that the GNU assembler is installed, you can use it to generate the
-     correct byte sequence. Create a file named `neon.asm` with a single line 
-     (the instruction) and call `as -o neon.o neon.asm`. Then you can run
-     `objdump -S neon.o` to get the value to use. The output should look something 
-     like:
-     ```
-     Disassembly of section .text:
-
-     0000000000000000 <.text>:
-     0:   11 00 7c 48    add  w8, w2, #31
-     ```
-     And then update the assembly as `WORD $0x11007c48 // add w8, w2, #31`
-* Labels used in instructions won't work when using the `WORD $0x#########` syntax.
-  They need to be the actual instructions for the labels. So all lines that have a
-  label will need to be converted. This is two-fold:
-  1. Any lines for branching such as those which end with `// b.le LBB0_10` are updated
-     to be `BLE LBB0_10`. The same is true for `b.gt`, `b.ge`, `b.ne`, and `b.eq`. `b` 
-     instructions are instead converted to `JMP` calls.
-  2. References to constants need to be updated, for example `LCPI0_192`. By default,
-     these will get converted to global data instructions like 
-     `DATA LCDATA1<>+0xc68(SB)/8, $0x0000000000000000`. Unfortunately, these seem to 
-     have issues with being referenced by the assembler. The pattern to look for in 
-     the assembly is an `adrp x9, .LCPI0_192` instruction that is later followed by 
-     an instruction that looks like `str d4, [x9, 0:lo12:.LCPI0_192]`. These will
-     need to be converted to a macro and a `VMOV` instruction. 
-     * In the original assembly, you'll see blocks like:
-       ```asm
-       .LCPI0_0
-          .word 1           // 0x00000001
-          .word 2           // 0x00000002
-       .LCPI0_1
-          .word 4294967265  // 0xffffffe1
-          .word 4294967266  // 0xffffffe2
-       ```
-       which were converted to the `DATA LCDATA1`.... lines. Instead they should get
-       converted to a macro and a vector instruction:
-       ```asm
-       #define LCPI0_0 $0x0000000200000001
-       #define LCPI0_1 $0xffffffe2ffffffe1
-       ```
-       Notice the lower/higher bits!
-       Then replace the `str`/`ldr`/`mov` instruction as `VMOVD LCPI0_0, v4`. Because
-       the original instruction storing the value in `d4`, we use `VMOVD` and `V4`. 
-       Alternately we might find a prefix of `q` instead of `d`, in which case it we
-       need to use `VMOVQ` and pass the lower bytes followed by the higher bytes.
-       ```asm
-       #define LCPI0_48L $0x0000000d00000008
-       #define LCPI0_48H $0x0000001700000012
-       ...
-       VMOVQ LCPI0_48L, LCPI0_48H, V4
-       ```
-       After replacing the instructions, both the `adrp` and the `str`/`ldr`/`mov` 
-       instructions should be removed/commented out.
-       There might also be a `LEAQ LCDATA1<>(SB), BP` instruction at the top of the
-       function. That should be removed/commented out as we are replacing the constants
-       with macros.
-* Finally, if the function has a return value, make sure that at the end of the 
-  function, ends with something akin to `MOVD R0, num+32(FP)`. Where `num` is the
-  local variable name of the return value, and `32` is the byte size of the arguments.
-
-To facilitate some automation, a `script.sed` file is provided in this directory which
-can be run against the generated assembly from `c2goasm` as 
-`sed -f _lib/script.sed -i bit_packing_neon_arm64.s` which will perform several of 
-these steps on the generated assembly such as converting `b.le`/etc calls with labels
-to proper `BLE LBB0_....` lines, and converting `adrp`/`ldr` pairs to `VMOVD` and 
-`VMOVQ` instructions.
-
-This should be sufficient to ensuring the assembly is generated and works properly!
\ No newline at end of file
diff --git a/go/parquet/internal/utils/_lib/arch.h b/go/parquet/internal/utils/_lib/arch.h
deleted file mode 100644
index 7c75cd2f60fd7..0000000000000
--- a/go/parquet/internal/utils/_lib/arch.h
+++ /dev/null
@@ -1,29 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#undef FULL_NAME
-
-#if defined(__AVX2__)
-    #define FULL_NAME(x) x##_avx2
-#elif __SSE4_2__ == 1
-    #define FULL_NAME(x) x##_sse4
-#elif __SSE3__ == 1
-    #define FULL_NAME(x) x##_sse3
-#elif defined(__ARM_NEON) || defined(__ARM_NEON__)
-    #define FULL_NAME(x) x##_neon
-#else
-    #define FULL_NAME(x) x##_x86
-#endif
diff --git a/go/parquet/internal/utils/_lib/bit_packing_avx2.c b/go/parquet/internal/utils/_lib/bit_packing_avx2.c
deleted file mode 100644
index b57f24fd5c727..0000000000000
--- a/go/parquet/internal/utils/_lib/bit_packing_avx2.c
+++ /dev/null
@@ -1,1879 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <stdint.h>
-#include <immintrin.h>
-#include <string.h>
-
-inline const uint32_t* unpack0_32_avx2(const uint32_t* in, uint32_t* out) {
-  memset(out, 0x0, 32 * sizeof(*out));
-  out += 32;
-
-  return in;
-}
-
-inline static const uint32_t* unpack1_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(7, 6, 5, 4,
-                               3, 2, 1, 0);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(15, 14, 13, 12,
-                                11, 10, 9, 8);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(23, 22, 21, 20,
-                                19, 18, 17, 16);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(31, 30, 29, 28,
-                                27, 26, 25, 24);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 1;
-
-  return in;
-}
-
-inline static const uint32_t* unpack2_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(14, 12, 10, 8,
-                               6, 4, 2, 0);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(30, 28, 26, 24,
-                                22, 20, 18, 16);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0],
-                              in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(14, 12, 10, 8,
-                                6, 4, 2, 0);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(30, 28, 26, 24,
-                                22, 20, 18, 16);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 2;
-
-  return in;
-}
-
-inline static const uint32_t* unpack3_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(21, 18, 15, 12,
-                               9, 6, 3, 0);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(13, 10, 7, 4,
-                                1, 0, 27, 24);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[0] >> 30 | in[1] << 2,
-                              in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(5, 2, 0, 28,
-                                25, 22, 19, 16);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                              in[1] >> 31 | in[2] << 1, in[1],
-                              in[1], in[1],
-                              in[1], in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(29, 26, 23, 20,
-                                17, 14, 11, 8);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                              in[2], in[2],
-                              in[2], in[2],
-                              in[2], in[2]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 3;
-
-  return in;
-}
-
-inline static const uint32_t* unpack4_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xf;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(28, 24, 20, 16,
-                               12, 8, 4, 0);
-  reg_inls = _mm256_set_epi32(in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(28, 24, 20, 16,
-                                12, 8, 4, 0);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[1],
-                              in[1], in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(28, 24, 20, 16,
-                                12, 8, 4, 0);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                              in[2], in[2],
-                              in[2], in[2],
-                              in[2], in[2]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(28, 24, 20, 16,
-                                12, 8, 4, 0);
-  reg_inls = _mm256_set_epi32(in[3], in[3],
-                              in[3], in[3],
-                              in[3], in[3],
-                              in[3], in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 4;
-
-  return in;
-}
-
-inline static const uint32_t* unpack5_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1f;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(3, 0, 25, 20,
-                               15, 10, 5, 0);
-  reg_inls = _mm256_set_epi32(in[1], in[0] >> 30 | in[1] << 2,
-                             in[0], in[0],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(11, 6, 1, 0,
-                                23, 18, 13, 8);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                              in[2], in[1] >> 28 | in[2] << 4,
-                              in[1], in[1],
-                              in[1], in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(19, 14, 9, 4,
-                                0, 26, 21, 16);
-  reg_inls = _mm256_set_epi32(in[3], in[3],
-                              in[3], in[3],
-                              in[2] >> 31 | in[3] << 1, in[2],
-                              in[2], in[2]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(27, 22, 17, 12,
-                                7, 2, 0, 24);
-  reg_inls = _mm256_set_epi32(in[4], in[4],
-                              in[4], in[4],
-                              in[4], in[4],
-                              in[3] >> 29 | in[4] << 3, in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 5;
-
-  return in;
-}
-
-inline static const uint32_t* unpack6_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3f;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(10, 4, 0, 24,
-                               18, 12, 6, 0);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                             in[0] >> 30 | in[1] << 2, in[0],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(26, 20, 14, 8,
-                                2, 0, 22, 16);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                              in[2], in[2],
-                              in[2], in[1] >> 28 | in[2] << 4,
-                              in[1], in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(10, 4, 0, 24,
-                                18, 12, 6, 0);
-  reg_inls = _mm256_set_epi32(in[4], in[4],
-                              in[3] >> 30 | in[4] << 2, in[3],
-                              in[3], in[3],
-                              in[3], in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(26, 20, 14, 8,
-                                2, 0, 22, 16);
-  reg_inls = _mm256_set_epi32(in[5], in[5],
-                              in[5], in[5],
-                              in[5], in[4] >> 28 | in[5] << 4,
-                              in[4], in[4]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 6;
-
-  return in;
-}
-
-inline static const uint32_t* unpack7_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7f;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(17, 10, 3, 0,
-                               21, 14, 7, 0);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                             in[1], in[0] >> 28 | in[1] << 4,
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(9, 2, 0, 20,
-                                13, 6, 0, 24);
-  reg_inls = _mm256_set_epi32(in[3], in[3],
-                              in[2] >> 27 | in[3] << 5, in[2],
-                              in[2], in[2],
-                              in[1] >> 31 | in[2] << 1, in[1]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(1, 0, 19, 12,
-                                5, 0, 23, 16);
-  reg_inls = _mm256_set_epi32(in[5], in[4] >> 26 | in[5] << 6,
-                              in[4], in[4],
-                              in[4], in[3] >> 30 | in[4] << 2,
-                              in[3], in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(25, 18, 11, 4,
-                                0, 22, 15, 8);
-  reg_inls = _mm256_set_epi32(in[6], in[6],
-                              in[6], in[6],
-                              in[5] >> 29 | in[6] << 3, in[5],
-                              in[5], in[5]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 7;
-
-  return in;
-}
-
-inline static const uint32_t* unpack8_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(24, 16, 8, 0,
-                               24, 16, 8, 0);
-  reg_inls = _mm256_set_epi32(in[1], in[1],
-                             in[1], in[1],
-                             in[0], in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(24, 16, 8, 0,
-                                24, 16, 8, 0);
-  reg_inls = _mm256_set_epi32(in[3], in[3],
-                              in[3], in[3],
-                              in[2], in[2],
-                              in[2], in[2]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(24, 16, 8, 0,
-                                24, 16, 8, 0);
-  reg_inls = _mm256_set_epi32(in[5], in[5],
-                              in[5], in[5],
-                              in[4], in[4],
-                              in[4], in[4]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(24, 16, 8, 0,
-                                24, 16, 8, 0);
-  reg_inls = _mm256_set_epi32(in[7], in[7],
-                              in[7], in[7],
-                              in[6], in[6],
-                              in[6], in[6]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 8;
-
-  return in;
-}
-
-inline static const uint32_t* unpack9_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1ff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 22, 13, 4,
-                               0, 18, 9, 0);
-  reg_inls = _mm256_set_epi32(in[1] >> 31 | in[2] << 1, in[1],
-                             in[1], in[1],
-                             in[0] >> 27 | in[1] << 5, in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(7, 0, 21, 12,
-                                3, 0, 17, 8);
-  reg_inls = _mm256_set_epi32(in[4], in[3] >> 30 | in[4] << 2,
-                              in[3], in[3],
-                              in[3], in[2] >> 26 | in[3] << 6,
-                              in[2], in[2]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(15, 6, 0, 20,
-                                11, 2, 0, 16);
-  reg_inls = _mm256_set_epi32(in[6], in[6],
-                              in[5] >> 29 | in[6] << 3, in[5],
-                              in[5], in[5],
-                              in[4] >> 25 | in[5] << 7, in[4]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(23, 14, 5, 0,
-                                19, 10, 1, 0);
-  reg_inls = _mm256_set_epi32(in[8], in[8],
-                              in[8], in[7] >> 28 | in[8] << 4,
-                              in[7], in[7],
-                              in[7], in[6] >> 24 | in[7] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 9;
-
-  return in;
-}
-
-inline static const uint32_t* unpack10_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3ff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(6, 0, 18, 8,
-                               0, 20, 10, 0);
-  reg_inls = _mm256_set_epi32(in[2], in[1] >> 28 | in[2] << 4,
-                             in[1], in[1],
-                             in[0] >> 30 | in[1] << 2, in[0],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(22, 12, 2, 0,
-                                14, 4, 0, 16);
-  reg_inls = _mm256_set_epi32(in[4], in[4],
-                              in[4], in[3] >> 24 | in[4] << 8,
-                              in[3], in[3],
-                              in[2] >> 26 | in[3] << 6, in[2]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(6, 0, 18, 8,
-                                0, 20, 10, 0);
-  reg_inls = _mm256_set_epi32(in[7], in[6] >> 28 | in[7] << 4,
-                              in[6], in[6],
-                              in[5] >> 30 | in[6] << 2, in[5],
-                              in[5], in[5]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(22, 12, 2, 0,
-                                14, 4, 0, 16);
-  reg_inls = _mm256_set_epi32(in[9], in[9],
-                              in[9], in[8] >> 24 | in[9] << 8,
-                              in[8], in[8],
-                              in[7] >> 26 | in[8] << 6, in[7]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 10;
-
-  return in;
-}
-
-inline static const uint32_t* unpack11_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7ff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(13, 2, 0, 12,
-                               1, 0, 11, 0);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                             in[1] >> 23 | in[2] << 9, in[1],
-                             in[1], in[0] >> 22 | in[1] << 10,
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(5, 0, 15, 4,
-                                0, 14, 3, 0);
-  reg_inls = _mm256_set_epi32(in[5], in[4] >> 26 | in[5] << 6,
-                              in[4], in[4],
-                              in[3] >> 25 | in[4] << 7, in[3],
-                              in[3], in[2] >> 24 | in[3] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 18, 7, 0,
-                                17, 6, 0, 16);
-  reg_inls = _mm256_set_epi32(in[7] >> 29 | in[8] << 3, in[7],
-                              in[7], in[6] >> 28 | in[7] << 4,
-                              in[6], in[6],
-                              in[5] >> 27 | in[6] << 5, in[5]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(21, 10, 0, 20,
-                                9, 0, 19, 8);
-  reg_inls = _mm256_set_epi32(in[10], in[10],
-                              in[9] >> 31 | in[10] << 1, in[9],
-                              in[9], in[8] >> 30 | in[9] << 2,
-                              in[8], in[8]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 11;
-
-  return in;
-}
-
-inline static const uint32_t* unpack12_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xfff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(20, 8, 0, 16,
-                               4, 0, 12, 0);
-  reg_inls = _mm256_set_epi32(in[2], in[2],
-                             in[1] >> 28 | in[2] << 4, in[1],
-                             in[1], in[0] >> 24 | in[1] << 8,
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(20, 8, 0, 16,
-                                4, 0, 12, 0);
-  reg_inls = _mm256_set_epi32(in[5], in[5],
-                              in[4] >> 28 | in[5] << 4, in[4],
-                              in[4], in[3] >> 24 | in[4] << 8,
-                              in[3], in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(20, 8, 0, 16,
-                                4, 0, 12, 0);
-  reg_inls = _mm256_set_epi32(in[8], in[8],
-                              in[7] >> 28 | in[8] << 4, in[7],
-                              in[7], in[6] >> 24 | in[7] << 8,
-                              in[6], in[6]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(20, 8, 0, 16,
-                                4, 0, 12, 0);
-  reg_inls = _mm256_set_epi32(in[11], in[11],
-                              in[10] >> 28 | in[11] << 4, in[10],
-                              in[10], in[9] >> 24 | in[10] << 8,
-                              in[9], in[9]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 12;
-
-  return in;
-}
-
-inline static const uint32_t* unpack13_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1fff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 14, 1, 0,
-                               7, 0, 13, 0);
-  reg_inls = _mm256_set_epi32(in[2] >> 27 | in[3] << 5, in[2],
-                             in[2], in[1] >> 20 | in[2] << 12,
-                             in[1], in[0] >> 26 | in[1] << 6,
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(3, 0, 9, 0,
-                                15, 2, 0, 8);
-  reg_inls = _mm256_set_epi32(in[6], in[5] >> 22 | in[6] << 10,
-                              in[5], in[4] >> 28 | in[5] << 4,
-                              in[4], in[4],
-                              in[3] >> 21 | in[4] << 11, in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(11, 0, 17, 4,
-                                0, 10, 0, 16);
-  reg_inls = _mm256_set_epi32(in[9], in[8] >> 30 | in[9] << 2,
-                              in[8], in[8],
-                              in[7] >> 23 | in[8] << 9, in[7],
-                              in[6] >> 29 | in[7] << 3, in[6]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(19, 6, 0, 12,
-                                0, 18, 5, 0);
-  reg_inls = _mm256_set_epi32(in[12], in[12],
-                              in[11] >> 25 | in[12] << 7, in[11],
-                              in[10] >> 31 | in[11] << 1, in[10],
-                              in[10], in[9] >> 24 | in[10] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 13;
-
-  return in;
-}
-
-inline static const uint32_t* unpack14_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3fff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(2, 0, 6, 0,
-                               10, 0, 14, 0);
-  reg_inls = _mm256_set_epi32(in[3], in[2] >> 20 | in[3] << 12,
-                             in[2], in[1] >> 24 | in[2] << 8,
-                             in[1], in[0] >> 28 | in[1] << 4,
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(18, 4, 0, 8,
-                                0, 12, 0, 16);
-  reg_inls = _mm256_set_epi32(in[6], in[6],
-                              in[5] >> 22 | in[6] << 10, in[5],
-                              in[4] >> 26 | in[5] << 6, in[4],
-                              in[3] >> 30 | in[4] << 2, in[3]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(2, 0, 6, 0,
-                                10, 0, 14, 0);
-  reg_inls = _mm256_set_epi32(in[10], in[9] >> 20 | in[10] << 12,
-                              in[9], in[8] >> 24 | in[9] << 8,
-                              in[8], in[7] >> 28 | in[8] << 4,
-                              in[7], in[7]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(18, 4, 0, 8,
-                                0, 12, 0, 16);
-  reg_inls = _mm256_set_epi32(in[13], in[13],
-                              in[12] >> 22 | in[13] << 10, in[12],
-                              in[11] >> 26 | in[12] << 6, in[11],
-                              in[10] >> 30 | in[11] << 2, in[10]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 14;
-
-  return in;
-}
-
-inline static const uint32_t* unpack15_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7fff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(9, 0, 11, 0,
-                               13, 0, 15, 0);
-  reg_inls = _mm256_set_epi32(in[3], in[2] >> 26 | in[3] << 6,
-                             in[2], in[1] >> 28 | in[2] << 4,
-                             in[1], in[0] >> 30 | in[1] << 2,
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(1, 0, 3, 0,
-                                5, 0, 7, 0);
-  reg_inls = _mm256_set_epi32(in[7], in[6] >> 18 | in[7] << 14,
-                              in[6], in[5] >> 20 | in[6] << 12,
-                              in[5], in[4] >> 22 | in[5] << 10,
-                              in[4], in[3] >> 24 | in[4] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 10, 0, 12,
-                                0, 14, 0, 16);
-  reg_inls = _mm256_set_epi32(in[10] >> 25 | in[11] << 7, in[10],
-                              in[9] >> 27 | in[10] << 5, in[9],
-                              in[8] >> 29 | in[9] << 3, in[8],
-                              in[7] >> 31 | in[8] << 1, in[7]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(17, 2, 0, 4,
-                                0, 6, 0, 8);
-  reg_inls = _mm256_set_epi32(in[14], in[14],
-                              in[13] >> 19 | in[14] << 13, in[13],
-                              in[12] >> 21 | in[13] << 11, in[12],
-                              in[11] >> 23 | in[12] << 9, in[11]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 15;
-
-  return in;
-}
-
-inline static const uint32_t* unpack16_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(16, 0, 16, 0,
-                               16, 0, 16, 0);
-  reg_inls = _mm256_set_epi32(in[3], in[3],
-                             in[2], in[2],
-                             in[1], in[1],
-                             in[0], in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(16, 0, 16, 0,
-                                16, 0, 16, 0);
-  reg_inls = _mm256_set_epi32(in[7], in[7],
-                              in[6], in[6],
-                              in[5], in[5],
-                              in[4], in[4]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(16, 0, 16, 0,
-                                16, 0, 16, 0);
-  reg_inls = _mm256_set_epi32(in[11], in[11],
-                              in[10], in[10],
-                              in[9], in[9],
-                              in[8], in[8]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(16, 0, 16, 0,
-                                16, 0, 16, 0);
-  reg_inls = _mm256_set_epi32(in[15], in[15],
-                              in[14], in[14],
-                              in[13], in[13],
-                              in[12], in[12]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 16;
-
-  return in;
-}
-
-inline static const uint32_t* unpack17_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1ffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 6, 0, 4,
-                               0, 2, 0, 0);
-  reg_inls = _mm256_set_epi32(in[3] >> 23 | in[4] << 9, in[3],
-                             in[2] >> 21 | in[3] << 11, in[2],
-                             in[1] >> 19 | in[2] << 13, in[1],
-                             in[0] >> 17 | in[1] << 15, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 14, 0, 12,
-                                0, 10, 0, 8);
-  reg_inls = _mm256_set_epi32(in[7] >> 31 | in[8] << 1, in[7],
-                              in[6] >> 29 | in[7] << 3, in[6],
-                              in[5] >> 27 | in[6] << 5, in[5],
-                              in[4] >> 25 | in[5] << 7, in[4]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(7, 0, 5, 0,
-                                3, 0, 1, 0);
-  reg_inls = _mm256_set_epi32(in[12], in[11] >> 22 | in[12] << 10,
-                              in[11], in[10] >> 20 | in[11] << 12,
-                              in[10], in[9] >> 18 | in[10] << 14,
-                              in[9], in[8] >> 16 | in[9] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(15, 0, 13, 0,
-                                11, 0, 9, 0);
-  reg_inls = _mm256_set_epi32(in[16], in[15] >> 30 | in[16] << 2,
-                              in[15], in[14] >> 28 | in[15] << 4,
-                              in[14], in[13] >> 26 | in[14] << 6,
-                              in[13], in[12] >> 24 | in[13] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 17;
-
-  return in;
-}
-
-inline static const uint32_t* unpack18_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3ffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 12, 0, 8,
-                               0, 4, 0, 0);
-  reg_inls = _mm256_set_epi32(in[3] >> 30 | in[4] << 2, in[3],
-                             in[2] >> 26 | in[3] << 6, in[2],
-                             in[1] >> 22 | in[2] << 10, in[1],
-                             in[0] >> 18 | in[1] << 14, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(14, 0, 10, 0,
-                                6, 0, 2, 0);
-  reg_inls = _mm256_set_epi32(in[8], in[7] >> 28 | in[8] << 4,
-                              in[7], in[6] >> 24 | in[7] << 8,
-                              in[6], in[5] >> 20 | in[6] << 12,
-                              in[5], in[4] >> 16 | in[5] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 12, 0, 8,
-                                0, 4, 0, 0);
-  reg_inls = _mm256_set_epi32(in[12] >> 30 | in[13] << 2, in[12],
-                              in[11] >> 26 | in[12] << 6, in[11],
-                              in[10] >> 22 | in[11] << 10, in[10],
-                              in[9] >> 18 | in[10] << 14, in[9]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(14, 0, 10, 0,
-                                6, 0, 2, 0);
-  reg_inls = _mm256_set_epi32(in[17], in[16] >> 28 | in[17] << 4,
-                              in[16], in[15] >> 24 | in[16] << 8,
-                              in[15], in[14] >> 20 | in[15] << 12,
-                              in[14], in[13] >> 16 | in[14] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 18;
-
-  return in;
-}
-
-inline static const uint32_t* unpack19_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7ffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(5, 0, 0, 12,
-                               0, 6, 0, 0);
-  reg_inls = _mm256_set_epi32(in[4], in[3] >> 18 | in[4] << 14,
-                             in[2] >> 31 | in[3] << 1, in[2],
-                             in[1] >> 25 | in[2] << 7, in[1],
-                             in[0] >> 19 | in[1] << 13, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 10, 0, 4,
-                                0, 0, 11, 0);
-  reg_inls = _mm256_set_epi32(in[8] >> 29 | in[9] << 3, in[8],
-                              in[7] >> 23 | in[8] << 9, in[7],
-                              in[6] >> 17 | in[7] << 15, in[5] >> 30 | in[6] << 2,
-                              in[5], in[4] >> 24 | in[5] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 2, 0, 0,
-                                9, 0, 3, 0);
-  reg_inls = _mm256_set_epi32(in[13] >> 21 | in[14] << 11, in[13],
-                              in[12] >> 15 | in[13] << 17, in[11] >> 28 | in[12] << 4,
-                              in[11], in[10] >> 22 | in[11] << 10,
-                              in[10], in[9] >> 16 | in[10] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(13, 0, 7, 0,
-                                1, 0, 0, 8);
-  reg_inls = _mm256_set_epi32(in[18], in[17] >> 26 | in[18] << 6,
-                              in[17], in[16] >> 20 | in[17] << 12,
-                              in[16], in[15] >> 14 | in[16] << 18,
-                              in[14] >> 27 | in[15] << 5, in[14]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 19;
-
-  return in;
-}
-
-inline static const uint32_t* unpack20_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xfffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(12, 0, 4, 0,
-                               0, 8, 0, 0);
-  reg_inls = _mm256_set_epi32(in[4], in[3] >> 24 | in[4] << 8,
-                             in[3], in[2] >> 16 | in[3] << 16,
-                             in[1] >> 28 | in[2] << 4, in[1],
-                             in[0] >> 20 | in[1] << 12, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(12, 0, 4, 0,
-                                0, 8, 0, 0);
-  reg_inls = _mm256_set_epi32(in[9], in[8] >> 24 | in[9] << 8,
-                              in[8], in[7] >> 16 | in[8] << 16,
-                              in[6] >> 28 | in[7] << 4, in[6],
-                              in[5] >> 20 | in[6] << 12, in[5]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(12, 0, 4, 0,
-                                0, 8, 0, 0);
-  reg_inls = _mm256_set_epi32(in[14], in[13] >> 24 | in[14] << 8,
-                              in[13], in[12] >> 16 | in[13] << 16,
-                              in[11] >> 28 | in[12] << 4, in[11],
-                              in[10] >> 20 | in[11] << 12, in[10]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(12, 0, 4, 0,
-                                0, 8, 0, 0);
-  reg_inls = _mm256_set_epi32(in[19], in[18] >> 24 | in[19] << 8,
-                              in[18], in[17] >> 16 | in[18] << 16,
-                              in[16] >> 28 | in[17] << 4, in[16],
-                              in[15] >> 20 | in[16] << 12, in[15]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 20;
-
-  return in;
-}
-
-inline static const uint32_t* unpack21_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1fffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 9, 0,
-                               0, 10, 0, 0);
-  reg_inls = _mm256_set_epi32(in[4] >> 19 | in[5] << 13, in[3] >> 30 | in[4] << 2,
-                             in[3], in[2] >> 20 | in[3] << 12,
-                             in[1] >> 31 | in[2] << 1, in[1],
-                             in[0] >> 21 | in[1] << 11, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 6, 0, 0,
-                                7, 0, 0, 8);
-  reg_inls = _mm256_set_epi32(in[9] >> 27 | in[10] << 5, in[9],
-                              in[8] >> 17 | in[9] << 15, in[7] >> 28 | in[8] << 4,
-                              in[7], in[6] >> 18 | in[7] << 14,
-                              in[5] >> 29 | in[6] << 3, in[5]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(3, 0, 0, 4,
-                                0, 0, 5, 0);
-  reg_inls = _mm256_set_epi32(in[15], in[14] >> 14 | in[15] << 18,
-                              in[13] >> 25 | in[14] << 7, in[13],
-                              in[12] >> 15 | in[13] << 17, in[11] >> 26 | in[12] << 6,
-                              in[11], in[10] >> 16 | in[11] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(11, 0, 1, 0,
-                                0, 2, 0, 0);
-  reg_inls = _mm256_set_epi32(in[20], in[19] >> 22 | in[20] << 10,
-                              in[19], in[18] >> 12 | in[19] << 20,
-                              in[17] >> 23 | in[18] << 9, in[17],
-                              in[16] >> 13 | in[17] << 19, in[15] >> 24 | in[16] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 21;
-
-  return in;
-}
-
-inline static const uint32_t* unpack22_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3fffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 4, 0, 0,
-                               2, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[4] >> 26 | in[5] << 6, in[4],
-                             in[3] >> 14 | in[4] << 18, in[2] >> 24 | in[3] << 8,
-                             in[2], in[1] >> 12 | in[2] << 20,
-                             in[0] >> 22 | in[1] << 10, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(10, 0, 0, 8,
-                                0, 0, 6, 0);
-  reg_inls = _mm256_set_epi32(in[10], in[9] >> 20 | in[10] << 12,
-                              in[8] >> 30 | in[9] << 2, in[8],
-                              in[7] >> 18 | in[8] << 14, in[6] >> 28 | in[7] << 4,
-                              in[6], in[5] >> 16 | in[6] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 4, 0, 0,
-                                2, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[15] >> 26 | in[16] << 6, in[15],
-                              in[14] >> 14 | in[15] << 18, in[13] >> 24 | in[14] << 8,
-                              in[13], in[12] >> 12 | in[13] << 20,
-                              in[11] >> 22 | in[12] << 10, in[11]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(10, 0, 0, 8,
-                                0, 0, 6, 0);
-  reg_inls = _mm256_set_epi32(in[21], in[20] >> 20 | in[21] << 12,
-                              in[19] >> 30 | in[20] << 2, in[19],
-                              in[18] >> 18 | in[19] << 14, in[17] >> 28 | in[18] << 4,
-                              in[17], in[16] >> 16 | in[17] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 22;
-
-  return in;
-}
-
-inline static const uint32_t* unpack23_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7fffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(1, 0, 0, 0,
-                               5, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[5], in[4] >> 10 | in[5] << 22,
-                             in[3] >> 19 | in[4] << 13, in[2] >> 28 | in[3] << 4,
-                             in[2], in[1] >> 14 | in[2] << 18,
-                             in[0] >> 23 | in[1] << 9, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 2, 0, 0,
-                                0, 6, 0, 0);
-  reg_inls = _mm256_set_epi32(in[10] >> 25 | in[11] << 7, in[10],
-                              in[9] >> 11 | in[10] << 21, in[8] >> 20 | in[9] << 12,
-                              in[7] >> 29 | in[8] << 3, in[7],
-                              in[6] >> 15 | in[7] << 17, in[5] >> 24 | in[6] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 3, 0,
-                                0, 0, 7, 0);
-  reg_inls = _mm256_set_epi32(in[16] >> 17 | in[17] << 15, in[15] >> 26 | in[16] << 6,
-                              in[15], in[14] >> 12 | in[15] << 20,
-                              in[13] >> 21 | in[14] << 11, in[12] >> 30 | in[13] << 2,
-                              in[12], in[11] >> 16 | in[12] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(9, 0, 0, 4,
-                                0, 0, 0, 8);
-  reg_inls = _mm256_set_epi32(in[22], in[21] >> 18 | in[22] << 14,
-                              in[20] >> 27 | in[21] << 5, in[20],
-                              in[19] >> 13 | in[20] << 19, in[18] >> 22 | in[19] << 10,
-                              in[17] >> 31 | in[18] << 1, in[17]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 23;
-
-  return in;
-}
-
-inline static const uint32_t* unpack24_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(8, 0, 0, 0,
-                               8, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[5], in[4] >> 16 | in[5] << 16,
-                             in[3] >> 24 | in[4] << 8, in[3],
-                             in[2], in[1] >> 16 | in[2] << 16,
-                             in[0] >> 24 | in[1] << 8, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(8, 0, 0, 0,
-                                8, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[11], in[10] >> 16 | in[11] << 16,
-                              in[9] >> 24 | in[10] << 8, in[9],
-                              in[8], in[7] >> 16 | in[8] << 16,
-                              in[6] >> 24 | in[7] << 8, in[6]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(8, 0, 0, 0,
-                                8, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[17], in[16] >> 16 | in[17] << 16,
-                              in[15] >> 24 | in[16] << 8, in[15],
-                              in[14], in[13] >> 16 | in[14] << 16,
-                              in[12] >> 24 | in[13] << 8, in[12]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(8, 0, 0, 0,
-                                8, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[23], in[22] >> 16 | in[23] << 16,
-                              in[21] >> 24 | in[22] << 8, in[21],
-                              in[20], in[19] >> 16 | in[20] << 16,
-                              in[18] >> 24 | in[19] << 8, in[18]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 24;
-
-  return in;
-}
-
-inline static const uint32_t* unpack25_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1ffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 4,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[5] >> 15 | in[6] << 17, in[4] >> 22 | in[5] << 10,
-                             in[3] >> 29 | in[4] << 3, in[3],
-                             in[2] >> 11 | in[3] << 21, in[1] >> 18 | in[2] << 14,
-                             in[0] >> 25 | in[1] << 7, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 5, 0,
-                                0, 0, 1, 0);
-  reg_inls = _mm256_set_epi32(in[11] >> 23 | in[12] << 9, in[10] >> 30 | in[11] << 2,
-                              in[10], in[9] >> 12 | in[10] << 20,
-                              in[8] >> 19 | in[9] << 13, in[7] >> 26 | in[8] << 6,
-                              in[7], in[6] >> 8 | in[7] << 24);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 6, 0, 0,
-                                0, 2, 0, 0);
-  reg_inls = _mm256_set_epi32(in[17] >> 31 | in[18] << 1, in[17],
-                              in[16] >> 13 | in[17] << 19, in[15] >> 20 | in[16] << 12,
-                              in[14] >> 27 | in[15] << 5, in[14],
-                              in[13] >> 9 | in[14] << 23, in[12] >> 16 | in[13] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(7, 0, 0, 0,
-                                3, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[24], in[23] >> 14 | in[24] << 18,
-                              in[22] >> 21 | in[23] << 11, in[21] >> 28 | in[22] << 4,
-                              in[21], in[20] >> 10 | in[21] << 22,
-                              in[19] >> 17 | in[20] << 15, in[18] >> 24 | in[19] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 25;
-
-  return in;
-}
-
-inline static const uint32_t* unpack26_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3ffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 2, 0,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[5] >> 22 | in[6] << 10, in[4] >> 28 | in[5] << 4,
-                             in[4], in[3] >> 8 | in[4] << 24,
-                             in[2] >> 14 | in[3] << 18, in[1] >> 20 | in[2] << 12,
-                             in[0] >> 26 | in[1] << 6, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(6, 0, 0, 0,
-                                0, 4, 0, 0);
-  reg_inls = _mm256_set_epi32(in[12], in[11] >> 12 | in[12] << 20,
-                              in[10] >> 18 | in[11] << 14, in[9] >> 24 | in[10] << 8,
-                              in[8] >> 30 | in[9] << 2, in[8],
-                              in[7] >> 10 | in[8] << 22, in[6] >> 16 | in[7] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 2, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[18] >> 22 | in[19] << 10, in[17] >> 28 | in[18] << 4,
-                              in[17], in[16] >> 8 | in[17] << 24,
-                              in[15] >> 14 | in[16] << 18, in[14] >> 20 | in[15] << 12,
-                              in[13] >> 26 | in[14] << 6, in[13]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(6, 0, 0, 0,
-                                0, 4, 0, 0);
-  reg_inls = _mm256_set_epi32(in[25], in[24] >> 12 | in[25] << 20,
-                              in[23] >> 18 | in[24] << 14, in[22] >> 24 | in[23] << 8,
-                              in[21] >> 30 | in[22] << 2, in[21],
-                              in[20] >> 10 | in[21] << 22, in[19] >> 16 | in[20] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 26;
-
-  return in;
-}
-
-inline static const uint32_t* unpack27_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7ffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 2, 0, 0,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[5] >> 29 | in[6] << 3, in[5],
-                             in[4] >> 7 | in[5] << 25, in[3] >> 12 | in[4] << 20,
-                             in[2] >> 17 | in[3] << 15, in[1] >> 22 | in[2] << 10,
-                             in[0] >> 27 | in[1] << 5, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 4,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[12] >> 21 | in[13] << 11, in[11] >> 26 | in[12] << 6,
-                              in[10] >> 31 | in[11] << 1, in[10],
-                              in[9] >> 9 | in[10] << 23, in[8] >> 14 | in[9] << 18,
-                              in[7] >> 19 | in[8] << 13, in[6] >> 24 | in[7] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                                1, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[19] >> 13 | in[20] << 19, in[18] >> 18 | in[19] << 14,
-                              in[17] >> 23 | in[18] << 9, in[16] >> 28 | in[17] << 4,
-                              in[16], in[15] >> 6 | in[16] << 26,
-                              in[14] >> 11 | in[15] << 21, in[13] >> 16 | in[14] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(5, 0, 0, 0,
-                                0, 0, 3, 0);
-  reg_inls = _mm256_set_epi32(in[26], in[25] >> 10 | in[26] << 22,
-                              in[24] >> 15 | in[25] << 17, in[23] >> 20 | in[24] << 12,
-                              in[22] >> 25 | in[23] << 7, in[21] >> 30 | in[22] << 2,
-                              in[21], in[20] >> 8 | in[21] << 24);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 27;
-
-  return in;
-}
-
-inline static const uint32_t* unpack28_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xfffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(4, 0, 0, 0,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[6], in[5] >> 8 | in[6] << 24,
-                             in[4] >> 12 | in[5] << 20, in[3] >> 16 | in[4] << 16,
-                             in[2] >> 20 | in[3] << 12, in[1] >> 24 | in[2] << 8,
-                             in[0] >> 28 | in[1] << 4, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(4, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[13], in[12] >> 8 | in[13] << 24,
-                              in[11] >> 12 | in[12] << 20, in[10] >> 16 | in[11] << 16,
-                              in[9] >> 20 | in[10] << 12, in[8] >> 24 | in[9] << 8,
-                              in[7] >> 28 | in[8] << 4, in[7]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(4, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[20], in[19] >> 8 | in[20] << 24,
-                              in[18] >> 12 | in[19] << 20, in[17] >> 16 | in[18] << 16,
-                              in[16] >> 20 | in[17] << 12, in[15] >> 24 | in[16] << 8,
-                              in[14] >> 28 | in[15] << 4, in[14]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(4, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[27], in[26] >> 8 | in[27] << 24,
-                              in[25] >> 12 | in[26] << 20, in[24] >> 16 | in[25] << 16,
-                              in[23] >> 20 | in[24] << 12, in[22] >> 24 | in[23] << 8,
-                              in[21] >> 28 | in[22] << 4, in[21]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 28;
-
-  return in;
-}
-
-inline static const uint32_t* unpack29_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1fffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[6] >> 11 | in[7] << 21, in[5] >> 14 | in[6] << 18,
-                             in[4] >> 17 | in[5] << 15, in[3] >> 20 | in[4] << 12,
-                             in[2] >> 23 | in[3] << 9, in[1] >> 26 | in[2] << 6,
-                             in[0] >> 29 | in[1] << 3, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                                0, 2, 0, 0);
-  reg_inls = _mm256_set_epi32(in[13] >> 19 | in[14] << 13, in[12] >> 22 | in[13] << 10,
-                              in[11] >> 25 | in[12] << 7, in[10] >> 28 | in[11] << 4,
-                              in[9] >> 31 | in[10] << 1, in[9],
-                              in[8] >> 5 | in[9] << 27, in[7] >> 8 | in[8] << 24);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 1, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[20] >> 27 | in[21] << 5, in[19] >> 30 | in[20] << 2,
-                              in[19], in[18] >> 4 | in[19] << 28,
-                              in[17] >> 7 | in[18] << 25, in[16] >> 10 | in[17] << 22,
-                              in[15] >> 13 | in[16] << 19, in[14] >> 16 | in[15] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(3, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[28], in[27] >> 6 | in[28] << 26,
-                              in[26] >> 9 | in[27] << 23, in[25] >> 12 | in[26] << 20,
-                              in[24] >> 15 | in[25] << 17, in[23] >> 18 | in[24] << 14,
-                              in[22] >> 21 | in[23] << 11, in[21] >> 24 | in[22] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 29;
-
-  return in;
-}
-
-inline static const uint32_t* unpack30_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3fffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[6] >> 18 | in[7] << 14, in[5] >> 20 | in[6] << 12,
-                             in[4] >> 22 | in[5] << 10, in[3] >> 24 | in[4] << 8,
-                             in[2] >> 26 | in[3] << 6, in[1] >> 28 | in[2] << 4,
-                             in[0] >> 30 | in[1] << 2, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(2, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[14], in[13] >> 4 | in[14] << 28,
-                              in[12] >> 6 | in[13] << 26, in[11] >> 8 | in[12] << 24,
-                              in[10] >> 10 | in[11] << 22, in[9] >> 12 | in[10] << 20,
-                              in[8] >> 14 | in[9] << 18, in[7] >> 16 | in[8] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[21] >> 18 | in[22] << 14, in[20] >> 20 | in[21] << 12,
-                              in[19] >> 22 | in[20] << 10, in[18] >> 24 | in[19] << 8,
-                              in[17] >> 26 | in[18] << 6, in[16] >> 28 | in[17] << 4,
-                              in[15] >> 30 | in[16] << 2, in[15]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(2, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[29], in[28] >> 4 | in[29] << 28,
-                              in[27] >> 6 | in[28] << 26, in[26] >> 8 | in[27] << 24,
-                              in[25] >> 10 | in[26] << 22, in[24] >> 12 | in[25] << 20,
-                              in[23] >> 14 | in[24] << 18, in[22] >> 16 | in[23] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 30;
-
-  return in;
-}
-
-inline static const uint32_t* unpack31_32_avx2(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7fffffff;
-  __m256i reg_shifts, reg_inls, reg_masks;
-  __m256i results;
-
-  reg_masks = _mm256_set1_epi32(mask);
-
-  // shift the first 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                               0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[6] >> 25 | in[7] << 7, in[5] >> 26 | in[6] << 6,
-                             in[4] >> 27 | in[5] << 5, in[3] >> 28 | in[4] << 4,
-                             in[2] >> 29 | in[3] << 3, in[1] >> 30 | in[2] << 2,
-                             in[0] >> 31 | in[1] << 1, in[0]);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the second 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[14] >> 17 | in[15] << 15, in[13] >> 18 | in[14] << 14,
-                              in[12] >> 19 | in[13] << 13, in[11] >> 20 | in[12] << 12,
-                              in[10] >> 21 | in[11] << 11, in[9] >> 22 | in[10] << 10,
-                              in[8] >> 23 | in[9] << 9, in[7] >> 24 | in[8] << 8);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the third 8 outs
-  reg_shifts = _mm256_set_epi32(0, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[22] >> 9 | in[23] << 23, in[21] >> 10 | in[22] << 22,
-                              in[20] >> 11 | in[21] << 21, in[19] >> 12 | in[20] << 20,
-                              in[18] >> 13 | in[19] << 19, in[17] >> 14 | in[18] << 18,
-                              in[16] >> 15 | in[17] << 17, in[15] >> 16 | in[16] << 16);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  // shift the last 8 outs
-  reg_shifts = _mm256_set_epi32(1, 0, 0, 0,
-                                0, 0, 0, 0);
-  reg_inls = _mm256_set_epi32(in[30], in[29] >> 2 | in[30] << 30,
-                              in[28] >> 3 | in[29] << 29, in[27] >> 4 | in[28] << 28,
-                              in[26] >> 5 | in[27] << 27, in[25] >> 6 | in[26] << 26,
-                              in[24] >> 7 | in[25] << 25, in[23] >> 8 | in[24] << 24);
-  results = _mm256_and_si256(_mm256_srlv_epi32(reg_inls, reg_shifts), reg_masks);
-  _mm256_storeu_si256((__m256i*)(out), results);
-  out += 8;
-
-  in += 31;
-
-  return in;
-}
-
-inline const uint32_t* unpack32_32_avx2(const uint32_t* in, uint32_t* out) {
-  memcpy(out, in, 32 * sizeof(*out));
-  in += 32;
-  out += 32;
-
-  return in;
-}
-
-int unpack32_avx2(const uint32_t* in, uint32_t* out, int batch_size, int num_bits) {
-  batch_size = batch_size / 32 * 32;
-  int num_loops = batch_size / 32;
-
-  switch (num_bits) {
-    case 0:
-      for (int i = 0; i < num_loops; ++i) in = unpack0_32_avx2(in, out + i * 32);
-      break;
-    case 1:
-      for (int i = 0; i < num_loops; ++i) in = unpack1_32_avx2(in, out + i * 32);
-      break;
-    case 2:
-      for (int i = 0; i < num_loops; ++i) in = unpack2_32_avx2(in, out + i * 32);
-      break;
-    case 3:
-      for (int i = 0; i < num_loops; ++i) in = unpack3_32_avx2(in, out + i * 32);
-      break;
-    case 4:
-      for (int i = 0; i < num_loops; ++i) in = unpack4_32_avx2(in, out + i * 32);
-      break;
-    case 5:
-      for (int i = 0; i < num_loops; ++i) in = unpack5_32_avx2(in, out + i * 32);
-      break;
-    case 6:
-      for (int i = 0; i < num_loops; ++i) in = unpack6_32_avx2(in, out + i * 32);
-      break;
-    case 7:
-      for (int i = 0; i < num_loops; ++i) in = unpack7_32_avx2(in, out + i * 32);
-      break;
-    case 8:
-      for (int i = 0; i < num_loops; ++i) in = unpack8_32_avx2(in, out + i * 32);
-      break;
-    case 9:
-      for (int i = 0; i < num_loops; ++i) in = unpack9_32_avx2(in, out + i * 32);
-      break;
-    case 10:
-      for (int i = 0; i < num_loops; ++i) in = unpack10_32_avx2(in, out + i * 32);
-      break;
-    case 11:
-      for (int i = 0; i < num_loops; ++i) in = unpack11_32_avx2(in, out + i * 32);
-      break;
-    case 12:
-      for (int i = 0; i < num_loops; ++i) in = unpack12_32_avx2(in, out + i * 32);
-      break;
-    case 13:
-      for (int i = 0; i < num_loops; ++i) in = unpack13_32_avx2(in, out + i * 32);
-      break;
-    case 14:
-      for (int i = 0; i < num_loops; ++i) in = unpack14_32_avx2(in, out + i * 32);
-      break;
-    case 15:
-      for (int i = 0; i < num_loops; ++i) in = unpack15_32_avx2(in, out + i * 32);
-      break;
-    case 16:
-      for (int i = 0; i < num_loops; ++i) in = unpack16_32_avx2(in, out + i * 32);
-      break;
-    case 17:
-      for (int i = 0; i < num_loops; ++i) in = unpack17_32_avx2(in, out + i * 32);
-      break;
-    case 18:
-      for (int i = 0; i < num_loops; ++i) in = unpack18_32_avx2(in, out + i * 32);
-      break;
-    case 19:
-      for (int i = 0; i < num_loops; ++i) in = unpack19_32_avx2(in, out + i * 32);
-      break;
-    case 20:
-      for (int i = 0; i < num_loops; ++i) in = unpack20_32_avx2(in, out + i * 32);
-      break;
-    case 21:
-      for (int i = 0; i < num_loops; ++i) in = unpack21_32_avx2(in, out + i * 32);
-      break;
-    case 22:
-      for (int i = 0; i < num_loops; ++i) in = unpack22_32_avx2(in, out + i * 32);
-      break;
-    case 23:
-      for (int i = 0; i < num_loops; ++i) in = unpack23_32_avx2(in, out + i * 32);
-      break;
-    case 24:
-      for (int i = 0; i < num_loops; ++i) in = unpack24_32_avx2(in, out + i * 32);
-      break;
-    case 25:
-      for (int i = 0; i < num_loops; ++i) in = unpack25_32_avx2(in, out + i * 32);
-      break;
-    case 26:
-      for (int i = 0; i < num_loops; ++i) in = unpack26_32_avx2(in, out + i * 32);
-      break;
-    case 27:
-      for (int i = 0; i < num_loops; ++i) in = unpack27_32_avx2(in, out + i * 32);
-      break;
-    case 28:
-      for (int i = 0; i < num_loops; ++i) in = unpack28_32_avx2(in, out + i * 32);
-      break;
-    case 29:
-      for (int i = 0; i < num_loops; ++i) in = unpack29_32_avx2(in, out + i * 32);
-      break;
-    case 30:
-      for (int i = 0; i < num_loops; ++i) in = unpack30_32_avx2(in, out + i * 32);
-      break;
-    case 31:
-      for (int i = 0; i < num_loops; ++i) in = unpack31_32_avx2(in, out + i * 32);
-      break;
-    case 32:
-      for (int i = 0; i < num_loops; ++i) in = unpack32_32_avx2(in, out + i * 32);
-      break;
-  }
-
-  return batch_size;
-}
diff --git a/go/parquet/internal/utils/_lib/bit_packing_avx2.s b/go/parquet/internal/utils/_lib/bit_packing_avx2.s
deleted file mode 100644
index 84a5cca2ea30a..0000000000000
--- a/go/parquet/internal/utils/_lib/bit_packing_avx2.s
+++ /dev/null
@@ -1,4012 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"bit_packing_avx2.c"
-	.section	.rodata.cst8,"aM",@progbits,8
-	.p2align	3                               # -- Begin function unpack32_avx2
-.LCPI0_0:
-	.quad	9223372034707292159             # 0x7fffffff7fffffff
-.LCPI0_8:
-	.quad	4611686015206162431             # 0x3fffffff3fffffff
-.LCPI0_12:
-	.quad	2305843005455597567             # 0x1fffffff1fffffff
-.LCPI0_23:
-	.quad	1152921500580315135             # 0xfffffff0fffffff
-.LCPI0_25:
-	.quad	576460748142673919              # 0x7ffffff07ffffff
-.LCPI0_34:
-	.quad	288230371923853311              # 0x3ffffff03ffffff
-.LCPI0_35:
-	.quad	42949672976                     # 0xa00000010
-.LCPI0_36:
-	.quad	94489280528                     # 0x1600000010
-.LCPI0_38:
-	.quad	144115183814443007              # 0x1ffffff01ffffff
-.LCPI0_49:
-	.quad	36028792732385279               # 0x7fffff007fffff
-.LCPI0_56:
-	.quad	18014394218708991               # 0x3fffff003fffff
-.LCPI0_59:
-	.quad	9007194961870847                # 0x1fffff001fffff
-.LCPI0_66:
-	.quad	4503595333451775                # 0xfffff000fffff
-.LCPI0_68:
-	.quad	2251795519242239                # 0x7ffff0007ffff
-.LCPI0_73:
-	.quad	1125895612137471                # 0x3ffff0003ffff
-.LCPI0_76:
-	.quad	562945658585087                 # 0x1ffff0001ffff
-.LCPI0_80:
-	.quad	68719476736                     # 0x1000000000
-.LCPI0_82:
-	.quad	140733193420799                 # 0x7fff00007fff
-.LCPI0_87:
-	.quad	70364449226751                  # 0x3fff00003fff
-.LCPI0_90:
-	.quad	35180077129727                  # 0x1fff00001fff
-.LCPI0_95:
-	.quad	17587891081215                  # 0xfff00000fff
-.LCPI0_97:
-	.quad	8791798056959                   # 0x7ff000007ff
-.LCPI0_102:
-	.quad	4393751544831                   # 0x3ff000003ff
-.LCPI0_105:
-	.quad	2194728288767                   # 0x1ff000001ff
-.LCPI0_112:
-	.quad	545460846719                    # 0x7f0000007f
-.LCPI0_117:
-	.quad	270582939711                    # 0x3f0000003f
-.LCPI0_120:
-	.quad	133143986207                    # 0x1f0000001f
-.LCPI0_125:
-	.quad	64424509455                     # 0xf0000000f
-.LCPI0_127:
-	.quad	30064771079                     # 0x700000007
-.LCPI0_132:
-	.quad	12884901891                     # 0x300000003
-.LCPI0_135:
-	.quad	4294967297                      # 0x100000001
-	.section	.rodata.cst32,"aM",@progbits,32
-	.p2align	5
-.LCPI0_1:
-	.long	24                              # 0x18
-	.long	23                              # 0x17
-	.long	22                              # 0x16
-	.long	21                              # 0x15
-	.long	20                              # 0x14
-	.long	19                              # 0x13
-	.long	18                              # 0x12
-	.long	17                              # 0x11
-.LCPI0_2:
-	.long	8                               # 0x8
-	.long	9                               # 0x9
-	.long	10                              # 0xa
-	.long	11                              # 0xb
-	.long	12                              # 0xc
-	.long	13                              # 0xd
-	.long	14                              # 0xe
-	.long	15                              # 0xf
-.LCPI0_3:
-	.long	16                              # 0x10
-	.long	15                              # 0xf
-	.long	14                              # 0xe
-	.long	13                              # 0xd
-	.long	12                              # 0xc
-	.long	11                              # 0xb
-	.long	10                              # 0xa
-	.long	9                               # 0x9
-.LCPI0_4:
-	.long	16                              # 0x10
-	.long	17                              # 0x11
-	.long	18                              # 0x12
-	.long	19                              # 0x13
-	.long	20                              # 0x14
-	.long	21                              # 0x15
-	.long	22                              # 0x16
-	.long	23                              # 0x17
-.LCPI0_7:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-.LCPI0_11:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-.LCPI0_15:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_18:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_21:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-.LCPI0_22:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-.LCPI0_24:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-.LCPI0_28:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_31:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_32:
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-.LCPI0_33:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_37:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-.LCPI0_39:
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_42:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-.LCPI0_45:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-.LCPI0_48:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-.LCPI0_52:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-.LCPI0_53:
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_54:
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-.LCPI0_55:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-.LCPI0_57:
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-.LCPI0_58:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-.LCPI0_60:
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-.LCPI0_61:
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-.LCPI0_64:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	0                               # 0x0
-	.long	11                              # 0xb
-.LCPI0_65:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-.LCPI0_67:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-.LCPI0_69:
-	.long	0                               # 0x0
-	.long	11                              # 0xb
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-.LCPI0_70:
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-.LCPI0_71:
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	0                               # 0x0
-	.long	13                              # 0xd
-.LCPI0_72:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-.LCPI0_74:
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-	.long	14                              # 0xe
-.LCPI0_75:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-.LCPI0_77:
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	14                              # 0xe
-	.long	0                               # 0x0
-.LCPI0_78:
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-.LCPI0_79:
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-	.long	0                               # 0x0
-	.long	11                              # 0xb
-	.long	0                               # 0x0
-	.long	13                              # 0xd
-	.long	0                               # 0x0
-	.long	15                              # 0xf
-.LCPI0_81:
-	.long	0                               # 0x0
-	.long	15                              # 0xf
-	.long	0                               # 0x0
-	.long	13                              # 0xd
-	.long	0                               # 0x0
-	.long	11                              # 0xb
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-.LCPI0_83:
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-.LCPI0_84:
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	14                              # 0xe
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-.LCPI0_85:
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	17                              # 0x11
-.LCPI0_86:
-	.long	0                               # 0x0
-	.long	14                              # 0xe
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-.LCPI0_88:
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	18                              # 0x12
-.LCPI0_89:
-	.long	0                               # 0x0
-	.long	13                              # 0xd
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	14                              # 0xe
-	.long	0                               # 0x0
-.LCPI0_91:
-	.long	8                               # 0x8
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	15                              # 0xf
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-.LCPI0_92:
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	17                              # 0x11
-	.long	0                               # 0x0
-	.long	11                              # 0xb
-.LCPI0_93:
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	18                              # 0x12
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	19                              # 0x13
-.LCPI0_94:
-	.long	0                               # 0x0
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	20                              # 0x14
-.LCPI0_96:
-	.long	0                               # 0x0
-	.long	11                              # 0xb
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	12                              # 0xc
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	13                              # 0xd
-.LCPI0_98:
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	14                              # 0xe
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	15                              # 0xf
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-.LCPI0_99:
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	17                              # 0x11
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	18                              # 0x12
-	.long	0                               # 0x0
-.LCPI0_100:
-	.long	8                               # 0x8
-	.long	19                              # 0x13
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-	.long	20                              # 0x14
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	21                              # 0x15
-.LCPI0_101:
-	.long	0                               # 0x0
-	.long	10                              # 0xa
-	.long	20                              # 0x14
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	18                              # 0x12
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-.LCPI0_103:
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	14                              # 0xe
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	12                              # 0xc
-	.long	22                              # 0x16
-.LCPI0_104:
-	.long	0                               # 0x0
-	.long	9                               # 0x9
-	.long	18                              # 0x12
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	13                              # 0xd
-	.long	22                              # 0x16
-	.long	0                               # 0x0
-.LCPI0_106:
-	.long	8                               # 0x8
-	.long	17                              # 0x11
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	12                              # 0xc
-	.long	21                              # 0x15
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-.LCPI0_107:
-	.long	16                              # 0x10
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	11                              # 0xb
-	.long	20                              # 0x14
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	15                              # 0xf
-.LCPI0_108:
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	10                              # 0xa
-	.long	19                              # 0x13
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	14                              # 0xe
-	.long	23                              # 0x17
-.LCPI0_111:
-	.long	0                               # 0x0
-	.long	7                               # 0x7
-	.long	14                              # 0xe
-	.long	21                              # 0x15
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	10                              # 0xa
-	.long	17                              # 0x11
-.LCPI0_113:
-	.long	24                              # 0x18
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	13                              # 0xd
-	.long	20                              # 0x14
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	9                               # 0x9
-.LCPI0_114:
-	.long	16                              # 0x10
-	.long	23                              # 0x17
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	12                              # 0xc
-	.long	19                              # 0x13
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-.LCPI0_115:
-	.long	8                               # 0x8
-	.long	15                              # 0xf
-	.long	22                              # 0x16
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	11                              # 0xb
-	.long	18                              # 0x12
-	.long	25                              # 0x19
-.LCPI0_116:
-	.long	0                               # 0x0
-	.long	6                               # 0x6
-	.long	12                              # 0xc
-	.long	18                              # 0x12
-	.long	24                              # 0x18
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	10                              # 0xa
-.LCPI0_118:
-	.long	16                              # 0x10
-	.long	22                              # 0x16
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	8                               # 0x8
-	.long	14                              # 0xe
-	.long	20                              # 0x14
-	.long	26                              # 0x1a
-.LCPI0_119:
-	.long	0                               # 0x0
-	.long	5                               # 0x5
-	.long	10                              # 0xa
-	.long	15                              # 0xf
-	.long	20                              # 0x14
-	.long	25                              # 0x19
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-.LCPI0_121:
-	.long	8                               # 0x8
-	.long	13                              # 0xd
-	.long	18                              # 0x12
-	.long	23                              # 0x17
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	6                               # 0x6
-	.long	11                              # 0xb
-.LCPI0_122:
-	.long	16                              # 0x10
-	.long	21                              # 0x15
-	.long	26                              # 0x1a
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	9                               # 0x9
-	.long	14                              # 0xe
-	.long	19                              # 0x13
-.LCPI0_123:
-	.long	24                              # 0x18
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	7                               # 0x7
-	.long	12                              # 0xc
-	.long	17                              # 0x11
-	.long	22                              # 0x16
-	.long	27                              # 0x1b
-.LCPI0_124:
-	.long	0                               # 0x0
-	.long	4                               # 0x4
-	.long	8                               # 0x8
-	.long	12                              # 0xc
-	.long	16                              # 0x10
-	.long	20                              # 0x14
-	.long	24                              # 0x18
-	.long	28                              # 0x1c
-.LCPI0_126:
-	.long	0                               # 0x0
-	.long	3                               # 0x3
-	.long	6                               # 0x6
-	.long	9                               # 0x9
-	.long	12                              # 0xc
-	.long	15                              # 0xf
-	.long	18                              # 0x12
-	.long	21                              # 0x15
-.LCPI0_128:
-	.long	24                              # 0x18
-	.long	27                              # 0x1b
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	4                               # 0x4
-	.long	7                               # 0x7
-	.long	10                              # 0xa
-	.long	13                              # 0xd
-.LCPI0_129:
-	.long	16                              # 0x10
-	.long	19                              # 0x13
-	.long	22                              # 0x16
-	.long	25                              # 0x19
-	.long	28                              # 0x1c
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	5                               # 0x5
-.LCPI0_130:
-	.long	8                               # 0x8
-	.long	11                              # 0xb
-	.long	14                              # 0xe
-	.long	17                              # 0x11
-	.long	20                              # 0x14
-	.long	23                              # 0x17
-	.long	26                              # 0x1a
-	.long	29                              # 0x1d
-.LCPI0_131:
-	.long	0                               # 0x0
-	.long	2                               # 0x2
-	.long	4                               # 0x4
-	.long	6                               # 0x6
-	.long	8                               # 0x8
-	.long	10                              # 0xa
-	.long	12                              # 0xc
-	.long	14                              # 0xe
-.LCPI0_133:
-	.long	16                              # 0x10
-	.long	18                              # 0x12
-	.long	20                              # 0x14
-	.long	22                              # 0x16
-	.long	24                              # 0x18
-	.long	26                              # 0x1a
-	.long	28                              # 0x1c
-	.long	30                              # 0x1e
-.LCPI0_134:
-	.long	0                               # 0x0
-	.long	1                               # 0x1
-	.long	2                               # 0x2
-	.long	3                               # 0x3
-	.long	4                               # 0x4
-	.long	5                               # 0x5
-	.long	6                               # 0x6
-	.long	7                               # 0x7
-.LCPI0_136:
-	.long	24                              # 0x18
-	.long	25                              # 0x19
-	.long	26                              # 0x1a
-	.long	27                              # 0x1b
-	.long	28                              # 0x1c
-	.long	29                              # 0x1d
-	.long	30                              # 0x1e
-	.long	31                              # 0x1f
-	.section	.rodata.cst16,"aM",@progbits,16
-	.p2align	4
-.LCPI0_5:
-	.long	8                               # 0x8
-	.long	7                               # 0x7
-	.long	6                               # 0x6
-	.long	5                               # 0x5
-.LCPI0_6:
-	.long	24                              # 0x18
-	.long	25                              # 0x19
-	.long	26                              # 0x1a
-	.long	27                              # 0x1b
-.LCPI0_9:
-	.long	16                              # 0x10
-	.long	14                              # 0xe
-	.long	12                              # 0xc
-	.long	10                              # 0xa
-.LCPI0_10:
-	.long	16                              # 0x10
-	.long	18                              # 0x12
-	.long	20                              # 0x14
-	.long	22                              # 0x16
-.LCPI0_13:
-	.long	8                               # 0x8
-	.long	5                               # 0x5
-	.zero	4
-	.zero	4
-.LCPI0_14:
-	.long	24                              # 0x18
-	.long	27                              # 0x1b
-	.zero	4
-	.zero	4
-.LCPI0_16:
-	.long	16                              # 0x10
-	.long	13                              # 0xd
-	.long	10                              # 0xa
-	.long	7                               # 0x7
-.LCPI0_17:
-	.long	16                              # 0x10
-	.long	19                              # 0x13
-	.long	22                              # 0x16
-	.long	25                              # 0x19
-.LCPI0_19:
-	.long	24                              # 0x18
-	.long	21                              # 0x15
-	.long	18                              # 0x12
-	.long	15                              # 0xf
-.LCPI0_20:
-	.long	8                               # 0x8
-	.long	11                              # 0xb
-	.long	14                              # 0xe
-	.long	17                              # 0x11
-.LCPI0_26:
-	.long	24                              # 0x18
-	.long	19                              # 0x13
-	.long	14                              # 0xe
-	.long	9                               # 0x9
-.LCPI0_27:
-	.long	8                               # 0x8
-	.long	13                              # 0xd
-	.long	18                              # 0x12
-	.long	23                              # 0x17
-.LCPI0_29:
-	.long	16                              # 0x10
-	.long	11                              # 0xb
-	.zero	4
-	.zero	4
-.LCPI0_30:
-	.long	16                              # 0x10
-	.long	21                              # 0x15
-	.zero	4
-	.zero	4
-.LCPI0_40:
-	.long	16                              # 0x10
-	.long	9                               # 0x9
-	.zero	4
-	.zero	4
-.LCPI0_41:
-	.long	16                              # 0x10
-	.long	23                              # 0x17
-	.zero	4
-	.zero	4
-.LCPI0_43:
-	.long	24                              # 0x18
-	.long	17                              # 0x11
-	.zero	4
-	.zero	4
-.LCPI0_44:
-	.long	8                               # 0x8
-	.long	15                              # 0xf
-	.zero	4
-	.zero	4
-.LCPI0_46:
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-.LCPI0_50:
-	.long	24                              # 0x18
-	.long	15                              # 0xf
-	.zero	4
-	.zero	4
-.LCPI0_51:
-	.long	8                               # 0x8
-	.long	17                              # 0x11
-	.zero	4
-	.zero	4
-.LCPI0_62:
-	.long	24                              # 0x18
-	.long	13                              # 0xd
-	.zero	4
-	.zero	4
-.LCPI0_63:
-	.long	8                               # 0x8
-	.long	19                              # 0x13
-	.zero	4
-	.zero	4
-.LCPI0_109:
-	.long	0                               # 0x0
-	.long	8                               # 0x8
-	.long	16                              # 0x10
-	.long	24                              # 0x18
-	.section	.rodata.cst4,"aM",@progbits,4
-	.p2align	2
-.LCPI0_47:
-	.long	16777215                        # 0xffffff
-.LCPI0_110:
-	.long	255                             # 0xff
-	.text
-	.globl	unpack32_avx2
-	.p2align	4, 0x90
-	.type	unpack32_avx2,@function
-unpack32_avx2:                          # @unpack32_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r15
-	push	r14
-	push	r12
-	push	rbx
-	and	rsp, -16
-                                        # kill: def $edx killed $edx def $rdx
-	mov	r15, rsi
-	mov	rbx, rdi
-	lea	r14d, [rdx + 31]
-	test	edx, edx
-	cmovns	r14d, edx
-	sar	r14d, 5
-	cmp	ecx, 15
-	jle	.LBB0_1
-# %bb.48:
-	cmp	ecx, 23
-	jle	.LBB0_49
-# %bb.72:
-	cmp	ecx, 27
-	jle	.LBB0_73
-# %bb.84:
-	cmp	ecx, 29
-	jle	.LBB0_85
-# %bb.90:
-	cmp	ecx, 30
-	je	.LBB0_99
-# %bb.91:
-	cmp	ecx, 31
-	je	.LBB0_96
-# %bb.92:
-	cmp	ecx, 32
-	jne	.LBB0_147
-# %bb.93:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.94:
-	mov	r12d, r14d
-	.p2align	4, 0x90
-.LBB0_95:                               # =>This Inner Loop Header: Depth=1
-	mov	edx, 128
-	mov	rdi, r15
-	mov	rsi, rbx
-	call	clib·_memcpy(SB)
-	sub	rbx, -128
-	sub	r15, -128
-	add	r12, -1
-	jne	.LBB0_95
-	jmp	.LBB0_147
-.LBB0_1:
-	cmp	ecx, 7
-	jg	.LBB0_25
-# %bb.2:
-	cmp	ecx, 3
-	jg	.LBB0_14
-# %bb.3:
-	cmp	ecx, 1
-	jg	.LBB0_9
-# %bb.4:
-	test	ecx, ecx
-	je	.LBB0_144
-# %bb.5:
-	cmp	ecx, 1
-	jne	.LBB0_147
-# %bb.6:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.7:
-	mov	eax, r14d
-	add	r15, 96
-	xor	ecx, ecx
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_135] # ymm0 = [4294967297,4294967297,4294967297,4294967297]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_134] # ymm1 = [0,1,2,3,4,5,6,7]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_2] # ymm2 = [8,9,10,11,12,13,14,15]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_4] # ymm3 = [16,17,18,19,20,21,22,23]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_136] # ymm4 = [24,25,26,27,28,29,30,31]
-	.p2align	4, 0x90
-.LBB0_8:                                # =>This Inner Loop Header: Depth=1
-	vpbroadcastd	ymm5, dword ptr [rbx + 4*rcx]
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	vpbroadcastd	ymm5, dword ptr [rbx + 4*rcx]
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	vpbroadcastd	ymm5, dword ptr [rbx + 4*rcx]
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	vpbroadcastd	ymm5, dword ptr [rbx + 4*rcx]
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	add	rcx, 1
-	sub	r15, -128
-	cmp	rax, rcx
-	jne	.LBB0_8
-	jmp	.LBB0_147
-.LBB0_49:
-	cmp	ecx, 19
-	jg	.LBB0_61
-# %bb.50:
-	cmp	ecx, 17
-	jg	.LBB0_56
-# %bb.51:
-	cmp	ecx, 16
-	je	.LBB0_120
-# %bb.52:
-	cmp	ecx, 17
-	jne	.LBB0_147
-# %bb.53:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.54:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 64
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_76] # ymm0 = [562945658585087,562945658585087,562945658585087,562945658585087]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_75] # ymm1 = [0,0,2,0,4,0,6,0]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_77] # ymm2 = [8,0,10,0,12,0,14,0]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_78] # ymm3 = [0,1,0,3,0,5,0,7]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_79] # ymm4 = [0,9,0,11,0,13,0,15]
-	.p2align	4, 0x90
-.LBB0_55:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 52]
-	mov	r10d, dword ptr [rbx - 48]
-	shld	r10d, ecx, 9
-	mov	esi, dword ptr [rbx - 56]
-	mov	edi, ecx
-	shld	edi, esi, 11
-	mov	r9d, dword ptr [rbx - 64]
-	mov	edx, dword ptr [rbx - 60]
-	mov	eax, edx
-	shld	eax, r9d, 15
-	vmovd	xmm5, esi
-	shld	esi, edx, 13
-	vpinsrd	xmm5, xmm5, edi, 1
-	vpinsrd	xmm5, xmm5, ecx, 2
-	vpinsrd	xmm5, xmm5, r10d, 3
-	vmovd	xmm6, r9d
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, esi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	eax, dword ptr [rbx - 36]
-	mov	r10d, dword ptr [rbx - 32]
-	shld	r10d, eax, 1
-	mov	edx, dword ptr [rbx - 40]
-	mov	esi, eax
-	shld	esi, edx, 3
-	mov	r9d, dword ptr [rbx - 48]
-	mov	ecx, dword ptr [rbx - 44]
-	mov	edi, ecx
-	shld	edi, r9d, 7
-	vmovd	xmm5, edx
-	shld	edx, ecx, 5
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, r10d, 3
-	vmovd	xmm6, r9d
-	vpinsrd	xmm6, xmm6, edi, 1
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	r9d, dword ptr [rbx - 16]
-	mov	r11d, dword ptr [rbx - 20]
-	mov	edx, r9d
-	shld	edx, r11d, 10
-	mov	r10d, dword ptr [rbx - 24]
-	mov	edi, r11d
-	shld	edi, r10d, 12
-	mov	eax, dword ptr [rbx - 28]
-	mov	esi, r10d
-	shld	esi, eax, 14
-	mov	ecx, dword ptr [rbx - 32]
-	shrd	ecx, eax, 16
-	vmovd	xmm5, edi
-	vpinsrd	xmm5, xmm5, r11d, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm6, xmm6, esi, 2
-	vpinsrd	xmm6, xmm6, r10d, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	r9d, dword ptr [rbx]
-	mov	r11d, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, r11d, 2
-	mov	r10d, dword ptr [rbx - 8]
-	mov	edi, r11d
-	shld	edi, r10d, 4
-	mov	eax, dword ptr [rbx - 16]
-	mov	esi, dword ptr [rbx - 12]
-	mov	ecx, r10d
-	shld	ecx, esi, 6
-	shrd	eax, esi, 24
-	vmovd	xmm5, edi
-	vpinsrd	xmm5, xmm5, r11d, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, eax
-	vpinsrd	xmm6, xmm6, esi, 1
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm6, xmm6, r10d, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 68
-	add	r8, -1
-	jne	.LBB0_55
-	jmp	.LBB0_147
-.LBB0_25:
-	cmp	ecx, 11
-	jg	.LBB0_37
-# %bb.26:
-	cmp	ecx, 9
-	jg	.LBB0_32
-# %bb.27:
-	cmp	ecx, 8
-	je	.LBB0_132
-# %bb.28:
-	cmp	ecx, 9
-	jne	.LBB0_147
-# %bb.29:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.30:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 32
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_105] # ymm0 = [2194728288767,2194728288767,2194728288767,2194728288767]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_104] # ymm1 = [0,9,18,0,4,13,22,0]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_106] # ymm2 = [8,17,0,3,12,21,0,7]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_107] # ymm3 = [16,0,2,11,20,0,6,15]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_108] # ymm4 = [0,1,10,19,0,5,14,23]
-	.p2align	4, 0x90
-.LBB0_31:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 32]
-	mov	edx, dword ptr [rbx - 28]
-	mov	esi, dword ptr [rbx - 24]
-	shld	esi, edx, 1
-	vmovd	xmm5, edx
-	vpinsrd	xmm5, xmm5, edx, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	shld	edx, ecx, 5
-	vpinsrd	xmm5, xmm5, esi, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	ecx, dword ptr [rbx - 16]
-	mov	edx, dword ptr [rbx - 24]
-	mov	esi, dword ptr [rbx - 20]
-	mov	edi, ecx
-	shld	edi, esi, 2
-	mov	eax, esi
-	shld	eax, edx, 6
-	vmovd	xmm5, esi
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, edi, 2
-	vpinsrd	xmm5, xmm5, ecx, 3
-	vmovd	xmm6, edx
-	vpinsrd	xmm6, xmm6, edx, 1
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm6, xmm6, esi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	eax, dword ptr [rbx - 8]
-	mov	ecx, dword ptr [rbx - 16]
-	mov	edx, dword ptr [rbx - 12]
-	mov	esi, eax
-	shld	esi, edx, 3
-	mov	edi, edx
-	shld	edi, ecx, 7
-	vmovd	xmm5, edx
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, edi, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	eax, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edx, dword ptr [rbx - 4]
-	mov	esi, eax
-	shld	esi, edx, 4
-	shrd	ecx, edx, 24
-	vmovd	xmm5, esi
-	vpinsrd	xmm5, xmm5, eax, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, edx, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 36
-	add	r8, -1
-	jne	.LBB0_31
-	jmp	.LBB0_147
-.LBB0_73:
-	cmp	ecx, 25
-	jg	.LBB0_79
-# %bb.74:
-	cmp	ecx, 24
-	je	.LBB0_108
-# %bb.75:
-	cmp	ecx, 25
-	jne	.LBB0_147
-# %bb.76:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.77:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 96
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_38] # ymm0 = [144115183814443007,144115183814443007,144115183814443007,144115183814443007]
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI0_28] # ymm9 = [0,0,0,0,4,0,0,0]
-	vmovdqa	ymm10, ymmword ptr [rip + .LCPI0_39] # ymm10 = [0,1,0,0,0,5,0,0]
-	vmovdqa	xmm11, xmmword ptr [rip + .LCPI0_40] # xmm11 = <16,9,u,u>
-	vmovdqa	xmm4, xmmword ptr [rip + .LCPI0_41] # xmm4 = <16,23,u,u>
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI0_42] # ymm5 = [0,0,2,0,0,0,6,0]
-	vmovdqa	xmm6, xmmword ptr [rip + .LCPI0_43] # xmm6 = <24,17,u,u>
-	vmovdqa	xmm7, xmmword ptr [rip + .LCPI0_44] # xmm7 = <8,15,u,u>
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI0_45] # ymm8 = [0,0,0,3,0,0,0,7]
-	.p2align	4, 0x90
-.LBB0_78:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 76]
-	mov	r9d, dword ptr [rbx - 72]
-	shld	r9d, ecx, 17
-	mov	esi, dword ptr [rbx - 80]
-	shld	ecx, esi, 10
-	mov	edi, dword ptr [rbx - 84]
-	shld	esi, edi, 3
-	mov	eax, dword ptr [rbx - 88]
-	vmovd	xmm1, edi
-	shld	edi, eax, 21
-	mov	r10d, dword ptr [rbx - 96]
-	mov	edx, dword ptr [rbx - 92]
-	shld	eax, edx, 14
-	shld	edx, r10d, 7
-	vpinsrd	xmm1, xmm1, esi, 1
-	vmovd	xmm2, r10d
-	vpinsrd	xmm1, xmm1, ecx, 2
-	vpinsrd	xmm2, xmm2, edx, 1
-	vpinsrd	xmm1, xmm1, r9d, 3
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm2, xmm2, edi, 3
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vpsrlvd	ymm1, ymm1, ymm9
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm1
-	mov	r11d, dword ptr [rbx - 52]
-	mov	r9d, dword ptr [rbx - 48]
-	shld	r9d, r11d, 9
-	mov	r10d, dword ptr [rbx - 56]
-	shld	r11d, r10d, 2
-	mov	esi, dword ptr [rbx - 60]
-	mov	edi, r10d
-	mov	ecx, dword ptr [rbx - 64]
-	shld	edi, esi, 20
-	mov	edx, dword ptr [rbx - 72]
-	mov	eax, dword ptr [rbx - 68]
-	shld	esi, ecx, 13
-	shrd	edx, eax, 8
-	shld	ecx, eax, 6
-	vmovd	xmm1, edi
-	vpinsrd	xmm1, xmm1, r10d, 1
-	vmovd	xmm2, edx
-	vpinsrd	xmm1, xmm1, r11d, 2
-	vpinsrd	xmm2, xmm2, eax, 1
-	vpinsrd	xmm1, xmm1, r9d, 3
-	vpinsrd	xmm2, xmm2, ecx, 2
-	vpinsrd	xmm2, xmm2, esi, 3
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vpsrlvd	ymm1, ymm1, ymm10
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm1
-	mov	eax, dword ptr [rbx - 28]
-	mov	r9d, dword ptr [rbx - 24]
-	shld	r9d, eax, 1
-	mov	edx, dword ptr [rbx - 32]
-	mov	esi, eax
-	shld	esi, edx, 19
-	mov	edi, dword ptr [rbx - 40]
-	mov	ecx, dword ptr [rbx - 36]
-	shld	edx, ecx, 12
-	shld	ecx, edi, 5
-	vmovq	xmm1, qword ptr [rbx - 48]      # xmm1 = mem[0],zero
-	vpsrlvd	xmm2, xmm1, xmm11
-	vpshufd	xmm1, xmm1, 229                 # xmm1 = xmm1[1,1,2,3]
-	vpinsrd	xmm1, xmm1, edi, 1
-	vpsllvd	xmm1, xmm1, xmm4
-	vpor	xmm1, xmm2, xmm1
-	vmovd	xmm2, edx
-	vpinsrd	xmm2, xmm2, esi, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm1, xmm1, edi, 2
-	vpinsrd	xmm1, xmm1, ecx, 3
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpsrlvd	ymm1, ymm1, ymm5
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm1
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, ecx, 18
-	mov	esi, dword ptr [rbx - 8]
-	shld	ecx, esi, 11
-	mov	r10d, dword ptr [rbx - 16]
-	mov	edi, dword ptr [rbx - 12]
-	shld	esi, edi, 4
-	mov	eax, edi
-	shld	eax, r10d, 22
-	vmovq	xmm1, qword ptr [rbx - 24]      # xmm1 = mem[0],zero
-	vpsrlvd	xmm2, xmm1, xmm6
-	vpshufd	xmm1, xmm1, 229                 # xmm1 = xmm1[1,1,2,3]
-	vpinsrd	xmm1, xmm1, r10d, 1
-	vpsllvd	xmm1, xmm1, xmm7
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpor	xmm1, xmm2, xmm1
-	vpinsrd	xmm2, xmm3, edx, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm1, xmm1, eax, 2
-	vpinsrd	xmm1, xmm1, edi, 3
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpsrlvd	ymm1, ymm1, ymm8
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15], ymm1
-	sub	r15, -128
-	add	rbx, 100
-	add	r8, -1
-	jne	.LBB0_78
-	jmp	.LBB0_147
-.LBB0_14:
-	cmp	ecx, 5
-	jg	.LBB0_20
-# %bb.15:
-	cmp	ecx, 4
-	je	.LBB0_138
-# %bb.16:
-	cmp	ecx, 5
-	jne	.LBB0_147
-# %bb.17:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.18:
-	mov	eax, r14d
-	add	r15, 96
-	add	rbx, 16
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_120] # ymm0 = [133143986207,133143986207,133143986207,133143986207]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_119] # ymm1 = [0,5,10,15,20,25,0,3]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_121] # ymm2 = [8,13,18,23,0,1,6,11]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_122] # ymm3 = [16,21,26,0,4,9,14,19]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_123] # ymm4 = [24,0,2,7,12,17,22,27]
-	.p2align	4, 0x90
-.LBB0_19:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 16]
-	mov	edx, dword ptr [rbx - 12]
-	mov	esi, edx
-	shld	esi, ecx, 2
-	vmovd	xmm5, ecx
-	vpbroadcastd	xmm6, xmm5
-	vpinsrd	xmm5, xmm5, ecx, 1
-	vpinsrd	xmm5, xmm5, esi, 2
-	vpinsrd	xmm5, xmm5, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	ecx, dword ptr [rbx - 12]
-	mov	edx, dword ptr [rbx - 8]
-	mov	esi, edx
-	shld	esi, ecx, 4
-	vmovd	xmm5, ecx
-	vpbroadcastd	xmm5, xmm5
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, edx, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edx, dword ptr [rbx - 4]
-	vmovd	xmm5, edx
-	shld	edx, ecx, 1
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vpbroadcastd	xmm5, xmm5
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, dword ptr [rbx]
-	mov	esi, edx
-	shld	esi, ecx, 3
-	vmovd	xmm5, ecx
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, edx, 3
-	vmovd	xmm6, edx
-	vpbroadcastd	xmm6, xmm6
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 20
-	add	rax, -1
-	jne	.LBB0_19
-	jmp	.LBB0_147
-.LBB0_61:
-	cmp	ecx, 21
-	jg	.LBB0_67
-# %bb.62:
-	cmp	ecx, 20
-	je	.LBB0_114
-# %bb.63:
-	cmp	ecx, 21
-	jne	.LBB0_147
-# %bb.64:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.65:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 80
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI0_58] # ymm8 = [0,0,10,0,0,9,0,0]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_59] # ymm1 = [9007194961870847,9007194961870847,9007194961870847,9007194961870847]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_60] # ymm2 = [8,0,0,7,0,0,6,0]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_61] # ymm3 = [0,5,0,0,4,0,0,3]
-	vmovdqa	xmm4, xmmword ptr [rip + .LCPI0_62] # xmm4 = <24,13,u,u>
-	vmovdqa	xmm5, xmmword ptr [rip + .LCPI0_63] # xmm5 = <8,19,u,u>
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI0_64] # ymm6 = [0,0,2,0,0,1,0,11]
-	.p2align	4, 0x90
-.LBB0_66:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 64]
-	mov	r9d, dword ptr [rbx - 60]
-	shld	r9d, ecx, 13
-	mov	r11d, dword ptr [rbx - 68]
-	shld	ecx, r11d, 2
-	mov	edi, dword ptr [rbx - 72]
-	mov	esi, r11d
-	shld	esi, edi, 12
-	mov	r10d, dword ptr [rbx - 80]
-	mov	eax, dword ptr [rbx - 76]
-	shld	edi, eax, 1
-	mov	edx, eax
-	shld	edx, r10d, 11
-	vmovd	xmm7, r10d
-	vmovd	xmm0, esi
-	vpinsrd	xmm7, xmm7, edx, 1
-	vpinsrd	xmm0, xmm0, r11d, 1
-	vpinsrd	xmm7, xmm7, eax, 2
-	vpinsrd	xmm0, xmm0, ecx, 2
-	vpinsrd	xmm7, xmm7, edi, 3
-	vpinsrd	xmm0, xmm0, r9d, 3
-	vinserti128	ymm0, ymm7, xmm0, 1
-	vpsrlvd	ymm0, ymm0, ymm8
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm0
-	mov	r10d, dword ptr [rbx - 44]
-	mov	r9d, dword ptr [rbx - 40]
-	shld	r9d, r10d, 5
-	mov	edx, dword ptr [rbx - 48]
-	mov	esi, r10d
-	shld	esi, edx, 15
-	mov	ecx, dword ptr [rbx - 52]
-	shld	edx, ecx, 4
-	mov	r11d, dword ptr [rbx - 60]
-	mov	eax, dword ptr [rbx - 56]
-	mov	edi, ecx
-	shld	edi, eax, 14
-	shld	eax, r11d, 3
-	vmovd	xmm0, r11d
-	vmovd	xmm7, edx
-	vpinsrd	xmm0, xmm0, eax, 1
-	vpinsrd	xmm7, xmm7, esi, 1
-	vpinsrd	xmm0, xmm0, edi, 2
-	vpinsrd	xmm7, xmm7, r10d, 2
-	vpinsrd	xmm0, xmm0, ecx, 3
-	vpinsrd	xmm7, xmm7, r9d, 3
-	vinserti128	ymm0, ymm0, xmm7, 1
-	vpsrlvd	ymm0, ymm0, ymm2
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm0
-	mov	r9d, dword ptr [rbx - 20]
-	mov	ecx, dword ptr [rbx - 24]
-	mov	r10d, r9d
-	shld	r10d, ecx, 18
-	mov	esi, dword ptr [rbx - 28]
-	shld	ecx, esi, 7
-	mov	edi, dword ptr [rbx - 32]
-	vmovd	xmm0, esi
-	shld	esi, edi, 17
-	mov	eax, dword ptr [rbx - 40]
-	mov	edx, dword ptr [rbx - 36]
-	shld	edi, edx, 6
-	shrd	eax, edx, 16
-	vpinsrd	xmm0, xmm0, ecx, 1
-	vmovd	xmm7, eax
-	vpinsrd	xmm0, xmm0, r10d, 2
-	vpinsrd	xmm7, xmm7, edx, 1
-	vpinsrd	xmm0, xmm0, r9d, 3
-	vpinsrd	xmm7, xmm7, edi, 2
-	vpinsrd	xmm7, xmm7, esi, 3
-	vinserti128	ymm0, ymm7, xmm0, 1
-	vpsrlvd	ymm0, ymm0, ymm3
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm0
-	mov	r9d, dword ptr [rbx]
-	mov	eax, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, eax, 10
-	mov	esi, dword ptr [rbx - 12]
-	mov	edi, dword ptr [rbx - 8]
-	mov	ecx, eax
-	shld	ecx, edi, 20
-	shld	edi, esi, 9
-	vmovq	xmm0, qword ptr [rbx - 20]      # xmm0 = mem[0],zero
-	vpsrlvd	xmm7, xmm0, xmm4
-	vpshufd	xmm0, xmm0, 229                 # xmm0 = xmm0[1,1,2,3]
-	vpinsrd	xmm0, xmm0, esi, 1
-	vpsllvd	xmm0, xmm0, xmm5
-	vpor	xmm0, xmm7, xmm0
-	vmovd	xmm7, ecx
-	vpinsrd	xmm7, xmm7, eax, 1
-	vpinsrd	xmm7, xmm7, edx, 2
-	vpinsrd	xmm7, xmm7, r9d, 3
-	vpinsrd	xmm0, xmm0, esi, 2
-	vpinsrd	xmm0, xmm0, edi, 3
-	vinserti128	ymm0, ymm0, xmm7, 1
-	vpsrlvd	ymm0, ymm0, ymm6
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15], ymm0
-	sub	r15, -128
-	add	rbx, 84
-	add	r8, -1
-	jne	.LBB0_66
-	jmp	.LBB0_147
-.LBB0_37:
-	cmp	ecx, 13
-	jg	.LBB0_43
-# %bb.38:
-	cmp	ecx, 12
-	je	.LBB0_126
-# %bb.39:
-	cmp	ecx, 13
-	jne	.LBB0_147
-# %bb.40:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.41:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 48
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_90] # ymm0 = [35180077129727,35180077129727,35180077129727,35180077129727]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_89] # ymm1 = [0,13,0,7,0,1,14,0]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_91] # ymm2 = [8,0,2,15,0,9,0,3]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_92] # ymm3 = [16,0,10,0,4,17,0,11]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_93] # ymm4 = [0,5,18,0,12,0,6,19]
-	.p2align	4, 0x90
-.LBB0_42:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rbx - 40]
-	mov	r9d, dword ptr [rbx - 36]
-	shld	r9d, eax, 5
-	mov	esi, dword ptr [rbx - 48]
-	mov	edx, dword ptr [rbx - 44]
-	mov	ecx, eax
-	shld	ecx, edx, 12
-	mov	edi, edx
-	shld	edi, esi, 6
-	vmovd	xmm5, ecx
-	vpinsrd	xmm5, xmm5, eax, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, esi, 1
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	r9d, dword ptr [rbx - 24]
-	mov	ecx, dword ptr [rbx - 28]
-	mov	edx, r9d
-	shld	edx, ecx, 10
-	mov	esi, dword ptr [rbx - 32]
-	mov	edi, ecx
-	shld	edi, esi, 4
-	mov	r10d, dword ptr [rbx - 36]
-	mov	eax, esi
-	shld	eax, r10d, 11
-	vmovd	xmm5, edi
-	vpinsrd	xmm5, xmm5, ecx, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, r10d
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm6, xmm6, esi, 2
-	vpinsrd	xmm6, xmm6, esi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	r9d, dword ptr [rbx - 12]
-	mov	ecx, dword ptr [rbx - 16]
-	mov	edx, r9d
-	shld	edx, ecx, 2
-	mov	esi, dword ptr [rbx - 24]
-	mov	eax, dword ptr [rbx - 20]
-	vmovd	xmm5, ecx
-	vpinsrd	xmm5, xmm5, ecx, 1
-	shld	ecx, eax, 9
-	mov	edi, eax
-	shld	edi, esi, 3
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, edi, 1
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm6, xmm6, ecx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	eax, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, eax
-	shld	edx, ecx, 7
-	mov	esi, dword ptr [rbx - 8]
-	vmovd	xmm5, ecx
-	shld	ecx, esi, 1
-	mov	edi, dword ptr [rbx - 12]
-	shrd	edi, esi, 24
-	vmovd	xmm6, edi
-	vpinsrd	xmm6, xmm6, esi, 1
-	vpinsrd	xmm6, xmm6, esi, 2
-	vpinsrd	xmm6, xmm6, ecx, 3
-	vpinsrd	xmm5, xmm5, edx, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 52
-	add	r8, -1
-	jne	.LBB0_42
-	jmp	.LBB0_147
-.LBB0_85:
-	cmp	ecx, 28
-	je	.LBB0_102
-# %bb.86:
-	cmp	ecx, 29
-	jne	.LBB0_147
-# %bb.87:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.88:
-	mov	r8d, r14d
-	add	r15, 96
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_12] # ymm0 = [2305843005455597567,2305843005455597567,2305843005455597567,2305843005455597567]
-	vmovdqa	xmm8, xmmword ptr [rip + .LCPI0_13] # xmm8 = <8,5,u,u>
-	vmovdqa	xmm10, xmmword ptr [rip + .LCPI0_14] # xmm10 = <24,27,u,u>
-	vmovdqa	ymm11, ymmword ptr [rip + .LCPI0_15] # ymm11 = [0,0,2,0,0,0,0,0]
-	vmovdqa	xmm12, xmmword ptr [rip + .LCPI0_16] # xmm12 = [16,13,10,7]
-	vmovdqa	xmm5, xmmword ptr [rip + .LCPI0_17] # xmm5 = [16,19,22,25]
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI0_18] # ymm6 = [0,0,0,0,0,1,0,0]
-	vmovdqa	xmm7, xmmword ptr [rip + .LCPI0_19] # xmm7 = [24,21,18,15]
-	vmovdqa	xmm1, xmmword ptr [rip + .LCPI0_20] # xmm1 = [8,11,14,17]
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI0_21] # ymm9 = [0,0,0,0,0,0,0,3]
-	.p2align	4, 0x90
-.LBB0_89:                               # =>This Inner Loop Header: Depth=1
-	mov	r11d, dword ptr [rbx + 24]
-	mov	r9d, dword ptr [rbx + 28]
-	shld	r9d, r11d, 21
-	mov	esi, dword ptr [rbx + 20]
-	shld	r11d, esi, 18
-	mov	edi, dword ptr [rbx + 16]
-	shld	esi, edi, 15
-	mov	eax, dword ptr [rbx + 12]
-	shld	edi, eax, 12
-	mov	edx, dword ptr [rbx + 8]
-	shld	eax, edx, 9
-	mov	r10d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx + 4]
-	shld	edx, ecx, 6
-	shld	ecx, r10d, 3
-	vmovd	xmm2, r10d
-	vmovd	xmm3, edi
-	vpinsrd	xmm2, xmm2, ecx, 1
-	vpinsrd	xmm3, xmm3, esi, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm3, xmm3, r11d, 2
-	vpinsrd	xmm2, xmm2, eax, 3
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpand	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm2
-	mov	eax, dword ptr [rbx + 52]
-	mov	r9d, dword ptr [rbx + 56]
-	shld	r9d, eax, 13
-	mov	edx, dword ptr [rbx + 48]
-	shld	eax, edx, 10
-	mov	esi, dword ptr [rbx + 44]
-	shld	edx, esi, 7
-	mov	edi, dword ptr [rbx + 36]
-	mov	ecx, dword ptr [rbx + 40]
-	shld	esi, ecx, 4
-	shld	ecx, edi, 1
-	vmovq	xmm2, qword ptr [rbx + 28]      # xmm2 = mem[0],zero
-	vpsrlvd	xmm3, xmm2, xmm8
-	vpshufd	xmm2, xmm2, 229                 # xmm2 = xmm2[1,1,2,3]
-	vpinsrd	xmm2, xmm2, edi, 1
-	vpsllvd	xmm2, xmm2, xmm10
-	vpor	xmm2, xmm3, xmm2
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vpinsrd	xmm2, xmm2, edi, 2
-	vpinsrd	xmm2, xmm2, ecx, 3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsrlvd	ymm2, ymm2, ymm11
-	vpand	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm2
-	mov	eax, dword ptr [rbx + 80]
-	mov	ecx, dword ptr [rbx + 84]
-	shld	ecx, eax, 5
-	mov	edx, dword ptr [rbx + 76]
-	mov	esi, dword ptr [rbx + 72]
-	shld	eax, edx, 2
-	mov	edi, edx
-	shld	edi, esi, 28
-	vmovdqu	xmm2, xmmword ptr [rbx + 56]
-	vpsrlvd	xmm3, xmm2, xmm12
-	vpshufd	xmm2, xmm2, 249                 # xmm2 = xmm2[1,2,3,3]
-	vpinsrd	xmm2, xmm2, esi, 3
-	vmovd	xmm4, edi
-	vpinsrd	xmm4, xmm4, edx, 1
-	vpinsrd	xmm4, xmm4, eax, 2
-	vpsllvd	xmm2, xmm2, xmm5
-	vpinsrd	xmm4, xmm4, ecx, 3
-	vpor	xmm2, xmm3, xmm2
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vpsrlvd	ymm2, ymm2, ymm6
-	vpand	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm2
-	mov	eax, dword ptr [rbx + 112]
-	mov	ecx, dword ptr [rbx + 108]
-	mov	edx, eax
-	shld	edx, ecx, 26
-	mov	esi, dword ptr [rbx + 104]
-	shld	ecx, esi, 23
-	mov	edi, dword ptr [rbx + 100]
-	vmovdqu	xmm2, xmmword ptr [rbx + 84]
-	shld	esi, edi, 20
-	vpsrlvd	xmm3, xmm2, xmm7
-	vpshufd	xmm2, xmm2, 249                 # xmm2 = xmm2[1,2,3,3]
-	vpinsrd	xmm2, xmm2, edi, 3
-	vmovd	xmm4, esi
-	vpinsrd	xmm4, xmm4, ecx, 1
-	vpsllvd	xmm2, xmm2, xmm1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpinsrd	xmm4, xmm4, eax, 3
-	vpor	xmm2, xmm3, xmm2
-	vinserti128	ymm2, ymm2, xmm4, 1
-	vpsrlvd	ymm2, ymm2, ymm9
-	vpand	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r15], ymm2
-	add	rbx, 116
-	sub	r15, -128
-	add	r8, -1
-	jne	.LBB0_89
-	jmp	.LBB0_147
-.LBB0_9:
-	cmp	ecx, 2
-	je	.LBB0_141
-# %bb.10:
-	cmp	ecx, 3
-	jne	.LBB0_147
-# %bb.11:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.12:
-	mov	eax, r14d
-	add	r15, 96
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_127] # ymm0 = [30064771079,30064771079,30064771079,30064771079]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_126] # ymm1 = [0,3,6,9,12,15,18,21]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_128] # ymm2 = [24,27,0,1,4,7,10,13]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_129] # ymm3 = [16,19,22,25,28,0,2,5]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_130] # ymm4 = [8,11,14,17,20,23,26,29]
-	.p2align	4, 0x90
-.LBB0_13:                               # =>This Inner Loop Header: Depth=1
-	vpbroadcastd	ymm5, dword ptr [rbx]
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	ecx, dword ptr [rbx]
-	mov	edx, dword ptr [rbx + 4]
-	mov	esi, edx
-	shld	esi, ecx, 2
-	vmovd	xmm5, ecx
-	vpinsrd	xmm5, xmm5, ecx, 1
-	vpinsrd	xmm5, xmm5, esi, 2
-	vpinsrd	xmm5, xmm5, edx, 3
-	vmovd	xmm6, edx
-	vpbroadcastd	xmm6, xmm6
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	ecx, dword ptr [rbx + 4]
-	mov	edx, dword ptr [rbx + 8]
-	mov	esi, edx
-	shld	esi, ecx, 1
-	vmovd	xmm5, ecx
-	vpbroadcastd	xmm6, xmm5
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	vpbroadcastd	ymm5, dword ptr [rbx + 8]
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 12
-	add	rax, -1
-	jne	.LBB0_13
-	jmp	.LBB0_147
-.LBB0_56:
-	cmp	ecx, 18
-	je	.LBB0_117
-# %bb.57:
-	cmp	ecx, 19
-	jne	.LBB0_147
-# %bb.58:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.59:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 72
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_68] # ymm0 = [2251795519242239,2251795519242239,2251795519242239,2251795519242239]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_67] # ymm1 = [0,0,6,0,12,0,0,5]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_69] # ymm2 = [0,11,0,0,4,0,10,0]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_70] # ymm3 = [0,3,0,9,0,0,2,0]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_71] # ymm4 = [8,0,0,1,0,7,0,13]
-	.p2align	4, 0x90
-.LBB0_60:                               # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 56]
-	mov	edx, dword ptr [rbx - 60]
-	mov	esi, r9d
-	shld	esi, edx, 14
-	mov	edi, dword ptr [rbx - 64]
-	mov	r10d, dword ptr [rbx - 72]
-	shld	edx, edi, 1
-	mov	eax, dword ptr [rbx - 68]
-	mov	ecx, eax
-	shld	ecx, r10d, 13
-	vmovd	xmm5, edi
-	shld	edi, eax, 7
-	vpinsrd	xmm5, xmm5, edx, 1
-	vmovd	xmm6, r10d
-	vpinsrd	xmm5, xmm5, esi, 2
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm6, xmm6, edi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	r10d, dword ptr [rbx - 40]
-	mov	r9d, dword ptr [rbx - 36]
-	shld	r9d, r10d, 3
-	mov	edx, dword ptr [rbx - 44]
-	mov	esi, r10d
-	shld	esi, edx, 9
-	mov	edi, dword ptr [rbx - 48]
-	vmovd	xmm5, edx
-	shld	edx, edi, 15
-	mov	ecx, dword ptr [rbx - 56]
-	mov	eax, dword ptr [rbx - 52]
-	shld	edi, eax, 2
-	shrd	ecx, eax, 24
-	vpinsrd	xmm5, xmm5, esi, 1
-	vmovd	xmm6, ecx
-	vpinsrd	xmm5, xmm5, r10d, 2
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	r10d, dword ptr [rbx - 20]
-	mov	r9d, dword ptr [rbx - 16]
-	shld	r9d, r10d, 11
-	mov	edx, dword ptr [rbx - 24]
-	mov	esi, r10d
-	mov	r11d, dword ptr [rbx - 28]
-	shld	esi, edx, 17
-	mov	ecx, dword ptr [rbx - 36]
-	mov	eax, dword ptr [rbx - 32]
-	shld	edx, r11d, 4
-	mov	edi, r11d
-	shld	edi, eax, 10
-	shrd	ecx, eax, 16
-	vmovd	xmm5, edx
-	vpinsrd	xmm5, xmm5, esi, 1
-	vmovd	xmm6, ecx
-	vpinsrd	xmm5, xmm5, r10d, 2
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, r11d, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	r9d, dword ptr [rbx]
-	mov	r11d, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, r11d, 6
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edi, r11d
-	shld	edi, ecx, 12
-	mov	r10d, dword ptr [rbx - 16]
-	mov	eax, dword ptr [rbx - 12]
-	mov	esi, ecx
-	shld	esi, eax, 18
-	shld	eax, r10d, 5
-	vmovd	xmm5, r10d
-	vmovd	xmm6, edi
-	vpinsrd	xmm5, xmm5, eax, 1
-	vpinsrd	xmm6, xmm6, r11d, 1
-	vpinsrd	xmm5, xmm5, esi, 2
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm5, xmm5, ecx, 3
-	vpinsrd	xmm6, xmm6, r9d, 3
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 76
-	add	r8, -1
-	jne	.LBB0_60
-	jmp	.LBB0_147
-.LBB0_32:
-	cmp	ecx, 10
-	je	.LBB0_129
-# %bb.33:
-	cmp	ecx, 11
-	jne	.LBB0_147
-# %bb.34:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.35:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 40
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_97] # ymm0 = [8791798056959,8791798056959,8791798056959,8791798056959]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_96] # ymm1 = [0,11,0,1,12,0,2,13]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_98] # ymm2 = [0,3,14,0,4,15,0,5]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_99] # ymm3 = [16,0,6,17,0,7,18,0]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_100] # ymm4 = [8,19,0,9,20,0,10,21]
-	.p2align	4, 0x90
-.LBB0_36:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 32]
-	mov	edx, dword ptr [rbx - 40]
-	mov	esi, dword ptr [rbx - 36]
-	mov	edi, ecx
-	shld	edi, esi, 9
-	mov	eax, esi
-	shld	eax, edx, 10
-	vmovd	xmm5, esi
-	vpinsrd	xmm5, xmm5, edi, 1
-	vpinsrd	xmm5, xmm5, ecx, 2
-	vpinsrd	xmm5, xmm5, ecx, 3
-	vmovd	xmm6, edx
-	vpinsrd	xmm6, xmm6, edx, 1
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm6, xmm6, esi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	eax, dword ptr [rbx - 20]
-	mov	ecx, dword ptr [rbx - 24]
-	mov	edx, eax
-	shld	edx, ecx, 6
-	mov	esi, dword ptr [rbx - 32]
-	mov	edi, dword ptr [rbx - 28]
-	vmovd	xmm5, ecx
-	vpinsrd	xmm5, xmm5, ecx, 1
-	shld	ecx, edi, 7
-	shrd	esi, edi, 24
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, edi, 1
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, ecx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	eax, dword ptr [rbx - 12]
-	mov	ecx, dword ptr [rbx - 8]
-	shld	ecx, eax, 3
-	mov	r9d, dword ptr [rbx - 20]
-	mov	esi, dword ptr [rbx - 16]
-	mov	edi, eax
-	shld	edi, esi, 4
-	mov	edx, esi
-	shld	edx, r9d, 5
-	vmovd	xmm5, edi
-	vpinsrd	xmm5, xmm5, eax, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, ecx, 3
-	vmovd	xmm6, r9d
-	vpinsrd	xmm6, xmm6, edx, 1
-	vpinsrd	xmm6, xmm6, esi, 2
-	vpinsrd	xmm6, xmm6, esi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	eax, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edx, dword ptr [rbx - 4]
-	mov	esi, eax
-	shld	esi, edx, 1
-	mov	edi, edx
-	shld	edi, ecx, 2
-	vmovd	xmm5, edx
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 44
-	add	r8, -1
-	jne	.LBB0_36
-	jmp	.LBB0_147
-.LBB0_79:
-	cmp	ecx, 26
-	je	.LBB0_105
-# %bb.80:
-	cmp	ecx, 27
-	jne	.LBB0_147
-# %bb.81:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.82:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 104
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_25] # ymm0 = [576460748142673919,576460748142673919,576460748142673919,576460748142673919]
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI0_24] # ymm9 = [0,0,0,0,0,0,2,0]
-	vmovdqa	xmm10, xmmword ptr [rip + .LCPI0_26] # xmm10 = [24,19,14,9]
-	vmovdqa	xmm11, xmmword ptr [rip + .LCPI0_27] # xmm11 = [8,13,18,23]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_28] # ymm4 = [0,0,0,0,4,0,0,0]
-	vmovdqa	xmm5, xmmword ptr [rip + .LCPI0_29] # xmm5 = <16,11,u,u>
-	vmovdqa	xmm6, xmmword ptr [rip + .LCPI0_30] # xmm6 = <16,21,u,u>
-	vmovdqa	ymm7, ymmword ptr [rip + .LCPI0_31] # ymm7 = [0,0,0,1,0,0,0,0]
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI0_32] # ymm8 = [0,3,0,0,0,0,0,5]
-	.p2align	4, 0x90
-.LBB0_83:                               # =>This Inner Loop Header: Depth=1
-	mov	r10d, dword ptr [rbx - 84]
-	mov	r9d, dword ptr [rbx - 80]
-	shld	r9d, r10d, 3
-	mov	esi, dword ptr [rbx - 88]
-	mov	edi, r10d
-	shld	edi, esi, 25
-	mov	eax, dword ptr [rbx - 92]
-	shld	esi, eax, 20
-	mov	edx, dword ptr [rbx - 96]
-	shld	eax, edx, 15
-	mov	r11d, dword ptr [rbx - 104]
-	mov	ecx, dword ptr [rbx - 100]
-	shld	edx, ecx, 10
-	shld	ecx, r11d, 5
-	vmovd	xmm1, r11d
-	vmovd	xmm2, esi
-	vpinsrd	xmm1, xmm1, ecx, 1
-	vpinsrd	xmm2, xmm2, edi, 1
-	vpinsrd	xmm1, xmm1, edx, 2
-	vpinsrd	xmm2, xmm2, r10d, 2
-	vpinsrd	xmm1, xmm1, eax, 3
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpsrlvd	ymm1, ymm1, ymm9
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm1
-	mov	eax, dword ptr [rbx - 56]
-	mov	ecx, dword ptr [rbx - 52]
-	shld	ecx, eax, 11
-	mov	edx, dword ptr [rbx - 60]
-	mov	esi, dword ptr [rbx - 64]
-	shld	eax, edx, 6
-	shld	edx, esi, 1
-	vmovdqu	xmm1, xmmword ptr [rbx - 80]
-	vpsrlvd	xmm2, xmm1, xmm10
-	vpshufd	xmm1, xmm1, 249                 # xmm1 = xmm1[1,2,3,3]
-	vmovd	xmm3, esi
-	vpinsrd	xmm1, xmm1, esi, 3
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpsllvd	xmm1, xmm1, xmm11
-	vpinsrd	xmm3, xmm3, ecx, 3
-	vpor	xmm1, xmm2, xmm1
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vpsrlvd	ymm1, ymm1, ymm4
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm1
-	mov	eax, dword ptr [rbx - 28]
-	mov	r9d, dword ptr [rbx - 24]
-	shld	r9d, eax, 19
-	mov	edx, dword ptr [rbx - 32]
-	shld	eax, edx, 14
-	mov	esi, dword ptr [rbx - 36]
-	shld	edx, esi, 9
-	mov	r10d, dword ptr [rbx - 44]
-	mov	edi, dword ptr [rbx - 40]
-	shld	esi, edi, 4
-	mov	ecx, edi
-	shld	ecx, r10d, 26
-	vmovq	xmm1, qword ptr [rbx - 52]      # xmm1 = mem[0],zero
-	vpsrlvd	xmm2, xmm1, xmm5
-	vpshufd	xmm1, xmm1, 229                 # xmm1 = xmm1[1,1,2,3]
-	vpinsrd	xmm1, xmm1, r10d, 1
-	vpsllvd	xmm1, xmm1, xmm6
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpor	xmm1, xmm2, xmm1
-	vpinsrd	xmm2, xmm3, eax, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm1, xmm1, ecx, 2
-	vpinsrd	xmm1, xmm1, edi, 3
-	vinserti128	ymm1, ymm1, xmm2, 1
-	vpsrlvd	ymm1, ymm1, ymm7
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm1
-	mov	r9d, dword ptr [rbx]
-	mov	r11d, dword ptr [rbx - 4]
-	mov	r10d, r9d
-	shld	r10d, r11d, 22
-	mov	esi, dword ptr [rbx - 8]
-	shld	r11d, esi, 17
-	mov	edi, dword ptr [rbx - 12]
-	mov	eax, dword ptr [rbx - 16]
-	shld	esi, edi, 12
-	mov	edx, dword ptr [rbx - 24]
-	mov	ecx, dword ptr [rbx - 20]
-	shld	edi, eax, 7
-	shrd	edx, ecx, 8
-	shld	eax, ecx, 2
-	vmovd	xmm1, esi
-	vpinsrd	xmm1, xmm1, r11d, 1
-	vmovd	xmm2, edx
-	vpinsrd	xmm1, xmm1, r10d, 2
-	vpinsrd	xmm2, xmm2, ecx, 1
-	vpinsrd	xmm1, xmm1, r9d, 3
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm2, xmm2, edi, 3
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vpsrlvd	ymm1, ymm1, ymm8
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15], ymm1
-	sub	r15, -128
-	add	rbx, 108
-	add	r8, -1
-	jne	.LBB0_83
-	jmp	.LBB0_147
-.LBB0_20:
-	cmp	ecx, 6
-	je	.LBB0_135
-# %bb.21:
-	cmp	ecx, 7
-	jne	.LBB0_147
-# %bb.22:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.23:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 24
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_112] # ymm0 = [545460846719,545460846719,545460846719,545460846719]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_111] # ymm1 = [0,7,14,21,0,3,10,17]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_113] # ymm2 = [24,0,6,13,20,0,2,9]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_114] # ymm3 = [16,23,0,5,12,19,0,1]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_115] # ymm4 = [8,15,22,0,4,11,18,25]
-	.p2align	4, 0x90
-.LBB0_24:                               # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 24]
-	mov	edx, dword ptr [rbx - 20]
-	mov	esi, edx
-	shld	esi, ecx, 4
-	vmovd	xmm5, ecx
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, edx, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vpbroadcastd	xmm5, xmm5
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	ecx, dword ptr [rbx - 12]
-	mov	edx, dword ptr [rbx - 20]
-	mov	esi, dword ptr [rbx - 16]
-	mov	edi, ecx
-	shld	edi, esi, 5
-	mov	eax, esi
-	shld	eax, edx, 1
-	vmovd	xmm5, esi
-	vpinsrd	xmm5, xmm5, edi, 1
-	vpinsrd	xmm5, xmm5, ecx, 2
-	vpinsrd	xmm5, xmm5, ecx, 3
-	vmovd	xmm6, edx
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm6, xmm6, esi, 2
-	vpinsrd	xmm6, xmm6, esi, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	eax, dword ptr [rbx - 4]
-	mov	ecx, dword ptr [rbx - 12]
-	mov	edx, dword ptr [rbx - 8]
-	mov	esi, eax
-	shld	esi, edx, 6
-	mov	edi, edx
-	shld	edi, ecx, 2
-	vmovd	xmm5, edx
-	vpinsrd	xmm5, xmm5, edx, 1
-	vpinsrd	xmm5, xmm5, esi, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	eax, dword ptr [rbx - 4]
-	mov	ecx, dword ptr [rbx]
-	mov	edx, ecx
-	shld	edx, eax, 3
-	vmovd	xmm5, ecx
-	vmovd	xmm6, eax
-	vpinsrd	xmm6, xmm6, eax, 1
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vpbroadcastd	xmm5, xmm5
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 28
-	add	r8, -1
-	jne	.LBB0_24
-	jmp	.LBB0_147
-.LBB0_67:
-	cmp	ecx, 22
-	je	.LBB0_111
-# %bb.68:
-	cmp	ecx, 23
-	jne	.LBB0_147
-# %bb.69:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.70:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 88
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI0_48] # ymm8 = [0,0,0,5,0,0,0,1]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_49] # ymm1 = [36028792732385279,36028792732385279,36028792732385279,36028792732385279]
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI0_50] # xmm2 = <24,15,u,u>
-	vmovdqa	xmm3, xmmword ptr [rip + .LCPI0_51] # xmm3 = <8,17,u,u>
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_52] # ymm4 = [0,0,6,0,0,0,2,0]
-	vmovdqa	ymm5, ymmword ptr [rip + .LCPI0_53] # ymm5 = [0,7,0,0,0,3,0,0]
-	vmovdqa	ymm6, ymmword ptr [rip + .LCPI0_54] # ymm6 = [8,0,0,0,4,0,0,9]
-	.p2align	4, 0x90
-.LBB0_71:                               # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 68]
-	mov	edx, dword ptr [rbx - 72]
-	mov	r11d, r9d
-	shld	r11d, edx, 22
-	mov	edi, dword ptr [rbx - 76]
-	shld	edx, edi, 13
-	mov	esi, dword ptr [rbx - 80]
-	shld	edi, esi, 4
-	mov	r10d, dword ptr [rbx - 88]
-	mov	ecx, dword ptr [rbx - 84]
-	mov	eax, esi
-	shld	eax, ecx, 18
-	shld	ecx, r10d, 9
-	vmovd	xmm7, r10d
-	vmovd	xmm0, edi
-	vpinsrd	xmm7, xmm7, ecx, 1
-	vpinsrd	xmm0, xmm0, edx, 1
-	vpinsrd	xmm7, xmm7, eax, 2
-	vpinsrd	xmm0, xmm0, r11d, 2
-	vpinsrd	xmm7, xmm7, esi, 3
-	vpinsrd	xmm0, xmm0, r9d, 3
-	vinserti128	ymm0, ymm7, xmm0, 1
-	vpsrlvd	ymm0, ymm0, ymm8
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm0
-	mov	eax, dword ptr [rbx - 48]
-	mov	r9d, dword ptr [rbx - 44]
-	shld	r9d, eax, 7
-	mov	edx, dword ptr [rbx - 52]
-	mov	esi, eax
-	shld	esi, edx, 21
-	mov	edi, dword ptr [rbx - 60]
-	mov	ecx, dword ptr [rbx - 56]
-	shld	edx, ecx, 12
-	shld	ecx, edi, 3
-	vmovq	xmm0, qword ptr [rbx - 68]      # xmm0 = mem[0],zero
-	vpsrlvd	xmm7, xmm0, xmm2
-	vpshufd	xmm0, xmm0, 229                 # xmm0 = xmm0[1,1,2,3]
-	vpinsrd	xmm0, xmm0, edi, 1
-	vpsllvd	xmm0, xmm0, xmm3
-	vpor	xmm0, xmm7, xmm0
-	vmovd	xmm7, edx
-	vpinsrd	xmm7, xmm7, esi, 1
-	vpinsrd	xmm7, xmm7, eax, 2
-	vpinsrd	xmm7, xmm7, r9d, 3
-	vpinsrd	xmm0, xmm0, edi, 2
-	vpinsrd	xmm0, xmm0, ecx, 3
-	vinserti128	ymm0, ymm0, xmm7, 1
-	vpsrlvd	ymm0, ymm0, ymm4
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm0
-	mov	r11d, dword ptr [rbx - 24]
-	mov	r9d, dword ptr [rbx - 20]
-	shld	r9d, r11d, 15
-	mov	r10d, dword ptr [rbx - 28]
-	shld	r11d, r10d, 6
-	mov	esi, dword ptr [rbx - 32]
-	mov	edi, r10d
-	mov	ecx, dword ptr [rbx - 36]
-	shld	edi, esi, 20
-	mov	edx, dword ptr [rbx - 44]
-	mov	eax, dword ptr [rbx - 40]
-	shld	esi, ecx, 11
-	shrd	edx, eax, 16
-	shld	ecx, eax, 2
-	vmovd	xmm0, edi
-	vpinsrd	xmm0, xmm0, r10d, 1
-	vmovd	xmm7, edx
-	vpinsrd	xmm0, xmm0, r11d, 2
-	vpinsrd	xmm7, xmm7, eax, 1
-	vpinsrd	xmm0, xmm0, r9d, 3
-	vpinsrd	xmm7, xmm7, ecx, 2
-	vpinsrd	xmm7, xmm7, esi, 3
-	vinserti128	ymm0, ymm7, xmm0, 1
-	vpsrlvd	ymm0, ymm0, ymm5
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm0
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, ecx, 14
-	mov	esi, dword ptr [rbx - 8]
-	shld	ecx, esi, 5
-	mov	edi, dword ptr [rbx - 12]
-	vmovd	xmm0, esi
-	shld	esi, edi, 19
-	mov	r10d, dword ptr [rbx - 20]
-	mov	eax, dword ptr [rbx - 16]
-	shld	edi, eax, 10
-	shld	eax, r10d, 1
-	vpinsrd	xmm0, xmm0, ecx, 1
-	vmovd	xmm7, r10d
-	vpinsrd	xmm0, xmm0, edx, 2
-	vpinsrd	xmm7, xmm7, eax, 1
-	vpinsrd	xmm0, xmm0, r9d, 3
-	vpinsrd	xmm7, xmm7, edi, 2
-	vpinsrd	xmm7, xmm7, esi, 3
-	vinserti128	ymm0, ymm7, xmm0, 1
-	vpsrlvd	ymm0, ymm0, ymm6
-	vpand	ymm0, ymm0, ymm1
-	vmovdqu	ymmword ptr [r15], ymm0
-	sub	r15, -128
-	add	rbx, 92
-	add	r8, -1
-	jne	.LBB0_71
-	jmp	.LBB0_147
-.LBB0_43:
-	cmp	ecx, 14
-	je	.LBB0_123
-# %bb.44:
-	cmp	ecx, 15
-	jne	.LBB0_147
-# %bb.45:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.46:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 56
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_82] # ymm0 = [140733193420799,140733193420799,140733193420799,140733193420799]
-	vmovdqa	ymm1, ymmword ptr [rip + .LCPI0_81] # ymm1 = [0,15,0,13,0,11,0,9]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_83] # ymm2 = [0,7,0,5,0,3,0,1]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_84] # ymm3 = [16,0,14,0,12,0,10,0]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_85] # ymm4 = [8,0,6,0,4,0,2,17]
-	.p2align	4, 0x90
-.LBB0_47:                               # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 44]
-	mov	eax, dword ptr [rbx - 48]
-	mov	esi, r9d
-	shld	esi, eax, 6
-	mov	r10d, dword ptr [rbx - 52]
-	mov	edx, eax
-	shld	edx, r10d, 4
-	mov	ecx, dword ptr [rbx - 56]
-	mov	edi, r10d
-	shld	edi, ecx, 2
-	vmovd	xmm5, edx
-	vpinsrd	xmm5, xmm5, eax, 1
-	vpinsrd	xmm5, xmm5, esi, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, ecx
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, edi, 2
-	vpinsrd	xmm6, xmm6, r10d, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm1
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	r9d, dword ptr [rbx - 28]
-	mov	r11d, dword ptr [rbx - 32]
-	mov	edx, r9d
-	shld	edx, r11d, 14
-	mov	r10d, dword ptr [rbx - 36]
-	mov	edi, r11d
-	shld	edi, r10d, 12
-	mov	eax, dword ptr [rbx - 44]
-	mov	esi, dword ptr [rbx - 40]
-	mov	ecx, r10d
-	shld	ecx, esi, 10
-	shrd	eax, esi, 24
-	vmovd	xmm5, edi
-	vpinsrd	xmm5, xmm5, r11d, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vmovd	xmm6, eax
-	vpinsrd	xmm6, xmm6, esi, 1
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm6, xmm6, r10d, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	eax, dword ptr [rbx - 16]
-	mov	r10d, dword ptr [rbx - 12]
-	shld	r10d, eax, 7
-	mov	edx, dword ptr [rbx - 20]
-	mov	esi, eax
-	shld	esi, edx, 5
-	mov	r9d, dword ptr [rbx - 28]
-	mov	ecx, dword ptr [rbx - 24]
-	mov	edi, ecx
-	shld	edi, r9d, 1
-	vmovd	xmm5, edx
-	shld	edx, ecx, 3
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm5, xmm5, eax, 2
-	vpinsrd	xmm5, xmm5, r10d, 3
-	vmovd	xmm6, r9d
-	vpinsrd	xmm6, xmm6, edi, 1
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm6, xmm6, edx, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm3
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, ecx, 13
-	mov	eax, dword ptr [rbx - 8]
-	vmovd	xmm5, ecx
-	shld	ecx, eax, 11
-	mov	edi, dword ptr [rbx - 12]
-	mov	esi, eax
-	shld	esi, edi, 9
-	vmovd	xmm6, edi
-	vpinsrd	xmm6, xmm6, esi, 1
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm6, xmm6, ecx, 3
-	vpinsrd	xmm5, xmm5, edx, 1
-	vpinsrd	xmm5, xmm5, r9d, 2
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vinserti128	ymm5, ymm6, xmm5, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 60
-	add	r8, -1
-	jne	.LBB0_47
-	jmp	.LBB0_147
-.LBB0_96:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.97:
-	mov	r8d, r14d
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_0] # ymm0 = [9223372034707292159,9223372034707292159,9223372034707292159,9223372034707292159]
-	add	r15, 96
-	vmovdqa	ymm8, ymmword ptr [rip + .LCPI0_1] # ymm8 = [24,23,22,21,20,19,18,17]
-	vmovdqa	ymm9, ymmword ptr [rip + .LCPI0_2] # ymm9 = [8,9,10,11,12,13,14,15]
-	vmovdqa	ymm10, ymmword ptr [rip + .LCPI0_3] # ymm10 = [16,15,14,13,12,11,10,9]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_4] # ymm4 = [16,17,18,19,20,21,22,23]
-	vmovdqa	xmm5, xmmword ptr [rip + .LCPI0_5] # xmm5 = [8,7,6,5]
-	vmovdqa	xmm6, xmmword ptr [rip + .LCPI0_6] # xmm6 = [24,25,26,27]
-	vmovdqa	ymm7, ymmword ptr [rip + .LCPI0_7] # ymm7 = [0,0,0,0,0,0,0,1]
-	.p2align	4, 0x90
-.LBB0_98:                               # =>This Inner Loop Header: Depth=1
-	mov	r10d, dword ptr [rbx + 24]
-	mov	r9d, dword ptr [rbx + 28]
-	shld	r9d, r10d, 7
-	mov	esi, dword ptr [rbx + 20]
-	shld	r10d, esi, 6
-	mov	edi, dword ptr [rbx + 16]
-	shld	esi, edi, 5
-	mov	eax, dword ptr [rbx + 12]
-	shld	edi, eax, 4
-	mov	edx, dword ptr [rbx + 8]
-	shld	eax, edx, 3
-	mov	ecx, dword ptr [rbx + 4]
-	shld	edx, ecx, 2
-	mov	r11d, dword ptr [rbx]
-	shld	ecx, r11d, 1
-	vmovd	xmm1, edi
-	vpinsrd	xmm1, xmm1, esi, 1
-	vpinsrd	xmm1, xmm1, r10d, 2
-	vpinsrd	xmm1, xmm1, r9d, 3
-	vmovd	xmm2, r11d
-	vpinsrd	xmm2, xmm2, ecx, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm2, xmm2, eax, 3
-	vinserti128	ymm1, ymm2, xmm1, 1
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm1
-	vmovdqu	ymm1, ymmword ptr [rbx + 28]
-	vpsrlvd	ymm1, ymm1, ymm8
-	vmovdqu	xmm2, xmmword ptr [rbx + 44]
-	vpshufd	xmm3, xmm2, 249                 # xmm3 = xmm2[1,2,3,3]
-	vpinsrd	xmm3, xmm3, dword ptr [rbx + 60], 3
-	vpalignr	xmm2, xmm2, xmmword ptr [rbx + 28], 4 # xmm2 = mem[4,5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3]
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsllvd	ymm2, ymm2, ymm9
-	vpor	ymm1, ymm1, ymm2
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm1
-	vmovdqu	ymm1, ymmword ptr [rbx + 60]
-	vmovdqu	xmm2, xmmword ptr [rbx + 76]
-	vpshufd	xmm3, xmm2, 249                 # xmm3 = xmm2[1,2,3,3]
-	vpinsrd	xmm3, xmm3, dword ptr [rbx + 92], 3
-	vpsrlvd	ymm1, ymm1, ymm10
-	vpalignr	xmm2, xmm2, xmmword ptr [rbx + 60], 4 # xmm2 = mem[4,5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3]
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsllvd	ymm2, ymm2, ymm4
-	vpor	ymm1, ymm1, ymm2
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm1
-	mov	eax, dword ptr [rbx + 120]
-	mov	ecx, dword ptr [rbx + 116]
-	mov	edx, eax
-	shld	edx, ecx, 30
-	mov	esi, dword ptr [rbx + 112]
-	shld	ecx, esi, 29
-	mov	edi, dword ptr [rbx + 108]
-	shld	esi, edi, 28
-	vmovdqu	xmm1, xmmword ptr [rbx + 92]
-	vpsrlvd	xmm2, xmm1, xmm5
-	vpshufd	xmm1, xmm1, 249                 # xmm1 = xmm1[1,2,3,3]
-	vpinsrd	xmm1, xmm1, edi, 3
-	vpsllvd	xmm1, xmm1, xmm6
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, edx, 2
-	vpinsrd	xmm3, xmm3, eax, 3
-	vpor	xmm1, xmm2, xmm1
-	vinserti128	ymm1, ymm1, xmm3, 1
-	vpsrlvd	ymm1, ymm1, ymm7
-	vpand	ymm1, ymm1, ymm0
-	vmovdqu	ymmword ptr [r15], ymm1
-	add	rbx, 124
-	sub	r15, -128
-	add	r8, -1
-	jne	.LBB0_98
-	jmp	.LBB0_147
-.LBB0_144:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.145:
-	mov	ebx, r14d
-	.p2align	4, 0x90
-.LBB0_146:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, 128
-	mov	rdi, r15
-	xor	esi, esi
-	call	clib·_memset(SB)
-	sub	r15, -128
-	add	rbx, -1
-	jne	.LBB0_146
-	jmp	.LBB0_147
-.LBB0_120:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.121:
-	mov	eax, r14d
-	xor	ecx, ecx
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_80] # ymm0 = [68719476736,68719476736,68719476736,68719476736]
-	vpxor	xmm1, xmm1, xmm1
-	.p2align	4, 0x90
-.LBB0_122:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	xmm2, xmmword ptr [rbx + rcx]
-	vpermq	ymm2, ymm2, 216                 # ymm2 = ymm2[0,2,1,3]
-	vpshufd	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1,4,4,5,5]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpblendw	ymm2, ymm2, ymm1, 170           # ymm2 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7],ymm2[8],ymm1[9],ymm2[10],ymm1[11],ymm2[12],ymm1[13],ymm2[14],ymm1[15]
-	vmovdqu	ymmword ptr [r15 + 2*rcx], ymm2
-	vmovdqu	xmm2, xmmword ptr [rbx + rcx + 16]
-	vpermq	ymm2, ymm2, 216                 # ymm2 = ymm2[0,2,1,3]
-	vpshufd	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1,4,4,5,5]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpblendw	ymm2, ymm2, ymm1, 170           # ymm2 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7],ymm2[8],ymm1[9],ymm2[10],ymm1[11],ymm2[12],ymm1[13],ymm2[14],ymm1[15]
-	vmovdqu	ymmword ptr [r15 + 2*rcx + 32], ymm2
-	vmovdqu	xmm2, xmmword ptr [rbx + rcx + 32]
-	vpermq	ymm2, ymm2, 216                 # ymm2 = ymm2[0,2,1,3]
-	vpshufd	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1,4,4,5,5]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpblendw	ymm2, ymm2, ymm1, 170           # ymm2 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7],ymm2[8],ymm1[9],ymm2[10],ymm1[11],ymm2[12],ymm1[13],ymm2[14],ymm1[15]
-	vmovdqu	ymmword ptr [r15 + 2*rcx + 64], ymm2
-	vmovdqu	xmm2, xmmword ptr [rbx + rcx + 48]
-	vpermq	ymm2, ymm2, 216                 # ymm2 = ymm2[0,2,1,3]
-	vpshufd	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1,4,4,5,5]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpblendw	ymm2, ymm2, ymm1, 170           # ymm2 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7],ymm2[8],ymm1[9],ymm2[10],ymm1[11],ymm2[12],ymm1[13],ymm2[14],ymm1[15]
-	vmovdqu	ymmword ptr [r15 + 2*rcx + 96], ymm2
-	add	rcx, 64
-	add	rax, -1
-	jne	.LBB0_122
-	jmp	.LBB0_147
-.LBB0_132:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.133:
-	mov	eax, r14d
-	xor	ecx, ecx
-	vbroadcasti128	ymm0, xmmword ptr [rip + .LCPI0_109] # ymm0 = [0,8,16,24,0,8,16,24]
-                                        # ymm0 = mem[0,1,0,1]
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI0_110] # ymm1 = [255,255,255,255,255,255,255,255]
-	.p2align	4, 0x90
-.LBB0_134:                              # =>This Inner Loop Header: Depth=1
-	vmovq	xmm2, qword ptr [rbx + rcx]     # xmm2 = mem[0],zero
-	vpshufd	xmm2, xmm2, 80                  # xmm2 = xmm2[0,0,1,1]
-	vpermq	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm2
-	vmovq	xmm2, qword ptr [rbx + rcx + 8] # xmm2 = mem[0],zero
-	vpshufd	xmm2, xmm2, 80                  # xmm2 = xmm2[0,0,1,1]
-	vpermq	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm2
-	vmovq	xmm2, qword ptr [rbx + rcx + 16] # xmm2 = mem[0],zero
-	vpshufd	xmm2, xmm2, 80                  # xmm2 = xmm2[0,0,1,1]
-	vpermq	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
-	vmovq	xmm2, qword ptr [rbx + rcx + 24] # xmm2 = mem[0],zero
-	vpshufd	xmm2, xmm2, 80                  # xmm2 = xmm2[0,0,1,1]
-	vpermq	ymm2, ymm2, 80                  # ymm2 = ymm2[0,0,1,1]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm2
-	add	rcx, 32
-	add	rax, -1
-	jne	.LBB0_134
-	jmp	.LBB0_147
-.LBB0_108:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.109:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 92
-	vbroadcasti128	ymm0, xmmword ptr [rip + .LCPI0_46] # ymm0 = [0,0,0,8,0,0,0,8]
-                                        # ymm0 = mem[0,1,0,1]
-	vpbroadcastd	ymm1, dword ptr [rip + .LCPI0_47] # ymm1 = [16777215,16777215,16777215,16777215,16777215,16777215,16777215,16777215]
-	.p2align	4, 0x90
-.LBB0_110:                              # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 72]
-	mov	edx, dword ptr [rbx - 76]
-	mov	esi, r9d
-	mov	edi, dword ptr [rbx - 80]
-	mov	r10d, dword ptr [rbx - 84]
-	shld	esi, edx, 16
-	mov	r11d, dword ptr [rbx - 92]
-	mov	eax, dword ptr [rbx - 88]
-	shld	edx, edi, 8
-	mov	ecx, r10d
-	shld	ecx, eax, 16
-	shld	eax, r11d, 8
-	vmovd	xmm2, edi
-	vmovd	xmm3, r11d
-	vpinsrd	xmm2, xmm2, edx, 1
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm2, xmm2, esi, 2
-	vpinsrd	xmm3, xmm3, ecx, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm3, xmm3, r10d, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm2
-	mov	r9d, dword ptr [rbx - 48]
-	mov	ecx, dword ptr [rbx - 52]
-	mov	edx, r9d
-	mov	esi, dword ptr [rbx - 56]
-	mov	r10d, dword ptr [rbx - 60]
-	shld	edx, ecx, 16
-	mov	r11d, dword ptr [rbx - 68]
-	mov	edi, dword ptr [rbx - 64]
-	shld	ecx, esi, 8
-	mov	eax, r10d
-	shld	eax, edi, 16
-	shld	edi, r11d, 8
-	vmovd	xmm2, esi
-	vmovd	xmm3, r11d
-	vpinsrd	xmm2, xmm2, ecx, 1
-	vpinsrd	xmm3, xmm3, edi, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm3, xmm3, r10d, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm2
-	mov	r9d, dword ptr [rbx - 24]
-	mov	ecx, dword ptr [rbx - 28]
-	mov	edx, r9d
-	mov	esi, dword ptr [rbx - 32]
-	mov	r10d, dword ptr [rbx - 36]
-	shld	edx, ecx, 16
-	mov	r11d, dword ptr [rbx - 44]
-	mov	edi, dword ptr [rbx - 40]
-	shld	ecx, esi, 8
-	mov	eax, r10d
-	shld	eax, edi, 16
-	shld	edi, r11d, 8
-	vmovd	xmm2, esi
-	vmovd	xmm3, r11d
-	vpinsrd	xmm2, xmm2, ecx, 1
-	vpinsrd	xmm3, xmm3, edi, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm3, xmm3, r10d, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm2
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, r9d
-	mov	esi, dword ptr [rbx - 8]
-	mov	r10d, dword ptr [rbx - 12]
-	shld	edx, ecx, 16
-	mov	r11d, dword ptr [rbx - 20]
-	mov	edi, dword ptr [rbx - 16]
-	shld	ecx, esi, 8
-	mov	eax, r10d
-	shld	eax, edi, 16
-	shld	edi, r11d, 8
-	vmovd	xmm2, esi
-	vpinsrd	xmm2, xmm2, ecx, 1
-	vmovd	xmm3, r11d
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm3, xmm3, edi, 1
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, r10d, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15], ymm2
-	sub	r15, -128
-	add	rbx, 96
-	add	r8, -1
-	jne	.LBB0_110
-	jmp	.LBB0_147
-.LBB0_138:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.139:
-	mov	eax, r14d
-	xor	ecx, ecx
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_124] # ymm0 = [0,4,8,12,16,20,24,28]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_125] # ymm1 = [64424509455,64424509455,64424509455,64424509455]
-	.p2align	4, 0x90
-.LBB0_140:                              # =>This Inner Loop Header: Depth=1
-	vpbroadcastd	ymm2, dword ptr [rbx + rcx]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 8*rcx], ymm2
-	vpbroadcastd	ymm2, dword ptr [rbx + rcx + 4]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 8*rcx + 32], ymm2
-	vpbroadcastd	ymm2, dword ptr [rbx + rcx + 8]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 8*rcx + 64], ymm2
-	vpbroadcastd	ymm2, dword ptr [rbx + rcx + 12]
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 + 8*rcx + 96], ymm2
-	add	rcx, 16
-	add	rax, -1
-	jne	.LBB0_140
-	jmp	.LBB0_147
-.LBB0_114:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.115:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 76
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_65] # ymm0 = [0,0,8,0,0,4,0,12]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_66] # ymm1 = [4503595333451775,4503595333451775,4503595333451775,4503595333451775]
-	.p2align	4, 0x90
-.LBB0_116:                              # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 60]
-	mov	r11d, dword ptr [rbx - 64]
-	mov	esi, r9d
-	shld	esi, r11d, 8
-	mov	edi, dword ptr [rbx - 68]
-	mov	edx, r11d
-	shld	edx, edi, 16
-	mov	eax, dword ptr [rbx - 72]
-	shld	edi, eax, 4
-	mov	r10d, dword ptr [rbx - 76]
-	mov	ecx, eax
-	shld	ecx, r10d, 12
-	vmovd	xmm2, edx
-	vpinsrd	xmm2, xmm2, r11d, 1
-	vpinsrd	xmm2, xmm2, esi, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vmovd	xmm3, r10d
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, edi, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm2
-	mov	r9d, dword ptr [rbx - 40]
-	mov	r11d, dword ptr [rbx - 44]
-	mov	edx, r9d
-	shld	edx, r11d, 8
-	mov	esi, dword ptr [rbx - 48]
-	mov	edi, r11d
-	shld	edi, esi, 16
-	mov	r10d, dword ptr [rbx - 56]
-	mov	ecx, dword ptr [rbx - 52]
-	shld	esi, ecx, 4
-	mov	eax, ecx
-	shld	eax, r10d, 12
-	vmovd	xmm2, edi
-	vpinsrd	xmm2, xmm2, r11d, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vmovd	xmm3, r10d
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm3, xmm3, ecx, 2
-	vpinsrd	xmm3, xmm3, esi, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm2
-	mov	r9d, dword ptr [rbx - 20]
-	mov	r11d, dword ptr [rbx - 24]
-	mov	edx, r9d
-	shld	edx, r11d, 8
-	mov	esi, dword ptr [rbx - 28]
-	mov	edi, r11d
-	shld	edi, esi, 16
-	mov	ecx, dword ptr [rbx - 32]
-	shld	esi, ecx, 4
-	mov	r10d, dword ptr [rbx - 36]
-	mov	eax, ecx
-	shld	eax, r10d, 12
-	vmovd	xmm2, edi
-	vpinsrd	xmm2, xmm2, r11d, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vmovd	xmm3, r10d
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm3, xmm3, ecx, 2
-	vpinsrd	xmm3, xmm3, esi, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm2
-	mov	r9d, dword ptr [rbx]
-	mov	r11d, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, r11d, 8
-	mov	esi, dword ptr [rbx - 8]
-	mov	edi, r11d
-	shld	edi, esi, 16
-	mov	r10d, dword ptr [rbx - 16]
-	mov	ecx, dword ptr [rbx - 12]
-	shld	esi, ecx, 4
-	mov	eax, ecx
-	shld	eax, r10d, 12
-	vmovd	xmm2, edi
-	vpinsrd	xmm2, xmm2, r11d, 1
-	vpinsrd	xmm2, xmm2, edx, 2
-	vpinsrd	xmm2, xmm2, r9d, 3
-	vmovd	xmm3, r10d
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm3, xmm3, ecx, 2
-	vpinsrd	xmm3, xmm3, esi, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15], ymm2
-	sub	r15, -128
-	add	rbx, 80
-	add	r8, -1
-	jne	.LBB0_116
-	jmp	.LBB0_147
-.LBB0_126:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.127:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 44
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_94] # ymm0 = [0,12,0,4,16,0,8,20]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_95] # ymm1 = [17587891081215,17587891081215,17587891081215,17587891081215]
-	.p2align	4, 0x90
-.LBB0_128:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 36]
-	mov	edx, dword ptr [rbx - 44]
-	mov	esi, dword ptr [rbx - 40]
-	mov	edi, ecx
-	shld	edi, esi, 4
-	mov	eax, esi
-	shld	eax, edx, 8
-	vmovd	xmm2, esi
-	vpinsrd	xmm2, xmm2, edi, 1
-	vpinsrd	xmm2, xmm2, ecx, 2
-	vpinsrd	xmm2, xmm2, ecx, 3
-	vmovd	xmm3, edx
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, esi, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm2
-	mov	eax, dword ptr [rbx - 24]
-	mov	ecx, dword ptr [rbx - 32]
-	mov	edx, dword ptr [rbx - 28]
-	mov	esi, eax
-	shld	esi, edx, 4
-	mov	edi, edx
-	shld	edi, ecx, 8
-	vmovd	xmm2, edx
-	vpinsrd	xmm2, xmm2, esi, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm2, xmm2, eax, 3
-	vmovd	xmm3, ecx
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, edi, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm2
-	mov	eax, dword ptr [rbx - 12]
-	mov	ecx, dword ptr [rbx - 20]
-	mov	edx, dword ptr [rbx - 16]
-	mov	esi, eax
-	shld	esi, edx, 4
-	mov	edi, edx
-	shld	edi, ecx, 8
-	vmovd	xmm2, edx
-	vpinsrd	xmm2, xmm2, esi, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm2, xmm2, eax, 3
-	vmovd	xmm3, ecx
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, edi, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm2
-	mov	eax, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edx, dword ptr [rbx - 4]
-	mov	esi, eax
-	shld	esi, edx, 4
-	mov	edi, edx
-	shld	edi, ecx, 8
-	vmovd	xmm2, edx
-	vpinsrd	xmm2, xmm2, esi, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm2, xmm2, eax, 3
-	vmovd	xmm3, ecx
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, edi, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vinserti128	ymm2, ymm3, xmm2, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15], ymm2
-	sub	r15, -128
-	add	rbx, 48
-	add	r8, -1
-	jne	.LBB0_128
-	jmp	.LBB0_147
-.LBB0_102:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.103:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 108
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_22] # ymm0 = [0,0,0,0,0,0,0,4]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_23] # ymm1 = [1152921500580315135,1152921500580315135,1152921500580315135,1152921500580315135]
-	.p2align	4, 0x90
-.LBB0_104:                              # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 84]
-	mov	edx, dword ptr [rbx - 88]
-	mov	r10d, r9d
-	shld	r10d, edx, 24
-	mov	edi, dword ptr [rbx - 92]
-	shld	edx, edi, 20
-	mov	eax, dword ptr [rbx - 96]
-	shld	edi, eax, 16
-	mov	ecx, dword ptr [rbx - 100]
-	shld	eax, ecx, 12
-	mov	r11d, dword ptr [rbx - 108]
-	mov	esi, dword ptr [rbx - 104]
-	shld	ecx, esi, 8
-	shld	esi, r11d, 4
-	vmovd	xmm2, r11d
-	vmovd	xmm3, edi
-	vpinsrd	xmm2, xmm2, esi, 1
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpinsrd	xmm2, xmm2, ecx, 2
-	vpinsrd	xmm3, xmm3, r10d, 2
-	vpinsrd	xmm2, xmm2, eax, 3
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm2
-	mov	r9d, dword ptr [rbx - 56]
-	mov	ecx, dword ptr [rbx - 60]
-	mov	r10d, r9d
-	shld	r10d, ecx, 24
-	mov	esi, dword ptr [rbx - 64]
-	shld	ecx, esi, 20
-	mov	edi, dword ptr [rbx - 68]
-	shld	esi, edi, 16
-	mov	eax, dword ptr [rbx - 72]
-	shld	edi, eax, 12
-	mov	r11d, dword ptr [rbx - 80]
-	mov	edx, dword ptr [rbx - 76]
-	shld	eax, edx, 8
-	shld	edx, r11d, 4
-	vmovd	xmm2, r11d
-	vmovd	xmm3, esi
-	vpinsrd	xmm2, xmm2, edx, 1
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm3, xmm3, r10d, 2
-	vpinsrd	xmm2, xmm2, edi, 3
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm2
-	mov	r9d, dword ptr [rbx - 28]
-	mov	ecx, dword ptr [rbx - 32]
-	mov	r10d, r9d
-	shld	r10d, ecx, 24
-	mov	esi, dword ptr [rbx - 36]
-	shld	ecx, esi, 20
-	mov	edi, dword ptr [rbx - 40]
-	shld	esi, edi, 16
-	mov	eax, dword ptr [rbx - 44]
-	shld	edi, eax, 12
-	mov	r11d, dword ptr [rbx - 52]
-	mov	edx, dword ptr [rbx - 48]
-	shld	eax, edx, 8
-	shld	edx, r11d, 4
-	vmovd	xmm2, r11d
-	vmovd	xmm3, esi
-	vpinsrd	xmm2, xmm2, edx, 1
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm3, xmm3, r10d, 2
-	vpinsrd	xmm2, xmm2, edi, 3
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm2
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	r10d, r9d
-	shld	r10d, ecx, 24
-	mov	esi, dword ptr [rbx - 8]
-	shld	ecx, esi, 20
-	mov	edi, dword ptr [rbx - 12]
-	shld	esi, edi, 16
-	mov	eax, dword ptr [rbx - 16]
-	shld	edi, eax, 12
-	mov	r11d, dword ptr [rbx - 24]
-	mov	edx, dword ptr [rbx - 20]
-	shld	eax, edx, 8
-	shld	edx, r11d, 4
-	vmovd	xmm2, r11d
-	vmovd	xmm3, esi
-	vpinsrd	xmm2, xmm2, edx, 1
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm2, xmm2, eax, 2
-	vpinsrd	xmm3, xmm3, r10d, 2
-	vpinsrd	xmm2, xmm2, edi, 3
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vinserti128	ymm2, ymm2, xmm3, 1
-	vpsrlvd	ymm2, ymm2, ymm0
-	vpand	ymm2, ymm2, ymm1
-	vmovdqu	ymmword ptr [r15], ymm2
-	sub	r15, -128
-	add	rbx, 112
-	add	r8, -1
-	jne	.LBB0_104
-	jmp	.LBB0_147
-.LBB0_141:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.142:
-	mov	eax, r14d
-	add	r15, 96
-	xor	ecx, ecx
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_131] # ymm0 = [0,2,4,6,8,10,12,14]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_132] # ymm1 = [12884901891,12884901891,12884901891,12884901891]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_133] # ymm2 = [16,18,20,22,24,26,28,30]
-	.p2align	4, 0x90
-.LBB0_143:                              # =>This Inner Loop Header: Depth=1
-	vpbroadcastd	ymm3, dword ptr [rbx + 8*rcx]
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm3
-	vpbroadcastd	ymm3, dword ptr [rbx + 8*rcx]
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm3
-	vpbroadcastd	ymm3, dword ptr [rbx + 8*rcx + 4]
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm3
-	vpbroadcastd	ymm3, dword ptr [rbx + 8*rcx + 4]
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15], ymm3
-	add	rcx, 1
-	sub	r15, -128
-	cmp	rax, rcx
-	jne	.LBB0_143
-	jmp	.LBB0_147
-.LBB0_117:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.118:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 68
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_72] # ymm0 = [0,0,4,0,8,0,12,0]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_73] # ymm1 = [1125895612137471,1125895612137471,1125895612137471,1125895612137471]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_74] # ymm2 = [0,2,0,6,0,10,0,14]
-	.p2align	4, 0x90
-.LBB0_119:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 56]
-	mov	r10d, dword ptr [rbx - 52]
-	shld	r10d, ecx, 2
-	mov	esi, dword ptr [rbx - 60]
-	mov	edi, ecx
-	shld	edi, esi, 6
-	mov	r9d, dword ptr [rbx - 68]
-	mov	edx, dword ptr [rbx - 64]
-	mov	eax, edx
-	shld	eax, r9d, 14
-	vmovd	xmm3, esi
-	shld	esi, edx, 10
-	vpinsrd	xmm3, xmm3, edi, 1
-	vpinsrd	xmm3, xmm3, ecx, 2
-	vpinsrd	xmm3, xmm3, r10d, 3
-	vmovd	xmm4, r9d
-	vpinsrd	xmm4, xmm4, eax, 1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpinsrd	xmm4, xmm4, esi, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm3
-	mov	r9d, dword ptr [rbx - 36]
-	mov	r11d, dword ptr [rbx - 40]
-	mov	edx, r9d
-	shld	edx, r11d, 4
-	mov	r10d, dword ptr [rbx - 44]
-	mov	edi, r11d
-	shld	edi, r10d, 8
-	mov	eax, dword ptr [rbx - 52]
-	mov	esi, dword ptr [rbx - 48]
-	mov	ecx, r10d
-	shld	ecx, esi, 12
-	shrd	eax, esi, 16
-	vmovd	xmm3, edi
-	vpinsrd	xmm3, xmm3, r11d, 1
-	vpinsrd	xmm3, xmm3, edx, 2
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vmovd	xmm4, eax
-	vpinsrd	xmm4, xmm4, esi, 1
-	vpinsrd	xmm4, xmm4, ecx, 2
-	vpinsrd	xmm4, xmm4, r10d, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm3
-	mov	eax, dword ptr [rbx - 20]
-	mov	r10d, dword ptr [rbx - 16]
-	shld	r10d, eax, 2
-	mov	edx, dword ptr [rbx - 24]
-	mov	esi, eax
-	shld	esi, edx, 6
-	mov	r9d, dword ptr [rbx - 32]
-	mov	ecx, dword ptr [rbx - 28]
-	mov	edi, ecx
-	shld	edi, r9d, 14
-	vmovd	xmm3, edx
-	shld	edx, ecx, 10
-	vpinsrd	xmm3, xmm3, esi, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, r10d, 3
-	vmovd	xmm4, r9d
-	vpinsrd	xmm4, xmm4, edi, 1
-	vpinsrd	xmm4, xmm4, ecx, 2
-	vpinsrd	xmm4, xmm4, edx, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm3
-	mov	r9d, dword ptr [rbx]
-	mov	r11d, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, r11d, 4
-	mov	r10d, dword ptr [rbx - 8]
-	mov	edi, r11d
-	shld	edi, r10d, 8
-	mov	eax, dword ptr [rbx - 16]
-	mov	esi, dword ptr [rbx - 12]
-	mov	ecx, r10d
-	shld	ecx, esi, 12
-	shrd	eax, esi, 16
-	vmovd	xmm3, edi
-	vpinsrd	xmm3, xmm3, r11d, 1
-	vpinsrd	xmm3, xmm3, edx, 2
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vmovd	xmm4, eax
-	vpinsrd	xmm4, xmm4, esi, 1
-	vpinsrd	xmm4, xmm4, ecx, 2
-	vpinsrd	xmm4, xmm4, r10d, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15], ymm3
-	sub	r15, -128
-	add	rbx, 72
-	add	r8, -1
-	jne	.LBB0_119
-	jmp	.LBB0_147
-.LBB0_129:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.130:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 36
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_101] # ymm0 = [0,10,20,0,8,18,0,6]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_102] # ymm1 = [4393751544831,4393751544831,4393751544831,4393751544831]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_103] # ymm2 = [16,0,4,14,0,2,12,22]
-	.p2align	4, 0x90
-.LBB0_131:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 28]
-	mov	edx, dword ptr [rbx - 36]
-	mov	esi, dword ptr [rbx - 32]
-	mov	edi, ecx
-	shld	edi, esi, 4
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, esi, 1
-	shld	esi, edx, 2
-	vpinsrd	xmm3, xmm3, edi, 2
-	vpinsrd	xmm3, xmm3, ecx, 3
-	vmovd	xmm4, edx
-	vpinsrd	xmm4, xmm4, edx, 1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpinsrd	xmm4, xmm4, esi, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm3
-	mov	ecx, dword ptr [rbx - 20]
-	mov	edx, dword ptr [rbx - 24]
-	mov	esi, ecx
-	shld	esi, edx, 8
-	mov	edi, dword ptr [rbx - 28]
-	mov	eax, edx
-	shld	eax, edi, 6
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, ecx, 2
-	vpinsrd	xmm3, xmm3, ecx, 3
-	vmovd	xmm4, edi
-	vpinsrd	xmm4, xmm4, eax, 1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpinsrd	xmm4, xmm4, edx, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm3
-	mov	eax, dword ptr [rbx - 8]
-	mov	ecx, dword ptr [rbx - 16]
-	mov	edx, dword ptr [rbx - 12]
-	mov	esi, eax
-	shld	esi, edx, 4
-	vmovd	xmm3, edx
-	vpinsrd	xmm3, xmm3, edx, 1
-	shld	edx, ecx, 2
-	vpinsrd	xmm3, xmm3, esi, 2
-	vpinsrd	xmm3, xmm3, eax, 3
-	vmovd	xmm4, ecx
-	vpinsrd	xmm4, xmm4, ecx, 1
-	vpinsrd	xmm4, xmm4, ecx, 2
-	vpinsrd	xmm4, xmm4, edx, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm3
-	mov	eax, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edx, dword ptr [rbx - 4]
-	mov	esi, eax
-	shld	esi, edx, 8
-	mov	edi, edx
-	shld	edi, ecx, 6
-	vmovd	xmm3, esi
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, eax, 3
-	vmovd	xmm4, ecx
-	vpinsrd	xmm4, xmm4, edi, 1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpinsrd	xmm4, xmm4, edx, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15], ymm3
-	sub	r15, -128
-	add	rbx, 40
-	add	r8, -1
-	jne	.LBB0_131
-	jmp	.LBB0_147
-.LBB0_105:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.106:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 100
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_34] # ymm0 = [288230371923853311,288230371923853311,288230371923853311,288230371923853311]
-	vpbroadcastq	xmm1, qword ptr [rip + .LCPI0_35] # xmm1 = [42949672976,42949672976]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_33] # ymm2 = [0,0,0,0,0,2,0,0]
-	vpbroadcastq	xmm3, qword ptr [rip + .LCPI0_36] # xmm3 = [94489280528,94489280528]
-	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_37] # ymm4 = [0,0,4,0,0,0,0,6]
-	.p2align	4, 0x90
-.LBB0_107:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 80]
-	mov	r9d, dword ptr [rbx - 76]
-	shld	r9d, ecx, 10
-	mov	r11d, dword ptr [rbx - 84]
-	shld	ecx, r11d, 4
-	mov	edi, dword ptr [rbx - 88]
-	mov	esi, r11d
-	shld	esi, edi, 24
-	mov	edx, dword ptr [rbx - 92]
-	shld	edi, edx, 18
-	mov	r10d, dword ptr [rbx - 100]
-	mov	eax, dword ptr [rbx - 96]
-	shld	edx, eax, 12
-	shld	eax, r10d, 6
-	vmovd	xmm5, r10d
-	vmovd	xmm6, esi
-	vpinsrd	xmm5, xmm5, eax, 1
-	vpinsrd	xmm6, xmm6, r11d, 1
-	vpinsrd	xmm5, xmm5, edx, 2
-	vpinsrd	xmm6, xmm6, ecx, 2
-	vpinsrd	xmm5, xmm5, edi, 3
-	vpinsrd	xmm6, xmm6, r9d, 3
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm5
-	mov	r9d, dword ptr [rbx - 52]
-	mov	ecx, dword ptr [rbx - 56]
-	mov	edx, r9d
-	shld	edx, ecx, 20
-	mov	esi, dword ptr [rbx - 60]
-	shld	ecx, esi, 14
-	mov	edi, dword ptr [rbx - 68]
-	mov	eax, dword ptr [rbx - 64]
-	shld	esi, eax, 8
-	shld	eax, edi, 2
-	vmovq	xmm5, qword ptr [rbx - 76]      # xmm5 = mem[0],zero
-	vpsrlvd	xmm6, xmm5, xmm1
-	vpshufd	xmm5, xmm5, 229                 # xmm5 = xmm5[1,1,2,3]
-	vpinsrd	xmm5, xmm5, edi, 1
-	vpsllvd	xmm5, xmm5, xmm3
-	vpor	xmm5, xmm6, xmm5
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, r9d, 3
-	vpinsrd	xmm5, xmm5, edi, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm5
-	mov	eax, dword ptr [rbx - 28]
-	mov	r9d, dword ptr [rbx - 24]
-	shld	r9d, eax, 10
-	mov	r11d, dword ptr [rbx - 32]
-	shld	eax, r11d, 4
-	mov	esi, dword ptr [rbx - 36]
-	mov	edi, r11d
-	shld	edi, esi, 24
-	mov	ecx, dword ptr [rbx - 40]
-	shld	esi, ecx, 18
-	mov	r10d, dword ptr [rbx - 48]
-	mov	edx, dword ptr [rbx - 44]
-	shld	ecx, edx, 12
-	shld	edx, r10d, 6
-	vmovd	xmm5, r10d
-	vmovd	xmm6, edi
-	vpinsrd	xmm5, xmm5, edx, 1
-	vpinsrd	xmm6, xmm6, r11d, 1
-	vpinsrd	xmm5, xmm5, ecx, 2
-	vpinsrd	xmm6, xmm6, eax, 2
-	vpinsrd	xmm5, xmm5, esi, 3
-	vpinsrd	xmm6, xmm6, r9d, 3
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm2
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm5
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, ecx, 20
-	mov	esi, dword ptr [rbx - 8]
-	shld	ecx, esi, 14
-	mov	edi, dword ptr [rbx - 16]
-	mov	eax, dword ptr [rbx - 12]
-	shld	esi, eax, 8
-	shld	eax, edi, 2
-	vmovq	xmm5, qword ptr [rbx - 24]      # xmm5 = mem[0],zero
-	vpsrlvd	xmm6, xmm5, xmm1
-	vpshufd	xmm5, xmm5, 229                 # xmm5 = xmm5[1,1,2,3]
-	vpinsrd	xmm5, xmm5, edi, 1
-	vpsllvd	xmm5, xmm5, xmm3
-	vpor	xmm5, xmm6, xmm5
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, r9d, 3
-	vpinsrd	xmm5, xmm5, edi, 2
-	vpinsrd	xmm5, xmm5, eax, 3
-	vinserti128	ymm5, ymm5, xmm6, 1
-	vpsrlvd	ymm5, ymm5, ymm4
-	vpand	ymm5, ymm5, ymm0
-	vmovdqu	ymmword ptr [r15], ymm5
-	sub	r15, -128
-	add	rbx, 104
-	add	r8, -1
-	jne	.LBB0_107
-	jmp	.LBB0_147
-.LBB0_135:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.136:
-	mov	eax, r14d
-	add	r15, 96
-	add	rbx, 20
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_116] # ymm0 = [0,6,12,18,24,0,4,10]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_117] # ymm1 = [270582939711,270582939711,270582939711,270582939711]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_118] # ymm2 = [16,22,0,2,8,14,20,26]
-	.p2align	4, 0x90
-.LBB0_137:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rbx - 20]
-	mov	edx, dword ptr [rbx - 16]
-	mov	esi, edx
-	shld	esi, ecx, 2
-	vmovd	xmm3, ecx
-	vpbroadcastd	xmm4, xmm3
-	vpinsrd	xmm3, xmm3, esi, 1
-	vpinsrd	xmm3, xmm3, edx, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm3
-	mov	ecx, dword ptr [rbx - 16]
-	mov	edx, dword ptr [rbx - 12]
-	mov	esi, edx
-	shld	esi, ecx, 4
-	vmovd	xmm3, ecx
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, esi, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vmovd	xmm4, edx
-	vpbroadcastd	xmm4, xmm4
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm3
-	mov	ecx, dword ptr [rbx - 8]
-	mov	edx, dword ptr [rbx - 4]
-	mov	esi, edx
-	shld	esi, ecx, 2
-	vmovd	xmm3, ecx
-	vpinsrd	xmm4, xmm3, esi, 1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpbroadcastd	xmm3, xmm3
-	vpinsrd	xmm4, xmm4, edx, 3
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm3
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, dword ptr [rbx]
-	mov	esi, edx
-	shld	esi, ecx, 4
-	vmovd	xmm3, ecx
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, esi, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vmovd	xmm4, edx
-	vpbroadcastd	xmm4, xmm4
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15], ymm3
-	sub	r15, -128
-	add	rbx, 24
-	add	rax, -1
-	jne	.LBB0_137
-	jmp	.LBB0_147
-.LBB0_111:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.112:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 84
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_55] # ymm0 = [0,0,0,2,0,0,4,0]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_56] # ymm1 = [18014394218708991,18014394218708991,18014394218708991,18014394218708991]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_57] # ymm2 = [0,6,0,0,8,0,0,10]
-	.p2align	4, 0x90
-.LBB0_113:                              # =>This Inner Loop Header: Depth=1
-	mov	r10d, dword ptr [rbx - 68]
-	mov	r9d, dword ptr [rbx - 64]
-	shld	r9d, r10d, 6
-	mov	esi, dword ptr [rbx - 72]
-	mov	edi, r10d
-	shld	edi, esi, 18
-	mov	edx, dword ptr [rbx - 76]
-	shld	esi, edx, 8
-	mov	r11d, dword ptr [rbx - 84]
-	mov	ecx, dword ptr [rbx - 80]
-	mov	eax, edx
-	shld	eax, ecx, 20
-	shld	ecx, r11d, 10
-	vmovd	xmm3, r11d
-	vmovd	xmm4, esi
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm4, xmm4, edi, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm4, xmm4, r10d, 2
-	vpinsrd	xmm3, xmm3, edx, 3
-	vpinsrd	xmm4, xmm4, r9d, 3
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm3
-	mov	r9d, dword ptr [rbx - 44]
-	mov	ecx, dword ptr [rbx - 48]
-	mov	r10d, r9d
-	shld	r10d, ecx, 12
-	mov	esi, dword ptr [rbx - 52]
-	shld	ecx, esi, 2
-	mov	edi, dword ptr [rbx - 56]
-	vmovd	xmm3, esi
-	shld	esi, edi, 14
-	mov	eax, dword ptr [rbx - 64]
-	mov	edx, dword ptr [rbx - 60]
-	shld	edi, edx, 4
-	shrd	eax, edx, 16
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vmovd	xmm4, eax
-	vpinsrd	xmm3, xmm3, r10d, 2
-	vpinsrd	xmm4, xmm4, edx, 1
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vpinsrd	xmm4, xmm4, edi, 2
-	vpinsrd	xmm4, xmm4, esi, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm3
-	mov	r10d, dword ptr [rbx - 24]
-	mov	r9d, dword ptr [rbx - 20]
-	shld	r9d, r10d, 6
-	mov	edx, dword ptr [rbx - 28]
-	mov	esi, r10d
-	shld	esi, edx, 18
-	mov	ecx, dword ptr [rbx - 32]
-	shld	edx, ecx, 8
-	mov	r11d, dword ptr [rbx - 40]
-	mov	eax, dword ptr [rbx - 36]
-	mov	edi, ecx
-	shld	edi, eax, 20
-	shld	eax, r11d, 10
-	vmovd	xmm3, r11d
-	vmovd	xmm4, edx
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm4, xmm4, esi, 1
-	vpinsrd	xmm3, xmm3, edi, 2
-	vpinsrd	xmm4, xmm4, r10d, 2
-	vpinsrd	xmm3, xmm3, ecx, 3
-	vpinsrd	xmm4, xmm4, r9d, 3
-	vinserti128	ymm3, ymm3, xmm4, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm3
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	r10d, r9d
-	shld	r10d, ecx, 12
-	mov	esi, dword ptr [rbx - 8]
-	shld	ecx, esi, 2
-	mov	edi, dword ptr [rbx - 12]
-	vmovd	xmm3, esi
-	shld	esi, edi, 14
-	mov	eax, dword ptr [rbx - 20]
-	mov	edx, dword ptr [rbx - 16]
-	shld	edi, edx, 4
-	shrd	eax, edx, 16
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vmovd	xmm4, eax
-	vpinsrd	xmm3, xmm3, r10d, 2
-	vpinsrd	xmm4, xmm4, edx, 1
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vpinsrd	xmm4, xmm4, edi, 2
-	vpinsrd	xmm4, xmm4, esi, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15], ymm3
-	sub	r15, -128
-	add	rbx, 88
-	add	r8, -1
-	jne	.LBB0_113
-	jmp	.LBB0_147
-.LBB0_123:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.124:
-	mov	r8d, r14d
-	add	r15, 96
-	add	rbx, 52
-	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_86] # ymm0 = [0,14,0,10,0,6,0,2]
-	vpbroadcastq	ymm1, qword ptr [rip + .LCPI0_87] # ymm1 = [70364449226751,70364449226751,70364449226751,70364449226751]
-	vmovdqa	ymm2, ymmword ptr [rip + .LCPI0_88] # ymm2 = [16,0,12,0,8,0,4,18]
-	.p2align	4, 0x90
-.LBB0_125:                              # =>This Inner Loop Header: Depth=1
-	mov	r9d, dword ptr [rbx - 40]
-	mov	ecx, dword ptr [rbx - 44]
-	mov	esi, r9d
-	shld	esi, ecx, 12
-	mov	edi, dword ptr [rbx - 52]
-	mov	r10d, dword ptr [rbx - 48]
-	mov	edx, ecx
-	shld	edx, r10d, 8
-	mov	eax, r10d
-	shld	eax, edi, 4
-	vmovd	xmm3, edx
-	vpinsrd	xmm3, xmm3, ecx, 1
-	vpinsrd	xmm3, xmm3, esi, 2
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vmovd	xmm4, edi
-	vpinsrd	xmm4, xmm4, edi, 1
-	vpinsrd	xmm4, xmm4, eax, 2
-	vpinsrd	xmm4, xmm4, r10d, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 96], ymm3
-	mov	eax, dword ptr [rbx - 28]
-	mov	ecx, dword ptr [rbx - 32]
-	mov	edx, eax
-	shld	edx, ecx, 10
-	mov	r9d, dword ptr [rbx - 40]
-	mov	esi, dword ptr [rbx - 36]
-	vmovd	xmm3, ecx
-	shld	ecx, esi, 6
-	mov	edi, esi
-	shld	edi, r9d, 2
-	vmovd	xmm4, r9d
-	vpinsrd	xmm4, xmm4, edi, 1
-	vpinsrd	xmm4, xmm4, esi, 2
-	vpinsrd	xmm4, xmm4, ecx, 3
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpinsrd	xmm3, xmm3, eax, 2
-	vpinsrd	xmm3, xmm3, eax, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 64], ymm3
-	mov	r9d, dword ptr [rbx - 12]
-	mov	eax, dword ptr [rbx - 16]
-	mov	edx, r9d
-	shld	edx, eax, 12
-	mov	esi, dword ptr [rbx - 24]
-	mov	r10d, dword ptr [rbx - 20]
-	mov	ecx, eax
-	shld	ecx, r10d, 8
-	mov	edi, r10d
-	shld	edi, esi, 4
-	vmovd	xmm3, ecx
-	vpinsrd	xmm3, xmm3, eax, 1
-	vpinsrd	xmm3, xmm3, edx, 2
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vmovd	xmm4, esi
-	vpinsrd	xmm4, xmm4, esi, 1
-	vpinsrd	xmm4, xmm4, edi, 2
-	vpinsrd	xmm4, xmm4, r10d, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm0
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15 - 32], ymm3
-	mov	r9d, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, r9d
-	shld	edx, ecx, 10
-	mov	eax, dword ptr [rbx - 8]
-	vmovd	xmm3, ecx
-	shld	ecx, eax, 6
-	mov	edi, dword ptr [rbx - 12]
-	mov	esi, eax
-	shld	esi, edi, 2
-	vmovd	xmm4, edi
-	vpinsrd	xmm4, xmm4, esi, 1
-	vpinsrd	xmm4, xmm4, eax, 2
-	vpinsrd	xmm4, xmm4, ecx, 3
-	vpinsrd	xmm3, xmm3, edx, 1
-	vpinsrd	xmm3, xmm3, r9d, 2
-	vpinsrd	xmm3, xmm3, r9d, 3
-	vinserti128	ymm3, ymm4, xmm3, 1
-	vpsrlvd	ymm3, ymm3, ymm2
-	vpand	ymm3, ymm3, ymm1
-	vmovdqu	ymmword ptr [r15], ymm3
-	sub	r15, -128
-	add	rbx, 56
-	add	r8, -1
-	jne	.LBB0_125
-	jmp	.LBB0_147
-.LBB0_99:
-	cmp	edx, 32
-	jl	.LBB0_147
-# %bb.100:
-	mov	r8d, r14d
-	add	r15, 96
-	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_8] # ymm0 = [4611686015206162431,4611686015206162431,4611686015206162431,4611686015206162431]
-	add	rbx, 116
-	vmovdqa	xmm1, xmmword ptr [rip + .LCPI0_9] # xmm1 = [16,14,12,10]
-	vmovdqa	xmm2, xmmword ptr [rip + .LCPI0_10] # xmm2 = [16,18,20,22]
-	vmovdqa	ymm3, ymmword ptr [rip + .LCPI0_11] # ymm3 = [0,0,0,0,0,0,0,2]
-	.p2align	4, 0x90
-.LBB0_101:                              # =>This Inner Loop Header: Depth=1
-	mov	r11d, dword ptr [rbx - 92]
-	mov	r9d, dword ptr [rbx - 88]
-	shld	r9d, r11d, 14
-	mov	esi, dword ptr [rbx - 96]
-	shld	r11d, esi, 12
-	mov	edi, dword ptr [rbx - 100]
-	shld	esi, edi, 10
-	mov	eax, dword ptr [rbx - 104]
-	shld	edi, eax, 8
-	mov	edx, dword ptr [rbx - 108]
-	shld	eax, edx, 6
-	mov	r10d, dword ptr [rbx - 116]
-	mov	ecx, dword ptr [rbx - 112]
-	shld	edx, ecx, 4
-	shld	ecx, r10d, 2
-	vmovd	xmm4, r10d
-	vmovd	xmm5, edi
-	vpinsrd	xmm4, xmm4, ecx, 1
-	vpinsrd	xmm5, xmm5, esi, 1
-	vpinsrd	xmm4, xmm4, edx, 2
-	vpinsrd	xmm5, xmm5, r11d, 2
-	vpinsrd	xmm4, xmm4, eax, 3
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vinserti128	ymm4, ymm4, xmm5, 1
-	vpand	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r15 - 96], ymm4
-	mov	eax, dword ptr [rbx - 60]
-	mov	ecx, dword ptr [rbx - 64]
-	mov	edx, eax
-	shld	edx, ecx, 28
-	mov	esi, dword ptr [rbx - 68]
-	mov	edi, dword ptr [rbx - 72]
-	shld	ecx, esi, 26
-	shld	esi, edi, 24
-	vmovdqu	xmm4, xmmword ptr [rbx - 88]
-	vpsrlvd	xmm5, xmm4, xmm1
-	vpshufd	xmm4, xmm4, 249                 # xmm4 = xmm4[1,2,3,3]
-	vpinsrd	xmm4, xmm4, edi, 3
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpsllvd	xmm4, xmm4, xmm2
-	vpinsrd	xmm6, xmm6, eax, 3
-	vpor	xmm4, xmm5, xmm4
-	vinserti128	ymm4, ymm4, xmm6, 1
-	vpsrlvd	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r15 - 64], ymm4
-	mov	r11d, dword ptr [rbx - 32]
-	mov	r9d, dword ptr [rbx - 28]
-	shld	r9d, r11d, 14
-	mov	edx, dword ptr [rbx - 36]
-	shld	r11d, edx, 12
-	mov	esi, dword ptr [rbx - 40]
-	shld	edx, esi, 10
-	mov	edi, dword ptr [rbx - 44]
-	shld	esi, edi, 8
-	mov	ecx, dword ptr [rbx - 48]
-	shld	edi, ecx, 6
-	mov	r10d, dword ptr [rbx - 56]
-	mov	eax, dword ptr [rbx - 52]
-	shld	ecx, eax, 4
-	shld	eax, r10d, 2
-	vmovd	xmm4, r10d
-	vmovd	xmm5, esi
-	vpinsrd	xmm4, xmm4, eax, 1
-	vpinsrd	xmm5, xmm5, edx, 1
-	vpinsrd	xmm4, xmm4, ecx, 2
-	vpinsrd	xmm5, xmm5, r11d, 2
-	vpinsrd	xmm4, xmm4, edi, 3
-	vpinsrd	xmm5, xmm5, r9d, 3
-	vinserti128	ymm4, ymm4, xmm5, 1
-	vpand	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r15 - 32], ymm4
-	mov	eax, dword ptr [rbx]
-	mov	ecx, dword ptr [rbx - 4]
-	mov	edx, eax
-	shld	edx, ecx, 28
-	mov	esi, dword ptr [rbx - 8]
-	shld	ecx, esi, 26
-	mov	edi, dword ptr [rbx - 12]
-	vmovdqu	xmm4, xmmword ptr [rbx - 28]
-	shld	esi, edi, 24
-	vpsrlvd	xmm5, xmm4, xmm1
-	vpshufd	xmm4, xmm4, 249                 # xmm4 = xmm4[1,2,3,3]
-	vpinsrd	xmm4, xmm4, edi, 3
-	vmovd	xmm6, esi
-	vpinsrd	xmm6, xmm6, ecx, 1
-	vpsllvd	xmm4, xmm4, xmm2
-	vpinsrd	xmm6, xmm6, edx, 2
-	vpinsrd	xmm6, xmm6, eax, 3
-	vpor	xmm4, xmm5, xmm4
-	vinserti128	ymm4, ymm4, xmm6, 1
-	vpsrlvd	ymm4, ymm4, ymm3
-	vpand	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r15], ymm4
-	sub	r15, -128
-	add	rbx, 120
-	add	r8, -1
-	jne	.LBB0_101
-.LBB0_147:
-	shl	r14d, 5
-	mov	eax, r14d
-	lea	rsp, [rbp - 32]
-	pop	rbx
-	pop	r12
-	pop	r14
-	pop	r15
-	pop	rbp
-	vzeroupper
-	ret
-.Lfunc_end0:
-	.size	unpack32_avx2, .Lfunc_end0-unpack32_avx2
-                                        # -- End function
-	.ident	"Debian clang version 11.1.0-++20210428103820+1fdec59bffc1-1~exp1~20210428204437.162"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/parquet/internal/utils/_lib/bit_packing_neon.c b/go/parquet/internal/utils/_lib/bit_packing_neon.c
deleted file mode 100755
index 6d09eeb75b6a8..0000000000000
--- a/go/parquet/internal/utils/_lib/bit_packing_neon.c
+++ /dev/null
@@ -1,3196 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <stdint.h>
-#include <string.h>
-
-#include "arm_neon.h"
-
-inline const uint32_t* unpack0_32_neon(const uint32_t* in, uint32_t* out) {
-  for (const uint32_t* end = out + 32; out != end; out++) {
-    *out = 0;
-  }
-
-  return in;
-}
-
-inline static const uint32_t* unpack1_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 1, 2, 3};
-  uint32_t shifts_2nd[4] = {4, 5, 6, 7};
-  uint32_t shifts_3rd[4] = {8, 9, 10, 11};
-  uint32_t shifts_4th[4] = {12, 13, 14, 15};
-  uint32_t shifts_5th[4] = {16, 17, 18, 19};
-  uint32_t shifts_6th[4] = {20, 21, 22, 23};
-  uint32_t shifts_7th[4] = {24, 25, 26, 27};
-  uint32_t shifts_8th[4] = {28, 29, 30, 31};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[0] >> shifts_2nd[0];
-  ind[1] = in[0] >> shifts_2nd[1];
-  ind[2] = in[0] >> shifts_2nd[2];
-  ind[3] = in[0] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[0] >> shifts_3rd[0];
-  ind[1] = in[0] >> shifts_3rd[1];
-  ind[2] = in[0] >> shifts_3rd[2];
-  ind[3] = in[0] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[0] >> shifts_4th[0];
-  ind[1] = in[0] >> shifts_4th[1];
-  ind[2] = in[0] >> shifts_4th[2];
-  ind[3] = in[0] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[0] >> shifts_5th[0];
-  ind[1] = in[0] >> shifts_5th[1];
-  ind[2] = in[0] >> shifts_5th[2];
-  ind[3] = in[0] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[0] >> shifts_6th[0];
-  ind[1] = in[0] >> shifts_6th[1];
-  ind[2] = in[0] >> shifts_6th[2];
-  ind[3] = in[0] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[0] >> shifts_7th[0];
-  ind[1] = in[0] >> shifts_7th[1];
-  ind[2] = in[0] >> shifts_7th[2];
-  ind[3] = in[0] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[0] >> shifts_8th[0];
-  ind[1] = in[0] >> shifts_8th[1];
-  ind[2] = in[0] >> shifts_8th[2];
-  ind[3] = in[0] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 1;
-
-  return in;
-}
-
-inline static const uint32_t* unpack2_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 2, 4, 6};
-  uint32_t shifts_2nd[4] = {8, 10, 12, 14};
-  uint32_t shifts_3rd[4] = {16, 18, 20, 22};
-  uint32_t shifts_4th[4] = {24, 26, 28, 30};
-
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[0] >> shifts_2nd[0];
-  ind[1] = in[0] >> shifts_2nd[1];
-  ind[2] = in[0] >> shifts_2nd[2];
-  ind[3] = in[0] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[0] >> shifts_3rd[0];
-  ind[1] = in[0] >> shifts_3rd[1];
-  ind[2] = in[0] >> shifts_3rd[2];
-  ind[3] = in[0] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[0] >> shifts_4th[0];
-  ind[1] = in[0] >> shifts_4th[1];
-  ind[2] = in[0] >> shifts_4th[2];
-  ind[3] = in[0] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[1] >> shifts_1st[0];
-  ind[1] = in[1] >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[1] >> shifts_2nd[0];
-  ind[1] = in[1] >> shifts_2nd[1];
-  ind[2] = in[1] >> shifts_2nd[2];
-  ind[3] = in[1] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[1] >> shifts_3rd[0];
-  ind[1] = in[1] >> shifts_3rd[1];
-  ind[2] = in[1] >> shifts_3rd[2];
-  ind[3] = in[1] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[1] >> shifts_4th[0];
-  ind[1] = in[1] >> shifts_4th[1];
-  ind[2] = in[1] >> shifts_4th[2];
-  ind[3] = in[1] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 2;
-
-  return in;
-}
-
-inline static const uint32_t* unpack3_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 3, 6, 9};
-  uint32_t shifts_2nd[4] = {12, 15, 18, 21};
-  uint32_t shifts_3rd[4] = {24, 27, 0, 1};
-  uint32_t shifts_4th[4] = {4, 7, 10, 13};
-  uint32_t shifts_5th[4] = {16, 19, 22, 25};
-  uint32_t shifts_6th[4] = {28, 0, 2, 5};
-  uint32_t shifts_7th[4] = {8, 11, 14, 17};
-  uint32_t shifts_8th[4] = {20, 23, 26, 29};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[0] >> shifts_2nd[0];
-  ind[1] = in[0] >> shifts_2nd[1];
-  ind[2] = in[0] >> shifts_2nd[2];
-  ind[3] = in[0] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[0] >> shifts_3rd[0];
-  ind[1] = in[0] >> shifts_3rd[1];
-  ind[2] = (in[0] >> 30 | in[1] << 2) >> shifts_3rd[2];
-  ind[3] = in[1] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[1] >> shifts_4th[0];
-  ind[1] = in[1] >> shifts_4th[1];
-  ind[2] = in[1] >> shifts_4th[2];
-  ind[3] = in[1] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[1] >> shifts_5th[0];
-  ind[1] = in[1] >> shifts_5th[1];
-  ind[2] = in[1] >> shifts_5th[2];
-  ind[3] = in[1] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[1] >> shifts_6th[0];
-  ind[1] = (in[1] >> 31 | in[2] << 1) >> shifts_6th[1];
-  ind[2] = in[2] >> shifts_6th[2];
-  ind[3] = in[2] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[2] >> shifts_7th[0];
-  ind[1] = in[2] >> shifts_7th[1];
-  ind[2] = in[2] >> shifts_7th[2];
-  ind[3] = in[2] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[2] >> shifts_8th[0];
-  ind[1] = in[2] >> shifts_8th[1];
-  ind[2] = in[2] >> shifts_8th[2];
-  ind[3] = in[2] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 3;
-
-  return in;
-}
-
-inline static const uint32_t* unpack4_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xf;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 4, 8, 12};
-  uint32_t shifts_2nd[4] = {16, 20, 24, 28};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[0] >> shifts_2nd[0];
-  ind[1] = in[0] >> shifts_2nd[1];
-  ind[2] = in[0] >> shifts_2nd[2];
-  ind[3] = in[0] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[1] >> shifts_1st[0];
-  ind[1] = in[1] >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[1] >> shifts_2nd[0];
-  ind[1] = in[1] >> shifts_2nd[1];
-  ind[2] = in[1] >> shifts_2nd[2];
-  ind[3] = in[1] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[2] >> shifts_1st[0];
-  ind[1] = in[2] >> shifts_1st[1];
-  ind[2] = in[2] >> shifts_1st[2];
-  ind[3] = in[2] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[2] >> shifts_2nd[0];
-  ind[1] = in[2] >> shifts_2nd[1];
-  ind[2] = in[2] >> shifts_2nd[2];
-  ind[3] = in[2] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[3] >> shifts_1st[0];
-  ind[1] = in[3] >> shifts_1st[1];
-  ind[2] = in[3] >> shifts_1st[2];
-  ind[3] = in[3] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[3] >> shifts_2nd[0];
-  ind[1] = in[3] >> shifts_2nd[1];
-  ind[2] = in[3] >> shifts_2nd[2];
-  ind[3] = in[3] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 4;
-
-  return in;
-}
-
-inline static const uint32_t* unpack5_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1f;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 5, 10, 15};
-  uint32_t shifts_2nd[4] = {20, 25, 0, 3};
-  uint32_t shifts_3rd[4] = {8, 13, 18, 23};
-  uint32_t shifts_4th[4] = {0, 1, 6, 11};
-  uint32_t shifts_5th[4] = {16, 21, 26, 0};
-  uint32_t shifts_6th[4] = {4, 9, 14, 19};
-  uint32_t shifts_7th[4] = {24, 0, 2, 7};
-  uint32_t shifts_8th[4] = {12, 17, 22, 27};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[0] >> shifts_2nd[0];
-  ind[1] = in[0] >> shifts_2nd[1];
-  ind[2] = (in[0] >> 30 | in[1] << 2) >> shifts_2nd[2];
-  ind[3] = in[1] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[1] >> shifts_3rd[0];
-  ind[1] = in[1] >> shifts_3rd[1];
-  ind[2] = in[1] >> shifts_3rd[2];
-  ind[3] = in[1] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[1] >> 28 | in[2] << 4) >> shifts_4th[0];
-  ind[1] = in[2] >> shifts_4th[1];
-  ind[2] = in[2] >> shifts_4th[2];
-  ind[3] = in[2] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[2] >> shifts_5th[0];
-  ind[1] = in[2] >> shifts_5th[1];
-  ind[2] = in[2] >> shifts_5th[2];
-  ind[3] = (in[2] >> 31 | in[3] << 1) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[3] >> shifts_6th[0];
-  ind[1] = in[3] >> shifts_6th[1];
-  ind[2] = in[3] >> shifts_6th[2];
-  ind[3] = in[3] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[3] >> shifts_7th[0];
-  ind[1] = (in[3] >> 29 | in[4] << 3) >> shifts_7th[1];
-  ind[2] = in[4] >> shifts_7th[2];
-  ind[3] = in[4] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[4] >> shifts_8th[0];
-  ind[1] = in[4] >> shifts_8th[1];
-  ind[2] = in[4] >> shifts_8th[2];
-  ind[3] = in[4] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 5;
-
-  return in;
-}
-
-inline static const uint32_t* unpack6_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3f;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 6, 12, 18};
-  uint32_t shifts_2nd[4] = {24, 0, 4, 10};
-  uint32_t shifts_3rd[4] = {16, 22, 0, 2};
-  uint32_t shifts_4th[4] = {8, 14, 20, 26};
-
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[0] >> shifts_2nd[0];
-  ind[1] = (in[0] >> 30 | in[1] << 2) >> shifts_2nd[1];
-  ind[2] = in[1] >> shifts_2nd[2];
-  ind[3] = in[1] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[1] >> shifts_3rd[0];
-  ind[1] = in[1] >> shifts_3rd[1];
-  ind[2] = (in[1] >> 28 | in[2] << 4) >> shifts_3rd[2];
-  ind[3] = in[2] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[2] >> shifts_4th[0];
-  ind[1] = in[2] >> shifts_4th[1];
-  ind[2] = in[2] >> shifts_4th[2];
-  ind[3] = in[2] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[3] >> shifts_1st[0];
-  ind[1] = in[3] >> shifts_1st[1];
-  ind[2] = in[3] >> shifts_1st[2];
-  ind[3] = in[3] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[3] >> shifts_2nd[0];
-  ind[1] = (in[3] >> 30 | in[4] << 2) >> shifts_2nd[1];
-  ind[2] = in[4] >> shifts_2nd[2];
-  ind[3] = in[4] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[4] >> shifts_3rd[0];
-  ind[1] = in[4] >> shifts_3rd[1];
-  ind[2] = (in[4] >> 28 | in[5] << 4) >> shifts_3rd[2];
-  ind[3] = in[5] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[5] >> shifts_4th[0];
-  ind[1] = in[5] >> shifts_4th[1];
-  ind[2] = in[5] >> shifts_4th[2];
-  ind[3] = in[5] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 6;
-
-  return in;
-}
-
-inline static const uint32_t* unpack7_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7f;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 7, 14, 21};
-  uint32_t shifts_2nd[4] = {0, 3, 10, 17};
-  uint32_t shifts_3rd[4] = {24, 0, 6, 13};
-  uint32_t shifts_4th[4] = {20, 0, 2, 9};
-  uint32_t shifts_5th[4] = {16, 23, 0, 5};
-  uint32_t shifts_6th[4] = {12, 19, 0, 1};
-  uint32_t shifts_7th[4] = {8, 15, 22, 0};
-  uint32_t shifts_8th[4] = {4, 11, 18, 25};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[0] >> 28 | in[1] << 4) >> shifts_2nd[0];
-  ind[1] = in[1] >> shifts_2nd[1];
-  ind[2] = in[1] >> shifts_2nd[2];
-  ind[3] = in[1] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[1] >> shifts_3rd[0];
-  ind[1] = (in[1] >> 31 | in[2] << 1) >> shifts_3rd[1];
-  ind[2] = in[2] >> shifts_3rd[2];
-  ind[3] = in[2] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[2] >> shifts_4th[0];
-  ind[1] = (in[2] >> 27 | in[3] << 5) >> shifts_4th[1];
-  ind[2] = in[3] >> shifts_4th[2];
-  ind[3] = in[3] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[3] >> shifts_5th[0];
-  ind[1] = in[3] >> shifts_5th[1];
-  ind[2] = (in[3] >> 30 | in[4] << 2) >> shifts_5th[2];
-  ind[3] = in[4] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[4] >> shifts_6th[0];
-  ind[1] = in[4] >> shifts_6th[1];
-  ind[2] = (in[4] >> 26 | in[5] << 6) >> shifts_6th[2];
-  ind[3] = in[5] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[5] >> shifts_7th[0];
-  ind[1] = in[5] >> shifts_7th[1];
-  ind[2] = in[5] >> shifts_7th[2];
-  ind[3] = (in[5] >> 29 | in[6] << 3) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[6] >> shifts_8th[0];
-  ind[1] = in[6] >> shifts_8th[1];
-  ind[2] = in[6] >> shifts_8th[2];
-  ind[3] = in[6] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 7;
-
-  return in;
-}
-
-inline static const uint32_t* unpack8_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 8, 16, 24};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = in[0] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[1] >> shifts_1st[0];
-  ind[1] = in[1] >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[2] >> shifts_1st[0];
-  ind[1] = in[2] >> shifts_1st[1];
-  ind[2] = in[2] >> shifts_1st[2];
-  ind[3] = in[2] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[3] >> shifts_1st[0];
-  ind[1] = in[3] >> shifts_1st[1];
-  ind[2] = in[3] >> shifts_1st[2];
-  ind[3] = in[3] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[4] >> shifts_1st[0];
-  ind[1] = in[4] >> shifts_1st[1];
-  ind[2] = in[4] >> shifts_1st[2];
-  ind[3] = in[4] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[5] >> shifts_1st[0];
-  ind[1] = in[5] >> shifts_1st[1];
-  ind[2] = in[5] >> shifts_1st[2];
-  ind[3] = in[5] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[6] >> shifts_1st[0];
-  ind[1] = in[6] >> shifts_1st[1];
-  ind[2] = in[6] >> shifts_1st[2];
-  ind[3] = in[6] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[7] >> shifts_1st[0];
-  ind[1] = in[7] >> shifts_1st[1];
-  ind[2] = in[7] >> shifts_1st[2];
-  ind[3] = in[7] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 8;
-
-  return in;
-}
-
-inline static const uint32_t* unpack9_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1ff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 9, 18, 0};
-  uint32_t shifts_2nd[4] = {4, 13, 22, 0};
-  uint32_t shifts_3rd[4] = {8, 17, 0, 3};
-  uint32_t shifts_4th[4] = {12, 21, 0, 7};
-  uint32_t shifts_5th[4] = {16, 0, 2, 11};
-  uint32_t shifts_6th[4] = {20, 0, 6, 15};
-  uint32_t shifts_7th[4] = {0, 1, 10, 19};
-  uint32_t shifts_8th[4] = {0, 5, 14, 23};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = (in[0] >> 27 | in[1] << 5) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[1] >> shifts_2nd[0];
-  ind[1] = in[1] >> shifts_2nd[1];
-  ind[2] = in[1] >> shifts_2nd[2];
-  ind[3] = (in[1] >> 31 | in[2] << 1) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[2] >> shifts_3rd[0];
-  ind[1] = in[2] >> shifts_3rd[1];
-  ind[2] = (in[2] >> 26 | in[3] << 6) >> shifts_3rd[2];
-  ind[3] = in[3] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[3] >> shifts_4th[0];
-  ind[1] = in[3] >> shifts_4th[1];
-  ind[2] = (in[3] >> 30 | in[4] << 2) >> shifts_4th[2];
-  ind[3] = in[4] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[4] >> shifts_5th[0];
-  ind[1] = (in[4] >> 25 | in[5] << 7) >> shifts_5th[1];
-  ind[2] = in[5] >> shifts_5th[2];
-  ind[3] = in[5] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[5] >> shifts_6th[0];
-  ind[1] = (in[5] >> 29 | in[6] << 3) >> shifts_6th[1];
-  ind[2] = in[6] >> shifts_6th[2];
-  ind[3] = in[6] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[6] >> 24 | in[7] << 8) >> shifts_7th[0];
-  ind[1] = in[7] >> shifts_7th[1];
-  ind[2] = in[7] >> shifts_7th[2];
-  ind[3] = in[7] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[7] >> 28 | in[8] << 4) >> shifts_8th[0];
-  ind[1] = in[8] >> shifts_8th[1];
-  ind[2] = in[8] >> shifts_8th[2];
-  ind[3] = in[8] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 9;
-
-  return in;
-}
-
-inline static const uint32_t* unpack10_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3ff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 10, 20, 0};
-  uint32_t shifts_2nd[4] = {8, 18, 0, 6};
-  uint32_t shifts_3rd[4] = {16, 0, 4, 14};
-  uint32_t shifts_4th[4] = {0, 2, 12, 22};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[0] >> shifts_1st[2];
-  ind[3] = (in[0] >> 30 | in[1] << 2) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[1] >> shifts_2nd[0];
-  ind[1] = in[1] >> shifts_2nd[1];
-  ind[2] = (in[1] >> 28 | in[2] << 4) >> shifts_2nd[2];
-  ind[3] = in[2] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[2] >> shifts_3rd[0];
-  ind[1] = (in[2] >> 26 | in[3] << 6) >> shifts_3rd[1];
-  ind[2] = in[3] >> shifts_3rd[2];
-  ind[3] = in[3] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[3] >> 24 | in[4] << 8) >> shifts_4th[0];
-  ind[1] = in[4] >> shifts_4th[1];
-  ind[2] = in[4] >> shifts_4th[2];
-  ind[3] = in[4] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[5] >> shifts_1st[0];
-  ind[1] = in[5] >> shifts_1st[1];
-  ind[2] = in[5] >> shifts_1st[2];
-  ind[3] = (in[5] >> 30 | in[6] << 2) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[6] >> shifts_2nd[0];
-  ind[1] = in[6] >> shifts_2nd[1];
-  ind[2] = (in[6] >> 28 | in[7] << 4) >> shifts_2nd[2];
-  ind[3] = in[7] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[7] >> shifts_3rd[0];
-  ind[1] = (in[7] >> 26 | in[8] << 6) >> shifts_3rd[1];
-  ind[2] = in[8] >> shifts_3rd[2];
-  ind[3] = in[8] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[8] >> 24 | in[9] << 8) >> shifts_4th[0];
-  ind[1] = in[9] >> shifts_4th[1];
-  ind[2] = in[9] >> shifts_4th[2];
-  ind[3] = in[9] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 10;
-
-  return in;
-}
-
-inline static const uint32_t* unpack11_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7ff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 11, 0, 1};
-  uint32_t shifts_2nd[4] = {12, 0, 2, 13};
-  uint32_t shifts_3rd[4] = {0, 3, 14, 0};
-  uint32_t shifts_4th[4] = {4, 15, 0, 5};
-  uint32_t shifts_5th[4] = {16, 0, 6, 17};
-  uint32_t shifts_6th[4] = {0, 7, 18, 0};
-  uint32_t shifts_7th[4] = {8, 19, 0, 9};
-  uint32_t shifts_8th[4] = {20, 0, 10, 21};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = (in[0] >> 22 | in[1] << 10) >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[1] >> shifts_2nd[0];
-  ind[1] = (in[1] >> 23 | in[2] << 9) >> shifts_2nd[1];
-  ind[2] = in[2] >> shifts_2nd[2];
-  ind[3] = in[2] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[2] >> 24 | in[3] << 8) >> shifts_3rd[0];
-  ind[1] = in[3] >> shifts_3rd[1];
-  ind[2] = in[3] >> shifts_3rd[2];
-  ind[3] = (in[3] >> 25 | in[4] << 7) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[4] >> shifts_4th[0];
-  ind[1] = in[4] >> shifts_4th[1];
-  ind[2] = (in[4] >> 26 | in[5] << 6) >> shifts_4th[2];
-  ind[3] = in[5] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[5] >> shifts_5th[0];
-  ind[1] = (in[5] >> 27 | in[6] << 5) >> shifts_5th[1];
-  ind[2] = in[6] >> shifts_5th[2];
-  ind[3] = in[6] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[6] >> 28 | in[7] << 4) >> shifts_6th[0];
-  ind[1] = in[7] >> shifts_6th[1];
-  ind[2] = in[7] >> shifts_6th[2];
-  ind[3] = (in[7] >> 29 | in[8] << 3) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[8] >> shifts_7th[0];
-  ind[1] = in[8] >> shifts_7th[1];
-  ind[2] = (in[8] >> 30 | in[9] << 2) >> shifts_7th[2];
-  ind[3] = in[9] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[9] >> shifts_8th[0];
-  ind[1] = (in[9] >> 31 | in[10] << 1) >> shifts_8th[1];
-  ind[2] = in[10] >> shifts_8th[2];
-  ind[3] = in[10] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 11;
-
-  return in;
-}
-
-inline static const uint32_t* unpack12_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xfff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 12, 0, 4};
-  uint32_t shifts_2nd[4] = {16, 0, 8, 20};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = (in[0] >> 24 | in[1] << 8) >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[1] >> shifts_2nd[0];
-  ind[1] = (in[1] >> 28 | in[2] << 4) >> shifts_2nd[1];
-  ind[2] = in[2] >> shifts_2nd[2];
-  ind[3] = in[2] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[3] >> shifts_1st[0];
-  ind[1] = in[3] >> shifts_1st[1];
-  ind[2] = (in[3] >> 24 | in[4] << 8) >> shifts_1st[2];
-  ind[3] = in[4] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[4] >> shifts_2nd[0];
-  ind[1] = (in[4] >> 28 | in[5] << 4) >> shifts_2nd[1];
-  ind[2] = in[5] >> shifts_2nd[2];
-  ind[3] = in[5] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[6] >> shifts_1st[0];
-  ind[1] = in[6] >> shifts_1st[1];
-  ind[2] = (in[6] >> 24 | in[7] << 8) >> shifts_1st[2];
-  ind[3] = in[7] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[7] >> shifts_2nd[0];
-  ind[1] = (in[7] >> 28 | in[8] << 4) >> shifts_2nd[1];
-  ind[2] = in[8] >> shifts_2nd[2];
-  ind[3] = in[8] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[9] >> shifts_1st[0];
-  ind[1] = in[9] >> shifts_1st[1];
-  ind[2] = (in[9] >> 24 | in[10] << 8) >> shifts_1st[2];
-  ind[3] = in[10] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[10] >> shifts_2nd[0];
-  ind[1] = (in[10] >> 28 | in[11] << 4) >> shifts_2nd[1];
-  ind[2] = in[11] >> shifts_2nd[2];
-  ind[3] = in[11] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 12;
-
-  return in;
-}
-
-inline static const uint32_t* unpack13_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1fff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 13, 0, 7};
-  uint32_t shifts_2nd[4] = {0, 1, 14, 0};
-  uint32_t shifts_3rd[4] = {8, 0, 2, 15};
-  uint32_t shifts_4th[4] = {0, 9, 0, 3};
-  uint32_t shifts_5th[4] = {16, 0, 10, 0};
-  uint32_t shifts_6th[4] = {4, 17, 0, 11};
-  uint32_t shifts_7th[4] = {0, 5, 18, 0};
-  uint32_t shifts_8th[4] = {12, 0, 6, 19};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = (in[0] >> 26 | in[1] << 6) >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[1] >> 20 | in[2] << 12) >> shifts_2nd[0];
-  ind[1] = in[2] >> shifts_2nd[1];
-  ind[2] = in[2] >> shifts_2nd[2];
-  ind[3] = (in[2] >> 27 | in[3] << 5) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[3] >> shifts_3rd[0];
-  ind[1] = (in[3] >> 21 | in[4] << 11) >> shifts_3rd[1];
-  ind[2] = in[4] >> shifts_3rd[2];
-  ind[3] = in[4] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[4] >> 28 | in[5] << 4) >> shifts_4th[0];
-  ind[1] = in[5] >> shifts_4th[1];
-  ind[2] = (in[5] >> 22 | in[6] << 10) >> shifts_4th[2];
-  ind[3] = in[6] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[6] >> shifts_5th[0];
-  ind[1] = (in[6] >> 29 | in[7] << 3) >> shifts_5th[1];
-  ind[2] = in[7] >> shifts_5th[2];
-  ind[3] = (in[7] >> 23 | in[8] << 9) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[8] >> shifts_6th[0];
-  ind[1] = in[8] >> shifts_6th[1];
-  ind[2] = (in[8] >> 30 | in[9] << 2) >> shifts_6th[2];
-  ind[3] = in[9] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[9] >> 24 | in[10] << 8) >> shifts_7th[0];
-  ind[1] = in[10] >> shifts_7th[1];
-  ind[2] = in[10] >> shifts_7th[2];
-  ind[3] = (in[10] >> 31 | in[11] << 1) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[11] >> shifts_8th[0];
-  ind[1] = (in[11] >> 25 | in[12] << 7) >> shifts_8th[1];
-  ind[2] = in[12] >> shifts_8th[2];
-  ind[3] = in[12] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 13;
-
-  return in;
-}
-
-inline static const uint32_t* unpack14_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3fff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 14, 0, 10};
-  uint32_t shifts_2nd[4] = {0, 6, 0, 2};
-  uint32_t shifts_3rd[4] = {16, 0, 12, 0};
-  uint32_t shifts_4th[4] = {8, 0, 4, 18};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = (in[0] >> 28 | in[1] << 4) >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[1] >> 24 | in[2] << 8) >> shifts_2nd[0];
-  ind[1] = in[2] >> shifts_2nd[1];
-  ind[2] = (in[2] >> 20 | in[3] << 12) >> shifts_2nd[2];
-  ind[3] = in[3] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[3] >> shifts_3rd[0];
-  ind[1] = (in[3] >> 30 | in[4] << 2) >> shifts_3rd[1];
-  ind[2] = in[4] >> shifts_3rd[2];
-  ind[3] = (in[4] >> 26 | in[5] << 6) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[5] >> shifts_4th[0];
-  ind[1] = (in[5] >> 22 | in[6] << 10) >> shifts_4th[1];
-  ind[2] = in[6] >> shifts_4th[2];
-  ind[3] = in[6] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[7] >> shifts_1st[0];
-  ind[1] = in[7] >> shifts_1st[1];
-  ind[2] = (in[7] >> 28 | in[8] << 4) >> shifts_1st[2];
-  ind[3] = in[8] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[8] >> 24 | in[9] << 8) >> shifts_2nd[0];
-  ind[1] = in[9] >> shifts_2nd[1];
-  ind[2] = (in[9] >> 20 | in[10] << 12) >> shifts_2nd[2];
-  ind[3] = in[10] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[10] >> shifts_3rd[0];
-  ind[1] = (in[10] >> 30 | in[11] << 2) >> shifts_3rd[1];
-  ind[2] = in[11] >> shifts_3rd[2];
-  ind[3] = (in[11] >> 26 | in[12] << 6) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[12] >> shifts_4th[0];
-  ind[1] = (in[12] >> 22 | in[13] << 10) >> shifts_4th[1];
-  ind[2] = in[13] >> shifts_4th[2];
-  ind[3] = in[13] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 14;
-
-  return in;
-}
-
-inline static const uint32_t* unpack15_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7fff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 15, 0, 13};
-  uint32_t shifts_2nd[4] = {0, 11, 0, 9};
-  uint32_t shifts_3rd[4] = {0, 7, 0, 5};
-  uint32_t shifts_4th[4] = {0, 3, 0, 1};
-  uint32_t shifts_5th[4] = {16, 0, 14, 0};
-  uint32_t shifts_6th[4] = {12, 0, 10, 0};
-  uint32_t shifts_7th[4] = {8, 0, 6, 0};
-  uint32_t shifts_8th[4] = {4, 0, 2, 17};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = (in[0] >> 30 | in[1] << 2) >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[1] >> 28 | in[2] << 4) >> shifts_2nd[0];
-  ind[1] = in[2] >> shifts_2nd[1];
-  ind[2] = (in[2] >> 26 | in[3] << 6) >> shifts_2nd[2];
-  ind[3] = in[3] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[3] >> 24 | in[4] << 8) >> shifts_3rd[0];
-  ind[1] = in[4] >> shifts_3rd[1];
-  ind[2] = (in[4] >> 22 | in[5] << 10) >> shifts_3rd[2];
-  ind[3] = in[5] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[5] >> 20 | in[6] << 12) >> shifts_4th[0];
-  ind[1] = in[6] >> shifts_4th[1];
-  ind[2] = (in[6] >> 18 | in[7] << 14) >> shifts_4th[2];
-  ind[3] = in[7] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[7] >> shifts_5th[0];
-  ind[1] = (in[7] >> 31 | in[8] << 1) >> shifts_5th[1];
-  ind[2] = in[8] >> shifts_5th[2];
-  ind[3] = (in[8] >> 29 | in[9] << 3) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[9] >> shifts_6th[0];
-  ind[1] = (in[9] >> 27 | in[10] << 5) >> shifts_6th[1];
-  ind[2] = in[10] >> shifts_6th[2];
-  ind[3] = (in[10] >> 25 | in[11] << 7) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[11] >> shifts_7th[0];
-  ind[1] = (in[11] >> 23 | in[12] << 9) >> shifts_7th[1];
-  ind[2] = in[12] >> shifts_7th[2];
-  ind[3] = (in[12] >> 21 | in[13] << 11) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[13] >> shifts_8th[0];
-  ind[1] = (in[13] >> 19 | in[14] << 13) >> shifts_8th[1];
-  ind[2] = in[14] >> shifts_8th[2];
-  ind[3] = in[14] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 15;
-
-  return in;
-}
-
-inline static const uint32_t* unpack16_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 16, 0, 16};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = in[0] >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = in[1] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[2] >> shifts_1st[0];
-  ind[1] = in[2] >> shifts_1st[1];
-  ind[2] = in[3] >> shifts_1st[2];
-  ind[3] = in[3] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[4] >> shifts_1st[0];
-  ind[1] = in[4] >> shifts_1st[1];
-  ind[2] = in[5] >> shifts_1st[2];
-  ind[3] = in[5] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[6] >> shifts_1st[0];
-  ind[1] = in[6] >> shifts_1st[1];
-  ind[2] = in[7] >> shifts_1st[2];
-  ind[3] = in[7] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[8] >> shifts_1st[0];
-  ind[1] = in[8] >> shifts_1st[1];
-  ind[2] = in[9] >> shifts_1st[2];
-  ind[3] = in[9] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[10] >> shifts_1st[0];
-  ind[1] = in[10] >> shifts_1st[1];
-  ind[2] = in[11] >> shifts_1st[2];
-  ind[3] = in[11] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[12] >> shifts_1st[0];
-  ind[1] = in[12] >> shifts_1st[1];
-  ind[2] = in[13] >> shifts_1st[2];
-  ind[3] = in[13] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[14] >> shifts_1st[0];
-  ind[1] = in[14] >> shifts_1st[1];
-  ind[2] = in[15] >> shifts_1st[2];
-  ind[3] = in[15] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 16;
-
-  return in;
-}
-
-inline static const uint32_t* unpack17_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1ffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 2, 0};
-  uint32_t shifts_2nd[4] = {4, 0, 6, 0};
-  uint32_t shifts_3rd[4] = {8, 0, 10, 0};
-  uint32_t shifts_4th[4] = {12, 0, 14, 0};
-  uint32_t shifts_5th[4] = {0, 1, 0, 3};
-  uint32_t shifts_6th[4] = {0, 5, 0, 7};
-  uint32_t shifts_7th[4] = {0, 9, 0, 11};
-  uint32_t shifts_8th[4] = {0, 13, 0, 15};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 17 | in[1] << 15) >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = (in[1] >> 19 | in[2] << 13) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[2] >> shifts_2nd[0];
-  ind[1] = (in[2] >> 21 | in[3] << 11) >> shifts_2nd[1];
-  ind[2] = in[3] >> shifts_2nd[2];
-  ind[3] = (in[3] >> 23 | in[4] << 9) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[4] >> shifts_3rd[0];
-  ind[1] = (in[4] >> 25 | in[5] << 7) >> shifts_3rd[1];
-  ind[2] = in[5] >> shifts_3rd[2];
-  ind[3] = (in[5] >> 27 | in[6] << 5) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[6] >> shifts_4th[0];
-  ind[1] = (in[6] >> 29 | in[7] << 3) >> shifts_4th[1];
-  ind[2] = in[7] >> shifts_4th[2];
-  ind[3] = (in[7] >> 31 | in[8] << 1) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[8] >> 16 | in[9] << 16) >> shifts_5th[0];
-  ind[1] = in[9] >> shifts_5th[1];
-  ind[2] = (in[9] >> 18 | in[10] << 14) >> shifts_5th[2];
-  ind[3] = in[10] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[10] >> 20 | in[11] << 12) >> shifts_6th[0];
-  ind[1] = in[11] >> shifts_6th[1];
-  ind[2] = (in[11] >> 22 | in[12] << 10) >> shifts_6th[2];
-  ind[3] = in[12] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[12] >> 24 | in[13] << 8) >> shifts_7th[0];
-  ind[1] = in[13] >> shifts_7th[1];
-  ind[2] = (in[13] >> 26 | in[14] << 6) >> shifts_7th[2];
-  ind[3] = in[14] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[14] >> 28 | in[15] << 4) >> shifts_8th[0];
-  ind[1] = in[15] >> shifts_8th[1];
-  ind[2] = (in[15] >> 30 | in[16] << 2) >> shifts_8th[2];
-  ind[3] = in[16] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 17;
-
-  return in;
-}
-
-inline static const uint32_t* unpack18_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3ffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 4, 0};
-  uint32_t shifts_2nd[4] = {8, 0, 12, 0};
-  uint32_t shifts_3rd[4] = {0, 2, 0, 6};
-  uint32_t shifts_4th[4] = {0, 10, 0, 14};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 18 | in[1] << 14) >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = (in[1] >> 22 | in[2] << 10) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[2] >> shifts_2nd[0];
-  ind[1] = (in[2] >> 26 | in[3] << 6) >> shifts_2nd[1];
-  ind[2] = in[3] >> shifts_2nd[2];
-  ind[3] = (in[3] >> 30 | in[4] << 2) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[4] >> 16 | in[5] << 16) >> shifts_3rd[0];
-  ind[1] = in[5] >> shifts_3rd[1];
-  ind[2] = (in[5] >> 20 | in[6] << 12) >> shifts_3rd[2];
-  ind[3] = in[6] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[6] >> 24 | in[7] << 8) >> shifts_4th[0];
-  ind[1] = in[7] >> shifts_4th[1];
-  ind[2] = (in[7] >> 28 | in[8] << 4) >> shifts_4th[2];
-  ind[3] = in[8] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[9] >> shifts_1st[0];
-  ind[1] = (in[9] >> 18 | in[10] << 14) >> shifts_1st[1];
-  ind[2] = in[10] >> shifts_1st[2];
-  ind[3] = (in[10] >> 22 | in[11] << 10) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[11] >> shifts_2nd[0];
-  ind[1] = (in[11] >> 26 | in[12] << 6) >> shifts_2nd[1];
-  ind[2] = in[12] >> shifts_2nd[2];
-  ind[3] = (in[12] >> 30 | in[13] << 2) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[13] >> 16 | in[14] << 16) >> shifts_3rd[0];
-  ind[1] = in[14] >> shifts_3rd[1];
-  ind[2] = (in[14] >> 20 | in[15] << 12) >> shifts_3rd[2];
-  ind[3] = in[15] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[15] >> 24 | in[16] << 8) >> shifts_4th[0];
-  ind[1] = in[16] >> shifts_4th[1];
-  ind[2] = (in[16] >> 28 | in[17] << 4) >> shifts_4th[2];
-  ind[3] = in[17] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 18;
-
-  return in;
-}
-
-inline static const uint32_t* unpack19_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7ffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 6, 0};
-  uint32_t shifts_2nd[4] = {12, 0, 0, 5};
-  uint32_t shifts_3rd[4] = {0, 11, 0, 0};
-  uint32_t shifts_4th[4] = {4, 0, 10, 0};
-  uint32_t shifts_5th[4] = {0, 3, 0, 9};
-  uint32_t shifts_6th[4] = {0, 0, 2, 0};
-  uint32_t shifts_7th[4] = {8, 0, 0, 1};
-  uint32_t shifts_8th[4] = {0, 7, 0, 13};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 19 | in[1] << 13) >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = (in[1] >> 25 | in[2] << 7) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[2] >> shifts_2nd[0];
-  ind[1] = (in[2] >> 31 | in[3] << 1) >> shifts_2nd[1];
-  ind[2] = (in[3] >> 18 | in[4] << 14) >> shifts_2nd[2];
-  ind[3] = in[4] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[4] >> 24 | in[5] << 8) >> shifts_3rd[0];
-  ind[1] = in[5] >> shifts_3rd[1];
-  ind[2] = (in[5] >> 30 | in[6] << 2) >> shifts_3rd[2];
-  ind[3] = (in[6] >> 17 | in[7] << 15) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[7] >> shifts_4th[0];
-  ind[1] = (in[7] >> 23 | in[8] << 9) >> shifts_4th[1];
-  ind[2] = in[8] >> shifts_4th[2];
-  ind[3] = (in[8] >> 29 | in[9] << 3) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[9] >> 16 | in[10] << 16) >> shifts_5th[0];
-  ind[1] = in[10] >> shifts_5th[1];
-  ind[2] = (in[10] >> 22 | in[11] << 10) >> shifts_5th[2];
-  ind[3] = in[11] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[11] >> 28 | in[12] << 4) >> shifts_6th[0];
-  ind[1] = (in[12] >> 15 | in[13] << 17) >> shifts_6th[1];
-  ind[2] = in[13] >> shifts_6th[2];
-  ind[3] = (in[13] >> 21 | in[14] << 11) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[14] >> shifts_7th[0];
-  ind[1] = (in[14] >> 27 | in[15] << 5) >> shifts_7th[1];
-  ind[2] = (in[15] >> 14 | in[16] << 18) >> shifts_7th[2];
-  ind[3] = in[16] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[16] >> 20 | in[17] << 12) >> shifts_8th[0];
-  ind[1] = in[17] >> shifts_8th[1];
-  ind[2] = (in[17] >> 26 | in[18] << 6) >> shifts_8th[2];
-  ind[3] = in[18] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 19;
-
-  return in;
-}
-
-inline static const uint32_t* unpack20_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xfffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 8, 0};
-  uint32_t shifts_2nd[4] = {0, 4, 0, 12};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 20 | in[1] << 12) >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = (in[1] >> 28 | in[2] << 4) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[2] >> 16 | in[3] << 16) >> shifts_2nd[0];
-  ind[1] = in[3] >> shifts_2nd[1];
-  ind[2] = (in[3] >> 24 | in[4] << 8) >> shifts_2nd[2];
-  ind[3] = in[4] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[5] >> shifts_1st[0];
-  ind[1] = (in[5] >> 20 | in[6] << 12) >> shifts_1st[1];
-  ind[2] = in[6] >> shifts_1st[2];
-  ind[3] = (in[6] >> 28 | in[7] << 4) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[7] >> 16 | in[8] << 16) >> shifts_2nd[0];
-  ind[1] = in[8] >> shifts_2nd[1];
-  ind[2] = (in[8] >> 24 | in[9] << 8) >> shifts_2nd[2];
-  ind[3] = in[9] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[10] >> shifts_1st[0];
-  ind[1] = (in[10] >> 20 | in[11] << 12) >> shifts_1st[1];
-  ind[2] = in[11] >> shifts_1st[2];
-  ind[3] = (in[11] >> 28 | in[12] << 4) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[12] >> 16 | in[13] << 16) >> shifts_2nd[0];
-  ind[1] = in[13] >> shifts_2nd[1];
-  ind[2] = (in[13] >> 24 | in[14] << 8) >> shifts_2nd[2];
-  ind[3] = in[14] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[15] >> shifts_1st[0];
-  ind[1] = (in[15] >> 20 | in[16] << 12) >> shifts_1st[1];
-  ind[2] = in[16] >> shifts_1st[2];
-  ind[3] = (in[16] >> 28 | in[17] << 4) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[17] >> 16 | in[18] << 16) >> shifts_2nd[0];
-  ind[1] = in[18] >> shifts_2nd[1];
-  ind[2] = (in[18] >> 24 | in[19] << 8) >> shifts_2nd[2];
-  ind[3] = in[19] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 20;
-
-  return in;
-}
-
-inline static const uint32_t* unpack21_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1fffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 10, 0};
-  uint32_t shifts_2nd[4] = {0, 9, 0, 0};
-  uint32_t shifts_3rd[4] = {8, 0, 0, 7};
-  uint32_t shifts_4th[4] = {0, 0, 6, 0};
-  uint32_t shifts_5th[4] = {0, 5, 0, 0};
-  uint32_t shifts_6th[4] = {4, 0, 0, 3};
-  uint32_t shifts_7th[4] = {0, 0, 2, 0};
-  uint32_t shifts_8th[4] = {0, 1, 0, 11};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 21 | in[1] << 11) >> shifts_1st[1];
-  ind[2] = in[1] >> shifts_1st[2];
-  ind[3] = (in[1] >> 31 | in[2] << 1) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[2] >> 20 | in[3] << 12) >> shifts_2nd[0];
-  ind[1] = in[3] >> shifts_2nd[1];
-  ind[2] = (in[3] >> 30 | in[4] << 2) >> shifts_2nd[2];
-  ind[3] = (in[4] >> 19 | in[5] << 13) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[5] >> shifts_3rd[0];
-  ind[1] = (in[5] >> 29 | in[6] << 3) >> shifts_3rd[1];
-  ind[2] = (in[6] >> 18 | in[7] << 14) >> shifts_3rd[2];
-  ind[3] = in[7] >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[7] >> 28 | in[8] << 4) >> shifts_4th[0];
-  ind[1] = (in[8] >> 17 | in[9] << 15) >> shifts_4th[1];
-  ind[2] = in[9] >> shifts_4th[2];
-  ind[3] = (in[9] >> 27 | in[10] << 5) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[10] >> 16 | in[11] << 16) >> shifts_5th[0];
-  ind[1] = in[11] >> shifts_5th[1];
-  ind[2] = (in[11] >> 26 | in[12] << 6) >> shifts_5th[2];
-  ind[3] = (in[12] >> 15 | in[13] << 17) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[13] >> shifts_6th[0];
-  ind[1] = (in[13] >> 25 | in[14] << 7) >> shifts_6th[1];
-  ind[2] = (in[14] >> 14 | in[15] << 18) >> shifts_6th[2];
-  ind[3] = in[15] >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[15] >> 24 | in[16] << 8) >> shifts_7th[0];
-  ind[1] = (in[16] >> 13 | in[17] << 19) >> shifts_7th[1];
-  ind[2] = in[17] >> shifts_7th[2];
-  ind[3] = (in[17] >> 23 | in[18] << 9) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[18] >> 12 | in[19] << 20) >> shifts_8th[0];
-  ind[1] = in[19] >> shifts_8th[1];
-  ind[2] = (in[19] >> 22 | in[20] << 10) >> shifts_8th[2];
-  ind[3] = in[20] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 21;
-
-  return in;
-}
-
-inline static const uint32_t* unpack22_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3fffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 2};
-  uint32_t shifts_2nd[4] = {0, 0, 4, 0};
-  uint32_t shifts_3rd[4] = {0, 6, 0, 0};
-  uint32_t shifts_4th[4] = {8, 0, 0, 10};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 22 | in[1] << 10) >> shifts_1st[1];
-  ind[2] = (in[1] >> 12 | in[2] << 20) >> shifts_1st[2];
-  ind[3] = in[2] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[2] >> 24 | in[3] << 8) >> shifts_2nd[0];
-  ind[1] = (in[3] >> 14 | in[4] << 18) >> shifts_2nd[1];
-  ind[2] = in[4] >> shifts_2nd[2];
-  ind[3] = (in[4] >> 26 | in[5] << 6) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[5] >> 16 | in[6] << 16) >> shifts_3rd[0];
-  ind[1] = in[6] >> shifts_3rd[1];
-  ind[2] = (in[6] >> 28 | in[7] << 4) >> shifts_3rd[2];
-  ind[3] = (in[7] >> 18 | in[8] << 14) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[8] >> shifts_4th[0];
-  ind[1] = (in[8] >> 30 | in[9] << 2) >> shifts_4th[1];
-  ind[2] = (in[9] >> 20 | in[10] << 12) >> shifts_4th[2];
-  ind[3] = in[10] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[11] >> shifts_1st[0];
-  ind[1] = (in[11] >> 22 | in[12] << 10) >> shifts_1st[1];
-  ind[2] = (in[12] >> 12 | in[13] << 20) >> shifts_1st[2];
-  ind[3] = in[13] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[13] >> 24 | in[14] << 8) >> shifts_2nd[0];
-  ind[1] = (in[14] >> 14 | in[15] << 18) >> shifts_2nd[1];
-  ind[2] = in[15] >> shifts_2nd[2];
-  ind[3] = (in[15] >> 26 | in[16] << 6) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[16] >> 16 | in[17] << 16) >> shifts_3rd[0];
-  ind[1] = in[17] >> shifts_3rd[1];
-  ind[2] = (in[17] >> 28 | in[18] << 4) >> shifts_3rd[2];
-  ind[3] = (in[18] >> 18 | in[19] << 14) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[19] >> shifts_4th[0];
-  ind[1] = (in[19] >> 30 | in[20] << 2) >> shifts_4th[1];
-  ind[2] = (in[20] >> 20 | in[21] << 12) >> shifts_4th[2];
-  ind[3] = in[21] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 22;
-
-  return in;
-}
-
-inline static const uint32_t* unpack23_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7fffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 5};
-  uint32_t shifts_2nd[4] = {0, 0, 0, 1};
-  uint32_t shifts_3rd[4] = {0, 0, 6, 0};
-  uint32_t shifts_4th[4] = {0, 0, 2, 0};
-  uint32_t shifts_5th[4] = {0, 7, 0, 0};
-  uint32_t shifts_6th[4] = {0, 3, 0, 0};
-  uint32_t shifts_7th[4] = {8, 0, 0, 0};
-  uint32_t shifts_8th[4] = {4, 0, 0, 9};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 23 | in[1] << 9) >> shifts_1st[1];
-  ind[2] = (in[1] >> 14 | in[2] << 18) >> shifts_1st[2];
-  ind[3] = in[2] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[2] >> 28 | in[3] << 4) >> shifts_2nd[0];
-  ind[1] = (in[3] >> 19 | in[4] << 13) >> shifts_2nd[1];
-  ind[2] = (in[4] >> 10 | in[5] << 22) >> shifts_2nd[2];
-  ind[3] = in[5] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[5] >> 24 | in[6] << 8) >> shifts_3rd[0];
-  ind[1] = (in[6] >> 15 | in[7] << 17) >> shifts_3rd[1];
-  ind[2] = in[7] >> shifts_3rd[2];
-  ind[3] = (in[7] >> 29 | in[8] << 3) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[8] >> 20 | in[9] << 12) >> shifts_4th[0];
-  ind[1] = (in[9] >> 11 | in[10] << 21) >> shifts_4th[1];
-  ind[2] = in[10] >> shifts_4th[2];
-  ind[3] = (in[10] >> 25 | in[11] << 7) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[11] >> 16 | in[12] << 16) >> shifts_5th[0];
-  ind[1] = in[12] >> shifts_5th[1];
-  ind[2] = (in[12] >> 30 | in[13] << 2) >> shifts_5th[2];
-  ind[3] = (in[13] >> 21 | in[14] << 11) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[14] >> 12 | in[15] << 20) >> shifts_6th[0];
-  ind[1] = in[15] >> shifts_6th[1];
-  ind[2] = (in[15] >> 26 | in[16] << 6) >> shifts_6th[2];
-  ind[3] = (in[16] >> 17 | in[17] << 15) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[17] >> shifts_7th[0];
-  ind[1] = (in[17] >> 31 | in[18] << 1) >> shifts_7th[1];
-  ind[2] = (in[18] >> 22 | in[19] << 10) >> shifts_7th[2];
-  ind[3] = (in[19] >> 13 | in[20] << 19) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[20] >> shifts_8th[0];
-  ind[1] = (in[20] >> 27 | in[21] << 5) >> shifts_8th[1];
-  ind[2] = (in[21] >> 18 | in[22] << 14) >> shifts_8th[2];
-  ind[3] = in[22] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 23;
-
-  return in;
-}
-
-inline static const uint32_t* unpack24_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 8};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 24 | in[1] << 8) >> shifts_1st[1];
-  ind[2] = (in[1] >> 16 | in[2] << 16) >> shifts_1st[2];
-  ind[3] = in[2] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[3] >> shifts_1st[0];
-  ind[1] = (in[3] >> 24 | in[4] << 8) >> shifts_1st[1];
-  ind[2] = (in[4] >> 16 | in[5] << 16) >> shifts_1st[2];
-  ind[3] = in[5] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[6] >> shifts_1st[0];
-  ind[1] = (in[6] >> 24 | in[7] << 8) >> shifts_1st[1];
-  ind[2] = (in[7] >> 16 | in[8] << 16) >> shifts_1st[2];
-  ind[3] = in[8] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[9] >> shifts_1st[0];
-  ind[1] = (in[9] >> 24 | in[10] << 8) >> shifts_1st[1];
-  ind[2] = (in[10] >> 16 | in[11] << 16) >> shifts_1st[2];
-  ind[3] = in[11] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[12] >> shifts_1st[0];
-  ind[1] = (in[12] >> 24 | in[13] << 8) >> shifts_1st[1];
-  ind[2] = (in[13] >> 16 | in[14] << 16) >> shifts_1st[2];
-  ind[3] = in[14] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = in[15] >> shifts_1st[0];
-  ind[1] = (in[15] >> 24 | in[16] << 8) >> shifts_1st[1];
-  ind[2] = (in[16] >> 16 | in[17] << 16) >> shifts_1st[2];
-  ind[3] = in[17] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[18] >> shifts_1st[0];
-  ind[1] = (in[18] >> 24 | in[19] << 8) >> shifts_1st[1];
-  ind[2] = (in[19] >> 16 | in[20] << 16) >> shifts_1st[2];
-  ind[3] = in[20] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = in[21] >> shifts_1st[0];
-  ind[1] = (in[21] >> 24 | in[22] << 8) >> shifts_1st[1];
-  ind[2] = (in[22] >> 16 | in[23] << 16) >> shifts_1st[2];
-  ind[3] = in[23] >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 24;
-
-  return in;
-}
-
-inline static const uint32_t* unpack25_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1ffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {4, 0, 0, 0};
-  uint32_t shifts_3rd[4] = {0, 1, 0, 0};
-  uint32_t shifts_4th[4] = {0, 5, 0, 0};
-  uint32_t shifts_5th[4] = {0, 0, 2, 0};
-  uint32_t shifts_6th[4] = {0, 0, 6, 0};
-  uint32_t shifts_7th[4] = {0, 0, 0, 3};
-  uint32_t shifts_8th[4] = {0, 0, 0, 7};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 25 | in[1] << 7) >> shifts_1st[1];
-  ind[2] = (in[1] >> 18 | in[2] << 14) >> shifts_1st[2];
-  ind[3] = (in[2] >> 11 | in[3] << 21) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = in[3] >> shifts_2nd[0];
-  ind[1] = (in[3] >> 29 | in[4] << 3) >> shifts_2nd[1];
-  ind[2] = (in[4] >> 22 | in[5] << 10) >> shifts_2nd[2];
-  ind[3] = (in[5] >> 15 | in[6] << 17) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[6] >> 8 | in[7] << 24) >> shifts_3rd[0];
-  ind[1] = in[7] >> shifts_3rd[1];
-  ind[2] = (in[7] >> 26 | in[8] << 6) >> shifts_3rd[2];
-  ind[3] = (in[8] >> 19 | in[9] << 13) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[9] >> 12 | in[10] << 20) >> shifts_4th[0];
-  ind[1] = in[10] >> shifts_4th[1];
-  ind[2] = (in[10] >> 30 | in[11] << 2) >> shifts_4th[2];
-  ind[3] = (in[11] >> 23 | in[12] << 9) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[12] >> 16 | in[13] << 16) >> shifts_5th[0];
-  ind[1] = (in[13] >> 9 | in[14] << 23) >> shifts_5th[1];
-  ind[2] = in[14] >> shifts_5th[2];
-  ind[3] = (in[14] >> 27 | in[15] << 5) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[15] >> 20 | in[16] << 12) >> shifts_6th[0];
-  ind[1] = (in[16] >> 13 | in[17] << 19) >> shifts_6th[1];
-  ind[2] = in[17] >> shifts_6th[2];
-  ind[3] = (in[17] >> 31 | in[18] << 1) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[18] >> 24 | in[19] << 8) >> shifts_7th[0];
-  ind[1] = (in[19] >> 17 | in[20] << 15) >> shifts_7th[1];
-  ind[2] = (in[20] >> 10 | in[21] << 22) >> shifts_7th[2];
-  ind[3] = in[21] >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[21] >> 28 | in[22] << 4) >> shifts_8th[0];
-  ind[1] = (in[22] >> 21 | in[23] << 11) >> shifts_8th[1];
-  ind[2] = (in[23] >> 14 | in[24] << 18) >> shifts_8th[2];
-  ind[3] = in[24] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 25;
-
-  return in;
-}
-
-inline static const uint32_t* unpack26_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3ffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {0, 2, 0, 0};
-  uint32_t shifts_3rd[4] = {0, 0, 4, 0};
-  uint32_t shifts_4th[4] = {0, 0, 0, 6};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 26 | in[1] << 6) >> shifts_1st[1];
-  ind[2] = (in[1] >> 20 | in[2] << 12) >> shifts_1st[2];
-  ind[3] = (in[2] >> 14 | in[3] << 18) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[3] >> 8 | in[4] << 24) >> shifts_2nd[0];
-  ind[1] = in[4] >> shifts_2nd[1];
-  ind[2] = (in[4] >> 28 | in[5] << 4) >> shifts_2nd[2];
-  ind[3] = (in[5] >> 22 | in[6] << 10) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[6] >> 16 | in[7] << 16) >> shifts_3rd[0];
-  ind[1] = (in[7] >> 10 | in[8] << 22) >> shifts_3rd[1];
-  ind[2] = in[8] >> shifts_3rd[2];
-  ind[3] = (in[8] >> 30 | in[9] << 2) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[9] >> 24 | in[10] << 8) >> shifts_4th[0];
-  ind[1] = (in[10] >> 18 | in[11] << 14) >> shifts_4th[1];
-  ind[2] = (in[11] >> 12 | in[12] << 20) >> shifts_4th[2];
-  ind[3] = in[12] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[13] >> shifts_1st[0];
-  ind[1] = (in[13] >> 26 | in[14] << 6) >> shifts_1st[1];
-  ind[2] = (in[14] >> 20 | in[15] << 12) >> shifts_1st[2];
-  ind[3] = (in[15] >> 14 | in[16] << 18) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[16] >> 8 | in[17] << 24) >> shifts_2nd[0];
-  ind[1] = in[17] >> shifts_2nd[1];
-  ind[2] = (in[17] >> 28 | in[18] << 4) >> shifts_2nd[2];
-  ind[3] = (in[18] >> 22 | in[19] << 10) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[19] >> 16 | in[20] << 16) >> shifts_3rd[0];
-  ind[1] = (in[20] >> 10 | in[21] << 22) >> shifts_3rd[1];
-  ind[2] = in[21] >> shifts_3rd[2];
-  ind[3] = (in[21] >> 30 | in[22] << 2) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[22] >> 24 | in[23] << 8) >> shifts_4th[0];
-  ind[1] = (in[23] >> 18 | in[24] << 14) >> shifts_4th[1];
-  ind[2] = (in[24] >> 12 | in[25] << 20) >> shifts_4th[2];
-  ind[3] = in[25] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 26;
-
-  return in;
-}
-
-inline static const uint32_t* unpack27_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7ffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {0, 0, 2, 0};
-  uint32_t shifts_3rd[4] = {0, 0, 0, 0};
-  uint32_t shifts_4th[4] = {4, 0, 0, 0};
-  uint32_t shifts_5th[4] = {0, 0, 0, 1};
-  uint32_t shifts_6th[4] = {0, 0, 0, 0};
-  uint32_t shifts_7th[4] = {0, 3, 0, 0};
-  uint32_t shifts_8th[4] = {0, 0, 0, 5};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 27 | in[1] << 5) >> shifts_1st[1];
-  ind[2] = (in[1] >> 22 | in[2] << 10) >> shifts_1st[2];
-  ind[3] = (in[2] >> 17 | in[3] << 15) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[3] >> 12 | in[4] << 20) >> shifts_2nd[0];
-  ind[1] = (in[4] >> 7 | in[5] << 25) >> shifts_2nd[1];
-  ind[2] = in[5] >> shifts_2nd[2];
-  ind[3] = (in[5] >> 29 | in[6] << 3) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[6] >> 24 | in[7] << 8) >> shifts_3rd[0];
-  ind[1] = (in[7] >> 19 | in[8] << 13) >> shifts_3rd[1];
-  ind[2] = (in[8] >> 14 | in[9] << 18) >> shifts_3rd[2];
-  ind[3] = (in[9] >> 9 | in[10] << 23) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = in[10] >> shifts_4th[0];
-  ind[1] = (in[10] >> 31 | in[11] << 1) >> shifts_4th[1];
-  ind[2] = (in[11] >> 26 | in[12] << 6) >> shifts_4th[2];
-  ind[3] = (in[12] >> 21 | in[13] << 11) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[13] >> 16 | in[14] << 16) >> shifts_5th[0];
-  ind[1] = (in[14] >> 11 | in[15] << 21) >> shifts_5th[1];
-  ind[2] = (in[15] >> 6 | in[16] << 26) >> shifts_5th[2];
-  ind[3] = in[16] >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[16] >> 28 | in[17] << 4) >> shifts_6th[0];
-  ind[1] = (in[17] >> 23 | in[18] << 9) >> shifts_6th[1];
-  ind[2] = (in[18] >> 18 | in[19] << 14) >> shifts_6th[2];
-  ind[3] = (in[19] >> 13 | in[20] << 19) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[20] >> 8 | in[21] << 24) >> shifts_7th[0];
-  ind[1] = in[21] >> shifts_7th[1];
-  ind[2] = (in[21] >> 30 | in[22] << 2) >> shifts_7th[2];
-  ind[3] = (in[22] >> 25 | in[23] << 7) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[23] >> 20 | in[24] << 12) >> shifts_8th[0];
-  ind[1] = (in[24] >> 15 | in[25] << 17) >> shifts_8th[1];
-  ind[2] = (in[25] >> 10 | in[26] << 22) >> shifts_8th[2];
-  ind[3] = in[26] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 27;
-
-  return in;
-}
-
-inline static const uint32_t* unpack28_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0xfffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {0, 0, 0, 4};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 28 | in[1] << 4) >> shifts_1st[1];
-  ind[2] = (in[1] >> 24 | in[2] << 8) >> shifts_1st[2];
-  ind[3] = (in[2] >> 20 | in[3] << 12) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[3] >> 16 | in[4] << 16) >> shifts_2nd[0];
-  ind[1] = (in[4] >> 12 | in[5] << 20) >> shifts_2nd[1];
-  ind[2] = (in[5] >> 8 | in[6] << 24) >> shifts_2nd[2];
-  ind[3] = in[6] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = in[7] >> shifts_1st[0];
-  ind[1] = (in[7] >> 28 | in[8] << 4) >> shifts_1st[1];
-  ind[2] = (in[8] >> 24 | in[9] << 8) >> shifts_1st[2];
-  ind[3] = (in[9] >> 20 | in[10] << 12) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[10] >> 16 | in[11] << 16) >> shifts_2nd[0];
-  ind[1] = (in[11] >> 12 | in[12] << 20) >> shifts_2nd[1];
-  ind[2] = (in[12] >> 8 | in[13] << 24) >> shifts_2nd[2];
-  ind[3] = in[13] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[14] >> shifts_1st[0];
-  ind[1] = (in[14] >> 28 | in[15] << 4) >> shifts_1st[1];
-  ind[2] = (in[15] >> 24 | in[16] << 8) >> shifts_1st[2];
-  ind[3] = (in[16] >> 20 | in[17] << 12) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[17] >> 16 | in[18] << 16) >> shifts_2nd[0];
-  ind[1] = (in[18] >> 12 | in[19] << 20) >> shifts_2nd[1];
-  ind[2] = (in[19] >> 8 | in[20] << 24) >> shifts_2nd[2];
-  ind[3] = in[20] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = in[21] >> shifts_1st[0];
-  ind[1] = (in[21] >> 28 | in[22] << 4) >> shifts_1st[1];
-  ind[2] = (in[22] >> 24 | in[23] << 8) >> shifts_1st[2];
-  ind[3] = (in[23] >> 20 | in[24] << 12) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[24] >> 16 | in[25] << 16) >> shifts_2nd[0];
-  ind[1] = (in[25] >> 12 | in[26] << 20) >> shifts_2nd[1];
-  ind[2] = (in[26] >> 8 | in[27] << 24) >> shifts_2nd[2];
-  ind[3] = in[27] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 28;
-
-  return in;
-}
-
-inline static const uint32_t* unpack29_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x1fffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {0, 0, 0, 0};
-  uint32_t shifts_3rd[4] = {0, 0, 2, 0};
-  uint32_t shifts_4th[4] = {0, 0, 0, 0};
-  uint32_t shifts_5th[4] = {0, 0, 0, 0};
-  uint32_t shifts_6th[4] = {0, 1, 0, 0};
-  uint32_t shifts_7th[4] = {0, 0, 0, 0};
-  uint32_t shifts_8th[4] = {0, 0, 0, 3};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 29 | in[1] << 3) >> shifts_1st[1];
-  ind[2] = (in[1] >> 26 | in[2] << 6) >> shifts_1st[2];
-  ind[3] = (in[2] >> 23 | in[3] << 9) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[3] >> 20 | in[4] << 12) >> shifts_2nd[0];
-  ind[1] = (in[4] >> 17 | in[5] << 15) >> shifts_2nd[1];
-  ind[2] = (in[5] >> 14 | in[6] << 18) >> shifts_2nd[2];
-  ind[3] = (in[6] >> 11 | in[7] << 21) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[7] >> 8 | in[8] << 24) >> shifts_3rd[0];
-  ind[1] = (in[8] >> 5 | in[9] << 27) >> shifts_3rd[1];
-  ind[2] = in[9] >> shifts_3rd[2];
-  ind[3] = (in[9] >> 31 | in[10] << 1) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[10] >> 28 | in[11] << 4) >> shifts_4th[0];
-  ind[1] = (in[11] >> 25 | in[12] << 7) >> shifts_4th[1];
-  ind[2] = (in[12] >> 22 | in[13] << 10) >> shifts_4th[2];
-  ind[3] = (in[13] >> 19 | in[14] << 13) >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[14] >> 16 | in[15] << 16) >> shifts_5th[0];
-  ind[1] = (in[15] >> 13 | in[16] << 19) >> shifts_5th[1];
-  ind[2] = (in[16] >> 10 | in[17] << 22) >> shifts_5th[2];
-  ind[3] = (in[17] >> 7 | in[18] << 25) >> shifts_5th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[18] >> 4 | in[19] << 28) >> shifts_6th[0];
-  ind[1] = in[19] >> shifts_6th[1];
-  ind[2] = (in[19] >> 30 | in[20] << 2) >> shifts_6th[2];
-  ind[3] = (in[20] >> 27 | in[21] << 5) >> shifts_6th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[21] >> 24 | in[22] << 8) >> shifts_7th[0];
-  ind[1] = (in[22] >> 21 | in[23] << 11) >> shifts_7th[1];
-  ind[2] = (in[23] >> 18 | in[24] << 14) >> shifts_7th[2];
-  ind[3] = (in[24] >> 15 | in[25] << 17) >> shifts_7th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[25] >> 12 | in[26] << 20) >> shifts_8th[0];
-  ind[1] = (in[26] >> 9 | in[27] << 23) >> shifts_8th[1];
-  ind[2] = (in[27] >> 6 | in[28] << 26) >> shifts_8th[2];
-  ind[3] = in[28] >> shifts_8th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 29;
-
-  return in;
-}
-
-inline static const uint32_t* unpack30_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x3fffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {0, 0, 0, 0};
-  uint32_t shifts_3rd[4] = {0, 0, 0, 0};
-  uint32_t shifts_4th[4] = {0, 0, 0, 2};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 30 | in[1] << 2) >> shifts_1st[1];
-  ind[2] = (in[1] >> 28 | in[2] << 4) >> shifts_1st[2];
-  ind[3] = (in[2] >> 26 | in[3] << 6) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[3] >> 24 | in[4] << 8) >> shifts_2nd[0];
-  ind[1] = (in[4] >> 22 | in[5] << 10) >> shifts_2nd[1];
-  ind[2] = (in[5] >> 20 | in[6] << 12) >> shifts_2nd[2];
-  ind[3] = (in[6] >> 18 | in[7] << 14) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[7] >> 16 | in[8] << 16) >> shifts_3rd[0];
-  ind[1] = (in[8] >> 14 | in[9] << 18) >> shifts_3rd[1];
-  ind[2] = (in[9] >> 12 | in[10] << 20) >> shifts_3rd[2];
-  ind[3] = (in[10] >> 10 | in[11] << 22) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[11] >> 8 | in[12] << 24) >> shifts_4th[0];
-  ind[1] = (in[12] >> 6 | in[13] << 26) >> shifts_4th[1];
-  ind[2] = (in[13] >> 4 | in[14] << 28) >> shifts_4th[2];
-  ind[3] = in[14] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = in[15] >> shifts_1st[0];
-  ind[1] = (in[15] >> 30 | in[16] << 2) >> shifts_1st[1];
-  ind[2] = (in[16] >> 28 | in[17] << 4) >> shifts_1st[2];
-  ind[3] = (in[17] >> 26 | in[18] << 6) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[18] >> 24 | in[19] << 8) >> shifts_2nd[0];
-  ind[1] = (in[19] >> 22 | in[20] << 10) >> shifts_2nd[1];
-  ind[2] = (in[20] >> 20 | in[21] << 12) >> shifts_2nd[2];
-  ind[3] = (in[21] >> 18 | in[22] << 14) >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[22] >> 16 | in[23] << 16) >> shifts_3rd[0];
-  ind[1] = (in[23] >> 14 | in[24] << 18) >> shifts_3rd[1];
-  ind[2] = (in[24] >> 12 | in[25] << 20) >> shifts_3rd[2];
-  ind[3] = (in[25] >> 10 | in[26] << 22) >> shifts_3rd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[26] >> 8 | in[27] << 24) >> shifts_4th[0];
-  ind[1] = (in[27] >> 6 | in[28] << 26) >> shifts_4th[1];
-  ind[2] = (in[28] >> 4 | in[29] << 28) >> shifts_4th[2];
-  ind[3] = in[29] >> shifts_4th[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 30;
-
-  return in;
-}
-
-inline static const uint32_t* unpack31_32_neon(const uint32_t* in, uint32_t* out) {
-  uint32_t mask = 0x7fffffff;
-  uint32_t ind[4];
-  uint32_t shifts_1st[4] = {0, 0, 0, 0};
-  uint32_t shifts_2nd[4] = {0, 0, 0, 1};
-  uint32x4_t reg_shift, reg_masks;
-  uint32x4_t results;
-
-  reg_masks = vdupq_n_u32(mask);
-
-  // shift the first 4 outs
-  ind[0] = in[0] >> shifts_1st[0];
-  ind[1] = (in[0] >> 31 | in[1] << 1) >> shifts_1st[1];
-  ind[2] = (in[1] >> 30 | in[2] << 2) >> shifts_1st[2];
-  ind[3] = (in[2] >> 29 | in[3] << 3) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 2nd 4 outs
-  ind[0] = (in[3] >> 28 | in[4] << 4) >> shifts_1st[0];
-  ind[1] = (in[4] >> 27 | in[5] << 5) >> shifts_1st[1];
-  ind[2] = (in[5] >> 26 | in[6] << 6) >> shifts_1st[2];
-  ind[3] = (in[6] >> 25 | in[7] << 7) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 3rd 4 outs
-  ind[0] = (in[7] >> 24 | in[8] << 8) >> shifts_1st[0];
-  ind[1] = (in[8] >> 23 | in[9] << 9) >> shifts_1st[1];
-  ind[2] = (in[9] >> 22 | in[10] << 10) >> shifts_1st[2];
-  ind[3] = (in[10] >> 21 | in[11] << 11) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 4th 4 outs
-  ind[0] = (in[11] >> 20 | in[12] << 12) >> shifts_1st[0];
-  ind[1] = (in[12] >> 19 | in[13] << 13) >> shifts_1st[1];
-  ind[2] = (in[13] >> 18 | in[14] << 14) >> shifts_1st[2];
-  ind[3] = (in[14] >> 17 | in[15] << 15) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 5th 4 outs
-  ind[0] = (in[15] >> 16 | in[16] << 16) >> shifts_1st[0];
-  ind[1] = (in[16] >> 15 | in[17] << 17) >> shifts_1st[1];
-  ind[2] = (in[17] >> 14 | in[18] << 18) >> shifts_1st[2];
-  ind[3] = (in[18] >> 13 | in[19] << 19) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 6th 4 outs
-  ind[0] = (in[19] >> 12 | in[20] << 20) >> shifts_1st[0];
-  ind[1] = (in[20] >> 11 | in[21] << 21) >> shifts_1st[1];
-  ind[2] = (in[21] >> 10 | in[22] << 22) >> shifts_1st[2];
-  ind[3] = (in[22] >> 9 | in[23] << 23) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 7th 4 outs
-  ind[0] = (in[23] >> 8 | in[24] << 24) >> shifts_1st[0];
-  ind[1] = (in[24] >> 7 | in[25] << 25) >> shifts_1st[1];
-  ind[2] = (in[25] >> 6 | in[26] << 26) >> shifts_1st[2];
-  ind[3] = (in[26] >> 5 | in[27] << 27) >> shifts_1st[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  // shift the 8th 4 outs
-  ind[0] = (in[27] >> 4 | in[28] << 28) >> shifts_2nd[0];
-  ind[1] = (in[28] >> 3 | in[29] << 29) >> shifts_2nd[1];
-  ind[2] = (in[29] >> 2 | in[30] << 30) >> shifts_2nd[2];
-  ind[3] = in[30] >> shifts_2nd[3];
-  reg_shift = vld1q_u32(ind);
-  results = vandq_u32(reg_shift, reg_masks);
-  vst1q_u32(out, results);
-  out += 4;
-
-  in += 31;
-
-  return in;
-}
-
-inline const uint32_t* unpack32_32_neon(const uint32_t* in, uint32_t* out) {
-  for (const uint32_t* end = out + 32; out != end; out++) {
-    *out = *in;
-    in++;
-  }
-
-  return in;
-}
-
-int unpack32_neon(const uint32_t* in, uint32_t* out, int batch_size, int num_bits) {
-  batch_size = batch_size / 32 * 32;
-  int num_loops = batch_size / 32;
-
-  switch (num_bits) {
-    case 0:
-      for (int i = 0; i < num_loops; ++i) in = unpack0_32_neon(in, out + i * 32);
-      break;
-    case 1:
-      for (int i = 0; i < num_loops; ++i) in = unpack1_32_neon(in, out + i * 32);
-      break;
-    case 2:
-      for (int i = 0; i < num_loops; ++i) in = unpack2_32_neon(in, out + i * 32);
-      break;
-    case 3:
-      for (int i = 0; i < num_loops; ++i) in = unpack3_32_neon(in, out + i * 32);
-      break;
-    case 4:
-      for (int i = 0; i < num_loops; ++i) in = unpack4_32_neon(in, out + i * 32);
-      break;
-    case 5:
-      for (int i = 0; i < num_loops; ++i) in = unpack5_32_neon(in, out + i * 32);
-      break;
-    case 6:
-      for (int i = 0; i < num_loops; ++i) in = unpack6_32_neon(in, out + i * 32);
-      break;
-    case 7:
-      for (int i = 0; i < num_loops; ++i) in = unpack7_32_neon(in, out + i * 32);
-      break;
-    case 8:
-      for (int i = 0; i < num_loops; ++i) in = unpack8_32_neon(in, out + i * 32);
-      break;
-    case 9:
-      for (int i = 0; i < num_loops; ++i) in = unpack9_32_neon(in, out + i * 32);
-      break;
-    case 10:
-      for (int i = 0; i < num_loops; ++i) in = unpack10_32_neon(in, out + i * 32);
-      break;
-    case 11:
-      for (int i = 0; i < num_loops; ++i) in = unpack11_32_neon(in, out + i * 32);
-      break;
-    case 12:
-      for (int i = 0; i < num_loops; ++i) in = unpack12_32_neon(in, out + i * 32);
-      break;
-    case 13:
-      for (int i = 0; i < num_loops; ++i) in = unpack13_32_neon(in, out + i * 32);
-      break;
-    case 14:
-      for (int i = 0; i < num_loops; ++i) in = unpack14_32_neon(in, out + i * 32);
-      break;
-    case 15:
-      for (int i = 0; i < num_loops; ++i) in = unpack15_32_neon(in, out + i * 32);
-      break;
-    case 16:
-      for (int i = 0; i < num_loops; ++i) in = unpack16_32_neon(in, out + i * 32);
-      break;
-    case 17:
-      for (int i = 0; i < num_loops; ++i) in = unpack17_32_neon(in, out + i * 32);
-      break;
-    case 18:
-      for (int i = 0; i < num_loops; ++i) in = unpack18_32_neon(in, out + i * 32);
-      break;
-    case 19:
-      for (int i = 0; i < num_loops; ++i) in = unpack19_32_neon(in, out + i * 32);
-      break;
-    case 20:
-      for (int i = 0; i < num_loops; ++i) in = unpack20_32_neon(in, out + i * 32);
-      break;
-    case 21:
-      for (int i = 0; i < num_loops; ++i) in = unpack21_32_neon(in, out + i * 32);
-      break;
-    case 22:
-      for (int i = 0; i < num_loops; ++i) in = unpack22_32_neon(in, out + i * 32);
-      break;
-    case 23:
-      for (int i = 0; i < num_loops; ++i) in = unpack23_32_neon(in, out + i * 32);
-      break;
-    case 24:
-      for (int i = 0; i < num_loops; ++i) in = unpack24_32_neon(in, out + i * 32);
-      break;
-    case 25:
-      for (int i = 0; i < num_loops; ++i) in = unpack25_32_neon(in, out + i * 32);
-      break;
-    case 26:
-      for (int i = 0; i < num_loops; ++i) in = unpack26_32_neon(in, out + i * 32);
-      break;
-    case 27:
-      for (int i = 0; i < num_loops; ++i) in = unpack27_32_neon(in, out + i * 32);
-      break;
-    case 28:
-      for (int i = 0; i < num_loops; ++i) in = unpack28_32_neon(in, out + i * 32);
-      break;
-    case 29:
-      for (int i = 0; i < num_loops; ++i) in = unpack29_32_neon(in, out + i * 32);
-      break;
-    case 30:
-      for (int i = 0; i < num_loops; ++i) in = unpack30_32_neon(in, out + i * 32);
-      break;
-    case 31:
-      for (int i = 0; i < num_loops; ++i) in = unpack31_32_neon(in, out + i * 32);
-      break;
-    case 32:
-      for (int i = 0; i < num_loops; ++i) in = unpack32_32_neon(in, out + i * 32);
-      break;
-  }
-
-  return batch_size;
-}
diff --git a/go/parquet/internal/utils/_lib/script.sed b/go/parquet/internal/utils/_lib/script.sed
deleted file mode 100644
index 908cce695a5ba..0000000000000
--- a/go/parquet/internal/utils/_lib/script.sed
+++ /dev/null
@@ -1,22 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-s|WORD $0x54[0-9a-f]\+[[:space:]]\+//[[:space:]]\+b.\([leqgtnso]\+\)[[:space:]]\+.\(LBB0_[0-9]\+\)|B\U\1 \2|
-s|WORD $0x14000000[[:space:]]\+//[[:space:]]\+b[[:space:]]\+.\(LBB0_[0-9]\+\)|JMP \1|
-s|\(WORD $0x9[0-9a-f]\+ // adrp.*\)|// \1|
-s|WORD $0x[0-9a-f]\+ // ldr[[:space:]]\+d\([0-9]\+\), \[x[0-9]\+, :lo[0-9]\+:.\(LCPI0_[0-9]\+\)\]|VMOVD \2, V\1|
-s|WORD $0x[0-9a-f]\+ // ldr[[:space:]]\+q\([0-9]\+\), \[x[0-9]\+, :lo[0-9]\+:.\(LCPI0_[0-9]\+\)\]|VMOVQ \2L, \2H, V\1|
diff --git a/go/parquet/internal/utils/_lib/unpack_bool.c b/go/parquet/internal/utils/_lib/unpack_bool.c
deleted file mode 100644
index b47e0037ee358..0000000000000
--- a/go/parquet/internal/utils/_lib/unpack_bool.c
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-#include <arch.h>
-#include <stdbool.h>
-#include <stdint.h>
-
-void FULL_NAME(bytes_to_bools)(const uint8_t bytes[], const int len, bool out[], const int outlen) {
-  for (int i = 0; i < len; i++) {
-    for (int j = 0; j < 8; j++) {
-      int idx = 8*i+j;
-      if (idx >= outlen) { break; }
-      out[idx] = (bytes[i] & (1 << j)) != 0;
-    }
-  }
-}
-
diff --git a/go/parquet/internal/utils/_lib/unpack_bool_avx2.s b/go/parquet/internal/utils/_lib/unpack_bool_avx2.s
deleted file mode 100644
index 6ac34887c003d..0000000000000
--- a/go/parquet/internal/utils/_lib/unpack_bool_avx2.s
+++ /dev/null
@@ -1,104 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"unpack_bool.c"
-	.globl	bytes_to_bools_avx2             # -- Begin function bytes_to_bools_avx2
-	.p2align	4, 0x90
-	.type	bytes_to_bools_avx2,@function
-bytes_to_bools_avx2:                    # @bytes_to_bools_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB0_5
-# %bb.1:
-	mov	r8d, esi
-	shl	r8, 3
-	xor	r10d, r10d
-	jmp	.LBB0_2
-	.p2align	4, 0x90
-.LBB0_4:                                #   in Loop: Header=BB0_2 Depth=1
-	add	r10, 8
-	add	rdi, 1
-	cmp	r8, r10
-	je	.LBB0_5
-.LBB0_2:                                # =>This Inner Loop Header: Depth=1
-	cmp	r10d, ecx
-	jge	.LBB0_4
-# %bb.3:                                #   in Loop: Header=BB0_2 Depth=1
-	mov	r9d, r10d
-	movzx	eax, byte ptr [rdi]
-	and	al, 1
-	mov	byte ptr [rdx + r9], al
-	mov	rsi, r9
-	or	rsi, 1
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.6:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 2
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.7:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 2
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 3
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.8:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 3
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 4
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.9:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 4
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 5
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.10:                               #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 5
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 6
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.11:                               #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 6
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	or	r9, 7
-	cmp	r9d, ecx
-	jge	.LBB0_4
-# %bb.12:                               #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 7
-	mov	byte ptr [rdx + r9], al
-	jmp	.LBB0_4
-.LBB0_5:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	bytes_to_bools_avx2, .Lfunc_end0-bytes_to_bools_avx2
-                                        # -- End function
-	.ident	"Debian clang version 11.1.0-++20210428103820+1fdec59bffc1-1~exp1~20210428204437.162"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/parquet/internal/utils/_lib/unpack_bool_neon.s b/go/parquet/internal/utils/_lib/unpack_bool_neon.s
deleted file mode 100644
index ac832a29d6d36..0000000000000
--- a/go/parquet/internal/utils/_lib/unpack_bool_neon.s
+++ /dev/null
@@ -1,89 +0,0 @@
-	.text
-	.file	"unpack_bool.c"
-	.globl	bytes_to_bools_neon     // -- Begin function bytes_to_bools_neon
-	.p2align	2
-	.type	bytes_to_bools_neon,@function
-bytes_to_bools_neon:                    // @bytes_to_bools_neon
-// %bb.0:
-	stp	x29, x30, [sp, #-16]!   // 16-byte Folded Spill
-	cmp	w1, #1                  // =1
-	mov	x29, sp
-	b.lt	.LBB0_12
-// %bb.1:
-	mov	w9, w1
-	mov	x8, xzr
-	lsl	x9, x9, #3
-	mov	w10, #5
-	b	.LBB0_3
-.LBB0_2:                                //   in Loop: Header=BB0_3 Depth=1
-	add	x8, x8, #8              // =8
-	cmp	x9, x8
-	add	x0, x0, #1              // =1
-	b.eq	.LBB0_12
-.LBB0_3:                                // =>This Inner Loop Header: Depth=1
-	cmp	w8, w3
-	b.ge	.LBB0_2
-// %bb.4:                               //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w12, [x0]
-	and	x11, x8, #0xffffffff
-	orr	x13, x11, #0x1
-	cmp	w13, w3
-	and	w12, w12, #0x1
-	strb	w12, [x2, x11]
-	b.ge	.LBB0_2
-// %bb.5:                               //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w14, [x0]
-	orr	x12, x11, #0x2
-	cmp	w12, w3
-	ubfx	w14, w14, #1, #1
-	strb	w14, [x2, x13]
-	b.ge	.LBB0_2
-// %bb.6:                               //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w14, [x0]
-	orr	x13, x11, #0x3
-	cmp	w13, w3
-	ubfx	w14, w14, #2, #1
-	strb	w14, [x2, x12]
-	b.ge	.LBB0_2
-// %bb.7:                               //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w14, [x0]
-	orr	x12, x11, #0x4
-	cmp	w12, w3
-	ubfx	w14, w14, #3, #1
-	strb	w14, [x2, x13]
-	b.ge	.LBB0_2
-// %bb.8:                               //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w14, [x0]
-	orr	x13, x11, x10
-	cmp	w13, w3
-	ubfx	w14, w14, #4, #1
-	strb	w14, [x2, x12]
-	b.ge	.LBB0_2
-// %bb.9:                               //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w14, [x0]
-	orr	x12, x11, #0x6
-	cmp	w12, w3
-	ubfx	w14, w14, #5, #1
-	strb	w14, [x2, x13]
-	b.ge	.LBB0_2
-// %bb.10:                              //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w13, [x0]
-	orr	x11, x11, #0x7
-	cmp	w11, w3
-	ubfx	w13, w13, #6, #1
-	strb	w13, [x2, x12]
-	b.ge	.LBB0_2
-// %bb.11:                              //   in Loop: Header=BB0_3 Depth=1
-	ldrb	w12, [x0]
-	lsr	w12, w12, #7
-	strb	w12, [x2, x11]
-	b	.LBB0_2
-.LBB0_12:
-	ldp	x29, x30, [sp], #16     // 16-byte Folded Reload
-	ret
-.Lfunc_end0:
-	.size	bytes_to_bools_neon, .Lfunc_end0-bytes_to_bools_neon
-                                        // -- End function
-	.ident	"clang version 10.0.0-4ubuntu1 "
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/parquet/internal/utils/_lib/unpack_bool_sse4.s b/go/parquet/internal/utils/_lib/unpack_bool_sse4.s
deleted file mode 100644
index 6719771b865af..0000000000000
--- a/go/parquet/internal/utils/_lib/unpack_bool_sse4.s
+++ /dev/null
@@ -1,104 +0,0 @@
-	.text
-	.intel_syntax noprefix
-	.file	"unpack_bool.c"
-	.globl	bytes_to_bools_sse4             # -- Begin function bytes_to_bools_sse4
-	.p2align	4, 0x90
-	.type	bytes_to_bools_sse4,@function
-bytes_to_bools_sse4:                    # @bytes_to_bools_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	and	rsp, -8
-	test	esi, esi
-	jle	.LBB0_5
-# %bb.1:
-	mov	r8d, esi
-	shl	r8, 3
-	xor	r10d, r10d
-	jmp	.LBB0_2
-	.p2align	4, 0x90
-.LBB0_4:                                #   in Loop: Header=BB0_2 Depth=1
-	add	r10, 8
-	add	rdi, 1
-	cmp	r8, r10
-	je	.LBB0_5
-.LBB0_2:                                # =>This Inner Loop Header: Depth=1
-	cmp	r10d, ecx
-	jge	.LBB0_4
-# %bb.3:                                #   in Loop: Header=BB0_2 Depth=1
-	mov	r9d, r10d
-	movzx	eax, byte ptr [rdi]
-	and	al, 1
-	mov	byte ptr [rdx + r9], al
-	mov	rsi, r9
-	or	rsi, 1
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.6:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 2
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.7:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 2
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 3
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.8:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 3
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 4
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.9:                                #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 4
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 5
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.10:                               #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 5
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	mov	rsi, r9
-	or	rsi, 6
-	cmp	esi, ecx
-	jge	.LBB0_4
-# %bb.11:                               #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 6
-	and	al, 1
-	mov	byte ptr [rdx + rsi], al
-	or	r9, 7
-	cmp	r9d, ecx
-	jge	.LBB0_4
-# %bb.12:                               #   in Loop: Header=BB0_2 Depth=1
-	movzx	eax, byte ptr [rdi]
-	shr	al, 7
-	mov	byte ptr [rdx + r9], al
-	jmp	.LBB0_4
-.LBB0_5:
-	mov	rsp, rbp
-	pop	rbp
-	ret
-.Lfunc_end0:
-	.size	bytes_to_bools_sse4, .Lfunc_end0-bytes_to_bools_sse4
-                                        # -- End function
-	.ident	"Debian clang version 11.1.0-++20210428103820+1fdec59bffc1-1~exp1~20210428204437.162"
-	.section	".note.GNU-stack","",@progbits
-	.addrsig
diff --git a/go/parquet/internal/utils/bit_benchmark_test.go b/go/parquet/internal/utils/bit_benchmark_test.go
deleted file mode 100644
index d171e81e952fa..0000000000000
--- a/go/parquet/internal/utils/bit_benchmark_test.go
+++ /dev/null
@@ -1,132 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils_test
-
-import (
-	"strconv"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-)
-
-type linearBitRunReader struct {
-	reader *bitutil.BitmapReader
-}
-
-func (l linearBitRunReader) NextRun() bitutils.BitRun {
-	r := bitutils.BitRun{0, l.reader.Set()}
-	for l.reader.Pos() < l.reader.Len() && l.reader.Set() == r.Set {
-		r.Len++
-		l.reader.Next()
-	}
-	return r
-}
-
-func randomBitsBuffer(nbits, setPct int64) []byte {
-	rag := testutils.NewRandomArrayGenerator(23)
-	prob := float64(0)
-	if setPct != -1 {
-		prob = float64(setPct) / 100.0
-	}
-	buf := make([]byte, int(bitutil.BytesForBits(nbits)))
-	rag.GenerateBitmap(buf, nbits, prob)
-
-	if setPct == -1 {
-		wr := bitutil.NewBitmapWriter(buf, 0, int(nbits))
-		for i := int64(0); i < nbits; i++ {
-			if i%2 == 0 {
-				wr.Set()
-			} else {
-				wr.Clear()
-			}
-			wr.Next()
-		}
-	}
-	return buf
-}
-
-func testBitRunReader(rdr bitutils.BitRunReader) (setTotal int64) {
-	for {
-		br := rdr.NextRun()
-		if br.Len == 0 {
-			break
-		}
-		if br.Set {
-			setTotal += br.Len
-		}
-	}
-	return
-}
-
-func BenchmarkBitRunReader(b *testing.B) {
-	const numBits = 4096
-	for _, pct := range []int64{1, 0, 10, 25, 50, 60, 75, 99} {
-		buf := randomBitsBuffer(numBits, pct)
-		b.Run("set pct "+strconv.Itoa(int(pct)), func(b *testing.B) {
-			b.Run("linear", func(b *testing.B) {
-				b.SetBytes(numBits / 8)
-				for i := 0; i < b.N; i++ {
-					rdr := linearBitRunReader{bitutil.NewBitmapReader(buf, 0, numBits)}
-					testBitRunReader(rdr)
-				}
-			})
-			b.Run("internal", func(b *testing.B) {
-				b.SetBytes(numBits / 8)
-				for i := 0; i < b.N; i++ {
-					rdr := bitutils.NewBitRunReader(buf, 0, numBits)
-					testBitRunReader(rdr)
-				}
-			})
-		})
-	}
-}
-
-func testSetBitRunReader(rdr bitutils.SetBitRunReader) (setTotal int64) {
-	for {
-		br := rdr.NextRun()
-		if br.Length == 0 {
-			break
-		}
-		setTotal += br.Length
-	}
-	return
-}
-
-func BenchmarkSetBitRunReader(b *testing.B) {
-	const numBits = 4096
-	for _, pct := range []int64{1, 0, 10, 25, 50, 60, 75, 99} {
-		buf := randomBitsBuffer(numBits, pct)
-		b.Run("set pct "+strconv.Itoa(int(pct)), func(b *testing.B) {
-			b.Run("reader", func(b *testing.B) {
-				b.SetBytes(numBits / 8)
-				for i := 0; i < b.N; i++ {
-					rdr := bitutils.NewSetBitRunReader(buf, 0, numBits)
-					testSetBitRunReader(rdr)
-				}
-			})
-			b.Run("reverse rdr", func(b *testing.B) {
-				b.SetBytes(numBits / 8)
-				for i := 0; i < b.N; i++ {
-					rdr := bitutils.NewReverseSetBitRunReader(buf, 0, numBits)
-					testSetBitRunReader(rdr)
-				}
-			})
-		})
-	}
-}
diff --git a/go/parquet/internal/utils/bit_packing_amd64.go b/go/parquet/internal/utils/bit_packing_amd64.go
deleted file mode 100644
index 72702578c1202..0000000000000
--- a/go/parquet/internal/utils/bit_packing_amd64.go
+++ /dev/null
@@ -1,32 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-	"golang.org/x/sys/cpu"
-)
-
-func init() {
-	if cpu.X86.HasAVX2 {
-		unpack32 = unpack32Avx2
-	} else { // default to the pure go implementation if no avx2 available
-		unpack32 = unpack32Default
-	}
-}
diff --git a/go/parquet/internal/utils/bit_packing_arm64.go b/go/parquet/internal/utils/bit_packing_arm64.go
deleted file mode 100644
index 89a00b0c63b9d..0000000000000
--- a/go/parquet/internal/utils/bit_packing_arm64.go
+++ /dev/null
@@ -1,35 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-	"github.com/klauspost/cpuid/v2"
-	// import for side effect of initializing feature flags
-	// based on ARM_ENABLE_EXT env var
-	_ "github.com/apache/arrow/go/v18/parquet/internal/bmi"
-)
-
-func init() {
-	if cpuid.CPU.Has(cpuid.ASIMD) {
-		unpack32 = unpack32NEON
-	} else { // default to the pure go implementation if no avx2 available
-		unpack32 = unpack32Default
-	}
-}
diff --git a/go/parquet/internal/utils/bit_packing_avx2_amd64.go b/go/parquet/internal/utils/bit_packing_avx2_amd64.go
deleted file mode 100644
index 0455ccc505bfe..0000000000000
--- a/go/parquet/internal/utils/bit_packing_avx2_amd64.go
+++ /dev/null
@@ -1,54 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-	"bytes"
-	"io"
-	"sync"
-	"unsafe"
-)
-
-var bufferPool = sync.Pool{New: func() interface{} { return &bytes.Buffer{} }}
-
-//go:noescape
-func _unpack32_avx2(in, out unsafe.Pointer, batchSize, nbits int) (num int)
-
-func unpack32Avx2(in io.Reader, out []uint32, nbits int) int {
-	batch := len(out) / 32 * 32
-	if batch <= 0 {
-		return 0
-	}
-
-	n := batch * nbits / 8
-
-	buffer := bufferPool.Get().(*bytes.Buffer)
-	defer bufferPool.Put(buffer)
-	buffer.Reset()
-	buffer.Grow(n)
-	io.CopyN(buffer, in, int64(n))
-
-	var (
-		input  = unsafe.Pointer(&buffer.Bytes()[0])
-		output = unsafe.Pointer(&out[0])
-	)
-
-	return _unpack32_avx2(input, output, len(out), nbits)
-}
diff --git a/go/parquet/internal/utils/bit_packing_avx2_amd64.s b/go/parquet/internal/utils/bit_packing_avx2_amd64.s
deleted file mode 100644
index 8a678160951ef..0000000000000
--- a/go/parquet/internal/utils/bit_packing_avx2_amd64.s
+++ /dev/null
@@ -1,3439 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-DATA LCDATA1<>+0x000(SB)/8, $0x7fffffff7fffffff
-DATA LCDATA1<>+0x008(SB)/8, $0x3fffffff3fffffff
-DATA LCDATA1<>+0x010(SB)/8, $0x1fffffff1fffffff
-DATA LCDATA1<>+0x018(SB)/8, $0x0fffffff0fffffff
-DATA LCDATA1<>+0x020(SB)/8, $0x07ffffff07ffffff
-DATA LCDATA1<>+0x028(SB)/8, $0x03ffffff03ffffff
-DATA LCDATA1<>+0x030(SB)/8, $0x0000000a00000010
-DATA LCDATA1<>+0x038(SB)/8, $0x0000001600000010
-DATA LCDATA1<>+0x040(SB)/8, $0x01ffffff01ffffff
-DATA LCDATA1<>+0x048(SB)/8, $0x007fffff007fffff
-DATA LCDATA1<>+0x050(SB)/8, $0x003fffff003fffff
-DATA LCDATA1<>+0x058(SB)/8, $0x001fffff001fffff
-DATA LCDATA1<>+0x060(SB)/8, $0x000fffff000fffff
-DATA LCDATA1<>+0x068(SB)/8, $0x0007ffff0007ffff
-DATA LCDATA1<>+0x070(SB)/8, $0x0003ffff0003ffff
-DATA LCDATA1<>+0x078(SB)/8, $0x0001ffff0001ffff
-DATA LCDATA1<>+0x080(SB)/8, $0x0000001000000000
-DATA LCDATA1<>+0x088(SB)/8, $0x00007fff00007fff
-DATA LCDATA1<>+0x090(SB)/8, $0x00003fff00003fff
-DATA LCDATA1<>+0x098(SB)/8, $0x00001fff00001fff
-DATA LCDATA1<>+0x0a0(SB)/8, $0x00000fff00000fff
-DATA LCDATA1<>+0x0a8(SB)/8, $0x000007ff000007ff
-DATA LCDATA1<>+0x0b0(SB)/8, $0x000003ff000003ff
-DATA LCDATA1<>+0x0b8(SB)/8, $0x000001ff000001ff
-DATA LCDATA1<>+0x0c0(SB)/8, $0x0000007f0000007f
-DATA LCDATA1<>+0x0c8(SB)/8, $0x0000003f0000003f
-DATA LCDATA1<>+0x0d0(SB)/8, $0x0000001f0000001f
-DATA LCDATA1<>+0x0d8(SB)/8, $0x0000000f0000000f
-DATA LCDATA1<>+0x0e0(SB)/8, $0x0000000700000007
-DATA LCDATA1<>+0x0e8(SB)/8, $0x0000000300000003
-DATA LCDATA1<>+0x0f0(SB)/8, $0x0000000100000001
-DATA LCDATA1<>+0x0f8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x100(SB)/8, $0x0000001700000018
-DATA LCDATA1<>+0x108(SB)/8, $0x0000001500000016
-DATA LCDATA1<>+0x110(SB)/8, $0x0000001300000014
-DATA LCDATA1<>+0x118(SB)/8, $0x0000001100000012
-DATA LCDATA1<>+0x120(SB)/8, $0x0000000900000008
-DATA LCDATA1<>+0x128(SB)/8, $0x0000000b0000000a
-DATA LCDATA1<>+0x130(SB)/8, $0x0000000d0000000c
-DATA LCDATA1<>+0x138(SB)/8, $0x0000000f0000000e
-DATA LCDATA1<>+0x140(SB)/8, $0x0000000f00000010
-DATA LCDATA1<>+0x148(SB)/8, $0x0000000d0000000e
-DATA LCDATA1<>+0x150(SB)/8, $0x0000000b0000000c
-DATA LCDATA1<>+0x158(SB)/8, $0x000000090000000a
-DATA LCDATA1<>+0x160(SB)/8, $0x0000001100000010
-DATA LCDATA1<>+0x168(SB)/8, $0x0000001300000012
-DATA LCDATA1<>+0x170(SB)/8, $0x0000001500000014
-DATA LCDATA1<>+0x178(SB)/8, $0x0000001700000016
-DATA LCDATA1<>+0x180(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x188(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x190(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x198(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x1a0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1a8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1b0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1b8(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x1c0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1c8(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x1d0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1d8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1e0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1e8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x1f0(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x1f8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x200(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x208(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x210(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x218(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x220(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x228(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x230(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x238(SB)/8, $0x0000000400000000
-DATA LCDATA1<>+0x240(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x248(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x250(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x258(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x260(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x268(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x270(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x278(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x280(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x288(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x290(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x298(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2a0(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x2a8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2b0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2b8(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x2c0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2c8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2d0(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x2d8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2e0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2e8(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x2f0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x2f8(SB)/8, $0x0000000600000000
-DATA LCDATA1<>+0x300(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x308(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x310(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x318(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x320(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x328(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x330(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x338(SB)/8, $0x0000000000000006
-DATA LCDATA1<>+0x340(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x348(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x350(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x358(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x360(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x368(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x370(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x378(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x380(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x388(SB)/8, $0x0000000000000006
-DATA LCDATA1<>+0x390(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x398(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x3a0(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x3a8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x3b0(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x3b8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x3c0(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x3c8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x3d0(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x3d8(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x3e0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x3e8(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x3f0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x3f8(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x400(SB)/8, $0x0000000600000000
-DATA LCDATA1<>+0x408(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x410(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x418(SB)/8, $0x0000000a00000000
-DATA LCDATA1<>+0x420(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x428(SB)/8, $0x000000000000000a
-DATA LCDATA1<>+0x430(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x438(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x440(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x448(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x450(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x458(SB)/8, $0x0000000000000006
-DATA LCDATA1<>+0x460(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x468(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x470(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x478(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x480(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x488(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x490(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x498(SB)/8, $0x0000000b00000000
-DATA LCDATA1<>+0x4a0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x4a8(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x4b0(SB)/8, $0x0000000400000000
-DATA LCDATA1<>+0x4b8(SB)/8, $0x0000000c00000000
-DATA LCDATA1<>+0x4c0(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x4c8(SB)/8, $0x0000000000000006
-DATA LCDATA1<>+0x4d0(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x4d8(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x4e0(SB)/8, $0x0000000b00000000
-DATA LCDATA1<>+0x4e8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x4f0(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x4f8(SB)/8, $0x000000000000000a
-DATA LCDATA1<>+0x500(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x508(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x510(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x518(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x520(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x528(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x530(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x538(SB)/8, $0x0000000d00000000
-DATA LCDATA1<>+0x540(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x548(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x550(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x558(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x560(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x568(SB)/8, $0x0000000600000000
-DATA LCDATA1<>+0x570(SB)/8, $0x0000000a00000000
-DATA LCDATA1<>+0x578(SB)/8, $0x0000000e00000000
-DATA LCDATA1<>+0x580(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0x588(SB)/8, $0x0000000000000002
-DATA LCDATA1<>+0x590(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x598(SB)/8, $0x0000000000000006
-DATA LCDATA1<>+0x5a0(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x5a8(SB)/8, $0x000000000000000a
-DATA LCDATA1<>+0x5b0(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x5b8(SB)/8, $0x000000000000000e
-DATA LCDATA1<>+0x5c0(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x5c8(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x5d0(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x5d8(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x5e0(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x5e8(SB)/8, $0x0000000b00000000
-DATA LCDATA1<>+0x5f0(SB)/8, $0x0000000d00000000
-DATA LCDATA1<>+0x5f8(SB)/8, $0x0000000f00000000
-DATA LCDATA1<>+0x600(SB)/8, $0x0000000f00000000
-DATA LCDATA1<>+0x608(SB)/8, $0x0000000d00000000
-DATA LCDATA1<>+0x610(SB)/8, $0x0000000b00000000
-DATA LCDATA1<>+0x618(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x620(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x628(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x630(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x638(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x640(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x648(SB)/8, $0x000000000000000e
-DATA LCDATA1<>+0x650(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x658(SB)/8, $0x000000000000000a
-DATA LCDATA1<>+0x660(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x668(SB)/8, $0x0000000000000006
-DATA LCDATA1<>+0x670(SB)/8, $0x0000000000000004
-DATA LCDATA1<>+0x678(SB)/8, $0x0000001100000002
-DATA LCDATA1<>+0x680(SB)/8, $0x0000000e00000000
-DATA LCDATA1<>+0x688(SB)/8, $0x0000000a00000000
-DATA LCDATA1<>+0x690(SB)/8, $0x0000000600000000
-DATA LCDATA1<>+0x698(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x6a0(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x6a8(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x6b0(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x6b8(SB)/8, $0x0000001200000004
-DATA LCDATA1<>+0x6c0(SB)/8, $0x0000000d00000000
-DATA LCDATA1<>+0x6c8(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x6d0(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x6d8(SB)/8, $0x000000000000000e
-DATA LCDATA1<>+0x6e0(SB)/8, $0x0000000000000008
-DATA LCDATA1<>+0x6e8(SB)/8, $0x0000000f00000002
-DATA LCDATA1<>+0x6f0(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x6f8(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x700(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x708(SB)/8, $0x000000000000000a
-DATA LCDATA1<>+0x710(SB)/8, $0x0000001100000004
-DATA LCDATA1<>+0x718(SB)/8, $0x0000000b00000000
-DATA LCDATA1<>+0x720(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x728(SB)/8, $0x0000000000000012
-DATA LCDATA1<>+0x730(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x738(SB)/8, $0x0000001300000006
-DATA LCDATA1<>+0x740(SB)/8, $0x0000000c00000000
-DATA LCDATA1<>+0x748(SB)/8, $0x0000000400000000
-DATA LCDATA1<>+0x750(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x758(SB)/8, $0x0000001400000008
-DATA LCDATA1<>+0x760(SB)/8, $0x0000000b00000000
-DATA LCDATA1<>+0x768(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x770(SB)/8, $0x000000000000000c
-DATA LCDATA1<>+0x778(SB)/8, $0x0000000d00000002
-DATA LCDATA1<>+0x780(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x788(SB)/8, $0x000000000000000e
-DATA LCDATA1<>+0x790(SB)/8, $0x0000000f00000004
-DATA LCDATA1<>+0x798(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x7a0(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x7a8(SB)/8, $0x0000001100000006
-DATA LCDATA1<>+0x7b0(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x7b8(SB)/8, $0x0000000000000012
-DATA LCDATA1<>+0x7c0(SB)/8, $0x0000001300000008
-DATA LCDATA1<>+0x7c8(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x7d0(SB)/8, $0x0000000000000014
-DATA LCDATA1<>+0x7d8(SB)/8, $0x000000150000000a
-DATA LCDATA1<>+0x7e0(SB)/8, $0x0000000a00000000
-DATA LCDATA1<>+0x7e8(SB)/8, $0x0000000000000014
-DATA LCDATA1<>+0x7f0(SB)/8, $0x0000001200000008
-DATA LCDATA1<>+0x7f8(SB)/8, $0x0000000600000000
-DATA LCDATA1<>+0x800(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x808(SB)/8, $0x0000000e00000004
-DATA LCDATA1<>+0x810(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x818(SB)/8, $0x000000160000000c
-DATA LCDATA1<>+0x820(SB)/8, $0x0000000900000000
-DATA LCDATA1<>+0x828(SB)/8, $0x0000000000000012
-DATA LCDATA1<>+0x830(SB)/8, $0x0000000d00000004
-DATA LCDATA1<>+0x838(SB)/8, $0x0000000000000016
-DATA LCDATA1<>+0x840(SB)/8, $0x0000001100000008
-DATA LCDATA1<>+0x848(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x850(SB)/8, $0x000000150000000c
-DATA LCDATA1<>+0x858(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x860(SB)/8, $0x0000000000000010
-DATA LCDATA1<>+0x868(SB)/8, $0x0000000b00000002
-DATA LCDATA1<>+0x870(SB)/8, $0x0000000000000014
-DATA LCDATA1<>+0x878(SB)/8, $0x0000000f00000006
-DATA LCDATA1<>+0x880(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x888(SB)/8, $0x000000130000000a
-DATA LCDATA1<>+0x890(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x898(SB)/8, $0x000000170000000e
-DATA LCDATA1<>+0x8a0(SB)/8, $0x0000000700000000
-DATA LCDATA1<>+0x8a8(SB)/8, $0x000000150000000e
-DATA LCDATA1<>+0x8b0(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x8b8(SB)/8, $0x000000110000000a
-DATA LCDATA1<>+0x8c0(SB)/8, $0x0000000000000018
-DATA LCDATA1<>+0x8c8(SB)/8, $0x0000000d00000006
-DATA LCDATA1<>+0x8d0(SB)/8, $0x0000000000000014
-DATA LCDATA1<>+0x8d8(SB)/8, $0x0000000900000002
-DATA LCDATA1<>+0x8e0(SB)/8, $0x0000001700000010
-DATA LCDATA1<>+0x8e8(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x8f0(SB)/8, $0x000000130000000c
-DATA LCDATA1<>+0x8f8(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x900(SB)/8, $0x0000000f00000008
-DATA LCDATA1<>+0x908(SB)/8, $0x0000000000000016
-DATA LCDATA1<>+0x910(SB)/8, $0x0000000b00000004
-DATA LCDATA1<>+0x918(SB)/8, $0x0000001900000012
-DATA LCDATA1<>+0x920(SB)/8, $0x0000000600000000
-DATA LCDATA1<>+0x928(SB)/8, $0x000000120000000c
-DATA LCDATA1<>+0x930(SB)/8, $0x0000000000000018
-DATA LCDATA1<>+0x938(SB)/8, $0x0000000a00000004
-DATA LCDATA1<>+0x940(SB)/8, $0x0000001600000010
-DATA LCDATA1<>+0x948(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0x950(SB)/8, $0x0000000e00000008
-DATA LCDATA1<>+0x958(SB)/8, $0x0000001a00000014
-DATA LCDATA1<>+0x960(SB)/8, $0x0000000500000000
-DATA LCDATA1<>+0x968(SB)/8, $0x0000000f0000000a
-DATA LCDATA1<>+0x970(SB)/8, $0x0000001900000014
-DATA LCDATA1<>+0x978(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0x980(SB)/8, $0x0000000d00000008
-DATA LCDATA1<>+0x988(SB)/8, $0x0000001700000012
-DATA LCDATA1<>+0x990(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0x998(SB)/8, $0x0000000b00000006
-DATA LCDATA1<>+0x9a0(SB)/8, $0x0000001500000010
-DATA LCDATA1<>+0x9a8(SB)/8, $0x000000000000001a
-DATA LCDATA1<>+0x9b0(SB)/8, $0x0000000900000004
-DATA LCDATA1<>+0x9b8(SB)/8, $0x000000130000000e
-DATA LCDATA1<>+0x9c0(SB)/8, $0x0000000000000018
-DATA LCDATA1<>+0x9c8(SB)/8, $0x0000000700000002
-DATA LCDATA1<>+0x9d0(SB)/8, $0x000000110000000c
-DATA LCDATA1<>+0x9d8(SB)/8, $0x0000001b00000016
-DATA LCDATA1<>+0x9e0(SB)/8, $0x0000000400000000
-DATA LCDATA1<>+0x9e8(SB)/8, $0x0000000c00000008
-DATA LCDATA1<>+0x9f0(SB)/8, $0x0000001400000010
-DATA LCDATA1<>+0x9f8(SB)/8, $0x0000001c00000018
-DATA LCDATA1<>+0xa00(SB)/8, $0x0000000300000000
-DATA LCDATA1<>+0xa08(SB)/8, $0x0000000900000006
-DATA LCDATA1<>+0xa10(SB)/8, $0x0000000f0000000c
-DATA LCDATA1<>+0xa18(SB)/8, $0x0000001500000012
-DATA LCDATA1<>+0xa20(SB)/8, $0x0000001b00000018
-DATA LCDATA1<>+0xa28(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0xa30(SB)/8, $0x0000000700000004
-DATA LCDATA1<>+0xa38(SB)/8, $0x0000000d0000000a
-DATA LCDATA1<>+0xa40(SB)/8, $0x0000001300000010
-DATA LCDATA1<>+0xa48(SB)/8, $0x0000001900000016
-DATA LCDATA1<>+0xa50(SB)/8, $0x000000000000001c
-DATA LCDATA1<>+0xa58(SB)/8, $0x0000000500000002
-DATA LCDATA1<>+0xa60(SB)/8, $0x0000000b00000008
-DATA LCDATA1<>+0xa68(SB)/8, $0x000000110000000e
-DATA LCDATA1<>+0xa70(SB)/8, $0x0000001700000014
-DATA LCDATA1<>+0xa78(SB)/8, $0x0000001d0000001a
-DATA LCDATA1<>+0xa80(SB)/8, $0x0000000200000000
-DATA LCDATA1<>+0xa88(SB)/8, $0x0000000600000004
-DATA LCDATA1<>+0xa90(SB)/8, $0x0000000a00000008
-DATA LCDATA1<>+0xa98(SB)/8, $0x0000000e0000000c
-DATA LCDATA1<>+0xaa0(SB)/8, $0x0000001200000010
-DATA LCDATA1<>+0xaa8(SB)/8, $0x0000001600000014
-DATA LCDATA1<>+0xab0(SB)/8, $0x0000001a00000018
-DATA LCDATA1<>+0xab8(SB)/8, $0x0000001e0000001c
-DATA LCDATA1<>+0xac0(SB)/8, $0x0000000100000000
-DATA LCDATA1<>+0xac8(SB)/8, $0x0000000300000002
-DATA LCDATA1<>+0xad0(SB)/8, $0x0000000500000004
-DATA LCDATA1<>+0xad8(SB)/8, $0x0000000700000006
-DATA LCDATA1<>+0xae0(SB)/8, $0x0000001900000018
-DATA LCDATA1<>+0xae8(SB)/8, $0x0000001b0000001a
-DATA LCDATA1<>+0xaf0(SB)/8, $0x0000001d0000001c
-DATA LCDATA1<>+0xaf8(SB)/8, $0x0000001f0000001e
-DATA LCDATA1<>+0xb00(SB)/8, $0x0000000700000008
-DATA LCDATA1<>+0xb08(SB)/8, $0x0000000500000006
-DATA LCDATA1<>+0xb10(SB)/8, $0x0000001900000018
-DATA LCDATA1<>+0xb18(SB)/8, $0x0000001b0000001a
-DATA LCDATA1<>+0xb20(SB)/8, $0x0000000e00000010
-DATA LCDATA1<>+0xb28(SB)/8, $0x0000000a0000000c
-DATA LCDATA1<>+0xb30(SB)/8, $0x0000001200000010
-DATA LCDATA1<>+0xb38(SB)/8, $0x0000001600000014
-DATA LCDATA1<>+0xb40(SB)/8, $0x0000000500000008
-DATA LCDATA1<>+0xb48(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xb50(SB)/8, $0x0000001b00000018
-DATA LCDATA1<>+0xb58(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xb60(SB)/8, $0x0000000d00000010
-DATA LCDATA1<>+0xb68(SB)/8, $0x000000070000000a
-DATA LCDATA1<>+0xb70(SB)/8, $0x0000001300000010
-DATA LCDATA1<>+0xb78(SB)/8, $0x0000001900000016
-DATA LCDATA1<>+0xb80(SB)/8, $0x0000001500000018
-DATA LCDATA1<>+0xb88(SB)/8, $0x0000000f00000012
-DATA LCDATA1<>+0xb90(SB)/8, $0x0000000b00000008
-DATA LCDATA1<>+0xb98(SB)/8, $0x000000110000000e
-DATA LCDATA1<>+0xba0(SB)/8, $0x0000001300000018
-DATA LCDATA1<>+0xba8(SB)/8, $0x000000090000000e
-DATA LCDATA1<>+0xbb0(SB)/8, $0x0000000d00000008
-DATA LCDATA1<>+0xbb8(SB)/8, $0x0000001700000012
-DATA LCDATA1<>+0xbc0(SB)/8, $0x0000000b00000010
-DATA LCDATA1<>+0xbc8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xbd0(SB)/8, $0x0000001500000010
-DATA LCDATA1<>+0xbd8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xbe0(SB)/8, $0x0000000900000010
-DATA LCDATA1<>+0xbe8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xbf0(SB)/8, $0x0000001700000010
-DATA LCDATA1<>+0xbf8(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc00(SB)/8, $0x0000001100000018
-DATA LCDATA1<>+0xc08(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc10(SB)/8, $0x0000000f00000008
-DATA LCDATA1<>+0xc18(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc20(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc28(SB)/8, $0x0000000800000000
-DATA LCDATA1<>+0xc30(SB)/8, $0x0000000f00000018
-DATA LCDATA1<>+0xc38(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc40(SB)/8, $0x0000001100000008
-DATA LCDATA1<>+0xc48(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc50(SB)/8, $0x0000000d00000018
-DATA LCDATA1<>+0xc58(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc60(SB)/8, $0x0000001300000008
-DATA LCDATA1<>+0xc68(SB)/8, $0x0000000000000000
-DATA LCDATA1<>+0xc70(SB)/8, $0x0000000800000000
-DATA LCDATA1<>+0xc78(SB)/8, $0x0000001800000010
-DATA LCDATA1<>+0xc80(SB)/8, $0x000000ff00ffffff
-GLOBL LCDATA1<>(SB), 8, $3208
-
-TEXT ·_unpack32_avx2(SB), $24-40
-
-	MOVQ in+0(FP), DI
-	MOVQ out+8(FP), SI
-	MOVQ batchSize+16(FP), DX
-	MOVQ nbits+24(FP), CX
-	MOVQ SP, BP
-	ADDQ $16, SP
-	ANDQ $-16, SP
-	MOVQ BP, 0(SP)
-	LEAQ LCDATA1<>(SB), BP
-
-	WORD $0x8949; BYTE $0xf7 // mov    r15, rsi
-	WORD $0x8948; BYTE $0xfb // mov    rbx, rdi
-	LONG $0x1f728d44         // lea    r14d, [rdx + 31]
-	WORD $0xd285             // test    edx, edx
-	LONG $0xf2490f44         // cmovns    r14d, edx
-	LONG $0x05fec141         // sar    r14d, 5
-	WORD $0xf983; BYTE $0x0f // cmp    ecx, 15
-	JLE  LBB0_1
-	WORD $0xf983; BYTE $0x17 // cmp    ecx, 23
-	JLE  LBB0_49
-	WORD $0xf983; BYTE $0x1b // cmp    ecx, 27
-	JLE  LBB0_73
-	WORD $0xf983; BYTE $0x1d // cmp    ecx, 29
-	JLE  LBB0_85
-	WORD $0xf983; BYTE $0x1e // cmp    ecx, 30
-	JE   LBB0_99
-	WORD $0xf983; BYTE $0x1f // cmp    ecx, 31
-	JE   LBB0_96
-	WORD $0xf983; BYTE $0x20 // cmp    ecx, 32
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20 // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf4 // mov    r12d, r14d
-
-LBB0_95:
-	LONG $0x000080ba; BYTE $0x00 // mov    edx, 128
-	WORD $0x894c; BYTE $0xff     // mov    rdi, r15
-	WORD $0x8948; BYTE $0xde     // mov    rsi, rbx
-	CALL clib·_memcpy(SB)
-	LONG $0x80eb8348             // sub    rbx, -128
-	LONG $0x80ef8349             // sub    r15, -128
-	LONG $0xffc48349             // add    r12, -1
-	JNE  LBB0_95
-	JMP  LBB0_147
-
-LBB0_1:
-	WORD $0xf983; BYTE $0x07             // cmp    ecx, 7
-	JG   LBB0_25
-	WORD $0xf983; BYTE $0x03             // cmp    ecx, 3
-	JG   LBB0_14
-	WORD $0xf983; BYTE $0x01             // cmp    ecx, 1
-	JG   LBB0_9
-	WORD $0xc985                         // test    ecx, ecx
-	JE   LBB0_144
-	WORD $0xf983; BYTE $0x01             // cmp    ecx, 1
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	WORD $0xc931                         // xor    ecx, ecx
-	QUAD $0x0000f085597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 240[rbp] /* [rip + .LCPI0_135] */
-	QUAD $0x00000ac08d6ffdc5             // vmovdqa    ymm1, yword 2752[rbp] /* [rip + .LCPI0_134] */
-	QUAD $0x00000120956ffdc5             // vmovdqa    ymm2, yword 288[rbp] /* [rip + .LCPI0_2] */
-	QUAD $0x000001609d6ffdc5             // vmovdqa    ymm3, yword 352[rbp] /* [rip + .LCPI0_4] */
-	QUAD $0x00000ae0a56ffdc5             // vmovdqa    ymm4, yword 2784[rbp] /* [rip + .LCPI0_136] */
-
-LBB0_8:
-	LONG $0x587de2c4; WORD $0x8b2c // vpbroadcastd    ymm5, dword [rbx + 4*rcx]
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	LONG $0x587de2c4; WORD $0x8b2c // vpbroadcastd    ymm5, dword [rbx + 4*rcx]
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	LONG $0x587de2c4; WORD $0x8b2c // vpbroadcastd    ymm5, dword [rbx + 4*rcx]
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	LONG $0x587de2c4; WORD $0x8b2c // vpbroadcastd    ymm5, dword [rbx + 4*rcx]
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0x80ef8349               // sub    r15, -128
-	WORD $0x3948; BYTE $0xc8       // cmp    rax, rcx
-	JNE  LBB0_8
-	JMP  LBB0_147
-
-LBB0_49:
-	WORD $0xf983; BYTE $0x13       // cmp    ecx, 19
-	JG   LBB0_61
-	WORD $0xf983; BYTE $0x11       // cmp    ecx, 17
-	JG   LBB0_56
-	WORD $0xf983; BYTE $0x10       // cmp    ecx, 16
-	JE   LBB0_120
-	WORD $0xf983; BYTE $0x11       // cmp    ecx, 17
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x40c38348               // add    rbx, 64
-	LONG $0x597de2c4; WORD $0x7845 // vpbroadcastq    ymm0, qword 120[rbp] /* [rip + .LCPI0_76] */
-	QUAD $0x000005808d6ffdc5       // vmovdqa    ymm1, yword 1408[rbp] /* [rip + .LCPI0_75] */
-	QUAD $0x000005a0956ffdc5       // vmovdqa    ymm2, yword 1440[rbp] /* [rip + .LCPI0_77] */
-	QUAD $0x000005c09d6ffdc5       // vmovdqa    ymm3, yword 1472[rbp] /* [rip + .LCPI0_78] */
-	QUAD $0x000005e0a56ffdc5       // vmovdqa    ymm4, yword 1504[rbp] /* [rip + .LCPI0_79] */
-
-LBB0_55:
-	WORD $0x4b8b; BYTE $0xcc       // mov    ecx, dword [rbx - 52]
-	LONG $0xd0538b44               // mov    r10d, dword [rbx - 48]
-	LONG $0xcaa40f41; BYTE $0x09   // shld    r10d, ecx, 9
-	WORD $0x738b; BYTE $0xc8       // mov    esi, dword [rbx - 56]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x0bf7a40f               // shld    edi, esi, 11
-	LONG $0xc04b8b44               // mov    r9d, dword [rbx - 64]
-	WORD $0x538b; BYTE $0xc4       // mov    edx, dword [rbx - 60]
-	WORD $0xd089                   // mov    eax, edx
-	LONG $0xc8a40f44; BYTE $0x0f   // shld    eax, r9d, 15
-	LONG $0xee6ef9c5               // vmovd    xmm5, esi
-	LONG $0x0dd6a40f               // shld    esi, edx, 13
-	LONG $0x2251e3c4; WORD $0x01ef // vpinsrd    xmm5, xmm5, edi, 1
-	LONG $0x2251e3c4; WORD $0x02e9 // vpinsrd    xmm5, xmm5, ecx, 2
-	LONG $0x2251c3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, r10d, 3
-	LONG $0x6e79c1c4; BYTE $0xf1   // vmovd    xmm6, r9d
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249e3c4; WORD $0x03f6 // vpinsrd    xmm6, xmm6, esi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	WORD $0x438b; BYTE $0xdc       // mov    eax, dword [rbx - 36]
-	LONG $0xe0538b44               // mov    r10d, dword [rbx - 32]
-	LONG $0xc2a40f41; BYTE $0x01   // shld    r10d, eax, 1
-	WORD $0x538b; BYTE $0xd8       // mov    edx, dword [rbx - 40]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x03d6a40f               // shld    esi, edx, 3
-	LONG $0xd04b8b44               // mov    r9d, dword [rbx - 48]
-	WORD $0x4b8b; BYTE $0xd4       // mov    ecx, dword [rbx - 44]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0xcfa40f44; BYTE $0x07   // shld    edi, r9d, 7
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x05caa40f               // shld    edx, ecx, 5
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251c3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, r10d, 3
-	LONG $0x6e79c1c4; BYTE $0xf1   // vmovd    xmm6, r9d
-	LONG $0x2249e3c4; WORD $0x01f7 // vpinsrd    xmm6, xmm6, edi, 1
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	LONG $0xf04b8b44               // mov    r9d, dword [rbx - 16]
-	LONG $0xec5b8b44               // mov    r11d, dword [rbx - 20]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x0a   // shld    edx, r11d, 10
-	LONG $0xe8538b44               // mov    r10d, dword [rbx - 24]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0xd7a40f44; BYTE $0x0c   // shld    edi, r10d, 12
-	WORD $0x438b; BYTE $0xe4       // mov    eax, dword [rbx - 28]
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	LONG $0x0ec6a40f               // shld    esi, eax, 14
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	LONG $0x10c1ac0f               // shrd    ecx, eax, 16
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x2251c3c4; WORD $0x01eb // vpinsrd    xmm5, xmm5, r11d, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2249e3c4; WORD $0x02f6 // vpinsrd    xmm6, xmm6, esi, 2
-	LONG $0x2249c3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, r10d, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	LONG $0xfc5b8b44               // mov    r11d, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x02   // shld    edx, r11d, 2
-	LONG $0xf8538b44               // mov    r10d, dword [rbx - 8]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0xd7a40f44; BYTE $0x04   // shld    edi, r10d, 4
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	WORD $0x738b; BYTE $0xf4       // mov    esi, dword [rbx - 12]
-	WORD $0x8944; BYTE $0xd1       // mov    ecx, r10d
-	LONG $0x06f1a40f               // shld    ecx, esi, 6
-	LONG $0x18f0ac0f               // shrd    eax, esi, 24
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x2251c3c4; WORD $0x01eb // vpinsrd    xmm5, xmm5, r11d, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0xf06ef9c5               // vmovd    xmm6, eax
-	LONG $0x2249e3c4; WORD $0x01f6 // vpinsrd    xmm6, xmm6, esi, 1
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2249c3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, r10d, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x44c38348               // add    rbx, 68
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_55
-	JMP  LBB0_147
-
-LBB0_25:
-	WORD $0xf983; BYTE $0x0b             // cmp    ecx, 11
-	JG   LBB0_37
-	WORD $0xf983; BYTE $0x09             // cmp    ecx, 9
-	JG   LBB0_32
-	WORD $0xf983; BYTE $0x08             // cmp    ecx, 8
-	JE   LBB0_132
-	WORD $0xf983; BYTE $0x09             // cmp    ecx, 9
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x20c38348                     // add    rbx, 32
-	QUAD $0x0000b885597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 184[rbp] /* [rip + .LCPI0_105] */
-	QUAD $0x000008208d6ffdc5             // vmovdqa    ymm1, yword 2080[rbp] /* [rip + .LCPI0_104] */
-	QUAD $0x00000840956ffdc5             // vmovdqa    ymm2, yword 2112[rbp] /* [rip + .LCPI0_106] */
-	QUAD $0x000008609d6ffdc5             // vmovdqa    ymm3, yword 2144[rbp] /* [rip + .LCPI0_107] */
-	QUAD $0x00000880a56ffdc5             // vmovdqa    ymm4, yword 2176[rbp] /* [rip + .LCPI0_108] */
-
-LBB0_31:
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	WORD $0x538b; BYTE $0xe4       // mov    edx, dword [rbx - 28]
-	WORD $0x738b; BYTE $0xe8       // mov    esi, dword [rbx - 24]
-	LONG $0x01d6a40f               // shld    esi, edx, 1
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x05caa40f               // shld    edx, ecx, 5
-	LONG $0x2251e3c4; WORD $0x03ee // vpinsrd    xmm5, xmm5, esi, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	WORD $0x4b8b; BYTE $0xf0       // mov    ecx, dword [rbx - 16]
-	WORD $0x538b; BYTE $0xe8       // mov    edx, dword [rbx - 24]
-	WORD $0x738b; BYTE $0xec       // mov    esi, dword [rbx - 20]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x02f7a40f               // shld    edi, esi, 2
-	WORD $0xf089                   // mov    eax, esi
-	LONG $0x06d0a40f               // shld    eax, edx, 6
-	LONG $0xee6ef9c5               // vmovd    xmm5, esi
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02ef // vpinsrd    xmm5, xmm5, edi, 2
-	LONG $0x2251e3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, ecx, 3
-	LONG $0xf26ef9c5               // vmovd    xmm6, edx
-	LONG $0x2249e3c4; WORD $0x01f2 // vpinsrd    xmm6, xmm6, edx, 1
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2249e3c4; WORD $0x03f6 // vpinsrd    xmm6, xmm6, esi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x438b; BYTE $0xf8       // mov    eax, dword [rbx - 8]
-	WORD $0x4b8b; BYTE $0xf0       // mov    ecx, dword [rbx - 16]
-	WORD $0x538b; BYTE $0xf4       // mov    edx, dword [rbx - 12]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x03d6a40f               // shld    esi, edx, 3
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x07cfa40f               // shld    edi, ecx, 7
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f7 // vpinsrd    xmm6, xmm6, edi, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x038b                   // mov    eax, dword [rbx]
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x538b; BYTE $0xfc       // mov    edx, dword [rbx - 4]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x04d6a40f               // shld    esi, edx, 4
-	LONG $0x18d1ac0f               // shrd    ecx, edx, 24
-	LONG $0xee6ef9c5               // vmovd    xmm5, esi
-	LONG $0x2251e3c4; WORD $0x01e8 // vpinsrd    xmm5, xmm5, eax, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f2 // vpinsrd    xmm6, xmm6, edx, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x24c38348               // add    rbx, 36
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_31
-	JMP  LBB0_147
-
-LBB0_73:
-	WORD $0xf983; BYTE $0x19       // cmp    ecx, 25
-	JG   LBB0_79
-	WORD $0xf983; BYTE $0x18       // cmp    ecx, 24
-	JE   LBB0_108
-	WORD $0xf983; BYTE $0x19       // cmp    ecx, 25
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x60c38348               // add    rbx, 96
-	LONG $0x597de2c4; WORD $0x4045 // vpbroadcastq    ymm0, qword 64[rbp] /* [rip + .LCPI0_38] */
-	QUAD $0x000002608d6f7dc5       // vmovdqa    ymm9, yword 608[rbp] /* [rip + .LCPI0_28] */
-	QUAD $0x00000300956f7dc5       // vmovdqa    ymm10, yword 768[rbp] /* [rip + .LCPI0_39] */
-	QUAD $0x00000be09d6f79c5       // vmovdqa    xmm11, oword 3040[rbp] /* [rip + .LCPI0_40] */
-	QUAD $0x00000bf0a56ff9c5       // vmovdqa    xmm4, oword 3056[rbp] /* [rip + .LCPI0_41] */
-	QUAD $0x00000320ad6ffdc5       // vmovdqa    ymm5, yword 800[rbp] /* [rip + .LCPI0_42] */
-	QUAD $0x00000c00b56ff9c5       // vmovdqa    xmm6, oword 3072[rbp] /* [rip + .LCPI0_43] */
-	QUAD $0x00000c10bd6ff9c5       // vmovdqa    xmm7, oword 3088[rbp] /* [rip + .LCPI0_44] */
-	QUAD $0x00000340856f7dc5       // vmovdqa    ymm8, yword 832[rbp] /* [rip + .LCPI0_45] */
-
-LBB0_78:
-	WORD $0x4b8b; BYTE $0xb4       // mov    ecx, dword [rbx - 76]
-	LONG $0xb84b8b44               // mov    r9d, dword [rbx - 72]
-	LONG $0xc9a40f41; BYTE $0x11   // shld    r9d, ecx, 17
-	WORD $0x738b; BYTE $0xb0       // mov    esi, dword [rbx - 80]
-	LONG $0x0af1a40f               // shld    ecx, esi, 10
-	WORD $0x7b8b; BYTE $0xac       // mov    edi, dword [rbx - 84]
-	LONG $0x03fea40f               // shld    esi, edi, 3
-	WORD $0x438b; BYTE $0xa8       // mov    eax, dword [rbx - 88]
-	LONG $0xcf6ef9c5               // vmovd    xmm1, edi
-	LONG $0x15c7a40f               // shld    edi, eax, 21
-	LONG $0xa0538b44               // mov    r10d, dword [rbx - 96]
-	WORD $0x538b; BYTE $0xa4       // mov    edx, dword [rbx - 92]
-	LONG $0x0ed0a40f               // shld    eax, edx, 14
-	LONG $0xd2a40f44; BYTE $0x07   // shld    edx, r10d, 7
-	LONG $0x2271e3c4; WORD $0x01ce // vpinsrd    xmm1, xmm1, esi, 1
-	LONG $0x6e79c1c4; BYTE $0xd2   // vmovd    xmm2, r10d
-	LONG $0x2271e3c4; WORD $0x02c9 // vpinsrd    xmm1, xmm1, ecx, 2
-	LONG $0x2269e3c4; WORD $0x01d2 // vpinsrd    xmm2, xmm2, edx, 1
-	LONG $0x2271c3c4; WORD $0x03c9 // vpinsrd    xmm1, xmm1, r9d, 3
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2269e3c4; WORD $0x03d7 // vpinsrd    xmm2, xmm2, edi, 3
-	LONG $0x386de3c4; WORD $0x01c9 // vinserti128    ymm1, ymm2, xmm1, 1
-	LONG $0x4575c2c4; BYTE $0xc9   // vpsrlvd    ymm1, ymm1, ymm9
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa04f // vmovdqu    yword [r15 - 96], ymm1
-	LONG $0xcc5b8b44               // mov    r11d, dword [rbx - 52]
-	LONG $0xd04b8b44               // mov    r9d, dword [rbx - 48]
-	LONG $0xd9a40f45; BYTE $0x09   // shld    r9d, r11d, 9
-	LONG $0xc8538b44               // mov    r10d, dword [rbx - 56]
-	LONG $0xd3a40f45; BYTE $0x02   // shld    r11d, r10d, 2
-	WORD $0x738b; BYTE $0xc4       // mov    esi, dword [rbx - 60]
-	WORD $0x8944; BYTE $0xd7       // mov    edi, r10d
-	WORD $0x4b8b; BYTE $0xc0       // mov    ecx, dword [rbx - 64]
-	LONG $0x14f7a40f               // shld    edi, esi, 20
-	WORD $0x538b; BYTE $0xb8       // mov    edx, dword [rbx - 72]
-	WORD $0x438b; BYTE $0xbc       // mov    eax, dword [rbx - 68]
-	LONG $0x0dcea40f               // shld    esi, ecx, 13
-	LONG $0x08c2ac0f               // shrd    edx, eax, 8
-	LONG $0x06c1a40f               // shld    ecx, eax, 6
-	LONG $0xcf6ef9c5               // vmovd    xmm1, edi
-	LONG $0x2271c3c4; WORD $0x01ca // vpinsrd    xmm1, xmm1, r10d, 1
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2271c3c4; WORD $0x02cb // vpinsrd    xmm1, xmm1, r11d, 2
-	LONG $0x2269e3c4; WORD $0x01d0 // vpinsrd    xmm2, xmm2, eax, 1
-	LONG $0x2271c3c4; WORD $0x03c9 // vpinsrd    xmm1, xmm1, r9d, 3
-	LONG $0x2269e3c4; WORD $0x02d1 // vpinsrd    xmm2, xmm2, ecx, 2
-	LONG $0x2269e3c4; WORD $0x03d6 // vpinsrd    xmm2, xmm2, esi, 3
-	LONG $0x386de3c4; WORD $0x01c9 // vinserti128    ymm1, ymm2, xmm1, 1
-	LONG $0x4575c2c4; BYTE $0xca   // vpsrlvd    ymm1, ymm1, ymm10
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc04f // vmovdqu    yword [r15 - 64], ymm1
-	WORD $0x438b; BYTE $0xe4       // mov    eax, dword [rbx - 28]
-	LONG $0xe84b8b44               // mov    r9d, dword [rbx - 24]
-	LONG $0xc1a40f41; BYTE $0x01   // shld    r9d, eax, 1
-	WORD $0x538b; BYTE $0xe0       // mov    edx, dword [rbx - 32]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x13d6a40f               // shld    esi, edx, 19
-	WORD $0x7b8b; BYTE $0xd8       // mov    edi, dword [rbx - 40]
-	WORD $0x4b8b; BYTE $0xdc       // mov    ecx, dword [rbx - 36]
-	LONG $0x0ccaa40f               // shld    edx, ecx, 12
-	LONG $0x05f9a40f               // shld    ecx, edi, 5
-	LONG $0x4b7efac5; BYTE $0xd0   // vmovq    xmm1, qword [rbx - 48]
-	LONG $0x4571c2c4; BYTE $0xd3   // vpsrlvd    xmm2, xmm1, xmm11
-	LONG $0xc970f9c5; BYTE $0xe5   // vpshufd    xmm1, xmm1, 229
-	LONG $0x2271e3c4; WORD $0x01cf // vpinsrd    xmm1, xmm1, edi, 1
-	LONG $0x4771e2c4; BYTE $0xcc   // vpsllvd    xmm1, xmm1, xmm4
-	LONG $0xc9ebe9c5               // vpor    xmm1, xmm2, xmm1
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2269e3c4; WORD $0x01d6 // vpinsrd    xmm2, xmm2, esi, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2271e3c4; WORD $0x02cf // vpinsrd    xmm1, xmm1, edi, 2
-	LONG $0x2271e3c4; WORD $0x03c9 // vpinsrd    xmm1, xmm1, ecx, 3
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x4575e2c4; BYTE $0xcd   // vpsrlvd    ymm1, ymm1, ymm5
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe04f // vmovdqu    yword [r15 - 32], ymm1
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x12caa40f               // shld    edx, ecx, 18
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0x0bf1a40f               // shld    ecx, esi, 11
-	LONG $0xf0538b44               // mov    r10d, dword [rbx - 16]
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	LONG $0x04fea40f               // shld    esi, edi, 4
-	WORD $0xf889                   // mov    eax, edi
-	LONG $0xd0a40f44; BYTE $0x16   // shld    eax, r10d, 22
-	LONG $0x4b7efac5; BYTE $0xe8   // vmovq    xmm1, qword [rbx - 24]
-	LONG $0x4571e2c4; BYTE $0xd6   // vpsrlvd    xmm2, xmm1, xmm6
-	LONG $0xc970f9c5; BYTE $0xe5   // vpshufd    xmm1, xmm1, 229
-	LONG $0x2271c3c4; WORD $0x01ca // vpinsrd    xmm1, xmm1, r10d, 1
-	LONG $0x4771e2c4; BYTE $0xcf   // vpsllvd    xmm1, xmm1, xmm7
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0xc9ebe9c5               // vpor    xmm1, xmm2, xmm1
-	LONG $0x2261e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm3, edx, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2271e3c4; WORD $0x02c8 // vpinsrd    xmm1, xmm1, eax, 2
-	LONG $0x2271e3c4; WORD $0x03cf // vpinsrd    xmm1, xmm1, edi, 3
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x4575c2c4; BYTE $0xc8   // vpsrlvd    ymm1, ymm1, ymm8
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x0f   // vmovdqu    yword [r15], ymm1
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x64c38348               // add    rbx, 100
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_78
-	JMP  LBB0_147
-
-LBB0_14:
-	WORD $0xf983; BYTE $0x05             // cmp    ecx, 5
-	JG   LBB0_20
-	WORD $0xf983; BYTE $0x04             // cmp    ecx, 4
-	JE   LBB0_138
-	WORD $0xf983; BYTE $0x05             // cmp    ecx, 5
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x10c38348                     // add    rbx, 16
-	QUAD $0x0000d085597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 208[rbp] /* [rip + .LCPI0_120] */
-	QUAD $0x000009608d6ffdc5             // vmovdqa    ymm1, yword 2400[rbp] /* [rip + .LCPI0_119] */
-	QUAD $0x00000980956ffdc5             // vmovdqa    ymm2, yword 2432[rbp] /* [rip + .LCPI0_121] */
-	QUAD $0x000009a09d6ffdc5             // vmovdqa    ymm3, yword 2464[rbp] /* [rip + .LCPI0_122] */
-	QUAD $0x000009c0a56ffdc5             // vmovdqa    ymm4, yword 2496[rbp] /* [rip + .LCPI0_123] */
-
-LBB0_19:
-	WORD $0x4b8b; BYTE $0xf0       // mov    ecx, dword [rbx - 16]
-	WORD $0x538b; BYTE $0xf4       // mov    edx, dword [rbx - 12]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x02cea40f               // shld    esi, ecx, 2
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x5879e2c4; BYTE $0xf5   // vpbroadcastd    xmm6, xmm5
-	LONG $0x2251e3c4; WORD $0x01e9 // vpinsrd    xmm5, xmm5, ecx, 1
-	LONG $0x2251e3c4; WORD $0x02ee // vpinsrd    xmm5, xmm5, esi, 2
-	LONG $0x2251e3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	WORD $0x4b8b; BYTE $0xf4       // mov    ecx, dword [rbx - 12]
-	WORD $0x538b; BYTE $0xf8       // mov    edx, dword [rbx - 8]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x5879e2c4; BYTE $0xed   // vpbroadcastd    xmm5, xmm5
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f2 // vpinsrd    xmm6, xmm6, edx, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x538b; BYTE $0xfc       // mov    edx, dword [rbx - 4]
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x01caa40f               // shld    edx, ecx, 1
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x5879e2c4; BYTE $0xed   // vpbroadcastd    xmm5, xmm5
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x138b                   // mov    edx, dword [rbx]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x03cea40f               // shld    esi, ecx, 3
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251e3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, edx, 3
-	LONG $0xf26ef9c5               // vmovd    xmm6, edx
-	LONG $0x5879e2c4; BYTE $0xf6   // vpbroadcastd    xmm6, xmm6
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x14c38348               // add    rbx, 20
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_19
-	JMP  LBB0_147
-
-LBB0_61:
-	WORD $0xf983; BYTE $0x15       // cmp    ecx, 21
-	JG   LBB0_67
-	WORD $0xf983; BYTE $0x14       // cmp    ecx, 20
-	JE   LBB0_114
-	WORD $0xf983; BYTE $0x15       // cmp    ecx, 21
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x50c38348               // add    rbx, 80
-	QUAD $0x00000420856f7dc5       // vmovdqa    ymm8, yword 1056[rbp] /* [rip + .LCPI0_58] */
-	LONG $0x597de2c4; WORD $0x584d // vpbroadcastq    ymm1, qword 88[rbp] /* [rip + .LCPI0_59] */
-	QUAD $0x00000440956ffdc5       // vmovdqa    ymm2, yword 1088[rbp] /* [rip + .LCPI0_60] */
-	QUAD $0x000004609d6ffdc5       // vmovdqa    ymm3, yword 1120[rbp] /* [rip + .LCPI0_61] */
-	QUAD $0x00000c50a56ff9c5       // vmovdqa    xmm4, oword 3152[rbp] /* [rip + .LCPI0_62] */
-	QUAD $0x00000c60ad6ff9c5       // vmovdqa    xmm5, oword 3168[rbp] /* [rip + .LCPI0_63] */
-	QUAD $0x00000480b56ffdc5       // vmovdqa    ymm6, yword 1152[rbp] /* [rip + .LCPI0_64] */
-
-LBB0_66:
-	WORD $0x4b8b; BYTE $0xc0       // mov    ecx, dword [rbx - 64]
-	LONG $0xc44b8b44               // mov    r9d, dword [rbx - 60]
-	LONG $0xc9a40f41; BYTE $0x0d   // shld    r9d, ecx, 13
-	LONG $0xbc5b8b44               // mov    r11d, dword [rbx - 68]
-	LONG $0xd9a40f44; BYTE $0x02   // shld    ecx, r11d, 2
-	WORD $0x7b8b; BYTE $0xb8       // mov    edi, dword [rbx - 72]
-	WORD $0x8944; BYTE $0xde       // mov    esi, r11d
-	LONG $0x0cfea40f               // shld    esi, edi, 12
-	LONG $0xb0538b44               // mov    r10d, dword [rbx - 80]
-	WORD $0x438b; BYTE $0xb4       // mov    eax, dword [rbx - 76]
-	LONG $0x01c7a40f               // shld    edi, eax, 1
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0xd2a40f44; BYTE $0x0b   // shld    edx, r10d, 11
-	LONG $0x6e79c1c4; BYTE $0xfa   // vmovd    xmm7, r10d
-	LONG $0xc66ef9c5               // vmovd    xmm0, esi
-	LONG $0x2241e3c4; WORD $0x01fa // vpinsrd    xmm7, xmm7, edx, 1
-	LONG $0x2279c3c4; WORD $0x01c3 // vpinsrd    xmm0, xmm0, r11d, 1
-	LONG $0x2241e3c4; WORD $0x02f8 // vpinsrd    xmm7, xmm7, eax, 2
-	LONG $0x2279e3c4; WORD $0x02c1 // vpinsrd    xmm0, xmm0, ecx, 2
-	LONG $0x2241e3c4; WORD $0x03ff // vpinsrd    xmm7, xmm7, edi, 3
-	LONG $0x2279c3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, r9d, 3
-	LONG $0x3845e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm7, xmm0, 1
-	LONG $0x457dc2c4; BYTE $0xc0   // vpsrlvd    ymm0, ymm0, ymm8
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa047 // vmovdqu    yword [r15 - 96], ymm0
-	LONG $0xd4538b44               // mov    r10d, dword [rbx - 44]
-	LONG $0xd84b8b44               // mov    r9d, dword [rbx - 40]
-	LONG $0xd1a40f45; BYTE $0x05   // shld    r9d, r10d, 5
-	WORD $0x538b; BYTE $0xd0       // mov    edx, dword [rbx - 48]
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	LONG $0x0fd6a40f               // shld    esi, edx, 15
-	WORD $0x4b8b; BYTE $0xcc       // mov    ecx, dword [rbx - 52]
-	LONG $0x04caa40f               // shld    edx, ecx, 4
-	LONG $0xc45b8b44               // mov    r11d, dword [rbx - 60]
-	WORD $0x438b; BYTE $0xc8       // mov    eax, dword [rbx - 56]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x0ec7a40f               // shld    edi, eax, 14
-	LONG $0xd8a40f44; BYTE $0x03   // shld    eax, r11d, 3
-	LONG $0x6e79c1c4; BYTE $0xc3   // vmovd    xmm0, r11d
-	LONG $0xfa6ef9c5               // vmovd    xmm7, edx
-	LONG $0x2279e3c4; WORD $0x01c0 // vpinsrd    xmm0, xmm0, eax, 1
-	LONG $0x2241e3c4; WORD $0x01fe // vpinsrd    xmm7, xmm7, esi, 1
-	LONG $0x2279e3c4; WORD $0x02c7 // vpinsrd    xmm0, xmm0, edi, 2
-	LONG $0x2241c3c4; WORD $0x02fa // vpinsrd    xmm7, xmm7, r10d, 2
-	LONG $0x2279e3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, ecx, 3
-	LONG $0x2241c3c4; WORD $0x03f9 // vpinsrd    xmm7, xmm7, r9d, 3
-	LONG $0x387de3c4; WORD $0x01c7 // vinserti128    ymm0, ymm0, xmm7, 1
-	LONG $0x457de2c4; BYTE $0xc2   // vpsrlvd    ymm0, ymm0, ymm2
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc047 // vmovdqu    yword [r15 - 64], ymm0
-	LONG $0xec4b8b44               // mov    r9d, dword [rbx - 20]
-	WORD $0x4b8b; BYTE $0xe8       // mov    ecx, dword [rbx - 24]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xcaa40f41; BYTE $0x12   // shld    r10d, ecx, 18
-	WORD $0x738b; BYTE $0xe4       // mov    esi, dword [rbx - 28]
-	LONG $0x07f1a40f               // shld    ecx, esi, 7
-	WORD $0x7b8b; BYTE $0xe0       // mov    edi, dword [rbx - 32]
-	LONG $0xc66ef9c5               // vmovd    xmm0, esi
-	LONG $0x11fea40f               // shld    esi, edi, 17
-	WORD $0x438b; BYTE $0xd8       // mov    eax, dword [rbx - 40]
-	WORD $0x538b; BYTE $0xdc       // mov    edx, dword [rbx - 36]
-	LONG $0x06d7a40f               // shld    edi, edx, 6
-	LONG $0x10d0ac0f               // shrd    eax, edx, 16
-	LONG $0x2279e3c4; WORD $0x01c1 // vpinsrd    xmm0, xmm0, ecx, 1
-	LONG $0xf86ef9c5               // vmovd    xmm7, eax
-	LONG $0x2279c3c4; WORD $0x02c2 // vpinsrd    xmm0, xmm0, r10d, 2
-	LONG $0x2241e3c4; WORD $0x01fa // vpinsrd    xmm7, xmm7, edx, 1
-	LONG $0x2279c3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, r9d, 3
-	LONG $0x2241e3c4; WORD $0x02ff // vpinsrd    xmm7, xmm7, edi, 2
-	LONG $0x2241e3c4; WORD $0x03fe // vpinsrd    xmm7, xmm7, esi, 3
-	LONG $0x3845e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm7, xmm0, 1
-	LONG $0x457de2c4; BYTE $0xc3   // vpsrlvd    ymm0, ymm0, ymm3
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe047 // vmovdqu    yword [r15 - 32], ymm0
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x438b; BYTE $0xfc       // mov    eax, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x0ac2a40f               // shld    edx, eax, 10
-	WORD $0x738b; BYTE $0xf4       // mov    esi, dword [rbx - 12]
-	WORD $0x7b8b; BYTE $0xf8       // mov    edi, dword [rbx - 8]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x14f9a40f               // shld    ecx, edi, 20
-	LONG $0x09f7a40f               // shld    edi, esi, 9
-	LONG $0x437efac5; BYTE $0xec   // vmovq    xmm0, qword [rbx - 20]
-	LONG $0x4579e2c4; BYTE $0xfc   // vpsrlvd    xmm7, xmm0, xmm4
-	LONG $0xc070f9c5; BYTE $0xe5   // vpshufd    xmm0, xmm0, 229
-	LONG $0x2279e3c4; WORD $0x01c6 // vpinsrd    xmm0, xmm0, esi, 1
-	LONG $0x4779e2c4; BYTE $0xc5   // vpsllvd    xmm0, xmm0, xmm5
-	LONG $0xc0ebc1c5               // vpor    xmm0, xmm7, xmm0
-	LONG $0xf96ef9c5               // vmovd    xmm7, ecx
-	LONG $0x2241e3c4; WORD $0x01f8 // vpinsrd    xmm7, xmm7, eax, 1
-	LONG $0x2241e3c4; WORD $0x02fa // vpinsrd    xmm7, xmm7, edx, 2
-	LONG $0x2241c3c4; WORD $0x03f9 // vpinsrd    xmm7, xmm7, r9d, 3
-	LONG $0x2279e3c4; WORD $0x02c6 // vpinsrd    xmm0, xmm0, esi, 2
-	LONG $0x2279e3c4; WORD $0x03c7 // vpinsrd    xmm0, xmm0, edi, 3
-	LONG $0x387de3c4; WORD $0x01c7 // vinserti128    ymm0, ymm0, xmm7, 1
-	LONG $0x457de2c4; BYTE $0xc6   // vpsrlvd    ymm0, ymm0, ymm6
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x07   // vmovdqu    yword [r15], ymm0
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x54c38348               // add    rbx, 84
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_66
-	JMP  LBB0_147
-
-LBB0_37:
-	WORD $0xf983; BYTE $0x0d             // cmp    ecx, 13
-	JG   LBB0_43
-	WORD $0xf983; BYTE $0x0c             // cmp    ecx, 12
-	JE   LBB0_126
-	WORD $0xf983; BYTE $0x0d             // cmp    ecx, 13
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x30c38348                     // add    rbx, 48
-	QUAD $0x00009885597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 152[rbp] /* [rip + .LCPI0_90] */
-	QUAD $0x000006c08d6ffdc5             // vmovdqa    ymm1, yword 1728[rbp] /* [rip + .LCPI0_89] */
-	QUAD $0x000006e0956ffdc5             // vmovdqa    ymm2, yword 1760[rbp] /* [rip + .LCPI0_91] */
-	QUAD $0x000007009d6ffdc5             // vmovdqa    ymm3, yword 1792[rbp] /* [rip + .LCPI0_92] */
-	QUAD $0x00000720a56ffdc5             // vmovdqa    ymm4, yword 1824[rbp] /* [rip + .LCPI0_93] */
-
-LBB0_42:
-	WORD $0x438b; BYTE $0xd8       // mov    eax, dword [rbx - 40]
-	LONG $0xdc4b8b44               // mov    r9d, dword [rbx - 36]
-	LONG $0xc1a40f41; BYTE $0x05   // shld    r9d, eax, 5
-	WORD $0x738b; BYTE $0xd0       // mov    esi, dword [rbx - 48]
-	WORD $0x538b; BYTE $0xd4       // mov    edx, dword [rbx - 44]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0x0cd1a40f               // shld    ecx, edx, 12
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x06f7a40f               // shld    edi, esi, 6
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x2251e3c4; WORD $0x01e8 // vpinsrd    xmm5, xmm5, eax, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f6 // vpinsrd    xmm6, xmm6, esi, 1
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	LONG $0xe84b8b44               // mov    r9d, dword [rbx - 24]
-	WORD $0x4b8b; BYTE $0xe4       // mov    ecx, dword [rbx - 28]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x0acaa40f               // shld    edx, ecx, 10
-	WORD $0x738b; BYTE $0xe0       // mov    esi, dword [rbx - 32]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x04f7a40f               // shld    edi, esi, 4
-	LONG $0xdc538b44               // mov    r10d, dword [rbx - 36]
-	WORD $0xf089                   // mov    eax, esi
-	LONG $0xd0a40f44; BYTE $0x0b   // shld    eax, r10d, 11
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x2251e3c4; WORD $0x01e9 // vpinsrd    xmm5, xmm5, ecx, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x6e79c1c4; BYTE $0xf2   // vmovd    xmm6, r10d
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2249e3c4; WORD $0x02f6 // vpinsrd    xmm6, xmm6, esi, 2
-	LONG $0x2249e3c4; WORD $0x03f6 // vpinsrd    xmm6, xmm6, esi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	LONG $0xf44b8b44               // mov    r9d, dword [rbx - 12]
-	WORD $0x4b8b; BYTE $0xf0       // mov    ecx, dword [rbx - 16]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x02caa40f               // shld    edx, ecx, 2
-	WORD $0x738b; BYTE $0xe8       // mov    esi, dword [rbx - 24]
-	WORD $0x438b; BYTE $0xec       // mov    eax, dword [rbx - 20]
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x2251e3c4; WORD $0x01e9 // vpinsrd    xmm5, xmm5, ecx, 1
-	LONG $0x09c1a40f               // shld    ecx, eax, 9
-	WORD $0xc789                   // mov    edi, eax
-	LONG $0x03f7a40f               // shld    edi, esi, 3
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f7 // vpinsrd    xmm6, xmm6, edi, 1
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2249e3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, ecx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x038b                   // mov    eax, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x07caa40f               // shld    edx, ecx, 7
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x01f1a40f               // shld    ecx, esi, 1
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	LONG $0x18f7ac0f               // shrd    edi, esi, 24
-	LONG $0xf76ef9c5               // vmovd    xmm6, edi
-	LONG $0x2249e3c4; WORD $0x01f6 // vpinsrd    xmm6, xmm6, esi, 1
-	LONG $0x2249e3c4; WORD $0x02f6 // vpinsrd    xmm6, xmm6, esi, 2
-	LONG $0x2249e3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, ecx, 3
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x34c38348               // add    rbx, 52
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_42
-	JMP  LBB0_147
-
-LBB0_85:
-	WORD $0xf983; BYTE $0x1c       // cmp    ecx, 28
-	JE   LBB0_102
-	WORD $0xf983; BYTE $0x1d       // cmp    ecx, 29
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x597de2c4; WORD $0x1045 // vpbroadcastq    ymm0, qword 16[rbp] /* [rip + .LCPI0_12] */
-	QUAD $0x00000b40856f79c5       // vmovdqa    xmm8, oword 2880[rbp] /* [rip + .LCPI0_13] */
-	QUAD $0x00000b50956f79c5       // vmovdqa    xmm10, oword 2896[rbp] /* [rip + .LCPI0_14] */
-	QUAD $0x000001c09d6f7dc5       // vmovdqa    ymm11, yword 448[rbp] /* [rip + .LCPI0_15] */
-	QUAD $0x00000b60a56f79c5       // vmovdqa    xmm12, oword 2912[rbp] /* [rip + .LCPI0_16] */
-	QUAD $0x00000b70ad6ff9c5       // vmovdqa    xmm5, oword 2928[rbp] /* [rip + .LCPI0_17] */
-	QUAD $0x000001e0b56ffdc5       // vmovdqa    ymm6, yword 480[rbp] /* [rip + .LCPI0_18] */
-	QUAD $0x00000b80bd6ff9c5       // vmovdqa    xmm7, oword 2944[rbp] /* [rip + .LCPI0_19] */
-	QUAD $0x00000b908d6ff9c5       // vmovdqa    xmm1, oword 2960[rbp] /* [rip + .LCPI0_20] */
-	QUAD $0x000002008d6f7dc5       // vmovdqa    ymm9, yword 512[rbp] /* [rip + .LCPI0_21] */
-
-LBB0_89:
-	LONG $0x185b8b44               // mov    r11d, dword [rbx + 24]
-	LONG $0x1c4b8b44               // mov    r9d, dword [rbx + 28]
-	LONG $0xd9a40f45; BYTE $0x15   // shld    r9d, r11d, 21
-	WORD $0x738b; BYTE $0x14       // mov    esi, dword [rbx + 20]
-	LONG $0xf3a40f41; BYTE $0x12   // shld    r11d, esi, 18
-	WORD $0x7b8b; BYTE $0x10       // mov    edi, dword [rbx + 16]
-	LONG $0x0ffea40f               // shld    esi, edi, 15
-	WORD $0x438b; BYTE $0x0c       // mov    eax, dword [rbx + 12]
-	LONG $0x0cc7a40f               // shld    edi, eax, 12
-	WORD $0x538b; BYTE $0x08       // mov    edx, dword [rbx + 8]
-	LONG $0x09d0a40f               // shld    eax, edx, 9
-	WORD $0x8b44; BYTE $0x13       // mov    r10d, dword [rbx]
-	WORD $0x4b8b; BYTE $0x04       // mov    ecx, dword [rbx + 4]
-	LONG $0x06caa40f               // shld    edx, ecx, 6
-	LONG $0xd1a40f44; BYTE $0x03   // shld    ecx, r10d, 3
-	LONG $0x6e79c1c4; BYTE $0xd2   // vmovd    xmm2, r10d
-	LONG $0xdf6ef9c5               // vmovd    xmm3, edi
-	LONG $0x2269e3c4; WORD $0x01d1 // vpinsrd    xmm2, xmm2, ecx, 1
-	LONG $0x2261e3c4; WORD $0x01de // vpinsrd    xmm3, xmm3, esi, 1
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2261c3c4; WORD $0x02db // vpinsrd    xmm3, xmm3, r11d, 2
-	LONG $0x2269e3c4; WORD $0x03d0 // vpinsrd    xmm2, xmm2, eax, 3
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0xd0dbedc5               // vpand    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa057 // vmovdqu    yword [r15 - 96], ymm2
-	WORD $0x438b; BYTE $0x34       // mov    eax, dword [rbx + 52]
-	LONG $0x384b8b44               // mov    r9d, dword [rbx + 56]
-	LONG $0xc1a40f41; BYTE $0x0d   // shld    r9d, eax, 13
-	WORD $0x538b; BYTE $0x30       // mov    edx, dword [rbx + 48]
-	LONG $0x0ad0a40f               // shld    eax, edx, 10
-	WORD $0x738b; BYTE $0x2c       // mov    esi, dword [rbx + 44]
-	LONG $0x07f2a40f               // shld    edx, esi, 7
-	WORD $0x7b8b; BYTE $0x24       // mov    edi, dword [rbx + 36]
-	WORD $0x4b8b; BYTE $0x28       // mov    ecx, dword [rbx + 40]
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	LONG $0x01f9a40f               // shld    ecx, edi, 1
-	LONG $0x537efac5; BYTE $0x1c   // vmovq    xmm2, qword [rbx + 28]
-	LONG $0x4569c2c4; BYTE $0xd8   // vpsrlvd    xmm3, xmm2, xmm8
-	LONG $0xd270f9c5; BYTE $0xe5   // vpshufd    xmm2, xmm2, 229
-	LONG $0x2269e3c4; WORD $0x01d7 // vpinsrd    xmm2, xmm2, edi, 1
-	LONG $0x4769c2c4; BYTE $0xd2   // vpsllvd    xmm2, xmm2, xmm10
-	LONG $0xd2ebe1c5               // vpor    xmm2, xmm3, xmm2
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x2269e3c4; WORD $0x02d7 // vpinsrd    xmm2, xmm2, edi, 2
-	LONG $0x2269e3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, ecx, 3
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x456dc2c4; BYTE $0xd3   // vpsrlvd    ymm2, ymm2, ymm11
-	LONG $0xd0dbedc5               // vpand    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc057 // vmovdqu    yword [r15 - 64], ymm2
-	WORD $0x438b; BYTE $0x50       // mov    eax, dword [rbx + 80]
-	WORD $0x4b8b; BYTE $0x54       // mov    ecx, dword [rbx + 84]
-	LONG $0x05c1a40f               // shld    ecx, eax, 5
-	WORD $0x538b; BYTE $0x4c       // mov    edx, dword [rbx + 76]
-	WORD $0x738b; BYTE $0x48       // mov    esi, dword [rbx + 72]
-	LONG $0x02d0a40f               // shld    eax, edx, 2
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x1cf7a40f               // shld    edi, esi, 28
-	LONG $0x536ffac5; BYTE $0x38   // vmovdqu    xmm2, oword [rbx + 56]
-	LONG $0x4569c2c4; BYTE $0xdc   // vpsrlvd    xmm3, xmm2, xmm12
-	LONG $0xd270f9c5; BYTE $0xf9   // vpshufd    xmm2, xmm2, 249
-	LONG $0x2269e3c4; WORD $0x03d6 // vpinsrd    xmm2, xmm2, esi, 3
-	LONG $0xe76ef9c5               // vmovd    xmm4, edi
-	LONG $0x2259e3c4; WORD $0x01e2 // vpinsrd    xmm4, xmm4, edx, 1
-	LONG $0x2259e3c4; WORD $0x02e0 // vpinsrd    xmm4, xmm4, eax, 2
-	LONG $0x4769e2c4; BYTE $0xd5   // vpsllvd    xmm2, xmm2, xmm5
-	LONG $0x2259e3c4; WORD $0x03e1 // vpinsrd    xmm4, xmm4, ecx, 3
-	LONG $0xd2ebe1c5               // vpor    xmm2, xmm3, xmm2
-	LONG $0x386de3c4; WORD $0x01d4 // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x456de2c4; BYTE $0xd6   // vpsrlvd    ymm2, ymm2, ymm6
-	LONG $0xd0dbedc5               // vpand    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe057 // vmovdqu    yword [r15 - 32], ymm2
-	WORD $0x438b; BYTE $0x70       // mov    eax, dword [rbx + 112]
-	WORD $0x4b8b; BYTE $0x6c       // mov    ecx, dword [rbx + 108]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x1acaa40f               // shld    edx, ecx, 26
-	WORD $0x738b; BYTE $0x68       // mov    esi, dword [rbx + 104]
-	LONG $0x17f1a40f               // shld    ecx, esi, 23
-	WORD $0x7b8b; BYTE $0x64       // mov    edi, dword [rbx + 100]
-	LONG $0x536ffac5; BYTE $0x54   // vmovdqu    xmm2, oword [rbx + 84]
-	LONG $0x14fea40f               // shld    esi, edi, 20
-	LONG $0x4569e2c4; BYTE $0xdf   // vpsrlvd    xmm3, xmm2, xmm7
-	LONG $0xd270f9c5; BYTE $0xf9   // vpshufd    xmm2, xmm2, 249
-	LONG $0x2269e3c4; WORD $0x03d7 // vpinsrd    xmm2, xmm2, edi, 3
-	LONG $0xe66ef9c5               // vmovd    xmm4, esi
-	LONG $0x2259e3c4; WORD $0x01e1 // vpinsrd    xmm4, xmm4, ecx, 1
-	LONG $0x4769e2c4; BYTE $0xd1   // vpsllvd    xmm2, xmm2, xmm1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x2259e3c4; WORD $0x03e0 // vpinsrd    xmm4, xmm4, eax, 3
-	LONG $0xd2ebe1c5               // vpor    xmm2, xmm3, xmm2
-	LONG $0x386de3c4; WORD $0x01d4 // vinserti128    ymm2, ymm2, xmm4, 1
-	LONG $0x456dc2c4; BYTE $0xd1   // vpsrlvd    ymm2, ymm2, ymm9
-	LONG $0xd0dbedc5               // vpand    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x17   // vmovdqu    yword [r15], ymm2
-	LONG $0x74c38348               // add    rbx, 116
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_89
-	JMP  LBB0_147
-
-LBB0_9:
-	WORD $0xf983; BYTE $0x02             // cmp    ecx, 2
-	JE   LBB0_141
-	WORD $0xf983; BYTE $0x03             // cmp    ecx, 3
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	QUAD $0x0000e085597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 224[rbp] /* [rip + .LCPI0_127] */
-	QUAD $0x00000a008d6ffdc5             // vmovdqa    ymm1, yword 2560[rbp] /* [rip + .LCPI0_126] */
-	QUAD $0x00000a20956ffdc5             // vmovdqa    ymm2, yword 2592[rbp] /* [rip + .LCPI0_128] */
-	QUAD $0x00000a409d6ffdc5             // vmovdqa    ymm3, yword 2624[rbp] /* [rip + .LCPI0_129] */
-	QUAD $0x00000a60a56ffdc5             // vmovdqa    ymm4, yword 2656[rbp] /* [rip + .LCPI0_130] */
-
-LBB0_13:
-	LONG $0x587de2c4; BYTE $0x2b   // vpbroadcastd    ymm5, dword [rbx]
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	WORD $0x0b8b                   // mov    ecx, dword [rbx]
-	WORD $0x538b; BYTE $0x04       // mov    edx, dword [rbx + 4]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x02cea40f               // shld    esi, ecx, 2
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x2251e3c4; WORD $0x01e9 // vpinsrd    xmm5, xmm5, ecx, 1
-	LONG $0x2251e3c4; WORD $0x02ee // vpinsrd    xmm5, xmm5, esi, 2
-	LONG $0x2251e3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, edx, 3
-	LONG $0xf26ef9c5               // vmovd    xmm6, edx
-	LONG $0x5879e2c4; BYTE $0xf6   // vpbroadcastd    xmm6, xmm6
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x4b8b; BYTE $0x04       // mov    ecx, dword [rbx + 4]
-	WORD $0x538b; BYTE $0x08       // mov    edx, dword [rbx + 8]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x01cea40f               // shld    esi, ecx, 1
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x5879e2c4; BYTE $0xf5   // vpbroadcastd    xmm6, xmm5
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251e3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	LONG $0x587de2c4; WORD $0x086b // vpbroadcastd    ymm5, dword [rbx + 8]
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x0cc38348               // add    rbx, 12
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_13
-	JMP  LBB0_147
-
-LBB0_56:
-	WORD $0xf983; BYTE $0x12       // cmp    ecx, 18
-	JE   LBB0_117
-	WORD $0xf983; BYTE $0x13       // cmp    ecx, 19
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x48c38348               // add    rbx, 72
-	LONG $0x597de2c4; WORD $0x6845 // vpbroadcastq    ymm0, qword 104[rbp] /* [rip + .LCPI0_68] */
-	QUAD $0x000004c08d6ffdc5       // vmovdqa    ymm1, yword 1216[rbp] /* [rip + .LCPI0_67] */
-	QUAD $0x000004e0956ffdc5       // vmovdqa    ymm2, yword 1248[rbp] /* [rip + .LCPI0_69] */
-	QUAD $0x000005009d6ffdc5       // vmovdqa    ymm3, yword 1280[rbp] /* [rip + .LCPI0_70] */
-	QUAD $0x00000520a56ffdc5       // vmovdqa    ymm4, yword 1312[rbp] /* [rip + .LCPI0_71] */
-
-LBB0_60:
-	LONG $0xc84b8b44               // mov    r9d, dword [rbx - 56]
-	WORD $0x538b; BYTE $0xc4       // mov    edx, dword [rbx - 60]
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	LONG $0x0ed6a40f               // shld    esi, edx, 14
-	WORD $0x7b8b; BYTE $0xc0       // mov    edi, dword [rbx - 64]
-	LONG $0xb8538b44               // mov    r10d, dword [rbx - 72]
-	LONG $0x01faa40f               // shld    edx, edi, 1
-	WORD $0x438b; BYTE $0xbc       // mov    eax, dword [rbx - 68]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0xd1a40f44; BYTE $0x0d   // shld    ecx, r10d, 13
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x07c7a40f               // shld    edi, eax, 7
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x6e79c1c4; BYTE $0xf2   // vmovd    xmm6, r10d
-	LONG $0x2251e3c4; WORD $0x02ee // vpinsrd    xmm5, xmm5, esi, 2
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2249e3c4; WORD $0x03f7 // vpinsrd    xmm6, xmm6, edi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	LONG $0xd8538b44               // mov    r10d, dword [rbx - 40]
-	LONG $0xdc4b8b44               // mov    r9d, dword [rbx - 36]
-	LONG $0xd1a40f45; BYTE $0x03   // shld    r9d, r10d, 3
-	WORD $0x538b; BYTE $0xd4       // mov    edx, dword [rbx - 44]
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	LONG $0x09d6a40f               // shld    esi, edx, 9
-	WORD $0x7b8b; BYTE $0xd0       // mov    edi, dword [rbx - 48]
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x0ffaa40f               // shld    edx, edi, 15
-	WORD $0x4b8b; BYTE $0xc8       // mov    ecx, dword [rbx - 56]
-	WORD $0x438b; BYTE $0xcc       // mov    eax, dword [rbx - 52]
-	LONG $0x02c7a40f               // shld    edi, eax, 2
-	LONG $0x18c1ac0f               // shrd    ecx, eax, 24
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2251c3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, r10d, 2
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	LONG $0xec538b44               // mov    r10d, dword [rbx - 20]
-	LONG $0xf04b8b44               // mov    r9d, dword [rbx - 16]
-	LONG $0xd1a40f45; BYTE $0x0b   // shld    r9d, r10d, 11
-	WORD $0x538b; BYTE $0xe8       // mov    edx, dword [rbx - 24]
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	LONG $0xe45b8b44               // mov    r11d, dword [rbx - 28]
-	LONG $0x11d6a40f               // shld    esi, edx, 17
-	WORD $0x4b8b; BYTE $0xdc       // mov    ecx, dword [rbx - 36]
-	WORD $0x438b; BYTE $0xe0       // mov    eax, dword [rbx - 32]
-	LONG $0xdaa40f44; BYTE $0x04   // shld    edx, r11d, 4
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0x0ac7a40f               // shld    edi, eax, 10
-	LONG $0x10c1ac0f               // shrd    ecx, eax, 16
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2251c3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, r10d, 2
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249c3c4; WORD $0x03f3 // vpinsrd    xmm6, xmm6, r11d, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	LONG $0xfc5b8b44               // mov    r11d, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x06   // shld    edx, r11d, 6
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0x0ccfa40f               // shld    edi, ecx, 12
-	LONG $0xf0538b44               // mov    r10d, dword [rbx - 16]
-	WORD $0x438b; BYTE $0xf4       // mov    eax, dword [rbx - 12]
-	WORD $0xce89                   // mov    esi, ecx
-	LONG $0x12c6a40f               // shld    esi, eax, 18
-	LONG $0xd0a40f44; BYTE $0x05   // shld    eax, r10d, 5
-	LONG $0x6e79c1c4; BYTE $0xea   // vmovd    xmm5, r10d
-	LONG $0xf76ef9c5               // vmovd    xmm6, edi
-	LONG $0x2251e3c4; WORD $0x01e8 // vpinsrd    xmm5, xmm5, eax, 1
-	LONG $0x2249c3c4; WORD $0x01f3 // vpinsrd    xmm6, xmm6, r11d, 1
-	LONG $0x2251e3c4; WORD $0x02ee // vpinsrd    xmm5, xmm5, esi, 2
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2251e3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, ecx, 3
-	LONG $0x2249c3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, r9d, 3
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x4cc38348               // add    rbx, 76
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_60
-	JMP  LBB0_147
-
-LBB0_32:
-	WORD $0xf983; BYTE $0x0a             // cmp    ecx, 10
-	JE   LBB0_129
-	WORD $0xf983; BYTE $0x0b             // cmp    ecx, 11
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x28c38348                     // add    rbx, 40
-	QUAD $0x0000a885597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 168[rbp] /* [rip + .LCPI0_97] */
-	QUAD $0x000007608d6ffdc5             // vmovdqa    ymm1, yword 1888[rbp] /* [rip + .LCPI0_96] */
-	QUAD $0x00000780956ffdc5             // vmovdqa    ymm2, yword 1920[rbp] /* [rip + .LCPI0_98] */
-	QUAD $0x000007a09d6ffdc5             // vmovdqa    ymm3, yword 1952[rbp] /* [rip + .LCPI0_99] */
-	QUAD $0x000007c0a56ffdc5             // vmovdqa    ymm4, yword 1984[rbp] /* [rip + .LCPI0_100] */
-
-LBB0_36:
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	WORD $0x538b; BYTE $0xd8       // mov    edx, dword [rbx - 40]
-	WORD $0x738b; BYTE $0xdc       // mov    esi, dword [rbx - 36]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x09f7a40f               // shld    edi, esi, 9
-	WORD $0xf089                   // mov    eax, esi
-	LONG $0x0ad0a40f               // shld    eax, edx, 10
-	LONG $0xee6ef9c5               // vmovd    xmm5, esi
-	LONG $0x2251e3c4; WORD $0x01ef // vpinsrd    xmm5, xmm5, edi, 1
-	LONG $0x2251e3c4; WORD $0x02e9 // vpinsrd    xmm5, xmm5, ecx, 2
-	LONG $0x2251e3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, ecx, 3
-	LONG $0xf26ef9c5               // vmovd    xmm6, edx
-	LONG $0x2249e3c4; WORD $0x01f2 // vpinsrd    xmm6, xmm6, edx, 1
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2249e3c4; WORD $0x03f6 // vpinsrd    xmm6, xmm6, esi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	WORD $0x438b; BYTE $0xec       // mov    eax, dword [rbx - 20]
-	WORD $0x4b8b; BYTE $0xe8       // mov    ecx, dword [rbx - 24]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x06caa40f               // shld    edx, ecx, 6
-	WORD $0x738b; BYTE $0xe0       // mov    esi, dword [rbx - 32]
-	WORD $0x7b8b; BYTE $0xe4       // mov    edi, dword [rbx - 28]
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x2251e3c4; WORD $0x01e9 // vpinsrd    xmm5, xmm5, ecx, 1
-	LONG $0x07f9a40f               // shld    ecx, edi, 7
-	LONG $0x18feac0f               // shrd    esi, edi, 24
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f7 // vpinsrd    xmm6, xmm6, edi, 1
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249e3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, ecx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x438b; BYTE $0xf4       // mov    eax, dword [rbx - 12]
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	LONG $0x03c1a40f               // shld    ecx, eax, 3
-	LONG $0xec4b8b44               // mov    r9d, dword [rbx - 20]
-	WORD $0x738b; BYTE $0xf0       // mov    esi, dword [rbx - 16]
-	WORD $0xc789                   // mov    edi, eax
-	LONG $0x04f7a40f               // shld    edi, esi, 4
-	WORD $0xf289                   // mov    edx, esi
-	LONG $0xcaa40f44; BYTE $0x05   // shld    edx, r9d, 5
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x2251e3c4; WORD $0x01e8 // vpinsrd    xmm5, xmm5, eax, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251e3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, ecx, 3
-	LONG $0x6e79c1c4; BYTE $0xf1   // vmovd    xmm6, r9d
-	LONG $0x2249e3c4; WORD $0x01f2 // vpinsrd    xmm6, xmm6, edx, 1
-	LONG $0x2249e3c4; WORD $0x02f6 // vpinsrd    xmm6, xmm6, esi, 2
-	LONG $0x2249e3c4; WORD $0x03f6 // vpinsrd    xmm6, xmm6, esi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x038b                   // mov    eax, dword [rbx]
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x538b; BYTE $0xfc       // mov    edx, dword [rbx - 4]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x01d6a40f               // shld    esi, edx, 1
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x02cfa40f               // shld    edi, ecx, 2
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x2cc38348               // add    rbx, 44
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_36
-	JMP  LBB0_147
-
-LBB0_79:
-	WORD $0xf983; BYTE $0x1a       // cmp    ecx, 26
-	JE   LBB0_105
-	WORD $0xf983; BYTE $0x1b       // cmp    ecx, 27
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x68c38348               // add    rbx, 104
-	LONG $0x597de2c4; WORD $0x2045 // vpbroadcastq    ymm0, qword 32[rbp] /* [rip + .LCPI0_25] */
-	QUAD $0x000002408d6f7dc5       // vmovdqa    ymm9, yword 576[rbp] /* [rip + .LCPI0_24] */
-	QUAD $0x00000ba0956f79c5       // vmovdqa    xmm10, oword 2976[rbp] /* [rip + .LCPI0_26] */
-	QUAD $0x00000bb09d6f79c5       // vmovdqa    xmm11, oword 2992[rbp] /* [rip + .LCPI0_27] */
-	QUAD $0x00000260a56ffdc5       // vmovdqa    ymm4, yword 608[rbp] /* [rip + .LCPI0_28] */
-	QUAD $0x00000bc0ad6ff9c5       // vmovdqa    xmm5, oword 3008[rbp] /* [rip + .LCPI0_29] */
-	QUAD $0x00000bd0b56ff9c5       // vmovdqa    xmm6, oword 3024[rbp] /* [rip + .LCPI0_30] */
-	QUAD $0x00000280bd6ffdc5       // vmovdqa    ymm7, yword 640[rbp] /* [rip + .LCPI0_31] */
-	QUAD $0x000002a0856f7dc5       // vmovdqa    ymm8, yword 672[rbp] /* [rip + .LCPI0_32] */
-
-LBB0_83:
-	LONG $0xac538b44               // mov    r10d, dword [rbx - 84]
-	LONG $0xb04b8b44               // mov    r9d, dword [rbx - 80]
-	LONG $0xd1a40f45; BYTE $0x03   // shld    r9d, r10d, 3
-	WORD $0x738b; BYTE $0xa8       // mov    esi, dword [rbx - 88]
-	WORD $0x8944; BYTE $0xd7       // mov    edi, r10d
-	LONG $0x19f7a40f               // shld    edi, esi, 25
-	WORD $0x438b; BYTE $0xa4       // mov    eax, dword [rbx - 92]
-	LONG $0x14c6a40f               // shld    esi, eax, 20
-	WORD $0x538b; BYTE $0xa0       // mov    edx, dword [rbx - 96]
-	LONG $0x0fd0a40f               // shld    eax, edx, 15
-	LONG $0x985b8b44               // mov    r11d, dword [rbx - 104]
-	WORD $0x4b8b; BYTE $0x9c       // mov    ecx, dword [rbx - 100]
-	LONG $0x0acaa40f               // shld    edx, ecx, 10
-	LONG $0xd9a40f44; BYTE $0x05   // shld    ecx, r11d, 5
-	LONG $0x6e79c1c4; BYTE $0xcb   // vmovd    xmm1, r11d
-	LONG $0xd66ef9c5               // vmovd    xmm2, esi
-	LONG $0x2271e3c4; WORD $0x01c9 // vpinsrd    xmm1, xmm1, ecx, 1
-	LONG $0x2269e3c4; WORD $0x01d7 // vpinsrd    xmm2, xmm2, edi, 1
-	LONG $0x2271e3c4; WORD $0x02ca // vpinsrd    xmm1, xmm1, edx, 2
-	LONG $0x2269c3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, r10d, 2
-	LONG $0x2271e3c4; WORD $0x03c8 // vpinsrd    xmm1, xmm1, eax, 3
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x4575c2c4; BYTE $0xc9   // vpsrlvd    ymm1, ymm1, ymm9
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa04f // vmovdqu    yword [r15 - 96], ymm1
-	WORD $0x438b; BYTE $0xc8       // mov    eax, dword [rbx - 56]
-	WORD $0x4b8b; BYTE $0xcc       // mov    ecx, dword [rbx - 52]
-	LONG $0x0bc1a40f               // shld    ecx, eax, 11
-	WORD $0x538b; BYTE $0xc4       // mov    edx, dword [rbx - 60]
-	WORD $0x738b; BYTE $0xc0       // mov    esi, dword [rbx - 64]
-	LONG $0x06d0a40f               // shld    eax, edx, 6
-	LONG $0x01f2a40f               // shld    edx, esi, 1
-	LONG $0x4b6ffac5; BYTE $0xb0   // vmovdqu    xmm1, oword [rbx - 80]
-	LONG $0x4571c2c4; BYTE $0xd2   // vpsrlvd    xmm2, xmm1, xmm10
-	LONG $0xc970f9c5; BYTE $0xf9   // vpshufd    xmm1, xmm1, 249
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2271e3c4; WORD $0x03ce // vpinsrd    xmm1, xmm1, esi, 3
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x4771c2c4; BYTE $0xcb   // vpsllvd    xmm1, xmm1, xmm11
-	LONG $0x2261e3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, ecx, 3
-	LONG $0xc9ebe9c5               // vpor    xmm1, xmm2, xmm1
-	LONG $0x3875e3c4; WORD $0x01cb // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x4575e2c4; BYTE $0xcc   // vpsrlvd    ymm1, ymm1, ymm4
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc04f // vmovdqu    yword [r15 - 64], ymm1
-	WORD $0x438b; BYTE $0xe4       // mov    eax, dword [rbx - 28]
-	LONG $0xe84b8b44               // mov    r9d, dword [rbx - 24]
-	LONG $0xc1a40f41; BYTE $0x13   // shld    r9d, eax, 19
-	WORD $0x538b; BYTE $0xe0       // mov    edx, dword [rbx - 32]
-	LONG $0x0ed0a40f               // shld    eax, edx, 14
-	WORD $0x738b; BYTE $0xdc       // mov    esi, dword [rbx - 36]
-	LONG $0x09f2a40f               // shld    edx, esi, 9
-	LONG $0xd4538b44               // mov    r10d, dword [rbx - 44]
-	WORD $0x7b8b; BYTE $0xd8       // mov    edi, dword [rbx - 40]
-	LONG $0x04fea40f               // shld    esi, edi, 4
-	WORD $0xf989                   // mov    ecx, edi
-	LONG $0xd1a40f44; BYTE $0x1a   // shld    ecx, r10d, 26
-	LONG $0x4b7efac5; BYTE $0xcc   // vmovq    xmm1, qword [rbx - 52]
-	LONG $0x4571e2c4; BYTE $0xd5   // vpsrlvd    xmm2, xmm1, xmm5
-	LONG $0xc970f9c5; BYTE $0xe5   // vpshufd    xmm1, xmm1, 229
-	LONG $0x2271c3c4; WORD $0x01ca // vpinsrd    xmm1, xmm1, r10d, 1
-	LONG $0x4771e2c4; BYTE $0xce   // vpsllvd    xmm1, xmm1, xmm6
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0xc9ebe9c5               // vpor    xmm1, xmm2, xmm1
-	LONG $0x2261e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm3, eax, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2271e3c4; WORD $0x02c9 // vpinsrd    xmm1, xmm1, ecx, 2
-	LONG $0x2271e3c4; WORD $0x03cf // vpinsrd    xmm1, xmm1, edi, 3
-	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
-	LONG $0x4575e2c4; BYTE $0xcf   // vpsrlvd    ymm1, ymm1, ymm7
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe04f // vmovdqu    yword [r15 - 32], ymm1
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	LONG $0xfc5b8b44               // mov    r11d, dword [rbx - 4]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xdaa40f45; BYTE $0x16   // shld    r10d, r11d, 22
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0xf3a40f41; BYTE $0x11   // shld    r11d, esi, 17
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	LONG $0x0cfea40f               // shld    esi, edi, 12
-	WORD $0x538b; BYTE $0xe8       // mov    edx, dword [rbx - 24]
-	WORD $0x4b8b; BYTE $0xec       // mov    ecx, dword [rbx - 20]
-	LONG $0x07c7a40f               // shld    edi, eax, 7
-	LONG $0x08caac0f               // shrd    edx, ecx, 8
-	LONG $0x02c8a40f               // shld    eax, ecx, 2
-	LONG $0xce6ef9c5               // vmovd    xmm1, esi
-	LONG $0x2271c3c4; WORD $0x01cb // vpinsrd    xmm1, xmm1, r11d, 1
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2271c3c4; WORD $0x02ca // vpinsrd    xmm1, xmm1, r10d, 2
-	LONG $0x2269e3c4; WORD $0x01d1 // vpinsrd    xmm2, xmm2, ecx, 1
-	LONG $0x2271c3c4; WORD $0x03c9 // vpinsrd    xmm1, xmm1, r9d, 3
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2269e3c4; WORD $0x03d7 // vpinsrd    xmm2, xmm2, edi, 3
-	LONG $0x386de3c4; WORD $0x01c9 // vinserti128    ymm1, ymm2, xmm1, 1
-	LONG $0x4575c2c4; BYTE $0xc8   // vpsrlvd    ymm1, ymm1, ymm8
-	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x0f   // vmovdqu    yword [r15], ymm1
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x6cc38348               // add    rbx, 108
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_83
-	JMP  LBB0_147
-
-LBB0_20:
-	WORD $0xf983; BYTE $0x06             // cmp    ecx, 6
-	JE   LBB0_135
-	WORD $0xf983; BYTE $0x07             // cmp    ecx, 7
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x18c38348                     // add    rbx, 24
-	QUAD $0x0000c085597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 192[rbp] /* [rip + .LCPI0_112] */
-	QUAD $0x000008a08d6ffdc5             // vmovdqa    ymm1, yword 2208[rbp] /* [rip + .LCPI0_111] */
-	QUAD $0x000008c0956ffdc5             // vmovdqa    ymm2, yword 2240[rbp] /* [rip + .LCPI0_113] */
-	QUAD $0x000008e09d6ffdc5             // vmovdqa    ymm3, yword 2272[rbp] /* [rip + .LCPI0_114] */
-	QUAD $0x00000900a56ffdc5             // vmovdqa    ymm4, yword 2304[rbp] /* [rip + .LCPI0_115] */
-
-LBB0_24:
-	WORD $0x4b8b; BYTE $0xe8       // mov    ecx, dword [rbx - 24]
-	WORD $0x538b; BYTE $0xec       // mov    edx, dword [rbx - 20]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f2 // vpinsrd    xmm6, xmm6, edx, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x5879e2c4; BYTE $0xed   // vpbroadcastd    xmm5, xmm5
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	WORD $0x4b8b; BYTE $0xf4       // mov    ecx, dword [rbx - 12]
-	WORD $0x538b; BYTE $0xec       // mov    edx, dword [rbx - 20]
-	WORD $0x738b; BYTE $0xf0       // mov    esi, dword [rbx - 16]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x05f7a40f               // shld    edi, esi, 5
-	WORD $0xf089                   // mov    eax, esi
-	LONG $0x01d0a40f               // shld    eax, edx, 1
-	LONG $0xee6ef9c5               // vmovd    xmm5, esi
-	LONG $0x2251e3c4; WORD $0x01ef // vpinsrd    xmm5, xmm5, edi, 1
-	LONG $0x2251e3c4; WORD $0x02e9 // vpinsrd    xmm5, xmm5, ecx, 2
-	LONG $0x2251e3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, ecx, 3
-	LONG $0xf26ef9c5               // vmovd    xmm6, edx
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2249e3c4; WORD $0x02f6 // vpinsrd    xmm6, xmm6, esi, 2
-	LONG $0x2249e3c4; WORD $0x03f6 // vpinsrd    xmm6, xmm6, esi, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x438b; BYTE $0xfc       // mov    eax, dword [rbx - 4]
-	WORD $0x4b8b; BYTE $0xf4       // mov    ecx, dword [rbx - 12]
-	WORD $0x538b; BYTE $0xf8       // mov    edx, dword [rbx - 8]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x06d6a40f               // shld    esi, edx, 6
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x02cfa40f               // shld    edi, ecx, 2
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x2251e3c4; WORD $0x02ee // vpinsrd    xmm5, xmm5, esi, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x438b; BYTE $0xfc       // mov    eax, dword [rbx - 4]
-	WORD $0x0b8b                   // mov    ecx, dword [rbx]
-	WORD $0xca89                   // mov    edx, ecx
-	LONG $0x03c2a40f               // shld    edx, eax, 3
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0xf06ef9c5               // vmovd    xmm6, eax
-	LONG $0x2249e3c4; WORD $0x01f0 // vpinsrd    xmm6, xmm6, eax, 1
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x5879e2c4; BYTE $0xed   // vpbroadcastd    xmm5, xmm5
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x1cc38348               // add    rbx, 28
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_24
-	JMP  LBB0_147
-
-LBB0_67:
-	WORD $0xf983; BYTE $0x16       // cmp    ecx, 22
-	JE   LBB0_111
-	WORD $0xf983; BYTE $0x17       // cmp    ecx, 23
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x58c38348               // add    rbx, 88
-	QUAD $0x00000360856f7dc5       // vmovdqa    ymm8, yword 864[rbp] /* [rip + .LCPI0_48] */
-	LONG $0x597de2c4; WORD $0x484d // vpbroadcastq    ymm1, qword 72[rbp] /* [rip + .LCPI0_49] */
-	QUAD $0x00000c30956ff9c5       // vmovdqa    xmm2, oword 3120[rbp] /* [rip + .LCPI0_50] */
-	QUAD $0x00000c409d6ff9c5       // vmovdqa    xmm3, oword 3136[rbp] /* [rip + .LCPI0_51] */
-	QUAD $0x00000380a56ffdc5       // vmovdqa    ymm4, yword 896[rbp] /* [rip + .LCPI0_52] */
-	QUAD $0x000003a0ad6ffdc5       // vmovdqa    ymm5, yword 928[rbp] /* [rip + .LCPI0_53] */
-	QUAD $0x000003c0b56ffdc5       // vmovdqa    ymm6, yword 960[rbp] /* [rip + .LCPI0_54] */
-
-LBB0_71:
-	LONG $0xbc4b8b44               // mov    r9d, dword [rbx - 68]
-	WORD $0x538b; BYTE $0xb8       // mov    edx, dword [rbx - 72]
-	WORD $0x8945; BYTE $0xcb       // mov    r11d, r9d
-	LONG $0xd3a40f41; BYTE $0x16   // shld    r11d, edx, 22
-	WORD $0x7b8b; BYTE $0xb4       // mov    edi, dword [rbx - 76]
-	LONG $0x0dfaa40f               // shld    edx, edi, 13
-	WORD $0x738b; BYTE $0xb0       // mov    esi, dword [rbx - 80]
-	LONG $0x04f7a40f               // shld    edi, esi, 4
-	LONG $0xa8538b44               // mov    r10d, dword [rbx - 88]
-	WORD $0x4b8b; BYTE $0xac       // mov    ecx, dword [rbx - 84]
-	WORD $0xf089                   // mov    eax, esi
-	LONG $0x12c8a40f               // shld    eax, ecx, 18
-	LONG $0xd1a40f44; BYTE $0x09   // shld    ecx, r10d, 9
-	LONG $0x6e79c1c4; BYTE $0xfa   // vmovd    xmm7, r10d
-	LONG $0xc76ef9c5               // vmovd    xmm0, edi
-	LONG $0x2241e3c4; WORD $0x01f9 // vpinsrd    xmm7, xmm7, ecx, 1
-	LONG $0x2279e3c4; WORD $0x01c2 // vpinsrd    xmm0, xmm0, edx, 1
-	LONG $0x2241e3c4; WORD $0x02f8 // vpinsrd    xmm7, xmm7, eax, 2
-	LONG $0x2279c3c4; WORD $0x02c3 // vpinsrd    xmm0, xmm0, r11d, 2
-	LONG $0x2241e3c4; WORD $0x03fe // vpinsrd    xmm7, xmm7, esi, 3
-	LONG $0x2279c3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, r9d, 3
-	LONG $0x3845e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm7, xmm0, 1
-	LONG $0x457dc2c4; BYTE $0xc0   // vpsrlvd    ymm0, ymm0, ymm8
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa047 // vmovdqu    yword [r15 - 96], ymm0
-	WORD $0x438b; BYTE $0xd0       // mov    eax, dword [rbx - 48]
-	LONG $0xd44b8b44               // mov    r9d, dword [rbx - 44]
-	LONG $0xc1a40f41; BYTE $0x07   // shld    r9d, eax, 7
-	WORD $0x538b; BYTE $0xcc       // mov    edx, dword [rbx - 52]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x15d6a40f               // shld    esi, edx, 21
-	WORD $0x7b8b; BYTE $0xc4       // mov    edi, dword [rbx - 60]
-	WORD $0x4b8b; BYTE $0xc8       // mov    ecx, dword [rbx - 56]
-	LONG $0x0ccaa40f               // shld    edx, ecx, 12
-	LONG $0x03f9a40f               // shld    ecx, edi, 3
-	LONG $0x437efac5; BYTE $0xbc   // vmovq    xmm0, qword [rbx - 68]
-	LONG $0x4579e2c4; BYTE $0xfa   // vpsrlvd    xmm7, xmm0, xmm2
-	LONG $0xc070f9c5; BYTE $0xe5   // vpshufd    xmm0, xmm0, 229
-	LONG $0x2279e3c4; WORD $0x01c7 // vpinsrd    xmm0, xmm0, edi, 1
-	LONG $0x4779e2c4; BYTE $0xc3   // vpsllvd    xmm0, xmm0, xmm3
-	LONG $0xc0ebc1c5               // vpor    xmm0, xmm7, xmm0
-	LONG $0xfa6ef9c5               // vmovd    xmm7, edx
-	LONG $0x2241e3c4; WORD $0x01fe // vpinsrd    xmm7, xmm7, esi, 1
-	LONG $0x2241e3c4; WORD $0x02f8 // vpinsrd    xmm7, xmm7, eax, 2
-	LONG $0x2241c3c4; WORD $0x03f9 // vpinsrd    xmm7, xmm7, r9d, 3
-	LONG $0x2279e3c4; WORD $0x02c7 // vpinsrd    xmm0, xmm0, edi, 2
-	LONG $0x2279e3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, ecx, 3
-	LONG $0x387de3c4; WORD $0x01c7 // vinserti128    ymm0, ymm0, xmm7, 1
-	LONG $0x457de2c4; BYTE $0xc4   // vpsrlvd    ymm0, ymm0, ymm4
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc047 // vmovdqu    yword [r15 - 64], ymm0
-	LONG $0xe85b8b44               // mov    r11d, dword [rbx - 24]
-	LONG $0xec4b8b44               // mov    r9d, dword [rbx - 20]
-	LONG $0xd9a40f45; BYTE $0x0f   // shld    r9d, r11d, 15
-	LONG $0xe4538b44               // mov    r10d, dword [rbx - 28]
-	LONG $0xd3a40f45; BYTE $0x06   // shld    r11d, r10d, 6
-	WORD $0x738b; BYTE $0xe0       // mov    esi, dword [rbx - 32]
-	WORD $0x8944; BYTE $0xd7       // mov    edi, r10d
-	WORD $0x4b8b; BYTE $0xdc       // mov    ecx, dword [rbx - 36]
-	LONG $0x14f7a40f               // shld    edi, esi, 20
-	WORD $0x538b; BYTE $0xd4       // mov    edx, dword [rbx - 44]
-	WORD $0x438b; BYTE $0xd8       // mov    eax, dword [rbx - 40]
-	LONG $0x0bcea40f               // shld    esi, ecx, 11
-	LONG $0x10c2ac0f               // shrd    edx, eax, 16
-	LONG $0x02c1a40f               // shld    ecx, eax, 2
-	LONG $0xc76ef9c5               // vmovd    xmm0, edi
-	LONG $0x2279c3c4; WORD $0x01c2 // vpinsrd    xmm0, xmm0, r10d, 1
-	LONG $0xfa6ef9c5               // vmovd    xmm7, edx
-	LONG $0x2279c3c4; WORD $0x02c3 // vpinsrd    xmm0, xmm0, r11d, 2
-	LONG $0x2241e3c4; WORD $0x01f8 // vpinsrd    xmm7, xmm7, eax, 1
-	LONG $0x2279c3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, r9d, 3
-	LONG $0x2241e3c4; WORD $0x02f9 // vpinsrd    xmm7, xmm7, ecx, 2
-	LONG $0x2241e3c4; WORD $0x03fe // vpinsrd    xmm7, xmm7, esi, 3
-	LONG $0x3845e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm7, xmm0, 1
-	LONG $0x457de2c4; BYTE $0xc5   // vpsrlvd    ymm0, ymm0, ymm5
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe047 // vmovdqu    yword [r15 - 32], ymm0
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x0ecaa40f               // shld    edx, ecx, 14
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0x05f1a40f               // shld    ecx, esi, 5
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	LONG $0xc66ef9c5               // vmovd    xmm0, esi
-	LONG $0x13fea40f               // shld    esi, edi, 19
-	LONG $0xec538b44               // mov    r10d, dword [rbx - 20]
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	LONG $0x0ac7a40f               // shld    edi, eax, 10
-	LONG $0xd0a40f44; BYTE $0x01   // shld    eax, r10d, 1
-	LONG $0x2279e3c4; WORD $0x01c1 // vpinsrd    xmm0, xmm0, ecx, 1
-	LONG $0x6e79c1c4; BYTE $0xfa   // vmovd    xmm7, r10d
-	LONG $0x2279e3c4; WORD $0x02c2 // vpinsrd    xmm0, xmm0, edx, 2
-	LONG $0x2241e3c4; WORD $0x01f8 // vpinsrd    xmm7, xmm7, eax, 1
-	LONG $0x2279c3c4; WORD $0x03c1 // vpinsrd    xmm0, xmm0, r9d, 3
-	LONG $0x2241e3c4; WORD $0x02ff // vpinsrd    xmm7, xmm7, edi, 2
-	LONG $0x2241e3c4; WORD $0x03fe // vpinsrd    xmm7, xmm7, esi, 3
-	LONG $0x3845e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm7, xmm0, 1
-	LONG $0x457de2c4; BYTE $0xc6   // vpsrlvd    ymm0, ymm0, ymm6
-	LONG $0xc1dbfdc5               // vpand    ymm0, ymm0, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x07   // vmovdqu    yword [r15], ymm0
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x5cc38348               // add    rbx, 92
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_71
-	JMP  LBB0_147
-
-LBB0_43:
-	WORD $0xf983; BYTE $0x0e             // cmp    ecx, 14
-	JE   LBB0_123
-	WORD $0xf983; BYTE $0x0f             // cmp    ecx, 15
-	JNE  LBB0_147
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x38c38348                     // add    rbx, 56
-	QUAD $0x00008885597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 136[rbp] /* [rip + .LCPI0_82] */
-	QUAD $0x000006008d6ffdc5             // vmovdqa    ymm1, yword 1536[rbp] /* [rip + .LCPI0_81] */
-	QUAD $0x00000620956ffdc5             // vmovdqa    ymm2, yword 1568[rbp] /* [rip + .LCPI0_83] */
-	QUAD $0x000006409d6ffdc5             // vmovdqa    ymm3, yword 1600[rbp] /* [rip + .LCPI0_84] */
-	QUAD $0x00000660a56ffdc5             // vmovdqa    ymm4, yword 1632[rbp] /* [rip + .LCPI0_85] */
-
-LBB0_47:
-	LONG $0xd44b8b44               // mov    r9d, dword [rbx - 44]
-	WORD $0x438b; BYTE $0xd0       // mov    eax, dword [rbx - 48]
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	LONG $0x06c6a40f               // shld    esi, eax, 6
-	LONG $0xcc538b44               // mov    r10d, dword [rbx - 52]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0xd2a40f44; BYTE $0x04   // shld    edx, r10d, 4
-	WORD $0x4b8b; BYTE $0xc8       // mov    ecx, dword [rbx - 56]
-	WORD $0x8944; BYTE $0xd7       // mov    edi, r10d
-	LONG $0x02cfa40f               // shld    edi, ecx, 2
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x2251e3c4; WORD $0x01e8 // vpinsrd    xmm5, xmm5, eax, 1
-	LONG $0x2251e3c4; WORD $0x02ee // vpinsrd    xmm5, xmm5, esi, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0xf16ef9c5               // vmovd    xmm6, ecx
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f7 // vpinsrd    xmm6, xmm6, edi, 2
-	LONG $0x2249c3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, r10d, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xe9   // vpsrlvd    ymm5, ymm5, ymm1
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	LONG $0xe44b8b44               // mov    r9d, dword [rbx - 28]
-	LONG $0xe05b8b44               // mov    r11d, dword [rbx - 32]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x0e   // shld    edx, r11d, 14
-	LONG $0xdc538b44               // mov    r10d, dword [rbx - 36]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0xd7a40f44; BYTE $0x0c   // shld    edi, r10d, 12
-	WORD $0x438b; BYTE $0xd4       // mov    eax, dword [rbx - 44]
-	WORD $0x738b; BYTE $0xd8       // mov    esi, dword [rbx - 40]
-	WORD $0x8944; BYTE $0xd1       // mov    ecx, r10d
-	LONG $0x0af1a40f               // shld    ecx, esi, 10
-	LONG $0x18f0ac0f               // shrd    eax, esi, 24
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x2251c3c4; WORD $0x01eb // vpinsrd    xmm5, xmm5, r11d, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0xf06ef9c5               // vmovd    xmm6, eax
-	LONG $0x2249e3c4; WORD $0x01f6 // vpinsrd    xmm6, xmm6, esi, 1
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2249c3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, r10d, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	LONG $0xf4538b44               // mov    r10d, dword [rbx - 12]
-	LONG $0xc2a40f41; BYTE $0x07   // shld    r10d, eax, 7
-	WORD $0x538b; BYTE $0xec       // mov    edx, dword [rbx - 20]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x05d6a40f               // shld    esi, edx, 5
-	LONG $0xe44b8b44               // mov    r9d, dword [rbx - 28]
-	WORD $0x4b8b; BYTE $0xe8       // mov    ecx, dword [rbx - 24]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0xcfa40f44; BYTE $0x01   // shld    edi, r9d, 1
-	LONG $0xea6ef9c5               // vmovd    xmm5, edx
-	LONG $0x03caa40f               // shld    edx, ecx, 3
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2251e3c4; WORD $0x02e8 // vpinsrd    xmm5, xmm5, eax, 2
-	LONG $0x2251c3c4; WORD $0x03ea // vpinsrd    xmm5, xmm5, r10d, 3
-	LONG $0x6e79c1c4; BYTE $0xf1   // vmovd    xmm6, r9d
-	LONG $0x2249e3c4; WORD $0x01f7 // vpinsrd    xmm6, xmm6, edi, 1
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2249e3c4; WORD $0x03f2 // vpinsrd    xmm6, xmm6, edx, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xeb   // vpsrlvd    ymm5, ymm5, ymm3
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x0dcaa40f               // shld    edx, ecx, 13
-	WORD $0x438b; BYTE $0xf8       // mov    eax, dword [rbx - 8]
-	LONG $0xe96ef9c5               // vmovd    xmm5, ecx
-	LONG $0x0bc1a40f               // shld    ecx, eax, 11
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x09fea40f               // shld    esi, edi, 9
-	LONG $0xf76ef9c5               // vmovd    xmm6, edi
-	LONG $0x2249e3c4; WORD $0x01f6 // vpinsrd    xmm6, xmm6, esi, 1
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2249e3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, ecx, 3
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x2251c3c4; WORD $0x02e9 // vpinsrd    xmm5, xmm5, r9d, 2
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x384de3c4; WORD $0x01ed // vinserti128    ymm5, ymm6, xmm5, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x3cc38348               // add    rbx, 60
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_47
-	JMP  LBB0_147
-
-LBB0_96:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x597de2c4; WORD $0x0045 // vpbroadcastq    ymm0, qword 0[rbp] /* [rip + .LCPI0_0] */
-	LONG $0x60c78349               // add    r15, 96
-	QUAD $0x00000100856f7dc5       // vmovdqa    ymm8, yword 256[rbp] /* [rip + .LCPI0_1] */
-	QUAD $0x000001208d6f7dc5       // vmovdqa    ymm9, yword 288[rbp] /* [rip + .LCPI0_2] */
-	QUAD $0x00000140956f7dc5       // vmovdqa    ymm10, yword 320[rbp] /* [rip + .LCPI0_3] */
-	QUAD $0x00000160a56ffdc5       // vmovdqa    ymm4, yword 352[rbp] /* [rip + .LCPI0_4] */
-	QUAD $0x00000b00ad6ff9c5       // vmovdqa    xmm5, oword 2816[rbp] /* [rip + .LCPI0_5] */
-	QUAD $0x00000b10b56ff9c5       // vmovdqa    xmm6, oword 2832[rbp] /* [rip + .LCPI0_6] */
-	QUAD $0x00000180bd6ffdc5       // vmovdqa    ymm7, yword 384[rbp] /* [rip + .LCPI0_7] */
-
-LBB0_98:
-	LONG $0x18538b44                           // mov    r10d, dword [rbx + 24]
-	LONG $0x1c4b8b44                           // mov    r9d, dword [rbx + 28]
-	LONG $0xd1a40f45; BYTE $0x07               // shld    r9d, r10d, 7
-	WORD $0x738b; BYTE $0x14                   // mov    esi, dword [rbx + 20]
-	LONG $0xf2a40f41; BYTE $0x06               // shld    r10d, esi, 6
-	WORD $0x7b8b; BYTE $0x10                   // mov    edi, dword [rbx + 16]
-	LONG $0x05fea40f                           // shld    esi, edi, 5
-	WORD $0x438b; BYTE $0x0c                   // mov    eax, dword [rbx + 12]
-	LONG $0x04c7a40f                           // shld    edi, eax, 4
-	WORD $0x538b; BYTE $0x08                   // mov    edx, dword [rbx + 8]
-	LONG $0x03d0a40f                           // shld    eax, edx, 3
-	WORD $0x4b8b; BYTE $0x04                   // mov    ecx, dword [rbx + 4]
-	LONG $0x02caa40f                           // shld    edx, ecx, 2
-	WORD $0x8b44; BYTE $0x1b                   // mov    r11d, dword [rbx]
-	LONG $0xd9a40f44; BYTE $0x01               // shld    ecx, r11d, 1
-	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
-	LONG $0x2271e3c4; WORD $0x01ce             // vpinsrd    xmm1, xmm1, esi, 1
-	LONG $0x2271c3c4; WORD $0x02ca             // vpinsrd    xmm1, xmm1, r10d, 2
-	LONG $0x2271c3c4; WORD $0x03c9             // vpinsrd    xmm1, xmm1, r9d, 3
-	LONG $0x6e79c1c4; BYTE $0xd3               // vmovd    xmm2, r11d
-	LONG $0x2269e3c4; WORD $0x01d1             // vpinsrd    xmm2, xmm2, ecx, 1
-	LONG $0x2269e3c4; WORD $0x02d2             // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2269e3c4; WORD $0x03d0             // vpinsrd    xmm2, xmm2, eax, 3
-	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa04f             // vmovdqu    yword [r15 - 96], ymm1
-	LONG $0x4b6ffec5; BYTE $0x1c               // vmovdqu    ymm1, yword [rbx + 28]
-	LONG $0x4575c2c4; BYTE $0xc8               // vpsrlvd    ymm1, ymm1, ymm8
-	LONG $0x536ffac5; BYTE $0x2c               // vmovdqu    xmm2, oword [rbx + 44]
-	LONG $0xda70f9c5; BYTE $0xf9               // vpshufd    xmm3, xmm2, 249
-	LONG $0x2261e3c4; WORD $0x3c5b; BYTE $0x03 // vpinsrd    xmm3, xmm3, dword [rbx + 60], 3
-	LONG $0x0f69e3c4; WORD $0x1c53; BYTE $0x04 // vpalignr    xmm2, xmm2, oword [rbx + 28], 4
-	LONG $0x386de3c4; WORD $0x01d3             // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x476dc2c4; BYTE $0xd1               // vpsllvd    ymm2, ymm2, ymm9
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc04f             // vmovdqu    yword [r15 - 64], ymm1
-	LONG $0x4b6ffec5; BYTE $0x3c               // vmovdqu    ymm1, yword [rbx + 60]
-	LONG $0x536ffac5; BYTE $0x4c               // vmovdqu    xmm2, oword [rbx + 76]
-	LONG $0xda70f9c5; BYTE $0xf9               // vpshufd    xmm3, xmm2, 249
-	LONG $0x2261e3c4; WORD $0x5c5b; BYTE $0x03 // vpinsrd    xmm3, xmm3, dword [rbx + 92], 3
-	LONG $0x4575c2c4; BYTE $0xca               // vpsrlvd    ymm1, ymm1, ymm10
-	LONG $0x0f69e3c4; WORD $0x3c53; BYTE $0x04 // vpalignr    xmm2, xmm2, oword [rbx + 60], 4
-	LONG $0x386de3c4; WORD $0x01d3             // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x476de2c4; BYTE $0xd4               // vpsllvd    ymm2, ymm2, ymm4
-	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe04f             // vmovdqu    yword [r15 - 32], ymm1
-	WORD $0x438b; BYTE $0x78                   // mov    eax, dword [rbx + 120]
-	WORD $0x4b8b; BYTE $0x74                   // mov    ecx, dword [rbx + 116]
-	WORD $0xc289                               // mov    edx, eax
-	LONG $0x1ecaa40f                           // shld    edx, ecx, 30
-	WORD $0x738b; BYTE $0x70                   // mov    esi, dword [rbx + 112]
-	LONG $0x1df1a40f                           // shld    ecx, esi, 29
-	WORD $0x7b8b; BYTE $0x6c                   // mov    edi, dword [rbx + 108]
-	LONG $0x1cfea40f                           // shld    esi, edi, 28
-	LONG $0x4b6ffac5; BYTE $0x5c               // vmovdqu    xmm1, oword [rbx + 92]
-	LONG $0x4571e2c4; BYTE $0xd5               // vpsrlvd    xmm2, xmm1, xmm5
-	LONG $0xc970f9c5; BYTE $0xf9               // vpshufd    xmm1, xmm1, 249
-	LONG $0x2271e3c4; WORD $0x03cf             // vpinsrd    xmm1, xmm1, edi, 3
-	LONG $0x4771e2c4; BYTE $0xce               // vpsllvd    xmm1, xmm1, xmm6
-	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01d9             // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02da             // vpinsrd    xmm3, xmm3, edx, 2
-	LONG $0x2261e3c4; WORD $0x03d8             // vpinsrd    xmm3, xmm3, eax, 3
-	LONG $0xc9ebe9c5                           // vpor    xmm1, xmm2, xmm1
-	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
-	LONG $0x4575e2c4; BYTE $0xcf               // vpsrlvd    ymm1, ymm1, ymm7
-	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x0f               // vmovdqu    yword [r15], ymm1
-	LONG $0x7cc38348                           // add    rbx, 124
-	LONG $0x80ef8349                           // sub    r15, -128
-	LONG $0xffc08349                           // add    r8, -1
-	JNE  LBB0_98
-	JMP  LBB0_147
-
-LBB0_144:
-	WORD $0xfa83; BYTE $0x20 // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf3 // mov    ebx, r14d
-
-LBB0_146:
-	LONG $0x000080ba; BYTE $0x00 // mov    edx, 128
-	WORD $0x894c; BYTE $0xff     // mov    rdi, r15
-	WORD $0xf631                 // xor    esi, esi
-	CALL clib·_memset(SB)
-	LONG $0x80ef8349             // sub    r15, -128
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB0_146
-	JMP  LBB0_147
-
-LBB0_120:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	WORD $0xc931                         // xor    ecx, ecx
-	QUAD $0x00008085597de2c4; BYTE $0x00 // vpbroadcastq    ymm0, qword 128[rbp] /* [rip + .LCPI0_80] */
-	LONG $0xc9eff1c5                     // vpxor    xmm1, xmm1, xmm1
-
-LBB0_122:
-	LONG $0x146ffac5; BYTE $0x0b               // vmovdqu    xmm2, oword [rbx + rcx]
-	LONG $0x00fde3c4; WORD $0xd8d2             // vpermq    ymm2, ymm2, 216
-	LONG $0xd270fdc5; BYTE $0x50               // vpshufd    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0x0e6de3c4; WORD $0xaad1             // vpblendw    ymm2, ymm2, ymm1, 170
-	LONG $0x7f7ec1c4; WORD $0x4f14             // vmovdqu    yword [r15 + 2*rcx], ymm2
-	LONG $0x546ffac5; WORD $0x100b             // vmovdqu    xmm2, oword [rbx + rcx + 16]
-	LONG $0x00fde3c4; WORD $0xd8d2             // vpermq    ymm2, ymm2, 216
-	LONG $0xd270fdc5; BYTE $0x50               // vpshufd    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0x0e6de3c4; WORD $0xaad1             // vpblendw    ymm2, ymm2, ymm1, 170
-	LONG $0x7f7ec1c4; WORD $0x4f54; BYTE $0x20 // vmovdqu    yword [r15 + 2*rcx + 32], ymm2
-	LONG $0x546ffac5; WORD $0x200b             // vmovdqu    xmm2, oword [rbx + rcx + 32]
-	LONG $0x00fde3c4; WORD $0xd8d2             // vpermq    ymm2, ymm2, 216
-	LONG $0xd270fdc5; BYTE $0x50               // vpshufd    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0x0e6de3c4; WORD $0xaad1             // vpblendw    ymm2, ymm2, ymm1, 170
-	LONG $0x7f7ec1c4; WORD $0x4f54; BYTE $0x40 // vmovdqu    yword [r15 + 2*rcx + 64], ymm2
-	LONG $0x546ffac5; WORD $0x300b             // vmovdqu    xmm2, oword [rbx + rcx + 48]
-	LONG $0x00fde3c4; WORD $0xd8d2             // vpermq    ymm2, ymm2, 216
-	LONG $0xd270fdc5; BYTE $0x50               // vpshufd    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0x0e6de3c4; WORD $0xaad1             // vpblendw    ymm2, ymm2, ymm1, 170
-	LONG $0x7f7ec1c4; WORD $0x4f54; BYTE $0x60 // vmovdqu    yword [r15 + 2*rcx + 96], ymm2
-	LONG $0x40c18348                           // add    rcx, 64
-	LONG $0xffc08348                           // add    rax, -1
-	JNE  LBB0_122
-	JMP  LBB0_147
-
-LBB0_132:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	WORD $0xc931                         // xor    ecx, ecx
-	QUAD $0x000c70855a7de2c4; BYTE $0x00 // vbroadcasti128    ymm0, oword 3184[rbp] /* [rip + .LCPI0_109] */
-	QUAD $0x000c848d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 3204[rbp] /* [rip + .LCPI0_110] */
-
-LBB0_134:
-	LONG $0x147efac5; BYTE $0x0b               // vmovq    xmm2, qword [rbx + rcx]
-	LONG $0xd270f9c5; BYTE $0x50               // vpshufd    xmm2, xmm2, 80
-	LONG $0x00fde3c4; WORD $0x50d2             // vpermq    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0x8f14             // vmovdqu    yword [r15 + 4*rcx], ymm2
-	LONG $0x547efac5; WORD $0x080b             // vmovq    xmm2, qword [rbx + rcx + 8]
-	LONG $0xd270f9c5; BYTE $0x50               // vpshufd    xmm2, xmm2, 80
-	LONG $0x00fde3c4; WORD $0x50d2             // vpermq    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm2
-	LONG $0x547efac5; WORD $0x100b             // vmovq    xmm2, qword [rbx + rcx + 16]
-	LONG $0xd270f9c5; BYTE $0x50               // vpshufd    xmm2, xmm2, 80
-	LONG $0x00fde3c4; WORD $0x50d2             // vpermq    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
-	LONG $0x547efac5; WORD $0x180b             // vmovq    xmm2, qword [rbx + rcx + 24]
-	LONG $0xd270f9c5; BYTE $0x50               // vpshufd    xmm2, xmm2, 80
-	LONG $0x00fde3c4; WORD $0x50d2             // vpermq    ymm2, ymm2, 80
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm2
-	LONG $0x20c18348                           // add    rcx, 32
-	LONG $0xffc08348                           // add    rax, -1
-	JNE  LBB0_134
-	JMP  LBB0_147
-
-LBB0_108:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x5cc38348                     // add    rbx, 92
-	QUAD $0x000c20855a7de2c4; BYTE $0x00 // vbroadcasti128    ymm0, oword 3104[rbp] /* [rip + .LCPI0_46] */
-	QUAD $0x000c808d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 3200[rbp] /* [rip + .LCPI0_47] */
-
-LBB0_110:
-	LONG $0xb84b8b44               // mov    r9d, dword [rbx - 72]
-	WORD $0x538b; BYTE $0xb4       // mov    edx, dword [rbx - 76]
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	WORD $0x7b8b; BYTE $0xb0       // mov    edi, dword [rbx - 80]
-	LONG $0xac538b44               // mov    r10d, dword [rbx - 84]
-	LONG $0x10d6a40f               // shld    esi, edx, 16
-	LONG $0xa45b8b44               // mov    r11d, dword [rbx - 92]
-	WORD $0x438b; BYTE $0xa8       // mov    eax, dword [rbx - 88]
-	LONG $0x08faa40f               // shld    edx, edi, 8
-	WORD $0x8944; BYTE $0xd1       // mov    ecx, r10d
-	LONG $0x10c1a40f               // shld    ecx, eax, 16
-	LONG $0xd8a40f44; BYTE $0x08   // shld    eax, r11d, 8
-	LONG $0xd76ef9c5               // vmovd    xmm2, edi
-	LONG $0x6e79c1c4; BYTE $0xdb   // vmovd    xmm3, r11d
-	LONG $0x2269e3c4; WORD $0x01d2 // vpinsrd    xmm2, xmm2, edx, 1
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2269e3c4; WORD $0x02d6 // vpinsrd    xmm2, xmm2, esi, 2
-	LONG $0x2261e3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, ecx, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2261c3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, r10d, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa057 // vmovdqu    yword [r15 - 96], ymm2
-	LONG $0xd04b8b44               // mov    r9d, dword [rbx - 48]
-	WORD $0x4b8b; BYTE $0xcc       // mov    ecx, dword [rbx - 52]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	WORD $0x738b; BYTE $0xc8       // mov    esi, dword [rbx - 56]
-	LONG $0xc4538b44               // mov    r10d, dword [rbx - 60]
-	LONG $0x10caa40f               // shld    edx, ecx, 16
-	LONG $0xbc5b8b44               // mov    r11d, dword [rbx - 68]
-	WORD $0x7b8b; BYTE $0xc0       // mov    edi, dword [rbx - 64]
-	LONG $0x08f1a40f               // shld    ecx, esi, 8
-	WORD $0x8944; BYTE $0xd0       // mov    eax, r10d
-	LONG $0x10f8a40f               // shld    eax, edi, 16
-	LONG $0xdfa40f44; BYTE $0x08   // shld    edi, r11d, 8
-	LONG $0xd66ef9c5               // vmovd    xmm2, esi
-	LONG $0x6e79c1c4; BYTE $0xdb   // vmovd    xmm3, r11d
-	LONG $0x2269e3c4; WORD $0x01d1 // vpinsrd    xmm2, xmm2, ecx, 1
-	LONG $0x2261e3c4; WORD $0x01df // vpinsrd    xmm3, xmm3, edi, 1
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2261c3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, r10d, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc057 // vmovdqu    yword [r15 - 64], ymm2
-	LONG $0xe84b8b44               // mov    r9d, dword [rbx - 24]
-	WORD $0x4b8b; BYTE $0xe4       // mov    ecx, dword [rbx - 28]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	WORD $0x738b; BYTE $0xe0       // mov    esi, dword [rbx - 32]
-	LONG $0xdc538b44               // mov    r10d, dword [rbx - 36]
-	LONG $0x10caa40f               // shld    edx, ecx, 16
-	LONG $0xd45b8b44               // mov    r11d, dword [rbx - 44]
-	WORD $0x7b8b; BYTE $0xd8       // mov    edi, dword [rbx - 40]
-	LONG $0x08f1a40f               // shld    ecx, esi, 8
-	WORD $0x8944; BYTE $0xd0       // mov    eax, r10d
-	LONG $0x10f8a40f               // shld    eax, edi, 16
-	LONG $0xdfa40f44; BYTE $0x08   // shld    edi, r11d, 8
-	LONG $0xd66ef9c5               // vmovd    xmm2, esi
-	LONG $0x6e79c1c4; BYTE $0xdb   // vmovd    xmm3, r11d
-	LONG $0x2269e3c4; WORD $0x01d1 // vpinsrd    xmm2, xmm2, ecx, 1
-	LONG $0x2261e3c4; WORD $0x01df // vpinsrd    xmm3, xmm3, edi, 1
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2261c3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, r10d, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe057 // vmovdqu    yword [r15 - 32], ymm2
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0xf4538b44               // mov    r10d, dword [rbx - 12]
-	LONG $0x10caa40f               // shld    edx, ecx, 16
-	LONG $0xec5b8b44               // mov    r11d, dword [rbx - 20]
-	WORD $0x7b8b; BYTE $0xf0       // mov    edi, dword [rbx - 16]
-	LONG $0x08f1a40f               // shld    ecx, esi, 8
-	WORD $0x8944; BYTE $0xd0       // mov    eax, r10d
-	LONG $0x10f8a40f               // shld    eax, edi, 16
-	LONG $0xdfa40f44; BYTE $0x08   // shld    edi, r11d, 8
-	LONG $0xd66ef9c5               // vmovd    xmm2, esi
-	LONG $0x2269e3c4; WORD $0x01d1 // vpinsrd    xmm2, xmm2, ecx, 1
-	LONG $0x6e79c1c4; BYTE $0xdb   // vmovd    xmm3, r11d
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2261e3c4; WORD $0x01df // vpinsrd    xmm3, xmm3, edi, 1
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261c3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, r10d, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x17   // vmovdqu    yword [r15], ymm2
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x60c38348               // add    rbx, 96
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_110
-	JMP  LBB0_147
-
-LBB0_138:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	WORD $0xc931                         // xor    ecx, ecx
-	QUAD $0x000009e0856ffdc5             // vmovdqa    ymm0, yword 2528[rbp] /* [rip + .LCPI0_124] */
-	QUAD $0x0000d88d597de2c4; BYTE $0x00 // vpbroadcastq    ymm1, qword 216[rbp] /* [rip + .LCPI0_125] */
-
-LBB0_140:
-	LONG $0x587de2c4; WORD $0x0b14             // vpbroadcastd    ymm2, dword [rbx + rcx]
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xcf14             // vmovdqu    yword [r15 + 8*rcx], ymm2
-	LONG $0x587de2c4; WORD $0x0b54; BYTE $0x04 // vpbroadcastd    ymm2, dword [rbx + rcx + 4]
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xcf54; BYTE $0x20 // vmovdqu    yword [r15 + 8*rcx + 32], ymm2
-	LONG $0x587de2c4; WORD $0x0b54; BYTE $0x08 // vpbroadcastd    ymm2, dword [rbx + rcx + 8]
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xcf54; BYTE $0x40 // vmovdqu    yword [r15 + 8*rcx + 64], ymm2
-	LONG $0x587de2c4; WORD $0x0b54; BYTE $0x0c // vpbroadcastd    ymm2, dword [rbx + rcx + 12]
-	LONG $0x456de2c4; BYTE $0xd0               // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5                           // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xcf54; BYTE $0x60 // vmovdqu    yword [r15 + 8*rcx + 96], ymm2
-	LONG $0x10c18348                           // add    rcx, 16
-	LONG $0xffc08348                           // add    rax, -1
-	JNE  LBB0_140
-	JMP  LBB0_147
-
-LBB0_114:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x4cc38348               // add    rbx, 76
-	QUAD $0x000004a0856ffdc5       // vmovdqa    ymm0, yword 1184[rbp] /* [rip + .LCPI0_65] */
-	LONG $0x597de2c4; WORD $0x604d // vpbroadcastq    ymm1, qword 96[rbp] /* [rip + .LCPI0_66] */
-
-LBB0_116:
-	LONG $0xc44b8b44               // mov    r9d, dword [rbx - 60]
-	LONG $0xc05b8b44               // mov    r11d, dword [rbx - 64]
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	LONG $0xdea40f44; BYTE $0x08   // shld    esi, r11d, 8
-	WORD $0x7b8b; BYTE $0xbc       // mov    edi, dword [rbx - 68]
-	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
-	LONG $0x10faa40f               // shld    edx, edi, 16
-	WORD $0x438b; BYTE $0xb8       // mov    eax, dword [rbx - 72]
-	LONG $0x04c7a40f               // shld    edi, eax, 4
-	LONG $0xb4538b44               // mov    r10d, dword [rbx - 76]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0xd1a40f44; BYTE $0x0c   // shld    ecx, r10d, 12
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2269c3c4; WORD $0x01d3 // vpinsrd    xmm2, xmm2, r11d, 1
-	LONG $0x2269e3c4; WORD $0x02d6 // vpinsrd    xmm2, xmm2, esi, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x6e79c1c4; BYTE $0xda   // vmovd    xmm3, r10d
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261e3c4; WORD $0x03df // vpinsrd    xmm3, xmm3, edi, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa057 // vmovdqu    yword [r15 - 96], ymm2
-	LONG $0xd84b8b44               // mov    r9d, dword [rbx - 40]
-	LONG $0xd45b8b44               // mov    r11d, dword [rbx - 44]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x08   // shld    edx, r11d, 8
-	WORD $0x738b; BYTE $0xd0       // mov    esi, dword [rbx - 48]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0x10f7a40f               // shld    edi, esi, 16
-	LONG $0xc8538b44               // mov    r10d, dword [rbx - 56]
-	WORD $0x4b8b; BYTE $0xcc       // mov    ecx, dword [rbx - 52]
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0xd0a40f44; BYTE $0x0c   // shld    eax, r10d, 12
-	LONG $0xd76ef9c5               // vmovd    xmm2, edi
-	LONG $0x2269c3c4; WORD $0x01d3 // vpinsrd    xmm2, xmm2, r11d, 1
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x6e79c1c4; BYTE $0xda   // vmovd    xmm3, r10d
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2261e3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, ecx, 2
-	LONG $0x2261e3c4; WORD $0x03de // vpinsrd    xmm3, xmm3, esi, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc057 // vmovdqu    yword [r15 - 64], ymm2
-	LONG $0xec4b8b44               // mov    r9d, dword [rbx - 20]
-	LONG $0xe85b8b44               // mov    r11d, dword [rbx - 24]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x08   // shld    edx, r11d, 8
-	WORD $0x738b; BYTE $0xe4       // mov    esi, dword [rbx - 28]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0x10f7a40f               // shld    edi, esi, 16
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	LONG $0xdc538b44               // mov    r10d, dword [rbx - 36]
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0xd0a40f44; BYTE $0x0c   // shld    eax, r10d, 12
-	LONG $0xd76ef9c5               // vmovd    xmm2, edi
-	LONG $0x2269c3c4; WORD $0x01d3 // vpinsrd    xmm2, xmm2, r11d, 1
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x6e79c1c4; BYTE $0xda   // vmovd    xmm3, r10d
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2261e3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, ecx, 2
-	LONG $0x2261e3c4; WORD $0x03de // vpinsrd    xmm3, xmm3, esi, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe057 // vmovdqu    yword [r15 - 32], ymm2
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	LONG $0xfc5b8b44               // mov    r11d, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x08   // shld    edx, r11d, 8
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0x10f7a40f               // shld    edi, esi, 16
-	LONG $0xf0538b44               // mov    r10d, dword [rbx - 16]
-	WORD $0x4b8b; BYTE $0xf4       // mov    ecx, dword [rbx - 12]
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	WORD $0xc889                   // mov    eax, ecx
-	LONG $0xd0a40f44; BYTE $0x0c   // shld    eax, r10d, 12
-	LONG $0xd76ef9c5               // vmovd    xmm2, edi
-	LONG $0x2269c3c4; WORD $0x01d3 // vpinsrd    xmm2, xmm2, r11d, 1
-	LONG $0x2269e3c4; WORD $0x02d2 // vpinsrd    xmm2, xmm2, edx, 2
-	LONG $0x2269c3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, r9d, 3
-	LONG $0x6e79c1c4; BYTE $0xda   // vmovd    xmm3, r10d
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2261e3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, ecx, 2
-	LONG $0x2261e3c4; WORD $0x03de // vpinsrd    xmm3, xmm3, esi, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x17   // vmovdqu    yword [r15], ymm2
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x50c38348               // add    rbx, 80
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_116
-	JMP  LBB0_147
-
-LBB0_126:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x2cc38348                     // add    rbx, 44
-	QUAD $0x00000740856ffdc5             // vmovdqa    ymm0, yword 1856[rbp] /* [rip + .LCPI0_94] */
-	QUAD $0x0000a08d597de2c4; BYTE $0x00 // vpbroadcastq    ymm1, qword 160[rbp] /* [rip + .LCPI0_95] */
-
-LBB0_128:
-	WORD $0x4b8b; BYTE $0xdc       // mov    ecx, dword [rbx - 36]
-	WORD $0x538b; BYTE $0xd4       // mov    edx, dword [rbx - 44]
-	WORD $0x738b; BYTE $0xd8       // mov    esi, dword [rbx - 40]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x04f7a40f               // shld    edi, esi, 4
-	WORD $0xf089                   // mov    eax, esi
-	LONG $0x08d0a40f               // shld    eax, edx, 8
-	LONG $0xd66ef9c5               // vmovd    xmm2, esi
-	LONG $0x2269e3c4; WORD $0x01d7 // vpinsrd    xmm2, xmm2, edi, 1
-	LONG $0x2269e3c4; WORD $0x02d1 // vpinsrd    xmm2, xmm2, ecx, 2
-	LONG $0x2269e3c4; WORD $0x03d1 // vpinsrd    xmm2, xmm2, ecx, 3
-	LONG $0xda6ef9c5               // vmovd    xmm3, edx
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261e3c4; WORD $0x03de // vpinsrd    xmm3, xmm3, esi, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa057 // vmovdqu    yword [r15 - 96], ymm2
-	WORD $0x438b; BYTE $0xe8       // mov    eax, dword [rbx - 24]
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	WORD $0x538b; BYTE $0xe4       // mov    edx, dword [rbx - 28]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x04d6a40f               // shld    esi, edx, 4
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x08cfa40f               // shld    edi, ecx, 8
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2269e3c4; WORD $0x01d6 // vpinsrd    xmm2, xmm2, esi, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2269e3c4; WORD $0x03d0 // vpinsrd    xmm2, xmm2, eax, 3
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02df // vpinsrd    xmm3, xmm3, edi, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc057 // vmovdqu    yword [r15 - 64], ymm2
-	WORD $0x438b; BYTE $0xf4       // mov    eax, dword [rbx - 12]
-	WORD $0x4b8b; BYTE $0xec       // mov    ecx, dword [rbx - 20]
-	WORD $0x538b; BYTE $0xf0       // mov    edx, dword [rbx - 16]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x04d6a40f               // shld    esi, edx, 4
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x08cfa40f               // shld    edi, ecx, 8
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2269e3c4; WORD $0x01d6 // vpinsrd    xmm2, xmm2, esi, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2269e3c4; WORD $0x03d0 // vpinsrd    xmm2, xmm2, eax, 3
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02df // vpinsrd    xmm3, xmm3, edi, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe057 // vmovdqu    yword [r15 - 32], ymm2
-	WORD $0x038b                   // mov    eax, dword [rbx]
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x538b; BYTE $0xfc       // mov    edx, dword [rbx - 4]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x04d6a40f               // shld    esi, edx, 4
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x08cfa40f               // shld    edi, ecx, 8
-	LONG $0xd26ef9c5               // vmovd    xmm2, edx
-	LONG $0x2269e3c4; WORD $0x01d6 // vpinsrd    xmm2, xmm2, esi, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2269e3c4; WORD $0x03d0 // vpinsrd    xmm2, xmm2, eax, 3
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02df // vpinsrd    xmm3, xmm3, edi, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0x3865e3c4; WORD $0x01d2 // vinserti128    ymm2, ymm3, xmm2, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x17   // vmovdqu    yword [r15], ymm2
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x30c38348               // add    rbx, 48
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_128
-	JMP  LBB0_147
-
-LBB0_102:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x6cc38348               // add    rbx, 108
-	QUAD $0x00000220856ffdc5       // vmovdqa    ymm0, yword 544[rbp] /* [rip + .LCPI0_22] */
-	LONG $0x597de2c4; WORD $0x184d // vpbroadcastq    ymm1, qword 24[rbp] /* [rip + .LCPI0_23] */
-
-LBB0_104:
-	LONG $0xac4b8b44               // mov    r9d, dword [rbx - 84]
-	WORD $0x538b; BYTE $0xa8       // mov    edx, dword [rbx - 88]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xd2a40f41; BYTE $0x18   // shld    r10d, edx, 24
-	WORD $0x7b8b; BYTE $0xa4       // mov    edi, dword [rbx - 92]
-	LONG $0x14faa40f               // shld    edx, edi, 20
-	WORD $0x438b; BYTE $0xa0       // mov    eax, dword [rbx - 96]
-	LONG $0x10c7a40f               // shld    edi, eax, 16
-	WORD $0x4b8b; BYTE $0x9c       // mov    ecx, dword [rbx - 100]
-	LONG $0x0cc8a40f               // shld    eax, ecx, 12
-	LONG $0x945b8b44               // mov    r11d, dword [rbx - 108]
-	WORD $0x738b; BYTE $0x98       // mov    esi, dword [rbx - 104]
-	LONG $0x08f1a40f               // shld    ecx, esi, 8
-	LONG $0xdea40f44; BYTE $0x04   // shld    esi, r11d, 4
-	LONG $0x6e79c1c4; BYTE $0xd3   // vmovd    xmm2, r11d
-	LONG $0xdf6ef9c5               // vmovd    xmm3, edi
-	LONG $0x2269e3c4; WORD $0x01d6 // vpinsrd    xmm2, xmm2, esi, 1
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x2269e3c4; WORD $0x02d1 // vpinsrd    xmm2, xmm2, ecx, 2
-	LONG $0x2261c3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, r10d, 2
-	LONG $0x2269e3c4; WORD $0x03d0 // vpinsrd    xmm2, xmm2, eax, 3
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa057 // vmovdqu    yword [r15 - 96], ymm2
-	LONG $0xc84b8b44               // mov    r9d, dword [rbx - 56]
-	WORD $0x4b8b; BYTE $0xc4       // mov    ecx, dword [rbx - 60]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xcaa40f41; BYTE $0x18   // shld    r10d, ecx, 24
-	WORD $0x738b; BYTE $0xc0       // mov    esi, dword [rbx - 64]
-	LONG $0x14f1a40f               // shld    ecx, esi, 20
-	WORD $0x7b8b; BYTE $0xbc       // mov    edi, dword [rbx - 68]
-	LONG $0x10fea40f               // shld    esi, edi, 16
-	WORD $0x438b; BYTE $0xb8       // mov    eax, dword [rbx - 72]
-	LONG $0x0cc7a40f               // shld    edi, eax, 12
-	LONG $0xb05b8b44               // mov    r11d, dword [rbx - 80]
-	WORD $0x538b; BYTE $0xb4       // mov    edx, dword [rbx - 76]
-	LONG $0x08d0a40f               // shld    eax, edx, 8
-	LONG $0xdaa40f44; BYTE $0x04   // shld    edx, r11d, 4
-	LONG $0x6e79c1c4; BYTE $0xd3   // vmovd    xmm2, r11d
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2269e3c4; WORD $0x01d2 // vpinsrd    xmm2, xmm2, edx, 1
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2261c3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, r10d, 2
-	LONG $0x2269e3c4; WORD $0x03d7 // vpinsrd    xmm2, xmm2, edi, 3
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc057 // vmovdqu    yword [r15 - 64], ymm2
-	LONG $0xe44b8b44               // mov    r9d, dword [rbx - 28]
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xcaa40f41; BYTE $0x18   // shld    r10d, ecx, 24
-	WORD $0x738b; BYTE $0xdc       // mov    esi, dword [rbx - 36]
-	LONG $0x14f1a40f               // shld    ecx, esi, 20
-	WORD $0x7b8b; BYTE $0xd8       // mov    edi, dword [rbx - 40]
-	LONG $0x10fea40f               // shld    esi, edi, 16
-	WORD $0x438b; BYTE $0xd4       // mov    eax, dword [rbx - 44]
-	LONG $0x0cc7a40f               // shld    edi, eax, 12
-	LONG $0xcc5b8b44               // mov    r11d, dword [rbx - 52]
-	WORD $0x538b; BYTE $0xd0       // mov    edx, dword [rbx - 48]
-	LONG $0x08d0a40f               // shld    eax, edx, 8
-	LONG $0xdaa40f44; BYTE $0x04   // shld    edx, r11d, 4
-	LONG $0x6e79c1c4; BYTE $0xd3   // vmovd    xmm2, r11d
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2269e3c4; WORD $0x01d2 // vpinsrd    xmm2, xmm2, edx, 1
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2261c3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, r10d, 2
-	LONG $0x2269e3c4; WORD $0x03d7 // vpinsrd    xmm2, xmm2, edi, 3
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe057 // vmovdqu    yword [r15 - 32], ymm2
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xcaa40f41; BYTE $0x18   // shld    r10d, ecx, 24
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0x14f1a40f               // shld    ecx, esi, 20
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	LONG $0x10fea40f               // shld    esi, edi, 16
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	LONG $0x0cc7a40f               // shld    edi, eax, 12
-	LONG $0xe85b8b44               // mov    r11d, dword [rbx - 24]
-	WORD $0x538b; BYTE $0xec       // mov    edx, dword [rbx - 20]
-	LONG $0x08d0a40f               // shld    eax, edx, 8
-	LONG $0xdaa40f44; BYTE $0x04   // shld    edx, r11d, 4
-	LONG $0x6e79c1c4; BYTE $0xd3   // vmovd    xmm2, r11d
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2269e3c4; WORD $0x01d2 // vpinsrd    xmm2, xmm2, edx, 1
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2269e3c4; WORD $0x02d0 // vpinsrd    xmm2, xmm2, eax, 2
-	LONG $0x2261c3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, r10d, 2
-	LONG $0x2269e3c4; WORD $0x03d7 // vpinsrd    xmm2, xmm2, edi, 3
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
-	LONG $0x456de2c4; BYTE $0xd0   // vpsrlvd    ymm2, ymm2, ymm0
-	LONG $0xd1dbedc5               // vpand    ymm2, ymm2, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x17   // vmovdqu    yword [r15], ymm2
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x70c38348               // add    rbx, 112
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_104
-	JMP  LBB0_147
-
-LBB0_141:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	WORD $0xc931                         // xor    ecx, ecx
-	QUAD $0x00000a80856ffdc5             // vmovdqa    ymm0, yword 2688[rbp] /* [rip + .LCPI0_131] */
-	QUAD $0x0000e88d597de2c4; BYTE $0x00 // vpbroadcastq    ymm1, qword 232[rbp] /* [rip + .LCPI0_132] */
-	QUAD $0x00000aa0956ffdc5             // vmovdqa    ymm2, yword 2720[rbp] /* [rip + .LCPI0_133] */
-
-LBB0_143:
-	LONG $0x587de2c4; WORD $0xcb1c             // vpbroadcastd    ymm3, dword [rbx + 8*rcx]
-	LONG $0x4565e2c4; BYTE $0xd8               // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5                           // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa05f             // vmovdqu    yword [r15 - 96], ymm3
-	LONG $0x587de2c4; WORD $0xcb1c             // vpbroadcastd    ymm3, dword [rbx + 8*rcx]
-	LONG $0x4565e2c4; BYTE $0xda               // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5                           // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc05f             // vmovdqu    yword [r15 - 64], ymm3
-	LONG $0x587de2c4; WORD $0xcb5c; BYTE $0x04 // vpbroadcastd    ymm3, dword [rbx + 8*rcx + 4]
-	LONG $0x4565e2c4; BYTE $0xd8               // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5                           // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe05f             // vmovdqu    yword [r15 - 32], ymm3
-	LONG $0x587de2c4; WORD $0xcb5c; BYTE $0x04 // vpbroadcastd    ymm3, dword [rbx + 8*rcx + 4]
-	LONG $0x4565e2c4; BYTE $0xda               // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5                           // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x1f               // vmovdqu    yword [r15], ymm3
-	LONG $0x01c18348                           // add    rcx, 1
-	LONG $0x80ef8349                           // sub    r15, -128
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB0_143
-	JMP  LBB0_147
-
-LBB0_117:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x44c38348               // add    rbx, 68
-	QUAD $0x00000540856ffdc5       // vmovdqa    ymm0, yword 1344[rbp] /* [rip + .LCPI0_72] */
-	LONG $0x597de2c4; WORD $0x704d // vpbroadcastq    ymm1, qword 112[rbp] /* [rip + .LCPI0_73] */
-	QUAD $0x00000560956ffdc5       // vmovdqa    ymm2, yword 1376[rbp] /* [rip + .LCPI0_74] */
-
-LBB0_119:
-	WORD $0x4b8b; BYTE $0xc8       // mov    ecx, dword [rbx - 56]
-	LONG $0xcc538b44               // mov    r10d, dword [rbx - 52]
-	LONG $0xcaa40f41; BYTE $0x02   // shld    r10d, ecx, 2
-	WORD $0x738b; BYTE $0xc4       // mov    esi, dword [rbx - 60]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x06f7a40f               // shld    edi, esi, 6
-	LONG $0xbc4b8b44               // mov    r9d, dword [rbx - 68]
-	WORD $0x538b; BYTE $0xc0       // mov    edx, dword [rbx - 64]
-	WORD $0xd089                   // mov    eax, edx
-	LONG $0xc8a40f44; BYTE $0x0e   // shld    eax, r9d, 14
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x0ad6a40f               // shld    esi, edx, 10
-	LONG $0x2261e3c4; WORD $0x01df // vpinsrd    xmm3, xmm3, edi, 1
-	LONG $0x2261e3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, ecx, 2
-	LONG $0x2261c3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, r10d, 3
-	LONG $0x6e79c1c4; BYTE $0xe1   // vmovd    xmm4, r9d
-	LONG $0x2259e3c4; WORD $0x01e0 // vpinsrd    xmm4, xmm4, eax, 1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x2259e3c4; WORD $0x03e6 // vpinsrd    xmm4, xmm4, esi, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa05f // vmovdqu    yword [r15 - 96], ymm3
-	LONG $0xdc4b8b44               // mov    r9d, dword [rbx - 36]
-	LONG $0xd85b8b44               // mov    r11d, dword [rbx - 40]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x04   // shld    edx, r11d, 4
-	LONG $0xd4538b44               // mov    r10d, dword [rbx - 44]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0xd7a40f44; BYTE $0x08   // shld    edi, r10d, 8
-	WORD $0x438b; BYTE $0xcc       // mov    eax, dword [rbx - 52]
-	WORD $0x738b; BYTE $0xd0       // mov    esi, dword [rbx - 48]
-	WORD $0x8944; BYTE $0xd1       // mov    ecx, r10d
-	LONG $0x0cf1a40f               // shld    ecx, esi, 12
-	LONG $0x10f0ac0f               // shrd    eax, esi, 16
-	LONG $0xdf6ef9c5               // vmovd    xmm3, edi
-	LONG $0x2261c3c4; WORD $0x01db // vpinsrd    xmm3, xmm3, r11d, 1
-	LONG $0x2261e3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, edx, 2
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0xe06ef9c5               // vmovd    xmm4, eax
-	LONG $0x2259e3c4; WORD $0x01e6 // vpinsrd    xmm4, xmm4, esi, 1
-	LONG $0x2259e3c4; WORD $0x02e1 // vpinsrd    xmm4, xmm4, ecx, 2
-	LONG $0x2259c3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, r10d, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc05f // vmovdqu    yword [r15 - 64], ymm3
-	WORD $0x438b; BYTE $0xec       // mov    eax, dword [rbx - 20]
-	LONG $0xf0538b44               // mov    r10d, dword [rbx - 16]
-	LONG $0xc2a40f41; BYTE $0x02   // shld    r10d, eax, 2
-	WORD $0x538b; BYTE $0xe8       // mov    edx, dword [rbx - 24]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x06d6a40f               // shld    esi, edx, 6
-	LONG $0xe04b8b44               // mov    r9d, dword [rbx - 32]
-	WORD $0x4b8b; BYTE $0xe4       // mov    ecx, dword [rbx - 28]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0xcfa40f44; BYTE $0x0e   // shld    edi, r9d, 14
-	LONG $0xda6ef9c5               // vmovd    xmm3, edx
-	LONG $0x0acaa40f               // shld    edx, ecx, 10
-	LONG $0x2261e3c4; WORD $0x01de // vpinsrd    xmm3, xmm3, esi, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261c3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, r10d, 3
-	LONG $0x6e79c1c4; BYTE $0xe1   // vmovd    xmm4, r9d
-	LONG $0x2259e3c4; WORD $0x01e7 // vpinsrd    xmm4, xmm4, edi, 1
-	LONG $0x2259e3c4; WORD $0x02e1 // vpinsrd    xmm4, xmm4, ecx, 2
-	LONG $0x2259e3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, edx, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe05f // vmovdqu    yword [r15 - 32], ymm3
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	LONG $0xfc5b8b44               // mov    r11d, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0xdaa40f44; BYTE $0x04   // shld    edx, r11d, 4
-	LONG $0xf8538b44               // mov    r10d, dword [rbx - 8]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0xd7a40f44; BYTE $0x08   // shld    edi, r10d, 8
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	WORD $0x738b; BYTE $0xf4       // mov    esi, dword [rbx - 12]
-	WORD $0x8944; BYTE $0xd1       // mov    ecx, r10d
-	LONG $0x0cf1a40f               // shld    ecx, esi, 12
-	LONG $0x10f0ac0f               // shrd    eax, esi, 16
-	LONG $0xdf6ef9c5               // vmovd    xmm3, edi
-	LONG $0x2261c3c4; WORD $0x01db // vpinsrd    xmm3, xmm3, r11d, 1
-	LONG $0x2261e3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, edx, 2
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0xe06ef9c5               // vmovd    xmm4, eax
-	LONG $0x2259e3c4; WORD $0x01e6 // vpinsrd    xmm4, xmm4, esi, 1
-	LONG $0x2259e3c4; WORD $0x02e1 // vpinsrd    xmm4, xmm4, ecx, 2
-	LONG $0x2259c3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, r10d, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x1f   // vmovdqu    yword [r15], ymm3
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x48c38348               // add    rbx, 72
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_119
-	JMP  LBB0_147
-
-LBB0_129:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x24c38348                     // add    rbx, 36
-	QUAD $0x000007e0856ffdc5             // vmovdqa    ymm0, yword 2016[rbp] /* [rip + .LCPI0_101] */
-	QUAD $0x0000b08d597de2c4; BYTE $0x00 // vpbroadcastq    ymm1, qword 176[rbp] /* [rip + .LCPI0_102] */
-	QUAD $0x00000800956ffdc5             // vmovdqa    ymm2, yword 2048[rbp] /* [rip + .LCPI0_103] */
-
-LBB0_131:
-	WORD $0x4b8b; BYTE $0xe4       // mov    ecx, dword [rbx - 28]
-	WORD $0x538b; BYTE $0xdc       // mov    edx, dword [rbx - 36]
-	WORD $0x738b; BYTE $0xe0       // mov    esi, dword [rbx - 32]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x04f7a40f               // shld    edi, esi, 4
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01de // vpinsrd    xmm3, xmm3, esi, 1
-	LONG $0x02d6a40f               // shld    esi, edx, 2
-	LONG $0x2261e3c4; WORD $0x02df // vpinsrd    xmm3, xmm3, edi, 2
-	LONG $0x2261e3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, ecx, 3
-	LONG $0xe26ef9c5               // vmovd    xmm4, edx
-	LONG $0x2259e3c4; WORD $0x01e2 // vpinsrd    xmm4, xmm4, edx, 1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x2259e3c4; WORD $0x03e6 // vpinsrd    xmm4, xmm4, esi, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa05f // vmovdqu    yword [r15 - 96], ymm3
-	WORD $0x4b8b; BYTE $0xec       // mov    ecx, dword [rbx - 20]
-	WORD $0x538b; BYTE $0xe8       // mov    edx, dword [rbx - 24]
-	WORD $0xce89                   // mov    esi, ecx
-	LONG $0x08d6a40f               // shld    esi, edx, 8
-	WORD $0x7b8b; BYTE $0xe4       // mov    edi, dword [rbx - 28]
-	WORD $0xd089                   // mov    eax, edx
-	LONG $0x06f8a40f               // shld    eax, edi, 6
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, ecx, 2
-	LONG $0x2261e3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, ecx, 3
-	LONG $0xe76ef9c5               // vmovd    xmm4, edi
-	LONG $0x2259e3c4; WORD $0x01e0 // vpinsrd    xmm4, xmm4, eax, 1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x2259e3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, edx, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc05f // vmovdqu    yword [r15 - 64], ymm3
-	WORD $0x438b; BYTE $0xf8       // mov    eax, dword [rbx - 8]
-	WORD $0x4b8b; BYTE $0xf0       // mov    ecx, dword [rbx - 16]
-	WORD $0x538b; BYTE $0xf4       // mov    edx, dword [rbx - 12]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x04d6a40f               // shld    esi, edx, 4
-	LONG $0xda6ef9c5               // vmovd    xmm3, edx
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x02caa40f               // shld    edx, ecx, 2
-	LONG $0x2261e3c4; WORD $0x02de // vpinsrd    xmm3, xmm3, esi, 2
-	LONG $0x2261e3c4; WORD $0x03d8 // vpinsrd    xmm3, xmm3, eax, 3
-	LONG $0xe16ef9c5               // vmovd    xmm4, ecx
-	LONG $0x2259e3c4; WORD $0x01e1 // vpinsrd    xmm4, xmm4, ecx, 1
-	LONG $0x2259e3c4; WORD $0x02e1 // vpinsrd    xmm4, xmm4, ecx, 2
-	LONG $0x2259e3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, edx, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe05f // vmovdqu    yword [r15 - 32], ymm3
-	WORD $0x038b                   // mov    eax, dword [rbx]
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x538b; BYTE $0xfc       // mov    edx, dword [rbx - 4]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x08d6a40f               // shld    esi, edx, 8
-	WORD $0xd789                   // mov    edi, edx
-	LONG $0x06cfa40f               // shld    edi, ecx, 6
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261e3c4; WORD $0x03d8 // vpinsrd    xmm3, xmm3, eax, 3
-	LONG $0xe16ef9c5               // vmovd    xmm4, ecx
-	LONG $0x2259e3c4; WORD $0x01e7 // vpinsrd    xmm4, xmm4, edi, 1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x2259e3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, edx, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x1f   // vmovdqu    yword [r15], ymm3
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x28c38348               // add    rbx, 40
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_131
-	JMP  LBB0_147
-
-LBB0_105:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x64c38348               // add    rbx, 100
-	LONG $0x597de2c4; WORD $0x2845 // vpbroadcastq    ymm0, qword 40[rbp] /* [rip + .LCPI0_34] */
-	LONG $0x5979e2c4; WORD $0x304d // vpbroadcastq    xmm1, qword 48[rbp] /* [rip + .LCPI0_35] */
-	QUAD $0x000002c0956ffdc5       // vmovdqa    ymm2, yword 704[rbp] /* [rip + .LCPI0_33] */
-	LONG $0x5979e2c4; WORD $0x385d // vpbroadcastq    xmm3, qword 56[rbp] /* [rip + .LCPI0_36] */
-	QUAD $0x000002e0a56ffdc5       // vmovdqa    ymm4, yword 736[rbp] /* [rip + .LCPI0_37] */
-
-LBB0_107:
-	WORD $0x4b8b; BYTE $0xb0       // mov    ecx, dword [rbx - 80]
-	LONG $0xb44b8b44               // mov    r9d, dword [rbx - 76]
-	LONG $0xc9a40f41; BYTE $0x0a   // shld    r9d, ecx, 10
-	LONG $0xac5b8b44               // mov    r11d, dword [rbx - 84]
-	LONG $0xd9a40f44; BYTE $0x04   // shld    ecx, r11d, 4
-	WORD $0x7b8b; BYTE $0xa8       // mov    edi, dword [rbx - 88]
-	WORD $0x8944; BYTE $0xde       // mov    esi, r11d
-	LONG $0x18fea40f               // shld    esi, edi, 24
-	WORD $0x538b; BYTE $0xa4       // mov    edx, dword [rbx - 92]
-	LONG $0x12d7a40f               // shld    edi, edx, 18
-	LONG $0x9c538b44               // mov    r10d, dword [rbx - 100]
-	WORD $0x438b; BYTE $0xa0       // mov    eax, dword [rbx - 96]
-	LONG $0x0cc2a40f               // shld    edx, eax, 12
-	LONG $0xd0a40f44; BYTE $0x06   // shld    eax, r10d, 6
-	LONG $0x6e79c1c4; BYTE $0xea   // vmovd    xmm5, r10d
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2251e3c4; WORD $0x01e8 // vpinsrd    xmm5, xmm5, eax, 1
-	LONG $0x2249c3c4; WORD $0x01f3 // vpinsrd    xmm6, xmm6, r11d, 1
-	LONG $0x2251e3c4; WORD $0x02ea // vpinsrd    xmm5, xmm5, edx, 2
-	LONG $0x2249e3c4; WORD $0x02f1 // vpinsrd    xmm6, xmm6, ecx, 2
-	LONG $0x2251e3c4; WORD $0x03ef // vpinsrd    xmm5, xmm5, edi, 3
-	LONG $0x2249c3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, r9d, 3
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa06f // vmovdqu    yword [r15 - 96], ymm5
-	LONG $0xcc4b8b44               // mov    r9d, dword [rbx - 52]
-	WORD $0x4b8b; BYTE $0xc8       // mov    ecx, dword [rbx - 56]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x14caa40f               // shld    edx, ecx, 20
-	WORD $0x738b; BYTE $0xc4       // mov    esi, dword [rbx - 60]
-	LONG $0x0ef1a40f               // shld    ecx, esi, 14
-	WORD $0x7b8b; BYTE $0xbc       // mov    edi, dword [rbx - 68]
-	WORD $0x438b; BYTE $0xc0       // mov    eax, dword [rbx - 64]
-	LONG $0x08c6a40f               // shld    esi, eax, 8
-	LONG $0x02f8a40f               // shld    eax, edi, 2
-	LONG $0x6b7efac5; BYTE $0xb4   // vmovq    xmm5, qword [rbx - 76]
-	LONG $0x4551e2c4; BYTE $0xf1   // vpsrlvd    xmm6, xmm5, xmm1
-	LONG $0xed70f9c5; BYTE $0xe5   // vpshufd    xmm5, xmm5, 229
-	LONG $0x2251e3c4; WORD $0x01ef // vpinsrd    xmm5, xmm5, edi, 1
-	LONG $0x4751e2c4; BYTE $0xeb   // vpsllvd    xmm5, xmm5, xmm3
-	LONG $0xedebc9c5               // vpor    xmm5, xmm6, xmm5
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249c3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, r9d, 3
-	LONG $0x2251e3c4; WORD $0x02ef // vpinsrd    xmm5, xmm5, edi, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc06f // vmovdqu    yword [r15 - 64], ymm5
-	WORD $0x438b; BYTE $0xe4       // mov    eax, dword [rbx - 28]
-	LONG $0xe84b8b44               // mov    r9d, dword [rbx - 24]
-	LONG $0xc1a40f41; BYTE $0x0a   // shld    r9d, eax, 10
-	LONG $0xe05b8b44               // mov    r11d, dword [rbx - 32]
-	LONG $0xd8a40f44; BYTE $0x04   // shld    eax, r11d, 4
-	WORD $0x738b; BYTE $0xdc       // mov    esi, dword [rbx - 36]
-	WORD $0x8944; BYTE $0xdf       // mov    edi, r11d
-	LONG $0x18f7a40f               // shld    edi, esi, 24
-	WORD $0x4b8b; BYTE $0xd8       // mov    ecx, dword [rbx - 40]
-	LONG $0x12cea40f               // shld    esi, ecx, 18
-	LONG $0xd0538b44               // mov    r10d, dword [rbx - 48]
-	WORD $0x538b; BYTE $0xd4       // mov    edx, dword [rbx - 44]
-	LONG $0x0cd1a40f               // shld    ecx, edx, 12
-	LONG $0xd2a40f44; BYTE $0x06   // shld    edx, r10d, 6
-	LONG $0x6e79c1c4; BYTE $0xea   // vmovd    xmm5, r10d
-	LONG $0xf76ef9c5               // vmovd    xmm6, edi
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x2249c3c4; WORD $0x01f3 // vpinsrd    xmm6, xmm6, r11d, 1
-	LONG $0x2251e3c4; WORD $0x02e9 // vpinsrd    xmm5, xmm5, ecx, 2
-	LONG $0x2249e3c4; WORD $0x02f0 // vpinsrd    xmm6, xmm6, eax, 2
-	LONG $0x2251e3c4; WORD $0x03ee // vpinsrd    xmm5, xmm5, esi, 3
-	LONG $0x2249c3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, r9d, 3
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xea   // vpsrlvd    ymm5, ymm5, ymm2
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe06f // vmovdqu    yword [r15 - 32], ymm5
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x14caa40f               // shld    edx, ecx, 20
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0x0ef1a40f               // shld    ecx, esi, 14
-	WORD $0x7b8b; BYTE $0xf0       // mov    edi, dword [rbx - 16]
-	WORD $0x438b; BYTE $0xf4       // mov    eax, dword [rbx - 12]
-	LONG $0x08c6a40f               // shld    esi, eax, 8
-	LONG $0x02f8a40f               // shld    eax, edi, 2
-	LONG $0x6b7efac5; BYTE $0xe8   // vmovq    xmm5, qword [rbx - 24]
-	LONG $0x4551e2c4; BYTE $0xf1   // vpsrlvd    xmm6, xmm5, xmm1
-	LONG $0xed70f9c5; BYTE $0xe5   // vpshufd    xmm5, xmm5, 229
-	LONG $0x2251e3c4; WORD $0x01ef // vpinsrd    xmm5, xmm5, edi, 1
-	LONG $0x4751e2c4; BYTE $0xeb   // vpsllvd    xmm5, xmm5, xmm3
-	LONG $0xedebc9c5               // vpor    xmm5, xmm6, xmm5
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249c3c4; WORD $0x03f1 // vpinsrd    xmm6, xmm6, r9d, 3
-	LONG $0x2251e3c4; WORD $0x02ef // vpinsrd    xmm5, xmm5, edi, 2
-	LONG $0x2251e3c4; WORD $0x03e8 // vpinsrd    xmm5, xmm5, eax, 3
-	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
-	LONG $0x4555e2c4; BYTE $0xec   // vpsrlvd    ymm5, ymm5, ymm4
-	LONG $0xe8dbd5c5               // vpand    ymm5, ymm5, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x2f   // vmovdqu    yword [r15], ymm5
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x68c38348               // add    rbx, 104
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_107
-	JMP  LBB0_147
-
-LBB0_135:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8944; BYTE $0xf0             // mov    eax, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x14c38348                     // add    rbx, 20
-	QUAD $0x00000920856ffdc5             // vmovdqa    ymm0, yword 2336[rbp] /* [rip + .LCPI0_116] */
-	QUAD $0x0000c88d597de2c4; BYTE $0x00 // vpbroadcastq    ymm1, qword 200[rbp] /* [rip + .LCPI0_117] */
-	QUAD $0x00000940956ffdc5             // vmovdqa    ymm2, yword 2368[rbp] /* [rip + .LCPI0_118] */
-
-LBB0_137:
-	WORD $0x4b8b; BYTE $0xec       // mov    ecx, dword [rbx - 20]
-	WORD $0x538b; BYTE $0xf0       // mov    edx, dword [rbx - 16]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x02cea40f               // shld    esi, ecx, 2
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x5879e2c4; BYTE $0xe3   // vpbroadcastd    xmm4, xmm3
-	LONG $0x2261e3c4; WORD $0x01de // vpinsrd    xmm3, xmm3, esi, 1
-	LONG $0x2261e3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, edx, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa05f // vmovdqu    yword [r15 - 96], ymm3
-	WORD $0x4b8b; BYTE $0xf0       // mov    ecx, dword [rbx - 16]
-	WORD $0x538b; BYTE $0xf4       // mov    edx, dword [rbx - 12]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02de // vpinsrd    xmm3, xmm3, esi, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0xe26ef9c5               // vmovd    xmm4, edx
-	LONG $0x5879e2c4; BYTE $0xe4   // vpbroadcastd    xmm4, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc05f // vmovdqu    yword [r15 - 64], ymm3
-	WORD $0x4b8b; BYTE $0xf8       // mov    ecx, dword [rbx - 8]
-	WORD $0x538b; BYTE $0xfc       // mov    edx, dword [rbx - 4]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x02cea40f               // shld    esi, ecx, 2
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01e6 // vpinsrd    xmm4, xmm3, esi, 1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x5879e2c4; BYTE $0xdb   // vpbroadcastd    xmm3, xmm3
-	LONG $0x2259e3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, edx, 3
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe05f // vmovdqu    yword [r15 - 32], ymm3
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x138b                   // mov    edx, dword [rbx]
-	WORD $0xd689                   // mov    esi, edx
-	LONG $0x04cea40f               // shld    esi, ecx, 4
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02de // vpinsrd    xmm3, xmm3, esi, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0xe26ef9c5               // vmovd    xmm4, edx
-	LONG $0x5879e2c4; BYTE $0xe4   // vpbroadcastd    xmm4, xmm4
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x1f   // vmovdqu    yword [r15], ymm3
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x18c38348               // add    rbx, 24
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_137
-	JMP  LBB0_147
-
-LBB0_111:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x54c38348               // add    rbx, 84
-	QUAD $0x000003e0856ffdc5       // vmovdqa    ymm0, yword 992[rbp] /* [rip + .LCPI0_55] */
-	LONG $0x597de2c4; WORD $0x504d // vpbroadcastq    ymm1, qword 80[rbp] /* [rip + .LCPI0_56] */
-	QUAD $0x00000400956ffdc5       // vmovdqa    ymm2, yword 1024[rbp] /* [rip + .LCPI0_57] */
-
-LBB0_113:
-	LONG $0xbc538b44               // mov    r10d, dword [rbx - 68]
-	LONG $0xc04b8b44               // mov    r9d, dword [rbx - 64]
-	LONG $0xd1a40f45; BYTE $0x06   // shld    r9d, r10d, 6
-	WORD $0x738b; BYTE $0xb8       // mov    esi, dword [rbx - 72]
-	WORD $0x8944; BYTE $0xd7       // mov    edi, r10d
-	LONG $0x12f7a40f               // shld    edi, esi, 18
-	WORD $0x538b; BYTE $0xb4       // mov    edx, dword [rbx - 76]
-	LONG $0x08d6a40f               // shld    esi, edx, 8
-	LONG $0xac5b8b44               // mov    r11d, dword [rbx - 84]
-	WORD $0x4b8b; BYTE $0xb0       // mov    ecx, dword [rbx - 80]
-	WORD $0xd089                   // mov    eax, edx
-	LONG $0x14c8a40f               // shld    eax, ecx, 20
-	LONG $0xd9a40f44; BYTE $0x0a   // shld    ecx, r11d, 10
-	LONG $0x6e79c1c4; BYTE $0xdb   // vmovd    xmm3, r11d
-	LONG $0xe66ef9c5               // vmovd    xmm4, esi
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2259e3c4; WORD $0x01e7 // vpinsrd    xmm4, xmm4, edi, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2259c3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, r10d, 2
-	LONG $0x2261e3c4; WORD $0x03da // vpinsrd    xmm3, xmm3, edx, 3
-	LONG $0x2259c3c4; WORD $0x03e1 // vpinsrd    xmm4, xmm4, r9d, 3
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa05f // vmovdqu    yword [r15 - 96], ymm3
-	LONG $0xd44b8b44               // mov    r9d, dword [rbx - 44]
-	WORD $0x4b8b; BYTE $0xd0       // mov    ecx, dword [rbx - 48]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xcaa40f41; BYTE $0x0c   // shld    r10d, ecx, 12
-	WORD $0x738b; BYTE $0xcc       // mov    esi, dword [rbx - 52]
-	LONG $0x02f1a40f               // shld    ecx, esi, 2
-	WORD $0x7b8b; BYTE $0xc8       // mov    edi, dword [rbx - 56]
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x0efea40f               // shld    esi, edi, 14
-	WORD $0x438b; BYTE $0xc0       // mov    eax, dword [rbx - 64]
-	WORD $0x538b; BYTE $0xc4       // mov    edx, dword [rbx - 60]
-	LONG $0x04d7a40f               // shld    edi, edx, 4
-	LONG $0x10d0ac0f               // shrd    eax, edx, 16
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0xe06ef9c5               // vmovd    xmm4, eax
-	LONG $0x2261c3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, r10d, 2
-	LONG $0x2259e3c4; WORD $0x01e2 // vpinsrd    xmm4, xmm4, edx, 1
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x2259e3c4; WORD $0x02e7 // vpinsrd    xmm4, xmm4, edi, 2
-	LONG $0x2259e3c4; WORD $0x03e6 // vpinsrd    xmm4, xmm4, esi, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc05f // vmovdqu    yword [r15 - 64], ymm3
-	LONG $0xe8538b44               // mov    r10d, dword [rbx - 24]
-	LONG $0xec4b8b44               // mov    r9d, dword [rbx - 20]
-	LONG $0xd1a40f45; BYTE $0x06   // shld    r9d, r10d, 6
-	WORD $0x538b; BYTE $0xe4       // mov    edx, dword [rbx - 28]
-	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
-	LONG $0x12d6a40f               // shld    esi, edx, 18
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	LONG $0x08caa40f               // shld    edx, ecx, 8
-	LONG $0xd85b8b44               // mov    r11d, dword [rbx - 40]
-	WORD $0x438b; BYTE $0xdc       // mov    eax, dword [rbx - 36]
-	WORD $0xcf89                   // mov    edi, ecx
-	LONG $0x14c7a40f               // shld    edi, eax, 20
-	LONG $0xd8a40f44; BYTE $0x0a   // shld    eax, r11d, 10
-	LONG $0x6e79c1c4; BYTE $0xdb   // vmovd    xmm3, r11d
-	LONG $0xe26ef9c5               // vmovd    xmm4, edx
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2259e3c4; WORD $0x01e6 // vpinsrd    xmm4, xmm4, esi, 1
-	LONG $0x2261e3c4; WORD $0x02df // vpinsrd    xmm3, xmm3, edi, 2
-	LONG $0x2259c3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, r10d, 2
-	LONG $0x2261e3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, ecx, 3
-	LONG $0x2259c3c4; WORD $0x03e1 // vpinsrd    xmm4, xmm4, r9d, 3
-	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe05f // vmovdqu    yword [r15 - 32], ymm3
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8945; BYTE $0xca       // mov    r10d, r9d
-	LONG $0xcaa40f41; BYTE $0x0c   // shld    r10d, ecx, 12
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0x02f1a40f               // shld    ecx, esi, 2
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	LONG $0xde6ef9c5               // vmovd    xmm3, esi
-	LONG $0x0efea40f               // shld    esi, edi, 14
-	WORD $0x438b; BYTE $0xec       // mov    eax, dword [rbx - 20]
-	WORD $0x538b; BYTE $0xf0       // mov    edx, dword [rbx - 16]
-	LONG $0x04d7a40f               // shld    edi, edx, 4
-	LONG $0x10d0ac0f               // shrd    eax, edx, 16
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0xe06ef9c5               // vmovd    xmm4, eax
-	LONG $0x2261c3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, r10d, 2
-	LONG $0x2259e3c4; WORD $0x01e2 // vpinsrd    xmm4, xmm4, edx, 1
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x2259e3c4; WORD $0x02e7 // vpinsrd    xmm4, xmm4, edi, 2
-	LONG $0x2259e3c4; WORD $0x03e6 // vpinsrd    xmm4, xmm4, esi, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x1f   // vmovdqu    yword [r15], ymm3
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x58c38348               // add    rbx, 88
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_113
-	JMP  LBB0_147
-
-LBB0_123:
-	WORD $0xfa83; BYTE $0x20             // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0             // mov    r8d, r14d
-	LONG $0x60c78349                     // add    r15, 96
-	LONG $0x34c38348                     // add    rbx, 52
-	QUAD $0x00000680856ffdc5             // vmovdqa    ymm0, yword 1664[rbp] /* [rip + .LCPI0_86] */
-	QUAD $0x0000908d597de2c4; BYTE $0x00 // vpbroadcastq    ymm1, qword 144[rbp] /* [rip + .LCPI0_87] */
-	QUAD $0x000006a0956ffdc5             // vmovdqa    ymm2, yword 1696[rbp] /* [rip + .LCPI0_88] */
-
-LBB0_125:
-	LONG $0xd84b8b44               // mov    r9d, dword [rbx - 40]
-	WORD $0x4b8b; BYTE $0xd4       // mov    ecx, dword [rbx - 44]
-	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
-	LONG $0x0ccea40f               // shld    esi, ecx, 12
-	WORD $0x7b8b; BYTE $0xcc       // mov    edi, dword [rbx - 52]
-	LONG $0xd0538b44               // mov    r10d, dword [rbx - 48]
-	WORD $0xca89                   // mov    edx, ecx
-	LONG $0xd2a40f44; BYTE $0x08   // shld    edx, r10d, 8
-	WORD $0x8944; BYTE $0xd0       // mov    eax, r10d
-	LONG $0x04f8a40f               // shld    eax, edi, 4
-	LONG $0xda6ef9c5               // vmovd    xmm3, edx
-	LONG $0x2261e3c4; WORD $0x01d9 // vpinsrd    xmm3, xmm3, ecx, 1
-	LONG $0x2261e3c4; WORD $0x02de // vpinsrd    xmm3, xmm3, esi, 2
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0xe76ef9c5               // vmovd    xmm4, edi
-	LONG $0x2259e3c4; WORD $0x01e7 // vpinsrd    xmm4, xmm4, edi, 1
-	LONG $0x2259e3c4; WORD $0x02e0 // vpinsrd    xmm4, xmm4, eax, 2
-	LONG $0x2259c3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, r10d, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xa05f // vmovdqu    yword [r15 - 96], ymm3
-	WORD $0x438b; BYTE $0xe4       // mov    eax, dword [rbx - 28]
-	WORD $0x4b8b; BYTE $0xe0       // mov    ecx, dword [rbx - 32]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x0acaa40f               // shld    edx, ecx, 10
-	LONG $0xd84b8b44               // mov    r9d, dword [rbx - 40]
-	WORD $0x738b; BYTE $0xdc       // mov    esi, dword [rbx - 36]
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x06f1a40f               // shld    ecx, esi, 6
-	WORD $0xf789                   // mov    edi, esi
-	LONG $0xcfa40f44; BYTE $0x02   // shld    edi, r9d, 2
-	LONG $0x6e79c1c4; BYTE $0xe1   // vmovd    xmm4, r9d
-	LONG $0x2259e3c4; WORD $0x01e7 // vpinsrd    xmm4, xmm4, edi, 1
-	LONG $0x2259e3c4; WORD $0x02e6 // vpinsrd    xmm4, xmm4, esi, 2
-	LONG $0x2259e3c4; WORD $0x03e1 // vpinsrd    xmm4, xmm4, ecx, 3
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x2261e3c4; WORD $0x02d8 // vpinsrd    xmm3, xmm3, eax, 2
-	LONG $0x2261e3c4; WORD $0x03d8 // vpinsrd    xmm3, xmm3, eax, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xc05f // vmovdqu    yword [r15 - 64], ymm3
-	LONG $0xf44b8b44               // mov    r9d, dword [rbx - 12]
-	WORD $0x438b; BYTE $0xf0       // mov    eax, dword [rbx - 16]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x0cc2a40f               // shld    edx, eax, 12
-	WORD $0x738b; BYTE $0xe8       // mov    esi, dword [rbx - 24]
-	LONG $0xec538b44               // mov    r10d, dword [rbx - 20]
-	WORD $0xc189                   // mov    ecx, eax
-	LONG $0xd1a40f44; BYTE $0x08   // shld    ecx, r10d, 8
-	WORD $0x8944; BYTE $0xd7       // mov    edi, r10d
-	LONG $0x04f7a40f               // shld    edi, esi, 4
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x2261e3c4; WORD $0x01d8 // vpinsrd    xmm3, xmm3, eax, 1
-	LONG $0x2261e3c4; WORD $0x02da // vpinsrd    xmm3, xmm3, edx, 2
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0xe66ef9c5               // vmovd    xmm4, esi
-	LONG $0x2259e3c4; WORD $0x01e6 // vpinsrd    xmm4, xmm4, esi, 1
-	LONG $0x2259e3c4; WORD $0x02e7 // vpinsrd    xmm4, xmm4, edi, 2
-	LONG $0x2259c3c4; WORD $0x03e2 // vpinsrd    xmm4, xmm4, r10d, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xd8   // vpsrlvd    ymm3, ymm3, ymm0
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; WORD $0xe05f // vmovdqu    yword [r15 - 32], ymm3
-	WORD $0x8b44; BYTE $0x0b       // mov    r9d, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
-	LONG $0x0acaa40f               // shld    edx, ecx, 10
-	WORD $0x438b; BYTE $0xf8       // mov    eax, dword [rbx - 8]
-	LONG $0xd96ef9c5               // vmovd    xmm3, ecx
-	LONG $0x06c1a40f               // shld    ecx, eax, 6
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	WORD $0xc689                   // mov    esi, eax
-	LONG $0x02fea40f               // shld    esi, edi, 2
-	LONG $0xe76ef9c5               // vmovd    xmm4, edi
-	LONG $0x2259e3c4; WORD $0x01e6 // vpinsrd    xmm4, xmm4, esi, 1
-	LONG $0x2259e3c4; WORD $0x02e0 // vpinsrd    xmm4, xmm4, eax, 2
-	LONG $0x2259e3c4; WORD $0x03e1 // vpinsrd    xmm4, xmm4, ecx, 3
-	LONG $0x2261e3c4; WORD $0x01da // vpinsrd    xmm3, xmm3, edx, 1
-	LONG $0x2261c3c4; WORD $0x02d9 // vpinsrd    xmm3, xmm3, r9d, 2
-	LONG $0x2261c3c4; WORD $0x03d9 // vpinsrd    xmm3, xmm3, r9d, 3
-	LONG $0x385de3c4; WORD $0x01db // vinserti128    ymm3, ymm4, xmm3, 1
-	LONG $0x4565e2c4; BYTE $0xda   // vpsrlvd    ymm3, ymm3, ymm2
-	LONG $0xd9dbe5c5               // vpand    ymm3, ymm3, ymm1
-	LONG $0x7f7ec1c4; BYTE $0x1f   // vmovdqu    yword [r15], ymm3
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x38c38348               // add    rbx, 56
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_125
-	JMP  LBB0_147
-
-LBB0_99:
-	WORD $0xfa83; BYTE $0x20       // cmp    edx, 32
-	JL   LBB0_147
-	WORD $0x8945; BYTE $0xf0       // mov    r8d, r14d
-	LONG $0x60c78349               // add    r15, 96
-	LONG $0x597de2c4; WORD $0x0845 // vpbroadcastq    ymm0, qword 8[rbp] /* [rip + .LCPI0_8] */
-	LONG $0x74c38348               // add    rbx, 116
-	QUAD $0x00000b208d6ff9c5       // vmovdqa    xmm1, oword 2848[rbp] /* [rip + .LCPI0_9] */
-	QUAD $0x00000b30956ff9c5       // vmovdqa    xmm2, oword 2864[rbp] /* [rip + .LCPI0_10] */
-	QUAD $0x000001a09d6ffdc5       // vmovdqa    ymm3, yword 416[rbp] /* [rip + .LCPI0_11] */
-
-LBB0_101:
-	LONG $0xa45b8b44               // mov    r11d, dword [rbx - 92]
-	LONG $0xa84b8b44               // mov    r9d, dword [rbx - 88]
-	LONG $0xd9a40f45; BYTE $0x0e   // shld    r9d, r11d, 14
-	WORD $0x738b; BYTE $0xa0       // mov    esi, dword [rbx - 96]
-	LONG $0xf3a40f41; BYTE $0x0c   // shld    r11d, esi, 12
-	WORD $0x7b8b; BYTE $0x9c       // mov    edi, dword [rbx - 100]
-	LONG $0x0afea40f               // shld    esi, edi, 10
-	WORD $0x438b; BYTE $0x98       // mov    eax, dword [rbx - 104]
-	LONG $0x08c7a40f               // shld    edi, eax, 8
-	WORD $0x538b; BYTE $0x94       // mov    edx, dword [rbx - 108]
-	LONG $0x06d0a40f               // shld    eax, edx, 6
-	LONG $0x8c538b44               // mov    r10d, dword [rbx - 116]
-	WORD $0x4b8b; BYTE $0x90       // mov    ecx, dword [rbx - 112]
-	LONG $0x04caa40f               // shld    edx, ecx, 4
-	LONG $0xd1a40f44; BYTE $0x02   // shld    ecx, r10d, 2
-	LONG $0x6e79c1c4; BYTE $0xe2   // vmovd    xmm4, r10d
-	LONG $0xef6ef9c5               // vmovd    xmm5, edi
-	LONG $0x2259e3c4; WORD $0x01e1 // vpinsrd    xmm4, xmm4, ecx, 1
-	LONG $0x2251e3c4; WORD $0x01ee // vpinsrd    xmm5, xmm5, esi, 1
-	LONG $0x2259e3c4; WORD $0x02e2 // vpinsrd    xmm4, xmm4, edx, 2
-	LONG $0x2251c3c4; WORD $0x02eb // vpinsrd    xmm5, xmm5, r11d, 2
-	LONG $0x2259e3c4; WORD $0x03e0 // vpinsrd    xmm4, xmm4, eax, 3
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x385de3c4; WORD $0x01e5 // vinserti128    ymm4, ymm4, xmm5, 1
-	LONG $0xe0dbddc5               // vpand    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xa067 // vmovdqu    yword [r15 - 96], ymm4
-	WORD $0x438b; BYTE $0xc4       // mov    eax, dword [rbx - 60]
-	WORD $0x4b8b; BYTE $0xc0       // mov    ecx, dword [rbx - 64]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x1ccaa40f               // shld    edx, ecx, 28
-	WORD $0x738b; BYTE $0xbc       // mov    esi, dword [rbx - 68]
-	WORD $0x7b8b; BYTE $0xb8       // mov    edi, dword [rbx - 72]
-	LONG $0x1af1a40f               // shld    ecx, esi, 26
-	LONG $0x18fea40f               // shld    esi, edi, 24
-	LONG $0x636ffac5; BYTE $0xa8   // vmovdqu    xmm4, oword [rbx - 88]
-	LONG $0x4559e2c4; BYTE $0xe9   // vpsrlvd    xmm5, xmm4, xmm1
-	LONG $0xe470f9c5; BYTE $0xf9   // vpshufd    xmm4, xmm4, 249
-	LONG $0x2259e3c4; WORD $0x03e7 // vpinsrd    xmm4, xmm4, edi, 3
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x4759e2c4; BYTE $0xe2   // vpsllvd    xmm4, xmm4, xmm2
-	LONG $0x2249e3c4; WORD $0x03f0 // vpinsrd    xmm6, xmm6, eax, 3
-	LONG $0xe4ebd1c5               // vpor    xmm4, xmm5, xmm4
-	LONG $0x385de3c4; WORD $0x01e6 // vinserti128    ymm4, ymm4, xmm6, 1
-	LONG $0x455de2c4; BYTE $0xe3   // vpsrlvd    ymm4, ymm4, ymm3
-	LONG $0xe0dbddc5               // vpand    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc067 // vmovdqu    yword [r15 - 64], ymm4
-	LONG $0xe05b8b44               // mov    r11d, dword [rbx - 32]
-	LONG $0xe44b8b44               // mov    r9d, dword [rbx - 28]
-	LONG $0xd9a40f45; BYTE $0x0e   // shld    r9d, r11d, 14
-	WORD $0x538b; BYTE $0xdc       // mov    edx, dword [rbx - 36]
-	LONG $0xd3a40f41; BYTE $0x0c   // shld    r11d, edx, 12
-	WORD $0x738b; BYTE $0xd8       // mov    esi, dword [rbx - 40]
-	LONG $0x0af2a40f               // shld    edx, esi, 10
-	WORD $0x7b8b; BYTE $0xd4       // mov    edi, dword [rbx - 44]
-	LONG $0x08fea40f               // shld    esi, edi, 8
-	WORD $0x4b8b; BYTE $0xd0       // mov    ecx, dword [rbx - 48]
-	LONG $0x06cfa40f               // shld    edi, ecx, 6
-	LONG $0xc8538b44               // mov    r10d, dword [rbx - 56]
-	WORD $0x438b; BYTE $0xcc       // mov    eax, dword [rbx - 52]
-	LONG $0x04c1a40f               // shld    ecx, eax, 4
-	LONG $0xd0a40f44; BYTE $0x02   // shld    eax, r10d, 2
-	LONG $0x6e79c1c4; BYTE $0xe2   // vmovd    xmm4, r10d
-	LONG $0xee6ef9c5               // vmovd    xmm5, esi
-	LONG $0x2259e3c4; WORD $0x01e0 // vpinsrd    xmm4, xmm4, eax, 1
-	LONG $0x2251e3c4; WORD $0x01ea // vpinsrd    xmm5, xmm5, edx, 1
-	LONG $0x2259e3c4; WORD $0x02e1 // vpinsrd    xmm4, xmm4, ecx, 2
-	LONG $0x2251c3c4; WORD $0x02eb // vpinsrd    xmm5, xmm5, r11d, 2
-	LONG $0x2259e3c4; WORD $0x03e7 // vpinsrd    xmm4, xmm4, edi, 3
-	LONG $0x2251c3c4; WORD $0x03e9 // vpinsrd    xmm5, xmm5, r9d, 3
-	LONG $0x385de3c4; WORD $0x01e5 // vinserti128    ymm4, ymm4, xmm5, 1
-	LONG $0xe0dbddc5               // vpand    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xe067 // vmovdqu    yword [r15 - 32], ymm4
-	WORD $0x038b                   // mov    eax, dword [rbx]
-	WORD $0x4b8b; BYTE $0xfc       // mov    ecx, dword [rbx - 4]
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x1ccaa40f               // shld    edx, ecx, 28
-	WORD $0x738b; BYTE $0xf8       // mov    esi, dword [rbx - 8]
-	LONG $0x1af1a40f               // shld    ecx, esi, 26
-	WORD $0x7b8b; BYTE $0xf4       // mov    edi, dword [rbx - 12]
-	LONG $0x636ffac5; BYTE $0xe4   // vmovdqu    xmm4, oword [rbx - 28]
-	LONG $0x18fea40f               // shld    esi, edi, 24
-	LONG $0x4559e2c4; BYTE $0xe9   // vpsrlvd    xmm5, xmm4, xmm1
-	LONG $0xe470f9c5; BYTE $0xf9   // vpshufd    xmm4, xmm4, 249
-	LONG $0x2259e3c4; WORD $0x03e7 // vpinsrd    xmm4, xmm4, edi, 3
-	LONG $0xf66ef9c5               // vmovd    xmm6, esi
-	LONG $0x2249e3c4; WORD $0x01f1 // vpinsrd    xmm6, xmm6, ecx, 1
-	LONG $0x4759e2c4; BYTE $0xe2   // vpsllvd    xmm4, xmm4, xmm2
-	LONG $0x2249e3c4; WORD $0x02f2 // vpinsrd    xmm6, xmm6, edx, 2
-	LONG $0x2249e3c4; WORD $0x03f0 // vpinsrd    xmm6, xmm6, eax, 3
-	LONG $0xe4ebd1c5               // vpor    xmm4, xmm5, xmm4
-	LONG $0x385de3c4; WORD $0x01e6 // vinserti128    ymm4, ymm4, xmm6, 1
-	LONG $0x455de2c4; BYTE $0xe3   // vpsrlvd    ymm4, ymm4, ymm3
-	LONG $0xe0dbddc5               // vpand    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; BYTE $0x27   // vmovdqu    yword [r15], ymm4
-	LONG $0x80ef8349               // sub    r15, -128
-	LONG $0x78c38348               // add    rbx, 120
-	LONG $0xffc08349               // add    r8, -1
-	JNE  LBB0_101
-
-LBB0_147:
-	LONG $0x05e6c141         // shl    r14d, 5
-	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
-	MOVQ 0(SP), SP
-	VZEROUPPER
-	MOVQ AX, num+32(FP)
-	RET
diff --git a/go/parquet/internal/utils/bit_packing_default.go b/go/parquet/internal/utils/bit_packing_default.go
deleted file mode 100644
index fa814f6375f97..0000000000000
--- a/go/parquet/internal/utils/bit_packing_default.go
+++ /dev/null
@@ -1,1943 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"encoding/binary"
-	"io"
-)
-
-var unpack32 func(io.Reader, []uint32, int) int = unpack32Default
-
-type unpackFunc func(in io.Reader, out []uint32)
-
-func unpack1_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	for idx := range out[:32] {
-		out[idx] = (inl >> idx) & 1
-	}
-}
-
-func unpack2_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 2)
-	out[1] = (inl >> 2) % (1 << 2)
-	out[2] = (inl >> 4) % (1 << 2)
-	out[3] = (inl >> 6) % (1 << 2)
-	out[4] = (inl >> 8) % (1 << 2)
-	out[5] = (inl >> 10) % (1 << 2)
-	out[6] = (inl >> 12) % (1 << 2)
-	out[7] = (inl >> 14) % (1 << 2)
-	out[8] = (inl >> 16) % (1 << 2)
-	out[9] = (inl >> 18) % (1 << 2)
-	out[10] = (inl >> 20) % (1 << 2)
-	out[11] = (inl >> 22) % (1 << 2)
-	out[12] = (inl >> 24) % (1 << 2)
-	out[13] = (inl >> 26) % (1 << 2)
-	out[14] = (inl >> 28) % (1 << 2)
-	out[15] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 2)
-	out[17] = (inl >> 2) % (1 << 2)
-	out[18] = (inl >> 4) % (1 << 2)
-	out[19] = (inl >> 6) % (1 << 2)
-	out[20] = (inl >> 8) % (1 << 2)
-	out[21] = (inl >> 10) % (1 << 2)
-	out[22] = (inl >> 12) % (1 << 2)
-	out[23] = (inl >> 14) % (1 << 2)
-	out[24] = (inl >> 16) % (1 << 2)
-	out[25] = (inl >> 18) % (1 << 2)
-	out[26] = (inl >> 20) % (1 << 2)
-	out[27] = (inl >> 22) % (1 << 2)
-	out[28] = (inl >> 24) % (1 << 2)
-	out[29] = (inl >> 26) % (1 << 2)
-	out[30] = (inl >> 28) % (1 << 2)
-	out[31] = (inl >> 30)
-}
-
-func unpack3_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 3)
-	out[1] = (inl >> 3) % (1 << 3)
-	out[2] = (inl >> 6) % (1 << 3)
-	out[3] = (inl >> 9) % (1 << 3)
-	out[4] = (inl >> 12) % (1 << 3)
-	out[5] = (inl >> 15) % (1 << 3)
-	out[6] = (inl >> 18) % (1 << 3)
-	out[7] = (inl >> 21) % (1 << 3)
-	out[8] = (inl >> 24) % (1 << 3)
-	out[9] = (inl >> 27) % (1 << 3)
-	out[10] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 1)) << (3 - 1)
-	out[11] = (inl >> 1) % (1 << 3)
-	out[12] = (inl >> 4) % (1 << 3)
-	out[13] = (inl >> 7) % (1 << 3)
-	out[14] = (inl >> 10) % (1 << 3)
-	out[15] = (inl >> 13) % (1 << 3)
-	out[16] = (inl >> 16) % (1 << 3)
-	out[17] = (inl >> 19) % (1 << 3)
-	out[18] = (inl >> 22) % (1 << 3)
-	out[19] = (inl >> 25) % (1 << 3)
-	out[20] = (inl >> 28) % (1 << 3)
-	out[21] = (inl >> 31) % (1 << 3)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 2)) << (3 - 2)
-	out[22] = (inl >> 2) % (1 << 3)
-	out[23] = (inl >> 5) % (1 << 3)
-	out[24] = (inl >> 8) % (1 << 3)
-	out[25] = (inl >> 11) % (1 << 3)
-	out[26] = (inl >> 14) % (1 << 3)
-	out[27] = (inl >> 17) % (1 << 3)
-	out[28] = (inl >> 20) % (1 << 3)
-	out[29] = (inl >> 23) % (1 << 3)
-	out[30] = (inl >> 26) % (1 << 3)
-	out[31] = (inl >> 29)
-}
-
-func unpack4_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 28; i += 4 {
-		out[i/4] = (inl >> i) % (1 << 4)
-	}
-	out[7] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 28; i += 4 {
-		out[8+i/4] = (inl >> i) % (1 << 4)
-	}
-	out[15] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 28; i += 4 {
-		out[16+i/4] = (inl >> i) % (1 << 4)
-	}
-	out[23] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 28; i += 4 {
-		out[24+i/4] = (inl >> i) % (1 << 4)
-	}
-	out[31] = (inl >> 28)
-}
-
-func unpack5_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 5)
-	out[1] = (inl >> 5) % (1 << 5)
-	out[2] = (inl >> 10) % (1 << 5)
-	out[3] = (inl >> 15) % (1 << 5)
-	out[4] = (inl >> 20) % (1 << 5)
-	out[5] = (inl >> 25) % (1 << 5)
-	out[6] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 3)) << (5 - 3)
-	out[7] = (inl >> 3) % (1 << 5)
-	out[8] = (inl >> 8) % (1 << 5)
-	out[9] = (inl >> 13) % (1 << 5)
-	out[10] = (inl >> 18) % (1 << 5)
-	out[11] = (inl >> 23) % (1 << 5)
-	out[12] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 1)) << (5 - 1)
-	out[13] = (inl >> 1) % (1 << 5)
-	out[14] = (inl >> 6) % (1 << 5)
-	out[15] = (inl >> 11) % (1 << 5)
-	out[16] = (inl >> 16) % (1 << 5)
-	out[17] = (inl >> 21) % (1 << 5)
-	out[18] = (inl >> 26) % (1 << 5)
-	out[19] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 4)) << (5 - 4)
-	out[20] = (inl >> 4) % (1 << 5)
-	out[21] = (inl >> 9) % (1 << 5)
-	out[22] = (inl >> 14) % (1 << 5)
-	out[23] = (inl >> 19) % (1 << 5)
-	out[24] = (inl >> 24) % (1 << 5)
-	out[25] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 2)) << (5 - 2)
-	out[26] = (inl >> 2) % (1 << 5)
-	out[27] = (inl >> 7) % (1 << 5)
-	out[28] = (inl >> 12) % (1 << 5)
-	out[29] = (inl >> 17) % (1 << 5)
-	out[30] = (inl >> 22) % (1 << 5)
-	out[31] = (inl >> 27)
-}
-
-func unpack6_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 6)
-	out[1] = (inl >> 6) % (1 << 6)
-	out[2] = (inl >> 12) % (1 << 6)
-	out[3] = (inl >> 18) % (1 << 6)
-	out[4] = (inl >> 24) % (1 << 6)
-	out[5] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 4)) << (6 - 4)
-	out[6] = (inl >> 4) % (1 << 6)
-	out[7] = (inl >> 10) % (1 << 6)
-	out[8] = (inl >> 16) % (1 << 6)
-	out[9] = (inl >> 22) % (1 << 6)
-	out[10] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 2)) << (6 - 2)
-	out[11] = (inl >> 2) % (1 << 6)
-	out[12] = (inl >> 8) % (1 << 6)
-	out[13] = (inl >> 14) % (1 << 6)
-	out[14] = (inl >> 20) % (1 << 6)
-	out[15] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 6)
-	out[17] = (inl >> 6) % (1 << 6)
-	out[18] = (inl >> 12) % (1 << 6)
-	out[19] = (inl >> 18) % (1 << 6)
-	out[20] = (inl >> 24) % (1 << 6)
-	out[21] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 4)) << (6 - 4)
-	out[22] = (inl >> 4) % (1 << 6)
-	out[23] = (inl >> 10) % (1 << 6)
-	out[24] = (inl >> 16) % (1 << 6)
-	out[25] = (inl >> 22) % (1 << 6)
-	out[26] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 2)) << (6 - 2)
-	out[27] = (inl >> 2) % (1 << 6)
-	out[28] = (inl >> 8) % (1 << 6)
-	out[29] = (inl >> 14) % (1 << 6)
-	out[30] = (inl >> 20) % (1 << 6)
-	out[31] = (inl >> 26)
-}
-
-func unpack7_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 7)
-	out[1] = (inl >> 7) % (1 << 7)
-	out[2] = (inl >> 14) % (1 << 7)
-	out[3] = (inl >> 21) % (1 << 7)
-	out[4] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 3)) << (7 - 3)
-	out[5] = (inl >> 3) % (1 << 7)
-	out[6] = (inl >> 10) % (1 << 7)
-	out[7] = (inl >> 17) % (1 << 7)
-	out[8] = (inl >> 24) % (1 << 7)
-	out[9] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 6)) << (7 - 6)
-	out[10] = (inl >> 6) % (1 << 7)
-	out[11] = (inl >> 13) % (1 << 7)
-	out[12] = (inl >> 20) % (1 << 7)
-	out[13] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 2)) << (7 - 2)
-	out[14] = (inl >> 2) % (1 << 7)
-	out[15] = (inl >> 9) % (1 << 7)
-	out[16] = (inl >> 16) % (1 << 7)
-	out[17] = (inl >> 23) % (1 << 7)
-	out[18] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 5)) << (7 - 5)
-	out[19] = (inl >> 5) % (1 << 7)
-	out[20] = (inl >> 12) % (1 << 7)
-	out[21] = (inl >> 19) % (1 << 7)
-	out[22] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 1)) << (7 - 1)
-	out[23] = (inl >> 1) % (1 << 7)
-	out[24] = (inl >> 8) % (1 << 7)
-	out[25] = (inl >> 15) % (1 << 7)
-	out[26] = (inl >> 22) % (1 << 7)
-	out[27] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 4)) << (7 - 4)
-	out[28] = (inl >> 4) % (1 << 7)
-	out[29] = (inl >> 11) % (1 << 7)
-	out[30] = (inl >> 18) % (1 << 7)
-	out[31] = (inl >> 25)
-}
-
-func unpack8_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[0+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[3] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[4+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[7] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[8+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[11] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[12+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[15] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[16+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[19] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[20+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[23] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[24+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[27] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	for i := 0; i < 24; i += 8 {
-		out[28+i/8] = (inl >> i) % (1 << 8)
-	}
-	out[31] = (inl >> 24)
-}
-
-func unpack9_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 9)
-	out[1] = (inl >> 9) % (1 << 9)
-	out[2] = (inl >> 18) % (1 << 9)
-	out[3] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 4)) << (9 - 4)
-	out[4] = (inl >> 4) % (1 << 9)
-	out[5] = (inl >> 13) % (1 << 9)
-	out[6] = (inl >> 22) % (1 << 9)
-	out[7] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 8)) << (9 - 8)
-	out[8] = (inl >> 8) % (1 << 9)
-	out[9] = (inl >> 17) % (1 << 9)
-	out[10] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 3)) << (9 - 3)
-	out[11] = (inl >> 3) % (1 << 9)
-	out[12] = (inl >> 12) % (1 << 9)
-	out[13] = (inl >> 21) % (1 << 9)
-	out[14] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 7)) << (9 - 7)
-	out[15] = (inl >> 7) % (1 << 9)
-	out[16] = (inl >> 16) % (1 << 9)
-	out[17] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 2)) << (9 - 2)
-	out[18] = (inl >> 2) % (1 << 9)
-	out[19] = (inl >> 11) % (1 << 9)
-	out[20] = (inl >> 20) % (1 << 9)
-	out[21] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 6)) << (9 - 6)
-	out[22] = (inl >> 6) % (1 << 9)
-	out[23] = (inl >> 15) % (1 << 9)
-	out[24] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 1)) << (9 - 1)
-	out[25] = (inl >> 1) % (1 << 9)
-	out[26] = (inl >> 10) % (1 << 9)
-	out[27] = (inl >> 19) % (1 << 9)
-	out[28] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 5)) << (9 - 5)
-	out[29] = (inl >> 5) % (1 << 9)
-	out[30] = (inl >> 14) % (1 << 9)
-	out[31] = (inl >> 23)
-}
-
-func unpack10_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 10)
-	out[1] = (inl >> 10) % (1 << 10)
-	out[2] = (inl >> 20) % (1 << 10)
-	out[3] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 8)) << (10 - 8)
-	out[4] = (inl >> 8) % (1 << 10)
-	out[5] = (inl >> 18) % (1 << 10)
-	out[6] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 6)) << (10 - 6)
-	out[7] = (inl >> 6) % (1 << 10)
-	out[8] = (inl >> 16) % (1 << 10)
-	out[9] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 4)) << (10 - 4)
-	out[10] = (inl >> 4) % (1 << 10)
-	out[11] = (inl >> 14) % (1 << 10)
-	out[12] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 2)) << (10 - 2)
-	out[13] = (inl >> 2) % (1 << 10)
-	out[14] = (inl >> 12) % (1 << 10)
-	out[15] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 10)
-	out[17] = (inl >> 10) % (1 << 10)
-	out[18] = (inl >> 20) % (1 << 10)
-	out[19] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 8)) << (10 - 8)
-	out[20] = (inl >> 8) % (1 << 10)
-	out[21] = (inl >> 18) % (1 << 10)
-	out[22] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 6)) << (10 - 6)
-	out[23] = (inl >> 6) % (1 << 10)
-	out[24] = (inl >> 16) % (1 << 10)
-	out[25] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 4)) << (10 - 4)
-	out[26] = (inl >> 4) % (1 << 10)
-	out[27] = (inl >> 14) % (1 << 10)
-	out[28] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 2)) << (10 - 2)
-	out[29] = (inl >> 2) % (1 << 10)
-	out[30] = (inl >> 12) % (1 << 10)
-	out[31] = (inl >> 22)
-}
-
-func unpack11_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 11)
-	out[1] = (inl >> 11) % (1 << 11)
-	out[2] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 1)) << (11 - 1)
-	out[3] = (inl >> 1) % (1 << 11)
-	out[4] = (inl >> 12) % (1 << 11)
-	out[5] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 2)) << (11 - 2)
-	out[6] = (inl >> 2) % (1 << 11)
-	out[7] = (inl >> 13) % (1 << 11)
-	out[8] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 3)) << (11 - 3)
-	out[9] = (inl >> 3) % (1 << 11)
-	out[10] = (inl >> 14) % (1 << 11)
-	out[11] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 4)) << (11 - 4)
-	out[12] = (inl >> 4) % (1 << 11)
-	out[13] = (inl >> 15) % (1 << 11)
-	out[14] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 5)) << (11 - 5)
-	out[15] = (inl >> 5) % (1 << 11)
-	out[16] = (inl >> 16) % (1 << 11)
-	out[17] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 6)) << (11 - 6)
-	out[18] = (inl >> 6) % (1 << 11)
-	out[19] = (inl >> 17) % (1 << 11)
-	out[20] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 7)) << (11 - 7)
-	out[21] = (inl >> 7) % (1 << 11)
-	out[22] = (inl >> 18) % (1 << 11)
-	out[23] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 8)) << (11 - 8)
-	out[24] = (inl >> 8) % (1 << 11)
-	out[25] = (inl >> 19) % (1 << 11)
-	out[26] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 9)) << (11 - 9)
-	out[27] = (inl >> 9) % (1 << 11)
-	out[28] = (inl >> 20) % (1 << 11)
-	out[29] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 10)) << (11 - 10)
-	out[30] = (inl >> 10) % (1 << 11)
-	out[31] = (inl >> 21)
-}
-
-func unpack12_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 12)
-	out[1] = (inl >> 12) % (1 << 12)
-	out[2] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 4)) << (12 - 4)
-	out[3] = (inl >> 4) % (1 << 12)
-	out[4] = (inl >> 16) % (1 << 12)
-	out[5] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 8)) << (12 - 8)
-	out[6] = (inl >> 8) % (1 << 12)
-	out[7] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] = (inl >> 0) % (1 << 12)
-	out[9] = (inl >> 12) % (1 << 12)
-	out[10] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 4)) << (12 - 4)
-	out[11] = (inl >> 4) % (1 << 12)
-	out[12] = (inl >> 16) % (1 << 12)
-	out[13] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 8)) << (12 - 8)
-	out[14] = (inl >> 8) % (1 << 12)
-	out[15] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 12)
-	out[17] = (inl >> 12) % (1 << 12)
-	out[18] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 4)) << (12 - 4)
-	out[19] = (inl >> 4) % (1 << 12)
-	out[20] = (inl >> 16) % (1 << 12)
-	out[21] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 8)) << (12 - 8)
-	out[22] = (inl >> 8) % (1 << 12)
-	out[23] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] = (inl >> 0) % (1 << 12)
-	out[25] = (inl >> 12) % (1 << 12)
-	out[26] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 4)) << (12 - 4)
-	out[27] = (inl >> 4) % (1 << 12)
-	out[28] = (inl >> 16) % (1 << 12)
-	out[29] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 8)) << (12 - 8)
-	out[30] = (inl >> 8) % (1 << 12)
-	out[31] = (inl >> 20)
-}
-
-func unpack13_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 13)
-	out[1] = (inl >> 13) % (1 << 13)
-	out[2] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 7)) << (13 - 7)
-	out[3] = (inl >> 7) % (1 << 13)
-	out[4] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 1)) << (13 - 1)
-	out[5] = (inl >> 1) % (1 << 13)
-	out[6] = (inl >> 14) % (1 << 13)
-	out[7] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 8)) << (13 - 8)
-	out[8] = (inl >> 8) % (1 << 13)
-	out[9] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 2)) << (13 - 2)
-	out[10] = (inl >> 2) % (1 << 13)
-	out[11] = (inl >> 15) % (1 << 13)
-	out[12] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 9)) << (13 - 9)
-	out[13] = (inl >> 9) % (1 << 13)
-	out[14] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 3)) << (13 - 3)
-	out[15] = (inl >> 3) % (1 << 13)
-	out[16] = (inl >> 16) % (1 << 13)
-	out[17] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 10)) << (13 - 10)
-	out[18] = (inl >> 10) % (1 << 13)
-	out[19] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 4)) << (13 - 4)
-	out[20] = (inl >> 4) % (1 << 13)
-	out[21] = (inl >> 17) % (1 << 13)
-	out[22] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 11)) << (13 - 11)
-	out[23] = (inl >> 11) % (1 << 13)
-	out[24] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 5)) << (13 - 5)
-	out[25] = (inl >> 5) % (1 << 13)
-	out[26] = (inl >> 18) % (1 << 13)
-	out[27] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 12)) << (13 - 12)
-	out[28] = (inl >> 12) % (1 << 13)
-	out[29] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 6)) << (13 - 6)
-	out[30] = (inl >> 6) % (1 << 13)
-	out[31] = (inl >> 19)
-}
-
-func unpack14_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 14)
-	out[1] = (inl >> 14) % (1 << 14)
-	out[2] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 10)) << (14 - 10)
-	out[3] = (inl >> 10) % (1 << 14)
-	out[4] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 6)) << (14 - 6)
-	out[5] = (inl >> 6) % (1 << 14)
-	out[6] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 2)) << (14 - 2)
-	out[7] = (inl >> 2) % (1 << 14)
-	out[8] = (inl >> 16) % (1 << 14)
-	out[9] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 12)) << (14 - 12)
-	out[10] = (inl >> 12) % (1 << 14)
-	out[11] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 8)) << (14 - 8)
-	out[12] = (inl >> 8) % (1 << 14)
-	out[13] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 4)) << (14 - 4)
-	out[14] = (inl >> 4) % (1 << 14)
-	out[15] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 14)
-	out[17] = (inl >> 14) % (1 << 14)
-	out[18] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 10)) << (14 - 10)
-	out[19] = (inl >> 10) % (1 << 14)
-	out[20] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 6)) << (14 - 6)
-	out[21] = (inl >> 6) % (1 << 14)
-	out[22] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 2)) << (14 - 2)
-	out[23] = (inl >> 2) % (1 << 14)
-	out[24] = (inl >> 16) % (1 << 14)
-	out[25] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 12)) << (14 - 12)
-	out[26] = (inl >> 12) % (1 << 14)
-	out[27] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 8)) << (14 - 8)
-	out[28] = (inl >> 8) % (1 << 14)
-	out[29] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 4)) << (14 - 4)
-	out[30] = (inl >> 4) % (1 << 14)
-	out[31] = (inl >> 18)
-}
-
-func unpack15_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 15)
-	out[1] = (inl >> 15) % (1 << 15)
-	out[2] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 13)) << (15 - 13)
-	out[3] = (inl >> 13) % (1 << 15)
-	out[4] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 11)) << (15 - 11)
-	out[5] = (inl >> 11) % (1 << 15)
-	out[6] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 9)) << (15 - 9)
-	out[7] = (inl >> 9) % (1 << 15)
-	out[8] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 7)) << (15 - 7)
-	out[9] = (inl >> 7) % (1 << 15)
-	out[10] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 5)) << (15 - 5)
-	out[11] = (inl >> 5) % (1 << 15)
-	out[12] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 3)) << (15 - 3)
-	out[13] = (inl >> 3) % (1 << 15)
-	out[14] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 1)) << (15 - 1)
-	out[15] = (inl >> 1) % (1 << 15)
-	out[16] = (inl >> 16) % (1 << 15)
-	out[17] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 14)) << (15 - 14)
-	out[18] = (inl >> 14) % (1 << 15)
-	out[19] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 12)) << (15 - 12)
-	out[20] = (inl >> 12) % (1 << 15)
-	out[21] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 10)) << (15 - 10)
-	out[22] = (inl >> 10) % (1 << 15)
-	out[23] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 8)) << (15 - 8)
-	out[24] = (inl >> 8) % (1 << 15)
-	out[25] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 6)) << (15 - 6)
-	out[26] = (inl >> 6) % (1 << 15)
-	out[27] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 4)) << (15 - 4)
-	out[28] = (inl >> 4) % (1 << 15)
-	out[29] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 2)) << (15 - 2)
-	out[30] = (inl >> 2) % (1 << 15)
-	out[31] = (inl >> 17)
-}
-
-func unpack16_32(in io.Reader, out []uint32) {
-	var inl uint32
-	for i := 0; i < 16; i++ {
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[i*2] = (inl >> 0) % (1 << 16)
-		out[(i*2)+1] = (inl >> 16)
-	}
-}
-
-func unpack17_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 17)
-	out[1] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 2)) << (17 - 2)
-	out[2] = (inl >> 2) % (1 << 17)
-	out[3] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 4)) << (17 - 4)
-	out[4] = (inl >> 4) % (1 << 17)
-	out[5] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 6)) << (17 - 6)
-	out[6] = (inl >> 6) % (1 << 17)
-	out[7] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 8)) << (17 - 8)
-	out[8] = (inl >> 8) % (1 << 17)
-	out[9] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 10)) << (17 - 10)
-	out[10] = (inl >> 10) % (1 << 17)
-	out[11] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 12)) << (17 - 12)
-	out[12] = (inl >> 12) % (1 << 17)
-	out[13] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 14)) << (17 - 14)
-	out[14] = (inl >> 14) % (1 << 17)
-	out[15] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (17 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 1)) << (17 - 1)
-	out[17] = (inl >> 1) % (1 << 17)
-	out[18] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 3)) << (17 - 3)
-	out[19] = (inl >> 3) % (1 << 17)
-	out[20] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 5)) << (17 - 5)
-	out[21] = (inl >> 5) % (1 << 17)
-	out[22] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 7)) << (17 - 7)
-	out[23] = (inl >> 7) % (1 << 17)
-	out[24] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 9)) << (17 - 9)
-	out[25] = (inl >> 9) % (1 << 17)
-	out[26] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 11)) << (17 - 11)
-	out[27] = (inl >> 11) % (1 << 17)
-	out[28] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 13)) << (17 - 13)
-	out[29] = (inl >> 13) % (1 << 17)
-	out[30] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 15)) << (17 - 15)
-	out[31] = (inl >> 15)
-}
-
-func unpack18_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 18)
-	out[1] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 4)) << (18 - 4)
-	out[2] = (inl >> 4) % (1 << 18)
-	out[3] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 8)) << (18 - 8)
-	out[4] = (inl >> 8) % (1 << 18)
-	out[5] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 12)) << (18 - 12)
-	out[6] = (inl >> 12) % (1 << 18)
-	out[7] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 16)) << (18 - 16)
-	out[8] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 2)) << (18 - 2)
-	out[9] = (inl >> 2) % (1 << 18)
-	out[10] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 6)) << (18 - 6)
-	out[11] = (inl >> 6) % (1 << 18)
-	out[12] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 10)) << (18 - 10)
-	out[13] = (inl >> 10) % (1 << 18)
-	out[14] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 14)) << (18 - 14)
-	out[15] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 18)
-	out[17] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 4)) << (18 - 4)
-	out[18] = (inl >> 4) % (1 << 18)
-	out[19] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 8)) << (18 - 8)
-	out[20] = (inl >> 8) % (1 << 18)
-	out[21] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 12)) << (18 - 12)
-	out[22] = (inl >> 12) % (1 << 18)
-	out[23] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 16)) << (18 - 16)
-	out[24] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 2)) << (18 - 2)
-	out[25] = (inl >> 2) % (1 << 18)
-	out[26] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 6)) << (18 - 6)
-	out[27] = (inl >> 6) % (1 << 18)
-	out[28] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 10)) << (18 - 10)
-	out[29] = (inl >> 10) % (1 << 18)
-	out[30] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 14)) << (18 - 14)
-	out[31] = (inl >> 14)
-}
-
-func unpack19_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 19)
-	out[1] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 6)) << (19 - 6)
-	out[2] = (inl >> 6) % (1 << 19)
-	out[3] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 12)) << (19 - 12)
-	out[4] = (inl >> 12) % (1 << 19)
-	out[5] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 18)) << (19 - 18)
-	out[6] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 5)) << (19 - 5)
-	out[7] = (inl >> 5) % (1 << 19)
-	out[8] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 11)) << (19 - 11)
-	out[9] = (inl >> 11) % (1 << 19)
-	out[10] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 17)) << (19 - 17)
-	out[11] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 4)) << (19 - 4)
-	out[12] = (inl >> 4) % (1 << 19)
-	out[13] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 10)) << (19 - 10)
-	out[14] = (inl >> 10) % (1 << 19)
-	out[15] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (19 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 3)) << (19 - 3)
-	out[17] = (inl >> 3) % (1 << 19)
-	out[18] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 9)) << (19 - 9)
-	out[19] = (inl >> 9) % (1 << 19)
-	out[20] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 15)) << (19 - 15)
-	out[21] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 2)) << (19 - 2)
-	out[22] = (inl >> 2) % (1 << 19)
-	out[23] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 8)) << (19 - 8)
-	out[24] = (inl >> 8) % (1 << 19)
-	out[25] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 14)) << (19 - 14)
-	out[26] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 1)) << (19 - 1)
-	out[27] = (inl >> 1) % (1 << 19)
-	out[28] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 7)) << (19 - 7)
-	out[29] = (inl >> 7) % (1 << 19)
-	out[30] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 13)) << (19 - 13)
-	out[31] = (inl >> 13)
-}
-
-func unpack20_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 20)
-	out[1] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 8)) << (20 - 8)
-	out[2] = (inl >> 8) % (1 << 20)
-	out[3] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 16)) << (20 - 16)
-	out[4] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 4)) << (20 - 4)
-	out[5] = (inl >> 4) % (1 << 20)
-	out[6] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 12)) << (20 - 12)
-	out[7] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] = (inl >> 0) % (1 << 20)
-	out[9] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 8)) << (20 - 8)
-	out[10] = (inl >> 8) % (1 << 20)
-	out[11] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 16)) << (20 - 16)
-	out[12] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 4)) << (20 - 4)
-	out[13] = (inl >> 4) % (1 << 20)
-	out[14] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 12)) << (20 - 12)
-	out[15] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 20)
-	out[17] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 8)) << (20 - 8)
-	out[18] = (inl >> 8) % (1 << 20)
-	out[19] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 16)) << (20 - 16)
-	out[20] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 4)) << (20 - 4)
-	out[21] = (inl >> 4) % (1 << 20)
-	out[22] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 12)) << (20 - 12)
-	out[23] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] = (inl >> 0) % (1 << 20)
-	out[25] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 8)) << (20 - 8)
-	out[26] = (inl >> 8) % (1 << 20)
-	out[27] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 16)) << (20 - 16)
-	out[28] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 4)) << (20 - 4)
-	out[29] = (inl >> 4) % (1 << 20)
-	out[30] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 12)) << (20 - 12)
-	out[31] = (inl >> 12)
-}
-
-func unpack21_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 21)
-	out[1] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 10)) << (21 - 10)
-	out[2] = (inl >> 10) % (1 << 21)
-	out[3] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 20)) << (21 - 20)
-	out[4] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 9)) << (21 - 9)
-	out[5] = (inl >> 9) % (1 << 21)
-	out[6] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 19)) << (21 - 19)
-	out[7] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 8)) << (21 - 8)
-	out[8] = (inl >> 8) % (1 << 21)
-	out[9] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 18)) << (21 - 18)
-	out[10] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 7)) << (21 - 7)
-	out[11] = (inl >> 7) % (1 << 21)
-	out[12] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 17)) << (21 - 17)
-	out[13] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 6)) << (21 - 6)
-	out[14] = (inl >> 6) % (1 << 21)
-	out[15] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (21 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 5)) << (21 - 5)
-	out[17] = (inl >> 5) % (1 << 21)
-	out[18] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 15)) << (21 - 15)
-	out[19] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 4)) << (21 - 4)
-	out[20] = (inl >> 4) % (1 << 21)
-	out[21] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 14)) << (21 - 14)
-	out[22] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 3)) << (21 - 3)
-	out[23] = (inl >> 3) % (1 << 21)
-	out[24] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 13)) << (21 - 13)
-	out[25] = (inl >> 13)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 2)) << (21 - 2)
-	out[26] = (inl >> 2) % (1 << 21)
-	out[27] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 12)) << (21 - 12)
-	out[28] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 1)) << (21 - 1)
-	out[29] = (inl >> 1) % (1 << 21)
-	out[30] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 11)) << (21 - 11)
-	out[31] = (inl >> 11)
-}
-
-func unpack22_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 22)
-	out[1] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 12)) << (22 - 12)
-	out[2] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 2)) << (22 - 2)
-	out[3] = (inl >> 2) % (1 << 22)
-	out[4] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 14)) << (22 - 14)
-	out[5] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 4)) << (22 - 4)
-	out[6] = (inl >> 4) % (1 << 22)
-	out[7] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 16)) << (22 - 16)
-	out[8] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 6)) << (22 - 6)
-	out[9] = (inl >> 6) % (1 << 22)
-	out[10] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 18)) << (22 - 18)
-	out[11] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 8)) << (22 - 8)
-	out[12] = (inl >> 8) % (1 << 22)
-	out[13] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 20)) << (22 - 20)
-	out[14] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 10)) << (22 - 10)
-	out[15] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 22)
-	out[17] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 12)) << (22 - 12)
-	out[18] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 2)) << (22 - 2)
-	out[19] = (inl >> 2) % (1 << 22)
-	out[20] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 14)) << (22 - 14)
-	out[21] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 4)) << (22 - 4)
-	out[22] = (inl >> 4) % (1 << 22)
-	out[23] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 16)) << (22 - 16)
-	out[24] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 6)) << (22 - 6)
-	out[25] = (inl >> 6) % (1 << 22)
-	out[26] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 18)) << (22 - 18)
-	out[27] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 8)) << (22 - 8)
-	out[28] = (inl >> 8) % (1 << 22)
-	out[29] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 20)) << (22 - 20)
-	out[30] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 10)) << (22 - 10)
-	out[31] = (inl >> 10)
-}
-
-func unpack23_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 23)
-	out[1] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 14)) << (23 - 14)
-	out[2] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 5)) << (23 - 5)
-	out[3] = (inl >> 5) % (1 << 23)
-	out[4] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 19)) << (23 - 19)
-	out[5] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 10)) << (23 - 10)
-	out[6] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 1)) << (23 - 1)
-	out[7] = (inl >> 1) % (1 << 23)
-	out[8] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 15)) << (23 - 15)
-	out[9] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 6)) << (23 - 6)
-	out[10] = (inl >> 6) % (1 << 23)
-	out[11] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 20)) << (23 - 20)
-	out[12] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 11)) << (23 - 11)
-	out[13] = (inl >> 11)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 2)) << (23 - 2)
-	out[14] = (inl >> 2) % (1 << 23)
-	out[15] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (23 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 7)) << (23 - 7)
-	out[17] = (inl >> 7) % (1 << 23)
-	out[18] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 21)) << (23 - 21)
-	out[19] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 12)) << (23 - 12)
-	out[20] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 3)) << (23 - 3)
-	out[21] = (inl >> 3) % (1 << 23)
-	out[22] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 17)) << (23 - 17)
-	out[23] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 8)) << (23 - 8)
-	out[24] = (inl >> 8) % (1 << 23)
-	out[25] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 22)) << (23 - 22)
-	out[26] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 13)) << (23 - 13)
-	out[27] = (inl >> 13)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 4)) << (23 - 4)
-	out[28] = (inl >> 4) % (1 << 23)
-	out[29] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 18)) << (23 - 18)
-	out[30] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 9)) << (23 - 9)
-	out[31] = (inl >> 9)
-}
-
-func unpack24_32(in io.Reader, out []uint32) {
-	var inl uint32
-	for i := 0; i < 8; i++ {
-		base := i * 4
-
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base] = (inl >> 0) % (1 << 24)
-		out[base+1] = (inl >> 24)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+1] |= (inl % (1 << 16)) << (24 - 16)
-		out[base+2] = (inl >> 16)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+2] |= (inl % (1 << 8)) << (24 - 8)
-		out[base+3] = (inl >> 8)
-	}
-}
-
-func unpack25_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 25)
-	out[1] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 18)) << (25 - 18)
-	out[2] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 11)) << (25 - 11)
-	out[3] = (inl >> 11)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 4)) << (25 - 4)
-	out[4] = (inl >> 4) % (1 << 25)
-	out[5] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 22)) << (25 - 22)
-	out[6] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 15)) << (25 - 15)
-	out[7] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 8)) << (25 - 8)
-	out[8] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 1)) << (25 - 1)
-	out[9] = (inl >> 1) % (1 << 25)
-	out[10] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 19)) << (25 - 19)
-	out[11] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 12)) << (25 - 12)
-	out[12] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 5)) << (25 - 5)
-	out[13] = (inl >> 5) % (1 << 25)
-	out[14] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 23)) << (25 - 23)
-	out[15] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (25 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 9)) << (25 - 9)
-	out[17] = (inl >> 9)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 2)) << (25 - 2)
-	out[18] = (inl >> 2) % (1 << 25)
-	out[19] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 20)) << (25 - 20)
-	out[20] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 13)) << (25 - 13)
-	out[21] = (inl >> 13)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 6)) << (25 - 6)
-	out[22] = (inl >> 6) % (1 << 25)
-	out[23] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 24)) << (25 - 24)
-	out[24] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 17)) << (25 - 17)
-	out[25] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 10)) << (25 - 10)
-	out[26] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 3)) << (25 - 3)
-	out[27] = (inl >> 3) % (1 << 25)
-	out[28] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 21)) << (25 - 21)
-	out[29] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 14)) << (25 - 14)
-	out[30] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 7)) << (25 - 7)
-	out[31] = (inl >> 7)
-}
-
-func unpack26_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 26)
-	out[1] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 20)) << (26 - 20)
-	out[2] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 14)) << (26 - 14)
-	out[3] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 8)) << (26 - 8)
-	out[4] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 2)) << (26 - 2)
-	out[5] = (inl >> 2) % (1 << 26)
-	out[6] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 22)) << (26 - 22)
-	out[7] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 16)) << (26 - 16)
-	out[8] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 10)) << (26 - 10)
-	out[9] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 4)) << (26 - 4)
-	out[10] = (inl >> 4) % (1 << 26)
-	out[11] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 24)) << (26 - 24)
-	out[12] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 18)) << (26 - 18)
-	out[13] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 12)) << (26 - 12)
-	out[14] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 6)) << (26 - 6)
-	out[15] = (inl >> 6)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 26)
-	out[17] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 20)) << (26 - 20)
-	out[18] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 14)) << (26 - 14)
-	out[19] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 8)) << (26 - 8)
-	out[20] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 2)) << (26 - 2)
-	out[21] = (inl >> 2) % (1 << 26)
-	out[22] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 22)) << (26 - 22)
-	out[23] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 16)) << (26 - 16)
-	out[24] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 10)) << (26 - 10)
-	out[25] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 4)) << (26 - 4)
-	out[26] = (inl >> 4) % (1 << 26)
-	out[27] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 24)) << (26 - 24)
-	out[28] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 18)) << (26 - 18)
-	out[29] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 12)) << (26 - 12)
-	out[30] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 6)) << (26 - 6)
-	out[31] = (inl >> 6)
-}
-
-func unpack27_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 27)
-	out[1] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 22)) << (27 - 22)
-	out[2] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 17)) << (27 - 17)
-	out[3] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 12)) << (27 - 12)
-	out[4] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 7)) << (27 - 7)
-	out[5] = (inl >> 7)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 2)) << (27 - 2)
-	out[6] = (inl >> 2) % (1 << 27)
-	out[7] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 24)) << (27 - 24)
-	out[8] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 19)) << (27 - 19)
-	out[9] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 14)) << (27 - 14)
-	out[10] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 9)) << (27 - 9)
-	out[11] = (inl >> 9)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 4)) << (27 - 4)
-	out[12] = (inl >> 4) % (1 << 27)
-	out[13] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 26)) << (27 - 26)
-	out[14] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 21)) << (27 - 21)
-	out[15] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (27 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 11)) << (27 - 11)
-	out[17] = (inl >> 11)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 6)) << (27 - 6)
-	out[18] = (inl >> 6)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 1)) << (27 - 1)
-	out[19] = (inl >> 1) % (1 << 27)
-	out[20] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 23)) << (27 - 23)
-	out[21] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 18)) << (27 - 18)
-	out[22] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 13)) << (27 - 13)
-	out[23] = (inl >> 13)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 8)) << (27 - 8)
-	out[24] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 3)) << (27 - 3)
-	out[25] = (inl >> 3) % (1 << 27)
-	out[26] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 25)) << (27 - 25)
-	out[27] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 20)) << (27 - 20)
-	out[28] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 15)) << (27 - 15)
-	out[29] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 10)) << (27 - 10)
-	out[30] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 5)) << (27 - 5)
-	out[31] = (inl >> 5)
-}
-
-func unpack28_32(in io.Reader, out []uint32) {
-	var inl uint32
-	for i := 0; i < 4; i++ {
-		base := i * 8
-
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base] = (inl >> 0) % (1 << 28)
-		out[base+1] = (inl >> 28)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+1] |= (inl % (1 << 24)) << (28 - 24)
-		out[base+2] = (inl >> 24)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+2] |= (inl % (1 << 20)) << (28 - 20)
-		out[base+3] = (inl >> 20)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+3] |= (inl % (1 << 16)) << (28 - 16)
-		out[base+4] = (inl >> 16)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+4] |= (inl % (1 << 12)) << (28 - 12)
-		out[base+5] = (inl >> 12)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+5] |= (inl % (1 << 8)) << (28 - 8)
-		out[base+6] = (inl >> 8)
-		binary.Read(in, binary.LittleEndian, &inl)
-		out[base+6] |= (inl % (1 << 4)) << (28 - 4)
-		out[base+7] = (inl >> 4)
-	}
-}
-
-func unpack29_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 29)
-	out[1] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 26)) << (29 - 26)
-	out[2] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 23)) << (29 - 23)
-	out[3] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 20)) << (29 - 20)
-	out[4] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 17)) << (29 - 17)
-	out[5] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 14)) << (29 - 14)
-	out[6] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 11)) << (29 - 11)
-	out[7] = (inl >> 11)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 8)) << (29 - 8)
-	out[8] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 5)) << (29 - 5)
-	out[9] = (inl >> 5)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 2)) << (29 - 2)
-	out[10] = (inl >> 2) % (1 << 29)
-	out[11] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 28)) << (29 - 28)
-	out[12] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 25)) << (29 - 25)
-	out[13] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 22)) << (29 - 22)
-	out[14] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 19)) << (29 - 19)
-	out[15] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (29 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 13)) << (29 - 13)
-	out[17] = (inl >> 13)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 10)) << (29 - 10)
-	out[18] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 7)) << (29 - 7)
-	out[19] = (inl >> 7)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 4)) << (29 - 4)
-	out[20] = (inl >> 4)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 1)) << (29 - 1)
-	out[21] = (inl >> 1) % (1 << 29)
-	out[22] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 27)) << (29 - 27)
-	out[23] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 24)) << (29 - 24)
-	out[24] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 21)) << (29 - 21)
-	out[25] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 18)) << (29 - 18)
-	out[26] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 15)) << (29 - 15)
-	out[27] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 12)) << (29 - 12)
-	out[28] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 9)) << (29 - 9)
-	out[29] = (inl >> 9)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 6)) << (29 - 6)
-	out[30] = (inl >> 6)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 3)) << (29 - 3)
-	out[31] = (inl >> 3)
-}
-
-func unpack30_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 30)
-	out[1] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 28)) << (30 - 28)
-	out[2] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 26)) << (30 - 26)
-	out[3] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 24)) << (30 - 24)
-	out[4] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 22)) << (30 - 22)
-	out[5] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 20)) << (30 - 20)
-	out[6] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 18)) << (30 - 18)
-	out[7] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 16)) << (30 - 16)
-	out[8] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 14)) << (30 - 14)
-	out[9] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 12)) << (30 - 12)
-	out[10] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 10)) << (30 - 10)
-	out[11] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 8)) << (30 - 8)
-	out[12] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 6)) << (30 - 6)
-	out[13] = (inl >> 6)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 4)) << (30 - 4)
-	out[14] = (inl >> 4)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 2)) << (30 - 2)
-	out[15] = (inl >> 2)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] = (inl >> 0) % (1 << 30)
-	out[17] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 28)) << (30 - 28)
-	out[18] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 26)) << (30 - 26)
-	out[19] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 24)) << (30 - 24)
-	out[20] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 22)) << (30 - 22)
-	out[21] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 20)) << (30 - 20)
-	out[22] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 18)) << (30 - 18)
-	out[23] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 16)) << (30 - 16)
-	out[24] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 14)) << (30 - 14)
-	out[25] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 12)) << (30 - 12)
-	out[26] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 10)) << (30 - 10)
-	out[27] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 8)) << (30 - 8)
-	out[28] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 6)) << (30 - 6)
-	out[29] = (inl >> 6)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 4)) << (30 - 4)
-	out[30] = (inl >> 4)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 2)) << (30 - 2)
-	out[31] = (inl >> 2)
-}
-
-func unpack31_32(in io.Reader, out []uint32) {
-	var inl uint32
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[0] = (inl >> 0) % (1 << 31)
-	out[1] = (inl >> 31)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[1] |= (inl % (1 << 30)) << (31 - 30)
-	out[2] = (inl >> 30)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[2] |= (inl % (1 << 29)) << (31 - 29)
-	out[3] = (inl >> 29)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[3] |= (inl % (1 << 28)) << (31 - 28)
-	out[4] = (inl >> 28)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[4] |= (inl % (1 << 27)) << (31 - 27)
-	out[5] = (inl >> 27)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[5] |= (inl % (1 << 26)) << (31 - 26)
-	out[6] = (inl >> 26)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[6] |= (inl % (1 << 25)) << (31 - 25)
-	out[7] = (inl >> 25)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[7] |= (inl % (1 << 24)) << (31 - 24)
-	out[8] = (inl >> 24)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[8] |= (inl % (1 << 23)) << (31 - 23)
-	out[9] = (inl >> 23)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[9] |= (inl % (1 << 22)) << (31 - 22)
-	out[10] = (inl >> 22)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[10] |= (inl % (1 << 21)) << (31 - 21)
-	out[11] = (inl >> 21)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[11] |= (inl % (1 << 20)) << (31 - 20)
-	out[12] = (inl >> 20)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[12] |= (inl % (1 << 19)) << (31 - 19)
-	out[13] = (inl >> 19)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[13] |= (inl % (1 << 18)) << (31 - 18)
-	out[14] = (inl >> 18)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[14] |= (inl % (1 << 17)) << (31 - 17)
-	out[15] = (inl >> 17)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[15] |= (inl % (1 << 16)) << (31 - 16)
-	out[16] = (inl >> 16)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[16] |= (inl % (1 << 15)) << (31 - 15)
-	out[17] = (inl >> 15)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[17] |= (inl % (1 << 14)) << (31 - 14)
-	out[18] = (inl >> 14)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[18] |= (inl % (1 << 13)) << (31 - 13)
-	out[19] = (inl >> 13)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[19] |= (inl % (1 << 12)) << (31 - 12)
-	out[20] = (inl >> 12)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[20] |= (inl % (1 << 11)) << (31 - 11)
-	out[21] = (inl >> 11)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[21] |= (inl % (1 << 10)) << (31 - 10)
-	out[22] = (inl >> 10)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[22] |= (inl % (1 << 9)) << (31 - 9)
-	out[23] = (inl >> 9)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[23] |= (inl % (1 << 8)) << (31 - 8)
-	out[24] = (inl >> 8)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[24] |= (inl % (1 << 7)) << (31 - 7)
-	out[25] = (inl >> 7)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[25] |= (inl % (1 << 6)) << (31 - 6)
-	out[26] = (inl >> 6)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[26] |= (inl % (1 << 5)) << (31 - 5)
-	out[27] = (inl >> 5)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[27] |= (inl % (1 << 4)) << (31 - 4)
-	out[28] = (inl >> 4)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[28] |= (inl % (1 << 3)) << (31 - 3)
-	out[29] = (inl >> 3)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[29] |= (inl % (1 << 2)) << (31 - 2)
-	out[30] = (inl >> 2)
-	binary.Read(in, binary.LittleEndian, &inl)
-	out[30] |= (inl % (1 << 1)) << (31 - 1)
-	out[31] = (inl >> 1)
-}
-
-func unpack32_32(in io.Reader, out []uint32) {
-	for idx := range out[:32] {
-		binary.Read(in, binary.LittleEndian, &out[idx])
-	}
-}
-
-func nullunpack32(_ io.Reader, out []uint32) {
-	out[0] = 0
-	for i := 1; i < 32; i *= 2 {
-		copy(out[i:], out[:i])
-	}
-}
-
-func unpack32Default(in io.Reader, out []uint32, nbits int) int {
-	batch := len(out) / 32 * 32
-	nloops := batch / 32
-
-	var f unpackFunc
-	switch nbits {
-	case 0:
-		f = nullunpack32
-	case 1:
-		f = unpack1_32
-	case 2:
-		f = unpack2_32
-	case 3:
-		f = unpack3_32
-	case 4:
-		f = unpack4_32
-	case 5:
-		f = unpack5_32
-	case 6:
-		f = unpack6_32
-	case 7:
-		f = unpack7_32
-	case 8:
-		f = unpack8_32
-	case 9:
-		f = unpack9_32
-	case 10:
-		f = unpack10_32
-	case 11:
-		f = unpack11_32
-	case 12:
-		f = unpack12_32
-	case 13:
-		f = unpack13_32
-	case 14:
-		f = unpack14_32
-	case 15:
-		f = unpack15_32
-	case 16:
-		f = unpack16_32
-	case 17:
-		f = unpack17_32
-	case 18:
-		f = unpack18_32
-	case 19:
-		f = unpack19_32
-	case 20:
-		f = unpack20_32
-	case 21:
-		f = unpack21_32
-	case 22:
-		f = unpack22_32
-	case 23:
-		f = unpack23_32
-	case 24:
-		f = unpack24_32
-	case 25:
-		f = unpack25_32
-	case 26:
-		f = unpack26_32
-	case 27:
-		f = unpack27_32
-	case 28:
-		f = unpack28_32
-	case 29:
-		f = unpack29_32
-	case 30:
-		f = unpack30_32
-	case 31:
-		f = unpack31_32
-	case 32:
-		f = unpack32_32
-	default:
-		return 0
-	}
-
-	for i := 0; i < nloops; i++ {
-		f(in, out[i*32:])
-	}
-	return batch
-}
diff --git a/go/parquet/internal/utils/bit_packing_neon_arm64.go b/go/parquet/internal/utils/bit_packing_neon_arm64.go
deleted file mode 100755
index 09154e3e4b7dd..0000000000000
--- a/go/parquet/internal/utils/bit_packing_neon_arm64.go
+++ /dev/null
@@ -1,54 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-	"bytes"
-	"io"
-	"sync"
-	"unsafe"
-)
-
-var bufferPool = sync.Pool{New: func() interface{} { return &bytes.Buffer{} }}
-
-//go:noescape
-func _unpack32_neon(in, out unsafe.Pointer, batchSize, nbits int) (num int)
-
-func unpack32NEON(in io.Reader, out []uint32, nbits int) int {
-	batch := len(out) / 32 * 32
-	if batch <= 0 {
-		return 0
-	}
-
-	n := batch * nbits / 8
-
-	buffer := bufferPool.Get().(*bytes.Buffer)
-	defer bufferPool.Put(buffer)
-	buffer.Reset()
-	buffer.Grow(n)
-	io.CopyN(buffer, in, int64(n))
-
-	var (
-		input  = unsafe.Pointer(&buffer.Bytes()[0])
-		output = unsafe.Pointer(&out[0])
-	)
-
-	return _unpack32_neon(input, output, len(out), nbits)
-}
diff --git a/go/parquet/internal/utils/bit_packing_neon_arm64.s b/go/parquet/internal/utils/bit_packing_neon_arm64.s
deleted file mode 100644
index 2d18dccdb573b..0000000000000
--- a/go/parquet/internal/utils/bit_packing_neon_arm64.s
+++ /dev/null
@@ -1,6926 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-#include "go_asm.h"
-#include "textflag.h"
-
-#define LCPI0_0L $0x000000000000000e
-#define LCPI0_0H $0x000000000000000f
-#define LCPI0_1L $0x000000000000000c
-#define LCPI0_1H $0x000000000000000d
-#define LCPI0_2L $0x000000000000000a
-#define LCPI0_2H $0x000000000000000b
-#define LCPI0_3L $0x0000000000000008
-#define LCPI0_3H $0x0000000000000009
-#define LCPI0_4L $0x0000000000000006
-#define LCPI0_4H $0x0000000000000007
-#define LCPI0_5L $0x0000000000000004
-#define LCPI0_5H $0x0000000000000005
-#define LCPI0_6L $0x0000000000000002
-#define LCPI0_6H $0x0000000000000003
-#define LCPI0_7L $0x0000000000000000
-#define LCPI0_7H $0x0000000000000001
-
-#define LCPI0_10L $0x0000000500000004
-#define LCPI0_10H $0x0000000700000006
-#define LCPI0_11L $0xffffffe5ffffffe4
-#define LCPI0_11H $0xffffffe7ffffffe6
-#define LCPI0_12L $0x0000000900000008
-#define LCPI0_12H $0x0000000b0000000a
-#define LCPI0_13L $0xffffffe9ffffffe8
-#define LCPI0_13H $0xffffffebffffffea
-#define LCPI0_14L $0x0000000d0000000c
-#define LCPI0_14H $0x0000000f0000000e
-#define LCPI0_15L $0xffffffedffffffec
-#define LCPI0_15H $0xffffffefffffffee
-#define LCPI0_16L $0x0000001100000010
-#define LCPI0_16H $0x0000001300000012
-#define LCPI0_17L $0xfffffff1fffffff0
-#define LCPI0_17H $0xfffffff3fffffff2
-#define LCPI0_18L $0x0000001500000014
-#define LCPI0_18H $0x0000001700000016
-#define LCPI0_19L $0xfffffff5fffffff4
-#define LCPI0_19H $0xfffffff7fffffff6
-#define LCPI0_20L $0x0000001900000018
-#define LCPI0_20H $0x0000001b0000001a
-#define LCPI0_21L $0xfffffff9fffffff8
-#define LCPI0_21H $0xfffffffbfffffffa
-#define LCPI0_26L $0x0000000a00000008
-#define LCPI0_26H $0x0000000e0000000c
-#define LCPI0_27L $0xffffffeaffffffe8
-#define LCPI0_27H $0xffffffeeffffffec
-#define LCPI0_28L $0x0000001200000010
-#define LCPI0_28H $0x0000001600000014
-#define LCPI0_29L $0xfffffff2fffffff0
-#define LCPI0_29H $0xfffffff6fffffff4
-#define LCPI0_34L $0x0000000f0000000c
-#define LCPI0_34H $0x0000001500000012
-#define LCPI0_35L $0xffffffefffffffec
-#define LCPI0_35H $0xfffffff5fffffff2
-#define LCPI0_38L $0x0000000700000004
-#define LCPI0_38H $0x0000000d0000000a
-#define LCPI0_39L $0xffffffe7ffffffe4
-#define LCPI0_39H $0xffffffedffffffea
-#define LCPI0_40L $0x0000001300000010
-#define LCPI0_40H $0x0000001900000016
-#define LCPI0_41L $0xfffffff3fffffff0
-#define LCPI0_41H $0xfffffff9fffffff6
-#define LCPI0_44L $0x0000000b00000008
-#define LCPI0_44H $0x000000110000000e
-#define LCPI0_45L $0xffffffebffffffe8
-#define LCPI0_45H $0xfffffff1ffffffee
-#define LCPI0_56L $0x0000000d00000008
-#define LCPI0_56H $0x0000001700000012
-#define LCPI0_57L $0xffffffedffffffe8
-#define LCPI0_57H $0xfffffff7fffffff2
-#define LCPI0_62L $0x0000000900000004
-#define LCPI0_62H $0x000000130000000e
-#define LCPI0_63L $0xffffffe9ffffffe4
-#define LCPI0_63H $0xfffffff3ffffffee
-#define LCPI0_173L $0xfffffff5fffffffc
-#define LCPI0_173H $0xffffffe7ffffffee
-#define LCPI0_177L $0xfffffff2fffffff8
-#define LCPI0_177H $0xffffffe6ffffffec
-#define LCPI0_180L $0xfffffff3fffffff8
-#define LCPI0_180H $0xffffffe9ffffffee
-#define LCPI0_183L $0xfffffff7fffffffc
-#define LCPI0_183H $0xffffffedfffffff2
-#define LCPI0_185L $0xffffffeffffffff4
-#define LCPI0_185H $0xffffffe5ffffffea
-#define LCPI0_187L $0xffffffecfffffff0
-#define LCPI0_187H $0xffffffe4ffffffe8
-#define LCPI0_189L $0xfffffff1fffffff4
-#define LCPI0_189H $0xffffffebffffffee
-#define LCPI0_191L $0xfffffff9fffffffc
-#define LCPI0_191H $0xfffffff3fffffff6
-#define LCPI0_192L $0xffffffedfffffff0
-#define LCPI0_192H $0xffffffe7ffffffea
-#define LCPI0_194L $0xfffffff5fffffff8
-#define LCPI0_194H $0xffffffeffffffff2
-#define LCPI0_195L $0xffffffe9ffffffec
-#define LCPI0_195H $0xffffffe3ffffffe6
-#define LCPI0_197L $0xfffffff6fffffff8
-#define LCPI0_197H $0xfffffff2fffffff4
-#define LCPI0_198L $0xffffffeefffffff0
-#define LCPI0_198H $0xffffffeaffffffec
-#define LCPI0_199L $0xffffffe6ffffffe8
-#define LCPI0_199H $0xffffffe2ffffffe4
-#define LCPI0_201L $0xfffffffbfffffffc
-#define LCPI0_201H $0xfffffff9fffffffa
-#define LCPI0_202L $0xfffffff7fffffff8
-#define LCPI0_202H $0xfffffff5fffffff6
-#define LCPI0_203L $0xfffffff3fffffff4
-#define LCPI0_203H $0xfffffff1fffffff2
-#define LCPI0_204L $0xffffffeffffffff0
-#define LCPI0_204H $0xffffffedffffffee
-#define LCPI0_205L $0xffffffebffffffec
-#define LCPI0_205H $0xffffffe9ffffffea
-#define LCPI0_206L $0xffffffe7ffffffe8
-#define LCPI0_206H $0xffffffe5ffffffe6
-#define LCPI0_207L $0xffffffe3ffffffe4
-#define LCPI0_207H $0xffffffe1ffffffe2
-
-#define LCPI0_8 $0x0000000200000001
-#define LCPI0_9 $0xffffffe2ffffffe1
-#define LCPI0_22 $0x0000001d0000001c
-#define LCPI0_23 $0xfffffffdfffffffc
-#define LCPI0_24 $0x0000000400000002
-#define LCPI0_25 $0xffffffe4ffffffe2
-#define LCPI0_30 $0x0000001a00000018
-#define LCPI0_31 $0xfffffffafffffff8
-#define LCPI0_32 $0x0000000600000003
-#define LCPI0_33 $0xffffffe6ffffffe3
-#define LCPI0_36 $0x0000001b00000018
-#define LCPI0_37 $0xfffffffbfffffff8
-#define LCPI0_42 $0x0000000500000002
-#define LCPI0_43 $0xffffffe5ffffffe2
-#define LCPI0_46 $0x0000001700000014
-#define LCPI0_47 $0xfffffff7fffffff4
-#define LCPI0_48 $0x0000000800000004
-#define LCPI0_49 $0xffffffe8ffffffe4
-#define LCPI0_50 $0x0000001400000010
-#define LCPI0_51 $0xfffffff4fffffff0
-#define LCPI0_52 $0x0000000a00000005
-#define LCPI0_53 $0xffffffeaffffffe5
-#define LCPI0_54 $0x0000001900000014
-#define LCPI0_55 $0xfffffff9fffffff4
-#define LCPI0_58 $0x0000000600000001
-#define LCPI0_59 $0xffffffe6ffffffe1
-#define LCPI0_60 $0x0000001500000010
-#define LCPI0_61 $0xfffffff5fffffff0
-#define LCPI0_64 $0x0000000700000002
-#define LCPI0_65 $0xffffffe7ffffffe2
-#define LCPI0_66 $0x000000110000000c
-#define LCPI0_67 $0xfffffff1ffffffec
-#define LCPI0_68 $0x0000000c00000006
-#define LCPI0_69 $0xffffffecffffffe6
-#define LCPI0_70 $0x0000000a00000004
-#define LCPI0_71 $0xffffffeaffffffe4
-#define LCPI0_72 $0x0000001600000010
-#define LCPI0_73 $0xfffffff6fffffff0
-#define LCPI0_74 $0x0000000e00000008
-#define LCPI0_75 $0xffffffeeffffffe8
-#define LCPI0_76 $0x0000000e00000007
-#define LCPI0_77 $0xffffffeeffffffe7
-#define LCPI0_78 $0x0000000a00000003
-#define LCPI0_79 $0xffffffeaffffffe3
-#define LCPI0_80 $0x0000000d00000006
-#define LCPI0_81 $0xffffffedffffffe6
-#define LCPI0_82 $0x0000000900000002
-#define LCPI0_83 $0xffffffe9ffffffe2
-#define LCPI0_84 $0x0000001700000010
-#define LCPI0_85 $0xfffffff7fffffff0
-#define LCPI0_86 $0x000000130000000c
-#define LCPI0_87 $0xfffffff3ffffffec
-#define LCPI0_88 $0x0000000f00000008
-#define LCPI0_89 $0xffffffefffffffe8
-#define LCPI0_90 $0x0000000b00000004
-#define LCPI0_91 $0xffffffebffffffe4
-#define LCPI0_92 $0x0000001000000008
-#define LCPI0_93 $0xfffffff0ffffffe8
-#define LCPI0_94 $0x0000001200000009
-#define LCPI0_95 $0xfffffff2ffffffe9
-#define LCPI0_96 $0x0000000d00000004
-#define LCPI0_97 $0xffffffedffffffe4
-#define LCPI0_98 $0x0000001100000008
-#define LCPI0_99 $0xfffffff1ffffffe8
-#define LCPI0_100 $0x000000150000000c
-#define LCPI0_101 $0xfffffff5ffffffec
-#define LCPI0_102 $0x0000000b00000002
-#define LCPI0_103 $0xffffffebffffffe2
-#define LCPI0_104 $0x0000000f00000006
-#define LCPI0_105 $0xffffffefffffffe6
-#define LCPI0_106 $0x0000000a00000001
-#define LCPI0_107 $0xffffffeaffffffe1
-#define LCPI0_108 $0x0000000e00000005
-#define LCPI0_109 $0xffffffeeffffffe5
-#define LCPI0_110 $0x000000140000000a
-#define LCPI0_111 $0xfffffff4ffffffea
-#define LCPI0_112 $0x0000001200000008
-#define LCPI0_113 $0xfffffff2ffffffe8
-#define LCPI0_114 $0x0000000e00000004
-#define LCPI0_115 $0xffffffeeffffffe4
-#define LCPI0_116 $0x0000000c00000002
-#define LCPI0_117 $0xffffffecffffffe2
-#define LCPI0_118 $0x0000000d00000002
-#define LCPI0_119 $0xffffffedffffffe2
-#define LCPI0_120 $0x0000000e00000003
-#define LCPI0_121 $0xffffffeeffffffe3
-#define LCPI0_122 $0x0000000f00000004
-#define LCPI0_123 $0xffffffefffffffe4
-#define LCPI0_124 $0x0000001100000006
-#define LCPI0_125 $0xfffffff1ffffffe6
-#define LCPI0_126 $0x0000001200000007
-#define LCPI0_127 $0xfffffff2ffffffe7
-#define LCPI0_128 $0x0000001300000008
-#define LCPI0_129 $0xfffffff3ffffffe8
-#define LCPI0_130 $0x0000000e00000001
-#define LCPI0_131 $0xffffffeeffffffe1
-#define LCPI0_132 $0x0000000f00000002
-#define LCPI0_133 $0xffffffefffffffe2
-#define LCPI0_134 $0x0000001100000004
-#define LCPI0_135 $0xfffffff1ffffffe4
-#define LCPI0_136 $0x0000001200000005
-#define LCPI0_137 $0xfffffff2ffffffe5
-#define LCPI0_138 $0xffffffeffffffffe
-#define LCPI0_139 $0xffffffeefffffffc
-#define LCPI0_140 $0xfffffff2ffffffff
-#define LCPI0_141 $0xfffffff1fffffffe
-#define LCPI0_142 $0xffffffeffffffffc
-#define LCPI0_143 $0xffffffeefffffffb
-#define LCPI0_144 $0xffffffedfffffffa
-#define LCPI0_145 $0xffffffecfffffff8
-#define LCPI0_146 $0xfffffff3fffffffe
-#define LCPI0_147 $0xfffffff2fffffffd
-#define LCPI0_148 $0xfffffff1fffffffc
-#define LCPI0_149 $0xffffffeffffffffa
-#define LCPI0_150 $0xffffffeefffffff9
-#define LCPI0_151 $0xffffffedfffffff8
-#define LCPI0_152 $0xffffffebfffffff6
-#define LCPI0_153 $0xffffffecfffffff6
-#define LCPI0_154 $0xffffffeefffffff8
-#define LCPI0_155 $0xfffffff2fffffffc
-#define LCPI0_156 $0xfffffff4fffffffe
-#define LCPI0_157 $0xffffffeefffffff7
-#define LCPI0_158 $0xfffffff3fffffffc
-#define LCPI0_159 $0xffffffeffffffff8
-#define LCPI0_160 $0xffffffebfffffff4
-#define LCPI0_161 $0xfffffff5fffffffe
-#define LCPI0_162 $0xfffffff1fffffffa
-#define LCPI0_163 $0xfffffff6ffffffff
-#define LCPI0_164 $0xfffffff2fffffffb
-#define LCPI0_165 $0xfffffff0fffffff8
-#define LCPI0_166 $0xfffffff2fffffff9
-#define LCPI0_167 $0xfffffff6fffffffd
-#define LCPI0_168 $0xfffffff3fffffffa
-#define LCPI0_169 $0xfffffff7fffffffe
-#define LCPI0_170 $0xffffffe9fffffff0
-#define LCPI0_171 $0xffffffedfffffff4
-#define LCPI0_172 $0xfffffff1fffffff8
-#define LCPI0_174 $0xfffffff4fffffffa
-#define LCPI0_175 $0xfffffff6fffffffc
-#define LCPI0_176 $0xffffffeafffffff0
-#define LCPI0_178 $0xfffffff6fffffffb
-#define LCPI0_179 $0xffffffe7ffffffec
-#define LCPI0_181 $0xfffffffaffffffff
-#define LCPI0_182 $0xffffffebfffffff0
-#define LCPI0_184 $0xfffffff9fffffffe
-#define LCPI0_186 $0xfffffff8fffffffc
-#define LCPI0_188 $0xfffffffafffffffd
-#define LCPI0_190 $0xffffffe5ffffffe8
-#define LCPI0_193 $0xfffffffbfffffffe
-#define LCPI0_196 $0xfffffffcfffffffe
-#define LCPI0_200 $0xfffffffeffffffff
-
-TEXT ·_unpack32_neon(SB), $0-40
-
-	MOVD in+0(FP), R0
-	MOVD out+8(FP), R1
-	MOVD batchSize+16(FP), R2
-	MOVD nbits+24(FP), R3
-	// LEAQ LCDATA1<>(SB), BP
-
-	// %bb.0:
-	WORD $0xa9ba7bfd // stp    x29, x30, [sp, #-96]!
-	WORD $0xd10643e9 // sub    x9, sp, #400
-	WORD $0xa9016ffc // stp    x28, x27, [sp, #16]
-	WORD $0xa90267fa // stp    x26, x25, [sp, #32]
-	WORD $0x910003fd // mov    x29, sp
-	WORD $0xa9035ff8 // stp    x24, x23, [sp, #48]
-	WORD $0xa90457f6 // stp    x22, x21, [sp, #64]
-	WORD $0xa9054ff4 // stp    x20, x19, [sp, #80]
-	WORD $0x927df13f // and    sp, x9, #0xfffffffffffffff8
-	WORD $0x11007c48 // add    w8, w2, #31
-	WORD $0x7100005f // cmp    w2, #0
-	WORD $0x1a82b108 // csel    w8, w8, w2, lt
-	WORD $0xaa0103fa // mov    x26, x1
-	WORD $0x13057d13 // asr    w19, w8, #5
-	WORD $0x71003c7f // cmp    w3, #15
-	BLE LBB0_14
-
-	// %bb.1:
-	WORD $0x71005c7f // cmp    w3, #23
-	BLE LBB0_22
-
-	// %bb.2:
-	WORD $0x71006c7f // cmp    w3, #27
-	BLE LBB0_36
-
-	// %bb.3:
-	WORD $0x7100747f // cmp    w3, #29
-	BLE LBB0_60
-
-	// %bb.4:
-	WORD $0x7100787f // cmp    w3, #30
-	BEQ LBB0_148
-
-	// %bb.5:
-	WORD $0x71007c7f // cmp    w3, #31
-	BEQ LBB0_100
-
-	// %bb.6:
-	WORD $0x7100807f // cmp    w3, #32
-	BNE LBB0_156
-
-	// %bb.7:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.8:
-	WORD $0x7100427f // cmp    w19, #16
-	BLO LBB0_11
-
-	// %bb.9:
-	WORD $0xd379e268 // lsl    x8, x19, #7
-	WORD $0x8b080009 // add    x9, x0, x8
-	WORD $0xeb1a013f // cmp    x9, x26
-	BLS LBB0_157
-
-	// %bb.10:
-	WORD $0x8b080348 // add    x8, x26, x8
-	WORD $0xeb00011f // cmp    x8, x0
-	BLS LBB0_157
-
-LBB0_11:
-	WORD $0xf9000fff // str    xzr, [sp, #24]
-
-LBB0_12:
-	WORD $0xf9400fe8 // ldr    x8, [sp, #24]
-	WORD $0x8b081f4a // add    x10, x26, x8, lsl #7
-	WORD $0xcb080268 // sub    x8, x19, x8
-	WORD $0x9101014a // add    x10, x10, #64
-
-LBB0_13:
-	WORD $0xb940000b // ldr    w11, [x0]
-	WORD $0xf1000508 // subs    x8, x8, #1
-	WORD $0xb81c014b // stur    w11, [x10, #-64]
-	WORD $0xb940040b // ldr    w11, [x0, #4]
-	WORD $0xb81c414b // stur    w11, [x10, #-60]
-	WORD $0xb940080b // ldr    w11, [x0, #8]
-	WORD $0xb81c814b // stur    w11, [x10, #-56]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0xb81cc14b // stur    w11, [x10, #-52]
-	WORD $0xb940100b // ldr    w11, [x0, #16]
-	WORD $0xb81d014b // stur    w11, [x10, #-48]
-	WORD $0xb940140b // ldr    w11, [x0, #20]
-	WORD $0xb81d414b // stur    w11, [x10, #-44]
-	WORD $0xb940180b // ldr    w11, [x0, #24]
-	WORD $0xb81d814b // stur    w11, [x10, #-40]
-	WORD $0xb9401c0b // ldr    w11, [x0, #28]
-	WORD $0xb81dc14b // stur    w11, [x10, #-36]
-	WORD $0xb940200b // ldr    w11, [x0, #32]
-	WORD $0xb81e014b // stur    w11, [x10, #-32]
-	WORD $0xb940240b // ldr    w11, [x0, #36]
-	WORD $0xb81e414b // stur    w11, [x10, #-28]
-	WORD $0xb940280b // ldr    w11, [x0, #40]
-	WORD $0xb81e814b // stur    w11, [x10, #-24]
-	WORD $0xb9402c0b // ldr    w11, [x0, #44]
-	WORD $0xb81ec14b // stur    w11, [x10, #-20]
-	WORD $0xb940300b // ldr    w11, [x0, #48]
-	WORD $0xb81f014b // stur    w11, [x10, #-16]
-	WORD $0xb940340b // ldr    w11, [x0, #52]
-	WORD $0xb81f414b // stur    w11, [x10, #-12]
-	WORD $0xb940380b // ldr    w11, [x0, #56]
-	WORD $0xb81f814b // stur    w11, [x10, #-8]
-	WORD $0xb9403c0b // ldr    w11, [x0, #60]
-	WORD $0xb81fc14b // stur    w11, [x10, #-4]
-	WORD $0xb940400b // ldr    w11, [x0, #64]
-	WORD $0xb900014b // str    w11, [x10]
-	WORD $0xb940440b // ldr    w11, [x0, #68]
-	WORD $0xb900054b // str    w11, [x10, #4]
-	WORD $0xb940480b // ldr    w11, [x0, #72]
-	WORD $0xb900094b // str    w11, [x10, #8]
-	WORD $0xb9404c0b // ldr    w11, [x0, #76]
-	WORD $0xb9000d4b // str    w11, [x10, #12]
-	WORD $0xb940500b // ldr    w11, [x0, #80]
-	WORD $0xb900114b // str    w11, [x10, #16]
-	WORD $0xb940540b // ldr    w11, [x0, #84]
-	WORD $0xb900154b // str    w11, [x10, #20]
-	WORD $0xb940580b // ldr    w11, [x0, #88]
-	WORD $0xb900194b // str    w11, [x10, #24]
-	WORD $0xb9405c0b // ldr    w11, [x0, #92]
-	WORD $0xb9001d4b // str    w11, [x10, #28]
-	WORD $0xb940600b // ldr    w11, [x0, #96]
-	WORD $0xb900214b // str    w11, [x10, #32]
-	WORD $0xb940640b // ldr    w11, [x0, #100]
-	WORD $0xb900254b // str    w11, [x10, #36]
-	WORD $0xb940680b // ldr    w11, [x0, #104]
-	WORD $0xb900294b // str    w11, [x10, #40]
-	WORD $0xb9406c0b // ldr    w11, [x0, #108]
-	WORD $0xb9002d4b // str    w11, [x10, #44]
-	WORD $0xb940700b // ldr    w11, [x0, #112]
-	WORD $0xb900314b // str    w11, [x10, #48]
-	WORD $0xb940740b // ldr    w11, [x0, #116]
-	WORD $0xb900354b // str    w11, [x10, #52]
-	WORD $0xb940780b // ldr    w11, [x0, #120]
-	WORD $0xb900394b // str    w11, [x10, #56]
-	WORD $0xb9407c0b // ldr    w11, [x0, #124]
-	WORD $0x91020000 // add    x0, x0, #128
-	WORD $0xb9003d4b // str    w11, [x10, #60]
-	WORD $0x9102014a // add    x10, x10, #128
-	BNE LBB0_13
-	JMP LBB0_156
-
-LBB0_14:
-	WORD $0x71001c7f // cmp    w3, #7
-	BGT LBB0_29
-
-	// %bb.15:
-	WORD $0x71000c7f // cmp    w3, #3
-	BGT LBB0_42
-
-	// %bb.16:
-	WORD $0x7100047f // cmp    w3, #1
-	BGT LBB0_65
-
-	// %bb.17:
-	WORD $0x34000003 // cbz    w3, .LBB0_103
-
-	// %bb.18:
-	WORD $0x7100047f // cmp    w3, #1
-	BNE LBB0_156
-
-	// %bb.19:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.20:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_201
-	// WORD $0x90000008 // adrp    x8, .LCPI0_200
-	// WORD $0x9000000a // adrp    x10, .LCPI0_202
-	// WORD $0x9000000b // adrp    x11, .LCPI0_206
-	WORD $0x4f000427 // movi    v7.4s, #1
-	VMOVQ LCPI0_201L, LCPI0_201H, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_204
-	VMOVD LCPI0_200, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_203
-	VMOVQ LCPI0_202L, LCPI0_202H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_205
-	VMOVQ LCPI0_204L, LCPI0_204H, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_207
-	VMOVQ LCPI0_203L, LCPI0_203H, V3
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_205L, LCPI0_205H, V5
-	WORD $0xaa0003ea // mov    x10, x0
-	VMOVQ LCPI0_206L, LCPI0_206H, V6
-	VMOVQ LCPI0_207L, LCPI0_207H, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_21:
-	WORD $0xb940000b // ldr    w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x1e270172 // fmov    s18, w11
-	WORD $0x53037d6b // lsr    w11, w11, #3
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x2ea04631 // ushl    v17.2s, v17.2s, v0.2s
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d71 // mov    v17.s[3], w11
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0x4ddfc951 // ld1r    { v17.4s }, [x10], #4
-	WORD $0x6ea14631 // ushl    v17.4s, v17.4s, v1.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0x4d40c811 // ld1r    { v17.4s }, [x0]
-	WORD $0x6ea24631 // ushl    v17.4s, v17.4s, v2.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0x4d40c811 // ld1r    { v17.4s }, [x0]
-	WORD $0x6ea34631 // ushl    v17.4s, v17.4s, v3.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0x4d40c811 // ld1r    { v17.4s }, [x0]
-	WORD $0x6ea44631 // ushl    v17.4s, v17.4s, v4.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0x4d40c811 // ld1r    { v17.4s }, [x0]
-	WORD $0x6ea54631 // ushl    v17.4s, v17.4s, v5.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0x4d40c811 // ld1r    { v17.4s }, [x0]
-	WORD $0x6ea64631 // ushl    v17.4s, v17.4s, v6.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0x4d40c811 // ld1r    { v17.4s }, [x0]
-	WORD $0xaa0a03e0 // mov    x0, x10
-	WORD $0x6eb04631 // ushl    v17.4s, v17.4s, v16.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_21
-	JMP LBB0_156
-
-LBB0_22:
-	WORD $0x71004c7f // cmp    w3, #19
-	BGT LBB0_48
-
-	// %bb.23:
-	WORD $0x7100447f // cmp    w3, #17
-	BGT LBB0_70
-
-	// %bb.24:
-	WORD $0x7100407f // cmp    w3, #16
-	BEQ LBB0_106
-
-	// %bb.25:
-	WORD $0x7100447f // cmp    w3, #17
-	BNE LBB0_156
-
-	// %bb.26:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.27:
-	WORD $0x4f00d420 // movi    v0.4s, #1, msl #16
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_28:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x138a456c // extr    w12, w11, w10, #17
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53027d6a // lsr    w10, w11, #2
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb940080c // ldr    w12, [x0, #8]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b4d8a // extr    w10, w12, w11, #19
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9c0101 // stur    q1, [x8, #-64]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x53047d4c // lsr    w12, w10, #4
-	WORD $0x138a556a // extr    w10, w11, w10, #21
-	WORD $0x1e270181 // fmov    s1, w12
-	WORD $0xb940100c // ldr    w12, [x0, #16]
-	WORD $0x4e0c1d41 // mov    v1.s[1], w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b5d8a // extr    w10, w12, w11, #23
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9d0101 // stur    q1, [x8, #-48]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x138a656a // extr    w10, w11, w10, #25
-	WORD $0x1e270181 // fmov    s1, w12
-	WORD $0xb940180c // ldr    w12, [x0, #24]
-	WORD $0x4e0c1d41 // mov    v1.s[1], w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b6d8a // extr    w10, w12, w11, #27
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9e0101 // stur    q1, [x8, #-32]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x138a756a // extr    w10, w11, w10, #29
-	WORD $0x1e270181 // fmov    s1, w12
-	WORD $0xb940200c // ldr    w12, [x0, #32]
-	WORD $0x4e0c1d41 // mov    v1.s[1], w10
-	WORD $0x530e7d6a // lsr    w10, w11, #14
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b7d8a // extr    w10, w12, w11, #31
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9f0101 // stur    q1, [x8, #-16]
-	WORD $0x29442c0a // ldp    w10, w11, [x0, #32]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53017d6c // lsr    w12, w11, #1
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940280a // ldr    w10, [x0, #40]
-	WORD $0x138b494b // extr    w11, w10, w11, #18
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x53037d4a // lsr    w10, w10, #3
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800101 // str    q1, [x8]
-	WORD $0x29452c0a // ldp    w10, w11, [x0, #40]
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x53057d6c // lsr    w12, w11, #5
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940300a // ldr    w10, [x0, #48]
-	WORD $0x138b594b // extr    w11, w10, w11, #22
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x53077d4a // lsr    w10, w10, #7
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800501 // str    q1, [x8, #16]
-	WORD $0x29462c0a // ldp    w10, w11, [x0, #48]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x53097d6c // lsr    w12, w11, #9
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940380a // ldr    w10, [x0, #56]
-	WORD $0x138b694b // extr    w11, w10, w11, #26
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530b7d4a // lsr    w10, w10, #11
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800901 // str    q1, [x8, #32]
-	WORD $0x29472c0a // ldp    w10, w11, [x0, #56]
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x530d7d6c // lsr    w12, w11, #13
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940400a // ldr    w10, [x0, #64]
-	WORD $0x91011000 // add    x0, x0, #68
-	WORD $0x138b794b // extr    w11, w10, w11, #30
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530f7d4a // lsr    w10, w10, #15
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800d01 // str    q1, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_28
-	JMP LBB0_156
-
-LBB0_29:
-	WORD $0x71002c7f // cmp    w3, #11
-	BGT LBB0_54
-
-	// %bb.30:
-	WORD $0x7100247f // cmp    w3, #9
-	BGT LBB0_75
-
-	// %bb.31:
-	WORD $0x7100207f // cmp    w3, #8
-	BEQ LBB0_109
-
-	// %bb.32:
-	WORD $0x7100247f // cmp    w3, #9
-	BNE LBB0_156
-
-	// %bb.33:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.34:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_157
-	// WORD $0x90000009 // adrp    x9, .LCPI0_158
-	// WORD $0x9000000a // adrp    x10, .LCPI0_159
-	WORD $0x4f00c427 // movi    v7.4s, #1, msl #8
-	VMOVD LCPI0_157, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_160
-	VMOVD LCPI0_158, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_161
-	VMOVD LCPI0_159, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_162
-	VMOVD LCPI0_160, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_163
-	VMOVD LCPI0_161, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_164
-	VMOVD LCPI0_162, V5
-	VMOVD LCPI0_163, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_164, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_35:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x138a6d6a // extr    w10, w11, w10, #27
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x2ea04631 // ushl    v17.2s, v17.2s, v0.2s
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x53167d4c // lsr    w12, w10, #22
-	WORD $0x138a7d6a // extr    w10, w11, w10, #31
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x4e141d91 // mov    v17.s[2], w12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x2ea24631 // ushl    v17.2s, v17.2s, v2.2s
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x53037d6a // lsr    w10, w11, #3
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x2ea34631 // ushl    v17.2s, v17.2s, v3.2s
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x53077d6a // lsr    w10, w11, #7
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x138a656a // extr    w10, w11, w10, #25
-	WORD $0x1e270192 // fmov    s18, w12
-	WORD $0x2ea44631 // ushl    v17.2s, v17.2s, v4.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x6e180632 // mov    v18.d[1], v17.d[0]
-	WORD $0x4e271e51 // and    v17.16b, v18.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x53147d4c // lsr    w12, w10, #20
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x138a756a // extr    w10, w11, w10, #29
-	WORD $0x1e270192 // fmov    s18, w12
-	WORD $0x2ea54631 // ushl    v17.2s, v17.2s, v5.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x6e180632 // mov    v18.d[1], v17.d[0]
-	WORD $0x4e271e51 // and    v17.16b, v18.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53137d6a // lsr    w10, w11, #19
-	WORD $0x2ea64631 // ushl    v17.2s, v17.2s, v6.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x91009000 // add    x0, x0, #36
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53177d6a // lsr    w10, w11, #23
-	WORD $0x2eb04631 // ushl    v17.2s, v17.2s, v16.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_35
-	JMP LBB0_156
-
-LBB0_36:
-	WORD $0x7100647f // cmp    w3, #25
-	BGT LBB0_80
-
-	// %bb.37:
-	WORD $0x7100607f // cmp    w3, #24
-	BEQ LBB0_112
-
-	// %bb.38:
-	WORD $0x7100647f // cmp    w3, #25
-	BNE LBB0_156
-
-	// %bb.39:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.40:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_76
-	// WORD $0x90000009 // adrp    x9, .LCPI0_77
-	// WORD $0x9000000a // adrp    x10, .LCPI0_78
-	// WORD $0x9000000b // adrp    x11, .LCPI0_91
-	VMOVD LCPI0_76, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_79
-	VMOVD LCPI0_77, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_80
-	VMOVD LCPI0_78, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_81
-	VMOVD LCPI0_79, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_82
-	VMOVD LCPI0_80, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_83
-	VMOVD LCPI0_81, V5
-	// WORD $0x9000000a // adrp    x10, .LCPI0_84
-	VMOVD LCPI0_82, V6
-	// WORD $0x90000008 // adrp    x8, .LCPI0_85
-	VMOVD LCPI0_83, V7
-	// WORD $0x90000009 // adrp    x9, .LCPI0_86
-	VMOVD LCPI0_84, V16
-	// WORD $0x9000000a // adrp    x10, .LCPI0_87
-	VMOVD LCPI0_85, V17
-	// WORD $0x90000008 // adrp    x8, .LCPI0_88
-	VMOVD LCPI0_86, V18
-	// WORD $0x90000009 // adrp    x9, .LCPI0_89
-	VMOVD LCPI0_87, V19
-	// WORD $0x9000000a // adrp    x10, .LCPI0_90
-	VMOVD LCPI0_88, V20
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_89, V21
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_90, V22
-	VMOVD LCPI0_91, V23
-
-LBB0_41:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404018 // ldur    d24, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x2ea0471b // ushl    v27.2s, v24.2s, v0.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x6e1a235a // ext    v26.16b, v26.16b, v26.16b, #4
-	WORD $0x138a2d6a // extr    w10, w11, w10, #11
-	WORD $0x2ea14739 // ushl    v25.2s, v25.2s, v1.2s
-	WORD $0x0eb91f79 // orr    v25.8b, v27.8b, v25.8b
-	WORD $0x6e196358 // ext    v24.16b, v26.16b, v25.16b, #12
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f0777d8 // bic    v24.4s, #254, lsl #24
-	WORD $0x3c9c0118 // stur    q24, [x8, #-64]
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0xfd400818 // ldr    d24, [x0, #16]
-	WORD $0xb940180b // ldr    w11, [x0, #24]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x53047d4a // lsr    w10, w10, #4
-	WORD $0x2ea2471a // ushl    v26.2s, v24.2s, v2.2s
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x1e27015b // fmov    s27, w10
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x6e1b237b // ext    v27.16b, v27.16b, v27.16b, #4
-	WORD $0x2ea34739 // ushl    v25.2s, v25.2s, v3.2s
-	WORD $0x138a3d6a // extr    w10, w11, w10, #15
-	WORD $0x0eb91f59 // orr    v25.8b, v26.8b, v25.8b
-	WORD $0x6e196378 // ext    v24.16b, v27.16b, v25.16b, #12
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f0777d8 // bic    v24.4s, #254, lsl #24
-	WORD $0x3c9d0118 // stur    q24, [x8, #-48]
-	WORD $0x2943280b // ldp    w11, w10, [x0, #24]
-	WORD $0xfd401018 // ldr    d24, [x0, #32]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x138b214b // extr    w11, w10, w11, #8
-	WORD $0x53017d4a // lsr    w10, w10, #1
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x2ea44718 // ushl    v24.2s, v24.2s, v4.2s
-	WORD $0x1e27017a // fmov    s26, w11
-	WORD $0x2ea54739 // ushl    v25.2s, v25.2s, v5.2s
-	WORD $0x4e0c1d5a // mov    v26.s[1], w10
-	WORD $0x0eb91f18 // orr    v24.8b, v24.8b, v25.8b
-	WORD $0x6e18071a // mov    v26.d[1], v24.d[0]
-	WORD $0x6f0777da // bic    v26.4s, #254, lsl #24
-	WORD $0x3c9e011a // stur    q26, [x8, #-32]
-	WORD $0x2944a80b // ldp    w11, w10, [x0, #36]
-	WORD $0xfc42c018 // ldur    d24, [x0, #44]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x138b314b // extr    w11, w10, w11, #12
-	WORD $0x53057d4a // lsr    w10, w10, #5
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x2ea64718 // ushl    v24.2s, v24.2s, v6.2s
-	WORD $0x1e27017a // fmov    s26, w11
-	WORD $0x2ea74739 // ushl    v25.2s, v25.2s, v7.2s
-	WORD $0x4e0c1d5a // mov    v26.s[1], w10
-	WORD $0x0eb91f18 // orr    v24.8b, v24.8b, v25.8b
-	WORD $0x6e18071a // mov    v26.d[1], v24.d[0]
-	WORD $0x6f0777da // bic    v26.4s, #254, lsl #24
-	WORD $0x3c9f011a // stur    q26, [x8, #-16]
-	WORD $0xfc434018 // ldur    d24, [x0, #52]
-	WORD $0xbd403019 // ldr    s25, [x0, #48]
-	WORD $0xb9403c0c // ldr    w12, [x0, #60]
-	WORD $0x2eb0471a // ushl    v26.2s, v24.2s, v16.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x53027d4b // lsr    w11, w10, #2
-	WORD $0x138a6d8a // extr    w10, w12, w10, #27
-	WORD $0x2eb14739 // ushl    v25.2s, v25.2s, v17.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d78 // mov    v24.s[2], w11
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f0777d8 // bic    v24.4s, #254, lsl #24
-	WORD $0x3d800118 // str    q24, [x8]
-	WORD $0xfd402018 // ldr    d24, [x0, #64]
-	WORD $0xbd403c19 // ldr    s25, [x0, #60]
-	WORD $0xb940480c // ldr    w12, [x0, #72]
-	WORD $0x2eb2471a // ushl    v26.2s, v24.2s, v18.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x53067d4b // lsr    w11, w10, #6
-	WORD $0x138a7d8a // extr    w10, w12, w10, #31
-	WORD $0x2eb34739 // ushl    v25.2s, v25.2s, v19.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d78 // mov    v24.s[2], w11
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f0777d8 // bic    v24.4s, #254, lsl #24
-	WORD $0x3d800518 // str    q24, [x8, #16]
-	WORD $0xfc44c018 // ldur    d24, [x0, #76]
-	WORD $0xbd404819 // ldr    s25, [x0, #72]
-	WORD $0xb940540b // ldr    w11, [x0, #84]
-	WORD $0x2eb4471a // ushl    v26.2s, v24.2s, v20.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x138a296a // extr    w10, w11, w10, #10
-	WORD $0x2eb54739 // ushl    v25.2s, v25.2s, v21.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d58 // mov    v24.s[2], w10
-	WORD $0x53037d6a // lsr    w10, w11, #3
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f0777d8 // bic    v24.4s, #254, lsl #24
-	WORD $0x3d800918 // str    q24, [x8, #32]
-	WORD $0xfd402c18 // ldr    d24, [x0, #88]
-	WORD $0xbd405419 // ldr    s25, [x0, #84]
-	WORD $0xb940600b // ldr    w11, [x0, #96]
-	WORD $0x91019000 // add    x0, x0, #100
-	WORD $0x2eb6471a // ushl    v26.2s, v24.2s, v22.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x138a396a // extr    w10, w11, w10, #14
-	WORD $0x2eb74739 // ushl    v25.2s, v25.2s, v23.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d58 // mov    v24.s[2], w10
-	WORD $0x53077d6a // lsr    w10, w11, #7
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f0777d8 // bic    v24.4s, #254, lsl #24
-	WORD $0x3d800d18 // str    q24, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_41
-	JMP LBB0_156
-
-LBB0_42:
-	WORD $0x7100147f // cmp    w3, #5
-	BGT LBB0_85
-
-	// %bb.43:
-	WORD $0x7100107f // cmp    w3, #4
-	BEQ LBB0_115
-
-	// %bb.44:
-	WORD $0x7100147f // cmp    w3, #5
-	BNE LBB0_156
-
-	// %bb.45:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.46:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_178
-	// WORD $0x90000009 // adrp    x9, .LCPI0_179
-	// WORD $0x9000000a // adrp    x10, .LCPI0_180
-	WORD $0x4f0007e7 // movi    v7.4s, #31
-	VMOVD LCPI0_178, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_181
-	VMOVD LCPI0_179, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_182
-	VMOVQ LCPI0_180L, LCPI0_180H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_183
-	VMOVD LCPI0_181, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_184
-	VMOVD LCPI0_182, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_185
-	VMOVQ LCPI0_183L, LCPI0_183H, V5
-	VMOVD LCPI0_184, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_185L, LCPI0_185H, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_47:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x530f7d4a // lsr    w10, w10, #15
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x2ea04631 // ushl    v17.2s, v17.2s, v0.2s
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x53037d6a // lsr    w10, w11, #3
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x9100100a // add    x10, x0, #4
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6ea24631 // ushl    v17.4s, v17.4s, v2.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x530b7d6a // lsr    w10, w11, #11
-	WORD $0x2ea34631 // ushl    v17.2s, v17.2s, v3.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x531a7d4c // lsr    w12, w10, #26
-	WORD $0x138a7d6a // extr    w10, w11, w10, #31
-	WORD $0x2ea44631 // ushl    v17.2s, v17.2s, v4.2s
-	WORD $0x4e141d91 // mov    v17.s[2], w12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x9100300a // add    x10, x0, #12
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6ea54631 // ushl    v17.4s, v17.4s, v5.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x53187d4c // lsr    w12, w10, #24
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x138a756a // extr    w10, w11, w10, #29
-	WORD $0x1e270192 // fmov    s18, w12
-	WORD $0x2ea64631 // ushl    v17.2s, v17.2s, v6.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x9100400a // add    x10, x0, #16
-	WORD $0x91005000 // add    x0, x0, #20
-	WORD $0x6e180632 // mov    v18.d[1], v17.d[0]
-	WORD $0x4e271e51 // and    v17.16b, v18.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6eb04631 // ushl    v17.4s, v17.4s, v16.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_47
-	JMP LBB0_156
-
-LBB0_48:
-	WORD $0x7100547f // cmp    w3, #21
-	BGT LBB0_90
-
-	// %bb.49:
-	WORD $0x7100507f // cmp    w3, #20
-	BEQ LBB0_118
-
-	// %bb.50:
-	WORD $0x7100547f // cmp    w3, #21
-	BNE LBB0_156
-
-	// %bb.51:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.52:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_118
-	// WORD $0x90000009 // adrp    x9, .LCPI0_119
-	// WORD $0x9000000a // adrp    x10, .LCPI0_120
-	WORD $0x4f00d7f3 // movi    v19.4s, #31, msl #16
-	VMOVD LCPI0_118, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_121
-	VMOVD LCPI0_119, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_122
-	VMOVD LCPI0_120, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_123
-	VMOVD LCPI0_121, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_124
-	VMOVD LCPI0_122, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_125
-	VMOVD LCPI0_123, V5
-	// WORD $0x9000000a // adrp    x10, .LCPI0_126
-	VMOVD LCPI0_124, V6
-	// WORD $0x90000008 // adrp    x8, .LCPI0_127
-	VMOVD LCPI0_125, V7
-	// WORD $0x90000009 // adrp    x9, .LCPI0_128
-	VMOVD LCPI0_126, V16
-	// WORD $0x9000000a // adrp    x10, .LCPI0_129
-	VMOVD LCPI0_127, V17
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_128, V18
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_129, V20
-
-LBB0_53:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x138a556c // extr    w12, w11, w10, #21
-	WORD $0x1e270155 // fmov    s21, w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e0c1d95 // mov    v21.s[1], w12
-	WORD $0xb940080c // ldr    w12, [x0, #8]
-	WORD $0x4e141d55 // mov    v21.s[2], w10
-	WORD $0x138b7d8a // extr    w10, w12, w11, #31
-	WORD $0x4e1c1d55 // mov    v21.s[3], w10
-	WORD $0x4e331eb5 // and    v21.16b, v21.16b, v19.16b
-	WORD $0x3c9c0115 // stur    q21, [x8, #-64]
-	WORD $0x2941280b // ldp    w11, w10, [x0, #8]
-	WORD $0xfd400815 // ldr    d21, [x0, #16]
-	WORD $0x1e270156 // fmov    s22, w10
-	WORD $0x138b514b // extr    w11, w10, w11, #20
-	WORD $0x53097d4a // lsr    w10, w10, #9
-	WORD $0x0e953ad6 // zip1    v22.2s, v22.2s, v21.2s
-	WORD $0x2ea046b5 // ushl    v21.2s, v21.2s, v0.2s
-	WORD $0x1e270177 // fmov    s23, w11
-	WORD $0x2ea146d6 // ushl    v22.2s, v22.2s, v1.2s
-	WORD $0x4e0c1d57 // mov    v23.s[1], w10
-	WORD $0x0eb61eb5 // orr    v21.8b, v21.8b, v22.8b
-	WORD $0x6e1806b7 // mov    v23.d[1], v21.d[0]
-	WORD $0x4e331ef5 // and    v21.16b, v23.16b, v19.16b
-	WORD $0x3c9d0115 // stur    q21, [x8, #-48]
-	WORD $0xb940140a // ldr    w10, [x0, #20]
-	WORD $0xfd400c15 // ldr    d21, [x0, #24]
-	WORD $0x1e270156 // fmov    s22, w10
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea246b7 // ushl    v23.2s, v21.2s, v2.2s
-	WORD $0x0e953ad6 // zip1    v22.2s, v22.2s, v21.2s
-	WORD $0x1e270158 // fmov    s24, w10
-	WORD $0x0e0c3eaa // mov    w10, v21.s[1]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x2ea346d6 // ushl    v22.2s, v22.2s, v3.2s
-	WORD $0x53077d4a // lsr    w10, w10, #7
-	WORD $0x0eb61ef6 // orr    v22.8b, v23.8b, v22.8b
-	WORD $0x6e166315 // ext    v21.16b, v24.16b, v22.16b, #12
-	WORD $0x4e1c1d55 // mov    v21.s[3], w10
-	WORD $0x4e331eb5 // and    v21.16b, v21.16b, v19.16b
-	WORD $0x3c9e0115 // stur    q21, [x8, #-32]
-	WORD $0xfd401015 // ldr    d21, [x0, #32]
-	WORD $0xbd401c16 // ldr    s22, [x0, #28]
-	WORD $0xb940280c // ldr    w12, [x0, #40]
-	WORD $0x2ea446b7 // ushl    v23.2s, v21.2s, v4.2s
-	WORD $0x0e0c3eaa // mov    w10, v21.s[1]
-	WORD $0x0e953ad6 // zip1    v22.2s, v22.2s, v21.2s
-	WORD $0x53067d4b // lsr    w11, w10, #6
-	WORD $0x138a6d8a // extr    w10, w12, w10, #27
-	WORD $0x2ea546d6 // ushl    v22.2s, v22.2s, v5.2s
-	WORD $0x0eb61ef5 // orr    v21.8b, v23.8b, v22.8b
-	WORD $0x4e141d75 // mov    v21.s[2], w11
-	WORD $0x4e1c1d55 // mov    v21.s[3], w10
-	WORD $0x4e331eb5 // and    v21.16b, v21.16b, v19.16b
-	WORD $0x3c9f0115 // stur    q21, [x8, #-16]
-	WORD $0x2945280b // ldp    w11, w10, [x0, #40]
-	WORD $0xfd401815 // ldr    d21, [x0, #48]
-	WORD $0x1e270156 // fmov    s22, w10
-	WORD $0x138b414b // extr    w11, w10, w11, #16
-	WORD $0x53057d4a // lsr    w10, w10, #5
-	WORD $0x0e953ad6 // zip1    v22.2s, v22.2s, v21.2s
-	WORD $0x2ea646b5 // ushl    v21.2s, v21.2s, v6.2s
-	WORD $0x1e270177 // fmov    s23, w11
-	WORD $0x2ea746d6 // ushl    v22.2s, v22.2s, v7.2s
-	WORD $0x4e0c1d57 // mov    v23.s[1], w10
-	WORD $0x0eb61eb5 // orr    v21.8b, v21.8b, v22.8b
-	WORD $0x6e1806b7 // mov    v23.d[1], v21.d[0]
-	WORD $0x4e331ef5 // and    v21.16b, v23.16b, v19.16b
-	WORD $0x3d800115 // str    q21, [x8]
-	WORD $0xb940340a // ldr    w10, [x0, #52]
-	WORD $0xfd401c15 // ldr    d21, [x0, #56]
-	WORD $0x1e270156 // fmov    s22, w10
-	WORD $0x53047d4a // lsr    w10, w10, #4
-	WORD $0x2eb046b7 // ushl    v23.2s, v21.2s, v16.2s
-	WORD $0x0e953ad6 // zip1    v22.2s, v22.2s, v21.2s
-	WORD $0x1e270158 // fmov    s24, w10
-	WORD $0x0e0c3eaa // mov    w10, v21.s[1]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x2eb146d6 // ushl    v22.2s, v22.2s, v17.2s
-	WORD $0x53037d4a // lsr    w10, w10, #3
-	WORD $0x0eb61ef6 // orr    v22.8b, v23.8b, v22.8b
-	WORD $0x6e166315 // ext    v21.16b, v24.16b, v22.16b, #12
-	WORD $0x4e1c1d55 // mov    v21.s[3], w10
-	WORD $0x4e331eb5 // and    v21.16b, v21.16b, v19.16b
-	WORD $0x3d800515 // str    q21, [x8, #16]
-	WORD $0xfd402015 // ldr    d21, [x0, #64]
-	WORD $0xbd403c16 // ldr    s22, [x0, #60]
-	WORD $0xb940480c // ldr    w12, [x0, #72]
-	WORD $0x2eb246b7 // ushl    v23.2s, v21.2s, v18.2s
-	WORD $0x0e0c3eaa // mov    w10, v21.s[1]
-	WORD $0x0e953ad6 // zip1    v22.2s, v22.2s, v21.2s
-	WORD $0x53027d4b // lsr    w11, w10, #2
-	WORD $0x138a5d8a // extr    w10, w12, w10, #23
-	WORD $0x2eb446d6 // ushl    v22.2s, v22.2s, v20.2s
-	WORD $0x0eb61ef5 // orr    v21.8b, v23.8b, v22.8b
-	WORD $0x4e141d75 // mov    v21.s[2], w11
-	WORD $0x4e1c1d55 // mov    v21.s[3], w10
-	WORD $0x4e331eb5 // and    v21.16b, v21.16b, v19.16b
-	WORD $0x3d800915 // str    q21, [x8, #32]
-	WORD $0x29492c0a // ldp    w10, w11, [x0, #72]
-	WORD $0x138a316a // extr    w10, w11, w10, #12
-	WORD $0x53017d6c // lsr    w12, w11, #1
-	WORD $0x1e270155 // fmov    s21, w10
-	WORD $0xb940500a // ldr    w10, [x0, #80]
-	WORD $0x91015000 // add    x0, x0, #84
-	WORD $0x138b594b // extr    w11, w10, w11, #22
-	WORD $0x4e0c1d95 // mov    v21.s[1], w12
-	WORD $0x530b7d4a // lsr    w10, w10, #11
-	WORD $0x4e141d75 // mov    v21.s[2], w11
-	WORD $0x4e1c1d55 // mov    v21.s[3], w10
-	WORD $0x4e331eb5 // and    v21.16b, v21.16b, v19.16b
-	WORD $0x3d800d15 // str    q21, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_53
-	JMP LBB0_156
-
-LBB0_54:
-	WORD $0x7100347f // cmp    w3, #13
-	BGT LBB0_95
-
-	// %bb.55:
-	WORD $0x7100307f // cmp    w3, #12
-	BEQ LBB0_121
-
-	// %bb.56:
-	WORD $0x7100347f // cmp    w3, #13
-	BNE LBB0_156
-
-	// %bb.57:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.58:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_140
-	// WORD $0x90000009 // adrp    x9, .LCPI0_141
-	// WORD $0x9000000a // adrp    x10, .LCPI0_142
-	// WORD $0x9000000b // adrp    x11, .LCPI0_143
-	// WORD $0x9000000c // adrp    x12, .LCPI0_144
-	WORD $0x4f00c7e3 // movi    v3.4s, #31, msl #8
-	VMOVD LCPI0_140, V0
-	VMOVD LCPI0_141, V1
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_142, V2
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_143, V4
-	VMOVD LCPI0_144, V5
-
-LBB0_59:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x530d7d4c // lsr    w12, w10, #13
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x4e0c1d86 // mov    v6.s[1], w12
-	WORD $0x4e141d46 // mov    v6.s[2], w10
-	WORD $0x53077d6a // lsr    w10, w11, #7
-	WORD $0x4e1c1d46 // mov    v6.s[3], w10
-	WORD $0x4e231cc6 // and    v6.16b, v6.16b, v3.16b
-	WORD $0x3c9c0106 // stur    q6, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x0e040d66 // dup    v6.2s, w11
-	WORD $0x1e270147 // fmov    s7, w10
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0x2ea044c6 // ushl    v6.2s, v6.2s, v0.2s
-	WORD $0x138b6d4a // extr    w10, w10, w11, #27
-	WORD $0x6e0720e7 // ext    v7.16b, v7.16b, v7.16b, #4
-	WORD $0x6e0660e6 // ext    v6.16b, v7.16b, v6.16b, #12
-	WORD $0x4e1c1d46 // mov    v6.s[3], w10
-	WORD $0x4e231cc6 // and    v6.16b, v6.16b, v3.16b
-	WORD $0x3c9d0106 // stur    q6, [x8, #-48]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x0e040d66 // dup    v6.2s, w11
-	WORD $0x138a556a // extr    w10, w11, w10, #21
-	WORD $0x1e270187 // fmov    s7, w12
-	WORD $0x2ea144c6 // ushl    v6.2s, v6.2s, v1.2s
-	WORD $0x4e0c1d47 // mov    v7.s[1], w10
-	WORD $0x6e1804c7 // mov    v7.d[1], v6.d[0]
-	WORD $0x4e231ce6 // and    v6.16b, v7.16b, v3.16b
-	WORD $0x3c9e0106 // stur    q6, [x8, #-32]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x53097d6c // lsr    w12, w11, #9
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0xb940180a // ldr    w10, [x0, #24]
-	WORD $0x138b594b // extr    w11, w10, w11, #22
-	WORD $0x4e0c1d86 // mov    v6.s[1], w12
-	WORD $0x53037d4a // lsr    w10, w10, #3
-	WORD $0x4e141d66 // mov    v6.s[2], w11
-	WORD $0x4e1c1d46 // mov    v6.s[3], w10
-	WORD $0x4e231cc6 // and    v6.16b, v6.16b, v3.16b
-	WORD $0x3c9f0106 // stur    q6, [x8, #-16]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x138a756a // extr    w10, w11, w10, #29
-	WORD $0x1e270186 // fmov    s6, w12
-	WORD $0xb940200c // ldr    w12, [x0, #32]
-	WORD $0x4e0c1d46 // mov    v6.s[1], w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e141d46 // mov    v6.s[2], w10
-	WORD $0x138b5d8a // extr    w10, w12, w11, #23
-	WORD $0x4e1c1d46 // mov    v6.s[3], w10
-	WORD $0x4e231cc6 // and    v6.16b, v6.16b, v3.16b
-	WORD $0x3d800106 // str    q6, [x8]
-	WORD $0x29442c0a // ldp    w10, w11, [x0, #32]
-	WORD $0x0e040d46 // dup    v6.2s, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x2ea244c6 // ushl    v6.2s, v6.2s, v2.2s
-	WORD $0x4e141d46 // mov    v6.s[2], w10
-	WORD $0x530b7d6a // lsr    w10, w11, #11
-	WORD $0x4e1c1d46 // mov    v6.s[3], w10
-	WORD $0x4e231cc6 // and    v6.16b, v6.16b, v3.16b
-	WORD $0x3d800506 // str    q6, [x8, #16]
-	WORD $0x2944ac0a // ldp    w10, w11, [x0, #36]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x0e040d66 // dup    v6.2s, w11
-	WORD $0x1e270147 // fmov    s7, w10
-	WORD $0xb9402c0a // ldr    w10, [x0, #44]
-	WORD $0x2ea444c6 // ushl    v6.2s, v6.2s, v4.2s
-	WORD $0x138b7d4a // extr    w10, w10, w11, #31
-	WORD $0x6e0720e7 // ext    v7.16b, v7.16b, v7.16b, #4
-	WORD $0x6e0660e6 // ext    v6.16b, v7.16b, v6.16b, #12
-	WORD $0x4e1c1d46 // mov    v6.s[3], w10
-	WORD $0x4e231cc6 // and    v6.16b, v6.16b, v3.16b
-	WORD $0x3d800906 // str    q6, [x8, #32]
-	WORD $0x2945ac0a // ldp    w10, w11, [x0, #44]
-	WORD $0x9100d000 // add    x0, x0, #52
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x0e040d66 // dup    v6.2s, w11
-	WORD $0x138a656a // extr    w10, w11, w10, #25
-	WORD $0x1e270187 // fmov    s7, w12
-	WORD $0x2ea544c6 // ushl    v6.2s, v6.2s, v5.2s
-	WORD $0x4e0c1d47 // mov    v7.s[1], w10
-	WORD $0x6e1804c7 // mov    v7.d[1], v6.d[0]
-	WORD $0x4e231ce6 // and    v6.16b, v7.16b, v3.16b
-	WORD $0x3d800d06 // str    q6, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_59
-	JMP LBB0_156
-
-LBB0_60:
-	WORD $0x7100707f // cmp    w3, #28
-	BEQ LBB0_124
-
-	// %bb.61:
-	WORD $0x7100747f // cmp    w3, #29
-	BNE LBB0_156
-
-	// %bb.62:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.63:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_32
-	// WORD $0x90000009 // adrp    x9, .LCPI0_33
-	// WORD $0x9000000a // adrp    x10, .LCPI0_34
-	// WORD $0x9000000b // adrp    x11, .LCPI0_47
-	VMOVD LCPI0_32, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_35
-	VMOVD LCPI0_33, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_36
-	VMOVQ LCPI0_34L, LCPI0_34H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_37
-	VMOVQ LCPI0_35L, LCPI0_35H, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_38
-	VMOVD LCPI0_36, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_39
-	VMOVD LCPI0_37, V5
-	// WORD $0x9000000a // adrp    x10, .LCPI0_40
-	VMOVQ LCPI0_38L, LCPI0_38H, V6
-	// WORD $0x90000008 // adrp    x8, .LCPI0_41
-	VMOVQ LCPI0_39L, LCPI0_39H, V7
-	// WORD $0x90000009 // adrp    x9, .LCPI0_42
-	VMOVQ LCPI0_40L, LCPI0_40H, V16
-	// WORD $0x9000000a // adrp    x10, .LCPI0_43
-	VMOVQ LCPI0_41L, LCPI0_41H, V17
-	// WORD $0x90000008 // adrp    x8, .LCPI0_44
-	VMOVD LCPI0_42, V18
-	// WORD $0x90000009 // adrp    x9, .LCPI0_45
-	VMOVD LCPI0_43, V19
-	// WORD $0x9000000a // adrp    x10, .LCPI0_46
-	VMOVQ LCPI0_44L, LCPI0_44H, V20
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_45L, LCPI0_45H, V21
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_46, V22
-	VMOVD LCPI0_47, V23
-
-LBB0_64:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404018 // ldur    d24, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x2ea0471b // ushl    v27.2s, v24.2s, v0.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x6e1a235a // ext    v26.16b, v26.16b, v26.16b, #4
-	WORD $0x138a5d6a // extr    w10, w11, w10, #23
-	WORD $0x2ea14739 // ushl    v25.2s, v25.2s, v1.2s
-	WORD $0x0eb91f79 // orr    v25.8b, v27.8b, v25.8b
-	WORD $0x6e196358 // ext    v24.16b, v26.16b, v25.16b, #12
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3c9c0118 // stur    q24, [x8, #-64]
-	WORD $0xbd400c18 // ldr    s24, [x0, #12]
-	WORD $0x3dc00419 // ldr    q25, [x0, #16]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6ea24739 // ushl    v25.4s, v25.4s, v2.4s
-	WORD $0x6ea34718 // ushl    v24.4s, v24.4s, v3.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3c9d0118 // stur    q24, [x8, #-48]
-	WORD $0xfd401018 // ldr    d24, [x0, #32]
-	WORD $0xbd401c19 // ldr    s25, [x0, #28]
-	WORD $0xb940280c // ldr    w12, [x0, #40]
-	WORD $0x2ea4471a // ushl    v26.2s, v24.2s, v4.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x53027d4b // lsr    w11, w10, #2
-	WORD $0x138a7d8a // extr    w10, w12, w10, #31
-	WORD $0x2ea54739 // ushl    v25.2s, v25.2s, v5.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d78 // mov    v24.s[2], w11
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3c9e0118 // stur    q24, [x8, #-32]
-	WORD $0xbd402818 // ldr    s24, [x0, #40]
-	WORD $0x3cc2c019 // ldur    q25, [x0, #44]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6ea64739 // ushl    v25.4s, v25.4s, v6.4s
-	WORD $0x6ea74718 // ushl    v24.4s, v24.4s, v7.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3c9f0118 // stur    q24, [x8, #-16]
-	WORD $0xbd403818 // ldr    s24, [x0, #56]
-	WORD $0x3cc3c019 // ldur    q25, [x0, #60]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6eb04739 // ushl    v25.4s, v25.4s, v16.4s
-	WORD $0x6eb14718 // ushl    v24.4s, v24.4s, v17.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3d800118 // str    q24, [x8]
-	WORD $0x2949280b // ldp    w11, w10, [x0, #72]
-	WORD $0xfd402818 // ldr    d24, [x0, #80]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x138b114b // extr    w11, w10, w11, #4
-	WORD $0x53017d4a // lsr    w10, w10, #1
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x2eb24718 // ushl    v24.2s, v24.2s, v18.2s
-	WORD $0x1e27017a // fmov    s26, w11
-	WORD $0x2eb34739 // ushl    v25.2s, v25.2s, v19.2s
-	WORD $0x4e0c1d5a // mov    v26.s[1], w10
-	WORD $0x0eb91f18 // orr    v24.8b, v24.8b, v25.8b
-	WORD $0x6e18071a // mov    v26.d[1], v24.d[0]
-	WORD $0x6f07741a // bic    v26.4s, #224, lsl #24
-	WORD $0x3d80051a // str    q26, [x8, #16]
-	WORD $0xbd405418 // ldr    s24, [x0, #84]
-	WORD $0x3cc58019 // ldur    q25, [x0, #88]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6eb44739 // ushl    v25.4s, v25.4s, v20.4s
-	WORD $0x6eb54718 // ushl    v24.4s, v24.4s, v21.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3d800918 // str    q24, [x8, #32]
-	WORD $0xfd403418 // ldr    d24, [x0, #104]
-	WORD $0xbd406419 // ldr    s25, [x0, #100]
-	WORD $0xb940700b // ldr    w11, [x0, #112]
-	WORD $0x9101d000 // add    x0, x0, #116
-	WORD $0x2eb6471a // ushl    v26.2s, v24.2s, v22.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x138a196a // extr    w10, w11, w10, #6
-	WORD $0x2eb74739 // ushl    v25.2s, v25.2s, v23.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d58 // mov    v24.s[2], w10
-	WORD $0x53037d6a // lsr    w10, w11, #3
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077418 // bic    v24.4s, #224, lsl #24
-	WORD $0x3d800d18 // str    q24, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_64
-	JMP LBB0_156
-
-LBB0_65:
-	WORD $0x7100087f // cmp    w3, #2
-	BEQ LBB0_127
-
-	// %bb.66:
-	WORD $0x71000c7f // cmp    w3, #3
-	BNE LBB0_156
-
-	// %bb.67:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.68:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_188
-	// WORD $0x90000009 // adrp    x9, .LCPI0_189
-	// WORD $0x9000000a // adrp    x10, .LCPI0_190
-	WORD $0x4f0004e7 // movi    v7.4s, #7
-	VMOVD LCPI0_188, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_191
-	VMOVQ LCPI0_189L, LCPI0_189H, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_192
-	VMOVD LCPI0_190, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_193
-	VMOVQ LCPI0_191L, LCPI0_191H, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_194
-	VMOVQ LCPI0_192L, LCPI0_192H, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_195
-	VMOVD LCPI0_193, V5
-	VMOVQ LCPI0_194L, LCPI0_194H, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_195L, LCPI0_195H, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_69:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53097d4a // lsr    w10, w10, #9
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x2ea04631 // ushl    v17.2s, v17.2s, v0.2s
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0xaa0003ea // mov    x10, x0
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0x4ddfc951 // ld1r    { v17.4s }, [x10], #4
-	WORD $0x6ea14631 // ushl    v17.4s, v17.4s, v1.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0xb940000b // ldr    w11, [x0]
-	WORD $0xb940014c // ldr    w12, [x10]
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x138b798b // extr    w11, w12, w11, #30
-	WORD $0x2ea24631 // ushl    v17.2s, v17.2s, v2.2s
-	WORD $0x4e141d71 // mov    v17.s[2], w11
-	WORD $0x53017d8b // lsr    w11, w12, #1
-	WORD $0x4e1c1d71 // mov    v17.s[3], w11
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6ea34631 // ushl    v17.4s, v17.4s, v3.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6ea44631 // ushl    v17.4s, v17.4s, v4.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0xb940014a // ldr    w10, [x10]
-	WORD $0xb940080b // ldr    w11, [x0, #8]
-	WORD $0x531c7d4c // lsr    w12, w10, #28
-	WORD $0x138a7d6a // extr    w10, w11, w10, #31
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x1e270192 // fmov    s18, w12
-	WORD $0x2ea54631 // ushl    v17.2s, v17.2s, v5.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x9100200a // add    x10, x0, #8
-	WORD $0x91003000 // add    x0, x0, #12
-	WORD $0x6e180632 // mov    v18.d[1], v17.d[0]
-	WORD $0x4e271e51 // and    v17.16b, v18.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6ea64631 // ushl    v17.4s, v17.4s, v6.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6eb04631 // ushl    v17.4s, v17.4s, v16.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_69
-	JMP LBB0_156
-
-LBB0_70:
-	WORD $0x7100487f // cmp    w3, #18
-	BEQ LBB0_130
-
-	// %bb.71:
-	WORD $0x71004c7f // cmp    w3, #19
-	BNE LBB0_156
-
-	// %bb.72:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.73:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_130
-	// WORD $0x90000009 // adrp    x9, .LCPI0_131
-	// WORD $0x9000000a // adrp    x10, .LCPI0_132
-	WORD $0x4f00d4e7 // movi    v7.4s, #7, msl #16
-	VMOVD LCPI0_130, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_133
-	VMOVD LCPI0_131, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_134
-	VMOVD LCPI0_132, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_135
-	VMOVD LCPI0_133, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_136
-	VMOVD LCPI0_134, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_137
-	VMOVD LCPI0_135, V5
-	VMOVD LCPI0_136, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_137, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_74:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x138a4d6c // extr    w12, w11, w10, #19
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e0c1d91 // mov    v17.s[1], w12
-	WORD $0xb940080c // ldr    w12, [x0, #8]
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x138b658a // extr    w10, w12, w11, #25
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0xb940080a // ldr    w10, [x0, #8]
-	WORD $0xfc40c011 // ldur    d17, [x0, #12]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x2ea04633 // ushl    v19.2s, v17.2s, v0.2s
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x1e270154 // fmov    s20, w10
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x6e142294 // ext    v20.16b, v20.16b, v20.16b, #4
-	WORD $0x2ea14652 // ushl    v18.2s, v18.2s, v1.2s
-	WORD $0x53057d4a // lsr    w10, w10, #5
-	WORD $0x0eb21e72 // orr    v18.8b, v19.8b, v18.8b
-	WORD $0x6e126291 // ext    v17.16b, v20.16b, v18.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0x2942280b // ldp    w11, w10, [x0, #16]
-	WORD $0xfd400c11 // ldr    d17, [x0, #24]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x138b614b // extr    w11, w10, w11, #24
-	WORD $0x530b7d4a // lsr    w10, w10, #11
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x2ea24631 // ushl    v17.2s, v17.2s, v2.2s
-	WORD $0x1e270173 // fmov    s19, w11
-	WORD $0x2ea34652 // ushl    v18.2s, v18.2s, v3.2s
-	WORD $0x4e0c1d53 // mov    v19.s[1], w10
-	WORD $0x0eb21e31 // orr    v17.8b, v17.8b, v18.8b
-	WORD $0x6e180633 // mov    v19.d[1], v17.d[0]
-	WORD $0x4e271e71 // and    v17.16b, v19.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x53047d4c // lsr    w12, w10, #4
-	WORD $0x138a5d6a // extr    w10, w11, w10, #23
-	WORD $0x1e270191 // fmov    s17, w12
-	WORD $0xb940240c // ldr    w12, [x0, #36]
-	WORD $0x4e0c1d51 // mov    v17.s[1], w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x138b758a // extr    w10, w12, w11, #29
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0x2944ac0a // ldp    w10, w11, [x0, #36]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53037d6c // lsr    w12, w11, #3
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0xb9402c0a // ldr    w10, [x0, #44]
-	WORD $0x138b594b // extr    w11, w10, w11, #22
-	WORD $0x4e0c1d91 // mov    v17.s[1], w12
-	WORD $0x53097d4a // lsr    w10, w10, #9
-	WORD $0x4e141d71 // mov    v17.s[2], w11
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0xfd401811 // ldr    d17, [x0, #48]
-	WORD $0xbd402c12 // ldr    s18, [x0, #44]
-	WORD $0xb940380c // ldr    w12, [x0, #56]
-	WORD $0x2ea44633 // ushl    v19.2s, v17.2s, v4.2s
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x53027d4b // lsr    w11, w10, #2
-	WORD $0x138a558a // extr    w10, w12, w10, #21
-	WORD $0x2ea54652 // ushl    v18.2s, v18.2s, v5.2s
-	WORD $0x0eb21e71 // orr    v17.8b, v19.8b, v18.8b
-	WORD $0x4e141d71 // mov    v17.s[2], w11
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0xb940380a // ldr    w10, [x0, #56]
-	WORD $0xfc43c011 // ldur    d17, [x0, #60]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea64633 // ushl    v19.2s, v17.2s, v6.2s
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x1e270154 // fmov    s20, w10
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x6e142294 // ext    v20.16b, v20.16b, v20.16b, #4
-	WORD $0x2eb04652 // ushl    v18.2s, v18.2s, v16.2s
-	WORD $0x53017d4a // lsr    w10, w10, #1
-	WORD $0x0eb21e72 // orr    v18.8b, v19.8b, v18.8b
-	WORD $0x6e126291 // ext    v17.16b, v20.16b, v18.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0x29482c0a // ldp    w10, w11, [x0, #64]
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x53077d6c // lsr    w12, w11, #7
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0xb940480a // ldr    w10, [x0, #72]
-	WORD $0x91013000 // add    x0, x0, #76
-	WORD $0x138b694b // extr    w11, w10, w11, #26
-	WORD $0x4e0c1d91 // mov    v17.s[1], w12
-	WORD $0x530d7d4a // lsr    w10, w10, #13
-	WORD $0x4e141d71 // mov    v17.s[2], w11
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_74
-	JMP LBB0_156
-
-LBB0_75:
-	WORD $0x7100287f // cmp    w3, #10
-	BEQ LBB0_133
-
-	// %bb.76:
-	WORD $0x71002c7f // cmp    w3, #11
-	BNE LBB0_156
-
-	// %bb.77:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.78:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_147
-	// WORD $0x90000008 // adrp    x8, .LCPI0_146
-	// WORD $0x9000000a // adrp    x10, .LCPI0_148
-	WORD $0x4f00c4e6 // movi    v6.4s, #7, msl #8
-	VMOVD LCPI0_147, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_150
-	VMOVD LCPI0_146, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_149
-	VMOVD LCPI0_148, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_151
-	VMOVD LCPI0_150, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_152
-	VMOVD LCPI0_149, V3
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_151, V5
-	VMOVD LCPI0_152, V7
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_79:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x530b7d4c // lsr    w12, w10, #11
-	WORD $0x1e270150 // fmov    s16, w10
-	WORD $0x138a596a // extr    w10, w11, w10, #22
-	WORD $0x4e0c1d90 // mov    v16.s[1], w12
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53017d6a // lsr    w10, w11, #1
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x4e261e10 // and    v16.16b, v16.16b, v6.16b
-	WORD $0x3c9c0110 // stur    q16, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x0e040d70 // dup    v16.2s, w11
-	WORD $0x138a5d6a // extr    w10, w11, w10, #23
-	WORD $0x1e270191 // fmov    s17, w12
-	WORD $0x2ea04610 // ushl    v16.2s, v16.2s, v0.2s
-	WORD $0x4e0c1d51 // mov    v17.s[1], w10
-	WORD $0x6e180611 // mov    v17.d[1], v16.d[0]
-	WORD $0x4e261e30 // and    v16.16b, v17.16b, v6.16b
-	WORD $0x3c9d0110 // stur    q16, [x8, #-48]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x0e040d70 // dup    v16.2s, w11
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0xb940100a // ldr    w10, [x0, #16]
-	WORD $0x2ea14610 // ushl    v16.2s, v16.2s, v1.2s
-	WORD $0x138b654a // extr    w10, w10, w11, #25
-	WORD $0x6e112231 // ext    v17.16b, v17.16b, v17.16b, #4
-	WORD $0x6e106230 // ext    v16.16b, v17.16b, v16.16b, #12
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x4e261e10 // and    v16.16b, v16.16b, v6.16b
-	WORD $0x3c9e0110 // stur    q16, [x8, #-32]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x0e040d50 // dup    v16.2s, w10
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x2ea24610 // ushl    v16.2s, v16.2s, v2.2s
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53057d6a // lsr    w10, w11, #5
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x4e261e10 // and    v16.16b, v16.16b, v6.16b
-	WORD $0x3c9f0110 // stur    q16, [x8, #-16]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d70 // dup    v16.2s, w11
-	WORD $0x138a6d6a // extr    w10, w11, w10, #27
-	WORD $0x1e270191 // fmov    s17, w12
-	WORD $0x2ea34610 // ushl    v16.2s, v16.2s, v3.2s
-	WORD $0x4e0c1d51 // mov    v17.s[1], w10
-	WORD $0x6e180611 // mov    v17.d[1], v16.d[0]
-	WORD $0x4e261e30 // and    v16.16b, v17.16b, v6.16b
-	WORD $0x3d800110 // str    q16, [x8]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x0e040d70 // dup    v16.2s, w11
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0xb940200a // ldr    w10, [x0, #32]
-	WORD $0x2ea44610 // ushl    v16.2s, v16.2s, v4.2s
-	WORD $0x138b754a // extr    w10, w10, w11, #29
-	WORD $0x6e112231 // ext    v17.16b, v17.16b, v17.16b, #4
-	WORD $0x6e106230 // ext    v16.16b, v17.16b, v16.16b, #12
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x4e261e10 // and    v16.16b, v16.16b, v6.16b
-	WORD $0x3d800510 // str    q16, [x8, #16]
-	WORD $0x29442c0a // ldp    w10, w11, [x0, #32]
-	WORD $0x0e040d50 // dup    v16.2s, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x2ea54610 // ushl    v16.2s, v16.2s, v5.2s
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53097d6a // lsr    w10, w11, #9
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x4e261e10 // and    v16.16b, v16.16b, v6.16b
-	WORD $0x3d800910 // str    q16, [x8, #32]
-	WORD $0x2944ac0a // ldp    w10, w11, [x0, #36]
-	WORD $0x9100b000 // add    x0, x0, #44
-	WORD $0x53147d4c // lsr    w12, w10, #20
-	WORD $0x0e040d70 // dup    v16.2s, w11
-	WORD $0x138a7d6a // extr    w10, w11, w10, #31
-	WORD $0x1e270191 // fmov    s17, w12
-	WORD $0x2ea74610 // ushl    v16.2s, v16.2s, v7.2s
-	WORD $0x4e0c1d51 // mov    v17.s[1], w10
-	WORD $0x6e180611 // mov    v17.d[1], v16.d[0]
-	WORD $0x4e261e30 // and    v16.16b, v17.16b, v6.16b
-	WORD $0x3d800d10 // str    q16, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_79
-	JMP LBB0_156
-
-LBB0_80:
-	WORD $0x7100687f // cmp    w3, #26
-	BEQ LBB0_136
-
-	// %bb.81:
-	WORD $0x71006c7f // cmp    w3, #27
-	BNE LBB0_156
-
-	// %bb.82:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.83:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_52
-	// WORD $0x90000009 // adrp    x9, .LCPI0_53
-	// WORD $0x9000000a // adrp    x10, .LCPI0_54
-	// WORD $0x9000000b // adrp    x11, .LCPI0_67
-	VMOVD LCPI0_52, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_55
-	VMOVD LCPI0_53, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_56
-	VMOVD LCPI0_54, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_57
-	VMOVD LCPI0_55, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_58
-	VMOVQ LCPI0_56L, LCPI0_56H, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_59
-	VMOVQ LCPI0_57L, LCPI0_57H, V5
-	// WORD $0x9000000a // adrp    x10, .LCPI0_60
-	VMOVD LCPI0_58, V6
-	// WORD $0x90000008 // adrp    x8, .LCPI0_61
-	VMOVD LCPI0_59, V7
-	// WORD $0x90000009 // adrp    x9, .LCPI0_62
-	VMOVD LCPI0_60, V16
-	// WORD $0x9000000a // adrp    x10, .LCPI0_63
-	VMOVD LCPI0_61, V17
-	// WORD $0x90000008 // adrp    x8, .LCPI0_64
-	VMOVQ LCPI0_62L, LCPI0_62H, V18
-	// WORD $0x90000009 // adrp    x9, .LCPI0_65
-	VMOVQ LCPI0_63L, LCPI0_63H, V19
-	// WORD $0x9000000a // adrp    x10, .LCPI0_66
-	VMOVD LCPI0_64, V20
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_65, V21
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_66, V22
-	VMOVD LCPI0_67, V23
-
-LBB0_84:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404018 // ldur    d24, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x2ea0471b // ushl    v27.2s, v24.2s, v0.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x6e1a235a // ext    v26.16b, v26.16b, v26.16b, #4
-	WORD $0x138a456a // extr    w10, w11, w10, #17
-	WORD $0x2ea14739 // ushl    v25.2s, v25.2s, v1.2s
-	WORD $0x0eb91f79 // orr    v25.8b, v27.8b, v25.8b
-	WORD $0x6e196358 // ext    v24.16b, v26.16b, v25.16b, #12
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3c9c0118 // stur    q24, [x8, #-64]
-	WORD $0xfd400818 // ldr    d24, [x0, #16]
-	WORD $0xbd400c19 // ldr    s25, [x0, #12]
-	WORD $0xb940180c // ldr    w12, [x0, #24]
-	WORD $0x2ea2471a // ushl    v26.2s, v24.2s, v2.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x53027d4b // lsr    w11, w10, #2
-	WORD $0x138a758a // extr    w10, w12, w10, #29
-	WORD $0x2ea34739 // ushl    v25.2s, v25.2s, v3.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d78 // mov    v24.s[2], w11
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3c9d0118 // stur    q24, [x8, #-48]
-	WORD $0xbd401818 // ldr    s24, [x0, #24]
-	WORD $0x3cc1c019 // ldur    q25, [x0, #28]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6ea44739 // ushl    v25.4s, v25.4s, v4.4s
-	WORD $0x6ea54718 // ushl    v24.4s, v24.4s, v5.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3c9e0118 // stur    q24, [x8, #-32]
-	WORD $0xb940280a // ldr    w10, [x0, #40]
-	WORD $0xfc42c018 // ldur    d24, [x0, #44]
-	WORD $0xb940340b // ldr    w11, [x0, #52]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x53047d4a // lsr    w10, w10, #4
-	WORD $0x2ea6471a // ushl    v26.2s, v24.2s, v6.2s
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x1e27015b // fmov    s27, w10
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x6e1b237b // ext    v27.16b, v27.16b, v27.16b, #4
-	WORD $0x2ea74739 // ushl    v25.2s, v25.2s, v7.2s
-	WORD $0x138a556a // extr    w10, w11, w10, #21
-	WORD $0x0eb91f59 // orr    v25.8b, v26.8b, v25.8b
-	WORD $0x6e196378 // ext    v24.16b, v27.16b, v25.16b, #12
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3c9f0118 // stur    q24, [x8, #-16]
-	WORD $0xfd401c18 // ldr    d24, [x0, #56]
-	WORD $0xbd403419 // ldr    s25, [x0, #52]
-	WORD $0xb940400b // ldr    w11, [x0, #64]
-	WORD $0x2eb0471a // ushl    v26.2s, v24.2s, v16.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x138a196a // extr    w10, w11, w10, #6
-	WORD $0x2eb14739 // ushl    v25.2s, v25.2s, v17.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d58 // mov    v24.s[2], w10
-	WORD $0x53017d6a // lsr    w10, w11, #1
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3d800118 // str    q24, [x8]
-	WORD $0xbd404018 // ldr    s24, [x0, #64]
-	WORD $0x3cc44019 // ldur    q25, [x0, #68]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6eb24739 // ushl    v25.4s, v25.4s, v18.4s
-	WORD $0x6eb34718 // ushl    v24.4s, v24.4s, v19.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3d800518 // str    q24, [x8, #16]
-	WORD $0x294a280b // ldp    w11, w10, [x0, #80]
-	WORD $0xfd402c18 // ldr    d24, [x0, #88]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x138b214b // extr    w11, w10, w11, #8
-	WORD $0x53037d4a // lsr    w10, w10, #3
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x2eb44718 // ushl    v24.2s, v24.2s, v20.2s
-	WORD $0x1e27017a // fmov    s26, w11
-	WORD $0x2eb54739 // ushl    v25.2s, v25.2s, v21.2s
-	WORD $0x4e0c1d5a // mov    v26.s[1], w10
-	WORD $0x0eb91f18 // orr    v24.8b, v24.8b, v25.8b
-	WORD $0x6e18071a // mov    v26.d[1], v24.d[0]
-	WORD $0x6f07771a // bic    v26.4s, #248, lsl #24
-	WORD $0x3d80091a // str    q26, [x8, #32]
-	WORD $0xfd403018 // ldr    d24, [x0, #96]
-	WORD $0xbd405c19 // ldr    s25, [x0, #92]
-	WORD $0xb940680b // ldr    w11, [x0, #104]
-	WORD $0x9101b000 // add    x0, x0, #108
-	WORD $0x2eb6471a // ushl    v26.2s, v24.2s, v22.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x138a296a // extr    w10, w11, w10, #10
-	WORD $0x2eb74739 // ushl    v25.2s, v25.2s, v23.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d58 // mov    v24.s[2], w10
-	WORD $0x53057d6a // lsr    w10, w11, #5
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f077718 // bic    v24.4s, #248, lsl #24
-	WORD $0x3d800d18 // str    q24, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_84
-	JMP LBB0_156
-
-LBB0_85:
-	WORD $0x7100187f // cmp    w3, #6
-	BEQ LBB0_139
-
-	// %bb.86:
-	WORD $0x71001c7f // cmp    w3, #7
-	BNE LBB0_156
-
-	// %bb.87:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.88:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_166
-	// WORD $0x90000009 // adrp    x9, .LCPI0_167
-	// WORD $0x9000000a // adrp    x10, .LCPI0_168
-	WORD $0x4f0307e7 // movi    v7.4s, #127
-	VMOVD LCPI0_166, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_169
-	VMOVD LCPI0_167, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_170
-	VMOVD LCPI0_168, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_171
-	VMOVD LCPI0_169, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_172
-	VMOVD LCPI0_170, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_173
-	VMOVD LCPI0_171, V5
-	VMOVD LCPI0_172, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_173L, LCPI0_173H, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_89:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53157d4a // lsr    w10, w10, #21
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x2ea04631 // ushl    v17.2s, v17.2s, v0.2s
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53117d6a // lsr    w10, w11, #17
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x6e116251 // ext    v17.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x53187d4c // lsr    w12, w10, #24
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x138a7d6a // extr    w10, w11, w10, #31
-	WORD $0x1e270192 // fmov    s18, w12
-	WORD $0x2ea24631 // ushl    v17.2s, v17.2s, v2.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x6e180632 // mov    v18.d[1], v17.d[0]
-	WORD $0x4e271e51 // and    v17.16b, v18.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x53147d4c // lsr    w12, w10, #20
-	WORD $0x0e040d71 // dup    v17.2s, w11
-	WORD $0x138a6d6a // extr    w10, w11, w10, #27
-	WORD $0x1e270192 // fmov    s18, w12
-	WORD $0x2ea34631 // ushl    v17.2s, v17.2s, v3.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x6e180632 // mov    v18.d[1], v17.d[0]
-	WORD $0x4e271e51 // and    v17.16b, v18.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x2ea44631 // ushl    v17.2s, v17.2s, v4.2s
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x53057d6a // lsr    w10, w11, #5
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x2ea54631 // ushl    v17.2s, v17.2s, v5.2s
-	WORD $0x4e141d51 // mov    v17.s[2], w10
-	WORD $0x53017d6a // lsr    w10, w11, #1
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x0e040d51 // dup    v17.2s, w10
-	WORD $0x53167d4c // lsr    w12, w10, #22
-	WORD $0x138a756a // extr    w10, w11, w10, #29
-	WORD $0x2ea64631 // ushl    v17.2s, v17.2s, v6.2s
-	WORD $0x4e141d91 // mov    v17.s[2], w12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x9100600a // add    x10, x0, #24
-	WORD $0x91007000 // add    x0, x0, #28
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0x4d40c951 // ld1r    { v17.4s }, [x10]
-	WORD $0x6eb04631 // ushl    v17.4s, v17.4s, v16.4s
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_89
-	JMP LBB0_156
-
-LBB0_90:
-	WORD $0x7100587f // cmp    w3, #22
-	BEQ LBB0_142
-
-	// %bb.91:
-	WORD $0x71005c7f // cmp    w3, #23
-	BNE LBB0_156
-
-	// %bb.92:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.93:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_95
-	// WORD $0x90000008 // adrp    x8, .LCPI0_94
-	// WORD $0x9000000a // adrp    x10, .LCPI0_96
-	WORD $0x4f03d7f7 // movi    v23.4s, #127, msl #16
-	VMOVD LCPI0_95, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_98
-	VMOVD LCPI0_94, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_97
-	VMOVD LCPI0_96, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_99
-	VMOVD LCPI0_98, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_101
-	VMOVD LCPI0_97, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_100
-	VMOVD LCPI0_99, V5
-	// WORD $0x9000000a // adrp    x10, .LCPI0_102
-	VMOVD LCPI0_101, V7
-	// WORD $0x90000009 // adrp    x9, .LCPI0_104
-	VMOVD LCPI0_100, V6
-	// WORD $0x90000008 // adrp    x8, .LCPI0_103
-	VMOVD LCPI0_102, V16
-	// WORD $0x9000000a // adrp    x10, .LCPI0_105
-	VMOVD LCPI0_104, V18
-	// WORD $0x90000009 // adrp    x9, .LCPI0_107
-	VMOVD LCPI0_103, V17
-	// WORD $0x90000008 // adrp    x8, .LCPI0_106
-	VMOVD LCPI0_105, V19
-	// WORD $0x9000000a // adrp    x10, .LCPI0_108
-	VMOVD LCPI0_107, V21
-	// WORD $0x90000009 // adrp    x9, .LCPI0_109
-	VMOVD LCPI0_106, V20
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_108, V22
-	VMOVD LCPI0_109, V24
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_94:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404019 // ldur    d25, [x0, #4]
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x1e27015b // fmov    s27, w10
-	WORD $0x2ea0473c // ushl    v28.2s, v25.2s, v0.2s
-	WORD $0x0e0c3f2a // mov    w10, v25.s[1]
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x6e1b237b // ext    v27.16b, v27.16b, v27.16b, #4
-	WORD $0x53057d4a // lsr    w10, w10, #5
-	WORD $0x2ea1475a // ushl    v26.2s, v26.2s, v1.2s
-	WORD $0x0eba1f9a // orr    v26.8b, v28.8b, v26.8b
-	WORD $0x6e1a6379 // ext    v25.16b, v27.16b, v26.16b, #12
-	WORD $0x4e1c1d59 // mov    v25.s[3], w10
-	WORD $0x4e371f39 // and    v25.16b, v25.16b, v23.16b
-	WORD $0x3c9c0119 // stur    q25, [x8, #-64]
-	WORD $0xfc40c019 // ldur    d25, [x0, #12]
-	WORD $0xbd40081a // ldr    s26, [x0, #8]
-	WORD $0xb940140b // ldr    w11, [x0, #20]
-	WORD $0x2ea2473b // ushl    v27.2s, v25.2s, v2.2s
-	WORD $0x0e0c3f2a // mov    w10, v25.s[1]
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x138a296a // extr    w10, w11, w10, #10
-	WORD $0x2ea3475a // ushl    v26.2s, v26.2s, v3.2s
-	WORD $0x0eba1f79 // orr    v25.8b, v27.8b, v26.8b
-	WORD $0x4e141d59 // mov    v25.s[2], w10
-	WORD $0x53017d6a // lsr    w10, w11, #1
-	WORD $0x4e1c1d59 // mov    v25.s[3], w10
-	WORD $0x4e371f39 // and    v25.16b, v25.16b, v23.16b
-	WORD $0x3c9d0119 // stur    q25, [x8, #-48]
-	WORD $0xfd400c19 // ldr    d25, [x0, #24]
-	WORD $0xbd40141a // ldr    s26, [x0, #20]
-	WORD $0xb940200c // ldr    w12, [x0, #32]
-	WORD $0x2ea4473b // ushl    v27.2s, v25.2s, v4.2s
-	WORD $0x0e0c3f2a // mov    w10, v25.s[1]
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x53067d4b // lsr    w11, w10, #6
-	WORD $0x138a758a // extr    w10, w12, w10, #29
-	WORD $0x2ea5475a // ushl    v26.2s, v26.2s, v5.2s
-	WORD $0x0eba1f79 // orr    v25.8b, v27.8b, v26.8b
-	WORD $0x4e141d79 // mov    v25.s[2], w11
-	WORD $0x4e1c1d59 // mov    v25.s[3], w10
-	WORD $0x4e371f39 // and    v25.16b, v25.16b, v23.16b
-	WORD $0x3c9e0119 // stur    q25, [x8, #-32]
-	WORD $0xfc424019 // ldur    d25, [x0, #36]
-	WORD $0xbd40201a // ldr    s26, [x0, #32]
-	WORD $0xb9402c0c // ldr    w12, [x0, #44]
-	WORD $0x2ea6473b // ushl    v27.2s, v25.2s, v6.2s
-	WORD $0x0e0c3f2a // mov    w10, v25.s[1]
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x53027d4b // lsr    w11, w10, #2
-	WORD $0x138a658a // extr    w10, w12, w10, #25
-	WORD $0x2ea7475a // ushl    v26.2s, v26.2s, v7.2s
-	WORD $0x0eba1f79 // orr    v25.8b, v27.8b, v26.8b
-	WORD $0x4e141d79 // mov    v25.s[2], w11
-	WORD $0x4e1c1d59 // mov    v25.s[3], w10
-	WORD $0x4e371f39 // and    v25.16b, v25.16b, v23.16b
-	WORD $0x3c9f0119 // stur    q25, [x8, #-16]
-	WORD $0x2945a80b // ldp    w11, w10, [x0, #44]
-	WORD $0xfc434019 // ldur    d25, [x0, #52]
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x138b414b // extr    w11, w10, w11, #16
-	WORD $0x53077d4a // lsr    w10, w10, #7
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x2eb04739 // ushl    v25.2s, v25.2s, v16.2s
-	WORD $0x1e27017b // fmov    s27, w11
-	WORD $0x2eb1475a // ushl    v26.2s, v26.2s, v17.2s
-	WORD $0x4e0c1d5b // mov    v27.s[1], w10
-	WORD $0x0eba1f39 // orr    v25.8b, v25.8b, v26.8b
-	WORD $0x6e18073b // mov    v27.d[1], v25.d[0]
-	WORD $0x4e371f79 // and    v25.16b, v27.16b, v23.16b
-	WORD $0x3d800119 // str    q25, [x8]
-	WORD $0x2947280b // ldp    w11, w10, [x0, #56]
-	WORD $0xfd402019 // ldr    d25, [x0, #64]
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x138b314b // extr    w11, w10, w11, #12
-	WORD $0x53037d4a // lsr    w10, w10, #3
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x2eb24739 // ushl    v25.2s, v25.2s, v18.2s
-	WORD $0x1e27017b // fmov    s27, w11
-	WORD $0x2eb3475a // ushl    v26.2s, v26.2s, v19.2s
-	WORD $0x4e0c1d5b // mov    v27.s[1], w10
-	WORD $0x0eba1f39 // orr    v25.8b, v25.8b, v26.8b
-	WORD $0x6e18073b // mov    v27.d[1], v25.d[0]
-	WORD $0x4e371f79 // and    v25.16b, v27.16b, v23.16b
-	WORD $0x3d800519 // str    q25, [x8, #16]
-	WORD $0xb940440a // ldr    w10, [x0, #68]
-	WORD $0xfd402419 // ldr    d25, [x0, #72]
-	WORD $0xb940500b // ldr    w11, [x0, #80]
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2eb4473b // ushl    v27.2s, v25.2s, v20.2s
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x1e27015c // fmov    s28, w10
-	WORD $0x0e0c3f2a // mov    w10, v25.s[1]
-	WORD $0x6e1c239c // ext    v28.16b, v28.16b, v28.16b, #4
-	WORD $0x2eb5475a // ushl    v26.2s, v26.2s, v21.2s
-	WORD $0x138a356a // extr    w10, w11, w10, #13
-	WORD $0x0eba1f7a // orr    v26.8b, v27.8b, v26.8b
-	WORD $0x6e1a6399 // ext    v25.16b, v28.16b, v26.16b, #12
-	WORD $0x4e1c1d59 // mov    v25.s[3], w10
-	WORD $0x4e371f39 // and    v25.16b, v25.16b, v23.16b
-	WORD $0x3d800919 // str    q25, [x8, #32]
-	WORD $0xb940500a // ldr    w10, [x0, #80]
-	WORD $0xfc454019 // ldur    d25, [x0, #84]
-	WORD $0x91017000 // add    x0, x0, #92
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x53047d4a // lsr    w10, w10, #4
-	WORD $0x2eb6473b // ushl    v27.2s, v25.2s, v22.2s
-	WORD $0x0e993b5a // zip1    v26.2s, v26.2s, v25.2s
-	WORD $0x1e27015c // fmov    s28, w10
-	WORD $0x0e0c3f2a // mov    w10, v25.s[1]
-	WORD $0x6e1c239c // ext    v28.16b, v28.16b, v28.16b, #4
-	WORD $0x2eb8475a // ushl    v26.2s, v26.2s, v24.2s
-	WORD $0x53097d4a // lsr    w10, w10, #9
-	WORD $0x0eba1f7a // orr    v26.8b, v27.8b, v26.8b
-	WORD $0x6e1a6399 // ext    v25.16b, v28.16b, v26.16b, #12
-	WORD $0x4e1c1d59 // mov    v25.s[3], w10
-	WORD $0x4e371f39 // and    v25.16b, v25.16b, v23.16b
-	WORD $0x3d800d19 // str    q25, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_94
-	JMP LBB0_156
-
-LBB0_95:
-	WORD $0x7100387f // cmp    w3, #14
-	BEQ LBB0_145
-
-	// %bb.96:
-	WORD $0x71003c7f // cmp    w3, #15
-	BNE LBB0_156
-
-	// %bb.97:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.98:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_138
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0x4f03c7e0 // movi    v0.4s, #127, msl #8
-	VMOVD LCPI0_138, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_99:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x530f7d4c // lsr    w12, w10, #15
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x530d7d6a // lsr    w10, w11, #13
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9c0102 // stur    q2, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x530b7d6c // lsr    w12, w11, #11
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0x138b694b // extr    w11, w10, w11, #26
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x53097d4a // lsr    w10, w10, #9
-	WORD $0x4e141d62 // mov    v2.s[2], w11
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9d0102 // stur    q2, [x8, #-48]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x53077d6c // lsr    w12, w11, #7
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0xb940140a // ldr    w10, [x0, #20]
-	WORD $0x138b594b // extr    w11, w10, w11, #22
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x53057d4a // lsr    w10, w10, #5
-	WORD $0x4e141d62 // mov    v2.s[2], w11
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9e0102 // stur    q2, [x8, #-32]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x53037d6c // lsr    w12, w11, #3
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0xb9401c0a // ldr    w10, [x0, #28]
-	WORD $0x138b494b // extr    w11, w10, w11, #18
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x53017d4a // lsr    w10, w10, #1
-	WORD $0x4e141d62 // mov    v2.s[2], w11
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9f0102 // stur    q2, [x8, #-16]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x138a7d6a // extr    w10, w11, w10, #31
-	WORD $0x1e270182 // fmov    s2, w12
-	WORD $0xb940240c // ldr    w12, [x0, #36]
-	WORD $0x4e0c1d42 // mov    v2.s[1], w10
-	WORD $0x530e7d6a // lsr    w10, w11, #14
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x138b758a // extr    w10, w12, w11, #29
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800102 // str    q2, [x8]
-	WORD $0x2944ac0a // ldp    w10, w11, [x0, #36]
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x138a6d6a // extr    w10, w11, w10, #27
-	WORD $0x1e270182 // fmov    s2, w12
-	WORD $0xb9402c0c // ldr    w12, [x0, #44]
-	WORD $0x4e0c1d42 // mov    v2.s[1], w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x138b658a // extr    w10, w12, w11, #25
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800502 // str    q2, [x8, #16]
-	WORD $0x2945ac0a // ldp    w10, w11, [x0, #44]
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x138a5d6a // extr    w10, w11, w10, #23
-	WORD $0x1e270182 // fmov    s2, w12
-	WORD $0xb940340c // ldr    w12, [x0, #52]
-	WORD $0x4e0c1d42 // mov    v2.s[1], w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x138b558a // extr    w10, w12, w11, #21
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800902 // str    q2, [x8, #32]
-	WORD $0x2946ac0a // ldp    w10, w11, [x0, #52]
-	WORD $0x9100f000 // add    x0, x0, #60
-	WORD $0x53047d4c // lsr    w12, w10, #4
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a4d6a // extr    w10, w11, w10, #19
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3d800d02 // str    q2, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_99
-	JMP LBB0_156
-
-LBB0_100:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.101:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_8
-	// WORD $0x90000009 // adrp    x9, .LCPI0_9
-	// WORD $0x9000000a // adrp    x10, .LCPI0_10
-	// WORD $0x9000000b // adrp    x11, .LCPI0_23
-	VMOVD LCPI0_8, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_11
-	VMOVD LCPI0_9, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_12
-	VMOVQ LCPI0_10L, LCPI0_10H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_13
-	VMOVQ LCPI0_11L, LCPI0_11H, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_14
-	VMOVQ LCPI0_12L, LCPI0_12H, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_15
-	VMOVQ LCPI0_13L, LCPI0_13H, V5
-	// WORD $0x9000000a // adrp    x10, .LCPI0_16
-	VMOVQ LCPI0_14L, LCPI0_14H, V6
-	// WORD $0x90000008 // adrp    x8, .LCPI0_17
-	VMOVQ LCPI0_15L, LCPI0_15H, V7
-	// WORD $0x90000009 // adrp    x9, .LCPI0_18
-	VMOVQ LCPI0_16L, LCPI0_16H, V16
-	// WORD $0x9000000a // adrp    x10, .LCPI0_19
-	VMOVQ LCPI0_17L, LCPI0_17H, V17
-	// WORD $0x90000008 // adrp    x8, .LCPI0_20
-	VMOVQ LCPI0_18L, LCPI0_18H, V18
-	// WORD $0x90000009 // adrp    x9, .LCPI0_21
-	VMOVQ LCPI0_19L, LCPI0_19H, V19
-	// WORD $0x9000000a // adrp    x10, .LCPI0_22
-	VMOVQ LCPI0_20L, LCPI0_20H, V20
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_21L, LCPI0_21H, V21
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_22, V22
-	VMOVD LCPI0_23, V23
-
-LBB0_102:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404018 // ldur    d24, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270159 // fmov    s25, w10
-	WORD $0x1e27015a // fmov    s26, w10
-	WORD $0x2ea0471b // ushl    v27.2s, v24.2s, v0.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x6e1a235a // ext    v26.16b, v26.16b, v26.16b, #4
-	WORD $0x138a756a // extr    w10, w11, w10, #29
-	WORD $0x2ea14739 // ushl    v25.2s, v25.2s, v1.2s
-	WORD $0x0eb91f79 // orr    v25.8b, v27.8b, v25.8b
-	WORD $0x6e196358 // ext    v24.16b, v26.16b, v25.16b, #12
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3c9c0118 // stur    q24, [x8, #-64]
-	WORD $0xbd400c18 // ldr    s24, [x0, #12]
-	WORD $0x3dc00419 // ldr    q25, [x0, #16]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6ea24739 // ushl    v25.4s, v25.4s, v2.4s
-	WORD $0x6ea34718 // ushl    v24.4s, v24.4s, v3.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3c9d0118 // stur    q24, [x8, #-48]
-	WORD $0xbd401c18 // ldr    s24, [x0, #28]
-	WORD $0x3dc00819 // ldr    q25, [x0, #32]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6ea44739 // ushl    v25.4s, v25.4s, v4.4s
-	WORD $0x6ea54718 // ushl    v24.4s, v24.4s, v5.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3c9e0118 // stur    q24, [x8, #-32]
-	WORD $0xbd402c18 // ldr    s24, [x0, #44]
-	WORD $0x3dc00c19 // ldr    q25, [x0, #48]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6ea64739 // ushl    v25.4s, v25.4s, v6.4s
-	WORD $0x6ea74718 // ushl    v24.4s, v24.4s, v7.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3c9f0118 // stur    q24, [x8, #-16]
-	WORD $0xbd403c18 // ldr    s24, [x0, #60]
-	WORD $0x3dc01019 // ldr    q25, [x0, #64]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6eb04739 // ushl    v25.4s, v25.4s, v16.4s
-	WORD $0x6eb14718 // ushl    v24.4s, v24.4s, v17.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3d800118 // str    q24, [x8]
-	WORD $0xbd404c18 // ldr    s24, [x0, #76]
-	WORD $0x3dc01419 // ldr    q25, [x0, #80]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6eb24739 // ushl    v25.4s, v25.4s, v18.4s
-	WORD $0x6eb34718 // ushl    v24.4s, v24.4s, v19.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3d800518 // str    q24, [x8, #16]
-	WORD $0xbd405c18 // ldr    s24, [x0, #92]
-	WORD $0x3dc01819 // ldr    q25, [x0, #96]
-	WORD $0x6e182318 // ext    v24.16b, v24.16b, v24.16b, #4
-	WORD $0x6e196318 // ext    v24.16b, v24.16b, v25.16b, #12
-	WORD $0x6eb44739 // ushl    v25.4s, v25.4s, v20.4s
-	WORD $0x6eb54718 // ushl    v24.4s, v24.4s, v21.4s
-	WORD $0x4eb81f38 // orr    v24.16b, v25.16b, v24.16b
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3d800918 // str    q24, [x8, #32]
-	WORD $0xfd403818 // ldr    d24, [x0, #112]
-	WORD $0xbd406c19 // ldr    s25, [x0, #108]
-	WORD $0xb940780b // ldr    w11, [x0, #120]
-	WORD $0x9101f000 // add    x0, x0, #124
-	WORD $0x2eb6471a // ushl    v26.2s, v24.2s, v22.2s
-	WORD $0x0e0c3f0a // mov    w10, v24.s[1]
-	WORD $0x0e983b39 // zip1    v25.2s, v25.2s, v24.2s
-	WORD $0x138a096a // extr    w10, w11, w10, #2
-	WORD $0x2eb74739 // ushl    v25.2s, v25.2s, v23.2s
-	WORD $0x0eb91f58 // orr    v24.8b, v26.8b, v25.8b
-	WORD $0x4e141d58 // mov    v24.s[2], w10
-	WORD $0x53017d6a // lsr    w10, w11, #1
-	WORD $0x4e1c1d58 // mov    v24.s[3], w10
-	WORD $0x6f047418 // bic    v24.4s, #128, lsl #24
-	WORD $0x3d800d18 // str    q24, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_102
-	JMP LBB0_156
-
-LBB0_103:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.104:
-	WORD $0x7100427f // cmp    w19, #16
-	WORD $0x54000002 // b.hs    .LBB0_151
-
-	// %bb.105:
-	WORD $0xaa1f03e8 // mov    x8, xzr
-	JMP LBB0_154
-
-LBB0_106:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.107:
-	WORD $0x6f01e660 // movi    v0.2d, #0x00ffff0000ffff
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_108:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9c0101 // stur    q1, [x8, #-64]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9d0101 // stur    q1, [x8, #-48]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9e0101 // stur    q1, [x8, #-32]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9f0101 // stur    q1, [x8, #-16]
-	WORD $0x29442c0a // ldp    w10, w11, [x0, #32]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800101 // str    q1, [x8]
-	WORD $0x29452c0a // ldp    w10, w11, [x0, #40]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800501 // str    q1, [x8, #16]
-	WORD $0x29462c0a // ldp    w10, w11, [x0, #48]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800901 // str    q1, [x8, #32]
-	WORD $0x29472c0a // ldp    w10, w11, [x0, #56]
-	WORD $0x91010000 // add    x0, x0, #64
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53107d6a // lsr    w10, w11, #16
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800d01 // str    q1, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_108
-	JMP LBB0_156
-
-LBB0_109:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.110:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_165
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0x6f00e620 // movi    v0.2d, #0x0000ff000000ff
-	VMOVD LCPI0_165, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_111:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9c0102 // stur    q2, [x8, #-64]
-	WORD $0xb940040a // ldr    w10, [x0, #4]
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9d0102 // stur    q2, [x8, #-48]
-	WORD $0xb940080a // ldr    w10, [x0, #8]
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9e0102 // stur    q2, [x8, #-32]
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9f0102 // stur    q2, [x8, #-16]
-	WORD $0xb940100a // ldr    w10, [x0, #16]
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800102 // str    q2, [x8]
-	WORD $0xb940140a // ldr    w10, [x0, #20]
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800502 // str    q2, [x8, #16]
-	WORD $0xb940180a // ldr    w10, [x0, #24]
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800902 // str    q2, [x8, #32]
-	WORD $0xb9401c0a // ldr    w10, [x0, #28]
-	WORD $0x91008000 // add    x0, x0, #32
-	WORD $0x0e040d42 // dup    v2.2s, w10
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x53187d4a // lsr    w10, w10, #24
-	WORD $0x6e032063 // ext    v3.16b, v3.16b, v3.16b, #4
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x6e026062 // ext    v2.16b, v3.16b, v2.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800d02 // str    q2, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_111
-	JMP LBB0_156
-
-LBB0_112:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.113:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_92
-	// WORD $0x9000000a // adrp    x10, .LCPI0_93
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_92, V0
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_93, V1
-
-LBB0_114:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404002 // ldur    d2, [x0, #4]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3c9c0102 // stur    q2, [x8, #-64]
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0xfd400802 // ldr    d2, [x0, #16]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3c9d0102 // stur    q2, [x8, #-48]
-	WORD $0xb940180a // ldr    w10, [x0, #24]
-	WORD $0xfc41c002 // ldur    d2, [x0, #28]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3c9e0102 // stur    q2, [x8, #-32]
-	WORD $0xb940240a // ldr    w10, [x0, #36]
-	WORD $0xfd401402 // ldr    d2, [x0, #40]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3c9f0102 // stur    q2, [x8, #-16]
-	WORD $0xb940300a // ldr    w10, [x0, #48]
-	WORD $0xfc434002 // ldur    d2, [x0, #52]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3d800102 // str    q2, [x8]
-	WORD $0xb9403c0a // ldr    w10, [x0, #60]
-	WORD $0xfd402002 // ldr    d2, [x0, #64]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3d800502 // str    q2, [x8, #16]
-	WORD $0xb940480a // ldr    w10, [x0, #72]
-	WORD $0xfc44c002 // ldur    d2, [x0, #76]
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3d800902 // str    q2, [x8, #32]
-	WORD $0xb940540a // ldr    w10, [x0, #84]
-	WORD $0xfd402c02 // ldr    d2, [x0, #88]
-	WORD $0x91018000 // add    x0, x0, #96
-	WORD $0x1e270143 // fmov    s3, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x2ea04445 // ushl    v5.2s, v2.2s, v0.2s
-	WORD $0x0e0c3c4a // mov    w10, v2.s[1]
-	WORD $0x0e823863 // zip1    v3.2s, v3.2s, v2.2s
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x0ea31ca3 // orr    v3.8b, v5.8b, v3.8b
-	WORD $0x6e036082 // ext    v2.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x6f0777e2 // bic    v2.4s, #255, lsl #24
-	WORD $0x3d800d02 // str    q2, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_114
-	JMP LBB0_156
-
-LBB0_115:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.116:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_186
-	// WORD $0x9000000a // adrp    x10, .LCPI0_187
-	WORD $0x4f0005e0 // movi    v0.4s, #15
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_186, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVQ LCPI0_187L, LCPI0_187H, V2
-
-LBB0_117:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d43 // dup    v3.2s, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x6e036083 // ext    v3.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d43 // mov    v3.s[3], w10
-	WORD $0xaa0003ea // mov    x10, x0
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3c9c0103 // stur    q3, [x8, #-64]
-	WORD $0x4ddfc943 // ld1r    { v3.4s }, [x10], #4
-	WORD $0x6ea24463 // ushl    v3.4s, v3.4s, v2.4s
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3c9d0103 // stur    q3, [x8, #-48]
-	WORD $0xb940014b // ldr    w11, [x10]
-	WORD $0x0e040d63 // dup    v3.2s, w11
-	WORD $0x1e270164 // fmov    s4, w11
-	WORD $0x530c7d6b // lsr    w11, w11, #12
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x6e036083 // ext    v3.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d63 // mov    v3.s[3], w11
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3c9e0103 // stur    q3, [x8, #-32]
-	WORD $0x4d40c943 // ld1r    { v3.4s }, [x10]
-	WORD $0x6ea24463 // ushl    v3.4s, v3.4s, v2.4s
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3c9f0103 // stur    q3, [x8, #-16]
-	WORD $0xb940080a // ldr    w10, [x0, #8]
-	WORD $0x0e040d43 // dup    v3.2s, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x6e036083 // ext    v3.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d43 // mov    v3.s[3], w10
-	WORD $0x9100200a // add    x10, x0, #8
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3d800103 // str    q3, [x8]
-	WORD $0x4d40c943 // ld1r    { v3.4s }, [x10]
-	WORD $0x6ea24463 // ushl    v3.4s, v3.4s, v2.4s
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3d800503 // str    q3, [x8, #16]
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0x0e040d43 // dup    v3.2s, w10
-	WORD $0x1e270144 // fmov    s4, w10
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x6e042084 // ext    v4.16b, v4.16b, v4.16b, #4
-	WORD $0x2ea14463 // ushl    v3.2s, v3.2s, v1.2s
-	WORD $0x6e036083 // ext    v3.16b, v4.16b, v3.16b, #12
-	WORD $0x4e1c1d43 // mov    v3.s[3], w10
-	WORD $0x9100300a // add    x10, x0, #12
-	WORD $0x91004000 // add    x0, x0, #16
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3d800903 // str    q3, [x8, #32]
-	WORD $0x4d40c943 // ld1r    { v3.4s }, [x10]
-	WORD $0x6ea24463 // ushl    v3.4s, v3.4s, v2.4s
-	WORD $0x4e201c63 // and    v3.16b, v3.16b, v0.16b
-	WORD $0x3d800d03 // str    q3, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_117
-	JMP LBB0_156
-
-LBB0_118:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.119:
-	WORD $0x4f00d5e0 // movi    v0.4s, #15, msl #16
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_120:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x138a516c // extr    w12, w11, w10, #20
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53087d6a // lsr    w10, w11, #8
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb940080c // ldr    w12, [x0, #8]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b718a // extr    w10, w12, w11, #28
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9c0101 // stur    q1, [x8, #-64]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53047d6c // lsr    w12, w11, #4
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940100a // ldr    w10, [x0, #16]
-	WORD $0x138b614b // extr    w11, w10, w11, #24
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9d0101 // stur    q1, [x8, #-48]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x138a516c // extr    w12, w11, w10, #20
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53087d6a // lsr    w10, w11, #8
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb9401c0c // ldr    w12, [x0, #28]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b718a // extr    w10, w12, w11, #28
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9e0101 // stur    q1, [x8, #-32]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53047d6c // lsr    w12, w11, #4
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940240a // ldr    w10, [x0, #36]
-	WORD $0x138b614b // extr    w11, w10, w11, #24
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9f0101 // stur    q1, [x8, #-16]
-	WORD $0x29452c0a // ldp    w10, w11, [x0, #40]
-	WORD $0x138a516c // extr    w12, w11, w10, #20
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53087d6a // lsr    w10, w11, #8
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb940300c // ldr    w12, [x0, #48]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b718a // extr    w10, w12, w11, #28
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800101 // str    q1, [x8]
-	WORD $0x29462c0a // ldp    w10, w11, [x0, #48]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53047d6c // lsr    w12, w11, #4
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940380a // ldr    w10, [x0, #56]
-	WORD $0x138b614b // extr    w11, w10, w11, #24
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800501 // str    q1, [x8, #16]
-	WORD $0x2947ac0a // ldp    w10, w11, [x0, #60]
-	WORD $0x138a516c // extr    w12, w11, w10, #20
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53087d6a // lsr    w10, w11, #8
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb940440c // ldr    w12, [x0, #68]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b718a // extr    w10, w12, w11, #28
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800901 // str    q1, [x8, #32]
-	WORD $0x2948ac0a // ldp    w10, w11, [x0, #68]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53047d6c // lsr    w12, w11, #4
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb9404c0a // ldr    w10, [x0, #76]
-	WORD $0x91014000 // add    x0, x0, #80
-	WORD $0x138b614b // extr    w11, w10, w11, #24
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530c7d4a // lsr    w10, w10, #12
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800d01 // str    q1, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_120
-	JMP LBB0_156
-
-LBB0_121:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.122:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_145
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0x4f00c5e0 // movi    v0.4s, #15, msl #8
-	VMOVD LCPI0_145, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_123:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9c0102 // stur    q2, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3c9d0102 // stur    q2, [x8, #-48]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9e0102 // stur    q2, [x8, #-32]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3c9f0102 // stur    q2, [x8, #-16]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800102 // str    q2, [x8]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3d800502 // str    q2, [x8, #16]
-	WORD $0x2944ac0a // ldp    w10, w11, [x0, #36]
-	WORD $0x530c7d4c // lsr    w12, w10, #12
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800902 // str    q2, [x8, #32]
-	WORD $0x29452c0a // ldp    w10, w11, [x0, #40]
-	WORD $0x9100c000 // add    x0, x0, #48
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3d800d02 // str    q2, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_123
-	JMP LBB0_156
-
-LBB0_124:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.125:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_48
-	// WORD $0x90000009 // adrp    x9, .LCPI0_49
-	// WORD $0x9000000a // adrp    x10, .LCPI0_50
-	// WORD $0x9000000b // adrp    x11, .LCPI0_51
-	VMOVD LCPI0_48, V0
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_49, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_50, V2
-	VMOVD LCPI0_51, V3
-
-LBB0_126:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404004 // ldur    d4, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270145 // fmov    s5, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x2ea04487 // ushl    v7.2s, v4.2s, v0.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x0ea51ce5 // orr    v5.8b, v7.8b, v5.8b
-	WORD $0x6e0560c4 // ext    v4.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3c9c0104 // stur    q4, [x8, #-64]
-	WORD $0xfd400804 // ldr    d4, [x0, #16]
-	WORD $0xbd400c05 // ldr    s5, [x0, #12]
-	WORD $0xb940180b // ldr    w11, [x0, #24]
-	WORD $0x2ea24486 // ushl    v6.2s, v4.2s, v2.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x138a216a // extr    w10, w11, w10, #8
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x0ea51cc4 // orr    v4.8b, v6.8b, v5.8b
-	WORD $0x4e141d44 // mov    v4.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3c9d0104 // stur    q4, [x8, #-48]
-	WORD $0xb9401c0a // ldr    w10, [x0, #28]
-	WORD $0xfd401004 // ldr    d4, [x0, #32]
-	WORD $0xb940280b // ldr    w11, [x0, #40]
-	WORD $0x1e270145 // fmov    s5, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x2ea04487 // ushl    v7.2s, v4.2s, v0.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x0ea51ce5 // orr    v5.8b, v7.8b, v5.8b
-	WORD $0x6e0560c4 // ext    v4.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3c9e0104 // stur    q4, [x8, #-32]
-	WORD $0xfc42c004 // ldur    d4, [x0, #44]
-	WORD $0xbd402805 // ldr    s5, [x0, #40]
-	WORD $0xb940340b // ldr    w11, [x0, #52]
-	WORD $0x2ea24486 // ushl    v6.2s, v4.2s, v2.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x138a216a // extr    w10, w11, w10, #8
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x0ea51cc4 // orr    v4.8b, v6.8b, v5.8b
-	WORD $0x4e141d44 // mov    v4.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3c9f0104 // stur    q4, [x8, #-16]
-	WORD $0xb940380a // ldr    w10, [x0, #56]
-	WORD $0xfc43c004 // ldur    d4, [x0, #60]
-	WORD $0xb940440b // ldr    w11, [x0, #68]
-	WORD $0x1e270145 // fmov    s5, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x2ea04487 // ushl    v7.2s, v4.2s, v0.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x0ea51ce5 // orr    v5.8b, v7.8b, v5.8b
-	WORD $0x6e0560c4 // ext    v4.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3d800104 // str    q4, [x8]
-	WORD $0xfd402404 // ldr    d4, [x0, #72]
-	WORD $0xbd404405 // ldr    s5, [x0, #68]
-	WORD $0xb940500b // ldr    w11, [x0, #80]
-	WORD $0x2ea24486 // ushl    v6.2s, v4.2s, v2.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x138a216a // extr    w10, w11, w10, #8
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x0ea51cc4 // orr    v4.8b, v6.8b, v5.8b
-	WORD $0x4e141d44 // mov    v4.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3d800504 // str    q4, [x8, #16]
-	WORD $0xb940540a // ldr    w10, [x0, #84]
-	WORD $0xfd402c04 // ldr    d4, [x0, #88]
-	WORD $0xb940600b // ldr    w11, [x0, #96]
-	WORD $0x1e270145 // fmov    s5, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x2ea04487 // ushl    v7.2s, v4.2s, v0.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x138a516a // extr    w10, w11, w10, #20
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x0ea51ce5 // orr    v5.8b, v7.8b, v5.8b
-	WORD $0x6e0560c4 // ext    v4.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3d800904 // str    q4, [x8, #32]
-	WORD $0xfc464004 // ldur    d4, [x0, #100]
-	WORD $0xbd406005 // ldr    s5, [x0, #96]
-	WORD $0xb9406c0b // ldr    w11, [x0, #108]
-	WORD $0x9101c000 // add    x0, x0, #112
-	WORD $0x2ea24486 // ushl    v6.2s, v4.2s, v2.2s
-	WORD $0x0e0c3c8a // mov    w10, v4.s[1]
-	WORD $0x0e8438a5 // zip1    v5.2s, v5.2s, v4.2s
-	WORD $0x138a216a // extr    w10, w11, w10, #8
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x0ea51cc4 // orr    v4.8b, v6.8b, v5.8b
-	WORD $0x4e141d44 // mov    v4.s[2], w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e1c1d44 // mov    v4.s[3], w10
-	WORD $0x6f077604 // bic    v4.4s, #240, lsl #24
-	WORD $0x3d800d04 // str    q4, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_126
-	JMP LBB0_156
-
-LBB0_127:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.128:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_196
-	// WORD $0x90000009 // adrp    x9, .LCPI0_197
-	// WORD $0x9000000a // adrp    x10, .LCPI0_198
-	// WORD $0x9000000b // adrp    x11, .LCPI0_199
-	WORD $0x4f000462 // movi    v2.4s, #3
-	VMOVD LCPI0_196, V0
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVQ LCPI0_197L, LCPI0_197H, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVQ LCPI0_198L, LCPI0_198H, V3
-	VMOVQ LCPI0_199L, LCPI0_199H, V4
-
-LBB0_129:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x53067d4a // lsr    w10, w10, #6
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x2ea044a5 // ushl    v5.2s, v5.2s, v0.2s
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0xaa0003ea // mov    x10, x0
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9c0105 // stur    q5, [x8, #-64]
-	WORD $0x4ddfc945 // ld1r    { v5.4s }, [x10], #4
-	WORD $0x6ea144a5 // ushl    v5.4s, v5.4s, v1.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9d0105 // stur    q5, [x8, #-48]
-	WORD $0x4d40c805 // ld1r    { v5.4s }, [x0]
-	WORD $0x6ea344a5 // ushl    v5.4s, v5.4s, v3.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9e0105 // stur    q5, [x8, #-32]
-	WORD $0xb840840b // ldr    w11, [x0], #8
-	WORD $0x4e040d65 // dup    v5.4s, w11
-	WORD $0x6ea444a5 // ushl    v5.4s, v5.4s, v4.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9f0105 // stur    q5, [x8, #-16]
-	WORD $0xb940014b // ldr    w11, [x10]
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x1e270166 // fmov    s6, w11
-	WORD $0x53067d6b // lsr    w11, w11, #6
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x2ea044a5 // ushl    v5.2s, v5.2s, v0.2s
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d65 // mov    v5.s[3], w11
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800105 // str    q5, [x8]
-	WORD $0x4d40c945 // ld1r    { v5.4s }, [x10]
-	WORD $0x6ea144a5 // ushl    v5.4s, v5.4s, v1.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800505 // str    q5, [x8, #16]
-	WORD $0x4d40c945 // ld1r    { v5.4s }, [x10]
-	WORD $0x6ea344a5 // ushl    v5.4s, v5.4s, v3.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800905 // str    q5, [x8, #32]
-	WORD $0x4d40c945 // ld1r    { v5.4s }, [x10]
-	WORD $0x6ea444a5 // ushl    v5.4s, v5.4s, v4.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800d05 // str    q5, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_129
-	JMP LBB0_156
-
-LBB0_130:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.131:
-	WORD $0x4f00d460 // movi    v0.4s, #3, msl #16
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_132:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x138a496c // extr    w12, w11, w10, #18
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb940080c // ldr    w12, [x0, #8]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b598a // extr    w10, w12, w11, #22
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9c0101 // stur    q1, [x8, #-64]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x1e270181 // fmov    s1, w12
-	WORD $0xb940100c // ldr    w12, [x0, #16]
-	WORD $0x4e0c1d41 // mov    v1.s[1], w10
-	WORD $0x530c7d6a // lsr    w10, w11, #12
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b798a // extr    w10, w12, w11, #30
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9d0101 // stur    q1, [x8, #-48]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53027d6c // lsr    w12, w11, #2
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940180a // ldr    w10, [x0, #24]
-	WORD $0x138b514b // extr    w11, w10, w11, #20
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x53067d4a // lsr    w10, w10, #6
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9e0101 // stur    q1, [x8, #-32]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x530a7d6c // lsr    w12, w11, #10
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940200a // ldr    w10, [x0, #32]
-	WORD $0x138b714b // extr    w11, w10, w11, #28
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530e7d4a // lsr    w10, w10, #14
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3c9f0101 // stur    q1, [x8, #-16]
-	WORD $0x2944ac0a // ldp    w10, w11, [x0, #36]
-	WORD $0x138a496c // extr    w12, w11, w10, #18
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0x53047d6a // lsr    w10, w11, #4
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0xb9402c0c // ldr    w12, [x0, #44]
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b598a // extr    w10, w12, w11, #22
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800101 // str    q1, [x8]
-	WORD $0x2945ac0a // ldp    w10, w11, [x0, #44]
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x1e270181 // fmov    s1, w12
-	WORD $0xb940340c // ldr    w12, [x0, #52]
-	WORD $0x4e0c1d41 // mov    v1.s[1], w10
-	WORD $0x530c7d6a // lsr    w10, w11, #12
-	WORD $0x4e141d41 // mov    v1.s[2], w10
-	WORD $0x138b798a // extr    w10, w12, w11, #30
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800501 // str    q1, [x8, #16]
-	WORD $0x2946ac0a // ldp    w10, w11, [x0, #52]
-	WORD $0x138a416a // extr    w10, w11, w10, #16
-	WORD $0x53027d6c // lsr    w12, w11, #2
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb9403c0a // ldr    w10, [x0, #60]
-	WORD $0x138b514b // extr    w11, w10, w11, #20
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x53067d4a // lsr    w10, w10, #6
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800901 // str    q1, [x8, #32]
-	WORD $0x2947ac0a // ldp    w10, w11, [x0, #60]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x530a7d6c // lsr    w12, w11, #10
-	WORD $0x1e270141 // fmov    s1, w10
-	WORD $0xb940440a // ldr    w10, [x0, #68]
-	WORD $0x91012000 // add    x0, x0, #72
-	WORD $0x138b714b // extr    w11, w10, w11, #28
-	WORD $0x4e0c1d81 // mov    v1.s[1], w12
-	WORD $0x530e7d4a // lsr    w10, w10, #14
-	WORD $0x4e141d61 // mov    v1.s[2], w11
-	WORD $0x4e1c1d41 // mov    v1.s[3], w10
-	WORD $0x4e201c21 // and    v1.16b, v1.16b, v0.16b
-	WORD $0x3d800d01 // str    q1, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_132
-	JMP LBB0_156
-
-LBB0_133:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.134:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_153
-	// WORD $0x90000009 // adrp    x9, .LCPI0_154
-	// WORD $0x9000000a // adrp    x10, .LCPI0_155
-	// WORD $0x9000000b // adrp    x11, .LCPI0_156
-	WORD $0x4f00c462 // movi    v2.4s, #3, msl #8
-	VMOVD LCPI0_153, V0
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_154, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_155, V3
-	VMOVD LCPI0_156, V4
-
-LBB0_135:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x2ea044a5 // ushl    v5.2s, v5.2s, v0.2s
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9c0105 // stur    q5, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x4e141d45 // mov    v5.s[2], w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9d0105 // stur    q5, [x8, #-48]
-	WORD $0x29412c0a // ldp    w10, w11, [x0, #8]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x1e270186 // fmov    s6, w12
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x4e0c1d46 // mov    v6.s[1], w10
-	WORD $0x6e1804a6 // mov    v6.d[1], v5.d[0]
-	WORD $0x4e221cc5 // and    v5.16b, v6.16b, v2.16b
-	WORD $0x3c9e0105 // stur    q5, [x8, #-32]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x53167d6a // lsr    w10, w11, #22
-	WORD $0x2ea444a5 // ushl    v5.2s, v5.2s, v4.2s
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9f0105 // stur    q5, [x8, #-16]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x2ea044a5 // ushl    v5.2s, v5.2s, v0.2s
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800105 // str    q5, [x8]
-	WORD $0x29432c0a // ldp    w10, w11, [x0, #24]
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x4e141d45 // mov    v5.s[2], w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800505 // str    q5, [x8, #16]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x1e270186 // fmov    s6, w12
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x4e0c1d46 // mov    v6.s[1], w10
-	WORD $0x6e1804a6 // mov    v6.d[1], v5.d[0]
-	WORD $0x4e221cc5 // and    v5.16b, v6.16b, v2.16b
-	WORD $0x3d800905 // str    q5, [x8, #32]
-	WORD $0x29442c0a // ldp    w10, w11, [x0, #32]
-	WORD $0x9100a000 // add    x0, x0, #40
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x53167d6a // lsr    w10, w11, #22
-	WORD $0x2ea444a5 // ushl    v5.2s, v5.2s, v4.2s
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800d05 // str    q5, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_135
-	JMP LBB0_156
-
-LBB0_136:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.137:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_68
-	// WORD $0x90000009 // adrp    x9, .LCPI0_69
-	// WORD $0x9000000a // adrp    x10, .LCPI0_70
-	VMOVD LCPI0_68, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_71
-	VMOVD LCPI0_69, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_72
-	VMOVD LCPI0_70, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_73
-	VMOVD LCPI0_71, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_74
-	VMOVD LCPI0_72, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_75
-	VMOVD LCPI0_73, V5
-	VMOVD LCPI0_74, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_75, V7
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_138:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404010 // ldur    d16, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x2ea04613 // ushl    v19.2s, v16.2s, v0.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x138a396a // extr    w10, w11, w10, #14
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x0eb11e71 // orr    v17.8b, v19.8b, v17.8b
-	WORD $0x6e116250 // ext    v16.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f077790 // bic    v16.4s, #252, lsl #24
-	WORD $0x3c9c0110 // stur    q16, [x8, #-64]
-	WORD $0x2941a80b // ldp    w11, w10, [x0, #12]
-	WORD $0xfc414010 // ldur    d16, [x0, #20]
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x138b214b // extr    w11, w10, w11, #8
-	WORD $0x53027d4a // lsr    w10, w10, #2
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x2ea24610 // ushl    v16.2s, v16.2s, v2.2s
-	WORD $0x1e270172 // fmov    s18, w11
-	WORD $0x2ea34631 // ushl    v17.2s, v17.2s, v3.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x0eb11e10 // orr    v16.8b, v16.8b, v17.8b
-	WORD $0x6e180612 // mov    v18.d[1], v16.d[0]
-	WORD $0x6f077792 // bic    v18.4s, #252, lsl #24
-	WORD $0x3c9d0112 // stur    q18, [x8, #-48]
-	WORD $0xfc41c010 // ldur    d16, [x0, #28]
-	WORD $0xbd401811 // ldr    s17, [x0, #24]
-	WORD $0xb940240c // ldr    w12, [x0, #36]
-	WORD $0x2ea44612 // ushl    v18.2s, v16.2s, v4.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x53047d4b // lsr    w11, w10, #4
-	WORD $0x138a798a // extr    w10, w12, w10, #30
-	WORD $0x2ea54631 // ushl    v17.2s, v17.2s, v5.2s
-	WORD $0x0eb11e50 // orr    v16.8b, v18.8b, v17.8b
-	WORD $0x4e141d70 // mov    v16.s[2], w11
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f077790 // bic    v16.4s, #252, lsl #24
-	WORD $0x3c9e0110 // stur    q16, [x8, #-32]
-	WORD $0xfd401410 // ldr    d16, [x0, #40]
-	WORD $0xbd402411 // ldr    s17, [x0, #36]
-	WORD $0xb940300b // ldr    w11, [x0, #48]
-	WORD $0x2ea64612 // ushl    v18.2s, v16.2s, v6.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x138a316a // extr    w10, w11, w10, #12
-	WORD $0x2ea74631 // ushl    v17.2s, v17.2s, v7.2s
-	WORD $0x0eb11e50 // orr    v16.8b, v18.8b, v17.8b
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f077790 // bic    v16.4s, #252, lsl #24
-	WORD $0x3c9f0110 // stur    q16, [x8, #-16]
-	WORD $0xb940340a // ldr    w10, [x0, #52]
-	WORD $0xfd401c10 // ldr    d16, [x0, #56]
-	WORD $0xb940400b // ldr    w11, [x0, #64]
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x2ea04613 // ushl    v19.2s, v16.2s, v0.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x138a396a // extr    w10, w11, w10, #14
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x0eb11e71 // orr    v17.8b, v19.8b, v17.8b
-	WORD $0x6e116250 // ext    v16.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f077790 // bic    v16.4s, #252, lsl #24
-	WORD $0x3d800110 // str    q16, [x8]
-	WORD $0x2948280b // ldp    w11, w10, [x0, #64]
-	WORD $0xfd402410 // ldr    d16, [x0, #72]
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x138b214b // extr    w11, w10, w11, #8
-	WORD $0x53027d4a // lsr    w10, w10, #2
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x2ea24610 // ushl    v16.2s, v16.2s, v2.2s
-	WORD $0x1e270172 // fmov    s18, w11
-	WORD $0x2ea34631 // ushl    v17.2s, v17.2s, v3.2s
-	WORD $0x4e0c1d52 // mov    v18.s[1], w10
-	WORD $0x0eb11e10 // orr    v16.8b, v16.8b, v17.8b
-	WORD $0x6e180612 // mov    v18.d[1], v16.d[0]
-	WORD $0x6f077792 // bic    v18.4s, #252, lsl #24
-	WORD $0x3d800512 // str    q18, [x8, #16]
-	WORD $0xfd402810 // ldr    d16, [x0, #80]
-	WORD $0xbd404c11 // ldr    s17, [x0, #76]
-	WORD $0xb940580c // ldr    w12, [x0, #88]
-	WORD $0x2ea44612 // ushl    v18.2s, v16.2s, v4.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x53047d4b // lsr    w11, w10, #4
-	WORD $0x138a798a // extr    w10, w12, w10, #30
-	WORD $0x2ea54631 // ushl    v17.2s, v17.2s, v5.2s
-	WORD $0x0eb11e50 // orr    v16.8b, v18.8b, v17.8b
-	WORD $0x4e141d70 // mov    v16.s[2], w11
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f077790 // bic    v16.4s, #252, lsl #24
-	WORD $0x3d800910 // str    q16, [x8, #32]
-	WORD $0xfc45c010 // ldur    d16, [x0, #92]
-	WORD $0xbd405811 // ldr    s17, [x0, #88]
-	WORD $0xb940640b // ldr    w11, [x0, #100]
-	WORD $0x9101a000 // add    x0, x0, #104
-	WORD $0x2ea64612 // ushl    v18.2s, v16.2s, v6.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x138a316a // extr    w10, w11, w10, #12
-	WORD $0x2ea74631 // ushl    v17.2s, v17.2s, v7.2s
-	WORD $0x0eb11e50 // orr    v16.8b, v18.8b, v17.8b
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53067d6a // lsr    w10, w11, #6
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f077790 // bic    v16.4s, #252, lsl #24
-	WORD $0x3d800d10 // str    q16, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_138
-	JMP LBB0_156
-
-LBB0_139:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.140:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_174
-	// WORD $0x90000009 // adrp    x9, .LCPI0_175
-	// WORD $0x9000000a // adrp    x10, .LCPI0_176
-	// WORD $0x9000000b // adrp    x11, .LCPI0_177
-	WORD $0x4f0107e2 // movi    v2.4s, #63
-	VMOVD LCPI0_174, V0
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_175, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-	VMOVD LCPI0_176, V3
-	VMOVQ LCPI0_177L, LCPI0_177H, V4
-
-LBB0_141:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x53127d4a // lsr    w10, w10, #18
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x2ea044a5 // ushl    v5.2s, v5.2s, v0.2s
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9c0105 // stur    q5, [x8, #-64]
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0x53187d4c // lsr    w12, w10, #24
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x1e270186 // fmov    s6, w12
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x4e0c1d46 // mov    v6.s[1], w10
-	WORD $0x6e1804a6 // mov    v6.d[1], v5.d[0]
-	WORD $0x4e221cc5 // and    v5.16b, v6.16b, v2.16b
-	WORD $0x3c9d0105 // stur    q5, [x8, #-48]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x4e141d45 // mov    v5.s[2], w10
-	WORD $0x53027d6a // lsr    w10, w11, #2
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x9100200a // add    x10, x0, #8
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9e0105 // stur    q5, [x8, #-32]
-	WORD $0x4d40c945 // ld1r    { v5.4s }, [x10]
-	WORD $0x6ea444a5 // ushl    v5.4s, v5.4s, v4.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3c9f0105 // stur    q5, [x8, #-16]
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x1e270146 // fmov    s6, w10
-	WORD $0x53127d4a // lsr    w10, w10, #18
-	WORD $0x6e0620c6 // ext    v6.16b, v6.16b, v6.16b, #4
-	WORD $0x2ea044a5 // ushl    v5.2s, v5.2s, v0.2s
-	WORD $0x6e0560c5 // ext    v5.16b, v6.16b, v5.16b, #12
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800105 // str    q5, [x8]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x53187d4c // lsr    w12, w10, #24
-	WORD $0x0e040d65 // dup    v5.2s, w11
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x1e270186 // fmov    s6, w12
-	WORD $0x2ea144a5 // ushl    v5.2s, v5.2s, v1.2s
-	WORD $0x4e0c1d46 // mov    v6.s[1], w10
-	WORD $0x6e1804a6 // mov    v6.d[1], v5.d[0]
-	WORD $0x4e221cc5 // and    v5.16b, v6.16b, v2.16b
-	WORD $0x3d800505 // str    q5, [x8, #16]
-	WORD $0x29422c0a // ldp    w10, w11, [x0, #16]
-	WORD $0x0e040d45 // dup    v5.2s, w10
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x2ea344a5 // ushl    v5.2s, v5.2s, v3.2s
-	WORD $0x4e141d45 // mov    v5.s[2], w10
-	WORD $0x53027d6a // lsr    w10, w11, #2
-	WORD $0x4e1c1d45 // mov    v5.s[3], w10
-	WORD $0x9100500a // add    x10, x0, #20
-	WORD $0x91006000 // add    x0, x0, #24
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800905 // str    q5, [x8, #32]
-	WORD $0x4d40c945 // ld1r    { v5.4s }, [x10]
-	WORD $0x6ea444a5 // ushl    v5.4s, v5.4s, v4.4s
-	WORD $0x4e221ca5 // and    v5.16b, v5.16b, v2.16b
-	WORD $0x3d800d05 // str    q5, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_141
-	JMP LBB0_156
-
-LBB0_142:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.143:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_110
-	// WORD $0x90000009 // adrp    x9, .LCPI0_111
-	// WORD $0x9000000a // adrp    x10, .LCPI0_112
-	WORD $0x4f01d7e7 // movi    v7.4s, #63, msl #16
-	VMOVD LCPI0_110, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_113
-	VMOVD LCPI0_111, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_114
-	VMOVD LCPI0_112, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_115
-	VMOVD LCPI0_113, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_116
-	VMOVD LCPI0_114, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_117
-	VMOVD LCPI0_115, V5
-	VMOVD LCPI0_116, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_117, V16
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_144:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404011 // ldur    d17, [x0, #4]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x1e270153 // fmov    s19, w10
-	WORD $0x2ea04634 // ushl    v20.2s, v17.2s, v0.2s
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x6e132273 // ext    v19.16b, v19.16b, v19.16b, #4
-	WORD $0x53027d4a // lsr    w10, w10, #2
-	WORD $0x2ea14652 // ushl    v18.2s, v18.2s, v1.2s
-	WORD $0x0eb21e92 // orr    v18.8b, v20.8b, v18.8b
-	WORD $0x6e126271 // ext    v17.16b, v19.16b, v18.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9c0111 // stur    q17, [x8, #-64]
-	WORD $0xfc40c011 // ldur    d17, [x0, #12]
-	WORD $0xbd400812 // ldr    s18, [x0, #8]
-	WORD $0xb940140c // ldr    w12, [x0, #20]
-	WORD $0x2ea24633 // ushl    v19.2s, v17.2s, v2.2s
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x53047d4b // lsr    w11, w10, #4
-	WORD $0x138a698a // extr    w10, w12, w10, #26
-	WORD $0x2ea34652 // ushl    v18.2s, v18.2s, v3.2s
-	WORD $0x0eb21e71 // orr    v17.8b, v19.8b, v18.8b
-	WORD $0x4e141d71 // mov    v17.s[2], w11
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9d0111 // stur    q17, [x8, #-48]
-	WORD $0x2942a80b // ldp    w11, w10, [x0, #20]
-	WORD $0xfc41c011 // ldur    d17, [x0, #28]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x138b414b // extr    w11, w10, w11, #16
-	WORD $0x53067d4a // lsr    w10, w10, #6
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x2ea44631 // ushl    v17.2s, v17.2s, v4.2s
-	WORD $0x1e270173 // fmov    s19, w11
-	WORD $0x2ea54652 // ushl    v18.2s, v18.2s, v5.2s
-	WORD $0x4e0c1d53 // mov    v19.s[1], w10
-	WORD $0x0eb21e31 // orr    v17.8b, v17.8b, v18.8b
-	WORD $0x6e180633 // mov    v19.d[1], v17.d[0]
-	WORD $0x4e271e71 // and    v17.16b, v19.16b, v7.16b
-	WORD $0x3c9e0111 // stur    q17, [x8, #-32]
-	WORD $0xb940200a // ldr    w10, [x0, #32]
-	WORD $0xfc424011 // ldur    d17, [x0, #36]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea64633 // ushl    v19.2s, v17.2s, v6.2s
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x1e270154 // fmov    s20, w10
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x6e142294 // ext    v20.16b, v20.16b, v20.16b, #4
-	WORD $0x2eb04652 // ushl    v18.2s, v18.2s, v16.2s
-	WORD $0x530a7d4a // lsr    w10, w10, #10
-	WORD $0x0eb21e72 // orr    v18.8b, v19.8b, v18.8b
-	WORD $0x6e126291 // ext    v17.16b, v20.16b, v18.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3c9f0111 // stur    q17, [x8, #-16]
-	WORD $0xb9402c0a // ldr    w10, [x0, #44]
-	WORD $0xfd401811 // ldr    d17, [x0, #48]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x1e270153 // fmov    s19, w10
-	WORD $0x2ea04634 // ushl    v20.2s, v17.2s, v0.2s
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x6e132273 // ext    v19.16b, v19.16b, v19.16b, #4
-	WORD $0x53027d4a // lsr    w10, w10, #2
-	WORD $0x2ea14652 // ushl    v18.2s, v18.2s, v1.2s
-	WORD $0x0eb21e92 // orr    v18.8b, v20.8b, v18.8b
-	WORD $0x6e126271 // ext    v17.16b, v19.16b, v18.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800111 // str    q17, [x8]
-	WORD $0xfd401c11 // ldr    d17, [x0, #56]
-	WORD $0xbd403412 // ldr    s18, [x0, #52]
-	WORD $0xb940400c // ldr    w12, [x0, #64]
-	WORD $0x2ea24633 // ushl    v19.2s, v17.2s, v2.2s
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x53047d4b // lsr    w11, w10, #4
-	WORD $0x138a698a // extr    w10, w12, w10, #26
-	WORD $0x2ea34652 // ushl    v18.2s, v18.2s, v3.2s
-	WORD $0x0eb21e71 // orr    v17.8b, v19.8b, v18.8b
-	WORD $0x4e141d71 // mov    v17.s[2], w11
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800511 // str    q17, [x8, #16]
-	WORD $0x2948280b // ldp    w11, w10, [x0, #64]
-	WORD $0xfd402411 // ldr    d17, [x0, #72]
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x138b414b // extr    w11, w10, w11, #16
-	WORD $0x53067d4a // lsr    w10, w10, #6
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x2ea44631 // ushl    v17.2s, v17.2s, v4.2s
-	WORD $0x1e270173 // fmov    s19, w11
-	WORD $0x2ea54652 // ushl    v18.2s, v18.2s, v5.2s
-	WORD $0x4e0c1d53 // mov    v19.s[1], w10
-	WORD $0x0eb21e31 // orr    v17.8b, v17.8b, v18.8b
-	WORD $0x6e180633 // mov    v19.d[1], v17.d[0]
-	WORD $0x4e271e71 // and    v17.16b, v19.16b, v7.16b
-	WORD $0x3d800911 // str    q17, [x8, #32]
-	WORD $0xb9404c0a // ldr    w10, [x0, #76]
-	WORD $0xfd402811 // ldr    d17, [x0, #80]
-	WORD $0x91016000 // add    x0, x0, #88
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x53087d4a // lsr    w10, w10, #8
-	WORD $0x2ea64633 // ushl    v19.2s, v17.2s, v6.2s
-	WORD $0x0e913a52 // zip1    v18.2s, v18.2s, v17.2s
-	WORD $0x1e270154 // fmov    s20, w10
-	WORD $0x0e0c3e2a // mov    w10, v17.s[1]
-	WORD $0x6e142294 // ext    v20.16b, v20.16b, v20.16b, #4
-	WORD $0x2eb04652 // ushl    v18.2s, v18.2s, v16.2s
-	WORD $0x530a7d4a // lsr    w10, w10, #10
-	WORD $0x0eb21e72 // orr    v18.8b, v19.8b, v18.8b
-	WORD $0x6e126291 // ext    v17.16b, v20.16b, v18.16b, #12
-	WORD $0x4e1c1d51 // mov    v17.s[3], w10
-	WORD $0x4e271e31 // and    v17.16b, v17.16b, v7.16b
-	WORD $0x3d800d11 // str    q17, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_144
-	JMP LBB0_156
-
-LBB0_145:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.146:
-	// WORD $0x90000009 // adrp    x9, .LCPI0_139
-	WORD $0x91010348 // add    x8, x26, #64
-	WORD $0x4f01c7e0 // movi    v0.4s, #63, msl #8
-	VMOVD LCPI0_139, V1
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_147:
-	WORD $0x29402c0a // ldp    w10, w11, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0x530e7d4c // lsr    w12, w10, #14
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9c0102 // stur    q2, [x8, #-64]
-	WORD $0x2940ac0a // ldp    w10, w11, [x0, #4]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x53067d6c // lsr    w12, w11, #6
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0xb9400c0a // ldr    w10, [x0, #12]
-	WORD $0x138b514b // extr    w11, w10, w11, #20
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x53027d4a // lsr    w10, w10, #2
-	WORD $0x4e141d62 // mov    v2.s[2], w11
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9d0102 // stur    q2, [x8, #-48]
-	WORD $0x2941ac0a // ldp    w10, w11, [x0, #12]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x1e270182 // fmov    s2, w12
-	WORD $0xb940140c // ldr    w12, [x0, #20]
-	WORD $0x4e0c1d42 // mov    v2.s[1], w10
-	WORD $0x530c7d6a // lsr    w10, w11, #12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x138b698a // extr    w10, w12, w11, #26
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3c9e0102 // stur    q2, [x8, #-32]
-	WORD $0x2942ac0a // ldp    w10, w11, [x0, #20]
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a596a // extr    w10, w11, w10, #22
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3c9f0102 // stur    q2, [x8, #-16]
-	WORD $0x2943ac0a // ldp    w10, w11, [x0, #28]
-	WORD $0x530e7d4c // lsr    w12, w10, #14
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0x138a716a // extr    w10, w11, w10, #28
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x530a7d6a // lsr    w10, w11, #10
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800102 // str    q2, [x8]
-	WORD $0x29442c0a // ldp    w10, w11, [x0, #32]
-	WORD $0x138a616a // extr    w10, w11, w10, #24
-	WORD $0x53067d6c // lsr    w12, w11, #6
-	WORD $0x1e270142 // fmov    s2, w10
-	WORD $0xb940280a // ldr    w10, [x0, #40]
-	WORD $0x138b514b // extr    w11, w10, w11, #20
-	WORD $0x4e0c1d82 // mov    v2.s[1], w12
-	WORD $0x53027d4a // lsr    w10, w10, #2
-	WORD $0x4e141d62 // mov    v2.s[2], w11
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800502 // str    q2, [x8, #16]
-	WORD $0x29452c0a // ldp    w10, w11, [x0, #40]
-	WORD $0x53107d4c // lsr    w12, w10, #16
-	WORD $0x138a796a // extr    w10, w11, w10, #30
-	WORD $0x1e270182 // fmov    s2, w12
-	WORD $0xb940300c // ldr    w12, [x0, #48]
-	WORD $0x4e0c1d42 // mov    v2.s[1], w10
-	WORD $0x530c7d6a // lsr    w10, w11, #12
-	WORD $0x4e141d42 // mov    v2.s[2], w10
-	WORD $0x138b698a // extr    w10, w12, w11, #26
-	WORD $0x4e1c1d42 // mov    v2.s[3], w10
-	WORD $0x4e201c42 // and    v2.16b, v2.16b, v0.16b
-	WORD $0x3d800902 // str    q2, [x8, #32]
-	WORD $0x29462c0a // ldp    w10, w11, [x0, #48]
-	WORD $0x9100e000 // add    x0, x0, #56
-	WORD $0x53087d4c // lsr    w12, w10, #8
-	WORD $0x0e040d62 // dup    v2.2s, w11
-	WORD $0x138a596a // extr    w10, w11, w10, #22
-	WORD $0x1e270183 // fmov    s3, w12
-	WORD $0x2ea14442 // ushl    v2.2s, v2.2s, v1.2s
-	WORD $0x4e0c1d43 // mov    v3.s[1], w10
-	WORD $0x6e180443 // mov    v3.d[1], v2.d[0]
-	WORD $0x4e201c62 // and    v2.16b, v3.16b, v0.16b
-	WORD $0x3d800d02 // str    q2, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_147
-	JMP LBB0_156
-
-LBB0_148:
-	WORD $0x7100805f // cmp    w2, #32
-	BLT LBB0_156
-
-	// %bb.149:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_24
-	// WORD $0x90000009 // adrp    x9, .LCPI0_25
-	// WORD $0x9000000a // adrp    x10, .LCPI0_26
-	VMOVD LCPI0_24, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_27
-	VMOVD LCPI0_25, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_28
-	VMOVQ LCPI0_26L, LCPI0_26H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_29
-	VMOVQ LCPI0_27L, LCPI0_27H, V3
-	// WORD $0x90000008 // adrp    x8, .LCPI0_30
-	VMOVQ LCPI0_28L, LCPI0_28H, V4
-	// WORD $0x90000009 // adrp    x9, .LCPI0_31
-	VMOVQ LCPI0_29L, LCPI0_29H, V5
-	VMOVD LCPI0_30, V6
-	WORD $0x91010348 // add    x8, x26, #64
-	VMOVD LCPI0_31, V7
-	WORD $0xaa1303e9 // mov    x9, x19
-
-LBB0_150:
-	WORD $0xb940000a // ldr    w10, [x0]
-	WORD $0xf1000529 // subs    x9, x9, #1
-	WORD $0xfc404010 // ldur    d16, [x0, #4]
-	WORD $0xb9400c0b // ldr    w11, [x0, #12]
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x2ea04613 // ushl    v19.2s, v16.2s, v0.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x0eb11e71 // orr    v17.8b, v19.8b, v17.8b
-	WORD $0x6e116250 // ext    v16.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3c9c0110 // stur    q16, [x8, #-64]
-	WORD $0xbd400c10 // ldr    s16, [x0, #12]
-	WORD $0x3dc00411 // ldr    q17, [x0, #16]
-	WORD $0x6e102210 // ext    v16.16b, v16.16b, v16.16b, #4
-	WORD $0x6e116210 // ext    v16.16b, v16.16b, v17.16b, #12
-	WORD $0x6ea24631 // ushl    v17.4s, v17.4s, v2.4s
-	WORD $0x6ea34610 // ushl    v16.4s, v16.4s, v3.4s
-	WORD $0x4eb01e30 // orr    v16.16b, v17.16b, v16.16b
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3c9d0110 // stur    q16, [x8, #-48]
-	WORD $0xbd401c10 // ldr    s16, [x0, #28]
-	WORD $0x3dc00811 // ldr    q17, [x0, #32]
-	WORD $0x6e102210 // ext    v16.16b, v16.16b, v16.16b, #4
-	WORD $0x6e116210 // ext    v16.16b, v16.16b, v17.16b, #12
-	WORD $0x6ea44631 // ushl    v17.4s, v17.4s, v4.4s
-	WORD $0x6ea54610 // ushl    v16.4s, v16.4s, v5.4s
-	WORD $0x4eb01e30 // orr    v16.16b, v17.16b, v16.16b
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3c9e0110 // stur    q16, [x8, #-32]
-	WORD $0xfd401810 // ldr    d16, [x0, #48]
-	WORD $0xbd402c11 // ldr    s17, [x0, #44]
-	WORD $0xb940380b // ldr    w11, [x0, #56]
-	WORD $0x2ea64612 // ushl    v18.2s, v16.2s, v6.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x138a116a // extr    w10, w11, w10, #4
-	WORD $0x2ea74631 // ushl    v17.2s, v17.2s, v7.2s
-	WORD $0x0eb11e50 // orr    v16.8b, v18.8b, v17.8b
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53027d6a // lsr    w10, w11, #2
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3c9f0110 // stur    q16, [x8, #-16]
-	WORD $0xb9403c0a // ldr    w10, [x0, #60]
-	WORD $0xfd402010 // ldr    d16, [x0, #64]
-	WORD $0xb940480b // ldr    w11, [x0, #72]
-	WORD $0x1e270151 // fmov    s17, w10
-	WORD $0x1e270152 // fmov    s18, w10
-	WORD $0x2ea04613 // ushl    v19.2s, v16.2s, v0.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x6e122252 // ext    v18.16b, v18.16b, v18.16b, #4
-	WORD $0x138a696a // extr    w10, w11, w10, #26
-	WORD $0x2ea14631 // ushl    v17.2s, v17.2s, v1.2s
-	WORD $0x0eb11e71 // orr    v17.8b, v19.8b, v17.8b
-	WORD $0x6e116250 // ext    v16.16b, v18.16b, v17.16b, #12
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3d800110 // str    q16, [x8]
-	WORD $0xbd404810 // ldr    s16, [x0, #72]
-	WORD $0x3cc4c011 // ldur    q17, [x0, #76]
-	WORD $0x6e102210 // ext    v16.16b, v16.16b, v16.16b, #4
-	WORD $0x6e116210 // ext    v16.16b, v16.16b, v17.16b, #12
-	WORD $0x6ea24631 // ushl    v17.4s, v17.4s, v2.4s
-	WORD $0x6ea34610 // ushl    v16.4s, v16.4s, v3.4s
-	WORD $0x4eb01e30 // orr    v16.16b, v17.16b, v16.16b
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3d800510 // str    q16, [x8, #16]
-	WORD $0xbd405810 // ldr    s16, [x0, #88]
-	WORD $0x3cc5c011 // ldur    q17, [x0, #92]
-	WORD $0x6e102210 // ext    v16.16b, v16.16b, v16.16b, #4
-	WORD $0x6e116210 // ext    v16.16b, v16.16b, v17.16b, #12
-	WORD $0x6ea44631 // ushl    v17.4s, v17.4s, v4.4s
-	WORD $0x6ea54610 // ushl    v16.4s, v16.4s, v5.4s
-	WORD $0x4eb01e30 // orr    v16.16b, v17.16b, v16.16b
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3d800910 // str    q16, [x8, #32]
-	WORD $0xfc46c010 // ldur    d16, [x0, #108]
-	WORD $0xbd406811 // ldr    s17, [x0, #104]
-	WORD $0xb940740b // ldr    w11, [x0, #116]
-	WORD $0x9101e000 // add    x0, x0, #120
-	WORD $0x2ea64612 // ushl    v18.2s, v16.2s, v6.2s
-	WORD $0x0e0c3e0a // mov    w10, v16.s[1]
-	WORD $0x0e903a31 // zip1    v17.2s, v17.2s, v16.2s
-	WORD $0x138a116a // extr    w10, w11, w10, #4
-	WORD $0x2ea74631 // ushl    v17.2s, v17.2s, v7.2s
-	WORD $0x0eb11e50 // orr    v16.8b, v18.8b, v17.8b
-	WORD $0x4e141d50 // mov    v16.s[2], w10
-	WORD $0x53027d6a // lsr    w10, w11, #2
-	WORD $0x4e1c1d50 // mov    v16.s[3], w10
-	WORD $0x6f067410 // bic    v16.4s, #192, lsl #24
-	WORD $0x3d800d10 // str    q16, [x8, #48]
-	WORD $0x91020108 // add    x8, x8, #128
-	BNE LBB0_150
-	JMP LBB0_156
-
-LBB0_151:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_0
-	// WORD $0x90000009 // adrp    x9, .LCPI0_1
-	// WORD $0x9000000a // adrp    x10, .LCPI0_2
-	// WORD $0x9000000b // adrp    x11, .LCPI0_3
-	WORD $0x5280020c // mov    w12, #16
-	VMOVQ LCPI0_0L, LCPI0_0H, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_4
-	VMOVQ LCPI0_1L, LCPI0_1H, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_5
-	VMOVQ LCPI0_2L, LCPI0_2H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_6
-	VMOVQ LCPI0_3L, LCPI0_3H, V3
-	// WORD $0x9000000b // adrp    x11, .LCPI0_7
-	VMOVQ LCPI0_4L, LCPI0_4H, V4
-	WORD $0x927c6e68 // and    x8, x19, #0xfffffff0
-	VMOVQ LCPI0_5L, LCPI0_5H, V5
-	WORD $0xaa0803e9 // mov    x9, x8
-	VMOVQ LCPI0_6L, LCPI0_6H, V6
-	WORD $0x4e080d90 // dup    v16.2d, x12
-	VMOVQ LCPI0_7L, LCPI0_7H, V7
-
-LBB0_152:
-	WORD $0x4f4554f1 // shl    v17.2d, v7.2d, #5
-	WORD $0xf1004129 // subs    x9, x9, #16
-	WORD $0x4f4554d2 // shl    v18.2d, v6.2d, #5
-	WORD $0x4f4554b3 // shl    v19.2d, v5.2d, #5
-	WORD $0x4f455494 // shl    v20.2d, v4.2d, #5
-	WORD $0x4e183e2d // mov    x13, v17.d[1]
-	WORD $0x9e66022a // fmov    x10, d17
-	WORD $0x4e183e4e // mov    x14, v18.d[1]
-	WORD $0x9e66026f // fmov    x15, d19
-	WORD $0x4e183e70 // mov    x16, v19.d[1]
-	WORD $0x4f455471 // shl    v17.2d, v3.2d, #5
-	WORD $0x8b0a0b4c // add    x12, x26, x10, lsl #2
-	WORD $0x9e660280 // fmov    x0, d20
-	WORD $0x8b0f0b4a // add    x10, x26, x15, lsl #2
-	WORD $0x4f455453 // shl    v19.2d, v2.2d, #5
-	WORD $0x9e66024b // fmov    x11, d18
-	WORD $0x8b0d0b51 // add    x17, x26, x13, lsl #2
-	WORD $0x8b0e0b4f // add    x15, x26, x14, lsl #2
-	WORD $0x4f455412 // shl    v18.2d, v0.2d, #5
-	WORD $0x8b100b4d // add    x13, x26, x16, lsl #2
-	WORD $0x8b000b4e // add    x14, x26, x0, lsl #2
-	WORD $0x9e660230 // fmov    x16, d17
-	WORD $0x4e183e20 // mov    x0, v17.d[1]
-	WORD $0x9e660263 // fmov    x3, d19
-	WORD $0x4f455431 // shl    v17.2d, v1.2d, #5
-	WORD $0x8b0b0b4b // add    x11, x26, x11, lsl #2
-	WORD $0x4e183e92 // mov    x18, v20.d[1]
-	WORD $0x8b100b50 // add    x16, x26, x16, lsl #2
-	WORD $0x4e183e62 // mov    x2, v19.d[1]
-	WORD $0x8b030b54 // add    x20, x26, x3, lsl #2
-	WORD $0x4e183e46 // mov    x6, v18.d[1]
-	WORD $0x8b000b40 // add    x0, x26, x0, lsl #2
-	WORD $0x4e183e23 // mov    x3, v17.d[1]
-	WORD $0xb900019f // str    wzr, [x12]
-	WORD $0x9e660225 // fmov    x5, d17
-	WORD $0x8b120b52 // add    x18, x26, x18, lsl #2
-	WORD $0x9e660247 // fmov    x7, d18
-	WORD $0x8b020b44 // add    x4, x26, x2, lsl #2
-	WORD $0x4ef084a5 // add    v5.2d, v5.2d, v16.2d
-	WORD $0x8b060b46 // add    x6, x26, x6, lsl #2
-	WORD $0x4ef084c6 // add    v6.2d, v6.2d, v16.2d
-	WORD $0x8b050b45 // add    x5, x26, x5, lsl #2
-	WORD $0x4ef084e7 // add    v7.2d, v7.2d, v16.2d
-	WORD $0x8b030b42 // add    x2, x26, x3, lsl #2
-	WORD $0x4ef08484 // add    v4.2d, v4.2d, v16.2d
-	WORD $0x8b070b43 // add    x3, x26, x7, lsl #2
-	WORD $0x4ef08463 // add    v3.2d, v3.2d, v16.2d
-	WORD $0xb900023f // str    wzr, [x17]
-	WORD $0x4ef08442 // add    v2.2d, v2.2d, v16.2d
-	WORD $0xb900017f // str    wzr, [x11]
-	WORD $0x4ef08421 // add    v1.2d, v1.2d, v16.2d
-	WORD $0xb90001ff // str    wzr, [x15]
-	WORD $0x4ef08400 // add    v0.2d, v0.2d, v16.2d
-	WORD $0xb900015f // str    wzr, [x10]
-	WORD $0xb90001bf // str    wzr, [x13]
-	WORD $0xb90001df // str    wzr, [x14]
-	WORD $0xb900025f // str    wzr, [x18]
-	WORD $0xb900021f // str    wzr, [x16]
-	WORD $0xb900001f // str    wzr, [x0]
-	WORD $0xb900029f // str    wzr, [x20]
-	WORD $0xb900009f // str    wzr, [x4]
-	WORD $0xb90000bf // str    wzr, [x5]
-	WORD $0xb900005f // str    wzr, [x2]
-	WORD $0xb900007f // str    wzr, [x3]
-	WORD $0xb90000df // str    wzr, [x6]
-	WORD $0xb900059f // str    wzr, [x12, #4]
-	WORD $0xb900063f // str    wzr, [x17, #4]
-	WORD $0xb900057f // str    wzr, [x11, #4]
-	WORD $0xb90005ff // str    wzr, [x15, #4]
-	WORD $0xb900055f // str    wzr, [x10, #4]
-	WORD $0xb90005bf // str    wzr, [x13, #4]
-	WORD $0xb90005df // str    wzr, [x14, #4]
-	WORD $0xb900065f // str    wzr, [x18, #4]
-	WORD $0xb900061f // str    wzr, [x16, #4]
-	WORD $0xb900041f // str    wzr, [x0, #4]
-	WORD $0xb900069f // str    wzr, [x20, #4]
-	WORD $0xb900049f // str    wzr, [x4, #4]
-	WORD $0xb90004bf // str    wzr, [x5, #4]
-	WORD $0xb900045f // str    wzr, [x2, #4]
-	WORD $0xb900047f // str    wzr, [x3, #4]
-	WORD $0xb90004df // str    wzr, [x6, #4]
-	WORD $0xb900099f // str    wzr, [x12, #8]
-	WORD $0xb9000a3f // str    wzr, [x17, #8]
-	WORD $0xb900097f // str    wzr, [x11, #8]
-	WORD $0xb90009ff // str    wzr, [x15, #8]
-	WORD $0xb900095f // str    wzr, [x10, #8]
-	WORD $0xb90009bf // str    wzr, [x13, #8]
-	WORD $0xb90009df // str    wzr, [x14, #8]
-	WORD $0xb9000a5f // str    wzr, [x18, #8]
-	WORD $0xb9000a1f // str    wzr, [x16, #8]
-	WORD $0xb900081f // str    wzr, [x0, #8]
-	WORD $0xb9000a9f // str    wzr, [x20, #8]
-	WORD $0xb900089f // str    wzr, [x4, #8]
-	WORD $0xb90008bf // str    wzr, [x5, #8]
-	WORD $0xb900085f // str    wzr, [x2, #8]
-	WORD $0xb900087f // str    wzr, [x3, #8]
-	WORD $0xb90008df // str    wzr, [x6, #8]
-	WORD $0xb9000d9f // str    wzr, [x12, #12]
-	WORD $0xb9000e3f // str    wzr, [x17, #12]
-	WORD $0xb9000d7f // str    wzr, [x11, #12]
-	WORD $0xb9000dff // str    wzr, [x15, #12]
-	WORD $0xb9000d5f // str    wzr, [x10, #12]
-	WORD $0xb9000dbf // str    wzr, [x13, #12]
-	WORD $0xb9000ddf // str    wzr, [x14, #12]
-	WORD $0xb9000e5f // str    wzr, [x18, #12]
-	WORD $0xb9000e1f // str    wzr, [x16, #12]
-	WORD $0xb9000c1f // str    wzr, [x0, #12]
-	WORD $0xb9000e9f // str    wzr, [x20, #12]
-	WORD $0xb9000c9f // str    wzr, [x4, #12]
-	WORD $0xb9000cbf // str    wzr, [x5, #12]
-	WORD $0xb9000c5f // str    wzr, [x2, #12]
-	WORD $0xb9000c7f // str    wzr, [x3, #12]
-	WORD $0xb9000cdf // str    wzr, [x6, #12]
-	WORD $0xb900119f // str    wzr, [x12, #16]
-	WORD $0xb900123f // str    wzr, [x17, #16]
-	WORD $0xb900117f // str    wzr, [x11, #16]
-	WORD $0xb90011ff // str    wzr, [x15, #16]
-	WORD $0xb900115f // str    wzr, [x10, #16]
-	WORD $0xb90011bf // str    wzr, [x13, #16]
-	WORD $0xb90011df // str    wzr, [x14, #16]
-	WORD $0xb900125f // str    wzr, [x18, #16]
-	WORD $0xb900121f // str    wzr, [x16, #16]
-	WORD $0xb900101f // str    wzr, [x0, #16]
-	WORD $0xb900129f // str    wzr, [x20, #16]
-	WORD $0xb900109f // str    wzr, [x4, #16]
-	WORD $0xb90010bf // str    wzr, [x5, #16]
-	WORD $0xb900105f // str    wzr, [x2, #16]
-	WORD $0xb900107f // str    wzr, [x3, #16]
-	WORD $0xb90010df // str    wzr, [x6, #16]
-	WORD $0xb900159f // str    wzr, [x12, #20]
-	WORD $0xb900163f // str    wzr, [x17, #20]
-	WORD $0xb900157f // str    wzr, [x11, #20]
-	WORD $0xb90015ff // str    wzr, [x15, #20]
-	WORD $0xb900155f // str    wzr, [x10, #20]
-	WORD $0xb90015bf // str    wzr, [x13, #20]
-	WORD $0xb90015df // str    wzr, [x14, #20]
-	WORD $0xb900165f // str    wzr, [x18, #20]
-	WORD $0xb900161f // str    wzr, [x16, #20]
-	WORD $0xb900141f // str    wzr, [x0, #20]
-	WORD $0xb900169f // str    wzr, [x20, #20]
-	WORD $0xb900149f // str    wzr, [x4, #20]
-	WORD $0xb90014bf // str    wzr, [x5, #20]
-	WORD $0xb900145f // str    wzr, [x2, #20]
-	WORD $0xb900147f // str    wzr, [x3, #20]
-	WORD $0xb90014df // str    wzr, [x6, #20]
-	WORD $0xb900199f // str    wzr, [x12, #24]
-	WORD $0xb9001a3f // str    wzr, [x17, #24]
-	WORD $0xb900197f // str    wzr, [x11, #24]
-	WORD $0xb90019ff // str    wzr, [x15, #24]
-	WORD $0xb900195f // str    wzr, [x10, #24]
-	WORD $0xb90019bf // str    wzr, [x13, #24]
-	WORD $0xb90019df // str    wzr, [x14, #24]
-	WORD $0xb9001a5f // str    wzr, [x18, #24]
-	WORD $0xb9001a1f // str    wzr, [x16, #24]
-	WORD $0xb900181f // str    wzr, [x0, #24]
-	WORD $0xb9001a9f // str    wzr, [x20, #24]
-	WORD $0xb900189f // str    wzr, [x4, #24]
-	WORD $0xb90018bf // str    wzr, [x5, #24]
-	WORD $0xb900185f // str    wzr, [x2, #24]
-	WORD $0xb900187f // str    wzr, [x3, #24]
-	WORD $0xb90018df // str    wzr, [x6, #24]
-	WORD $0xb9001d9f // str    wzr, [x12, #28]
-	WORD $0xb9001e3f // str    wzr, [x17, #28]
-	WORD $0xb9001d7f // str    wzr, [x11, #28]
-	WORD $0xb9001dff // str    wzr, [x15, #28]
-	WORD $0xb9001d5f // str    wzr, [x10, #28]
-	WORD $0xb9001dbf // str    wzr, [x13, #28]
-	WORD $0xb9001ddf // str    wzr, [x14, #28]
-	WORD $0xb9001e5f // str    wzr, [x18, #28]
-	WORD $0xb9001e1f // str    wzr, [x16, #28]
-	WORD $0xb9001c1f // str    wzr, [x0, #28]
-	WORD $0xb9001e9f // str    wzr, [x20, #28]
-	WORD $0xb9001c9f // str    wzr, [x4, #28]
-	WORD $0xb9001cbf // str    wzr, [x5, #28]
-	WORD $0xb9001c5f // str    wzr, [x2, #28]
-	WORD $0xb9001c7f // str    wzr, [x3, #28]
-	WORD $0xb9001cdf // str    wzr, [x6, #28]
-	WORD $0xb900219f // str    wzr, [x12, #32]
-	WORD $0xb900223f // str    wzr, [x17, #32]
-	WORD $0xb900217f // str    wzr, [x11, #32]
-	WORD $0xb90021ff // str    wzr, [x15, #32]
-	WORD $0xb900215f // str    wzr, [x10, #32]
-	WORD $0xb90021bf // str    wzr, [x13, #32]
-	WORD $0xb90021df // str    wzr, [x14, #32]
-	WORD $0xb900225f // str    wzr, [x18, #32]
-	WORD $0xb900221f // str    wzr, [x16, #32]
-	WORD $0xb900201f // str    wzr, [x0, #32]
-	WORD $0xb900229f // str    wzr, [x20, #32]
-	WORD $0xb900209f // str    wzr, [x4, #32]
-	WORD $0xb90020bf // str    wzr, [x5, #32]
-	WORD $0xb900205f // str    wzr, [x2, #32]
-	WORD $0xb900207f // str    wzr, [x3, #32]
-	WORD $0xb90020df // str    wzr, [x6, #32]
-	WORD $0xb900259f // str    wzr, [x12, #36]
-	WORD $0xb900263f // str    wzr, [x17, #36]
-	WORD $0xb900257f // str    wzr, [x11, #36]
-	WORD $0xb90025ff // str    wzr, [x15, #36]
-	WORD $0xb900255f // str    wzr, [x10, #36]
-	WORD $0xb90025bf // str    wzr, [x13, #36]
-	WORD $0xb90025df // str    wzr, [x14, #36]
-	WORD $0xb900265f // str    wzr, [x18, #36]
-	WORD $0xb900261f // str    wzr, [x16, #36]
-	WORD $0xb900241f // str    wzr, [x0, #36]
-	WORD $0xb900269f // str    wzr, [x20, #36]
-	WORD $0xb900249f // str    wzr, [x4, #36]
-	WORD $0xb90024bf // str    wzr, [x5, #36]
-	WORD $0xb900245f // str    wzr, [x2, #36]
-	WORD $0xb900247f // str    wzr, [x3, #36]
-	WORD $0xb90024df // str    wzr, [x6, #36]
-	WORD $0xb900299f // str    wzr, [x12, #40]
-	WORD $0xb9002a3f // str    wzr, [x17, #40]
-	WORD $0xb900297f // str    wzr, [x11, #40]
-	WORD $0xb90029ff // str    wzr, [x15, #40]
-	WORD $0xb900295f // str    wzr, [x10, #40]
-	WORD $0xb90029bf // str    wzr, [x13, #40]
-	WORD $0xb90029df // str    wzr, [x14, #40]
-	WORD $0xb9002a5f // str    wzr, [x18, #40]
-	WORD $0xb9002a1f // str    wzr, [x16, #40]
-	WORD $0xb900281f // str    wzr, [x0, #40]
-	WORD $0xb9002a9f // str    wzr, [x20, #40]
-	WORD $0xb900289f // str    wzr, [x4, #40]
-	WORD $0xb90028bf // str    wzr, [x5, #40]
-	WORD $0xb900285f // str    wzr, [x2, #40]
-	WORD $0xb900287f // str    wzr, [x3, #40]
-	WORD $0xb90028df // str    wzr, [x6, #40]
-	WORD $0xb9002d9f // str    wzr, [x12, #44]
-	WORD $0xb9002e3f // str    wzr, [x17, #44]
-	WORD $0xb9002d7f // str    wzr, [x11, #44]
-	WORD $0xb9002dff // str    wzr, [x15, #44]
-	WORD $0xb9002d5f // str    wzr, [x10, #44]
-	WORD $0xb9002dbf // str    wzr, [x13, #44]
-	WORD $0xb9002ddf // str    wzr, [x14, #44]
-	WORD $0xb9002e5f // str    wzr, [x18, #44]
-	WORD $0xb9002e1f // str    wzr, [x16, #44]
-	WORD $0xb9002c1f // str    wzr, [x0, #44]
-	WORD $0xb9002e9f // str    wzr, [x20, #44]
-	WORD $0xb9002c9f // str    wzr, [x4, #44]
-	WORD $0xb9002cbf // str    wzr, [x5, #44]
-	WORD $0xb9002c5f // str    wzr, [x2, #44]
-	WORD $0xb9002c7f // str    wzr, [x3, #44]
-	WORD $0xb9002cdf // str    wzr, [x6, #44]
-	WORD $0xb900319f // str    wzr, [x12, #48]
-	WORD $0xb900323f // str    wzr, [x17, #48]
-	WORD $0xb900317f // str    wzr, [x11, #48]
-	WORD $0xb90031ff // str    wzr, [x15, #48]
-	WORD $0xb900315f // str    wzr, [x10, #48]
-	WORD $0xb90031bf // str    wzr, [x13, #48]
-	WORD $0xb90031df // str    wzr, [x14, #48]
-	WORD $0xb900325f // str    wzr, [x18, #48]
-	WORD $0xb900321f // str    wzr, [x16, #48]
-	WORD $0xb900301f // str    wzr, [x0, #48]
-	WORD $0xb900329f // str    wzr, [x20, #48]
-	WORD $0xb900309f // str    wzr, [x4, #48]
-	WORD $0xb90030bf // str    wzr, [x5, #48]
-	WORD $0xb900305f // str    wzr, [x2, #48]
-	WORD $0xb900307f // str    wzr, [x3, #48]
-	WORD $0xb90030df // str    wzr, [x6, #48]
-	WORD $0xb900359f // str    wzr, [x12, #52]
-	WORD $0xb900363f // str    wzr, [x17, #52]
-	WORD $0xb900357f // str    wzr, [x11, #52]
-	WORD $0xb90035ff // str    wzr, [x15, #52]
-	WORD $0xb900355f // str    wzr, [x10, #52]
-	WORD $0xb90035bf // str    wzr, [x13, #52]
-	WORD $0xb90035df // str    wzr, [x14, #52]
-	WORD $0xb900365f // str    wzr, [x18, #52]
-	WORD $0xb900361f // str    wzr, [x16, #52]
-	WORD $0xb900341f // str    wzr, [x0, #52]
-	WORD $0xb900369f // str    wzr, [x20, #52]
-	WORD $0xb900349f // str    wzr, [x4, #52]
-	WORD $0xb90034bf // str    wzr, [x5, #52]
-	WORD $0xb900345f // str    wzr, [x2, #52]
-	WORD $0xb900347f // str    wzr, [x3, #52]
-	WORD $0xb90034df // str    wzr, [x6, #52]
-	WORD $0xb900399f // str    wzr, [x12, #56]
-	WORD $0xb9003a3f // str    wzr, [x17, #56]
-	WORD $0xb900397f // str    wzr, [x11, #56]
-	WORD $0xb90039ff // str    wzr, [x15, #56]
-	WORD $0xb900395f // str    wzr, [x10, #56]
-	WORD $0xb90039bf // str    wzr, [x13, #56]
-	WORD $0xb90039df // str    wzr, [x14, #56]
-	WORD $0xb9003a5f // str    wzr, [x18, #56]
-	WORD $0xb9003a1f // str    wzr, [x16, #56]
-	WORD $0xb900381f // str    wzr, [x0, #56]
-	WORD $0xb9003a9f // str    wzr, [x20, #56]
-	WORD $0xb900389f // str    wzr, [x4, #56]
-	WORD $0xb90038bf // str    wzr, [x5, #56]
-	WORD $0xb900385f // str    wzr, [x2, #56]
-	WORD $0xb900387f // str    wzr, [x3, #56]
-	WORD $0xb90038df // str    wzr, [x6, #56]
-	WORD $0xb9003d9f // str    wzr, [x12, #60]
-	WORD $0xb9003e3f // str    wzr, [x17, #60]
-	WORD $0xb9003d7f // str    wzr, [x11, #60]
-	WORD $0xb9003dff // str    wzr, [x15, #60]
-	WORD $0xb9003d5f // str    wzr, [x10, #60]
-	WORD $0xb9003dbf // str    wzr, [x13, #60]
-	WORD $0xb9003ddf // str    wzr, [x14, #60]
-	WORD $0xb9003e5f // str    wzr, [x18, #60]
-	WORD $0xb9003e1f // str    wzr, [x16, #60]
-	WORD $0xb9003c1f // str    wzr, [x0, #60]
-	WORD $0xb9003e9f // str    wzr, [x20, #60]
-	WORD $0xb9003c9f // str    wzr, [x4, #60]
-	WORD $0xb9003cbf // str    wzr, [x5, #60]
-	WORD $0xb9003c5f // str    wzr, [x2, #60]
-	WORD $0xb9003c7f // str    wzr, [x3, #60]
-	WORD $0xb9003cdf // str    wzr, [x6, #60]
-	WORD $0xb900419f // str    wzr, [x12, #64]
-	WORD $0xb900423f // str    wzr, [x17, #64]
-	WORD $0xb900417f // str    wzr, [x11, #64]
-	WORD $0xb90041ff // str    wzr, [x15, #64]
-	WORD $0xb900415f // str    wzr, [x10, #64]
-	WORD $0xb90041bf // str    wzr, [x13, #64]
-	WORD $0xb90041df // str    wzr, [x14, #64]
-	WORD $0xb900425f // str    wzr, [x18, #64]
-	WORD $0xb900421f // str    wzr, [x16, #64]
-	WORD $0xb900401f // str    wzr, [x0, #64]
-	WORD $0xb900429f // str    wzr, [x20, #64]
-	WORD $0xb900409f // str    wzr, [x4, #64]
-	WORD $0xb90040bf // str    wzr, [x5, #64]
-	WORD $0xb900405f // str    wzr, [x2, #64]
-	WORD $0xb900407f // str    wzr, [x3, #64]
-	WORD $0xb90040df // str    wzr, [x6, #64]
-	WORD $0xb900459f // str    wzr, [x12, #68]
-	WORD $0xb900463f // str    wzr, [x17, #68]
-	WORD $0xb900457f // str    wzr, [x11, #68]
-	WORD $0xb90045ff // str    wzr, [x15, #68]
-	WORD $0xb900455f // str    wzr, [x10, #68]
-	WORD $0xb90045bf // str    wzr, [x13, #68]
-	WORD $0xb90045df // str    wzr, [x14, #68]
-	WORD $0xb900465f // str    wzr, [x18, #68]
-	WORD $0xb900461f // str    wzr, [x16, #68]
-	WORD $0xb900441f // str    wzr, [x0, #68]
-	WORD $0xb900469f // str    wzr, [x20, #68]
-	WORD $0xb900449f // str    wzr, [x4, #68]
-	WORD $0xb90044bf // str    wzr, [x5, #68]
-	WORD $0xb900445f // str    wzr, [x2, #68]
-	WORD $0xb900447f // str    wzr, [x3, #68]
-	WORD $0xb90044df // str    wzr, [x6, #68]
-	WORD $0xb900499f // str    wzr, [x12, #72]
-	WORD $0xb9004a3f // str    wzr, [x17, #72]
-	WORD $0xb900497f // str    wzr, [x11, #72]
-	WORD $0xb90049ff // str    wzr, [x15, #72]
-	WORD $0xb900495f // str    wzr, [x10, #72]
-	WORD $0xb90049bf // str    wzr, [x13, #72]
-	WORD $0xb90049df // str    wzr, [x14, #72]
-	WORD $0xb9004a5f // str    wzr, [x18, #72]
-	WORD $0xb9004a1f // str    wzr, [x16, #72]
-	WORD $0xb900481f // str    wzr, [x0, #72]
-	WORD $0xb9004a9f // str    wzr, [x20, #72]
-	WORD $0xb900489f // str    wzr, [x4, #72]
-	WORD $0xb90048bf // str    wzr, [x5, #72]
-	WORD $0xb900485f // str    wzr, [x2, #72]
-	WORD $0xb900487f // str    wzr, [x3, #72]
-	WORD $0xb90048df // str    wzr, [x6, #72]
-	WORD $0xb9004d9f // str    wzr, [x12, #76]
-	WORD $0xb9004e3f // str    wzr, [x17, #76]
-	WORD $0xb9004d7f // str    wzr, [x11, #76]
-	WORD $0xb9004dff // str    wzr, [x15, #76]
-	WORD $0xb9004d5f // str    wzr, [x10, #76]
-	WORD $0xb9004dbf // str    wzr, [x13, #76]
-	WORD $0xb9004ddf // str    wzr, [x14, #76]
-	WORD $0xb9004e5f // str    wzr, [x18, #76]
-	WORD $0xb9004e1f // str    wzr, [x16, #76]
-	WORD $0xb9004c1f // str    wzr, [x0, #76]
-	WORD $0xb9004e9f // str    wzr, [x20, #76]
-	WORD $0xb9004c9f // str    wzr, [x4, #76]
-	WORD $0xb9004cbf // str    wzr, [x5, #76]
-	WORD $0xb9004c5f // str    wzr, [x2, #76]
-	WORD $0xb9004c7f // str    wzr, [x3, #76]
-	WORD $0xb9004cdf // str    wzr, [x6, #76]
-	WORD $0xb900519f // str    wzr, [x12, #80]
-	WORD $0xb900523f // str    wzr, [x17, #80]
-	WORD $0xb900517f // str    wzr, [x11, #80]
-	WORD $0xb90051ff // str    wzr, [x15, #80]
-	WORD $0xb900515f // str    wzr, [x10, #80]
-	WORD $0xb90051bf // str    wzr, [x13, #80]
-	WORD $0xb90051df // str    wzr, [x14, #80]
-	WORD $0xb900525f // str    wzr, [x18, #80]
-	WORD $0xb900521f // str    wzr, [x16, #80]
-	WORD $0xb900501f // str    wzr, [x0, #80]
-	WORD $0xb900529f // str    wzr, [x20, #80]
-	WORD $0xb900509f // str    wzr, [x4, #80]
-	WORD $0xb90050bf // str    wzr, [x5, #80]
-	WORD $0xb900505f // str    wzr, [x2, #80]
-	WORD $0xb900507f // str    wzr, [x3, #80]
-	WORD $0xb90050df // str    wzr, [x6, #80]
-	WORD $0xb900559f // str    wzr, [x12, #84]
-	WORD $0xb900563f // str    wzr, [x17, #84]
-	WORD $0xb900557f // str    wzr, [x11, #84]
-	WORD $0xb90055ff // str    wzr, [x15, #84]
-	WORD $0xb900555f // str    wzr, [x10, #84]
-	WORD $0xb90055bf // str    wzr, [x13, #84]
-	WORD $0xb90055df // str    wzr, [x14, #84]
-	WORD $0xb900565f // str    wzr, [x18, #84]
-	WORD $0xb900561f // str    wzr, [x16, #84]
-	WORD $0xb900541f // str    wzr, [x0, #84]
-	WORD $0xb900569f // str    wzr, [x20, #84]
-	WORD $0xb900549f // str    wzr, [x4, #84]
-	WORD $0xb90054bf // str    wzr, [x5, #84]
-	WORD $0xb900545f // str    wzr, [x2, #84]
-	WORD $0xb900547f // str    wzr, [x3, #84]
-	WORD $0xb90054df // str    wzr, [x6, #84]
-	WORD $0xb900599f // str    wzr, [x12, #88]
-	WORD $0xb9005a3f // str    wzr, [x17, #88]
-	WORD $0xb900597f // str    wzr, [x11, #88]
-	WORD $0xb90059ff // str    wzr, [x15, #88]
-	WORD $0xb900595f // str    wzr, [x10, #88]
-	WORD $0xb90059bf // str    wzr, [x13, #88]
-	WORD $0xb90059df // str    wzr, [x14, #88]
-	WORD $0xb9005a5f // str    wzr, [x18, #88]
-	WORD $0xb9005a1f // str    wzr, [x16, #88]
-	WORD $0xb900581f // str    wzr, [x0, #88]
-	WORD $0xb9005a9f // str    wzr, [x20, #88]
-	WORD $0xb900589f // str    wzr, [x4, #88]
-	WORD $0xb90058bf // str    wzr, [x5, #88]
-	WORD $0xb900585f // str    wzr, [x2, #88]
-	WORD $0xb900587f // str    wzr, [x3, #88]
-	WORD $0xb90058df // str    wzr, [x6, #88]
-	WORD $0xb9005d9f // str    wzr, [x12, #92]
-	WORD $0xb9005e3f // str    wzr, [x17, #92]
-	WORD $0xb9005d7f // str    wzr, [x11, #92]
-	WORD $0xb9005dff // str    wzr, [x15, #92]
-	WORD $0xb9005d5f // str    wzr, [x10, #92]
-	WORD $0xb9005dbf // str    wzr, [x13, #92]
-	WORD $0xb9005ddf // str    wzr, [x14, #92]
-	WORD $0xb9005e5f // str    wzr, [x18, #92]
-	WORD $0xb9005e1f // str    wzr, [x16, #92]
-	WORD $0xb9005c1f // str    wzr, [x0, #92]
-	WORD $0xb9005e9f // str    wzr, [x20, #92]
-	WORD $0xb9005c9f // str    wzr, [x4, #92]
-	WORD $0xb9005cbf // str    wzr, [x5, #92]
-	WORD $0xb9005c5f // str    wzr, [x2, #92]
-	WORD $0xb9005c7f // str    wzr, [x3, #92]
-	WORD $0xb9005cdf // str    wzr, [x6, #92]
-	WORD $0xb900619f // str    wzr, [x12, #96]
-	WORD $0xb900623f // str    wzr, [x17, #96]
-	WORD $0xb900617f // str    wzr, [x11, #96]
-	WORD $0xb90061ff // str    wzr, [x15, #96]
-	WORD $0xb900615f // str    wzr, [x10, #96]
-	WORD $0xb90061bf // str    wzr, [x13, #96]
-	WORD $0xb90061df // str    wzr, [x14, #96]
-	WORD $0xb900625f // str    wzr, [x18, #96]
-	WORD $0xb900621f // str    wzr, [x16, #96]
-	WORD $0xb900601f // str    wzr, [x0, #96]
-	WORD $0xb900629f // str    wzr, [x20, #96]
-	WORD $0xb900609f // str    wzr, [x4, #96]
-	WORD $0xb90060bf // str    wzr, [x5, #96]
-	WORD $0xb900605f // str    wzr, [x2, #96]
-	WORD $0xb900607f // str    wzr, [x3, #96]
-	WORD $0xb90060df // str    wzr, [x6, #96]
-	WORD $0xb900659f // str    wzr, [x12, #100]
-	WORD $0xb900663f // str    wzr, [x17, #100]
-	WORD $0xb900657f // str    wzr, [x11, #100]
-	WORD $0xb90065ff // str    wzr, [x15, #100]
-	WORD $0xb900655f // str    wzr, [x10, #100]
-	WORD $0xb90065bf // str    wzr, [x13, #100]
-	WORD $0xb90065df // str    wzr, [x14, #100]
-	WORD $0xb900665f // str    wzr, [x18, #100]
-	WORD $0xb900661f // str    wzr, [x16, #100]
-	WORD $0xb900641f // str    wzr, [x0, #100]
-	WORD $0xb900669f // str    wzr, [x20, #100]
-	WORD $0xb900649f // str    wzr, [x4, #100]
-	WORD $0xb90064bf // str    wzr, [x5, #100]
-	WORD $0xb900645f // str    wzr, [x2, #100]
-	WORD $0xb900647f // str    wzr, [x3, #100]
-	WORD $0xb90064df // str    wzr, [x6, #100]
-	WORD $0xb900699f // str    wzr, [x12, #104]
-	WORD $0xb9006a3f // str    wzr, [x17, #104]
-	WORD $0xb900697f // str    wzr, [x11, #104]
-	WORD $0xb90069ff // str    wzr, [x15, #104]
-	WORD $0xb900695f // str    wzr, [x10, #104]
-	WORD $0xb90069bf // str    wzr, [x13, #104]
-	WORD $0xb90069df // str    wzr, [x14, #104]
-	WORD $0xb9006a5f // str    wzr, [x18, #104]
-	WORD $0xb9006a1f // str    wzr, [x16, #104]
-	WORD $0xb900681f // str    wzr, [x0, #104]
-	WORD $0xb9006a9f // str    wzr, [x20, #104]
-	WORD $0xb900689f // str    wzr, [x4, #104]
-	WORD $0xb90068bf // str    wzr, [x5, #104]
-	WORD $0xb900685f // str    wzr, [x2, #104]
-	WORD $0xb900687f // str    wzr, [x3, #104]
-	WORD $0xb90068df // str    wzr, [x6, #104]
-	WORD $0xb9006d9f // str    wzr, [x12, #108]
-	WORD $0xb9006e3f // str    wzr, [x17, #108]
-	WORD $0xb9006d7f // str    wzr, [x11, #108]
-	WORD $0xb9006dff // str    wzr, [x15, #108]
-	WORD $0xb9006d5f // str    wzr, [x10, #108]
-	WORD $0xb9006dbf // str    wzr, [x13, #108]
-	WORD $0xb9006ddf // str    wzr, [x14, #108]
-	WORD $0xb9006e5f // str    wzr, [x18, #108]
-	WORD $0xb9006e1f // str    wzr, [x16, #108]
-	WORD $0xb9006c1f // str    wzr, [x0, #108]
-	WORD $0xb9006e9f // str    wzr, [x20, #108]
-	WORD $0xb9006c9f // str    wzr, [x4, #108]
-	WORD $0xb9006cbf // str    wzr, [x5, #108]
-	WORD $0xb9006c5f // str    wzr, [x2, #108]
-	WORD $0xb9006c7f // str    wzr, [x3, #108]
-	WORD $0xb9006cdf // str    wzr, [x6, #108]
-	WORD $0xb900719f // str    wzr, [x12, #112]
-	WORD $0xb900723f // str    wzr, [x17, #112]
-	WORD $0xb900717f // str    wzr, [x11, #112]
-	WORD $0xb90071ff // str    wzr, [x15, #112]
-	WORD $0xb900715f // str    wzr, [x10, #112]
-	WORD $0xb90071bf // str    wzr, [x13, #112]
-	WORD $0xb90071df // str    wzr, [x14, #112]
-	WORD $0xb900725f // str    wzr, [x18, #112]
-	WORD $0xb900721f // str    wzr, [x16, #112]
-	WORD $0xb900701f // str    wzr, [x0, #112]
-	WORD $0xb900729f // str    wzr, [x20, #112]
-	WORD $0xb900709f // str    wzr, [x4, #112]
-	WORD $0xb90070bf // str    wzr, [x5, #112]
-	WORD $0xb900705f // str    wzr, [x2, #112]
-	WORD $0xb900707f // str    wzr, [x3, #112]
-	WORD $0xb90070df // str    wzr, [x6, #112]
-	WORD $0xb900759f // str    wzr, [x12, #116]
-	WORD $0xb900763f // str    wzr, [x17, #116]
-	WORD $0xb900757f // str    wzr, [x11, #116]
-	WORD $0xb90075ff // str    wzr, [x15, #116]
-	WORD $0xb900755f // str    wzr, [x10, #116]
-	WORD $0xb90075bf // str    wzr, [x13, #116]
-	WORD $0xb90075df // str    wzr, [x14, #116]
-	WORD $0xb900765f // str    wzr, [x18, #116]
-	WORD $0xb900761f // str    wzr, [x16, #116]
-	WORD $0xb900741f // str    wzr, [x0, #116]
-	WORD $0xb900769f // str    wzr, [x20, #116]
-	WORD $0xb900749f // str    wzr, [x4, #116]
-	WORD $0xb90074bf // str    wzr, [x5, #116]
-	WORD $0xb900745f // str    wzr, [x2, #116]
-	WORD $0xb900747f // str    wzr, [x3, #116]
-	WORD $0xb90074df // str    wzr, [x6, #116]
-	WORD $0xb900799f // str    wzr, [x12, #120]
-	WORD $0xb9007a3f // str    wzr, [x17, #120]
-	WORD $0xb900797f // str    wzr, [x11, #120]
-	WORD $0xb90079ff // str    wzr, [x15, #120]
-	WORD $0xb900795f // str    wzr, [x10, #120]
-	WORD $0xb90079bf // str    wzr, [x13, #120]
-	WORD $0xb90079df // str    wzr, [x14, #120]
-	WORD $0xb9007a5f // str    wzr, [x18, #120]
-	WORD $0xb9007a1f // str    wzr, [x16, #120]
-	WORD $0xb900781f // str    wzr, [x0, #120]
-	WORD $0xb9007a9f // str    wzr, [x20, #120]
-	WORD $0xb900789f // str    wzr, [x4, #120]
-	WORD $0xb90078bf // str    wzr, [x5, #120]
-	WORD $0xb900785f // str    wzr, [x2, #120]
-	WORD $0xb900787f // str    wzr, [x3, #120]
-	WORD $0xb90078df // str    wzr, [x6, #120]
-	WORD $0xb9007d9f // str    wzr, [x12, #124]
-	WORD $0xb9007e3f // str    wzr, [x17, #124]
-	WORD $0xb9007d7f // str    wzr, [x11, #124]
-	WORD $0xb9007dff // str    wzr, [x15, #124]
-	WORD $0xb9007d5f // str    wzr, [x10, #124]
-	WORD $0xb9007dbf // str    wzr, [x13, #124]
-	WORD $0xb9007ddf // str    wzr, [x14, #124]
-	WORD $0xb9007e5f // str    wzr, [x18, #124]
-	WORD $0xb9007e1f // str    wzr, [x16, #124]
-	WORD $0xb9007c1f // str    wzr, [x0, #124]
-	WORD $0xb9007e9f // str    wzr, [x20, #124]
-	WORD $0xb9007c9f // str    wzr, [x4, #124]
-	WORD $0xb9007cbf // str    wzr, [x5, #124]
-	WORD $0xb9007c5f // str    wzr, [x2, #124]
-	WORD $0xb9007c7f // str    wzr, [x3, #124]
-	WORD $0xb9007cdf // str    wzr, [x6, #124]
-	BNE LBB0_152
-
-	// %bb.153:
-	WORD $0xeb13011f // cmp    x8, x19
-	BEQ LBB0_156
-
-LBB0_154:
-	WORD $0x8b081f49 // add    x9, x26, x8, lsl #7
-	WORD $0xcb080268 // sub    x8, x19, x8
-	WORD $0x6f00e400 // movi    v0.2d, #0000000000000000
-	WORD $0x91010129 // add    x9, x9, #64
-
-LBB0_155:
-	WORD $0xad3e0120 // stp    q0, q0, [x9, #-64]
-	WORD $0xf1000508 // subs    x8, x8, #1
-	WORD $0xad3f0120 // stp    q0, q0, [x9, #-32]
-	WORD $0xad000120 // stp    q0, q0, [x9]
-	WORD $0xad010120 // stp    q0, q0, [x9, #32]
-	WORD $0x91020129 // add    x9, x9, #128
-	BNE LBB0_155
-
-LBB0_157:
-	// WORD $0x90000008 // adrp    x8, .LCPI0_0
-	// WORD $0x90000009 // adrp    x9, .LCPI0_1
-	// WORD $0x9000000a // adrp    x10, .LCPI0_2
-	// WORD $0x9000000b // adrp    x11, .LCPI0_3
-	WORD $0xaa1f03ec // mov    x12, xzr
-	WORD $0xf9000bf3 // str    x19, [sp, #16]
-	VMOVQ LCPI0_0L, LCPI0_0H, V0
-	// WORD $0x90000008 // adrp    x8, .LCPI0_4
-	VMOVQ LCPI0_1L, LCPI0_1H, V1
-	// WORD $0x90000009 // adrp    x9, .LCPI0_5
-	VMOVQ LCPI0_2L, LCPI0_2H, V2
-	// WORD $0x9000000a // adrp    x10, .LCPI0_6
-	VMOVQ LCPI0_4L, LCPI0_4H, V4
-	// WORD $0x90000008 // adrp    x8, .LCPI0_7
-	VMOVQ LCPI0_3L, LCPI0_3H, V3
-	WORD $0x927c6e6b // and    x11, x19, #0xfffffff0
-	VMOVQ LCPI0_5L, LCPI0_5H, V5
-	WORD $0xf90047fa // str    x26, [sp, #136]
-	VMOVQ LCPI0_7L, LCPI0_7H, V7
-	WORD $0x52800208 // mov    w8, #16
-	VMOVQ LCPI0_6L, LCPI0_6H, V6
-	WORD $0x8b0b1c09 // add    x9, x0, x11, lsl #7
-	WORD $0xf9000feb // str    x11, [sp, #24]
-	WORD $0x4e080d10 // dup    v16.2d, x8
-	WORD $0xf90007e9 // str    x9, [sp, #8]
-
-LBB0_158:
-	WORD $0x4f4554f2 // shl    v18.2d, v7.2d, #5
-	WORD $0xd379e188 // lsl    x8, x12, #7
-	WORD $0x4f4554d3 // shl    v19.2d, v6.2d, #5
-	WORD $0xb278010b // orr    x11, x8, #0x100
-	WORD $0x4f4554b4 // shl    v20.2d, v5.2d, #5
-	WORD $0xf90043ec // str    x12, [sp, #128]
-	WORD $0x8b0b0010 // add    x16, x0, x11
-	WORD $0x8b080003 // add    x3, x0, x8
-	WORD $0x4e183e4b // mov    x11, v18.d[1]
-	WORD $0x9e66024c // fmov    x12, d18
-	WORD $0x4f455492 // shl    v18.2d, v4.2d, #5
-	WORD $0xb279010a // orr    x10, x8, #0x80
-	WORD $0x4e183e6d // mov    x13, v19.d[1]
-	WORD $0x8b0a0014 // add    x20, x0, x10
-	WORD $0x8b0c0b49 // add    x9, x26, x12, lsl #2
-	WORD $0x9e66028c // fmov    x12, d20
-	WORD $0x8b0b0b5b // add    x27, x26, x11, lsl #2
-	WORD $0xb279050a // orr    x10, x8, #0x180
-	WORD $0x4e183e8b // mov    x11, v20.d[1]
-	WORD $0x9e66026e // fmov    x14, d19
-	WORD $0x9e66024f // fmov    x15, d18
-	WORD $0x8b0a0013 // add    x19, x0, x10
-	WORD $0xb277010a // orr    x10, x8, #0x200
-	WORD $0x8b0d0b57 // add    x23, x26, x13, lsl #2
-	WORD $0x8b0c0b5c // add    x28, x26, x12, lsl #2
-	WORD $0x8b0a0011 // add    x17, x0, x10
-	WORD $0x2940306d // ldp    w13, w12, [x3]
-	WORD $0x5280500a // mov    w10, #640
-	WORD $0x8b0e0b41 // add    x1, x26, x14, lsl #2
-	WORD $0xaa0a010a // orr    x10, x8, x10
-	WORD $0xf900bbe3 // str    x3, [sp, #368]
-	WORD $0x2940168e // ldp    w14, w5, [x20]
-	WORD $0x8b0b0b43 // add    x3, x26, x11, lsl #2
-	WORD $0x8b0f0b44 // add    x4, x26, x15, lsl #2
-	WORD $0x29403e0b // ldp    w11, w15, [x16]
-	WORD $0x8b0a0006 // add    x6, x0, x10
-	WORD $0xb90057ec // str    w12, [sp, #84]
-	WORD $0x4e183e4c // mov    x12, v18.d[1]
-	WORD $0xb278050a // orr    x10, x8, #0x300
-	WORD $0x8b0a0007 // add    x7, x0, x10
-	WORD $0xb900012d // str    w13, [x9]
-	WORD $0xb900036e // str    w14, [x27]
-	WORD $0xb279090a // orr    x10, x8, #0x380
-	WORD $0xb900002b // str    w11, [x1]
-	WORD $0x29402ccd // ldp    w13, w11, [x6]
-	WORD $0x4f455471 // shl    v17.2d, v3.2d, #5
-	WORD $0xa91453f0 // stp    x16, x20, [sp, #320]
-	WORD $0x290f17ef // stp    w15, w5, [sp, #120]
-	WORD $0x8b0c0b45 // add    x5, x26, x12, lsl #2
-	WORD $0x2940426c // ldp    w12, w16, [x19]
-	WORD $0x8b0a0012 // add    x18, x0, x10
-	WORD $0xf9009ff3 // str    x19, [sp, #312]
-	WORD $0xaa1103f3 // mov    x19, x17
-	WORD $0xa9181ff1 // stp    x17, x7, [sp, #384]
-	WORD $0xb9400231 // ldr    w17, [x17]
-	WORD $0xb90067eb // str    w11, [sp, #100]
-	WORD $0xb276010a // orr    x10, x8, #0x400
-	WORD $0xb94000eb // ldr    w11, [x7]
-	WORD $0x8b0a0002 // add    x2, x0, x10
-	WORD $0xb90077f0 // str    w16, [sp, #116]
-	WORD $0x9e660230 // fmov    x16, d17
-	WORD $0xb90002ec // str    w12, [x23]
-	WORD $0xb94004ee // ldr    w14, [x7, #4]
-	WORD $0xb9000391 // str    w17, [x28]
-	WORD $0x5280900a // mov    w10, #1152
-	WORD $0xb900006d // str    w13, [x3]
-	WORD $0xaa0a010a // orr    x10, x8, x10
-	WORD $0xb900008b // str    w11, [x4]
-	WORD $0x29402e4c // ldp    w12, w11, [x18]
-	WORD $0x4e183e2f // mov    x15, v17.d[1]
-	WORD $0x8b100b4d // add    x13, x26, x16, lsl #2
-	WORD $0xa90c27f7 // stp    x23, x9, [sp, #192]
-	WORD $0x290bbbeb // stp    w11, w14, [sp, #92]
-	WORD $0xb940004b // ldr    w11, [x2]
-	WORD $0x8b0a000e // add    x14, x0, x10
-	WORD $0x5280a00a // mov    w10, #1280
-	WORD $0x4f455451 // shl    v17.2d, v2.2d, #5
-	WORD $0xf9004fed // str    x13, [sp, #152]
-	WORD $0xb90000ac // str    w12, [x5]
-	WORD $0xaa0a010a // orr    x10, x8, x10
-	WORD $0xb90001ab // str    w11, [x13]
-	WORD $0xb9400669 // ldr    w9, [x19, #4]
-	WORD $0x294035cb // ldp    w11, w13, [x14]
-	WORD $0x8b0a0011 // add    x17, x0, x10
-	WORD $0x8b0f0b4c // add    x12, x26, x15, lsl #2
-	WORD $0x9e660230 // fmov    x16, d17
-	WORD $0x5280b00a // mov    w10, #1408
-	WORD $0xaa0a010a // orr    x10, x8, x10
-	WORD $0xb9006fe9 // str    w9, [sp, #108]
-	WORD $0xaa0103e9 // mov    x9, x1
-	WORD $0xaa0603e1 // mov    x1, x6
-	WORD $0xa911cbe6 // stp    x6, x18, [sp, #280]
-	WORD $0x8b0a0006 // add    x6, x0, x10
-	WORD $0xf9006fec // str    x12, [sp, #216]
-	WORD $0xb9400452 // ldr    w18, [x2, #4]
-	WORD $0x4e183e2f // mov    x15, v17.d[1]
-	WORD $0xb900018b // str    w11, [x12]
-	WORD $0x4f455431 // shl    v17.2d, v1.2d, #5
-	WORD $0x8b100b4c // add    x12, x26, x16, lsl #2
-	WORD $0x2940422a // ldp    w10, w16, [x17]
-	WORD $0xb277050b // orr    x11, x8, #0x600
-	WORD $0xaa0c03fe // mov    x30, x12
-	WORD $0x8b0b000b // add    x11, x0, x11
-	WORD $0xf90073ec // str    x12, [sp, #224]
-	WORD $0x2909cbed // stp    w13, w18, [sp, #76]
-	WORD $0x8b0f0b4d // add    x13, x26, x15, lsl #2
-	WORD $0xb900018a // str    w10, [x12]
-	WORD $0x9e66022a // fmov    x10, d17
-	WORD $0x294030cf // ldp    w15, w12, [x6]
-	WORD $0xaa0e03f3 // mov    x19, x14
-	WORD $0xf900b3ee // str    x14, [sp, #352]
-	WORD $0x8b0a0b4e // add    x14, x26, x10, lsl #2
-	WORD $0xb940016a // ldr    w10, [x11]
-	WORD $0xb9006bec // str    w12, [sp, #104]
-	WORD $0xaa0b03ec // mov    x12, x11
-	WORD $0x5280d00b // mov    w11, #1664
-	WORD $0xb90001af // str    w15, [x13]
-	WORD $0xaa0d03f9 // mov    x25, x13
-	WORD $0xf9005fed // str    x13, [sp, #184]
-	WORD $0xaa0b010d // orr    x13, x8, x11
-	WORD $0xb90073f0 // str    w16, [sp, #112]
-	WORD $0x8b0d0012 // add    x18, x0, x13
-	WORD $0xb90001ca // str    w10, [x14]
-	WORD $0x4e183e30 // mov    x16, v17.d[1]
-	WORD $0xb278090a // orr    x10, x8, #0x700
-	WORD $0x4f455412 // shl    v18.2d, v0.2d, #5
-	WORD $0xb2790d08 // orr    x8, x8, #0x780
-	WORD $0xf90053e5 // str    x5, [sp, #160]
-	WORD $0xb940058b // ldr    w11, [x12, #4]
-	WORD $0xaa0c03f6 // mov    x22, x12
-	WORD $0xf9009bec // str    x12, [sp, #304]
-	WORD $0x8b08000c // add    x12, x0, x8
-	WORD $0x8b0a0007 // add    x7, x0, x10
-	WORD $0x29401648 // ldp    w8, w5, [x18]
-	WORD $0x8b100b4d // add    x13, x26, x16, lsl #2
-	WORD $0xf90077e3 // str    x3, [sp, #232]
-	WORD $0x9e660243 // fmov    x3, d18
-	WORD $0xf900abe2 // str    x2, [sp, #336]
-	WORD $0x4e183e42 // mov    x2, v18.d[1]
-	WORD $0xb9005beb // str    w11, [sp, #88]
-	WORD $0xf94047eb // ldr    x11, [sp, #136]
-	WORD $0xb90001a8 // str    w8, [x13]
-	WORD $0x294040ea // ldp    w10, w16, [x7]
-	WORD $0xa9103be4 // stp    x4, x14, [sp, #256]
-	WORD $0xb9400588 // ldr    w8, [x12, #4]
-	WORD $0x8b030b4e // add    x14, x26, x3, lsl #2
-	WORD $0xa94c0fe4 // ldp    x4, x3, [sp, #192]
-	WORD $0x8b02096f // add    x15, x11, x2, lsl #2
-	WORD $0x290843e8 // stp    w8, w16, [sp, #64]
-	WORD $0xb940018b // ldr    w11, [x12]
-	WORD $0xb90001ca // str    w10, [x14]
-	WORD $0xb94057e8 // ldr    w8, [sp, #84]
-	WORD $0xf90097f1 // str    x17, [sp, #296]
-	WORD $0xf940a3f1 // ldr    x17, [sp, #320]
-	WORD $0xaa1203f7 // mov    x23, x18
-	WORD $0xb90001eb // str    w11, [x15]
-	WORD $0xf94077eb // ldr    x11, [sp, #232]
-	WORD $0xb9000468 // str    w8, [x3, #4]
-	WORD $0xb9400a88 // ldr    w8, [x20, #8]
-	WORD $0xaa0903f4 // mov    x20, x9
-	WORD $0xf900b7f2 // str    x18, [sp, #360]
-	WORD $0xa9580bf2 // ldp    x18, x2, [sp, #384]
-	WORD $0xb90057e8 // str    w8, [sp, #84]
-	WORD $0xaa0d03f8 // mov    x24, x13
-	WORD $0xb9407fe8 // ldr    w8, [sp, #124]
-	WORD $0xf900bfec // str    x12, [sp, #376]
-	WORD $0xa95243ed // ldp    x13, x16, [sp, #288]
-	WORD $0xaa0f03fa // mov    x26, x15
-	WORD $0xf9006bef // str    x15, [sp, #208]
-	WORD $0xb9000768 // str    w8, [x27, #4]
-	WORD $0xb9400a28 // ldr    w8, [x17, #8]
-	WORD $0xb9400a4a // ldr    w10, [x18, #8]
-	WORD $0xa90f3bfb // stp    x27, x14, [sp, #240]
-	WORD $0xaa0703f5 // mov    x21, x7
-	WORD $0xb9004be8 // str    w8, [sp, #72]
-	WORD $0xb9407be8 // ldr    w8, [sp, #120]
-	WORD $0xf940abee // ldr    x14, [sp, #336]
-	WORD $0xa90ae3f4 // stp    x20, x24, [sp, #168]
-	WORD $0xa9501fec // ldp    x12, x7, [sp, #256]
-	WORD $0xf900aff5 // str    x21, [sp, #344]
-	WORD $0xb9000528 // str    w8, [x9, #4]
-	WORD $0xf9409fe8 // ldr    x8, [sp, #312]
-	WORD $0xf9004bfc // str    x28, [sp, #144]
-	WORD $0xb9400909 // ldr    w9, [x8, #8]
-	WORD $0x4ef084a5 // add    v5.2d, v5.2d, v16.2d
-	WORD $0x4ef084c6 // add    v6.2d, v6.2d, v16.2d
-	WORD $0xb90033e9 // str    w9, [sp, #48]
-	WORD $0xb94077e9 // ldr    w9, [sp, #116]
-	WORD $0x4ef084e7 // add    v7.2d, v7.2d, v16.2d
-	WORD $0x4ef08484 // add    v4.2d, v4.2d, v16.2d
-	WORD $0xb9000489 // str    w9, [x4, #4]
-	WORD $0xb9406fe9 // ldr    w9, [sp, #108]
-	WORD $0x4ef08463 // add    v3.2d, v3.2d, v16.2d
-	WORD $0x4ef08442 // add    v2.2d, v2.2d, v16.2d
-	WORD $0xb9000789 // str    w9, [x28, #4]
-	WORD $0xb9400829 // ldr    w9, [x1, #8]
-	WORD $0xf9406fe1 // ldr    x1, [sp, #216]
-	WORD $0x4ef08421 // add    v1.2d, v1.2d, v16.2d
-	WORD $0x29072be9 // stp    w9, w10, [sp, #56]
-	WORD $0xb94067e9 // ldr    w9, [sp, #100]
-	WORD $0xa949abef // ldp    x15, x10, [sp, #152]
-	WORD $0x4ef08400 // add    v0.2d, v0.2d, v16.2d
-	WORD $0xb9000569 // str    w9, [x11, #4]
-	WORD $0xb9400849 // ldr    w9, [x2, #8]
-	WORD $0xb9007be9 // str    w9, [sp, #120]
-	WORD $0xb94063e9 // ldr    w9, [sp, #96]
-	WORD $0xb9000589 // str    w9, [x12, #4]
-	WORD $0xb94009a9 // ldr    w9, [x13, #8]
-	WORD $0xb90037e9 // str    w9, [sp, #52]
-	WORD $0xb9405fe9 // ldr    w9, [sp, #92]
-	WORD $0xb9000549 // str    w9, [x10, #4]
-	WORD $0xb94009c9 // ldr    w9, [x14, #8]
-	WORD $0xb9005fe9 // str    w9, [sp, #92]
-	WORD $0xb94053e9 // ldr    w9, [sp, #80]
-	WORD $0xb90005e9 // str    w9, [x15, #4]
-	WORD $0xb9400a69 // ldr    w9, [x19, #8]
-	WORD $0xb94047f3 // ldr    w19, [sp, #68]
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xb9404fe9 // ldr    w9, [sp, #76]
-	WORD $0xb9000429 // str    w9, [x1, #4]
-	WORD $0xb9400a09 // ldr    w9, [x16, #8]
-	WORD $0xb90077e9 // str    w9, [sp, #116]
-	WORD $0xb94073e9 // ldr    w9, [sp, #112]
-	WORD $0xb90007c9 // str    w9, [x30, #4]
-	WORD $0xb9406be9 // ldr    w9, [sp, #104]
-	WORD $0xb94008de // ldr    w30, [x6, #8]
-	WORD $0xb9000729 // str    w9, [x25, #4]
-	WORD $0xb9400ac9 // ldr    w9, [x22, #8]
-	WORD $0xaa1803f6 // mov    x22, x24
-	WORD $0xb9007fe9 // str    w9, [sp, #124]
-	WORD $0xb9405be9 // ldr    w9, [sp, #88]
-	WORD $0xb90004e9 // str    w9, [x7, #4]
-	WORD $0xb9400ae9 // ldr    w9, [x23, #8]
-	WORD $0xf9407ff7 // ldr    x23, [sp, #248]
-	WORD $0xb9000705 // str    w5, [x24, #4]
-	WORD $0xaa1503f8 // mov    x24, x21
-	WORD $0xb9006be9 // str    w9, [sp, #104]
-	WORD $0xf940bbe9 // ldr    x9, [sp, #368]
-	WORD $0xb90006f3 // str    w19, [x23, #4]
-	WORD $0xb9400ab3 // ldr    w19, [x21, #8]
-	WORD $0xf9408ff5 // ldr    x21, [sp, #280]
-	WORD $0x29416525 // ldp    w5, w25, [x9, #8]
-	WORD $0xb90073f3 // str    w19, [sp, #112]
-	WORD $0xb94043f3 // ldr    w19, [sp, #64]
-	WORD $0xb9000753 // str    w19, [x26, #4]
-	WORD $0xaa0f03f3 // mov    x19, x15
-	WORD $0xb9000865 // str    w5, [x3, #8]
-	WORD $0xf940a7e3 // ldr    x3, [sp, #328]
-	WORD $0xaa0403fa // mov    x26, x4
-	WORD $0xb9400c69 // ldr    w9, [x3, #12]
-	WORD $0xaa0603e3 // mov    x3, x6
-	WORD $0xb9006fe9 // str    w9, [sp, #108]
-	WORD $0xb94057e9 // ldr    w9, [sp, #84]
-	WORD $0xb9000b69 // str    w9, [x27, #8]
-	WORD $0xb9404be9 // ldr    w9, [sp, #72]
-	WORD $0xb9400e3b // ldr    w27, [x17, #12]
-	WORD $0xaa0703f1 // mov    x17, x7
-	WORD $0xb9000a89 // str    w9, [x20, #8]
-	WORD $0xb9400d09 // ldr    w9, [x8, #12]
-	WORD $0xb94033e8 // ldr    w8, [sp, #48]
-	WORD $0xb9000888 // str    w8, [x4, #8]
-	WORD $0xb9400e48 // ldr    w8, [x18, #12]
-	WORD $0xaa0103e4 // mov    x4, x1
-	WORD $0x2908a7e8 // stp    w8, w9, [sp, #68]
-	WORD $0xb9403fe8 // ldr    w8, [sp, #60]
-	WORD $0xaa0a03e9 // mov    x9, x10
-	WORD $0xb9000b88 // str    w8, [x28, #8]
-	WORD $0xb9400ea8 // ldr    w8, [x21, #12]
-	WORD $0xb90063e8 // str    w8, [sp, #96]
-	WORD $0xb9403be8 // ldr    w8, [sp, #56]
-	WORD $0xb9000968 // str    w8, [x11, #8]
-	WORD $0xb9407be8 // ldr    w8, [sp, #120]
-	WORD $0xb9400c4b // ldr    w11, [x2, #12]
-	WORD $0xaa1003e2 // mov    x2, x16
-	WORD $0xb9000988 // str    w8, [x12, #8]
-	WORD $0xb9400da8 // ldr    w8, [x13, #12]
-	WORD $0xf94073ec // ldr    x12, [sp, #224]
-	WORD $0xb9407fed // ldr    w13, [sp, #124]
-	WORD $0xb9007be8 // str    w8, [sp, #120]
-	WORD $0xb94037e8 // ldr    w8, [sp, #52]
-	WORD $0xb9000948 // str    w8, [x10, #8]
-	WORD $0xb9400dc8 // ldr    w8, [x14, #12]
-	WORD $0xf940b3ea // ldr    x10, [sp, #352]
-	WORD $0x290623eb // stp    w11, w8, [sp, #48]
-	WORD $0xb9405fe8 // ldr    w8, [sp, #92]
-	WORD $0xb9400e0b // ldr    w11, [x16, #12]
-	WORD $0xb90009e8 // str    w8, [x15, #8]
-	WORD $0xb9400d48 // ldr    w8, [x10, #12]
-	WORD $0xb9002fe8 // str    w8, [sp, #44]
-	WORD $0xb94067e8 // ldr    w8, [sp, #100]
-	WORD $0xb9000828 // str    w8, [x1, #8]
-	WORD $0xb94077e8 // ldr    w8, [sp, #116]
-	WORD $0xaa1703e1 // mov    x1, x23
-	WORD $0xb9000988 // str    w8, [x12, #8]
-	WORD $0xb9400cc8 // ldr    w8, [x6, #12]
-	WORD $0x290aafe8 // stp    w8, w11, [sp, #84]
-	WORD $0xf9405feb // ldr    x11, [sp, #184]
-	WORD $0xf9409be8 // ldr    x8, [sp, #304]
-	WORD $0xb900097e // str    w30, [x11, #8]
-	WORD $0xf940b7fe // ldr    x30, [sp, #360]
-	WORD $0xb9400d0f // ldr    w15, [x8, #12]
-	WORD $0xb90008ed // str    w13, [x7, #8]
-	WORD $0xf940bfed // ldr    x13, [sp, #376]
-	WORD $0xb9400fce // ldr    w14, [x30, #12]
-	WORD $0xf940a7e7 // ldr    x7, [sp, #328]
-	WORD $0xb94009a5 // ldr    w5, [x13, #8]
-	WORD $0x2909bfee // stp    w14, w15, [sp, #76]
-	WORD $0xb9406bee // ldr    w14, [sp, #104]
-	WORD $0xb94010ef // ldr    w15, [x7, #16]
-	WORD $0xb9000ace // str    w14, [x22, #8]
-	WORD $0xb9400f0e // ldr    w14, [x24, #12]
-	WORD $0xa94ec3f6 // ldp    x22, x16, [sp, #232]
-	WORD $0xb9006bee // str    w14, [sp, #104]
-	WORD $0xb9400db8 // ldr    w24, [x13, #12]
-	WORD $0x294dbbed // ldp    w13, w14, [sp, #108]
-	WORD $0xb9000aee // str    w14, [x23, #8]
-	WORD $0xa94cdff2 // ldp    x18, x23, [sp, #200]
-	WORD $0xb9000ae5 // str    w5, [x23, #8]
-	WORD $0xb9000e59 // str    w25, [x18, #12]
-	WORD $0xb9000e0d // str    w13, [x16, #12]
-	WORD $0xa953b7e5 // ldp    x5, x13, [sp, #312]
-	WORD $0xb9000e9b // str    w27, [x20, #12]
-	WORD $0xf940c3fb // ldr    x27, [sp, #384]
-	WORD $0xb94011ae // ldr    w14, [x13, #16]
-	WORD $0x29073fee // stp    w14, w15, [sp, #56]
-	WORD $0xb94010ae // ldr    w14, [x5, #16]
-	WORD $0xb94012af // ldr    w15, [x21, #16]
-	WORD $0xb90067ee // str    w14, [sp, #100]
-	WORD $0xb9404bee // ldr    w14, [sp, #72]
-	WORD $0xb90043ef // str    w15, [sp, #64]
-	WORD $0xb94063ef // ldr    w15, [sp, #96]
-	WORD $0xb9000f4e // str    w14, [x26, #12]
-	WORD $0xb940136e // ldr    w14, [x27, #16]
-	WORD $0xb9005fee // str    w14, [sp, #92]
-	WORD $0xb94047ee // ldr    w14, [sp, #68]
-	WORD $0xb9000f8e // str    w14, [x28, #12]
-	WORD $0xaa1503ee // mov    x14, x21
-	WORD $0xb9000ecf // str    w15, [x22, #12]
-	WORD $0xf940c7ef // ldr    x15, [sp, #392]
-	WORD $0xf94083f5 // ldr    x21, [sp, #256]
-	WORD $0xb94011e6 // ldr    w6, [x15, #16]
-	WORD $0xb9006fe6 // str    w6, [sp, #108]
-	WORD $0xb94033e6 // ldr    w6, [sp, #48]
-	WORD $0xb9000ea6 // str    w6, [x21, #12]
-	WORD $0xf94093e6 // ldr    x6, [sp, #288]
-	WORD $0xb94010d9 // ldr    w25, [x6, #16]
-	WORD $0xb90047f9 // str    w25, [sp, #68]
-	WORD $0xb9407bf9 // ldr    w25, [sp, #120]
-	WORD $0xb9000d39 // str    w25, [x9, #12]
-	WORD $0xf940abf9 // ldr    x25, [sp, #336]
-	WORD $0xb9401329 // ldr    w9, [x25, #16]
-	WORD $0xb90077e9 // str    w9, [sp, #116]
-	WORD $0xb94037e9 // ldr    w9, [sp, #52]
-	WORD $0xb9000e69 // str    w9, [x19, #12]
-	WORD $0xb9401149 // ldr    w9, [x10, #16]
-	WORD $0xf940bbea // ldr    x10, [sp, #368]
-	WORD $0xaa1603f3 // mov    x19, x22
-	WORD $0xb90063e9 // str    w9, [sp, #96]
-	WORD $0xb9402fe9 // ldr    w9, [sp, #44]
-	WORD $0xb9000c89 // str    w9, [x4, #12]
-	WORD $0xb9401049 // ldr    w9, [x2, #16]
-	WORD $0xb9401544 // ldr    w4, [x10, #20]
-	WORD $0xaa1403e2 // mov    x2, x20
-	WORD $0xb9004be9 // str    w9, [sp, #72]
-	WORD $0xb9405be9 // ldr    w9, [sp, #88]
-	WORD $0xb9000d89 // str    w9, [x12, #12]
-	WORD $0xb9401069 // ldr    w9, [x3, #16]
-	WORD $0xaa0303ec // mov    x12, x3
-	WORD $0xaa0b03e3 // mov    x3, x11
-	WORD $0xb90073e9 // str    w9, [sp, #112]
-	WORD $0xb94057e9 // ldr    w9, [sp, #84]
-	WORD $0xf9008bec // str    x12, [sp, #272]
-	WORD $0xb9000d69 // str    w9, [x11, #12]
-	WORD $0xb9401109 // ldr    w9, [x8, #16]
-	WORD $0xb94053e8 // ldr    w8, [sp, #80]
-	WORD $0xb9406beb // ldr    w11, [sp, #104]
-	WORD $0xb9000e28 // str    w8, [x17, #12]
-	WORD $0xb94013c8 // ldr    w8, [x30, #16]
-	WORD $0xf94087fe // ldr    x30, [sp, #264]
-	WORD $0x290f23e9 // stp    w9, w8, [sp, #120]
-	WORD $0xf9405be9 // ldr    x9, [sp, #176]
-	WORD $0xb9404fe8 // ldr    w8, [sp, #76]
-	WORD $0xb9000d28 // str    w8, [x9, #12]
-	WORD $0xb9401148 // ldr    w8, [x10, #16]
-	WORD $0xb9000c2b // str    w11, [x1, #12]
-	WORD $0xb94015aa // ldr    w10, [x13, #20]
-	WORD $0xb9000ef8 // str    w24, [x23, #12]
-	WORD $0xb940172d // ldr    w13, [x25, #20]
-	WORD $0xb9001248 // str    w8, [x18, #16]
-	WORD $0xb94014e8 // ldr    w8, [x7, #20]
-	WORD $0xa9559fe1 // ldp    x1, x7, [sp, #344]
-	WORD $0xaa0503eb // mov    x11, x5
-	WORD $0xb9006be8 // str    w8, [sp, #104]
-	WORD $0xb9403fe8 // ldr    w8, [sp, #60]
-	WORD $0xb9401031 // ldr    w17, [x1, #16]
-	WORD $0xb9001208 // str    w8, [x16, #16]
-	WORD $0xb9403be8 // ldr    w8, [sp, #56]
-	WORD $0xb94014d0 // ldr    w16, [x6, #20]
-	WORD $0xb9001288 // str    w8, [x20, #16]
-	WORD $0xb94014a8 // ldr    w8, [x5, #20]
-	WORD $0x2909c3ed // stp    w13, w16, [sp, #76]
-	WORD $0xb94077ed // ldr    w13, [sp, #116]
-	WORD $0xaa0f03e5 // mov    x5, x15
-	WORD $0xf940bff0 // ldr    x16, [sp, #376]
-	WORD $0x29062be8 // stp    w8, w10, [sp, #48]
-	WORD $0xb94067e8 // ldr    w8, [sp, #100]
-	WORD $0xb94015ca // ldr    w10, [x14, #20]
-	WORD $0xb9001348 // str    w8, [x26, #16]
-	WORD $0xb9401768 // ldr    w8, [x27, #20]
-	WORD $0xaa0903fb // mov    x27, x9
-	WORD $0xb9407fe9 // ldr    w9, [sp, #124]
-	WORD $0xb9002fe8 // str    w8, [sp, #44]
-	WORD $0xb9405fe8 // ldr    w8, [sp, #92]
-	WORD $0xb9001388 // str    w8, [x28, #16]
-	WORD $0xb94043e8 // ldr    w8, [sp, #64]
-	WORD $0xaa0e03fc // mov    x28, x14
-	WORD $0xa94dbbf8 // ldp    x24, x14, [sp, #216]
-	WORD $0xb90012c8 // str    w8, [x22, #16]
-	WORD $0xb94015e8 // ldr    w8, [x15, #20]
-	WORD $0xa949dff6 // ldp    x22, x23, [sp, #152]
-	WORD $0x290aabe8 // stp    w8, w10, [sp, #84]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb94047ea // ldr    w10, [sp, #68]
-	WORD $0xa952bff4 // ldp    x20, x15, [sp, #296]
-	WORD $0xb90012a8 // str    w8, [x21, #16]
-	WORD $0xaa0603e8 // mov    x8, x6
-	WORD $0xb90012ea // str    w10, [x23, #16]
-	WORD $0xaa1903ea // mov    x10, x25
-	WORD $0xb90012cd // str    w13, [x22, #16]
-	WORD $0xb94014ed // ldr    w13, [x7, #20]
-	WORD $0xa94f67fa // ldp    x26, x25, [sp, #240]
-	WORD $0xb90077ed // str    w13, [sp, #116]
-	WORD $0xb94063ed // ldr    w13, [sp, #96]
-	WORD $0xb900130d // str    w13, [x24, #16]
-	WORD $0xb940168d // ldr    w13, [x20, #20]
-	WORD $0xb9003fed // str    w13, [sp, #60]
-	WORD $0xb9404bed // ldr    w13, [sp, #72]
-	WORD $0xb90011cd // str    w13, [x14, #16]
-	WORD $0xb940158d // ldr    w13, [x12, #20]
-	WORD $0xb90067ed // str    w13, [sp, #100]
-	WORD $0xb94073ed // ldr    w13, [sp, #112]
-	WORD $0xb900106d // str    w13, [x3, #16]
-	WORD $0xb94015ed // ldr    w13, [x15, #20]
-	WORD $0xb9401203 // ldr    w3, [x16, #16]
-	WORD $0xb9004bed // str    w13, [sp, #72]
-	WORD $0xb9407bed // ldr    w13, [sp, #120]
-	WORD $0xb90013cd // str    w13, [x30, #16]
-	WORD $0xf940b7ed // ldr    x13, [sp, #360]
-	WORD $0xb9001369 // str    w9, [x27, #16]
-	WORD $0xb9401429 // ldr    w9, [x1, #20]
-	WORD $0xb9001331 // str    w17, [x25, #16]
-	WORD $0xaa1403e1 // mov    x1, x20
-	WORD $0xb94015a6 // ldr    w6, [x13, #20]
-	WORD $0xb9007fe9 // str    w9, [sp, #124]
-	WORD $0xb9003be6 // str    w6, [sp, #56]
-	WORD $0xb9401606 // ldr    w6, [x16, #20]
-	WORD $0xf9406bf0 // ldr    x16, [sp, #208]
-	WORD $0xb9001203 // str    w3, [x16, #16]
-	WORD $0xa95447e3 // ldp    x3, x17, [sp, #320]
-	WORD $0xb9001644 // str    w4, [x18, #20]
-	WORD $0xaa0d03e4 // mov    x4, x13
-	WORD $0xb9401a29 // ldr    w9, [x17, #24]
-	WORD $0xb90073e9 // str    w9, [sp, #112]
-	WORD $0xb9406be9 // ldr    w9, [sp, #104]
-	WORD $0xb9001749 // str    w9, [x26, #20]
-	WORD $0xb9401869 // ldr    w9, [x3, #24]
-	WORD $0xb9005fe9 // str    w9, [sp, #92]
-	WORD $0xb94037e9 // ldr    w9, [sp, #52]
-	WORD $0xb9001449 // str    w9, [x2, #20]
-	WORD $0xb9401969 // ldr    w9, [x11, #24]
-	WORD $0xf94063e2 // ldr    x2, [sp, #192]
-	WORD $0xf940c3eb // ldr    x11, [sp, #384]
-	WORD $0xb9006fe9 // str    w9, [sp, #108]
-	WORD $0xb94033e9 // ldr    w9, [sp, #48]
-	WORD $0xb9001449 // str    w9, [x2, #20]
-	WORD $0xb9401969 // ldr    w9, [x11, #24]
-	WORD $0xf9404beb // ldr    x11, [sp, #144]
-	WORD $0xb9006be9 // str    w9, [sp, #104]
-	WORD $0xb9402fe9 // ldr    w9, [sp, #44]
-	WORD $0xb9001569 // str    w9, [x11, #20]
-	WORD $0xb9401b89 // ldr    w9, [x28, #24]
-	WORD $0xf940bbfc // ldr    x28, [sp, #368]
-	WORD $0xb90063e9 // str    w9, [sp, #96]
-	WORD $0xb9405be9 // ldr    w9, [sp, #88]
-	WORD $0xb9001669 // str    w9, [x19, #20]
-	WORD $0xb94018a9 // ldr    w9, [x5, #24]
-	WORD $0xaa1803e5 // mov    x5, x24
-	WORD $0xaa1603f3 // mov    x19, x22
-	WORD $0xb9005be9 // str    w9, [sp, #88]
-	WORD $0xb94057e9 // ldr    w9, [sp, #84]
-	WORD $0xb90016a9 // str    w9, [x21, #20]
-	WORD $0xb9401909 // ldr    w9, [x8, #24]
-	WORD $0xb94053e8 // ldr    w8, [sp, #80]
-	WORD $0xaa1203f5 // mov    x21, x18
-	WORD $0xb90016e8 // str    w8, [x23, #20]
-	WORD $0xb9401948 // ldr    w8, [x10, #24]
-	WORD $0xb940198a // ldr    w10, [x12, #24]
-	WORD $0xf940afec // ldr    x12, [sp, #344]
-	WORD $0x290a27e8 // stp    w8, w9, [sp, #80]
-	WORD $0xb9404fe8 // ldr    w8, [sp, #76]
-	WORD $0xb94018e9 // ldr    w9, [x7, #24]
-	WORD $0xb90016c8 // str    w8, [x22, #20]
-	WORD $0xb94077e8 // ldr    w8, [sp, #116]
-	WORD $0xb9001708 // str    w8, [x24, #20]
-	WORD $0xb9401a88 // ldr    w8, [x20, #24]
-	WORD $0xa9585ff8 // ldp    x24, x23, [sp, #384]
-	WORD $0xaa0203f4 // mov    x20, x2
-	WORD $0x290827e8 // stp    w8, w9, [sp, #64]
-	WORD $0xb9403fe8 // ldr    w8, [sp, #60]
-	WORD $0xb94067e9 // ldr    w9, [sp, #100]
-	WORD $0xb90015c8 // str    w8, [x14, #20]
-	WORD $0xf9405fe8 // ldr    x8, [sp, #184]
-	WORD $0xb9405bee // ldr    w14, [sp, #88]
-	WORD $0xb9001509 // str    w9, [x8, #20]
-	WORD $0xb94019e9 // ldr    w9, [x15, #24]
-	WORD $0xf9409fef // ldr    x15, [sp, #312]
-	WORD $0x290ea7ea // stp    w10, w9, [sp, #116]
-	WORD $0xb9404be9 // ldr    w9, [sp, #72]
-	WORD $0xb9401b8a // ldr    w10, [x28, #24]
-	WORD $0xb90017c9 // str    w9, [x30, #20]
-	WORD $0xb94019a9 // ldr    w9, [x13, #24]
-	WORD $0xf94053fe // ldr    x30, [sp, #160]
-	WORD $0xb9004fe9 // str    w9, [sp, #76]
-	WORD $0xb9403be9 // ldr    w9, [sp, #56]
-	WORD $0xb9001769 // str    w9, [x27, #20]
-	WORD $0xb9407fe9 // ldr    w9, [sp, #124]
-	WORD $0xaa0803fb // mov    x27, x8
-	WORD $0xb9001729 // str    w9, [x25, #20]
-	WORD $0xb9401989 // ldr    w9, [x12, #24]
-	WORD $0xb9001606 // str    w6, [x16, #20]
-	WORD $0xb9401df0 // ldr    w16, [x15, #28]
-	WORD $0xb9001a4a // str    w10, [x18, #24]
-	WORD $0xb9401e2a // ldr    w10, [x17, #28]
-	WORD $0xaa1a03f2 // mov    x18, x26
-	WORD $0xb9007fe9 // str    w9, [sp, #124]
-	WORD $0xb9401f86 // ldr    w6, [x28, #28]
-	WORD $0xaa1c03e9 // mov    x9, x28
-	WORD $0xb90067ea // str    w10, [sp, #100]
-	WORD $0xb94073ea // ldr    w10, [sp, #112]
-	WORD $0xaa1103fc // mov    x28, x17
-	WORD $0xa94e37f9 // ldp    x25, x13, [sp, #224]
-	WORD $0xa951c7f6 // ldp    x22, x17, [sp, #280]
-	WORD $0xb9001b4a // str    w10, [x26, #24]
-	WORD $0xaa0303fa // mov    x26, x3
-	WORD $0xb9401c6a // ldr    w10, [x3, #28]
-	WORD $0xf94057e3 // ldr    x3, [sp, #168]
-	WORD $0xb9401d8c // ldr    w12, [x12, #28]
-	WORD $0xb9004bea // str    w10, [sp, #72]
-	WORD $0xb9405fea // ldr    w10, [sp, #92]
-	WORD $0xb900186a // str    w10, [x3, #24]
-	WORD $0xb9406fea // ldr    w10, [sp, #108]
-	WORD $0xb900184a // str    w10, [x2, #24]
-	WORD $0xb9401f0a // ldr    w10, [x24, #28]
-	WORD $0xaa0703e2 // mov    x2, x7
-	WORD $0x2906c3ea // stp    w10, w16, [sp, #52]
-	WORD $0xaa0b03ea // mov    x10, x11
-	WORD $0xb9406beb // ldr    w11, [sp, #104]
-	WORD $0xb9401ef0 // ldr    w16, [x23, #28]
-	WORD $0xb900194b // str    w11, [x10, #24]
-	WORD $0xb9401ec8 // ldr    w8, [x22, #28]
-	WORD $0xb94063eb // ldr    w11, [sp, #96]
-	WORD $0xb90019ab // str    w11, [x13, #24]
-	WORD $0xf94083eb // ldr    x11, [sp, #256]
-	WORD $0xb900196e // str    w14, [x11, #24]
-	WORD $0xb9401e2e // ldr    w14, [x17, #28]
-	WORD $0x2905bbf0 // stp    w16, w14, [sp, #44]
-	WORD $0xb94057ee // ldr    w14, [sp, #84]
-	WORD $0xb90057ec // str    w12, [sp, #84]
-	WORD $0xf9407fec // ldr    x12, [sp, #248]
-	WORD $0xb9001bce // str    w14, [x30, #24]
-	WORD $0xf940abee // ldr    x14, [sp, #336]
-	WORD $0xb9401dd0 // ldr    w16, [x14, #28]
-	WORD $0xb9003ff0 // str    w16, [sp, #60]
-	WORD $0xb94053f0 // ldr    w16, [sp, #80]
-	WORD $0xb9001a70 // str    w16, [x19, #24]
-	WORD $0xb9401cf0 // ldr    w16, [x7, #28]
-	WORD $0xf9409be7 // ldr    x7, [sp, #304]
-	WORD $0x290b23f0 // stp    w16, w8, [sp, #88]
-	WORD $0xb94047f0 // ldr    w16, [sp, #68]
-	WORD $0xb90018b0 // str    w16, [x5, #24]
-	WORD $0xb9401c30 // ldr    w16, [x1, #28]
-	WORD $0xf9408be5 // ldr    x5, [sp, #272]
-	WORD $0xb90063f0 // str    w16, [sp, #96]
-	WORD $0xb94043f0 // ldr    w16, [sp, #64]
-	WORD $0xb9001b30 // str    w16, [x25, #24]
-	WORD $0xb9401cb0 // ldr    w16, [x5, #28]
-	WORD $0xb90053f0 // str    w16, [sp, #80]
-	WORD $0x294ec3e8 // ldp    w8, w16, [sp, #116]
-	WORD $0xb9001b68 // str    w8, [x27, #24]
-	WORD $0xb9401ce8 // ldr    w8, [x7, #28]
-	WORD $0xb90077e8 // str    w8, [sp, #116]
-	WORD $0xf94087e8 // ldr    x8, [sp, #264]
-	WORD $0xb9001910 // str    w16, [x8, #24]
-	WORD $0xb9401c90 // ldr    w16, [x4, #28]
-	WORD $0xf940bfe8 // ldr    x8, [sp, #376]
-	WORD $0xb9404fe4 // ldr    w4, [sp, #76]
-	WORD $0xb9006bf0 // str    w16, [sp, #104]
-	WORD $0xf9405bf0 // ldr    x16, [sp, #176]
-	WORD $0x29432101 // ldp    w1, w8, [x8, #24]
-	WORD $0xb9001a04 // str    w4, [x16, #24]
-	WORD $0xb9407fe4 // ldr    w4, [sp, #124]
-	WORD $0xb90073e8 // str    w8, [sp, #112]
-	WORD $0xf9406be8 // ldr    x8, [sp, #208]
-	WORD $0xb9001984 // str    w4, [x12, #24]
-	WORD $0xb94067e4 // ldr    w4, [sp, #100]
-	WORD $0xb9001901 // str    w1, [x8, #24]
-	WORD $0xb9402381 // ldr    w1, [x28, #32]
-	WORD $0xb9001ea6 // str    w6, [x21, #28]
-	WORD $0xaa0703f5 // mov    x21, x7
-	WORD $0xb9001e44 // str    w4, [x18, #28]
-	WORD $0xb9402352 // ldr    w18, [x26, #32]
-	WORD $0xf94097fa // ldr    x26, [sp, #296]
-	WORD $0xb9006fe1 // str    w1, [sp, #108]
-	WORD $0xaa1c03e1 // mov    x1, x28
-	WORD $0xb9402126 // ldr    w6, [x9, #32]
-	WORD $0xb9007ff2 // str    w18, [sp, #124]
-	WORD $0xb9404bf2 // ldr    w18, [sp, #72]
-	WORD $0xf940affc // ldr    x28, [sp, #344]
-	WORD $0xb9001c72 // str    w18, [x3, #28]
-	WORD $0xb94021f2 // ldr    w18, [x15, #32]
-	WORD $0xb9402384 // ldr    w4, [x28, #32]
-	WORD $0xb90067f2 // str    w18, [sp, #100]
-	WORD $0xaa0f03f2 // mov    x18, x15
-	WORD $0x2946bfe3 // ldp    w3, w15, [sp, #52]
-	WORD $0xb9001e8f // str    w15, [x20, #28]
-	WORD $0xf94057f4 // ldr    x20, [sp, #168]
-	WORD $0xb9001d43 // str    w3, [x10, #28]
-	WORD $0xaa0a03e3 // mov    x3, x10
-	WORD $0xb94022ca // ldr    w10, [x22, #32]
-	WORD $0xb940230f // ldr    w15, [x24, #32]
-	WORD $0x29093fea // stp    w10, w15, [sp, #72]
-	WORD $0xb9405fea // ldr    w10, [sp, #92]
-	WORD $0xaa1803ef // mov    x15, x24
-	WORD $0xaa0203f8 // mov    x24, x2
-	WORD $0xb9001daa // str    w10, [x13, #28]
-	WORD $0xb94022ea // ldr    w10, [x23, #32]
-	WORD $0xf9406ff7 // ldr    x23, [sp, #216]
-	WORD $0xb9003bea // str    w10, [sp, #56]
-	WORD $0x2945b7ea // ldp    w10, w13, [sp, #44]
-	WORD $0xb9001d6a // str    w10, [x11, #28]
-	WORD $0xb940222a // ldr    w10, [x17, #32]
-	WORD $0xb9001fcd // str    w13, [x30, #28]
-	WORD $0xb94021cd // ldr    w13, [x14, #32]
-	WORD $0xb940204e // ldr    w14, [x2, #32]
-	WORD $0xaa1103eb // mov    x11, x17
-	WORD $0xb90037ea // str    w10, [sp, #52]
-	WORD $0xaa1e03ea // mov    x10, x30
-	WORD $0xb9005fed // str    w13, [sp, #92]
-	WORD $0xb9403fed // ldr    w13, [sp, #60]
-	WORD $0xaa1b03f1 // mov    x17, x27
-	WORD $0xf94087fe // ldr    x30, [sp, #264]
-	WORD $0xaa1903e2 // mov    x2, x25
-	WORD $0xb940256b // ldr    w11, [x11, #36]
-	WORD $0xb9001e6d // str    w13, [x19, #28]
-	WORD $0xb9405bed // ldr    w13, [sp, #88]
-	WORD $0xb9001eed // str    w13, [x23, #28]
-	WORD $0xb940234d // ldr    w13, [x26, #32]
-	WORD $0xb9005bed // str    w13, [sp, #88]
-	WORD $0xb94063ed // ldr    w13, [sp, #96]
-	WORD $0xb9001f2d // str    w13, [x25, #28]
-	WORD $0xb94020ad // ldr    w13, [x5, #32]
-	WORD $0xaa0503f9 // mov    x25, x5
-	WORD $0x29083bed // stp    w13, w14, [sp, #64]
-	WORD $0xb94020ee // ldr    w14, [x7, #32]
-	WORD $0xaa0903e7 // mov    x7, x9
-	WORD $0x294a27ed // ldp    w13, w9, [sp, #80]
-	WORD $0xb9001f6d // str    w13, [x27, #28]
-	WORD $0xb94077ed // ldr    w13, [sp, #116]
-	WORD $0xf940b7fb // ldr    x27, [sp, #360]
-	WORD $0xb94024e5 // ldr    w5, [x7, #36]
-	WORD $0xb9001fcd // str    w13, [x30, #28]
-	WORD $0xb940236d // ldr    w13, [x27, #32]
-	WORD $0x290ebbed // stp    w13, w14, [sp, #116]
-	WORD $0xb9406bed // ldr    w13, [sp, #104]
-	WORD $0xb9006beb // str    w11, [sp, #104]
-	WORD $0xb94037eb // ldr    w11, [sp, #52]
-	WORD $0xb9001e0d // str    w13, [x16, #28]
-	WORD $0xf94083f0 // ldr    x16, [sp, #256]
-	WORD $0xb9001d89 // str    w9, [x12, #28]
-	WORD $0xb940242c // ldr    w12, [x1, #36]
-	WORD $0x294da7ed // ldp    w13, w9, [sp, #108]
-	WORD $0xb90073ec // str    w12, [sp, #112]
-	WORD $0xa94eb3e1 // ldp    x1, x12, [sp, #232]
-	WORD $0xb9001d09 // str    w9, [x8, #28]
-	WORD $0xaa0703e9 // mov    x9, x7
-	WORD $0xf94067e8 // ldr    x8, [sp, #200]
-	WORD $0xaa0f03e7 // mov    x7, x15
-	WORD $0xb9002106 // str    w6, [x8, #32]
-	WORD $0xf94063e6 // ldr    x6, [sp, #192]
-	WORD $0xb900218d // str    w13, [x12, #32]
-	WORD $0xf940a3ed // ldr    x13, [sp, #320]
-	WORD $0xb94025ae // ldr    w14, [x13, #36]
-	WORD $0xb90053ee // str    w14, [sp, #80]
-	WORD $0xb9407fee // ldr    w14, [sp, #124]
-	WORD $0xb900228e // str    w14, [x20, #32]
-	WORD $0xb940264e // ldr    w14, [x18, #36]
-	WORD $0xaa0a03f2 // mov    x18, x10
-	WORD $0xb90063ee // str    w14, [sp, #96]
-	WORD $0xb94067ee // ldr    w14, [sp, #100]
-	WORD $0xb90020ce // str    w14, [x6, #32]
-	WORD $0xb94025ee // ldr    w14, [x15, #36]
-	WORD $0xb9006fee // str    w14, [sp, #108]
-	WORD $0xb9404fee // ldr    w14, [sp, #76]
-	WORD $0xb900206e // str    w14, [x3, #32]
-	WORD $0xb94026ce // ldr    w14, [x22, #36]
-	WORD $0xb9007fee // str    w14, [sp, #124]
-	WORD $0xb9404bee // ldr    w14, [sp, #72]
-	WORD $0xb900202e // str    w14, [x1, #32]
-	WORD $0xf940c7ee // ldr    x14, [sp, #392]
-	WORD $0xb94025cf // ldr    w15, [x14, #36]
-	WORD $0xb9003fef // str    w15, [sp, #60]
-	WORD $0xb9403bef // ldr    w15, [sp, #56]
-	WORD $0xb900220f // str    w15, [x16, #32]
-	WORD $0xaa0203ef // mov    x15, x2
-	WORD $0xb900214b // str    w11, [x10, #32]
-	WORD $0xf940abea // ldr    x10, [sp, #336]
-	WORD $0xb940254b // ldr    w11, [x10, #36]
-	WORD $0xb9004feb // str    w11, [sp, #76]
-	WORD $0xb9405feb // ldr    w11, [sp, #92]
-	WORD $0xb900226b // str    w11, [x19, #32]
-	WORD $0xb940270b // ldr    w11, [x24, #36]
-	WORD $0xaa1503f3 // mov    x19, x21
-	WORD $0xaa1e03f8 // mov    x24, x30
-	WORD $0xb9004beb // str    w11, [sp, #72]
-	WORD $0xb94047eb // ldr    w11, [sp, #68]
-	WORD $0xb90022eb // str    w11, [x23, #32]
-	WORD $0xb940274b // ldr    w11, [x26, #36]
-	WORD $0xf9405bfa // ldr    x26, [sp, #176]
-	WORD $0xb90067eb // str    w11, [sp, #100]
-	WORD $0xb9405beb // ldr    w11, [sp, #88]
-	WORD $0xb900204b // str    w11, [x2, #32]
-	WORD $0xb940272b // ldr    w11, [x25, #36]
-	WORD $0xb9402762 // ldr    w2, [x27, #36]
-	WORD $0xb9005feb // str    w11, [sp, #92]
-	WORD $0xaa1103eb // mov    x11, x17
-	WORD $0xb94043f1 // ldr    w17, [sp, #64]
-	WORD $0xb9002171 // str    w17, [x11, #32]
-	WORD $0xb94026b1 // ldr    w17, [x21, #36]
-	WORD $0xf940bff5 // ldr    x21, [sp, #376]
-	WORD $0xb9005bf1 // str    w17, [sp, #88]
-	WORD $0x294ec7f9 // ldp    w25, w17, [sp, #116]
-	WORD $0xb9007be2 // str    w2, [sp, #120]
-	WORD $0xaa1b03e2 // mov    x2, x27
-	WORD $0xf9407ffb // ldr    x27, [sp, #248]
-	WORD $0xb90023d1 // str    w17, [x30, #32]
-	WORD $0xb94022b1 // ldr    w17, [x21, #32]
-	WORD $0xb9002359 // str    w25, [x26, #32]
-	WORD $0xb9402799 // ldr    w25, [x28, #36]
-	WORD $0xb9002364 // str    w4, [x27, #32]
-	WORD $0xb94026a4 // ldr    w4, [x21, #36]
-	WORD $0xf9409ffe // ldr    x30, [sp, #312]
-	WORD $0xb90057f9 // str    w25, [sp, #84]
-	WORD $0xf9406bf9 // ldr    x25, [sp, #208]
-	WORD $0xb90077e4 // str    w4, [sp, #116]
-	WORD $0xaa0803e4 // mov    x4, x8
-	WORD $0xf940a7f5 // ldr    x21, [sp, #328]
-	WORD $0xb9002331 // str    w17, [x25, #32]
-	WORD $0xb9002505 // str    w5, [x8, #36]
-	WORD $0xb94073e8 // ldr    w8, [sp, #112]
-	WORD $0xb9402ab1 // ldr    w17, [x21, #40]
-	WORD $0xaa1603e5 // mov    x5, x22
-	WORD $0xb9002588 // str    w8, [x12, #36]
-	WORD $0xb94029a8 // ldr    w8, [x13, #40]
-	WORD $0xb90073e8 // str    w8, [sp, #112]
-	WORD $0xb94053e8 // ldr    w8, [sp, #80]
-	WORD $0xb9002688 // str    w8, [x20, #36]
-	WORD $0xb9402bc8 // ldr    w8, [x30, #40]
-	WORD $0xaa0303f4 // mov    x20, x3
-	WORD $0xb90047e8 // str    w8, [sp, #68]
-	WORD $0xb94063e8 // ldr    w8, [sp, #96]
-	WORD $0xb90024c8 // str    w8, [x6, #36]
-	WORD $0xb94028e8 // ldr    w8, [x7, #40]
-	WORD $0xaa1a03e7 // mov    x7, x26
-	WORD $0xb90063e8 // str    w8, [sp, #96]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb9002468 // str    w8, [x3, #36]
-	WORD $0xb9402ac8 // ldr    w8, [x22, #40]
-	WORD $0xaa1303f6 // mov    x22, x19
-	WORD $0xb90053e8 // str    w8, [sp, #80]
-	WORD $0xb9407fe8 // ldr    w8, [sp, #124]
-	WORD $0xb9002428 // str    w8, [x1, #36]
-	WORD $0xb9403fe8 // ldr    w8, [sp, #60]
-	WORD $0xb94029c1 // ldr    w1, [x14, #40]
-	WORD $0xf940b3ee // ldr    x14, [sp, #352]
-	WORD $0xb9002608 // str    w8, [x16, #36]
-	WORD $0xa95243e3 // ldp    x3, x16, [sp, #288]
-	WORD $0xb9402868 // ldr    w8, [x3, #40]
-	WORD $0xb9003be8 // str    w8, [sp, #56]
-	WORD $0xb9406be8 // ldr    w8, [sp, #104]
-	WORD $0xb9002648 // str    w8, [x18, #36]
-	WORD $0xb9402948 // ldr    w8, [x10, #40]
-	WORD $0xf9404fea // ldr    x10, [sp, #152]
-	WORD $0xb9402932 // ldr    w18, [x9, #40]
-	WORD $0xb90043e8 // str    w8, [sp, #64]
-	WORD $0xb9404fe8 // ldr    w8, [sp, #76]
-	WORD $0xb9002548 // str    w8, [x10, #36]
-	WORD $0xb94029c8 // ldr    w8, [x14, #40]
-	WORD $0xb90037e8 // str    w8, [sp, #52]
-	WORD $0xb9404be8 // ldr    w8, [sp, #72]
-	WORD $0xb90026e8 // str    w8, [x23, #36]
-	WORD $0xb9402a08 // ldr    w8, [x16, #40]
-	WORD $0xb9004fe8 // str    w8, [sp, #76]
-	WORD $0xb94067e8 // ldr    w8, [sp, #100]
-	WORD $0xb90025e8 // str    w8, [x15, #36]
-	WORD $0xf9408bef // ldr    x15, [sp, #272]
-	WORD $0xb94029e8 // ldr    w8, [x15, #40]
-	WORD $0xb90067e8 // str    w8, [sp, #100]
-	WORD $0xb9405fe8 // ldr    w8, [sp, #92]
-	WORD $0xb9002568 // str    w8, [x11, #36]
-	WORD $0xb9405be8 // ldr    w8, [sp, #88]
-	WORD $0xb9402a6b // ldr    w11, [x19, #40]
-	WORD $0xf9405ff3 // ldr    x19, [sp, #184]
-	WORD $0xb9002708 // str    w8, [x24, #36]
-	WORD $0xb9402848 // ldr    w8, [x2, #40]
-	WORD $0xaa1403f8 // mov    x24, x20
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0xb9407be8 // ldr    w8, [sp, #120]
-	WORD $0xb9002748 // str    w8, [x26, #36]
-	WORD $0xaa0903e8 // mov    x8, x9
-	WORD $0xb94057e9 // ldr    w9, [sp, #84]
-	WORD $0xaa1c03fa // mov    x26, x28
-	WORD $0xb9402d02 // ldr    w2, [x8, #44]
-	WORD $0xaa0403e8 // mov    x8, x4
-	WORD $0xb9002769 // str    w9, [x27, #36]
-	WORD $0xb9402b89 // ldr    w9, [x28, #40]
-	WORD $0xaa0303fb // mov    x27, x3
-	WORD $0x290f2fe9 // stp    w9, w11, [sp, #120]
-	WORD $0xb94077e9 // ldr    w9, [sp, #116]
-	WORD $0xaa1503eb // mov    x11, x21
-	WORD $0xb9002729 // str    w9, [x25, #36]
-	WORD $0xb9402ea9 // ldr    w9, [x21, #44]
-	WORD $0xb9002892 // str    w18, [x4, #40]
-	WORD $0xf94057f2 // ldr    x18, [sp, #168]
-	WORD $0xb9002991 // str    w17, [x12, #40]
-	WORD $0xaa0603e4 // mov    x4, x6
-	WORD $0xb9003fe9 // str    w9, [sp, #60]
-	WORD $0xb9402da9 // ldr    w9, [x13, #44]
-	WORD $0xaa0c03f9 // mov    x25, x12
-	WORD $0xb9402cb1 // ldr    w17, [x5, #44]
-	WORD $0xb9005be9 // str    w9, [sp, #88]
-	WORD $0xb94073e9 // ldr    w9, [sp, #112]
-	WORD $0xa95037ec // ldp    x12, x13, [sp, #256]
-	WORD $0xb9002a49 // str    w9, [x18, #40]
-	WORD $0xb9402fc9 // ldr    w9, [x30, #44]
-	WORD $0xf940abfe // ldr    x30, [sp, #336]
-	WORD $0xb90073e9 // str    w9, [sp, #112]
-	WORD $0xb94047e9 // ldr    w9, [sp, #68]
-	WORD $0xb90028c9 // str    w9, [x6, #40]
-	WORD $0xa9581bfc // ldp    x28, x6, [sp, #384]
-	WORD $0xb9402f89 // ldr    w9, [x28, #44]
-	WORD $0xb9006be9 // str    w9, [sp, #104]
-	WORD $0xb94063e9 // ldr    w9, [sp, #96]
-	WORD $0xb9002a89 // str    w9, [x20, #40]
-	WORD $0xb94053e9 // ldr    w9, [sp, #80]
-	WORD $0xa94e57f4 // ldp    x20, x21, [sp, #224]
-	WORD $0xb9002aa9 // str    w9, [x21, #40]
-	WORD $0xb9402cc9 // ldr    w9, [x6, #44]
-	WORD $0xb9002981 // str    w1, [x12, #40]
-	WORD $0xaa1703e1 // mov    x1, x23
-	WORD $0x290bc7e9 // stp    w9, w17, [sp, #92]
-	WORD $0xb9402c69 // ldr    w9, [x3, #44]
-	WORD $0xf94053f1 // ldr    x17, [sp, #160]
-	WORD $0xaa0a03e3 // mov    x3, x10
-	WORD $0xb90033e9 // str    w9, [sp, #48]
-	WORD $0xb9403be9 // ldr    w9, [sp, #56]
-	WORD $0xb9002a29 // str    w9, [x17, #40]
-	WORD $0xb9402fc9 // ldr    w9, [x30, #44]
-	WORD $0xb90077e9 // str    w9, [sp, #116]
-	WORD $0xb94043e9 // ldr    w9, [sp, #64]
-	WORD $0xb9002949 // str    w9, [x10, #40]
-	WORD $0xb94037e9 // ldr    w9, [sp, #52]
-	WORD $0xb9402dca // ldr    w10, [x14, #44]
-	WORD $0xf9406bee // ldr    x14, [sp, #208]
-	WORD $0xb9002ae9 // str    w9, [x23, #40]
-	WORD $0xb9402e09 // ldr    w9, [x16, #44]
-	WORD $0xf940b7f0 // ldr    x16, [sp, #360]
-	WORD $0xaa0303f7 // mov    x23, x3
-	WORD $0x2906abe9 // stp    w9, w10, [sp, #52]
-	WORD $0xb9404fe9 // ldr    w9, [sp, #76]
-	WORD $0xb9402dea // ldr    w10, [x15, #44]
-	WORD $0xb9002a89 // str    w9, [x20, #40]
-	WORD $0xb94067e9 // ldr    w9, [sp, #100]
-	WORD $0xb9002a69 // str    w9, [x19, #40]
-	WORD $0xb9402ec9 // ldr    w9, [x22, #44]
-	WORD $0xaa1c03f6 // mov    x22, x28
-	WORD $0x29082be9 // stp    w9, w10, [sp, #64]
-	WORD $0xb9407fe9 // ldr    w9, [sp, #124]
-	WORD $0xf940bfea // ldr    x10, [sp, #376]
-	WORD $0xb90029a9 // str    w9, [x13, #40]
-	WORD $0xb9402e09 // ldr    w9, [x16, #44]
-	WORD $0xb940294f // ldr    w15, [x10, #40]
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xb9406fe9 // ldr    w9, [sp, #108]
-	WORD $0xb90028e9 // str    w9, [x7, #40]
-	WORD $0xb9402f49 // ldr    w9, [x26, #44]
-	WORD $0xf9407ffa // ldr    x26, [sp, #248]
-	WORD $0xb9004be9 // str    w9, [sp, #72]
-	WORD $0xb9407be9 // ldr    w9, [sp, #120]
-	WORD $0xb9002b49 // str    w9, [x26, #40]
-	WORD $0xb9402d49 // ldr    w9, [x10, #44]
-	WORD $0xb90029cf // str    w15, [x14, #40]
-	WORD $0xf940a3ea // ldr    x10, [sp, #320]
-	WORD $0xb9002d02 // str    w2, [x8, #44]
-	WORD $0xb9403168 // ldr    w8, [x11, #48]
-	WORD $0xaa0c03e2 // mov    x2, x12
-	WORD $0xf940afef // ldr    x15, [sp, #344]
-	WORD $0xb9004fe8 // str    w8, [sp, #76]
-	WORD $0xb9403fe8 // ldr    w8, [sp, #60]
-	WORD $0xb9002f28 // str    w8, [x25, #44]
-	WORD $0xb9403148 // ldr    w8, [x10, #48]
-	WORD $0x290a27e8 // stp    w8, w9, [sp, #80]
-	WORD $0xb9405be8 // ldr    w8, [sp, #88]
-	WORD $0xb9403389 // ldr    w9, [x28, #48]
-	WORD $0xaa0503fc // mov    x28, x5
-	WORD $0xb9002e48 // str    w8, [x18, #44]
-	WORD $0xf9409ff2 // ldr    x18, [sp, #312]
-	WORD $0xb9403248 // ldr    w8, [x18, #48]
-	WORD $0xb9005be8 // str    w8, [sp, #88]
-	WORD $0xb94073e8 // ldr    w8, [sp, #112]
-	WORD $0xb9002c88 // str    w8, [x4, #44]
-	WORD $0xb9406be8 // ldr    w8, [sp, #104]
-	WORD $0xaa0e03e4 // mov    x4, x14
-	WORD $0xb9002f08 // str    w8, [x24, #44]
-	WORD $0xb94030a8 // ldr    w8, [x5, #48]
-	WORD $0xf9408bf8 // ldr    x24, [sp, #272]
-	WORD $0xaa1a03e5 // mov    x5, x26
-	WORD $0xb9006be8 // str    w8, [sp, #104]
-	WORD $0xb94063e8 // ldr    w8, [sp, #96]
-	WORD $0xb9002ea8 // str    w8, [x21, #44]
-	WORD $0xb94030c8 // ldr    w8, [x6, #48]
-	WORD $0x290f27e8 // stp    w8, w9, [sp, #120]
-	WORD $0xb9405fe8 // ldr    w8, [sp, #92]
-	WORD $0xb9002d88 // str    w8, [x12, #44]
-	WORD $0xb9403368 // ldr    w8, [x27, #48]
-	WORD $0xa952b3f5 // ldp    x21, x12, [sp, #296]
-	WORD $0xb90073e8 // str    w8, [sp, #112]
-	WORD $0xb94033e8 // ldr    w8, [sp, #48]
-	WORD $0xb9002e28 // str    w8, [x17, #44]
-	WORD $0xb94033c8 // ldr    w8, [x30, #48]
-	WORD $0xb90033e8 // str    w8, [sp, #48]
-	WORD $0xb94077e8 // ldr    w8, [sp, #116]
-	WORD $0xb9002c68 // str    w8, [x3, #44]
-	WORD $0xf940b3e8 // ldr    x8, [sp, #352]
-	WORD $0xaa1303e3 // mov    x3, x19
-	WORD $0x29462109 // ldp    w9, w8, [x8, #48]
-	WORD $0xb90077e9 // str    w9, [sp, #116]
-	WORD $0xb9403be9 // ldr    w9, [sp, #56]
-	WORD $0xb9002c29 // str    w9, [x1, #44]
-	WORD $0xb94032a9 // ldr    w9, [x21, #48]
-	WORD $0xf94077e1 // ldr    x1, [sp, #232]
-	WORD $0xb9003fe9 // str    w9, [sp, #60]
-	WORD $0xb94037e9 // ldr    w9, [sp, #52]
-	WORD $0xb9002e89 // str    w9, [x20, #44]
-	WORD $0xb9403309 // ldr    w9, [x24, #48]
-	WORD $0xb9003be9 // str    w9, [sp, #56]
-	WORD $0xb94047e9 // ldr    w9, [sp, #68]
-	WORD $0xb9002e69 // str    w9, [x19, #44]
-	WORD $0xb9403189 // ldr    w9, [x12, #48]
-	WORD $0xb9006fe9 // str    w9, [sp, #108]
-	WORD $0xb94043e9 // ldr    w9, [sp, #64]
-	WORD $0xb90043e8 // str    w8, [sp, #64]
-	WORD $0xb94077e8 // ldr    w8, [sp, #116]
-	WORD $0xb9002da9 // str    w9, [x13, #44]
-	WORD $0xb9403209 // ldr    w9, [x16, #48]
-	WORD $0xb9404bed // ldr    w13, [sp, #72]
-	WORD $0xb90047e9 // str    w9, [sp, #68]
-	WORD $0xb94067e9 // ldr    w9, [sp, #100]
-	WORD $0xb9002ce9 // str    w9, [x7, #44]
-	WORD $0xf940bbe9 // ldr    x9, [sp, #368]
-	WORD $0xb9002f4d // str    w13, [x26, #44]
-	WORD $0xb94031ed // ldr    w13, [x15, #48]
-	WORD $0xa94c6bf4 // ldp    x20, x26, [sp, #192]
-	WORD $0x29464126 // ldp    w6, w16, [x9, #48]
-	WORD $0xb90063ed // str    w13, [sp, #96]
-	WORD $0xb9403569 // ldr    w9, [x11, #52]
-	WORD $0xb94057ed // ldr    w13, [sp, #84]
-	WORD $0xb940364b // ldr    w11, [x18, #52]
-	WORD $0xb9005fe9 // str    w9, [sp, #92]
-	WORD $0xb9404fe9 // ldr    w9, [sp, #76]
-	WORD $0xb9002dcd // str    w13, [x14, #44]
-	WORD $0xb9403772 // ldr    w18, [x27, #52]
-	WORD $0xb9003346 // str    w6, [x26, #48]
-	WORD $0xaa1603ed // mov    x13, x22
-	WORD $0xb9003329 // str    w9, [x25, #48]
-	WORD $0xb9403549 // ldr    w9, [x10, #52]
-	WORD $0xf94057ea // ldr    x10, [sp, #168]
-	WORD $0xaa1803e6 // mov    x6, x24
-	WORD $0xaa0203ee // mov    x14, x2
-	WORD $0xb90037e9 // str    w9, [sp, #52]
-	WORD $0xb94053e9 // ldr    w9, [sp, #80]
-	WORD $0xb9003149 // str    w9, [x10, #48]
-	WORD $0xb9405be9 // ldr    w9, [sp, #88]
-	WORD $0xb9003289 // str    w9, [x20, #48]
-	WORD $0xb94036c9 // ldr    w9, [x22, #52]
-	WORD $0xaa1103f6 // mov    x22, x17
-	WORD $0x2909afe9 // stp    w9, w11, [sp, #76]
-	WORD $0xf9404beb // ldr    x11, [sp, #144]
-	WORD $0xb9407fe9 // ldr    w9, [sp, #124]
-	WORD $0xb9003169 // str    w9, [x11, #48]
-	WORD $0xb9403789 // ldr    w9, [x28, #52]
-	WORD $0xf940c7fc // ldr    x28, [sp, #392]
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xb9406be9 // ldr    w9, [sp, #104]
-	WORD $0xb9003029 // str    w9, [x1, #48]
-	WORD $0xb9403789 // ldr    w9, [x28, #52]
-	WORD $0xb9004be9 // str    w9, [sp, #72]
-	WORD $0xb9407be9 // ldr    w9, [sp, #120]
-	WORD $0xb9003049 // str    w9, [x2, #48]
-	WORD $0xb94073e9 // ldr    w9, [sp, #112]
-	WORD $0xaa0c03e2 // mov    x2, x12
-	WORD $0xb9003229 // str    w9, [x17, #48]
-	WORD $0xb94037c9 // ldr    w9, [x30, #52]
-	WORD $0xaa1703f1 // mov    x17, x23
-	WORD $0x290acbe9 // stp    w9, w18, [sp, #84]
-	WORD $0xb94033e9 // ldr    w9, [sp, #48]
-	WORD $0xf94087f2 // ldr    x18, [sp, #264]
-	WORD $0xb90032e9 // str    w9, [x23, #48]
-	WORD $0xb9403709 // ldr    w9, [x24, #52]
-	WORD $0xa94ddff3 // ldp    x19, x23, [sp, #216]
-	WORD $0xf940b7f8 // ldr    x24, [sp, #360]
-	WORD $0xb9003268 // str    w8, [x19, #48]
-	WORD $0xb94036a8 // ldr    w8, [x21, #52]
-	WORD $0xb9006be8 // str    w8, [sp, #104]
-	WORD $0xb9403fe8 // ldr    w8, [sp, #60]
-	WORD $0xb90032e8 // str    w8, [x23, #48]
-	WORD $0xb9403be8 // ldr    w8, [sp, #56]
-	WORD $0xb9003068 // str    w8, [x3, #48]
-	WORD $0xb9403588 // ldr    w8, [x12, #52]
-	WORD $0x2904a7e8 // stp    w8, w9, [sp, #36]
-	WORD $0xb9403709 // ldr    w9, [x24, #52]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb90023e9 // str    w9, [sp, #32]
-	WORD $0xb94047e9 // ldr    w9, [sp, #68]
-	WORD $0xb9003248 // str    w8, [x18, #48]
-	WORD $0xf940bfe8 // ldr    x8, [sp, #376]
-	WORD $0xb90030e9 // str    w9, [x7, #48]
-	WORD $0xb94035e9 // ldr    w9, [x15, #52]
-	WORD $0xb940310c // ldr    w12, [x8, #48]
-	WORD $0xaa0103ef // mov    x15, x1
-	WORD $0xb9003be9 // str    w9, [sp, #56]
-	WORD $0xb94063e9 // ldr    w9, [sp, #96]
-	WORD $0xb90030a9 // str    w9, [x5, #48]
-	WORD $0xb9403509 // ldr    w9, [x8, #52]
-	WORD $0xb900308c // str    w12, [x4, #48]
-	WORD $0xaa1c03e5 // mov    x5, x28
-	WORD $0xb9003750 // str    w16, [x26, #52]
-	WORD $0xf9409ffa // ldr    x26, [sp, #312]
-	WORD $0xa95433f0 // ldp    x16, x12, [sp, #320]
-	WORD $0xb9006fe9 // str    w9, [sp, #108]
-	WORD $0xaa0803e9 // mov    x9, x8
-	WORD $0xaa1b03e4 // mov    x4, x27
-	WORD $0xb9403988 // ldr    w8, [x12, #56]
-	WORD $0xb90033e8 // str    w8, [sp, #48]
-	WORD $0xb9405fe8 // ldr    w8, [sp, #92]
-	WORD $0xb9003728 // str    w8, [x25, #52]
-	WORD $0xb9403a08 // ldr    w8, [x16, #56]
-	WORD $0xaa1203f9 // mov    x25, x18
-	WORD $0xb9007be8 // str    w8, [sp, #120]
-	WORD $0xb94037e8 // ldr    w8, [sp, #52]
-	WORD $0xb9003548 // str    w8, [x10, #52]
-	WORD $0xb9403b48 // ldr    w8, [x26, #56]
-	WORD $0xf9408fea // ldr    x10, [sp, #280]
-	WORD $0xb9005fe8 // str    w8, [sp, #92]
-	WORD $0xb94053e8 // ldr    w8, [sp, #80]
-	WORD $0xb9003688 // str    w8, [x20, #52]
-	WORD $0xb94039a8 // ldr    w8, [x13, #56]
-	WORD $0xaa1e03ed // mov    x13, x30
-	WORD $0xf94057f4 // ldr    x20, [sp, #168]
-	WORD $0xb9007fe8 // str    w8, [sp, #124]
-	WORD $0xb9404fe8 // ldr    w8, [sp, #76]
-	WORD $0xb9003568 // str    w8, [x11, #52]
-	WORD $0x29472948 // ldp    w8, w10, [x10, #56]
-	WORD $0xb9403b8b // ldr    w11, [x28, #56]
-	WORD $0xb90047e8 // str    w8, [sp, #68]
-	WORD $0xb94067e8 // ldr    w8, [sp, #100]
-	WORD $0xb9003428 // str    w8, [x1, #52]
-	WORD $0xb9404be8 // ldr    w8, [sp, #72]
-	WORD $0xb90035c8 // str    w8, [x14, #52]
-	WORD $0xb9403b68 // ldr    w8, [x27, #56]
-	WORD $0xb9003fe8 // str    w8, [sp, #60]
-	WORD $0xb9405be8 // ldr    w8, [sp, #88]
-	WORD $0xb90036c8 // str    w8, [x22, #52]
-	WORD $0xb9403bc8 // ldr    w8, [x30, #56]
-	WORD $0xa95587fe // ldp    x30, x1, [sp, #344]
-	WORD $0xb9403e16 // ldr    w22, [x16, #60]
-	WORD $0x290e2fe8 // stp    w8, w11, [sp, #112]
-	WORD $0xb94057e8 // ldr    w8, [sp, #84]
-	WORD $0xb9402beb // ldr    w11, [sp, #40]
-	WORD $0xb9003628 // str    w8, [x17, #52]
-	WORD $0xb9403828 // ldr    w8, [x1, #56]
-	WORD $0xaa0603f1 // mov    x17, x6
-	WORD $0xb9004be8 // str    w8, [sp, #72]
-	WORD $0xb94043e8 // ldr    w8, [sp, #64]
-	WORD $0xb9003668 // str    w8, [x19, #52]
-	WORD $0xb9403aa8 // ldr    w8, [x21, #56]
-	WORD $0xa94f4ffc // ldp    x28, x19, [sp, #240]
-	WORD $0xb90043e8 // str    w8, [sp, #64]
-	WORD $0xb9406be8 // ldr    w8, [sp, #104]
-	WORD $0xb90036e8 // str    w8, [x23, #52]
-	WORD $0xb94038c8 // ldr    w8, [x6, #56]
-	WORD $0xb900346b // str    w11, [x3, #52]
-	WORD $0xb940384b // ldr    w11, [x2, #56]
-	WORD $0xa94ceff7 // ldp    x23, x27, [sp, #200]
-	WORD $0xb9002fe8 // str    w8, [sp, #44]
-	WORD $0xaa0303e8 // mov    x8, x3
-	WORD $0xb90063eb // str    w11, [sp, #96]
-	WORD $0xf94083e3 // ldr    x3, [sp, #256]
-	WORD $0x29442fee // ldp    w14, w11, [sp, #32]
-	WORD $0xa94943e2 // ldp    x2, x16, [sp, #144]
-	WORD $0xb900364b // str    w11, [x18, #52]
-	WORD $0xb9403bf2 // ldr    w18, [sp, #56]
-	WORD $0xb90034ee // str    w14, [x7, #52]
-	WORD $0xf940bbee // ldr    x14, [sp, #368]
-	WORD $0xb9403b0b // ldr    w11, [x24, #56]
-	WORD $0xb9003672 // str    w18, [x19, #52]
-	WORD $0xb9403bd2 // ldr    w18, [x30, #56]
-	WORD $0x294739c6 // ldp    w6, w14, [x14, #56]
-	WORD $0xb90037eb // str    w11, [sp, #52]
-	WORD $0xaa1803eb // mov    x11, x24
-	WORD $0xb9004ff2 // str    w18, [sp, #76]
-	WORD $0xb9406ff2 // ldr    w18, [sp, #108]
-	WORD $0xaa0703f8 // mov    x24, x7
-	WORD $0xf94063e7 // ldr    x7, [sp, #192]
-	WORD $0xb9003772 // str    w18, [x27, #52]
-	WORD $0xf94053f2 // ldr    x18, [sp, #160]
-	WORD $0xb9003ae6 // str    w6, [x23, #56]
-	WORD $0xb9403d86 // ldr    w6, [x12, #60]
-	WORD $0xb94033ec // ldr    w12, [sp, #48]
-	WORD $0xb9003b8c // str    w12, [x28, #56]
-	WORD $0xb9407bec // ldr    w12, [sp, #120]
-	WORD $0xb9007bea // str    w10, [sp, #120]
-	WORD $0xb94047ea // ldr    w10, [sp, #68]
-	WORD $0xb9003a8c // str    w12, [x20, #56]
-	WORD $0xb9403f4c // ldr    w12, [x26, #60]
-	WORD $0xb90053ec // str    w12, [sp, #80]
-	WORD $0xb9405fec // ldr    w12, [sp, #92]
-	WORD $0xb90038ec // str    w12, [x7, #56]
-	WORD $0xf940c3ec // ldr    x12, [sp, #384]
-	WORD $0xb9403d8c // ldr    w12, [x12, #60]
-	WORD $0xb90057ec // str    w12, [sp, #84]
-	WORD $0xb9407fec // ldr    w12, [sp, #124]
-	WORD $0xb900384c // str    w12, [x2, #56]
-	WORD $0xb940392c // ldr    w12, [x9, #56]
-	WORD $0xb90039ea // str    w10, [x15, #56]
-	WORD $0xb9403caa // ldr    w10, [x5, #60]
-	WORD $0xb9403ea5 // ldr    w5, [x21, #60]
-	WORD $0xb9005bea // str    w10, [sp, #88]
-	WORD $0xb94077ea // ldr    w10, [sp, #116]
-	WORD $0xb900386a // str    w10, [x3, #56]
-	WORD $0xb9403c8a // ldr    w10, [x4, #60]
-	WORD $0xb90067ea // str    w10, [sp, #100]
-	WORD $0xb9403fea // ldr    w10, [sp, #60]
-	WORD $0xb9003a4a // str    w10, [x18, #56]
-	WORD $0xb9403daa // ldr    w10, [x13, #60]
-	WORD $0xaa1203ed // mov    x13, x18
-	WORD $0xb9005fea // str    w10, [sp, #92]
-	WORD $0xb94073ea // ldr    w10, [sp, #112]
-	WORD $0xb9003a0a // str    w10, [x16, #56]
-	WORD $0xb9403c2a // ldr    w10, [x1, #60]
-	WORD $0xa94d93e1 // ldp    x1, x4, [sp, #216]
-	WORD $0xb90073ea // str    w10, [sp, #112]
-	WORD $0xb9404bea // ldr    w10, [sp, #72]
-	WORD $0xb900382a // str    w10, [x1, #56]
-	WORD $0xb94043ea // ldr    w10, [sp, #64]
-	WORD $0xb900388a // str    w10, [x4, #56]
-	WORD $0xb9403e2a // ldr    w10, [x17, #60]
-	WORD $0xb9006bea // str    w10, [sp, #104]
-	WORD $0xb9402fea // ldr    w10, [sp, #44]
-	WORD $0xb900390a // str    w10, [x8, #56]
-	WORD $0xf9409bea // ldr    x10, [sp, #304]
-	WORD $0xb9403d48 // ldr    w8, [x10, #60]
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0xb94063e8 // ldr    w8, [sp, #96]
-	WORD $0xb9003b28 // str    w8, [x25, #56]
-	WORD $0xaa0903e8 // mov    x8, x9
-	WORD $0xb9403d69 // ldr    w9, [x11, #60]
-	WORD $0xb9403fcb // ldr    w11, [x30, #60]
-	WORD $0xb9403d08 // ldr    w8, [x8, #60]
-	WORD $0xb90063e9 // str    w9, [sp, #96]
-	WORD $0xb94037e9 // ldr    w9, [sp, #52]
-	WORD $0xb90077eb // str    w11, [sp, #116]
-	WORD $0xaa0303eb // mov    x11, x3
-	WORD $0xb9007fe8 // str    w8, [sp, #124]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xb9003b09 // str    w9, [x24, #56]
-	WORD $0xb9404fe9 // ldr    w9, [sp, #76]
-	WORD $0xf9405ffe // ldr    x30, [sp, #184]
-	WORD $0xb9404515 // ldr    w21, [x8, #68]
-	WORD $0xb9003a69 // str    w9, [x19, #56]
-	WORD $0xb9404149 // ldr    w9, [x10, #64]
-	WORD $0xb9404113 // ldr    w19, [x8, #64]
-	WORD $0xb9003b6c // str    w12, [x27, #56]
-	WORD $0x294a23ea // ldp    w10, w8, [sp, #80]
-	WORD $0xb9003eee // str    w14, [x23, #60]
-	WORD $0xb9003f86 // str    w6, [x28, #60]
-	WORD $0xb9003e96 // str    w22, [x20, #60]
-	WORD $0xb94073ec // ldr    w12, [sp, #112]
-	WORD $0xb9003cea // str    w10, [x7, #60]
-	WORD $0xb9407bea // ldr    w10, [sp, #120]
-	WORD $0xb9003c48 // str    w8, [x2, #60]
-	WORD $0xf940a7e8 // ldr    x8, [sp, #328]
-	WORD $0xaa1903fc // mov    x28, x25
-	WORD $0xaa0203ee // mov    x14, x2
-	WORD $0xb9003dea // str    w10, [x15, #60]
-	WORD $0xb94067ea // ldr    w10, [sp, #100]
-	WORD $0x29485116 // ldp    w22, w20, [x8, #64]
-	WORD $0xaa0403f7 // mov    x23, x4
-	WORD $0xb9405be8 // ldr    w8, [sp, #88]
-	WORD $0xb940435b // ldr    w27, [x26, #64]
-	WORD $0xb9003c68 // str    w8, [x3, #60]
-	WORD $0xf940a3e8 // ldr    x8, [sp, #320]
-	WORD $0xb9003e4a // str    w10, [x18, #60]
-	WORD $0xaa1003ea // mov    x10, x16
-	WORD $0x29482111 // ldp    w17, w8, [x8, #64]
-	WORD $0xb9007be8 // str    w8, [sp, #120]
-	WORD $0xb9405fe8 // ldr    w8, [sp, #92]
-	WORD $0xb9003e08 // str    w8, [x16, #60]
-	WORD $0xb9406bf0 // ldr    w16, [sp, #104]
-	WORD $0xb9003c2c // str    w12, [x1, #60]
-	WORD $0xb940474c // ldr    w12, [x26, #68]
-	WORD $0xb9003c85 // str    w5, [x4, #60]
-	WORD $0xaa0103e8 // mov    x8, x1
-	WORD $0xb9003fd0 // str    w16, [x30, #60]
-	WORD $0xb94063f0 // ldr    w16, [sp, #96]
-	WORD $0xb90073ec // str    w12, [sp, #112]
-	WORD $0xb9407fe1 // ldr    w1, [sp, #124]
-	WORD $0xa9584bec // ldp    x12, x18, [sp, #384]
-	WORD $0xa94cebe5 // ldp    x5, x26, [sp, #200]
-	WORD $0x29483183 // ldp    w3, w12, [x12, #64]
-	WORD $0xf940abe4 // ldr    x4, [sp, #336]
-	WORD $0xb9006bec // str    w12, [sp, #104]
-	WORD $0xb9406fec // ldr    w12, [sp, #108]
-	WORD $0xb9003f2c // str    w12, [x25, #60]
-	WORD $0xf9408fec // ldr    x12, [sp, #280]
-	WORD $0xb9003f10 // str    w16, [x24, #60]
-	WORD $0xa94f43e6 // ldp    x6, x16, [sp, #240]
-	WORD $0x29483199 // ldp    w25, w12, [x12, #64]
-	WORD $0xb90063ec // str    w12, [sp, #96]
-	WORD $0xb94077ec // ldr    w12, [sp, #116]
-	WORD $0xb9003e0c // str    w12, [x16, #60]
-	WORD $0x29484a4c // ldp    w12, w18, [x18, #64]
-	WORD $0xb9003f41 // str    w1, [x26, #60]
-	WORD $0xb90040b3 // str    w19, [x5, #64]
-	WORD $0xaa0703e1 // mov    x1, x7
-	WORD $0xb90040d6 // str    w22, [x6, #64]
-	WORD $0xaa1e03f6 // mov    x22, x30
-	WORD $0xb9007ff2 // str    w18, [sp, #124]
-	WORD $0xf94093f2 // ldr    x18, [sp, #288]
-	WORD $0x29484a42 // ldp    w2, w18, [x18, #64]
-	WORD $0xb9006ff2 // str    w18, [sp, #108]
-	WORD $0xf94057f2 // ldr    x18, [sp, #168]
-	WORD $0xb9004251 // str    w17, [x18, #64]
-	WORD $0xb9404091 // ldr    w17, [x4, #64]
-	WORD $0xb90040fb // str    w27, [x7, #64]
-	WORD $0xb9404487 // ldr    w7, [x4, #68]
-	WORD $0xb90041c3 // str    w3, [x14, #64]
-	WORD $0xf940b3e4 // ldr    x4, [sp, #352]
-	WORD $0xb90041f9 // str    w25, [x15, #64]
-	WORD $0xaa0b03f9 // mov    x25, x11
-	WORD $0xb900416c // str    w12, [x11, #64]
-	WORD $0xf94097ec // ldr    x12, [sp, #296]
-	WORD $0xb9404083 // ldr    w3, [x4, #64]
-	WORD $0xb90041a2 // str    w2, [x13, #64]
-	WORD $0xb9004151 // str    w17, [x10, #64]
-	WORD $0xf940afe2 // ldr    x2, [sp, #344]
-	WORD $0x2948318b // ldp    w11, w12, [x12, #64]
-	WORD $0xb9004103 // str    w3, [x8, #64]
-	WORD $0xf940b7e3 // ldr    x3, [sp, #360]
-	WORD $0xb90042eb // str    w11, [x23, #64]
-	WORD $0xb9404484 // ldr    w4, [x4, #68]
-	WORD $0xb9005fec // str    w12, [sp, #92]
-	WORD $0xf9408bec // ldr    x12, [sp, #272]
-	WORD $0x29480c6b // ldp    w11, w3, [x3, #64]
-	WORD $0xb90067e4 // str    w4, [sp, #100]
-	WORD $0x29482191 // ldp    w17, w8, [x12, #64]
-	WORD $0xb9005be8 // str    w8, [sp, #88]
-	WORD $0xf940bfe8 // ldr    x8, [sp, #376]
-	WORD $0xb90043d1 // str    w17, [x30, #64]
-	WORD $0xb9404051 // ldr    w17, [x2, #64]
-	WORD $0xb9004389 // str    w9, [x28, #64]
-	WORD $0xaa0e03fc // mov    x28, x14
-	WORD $0xb940410c // ldr    w12, [x8, #64]
-	WORD $0xb900430b // str    w11, [x24, #64]
-	WORD $0xb9004211 // str    w17, [x16, #64]
-	WORD $0xb9404513 // ldr    w19, [x8, #68]
-	WORD $0xaa0503e8 // mov    x8, x5
-	WORD $0xb94073f1 // ldr    w17, [sp, #112]
-	WORD $0xb900434c // str    w12, [x26, #64]
-	WORD $0xb9406bee // ldr    w14, [sp, #104]
-	WORD $0xb90044b5 // str    w21, [x5, #68]
-	WORD $0xf9409be5 // ldr    x5, [sp, #304]
-	WORD $0xb90044d4 // str    w20, [x6, #68]
-	WORD $0xb94063e9 // ldr    w9, [sp, #96]
-	WORD $0xb940444b // ldr    w11, [x2, #68]
-	WORD $0xaa0f03fe // mov    x30, x15
-	WORD $0x2948c0ac // ldp    w12, w16, [x5, #68]
-	WORD $0xaa1703f5 // mov    x21, x23
-	WORD $0xaa0503e6 // mov    x6, x5
-	WORD $0xf940c3e5 // ldr    x5, [sp, #384]
-	WORD $0xb90077f0 // str    w16, [sp, #116]
-	WORD $0xb9407bf0 // ldr    w16, [sp, #120]
-	WORD $0xb9004650 // str    w16, [x18, #68]
-	WORD $0xaa1203f0 // mov    x16, x18
-	WORD $0xb9004431 // str    w17, [x1, #68]
-	WORD $0xf940bbf2 // ldr    x18, [sp, #368]
-	WORD $0xb900478e // str    w14, [x28, #68]
-	WORD $0xf940a7ee // ldr    x14, [sp, #328]
-	WORD $0xb90045e9 // str    w9, [x15, #68]
-	WORD $0xb9406fe9 // ldr    w9, [sp, #108]
-	WORD $0x29490a5b // ldp    w27, w2, [x18, #72]
-	WORD $0xaa1903e1 // mov    x1, x25
-	WORD $0x294911d4 // ldp    w20, w4, [x14, #72]
-	WORD $0xb9407fee // ldr    w14, [sp, #124]
-	WORD $0xaa0a03f2 // mov    x18, x10
-	WORD $0xf940a3ef // ldr    x15, [sp, #320]
-	WORD $0xb900472e // str    w14, [x25, #68]
-	WORD $0xaa0d03f9 // mov    x25, x13
-	WORD $0xb90045a9 // str    w9, [x13, #68]
-	WORD $0xb94067e9 // ldr    w9, [sp, #100]
-	WORD $0xb9004547 // str    w7, [x10, #68]
-	WORD $0xf9406fea // ldr    x10, [sp, #216]
-	WORD $0xb9404ded // ldr    w13, [x15, #76]
-	WORD $0xf9407fe7 // ldr    x7, [sp, #248]
-	WORD $0xb9004549 // str    w9, [x10, #68]
-	WORD $0xb9405fe9 // ldr    w9, [sp, #92]
-	WORD $0xb9007bed // str    w13, [sp, #120]
-	WORD $0xf9409fed // ldr    x13, [sp, #312]
-	WORD $0xb94049ee // ldr    w14, [x15, #72]
-	WORD $0xb90046e9 // str    w9, [x23, #68]
-	WORD $0xb9405be9 // ldr    w9, [sp, #88]
-	WORD $0xf94087f7 // ldr    x23, [sp, #264]
-	WORD $0xb94049af // ldr    w15, [x13, #72]
-	WORD $0xb90046c9 // str    w9, [x22, #68]
-	WORD $0xb9404db1 // ldr    w17, [x13, #76]
-	WORD $0xb90046ec // str    w12, [x23, #68]
-	WORD $0xb94048ad // ldr    w13, [x5, #72]
-	WORD $0xb9004703 // str    w3, [x24, #68]
-	WORD $0xf940c7e3 // ldr    x3, [sp, #392]
-	WORD $0xb9404ca9 // ldr    w9, [x5, #76]
-	WORD $0xb90044eb // str    w11, [x7, #68]
-	WORD $0xf9408fe5 // ldr    x5, [sp, #280]
-	WORD $0xb9004753 // str    w19, [x26, #68]
-	WORD $0xb940486b // ldr    w11, [x3, #72]
-	WORD $0xb900491b // str    w27, [x8, #72]
-	WORD $0xb9404c63 // ldr    w3, [x3, #76]
-	WORD $0xb9006fe9 // str    w9, [sp, #108]
-	WORD $0x294924ac // ldp    w12, w9, [x5, #72]
-	WORD $0xaa0803fb // mov    x27, x8
-	WORD $0xf9407be8 // ldr    x8, [sp, #240]
-	WORD $0xb9007fe3 // str    w3, [sp, #124]
-	WORD $0xf94093e3 // ldr    x3, [sp, #288]
-	WORD $0xb90063e9 // str    w9, [sp, #96]
-	WORD $0xb9004914 // str    w20, [x8, #72]
-	WORD $0xaa1003f4 // mov    x20, x16
-	WORD $0xb9404c69 // ldr    w9, [x3, #76]
-	WORD $0xb9004a0e // str    w14, [x16, #72]
-	WORD $0xf940abf0 // ldr    x16, [sp, #336]
-	WORD $0xaa1a03e5 // mov    x5, x26
-	WORD $0xb940487a // ldr    w26, [x3, #72]
-	WORD $0xb90073e9 // str    w9, [sp, #112]
-	WORD $0xf94063e3 // ldr    x3, [sp, #192]
-	WORD $0x2949260e // ldp    w14, w9, [x16, #72]
-	WORD $0xb900486f // str    w15, [x3, #72]
-	WORD $0xf94097ef // ldr    x15, [sp, #296]
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xf940b3e9 // ldr    x9, [sp, #352]
-	WORD $0xb9004b8d // str    w13, [x28, #72]
-	WORD $0xb9004bcc // str    w12, [x30, #72]
-	WORD $0xaa1e03ec // mov    x12, x30
-	WORD $0xb940492d // ldr    w13, [x9, #72]
-	WORD $0xb900482b // str    w11, [x1, #72]
-	WORD $0xb94049eb // ldr    w11, [x15, #72]
-	WORD $0xb9004b3a // str    w26, [x25, #72]
-	WORD $0xb9404dfe // ldr    w30, [x15, #76]
-	WORD $0xb9004a4e // str    w14, [x18, #72]
-	WORD $0xf9408bef // ldr    x15, [sp, #272]
-	WORD $0xb900494d // str    w13, [x10, #72]
-	WORD $0xb9004aab // str    w11, [x21, #72]
-	WORD $0xf940b7ed // ldr    x13, [sp, #360]
-	WORD $0xaa1703fa // mov    x26, x23
-	WORD $0xaa1903e1 // mov    x1, x25
-	WORD $0x294929ee // ldp    w14, w10, [x15, #72]
-	WORD $0xaa1403f9 // mov    x25, x20
-	WORD $0xaa0103f5 // mov    x21, x1
-	WORD $0xf940afef // ldr    x15, [sp, #344]
-	WORD $0xb9005fea // str    w10, [sp, #92]
-	WORD $0xb94077ea // ldr    w10, [sp, #116]
-	WORD $0xb9004ace // str    w14, [x22, #72]
-	WORD $0xb94049ab // ldr    w11, [x13, #72]
-	WORD $0xb94049ee // ldr    w14, [x15, #72]
-	WORD $0xaa0503f6 // mov    x22, x5
-	WORD $0xb9004aea // str    w10, [x23, #72]
-	WORD $0xf940bfea // ldr    x10, [sp, #376]
-	WORD $0xb9004b0b // str    w11, [x24, #72]
-	WORD $0xb9404deb // ldr    w11, [x15, #76]
-	WORD $0xb90048ee // str    w14, [x7, #72]
-	WORD $0xf94083f7 // ldr    x23, [sp, #256]
-	WORD $0x29493950 // ldp    w16, w14, [x10, #72]
-	WORD $0xaa1203e7 // mov    x7, x18
-	WORD $0xaa0603ea // mov    x10, x6
-	WORD $0xb94063ea // ldr    w10, [sp, #96]
-	WORD $0xb90077eb // str    w11, [sp, #116]
-	WORD $0xb90048b0 // str    w16, [x5, #72]
-	WORD $0xb9404d29 // ldr    w9, [x9, #76]
-	WORD $0xb9004f62 // str    w2, [x27, #76]
-	WORD $0xaa0303e2 // mov    x2, x3
-	WORD $0xb9004d04 // str    w4, [x8, #76]
-	WORD $0x2949a0d0 // ldp    w16, w8, [x6, #76]
-	WORD $0xaa0c03f8 // mov    x24, x12
-	WORD $0xb9404dad // ldr    w13, [x13, #76]
-	WORD $0xaa1c03e6 // mov    x6, x28
-	WORD $0xb9006be8 // str    w8, [sp, #104]
-	WORD $0xb9407be8 // ldr    w8, [sp, #120]
-	WORD $0xf940c3eb // ldr    x11, [sp, #384]
-	WORD $0xaa1603e4 // mov    x4, x22
-	WORD $0xb9004e88 // str    w8, [x20, #76]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xb9004c71 // str    w17, [x3, #76]
-	WORD $0x294a4d0f // ldp    w15, w19, [x8, #80]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb9004f88 // str    w8, [x28, #76]
-	WORD $0xf940a7e8 // ldr    x8, [sp, #328]
-	WORD $0xb9004d8a // str    w10, [x12, #76]
-	WORD $0xb94073ea // ldr    w10, [sp, #112]
-	WORD $0xaa1a03fc // mov    x28, x26
-	WORD $0x294a1503 // ldp    w3, w5, [x8, #80]
-	WORD $0xb9407fe8 // ldr    w8, [sp, #124]
-	WORD $0xb9004ee8 // str    w8, [x23, #76]
-	WORD $0xf940a3e8 // ldr    x8, [sp, #320]
-	WORD $0xb9004c2a // str    w10, [x1, #76]
-	WORD $0xa94dabf4 // ldp    x20, x10, [sp, #216]
-	WORD $0x294a2111 // ldp    w17, w8, [x8, #80]
-	WORD $0xb9007be8 // str    w8, [sp, #120]
-	WORD $0xb94067e8 // ldr    w8, [sp, #100]
-	WORD $0xb9004e48 // str    w8, [x18, #76]
-	WORD $0xf9409fe8 // ldr    x8, [sp, #312]
-	WORD $0xb9004e89 // str    w9, [x20, #76]
-	WORD $0xb9405fe9 // ldr    w9, [sp, #92]
-	WORD $0xb9004d5e // str    w30, [x10, #76]
-	WORD $0xb9405172 // ldr    w18, [x11, #80]
-	WORD $0x294a2101 // ldp    w1, w8, [x8, #80]
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0xf9405fe8 // ldr    x8, [sp, #184]
-	WORD $0xb9004d09 // str    w9, [x8, #76]
-	WORD $0xb9405569 // ldr    w9, [x11, #84]
-	WORD $0xb9004f50 // str    w16, [x26, #76]
-	WORD $0xf9405bf0 // ldr    x16, [sp, #176]
-	WORD $0xf9408feb // ldr    x11, [sp, #280]
-	WORD $0xaa1703fa // mov    x26, x23
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xb9004e0d // str    w13, [x16, #76]
-	WORD $0xf940c7ed // ldr    x13, [sp, #392]
-	WORD $0x294a257e // ldp    w30, w9, [x11, #80]
-	WORD $0x294a35ac // ldp    w12, w13, [x13, #80]
-	WORD $0xb90063e9 // str    w9, [sp, #96]
-	WORD $0xf9407feb // ldr    x11, [sp, #248]
-	WORD $0xb94077e9 // ldr    w9, [sp, #116]
-	WORD $0xb9007fed // str    w13, [sp, #124]
-	WORD $0xf94093ed // ldr    x13, [sp, #288]
-	WORD $0xb9004d69 // str    w9, [x11, #76]
-	WORD $0xb9004ece // str    w14, [x22, #76]
-	WORD $0xf9407bee // ldr    x14, [sp, #240]
-	WORD $0xb900536f // str    w15, [x27, #80]
-	WORD $0x294a35af // ldp    w15, w13, [x13, #80]
-	WORD $0xaa1b03f6 // mov    x22, x27
-	WORD $0xb90051c3 // str    w3, [x14, #80]
-	WORD $0xaa1903e3 // mov    x3, x25
-	WORD $0xb9005331 // str    w17, [x25, #80]
-	WORD $0xaa0b03fb // mov    x27, x11
-	WORD $0xb90073ed // str    w13, [sp, #112]
-	WORD $0xf940abed // ldr    x13, [sp, #336]
-	WORD $0xb9005041 // str    w1, [x2, #80]
-	WORD $0xaa0203e1 // mov    x1, x2
-	WORD $0xb90050d2 // str    w18, [x6, #80]
-	WORD $0xaa0603f9 // mov    x25, x6
-	WORD $0xb94051b1 // ldr    w17, [x13, #80]
-	WORD $0xb900531e // str    w30, [x24, #80]
-	WORD $0xb94055a9 // ldr    w9, [x13, #84]
-	WORD $0xb90052ec // str    w12, [x23, #80]
-	WORD $0xf940b3ed // ldr    x13, [sp, #352]
-	WORD $0xb90052af // str    w15, [x21, #80]
-	WORD $0xb90050f1 // str    w17, [x7, #80]
-	WORD $0xaa0a03fe // mov    x30, x10
-	WORD $0xaa0703ef // mov    x15, x7
-	WORD $0xaa0e03e7 // mov    x7, x14
-	WORD $0x294a35b2 // ldp    w18, w13, [x13, #80]
-	WORD $0xaa0103f7 // mov    x23, x1
-	WORD $0xb9005292 // str    w18, [x20, #80]
-	WORD $0xb90077ed // str    w13, [sp, #116]
-	WORD $0xf94097ed // ldr    x13, [sp, #296]
-	WORD $0x294a35ac // ldp    w12, w13, [x13, #80]
-	WORD $0xb900514c // str    w12, [x10, #80]
-	WORD $0xb9406bec // ldr    w12, [sp, #104]
-	WORD $0xb9005fed // str    w13, [sp, #92]
-	WORD $0xf9408bed // ldr    x13, [sp, #272]
-	WORD $0x294a35b1 // ldp    w17, w13, [x13, #80]
-	WORD $0xb9005111 // str    w17, [x8, #80]
-	WORD $0xf940afe8 // ldr    x8, [sp, #344]
-	WORD $0xb9005bed // str    w13, [sp, #88]
-	WORD $0xf940b7ed // ldr    x13, [sp, #360]
-	WORD $0xb900538c // str    w12, [x28, #80]
-	WORD $0xf940bfec // ldr    x12, [sp, #376]
-	WORD $0x294a2111 // ldp    w17, w8, [x8, #80]
-	WORD $0xaa1903fc // mov    x28, x25
-	WORD $0xb94051aa // ldr    w10, [x13, #80]
-	WORD $0xb9405182 // ldr    w2, [x12, #80]
-	WORD $0xb90057e8 // str    w8, [sp, #84]
-	WORD $0xf9409be8 // ldr    x8, [sp, #304]
-	WORD $0xb900520a // str    w10, [x16, #80]
-	WORD $0xb9405586 // ldr    w6, [x12, #84]
-	WORD $0xb9005171 // str    w17, [x11, #80]
-	WORD $0xb94055b2 // ldr    w18, [x13, #84]
-	WORD $0xb9005082 // str    w2, [x4, #80]
-	WORD $0x294a890b // ldp    w11, w2, [x8, #84]
-	WORD $0xb90056d3 // str    w19, [x22, #84]
-	WORD $0x294ea3ed // ldp    w13, w8, [sp, #116]
-	WORD $0xb90055c5 // str    w5, [x14, #84]
-	WORD $0x294db3ea // ldp    w10, w12, [sp, #108]
-	WORD $0xb9005468 // str    w8, [x3, #84]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xf9406be5 // ldr    x5, [sp, #208]
-	WORD $0xb900542a // str    w10, [x1, #84]
-	WORD $0x294b2110 // ldp    w16, w8, [x8, #88]
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0x294c23ea // ldp    w10, w8, [sp, #96]
-	WORD $0xb9005728 // str    w8, [x25, #84]
-	WORD $0xf940a7e8 // ldr    x8, [sp, #328]
-	WORD $0xb900570a // str    w10, [x24, #84]
-	WORD $0xaa1503ea // mov    x10, x21
-	WORD $0x294b1111 // ldp    w17, w4, [x8, #88]
-	WORD $0xb9407fe8 // ldr    w8, [sp, #124]
-	WORD $0xb9005748 // str    w8, [x26, #84]
-	WORD $0xf940a3e8 // ldr    x8, [sp, #320]
-	WORD $0xb90056ac // str    w12, [x21, #84]
-	WORD $0xaa1403ec // mov    x12, x20
-	WORD $0xb90055e9 // str    w9, [x15, #84]
-	WORD $0xb940590e // ldr    w14, [x8, #88]
-	WORD $0xb900568d // str    w13, [x20, #84]
-	WORD $0xb9405d09 // ldr    w9, [x8, #92]
-	WORD $0xf940c3ed // ldr    x13, [sp, #384]
-	WORD $0xf9409fe8 // ldr    x8, [sp, #312]
-	WORD $0xb94059b4 // ldr    w20, [x13, #88]
-	WORD $0x294b2101 // ldp    w1, w8, [x8, #88]
-	WORD $0x290ca7e8 // stp    w8, w9, [sp, #100]
-	WORD $0x294b23e9 // ldp    w9, w8, [sp, #88]
-	WORD $0xb90057c8 // str    w8, [x30, #84]
-	WORD $0xa94b23f3 // ldp    x19, x8, [sp, #176]
-	WORD $0xb9005509 // str    w9, [x8, #84]
-	WORD $0xb9405da9 // ldr    w9, [x13, #92]
-	WORD $0xf94087ed // ldr    x13, [sp, #264]
-	WORD $0xb90077e9 // str    w9, [sp, #116]
-	WORD $0xb90055ab // str    w11, [x13, #84]
-	WORD $0xf9408feb // ldr    x11, [sp, #280]
-	WORD $0xb9005672 // str    w18, [x19, #84]
-	WORD $0xf940c7f2 // ldr    x18, [sp, #392]
-	WORD $0x294b2575 // ldp    w21, w9, [x11, #88]
-	WORD $0xb9405a59 // ldr    w25, [x18, #88]
-	WORD $0xb90073e9 // str    w9, [sp, #112]
-	WORD $0xb94057e9 // ldr    w9, [sp, #84]
-	WORD $0xb9005769 // str    w9, [x27, #84]
-	WORD $0xb9405e49 // ldr    w9, [x18, #92]
-	WORD $0xf94093f2 // ldr    x18, [sp, #288]
-	WORD $0xb90054a6 // str    w6, [x5, #84]
-	WORD $0xb9005ad0 // str    w16, [x22, #88]
-	WORD $0xaa0a03e6 // mov    x6, x10
-	WORD $0xb90058f1 // str    w17, [x7, #88]
-	WORD $0xaa1703f1 // mov    x17, x23
-	WORD $0xb9405a50 // ldr    w16, [x18, #88]
-	WORD $0xb900586e // str    w14, [x3, #88]
-	WORD $0xb9405e4b // ldr    w11, [x18, #92]
-	WORD $0xb9005ae1 // str    w1, [x23, #88]
-	WORD $0xf940abf2 // ldr    x18, [sp, #336]
-	WORD $0xb9005b94 // str    w20, [x28, #88]
-	WORD $0xb9005b15 // str    w21, [x24, #88]
-	WORD $0xb9005b59 // str    w25, [x26, #88]
-	WORD $0xaa0803f5 // mov    x21, x8
-	WORD $0xb9405a4e // ldr    w14, [x18, #88]
-	WORD $0xb9005950 // str    w16, [x10, #88]
-	WORD $0xb9405e52 // ldr    w18, [x18, #92]
-	WORD $0xaa1b03f8 // mov    x24, x27
-	WORD $0xf9408bea // ldr    x10, [sp, #272]
-	WORD $0xaa1e03f4 // mov    x20, x30
-	WORD $0xb90059ee // str    w14, [x15, #88]
-	WORD $0xa95587f0 // ldp    x16, x1, [sp, #344]
-	WORD $0x290f2ff2 // stp    w18, w11, [sp, #120]
-	WORD $0x294b0432 // ldp    w18, w1, [x1, #88]
-	WORD $0x294b294e // ldp    w14, w10, [x10, #88]
-	WORD $0xb9005992 // str    w18, [x12, #88]
-	WORD $0x290b87ea // stp    w10, w1, [sp, #92]
-	WORD $0xf94097e1 // ldr    x1, [sp, #296]
-	WORD $0xaa0603f2 // mov    x18, x6
-	WORD $0x294b6437 // ldp    w23, w25, [x1, #88]
-	WORD $0xaa0f03e1 // mov    x1, x15
-	WORD $0xf940b7ef // ldr    x15, [sp, #360]
-	WORD $0xb9005bd7 // str    w23, [x30, #88]
-	WORD $0xb9405e1e // ldr    w30, [x16, #92]
-	WORD $0xb900590e // str    w14, [x8, #88]
-	WORD $0xf940bfe8 // ldr    x8, [sp, #376]
-	WORD $0xb94059ea // ldr    w10, [x15, #88]
-	WORD $0xb90059a2 // str    w2, [x13, #88]
-	WORD $0xb9405a0e // ldr    w14, [x16, #88]
-	WORD $0xaa1103f0 // mov    x16, x17
-	WORD $0xb9405902 // ldr    w2, [x8, #88]
-	WORD $0xaa0503f7 // mov    x23, x5
-	WORD $0xb9005a6a // str    w10, [x19, #88]
-	WORD $0xb9405d0a // ldr    w10, [x8, #92]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb9005b6e // str    w14, [x27, #88]
-	WORD $0xb90058a2 // str    w2, [x5, #88]
-	WORD $0xaa0303fb // mov    x27, x3
-	WORD $0xb9407fe5 // ldr    w5, [sp, #124]
-	WORD $0xb9005ec8 // str    w8, [x22, #92]
-	WORD $0xf9409be8 // ldr    x8, [sp, #304]
-	WORD $0xb9005ce4 // str    w4, [x7, #92]
-	WORD $0xb9405def // ldr    w15, [x15, #92]
-	WORD $0xaa1503e7 // mov    x7, x21
-	WORD $0x294b891a // ldp    w26, w2, [x8, #92]
-	WORD $0x294ca3eb // ldp    w11, w8, [sp, #100]
-	WORD $0xb9005c68 // str    w8, [x3, #92]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xb9005e2b // str    w11, [x17, #92]
-	WORD $0xf94077eb // ldr    x11, [sp, #232]
-	WORD $0x294c2103 // ldp    w3, w8, [x8, #96]
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0x294e23ed // ldp    w13, w8, [sp, #112]
-	WORD $0xb9005f88 // str    w8, [x28, #92]
-	WORD $0xb9005d6d // str    w13, [x11, #92]
-	WORD $0xa95423ed // ldp    x13, x8, [sp, #320]
-	WORD $0x294c110e // ldp    w14, w4, [x8, #96]
-	WORD $0x294c35b1 // ldp    w17, w13, [x13, #96]
-	WORD $0xf94083e8 // ldr    x8, [sp, #256]
-	WORD $0xb90077ed // str    w13, [sp, #116]
-	WORD $0xb9407bed // ldr    w13, [sp, #120]
-	WORD $0xb9005d09 // str    w9, [x8, #92]
-	WORD $0xb94063e9 // ldr    w9, [sp, #96]
-	WORD $0xb9005cc5 // str    w5, [x6, #92]
-	WORD $0xf940c3e5 // ldr    x5, [sp, #384]
-	WORD $0xb9005c2d // str    w13, [x1, #92]
-	WORD $0xf9409fed // ldr    x13, [sp, #312]
-	WORD $0xb9005d89 // str    w9, [x12, #92]
-	WORD $0xb9405fe9 // ldr    w9, [sp, #92]
-	WORD $0xb9005e99 // str    w25, [x20, #92]
-	WORD $0x294c35a6 // ldp    w6, w13, [x13, #96]
-	WORD $0xb9005ea9 // str    w9, [x21, #92]
-	WORD $0xf94087f5 // ldr    x21, [sp, #264]
-	WORD $0xb9007fed // str    w13, [sp, #124]
-	WORD $0x294c24ad // ldp    w13, w9, [x5, #96]
-	WORD $0xf9408fe5 // ldr    x5, [sp, #280]
-	WORD $0xb9006be9 // str    w9, [sp, #104]
-	WORD $0xb9005eba // str    w26, [x21, #92]
-	WORD $0xb9005e6f // str    w15, [x19, #92]
-	WORD $0xf940c7ef // ldr    x15, [sp, #392]
-	WORD $0xb94064a9 // ldr    w9, [x5, #100]
-	WORD $0xb9005f1e // str    w30, [x24, #92]
-	WORD $0xb9005eea // str    w10, [x23, #92]
-	WORD $0xf9407bea // ldr    x10, [sp, #240]
-	WORD $0xb94061f9 // ldr    w25, [x15, #96]
-	WORD $0xb90062c3 // str    w3, [x22, #96]
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xb94065e9 // ldr    w9, [x15, #100]
-	WORD $0xb900614e // str    w14, [x10, #96]
-	WORD $0xb9006371 // str    w17, [x27, #96]
-	WORD $0xb94060ba // ldr    w26, [x5, #96]
-	WORD $0xb9006206 // str    w6, [x16, #96]
-	WORD $0xa9521bef // ldp    x15, x6, [sp, #288]
-	WORD $0xb94061e3 // ldr    w3, [x15, #96]
-	WORD $0xb900638d // str    w13, [x28, #96]
-	WORD $0xb94065ee // ldr    w14, [x15, #100]
-	WORD $0xb900617a // str    w26, [x11, #96]
-	WORD $0xf940abef // ldr    x15, [sp, #336]
-	WORD $0xb9006119 // str    w25, [x8, #96]
-	WORD $0xb94060cb // ldr    w11, [x6, #96]
-	WORD $0xb9006243 // str    w3, [x18, #96]
-	WORD $0xf9408be8 // ldr    x8, [sp, #272]
-	WORD $0xaa1803e5 // mov    x5, x24
-	WORD $0x294c3df1 // ldp    w17, w15, [x15, #96]
-	WORD $0xb9007bee // str    w14, [sp, #120]
-	WORD $0xaa1b03ee // mov    x14, x27
-	WORD $0xb9406510 // ldr    w16, [x8, #100]
-	WORD $0xb90063e9 // str    w9, [sp, #96]
-	WORD $0xb9006031 // str    w17, [x1, #96]
-	WORD $0xb9406111 // ldr    w17, [x8, #96]
-	WORD $0xb90073ef // str    w15, [sp, #112]
-	WORD $0xa955bfe8 // ldp    x8, x15, [sp, #344]
-	WORD $0xaa0503fe // mov    x30, x5
-	WORD $0xaa1203e3 // mov    x3, x18
-	WORD $0xaa1503f8 // mov    x24, x21
-	WORD $0x294c25ed // ldp    w13, w9, [x15, #96]
-	WORD $0xaa1703f2 // mov    x18, x23
-	WORD $0xaa0603fc // mov    x28, x6
-	WORD $0xf94063ef // ldr    x15, [sp, #192]
-	WORD $0xaa1403fa // mov    x26, x20
-	WORD $0xb900618d // str    w13, [x12, #96]
-	WORD $0xf940b7ec // ldr    x12, [sp, #360]
-	WORD $0xb900628b // str    w11, [x20, #96]
-	WORD $0xf940bfed // ldr    x13, [sp, #376]
-	WORD $0xb90060f1 // str    w17, [x7, #96]
-	WORD $0xb9406111 // ldr    w17, [x8, #96]
-	WORD $0xb940618b // ldr    w11, [x12, #96]
-	WORD $0xb90062a2 // str    w2, [x21, #96]
-	WORD $0xb940658c // ldr    w12, [x12, #100]
-	WORD $0xaa0703f4 // mov    x20, x7
-	WORD $0xb94061a2 // ldr    w2, [x13, #96]
-	WORD $0xaa0103e7 // mov    x7, x1
-	WORD $0xb900626b // str    w11, [x19, #96]
-	WORD $0xb94065b9 // ldr    w25, [x13, #100]
-	WORD $0x290b33f0 // stp    w16, w12, [sp, #88]
-	WORD $0xb940650c // ldr    w12, [x8, #100]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb90060b1 // str    w17, [x5, #96]
-	WORD $0xb90062e2 // str    w2, [x23, #96]
-	WORD $0xaa0a03f1 // mov    x17, x10
-	WORD $0xaa0e03e5 // mov    x5, x14
-	WORD $0xf940a7eb // ldr    x11, [sp, #328]
-	WORD $0xb90066c8 // str    w8, [x22, #100]
-	WORD $0xf9409be8 // ldr    x8, [sp, #304]
-	WORD $0xb9006544 // str    w4, [x10, #100]
-	WORD $0xb9407fea // ldr    w10, [sp, #124]
-	WORD $0xf94077f7 // ldr    x23, [sp, #232]
-	WORD $0x294c8910 // ldp    w16, w2, [x8, #100]
-	WORD $0xb94077e8 // ldr    w8, [sp, #116]
-	WORD $0xb9406d64 // ldr    w4, [x11, #108]
-	WORD $0xf94083f5 // ldr    x21, [sp, #256]
-	WORD $0xb90065c8 // str    w8, [x14, #100]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xb90065ea // str    w10, [x15, #100]
-	WORD $0xf9404bea // ldr    x10, [sp, #144]
-	WORD $0xb94064db // ldr    w27, [x6, #100]
-	WORD $0xaa1303e6 // mov    x6, x19
-	WORD $0x294d210d // ldp    w13, w8, [x8, #104]
-	WORD $0xaa0303f3 // mov    x19, x3
-	WORD $0xb9407be3 // ldr    w3, [sp, #120]
-	WORD $0xf9406ff6 // ldr    x22, [sp, #216]
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0x294ca3ee // ldp    w14, w8, [sp, #100]
-	WORD $0xb9006548 // str    w8, [x10, #100]
-	WORD $0xb9406968 // ldr    w8, [x11, #104]
-	WORD $0xb94063eb // ldr    w11, [sp, #96]
-	WORD $0xb90066ee // str    w14, [x23, #100]
-	WORD $0xb90066ab // str    w11, [x21, #100]
-	WORD $0xf940a3eb // ldr    x11, [sp, #320]
-	WORD $0xb9006663 // str    w3, [x19, #100]
-	WORD $0x294d2d6e // ldp    w14, w11, [x11, #104]
-	WORD $0xb9007feb // str    w11, [sp, #124]
-	WORD $0xb94073eb // ldr    w11, [sp, #112]
-	WORD $0xb900642b // str    w11, [x1, #100]
-	WORD $0xf9409feb // ldr    x11, [sp, #312]
-	WORD $0xb90066c9 // str    w9, [x22, #100]
-	WORD $0xb9405be9 // ldr    w9, [sp, #88]
-	WORD $0xb900675b // str    w27, [x26, #100]
-	WORD $0x294d2d61 // ldp    w1, w11, [x11, #104]
-	WORD $0xb9006689 // str    w9, [x20, #100]
-	WORD $0xb9006710 // str    w16, [x24, #100]
-	WORD $0xb9007beb // str    w11, [sp, #120]
-	WORD $0xaa1a03eb // mov    x11, x26
-	WORD $0xf940c3fa // ldr    x26, [sp, #384]
-	WORD $0x294d2743 // ldp    w3, w9, [x26, #104]
-	WORD $0xf9408ffa // ldr    x26, [sp, #280]
-	WORD $0xb90073e9 // str    w9, [sp, #112]
-	WORD $0xb9405fe9 // ldr    w9, [sp, #92]
-	WORD $0xb9406b50 // ldr    w16, [x26, #104]
-	WORD $0xb90064c9 // str    w9, [x6, #100]
-	WORD $0xb9406f49 // ldr    w9, [x26, #108]
-	WORD $0xb90067cc // str    w12, [x30, #100]
-	WORD $0xf940c7ec // ldr    x12, [sp, #392]
-	WORD $0xb9006659 // str    w25, [x18, #100]
-	WORD $0xf94093f9 // ldr    x25, [sp, #288]
-	WORD $0xb90067e9 // str    w9, [sp, #100]
-	WORD $0xaa1503fa // mov    x26, x21
-	WORD $0x294d259b // ldp    w27, w9, [x12, #104]
-	WORD $0xaa1e03fa // mov    x26, x30
-	WORD $0xb9006be9 // str    w9, [sp, #104]
-	WORD $0xf94067e9 // ldr    x9, [sp, #200]
-	WORD $0xb900692d // str    w13, [x9, #104]
-	WORD $0xb9406b2d // ldr    w13, [x25, #104]
-	WORD $0xb9006a28 // str    w8, [x17, #104]
-	WORD $0xb9406f28 // ldr    w8, [x25, #108]
-	WORD $0xb90068ae // str    w14, [x5, #104]
-	WORD $0xaa1303f9 // mov    x25, x19
-	WORD $0xb90069e1 // str    w1, [x15, #104]
-	WORD $0xaa0a03e1 // mov    x1, x10
-	WORD $0xb90063e8 // str    w8, [sp, #96]
-	WORD $0xf940abe8 // ldr    x8, [sp, #336]
-	WORD $0xb9006943 // str    w3, [x10, #104]
-	WORD $0xb9406b8a // ldr    w10, [x28, #104]
-	WORD $0xb9006af0 // str    w16, [x23, #104]
-	WORD $0xb940690e // ldr    w14, [x8, #104]
-	WORD $0xb9006abb // str    w27, [x21, #104]
-	WORD $0xb9406d08 // ldr    w8, [x8, #108]
-	WORD $0xb9006a6d // str    w13, [x19, #104]
-	WORD $0xaa0703fb // mov    x27, x7
-	WORD $0xb9406f8d // ldr    w13, [x28, #108]
-	WORD $0xb90068ee // str    w14, [x7, #104]
-	WORD $0xaa0103e7 // mov    x7, x1
-	WORD $0xb90077e8 // str    w8, [sp, #116]
-	WORD $0xf940b3e8 // ldr    x8, [sp, #352]
-	WORD $0xaa1403f3 // mov    x19, x20
-	WORD $0x294d4103 // ldp    w3, w16, [x8, #104]
-	WORD $0xaa1c03e8 // mov    x8, x28
-	WORD $0xf9408be8 // ldr    x8, [sp, #272]
-	WORD $0xaa1603fc // mov    x28, x22
-	WORD $0xb9006ac3 // str    w3, [x22, #104]
-	WORD $0xf940bfe3 // ldr    x3, [sp, #376]
-	WORD $0xb900696a // str    w10, [x11, #104]
-	WORD $0xaa1803eb // mov    x11, x24
-	WORD $0x294d210e // ldp    w14, w8, [x8, #104]
-	WORD $0xaa1103f6 // mov    x22, x17
-	WORD $0xf9405beb // ldr    x11, [sp, #176]
-	WORD $0xb9006a8e // str    w14, [x20, #104]
-	WORD $0xf94073f4 // ldr    x20, [sp, #224]
-	WORD $0x290a23f0 // stp    w16, w8, [sp, #80]
-	WORD $0xf940afe8 // ldr    x8, [sp, #344]
-	WORD $0xf940b7f0 // ldr    x16, [sp, #360]
-	WORD $0xb9006b02 // str    w2, [x24, #104]
-	WORD $0xb9406862 // ldr    w2, [x3, #104]
-	WORD $0x294d210e // ldp    w14, w8, [x8, #104]
-	WORD $0x294d320a // ldp    w10, w12, [x16, #104]
-	WORD $0xaa0503f0 // mov    x16, x5
-	WORD $0xb9005fe8 // str    w8, [sp, #92]
-	WORD $0xb9406fe8 // ldr    w8, [sp, #108]
-	WORD $0xb90068ca // str    w10, [x6, #104]
-	WORD $0xaa0f03e6 // mov    x6, x15
-	WORD $0xb9006bce // str    w14, [x30, #104]
-	WORD $0xb9406c6e // ldr    w14, [x3, #108]
-	WORD $0xb9006a42 // str    w2, [x18, #104]
-	WORD $0xaa1203e3 // mov    x3, x18
-	WORD $0xb9006d28 // str    w8, [x9, #108]
-	WORD $0xf9409be8 // ldr    x8, [sp, #304]
-	WORD $0xb9004bec // str    w12, [sp, #72]
-	WORD $0xaa1503e2 // mov    x2, x21
-	WORD $0xb9006e24 // str    w4, [x17, #108]
-	WORD $0xaa1903e4 // mov    x4, x25
-	WORD $0x294da50a // ldp    w10, w9, [x8, #108]
-	WORD $0x294f23ec // ldp    w12, w8, [sp, #120]
-	WORD $0xb9006ca8 // str    w8, [x5, #108]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xb9006dec // str    w12, [x15, #108]
-	WORD $0xb94067ef // ldr    w15, [sp, #100]
-	WORD $0xa95433e5 // ldp    x5, x12, [sp, #320]
-	WORD $0x294e2112 // ldp    w18, w8, [x8, #112]
-	WORD $0xb94070b1 // ldr    w17, [x5, #112]
-	WORD $0xb9005be8 // str    w8, [sp, #88]
-	WORD $0xb94073e8 // ldr    w8, [sp, #112]
-	WORD $0xb9006c28 // str    w8, [x1, #108]
-	WORD $0x294e3188 // ldp    w8, w12, [x12, #112]
-	WORD $0xb9006eef // str    w15, [x23, #108]
-	WORD $0xb94053ef // ldr    w15, [sp, #80]
-	WORD $0xb9004fec // str    w12, [sp, #76]
-	WORD $0xb9406bec // ldr    w12, [sp, #104]
-	WORD $0xb9006eac // str    w12, [x21, #108]
-	WORD $0xb94063ec // ldr    w12, [sp, #96]
-	WORD $0xb9006f2c // str    w12, [x25, #108]
-	WORD $0xb94074ac // ldr    w12, [x5, #116]
-	WORD $0xaa1b03f9 // mov    x25, x27
-	WORD $0xb9007fec // str    w12, [sp, #124]
-	WORD $0xb94077ec // ldr    w12, [sp, #116]
-	WORD $0xb9006f6c // str    w12, [x27, #108]
-	WORD $0xf9409fec // ldr    x12, [sp, #312]
-	WORD $0xb9006f8f // str    w15, [x28, #108]
-	WORD $0xb94057ef // ldr    w15, [sp, #84]
-	WORD $0xb9006e8d // str    w13, [x20, #108]
-	WORD $0xaa1c03fb // mov    x27, x28
-	WORD $0x294e3181 // ldp    w1, w12, [x12, #112]
-	WORD $0xaa1603fc // mov    x28, x22
-	WORD $0xb9006e6f // str    w15, [x19, #108]
-	WORD $0xb9006f0a // str    w10, [x24, #108]
-	WORD $0xf9408fea // ldr    x10, [sp, #280]
-	WORD $0xb9404bef // ldr    w15, [sp, #72]
-	WORD $0xb90067ec // str    w12, [sp, #100]
-	WORD $0xb9006d6f // str    w15, [x11, #108]
-	WORD $0xa9583fec // ldp    x12, x15, [sp, #384]
-	WORD $0x294e318d // ldp    w13, w12, [x12, #112]
-	WORD $0xb9007bec // str    w12, [sp, #120]
-	WORD $0x294e294c // ldp    w12, w10, [x10, #112]
-	WORD $0xb90077ea // str    w10, [sp, #116]
-	WORD $0xb9405fea // ldr    w10, [sp, #92]
-	WORD $0xb9006fca // str    w10, [x30, #108]
-	WORD $0xb94071ea // ldr    w10, [x15, #112]
-	WORD $0xb9006c6e // str    w14, [x3, #108]
-	WORD $0xb94075ee // ldr    w14, [x15, #116]
-	WORD $0xf94067ef // ldr    x15, [sp, #200]
-	WORD $0xb90057ee // str    w14, [sp, #84]
-	WORD $0xf94093ee // ldr    x14, [sp, #288]
-	WORD $0xb90071f2 // str    w18, [x15, #112]
-	WORD $0xb90072c8 // str    w8, [x22, #112]
-	WORD $0xaa1703f6 // mov    x22, x23
-	WORD $0xb94075c8 // ldr    w8, [x14, #116]
-	WORD $0xb9007211 // str    w17, [x16, #112]
-	WORD $0xb90070c1 // str    w1, [x6, #112]
-	WORD $0xb94071d2 // ldr    w18, [x14, #112]
-	WORD $0xb90070ed // str    w13, [x7, #112]
-	WORD $0xaa0603ee // mov    x14, x6
-	WORD $0xb90073e8 // str    w8, [sp, #112]
-	WORD $0xb90072ec // str    w12, [x23, #112]
-	WORD $0xaa0703e1 // mov    x1, x7
-	WORD $0xb90072aa // str    w10, [x21, #112]
-	WORD $0xa9552be8 // ldp    x8, x10, [sp, #336]
-	WORD $0xb9407111 // ldr    w17, [x8, #112]
-	WORD $0xb9007092 // str    w18, [x4, #112]
-	WORD $0xb9407508 // ldr    w8, [x8, #116]
-	WORD $0xaa1903f2 // mov    x18, x25
-	WORD $0xaa0403f7 // mov    x23, x4
-	WORD $0xaa1803e7 // mov    x7, x24
-	WORD $0xb9007331 // str    w17, [x25, #112]
-	WORD $0xaa1403f9 // mov    x25, x20
-	WORD $0xb9006fe8 // str    w8, [sp, #108]
-	WORD $0xf940b3e8 // ldr    x8, [sp, #352]
-	WORD $0xaa1003e4 // mov    x4, x16
-	WORD $0xaa1303e6 // mov    x6, x19
-	WORD $0x294e210d // ldp    w13, w8, [x8, #112]
-	WORD $0xb900736d // str    w13, [x27, #112]
-	WORD $0xb9404fed // ldr    w13, [sp, #76]
-	WORD $0xb90053e8 // str    w8, [sp, #80]
-	WORD $0xf94097e8 // ldr    x8, [sp, #296]
-	WORD $0x294e210c // ldp    w12, w8, [x8, #112]
-	WORD $0xb900728c // str    w12, [x20, #112]
-	WORD $0xaa0303f4 // mov    x20, x3
-	WORD $0xb9005fe8 // str    w8, [sp, #92]
-	WORD $0xf9408be8 // ldr    x8, [sp, #272]
-	WORD $0x294e2111 // ldp    w17, w8, [x8, #112]
-	WORD $0xb9007271 // str    w17, [x19, #112]
-	WORD $0xb9407151 // ldr    w17, [x10, #112]
-	WORD $0xb9006be8 // str    w8, [sp, #104]
-	WORD $0xf940b7e8 // ldr    x8, [sp, #360]
-	WORD $0xb9007309 // str    w9, [x24, #112]
-	WORD $0xf940bfe9 // ldr    x9, [sp, #376]
-	WORD $0xb940754a // ldr    w10, [x10, #116]
-	WORD $0xaa1c03f8 // mov    x24, x28
-	WORD $0x294e210c // ldp    w12, w8, [x8, #112]
-	WORD $0xb9407122 // ldr    w2, [x9, #112]
-	WORD $0xb900716c // str    w12, [x11, #112]
-	WORD $0xb90063e8 // str    w8, [sp, #96]
-	WORD $0xb9407528 // ldr    w8, [x9, #116]
-	WORD $0xb90073d1 // str    w17, [x30, #112]
-	WORD $0xaa0f03fe // mov    x30, x15
-	WORD $0xb9007062 // str    w2, [x3, #112]
-	WORD $0xb94078a3 // ldr    w3, [x5, #120]
-	WORD $0xb9004be8 // str    w8, [sp, #72]
-	WORD $0xb9405be8 // ldr    w8, [sp, #88]
-	WORD $0xb90075e8 // str    w8, [x15, #116]
-	WORD $0xf940bbe8 // ldr    x8, [sp, #368]
-	WORD $0xb900778d // str    w13, [x28, #116]
-	WORD $0xf940a7ed // ldr    x13, [sp, #328]
-	WORD $0xf940c3ef // ldr    x15, [sp, #384]
-	WORD $0xaa1a03fc // mov    x28, x26
-	WORD $0x294f210c // ldp    w12, w8, [x8, #120]
-	WORD $0x294f35b1 // ldp    w17, w13, [x13, #120]
-	WORD $0xb90173e8 // str    w8, [sp, #368]
-	WORD $0xb9014bed // str    w13, [sp, #328]
-	WORD $0x294f23ed // ldp    w13, w8, [sp, #120]
-	WORD $0xb9007608 // str    w8, [x16, #116]
-	WORD $0xaa0e03e8 // mov    x8, x14
-	WORD $0xb94067ee // ldr    w14, [sp, #100]
-	WORD $0xb9405ff0 // ldr    w16, [sp, #92]
-	WORD $0xb900750e // str    w14, [x8, #116]
-	WORD $0xb900742d // str    w13, [x1, #116]
-	WORD $0x294e37ee // ldp    w14, w13, [sp, #112]
-	WORD $0xb90076cd // str    w13, [x22, #116]
-	WORD $0xb9407cad // ldr    w13, [x5, #124]
-	WORD $0xb90143ed // str    w13, [sp, #320]
-	WORD $0xb94057ed // ldr    w13, [sp, #84]
-	WORD $0xb90076ad // str    w13, [x21, #116]
-	WORD $0xa95337e5 // ldp    x5, x13, [sp, #304]
-	WORD $0xb90076ee // str    w14, [x23, #116]
-	WORD $0xb94074ae // ldr    w14, [x5, #116]
-	WORD $0x294f35a2 // ldp    w2, w13, [x13, #120]
-	WORD $0xb9007fed // str    w13, [sp, #124]
-	WORD $0xb9406fed // ldr    w13, [sp, #108]
-	WORD $0xb900764d // str    w13, [x18, #116]
-	WORD $0xb94053ed // ldr    w13, [sp, #80]
-	WORD $0xb900776d // str    w13, [x27, #116]
-	WORD $0x294f3ded // ldp    w13, w15, [x15, #120]
-	WORD $0xb9007730 // str    w16, [x25, #116]
-	WORD $0xb9013bef // str    w15, [sp, #312]
-	WORD $0xb9406bef // ldr    w15, [sp, #104]
-	WORD $0xb900766f // str    w15, [x19, #116]
-	WORD $0xb94078b3 // ldr    w19, [x5, #120]
-	WORD $0xb90074ee // str    w14, [x7, #116]
-	WORD $0xf9408fee // ldr    x14, [sp, #280]
-	WORD $0xb94063ef // ldr    w15, [sp, #96]
-	WORD $0xf940c7e5 // ldr    x5, [sp, #392]
-	WORD $0x294f39d0 // ldp    w16, w14, [x14, #120]
-	WORD $0xb900756f // str    w15, [x11, #116]
-	WORD $0xb9404bef // ldr    w15, [sp, #72]
-	WORD $0xb900774a // str    w10, [x26, #116]
-	WORD $0xaa1403ea // mov    x10, x20
-	WORD $0xb90183ee // str    w14, [sp, #384]
-	WORD $0x294f68ae // ldp    w14, w26, [x5, #120]
-	WORD $0xb900768f // str    w15, [x20, #116]
-	WORD $0xf94093e5 // ldr    x5, [sp, #288]
-	WORD $0xb9007bcc // str    w12, [x30, #120]
-	WORD $0xaa1e03ef // mov    x15, x30
-	WORD $0xb9007b11 // str    w17, [x24, #120]
-	WORD $0xf940abf1 // ldr    x17, [sp, #336]
-	WORD $0xb9007883 // str    w3, [x4, #120]
-	WORD $0xb94078ac // ldr    w12, [x5, #120]
-	WORD $0xb9007902 // str    w2, [x8, #120]
-	WORD $0xaa0803e2 // mov    x2, x8
-	WORD $0xb900782d // str    w13, [x1, #120]
-	WORD $0xf940b3e8 // ldr    x8, [sp, #352]
-	WORD $0xb9007ad0 // str    w16, [x22, #120]
-	WORD $0xaa1803fe // mov    x30, x24
-	WORD $0xb9007aae // str    w14, [x21, #120]
-	WORD $0xf94097ee // ldr    x14, [sp, #296]
-	WORD $0xb9407cb8 // ldr    w24, [x5, #124]
-	WORD $0xb9007aec // str    w12, [x23, #120]
-	WORD $0x294f5223 // ldp    w3, w20, [x17, #120]
-	WORD $0x294f150d // ldp    w13, w5, [x8, #120]
-	WORD $0xb9007a43 // str    w3, [x18, #120]
-	WORD $0x294f45c8 // ldp    w8, w17, [x14, #120]
-	WORD $0xb9007b6d // str    w13, [x27, #120]
-	WORD $0xf9408bee // ldr    x14, [sp, #272]
-	WORD $0xf940b7f0 // ldr    x16, [sp, #360]
-	WORD $0xb9007b28 // str    w8, [x25, #120]
-	WORD $0xf940afe8 // ldr    x8, [sp, #344]
-	WORD $0xb94079c3 // ldr    w3, [x14, #120]
-	WORD $0xb9407a0c // ldr    w12, [x16, #120]
-	WORD $0xb940792d // ldr    w13, [x9, #120]
-	WORD $0xb90078c3 // str    w3, [x6, #120]
-	WORD $0xb9407903 // ldr    w3, [x8, #120]
-	WORD $0xb90078f3 // str    w19, [x7, #120]
-	WORD $0xb9407e13 // ldr    w19, [x16, #124]
-	WORD $0xb900796c // str    w12, [x11, #120]
-	WORD $0xaa0b03f0 // mov    x16, x11
-	WORD $0xb9407d0b // ldr    w11, [x8, #124]
-	WORD $0xb9007b83 // str    w3, [x28, #120]
-	WORD $0xb94173e8 // ldr    w8, [sp, #368]
-	WORD $0xb900794d // str    w13, [x10, #120]
-	WORD $0xb9407dce // ldr    w14, [x14, #124]
-	WORD $0xb9407d23 // ldr    w3, [x9, #124]
-	WORD $0xb9007de8 // str    w8, [x15, #124]
-	WORD $0xb9414be8 // ldr    w8, [sp, #328]
-	WORD $0xb9007fc8 // str    w8, [x30, #124]
-	WORD $0xb94143e8 // ldr    w8, [sp, #320]
-	WORD $0xb9007c88 // str    w8, [x4, #124]
-	WORD $0xb9407fe8 // ldr    w8, [sp, #124]
-	WORD $0xb9007c48 // str    w8, [x2, #124]
-	WORD $0xb9413be8 // ldr    w8, [sp, #312]
-	WORD $0xb9007c28 // str    w8, [x1, #124]
-	WORD $0xb94183e8 // ldr    w8, [sp, #384]
-	WORD $0xb9007ec8 // str    w8, [x22, #124]
-	WORD $0xf9409be8 // ldr    x8, [sp, #304]
-	WORD $0xb9007eba // str    w26, [x21, #124]
-	WORD $0xa9486bec // ldp    x12, x26, [sp, #128]
-	WORD $0xb9007ef8 // str    w24, [x23, #124]
-	WORD $0xb9407d08 // ldr    w8, [x8, #124]
-	WORD $0xb9007e54 // str    w20, [x18, #124]
-	WORD $0xb9007f65 // str    w5, [x27, #124]
-	WORD $0xb9007f31 // str    w17, [x25, #124]
-	WORD $0x9100418c // add    x12, x12, #16
-	WORD $0xb9007cce // str    w14, [x6, #124]
-	WORD $0xb9007ce8 // str    w8, [x7, #124]
-	WORD $0xf9400fe8 // ldr    x8, [sp, #24]
-	WORD $0xb9007e13 // str    w19, [x16, #124]
-	WORD $0xb9007f8b // str    w11, [x28, #124]
-	WORD $0xeb08019f // cmp    x12, x8
-	WORD $0xb9007d43 // str    w3, [x10, #124]
-	BNE LBB0_158
-
-	// %bb.159:
-	WORD $0xa94123f3 // ldp    x19, x8, [sp, #16]
-	WORD $0xf94007e0 // ldr    x0, [sp, #8]
-	WORD $0xeb13011f // cmp    x8, x19
-	BEQ LBB0_156
-	JMP LBB0_12
-
-LBB0_156:
-	WORD $0x531b6a60    // lsl    w0, w19, #5
-	WORD $0x910003bf    // mov    sp, x29
-	WORD $0xa9454ff4    // ldp    x20, x19, [sp, #80]
-	WORD $0xa94457f6    // ldp    x22, x21, [sp, #64]
-	WORD $0xa9435ff8    // ldp    x24, x23, [sp, #48]
-	WORD $0xa94267fa    // ldp    x26, x25, [sp, #32]
-	WORD $0xa9416ffc    // ldp    x28, x27, [sp, #16]
-	WORD $0xa8c67bfd    // ldp    x29, x30, [sp], #96
-	MOVD R0, num+32(FP)
-	RET
diff --git a/go/parquet/internal/utils/bit_reader.go b/go/parquet/internal/utils/bit_reader.go
deleted file mode 100644
index 2343b5500242c..0000000000000
--- a/go/parquet/internal/utils/bit_reader.go
+++ /dev/null
@@ -1,349 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"encoding/binary"
-	"errors"
-	"io"
-	"math"
-	"reflect"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// masks for grabbing the trailing bits based on the number of trailing bits desired
-var trailingMask [64]uint64
-
-func init() {
-	// generate the masks at init so we don't have to hard code them.
-	for i := 0; i < 64; i++ {
-		trailingMask[i] = (math.MaxUint64 >> (64 - i))
-	}
-}
-
-// trailingBits returns a value constructed from the bits trailing bits of
-// the value v that is passed in. If bits >= 64, then we just return v.
-func trailingBits(v uint64, bits uint) uint64 {
-	if bits >= 64 {
-		return v
-	}
-	return v & trailingMask[bits]
-}
-
-// reader is a useful interface to define the functionality we need for implementation
-type reader interface {
-	io.Reader
-	io.ReaderAt
-	io.Seeker
-}
-
-// default buffer length
-const buflen = 1024
-
-// BitReader implements functionality for reading bits or bytes buffering up to a uint64
-// at a time from the reader in order to improve efficiency. It also provides
-// methods to read multiple bytes in one read such as encoded ints/values.
-//
-// This BitReader is the basis for the other utility classes like RLE decoding
-// and such, providing the necessary functions for interpreting the values.
-type BitReader struct {
-	reader     reader
-	buffer     uint64
-	byteoffset int64
-	bitoffset  uint
-	raw        [8]byte
-
-	unpackBuf [buflen]uint32
-}
-
-// NewBitReader takes in a reader that implements io.Reader, io.ReaderAt and io.Seeker
-// interfaces and returns a BitReader for use with various bit level manipulations.
-func NewBitReader(r reader) *BitReader {
-	return &BitReader{reader: r}
-}
-
-// CurOffset returns the current Byte offset into the data that the reader is at.
-func (b *BitReader) CurOffset() int64 {
-	return b.byteoffset + bitutil.BytesForBits(int64(b.bitoffset))
-}
-
-// Reset allows reusing a BitReader by setting a new reader and resetting the internal
-// state back to zeros.
-func (b *BitReader) Reset(r reader) {
-	b.reader = r
-	b.buffer = 0
-	b.byteoffset = 0
-	b.bitoffset = 0
-}
-
-// GetVlqInt reads a Vlq encoded int from the stream. The encoded value must start
-// at the beginning of a byte and this returns false if there weren't enough bytes
-// in the buffer or reader. This will call `ReadByte` which in turn retrieves byte
-// aligned values from the reader
-func (b *BitReader) GetVlqInt() (uint64, bool) {
-	tmp, err := binary.ReadUvarint(b)
-	if err != nil {
-		return 0, false
-	}
-	return tmp, true
-}
-
-// GetZigZagVlqInt reads a zigzag encoded integer, returning false if there weren't
-// enough bytes remaining.
-func (b *BitReader) GetZigZagVlqInt() (int64, bool) {
-	u, ok := b.GetVlqInt()
-	if !ok {
-		return 0, false
-	}
-
-	return int64(u>>1) ^ -int64(u&1), true
-}
-
-// ReadByte reads a single aligned byte from the underlying stream, or populating
-// error if there aren't enough bytes left.
-func (b *BitReader) ReadByte() (byte, error) {
-	var tmp byte
-	if ok := b.GetAligned(1, &tmp); !ok {
-		return 0, errors.New("failed to read byte")
-	}
-
-	return tmp, nil
-}
-
-// GetAligned reads nbytes from the underlying stream into the passed interface value.
-// Returning false if there aren't enough bytes remaining in the stream or if an invalid
-// type is passed. The bytes are read aligned to byte boundaries.
-//
-// v must be a pointer to a byte or sized uint type (*byte, *uint16, *uint32, *uint64).
-// encoded values are assumed to be little endian.
-func (b *BitReader) GetAligned(nbytes int, v interface{}) bool {
-	// figure out the number of bytes to represent v
-	typBytes := int(reflect.TypeOf(v).Elem().Size())
-	if nbytes > typBytes {
-		return false
-	}
-
-	bread := bitutil.BytesForBits(int64(b.bitoffset))
-
-	b.byteoffset += bread
-	n, err := b.reader.ReadAt(b.raw[:nbytes], b.byteoffset)
-	if err != nil && err != io.EOF {
-		return false
-	}
-	if n != nbytes {
-		return false
-	}
-	// zero pad the bytes
-	memory.Set(b.raw[n:typBytes], 0)
-
-	switch v := v.(type) {
-	case *byte:
-		*v = b.raw[0]
-	case *uint64:
-		*v = binary.LittleEndian.Uint64(b.raw[:typBytes])
-	case *uint32:
-		*v = binary.LittleEndian.Uint32(b.raw[:typBytes])
-	case *uint16:
-		*v = binary.LittleEndian.Uint16(b.raw[:typBytes])
-	default:
-		return false
-	}
-
-	b.byteoffset += int64(nbytes)
-
-	b.bitoffset = 0
-	b.fillbuffer()
-	return true
-}
-
-// fillbuffer fills the uint64 buffer with bytes from the underlying stream
-func (b *BitReader) fillbuffer() error {
-	n, err := b.reader.ReadAt(b.raw[:], b.byteoffset)
-	if err != nil && n == 0 && err != io.EOF {
-		return err
-	}
-	for i := n; i < 8; i++ {
-		b.raw[i] = 0
-	}
-	b.buffer = binary.LittleEndian.Uint64(b.raw[:])
-	return nil
-}
-
-// next reads an integral value from the next bits in the buffer
-func (b *BitReader) next(bits uint) (v uint64, err error) {
-	v = trailingBits(b.buffer, b.bitoffset+bits) >> b.bitoffset
-	b.bitoffset += bits
-	// if we need more bits to get what was requested then refill the buffer
-	if b.bitoffset >= 64 {
-		b.byteoffset += 8
-		b.bitoffset -= 64
-		if err = b.fillbuffer(); err != nil {
-			return 0, err
-		}
-		v |= trailingBits(b.buffer, b.bitoffset) << (bits - b.bitoffset)
-	}
-	return
-}
-
-// GetBatchIndex is like GetBatch but for IndexType (used for dictionary decoding)
-func (b *BitReader) GetBatchIndex(bits uint, out []IndexType) (i int, err error) {
-	// IndexType is a 32-bit value so bits must be less than 32 when unpacking
-	// values using the bitreader.
-	if bits > 32 {
-		return 0, errors.New("must be 32 bits or less per read")
-	}
-
-	var val uint64
-
-	length := len(out)
-	// if we aren't currently byte-aligned, read bits until we are byte-aligned.
-	for ; i < length && b.bitoffset != 0; i++ {
-		val, err = b.next(bits)
-		out[i] = IndexType(val)
-		if err != nil {
-			return
-		}
-	}
-
-	b.reader.Seek(b.byteoffset, io.SeekStart)
-	// grab as many 32 byte chunks as possible in one shot
-	if i < length { // IndexType should be a 32 bit value so we can do quick unpacking right into the output
-		numUnpacked := unpack32(b.reader, (*(*[]uint32)(unsafe.Pointer(&out)))[i:], int(bits))
-		i += numUnpacked
-		b.byteoffset += int64(numUnpacked * int(bits) / 8)
-	}
-
-	// re-fill our buffer just in case.
-	b.fillbuffer()
-	// grab the remaining values that aren't 32 byte aligned
-	for ; i < length; i++ {
-		val, err = b.next(bits)
-		out[i] = IndexType(val)
-		if err != nil {
-			break
-		}
-	}
-	return
-}
-
-// GetBatchBools is like GetBatch but optimized for reading bits as boolean values
-func (b *BitReader) GetBatchBools(out []bool) (int, error) {
-	bits := uint(1)
-	length := len(out)
-
-	i := 0
-	// read until we are byte-aligned
-	for ; i < length && b.bitoffset != 0; i++ {
-		val, err := b.next(bits)
-		out[i] = val != 0
-		if err != nil {
-			return i, err
-		}
-	}
-
-	b.reader.Seek(b.byteoffset, io.SeekStart)
-	buf := arrow.Uint32Traits.CastToBytes(b.unpackBuf[:])
-	blen := buflen * 8
-	for i < length {
-		// grab byte-aligned bits in a loop since it's more efficient than going
-		// bit by bit when you can grab 8 bools at a time.
-		unpackSize := utils.Min(blen, length-i) / 8 * 8
-		n, err := b.reader.Read(buf[:bitutil.BytesForBits(int64(unpackSize))])
-		if err != nil {
-			return i, err
-		}
-		BytesToBools(buf[:n], out[i:])
-		i += unpackSize
-		b.byteoffset += int64(n)
-	}
-
-	b.fillbuffer()
-	// grab the trailing bits
-	for ; i < length; i++ {
-		val, err := b.next(bits)
-		out[i] = val != 0
-		if err != nil {
-			return i, err
-		}
-	}
-
-	return i, nil
-}
-
-// GetBatch fills out by decoding values repeated from the stream that are encoded
-// using bits as the number of bits per value. The values are expected to be bit packed
-// so we will unpack the values to populate.
-func (b *BitReader) GetBatch(bits uint, out []uint64) (int, error) {
-	// since we're unpacking into uint64 values, we can't support bits being
-	// larger than 64 here as that's the largest size value we're reading
-	if bits > 64 {
-		return 0, errors.New("must be 64 bits or less per read")
-	}
-
-	length := len(out)
-
-	i := 0
-	// read until we are byte aligned
-	for ; i < length && b.bitoffset != 0; i++ {
-		val, err := b.next(bits)
-		out[i] = val
-		if err != nil {
-			return i, err
-		}
-	}
-
-	b.reader.Seek(b.byteoffset, io.SeekStart)
-	for i < length {
-		// unpack groups of 32 bytes at a time into a buffer since it's more efficient
-		unpackSize := utils.Min(buflen, length-i)
-		numUnpacked := unpack32(b.reader, b.unpackBuf[:unpackSize], int(bits))
-		if numUnpacked == 0 {
-			break
-		}
-
-		for k := 0; k < numUnpacked; k++ {
-			out[i+k] = uint64(b.unpackBuf[k])
-		}
-		i += numUnpacked
-		b.byteoffset += int64(numUnpacked * int(bits) / 8)
-	}
-
-	b.fillbuffer()
-	// and then the remaining trailing values
-	for ; i < length; i++ {
-		val, err := b.next(bits)
-		out[i] = val
-		if err != nil {
-			return i, err
-		}
-	}
-
-	return i, nil
-}
-
-// GetValue returns a single value that is bit packed using width as the number of bits
-// and returns false if there weren't enough bits remaining.
-func (b *BitReader) GetValue(width int) (uint64, bool) {
-	v := make([]uint64, 1)
-	n, _ := b.GetBatch(uint(width), v)
-	return v[0], n == 1
-}
diff --git a/go/parquet/internal/utils/bit_reader_test.go b/go/parquet/internal/utils/bit_reader_test.go
deleted file mode 100644
index 5bb1c9a70190f..0000000000000
--- a/go/parquet/internal/utils/bit_reader_test.go
+++ /dev/null
@@ -1,654 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils_test
-
-import (
-	"bytes"
-	"encoding/binary"
-	"fmt"
-	"math"
-	"math/bits"
-	"strconv"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-	"golang.org/x/exp/rand"
-	"gonum.org/v1/gonum/stat/distuv"
-)
-
-func TestBitWriter(t *testing.T) {
-	buf := make([]byte, 8)
-	bw := utils.NewBitWriter(utils.NewWriterAtBuffer(buf))
-
-	for i := 0; i < 8; i++ {
-		assert.Nil(t, bw.WriteValue(uint64(i%2), 1))
-	}
-	bw.Flush(false)
-
-	assert.Equal(t, byte(0xAA), buf[0])
-
-	for i := 0; i < 8; i++ {
-		switch i {
-		case 0, 1, 4, 5:
-			assert.Nil(t, bw.WriteValue(0, 1))
-		default:
-			assert.Nil(t, bw.WriteValue(1, 1))
-		}
-	}
-	bw.Flush(false)
-
-	assert.Equal(t, byte(0xAA), buf[0])
-	assert.Equal(t, byte(0xCC), buf[1])
-
-	for i := 0; i < 3; i++ {
-		assert.True(t, bw.WriteVlqInt(uint64(i)))
-	}
-	assert.Equal(t, byte(0xAA), buf[0])
-	assert.Equal(t, byte(0xCC), buf[1])
-	assert.Equal(t, byte(0), buf[2])
-	assert.Equal(t, byte(1), buf[3])
-	assert.Equal(t, byte(2), buf[4])
-}
-
-func BenchmarkBitWriter(b *testing.B) {
-	buf := make([]byte, b.N)
-	bw := utils.NewBitWriter(utils.NewWriterAtBuffer(buf))
-	for i := 0; i < b.N; i++ {
-		assert.True(b, bw.WriteVlqInt(uint64(1)))
-	}
-}
-
-func TestBitReader(t *testing.T) {
-	buf := []byte{0xAA, 0xCC} // 0b10101010 0b11001100
-
-	reader := utils.NewBitReader(bytes.NewReader(buf))
-	for i := 0; i < 8; i++ {
-		val, ok := reader.GetValue(1)
-		assert.True(t, ok)
-		assert.Equalf(t, (i%2) != 0, val != 0, "val: %d, i: %d", val, i)
-	}
-
-	for i := 0; i < 8; i++ {
-		val, ok := reader.GetValue(1)
-		assert.True(t, ok)
-		switch i {
-		case 0, 1, 4, 5:
-			assert.EqualValues(t, 0, val)
-		default:
-			assert.EqualValues(t, 1, val)
-		}
-	}
-}
-
-func TestBitArrayVals(t *testing.T) {
-	tests := []struct {
-		name  string
-		nvals func(uint) int
-	}{
-		{"1 value", func(uint) int { return 1 }},
-		{"2 values", func(uint) int { return 2 }},
-		{"larger", func(w uint) int {
-			if w < 12 {
-				return 1 << w
-			}
-			return 4096
-		}},
-		{"1024 values", func(uint) int { return 1024 }},
-	}
-
-	for width := uint(1); width < 32; width++ {
-		t.Run(fmt.Sprintf("BitWriter Width %d", width), func(t *testing.T) {
-			for _, tt := range tests {
-				t.Run(tt.name, func(t *testing.T) {
-					var (
-						nvals        = tt.nvals(width)
-						mod   uint64 = 1
-					)
-					l := bitutil.BytesForBits(int64(int(width) * nvals))
-					assert.Greater(t, l, int64(0))
-
-					if width != 64 {
-						mod = uint64(1) << width
-					}
-
-					buf := make([]byte, l)
-					bw := utils.NewBitWriter(utils.NewWriterAtBuffer(buf))
-					for i := 0; i < nvals; i++ {
-						assert.Nil(t, bw.WriteValue(uint64(i)%mod, width))
-					}
-					bw.Flush(false)
-					assert.Equal(t, l, int64(bw.Written()))
-
-					br := utils.NewBitReader(bytes.NewReader(buf))
-					for i := 0; i < nvals; i++ {
-						val, ok := br.GetValue(int(width))
-						assert.True(t, ok)
-						assert.Equal(t, uint64(i)%mod, val)
-					}
-				})
-			}
-		})
-	}
-}
-
-func TestMixedValues(t *testing.T) {
-	const buflen = 1024
-	buf := make([]byte, buflen)
-	parity := true
-
-	bw := utils.NewBitWriter(utils.NewWriterAtBuffer(buf))
-	for i := 0; i < buflen; i++ {
-		if i%2 == 0 {
-			v := uint64(1)
-			if !parity {
-				v = 0
-			}
-			assert.Nil(t, bw.WriteValue(v, 1))
-			parity = !parity
-		} else {
-			assert.Nil(t, bw.WriteValue(uint64(i), 10))
-		}
-	}
-	bw.Flush(false)
-
-	parity = true
-	br := utils.NewBitReader(bytes.NewReader(buf))
-	for i := 0; i < buflen; i++ {
-		if i%2 == 0 {
-			val, ok := br.GetValue(1)
-			assert.True(t, ok)
-			exp := uint64(1)
-			if !parity {
-				exp = 0
-			}
-			assert.Equal(t, exp, val)
-			parity = !parity
-		} else {
-			val, ok := br.GetValue(10)
-			assert.True(t, ok)
-			assert.Equal(t, uint64(i), val)
-		}
-	}
-}
-
-func TestZigZag(t *testing.T) {
-	testvals := []struct {
-		val int64
-		exp [10]byte
-	}{
-		{0, [...]byte{0, 0, 0, 0, 0, 0, 0, 0, 0, 0}},
-		{1, [...]byte{2, 0, 0, 0, 0, 0, 0, 0, 0, 0}},
-		{1234, [...]byte{164, 19, 0, 0, 0, 0, 0, 0, 0, 0}},
-		{-1, [...]byte{1, 0, 0, 0, 0, 0, 0, 0, 0, 0}},
-		{-1234, [...]byte{163, 19, 0, 0, 0, 0, 0, 0, 0, 0}},
-		{math.MaxInt32, [...]byte{254, 255, 255, 255, 15, 0, 0, 0, 0, 0}},
-		{-math.MaxInt32, [...]byte{253, 255, 255, 255, 15, 0, 0, 0, 0, 0}},
-		{math.MinInt32, [...]byte{255, 255, 255, 255, 15, 0, 0, 0, 0, 0}},
-		{math.MaxInt64, [...]byte{254, 255, 255, 255, 255, 255, 255, 255, 255, 1}},
-		{-math.MaxInt64, [...]byte{253, 255, 255, 255, 255, 255, 255, 255, 255, 1}},
-		{math.MinInt64, [...]byte{255, 255, 255, 255, 255, 255, 255, 255, 255, 1}},
-	}
-
-	for _, v := range testvals {
-		t.Run(strconv.Itoa(int(v.val)), func(t *testing.T) {
-			var buf [binary.MaxVarintLen64]byte
-			wrtr := utils.NewBitWriter(utils.NewWriterAtBuffer(buf[:]))
-			assert.True(t, wrtr.WriteZigZagVlqInt(v.val))
-			wrtr.Flush(false)
-
-			assert.Equal(t, v.exp, buf)
-
-			rdr := utils.NewBitReader(bytes.NewReader(buf[:]))
-			val, ok := rdr.GetZigZagVlqInt()
-			assert.True(t, ok)
-			assert.EqualValues(t, v.val, val)
-		})
-	}
-}
-
-const buflen = 1024
-
-type RLETestSuite struct {
-	suite.Suite
-
-	expectedBuf []byte
-	values      []uint64
-}
-
-type RLERandomSuite struct {
-	suite.Suite
-}
-
-func TestRLE(t *testing.T) {
-	suite.Run(t, new(RLETestSuite))
-}
-
-func TestRleRandom(t *testing.T) {
-	suite.Run(t, new(RLERandomSuite))
-}
-
-func (r *RLETestSuite) ValidateRle(vals []uint64, width int, expected []byte, explen int) {
-	const buflen = 64 * 1024
-	buf := make([]byte, buflen)
-
-	r.Run("test encode", func() {
-		r.LessOrEqual(explen, buflen)
-
-		enc := utils.NewRleEncoder(utils.NewWriterAtBuffer(buf), width)
-		for _, val := range vals {
-			r.NoError(enc.Put(val))
-		}
-		encoded := enc.Flush()
-		if explen != -1 {
-			r.Equal(explen, encoded)
-		}
-
-		if expected != nil {
-			r.Equal(expected, buf[:encoded])
-		}
-	})
-
-	r.Run("decode read", func() {
-		dec := utils.NewRleDecoder(bytes.NewReader(buf), width)
-		for _, val := range vals {
-			v, ok := dec.GetValue()
-			r.True(ok)
-			r.Equal(val, v)
-		}
-	})
-
-	r.Run("decode batch read", func() {
-		dec := utils.NewRleDecoder(bytes.NewReader(buf), width)
-		check := make([]uint64, len(vals))
-		r.Equal(len(vals), dec.GetBatch(check))
-		r.Equal(vals, check)
-	})
-}
-
-func (r *RLETestSuite) SetupTest() {
-	r.expectedBuf = make([]byte, 0, buflen)
-	r.values = make([]uint64, 100)
-}
-
-func (r *RLETestSuite) Test50Zeros50Ones() {
-	for i := 0; i < 50; i++ {
-		r.values[i] = 0
-	}
-	for i := 50; i < 100; i++ {
-		r.values[i] = 1
-	}
-
-	r.expectedBuf = append(r.expectedBuf, []byte{50 << 1, 0, 50 << 1, 1}...)
-	for width := 1; width <= 8; width++ {
-		r.Run(fmt.Sprintf("bitwidth: %d", width), func() {
-			r.ValidateRle(r.values, width, r.expectedBuf, 4)
-		})
-	}
-
-	for width := 9; width <= 32; width++ {
-		r.Run(fmt.Sprintf("bitwidth: %d", width), func() {
-			r.ValidateRle(r.values, width, nil, int(2*(1+bitutil.BytesForBits(int64(width)))))
-		})
-	}
-}
-
-func (r *RLETestSuite) Test100ZerosOnesAlternating() {
-	for idx := range r.values {
-		r.values[idx] = uint64(idx % 2)
-	}
-
-	ngroups := bitutil.BytesForBits(100)
-	r.expectedBuf = r.expectedBuf[:ngroups+1]
-	r.expectedBuf[0] = byte(ngroups<<1) | 1
-	for i := 1; i <= 100/8; i++ {
-		r.expectedBuf[i] = 0xAA
-	}
-	r.expectedBuf[100/8+1] = 0x0A
-
-	r.Run("width: 1", func() {
-		r.ValidateRle(r.values, 1, r.expectedBuf, int(1+ngroups))
-	})
-	for width := 2; width < 32; width++ {
-		r.Run(fmt.Sprintf("width: %d", width), func() {
-			nvalues := bitutil.BytesForBits(100) * 8
-			r.ValidateRle(r.values, width, nil, int(1+bitutil.BytesForBits(int64(width)*nvalues)))
-		})
-	}
-}
-
-func (r *RLETestSuite) Test16BitValues() {
-	// confirm encoded values are little endian
-	r.values = r.values[:28]
-	for i := 0; i < 16; i++ {
-		r.values[i] = 0x55aa
-	}
-	for i := 16; i < 28; i++ {
-		r.values[i] = 0xaa55
-	}
-
-	r.expectedBuf = append(r.expectedBuf, []byte{
-		16 << 1, 0xaa, 0x55, 12 << 1, 0x55, 0xaa,
-	}...)
-
-	r.ValidateRle(r.values, 16, r.expectedBuf, 6)
-}
-
-func (r *RLETestSuite) Test32BitValues() {
-	// confirm encoded values are little endian
-	r.values = r.values[:28]
-	for i := 0; i < 16; i++ {
-		r.values[i] = 0x555aaaa5
-	}
-	for i := 16; i < 28; i++ {
-		r.values[i] = 0x5aaaa555
-	}
-
-	r.expectedBuf = append(r.expectedBuf, []byte{
-		16 << 1, 0xa5, 0xaa, 0x5a, 0x55,
-		12 << 1, 0x55, 0xa5, 0xaa, 0x5a,
-	}...)
-
-	r.ValidateRle(r.values, 32, r.expectedBuf, 10)
-}
-
-func (r *RLETestSuite) TestRleValues() {
-	tests := []struct {
-		name  string
-		nvals int
-		val   int
-	}{
-		{"1", 1, -1},
-		{"1024", 1024, -1},
-		{"1024 0", 1024, 0},
-		{"1024 1", 1024, 1},
-	}
-
-	for width := 1; width <= 32; width++ {
-		r.Run(fmt.Sprintf("width %d", width), func() {
-			for _, tt := range tests {
-				r.Run(tt.name, func() {
-
-					var mod uint64 = 1
-					if width != 64 {
-						mod = uint64(1) << width
-					}
-
-					r.values = r.values[:0]
-
-					for v := 0; v < tt.nvals; v++ {
-						if tt.val != -1 {
-							r.values = append(r.values, uint64(tt.val))
-						} else {
-							r.values = append(r.values, uint64(v)%mod)
-						}
-					}
-					r.ValidateRle(r.values, width, nil, -1)
-				})
-			}
-		})
-	}
-}
-
-// Test that writes out a repeated group and then a literal group
-// but flush before finishing
-func (r *RLETestSuite) TestBitRleFlush() {
-	vals := make([]uint64, 0, 16)
-	for i := 0; i < 16; i++ {
-		vals = append(vals, 1)
-	}
-	vals = append(vals, 0)
-	r.ValidateRle(vals, 1, nil, -1)
-	vals = append(vals, 1)
-	r.ValidateRle(vals, 1, nil, -1)
-	vals = append(vals, 1)
-	r.ValidateRle(vals, 1, nil, -1)
-	vals = append(vals, 1)
-	r.ValidateRle(vals, 1, nil, -1)
-}
-
-func (r *RLETestSuite) TestRepeatedPattern() {
-	r.values = r.values[:0]
-	const minrun = 1
-	const maxrun = 32
-
-	for i := minrun; i <= maxrun; i++ {
-		v := i % 2
-		for j := 0; j < i; j++ {
-			r.values = append(r.values, uint64(v))
-		}
-	}
-
-	// and go back down again
-	for i := maxrun; i >= minrun; i-- {
-		v := i % 2
-		for j := 0; j < i; j++ {
-			r.values = append(r.values, uint64(v))
-		}
-	}
-
-	r.ValidateRle(r.values, 1, nil, -1)
-}
-
-func TestBitWidthZeroRepeated(t *testing.T) {
-	buf := make([]byte, 1)
-	const nvals = 15
-	buf[0] = nvals << 1 // repeated indicator byte
-	dec := utils.NewRleDecoder(bytes.NewReader(buf), 0)
-	for i := 0; i < nvals; i++ {
-		val, ok := dec.GetValue()
-		assert.True(t, ok)
-		assert.Zero(t, val)
-	}
-	_, ok := dec.GetValue()
-	assert.False(t, ok)
-}
-
-func TestBitWidthZeroLiteral(t *testing.T) {
-	const ngroups = 4
-	buf := []byte{4<<1 | 1}
-	dec := utils.NewRleDecoder(bytes.NewReader(buf), 0)
-	const nvals = ngroups * 8
-	for i := 0; i < nvals; i++ {
-		val, ok := dec.GetValue()
-		assert.True(t, ok)
-		assert.Zero(t, val)
-	}
-	_, ok := dec.GetValue()
-	assert.False(t, ok)
-}
-
-func (r *RLERandomSuite) checkRoundTrip(vals []uint64, width int) bool {
-	const buflen = 64 * 1024
-	buf := make([]byte, buflen)
-	var encoded int
-
-	res := r.Run("encode values", func() {
-		enc := utils.NewRleEncoder(utils.NewWriterAtBuffer(buf), width)
-		for idx, val := range vals {
-			r.Require().NoErrorf(enc.Put(val), "encoding idx: %d", idx)
-		}
-		encoded = enc.Flush()
-	})
-
-	res = res && r.Run("decode individual", func() {
-		dec := utils.NewRleDecoder(bytes.NewReader(buf[:encoded]), width)
-		for idx, val := range vals {
-			out, ok := dec.GetValue()
-			r.True(ok)
-			r.Require().Equalf(out, val, "mismatch idx: %d", idx)
-		}
-	})
-
-	res = res && r.Run("batch decode", func() {
-		dec := utils.NewRleDecoder(bytes.NewReader(buf[:encoded]), width)
-		read := make([]uint64, len(vals))
-		r.Require().Equal(len(vals), dec.GetBatch(read))
-		r.Equal(vals, read)
-	})
-
-	return res
-}
-
-func (r *RLERandomSuite) checkRoundTripSpaced(vals arrow.Array, width int) {
-	nvalues := vals.Len()
-	bufsize := utils.MaxRLEBufferSize(width, nvalues)
-
-	buffer := make([]byte, bufsize)
-	encoder := utils.NewRleEncoder(utils.NewWriterAtBuffer(buffer), width)
-
-	switch v := vals.(type) {
-	case *array.Int32:
-		for i := 0; i < v.Len(); i++ {
-			if v.IsValid(i) {
-				r.Require().NoError(encoder.Put(uint64(v.Value(i))))
-			}
-		}
-	}
-
-	encodedSize := encoder.Flush()
-
-	// verify batch read
-	decoder := utils.NewRleDecoder(bytes.NewReader(buffer[:encodedSize]), width)
-	valuesRead := make([]uint64, nvalues)
-	val, err := decoder.GetBatchSpaced(valuesRead, vals.NullN(), vals.NullBitmapBytes(), int64(vals.Data().Offset()))
-	r.NoError(err)
-	r.EqualValues(nvalues, val)
-
-	switch v := vals.(type) {
-	case *array.Int32:
-		for i := 0; i < nvalues; i++ {
-			if vals.IsValid(i) {
-				r.EqualValues(v.Value(i), valuesRead[i])
-			}
-		}
-	}
-}
-
-func (r *RLERandomSuite) TestRandomSequences() {
-	const niters = 50
-	const ngroups = 1000
-	const maxgroup = 16
-
-	values := make([]uint64, ngroups+maxgroup)
-	seed := rand.Uint64() ^ (rand.Uint64() << 32)
-	gen := rand.New(rand.NewSource(seed))
-
-	for itr := 0; itr < niters; itr++ {
-		parity := false
-		values = values[:0]
-
-		for i := 0; i < ngroups; i++ {
-			groupsize := gen.Intn(19) + 1
-			if groupsize > maxgroup {
-				groupsize = 1
-			}
-
-			v := uint64(0)
-			if parity {
-				v = 1
-			}
-			for j := 0; j < groupsize; j++ {
-				values = append(values, v)
-			}
-			parity = !parity
-		}
-		r.Require().Truef(r.checkRoundTrip(values, bits.Len(uint(len(values)))), "failing seed: %d", seed)
-	}
-}
-
-type RandomArrayGenerator struct {
-	seed     uint64
-	extra    uint64
-	src      rand.Source
-	seedRand *rand.Rand
-}
-
-func NewRandomArrayGenerator(seed uint64) RandomArrayGenerator {
-	src := rand.NewSource(seed)
-	return RandomArrayGenerator{seed, 0, src, rand.New(src)}
-}
-
-func (r *RandomArrayGenerator) generateBitmap(buffer []byte, n int64, prob float64) int64 {
-	count := int64(0)
-	r.extra++
-
-	dist := distuv.Bernoulli{P: prob, Src: rand.NewSource(r.seed + r.extra)}
-	for i := int(0); int64(i) < n; i++ {
-		if dist.Rand() != float64(0.0) {
-			bitutil.SetBit(buffer, i)
-		} else {
-			count++
-		}
-	}
-
-	return count
-}
-
-func (r *RandomArrayGenerator) Int32(size int64, min, max int32, prob float64) arrow.Array {
-	buffers := make([]*memory.Buffer, 2)
-	nullCount := int64(0)
-
-	buffers[0] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[0].Resize(int(bitutil.BytesForBits(size)))
-	nullCount = r.generateBitmap(buffers[0].Bytes(), size, prob)
-
-	buffers[1] = memory.NewResizableBuffer(memory.DefaultAllocator)
-	buffers[1].Resize(int(size * int64(arrow.Int32SizeBytes)))
-
-	r.extra++
-	dist := rand.New(rand.NewSource(r.seed + r.extra))
-	out := arrow.Int32Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = int32(dist.Int31n(max-min+1)) + min
-	}
-
-	return array.NewInt32Data(array.NewData(arrow.PrimitiveTypes.Int32, int(size), buffers, nil, int(nullCount), 0))
-}
-
-func (r *RLERandomSuite) TestGetBatchSpaced() {
-	seed := uint64(1337)
-
-	rng := NewRandomArrayGenerator(seed)
-
-	tests := []struct {
-		name     string
-		max      int32
-		size     int64
-		nullProb float64
-		bitWidth int
-	}{
-		{"all ones 0.01 nullprob width 1", 1, 100000, 0.01, 1},
-		{"all ones 0.1 nullprob width 1", 1, 100000, 0.1, 1},
-		{"all ones 0.5 nullprob width 1", 1, 100000, 0.5, 1},
-		{"max 4 0.05 nullprob width 3", 4, 100000, 0.05, 3},
-		{"max 100 0.05 nullprob width 7", 100, 100000, 0.05, 7},
-	}
-
-	for _, tt := range tests {
-		r.Run(tt.name, func() {
-			arr := rng.Int32(tt.size, 0, tt.max, tt.nullProb)
-			r.checkRoundTripSpaced(arr, tt.bitWidth)
-			r.checkRoundTripSpaced(array.NewSlice(arr, 1, int64(arr.Len())), tt.bitWidth)
-		})
-	}
-}
diff --git a/go/parquet/internal/utils/bit_writer.go b/go/parquet/internal/utils/bit_writer.go
deleted file mode 100644
index ab0cb3ce58445..0000000000000
--- a/go/parquet/internal/utils/bit_writer.go
+++ /dev/null
@@ -1,188 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"encoding/binary"
-	"io"
-	"log"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-)
-
-// WriterAtBuffer is a convenience struct for providing a WriteAt function
-// to a byte slice for use with things that want an io.WriterAt
-type WriterAtBuffer struct {
-	buf []byte
-}
-
-// NewWriterAtBuffer returns an object which fulfills the io.WriterAt interface
-// by taking ownership of the passed in slice.
-func NewWriterAtBuffer(buf []byte) WriterAtWithLen {
-	return &WriterAtBuffer{buf}
-}
-
-// Len returns the length of the underlying byte slice.
-func (w *WriterAtBuffer) Len() int {
-	return len(w.buf)
-}
-
-// WriteAt fulfills the io.WriterAt interface to write len(p) bytes from p
-// to the underlying byte slice starting at offset off. It returns the number
-// of bytes written from p (0 <= n <= len(p)) and any error encountered.
-func (w *WriterAtBuffer) WriteAt(p []byte, off int64) (n int, err error) {
-	if off > int64(len(w.buf)) {
-		return 0, io.ErrUnexpectedEOF
-	}
-
-	n = copy(w.buf[off:], p)
-	if n < len(p) {
-		err = io.ErrUnexpectedEOF
-	}
-	return
-}
-
-func (w *WriterAtBuffer) Reserve(nbytes int) {
-	// no-op. We should not expand or otherwise modify the underlying buffer
-}
-
-// WriterAtWithLen is an interface for an io.WriterAt with a Len function
-type WriterAtWithLen interface {
-	io.WriterAt
-	Len() int
-	Reserve(int)
-}
-
-// BitWriter is a utility for writing values of specific bit widths to a stream
-// using a uint64 as a buffer to build up between flushing for efficiency.
-type BitWriter struct {
-	wr         WriterAtWithLen
-	buffer     uint64
-	byteoffset int
-	bitoffset  uint
-	raw        [8]byte
-	buf        [binary.MaxVarintLen64]byte
-}
-
-// NewBitWriter initializes a new bit writer to write to the passed in interface
-// using WriteAt to write the appropriate offsets and values.
-func NewBitWriter(w WriterAtWithLen) *BitWriter {
-	return &BitWriter{wr: w}
-}
-
-// SkipBytes reserves the next aligned nbytes, skipping them and returning
-// the offset to use with WriteAt to write to those reserved bytes. Used for
-// RLE encoding to fill in the indicators after encoding.
-func (b *BitWriter) SkipBytes(nbytes int) (int, error) {
-	b.Flush(true)
-	ret := b.byteoffset
-	b.byteoffset += nbytes
-	b.wr.Reserve(b.byteoffset)
-	return ret, nil
-}
-
-// WriteAt fulfills the io.WriterAt interface to write len(p) bytes from p
-// to the underlying byte slice starting at offset off. It returns the number
-// of bytes written from p (0 <= n <= len(p)) and any error encountered.
-// This allows writing full bytes directly to the underlying writer.
-func (b *BitWriter) WriteAt(val []byte, off int64) (int, error) {
-	return b.wr.WriteAt(val, off)
-}
-
-// Written returns the number of bytes that have been written to the BitWriter,
-// not how many bytes have been flushed. Use Flush to ensure that all data is flushed
-// to the underlying writer.
-func (b *BitWriter) Written() int {
-	return b.byteoffset + int(bitutil.BytesForBits(int64(b.bitoffset)))
-}
-
-// WriteValue writes the value v using nbits to pack it, returning false if it fails
-// for some reason.
-func (b *BitWriter) WriteValue(v uint64, nbits uint) error {
-	b.buffer |= v << b.bitoffset
-	b.bitoffset += nbits
-
-	if b.bitoffset >= 64 {
-		binary.LittleEndian.PutUint64(b.raw[:], b.buffer)
-		if _, err := b.wr.WriteAt(b.raw[:], int64(b.byteoffset)); err != nil {
-			return err
-		}
-		b.buffer = 0
-		b.byteoffset += 8
-		b.bitoffset -= 64
-		b.buffer = v >> (nbits - b.bitoffset)
-	}
-	return nil
-}
-
-// Flush will flush any buffered data to the underlying writer, pass true if
-// the next write should be byte-aligned after this flush.
-func (b *BitWriter) Flush(align bool) {
-	var nbytes int64
-	if b.bitoffset > 0 {
-		nbytes = bitutil.BytesForBits(int64(b.bitoffset))
-		binary.LittleEndian.PutUint64(b.raw[:], b.buffer)
-		b.wr.WriteAt(b.raw[:nbytes], int64(b.byteoffset))
-	}
-
-	if align {
-		b.buffer = 0
-		b.byteoffset += int(nbytes)
-		b.bitoffset = 0
-	}
-}
-
-// WriteAligned writes the value val as a little endian value in exactly nbytes
-// byte-aligned to the underlying writer, flushing via Flush(true) before writing nbytes
-// without buffering.
-func (b *BitWriter) WriteAligned(val uint64, nbytes int) bool {
-	b.Flush(true)
-	binary.LittleEndian.PutUint64(b.raw[:], val)
-	if _, err := b.wr.WriteAt(b.raw[:nbytes], int64(b.byteoffset)); err != nil {
-		log.Println(err)
-		return false
-	}
-	b.byteoffset += nbytes
-	return true
-}
-
-// WriteVlqInt writes v as a vlq encoded integer byte-aligned to the underlying writer
-// without buffering.
-func (b *BitWriter) WriteVlqInt(v uint64) bool {
-	b.Flush(true)
-	nbytes := binary.PutUvarint(b.buf[:], v)
-	if _, err := b.wr.WriteAt(b.buf[:nbytes], int64(b.byteoffset)); err != nil {
-		log.Println(err)
-		return false
-	}
-	b.byteoffset += nbytes
-	return true
-}
-
-// WriteZigZagVlqInt writes a zigzag encoded integer byte-aligned to the underlying writer
-// without buffering.
-func (b *BitWriter) WriteZigZagVlqInt(v int64) bool {
-	return b.WriteVlqInt(uint64((v << 1) ^ (v >> 63)))
-}
-
-// Clear resets the writer so that subsequent writes will start from offset 0,
-// allowing reuse of the underlying buffer and writer.
-func (b *BitWriter) Clear() {
-	b.byteoffset = 0
-	b.bitoffset = 0
-	b.buffer = 0
-}
diff --git a/go/parquet/internal/utils/bitmap_writer.go b/go/parquet/internal/utils/bitmap_writer.go
deleted file mode 100644
index 163e928f4b689..0000000000000
--- a/go/parquet/internal/utils/bitmap_writer.go
+++ /dev/null
@@ -1,173 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"encoding/binary"
-	"math/bits"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-)
-
-// BitmapWriter is an interface for bitmap writers so that we can use multiple
-// implementations or swap if necessary.
-type BitmapWriter interface {
-	// Set sets the current bit that will be written
-	Set()
-	// Clear clears the current bit that will be written
-	Clear()
-	// Next advances to the next bit for the writer
-	Next()
-	// Finish flushes the current byte out to the bitmap slice
-	Finish()
-	// AppendWord takes nbits from word which should be an LSB bitmap and appends them to the bitmap.
-	AppendWord(word uint64, nbits int64)
-	// AppendBools appends the bit representation of the bools slice, returning the number
-	// of bools that were able to fit in the remaining length of the bitmapwriter.
-	AppendBools(in []bool) int
-	// Pos is the current position that will be written next
-	Pos() int
-	// Reset allows reusing the bitmapwriter by resetting Pos to start with length as
-	// the number of bits that the writer can write.
-	Reset(start, length int)
-}
-
-type bitmapWriter struct {
-	*bitutil.BitmapWriter
-}
-
-func NewBitmapWriter(bitmap []byte, start, length int) BitmapWriter {
-	return &bitmapWriter{bitutil.NewBitmapWriter(bitmap, start, length)}
-}
-
-func (b *bitmapWriter) AppendWord(uint64, int64) {
-	panic("unimplemented")
-}
-
-type firstTimeBitmapWriter struct {
-	buf    []byte
-	pos    int64
-	length int64
-
-	curByte      uint8
-	bitMask      uint8
-	byteOffset   int64
-	endianBuffer [8]byte
-}
-
-// NewFirstTimeBitmapWriter creates a bitmap writer that might clobber any bit values
-// following the bits written to the bitmap, as such it is faster than the bitmapwriter
-// that is created with NewBitmapWriter
-func NewFirstTimeBitmapWriter(buf []byte, start, length int64) BitmapWriter {
-	ret := &firstTimeBitmapWriter{
-		buf:        buf,
-		byteOffset: start / 8,
-		bitMask:    bitutil.BitMask[start%8],
-		length:     length,
-	}
-	if length > 0 {
-		ret.curByte = ret.buf[int(ret.byteOffset)] & bitutil.PrecedingBitmask[start%8]
-	}
-	return ret
-}
-
-func (bw *firstTimeBitmapWriter) Reset(start, length int) {
-	bw.pos = 0
-	bw.byteOffset = int64(start / 8)
-	bw.bitMask = bitutil.BitMask[start%8]
-	bw.length = int64(length)
-	if length > 0 {
-		bw.curByte = bw.buf[int(bw.byteOffset)] & bitutil.PrecedingBitmask[start%8]
-	}
-}
-
-func (bw *firstTimeBitmapWriter) Pos() int { return int(bw.pos) }
-func (bw *firstTimeBitmapWriter) AppendWord(word uint64, nbits int64) {
-	if nbits == 0 {
-		return
-	}
-
-	// location that the first byte needs to be written to for appending
-	appslice := bw.buf[int(bw.byteOffset):]
-
-	// update everything but curByte
-	bw.pos += nbits
-	bitOffset := bits.TrailingZeros32(uint32(bw.bitMask))
-	bw.bitMask = bitutil.BitMask[(int64(bitOffset)+nbits)%8]
-	bw.byteOffset += (int64(bitOffset) + nbits) / 8
-
-	if bitOffset != 0 {
-		// we're in the middle of the byte. Update the byte and shift bits appropriately
-		// so we can just copy the bytes.
-		carry := 8 - bitOffset
-		// Carry over bits from word to curByte. We assume any extra bits in word are unset
-		// so no additional accounting is needed for when nbits < carry
-		bw.curByte |= uint8((word & uint64(bitutil.PrecedingBitmask[carry])) << bitOffset)
-		// check everything was transferred to curByte
-		if nbits < int64(carry) {
-			return
-		}
-		appslice[0] = bw.curByte
-		appslice = appslice[1:]
-		// move the carry bits off of word
-		word = word >> carry
-		nbits -= int64(carry)
-	}
-	bytesForWord := bitutil.BytesForBits(nbits)
-	binary.LittleEndian.PutUint64(bw.endianBuffer[:], word)
-	copy(appslice, bw.endianBuffer[:bytesForWord])
-
-	// at this point, the previous curByte has been written, the new curByte
-	// is either the last relevant byte in word or cleared if the new position
-	// is byte aligned (ie. a fresh byte)
-	if bw.bitMask == 0x1 {
-		bw.curByte = 0
-	} else {
-		bw.curByte = appslice[bytesForWord-1]
-	}
-}
-
-func (bw *firstTimeBitmapWriter) Set() {
-	bw.curByte |= bw.bitMask
-}
-
-func (bw *firstTimeBitmapWriter) Clear() {}
-
-func (bw *firstTimeBitmapWriter) Next() {
-	bw.bitMask = uint8(bw.bitMask << 1)
-	bw.pos++
-	if bw.bitMask == 0 {
-		// byte finished, advance to the next one
-		bw.bitMask = 0x1
-		bw.buf[int(bw.byteOffset)] = bw.curByte
-		bw.byteOffset++
-		bw.curByte = 0
-	}
-}
-
-func (b *firstTimeBitmapWriter) AppendBools(in []bool) int {
-	panic("Append Bools not yet implemented for firstTimeBitmapWriter")
-}
-
-func (bw *firstTimeBitmapWriter) Finish() {
-	// store curByte into the bitmap
-	if bw.length > 0 && bw.bitMask != 0x01 || bw.pos < bw.length {
-		bw.buf[int(bw.byteOffset)] = bw.curByte
-	}
-}
-
-func (bw *firstTimeBitmapWriter) Position() int64 { return bw.pos }
diff --git a/go/parquet/internal/utils/bitmap_writer_test.go b/go/parquet/internal/utils/bitmap_writer_test.go
deleted file mode 100644
index 39838e87d3223..0000000000000
--- a/go/parquet/internal/utils/bitmap_writer_test.go
+++ /dev/null
@@ -1,304 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils_test
-
-import (
-	"fmt"
-	"reflect"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/parquet/internal/utils"
-	"github.com/stretchr/testify/suite"
-)
-
-func writeSliceToWriter(wr utils.BitmapWriter, values []int) {
-	for _, v := range values {
-		if v != 0 {
-			wr.Set()
-		} else {
-			wr.Clear()
-		}
-		wr.Next()
-	}
-	wr.Finish()
-}
-
-type FirstTimeBitmapWriterSuite struct {
-	suite.Suite
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestNormalOperation() {
-	for _, fb := range []byte{0x00, 0xFF} {
-		{
-			bitmap := []byte{fb, fb, fb, fb}
-			wr := utils.NewFirstTimeBitmapWriter(bitmap, 0, 12)
-			writeSliceToWriter(wr, []int{0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1})
-			// {0b00110110, 0b1010, 0, 0}
-			f.Equal([]byte{0x36, 0x0a}, bitmap[:2])
-		}
-		{
-			bitmap := []byte{fb, fb, fb, fb}
-			wr := utils.NewFirstTimeBitmapWriter(bitmap, 4, 12)
-			writeSliceToWriter(wr, []int{0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1})
-			// {0b00110110, 0b1010, 0, 0}
-			f.Equal([]byte{0x60 | (fb & 0x0f), 0xa3}, bitmap[:2])
-		}
-		// Consecutive write chunks
-		{
-			bitmap := []byte{fb, fb, fb, fb}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 0, 6)
-				writeSliceToWriter(wr, []int{0, 1, 1, 0, 1, 1})
-			}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 6, 3)
-				writeSliceToWriter(wr, []int{0, 0, 0})
-			}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 9, 3)
-				writeSliceToWriter(wr, []int{1, 0, 1})
-			}
-			f.Equal([]byte{0x36, 0x0a}, bitmap[:2])
-		}
-		{
-			bitmap := []byte{fb, fb, fb, fb}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 4, 0)
-				writeSliceToWriter(wr, []int{})
-			}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 4, 6)
-				writeSliceToWriter(wr, []int{0, 1, 1, 0, 1, 1})
-			}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 10, 3)
-				writeSliceToWriter(wr, []int{0, 0, 0})
-			}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 13, 0)
-				writeSliceToWriter(wr, []int{})
-			}
-			{
-				wr := utils.NewFirstTimeBitmapWriter(bitmap, 13, 3)
-				writeSliceToWriter(wr, []int{1, 0, 1})
-			}
-			f.Equal([]byte{0x60 | (fb & 0x0f), 0xa3}, bitmap[:2])
-		}
-	}
-}
-
-func bitmapToString(bitmap []byte, bitCount int64) string {
-	var bld strings.Builder
-	bld.Grow(int(bitCount))
-	for i := 0; i < int(bitCount); i++ {
-		if bitutil.BitIsSet(bitmap, i) {
-			bld.WriteByte('1')
-		} else {
-			bld.WriteByte('0')
-		}
-	}
-	return bld.String()
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestAppendWordOffsetOverwritesCorrectBits() {
-	check := func(start byte, expectedBits string, offset int64) {
-		validBits := []byte{start}
-		const bitsAfterAppend = 8
-		wr := utils.NewFirstTimeBitmapWriter(validBits, offset, int64(8*len(validBits))-offset)
-		wr.AppendWord(0xFF, bitsAfterAppend-offset)
-		wr.Finish()
-		f.Equal(expectedBits, bitmapToString(validBits, bitsAfterAppend))
-	}
-
-	f.Run("CheckAppend", func() {
-		tests := []struct {
-			expectedBits string
-			offset       int64
-		}{
-			{"11111111", 0},
-			{"01111111", 1},
-			{"00111111", 2},
-			{"00011111", 3},
-			{"00001111", 4},
-			{"00000111", 5},
-			{"00000011", 6},
-			{"00000001", 7},
-		}
-		for _, tt := range tests {
-			f.Run(tt.expectedBits, func() { check(0x00, tt.expectedBits, tt.offset) })
-		}
-	})
-
-	f.Run("CheckWithSet", func() {
-		tests := []struct {
-			expectedBits string
-			offset       int64
-		}{
-			{"11111111", 1},
-			{"10111111", 2},
-			{"10011111", 3},
-			{"10001111", 4},
-			{"10000111", 5},
-			{"10000011", 6},
-			{"10000001", 7},
-		}
-		for _, tt := range tests {
-			f.Run(tt.expectedBits, func() { check(0x1, tt.expectedBits, tt.offset) })
-		}
-	})
-
-	f.Run("CheckWithPreceding", func() {
-		tests := []struct {
-			expectedBits string
-			offset       int64
-		}{
-			{"11111111", 0},
-			{"11111111", 1},
-			{"11111111", 2},
-			{"11111111", 3},
-			{"11111111", 4},
-			{"11111111", 5},
-			{"11111111", 6},
-			{"11111111", 7},
-		}
-		for _, tt := range tests {
-			f.Run(fmt.Sprintf("%d", tt.offset), func() { check(0xFF, tt.expectedBits, tt.offset) })
-		}
-	})
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestAppendZeroBitsNoImpact() {
-	validBits := []byte{0x00}
-	wr := utils.NewFirstTimeBitmapWriter(validBits, 1, int64(len(validBits)*8))
-	wr.AppendWord(0xFF, 0)
-	wr.AppendWord(0xFF, 0)
-	wr.AppendWord(0x01, 1)
-	wr.Finish()
-	f.Equal(uint8(0x2), validBits[0])
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestAppendLessThanByte() {
-	{
-		validBits := make([]byte, 8)
-		wr := utils.NewFirstTimeBitmapWriter(validBits, 1, 8)
-		wr.AppendWord(0xB, 4)
-		wr.Finish()
-		f.Equal("01101000", bitmapToString(validBits, 8))
-	}
-	{
-		// test with all bits initially set
-		validBits := []byte{0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF}
-		wr := utils.NewFirstTimeBitmapWriter(validBits, 1, 8)
-		wr.AppendWord(0xB, 4)
-		wr.Finish()
-		f.Equal("11101000", bitmapToString(validBits, 8))
-	}
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestAppendByteThenMore() {
-	{
-		validBits := make([]byte, 8)
-		wr := utils.NewFirstTimeBitmapWriter(validBits, 0, 9)
-		wr.AppendWord(0xC3, 8)
-		wr.AppendWord(0x01, 1)
-		wr.Finish()
-		f.Equal("110000111", bitmapToString(validBits, 9))
-	}
-	{
-		// test with all bits initially set
-		validBits := []byte{0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF}
-		wr := utils.NewFirstTimeBitmapWriter(validBits, 0, 9)
-		wr.AppendWord(0xC3, 8)
-		wr.AppendWord(0x01, 1)
-		wr.Finish()
-		f.Equal("110000111", bitmapToString(validBits, 9))
-	}
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestAppendWordShiftBitsCorrectly() {
-	const pattern = 0x9A9A9A9A9A9A9A9A
-
-	tests := []struct {
-		leadingBits      string
-		middleBits       string
-		trailingBits     string
-		offset           int64
-		presetBufferBits bool
-	}{
-		{"01011001", "01011001", "00000000", 8, false},
-		{"00101100", "10101100", "10000000", 9, false},
-		{"00010110", "01010110", "01000000", 10, false},
-		{"00001011", "00101011", "00100000", 11, false},
-		{"00000101", "10010101", "10010000", 12, false},
-		{"00000010", "11001010", "11001000", 13, false},
-		{"00000001", "01100101", "01100100", 14, false},
-		{"00000000", "10110010", "10110010", 15, false},
-		{"01011001", "01011001", "11111111", 8, true},
-		{"10101100", "10101100", "10000000", 9, true},
-		{"11010110", "01010110", "01000000", 10, true},
-		{"11101011", "00101011", "00100000", 11, true},
-		{"11110101", "10010101", "10010000", 12, true},
-		{"11111010", "11001010", "11001000", 13, true},
-		{"11111101", "01100101", "01100100", 14, true},
-		{"11111110", "10110010", "10110010", 15, true},
-	}
-	for _, tt := range tests {
-		f.Run(tt.leadingBits, func() {
-			f.Require().GreaterOrEqual(tt.offset, int64(8))
-			validBits := make([]byte, 10)
-			if tt.presetBufferBits {
-				for idx := range validBits {
-					validBits[idx] = 0xFF
-				}
-			}
-
-			validBits[0] = 0x99
-			wr := utils.NewFirstTimeBitmapWriter(validBits, tt.offset, (9*int64(reflect.TypeOf(uint64(0)).Size()))-tt.offset)
-			wr.AppendWord(pattern, 64)
-			wr.Finish()
-			f.Equal(uint8(0x99), validBits[0])
-			f.Equal(tt.leadingBits, bitmapToString(validBits[1:], 8))
-			for x := 2; x < 9; x++ {
-				f.Equal(tt.middleBits, bitmapToString(validBits[x:], 8))
-			}
-			f.Equal(tt.trailingBits, bitmapToString(validBits[9:], 8))
-		})
-	}
-}
-
-func (f *FirstTimeBitmapWriterSuite) TestAppendWordOnlyAppropriateBytesWritten() {
-	validBits := []byte{0x00, 0x00}
-	bitmap := uint64(0x1FF)
-	{
-		wr := utils.NewFirstTimeBitmapWriter(validBits, 1, int64(8*len(validBits))-1)
-		wr.AppendWord(bitmap, 7)
-		wr.Finish()
-		f.Equal([]byte{0xFE, 0x00}, validBits)
-	}
-	{
-		wr := utils.NewFirstTimeBitmapWriter(validBits, 1, int64(8*len(validBits)-1))
-		wr.AppendWord(bitmap, 8)
-		wr.Finish()
-		f.Equal([]byte{0xFE, 0x03}, validBits)
-	}
-}
-
-func TestFirstTimeBitmapWriter(t *testing.T) {
-	suite.Run(t, new(FirstTimeBitmapWriterSuite))
-}
diff --git a/go/parquet/internal/utils/clib_amd64.s b/go/parquet/internal/utils/clib_amd64.s
deleted file mode 100644
index b1534d4cf18f6..0000000000000
--- a/go/parquet/internal/utils/clib_amd64.s
+++ /dev/null
@@ -1,105 +0,0 @@
-#include "textflag.h"
-
-// void *memcpy(void *dst, const void *src, size_t n)
-// DI = dst, SI = src, DX = size
-TEXT clib·_memcpy(SB), $16-0
-	PUSHQ R8
-	PUSHQ CX
-	XORQ  CX, CX // clear register
-
-MEMCPY_QUAD_LOOP:
-	ADDQ $8, CX
-	CMPQ CX, DX
-	JA   MEMCPY_QUAD_DONE
-	MOVQ -8(SI)(CX*1), R8
-	MOVQ R8, -8(DI)(CX*1)
-	JMP  MEMCPY_QUAD_LOOP
-
-MEMCPY_QUAD_DONE:
-	SUBQ $4, CX
-	CMPQ CX, DX
-	JA   MEMCPY_LONG_DONE
-	MOVL -4(SI)(CX*1), R8
-	MOVL R8, -4(DI)(CX*1)
-	ADDQ $4, CX
-
-MEMCPY_LONG_DONE:
-	SUBQ $2, CX
-	CMPQ CX, DX
-	JA   MEMCPY_WORD_DONE
-	MOVW -2(SI)(CX*1), R8
-	MOVW R8, -2(DI)(CX*1)
-	ADDQ $2, CX
-
-MEMCPY_WORD_DONE:
-	SUBQ $1, CX
-	CMPQ CX, DX
-	JA   MEMCPY_BYTE_DONE
-	MOVB -1(SI)(CX*1), R8
-	MOVB R8, -1(DI)(CX*1)
-
-MEMCPY_BYTE_DONE:
-	MOVQ DI, AX // set return value
-	POPQ CX
-	POPQ R8
-	RET
-
-// func _ClibMemcpy(dst, src unsafe.Pointer, n uint) unsafe.Pointer
-TEXT ·_ClibMemcpy(SB), NOSPLIT|NOFRAME, $16-24
-	MOVQ arg1+0(FP), DI
-	MOVQ arg2+8(FP), SI
-	MOVQ arg3+16(FP), DX
-	CALL clib·_memcpy(SB)
-	MOVQ AX, ret+24(FP)
-	RET
-
-// void *memset(void *str, int c, size_t n)
-// DI = str, SI = c, DX = size
-TEXT clib·_memset(SB), $16-0
-	PUSHQ CX
-    LONG $0x0101f669; WORD $0x0101 // imul esi, 0x1010101
-    MOVQ SI, CX
-    ROLQ $32, CX
-    ORQ CX, SI
-	XORQ CX, CX // clear register
-
-MEMSET_QUAD_LOOP:
-	ADDQ $8, CX
-	CMPQ CX, DX
-	JA   MEMSET_QUAD_DONE
-	MOVQ SI, -8(DI)(CX*1)
-	JMP  MEMSET_QUAD_LOOP
-
-MEMSET_QUAD_DONE:
-	SUBQ $4, CX
-	CMPQ CX, DX
-	JA   MEMSET_LONG_DONE
-	MOVL SI, -4(DI)(CX*1)
-	ADDQ $4, CX
-
-MEMSET_LONG_DONE:
-	SUBQ $2, CX
-	CMPQ CX, DX
-	JA   MEMSET_WORD_DONE
-	MOVW SI, -2(DI)(CX*1)
-	ADDQ $2, CX
-
-MEMSET_WORD_DONE:
-	SUBQ $1, CX
-	CMPQ CX, DX
-	JA   MEMSET_BYTE_DONE
-	MOVB SI, -1(DI)(CX*1)
-
-MEMSET_BYTE_DONE:
-	MOVQ DI, AX // set return value
-	POPQ CX
-	RET
-
-// func _ClibMemset(dst unsafe.Pointer, c int, n uint) unsafe.Pointer
-TEXT ·_ClibMemset(SB), NOSPLIT|NOFRAME, $16-24
-	MOVQ arg1+0(FP), DI
-	MOVQ arg2+8(FP), SI
-	MOVQ arg3+16(FP), DX
-	CALL clib·_memset(SB)
-	MOVQ AX, ret+24(FP)
-	RET
diff --git a/go/parquet/internal/utils/dictionary.go b/go/parquet/internal/utils/dictionary.go
deleted file mode 100644
index 4d5ef13fbf3b2..0000000000000
--- a/go/parquet/internal/utils/dictionary.go
+++ /dev/null
@@ -1,87 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"math"
-	"reflect"
-)
-
-// IndexType is the type we're going to use for Dictionary indexes, currently
-// an alias to int32
-type IndexType = int32
-
-// Max and Min constants for the IndexType
-const (
-	MaxIndexType = math.MaxInt32
-	MinIndexType = math.MinInt32
-)
-
-// DictionaryConverter is an interface used for dealing with RLE decoding and encoding
-// when working with dictionaries to get values from indexes.
-type DictionaryConverter interface {
-	// Copy takes an interface{} which must be a slice of the appropriate type, and will be populated
-	// by the dictionary values at the indexes from the IndexType slice
-	Copy(interface{}, []IndexType) error
-	// Fill fills interface{} which must be a slice of the appropriate type, with the value
-	// specified by the dictionary index passed in.
-	Fill(interface{}, IndexType) error
-	// FillZero fills interface{}, which must be a slice of the appropriate type, with the zero value
-	// for the given type.
-	FillZero(interface{})
-	// IsValid validates that all of the indexes passed in are valid indexes for the dictionary
-	IsValid(...IndexType) bool
-}
-
-// converter for getspaced that handles runs that get returned directly
-// as output, rather than using a dictionary
-type plainConverter struct{}
-
-func (plainConverter) IsValid(...IndexType) bool { return true }
-func (plainConverter) Fill(values interface{}, val IndexType) error {
-	v := reflect.ValueOf(values)
-	switch v.Type().Elem().Kind() {
-	case reflect.Int, reflect.Int8, reflect.Int16, reflect.Int32, reflect.Int64:
-		v.Index(0).SetInt(int64(val))
-	case reflect.Uint, reflect.Uint8, reflect.Uint16, reflect.Uint32, reflect.Uint64:
-		v.Index(0).SetUint(uint64(val))
-	}
-
-	for i := 1; i < v.Len(); i *= 2 {
-		reflect.Copy(v.Slice(i, v.Len()), v.Slice(0, i))
-	}
-	return nil
-}
-
-func (plainConverter) FillZero(values interface{}) {
-	v := reflect.ValueOf(values)
-	zeroVal := reflect.New(v.Type().Elem()).Elem()
-
-	v.Index(0).Set(zeroVal)
-	for i := 1; i < v.Len(); i *= 2 {
-		reflect.Copy(v.Slice(i, v.Len()), v.Slice(0, i))
-	}
-}
-
-func (plainConverter) Copy(out interface{}, values []IndexType) error {
-	vout := reflect.ValueOf(out)
-	vin := reflect.ValueOf(values)
-	for i := 0; i < vin.Len(); i++ {
-		vout.Index(i).Set(vin.Index(i).Convert(vout.Type().Elem()))
-	}
-	return nil
-}
diff --git a/go/parquet/internal/utils/physical_types.tmpldata b/go/parquet/internal/utils/physical_types.tmpldata
deleted file mode 100644
index 0adeb9955bf6b..0000000000000
--- a/go/parquet/internal/utils/physical_types.tmpldata
+++ /dev/null
@@ -1,52 +0,0 @@
-[
-  {
-    "Name": "Int32",
-    "name": "int32",
-    "lower": "int32",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "Int64",
-    "name": "int64",
-    "lower": "int64",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "Int96",
-    "name": "parquet.Int96",
-    "lower": "int96",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "Float32",
-    "name": "float32",
-    "lower": "float32",
-    "prefix": "arrow",
-    "physical": "Float"
-  },
-  {
-    "Name": "Float64",
-    "name": "float64",
-    "lower": "float64",
-    "prefix": "arrow",
-    "physical": "Double"
-  },
-  {
-    "Name": "Boolean",
-    "name": "bool",
-    "lower": "bool",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "ByteArray",
-    "name": "parquet.ByteArray",
-    "lower": "byteArray",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "FixedLenByteArray",
-    "name": "parquet.FixedLenByteArray",
-    "lower": "fixedLenByteArray",
-    "prefix": "parquet"
-  }
-]
diff --git a/go/parquet/internal/utils/rle.go b/go/parquet/internal/utils/rle.go
deleted file mode 100644
index bf24a5822341d..0000000000000
--- a/go/parquet/internal/utils/rle.go
+++ /dev/null
@@ -1,594 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package utils contains various internal utilities for the parquet library
-// that aren't intended to be exposed to external consumers such as interfaces
-// and bitmap readers/writers including the RLE encoder/decoder and so on.
-package utils
-
-import (
-	"bytes"
-	"encoding/binary"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-//go:generate go run ../../../arrow/_tools/tmpl/main.go -i -data=physical_types.tmpldata typed_rle_dict.gen.go.tmpl
-
-const (
-	MaxValuesPerLiteralRun = (1 << 6) * 8
-)
-
-func MinRLEBufferSize(bitWidth int) int {
-	maxLiteralRunSize := 1 + bitutil.BytesForBits(int64(MaxValuesPerLiteralRun*bitWidth))
-	maxRepeatedRunSize := binary.MaxVarintLen32 + bitutil.BytesForBits(int64(bitWidth))
-	return int(utils.Max(maxLiteralRunSize, maxRepeatedRunSize))
-}
-
-func MaxRLEBufferSize(width, numValues int) int {
-	bytesPerRun := width
-	numRuns := int(bitutil.BytesForBits(int64(numValues)))
-	literalMaxSize := numRuns + (numRuns * bytesPerRun)
-
-	minRepeatedRunSize := 1 + int(bitutil.BytesForBits(int64(width)))
-	repeatedMaxSize := int(bitutil.BytesForBits(int64(numValues))) * minRepeatedRunSize
-
-	return utils.Max(literalMaxSize, repeatedMaxSize)
-}
-
-// Utility classes to do run length encoding (RLE) for fixed bit width values.  If runs
-// are sufficiently long, RLE is used, otherwise, the values are just bit-packed
-// (literal encoding).
-// For both types of runs, there is a byte-aligned indicator which encodes the length
-// of the run and the type of the run.
-// This encoding has the benefit that when there aren't any long enough runs, values
-// are always decoded at fixed (can be precomputed) bit offsets OR both the value and
-// the run length are byte aligned. This allows for very efficient decoding
-// implementations.
-// The encoding is:
-//    encoded-block := run*
-//    run := literal-run | repeated-run
-//    literal-run := literal-indicator < literal bytes >
-//    repeated-run := repeated-indicator < repeated value. padded to byte boundary >
-//    literal-indicator := varint_encode( number_of_groups << 1 | 1)
-//    repeated-indicator := varint_encode( number_of_repetitions << 1 )
-//
-// Each run is preceded by a varint. The varint's least significant bit is
-// used to indicate whether the run is a literal run or a repeated run. The rest
-// of the varint is used to determine the length of the run (eg how many times the
-// value repeats).
-//
-// In the case of literal runs, the run length is always a multiple of 8 (i.e. encode
-// in groups of 8), so that no matter the bit-width of the value, the sequence will end
-// on a byte boundary without padding.
-// Given that we know it is a multiple of 8, we store the number of 8-groups rather than
-// the actual number of encoded ints. (This means that the total number of encoded values
-// cannot be determined from the encoded data, since the number of values in the last
-// group may not be a multiple of 8). For the last group of literal runs, we pad
-// the group to 8 with zeros. This allows for 8 at a time decoding on the read side
-// without the need for additional checks.
-//
-// There is a break-even point when it is more storage efficient to do run length
-// encoding.  For 1 bit-width values, that point is 8 values.  They require 2 bytes
-// for both the repeated encoding or the literal encoding.  This value can always
-// be computed based on the bit-width.
-//
-// Examples with bit-width 1 (eg encoding booleans):
-// ----------------------------------------
-// 100 1s followed by 100 0s:
-// <varint(100 << 1)> <1, padded to 1 byte> <varint(100 << 1)> <0, padded to 1 byte>
-//  - (total 4 bytes)
-//
-// alternating 1s and 0s (200 total):
-// 200 ints = 25 groups of 8
-// <varint((25 << 1) | 1)> <25 bytes of values, bitpacked>
-// (total 26 bytes, 1 byte overhead)
-//
-
-type RleDecoder struct {
-	r *BitReader
-
-	bitWidth int
-	curVal   uint64
-	repCount int32
-	litCount int32
-}
-
-func NewRleDecoder(data *bytes.Reader, width int) *RleDecoder {
-	return &RleDecoder{r: NewBitReader(data), bitWidth: width}
-}
-
-func (r *RleDecoder) Reset(data *bytes.Reader, width int) {
-	r.bitWidth = width
-	r.curVal = 0
-	r.repCount = 0
-	r.litCount = 0
-	r.r.Reset(data)
-}
-
-func (r *RleDecoder) Next() bool {
-	indicator, ok := r.r.GetVlqInt()
-	if !ok {
-		return false
-	}
-
-	literal := (indicator & 1) != 0
-	count := uint32(indicator >> 1)
-	if literal {
-		if count == 0 || count > uint32(math.MaxInt32/8) {
-			return false
-		}
-		r.litCount = int32(count) * 8
-	} else {
-		if count == 0 || count > uint32(math.MaxInt32) {
-			return false
-		}
-		r.repCount = int32(count)
-
-		nbytes := int(bitutil.BytesForBits(int64(r.bitWidth)))
-		switch {
-		case nbytes > 4:
-			if !r.r.GetAligned(nbytes, &r.curVal) {
-				return false
-			}
-		case nbytes > 2:
-			var val uint32
-			if !r.r.GetAligned(nbytes, &val) {
-				return false
-			}
-			r.curVal = uint64(val)
-		case nbytes > 1:
-			var val uint16
-			if !r.r.GetAligned(nbytes, &val) {
-				return false
-			}
-			r.curVal = uint64(val)
-		default:
-			var val uint8
-			if !r.r.GetAligned(nbytes, &val) {
-				return false
-			}
-			r.curVal = uint64(val)
-		}
-	}
-	return true
-}
-
-func (r *RleDecoder) GetValue() (uint64, bool) {
-	vals := make([]uint64, 1)
-	n := r.GetBatch(vals)
-	return vals[0], n == 1
-}
-
-func (r *RleDecoder) GetBatch(values []uint64) int {
-	read := 0
-	size := len(values)
-
-	out := values
-	for read < size {
-		remain := size - read
-
-		if r.repCount > 0 {
-			repbatch := int(math.Min(float64(remain), float64(r.repCount)))
-			for i := 0; i < repbatch; i++ {
-				out[i] = r.curVal
-			}
-
-			r.repCount -= int32(repbatch)
-			read += repbatch
-			out = out[repbatch:]
-		} else if r.litCount > 0 {
-			litbatch := int(math.Min(float64(remain), float64(r.litCount)))
-			n, _ := r.r.GetBatch(uint(r.bitWidth), out[:litbatch])
-			if n != litbatch {
-				return read
-			}
-
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			out = out[litbatch:]
-		} else {
-			if !r.Next() {
-				return read
-			}
-		}
-	}
-	return read
-}
-
-func (r *RleDecoder) GetBatchSpaced(vals []uint64, nullcount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullcount == 0 {
-		return r.GetBatch(vals), nil
-	}
-
-	converter := plainConverter{}
-	blockCounter := bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-
-	var (
-		totalProcessed int
-		processed      int
-		block          bitutils.BitBlockCount
-		err            error
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		if block.AllSet() {
-			processed = r.GetBatch(vals[:block.Len])
-		} else if block.NoneSet() {
-			converter.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		} else {
-			processed, err = r.getspaced(converter, vals, int(block.Len), int(block.Len-block.Popcnt), validBits, validBitsOffset)
-			if err != nil {
-				return totalProcessed, err
-			}
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return totalProcessed, nil
-}
-
-func (r *RleDecoder) getspaced(dc DictionaryConverter, vals interface{}, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	switch vals := vals.(type) {
-	case []int32:
-		return r.getspacedInt32(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []int64:
-		return r.getspacedInt64(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []float32:
-		return r.getspacedFloat32(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []float64:
-		return r.getspacedFloat64(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []parquet.ByteArray:
-		return r.getspacedByteArray(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []parquet.FixedLenByteArray:
-		return r.getspacedFixedLenByteArray(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []parquet.Int96:
-		return r.getspacedInt96(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	case []uint64:
-		return r.getspacedUint64(dc, vals, batchSize, nullCount, validBits, validBitsOffset)
-	default:
-		return 0, xerrors.New("parquet/rle: getspaced invalid type")
-	}
-}
-
-func (r *RleDecoder) getspacedUint64(dc DictionaryConverter, vals []uint64, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsUint64(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeRepeatCounts(read, batchSize, remain int, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun) {
-	// Consume the entire repeat counts incrementing repeat_batch to
-	// be the total of nulls + values consumed, we only need to
-	// get the total count because we can fill in the same value for
-	// nulls and non-nulls. This proves to be a big efficiency win.
-	repeatBatch := 0
-	for r.repCount > 0 && (read+repeatBatch) < batchSize {
-		if run.Set {
-			updateSize := int(utils.Min(run.Len, int64(r.repCount)))
-			r.repCount -= int32(updateSize)
-			repeatBatch += updateSize
-			run.Len -= int64(updateSize)
-			remain -= updateSize
-		} else {
-			repeatBatch += int(run.Len)
-			run.Len = 0
-		}
-
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	return repeatBatch, remain, run
-}
-
-func (r *RleDecoder) consumeLiteralsUint64(dc DictionaryConverter, vals []uint64, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDict(dc DictionaryConverter, vals interface{}) (int, error) {
-	switch vals := vals.(type) {
-	case []int32:
-		return r.GetBatchWithDictInt32(dc, vals)
-	case []int64:
-		return r.GetBatchWithDictInt64(dc, vals)
-	case []float32:
-		return r.GetBatchWithDictFloat32(dc, vals)
-	case []float64:
-		return r.GetBatchWithDictFloat64(dc, vals)
-	case []parquet.ByteArray:
-		return r.GetBatchWithDictByteArray(dc, vals)
-	case []parquet.FixedLenByteArray:
-		return r.GetBatchWithDictFixedLenByteArray(dc, vals)
-	case []parquet.Int96:
-		return r.GetBatchWithDictInt96(dc, vals)
-	default:
-		return 0, xerrors.New("parquet/rle: GetBatchWithDict invalid type")
-	}
-}
-
-func (r *RleDecoder) GetBatchWithDictSpaced(dc DictionaryConverter, vals interface{}, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	switch vals := vals.(type) {
-	case []int32:
-		return r.GetBatchWithDictSpacedInt32(dc, vals, nullCount, validBits, validBitsOffset)
-	case []int64:
-		return r.GetBatchWithDictSpacedInt64(dc, vals, nullCount, validBits, validBitsOffset)
-	case []float32:
-		return r.GetBatchWithDictSpacedFloat32(dc, vals, nullCount, validBits, validBitsOffset)
-	case []float64:
-		return r.GetBatchWithDictSpacedFloat64(dc, vals, nullCount, validBits, validBitsOffset)
-	case []parquet.ByteArray:
-		return r.GetBatchWithDictSpacedByteArray(dc, vals, nullCount, validBits, validBitsOffset)
-	case []parquet.FixedLenByteArray:
-		return r.GetBatchWithDictSpacedFixedLenByteArray(dc, vals, nullCount, validBits, validBitsOffset)
-	case []parquet.Int96:
-		return r.GetBatchWithDictSpacedInt96(dc, vals, nullCount, validBits, validBitsOffset)
-	default:
-		return 0, xerrors.New("parquet/rle: GetBatchWithDictSpaced invalid type")
-	}
-}
-
-type RleEncoder struct {
-	w *BitWriter
-
-	buffer                 []uint64
-	BitWidth               int
-	curVal                 uint64
-	repCount               int32
-	litCount               int32
-	literalIndicatorOffset int
-
-	indicatorBuffer [1]byte
-}
-
-func NewRleEncoder(w WriterAtWithLen, width int) *RleEncoder {
-	return &RleEncoder{
-		w:                      NewBitWriter(w),
-		buffer:                 make([]uint64, 0, 8),
-		BitWidth:               width,
-		literalIndicatorOffset: -1,
-	}
-}
-
-func (r *RleEncoder) Flush() int {
-	if r.litCount > 0 || r.repCount > 0 || len(r.buffer) > 0 {
-		allRep := r.litCount == 0 && (r.repCount == int32(len(r.buffer)) || len(r.buffer) == 0)
-		if r.repCount > 0 && allRep {
-			r.flushRepeated()
-		} else {
-			// buffer the last group of literals to 8 by padding with 0s
-			for len(r.buffer) != 0 && len(r.buffer) < 8 {
-				r.buffer = append(r.buffer, 0)
-			}
-
-			r.litCount += int32(len(r.buffer))
-			r.flushLiteral(true)
-			r.repCount = 0
-		}
-	}
-	r.w.Flush(false)
-	return r.w.Written()
-}
-
-func (r *RleEncoder) flushBuffered(done bool) (err error) {
-	if r.repCount >= 8 {
-		// clear buffered values. they are part of the repeated run now and we
-		// don't want to flush them as literals
-		r.buffer = r.buffer[:0]
-		if r.litCount != 0 {
-			// there was  current literal run. all values flushed but need to update the indicator
-			err = r.flushLiteral(true)
-		}
-		return
-	}
-
-	r.litCount += int32(len(r.buffer))
-	ngroups := r.litCount / 8
-	if ngroups+1 >= (1 << 6) {
-		// we need to start a new literal run because the indicator byte we've reserved
-		// cannot store any more values
-		err = r.flushLiteral(true)
-	} else {
-		err = r.flushLiteral(done)
-	}
-	r.repCount = 0
-	return
-}
-
-func (r *RleEncoder) flushLiteral(updateIndicator bool) (err error) {
-	if r.literalIndicatorOffset == -1 {
-		r.literalIndicatorOffset, err = r.w.SkipBytes(1)
-		if err != nil {
-			return
-		}
-	}
-
-	for _, val := range r.buffer {
-		if err = r.w.WriteValue(val, uint(r.BitWidth)); err != nil {
-			return
-		}
-	}
-	r.buffer = r.buffer[:0]
-
-	if updateIndicator {
-		// at this point we need to write the indicator byte for the literal run.
-		// we only reserve one byte, to allow for streaming writes of literal values.
-		// the logic makes sure we flush literal runs often enough to not overrun the 1 byte.
-		ngroups := r.litCount / 8
-		r.indicatorBuffer[0] = byte((ngroups << 1) | 1)
-		_, err = r.w.WriteAt(r.indicatorBuffer[:], int64(r.literalIndicatorOffset))
-		r.literalIndicatorOffset = -1
-		r.litCount = 0
-	}
-	return
-}
-
-func (r *RleEncoder) flushRepeated() (ret bool) {
-	indicator := r.repCount << 1
-
-	ret = r.w.WriteVlqInt(uint64(indicator))
-	ret = ret && r.w.WriteAligned(r.curVal, int(bitutil.BytesForBits(int64(r.BitWidth))))
-
-	r.repCount = 0
-	r.buffer = r.buffer[:0]
-	return
-}
-
-// Put buffers input values 8 at a time. after seeing all 8 values,
-// it decides whether they should be encoded as a literal or repeated run.
-func (r *RleEncoder) Put(value uint64) error {
-	if r.curVal == value {
-		r.repCount++
-		if r.repCount > 8 {
-			// this is just a continuation of the current run, no need to buffer the values
-			// NOTE this is the fast path for long repeated runs
-			return nil
-		}
-	} else {
-		if r.repCount >= 8 {
-			if !r.flushRepeated() {
-				return xerrors.New("failed to flush repeated value")
-			}
-		}
-		r.repCount = 1
-		r.curVal = value
-	}
-
-	r.buffer = append(r.buffer, value)
-	if len(r.buffer) == 8 {
-		return r.flushBuffered(false)
-	}
-	return nil
-}
-
-func (r *RleEncoder) Clear() {
-	r.curVal = 0
-	r.repCount = 0
-	r.buffer = r.buffer[:0]
-	r.litCount = 0
-	r.literalIndicatorOffset = -1
-	r.w.Clear()
-}
diff --git a/go/parquet/internal/utils/typed_rle_dict.gen.go b/go/parquet/internal/utils/typed_rle_dict.gen.go
deleted file mode 100644
index 80f76ef12d71a..0000000000000
--- a/go/parquet/internal/utils/typed_rle_dict.gen.go
+++ /dev/null
@@ -1,1377 +0,0 @@
-// Code generated by typed_rle_dict.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-func (r *RleDecoder) GetBatchWithDictSpacedInt32(dc DictionaryConverter, vals []int32, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictInt32(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictInt32(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedInt32(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedInt32(dc DictionaryConverter, vals []int32, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsInt32(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsInt32(dc DictionaryConverter, vals []int32, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictInt32(dc DictionaryConverter, vals []int32) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictSpacedInt64(dc DictionaryConverter, vals []int64, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictInt64(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictInt64(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedInt64(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedInt64(dc DictionaryConverter, vals []int64, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsInt64(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsInt64(dc DictionaryConverter, vals []int64, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictInt64(dc DictionaryConverter, vals []int64) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictSpacedInt96(dc DictionaryConverter, vals []parquet.Int96, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictInt96(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictInt96(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedInt96(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedInt96(dc DictionaryConverter, vals []parquet.Int96, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsInt96(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsInt96(dc DictionaryConverter, vals []parquet.Int96, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictInt96(dc DictionaryConverter, vals []parquet.Int96) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictSpacedFloat32(dc DictionaryConverter, vals []float32, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictFloat32(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictFloat32(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedFloat32(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedFloat32(dc DictionaryConverter, vals []float32, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsFloat32(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsFloat32(dc DictionaryConverter, vals []float32, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictFloat32(dc DictionaryConverter, vals []float32) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictSpacedFloat64(dc DictionaryConverter, vals []float64, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictFloat64(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictFloat64(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedFloat64(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedFloat64(dc DictionaryConverter, vals []float64, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsFloat64(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsFloat64(dc DictionaryConverter, vals []float64, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictFloat64(dc DictionaryConverter, vals []float64) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictSpacedByteArray(dc DictionaryConverter, vals []parquet.ByteArray, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictByteArray(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictByteArray(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedByteArray(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedByteArray(dc DictionaryConverter, vals []parquet.ByteArray, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsByteArray(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsByteArray(dc DictionaryConverter, vals []parquet.ByteArray, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictByteArray(dc DictionaryConverter, vals []parquet.ByteArray) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictSpacedFixedLenByteArray(dc DictionaryConverter, vals []parquet.FixedLenByteArray, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-	if nullCount == 0 {
-		return r.GetBatchWithDictFixedLenByteArray(dc, vals)
-	}
-
-	var (
-		blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-		processed    = 0
-		block        bitutils.BitBlockCount
-	)
-
-	for {
-		block = blockCounter.NextFourWords()
-		if block.Len == 0 {
-			break
-		}
-
-		switch {
-		case block.AllSet():
-			processed, err = r.GetBatchWithDictFixedLenByteArray(dc, vals[:block.Len])
-		case block.NoneSet():
-			dc.FillZero(vals[:block.Len])
-			processed = int(block.Len)
-		default:
-			processed, err = r.getspacedFixedLenByteArray(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-		}
-
-		if err != nil {
-			break
-		}
-
-		totalProcessed += processed
-		vals = vals[int(block.Len):]
-		validBitsOffset += int64(block.Len)
-		if processed != int(block.Len) {
-			break
-		}
-	}
-	return
-}
-
-func (r *RleDecoder) getspacedFixedLenByteArray(dc DictionaryConverter, vals []parquet.FixedLenByteArray, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-	if nullCount == batchSize {
-		dc.FillZero(vals[:batchSize])
-		return batchSize, nil
-	}
-
-	read := 0
-	remain := batchSize - nullCount
-
-	const bufferSize = 1024
-	var indexbuffer [bufferSize]IndexType
-
-	// assume no bits to start
-	bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-	validRun := bitReader.NextRun()
-	for read < batchSize {
-		if validRun.Len == 0 {
-			validRun = bitReader.NextRun()
-		}
-
-		if !validRun.Set {
-			dc.FillZero(vals[:int(validRun.Len)])
-			vals = vals[int(validRun.Len):]
-			read += int(validRun.Len)
-			validRun.Len = 0
-			continue
-		}
-
-		if r.repCount == 0 && r.litCount == 0 {
-			if !r.Next() {
-				return read, nil
-			}
-		}
-
-		var batch int
-		switch {
-		case r.repCount > 0:
-			batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-			current := IndexType(r.curVal)
-			if !dc.IsValid(current) {
-				return read, nil
-			}
-			dc.Fill(vals[:batch], current)
-		case r.litCount > 0:
-			var (
-				litread int
-				skipped int
-				err     error
-			)
-			litread, skipped, validRun, err = r.consumeLiteralsFixedLenByteArray(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-			if err != nil {
-				return read, err
-			}
-			batch = litread + skipped
-			remain -= litread
-		}
-
-		vals = vals[batch:]
-		read += batch
-	}
-	return read, nil
-}
-
-func (r *RleDecoder) consumeLiteralsFixedLenByteArray(dc DictionaryConverter, vals []parquet.FixedLenByteArray, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-	batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDictFixedLenByteArray(dc DictionaryConverter, vals []parquet.FixedLenByteArray) (int, error) {
-	var (
-		read        = 0
-		size        = len(vals)
-		indexbuffer [1024]IndexType
-	)
-
-	for read < size {
-		remain := size - read
-
-		switch {
-		case r.repCount > 0:
-			idx := IndexType(r.curVal)
-			if !dc.IsValid(idx) {
-				return read, nil
-			}
-			batch := utils.Min(remain, int(r.repCount))
-			if err := dc.Fill(vals[:batch], idx); err != nil {
-				return read, err
-			}
-			r.repCount -= int32(batch)
-			read += batch
-			vals = vals[batch:]
-		case r.litCount > 0:
-			litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-			buf := indexbuffer[:litbatch]
-			n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-			if n != litbatch {
-				return read, nil
-			}
-			if !dc.IsValid(buf...) {
-				return read, nil
-			}
-			if err := dc.Copy(vals, buf); err != nil {
-				return read, nil
-			}
-			r.litCount -= int32(litbatch)
-			read += litbatch
-			vals = vals[litbatch:]
-		default:
-			if !r.Next() {
-				return read, nil
-			}
-		}
-	}
-
-	return read, nil
-}
diff --git a/go/parquet/internal/utils/typed_rle_dict.gen.go.tmpl b/go/parquet/internal/utils/typed_rle_dict.gen.go.tmpl
deleted file mode 100644
index 992270d8d8e00..0000000000000
--- a/go/parquet/internal/utils/typed_rle_dict.gen.go.tmpl
+++ /dev/null
@@ -1,220 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import (
-  "github.com/apache/arrow/go/v18/parquet"
-  "github.com/apache/arrow/go/v18/internal/bitutils"
-  "github.com/apache/arrow/go/v18/internal/utils"
-)
-
-{{range .In}}
-{{if ne .Name "Boolean"}}
-func (r *RleDecoder) GetBatchWithDictSpaced{{.Name}}(dc DictionaryConverter, vals []{{.name}}, nullCount int, validBits []byte, validBitsOffset int64) (totalProcessed int, err error) {
-  if nullCount == 0 {
-    return r.GetBatchWithDict{{.Name}}(dc, vals)
-  }
-
-  var (
-    blockCounter = bitutils.NewBitBlockCounter(validBits, validBitsOffset, int64(len(vals)))
-    processed = 0
-    block bitutils.BitBlockCount
-  )
-
-  for {
-    block = blockCounter.NextFourWords()
-    if block.Len == 0 {
-      break
-    }
-
-    switch {
-    case block.AllSet():
-      processed, err = r.GetBatchWithDict{{.Name}}(dc, vals[:block.Len])
-    case block.NoneSet():
-      dc.FillZero(vals[:block.Len])
-      processed = int(block.Len)
-    default:
-      processed, err = r.getspaced{{.Name}}(dc, vals, int(block.Len), int(block.Len)-int(block.Popcnt), validBits, validBitsOffset)
-    }
-
-    if err != nil {
-      break
-    }
-
-    totalProcessed += processed
-    vals = vals[int(block.Len):]
-    validBitsOffset += int64(block.Len)
-    if processed != int(block.Len) {
-      break
-    }
-  }
-  return
-}
-
-func (r *RleDecoder) getspaced{{.Name}}(dc DictionaryConverter, vals []{{.name}}, batchSize, nullCount int, validBits []byte, validBitsOffset int64) (int, error) {
-  if nullCount == batchSize {
-    dc.FillZero(vals[:batchSize])
-    return batchSize, nil
-  }
-
-  read := 0
-  remain := batchSize - nullCount
-
-  const bufferSize = 1024
-  var indexbuffer [bufferSize]IndexType
-
-  // assume no bits to start
-  bitReader := bitutils.NewBitRunReader(validBits, validBitsOffset, int64(batchSize))
-  validRun := bitReader.NextRun()
-  for read < batchSize {
-    if validRun.Len == 0 {
-      validRun = bitReader.NextRun()
-    }
-
-    if !validRun.Set {
-      dc.FillZero(vals[:int(validRun.Len)])
-      vals = vals[int(validRun.Len):]
-      read += int(validRun.Len)
-      validRun.Len = 0
-      continue
-    }
-
-    if r.repCount == 0 && r.litCount == 0 {
-      if !r.Next() {
-        return read, nil
-      }
-    }
-
-    var batch int
-    switch {
-    case r.repCount > 0:
-      batch, remain, validRun = r.consumeRepeatCounts(read, batchSize, remain, validRun, bitReader)
-      current := IndexType(r.curVal)
-      if !dc.IsValid(current) {
-        return read, nil
-      }
-      dc.Fill(vals[:batch], current)
-    case r.litCount > 0:
-      var (
-        litread int
-        skipped int
-        err error
-      )
-      litread, skipped, validRun, err = r.consumeLiterals{{.Name}}(dc, vals, remain, indexbuffer[:], validRun, bitReader)
-    	if err != nil {
-        return read, err
-      }
-      batch = litread + skipped
-      remain -= litread
-    }
-
-    vals = vals[batch:]
-    read += batch
-  }
-  return read, nil
-}
-
-func (r *RleDecoder) consumeLiterals{{.Name}}(dc DictionaryConverter, vals []{{.name}}, remain int, buf []IndexType, run bitutils.BitRun, bitRdr bitutils.BitRunReader) (int, int, bitutils.BitRun, error) {
-  batch := utils.Min(utils.Min(remain, int(r.litCount)), len(buf))
-	buf = buf[:batch]
-
-	n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-	if n != batch {
-		return 0, 0, run, xerrors.New("was not able to retrieve correct number of indexes")
-	}
-
-	if !dc.IsValid(buf...) {
-		return 0, 0, run, xerrors.New("invalid index values found for dictionary converter")
-	}
-
-	var (
-		read    int
-		skipped int
-	)
-	for read < batch {
-		if run.Set {
-			updateSize := utils.Min(batch-read, int(run.Len))
-			if err := dc.Copy(vals, buf[read:read+updateSize]); err != nil {
-				return 0, 0, run, err
-			}
-			read += updateSize
-			vals = vals[updateSize:]
-			run.Len -= int64(updateSize)
-		} else {
-			dc.FillZero(vals[:int(run.Len)])
-			vals = vals[int(run.Len):]
-			skipped += int(run.Len)
-			run.Len = 0
-		}
-		if run.Len == 0 {
-			run = bitRdr.NextRun()
-		}
-	}
-	r.litCount -= int32(batch)
-	return read, skipped, run, nil
-}
-
-func (r *RleDecoder) GetBatchWithDict{{.Name}}(dc DictionaryConverter, vals []{{.name}}) (int, error) {
-  var (
-    read = 0
-    size = len(vals)
-    indexbuffer [1024]IndexType
-  )
-
-  for read < size {
-    remain := size - read
-
-    switch {
-    case r.repCount > 0:
-      idx := IndexType(r.curVal)
-      if !dc.IsValid(idx) {
-        return read, nil
-      }
-      batch := utils.Min(remain, int(r.repCount))
-      if err := dc.Fill(vals[:batch], idx); err != nil {
-        return read, err
-      }
-      r.repCount -= int32(batch)
-      read += batch
-      vals = vals[batch:]
-    case r.litCount > 0:
-      litbatch := utils.Min(utils.Min(remain, int(r.litCount)), 1024)
-      buf := indexbuffer[:litbatch]
-      n, _ := r.r.GetBatchIndex(uint(r.bitWidth), buf)
-      if n != litbatch {
-        return read, nil
-      }
-      if !dc.IsValid(buf...) {
-        return read, nil
-      }
-      if err := dc.Copy(vals, buf); err != nil {
-        return read, nil
-      }
-      r.litCount -= int32(litbatch)
-      read += litbatch
-      vals = vals[litbatch:]
-    default:
-      if !r.Next() {
-        return read, nil
-      }
-    }
-  }
-
-  return read, nil
-}
-{{end}}
-{{end}}
diff --git a/go/parquet/internal/utils/unpack_bool.go b/go/parquet/internal/utils/unpack_bool.go
deleted file mode 100644
index 3ccb0b7bfb7ec..0000000000000
--- a/go/parquet/internal/utils/unpack_bool.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-// pure go implementation of converting a bitmap to a slice of bools
-func bytesToBoolsGo(in []byte, out []bool) {
-	for i, b := range in {
-		for j := 0; j < 8; j++ {
-			out[8*i+j] = (b & (1 << j)) != 0
-		}
-	}
-}
diff --git a/go/parquet/internal/utils/unpack_bool_amd64.go b/go/parquet/internal/utils/unpack_bool_amd64.go
deleted file mode 100644
index 2b2054f3b00b8..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_amd64.go
+++ /dev/null
@@ -1,42 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import "golang.org/x/sys/cpu"
-
-var byteToBoolFunc func([]byte, []bool)
-
-func init() {
-	// if the cpu supports AVX2 or SSE4 then use SIMD to accelerate the conversion
-	// of a bitmap to a slice of bools in an optimized fashion, otherwise fallback
-	// to the pure go implementation
-	if cpu.X86.HasAVX2 {
-		byteToBoolFunc = bytesToBoolsAVX2
-	} else if cpu.X86.HasSSE42 {
-		byteToBoolFunc = bytesToBoolsSSE4
-	} else {
-		byteToBoolFunc = bytesToBoolsGo
-	}
-}
-
-// BytesToBools efficiently populates a slice of booleans from an input bitmap
-func BytesToBools(in []byte, out []bool) {
-	byteToBoolFunc(in, out)
-}
diff --git a/go/parquet/internal/utils/unpack_bool_arm64.go b/go/parquet/internal/utils/unpack_bool_arm64.go
deleted file mode 100644
index 879ffd3c9540d..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_arm64.go
+++ /dev/null
@@ -1,66 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import (
-	"os"
-	"strings"
-
-	"golang.org/x/sys/cpu"
-)
-
-var byteToBoolFunc func([]byte, []bool)
-
-func init() {
-	// Added ability to enable extension via environment:
-	// ARM_ENABLE_EXT=NEON go test
-	if ext, ok := os.LookupEnv("ARM_ENABLE_EXT"); ok {
-		exts := strings.Split(ext, ",")
-
-		for _, x := range exts {
-			switch x {
-			case "NEON":
-				cpu.ARM64.HasASIMD = true
-			case "AES":
-				cpu.ARM64.HasAES = true
-			case "PMULL":
-				cpu.ARM64.HasPMULL = true
-			default:
-				cpu.ARM64.HasASIMD = false
-				cpu.ARM64.HasAES = false
-				cpu.ARM64.HasPMULL = false
-			}
-		}
-	}
-
-	// if the cpu supports Arm64 Neon then use SIMD to accelerate the conversion
-	// of a bitmap to a slice of bools in an optimized fashion, otherwise fallback
-	// to the pure go implementation
-	if cpu.ARM64.HasASIMD {
-		byteToBoolFunc = bytesToBoolsNEON
-	} else {
-		byteToBoolFunc = bytesToBoolsGo
-	}
-}
-
-// BytesToBools efficiently populates a slice of booleans from an input bitmap
-func BytesToBools(in []byte, out []bool) {
-	byteToBoolFunc(in, out)
-}
diff --git a/go/parquet/internal/utils/unpack_bool_avx2_amd64.go b/go/parquet/internal/utils/unpack_bool_avx2_amd64.go
deleted file mode 100644
index cec772a2ccf97..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_avx2_amd64.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import "unsafe"
-
-//go:noescape
-func _bytes_to_bools_avx2(in unsafe.Pointer, len int, out unsafe.Pointer, outlen int)
-
-// use AVX2 to SIMD accelerate the conversion of bitmap to boolean slice
-func bytesToBoolsAVX2(in []byte, out []bool) {
-	_bytes_to_bools_avx2(unsafe.Pointer(&in[0]), len(in), unsafe.Pointer(&out[0]), len(out))
-}
diff --git a/go/parquet/internal/utils/unpack_bool_avx2_amd64.s b/go/parquet/internal/utils/unpack_bool_avx2_amd64.s
deleted file mode 100644
index 459ff78675de8..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_avx2_amd64.s
+++ /dev/null
@@ -1,88 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_bytes_to_bools_avx2(SB), $0-32
-
-	MOVQ in+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ outlen+24(FP), CX
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB0_5
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e0c149         // shl    r8, 3
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	JMP  LBB0_2
-
-LBB0_4:
-	LONG $0x08c28349         // add    r10, 8
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x394d; BYTE $0xd0 // cmp    r8, r10
-	JE   LBB0_5
-
-LBB0_2:
-	WORD $0x3941; BYTE $0xca // cmp    r10d, ecx
-	JGE  LBB0_4
-	WORD $0x8945; BYTE $0xd1 // mov    r9d, r10d
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0x0124             // and    al, 1
-	LONG $0x0a048842         // mov    byte [rdx + r9], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x01ce8348         // or    rsi, 1
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8d0             // shr    al, 1
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x02ce8348         // or    rsi, 2
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x02 // shr    al, 2
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x03ce8348         // or    rsi, 3
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x03 // shr    al, 3
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x04ce8348         // or    rsi, 4
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x04 // shr    al, 4
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x05ce8348         // or    rsi, 5
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x05 // shr    al, 5
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x06ce8348         // or    rsi, 6
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x06 // shr    al, 6
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	LONG $0x07c98349         // or    r9, 7
-	WORD $0x3941; BYTE $0xc9 // cmp    r9d, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x07 // shr    al, 7
-	LONG $0x0a048842         // mov    byte [rdx + r9], al
-	JMP  LBB0_4
-
-LBB0_5:
-	RET
diff --git a/go/parquet/internal/utils/unpack_bool_default.go b/go/parquet/internal/utils/unpack_bool_default.go
deleted file mode 100644
index 6aee1c8d007e0..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_default.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm && !amd64 && !arm64
-// +build !noasm,!amd64,!arm64
-
-package utils
-
-// BytesToBools when built with the noasm tag will direct to the pure go implementation
-// for converting a bitmap to a slice of bools
-func BytesToBools(in []byte, out []bool) {
-	bytesToBoolsGo(in, out)
-}
diff --git a/go/parquet/internal/utils/unpack_bool_neon_arm64.go b/go/parquet/internal/utils/unpack_bool_neon_arm64.go
deleted file mode 100755
index ed46ce29e0309..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_neon_arm64.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import "unsafe"
-
-//go:noescape
-func _bytes_to_bools_neon(in unsafe.Pointer, len int, out unsafe.Pointer, outlen int)
-
-// use SSE4 to SIMD accelerate the conversion of bitmap to boolean slice
-func bytesToBoolsNEON(in []byte, out []bool) {
-	_bytes_to_bools_neon(unsafe.Pointer(&in[0]), len(in), unsafe.Pointer(&out[0]), len(out))
-}
diff --git a/go/parquet/internal/utils/unpack_bool_neon_arm64.s b/go/parquet/internal/utils/unpack_bool_neon_arm64.s
deleted file mode 100755
index 242789599c0c9..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_neon_arm64.s
+++ /dev/null
@@ -1,81 +0,0 @@
-//+build !noasm !appengine
-
-// ARROW-15440
-// (C2GOASM doesn't work correctly for Arm64)
-// Partly GENERATED BY asm2plan9s.
-
-// func _bytes_to_bools_neon(in unsafe.Pointer, len int, out unsafe.Pointer, outlen int)
-TEXT ·_bytes_to_bools_neon(SB), $0-32
-
-    MOVD in+0(FP), R0
-    MOVD len+8(FP), R1
-    MOVD out+16(FP), R2
-    MOVD outlen+24(FP), R3
-
-    WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
-    WORD $0x7100043f // cmp    w1, #1
-    WORD $0x910003fd // mov    x29, sp
-    BLT LBB0_12
-    WORD $0x2a0103e9 // mov    w9, w1
-    WORD $0xaa1f03e8 // mov    x8, xzr
-    WORD $0xd37df129 // lsl    x9, x9, #3
-    WORD $0x528000aa // mov    w10, #5
-    JMP LBB0_3
-LBB0_2:
-    WORD $0x91002108 // add    x8, x8, #8
-    WORD $0xeb08013f // cmp    x9, x8
-    WORD $0x91000400 // add    x0, x0, #1
-    BEQ LBB0_12
-LBB0_3:
-    WORD $0x6b03011f // cmp    w8, w3
-    BGE LBB0_2
-    WORD $0x3940000c // ldrb    w12, [x0]
-    WORD $0x92407d0b // and    x11, x8, #0xffffffff
-    WORD $0xb240016d // orr    x13, x11, #0x1
-    WORD $0x6b0301bf // cmp    w13, w3
-    WORD $0x1200018c // and    w12, w12, #0x1
-    WORD $0x382b684c // strb    w12, [x2, x11]
-    BGE LBB0_2
-    WORD $0x3940000e // ldrb    w14, [x0]
-    WORD $0xb27f016c // orr    x12, x11, #0x2
-    WORD $0x6b03019f // cmp    w12, w3
-    WORD $0x530105ce // ubfx    w14, w14, #1, #1
-    WORD $0x382d684e // strb    w14, [x2, x13]
-    BGE LBB0_2
-    WORD $0x3940000e // ldrb    w14, [x0]
-    WORD $0xb240056d // orr    x13, x11, #0x3
-    WORD $0x6b0301bf // cmp    w13, w3
-    WORD $0x530209ce // ubfx    w14, w14, #2, #1
-    WORD $0x382c684e // strb    w14, [x2, x12]
-    BGE LBB0_2
-    WORD $0x3940000e // ldrb    w14, [x0]
-    WORD $0xb27e016c // orr    x12, x11, #0x4
-    WORD $0x6b03019f // cmp    w12, w3
-    WORD $0x53030dce // ubfx    w14, w14, #3, #1
-    WORD $0x382d684e // strb    w14, [x2, x13]
-    BGE LBB0_2
-    WORD $0x3940000e // ldrb    w14, [x0]
-    WORD $0xaa0a016d // orr    x13, x11, x10
-    WORD $0x6b0301bf // cmp    w13, w3
-    WORD $0x530411ce // ubfx    w14, w14, #4, #1
-    WORD $0x382c684e // strb    w14, [x2, x12]
-    BGE LBB0_2
-    WORD $0x3940000e // ldrb    w14, [x0]
-    WORD $0xb27f056c // orr    x12, x11, #0x6
-    WORD $0x6b03019f // cmp    w12, w3
-    WORD $0x530515ce // ubfx    w14, w14, #5, #1
-    WORD $0x382d684e // strb    w14, [x2, x13]
-    BGE LBB0_2
-    WORD $0x3940000d // ldrb    w13, [x0]
-    WORD $0xb240096b // orr    x11, x11, #0x7
-    WORD $0x6b03017f // cmp    w11, w3
-    WORD $0x530619ad // ubfx    w13, w13, #6, #1
-    WORD $0x382c684d // strb    w13, [x2, x12]
-    BGE LBB0_2
-    WORD $0x3940000c // ldrb    w12, [x0]
-    WORD $0x53077d8c // lsr    w12, w12, #7
-    WORD $0x382b684c // strb    w12, [x2, x11]
-    JMP LBB0_2
-LBB0_12:
-    WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
-    RET
diff --git a/go/parquet/internal/utils/unpack_bool_noasm.go b/go/parquet/internal/utils/unpack_bool_noasm.go
deleted file mode 100644
index eba20fa9c0f56..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_noasm.go
+++ /dev/null
@@ -1,26 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build noasm
-// +build noasm
-
-package utils
-
-// BytesToBools when built with the noasm tag will direct to the pure go implementation
-// for converting a bitmap to a slice of bools
-func BytesToBools(in []byte, out []bool) {
-	bytesToBoolsGo(in, out)
-}
diff --git a/go/parquet/internal/utils/unpack_bool_sse4_amd64.go b/go/parquet/internal/utils/unpack_bool_sse4_amd64.go
deleted file mode 100644
index d00c37474e61c..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_sse4_amd64.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !noasm
-// +build !noasm
-
-package utils
-
-import "unsafe"
-
-//go:noescape
-func _bytes_to_bools_sse4(in unsafe.Pointer, len int, out unsafe.Pointer, outlen int)
-
-// use SSE4 to SIMD accelerate the conversion of bitmap to boolean slice
-func bytesToBoolsSSE4(in []byte, out []bool) {
-	_bytes_to_bools_sse4(unsafe.Pointer(&in[0]), len(in), unsafe.Pointer(&out[0]), len(out))
-}
diff --git a/go/parquet/internal/utils/unpack_bool_sse4_amd64.s b/go/parquet/internal/utils/unpack_bool_sse4_amd64.s
deleted file mode 100644
index ac8acb9f4d24e..0000000000000
--- a/go/parquet/internal/utils/unpack_bool_sse4_amd64.s
+++ /dev/null
@@ -1,88 +0,0 @@
-//+build !noasm !appengine
-// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
-
-TEXT ·_bytes_to_bools_sse4(SB), $0-32
-
-	MOVQ in+0(FP), DI
-	MOVQ len+8(FP), SI
-	MOVQ out+16(FP), DX
-	MOVQ outlen+24(FP), CX
-
-	WORD $0xf685             // test    esi, esi
-	JLE  LBB0_5
-	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
-	LONG $0x03e0c149         // shl    r8, 3
-	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
-	JMP  LBB0_2
-
-LBB0_4:
-	LONG $0x08c28349         // add    r10, 8
-	LONG $0x01c78348         // add    rdi, 1
-	WORD $0x394d; BYTE $0xd0 // cmp    r8, r10
-	JE   LBB0_5
-
-LBB0_2:
-	WORD $0x3941; BYTE $0xca // cmp    r10d, ecx
-	JGE  LBB0_4
-	WORD $0x8945; BYTE $0xd1 // mov    r9d, r10d
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0x0124             // and    al, 1
-	LONG $0x0a048842         // mov    byte [rdx + r9], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x01ce8348         // or    rsi, 1
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8d0             // shr    al, 1
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x02ce8348         // or    rsi, 2
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x02 // shr    al, 2
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x03ce8348         // or    rsi, 3
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x03 // shr    al, 3
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x04ce8348         // or    rsi, 4
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x04 // shr    al, 4
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x05ce8348         // or    rsi, 5
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x05 // shr    al, 5
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	WORD $0x894c; BYTE $0xce // mov    rsi, r9
-	LONG $0x06ce8348         // or    rsi, 6
-	WORD $0xce39             // cmp    esi, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x06 // shr    al, 6
-	WORD $0x0124             // and    al, 1
-	WORD $0x0488; BYTE $0x32 // mov    byte [rdx + rsi], al
-	LONG $0x07c98349         // or    r9, 7
-	WORD $0x3941; BYTE $0xc9 // cmp    r9d, ecx
-	JGE  LBB0_4
-	WORD $0xb60f; BYTE $0x07 // movzx    eax, byte [rdi]
-	WORD $0xe8c0; BYTE $0x07 // shr    al, 7
-	LONG $0x0a048842         // mov    byte [rdx + r9], al
-	JMP  LBB0_4
-
-LBB0_5:
-	RET
diff --git a/go/parquet/internal/utils/write_utils.go b/go/parquet/internal/utils/write_utils.go
deleted file mode 100644
index 28662c647e73f..0000000000000
--- a/go/parquet/internal/utils/write_utils.go
+++ /dev/null
@@ -1,57 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package utils
-
-import "io"
-
-// WriterTell is an interface that adds a Tell function to an io.Writer
-type WriterTell interface {
-	io.Writer
-	Tell() int64
-}
-
-// WriteCloserTell is an interface adding a Tell function to a WriteCloser
-// so if the underlying writer has a Close function, it is exposed and not
-// hidden.
-type WriteCloserTell interface {
-	io.WriteCloser
-	Tell() int64
-}
-
-// TellWrapper wraps any io.Writer to add a Tell function that tracks
-// the position based on calls to Write. It does not take into account
-// any calls to Seek or any Writes that don't go through the TellWrapper
-type TellWrapper struct {
-	io.Writer
-	pos int64
-}
-
-// Close makes TellWrapper an io.Closer so that calling Close
-// will also call Close on the wrapped writer if it has a Close function.
-func (w *TellWrapper) Close() error {
-	if closer, ok := w.Writer.(io.WriteCloser); ok {
-		return closer.Close()
-	}
-	return nil
-}
-
-func (w *TellWrapper) Tell() int64 { return w.pos }
-func (w *TellWrapper) Write(p []byte) (n int, err error) {
-	n, err = w.Writer.Write(p)
-	w.pos += int64(n)
-	return
-}
diff --git a/go/parquet/metadata/app_version.go b/go/parquet/metadata/app_version.go
deleted file mode 100644
index 345e9d440a1ca..0000000000000
--- a/go/parquet/metadata/app_version.go
+++ /dev/null
@@ -1,185 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"regexp"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-var (
-	// Regular expression for the version format
-	// major . minor . patch unknown - prerelease.x + build info
-	// Eg: 1.5.0ab-cdh5.5.0+cd
-	versionRx = regexp.MustCompile(`^(\d+)\.(\d+)\.(\d+)([^-+]*)?(?:-([^+]*))?(?:\+(.*))?$`)
-	// Regular expression for the application format
-	// application_name version VERSION_FORMAT (build build_name)
-	// Eg: parquet-cpp version 1.5.0ab-xyz5.5.0+cd (build abcd)
-	applicationRx = regexp.MustCompile(`^(.*?)\s*(?:(version\s*(?:([^(]*?)\s*(?:\(\s*build\s*([^)]*?)\s*\))?)?)?)$`)
-
-	// Parquet816FixedVersion is the version used for fixing PARQUET-816
-	// that changed the padding calculations for dictionary headers on row groups.
-	Parquet816FixedVersion      = NewAppVersionExplicit("parquet-mr", 1, 2, 9)
-	parquet251FixedVersion      = NewAppVersionExplicit("parquet-mr", 1, 8, 0)
-	parquetCPPFixedStatsVersion = NewAppVersionExplicit("parquet-cpp", 1, 3, 0)
-	parquetMRFixedStatsVersion  = NewAppVersionExplicit("parquet-mr", 1, 10, 0)
-	// parquet1655FixedVersion is the version used for fixing PARQUET-1655
-	// which fixed min/max stats comparisons for Decimal types
-	parquet1655FixedVersion = NewAppVersionExplicit("parquet-cpp-arrow", 4, 0, 0)
-)
-
-// AppVersion represents a specific application version either read from
-// or written to a parquet file.
-type AppVersion struct {
-	App     string
-	Build   string
-	Version struct {
-		Major      int
-		Minor      int
-		Patch      int
-		Unknown    string
-		PreRelease string
-		BuildInfo  string
-	}
-}
-
-// NewAppVersionExplicit is a convenience function to construct a specific
-// application version from the given app string and version
-func NewAppVersionExplicit(app string, major, minor, patch int) *AppVersion {
-	v := &AppVersion{App: app}
-	v.Version.Major = major
-	v.Version.Minor = minor
-	v.Version.Patch = patch
-	return v
-}
-
-// NewAppVersion parses a "created by" string such as "parquet-go 1.0.0".
-//
-// It also supports handling pre-releases and build info such as
-//
-//	parquet-cpp version 1.5.0ab-xyz5.5.0+cd (build abcd)
-func NewAppVersion(createdby string) *AppVersion {
-	v := &AppVersion{}
-
-	var ver []string
-
-	m := applicationRx.FindStringSubmatch(strings.ToLower(createdby))
-	if len(m) >= 4 {
-		v.App = m[1]
-		v.Build = m[4]
-		ver = versionRx.FindStringSubmatch(m[3])
-	} else {
-		v.App = "unknown"
-	}
-
-	if len(ver) >= 7 {
-		v.Version.Major, _ = strconv.Atoi(ver[1])
-		v.Version.Minor, _ = strconv.Atoi(ver[2])
-		v.Version.Patch, _ = strconv.Atoi(ver[3])
-		v.Version.Unknown = ver[4]
-		v.Version.PreRelease = ver[5]
-		v.Version.BuildInfo = ver[6]
-	}
-	return v
-}
-
-// LessThan compares the app versions and returns true if this version
-// is "less than" the passed version.
-//
-// If the apps don't match, this always returns false. Otherwise it compares
-// the major versions first, then the minor versions, and finally the patch
-// versions.
-//
-// Pre-release and build info are not considered.
-func (v AppVersion) LessThan(other *AppVersion) bool {
-	switch {
-	case v.App != other.App:
-		return false
-	case v.Version.Major < other.Version.Major:
-		return true
-	case v.Version.Major > other.Version.Major:
-		return false
-	case v.Version.Minor < other.Version.Minor:
-		return true
-	case v.Version.Minor > other.Version.Minor:
-		return false
-	}
-
-	return v.Version.Patch < other.Version.Patch
-}
-
-// Equal only compares the Application and major/minor/patch versions.
-//
-// Pre-release and build info are not considered.
-func (v AppVersion) Equal(other *AppVersion) bool {
-	return v.App == other.App &&
-		v.Version.Major == other.Version.Major &&
-		v.Version.Minor == other.Version.Minor &&
-		v.Version.Patch == other.Version.Patch
-}
-
-// HasCorrectStatistics checks whether or not the statistics are valid to be used
-// based on the primitive type and the version since previous versions had issues with
-// properly computing stats.
-//
-// Reference: parquet-cpp/src/parquet/metadata.cc
-//
-// PARQUET-686 has more discussion on statistics
-func (v AppVersion) HasCorrectStatistics(coltype parquet.Type, logicalType schema.LogicalType, stats EncodedStatistics, sort schema.SortOrder) bool {
-	// parquet-cpp version 1.3.0 and parquet-mr 1.10.0 onwards stats are computed correctly for all types except decimal
-	if (v.App == "parquet-cpp" && v.LessThan(parquetCPPFixedStatsVersion)) ||
-		(v.App == "parquet-mr" && v.LessThan(parquetMRFixedStatsVersion)) {
-		// only SIGNED are valid unless max and min are the same (in which case the sort order doesn't matter)
-		var maxEqualsMin bool
-		if stats.HasMin && stats.HasMax {
-			maxEqualsMin = string(stats.Min) == string(stats.Max)
-		}
-		if sort != schema.SortSIGNED && !maxEqualsMin {
-			return false
-		}
-
-		if coltype != parquet.Types.FixedLenByteArray && coltype != parquet.Types.ByteArray {
-			return true
-		}
-	}
-
-	// parquet-cpp-arrow version 4.0.0 fixed Decimal comparisons for creating min/max stats
-	// parquet-cpp also becomes parquet-cpp-arrow as of version 4.0.0
-	if v.App == "parquet-cpp" || (v.App == "parquet-cpp-arrow" && v.LessThan(parquet1655FixedVersion)) {
-		if _, ok := logicalType.(schema.DecimalLogicalType); ok && coltype == parquet.Types.FixedLenByteArray {
-			return false
-		}
-	}
-
-	// created_by is not populated, which could have been caused by
-	// parquet-mr during the same time as PARQUET-251, see PARQUET-297
-	if v.App == "unknown" {
-		return true
-	}
-
-	// unknown sort order has incorrect stats
-	if sort == schema.SortUNKNOWN {
-		return false
-	}
-
-	// PARQUET-251
-	return !v.LessThan(parquet251FixedVersion)
-}
diff --git a/go/parquet/metadata/column_chunk.go b/go/parquet/metadata/column_chunk.go
deleted file mode 100644
index a05b3c9124154..0000000000000
--- a/go/parquet/metadata/column_chunk.go
+++ /dev/null
@@ -1,423 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"bytes"
-	"context"
-	"io"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-// PageEncodingStats is used for counting the number of pages of specific
-// types with the given internal encoding.
-type PageEncodingStats struct {
-	Encoding parquet.Encoding
-	PageType format.PageType
-}
-
-type statvalues struct {
-	*format.Statistics
-}
-
-func (s *statvalues) GetMin() []byte { return s.GetMinValue() }
-func (s *statvalues) GetMax() []byte { return s.GetMaxValue() }
-func (s *statvalues) IsSetMin() bool { return s.IsSetMinValue() }
-func (s *statvalues) IsSetMax() bool { return s.IsSetMaxValue() }
-
-func makeColumnStats(metadata *format.ColumnMetaData, descr *schema.Column, mem memory.Allocator) TypedStatistics {
-	if descr.ColumnOrder() == parquet.ColumnOrders.TypeDefinedOrder {
-		return NewStatisticsFromEncoded(descr, mem,
-			metadata.NumValues-metadata.Statistics.GetNullCount(),
-			&statvalues{metadata.Statistics})
-	}
-	return NewStatisticsFromEncoded(descr, mem,
-		metadata.NumValues-metadata.Statistics.GetNullCount(),
-		metadata.Statistics)
-}
-
-// ColumnChunkMetaData is a proxy around format.ColumnChunkMetaData
-// containing all of the information and metadata for a given column chunk
-// and it's associated Column
-type ColumnChunkMetaData struct {
-	column        *format.ColumnChunk
-	columnMeta    *format.ColumnMetaData
-	decryptedMeta format.ColumnMetaData
-	descr         *schema.Column
-	writerVersion *AppVersion
-	encodings     []parquet.Encoding
-	encodingStats []format.PageEncodingStats
-	possibleStats TypedStatistics
-	mem           memory.Allocator
-}
-
-// NewColumnChunkMetaData creates an instance of the metadata from a column chunk and descriptor
-//
-// this is primarily used internally or between the subpackages. ColumnChunkMetaDataBuilder should
-// be used by consumers instead of using this directly.
-func NewColumnChunkMetaData(column *format.ColumnChunk, descr *schema.Column, writerVersion *AppVersion, rowGroupOrdinal, columnOrdinal int16, fileDecryptor encryption.FileDecryptor) (*ColumnChunkMetaData, error) {
-	c := &ColumnChunkMetaData{
-		column:        column,
-		columnMeta:    column.GetMetaData(),
-		descr:         descr,
-		writerVersion: writerVersion,
-		mem:           memory.DefaultAllocator,
-	}
-	if column.IsSetCryptoMetadata() {
-		ccmd := column.CryptoMetadata
-
-		if ccmd.IsSetENCRYPTION_WITH_COLUMN_KEY() {
-			if fileDecryptor != nil && fileDecryptor.Properties() != nil {
-				// should decrypt metadata
-				path := parquet.ColumnPath(ccmd.ENCRYPTION_WITH_COLUMN_KEY.GetPathInSchema())
-				keyMetadata := ccmd.ENCRYPTION_WITH_COLUMN_KEY.GetKeyMetadata()
-				aadColumnMetadata := encryption.CreateModuleAad(fileDecryptor.FileAad(), encryption.ColumnMetaModule, rowGroupOrdinal, columnOrdinal, -1)
-				decryptor := fileDecryptor.GetColumnMetaDecryptor(path.String(), string(keyMetadata), aadColumnMetadata)
-				thrift.DeserializeThrift(&c.decryptedMeta, decryptor.Decrypt(column.GetEncryptedColumnMetadata()))
-				c.columnMeta = &c.decryptedMeta
-			} else {
-				return nil, xerrors.New("cannot decrypt column metadata. file decryption not setup correctly")
-			}
-		}
-	}
-	for _, enc := range c.columnMeta.Encodings {
-		c.encodings = append(c.encodings, parquet.Encoding(enc))
-	}
-	for _, enc := range c.columnMeta.EncodingStats {
-		c.encodingStats = append(c.encodingStats, *enc)
-	}
-	return c, nil
-}
-
-// CryptoMetadata returns the cryptographic metadata for how this column was
-// encrypted and how to decrypt it.
-func (c *ColumnChunkMetaData) CryptoMetadata() *format.ColumnCryptoMetaData {
-	return c.column.GetCryptoMetadata()
-}
-
-// FileOffset is the location in the file where the column data begins
-func (c *ColumnChunkMetaData) FileOffset() int64 { return c.column.FileOffset }
-
-// FilePath gives the name of the parquet file if provided in the metadata
-func (c *ColumnChunkMetaData) FilePath() string { return c.column.GetFilePath() }
-
-// Type is the physical storage type used in the parquet file for this column chunk.
-func (c *ColumnChunkMetaData) Type() parquet.Type { return parquet.Type(c.columnMeta.Type) }
-
-// NumValues is the number of values stored in just this chunk including nulls.
-func (c *ColumnChunkMetaData) NumValues() int64 { return c.columnMeta.NumValues }
-
-// PathInSchema is the full path to this column from the root of the schema including
-// any nested columns
-func (c *ColumnChunkMetaData) PathInSchema() parquet.ColumnPath {
-	return c.columnMeta.GetPathInSchema()
-}
-
-// Compression provides the type of compression used for this particular chunk.
-func (c *ColumnChunkMetaData) Compression() compress.Compression {
-	return compress.Compression(c.columnMeta.Codec)
-}
-
-// Encodings returns the list of different encodings used in this chunk
-func (c *ColumnChunkMetaData) Encodings() []parquet.Encoding { return c.encodings }
-
-// EncodingStats connects the order of encodings based on the list of pages and types
-func (c *ColumnChunkMetaData) EncodingStats() []PageEncodingStats {
-	ret := make([]PageEncodingStats, len(c.encodingStats))
-	for idx := range ret {
-		ret[idx].Encoding = parquet.Encoding(c.encodingStats[idx].Encoding)
-		ret[idx].PageType = c.encodingStats[idx].PageType
-	}
-	return ret
-}
-
-// HasDictionaryPage returns true if there is a dictionary page offset set in
-// this metadata.
-func (c *ColumnChunkMetaData) HasDictionaryPage() bool {
-	return c.columnMeta.IsSetDictionaryPageOffset()
-}
-
-// DictionaryPageOffset returns the location in the file where the dictionary page starts
-func (c *ColumnChunkMetaData) DictionaryPageOffset() int64 {
-	return c.columnMeta.GetDictionaryPageOffset()
-}
-
-// DataPageOffset returns the location in the file where the data pages begin for this column
-func (c *ColumnChunkMetaData) DataPageOffset() int64 { return c.columnMeta.GetDataPageOffset() }
-
-// HasIndexPage returns true if the offset for the index page is set in the metadata
-func (c *ColumnChunkMetaData) HasIndexPage() bool { return c.columnMeta.IsSetIndexPageOffset() }
-
-// IndexPageOffset is the location in the file where the index page starts.
-func (c *ColumnChunkMetaData) IndexPageOffset() int64 { return c.columnMeta.GetIndexPageOffset() }
-
-// TotalCompressedSize will be equal to TotalUncompressedSize if the data is not compressed.
-// Otherwise this will be the size of the actual data in the file.
-func (c *ColumnChunkMetaData) TotalCompressedSize() int64 {
-	return c.columnMeta.GetTotalCompressedSize()
-}
-
-// TotalUncompressedSize is the total size of the raw data after uncompressing the chunk
-func (c *ColumnChunkMetaData) TotalUncompressedSize() int64 {
-	return c.columnMeta.GetTotalUncompressedSize()
-}
-
-// BloomFilterOffset is the byte offset from the beginning of the file to the bloom
-// filter data.
-func (c *ColumnChunkMetaData) BloomFilterOffset() int64 {
-	return c.columnMeta.GetBloomFilterOffset()
-}
-
-// StatsSet returns true only if there are statistics set in the metadata and the column
-// descriptor has a sort order that is not SortUnknown
-//
-// It also checks the writer version to ensure that it was not written by a version
-// of parquet which is known to have incorrect stat computations.
-func (c *ColumnChunkMetaData) StatsSet() (bool, error) {
-	if !c.columnMeta.IsSetStatistics() || c.descr.SortOrder() == schema.SortUNKNOWN {
-		return false, nil
-	}
-
-	if c.possibleStats == nil {
-		c.possibleStats = makeColumnStats(c.columnMeta, c.descr, c.mem)
-	}
-
-	encoded, err := c.possibleStats.Encode()
-	if err != nil {
-		return false, err
-	}
-
-	return c.writerVersion.HasCorrectStatistics(c.Type(), c.descr.LogicalType(), encoded, c.descr.SortOrder()), nil
-}
-
-func (c *ColumnChunkMetaData) Equals(other *ColumnChunkMetaData) bool {
-	return reflect.DeepEqual(c.columnMeta, other.columnMeta)
-}
-
-// Statistics can return nil if there are no stats in this metadata
-func (c *ColumnChunkMetaData) Statistics() (TypedStatistics, error) {
-	ok, err := c.StatsSet()
-	if err != nil {
-		return nil, err
-	}
-
-	if ok {
-		return c.possibleStats, nil
-	}
-	return nil, nil
-}
-
-// ColumnChunkMetaDataBuilder is used during writing to construct metadata
-// for a given column chunk while writing, providing a proxy around constructing
-// the actual thrift object.
-type ColumnChunkMetaDataBuilder struct {
-	chunk  *format.ColumnChunk
-	props  *parquet.WriterProperties
-	column *schema.Column
-
-	compressedSize int64
-}
-
-func NewColumnChunkMetaDataBuilder(props *parquet.WriterProperties, column *schema.Column) *ColumnChunkMetaDataBuilder {
-	return NewColumnChunkMetaDataBuilderWithContents(props, column, format.NewColumnChunk())
-}
-
-// NewColumnChunkMetaDataBuilderWithContents will construct a builder and start it with the provided
-// column chunk information rather than with an empty column chunk.
-func NewColumnChunkMetaDataBuilderWithContents(props *parquet.WriterProperties, column *schema.Column, chunk *format.ColumnChunk) *ColumnChunkMetaDataBuilder {
-	b := &ColumnChunkMetaDataBuilder{
-		props:  props,
-		column: column,
-		chunk:  chunk,
-	}
-	b.init(chunk)
-	return b
-}
-
-// Contents returns the underlying thrift ColumnChunk object so that it can be used
-// for constructing or duplicating column metadata
-func (c *ColumnChunkMetaDataBuilder) Contents() *format.ColumnChunk { return c.chunk }
-
-func (c *ColumnChunkMetaDataBuilder) init(chunk *format.ColumnChunk) {
-	c.chunk = chunk
-	if !c.chunk.IsSetMetaData() {
-		c.chunk.MetaData = format.NewColumnMetaData()
-	}
-	c.chunk.MetaData.Type = format.Type(c.column.PhysicalType())
-	c.chunk.MetaData.PathInSchema = schema.ColumnPathFromNode(c.column.SchemaNode())
-	c.chunk.MetaData.Codec = format.CompressionCodec(c.props.CompressionFor(c.column.Path()))
-}
-
-func (c *ColumnChunkMetaDataBuilder) SetFilePath(val string) {
-	c.chunk.FilePath = &val
-}
-
-// Descr returns the associated column descriptor for this column chunk
-func (c *ColumnChunkMetaDataBuilder) Descr() *schema.Column { return c.column }
-
-func (c *ColumnChunkMetaDataBuilder) TotalCompressedSize() int64 {
-	// if this column is encrypted, after Finish is called, the MetaData
-	// field is set to nil and we store the compressed size so return that
-	if c.chunk.MetaData == nil {
-		return c.compressedSize
-	}
-	return c.chunk.MetaData.GetTotalCompressedSize()
-}
-
-func (c *ColumnChunkMetaDataBuilder) SetStats(val EncodedStatistics) {
-	c.chunk.MetaData.Statistics = val.ToThrift()
-}
-
-// ChunkMetaInfo is a helper struct for passing the offset and size information
-// for finishing the building of column chunk metadata
-type ChunkMetaInfo struct {
-	NumValues        int64
-	DictPageOffset   int64
-	IndexPageOffset  int64
-	DataPageOffset   int64
-	CompressedSize   int64
-	UncompressedSize int64
-}
-
-// EncodingStats is a helper struct for passing the encoding stat information
-// for finishing up metadata for a column chunk.
-type EncodingStats struct {
-	DictEncodingStats map[parquet.Encoding]int32
-	DataEncodingStats map[parquet.Encoding]int32
-}
-
-// Finish finalizes the metadata with the given offsets,
-// flushes any compression that needs to be done, and performs
-// any encryption if an encryptor is provided.
-func (c *ColumnChunkMetaDataBuilder) Finish(info ChunkMetaInfo, hasDict, dictFallback bool, encStats EncodingStats, metaEncryptor encryption.Encryptor) error {
-	if info.DictPageOffset > 0 {
-		c.chunk.MetaData.DictionaryPageOffset = &info.DictPageOffset
-		c.chunk.FileOffset = info.DictPageOffset + info.CompressedSize
-	} else {
-		c.chunk.FileOffset = info.DataPageOffset + info.CompressedSize
-	}
-
-	c.chunk.MetaData.NumValues = info.NumValues
-	if info.IndexPageOffset >= 0 {
-		c.chunk.MetaData.IndexPageOffset = &info.IndexPageOffset
-	}
-
-	c.chunk.MetaData.DataPageOffset = info.DataPageOffset
-	c.chunk.MetaData.TotalUncompressedSize = info.UncompressedSize
-	c.chunk.MetaData.TotalCompressedSize = info.CompressedSize
-
-	// no matter the configuration, the maximum number of thrift encodings we'll
-	// populate is going to be 3:
-	// 	1. potential dictionary index encoding
-	//	2. page encoding
-	//	3. RLE for repetition and definition levels
-	// so let's preallocate a capacity of 3 but initialize the slice at 0 len
-	const maxEncodings = 3
-
-	thriftEncodings := make([]format.Encoding, 0, maxEncodings)
-	if hasDict {
-		thriftEncodings = append(thriftEncodings, format.Encoding(c.props.DictionaryIndexEncoding()))
-		if c.props.Version() == parquet.V1_0 {
-			thriftEncodings = append(thriftEncodings, format.Encoding_PLAIN)
-		} else {
-			thriftEncodings = append(thriftEncodings, format.Encoding(c.props.DictionaryPageEncoding()))
-		}
-	} else { // no dictionary
-		thriftEncodings = append(thriftEncodings, format.Encoding(c.props.EncodingFor(c.column.Path())))
-	}
-
-	thriftEncodings = append(thriftEncodings, format.Encoding(parquet.Encodings.RLE))
-	// Only PLAIN encoding is supported for fallback in V1
-	// TODO(zeroshade): Use user specified encoding for V2
-	if dictFallback {
-		thriftEncodings = append(thriftEncodings, format.Encoding_PLAIN)
-	}
-	c.chunk.MetaData.Encodings = thriftEncodings
-
-	thriftEncodingStats := make([]*format.PageEncodingStats, 0, len(encStats.DictEncodingStats)+len(encStats.DataEncodingStats))
-	for k, v := range encStats.DictEncodingStats {
-		thriftEncodingStats = append(thriftEncodingStats, &format.PageEncodingStats{
-			PageType: format.PageType_DICTIONARY_PAGE,
-			Encoding: format.Encoding(k),
-			Count:    v,
-		})
-	}
-	for k, v := range encStats.DataEncodingStats {
-		thriftEncodingStats = append(thriftEncodingStats, &format.PageEncodingStats{
-			PageType: format.PageType_DATA_PAGE,
-			Encoding: format.Encoding(k),
-			Count:    v,
-		})
-	}
-	c.chunk.MetaData.EncodingStats = thriftEncodingStats
-
-	encryptProps := c.props.ColumnEncryptionProperties(c.column.Path())
-	if encryptProps != nil && encryptProps.IsEncrypted() {
-		ccmd := format.NewColumnCryptoMetaData()
-		if encryptProps.IsEncryptedWithFooterKey() {
-			ccmd.ENCRYPTION_WITH_FOOTER_KEY = format.NewEncryptionWithFooterKey()
-		} else {
-			ccmd.ENCRYPTION_WITH_COLUMN_KEY = &format.EncryptionWithColumnKey{
-				KeyMetadata:  []byte(encryptProps.KeyMetadata()),
-				PathInSchema: c.column.ColumnPath(),
-			}
-		}
-		c.chunk.CryptoMetadata = ccmd
-
-		encryptedFooter := c.props.FileEncryptionProperties().EncryptedFooter()
-		encryptMetadata := !encryptedFooter || !encryptProps.IsEncryptedWithFooterKey()
-		if encryptMetadata {
-			// Serialize and encrypt ColumnMetadata separately
-			// Thrift-serialize the ColumnMetaData structure,
-			// encrypt it with the column key, and write to encrypted_column_metadata
-			serializer := thrift.NewThriftSerializer()
-			data, err := serializer.Write(context.Background(), c.chunk.MetaData)
-			if err != nil {
-				return err
-			}
-			var buf bytes.Buffer
-			metaEncryptor.Encrypt(&buf, data)
-			c.chunk.EncryptedColumnMetadata = buf.Bytes()
-
-			if encryptedFooter {
-				c.compressedSize = c.chunk.MetaData.GetTotalCompressedSize()
-				c.chunk.MetaData = nil
-			} else {
-				// Keep redacted metadata version for old readers
-				c.chunk.MetaData.Statistics = nil
-				c.chunk.MetaData.EncodingStats = nil
-			}
-		}
-	}
-	return nil
-}
-
-// WriteTo will always return 0 as the int64 since the thrift writer library
-// does not return the number of bytes written, we only use the signature
-// of (int64, error) in order to match the standard WriteTo interfaces.
-func (c *ColumnChunkMetaDataBuilder) WriteTo(w io.Writer) (int64, error) {
-	return 0, thrift.SerializeThriftStream(c.chunk, w)
-}
diff --git a/go/parquet/metadata/file.go b/go/parquet/metadata/file.go
deleted file mode 100644
index 2f7fe53303c3f..0000000000000
--- a/go/parquet/metadata/file.go
+++ /dev/null
@@ -1,527 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"bytes"
-	"context"
-	"fmt"
-	"io"
-	"reflect"
-	"unicode/utf8"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-// DefaultCompressionType is used unless a different compression is specified
-// in the properties
-var DefaultCompressionType = compress.Codecs.Uncompressed
-
-// FileMetaDataBuilder is a proxy for more easily constructing file metadata
-// particularly used when writing a file out.
-type FileMetaDataBuilder struct {
-	metadata       *format.FileMetaData
-	props          *parquet.WriterProperties
-	schema         *schema.Schema
-	rowGroups      []*format.RowGroup
-	currentRgBldr  *RowGroupMetaDataBuilder
-	kvmeta         KeyValueMetadata
-	cryptoMetadata *format.FileCryptoMetaData
-}
-
-// NewFileMetadataBuilder will use the default writer properties if nil is passed for
-// the writer properties and nil is allowable for the key value metadata.
-func NewFileMetadataBuilder(schema *schema.Schema, props *parquet.WriterProperties, kvmeta KeyValueMetadata) *FileMetaDataBuilder {
-	var crypto *format.FileCryptoMetaData
-	if props.FileEncryptionProperties() != nil && props.FileEncryptionProperties().EncryptedFooter() {
-		crypto = format.NewFileCryptoMetaData()
-	}
-	return &FileMetaDataBuilder{
-		metadata:       format.NewFileMetaData(),
-		props:          props,
-		schema:         schema,
-		kvmeta:         kvmeta,
-		cryptoMetadata: crypto,
-	}
-}
-
-// GetFileCryptoMetaData returns the cryptographic information for encrypting/
-// decrypting the file.
-func (f *FileMetaDataBuilder) GetFileCryptoMetaData() *FileCryptoMetadata {
-	if f.cryptoMetadata == nil {
-		return nil
-	}
-
-	props := f.props.FileEncryptionProperties()
-	f.cryptoMetadata.EncryptionAlgorithm = props.Algorithm().ToThrift()
-	keyMetadata := props.FooterKeyMetadata()
-	if keyMetadata != "" {
-		f.cryptoMetadata.KeyMetadata = []byte(keyMetadata)
-	}
-
-	return &FileCryptoMetadata{f.cryptoMetadata, 0}
-}
-
-// AppendRowGroup adds a rowgroup to the list and returns a builder
-// for that row group
-func (f *FileMetaDataBuilder) AppendRowGroup() *RowGroupMetaDataBuilder {
-	if f.rowGroups == nil {
-		f.rowGroups = make([]*format.RowGroup, 0, 1)
-	}
-
-	rg := format.NewRowGroup()
-	f.rowGroups = append(f.rowGroups, rg)
-	f.currentRgBldr = NewRowGroupMetaDataBuilder(f.props, f.schema, rg)
-	return f.currentRgBldr
-}
-
-// AppendKeyValueMetadata appends a key/value pair to the existing key/value metadata
-func (f *FileMetaDataBuilder) AppendKeyValueMetadata(key string, value string) error {
-	return f.kvmeta.Append(key, value)
-}
-
-// Finish will finalize the metadata of the number of rows, row groups,
-// version etc. This will clear out this filemetadatabuilder so it can
-// be re-used
-func (f *FileMetaDataBuilder) Finish() (*FileMetaData, error) {
-	out, err := f.Snapshot()
-	f.Clear()
-	return out, err
-}
-
-// Snapshot returns finalized metadata of the number of rows, row groups, version etc.
-// The snapshot must be used (e.g., serialized) before any additional (meta)data is
-// written, as it refers to builder datastructures that will continue to mutate.
-func (f *FileMetaDataBuilder) Snapshot() (*FileMetaData, error) {
-	totalRows := int64(0)
-	for _, rg := range f.rowGroups {
-		totalRows += rg.NumRows
-	}
-	f.metadata.NumRows = totalRows
-	f.metadata.RowGroups = f.rowGroups
-	switch f.props.Version() {
-	case parquet.V1_0:
-		f.metadata.Version = 1
-	default:
-		f.metadata.Version = 2
-	}
-	createdBy := f.props.CreatedBy()
-	f.metadata.CreatedBy = &createdBy
-
-	// Users cannot set the `ColumnOrder` since we do not have user defined sort order
-	// in the spec yet.
-	//
-	// We always default to `TYPE_DEFINED_ORDER`. We can expose it in
-	// the API once we have user defined sort orders in the Parquet format.
-	// TypeDefinedOrder implies choose SortOrder based on ConvertedType/PhysicalType
-	typeDefined := format.NewTypeDefinedOrder()
-	colOrder := &format.ColumnOrder{TYPE_ORDER: typeDefined}
-	f.metadata.ColumnOrders = make([]*format.ColumnOrder, f.schema.NumColumns())
-	for idx := range f.metadata.ColumnOrders {
-		f.metadata.ColumnOrders[idx] = colOrder
-	}
-
-	encryptProps := f.props.FileEncryptionProperties()
-	if encryptProps != nil && !encryptProps.EncryptedFooter() {
-		var signingAlgo parquet.Algorithm
-		algo := encryptProps.Algorithm()
-		signingAlgo.Aad.AadFileUnique = algo.Aad.AadFileUnique
-		signingAlgo.Aad.SupplyAadPrefix = algo.Aad.SupplyAadPrefix
-		if !algo.Aad.SupplyAadPrefix {
-			signingAlgo.Aad.AadPrefix = algo.Aad.AadPrefix
-		}
-		signingAlgo.Algo = parquet.AesGcm
-		f.metadata.EncryptionAlgorithm = signingAlgo.ToThrift()
-		footerSigningMetadata := f.props.FileEncryptionProperties().FooterKeyMetadata()
-		if footerSigningMetadata != "" {
-			f.metadata.FooterSigningKeyMetadata = []byte(footerSigningMetadata)
-		}
-	}
-
-	f.metadata.Schema = schema.ToThrift(f.schema.Root())
-	f.metadata.KeyValueMetadata = f.kvmeta
-
-	out := &FileMetaData{
-		FileMetaData: f.metadata,
-		version:      NewAppVersion(f.metadata.GetCreatedBy()),
-	}
-	if err := out.initSchema(); err != nil {
-		return nil, err
-	}
-	out.initColumnOrders()
-
-	return out, nil
-}
-
-// Clears out this filemetadatabuilder so it can be re-used
-func (f *FileMetaDataBuilder) Clear() {
-	f.metadata = format.NewFileMetaData()
-	f.rowGroups = nil
-}
-
-// KeyValueMetadata is an alias for a slice of thrift keyvalue pairs.
-//
-// It is presumed that the metadata should all be utf8 valid.
-type KeyValueMetadata []*format.KeyValue
-
-// NewKeyValueMetadata is equivalent to make(KeyValueMetadata, 0)
-func NewKeyValueMetadata() KeyValueMetadata {
-	return make(KeyValueMetadata, 0)
-}
-
-// Append adds the passed in key and value to the metadata, if either contains
-// any invalid utf8 runes, then it is not added and an error is returned.
-func (k *KeyValueMetadata) Append(key, value string) error {
-	if !utf8.ValidString(key) || !utf8.ValidString(value) {
-		return fmt.Errorf("metadata must be valid utf8 strings, got key = '%s' and value = '%s'", key, value)
-	}
-	*k = append(*k, &format.KeyValue{Key: key, Value: &value})
-	return nil
-}
-
-func (k KeyValueMetadata) Len() int { return len(k) }
-
-// Equals compares all of the metadata keys and values to check they are equal
-func (k KeyValueMetadata) Equals(other KeyValueMetadata) bool {
-	return reflect.DeepEqual(k, other)
-}
-
-func (k KeyValueMetadata) Keys() (ret []string) {
-	ret = make([]string, len(k))
-	for idx, v := range k {
-		ret[idx] = v.GetKey()
-	}
-	return
-}
-
-func (k KeyValueMetadata) Values() (ret []string) {
-	ret = make([]string, len(k))
-	for idx, v := range k {
-		ret[idx] = v.GetValue()
-	}
-	return
-}
-
-func (k KeyValueMetadata) FindValue(key string) *string {
-	for _, v := range k {
-		if v.Key == key {
-			return v.Value
-		}
-	}
-	return nil
-}
-
-// FileMetaData is a proxy around the underlying thrift FileMetaData object
-// to make it easier to use and interact with.
-type FileMetaData struct {
-	*format.FileMetaData
-	Schema        *schema.Schema
-	FileDecryptor encryption.FileDecryptor
-
-	// app version of the writer for this file
-	version *AppVersion
-	// size of the raw bytes of the metadata in the file which were
-	// decoded by thrift, Size() getter returns the value.
-	metadataLen int
-}
-
-// NewFileMetaData takes in the raw bytes of the serialized metadata to deserialize
-// and will attempt to decrypt the footer if a decryptor is provided.
-func NewFileMetaData(data []byte, fileDecryptor encryption.FileDecryptor) (*FileMetaData, error) {
-	meta := format.NewFileMetaData()
-	if fileDecryptor != nil {
-		footerDecryptor := fileDecryptor.GetFooterDecryptor()
-		data = footerDecryptor.Decrypt(data)
-	}
-
-	remain, err := thrift.DeserializeThrift(meta, data)
-	if err != nil {
-		return nil, err
-	}
-
-	f := &FileMetaData{
-		FileMetaData:  meta,
-		version:       NewAppVersion(meta.GetCreatedBy()),
-		metadataLen:   len(data) - int(remain),
-		FileDecryptor: fileDecryptor,
-	}
-
-	f.initSchema()
-	f.initColumnOrders()
-
-	return f, nil
-}
-
-// Size is the length of the raw serialized metadata bytes in the footer
-func (f *FileMetaData) Size() int { return f.metadataLen }
-
-// NumSchemaElements is the length of the flattened schema list in the thrift
-func (f *FileMetaData) NumSchemaElements() int {
-	return len(f.FileMetaData.Schema)
-}
-
-// RowGroup provides the metadata for the (0-based) index of the row group
-func (f *FileMetaData) RowGroup(i int) *RowGroupMetaData {
-	return &RowGroupMetaData{
-		f.RowGroups[i], f.Schema, f.version, f.FileDecryptor,
-	}
-}
-
-func (f *FileMetaData) Serialize(ctx context.Context) ([]byte, error) {
-	return thrift.NewThriftSerializer().Write(ctx, f.FileMetaData)
-}
-
-func (f *FileMetaData) SerializeString(ctx context.Context) (string, error) {
-	return thrift.NewThriftSerializer().WriteString(ctx, f.FileMetaData)
-}
-
-// EncryptionAlgorithm constructs the algorithm object from the thrift
-// information or returns an empty instance if it was not set.
-func (f *FileMetaData) EncryptionAlgorithm() parquet.Algorithm {
-	if f.IsSetEncryptionAlgorithm() {
-		return parquet.AlgorithmFromThrift(f.GetEncryptionAlgorithm())
-	}
-	return parquet.Algorithm{}
-}
-
-func (f *FileMetaData) initSchema() error {
-	root, err := schema.FromParquet(f.FileMetaData.Schema)
-	if err != nil {
-		return err
-	}
-	f.Schema = schema.NewSchema(root.(*schema.GroupNode))
-	return nil
-}
-
-func (f *FileMetaData) initColumnOrders() {
-	orders := make([]parquet.ColumnOrder, 0, f.Schema.NumColumns())
-	if f.IsSetColumnOrders() {
-		for _, o := range f.GetColumnOrders() {
-			if o.IsSetTYPE_ORDER() {
-				orders = append(orders, parquet.ColumnOrders.TypeDefinedOrder)
-			} else {
-				orders = append(orders, parquet.ColumnOrders.Undefined)
-			}
-		}
-	} else {
-		orders = orders[:f.Schema.NumColumns()]
-		orders[0] = parquet.ColumnOrders.Undefined
-		for i := 1; i < len(orders); i *= 2 {
-			copy(orders[i:], orders[:i])
-		}
-	}
-	f.Schema.UpdateColumnOrders(orders)
-}
-
-// WriterVersion returns the constructed application version from the
-// created by string
-func (f *FileMetaData) WriterVersion() *AppVersion {
-	if f.version == nil {
-		f.version = NewAppVersion(f.GetCreatedBy())
-	}
-	return f.version
-}
-
-// SetFilePath will set the file path into all of the columns in each row group.
-func (f *FileMetaData) SetFilePath(path string) {
-	for _, rg := range f.RowGroups {
-		for _, chunk := range rg.Columns {
-			chunk.FilePath = &path
-		}
-	}
-}
-
-// AppendRowGroups will add all of the rowgroup metadata from other to the
-// current file metadata
-func (f *FileMetaData) AppendRowGroups(other *FileMetaData) error {
-	if !f.Schema.Equals(other.Schema) {
-		return xerrors.New("parquet/FileMetaData: AppendRowGroups requires equal schemas")
-	}
-
-	f.RowGroups = append(f.RowGroups, other.GetRowGroups()...)
-	for _, rg := range other.GetRowGroups() {
-		f.NumRows += rg.NumRows
-	}
-	return nil
-}
-
-// Subset will construct a new FileMetaData object containing only the requested
-// row groups by index
-func (f *FileMetaData) Subset(rowGroups []int) (*FileMetaData, error) {
-	for _, i := range rowGroups {
-		if i < len(f.RowGroups) {
-			continue
-		}
-		return nil, fmt.Errorf("parquet: this file only has %d row groups, but requested a subset including row group: %d", len(f.RowGroups), i)
-	}
-
-	out := &FileMetaData{
-		&format.FileMetaData{
-			Schema:                   f.FileMetaData.Schema,
-			CreatedBy:                f.CreatedBy,
-			ColumnOrders:             f.GetColumnOrders(),
-			EncryptionAlgorithm:      f.FileMetaData.EncryptionAlgorithm,
-			FooterSigningKeyMetadata: f.FooterSigningKeyMetadata,
-			Version:                  f.FileMetaData.Version,
-			KeyValueMetadata:         f.KeyValueMetadata(),
-		},
-		f.Schema,
-		f.FileDecryptor,
-		f.version,
-		0,
-	}
-
-	out.RowGroups = make([]*format.RowGroup, 0, len(rowGroups))
-	for _, selected := range rowGroups {
-		out.RowGroups = append(out.RowGroups, f.RowGroups[selected])
-		out.NumRows += f.RowGroups[selected].GetNumRows()
-	}
-
-	return out, nil
-}
-
-func (f *FileMetaData) Equals(other *FileMetaData) bool {
-	return reflect.DeepEqual(f.FileMetaData, other.FileMetaData)
-}
-
-func (f *FileMetaData) KeyValueMetadata() KeyValueMetadata {
-	return f.GetKeyValueMetadata()
-}
-
-// VerifySignature constructs a cryptographic signature using the FileDecryptor
-// of the footer and then verifies it's integrity.
-//
-// Panics if f.FileDecryptor is nil
-func (f *FileMetaData) VerifySignature(signature []byte) bool {
-	if f.FileDecryptor == nil {
-		panic("decryption not set properly, cannot verify signature")
-	}
-
-	serializer := thrift.NewThriftSerializer()
-	data, _ := serializer.Write(context.Background(), f.FileMetaData)
-	nonce := signature[:encryption.NonceLength]
-	tag := signature[encryption.NonceLength : encryption.NonceLength+encryption.GcmTagLength]
-
-	key := f.FileDecryptor.GetFooterKey()
-	aad := encryption.CreateFooterAad(f.FileDecryptor.FileAad())
-
-	enc := encryption.NewAesEncryptor(f.FileDecryptor.Algorithm(), true)
-	var buf bytes.Buffer
-	buf.Grow(enc.CiphertextSizeDelta() + len(data))
-	encryptedLen := enc.SignedFooterEncrypt(&buf, data, []byte(key), []byte(aad), nonce)
-	return bytes.Equal(buf.Bytes()[encryptedLen-encryption.GcmTagLength:], tag)
-}
-
-// WriteTo will serialize and write out this file metadata, encrypting it if
-// appropriate.
-//
-// If it is an encrypted file with a plaintext footer, then we will write the
-// signature with the unencrypted footer.
-func (f *FileMetaData) WriteTo(w io.Writer, encryptor encryption.Encryptor) (int64, error) {
-	serializer := thrift.NewThriftSerializer()
-	// only in encrypted files with plaintext footers, the encryption algorithm is set in the footer
-	if f.IsSetEncryptionAlgorithm() {
-		data, err := serializer.Write(context.Background(), f.FileMetaData)
-		if err != nil {
-			return 0, err
-		}
-
-		// encrypt the footer key
-		var buf bytes.Buffer
-		buf.Grow(encryptor.CiphertextSizeDelta() + len(data))
-		encryptedLen := encryptor.Encrypt(&buf, data)
-
-		wrote := 0
-		n := 0
-		// write unencrypted footer
-		if n, err = w.Write(data); err != nil {
-			return int64(n), err
-		}
-		wrote += n
-		// write signature (nonce and tag)
-		buf.Next(4)
-		if n, err = w.Write(buf.Next(encryption.NonceLength)); err != nil {
-			return int64(wrote + n), err
-		}
-		wrote += n
-		buf.Next(encryptedLen - 4 - encryption.NonceLength - encryption.GcmTagLength)
-		n, err = w.Write(buf.Next(encryption.GcmTagLength))
-		return int64(wrote + n), err
-	}
-	n, err := serializer.Serialize(f.FileMetaData, w, encryptor)
-	return int64(n), err
-}
-
-// Version returns the "version" of the file
-//
-// WARNING: The value returned by this method is unreliable as 1) the
-// parquet file metadata stores the version as a single integer and
-// 2) some producers are known to always write a hardcoded value. Therefore
-// you cannot use this value to know which features are used in the file.
-func (f *FileMetaData) Version() parquet.Version {
-	switch f.FileMetaData.Version {
-	case 1:
-		return parquet.V1_0
-	case 2:
-		return parquet.V2_LATEST
-	default:
-		// improperly set version, assume parquet 1.0
-		return parquet.V1_0
-	}
-}
-
-// FileCryptoMetadata is a proxy for the thrift fileCryptoMetadata object
-type FileCryptoMetadata struct {
-	metadata          *format.FileCryptoMetaData
-	cryptoMetadataLen uint32
-}
-
-// NewFileCryptoMetaData takes in the raw serialized bytes to deserialize
-// storing the number of bytes that were actually deserialized.
-func NewFileCryptoMetaData(metadata []byte) (ret FileCryptoMetadata, err error) {
-	ret.metadata = format.NewFileCryptoMetaData()
-	var remain uint64
-	remain, err = thrift.DeserializeThrift(ret.metadata, metadata)
-	ret.cryptoMetadataLen = uint32(uint64(len(metadata)) - remain)
-	return
-}
-
-// WriteTo writes out the serialized crypto metadata to w
-func (fc FileCryptoMetadata) WriteTo(w io.Writer) (int64, error) {
-	serializer := thrift.NewThriftSerializer()
-	n, err := serializer.Serialize(fc.metadata, w, nil)
-	return int64(n), err
-}
-
-// Len is the number of bytes that were deserialized to create this object
-func (fc FileCryptoMetadata) Len() int { return int(fc.cryptoMetadataLen) }
-
-func (fc FileCryptoMetadata) KeyMetadata() []byte {
-	return fc.metadata.KeyMetadata
-}
-
-// EncryptionAlgorithm constructs the object from the thrift instance of
-// the encryption algorithm
-func (fc FileCryptoMetadata) EncryptionAlgorithm() parquet.Algorithm {
-	return parquet.AlgorithmFromThrift(fc.metadata.GetEncryptionAlgorithm())
-}
diff --git a/go/parquet/metadata/metadata_test.go b/go/parquet/metadata/metadata_test.go
deleted file mode 100644
index 8ecb95cf41e9d..0000000000000
--- a/go/parquet/metadata/metadata_test.go
+++ /dev/null
@@ -1,381 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata_test
-
-import (
-	"context"
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func generateTableMetaData(schema *schema.Schema, props *parquet.WriterProperties, nrows int, statsInt, statsFloat metadata.EncodedStatistics) (*metadata.FileMetaData, error) {
-	fbuilder := metadata.NewFileMetadataBuilder(schema, props, nil)
-	rg1Builder := fbuilder.AppendRowGroup()
-	// metadata
-	// row group 1
-	col1Builder := rg1Builder.NextColumnChunk()
-	col2Builder := rg1Builder.NextColumnChunk()
-	// column metadata
-	dictEncodingStats := map[parquet.Encoding]int32{parquet.Encodings.RLEDict: 1}
-	dataEncodingStats := map[parquet.Encoding]int32{parquet.Encodings.Plain: 1, parquet.Encodings.RLE: 1}
-	statsInt.Signed = true
-	col1Builder.SetStats(statsInt)
-	statsFloat.Signed = true
-	col2Builder.SetStats(statsFloat)
-
-	col1Builder.Finish(metadata.ChunkMetaInfo{int64(nrows) / 2, 4, 0, 10, 512, 600}, true, false, metadata.EncodingStats{dictEncodingStats, dataEncodingStats}, nil)
-	col2Builder.Finish(metadata.ChunkMetaInfo{int64(nrows) / 2, 24, 0, 30, 512, 600}, true, false, metadata.EncodingStats{dictEncodingStats, dataEncodingStats}, nil)
-
-	rg1Builder.SetNumRows(nrows / 2)
-	rg1Builder.Finish(1024, -1)
-
-	// rowgroup2 metadata
-	rg2Builder := fbuilder.AppendRowGroup()
-	col1Builder = rg2Builder.NextColumnChunk()
-	col2Builder = rg2Builder.NextColumnChunk()
-	// column metadata
-	col1Builder.SetStats(statsInt)
-	col2Builder.SetStats(statsFloat)
-	dictEncodingStats = make(map[parquet.Encoding]int32)
-	col1Builder.Finish(metadata.ChunkMetaInfo{int64(nrows) / 2, 0 /*dictionary page offset*/, 0, 10, 512, 600}, false /* has dictionary */, false, metadata.EncodingStats{dictEncodingStats, dataEncodingStats}, nil)
-	col2Builder.Finish(metadata.ChunkMetaInfo{int64(nrows) / 2, 16, 0, 26, 512, 600}, true, false, metadata.EncodingStats{dictEncodingStats, dataEncodingStats}, nil)
-
-	rg2Builder.SetNumRows(nrows / 2)
-	rg2Builder.Finish(1024, -1)
-
-	return fbuilder.Finish()
-}
-
-func assertStatsSet(t *testing.T, m *metadata.ColumnChunkMetaData) {
-	ok, err := m.StatsSet()
-	assert.NoError(t, err)
-	assert.True(t, ok)
-}
-
-func assertStats(t *testing.T, m *metadata.ColumnChunkMetaData) metadata.TypedStatistics {
-	s, err := m.Statistics()
-	assert.NoError(t, err)
-	assert.NotNil(t, s)
-	return s
-}
-
-func TestBuildAccess(t *testing.T) {
-	props := parquet.NewWriterProperties(parquet.WithVersion(parquet.V2_LATEST))
-
-	fields := schema.FieldList{
-		schema.NewInt32Node("int_col", parquet.Repetitions.Required, -1),
-		schema.NewFloat32Node("float_col", parquet.Repetitions.Required, -1),
-	}
-	root, err := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, fields, -1)
-	require.NoError(t, err)
-	schema := schema.NewSchema(root)
-
-	var (
-		nrows      int64   = 1000
-		intMin     int32   = 100
-		intMax     int32   = 200
-		floatMin   float32 = 100.100
-		floatMax   float32 = 200.200
-		statsInt   metadata.EncodedStatistics
-		statsFloat metadata.EncodedStatistics
-	)
-
-	statsInt.SetNullCount(0).
-		SetDistinctCount(nrows).
-		SetMin((*(*[4]byte)(unsafe.Pointer(&intMin)))[:]).
-		SetMax((*(*[4]byte)(unsafe.Pointer(&intMax)))[:])
-
-	statsFloat.SetNullCount(0).
-		SetDistinctCount(nrows).
-		SetMin((*(*[4]byte)(unsafe.Pointer(&floatMin)))[:]).
-		SetMax((*(*[4]byte)(unsafe.Pointer(&floatMax)))[:])
-
-	faccessor, err := generateTableMetaData(schema, props, int(nrows), statsInt, statsFloat)
-	require.NoError(t, err)
-	serialized, err := faccessor.SerializeString(context.Background())
-	assert.NoError(t, err)
-	faccessorCopy, err := metadata.NewFileMetaData([]byte(serialized), nil)
-	assert.NoError(t, err)
-
-	for _, accessor := range []*metadata.FileMetaData{faccessor, faccessorCopy} {
-		// file metadata
-		assert.Equal(t, nrows, accessor.NumRows)
-		assert.Len(t, accessor.RowGroups, 2)
-		assert.EqualValues(t, parquet.V2_LATEST, accessor.Version())
-		assert.Equal(t, parquet.DefaultCreatedBy, accessor.GetCreatedBy())
-		assert.Equal(t, 3, accessor.NumSchemaElements())
-
-		// row group 1 metadata
-		rg1Access := accessor.RowGroup(0)
-		assert.Equal(t, 2, rg1Access.NumColumns())
-		assert.Equal(t, nrows/2, rg1Access.NumRows())
-		assert.Equal(t, int64(1024), rg1Access.TotalByteSize())
-		assert.Equal(t, int64(1024), rg1Access.TotalCompressedSize())
-
-		rg1Col1, err := rg1Access.ColumnChunk(0)
-		assert.NoError(t, err)
-		assert.Equal(t, rg1Access.FileOffset(), rg1Col1.DictionaryPageOffset())
-
-		rg1Col2, err := rg1Access.ColumnChunk(1)
-		assert.NoError(t, err)
-		assertStatsSet(t, rg1Col1)
-		assertStatsSet(t, rg1Col2)
-		assert.Equal(t, statsInt.Min, assertStats(t, rg1Col1).EncodeMin())
-		assert.Equal(t, statsInt.Max, assertStats(t, rg1Col1).EncodeMax())
-		assert.Equal(t, statsFloat.Min, assertStats(t, rg1Col2).EncodeMin())
-		assert.Equal(t, statsFloat.Max, assertStats(t, rg1Col2).EncodeMax())
-		assert.Zero(t, assertStats(t, rg1Col1).NullCount())
-		assert.Zero(t, assertStats(t, rg1Col2).NullCount())
-		assert.Equal(t, nrows, assertStats(t, rg1Col1).DistinctCount())
-		assert.Equal(t, nrows, assertStats(t, rg1Col2).DistinctCount())
-		assert.Equal(t, metadata.DefaultCompressionType, rg1Col1.Compression())
-		assert.Equal(t, metadata.DefaultCompressionType, rg1Col2.Compression())
-		assert.Equal(t, nrows/2, rg1Col1.NumValues())
-		assert.Equal(t, nrows/2, rg1Col2.NumValues())
-		assert.Len(t, rg1Col1.Encodings(), 3)
-		assert.Len(t, rg1Col2.Encodings(), 3)
-		assert.EqualValues(t, 512, rg1Col1.TotalCompressedSize())
-		assert.EqualValues(t, 512, rg1Col2.TotalCompressedSize())
-		assert.EqualValues(t, 600, rg1Col1.TotalUncompressedSize())
-		assert.EqualValues(t, 600, rg1Col2.TotalUncompressedSize())
-		assert.EqualValues(t, 4, rg1Col1.DictionaryPageOffset())
-		assert.EqualValues(t, 24, rg1Col2.DictionaryPageOffset())
-		assert.EqualValues(t, 10, rg1Col1.DataPageOffset())
-		assert.EqualValues(t, 30, rg1Col2.DataPageOffset())
-		assert.Len(t, rg1Col1.EncodingStats(), 3)
-		assert.Len(t, rg1Col2.EncodingStats(), 3)
-
-		// row group 2 metadata
-		rg2Access := accessor.RowGroup(1)
-		assert.Equal(t, 2, rg2Access.NumColumns())
-		assert.Equal(t, nrows/2, rg2Access.NumRows())
-		assert.EqualValues(t, 1024, rg2Access.TotalByteSize())
-		assert.EqualValues(t, 1024, rg2Access.TotalCompressedSize())
-
-		rg2Col1, err := rg2Access.ColumnChunk(0)
-		assert.NoError(t, err)
-		assert.Equal(t, rg2Access.FileOffset(), rg2Col1.DataPageOffset())
-
-		rg2Col2, err := rg2Access.ColumnChunk(1)
-		assert.NoError(t, err)
-		assertStatsSet(t, rg1Col1)
-		assertStatsSet(t, rg1Col2)
-		assert.Equal(t, statsInt.Min, assertStats(t, rg1Col1).EncodeMin())
-		assert.Equal(t, statsInt.Max, assertStats(t, rg1Col1).EncodeMax())
-		assert.Equal(t, statsFloat.Min, assertStats(t, rg1Col2).EncodeMin())
-		assert.Equal(t, statsFloat.Max, assertStats(t, rg1Col2).EncodeMax())
-		assert.Zero(t, assertStats(t, rg1Col1).NullCount())
-		assert.Zero(t, assertStats(t, rg1Col2).NullCount())
-		assert.Equal(t, nrows, assertStats(t, rg1Col1).DistinctCount())
-		assert.Equal(t, nrows, assertStats(t, rg1Col2).DistinctCount())
-		assert.Equal(t, metadata.DefaultCompressionType, rg2Col1.Compression())
-		assert.Equal(t, metadata.DefaultCompressionType, rg2Col2.Compression())
-		assert.Equal(t, nrows/2, rg2Col1.NumValues())
-		assert.Equal(t, nrows/2, rg2Col2.NumValues())
-		assert.Len(t, rg2Col1.Encodings(), 2)
-		assert.Len(t, rg2Col2.Encodings(), 3)
-		assert.EqualValues(t, 512, rg2Col1.TotalCompressedSize())
-		assert.EqualValues(t, 512, rg2Col2.TotalCompressedSize())
-		assert.EqualValues(t, 600, rg2Col1.TotalUncompressedSize())
-		assert.EqualValues(t, 600, rg2Col2.TotalUncompressedSize())
-		assert.EqualValues(t, 0, rg2Col1.DictionaryPageOffset())
-		assert.EqualValues(t, 16, rg2Col2.DictionaryPageOffset())
-		assert.EqualValues(t, 10, rg2Col1.DataPageOffset())
-		assert.EqualValues(t, 26, rg2Col2.DataPageOffset())
-		assert.Len(t, rg2Col1.EncodingStats(), 2)
-		assert.Len(t, rg2Col2.EncodingStats(), 2)
-
-		assert.Empty(t, rg2Col1.FilePath())
-		accessor.SetFilePath("/foo/bar/bar.parquet")
-		assert.Equal(t, "/foo/bar/bar.parquet", rg2Col1.FilePath())
-	}
-
-	faccessor2, err := generateTableMetaData(schema, props, int(nrows), statsInt, statsFloat)
-	require.NoError(t, err)
-	faccessor.AppendRowGroups(faccessor2)
-	assert.Len(t, faccessor.RowGroups, 4)
-	assert.Equal(t, nrows*2, faccessor.NumRows)
-	assert.EqualValues(t, parquet.V2_LATEST, faccessor.Version())
-	assert.Equal(t, parquet.DefaultCreatedBy, faccessor.GetCreatedBy())
-	assert.Equal(t, 3, faccessor.NumSchemaElements())
-
-	faccessor1, err := faccessor.Subset([]int{2, 3})
-	require.NoError(t, err)
-	assert.True(t, faccessor1.Equals(faccessor2))
-
-	faccessor1, err = faccessor2.Subset([]int{0})
-	require.NoError(t, err)
-
-	next, err := faccessor.Subset([]int{0})
-	require.NoError(t, err)
-	faccessor1.AppendRowGroups(next)
-
-	sub, err := faccessor.Subset([]int{2, 0})
-	require.NoError(t, err)
-	assert.True(t, faccessor1.Equals(sub))
-}
-
-func TestV1VersionMetadata(t *testing.T) {
-	props := parquet.NewWriterProperties(parquet.WithVersion(parquet.V1_0))
-
-	fields := schema.FieldList{
-		schema.NewInt32Node("int_col", parquet.Repetitions.Required, -1),
-		schema.NewFloat32Node("float_col", parquet.Repetitions.Required, -1),
-	}
-	root, err := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, fields, -1)
-	require.NoError(t, err)
-	schema := schema.NewSchema(root)
-
-	fbuilder := metadata.NewFileMetadataBuilder(schema, props, nil)
-	faccessor, err := fbuilder.Finish()
-	require.NoError(t, err)
-	assert.EqualValues(t, parquet.V1_0, faccessor.Version())
-}
-
-func TestKeyValueMetadata(t *testing.T) {
-	props := parquet.NewWriterProperties(parquet.WithVersion(parquet.V1_0))
-
-	fields := schema.FieldList{
-		schema.NewInt32Node("int_col", parquet.Repetitions.Required, -1),
-		schema.NewFloat32Node("float_col", parquet.Repetitions.Required, -1),
-	}
-	root, err := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, fields, -1)
-	require.NoError(t, err)
-	schema := schema.NewSchema(root)
-	kvmeta := metadata.NewKeyValueMetadata()
-	kvmeta.Append("test_key", "test_value")
-
-	fbuilder := metadata.NewFileMetadataBuilder(schema, props, kvmeta)
-	faccessor, err := fbuilder.Finish()
-	require.NoError(t, err)
-
-	assert.True(t, faccessor.KeyValueMetadata().Equals(kvmeta))
-}
-
-func TestKeyValueMetadataAppend(t *testing.T) {
-	props := parquet.NewWriterProperties(parquet.WithVersion(parquet.V1_0))
-
-	fields := schema.FieldList{
-		schema.NewInt32Node("int_col", parquet.Repetitions.Required, -1),
-		schema.NewFloat32Node("float_col", parquet.Repetitions.Required, -1),
-	}
-	root, err := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, fields, -1)
-	require.NoError(t, err)
-	schema := schema.NewSchema(root)
-
-	kvmeta := metadata.NewKeyValueMetadata()
-	key1 := "test_key1"
-	value1 := "test_value1"
-	require.NoError(t, kvmeta.Append(key1, value1))
-
-	fbuilder := metadata.NewFileMetadataBuilder(schema, props, kvmeta)
-
-	key2 := "test_key2"
-	value2 := "test_value2"
-	require.NoError(t, fbuilder.AppendKeyValueMetadata(key2, value2))
-	faccessor, err := fbuilder.Finish()
-	require.NoError(t, err)
-
-	kv := faccessor.KeyValueMetadata()
-
-	got1 := kv.FindValue(key1)
-	require.NotNil(t, got1)
-	assert.Equal(t, value1, *got1)
-
-	got2 := kv.FindValue(key2)
-	require.NotNil(t, got2)
-	assert.Equal(t, value2, *got2)
-}
-
-func TestApplicationVersion(t *testing.T) {
-	version := metadata.NewAppVersion("parquet-mr version 1.7.9")
-	version1 := metadata.NewAppVersion("parquet-mr version 1.8.0")
-	version2 := metadata.NewAppVersion("parquet-cpp version 1.0.0")
-	version3 := metadata.NewAppVersion("")
-	version4 := metadata.NewAppVersion("parquet-mr version 1.5.0ab-cdh5.5.0+cd (build abcd)")
-	version5 := metadata.NewAppVersion("parquet-mr")
-
-	assert.Equal(t, "parquet-mr", version.App)
-	assert.Equal(t, 1, version.Version.Major)
-	assert.Equal(t, 7, version.Version.Minor)
-	assert.Equal(t, 9, version.Version.Patch)
-
-	assert.Equal(t, "parquet-cpp", version2.App)
-	assert.Equal(t, 1, version2.Version.Major)
-	assert.Equal(t, 0, version2.Version.Minor)
-	assert.Equal(t, 0, version2.Version.Patch)
-
-	assert.Equal(t, "parquet-mr", version4.App)
-	assert.Equal(t, "abcd", version4.Build)
-	assert.Equal(t, 1, version4.Version.Major)
-	assert.Equal(t, 5, version4.Version.Minor)
-	assert.Equal(t, 0, version4.Version.Patch)
-	assert.Equal(t, "ab", version4.Version.Unknown)
-	assert.Equal(t, "cdh5.5.0", version4.Version.PreRelease)
-	assert.Equal(t, "cd", version4.Version.BuildInfo)
-
-	assert.Equal(t, "parquet-mr", version5.App)
-	assert.Equal(t, 0, version5.Version.Major)
-	assert.Equal(t, 0, version5.Version.Minor)
-	assert.Equal(t, 0, version5.Version.Patch)
-
-	assert.True(t, version.LessThan(version1))
-
-	var stats metadata.EncodedStatistics
-	assert.False(t, version1.HasCorrectStatistics(parquet.Types.Int96, schema.NoLogicalType{}, stats, schema.SortUNKNOWN))
-	assert.True(t, version.HasCorrectStatistics(parquet.Types.Int32, schema.NoLogicalType{}, stats, schema.SortSIGNED))
-	assert.False(t, version.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, stats, schema.SortSIGNED))
-	assert.True(t, version1.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, stats, schema.SortSIGNED))
-	assert.False(t, version1.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, stats, schema.SortUNSIGNED))
-	assert.True(t, version3.HasCorrectStatistics(parquet.Types.FixedLenByteArray, schema.NoLogicalType{}, stats, schema.SortSIGNED))
-
-	// check that the old stats are correct if min and max are the same regardless of sort order
-	var statsStr metadata.EncodedStatistics
-	statsStr.SetMin([]byte("a")).SetMax([]byte("b"))
-	assert.False(t, version1.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, statsStr, schema.SortUNSIGNED))
-	statsStr.SetMax([]byte("a"))
-	assert.True(t, version1.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, statsStr, schema.SortUNSIGNED))
-
-	// check that the same holds true for ints
-	var (
-		intMin int32 = 100
-		intMax int32 = 200
-	)
-	var statsInt metadata.EncodedStatistics
-	statsInt.SetMin((*(*[4]byte)(unsafe.Pointer(&intMin)))[:])
-	statsInt.SetMax((*(*[4]byte)(unsafe.Pointer(&intMax)))[:])
-	assert.False(t, version1.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, statsInt, schema.SortUNSIGNED))
-	statsInt.SetMax((*(*[4]byte)(unsafe.Pointer(&intMin)))[:])
-	assert.True(t, version1.HasCorrectStatistics(parquet.Types.ByteArray, schema.NoLogicalType{}, statsInt, schema.SortUNSIGNED))
-}
-
-func TestCheckBadDecimalStats(t *testing.T) {
-	version1 := metadata.NewAppVersion("parquet-cpp version 3.0.0")
-	version2 := metadata.NewAppVersion("parquet-cpp-arrow version 3.0.0")
-	version3 := metadata.NewAppVersion("parquet-cpp-arrow version 4.0.0")
-
-	var stats metadata.EncodedStatistics
-	assert.False(t, version1.HasCorrectStatistics(parquet.Types.FixedLenByteArray, schema.NewDecimalLogicalType(5, 0), stats, schema.SortSIGNED))
-	assert.False(t, version2.HasCorrectStatistics(parquet.Types.FixedLenByteArray, schema.NewDecimalLogicalType(5, 0), stats, schema.SortSIGNED))
-	assert.True(t, version3.HasCorrectStatistics(parquet.Types.FixedLenByteArray, schema.NewDecimalLogicalType(5, 0), stats, schema.SortSIGNED))
-}
diff --git a/go/parquet/metadata/row_group.go b/go/parquet/metadata/row_group.go
deleted file mode 100644
index 5373fb6f783fc..0000000000000
--- a/go/parquet/metadata/row_group.go
+++ /dev/null
@@ -1,177 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"fmt"
-	"reflect"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-// RowGroupMetaData is a proxy around the thrift RowGroup meta data object
-type RowGroupMetaData struct {
-	rowGroup      *format.RowGroup
-	Schema        *schema.Schema
-	version       *AppVersion
-	fileDecryptor encryption.FileDecryptor
-}
-
-// NewRowGroupMetaData constructs an object from the underlying thrift objects and schema,
-// decrypting if provided and necessary. This is primarily used internally and consumers
-// should use the RowGroupMetaDataBuilder rather than this directly.
-func NewRowGroupMetaData(rg *format.RowGroup, sc *schema.Schema, version *AppVersion, decryptor encryption.FileDecryptor) *RowGroupMetaData {
-	return &RowGroupMetaData{
-		rowGroup:      rg,
-		Schema:        sc,
-		version:       version,
-		fileDecryptor: decryptor,
-	}
-}
-
-// NumColumns returns the number of column metadata objects in this row group
-func (r *RowGroupMetaData) NumColumns() int {
-	return len(r.rowGroup.GetColumns())
-}
-
-func (r *RowGroupMetaData) Equals(other *RowGroupMetaData) bool {
-	return reflect.DeepEqual(r.rowGroup, other.rowGroup)
-}
-
-// NumRows is just the number of rows in this row group. All columns have the same
-// number of rows for a row group regardless of repetition and definition levels.
-func (r *RowGroupMetaData) NumRows() int64 { return r.rowGroup.NumRows }
-
-// TotalByteSize is the total size of this rowgroup on disk
-func (r *RowGroupMetaData) TotalByteSize() int64 { return r.rowGroup.GetTotalByteSize() }
-
-// FileOffset is the location in the file where the data for this rowgroup begins
-func (r *RowGroupMetaData) FileOffset() int64 { return r.rowGroup.GetFileOffset() }
-
-func (r *RowGroupMetaData) TotalCompressedSize() int64 { return r.rowGroup.GetTotalCompressedSize() }
-
-// Ordinal is the row group number in order for the given file.
-func (r *RowGroupMetaData) Ordinal() int16 { return r.rowGroup.GetOrdinal() }
-
-// ColumnChunk returns the metadata for the requested (0-based) chunk index
-func (r *RowGroupMetaData) ColumnChunk(i int) (*ColumnChunkMetaData, error) {
-	if i >= r.NumColumns() {
-		panic(fmt.Errorf("parquet: the file only has %d columns, requested metadata for column: %d", r.NumColumns(), i))
-	}
-
-	return NewColumnChunkMetaData(r.rowGroup.Columns[i], r.Schema.Column(i), r.version, r.rowGroup.GetOrdinal(), int16(i), r.fileDecryptor)
-}
-
-// RowGroupMetaDataBuilder is a convenience object for constructing row group
-// metadata information. Primarily used in conjunction with writing new files.
-type RowGroupMetaDataBuilder struct {
-	rg          *format.RowGroup
-	props       *parquet.WriterProperties
-	schema      *schema.Schema
-	colBuilders []*ColumnChunkMetaDataBuilder
-	nextCol     int
-}
-
-// NewRowGroupMetaDataBuilder returns a builder using the given properties and underlying thrift object.
-//
-// This is primarily used internally, consumers should use the file metadatabuilder and call
-// AppendRowGroup on it to get instances of RowGroupMetaDataBuilder
-func NewRowGroupMetaDataBuilder(props *parquet.WriterProperties, schema *schema.Schema, rg *format.RowGroup) *RowGroupMetaDataBuilder {
-	r := &RowGroupMetaDataBuilder{
-		rg:          rg,
-		props:       props,
-		schema:      schema,
-		colBuilders: make([]*ColumnChunkMetaDataBuilder, 0),
-	}
-	r.rg.Columns = make([]*format.ColumnChunk, schema.NumColumns())
-	return r
-}
-
-// NumColumns returns the current number of columns in this metadata
-func (r *RowGroupMetaDataBuilder) NumColumns() int {
-	return int(len(r.rg.GetColumns()))
-}
-
-func (r *RowGroupMetaDataBuilder) NumRows() int64 {
-	return r.rg.GetNumRows()
-}
-
-func (r *RowGroupMetaDataBuilder) SetNumRows(nrows int) {
-	r.rg.NumRows = int64(nrows)
-}
-
-// CurrentColumn returns the current column chunk (0-based) index that is being built.
-//
-// Returns -1 until the first time NextColumnChunk is called.
-func (r *RowGroupMetaDataBuilder) CurrentColumn() int { return r.nextCol - 1 }
-
-// NextColumnChunk appends a new column chunk, updates the column index,
-// and returns a builder for that column chunk's metadata
-func (r *RowGroupMetaDataBuilder) NextColumnChunk() *ColumnChunkMetaDataBuilder {
-	if r.nextCol >= r.NumColumns() {
-		panic(fmt.Errorf("parquet: the schema only has %d columns, requested metadata for col: %d", r.NumColumns(), r.nextCol))
-	}
-
-	col := r.schema.Column(r.nextCol)
-	if r.rg.Columns[r.nextCol] == nil {
-		r.rg.Columns[r.nextCol] = &format.ColumnChunk{MetaData: format.NewColumnMetaData()}
-	}
-	colBldr := NewColumnChunkMetaDataBuilderWithContents(r.props, col, r.rg.Columns[r.nextCol])
-	r.nextCol++
-	r.colBuilders = append(r.colBuilders, colBldr)
-	return colBldr
-}
-
-// Finish should be called when complete and updates the metadata with the final
-// file offset, and total compressed sizes. totalBytesWritten gets written as the
-// TotalByteSize for the row group and Ordinal should be the index of the row group
-// being written. e.g. first row group should be 0, second is 1, and so on...
-func (r *RowGroupMetaDataBuilder) Finish(totalBytesWritten int64, ordinal int16) error {
-	if r.nextCol != r.NumColumns() {
-		return fmt.Errorf("parquet: only %d out of %d columns are initialized", r.nextCol-1, r.schema.NumColumns())
-	}
-
-	var (
-		fileOffset      int64 = 0
-		totalCompressed int64 = 0
-	)
-
-	for idx, col := range r.rg.Columns {
-		if col.FileOffset < 0 {
-			return fmt.Errorf("parquet: Column %d is not complete", idx)
-		}
-		if idx == 0 {
-			if col.MetaData.IsSetDictionaryPageOffset() && col.MetaData.GetDictionaryPageOffset() > 0 {
-				fileOffset = col.MetaData.GetDictionaryPageOffset()
-			} else {
-				fileOffset = col.MetaData.DataPageOffset
-			}
-		}
-		// sometimes column metadata is encrypted and not available to read
-		// so we must get total compressed size from column builder
-		totalCompressed += r.colBuilders[idx].TotalCompressedSize()
-	}
-
-	r.rg.FileOffset = &fileOffset
-	r.rg.TotalCompressedSize = &totalCompressed
-	r.rg.TotalByteSize = totalBytesWritten
-	r.rg.Ordinal = &ordinal
-	return nil
-}
diff --git a/go/parquet/metadata/stat_compare_test.go b/go/parquet/metadata/stat_compare_test.go
deleted file mode 100644
index dafbf3ed04f1a..0000000000000
--- a/go/parquet/metadata/stat_compare_test.go
+++ /dev/null
@@ -1,268 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"encoding/binary"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestSignedByteArrayCompare(t *testing.T) {
-	s := ByteArrayStatistics{
-		statistics: statistics{
-			order: schema.SortSIGNED,
-		},
-	}
-
-	// signed byte array comparison is only used for Decimal comparison.
-	// when decimals are encoded as byte arrays they use twos compliment
-	// big-endian encoded values. Comparisons of byte arrays of unequal
-	// types need to handle sign extension.
-
-	tests := []struct {
-		b     []byte
-		order int
-	}{
-		{[]byte{0x80, 0x80, 0, 0}, 0},
-		{[]byte{ /*0xFF,*/ 0x80, 0, 0}, 1},
-		{[]byte{0xFF, 0x80, 0, 0}, 1},
-		{[]byte{ /*0xFF,*/ 0xFF, 0x01, 0}, 2},
-		{[]byte{ /*0xFF, 0xFF,*/ 0x80, 0}, 3},
-		{[]byte{ /*0xFF,*/ 0xFF, 0x80, 0}, 3},
-		{[]byte{0xFF, 0xFF, 0x80, 0}, 3},
-		{[]byte{ /*0xFF,0xFF,0xFF,*/ 0x80}, 4},
-		{[]byte{ /*0xFF,0xFF,0xFF*/ 0xFF}, 5},
-		{[]byte{ /*0, 0,*/ 0x01, 0x01}, 6},
-		{[]byte{ /*0,*/ 0, 0x01, 0x01}, 6},
-		{[]byte{0, 0, 0x01, 0x01}, 6},
-		{[]byte{ /*0,*/ 0x01, 0x01, 0}, 7},
-		{[]byte{0x01, 0x01, 0, 0}, 8},
-	}
-
-	for i, tt := range tests {
-		// empty array is always the smallest
-		assert.Truef(t, s.less(parquet.ByteArray{}, parquet.ByteArray(tt.b)), "case: %d", i)
-		assert.Falsef(t, s.less(parquet.ByteArray(tt.b), parquet.ByteArray{}), "case: %d", i)
-		// equals is always false
-		assert.Falsef(t, s.less(parquet.ByteArray(tt.b), parquet.ByteArray(tt.b)), "case: %d", i)
-
-		for j, case2 := range tests {
-			var fn func(assert.TestingT, bool, string, ...interface{}) bool
-			if tt.order < case2.order {
-				fn = assert.Truef
-			} else {
-				fn = assert.Falsef
-			}
-			fn(t, s.less(parquet.ByteArray(tt.b), parquet.ByteArray(case2.b)),
-				"%d (order: %d) %d (order: %d)", i, tt.order, j, case2.order)
-		}
-	}
-}
-
-func TestUnsignedByteArrayCompare(t *testing.T) {
-	s := ByteArrayStatistics{
-		statistics: statistics{
-			order: schema.SortUNSIGNED,
-		},
-	}
-
-	s1ba := parquet.ByteArray("arrange")
-	s2ba := parquet.ByteArray("arrangement")
-	assert.True(t, s.less(s1ba, s2ba))
-
-	// multi-byte utf-8 characters
-	s1ba = parquet.ByteArray("braten")
-	s2ba = parquet.ByteArray("bügeln")
-	assert.True(t, s.less(s1ba, s2ba))
-
-	s1ba = parquet.ByteArray("ünk123456") // ü = 252
-	s2ba = parquet.ByteArray("ănk123456") // ă = 259
-	assert.True(t, s.less(s1ba, s2ba))
-}
-
-func TestSignedCompareFLBA(t *testing.T) {
-	s := FixedLenByteArrayStatistics{
-		statistics: statistics{order: schema.SortSIGNED},
-	}
-
-	values := []parquet.FixedLenByteArray{
-		[]byte{0x80, 0, 0, 0},
-		[]byte{0xFF, 0xFF, 0x01, 0},
-		[]byte{0xFF, 0xFF, 0x80, 0},
-		[]byte{0xFF, 0xFF, 0xFF, 0x80},
-		[]byte{0xFF, 0xFF, 0xFF, 0xFF},
-		[]byte{0, 0, 0x01, 0x01},
-		[]byte{0, 0x01, 0x01, 0},
-		[]byte{0x01, 0x01, 0, 0},
-	}
-
-	for i, v := range values {
-		assert.Falsef(t, s.less(v, v), "%d", i)
-		for j, v2 := range values[i+1:] {
-			assert.Truef(t, s.less(v, v2), "%d %d", i, j)
-			assert.Falsef(t, s.less(v2, v), "%d %d", j, i)
-		}
-	}
-}
-
-func TestUnsignedCompareFLBA(t *testing.T) {
-	s := FixedLenByteArrayStatistics{
-		statistics: statistics{order: schema.SortUNSIGNED},
-	}
-
-	s1flba := parquet.FixedLenByteArray("Anti123456")
-	s2flba := parquet.FixedLenByteArray("Bunkd123456")
-	assert.True(t, s.less(s1flba, s2flba))
-
-	s1flba = parquet.FixedLenByteArray("Bunk123456")
-	s2flba = parquet.FixedLenByteArray("Bünk123456")
-	assert.True(t, s.less(s1flba, s2flba))
-}
-
-func TestSignedCompareInt96(t *testing.T) {
-	s := Int96Statistics{
-		statistics: statistics{order: schema.SortSIGNED},
-	}
-
-	val := -14
-
-	var (
-		a   = parquet.NewInt96([3]uint32{1, 41, 14})
-		b   = parquet.NewInt96([3]uint32{1, 41, 42})
-		aa  = parquet.NewInt96([3]uint32{1, 41, 14})
-		bb  = parquet.NewInt96([3]uint32{1, 41, 14})
-		aaa = parquet.NewInt96([3]uint32{1, 41, uint32(val)})
-		bbb = parquet.NewInt96([3]uint32{1, 41, 42})
-	)
-
-	assert.True(t, s.less(a, b))
-	assert.True(t, !s.less(aa, bb) && !s.less(bb, aa))
-	assert.True(t, s.less(aaa, bbb))
-}
-
-func TestUnsignedCompareInt96(t *testing.T) {
-	s := Int96Statistics{
-		statistics: statistics{order: schema.SortUNSIGNED},
-	}
-
-	valb := -41
-	valbb := -14
-
-	var (
-		a   = parquet.NewInt96([3]uint32{1, 41, 14})
-		b   = parquet.NewInt96([3]uint32{1, uint32(valb), 42})
-		aa  = parquet.NewInt96([3]uint32{1, 41, 14})
-		bb  = parquet.NewInt96([3]uint32{1, 41, uint32(valbb)})
-		aaa parquet.Int96
-		bbb parquet.Int96
-	)
-
-	assert.True(t, s.less(a, b))
-	assert.True(t, s.less(aa, bb))
-
-	binary.LittleEndian.PutUint32(aaa[8:], 2451545) // 2000-01-01
-	binary.LittleEndian.PutUint32(bbb[8:], 2451546) // 2000-01-02
-	// 12 hours + 34 minutes + 56 seconds
-	aaa.SetNanoSeconds(45296000000000)
-	// 12 hours + 34 minutes + 50 seconds
-	bbb.SetNanoSeconds(45290000000000)
-	assert.True(t, s.less(aaa, bbb))
-
-	binary.LittleEndian.PutUint32(aaa[8:], 2451545) // 2000-01-01
-	binary.LittleEndian.PutUint32(bbb[8:], 2451545) // 2000-01-01
-	// 11 hours + 34 minutes + 56 seconds
-	aaa.SetNanoSeconds(41696000000000)
-	// 12 hours + 34 minutes + 50 seconds
-	bbb.SetNanoSeconds(45290000000000)
-	assert.True(t, s.less(aaa, bbb))
-
-	binary.LittleEndian.PutUint32(aaa[8:], 2451545) // 2000-01-01
-	binary.LittleEndian.PutUint32(bbb[8:], 2451545) // 2000-01-01
-	// 12 hours + 34 minutes + 55 seconds
-	aaa.SetNanoSeconds(45295000000000)
-	// 12 hours + 34 minutes + 56 seconds
-	bbb.SetNanoSeconds(45296000000000)
-	assert.True(t, s.less(aaa, bbb))
-}
-
-func TestCompareSignedInt64(t *testing.T) {
-	var (
-		a   int64 = 1
-		b   int64 = 4
-		aa  int64 = 1
-		bb  int64 = 1
-		aaa int64 = -1
-		bbb int64 = 1
-	)
-
-	n := schema.NewInt64Node("signedint64", parquet.Repetitions.Required, -1)
-	descr := schema.NewColumn(n, 0, 0)
-	s := NewStatistics(descr, nil).(*Int64Statistics)
-
-	assert.True(t, s.less(a, b))
-	assert.True(t, !s.less(aa, bb) && !s.less(bb, aa))
-	assert.True(t, s.less(aaa, bbb))
-}
-
-func TestCompareUnsignedInt64(t *testing.T) {
-	var (
-		a   int64 = 1
-		b   int64 = 4
-		aa  int64 = 1
-		bb  int64 = 1
-		aaa int64 = 1
-		bbb int64 = -1
-	)
-
-	n, err := schema.NewPrimitiveNodeConverted("unsigned int64", parquet.Repetitions.Required, parquet.Types.Int64, schema.ConvertedTypes.Uint64, 0, 0, 0, 0)
-	require.NoError(t, err)
-	descr := schema.NewColumn(n, 0, 0)
-
-	assert.Equal(t, schema.SortUNSIGNED, descr.SortOrder())
-	s := NewStatistics(descr, nil).(*Int64Statistics)
-
-	assert.True(t, s.less(a, b))
-	assert.True(t, !s.less(aa, bb) && !s.less(bb, aa))
-	assert.True(t, s.less(aaa, bbb))
-}
-
-func TestCompareUnsignedInt32(t *testing.T) {
-	var (
-		a   int32 = 1
-		b   int32 = 4
-		aa  int32 = 1
-		bb  int32 = 1
-		aaa int32 = 1
-		bbb int32 = -1
-	)
-
-	n, err := schema.NewPrimitiveNodeConverted("unsigned int32", parquet.Repetitions.Required, parquet.Types.Int32, schema.ConvertedTypes.Uint32, 0, 0, 0, 0)
-	require.NoError(t, err)
-	descr := schema.NewColumn(n, 0, 0)
-
-	assert.Equal(t, schema.SortUNSIGNED, descr.SortOrder())
-	s := NewStatistics(descr, nil).(*Int32Statistics)
-
-	assert.True(t, s.less(a, b))
-	assert.True(t, !s.less(aa, bb) && !s.less(bb, aa))
-	assert.True(t, s.less(aaa, bbb))
-}
diff --git a/go/parquet/metadata/statistics.go b/go/parquet/metadata/statistics.go
deleted file mode 100644
index e7ffc2a096370..0000000000000
--- a/go/parquet/metadata/statistics.go
+++ /dev/null
@@ -1,617 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"bytes"
-	"encoding/binary"
-	"math"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-//go:generate go run ../../arrow/_tools/tmpl/main.go -i -data=statistics_types.tmpldata statistics_types.gen.go.tmpl
-
-type StatProvider interface {
-	GetMin() []byte
-	GetMax() []byte
-	GetNullCount() int64
-	GetDistinctCount() int64
-	IsSetMax() bool
-	IsSetMin() bool
-	IsSetNullCount() bool
-	IsSetDistinctCount() bool
-}
-
-// EncodedStatistics are raw statistics with encoded values that will be written
-// to the parquet file, or was read from the parquet file.
-type EncodedStatistics struct {
-	HasMax           bool
-	Max              []byte
-	HasMin           bool
-	Min              []byte
-	Signed           bool
-	HasNullCount     bool
-	NullCount        int64
-	HasDistinctCount bool
-	DistinctCount    int64
-}
-
-// ApplyStatSizeLimits sets the maximum size of the min/max values.
-//
-// from parquet-mr
-// we don't write stats larger than the max size rather than truncating.
-// the rationale is that some engines may use the minimum value in the page
-// as the true minimum for aggregations and there is no way to mark that
-// a value has been truncated and is a lower bound and not in the page
-func (e *EncodedStatistics) ApplyStatSizeLimits(length int) {
-	if len(e.Max) > length {
-		e.HasMax = false
-	}
-	if len(e.Min) > length {
-		e.HasMin = false
-	}
-}
-
-// IsSet returns true iff one of the Has* values is true.
-func (e *EncodedStatistics) IsSet() bool {
-	return e.HasMin || e.HasMax || e.HasNullCount || e.HasDistinctCount
-}
-
-// SetMax sets the encoded Max value to val and sets HasMax to true
-func (e *EncodedStatistics) SetMax(val []byte) *EncodedStatistics {
-	e.Max = val[:]
-	e.HasMax = true
-	return e
-}
-
-// SetMin sets the encoded Min value to val, and sets HasMin to true
-func (e *EncodedStatistics) SetMin(val []byte) *EncodedStatistics {
-	e.Min = val[:]
-	e.HasMin = true
-	return e
-}
-
-// SetNullCount sets the NullCount to val and sets HasNullCount to true
-func (e *EncodedStatistics) SetNullCount(val int64) *EncodedStatistics {
-	e.NullCount = val
-	e.HasNullCount = true
-	return e
-}
-
-// SetDistinctCount sets the DistinctCount to val and sets HasDistinctCount to true
-func (e *EncodedStatistics) SetDistinctCount(val int64) *EncodedStatistics {
-	e.DistinctCount = val
-	e.HasDistinctCount = true
-	return e
-}
-
-func (e *EncodedStatistics) ToThrift() (stats *format.Statistics) {
-	stats = format.NewStatistics()
-	if e.HasMin {
-		stats.MinValue = e.Min
-		// if sort order is SIGNED then the old min value must be set too for backwards compatibility
-		if e.Signed {
-			stats.Min = e.Min
-		}
-	}
-	if e.HasMax {
-		stats.MaxValue = e.Max
-		// if sort order is SIGNED then old max value must be set to
-		if e.Signed {
-			stats.Max = e.Max
-		}
-	}
-	if e.HasNullCount {
-		stats.NullCount = &e.NullCount
-	}
-	if e.HasDistinctCount {
-		stats.DistinctCount = &e.DistinctCount
-	}
-	return
-}
-
-// TypedStatistics is the base interface for dealing with stats as
-// they are being populated
-type TypedStatistics interface {
-	// Type is the underlying physical type for this stat block
-	Type() parquet.Type
-	// Returns true if there is a min and max value set for this stat object
-	HasMinMax() bool
-	// Returns true if a nullcount has been set
-	HasNullCount() bool
-	// returns true only if a distinct count has been set
-	// current implementation does of the writer does not automatically populate
-	// the distinct count right now.
-	HasDistinctCount() bool
-	NullCount() int64
-	DistinctCount() int64
-	NumValues() int64
-	// return the column descriptor that this stat object was initialized with
-	Descr() *schema.Column
-
-	// Encode the current min value and return the bytes. ByteArray does not
-	// include the len in the encoded bytes, otherwise this is identical to
-	// plain encoding
-	EncodeMin() []byte
-	// Encode the current max value and return the bytes. ByteArray does not
-	// include the len in the encoded bytes, otherwise this is identical to
-	// plain encoding
-	EncodeMax() []byte
-	// Populate an EncodedStatistics object from the current stats
-	Encode() (EncodedStatistics, error)
-	// Resets all values to 0 to enable reusing this stat object for multiple
-	// columns, by calling Encode to get the finished values and then calling
-	// reset
-	Reset()
-	// Merge the min/max/nullcounts and distinct count from the passed stat object
-	// into this one.
-	Merge(TypedStatistics)
-
-	// UpdateFromArrow updates the statistics from an Arrow Array,
-	// only updating the null and num value counts if updateCounts
-	// is true.
-	UpdateFromArrow(values arrow.Array, updateCounts bool) error
-	// IncNulls increments the number of nulls in the statistics
-	// and marks HasNullCount as true
-	IncNulls(int64)
-	// IncDistinct increments the number of distinct values in
-	// the statistics and marks HasDistinctCount as true
-	IncDistinct(int64)
-	// IncNumValues increments the total number of values in
-	// the statistics
-	IncNumValues(int64)
-}
-
-type statistics struct {
-	descr            *schema.Column
-	hasMinMax        bool
-	hasNullCount     bool
-	hasDistinctCount bool
-	mem              memory.Allocator
-	nvalues          int64
-	stats            EncodedStatistics
-	order            schema.SortOrder
-
-	encoder encoding.TypedEncoder
-}
-
-func (s *statistics) IncNumValues(n int64) {
-	s.nvalues += n
-}
-func (s *statistics) IncNulls(n int64) {
-	s.stats.NullCount += n
-	s.hasNullCount = true
-}
-func (s *statistics) IncDistinct(n int64) {
-	s.stats.DistinctCount += n
-	s.hasDistinctCount = true
-}
-
-func (s *statistics) Descr() *schema.Column  { return s.descr }
-func (s *statistics) Type() parquet.Type     { return s.descr.PhysicalType() }
-func (s *statistics) HasDistinctCount() bool { return s.hasDistinctCount }
-func (s *statistics) HasMinMax() bool        { return s.hasMinMax }
-func (s *statistics) HasNullCount() bool     { return s.hasNullCount }
-func (s *statistics) NullCount() int64       { return s.stats.NullCount }
-func (s *statistics) DistinctCount() int64   { return s.stats.DistinctCount }
-func (s *statistics) NumValues() int64       { return s.nvalues }
-
-func (s *statistics) Reset() {
-	s.stats.NullCount = 0
-	s.stats.DistinctCount = 0
-	s.nvalues = 0
-	s.hasMinMax = false
-	s.hasDistinctCount = false
-	s.hasNullCount = false
-}
-
-// base merge function for base non-typed stat object so we don't have to
-// duplicate this in each of the typed implementations
-func (s *statistics) merge(other TypedStatistics) {
-	s.nvalues += other.NumValues()
-	if other.HasNullCount() {
-		s.stats.NullCount += other.NullCount()
-	}
-	if other.HasDistinctCount() {
-		// this isn't technically correct as it should be keeping an actual set
-		// of the distinct values and then combining the sets to get a new count
-		// but for now we'll do this to match the C++ implementation at the current
-		// time.
-		s.stats.DistinctCount += other.DistinctCount()
-	}
-}
-
-func coalesce(val, fallback interface{}) interface{} {
-	switch v := val.(type) {
-	case float32:
-		if math.IsNaN(float64(v)) {
-			return fallback
-		}
-	case float64:
-		if math.IsNaN(v) {
-			return fallback
-		}
-	}
-	return val
-}
-
-func signedByteLess(a, b []byte) bool {
-	// signed comparison is used for integers encoded as big-endian twos complement
-	// integers (e.g. decimals)
-
-	// if at least one of the lengths is zero, we can short circuit
-	if len(a) == 0 || len(b) == 0 {
-		return len(a) == 0 && len(b) > 0
-	}
-
-	sa := *(*[]int8)(unsafe.Pointer(&a))
-	sb := *(*[]int8)(unsafe.Pointer(&b))
-
-	// we can short circuit for different signed numbers or for equal length byte
-	// arrays that have different first bytes. The equality requirement is necessary
-	// for sign extension cases. 0xFF10 should be equal to 0x10 (due to big endian sign extension)
-	if int8(0x80&uint8(sa[0])) != int8(0x80&uint8(sb[0])) || (len(sa) == len(sb) && sa[0] != sb[0]) {
-		return sa[0] < sb[0]
-	}
-
-	// when the lengths are unequal and the numbers are of the same sign, we need
-	// to do comparison by sign extending the shorter value first, and once we get
-	// to equal sized arrays, lexicographical unsigned comparison of everything but
-	// the first byte is sufficient.
-
-	if len(a) != len(b) {
-		var lead []byte
-		if len(a) > len(b) {
-			leadLen := len(a) - len(b)
-			lead = a[:leadLen]
-			a = a[leadLen:]
-		} else {
-			debug.Assert(len(a) < len(b), "something weird in byte slice signed comparison")
-			leadLen := len(b) - len(a)
-			lead = b[:leadLen]
-			b = b[leadLen:]
-		}
-
-		// compare extra bytes to the sign extension of the first byte of the other number
-		var extension byte
-		if sa[0] < 0 {
-			extension = 0xFF
-		}
-
-		notequal := false
-		for _, c := range lead {
-			if c != extension {
-				notequal = true
-				break
-			}
-		}
-
-		if notequal {
-			// since sign extension are extrema values for unsigned bytes:
-			//
-			// Four cases exist:
-			//	 negative values:
-			//	   b is the longer value
-			//       b must be the lesser value: return false
-			//     else:
-			//       a must be the lesser value: return true
-			//
-			//   positive values:
-			//     b is the longer value
-			//       values in b must be greater than a: return true
-			//     else:
-			//       values in a must be greater than b: return false
-			neg := sa[0] < 0
-			blonger := len(sa) < len(sb)
-			return neg != blonger
-		}
-	} else {
-		a = a[1:]
-		b = b[1:]
-	}
-
-	return bytes.Compare(a, b) == -1
-}
-
-func (BooleanStatistics) defaultMin() bool { return true }
-func (BooleanStatistics) defaultMax() bool { return false }
-func (s *Int32Statistics) defaultMin() int32 {
-	if s.order == schema.SortUNSIGNED {
-		val := uint32(math.MaxUint32)
-		return int32(val)
-	}
-	return math.MaxInt32
-}
-
-func (s *Int32Statistics) defaultMax() int32 {
-	if s.order == schema.SortUNSIGNED {
-		return int32(0)
-	}
-	return math.MinInt32
-}
-
-func (s *Int64Statistics) defaultMin() int64 {
-	if s.order == schema.SortUNSIGNED {
-		val := uint64(math.MaxUint64)
-		return int64(val)
-	}
-	return math.MaxInt64
-}
-
-func (s *Int64Statistics) defaultMax() int64 {
-	if s.order == schema.SortUNSIGNED {
-		return int64(0)
-	}
-	return math.MinInt64
-}
-
-var (
-	defaultMinInt96  parquet.Int96
-	defaultMinUInt96 parquet.Int96
-	defaultMaxInt96  parquet.Int96
-	defaultMaxUInt96 parquet.Int96
-
-	defaultMinFloat16 parquet.FixedLenByteArray = float16.MaxNum.ToLEBytes()
-	defaultMaxFloat16 parquet.FixedLenByteArray = float16.MinNum.ToLEBytes()
-)
-
-func init() {
-	i96 := arrow.Uint32Traits.CastFromBytes(defaultMinInt96[:])
-	i96[0] = math.MaxUint32
-	i96[1] = math.MaxUint32
-	i96[2] = math.MaxInt32
-
-	i96 = arrow.Uint32Traits.CastFromBytes(defaultMinUInt96[:])
-	i96[0] = math.MaxUint32
-	i96[1] = math.MaxUint32
-	i96[2] = math.MaxUint32
-
-	// golang will initialize the bytes to 0
-	i96 = arrow.Uint32Traits.CastFromBytes(defaultMaxInt96[:])
-	i96[2] = math.MaxInt32 + 1
-
-	// defaultMaxUInt96 will be initialized to 0 as desired
-}
-
-func (s *Int96Statistics) defaultMin() parquet.Int96 {
-	if s.order == schema.SortUNSIGNED {
-		return defaultMinUInt96
-	}
-	return defaultMinInt96
-}
-
-func (s *Int96Statistics) defaultMax() parquet.Int96 {
-	if s.order == schema.SortUNSIGNED {
-		return defaultMaxUInt96
-	}
-	return defaultMaxInt96
-}
-
-func (Float16Statistics) defaultMin() parquet.FixedLenByteArray {
-	return defaultMinFloat16
-}
-
-func (Float16Statistics) defaultMax() parquet.FixedLenByteArray {
-	return defaultMaxFloat16
-}
-
-func (Float32Statistics) defaultMin() float32                             { return math.MaxFloat32 }
-func (Float32Statistics) defaultMax() float32                             { return -math.MaxFloat32 }
-func (Float64Statistics) defaultMin() float64                             { return math.MaxFloat64 }
-func (Float64Statistics) defaultMax() float64                             { return -math.MaxFloat64 }
-func (ByteArrayStatistics) defaultMin() parquet.ByteArray                 { return nil }
-func (ByteArrayStatistics) defaultMax() parquet.ByteArray                 { return nil }
-func (FixedLenByteArrayStatistics) defaultMin() parquet.FixedLenByteArray { return nil }
-func (FixedLenByteArrayStatistics) defaultMax() parquet.FixedLenByteArray { return nil }
-
-func (BooleanStatistics) equal(a, b bool) bool                { return a == b }
-func (Int32Statistics) equal(a, b int32) bool                 { return a == b }
-func (Int64Statistics) equal(a, b int64) bool                 { return a == b }
-func (Float32Statistics) equal(a, b float32) bool             { return a == b }
-func (Float64Statistics) equal(a, b float64) bool             { return a == b }
-func (Int96Statistics) equal(a, b parquet.Int96) bool         { return bytes.Equal(a[:], b[:]) }
-func (ByteArrayStatistics) equal(a, b parquet.ByteArray) bool { return bytes.Equal(a, b) }
-func (FixedLenByteArrayStatistics) equal(a, b parquet.FixedLenByteArray) bool {
-	return bytes.Equal(a, b)
-}
-
-func (Float16Statistics) equal(a, b parquet.FixedLenByteArray) bool {
-	return float16.FromLEBytes(a).Equal(float16.FromLEBytes(b))
-}
-
-func (BooleanStatistics) less(a, b bool) bool {
-	return !a && b
-}
-
-func (s *Int32Statistics) less(a, b int32) bool {
-	if s.order == schema.SortUNSIGNED {
-		return uint32(a) < uint32(b)
-	}
-	return a < b
-}
-
-func (s *Int64Statistics) less(a, b int64) bool {
-	if s.order == schema.SortUNSIGNED {
-		return uint64(a) < uint64(b)
-	}
-	return a < b
-}
-func (Float32Statistics) less(a, b float32) bool { return a < b }
-func (Float64Statistics) less(a, b float64) bool { return a < b }
-func (s *Int96Statistics) less(a, b parquet.Int96) bool {
-	i96a := arrow.Uint32Traits.CastFromBytes(a[:])
-	i96b := arrow.Uint32Traits.CastFromBytes(b[:])
-
-	a0, a1, a2 := utils.ToLEUint32(i96a[0]), utils.ToLEUint32(i96a[1]), utils.ToLEUint32(i96a[2])
-	b0, b1, b2 := utils.ToLEUint32(i96b[0]), utils.ToLEUint32(i96b[1]), utils.ToLEUint32(i96b[2])
-
-	if a2 != b2 {
-		// only the msb bit is by signed comparison
-		if s.order == schema.SortSIGNED {
-			return int32(a2) < int32(b2)
-		}
-		return a2 < b2
-	} else if a1 != b1 {
-		return a1 < b1
-	}
-	return a0 < b0
-}
-
-func (s *ByteArrayStatistics) less(a, b parquet.ByteArray) bool {
-	if s.order == schema.SortUNSIGNED {
-		return bytes.Compare(a, b) == -1
-	}
-
-	return signedByteLess([]byte(a), []byte(b))
-}
-
-func (s *FixedLenByteArrayStatistics) less(a, b parquet.FixedLenByteArray) bool {
-	if s.order == schema.SortUNSIGNED {
-		return bytes.Compare(a, b) == -1
-	}
-
-	return signedByteLess([]byte(a), []byte(b))
-}
-
-func (Float16Statistics) less(a, b parquet.FixedLenByteArray) bool {
-	return float16.FromLEBytes(a).Less(float16.FromLEBytes(b))
-}
-
-func (BooleanStatistics) cleanStat(minMax minmaxPairBoolean) *minmaxPairBoolean { return &minMax }
-func (Int32Statistics) cleanStat(minMax minmaxPairInt32) *minmaxPairInt32       { return &minMax }
-func (Int64Statistics) cleanStat(minMax minmaxPairInt64) *minmaxPairInt64       { return &minMax }
-func (Int96Statistics) cleanStat(minMax minmaxPairInt96) *minmaxPairInt96       { return &minMax }
-
-// in the case of floating point types, the following rules are applied as per parquet-mr:
-// - if any of min/max is NaN, return nothing
-// - if min is 0.0f replace with -0.0f
-// - if max is -0.0f replace with 0.0f
-//
-// https://issues.apache.org/jira/browse/PARQUET-1222 tracks the official documenting of
-// a well-defined order for floats and doubles.
-func (Float32Statistics) cleanStat(minMax minmaxPairFloat32) *minmaxPairFloat32 {
-	if math.IsNaN(float64(minMax[0])) || math.IsNaN(float64(minMax[1])) {
-		return nil
-	}
-
-	if minMax[0] == math.MaxFloat32 && minMax[1] == -math.MaxFloat32 {
-		return nil
-	}
-
-	var zero float32 = 0
-	if minMax[0] == zero && !math.Signbit(float64(minMax[0])) {
-		minMax[0] = -minMax[0]
-	}
-
-	if minMax[1] == zero && math.Signbit(float64(minMax[1])) {
-		minMax[1] = -minMax[1]
-	}
-
-	return &minMax
-}
-
-func (Float64Statistics) cleanStat(minMax minmaxPairFloat64) *minmaxPairFloat64 {
-	if math.IsNaN(minMax[0]) || math.IsNaN(minMax[1]) {
-		return nil
-	}
-
-	if minMax[0] == math.MaxFloat64 && minMax[1] == -math.MaxFloat64 {
-		return nil
-	}
-
-	var zero float64 = 0
-	if minMax[0] == zero && !math.Signbit(minMax[0]) {
-		minMax[0] = -minMax[0]
-	}
-
-	if minMax[1] == zero && math.Signbit(minMax[1]) {
-		minMax[1] = -minMax[1]
-	}
-
-	return &minMax
-}
-
-func (Float16Statistics) cleanStat(minMax minmaxPairFloat16) *minmaxPairFloat16 {
-	min := float16.FromLEBytes(minMax[0][:])
-	max := float16.FromLEBytes(minMax[1][:])
-
-	if min.IsNaN() || max.IsNaN() {
-		return nil
-	}
-
-	if min.Equal(float16.MaxNum) && max.Equal(float16.MinNum) {
-		return nil
-	}
-
-	zero := float16.New(0)
-	if min.Equal(zero) && !min.Signbit() {
-		minMax[0] = min.Negate().ToLEBytes()
-	}
-	if max.Equal(zero) && max.Signbit() {
-		minMax[1] = max.Negate().ToLEBytes()
-	}
-
-	return &minMax
-}
-
-func (ByteArrayStatistics) cleanStat(minMax minmaxPairByteArray) *minmaxPairByteArray {
-	if minMax[0] == nil || minMax[1] == nil {
-		return nil
-	}
-	return &minMax
-}
-
-func (FixedLenByteArrayStatistics) cleanStat(minMax minmaxPairFixedLenByteArray) *minmaxPairFixedLenByteArray {
-	if minMax[0] == nil || minMax[1] == nil {
-		return nil
-	}
-	return &minMax
-}
-
-func GetStatValue(typ parquet.Type, val []byte) interface{} {
-	switch typ {
-	case parquet.Types.Boolean:
-		return val[0] != 0
-	case parquet.Types.Int32:
-		return int32(binary.LittleEndian.Uint32(val))
-	case parquet.Types.Int64:
-		return int64(binary.LittleEndian.Uint64(val))
-	case parquet.Types.Int96:
-		p := parquet.Int96{}
-		copy(p[:], val)
-		return p
-	case parquet.Types.Float:
-		return math.Float32frombits(binary.LittleEndian.Uint32(val))
-	case parquet.Types.Double:
-		return math.Float64frombits(binary.LittleEndian.Uint64(val))
-	case parquet.Types.ByteArray:
-		fallthrough
-	case parquet.Types.FixedLenByteArray:
-		return val
-	}
-	return nil
-}
diff --git a/go/parquet/metadata/statistics_test.go b/go/parquet/metadata/statistics_test.go
deleted file mode 100644
index 913629959e928..0000000000000
--- a/go/parquet/metadata/statistics_test.go
+++ /dev/null
@@ -1,262 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata_test
-
-import (
-	"math"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-)
-
-// NOTE(zeroshade): tests will be added and updated after merging the "file" package
-// since the tests that I wrote relied on the file writer/reader for ease of use.
-
-func newFloat16Node(name string, rep parquet.Repetition, fieldID int32) *schema.PrimitiveNode {
-	return schema.MustPrimitive(schema.NewPrimitiveNodeLogical(name, rep, schema.Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2, fieldID))
-}
-
-func TestCheckNaNs(t *testing.T) {
-	const (
-		numvals = 8
-		min     = -4.0
-		max     = 3.0
-	)
-	var (
-		nan                              = math.NaN()
-		f16Min parquet.FixedLenByteArray = float16.New(float32(min)).ToLEBytes()
-		f16Max parquet.FixedLenByteArray = float16.New(float32(max)).ToLEBytes()
-	)
-
-	allNans := []float64{nan, nan, nan, nan, nan, nan, nan, nan}
-	allNansf32 := make([]float32, numvals)
-	allNansf16 := make([]parquet.FixedLenByteArray, numvals)
-	for idx, v := range allNans {
-		allNansf32[idx] = float32(v)
-		allNansf16[idx] = float16.New(float32(v)).ToLEBytes()
-	}
-
-	someNans := []float64{nan, max, -3.0, -1.0, nan, 2.0, min, nan}
-	someNansf32 := make([]float32, numvals)
-	someNansf16 := make([]parquet.FixedLenByteArray, numvals)
-	for idx, v := range someNans {
-		someNansf32[idx] = float32(v)
-		someNansf16[idx] = float16.New(float32(v)).ToLEBytes()
-	}
-
-	validBitmap := []byte{0x7F}       // 0b01111111
-	validBitmapNoNaNs := []byte{0x6E} // 0b01101110
-
-	assertUnsetMinMax := func(stats metadata.TypedStatistics, values interface{}, bitmap []byte) {
-		if bitmap == nil {
-			switch s := stats.(type) {
-			case *metadata.Float32Statistics:
-				s.Update(values.([]float32), 0)
-			case *metadata.Float64Statistics:
-				s.Update(values.([]float64), 0)
-			case *metadata.Float16Statistics:
-				s.Update(values.([]parquet.FixedLenByteArray), 0)
-			}
-			assert.False(t, stats.HasMinMax())
-		} else {
-			nvalues := reflect.ValueOf(values).Len()
-			nullCount := bitutil.CountSetBits(bitmap, 0, nvalues)
-			switch s := stats.(type) {
-			case *metadata.Float32Statistics:
-				s.UpdateSpaced(values.([]float32), bitmap, 0, int64(nullCount))
-			case *metadata.Float64Statistics:
-				s.UpdateSpaced(values.([]float64), bitmap, 0, int64(nullCount))
-			case *metadata.Float16Statistics:
-				s.UpdateSpaced(values.([]parquet.FixedLenByteArray), bitmap, 0, int64(nullCount))
-			}
-			assert.False(t, stats.HasMinMax())
-		}
-	}
-
-	assertMinMaxAre := func(stats metadata.TypedStatistics, values interface{}, expectedMin, expectedMax interface{}) {
-		switch s := stats.(type) {
-		case *metadata.Float32Statistics:
-			s.Update(values.([]float32), 0)
-			assert.True(t, stats.HasMinMax())
-			assert.Equal(t, expectedMin, s.Min())
-			assert.Equal(t, expectedMax, s.Max())
-		case *metadata.Float64Statistics:
-			s.Update(values.([]float64), 0)
-			assert.True(t, stats.HasMinMax())
-			assert.Equal(t, expectedMin, s.Min())
-			assert.Equal(t, expectedMax, s.Max())
-		case *metadata.Float16Statistics:
-			s.Update(values.([]parquet.FixedLenByteArray), 0)
-			assert.True(t, stats.HasMinMax())
-			assert.Equal(t, expectedMin, s.Min())
-			assert.Equal(t, expectedMax, s.Max())
-		}
-	}
-
-	assertMinMaxAreSpaced := func(stats metadata.TypedStatistics, values interface{}, bitmap []byte, expectedMin, expectedMax interface{}) {
-		nvalues := reflect.ValueOf(values).Len()
-		nullCount := bitutil.CountSetBits(bitmap, 0, nvalues)
-		switch s := stats.(type) {
-		case *metadata.Float32Statistics:
-			s.UpdateSpaced(values.([]float32), bitmap, 0, int64(nullCount))
-			assert.True(t, s.HasMinMax())
-			assert.Equal(t, expectedMin, s.Min())
-			assert.Equal(t, expectedMax, s.Max())
-		case *metadata.Float64Statistics:
-			s.UpdateSpaced(values.([]float64), bitmap, 0, int64(nullCount))
-			assert.True(t, s.HasMinMax())
-			assert.Equal(t, expectedMin, s.Min())
-			assert.Equal(t, expectedMax, s.Max())
-		case *metadata.Float16Statistics:
-			s.UpdateSpaced(values.([]parquet.FixedLenByteArray), bitmap, 0, int64(nullCount))
-			assert.True(t, s.HasMinMax())
-			assert.Equal(t, expectedMin, s.Min())
-			assert.Equal(t, expectedMax, s.Max())
-		}
-	}
-
-	f32Col := schema.NewColumn(schema.NewFloat32Node("f", parquet.Repetitions.Optional, -1), 1, 1)
-	f64Col := schema.NewColumn(schema.NewFloat64Node("f", parquet.Repetitions.Optional, -1), 1, 1)
-	f16Col := schema.NewColumn(newFloat16Node("f", parquet.Repetitions.Required, -1), 1, 1)
-	// test values
-	someNanStats := metadata.NewStatistics(f64Col, memory.DefaultAllocator)
-	someNanStatsf32 := metadata.NewStatistics(f32Col, memory.DefaultAllocator)
-	someNanStatsf16 := metadata.NewStatistics(f16Col, memory.DefaultAllocator)
-	// ingesting only nans should not yield a min or max
-	assertUnsetMinMax(someNanStats, allNans, nil)
-	assertUnsetMinMax(someNanStatsf32, allNansf32, nil)
-	assertUnsetMinMax(someNanStatsf16, allNansf16, nil)
-	// ingesting a mix should yield a valid min/max
-	assertMinMaxAre(someNanStats, someNans, min, max)
-	assertMinMaxAre(someNanStatsf32, someNansf32, float32(min), float32(max))
-	assertMinMaxAre(someNanStatsf16, someNansf16, f16Min, f16Max)
-	// ingesting only nans after a valid min/max should have no effect
-	assertMinMaxAre(someNanStats, allNans, min, max)
-	assertMinMaxAre(someNanStatsf32, allNansf32, float32(min), float32(max))
-	assertMinMaxAre(someNanStatsf16, allNansf16, f16Min, f16Max)
-
-	someNanStats = metadata.NewStatistics(f64Col, memory.DefaultAllocator)
-	someNanStatsf32 = metadata.NewStatistics(f32Col, memory.DefaultAllocator)
-	someNanStatsf16 = metadata.NewStatistics(f16Col, memory.DefaultAllocator)
-	assertUnsetMinMax(someNanStats, allNans, validBitmap)
-	assertUnsetMinMax(someNanStatsf32, allNansf32, validBitmap)
-	assertUnsetMinMax(someNanStatsf16, allNansf16, validBitmap)
-	// nans should not pollute min/max when excluded via null bitmap
-	assertMinMaxAreSpaced(someNanStats, someNans, validBitmapNoNaNs, min, max)
-	assertMinMaxAreSpaced(someNanStatsf32, someNansf32, validBitmapNoNaNs, float32(min), float32(max))
-	assertMinMaxAreSpaced(someNanStatsf16, someNansf16, validBitmapNoNaNs, f16Min, f16Max)
-	// ingesting nans with a null bitmap should not change the result
-	assertMinMaxAreSpaced(someNanStats, someNans, validBitmap, min, max)
-	assertMinMaxAreSpaced(someNanStatsf32, someNansf32, validBitmap, float32(min), float32(max))
-	assertMinMaxAreSpaced(someNanStatsf16, someNansf16, validBitmap, f16Min, f16Max)
-}
-
-func TestCheckNegativeZeroStats(t *testing.T) {
-	assertMinMaxZeroesSign := func(stats metadata.TypedStatistics, values interface{}) {
-		switch s := stats.(type) {
-		case *metadata.Float32Statistics:
-			s.Update(values.([]float32), 0)
-			assert.True(t, s.HasMinMax())
-			var zero float32
-			assert.Equal(t, zero, s.Min())
-			assert.True(t, math.Signbit(float64(s.Min())))
-			assert.Equal(t, zero, s.Max())
-			assert.False(t, math.Signbit(float64(s.Max())))
-		case *metadata.Float64Statistics:
-			s.Update(values.([]float64), 0)
-			assert.True(t, s.HasMinMax())
-			var zero float64
-			assert.Equal(t, zero, s.Min())
-			assert.True(t, math.Signbit(s.Min()))
-			assert.Equal(t, zero, s.Max())
-			assert.False(t, math.Signbit(s.Max()))
-		case *metadata.Float16Statistics:
-			s.Update(values.([]parquet.FixedLenByteArray), 0)
-			assert.True(t, s.HasMinMax())
-			var zero float64
-			min := float64(float16.FromLEBytes(s.Min()).Float32())
-			max := float64(float16.FromLEBytes(s.Max()).Float32())
-			assert.Equal(t, zero, min)
-			assert.True(t, math.Signbit(min))
-			assert.Equal(t, zero, max)
-			assert.False(t, math.Signbit(max))
-		}
-	}
-
-	fcol := schema.NewColumn(schema.NewFloat32Node("f", parquet.Repetitions.Optional, -1), 1, 1)
-	dcol := schema.NewColumn(schema.NewFloat64Node("d", parquet.Repetitions.Optional, -1), 1, 1)
-	hcol := schema.NewColumn(newFloat16Node("h", parquet.Repetitions.Optional, -1), 1, 1)
-
-	var f32zero float32
-	var f64zero float64
-	var f16PosZero parquet.FixedLenByteArray = float16.New(+f32zero).ToLEBytes()
-	var f16NegZero parquet.FixedLenByteArray = float16.New(-f32zero).ToLEBytes()
-
-	assert.False(t, float16.FromLEBytes(f16PosZero).Signbit())
-	assert.True(t, float16.FromLEBytes(f16NegZero).Signbit())
-	{
-		fstats := metadata.NewStatistics(fcol, memory.DefaultAllocator)
-		dstats := metadata.NewStatistics(dcol, memory.DefaultAllocator)
-		hstats := metadata.NewStatistics(hcol, memory.DefaultAllocator)
-		assertMinMaxZeroesSign(fstats, []float32{-f32zero, f32zero})
-		assertMinMaxZeroesSign(dstats, []float64{-f64zero, f64zero})
-		assertMinMaxZeroesSign(hstats, []parquet.FixedLenByteArray{f16NegZero, f16PosZero})
-	}
-	{
-		fstats := metadata.NewStatistics(fcol, memory.DefaultAllocator)
-		dstats := metadata.NewStatistics(dcol, memory.DefaultAllocator)
-		hstats := metadata.NewStatistics(hcol, memory.DefaultAllocator)
-		assertMinMaxZeroesSign(fstats, []float32{f32zero, -f32zero})
-		assertMinMaxZeroesSign(dstats, []float64{f64zero, -f64zero})
-		assertMinMaxZeroesSign(hstats, []parquet.FixedLenByteArray{f16PosZero, f16NegZero})
-	}
-	{
-		fstats := metadata.NewStatistics(fcol, memory.DefaultAllocator)
-		dstats := metadata.NewStatistics(dcol, memory.DefaultAllocator)
-		hstats := metadata.NewStatistics(hcol, memory.DefaultAllocator)
-		assertMinMaxZeroesSign(fstats, []float32{-f32zero, -f32zero})
-		assertMinMaxZeroesSign(dstats, []float64{-f64zero, -f64zero})
-		assertMinMaxZeroesSign(hstats, []parquet.FixedLenByteArray{f16NegZero, f16NegZero})
-	}
-	{
-		fstats := metadata.NewStatistics(fcol, memory.DefaultAllocator)
-		dstats := metadata.NewStatistics(dcol, memory.DefaultAllocator)
-		hstats := metadata.NewStatistics(hcol, memory.DefaultAllocator)
-		assertMinMaxZeroesSign(fstats, []float32{f32zero, f32zero})
-		assertMinMaxZeroesSign(dstats, []float64{f64zero, f64zero})
-		assertMinMaxZeroesSign(hstats, []parquet.FixedLenByteArray{f16PosZero, f16PosZero})
-	}
-}
-
-func TestBooleanStatisticsEncoding(t *testing.T) {
-	n := schema.NewBooleanNode("boolean", parquet.Repetitions.Required, -1)
-	descr := schema.NewColumn(n, 0, 0)
-	s := metadata.NewStatistics(descr, nil)
-	bs := s.(*metadata.BooleanStatistics)
-	bs.SetMinMax(false, true)
-	maxEnc := bs.EncodeMax()
-	minEnc := bs.EncodeMin()
-	assert.Equal(t, []byte{1}, maxEnc)
-	assert.Equal(t, []byte{0}, minEnc)
-}
diff --git a/go/parquet/metadata/statistics_types.gen.go b/go/parquet/metadata/statistics_types.gen.go
deleted file mode 100644
index 0c383fc7f5414..0000000000000
--- a/go/parquet/metadata/statistics_types.gen.go
+++ /dev/null
@@ -1,2742 +0,0 @@
-// Code generated by statistics_types.gen.go.tmpl. DO NOT EDIT.
-
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-)
-
-type minmaxPairInt32 [2]int32
-
-// Int32Statistics is the typed interface for managing stats for a column
-// of Int32 type.
-type Int32Statistics struct {
-	statistics
-	min int32
-	max int32
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewInt32Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.Int32
-func NewInt32Statistics(descr *schema.Column, mem memory.Allocator) *Int32Statistics {
-	if descr.PhysicalType() != parquet.Types.Int32 {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Int32 stat object", descr.PhysicalType()))
-	}
-
-	return &Int32Statistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewInt32StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewInt32StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *Int32Statistics {
-	ret := NewInt32Statistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *Int32Statistics) plainEncode(src int32) []byte {
-	s.encoder.(encoding.Int32Encoder).Put([]int32{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *Int32Statistics) plainDecode(src []byte) int32 {
-	var buf [1]int32
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.Int32Decoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *Int32Statistics) minval(a, b int32) int32 {
-	if s.less(a, b) {
-		return a
-	}
-	return b
-}
-
-func (s *Int32Statistics) maxval(a, b int32) int32 {
-	if s.less(a, b) {
-		return b
-	}
-	return a
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *Int32Statistics) MinMaxEqual(rhs *Int32Statistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *Int32Statistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*Int32Statistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *Int32Statistics) getMinMax(values []int32) (min, max int32) {
-	if s.order == schema.SortSIGNED {
-		min, max = shared_utils.GetMinMaxInt32(values)
-	} else {
-		umin, umax := shared_utils.GetMinMaxUint32(arrow.Uint32Traits.CastFromBytes(arrow.Int32Traits.CastToBytes(values)))
-		min, max = int32(umin), int32(umax)
-	}
-	return
-}
-
-func (s *Int32Statistics) getMinMaxSpaced(values []int32, validBits []byte, validBitsOffset int64) (min, max int32) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-	var fn func([]int32) (int32, int32)
-	if s.order == schema.SortSIGNED {
-		fn = shared_utils.GetMinMaxInt32
-	} else {
-		fn = func(v []int32) (int32, int32) {
-			umin, umax := shared_utils.GetMinMaxUint32(arrow.Uint32Traits.CastFromBytes(arrow.Int32Traits.CastToBytes(values)))
-			return int32(umin), int32(umax)
-		}
-	}
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		localMin, localMax := fn(values[int(run.Pos):int(run.Pos+run.Length)])
-		if min > localMin {
-			min = localMin
-		}
-		if max < localMax {
-			max = localMax
-		}
-	}
-	return
-}
-
-func (s *Int32Statistics) Min() int32 { return s.min }
-func (s *Int32Statistics) Max() int32 { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *Int32Statistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*Int32Statistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *Int32Statistics) Update(values []int32, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *Int32Statistics) UpdateSpaced(values []int32, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *Int32Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	if values.DataType().(arrow.FixedWidthDataType).Bytes() != arrow.Int32SizeBytes {
-		return fmt.Errorf("%w: cannot update int32 stats with %s arrow array",
-			arrow.ErrInvalid, values.DataType())
-	}
-
-	rawBytes := values.Data().Buffers()[1].Bytes()[values.Data().Offset()*arrow.Int32SizeBytes:]
-	s.SetMinMax(s.getMinMax(arrow.Int32Traits.CastFromBytes(rawBytes)))
-	return nil
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *Int32Statistics) SetMinMax(argMin, argMax int32) {
-	maybeMinMax := s.cleanStat([2]int32{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *Int32Statistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *Int32Statistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *Int32Statistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairInt64 [2]int64
-
-// Int64Statistics is the typed interface for managing stats for a column
-// of Int64 type.
-type Int64Statistics struct {
-	statistics
-	min int64
-	max int64
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewInt64Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.Int64
-func NewInt64Statistics(descr *schema.Column, mem memory.Allocator) *Int64Statistics {
-	if descr.PhysicalType() != parquet.Types.Int64 {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Int64 stat object", descr.PhysicalType()))
-	}
-
-	return &Int64Statistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewInt64StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewInt64StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *Int64Statistics {
-	ret := NewInt64Statistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *Int64Statistics) plainEncode(src int64) []byte {
-	s.encoder.(encoding.Int64Encoder).Put([]int64{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *Int64Statistics) plainDecode(src []byte) int64 {
-	var buf [1]int64
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.Int64Decoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *Int64Statistics) minval(a, b int64) int64 {
-	if s.less(a, b) {
-		return a
-	}
-	return b
-}
-
-func (s *Int64Statistics) maxval(a, b int64) int64 {
-	if s.less(a, b) {
-		return b
-	}
-	return a
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *Int64Statistics) MinMaxEqual(rhs *Int64Statistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *Int64Statistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*Int64Statistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *Int64Statistics) getMinMax(values []int64) (min, max int64) {
-	if s.order == schema.SortSIGNED {
-		min, max = shared_utils.GetMinMaxInt64(values)
-	} else {
-		umin, umax := shared_utils.GetMinMaxUint64(arrow.Uint64Traits.CastFromBytes(arrow.Int64Traits.CastToBytes(values)))
-		min, max = int64(umin), int64(umax)
-	}
-	return
-}
-
-func (s *Int64Statistics) getMinMaxSpaced(values []int64, validBits []byte, validBitsOffset int64) (min, max int64) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-	var fn func([]int64) (int64, int64)
-	if s.order == schema.SortSIGNED {
-		fn = shared_utils.GetMinMaxInt64
-	} else {
-		fn = func(v []int64) (int64, int64) {
-			umin, umax := shared_utils.GetMinMaxUint64(arrow.Uint64Traits.CastFromBytes(arrow.Int64Traits.CastToBytes(values)))
-			return int64(umin), int64(umax)
-		}
-	}
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		localMin, localMax := fn(values[int(run.Pos):int(run.Pos+run.Length)])
-		if min > localMin {
-			min = localMin
-		}
-		if max < localMax {
-			max = localMax
-		}
-	}
-	return
-}
-
-func (s *Int64Statistics) Min() int64 { return s.min }
-func (s *Int64Statistics) Max() int64 { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *Int64Statistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*Int64Statistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *Int64Statistics) Update(values []int64, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *Int64Statistics) UpdateSpaced(values []int64, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *Int64Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	if values.DataType().(arrow.FixedWidthDataType).Bytes() != arrow.Int64SizeBytes {
-		return fmt.Errorf("%w: cannot update int64 stats with %s arrow array",
-			arrow.ErrInvalid, values.DataType())
-	}
-
-	rawBytes := values.Data().Buffers()[1].Bytes()[values.Data().Offset()*arrow.Int64SizeBytes:]
-	s.SetMinMax(s.getMinMax(arrow.Int64Traits.CastFromBytes(rawBytes)))
-	return nil
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *Int64Statistics) SetMinMax(argMin, argMax int64) {
-	maybeMinMax := s.cleanStat([2]int64{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *Int64Statistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *Int64Statistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *Int64Statistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairInt96 [2]parquet.Int96
-
-// Int96Statistics is the typed interface for managing stats for a column
-// of Int96 type.
-type Int96Statistics struct {
-	statistics
-	min parquet.Int96
-	max parquet.Int96
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewInt96Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.Int96
-func NewInt96Statistics(descr *schema.Column, mem memory.Allocator) *Int96Statistics {
-	if descr.PhysicalType() != parquet.Types.Int96 {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Int96 stat object", descr.PhysicalType()))
-	}
-
-	return &Int96Statistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewInt96StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewInt96StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *Int96Statistics {
-	ret := NewInt96Statistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *Int96Statistics) plainEncode(src parquet.Int96) []byte {
-	s.encoder.(encoding.Int96Encoder).Put([]parquet.Int96{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *Int96Statistics) plainDecode(src []byte) parquet.Int96 {
-	var buf [1]parquet.Int96
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.Int96Decoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *Int96Statistics) minval(a, b parquet.Int96) parquet.Int96 {
-	if s.less(a, b) {
-		return a
-	}
-	return b
-}
-
-func (s *Int96Statistics) maxval(a, b parquet.Int96) parquet.Int96 {
-	if s.less(a, b) {
-		return b
-	}
-	return a
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *Int96Statistics) MinMaxEqual(rhs *Int96Statistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *Int96Statistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*Int96Statistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *Int96Statistics) getMinMax(values []parquet.Int96) (min, max parquet.Int96) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, v)
-		max = s.maxval(max, v)
-	}
-	return
-}
-
-func (s *Int96Statistics) getMinMaxSpaced(values []parquet.Int96, validBits []byte, validBitsOffset int64) (min, max parquet.Int96) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, v)
-			max = s.maxval(max, v)
-		}
-	}
-	return
-}
-
-func (s *Int96Statistics) Min() parquet.Int96 { return s.min }
-func (s *Int96Statistics) Max() parquet.Int96 { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *Int96Statistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*Int96Statistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *Int96Statistics) Update(values []parquet.Int96, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *Int96Statistics) UpdateSpaced(values []parquet.Int96, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *Int96Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	return fmt.Errorf("%w: update int96 stats from Arrow", arrow.ErrNotImplemented)
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *Int96Statistics) SetMinMax(argMin, argMax parquet.Int96) {
-	maybeMinMax := s.cleanStat([2]parquet.Int96{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *Int96Statistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *Int96Statistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *Int96Statistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairFloat32 [2]float32
-
-// Float32Statistics is the typed interface for managing stats for a column
-// of Float32 type.
-type Float32Statistics struct {
-	statistics
-	min float32
-	max float32
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewFloat32Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.Float
-func NewFloat32Statistics(descr *schema.Column, mem memory.Allocator) *Float32Statistics {
-	if descr.PhysicalType() != parquet.Types.Float {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Float32 stat object", descr.PhysicalType()))
-	}
-
-	return &Float32Statistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewFloat32StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewFloat32StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *Float32Statistics {
-	ret := NewFloat32Statistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *Float32Statistics) plainEncode(src float32) []byte {
-	s.encoder.(encoding.Float32Encoder).Put([]float32{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *Float32Statistics) plainDecode(src []byte) float32 {
-	var buf [1]float32
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.Float32Decoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *Float32Statistics) minval(a, b float32) float32 {
-	if s.less(a, b) {
-		return a
-	}
-	return b
-}
-
-func (s *Float32Statistics) maxval(a, b float32) float32 {
-	if s.less(a, b) {
-		return b
-	}
-	return a
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *Float32Statistics) MinMaxEqual(rhs *Float32Statistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *Float32Statistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*Float32Statistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *Float32Statistics) coalesce(val, fallback float32) float32 {
-	if math.IsNaN(float64(val)) {
-		return fallback
-	}
-	return val
-}
-
-func (s *Float32Statistics) getMinMax(values []float32) (min, max float32) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, s.coalesce(v, defMin))
-		max = s.maxval(max, s.coalesce(v, defMax))
-	}
-	return
-}
-
-func (s *Float32Statistics) getMinMaxSpaced(values []float32, validBits []byte, validBitsOffset int64) (min, max float32) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, coalesce(v, s.defaultMin()).(float32))
-			max = s.maxval(max, coalesce(v, s.defaultMax()).(float32))
-		}
-	}
-	return
-}
-
-func (s *Float32Statistics) Min() float32 { return s.min }
-func (s *Float32Statistics) Max() float32 { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *Float32Statistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*Float32Statistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *Float32Statistics) Update(values []float32, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *Float32Statistics) UpdateSpaced(values []float32, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *Float32Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	if values.DataType().(arrow.FixedWidthDataType).Bytes() != arrow.Float32SizeBytes {
-		return fmt.Errorf("%w: cannot update float32 stats with %s arrow array",
-			arrow.ErrInvalid, values.DataType())
-	}
-
-	rawBytes := values.Data().Buffers()[1].Bytes()[values.Data().Offset()*arrow.Float32SizeBytes:]
-	s.SetMinMax(s.getMinMax(arrow.Float32Traits.CastFromBytes(rawBytes)))
-	return nil
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *Float32Statistics) SetMinMax(argMin, argMax float32) {
-	maybeMinMax := s.cleanStat([2]float32{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *Float32Statistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *Float32Statistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *Float32Statistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairFloat64 [2]float64
-
-// Float64Statistics is the typed interface for managing stats for a column
-// of Float64 type.
-type Float64Statistics struct {
-	statistics
-	min float64
-	max float64
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewFloat64Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.Double
-func NewFloat64Statistics(descr *schema.Column, mem memory.Allocator) *Float64Statistics {
-	if descr.PhysicalType() != parquet.Types.Double {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Float64 stat object", descr.PhysicalType()))
-	}
-
-	return &Float64Statistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewFloat64StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewFloat64StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *Float64Statistics {
-	ret := NewFloat64Statistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *Float64Statistics) plainEncode(src float64) []byte {
-	s.encoder.(encoding.Float64Encoder).Put([]float64{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *Float64Statistics) plainDecode(src []byte) float64 {
-	var buf [1]float64
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.Float64Decoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *Float64Statistics) minval(a, b float64) float64 {
-	if s.less(a, b) {
-		return a
-	}
-	return b
-}
-
-func (s *Float64Statistics) maxval(a, b float64) float64 {
-	if s.less(a, b) {
-		return b
-	}
-	return a
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *Float64Statistics) MinMaxEqual(rhs *Float64Statistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *Float64Statistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*Float64Statistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *Float64Statistics) coalesce(val, fallback float64) float64 {
-	if math.IsNaN(float64(val)) {
-		return fallback
-	}
-	return val
-}
-
-func (s *Float64Statistics) getMinMax(values []float64) (min, max float64) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, s.coalesce(v, defMin))
-		max = s.maxval(max, s.coalesce(v, defMax))
-	}
-	return
-}
-
-func (s *Float64Statistics) getMinMaxSpaced(values []float64, validBits []byte, validBitsOffset int64) (min, max float64) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, coalesce(v, s.defaultMin()).(float64))
-			max = s.maxval(max, coalesce(v, s.defaultMax()).(float64))
-		}
-	}
-	return
-}
-
-func (s *Float64Statistics) Min() float64 { return s.min }
-func (s *Float64Statistics) Max() float64 { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *Float64Statistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*Float64Statistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *Float64Statistics) Update(values []float64, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *Float64Statistics) UpdateSpaced(values []float64, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *Float64Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	if values.DataType().(arrow.FixedWidthDataType).Bytes() != arrow.Float64SizeBytes {
-		return fmt.Errorf("%w: cannot update float64 stats with %s arrow array",
-			arrow.ErrInvalid, values.DataType())
-	}
-
-	rawBytes := values.Data().Buffers()[1].Bytes()[values.Data().Offset()*arrow.Float64SizeBytes:]
-	s.SetMinMax(s.getMinMax(arrow.Float64Traits.CastFromBytes(rawBytes)))
-	return nil
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *Float64Statistics) SetMinMax(argMin, argMax float64) {
-	maybeMinMax := s.cleanStat([2]float64{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *Float64Statistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *Float64Statistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *Float64Statistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairBoolean [2]bool
-
-// BooleanStatistics is the typed interface for managing stats for a column
-// of Boolean type.
-type BooleanStatistics struct {
-	statistics
-	min bool
-	max bool
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewBooleanStatistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.Boolean
-func NewBooleanStatistics(descr *schema.Column, mem memory.Allocator) *BooleanStatistics {
-	if descr.PhysicalType() != parquet.Types.Boolean {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Boolean stat object", descr.PhysicalType()))
-	}
-
-	return &BooleanStatistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewBooleanStatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewBooleanStatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *BooleanStatistics {
-	ret := NewBooleanStatistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *BooleanStatistics) plainEncode(src bool) []byte {
-	s.encoder.(encoding.BooleanEncoder).Put([]bool{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *BooleanStatistics) plainDecode(src []byte) bool {
-	var buf [1]bool
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.BooleanDecoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *BooleanStatistics) minval(a, b bool) bool {
-	if s.less(a, b) {
-		return a
-	}
-	return b
-}
-
-func (s *BooleanStatistics) maxval(a, b bool) bool {
-	if s.less(a, b) {
-		return b
-	}
-	return a
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *BooleanStatistics) MinMaxEqual(rhs *BooleanStatistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *BooleanStatistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*BooleanStatistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *BooleanStatistics) getMinMax(values []bool) (min, max bool) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, v)
-		max = s.maxval(max, v)
-	}
-	return
-}
-
-func (s *BooleanStatistics) getMinMaxSpaced(values []bool, validBits []byte, validBitsOffset int64) (min, max bool) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, v)
-			max = s.maxval(max, v)
-		}
-	}
-	return
-}
-
-func (s *BooleanStatistics) Min() bool { return s.min }
-func (s *BooleanStatistics) Max() bool { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *BooleanStatistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*BooleanStatistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *BooleanStatistics) Update(values []bool, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *BooleanStatistics) UpdateSpaced(values []bool, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *BooleanStatistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	return fmt.Errorf("%w: update boolean stats from Arrow", arrow.ErrNotImplemented)
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *BooleanStatistics) SetMinMax(argMin, argMax bool) {
-	maybeMinMax := s.cleanStat([2]bool{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *BooleanStatistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *BooleanStatistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *BooleanStatistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairByteArray [2]parquet.ByteArray
-
-// ByteArrayStatistics is the typed interface for managing stats for a column
-// of ByteArray type.
-type ByteArrayStatistics struct {
-	statistics
-	min parquet.ByteArray
-	max parquet.ByteArray
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewByteArrayStatistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.ByteArray
-func NewByteArrayStatistics(descr *schema.Column, mem memory.Allocator) *ByteArrayStatistics {
-	if descr.PhysicalType() != parquet.Types.ByteArray {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a ByteArray stat object", descr.PhysicalType()))
-	}
-
-	return &ByteArrayStatistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-
-		min: make([]byte, 0),
-		max: make([]byte, 0),
-	}
-}
-
-// NewByteArrayStatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewByteArrayStatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *ByteArrayStatistics {
-	ret := NewByteArrayStatistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *ByteArrayStatistics) plainEncode(src parquet.ByteArray) []byte {
-	out := make([]byte, len(src))
-	copy(out, src)
-	return out
-}
-
-func (s *ByteArrayStatistics) plainDecode(src []byte) parquet.ByteArray {
-	return src
-}
-
-func (s *ByteArrayStatistics) minval(a, b parquet.ByteArray) parquet.ByteArray {
-	switch {
-	case a == nil:
-		return b
-	case b == nil:
-		return a
-	case s.less(a, b):
-		return a
-	default:
-		return b
-	}
-}
-
-func (s *ByteArrayStatistics) maxval(a, b parquet.ByteArray) parquet.ByteArray {
-	switch {
-	case a == nil:
-		return b
-	case b == nil:
-		return a
-	case s.less(a, b):
-		return b
-	default:
-		return a
-	}
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *ByteArrayStatistics) MinMaxEqual(rhs *ByteArrayStatistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *ByteArrayStatistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*ByteArrayStatistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *ByteArrayStatistics) getMinMax(values []parquet.ByteArray) (min, max parquet.ByteArray) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, v)
-		max = s.maxval(max, v)
-	}
-	return
-}
-
-func (s *ByteArrayStatistics) getMinMaxSpaced(values []parquet.ByteArray, validBits []byte, validBitsOffset int64) (min, max parquet.ByteArray) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, v)
-			max = s.maxval(max, v)
-		}
-	}
-	return
-}
-
-func (s *ByteArrayStatistics) Min() parquet.ByteArray { return s.min }
-func (s *ByteArrayStatistics) Max() parquet.ByteArray { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *ByteArrayStatistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*ByteArrayStatistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *ByteArrayStatistics) Update(values []parquet.ByteArray, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *ByteArrayStatistics) UpdateSpaced(values []parquet.ByteArray, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *ByteArrayStatistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	if !arrow.IsBaseBinary(values.DataType().ID()) {
-		return fmt.Errorf("%w: can only update ByteArray stats from binary or string array", arrow.ErrInvalid)
-	}
-
-	var (
-		min       = s.defaultMin()
-		max       = s.defaultMax()
-		arr       = values.(array.BinaryLike)
-		data      = arr.ValueBytes()
-		curOffset = int64(0)
-	)
-
-	for i := 0; i < arr.Len(); i++ {
-		nextOffset := arr.ValueOffset64(i + 1)
-		v := data[curOffset:nextOffset]
-		curOffset = nextOffset
-
-		if len(v) == 0 {
-			continue
-		}
-
-		min = s.minval(min, v)
-		max = s.maxval(max, v)
-	}
-
-	s.SetMinMax(min, max)
-	return nil
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *ByteArrayStatistics) SetMinMax(argMin, argMax parquet.ByteArray) {
-	maybeMinMax := s.cleanStat([2]parquet.ByteArray{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *ByteArrayStatistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *ByteArrayStatistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *ByteArrayStatistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairFixedLenByteArray [2]parquet.FixedLenByteArray
-
-// FixedLenByteArrayStatistics is the typed interface for managing stats for a column
-// of FixedLenByteArray type.
-type FixedLenByteArrayStatistics struct {
-	statistics
-	min parquet.FixedLenByteArray
-	max parquet.FixedLenByteArray
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewFixedLenByteArrayStatistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.FixedLenByteArray
-func NewFixedLenByteArrayStatistics(descr *schema.Column, mem memory.Allocator) *FixedLenByteArrayStatistics {
-	if descr.PhysicalType() != parquet.Types.FixedLenByteArray {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a FixedLenByteArray stat object", descr.PhysicalType()))
-	}
-
-	return &FixedLenByteArrayStatistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewFixedLenByteArrayStatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewFixedLenByteArrayStatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *FixedLenByteArrayStatistics {
-	ret := NewFixedLenByteArrayStatistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *FixedLenByteArrayStatistics) plainEncode(src parquet.FixedLenByteArray) []byte {
-	s.encoder.(encoding.FixedLenByteArrayEncoder).Put([]parquet.FixedLenByteArray{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *FixedLenByteArrayStatistics) plainDecode(src []byte) parquet.FixedLenByteArray {
-	var buf [1]parquet.FixedLenByteArray
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.FixedLenByteArrayDecoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *FixedLenByteArrayStatistics) minval(a, b parquet.FixedLenByteArray) parquet.FixedLenByteArray {
-	switch {
-	case a == nil:
-		return b
-	case b == nil:
-		return a
-	case s.less(a, b):
-		return a
-	default:
-		return b
-	}
-}
-
-func (s *FixedLenByteArrayStatistics) maxval(a, b parquet.FixedLenByteArray) parquet.FixedLenByteArray {
-	switch {
-	case a == nil:
-		return b
-	case b == nil:
-		return a
-	case s.less(a, b):
-		return b
-	default:
-		return a
-	}
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *FixedLenByteArrayStatistics) MinMaxEqual(rhs *FixedLenByteArrayStatistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *FixedLenByteArrayStatistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() {
-		return false
-	}
-	rhs, ok := other.(*FixedLenByteArrayStatistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *FixedLenByteArrayStatistics) getMinMax(values []parquet.FixedLenByteArray) (min, max parquet.FixedLenByteArray) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, v)
-		max = s.maxval(max, v)
-	}
-	return
-}
-
-func (s *FixedLenByteArrayStatistics) getMinMaxSpaced(values []parquet.FixedLenByteArray, validBits []byte, validBitsOffset int64) (min, max parquet.FixedLenByteArray) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, v)
-			max = s.maxval(max, v)
-		}
-	}
-	return
-}
-
-func (s *FixedLenByteArrayStatistics) Min() parquet.FixedLenByteArray { return s.min }
-func (s *FixedLenByteArrayStatistics) Max() parquet.FixedLenByteArray { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *FixedLenByteArrayStatistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*FixedLenByteArrayStatistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *FixedLenByteArrayStatistics) Update(values []parquet.FixedLenByteArray, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *FixedLenByteArrayStatistics) UpdateSpaced(values []parquet.FixedLenByteArray, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *FixedLenByteArrayStatistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	dt := values.DataType()
-	if dt.ID() != arrow.FIXED_SIZE_BINARY && dt.ID() != arrow.DECIMAL {
-		return fmt.Errorf("%w: only fixed size binary and decimal128 arrays are supported to update stats from arrow",
-			arrow.ErrInvalid)
-	}
-
-	var (
-		width = dt.(arrow.FixedWidthDataType).Bytes()
-		data  = values.Data().Buffers()[1].Bytes()[values.Data().Offset()*width:]
-		min   = s.defaultMin()
-		max   = s.defaultMax()
-	)
-
-	for i := 0; i < values.Len(); i++ {
-		v := data[i*width : (i+1)*width]
-		min = s.minval(min, v)
-		max = s.maxval(min, v)
-	}
-
-	s.SetMinMax(min, max)
-	return nil
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *FixedLenByteArrayStatistics) SetMinMax(argMin, argMax parquet.FixedLenByteArray) {
-	maybeMinMax := s.cleanStat([2]parquet.FixedLenByteArray{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *FixedLenByteArrayStatistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *FixedLenByteArrayStatistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *FixedLenByteArrayStatistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-type minmaxPairFloat16 [2]parquet.FixedLenByteArray
-
-// Float16Statistics is the typed interface for managing stats for a column
-// of Float16 type.
-type Float16Statistics struct {
-	statistics
-	min parquet.FixedLenByteArray
-	max parquet.FixedLenByteArray
-
-	bitSetReader bitutils.SetBitRunReader
-}
-
-// NewFloat16Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.FixedLenByteArray
-// Panics if the logical type of descr is not schema.Float16LogicalType
-func NewFloat16Statistics(descr *schema.Column, mem memory.Allocator) *Float16Statistics {
-	if descr.PhysicalType() != parquet.Types.FixedLenByteArray {
-		panic(fmt.Errorf("parquet: invalid type %s for constructing a Float16 stat object", descr.PhysicalType()))
-	}
-	if !descr.LogicalType().Equals(schema.Float16LogicalType{}) {
-		panic(fmt.Errorf("parquet: invalid logical type %s for constructing a Float16 stat object", descr.LogicalType().String()))
-	}
-
-	return &Float16Statistics{
-		statistics: statistics{
-			descr:            descr,
-			hasNullCount:     true,
-			hasDistinctCount: true,
-			order:            descr.SortOrder(),
-			encoder:          encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-			mem:              mem,
-		},
-	}
-}
-
-// NewFloat16StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func NewFloat16StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *Float16Statistics {
-	ret := NewFloat16Statistics(descr, mem)
-	ret.nvalues += nvalues
-	if encoded.IsSetNullCount() {
-		ret.IncNulls(encoded.GetNullCount())
-	}
-	if encoded.IsSetDistinctCount() {
-		ret.IncDistinct(encoded.GetDistinctCount())
-	}
-
-	encodedMin := encoded.GetMin()
-	if encodedMin != nil && len(encodedMin) > 0 {
-		ret.min = ret.plainDecode(encodedMin)
-	}
-	encodedMax := encoded.GetMax()
-	if encodedMax != nil && len(encodedMax) > 0 {
-		ret.max = ret.plainDecode(encodedMax)
-	}
-	ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-	return ret
-}
-
-func (s *Float16Statistics) plainEncode(src parquet.FixedLenByteArray) []byte {
-	s.encoder.(encoding.FixedLenByteArrayEncoder).Put([]parquet.FixedLenByteArray{src})
-	buf, err := s.encoder.FlushValues()
-	if err != nil {
-		panic(err) // recovered by Encode
-	}
-	defer buf.Release()
-
-	out := make([]byte, buf.Len())
-	copy(out, buf.Bytes())
-	return out
-}
-
-func (s *Float16Statistics) plainDecode(src []byte) parquet.FixedLenByteArray {
-	var buf [1]parquet.FixedLenByteArray
-
-	decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-	decoder.SetData(1, src)
-	decoder.(encoding.FixedLenByteArrayDecoder).Decode(buf[:])
-	return buf[0]
-}
-
-func (s *Float16Statistics) minval(a, b parquet.FixedLenByteArray) parquet.FixedLenByteArray {
-	switch {
-	case a == nil:
-		return b
-	case b == nil:
-		return a
-	case s.less(a, b):
-		return a
-	default:
-		return b
-	}
-}
-
-func (s *Float16Statistics) maxval(a, b parquet.FixedLenByteArray) parquet.FixedLenByteArray {
-	switch {
-	case a == nil:
-		return b
-	case b == nil:
-		return a
-	case s.less(a, b):
-		return b
-	default:
-		return a
-	}
-}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *Float16Statistics) MinMaxEqual(rhs *Float16Statistics) bool {
-	return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *Float16Statistics) Equals(other TypedStatistics) bool {
-	if s.Type() != other.Type() || !s.descr.LogicalType().Equals(other.Descr().LogicalType()) {
-		return false
-	}
-	rhs, ok := other.(*Float16Statistics)
-	if !ok {
-		return false
-	}
-
-	if s.HasMinMax() != rhs.HasMinMax() {
-		return false
-	}
-	return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-		s.NullCount() == rhs.NullCount() &&
-		s.DistinctCount() == rhs.DistinctCount() &&
-		s.NumValues() == rhs.NumValues()
-}
-
-func (s *Float16Statistics) coalesce(val, fallback parquet.FixedLenByteArray) parquet.FixedLenByteArray {
-	if float16.FromLEBytes(val).IsNaN() {
-		return fallback
-	}
-	return val
-}
-
-func (s *Float16Statistics) getMinMax(values []parquet.FixedLenByteArray) (min, max parquet.FixedLenByteArray) {
-	defMin := s.defaultMin()
-	defMax := s.defaultMax()
-
-	min = defMin
-	max = defMax
-
-	for _, v := range values {
-		min = s.minval(min, s.coalesce(v, defMin))
-		max = s.maxval(max, s.coalesce(v, defMax))
-	}
-	return
-}
-
-func (s *Float16Statistics) getMinMaxSpaced(values []parquet.FixedLenByteArray, validBits []byte, validBitsOffset int64) (min, max parquet.FixedLenByteArray) {
-	min = s.defaultMin()
-	max = s.defaultMax()
-
-	if s.bitSetReader == nil {
-		s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-	} else {
-		s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-	}
-
-	for {
-		run := s.bitSetReader.NextRun()
-		if run.Length == 0 {
-			break
-		}
-		for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-			min = s.minval(min, coalesce(v, s.defaultMin()).(parquet.FixedLenByteArray))
-			max = s.maxval(max, coalesce(v, s.defaultMax()).(parquet.FixedLenByteArray))
-		}
-	}
-	return
-}
-
-func (s *Float16Statistics) Min() parquet.FixedLenByteArray { return s.min }
-func (s *Float16Statistics) Max() parquet.FixedLenByteArray { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *Float16Statistics) Merge(other TypedStatistics) {
-	rhs, ok := other.(*Float16Statistics)
-	if !ok {
-		panic("incompatible stat type merge")
-	}
-
-	s.statistics.merge(rhs)
-	if rhs.HasMinMax() {
-		s.SetMinMax(rhs.Min(), rhs.Max())
-	}
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *Float16Statistics) Update(values []parquet.FixedLenByteArray, numNull int64) {
-	s.IncNulls(numNull)
-	s.nvalues += int64(len(values))
-
-	if len(values) == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *Float16Statistics) UpdateSpaced(values []parquet.FixedLenByteArray, validBits []byte, validBitsOffset, numNull int64) {
-	s.IncNulls(numNull)
-	notnull := int64(len(values)) - numNull
-	s.nvalues += notnull
-
-	if notnull == 0 {
-		return
-	}
-
-	s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *Float16Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-	if updateCounts {
-		s.IncNulls(int64(values.NullN()))
-		s.nvalues += int64(values.Len() - values.NullN())
-	}
-
-	if values.NullN() == values.Len() {
-		return nil
-	}
-
-	return fmt.Errorf("%w: update float16 stats from Arrow", arrow.ErrNotImplemented)
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *Float16Statistics) SetMinMax(argMin, argMax parquet.FixedLenByteArray) {
-	maybeMinMax := s.cleanStat([2]parquet.FixedLenByteArray{argMin, argMax})
-	if maybeMinMax == nil {
-		return
-	}
-
-	min := (*maybeMinMax)[0]
-	max := (*maybeMinMax)[1]
-
-	if !s.hasMinMax {
-		s.hasMinMax = true
-		s.min = min
-		s.max = max
-	} else {
-		if !s.less(s.min, min) {
-			s.min = min
-		}
-		if s.less(s.max, max) {
-			s.max = max
-		}
-	}
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *Float16Statistics) EncodeMin() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.min)
-	}
-	return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *Float16Statistics) EncodeMax() []byte {
-	if s.HasMinMax() {
-		return s.plainEncode(s.max)
-	}
-	return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *Float16Statistics) Encode() (enc EncodedStatistics, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-		}
-	}()
-	if s.HasMinMax() {
-		enc.SetMax(s.EncodeMax())
-		enc.SetMin(s.EncodeMin())
-	}
-	if s.HasNullCount() {
-		enc.SetNullCount(s.NullCount())
-	}
-	if s.HasDistinctCount() {
-		enc.SetDistinctCount(s.DistinctCount())
-	}
-	return
-}
-
-// NewStatistics uses the type in the column descriptor to construct the appropriate
-// typed stats object. If mem is nil, then memory.DefaultAllocator will be used.
-func NewStatistics(descr *schema.Column, mem memory.Allocator) TypedStatistics {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-	switch descr.PhysicalType() {
-	case parquet.Types.Int32:
-		return NewInt32Statistics(descr, mem)
-	case parquet.Types.Int64:
-		return NewInt64Statistics(descr, mem)
-	case parquet.Types.Int96:
-		return NewInt96Statistics(descr, mem)
-	case parquet.Types.Float:
-		return NewFloat32Statistics(descr, mem)
-	case parquet.Types.Double:
-		return NewFloat64Statistics(descr, mem)
-	case parquet.Types.Boolean:
-		return NewBooleanStatistics(descr, mem)
-	case parquet.Types.ByteArray:
-		return NewByteArrayStatistics(descr, mem)
-	case parquet.Types.FixedLenByteArray:
-		if descr.LogicalType().Equals(schema.Float16LogicalType{}) {
-			return NewFloat16Statistics(descr, mem)
-		}
-		return NewFixedLenByteArrayStatistics(descr, mem)
-	default:
-		panic("not implemented")
-	}
-}
-
-// NewStatisticsFromEncoded uses the provided information to initialize a typed stat object
-// by checking the type of the provided column descriptor.
-//
-// If mem is nil, then memory.DefaultAllocator is used.
-func NewStatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) TypedStatistics {
-	if mem == nil {
-		mem = memory.DefaultAllocator
-	}
-	switch descr.PhysicalType() {
-	case parquet.Types.Int32:
-		return NewInt32StatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.Int64:
-		return NewInt64StatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.Int96:
-		return NewInt96StatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.Float:
-		return NewFloat32StatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.Double:
-		return NewFloat64StatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.Boolean:
-		return NewBooleanStatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.ByteArray:
-		return NewByteArrayStatisticsFromEncoded(descr, mem, nvalues, encoded)
-	case parquet.Types.FixedLenByteArray:
-		if descr.LogicalType().Equals(schema.Float16LogicalType{}) {
-			return NewFloat16StatisticsFromEncoded(descr, mem, nvalues, encoded)
-		}
-		return NewFixedLenByteArrayStatisticsFromEncoded(descr, mem, nvalues, encoded)
-	default:
-		panic("not implemented")
-	}
-}
diff --git a/go/parquet/metadata/statistics_types.gen.go.tmpl b/go/parquet/metadata/statistics_types.gen.go.tmpl
deleted file mode 100644
index 4b3c2a7158ac8..0000000000000
--- a/go/parquet/metadata/statistics_types.gen.go.tmpl
+++ /dev/null
@@ -1,530 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package metadata
-
-import (
-  "fmt"
-
-  "github.com/apache/arrow/go/v18/arrow"
-  "github.com/apache/arrow/go/v18/parquet"
-  "github.com/apache/arrow/go/v18/parquet/schema"
-  "github.com/apache/arrow/go/v18/parquet/internal/utils"
-  shared_utils "github.com/apache/arrow/go/v18/internal/utils"
-  "github.com/apache/arrow/go/v18/parquet/internal/encoding"
-  "github.com/apache/arrow/go/v18/internal/bitutils"
-)
-
-{{range .In}}
-type minmaxPair{{.Name}} [2]{{.name}}
-
-// {{.Name}}Statistics is the typed interface for managing stats for a column
-// of {{.Name}} type.
-type {{.Name}}Statistics struct {
-  statistics
-  min {{.name}}
-  max {{.name}}
-
-  bitSetReader bitutils.SetBitRunReader
-}
-
-// New{{.Name}}Statistics constructs an appropriate stat object type using the
-// given column descriptor and allocator.
-//
-// Panics if the physical type of descr is not parquet.Type.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}
-{{- if eq .Name "Float16"}}
-// Panics if the logical type of descr is not schema.Float16LogicalType
-{{- end}}
-func New{{.Name}}Statistics(descr *schema.Column, mem memory.Allocator) *{{.Name}}Statistics {
-  if descr.PhysicalType() != parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}} {
-    panic(fmt.Errorf("parquet: invalid type %s for constructing a {{.Name}} stat object", descr.PhysicalType()))
-  }
-{{- if eq .Name "Float16"}}
-  if !descr.LogicalType().Equals(schema.Float16LogicalType{}) {
-    panic(fmt.Errorf("parquet: invalid logical type %s for constructing a {{.Name}} stat object", descr.LogicalType().String()))
-  }
-{{- end}}
-
-  return &{{.Name}}Statistics{
-    statistics: statistics{
-      descr: descr,
-      hasNullCount: true,
-      hasDistinctCount: true,
-      order: descr.SortOrder(),
-      encoder: encoding.NewEncoder(descr.PhysicalType(), parquet.Encodings.Plain, false, descr, mem),
-      mem: mem,
-    },
-    {{if eq .Name "ByteArray"}}
-    min: make([]byte, 0),
-    max: make([]byte, 0),
-    {{end}}
-  }
-}
-
-// New{{.Name}}StatisticsFromEncoded will construct a properly typed statistics object
-// initializing it with the provided information.
-func New{{.Name}}StatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) *{{.Name}}Statistics {
-  ret := New{{.Name}}Statistics(descr, mem)
-  ret.nvalues += nvalues
-  if encoded.IsSetNullCount() {
-    ret.IncNulls(encoded.GetNullCount())
-  }
-  if encoded.IsSetDistinctCount() {
-    ret.IncDistinct(encoded.GetDistinctCount())
-  }
-
-  encodedMin := encoded.GetMin()
-  if encodedMin != nil && len(encodedMin) > 0 {
-    ret.min = ret.plainDecode(encodedMin)
-  }
-  encodedMax := encoded.GetMax()
-  if encodedMax != nil && len(encodedMax) > 0 {
-    ret.max = ret.plainDecode(encodedMax)
-  }
-  ret.hasMinMax = encoded.IsSetMax() || encoded.IsSetMin()
-  return ret
-}
-
-func (s *{{.Name}}Statistics) plainEncode(src {{.name}}) []byte {
-{{- if eq .Name "ByteArray"}}
-  out := make([]byte, len(src))
-  copy(out, src)
-  return out
-{{- else}}
-  s.encoder.(encoding.{{if .logical}}{{.physical}}{{else}}{{.Name}}{{end}}Encoder).Put([]{{.name}}{src})
-  buf, err := s.encoder.FlushValues()
-  if err != nil {
-    panic(err) // recovered by Encode
-  }
-  defer buf.Release()
-
-  out := make([]byte, buf.Len())
-  copy(out, buf.Bytes())
-  return out
-{{- end}}
-}
-
-func (s *{{.Name}}Statistics) plainDecode(src []byte) {{.name}} {
-{{- if eq .Name "ByteArray"}}
-  return src
-{{- else}}
-  var buf [1]{{.name}}
-
-  decoder := encoding.NewDecoder(s.descr.PhysicalType(), parquet.Encodings.Plain, s.descr, s.mem)
-  decoder.SetData(1, src)
-  decoder.(encoding.{{if .logical}}{{.physical}}{{else}}{{.Name}}{{end}}Decoder).Decode(buf[:])
-  return buf[0]
-{{- end}}
-}
-
-{{if and (ne .Name "ByteArray") (ne .Name "FixedLenByteArray") (ne .Name "Float16")}}
-func (s *{{.Name}}Statistics) minval(a, b {{.name}}) {{.name}} {
-  if s.less(a, b) {
-    return a
-  }
-  return b
-}
-
-func (s *{{.Name}}Statistics) maxval(a, b {{.name}}) {{.name}} {
-  if s.less(a, b) {
-    return b
-  }
-  return a
-}
-{{else}}
-func (s *{{.Name}}Statistics) minval(a, b {{.name}}) {{.name}} {
-  switch {
-  case a == nil:
-    return b
-  case b == nil:
-    return a
-  case s.less(a, b):
-    return a
-  default:
-    return b
-  }
-}
-
-func (s *{{.Name}}Statistics) maxval(a, b {{.name}}) {{.name}} {
-  switch {
-  case a == nil:
-    return b
-  case b == nil:
-    return a
-  case s.less(a, b):
-    return b
-  default:
-    return a
-  }
-}
-{{end}}
-
-// MinMaxEqual returns true if both stat objects have the same Min and Max values
-func (s *{{.Name}}Statistics) MinMaxEqual(rhs *{{.Name}}Statistics) bool {
-  return s.equal(s.min, rhs.min) && s.equal(s.max, rhs.max)
-}
-
-// Equals returns true only if both objects are the same type, have the same min and
-// max values, null count, distinct count and number of values.
-func (s *{{.Name}}Statistics) Equals(other TypedStatistics) bool {
-{{- if .logical}}
-  if s.Type() != other.Type() || !s.descr.LogicalType().Equals(other.Descr().LogicalType()) {
-{{- else}}
-  if s.Type() != other.Type() {
-{{- end}}
-    return false
-  }
-  rhs, ok := other.(*{{.Name}}Statistics)
-  if !ok {
-    return false
-  }
-
-  if s.HasMinMax() != rhs.HasMinMax() { return false }
-  return (s.hasMinMax && s.MinMaxEqual(rhs)) &&
-    s.NullCount() == rhs.NullCount() &&
-    s.DistinctCount() == rhs.DistinctCount() &&
-    s.NumValues() == rhs.NumValues()
-}
-
-{{if or (eq .name "float32") (eq .name "float64")}}
-func (s *{{.Name}}Statistics) coalesce(val, fallback {{.name}}) {{.name}} {
-  if math.IsNaN(float64(val)) {
-    return fallback
-  }
-  return val
-}
-{{else if eq .Name "Float16"}}
-func (s *{{.Name}}Statistics) coalesce(val, fallback {{.name}}) {{.name}} {
-  if float16.FromLEBytes(val).IsNaN() {
-    return fallback
-  }
-  return val
-}
-{{end}}
-
-func (s *{{.Name}}Statistics) getMinMax(values []{{.name}}) (min, max {{.name}}) {
-{{- if or (eq .name "int32") (eq .name "int64")}}
-  if s.order == schema.SortSIGNED {
-    min, max = shared_utils.GetMinMax{{.Name}}(values)
-  } else {
-    umin, umax := shared_utils.GetMinMaxU{{.name}}(arrow.U{{.name}}Traits.CastFromBytes(arrow.{{.Name}}Traits.CastToBytes(values)))
-    min, max = {{.name}}(umin), {{.name}}(umax)
-  }
-{{- else}}
-  defMin := s.defaultMin()
-  defMax := s.defaultMax()
-
-  min = defMin
-  max = defMax
-
-  for _, v := range values {
-{{- if or (eq .name "float32") (eq .name "float64") (eq .Name "Float16") }}
-    min = s.minval(min, s.coalesce(v, defMin))
-    max = s.maxval(max, s.coalesce(v, defMax))
-{{- else}}
-    min = s.minval(min, v)
-    max = s.maxval(max, v)
-{{- end }}
-  }
-{{- end}}
-  return
-}
-
-func (s *{{.Name}}Statistics) getMinMaxSpaced(values []{{.name}}, validBits []byte, validBitsOffset int64) (min, max {{.name}}) {
-  min = s.defaultMin()
-  max = s.defaultMax()
-
-{{- if or (eq .name "int32") (eq .name "int64")}}
-  var fn func([]{{.name}}) ({{.name}}, {{.name}})
-  if s.order == schema.SortSIGNED {
-    fn = shared_utils.GetMinMax{{.Name}}
-  } else {
-    fn = func(v []{{.name}}) ({{.name}}, {{.name}}) {
-      umin, umax := shared_utils.GetMinMaxU{{.name}}(arrow.U{{.name}}Traits.CastFromBytes(arrow.{{.Name}}Traits.CastToBytes(values)))
-      return {{.name}}(umin), {{.name}}(umax)
-    }
-  }
-{{- end}}
-
-  if s.bitSetReader == nil {
-    s.bitSetReader = bitutils.NewSetBitRunReader(validBits, validBitsOffset, int64(len(values)))
-  } else {
-    s.bitSetReader.Reset(validBits, validBitsOffset, int64(len(values)))
-  }
-
-  for {
-    run := s.bitSetReader.NextRun()
-    if run.Length == 0 {
-      break
-    }
-{{- if or (eq .name "int32") (eq .name "int64")}}
-    localMin, localMax := fn(values[int(run.Pos):int(run.Pos+run.Length)])
-    if min > localMin {
-      min = localMin
-    }
-    if max < localMax {
-      max = localMax
-    }
-{{- else}}
-    for _, v := range values[int(run.Pos):int(run.Pos+run.Length)] {
-{{- if or (eq .name "float32") (eq .name "float64") (eq .Name "Float16") }}
-      min = s.minval(min, coalesce(v, s.defaultMin()).({{.name}}))
-      max = s.maxval(max, coalesce(v, s.defaultMax()).({{.name}}))
-{{- else}}
-      min = s.minval(min, v)
-      max = s.maxval(max, v)
-{{- end }}
-    }
-{{- end}}
-  }
-  return
-}
-
-func (s *{{.Name}}Statistics) Min() {{.name}} { return s.min }
-func (s *{{.Name}}Statistics) Max() {{.name}} { return s.max }
-
-// Merge merges the stats from other into this stat object, updating
-// the null count, distinct count, number of values and the min/max if
-// appropriate.
-func (s *{{.Name}}Statistics) Merge(other TypedStatistics) {
-  rhs, ok := other.(*{{.Name}}Statistics)
-  if !ok {
-    panic("incompatible stat type merge")
-  }
-
-  s.statistics.merge(rhs)
-  if rhs.HasMinMax() {
-    s.SetMinMax(rhs.Min(), rhs.Max())
-  }
-}
-
-// Update is used to add more values to the current stat object, finding the
-// min and max values etc.
-func (s *{{.Name}}Statistics) Update(values []{{.name}}, numNull int64) {
-  s.IncNulls(numNull)
-  s.nvalues += int64(len(values))
-
-  if len(values) == 0 {
-    return
-  }
-
-  s.SetMinMax(s.getMinMax(values))
-}
-
-// UpdateSpaced is just like Update, but for spaced values using validBits to determine
-// and skip null values.
-func (s *{{.Name}}Statistics) UpdateSpaced(values []{{.name}}, validBits []byte, validBitsOffset, numNull int64) {
-  s.IncNulls(numNull)
-  notnull := int64(len(values)) - numNull
-  s.nvalues += notnull
-
-  if notnull == 0 {
-    return
-  }
-
-  s.SetMinMax(s.getMinMaxSpaced(values, validBits, validBitsOffset))
-}
-
-func (s *{{.Name}}Statistics) UpdateFromArrow(values arrow.Array, updateCounts bool) error {
-  if updateCounts {
-    s.IncNulls(int64(values.NullN()))
-    s.nvalues += int64(values.Len() - values.NullN())
-  }
-
-  if values.NullN() == values.Len() {
-    return nil
-  }
-{{if eq .Name "FixedLenByteArray"}}
-  dt := values.DataType()
-  if dt.ID() != arrow.FIXED_SIZE_BINARY && dt.ID() != arrow.DECIMAL {
-    return fmt.Errorf("%w: only fixed size binary and decimal128 arrays are supported to update stats from arrow", 
-      arrow.ErrInvalid)
-  }
-
-  var (
-    width = dt.(arrow.FixedWidthDataType).Bytes()
-    data = values.Data().Buffers()[1].Bytes()[values.Data().Offset()*width:]
-    min = s.defaultMin()
-    max = s.defaultMax()
-  )
-
-  for i := 0; i < values.Len(); i++ {
-    v := data[i * width : (i+1) * width]
-    min = s.minval(min, v)
-    max = s.maxval(min, v)
-  }
-
-  s.SetMinMax(min, max)
-  return nil
-{{else if eq .Name "Int96"}}
-  return fmt.Errorf("%w: update int96 stats from Arrow", arrow.ErrNotImplemented)
-{{else if eq .Name "ByteArray"}}
-  if !arrow.IsBaseBinary(values.DataType().ID()) {
-    return fmt.Errorf("%w: can only update ByteArray stats from binary or string array", arrow.ErrInvalid)
-  }
-
-  var (
-    min = s.defaultMin()
-    max = s.defaultMax()
-    arr = values.(array.BinaryLike)
-    data = arr.ValueBytes()
-    curOffset = int64(0)
-  )
-
-  for i := 0; i < arr.Len(); i++ {
-    nextOffset := arr.ValueOffset64(i + 1)
-    v := data[curOffset:nextOffset]
-    curOffset = nextOffset
-
-    if len(v) == 0 {
-      continue
-    }
-    
-    min = s.minval(min, v)
-    max = s.maxval(max, v)
-  }
-
-  s.SetMinMax(min, max)
-  return nil
-{{else if eq .Name "Boolean"}}
-  return fmt.Errorf("%w: update boolean stats from Arrow", arrow.ErrNotImplemented)
-{{else if eq .Name "Float16"}}
-  return fmt.Errorf("%w: update float16 stats from Arrow", arrow.ErrNotImplemented)
-{{else}}
-  if values.DataType().(arrow.FixedWidthDataType).Bytes() != arrow.{{.Name}}SizeBytes {
-    return fmt.Errorf("%w: cannot update {{.name}} stats with %s arrow array", 
-      arrow.ErrInvalid, values.DataType())
-  }
-
-  rawBytes := values.Data().Buffers()[1].Bytes()[values.Data().Offset()*arrow.{{.Name}}SizeBytes:]
-  s.SetMinMax(s.getMinMax(arrow.{{.Name}}Traits.CastFromBytes(rawBytes)))
-  return nil
-{{end -}}
-}
-
-// SetMinMax updates the min and max values only if they are not currently set
-// or if argMin is less than the current min / argMax is greater than the current max
-func (s *{{.Name}}Statistics) SetMinMax(argMin, argMax {{.name}}) {
-  maybeMinMax := s.cleanStat([2]{{.name}}{argMin, argMax})
-  if maybeMinMax == nil {
-    return
-  }
-
-  min := (*maybeMinMax)[0]
-  max := (*maybeMinMax)[1]
-
-  if !s.hasMinMax {
-    s.hasMinMax = true
-    s.min = min
-    s.max = max
-  } else {
-    if !s.less(s.min, min) {
-      s.min = min
-    }
-    if s.less(s.max, max) {
-      s.max = max
-    }
-  }
-}
-
-// EncodeMin returns the encoded min value with plain encoding.
-//
-// ByteArray stats do not include the length in the encoding.
-func (s *{{.Name}}Statistics) EncodeMin() []byte {
-  if s.HasMinMax() {
-    return s.plainEncode(s.min)
-  }
-  return nil
-}
-
-// EncodeMax returns the current encoded max value with plain encoding
-//
-// ByteArray stats do not include the length in the encoding
-func (s *{{.Name}}Statistics) EncodeMax() []byte{
-  if s.HasMinMax() {
-    return s.plainEncode(s.max)
-  }
-  return nil
-}
-
-// Encode returns a populated EncodedStatistics object
-func (s *{{.Name}}Statistics) Encode() (enc EncodedStatistics, err error) {
-  defer func() {
-    if r := recover(); r != nil {
-      err = shared_utils.FormatRecoveredError("unknown error type thrown from panic", r)
-    }
-  }()
-  if s.HasMinMax() {
-    enc.SetMax(s.EncodeMax())
-    enc.SetMin(s.EncodeMin())
-  }
-  if s.HasNullCount() {
-    enc.SetNullCount(s.NullCount())
-  }
-  if s.HasDistinctCount() {
-    enc.SetDistinctCount(s.DistinctCount())
-  }
-  return
-}
-{{end}}
-
-// NewStatistics uses the type in the column descriptor to construct the appropriate
-// typed stats object. If mem is nil, then memory.DefaultAllocator will be used.
-func NewStatistics(descr *schema.Column, mem memory.Allocator) TypedStatistics {
-  if mem == nil {
-    mem = memory.DefaultAllocator
-  }
-  switch descr.PhysicalType() {
-{{- range .In}}
-  {{- if not .logical}}
-  case parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}:
-    {{- if eq .Name "FixedLenByteArray"}}
-    if descr.LogicalType().Equals(schema.Float16LogicalType{}) {
-      return NewFloat16Statistics(descr, mem)
-    }
-    {{- end}}
-    return New{{.Name}}Statistics(descr, mem)
-  {{- end}}
-{{- end}}
-  default:
-    panic("not implemented")
-  }
-}
-
-// NewStatisticsFromEncoded uses the provided information to initialize a typed stat object
-// by checking the type of the provided column descriptor.
-//
-// If mem is nil, then memory.DefaultAllocator is used.
-func NewStatisticsFromEncoded(descr *schema.Column, mem memory.Allocator, nvalues int64, encoded StatProvider) TypedStatistics {
-  if mem == nil {
-    mem = memory.DefaultAllocator
-  }
-  switch descr.PhysicalType() {
-{{- range .In}}
-  {{- if not .logical}}
-  case parquet.Types.{{if .physical}}{{.physical}}{{else}}{{.Name}}{{end}}:
-    {{- if eq .Name "FixedLenByteArray"}}
-    if descr.LogicalType().Equals(schema.Float16LogicalType{}) {
-      return NewFloat16StatisticsFromEncoded(descr, mem, nvalues, encoded)
-    }
-    {{- end}}
-    return New{{.Name}}StatisticsFromEncoded(descr, mem, nvalues, encoded)
-  {{- end}}
-{{- end}}
-  default:
-    panic("not implemented")
-  }
-}
diff --git a/go/parquet/metadata/statistics_types.tmpldata b/go/parquet/metadata/statistics_types.tmpldata
deleted file mode 100644
index 400c0a3ca515d..0000000000000
--- a/go/parquet/metadata/statistics_types.tmpldata
+++ /dev/null
@@ -1,60 +0,0 @@
-[
-  {
-    "Name": "Int32",
-    "name": "int32",
-    "lower": "int32",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "Int64",
-    "name": "int64",
-    "lower": "int64",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "Int96",
-    "name": "parquet.Int96",
-    "lower": "int96",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "Float32",
-    "name": "float32",
-    "lower": "float32",
-    "prefix": "arrow",
-    "physical": "Float"
-  },
-  {
-    "Name": "Float64",
-    "name": "float64",
-    "lower": "float64",
-    "prefix": "arrow",
-    "physical": "Double"
-  },
-  {
-    "Name": "Boolean",
-    "name": "bool",
-    "lower": "bool",
-    "prefix": "arrow"
-  },
-  {
-    "Name": "ByteArray",
-    "name": "parquet.ByteArray",
-    "lower": "byteArray",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "FixedLenByteArray",
-    "name": "parquet.FixedLenByteArray",
-    "lower": "fixedLenByteArray",
-    "prefix": "parquet"
-  },
-  {
-    "Name": "Float16",
-    "name": "parquet.FixedLenByteArray",
-    "lower": "float16",
-    "prefix": "parquet",
-    "physical": "FixedLenByteArray",
-    "logical": "Float16LogicalType"
-  }
-]
diff --git a/go/parquet/pqarrow/column_readers.go b/go/parquet/pqarrow/column_readers.go
deleted file mode 100644
index 1e5d5958e6732..0000000000000
--- a/go/parquet/pqarrow/column_readers.go
+++ /dev/null
@@ -1,969 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"reflect"
-	"sync"
-	"sync/atomic"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/sync/errgroup"
-)
-
-// column reader for leaf columns (non-nested)
-type leafReader struct {
-	out       *arrow.Chunked
-	rctx      *readerCtx
-	field     *arrow.Field
-	input     *columnIterator
-	descr     *schema.Column
-	recordRdr file.RecordReader
-	props     ArrowReadProperties
-
-	refCount int64
-}
-
-func newLeafReader(rctx *readerCtx, field *arrow.Field, input *columnIterator, leafInfo file.LevelInfo, props ArrowReadProperties, bufferPool *sync.Pool) (*ColumnReader, error) {
-	ret := &leafReader{
-		rctx:      rctx,
-		field:     field,
-		input:     input,
-		descr:     input.Descr(),
-		recordRdr: file.NewRecordReader(input.Descr(), leafInfo, field.Type, rctx.mem, bufferPool),
-		props:     props,
-		refCount:  1,
-	}
-	err := ret.nextRowGroup()
-	return &ColumnReader{ret}, err
-}
-
-func (lr *leafReader) Retain() {
-	atomic.AddInt64(&lr.refCount, 1)
-}
-
-func (lr *leafReader) Release() {
-	if atomic.AddInt64(&lr.refCount, -1) == 0 {
-		lr.releaseOut()
-		if lr.recordRdr != nil {
-			lr.recordRdr.Release()
-			lr.recordRdr = nil
-		}
-	}
-}
-
-func (lr *leafReader) GetDefLevels() ([]int16, error) {
-	return lr.recordRdr.DefLevels()[:int(lr.recordRdr.LevelsPos())], nil
-}
-
-func (lr *leafReader) GetRepLevels() ([]int16, error) {
-	return lr.recordRdr.RepLevels()[:int(lr.recordRdr.LevelsPos())], nil
-}
-
-func (lr *leafReader) IsOrHasRepeatedChild() bool { return false }
-
-func (lr *leafReader) LoadBatch(nrecords int64) (err error) {
-	lr.releaseOut()
-	lr.recordRdr.Reset()
-
-	if err := lr.recordRdr.Reserve(nrecords); err != nil {
-		return err
-	}
-	for nrecords > 0 {
-		if !lr.recordRdr.HasMore() {
-			break
-		}
-		numRead, err := lr.recordRdr.ReadRecords(nrecords)
-		if err != nil {
-			return err
-		}
-		nrecords -= numRead
-		if numRead == 0 {
-			if err = lr.nextRowGroup(); err != nil {
-				return err
-			}
-		}
-	}
-	lr.out, err = transferColumnData(lr.recordRdr, lr.field.Type, lr.descr)
-	return
-}
-
-func (lr *leafReader) BuildArray(int64) (*arrow.Chunked, error) {
-	return lr.clearOut(), nil
-}
-
-// releaseOut will clear lr.out as well as release it if it wasn't nil
-func (lr *leafReader) releaseOut() {
-	if out := lr.clearOut(); out != nil {
-		out.Release()
-	}
-}
-
-// clearOut will clear lt.out and return the old value
-func (lr *leafReader) clearOut() (out *arrow.Chunked) {
-	out, lr.out = lr.out, nil
-	return out
-}
-
-func (lr *leafReader) Field() *arrow.Field { return lr.field }
-
-func (lr *leafReader) nextRowGroup() error {
-	pr, err := lr.input.NextChunk()
-	if err != nil {
-		return err
-	}
-	lr.recordRdr.SetPageReader(pr)
-	return nil
-}
-
-// column reader for struct arrays, has readers for each child which could
-// themselves be nested or leaf columns.
-type structReader struct {
-	rctx             *readerCtx
-	filtered         *arrow.Field
-	levelInfo        file.LevelInfo
-	children         []*ColumnReader
-	defRepLevelChild *ColumnReader
-	hasRepeatedChild bool
-	props            ArrowReadProperties
-
-	refCount int64
-}
-
-func (sr *structReader) Retain() {
-	atomic.AddInt64(&sr.refCount, 1)
-}
-
-func (sr *structReader) Release() {
-	if atomic.AddInt64(&sr.refCount, -1) == 0 {
-		if sr.defRepLevelChild != nil {
-			sr.defRepLevelChild.Release()
-			sr.defRepLevelChild = nil
-		}
-		for _, c := range sr.children {
-			c.Release()
-		}
-		sr.children = nil
-	}
-}
-
-func newStructReader(rctx *readerCtx, filtered *arrow.Field, levelInfo file.LevelInfo, children []*ColumnReader, props ArrowReadProperties) *ColumnReader {
-	ret := &structReader{
-		rctx:      rctx,
-		filtered:  filtered,
-		levelInfo: levelInfo,
-		children:  children,
-		props:     props,
-		refCount:  1,
-	}
-
-	// there could be a mix of children some might be repeated and some might not be
-	// if possible use one that isn't since that will be guaranteed to have the least
-	// number of levels to reconstruct a nullable bitmap
-	for _, child := range children {
-		if !child.IsOrHasRepeatedChild() {
-			ret.defRepLevelChild = child
-			break
-		}
-	}
-
-	if ret.defRepLevelChild == nil {
-		ret.defRepLevelChild = children[0]
-		ret.hasRepeatedChild = true
-	}
-	ret.defRepLevelChild.Retain()
-	return &ColumnReader{ret}
-}
-
-func (sr *structReader) IsOrHasRepeatedChild() bool { return sr.hasRepeatedChild }
-
-func (sr *structReader) GetDefLevels() ([]int16, error) {
-	if len(sr.children) == 0 {
-		return nil, errors.New("struct reader has no children")
-	}
-
-	// this method should only be called when this struct or one of its parents
-	// are optional/repeated or has a repeated child
-	// meaning all children must have rep/def levels associated with them
-	return sr.defRepLevelChild.GetDefLevels()
-}
-
-func (sr *structReader) GetRepLevels() ([]int16, error) {
-	if len(sr.children) == 0 {
-		return nil, errors.New("struct reader has no children")
-	}
-
-	// this method should only be called when this struct or one of its parents
-	// are optional/repeated or has a repeated child
-	// meaning all children must have rep/def levels associated with them
-	return sr.defRepLevelChild.GetRepLevels()
-}
-
-func (sr *structReader) LoadBatch(nrecords int64) error {
-	// Load batches in parallel
-	// When reading structs with large numbers of columns, the serial load is very slow.
-	// This is especially true when reading Cloud Storage. Loading concurrently
-	// greatly improves performance.
-	g := new(errgroup.Group)
-	if !sr.props.Parallel {
-		g.SetLimit(1)
-	}
-	for _, rdr := range sr.children {
-		rdr := rdr
-		g.Go(func() error {
-			return rdr.LoadBatch(nrecords)
-		})
-	}
-
-	return g.Wait()
-}
-
-func (sr *structReader) Field() *arrow.Field { return sr.filtered }
-
-func (sr *structReader) BuildArray(lenBound int64) (*arrow.Chunked, error) {
-	validityIO := file.ValidityBitmapInputOutput{
-		ReadUpperBound: lenBound,
-		Read:           lenBound,
-	}
-
-	var nullBitmap *memory.Buffer
-
-	if lenBound > 0 && (sr.hasRepeatedChild || sr.filtered.Nullable) {
-		nullBitmap = memory.NewResizableBuffer(sr.rctx.mem)
-		nullBitmap.Resize(int(bitutil.BytesForBits(lenBound)))
-		defer nullBitmap.Release()
-		validityIO.ValidBits = nullBitmap.Bytes()
-		defLevels, err := sr.GetDefLevels()
-		if err != nil {
-			return nil, err
-		}
-
-		if sr.hasRepeatedChild {
-			repLevels, err := sr.GetRepLevels()
-			if err != nil {
-				return nil, err
-			}
-
-			if err := file.DefRepLevelsToBitmap(defLevels, repLevels, sr.levelInfo, &validityIO); err != nil {
-				return nil, err
-			}
-		} else {
-			file.DefLevelsToBitmap(defLevels, sr.levelInfo, &validityIO)
-		}
-	}
-
-	if nullBitmap != nil {
-		nullBitmap.Resize(int(bitutil.BytesForBits(validityIO.Read)))
-	}
-
-	childArrData := make([]arrow.ArrayData, len(sr.children))
-	defer releaseArrayData(childArrData)
-	// gather children arrays and def levels
-	for i, child := range sr.children {
-		field, err := child.BuildArray(lenBound)
-		if err != nil {
-			return nil, err
-		}
-
-		childArrData[i], err = chunksToSingle(field)
-		field.Release() // release field before checking
-		if err != nil {
-			return nil, err
-		}
-	}
-
-	if !sr.filtered.Nullable && !sr.hasRepeatedChild {
-		validityIO.Read = int64(childArrData[0].Len())
-	}
-
-	buffers := make([]*memory.Buffer, 1)
-	if validityIO.NullCount > 0 {
-		buffers[0] = nullBitmap
-	}
-
-	data := array.NewData(sr.filtered.Type, int(validityIO.Read), buffers, childArrData, int(validityIO.NullCount), 0)
-	defer data.Release()
-	arr := array.NewStructData(data)
-	defer arr.Release()
-	return arrow.NewChunked(sr.filtered.Type, []arrow.Array{arr}), nil
-}
-
-// column reader for repeated columns specifically for list arrays
-type listReader struct {
-	rctx     *readerCtx
-	field    *arrow.Field
-	info     file.LevelInfo
-	itemRdr  *ColumnReader
-	props    ArrowReadProperties
-	refCount int64
-}
-
-func newListReader(rctx *readerCtx, field *arrow.Field, info file.LevelInfo, childRdr *ColumnReader, props ArrowReadProperties) *ColumnReader {
-	childRdr.Retain()
-	return &ColumnReader{&listReader{rctx, field, info, childRdr, props, 1}}
-}
-
-func (lr *listReader) Retain() {
-	atomic.AddInt64(&lr.refCount, 1)
-}
-
-func (lr *listReader) Release() {
-	if atomic.AddInt64(&lr.refCount, -1) == 0 {
-		if lr.itemRdr != nil {
-			lr.itemRdr.Release()
-			lr.itemRdr = nil
-		}
-	}
-}
-
-func (lr *listReader) GetDefLevels() ([]int16, error) {
-	return lr.itemRdr.GetDefLevels()
-}
-
-func (lr *listReader) GetRepLevels() ([]int16, error) {
-	return lr.itemRdr.GetRepLevels()
-}
-
-func (lr *listReader) Field() *arrow.Field { return lr.field }
-
-func (lr *listReader) IsOrHasRepeatedChild() bool { return true }
-
-func (lr *listReader) LoadBatch(nrecords int64) error {
-	return lr.itemRdr.LoadBatch(nrecords)
-}
-
-func (lr *listReader) BuildArray(lenBound int64) (*arrow.Chunked, error) {
-	var (
-		defLevels      []int16
-		repLevels      []int16
-		err            error
-		validityBuffer *memory.Buffer
-	)
-
-	if defLevels, err = lr.itemRdr.GetDefLevels(); err != nil {
-		return nil, err
-	}
-	if repLevels, err = lr.itemRdr.GetRepLevels(); err != nil {
-		return nil, err
-	}
-
-	validityIO := file.ValidityBitmapInputOutput{ReadUpperBound: lenBound}
-	if lr.field.Nullable {
-		validityBuffer = memory.NewResizableBuffer(lr.rctx.mem)
-		validityBuffer.Resize(int(bitutil.BytesForBits(lenBound)))
-		defer validityBuffer.Release()
-		validityIO.ValidBits = validityBuffer.Bytes()
-	}
-	offsetsBuffer := memory.NewResizableBuffer(lr.rctx.mem)
-	offsetsBuffer.Resize(arrow.Int32Traits.BytesRequired(int(lenBound) + 1))
-	defer offsetsBuffer.Release()
-
-	offsetData := arrow.Int32Traits.CastFromBytes(offsetsBuffer.Bytes())
-	if err = file.DefRepLevelsToListInfo(defLevels, repLevels, lr.info, &validityIO, offsetData); err != nil {
-		return nil, err
-	}
-
-	// if the parent (itemRdr) has nulls and is a nested type like list
-	// then we need BuildArray to account for that with the number of
-	// definition levels when building out the bitmap. So the upper bound
-	// to make sure we have the space for is the worst case scenario,
-	// the upper bound is the value of the last offset + the nullcount
-	arr, err := lr.itemRdr.BuildArray(int64(offsetData[int(validityIO.Read)]) + validityIO.NullCount)
-	if err != nil {
-		return nil, err
-	}
-	defer arr.Release()
-
-	// resize to actual number of elems returned
-	offsetsBuffer.Resize(arrow.Int32Traits.BytesRequired(int(validityIO.Read) + 1))
-	if validityBuffer != nil {
-		validityBuffer.Resize(int(bitutil.BytesForBits(validityIO.Read)))
-	}
-
-	item, err := chunksToSingle(arr)
-	if err != nil {
-		return nil, err
-	}
-	defer item.Release()
-
-	buffers := []*memory.Buffer{nil, offsetsBuffer}
-	if validityIO.NullCount > 0 {
-		buffers[0] = validityBuffer
-	}
-
-	data := array.NewData(lr.field.Type, int(validityIO.Read), buffers, []arrow.ArrayData{item}, int(validityIO.NullCount), 0)
-	defer data.Release()
-	if lr.field.Type.ID() == arrow.FIXED_SIZE_LIST {
-		defer data.Buffers()[1].Release()
-		listSize := lr.field.Type.(*arrow.FixedSizeListType).Len()
-		for x := 1; x < data.Len(); x++ {
-			size := offsetData[x] - offsetData[x-1]
-			if size != listSize {
-				return nil, fmt.Errorf("expected all lists to be of size=%d, but index %d had size=%d", listSize, x, size)
-			}
-		}
-		data.Buffers()[1] = nil
-	}
-	out := array.MakeFromData(data)
-	defer out.Release()
-	return arrow.NewChunked(lr.field.Type, []arrow.Array{out}), nil
-}
-
-// column reader logic for fixed size lists instead of variable length ones.
-type fixedSizeListReader struct {
-	listReader
-}
-
-func newFixedSizeListReader(rctx *readerCtx, field *arrow.Field, info file.LevelInfo, childRdr *ColumnReader, props ArrowReadProperties) *ColumnReader {
-	childRdr.Retain()
-	return &ColumnReader{&fixedSizeListReader{listReader{rctx, field, info, childRdr, props, 1}}}
-}
-
-// helper function to combine chunks into a single array.
-//
-// nested data conversion for chunked array outputs not yet implemented
-func chunksToSingle(chunked *arrow.Chunked) (arrow.ArrayData, error) {
-	switch len(chunked.Chunks()) {
-	case 0:
-		return array.NewData(chunked.DataType(), 0, []*memory.Buffer{nil, nil}, nil, 0, 0), nil
-	case 1:
-		data := chunked.Chunk(0).Data()
-		data.Retain() // we pass control to the caller
-		return data, nil
-	default: // if an item reader yields a chunked array, this is not yet implemented
-		return nil, arrow.ErrNotImplemented
-	}
-}
-
-// create a chunked arrow array from the raw record data
-func transferColumnData(rdr file.RecordReader, valueType arrow.DataType, descr *schema.Column) (*arrow.Chunked, error) {
-	dt := valueType
-	if valueType.ID() == arrow.EXTENSION {
-		dt = valueType.(arrow.ExtensionType).StorageType()
-	}
-
-	var data arrow.ArrayData
-	switch dt.ID() {
-	case arrow.DICTIONARY:
-		return transferDictionary(rdr, valueType), nil
-	case arrow.NULL:
-		return arrow.NewChunked(arrow.Null, []arrow.Array{array.NewNull(rdr.ValuesWritten())}), nil
-	case arrow.INT32, arrow.INT64, arrow.FLOAT32, arrow.FLOAT64:
-		data = transferZeroCopy(rdr, valueType) // can just reference the raw data without copying
-	case arrow.BOOL:
-		data = transferBool(rdr)
-	case arrow.UINT8,
-		arrow.UINT16,
-		arrow.UINT32,
-		arrow.UINT64,
-		arrow.INT8,
-		arrow.INT16,
-		arrow.DATE32,
-		arrow.TIME32,
-		arrow.TIME64:
-		data = transferInt(rdr, valueType)
-	case arrow.DATE64:
-		data = transferDate64(rdr, valueType)
-	case arrow.FIXED_SIZE_BINARY, arrow.BINARY, arrow.STRING, arrow.LARGE_BINARY, arrow.LARGE_STRING:
-		return transferBinary(rdr, valueType), nil
-	case arrow.DECIMAL, arrow.DECIMAL256:
-		switch descr.PhysicalType() {
-		case parquet.Types.Int32, parquet.Types.Int64:
-			data = transferDecimalInteger(rdr, valueType)
-		case parquet.Types.ByteArray, parquet.Types.FixedLenByteArray:
-			return transferDecimalBytes(rdr.(file.BinaryRecordReader), valueType)
-		default:
-			return nil, errors.New("physical type for decimal128/decimal256 must be int32, int64, bytearray or fixed len byte array")
-		}
-	case arrow.TIMESTAMP:
-		tstype := valueType.(*arrow.TimestampType)
-		switch tstype.Unit {
-		case arrow.Millisecond, arrow.Microsecond:
-			data = transferZeroCopy(rdr, valueType)
-		case arrow.Nanosecond:
-			if descr.PhysicalType() == parquet.Types.Int96 {
-				data = transferInt96(rdr, valueType)
-			} else {
-				data = transferZeroCopy(rdr, valueType)
-			}
-		default:
-			return nil, errors.New("time unit not supported")
-		}
-	case arrow.FLOAT16:
-		if descr.PhysicalType() != parquet.Types.FixedLenByteArray {
-			return nil, errors.New("physical type for float16 must be fixed len byte array")
-		}
-		if len := arrow.Float16SizeBytes; descr.TypeLength() != len {
-			return nil, fmt.Errorf("fixed len byte array length for float16 must be %d", len)
-		}
-		return transferBinary(rdr, valueType), nil
-	default:
-		return nil, fmt.Errorf("no support for reading columns of type: %s", valueType.Name())
-	}
-
-	defer data.Release()
-	arr := array.MakeFromData(data)
-	defer arr.Release()
-	return arrow.NewChunked(valueType, []arrow.Array{arr}), nil
-}
-
-func transferZeroCopy(rdr file.RecordReader, dt arrow.DataType) arrow.ArrayData {
-	bitmap := rdr.ReleaseValidBits()
-	values := rdr.ReleaseValues()
-	defer func() {
-		if bitmap != nil {
-			bitmap.Release()
-		}
-		if values != nil {
-			values.Release()
-		}
-	}()
-
-	return array.NewData(dt, rdr.ValuesWritten(),
-		[]*memory.Buffer{bitmap, values},
-		nil, int(rdr.NullCount()), 0)
-}
-
-func transferBinary(rdr file.RecordReader, dt arrow.DataType) *arrow.Chunked {
-	brdr := rdr.(file.BinaryRecordReader)
-	if brdr.ReadDictionary() {
-		return transferDictionary(brdr, &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: dt})
-	}
-	chunks := brdr.GetBuilderChunks()
-	defer releaseArrays(chunks)
-
-	switch dt := dt.(type) {
-	case arrow.ExtensionType:
-		for idx, chunk := range chunks {
-			chunks[idx] = array.NewExtensionArrayWithStorage(dt, chunk)
-			chunk.Release()
-		}
-	case *arrow.StringType, *arrow.LargeStringType:
-		for idx, chunk := range chunks {
-			chunks[idx] = array.MakeFromData(chunk.Data())
-			chunk.Release()
-		}
-	case *arrow.Float16Type:
-		for idx, chunk := range chunks {
-			data := chunk.Data()
-			f16_data := array.NewData(dt, data.Len(), data.Buffers(), nil, data.NullN(), data.Offset())
-			defer f16_data.Release()
-			chunks[idx] = array.NewFloat16Data(f16_data)
-			chunk.Release()
-		}
-	}
-	return arrow.NewChunked(dt, chunks)
-}
-
-func transferInt(rdr file.RecordReader, dt arrow.DataType) arrow.ArrayData {
-	var (
-		output reflect.Value
-	)
-
-	signed := true
-	// create buffer for proper type since parquet only has int32 and int64
-	// physical representations, but we want the correct type representation
-	// for Arrow's in memory buffer.
-	data := make([]byte, rdr.ValuesWritten()*int(bitutil.BytesForBits(int64(dt.(arrow.FixedWidthDataType).BitWidth()))))
-	switch dt.ID() {
-	case arrow.INT8:
-		output = reflect.ValueOf(arrow.Int8Traits.CastFromBytes(data))
-	case arrow.UINT8:
-		signed = false
-		output = reflect.ValueOf(arrow.Uint8Traits.CastFromBytes(data))
-	case arrow.INT16:
-		output = reflect.ValueOf(arrow.Int16Traits.CastFromBytes(data))
-	case arrow.UINT16:
-		signed = false
-		output = reflect.ValueOf(arrow.Uint16Traits.CastFromBytes(data))
-	case arrow.UINT32:
-		signed = false
-		output = reflect.ValueOf(arrow.Uint32Traits.CastFromBytes(data))
-	case arrow.UINT64:
-		signed = false
-		output = reflect.ValueOf(arrow.Uint64Traits.CastFromBytes(data))
-	case arrow.DATE32:
-		output = reflect.ValueOf(arrow.Date32Traits.CastFromBytes(data))
-	case arrow.TIME32:
-		output = reflect.ValueOf(arrow.Time32Traits.CastFromBytes(data))
-	case arrow.TIME64:
-		output = reflect.ValueOf(arrow.Time64Traits.CastFromBytes(data))
-	}
-
-	length := rdr.ValuesWritten()
-	// copy the values semantically with the correct types
-	switch rdr.Type() {
-	case parquet.Types.Int32:
-		values := arrow.Int32Traits.CastFromBytes(rdr.Values())
-		if signed {
-			for idx, v := range values[:length] {
-				output.Index(idx).SetInt(int64(v))
-			}
-		} else {
-			for idx, v := range values[:length] {
-				output.Index(idx).SetUint(uint64(v))
-			}
-		}
-	case parquet.Types.Int64:
-		values := arrow.Int64Traits.CastFromBytes(rdr.Values())
-		if signed {
-			for idx, v := range values[:length] {
-				output.Index(idx).SetInt(v)
-			}
-		} else {
-			for idx, v := range values[:length] {
-				output.Index(idx).SetUint(uint64(v))
-			}
-		}
-	}
-
-	bitmap := rdr.ReleaseValidBits()
-	if bitmap != nil {
-		defer bitmap.Release()
-	}
-
-	return array.NewData(dt, rdr.ValuesWritten(), []*memory.Buffer{
-		bitmap, memory.NewBufferBytes(data),
-	}, nil, int(rdr.NullCount()), 0)
-}
-
-func transferBool(rdr file.RecordReader) arrow.ArrayData {
-	// TODO(mtopol): optimize this so we don't convert bitmap to []bool back to bitmap
-	length := rdr.ValuesWritten()
-	data := make([]byte, int(bitutil.BytesForBits(int64(length))))
-	bytedata := rdr.Values()
-	values := *(*[]bool)(unsafe.Pointer(&bytedata))
-
-	for idx, v := range values[:length] {
-		if v {
-			bitutil.SetBit(data, idx)
-		}
-	}
-
-	bitmap := rdr.ReleaseValidBits()
-	if bitmap != nil {
-		defer bitmap.Release()
-	}
-	bb := memory.NewBufferBytes(data)
-	defer bb.Release()
-	return array.NewData(&arrow.BooleanType{}, length, []*memory.Buffer{
-		bitmap, bb,
-	}, nil, int(rdr.NullCount()), 0)
-}
-
-var milliPerDay = time.Duration(24 * time.Hour).Milliseconds()
-
-// parquet equivalent for date64 is a 32-bit integer of the number of days
-// since the epoch. Convert each value to milliseconds for date64
-func transferDate64(rdr file.RecordReader, dt arrow.DataType) arrow.ArrayData {
-	length := rdr.ValuesWritten()
-	values := arrow.Int32Traits.CastFromBytes(rdr.Values())
-
-	data := make([]byte, arrow.Int64Traits.BytesRequired(length))
-	out := arrow.Int64Traits.CastFromBytes(data)
-	for idx, val := range values[:length] {
-		out[idx] = int64(val) * milliPerDay
-	}
-
-	bitmap := rdr.ReleaseValidBits()
-	if bitmap != nil {
-		defer bitmap.Release()
-	}
-	return array.NewData(dt, length, []*memory.Buffer{
-		bitmap, memory.NewBufferBytes(data),
-	}, nil, int(rdr.NullCount()), 0)
-}
-
-// coerce int96 to nanosecond timestamp
-func transferInt96(rdr file.RecordReader, dt arrow.DataType) arrow.ArrayData {
-	length := rdr.ValuesWritten()
-	values := parquet.Int96Traits.CastFromBytes(rdr.Values())
-
-	data := make([]byte, arrow.Int64SizeBytes*length)
-	out := arrow.Int64Traits.CastFromBytes(data)
-
-	for idx, val := range values[:length] {
-		if binary.LittleEndian.Uint32(val[8:]) == 0 {
-			out[idx] = 0
-		} else {
-			out[idx] = val.ToTime().UnixNano()
-		}
-	}
-
-	bitmap := rdr.ReleaseValidBits()
-	if bitmap != nil {
-		defer bitmap.Release()
-	}
-	return array.NewData(dt, length, []*memory.Buffer{
-		bitmap, memory.NewBufferBytes(data),
-	}, nil, int(rdr.NullCount()), 0)
-}
-
-// convert physical integer storage of a decimal logical type to a decimal128 typed array
-func transferDecimalInteger(rdr file.RecordReader, dt arrow.DataType) arrow.ArrayData {
-	length := rdr.ValuesWritten()
-
-	var values reflect.Value
-	switch rdr.Type() {
-	case parquet.Types.Int32:
-		values = reflect.ValueOf(arrow.Int32Traits.CastFromBytes(rdr.Values())[:length])
-	case parquet.Types.Int64:
-		values = reflect.ValueOf(arrow.Int64Traits.CastFromBytes(rdr.Values())[:length])
-	}
-
-	var data []byte
-	switch dt.ID() {
-	case arrow.DECIMAL128:
-		data = make([]byte, arrow.Decimal128Traits.BytesRequired(length))
-		out := arrow.Decimal128Traits.CastFromBytes(data)
-		for i := 0; i < values.Len(); i++ {
-			out[i] = decimal128.FromI64(values.Index(i).Int())
-		}
-	case arrow.DECIMAL256:
-		data = make([]byte, arrow.Decimal256Traits.BytesRequired(length))
-		out := arrow.Decimal256Traits.CastFromBytes(data)
-		for i := 0; i < values.Len(); i++ {
-			out[i] = decimal256.FromI64(values.Index(i).Int())
-		}
-	}
-
-	var nullmap *memory.Buffer
-	if rdr.NullCount() > 0 {
-		nullmap = rdr.ReleaseValidBits()
-		defer nullmap.Release()
-	}
-	return array.NewData(dt, length, []*memory.Buffer{
-		nullmap, memory.NewBufferBytes(data),
-	}, nil, int(rdr.NullCount()), 0)
-}
-
-func uint64FromBigEndianShifted(buf []byte) uint64 {
-	var (
-		bytes [8]byte
-	)
-	copy(bytes[8-len(buf):], buf)
-	return binary.BigEndian.Uint64(bytes[:])
-}
-
-// parquet's defined encoding for decimal data is for it to be written as big
-// endian bytes, so convert a bit endian byte order to a decimal128
-func bigEndianToDecimal128(buf []byte) (decimal128.Num, error) {
-	const (
-		minDecimalBytes = 1
-		maxDecimalBytes = 16
-	)
-
-	if len(buf) < minDecimalBytes || len(buf) > maxDecimalBytes {
-		return decimal128.Num{}, fmt.Errorf("length of byte array passed to bigEndianToDecimal128 was %d but must be between %d and %d",
-			len(buf), minDecimalBytes, maxDecimalBytes)
-	}
-
-	// bytes are big endian so first byte is MSB and holds the sign bit
-	isNeg := int8(buf[0]) < 0
-
-	// 1. extract high bits
-	highBitsOffset := utils.Max(0, len(buf)-8)
-	var (
-		highBits uint64
-		lowBits  uint64
-		hi       int64
-		lo       int64
-	)
-	highBits = uint64FromBigEndianShifted(buf[:highBitsOffset])
-
-	if highBitsOffset == 8 {
-		hi = int64(highBits)
-	} else {
-		if isNeg && len(buf) < maxDecimalBytes {
-			hi = -1
-		}
-
-		hi = int64(uint64(hi) << (uint64(highBitsOffset) * 8))
-		hi |= int64(highBits)
-	}
-
-	// 2. extract lower bits
-	lowBitsOffset := utils.Min(len(buf), 8)
-	lowBits = uint64FromBigEndianShifted(buf[highBitsOffset:])
-
-	if lowBitsOffset == 8 {
-		lo = int64(lowBits)
-	} else {
-		if isNeg && len(buf) < 8 {
-			lo = -1
-		}
-
-		lo = int64(uint64(lo) << (uint64(lowBitsOffset) * 8))
-		lo |= int64(lowBits)
-	}
-
-	return decimal128.New(hi, uint64(lo)), nil
-}
-
-func bigEndianToDecimal256(buf []byte) (decimal256.Num, error) {
-	const (
-		minDecimalBytes = 1
-		maxDecimalBytes = 32
-	)
-
-	if len(buf) < minDecimalBytes || len(buf) > maxDecimalBytes {
-		return decimal256.Num{},
-			fmt.Errorf("%w: length of byte array for bigEndianToDecimal256 was %d but must be between %d and %d",
-				arrow.ErrInvalid, len(buf), minDecimalBytes, maxDecimalBytes)
-	}
-
-	var littleEndian [4]uint64
-	// bytes are coming in big-endian, so the first byte is the MSB and
-	// therefore holds the sign bit
-	initWord, isNeg := uint64(0), int8(buf[0]) < 0
-	if isNeg {
-		// sign extend if necessary
-		initWord = uint64(0xFFFFFFFFFFFFFFFF)
-	}
-
-	for wordIdx := 0; wordIdx < 4; wordIdx++ {
-		wordLen := utils.Min(len(buf), arrow.Uint64SizeBytes)
-		word := buf[len(buf)-wordLen:]
-
-		if wordLen == 8 {
-			// full words can be assigned as-is
-			littleEndian[wordIdx] = binary.BigEndian.Uint64(word)
-		} else {
-			result := initWord
-			if len(buf) > 0 {
-				// incorporate the actual values if present
-				// shift left enough bits to make room for the incoming int64
-				result = result << uint64(wordLen)
-				// preserve the upper bits by inplace OR-ing the int64
-				result |= uint64FromBigEndianShifted(word)
-			}
-			littleEndian[wordIdx] = result
-		}
-
-		buf = buf[:len(buf)-wordLen]
-	}
-
-	return decimal256.New(littleEndian[3], littleEndian[2], littleEndian[1], littleEndian[0]), nil
-}
-
-type varOrFixedBin interface {
-	arrow.Array
-	Value(i int) []byte
-}
-
-// convert physical byte storage, instead of integers, to decimal128
-func transferDecimalBytes(rdr file.BinaryRecordReader, dt arrow.DataType) (*arrow.Chunked, error) {
-	convert128 := func(in varOrFixedBin) (arrow.Array, error) {
-		length := in.Len()
-		data := make([]byte, arrow.Decimal128Traits.BytesRequired(length))
-		out := arrow.Decimal128Traits.CastFromBytes(data)
-
-		nullCount := in.NullN()
-		var err error
-		for i := 0; i < length; i++ {
-			if nullCount > 0 && in.IsNull(i) {
-				continue
-			}
-
-			rec := in.Value(i)
-			if len(rec) <= 0 {
-				return nil, fmt.Errorf("invalid BYTEARRAY length for type: %s", dt)
-			}
-			out[i], err = bigEndianToDecimal128(rec)
-			if err != nil {
-				return nil, err
-			}
-		}
-
-		ret := array.NewData(dt, length, []*memory.Buffer{
-			in.Data().Buffers()[0], memory.NewBufferBytes(data),
-		}, nil, nullCount, 0)
-		defer ret.Release()
-		return array.MakeFromData(ret), nil
-	}
-
-	convert256 := func(in varOrFixedBin) (arrow.Array, error) {
-		length := in.Len()
-		data := make([]byte, arrow.Decimal256Traits.BytesRequired(length))
-		out := arrow.Decimal256Traits.CastFromBytes(data)
-
-		nullCount := in.NullN()
-		var err error
-		for i := 0; i < length; i++ {
-			if nullCount > 0 && in.IsNull(i) {
-				continue
-			}
-
-			rec := in.Value(i)
-			if len(rec) <= 0 {
-				return nil, fmt.Errorf("invalid BYTEARRAY length for type: %s", dt)
-			}
-			out[i], err = bigEndianToDecimal256(rec)
-			if err != nil {
-				return nil, err
-			}
-		}
-
-		ret := array.NewData(dt, length, []*memory.Buffer{
-			in.Data().Buffers()[0], memory.NewBufferBytes(data),
-		}, nil, nullCount, 0)
-		defer ret.Release()
-		return array.MakeFromData(ret), nil
-	}
-
-	convert := func(arr arrow.Array) (arrow.Array, error) {
-		switch dt.ID() {
-		case arrow.DECIMAL128:
-			return convert128(arr.(varOrFixedBin))
-		case arrow.DECIMAL256:
-			return convert256(arr.(varOrFixedBin))
-		}
-		return nil, arrow.ErrNotImplemented
-	}
-
-	chunks := rdr.GetBuilderChunks()
-	var err error
-	for idx, chunk := range chunks {
-		defer chunk.Release()
-		if chunks[idx], err = convert(chunk); err != nil {
-			return nil, err
-		}
-		defer chunks[idx].Release()
-	}
-	return arrow.NewChunked(dt, chunks), nil
-}
-
-func transferDictionary(rdr file.RecordReader, logicalValueType arrow.DataType) *arrow.Chunked {
-	brdr := rdr.(file.BinaryRecordReader)
-	chunks := brdr.GetBuilderChunks()
-	defer releaseArrays(chunks)
-	return arrow.NewChunked(logicalValueType, chunks)
-}
diff --git a/go/parquet/pqarrow/doc.go b/go/parquet/pqarrow/doc.go
deleted file mode 100644
index 488e12e27d869..0000000000000
--- a/go/parquet/pqarrow/doc.go
+++ /dev/null
@@ -1,21 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package pqarrow provides the implementation for connecting Arrow directly
-// with the Parquet implementation, allowing isolation of all the explicitly
-// arrow related code to this package which has the interfaces for reading and
-// writing directly to and from arrow Arrays/Tables/Records
-package pqarrow
diff --git a/go/parquet/pqarrow/encode_arrow.go b/go/parquet/pqarrow/encode_arrow.go
deleted file mode 100644
index 5526c98d7872c..0000000000000
--- a/go/parquet/pqarrow/encode_arrow.go
+++ /dev/null
@@ -1,715 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"context"
-	"encoding/binary"
-	"errors"
-	"fmt"
-	"math"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-)
-
-// get the count of the number of leaf arrays for the type
-func calcLeafCount(dt arrow.DataType) int {
-	switch dt := dt.(type) {
-	case arrow.ExtensionType:
-		return calcLeafCount(dt.StorageType())
-	case arrow.NestedType:
-		nleaves := 0
-		for _, f := range dt.Fields() {
-			nleaves += calcLeafCount(f.Type)
-		}
-		return nleaves
-	case *arrow.DictionaryType:
-		return calcLeafCount(dt.ValueType)
-	default:
-		return 1
-	}
-}
-
-func nullableRoot(manifest *SchemaManifest, field *SchemaField) bool {
-	curField := field
-	nullable := field.Field.Nullable
-	for curField != nil {
-		nullable = curField.Field.Nullable
-		curField = manifest.GetParent(curField)
-	}
-	return nullable
-}
-
-// arrowColumnWriter is a convenience object for easily writing arrow data to a specific
-// set of columns in a parquet file. Since a single arrow array can itself be a nested type
-// consisting of multiple columns of data, this will write to all of the appropriate leaves in
-// the parquet file, allowing easy writing of nested columns.
-type arrowColumnWriter struct {
-	builders  []*multipathLevelBuilder
-	leafCount int
-	colIdx    int
-	rgw       file.RowGroupWriter
-}
-
-// newArrowColumnWriter returns a new writer using the chunked array to determine the number of leaf columns,
-// and the provided schema manifest to determine the paths for writing the columns.
-//
-// Using an arrow column writer is a convenience to avoid having to process the arrow array yourself
-// and determine the correct definition and repetition levels manually.
-func newArrowColumnWriter(data *arrow.Chunked, offset, size int64, manifest *SchemaManifest, rgw file.RowGroupWriter, leafColIdx int) (arrowColumnWriter, error) {
-	if data.Len() == 0 {
-		return arrowColumnWriter{leafCount: calcLeafCount(data.DataType()), rgw: rgw}, nil
-	}
-
-	var (
-		absPos      int64
-		chunkOffset int64
-		chunkIdx    int
-		values      int64
-	)
-
-	for idx, chnk := range data.Chunks() {
-		chunkIdx = idx
-		if absPos >= offset {
-			break
-		}
-
-		chunkLen := int64(chnk.Len())
-		if absPos+chunkLen > offset {
-			chunkOffset = offset - absPos
-			break
-		}
-
-		absPos += chunkLen
-	}
-
-	if absPos >= int64(data.Len()) {
-		return arrowColumnWriter{}, errors.New("cannot write data at offset past end of chunked array")
-	}
-
-	leafCount := calcLeafCount(data.DataType())
-	isNullable := false
-	// row group writer hasn't been advanced yet so add 1 to the current
-	// which is the one this instance will start writing for
-	// colIdx := rgw.CurrentColumn() + 1
-
-	schemaField, err := manifest.GetColumnField(leafColIdx)
-	if err != nil {
-		return arrowColumnWriter{}, err
-	}
-	isNullable = nullableRoot(manifest, schemaField)
-
-	builders := make([]*multipathLevelBuilder, 0)
-	for values < size {
-		chunk := data.Chunk(chunkIdx)
-		available := int64(chunk.Len() - int(chunkOffset))
-		chunkWriteSize := utils.Min(size-values, available)
-
-		// the chunk offset will be 0 here except for possibly the first chunk
-		// because of the above advancing logic
-		arrToWrite := array.NewSlice(chunk, chunkOffset, chunkOffset+chunkWriteSize)
-		defer arrToWrite.Release()
-
-		if arrToWrite.Len() > 0 {
-			bldr, err := newMultipathLevelBuilder(arrToWrite, isNullable)
-			if err != nil {
-				return arrowColumnWriter{}, nil
-			}
-			if leafCount != bldr.leafCount() {
-				return arrowColumnWriter{}, fmt.Errorf("data type leaf_count != builder leaf_count: %d - %d", leafCount, bldr.leafCount())
-			}
-			builders = append(builders, bldr)
-		}
-
-		if chunkWriteSize == available {
-			chunkOffset = 0
-			chunkIdx++
-		}
-		values += chunkWriteSize
-	}
-
-	return arrowColumnWriter{builders: builders, leafCount: leafCount, rgw: rgw, colIdx: leafColIdx}, nil
-}
-
-func (acw *arrowColumnWriter) Write(ctx context.Context) error {
-	arrCtx := arrowCtxFromContext(ctx)
-	for leafIdx := 0; leafIdx < acw.leafCount; leafIdx++ {
-		var (
-			cw  file.ColumnChunkWriter
-			err error
-		)
-
-		if acw.rgw.Buffered() {
-			cw, err = acw.rgw.(file.BufferedRowGroupWriter).Column(acw.colIdx + leafIdx)
-		} else {
-			cw, err = acw.rgw.(file.SerialRowGroupWriter).NextColumn()
-		}
-
-		if err != nil {
-			return err
-		}
-
-		for _, bldr := range acw.builders {
-			if leafIdx == 0 {
-				defer bldr.Release()
-			}
-			res, err := bldr.write(leafIdx, arrCtx)
-			if err != nil {
-				return err
-			}
-			defer res.Release()
-
-			if len(res.postListVisitedElems) != 1 {
-				return errors.New("lists with non-zero length null components are not supported")
-			}
-			rng := res.postListVisitedElems[0]
-			values := array.NewSlice(res.leafArr, rng.start, rng.end)
-			defer values.Release()
-			if err = WriteArrowToColumn(ctx, cw, values, res.defLevels, res.repLevels, res.leafIsNullable); err != nil {
-				return err
-			}
-		}
-	}
-	return nil
-}
-
-// WriteArrowToColumn writes apache arrow columnar data directly to a ColumnWriter.
-// Returns non-nil error if the array data type is not compatible with the concrete
-// writer type.
-//
-// leafArr is always a primitive (possibly dictionary encoded type).
-// Leaf_field_nullable indicates whether the leaf array is considered nullable
-// according to its schema in a Table or its parent array.
-func WriteArrowToColumn(ctx context.Context, cw file.ColumnChunkWriter, leafArr arrow.Array, defLevels, repLevels []int16, leafFieldNullable bool) error {
-	// Leaf nulls are canonical when there is only a single null element after a list
-	// and it is at the leaf.
-	colLevelInfo := cw.LevelInfo()
-	singleNullable := (colLevelInfo.DefLevel == colLevelInfo.RepeatedAncestorDefLevel+1) && leafFieldNullable
-	maybeParentNulls := colLevelInfo.HasNullableValues() && !singleNullable
-
-	if maybeParentNulls && !cw.HasBitsBuffer() {
-		buf := memory.NewResizableBuffer(cw.Properties().Allocator())
-		buf.Resize(int(bitutil.BytesForBits(cw.Properties().WriteBatchSize())))
-		cw.SetBitsBuffer(buf)
-	}
-
-	arrCtx := arrowCtxFromContext(ctx)
-	defer func() {
-		if arrCtx.dataBuffer != nil {
-			arrCtx.dataBuffer.Release()
-			arrCtx.dataBuffer = nil
-		}
-	}()
-
-	if leafArr.DataType().ID() == arrow.DICTIONARY {
-		return writeDictionaryArrow(arrCtx, cw, leafArr, defLevels, repLevels, maybeParentNulls)
-	}
-	return writeDenseArrow(arrCtx, cw, leafArr, defLevels, repLevels, maybeParentNulls)
-}
-
-type binaryarr interface {
-	ValueOffsets() []int32
-}
-
-type binary64arr interface {
-	ValueOffsets() []int64
-}
-
-func writeDenseArrow(ctx *arrowWriteContext, cw file.ColumnChunkWriter, leafArr arrow.Array, defLevels, repLevels []int16, maybeParentNulls bool) (err error) {
-	if leafArr.DataType().ID() == arrow.EXTENSION {
-		extensionArray := leafArr.(array.ExtensionArray)
-		// Replace leafArr with its underlying storage array
-		leafArr = extensionArray.Storage()
-	}
-
-	noNulls := cw.Descr().SchemaNode().RepetitionType() == parquet.Repetitions.Required || leafArr.NullN() == 0
-
-	if ctx.dataBuffer == nil {
-		ctx.dataBuffer = memory.NewResizableBuffer(cw.Properties().Allocator())
-	}
-
-	switch wr := cw.(type) {
-	case *file.BooleanColumnChunkWriter:
-		if leafArr.DataType().ID() != arrow.BOOL {
-			return fmt.Errorf("type mismatch, column is %s, array is %s", cw.Type(), leafArr.DataType().ID())
-		}
-		// TODO(mtopol): optimize this so that we aren't converting from
-		// the bitmap -> []bool -> bitmap anymore
-		if leafArr.Len() == 0 {
-			_, err = wr.WriteBatch(nil, defLevels, repLevels)
-			break
-		}
-
-		ctx.dataBuffer.ResizeNoShrink(leafArr.Len())
-		buf := ctx.dataBuffer.Bytes()
-		data := *(*[]bool)(unsafe.Pointer(&buf))
-		for idx := range data {
-			data[idx] = leafArr.(*array.Boolean).Value(idx)
-		}
-		if !maybeParentNulls && noNulls {
-			wr.WriteBatch(data, defLevels, repLevels)
-		} else {
-			wr.WriteBatchSpaced(data, defLevels, repLevels, leafArr.NullBitmapBytes(), int64(leafArr.Data().Offset()))
-		}
-	case *file.Int32ColumnChunkWriter:
-		var data []int32
-		switch leafArr.DataType().ID() {
-		case arrow.INT32:
-			data = leafArr.(*array.Int32).Int32Values()
-		case arrow.DATE32, arrow.UINT32:
-			if leafArr.Data().Buffers()[1] != nil {
-				data = arrow.Int32Traits.CastFromBytes(leafArr.Data().Buffers()[1].Bytes())
-				data = data[leafArr.Data().Offset() : leafArr.Data().Offset()+leafArr.Len()]
-			}
-		case arrow.TIME32:
-			if leafArr.DataType().(*arrow.Time32Type).Unit != arrow.Second {
-				if leafArr.Data().Buffers()[1] != nil {
-					data = arrow.Int32Traits.CastFromBytes(leafArr.Data().Buffers()[1].Bytes())
-					data = data[leafArr.Data().Offset() : leafArr.Data().Offset()+leafArr.Len()]
-				}
-			} else { // coerce time32 if necessary by multiplying by 1000
-				ctx.dataBuffer.ResizeNoShrink(arrow.Int32Traits.BytesRequired(leafArr.Len()))
-				data = arrow.Int32Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-				for idx, val := range leafArr.(*array.Time32).Time32Values() {
-					data[idx] = int32(val) * 1000
-				}
-			}
-		case arrow.NULL:
-			wr.WriteBatchSpaced(nil, defLevels, repLevels, leafArr.NullBitmapBytes(), 0)
-			return
-
-		default:
-			// simple integral cases, parquet physical storage is int32 or int64
-			// so we have to create a new array of int32's for anything smaller than
-			// 32-bits
-			ctx.dataBuffer.ResizeNoShrink(arrow.Int32Traits.BytesRequired(leafArr.Len()))
-			data = arrow.Int32Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-			switch leafArr.DataType().ID() {
-			case arrow.UINT8:
-				for idx, val := range leafArr.(*array.Uint8).Uint8Values() {
-					data[idx] = int32(val)
-				}
-			case arrow.INT8:
-				for idx, val := range leafArr.(*array.Int8).Int8Values() {
-					data[idx] = int32(val)
-				}
-			case arrow.UINT16:
-				for idx, val := range leafArr.(*array.Uint16).Uint16Values() {
-					data[idx] = int32(val)
-				}
-			case arrow.INT16:
-				for idx, val := range leafArr.(*array.Int16).Int16Values() {
-					data[idx] = int32(val)
-				}
-			case arrow.DATE64:
-				for idx, val := range leafArr.(*array.Date64).Date64Values() {
-					data[idx] = int32(val / 86400000) // coerce date64 values
-				}
-			case arrow.DECIMAL128:
-				for idx, val := range leafArr.(*array.Decimal128).Values() {
-					debug.Assert(val.HighBits() == 0 || val.HighBits() == -1, "casting Decimal128 greater than the value range; high bits must be 0 or -1")
-					debug.Assert(val.LowBits() <= math.MaxUint32, "casting Decimal128 to int32 when value > MaxUint32")
-					data[idx] = int32(val.LowBits())
-				}
-			case arrow.DECIMAL256:
-				for idx, val := range leafArr.(*array.Decimal256).Values() {
-					debug.Assert(val.Array()[3] == 0 || val.Array()[3] == 0xFFFFFFFF, "casting Decimal128 greater than the value range; high bits must be 0 or -1")
-					debug.Assert(val.LowBits() <= math.MaxUint32, "casting Decimal128 to int32 when value > MaxUint32")
-					data[idx] = int32(val.LowBits())
-				}
-			default:
-				return fmt.Errorf("type mismatch, column is int32 writer, arrow array is %s, and not a compatible type", leafArr.DataType().Name())
-			}
-		}
-
-		if !maybeParentNulls && noNulls {
-			_, err = wr.WriteBatch(data, defLevels, repLevels)
-		} else {
-			nulls := leafArr.NullBitmapBytes()
-			wr.WriteBatchSpaced(data, defLevels, repLevels, nulls, int64(leafArr.Data().Offset()))
-		}
-	case *file.Int64ColumnChunkWriter:
-		var data []int64
-		switch leafArr.DataType().ID() {
-		case arrow.TIMESTAMP:
-			tstype := leafArr.DataType().(*arrow.TimestampType)
-			if ctx.props.coerceTimestamps {
-				// user explicitly requested coercion to specific unit
-				if tstype.Unit == ctx.props.coerceTimestampUnit {
-					// no conversion necessary
-					if leafArr.Data().Buffers()[1] != nil {
-						data = arrow.Int64Traits.CastFromBytes(leafArr.Data().Buffers()[1].Bytes())
-						data = data[leafArr.Data().Offset() : leafArr.Data().Offset()+leafArr.Len()]
-					}
-				} else {
-					ctx.dataBuffer.ResizeNoShrink(arrow.Int64Traits.BytesRequired(leafArr.Len()))
-					data = arrow.Int64Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-					if err := writeCoerceTimestamps(leafArr.(*array.Timestamp), &ctx.props, data); err != nil {
-						return err
-					}
-				}
-			} else if (cw.Properties().Version() == parquet.V1_0 || cw.Properties().Version() == parquet.V2_4) && tstype.Unit == arrow.Nanosecond {
-				// absent superceding user instructions, when writing a Parquet Version <=2.4 File,
-				// timestamps in nanoseconds are coerced to microseconds
-				ctx.dataBuffer.ResizeNoShrink(arrow.Int64Traits.BytesRequired(leafArr.Len()))
-				data = arrow.Int64Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-				p := NewArrowWriterProperties(WithCoerceTimestamps(arrow.Microsecond), WithTruncatedTimestamps(true))
-				if err := writeCoerceTimestamps(leafArr.(*array.Timestamp), &p, data); err != nil {
-					return err
-				}
-			} else if tstype.Unit == arrow.Second {
-				// absent superceding user instructions, timestamps in seconds are coerced
-				// to milliseconds
-				p := NewArrowWriterProperties(WithCoerceTimestamps(arrow.Millisecond))
-				ctx.dataBuffer.ResizeNoShrink(arrow.Int64Traits.BytesRequired(leafArr.Len()))
-				data = arrow.Int64Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-				if err := writeCoerceTimestamps(leafArr.(*array.Timestamp), &p, data); err != nil {
-					return err
-				}
-			} else {
-				// no data conversion necessary
-				if leafArr.Data().Buffers()[1] != nil {
-					data = arrow.Int64Traits.CastFromBytes(leafArr.Data().Buffers()[1].Bytes())
-					data = data[leafArr.Data().Offset() : leafArr.Data().Offset()+leafArr.Len()]
-				}
-			}
-		case arrow.UINT32:
-			ctx.dataBuffer.ResizeNoShrink(arrow.Int64Traits.BytesRequired(leafArr.Len()))
-			data = arrow.Int64Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-			for idx, val := range leafArr.(*array.Uint32).Uint32Values() {
-				data[idx] = int64(val)
-			}
-		case arrow.INT64:
-			data = leafArr.(*array.Int64).Int64Values()
-		case arrow.UINT64, arrow.TIME64, arrow.DATE64:
-			if leafArr.Data().Buffers()[1] != nil {
-				data = arrow.Int64Traits.CastFromBytes(leafArr.Data().Buffers()[1].Bytes())
-				data = data[leafArr.Data().Offset() : leafArr.Data().Offset()+leafArr.Len()]
-			}
-		case arrow.DECIMAL128:
-			ctx.dataBuffer.ResizeNoShrink(arrow.Int64Traits.BytesRequired(leafArr.Len()))
-			data = arrow.Int64Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-			for idx, val := range leafArr.(*array.Decimal128).Values() {
-				debug.Assert(val.HighBits() == 0 || val.HighBits() == -1, "trying to cast Decimal128 to int64 greater than range, high bits must be 0 or -1")
-				data[idx] = int64(val.LowBits())
-			}
-		case arrow.DECIMAL256:
-			ctx.dataBuffer.ResizeNoShrink(arrow.Int64Traits.BytesRequired(leafArr.Len()))
-			data = arrow.Int64Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-			for idx, val := range leafArr.(*array.Decimal256).Values() {
-				debug.Assert(val.Array()[3] == 0 || val.Array()[3] == 0xFFFFFFFF, "trying to cast Decimal128 to int64 greater than range, high bits must be 0 or -1")
-				data[idx] = int64(val.LowBits())
-			}
-		default:
-			return fmt.Errorf("unimplemented arrow type to write to int64 column: %s", leafArr.DataType().Name())
-		}
-
-		if !maybeParentNulls && noNulls {
-			_, err = wr.WriteBatch(data, defLevels, repLevels)
-		} else {
-			nulls := leafArr.NullBitmapBytes()
-			wr.WriteBatchSpaced(data, defLevels, repLevels, nulls, int64(leafArr.Data().Offset()))
-		}
-	case *file.Int96ColumnChunkWriter:
-		if leafArr.DataType().ID() != arrow.TIMESTAMP {
-			return errors.New("unsupported arrow type to write to Int96 column")
-		}
-		ctx.dataBuffer.ResizeNoShrink(parquet.Int96Traits.BytesRequired(leafArr.Len()))
-		data := parquet.Int96Traits.CastFromBytes(ctx.dataBuffer.Bytes())
-		input := leafArr.(*array.Timestamp).TimestampValues()
-		unit := leafArr.DataType().(*arrow.TimestampType).Unit
-		for idx, val := range input {
-			arrowTimestampToImpalaTimestamp(unit, int64(val), &data[idx])
-		}
-
-		if !maybeParentNulls && noNulls {
-			_, err = wr.WriteBatch(data, defLevels, repLevels)
-		} else {
-			nulls := leafArr.NullBitmapBytes()
-			wr.WriteBatchSpaced(data, defLevels, repLevels, nulls, int64(leafArr.Data().Offset()))
-		}
-	case *file.Float32ColumnChunkWriter:
-		if leafArr.DataType().ID() != arrow.FLOAT32 {
-			return errors.New("invalid column type to write to Float")
-		}
-		if !maybeParentNulls && noNulls {
-			_, err = wr.WriteBatch(leafArr.(*array.Float32).Float32Values(), defLevels, repLevels)
-		} else {
-			wr.WriteBatchSpaced(leafArr.(*array.Float32).Float32Values(), defLevels, repLevels, leafArr.NullBitmapBytes(), int64(leafArr.Data().Offset()))
-		}
-	case *file.Float64ColumnChunkWriter:
-		if leafArr.DataType().ID() != arrow.FLOAT64 {
-			return errors.New("invalid column type to write to Float")
-		}
-		if !maybeParentNulls && noNulls {
-			_, err = wr.WriteBatch(leafArr.(*array.Float64).Float64Values(), defLevels, repLevels)
-		} else {
-			wr.WriteBatchSpaced(leafArr.(*array.Float64).Float64Values(), defLevels, repLevels, leafArr.NullBitmapBytes(), int64(leafArr.Data().Offset()))
-		}
-	case *file.ByteArrayColumnChunkWriter:
-		var (
-			buffer   = leafArr.Data().Buffers()[2]
-			valueBuf []byte
-		)
-
-		if buffer == nil {
-			valueBuf = []byte{}
-		} else {
-			valueBuf = buffer.Bytes()
-		}
-
-		data := make([]parquet.ByteArray, leafArr.Len())
-		switch leafArr.DataType().ID() {
-		case arrow.BINARY, arrow.STRING:
-			offsets := leafArr.(binaryarr).ValueOffsets()
-			for i := range data {
-				data[i] = parquet.ByteArray(valueBuf[offsets[i]:offsets[i+1]])
-			}
-		case arrow.LARGE_BINARY, arrow.LARGE_STRING:
-			offsets := leafArr.(binary64arr).ValueOffsets()
-			for i := range data {
-				data[i] = parquet.ByteArray(valueBuf[offsets[i]:offsets[i+1]])
-			}
-		default:
-			return fmt.Errorf("%w: invalid column type to write to ByteArray: %s", arrow.ErrInvalid, leafArr.DataType().Name())
-		}
-
-		if !maybeParentNulls && noNulls {
-			_, err = wr.WriteBatch(data, defLevels, repLevels)
-		} else {
-			wr.WriteBatchSpaced(data, defLevels, repLevels, leafArr.NullBitmapBytes(), int64(leafArr.Data().Offset()))
-		}
-
-	case *file.FixedLenByteArrayColumnChunkWriter:
-		switch dt := leafArr.DataType().(type) {
-		case *arrow.FixedSizeBinaryType:
-			data := make([]parquet.FixedLenByteArray, leafArr.Len())
-			for idx := range data {
-				data[idx] = leafArr.(*array.FixedSizeBinary).Value(idx)
-			}
-			if !maybeParentNulls && noNulls {
-				_, err = wr.WriteBatch(data, defLevels, repLevels)
-			} else {
-				wr.WriteBatchSpaced(data, defLevels, repLevels, leafArr.NullBitmapBytes(), int64(leafArr.Data().Offset()))
-			}
-		case *arrow.Decimal128Type:
-			// parquet decimal are stored with FixedLength values where the length is
-			// proportional to the precision. Arrow's Decimal are always stored with 16/32
-			// bytes. thus the internal FLBA must be adjusted by the offset calculation
-			offset := int(bitutil.BytesForBits(int64(dt.BitWidth()))) - int(DecimalSize(dt.Precision))
-			ctx.dataBuffer.ResizeNoShrink((leafArr.Len() - leafArr.NullN()) * dt.BitWidth())
-			scratch := ctx.dataBuffer.Bytes()
-			typeLen := wr.Descr().TypeLength()
-			fixDecimalEndianness := func(in decimal128.Num) parquet.FixedLenByteArray {
-				out := scratch[offset : offset+typeLen]
-				binary.BigEndian.PutUint64(scratch, uint64(in.HighBits()))
-				binary.BigEndian.PutUint64(scratch[arrow.Uint64SizeBytes:], in.LowBits())
-				scratch = scratch[2*arrow.Uint64SizeBytes:]
-				return out
-			}
-
-			data := make([]parquet.FixedLenByteArray, leafArr.Len())
-			arr := leafArr.(*array.Decimal128)
-			if leafArr.NullN() == 0 {
-				for idx := range data {
-					data[idx] = fixDecimalEndianness(arr.Value(idx))
-				}
-				_, err = wr.WriteBatch(data, defLevels, repLevels)
-			} else {
-				for idx := range data {
-					if arr.IsValid(idx) {
-						data[idx] = fixDecimalEndianness(arr.Value(idx))
-					}
-				}
-				wr.WriteBatchSpaced(data, defLevels, repLevels, arr.NullBitmapBytes(), int64(arr.Data().Offset()))
-			}
-		case *arrow.Decimal256Type:
-			// parquet decimal are stored with FixedLength values where the length is
-			// proportional to the precision. Arrow's Decimal are always stored with 16/32
-			// bytes. thus the internal FLBA must be adjusted by the offset calculation
-			offset := int(bitutil.BytesForBits(int64(dt.BitWidth()))) - int(DecimalSize(dt.Precision))
-			ctx.dataBuffer.ResizeNoShrink((leafArr.Len() - leafArr.NullN()) * dt.BitWidth())
-			scratch := ctx.dataBuffer.Bytes()
-			typeLen := wr.Descr().TypeLength()
-			fixDecimalEndianness := func(in decimal256.Num) parquet.FixedLenByteArray {
-				out := scratch[offset : offset+typeLen]
-				vals := in.Array()
-				binary.BigEndian.PutUint64(scratch, vals[3])
-				binary.BigEndian.PutUint64(scratch[arrow.Uint64SizeBytes:], vals[2])
-				binary.BigEndian.PutUint64(scratch[2*arrow.Uint64SizeBytes:], vals[1])
-				binary.BigEndian.PutUint64(scratch[3*arrow.Uint64SizeBytes:], vals[0])
-				scratch = scratch[4*arrow.Uint64SizeBytes:]
-				return out
-			}
-
-			data := make([]parquet.FixedLenByteArray, leafArr.Len())
-			arr := leafArr.(*array.Decimal256)
-			if leafArr.NullN() == 0 {
-				for idx := range data {
-					data[idx] = fixDecimalEndianness(arr.Value(idx))
-				}
-				_, err = wr.WriteBatch(data, defLevels, repLevels)
-			} else {
-				for idx := range data {
-					if arr.IsValid(idx) {
-						data[idx] = fixDecimalEndianness(arr.Value(idx))
-					}
-				}
-				wr.WriteBatchSpaced(data, defLevels, repLevels, arr.NullBitmapBytes(), int64(arr.Data().Offset()))
-			}
-		case *arrow.Float16Type:
-			typeLen := wr.Descr().TypeLength()
-			if typeLen != arrow.Float16SizeBytes {
-				return fmt.Errorf("%w: invalid FixedLenByteArray length to write from float16 column: %d", arrow.ErrInvalid, typeLen)
-			}
-
-			arr := leafArr.(*array.Float16)
-			rawValues := arrow.Float16Traits.CastToBytes(arr.Values())
-			data := make([]parquet.FixedLenByteArray, arr.Len())
-
-			if arr.NullN() == 0 {
-				for idx := range data {
-					offset := idx * typeLen
-					data[idx] = rawValues[offset : offset+typeLen]
-				}
-				_, err = wr.WriteBatch(data, defLevels, repLevels)
-			} else {
-				for idx := range data {
-					if arr.IsValid(idx) {
-						offset := idx * typeLen
-						data[idx] = rawValues[offset : offset+typeLen]
-					}
-				}
-				wr.WriteBatchSpaced(data, defLevels, repLevels, arr.NullBitmapBytes(), int64(arr.Data().Offset()))
-			}
-		default:
-			return fmt.Errorf("%w: invalid column type to write to FixedLenByteArray: %s", arrow.ErrInvalid, leafArr.DataType().Name())
-		}
-	default:
-		return errors.New("unknown column writer physical type")
-	}
-	return
-}
-
-type coerceType int8
-
-const (
-	coerceInvalid coerceType = iota
-	coerceDivide
-	coerceMultiply
-)
-
-type coercePair struct {
-	typ    coerceType
-	factor int64
-}
-
-var factors = map[arrow.TimeUnit]map[arrow.TimeUnit]coercePair{
-	arrow.Second: {
-		arrow.Second:      {coerceInvalid, 0},
-		arrow.Millisecond: {coerceMultiply, 1000},
-		arrow.Microsecond: {coerceMultiply, 1000000},
-		arrow.Nanosecond:  {coerceMultiply, 1000000000},
-	},
-	arrow.Millisecond: {
-		arrow.Second:      {coerceInvalid, 0},
-		arrow.Millisecond: {coerceMultiply, 1},
-		arrow.Microsecond: {coerceMultiply, 1000},
-		arrow.Nanosecond:  {coerceMultiply, 1000000},
-	},
-	arrow.Microsecond: {
-		arrow.Second:      {coerceInvalid, 0},
-		arrow.Millisecond: {coerceDivide, 1000},
-		arrow.Microsecond: {coerceMultiply, 1},
-		arrow.Nanosecond:  {coerceMultiply, 1000},
-	},
-	arrow.Nanosecond: {
-		arrow.Second:      {coerceInvalid, 0},
-		arrow.Millisecond: {coerceDivide, 1000000},
-		arrow.Microsecond: {coerceDivide, 1000},
-		arrow.Nanosecond:  {coerceMultiply, 1},
-	},
-}
-
-func writeCoerceTimestamps(arr *array.Timestamp, props *ArrowWriterProperties, out []int64) error {
-	source := arr.DataType().(*arrow.TimestampType).Unit
-	target := props.coerceTimestampUnit
-	truncation := props.allowTruncatedTimestamps
-
-	vals := arr.TimestampValues()
-	multiply := func(factor int64) error {
-		for idx, val := range vals {
-			out[idx] = int64(val) * factor
-		}
-		return nil
-	}
-
-	divide := func(factor int64) error {
-		for idx, val := range vals {
-			if !truncation && arr.IsValid(idx) && (int64(val)%factor != 0) {
-				return fmt.Errorf("casting from %s to %s would lose data", source, target)
-			}
-			out[idx] = int64(val) / factor
-		}
-		return nil
-	}
-
-	coerce := factors[source][target]
-	switch coerce.typ {
-	case coerceMultiply:
-		return multiply(coerce.factor)
-	case coerceDivide:
-		return divide(coerce.factor)
-	default:
-		panic("invalid coercion")
-	}
-}
-
-const (
-	julianEpochOffsetDays int64 = 2440588
-	nanoSecondsPerDay           = 24 * 60 * 60 * 1000 * 1000 * 1000
-)
-
-func arrowTimestampToImpalaTimestamp(unit arrow.TimeUnit, t int64, out *parquet.Int96) {
-	var d time.Duration
-	switch unit {
-	case arrow.Second:
-		d = time.Duration(t) * time.Second
-	case arrow.Microsecond:
-		d = time.Duration(t) * time.Microsecond
-	case arrow.Millisecond:
-		d = time.Duration(t) * time.Millisecond
-	case arrow.Nanosecond:
-		d = time.Duration(t) * time.Nanosecond
-	}
-
-	julianDays := (int64(d.Hours()) / 24) + julianEpochOffsetDays
-	lastDayNanos := t % (nanoSecondsPerDay)
-	binary.LittleEndian.PutUint64((*out)[:8], uint64(lastDayNanos))
-	binary.LittleEndian.PutUint32((*out)[8:], uint32(julianDays))
-}
diff --git a/go/parquet/pqarrow/encode_arrow_test.go b/go/parquet/pqarrow/encode_arrow_test.go
deleted file mode 100644
index a238a78133e55..0000000000000
--- a/go/parquet/pqarrow/encode_arrow_test.go
+++ /dev/null
@@ -1,2266 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow_test
-
-import (
-	"bytes"
-	"context"
-	"fmt"
-	"math"
-	"strconv"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/bitutil"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/decimal256"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/types"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/google/uuid"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-func makeSimpleTable(values *arrow.Chunked, nullable bool) arrow.Table {
-	sc := arrow.NewSchema([]arrow.Field{{Name: "col", Type: values.DataType(), Nullable: nullable,
-		Metadata: arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"-1"})}}, nil)
-	column := arrow.NewColumn(sc.Field(0), values)
-	defer column.Release()
-	return array.NewTable(sc, []arrow.Column{*column}, -1)
-}
-
-func makeDateTimeTypesTable(mem memory.Allocator, expected bool, addFieldMeta bool) arrow.Table {
-	isValid := []bool{true, true, true, false, true, true}
-
-	// roundtrip without modification
-	f0 := arrow.Field{Name: "f0", Type: arrow.FixedWidthTypes.Date32, Nullable: true}
-	f1 := arrow.Field{Name: "f1", Type: arrow.FixedWidthTypes.Timestamp_ms, Nullable: true}
-	f2 := arrow.Field{Name: "f2", Type: arrow.FixedWidthTypes.Timestamp_us, Nullable: true}
-	f3 := arrow.Field{Name: "f3", Type: arrow.FixedWidthTypes.Timestamp_ns, Nullable: true}
-	f3X := arrow.Field{Name: "f3", Type: arrow.FixedWidthTypes.Timestamp_us, Nullable: true}
-	f4 := arrow.Field{Name: "f4", Type: arrow.FixedWidthTypes.Time32ms, Nullable: true}
-	f5 := arrow.Field{Name: "f5", Type: arrow.FixedWidthTypes.Time64us, Nullable: true}
-	f6 := arrow.Field{Name: "f6", Type: arrow.FixedWidthTypes.Time64ns, Nullable: true}
-
-	fieldList := []arrow.Field{f0, f1, f2}
-	if expected {
-		fieldList = append(fieldList, f3X)
-	} else {
-		fieldList = append(fieldList, f3)
-	}
-	fieldList = append(fieldList, f4, f5, f6)
-
-	if addFieldMeta {
-		for idx := range fieldList {
-			fieldList[idx].Metadata = arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{strconv.Itoa(idx + 1)})
-		}
-	}
-	arrsc := arrow.NewSchema(fieldList, nil)
-
-	d32Values := []arrow.Date32{1489269000, 1489270000, 1489271000, 1489272000, 1489272000, 1489273000}
-	ts64nsValues := []arrow.Timestamp{1489269000000, 1489270000000, 1489271000000, 1489272000000, 1489272000000, 1489273000000}
-	ts64usValues := []arrow.Timestamp{1489269000, 1489270000, 1489271000, 1489272000, 1489272000, 1489273000}
-	ts64msValues := []arrow.Timestamp{1489269, 1489270, 1489271, 1489272, 1489272, 1489273}
-	t32Values := []arrow.Time32{1489269000, 1489270000, 1489271000, 1489272000, 1489272000, 1489273000}
-	t64nsValues := []arrow.Time64{1489269000000, 1489270000000, 1489271000000, 1489272000000, 1489272000000, 1489273000000}
-	t64usValues := []arrow.Time64{1489269000, 1489270000, 1489271000, 1489272000, 1489272000, 1489273000}
-
-	builders := make([]array.Builder, 0, len(fieldList))
-	for _, f := range fieldList {
-		bldr := array.NewBuilder(mem, f.Type)
-		defer bldr.Release()
-		builders = append(builders, bldr)
-	}
-
-	builders[0].(*array.Date32Builder).AppendValues(d32Values, isValid)
-	builders[1].(*array.TimestampBuilder).AppendValues(ts64msValues, isValid)
-	builders[2].(*array.TimestampBuilder).AppendValues(ts64usValues, isValid)
-	if expected {
-		builders[3].(*array.TimestampBuilder).AppendValues(ts64usValues, isValid)
-	} else {
-		builders[3].(*array.TimestampBuilder).AppendValues(ts64nsValues, isValid)
-	}
-	builders[4].(*array.Time32Builder).AppendValues(t32Values, isValid)
-	builders[5].(*array.Time64Builder).AppendValues(t64usValues, isValid)
-	builders[6].(*array.Time64Builder).AppendValues(t64nsValues, isValid)
-
-	cols := make([]arrow.Column, 0, len(fieldList))
-	for idx, field := range fieldList {
-		arr := builders[idx].NewArray()
-		defer arr.Release()
-
-		chunked := arrow.NewChunked(field.Type, []arrow.Array{arr})
-		defer chunked.Release()
-		col := arrow.NewColumn(field, chunked)
-		defer col.Release()
-		cols = append(cols, *col)
-	}
-
-	return array.NewTable(arrsc, cols, int64(len(isValid)))
-}
-
-func makeDateTypeTable(mem memory.Allocator, expected bool, partialDays bool) arrow.Table {
-	const (
-		millisPerHour int64 = 1000 * 60 * 60
-		millisPerDay  int64 = millisPerHour * 24
-	)
-	isValid := []bool{true, true, true, false, true, true}
-
-	var field arrow.Field
-	if expected {
-		field = arrow.Field{Name: "date", Type: arrow.FixedWidthTypes.Date32, Nullable: true}
-	} else {
-		field = arrow.Field{Name: "date", Type: arrow.FixedWidthTypes.Date64, Nullable: true}
-	}
-
-	field.Metadata = arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"1"})
-
-	arrsc := arrow.NewSchema([]arrow.Field{field}, nil)
-
-	d32Values := []arrow.Date32{1489269000, 1489270000, 1489271000, 1489272000, 1489272000, 1489273000}
-
-	d64Values := make([]arrow.Date64, len(d32Values))
-	for i := range d64Values {
-		// Calculate number of milliseconds at date boundary
-		d64Values[i] = arrow.Date64(int64(d32Values[i]) * millisPerDay)
-		if partialDays {
-			// Offset 1 or more hours past the date boundary
-			hoursIntoDay := int64(i) * millisPerHour
-			d64Values[i] += arrow.Date64(hoursIntoDay)
-		}
-	}
-
-	bldr := array.NewRecordBuilder(mem, arrsc)
-	defer bldr.Release()
-
-	if expected {
-		bldr.Field(0).(*array.Date32Builder).AppendValues(d32Values, isValid)
-	} else {
-		bldr.Field(0).(*array.Date64Builder).AppendValues(d64Values, isValid)
-	}
-
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	return array.NewTableFromRecords(arrsc, []arrow.Record{rec})
-}
-
-func makeTimestampTypeTable(mem memory.Allocator, expected bool) arrow.Table {
-	isValid := []bool{true, true, true, false, true, true}
-
-	// Timestamp with relative (i.e. local) semantics. Make sure it roundtrips without being incorrectly converted to an absolute point in time.
-	f0 := arrow.Field{Name: "f0", Type: &arrow.TimestampType{Unit: arrow.Millisecond}, Nullable: true, Metadata: arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"1"})}
-
-	// Timestamp with absolute (i.e. instant) semantics. The physical representation is always from Unix epoch in UTC timezone.
-	// TimeZone is used for display purposes and can be stripped on roundtrip without changing the actual instant referred to.
-	// WithStoreSchema will preserve the original timezone, but the instant in will be equivalent even if it's not used.
-	f1 := arrow.Field{Name: "f1", Type: &arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "EST"}, Nullable: true, Metadata: arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"2"})}
-	f1X := arrow.Field{Name: "f1", Type: &arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "UTC"}, Nullable: true, Metadata: arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"2"})}
-
-	fieldList := []arrow.Field{f0}
-	if expected {
-		fieldList = append(fieldList, f1X)
-	} else {
-		fieldList = append(fieldList, f1)
-	}
-
-	arrsc := arrow.NewSchema(fieldList, nil)
-
-	ts64msValues := []arrow.Timestamp{1489269, 1489270, 1489271, 1489272, 1489272, 1489273}
-
-	bldr := array.NewRecordBuilder(mem, arrsc)
-	defer bldr.Release()
-
-	bldr.Field(0).(*array.TimestampBuilder).AppendValues(ts64msValues, isValid)
-	bldr.Field(1).(*array.TimestampBuilder).AppendValues(ts64msValues, isValid)
-
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	return array.NewTableFromRecords(arrsc, []arrow.Record{rec})
-}
-
-func TestWriteArrowCols(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	tbl := makeDateTimeTypesTable(mem, false, false)
-	defer tbl.Release()
-
-	sink := encoding.NewBufferWriter(0, mem)
-	defer sink.Release()
-
-	fileWriter, err := pqarrow.NewFileWriter(
-		tbl.Schema(),
-		sink,
-		parquet.NewWriterProperties(parquet.WithVersion(parquet.V2_4)),
-		pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)),
-	)
-	require.NoError(t, err)
-
-	fileWriter.NewRowGroup()
-	for i := int64(0); i < tbl.NumCols(); i++ {
-		colChunk := tbl.Column(int(i)).Data()
-		err := fileWriter.WriteColumnChunked(colChunk, 0, int64(colChunk.Len()))
-		require.NoError(t, err)
-	}
-	require.NoError(t, fileWriter.Close())
-
-	expected := makeDateTimeTypesTable(mem, true, false)
-	defer expected.Release()
-
-	reader, err := file.NewParquetReader(bytes.NewReader(sink.Bytes()))
-	require.NoError(t, err)
-
-	assert.EqualValues(t, expected.NumCols(), reader.MetaData().Schema.NumColumns())
-	assert.EqualValues(t, expected.NumRows(), reader.NumRows())
-	assert.EqualValues(t, 1, reader.NumRowGroups())
-
-	rgr := reader.RowGroup(0)
-
-	for i := 0; i < int(expected.NumCols()); i++ {
-		var (
-			total        int64
-			read         int
-			defLevelsOut = make([]int16, int(expected.NumRows()))
-			arr          = expected.Column(i).Data().Chunk(0)
-		)
-		switch expected.Schema().Field(i).Type.(arrow.FixedWidthDataType).BitWidth() {
-		case 32:
-			col, err := rgr.Column(i)
-			assert.NoError(t, err)
-			colReader := col.(*file.Int32ColumnChunkReader)
-			vals := make([]int32, int(expected.NumRows()))
-			total, read, err = colReader.ReadBatch(expected.NumRows(), vals, defLevelsOut, nil)
-			require.NoError(t, err)
-
-			nulls := 0
-			for j := 0; j < arr.Len(); j++ {
-				if arr.IsNull(j) {
-					nulls++
-					continue
-				}
-
-				switch v := arr.(type) {
-				case *array.Date32:
-					assert.EqualValues(t, v.Value(j), vals[j-nulls])
-				case *array.Time32:
-					assert.EqualValues(t, v.Value(j), vals[j-nulls])
-				}
-			}
-		case 64:
-			col, err := rgr.Column(i)
-			assert.NoError(t, err)
-			colReader := col.(*file.Int64ColumnChunkReader)
-			vals := make([]int64, int(expected.NumRows()))
-			total, read, err = colReader.ReadBatch(expected.NumRows(), vals, defLevelsOut, nil)
-			require.NoError(t, err)
-
-			nulls := 0
-			for j := 0; j < arr.Len(); j++ {
-				if arr.IsNull(j) {
-					nulls++
-					continue
-				}
-
-				switch v := arr.(type) {
-				case *array.Date64:
-					assert.EqualValues(t, v.Value(j), vals[j-nulls])
-				case *array.Time64:
-					assert.EqualValues(t, v.Value(j), vals[j-nulls])
-				case *array.Timestamp:
-					assert.EqualValues(t, v.Value(j), vals[j-nulls])
-				}
-			}
-		}
-		assert.EqualValues(t, expected.NumRows(), total)
-		assert.EqualValues(t, expected.NumRows()-1, read)
-		assert.Equal(t, []int16{1, 1, 1, 0, 1, 1}, defLevelsOut)
-	}
-}
-
-func TestWriteArrowInt96(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	tbl := makeDateTimeTypesTable(mem, false, false)
-	defer tbl.Release()
-
-	sink := encoding.NewBufferWriter(0, mem)
-	defer sink.Release()
-
-	fileWriter, err := pqarrow.NewFileWriter(
-		tbl.Schema(),
-		sink,
-		parquet.NewWriterProperties(parquet.WithAllocator(mem)),
-		pqarrow.NewArrowWriterProperties(pqarrow.WithDeprecatedInt96Timestamps(true), pqarrow.WithAllocator(mem)),
-	)
-	require.NoError(t, err)
-
-	fileWriter.NewRowGroup()
-	for i := int64(0); i < tbl.NumCols(); i++ {
-		colChunk := tbl.Column(int(i)).Data()
-		err := fileWriter.WriteColumnChunked(colChunk, 0, int64(colChunk.Len()))
-		require.NoError(t, err)
-	}
-	require.NoError(t, fileWriter.Close())
-
-	expected := makeDateTimeTypesTable(mem, false, false)
-	defer expected.Release()
-
-	reader, err := file.NewParquetReader(bytes.NewReader(sink.Bytes()))
-	require.NoError(t, err)
-
-	assert.EqualValues(t, expected.NumCols(), reader.MetaData().Schema.NumColumns())
-	assert.EqualValues(t, expected.NumRows(), reader.NumRows())
-	assert.EqualValues(t, 1, reader.NumRowGroups())
-
-	rgr := reader.RowGroup(0)
-	tsRdr, err := rgr.Column(3)
-	assert.NoError(t, err)
-	assert.Equal(t, parquet.Types.Int96, tsRdr.Type())
-
-	rdr := tsRdr.(*file.Int96ColumnChunkReader)
-	vals := make([]parquet.Int96, expected.NumRows())
-	defLevels := make([]int16, int(expected.NumRows()))
-
-	total, read, _ := rdr.ReadBatch(expected.NumRows(), vals, defLevels, nil)
-	assert.EqualValues(t, expected.NumRows(), total)
-	assert.EqualValues(t, expected.NumRows()-1, read)
-	assert.Equal(t, []int16{1, 1, 1, 0, 1, 1}, defLevels)
-
-	data := expected.Column(3).Data().Chunk(0).(*array.Timestamp)
-	assert.EqualValues(t, data.Value(0), vals[0].ToTime().UnixNano())
-	assert.EqualValues(t, data.Value(1), vals[1].ToTime().UnixNano())
-	assert.EqualValues(t, data.Value(2), vals[2].ToTime().UnixNano())
-	assert.EqualValues(t, data.Value(4), vals[3].ToTime().UnixNano())
-	assert.EqualValues(t, data.Value(5), vals[4].ToTime().UnixNano())
-}
-
-func writeTableToBuffer(t *testing.T, mem memory.Allocator, tbl arrow.Table, rowGroupSize int64, props pqarrow.ArrowWriterProperties) *memory.Buffer {
-	sink := encoding.NewBufferWriter(0, mem)
-	defer sink.Release()
-
-	fileWriter, err := pqarrow.NewFileWriter(
-		tbl.Schema(),
-		sink,
-		parquet.NewWriterProperties(parquet.WithVersion(parquet.V1_0)),
-		props,
-	)
-	require.NoError(t, err)
-
-	offset := int64(0)
-	for offset < tbl.NumRows() {
-		sz := utils.Min(rowGroupSize, tbl.NumRows()-offset)
-		fileWriter.NewRowGroup()
-		for i := 0; i < int(tbl.NumCols()); i++ {
-			colChunk := tbl.Column(i).Data()
-			err := fileWriter.WriteColumnChunked(colChunk, 0, int64(colChunk.Len()))
-			require.NoError(t, err)
-		}
-		offset += sz
-	}
-
-	require.NoError(t, fileWriter.Close())
-	return sink.Finish()
-}
-
-func simpleRoundTrip(t *testing.T, tbl arrow.Table, rowGroupSize int64) {
-	t.Helper()
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	buf := writeTableToBuffer(t, mem, tbl, rowGroupSize, pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	defer buf.Release()
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	require.NoError(t, err)
-
-	ardr, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{}, mem)
-	require.NoError(t, err)
-
-	for i := 0; i < int(tbl.NumCols()); i++ {
-		crdr, err := ardr.GetColumn(context.TODO(), i)
-		require.NoError(t, err)
-
-		chunked, err := crdr.NextBatch(tbl.NumRows())
-		require.NoError(t, err)
-		defer chunked.Release()
-
-		require.EqualValues(t, tbl.NumRows(), chunked.Len())
-
-		chunkList := tbl.Column(i).Data().Chunks()
-		offset := int64(0)
-		for _, chnk := range chunkList {
-			slc := array.NewChunkedSlice(chunked, offset, offset+int64(chnk.Len()))
-			defer slc.Release()
-
-			assert.EqualValues(t, chnk.Len(), slc.Len())
-			if len(slc.Chunks()) == 1 {
-				offset += int64(chnk.Len())
-				assert.True(t, array.Equal(chnk, slc.Chunk(0)))
-			}
-		}
-		crdr.Release()
-	}
-}
-
-func TestWriteKeyValueMetadata(t *testing.T) {
-	kv := map[string]string{
-		"key1": "value1",
-		"key2": "value2",
-		"key3": "value3",
-	}
-
-	sc := arrow.NewSchema([]arrow.Field{
-		{Name: "int32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-	}, nil)
-	bldr := array.NewRecordBuilder(memory.DefaultAllocator, sc)
-	defer bldr.Release()
-	for _, b := range bldr.Fields() {
-		b.AppendNull()
-	}
-
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	props := parquet.NewWriterProperties(
-		parquet.WithVersion(parquet.V1_0),
-	)
-	var buf bytes.Buffer
-	fw, err := pqarrow.NewFileWriter(sc, &buf, props, pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-	err = fw.Write(rec)
-	require.NoError(t, err)
-
-	for key, value := range kv {
-		require.NoError(t, fw.AppendKeyValueMetadata(key, value))
-	}
-
-	err = fw.Close()
-	require.NoError(t, err)
-
-	reader, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	require.NoError(t, err)
-
-	for key, value := range kv {
-		got := reader.MetaData().KeyValueMetadata().FindValue(key)
-		require.NotNil(t, got)
-		assert.Equal(t, value, *got)
-	}
-}
-
-func TestWriteEmptyLists(t *testing.T) {
-	sc := arrow.NewSchema([]arrow.Field{
-		{Name: "f1", Type: arrow.ListOf(arrow.FixedWidthTypes.Date32)},
-		{Name: "f2", Type: arrow.ListOf(arrow.FixedWidthTypes.Date64)},
-		{Name: "f3", Type: arrow.ListOf(arrow.FixedWidthTypes.Timestamp_us)},
-		{Name: "f4", Type: arrow.ListOf(arrow.FixedWidthTypes.Timestamp_ms)},
-		{Name: "f5", Type: arrow.ListOf(arrow.FixedWidthTypes.Time32ms)},
-		{Name: "f6", Type: arrow.ListOf(arrow.FixedWidthTypes.Time64ns)},
-		{Name: "f7", Type: arrow.ListOf(arrow.FixedWidthTypes.Time64us)},
-	}, nil)
-	bldr := array.NewRecordBuilder(memory.DefaultAllocator, sc)
-	defer bldr.Release()
-	for _, b := range bldr.Fields() {
-		b.AppendNull()
-	}
-
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	props := parquet.NewWriterProperties(
-		parquet.WithVersion(parquet.V1_0),
-	)
-	arrprops := pqarrow.DefaultWriterProps()
-	var buf bytes.Buffer
-	fw, err := pqarrow.NewFileWriter(sc, &buf, props, arrprops)
-	require.NoError(t, err)
-	err = fw.Write(rec)
-	require.NoError(t, err)
-	err = fw.Close()
-	require.NoError(t, err)
-}
-
-func TestWriteAllNullsWithDeltaEncoding(t *testing.T) {
-	sc := arrow.NewSchema([]arrow.Field{
-		{Name: "f1", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		{Name: "f2", Type: arrow.ListOf(arrow.FixedWidthTypes.Date32)},
-		{Name: "f3", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "f4", Type: arrow.ListOf(arrow.BinaryTypes.String)},
-		{Name: "f5", Type: arrow.BinaryTypes.LargeString, Nullable: true},
-		{Name: "f6", Type: arrow.ListOf(arrow.BinaryTypes.LargeString)},
-		{Name: "f7", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
-		{Name: "f8", Type: arrow.ListOf(arrow.FixedWidthTypes.Date64)},
-		{Name: "f9", Type: arrow.BinaryTypes.String, Nullable: true},
-		{Name: "f10", Type: arrow.ListOf(arrow.BinaryTypes.LargeString)},
-		{Name: "f11", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
-		{Name: "f12", Type: arrow.ListOf(arrow.FixedWidthTypes.Boolean)},
-		{Name: "f13", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "f14", Type: arrow.ListOf(arrow.PrimitiveTypes.Float32)},
-	}, nil)
-	bldr := array.NewRecordBuilder(memory.DefaultAllocator, sc)
-	defer bldr.Release()
-	for _, b := range bldr.Fields() {
-		b.AppendNull()
-	}
-
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	props := parquet.NewWriterProperties(
-		parquet.WithVersion(parquet.V1_0),
-		parquet.WithDictionaryDefault(false),
-		parquet.WithDictionaryFor("f9", true),
-		parquet.WithDictionaryFor("f10", true),
-		parquet.WithDictionaryFor("f13", true),
-		parquet.WithDictionaryFor("f14", true),
-		parquet.WithEncodingFor("f1", parquet.Encodings.DeltaBinaryPacked),
-		parquet.WithEncodingFor("f2", parquet.Encodings.DeltaBinaryPacked),
-		parquet.WithEncodingFor("f3", parquet.Encodings.DeltaByteArray),
-		parquet.WithEncodingFor("f4", parquet.Encodings.DeltaByteArray),
-		parquet.WithEncodingFor("f5", parquet.Encodings.DeltaLengthByteArray),
-		parquet.WithEncodingFor("f6", parquet.Encodings.DeltaLengthByteArray),
-		parquet.WithEncodingFor("f7", parquet.Encodings.Plain),
-		parquet.WithEncodingFor("f8", parquet.Encodings.Plain),
-		parquet.WithEncodingFor("f9", parquet.Encodings.Plain),
-		parquet.WithEncodingFor("f10", parquet.Encodings.Plain),
-		parquet.WithEncodingFor("f11", parquet.Encodings.RLE),
-		parquet.WithEncodingFor("f12", parquet.Encodings.RLE),
-		parquet.WithEncodingFor("f13", parquet.Encodings.RLE),
-		parquet.WithEncodingFor("f14", parquet.Encodings.RLE),
-	)
-	arrprops := pqarrow.DefaultWriterProps()
-	var buf bytes.Buffer
-	fw, err := pqarrow.NewFileWriter(sc, &buf, props, arrprops)
-	require.NoError(t, err)
-	err = fw.Write(rec)
-	require.NoError(t, err)
-	err = fw.Close()
-	require.NoError(t, err)
-}
-
-func TestArrowReadWriteTableChunkedCols(t *testing.T) {
-	chunkSizes := []int{2, 4, 10, 2}
-	const totalLen = int64(18)
-
-	rng := testutils.NewRandomArrayGenerator(0)
-
-	arr := rng.Int32(totalLen, 0, math.MaxInt32/2, 0.9)
-	defer arr.Release()
-
-	offset := int64(0)
-	chunks := make([]arrow.Array, 0)
-	for _, chnksize := range chunkSizes {
-		chk := array.NewSlice(arr, offset, offset+int64(chnksize))
-		defer chk.Release()
-		defer chk.Release() // for NewChunked below
-		chunks = append(chunks, chk)
-	}
-
-	sc := arrow.NewSchema([]arrow.Field{{Name: "field", Type: arr.DataType(), Nullable: true}}, nil)
-
-	chk := arrow.NewChunked(arr.DataType(), chunks)
-	defer chk.Release()
-
-	tbl := array.NewTable(sc, []arrow.Column{*arrow.NewColumn(sc.Field(0), chk)}, -1)
-	defer tbl.Release()
-
-	simpleRoundTrip(t, tbl, 2)
-	simpleRoundTrip(t, tbl, 10)
-}
-
-// set this up for checking our expected results so we can test the functions
-// that generate them which we export
-func getLogicalType(typ arrow.DataType) schema.LogicalType {
-	switch typ.ID() {
-	case arrow.DICTIONARY:
-		return getLogicalType(typ.(*arrow.DictionaryType).ValueType)
-	case arrow.INT8:
-		return schema.NewIntLogicalType(8, true)
-	case arrow.UINT8:
-		return schema.NewIntLogicalType(8, false)
-	case arrow.INT16:
-		return schema.NewIntLogicalType(16, true)
-	case arrow.UINT16:
-		return schema.NewIntLogicalType(16, false)
-	case arrow.INT32:
-		return schema.NewIntLogicalType(32, true)
-	case arrow.UINT32:
-		return schema.NewIntLogicalType(32, false)
-	case arrow.INT64:
-		return schema.NewIntLogicalType(64, true)
-	case arrow.UINT64:
-		return schema.NewIntLogicalType(64, false)
-	case arrow.STRING, arrow.LARGE_STRING:
-		return schema.StringLogicalType{}
-	case arrow.DATE32:
-		return schema.DateLogicalType{}
-	case arrow.DATE64:
-		return schema.DateLogicalType{}
-	case arrow.FLOAT16:
-		return schema.Float16LogicalType{}
-	case arrow.TIMESTAMP:
-		ts := typ.(*arrow.TimestampType)
-		adjustedUTC := len(ts.TimeZone) == 0
-		switch ts.Unit {
-		case arrow.Microsecond:
-			return schema.NewTimestampLogicalType(adjustedUTC, schema.TimeUnitMicros)
-		case arrow.Millisecond:
-			return schema.NewTimestampLogicalType(adjustedUTC, schema.TimeUnitMillis)
-		case arrow.Nanosecond:
-			return schema.NewTimestampLogicalType(adjustedUTC, schema.TimeUnitNanos)
-		default:
-			panic("only milli, micro and nano units supported for arrow timestamp")
-		}
-	case arrow.TIME32:
-		return schema.NewTimeLogicalType(false, schema.TimeUnitMillis)
-	case arrow.TIME64:
-		ts := typ.(*arrow.Time64Type)
-		switch ts.Unit {
-		case arrow.Microsecond:
-			return schema.NewTimeLogicalType(false, schema.TimeUnitMicros)
-		case arrow.Nanosecond:
-			return schema.NewTimeLogicalType(false, schema.TimeUnitNanos)
-		default:
-			panic("only micro and nano seconds are supported for arrow TIME64")
-		}
-	case arrow.DECIMAL, arrow.DECIMAL256:
-		dec := typ.(arrow.DecimalType)
-		return schema.NewDecimalLogicalType(dec.GetPrecision(), dec.GetScale())
-	}
-	return schema.NoLogicalType{}
-}
-
-func getPhysicalType(typ arrow.DataType) parquet.Type {
-	switch typ.ID() {
-	case arrow.DICTIONARY:
-		return getPhysicalType(typ.(*arrow.DictionaryType).ValueType)
-	case arrow.BOOL:
-		return parquet.Types.Boolean
-	case arrow.UINT8, arrow.INT8, arrow.UINT16, arrow.INT16, arrow.UINT32, arrow.INT32:
-		return parquet.Types.Int32
-	case arrow.INT64, arrow.UINT64:
-		return parquet.Types.Int64
-	case arrow.FLOAT32:
-		return parquet.Types.Float
-	case arrow.FLOAT64:
-		return parquet.Types.Double
-	case arrow.FLOAT16:
-		return parquet.Types.FixedLenByteArray
-	case arrow.BINARY, arrow.LARGE_BINARY, arrow.STRING, arrow.LARGE_STRING:
-		return parquet.Types.ByteArray
-	case arrow.FIXED_SIZE_BINARY, arrow.DECIMAL:
-		return parquet.Types.FixedLenByteArray
-	case arrow.DATE32:
-		return parquet.Types.Int32
-	case arrow.DATE64:
-		// convert to date32 internally
-		return parquet.Types.Int32
-	case arrow.TIME32:
-		return parquet.Types.Int32
-	case arrow.TIME64, arrow.TIMESTAMP:
-		return parquet.Types.Int64
-	default:
-		return parquet.Types.Int32
-	}
-}
-
-const (
-	boolTestValue = true
-	uint8TestVal  = uint8(64)
-	int8TestVal   = int8(-64)
-	uint16TestVal = uint16(1024)
-	int16TestVal  = int16(-1024)
-	uint32TestVal = uint32(1024)
-	int32TestVal  = int32(-1024)
-	uint64TestVal = uint64(1024)
-	int64TestVal  = int64(-1024)
-	tsTestValue   = arrow.Timestamp(14695634030000)
-	date32TestVal = arrow.Date32(170000)
-	floatTestVal  = float32(2.1)
-	doubleTestVal = float64(4.2)
-	strTestVal    = "Test"
-
-	smallSize = 100
-)
-
-type ParquetIOTestSuite struct {
-	suite.Suite
-}
-
-func (ps *ParquetIOTestSuite) makeSimpleSchema(typ arrow.DataType, rep parquet.Repetition) *schema.GroupNode {
-	byteWidth := int32(-1)
-
-	switch typ := typ.(type) {
-	case *arrow.FixedSizeBinaryType:
-		byteWidth = int32(typ.ByteWidth)
-	case arrow.DecimalType:
-		byteWidth = pqarrow.DecimalSize(typ.GetPrecision())
-	case *arrow.Float16Type:
-		byteWidth = int32(typ.Bytes())
-	case *arrow.DictionaryType:
-		valuesType := typ.ValueType
-		switch dt := valuesType.(type) {
-		case *arrow.FixedSizeBinaryType:
-			byteWidth = int32(dt.ByteWidth)
-		case arrow.DecimalType:
-			byteWidth = pqarrow.DecimalSize(dt.GetPrecision())
-		case *arrow.Float16Type:
-			byteWidth = int32(typ.Bytes())
-		}
-	}
-
-	pnode, _ := schema.NewPrimitiveNodeLogical("column1", rep, getLogicalType(typ), getPhysicalType(typ), int(byteWidth), -1)
-	return schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{pnode}, -1))
-}
-
-func (ps *ParquetIOTestSuite) makePrimitiveTestCol(mem memory.Allocator, size int, typ arrow.DataType) arrow.Array {
-	switch typ.ID() {
-	case arrow.BOOL:
-		bldr := array.NewBooleanBuilder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(boolTestValue)
-		}
-		return bldr.NewArray()
-	case arrow.INT8:
-		bldr := array.NewInt8Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(int8TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.UINT8:
-		bldr := array.NewUint8Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(uint8TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.INT16:
-		bldr := array.NewInt16Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(int16TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.UINT16:
-		bldr := array.NewUint16Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(uint16TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.INT32:
-		bldr := array.NewInt32Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(int32TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.UINT32:
-		bldr := array.NewUint32Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(uint32TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.INT64:
-		bldr := array.NewInt64Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(int64TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.UINT64:
-		bldr := array.NewUint64Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(uint64TestVal)
-		}
-		return bldr.NewArray()
-	case arrow.FLOAT32:
-		bldr := array.NewFloat32Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(floatTestVal)
-		}
-		return bldr.NewArray()
-	case arrow.FLOAT64:
-		bldr := array.NewFloat64Builder(mem)
-		defer bldr.Release()
-		for i := 0; i < size; i++ {
-			bldr.Append(doubleTestVal)
-		}
-		return bldr.NewArray()
-	}
-	return nil
-}
-
-func (ps *ParquetIOTestSuite) makeTestFile(mem memory.Allocator, typ arrow.DataType, arr arrow.Array, numChunks int) []byte {
-	sc := ps.makeSimpleSchema(typ, parquet.Repetitions.Required)
-	sink := encoding.NewBufferWriter(0, mem)
-	defer sink.Release()
-	writer := file.NewParquetWriter(sink, sc, file.WithWriterProps(parquet.NewWriterProperties(parquet.WithAllocator(mem))))
-
-	props := pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem))
-	ctx := pqarrow.NewArrowWriteContext(context.TODO(), &props)
-	rowGroupSize := arr.Len() / numChunks
-
-	for i := 0; i < numChunks; i++ {
-		rgw := writer.AppendRowGroup()
-		cw, err := rgw.NextColumn()
-		ps.NoError(err)
-
-		start := i * rowGroupSize
-		slc := array.NewSlice(arr, int64(start), int64(start+rowGroupSize))
-		defer slc.Release()
-		ps.NoError(pqarrow.WriteArrowToColumn(ctx, cw, slc, nil, nil, false))
-		ps.NoError(cw.Close())
-		ps.NoError(rgw.Close())
-	}
-	ps.NoError(writer.Close())
-	buf := sink.Finish()
-	defer buf.Release()
-	return buf.Bytes()
-}
-
-func (ps *ParquetIOTestSuite) createReader(mem memory.Allocator, data []byte) *pqarrow.FileReader {
-	rdr, err := file.NewParquetReader(bytes.NewReader(data), file.WithReadProps(parquet.NewReaderProperties(mem)))
-	ps.NoError(err)
-
-	reader, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{}, mem)
-	ps.NoError(err)
-	return reader
-}
-
-func (ps *ParquetIOTestSuite) readTable(rdr *pqarrow.FileReader) arrow.Table {
-	tbl, err := rdr.ReadTable(context.TODO())
-	ps.NoError(err)
-	ps.NotNil(tbl)
-	return tbl
-}
-
-func (ps *ParquetIOTestSuite) checkSingleColumnRequiredTableRead(mem memory.Allocator, typ arrow.DataType, numChunks int) {
-	values := ps.makePrimitiveTestCol(mem, smallSize, typ)
-	defer values.Release()
-
-	data := ps.makeTestFile(mem, typ, values, numChunks)
-	reader := ps.createReader(mem, data)
-
-	tbl := ps.readTable(reader)
-	defer tbl.Release()
-
-	ps.EqualValues(1, tbl.NumCols())
-	ps.EqualValues(smallSize, tbl.NumRows())
-
-	chunked := tbl.Column(0).Data()
-	ps.Len(chunked.Chunks(), 1)
-	ps.True(array.Equal(values, chunked.Chunk(0)))
-}
-
-func (ps *ParquetIOTestSuite) checkSingleColumnRead(mem memory.Allocator, typ arrow.DataType, numChunks int) {
-	values := ps.makePrimitiveTestCol(mem, smallSize, typ)
-	defer values.Release()
-
-	data := ps.makeTestFile(mem, typ, values, numChunks)
-	reader := ps.createReader(mem, data)
-
-	cr, err := reader.GetColumn(context.TODO(), 0)
-	ps.NoError(err)
-	defer cr.Release()
-
-	chunked, err := cr.NextBatch(smallSize)
-	ps.NoError(err)
-	defer chunked.Release()
-
-	ps.Len(chunked.Chunks(), 1)
-	ps.True(array.Equal(values, chunked.Chunk(0)))
-}
-
-func (ps *ParquetIOTestSuite) TestDateTimeTypesReadWriteTable() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	toWrite := makeDateTimeTypesTable(mem, false, true)
-	defer toWrite.Release()
-	buf := writeTableToBuffer(ps.T(), mem, toWrite, toWrite.NumRows(), pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	tbl := ps.readTable(reader)
-	defer tbl.Release()
-
-	expected := makeDateTimeTypesTable(mem, true, true)
-	defer expected.Release()
-
-	ps.Equal(expected.NumCols(), tbl.NumCols())
-	ps.Equal(expected.NumRows(), tbl.NumRows())
-	ps.Truef(expected.Schema().Equal(tbl.Schema()), "expected schema: %s\ngot schema: %s", expected.Schema(), tbl.Schema())
-
-	for i := 0; i < int(expected.NumCols()); i++ {
-		exChunk := expected.Column(i).Data()
-		tblChunk := tbl.Column(i).Data()
-
-		ps.Equal(len(exChunk.Chunks()), len(tblChunk.Chunks()))
-		ps.Truef(array.Equal(exChunk.Chunk(0), tblChunk.Chunk(0)), "expected %s\ngot %s", exChunk.Chunk(0), tblChunk.Chunk(0))
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestDateTimeTypesWithInt96ReadWriteTable() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	expected := makeDateTimeTypesTable(mem, false, true)
-	defer expected.Release()
-	buf := writeTableToBuffer(ps.T(), mem, expected, expected.NumRows(), pqarrow.NewArrowWriterProperties(pqarrow.WithDeprecatedInt96Timestamps(true)))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	tbl := ps.readTable(reader)
-	defer tbl.Release()
-
-	ps.Equal(expected.NumCols(), tbl.NumCols())
-	ps.Equal(expected.NumRows(), tbl.NumRows())
-	ps.Truef(expected.Schema().Equal(tbl.Schema()), "expected schema: %s\ngot schema: %s", expected.Schema(), tbl.Schema())
-
-	for i := 0; i < int(expected.NumCols()); i++ {
-		exChunk := expected.Column(i).Data()
-		tblChunk := tbl.Column(i).Data()
-
-		ps.Equal(len(exChunk.Chunks()), len(tblChunk.Chunks()))
-		ps.Truef(array.Equal(exChunk.Chunk(0), tblChunk.Chunk(0)), "expected %s\ngot %s", exChunk.Chunk(0), tblChunk.Chunk(0))
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestDate64ReadWriteTable() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	date64InputTable := makeDateTypeTable(mem, false, false)
-	defer date64InputTable.Release()
-	buf := writeTableToBuffer(ps.T(), mem, date64InputTable, date64InputTable.NumRows(), pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	roundTripOutputTable := ps.readTable(reader)
-	defer roundTripOutputTable.Release()
-
-	date32ExpectedOutputTable := makeDateTypeTable(mem, true, false)
-	defer date32ExpectedOutputTable.Release()
-
-	ps.Truef(array.TableEqual(date32ExpectedOutputTable, roundTripOutputTable), "expected table: %s\ngot table: %s", date32ExpectedOutputTable, roundTripOutputTable)
-}
-
-func (ps *ParquetIOTestSuite) TestTimestampTZReadWriteTable() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	inputTable := makeTimestampTypeTable(mem, false)
-	defer inputTable.Release()
-	buf := writeTableToBuffer(ps.T(), mem, inputTable, inputTable.NumRows(), pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	roundTripOutputTable := ps.readTable(reader)
-	defer roundTripOutputTable.Release()
-
-	expectedOutputTable := makeTimestampTypeTable(mem, true)
-	defer expectedOutputTable.Release()
-
-	ps.Truef(array.TableEqual(expectedOutputTable, roundTripOutputTable), "expected table: %s\ngot table: %s", expectedOutputTable, roundTripOutputTable)
-}
-
-func (ps *ParquetIOTestSuite) TestDate64ReadWriteTableWithPartialDays() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	date64InputTableNotAlignedToDateBoundary := makeDateTypeTable(mem, false, true)
-	defer date64InputTableNotAlignedToDateBoundary.Release()
-	buf := writeTableToBuffer(ps.T(), mem, date64InputTableNotAlignedToDateBoundary, date64InputTableNotAlignedToDateBoundary.NumRows(), pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	roundTripOutputTable := ps.readTable(reader)
-	defer roundTripOutputTable.Release()
-
-	date32ExpectedOutputTable := makeDateTypeTable(mem, true, true)
-	defer date32ExpectedOutputTable.Release()
-
-	ps.Truef(array.TableEqual(date32ExpectedOutputTable, roundTripOutputTable), "expected table: %s\ngot table: %s", date32ExpectedOutputTable, roundTripOutputTable)
-}
-
-func (ps *ParquetIOTestSuite) TestTimestampTZStoreSchemaReadWriteTable() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	inputTable := makeTimestampTypeTable(mem, false)
-	defer inputTable.Release()
-	buf := writeTableToBuffer(ps.T(), mem, inputTable, inputTable.NumRows(), pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem), pqarrow.WithStoreSchema()))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	roundTripOutputTable := ps.readTable(reader)
-	defer roundTripOutputTable.Release()
-
-	ps.Truef(array.TableEqual(inputTable, roundTripOutputTable), "expected table: %s\ngot table: %s", inputTable, roundTripOutputTable)
-}
-
-func (ps *ParquetIOTestSuite) TestLargeBinaryReadWriteTable() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	// While we may write using LargeString, when we read, we get an array.String back out.
-	// So we're building a normal array.String to use with array.Equal
-	lsBldr := array.NewLargeStringBuilder(mem)
-	defer lsBldr.Release()
-	lbBldr := array.NewBinaryBuilder(mem, arrow.BinaryTypes.LargeBinary)
-	defer lbBldr.Release()
-
-	for i := 0; i < smallSize; i++ {
-		s := strconv.FormatInt(int64(i), 10)
-		lsBldr.Append(s)
-		lbBldr.Append([]byte(s))
-	}
-
-	lsValues := lsBldr.NewArray()
-	defer lsValues.Release()
-	lbValues := lbBldr.NewArray()
-	defer lbValues.Release()
-
-	lsField := arrow.Field{Name: "large_string", Type: arrow.BinaryTypes.LargeString, Nullable: true}
-	lbField := arrow.Field{Name: "large_binary", Type: arrow.BinaryTypes.LargeBinary, Nullable: true}
-	expected := array.NewTable(
-		arrow.NewSchema([]arrow.Field{lsField, lbField}, nil),
-		[]arrow.Column{
-			*arrow.NewColumn(lsField, arrow.NewChunked(lsField.Type, []arrow.Array{lsValues})),
-			*arrow.NewColumn(lbField, arrow.NewChunked(lbField.Type, []arrow.Array{lbValues})),
-		},
-		-1,
-	)
-	defer lsValues.Release() // NewChunked
-	defer lbValues.Release() // NewChunked
-	defer expected.Release()
-	ps.roundTripTable(mem, expected, true)
-}
-
-func (ps *ParquetIOTestSuite) TestReadSingleColumnFile() {
-	types := []arrow.DataType{
-		arrow.FixedWidthTypes.Boolean,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Uint64,
-		arrow.PrimitiveTypes.Int64,
-		arrow.PrimitiveTypes.Float32,
-		arrow.PrimitiveTypes.Float64,
-	}
-
-	nchunks := []int{1, 4}
-
-	for _, n := range nchunks {
-		for _, dt := range types {
-			ps.Run(fmt.Sprintf("%s %d chunks", dt.Name(), n), func() {
-				mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-				defer mem.AssertSize(ps.T(), 0)
-				ps.checkSingleColumnRead(mem, dt, n)
-			})
-		}
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSingleColumnRequiredRead() {
-	types := []arrow.DataType{
-		arrow.FixedWidthTypes.Boolean,
-		arrow.PrimitiveTypes.Uint8,
-		arrow.PrimitiveTypes.Int8,
-		arrow.PrimitiveTypes.Uint16,
-		arrow.PrimitiveTypes.Int16,
-		arrow.PrimitiveTypes.Uint32,
-		arrow.PrimitiveTypes.Int32,
-		arrow.PrimitiveTypes.Uint64,
-		arrow.PrimitiveTypes.Int64,
-		arrow.PrimitiveTypes.Float32,
-		arrow.PrimitiveTypes.Float64,
-	}
-
-	nchunks := []int{1, 4}
-
-	for _, n := range nchunks {
-		for _, dt := range types {
-			ps.Run(fmt.Sprintf("%s %d chunks", dt.Name(), n), func() {
-				mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-				defer mem.AssertSize(ps.T(), 0)
-
-				ps.checkSingleColumnRequiredTableRead(mem, dt, n)
-			})
-		}
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestReadDecimals() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bigEndian := []parquet.ByteArray{
-		// 123456
-		[]byte{1, 226, 64},
-		// 987654
-		[]byte{15, 18, 6},
-		// -123456
-		[]byte{255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 254, 29, 192},
-	}
-
-	bldr := array.NewDecimal128Builder(mem, &arrow.Decimal128Type{Precision: 6, Scale: 3})
-	defer bldr.Release()
-
-	bldr.Append(decimal128.FromU64(123456))
-	bldr.Append(decimal128.FromU64(987654))
-	bldr.Append(decimal128.FromI64(-123456))
-
-	expected := bldr.NewDecimal128Array()
-	defer expected.Release()
-
-	sc := schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.NewPrimitiveNodeLogical("decimals", parquet.Repetitions.Required, schema.NewDecimalLogicalType(6, 3), parquet.Types.ByteArray, -1, -1)),
-	}, -1))
-
-	sink := encoding.NewBufferWriter(0, mem)
-	defer sink.Release()
-	writer := file.NewParquetWriter(sink, sc)
-
-	rgw := writer.AppendRowGroup()
-	cw, _ := rgw.NextColumn()
-	cw.(*file.ByteArrayColumnChunkWriter).WriteBatch(bigEndian, nil, nil)
-	cw.Close()
-	rgw.Close()
-	writer.Close()
-
-	rdr := ps.createReader(mem, sink.Bytes())
-	cr, err := rdr.GetColumn(context.TODO(), 0)
-	ps.NoError(err)
-
-	chunked, err := cr.NextBatch(smallSize)
-	ps.NoError(err)
-	defer chunked.Release()
-
-	ps.Len(chunked.Chunks(), 1)
-	ps.True(array.Equal(expected, chunked.Chunk(0)))
-}
-
-func (ps *ParquetIOTestSuite) TestReadDecimal256() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bigEndian := []parquet.ByteArray{
-		// 123456
-		[]byte{1, 226, 64},
-		// 987654
-		[]byte{15, 18, 6},
-		// -123456
-		[]byte{255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 254, 29, 192},
-	}
-
-	bldr := array.NewDecimal256Builder(mem, &arrow.Decimal256Type{Precision: 40, Scale: 3})
-	defer bldr.Release()
-
-	bldr.Append(decimal256.FromU64(123456))
-	bldr.Append(decimal256.FromU64(987654))
-	bldr.Append(decimal256.FromI64(-123456))
-
-	expected := bldr.NewDecimal256Array()
-	defer expected.Release()
-
-	sc := schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.NewPrimitiveNodeLogical("decimals", parquet.Repetitions.Required, schema.NewDecimalLogicalType(40, 3), parquet.Types.ByteArray, -1, -1)),
-	}, -1))
-
-	sink := encoding.NewBufferWriter(0, mem)
-	defer sink.Release()
-	writer := file.NewParquetWriter(sink, sc)
-
-	rgw := writer.AppendRowGroup()
-	cw, _ := rgw.NextColumn()
-	cw.(*file.ByteArrayColumnChunkWriter).WriteBatch(bigEndian, nil, nil)
-	cw.Close()
-	rgw.Close()
-	writer.Close()
-
-	rdr := ps.createReader(mem, sink.Bytes())
-	cr, err := rdr.GetColumn(context.TODO(), 0)
-	ps.NoError(err)
-
-	chunked, err := cr.NextBatch(smallSize)
-	ps.NoError(err)
-	defer chunked.Release()
-
-	ps.Len(chunked.Chunks(), 1)
-	ps.Truef(array.Equal(expected, chunked.Chunk(0)), "expected: %s\ngot: %s", expected, chunked.Chunk(0))
-}
-
-func (ps *ParquetIOTestSuite) TestReadNestedStruct() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	dt := arrow.StructOf(arrow.Field{
-		Name: "nested",
-		Type: arrow.StructOf(
-			arrow.Field{Name: "bool", Type: arrow.FixedWidthTypes.Boolean},
-			arrow.Field{Name: "int32", Type: arrow.PrimitiveTypes.Int32},
-			arrow.Field{Name: "int64", Type: arrow.PrimitiveTypes.Int64},
-		),
-	})
-	field := arrow.Field{Name: "struct", Type: dt, Nullable: true}
-
-	builder := array.NewStructBuilder(mem, dt)
-	defer builder.Release()
-	nested := builder.FieldBuilder(0).(*array.StructBuilder)
-
-	builder.Append(true)
-	nested.Append(true)
-	nested.FieldBuilder(0).(*array.BooleanBuilder).Append(true)
-	nested.FieldBuilder(1).(*array.Int32Builder).Append(int32(-1))
-	nested.FieldBuilder(2).(*array.Int64Builder).Append(int64(-2))
-	builder.AppendNull()
-
-	arr := builder.NewStructArray()
-	defer arr.Release()
-
-	expected := array.NewTable(
-		arrow.NewSchema([]arrow.Field{field}, nil),
-		[]arrow.Column{*arrow.NewColumn(field, arrow.NewChunked(dt, []arrow.Array{arr}))},
-		-1,
-	)
-	defer arr.Release() // NewChunked
-	defer expected.Release()
-	ps.roundTripTable(mem, expected, true)
-}
-
-func (ps *ParquetIOTestSuite) writeColumn(mem memory.Allocator, sc *schema.GroupNode, values arrow.Array) []byte {
-	var buf bytes.Buffer
-	arrsc, err := pqarrow.FromParquet(schema.NewSchema(sc), nil, nil)
-	ps.NoError(err)
-
-	writer, err := pqarrow.NewFileWriter(arrsc, &buf, parquet.NewWriterProperties(parquet.WithDictionaryDefault(false)), pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	ps.NoError(err)
-
-	writer.NewRowGroup()
-	ps.NoError(writer.WriteColumnData(values))
-	//defer values.Release()
-	ps.NoError(writer.Close())
-	ps.NoError(writer.Close())
-
-	return buf.Bytes()
-}
-
-func (ps *ParquetIOTestSuite) readAndCheckSingleColumnFile(mem memory.Allocator, data []byte, values arrow.Array) {
-	reader := ps.createReader(mem, data)
-	cr, err := reader.GetColumn(context.TODO(), 0)
-	ps.NoError(err)
-	ps.NotNil(cr)
-	defer cr.Release()
-
-	chunked, err := cr.NextBatch(smallSize)
-	ps.NoError(err)
-	defer chunked.Release()
-
-	ps.Len(chunked.Chunks(), 1)
-	ps.NotNil(chunked.Chunk(0))
-
-	ps.True(array.Equal(values, chunked.Chunk(0)))
-}
-
-var fullTypeList = []arrow.DataType{
-	arrow.FixedWidthTypes.Boolean,
-	arrow.PrimitiveTypes.Uint8,
-	arrow.PrimitiveTypes.Int8,
-	arrow.PrimitiveTypes.Uint16,
-	arrow.PrimitiveTypes.Int16,
-	arrow.PrimitiveTypes.Uint32,
-	arrow.PrimitiveTypes.Int32,
-	arrow.PrimitiveTypes.Uint64,
-	arrow.PrimitiveTypes.Int64,
-	arrow.FixedWidthTypes.Date32,
-	arrow.PrimitiveTypes.Float32,
-	arrow.PrimitiveTypes.Float64,
-	arrow.FixedWidthTypes.Float16,
-	arrow.BinaryTypes.String,
-	arrow.BinaryTypes.Binary,
-	&arrow.FixedSizeBinaryType{ByteWidth: 10},
-	&arrow.Decimal128Type{Precision: 1, Scale: 0},
-	&arrow.Decimal128Type{Precision: 5, Scale: 4},
-	&arrow.Decimal128Type{Precision: 10, Scale: 9},
-	&arrow.Decimal128Type{Precision: 19, Scale: 18},
-	&arrow.Decimal128Type{Precision: 23, Scale: 22},
-	&arrow.Decimal128Type{Precision: 27, Scale: 26},
-	&arrow.Decimal128Type{Precision: 38, Scale: 37},
-}
-
-func (ps *ParquetIOTestSuite) TestSingleColumnRequiredWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(ps.T(), 0)
-
-			values := testutils.RandomNonNull(mem, dt, smallSize)
-			defer values.Release()
-			sc := ps.makeSimpleSchema(dt, parquet.Repetitions.Required)
-			data := ps.writeColumn(mem, sc, values)
-			ps.readAndCheckSingleColumnFile(mem, data, values)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) roundTripTable(mem memory.Allocator, expected arrow.Table, storeSchema bool) {
-	var buf bytes.Buffer
-	var props pqarrow.ArrowWriterProperties
-	if storeSchema {
-		props = pqarrow.NewArrowWriterProperties(pqarrow.WithStoreSchema(), pqarrow.WithAllocator(mem))
-	} else {
-		props = pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem))
-	}
-
-	writeProps := parquet.NewWriterProperties(parquet.WithAllocator(mem))
-	ps.Require().NoError(pqarrow.WriteTable(expected, &buf, expected.NumRows(), writeProps, props))
-
-	reader := ps.createReader(mem, buf.Bytes())
-	defer reader.ParquetReader().Close()
-
-	tbl := ps.readTable(reader)
-	defer tbl.Release()
-
-	ps.Equal(expected.NumCols(), tbl.NumCols())
-	ps.Equal(expected.NumRows(), tbl.NumRows())
-
-	exChunk := expected.Column(0).Data()
-	tblChunk := tbl.Column(0).Data()
-
-	ps.Equal(len(exChunk.Chunks()), len(tblChunk.Chunks()))
-	exc := exChunk.Chunk(0)
-	tbc := tblChunk.Chunk(0)
-	ps.Truef(array.ApproxEqual(exc, tbc), "expected: %T %s\ngot: %T %s", exc, exc, tbc, tbc)
-}
-
-func makeEmptyListsArray(size int) arrow.Array {
-	// allocate an offsets buffer with only zeros
-	offsetsNbytes := arrow.Int32Traits.BytesRequired(size + 1)
-	offsetsBuffer := make([]byte, offsetsNbytes)
-
-	childBuffers := []*memory.Buffer{nil, nil}
-	childData := array.NewData(arrow.PrimitiveTypes.Float32, 0, childBuffers, nil, 0, 0)
-	defer childData.Release()
-	buffers := []*memory.Buffer{nil, memory.NewBufferBytes(offsetsBuffer)}
-	arrayData := array.NewData(arrow.ListOf(childData.DataType()), size, buffers, []arrow.ArrayData{childData}, 0, 0)
-	defer arrayData.Release()
-	return array.MakeFromData(arrayData)
-}
-
-func makeListArray(values arrow.Array, size, nullcount int) arrow.Array {
-	nonNullEntries := size - nullcount - 1
-	lengthPerEntry := values.Len() / nonNullEntries
-
-	offsets := make([]byte, arrow.Int32Traits.BytesRequired(size+1))
-	offsetsArr := arrow.Int32Traits.CastFromBytes(offsets)
-
-	nullBitmap := make([]byte, int(bitutil.BytesForBits(int64(size))))
-
-	curOffset := 0
-	for i := 0; i < size; i++ {
-		offsetsArr[i] = int32(curOffset)
-		if !(((i % 2) == 0) && ((i / 2) < nullcount)) {
-			// non-null list (list with index 1 is always empty)
-			bitutil.SetBit(nullBitmap, i)
-			if i != 1 {
-				curOffset += lengthPerEntry
-			}
-		}
-	}
-	offsetsArr[size] = int32(values.Len())
-
-	listData := array.NewData(arrow.ListOf(values.DataType()), size,
-		[]*memory.Buffer{memory.NewBufferBytes(nullBitmap), memory.NewBufferBytes(offsets)},
-		[]arrow.ArrayData{values.Data()}, nullcount, 0)
-	defer listData.Release()
-	return array.NewListData(listData)
-}
-
-func prepareEmptyListsTable(size int) arrow.Table {
-	lists := makeEmptyListsArray(size)
-	defer lists.Release()
-	chunked := arrow.NewChunked(lists.DataType(), []arrow.Array{lists})
-	defer chunked.Release()
-	return makeSimpleTable(chunked, true)
-}
-
-func prepareListTable(dt arrow.DataType, size int, nullableLists bool, nullableElems bool, nullCount int) arrow.Table {
-	nc := nullCount
-	if !nullableElems {
-		nc = 0
-	}
-	values := testutils.RandomNullable(dt, size*size, nc)
-	defer values.Release()
-	// also test that slice offsets are respected
-	values = array.NewSlice(values, 5, int64(values.Len()))
-	defer values.Release()
-
-	if !nullableLists {
-		nullCount = 0
-	}
-	lists := makeListArray(values, size, nullCount)
-	defer lists.Release()
-
-	chunked := arrow.NewChunked(lists.DataType(), []arrow.Array{lists})
-	defer chunked.Release()
-
-	return makeSimpleTable(array.NewChunkedSlice(chunked, 3, int64(size)), nullableLists)
-}
-
-func prepareListOfListTable(dt arrow.DataType, size, nullCount int, nullableParentLists, nullableLists, nullableElems bool) arrow.Table {
-	nc := nullCount
-	if !nullableElems {
-		nc = 0
-	}
-
-	values := testutils.RandomNullable(dt, size*6, nc)
-	defer values.Release()
-
-	if nullableLists {
-		nc = nullCount
-	} else {
-		nc = 0
-	}
-
-	lists := makeListArray(values, size*3, nc)
-	defer lists.Release()
-
-	if !nullableParentLists {
-		nullCount = 0
-	}
-
-	parentLists := makeListArray(lists, size, nullCount)
-	defer parentLists.Release()
-
-	chunked := arrow.NewChunked(parentLists.DataType(), []arrow.Array{parentLists})
-	defer chunked.Release()
-
-	return makeSimpleTable(chunked, nullableParentLists)
-}
-
-func (ps *ParquetIOTestSuite) TestSingleEmptyListsColumnReadWrite() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	expected := prepareEmptyListsTable(smallSize)
-	defer expected.Release()
-	buf := writeTableToBuffer(ps.T(), mem, expected, smallSize, pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	defer buf.Release()
-
-	reader := ps.createReader(mem, buf.Bytes())
-	tbl := ps.readTable(reader)
-	defer tbl.Release()
-
-	ps.EqualValues(expected.NumCols(), tbl.NumCols())
-	ps.EqualValues(expected.NumRows(), tbl.NumRows())
-
-	exChunk := expected.Column(0).Data()
-	tblChunk := tbl.Column(0).Data()
-
-	ps.Equal(len(exChunk.Chunks()), len(tblChunk.Chunks()))
-	ps.True(array.Equal(exChunk.Chunk(0), tblChunk.Chunk(0)))
-}
-
-func (ps *ParquetIOTestSuite) TestSingleColumnOptionalReadWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(ps.T(), 0)
-
-			values := testutils.RandomNullable(dt, smallSize, 10)
-			defer values.Release()
-			sc := ps.makeSimpleSchema(dt, parquet.Repetitions.Optional)
-			data := ps.writeColumn(mem, sc, values)
-			ps.readAndCheckSingleColumnFile(mem, data, values)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSingleNullableListNullableColumnReadWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			expected := prepareListTable(dt, smallSize, true, true, 10)
-			defer expected.Release()
-			ps.roundTripTable(memory.DefaultAllocator, expected, false)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSingleRequiredListNullableColumnReadWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			expected := prepareListTable(dt, smallSize, false, true, 10)
-			defer expected.Release()
-			ps.roundTripTable(memory.DefaultAllocator, expected, false)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSingleNullableListRequiredColumnReadWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			expected := prepareListTable(dt, smallSize, true, false, 10)
-			defer expected.Release()
-			ps.roundTripTable(memory.DefaultAllocator, expected, false)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSingleRequiredListRequiredColumnReadWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			expected := prepareListTable(dt, smallSize, false, false, 0)
-			defer expected.Release()
-			ps.roundTripTable(memory.DefaultAllocator, expected, false)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSingleNullableListRequiredListRequiredColumnReadWrite() {
-	for _, dt := range fullTypeList {
-		ps.Run(dt.Name(), func() {
-			expected := prepareListOfListTable(dt, smallSize, 2, true, false, false)
-			defer expected.Release()
-			ps.roundTripTable(memory.DefaultAllocator, expected, false)
-		})
-	}
-}
-
-func (ps *ParquetIOTestSuite) TestSimpleStruct() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	links := arrow.StructOf(arrow.Field{Name: "Backward", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-		arrow.Field{Name: "Forward", Type: arrow.PrimitiveTypes.Int64, Nullable: true})
-
-	bldr := array.NewStructBuilder(mem, links)
-	defer bldr.Release()
-
-	backBldr := bldr.FieldBuilder(0).(*array.Int64Builder)
-	forwardBldr := bldr.FieldBuilder(1).(*array.Int64Builder)
-
-	bldr.Append(true)
-	backBldr.AppendNull()
-	forwardBldr.Append(20)
-
-	bldr.Append(true)
-	backBldr.Append(10)
-	forwardBldr.Append(40)
-
-	data := bldr.NewArray()
-	defer data.Release()
-
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{{Name: "links", Type: links}}, nil),
-		[]arrow.Column{*arrow.NewColumn(arrow.Field{Name: "links", Type: links}, arrow.NewChunked(links, []arrow.Array{data}))}, -1)
-	defer data.Release() // NewChunked
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, false)
-}
-
-func (ps *ParquetIOTestSuite) TestSingleColumnNullableStruct() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	links := arrow.StructOf(arrow.Field{Name: "Backward", Type: arrow.PrimitiveTypes.Int64, Nullable: true})
-	bldr := array.NewStructBuilder(mem, links)
-	defer bldr.Release()
-
-	backBldr := bldr.FieldBuilder(0).(*array.Int64Builder)
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	backBldr.Append(10)
-
-	data := bldr.NewArray()
-	defer data.Release()
-
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{{Name: "links", Type: links, Nullable: true}}, nil),
-		[]arrow.Column{*arrow.NewColumn(arrow.Field{Name: "links", Type: links, Nullable: true}, arrow.NewChunked(links, []arrow.Array{data}))}, -1)
-	defer data.Release() // NewChunked
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, false)
-}
-
-func (ps *ParquetIOTestSuite) TestNestedRequiredFieldStruct() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	intField := arrow.Field{Name: "int_array", Type: arrow.PrimitiveTypes.Int32}
-	intBldr := array.NewInt32Builder(mem)
-	defer intBldr.Release()
-	intBldr.AppendValues([]int32{0, 1, 2, 3, 4, 5, 7, 8}, nil)
-
-	intArr := intBldr.NewArray()
-	defer intArr.Release()
-
-	validity := memory.NewBufferBytes([]byte{0xCC})
-	defer validity.Release()
-
-	structField := arrow.Field{Name: "root", Type: arrow.StructOf(intField), Nullable: true}
-	structData := array.NewData(structField.Type, 8, []*memory.Buffer{validity}, []arrow.ArrayData{intArr.Data()}, 4, 0)
-	defer structData.Release()
-	stData := array.NewStructData(structData)
-	defer stData.Release()
-
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{structField}, nil),
-		[]arrow.Column{*arrow.NewColumn(structField,
-			arrow.NewChunked(structField.Type, []arrow.Array{stData}))}, -1)
-	defer stData.Release() // NewChunked
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, false)
-}
-
-func (ps *ParquetIOTestSuite) TestNestedNullableField() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	intField := arrow.Field{Name: "int_array", Type: arrow.PrimitiveTypes.Int32, Nullable: true}
-	intBldr := array.NewInt32Builder(mem)
-	defer intBldr.Release()
-	intBldr.AppendValues([]int32{0, 1, 2, 3, 4, 5, 7, 8}, []bool{true, false, true, false, true, true, false, true})
-
-	intArr := intBldr.NewArray()
-	defer intArr.Release()
-
-	validity := memory.NewBufferBytes([]byte{0xCC})
-	defer validity.Release()
-
-	structField := arrow.Field{Name: "root", Type: arrow.StructOf(intField), Nullable: true}
-	data := array.NewData(structField.Type, 8, []*memory.Buffer{validity}, []arrow.ArrayData{intArr.Data()}, 4, 0)
-	defer data.Release()
-	stData := array.NewStructData(data)
-	defer stData.Release()
-
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{structField}, nil),
-		[]arrow.Column{*arrow.NewColumn(structField,
-			arrow.NewChunked(structField.Type, []arrow.Array{stData}))}, -1)
-	defer stData.Release() // NewChunked
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, false)
-}
-
-func (ps *ParquetIOTestSuite) TestNestedEmptyList() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bldr := array.NewStructBuilder(mem, arrow.StructOf(
-		arrow.Field{
-			Name: "root",
-			Type: arrow.StructOf(
-				arrow.Field{
-					Name: "child1",
-					Type: arrow.ListOf(arrow.StructOf(
-						arrow.Field{
-							Name: "child2",
-							Type: arrow.ListOf(arrow.StructOf(
-								arrow.Field{
-									Name: "name",
-									Type: arrow.BinaryTypes.String,
-								},
-							)),
-						},
-					)),
-				},
-			),
-		},
-	))
-	defer bldr.Release()
-
-	rootBldr := bldr.FieldBuilder(0).(*array.StructBuilder)
-	child1Bldr := rootBldr.FieldBuilder(0).(*array.ListBuilder)
-	child1ElBldr := child1Bldr.ValueBuilder().(*array.StructBuilder)
-	child2Bldr := child1ElBldr.FieldBuilder(0).(*array.ListBuilder)
-	leafBldr := child2Bldr.ValueBuilder().(*array.StructBuilder)
-	nameBldr := leafBldr.FieldBuilder(0).(*array.StringBuilder)
-
-	// target structure 8 times
-	// {
-	//   "root": {
-	//     "child1": [
-	//       { "child2": [{ "name": "foo" }] },
-	//       { "child2": [] }
-	//     ]
-	//   }
-	// }
-
-	for i := 0; i < 8; i++ {
-		bldr.Append(true)
-		rootBldr.Append(true)
-		child1Bldr.Append(true)
-
-		child1ElBldr.Append(true)
-		child2Bldr.Append(true)
-		leafBldr.Append(true)
-		nameBldr.Append("foo")
-
-		child1ElBldr.Append(true)
-		child2Bldr.Append(true)
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	field := arrow.Field{Name: "x", Type: arr.DataType(), Nullable: true}
-	expected := array.NewTableFromSlice(arrow.NewSchema([]arrow.Field{field}, nil), [][]arrow.Array{{arr}})
-	defer expected.Release()
-
-	ps.roundTripTable(mem, expected, false)
-}
-
-func (ps *ParquetIOTestSuite) TestCanonicalNestedRoundTrip() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	docIdField := arrow.Field{Name: "DocID", Type: arrow.PrimitiveTypes.Int64}
-	linksField := arrow.Field{Name: "Links", Type: arrow.StructOf(
-		arrow.Field{Name: "Backward", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-		arrow.Field{Name: "Forward", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-	), Nullable: true}
-
-	nameStruct := arrow.StructOf(
-		arrow.Field{Name: "Language", Nullable: true, Type: arrow.ListOf(
-			arrow.StructOf(arrow.Field{Name: "Code", Type: arrow.BinaryTypes.String},
-				arrow.Field{Name: "Country", Type: arrow.BinaryTypes.String, Nullable: true}))},
-		arrow.Field{Name: "Url", Type: arrow.BinaryTypes.String, Nullable: true})
-
-	nameField := arrow.Field{Name: "Name", Type: arrow.ListOf(nameStruct)}
-	sc := arrow.NewSchema([]arrow.Field{docIdField, linksField, nameField}, nil)
-
-	docIDArr, _, err := array.FromJSON(mem, docIdField.Type, strings.NewReader("[10, 20]"))
-	ps.Require().NoError(err)
-	defer docIDArr.Release()
-
-	linksIDArr, _, err := array.FromJSON(mem, linksField.Type, strings.NewReader(`[{"Backward":[], "Forward":[20, 40, 60]}, {"Backward":[10, 30], "Forward": [80]}]`))
-	ps.Require().NoError(err)
-	defer linksIDArr.Release()
-
-	nameArr, _, err := array.FromJSON(mem, nameField.Type, strings.NewReader(`
-			[[{"Language": [{"Code": "en_us", "Country": "us"},
-							{"Code": "en_us", "Country": null}],
-			   "Url": "http://A"},
-			  {"Url": "http://B", "Language": null},
-			  {"Language": [{"Code": "en-gb", "Country": "gb"}], "Url": null}],
-			  [{"Url": "http://C", "Language": null}]]`))
-	ps.Require().NoError(err)
-	defer nameArr.Release()
-
-	expected := array.NewTable(sc, []arrow.Column{
-		*arrow.NewColumn(docIdField, arrow.NewChunked(docIdField.Type, []arrow.Array{docIDArr})),
-		*arrow.NewColumn(linksField, arrow.NewChunked(linksField.Type, []arrow.Array{linksIDArr})),
-		*arrow.NewColumn(nameField, arrow.NewChunked(nameField.Type, []arrow.Array{nameArr})),
-	}, 2)
-	defer docIDArr.Release()   // NewChunked
-	defer linksIDArr.Release() // NewChunked
-	defer nameArr.Release()    // NewChunked
-	defer expected.Release()
-
-	ps.roundTripTable(mem, expected, false)
-}
-
-func (ps *ParquetIOTestSuite) TestFixedSizeList() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bldr := array.NewFixedSizeListBuilder(mem, 3, arrow.PrimitiveTypes.Int16)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int16Builder)
-
-	bldr.AppendValues([]bool{true, true, true})
-	vb.AppendValues([]int16{1, 2, 3, 4, 5, 6, 7, 8, 9}, nil)
-
-	data := bldr.NewArray()
-	defer data.Release() // NewArray
-
-	field := arrow.Field{Name: "root", Type: data.DataType(), Nullable: true}
-	cnk := arrow.NewChunked(field.Type, []arrow.Array{data})
-	defer data.Release() // NewChunked
-
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{field}, nil), []arrow.Column{*arrow.NewColumn(field, cnk)}, -1)
-	defer cnk.Release() // NewColumn
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, true)
-}
-
-func (ps *ParquetIOTestSuite) TestNull() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bldr := array.NewNullBuilder(mem)
-	defer bldr.Release()
-
-	bldr.AppendNull()
-	bldr.AppendNull()
-	bldr.AppendNull()
-
-	data := bldr.NewArray()
-	defer data.Release()
-
-	field := arrow.Field{Name: "x", Type: data.DataType(), Nullable: true}
-	expected := array.NewTable(
-		arrow.NewSchema([]arrow.Field{field}, nil),
-		[]arrow.Column{*arrow.NewColumn(field, arrow.NewChunked(field.Type, []arrow.Array{data}))},
-		-1,
-	)
-
-	ps.roundTripTable(mem, expected, true)
-}
-
-// ARROW-17169
-func (ps *ParquetIOTestSuite) TestNullableListOfStruct() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bldr := array.NewListBuilder(mem, arrow.StructOf(
-		arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32},
-		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String},
-	))
-	defer bldr.Release()
-
-	stBldr := bldr.ValueBuilder().(*array.StructBuilder)
-	aBldr := stBldr.FieldBuilder(0).(*array.Int32Builder)
-	bBldr := stBldr.FieldBuilder(1).(*array.StringBuilder)
-
-	for i := 0; i < 320; i++ {
-		if i%5 == 0 {
-			bldr.AppendNull()
-			continue
-		}
-		bldr.Append(true)
-		for j := 0; j < 4; j++ {
-			stBldr.Append(true)
-			aBldr.Append(int32(i + j))
-			bBldr.Append(strconv.Itoa(i + j))
-		}
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	field := arrow.Field{Name: "x", Type: arr.DataType(), Nullable: true}
-	expected := array.NewTable(arrow.NewSchema([]arrow.Field{field}, nil),
-		[]arrow.Column{*arrow.NewColumn(field, arrow.NewChunked(field.Type, []arrow.Array{arr}))}, -1)
-	defer arr.Release() // NewChunked
-	defer expected.Release()
-
-	ps.roundTripTable(mem, expected, false)
-}
-
-func (ps *ParquetIOTestSuite) TestStructWithListOfNestedStructs() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bldr := array.NewStructBuilder(mem, arrow.StructOf(
-		arrow.Field{
-			Nullable: true,
-			Name:     "l",
-			Type: arrow.ListOf(arrow.StructOf(
-				arrow.Field{
-					Nullable: true,
-					Name:     "a",
-					Type: arrow.StructOf(
-						arrow.Field{
-							Nullable: true,
-							Name:     "b",
-							Type:     arrow.BinaryTypes.String,
-						},
-					),
-				},
-			)),
-		},
-	))
-	defer bldr.Release()
-
-	lBldr := bldr.FieldBuilder(0).(*array.ListBuilder)
-	stBldr := lBldr.ValueBuilder().(*array.StructBuilder)
-	aBldr := stBldr.FieldBuilder(0).(*array.StructBuilder)
-	bBldr := aBldr.FieldBuilder(0).(*array.StringBuilder)
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	lBldr.Append(true)
-	for i := 0; i < 8; i++ {
-		stBldr.Append(true)
-		aBldr.Append(true)
-		bBldr.Append(strconv.Itoa(i))
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	field := arrow.Field{Name: "x", Type: arr.DataType(), Nullable: true}
-	expected := array.NewTable(arrow.NewSchema([]arrow.Field{field}, nil),
-		[]arrow.Column{*arrow.NewColumn(field, arrow.NewChunked(field.Type, []arrow.Array{arr}))}, -1)
-	defer arr.Release() // NewChunked
-	defer expected.Release()
-
-	ps.roundTripTable(mem, expected, false)
-}
-
-func TestParquetArrowIO(t *testing.T) {
-	suite.Run(t, new(ParquetIOTestSuite))
-}
-
-func TestBufferedRecWrite(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	sc := arrow.NewSchema([]arrow.Field{
-		{Name: "f32", Type: arrow.PrimitiveTypes.Float32, Nullable: true},
-		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "struct_i64_f64", Type: arrow.StructOf(
-			arrow.Field{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-			arrow.Field{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true})},
-	}, nil)
-
-	structData := array.NewData(sc.Field(2).Type, SIZELEN,
-		[]*memory.Buffer{nil, nil},
-		[]arrow.ArrayData{testutils.RandomNullable(arrow.PrimitiveTypes.Int64, SIZELEN, 0).Data(), testutils.RandomNullable(arrow.PrimitiveTypes.Float64, SIZELEN, 0).Data()}, 0, 0)
-	defer structData.Release()
-	cols := []arrow.Array{
-		testutils.RandomNullable(sc.Field(0).Type, SIZELEN, SIZELEN/5),
-		testutils.RandomNullable(sc.Field(1).Type, SIZELEN, SIZELEN/5),
-		array.NewStructData(structData),
-	}
-
-	rec := array.NewRecord(sc, cols, SIZELEN)
-	defer rec.Release()
-
-	var (
-		buf bytes.Buffer
-	)
-
-	wr, err := pqarrow.NewFileWriter(sc, &buf,
-		parquet.NewWriterProperties(parquet.WithCompression(compress.Codecs.Snappy), parquet.WithDictionaryDefault(false), parquet.WithDataPageSize(100*1024)),
-		pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	require.NoError(t, err)
-
-	p1 := rec.NewSlice(0, SIZELEN/2)
-	defer p1.Release()
-	require.NoError(t, wr.WriteBuffered(p1))
-
-	p2 := rec.NewSlice(SIZELEN/2, SIZELEN)
-	defer p2.Release()
-	require.NoError(t, wr.WriteBuffered(p2))
-
-	wr.Close()
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	assert.NoError(t, err)
-
-	assert.EqualValues(t, 1, rdr.NumRowGroups())
-	assert.EqualValues(t, SIZELEN, rdr.NumRows())
-	rdr.Close()
-
-	tbl, err := pqarrow.ReadTable(context.Background(), bytes.NewReader(buf.Bytes()), nil, pqarrow.ArrowReadProperties{}, nil)
-	assert.NoError(t, err)
-	defer tbl.Release()
-
-	assert.EqualValues(t, SIZELEN, tbl.NumRows())
-}
-
-func (ps *ParquetIOTestSuite) TestArrowMapTypeRoundTrip() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	bldr := array.NewMapBuilder(mem, arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int32, false)
-	defer bldr.Release()
-
-	kb := bldr.KeyBuilder().(*array.StringBuilder)
-	ib := bldr.ItemBuilder().(*array.Int32Builder)
-
-	bldr.Append(true)
-	kb.AppendValues([]string{"Fee", "Fi", "Fo", "Fum"}, nil)
-	ib.AppendValues([]int32{1, 2, 3, 4}, nil)
-
-	bldr.Append(true)
-	kb.AppendValues([]string{"Fee", "Fi", "Fo"}, nil)
-	ib.AppendValues([]int32{5, 4, 3}, nil)
-
-	bldr.AppendNull()
-
-	bldr.Append(true)
-	kb.AppendValues([]string{"Fo", "Fi", "Fee"}, nil)
-	ib.AppendValues([]int32{-1, 2, 3}, []bool{false, true, true})
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	fld := arrow.Field{Name: "mapped", Type: arr.DataType(), Nullable: true}
-	cnk := arrow.NewChunked(arr.DataType(), []arrow.Array{arr})
-	defer arr.Release() // NewChunked
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{fld}, nil), []arrow.Column{*arrow.NewColumn(fld, cnk)}, -1)
-	defer cnk.Release() // NewColumn
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, true)
-}
-
-func (ps *ParquetIOTestSuite) TestArrowExtensionTypeRoundTrip() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	builder := extensions.NewUUIDBuilder(mem)
-	builder.Append(uuid.New())
-	arr := builder.NewArray()
-	defer arr.Release()
-
-	fld := arrow.Field{Name: "uuid", Type: arr.DataType(), Nullable: true}
-	cnk := arrow.NewChunked(arr.DataType(), []arrow.Array{arr})
-	defer arr.Release() // NewChunked
-	tbl := array.NewTable(arrow.NewSchema([]arrow.Field{fld}, nil), []arrow.Column{*arrow.NewColumn(fld, cnk)}, -1)
-	defer cnk.Release() // NewColumn
-	defer tbl.Release()
-
-	ps.roundTripTable(mem, tbl, true)
-}
-
-func (ps *ParquetIOTestSuite) TestArrowUnknownExtensionTypeRoundTrip() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	var written, expected arrow.Table
-
-	{
-		// Prepare `written` table with the extension type registered.
-		extType := types.NewSmallintType()
-		bldr := array.NewExtensionBuilder(mem, extType)
-		defer bldr.Release()
-
-		bldr.Builder.(*array.Int16Builder).AppendValues(
-			[]int16{0, 0, 1, 2},
-			[]bool{false, true, true, true})
-
-		arr := bldr.NewArray()
-		defer arr.Release()
-
-		if arrow.GetExtensionType("smallint") != nil {
-			ps.NoError(arrow.UnregisterExtensionType("smallint"))
-			defer arrow.RegisterExtensionType(extType)
-		}
-
-		fld := arrow.Field{Name: "smallint", Type: arr.DataType(), Nullable: true}
-		cnk := arrow.NewChunked(arr.DataType(), []arrow.Array{arr})
-		defer arr.Release() // NewChunked
-		written = array.NewTable(arrow.NewSchema([]arrow.Field{fld}, nil), []arrow.Column{*arrow.NewColumn(fld, cnk)}, -1)
-		defer cnk.Release() // NewColumn
-		defer written.Release()
-	}
-
-	{
-		// Prepare `expected` table with the extension type unregistered in the underlying type.
-		bldr := array.NewInt16Builder(mem)
-		defer bldr.Release()
-		bldr.AppendValues(
-			[]int16{0, 0, 1, 2},
-			[]bool{false, true, true, true})
-
-		arr := bldr.NewArray()
-		defer arr.Release()
-
-		fld := arrow.Field{Name: "smallint", Type: arr.DataType(), Nullable: true}
-		cnk := arrow.NewChunked(arr.DataType(), []arrow.Array{arr})
-		defer arr.Release() // NewChunked
-		expected = array.NewTable(arrow.NewSchema([]arrow.Field{fld}, nil), []arrow.Column{*arrow.NewColumn(fld, cnk)}, -1)
-		defer cnk.Release() // NewColumn
-		defer expected.Release()
-	}
-
-	// sanity check before going deeper
-	ps.Equal(expected.NumCols(), written.NumCols())
-	ps.Equal(expected.NumRows(), written.NumRows())
-
-	// just like roundTripTable() but different written vs. expected tables
-	var buf bytes.Buffer
-	props := pqarrow.NewArrowWriterProperties(pqarrow.WithStoreSchema(), pqarrow.WithAllocator(mem))
-
-	writeProps := parquet.NewWriterProperties(parquet.WithAllocator(mem))
-	ps.Require().NoError(pqarrow.WriteTable(written, &buf, written.NumRows(), writeProps, props))
-
-	reader := ps.createReader(mem, buf.Bytes())
-	defer reader.ParquetReader().Close()
-
-	tbl := ps.readTable(reader)
-	defer tbl.Release()
-
-	ps.Equal(expected.NumCols(), tbl.NumCols())
-	ps.Equal(expected.NumRows(), tbl.NumRows())
-
-	exChunk := expected.Column(0).Data()
-	tblChunk := tbl.Column(0).Data()
-
-	ps.Equal(len(exChunk.Chunks()), len(tblChunk.Chunks()))
-	exc := exChunk.Chunk(0)
-	tbc := tblChunk.Chunk(0)
-	ps.Truef(array.Equal(exc, tbc), "expected: %T %s\ngot: %T %s", exc, exc, tbc, tbc)
-
-	expectedMd := arrow.MetadataFrom(map[string]string{
-		ipc.ExtensionTypeKeyName:     "smallint",
-		ipc.ExtensionMetadataKeyName: "smallint-serialized",
-		"PARQUET:field_id":           "-1",
-	})
-	ps.Truef(expectedMd.Equal(tbl.Column(0).Field().Metadata), "expected: %v\ngot: %v", expectedMd, tbl.Column(0).Field().Metadata)
-}
-
-func (ps *ParquetIOTestSuite) TestArrowExtensionTypeLogicalType() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ps.T(), 0)
-
-	jsonType, err := extensions.NewJSONType(arrow.BinaryTypes.String)
-	ps.NoError(err)
-
-	sch := arrow.NewSchema([]arrow.Field{
-		{Name: "uuid", Type: extensions.NewUUIDType()},
-		{Name: "json", Type: jsonType},
-	},
-		nil,
-	)
-	bldr := array.NewRecordBuilder(mem, sch)
-	defer bldr.Release()
-
-	bldr.Field(0).(*extensions.UUIDBuilder).Append(uuid.New())
-	bldr.Field(1).(*array.ExtensionBuilder).AppendValueFromString(`{"hello": ["world", 2, true], "world": null}`)
-	rec := bldr.NewRecord()
-	defer rec.Release()
-
-	var buf bytes.Buffer
-	wr, err := pqarrow.NewFileWriter(
-		sch,
-		&buf,
-		parquet.NewWriterProperties(),
-		pqarrow.DefaultWriterProps(),
-	)
-	ps.Require().NoError(err)
-
-	ps.Require().NoError(wr.Write(rec))
-	ps.Require().NoError(wr.Close())
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	ps.Require().NoError(err)
-	defer rdr.Close()
-
-	pqSchema := rdr.MetaData().Schema
-	ps.True(pqSchema.Column(0).LogicalType().Equals(schema.UUIDLogicalType{}))
-	ps.True(pqSchema.Column(1).LogicalType().Equals(schema.JSONLogicalType{}))
-}
-
-func TestWriteTableMemoryAllocation(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	sc := arrow.NewSchema([]arrow.Field{
-		{Name: "f32", Type: arrow.PrimitiveTypes.Float32, Nullable: true},
-		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		{Name: "struct_i64_f64", Type: arrow.StructOf(
-			arrow.Field{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
-			arrow.Field{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true})},
-		{Name: "arr_i64", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64)},
-		{Name: "uuid", Type: extensions.NewUUIDType(), Nullable: true},
-	}, nil)
-
-	bld := array.NewRecordBuilder(mem, sc)
-	bld.Field(0).(*array.Float32Builder).Append(1.0)
-	bld.Field(1).(*array.Int32Builder).Append(1)
-	sbld := bld.Field(2).(*array.StructBuilder)
-	sbld.Append(true)
-	sbld.FieldBuilder(0).(*array.Int64Builder).Append(1)
-	sbld.FieldBuilder(1).(*array.Float64Builder).Append(1.0)
-	abld := bld.Field(3).(*array.ListBuilder)
-	abld.Append(true)
-	abld.ValueBuilder().(*array.Int64Builder).Append(2)
-	bld.Field(4).(*extensions.UUIDBuilder).Append(uuid.MustParse("00000000-0000-0000-0000-000000000001"))
-
-	rec := bld.NewRecord()
-	bld.Release()
-
-	var buf bytes.Buffer
-	wr, err := pqarrow.NewFileWriter(sc, &buf,
-		parquet.NewWriterProperties(parquet.WithCompression(compress.Codecs.Snappy)),
-		pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	require.NoError(t, err)
-
-	require.NoError(t, wr.Write(rec))
-	rec.Release()
-	wr.Close()
-
-	require.Zero(t, mem.CurrentAlloc())
-}
-
-func TestEmptyListDeltaBinaryPacked(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "ts", Type: arrow.ListOf(arrow.PrimitiveTypes.Uint64),
-			Metadata: arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"-1"})}}, nil)
-	builder := array.NewRecordBuilder(memory.DefaultAllocator, schema)
-	defer builder.Release()
-
-	listBuilder := builder.Field(0).(*array.ListBuilder)
-	listBuilder.Append(true)
-	arrowRec := builder.NewRecord()
-	defer arrowRec.Release()
-
-	var buf bytes.Buffer
-	wr, err := pqarrow.NewFileWriter(schema, &buf,
-		parquet.NewWriterProperties(
-			parquet.WithDictionaryFor("ts.list.element", false),
-			parquet.WithEncodingFor("ts.list.element", parquet.Encodings.DeltaBinaryPacked)),
-		pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-
-	require.NoError(t, wr.WriteBuffered(arrowRec))
-	require.NoError(t, wr.Close())
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	require.NoError(t, err)
-	reader, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{}, memory.DefaultAllocator)
-	require.NoError(t, err)
-	defer rdr.Close()
-
-	tbl, err := reader.ReadTable(context.Background())
-	require.NoError(t, err)
-	defer tbl.Release()
-
-	assert.True(t, schema.Equal(tbl.Schema()))
-	assert.EqualValues(t, 1, tbl.NumRows())
-}
diff --git a/go/parquet/pqarrow/encode_dict_compute.go b/go/parquet/pqarrow/encode_dict_compute.go
deleted file mode 100644
index 647bb69db78d5..0000000000000
--- a/go/parquet/pqarrow/encode_dict_compute.go
+++ /dev/null
@@ -1,160 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package pqarrow
-
-import (
-	"context"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-)
-
-func isDictEncoding(enc parquet.Encoding) bool {
-	return enc == parquet.Encodings.PlainDict
-}
-
-func dictionaryDirectWriteSupported(arr arrow.Array) bool {
-	debug.Assert(arr.DataType().ID() == arrow.DICTIONARY, "should only be called with dictionary type")
-	dt := arr.DataType().(*arrow.DictionaryType)
-	return arrow.IsPrimitive(dt.ValueType.ID()) || arrow.IsBaseBinary(dt.ValueType.ID())
-}
-
-func convertDictionaryToDense(mem memory.Allocator, arr arrow.Array) (arrow.Array, error) {
-	dt := arr.DataType().(*arrow.DictionaryType).ValueType
-	ctx := compute.WithAllocator(context.Background(), mem)
-	return compute.CastArray(ctx, arr, compute.SafeCastOptions(dt))
-}
-
-func writeDictionaryArrow(ctx *arrowWriteContext, cw file.ColumnChunkWriter, leafArr arrow.Array, defLevels, repLevels []int16, maybeParentNulls bool) (err error) {
-	// if this is the first time writing a dictionary array,
-	// then there's a few possible paths to take:
-	//
-	// - If dictionary encoding is not enabled, just convert to densely
-	//   encoded and call writeDenseArrow
-	// - Dictionary Encoding is enabled:
-	//   - If this is the first time this is called, then we
-	//     call PutDictionary into the encoder and PutIndices on each
-	//     chunk. We store the dictionary that was written so that
-	//     subsequent calls to this method can make sure the dictionary
-	//     hasn't changed.
-	//   - on subsequent calls, we have to check whether the dictionary
-	//     has changed. If it has, then we trigger the varying dictionary
-	//     path and materialize each chunk and call writeDenseArrow with that
-	writeDense := func() error {
-		denseArr, err := convertDictionaryToDense(ctx.props.mem, leafArr)
-		if err != nil {
-			return err
-		}
-		defer denseArr.Release()
-		return writeDenseArrow(ctx, cw, denseArr, defLevels, repLevels, maybeParentNulls)
-	}
-
-	if !isDictEncoding(cw.CurrentEncoder().Encoding()) || !dictionaryDirectWriteSupported(leafArr) {
-		// no longer dictionary-encoding for whatever reason, maybe we never were
-		// or we decided to stop. Note that writeArrowToColumn can be invoked multiple
-		// times with both dense and dictionary-encoded versions of the same data
-		// without a problem. Any dense data will be hashed to indices until the
-		// dictionary page limit is reached, at which everything (dict and dense)
-		// will fall back to plain encoding
-		return writeDense()
-	}
-
-	var (
-		dictEncoder = cw.CurrentEncoder().(encoding.DictEncoder)
-		data        = leafArr.(*array.Dictionary)
-		dict        = data.Dictionary()
-		indices     = data.Indices()
-		preserved   = dictEncoder.PreservedDictionary()
-		pageStats   = cw.PageStatistics()
-	)
-
-	updateStats := func() error {
-		var referencedDict arrow.Array
-
-		ctx := compute.WithAllocator(context.Background(), ctx.props.mem)
-		// if dictionary is the same dictionary we already have, just use that
-		if preserved != nil && preserved == dict {
-			referencedDict = preserved
-		} else {
-			referencedIndices, err := compute.UniqueArray(ctx, indices)
-			if err != nil {
-				return err
-			}
-
-			// on first run, we might be able to re-use the existing dict
-			if referencedIndices.Len() == dict.Len() {
-				referencedDict = dict
-			} else {
-				referencedDict, err = compute.TakeArrayOpts(ctx, dict, referencedIndices, compute.TakeOptions{BoundsCheck: false})
-				if err != nil {
-					return err
-				}
-				defer referencedDict.Release()
-			}
-			referencedIndices.Release()
-		}
-
-		nonNullCount := indices.Len() - indices.NullN()
-		pageStats.IncNulls(int64(len(defLevels) - nonNullCount))
-		pageStats.IncNumValues(int64(nonNullCount))
-		return pageStats.UpdateFromArrow(referencedDict, false)
-	}
-
-	switch {
-	case preserved == nil:
-		if err := dictEncoder.PutDictionary(dict); err != nil {
-			return err
-		}
-
-		// if there were duplicate values in the dictionary, the encoder's
-		// memo table will be out of sync with the indices in the arrow array
-		// the easiest solution for this uncommon case is to fallback to plain
-		// encoding
-		if dictEncoder.NumEntries() != dict.Len() {
-			cw.FallbackToPlain()
-			return writeDense()
-		}
-
-		if pageStats != nil {
-			if err := updateStats(); err != nil {
-				return err
-			}
-		}
-
-	case !array.Equal(dict, preserved):
-		// dictionary has changed
-		cw.FallbackToPlain()
-		return writeDense()
-	default:
-		// dictionary is the same but we need to update stats
-		if pageStats != nil {
-			if err := updateStats(); err != nil {
-				return err
-			}
-		}
-	}
-
-	return cw.WriteDictIndices(indices, defLevels, repLevels)
-}
diff --git a/go/parquet/pqarrow/encode_dict_nocompute.go b/go/parquet/pqarrow/encode_dict_nocompute.go
deleted file mode 100644
index aa405a90e8a12..0000000000000
--- a/go/parquet/pqarrow/encode_dict_nocompute.go
+++ /dev/null
@@ -1,30 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build !go1.18
-
-package pqarrow
-
-import (
-	"errors"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/parquet/file"
-)
-
-func writeDictionaryArrow(*arrowWriteContext, file.ColumnChunkWriter, arrow.Array, []int16, []int16, bool) (err error) {
-	return errors.New("parquet/pqarrow: go1.18+ required to write arrow dictionary arrays in WriteArrowToColumn")
-}
diff --git a/go/parquet/pqarrow/encode_dictionary_test.go b/go/parquet/pqarrow/encode_dictionary_test.go
deleted file mode 100644
index cacdc7e39cab3..0000000000000
--- a/go/parquet/pqarrow/encode_dictionary_test.go
+++ /dev/null
@@ -1,748 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build go1.18
-
-package pqarrow_test
-
-import (
-	"bytes"
-	"context"
-	"fmt"
-	"math"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/compute"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-	"github.com/stretchr/testify/suite"
-)
-
-func (ps *ParquetIOTestSuite) TestSingleColumnOptionalDictionaryWrite() {
-	for _, dt := range fullTypeList {
-		// skip tests for bool as we don't do dictionaries for it
-		if dt.ID() == arrow.BOOL {
-			continue
-		}
-
-		ps.Run(dt.Name(), func() {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(ps.T(), 0)
-
-			bldr := array.NewDictionaryBuilder(mem, &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: dt})
-			defer bldr.Release()
-
-			values := testutils.RandomNullable(dt, smallSize, 10)
-			defer values.Release()
-			ps.Require().NoError(bldr.AppendArray(values))
-
-			arr := bldr.NewDictionaryArray()
-			defer arr.Release()
-
-			sc := ps.makeSimpleSchema(arr.DataType(), parquet.Repetitions.Optional)
-			data := ps.writeColumn(mem, sc, arr)
-			ps.readAndCheckSingleColumnFile(mem, data, values)
-		})
-	}
-}
-
-func TestPqarrowDictionaries(t *testing.T) {
-	suite.Run(t, &ArrowWriteDictionarySuite{dataPageVersion: parquet.DataPageV1})
-	suite.Run(t, &ArrowWriteDictionarySuite{dataPageVersion: parquet.DataPageV2})
-	testSuite := &ArrowReadDictSuite{}
-	for _, np := range testSuite.NullProbabilities() {
-		testSuite.nullProb = np
-		t.Run(fmt.Sprintf("nullprob=%.2f", np), func(t *testing.T) {
-			suite.Run(t, testSuite)
-		})
-	}
-}
-
-type ArrowWriteDictionarySuite struct {
-	suite.Suite
-
-	dataPageVersion parquet.DataPageVersion
-}
-
-func (ad *ArrowWriteDictionarySuite) fromJSON(mem memory.Allocator, dt arrow.DataType, data string) arrow.Array {
-	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(data))
-	ad.Require().NoError(err)
-	return arr
-}
-
-func (ad *ArrowWriteDictionarySuite) TestStatisticsWithFallback() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ad.T(), 0)
-
-	testDictionaries := []arrow.Array{
-		ad.fromJSON(mem, arrow.BinaryTypes.String, `["b", "c", "d", "a", "b", "c", "d", "a"]`),
-		ad.fromJSON(mem, arrow.BinaryTypes.String, `["b", "c", "d", "a", "b", "c", "d", "a"]`),
-		ad.fromJSON(mem, arrow.BinaryTypes.Binary, `["ZA==", "Yw==", "Yg==", "YQ==", "ZA==", "Yw==", "Yg==", "YQ=="]`),
-		ad.fromJSON(mem, arrow.BinaryTypes.LargeString, `["a", "b", "c", "a", "b", "c"]`),
-	}
-
-	testIndices := []arrow.Array{
-		// ["b", null, "a", "b", null, "a"]
-		ad.fromJSON(mem, arrow.PrimitiveTypes.Int32, `[0, null, 3, 0, null, 3]`),
-		// ["b", "c", null, "b", "c", null]
-		ad.fromJSON(mem, arrow.PrimitiveTypes.Int32, `[0, 1, null, 0, 1, null]`),
-		// ["ZA==", "Yw==", "YQ==", "ZA==", "Yw==", "YQ=="]
-		ad.fromJSON(mem, arrow.PrimitiveTypes.Int32, `[0, 1, 3, 0, 1, 3]`),
-		ad.fromJSON(mem, arrow.PrimitiveTypes.Int32, `[null, null, null, null, null, null]`),
-	}
-
-	defer func() {
-		for _, d := range testDictionaries {
-			d.Release()
-		}
-		for _, i := range testIndices {
-			i.Release()
-		}
-	}()
-
-	// arrays will be written with 3 values per row group, 2 values per data page
-	// the row groups are identical for ease of testing
-	expectedValidCounts := []int32{2, 2, 3, 0}
-	expectedNullCounts := []int32{1, 1, 0, 3}
-	expectedNumDataPages := []int{2, 2, 2, 1}
-	expectedValidByPage := [][]int32{
-		{1, 1},
-		{2, 0},
-		{2, 1},
-		{0}}
-	expectedNullByPage := [][]int64{
-		{1, 0},
-		{0, 1},
-		{0, 0},
-		{3}}
-	expectedDictCounts := []int32{4, 4, 4, 3}
-	// pairs of (min, max)
-	expectedMinMax := [][2]string{
-		{"a", "b"},
-		{"b", "c"},
-		{"a", "d"},
-		{"", ""}}
-
-	expectedMinByPage := [][][]string{
-		{{"b", "a"}, {"b", "a"}},
-		{{"b", "b"}, {"b", "b"}},
-		{{"c", "a"}, {"c", "a"}}}
-	expectedMaxByPage := [][][]string{
-		{{"b", "a"}, {"b", "a"}},
-		{{"c", "c"}, {"c", "c"}},
-		{{"d", "a"}, {"d", "a"}}}
-	expectedHasMinMaxByPage := [][][]bool{
-		{{true, true}, {true, true}},
-		// second page of each rowgroup only contains a null,
-		// so there's no stat on that page
-		{{true, false}, {true, false}},
-		{{true, true}, {true, true}},
-		{{false}, {false}}}
-
-	for caseIndex, dict := range testDictionaries {
-		ad.Run(dict.DataType().String(), func() {
-			dictType := &arrow.DictionaryType{
-				IndexType: testIndices[caseIndex].DataType(),
-				ValueType: dict.DataType(),
-			}
-			dictEncoded := array.NewDictionaryArray(dictType, testIndices[caseIndex], dict)
-			defer dictEncoded.Release()
-			schema := arrow.NewSchema([]arrow.Field{
-				{Name: "values", Type: dictEncoded.DataType(), Nullable: true}}, nil)
-			col := arrow.NewColumnFromArr(schema.Field(0), dictEncoded)
-			defer col.Release()
-			tbl := array.NewTable(schema, []arrow.Column{col}, int64(dictEncoded.Len()))
-			defer tbl.Release()
-
-			writerProperties := parquet.NewWriterProperties(
-				parquet.WithMaxRowGroupLength(3),
-				parquet.WithDataPageVersion(ad.dataPageVersion),
-				parquet.WithBatchSize(2),
-				parquet.WithDictionaryDefault(true),
-				parquet.WithDataPageSize(2),
-				parquet.WithStats(true),
-			)
-
-			var buf bytes.Buffer
-			ad.Require().NoError(pqarrow.WriteTable(tbl, &buf, math.MaxInt64, writerProperties,
-				pqarrow.DefaultWriterProps()))
-
-			rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-			ad.Require().NoError(err)
-			defer rdr.Close()
-
-			metadata := rdr.MetaData()
-			ad.Len(metadata.RowGroups, 2)
-
-			for i := 0; i < rdr.NumRowGroups(); i++ {
-				rg := metadata.RowGroup(i)
-				ad.EqualValues(1, rg.NumColumns())
-				col, err := rg.ColumnChunk(0)
-				ad.Require().NoError(err)
-				stats, err := col.Statistics()
-				ad.Require().NoError(err)
-
-				ad.EqualValues(expectedValidCounts[caseIndex], stats.NumValues())
-				ad.EqualValues(expectedNullCounts[caseIndex], stats.NullCount())
-
-				caseExpectedMinMax := expectedMinMax[caseIndex]
-				ad.Equal(caseExpectedMinMax[0], string(stats.EncodeMin()))
-				ad.Equal(caseExpectedMinMax[1], string(stats.EncodeMax()))
-			}
-
-			for rowGroup := 0; rowGroup < 2; rowGroup++ {
-				pr, err := rdr.RowGroup(0).GetColumnPageReader(0)
-				ad.Require().NoError(err)
-				ad.True(pr.Next())
-				page := pr.Page()
-				ad.NotNil(page)
-				ad.NoError(pr.Err())
-				ad.Require().IsType((*file.DictionaryPage)(nil), page)
-				dictPage := page.(*file.DictionaryPage)
-				ad.EqualValues(expectedDictCounts[caseIndex], dictPage.NumValues())
-
-				for pageIdx := 0; pageIdx < expectedNumDataPages[caseIndex]; pageIdx++ {
-					ad.True(pr.Next())
-					page = pr.Page()
-					ad.NotNil(page)
-					ad.NoError(pr.Err())
-
-					dataPage, ok := page.(file.DataPage)
-					ad.Require().True(ok)
-					stats := dataPage.Statistics()
-					ad.EqualValues(expectedNullByPage[caseIndex][pageIdx], stats.NullCount)
-
-					expectHasMinMax := expectedHasMinMaxByPage[caseIndex][rowGroup][pageIdx]
-					ad.Equal(expectHasMinMax, stats.HasMin)
-					ad.Equal(expectHasMinMax, stats.HasMax)
-
-					if expectHasMinMax {
-						ad.Equal(expectedMinByPage[caseIndex][rowGroup][pageIdx], string(stats.Min))
-						ad.Equal(expectedMaxByPage[caseIndex][rowGroup][pageIdx], string(stats.Max))
-					}
-
-					ad.EqualValues(expectedValidByPage[caseIndex][pageIdx]+int32(expectedNullByPage[caseIndex][pageIdx]),
-						dataPage.NumValues())
-				}
-
-				ad.False(pr.Next())
-			}
-		})
-	}
-}
-
-func (ad *ArrowWriteDictionarySuite) TestStatisticsUnifiedDictionary() {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(ad.T(), 0)
-
-	// two chunks with a shared dictionary
-	var (
-		tbl      arrow.Table
-		dictType = &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32,
-			ValueType: arrow.BinaryTypes.String}
-		schema = arrow.NewSchema([]arrow.Field{
-			{Name: "values", Type: dictType, Nullable: true}}, nil)
-	)
-
-	{
-		// it's important there are no duplicate values in the dictionary,
-		// otherwise we trigger the WriteDense() code path which side-steps
-		// dictionary encoding.
-		testDictionary := ad.fromJSON(mem, arrow.BinaryTypes.String, `["b", "c", "d", "a"]`)
-		defer testDictionary.Release()
-
-		testIndices := []arrow.Array{
-			// ["a", null, "a", "a", null, "a"]
-			ad.fromJSON(mem, arrow.PrimitiveTypes.Int32, `[3, null, 3, 3, null, 3]`),
-			// ["b", "a", null, "b", null, "c"]
-			ad.fromJSON(mem, arrow.PrimitiveTypes.Int32, `[0, 3, null, 0, null, 1]`),
-		}
-		chunks := []arrow.Array{
-			array.NewDictionaryArray(dictType, testIndices[0], testDictionary),
-			array.NewDictionaryArray(dictType, testIndices[1], testDictionary),
-		}
-		testIndices[0].Release()
-		testIndices[1].Release()
-
-		tbl = array.NewTableFromSlice(schema, [][]arrow.Array{chunks})
-		defer tbl.Release()
-
-		chunks[0].Release()
-		chunks[1].Release()
-	}
-
-	var buf bytes.Buffer
-	{
-		// write data as two row groups, one with 9 rows and one with 3
-		props := parquet.NewWriterProperties(
-			parquet.WithMaxRowGroupLength(9),
-			parquet.WithDataPageVersion(ad.dataPageVersion),
-			parquet.WithBatchSize(3),
-			parquet.WithDataPageSize(3),
-			parquet.WithDictionaryDefault(true),
-			parquet.WithStats(true))
-
-		ad.Require().NoError(pqarrow.WriteTable(tbl, &buf, math.MaxInt64, props, pqarrow.DefaultWriterProps()))
-	}
-
-	rdr, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-	ad.Require().NoError(err)
-	defer rdr.Close()
-
-	metadata := rdr.MetaData()
-	ad.Len(metadata.RowGroups, 2)
-	ad.EqualValues(9, metadata.RowGroup(0).NumRows())
-	ad.EqualValues(3, metadata.RowGroup(1).NumRows())
-
-	col0, err := metadata.RowGroup(0).ColumnChunk(0)
-	ad.Require().NoError(err)
-	col1, err := metadata.RowGroup(1).ColumnChunk(0)
-	ad.Require().NoError(err)
-
-	stats0, err := col0.Statistics()
-	ad.Require().NoError(err)
-	stats1, err := col1.Statistics()
-	ad.Require().NoError(err)
-
-	ad.EqualValues(6, stats0.NumValues())
-	ad.EqualValues(2, stats1.NumValues())
-	ad.EqualValues(3, stats0.NullCount())
-	ad.EqualValues(1, stats1.NullCount())
-	ad.Equal([]byte("a"), stats0.EncodeMin())
-	ad.Equal([]byte("b"), stats1.EncodeMin())
-	ad.Equal([]byte("b"), stats0.EncodeMax())
-	ad.Equal([]byte("c"), stats1.EncodeMax())
-}
-
-const numRowGroups = 16
-
-type ArrowReadDictSuite struct {
-	suite.Suite
-
-	mem *memory.CheckedAllocator
-
-	denseVals     arrow.Array
-	expectedDense arrow.Table
-	props         pqarrow.ArrowReadProperties
-	nullProb      float64
-
-	buf bytes.Buffer
-
-	options struct {
-		numRows      int
-		numRowGroups int
-		numUniques   int
-	}
-}
-
-func (ar *ArrowReadDictSuite) generateData(nullProb float64) {
-	const minLen = 2
-	const maxLen = 100
-	rag := testutils.NewRandomArrayGenerator(0)
-
-	ar.denseVals = rag.StringWithRepeats(ar.mem, int64(ar.options.numRows),
-		int64(ar.options.numUniques), minLen, maxLen, nullProb)
-
-	chunked := arrow.NewChunked(arrow.BinaryTypes.String, []arrow.Array{ar.denseVals})
-	defer chunked.Release()
-	ar.expectedDense = makeSimpleTable(chunked, true)
-}
-
-func (ar *ArrowReadDictSuite) SetupTest() {
-	ar.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	ar.buf.Reset()
-
-	ar.options = struct {
-		numRows      int
-		numRowGroups int
-		numUniques   int
-	}{1024 * numRowGroups, numRowGroups, 128}
-
-	ar.props = pqarrow.ArrowReadProperties{}
-	ar.generateData(ar.nullProb)
-}
-
-func (ar *ArrowReadDictSuite) TearDownTest() {
-	if ar.denseVals != nil {
-		ar.denseVals.Release()
-	}
-	ar.expectedDense.Release()
-
-	ar.mem.AssertSize(ar.T(), 0)
-}
-
-func (ar *ArrowReadDictSuite) writeSimple() {
-	// write num_row_groups row groups; each row group will have a
-	// different dictionary
-	ar.Require().NoError(pqarrow.WriteTable(ar.expectedDense, &ar.buf, int64(ar.options.numRows/ar.options.numRowGroups),
-		parquet.NewWriterProperties(parquet.WithDictionaryDefault(true), parquet.WithStats(true)),
-		pqarrow.DefaultWriterProps()))
-}
-
-func (*ArrowReadDictSuite) NullProbabilities() []float64 {
-	return []float64{0.0, 0.5, 1}
-}
-
-func (ar *ArrowReadDictSuite) checkReadWholeFile(expected arrow.Table) {
-	tbl, err := pqarrow.ReadTable(context.Background(),
-		bytes.NewReader(ar.buf.Bytes()), nil, ar.props, ar.mem)
-	ar.Require().NoError(err)
-	defer tbl.Release()
-
-	ar.Truef(array.TableEqual(expected, tbl), "expected: %s\ngot: %s", expected, tbl)
-}
-
-func (ar *ArrowReadDictSuite) checkStreamReadWholeFile(expected arrow.Table) {
-	reader, err := file.NewParquetReader(bytes.NewReader(ar.buf.Bytes()))
-	ar.Require().NoError(err)
-	defer reader.Close()
-
-	rdr, err := pqarrow.NewFileReader(reader, ar.props, ar.mem)
-	ar.Require().NoError(err)
-
-	rrdr, err := rdr.GetRecordReader(context.Background(), nil, nil)
-	ar.Require().NoError(err)
-	defer rrdr.Release()
-
-	recs := make([]arrow.Record, 0)
-	for rrdr.Next() {
-		rec := rrdr.Record()
-		rec.Retain()
-		defer rec.Release()
-		recs = append(recs, rec)
-	}
-
-	tbl := array.NewTableFromRecords(rrdr.Schema(), recs)
-	defer tbl.Release()
-
-	ar.Truef(array.TableEqual(expected, tbl), "expected: %s\ngot: %s", expected, tbl)
-}
-
-func (ar *ArrowReadDictSuite) getReader() *pqarrow.FileReader {
-	reader, err := file.NewParquetReader(bytes.NewReader(ar.buf.Bytes()))
-	ar.Require().NoError(err)
-
-	rdr, err := pqarrow.NewFileReader(reader, ar.props, ar.mem)
-	ar.Require().NoError(err)
-	return rdr
-}
-
-func asDict32Encoded(mem memory.Allocator, arr arrow.Array) arrow.Array {
-	bldr := array.NewDictionaryBuilder(mem, &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.BinaryTypes.String})
-	defer bldr.Release()
-	bldr.AppendArray(arr)
-	return bldr.NewArray()
-}
-
-func (ar *ArrowReadDictSuite) TestReadWholeFileDict() {
-	ar.props.SetReadDict(0, true)
-	ar.writeSimple()
-
-	numRowGroups := ar.options.numRowGroups
-	chunkSize := ar.options.numRows / ar.options.numRowGroups
-
-	chunks := make([]arrow.Array, numRowGroups)
-	for i := 0; i < numRowGroups; i++ {
-		start := int64(chunkSize * i)
-		sl := array.NewSlice(ar.denseVals, start, start+int64(chunkSize))
-		defer sl.Release()
-		chunks[i] = asDict32Encoded(ar.mem, sl)
-		defer chunks[i].Release()
-	}
-
-	chunked := arrow.NewChunked(chunks[0].DataType(), chunks)
-	defer chunked.Release()
-
-	exTable := makeSimpleTable(chunked, true)
-	defer exTable.Release()
-
-	ar.checkReadWholeFile(exTable)
-}
-
-func (ar *ArrowReadDictSuite) TestZeroChunksListOfDictionary() {
-	ar.props.SetReadDict(0, true)
-	ar.denseVals.Release()
-	ar.denseVals = nil
-
-	values := arrow.NewChunked(arrow.ListOf(arrow.BinaryTypes.String), []arrow.Array{})
-	defer values.Release()
-
-	ar.options.numRowGroups = 1
-	ar.options.numRows = 0
-	ar.options.numUniques = 0
-	ar.expectedDense.Release()
-	ar.expectedDense = makeSimpleTable(values, false)
-
-	ar.writeSimple()
-
-	rdr := ar.getReader()
-	defer rdr.ParquetReader().Close()
-
-	colReader, err := rdr.GetColumn(context.Background(), 0)
-	ar.Require().NoError(err)
-	defer colReader.Release()
-
-	chnked, err := colReader.NextBatch(1 << 15)
-	ar.Require().NoError(err)
-	defer chnked.Release()
-	ar.Zero(chnked.Len())
-	ar.Len(chnked.Chunks(), 1)
-}
-
-func (ar *ArrowReadDictSuite) TestIncrementalReads() {
-	ar.options.numRows = 100
-	ar.options.numUniques = 10
-
-	ar.denseVals.Release()
-	ar.expectedDense.Release()
-	ar.generateData(ar.nullProb)
-
-	ar.props.SetReadDict(0, true)
-	// just write a single row group
-	ar.Require().NoError(pqarrow.WriteTable(ar.expectedDense, &ar.buf, int64(ar.options.numRows),
-		parquet.NewWriterProperties(parquet.WithDictionaryDefault(true), parquet.WithStats(true)),
-		pqarrow.DefaultWriterProps()))
-
-	// read in one shot
-	expected, err := pqarrow.ReadTable(context.Background(), bytes.NewReader(ar.buf.Bytes()), nil, ar.props, ar.mem)
-	ar.Require().NoError(err)
-	defer expected.Release()
-
-	rdr := ar.getReader()
-	defer rdr.ParquetReader().Close()
-	col, err := rdr.GetColumn(context.Background(), 0)
-	ar.Require().NoError(err)
-	defer col.Release()
-
-	const numReads = 4
-	batchSize := ar.options.numRows / numReads
-
-	ctx := compute.WithAllocator(context.Background(), ar.mem)
-
-	for i := 0; i < numReads; i++ {
-		chunk, err := col.NextBatch(int64(batchSize))
-		ar.Require().NoError(err)
-		defer chunk.Release()
-		// no need to manually release chunk, like other record readers
-		// the col reader holds onto the current record and will release it
-		// when the next is requested or when the reader is released
-		resultDense, err := compute.CastArray(ctx, chunk.Chunk(0),
-			compute.SafeCastOptions(arrow.BinaryTypes.String))
-		ar.Require().NoError(err)
-		defer resultDense.Release()
-
-		sl := array.NewSlice(ar.denseVals, int64(i*batchSize), int64((i*batchSize)+batchSize))
-		defer sl.Release()
-
-		ar.Truef(array.Equal(sl, resultDense), "expected: %s\ngot: %s", sl, resultDense)
-	}
-}
-
-func (ar *ArrowReadDictSuite) TestStreamReadWholeFileDict() {
-	ar.options.numRows = 100
-	ar.options.numUniques = 10
-
-	ar.denseVals.Release()
-	ar.expectedDense.Release()
-	ar.generateData(ar.nullProb)
-
-	ar.writeSimple()
-	ar.props.BatchSize = int64(ar.options.numRows * 2)
-	ar.checkStreamReadWholeFile(ar.expectedDense)
-}
-
-func (ar *ArrowReadDictSuite) TestReadWholeFileDense() {
-	ar.props.SetReadDict(0, false)
-	ar.writeSimple()
-	ar.checkReadWholeFile(ar.expectedDense)
-}
-
-func doRoundTrip(t *testing.T, tbl arrow.Table, rowGroupSize int64, wrProps *parquet.WriterProperties, arrWrProps *pqarrow.ArrowWriterProperties, arrReadProps pqarrow.ArrowReadProperties) arrow.Table {
-	var buf bytes.Buffer
-	require.NoError(t, pqarrow.WriteTable(tbl, &buf, rowGroupSize, wrProps, *arrWrProps))
-
-	out, err := pqarrow.ReadTable(context.Background(), bytes.NewReader(buf.Bytes()), nil, arrReadProps, wrProps.Allocator())
-	require.NoError(t, err)
-	return out
-}
-
-func TestArrowWriteChangingDictionaries(t *testing.T) {
-	const (
-		numUnique            = 50
-		repeat               = 5000
-		minLen, maxLen int32 = 2, 20
-	)
-
-	rag := testutils.NewRandomArrayGenerator(0)
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	values := rag.StringWithRepeats(mem, repeat*numUnique, numUnique, minLen, maxLen, 0.1)
-	defer values.Release()
-
-	valuesChunk := arrow.NewChunked(values.DataType(), []arrow.Array{values})
-	defer valuesChunk.Release()
-
-	expected := makeSimpleTable(valuesChunk, true)
-	defer expected.Release()
-
-	const numChunks = 10
-	chunks := make([]arrow.Array, numChunks)
-	chunkSize := valuesChunk.Len() / numChunks
-	for i := 0; i < numChunks; i++ {
-		start := int64(chunkSize * i)
-		sl := array.NewSlice(values, start, start+int64(chunkSize))
-		defer sl.Release()
-		chunks[i] = asDict32Encoded(mem, sl)
-		defer chunks[i].Release()
-	}
-
-	dictChunked := arrow.NewChunked(chunks[0].DataType(), chunks)
-	defer dictChunked.Release()
-	dictTable := makeSimpleTable(dictChunked, true)
-	defer dictTable.Release()
-
-	props := pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem))
-	actual := doRoundTrip(t, dictTable, int64(values.Len())/2, parquet.NewWriterProperties(parquet.WithAllocator(mem)),
-		&props, pqarrow.ArrowReadProperties{})
-	defer actual.Release()
-
-	assert.Truef(t, array.TableEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
-}
-
-func TestArrowAutoReadAsDictionary(t *testing.T) {
-	const (
-		numUnique            = 50
-		repeat               = 100
-		minLen, maxLen int32 = 2, 20
-	)
-
-	rag := testutils.NewRandomArrayGenerator(0)
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	values := rag.StringWithRepeats(mem, repeat*numUnique, numUnique, minLen, maxLen, 0.1)
-	defer values.Release()
-
-	dictValues := asDict32Encoded(mem, values)
-	defer dictValues.Release()
-
-	dictChunk := arrow.NewChunked(dictValues.DataType(), []arrow.Array{dictValues})
-	defer dictChunk.Release()
-
-	valuesChunk := arrow.NewChunked(values.DataType(), []arrow.Array{values})
-	defer valuesChunk.Release()
-
-	expected := makeSimpleTable(dictChunk, true)
-	defer expected.Release()
-	expectedDense := makeSimpleTable(valuesChunk, true)
-	defer expectedDense.Release()
-
-	wrProps := parquet.NewWriterProperties(parquet.WithAllocator(mem), parquet.WithDictionaryDefault(true))
-	propsStoreSchema := pqarrow.NewArrowWriterProperties(pqarrow.WithStoreSchema())
-	actual := doRoundTrip(t, expected, int64(valuesChunk.Len()), wrProps, &propsStoreSchema, pqarrow.ArrowReadProperties{})
-	defer actual.Release()
-
-	assert.Truef(t, array.TableEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
-
-	propsNoStoreSchema := pqarrow.NewArrowWriterProperties()
-	actualDense := doRoundTrip(t, expected, int64(valuesChunk.Len()), wrProps, &propsNoStoreSchema, pqarrow.ArrowReadProperties{})
-	defer actualDense.Release()
-
-	assert.Truef(t, array.TableEqual(expectedDense, actualDense), "expected: %s\ngot: %s", expectedDense, actualDense)
-}
-
-func TestArrowWriteNestedSubfieldDictionary(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	offsets, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 0, 2, 3]`))
-	defer offsets.Release()
-	indices, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 0, 0]`))
-	defer indices.Release()
-	dict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["foo"]`))
-	defer dict.Release()
-
-	dictType := &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.BinaryTypes.String}
-	dictValues := array.NewDictionaryArray(dictType, indices, dict)
-	defer dictValues.Release()
-
-	data := array.NewData(arrow.ListOf(dictType), 3, []*memory.Buffer{nil, offsets.Data().Buffers()[1]},
-		[]arrow.ArrayData{dictValues.Data()}, 0, 0)
-	defer data.Release()
-	values := array.NewListData(data)
-	defer values.Release()
-
-	chk := arrow.NewChunked(values.DataType(), []arrow.Array{values})
-	defer chk.Release()
-
-	tbl := makeSimpleTable(chk, true)
-	defer tbl.Release()
-	propsStoreSchema := pqarrow.NewArrowWriterProperties(pqarrow.WithStoreSchema())
-	actual := doRoundTrip(t, tbl, int64(values.Len()), parquet.NewWriterProperties(), &propsStoreSchema, pqarrow.ArrowReadProperties{})
-	defer actual.Release()
-
-	assert.Truef(t, array.TableEqual(tbl, actual), "expected: %s\ngot: %s", tbl, actual)
-}
-
-func TestDictOfEmptyStringsRoundtrip(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "reserved1", Type: arrow.BinaryTypes.String, Nullable: true},
-	}, nil)
-
-	bldr := array.NewStringBuilder(mem)
-	defer bldr.Release()
-
-	for i := 0; i < 6; i++ {
-		bldr.AppendEmptyValue()
-	}
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-	col1 := arrow.NewColumnFromArr(schema.Field(0), arr)
-	defer col1.Release()
-	tbl := array.NewTable(schema, []arrow.Column{col1}, 6)
-	defer tbl.Release()
-
-	var buf bytes.Buffer
-	require.NoError(t, pqarrow.WriteTable(tbl, &buf, 6,
-		parquet.NewWriterProperties(parquet.WithDictionaryDefault(true)),
-		pqarrow.NewArrowWriterProperties()))
-
-	result, err := pqarrow.ReadTable(context.Background(), bytes.NewReader(buf.Bytes()), nil, pqarrow.ArrowReadProperties{}, mem)
-	require.NoError(t, err)
-	defer result.Release()
-
-	assert.EqualValues(t, 6, result.NumRows())
-	assert.EqualValues(t, 1, result.NumCols())
-	col := result.Column(0).Data().Chunk(0)
-	assert.Equal(t, arrow.STRING, col.DataType().ID())
-
-	for i := 0; i < 6; i++ {
-		assert.Zero(t, col.(*array.String).Value(i))
-	}
-}
diff --git a/go/parquet/pqarrow/file_reader.go b/go/parquet/pqarrow/file_reader.go
deleted file mode 100755
index a2e84d9ce2795..0000000000000
--- a/go/parquet/pqarrow/file_reader.go
+++ /dev/null
@@ -1,775 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"io"
-	"sync"
-	"sync/atomic"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/arrio"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/sync/errgroup"
-	"golang.org/x/xerrors"
-)
-
-type itrFactory func(int, *file.Reader) *columnIterator
-
-type readerCtx struct {
-	rdr            *file.Reader
-	mem            memory.Allocator
-	colFactory     itrFactory
-	filterLeaves   bool
-	includedLeaves map[int]bool
-}
-
-func (r readerCtx) includesLeaf(idx int) bool {
-	_, ok := r.includedLeaves[idx]
-	return ok
-}
-
-// ReadTable is a convenience function to quickly and easily read a parquet file
-// into an arrow table.
-//
-// The schema of the arrow table is generated based on the schema of the parquet file,
-// including nested columns/lists/etc. in the same fashion as the FromParquetSchema
-// function. This just encapsulates the logic of creating a separate file.Reader and
-// pqarrow.FileReader to make a single easy function when you just want to construct
-// a table from the entire parquet file rather than reading it piecemeal.
-func ReadTable(ctx context.Context, r parquet.ReaderAtSeeker, props *parquet.ReaderProperties, arrProps ArrowReadProperties, mem memory.Allocator) (arrow.Table, error) {
-	pf, err := file.NewParquetReader(r, file.WithReadProps(props))
-	if err != nil {
-		return nil, err
-	}
-
-	reader, err := NewFileReader(pf, arrProps, mem)
-	if err != nil {
-		return nil, err
-	}
-
-	return reader.ReadTable(ctx)
-}
-
-// FileReader is the base object for reading a parquet file into arrow object
-// types.
-//
-// It provides utility functions for reading record batches, a table, subsets of
-// columns / rowgroups, and so on.
-type FileReader struct {
-	mem memory.Allocator
-	rdr *file.Reader
-
-	Props    ArrowReadProperties
-	Manifest *SchemaManifest
-}
-
-// NewFileReader constructs a reader for converting to Arrow objects from an existing
-// parquet file reader object.
-//
-// Only returns an error if there is some error constructing the schema manifest from
-// the parquet file metadata.
-func NewFileReader(rdr *file.Reader, props ArrowReadProperties, mem memory.Allocator) (*FileReader, error) {
-	manifest, err := NewSchemaManifest(rdr.MetaData().Schema, rdr.MetaData().KeyValueMetadata(), &props)
-	if err != nil {
-		return nil, err
-	}
-
-	return &FileReader{
-		mem:      mem,
-		rdr:      rdr,
-		Props:    props,
-		Manifest: manifest,
-	}, nil
-}
-
-// Schema returns the arrow schema representation of the underlying file's schema.
-func (fr *FileReader) Schema() (*arrow.Schema, error) {
-	return FromParquet(fr.rdr.MetaData().Schema, &fr.Props, fr.rdr.MetaData().KeyValueMetadata())
-}
-
-type colReaderImpl interface {
-	LoadBatch(nrecs int64) error
-	BuildArray(boundedLen int64) (*arrow.Chunked, error)
-	GetDefLevels() ([]int16, error)
-	GetRepLevels() ([]int16, error)
-	Field() *arrow.Field
-	IsOrHasRepeatedChild() bool
-	Retain()
-	Release()
-}
-
-// ColumnReader is used for reading batches of data from a specific column
-// across multiple row groups to return a chunked arrow array.
-type ColumnReader struct {
-	colReaderImpl
-}
-
-// NextBatch returns a chunked array after reading `size` values, potentially
-// across multiple row groups.
-func (c *ColumnReader) NextBatch(size int64) (*arrow.Chunked, error) {
-	if err := c.LoadBatch(size); err != nil {
-		return nil, err
-	}
-	return c.BuildArray(size)
-}
-
-type rdrCtxKey struct{}
-
-func readerCtxFromContext(ctx context.Context) readerCtx {
-	rdc := ctx.Value(rdrCtxKey{})
-	if rdc != nil {
-		return rdc.(readerCtx)
-	}
-	panic("no readerctx")
-}
-
-// ParquetReader returns the underlying parquet file reader that it was constructed with
-func (fr *FileReader) ParquetReader() *file.Reader { return fr.rdr }
-
-// GetColumn returns a reader for pulling the data of leaf column index i
-// across all row groups in the file.
-func (fr *FileReader) GetColumn(ctx context.Context, i int) (*ColumnReader, error) {
-	return fr.getColumnReader(ctx, i, fr.allRowGroupFactory())
-}
-
-func rowGroupFactory(rowGroups []int) itrFactory {
-	return func(i int, rdr *file.Reader) *columnIterator {
-		return &columnIterator{
-			index:     i,
-			rdr:       rdr,
-			schema:    rdr.MetaData().Schema,
-			rowGroups: rowGroups,
-		}
-	}
-}
-
-func (fr *FileReader) allRowGroupFactory() itrFactory {
-	rowGroups := make([]int, fr.rdr.NumRowGroups())
-	for idx := range rowGroups {
-		rowGroups[idx] = idx
-	}
-	return rowGroupFactory(rowGroups)
-}
-
-// GetFieldReader returns a reader for the entire Field of index i which could potentially include reading
-// multiple columns from the underlying parquet file if that field is a nested field.
-//
-// IncludedLeaves and RowGroups are used to specify precisely which leaf indexes and row groups to read a subset of.
-func (fr *FileReader) GetFieldReader(ctx context.Context, i int, includedLeaves map[int]bool, rowGroups []int) (*ColumnReader, error) {
-	ctx = context.WithValue(ctx, rdrCtxKey{}, readerCtx{
-		rdr:            fr.rdr,
-		mem:            fr.mem,
-		colFactory:     rowGroupFactory(rowGroups),
-		filterLeaves:   true,
-		includedLeaves: includedLeaves,
-	})
-	return fr.getReader(ctx, &fr.Manifest.Fields[i], *fr.Manifest.Fields[i].Field)
-}
-
-// GetFieldReaders is for retrieving readers for multiple fields at one time for only the list
-// of column indexes and rowgroups requested. It returns a slice of the readers and the corresponding
-// arrow.Schema for those columns.
-func (fr *FileReader) GetFieldReaders(ctx context.Context, colIndices, rowGroups []int) ([]*ColumnReader, *arrow.Schema, error) {
-	fieldIndices, err := fr.Manifest.GetFieldIndices(colIndices)
-	if err != nil {
-		return nil, nil, err
-	}
-
-	includedLeaves := make(map[int]bool)
-	for _, col := range colIndices {
-		includedLeaves[col] = true
-	}
-
-	out := make([]*ColumnReader, len(fieldIndices))
-	outFields := make([]arrow.Field, len(fieldIndices))
-
-	// Load batches in parallel
-	// When reading structs with large numbers of columns, the serial load is very slow.
-	// This is especially true when reading Cloud Storage. Loading concurrently
-	// greatly improves performance.
-	// GetFieldReader causes read operations, when issued serially on large numbers of columns,
-	// this is super time consuming. Get field readers concurrently.
-	g, gctx := errgroup.WithContext(ctx)
-	if !fr.Props.Parallel {
-		g.SetLimit(1)
-	}
-	for idx, fidx := range fieldIndices {
-		idx, fidx := idx, fidx // create concurrent copy
-		g.Go(func() error {
-			rdr, err := fr.GetFieldReader(gctx, fidx, includedLeaves, rowGroups)
-			if err != nil {
-				return err
-			}
-			outFields[idx] = *rdr.Field()
-			out[idx] = rdr
-			return nil
-		})
-	}
-	if err = g.Wait(); err != nil {
-		return nil, nil, err
-	}
-
-	return out, arrow.NewSchema(outFields, fr.Manifest.SchemaMeta), nil
-}
-
-// RowGroup creates a reader that will *only* read from the requested row group
-func (fr *FileReader) RowGroup(idx int) RowGroupReader {
-	return RowGroupReader{fr, idx}
-}
-
-// ReadColumn reads data to create a chunked array only from the requested row groups.
-func (fr *FileReader) ReadColumn(rowGroups []int, rdr *ColumnReader) (*arrow.Chunked, error) {
-	recs := int64(0)
-	for _, rg := range rowGroups {
-		recs += fr.rdr.MetaData().RowGroups[rg].GetNumRows()
-	}
-	return rdr.NextBatch(recs)
-}
-
-// ReadTable reads the entire file into an array.Table
-func (fr *FileReader) ReadTable(ctx context.Context) (arrow.Table, error) {
-	var (
-		cols = []int{}
-		rgs  = []int{}
-	)
-	for i := 0; i < fr.rdr.MetaData().Schema.NumColumns(); i++ {
-		cols = append(cols, i)
-	}
-	for i := 0; i < fr.rdr.NumRowGroups(); i++ {
-		rgs = append(rgs, i)
-	}
-	return fr.ReadRowGroups(ctx, cols, rgs)
-}
-
-func (fr *FileReader) checkCols(indices []int) (err error) {
-	for _, col := range indices {
-		if col < 0 || col >= fr.rdr.MetaData().Schema.NumColumns() {
-			err = fmt.Errorf("invalid column index specified %d out of %d", col, fr.rdr.MetaData().Schema.NumColumns())
-			break
-		}
-	}
-	return
-}
-
-func (fr *FileReader) checkRowGroups(indices []int) (err error) {
-	for _, rg := range indices {
-		if rg < 0 || rg >= fr.rdr.NumRowGroups() {
-			err = fmt.Errorf("invalid row group specified: %d, file only has %d row groups", rg, fr.rdr.NumRowGroups())
-			break
-		}
-	}
-	return
-}
-
-type readerInfo struct {
-	rdr *ColumnReader
-	idx int
-}
-
-type resultPair struct {
-	idx  int
-	data *arrow.Chunked
-	err  error
-}
-
-//! This is Super complicated.  I would simplify the pattern, but it works and hesitant to change what works.
-
-// ReadRowGroups is for generating an array.Table from the file but filtering to only read the requested
-// columns and row groups rather than the entire file which ReadTable does.
-func (fr *FileReader) ReadRowGroups(ctx context.Context, indices, rowGroups []int) (arrow.Table, error) {
-	if err := fr.checkRowGroups(rowGroups); err != nil {
-		return nil, err
-	}
-	if err := fr.checkCols(indices); err != nil {
-		return nil, err
-	}
-
-	// TODO(mtopol): add optimizations for pre-buffering data options
-
-	readers, sc, err := fr.GetFieldReaders(ctx, indices, rowGroups)
-	if err != nil {
-		return nil, err
-	}
-
-	// producer-consumer parallelization
-	var (
-		np      = 1
-		wg      sync.WaitGroup
-		ch      = make(chan readerInfo, len(readers))
-		results = make(chan resultPair, 2)
-	)
-
-	if fr.Props.Parallel {
-		np = len(readers)
-	}
-
-	ctx, cancel := context.WithCancel(ctx)
-	defer cancel()
-
-	wg.Add(np) // fan-out to np readers
-	for i := 0; i < np; i++ {
-		go func() {
-			defer wg.Done()
-			for {
-				select {
-				case r, ok := <-ch:
-					if !ok {
-						return
-					}
-
-					chnked, err := fr.ReadColumn(rowGroups, r.rdr)
-					// pass the result column data to the result channel
-					// for the consumer goroutine to process
-					results <- resultPair{r.idx, chnked, err}
-				case <-ctx.Done(): // check if we cancelled
-					return
-				}
-			}
-		}()
-	}
-
-	go func() {
-		wg.Wait()
-		close(results) // close the result channel when there's no more
-	}()
-
-	// pass pairs of reader and column index to the channel for the
-	// goroutines to read the data
-	for idx := range readers {
-		defer readers[idx].Release()
-		ch <- readerInfo{readers[idx], idx}
-	}
-	close(ch)
-
-	// output slice of columns
-	columns := make([]arrow.Column, sc.NumFields())
-	defer releaseColumns(columns)
-	for data := range results {
-		if data.err != nil {
-			err = data.err
-			cancel()
-			break
-		}
-		columns[data.idx] = *arrow.NewColumn(sc.Field(data.idx), data.data)
-		data.data.Release()
-	}
-
-	// if the context is in error, but we haven't set an error yet, then it means that the parent context
-	// was cancelled. In this case, we should exit early as some columns may not have been read yet.
-	err = errors.Join(err, ctx.Err())
-
-	if err != nil {
-		// if we encountered an error, consume any waiting data on the channel
-		// so the goroutines don't leak and so memory can get cleaned up. we already
-		// cancelled the context, so we're just consuming anything that was already queued up.
-		for data := range results {
-			data.data.Release()
-		}
-		return nil, err
-	}
-
-	var nrows int
-	if len(columns) > 0 {
-		nrows = columns[0].Len()
-	}
-
-	return array.NewTable(sc, columns, int64(nrows)), nil
-}
-
-func (fr *FileReader) getColumnReader(ctx context.Context, i int, colFactory itrFactory) (*ColumnReader, error) {
-	if i < 0 || i >= len(fr.Manifest.Fields) {
-		return nil, fmt.Errorf("invalid column index chosen %d, there are only %d columns", i, len(fr.Manifest.Fields))
-	}
-
-	ctx = context.WithValue(ctx, rdrCtxKey{}, readerCtx{
-		rdr:          fr.rdr,
-		mem:          fr.mem,
-		colFactory:   colFactory,
-		filterLeaves: false,
-	})
-
-	return fr.getReader(ctx, &fr.Manifest.Fields[i], *fr.Manifest.Fields[i].Field)
-}
-
-// RecordReader is a Record Batch Reader that meets the interfaces for both
-// array.RecordReader and arrio.Reader to allow easy progressive reading
-// of record batches from the parquet file. Ideal for streaming.
-type RecordReader interface {
-	array.RecordReader
-	arrio.Reader
-}
-
-// GetRecordReader returns a record reader that reads only the requested column indexes and row groups.
-//
-// For both cases, if you pass nil for column indexes or rowgroups it will default to reading all of them.
-func (fr *FileReader) GetRecordReader(ctx context.Context, colIndices, rowGroups []int) (RecordReader, error) {
-	if err := fr.checkRowGroups(rowGroups); err != nil {
-		return nil, err
-	}
-
-	if rowGroups == nil {
-		rowGroups = make([]int, fr.rdr.NumRowGroups())
-		for idx := range rowGroups {
-			rowGroups[idx] = idx
-		}
-	}
-
-	if err := fr.checkCols(colIndices); err != nil {
-		return nil, err
-	}
-
-	if colIndices == nil {
-		colIndices = make([]int, fr.rdr.MetaData().Schema.NumColumns())
-		for idx := range colIndices {
-			colIndices[idx] = idx
-		}
-	}
-
-	// TODO(mtopol): add optimizations to pre-buffer data from the file
-
-	readers, sc, err := fr.GetFieldReaders(ctx, colIndices, rowGroups)
-	if err != nil {
-		return nil, err
-	}
-
-	if len(readers) == 0 {
-		return nil, xerrors.New("no leaf column readers matched col indices")
-	}
-
-	nrows := int64(0)
-	for _, rg := range rowGroups {
-		nrows += fr.rdr.MetaData().RowGroup(rg).NumRows()
-	}
-
-	return &recordReader{
-		numRows:      nrows,
-		batchSize:    fr.Props.BatchSize,
-		parallel:     fr.Props.Parallel,
-		sc:           sc,
-		fieldReaders: readers,
-		refCount:     1,
-	}, nil
-}
-
-func (fr *FileReader) getReader(ctx context.Context, field *SchemaField, arrowField arrow.Field) (out *ColumnReader, err error) {
-	rctx := readerCtxFromContext(ctx)
-	if len(field.Children) == 0 {
-		if !field.IsLeaf() {
-			return nil, xerrors.New("parquet non-leaf node has no children")
-		}
-		if rctx.filterLeaves && !rctx.includesLeaf(field.ColIndex) {
-			return nil, nil
-		}
-
-		out, err = newLeafReader(&rctx, field.Field, rctx.colFactory(field.ColIndex, rctx.rdr), field.LevelInfo, fr.Props, fr.rdr.BufferPool())
-		return
-	}
-
-	switch arrowField.Type.ID() {
-	case arrow.EXTENSION:
-		return nil, xerrors.New("extension type not implemented")
-	case arrow.STRUCT:
-
-		childReaders := make([]*ColumnReader, len(field.Children))
-		childFields := make([]arrow.Field, len(field.Children))
-
-		// Get child field readers concurrently
-		// 'getReader' causes a read operation.  Issue the 'reads' concurrently
-		// When reading structs with large numbers of columns, the serial load is very slow.
-		// This is especially true when reading Cloud Storage. Loading concurrently
-		// greatly improves performance.
-		g, gctx := errgroup.WithContext(ctx)
-		if !fr.Props.Parallel {
-			g.SetLimit(1)
-		}
-
-		for n, child := range field.Children {
-			n, child := n, child
-			g.Go(func() error {
-				reader, err := fr.getReader(gctx, &child, *child.Field)
-				if err != nil {
-					return err
-				}
-				if reader == nil {
-					return nil
-				}
-				childFields[n] = *child.Field
-				childReaders[n] = reader
-				return nil
-			})
-		}
-		if err = g.Wait(); err != nil {
-			return nil, err
-		}
-
-		// because we performed getReader concurrently, we need to prune out any empty readers
-		for n := len(childReaders) - 1; n >= 0; n-- {
-			if childReaders[n] == nil {
-				childReaders = append(childReaders[:n], childReaders[n+1:]...)
-				childFields = append(childFields[:n], childFields[n+1:]...)
-			}
-		}
-		if len(childFields) == 0 {
-			return nil, nil
-		}
-		filtered := arrow.Field{Name: arrowField.Name, Nullable: arrowField.Nullable,
-			Metadata: arrowField.Metadata, Type: arrow.StructOf(childFields...)}
-		out = newStructReader(&rctx, &filtered, field.LevelInfo, childReaders, fr.Props)
-	case arrow.LIST, arrow.FIXED_SIZE_LIST, arrow.MAP:
-		child := field.Children[0]
-		childReader, err := fr.getReader(ctx, &child, *child.Field)
-		if err != nil {
-			return nil, err
-		}
-		if childReader == nil {
-			return nil, nil
-		}
-		defer childReader.Release()
-
-		switch arrowField.Type.(type) {
-		case *arrow.MapType:
-			if len(child.Children) != 2 {
-				arrowField.Type = arrow.ListOf(childReader.Field().Type)
-			}
-			out = newListReader(&rctx, &arrowField, field.LevelInfo, childReader, fr.Props)
-		case *arrow.ListType:
-			out = newListReader(&rctx, &arrowField, field.LevelInfo, childReader, fr.Props)
-		case *arrow.FixedSizeListType:
-			out = newFixedSizeListReader(&rctx, &arrowField, field.LevelInfo, childReader, fr.Props)
-		default:
-			return nil, fmt.Errorf("unknown list type: %s", field.Field.String())
-		}
-	}
-	return
-}
-
-// RowGroupReader is a reader for getting data only from a single row group of the file
-// rather than having to repeatedly pass the index to functions on the reader.
-type RowGroupReader struct {
-	impl *FileReader
-	idx  int
-}
-
-// ReadTable provides an array.Table consisting only of the columns requested for this rowgroup
-func (rgr RowGroupReader) ReadTable(ctx context.Context, colIndices []int) (arrow.Table, error) {
-	return rgr.impl.ReadRowGroups(ctx, colIndices, []int{rgr.idx})
-}
-
-// Column creates a reader for just the requested column chunk in only this row group.
-func (rgr RowGroupReader) Column(idx int) ColumnChunkReader {
-	return ColumnChunkReader{rgr.impl, idx, rgr.idx}
-}
-
-// ColumnChunkReader is a reader that reads only a single column chunk from a single
-// column in a single row group
-type ColumnChunkReader struct {
-	impl     *FileReader
-	idx      int
-	rowGroup int
-}
-
-func (ccr ColumnChunkReader) Read(ctx context.Context) (*arrow.Chunked, error) {
-	rdr, err := ccr.impl.getColumnReader(ctx, ccr.idx, rowGroupFactory([]int{ccr.rowGroup}))
-	if err != nil {
-		return nil, err
-	}
-	return ccr.impl.ReadColumn([]int{ccr.rowGroup}, rdr)
-}
-
-type columnIterator struct {
-	index     int
-	rdr       *file.Reader
-	schema    *schema.Schema
-	rowGroups []int
-}
-
-func (c *columnIterator) NextChunk() (file.PageReader, error) {
-	if len(c.rowGroups) == 0 {
-		return nil, nil
-	}
-
-	rgr := c.rdr.RowGroup(c.rowGroups[0])
-	c.rowGroups = c.rowGroups[1:]
-	return rgr.GetColumnPageReader(c.index)
-}
-
-func (c *columnIterator) Descr() *schema.Column { return c.schema.Column(c.index) }
-
-// implementation of arrio.Reader for streaming record batches
-// from the parquet data.
-type recordReader struct {
-	numRows      int64
-	batchSize    int64
-	parallel     bool
-	sc           *arrow.Schema
-	fieldReaders []*ColumnReader
-	cur          arrow.Record
-	err          error
-
-	refCount int64
-}
-
-func (r *recordReader) Retain() {
-	atomic.AddInt64(&r.refCount, 1)
-}
-
-func (r *recordReader) Release() {
-	if atomic.AddInt64(&r.refCount, -1) == 0 {
-		if r.cur != nil {
-			r.cur.Release()
-			r.cur = nil
-		}
-		if r.fieldReaders == nil {
-			return
-		}
-		for _, fr := range r.fieldReaders {
-			fr.Release()
-		}
-		r.fieldReaders = nil
-	}
-}
-
-func (r *recordReader) Schema() *arrow.Schema { return r.sc }
-
-func (r *recordReader) next() bool {
-	cols := make([]arrow.Array, len(r.sc.Fields()))
-	defer releaseArrays(cols)
-	readField := func(idx int, rdr *ColumnReader) error {
-		data, err := rdr.NextBatch(r.batchSize)
-		if err != nil {
-			return err
-		}
-		defer data.Release()
-
-		if data.Len() == 0 {
-			return io.EOF
-		}
-
-		arrdata, err := chunksToSingle(data)
-		if err != nil {
-			return err
-		}
-		defer arrdata.Release()
-
-		cols[idx] = array.MakeFromData(arrdata)
-		return nil
-	}
-
-	if !r.parallel {
-		for idx, rdr := range r.fieldReaders {
-			if err := readField(idx, rdr); err != nil {
-				r.err = err
-				return false
-			}
-		}
-
-		r.cur = array.NewRecord(r.sc, cols, -1)
-		return true
-	}
-
-	var (
-		wg    sync.WaitGroup
-		np    = len(cols)
-		ch    = make(chan int, np)
-		errch = make(chan error, np)
-	)
-
-	ctx, cancel := context.WithCancel(context.Background())
-	defer cancel()
-
-	wg.Add(np)
-	for i := 0; i < np; i++ {
-		go func() {
-			defer wg.Done()
-			for {
-				select {
-				case idx, ok := <-ch:
-					if !ok {
-						return
-					}
-
-					if err := readField(idx, r.fieldReaders[idx]); err != nil {
-						errch <- err
-						cancel()
-						return
-					}
-
-				case <-ctx.Done():
-					return
-				}
-			}
-		}()
-	}
-
-	for idx := range r.fieldReaders {
-		ch <- idx
-	}
-	close(ch)
-	wg.Wait()
-	close(errch)
-
-	var ok bool
-	// check for any errors
-	if r.err, ok = <-errch; ok {
-		// return the first error that was reported and drain
-		// any remaining errors from the channel before returning.
-		for range errch {
-		}
-		return false
-	}
-
-	r.cur = array.NewRecord(r.sc, cols, -1)
-	return true
-}
-
-func (r *recordReader) Next() bool {
-	if r.cur != nil {
-		r.cur.Release()
-		r.cur = nil
-	}
-
-	if r.err != nil {
-		return false
-	}
-
-	return r.next()
-}
-
-func (r *recordReader) Record() arrow.Record { return r.cur }
-
-func (r *recordReader) Err() error { return r.err }
-
-func (r *recordReader) Read() (arrow.Record, error) {
-	if r.cur != nil {
-		r.cur.Release()
-		r.cur = nil
-	}
-
-	if !r.next() {
-		return nil, r.err
-	}
-
-	return r.cur, nil
-}
diff --git a/go/parquet/pqarrow/file_reader_test.go b/go/parquet/pqarrow/file_reader_test.go
deleted file mode 100644
index fe5a4547a775c..0000000000000
--- a/go/parquet/pqarrow/file_reader_test.go
+++ /dev/null
@@ -1,375 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow_test
-
-import (
-	"bytes"
-	"context"
-	"fmt"
-	"io"
-	"os"
-	"path/filepath"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func getDataDir() string {
-	datadir := os.Getenv("PARQUET_TEST_DATA")
-	if datadir == "" {
-		panic("please point PARQUET_TEST_DATA env var to the test data directory")
-	}
-	return datadir
-}
-
-func TestArrowReaderAdHocReadDecimals(t *testing.T) {
-	tests := []struct {
-		file string
-		typ  *arrow.Decimal128Type
-	}{
-		{"int32_decimal", &arrow.Decimal128Type{Precision: 4, Scale: 2}},
-		{"int64_decimal", &arrow.Decimal128Type{Precision: 10, Scale: 2}},
-		{"fixed_length_decimal", &arrow.Decimal128Type{Precision: 25, Scale: 2}},
-		{"fixed_length_decimal_legacy", &arrow.Decimal128Type{Precision: 13, Scale: 2}},
-		{"byte_array_decimal", &arrow.Decimal128Type{Precision: 4, Scale: 2}},
-	}
-
-	dataDir := getDataDir()
-	for _, tt := range tests {
-		t.Run(tt.file, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			filename := filepath.Join(dataDir, tt.file+".parquet")
-			require.FileExists(t, filename)
-
-			rdr, err := file.OpenParquetFile(filename, false, file.WithReadProps(parquet.NewReaderProperties(mem)))
-			require.NoError(t, err)
-			defer rdr.Close()
-			arrowRdr, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{}, mem)
-			require.NoError(t, err)
-
-			tbl, err := arrowRdr.ReadTable(context.Background())
-			require.NoError(t, err)
-			defer tbl.Release()
-
-			assert.EqualValues(t, 1, tbl.NumCols())
-			assert.Truef(t, arrow.TypeEqual(tbl.Schema().Field(0).Type, tt.typ), "expected: %s\ngot: %s", tbl.Schema().Field(0).Type, tt.typ)
-
-			const expectedLen = 24
-			valCol := tbl.Column(0)
-
-			assert.EqualValues(t, expectedLen, valCol.Len())
-			assert.Len(t, valCol.Data().Chunks(), 1)
-
-			chunk := valCol.Data().Chunk(0)
-			bldr := array.NewDecimal128Builder(mem, tt.typ)
-			defer bldr.Release()
-			for i := 0; i < expectedLen; i++ {
-				bldr.Append(decimal128.FromI64(int64((i + 1) * 100)))
-			}
-
-			expectedArr := bldr.NewDecimal128Array()
-			defer expectedArr.Release()
-
-			assert.Truef(t, array.Equal(expectedArr, chunk), "expected: %s\ngot: %s", expectedArr, chunk)
-		})
-	}
-}
-
-func TestArrowReaderAdHocReadFloat16s(t *testing.T) {
-	tests := []struct {
-		file string
-		len  int
-		vals []float16.Num
-	}{
-		{"float16_nonzeros_and_nans", 8,
-			[]float16.Num{
-				float16.New(1.0),
-				float16.New(-2.0),
-				float16.NaN(),
-				float16.New(0.0),
-				float16.New(-1.0),
-				float16.New(0.0).Negate(),
-				float16.New(2.0),
-			}},
-		{"float16_zeros_and_nans", 3,
-			[]float16.Num{
-				float16.New(0.0),
-				float16.NaN(),
-			}},
-	}
-
-	dataDir := getDataDir()
-	for _, tt := range tests {
-		t.Run(tt.file, func(t *testing.T) {
-			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-			defer mem.AssertSize(t, 0)
-
-			filename := filepath.Join(dataDir, tt.file+".parquet")
-			require.FileExists(t, filename)
-
-			rdr, err := file.OpenParquetFile(filename, false, file.WithReadProps(parquet.NewReaderProperties(mem)))
-			require.NoError(t, err)
-			defer rdr.Close()
-
-			arrowRdr, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{}, mem)
-			require.NoError(t, err)
-
-			tbl, err := arrowRdr.ReadTable(context.Background())
-			require.NoError(t, err)
-			defer tbl.Release()
-
-			assert.EqualValues(t, 1, tbl.NumCols())
-			assert.Truef(t, arrow.TypeEqual(tbl.Schema().Field(0).Type, &arrow.Float16Type{}), "expected: %s\ngot: %s", tbl.Schema().Field(0).Type, arrow.Float16Type{})
-
-			valCol := tbl.Column(0)
-			assert.EqualValues(t, tt.len, valCol.Len())
-			assert.Len(t, valCol.Data().Chunks(), 1)
-
-			chunk := valCol.Data().Chunk(0).(*array.Float16)
-			assert.True(t, chunk.IsNull(0))
-			for i := 0; i < tt.len-1; i++ {
-				expected := tt.vals[i]
-				actual := chunk.Value(i + 1)
-				if expected.IsNaN() {
-					// NaN representations aren't guaranteed to be exact on a binary level
-					assert.True(t, actual.IsNaN())
-				} else {
-					assert.Equal(t, expected.Uint16(), actual.Uint16())
-				}
-			}
-		})
-	}
-}
-
-func TestArrowReaderCanceledContext(t *testing.T) {
-	dataDir := getDataDir()
-
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	filename := filepath.Join(dataDir, "int32_decimal.parquet")
-	require.FileExists(t, filename)
-
-	rdr, err := file.OpenParquetFile(filename, false, file.WithReadProps(parquet.NewReaderProperties(mem)))
-	require.NoError(t, err)
-	defer rdr.Close()
-	arrowRdr, err := pqarrow.NewFileReader(rdr, pqarrow.ArrowReadProperties{}, mem)
-	require.NoError(t, err)
-
-	// create a canceled context
-	ctx, cancel := context.WithCancel(context.Background())
-	cancel()
-
-	_, err = arrowRdr.ReadTable(ctx)
-	require.ErrorIs(t, err, context.Canceled)
-}
-
-func TestRecordReaderParallel(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	tbl := makeDateTimeTypesTable(mem, true, true)
-	defer tbl.Release()
-
-	var buf bytes.Buffer
-	require.NoError(t, pqarrow.WriteTable(tbl, &buf, tbl.NumRows(), nil, pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem))))
-
-	pf, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()), file.WithReadProps(parquet.NewReaderProperties(mem)))
-	require.NoError(t, err)
-
-	reader, err := pqarrow.NewFileReader(pf, pqarrow.ArrowReadProperties{BatchSize: 3, Parallel: true}, mem)
-	require.NoError(t, err)
-
-	sc, err := reader.Schema()
-	assert.NoError(t, err)
-	assert.Truef(t, tbl.Schema().Equal(sc), "expected: %s\ngot: %s", tbl.Schema(), sc)
-
-	rr, err := reader.GetRecordReader(context.Background(), nil, nil)
-	assert.NoError(t, err)
-	assert.NotNil(t, rr)
-	defer rr.Release()
-
-	records := make([]arrow.Record, 0)
-	for rr.Next() {
-		rec := rr.Record()
-		defer rec.Release()
-
-		assert.Truef(t, sc.Equal(rec.Schema()), "expected: %s\ngot: %s", sc, rec.Schema())
-		rec.Retain()
-		records = append(records, rec)
-	}
-
-	assert.False(t, rr.Next())
-
-	tr := array.NewTableReader(tbl, 3)
-	defer tr.Release()
-
-	assert.True(t, tr.Next())
-	assert.Truef(t, array.RecordEqual(tr.Record(), records[0]), "expected: %s\ngot: %s", tr.Record(), records[0])
-	assert.True(t, tr.Next())
-	assert.Truef(t, array.RecordEqual(tr.Record(), records[1]), "expected: %s\ngot: %s", tr.Record(), records[1])
-}
-
-func TestRecordReaderSerial(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	tbl := makeDateTimeTypesTable(mem, true, true)
-	defer tbl.Release()
-
-	var buf bytes.Buffer
-	require.NoError(t, pqarrow.WriteTable(tbl, &buf, tbl.NumRows(), nil, pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem))))
-
-	pf, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()), file.WithReadProps(parquet.NewReaderProperties(mem)))
-	require.NoError(t, err)
-
-	reader, err := pqarrow.NewFileReader(pf, pqarrow.ArrowReadProperties{BatchSize: 2}, mem)
-	require.NoError(t, err)
-
-	sc, err := reader.Schema()
-	assert.NoError(t, err)
-	assert.Truef(t, tbl.Schema().Equal(sc), "expected: %s\ngot: %s", tbl.Schema(), sc)
-
-	rr, err := reader.GetRecordReader(context.Background(), nil, nil)
-	assert.NoError(t, err)
-	assert.NotNil(t, rr)
-	defer rr.Release()
-
-	tr := array.NewTableReader(tbl, 2)
-	defer tr.Release()
-
-	rec, err := rr.Read()
-	assert.NoError(t, err)
-	tr.Next()
-	assert.Truef(t, array.RecordEqual(tr.Record(), rec), "expected: %s\ngot: %s", tr.Record(), rec)
-
-	rec, err = rr.Read()
-	assert.NoError(t, err)
-	tr.Next()
-	assert.Truef(t, array.RecordEqual(tr.Record(), rec), "expected: %s\ngot: %s", tr.Record(), rec)
-
-	rec, err = rr.Read()
-	assert.NoError(t, err)
-	tr.Next()
-	assert.Truef(t, array.RecordEqual(tr.Record(), rec), "expected: %s\ngot: %s", tr.Record(), rec)
-
-	rec, err = rr.Read()
-	assert.Same(t, io.EOF, err)
-	assert.Nil(t, rec)
-}
-
-func TestFileReaderWriterMetadata(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	tbl := makeDateTimeTypesTable(mem, true, true)
-	defer tbl.Release()
-
-	meta := arrow.NewMetadata([]string{"foo", "bar"}, []string{"bar", "baz"})
-	sc := arrow.NewSchema(tbl.Schema().Fields(), &meta)
-
-	var buf bytes.Buffer
-	writer, err := pqarrow.NewFileWriter(sc, &buf, nil, pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
-	require.NoError(t, err)
-	require.NoError(t, writer.WriteTable(tbl, tbl.NumRows()))
-	require.NoError(t, writer.Close())
-
-	pf, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()), file.WithReadProps(parquet.NewReaderProperties(mem)))
-	require.NoError(t, err)
-	defer pf.Close()
-
-	kvMeta := pf.MetaData().KeyValueMetadata()
-	assert.Equal(t, []string{"foo", "bar"}, kvMeta.Keys())
-	assert.Equal(t, []string{"bar", "baz"}, kvMeta.Values())
-}
-
-func TestFileReaderColumnChunkBoundsErrors(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "zero", Type: arrow.PrimitiveTypes.Float64},
-		{Name: "g", Type: arrow.StructOf(
-			arrow.Field{Name: "one", Type: arrow.PrimitiveTypes.Float64},
-			arrow.Field{Name: "two", Type: arrow.PrimitiveTypes.Float64},
-			arrow.Field{Name: "three", Type: arrow.PrimitiveTypes.Float64},
-		)},
-	}, nil)
-
-	// generate Parquet data with four columns
-	// that are represented by two logical fields
-	data := `[
-		{
-			"zero": 1,
-			"g": {
-				"one": 1,
-				"two": 1,
-				"three": 1
-			}
-		},
-		{
-			"zero": 2,
-			"g": {
-				"one": 2,
-				"two": 2,
-				"three": 2
-			}
-		}
-	]`
-
-	record, _, err := array.RecordFromJSON(memory.DefaultAllocator, schema, strings.NewReader(data))
-	require.NoError(t, err)
-
-	output := &bytes.Buffer{}
-	writer, err := pqarrow.NewFileWriter(schema, output, parquet.NewWriterProperties(), pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-
-	require.NoError(t, writer.Write(record))
-	require.NoError(t, writer.Close())
-
-	fileReader, err := file.NewParquetReader(bytes.NewReader(output.Bytes()))
-	require.NoError(t, err)
-
-	arrowReader, err := pqarrow.NewFileReader(fileReader, pqarrow.ArrowReadProperties{BatchSize: 1024}, memory.DefaultAllocator)
-	require.NoError(t, err)
-
-	// assert that errors are returned for indexes outside the bounds of the logical fields (instead of the physical columns)
-	ctx := pqarrow.NewArrowWriteContext(context.Background(), nil)
-	assert.Greater(t, fileReader.NumRowGroups(), 0)
-	for rowGroupIndex := 0; rowGroupIndex < fileReader.NumRowGroups(); rowGroupIndex += 1 {
-		rowGroupReader := arrowReader.RowGroup(rowGroupIndex)
-		for fieldNum := 0; fieldNum < schema.NumFields(); fieldNum += 1 {
-			_, err := rowGroupReader.Column(fieldNum).Read(ctx)
-			assert.NoError(t, err, "reading field num: %d", fieldNum)
-		}
-
-		_, subZeroErr := rowGroupReader.Column(-1).Read(ctx)
-		assert.Error(t, subZeroErr)
-
-		_, tooHighErr := rowGroupReader.Column(schema.NumFields()).Read(ctx)
-		assert.ErrorContains(t, tooHighErr, fmt.Sprintf("there are only %d columns", schema.NumFields()))
-	}
-}
diff --git a/go/parquet/pqarrow/file_writer.go b/go/parquet/pqarrow/file_writer.go
deleted file mode 100644
index 539c544829e3b..0000000000000
--- a/go/parquet/pqarrow/file_writer.go
+++ /dev/null
@@ -1,340 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"context"
-	"encoding/base64"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"golang.org/x/xerrors"
-)
-
-// WriteTable is a convenience function to create and write a full array.Table to a parquet file. The schema
-// and columns will be determined by the schema of the table, writing the file out to the provided writer.
-// The chunksize will be utilized in order to determine the size of the row groups.
-func WriteTable(tbl arrow.Table, w io.Writer, chunkSize int64, props *parquet.WriterProperties, arrprops ArrowWriterProperties) error {
-	writer, err := NewFileWriter(tbl.Schema(), w, props, arrprops)
-	if err != nil {
-		return err
-	}
-
-	if err := writer.WriteTable(tbl, chunkSize); err != nil {
-		return err
-	}
-
-	return writer.Close()
-}
-
-// FileWriter is an object for writing Arrow directly to a parquet file.
-type FileWriter struct {
-	wr         *file.Writer
-	schema     *arrow.Schema
-	manifest   *SchemaManifest
-	rgw        file.RowGroupWriter
-	arrowProps ArrowWriterProperties
-	ctx        context.Context
-	colIdx     int
-	closed     bool
-}
-
-// NewFileWriter returns a writer for writing Arrow directly to a parquetfile, rather than
-// the ArrowColumnWriter and WriteArrow functions which allow writing arrow to an existing
-// file.Writer, this will create a new file.Writer based on the schema provided.
-func NewFileWriter(arrschema *arrow.Schema, w io.Writer, props *parquet.WriterProperties, arrprops ArrowWriterProperties) (*FileWriter, error) {
-	if props == nil {
-		props = parquet.NewWriterProperties()
-	}
-
-	pqschema, err := ToParquet(arrschema, props, arrprops)
-	if err != nil {
-		return nil, err
-	}
-
-	meta := make(metadata.KeyValueMetadata, 0)
-	for i := 0; i < arrschema.Metadata().Len(); i++ {
-		meta.Append(arrschema.Metadata().Keys()[i], arrschema.Metadata().Values()[i])
-	}
-
-	if arrprops.storeSchema {
-		serializedSchema := flight.SerializeSchema(arrschema, props.Allocator())
-		meta.Append("ARROW:schema", base64.StdEncoding.EncodeToString(serializedSchema))
-	}
-
-	schemaNode := pqschema.Root()
-	baseWriter := file.NewParquetWriter(w, schemaNode, file.WithWriterProps(props), file.WithWriteMetadata(meta))
-
-	manifest, err := NewSchemaManifest(pqschema, nil, &ArrowReadProperties{})
-	if err != nil {
-		return nil, err
-	}
-
-	return &FileWriter{wr: baseWriter, schema: arrschema, manifest: manifest, arrowProps: arrprops, ctx: NewArrowWriteContext(context.TODO(), &arrprops)}, nil
-}
-
-// NewRowGroup does what it says on the tin, creates a new row group in the underlying file.
-// Equivalent to `AppendRowGroup` on a file.Writer
-func (fw *FileWriter) NewRowGroup() {
-	if fw.rgw != nil {
-		fw.rgw.Close()
-	}
-	fw.rgw = fw.wr.AppendRowGroup()
-	fw.colIdx = 0
-}
-
-// NewBufferedRowGroup starts a new memory Buffered Row Group to allow writing columns / records
-// without immediately flushing them to disk. This allows using WriteBuffered to write records
-// and decide where to break your row group based on the TotalBytesWritten rather than on the max
-// row group len. If using Records, this should be paired with WriteBuffered, while
-// Write will always write a new record as a row group in and of itself.
-func (fw *FileWriter) NewBufferedRowGroup() {
-	if fw.rgw != nil {
-		fw.rgw.Close()
-	}
-	fw.rgw = fw.wr.AppendBufferedRowGroup()
-	fw.colIdx = 0
-}
-
-// RowGroupTotalCompressedBytes returns the total number of bytes after compression
-// that have been written to the current row group so far.
-func (fw *FileWriter) RowGroupTotalCompressedBytes() int64 {
-	if fw.rgw != nil {
-		return fw.rgw.TotalCompressedBytes()
-	}
-	return 0
-}
-
-// RowGroupTotalBytesWritten returns the total number of bytes written and flushed out in
-// the current row group.
-func (fw *FileWriter) RowGroupTotalBytesWritten() int64 {
-	if fw.rgw != nil {
-		return fw.rgw.TotalBytesWritten()
-	}
-	return 0
-}
-
-// RowGroupNumRows returns the number of rows written to the current row group.
-// Returns an error if they are unequal between columns that have been written so far.
-func (fw *FileWriter) RowGroupNumRows() (int, error) {
-	if fw.rgw != nil {
-		return fw.rgw.NumRows()
-	}
-	return 0, nil
-}
-
-// NumRows returns the total number of rows that have been written so far.
-func (fw *FileWriter) NumRows() int {
-	if fw.wr != nil {
-		return fw.wr.NumRows()
-	}
-	return 0
-}
-
-// WriteBuffered will either append to an existing row group or create a new one
-// based on the record length and max row group length.
-//
-// Additionally, it allows to manually break your row group by
-// checking RowGroupTotalBytesWritten and calling NewBufferedRowGroup,
-// while Write will always create at least 1 row group for the record.
-//
-// Performance-wise WriteBuffered might be more favorable than Write if you're dealing with:
-// * a loose memory environment (meaning you have a lot of memory to utilize)
-// * records that have only a small (~<1K?) amount of rows
-//
-// More memory is utilized compared to Write as the whole row group data is kept in memory before it's written
-// since Parquet files must have an entire column written before writing the next column.
-func (fw *FileWriter) WriteBuffered(rec arrow.Record) error {
-	if !rec.Schema().Equal(fw.schema) {
-		return fmt.Errorf("record schema does not match writer's. \nrecord: %s\nwriter: %s", rec.Schema(), fw.schema)
-	}
-
-	var (
-		recList []arrow.Record
-		maxRows = fw.wr.Properties().MaxRowGroupLength()
-		curRows int
-		err     error
-	)
-	if fw.rgw != nil {
-		if curRows, err = fw.rgw.NumRows(); err != nil {
-			return err
-		}
-	} else {
-		fw.NewBufferedRowGroup()
-	}
-
-	if int64(curRows)+rec.NumRows() <= maxRows {
-		recList = []arrow.Record{rec}
-	} else {
-		recList = []arrow.Record{rec.NewSlice(0, maxRows-int64(curRows))}
-		defer recList[0].Release()
-		for offset := maxRows - int64(curRows); offset < rec.NumRows(); offset += maxRows {
-			s := rec.NewSlice(offset, offset+utils.Min(maxRows, rec.NumRows()-offset))
-			defer s.Release()
-			recList = append(recList, s)
-		}
-	}
-
-	for idx, r := range recList {
-		if idx > 0 {
-			fw.NewBufferedRowGroup()
-		}
-		for i := 0; i < int(r.NumCols()); i++ {
-			if err := fw.WriteColumnData(r.Column(i)); err != nil {
-				fw.Close()
-				return err
-			}
-		}
-	}
-	fw.colIdx = 0
-	return nil
-}
-
-// Write an arrow Record Batch to the file, respecting the MaxRowGroupLength in the writer
-// properties to determine whether the record is broken up into more than one row group.
-// At the very least a single row group is created per record,
-// so calling Write always results in a new row group added.
-//
-// Performance-wise Write might be more favorable than WriteBuffered if you're dealing with:
-// * a highly-restricted memory environment
-// * very large records with lots of rows (potentially close to the max row group length)
-func (fw *FileWriter) Write(rec arrow.Record) error {
-	if !rec.Schema().Equal(fw.schema) {
-		return fmt.Errorf("record schema does not match writer's. \nrecord: %s\nwriter: %s", rec.Schema(), fw.schema)
-	}
-
-	var recList []arrow.Record
-	rowgroupLen := fw.wr.Properties().MaxRowGroupLength()
-	if rec.NumRows() > rowgroupLen {
-		recList = make([]arrow.Record, 0)
-		for offset := int64(0); offset < rec.NumRows(); offset += rowgroupLen {
-			s := rec.NewSlice(offset, offset+utils.Min(rowgroupLen, rec.NumRows()-offset))
-			defer s.Release()
-			recList = append(recList, s)
-		}
-	} else {
-		recList = []arrow.Record{rec}
-	}
-
-	for _, r := range recList {
-		fw.NewRowGroup()
-		for i := 0; i < int(r.NumCols()); i++ {
-			if err := fw.WriteColumnData(r.Column(i)); err != nil {
-				fw.Close()
-				return err
-			}
-		}
-	}
-	fw.colIdx = 0
-	return fw.rgw.Close()
-}
-
-// WriteTable writes an arrow table to the underlying file using chunkSize to determine
-// the size to break at for making row groups. Writing a table will always create a new
-// row group for each chunk of chunkSize rows in the table. Calling this with 0 rows will
-// still write a 0 length Row Group to the file.
-func (fw *FileWriter) WriteTable(tbl arrow.Table, chunkSize int64) error {
-	if chunkSize <= 0 && tbl.NumRows() > 0 {
-		return xerrors.New("chunk size per row group must be greater than 0")
-	} else if !tbl.Schema().Equal(fw.schema) {
-		return fmt.Errorf("table schema does not match writer's. \nTable: %s\n writer: %s", tbl.Schema(), fw.schema)
-	} else if chunkSize > fw.wr.Properties().MaxRowGroupLength() {
-		chunkSize = fw.wr.Properties().MaxRowGroupLength()
-	}
-
-	writeRowGroup := func(offset, size int64) error {
-		fw.NewRowGroup()
-		for i := 0; i < int(tbl.NumCols()); i++ {
-			if err := fw.WriteColumnChunked(tbl.Column(i).Data(), offset, size); err != nil {
-				return err
-			}
-		}
-		return nil
-	}
-
-	if tbl.NumRows() == 0 {
-		if err := writeRowGroup(0, 0); err != nil {
-			fw.Close()
-			return err
-		}
-		return nil
-	}
-
-	for offset := int64(0); offset < tbl.NumRows(); offset += chunkSize {
-		if err := writeRowGroup(offset, utils.Min(chunkSize, tbl.NumRows()-offset)); err != nil {
-			fw.Close()
-			return err
-		}
-	}
-	return nil
-}
-
-// AppendKeyValueMetadata appends a key/value pair to the existing key/value metadata
-func (fw *FileWriter) AppendKeyValueMetadata(key string, value string) error {
-	return fw.wr.AppendKeyValueMetadata(key, value)
-}
-
-// Close flushes out the data and closes the file. It can be called multiple times,
-// subsequent calls after the first will have no effect.
-func (fw *FileWriter) Close() error {
-	if !fw.closed {
-		fw.closed = true
-		if fw.rgw != nil {
-			if err := fw.rgw.Close(); err != nil {
-				return err
-			}
-		}
-
-		writeCtx := arrowCtxFromContext(fw.ctx)
-		if writeCtx.dataBuffer != nil {
-			writeCtx.dataBuffer.Release()
-			writeCtx.dataBuffer = nil
-		}
-
-		return fw.wr.Close()
-	}
-	return nil
-}
-
-// WriteColumnChunked will write the data provided to the underlying file, using the provided
-// offset and size to allow writing subsets of data from the chunked column. It uses the current
-// column in the underlying row group writer as the starting point, allowing progressive
-// building of writing columns to a file via arrow data without needing to already have
-// a record or table.
-func (fw *FileWriter) WriteColumnChunked(data *arrow.Chunked, offset, size int64) error {
-	acw, err := newArrowColumnWriter(data, offset, size, fw.manifest, fw.rgw, fw.colIdx)
-	if err != nil {
-		return err
-	}
-	fw.colIdx += acw.leafCount
-	return acw.Write(fw.ctx)
-}
-
-// WriteColumnData writes the entire array to the file as the next columns. Like WriteColumnChunked
-// it is based on the current column of the row group writer allowing progressive building
-// of the file by columns without needing a full record or table to write.
-func (fw *FileWriter) WriteColumnData(data arrow.Array) error {
-	chunked := arrow.NewChunked(data.DataType(), []arrow.Array{data})
-	defer chunked.Release()
-	return fw.WriteColumnChunked(chunked, 0, int64(data.Len()))
-}
diff --git a/go/parquet/pqarrow/file_writer_test.go b/go/parquet/pqarrow/file_writer_test.go
deleted file mode 100644
index 5b807389a3eb1..0000000000000
--- a/go/parquet/pqarrow/file_writer_test.go
+++ /dev/null
@@ -1,135 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow_test
-
-import (
-	"bytes"
-	"math"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestFileWriterRowGroupNumRows(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "one", Nullable: true, Type: arrow.PrimitiveTypes.Float64},
-		{Name: "two", Nullable: true, Type: arrow.PrimitiveTypes.Float64},
-	}, nil)
-
-	data := `[
-		{"one": 1, "two": 2},
-		{"one": 1, "two": null},
-		{"one": null, "two": 2},
-		{"one": null, "two": null}
-	]`
-	record, _, err := array.RecordFromJSON(memory.DefaultAllocator, schema, strings.NewReader(data))
-	require.NoError(t, err)
-
-	output := &bytes.Buffer{}
-	writerProps := parquet.NewWriterProperties(parquet.WithMaxRowGroupLength(100))
-	writer, err := pqarrow.NewFileWriter(schema, output, writerProps, pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-
-	require.NoError(t, writer.Write(record))
-	numRows, err := writer.RowGroupNumRows()
-	require.NoError(t, err)
-	assert.Equal(t, 4, numRows)
-
-	// Make sure that row group stats are up-to-date immediately after writing
-	bytesWritten := writer.RowGroupTotalBytesWritten()
-	require.NoError(t, writer.Close())
-	require.Equal(t, bytesWritten, writer.RowGroupTotalBytesWritten())
-}
-
-func TestFileWriterNumRows(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "one", Nullable: true, Type: arrow.PrimitiveTypes.Float64},
-		{Name: "two", Nullable: true, Type: arrow.PrimitiveTypes.Float64},
-	}, nil)
-
-	data := `[
-		{"one": 1, "two": 2},
-		{"one": 1, "two": null},
-		{"one": null, "two": 2},
-		{"one": null, "two": null}
-	]`
-	record, _, err := array.RecordFromJSON(memory.DefaultAllocator, schema, strings.NewReader(data))
-	require.NoError(t, err)
-
-	maxRowGroupLength := 2
-
-	output := &bytes.Buffer{}
-	writerProps := parquet.NewWriterProperties(parquet.WithMaxRowGroupLength(int64(maxRowGroupLength)))
-	writer, err := pqarrow.NewFileWriter(schema, output, writerProps, pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-
-	require.NoError(t, writer.Write(record))
-	rowGroupNumRows, err := writer.RowGroupNumRows()
-	require.NoError(t, err)
-	assert.Equal(t, maxRowGroupLength, rowGroupNumRows)
-
-	require.NoError(t, writer.Close())
-	assert.Equal(t, 4, writer.NumRows())
-}
-
-func TestFileWriterBuffered(t *testing.T) {
-	schema := arrow.NewSchema([]arrow.Field{
-		{Name: "one", Nullable: true, Type: arrow.PrimitiveTypes.Float64},
-		{Name: "two", Nullable: true, Type: arrow.PrimitiveTypes.Float64},
-	}, nil)
-
-	data := `[
-		{"one": 1, "two": 2},
-		{"one": 1, "two": null},
-		{"one": null, "two": 2},
-		{"one": null, "two": null}
-	]`
-
-	alloc := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer alloc.AssertSize(t, 0)
-
-	record, _, err := array.RecordFromJSON(alloc, schema, strings.NewReader(data))
-	require.NoError(t, err)
-	defer record.Release()
-
-	output := &bytes.Buffer{}
-	writer, err := pqarrow.NewFileWriter(
-		schema,
-		output,
-		parquet.NewWriterProperties(
-			parquet.WithAllocator(alloc),
-			// Ensure enough space so we can close the writer with rows still buffered
-			parquet.WithMaxRowGroupLength(math.MaxInt64),
-		),
-		pqarrow.NewArrowWriterProperties(
-			pqarrow.WithAllocator(alloc),
-		),
-	)
-	require.NoError(t, err)
-
-	require.NoError(t, writer.WriteBuffered(record))
-
-	require.NoError(t, writer.Close())
-	assert.Equal(t, 4, writer.NumRows())
-}
diff --git a/go/parquet/pqarrow/helpers.go b/go/parquet/pqarrow/helpers.go
deleted file mode 100644
index 237de4366c03e..0000000000000
--- a/go/parquet/pqarrow/helpers.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"github.com/apache/arrow/go/v18/arrow"
-)
-
-func releaseArrays(arrays []arrow.Array) {
-	for _, a := range arrays {
-		if a != nil {
-			a.Release()
-		}
-	}
-}
-
-func releaseArrayData(data []arrow.ArrayData) {
-	for _, d := range data {
-		if d != nil {
-			d.Release()
-		}
-	}
-}
-
-func releaseColumns(columns []arrow.Column) {
-	for _, col := range columns {
-		if col.Data() != nil { // data can be nil due to the way columns are constructed in ReadRowGroups
-			col.Release()
-		}
-	}
-}
diff --git a/go/parquet/pqarrow/path_builder.go b/go/parquet/pqarrow/path_builder.go
deleted file mode 100644
index ff439d59a6e75..0000000000000
--- a/go/parquet/pqarrow/path_builder.go
+++ /dev/null
@@ -1,751 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"fmt"
-	"sync/atomic"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/bitutils"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-	"golang.org/x/xerrors"
-)
-
-type iterResult int8
-
-const (
-	iterDone iterResult = -1
-	iterNext iterResult = 1
-)
-
-type elemRange struct {
-	start int64
-	end   int64
-}
-
-func (e elemRange) empty() bool { return e.start == e.end }
-func (e elemRange) size() int64 { return e.end - e.start }
-
-type rangeSelector interface {
-	GetRange(idx int64) elemRange
-}
-
-type varRangeSelector struct {
-	offsets []int32
-}
-
-func (v varRangeSelector) GetRange(idx int64) elemRange {
-	return elemRange{int64(v.offsets[idx]), int64(v.offsets[idx+1])}
-}
-
-type fixedSizeRangeSelector struct {
-	listSize int32
-}
-
-func (f fixedSizeRangeSelector) GetRange(idx int64) elemRange {
-	start := idx * int64(f.listSize)
-	return elemRange{start, start + int64(f.listSize)}
-}
-
-type pathNode interface {
-	clone() pathNode
-}
-
-type allPresentTerminalNode struct {
-	defLevel int16
-}
-
-func (n *allPresentTerminalNode) clone() pathNode {
-	ret := *n
-	return &ret
-}
-
-func (n *allPresentTerminalNode) run(rng elemRange, ctx *pathWriteCtx) iterResult {
-	return ctx.AppendDefLevels(int(rng.size()), n.defLevel)
-}
-
-type allNullsTerminalNode struct {
-	defLevel int16
-	repLevel int16
-}
-
-func (n *allNullsTerminalNode) clone() pathNode {
-	ret := *n
-	return &ret
-}
-
-func (n *allNullsTerminalNode) run(rng elemRange, ctx *pathWriteCtx) iterResult {
-	fillRepLevels(int(rng.size()), n.repLevel, ctx)
-	return ctx.AppendDefLevels(int(rng.size()), n.defLevel)
-}
-
-type nullableTerminalNode struct {
-	bitmap            []byte
-	elemOffset        int64
-	defLevelIfPresent int16
-	defLevelIfNull    int16
-}
-
-func (n *nullableTerminalNode) clone() pathNode {
-	ret := *n
-	return &ret
-}
-
-func (n *nullableTerminalNode) run(rng elemRange, ctx *pathWriteCtx) iterResult {
-	elems := rng.size()
-	ctx.ReserveDefLevels(int(elems))
-
-	var (
-		present = (*(*[2]byte)(unsafe.Pointer(&n.defLevelIfPresent)))[:]
-		null    = (*(*[2]byte)(unsafe.Pointer(&n.defLevelIfNull)))[:]
-	)
-	rdr := bitutils.NewBitRunReader(n.bitmap, n.elemOffset+rng.start, elems)
-	for {
-		run := rdr.NextRun()
-		if run.Len == 0 {
-			break
-		}
-		if run.Set {
-			ctx.defLevels.UnsafeWriteCopy(int(run.Len), present)
-		} else {
-			ctx.defLevels.UnsafeWriteCopy(int(run.Len), null)
-		}
-	}
-	return iterDone
-}
-
-type listNode struct {
-	selector        rangeSelector
-	prevRepLevel    int16
-	repLevel        int16
-	defLevelIfEmpty int16
-	isLast          bool
-}
-
-func (n *listNode) clone() pathNode {
-	ret := *n
-	return &ret
-}
-
-func (n *listNode) run(rng, childRng *elemRange, ctx *pathWriteCtx) iterResult {
-	if rng.empty() {
-		return iterDone
-	}
-
-	// find the first non-empty list (skipping a run of empties)
-	start := rng.start
-	for {
-		// retrieve the range of elements that this list contains
-		*childRng = n.selector.GetRange(rng.start)
-		if !childRng.empty() {
-			break
-		}
-		rng.start++
-		if rng.empty() {
-			break
-		}
-	}
-
-	// loops post-condition:
-	// * rng is either empty (we're done processing this node)
-	//     or start corresponds to a non-empty list
-	// * if rng is non-empty, childRng contains the bounds of the non-empty list
-
-	// handle any skipped over empty lists
-	emptyElems := rng.start - start
-	if emptyElems > 0 {
-		fillRepLevels(int(emptyElems), n.prevRepLevel, ctx)
-		ctx.AppendDefLevels(int(emptyElems), n.defLevelIfEmpty)
-	}
-
-	// start of a new list, note that for nested lists adding the element
-	// here effectively suppresses this code until we either encounter null
-	// elements or empty lists between here and the innermost list (since we
-	// make the rep levels repetition and definition levels unequal).
-	// similarly when we are backtracking up the stack, the repetition
-	// and definition levels are again equal so if we encounter an intermediate
-	// list, with more elements, this will detect it as a new list
-	if ctx.equalRepDeflevlsLen() && !rng.empty() {
-		ctx.AppendRepLevel(n.prevRepLevel)
-	}
-
-	if rng.empty() {
-		return iterDone
-	}
-
-	rng.start++
-	if n.isLast {
-		// if this is the last repeated node, we can try
-		// to extend the child range as wide as possible,
-		// before continuing to the next node
-		return n.fillForLast(rng, childRng, ctx)
-	}
-
-	return iterNext
-}
-
-func (n *listNode) fillForLast(rng, childRng *elemRange, ctx *pathWriteCtx) iterResult {
-	fillRepLevels(int(childRng.size()), n.repLevel, ctx)
-	// once we've reached this point the following preconditions should hold:
-	// 1. there are no more repeated path nodes to deal with
-	// 2. all elements in |range| represent contiguous elements in the child
-	//    array (null values would have shortened the range to ensure all
-	//    remaining list elements are present, though they may be empty)
-	// 3. no element of range spans a parent list (intermediate list nodes
-	//    only handle one list entry at a time)
-	//
-	// given these preconditions, it should be safe to fill runs on non-empty lists
-	// here and expand the range in the child node accordingly
-	for !rng.empty() {
-		sizeCheck := n.selector.GetRange(rng.start)
-		if sizeCheck.empty() {
-			// the empty range will need to be handled after we pass down the accumulated
-			// range because it affects def level placement and we need to get the children
-			// def levels entered first
-			break
-		}
-
-		// this is the start of a new list. we can be sure that it only applies to the
-		// previous list (and doesn't jump to the start of any list further up in nesting
-		// due to the constraints mentioned earlier)
-		ctx.AppendRepLevel(n.prevRepLevel)
-		ctx.AppendRepLevels(int(sizeCheck.size())-1, n.repLevel)
-		childRng.end = sizeCheck.end
-		rng.start++
-	}
-
-	// do book-keeping to track the elements of the arrays that are actually visited
-	// beyond this point. this is necessary to identify "gaps" in values that should
-	// not be processed (written out to parquet)
-	ctx.recordPostListVisit(*childRng)
-	return iterNext
-}
-
-type nullableNode struct {
-	bitmap         []byte
-	entryOffset    int64
-	repLevelIfNull int16
-	defLevelIfNull int16
-
-	validBitsReader bitutils.BitRunReader
-	newRange        bool
-}
-
-func (n *nullableNode) clone() pathNode {
-	var ret nullableNode = *n
-	return &ret
-}
-
-func (n *nullableNode) run(rng, childRng *elemRange, ctx *pathWriteCtx) iterResult {
-	if n.newRange {
-		n.validBitsReader = bitutils.NewBitRunReader(n.bitmap, n.entryOffset+rng.start, rng.size())
-	}
-	childRng.start = rng.start
-	run := n.validBitsReader.NextRun()
-	if !run.Set {
-		rng.start += run.Len
-		fillRepLevels(int(run.Len), n.repLevelIfNull, ctx)
-		ctx.AppendDefLevels(int(run.Len), n.defLevelIfNull)
-		run = n.validBitsReader.NextRun()
-	}
-
-	if rng.empty() {
-		n.newRange = true
-		return iterDone
-	}
-	childRng.start = rng.start
-	childRng.end = childRng.start
-	childRng.end += run.Len
-	rng.start += childRng.size()
-	n.newRange = false
-	return iterNext
-}
-
-type pathInfo struct {
-	path           []pathNode
-	primitiveArr   arrow.Array
-	maxDefLevel    int16
-	maxRepLevel    int16
-	leafIsNullable bool
-}
-
-func (p pathInfo) clone() pathInfo {
-	ret := p
-	ret.path = make([]pathNode, len(p.path))
-	for idx, n := range p.path {
-		ret.path[idx] = n.clone()
-	}
-	return ret
-}
-
-type pathBuilder struct {
-	info             pathInfo
-	paths            []pathInfo
-	nullableInParent bool
-
-	refCount *atomic.Int64
-}
-
-func (p *pathBuilder) Retain() {
-	p.refCount.Add(1)
-}
-
-func (p *pathBuilder) Release() {
-	if p.refCount.Add(-1) == 0 {
-		for idx := range p.paths {
-			p.paths[idx].primitiveArr.Release()
-			p.paths[idx].primitiveArr = nil
-		}
-	}
-}
-
-// calling NullN on the arr directly will compute the nulls
-// if we have "UnknownNullCount", calling NullN on the data
-// object directly will just return the value the data has.
-// thus we might bet array.UnknownNullCount as the result here.
-func lazyNullCount(arr arrow.Array) int64 {
-	return int64(arr.Data().NullN())
-}
-
-func lazyNoNulls(arr arrow.Array) bool {
-	nulls := lazyNullCount(arr)
-	return nulls == 0 || (nulls == array.UnknownNullCount && arr.NullBitmapBytes() == nil)
-}
-
-type fixupVisitor struct {
-	maxRepLevel    int
-	repLevelIfNull int16
-}
-
-func (f *fixupVisitor) visit(n pathNode) {
-	switch n := n.(type) {
-	case *listNode:
-		if n.repLevel == int16(f.maxRepLevel) {
-			n.isLast = true
-			f.repLevelIfNull = -1
-		} else {
-			f.repLevelIfNull = n.repLevel
-		}
-	case *nullableTerminalNode:
-	case *allPresentTerminalNode:
-	case *allNullsTerminalNode:
-		if f.repLevelIfNull != -1 {
-			n.repLevel = f.repLevelIfNull
-		}
-	case *nullableNode:
-		if f.repLevelIfNull != -1 {
-			n.repLevelIfNull = f.repLevelIfNull
-		}
-	}
-}
-
-func fixup(info pathInfo) pathInfo {
-	// we only need to fixup the path if there were repeated elems
-	if info.maxRepLevel == 0 {
-		return info
-	}
-
-	visitor := fixupVisitor{maxRepLevel: int(info.maxRepLevel)}
-	if visitor.maxRepLevel > 0 {
-		visitor.repLevelIfNull = 0
-	} else {
-		visitor.repLevelIfNull = -1
-	}
-
-	for _, p := range info.path {
-		visitor.visit(p)
-	}
-	return info
-}
-
-func (p *pathBuilder) Visit(arr arrow.Array) error {
-	switch arr.DataType().ID() {
-	case arrow.LIST, arrow.MAP:
-		p.maybeAddNullable(arr)
-		// increment necessary due to empty lists
-		p.info.maxDefLevel++
-		p.info.maxRepLevel++
-		larr, ok := arr.(*array.List)
-		if !ok {
-			larr = arr.(*array.Map).List
-		}
-
-		p.info.path = append(p.info.path, &listNode{
-			selector:        varRangeSelector{larr.Offsets()[larr.Data().Offset():]},
-			prevRepLevel:    p.info.maxRepLevel - 1,
-			repLevel:        p.info.maxRepLevel,
-			defLevelIfEmpty: p.info.maxDefLevel - 1,
-		})
-		p.nullableInParent = ok
-		return p.Visit(larr.ListValues())
-	case arrow.FIXED_SIZE_LIST:
-		p.maybeAddNullable(arr)
-		larr := arr.(*array.FixedSizeList)
-		listSize := larr.DataType().(*arrow.FixedSizeListType).Len()
-		// technically we could encode fixed sized lists with two level encodings
-		// but we always use 3 level encoding, so we increment def levels as well
-		p.info.maxDefLevel++
-		p.info.maxRepLevel++
-		p.info.path = append(p.info.path, &listNode{
-			selector:        fixedSizeRangeSelector{listSize},
-			prevRepLevel:    p.info.maxRepLevel - 1,
-			repLevel:        p.info.maxRepLevel,
-			defLevelIfEmpty: p.info.maxDefLevel,
-		})
-		// if arr.data.offset > 0, slice?
-		return p.Visit(larr.ListValues())
-	case arrow.DICTIONARY:
-		// only currently handle dictionaryarray where the dictionary
-		// is a primitive type
-		dictArr := arr.(*array.Dictionary)
-		valType := dictArr.DataType().(*arrow.DictionaryType).ValueType
-		if _, ok := valType.(arrow.NestedType); ok {
-			return fmt.Errorf("%w: writing DictionaryArray with nested dictionary type not yet supported",
-				arrow.ErrNotImplemented)
-		}
-		if dictArr.Dictionary().NullN() > 0 {
-			return fmt.Errorf("%w: writing DictionaryArray with null encoded in dictionary not yet supported",
-				arrow.ErrNotImplemented)
-		}
-		p.addTerminalInfo(arr)
-		return nil
-	case arrow.STRUCT:
-		p.maybeAddNullable(arr)
-		infoBackup := p.info
-		dt := arr.DataType().(*arrow.StructType)
-		for idx, f := range dt.Fields() {
-			p.nullableInParent = f.Nullable
-			if err := p.Visit(arr.(*array.Struct).Field(idx)); err != nil {
-				return err
-			}
-			p.info = infoBackup
-		}
-		return nil
-	case arrow.EXTENSION:
-		return p.Visit(arr.(array.ExtensionArray).Storage())
-	case arrow.SPARSE_UNION, arrow.DENSE_UNION:
-		return xerrors.New("union types aren't supported in parquet")
-	default:
-		p.addTerminalInfo(arr)
-		return nil
-	}
-}
-
-func (p *pathBuilder) addTerminalInfo(arr arrow.Array) {
-	p.info.leafIsNullable = p.nullableInParent
-	if p.nullableInParent {
-		p.info.maxDefLevel++
-	}
-
-	// we don't use null_count because if the null_count isn't known
-	// and the array does in fact contain nulls, we will end up traversing
-	// the null bitmap twice.
-	if lazyNoNulls(arr) {
-		p.info.path = append(p.info.path, &allPresentTerminalNode{p.info.maxDefLevel})
-		p.info.leafIsNullable = false
-	} else if lazyNullCount(arr) == int64(arr.Len()) {
-		p.info.path = append(p.info.path, &allNullsTerminalNode{p.info.maxDefLevel - 1, -1})
-	} else {
-		p.info.path = append(p.info.path, &nullableTerminalNode{bitmap: arr.NullBitmapBytes(), elemOffset: int64(arr.Data().Offset()), defLevelIfPresent: p.info.maxDefLevel, defLevelIfNull: p.info.maxDefLevel - 1})
-	}
-	arr.Retain()
-	p.info.primitiveArr = arr
-	p.paths = append(p.paths, fixup(p.info.clone()))
-}
-
-func (p *pathBuilder) maybeAddNullable(arr arrow.Array) {
-	if !p.nullableInParent {
-		return
-	}
-
-	p.info.maxDefLevel++
-	if lazyNoNulls(arr) {
-		return
-	}
-
-	if lazyNullCount(arr) == int64(arr.Len()) {
-		p.info.path = append(p.info.path, &allNullsTerminalNode{p.info.maxDefLevel - 1, -1})
-		return
-	}
-
-	p.info.path = append(p.info.path, &nullableNode{
-		bitmap: arr.NullBitmapBytes(), entryOffset: int64(arr.Data().Offset()),
-		defLevelIfNull: p.info.maxDefLevel - 1, repLevelIfNull: -1,
-		newRange: true,
-	})
-}
-
-type multipathLevelBuilder struct {
-	rootRange elemRange
-	data      arrow.ArrayData
-	builder   pathBuilder
-
-	refCount *atomic.Int64
-}
-
-func (m *multipathLevelBuilder) Retain() {
-	m.refCount.Add(1)
-}
-
-func (m *multipathLevelBuilder) Release() {
-	if m.refCount.Add(-1) == 0 {
-		m.data.Release()
-		m.data = nil
-		m.builder.Release()
-		m.builder = pathBuilder{}
-	}
-}
-
-func newMultipathLevelBuilder(arr arrow.Array, fieldNullable bool) (*multipathLevelBuilder, error) {
-	ret := &multipathLevelBuilder{
-		refCount:  utils.NewRefCount(1),
-		rootRange: elemRange{int64(0), int64(arr.Data().Len())},
-		data:      arr.Data(),
-		builder:   pathBuilder{nullableInParent: fieldNullable, paths: make([]pathInfo, 0), refCount: utils.NewRefCount(1)},
-	}
-	if err := ret.builder.Visit(arr); err != nil {
-		return nil, err
-	}
-	arr.Data().Retain()
-	return ret, nil
-}
-
-func (m *multipathLevelBuilder) leafCount() int {
-	return len(m.builder.paths)
-}
-
-func (m *multipathLevelBuilder) write(leafIdx int, ctx *arrowWriteContext) (multipathLevelResult, error) {
-	return writePath(m.rootRange, &m.builder.paths[leafIdx], ctx)
-}
-
-func (m *multipathLevelBuilder) writeAll(ctx *arrowWriteContext) (res []multipathLevelResult, err error) {
-	res = make([]multipathLevelResult, m.leafCount())
-	for idx := range res {
-		res[idx], err = m.write(idx, ctx)
-		if err != nil {
-			break
-		}
-	}
-	return
-}
-
-type multipathLevelResult struct {
-	leafArr         arrow.Array
-	defLevels       []int16
-	defLevelsBuffer encoding.Buffer
-	repLevels       []int16
-	repLevelsBuffer encoding.Buffer
-	// contains the element ranges of the required visiting on the descendants of the
-	// final list ancestor for any leaf node.
-	//
-	// the algorithm will attempt to consolidate the visited ranges into the smallest number
-	//
-	// this data is necessary to pass along because after producing the def-rep levels for each
-	// leaf array, it is impossible to determine which values have to be sent to parquet when a
-	// null list value in a nullable listarray is non-empty
-	//
-	// this allows for the parquet writing to determine which values ultimately need to be written
-	postListVisitedElems []elemRange
-
-	leafIsNullable bool
-}
-
-func (m *multipathLevelResult) Release() {
-	m.defLevels = nil
-	if m.defLevelsBuffer != nil {
-		m.defLevelsBuffer.Release()
-	}
-	if m.repLevels != nil {
-		m.repLevels = nil
-		m.repLevelsBuffer.Release()
-	}
-}
-
-type pathWriteCtx struct {
-	mem          memory.Allocator
-	defLevels    *int16BufferBuilder
-	repLevels    *int16BufferBuilder
-	visitedElems []elemRange
-}
-
-func (p *pathWriteCtx) ReserveDefLevels(elems int) iterResult {
-	p.defLevels.Reserve(elems)
-	return iterDone
-}
-
-func (p *pathWriteCtx) AppendDefLevel(lvl int16) iterResult {
-	p.defLevels.Append(lvl)
-	return iterDone
-}
-
-func (p *pathWriteCtx) AppendDefLevels(count int, defLevel int16) iterResult {
-	p.defLevels.AppendCopies(count, defLevel)
-	return iterDone
-}
-
-func (p *pathWriteCtx) UnsafeAppendDefLevel(v int16) iterResult {
-	p.defLevels.UnsafeAppend(v)
-	return iterDone
-}
-
-func (p *pathWriteCtx) AppendRepLevel(lvl int16) iterResult {
-	p.repLevels.Append(lvl)
-	return iterDone
-}
-
-func (p *pathWriteCtx) AppendRepLevels(count int, lvl int16) iterResult {
-	p.repLevels.AppendCopies(count, lvl)
-	return iterDone
-}
-
-func (p *pathWriteCtx) equalRepDeflevlsLen() bool { return p.defLevels.Len() == p.repLevels.Len() }
-
-func (p *pathWriteCtx) recordPostListVisit(rng elemRange) {
-	if len(p.visitedElems) > 0 && rng.start == p.visitedElems[len(p.visitedElems)-1].end {
-		p.visitedElems[len(p.visitedElems)-1].end = rng.end
-		return
-	}
-	p.visitedElems = append(p.visitedElems, rng)
-}
-
-type int16BufferBuilder struct {
-	*encoding.PooledBufferWriter
-}
-
-func (b *int16BufferBuilder) Values() []int16 {
-	return arrow.Int16Traits.CastFromBytes(b.PooledBufferWriter.Bytes())
-}
-
-func (b *int16BufferBuilder) Value(i int) int16 {
-	return b.Values()[i]
-}
-
-func (b *int16BufferBuilder) Reserve(n int) {
-	b.PooledBufferWriter.Reserve(n * arrow.Int16SizeBytes)
-}
-
-func (b *int16BufferBuilder) Len() int { return b.PooledBufferWriter.Len() / arrow.Int16SizeBytes }
-
-func (b *int16BufferBuilder) AppendCopies(count int, val int16) {
-	b.Reserve(count)
-	b.UnsafeWriteCopy(count, (*(*[2]byte)(unsafe.Pointer(&val)))[:])
-}
-
-func (b *int16BufferBuilder) UnsafeAppend(v int16) {
-	b.PooledBufferWriter.UnsafeWrite((*(*[2]byte)(unsafe.Pointer(&v)))[:])
-}
-
-func (b *int16BufferBuilder) Append(v int16) {
-	b.PooledBufferWriter.Reserve(arrow.Int16SizeBytes)
-	b.PooledBufferWriter.Write((*(*[2]byte)(unsafe.Pointer(&v)))[:])
-}
-
-func fillRepLevels(count int, repLvl int16, ctx *pathWriteCtx) {
-	if repLvl == -1 {
-		return
-	}
-
-	fillCount := count
-	// this condition occurs (rep and def levels equals), in one of a few cases:
-	// 1. before any list is encountered
-	// 2. after rep-level has been filled in due to null/empty values above
-	// 3. after finishing a list
-	if !ctx.equalRepDeflevlsLen() {
-		fillCount--
-	}
-	ctx.AppendRepLevels(fillCount, repLvl)
-}
-
-func writePath(rootRange elemRange, info *pathInfo, arrCtx *arrowWriteContext) (multipathLevelResult, error) {
-	stack := make([]elemRange, len(info.path))
-	buildResult := multipathLevelResult{
-		leafArr:        info.primitiveArr,
-		leafIsNullable: info.leafIsNullable,
-	}
-
-	if info.maxDefLevel == 0 {
-		// this case only occurs when there are no nullable or repeated columns in the path from the root to the leaf
-		leafLen := buildResult.leafArr.Len()
-		buildResult.postListVisitedElems = []elemRange{{0, int64(leafLen)}}
-		return buildResult, nil
-	}
-
-	stack[0] = rootRange
-	if arrCtx.defLevelsBuffer != nil {
-		arrCtx.defLevelsBuffer.Release()
-		arrCtx.defLevelsBuffer = nil
-	}
-	if arrCtx.repLevelsBuffer != nil {
-		arrCtx.repLevelsBuffer.Release()
-		arrCtx.repLevelsBuffer = nil
-	}
-
-	ctx := pathWriteCtx{arrCtx.props.mem,
-		&int16BufferBuilder{encoding.NewPooledBufferWriter(0)},
-		&int16BufferBuilder{encoding.NewPooledBufferWriter(0)},
-		make([]elemRange, 0)}
-
-	ctx.defLevels.Reserve(int(rootRange.size()))
-	if info.maxRepLevel > 0 {
-		ctx.repLevels.Reserve(int(rootRange.size()))
-	}
-
-	stackBase := 0
-	stackPos := stackBase
-	for stackPos >= stackBase {
-		var res iterResult
-		switch n := info.path[stackPos].(type) {
-		case *nullableNode:
-			res = n.run(&stack[stackPos], &stack[stackPos+1], &ctx)
-		case *listNode:
-			res = n.run(&stack[stackPos], &stack[stackPos+1], &ctx)
-		case *nullableTerminalNode:
-			res = n.run(stack[stackPos], &ctx)
-		case *allPresentTerminalNode:
-			res = n.run(stack[stackPos], &ctx)
-		case *allNullsTerminalNode:
-			res = n.run(stack[stackPos], &ctx)
-		}
-		stackPos += int(res)
-	}
-
-	if ctx.repLevels.Len() > 0 {
-		// this case only occurs when there was a repeated element somewhere
-		buildResult.repLevels = ctx.repLevels.Values()
-		buildResult.repLevelsBuffer = ctx.repLevels.Finish()
-
-		buildResult.postListVisitedElems, ctx.visitedElems = ctx.visitedElems, buildResult.postListVisitedElems
-		// if it is possible when processing lists that all lists were empty. in this
-		// case, no elements would have been added to the postListVisitedElements. by
-		// adding an empty element, we avoid special casing later
-		if len(buildResult.postListVisitedElems) == 0 {
-			buildResult.postListVisitedElems = append(buildResult.postListVisitedElems, elemRange{0, 0})
-		}
-	} else {
-		buildResult.postListVisitedElems = append(buildResult.postListVisitedElems, elemRange{0, int64(buildResult.leafArr.Len())})
-		buildResult.repLevels = nil
-	}
-
-	buildResult.defLevels = ctx.defLevels.Values()
-	buildResult.defLevelsBuffer = ctx.defLevels.Finish()
-	return buildResult, nil
-}
diff --git a/go/parquet/pqarrow/path_builder_test.go b/go/parquet/pqarrow/path_builder_test.go
deleted file mode 100644
index 364f836d0bbca..0000000000000
--- a/go/parquet/pqarrow/path_builder_test.go
+++ /dev/null
@@ -1,676 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"context"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/google/uuid"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestNonNullableSingleList(t *testing.T) {
-	// translates to the following parquet schema:
-	// required group bag {
-	//   repeated group [unseen] (List) {
-	//		 required int64 Entires;
-	//	 }
-	// }
-	// So:
-	// def level 0: a null entry
-	// def level 1: a non-null entry
-	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int64Builder)
-
-	bldr.Append(true)
-	vb.Append(1)
-
-	bldr.Append(true)
-	vb.Append(2)
-	vb.Append(3)
-
-	bldr.Append(true)
-	vb.Append(4)
-	vb.Append(5)
-	vb.Append(6)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, false)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{2, 2, 2, 2, 2, 2}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 1, 0, 1, 1}, result.repLevels)
-	assert.Len(t, result.postListVisitedElems, 1)
-	assert.EqualValues(t, 0, result.postListVisitedElems[0].start)
-	assert.EqualValues(t, 6, result.postListVisitedElems[0].end)
-}
-
-// next group of tests translates to the following parquet schema:
-// optional group bag {
-//   repeated group [unseen] (List) {
-//		 optional int64 Entires;
-//	 }
-// }
-// So:
-// def level 0: a null list
-// def level 1: an empty list
-// def level 2: a null entry
-// def level 3: a non-null entry
-
-func TestNullableSingleListAllNulls(t *testing.T) {
-	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	bldr.AppendNull()
-	bldr.AppendNull()
-	bldr.AppendNull()
-	bldr.AppendNull()
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{0, 0, 0, 0}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 0, 0}, result.repLevels)
-}
-
-func TestNullableSingleListAllEmpty(t *testing.T) {
-	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	bldr.Append(true)
-	bldr.Append(true)
-	bldr.Append(true)
-	bldr.Append(true)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{1, 1, 1, 1}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 0, 0}, result.repLevels)
-}
-
-func TestNullableSingleListAllNullEntries(t *testing.T) {
-	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int64Builder)
-
-	bldr.Append(true)
-	vb.AppendNull()
-	bldr.Append(true)
-	vb.AppendNull()
-	bldr.Append(true)
-	vb.AppendNull()
-	bldr.Append(true)
-	vb.AppendNull()
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{2, 2, 2, 2}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 0, 0}, result.repLevels)
-	assert.Len(t, result.postListVisitedElems, 1)
-	assert.EqualValues(t, 0, result.postListVisitedElems[0].start)
-	assert.EqualValues(t, 4, result.postListVisitedElems[0].end)
-}
-
-func TestNullableSingleListAllPresentEntries(t *testing.T) {
-	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int64Builder)
-
-	bldr.Append(true)
-	bldr.Append(true)
-	bldr.Append(true)
-	vb.Append(1)
-	bldr.Append(true)
-	bldr.Append(true)
-	vb.Append(2)
-	vb.Append(3)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{1, 1, 3, 1, 3, 3}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 0, 0, 0, 1}, result.repLevels)
-	assert.Len(t, result.postListVisitedElems, 1)
-	assert.EqualValues(t, 0, result.postListVisitedElems[0].start)
-	assert.EqualValues(t, 3, result.postListVisitedElems[0].end)
-}
-
-func TestNullableSingleListSomeNullEntriesSomeNullLists(t *testing.T) {
-	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int64Builder)
-
-	bldr.Append(false)
-	bldr.Append(true)
-	vb.AppendValues([]int64{1, 2, 3}, nil)
-	bldr.Append(true)
-	bldr.Append(true)
-	bldr.AppendNull()
-	bldr.AppendNull()
-	bldr.Append(true)
-	vb.AppendValues([]int64{4, 5}, nil)
-	bldr.Append(true)
-	vb.AppendNull()
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{0, 3, 3, 3, 1, 1, 0, 0, 3, 3, 2}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0}, result.repLevels)
-}
-
-// next group of tests translate to the following parquet schema:
-//
-// optional group bag {
-//   repeated group outer_list (List) {
-//     optional group nullable {
-//       repeated group inner_list (List) {
-//         optional int64 Entries;
-//       }
-//     }
-//   }
-// }
-// So:
-// def level 0: null outer list
-// def level 1: empty outer list
-// def level 2: null inner list
-// def level 3: empty inner list
-// def level 4: null entry
-// def level 5: non-null entry
-
-func TestNestedListsWithSomeEntries(t *testing.T) {
-	listType := arrow.ListOf(arrow.PrimitiveTypes.Int64)
-	bldr := array.NewListBuilder(memory.DefaultAllocator, listType)
-	defer bldr.Release()
-
-	nestedBldr := bldr.ValueBuilder().(*array.ListBuilder)
-	vb := nestedBldr.ValueBuilder().(*array.Int64Builder)
-
-	// produce: [null, [[1, 2, 3], [4, 5]], [[], [], []], []]
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{1, 2, 3}, nil)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{4, 5}, nil)
-
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	nestedBldr.Append(true)
-	nestedBldr.Append(true)
-	bldr.Append(true)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{0, 5, 5, 5, 5, 5, 3, 3, 3, 1}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 2, 2, 1, 2, 0, 1, 1, 0}, result.repLevels)
-}
-
-func TestNestedListsWithSomeNulls(t *testing.T) {
-	listType := arrow.ListOf(arrow.PrimitiveTypes.Int64)
-	bldr := array.NewListBuilder(memory.DefaultAllocator, listType)
-	defer bldr.Release()
-
-	nestedBldr := bldr.ValueBuilder().(*array.ListBuilder)
-	vb := nestedBldr.ValueBuilder().(*array.Int64Builder)
-
-	// produce: [null, [[1, null, 3], null, null], [[4, 5]]]
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{1, 0, 3}, []bool{true, false, true})
-	nestedBldr.AppendNull()
-	nestedBldr.AppendNull()
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{4, 5}, nil)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{0, 5, 4, 5, 2, 2, 5, 5}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 2, 2, 1, 1, 0, 2}, result.repLevels)
-}
-
-func TestNestedListsSomeNullsSomeEmpty(t *testing.T) {
-	listType := arrow.ListOf(arrow.PrimitiveTypes.Int64)
-	bldr := array.NewListBuilder(memory.DefaultAllocator, listType)
-	defer bldr.Release()
-
-	nestedBldr := bldr.ValueBuilder().(*array.ListBuilder)
-	vb := nestedBldr.ValueBuilder().(*array.Int64Builder)
-
-	// produce: [null, [[1, null, 3], [], []], [[4, 5]]]
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{1, 0, 3}, []bool{true, false, true})
-	nestedBldr.Append(true)
-	nestedBldr.Append(true)
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{4, 5}, nil)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{0, 5, 4, 5, 3, 3, 5, 5}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 2, 2, 1, 1, 0, 2}, result.repLevels)
-}
-
-func TestNestedExtensionListsWithSomeNulls(t *testing.T) {
-	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
-	defer mem.AssertSize(t, 0)
-
-	listType := arrow.ListOf(extensions.NewUUIDType())
-	bldr := array.NewListBuilder(mem, listType)
-	defer bldr.Release()
-
-	nestedBldr := bldr.ValueBuilder().(*array.ListBuilder)
-	vb := nestedBldr.ValueBuilder().(*extensions.UUIDBuilder)
-
-	uuid1 := uuid.New()
-	uuid3 := uuid.New()
-	uuid4 := uuid.New()
-	uuid5 := uuid.New()
-
-	// produce: [null, [[uuid1, null, uuid3], null, null], [[uuid4, uuid5]]]
-
-	bldr.AppendNull()
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.Append(uuid1)
-	vb.AppendNull()
-	vb.Append(uuid3)
-	nestedBldr.AppendNull()
-	nestedBldr.AppendNull()
-	bldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]uuid.UUID{uuid4, uuid5}, nil)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{0, 5, 4, 5, 2, 2, 5, 5}, result.defLevels)
-	assert.Equal(t, []int16{0, 0, 2, 2, 1, 1, 0, 2}, result.repLevels)
-	assert.Equal(t, result.leafArr.NullN(), 1)
-}
-
-// triplenested translates to parquet:
-//
-// optional group bag {
-//   repeated group outer_list (List) {
-//     option group nullable {
-//       repeated group middle_list (List) {
-//         option group nullable {
-//           repeated group inner_list (List) {
-//              optional int64 Entries;
-//           }
-//         }
-//       }
-//     }
-//   }
-// }
-// So:
-// def level 0: a outer list
-// def level 1: an empty outer list
-// def level 2: a null middle list
-// def level 3: an empty middle list
-// def level 4: an null inner list
-// def level 5: an empty inner list
-// def level 6: a null entry
-// def level 7: a non-null entry
-
-func TestTripleNestedAllPresent(t *testing.T) {
-	listType := arrow.ListOf(arrow.PrimitiveTypes.Int64)
-	nestedListType := arrow.ListOf(listType)
-	bldr := array.NewListBuilder(memory.DefaultAllocator, nestedListType)
-	defer bldr.Release()
-
-	dblNestedBldr := bldr.ValueBuilder().(*array.ListBuilder)
-	nestedBldr := dblNestedBldr.ValueBuilder().(*array.ListBuilder)
-	vb := nestedBldr.ValueBuilder().(*array.Int64Builder)
-
-	// produce: [ [[[1, 2, 3], [4, 5, 6]], [[7, 8, 9]]] ]
-	bldr.Append(true)
-	dblNestedBldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{1, 2, 3}, nil)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{4, 5, 6}, nil)
-
-	dblNestedBldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{7, 8, 9}, nil)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{7, 7, 7, 7, 7, 7, 7, 7, 7}, result.defLevels)
-	assert.Equal(t, []int16{0, 3, 3, 2, 3, 3, 1, 3, 3}, result.repLevels)
-}
-
-func TestTripleNestedSomeNullsSomeEmpty(t *testing.T) {
-	listType := arrow.ListOf(arrow.PrimitiveTypes.Int64)
-	nestedListType := arrow.ListOf(listType)
-	bldr := array.NewListBuilder(memory.DefaultAllocator, nestedListType)
-	defer bldr.Release()
-
-	dblNestedBldr := bldr.ValueBuilder().(*array.ListBuilder)
-	nestedBldr := dblNestedBldr.ValueBuilder().(*array.ListBuilder)
-	vb := nestedBldr.ValueBuilder().(*array.Int64Builder)
-
-	// produce: [
-	//	  [null, [[1, null, 3], []], []],     first row
-	//    [[[]], [[], [1, 2]], null, [[3]]],  second row
-	//    null,                               third row
-	//    []                                  fourth row
-	//  ]
-
-	// first row
-	bldr.Append(true)
-	dblNestedBldr.AppendNull()
-	dblNestedBldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{1, 0, 3}, []bool{true, false, true})
-	nestedBldr.Append(true)
-	dblNestedBldr.Append(true)
-
-	// second row
-	bldr.Append(true)
-	dblNestedBldr.Append(true)
-	nestedBldr.Append(true)
-	dblNestedBldr.Append(true)
-	nestedBldr.Append(true)
-	nestedBldr.Append(true)
-	vb.AppendValues([]int64{1, 2}, nil)
-	dblNestedBldr.AppendNull()
-	dblNestedBldr.Append(true)
-	nestedBldr.Append(true)
-	vb.Append(3)
-
-	// third row
-	bldr.AppendNull()
-
-	// fourth row
-	bldr.Append(true)
-
-	arr := bldr.NewListArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Equal(t, []int16{
-		2, 7, 6, 7, 5, 3, // first row
-		5, 5, 7, 7, 2, 7, // second row
-		0, // third row
-		1,
-	}, result.defLevels)
-	assert.Equal(t, []int16{
-		0, 1, 3, 3, 2, 1, // first row
-		0, 1, 2, 3, 1, 1, // second row
-		0, 0,
-	}, result.repLevels)
-}
-
-func TestStruct(t *testing.T) {
-	structType := arrow.StructOf(arrow.Field{Name: "list", Type: arrow.ListOf(arrow.PrimitiveTypes.Int64), Nullable: true},
-		arrow.Field{Name: "Entries", Type: arrow.PrimitiveTypes.Int64, Nullable: true})
-
-	bldr := array.NewStructBuilder(memory.DefaultAllocator, structType)
-	defer bldr.Release()
-
-	entryBldr := bldr.FieldBuilder(1).(*array.Int64Builder)
-	listBldr := bldr.FieldBuilder(0).(*array.ListBuilder)
-	vb := listBldr.ValueBuilder().(*array.Int64Builder)
-
-	// produce: [ {"Entries": 1, "list": [2, 3]}, {"Entries": 4, "list": [5, 6]}, null]
-
-	bldr.Append(true)
-	entryBldr.Append(1)
-	listBldr.Append(true)
-	vb.AppendValues([]int64{2, 3}, nil)
-
-	bldr.Append(true)
-	entryBldr.Append(4)
-	listBldr.Append(true)
-	vb.AppendValues([]int64{5, 6}, nil)
-
-	bldr.AppendNull()
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.writeAll(ctx)
-	require.NoError(t, err)
-
-	assert.Len(t, result, 2)
-	assert.Equal(t, []int16{4, 4, 4, 4, 0}, result[0].defLevels)
-	assert.Equal(t, []int16{0, 1, 0, 1, 0}, result[0].repLevels)
-
-	assert.Equal(t, []int16{2, 2, 0}, result[1].defLevels)
-	assert.Nil(t, result[1].repLevels)
-}
-
-func TestFixedSizeListNullableElems(t *testing.T) {
-	bldr := array.NewFixedSizeListBuilder(memory.DefaultAllocator, 2, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int64Builder)
-	bldr.AppendValues([]bool{false, true, true, false})
-	vb.AppendValues([]int64{2, 3, 4, 5}, nil)
-
-	// produce: [null, [2, 3], [4, 5], null]
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.writeAll(ctx)
-	require.NoError(t, err)
-
-	assert.Len(t, result, 1)
-	assert.Equal(t, []int16{0, 3, 3, 3, 3, 0}, result[0].defLevels)
-	assert.Equal(t, []int16{0, 0, 1, 0, 1, 0}, result[0].repLevels)
-
-	// null slots take up space in a fixed size list (they can in variable
-	// size lists as well) but the actual written values are only the middle
-	// elements
-	assert.Len(t, result[0].postListVisitedElems, 1)
-	assert.EqualValues(t, 2, result[0].postListVisitedElems[0].start)
-	assert.EqualValues(t, 6, result[0].postListVisitedElems[0].end)
-}
-
-func TestFixedSizeListMissingMiddleTwoVisitedRanges(t *testing.T) {
-	bldr := array.NewFixedSizeListBuilder(memory.DefaultAllocator, 2, arrow.PrimitiveTypes.Int64)
-	defer bldr.Release()
-
-	vb := bldr.ValueBuilder().(*array.Int64Builder)
-	bldr.AppendValues([]bool{true, false, true})
-	vb.AppendValues([]int64{0, 1, 2, 3}, nil)
-
-	// produce: [[0, 1], null, [2, 3]]
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, true)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.writeAll(ctx)
-	require.NoError(t, err)
-
-	assert.Len(t, result, 1)
-	assert.Equal(t, []int16{3, 3, 0, 3, 3}, result[0].defLevels)
-	assert.Equal(t, []int16{0, 1, 0, 0, 1}, result[0].repLevels)
-
-	// null slots take up space in a fixed size list (they can in variable
-	// size lists as well) but the actual written values are only the middle
-	// elements
-	assert.Len(t, result[0].postListVisitedElems, 2)
-	assert.EqualValues(t, 0, result[0].postListVisitedElems[0].start)
-	assert.EqualValues(t, 2, result[0].postListVisitedElems[0].end)
-
-	assert.EqualValues(t, 4, result[0].postListVisitedElems[1].start)
-	assert.EqualValues(t, 6, result[0].postListVisitedElems[1].end)
-}
-
-func TestPrimitiveNonNullable(t *testing.T) {
-	bldr := array.NewInt64Builder(memory.DefaultAllocator)
-	defer bldr.Release()
-
-	bldr.AppendValues([]int64{1, 2, 3, 4}, nil)
-
-	arr := bldr.NewArray()
-	defer arr.Release()
-
-	mp, err := newMultipathLevelBuilder(arr, false)
-	require.NoError(t, err)
-	defer mp.Release()
-
-	ctx := arrowCtxFromContext(NewArrowWriteContext(context.Background(), nil))
-	result, err := mp.write(0, ctx)
-	require.NoError(t, err)
-
-	assert.Nil(t, result.defLevels)
-	assert.Nil(t, result.repLevels)
-
-	assert.Len(t, result.postListVisitedElems, 1)
-	assert.EqualValues(t, 0, result.postListVisitedElems[0].start)
-	assert.EqualValues(t, 4, result.postListVisitedElems[0].end)
-}
diff --git a/go/parquet/pqarrow/properties.go b/go/parquet/pqarrow/properties.go
deleted file mode 100755
index 25a299c86f5f5..0000000000000
--- a/go/parquet/pqarrow/properties.go
+++ /dev/null
@@ -1,193 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"context"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet/internal/encoding"
-)
-
-// ArrowWriterProperties are used to determine how to manipulate the arrow data
-// when writing it to a parquet file.
-type ArrowWriterProperties struct {
-	mem                      memory.Allocator
-	timestampAsInt96         bool
-	coerceTimestamps         bool
-	coerceTimestampUnit      arrow.TimeUnit
-	allowTruncatedTimestamps bool
-	storeSchema              bool
-	noMapLogicalType         bool
-	// compliantNestedTypes     bool
-}
-
-// DefaultWriterProps returns the default properties for the arrow writer,
-// which are to use memory.DefaultAllocator and coerceTimestampUnit: arrow.Second.
-func DefaultWriterProps() ArrowWriterProperties {
-	return ArrowWriterProperties{
-		mem:                 memory.DefaultAllocator,
-		coerceTimestampUnit: arrow.Second,
-	}
-}
-
-type config struct {
-	props ArrowWriterProperties
-}
-
-// WriterOption is a convenience for building up arrow writer properties
-type WriterOption func(*config)
-
-// NewArrowWriterProperties creates a new writer properties object by passing in
-// a set of options to control the properties. Once created, an individual instance
-// of ArrowWriterProperties is immutable.
-func NewArrowWriterProperties(opts ...WriterOption) ArrowWriterProperties {
-	cfg := config{DefaultWriterProps()}
-	for _, o := range opts {
-		o(&cfg)
-	}
-	return cfg.props
-}
-
-// WithAllocator specifies the allocator to be used by the writer whenever allocating
-// buffers and memory.
-func WithAllocator(mem memory.Allocator) WriterOption {
-	return func(c *config) {
-		c.props.mem = mem
-	}
-}
-
-// WithDeprecatedInt96Timestamps allows specifying to enable conversion of arrow timestamps
-// to int96 columns when constructing the schema. Since int96 is the impala standard, it's
-// technically deprecated in terms of parquet files but is sometimes needed.
-func WithDeprecatedInt96Timestamps(enabled bool) WriterOption {
-	return func(c *config) {
-		c.props.timestampAsInt96 = enabled
-	}
-}
-
-// WithCoerceTimestamps enables coercing of timestamp units to a specific time unit
-// when constructing the schema and writing data so that regardless of the unit used
-// by the datatypes being written, they will be converted to the desired time unit.
-func WithCoerceTimestamps(unit arrow.TimeUnit) WriterOption {
-	return func(c *config) {
-		c.props.coerceTimestamps = true
-		c.props.coerceTimestampUnit = unit
-	}
-}
-
-// WithTruncatedTimestamps called with true turns off the error that would be returned
-// if coercing a timestamp unit would cause a loss of data such as converting from
-// nanoseconds to seconds.
-func WithTruncatedTimestamps(allow bool) WriterOption {
-	return func(c *config) {
-		c.props.allowTruncatedTimestamps = allow
-	}
-}
-
-// WithStoreSchema enables writing a binary serialized arrow schema to the file in metadata
-// to enable certain read options (like "read_dictionary") to be set automatically
-//
-// If called, the arrow schema is serialized and base64 encoded before being added to the
-// metadata of the parquet file with the key "ARROW:schema". If the key exists when
-// opening a file for read with pqarrow.FileReader, the schema will be used to choose
-// types and options when constructing the arrow schema of the resulting data.
-func WithStoreSchema() WriterOption {
-	return func(c *config) {
-		c.props.storeSchema = true
-	}
-}
-
-func WithNoMapLogicalType() WriterOption {
-	return func(c *config) {
-		c.props.noMapLogicalType = true
-	}
-}
-
-// func WithCompliantNestedTypes(enabled bool) WriterOption {
-// 	return func(c *config) {
-// 		c.props.compliantNestedTypes = enabled
-// 	}
-// }
-
-type arrowWriteContext struct {
-	props           ArrowWriterProperties
-	dataBuffer      *memory.Buffer
-	defLevelsBuffer encoding.Buffer
-	repLevelsBuffer encoding.Buffer
-}
-
-type arrowCtxKey struct{}
-
-// NewArrowWriteContext is for creating a re-usable context object that contains writer properties
-// and other re-usable buffers for writing. The resulting context should not be used to write
-// multiple columns concurrently. If nil is passed, then DefaultWriterProps will be used.
-func NewArrowWriteContext(ctx context.Context, props *ArrowWriterProperties) context.Context {
-	if props == nil {
-		p := DefaultWriterProps()
-		props = &p
-	}
-	return context.WithValue(ctx, arrowCtxKey{}, &arrowWriteContext{props: *props})
-}
-
-func arrowCtxFromContext(ctx context.Context) *arrowWriteContext {
-	awc := ctx.Value(arrowCtxKey{})
-	if awc != nil {
-		return awc.(*arrowWriteContext)
-	}
-
-	return &arrowWriteContext{
-		props: DefaultWriterProps(),
-	}
-}
-
-// ArrowReadProperties is the properties to define how to read a parquet file
-// into arrow arrays.
-type ArrowReadProperties struct {
-	// If Parallel is true, then functions which read multiple columns will read
-	// those columns in parallel from the file with a number of readers equal
-	// to the number of columns. Otherwise columns are read serially.
-	Parallel bool
-	// BatchSize is the size used for calls to NextBatch when reading whole columns
-	BatchSize int64
-
-	readDictIndices map[int]struct{}
-}
-
-// SetReadDict determines whether to read a particular column as dictionary
-// encoded or not.
-func (props *ArrowReadProperties) SetReadDict(colIdx int, readDict bool) {
-	if props.readDictIndices == nil {
-		props.readDictIndices = make(map[int]struct{})
-	}
-
-	if readDict {
-		props.readDictIndices[colIdx] = struct{}{}
-	} else {
-		delete(props.readDictIndices, colIdx)
-	}
-}
-
-func (props *ArrowReadProperties) ReadDict(colIdx int) bool {
-	if props.readDictIndices == nil {
-		return false
-	}
-
-	_, ok := props.readDictIndices[colIdx]
-	return ok
-}
diff --git a/go/parquet/pqarrow/reader_writer_test.go b/go/parquet/pqarrow/reader_writer_test.go
deleted file mode 100644
index e020c7d9457a9..0000000000000
--- a/go/parquet/pqarrow/reader_writer_test.go
+++ /dev/null
@@ -1,388 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow_test
-
-import (
-	"bytes"
-	"context"
-	"fmt"
-	"math"
-	"testing"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/array"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/stretchr/testify/require"
-	"golang.org/x/exp/rand"
-	"gonum.org/v1/gonum/stat/distuv"
-)
-
-const alternateOrNA = -1
-const SIZELEN = 1024 * 1024
-
-func randomUint8(size, truePct int, sampleVals [2]uint8, seed uint64) []uint8 {
-	ret := make([]uint8, size)
-	if truePct == alternateOrNA {
-		for idx := range ret {
-			ret[idx] = uint8(idx % 2)
-		}
-		return ret
-	}
-
-	dist := distuv.Bernoulli{
-		P:   float64(truePct) / 100.0,
-		Src: rand.NewSource(seed),
-	}
-
-	for idx := range ret {
-		ret[idx] = sampleVals[int(dist.Rand())]
-	}
-	return ret
-}
-
-func randomInt32(size, truePct int, sampleVals [2]int32, seed uint64) []int32 {
-	ret := make([]int32, size)
-	if truePct == alternateOrNA {
-		for idx := range ret {
-			ret[idx] = int32(idx % 2)
-		}
-		return ret
-	}
-
-	dist := distuv.Bernoulli{
-		P:   float64(truePct) / 100.0,
-		Src: rand.NewSource(seed),
-	}
-
-	for idx := range ret {
-		ret[idx] = sampleVals[int(dist.Rand())]
-	}
-	return ret
-}
-
-func tableFromVec(dt arrow.DataType, size int, data interface{}, nullable bool, nullPct int) arrow.Table {
-	if !nullable && nullPct != alternateOrNA {
-		panic("bad check")
-	}
-
-	var valid []bool
-	if nullable {
-		// true values select index 1 of sample values
-		validBytes := randomUint8(size, nullPct, [2]uint8{1, 0}, 500)
-		valid = *(*[]bool)(unsafe.Pointer(&validBytes))
-	}
-
-	bldr := array.NewBuilder(memory.DefaultAllocator, dt)
-	defer bldr.Release()
-
-	switch v := data.(type) {
-	case []int32:
-		bldr.(*array.Int32Builder).AppendValues(v, valid)
-	case []int64:
-		bldr.(*array.Int64Builder).AppendValues(v, valid)
-	case []float32:
-		bldr.(*array.Float32Builder).AppendValues(v, valid)
-	case []float64:
-		bldr.(*array.Float64Builder).AppendValues(v, valid)
-	}
-
-	arr := bldr.NewArray()
-
-	field := arrow.Field{Name: "column", Type: dt, Nullable: nullable}
-	sc := arrow.NewSchema([]arrow.Field{field}, nil)
-	col := arrow.NewColumnFromArr(field, arr)
-	defer col.Release()
-	return array.NewTable(sc, []arrow.Column{col}, int64(size))
-}
-
-func BenchmarkWriteColumn(b *testing.B) {
-	int32Values := make([]int32, SIZELEN)
-	int64Values := make([]int64, SIZELEN)
-	float32Values := make([]float32, SIZELEN)
-	float64Values := make([]float64, SIZELEN)
-	for i := 0; i < SIZELEN; i++ {
-		int32Values[i] = 128
-		int64Values[i] = 128
-		float32Values[i] = 128
-		float64Values[i] = 128
-	}
-
-	tests := []struct {
-		name     string
-		dt       arrow.DataType
-		values   interface{}
-		nullable bool
-		nbytes   int64
-	}{
-		{"int32 not nullable", arrow.PrimitiveTypes.Int32, int32Values, false, int64(arrow.Int32Traits.BytesRequired(SIZELEN))},
-		{"int32 nullable", arrow.PrimitiveTypes.Int32, int32Values, true, int64(arrow.Int32Traits.BytesRequired(SIZELEN))},
-		{"int64 not nullable", arrow.PrimitiveTypes.Int64, int64Values, false, int64(arrow.Int64Traits.BytesRequired(SIZELEN))},
-		{"int64 nullable", arrow.PrimitiveTypes.Int64, int64Values, true, int64(arrow.Int64Traits.BytesRequired(SIZELEN))},
-		{"float32 not nullable", arrow.PrimitiveTypes.Float32, float32Values, false, int64(arrow.Float32Traits.BytesRequired(SIZELEN))},
-		{"float32 nullable", arrow.PrimitiveTypes.Float32, float32Values, true, int64(arrow.Float32Traits.BytesRequired(SIZELEN))},
-		{"float64 not nullable", arrow.PrimitiveTypes.Float64, float64Values, false, int64(arrow.Float64Traits.BytesRequired(SIZELEN))},
-		{"float64 nullable", arrow.PrimitiveTypes.Float64, float64Values, true, int64(arrow.Float64Traits.BytesRequired(SIZELEN))},
-	}
-
-	props := parquet.NewWriterProperties(parquet.WithDictionaryDefault(false))
-	arrProps := pqarrow.DefaultWriterProps()
-
-	for _, tt := range tests {
-		b.Run(tt.name, func(b *testing.B) {
-			tbl := tableFromVec(tt.dt, SIZELEN, tt.values, tt.nullable, alternateOrNA)
-			b.Cleanup(func() { tbl.Release() })
-			var buf bytes.Buffer
-			buf.Grow(int(tt.nbytes))
-			b.ResetTimer()
-			b.SetBytes(tt.nbytes)
-
-			for i := 0; i < b.N; i++ {
-				buf.Reset()
-				err := pqarrow.WriteTable(tbl, &buf, SIZELEN, props, arrProps)
-				if err != nil {
-					b.Error(err)
-				}
-			}
-		})
-	}
-}
-
-func benchReadTable(b *testing.B, name string, tbl arrow.Table, nbytes int64) {
-	props := parquet.NewWriterProperties(parquet.WithDictionaryDefault(false))
-	arrProps := pqarrow.DefaultWriterProps()
-
-	var buf bytes.Buffer
-	if err := pqarrow.WriteTable(tbl, &buf, SIZELEN, props, arrProps); err != nil {
-		b.Error(err)
-	}
-	ctx := context.Background()
-
-	b.ResetTimer()
-	b.Run(name, func(b *testing.B) {
-		b.SetBytes(nbytes)
-
-		for i := 0; i < b.N; i++ {
-			pf, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
-			if err != nil {
-				b.Error(err)
-			}
-
-			reader, err := pqarrow.NewFileReader(pf, pqarrow.ArrowReadProperties{}, memory.DefaultAllocator)
-			if err != nil {
-				b.Error(err)
-			}
-
-			tbl, err := reader.ReadTable(ctx)
-			if err != nil {
-				b.Error(err)
-			}
-			defer tbl.Release()
-		}
-	})
-}
-
-func BenchmarkReadColumnInt32(b *testing.B) {
-	tests := []struct {
-		name     string
-		nullable bool
-		nullPct  int
-		fvPct    int
-	}{
-		{"int32 not null 1pct", false, alternateOrNA, 1},
-		{"int32 not null 10pct", false, alternateOrNA, 10},
-		{"int32 not null 50pct", false, alternateOrNA, 50},
-		{"int32 nullable alt", true, alternateOrNA, 0},
-		{"int32 nullable 1pct 1pct", true, 1, 1},
-		{"int32 nullable 10pct 10pct", true, 10, 10},
-		{"int32 nullable 25pct 5pct", true, 25, 5},
-		{"int32 nullable 50pct 50pct", true, 50, 50},
-		{"int32 nullable 50pct 0pct", true, 50, 0},
-		{"int32 nullable 99pct 50pct", true, 99, 50},
-		{"int32 nullable 99pct 0pct", true, 99, 0},
-	}
-
-	for _, tt := range tests {
-		values := randomInt32(SIZELEN, tt.fvPct, [2]int32{127, 128}, 500)
-		tbl := tableFromVec(arrow.PrimitiveTypes.Int32, SIZELEN, values, tt.nullable, tt.nullPct)
-		benchReadTable(b, tt.name, tbl, int64(arrow.Int32Traits.BytesRequired(SIZELEN)))
-	}
-}
-
-func BenchmarkReadColumnInt64(b *testing.B) {
-	tests := []struct {
-		name     string
-		nullable bool
-		nullPct  int
-		fvPct    int
-	}{
-		{"int64 not null 1pct", false, alternateOrNA, 1},
-		{"int64 not null 10pct", false, alternateOrNA, 10},
-		{"int64 not null 50pct", false, alternateOrNA, 50},
-		{"int64 nullable alt", true, alternateOrNA, 0},
-		{"int64 nullable 1pct 1pct", true, 1, 1},
-		{"int64 nullable 5pct 5pct", true, 5, 5},
-		{"int64 nullable 10pct 5pct", true, 10, 5},
-		{"int64 nullable 25pct 10pct", true, 25, 10},
-		{"int64 nullable 30pct 10pct", true, 30, 10},
-		{"int64 nullable 35pct 10pct", true, 35, 10},
-		{"int64 nullable 45pct 25pct", true, 45, 25},
-		{"int64 nullable 50pct 50pct", true, 50, 50},
-		{"int64 nullable 50pct 1pct", true, 50, 1},
-		{"int64 nullable 75pct 1pct", true, 75, 1},
-		{"int64 nullable 99pct 50pct", true, 99, 50},
-		{"int64 nullable 99pct 0pct", true, 99, 0},
-	}
-
-	for _, tt := range tests {
-		values := randomInt32(SIZELEN, tt.fvPct, [2]int32{127, 128}, 500)
-		tbl := tableFromVec(arrow.PrimitiveTypes.Int32, SIZELEN, values, tt.nullable, tt.nullPct)
-		benchReadTable(b, tt.name, tbl, int64(arrow.Int32Traits.BytesRequired(SIZELEN)))
-	}
-}
-
-func BenchmarkReadColumnFloat64(b *testing.B) {
-	tests := []struct {
-		name     string
-		nullable bool
-		nullPct  int
-		fvPct    int
-	}{
-		{"double not null 1pct", false, alternateOrNA, 0},
-		{"double not null 20pct", false, alternateOrNA, 20},
-		{"double nullable alt", true, alternateOrNA, 0},
-		{"double nullable 10pct 50pct", true, 10, 50},
-		{"double nullable 25pct 25pct", true, 25, 25},
-	}
-
-	for _, tt := range tests {
-		values := randomInt32(SIZELEN, tt.fvPct, [2]int32{127, 128}, 500)
-		tbl := tableFromVec(arrow.PrimitiveTypes.Int32, SIZELEN, values, tt.nullable, tt.nullPct)
-		benchReadTable(b, tt.name, tbl, int64(arrow.Int32Traits.BytesRequired(SIZELEN)))
-	}
-}
-
-var compressTestCases = []struct {
-	c compress.Compression
-}{
-	{compress.Codecs.Uncompressed},
-	{compress.Codecs.Snappy},
-	{compress.Codecs.Gzip},
-	{compress.Codecs.Brotli},
-	{compress.Codecs.Zstd},
-	{compress.Codecs.Lz4Raw},
-	// {compress.Codecs.Lzo},
-}
-
-func buildTableForTest(mem memory.Allocator) arrow.Table {
-	schema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "int64s", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "strings", Type: arrow.BinaryTypes.String},
-			{Name: "bools", Type: arrow.FixedWidthTypes.Boolean},
-			{Name: "repeated_int64s", Type: arrow.PrimitiveTypes.Int64},
-			{Name: "repeated_strings", Type: arrow.BinaryTypes.String},
-			{Name: "repeated_bools", Type: arrow.FixedWidthTypes.Boolean},
-		},
-		nil,
-	)
-	bldr := array.NewRecordBuilder(mem, schema)
-	defer bldr.Release()
-
-	for i := 0; i < SIZELEN; i++ {
-		bldr.Field(0).(*array.Int64Builder).Append(int64(i))
-		bldr.Field(1).(*array.StringBuilder).Append(fmt.Sprint(i))
-		bldr.Field(2).(*array.BooleanBuilder).Append(i%2 == 0)
-		bldr.Field(3).(*array.Int64Builder).Append(0)
-		bldr.Field(4).(*array.StringBuilder).Append("the string is the same")
-		bldr.Field(5).(*array.BooleanBuilder).Append(true)
-	}
-
-	rec := bldr.NewRecord()
-	return array.NewTableFromRecords(schema, []arrow.Record{rec})
-}
-
-func BenchmarkWriteTableCompressed(b *testing.B) {
-	mem := memory.DefaultAllocator
-	table := buildTableForTest(mem)
-	defer table.Release()
-
-	var uncompressedSize uint64
-	for idxCol := 0; int64(idxCol) < table.NumCols(); idxCol++ {
-		column := table.Column(idxCol)
-		for _, chunk := range column.Data().Chunks() {
-			uncompressedSize += chunk.Data().SizeInBytes()
-		}
-	}
-
-	var buf bytes.Buffer
-	buf.Grow(int(uncompressedSize))
-	for _, tc := range compressTestCases {
-		b.Run(fmt.Sprintf("codec=%s", tc.c), func(b *testing.B) {
-			buf.Reset()
-			b.ResetTimer()
-			b.SetBytes(int64(uncompressedSize))
-			for n := 0; n < b.N; n++ {
-				require.NoError(b,
-					pqarrow.WriteTable(
-						table,
-						&buf,
-						math.MaxInt64,
-						parquet.NewWriterProperties(parquet.WithAllocator(mem), parquet.WithCompression(tc.c)),
-						pqarrow.DefaultWriterProps(),
-					),
-				)
-			}
-		})
-	}
-}
-
-func BenchmarkReadTableCompressed(b *testing.B) {
-	ctx := context.Background()
-	mem := memory.DefaultAllocator
-	table := buildTableForTest(mem)
-	defer table.Release()
-
-	for _, tc := range compressTestCases {
-		b.Run(fmt.Sprintf("codec=%s", tc.c), func(b *testing.B) {
-			var buf bytes.Buffer
-			err := pqarrow.WriteTable(
-				table,
-				&buf,
-				math.MaxInt64,
-				parquet.NewWriterProperties(parquet.WithAllocator(mem), parquet.WithCompression(tc.c)),
-				pqarrow.DefaultWriterProps(),
-			)
-			require.NoError(b, err)
-
-			compressedBytes := buf.Len()
-			rdr := bytes.NewReader(buf.Bytes())
-
-			b.ResetTimer()
-			b.SetBytes(int64(compressedBytes))
-			for n := 0; n < b.N; n++ {
-				tab, err := pqarrow.ReadTable(ctx, rdr, nil, pqarrow.ArrowReadProperties{}, mem)
-				require.NoError(b, err)
-				defer tab.Release()
-			}
-		})
-	}
-}
diff --git a/go/parquet/pqarrow/schema.go b/go/parquet/pqarrow/schema.go
deleted file mode 100644
index 4882077671f0f..0000000000000
--- a/go/parquet/pqarrow/schema.go
+++ /dev/null
@@ -1,1160 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow
-
-import (
-	"encoding/base64"
-	"fmt"
-	"math"
-	"strconv"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/decimal128"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/file"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"golang.org/x/xerrors"
-)
-
-// SchemaField is a holder that defines a specific logical field in the schema
-// which could potentially refer to multiple physical columns in the underlying
-// parquet file if it is a nested type.
-//
-// ColIndex is only populated (not -1) when it is a leaf column.
-type SchemaField struct {
-	Field     *arrow.Field
-	Children  []SchemaField
-	ColIndex  int
-	LevelInfo file.LevelInfo
-}
-
-// IsLeaf returns true if the SchemaField is a leaf column, ie: ColIndex != -1
-func (s *SchemaField) IsLeaf() bool { return s.ColIndex != -1 }
-
-// SchemaManifest represents a full manifest for mapping a Parquet schema
-// to an arrow Schema.
-type SchemaManifest struct {
-	descr        *schema.Schema
-	OriginSchema *arrow.Schema
-	SchemaMeta   *arrow.Metadata
-
-	ColIndexToField map[int]*SchemaField
-	ChildToParent   map[*SchemaField]*SchemaField
-	Fields          []SchemaField
-}
-
-// GetColumnField returns the corresponding Field for a given column index.
-func (sm *SchemaManifest) GetColumnField(index int) (*SchemaField, error) {
-	if field, ok := sm.ColIndexToField[index]; ok {
-		return field, nil
-	}
-	return nil, fmt.Errorf("Column Index %d not found in schema manifest", index)
-}
-
-// GetParent gets the parent field for a given field if it is a nested column, otherwise
-// returns nil if there is no parent field.
-func (sm *SchemaManifest) GetParent(field *SchemaField) *SchemaField {
-	if p, ok := sm.ChildToParent[field]; ok {
-		return p
-	}
-	return nil
-}
-
-// GetFieldIndices coalesces a list of field indices (relative to the equivalent arrow::Schema) which
-// correspond to the column root (first node below the parquet schema's root group) of
-// each leaf referenced in column_indices.
-//
-// For example, for leaves `a.b.c`, `a.b.d.e`, and `i.j.k` (column_indices=[0,1,3])
-// the roots are `a` and `i` (return=[0,2]).
-//
-// root
-// -- a  <------
-// -- -- b  |  |
-// -- -- -- c  |
-// -- -- -- d  |
-// -- -- -- -- e
-// -- f
-// -- -- g
-// -- -- -- h
-// -- i  <---
-// -- -- j  |
-// -- -- -- k
-func (sm *SchemaManifest) GetFieldIndices(indices []int) ([]int, error) {
-	added := make(map[int]bool)
-	ret := make([]int, 0)
-
-	for _, idx := range indices {
-		if idx < 0 || idx >= sm.descr.NumColumns() {
-			return nil, fmt.Errorf("column index %d is not valid", idx)
-		}
-
-		fieldNode := sm.descr.ColumnRoot(idx)
-		fieldIdx := sm.descr.Root().FieldIndexByField(fieldNode)
-		if fieldIdx == -1 {
-			return nil, fmt.Errorf("column index %d is not valid", idx)
-		}
-
-		if _, ok := added[fieldIdx]; !ok {
-			ret = append(ret, fieldIdx)
-			added[fieldIdx] = true
-		}
-	}
-	return ret, nil
-}
-
-// ExtensionCustomParquetType is an interface that Arrow ExtensionTypes may implement
-// to specify the target LogicalType to use when converting to Parquet.
-//
-// The PrimitiveType is not configurable, and is determined by a fixed mapping from
-// the extension's StorageType to a Parquet type (see getParquetType in pqarrow source).
-type ExtensionCustomParquetType interface {
-	ParquetLogicalType() schema.LogicalType
-}
-
-func isDictionaryReadSupported(dt arrow.DataType) bool {
-	return arrow.IsBinaryLike(dt.ID())
-}
-
-func arrowTimestampToLogical(typ *arrow.TimestampType, unit arrow.TimeUnit) schema.LogicalType {
-	isAdjustedToUTC := typ.TimeZone != ""
-
-	// for forward compatibility reasons, and because there's no other way
-	// to signal to old readers that values are timestamps, we force
-	// the convertedtype field to be set to the corresponding TIMESTAMP_* value.
-	// this does cause some ambiguity as parquet readers have not been consistent
-	// about the interpretation of TIMESTAMP_* values as being utc-normalized
-	// see ARROW-5878
-	var scunit schema.TimeUnitType
-	switch unit {
-	case arrow.Millisecond:
-		scunit = schema.TimeUnitMillis
-	case arrow.Microsecond:
-		scunit = schema.TimeUnitMicros
-	case arrow.Nanosecond:
-		scunit = schema.TimeUnitNanos
-	case arrow.Second:
-		// no equivalent in parquet
-		return schema.NoLogicalType{}
-	}
-
-	return schema.NewTimestampLogicalTypeForce(isAdjustedToUTC, scunit)
-}
-
-func getTimestampMeta(typ *arrow.TimestampType, props *parquet.WriterProperties, arrprops ArrowWriterProperties) (parquet.Type, schema.LogicalType, error) {
-	coerce := arrprops.coerceTimestamps
-	target := typ.Unit
-	if coerce {
-		target = arrprops.coerceTimestampUnit
-	}
-
-	// user is explicitly asking for int96, no logical type
-	if arrprops.timestampAsInt96 && target == arrow.Nanosecond {
-		return parquet.Types.Int96, schema.NoLogicalType{}, nil
-	}
-
-	physical := parquet.Types.Int64
-	logicalType := arrowTimestampToLogical(typ, target)
-
-	// user is explicitly asking for timestamp data to be converted to the specified
-	// units (target) via coercion
-	if coerce {
-		if props.Version() == parquet.V1_0 || props.Version() == parquet.V2_4 {
-			switch target {
-			case arrow.Millisecond, arrow.Microsecond:
-			case arrow.Nanosecond, arrow.Second:
-				return physical, nil, fmt.Errorf("parquet version %s files can only coerce arrow timestamps to millis or micros", props.Version())
-			}
-		} else if target == arrow.Second {
-			return physical, nil, fmt.Errorf("parquet version %s files can only coerce arrow timestamps to millis, micros or nanos", props.Version())
-		}
-		return physical, logicalType, nil
-	}
-
-	// the user implicitly wants timestamp data to retain its original time units
-	// however the converted type field used to indicate logical types for parquet
-	// version <=2.4 fields, does not allow for nanosecond time units and so nanos
-	// must be coerced to micros
-	if (props.Version() == parquet.V1_0 || props.Version() == parquet.V2_4) && typ.Unit == arrow.Nanosecond {
-		logicalType = arrowTimestampToLogical(typ, arrow.Microsecond)
-		return physical, logicalType, nil
-	}
-
-	// the user implicitly wants timestamp data to retain it's original time units,
-	// however the arrow seconds time unit cannot be represented in parquet, so must
-	// be coerced to milliseconds
-	if typ.Unit == arrow.Second {
-		logicalType = arrowTimestampToLogical(typ, arrow.Millisecond)
-	}
-
-	return physical, logicalType, nil
-}
-
-// DecimalSize returns the minimum number of bytes necessary to represent a decimal
-// with the requested precision.
-//
-// Taken from the Apache Impala codebase. The comments next to the return values
-// are the maximum value that can be represented in 2's complement with the returned
-// number of bytes
-func DecimalSize(precision int32) int32 {
-	if precision < 1 {
-		panic("precision must be >= 1")
-	}
-
-	// generated in python with:
-	// >>> decimal_size = lambda prec: int(math.ceil((prec * math.log2(10) + 1) / 8))
-	// >>> [-1] + [decimal_size(i) for i in range(1, 77)]
-	var byteblock = [...]int32{
-		-1, 1, 1, 2, 2, 3, 3, 4, 4, 4, 5, 5, 6, 6, 6, 7, 7, 8, 8, 9,
-		9, 9, 10, 10, 11, 11, 11, 12, 12, 13, 13, 13, 14, 14, 15, 15, 16, 16, 16, 17,
-		17, 18, 18, 18, 19, 19, 20, 20, 21, 21, 21, 22, 22, 23, 23, 23, 24, 24, 25, 25,
-		26, 26, 26, 27, 27, 28, 28, 28, 29, 29, 30, 30, 31, 31, 31, 32, 32,
-	}
-
-	if precision <= 76 {
-		return byteblock[precision]
-	}
-	return int32(math.Ceil(float64(precision)/8.0)*math.Log2(10) + 1)
-}
-
-func repFromNullable(isnullable bool) parquet.Repetition {
-	if isnullable {
-		return parquet.Repetitions.Optional
-	}
-	return parquet.Repetitions.Required
-}
-
-func structToNode(typ *arrow.StructType, name string, nullable bool, props *parquet.WriterProperties, arrprops ArrowWriterProperties) (schema.Node, error) {
-	if typ.NumFields() == 0 {
-		return nil, fmt.Errorf("cannot write struct type '%s' with no children field to parquet. Consider adding a dummy child", name)
-	}
-
-	children := make(schema.FieldList, 0, typ.NumFields())
-	for _, f := range typ.Fields() {
-		n, err := fieldToNode(f.Name, f, props, arrprops)
-		if err != nil {
-			return nil, err
-		}
-		children = append(children, n)
-	}
-
-	return schema.NewGroupNode(name, repFromNullable(nullable), children, -1)
-}
-
-func fieldToNode(name string, field arrow.Field, props *parquet.WriterProperties, arrprops ArrowWriterProperties) (schema.Node, error) {
-	repType := repFromNullable(field.Nullable)
-
-	// Handle complex types i.e. GroupNodes
-	switch field.Type.ID() {
-	case arrow.NULL:
-		if repType != parquet.Repetitions.Optional {
-			return nil, xerrors.New("nulltype arrow field must be nullable")
-		}
-	case arrow.STRUCT:
-		return structToNode(field.Type.(*arrow.StructType), field.Name, field.Nullable, props, arrprops)
-	case arrow.FIXED_SIZE_LIST, arrow.LIST:
-		var elem arrow.DataType
-		if lt, ok := field.Type.(*arrow.ListType); ok {
-			elem = lt.Elem()
-		} else {
-			elem = field.Type.(*arrow.FixedSizeListType).Elem()
-		}
-
-		child, err := fieldToNode(name, arrow.Field{Name: name, Type: elem, Nullable: true}, props, arrprops)
-		if err != nil {
-			return nil, err
-		}
-
-		return schema.ListOf(child, repFromNullable(field.Nullable), -1)
-	case arrow.DICTIONARY:
-		// parquet has no dictionary type, dictionary is encoding, not schema level
-		dictType := field.Type.(*arrow.DictionaryType)
-		return fieldToNode(name, arrow.Field{Name: name, Type: dictType.ValueType, Nullable: field.Nullable, Metadata: field.Metadata},
-			props, arrprops)
-	case arrow.MAP:
-		mapType := field.Type.(*arrow.MapType)
-		keyNode, err := fieldToNode("key", mapType.KeyField(), props, arrprops)
-		if err != nil {
-			return nil, err
-		}
-
-		valueNode, err := fieldToNode("value", mapType.ItemField(), props, arrprops)
-		if err != nil {
-			return nil, err
-		}
-
-		if arrprops.noMapLogicalType {
-			keyval := schema.FieldList{keyNode, valueNode}
-			keyvalNode, err := schema.NewGroupNode("key_value", parquet.Repetitions.Repeated, keyval, -1)
-			if err != nil {
-				return nil, err
-			}
-			return schema.NewGroupNode(field.Name, repFromNullable(field.Nullable), schema.FieldList{
-				keyvalNode,
-			}, -1)
-		}
-		return schema.MapOf(field.Name, keyNode, valueNode, repFromNullable(field.Nullable), -1)
-	}
-
-	// Not a GroupNode
-	typ, logicalType, length, err := getParquetType(field.Type, props, arrprops)
-	if err != nil {
-		return nil, err
-	}
-
-	return schema.NewPrimitiveNodeLogical(name, repType, logicalType, typ, length, fieldIDFromMeta(field.Metadata))
-}
-
-const fieldIDKey = "PARQUET:field_id"
-
-func fieldIDFromMeta(m arrow.Metadata) int32 {
-	if m.Len() == 0 {
-		return -1
-	}
-
-	key := m.FindKey(fieldIDKey)
-	if key < 0 {
-		return -1
-	}
-
-	id, err := strconv.ParseInt(m.Values()[key], 10, 32)
-	if err != nil {
-		return -1
-	}
-
-	if id < 0 {
-		return -1
-	}
-
-	return int32(id)
-}
-
-// ToParquet generates a Parquet Schema from an arrow Schema using the given properties to make
-// decisions when determining the logical/physical types of the columns.
-func ToParquet(sc *arrow.Schema, props *parquet.WriterProperties, arrprops ArrowWriterProperties) (*schema.Schema, error) {
-	if props == nil {
-		props = parquet.NewWriterProperties()
-	}
-
-	nodes := make(schema.FieldList, 0, sc.NumFields())
-	for _, f := range sc.Fields() {
-		n, err := fieldToNode(f.Name, f, props, arrprops)
-		if err != nil {
-			return nil, err
-		}
-		nodes = append(nodes, n)
-	}
-
-	root, err := schema.NewGroupNode(props.RootName(), props.RootRepetition(), nodes, -1)
-	if err != nil {
-		return nil, err
-	}
-
-	return schema.NewSchema(root), err
-}
-
-type schemaTree struct {
-	manifest *SchemaManifest
-
-	schema *schema.Schema
-	props  *ArrowReadProperties
-}
-
-func (s schemaTree) LinkParent(child, parent *SchemaField) {
-	s.manifest.ChildToParent[child] = parent
-}
-
-func (s schemaTree) RecordLeaf(leaf *SchemaField) {
-	s.manifest.ColIndexToField[leaf.ColIndex] = leaf
-}
-
-func arrowInt(log schema.IntLogicalType) (arrow.DataType, error) {
-	switch log.BitWidth() {
-	case 8:
-		if log.IsSigned() {
-			return arrow.PrimitiveTypes.Int8, nil
-		}
-		return arrow.PrimitiveTypes.Uint8, nil
-	case 16:
-		if log.IsSigned() {
-			return arrow.PrimitiveTypes.Int16, nil
-		}
-		return arrow.PrimitiveTypes.Uint16, nil
-	case 32:
-		if log.IsSigned() {
-			return arrow.PrimitiveTypes.Int32, nil
-		}
-		return arrow.PrimitiveTypes.Uint32, nil
-	case 64:
-		if log.IsSigned() {
-			return arrow.PrimitiveTypes.Int64, nil
-		}
-		return arrow.PrimitiveTypes.Uint64, nil
-	default:
-		return nil, xerrors.New("invalid logical type for int32")
-	}
-}
-
-func arrowTime32(logical schema.TimeLogicalType) (arrow.DataType, error) {
-	if logical.TimeUnit() == schema.TimeUnitMillis {
-		return arrow.FixedWidthTypes.Time32ms, nil
-	}
-
-	return nil, xerrors.New(logical.String() + " cannot annotate a time32")
-}
-
-func arrowTime64(logical schema.TimeLogicalType) (arrow.DataType, error) {
-	switch logical.TimeUnit() {
-	case schema.TimeUnitMicros:
-		return arrow.FixedWidthTypes.Time64us, nil
-	case schema.TimeUnitNanos:
-		return arrow.FixedWidthTypes.Time64ns, nil
-	default:
-		return nil, xerrors.New(logical.String() + " cannot annotate int64")
-	}
-}
-
-func arrowTimestamp(logical schema.TimestampLogicalType) (arrow.DataType, error) {
-	tz := ""
-
-	// ConvertedTypes are adjusted to UTC per backward compatibility guidelines
-	// https://github.com/apache/parquet-format/blob/eb4b31c1d64a01088d02a2f9aefc6c17c54cc6fc/LogicalTypes.md?plain=1#L480-L485
-	if logical.IsAdjustedToUTC() || logical.IsFromConvertedType() {
-		tz = "UTC"
-	}
-
-	switch logical.TimeUnit() {
-	case schema.TimeUnitMillis:
-		return &arrow.TimestampType{TimeZone: tz, Unit: arrow.Millisecond}, nil
-	case schema.TimeUnitMicros:
-		return &arrow.TimestampType{TimeZone: tz, Unit: arrow.Microsecond}, nil
-	case schema.TimeUnitNanos:
-		return &arrow.TimestampType{TimeZone: tz, Unit: arrow.Nanosecond}, nil
-	default:
-		return nil, xerrors.New("Unrecognized unit in timestamp logical type " + logical.String())
-	}
-}
-
-func arrowDecimal(logical schema.DecimalLogicalType) arrow.DataType {
-	if logical.Precision() <= decimal128.MaxPrecision {
-		return &arrow.Decimal128Type{Precision: logical.Precision(), Scale: logical.Scale()}
-	}
-	return &arrow.Decimal256Type{Precision: logical.Precision(), Scale: logical.Scale()}
-}
-
-func arrowFromInt32(logical schema.LogicalType) (arrow.DataType, error) {
-	switch logtype := logical.(type) {
-	case schema.NoLogicalType:
-		return arrow.PrimitiveTypes.Int32, nil
-	case schema.TimeLogicalType:
-		return arrowTime32(logtype)
-	case schema.DecimalLogicalType:
-		return arrowDecimal(logtype), nil
-	case schema.IntLogicalType:
-		return arrowInt(logtype)
-	case schema.DateLogicalType:
-		return arrow.FixedWidthTypes.Date32, nil
-	default:
-		return nil, xerrors.New(logical.String() + " cannot annotate int32")
-	}
-}
-
-func arrowFromInt64(logical schema.LogicalType) (arrow.DataType, error) {
-	if logical.IsNone() {
-		return arrow.PrimitiveTypes.Int64, nil
-	}
-
-	switch logtype := logical.(type) {
-	case schema.IntLogicalType:
-		return arrowInt(logtype)
-	case schema.DecimalLogicalType:
-		return arrowDecimal(logtype), nil
-	case schema.TimeLogicalType:
-		return arrowTime64(logtype)
-	case schema.TimestampLogicalType:
-		return arrowTimestamp(logtype)
-	default:
-		return nil, xerrors.New(logical.String() + " cannot annotate int64")
-	}
-}
-
-func arrowFromByteArray(logical schema.LogicalType) (arrow.DataType, error) {
-	switch logtype := logical.(type) {
-	case schema.StringLogicalType:
-		return arrow.BinaryTypes.String, nil
-	case schema.DecimalLogicalType:
-		return arrowDecimal(logtype), nil
-	case schema.NoLogicalType,
-		schema.EnumLogicalType,
-		schema.JSONLogicalType,
-		schema.BSONLogicalType:
-		return arrow.BinaryTypes.Binary, nil
-	default:
-		return nil, xerrors.New("unhandled logicaltype " + logical.String() + " for byte_array")
-	}
-}
-
-func arrowFromFLBA(logical schema.LogicalType, length int) (arrow.DataType, error) {
-	switch logtype := logical.(type) {
-	case schema.DecimalLogicalType:
-		return arrowDecimal(logtype), nil
-	case schema.NoLogicalType, schema.IntervalLogicalType, schema.UUIDLogicalType:
-		return &arrow.FixedSizeBinaryType{ByteWidth: int(length)}, nil
-	case schema.Float16LogicalType:
-		return &arrow.Float16Type{}, nil
-	default:
-		return nil, xerrors.New("unhandled logical type " + logical.String() + " for fixed-length byte array")
-	}
-}
-
-func getParquetType(typ arrow.DataType, props *parquet.WriterProperties, arrprops ArrowWriterProperties) (parquet.Type, schema.LogicalType, int, error) {
-	switch typ.ID() {
-	case arrow.NULL:
-		return parquet.Types.Int32, schema.NullLogicalType{}, -1, nil
-	case arrow.BOOL:
-		return parquet.Types.Boolean, schema.NoLogicalType{}, -1, nil
-	case arrow.UINT8:
-		return parquet.Types.Int32, schema.NewIntLogicalType(8, false), -1, nil
-	case arrow.INT8:
-		return parquet.Types.Int32, schema.NewIntLogicalType(8, true), -1, nil
-	case arrow.UINT16:
-		return parquet.Types.Int32, schema.NewIntLogicalType(16, false), -1, nil
-	case arrow.INT16:
-		return parquet.Types.Int32, schema.NewIntLogicalType(16, true), -1, nil
-	case arrow.UINT32:
-		return parquet.Types.Int32, schema.NewIntLogicalType(32, false), -1, nil
-	case arrow.INT32:
-		return parquet.Types.Int32, schema.NewIntLogicalType(32, true), -1, nil
-	case arrow.UINT64:
-		return parquet.Types.Int64, schema.NewIntLogicalType(64, false), -1, nil
-	case arrow.INT64:
-		return parquet.Types.Int64, schema.NewIntLogicalType(64, true), -1, nil
-	case arrow.FLOAT32:
-		return parquet.Types.Float, schema.NoLogicalType{}, -1, nil
-	case arrow.FLOAT64:
-		return parquet.Types.Double, schema.NoLogicalType{}, -1, nil
-	case arrow.STRING, arrow.LARGE_STRING:
-		return parquet.Types.ByteArray, schema.StringLogicalType{}, -1, nil
-	case arrow.BINARY, arrow.LARGE_BINARY:
-		return parquet.Types.ByteArray, schema.NoLogicalType{}, -1, nil
-	case arrow.FIXED_SIZE_BINARY:
-		return parquet.Types.FixedLenByteArray, schema.NoLogicalType{}, typ.(*arrow.FixedSizeBinaryType).ByteWidth, nil
-	case arrow.DECIMAL, arrow.DECIMAL256:
-		dectype := typ.(arrow.DecimalType)
-		precision := int(dectype.GetPrecision())
-		scale := int(dectype.GetScale())
-
-		if !props.StoreDecimalAsInteger() || precision > 18 {
-			return parquet.Types.FixedLenByteArray, schema.NewDecimalLogicalType(int32(precision), int32(scale)), int(DecimalSize(int32(precision))), nil
-		}
-
-		pqType := parquet.Types.Int32
-		if precision > 9 {
-			pqType = parquet.Types.Int64
-		}
-
-		return pqType, schema.NoLogicalType{}, -1, nil
-	case arrow.DATE32:
-		return parquet.Types.Int32, schema.DateLogicalType{}, -1, nil
-	case arrow.DATE64:
-		return parquet.Types.Int32, schema.DateLogicalType{}, -1, nil
-	case arrow.TIMESTAMP:
-		pqType, logicalType, err := getTimestampMeta(typ.(*arrow.TimestampType), props, arrprops)
-		return pqType, logicalType, -1, err
-	case arrow.TIME32:
-		return parquet.Types.Int32, schema.NewTimeLogicalType(true, schema.TimeUnitMillis), -1, nil
-	case arrow.TIME64:
-		pqTimeUnit := schema.TimeUnitMicros
-		if typ.(*arrow.Time64Type).Unit == arrow.Nanosecond {
-			pqTimeUnit = schema.TimeUnitNanos
-		}
-
-		return parquet.Types.Int64, schema.NewTimeLogicalType(true, pqTimeUnit), -1, nil
-	case arrow.FLOAT16:
-		return parquet.Types.FixedLenByteArray, schema.Float16LogicalType{}, arrow.Float16SizeBytes, nil
-	case arrow.EXTENSION:
-		storageType := typ.(arrow.ExtensionType).StorageType()
-		pqType, logicalType, length, err := getParquetType(storageType, props, arrprops)
-		if withCustomType, ok := typ.(ExtensionCustomParquetType); ok {
-			logicalType = withCustomType.ParquetLogicalType()
-		}
-
-		return pqType, logicalType, length, err
-	default:
-		return parquet.Type(0), nil, 0, fmt.Errorf("%w: support for %s", arrow.ErrNotImplemented, typ.ID())
-	}
-}
-
-func getArrowType(physical parquet.Type, logical schema.LogicalType, typeLen int) (arrow.DataType, error) {
-	if !logical.IsValid() || logical.Equals(schema.NullLogicalType{}) {
-		return arrow.Null, nil
-	}
-
-	switch physical {
-	case parquet.Types.Boolean:
-		return arrow.FixedWidthTypes.Boolean, nil
-	case parquet.Types.Int32:
-		return arrowFromInt32(logical)
-	case parquet.Types.Int64:
-		return arrowFromInt64(logical)
-	case parquet.Types.Int96:
-		return arrow.FixedWidthTypes.Timestamp_ns, nil
-	case parquet.Types.Float:
-		return arrow.PrimitiveTypes.Float32, nil
-	case parquet.Types.Double:
-		return arrow.PrimitiveTypes.Float64, nil
-	case parquet.Types.ByteArray:
-		return arrowFromByteArray(logical)
-	case parquet.Types.FixedLenByteArray:
-		return arrowFromFLBA(logical, typeLen)
-	default:
-		return nil, xerrors.New("invalid physical column type")
-	}
-}
-
-func populateLeaf(colIndex int, field *arrow.Field, currentLevels file.LevelInfo, ctx *schemaTree, parent *SchemaField, out *SchemaField) {
-	out.Field = field
-	out.ColIndex = colIndex
-	out.LevelInfo = currentLevels
-	ctx.RecordLeaf(out)
-	ctx.LinkParent(out, parent)
-}
-
-func listToSchemaField(n *schema.GroupNode, currentLevels file.LevelInfo, ctx *schemaTree, parent, out *SchemaField) error {
-	if n.NumFields() != 1 {
-		return xerrors.New("LIST groups must have only 1 child")
-	}
-
-	if n.RepetitionType() == parquet.Repetitions.Repeated {
-		return xerrors.New("LIST groups must not be repeated")
-	}
-
-	currentLevels.Increment(n)
-
-	out.Children = make([]SchemaField, n.NumFields())
-	ctx.LinkParent(out, parent)
-	ctx.LinkParent(&out.Children[0], out)
-
-	listNode := n.Field(0)
-	if listNode.RepetitionType() != parquet.Repetitions.Repeated {
-		return xerrors.New("non-repeated nodes in a list group are not supported")
-	}
-
-	repeatedAncestorDef := currentLevels.IncrementRepeated()
-	if listNode.Type() == schema.Group {
-		// Resolve 3-level encoding
-		//
-		// required/optional group name=whatever {
-		//   repeated group name=list {
-		//     required/optional TYPE item;
-		//   }
-		// }
-		//
-		// yields list<item: TYPE ?nullable> ?nullable
-		//
-		// We distinguish the special case that we have
-		//
-		// required/optional group name=whatever {
-		//   repeated group name=array or $SOMETHING_tuple {
-		//     required/optional TYPE item;
-		//   }
-		// }
-		//
-		// In this latter case, the inner type of the list should be a struct
-		// rather than a primitive value
-		//
-		// yields list<item: struct<item: TYPE ?nullable> not null> ?nullable
-		// Special case mentioned in the format spec:
-		//   If the name is array or ends in _tuple, this should be a list of struct
-		//   even for single child elements.
-		listGroup := listNode.(*schema.GroupNode)
-		if listGroup.NumFields() == 1 && !(listGroup.Name() == "array" || listGroup.Name() == (n.Name()+"_tuple")) {
-			// list of primitive type
-			if err := nodeToSchemaField(listGroup.Field(0), currentLevels, ctx, out, &out.Children[0]); err != nil {
-				return err
-			}
-		} else {
-			if err := groupToStructField(listGroup, currentLevels, ctx, out, &out.Children[0]); err != nil {
-				return err
-			}
-		}
-	} else {
-		// Two-level list encoding
-		//
-		// required/optional group LIST {
-		//   repeated TYPE;
-		// }
-		primitiveNode := listNode.(*schema.PrimitiveNode)
-		colIndex := ctx.schema.ColumnIndexByNode(primitiveNode)
-		arrowType, err := getArrowType(primitiveNode.PhysicalType(), primitiveNode.LogicalType(), primitiveNode.TypeLength())
-		if err != nil {
-			return err
-		}
-
-		if ctx.props.ReadDict(colIndex) && isDictionaryReadSupported(arrowType) {
-			arrowType = &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrowType}
-		}
-
-		itemField := arrow.Field{Name: listNode.Name(), Type: arrowType, Nullable: false, Metadata: createFieldMeta(int(listNode.FieldID()))}
-		populateLeaf(colIndex, &itemField, currentLevels, ctx, out, &out.Children[0])
-	}
-
-	out.Field = &arrow.Field{Name: n.Name(), Type: arrow.ListOfField(
-		arrow.Field{Name: listNode.Name(), Type: out.Children[0].Field.Type, Nullable: true}),
-		Nullable: n.RepetitionType() == parquet.Repetitions.Optional, Metadata: createFieldMeta(int(n.FieldID()))}
-
-	out.LevelInfo = currentLevels
-	// At this point current levels contains the def level for this list,
-	// we need to reset to the prior parent.
-	out.LevelInfo.RepeatedAncestorDefLevel = repeatedAncestorDef
-	return nil
-}
-
-func groupToStructField(n *schema.GroupNode, currentLevels file.LevelInfo, ctx *schemaTree, parent, out *SchemaField) error {
-	arrowFields := make([]arrow.Field, 0, n.NumFields())
-	out.Children = make([]SchemaField, n.NumFields())
-
-	for i := 0; i < n.NumFields(); i++ {
-		if err := nodeToSchemaField(n.Field(i), currentLevels, ctx, out, &out.Children[i]); err != nil {
-			return err
-		}
-		arrowFields = append(arrowFields, *out.Children[i].Field)
-	}
-
-	out.Field = &arrow.Field{Name: n.Name(), Type: arrow.StructOf(arrowFields...),
-		Nullable: n.RepetitionType() == parquet.Repetitions.Optional, Metadata: createFieldMeta(int(n.FieldID()))}
-	out.LevelInfo = currentLevels
-	return nil
-}
-
-func mapToSchemaField(n *schema.GroupNode, currentLevels file.LevelInfo, ctx *schemaTree, parent, out *SchemaField) error {
-	if n.NumFields() != 1 {
-		return xerrors.New("MAP group must have exactly 1 child")
-	}
-	if n.RepetitionType() == parquet.Repetitions.Repeated {
-		return xerrors.New("MAP groups must not be repeated")
-	}
-
-	keyvalueNode := n.Field(0)
-	if keyvalueNode.RepetitionType() != parquet.Repetitions.Repeated {
-		return xerrors.New("Non-repeated keyvalue group in MAP group is not supported")
-	}
-
-	if keyvalueNode.Type() != schema.Group {
-		return xerrors.New("keyvalue node must be a group")
-	}
-
-	kvgroup := keyvalueNode.(*schema.GroupNode)
-	if kvgroup.NumFields() != 1 && kvgroup.NumFields() != 2 {
-		return fmt.Errorf("keyvalue node group must have exactly 1 or 2 child elements, Found %d", kvgroup.NumFields())
-	}
-
-	keyNode := kvgroup.Field(0)
-	if keyNode.RepetitionType() != parquet.Repetitions.Required {
-		return xerrors.New("MAP keys must be required")
-	}
-
-	// Arrow doesn't support 1 column maps (i.e. Sets).  The options are to either
-	// make the values column nullable, or process the map as a list.  We choose the latter
-	// as it is simpler.
-	if kvgroup.NumFields() == 1 {
-		return listToSchemaField(n, currentLevels, ctx, parent, out)
-	}
-
-	currentLevels.Increment(n)
-	repeatedAncestorDef := currentLevels.IncrementRepeated()
-	out.Children = make([]SchemaField, 1)
-
-	kvfield := &out.Children[0]
-	kvfield.Children = make([]SchemaField, 2)
-
-	keyField := &kvfield.Children[0]
-	valueField := &kvfield.Children[1]
-
-	ctx.LinkParent(out, parent)
-	ctx.LinkParent(kvfield, out)
-	ctx.LinkParent(keyField, kvfield)
-	ctx.LinkParent(valueField, kvfield)
-
-	// required/optional group name=whatever {
-	//   repeated group name=key_values{
-	//     required TYPE key;
-	// required/optional TYPE value;
-	//   }
-	// }
-	//
-
-	if err := nodeToSchemaField(keyNode, currentLevels, ctx, kvfield, keyField); err != nil {
-		return err
-	}
-	if err := nodeToSchemaField(kvgroup.Field(1), currentLevels, ctx, kvfield, valueField); err != nil {
-		return err
-	}
-
-	kvfield.Field = &arrow.Field{Name: n.Name(), Type: arrow.StructOf(*keyField.Field, *valueField.Field),
-		Nullable: false, Metadata: createFieldMeta(int(kvgroup.FieldID()))}
-
-	kvfield.LevelInfo = currentLevels
-	out.Field = &arrow.Field{Name: n.Name(), Type: arrow.MapOf(keyField.Field.Type, valueField.Field.Type),
-		Nullable: n.RepetitionType() == parquet.Repetitions.Optional,
-		Metadata: createFieldMeta(int(n.FieldID()))}
-	out.LevelInfo = currentLevels
-	// At this point current levels contains the def level for this map,
-	// we need to reset to the prior parent.
-	out.LevelInfo.RepeatedAncestorDefLevel = repeatedAncestorDef
-	return nil
-}
-
-func groupToSchemaField(n *schema.GroupNode, currentLevels file.LevelInfo, ctx *schemaTree, parent, out *SchemaField) error {
-	if n.LogicalType().Equals(schema.NewListLogicalType()) {
-		return listToSchemaField(n, currentLevels, ctx, parent, out)
-	} else if n.LogicalType().Equals(schema.MapLogicalType{}) {
-		return mapToSchemaField(n, currentLevels, ctx, parent, out)
-	}
-
-	if n.RepetitionType() == parquet.Repetitions.Repeated {
-		// Simple repeated struct
-		//
-		// repeated group $NAME {
-		//   r/o TYPE[0] f0
-		//   r/o TYPE[1] f1
-		// }
-		out.Children = make([]SchemaField, 1)
-		repeatedAncestorDef := currentLevels.IncrementRepeated()
-		if err := groupToStructField(n, currentLevels, ctx, out, &out.Children[0]); err != nil {
-			return err
-		}
-
-		out.Field = &arrow.Field{Name: n.Name(), Type: arrow.ListOf(out.Children[0].Field.Type), Nullable: false,
-			Metadata: createFieldMeta(int(n.FieldID()))}
-		ctx.LinkParent(&out.Children[0], out)
-		out.LevelInfo = currentLevels
-		out.LevelInfo.RepeatedAncestorDefLevel = repeatedAncestorDef
-		return nil
-	}
-
-	currentLevels.Increment(n)
-	return groupToStructField(n, currentLevels, ctx, parent, out)
-}
-
-func createFieldMeta(fieldID int) arrow.Metadata {
-	return arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{strconv.Itoa(fieldID)})
-}
-
-func nodeToSchemaField(n schema.Node, currentLevels file.LevelInfo, ctx *schemaTree, parent, out *SchemaField) error {
-	ctx.LinkParent(out, parent)
-
-	if n.Type() == schema.Group {
-		return groupToSchemaField(n.(*schema.GroupNode), currentLevels, ctx, parent, out)
-	}
-
-	// Either a normal flat primitive type, or a list type encoded with 1-level
-	// list encoding. Note that the 3-level encoding is the form recommended by
-	// the parquet specification, but technically we can have either
-	//
-	// required/optional $TYPE $FIELD_NAME
-	//
-	// or
-	//
-	// repeated $TYPE $FIELD_NAME
-
-	primitive := n.(*schema.PrimitiveNode)
-	colIndex := ctx.schema.ColumnIndexByNode(primitive)
-	arrowType, err := getArrowType(primitive.PhysicalType(), primitive.LogicalType(), primitive.TypeLength())
-	if err != nil {
-		return err
-	}
-
-	if ctx.props.ReadDict(colIndex) && isDictionaryReadSupported(arrowType) {
-		arrowType = &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrowType}
-	}
-
-	if primitive.RepetitionType() == parquet.Repetitions.Repeated {
-		// one-level list encoding e.g. a: repeated int32;
-		repeatedAncestorDefLevel := currentLevels.IncrementRepeated()
-		out.Children = make([]SchemaField, 1)
-		child := arrow.Field{Name: primitive.Name(), Type: arrowType, Nullable: false}
-		populateLeaf(colIndex, &child, currentLevels, ctx, out, &out.Children[0])
-		out.Field = &arrow.Field{Name: primitive.Name(), Type: arrow.ListOf(child.Type), Nullable: false,
-			Metadata: createFieldMeta(int(primitive.FieldID()))}
-		out.LevelInfo = currentLevels
-		out.LevelInfo.RepeatedAncestorDefLevel = repeatedAncestorDefLevel
-		return nil
-	}
-
-	currentLevels.Increment(n)
-	populateLeaf(colIndex, &arrow.Field{Name: n.Name(), Type: arrowType,
-		Nullable: n.RepetitionType() == parquet.Repetitions.Optional,
-		Metadata: createFieldMeta(int(n.FieldID()))},
-		currentLevels, ctx, parent, out)
-	return nil
-}
-
-func getOriginSchema(meta metadata.KeyValueMetadata, mem memory.Allocator) (*arrow.Schema, error) {
-	if meta == nil {
-		return nil, nil
-	}
-
-	const arrowSchemaKey = "ARROW:schema"
-	serialized := meta.FindValue(arrowSchemaKey)
-	if serialized == nil {
-		return nil, nil
-	}
-
-	var (
-		decoded []byte
-		err     error
-	)
-
-	// if the length of serialized is not a multiple of 4, it cannot be
-	// padded with std encoding.
-	if len(*serialized)%4 == 0 {
-		decoded, err = base64.StdEncoding.DecodeString(*serialized)
-	}
-	// if we failed to decode it with stdencoding or the length wasn't
-	// a multiple of 4, try using the Raw unpadded encoding
-	if len(decoded) == 0 || err != nil {
-		decoded, err = base64.RawStdEncoding.DecodeString(*serialized)
-	}
-
-	if err != nil {
-		return nil, err
-	}
-
-	return flight.DeserializeSchema(decoded, mem)
-}
-
-func getNestedFactory(origin, inferred arrow.DataType) func(fieldList []arrow.Field) arrow.DataType {
-	switch inferred.ID() {
-	case arrow.STRUCT:
-		if origin.ID() == arrow.STRUCT {
-			return func(list []arrow.Field) arrow.DataType {
-				return arrow.StructOf(list...)
-			}
-		}
-	case arrow.LIST:
-		switch origin.ID() {
-		case arrow.LIST:
-			return func(list []arrow.Field) arrow.DataType {
-				return arrow.ListOf(list[0].Type)
-			}
-		case arrow.FIXED_SIZE_LIST:
-			sz := origin.(*arrow.FixedSizeListType).Len()
-			return func(list []arrow.Field) arrow.DataType {
-				return arrow.FixedSizeListOf(sz, list[0].Type)
-			}
-		}
-	case arrow.MAP:
-		if origin.ID() == arrow.MAP {
-			return func(list []arrow.Field) arrow.DataType {
-				valType := list[0].Type.(*arrow.StructType)
-				return arrow.MapOf(valType.Field(0).Type, valType.Field(1).Type)
-			}
-		}
-	}
-	return nil
-}
-
-func applyOriginalStorageMetadata(origin arrow.Field, inferred *SchemaField) (modified bool, err error) {
-	nchildren := len(inferred.Children)
-	switch origin.Type.ID() {
-	case arrow.EXTENSION:
-		extType := origin.Type.(arrow.ExtensionType)
-		modified, err = applyOriginalStorageMetadata(arrow.Field{
-			Type:     extType.StorageType(),
-			Metadata: origin.Metadata,
-		}, inferred)
-		if err != nil {
-			return
-		}
-
-		if !arrow.TypeEqual(extType.StorageType(), inferred.Field.Type) {
-			return modified, fmt.Errorf("%w: mismatch storage type '%s' for extension type '%s'",
-				arrow.ErrInvalid, inferred.Field.Type, extType)
-		}
-
-		inferred.Field.Type = extType
-		modified = true
-	case arrow.SPARSE_UNION, arrow.DENSE_UNION:
-		err = xerrors.New("unimplemented type")
-	case arrow.STRUCT:
-		typ := origin.Type.(*arrow.StructType)
-		if nchildren != typ.NumFields() {
-			return
-		}
-
-		factory := getNestedFactory(typ, inferred.Field.Type)
-		if factory == nil {
-			return
-		}
-
-		modified = typ.ID() != inferred.Field.Type.ID()
-		for idx := range inferred.Children {
-			childMod, err := applyOriginalMetadata(typ.Field(idx), &inferred.Children[idx])
-			if err != nil {
-				return false, err
-			}
-			modified = modified || childMod
-		}
-		if modified {
-			modifiedChildren := make([]arrow.Field, len(inferred.Children))
-			for idx, child := range inferred.Children {
-				modifiedChildren[idx] = *child.Field
-			}
-			inferred.Field.Type = factory(modifiedChildren)
-		}
-	case arrow.FIXED_SIZE_LIST, arrow.LIST, arrow.LARGE_LIST, arrow.MAP: // arrow.ListLike
-		if nchildren != 1 {
-			return
-		}
-		factory := getNestedFactory(origin.Type, inferred.Field.Type)
-		if factory == nil {
-			return
-		}
-
-		modified = origin.Type.ID() != inferred.Field.Type.ID()
-		childModified, err := applyOriginalMetadata(arrow.Field{Type: origin.Type.(arrow.ListLikeType).Elem()}, &inferred.Children[0])
-		if err != nil {
-			return modified, err
-		}
-		modified = modified || childModified
-		if modified {
-			inferred.Field.Type = factory([]arrow.Field{*inferred.Children[0].Field})
-		}
-	case arrow.TIMESTAMP:
-		if inferred.Field.Type.ID() != arrow.TIMESTAMP {
-			return
-		}
-
-		tsOtype := origin.Type.(*arrow.TimestampType)
-		tsInfType := inferred.Field.Type.(*arrow.TimestampType)
-
-		// if the unit is the same and the data is tz-aware, then set the original time zone
-		// since parquet has no native storage of timezones
-		if tsOtype.Unit == tsInfType.Unit && tsInfType.TimeZone == "UTC" && tsOtype.TimeZone != "" {
-			inferred.Field.Type = origin.Type
-		}
-		modified = true
-	case arrow.LARGE_STRING, arrow.LARGE_BINARY:
-		inferred.Field.Type = origin.Type
-		modified = true
-	case arrow.DICTIONARY:
-		if origin.Type.ID() != arrow.DICTIONARY || (inferred.Field.Type.ID() == arrow.DICTIONARY || !isDictionaryReadSupported(inferred.Field.Type)) {
-			return
-		}
-
-		// direct dictionary reads are only supported for a few primitive types
-		// so no need to recurse on value types
-		dictOriginType := origin.Type.(*arrow.DictionaryType)
-		inferred.Field.Type = &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32,
-			ValueType: inferred.Field.Type, Ordered: dictOriginType.Ordered}
-		modified = true
-	case arrow.DECIMAL256:
-		if inferred.Field.Type.ID() == arrow.DECIMAL128 {
-			inferred.Field.Type = origin.Type
-			modified = true
-		}
-	}
-
-	if origin.HasMetadata() {
-		meta := origin.Metadata
-		if inferred.Field.HasMetadata() {
-			final := make(map[string]string)
-			for idx, k := range meta.Keys() {
-				final[k] = meta.Values()[idx]
-			}
-			for idx, k := range inferred.Field.Metadata.Keys() {
-				final[k] = inferred.Field.Metadata.Values()[idx]
-			}
-			inferred.Field.Metadata = arrow.MetadataFrom(final)
-		} else {
-			inferred.Field.Metadata = meta
-		}
-		modified = true
-	}
-
-	return
-}
-
-func applyOriginalMetadata(origin arrow.Field, inferred *SchemaField) (bool, error) {
-	return applyOriginalStorageMetadata(origin, inferred)
-}
-
-// NewSchemaManifest creates a manifest for mapping a parquet schema to a given arrow schema.
-//
-// The metadata passed in should be the file level key value metadata from the parquet file or nil.
-// If the ARROW:schema was in the metadata, then it is utilized to determine types.
-func NewSchemaManifest(sc *schema.Schema, meta metadata.KeyValueMetadata, props *ArrowReadProperties) (*SchemaManifest, error) {
-	var ctx schemaTree
-	ctx.manifest = &SchemaManifest{
-		ColIndexToField: make(map[int]*SchemaField),
-		ChildToParent:   make(map[*SchemaField]*SchemaField),
-		descr:           sc,
-		Fields:          make([]SchemaField, sc.Root().NumFields()),
-	}
-	ctx.props = props
-	if ctx.props == nil {
-		ctx.props = &ArrowReadProperties{}
-	}
-	ctx.schema = sc
-
-	var err error
-	ctx.manifest.OriginSchema, err = getOriginSchema(meta, memory.DefaultAllocator)
-	if err != nil {
-		return nil, err
-	}
-
-	// if original schema is not compatible with the parquet schema, ignore it
-	if ctx.manifest.OriginSchema != nil && len(ctx.manifest.OriginSchema.Fields()) != sc.Root().NumFields() {
-		ctx.manifest.OriginSchema = nil
-	}
-
-	for idx := range ctx.manifest.Fields {
-		field := &ctx.manifest.Fields[idx]
-		if err := nodeToSchemaField(sc.Root().Field(idx), file.LevelInfo{NullSlotUsage: 1}, &ctx, nil, field); err != nil {
-			return nil, err
-		}
-
-		if ctx.manifest.OriginSchema != nil {
-			if _, err := applyOriginalMetadata(ctx.manifest.OriginSchema.Field(idx), field); err != nil {
-				return nil, err
-			}
-		}
-	}
-	return ctx.manifest, nil
-}
-
-// FromParquet generates an arrow Schema from a provided Parquet Schema
-func FromParquet(sc *schema.Schema, props *ArrowReadProperties, kv metadata.KeyValueMetadata) (*arrow.Schema, error) {
-	manifest, err := NewSchemaManifest(sc, kv, props)
-	if err != nil {
-		return nil, err
-	}
-
-	fields := make([]arrow.Field, len(manifest.Fields))
-	for idx, field := range manifest.Fields {
-		fields[idx] = *field.Field
-	}
-
-	if manifest.OriginSchema != nil {
-		meta := manifest.OriginSchema.Metadata()
-		return arrow.NewSchema(fields, &meta), nil
-	}
-	return arrow.NewSchema(fields, manifest.SchemaMeta), nil
-}
diff --git a/go/parquet/pqarrow/schema_test.go b/go/parquet/pqarrow/schema_test.go
deleted file mode 100644
index 528200fd0e7d9..0000000000000
--- a/go/parquet/pqarrow/schema_test.go
+++ /dev/null
@@ -1,450 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package pqarrow_test
-
-import (
-	"encoding/base64"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	"github.com/apache/arrow/go/v18/arrow/extensions"
-	"github.com/apache/arrow/go/v18/arrow/flight"
-	"github.com/apache/arrow/go/v18/arrow/ipc"
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/metadata"
-	"github.com/apache/arrow/go/v18/parquet/pqarrow"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestGetOriginSchemaBase64(t *testing.T) {
-	uuidType := extensions.NewUUIDType()
-	md := arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"-1"})
-	extMd := arrow.NewMetadata([]string{ipc.ExtensionMetadataKeyName, ipc.ExtensionTypeKeyName, "PARQUET:field_id"}, []string{uuidType.Serialize(), uuidType.ExtensionName(), "-1"})
-	origArrSc := arrow.NewSchema([]arrow.Field{
-		{Name: "f1", Type: arrow.BinaryTypes.String, Metadata: md},
-		{Name: "f2", Type: arrow.PrimitiveTypes.Int64, Metadata: md},
-		{Name: "uuid", Type: uuidType, Metadata: extMd},
-	}, nil)
-
-	arrSerializedSc := flight.SerializeSchema(origArrSc, memory.DefaultAllocator)
-	pqschema, err := pqarrow.ToParquet(origArrSc, nil, pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-
-	tests := []struct {
-		name string
-		enc  *base64.Encoding
-	}{
-		{"raw", base64.RawStdEncoding},
-		{"std", base64.StdEncoding},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			kv := metadata.NewKeyValueMetadata()
-			kv.Append("ARROW:schema", tt.enc.EncodeToString(arrSerializedSc))
-			arrsc, err := pqarrow.FromParquet(pqschema, nil, kv)
-			assert.NoError(t, err)
-			assert.True(t, origArrSc.Equal(arrsc))
-		})
-	}
-}
-
-func TestGetOriginSchemaUnregisteredExtension(t *testing.T) {
-	uuidType := extensions.NewUUIDType()
-	md := arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"-1"})
-	origArrSc := arrow.NewSchema([]arrow.Field{
-		{Name: "f1", Type: arrow.BinaryTypes.String, Metadata: md},
-		{Name: "f2", Type: arrow.PrimitiveTypes.Int64, Metadata: md},
-		{Name: "uuid", Type: uuidType, Metadata: md},
-	}, nil)
-	pqschema, err := pqarrow.ToParquet(origArrSc, nil, pqarrow.DefaultWriterProps())
-	require.NoError(t, err)
-
-	arrSerializedSc := flight.SerializeSchema(origArrSc, memory.DefaultAllocator)
-	kv := metadata.NewKeyValueMetadata()
-	kv.Append("ARROW:schema", base64.StdEncoding.EncodeToString(arrSerializedSc))
-
-	arrow.UnregisterExtensionType(uuidType.ExtensionName())
-	defer arrow.RegisterExtensionType(uuidType)
-	arrsc, err := pqarrow.FromParquet(pqschema, nil, kv)
-	require.NoError(t, err)
-
-	extMd := arrow.NewMetadata([]string{ipc.ExtensionMetadataKeyName, ipc.ExtensionTypeKeyName, "PARQUET:field_id"},
-		[]string{uuidType.Serialize(), uuidType.ExtensionName(), "-1"})
-	expArrSc := arrow.NewSchema([]arrow.Field{
-		{Name: "f1", Type: arrow.BinaryTypes.String, Metadata: md},
-		{Name: "f2", Type: arrow.PrimitiveTypes.Int64, Metadata: md},
-		{Name: "uuid", Type: uuidType.StorageType(), Metadata: extMd},
-	}, nil)
-
-	assert.Truef(t, expArrSc.Equal(arrsc), "expected: %s\ngot: %s", expArrSc, arrsc)
-}
-
-func TestToParquetWriterConfig(t *testing.T) {
-	origSc := arrow.NewSchema([]arrow.Field{
-		{Name: "f1", Type: arrow.BinaryTypes.String},
-		{Name: "f2", Type: arrow.PrimitiveTypes.Int64},
-	}, nil)
-
-	tests := []struct {
-		name           string
-		rootRepetition parquet.Repetition
-	}{
-		{"test1", parquet.Repetitions.Required},
-		{"test2", parquet.Repetitions.Repeated},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-
-			pqschema, err := pqarrow.ToParquet(origSc,
-				parquet.NewWriterProperties(
-					parquet.WithRootName(tt.name),
-					parquet.WithRootRepetition(tt.rootRepetition),
-				),
-				pqarrow.DefaultWriterProps())
-			require.NoError(t, err)
-
-			assert.Equal(t, tt.name, pqschema.Root().Name())
-			assert.Equal(t, tt.rootRepetition, pqschema.Root().RepetitionType())
-		})
-	}
-}
-
-func TestConvertArrowFlatPrimitives(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.NewBooleanNode("boolean", parquet.Repetitions.Required, -1))
-	arrowFields = append(arrowFields, arrow.Field{Name: "boolean", Type: arrow.FixedWidthTypes.Boolean, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("int8", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(8, true), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "int8", Type: arrow.PrimitiveTypes.Int8, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("uint8", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(8, false), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "uint8", Type: arrow.PrimitiveTypes.Uint8, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("int16", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(16, true), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "int16", Type: arrow.PrimitiveTypes.Int16, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("uint16", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(16, false), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "uint16", Type: arrow.PrimitiveTypes.Uint16, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("int32", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(32, true), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "int32", Type: arrow.PrimitiveTypes.Int32, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("uint32", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(32, false), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "uint32", Type: arrow.PrimitiveTypes.Uint32, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("int64", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(64, true), parquet.Types.Int64, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "int64", Type: arrow.PrimitiveTypes.Int64, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("uint64", parquet.Repetitions.Required,
-		schema.NewIntLogicalType(64, false), parquet.Types.Int64, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "uint64", Type: arrow.PrimitiveTypes.Uint64, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeConverted("timestamp", parquet.Repetitions.Required,
-		parquet.Types.Int64, schema.ConvertedTypes.TimestampMillis, 0, 0, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "timestamp", Type: arrow.FixedWidthTypes.Timestamp_ms, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeConverted("timestamp[us]", parquet.Repetitions.Required,
-		parquet.Types.Int64, schema.ConvertedTypes.TimestampMicros, 0, 0, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "timestamp[us]", Type: arrow.FixedWidthTypes.Timestamp_us, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("date", parquet.Repetitions.Required,
-		schema.DateLogicalType{}, parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "date", Type: arrow.FixedWidthTypes.Date32, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("date64", parquet.Repetitions.Required,
-		schema.DateLogicalType{}, parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "date64", Type: arrow.FixedWidthTypes.Date64, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("time32", parquet.Repetitions.Required,
-		schema.NewTimeLogicalType(true, schema.TimeUnitMillis), parquet.Types.Int32, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "time32", Type: arrow.FixedWidthTypes.Time32ms, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("time64", parquet.Repetitions.Required,
-		schema.NewTimeLogicalType(true, schema.TimeUnitMicros), parquet.Types.Int64, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "time64", Type: arrow.FixedWidthTypes.Time64us, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.NewInt96Node("timestamp96", parquet.Repetitions.Required, -1))
-	arrowFields = append(arrowFields, arrow.Field{Name: "timestamp96", Type: arrow.FixedWidthTypes.Timestamp_ns, Nullable: false})
-
-	parquetFields = append(parquetFields, schema.NewFloat32Node("float", parquet.Repetitions.Optional, -1))
-	arrowFields = append(arrowFields, arrow.Field{Name: "float", Type: arrow.PrimitiveTypes.Float32, Nullable: true})
-
-	parquetFields = append(parquetFields, schema.NewFloat64Node("double", parquet.Repetitions.Optional, -1))
-	arrowFields = append(arrowFields, arrow.Field{Name: "double", Type: arrow.PrimitiveTypes.Float64, Nullable: true})
-
-	parquetFields = append(parquetFields, schema.NewByteArrayNode("binary", parquet.Repetitions.Optional, -1))
-	arrowFields = append(arrowFields, arrow.Field{Name: "binary", Type: arrow.BinaryTypes.Binary, Nullable: true})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("string", parquet.Repetitions.Optional,
-		schema.StringLogicalType{}, parquet.Types.ByteArray, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true})
-
-	parquetFields = append(parquetFields, schema.NewFixedLenByteArrayNode("flba-binary", parquet.Repetitions.Optional, 12, -1))
-	arrowFields = append(arrowFields, arrow.Field{Name: "flba-binary", Type: &arrow.FixedSizeBinaryType{ByteWidth: 12}, Nullable: true})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, nil, pqarrow.NewArrowWriterProperties(pqarrow.WithDeprecatedInt96Timestamps(true)))
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result))
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestConvertArrowParquetLists(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.MustGroup(schema.ListOf(schema.Must(schema.NewPrimitiveNodeLogical("my_list",
-		parquet.Repetitions.Optional, schema.StringLogicalType{}, parquet.Types.ByteArray, 0, -1)), parquet.Repetitions.Required, -1)))
-
-	arrowFields = append(arrowFields, arrow.Field{Name: "my_list", Type: arrow.ListOf(arrow.BinaryTypes.String)})
-
-	parquetFields = append(parquetFields, schema.MustGroup(schema.ListOf(schema.Must(schema.NewPrimitiveNodeLogical("my_list",
-		parquet.Repetitions.Optional, schema.StringLogicalType{}, parquet.Types.ByteArray, 0, -1)), parquet.Repetitions.Optional, -1)))
-
-	arrowFields = append(arrowFields, arrow.Field{Name: "my_list", Type: arrow.ListOf(arrow.BinaryTypes.String), Nullable: true})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, nil, pqarrow.NewArrowWriterProperties(pqarrow.WithDeprecatedInt96Timestamps(true)))
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result), parquetSchema.String(), result.String())
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestConvertArrowDecimals(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("decimal_8_4", parquet.Repetitions.Required,
-		schema.NewDecimalLogicalType(8, 4), parquet.Types.FixedLenByteArray, 4, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "decimal_8_4", Type: &arrow.Decimal128Type{Precision: 8, Scale: 4}})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("decimal_20_4", parquet.Repetitions.Required,
-		schema.NewDecimalLogicalType(20, 4), parquet.Types.FixedLenByteArray, 9, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "decimal_20_4", Type: &arrow.Decimal128Type{Precision: 20, Scale: 4}})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("decimal_77_4", parquet.Repetitions.Required,
-		schema.NewDecimalLogicalType(77, 4), parquet.Types.FixedLenByteArray, 34, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "decimal_77_4", Type: &arrow.Decimal128Type{Precision: 77, Scale: 4}})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, nil, pqarrow.NewArrowWriterProperties(pqarrow.WithDeprecatedInt96Timestamps(true)))
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result))
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestConvertArrowFloat16(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("float16", parquet.Repetitions.Required,
-		schema.Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "float16", Type: &arrow.Float16Type{}})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, nil, pqarrow.NewArrowWriterProperties(pqarrow.WithDeprecatedInt96Timestamps(true)))
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result))
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestCoerceTImestampV1(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("timestamp", parquet.Repetitions.Required,
-		schema.NewTimestampLogicalTypeForce(true, schema.TimeUnitMicros), parquet.Types.Int64, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "timestamp", Type: &arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "EST"}})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, parquet.NewWriterProperties(parquet.WithVersion(parquet.V1_0)), pqarrow.NewArrowWriterProperties(pqarrow.WithCoerceTimestamps(arrow.Microsecond)))
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result))
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestAutoCoerceTImestampV1(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("timestamp", parquet.Repetitions.Required,
-		schema.NewTimestampLogicalTypeForce(true, schema.TimeUnitMicros), parquet.Types.Int64, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "timestamp", Type: &arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "EST"}})
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("timestamp[ms]", parquet.Repetitions.Required,
-		schema.NewTimestampLogicalTypeForce(false, schema.TimeUnitMillis), parquet.Types.Int64, 0, -1)))
-	arrowFields = append(arrowFields, arrow.Field{Name: "timestamp[ms]", Type: &arrow.TimestampType{Unit: arrow.Second}})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, parquet.NewWriterProperties(parquet.WithVersion(parquet.V1_0)), pqarrow.NewArrowWriterProperties())
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result))
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestConvertArrowStruct(t *testing.T) {
-	parquetFields := make(schema.FieldList, 0)
-	arrowFields := make([]arrow.Field, 0)
-
-	parquetFields = append(parquetFields, schema.Must(schema.NewPrimitiveNodeLogical("leaf1", parquet.Repetitions.Optional, schema.NewIntLogicalType(32, true), parquet.Types.Int32, 0, -1)))
-	parquetFields = append(parquetFields, schema.Must(schema.NewGroupNode("outerGroup", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.NewPrimitiveNodeLogical("leaf2", parquet.Repetitions.Optional, schema.NewIntLogicalType(32, true), parquet.Types.Int32, 0, -1)),
-		schema.Must(schema.NewGroupNode("innerGroup", parquet.Repetitions.Required, schema.FieldList{
-			schema.Must(schema.NewPrimitiveNodeLogical("leaf3", parquet.Repetitions.Optional, schema.NewIntLogicalType(32, true), parquet.Types.Int32, 0, -1)),
-		}, -1)),
-	}, -1)))
-
-	arrowFields = append(arrowFields, arrow.Field{Name: "leaf1", Type: arrow.PrimitiveTypes.Int32, Nullable: true})
-	arrowFields = append(arrowFields, arrow.Field{Name: "outerGroup", Type: arrow.StructOf(
-		arrow.Field{Name: "leaf2", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		arrow.Field{Name: "innerGroup", Type: arrow.StructOf(
-			arrow.Field{Name: "leaf3", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
-		)},
-	)})
-
-	arrowSchema := arrow.NewSchema(arrowFields, nil)
-	parquetSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, parquetFields, -1)))
-
-	result, err := pqarrow.ToParquet(arrowSchema, nil, pqarrow.NewArrowWriterProperties())
-	assert.NoError(t, err)
-	assert.True(t, parquetSchema.Equals(result))
-	for i := 0; i < parquetSchema.NumColumns(); i++ {
-		assert.Truef(t, parquetSchema.Column(i).Equals(result.Column(i)), "Column %d didn't match: %s", i, parquetSchema.Column(i).Name())
-	}
-}
-
-func TestListStructBackwardCompatible(t *testing.T) {
-	// Set up old construction for list of struct, not using
-	// the 3-level encoding. Schema looks like:
-	//
-	//     required group field_id=-1 root {
-	//       optional group field_id=-1 answers (List) {
-	//		   repeated group field_id=-1 array {
-	//           optional byte_array field_id=-1 type (String);
-	//           optional byte_array field_id=-1 rdata (String);
-	//           optional byte_array field_id=-1 class (String);
-	//         }
-	//       }
-	//     }
-	//
-	// Instead of the proper 3-level encoding which would be:
-	//
-	//     repeated group field_id=-1 schema {
-	//       optional group field_id=-1 answers (List) {
-	//         repeated group field_id=-1 list {
-	//           optional group field_id=-1 element {
-	//             optional byte_array field_id=-1 type (String);
-	//             optional byte_array field_id=-1 rdata (String);
-	//             optional byte_array field_id=-1 class (String);
-	//           }
-	//         }
-	//       }
-	//     }
-	//
-	pqSchema := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("root", parquet.Repetitions.Required, schema.FieldList{
-		schema.Must(schema.NewGroupNodeLogical("answers", parquet.Repetitions.Optional, schema.FieldList{
-			schema.Must(schema.NewGroupNode("array", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.MustPrimitive(schema.NewPrimitiveNodeLogical("type", parquet.Repetitions.Optional,
-					schema.StringLogicalType{}, parquet.Types.ByteArray, -1, -1)),
-				schema.MustPrimitive(schema.NewPrimitiveNodeLogical("rdata", parquet.Repetitions.Optional,
-					schema.StringLogicalType{}, parquet.Types.ByteArray, -1, -1)),
-				schema.MustPrimitive(schema.NewPrimitiveNodeLogical("class", parquet.Repetitions.Optional,
-					schema.StringLogicalType{}, parquet.Types.ByteArray, -1, -1)),
-			}, -1)),
-		}, schema.NewListLogicalType(), -1)),
-	}, -1)))
-
-	meta := arrow.NewMetadata([]string{"PARQUET:field_id"}, []string{"-1"})
-	// desired equivalent arrow schema would be list<item: struct<type: utf8, rdata: utf8, class: utf8>>
-	arrowSchema := arrow.NewSchema(
-		[]arrow.Field{
-			{Name: "answers", Type: arrow.ListOfField(arrow.Field{
-				Name: "array", Type: arrow.StructOf(
-					arrow.Field{Name: "type", Type: arrow.BinaryTypes.String, Nullable: true, Metadata: meta},
-					arrow.Field{Name: "rdata", Type: arrow.BinaryTypes.String, Nullable: true, Metadata: meta},
-					arrow.Field{Name: "class", Type: arrow.BinaryTypes.String, Nullable: true, Metadata: meta},
-				), Nullable: true}), Nullable: true, Metadata: meta},
-		}, nil)
-
-	arrsc, err := pqarrow.FromParquet(pqSchema, nil, metadata.KeyValueMetadata{})
-	assert.NoError(t, err)
-	assert.True(t, arrowSchema.Equal(arrsc))
-}
-
-// TestUnsupportedTypes tests the error message for unsupported types. This test should be updated
-// when support for these types is added.
-func TestUnsupportedTypes(t *testing.T) {
-	unsupportedTypes := []struct {
-		typ arrow.DataType
-	}{
-		// Non-exhaustive list of unsupported types
-		{typ: &arrow.DurationType{}},
-		{typ: &arrow.DayTimeIntervalType{}},
-		{typ: &arrow.MonthIntervalType{}},
-		{typ: &arrow.MonthDayNanoIntervalType{}},
-		{typ: &arrow.DenseUnionType{}},
-		{typ: &arrow.SparseUnionType{}},
-	}
-	for _, tc := range unsupportedTypes {
-		t.Run(tc.typ.ID().String(), func(t *testing.T) {
-			arrowFields := make([]arrow.Field, 0)
-			arrowFields = append(arrowFields, arrow.Field{Name: "unsupported", Type: tc.typ, Nullable: true})
-			arrowSchema := arrow.NewSchema(arrowFields, nil)
-			_, err := pqarrow.ToParquet(arrowSchema, nil, pqarrow.NewArrowWriterProperties())
-			assert.ErrorIs(t, err, arrow.ErrNotImplemented)
-			assert.ErrorContains(t, err, "support for "+tc.typ.ID().String())
-		})
-	}
-}
diff --git a/go/parquet/reader_properties.go b/go/parquet/reader_properties.go
deleted file mode 100644
index a9db8efaffb23..0000000000000
--- a/go/parquet/reader_properties.go
+++ /dev/null
@@ -1,88 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet
-
-import (
-	"bytes"
-	"fmt"
-	"io"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/internal/utils"
-)
-
-// ReaderProperties are used to define how the file reader will handle buffering and allocating buffers
-type ReaderProperties struct {
-	alloc memory.Allocator
-	// Default buffer size to utilize when reading chunks, when reading page
-	// headers or other metadata, this buffer may be increased if necessary
-	// to read in the necessary metadata. The value here is simply the default
-	// initial BufferSize when reading a new chunk.
-	BufferSize int64
-	// create with NewFileDecryptionProperties if dealing with an encrypted file
-	FileDecryptProps *FileDecryptionProperties
-	// If this is set to true, then the reader will use SectionReader to
-	// just use the read stream when reading data. Otherwise we will buffer
-	// the data we're going to read into memory first and then read that buffer.
-	//
-	// If reading from higher latency IO, like S3, it might improve performance to
-	// set this to true in order to read the entire row group in at once rather than
-	// make multiple smaller data requests. For low latency IO streams or if only
-	// reading small portions / subsets  of the parquet file, this can be set to false
-	// to reduce the amount of IO performed in order to avoid reading excess amounts of data.
-	BufferedStreamEnabled bool
-}
-
-type BufferedReader interface {
-	Peek(int) ([]byte, error)
-	Discard(int) (int, error)
-	io.Reader
-}
-
-// NewReaderProperties returns the default Reader Properties using the provided allocator.
-//
-// If nil is passed for the allocator, then memory.DefaultAllocator will be used.
-func NewReaderProperties(alloc memory.Allocator) *ReaderProperties {
-	if alloc == nil {
-		alloc = memory.DefaultAllocator
-	}
-	return &ReaderProperties{alloc, DefaultBufSize, nil, false}
-}
-
-// Allocator returns the allocator that the properties were initialized with
-func (r *ReaderProperties) Allocator() memory.Allocator { return r.alloc }
-
-// GetStream returns a section of the underlying reader based on whether or not BufferedStream is enabled.
-//
-// If BufferedStreamEnabled is true, it creates an io.SectionReader, otherwise it will read the entire section
-// into a buffer in memory and return a bytes.NewReader for that buffer.
-func (r *ReaderProperties) GetStream(source io.ReaderAt, start, nbytes int64) (BufferedReader, error) {
-	if r.BufferedStreamEnabled {
-		return utils.NewBufferedReader(io.NewSectionReader(source, start, nbytes), int(r.BufferSize)), nil
-	}
-
-	data := make([]byte, nbytes)
-	n, err := source.ReadAt(data, start)
-	if err != nil {
-		return nil, fmt.Errorf("parquet: tried reading from file, but got error: %w", err)
-	}
-	if n != int(nbytes) {
-		return nil, fmt.Errorf("parquet: tried reading %d bytes starting at position %d from file but only got %d", nbytes, start, n)
-	}
-
-	return utils.NewBufferedReader(bytes.NewReader(data), int(nbytes)), nil
-}
diff --git a/go/parquet/reader_writer_properties_test.go b/go/parquet/reader_writer_properties_test.go
deleted file mode 100644
index f07219c6463aa..0000000000000
--- a/go/parquet/reader_writer_properties_test.go
+++ /dev/null
@@ -1,73 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet_test
-
-import (
-	"bytes"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestReaderPropBasics(t *testing.T) {
-	props := parquet.NewReaderProperties(nil)
-	assert.Equal(t, parquet.DefaultBufSize, props.BufferSize)
-	assert.False(t, props.BufferedStreamEnabled)
-}
-
-func TestWriterPropBasics(t *testing.T) {
-	props := parquet.NewWriterProperties()
-
-	assert.Equal(t, parquet.DefaultDataPageSize, props.DataPageSize())
-	assert.Equal(t, parquet.DefaultDictionaryPageSizeLimit, props.DictionaryPageSizeLimit())
-	assert.Equal(t, parquet.V2_LATEST, props.Version())
-	assert.Equal(t, parquet.DataPageV1, props.DataPageVersion())
-}
-
-func TestWriterPropAdvanced(t *testing.T) {
-	props := parquet.NewWriterProperties(
-		parquet.WithCompressionFor("gzip", compress.Codecs.Gzip),
-		parquet.WithCompressionFor("zstd", compress.Codecs.Zstd),
-		parquet.WithCompression(compress.Codecs.Snappy),
-		parquet.WithEncoding(parquet.Encodings.DeltaBinaryPacked),
-		parquet.WithEncodingFor("delta-length", parquet.Encodings.DeltaLengthByteArray),
-		parquet.WithDataPageVersion(parquet.DataPageV2),
-		parquet.WithRootName("test2"),
-		parquet.WithRootRepetition(parquet.Repetitions.Required))
-
-	assert.Equal(t, compress.Codecs.Gzip, props.CompressionPath(parquet.ColumnPathFromString("gzip")))
-	assert.Equal(t, compress.Codecs.Zstd, props.CompressionFor("zstd"))
-	assert.Equal(t, compress.Codecs.Snappy, props.CompressionPath(parquet.ColumnPathFromString("delta-length")))
-	assert.Equal(t, parquet.Encodings.DeltaBinaryPacked, props.EncodingFor("gzip"))
-	assert.Equal(t, parquet.Encodings.DeltaLengthByteArray, props.EncodingPath(parquet.ColumnPathFromString("delta-length")))
-	assert.Equal(t, parquet.DataPageV2, props.DataPageVersion())
-	assert.Equal(t, "test2", props.RootName())
-	assert.Equal(t, parquet.Repetitions.Required, props.RootRepetition())
-}
-
-func TestReaderPropsGetStreamInsufficient(t *testing.T) {
-	data := "shorter than expected"
-	buf := memory.NewBufferBytes([]byte(data))
-	rdr := bytes.NewReader(buf.Bytes())
-
-	props := parquet.NewReaderProperties(nil)
-	_, err := props.GetStream(rdr, 12, 15)
-	assert.Error(t, err)
-}
diff --git a/go/parquet/schema/column.go b/go/parquet/schema/column.go
deleted file mode 100644
index e3cd9f709cddb..0000000000000
--- a/go/parquet/schema/column.go
+++ /dev/null
@@ -1,108 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"fmt"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-// Column encapsulates the information necessary to interpret primitive
-// column data in the context of a particular schema. We have to examine
-// the node structure of a column's path to the root in the schema tree
-// to be able to reassemble the nested structure from the repetition and
-// definition levels.
-type Column struct {
-	pnode *PrimitiveNode
-	// the maximum definition level in this column
-	// if this is > 0 then either this column or a parent column must be optional.
-	maxDefLvl int16
-	// the maximum repetition level in this column
-	// if this is > 0, then either this column or a parent column must be repeated.
-	// when the repetition level in the column data equals this value, it indicates
-	// additional elements in the innermost list.
-	maxRepLvl int16
-}
-
-// NewColumn returns a new column object for the given node with the provided
-// maximum definition and repetition levels.
-func NewColumn(n *PrimitiveNode, maxDefinitionLvl, maxRepetitionLvl int16) *Column {
-	return &Column{n, maxDefinitionLvl, maxRepetitionLvl}
-}
-
-// Name is the column's name
-func (c *Column) Name() string { return c.pnode.Name() }
-
-// ColumnPath returns the full path to this column from the root of the schema
-func (c *Column) ColumnPath() parquet.ColumnPath { return c.pnode.columnPath() }
-
-// Path is equivalent to ColumnPath().String() returning the dot-string version of the path
-func (c *Column) Path() string { return c.pnode.Path() }
-
-// TypeLength is -1 if not a FixedLenByteArray, otherwise it is the length of elements in the column
-func (c *Column) TypeLength() int { return c.pnode.TypeLength() }
-
-func (c *Column) MaxDefinitionLevel() int16        { return c.maxDefLvl }
-func (c *Column) MaxRepetitionLevel() int16        { return c.maxRepLvl }
-func (c *Column) PhysicalType() parquet.Type       { return c.pnode.PhysicalType() }
-func (c *Column) ConvertedType() ConvertedType     { return c.pnode.convertedType }
-func (c *Column) LogicalType() LogicalType         { return c.pnode.logicalType }
-func (c *Column) ColumnOrder() parquet.ColumnOrder { return c.pnode.ColumnOrder }
-func (c *Column) String() string {
-	var bld strings.Builder
-	bld.WriteString("column descriptor = {\n")
-	fmt.Fprintf(&bld, "  name: %s,\n", c.Name())
-	fmt.Fprintf(&bld, "  path: %s,\n", c.Path())
-	fmt.Fprintf(&bld, "  physical_type: %s,\n", c.PhysicalType())
-	fmt.Fprintf(&bld, "  converted_type: %s,\n", c.ConvertedType())
-	fmt.Fprintf(&bld, "  logical_type: %s,\n", c.LogicalType())
-	fmt.Fprintf(&bld, "  max_definition_level: %d,\n", c.MaxDefinitionLevel())
-	fmt.Fprintf(&bld, "  max_repetition_level: %d,\n", c.MaxRepetitionLevel())
-	if c.PhysicalType() == parquet.Types.FixedLenByteArray {
-		fmt.Fprintf(&bld, "  length: %d,\n", c.TypeLength())
-	}
-	if c.ConvertedType() == ConvertedTypes.Decimal {
-		fmt.Fprintf(&bld, "  precision: %d,\n  scale: %d,\n", c.pnode.decimalMetaData.Precision, c.pnode.decimalMetaData.Scale)
-	}
-	bld.WriteString("}")
-	return bld.String()
-}
-
-// Equals will return true if the rhs Column has the same Max Repetition and Definition levels
-// along with having the same node definition.
-func (c *Column) Equals(rhs *Column) bool {
-	return c.pnode.Equals(rhs.pnode) &&
-		c.MaxRepetitionLevel() == rhs.MaxRepetitionLevel() &&
-		c.MaxDefinitionLevel() == rhs.MaxDefinitionLevel()
-}
-
-// SchemaNode returns the underlying Node in the schema tree for this column.
-func (c *Column) SchemaNode() Node {
-	return c.pnode
-}
-
-// SortOrder returns the sort order of this column's statistics based on the
-// Logical and Converted types.
-func (c *Column) SortOrder() SortOrder {
-	if c.LogicalType() != nil {
-		return GetLogicalSortOrder(c.LogicalType(), format.Type(c.pnode.PhysicalType()))
-	}
-	return GetSortOrder(c.ConvertedType(), format.Type(c.pnode.PhysicalType()))
-}
diff --git a/go/parquet/schema/converted_types.go b/go/parquet/schema/converted_types.go
deleted file mode 100644
index b2b6f50cbf682..0000000000000
--- a/go/parquet/schema/converted_types.go
+++ /dev/null
@@ -1,187 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-// ConvertedType corresponds to the ConvertedType in the parquet.Thrift,
-// with added values of None and NA for handling when these values are not
-// set in the metadata
-type ConvertedType format.ConvertedType
-
-var (
-	// ConvertedTypes is a struct containing the constants for the types
-	// to make it easy to reference them while making it clear what they are
-	ConvertedTypes = struct {
-		None            ConvertedType
-		UTF8            ConvertedType
-		Map             ConvertedType
-		MapKeyValue     ConvertedType
-		List            ConvertedType
-		Enum            ConvertedType
-		Decimal         ConvertedType
-		Date            ConvertedType
-		TimeMillis      ConvertedType
-		TimeMicros      ConvertedType
-		TimestampMillis ConvertedType
-		TimestampMicros ConvertedType
-		Uint8           ConvertedType
-		Uint16          ConvertedType
-		Uint32          ConvertedType
-		Uint64          ConvertedType
-		Int8            ConvertedType
-		Int16           ConvertedType
-		Int32           ConvertedType
-		Int64           ConvertedType
-		JSON            ConvertedType
-		BSON            ConvertedType
-		Interval        ConvertedType
-		NA              ConvertedType
-	}{
-		None:            -1, // thrift enum starts at 0, so we know this will not be used
-		UTF8:            ConvertedType(format.ConvertedType_UTF8),
-		Map:             ConvertedType(format.ConvertedType_MAP),
-		MapKeyValue:     ConvertedType(format.ConvertedType_MAP_KEY_VALUE),
-		List:            ConvertedType(format.ConvertedType_LIST),
-		Enum:            ConvertedType(format.ConvertedType_ENUM),
-		Decimal:         ConvertedType(format.ConvertedType_DECIMAL),
-		Date:            ConvertedType(format.ConvertedType_DATE),
-		TimeMillis:      ConvertedType(format.ConvertedType_TIME_MILLIS),
-		TimeMicros:      ConvertedType(format.ConvertedType_TIME_MICROS),
-		TimestampMillis: ConvertedType(format.ConvertedType_TIMESTAMP_MILLIS),
-		TimestampMicros: ConvertedType(format.ConvertedType_TIMESTAMP_MICROS),
-		Uint8:           ConvertedType(format.ConvertedType_UINT_8),
-		Uint16:          ConvertedType(format.ConvertedType_UINT_16),
-		Uint32:          ConvertedType(format.ConvertedType_UINT_32),
-		Uint64:          ConvertedType(format.ConvertedType_UINT_64),
-		Int8:            ConvertedType(format.ConvertedType_INT_8),
-		Int16:           ConvertedType(format.ConvertedType_INT_16),
-		Int32:           ConvertedType(format.ConvertedType_INT_32),
-		Int64:           ConvertedType(format.ConvertedType_INT_64),
-		JSON:            ConvertedType(format.ConvertedType_JSON),
-		BSON:            ConvertedType(format.ConvertedType_BSON),
-		Interval:        ConvertedType(format.ConvertedType_INTERVAL),
-		NA:              24, // should always be the last values after Interval
-	}
-)
-
-func (p ConvertedType) String() string {
-	switch p {
-	case ConvertedTypes.None:
-		return "NONE"
-	case ConvertedTypes.NA:
-		return "UNKNOWN"
-	default:
-		return format.ConvertedType(p).String()
-	}
-}
-
-// ToLogicalType returns the correct LogicalType for the given ConvertedType, using the decimal
-// metadata provided to define the precision/scale if necessary
-func (p ConvertedType) ToLogicalType(convertedDecimal DecimalMetadata) LogicalType {
-	switch p {
-	case ConvertedTypes.UTF8:
-		return StringLogicalType{}
-	case ConvertedTypes.Map, ConvertedTypes.MapKeyValue:
-		return MapLogicalType{}
-	case ConvertedTypes.List:
-		return ListLogicalType{}
-	case ConvertedTypes.Enum:
-		return EnumLogicalType{}
-	case ConvertedTypes.Decimal:
-		return NewDecimalLogicalType(convertedDecimal.Precision, convertedDecimal.Scale)
-	case ConvertedTypes.Date:
-		return DateLogicalType{}
-	case ConvertedTypes.TimeMillis:
-		return NewTimeLogicalType(true /* adjustedToUTC */, TimeUnitMillis)
-	case ConvertedTypes.TimeMicros:
-		return NewTimeLogicalType(true /* adjustedToUTC */, TimeUnitMicros)
-	case ConvertedTypes.TimestampMillis:
-		return NewTimestampLogicalTypeWithOpts(WithTSIsAdjustedToUTC(), WithTSTimeUnitType(TimeUnitMillis), WithTSFromConverted())
-	case ConvertedTypes.TimestampMicros:
-		return NewTimestampLogicalTypeWithOpts(WithTSIsAdjustedToUTC(), WithTSTimeUnitType(TimeUnitMicros), WithTSFromConverted())
-	case ConvertedTypes.Interval:
-		return IntervalLogicalType{}
-	case ConvertedTypes.Int8:
-		return NewIntLogicalType(8 /* bitWidth */, true /* signed */)
-	case ConvertedTypes.Int16:
-		return NewIntLogicalType(16 /* bitWidth */, true /* signed */)
-	case ConvertedTypes.Int32:
-		return NewIntLogicalType(32 /* bitWidth */, true /* signed */)
-	case ConvertedTypes.Int64:
-		return NewIntLogicalType(64 /* bitWidth */, true /* signed */)
-	case ConvertedTypes.Uint8:
-		return NewIntLogicalType(8 /* bitWidth */, false /* signed */)
-	case ConvertedTypes.Uint16:
-		return NewIntLogicalType(16 /* bitWidth */, false /* signed */)
-	case ConvertedTypes.Uint32:
-		return NewIntLogicalType(32 /* bitWidth */, false /* signed */)
-	case ConvertedTypes.Uint64:
-		return NewIntLogicalType(64 /* bitWidth */, false /* signed */)
-	case ConvertedTypes.JSON:
-		return JSONLogicalType{}
-	case ConvertedTypes.BSON:
-		return BSONLogicalType{}
-	case ConvertedTypes.None:
-		return NoLogicalType{}
-	case ConvertedTypes.NA:
-		fallthrough
-	default:
-		return UnknownLogicalType{}
-	}
-}
-
-// GetSortOrder defaults to the sort order based on the physical type if convert
-// is ConvertedTypes.None, otherwise determines the sort order by the converted type.
-func GetSortOrder(convert ConvertedType, primitive format.Type) SortOrder {
-	if convert == ConvertedTypes.None {
-		return DefaultSortOrder(primitive)
-	}
-	switch convert {
-	case ConvertedTypes.Int8,
-		ConvertedTypes.Int16,
-		ConvertedTypes.Int32,
-		ConvertedTypes.Int64,
-		ConvertedTypes.Date,
-		ConvertedTypes.TimeMicros,
-		ConvertedTypes.TimeMillis,
-		ConvertedTypes.TimestampMicros,
-		ConvertedTypes.TimestampMillis,
-		ConvertedTypes.Decimal:
-		return SortSIGNED
-	case ConvertedTypes.Uint8,
-		ConvertedTypes.Uint16,
-		ConvertedTypes.Uint32,
-		ConvertedTypes.Uint64,
-		ConvertedTypes.Enum,
-		ConvertedTypes.UTF8,
-		ConvertedTypes.BSON,
-		ConvertedTypes.JSON:
-		return SortUNSIGNED
-	case ConvertedTypes.List,
-		ConvertedTypes.Map,
-		ConvertedTypes.MapKeyValue,
-		ConvertedTypes.Interval,
-		ConvertedTypes.None,
-		ConvertedTypes.NA:
-		return SortUNKNOWN
-	default:
-		return SortUNKNOWN
-	}
-}
diff --git a/go/parquet/schema/converted_types_test.go b/go/parquet/schema/converted_types_test.go
deleted file mode 100644
index 074bcb823942a..0000000000000
--- a/go/parquet/schema/converted_types_test.go
+++ /dev/null
@@ -1,50 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestConvertedTypesToString(t *testing.T) {
-	assert.Equal(t, "NONE", schema.ConvertedTypes.None.String())
-	assert.Equal(t, "UTF8", schema.ConvertedTypes.UTF8.String())
-	assert.Equal(t, "MAP", schema.ConvertedTypes.Map.String())
-	assert.Equal(t, "MAP_KEY_VALUE", schema.ConvertedTypes.MapKeyValue.String())
-	assert.Equal(t, "LIST", schema.ConvertedTypes.List.String())
-	assert.Equal(t, "ENUM", schema.ConvertedTypes.Enum.String())
-	assert.Equal(t, "DECIMAL", schema.ConvertedTypes.Decimal.String())
-	assert.Equal(t, "DATE", schema.ConvertedTypes.Date.String())
-	assert.Equal(t, "TIME_MILLIS", schema.ConvertedTypes.TimeMillis.String())
-	assert.Equal(t, "TIME_MICROS", schema.ConvertedTypes.TimeMicros.String())
-	assert.Equal(t, "TIMESTAMP_MILLIS", schema.ConvertedTypes.TimestampMillis.String())
-	assert.Equal(t, "TIMESTAMP_MICROS", schema.ConvertedTypes.TimestampMicros.String())
-	assert.Equal(t, "UINT_8", schema.ConvertedTypes.Uint8.String())
-	assert.Equal(t, "UINT_16", schema.ConvertedTypes.Uint16.String())
-	assert.Equal(t, "UINT_32", schema.ConvertedTypes.Uint32.String())
-	assert.Equal(t, "UINT_64", schema.ConvertedTypes.Uint64.String())
-	assert.Equal(t, "INT_8", schema.ConvertedTypes.Int8.String())
-	assert.Equal(t, "INT_16", schema.ConvertedTypes.Int16.String())
-	assert.Equal(t, "INT_32", schema.ConvertedTypes.Int32.String())
-	assert.Equal(t, "INT_64", schema.ConvertedTypes.Int64.String())
-	assert.Equal(t, "JSON", schema.ConvertedTypes.JSON.String())
-	assert.Equal(t, "BSON", schema.ConvertedTypes.BSON.String())
-	assert.Equal(t, "INTERVAL", schema.ConvertedTypes.Interval.String())
-}
diff --git a/go/parquet/schema/helpers.go b/go/parquet/schema/helpers.go
deleted file mode 100644
index 87022442128b1..0000000000000
--- a/go/parquet/schema/helpers.go
+++ /dev/null
@@ -1,129 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"github.com/apache/arrow/go/v18/parquet"
-	"golang.org/x/xerrors"
-)
-
-// ListOf is a convenience helper function to create a properly structured
-// list structure according to the Parquet Spec.
-//
-//	<list-repetition> group <name> (LIST) {
-//	  repeated group list {
-//	    <element-repetition> <element-type> element;
-//	  }
-//	}
-//
-// <list-repetition> can only be optional or required.
-// <element-repetition> can only be optional or required.
-func ListOf(n Node, rep parquet.Repetition, fieldID int32) (*GroupNode, error) {
-	return ListOfWithName(n.Name(), n, rep, fieldID)
-}
-
-// ListOf is a convenience helper function to create a properly structured
-// list structure according to the Parquet Spec.
-//
-//	<list-repetition> group <name> (LIST) {
-//	  repeated group list {
-//	    <element-repetition> <element-type> element;
-//	  }
-//	}
-//
-// <list-repetition> can only be optional or required.
-// <element-repetition> can only be optional or required.
-func ListOfWithName(listName string, element Node, rep parquet.Repetition, fieldID int32) (*GroupNode, error) {
-	if rep == parquet.Repetitions.Repeated {
-		return nil, xerrors.Errorf("parquet: listof repetition must not be repeated, got :%s", rep)
-	}
-
-	if element.RepetitionType() == parquet.Repetitions.Repeated {
-		return nil, xerrors.Errorf("parquet: element repetition must not be repeated, got: %s", element.RepetitionType())
-	}
-
-	switch n := element.(type) {
-	case *PrimitiveNode:
-		n.name = "element"
-	case *GroupNode:
-		n.name = "element"
-	}
-
-	list, err := NewGroupNode("list" /* name */, parquet.Repetitions.Repeated, FieldList{element}, -1 /* fieldID */)
-	if err != nil {
-		return nil, err
-	}
-
-	return NewGroupNodeLogical(listName, rep, FieldList{list}, ListLogicalType{}, fieldID)
-}
-
-// MapOf is a convenience helper function to create a properly structured
-// parquet map node setup according to the Parquet Spec.
-//
-//	<map-repetition> group <name> (MAP) {
-//		 repeated group key_value {
-//		   required <key-type> key;
-//	    <value-repetition> <value-type> value;
-//	  }
-//	}
-//
-// key node will be renamed to "key", value node if not nil will be renamed to "value"
-//
-// <map-repetition> must be only optional or required. panics if repeated is passed.
-//
-// the key node *must* be required repetition. panics if optional or repeated
-//
-// value node can be nil (omitted) or have a repetition of required or optional *only*.
-func MapOf(name string, key Node, value Node, mapRep parquet.Repetition, fieldID int32) (*GroupNode, error) {
-	if mapRep == parquet.Repetitions.Repeated {
-		return nil, xerrors.Errorf("parquet: map repetition cannot be Repeated, got: %s", mapRep)
-	}
-
-	if key.RepetitionType() != parquet.Repetitions.Required {
-		return nil, xerrors.Errorf("parquet: map key repetition must be Required, got: %s", key.RepetitionType())
-	}
-
-	if value != nil {
-		if value.RepetitionType() == parquet.Repetitions.Repeated {
-			return nil, xerrors.New("parquet: map value cannot have repetition Repeated")
-		}
-		switch value := value.(type) {
-		case *PrimitiveNode:
-			value.name = "value"
-		case *GroupNode:
-			value.name = "value"
-		}
-	}
-
-	switch key := key.(type) {
-	case *PrimitiveNode:
-		key.name = "key"
-	case *GroupNode:
-		key.name = "key"
-	}
-
-	keyval := FieldList{key}
-	if value != nil {
-		keyval = append(keyval, value)
-	}
-
-	kvNode, err := NewGroupNode("key_value" /* name */, parquet.Repetitions.Repeated, keyval, -1 /* fieldID */)
-	if err != nil {
-		return nil, err
-	}
-	return NewGroupNodeLogical(name, mapRep, FieldList{kvNode}, MapLogicalType{}, fieldID)
-}
diff --git a/go/parquet/schema/helpers_test.go b/go/parquet/schema/helpers_test.go
deleted file mode 100644
index a9127d155f213..0000000000000
--- a/go/parquet/schema/helpers_test.go
+++ /dev/null
@@ -1,122 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema_test
-
-import (
-	"bytes"
-	"strings"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestListOf(t *testing.T) {
-	n := schema.NewByteArrayNode("str", parquet.Repetitions.Required, 1)
-	list, err := schema.ListOf(n, parquet.Repetitions.Optional, 2)
-
-	assert.NoError(t, err)
-	assert.Equal(t, "str", list.Name())
-	assert.Equal(t, parquet.Repetitions.Optional, list.RepetitionType())
-	assert.Equal(t, 1, list.NumFields())
-	assert.EqualValues(t, 2, list.FieldID())
-	assert.IsType(t, &schema.GroupNode{}, list.Field(0))
-	assert.Equal(t, "list", list.Field(0).Name())
-	assert.Equal(t, 1, list.Field(0).(*schema.GroupNode).NumFields())
-	assert.Same(t, n, list.Field(0).(*schema.GroupNode).Field(0))
-	assert.Equal(t, "element", list.Field(0).(*schema.GroupNode).Field(0).Name())
-}
-
-func TestListOfNested(t *testing.T) {
-	n, err := schema.ListOf(schema.NewInt32Node("arrays", parquet.Repetitions.Required, -1), parquet.Repetitions.Required, -1)
-	assert.NoError(t, err)
-	final, err := schema.ListOf(n, parquet.Repetitions.Required, -1)
-	assert.NoError(t, err)
-
-	var buf bytes.Buffer
-	schema.PrintSchema(final, &buf, 4)
-	assert.Equal(t,
-		`required group field_id=-1 arrays (List) {
-    repeated group field_id=-1 list {
-        required group field_id=-1 element (List) {
-            repeated group field_id=-1 list {
-                required int32 field_id=-1 element;
-            }
-        }
-    }
-}`, strings.TrimSpace(buf.String()))
-}
-
-func TestListOfWithNameNested(t *testing.T) {
-	n, err := schema.ListOfWithName("arrays", schema.NewInt32Node("element", parquet.Repetitions.Required, -1), parquet.Repetitions.Required, -1)
-	assert.NoError(t, err)
-	final, err := schema.ListOf(n, parquet.Repetitions.Required, -1)
-	assert.NoError(t, err)
-
-	var buf bytes.Buffer
-	schema.PrintSchema(final, &buf, 4)
-	assert.Equal(t,
-		`required group field_id=-1 arrays (List) {
-    repeated group field_id=-1 list {
-        required group field_id=-1 element (List) {
-            repeated group field_id=-1 list {
-                required int32 field_id=-1 element;
-            }
-        }
-    }
-}`, strings.TrimSpace(buf.String()))
-}
-func TestMapOfNestedTypes(t *testing.T) {
-	n, err := schema.NewGroupNode("student", parquet.Repetitions.Required, schema.FieldList{
-		schema.NewByteArrayNode("name", parquet.Repetitions.Required, -1),
-		schema.NewInt32Node("age", parquet.Repetitions.Optional, -1),
-	}, -1)
-	assert.NoError(t, err)
-
-	grp, err := schema.NewGroupNode("classes", parquet.Repetitions.Optional, schema.FieldList{
-		schema.NewInt32Node("a", parquet.Repetitions.Repeated, -1),
-		schema.NewFloat32Node("b", parquet.Repetitions.Repeated, -1),
-	}, -1)
-	assert.NoError(t, err)
-
-	classes, err := schema.ListOf(grp, parquet.Repetitions.Optional, -1)
-	assert.NoError(t, err)
-
-	m, err := schema.MapOf("studentmap", n, classes, parquet.Repetitions.Required, 1)
-	assert.NoError(t, err)
-
-	var buf bytes.Buffer
-	schema.PrintSchema(m, &buf, 4)
-	assert.Equal(t,
-		`required group field_id=1 studentmap (Map) {
-    repeated group field_id=-1 key_value {
-        required group field_id=-1 key {
-            required byte_array field_id=-1 name;
-            optional int32 field_id=-1 age;
-        }
-        optional group field_id=-1 value (List) {
-            repeated group field_id=-1 list {
-                optional group field_id=-1 element {
-                    repeated int32 field_id=-1 a;
-                    repeated float field_id=-1 b;
-                }
-            }
-        }
-    }
-}`, strings.TrimSpace(buf.String()))
-}
diff --git a/go/parquet/schema/logical_types.go b/go/parquet/schema/logical_types.go
deleted file mode 100644
index fa46ea0172f76..0000000000000
--- a/go/parquet/schema/logical_types.go
+++ /dev/null
@@ -1,1192 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"fmt"
-	"math"
-
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/internal/debug"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-// DecimalMetadata is a struct for managing scale and precision information between
-// converted and logical types.
-type DecimalMetadata struct {
-	IsSet     bool
-	Scale     int32
-	Precision int32
-}
-
-func getLogicalType(l *format.LogicalType) LogicalType {
-	switch {
-	case l.IsSetSTRING():
-		return StringLogicalType{}
-	case l.IsSetMAP():
-		return MapLogicalType{}
-	case l.IsSetLIST():
-		return ListLogicalType{}
-	case l.IsSetENUM():
-		return EnumLogicalType{}
-	case l.IsSetDECIMAL():
-		return DecimalLogicalType{typ: l.DECIMAL}
-	case l.IsSetDATE():
-		return DateLogicalType{}
-	case l.IsSetTIME():
-		if timeUnitFromThrift(l.TIME.Unit) == TimeUnitUnknown {
-			panic("parquet: TimeUnit must be one of MILLIS, MICROS, or NANOS for Time logical type")
-		}
-		return TimeLogicalType{typ: l.TIME}
-	case l.IsSetTIMESTAMP():
-		if timeUnitFromThrift(l.TIMESTAMP.Unit) == TimeUnitUnknown {
-			panic("parquet: TimeUnit must be one of MILLIS, MICROS, or NANOS for Timestamp logical type")
-		}
-		return TimestampLogicalType{typ: l.TIMESTAMP}
-	case l.IsSetINTEGER():
-		return IntLogicalType{typ: l.INTEGER}
-	case l.IsSetUNKNOWN():
-		return NullLogicalType{}
-	case l.IsSetJSON():
-		return JSONLogicalType{}
-	case l.IsSetBSON():
-		return BSONLogicalType{}
-	case l.IsSetUUID():
-		return UUIDLogicalType{}
-	case l.IsSetFLOAT16():
-		return Float16LogicalType{}
-	case l == nil:
-		return NoLogicalType{}
-	default:
-		panic("invalid logical type")
-	}
-}
-
-// TimeUnitType is an enum for denoting whether a time based logical type
-// is using milliseconds, microseconds or nanoseconds.
-type TimeUnitType int
-
-// Constants for the TimeUnitType
-const (
-	TimeUnitMillis TimeUnitType = iota
-	TimeUnitMicros
-	TimeUnitNanos
-	TimeUnitUnknown
-)
-
-// LogicalType is the descriptor that defines the usage of a physical primitive
-// type in the schema, such as an Interval, Date, etc.
-type LogicalType interface {
-	// Returns true if a nested type like List or Map
-	IsNested() bool
-	// Returns true if this type can be serialized, ie: not Unknown/NoType/Interval
-	IsSerialized() bool
-	// Returns true if not NoLogicalType
-	IsValid() bool
-	// Returns true if it is NoType
-	IsNone() bool
-	// returns a string representation of the Logical Type
-	String() string
-	toThrift() *format.LogicalType
-	// Return the equivalent ConvertedType for legacy Parquet systems
-	ToConvertedType() (ConvertedType, DecimalMetadata)
-	// Returns true if the specified ConvertedType is compatible with this
-	// logical type
-	IsCompatible(ConvertedType, DecimalMetadata) bool
-	// Returns true if this logical type can be used with the provided physical type
-	IsApplicable(t parquet.Type, tlen int32) bool
-	// Returns true if the logical types are the same
-	Equals(LogicalType) bool
-	// Returns the default stat sort order for this logical type
-	SortOrder() SortOrder
-}
-
-// TemporalLogicalType is a smaller interface for Time based logical types
-// like Time / Timestamp
-type TemporalLogicalType interface {
-	LogicalType
-	IsAdjustedToUTC() bool
-	TimeUnit() TimeUnitType
-}
-
-// SortOrder mirrors the parquet.thrift sort order type
-type SortOrder int8
-
-// Constants for the Stat sort order definitions
-const (
-	SortSIGNED SortOrder = iota
-	SortUNSIGNED
-	SortUNKNOWN
-)
-
-// DefaultSortOrder returns the default stat sort order for the given physical type
-func DefaultSortOrder(primitive format.Type) SortOrder {
-	switch primitive {
-	case format.Type_BOOLEAN, format.Type_INT32, format.Type_INT64, format.Type_FLOAT, format.Type_DOUBLE:
-		return SortSIGNED
-	case format.Type_BYTE_ARRAY, format.Type_FIXED_LEN_BYTE_ARRAY:
-		return SortUNSIGNED
-	case format.Type_INT96:
-		fallthrough
-	default:
-		return SortUNKNOWN
-	}
-}
-
-// GetLogicalSortOrder returns the default sort order for this logical type
-// or falls back to the default sort order for the physical type if not valid
-func GetLogicalSortOrder(logical LogicalType, primitive format.Type) SortOrder {
-	switch {
-	case logical == nil || !logical.IsValid():
-		return SortUNKNOWN
-	case logical.Equals(NoLogicalType{}):
-		return DefaultSortOrder(primitive)
-	default:
-		return logical.SortOrder()
-	}
-}
-
-type baseLogicalType struct{}
-
-func (baseLogicalType) IsSerialized() bool {
-	return true
-}
-
-func (baseLogicalType) IsValid() bool {
-	return true
-}
-
-func (baseLogicalType) IsNested() bool {
-	return false
-}
-
-func (baseLogicalType) IsNone() bool { return false }
-
-// StringLogicalType is a UTF8 string, only usable with ByteArray and FixedLenByteArray
-type StringLogicalType struct{ baseLogicalType }
-
-func (StringLogicalType) SortOrder() SortOrder {
-	return SortUNSIGNED
-}
-
-func (StringLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": StringLogicalType{}.String()})
-}
-
-func (StringLogicalType) String() string {
-	return "String"
-}
-
-func (StringLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.UTF8, DecimalMetadata{}
-}
-
-func (StringLogicalType) IsCompatible(t ConvertedType, dec DecimalMetadata) bool {
-	return t == ConvertedTypes.UTF8 && !dec.IsSet
-}
-
-func (StringLogicalType) IsApplicable(t parquet.Type, _ int32) bool {
-	return t == parquet.Types.ByteArray
-}
-
-func (StringLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{STRING: format.NewStringType()}
-}
-
-func (StringLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(StringLogicalType)
-	return ok
-}
-
-// MapLogicalType represents a mapped type
-type MapLogicalType struct{ baseLogicalType }
-
-func (MapLogicalType) SortOrder() SortOrder {
-	return SortUNKNOWN
-}
-
-func (MapLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": MapLogicalType{}.String()})
-}
-
-func (MapLogicalType) String() string {
-	return "Map"
-}
-
-func (MapLogicalType) IsNested() bool {
-	return true
-}
-
-func (MapLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.Map, DecimalMetadata{}
-}
-
-func (MapLogicalType) IsCompatible(t ConvertedType, dec DecimalMetadata) bool {
-	return (t == ConvertedTypes.Map || t == ConvertedTypes.MapKeyValue) && !dec.IsSet
-}
-
-func (MapLogicalType) IsApplicable(parquet.Type, int32) bool {
-	return false
-}
-
-func (MapLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{MAP: format.NewMapType()}
-}
-
-func (MapLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(MapLogicalType)
-	return ok
-}
-
-func NewListLogicalType() LogicalType {
-	return ListLogicalType{}
-}
-
-// ListLogicalType is used for columns which are themselves nested lists
-type ListLogicalType struct{ baseLogicalType }
-
-func (ListLogicalType) SortOrder() SortOrder {
-	return SortUNKNOWN
-}
-
-func (ListLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": ListLogicalType{}.String()})
-}
-
-func (ListLogicalType) String() string {
-	return "List"
-}
-
-func (ListLogicalType) IsNested() bool {
-	return true
-}
-
-func (ListLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.List, DecimalMetadata{}
-}
-
-func (ListLogicalType) IsCompatible(t ConvertedType, dec DecimalMetadata) bool {
-	return t == ConvertedTypes.List && !dec.IsSet
-}
-
-func (ListLogicalType) IsApplicable(parquet.Type, int32) bool {
-	return false
-}
-
-func (ListLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{LIST: format.NewListType()}
-}
-
-func (ListLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(ListLogicalType)
-	return ok
-}
-
-// EnumLogicalType is for representing an enum, which should be a byte array type
-type EnumLogicalType struct{ baseLogicalType }
-
-func (EnumLogicalType) SortOrder() SortOrder {
-	return SortUNSIGNED
-}
-
-func (EnumLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": EnumLogicalType{}.String()})
-}
-
-func (EnumLogicalType) String() string {
-	return "Enum"
-}
-
-func (EnumLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.Enum, DecimalMetadata{}
-}
-
-func (EnumLogicalType) IsCompatible(t ConvertedType, dec DecimalMetadata) bool {
-	return t == ConvertedTypes.Enum && !dec.IsSet
-}
-
-func (EnumLogicalType) IsApplicable(t parquet.Type, _ int32) bool {
-	return t == parquet.Types.ByteArray
-}
-
-func (EnumLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{ENUM: format.NewEnumType()}
-}
-
-func (EnumLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(EnumLogicalType)
-	return ok
-}
-
-// NewDecimalLogicalType returns a Decimal logical type with the given
-// precision and scale.
-//
-// Panics if precision < 1 or scale is not in the range (0, precision)
-func NewDecimalLogicalType(precision int32, scale int32) LogicalType {
-	if precision < 1 {
-		panic("parquet: precision must be greater than or equal to 1 for decimal logical type")
-	}
-	if scale < 0 || scale > precision {
-		panic("parquet: scale must be a non-negative integer that does not exceed precision for decimal logical type")
-	}
-	return DecimalLogicalType{typ: &format.DecimalType{Precision: precision, Scale: scale}}
-}
-
-// DecimalLogicalType is used to represent a decimal value of a given
-// precision and scale
-type DecimalLogicalType struct {
-	baseLogicalType
-	typ *format.DecimalType
-}
-
-func (t DecimalLogicalType) Precision() int32 {
-	return t.typ.Precision
-}
-
-func (t DecimalLogicalType) Scale() int32 {
-	return t.typ.Scale
-}
-
-func (DecimalLogicalType) SortOrder() SortOrder {
-	return SortSIGNED
-}
-
-func (t DecimalLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]interface{}{"Type": "Decimal", "precision": t.typ.Precision, "scale": t.typ.Scale})
-}
-
-func (t DecimalLogicalType) String() string {
-	return fmt.Sprintf("Decimal(precision=%d, scale=%d)", t.typ.Precision, t.typ.Scale)
-}
-
-func (t DecimalLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.Decimal, DecimalMetadata{IsSet: true, Scale: t.typ.GetScale(), Precision: t.typ.GetPrecision()}
-}
-
-func (t DecimalLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	return c == ConvertedTypes.Decimal &&
-		dec.IsSet && dec.Scale == t.typ.Scale && dec.Precision == t.typ.Precision
-}
-
-func (t DecimalLogicalType) IsApplicable(typ parquet.Type, tlen int32) bool {
-	switch typ {
-	case parquet.Types.Int32:
-		return 1 <= t.typ.Precision && t.typ.Precision <= 9
-	case parquet.Types.Int64:
-		if t.typ.Precision < 10 {
-			debug.Log("int64 used for decimal logical, precision is small enough to use int32")
-		}
-		return 1 <= t.typ.Precision && t.typ.Precision <= 18
-	case parquet.Types.FixedLenByteArray:
-		return t.typ.Precision <= int32(math.Floor(math.Log10(math.Pow(2.0, (8.0*float64(tlen)-1.0)))))
-	case parquet.Types.ByteArray:
-		return true
-	}
-	return false
-}
-
-func (t DecimalLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{DECIMAL: t.typ}
-}
-
-func (t DecimalLogicalType) Equals(rhs LogicalType) bool {
-	other, ok := rhs.(DecimalLogicalType)
-	if !ok {
-		return false
-	}
-	return t.typ.Precision == other.typ.Precision && t.typ.Scale == other.typ.Scale
-}
-
-// DateLogicalType is an int32 representing the number of days since the Unix Epoch
-// 1 January 1970
-type DateLogicalType struct{ baseLogicalType }
-
-func (DateLogicalType) SortOrder() SortOrder {
-	return SortSIGNED
-}
-
-func (DateLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": DateLogicalType{}.String()})
-}
-
-func (DateLogicalType) String() string {
-	return "Date"
-}
-
-func (DateLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.Date, DecimalMetadata{}
-}
-
-func (DateLogicalType) IsCompatible(t ConvertedType, dec DecimalMetadata) bool {
-	return t == ConvertedTypes.Date && !dec.IsSet
-}
-
-func (DateLogicalType) IsApplicable(t parquet.Type, _ int32) bool {
-	return t == parquet.Types.Int32
-}
-
-func (DateLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{DATE: format.NewDateType()}
-}
-
-func (DateLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(DateLogicalType)
-	return ok
-}
-
-func timeUnitFromThrift(unit *format.TimeUnit) TimeUnitType {
-	switch {
-	case unit == nil:
-		return TimeUnitUnknown
-	case unit.IsSetMILLIS():
-		return TimeUnitMillis
-	case unit.IsSetMICROS():
-		return TimeUnitMicros
-	case unit.IsSetNANOS():
-		return TimeUnitNanos
-	default:
-		return TimeUnitUnknown
-	}
-}
-
-func timeUnitToString(unit *format.TimeUnit) string {
-	switch {
-	case unit == nil:
-		return "unknown"
-	case unit.IsSetMILLIS():
-		return "milliseconds"
-	case unit.IsSetMICROS():
-		return "microseconds"
-	case unit.IsSetNANOS():
-		return "nanoseconds"
-	default:
-		return "unknown"
-	}
-}
-
-func timeUnitFromString(v string) TimeUnitType {
-	switch v {
-	case "millis":
-		return TimeUnitMillis
-	case "micros":
-		return TimeUnitMicros
-	case "nanos":
-		return TimeUnitNanos
-	default:
-		return TimeUnitUnknown
-	}
-}
-
-func createTimeUnit(unit TimeUnitType) *format.TimeUnit {
-	tunit := format.NewTimeUnit()
-	switch unit {
-	case TimeUnitMicros:
-		tunit.MICROS = format.NewMicroSeconds()
-	case TimeUnitMillis:
-		tunit.MILLIS = format.NewMilliSeconds()
-	case TimeUnitNanos:
-		tunit.NANOS = format.NewNanoSeconds()
-	default:
-		panic("parquet: time unit must be one of MILLIS, MICROS, or NANOS for Time logical type")
-	}
-	return tunit
-}
-
-// NewTimeLogicalType returns a time type of the given unit.
-func NewTimeLogicalType(isAdjustedToUTC bool, unit TimeUnitType) LogicalType {
-	return TimeLogicalType{typ: &format.TimeType{
-		IsAdjustedToUTC: isAdjustedToUTC,
-		Unit:            createTimeUnit(unit),
-	}}
-}
-
-// TimeLogicalType is a time type without a date and must be an
-// int32 for milliseconds, or an int64 for micro or nano seconds.
-type TimeLogicalType struct {
-	baseLogicalType
-	typ *format.TimeType
-}
-
-func (t TimeLogicalType) IsAdjustedToUTC() bool {
-	return t.typ.IsAdjustedToUTC
-}
-
-func (t TimeLogicalType) TimeUnit() TimeUnitType {
-	return timeUnitFromThrift(t.typ.Unit)
-}
-
-func (TimeLogicalType) SortOrder() SortOrder {
-	return SortSIGNED
-}
-
-func (t TimeLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]interface{}{
-		"Type": "Time", "isAdjustedToUTC": t.typ.IsAdjustedToUTC, "timeUnit": timeUnitToString(t.typ.GetUnit())})
-}
-
-func (t TimeLogicalType) String() string {
-	return fmt.Sprintf("Time(isAdjustedToUTC=%t, timeUnit=%s)", t.typ.GetIsAdjustedToUTC(), timeUnitToString(t.typ.GetUnit()))
-}
-
-func (t TimeLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	unit := timeUnitFromThrift(t.typ.Unit)
-	if t.typ.IsAdjustedToUTC {
-		switch unit {
-		case TimeUnitMillis:
-			return ConvertedTypes.TimeMillis, DecimalMetadata{}
-		case TimeUnitMicros:
-			return ConvertedTypes.TimeMicros, DecimalMetadata{}
-		}
-	}
-	return ConvertedTypes.None, DecimalMetadata{}
-}
-
-func (t TimeLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	if dec.IsSet {
-		return false
-	}
-	unit := timeUnitFromThrift(t.typ.Unit)
-	if t.typ.IsAdjustedToUTC {
-		switch unit {
-		case TimeUnitMillis:
-			return c == ConvertedTypes.TimeMillis
-		case TimeUnitMicros:
-			return c == ConvertedTypes.TimeMicros
-		}
-	}
-
-	return c == ConvertedTypes.None || c == ConvertedTypes.NA
-}
-
-func (t TimeLogicalType) IsApplicable(typ parquet.Type, _ int32) bool {
-	return (typ == parquet.Types.Int32 && t.typ.GetUnit().IsSetMILLIS()) ||
-		(typ == parquet.Types.Int64 &&
-			(t.typ.GetUnit().IsSetMICROS() || t.typ.GetUnit().IsSetNANOS()))
-}
-
-func (t TimeLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{TIME: t.typ}
-}
-
-func (t TimeLogicalType) Equals(rhs LogicalType) bool {
-	other, ok := rhs.(TimeLogicalType)
-	if !ok {
-		return false
-	}
-	return t.typ.IsAdjustedToUTC == other.typ.IsAdjustedToUTC &&
-		timeUnitFromThrift(t.typ.Unit) == timeUnitFromThrift(other.typ.Unit)
-}
-
-// NewTimestampLogicalType returns a logical timestamp type with "forceConverted"
-// set to false
-func NewTimestampLogicalType(isAdjustedToUTC bool, unit TimeUnitType) LogicalType {
-	return TimestampLogicalType{
-		typ: &format.TimestampType{
-			IsAdjustedToUTC: isAdjustedToUTC,
-			Unit:            createTimeUnit(unit),
-		},
-		forceConverted: false,
-		fromConverted:  false,
-	}
-}
-
-// NewTimestampLogicalTypeForce returns a timestamp logical type with
-// "forceConverted" set to true
-func NewTimestampLogicalTypeForce(isAdjustedToUTC bool, unit TimeUnitType) LogicalType {
-	return TimestampLogicalType{
-		typ: &format.TimestampType{
-			IsAdjustedToUTC: isAdjustedToUTC,
-			Unit:            createTimeUnit(unit),
-		},
-		forceConverted: true,
-		fromConverted:  false,
-	}
-}
-
-// TimestampOpt options used with New Timestamp Logical Type
-type TimestampOpt func(*TimestampLogicalType)
-
-// WithTSIsAdjustedToUTC sets the IsAdjustedToUTC field of the timestamp type.
-func WithTSIsAdjustedToUTC() TimestampOpt {
-	return func(t *TimestampLogicalType) {
-		t.typ.IsAdjustedToUTC = true
-	}
-}
-
-// WithTSTimeUnitType sets the time unit for the timestamp type
-func WithTSTimeUnitType(unit TimeUnitType) TimestampOpt {
-	return func(t *TimestampLogicalType) {
-		t.typ.Unit = createTimeUnit(unit)
-	}
-}
-
-// WithTSForceConverted enable force converted mode
-func WithTSForceConverted() TimestampOpt {
-	return func(t *TimestampLogicalType) {
-		t.forceConverted = true
-	}
-}
-
-// WithTSFromConverted enable the timestamp logical type to be
-// constructed from a converted type.
-func WithTSFromConverted() TimestampOpt {
-	return func(t *TimestampLogicalType) {
-		t.fromConverted = true
-	}
-}
-
-// NewTimestampLogicalTypeWithOpts creates a new TimestampLogicalType with the provided options.
-//
-// TimestampType Unit defaults to milliseconds (TimeUnitMillis)
-func NewTimestampLogicalTypeWithOpts(opts ...TimestampOpt) LogicalType {
-	ts := TimestampLogicalType{
-		typ: &format.TimestampType{
-			Unit: createTimeUnit(TimeUnitMillis), // default to milliseconds
-		},
-	}
-
-	for _, o := range opts {
-		o(&ts)
-	}
-
-	return ts
-}
-
-// TimestampLogicalType represents an int64 number that can be decoded
-// into a year, month, day, hour, minute, second, and subsecond
-type TimestampLogicalType struct {
-	baseLogicalType
-	typ *format.TimestampType
-	// forceConverted denotes whether or not the resulting serialized
-	// type when writing to parquet will be written as the legacy
-	// ConvertedType TIMESTAMP_MICROS/TIMESTAMP_MILLIS (true)
-	// or if it will write the proper current Logical Types (false, default)
-	forceConverted bool
-	// fromConverted denotes if the timestamp type was created by
-	// translating a legacy converted type of TIMESTAMP_MILLIS or
-	// TIMESTAMP_MICROS rather than by using the current logical
-	// types. Default is false.
-	fromConverted bool
-}
-
-func (t TimestampLogicalType) IsFromConvertedType() bool {
-	return t.fromConverted
-}
-
-func (t TimestampLogicalType) IsAdjustedToUTC() bool {
-	return t.typ.IsAdjustedToUTC
-}
-
-func (t TimestampLogicalType) TimeUnit() TimeUnitType {
-	return timeUnitFromThrift(t.typ.Unit)
-}
-
-func (TimestampLogicalType) SortOrder() SortOrder {
-	return SortSIGNED
-}
-
-func (t TimestampLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]interface{}{
-		"Type":                     "Timestamp",
-		"isAdjustedToUTC":          t.typ.IsAdjustedToUTC,
-		"timeUnit":                 timeUnitToString(t.typ.GetUnit()),
-		"is_from_converted_type":   t.fromConverted,
-		"force_set_converted_type": t.forceConverted,
-	})
-}
-
-func (t TimestampLogicalType) IsSerialized() bool {
-	return !t.fromConverted
-}
-
-func (t TimestampLogicalType) String() string {
-	return fmt.Sprintf("Timestamp(isAdjustedToUTC=%t, timeUnit=%s, is_from_converted_type=%t, force_set_converted_type=%t)",
-		t.typ.GetIsAdjustedToUTC(), timeUnitToString(t.typ.GetUnit()), t.fromConverted, t.forceConverted)
-}
-
-func (t TimestampLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	unit := timeUnitFromThrift(t.typ.Unit)
-	if t.typ.IsAdjustedToUTC || t.forceConverted {
-		switch unit {
-		case TimeUnitMillis:
-			return ConvertedTypes.TimestampMillis, DecimalMetadata{}
-		case TimeUnitMicros:
-			return ConvertedTypes.TimestampMicros, DecimalMetadata{}
-		}
-	}
-	return ConvertedTypes.None, DecimalMetadata{}
-}
-
-func (t TimestampLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	if dec.IsSet {
-		return false
-	}
-
-	switch timeUnitFromThrift(t.typ.Unit) {
-	case TimeUnitMillis:
-		if t.typ.GetIsAdjustedToUTC() || t.forceConverted {
-			return c == ConvertedTypes.TimestampMillis
-		}
-	case TimeUnitMicros:
-		if t.typ.GetIsAdjustedToUTC() || t.forceConverted {
-			return c == ConvertedTypes.TimestampMicros
-		}
-	}
-
-	return c == ConvertedTypes.None || c == ConvertedTypes.NA
-}
-
-func (TimestampLogicalType) IsApplicable(t parquet.Type, _ int32) bool {
-	return t == parquet.Types.Int64
-}
-
-func (t TimestampLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{TIMESTAMP: t.typ}
-}
-
-func (t TimestampLogicalType) Equals(rhs LogicalType) bool {
-	other, ok := rhs.(TimestampLogicalType)
-	if !ok {
-		return false
-	}
-	return t.typ.IsAdjustedToUTC == other.typ.IsAdjustedToUTC &&
-		timeUnitFromThrift(t.typ.Unit) == timeUnitFromThrift(other.typ.Unit)
-}
-
-// NewIntLogicalType creates an integer logical type of the desired bitwidth
-// and whether it is signed or not.
-//
-// Bit width must be exactly 8, 16, 32 or 64 for an integer logical type
-func NewIntLogicalType(bitWidth int8, signed bool) LogicalType {
-	switch bitWidth {
-	case 8, 16, 32, 64:
-	default:
-		panic("parquet: bit width must be exactly 8, 16, 32, or 64 for Int logical type")
-	}
-	return IntLogicalType{
-		typ: &format.IntType{
-			BitWidth: bitWidth,
-			IsSigned: signed,
-		},
-	}
-}
-
-// IntLogicalType represents an integer type of a specific bit width and
-// is either signed or unsigned.
-type IntLogicalType struct {
-	baseLogicalType
-	typ *format.IntType
-}
-
-func (t IntLogicalType) BitWidth() int8 {
-	return t.typ.BitWidth
-}
-
-func (t IntLogicalType) IsSigned() bool {
-	return t.typ.IsSigned
-}
-
-func (t IntLogicalType) SortOrder() SortOrder {
-	if t.typ.IsSigned {
-		return SortSIGNED
-	}
-	return SortUNSIGNED
-}
-
-func (t IntLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]interface{}{
-		"Type": "Int", "bitWidth": t.typ.BitWidth, "isSigned": t.typ.IsSigned,
-	})
-}
-
-func (t IntLogicalType) String() string {
-	return fmt.Sprintf("Int(bitWidth=%d, isSigned=%t)", t.typ.GetBitWidth(), t.typ.GetIsSigned())
-}
-
-func (t IntLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	var d DecimalMetadata
-	if t.typ.IsSigned {
-		switch t.typ.BitWidth {
-		case 8:
-			return ConvertedTypes.Int8, d
-		case 16:
-			return ConvertedTypes.Int16, d
-		case 32:
-			return ConvertedTypes.Int32, d
-		case 64:
-			return ConvertedTypes.Int64, d
-		}
-	} else {
-		switch t.typ.BitWidth {
-		case 8:
-			return ConvertedTypes.Uint8, d
-		case 16:
-			return ConvertedTypes.Uint16, d
-		case 32:
-			return ConvertedTypes.Uint32, d
-		case 64:
-			return ConvertedTypes.Uint64, d
-		}
-	}
-	return ConvertedTypes.None, d
-}
-
-func (t IntLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	if dec.IsSet {
-		return false
-	}
-	v, _ := t.ToConvertedType()
-	return c == v
-}
-
-func (t IntLogicalType) IsApplicable(typ parquet.Type, _ int32) bool {
-	return (typ == parquet.Types.Int32 && t.typ.GetBitWidth() <= 32) ||
-		(typ == parquet.Types.Int64 && t.typ.GetBitWidth() == 64)
-}
-
-func (t IntLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{INTEGER: t.typ}
-}
-
-func (t IntLogicalType) Equals(rhs LogicalType) bool {
-	other, ok := rhs.(IntLogicalType)
-	if !ok {
-		return false
-	}
-
-	return t.typ.GetIsSigned() == other.typ.GetIsSigned() &&
-		t.typ.GetBitWidth() == other.typ.GetBitWidth()
-}
-
-// UnknownLogicalType is a type that is essentially a placeholder for when
-// we don't know the type.
-type UnknownLogicalType struct{ baseLogicalType }
-
-func (UnknownLogicalType) SortOrder() SortOrder {
-	return SortUNKNOWN
-}
-
-func (UnknownLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": UnknownLogicalType{}.String()})
-}
-
-func (UnknownLogicalType) IsValid() bool { return false }
-
-func (UnknownLogicalType) IsSerialized() bool { return false }
-
-func (UnknownLogicalType) String() string {
-	return "Unknown"
-}
-
-func (UnknownLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.NA, DecimalMetadata{}
-}
-
-func (UnknownLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	return c == ConvertedTypes.NA && !dec.IsSet
-}
-
-func (UnknownLogicalType) IsApplicable(parquet.Type, int32) bool { return true }
-
-func (UnknownLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{UNKNOWN: format.NewNullType()}
-}
-
-func (UnknownLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(UnknownLogicalType)
-	return ok
-}
-
-// JSONLogicalType represents a byte array column which is to be interpreted
-// as a JSON string.
-type JSONLogicalType struct{ baseLogicalType }
-
-func (JSONLogicalType) SortOrder() SortOrder {
-	return SortUNSIGNED
-}
-
-func (JSONLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": JSONLogicalType{}.String()})
-}
-
-func (JSONLogicalType) String() string {
-	return "JSON"
-}
-
-func (JSONLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.JSON, DecimalMetadata{}
-}
-
-func (JSONLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	return c == ConvertedTypes.JSON && !dec.IsSet
-}
-
-func (JSONLogicalType) IsApplicable(t parquet.Type, _ int32) bool {
-	return t == parquet.Types.ByteArray
-}
-
-func (JSONLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{JSON: format.NewJsonType()}
-}
-
-func (JSONLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(JSONLogicalType)
-	return ok
-}
-
-// BSONLogicalType represents a binary JSON string in the byte array
-type BSONLogicalType struct{ baseLogicalType }
-
-func (BSONLogicalType) SortOrder() SortOrder {
-	return SortUNSIGNED
-}
-
-func (BSONLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": BSONLogicalType{}.String()})
-}
-
-func (BSONLogicalType) String() string {
-	return "BSON"
-}
-
-func (BSONLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.BSON, DecimalMetadata{}
-}
-
-func (BSONLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	return c == ConvertedTypes.BSON && !dec.IsSet
-}
-
-func (BSONLogicalType) IsApplicable(t parquet.Type, _ int32) bool {
-	return t == parquet.Types.ByteArray
-}
-
-func (BSONLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{BSON: format.NewBsonType()}
-}
-
-func (BSONLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(BSONLogicalType)
-	return ok
-}
-
-// UUIDLogicalType can only be used with a FixedLength byte array column
-// that is exactly 16 bytes long
-type UUIDLogicalType struct{ baseLogicalType }
-
-func (UUIDLogicalType) SortOrder() SortOrder {
-	return SortUNSIGNED
-}
-
-func (UUIDLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": UUIDLogicalType{}.String()})
-}
-
-func (UUIDLogicalType) String() string {
-	return "UUID"
-}
-
-func (UUIDLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.None, DecimalMetadata{}
-}
-
-func (UUIDLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	if dec.IsSet {
-		return false
-	}
-	switch c {
-	case ConvertedTypes.None, ConvertedTypes.NA:
-		return true
-	}
-	return false
-}
-
-func (UUIDLogicalType) IsApplicable(t parquet.Type, tlen int32) bool {
-	return t == parquet.Types.FixedLenByteArray && tlen == 16
-}
-
-func (UUIDLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{UUID: format.NewUUIDType()}
-}
-
-func (UUIDLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(UUIDLogicalType)
-	return ok
-}
-
-// IntervalLogicalType is not yet in the thrift spec, but represents
-// an interval time and needs to be a fixed length byte array of 12 bytes
-type IntervalLogicalType struct{ baseLogicalType }
-
-func (IntervalLogicalType) SortOrder() SortOrder {
-	return SortUNKNOWN
-}
-
-func (IntervalLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": IntervalLogicalType{}.String()})
-}
-
-func (IntervalLogicalType) String() string {
-	return "Interval"
-}
-
-func (IntervalLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.Interval, DecimalMetadata{}
-}
-
-func (IntervalLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	return c == ConvertedTypes.Interval && !dec.IsSet
-}
-
-func (IntervalLogicalType) IsApplicable(t parquet.Type, tlen int32) bool {
-	return t == parquet.Types.FixedLenByteArray && tlen == 12
-}
-
-func (IntervalLogicalType) toThrift() *format.LogicalType {
-	panic("no parquet IntervalLogicalType yet implemented")
-}
-
-func (IntervalLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(IntervalLogicalType)
-	return ok
-}
-
-// Float16LogicalType can only be used with a FixedLength byte array column
-// that is exactly 2 bytes long
-type Float16LogicalType struct{ baseLogicalType }
-
-func (Float16LogicalType) SortOrder() SortOrder {
-	return SortSIGNED
-}
-
-func (Float16LogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": Float16LogicalType{}.String()})
-}
-
-func (Float16LogicalType) String() string {
-	return "Float16"
-}
-
-func (Float16LogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.None, DecimalMetadata{}
-}
-
-func (Float16LogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	if dec.IsSet {
-		return false
-	}
-	switch c {
-	case ConvertedTypes.None, ConvertedTypes.NA:
-		return true
-	}
-	return false
-}
-
-func (Float16LogicalType) IsApplicable(t parquet.Type, tlen int32) bool {
-	return t == parquet.Types.FixedLenByteArray && tlen == 2
-}
-
-func (Float16LogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{FLOAT16: format.NewFloat16Type()}
-}
-
-func (Float16LogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(Float16LogicalType)
-	return ok
-}
-
-type NullLogicalType struct{ baseLogicalType }
-
-func (NullLogicalType) SortOrder() SortOrder {
-	return SortUNKNOWN
-}
-
-func (NullLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": NullLogicalType{}.String()})
-}
-
-func (NullLogicalType) String() string {
-	return "Null"
-}
-
-func (NullLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.None, DecimalMetadata{}
-}
-
-func (NullLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	if dec.IsSet {
-		return false
-	}
-	switch c {
-	case ConvertedTypes.None, ConvertedTypes.NA:
-		return true
-	}
-	return false
-}
-
-func (NullLogicalType) IsApplicable(parquet.Type, int32) bool {
-	return true
-}
-
-func (NullLogicalType) toThrift() *format.LogicalType {
-	return &format.LogicalType{UNKNOWN: format.NewNullType()}
-}
-
-func (NullLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(NullLogicalType)
-	return ok
-}
-
-type NoLogicalType struct{ baseLogicalType }
-
-func (NoLogicalType) SortOrder() SortOrder {
-	return SortUNKNOWN
-}
-
-func (NoLogicalType) MarshalJSON() ([]byte, error) {
-	return json.Marshal(map[string]string{"Type": NoLogicalType{}.String()})
-}
-
-func (NoLogicalType) IsSerialized() bool { return false }
-
-func (NoLogicalType) String() string {
-	return "None"
-}
-
-func (NoLogicalType) ToConvertedType() (ConvertedType, DecimalMetadata) {
-	return ConvertedTypes.None, DecimalMetadata{}
-}
-
-func (NoLogicalType) IsCompatible(c ConvertedType, dec DecimalMetadata) bool {
-	return c == ConvertedTypes.None && !dec.IsSet
-}
-
-func (NoLogicalType) IsApplicable(parquet.Type, int32) bool {
-	return true
-}
-
-func (NoLogicalType) toThrift() *format.LogicalType {
-	panic("cannot convert NoLogicalType to thrift")
-}
-
-func (NoLogicalType) Equals(rhs LogicalType) bool {
-	_, ok := rhs.(NoLogicalType)
-	return ok
-}
-
-func (NoLogicalType) IsNone() bool { return true }
diff --git a/go/parquet/schema/logical_types_test.go b/go/parquet/schema/logical_types_test.go
deleted file mode 100644
index 395d1504182fe..0000000000000
--- a/go/parquet/schema/logical_types_test.go
+++ /dev/null
@@ -1,572 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema_test
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/internal/json"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-)
-
-func TestConvertedLogicalEquivalences(t *testing.T) {
-	tests := []struct {
-		name      string
-		converted schema.ConvertedType
-		logical   schema.LogicalType
-		expected  schema.LogicalType
-	}{
-		{"utf8", schema.ConvertedTypes.UTF8, schema.StringLogicalType{}, schema.StringLogicalType{}},
-		{"map", schema.ConvertedTypes.Map, schema.MapLogicalType{}, schema.MapLogicalType{}},
-		{"mapkeyval", schema.ConvertedTypes.MapKeyValue, schema.MapLogicalType{}, schema.MapLogicalType{}},
-		{"list", schema.ConvertedTypes.List, schema.NewListLogicalType(), schema.NewListLogicalType()},
-		{"enum", schema.ConvertedTypes.Enum, schema.EnumLogicalType{}, schema.EnumLogicalType{}},
-		{"date", schema.ConvertedTypes.Date, schema.DateLogicalType{}, schema.DateLogicalType{}},
-		{"timemilli", schema.ConvertedTypes.TimeMillis, schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.TimeLogicalType{}},
-		{"timemicro", schema.ConvertedTypes.TimeMicros, schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.TimeLogicalType{}},
-		{"timestampmilli", schema.ConvertedTypes.TimestampMillis, schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.TimestampLogicalType{}},
-		{"timestampmicro", schema.ConvertedTypes.TimestampMicros, schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.TimestampLogicalType{}},
-		{"uint8", schema.ConvertedTypes.Uint8, schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), schema.IntLogicalType{}},
-		{"uint16", schema.ConvertedTypes.Uint16, schema.NewIntLogicalType(16 /* bitWidth */, false /* signed */), schema.IntLogicalType{}},
-		{"uint32", schema.ConvertedTypes.Uint32, schema.NewIntLogicalType(32 /* bitWidth */, false /* signed */), schema.IntLogicalType{}},
-		{"uint64", schema.ConvertedTypes.Uint64, schema.NewIntLogicalType(64 /* bitWidth */, false /* signed */), schema.IntLogicalType{}},
-		{"int8", schema.ConvertedTypes.Int8, schema.NewIntLogicalType(8 /* bitWidth */, true /* signed */), schema.IntLogicalType{}},
-		{"int16", schema.ConvertedTypes.Int16, schema.NewIntLogicalType(16 /* bitWidth */, true /* signed */), schema.IntLogicalType{}},
-		{"int32", schema.ConvertedTypes.Int32, schema.NewIntLogicalType(32 /* bitWidth */, true /* signed */), schema.IntLogicalType{}},
-		{"int64", schema.ConvertedTypes.Int64, schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), schema.IntLogicalType{}},
-		{"json", schema.ConvertedTypes.JSON, schema.JSONLogicalType{}, schema.JSONLogicalType{}},
-		{"bson", schema.ConvertedTypes.BSON, schema.BSONLogicalType{}, schema.BSONLogicalType{}},
-		{"interval", schema.ConvertedTypes.Interval, schema.IntervalLogicalType{}, schema.IntervalLogicalType{}},
-		{"none", schema.ConvertedTypes.None, schema.NoLogicalType{}, schema.NoLogicalType{}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			fromConverted := tt.converted.ToLogicalType(schema.DecimalMetadata{})
-			assert.IsType(t, tt.logical, fromConverted)
-			assert.True(t, fromConverted.Equals(tt.logical))
-			assert.IsType(t, tt.expected, fromConverted)
-			assert.IsType(t, tt.expected, tt.logical)
-		})
-	}
-
-	t.Run("decimal", func(t *testing.T) {
-		decimalMeta := schema.DecimalMetadata{IsSet: true, Precision: 10, Scale: 4}
-		fromConverted := schema.ConvertedTypes.Decimal.ToLogicalType(decimalMeta)
-		fromMake := schema.NewDecimalLogicalType(10, 4)
-		assert.IsType(t, fromMake, fromConverted)
-		assert.True(t, fromConverted.Equals(fromMake))
-		assert.IsType(t, schema.DecimalLogicalType{}, fromConverted)
-		assert.IsType(t, schema.DecimalLogicalType{}, fromMake)
-		assert.True(t, schema.NewDecimalLogicalType(16, 0).Equals(schema.NewDecimalLogicalType(16, 0)))
-	})
-}
-
-func TestConvertedTypeCompatibility(t *testing.T) {
-	tests := []struct {
-		name            string
-		logical         schema.LogicalType
-		expectConverted schema.ConvertedType
-	}{
-		{"utf8", schema.StringLogicalType{}, schema.ConvertedTypes.UTF8},
-		{"map", schema.MapLogicalType{}, schema.ConvertedTypes.Map},
-		{"list", schema.NewListLogicalType(), schema.ConvertedTypes.List},
-		{"enum", schema.EnumLogicalType{}, schema.ConvertedTypes.Enum},
-		{"date", schema.DateLogicalType{}, schema.ConvertedTypes.Date},
-		{"time_milli", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.ConvertedTypes.TimeMillis},
-		{"time_micro", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.ConvertedTypes.TimeMicros},
-		{"timestamp_milli", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.ConvertedTypes.TimestampMillis},
-		{"timestamp_micro", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.ConvertedTypes.TimestampMicros},
-		{"timestamp_milli_opts", schema.NewTimestampLogicalTypeWithOpts(schema.WithTSIsAdjustedToUTC(), schema.WithTSTimeUnitType(schema.TimeUnitMillis)), schema.ConvertedTypes.TimestampMillis},
-		{"uint8", schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint8},
-		{"uint16", schema.NewIntLogicalType(16 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint16},
-		{"uint32", schema.NewIntLogicalType(32 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint32},
-		{"uint64", schema.NewIntLogicalType(64 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint64},
-		{"int8", schema.NewIntLogicalType(8 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int8},
-		{"int16", schema.NewIntLogicalType(16 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int16},
-		{"int32", schema.NewIntLogicalType(32 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int32},
-		{"int64", schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int64},
-		{"json", schema.JSONLogicalType{}, schema.ConvertedTypes.JSON},
-		{"bson", schema.BSONLogicalType{}, schema.ConvertedTypes.BSON},
-		{"interval", schema.IntervalLogicalType{}, schema.ConvertedTypes.Interval},
-		{"none", schema.NoLogicalType{}, schema.ConvertedTypes.None},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.True(t, tt.logical.IsValid())
-			converted, decimalMeta := tt.logical.ToConvertedType()
-			assert.Equal(t, tt.expectConverted, converted)
-			assert.False(t, decimalMeta.IsSet)
-			assert.True(t, tt.logical.IsCompatible(converted, decimalMeta))
-			assert.False(t, tt.logical.IsCompatible(converted, schema.DecimalMetadata{IsSet: true, Precision: 1, Scale: 1}))
-			reconstruct := converted.ToLogicalType(decimalMeta)
-			assert.True(t, reconstruct.IsValid())
-			assert.True(t, reconstruct.Equals(tt.logical))
-		})
-	}
-
-	var (
-		orig          schema.LogicalType
-		converted     schema.ConvertedType
-		convertedMeta schema.DecimalMetadata
-	)
-
-	orig = schema.NewDecimalLogicalType(6 /* precision */, 2 /* scale */)
-	converted, convertedMeta = orig.ToConvertedType()
-	assert.True(t, orig.IsValid())
-	assert.Equal(t, schema.ConvertedTypes.Decimal, converted)
-	assert.True(t, convertedMeta.IsSet)
-	assert.EqualValues(t, 6, convertedMeta.Precision)
-	assert.EqualValues(t, 2, convertedMeta.Scale)
-	assert.True(t, orig.IsCompatible(converted, convertedMeta))
-	reconstruct := converted.ToLogicalType(convertedMeta)
-	assert.True(t, reconstruct.IsValid())
-	assert.True(t, reconstruct.Equals(orig))
-
-	orig = schema.UnknownLogicalType{}
-	converted, convertedMeta = orig.ToConvertedType()
-	assert.False(t, orig.IsValid())
-	assert.Equal(t, schema.ConvertedTypes.NA, converted)
-	assert.False(t, convertedMeta.IsSet)
-	assert.True(t, orig.IsCompatible(converted, convertedMeta))
-	reconstruct = converted.ToLogicalType(convertedMeta)
-	assert.False(t, reconstruct.IsValid())
-	assert.True(t, reconstruct.Equals(orig))
-}
-
-func TestNewTypeIncompatibility(t *testing.T) {
-	tests := []struct {
-		name     string
-		logical  schema.LogicalType
-		expected schema.LogicalType
-	}{
-		{"uuid", schema.UUIDLogicalType{}, schema.UUIDLogicalType{}},
-		{"float16", schema.Float16LogicalType{}, schema.Float16LogicalType{}},
-		{"null", schema.NullLogicalType{}, schema.NullLogicalType{}},
-		{"not-utc-time_milli", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitMillis), schema.TimeLogicalType{}},
-		{"not-utc-time-micro", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitMicros), schema.TimeLogicalType{}},
-		{"not-utc-time-nano", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitNanos), schema.TimeLogicalType{}},
-		{"utc-time-nano", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), schema.TimeLogicalType{}},
-		{"not-utc-timestamp-nano", schema.NewTimestampLogicalType(false /* adjustedToUTC */, schema.TimeUnitNanos), schema.TimestampLogicalType{}},
-		{"utc-timestamp-nano", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), schema.TimestampLogicalType{}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.IsType(t, tt.expected, tt.logical)
-			assert.True(t, tt.logical.IsValid())
-			converted, meta := tt.logical.ToConvertedType()
-			assert.Equal(t, schema.ConvertedTypes.None, converted)
-			assert.False(t, meta.IsSet)
-		})
-	}
-}
-
-func TestFactoryPanic(t *testing.T) {
-	tests := []struct {
-		name string
-		f    func()
-	}{
-		{"invalid TimeUnit", func() { schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitUnknown) }},
-		{"invalid timestamp unit", func() { schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitUnknown) }},
-		{"negative bitwidth", func() { schema.NewIntLogicalType(-1 /* bitWidth */, false /* signed */) }},
-		{"zero bitwidth", func() { schema.NewIntLogicalType(0 /* bitWidth */, false /* signed */) }},
-		{"bitwidth one", func() { schema.NewIntLogicalType(1 /* bitWidth */, false /* signed */) }},
-		{"invalid bitwidth", func() { schema.NewIntLogicalType(65 /* bitWidth */, false /* signed */) }},
-		{"negative precision", func() { schema.NewDecimalLogicalType(-1 /* precision */, 0 /* scale */) }},
-		{"zero precision", func() { schema.NewDecimalLogicalType(0 /* precision */, 0 /* scale */) }},
-		{"negative scale", func() { schema.NewDecimalLogicalType(10 /* precision */, -1 /* scale */) }},
-		{"invalid scale", func() { schema.NewDecimalLogicalType(10 /* precision */, 11 /* scale */) }},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.Panics(t, tt.f)
-		})
-	}
-}
-
-func TestLogicalTypeProperties(t *testing.T) {
-	tests := []struct {
-		name       string
-		logical    schema.LogicalType
-		nested     bool
-		serialized bool
-		valid      bool
-	}{
-		{"string", schema.StringLogicalType{}, false, true, true},
-		{"map", schema.MapLogicalType{}, true, true, true},
-		{"list", schema.NewListLogicalType(), true, true, true},
-		{"enum", schema.EnumLogicalType{}, false, true, true},
-		{"decimal", schema.NewDecimalLogicalType(16 /* precision */, 6 /* scale */), false, true, true},
-		{"date", schema.DateLogicalType{}, false, true, true},
-		{"time", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), false, true, true},
-		{"timestamp", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), false, true, true},
-		{"interval", schema.IntervalLogicalType{}, false, true, true},
-		{"uint8", schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), false, true, true},
-		{"int64", schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), false, true, true},
-		{"null", schema.NullLogicalType{}, false, true, true},
-		{"json", schema.JSONLogicalType{}, false, true, true},
-		{"bson", schema.BSONLogicalType{}, false, true, true},
-		{"uuid", schema.UUIDLogicalType{}, false, true, true},
-		{"float16", schema.Float16LogicalType{}, false, true, true},
-		{"nological", schema.NoLogicalType{}, false, false, true},
-		{"unknown", schema.UnknownLogicalType{}, false, false, false},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.True(t, tt.nested == tt.logical.IsNested())
-			assert.True(t, tt.serialized == tt.logical.IsSerialized())
-			assert.True(t, tt.valid == tt.logical.IsValid())
-		})
-	}
-}
-
-var physicalTypeList = []parquet.Type{
-	parquet.Types.Boolean,
-	parquet.Types.Int32,
-	parquet.Types.Int64,
-	parquet.Types.Int96,
-	parquet.Types.Float,
-	parquet.Types.Double,
-	parquet.Types.ByteArray,
-	parquet.Types.FixedLenByteArray,
-}
-
-func TestLogicalSingleTypeApplicability(t *testing.T) {
-	tests := []struct {
-		name       string
-		logical    schema.LogicalType
-		applicable parquet.Type
-	}{
-		{"string", schema.StringLogicalType{}, parquet.Types.ByteArray},
-		{"enum", schema.EnumLogicalType{}, parquet.Types.ByteArray},
-		{"date", schema.DateLogicalType{}, parquet.Types.Int32},
-		{"timemilli", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), parquet.Types.Int32},
-		{"timemicro", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), parquet.Types.Int64},
-		{"timenano", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), parquet.Types.Int64},
-		{"timestampmilli", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), parquet.Types.Int64},
-		{"timestampmicro", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), parquet.Types.Int64},
-		{"timestampnanos", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), parquet.Types.Int64},
-		{"uint8", schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), parquet.Types.Int32},
-		{"uint16", schema.NewIntLogicalType(16 /* bitWidth */, false /* signed */), parquet.Types.Int32},
-		{"uint32", schema.NewIntLogicalType(32 /* bitWidth */, false /* signed */), parquet.Types.Int32},
-		{"uint64", schema.NewIntLogicalType(64 /* bitWidth */, false /* signed */), parquet.Types.Int64},
-		{"int8", schema.NewIntLogicalType(8 /* bitWidth */, true /* signed */), parquet.Types.Int32},
-		{"int16", schema.NewIntLogicalType(16 /* bitWidth */, true /* signed */), parquet.Types.Int32},
-		{"int32", schema.NewIntLogicalType(32 /* bitWidth */, true /* signed */), parquet.Types.Int32},
-		{"int64", schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), parquet.Types.Int64},
-		{"json", schema.JSONLogicalType{}, parquet.Types.ByteArray},
-		{"bson", schema.BSONLogicalType{}, parquet.Types.ByteArray},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			for _, typ := range physicalTypeList {
-				if typ == tt.applicable {
-					assert.True(t, tt.logical.IsApplicable(typ, -1))
-				} else {
-					assert.False(t, tt.logical.IsApplicable(typ, -1))
-				}
-			}
-		})
-	}
-}
-
-func TestLogicalNoTypeApplicability(t *testing.T) {
-	tests := []struct {
-		name    string
-		logical schema.LogicalType
-	}{
-		{"map", schema.MapLogicalType{}},
-		{"list", schema.NewListLogicalType()},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			for _, typ := range physicalTypeList {
-				assert.False(t, tt.logical.IsApplicable(typ, -1))
-			}
-		})
-	}
-}
-
-func TestLogicalUniversalTypeApplicability(t *testing.T) {
-	tests := []struct {
-		name    string
-		logical schema.LogicalType
-	}{
-		{"null", schema.NullLogicalType{}},
-		{"none", schema.NoLogicalType{}},
-		{"unknown", schema.UnknownLogicalType{}},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			for _, typ := range physicalTypeList {
-				assert.True(t, tt.logical.IsApplicable(typ, -1))
-			}
-		})
-	}
-}
-
-func TestLogicalInapplicableTypes(t *testing.T) {
-	tests := []struct {
-		name string
-		typ  parquet.Type
-		len  int32
-	}{
-		{"fixed 8", parquet.Types.FixedLenByteArray, 8},
-		{"fixed 20", parquet.Types.FixedLenByteArray, 20},
-		{"bool", parquet.Types.Boolean, -1},
-		{"int32", parquet.Types.Int32, -1},
-		{"int64", parquet.Types.Int64, -1},
-		{"int96", parquet.Types.Int96, -1},
-		{"float", parquet.Types.Float, -1},
-		{"double", parquet.Types.Double, -1},
-		{"bytearray", parquet.Types.ByteArray, -1},
-	}
-
-	var logical schema.LogicalType
-
-	logical = schema.IntervalLogicalType{}
-	assert.True(t, logical.IsApplicable(parquet.Types.FixedLenByteArray, 12))
-	for _, tt := range tests {
-		t.Run("interval "+tt.name, func(t *testing.T) {
-			assert.False(t, logical.IsApplicable(tt.typ, tt.len))
-		})
-	}
-
-	logical = schema.UUIDLogicalType{}
-	assert.True(t, logical.IsApplicable(parquet.Types.FixedLenByteArray, 16))
-	for _, tt := range tests {
-		t.Run("uuid "+tt.name, func(t *testing.T) {
-			assert.False(t, logical.IsApplicable(tt.typ, tt.len))
-		})
-	}
-
-	logical = schema.Float16LogicalType{}
-	assert.True(t, logical.IsApplicable(parquet.Types.FixedLenByteArray, 2))
-	for _, tt := range tests {
-		t.Run("float16 "+tt.name, func(t *testing.T) {
-			assert.False(t, logical.IsApplicable(tt.typ, tt.len))
-		})
-	}
-}
-
-func TestDecimalLogicalTypeApplicability(t *testing.T) {
-	const scale = 0
-	var logical schema.LogicalType
-	for prec := int32(1); prec <= 9; prec++ {
-		logical = schema.NewDecimalLogicalType(prec, scale)
-		assert.Truef(t, logical.IsApplicable(parquet.Types.Int32, -1), "prec: %d", prec)
-	}
-
-	logical = schema.NewDecimalLogicalType(10 /* precision */, scale)
-	assert.False(t, logical.IsApplicable(parquet.Types.Int32, -1))
-
-	for prec := int32(1); prec <= 18; prec++ {
-		logical = schema.NewDecimalLogicalType(prec, scale)
-		assert.Truef(t, logical.IsApplicable(parquet.Types.Int64, -1), "prec: %d", prec)
-	}
-
-	logical = schema.NewDecimalLogicalType(19, scale)
-	assert.False(t, logical.IsApplicable(parquet.Types.Int64, 0))
-
-	for prec := int32(1); prec <= 36; prec++ {
-		logical = schema.NewDecimalLogicalType(prec, scale)
-		assert.Truef(t, logical.IsApplicable(parquet.Types.ByteArray, 0), "prec: %d", prec)
-	}
-
-	tests := []struct {
-		physicalLen    int32
-		precisionLimit int32
-	}{
-		{1, 2}, {2, 4}, {3, 6}, {4, 9}, {8, 18}, {10, 23}, {16, 38}, {20, 47}, {32, 76},
-	}
-	for _, tt := range tests {
-		var prec int32
-		for prec = 1; prec <= tt.precisionLimit; prec++ {
-			logical = schema.NewDecimalLogicalType(prec, 0)
-			assert.Truef(t, logical.IsApplicable(parquet.Types.FixedLenByteArray, tt.physicalLen), "prec: %d, len: %d", prec, tt.physicalLen)
-		}
-		logical = schema.NewDecimalLogicalType(prec, 0)
-		assert.Falsef(t, logical.IsApplicable(parquet.Types.FixedLenByteArray, tt.physicalLen), "prec: %d, len: %d", prec, tt.physicalLen)
-	}
-
-	assert.False(t, schema.NewDecimalLogicalType(16, 6).IsApplicable(parquet.Types.Boolean, 0))
-	assert.False(t, schema.NewDecimalLogicalType(16, 6).IsApplicable(parquet.Types.Float, 0))
-	assert.False(t, schema.NewDecimalLogicalType(16, 6).IsApplicable(parquet.Types.Double, 0))
-}
-
-func TestLogicalTypeRepresentation(t *testing.T) {
-	tests := []struct {
-		name     string
-		logical  schema.LogicalType
-		expected string
-		expjson  string
-	}{
-		{"unknown", schema.UnknownLogicalType{}, "Unknown", `{"Type": "Unknown"}`},
-		{"string", schema.StringLogicalType{}, "String", `{"Type": "String"}`},
-		{"map", schema.MapLogicalType{}, "Map", `{"Type": "Map"}`},
-		{"list", schema.NewListLogicalType(), "List", `{"Type": "List"}`},
-		{"enum", schema.EnumLogicalType{}, "Enum", `{"Type": "Enum"}`},
-		{"decimal 10 4", schema.NewDecimalLogicalType(10 /* precision */, 4 /* scale */), "Decimal(precision=10, scale=4)", `{"Type": "Decimal", "precision": 10, "scale": 4}`},
-		{"decimal 10 0", schema.NewDecimalLogicalType(10 /* precision */, 0 /* scale */), "Decimal(precision=10, scale=0)", `{"Type": "Decimal", "precision": 10, "scale": 0}`},
-		{"date", schema.DateLogicalType{}, "Date", `{"Type": "Date"}`},
-		{"time milli", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), "Time(isAdjustedToUTC=true, timeUnit=milliseconds)", `{"Type": "Time", "isAdjustedToUTC": true, "timeUnit": "milliseconds"}`},
-		{"time micro", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), "Time(isAdjustedToUTC=true, timeUnit=microseconds)", `{"Type": "Time", "isAdjustedToUTC": true, "timeUnit": "microseconds"}`},
-		{"time nano", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), "Time(isAdjustedToUTC=true, timeUnit=nanoseconds)", `{"Type": "Time", "isAdjustedToUTC": true, "timeUnit": "nanoseconds"}`},
-		{"time notutc milli", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitMillis), "Time(isAdjustedToUTC=false, timeUnit=milliseconds)", `{"Type": "Time", "isAdjustedToUTC": false, "timeUnit": "milliseconds"}`},
-		{"time notutc micro", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitMicros), "Time(isAdjustedToUTC=false, timeUnit=microseconds)", `{"Type": "Time", "isAdjustedToUTC": false, "timeUnit": "microseconds"}`},
-		{"time notutc nano", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitNanos), "Time(isAdjustedToUTC=false, timeUnit=nanoseconds)", `{"Type": "Time", "isAdjustedToUTC": false, "timeUnit": "nanoseconds"}`},
-		{"timestamp milli", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), "Timestamp(isAdjustedToUTC=true, timeUnit=milliseconds, is_from_converted_type=false, force_set_converted_type=false)", `{"Type": "Timestamp", "isAdjustedToUTC": true, "timeUnit": "milliseconds", "is_from_converted_type": false, "force_set_converted_type": false}`},
-		{"timestamp micro", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), "Timestamp(isAdjustedToUTC=true, timeUnit=microseconds, is_from_converted_type=false, force_set_converted_type=false)", `{"Type": "Timestamp", "isAdjustedToUTC": true, "timeUnit": "microseconds", "is_from_converted_type": false, "force_set_converted_type": false}`},
-		{"timestamp nano", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), "Timestamp(isAdjustedToUTC=true, timeUnit=nanoseconds, is_from_converted_type=false, force_set_converted_type=false)", `{"Type": "Timestamp", "isAdjustedToUTC": true, "timeUnit": "nanoseconds", "is_from_converted_type": false, "force_set_converted_type": false}`},
-		{"timestamp notutc milli", schema.NewTimestampLogicalType(false /* adjustedToUTC */, schema.TimeUnitMillis), "Timestamp(isAdjustedToUTC=false, timeUnit=milliseconds, is_from_converted_type=false, force_set_converted_type=false)", `{"Type": "Timestamp", "isAdjustedToUTC": false, "timeUnit": "milliseconds", "is_from_converted_type": false, "force_set_converted_type": false}`},
-		{"timestamp notutc micro", schema.NewTimestampLogicalType(false /* adjustedToUTC */, schema.TimeUnitMicros), "Timestamp(isAdjustedToUTC=false, timeUnit=microseconds, is_from_converted_type=false, force_set_converted_type=false)", `{"Type": "Timestamp", "isAdjustedToUTC": false, "timeUnit": "microseconds", "is_from_converted_type": false, "force_set_converted_type": false}`},
-		{"timestamp notutc nano", schema.NewTimestampLogicalType(false /* adjustedToUTC */, schema.TimeUnitNanos), "Timestamp(isAdjustedToUTC=false, timeUnit=nanoseconds, is_from_converted_type=false, force_set_converted_type=false)", `{"Type": "Timestamp", "isAdjustedToUTC": false, "timeUnit": "nanoseconds", "is_from_converted_type": false, "force_set_converted_type": false}`},
-		{"interval", schema.IntervalLogicalType{}, "Interval", `{"Type": "Interval"}`},
-		{"uint8", schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), "Int(bitWidth=8, isSigned=false)", `{"Type": "Int", "bitWidth": 8, "isSigned": false}`},
-		{"uint16", schema.NewIntLogicalType(16 /* bitWidth */, false /* signed */), "Int(bitWidth=16, isSigned=false)", `{"Type": "Int", "bitWidth": 16, "isSigned": false}`},
-		{"uint32", schema.NewIntLogicalType(32 /* bitWidth */, false /* signed */), "Int(bitWidth=32, isSigned=false)", `{"Type": "Int", "bitWidth": 32, "isSigned": false}`},
-		{"uint64", schema.NewIntLogicalType(64 /* bitWidth */, false /* signed */), "Int(bitWidth=64, isSigned=false)", `{"Type": "Int", "bitWidth": 64, "isSigned": false}`},
-		{"int8", schema.NewIntLogicalType(8 /* bitWidth */, true /* signed */), "Int(bitWidth=8, isSigned=true)", `{"Type": "Int", "bitWidth": 8, "isSigned": true}`},
-		{"int16", schema.NewIntLogicalType(16 /* bitWidth */, true /* signed */), "Int(bitWidth=16, isSigned=true)", `{"Type": "Int", "bitWidth": 16, "isSigned": true}`},
-		{"int32", schema.NewIntLogicalType(32 /* bitWidth */, true /* signed */), "Int(bitWidth=32, isSigned=true)", `{"Type": "Int", "bitWidth": 32, "isSigned": true}`},
-		{"int64", schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), "Int(bitWidth=64, isSigned=true)", `{"Type": "Int", "bitWidth": 64, "isSigned": true}`},
-		{"null", schema.NullLogicalType{}, "Null", `{"Type": "Null"}`},
-		{"json", schema.JSONLogicalType{}, "JSON", `{"Type": "JSON"}`},
-		{"bson", schema.BSONLogicalType{}, "BSON", `{"Type": "BSON"}`},
-		{"uuid", schema.UUIDLogicalType{}, "UUID", `{"Type": "UUID"}`},
-		{"float16", schema.Float16LogicalType{}, "Float16", `{"Type": "Float16"}`},
-		{"none", schema.NoLogicalType{}, "None", `{"Type": "None"}`},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.Equal(t, tt.expected, tt.logical.String())
-			out, err := json.Marshal(tt.logical)
-			assert.NoError(t, err)
-			assert.JSONEq(t, tt.expjson, string(out))
-		})
-	}
-}
-
-func TestLogicalTypeSortOrder(t *testing.T) {
-	tests := []struct {
-		name    string
-		logical schema.LogicalType
-		order   schema.SortOrder
-	}{
-		{"unknown", schema.UnknownLogicalType{}, schema.SortUNKNOWN},
-		{"string", schema.StringLogicalType{}, schema.SortUNSIGNED},
-		{"map", schema.MapLogicalType{}, schema.SortUNKNOWN},
-		{"list", schema.NewListLogicalType(), schema.SortUNKNOWN},
-		{"enum", schema.EnumLogicalType{}, schema.SortUNSIGNED},
-		{"decimal", schema.NewDecimalLogicalType(8 /* precision */, 2 /* scale */), schema.SortSIGNED},
-		{"date", schema.DateLogicalType{}, schema.SortSIGNED},
-		{"time utc milli", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.SortSIGNED},
-		{"time utc micros", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.SortSIGNED},
-		{"time utc nanos", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitNanos), schema.SortSIGNED},
-		{"time not utc milli", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitMillis), schema.SortSIGNED},
-		{"time not utc micros", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitMicros), schema.SortSIGNED},
-		{"time not utc nanos", schema.NewTimeLogicalType(false /* adjustedToUTC */, schema.TimeUnitNanos), schema.SortSIGNED},
-		{"interval", schema.IntervalLogicalType{}, schema.SortUNKNOWN},
-		{"uint8", schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), schema.SortUNSIGNED},
-		{"uint16", schema.NewIntLogicalType(16 /* bitWidth */, false /* signed */), schema.SortUNSIGNED},
-		{"uint32", schema.NewIntLogicalType(32 /* bitWidth */, false /* signed */), schema.SortUNSIGNED},
-		{"uint64", schema.NewIntLogicalType(64 /* bitWidth */, false /* signed */), schema.SortUNSIGNED},
-		{"int8", schema.NewIntLogicalType(8 /* bitWidth */, true /* signed */), schema.SortSIGNED},
-		{"int16", schema.NewIntLogicalType(16 /* bitWidth */, true /* signed */), schema.SortSIGNED},
-		{"int32", schema.NewIntLogicalType(32 /* bitWidth */, true /* signed */), schema.SortSIGNED},
-		{"int64", schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), schema.SortSIGNED},
-		{"null", schema.NullLogicalType{}, schema.SortUNKNOWN},
-		{"json", schema.JSONLogicalType{}, schema.SortUNSIGNED},
-		{"bson", schema.BSONLogicalType{}, schema.SortUNSIGNED},
-		{"uuid", schema.UUIDLogicalType{}, schema.SortUNSIGNED},
-		{"float16", schema.Float16LogicalType{}, schema.SortSIGNED},
-		{"none", schema.NoLogicalType{}, schema.SortUNKNOWN},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			assert.Equal(t, tt.order, tt.logical.SortOrder())
-		})
-	}
-}
-
-func TestNodeFactoryEquivalences(t *testing.T) {
-	tests := []struct {
-		name        string
-		logical     schema.LogicalType
-		converted   schema.ConvertedType
-		typ         parquet.Type
-		physicalLen int
-		precision   int
-		scale       int
-	}{
-		{"string", schema.StringLogicalType{}, schema.ConvertedTypes.UTF8, parquet.Types.ByteArray, -1, -1, -1},
-		{"enum", schema.EnumLogicalType{}, schema.ConvertedTypes.Enum, parquet.Types.ByteArray, -1, -1, -1},
-		{"decimal", schema.NewDecimalLogicalType(16 /* precision */, 6 /* scale */), schema.ConvertedTypes.Decimal, parquet.Types.Int64, -1, 16, 6},
-		{"date", schema.DateLogicalType{}, schema.ConvertedTypes.Date, parquet.Types.Int32, -1, -1, -1},
-		{"time millis", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.ConvertedTypes.TimeMillis, parquet.Types.Int32, -1, -1, -1},
-		{"time micros", schema.NewTimeLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.ConvertedTypes.TimeMicros, parquet.Types.Int64, -1, -1, -1},
-		{"timestamp millis", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMillis), schema.ConvertedTypes.TimestampMillis, parquet.Types.Int64, -1, -1, -1},
-		{"timestamp micros", schema.NewTimestampLogicalType(true /* adjustedToUTC */, schema.TimeUnitMicros), schema.ConvertedTypes.TimestampMicros, parquet.Types.Int64, -1, -1, -1},
-		{"interval", schema.IntervalLogicalType{}, schema.ConvertedTypes.Interval, parquet.Types.FixedLenByteArray, 12, -1, -1},
-		{"uint8", schema.NewIntLogicalType(8 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint8, parquet.Types.Int32, -1, -1, -1},
-		{"int8", schema.NewIntLogicalType(8 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int8, parquet.Types.Int32, -1, -1, -1},
-		{"uint16", schema.NewIntLogicalType(16 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint16, parquet.Types.Int32, -1, -1, -1},
-		{"int16", schema.NewIntLogicalType(16 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int16, parquet.Types.Int32, -1, -1, -1},
-		{"uint32", schema.NewIntLogicalType(32 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint32, parquet.Types.Int32, -1, -1, -1},
-		{"int32", schema.NewIntLogicalType(32 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int32, parquet.Types.Int32, -1, -1, -1},
-		{"uint64", schema.NewIntLogicalType(64 /* bitWidth */, false /* signed */), schema.ConvertedTypes.Uint64, parquet.Types.Int64, -1, -1, -1},
-		{"int64", schema.NewIntLogicalType(64 /* bitWidth */, true /* signed */), schema.ConvertedTypes.Int64, parquet.Types.Int64, -1, -1, -1},
-		{"json", schema.JSONLogicalType{}, schema.ConvertedTypes.JSON, parquet.Types.ByteArray, -1, -1, -1},
-		{"bson", schema.BSONLogicalType{}, schema.ConvertedTypes.BSON, parquet.Types.ByteArray, -1, -1, -1},
-		{"none", schema.NoLogicalType{}, schema.ConvertedTypes.None, parquet.Types.Int64, -1, -1, -1},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			name := "something"
-			repetition := parquet.Repetitions.Required
-
-			fromConverted := schema.MustPrimitive(schema.NewPrimitiveNodeConverted(name, repetition, tt.typ, tt.converted, tt.physicalLen, tt.precision, tt.scale, -1 /* fieldID */))
-			fromLogical := schema.MustPrimitive(schema.NewPrimitiveNodeLogical(name, repetition, tt.logical, tt.typ, tt.physicalLen, -1 /* fieldID */))
-			assert.True(t, fromConverted.Equals(fromLogical))
-		})
-	}
-
-	rep := parquet.Repetitions.Optional
-	fromConverted, err := schema.NewGroupNodeConverted("map" /* name */, rep, []schema.Node{}, schema.ConvertedTypes.Map, -1 /* fieldID */)
-	assert.NoError(t, err)
-
-	fromLogical, err := schema.NewGroupNodeLogical("map" /* name */, rep, []schema.Node{}, schema.MapLogicalType{}, -1 /* fieldID */)
-	assert.NoError(t, err)
-	assert.True(t, fromConverted.Equals(fromLogical))
-
-	fromConverted, err = schema.NewGroupNodeConverted("list" /* name */, rep, []schema.Node{}, schema.ConvertedTypes.List, -1 /* fieldID */)
-	assert.NoError(t, err)
-
-	fromLogical, err = schema.NewGroupNodeLogical("list" /* name */, rep, []schema.Node{}, schema.NewListLogicalType(), -1 /* fieldID */)
-	assert.NoError(t, err)
-	assert.True(t, fromConverted.Equals(fromLogical))
-}
diff --git a/go/parquet/schema/node.go b/go/parquet/schema/node.go
deleted file mode 100644
index c395caf8a26c8..0000000000000
--- a/go/parquet/schema/node.go
+++ /dev/null
@@ -1,629 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"fmt"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/thrift/lib/go/thrift"
-	"golang.org/x/xerrors"
-)
-
-// NodeType describes whether the Node is a Primitive or Group node
-type NodeType int
-
-// the available constants for NodeType
-const (
-	Primitive NodeType = iota
-	Group
-)
-
-// Node is the interface for both Group and Primitive Nodes.
-// A logical schema type has a name, repetition level, and optionally
-// a logical type (converted type is the deprecated version of the logical
-// type concept, which is maintained for forward compatibility)
-type Node interface {
-	Name() string
-	Type() NodeType
-	RepetitionType() parquet.Repetition
-	ConvertedType() ConvertedType
-	LogicalType() LogicalType
-	FieldID() int32
-	Parent() Node
-	SetParent(Node)
-	Path() string
-	Equals(Node) bool
-	Visit(v Visitor)
-	toThrift() *format.SchemaElement
-}
-
-// Visitor is an interface for creating functionality to walk the schema tree.
-//
-// A visitor can be passed to the Visit function of a Node in order to walk
-// the tree. VisitPre is called the first time a node is encountered. If
-// it is a group node, the return is checked and if it is false, the children
-// will be skipped.
-//
-// VisitPost is called after visiting any children
-type Visitor interface {
-	VisitPre(Node) bool
-	VisitPost(Node)
-}
-
-// ColumnPathFromNode walks the parents of the given node to construct it's
-// column path
-func ColumnPathFromNode(n Node) parquet.ColumnPath {
-	if n == nil {
-		return nil
-	}
-
-	c := make([]string, 0)
-
-	// build the path in reverse order as we traverse nodes to the top
-	cursor := n
-	for cursor.Parent() != nil {
-		c = append(c, cursor.Name())
-		cursor = cursor.Parent()
-	}
-
-	// reverse the order of the list in place so that our result
-	// is in the proper, correct order.
-	for i := len(c)/2 - 1; i >= 0; i-- {
-		opp := len(c) - 1 - i
-		c[i], c[opp] = c[opp], c[i]
-	}
-
-	return c
-}
-
-// node is the base embedded struct for both group and primitive nodes
-type node struct {
-	typ    NodeType
-	parent Node
-
-	name          string
-	repetition    parquet.Repetition
-	fieldID       int32
-	logicalType   LogicalType
-	convertedType ConvertedType
-	colPath       parquet.ColumnPath
-}
-
-func (n *node) toThrift() *format.SchemaElement    { return nil }
-func (n *node) Name() string                       { return n.name }
-func (n *node) Type() NodeType                     { return n.typ }
-func (n *node) RepetitionType() parquet.Repetition { return n.repetition }
-func (n *node) ConvertedType() ConvertedType       { return n.convertedType }
-func (n *node) LogicalType() LogicalType           { return n.logicalType }
-func (n *node) FieldID() int32                     { return n.fieldID }
-func (n *node) Parent() Node                       { return n.parent }
-func (n *node) SetParent(p Node)                   { n.parent = p }
-func (n *node) Path() string {
-	return n.columnPath().String()
-}
-func (n *node) columnPath() parquet.ColumnPath {
-	if n.colPath == nil {
-		n.colPath = ColumnPathFromNode(n)
-	}
-	return n.colPath
-}
-
-func (n *node) Equals(rhs Node) bool {
-	return n.typ == rhs.Type() &&
-		n.Name() == rhs.Name() &&
-		n.RepetitionType() == rhs.RepetitionType() &&
-		n.ConvertedType() == rhs.ConvertedType() &&
-		n.FieldID() == rhs.FieldID() &&
-		n.LogicalType().Equals(rhs.LogicalType())
-}
-
-func (n *node) Visit(v Visitor) {}
-
-// A PrimitiveNode is a type that is one of the primitive Parquet storage types. In addition to
-// the other type metadata (name, repetition level, logical type), also has the
-// physical storage type and their type-specific metadata (byte width, decimal
-// parameters)
-type PrimitiveNode struct {
-	node
-
-	ColumnOrder     parquet.ColumnOrder
-	physicalType    parquet.Type
-	typeLen         int
-	decimalMetaData DecimalMetadata
-}
-
-// NewPrimitiveNodeLogical constructs a Primitive node using the provided logical type for a given
-// physical type and typelength.
-func NewPrimitiveNodeLogical(name string, repetition parquet.Repetition, logicalType LogicalType, physicalType parquet.Type, typeLen int, id int32) (*PrimitiveNode, error) {
-	n := &PrimitiveNode{
-		node:         node{typ: Primitive, name: name, repetition: repetition, logicalType: logicalType, fieldID: id},
-		physicalType: physicalType,
-		typeLen:      typeLen,
-	}
-
-	if logicalType != nil {
-		if !logicalType.IsNested() {
-			if logicalType.IsApplicable(physicalType, int32(typeLen)) {
-				n.convertedType, n.decimalMetaData = n.logicalType.ToConvertedType()
-			} else {
-				return nil, fmt.Errorf("%s cannot be applied to primitive type %s", logicalType, physicalType)
-			}
-		} else {
-			return nil, fmt.Errorf("nested logical type %s cannot be applied to a non-group node", logicalType)
-		}
-	} else {
-		n.logicalType = NoLogicalType{}
-		n.convertedType, n.decimalMetaData = n.logicalType.ToConvertedType()
-	}
-
-	if !(n.logicalType != nil && !n.logicalType.IsNested() && n.logicalType.IsCompatible(n.convertedType, n.decimalMetaData)) {
-		return nil, fmt.Errorf("invalid logical type %s", n.logicalType)
-	}
-
-	if n.physicalType == parquet.Types.FixedLenByteArray && n.typeLen <= 0 {
-		return nil, xerrors.New("invalid fixed length byte array length")
-	}
-	return n, nil
-}
-
-// NewPrimitiveNodeConverted constructs a primitive node from the given physical type and converted type,
-// determining the logical type from the converted type.
-func NewPrimitiveNodeConverted(name string, repetition parquet.Repetition, typ parquet.Type, converted ConvertedType, typeLen, precision, scale int, id int32) (*PrimitiveNode, error) {
-	n := &PrimitiveNode{
-		node:         node{typ: Primitive, name: name, repetition: repetition, convertedType: converted, fieldID: id},
-		physicalType: typ,
-		typeLen:      -1,
-	}
-
-	switch converted {
-	case ConvertedTypes.None:
-	case ConvertedTypes.UTF8, ConvertedTypes.JSON, ConvertedTypes.BSON:
-		if typ != parquet.Types.ByteArray {
-			return nil, fmt.Errorf("parquet: %s can only annotate BYTE_LEN fields", typ)
-		}
-	case ConvertedTypes.Decimal:
-		switch typ {
-		case parquet.Types.Int32, parquet.Types.Int64, parquet.Types.ByteArray, parquet.Types.FixedLenByteArray:
-		default:
-			return nil, xerrors.New("parquet: DECIMAL can only annotate INT32, INT64, BYTE_ARRAY and FIXED")
-		}
-
-		switch {
-		case precision <= 0:
-			return nil, fmt.Errorf("parquet: invalid decimal precision: %d, must be between 1 and 38 inclusive", precision)
-		case scale < 0:
-			return nil, fmt.Errorf("parquet: invalid decimal scale: %d, must be a number between 0 and precision inclusive", scale)
-		case scale > precision:
-			return nil, fmt.Errorf("parquet: invalid decimal scale %d, cannot be greater than precision: %d", scale, precision)
-		}
-		n.decimalMetaData.IsSet = true
-		n.decimalMetaData.Precision = int32(precision)
-		n.decimalMetaData.Scale = int32(scale)
-	case ConvertedTypes.Date,
-		ConvertedTypes.TimeMillis,
-		ConvertedTypes.Int8,
-		ConvertedTypes.Int16,
-		ConvertedTypes.Int32,
-		ConvertedTypes.Uint8,
-		ConvertedTypes.Uint16,
-		ConvertedTypes.Uint32:
-		if typ != parquet.Types.Int32 {
-			return nil, fmt.Errorf("parquet: %s can only annotate INT32", converted)
-		}
-	case ConvertedTypes.TimeMicros,
-		ConvertedTypes.TimestampMicros,
-		ConvertedTypes.TimestampMillis,
-		ConvertedTypes.Int64,
-		ConvertedTypes.Uint64:
-		if typ != parquet.Types.Int64 {
-			return nil, fmt.Errorf("parquet: %s can only annotate INT64", converted)
-		}
-	case ConvertedTypes.Interval:
-		if typ != parquet.Types.FixedLenByteArray || typeLen != 12 {
-			return nil, xerrors.New("parquet: INTERVAL can only annotate FIXED_LEN_BYTE_ARRAY(12)")
-		}
-	case ConvertedTypes.Enum:
-		if typ != parquet.Types.ByteArray {
-			return nil, xerrors.New("parquet: ENUM can only annotate BYTE_ARRAY fields")
-		}
-	case ConvertedTypes.NA:
-	default:
-		return nil, fmt.Errorf("parquet: %s cannot be applied to a primitive type", converted.String())
-	}
-
-	n.logicalType = n.convertedType.ToLogicalType(n.decimalMetaData)
-	if !(n.logicalType != nil && !n.logicalType.IsNested() && n.logicalType.IsCompatible(n.convertedType, n.decimalMetaData)) {
-		return nil, fmt.Errorf("invalid logical type %s", n.logicalType)
-	}
-
-	if n.physicalType == parquet.Types.FixedLenByteArray {
-		if typeLen <= 0 {
-			return nil, xerrors.New("invalid fixed len byte array length")
-		}
-		n.typeLen = typeLen
-	}
-
-	return n, nil
-}
-
-func PrimitiveNodeFromThrift(elem *format.SchemaElement) (*PrimitiveNode, error) {
-	fieldID := int32(-1)
-	if elem.IsSetFieldID() {
-		fieldID = elem.GetFieldID()
-	}
-
-	if elem.IsSetLogicalType() {
-		return NewPrimitiveNodeLogical(elem.GetName(), parquet.Repetition(elem.GetRepetitionType()),
-			getLogicalType(elem.GetLogicalType()), parquet.Type(elem.GetType()), int(elem.GetTypeLength()),
-			fieldID)
-	} else if elem.IsSetConvertedType() {
-		return NewPrimitiveNodeConverted(elem.GetName(), parquet.Repetition(elem.GetRepetitionType()),
-			parquet.Type(elem.GetType()), ConvertedType(elem.GetConvertedType()),
-			int(elem.GetTypeLength()), int(elem.GetPrecision()), int(elem.GetScale()), fieldID)
-	}
-	return NewPrimitiveNodeLogical(elem.GetName(), parquet.Repetition(elem.GetRepetitionType()), NoLogicalType{}, parquet.Type(elem.GetType()), int(elem.GetTypeLength()), fieldID)
-}
-
-// NewPrimitiveNode constructs a primitive node with the ConvertedType of None and no logical type.
-//
-// Use NewPrimitiveNodeLogical and NewPrimitiveNodeConverted to specify the logical or converted type.
-func NewPrimitiveNode(name string, repetition parquet.Repetition, typ parquet.Type, fieldID, typeLength int32) (*PrimitiveNode, error) {
-	return NewPrimitiveNodeLogical(name, repetition, nil, typ, int(typeLength), fieldID)
-}
-
-// Equals returns true if both nodes are primitive nodes with the same physical
-// and converted/logical types.
-func (p *PrimitiveNode) Equals(rhs Node) bool {
-	if !p.node.Equals(rhs) {
-		return false
-	}
-
-	other := rhs.(*PrimitiveNode)
-	if p == other {
-		return true
-	}
-
-	if p.PhysicalType() != other.PhysicalType() {
-		return false
-	}
-
-	equal := true
-	if p.ConvertedType() == ConvertedTypes.Decimal {
-		equal = equal &&
-			(p.decimalMetaData.Precision == other.decimalMetaData.Precision &&
-				p.decimalMetaData.Scale == other.decimalMetaData.Scale)
-	}
-	if p.PhysicalType() == parquet.Types.FixedLenByteArray {
-		equal = equal && p.TypeLength() == other.TypeLength()
-	}
-	return equal
-}
-
-// PhysicalType returns the proper Physical parquet.Type primitive that is used
-// to store the values in this column.
-func (p *PrimitiveNode) PhysicalType() parquet.Type { return p.physicalType }
-
-// SetTypeLength will change the type length of the node, has no effect if the
-// physical type is not FixedLength Byte Array
-func (p *PrimitiveNode) SetTypeLength(length int) {
-	if p.PhysicalType() == parquet.Types.FixedLenByteArray {
-		p.typeLen = length
-	}
-}
-
-// TypeLength will be -1 if not a FixedLenByteArray column, otherwise will be the
-// length of the FixedLen Byte Array
-func (p *PrimitiveNode) TypeLength() int { return p.typeLen }
-
-// DecimalMetadata returns the current metadata for the node. If not a decimal
-// typed column, the return should have IsSet == false.
-func (p *PrimitiveNode) DecimalMetadata() DecimalMetadata { return p.decimalMetaData }
-
-// Visit is for implementing a Visitor pattern handler to walk a schema's tree. One
-// example is the Schema Printer which walks the tree to print out the schema in order.
-func (p *PrimitiveNode) Visit(v Visitor) {
-	v.VisitPre(p)
-	v.VisitPost(p)
-}
-
-func (p *PrimitiveNode) toThrift() *format.SchemaElement {
-	elem := &format.SchemaElement{
-		Name:           p.Name(),
-		RepetitionType: format.FieldRepetitionTypePtr(format.FieldRepetitionType(p.RepetitionType())),
-		Type:           format.TypePtr(format.Type(p.PhysicalType())),
-	}
-	if p.ConvertedType() != ConvertedTypes.None {
-		elem.ConvertedType = format.ConvertedTypePtr(format.ConvertedType(p.ConvertedType()))
-	}
-	if p.FieldID() >= 0 {
-		elem.FieldID = thrift.Int32Ptr(p.FieldID())
-	}
-	if p.logicalType != nil && p.logicalType.IsSerialized() && !p.logicalType.Equals(IntervalLogicalType{}) {
-		elem.LogicalType = p.logicalType.toThrift()
-	}
-	if p.physicalType == parquet.Types.FixedLenByteArray {
-		elem.TypeLength = thrift.Int32Ptr(int32(p.typeLen))
-	}
-	if p.decimalMetaData.IsSet {
-		elem.Precision = &p.decimalMetaData.Precision
-		elem.Scale = &p.decimalMetaData.Scale
-	}
-	return elem
-}
-
-// FieldList is an alias for a slice of Nodes
-type FieldList []Node
-
-// Len is equivalent to len(fieldlist)
-func (f FieldList) Len() int { return len(f) }
-
-// GroupNode is for managing nested nodes like List, Map, etc.
-type GroupNode struct {
-	node
-	fields    FieldList
-	nameToIdx strIntMultimap
-}
-
-// NewGroupNodeConverted constructs a group node with the provided fields and converted type,
-// determining the logical type from that converted type.
-func NewGroupNodeConverted(name string, repetition parquet.Repetition, fields FieldList, converted ConvertedType, id int32) (n *GroupNode, err error) {
-	n = &GroupNode{
-		node:   node{typ: Group, name: name, repetition: repetition, convertedType: converted, fieldID: id},
-		fields: fields,
-	}
-	n.logicalType = n.convertedType.ToLogicalType(DecimalMetadata{})
-	if !(n.logicalType != nil && (n.logicalType.IsNested() || n.logicalType.IsNone()) && n.logicalType.IsCompatible(n.convertedType, DecimalMetadata{})) {
-		err = fmt.Errorf("invalid logical type %s", n.logicalType.String())
-		return
-	}
-
-	n.nameToIdx = make(strIntMultimap)
-	for idx, f := range n.fields {
-		f.SetParent(n)
-		n.nameToIdx.Add(f.Name(), idx)
-	}
-	return
-}
-
-// NewGroupNodeLogical constructs a group node with the provided fields and logical type,
-// determining the converted type from the provided logical type.
-func NewGroupNodeLogical(name string, repetition parquet.Repetition, fields FieldList, logical LogicalType, id int32) (n *GroupNode, err error) {
-	n = &GroupNode{
-		node:   node{typ: Group, name: name, repetition: repetition, logicalType: logical, fieldID: id},
-		fields: fields,
-	}
-
-	if logical != nil {
-		if logical.IsNested() {
-			n.convertedType, _ = logical.ToConvertedType()
-		} else {
-			err = fmt.Errorf("logical type %s cannot be applied to group node", logical)
-			return
-		}
-	} else {
-		n.logicalType = NoLogicalType{}
-		n.convertedType, _ = n.logicalType.ToConvertedType()
-	}
-
-	if !(n.logicalType != nil && (n.logicalType.IsNested() || n.logicalType.IsNone()) && n.logicalType.IsCompatible(n.convertedType, DecimalMetadata{})) {
-		err = fmt.Errorf("invalid logical type %s", n.logicalType)
-		return
-	}
-
-	n.nameToIdx = make(strIntMultimap)
-	for idx, f := range n.fields {
-		f.SetParent(n)
-		n.nameToIdx.Add(f.Name(), idx)
-	}
-	return
-}
-
-// NewGroupNode constructs a new group node with the provided fields,
-// but with converted type None and No Logical Type
-func NewGroupNode(name string, repetition parquet.Repetition, fields FieldList, fieldID int32) (*GroupNode, error) {
-	return NewGroupNodeConverted(name, repetition, fields, ConvertedTypes.None, fieldID)
-}
-
-// Must is a convenience function for the NewNode functions that return a Node
-// and an error, panic'ing if err != nil or returning the node
-func Must(n Node, err error) Node {
-	if err != nil {
-		panic(err)
-	}
-	return n
-}
-
-// MustGroup is like Must, except it casts the node to a *GroupNode, which will panic
-// if it is a primitive node.
-func MustGroup(n Node, err error) *GroupNode {
-	if err != nil {
-		panic(err)
-	}
-	return n.(*GroupNode)
-}
-
-// MustPrimitive is like Must except it casts the node to *PrimitiveNode which will panic
-// if it is a group node.
-func MustPrimitive(n Node, err error) *PrimitiveNode {
-	if err != nil {
-		panic(err)
-	}
-	return n.(*PrimitiveNode)
-}
-
-func GroupNodeFromThrift(elem *format.SchemaElement, fields FieldList) (*GroupNode, error) {
-	id := int32(-1)
-	if elem.IsSetFieldID() {
-		id = elem.GetFieldID()
-	}
-
-	if elem.IsSetLogicalType() {
-		return NewGroupNodeLogical(elem.GetName(), parquet.Repetition(elem.GetRepetitionType()), fields, getLogicalType(elem.GetLogicalType()), id)
-	}
-
-	converted := ConvertedTypes.None
-	if elem.IsSetConvertedType() {
-		converted = ConvertedType(elem.GetConvertedType())
-	}
-	return NewGroupNodeConverted(elem.GetName(), parquet.Repetition(elem.GetRepetitionType()), fields, converted, id)
-}
-
-func (g *GroupNode) toThrift() *format.SchemaElement {
-	elem := &format.SchemaElement{
-		Name:           g.name,
-		NumChildren:    thrift.Int32Ptr(int32(len(g.fields))),
-		RepetitionType: format.FieldRepetitionTypePtr(format.FieldRepetitionType(g.RepetitionType())),
-	}
-	if g.convertedType != ConvertedTypes.None {
-		elem.ConvertedType = format.ConvertedTypePtr(format.ConvertedType(g.convertedType))
-	}
-	if g.fieldID >= 0 {
-		elem.FieldID = &g.fieldID
-	}
-	if g.logicalType != nil && g.logicalType.IsSerialized() {
-		elem.LogicalType = g.logicalType.toThrift()
-	}
-	return elem
-}
-
-// Equals will compare this node to the provided node and only return true if
-// this node and all of it's children are the same as the passed in node and its
-// children.
-func (g *GroupNode) Equals(rhs Node) bool {
-	if !g.node.Equals(rhs) {
-		return false
-	}
-
-	other := rhs.(*GroupNode)
-	if g == other {
-		return true
-	}
-	if len(g.fields) != len(other.fields) {
-		return false
-	}
-
-	for idx, field := range g.fields {
-		if !field.Equals(other.fields[idx]) {
-			return false
-		}
-	}
-	return true
-}
-
-// NumFields returns the number of direct child fields for this group node
-func (g *GroupNode) NumFields() int {
-	return len(g.fields)
-}
-
-// Field returns the node in the field list which is of the provided (0-based) index
-func (g *GroupNode) Field(i int) Node {
-	return g.fields[i]
-}
-
-// FieldIndexByName provides the index for the field of the given name. Returns
-// -1 if not found.
-//
-// If there are more than one field of this name, it returns the index for the first one.
-func (g *GroupNode) FieldIndexByName(name string) int {
-	if idx, ok := g.nameToIdx[name]; ok {
-		return idx[0]
-	}
-	return -1
-}
-
-// FieldIndexByField looks up the index child of this node. Returns -1
-// if n isn't a child of this group
-func (g *GroupNode) FieldIndexByField(n Node) int {
-	if search, ok := g.nameToIdx[n.Name()]; ok {
-		for _, idx := range search {
-			if n == g.fields[idx] {
-				return idx
-			}
-		}
-	}
-	return -1
-}
-
-// Visit is for implementing a Visitor pattern handler to walk a schema's tree. One
-// example is the Schema Printer which walks the tree to print out the schema in order.
-func (g *GroupNode) Visit(v Visitor) {
-	if v.VisitPre(g) {
-		for _, field := range g.fields {
-			field.Visit(v)
-		}
-	}
-	v.VisitPost(g)
-}
-
-// HasRepeatedFields returns true if any of the children of this node have
-// Repeated as its repetition type.
-//
-// This is recursive and will check the children of any group nodes that are children.
-func (g *GroupNode) HasRepeatedFields() bool {
-	for _, field := range g.fields {
-		if field.RepetitionType() == parquet.Repetitions.Repeated {
-			return true
-		}
-		if field.Type() == Group {
-			return field.(*GroupNode).HasRepeatedFields()
-		}
-	}
-	return false
-}
-
-// NewInt32Node is a convenience factory for constructing an Int32 Primitive Node
-func NewInt32Node(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.Int32, fieldID, -1))
-}
-
-// NewInt64Node is a convenience factory for constructing an Int64 Primitive Node
-func NewInt64Node(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.Int64, fieldID, -1))
-}
-
-// NewInt96Node is a convenience factory for constructing an Int96 Primitive Node
-func NewInt96Node(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.Int96, fieldID, -1))
-}
-
-// NewFloat32Node is a convenience factory for constructing an Float Primitive Node
-func NewFloat32Node(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.Float, fieldID, -1))
-}
-
-// NewFloat64Node is a convenience factory for constructing an Double Primitive Node
-func NewFloat64Node(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.Double, fieldID, -1))
-}
-
-// NewBooleanNode is a convenience factory for constructing an Boolean Primitive Node
-func NewBooleanNode(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.Boolean, fieldID, -1))
-}
-
-// NewByteArrayNode is a convenience factory for constructing an Byte Array Primitive Node
-func NewByteArrayNode(name string, rep parquet.Repetition, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.ByteArray, fieldID, -1))
-}
-
-// NewFixedLenByteArrayNode is a convenience factory for constructing an Fixed Length
-// Byte Array Primitive Node of the given length
-func NewFixedLenByteArrayNode(name string, rep parquet.Repetition, length int32, fieldID int32) *PrimitiveNode {
-	return MustPrimitive(NewPrimitiveNode(name, rep, parquet.Types.FixedLenByteArray, fieldID, length))
-}
diff --git a/go/parquet/schema/reflection.go b/go/parquet/schema/reflection.go
deleted file mode 100644
index 51d0a84f2244f..0000000000000
--- a/go/parquet/schema/reflection.go
+++ /dev/null
@@ -1,829 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"fmt"
-	"reflect"
-	"strconv"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/internal/utils"
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-type taggedInfo struct {
-	Name string
-
-	Type      parquet.Type
-	KeyType   parquet.Type
-	ValueType parquet.Type
-
-	Length      int32
-	KeyLength   int32
-	ValueLength int32
-
-	Scale      int32
-	KeyScale   int32
-	ValueScale int32
-
-	Precision      int32
-	KeyPrecision   int32
-	ValuePrecision int32
-
-	FieldID      int32
-	KeyFieldID   int32
-	ValueFieldID int32
-
-	RepetitionType  parquet.Repetition
-	ValueRepetition parquet.Repetition
-
-	Converted      ConvertedType
-	KeyConverted   ConvertedType
-	ValueConverted ConvertedType
-
-	LogicalFields      map[string]string
-	KeyLogicalFields   map[string]string
-	ValueLogicalFields map[string]string
-
-	LogicalType      LogicalType
-	KeyLogicalType   LogicalType
-	ValueLogicalType LogicalType
-
-	Exclude bool
-}
-
-func (t *taggedInfo) CopyForKey() (ret taggedInfo) {
-	ret = *t
-	ret.Type = t.KeyType
-	ret.Length = t.KeyLength
-	ret.Scale = t.KeyScale
-	ret.Precision = t.KeyPrecision
-	ret.FieldID = t.KeyFieldID
-	ret.RepetitionType = parquet.Repetitions.Required
-	ret.Converted = t.KeyConverted
-	ret.LogicalType = t.KeyLogicalType
-	return
-}
-
-func (t *taggedInfo) CopyForValue() (ret taggedInfo) {
-	ret = *t
-	ret.Type = t.ValueType
-	ret.Length = t.ValueLength
-	ret.Scale = t.ValueScale
-	ret.Precision = t.ValuePrecision
-	ret.FieldID = t.ValueFieldID
-	ret.RepetitionType = t.ValueRepetition
-	ret.Converted = t.ValueConverted
-	ret.LogicalType = t.ValueLogicalType
-	return
-}
-
-func (t *taggedInfo) UpdateLogicalTypes() {
-	processLogicalType := func(fields map[string]string, precision, scale int32) LogicalType {
-		t, ok := fields["type"]
-		if !ok {
-			return NoLogicalType{}
-		}
-
-		switch strings.ToLower(t) {
-		case "string":
-			return StringLogicalType{}
-		case "map":
-			return MapLogicalType{}
-		case "list":
-			return ListLogicalType{}
-		case "enum":
-			return EnumLogicalType{}
-		case "decimal":
-			if v, ok := fields["precision"]; ok {
-				precision = int32FromType(v)
-			}
-			if v, ok := fields["scale"]; ok {
-				scale = int32FromType(v)
-			}
-			return NewDecimalLogicalType(precision, scale)
-		case "date":
-			return DateLogicalType{}
-		case "time":
-			unit, ok := fields["unit"]
-			if !ok {
-				panic("must specify unit for time logical type")
-			}
-			adjustedToUtc, ok := fields["isadjustedutc"]
-			if !ok {
-				adjustedToUtc = "true"
-			}
-			return NewTimeLogicalType(boolFromStr(adjustedToUtc), timeUnitFromString(strings.ToLower(unit)))
-		case "timestamp":
-			unit, ok := fields["unit"]
-			if !ok {
-				panic("must specify unit for time logical type")
-			}
-			adjustedToUtc, ok := fields["isadjustedutc"]
-			if !ok {
-				adjustedToUtc = "true"
-			}
-			return NewTimestampLogicalType(boolFromStr(adjustedToUtc), timeUnitFromString(unit))
-		case "integer":
-			width, ok := fields["bitwidth"]
-			if !ok {
-				panic("must specify bitwidth if explicitly setting integer logical type")
-			}
-			signed, ok := fields["signed"]
-			if !ok {
-				signed = "true"
-			}
-
-			return NewIntLogicalType(int8(int32FromType(width)), boolFromStr(signed))
-		case "null":
-			return NullLogicalType{}
-		case "json":
-			return JSONLogicalType{}
-		case "bson":
-			return BSONLogicalType{}
-		case "uuid":
-			return UUIDLogicalType{}
-		case "float16":
-			return Float16LogicalType{}
-		default:
-			panic(fmt.Errorf("invalid logical type specified: %s", t))
-		}
-	}
-
-	t.LogicalType = processLogicalType(t.LogicalFields, t.Precision, t.Scale)
-	t.KeyLogicalType = processLogicalType(t.KeyLogicalFields, t.KeyPrecision, t.KeyScale)
-	t.ValueLogicalType = processLogicalType(t.ValueLogicalFields, t.ValuePrecision, t.ValueScale)
-}
-
-func newTaggedInfo() taggedInfo {
-	return taggedInfo{
-		Type:               parquet.Types.Undefined,
-		KeyType:            parquet.Types.Undefined,
-		ValueType:          parquet.Types.Undefined,
-		RepetitionType:     parquet.Repetitions.Undefined,
-		ValueRepetition:    parquet.Repetitions.Undefined,
-		Converted:          ConvertedTypes.NA,
-		KeyConverted:       ConvertedTypes.NA,
-		ValueConverted:     ConvertedTypes.NA,
-		FieldID:            -1,
-		KeyFieldID:         -1,
-		ValueFieldID:       -1,
-		LogicalFields:      make(map[string]string),
-		KeyLogicalFields:   make(map[string]string),
-		ValueLogicalFields: make(map[string]string),
-		LogicalType:        NoLogicalType{},
-		KeyLogicalType:     NoLogicalType{},
-		ValueLogicalType:   NoLogicalType{},
-		Exclude:            false,
-	}
-}
-
-var int32FromType = func(v string) int32 {
-	val, err := strconv.Atoi(v)
-	if err != nil {
-		panic(err)
-	}
-	return int32(val)
-}
-
-var boolFromStr = func(v string) bool {
-	val, err := strconv.ParseBool(v)
-	if err != nil {
-		panic(err)
-	}
-	return val
-}
-
-func infoFromTags(f reflect.StructTag) *taggedInfo {
-	typeFromStr := func(v string) parquet.Type {
-		t, err := format.TypeFromString(strings.ToUpper(v))
-		if err != nil {
-			panic(fmt.Errorf("invalid type specified: %s", v))
-		}
-		return parquet.Type(t)
-	}
-
-	repFromStr := func(v string) parquet.Repetition {
-		r, err := format.FieldRepetitionTypeFromString(strings.ToUpper(v))
-		if err != nil {
-			panic(err)
-		}
-		return parquet.Repetition(r)
-	}
-
-	convertedFromStr := func(v string) ConvertedType {
-		c, err := format.ConvertedTypeFromString(strings.ToUpper(v))
-		if err != nil {
-			panic(err)
-		}
-		return ConvertedType(c)
-	}
-
-	if ptags, ok := f.Lookup("parquet"); ok {
-		info := newTaggedInfo()
-		if ptags == "-" {
-			info.Exclude = true
-			return &info
-		}
-		for _, tag := range strings.Split(strings.Replace(ptags, "\t", "", -1), ",") {
-			tag = strings.TrimSpace(tag)
-			kv := strings.SplitN(tag, "=", 2)
-			key := strings.TrimSpace(strings.ToLower(kv[0]))
-			value := strings.TrimSpace(kv[1])
-
-			switch key {
-			case "name":
-				info.Name = value
-			case "type":
-				info.Type = typeFromStr(value)
-			case "keytype":
-				info.KeyType = typeFromStr(value)
-			case "valuetype":
-				info.ValueType = typeFromStr(value)
-			case "length":
-				info.Length = int32FromType(value)
-			case "keylength":
-				info.KeyLength = int32FromType(value)
-			case "valuelength":
-				info.ValueLength = int32FromType(value)
-			case "scale":
-				info.Scale = int32FromType(value)
-			case "keyscale":
-				info.KeyScale = int32FromType(value)
-			case "valuescale":
-				info.ValueScale = int32FromType(value)
-			case "precision":
-				info.Precision = int32FromType(value)
-			case "keyprecision":
-				info.KeyPrecision = int32FromType(value)
-			case "valueprecision":
-				info.ValuePrecision = int32FromType(value)
-			case "fieldid":
-				info.FieldID = int32FromType(value)
-			case "keyfieldid":
-				info.KeyFieldID = int32FromType(value)
-			case "valuefieldid":
-				info.ValueFieldID = int32FromType(value)
-			case "repetition":
-				info.RepetitionType = repFromStr(value)
-			case "valuerepetition":
-				info.ValueRepetition = repFromStr(value)
-			case "converted":
-				info.Converted = convertedFromStr(value)
-			case "keyconverted":
-				info.KeyConverted = convertedFromStr(value)
-			case "valueconverted":
-				info.ValueConverted = convertedFromStr(value)
-			case "logical":
-				info.LogicalFields["type"] = value
-			case "keylogical":
-				info.KeyLogicalFields["type"] = value
-			case "valuelogical":
-				info.ValueLogicalFields["type"] = value
-			default:
-				switch {
-				case strings.HasPrefix(key, "logical."):
-					info.LogicalFields[strings.TrimPrefix(key, "logical.")] = value
-				case strings.HasPrefix(key, "keylogical."):
-					info.KeyLogicalFields[strings.TrimPrefix(key, "keylogical.")] = value
-				case strings.HasPrefix(key, "valuelogical."):
-					info.ValueLogicalFields[strings.TrimPrefix(key, "valuelogical.")] = value
-				}
-			}
-		}
-		info.UpdateLogicalTypes()
-		return &info
-	}
-	return nil
-}
-
-// typeToNode recursively converts a physical type and the tag info into parquet Nodes
-//
-// to avoid having to propagate errors up potentially high numbers of recursive calls
-// we use panics and then recover in the public function NewSchemaFromStruct so that a
-// failure very far down the stack quickly unwinds.
-func typeToNode(name string, typ reflect.Type, repType parquet.Repetition, info *taggedInfo) Node {
-	// set up our default values for everything
-	var (
-		converted             = ConvertedTypes.None
-		logical   LogicalType = NoLogicalType{}
-		fieldID               = int32(-1)
-		physical              = parquet.Types.Undefined
-		typeLen               = 0
-		precision             = 0
-		scale                 = 0
-	)
-	if info != nil { // we have struct tag info to process
-		fieldID = info.FieldID
-		if info.Converted != ConvertedTypes.NA {
-			converted = info.Converted
-		}
-		logical = info.LogicalType
-		physical = info.Type
-		typeLen = int(info.Length)
-		precision = int(info.Precision)
-		scale = int(info.Scale)
-
-		if info.Name != "" {
-			name = info.Name
-		}
-		if info.RepetitionType != parquet.Repetitions.Undefined {
-			repType = info.RepetitionType
-		}
-	}
-
-	// simplify the logic by switching based on the reflection Kind
-	switch typ.Kind() {
-	case reflect.Map:
-		// a map must have a logical type of MAP or have no tag for logical type in which case
-		// we assume MAP logical type.
-		if !logical.IsNone() && !logical.Equals(MapLogicalType{}) {
-			panic("cannot set logical type to something other than map for a map")
-		}
-
-		infoCopy := newTaggedInfo()
-		if info != nil { // populate any value specific tags to propagate for the value type
-			infoCopy = info.CopyForValue()
-		}
-
-		// create the node for the value type of the map
-		value := typeToNode("value", typ.Elem(), parquet.Repetitions.Required, &infoCopy)
-		if info != nil { // change our copy to now use the key specific tags if they exist
-			infoCopy = info.CopyForKey()
-		}
-
-		// create the node for the key type of the map
-		key := typeToNode("key", typ.Key(), parquet.Repetitions.Required, &infoCopy)
-		if key.RepetitionType() != parquet.Repetitions.Required { // key cannot be optional
-			panic("key type of map must be Required")
-		}
-		return Must(MapOf(name, key, value, repType, fieldID))
-	case reflect.Struct:
-		if typ == reflect.TypeOf(float16.Num{}) {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2, fieldID))
-		}
-		// structs are Group nodes
-		fields := make(FieldList, 0)
-		for i := 0; i < typ.NumField(); i++ {
-			f := typ.Field(i)
-			tags := infoFromTags(f.Tag)
-			if tags == nil || !tags.Exclude {
-				fields = append(fields, typeToNode(f.Name, f.Type, parquet.Repetitions.Required, tags))
-			}
-		}
-		// group nodes don't have a physical type
-		if physical != parquet.Types.Undefined {
-			panic("cannot specify custom type on struct")
-		}
-		// group nodes don't have converted or logical types
-		if converted != ConvertedTypes.None {
-			panic("cannot specify converted types for a struct")
-		}
-		if !logical.IsNone() {
-			panic("cannot specify logicaltype for a struct")
-		}
-		return Must(NewGroupNode(name, repType, fields, fieldID))
-	case reflect.Ptr: // if we encounter a pointer create a node for the type it points to, but mark it as optional
-		return typeToNode(name, typ.Elem(), parquet.Repetitions.Optional, info)
-	case reflect.Array:
-		// arrays are repeated or fixed size
-		if typ == reflect.TypeOf(parquet.Int96{}) {
-			return NewInt96Node(name, repType, fieldID)
-		}
-
-		if typ.Elem() == reflect.TypeOf(byte(0)) { // something like [12]byte translates to FixedLenByteArray with length 12
-			if physical == parquet.Types.Undefined {
-				physical = parquet.Types.FixedLenByteArray
-			}
-			if typeLen == 0 { // if there was no type length specified in the tag, use the length of the type.
-				typeLen = typ.Len()
-			}
-			if !logical.IsNone() {
-				return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, physical, typeLen, fieldID))
-			}
-			return MustPrimitive(NewPrimitiveNodeConverted(name, repType, physical, converted, typeLen, precision, scale, fieldID))
-		}
-		fallthrough // if it's not a fixed len byte array type, then just treat it like a slice
-	case reflect.Slice:
-		// for slices, we default to treating them as lists unless the repetition type is set to REPEATED or they are
-		// a bytearray/fixedlenbytearray
-		switch {
-		case repType == parquet.Repetitions.Repeated:
-			return typeToNode(name, typ.Elem(), parquet.Repetitions.Repeated, info)
-		case physical == parquet.Types.FixedLenByteArray || physical == parquet.Types.ByteArray:
-			if typ.Elem() != reflect.TypeOf(byte(0)) {
-				panic("slice with physical type ByteArray or FixedLenByteArray must be []byte")
-			}
-			fallthrough
-		case typ.Elem() == reflect.TypeOf(byte(0)):
-			if physical == parquet.Types.Undefined {
-				physical = parquet.Types.ByteArray
-			}
-			if !logical.IsNone() {
-				return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, physical, typeLen, fieldID))
-			}
-			return MustPrimitive(NewPrimitiveNodeConverted(name, repType, physical, converted, typeLen, precision, scale, fieldID))
-		default:
-			var elemInfo *taggedInfo
-			if info != nil {
-				elemInfo = &taggedInfo{}
-				*elemInfo = info.CopyForValue()
-			}
-
-			if !logical.IsNone() && !logical.Equals(ListLogicalType{}) {
-				panic("slice must either be repeated or a List type")
-			}
-			if converted != ConvertedTypes.None && converted != ConvertedTypes.List {
-				panic("slice must either be repeated or a List type")
-			}
-			return Must(ListOf(typeToNode(name, typ.Elem(), parquet.Repetitions.Required, elemInfo), repType, fieldID))
-		}
-	case reflect.String:
-		// strings are byte arrays or fixedlen byte array
-		t := parquet.Types.ByteArray
-		switch physical {
-		case parquet.Types.Undefined, parquet.Types.ByteArray:
-		case parquet.Types.FixedLenByteArray:
-			t = parquet.Types.FixedLenByteArray
-		default:
-			panic("string fields should be of type bytearray or fixedlenbytearray only")
-		}
-
-		if !logical.IsNone() {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, t, typeLen, fieldID))
-		}
-
-		return MustPrimitive(NewPrimitiveNodeConverted(name, repType, t, converted, typeLen, precision, scale, fieldID))
-	case reflect.Int, reflect.Int32, reflect.Int8, reflect.Int16, reflect.Int64:
-		// handle integer types, default to setting the corresponding logical type
-		ptyp := parquet.Types.Int32
-		if typ.Bits() == 64 {
-			ptyp = parquet.Types.Int64
-		}
-
-		if physical != parquet.Types.Undefined {
-			ptyp = physical
-		}
-
-		if !logical.IsNone() {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, ptyp, typeLen, fieldID))
-		}
-
-		bitwidth := int8(typ.Bits())
-		if physical != parquet.Types.Undefined {
-			if ptyp == parquet.Types.Int32 {
-				bitwidth = 32
-			} else if ptyp == parquet.Types.Int64 {
-				bitwidth = 64
-			}
-		}
-
-		if converted != ConvertedTypes.None {
-			return MustPrimitive(NewPrimitiveNodeConverted(name, repType, ptyp, converted, 0, precision, scale, fieldID))
-		}
-
-		return MustPrimitive(NewPrimitiveNodeLogical(name, repType, NewIntLogicalType(bitwidth, true), ptyp, 0, fieldID))
-	case reflect.Uint, reflect.Uint32, reflect.Uint8, reflect.Uint16, reflect.Uint64:
-		// handle unsigned integer types and default to the corresponding logical type for it.
-		ptyp := parquet.Types.Int32
-		if typ.Bits() == 64 {
-			ptyp = parquet.Types.Int64
-		}
-
-		if physical != parquet.Types.Undefined {
-			ptyp = physical
-		}
-
-		if !logical.IsNone() {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, ptyp, typeLen, fieldID))
-		}
-
-		bitwidth := int8(typ.Bits())
-		if physical != parquet.Types.Undefined {
-			if ptyp == parquet.Types.Int32 {
-				bitwidth = 32
-			} else if ptyp == parquet.Types.Int64 {
-				bitwidth = 64
-			}
-		}
-
-		if converted != ConvertedTypes.None {
-			return MustPrimitive(NewPrimitiveNodeConverted(name, repType, ptyp, converted, 0, precision, scale, fieldID))
-		}
-
-		return MustPrimitive(NewPrimitiveNodeLogical(name, repType, NewIntLogicalType(bitwidth, false), ptyp, 0, fieldID))
-	case reflect.Bool:
-		if !logical.IsNone() {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, parquet.Types.Boolean, typeLen, fieldID))
-		}
-		return MustPrimitive(NewPrimitiveNodeConverted(name, repType, parquet.Types.Boolean, converted, typeLen, precision, scale, fieldID))
-	case reflect.Float32:
-		if !logical.IsNone() {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, parquet.Types.Float, typeLen, fieldID))
-		}
-		return MustPrimitive(NewPrimitiveNodeConverted(name, repType, parquet.Types.Float, converted, typeLen, precision, scale, fieldID))
-	case reflect.Float64:
-		if !logical.IsNone() {
-			return MustPrimitive(NewPrimitiveNodeLogical(name, repType, logical, parquet.Types.Double, typeLen, fieldID))
-		}
-		return MustPrimitive(NewPrimitiveNodeConverted(name, repType, parquet.Types.Double, converted, typeLen, precision, scale, fieldID))
-	}
-	return nil
-}
-
-// NewSchemaFromStruct generates a schema from an object type via reflection of
-// the type and reading struct tags for "parquet".
-//
-// # Rules
-//
-// Everything defaults to Required repetition, unless otherwise specified.
-// Pointer types become Optional repetition.
-// Arrays and Slices become logical List types unless using the tag `repetition=repeated`.
-//
-// A length specified byte field (like [5]byte) becomes a fixed_len_byte_array of that length
-// unless otherwise specified by tags.
-//
-// string and []byte both become ByteArray unless otherwise specified.
-//
-// Integer types will default to having a logical type of the appropriate bit width
-// and signedness rather than having no logical type, ie: an int8 will become an int32
-// node with logical type Int(bitWidth=8, signed=true).
-//
-// Structs will become group nodes with the fields of the struct as the fields of the group,
-// recursively creating the nodes.
-//
-// maps will become appropriate Map structures in the schema of the defined key and values.
-//
-// # Available Tags
-//
-// name: by default the node will have the same name as the field, this tag let's you specify a name
-//
-// type: Specify the physical type instead of using the field type
-//
-// length: specify the type length of the node, only relevant for fixed_len_byte_array
-//
-// scale: specify the scale for a decimal field
-//
-// precision: specify the precision for a decimal field
-//
-// fieldid: specify the field ID for that node, defaults to -1 which means it is not set in the parquet file.
-//
-// repetition: specify the repetition as something other than what is determined by the type
-//
-// converted: specify the Converted Type of the field
-//
-// logical: specify the logical type of the field, if using decimal then the scale and precision
-// will be determined by the precision and scale fields, or by the logical.precision / logical.scale fields
-// with the logical. prefixed versions taking precedence. For Time or Timestamp logical types,
-// use logical.unit=<millis|micros|nanos> and logical.isadjustedutc=<true|false> to set those. Unit is required
-// isadjustedutc defaults to true. For Integer logical type, use logical.bitwidth and logical.signed to specify
-// those values, with bitwidth being required, and signed defaulting to true.
-//
-// All tags other than name can use a prefix of "key<tagname>=<value>" to refer to the type of the key for a map
-// and "value<tagname>=<value>" to refer to the value type of a map or the element of a list (such as the type of a slice)
-func NewSchemaFromStruct(obj interface{}) (sc *Schema, err error) {
-	ot := reflect.TypeOf(obj)
-	if ot.Kind() == reflect.Ptr {
-		ot = ot.Elem()
-	}
-
-	// typeToNode uses panics to fail fast / fail early instead of propagating
-	// errors up recursive stacks. so we recover here and return it as an error
-	defer func() {
-		if r := recover(); r != nil {
-			sc = nil
-			err = utils.FormatRecoveredError("unknown panic", r)
-		}
-	}()
-
-	root := typeToNode(ot.Name(), ot, parquet.Repetitions.Repeated, nil)
-	return NewSchema(root.(*GroupNode)), nil
-}
-
-var parquetTypeToReflect = map[parquet.Type]reflect.Type{
-	parquet.Types.Boolean:           reflect.TypeOf(true),
-	parquet.Types.Int32:             reflect.TypeOf(int32(0)),
-	parquet.Types.Int64:             reflect.TypeOf(int64(0)),
-	parquet.Types.Float:             reflect.TypeOf(float32(0)),
-	parquet.Types.Double:            reflect.TypeOf(float64(0)),
-	parquet.Types.Int96:             reflect.TypeOf(parquet.Int96{}),
-	parquet.Types.ByteArray:         reflect.TypeOf(parquet.ByteArray{}),
-	parquet.Types.FixedLenByteArray: reflect.TypeOf(parquet.FixedLenByteArray{}),
-}
-
-func typeFromNode(n Node) reflect.Type {
-	switch n.Type() {
-	case Primitive:
-		typ := parquetTypeToReflect[n.(*PrimitiveNode).PhysicalType()]
-		// if a bytearray field is annotated as a String logical type or a UTF8 converted type
-		// then use a string instead of parquet.ByteArray / parquet.FixedLenByteArray which are []byte
-		if n.LogicalType().Equals(StringLogicalType{}) || n.ConvertedType() == ConvertedTypes.UTF8 {
-			typ = reflect.TypeOf(string(""))
-		}
-
-		if n.RepetitionType() == parquet.Repetitions.Optional {
-			typ = reflect.PointerTo(typ)
-		} else if n.RepetitionType() == parquet.Repetitions.Repeated {
-			typ = reflect.SliceOf(typ)
-		}
-
-		return typ
-	case Group:
-		gnode := n.(*GroupNode)
-		switch gnode.ConvertedType() {
-		case ConvertedTypes.List:
-			// According to the Parquet Spec, a list should always be a 3-level structure
-			//
-			//	<list-repetition> group <name> (LIST) {
-			//		repeated group list {
-			//			<element-repetition> <element-type> element;
-			//		}
-			//	}
-			//
-			// Outer-most level must be a group annotated with LIST containing a single field named "list".
-			// this level must be only optional (if the list is nullable) or required
-			// Middle level, named list, must be repeated group with a single field named "element"
-			// "element" field is the lists element type and repetition, which should be only required or optional
-
-			if gnode.fields.Len() != 1 {
-				panic("invalid list node, should have exactly 1 child.")
-			}
-
-			if gnode.fields[0].RepetitionType() != parquet.Repetitions.Repeated {
-				panic("invalid list node, child should be repeated")
-			}
-
-			// it is required that the repeated group of elements is named "list" and it's element
-			// field is named "element", however existing data may not use this so readers shouldn't
-			// enforce them as errors
-			//
-			// Rules for backward compatibility from the parquet spec:
-			//
-			// 1) if the repeated field is not a group, then it's type is the element type and elements
-			//    must be required.
-			// 2) if the repeated field is a group with multiple fields, then its type is the element type
-			//    and elements must be required.
-			// 3) if the repeated field is a group with one field AND is named either "array" or uses the
-			//    LIST-annotated group's name with "_tuple" suffix, then the repeated type is the element
-			//    type and the elements must be required.
-			// 4) otherwise, the repeated field's type is the element type with the repeated field's repetition
-
-			elemMustBeRequired := false
-			addSlice := false
-			var elemType reflect.Type
-			elemNode := gnode.fields[0]
-			switch {
-			case elemNode.Type() == Primitive,
-				elemNode.(*GroupNode).fields.Len() > 1,
-				elemNode.(*GroupNode).fields.Len() == 1 && (elemNode.Name() == "array" || elemNode.Name() == gnode.Name()+"_tuple"):
-				elemMustBeRequired = true
-				elemType = typeFromNode(elemNode)
-			default:
-				addSlice = true
-				elemType = typeFromNode(elemNode.(*GroupNode).fields[0])
-			}
-
-			if elemMustBeRequired && elemType.Kind() == reflect.Ptr {
-				elemType = elemType.Elem()
-			}
-			if addSlice {
-				elemType = reflect.SliceOf(elemType)
-			}
-			if gnode.RepetitionType() == parquet.Repetitions.Optional {
-				elemType = reflect.PointerTo(elemType)
-			}
-			return elemType
-		case ConvertedTypes.Map, ConvertedTypes.MapKeyValue:
-			// According to the Parquet Spec, the outer-most level should be
-			// a group containing a single field named "key_value" with repetition
-			// either optional or required for whether or not the map is nullable.
-			//
-			// The key_value middle level *must* be a repeated group with a "key" field
-			// and *optionally* a "value" field
-			//
-			// the "key" field *must* be required and must always exist
-			//
-			// the "value" field can be required or optional or omitted.
-			//
-			// 	<map-repetition> group <name> (MAP) {
-			//		repeated group key_value {
-			//			required <key-type> key;
-			//			<value-repetition> <value-type> value;
-			//		}
-			//	}
-
-			if gnode.fields.Len() != 1 {
-				panic("invalid map node, should have exactly 1 child")
-			}
-
-			if gnode.fields[0].Type() != Group {
-				panic("invalid map node, child should be a group node")
-			}
-
-			// that said, this may not be used in existing data and should not be
-			// enforced as errors when reading.
-			//
-			// some data may also incorrectly use MAP_KEY_VALUE instead of MAP
-			//
-			// so any group with MAP_KEY_VALUE that is not contained inside of a "MAP"
-			// group, should be considered equivalent to being a MAP group itself.
-			//
-			// in addition, the fields may not be called "key" and "value" in existing
-			// data, and as such should not be enforced as errors when reading.
-
-			keyval := gnode.fields[0].(*GroupNode)
-
-			keyIndex := keyval.FieldIndexByName("key")
-			if keyIndex == -1 {
-				keyIndex = 0 // use first child if there is no child named "key"
-			}
-
-			keyType := typeFromNode(keyval.fields[keyIndex])
-			if keyType.Kind() == reflect.Ptr {
-				keyType = keyType.Elem()
-			}
-			// can't use a []byte as a key for a map, so use string
-			if keyType == reflect.TypeOf(parquet.ByteArray{}) || keyType == reflect.TypeOf(parquet.FixedLenByteArray{}) {
-				keyType = reflect.TypeOf(string(""))
-			}
-
-			// if the value node is omitted, then consider this a "set" and make it a
-			// map[key-type]bool
-			valType := reflect.TypeOf(true)
-			if keyval.fields.Len() > 1 {
-				valIndex := keyval.FieldIndexByName("value")
-				if valIndex == -1 {
-					valIndex = 1 // use second child if there is no child named "value"
-				}
-
-				valType = typeFromNode(keyval.fields[valIndex])
-			}
-
-			mapType := reflect.MapOf(keyType, valType)
-			if gnode.RepetitionType() == parquet.Repetitions.Optional {
-				mapType = reflect.PointerTo(mapType)
-			}
-			return mapType
-		default:
-			fields := []reflect.StructField{}
-			for _, f := range gnode.fields {
-				fields = append(fields, reflect.StructField{
-					Name:    f.Name(),
-					Type:    typeFromNode(f),
-					PkgPath: "parquet",
-				})
-			}
-
-			structType := reflect.StructOf(fields)
-			if gnode.RepetitionType() == parquet.Repetitions.Repeated {
-				return reflect.SliceOf(structType)
-			}
-			if gnode.RepetitionType() == parquet.Repetitions.Optional {
-				return reflect.PointerTo(structType)
-			}
-			return structType
-		}
-	}
-	panic("what happened?")
-}
-
-// NewStructFromSchema generates a struct type as a reflect.Type from the schema
-// by using the appropriate physical types and making things either pointers or slices
-// based on whether they are repeated/optional/required. It does not use the logical
-// or converted types to change the physical storage so that it is more efficient to use
-// the resulting type for reading without having to do conversions.
-//
-// It will use maps for map types and slices for list types, but otherwise ignores the
-// converted and logical types of the nodes. Group nodes that are not List or Map will
-// be nested structs.
-func NewStructFromSchema(sc *Schema) (t reflect.Type, err error) {
-	defer func() {
-		if r := recover(); r != nil {
-			t = nil
-			err = utils.FormatRecoveredError("unknown panic", r)
-		}
-	}()
-
-	t = typeFromNode(sc.root)
-	if t.Kind() == reflect.Slice || t.Kind() == reflect.Ptr {
-		return t.Elem(), nil
-	}
-	return
-}
diff --git a/go/parquet/schema/reflection_test.go b/go/parquet/schema/reflection_test.go
deleted file mode 100644
index 6877f33c0169f..0000000000000
--- a/go/parquet/schema/reflection_test.go
+++ /dev/null
@@ -1,411 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema_test
-
-import (
-	"log"
-	"os"
-	"reflect"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/arrow/float16"
-	"github.com/apache/arrow/go/v18/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/stretchr/testify/assert"
-)
-
-func ExampleNewSchemaFromStruct_primitives() {
-	type Schema struct {
-		Bool              bool
-		Int8              int8
-		Uint16            uint16
-		Int32             int32
-		Int64             int64
-		Int96             parquet.Int96
-		Float             float32
-		Double            float64
-		ByteArray         string
-		FixedLenByteArray [10]byte
-	}
-
-	sc, err := schema.NewSchemaFromStruct(Schema{})
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	schema.PrintSchema(sc.Root(), os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=-1 Schema {
-	//   required boolean field_id=-1 Bool;
-	//   required int32 field_id=-1 Int8 (Int(bitWidth=8, isSigned=true));
-	//   required int32 field_id=-1 Uint16 (Int(bitWidth=16, isSigned=false));
-	//   required int32 field_id=-1 Int32 (Int(bitWidth=32, isSigned=true));
-	//   required int64 field_id=-1 Int64 (Int(bitWidth=64, isSigned=true));
-	//   required int96 field_id=-1 Int96;
-	//   required float field_id=-1 Float;
-	//   required double field_id=-1 Double;
-	//   required byte_array field_id=-1 ByteArray;
-	//   required fixed_len_byte_array field_id=-1 FixedLenByteArray;
-	// }
-}
-
-func ExampleNewSchemaFromStruct_convertedtypes() {
-	type ConvertedSchema struct {
-		Utf8           string        `parquet:"name=utf8, converted=UTF8"`
-		Uint32         uint32        `parquet:"converted=INT_32"`
-		Date           int32         `parquet:"name=date, converted=date"`
-		TimeMilli      int32         `parquet:"name=timemilli, converted=TIME_MILLIS"`
-		TimeMicro      int64         `parquet:"name=timemicro, converted=time_micros"`
-		TimeStampMilli int64         `parquet:"converted=timestamp_millis"`
-		TimeStampMicro int64         `parquet:"converted=timestamp_micros"`
-		Interval       parquet.Int96 `parquet:"converted=INTERVAL"`
-		Decimal1       int32         `parquet:"converted=decimal, scale=2, precision=9"`
-		Decimal2       int64         `parquet:"converted=decimal, scale=2, precision=18"`
-		Decimal3       [12]byte      `parquet:"converted=decimal, scale=2, precision=10"`
-		Decimal4       string        `parquet:"converted=decimal, scale=2, precision=20"`
-	}
-
-	sc, err := schema.NewSchemaFromStruct(&ConvertedSchema{})
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	schema.PrintSchema(sc.Root(), os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=-1 ConvertedSchema {
-	//   required byte_array field_id=-1 utf8 (String);
-	//   required int32 field_id=-1 Uint32 (Int(bitWidth=32, isSigned=true));
-	//   required int32 field_id=-1 date (Date);
-	//   required int32 field_id=-1 timemilli (Time(isAdjustedToUTC=true, timeUnit=milliseconds));
-	//   required int64 field_id=-1 timemicro (Time(isAdjustedToUTC=true, timeUnit=microseconds));
-	//   required int64 field_id=-1 TimeStampMilli (Timestamp(isAdjustedToUTC=true, timeUnit=milliseconds, is_from_converted_type=true, force_set_converted_type=false));
-	//   required int64 field_id=-1 TimeStampMicro (Timestamp(isAdjustedToUTC=true, timeUnit=microseconds, is_from_converted_type=true, force_set_converted_type=false));
-	//   required int96 field_id=-1 Interval;
-	//   required int32 field_id=-1 Decimal1 (Decimal(precision=9, scale=2));
-	//   required int64 field_id=-1 Decimal2 (Decimal(precision=18, scale=2));
-	//   required fixed_len_byte_array field_id=-1 Decimal3 (Decimal(precision=10, scale=2));
-	//   required byte_array field_id=-1 Decimal4 (Decimal(precision=20, scale=2));
-	// }
-}
-
-func ExampleNewSchemaFromStruct_repetition() {
-	type RepetitionSchema struct {
-		List     []int64 `parquet:"fieldid=1"`
-		Repeated []int64 `parquet:"repetition=repeated, fieldid=2"`
-		Optional *int64  `parquet:"fieldid=3"`
-		Required *int64  `parquet:"repetition=REQUIRED, fieldid=4"`
-		Opt      int64   `parquet:"repetition=OPTIONAL, fieldid=5"`
-	}
-
-	sc, err := schema.NewSchemaFromStruct(RepetitionSchema{})
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	schema.PrintSchema(sc.Root(), os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=-1 RepetitionSchema {
-	//   required group field_id=1 List (List) {
-	//     repeated group field_id=-1 list {
-	//       required int64 field_id=-1 element (Int(bitWidth=64, isSigned=true));
-	//     }
-	//   }
-	//   repeated int64 field_id=2 Repeated (Int(bitWidth=64, isSigned=true));
-	//   optional int64 field_id=3 Optional (Int(bitWidth=64, isSigned=true));
-	//   required int64 field_id=4 Required (Int(bitWidth=64, isSigned=true));
-	//   optional int64 field_id=5 Opt (Int(bitWidth=64, isSigned=true));
-	// }
-}
-
-func ExampleNewSchemaFromStruct_logicaltypes() {
-	type LogicalTypes struct {
-		String                []byte   `parquet:"logical=String"`
-		Enum                  string   `parquet:"logical=enum"`
-		Date                  int32    `parquet:"logical=date"`
-		Decimal1              int32    `parquet:"logical=decimal, precision=9, scale=2"`
-		Decimal2              int32    `parquet:"logical=decimal, logical.precision=9, scale=2"`
-		Decimal3              int32    `parquet:"logical=decimal, precision=5, logical.precision=9, scale=1, logical.scale=3"`
-		TimeMilliUTC          int32    `parquet:"logical=TIME, logical.unit=millis"`
-		TimeMilli             int32    `parquet:"logical=Time, logical.unit=millis, logical.isadjustedutc=false"`
-		TimeMicros            int64    `parquet:"logical=time, logical.unit=micros, logical.isadjustedutc=false"`
-		TimeMicrosUTC         int64    `parquet:"logical=time, logical.unit=micros, logical.isadjustedutc=true"`
-		TimeNanos             int64    `parquet:"logical=time, logical.unit=nanos"`
-		TimestampMilli        int64    `parquet:"logical=timestamp, logical.unit=millis"`
-		TimestampMicrosNotUTC int64    `parquet:"logical=timestamp, logical.unit=micros, logical.isadjustedutc=false"`
-		TimestampNanos        int64    `parquet:"logical=timestamp, logical.unit=nanos"`
-		JSON                  string   `parquet:"logical=json"`
-		BSON                  []byte   `parquet:"logical=BSON"`
-		UUID                  [16]byte `parquet:"logical=uuid"`
-		Float16               [2]byte  `parquet:"logical=float16"`
-		Float16Optional       *[2]byte `parquet:"logical=float16"`
-		Float16Num            float16.Num
-	}
-
-	sc, err := schema.NewSchemaFromStruct(LogicalTypes{})
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	schema.PrintSchema(sc.Root(), os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=-1 LogicalTypes {
-	//   required byte_array field_id=-1 String (String);
-	//   required byte_array field_id=-1 Enum (Enum);
-	//   required int32 field_id=-1 Date (Date);
-	//   required int32 field_id=-1 Decimal1 (Decimal(precision=9, scale=2));
-	//   required int32 field_id=-1 Decimal2 (Decimal(precision=9, scale=2));
-	//   required int32 field_id=-1 Decimal3 (Decimal(precision=9, scale=3));
-	//   required int32 field_id=-1 TimeMilliUTC (Time(isAdjustedToUTC=true, timeUnit=milliseconds));
-	//   required int32 field_id=-1 TimeMilli (Time(isAdjustedToUTC=false, timeUnit=milliseconds));
-	//   required int64 field_id=-1 TimeMicros (Time(isAdjustedToUTC=false, timeUnit=microseconds));
-	//   required int64 field_id=-1 TimeMicrosUTC (Time(isAdjustedToUTC=true, timeUnit=microseconds));
-	//   required int64 field_id=-1 TimeNanos (Time(isAdjustedToUTC=true, timeUnit=nanoseconds));
-	//   required int64 field_id=-1 TimestampMilli (Timestamp(isAdjustedToUTC=true, timeUnit=milliseconds, is_from_converted_type=false, force_set_converted_type=false));
-	//   required int64 field_id=-1 TimestampMicrosNotUTC (Timestamp(isAdjustedToUTC=false, timeUnit=microseconds, is_from_converted_type=false, force_set_converted_type=false));
-	//   required int64 field_id=-1 TimestampNanos (Timestamp(isAdjustedToUTC=true, timeUnit=nanoseconds, is_from_converted_type=false, force_set_converted_type=false));
-	//   required byte_array field_id=-1 JSON (JSON);
-	//   required byte_array field_id=-1 BSON (BSON);
-	//   required fixed_len_byte_array field_id=-1 UUID (UUID);
-	//   required fixed_len_byte_array field_id=-1 Float16 (Float16);
-	//   optional fixed_len_byte_array field_id=-1 Float16Optional (Float16);
-	//   required fixed_len_byte_array field_id=-1 Float16Num (Float16);
-	// }
-}
-
-func ExampleNewSchemaFromStruct_physicaltype() {
-	type ChangeTypes struct {
-		Int32        int64  `parquet:"type=int32"`
-		FixedLen     string `parquet:"type=fixed_len_byte_array, length=10"`
-		SliceAsFixed []byte `parquet:"type=fixed_len_byte_array, length=12"`
-		Int          int    `parquet:"type=int32"`
-	}
-
-	sc, err := schema.NewSchemaFromStruct(ChangeTypes{})
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	schema.PrintSchema(sc.Root(), os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=-1 ChangeTypes {
-	//   required int32 field_id=-1 Int32 (Int(bitWidth=32, isSigned=true));
-	//   required fixed_len_byte_array field_id=-1 FixedLen;
-	//   required fixed_len_byte_array field_id=-1 SliceAsFixed;
-	//   required int32 field_id=-1 Int (Int(bitWidth=32, isSigned=true));
-	// }
-}
-
-func ExampleNewSchemaFromStruct_nestedtypes() {
-	type Other struct {
-		OptionalMap *map[string]*string `parquet:"valuerepetition=required, keylogical=String, valueconverted=BSON"`
-	}
-
-	type MyMap map[int32]string
-
-	type Nested struct {
-		SimpleMap     map[int32]string
-		FixedLenMap   map[string][]byte `parquet:"keytype=fixed_len_byte_array, keyfieldid=10, valuefieldid=11, keylength=10"`
-		DecimalMap    map[int32]string  `parquet:"logical=map, keyconverted=DECIMAL, keyscale=3, keyprecision=7, valuetype=fixed_len_byte_array, valuelength=4, valuelogical=decimal, valuelogical.precision=9, valuescale=2"`
-		OtherList     []*Other
-		OtherRepeated []Other  `parquet:"repetition=repeated"`
-		DateArray     [5]int32 `parquet:"valuelogical=date, logical=list"`
-		DateMap       MyMap    `parquet:"keylogical=TIME, keylogical.unit=MILLIS, keylogical.isadjustedutc=false, valuelogical=enum"`
-	}
-
-	sc, err := schema.NewSchemaFromStruct(Nested{})
-	if err != nil {
-		log.Fatal(err)
-	}
-
-	schema.PrintSchema(sc.Root(), os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=-1 Nested {
-	//   required group field_id=-1 SimpleMap (Map) {
-	//     repeated group field_id=-1 key_value {
-	//       required int32 field_id=-1 key (Int(bitWidth=32, isSigned=true));
-	//       required byte_array field_id=-1 value;
-	//     }
-	//   }
-	//   required group field_id=-1 FixedLenMap (Map) {
-	//     repeated group field_id=-1 key_value {
-	//       required fixed_len_byte_array field_id=10 key;
-	//       required byte_array field_id=11 value;
-	//     }
-	//   }
-	//   required group field_id=-1 DecimalMap (Map) {
-	//     repeated group field_id=-1 key_value {
-	//       required int32 field_id=-1 key (Decimal(precision=7, scale=3));
-	//       required fixed_len_byte_array field_id=-1 value (Decimal(precision=9, scale=2));
-	//     }
-	//   }
-	//   required group field_id=-1 OtherList (List) {
-	//     repeated group field_id=-1 list {
-	//       optional group field_id=-1 element {
-	//         optional group field_id=-1 OptionalMap (Map) {
-	//           repeated group field_id=-1 key_value {
-	//             required byte_array field_id=-1 key (String);
-	//             required byte_array field_id=-1 value (BSON);
-	//           }
-	//         }
-	//       }
-	//     }
-	//   }
-	//   repeated group field_id=-1 OtherRepeated {
-	//     optional group field_id=-1 OptionalMap (Map) {
-	//       repeated group field_id=-1 key_value {
-	//         required byte_array field_id=-1 key (String);
-	//         required byte_array field_id=-1 value (BSON);
-	//       }
-	//     }
-	//   }
-	//   required group field_id=-1 DateArray (List) {
-	//     repeated group field_id=-1 list {
-	//       required int32 field_id=-1 element (Date);
-	//     }
-	//   }
-	//   required group field_id=-1 DateMap (Map) {
-	//     repeated group field_id=-1 key_value {
-	//       required int32 field_id=-1 key (Time(isAdjustedToUTC=false, timeUnit=milliseconds));
-	//       required byte_array field_id=-1 value (Enum);
-	//     }
-	//   }
-	// }
-}
-
-func TestStructFromSchema(t *testing.T) {
-	root, err := schema.NewGroupNode("schema", parquet.Repetitions.Repeated, schema.FieldList{
-		schema.NewBooleanNode("bool", parquet.Repetitions.Required, -1),
-		schema.NewInt32Node("int32", parquet.Repetitions.Optional, -1),
-		schema.NewInt64Node("int64", parquet.Repetitions.Repeated, -1),
-		schema.NewInt96Node("int96", parquet.Repetitions.Required, -1),
-		schema.NewFloat32Node("float", parquet.Repetitions.Required, -1),
-		schema.NewByteArrayNode("bytearray", parquet.Repetitions.Required, -1),
-		schema.NewFixedLenByteArrayNode("fixedLen", parquet.Repetitions.Required, 10, -1),
-	}, -1)
-	assert.NoError(t, err)
-
-	sc := schema.NewSchema(root)
-
-	typ, err := schema.NewStructFromSchema(sc)
-	assert.NoError(t, err)
-
-	assert.Equal(t, reflect.Struct, typ.Kind())
-	assert.Equal(t, "struct { bool bool; int32 *int32; int64 []int64; int96 parquet.Int96; float float32; bytearray parquet.ByteArray; fixedLen parquet.FixedLenByteArray }",
-		typ.String())
-}
-
-func TestStructFromSchemaWithNesting(t *testing.T) {
-	type Other struct {
-		List     *[]*float32
-		Excluded int32 `parquet:"-"`
-	}
-
-	type Nested struct {
-		Nest         []int32
-		OptionalNest []*int64
-		Mapped       map[string]float32
-		Other        []Other
-		Other2       Other
-	}
-
-	sc, err := schema.NewSchemaFromStruct(Nested{})
-	assert.NoError(t, err)
-
-	typ, err := schema.NewStructFromSchema(sc)
-	assert.NoError(t, err)
-	assert.Equal(t, "struct { Nest []int32; OptionalNest []*int64; Mapped map[string]float32; Other []struct { List *[]*float32 }; Other2 struct { List *[]*float32 } }",
-		typ.String())
-}
-
-func TestStructFromSchemaBackwardsCompatList(t *testing.T) {
-	tests := []struct {
-		name     string
-		n        schema.Node
-		expected string
-	}{
-		{"proper list", schema.MustGroup(schema.NewGroupNodeLogical("my_list", parquet.Repetitions.Required,
-			schema.FieldList{
-				schema.MustGroup(schema.NewGroupNode("list", parquet.Repetitions.Repeated, schema.FieldList{schema.NewBooleanNode("element", parquet.Repetitions.Optional, -1)}, -1)),
-			}, schema.NewListLogicalType(), -1)), "struct { my_list []*bool }"},
-		{"backward nullable list nonnull ints", schema.MustGroup(schema.NewGroupNodeLogical("my_list", parquet.Repetitions.Optional, schema.FieldList{
-			schema.NewInt32Node("element", parquet.Repetitions.Repeated, -1),
-		}, schema.NewListLogicalType(), -1)), "struct { my_list *[]int32 }"},
-		{"backward nullable list tuple string int", schema.MustGroup(schema.NewGroupNodeLogical("my_list", parquet.Repetitions.Optional, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("element", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.MustPrimitive(schema.NewPrimitiveNodeLogical("str", parquet.Repetitions.Required, schema.StringLogicalType{}, parquet.Types.ByteArray, 0, -1)),
-				schema.NewInt32Node("num", parquet.Repetitions.Required, -1),
-			}, -1)),
-		}, schema.NewListLogicalType(), -1)), "struct { my_list *[]struct { str string; num int32 } }"},
-		{"list tuple string", schema.MustGroup(schema.NewGroupNodeLogical("my_list", parquet.Repetitions.Required, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("array", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.NewByteArrayNode("str", parquet.Repetitions.Required, -1),
-			}, -1)),
-		}, schema.NewListLogicalType(), -1)), "struct { my_list []struct { str parquet.ByteArray } }"},
-		{"list tuple string my_list_tuple", schema.MustGroup(schema.NewGroupNodeLogical("my_list", parquet.Repetitions.Optional, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("my_list_tuple", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.MustPrimitive(schema.NewPrimitiveNodeLogical("str", parquet.Repetitions.Required, schema.StringLogicalType{}, parquet.Types.ByteArray, 0, -1)),
-			}, -1)),
-		}, schema.NewListLogicalType(), -1)), "struct { my_list *[]struct { str string } }"},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			typ, err := schema.NewStructFromSchema(schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, schema.FieldList{tt.n}, -1))))
-			assert.NoError(t, err)
-			assert.Equal(t, tt.expected, typ.String())
-		})
-	}
-}
-
-func TestStructFromSchemaMaps(t *testing.T) {
-	tests := []struct {
-		name     string
-		n        schema.Node
-		expected string
-	}{
-		{"map string int", schema.MustGroup(schema.NewGroupNodeLogical("my_map", parquet.Repetitions.Required, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("key_value", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.MustPrimitive(schema.NewPrimitiveNodeLogical("key", parquet.Repetitions.Required, schema.StringLogicalType{}, parquet.Types.ByteArray, 0, -1)),
-				schema.NewInt32Node("value", parquet.Repetitions.Optional, -1),
-			}, -1)),
-		}, schema.MapLogicalType{}, -1)), "struct { my_map map[string]*int32 }"},
-		{"nullable map string, int, required values", schema.MustGroup(schema.NewGroupNodeLogical("my_map", parquet.Repetitions.Optional, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("map", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.NewByteArrayNode("str", parquet.Repetitions.Required, -1),
-				schema.NewInt32Node("num", parquet.Repetitions.Required, -1),
-			}, -1)),
-		}, schema.MapLogicalType{}, -1)), "struct { my_map *map[string]int32 }"},
-		{"map_key_value with missing value", schema.MustGroup(schema.NewGroupNodeConverted("my_map", parquet.Repetitions.Optional, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("map", parquet.Repetitions.Repeated, schema.FieldList{
-				schema.NewByteArrayNode("key", parquet.Repetitions.Required, -1),
-			}, -1)),
-		}, schema.ConvertedTypes.MapKeyValue, -1)), "struct { my_map *map[string]bool }"},
-	}
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			typ, err := schema.NewStructFromSchema(schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema", parquet.Repetitions.Repeated, schema.FieldList{tt.n}, -1))))
-			assert.NoError(t, err)
-			assert.Equal(t, tt.expected, typ.String())
-		})
-	}
-}
diff --git a/go/parquet/schema/schema.go b/go/parquet/schema/schema.go
deleted file mode 100644
index c8d53e647d6f9..0000000000000
--- a/go/parquet/schema/schema.go
+++ /dev/null
@@ -1,334 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-// Package schema provides types and functions for manipulating and building parquet
-// file schemas.
-//
-// Some of the utilities provided include building a schema using Struct Tags
-// on a struct type, getting Column Paths from a node, and dealing with the
-// converted and logical types for Parquet.
-//
-// Logical types specify ways to interpret the primitive types allowing the
-// number of primitive types to be smaller and reuse efficient encodings.
-// For instance a "string" is just a ByteArray column with a UTF-8 annotation
-// or "String Logical Type".
-//
-// For more information about Logical and Converted Types, check:
-// https://github.com/apache/parquet-format/blob/master/LogicalTypes.md
-package schema
-
-import (
-	"fmt"
-	"io"
-	"strings"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"golang.org/x/xerrors"
-)
-
-// Schema is the container for the converted Parquet schema with a computed
-// information from the schema analysis needed for file reading
-//
-// * Column index to Node
-//
-// * Max repetition / definition levels for each primitive node
-//
-// The ColumnDescriptor objects produced by this class can be used to assist in
-// the reconstruction of fully materialized data structures from the
-// repetition-definition level encoding of nested data
-type Schema struct {
-	root Node
-
-	leaves      []*Column
-	nodeToLeaf  map[*PrimitiveNode]int
-	leafToBase  map[int]Node
-	leafToIndex strIntMultimap
-}
-
-// FromParquet converts a slice of thrift Schema Elements to the correct node type
-func FromParquet(elems []*format.SchemaElement) (Node, error) {
-	if len(elems) == 0 {
-		return nil, xerrors.New("parquet: empty schema (no root)")
-	}
-
-	if elems[0].GetNumChildren() == 0 {
-		if len(elems) > 1 {
-			return nil, xerrors.New("parquet: schema had multiple nodes but root had no children")
-		}
-		// parquet file with no columns
-		return GroupNodeFromThrift(elems[0], []Node{})
-	}
-
-	// We don't check that the root node is repeated since this is not
-	// consistently set by implementations
-	var (
-		pos      = 0
-		nextNode func() (Node, error)
-	)
-
-	nextNode = func() (Node, error) {
-		if pos == len(elems) {
-			return nil, xerrors.New("parquet: malformed schema: not enough elements")
-		}
-
-		elem := elems[pos]
-		pos++
-
-		if elem.GetNumChildren() == 0 {
-			return PrimitiveNodeFromThrift(elem)
-		}
-
-		fields := make([]Node, 0, elem.GetNumChildren())
-		for i := 0; i < int(elem.GetNumChildren()); i++ {
-			n, err := nextNode()
-			if err != nil {
-				return nil, err
-			}
-			fields = append(fields, n)
-		}
-
-		return GroupNodeFromThrift(elem, fields)
-	}
-
-	return nextNode()
-}
-
-// Root returns the group node that is the root of this schema
-func (s *Schema) Root() *GroupNode {
-	return s.root.(*GroupNode)
-}
-
-// NumColumns returns the number of leaf nodes that are the actual primitive
-// columns in this schema.
-func (s *Schema) NumColumns() int {
-	return len(s.leaves)
-}
-
-// Equals returns true as long as the leaf columns are equal, doesn't take
-// into account the groups and only checks whether the schemas are compatible
-// at the physical storage level.
-func (s *Schema) Equals(rhs *Schema) bool {
-	if s.NumColumns() != rhs.NumColumns() {
-		return false
-	}
-
-	for idx, c := range s.leaves {
-		if !c.Equals(rhs.Column(idx)) {
-			return false
-		}
-	}
-	return true
-}
-
-func (s *Schema) buildTree(n Node, maxDefLvl, maxRepLvl int16, base Node) {
-	switch n.RepetitionType() {
-	case parquet.Repetitions.Repeated:
-		maxRepLvl++
-		fallthrough
-	case parquet.Repetitions.Optional:
-		maxDefLvl++
-	}
-
-	switch n := n.(type) {
-	case *GroupNode:
-		for _, f := range n.fields {
-			s.buildTree(f, maxDefLvl, maxRepLvl, base)
-		}
-	case *PrimitiveNode:
-		s.nodeToLeaf[n] = len(s.leaves)
-		s.leaves = append(s.leaves, NewColumn(n, maxDefLvl, maxRepLvl))
-		s.leafToBase[len(s.leaves)-1] = base
-		s.leafToIndex.Add(n.Path(), len(s.leaves)-1)
-	}
-}
-
-// Column returns the (0-indexed) column of the provided index.
-func (s *Schema) Column(i int) *Column {
-	return s.leaves[i]
-}
-
-// ColumnIndexByName looks up the column by it's full dot separated
-// node path. If there are multiple columns that match, it returns the first one.
-//
-// Returns -1 if not found.
-func (s *Schema) ColumnIndexByName(nodePath string) int {
-	if search, ok := s.leafToIndex[nodePath]; ok {
-		return search[0]
-	}
-	return -1
-}
-
-// ColumnIndexByNode returns the index of the column represented by this node.
-//
-// Returns -1 if not found.
-func (s *Schema) ColumnIndexByNode(n Node) int {
-	if search, ok := s.leafToIndex[n.Path()]; ok {
-		for _, idx := range search {
-			if n == s.Column(idx).SchemaNode() {
-				return idx
-			}
-		}
-	}
-	return -1
-}
-
-// ColumnRoot returns the root node of a given column if it is under a
-// nested group node, providing that root group node.
-func (s *Schema) ColumnRoot(i int) Node {
-	return s.leafToBase[i]
-}
-
-// HasRepeatedFields returns true if any node in the schema has a repeated field type.
-func (s *Schema) HasRepeatedFields() bool {
-	return s.root.(*GroupNode).HasRepeatedFields()
-}
-
-// UpdateColumnOrders must get a slice that is the same length as the number of leaf columns
-// and is used to update the schema metadata Column Orders. len(orders) must equal s.NumColumns()
-func (s *Schema) UpdateColumnOrders(orders []parquet.ColumnOrder) error {
-	if len(orders) != s.NumColumns() {
-		return xerrors.New("parquet: malformed schema: not enough ColumnOrder values")
-	}
-
-	visitor := schemaColumnOrderUpdater{orders, 0}
-	s.root.Visit(&visitor)
-	return nil
-}
-
-func (s *Schema) String() string {
-	var b strings.Builder
-	PrintSchema(s.root, &b, 2)
-	return b.String()
-}
-
-// NewSchema constructs a new Schema object from a root group node.
-//
-// Any fields with a field-id of -1 will be given an appropriate field number based on their order.
-func NewSchema(root *GroupNode) *Schema {
-	s := &Schema{
-		root,
-		make([]*Column, 0),
-		make(map[*PrimitiveNode]int),
-		make(map[int]Node),
-		make(strIntMultimap),
-	}
-
-	for _, f := range root.fields {
-		s.buildTree(f, 0, 0, f)
-	}
-	return s
-}
-
-type schemaColumnOrderUpdater struct {
-	colOrders []parquet.ColumnOrder
-	leafCount int
-}
-
-func (s *schemaColumnOrderUpdater) VisitPre(n Node) bool {
-	if n.Type() == Primitive {
-		leaf := n.(*PrimitiveNode)
-		leaf.ColumnOrder = s.colOrders[s.leafCount]
-		s.leafCount++
-	}
-	return true
-}
-
-func (s *schemaColumnOrderUpdater) VisitPost(Node) {}
-
-type toThriftVisitor struct {
-	elements []*format.SchemaElement
-}
-
-func (t *toThriftVisitor) VisitPre(n Node) bool {
-	t.elements = append(t.elements, n.toThrift())
-	return true
-}
-
-func (t *toThriftVisitor) VisitPost(Node) {}
-
-// ToThrift converts a GroupNode to a slice of SchemaElements which is used
-// for thrift serialization.
-func ToThrift(schema *GroupNode) []*format.SchemaElement {
-	t := &toThriftVisitor{make([]*format.SchemaElement, 0)}
-	schema.Visit(t)
-	return t.elements
-}
-
-type schemaPrinter struct {
-	w           io.Writer
-	indent      int
-	indentWidth int
-}
-
-func (s *schemaPrinter) VisitPre(n Node) bool {
-	fmt.Fprint(s.w, strings.Repeat(" ", s.indent))
-	if n.Type() == Group {
-		g := n.(*GroupNode)
-		fmt.Fprintf(s.w, "%s group field_id=%d %s", g.RepetitionType(), g.FieldID(), g.Name())
-		_, invalid := g.logicalType.(UnknownLogicalType)
-		_, none := g.logicalType.(NoLogicalType)
-
-		if g.logicalType != nil && !invalid && !none {
-			fmt.Fprintf(s.w, " (%s)", g.logicalType)
-		} else if g.convertedType != ConvertedTypes.None {
-			fmt.Fprintf(s.w, " (%s)", g.convertedType)
-		}
-
-		fmt.Fprintln(s.w, " {")
-		s.indent += s.indentWidth
-	} else {
-		p := n.(*PrimitiveNode)
-		fmt.Fprintf(s.w, "%s %s field_id=%d %s", p.RepetitionType(), strings.ToLower(p.PhysicalType().String()), p.FieldID(), p.Name())
-		_, invalid := p.logicalType.(UnknownLogicalType)
-		_, none := p.logicalType.(NoLogicalType)
-
-		if p.logicalType != nil && !invalid && !none {
-			fmt.Fprintf(s.w, " (%s)", p.logicalType)
-		} else if p.convertedType == ConvertedTypes.Decimal {
-			fmt.Fprintf(s.w, " (%s(%d,%d))", p.convertedType, p.DecimalMetadata().Precision, p.DecimalMetadata().Scale)
-		} else if p.convertedType != ConvertedTypes.None {
-			fmt.Fprintf(s.w, " (%s)", p.convertedType)
-		}
-		fmt.Fprintln(s.w, ";")
-	}
-	return true
-}
-
-func (s *schemaPrinter) VisitPost(n Node) {
-	if n.Type() == Group {
-		s.indent -= s.indentWidth
-		fmt.Fprint(s.w, strings.Repeat(" ", s.indent))
-		fmt.Fprintln(s.w, "}")
-	}
-}
-
-// PrintSchema writes a string representation of the tree to w using the indent
-// width provided.
-func PrintSchema(n Node, w io.Writer, indentWidth int) {
-	n.Visit(&schemaPrinter{w, 0, indentWidth})
-}
-
-type strIntMultimap map[string][]int
-
-func (f strIntMultimap) Add(key string, val int) bool {
-	if _, ok := f[key]; !ok {
-		f[key] = []int{val}
-		return false
-	}
-	f[key] = append(f[key], val)
-	return true
-}
diff --git a/go/parquet/schema/schema_element_test.go b/go/parquet/schema/schema_element_test.go
deleted file mode 100644
index e427ba6485e64..0000000000000
--- a/go/parquet/schema/schema_element_test.go
+++ /dev/null
@@ -1,521 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-type schemaElementConstruction struct {
-	node            Node
-	element         *format.SchemaElement
-	name            string
-	expectConverted bool
-	converted       ConvertedType
-	expectLogical   bool
-	checkLogical    func(*format.SchemaElement) bool
-}
-
-type decimalSchemaElementConstruction struct {
-	schemaElementConstruction
-	precision int
-	scale     int
-}
-
-type temporalSchemaElementConstruction struct {
-	schemaElementConstruction
-	adjusted bool
-	unit     TimeUnitType
-	getUnit  func(*format.SchemaElement) *format.TimeUnit
-}
-
-type intSchemaElementConstruction struct {
-	schemaElementConstruction
-	width  int8
-	signed bool
-}
-
-type legacySchemaElementConstructArgs struct {
-	name            string
-	physical        parquet.Type
-	len             int
-	expectConverted bool
-	converted       ConvertedType
-	expectLogical   bool
-	checkLogical    func(*format.SchemaElement) bool
-}
-
-type schemaElementConstructArgs struct {
-	name            string
-	logical         LogicalType
-	physical        parquet.Type
-	len             int
-	expectConverted bool
-	converted       ConvertedType
-	expectLogical   bool
-	checkLogical    func(*format.SchemaElement) bool
-}
-type SchemaElementConstructionSuite struct {
-	suite.Suite
-}
-
-func (s *SchemaElementConstructionSuite) reconstruct(c schemaElementConstructArgs) *schemaElementConstruction {
-	ret := &schemaElementConstruction{
-		node:            MustPrimitive(NewPrimitiveNodeLogical(c.name, parquet.Repetitions.Required, c.logical, c.physical, c.len, -1)),
-		name:            c.name,
-		expectConverted: c.expectConverted,
-		converted:       c.converted,
-		expectLogical:   c.expectLogical,
-		checkLogical:    c.checkLogical,
-	}
-	ret.element = ret.node.toThrift()
-	return ret
-}
-
-func (s *SchemaElementConstructionSuite) legacyReconstruct(c legacySchemaElementConstructArgs) *schemaElementConstruction {
-	ret := &schemaElementConstruction{
-		node:            MustPrimitive(NewPrimitiveNodeConverted(c.name, parquet.Repetitions.Required, c.physical, c.converted, c.len, 0, 0, -1)),
-		name:            c.name,
-		expectConverted: c.expectConverted,
-		converted:       c.converted,
-		expectLogical:   c.expectLogical,
-		checkLogical:    c.checkLogical,
-	}
-	ret.element = ret.node.toThrift()
-	return ret
-}
-
-func (s *SchemaElementConstructionSuite) inspect(c *schemaElementConstruction) {
-	if c.expectConverted {
-		s.True(c.element.IsSetConvertedType())
-		s.Equal(c.converted, ConvertedType(*c.element.ConvertedType))
-	} else {
-		s.False(c.element.IsSetConvertedType())
-	}
-	if c.expectLogical {
-		s.True(c.element.IsSetLogicalType())
-		s.True(c.checkLogical(c.element))
-	} else {
-		s.False(c.element.IsSetLogicalType())
-	}
-}
-
-func (s *SchemaElementConstructionSuite) TestSimple() {
-	checkNone := func(*format.SchemaElement) bool { return true }
-
-	tests := []struct {
-		name   string
-		args   *schemaElementConstructArgs
-		legacy *legacySchemaElementConstructArgs
-	}{
-		{"string", &schemaElementConstructArgs{
-			"string", StringLogicalType{}, parquet.Types.ByteArray, -1, true, ConvertedTypes.UTF8, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetSTRING() },
-		}, nil},
-		{"enum", &schemaElementConstructArgs{
-			"enum", EnumLogicalType{}, parquet.Types.ByteArray, -1, true, ConvertedTypes.Enum, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetENUM() },
-		}, nil},
-		{"date", &schemaElementConstructArgs{
-			"date", DateLogicalType{}, parquet.Types.Int32, -1, true, ConvertedTypes.Date, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetDATE() },
-		}, nil},
-		{"interval", &schemaElementConstructArgs{
-			"interval", IntervalLogicalType{}, parquet.Types.FixedLenByteArray, 12, true, ConvertedTypes.Interval, false,
-			checkNone,
-		}, nil},
-		{"null", &schemaElementConstructArgs{
-			"null", NullLogicalType{}, parquet.Types.Double, -1, false, ConvertedTypes.NA, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetUNKNOWN() },
-		}, nil},
-		{"json", &schemaElementConstructArgs{
-			"json", JSONLogicalType{}, parquet.Types.ByteArray, -1, true, ConvertedTypes.JSON, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetJSON() },
-		}, nil},
-		{"bson", &schemaElementConstructArgs{
-			"bson", BSONLogicalType{}, parquet.Types.ByteArray, -1, true, ConvertedTypes.BSON, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetBSON() },
-		}, nil},
-		{"uuid", &schemaElementConstructArgs{
-			"uuid", UUIDLogicalType{}, parquet.Types.FixedLenByteArray, 16, false, ConvertedTypes.NA, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetUUID() },
-		}, nil},
-		{"float16", &schemaElementConstructArgs{
-			"float16", Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2, false, ConvertedTypes.NA, true,
-			func(e *format.SchemaElement) bool { return e.LogicalType.IsSetFLOAT16() },
-		}, nil},
-		{"none", &schemaElementConstructArgs{
-			"none", NoLogicalType{}, parquet.Types.Int64, -1, false, ConvertedTypes.NA, false,
-			checkNone,
-		}, nil},
-		{"unknown", &schemaElementConstructArgs{
-			"unknown", UnknownLogicalType{}, parquet.Types.Int64, -1, true, ConvertedTypes.NA, false,
-			checkNone,
-		}, nil},
-		{"timestamp_ms", nil, &legacySchemaElementConstructArgs{
-			"timestamp_ms", parquet.Types.Int64, -1, true, ConvertedTypes.TimestampMillis, false, checkNone}},
-		{"timestamp_us", nil, &legacySchemaElementConstructArgs{
-			"timestamp_us", parquet.Types.Int64, -1, true, ConvertedTypes.TimestampMicros, false, checkNone}},
-	}
-	for _, tt := range tests {
-		s.Run(tt.name, func() {
-			var sc *schemaElementConstruction
-			if tt.args != nil {
-				sc = s.reconstruct(*tt.args)
-			} else {
-				sc = s.legacyReconstruct(*tt.legacy)
-			}
-			s.Equal(tt.name, sc.element.Name)
-			s.inspect(sc)
-		})
-	}
-}
-
-func (s *SchemaElementConstructionSuite) reconstructDecimal(c schemaElementConstructArgs) *decimalSchemaElementConstruction {
-	ret := s.reconstruct(c)
-	dec := c.logical.(DecimalLogicalType)
-	return &decimalSchemaElementConstruction{*ret, int(dec.Precision()), int(dec.Scale())}
-}
-
-func (s *SchemaElementConstructionSuite) inspectDecimal(d *decimalSchemaElementConstruction) {
-	s.inspect(&d.schemaElementConstruction)
-	s.EqualValues(d.precision, d.element.GetPrecision())
-	s.EqualValues(d.scale, d.element.GetScale())
-	s.EqualValues(d.precision, d.element.LogicalType.DECIMAL.Precision)
-	s.EqualValues(d.scale, d.element.LogicalType.DECIMAL.Scale)
-}
-
-func (s *SchemaElementConstructionSuite) TestDecimal() {
-	checkDecimal := func(p *format.SchemaElement) bool { return p.LogicalType.IsSetDECIMAL() }
-
-	tests := []schemaElementConstructArgs{
-		{
-			name: "decimal16_6", logical: NewDecimalLogicalType(16 /* precision */, 6 /* scale */),
-			physical: parquet.Types.Int64, len: -1, expectConverted: true, converted: ConvertedTypes.Decimal,
-			expectLogical: true, checkLogical: checkDecimal,
-		},
-		{
-			name: "decimal1_0", logical: NewDecimalLogicalType(1 /* precision */, 0 /* scale */),
-			physical: parquet.Types.Int32, len: -1, expectConverted: true, converted: ConvertedTypes.Decimal,
-			expectLogical: true, checkLogical: checkDecimal,
-		},
-		{
-			name: "decimal10", logical: NewDecimalLogicalType(10 /* precision */, 0 /* scale */),
-			physical: parquet.Types.Int64, len: -1, expectConverted: true, converted: ConvertedTypes.Decimal,
-			expectLogical: true, checkLogical: checkDecimal,
-		},
-		{
-			name: "decimal11_11", logical: NewDecimalLogicalType(11 /* precision */, 11 /* scale */),
-			physical: parquet.Types.Int64, len: -1, expectConverted: true, converted: ConvertedTypes.Decimal,
-			expectLogical: true, checkLogical: checkDecimal,
-		},
-	}
-	for _, tt := range tests {
-		s.Run(tt.name, func() {
-			d := s.reconstructDecimal(tt)
-			s.Equal(tt.name, d.element.Name)
-			s.inspectDecimal(d)
-		})
-	}
-}
-
-func (s *SchemaElementConstructionSuite) reconstructTemporal(c schemaElementConstructArgs, getUnit func(*format.SchemaElement) *format.TimeUnit) *temporalSchemaElementConstruction {
-	base := s.reconstruct(c)
-	t := c.logical.(TemporalLogicalType)
-	return &temporalSchemaElementConstruction{
-		*base,
-		t.IsAdjustedToUTC(),
-		t.TimeUnit(),
-		getUnit,
-	}
-}
-
-func (s *SchemaElementConstructionSuite) inspectTemporal(t *temporalSchemaElementConstruction) {
-	s.inspect(&t.schemaElementConstruction)
-	switch t.unit {
-	case TimeUnitMillis:
-		s.True(t.getUnit(t.element).IsSetMILLIS())
-	case TimeUnitMicros:
-		s.True(t.getUnit(t.element).IsSetMICROS())
-	case TimeUnitNanos:
-		s.True(t.getUnit(t.element).IsSetNANOS())
-	case TimeUnitUnknown:
-		fallthrough
-	default:
-		s.Fail("invalid time unit in test case")
-	}
-}
-
-func (s *SchemaElementConstructionSuite) TestTemporal() {
-	checkTime := func(p *format.SchemaElement) bool {
-		return p.LogicalType.IsSetTIME()
-	}
-	checkTimestamp := func(p *format.SchemaElement) bool {
-		return p.LogicalType.IsSetTIMESTAMP()
-	}
-
-	getTimeUnit := func(p *format.SchemaElement) *format.TimeUnit {
-		return p.LogicalType.TIME.Unit
-	}
-	getTimestampUnit := func(p *format.SchemaElement) *format.TimeUnit {
-		return p.LogicalType.TIMESTAMP.Unit
-	}
-
-	timeTests := []schemaElementConstructArgs{
-		{
-			name: "time_T_ms", logical: NewTimeLogicalType(true, TimeUnitMillis), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.TimeMillis, expectLogical: true, checkLogical: checkTime,
-		},
-		{
-			name: "time_F_ms", logical: NewTimeLogicalType(false, TimeUnitMillis), physical: parquet.Types.Int32, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTime,
-		},
-		{
-			name: "time_T_us", logical: NewTimeLogicalType(true, TimeUnitMicros), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.TimeMicros, expectLogical: true, checkLogical: checkTime,
-		},
-		{
-			name: "time_F_us", logical: NewTimeLogicalType(false, TimeUnitMicros), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTime,
-		},
-		{
-			name: "time_T_ns", logical: NewTimeLogicalType(true, TimeUnitNanos), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTime,
-		},
-		{
-			name: "time_F_ns", logical: NewTimeLogicalType(false, TimeUnitNanos), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTime,
-		},
-	}
-	timeStampTests := []schemaElementConstructArgs{
-		{
-			name: "timestamp_T_ms", logical: NewTimestampLogicalType(true, TimeUnitMillis), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.TimestampMillis, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_F_ms", logical: NewTimestampLogicalType(false, TimeUnitMillis), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_F_ms_force", logical: NewTimestampLogicalTypeForce(false, TimeUnitMillis), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.TimestampMillis, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_T_us", logical: NewTimestampLogicalType(true, TimeUnitMicros), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.TimestampMicros, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_F_us", logical: NewTimestampLogicalType(false, TimeUnitMicros), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_F_us_force", logical: NewTimestampLogicalTypeForce(false, TimeUnitMicros), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.TimestampMicros, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_T_ns", logical: NewTimestampLogicalType(true, TimeUnitNanos), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTimestamp,
-		},
-		{
-			name: "timestamp_F_ns", logical: NewTimestampLogicalType(false, TimeUnitNanos), physical: parquet.Types.Int64, len: -1,
-			expectConverted: false, converted: ConvertedTypes.NA, expectLogical: true, checkLogical: checkTimestamp,
-		},
-	}
-
-	for _, tt := range timeTests {
-		s.Run(tt.name, func() {
-			t := s.reconstructTemporal(tt, getTimeUnit)
-			s.Equal(t.adjusted, t.element.LogicalType.TIME.IsAdjustedToUTC)
-			s.inspectTemporal(t)
-		})
-	}
-	for _, tt := range timeStampTests {
-		s.Run(tt.name, func() {
-			t := s.reconstructTemporal(tt, getTimestampUnit)
-			s.Equal(t.adjusted, t.element.LogicalType.TIMESTAMP.IsAdjustedToUTC)
-			s.inspectTemporal(t)
-		})
-	}
-}
-
-func (s *SchemaElementConstructionSuite) reconstructInteger(c schemaElementConstructArgs) *intSchemaElementConstruction {
-	base := s.reconstruct(c)
-	l := c.logical.(IntLogicalType)
-	return &intSchemaElementConstruction{
-		*base,
-		l.BitWidth(),
-		l.IsSigned(),
-	}
-}
-
-func (s *SchemaElementConstructionSuite) inspectInt(i *intSchemaElementConstruction) {
-	s.inspect(&i.schemaElementConstruction)
-	s.Equal(i.width, i.element.LogicalType.INTEGER.BitWidth)
-	s.Equal(i.signed, i.element.LogicalType.INTEGER.IsSigned)
-}
-
-func (s *SchemaElementConstructionSuite) TestIntegerCases() {
-	checkInt := func(p *format.SchemaElement) bool { return p.LogicalType.IsSetINTEGER() }
-
-	tests := []schemaElementConstructArgs{
-		{
-			name: "uint8", logical: NewIntLogicalType(8, false), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Uint8, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "uint16", logical: NewIntLogicalType(16, false), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Uint16, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "uint32", logical: NewIntLogicalType(32, false), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Uint32, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "uint64", logical: NewIntLogicalType(64, false), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Uint64, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "int8", logical: NewIntLogicalType(8, true), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Int8, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "int16", logical: NewIntLogicalType(16, true), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Int16, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "int32", logical: NewIntLogicalType(32, true), physical: parquet.Types.Int32, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Int32, expectLogical: true, checkLogical: checkInt,
-		},
-		{
-			name: "int64", logical: NewIntLogicalType(64, true), physical: parquet.Types.Int64, len: -1,
-			expectConverted: true, converted: ConvertedTypes.Int64, expectLogical: true, checkLogical: checkInt,
-		},
-	}
-	for _, tt := range tests {
-		s.Run(tt.name, func() {
-			t := s.reconstructInteger(tt)
-			s.inspectInt(t)
-		})
-	}
-}
-
-func TestSchemaElementNestedSerialization(t *testing.T) {
-	// confirm that the intermediate thrift objects created during node serialization
-	// contain correct ConvertedType and ConvertedType information
-
-	strNode := MustPrimitive(NewPrimitiveNodeLogical("string" /*name */, parquet.Repetitions.Required, StringLogicalType{}, parquet.Types.ByteArray, -1 /* type len */, -1 /* fieldID */))
-	dateNode := MustPrimitive(NewPrimitiveNodeLogical("date" /*name */, parquet.Repetitions.Required, DateLogicalType{}, parquet.Types.Int32, -1 /* type len */, -1 /* fieldID */))
-	jsonNode := MustPrimitive(NewPrimitiveNodeLogical("json" /*name */, parquet.Repetitions.Required, JSONLogicalType{}, parquet.Types.ByteArray, -1 /* type len */, -1 /* fieldID */))
-	uuidNode := MustPrimitive(NewPrimitiveNodeLogical("uuid" /*name */, parquet.Repetitions.Required, UUIDLogicalType{}, parquet.Types.FixedLenByteArray, 16 /* type len */, - /* fieldID */ 1))
-	timestampNode := MustPrimitive(NewPrimitiveNodeLogical("timestamp" /*name */, parquet.Repetitions.Required, NewTimestampLogicalType(false /* adjustedToUTC */, TimeUnitNanos), parquet.Types.Int64, -1 /* type len */, -1 /* fieldID */))
-	intNode := MustPrimitive(NewPrimitiveNodeLogical("int" /*name */, parquet.Repetitions.Required, NewIntLogicalType(64 /* bitWidth */, false /* signed */), parquet.Types.Int64, -1 /* type len */, -1 /* fieldID */))
-	decimalNode := MustPrimitive(NewPrimitiveNodeLogical("decimal" /*name */, parquet.Repetitions.Required, NewDecimalLogicalType(16 /* precision */, 6 /* scale */), parquet.Types.Int64, -1 /* type len */, -1 /* fieldID */))
-	float16Node := MustPrimitive(NewPrimitiveNodeLogical("float16" /*name */, parquet.Repetitions.Required, Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2 /* type len */, - /* fieldID */ 1))
-	listNode := MustGroup(NewGroupNodeLogical("list" /*name */, parquet.Repetitions.Repeated, []Node{strNode, dateNode, jsonNode, uuidNode, timestampNode, intNode, decimalNode, float16Node}, NewListLogicalType(), -1 /* fieldID */))
-
-	listElems := ToThrift(listNode)
-	assert.Equal(t, "list", listElems[0].Name)
-	assert.True(t, listElems[0].IsSetConvertedType())
-	assert.True(t, listElems[0].IsSetLogicalType())
-	assert.Equal(t, format.ConvertedType(ConvertedTypes.List), listElems[0].GetConvertedType())
-	assert.True(t, listElems[0].LogicalType.IsSetLIST())
-	assert.True(t, listElems[1].LogicalType.IsSetSTRING())
-	assert.True(t, listElems[2].LogicalType.IsSetDATE())
-	assert.True(t, listElems[3].LogicalType.IsSetJSON())
-	assert.True(t, listElems[4].LogicalType.IsSetUUID())
-	assert.True(t, listElems[5].LogicalType.IsSetTIMESTAMP())
-	assert.True(t, listElems[6].LogicalType.IsSetINTEGER())
-	assert.True(t, listElems[7].LogicalType.IsSetDECIMAL())
-	assert.True(t, listElems[8].LogicalType.IsSetFLOAT16())
-
-	mapNode := MustGroup(NewGroupNodeLogical("map" /* name */, parquet.Repetitions.Required, []Node{}, MapLogicalType{}, -1 /* fieldID */))
-	mapElems := ToThrift(mapNode)
-	assert.Equal(t, "map", mapElems[0].Name)
-	assert.True(t, mapElems[0].IsSetConvertedType())
-	assert.True(t, mapElems[0].IsSetLogicalType())
-	assert.Equal(t, format.ConvertedType(ConvertedTypes.Map), mapElems[0].GetConvertedType())
-	assert.True(t, mapElems[0].LogicalType.IsSetMAP())
-}
-
-func TestLogicalTypeSerializationRoundTrip(t *testing.T) {
-	tests := []struct {
-		name     string
-		logical  LogicalType
-		physical parquet.Type
-		len      int
-	}{
-		{"string", StringLogicalType{}, parquet.Types.ByteArray, -1},
-		{"enum", EnumLogicalType{}, parquet.Types.ByteArray, -1},
-		{"decimal", NewDecimalLogicalType(16, 6), parquet.Types.Int64, -1},
-		{"date", DateLogicalType{}, parquet.Types.Int32, -1},
-		{"time_T_ms", NewTimeLogicalType(true, TimeUnitMillis), parquet.Types.Int32, -1},
-		{"time_T_us", NewTimeLogicalType(true, TimeUnitMicros), parquet.Types.Int64, -1},
-		{"time_T_ns", NewTimeLogicalType(true, TimeUnitNanos), parquet.Types.Int64, -1},
-		{"time_F_ms", NewTimeLogicalType(false, TimeUnitMillis), parquet.Types.Int32, -1},
-		{"time_F_us", NewTimeLogicalType(false, TimeUnitMicros), parquet.Types.Int64, -1},
-		{"time_F_ns", NewTimeLogicalType(false, TimeUnitNanos), parquet.Types.Int64, -1},
-		{"timestamp_T_ms", NewTimestampLogicalType(true, TimeUnitMillis), parquet.Types.Int64, -1},
-		{"timestamp_T_us", NewTimestampLogicalType(true, TimeUnitMicros), parquet.Types.Int64, -1},
-		{"timestamp_T_ns", NewTimestampLogicalType(true, TimeUnitNanos), parquet.Types.Int64, -1},
-		{"timestamp_F_ms", NewTimestampLogicalType(false, TimeUnitMillis), parquet.Types.Int64, -1},
-		{"timestamp_F_us", NewTimestampLogicalType(false, TimeUnitMicros), parquet.Types.Int64, -1},
-		{"timestamp_F_ns", NewTimestampLogicalType(false, TimeUnitNanos), parquet.Types.Int64, -1},
-		{"interval", IntervalLogicalType{}, parquet.Types.FixedLenByteArray, 12},
-		{"uint8", NewIntLogicalType(8, false), parquet.Types.Int32, -1},
-		{"uint16", NewIntLogicalType(16, false), parquet.Types.Int32, -1},
-		{"uint32", NewIntLogicalType(32, false), parquet.Types.Int32, -1},
-		{"uint64", NewIntLogicalType(64, false), parquet.Types.Int64, -1},
-		{"int8", NewIntLogicalType(8, true), parquet.Types.Int32, -1},
-		{"int16", NewIntLogicalType(16, true), parquet.Types.Int32, -1},
-		{"int32", NewIntLogicalType(32, true), parquet.Types.Int32, -1},
-		{"int64", NewIntLogicalType(64, true), parquet.Types.Int64, -1},
-		{"null", NullLogicalType{}, parquet.Types.Boolean, -1},
-		{"json", JSONLogicalType{}, parquet.Types.ByteArray, -1},
-		{"bson", BSONLogicalType{}, parquet.Types.ByteArray, -1},
-		{"uuid", UUIDLogicalType{}, parquet.Types.FixedLenByteArray, 16},
-		{"float16", Float16LogicalType{}, parquet.Types.FixedLenByteArray, 2},
-		{"none", NoLogicalType{}, parquet.Types.Boolean, -1},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			n := MustPrimitive(NewPrimitiveNodeLogical("something" /* name */, parquet.Repetitions.Required, tt.logical, tt.physical, tt.len, -1 /* fieldID */))
-			elem := n.toThrift()
-			recover := MustPrimitive(PrimitiveNodeFromThrift(elem))
-			assert.True(t, n.Equals(recover))
-		})
-	}
-
-	n := MustGroup(NewGroupNodeLogical("map" /* name */, parquet.Repetitions.Required, []Node{}, MapLogicalType{}, -1 /* fieldID */))
-	elem := n.toThrift()
-	recover := MustGroup(GroupNodeFromThrift(elem, []Node{}))
-	assert.True(t, recover.Equals(n))
-
-	n = MustGroup(NewGroupNodeLogical("list" /* name */, parquet.Repetitions.Required, []Node{}, ListLogicalType{}, -1 /* fieldID */))
-	elem = n.toThrift()
-	recover = MustGroup(GroupNodeFromThrift(elem, []Node{}))
-	assert.True(t, recover.Equals(n))
-}
-
-func TestSchemaElementConstruction(t *testing.T) {
-	suite.Run(t, new(SchemaElementConstructionSuite))
-}
diff --git a/go/parquet/schema/schema_flatten_test.go b/go/parquet/schema/schema_flatten_test.go
deleted file mode 100644
index e95d56f4d0617..0000000000000
--- a/go/parquet/schema/schema_flatten_test.go
+++ /dev/null
@@ -1,157 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema
-
-import (
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-func NewPrimitive(name string, repetition format.FieldRepetitionType, typ format.Type, fieldID int32) *format.SchemaElement {
-	ret := &format.SchemaElement{
-		Name:           name,
-		RepetitionType: format.FieldRepetitionTypePtr(repetition),
-		Type:           format.TypePtr(typ),
-	}
-	if fieldID >= 0 {
-		ret.FieldID = &fieldID
-	}
-	return ret
-}
-
-func NewGroup(name string, repetition format.FieldRepetitionType, numChildren, fieldID int32) *format.SchemaElement {
-	ret := &format.SchemaElement{
-		Name:           name,
-		RepetitionType: format.FieldRepetitionTypePtr(repetition),
-		NumChildren:    &numChildren,
-	}
-	if fieldID >= 0 {
-		ret.FieldID = &fieldID
-	}
-	return ret
-}
-
-type SchemaFlattenSuite struct {
-	suite.Suite
-
-	name string
-}
-
-func (s *SchemaFlattenSuite) SetupSuite() {
-	s.name = "parquet_schema"
-}
-
-func (s *SchemaFlattenSuite) TestDecimalMetadata() {
-	group := MustGroup(NewGroupNodeConverted("group" /* name */, parquet.Repetitions.Repeated, FieldList{
-		MustPrimitive(NewPrimitiveNodeConverted("decimal" /* name */, parquet.Repetitions.Required, parquet.Types.Int64,
-			ConvertedTypes.Decimal, 0 /* type len */, 8 /* precision */, 4 /* scale */, -1 /* fieldID */)),
-	}, ConvertedTypes.List, -1 /* fieldID */))
-	elements := ToThrift(group)
-
-	s.Len(elements, 2)
-	s.Equal("decimal", elements[1].GetName())
-	s.True(elements[1].IsSetPrecision())
-	s.True(elements[1].IsSetScale())
-
-	group = MustGroup(NewGroupNodeLogical("group" /* name */, parquet.Repetitions.Repeated, FieldList{
-		MustPrimitive(NewPrimitiveNodeLogical("decimal" /* name */, parquet.Repetitions.Required, NewDecimalLogicalType(10 /* precision */, 5 /* scale */),
-			parquet.Types.Int64, 0 /* type len */, -1 /* fieldID */)),
-	}, NewListLogicalType(), -1 /* fieldID */))
-	elements = ToThrift(group)
-	s.Equal("decimal", elements[1].Name)
-	s.True(elements[1].IsSetPrecision())
-	s.True(elements[1].IsSetScale())
-
-	group = MustGroup(NewGroupNodeConverted("group" /* name */, parquet.Repetitions.Repeated, FieldList{
-		NewInt64Node("int64" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)}, ConvertedTypes.List, -1 /* fieldID */))
-	elements = ToThrift(group)
-	s.Equal("int64", elements[1].Name)
-	s.False(elements[0].IsSetPrecision())
-	s.False(elements[1].IsSetPrecision())
-	s.False(elements[0].IsSetScale())
-	s.False(elements[1].IsSetScale())
-}
-
-func (s *SchemaFlattenSuite) TestNestedExample() {
-	elements := make([]*format.SchemaElement, 0)
-	elements = append(elements,
-		NewGroup(s.name, format.FieldRepetitionType_REPEATED, 2 /* numChildren */, 0 /* fieldID */),
-		NewPrimitive("a" /* name */, format.FieldRepetitionType_REQUIRED, format.Type_INT32, 1 /* fieldID */),
-		NewGroup("bag" /* name */, format.FieldRepetitionType_OPTIONAL, 1 /* numChildren */, 2 /* fieldID */))
-
-	elt := NewGroup("b" /* name */, format.FieldRepetitionType_REPEATED, 1 /* numChildren */, 3 /* fieldID */)
-	elt.ConvertedType = format.ConvertedTypePtr(format.ConvertedType_LIST)
-	elt.LogicalType = &format.LogicalType{LIST: format.NewListType()}
-	elements = append(elements, elt, NewPrimitive("item" /* name */, format.FieldRepetitionType_OPTIONAL, format.Type_INT64, 4 /* fieldID */))
-
-	fields := FieldList{NewInt32Node("a" /* name */, parquet.Repetitions.Required, 1 /* fieldID */)}
-	list := MustGroup(NewGroupNodeConverted("b" /* name */, parquet.Repetitions.Repeated, FieldList{
-		NewInt64Node("item" /* name */, parquet.Repetitions.Optional, 4 /* fieldID */)}, ConvertedTypes.List, 3 /* fieldID */))
-	fields = append(fields, MustGroup(NewGroupNode("bag" /* name */, parquet.Repetitions.Optional, FieldList{list}, 2 /* fieldID */)))
-
-	sc := MustGroup(NewGroupNode(s.name, parquet.Repetitions.Repeated, fields, 0 /* fieldID */))
-
-	flattened := ToThrift(sc)
-	s.Len(flattened, len(elements))
-	for idx, elem := range flattened {
-		s.Equal(elements[idx], elem)
-	}
-}
-
-func TestSchemaFlatten(t *testing.T) {
-	suite.Run(t, new(SchemaFlattenSuite))
-}
-
-func TestInvalidConvertedTypeInDeserialize(t *testing.T) {
-	n := MustPrimitive(NewPrimitiveNodeLogical("string" /* name */, parquet.Repetitions.Required, StringLogicalType{},
-		parquet.Types.ByteArray, -1 /* type len */, -1 /* fieldID */))
-	assert.True(t, n.LogicalType().Equals(StringLogicalType{}))
-	assert.True(t, n.LogicalType().IsValid())
-	assert.True(t, n.LogicalType().IsSerialized())
-	intermediary := n.toThrift()
-	// corrupt it
-	intermediary.LogicalType.STRING = nil
-	assert.Panics(t, func() {
-		PrimitiveNodeFromThrift(intermediary)
-	})
-}
-
-func TestInvalidTimeUnitInTimeLogical(t *testing.T) {
-	n := MustPrimitive(NewPrimitiveNodeLogical("time" /* name */, parquet.Repetitions.Required,
-		NewTimeLogicalType(true /* adjustedToUTC */, TimeUnitNanos), parquet.Types.Int64, -1 /* type len */, -1 /* fieldID */))
-	intermediary := n.toThrift()
-	// corrupt it
-	intermediary.LogicalType.TIME.Unit.NANOS = nil
-	assert.Panics(t, func() {
-		PrimitiveNodeFromThrift(intermediary)
-	})
-}
-
-func TestInvalidTimeUnitInTimestampLogical(t *testing.T) {
-	n := MustPrimitive(NewPrimitiveNodeLogical("time" /* name */, parquet.Repetitions.Required,
-		NewTimestampLogicalType(true /* adjustedToUTC */, TimeUnitNanos), parquet.Types.Int64, -1 /* type len */, -1 /* fieldID */))
-	intermediary := n.toThrift()
-	// corrupt it
-	intermediary.LogicalType.TIMESTAMP.Unit.NANOS = nil
-	assert.Panics(t, func() {
-		PrimitiveNodeFromThrift(intermediary)
-	})
-}
diff --git a/go/parquet/schema/schema_test.go b/go/parquet/schema/schema_test.go
deleted file mode 100644
index fa6c74492460f..0000000000000
--- a/go/parquet/schema/schema_test.go
+++ /dev/null
@@ -1,670 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package schema_test
-
-import (
-	"os"
-	"testing"
-
-	"github.com/apache/arrow/go/v18/parquet"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v18/parquet/schema"
-	"github.com/apache/thrift/lib/go/thrift"
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/suite"
-)
-
-func TestColumnPath(t *testing.T) {
-	p := parquet.ColumnPath([]string{"toplevel", "leaf"})
-	assert.Equal(t, "toplevel.leaf", p.String())
-
-	p2 := parquet.ColumnPathFromString("toplevel.leaf")
-	assert.Equal(t, "toplevel.leaf", p2.String())
-
-	extend := p2.Extend("anotherlevel")
-	assert.Equal(t, "toplevel.leaf.anotherlevel", extend.String())
-}
-
-func NewPrimitive(name string, repetition format.FieldRepetitionType, typ format.Type, fieldID int32) *format.SchemaElement {
-	ret := &format.SchemaElement{
-		Name:           name,
-		RepetitionType: format.FieldRepetitionTypePtr(repetition),
-		Type:           format.TypePtr(typ),
-	}
-	if fieldID >= 0 {
-		ret.FieldID = &fieldID
-	}
-	return ret
-}
-
-func NewGroup(name string, repetition format.FieldRepetitionType, numChildren, fieldID int32) *format.SchemaElement {
-	ret := &format.SchemaElement{
-		Name:           name,
-		RepetitionType: format.FieldRepetitionTypePtr(repetition),
-		NumChildren:    &numChildren,
-	}
-	if fieldID >= 0 {
-		ret.FieldID = &fieldID
-	}
-	return ret
-}
-
-func TestSchemaNodes(t *testing.T) {
-	suite.Run(t, new(PrimitiveNodeTestSuite))
-	suite.Run(t, new(GroupNodeTestSuite))
-	suite.Run(t, new(SchemaConverterSuite))
-}
-
-type PrimitiveNodeTestSuite struct {
-	suite.Suite
-
-	name    string
-	fieldID int32
-	node    schema.Node
-}
-
-func (p *PrimitiveNodeTestSuite) SetupTest() {
-	p.name = "name"
-	p.fieldID = 5
-}
-
-func (p *PrimitiveNodeTestSuite) convert(elt *format.SchemaElement) {
-	p.node = schema.MustPrimitive(schema.PrimitiveNodeFromThrift(elt))
-	p.IsType(&schema.PrimitiveNode{}, p.node)
-}
-
-func (p *PrimitiveNodeTestSuite) TestAttrs() {
-	node1 := schema.NewInt32Node("foo" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-	node2 := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("bar" /* name */, parquet.Repetitions.Optional, parquet.Types.ByteArray,
-		schema.ConvertedTypes.UTF8, 0 /* type len */, 0 /* precision */, 0 /* scale */, -1 /* fieldID */))
-
-	p.Equal("foo", node1.Name())
-	p.Equal(schema.Primitive, node1.Type())
-	p.Equal(schema.Primitive, node2.Type())
-
-	p.Equal(parquet.Repetitions.Repeated, node1.RepetitionType())
-	p.Equal(parquet.Repetitions.Optional, node2.RepetitionType())
-
-	p.Equal(parquet.Types.Int32, node1.PhysicalType())
-	p.Equal(parquet.Types.ByteArray, node2.PhysicalType())
-
-	p.Equal(schema.ConvertedTypes.None, node1.ConvertedType())
-	p.Equal(schema.ConvertedTypes.UTF8, node2.ConvertedType())
-}
-
-func (p *PrimitiveNodeTestSuite) TestFromParquet() {
-	p.Run("Optional Int32", func() {
-		elt := NewPrimitive(p.name, format.FieldRepetitionType_OPTIONAL, format.Type_INT32, p.fieldID)
-		p.convert(elt)
-
-		p.Equal(p.name, p.node.Name())
-		p.Equal(p.fieldID, p.node.FieldID())
-		p.Equal(parquet.Repetitions.Optional, p.node.RepetitionType())
-		p.Equal(parquet.Types.Int32, p.node.(*schema.PrimitiveNode).PhysicalType())
-		p.Equal(schema.ConvertedTypes.None, p.node.ConvertedType())
-	})
-
-	p.Run("LogicalType", func() {
-		elt := NewPrimitive(p.name, format.FieldRepetitionType_REQUIRED, format.Type_BYTE_ARRAY, p.fieldID)
-		elt.ConvertedType = format.ConvertedTypePtr(format.ConvertedType_UTF8)
-		p.convert(elt)
-
-		p.Equal(parquet.Repetitions.Required, p.node.RepetitionType())
-		p.Equal(parquet.Types.ByteArray, p.node.(*schema.PrimitiveNode).PhysicalType())
-		p.Equal(schema.ConvertedTypes.UTF8, p.node.ConvertedType())
-	})
-
-	p.Run("FixedLenByteArray", func() {
-		elt := NewPrimitive(p.name, format.FieldRepetitionType_OPTIONAL, format.Type_FIXED_LEN_BYTE_ARRAY, p.fieldID)
-		elt.TypeLength = thrift.Int32Ptr(16)
-		p.convert(elt)
-
-		p.Equal(p.name, p.node.Name())
-		p.Equal(p.fieldID, p.node.FieldID())
-		p.Equal(parquet.Repetitions.Optional, p.node.RepetitionType())
-		p.Equal(parquet.Types.FixedLenByteArray, p.node.(*schema.PrimitiveNode).PhysicalType())
-		p.Equal(16, p.node.(*schema.PrimitiveNode).TypeLength())
-	})
-
-	p.Run("convertedtype::decimal", func() {
-		elt := NewPrimitive(p.name, format.FieldRepetitionType_OPTIONAL, format.Type_FIXED_LEN_BYTE_ARRAY, p.fieldID)
-		elt.ConvertedType = format.ConvertedTypePtr(format.ConvertedType_DECIMAL)
-		elt.TypeLength = thrift.Int32Ptr(6)
-		elt.Scale = thrift.Int32Ptr(2)
-		elt.Precision = thrift.Int32Ptr(12)
-
-		p.convert(elt)
-		p.Equal(parquet.Types.FixedLenByteArray, p.node.(*schema.PrimitiveNode).PhysicalType())
-		p.Equal(schema.ConvertedTypes.Decimal, p.node.ConvertedType())
-		p.Equal(6, p.node.(*schema.PrimitiveNode).TypeLength())
-		p.EqualValues(2, p.node.(*schema.PrimitiveNode).DecimalMetadata().Scale)
-		p.EqualValues(12, p.node.(*schema.PrimitiveNode).DecimalMetadata().Precision)
-	})
-}
-
-func (p *PrimitiveNodeTestSuite) TestEquals() {
-	const fieldID = -1
-	node1 := schema.NewInt32Node("foo" /* name */, parquet.Repetitions.Required, fieldID)
-	node2 := schema.NewInt64Node("foo" /* name */, parquet.Repetitions.Required, fieldID)
-	node3 := schema.NewInt32Node("bar" /* name */, parquet.Repetitions.Required, fieldID)
-	node4 := schema.NewInt32Node("foo" /* name */, parquet.Repetitions.Optional, fieldID)
-	node5 := schema.NewInt32Node("foo" /* name */, parquet.Repetitions.Required, fieldID)
-
-	p.True(node1.Equals(node1))
-	p.False(node1.Equals(node2))
-	p.False(node1.Equals(node3))
-	p.False(node1.Equals(node4))
-	p.True(node1.Equals(node5))
-
-	flba1 := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("foo" /* name */, parquet.Repetitions.Required, parquet.Types.FixedLenByteArray,
-		schema.ConvertedTypes.Decimal, 12 /* type len */, 4 /* precision */, 2 /* scale */, fieldID))
-	flba2 := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("foo" /* name */, parquet.Repetitions.Required, parquet.Types.FixedLenByteArray,
-		schema.ConvertedTypes.Decimal, 1 /* type len */, 4 /* precision */, 2 /* scale */, fieldID))
-	flba2.SetTypeLength(12)
-
-	flba3 := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("foo" /* name */, parquet.Repetitions.Required, parquet.Types.FixedLenByteArray,
-		schema.ConvertedTypes.Decimal, 1 /* type len */, 4 /* precision */, 2 /* scale */, fieldID))
-	flba3.SetTypeLength(16)
-
-	flba4 := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("foo" /* name */, parquet.Repetitions.Required, parquet.Types.FixedLenByteArray,
-		schema.ConvertedTypes.Decimal, 12 /* type len */, 4 /* precision */, 0 /* scale */, fieldID))
-	flba5 := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("foo" /* name */, parquet.Repetitions.Required, parquet.Types.FixedLenByteArray,
-		schema.ConvertedTypes.None, 12 /* type len */, 4 /* precision */, 0 /* scale */, fieldID))
-
-	p.True(flba1.Equals(flba2))
-	p.False(flba1.Equals(flba3))
-	p.False(flba1.Equals(flba4))
-	p.False(flba1.Equals(flba5))
-}
-
-func (p *PrimitiveNodeTestSuite) TestPhysicalLogicalMapping() {
-	tests := []struct {
-		typ       parquet.Type
-		cnv       schema.ConvertedType
-		typLen    int
-		precision int
-		scale     int
-		shouldErr bool
-	}{
-		{parquet.Types.Int32, schema.ConvertedTypes.Int32, 0 /* type len */, 0 /* precision */, 0 /* scale */, false},
-		{parquet.Types.ByteArray, schema.ConvertedTypes.JSON, 0 /* type len */, 0 /* precision */, 0 /* scale */, false},
-		{parquet.Types.Int32, schema.ConvertedTypes.JSON, 0 /* type len */, 0 /* precision */, 0 /* scale */, true},
-		{parquet.Types.Int64, schema.ConvertedTypes.TimestampMillis, 0 /* type len */, 0 /* precision */, 0 /* scale */, false},
-		{parquet.Types.Int32, schema.ConvertedTypes.Int64, 0 /* type len */, 0 /* precision */, 0 /* scale */, true},
-		{parquet.Types.ByteArray, schema.ConvertedTypes.Int8, 0 /* type len */, 0 /* precision */, 0 /* scale */, true},
-		{parquet.Types.ByteArray, schema.ConvertedTypes.Interval, 0 /* type len */, 0 /* precision */, 0 /* scale */, true},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Enum, 0 /* type len */, 0 /* precision */, 0 /* scale */, true},
-		{parquet.Types.ByteArray, schema.ConvertedTypes.Enum, 0 /* type len */, 0 /* precision */, 0 /* scale */, false},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Decimal, 0 /* type len */, 2 /* precision */, 4 /* scale */, true},
-		{parquet.Types.Float, schema.ConvertedTypes.Decimal, 0 /* type len */, 2 /* precision */, 4 /* scale */, true},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Decimal, 0 /* type len */, 4 /* precision */, 0 /* scale */, true},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Decimal, 10 /* type len */, 4 /* precision */, -1 /* scale */, true},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Decimal, 10 /* type len */, 2 /* precision */, 4 /* scale */, true},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Decimal, 10 /* type len */, 6 /* precision */, 4 /* scale */, false},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Interval, 12 /* type len */, 0 /* precision */, 0 /* scale */, false},
-		{parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Interval, 10 /* type len */, 0 /* precision */, 0 /* scale */, true},
-	}
-	for _, tt := range tests {
-		p.Run(tt.typ.String(), func() {
-			_, err := schema.NewPrimitiveNodeConverted("foo" /* name */, parquet.Repetitions.Required, tt.typ, tt.cnv, tt.typLen, tt.precision, tt.scale, -1 /* fieldID */)
-			if tt.shouldErr {
-				p.Error(err)
-			} else {
-				p.NoError(err)
-			}
-		})
-	}
-}
-
-type GroupNodeTestSuite struct {
-	suite.Suite
-}
-
-func (g *GroupNodeTestSuite) fields1() []schema.Node {
-	return schema.FieldList{
-		schema.NewInt32Node("one" /* name */, parquet.Repetitions.Required, -1 /* fieldID */),
-		schema.NewInt64Node("two" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */),
-		schema.NewFloat64Node("three" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */),
-	}
-}
-
-func (g *GroupNodeTestSuite) fields2() []schema.Node {
-	return schema.FieldList{
-		schema.NewInt32Node("duplicate" /* name */, parquet.Repetitions.Required, -1 /* fieldID */),
-		schema.NewInt64Node("unique" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */),
-		schema.NewFloat64Node("duplicate" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */),
-	}
-}
-
-func (g *GroupNodeTestSuite) TestAttrs() {
-	fields := g.fields1()
-
-	node1 := schema.MustGroup(schema.NewGroupNode("foo" /* name */, parquet.Repetitions.Repeated, fields, -1 /* fieldID */))
-	node2 := schema.MustGroup(schema.NewGroupNodeConverted("bar" /* name */, parquet.Repetitions.Optional, fields, schema.ConvertedTypes.List, -1 /* fieldID */))
-
-	g.Equal("foo", node1.Name())
-	g.Equal(schema.Group, node1.Type())
-	g.Equal(len(fields), node1.NumFields())
-	g.Equal(parquet.Repetitions.Repeated, node1.RepetitionType())
-	g.Equal(parquet.Repetitions.Optional, node2.RepetitionType())
-
-	g.Equal(schema.ConvertedTypes.None, node1.ConvertedType())
-	g.Equal(schema.ConvertedTypes.List, node2.ConvertedType())
-}
-
-func (g *GroupNodeTestSuite) TestEquals() {
-	f1 := g.fields1()
-	f2 := g.fields1()
-
-	group1 := schema.Must(schema.NewGroupNode("group" /* name */, parquet.Repetitions.Repeated, f1, -1 /* fieldID */))
-	group2 := schema.Must(schema.NewGroupNode("group" /* name */, parquet.Repetitions.Repeated, f2, -1 /* fieldID */))
-	group3 := schema.Must(schema.NewGroupNode("group2" /* name */, parquet.Repetitions.Repeated, f2, -1 /* fieldID */))
-
-	f2 = append(f2, schema.NewFloat32Node("four" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */))
-	group4 := schema.Must(schema.NewGroupNode("group" /* name */, parquet.Repetitions.Repeated, f2, -1 /* fieldID */))
-	group5 := schema.Must(schema.NewGroupNode("group" /* name */, parquet.Repetitions.Repeated, g.fields1(), -1 /* fieldID */))
-
-	g.True(group1.Equals(group1))
-	g.True(group1.Equals(group2))
-	g.False(group1.Equals(group3))
-	g.False(group1.Equals(group4))
-	g.False(group5.Equals(group4))
-}
-
-func (g *GroupNodeTestSuite) TestFieldIndex() {
-	fields := g.fields1()
-	group := schema.MustGroup(schema.NewGroupNode("group" /* name */, parquet.Repetitions.Required, fields, -1 /* fieldID */))
-	for idx, field := range fields {
-		f := group.Field(idx)
-		g.Same(field, f)
-		g.Equal(idx, group.FieldIndexByField(f))
-		g.Equal(idx, group.FieldIndexByName(field.Name()))
-	}
-
-	// Non field nodes
-	nonFieldAlien := schema.NewInt32Node("alien" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-	nonFieldFamiliar := schema.NewInt32Node("one" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-	g.Less(group.FieldIndexByField(nonFieldAlien), 0)
-	g.Less(group.FieldIndexByField(nonFieldFamiliar), 0)
-}
-
-func (g *GroupNodeTestSuite) TestFieldIndexDuplicateName() {
-	fields := g.fields2()
-	group := schema.MustGroup(schema.NewGroupNode("group" /* name */, parquet.Repetitions.Required, fields, -1 /* fieldID */))
-	for idx, field := range fields {
-		f := group.Field(idx)
-		g.Same(f, field)
-		g.Equal(idx, group.FieldIndexByField(f))
-	}
-}
-
-type SchemaConverterSuite struct {
-	suite.Suite
-
-	name string
-	node schema.Node
-}
-
-func (s *SchemaConverterSuite) SetupSuite() {
-	s.name = "parquet_schema"
-}
-
-func (s *SchemaConverterSuite) convert(elems []*format.SchemaElement) {
-	s.node = schema.Must(schema.FromParquet(elems))
-	s.Equal(schema.Group, s.node.Type())
-}
-
-func (s *SchemaConverterSuite) checkParentConsistency(groupRoot *schema.GroupNode) bool {
-	// each node should have the group as parent
-	for i := 0; i < groupRoot.NumFields(); i++ {
-		field := groupRoot.Field(i)
-		if field.Parent() != groupRoot {
-			return false
-		}
-		if field.Type() == schema.Group {
-			if !s.checkParentConsistency(field.(*schema.GroupNode)) {
-				return false
-			}
-		}
-	}
-	return true
-}
-
-func (s *SchemaConverterSuite) TestNestedExample() {
-	elements := make([]*format.SchemaElement, 0)
-	elements = append(elements,
-		NewGroup(s.name, format.FieldRepetitionType_REPEATED, 2 /* numChildren */, 0 /* fieldID */),
-		NewPrimitive("a" /* name */, format.FieldRepetitionType_REQUIRED, format.Type_INT32, 1 /* fieldID */),
-		NewGroup("bag" /* name */, format.FieldRepetitionType_OPTIONAL, 1 /* numChildren */, 2 /* fieldID */))
-	elt := NewGroup("b" /* name */, format.FieldRepetitionType_REPEATED, 1 /* numChildren */, 3 /* fieldID */)
-	elt.ConvertedType = format.ConvertedTypePtr(format.ConvertedType_LIST)
-	elements = append(elements, elt, NewPrimitive("item" /* name */, format.FieldRepetitionType_OPTIONAL, format.Type_INT64, 4 /* fieldID */))
-
-	s.convert(elements)
-
-	// construct the expected schema
-	fields := make([]schema.Node, 0)
-	fields = append(fields, schema.NewInt32Node("a" /* name */, parquet.Repetitions.Required, 1 /* fieldID */))
-
-	// 3-level list encoding
-	item := schema.NewInt64Node("item" /* name */, parquet.Repetitions.Optional, 4 /* fieldID */)
-	list := schema.MustGroup(schema.NewGroupNodeConverted("b" /* name */, parquet.Repetitions.Repeated, schema.FieldList{item}, schema.ConvertedTypes.List, 3 /* fieldID */))
-	bag := schema.MustGroup(schema.NewGroupNode("bag" /* name */, parquet.Repetitions.Optional, schema.FieldList{list}, 2 /* fieldID */))
-	fields = append(fields, bag)
-
-	sc := schema.MustGroup(schema.NewGroupNode(s.name, parquet.Repetitions.Repeated, fields, 0 /* fieldID */))
-	s.True(sc.Equals(s.node))
-	s.Nil(s.node.Parent())
-	s.True(s.checkParentConsistency(s.node.(*schema.GroupNode)))
-}
-
-func (s *SchemaConverterSuite) TestZeroColumns() {
-	elements := []*format.SchemaElement{NewGroup("schema" /* name */, format.FieldRepetitionType_REPEATED, 0 /* numChildren */, 0 /* fieldID */)}
-	s.NotPanics(func() { s.convert(elements) })
-}
-
-func (s *SchemaConverterSuite) TestInvalidRoot() {
-	// According to the Parquet spec, the first element in the list<SchemaElement>
-	// is a group whose children (and their descendants) contain all of the rest of
-	// the flattened schema elements. If the first element is not a group, it is malformed
-	elements := []*format.SchemaElement{NewPrimitive("not-a-group" /* name */, format.FieldRepetitionType_REQUIRED,
-		format.Type_INT32, 0 /* fieldID */), format.NewSchemaElement()}
-	s.Panics(func() { s.convert(elements) })
-
-	// While the parquet spec indicates that the root group should have REPEATED
-	// repetition type, some implementations may return REQUIRED or OPTIONAL
-	// groups as the first element. These tests check that this is okay as a
-	// practicality matter
-	elements = []*format.SchemaElement{
-		NewGroup("not-repeated" /* name */, format.FieldRepetitionType_REQUIRED, 1 /* numChildren */, 0 /* fieldID */),
-		NewPrimitive("a" /* name */, format.FieldRepetitionType_REQUIRED, format.Type_INT32, 1 /* fieldID */)}
-	s.NotPanics(func() { s.convert(elements) })
-
-	elements[0] = NewGroup("not-repeated" /* name */, format.FieldRepetitionType_OPTIONAL, 1 /* numChildren */, 0 /* fieldID */)
-	s.NotPanics(func() { s.convert(elements) })
-}
-
-func (s *SchemaConverterSuite) TestNotEnoughChildren() {
-	s.Panics(func() {
-		s.convert([]*format.SchemaElement{NewGroup(s.name, format.FieldRepetitionType_REPEATED, 2 /* numChildren */, 0 /* fieldID */)})
-	})
-}
-
-func TestColumnDesc(t *testing.T) {
-	n := schema.MustPrimitive(schema.NewPrimitiveNodeConverted("name" /* name */, parquet.Repetitions.Optional, parquet.Types.ByteArray,
-		schema.ConvertedTypes.UTF8, 0 /* type len */, 0 /* precision */, 0 /* scale */, -1 /* fieldID */))
-	descr := schema.NewColumn(n, 4, 1)
-
-	assert.Equal(t, "name", descr.Name())
-	assert.EqualValues(t, 4, descr.MaxDefinitionLevel())
-	assert.EqualValues(t, 1, descr.MaxRepetitionLevel())
-	assert.Equal(t, parquet.Types.ByteArray, descr.PhysicalType())
-	assert.Equal(t, -1, descr.TypeLength())
-
-	expectedDesc := `column descriptor = {
-  name: name,
-  path: ,
-  physical_type: BYTE_ARRAY,
-  converted_type: UTF8,
-  logical_type: String,
-  max_definition_level: 4,
-  max_repetition_level: 1,
-}`
-	assert.Equal(t, expectedDesc, descr.String())
-
-	n = schema.MustPrimitive(schema.NewPrimitiveNodeConverted("name" /* name */, parquet.Repetitions.Optional, parquet.Types.FixedLenByteArray, schema.ConvertedTypes.Decimal, 12 /* type len */, 10 /* precision */, 4 /* scale */, -1 /* fieldID */))
-	descr2 := schema.NewColumn(n, 4, 1)
-
-	assert.Equal(t, parquet.Types.FixedLenByteArray, descr2.PhysicalType())
-	assert.Equal(t, 12, descr2.TypeLength())
-
-	expectedDesc = `column descriptor = {
-  name: name,
-  path: ,
-  physical_type: FIXED_LEN_BYTE_ARRAY,
-  converted_type: DECIMAL,
-  logical_type: Decimal(precision=10, scale=4),
-  max_definition_level: 4,
-  max_repetition_level: 1,
-  length: 12,
-  precision: 10,
-  scale: 4,
-}`
-	assert.Equal(t, expectedDesc, descr2.String())
-}
-
-func TestSchemaDescriptor(t *testing.T) {
-	t.Run("Equals", func(t *testing.T) {
-		inta := schema.NewInt32Node("a" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		intb := schema.NewInt64Node("b" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */)
-		intb2 := schema.NewInt64Node("b2" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */)
-		intc := schema.NewByteArrayNode("c" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-
-		item1 := schema.NewInt64Node("item1" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		item2 := schema.NewBooleanNode("item2" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */)
-		item3 := schema.NewInt32Node("item3" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-		list := schema.MustGroup(schema.NewGroupNodeConverted("records" /* name */, parquet.Repetitions.Repeated, schema.FieldList{item1, item2, item3}, schema.ConvertedTypes.List, -1 /* fieldID */))
-
-		bag := schema.MustGroup(schema.NewGroupNode("bag" /* name */, parquet.Repetitions.Optional, schema.FieldList{list}, -1 /* fieldID */))
-		bag2 := schema.MustGroup(schema.NewGroupNode("bag" /* name */, parquet.Repetitions.Required, schema.FieldList{list}, -1 /* fieldID */))
-
-		descr1 := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, schema.FieldList{inta, intb, intc, bag}, -1 /* fieldID */)))
-		assert.True(t, descr1.Equals(descr1))
-
-		descr2 := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, schema.FieldList{inta, intb, intc, bag2}, -1 /* fieldID */)))
-		assert.False(t, descr1.Equals(descr2))
-
-		descr3 := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, schema.FieldList{inta, intb2, intc, bag}, -1 /* fieldID */)))
-		assert.False(t, descr1.Equals(descr3))
-
-		descr4 := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("SCHEMA" /* name */, parquet.Repetitions.Repeated, schema.FieldList{inta, intb, intc, bag}, -1 /* fieldID */)))
-		assert.True(t, descr1.Equals(descr4))
-
-		descr5 := schema.NewSchema(schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, schema.FieldList{inta, intb, intc, bag, intb2}, -1 /* fieldID */)))
-		assert.False(t, descr1.Equals(descr5))
-
-		col1 := schema.NewColumn(inta, 5 /* maxDefLvl */, 1 /* maxRepLvl */)
-		col2 := schema.NewColumn(inta, 6 /* maxDefLvl */, 1 /* maxRepLvl */)
-		col3 := schema.NewColumn(inta, 5 /* maxDefLvl */, 2 /* maxRepLvl */)
-
-		assert.True(t, col1.Equals(col1))
-		assert.False(t, col1.Equals(col2))
-		assert.False(t, col2.Equals(col3))
-	})
-
-	t.Run("BuildTree", func(t *testing.T) {
-		inta := schema.NewInt32Node("a" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		fields := schema.FieldList{inta}
-		fields = append(fields,
-			schema.NewInt64Node("b" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */),
-			schema.NewByteArrayNode("c" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */))
-
-		item1 := schema.NewInt64Node("item1" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		item2 := schema.NewBooleanNode("item2" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */)
-		item3 := schema.NewInt32Node("item3" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-		list := schema.MustGroup(schema.NewGroupNodeConverted("records" /* name */, parquet.Repetitions.Repeated, schema.FieldList{item1, item2, item3}, schema.ConvertedTypes.List, -1 /* fieldID */))
-		bag := schema.MustGroup(schema.NewGroupNode("bag" /* name */, parquet.Repetitions.Optional, schema.FieldList{list}, -1 /* fieldID */))
-		fields = append(fields, bag)
-
-		sc := schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, fields, -1 /* fieldID */))
-		descr := schema.NewSchema(sc)
-
-		const nleaves = 6
-		assert.Equal(t, nleaves, descr.NumColumns())
-
-		//                             mdef mrep
-		// required int32 a            0    0
-		// optional int64 b            1    0
-		// repeated byte_array c       1    1
-		// optional group bag          1    0
-		//   repeated group records    2    1
-		//     required int64 item1    2    1
-		//     optional boolean item2  3    1
-		//     repeated int32 item3    3    2
-		var (
-			exMaxDefLevels = [...]int16{0, 1, 1, 2, 3, 3}
-			exMaxRepLevels = [...]int16{0, 0, 1, 1, 1, 2}
-		)
-
-		for i := 0; i < nleaves; i++ {
-			col := descr.Column(i)
-			assert.Equal(t, exMaxDefLevels[i], col.MaxDefinitionLevel())
-			assert.Equal(t, exMaxRepLevels[i], col.MaxRepetitionLevel())
-		}
-
-		assert.Equal(t, "a", descr.Column(0).Path())
-		assert.Equal(t, "b", descr.Column(1).Path())
-		assert.Equal(t, "c", descr.Column(2).Path())
-		assert.Equal(t, "bag.records.item1", descr.Column(3).Path())
-		assert.Equal(t, "bag.records.item2", descr.Column(4).Path())
-		assert.Equal(t, "bag.records.item3", descr.Column(5).Path())
-
-		for i := 0; i < nleaves; i++ {
-			col := descr.Column(i)
-			assert.Equal(t, i, descr.ColumnIndexByNode(col.SchemaNode()))
-		}
-
-		nonColumnAlien := schema.NewInt32Node("alien" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		nonColumnFamiliar := schema.NewInt32Node("a" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-		assert.Less(t, descr.ColumnIndexByNode(nonColumnAlien), 0)
-		assert.Less(t, descr.ColumnIndexByNode(nonColumnFamiliar), 0)
-
-		assert.Same(t, inta, descr.ColumnRoot(0))
-		assert.Same(t, bag, descr.ColumnRoot(3))
-		assert.Same(t, bag, descr.ColumnRoot(4))
-		assert.Same(t, bag, descr.ColumnRoot(5))
-
-		assert.Same(t, sc, descr.Root())
-	})
-
-	t.Run("HasRepeatedFields", func(t *testing.T) {
-		inta := schema.NewInt32Node("a" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		fields := schema.FieldList{inta}
-		fields = append(fields,
-			schema.NewInt64Node("b" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */),
-			schema.NewByteArrayNode("c" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */))
-
-		sc := schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, fields, -1 /* fieldID */))
-		descr := schema.NewSchema(sc)
-		assert.True(t, descr.HasRepeatedFields())
-
-		item1 := schema.NewInt64Node("item1" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		item2 := schema.NewBooleanNode("item2" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */)
-		item3 := schema.NewInt32Node("item3" /* name */, parquet.Repetitions.Repeated, -1 /* fieldID */)
-		list := schema.MustGroup(schema.NewGroupNodeConverted("records" /* name */, parquet.Repetitions.Repeated, schema.FieldList{item1, item2, item3}, schema.ConvertedTypes.List, -1 /* fieldID */))
-		bag := schema.MustGroup(schema.NewGroupNode("bag" /* name */, parquet.Repetitions.Optional, schema.FieldList{list}, -1 /* fieldID */))
-		fields = append(fields, bag)
-
-		sc = schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, fields, -1 /* fieldID */))
-		descr = schema.NewSchema(sc)
-		assert.True(t, descr.HasRepeatedFields())
-
-		itemKey := schema.NewInt64Node("key" /* name */, parquet.Repetitions.Required, -1 /* fieldID */)
-		itemValue := schema.NewBooleanNode("value" /* name */, parquet.Repetitions.Optional, -1 /* fieldID */)
-		sc = schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, append(fields, schema.FieldList{
-			schema.MustGroup(schema.NewGroupNode("my_map" /* name */, parquet.Repetitions.Optional, schema.FieldList{
-				schema.MustGroup(schema.NewGroupNodeConverted("map" /* name */, parquet.Repetitions.Repeated, schema.FieldList{itemKey, itemValue}, schema.ConvertedTypes.Map, -1 /* fieldID */)),
-			}, -1 /* fieldID */)),
-		}...), -1 /* fieldID */))
-		descr = schema.NewSchema(sc)
-		assert.True(t, descr.HasRepeatedFields())
-	})
-}
-
-func ExamplePrintSchema() {
-	fields := schema.FieldList{schema.NewInt32Node("a" /* name */, parquet.Repetitions.Required, 1 /* fieldID */)}
-	item1 := schema.NewInt64Node("item1" /* name */, parquet.Repetitions.Optional, 4 /* fieldID */)
-	item2 := schema.NewBooleanNode("item2" /* name */, parquet.Repetitions.Required, 5 /* fieldID */)
-	list := schema.MustGroup(schema.NewGroupNodeConverted("b" /* name */, parquet.Repetitions.Repeated, schema.FieldList{item1, item2}, schema.ConvertedTypes.List, 3 /* fieldID */))
-	bag := schema.MustGroup(schema.NewGroupNode("bag" /* name */, parquet.Repetitions.Optional, schema.FieldList{list}, 2 /* fieldID */))
-	fields = append(fields, bag)
-
-	fields = append(fields,
-		schema.MustPrimitive(schema.NewPrimitiveNodeConverted("c" /* name */, parquet.Repetitions.Required, parquet.Types.Int32, schema.ConvertedTypes.Decimal, 0 /* type len */, 3 /* precision */, 2 /* scale */, 6 /* fieldID */)),
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("d" /* name */, parquet.Repetitions.Required, schema.NewDecimalLogicalType(10 /* precision */, 5 /* scale */), parquet.Types.Int64, -1 /* type len */, 7 /* fieldID */)))
-
-	sc := schema.MustGroup(schema.NewGroupNode("schema" /* name */, parquet.Repetitions.Repeated, fields, 0 /* fieldID */))
-	schema.PrintSchema(sc, os.Stdout, 2)
-
-	// Output:
-	// repeated group field_id=0 schema {
-	//   required int32 field_id=1 a;
-	//   optional group field_id=2 bag {
-	//     repeated group field_id=3 b (List) {
-	//       optional int64 field_id=4 item1;
-	//       required boolean field_id=5 item2;
-	//     }
-	//   }
-	//   required int32 field_id=6 c (Decimal(precision=3, scale=2));
-	//   required int64 field_id=7 d (Decimal(precision=10, scale=5));
-	// }
-}
-
-func TestPanicSchemaNodeCreation(t *testing.T) {
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("map" /* name */, parquet.Repetitions.Required, schema.MapLogicalType{}, parquet.Types.Int64, -1 /* type len */, -1 /* fieldID */))
-	}, "nested logical type on non-group node")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("string" /* name */, parquet.Repetitions.Required, schema.StringLogicalType{}, parquet.Types.Boolean, -1 /* type len */, -1 /* fieldID */))
-	}, "incompatible primitive type")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("interval" /* name */, parquet.Repetitions.Required, schema.IntervalLogicalType{}, parquet.Types.FixedLenByteArray, 11 /* type len */, -1 /* fieldID */))
-	}, "incompatible primitive length")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("decimal" /* name */, parquet.Repetitions.Required, schema.NewDecimalLogicalType(16, 6), parquet.Types.Int32, -1 /* type len */, -1 /* fieldID */))
-	}, "primitive too small for given precision")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("uuid" /* name */, parquet.Repetitions.Required, schema.UUIDLogicalType{}, parquet.Types.FixedLenByteArray, 64 /* type len */, -1 /* fieldID */))
-	}, "incompatible primitive length")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("float16" /* name */, parquet.Repetitions.Required, schema.Float16LogicalType{}, parquet.Types.FixedLenByteArray, 4 /* type len */, -1 /* fieldID */))
-	}, "incompatible primitive length")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("negative_len" /* name */, parquet.Repetitions.Required, schema.NoLogicalType{}, parquet.Types.FixedLenByteArray, -16 /* type len */, -1 /* fieldID */))
-	}, "non-positive length for fixed length binary")
-
-	assert.Panics(t, func() {
-		schema.MustPrimitive(schema.NewPrimitiveNodeLogical("zero_len" /* name */, parquet.Repetitions.Required, schema.NoLogicalType{}, parquet.Types.FixedLenByteArray, 0 /* type len */, -1 /* fieldID */))
-	}, "non-positive length for fixed length binary")
-
-	assert.Panics(t, func() {
-		schema.MustGroup(schema.NewGroupNodeLogical("list" /* name */, parquet.Repetitions.Repeated, schema.FieldList{}, schema.JSONLogicalType{}, -1 /* fieldID */))
-	}, "non-nested logical type on group node")
-}
-
-func TestNullLogicalConvertsToNone(t *testing.T) {
-	var (
-		empty schema.LogicalType
-		n     schema.Node
-	)
-	assert.NotPanics(t, func() {
-		n = schema.MustPrimitive(schema.NewPrimitiveNodeLogical("value" /* name */, parquet.Repetitions.Required, empty, parquet.Types.Double, -1 /* type len */, -1 /* fieldID */))
-	})
-	assert.True(t, n.LogicalType().IsNone())
-	assert.Equal(t, schema.ConvertedTypes.None, n.ConvertedType())
-	assert.NotPanics(t, func() {
-		n = schema.MustGroup(schema.NewGroupNodeLogical("items" /* name */, parquet.Repetitions.Repeated, schema.FieldList{}, empty, -1 /* fieldID */))
-	})
-	assert.True(t, n.LogicalType().IsNone())
-	assert.Equal(t, schema.ConvertedTypes.None, n.ConvertedType())
-}
diff --git a/go/parquet/tools.go b/go/parquet/tools.go
deleted file mode 100644
index 64e9419e4f711..0000000000000
--- a/go/parquet/tools.go
+++ /dev/null
@@ -1,27 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-//go:build tools
-// +build tools
-
-package tools
-
-import (
-	_ "github.com/klauspost/asmfmt/cmd/asmfmt"
-	_ "github.com/minio/asm2plan9s"
-	_ "github.com/minio/c2goasm"
-	_ "golang.org/x/tools/cmd/stringer"
-)
diff --git a/go/parquet/types.go b/go/parquet/types.go
deleted file mode 100644
index ff696c1178e18..0000000000000
--- a/go/parquet/types.go
+++ /dev/null
@@ -1,373 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet
-
-import (
-	"encoding/binary"
-	"io"
-	"reflect"
-	"strings"
-	"time"
-	"unsafe"
-
-	"github.com/apache/arrow/go/v18/arrow"
-	format "github.com/apache/arrow/go/v18/parquet/internal/gen-go/parquet"
-)
-
-const (
-	julianUnixEpoch int64 = 2440588
-	nanosPerDay     int64 = 3600 * 24 * 1000 * 1000 * 1000
-	// Int96SizeBytes is the number of bytes that make up an Int96
-	Int96SizeBytes int = 12
-)
-
-var (
-	// Int96Traits provides information about the Int96 type
-	Int96Traits int96Traits
-	// ByteArrayTraits provides information about the ByteArray type, which is just an []byte
-	ByteArrayTraits byteArrayTraits
-	// FixedLenByteArrayTraits provides information about the FixedLenByteArray type which is just an []byte
-	FixedLenByteArrayTraits fixedLenByteArrayTraits
-	// ByteArraySizeBytes is the number of bytes returned by reflect.TypeOf(ByteArray{}).Size()
-	ByteArraySizeBytes int = int(reflect.TypeOf(ByteArray{}).Size())
-	// FixedLenByteArraySizeBytes is the number of bytes returned by reflect.TypeOf(FixedLenByteArray{}).Size()
-	FixedLenByteArraySizeBytes int = int(reflect.TypeOf(FixedLenByteArray{}).Size())
-)
-
-// ReaderAtSeeker is a combination of the ReaderAt and ReadSeeker interfaces
-// from the io package defining the only functionality that is required
-// in order for a parquet file to be read by the file functions. We just need
-// to be able to call ReadAt, Read, and Seek
-type ReaderAtSeeker interface {
-	io.ReaderAt
-	io.Seeker
-}
-
-// NewInt96 creates a new Int96 from the given 3 uint32 values.
-func NewInt96(v [3]uint32) (out Int96) {
-	binary.LittleEndian.PutUint32(out[0:], v[0])
-	binary.LittleEndian.PutUint32(out[4:], v[1])
-	binary.LittleEndian.PutUint32(out[8:], v[2])
-	return
-}
-
-// Int96 is a 12 byte integer value utilized for representing timestamps as a 64 bit integer and a 32 bit
-// integer.
-type Int96 [12]byte
-
-// SetNanoSeconds sets the Nanosecond field of the Int96 timestamp to the provided value
-func (i96 *Int96) SetNanoSeconds(nanos int64) {
-	binary.LittleEndian.PutUint64(i96[:8], uint64(nanos))
-}
-
-// String provides the string representation as a timestamp via converting to a time.Time
-// and then calling String
-func (i96 Int96) String() string {
-	return i96.ToTime().String()
-}
-
-// ToTime returns a go time.Time object that represents the same time instant as the given Int96 value
-func (i96 Int96) ToTime() time.Time {
-	nanos := binary.LittleEndian.Uint64(i96[:8])
-	jdays := binary.LittleEndian.Uint32(i96[8:])
-
-	nanos = (uint64(jdays)-uint64(julianUnixEpoch))*uint64(nanosPerDay) + nanos
-	t := time.Unix(0, int64(nanos))
-	return t.UTC()
-}
-
-type int96Traits struct{}
-
-func (int96Traits) BytesRequired(n int) int { return Int96SizeBytes * n }
-
-func (int96Traits) CastFromBytes(b []byte) []Int96 {
-	return unsafe.Slice((*Int96)(unsafe.Pointer(unsafe.SliceData(b))),
-		len(b)/Int96SizeBytes)
-}
-
-func (int96Traits) CastToBytes(b []Int96) []byte {
-	return unsafe.Slice((*byte)(unsafe.Pointer(unsafe.SliceData(b))),
-		len(b)*Int96SizeBytes)
-}
-
-// ByteArray is a type to be utilized for representing the Parquet ByteArray physical type, represented as a byte slice
-type ByteArray []byte
-
-// Len returns the current length of the ByteArray, equivalent to len(bytearray)
-func (b ByteArray) Len() int {
-	return len(b)
-}
-
-// String returns a string representation of the ByteArray
-func (b ByteArray) String() string {
-	return *(*string)(unsafe.Pointer(&b))
-}
-
-func (b ByteArray) Bytes() []byte {
-	return b
-}
-
-type byteArrayTraits struct{}
-
-func (byteArrayTraits) BytesRequired(n int) int {
-	return ByteArraySizeBytes * n
-}
-
-func (byteArrayTraits) CastFromBytes(b []byte) []ByteArray {
-	return unsafe.Slice((*ByteArray)(unsafe.Pointer(unsafe.SliceData(b))),
-		len(b)/ByteArraySizeBytes)
-}
-
-// FixedLenByteArray is a go type to represent a FixedLengthByteArray as a byte slice
-type FixedLenByteArray []byte
-
-// Len returns the current length of this FixedLengthByteArray, equivalent to len(fixedlenbytearray)
-func (b FixedLenByteArray) Len() int {
-	return len(b)
-}
-
-// String returns a string representation of the FixedLenByteArray
-func (b FixedLenByteArray) String() string {
-	return *(*string)(unsafe.Pointer(&b))
-}
-
-func (b FixedLenByteArray) Bytes() []byte {
-	return b
-}
-
-type fixedLenByteArrayTraits struct{}
-
-func (fixedLenByteArrayTraits) BytesRequired(n int) int {
-	return FixedLenByteArraySizeBytes * n
-}
-
-func (fixedLenByteArrayTraits) CastFromBytes(b []byte) []FixedLenByteArray {
-	return unsafe.Slice((*FixedLenByteArray)(unsafe.Pointer(unsafe.SliceData(b))),
-		len(b)/FixedLenByteArraySizeBytes)
-}
-
-// Creating our own enums allows avoiding the transitive dependency on the
-// compiled thrift definitions in the public API, allowing us to not export
-// the entire Thrift definitions, while making everything a simple cast between.
-//
-// It also let's us add special values like NONE to distinguish between values
-// that are set or not set
-type (
-	// Type is the physical type as in parquet.thrift
-	Type format.Type
-	// Cipher is the parquet Cipher Algorithms
-	Cipher int
-	// ColumnOrder is the Column Order from the parquet.thrift
-	ColumnOrder *format.ColumnOrder
-	// Version is the parquet version type
-	Version int8
-	// DataPageVersion is the version of the Parquet Data Pages
-	DataPageVersion int8
-	// Encoding is the parquet Encoding type
-	Encoding format.Encoding
-	// Repetition is the underlying parquet field repetition type as in parquet.thrift
-	Repetition format.FieldRepetitionType
-	// ColumnPath is the path from the root of the schema to a given column
-	ColumnPath []string
-)
-
-func (c ColumnPath) String() string {
-	if c == nil {
-		return ""
-	}
-	return strings.Join(c, ".")
-}
-
-// Extend creates a new ColumnPath from an existing one, with the new ColumnPath having s appended to the end.
-func (c ColumnPath) Extend(s string) ColumnPath {
-	p := make([]string, len(c), len(c)+1)
-	copy(p, c)
-	return append(p, s)
-}
-
-// ColumnPathFromString constructs a ColumnPath from a dot separated string
-func ColumnPathFromString(s string) ColumnPath {
-	return strings.Split(s, ".")
-}
-
-// constants for choosing the Aes Algorithm to use for encryption/decryption
-const (
-	AesGcm Cipher = iota
-	AesCtr
-)
-
-// Constants for the parquet Version which governs which data types are allowed
-// and how they are represented. For example, uint32 data will be written differently
-// depending on this value (as INT64 for V1_0, as UINT32 for other versions).
-//
-// However, some features - such as compression algorithms, encryption,
-// or the improved v2 data page format must be enabled separately in writer
-// properties.
-const (
-	// Enable only pre-2.2 parquet format features when writing.
-	//
-	// This is useful for maximum compatibility with legacy readers.
-	// Note that logical types may still be emitted, as long as they have
-	// a corresponding converted type.
-	V1_0 Version = iota // v1.0
-	// Enable parquet format 2.4 and earlier features when writing.
-	//
-	// This enables uint32 as well as logical types which don't have a
-	// corresponding converted type.
-	//
-	// Note: Parquet format 2.4.0 was released in October 2017
-	V2_4 // v2.4
-	// Enable Parquet format 2.6 and earlier features when writing.
-	//
-	// This enables the nanos time unit in addition to the V2_4 features.
-	//
-	// Note: Parquet format 2.6.0 was released in September 2018
-	V2_6 // v2.6
-	// Enable the latest parquet format 2.x features.
-	//
-	// This is equal to the greatest 2.x version supported by this library.
-	V2_LATEST = V2_6
-)
-
-// constants for the parquet DataPage Version to use
-const (
-	DataPageV1 DataPageVersion = iota
-	DataPageV2
-)
-
-func (e Encoding) String() string {
-	return format.Encoding(e).String()
-}
-
-var (
-	// Types contains constants for the Physical Types that are used in the Parquet Spec
-	//
-	// They can be specified when needed as such: `parquet.Types.Int32` etc. The values
-	// all correspond to the values in parquet.thrift
-	Types = struct {
-		Boolean           Type
-		Int32             Type
-		Int64             Type
-		Int96             Type
-		Float             Type
-		Double            Type
-		ByteArray         Type
-		FixedLenByteArray Type
-		// this only exists as a convenience so we can denote it when necessary
-		// nearly all functions that take a parquet.Type will error/panic if given
-		// Undefined
-		Undefined Type
-	}{
-		Boolean:           Type(format.Type_BOOLEAN),
-		Int32:             Type(format.Type_INT32),
-		Int64:             Type(format.Type_INT64),
-		Int96:             Type(format.Type_INT96),
-		Float:             Type(format.Type_FLOAT),
-		Double:            Type(format.Type_DOUBLE),
-		ByteArray:         Type(format.Type_BYTE_ARRAY),
-		FixedLenByteArray: Type(format.Type_FIXED_LEN_BYTE_ARRAY),
-		Undefined:         Type(format.Type_FIXED_LEN_BYTE_ARRAY + 1),
-	}
-
-	// Encodings contains constants for the encoding types of the column data
-	//
-	// The values used all correspond to the values in parquet.thrift for the
-	// corresponding encoding type.
-	Encodings = struct {
-		Plain                Encoding
-		PlainDict            Encoding
-		RLE                  Encoding
-		RLEDict              Encoding
-		BitPacked            Encoding // deprecated, not implemented
-		DeltaByteArray       Encoding
-		DeltaBinaryPacked    Encoding
-		DeltaLengthByteArray Encoding
-		ByteStreamSplit      Encoding
-	}{
-		Plain:                Encoding(format.Encoding_PLAIN),
-		PlainDict:            Encoding(format.Encoding_PLAIN_DICTIONARY),
-		RLE:                  Encoding(format.Encoding_RLE),
-		RLEDict:              Encoding(format.Encoding_RLE_DICTIONARY),
-		BitPacked:            Encoding(format.Encoding_BIT_PACKED),
-		DeltaByteArray:       Encoding(format.Encoding_DELTA_BYTE_ARRAY),
-		DeltaBinaryPacked:    Encoding(format.Encoding_DELTA_BINARY_PACKED),
-		DeltaLengthByteArray: Encoding(format.Encoding_DELTA_LENGTH_BYTE_ARRAY),
-		ByteStreamSplit:      Encoding(format.Encoding_BYTE_STREAM_SPLIT),
-	}
-
-	// ColumnOrders contains constants for the Column Ordering fields
-	ColumnOrders = struct {
-		Undefined        ColumnOrder
-		TypeDefinedOrder ColumnOrder
-	}{
-		Undefined:        format.NewColumnOrder(),
-		TypeDefinedOrder: &format.ColumnOrder{TYPE_ORDER: format.NewTypeDefinedOrder()},
-	}
-
-	// DefaultColumnOrder is to use TypeDefinedOrder
-	DefaultColumnOrder = ColumnOrders.TypeDefinedOrder
-
-	// Repetitions contains the constants for Field Repetition Types
-	Repetitions = struct {
-		Required  Repetition
-		Optional  Repetition
-		Repeated  Repetition
-		Undefined Repetition // convenience value
-	}{
-		Required:  Repetition(format.FieldRepetitionType_REQUIRED),
-		Optional:  Repetition(format.FieldRepetitionType_OPTIONAL),
-		Repeated:  Repetition(format.FieldRepetitionType_REPEATED),
-		Undefined: Repetition(format.FieldRepetitionType_REPEATED + 1),
-	}
-)
-
-func (t Type) String() string {
-	switch t {
-	case Types.Undefined:
-		return "UNDEFINED"
-	default:
-		return format.Type(t).String()
-	}
-}
-
-func (r Repetition) String() string {
-	return strings.ToLower(format.FieldRepetitionType(r).String())
-}
-
-// ByteSize returns the number of bytes required to store a single value of
-// the given parquet.Type in memory.
-func (t Type) ByteSize() int {
-	switch t {
-	case Types.Boolean:
-		return 1
-	case Types.Int32:
-		return arrow.Int32SizeBytes
-	case Types.Int64:
-		return arrow.Int64SizeBytes
-	case Types.Int96:
-		return Int96SizeBytes
-	case Types.Float:
-		return arrow.Float32SizeBytes
-	case Types.Double:
-		return arrow.Float64SizeBytes
-	case Types.ByteArray:
-		return ByteArraySizeBytes
-	case Types.FixedLenByteArray:
-		return FixedLenByteArraySizeBytes
-	}
-	panic("no bytesize info for type")
-}
diff --git a/go/parquet/version_string.go b/go/parquet/version_string.go
deleted file mode 100644
index ab01aa485a1af..0000000000000
--- a/go/parquet/version_string.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Code generated by "stringer -type=Version -linecomment"; DO NOT EDIT.
-
-package parquet
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[V1_0-0]
-	_ = x[V2_4-1]
-	_ = x[V2_6-2]
-}
-
-const _Version_name = "v1.0v2.4v2.6"
-
-var _Version_index = [...]uint8{0, 4, 8, 12}
-
-func (i Version) String() string {
-	if i < 0 || i >= Version(len(_Version_index)-1) {
-		return "Version(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _Version_name[_Version_index[i]:_Version_index[i+1]]
-}
diff --git a/go/parquet/writer_properties.go b/go/parquet/writer_properties.go
deleted file mode 100644
index c38bb3b81fa6d..0000000000000
--- a/go/parquet/writer_properties.go
+++ /dev/null
@@ -1,552 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-// http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-
-package parquet
-
-import (
-	"github.com/apache/arrow/go/v18/arrow/memory"
-	"github.com/apache/arrow/go/v18/parquet/compress"
-)
-
-// Constants for default property values used for the default reader, writer and column props.
-const (
-	// Default Buffer size used for the Reader
-	DefaultBufSize int64 = 4096 * 4
-	// Default data page size limit is 1K it's not guaranteed, but we will try to
-	// cut data pages off at this size where possible.
-	DefaultDataPageSize int64 = 1024 * 1024
-	// Default is for dictionary encoding to be turned on, use WithDictionaryDefault
-	// writer property to change that.
-	DefaultDictionaryEnabled = true
-	// If the dictionary reaches the size of this limitation, the writer will use
-	// the fallback encoding (usually plain) instead of continuing to build the
-	// dictionary index.
-	DefaultDictionaryPageSizeLimit = DefaultDataPageSize
-	// In order to attempt to facilitate data page size limits for writing,
-	// data is written in batches. Increasing the batch size may improve performance
-	// but the larger the batch size, the easier it is to overshoot the datapage limit.
-	DefaultWriteBatchSize int64 = 1024
-	// Default maximum number of rows for a single row group
-	DefaultMaxRowGroupLen int64 = 64 * 1024 * 1024
-	// Default is to have stats enabled for all columns, use writer properties to
-	// change the default, or to enable/disable for specific columns.
-	DefaultStatsEnabled = true
-	// If the stats are larger than 4K the writer will skip writing them out anyways.
-	DefaultMaxStatsSize int64 = 4096
-	DefaultCreatedBy          = "parquet-go version 18.0.0-SNAPSHOT"
-	DefaultRootName           = "schema"
-)
-
-// ColumnProperties defines the encoding, codec, and so on for a given column.
-type ColumnProperties struct {
-	Encoding          Encoding
-	Codec             compress.Compression
-	DictionaryEnabled bool
-	StatsEnabled      bool
-	MaxStatsSize      int64
-	CompressionLevel  int
-}
-
-// DefaultColumnProperties returns the default properties which get utilized for writing.
-//
-// The default column properties are the following constants:
-//
-//	Encoding:						Encodings.Plain
-//	Codec:							compress.Codecs.Uncompressed
-//	DictionaryEnabled:	DefaultDictionaryEnabled
-//	StatsEnabled:				DefaultStatsEnabled
-//	MaxStatsSize:				DefaultMaxStatsSize
-//	CompressionLevel:		compress.DefaultCompressionLevel
-func DefaultColumnProperties() ColumnProperties {
-	return ColumnProperties{
-		Encoding:          Encodings.Plain,
-		Codec:             compress.Codecs.Uncompressed,
-		DictionaryEnabled: DefaultDictionaryEnabled,
-		StatsEnabled:      DefaultStatsEnabled,
-		MaxStatsSize:      DefaultMaxStatsSize,
-		CompressionLevel:  compress.DefaultCompressionLevel,
-	}
-}
-
-type writerPropConfig struct {
-	wr            *WriterProperties
-	encodings     map[string]Encoding
-	codecs        map[string]compress.Compression
-	compressLevel map[string]int
-	dictEnabled   map[string]bool
-	statsEnabled  map[string]bool
-}
-
-// WriterProperty is used as the options for building a writer properties instance
-type WriterProperty func(*writerPropConfig)
-
-// WithAllocator specifies the writer to use the given allocator
-func WithAllocator(mem memory.Allocator) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.mem = mem
-	}
-}
-
-// WithDictionaryDefault sets the default value for whether to enable dictionary encoding
-func WithDictionaryDefault(dict bool) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.defColumnProps.DictionaryEnabled = dict
-	}
-}
-
-// WithDictionaryFor allows enabling or disabling dictionary encoding for a given column path string
-func WithDictionaryFor(path string, dict bool) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.dictEnabled[path] = dict
-	}
-}
-
-// WithDictionaryPath is like WithDictionaryFor, but takes a ColumnPath type
-func WithDictionaryPath(path ColumnPath, dict bool) WriterProperty {
-	return WithDictionaryFor(path.String(), dict)
-}
-
-// WithDictionaryPageSizeLimit is the limit of the dictionary at which the writer
-// will fallback to plain encoding instead
-func WithDictionaryPageSizeLimit(limit int64) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.dictPagesize = limit
-	}
-}
-
-// WithBatchSize specifies the number of rows to use for batch writes to columns
-func WithBatchSize(batch int64) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.batchSize = batch
-	}
-}
-
-// WithMaxRowGroupLength specifies the number of rows as the maximum number of rows for a given row group in the writer.
-func WithMaxRowGroupLength(nrows int64) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.maxRowGroupLen = nrows
-	}
-}
-
-// WithDataPageSize specifies the size to use for splitting data pages for column writing.
-func WithDataPageSize(pgsize int64) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.pageSize = pgsize
-	}
-}
-
-// WithDataPageVersion specifies whether to use Version 1 or Version 2 of the DataPage spec
-func WithDataPageVersion(version DataPageVersion) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.dataPageVersion = version
-	}
-}
-
-// WithVersion specifies which Parquet Spec version to utilize for writing.
-func WithVersion(version Version) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.parquetVersion = version
-	}
-}
-
-// WithCreatedBy specifies the "created by" string to use for the writer
-func WithCreatedBy(createdby string) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.createdBy = createdby
-	}
-}
-
-// WithRootName enables customization of the name used for the root schema node. This is required
-// to maintain compatibility with other tools.
-func WithRootName(name string) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.rootName = name
-	}
-}
-
-// WithRootRepetition enables customization of the repetition used for the root schema node.
-// This is required to maintain compatibility with other tools.
-func WithRootRepetition(repetition Repetition) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.rootRepetition = repetition
-	}
-}
-
-// WithEncoding defines the encoding that is used when we aren't using dictionary encoding.
-//
-// This is either applied if dictionary encoding is disabled, or if we fallback if the dictionary
-// grew too large.
-func WithEncoding(encoding Encoding) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		if encoding == Encodings.PlainDict || encoding == Encodings.RLEDict {
-			panic("parquet: can't use dictionary encoding as fallback encoding")
-		}
-		cfg.wr.defColumnProps.Encoding = encoding
-	}
-}
-
-// WithEncodingFor is for defining the encoding only for a specific column path. This encoding will be used
-// if dictionary encoding is disabled for the column or if we fallback because the dictionary grew too large
-func WithEncodingFor(path string, encoding Encoding) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		if encoding == Encodings.PlainDict || encoding == Encodings.RLEDict {
-			panic("parquet: can't use dictionary encoding as fallback encoding")
-		}
-		cfg.encodings[path] = encoding
-	}
-}
-
-// WithEncodingPath is the same as WithEncodingFor but takes a ColumnPath directly.
-func WithEncodingPath(path ColumnPath, encoding Encoding) WriterProperty {
-	return WithEncodingFor(path.String(), encoding)
-}
-
-// WithCompression specifies the default compression type to use for column writing.
-func WithCompression(codec compress.Compression) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.defColumnProps.Codec = codec
-	}
-}
-
-// WithCompressionFor specifies the compression type for the given column.
-func WithCompressionFor(path string, codec compress.Compression) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.codecs[path] = codec
-	}
-}
-
-// WithCompressionPath is the same as WithCompressionFor but takes a ColumnPath directly.
-func WithCompressionPath(path ColumnPath, codec compress.Compression) WriterProperty {
-	return WithCompressionFor(path.String(), codec)
-}
-
-// WithMaxStatsSize sets a maximum size for the statistics before we decide not to include them.
-func WithMaxStatsSize(maxStatsSize int64) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.defColumnProps.MaxStatsSize = maxStatsSize
-	}
-}
-
-// WithCompressionLevel specifies the default compression level for the compressor in every column.
-//
-// The provided compression level is compressor specific. The user would have to know what the available
-// levels are for the selected compressor. If the compressor does not allow for selecting different
-// compression levels, then this function will have no effect. Parquet and Arrow will not validate the
-// passed compression level. If no level is selected by the user or if the special compress.DefaultCompressionLevel
-// value is used, then parquet will select the compression level.
-func WithCompressionLevel(level int) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.defColumnProps.CompressionLevel = level
-	}
-}
-
-// WithCompressionLevelFor is like WithCompressionLevel but only for the given column path.
-func WithCompressionLevelFor(path string, level int) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.compressLevel[path] = level
-	}
-}
-
-// WithCompressionLevelPath is the same as WithCompressionLevelFor but takes a ColumnPath
-func WithCompressionLevelPath(path ColumnPath, level int) WriterProperty {
-	return WithCompressionLevelFor(path.String(), level)
-}
-
-// WithStats specifies a default for whether or not to enable column statistics.
-func WithStats(enabled bool) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.defColumnProps.StatsEnabled = enabled
-	}
-}
-
-// WithStatsFor specifies a per column value as to enable or disable statistics in the resulting file.
-func WithStatsFor(path string, enabled bool) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.statsEnabled[path] = enabled
-	}
-}
-
-// WithStatsPath is the same as WithStatsFor but takes a ColumnPath
-func WithStatsPath(path ColumnPath, enabled bool) WriterProperty {
-	return WithStatsFor(path.String(), enabled)
-}
-
-// WithEncryptionProperties specifies the file level encryption handling for writing the file.
-func WithEncryptionProperties(props *FileEncryptionProperties) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.encryptionProps = props
-	}
-}
-
-// WithStoreDecimalAsInteger specifies whether to try using an int32/int64 for storing
-// decimal data rather than fixed len byte arrays if the precision is low enough.
-func WithStoreDecimalAsInteger(enabled bool) WriterProperty {
-	return func(cfg *writerPropConfig) {
-		cfg.wr.storeDecimalAsInt = enabled
-	}
-}
-
-// WriterProperties is the collection of properties to use for writing a parquet file. The values are
-// read only once it has been constructed.
-type WriterProperties struct {
-	mem               memory.Allocator
-	dictPagesize      int64
-	batchSize         int64
-	maxRowGroupLen    int64
-	pageSize          int64
-	parquetVersion    Version
-	createdBy         string
-	dataPageVersion   DataPageVersion
-	rootName          string
-	rootRepetition    Repetition
-	storeDecimalAsInt bool
-
-	defColumnProps  ColumnProperties
-	columnProps     map[string]*ColumnProperties
-	encryptionProps *FileEncryptionProperties
-}
-
-func defaultWriterProperties() *WriterProperties {
-	return &WriterProperties{
-		mem:             memory.DefaultAllocator,
-		dictPagesize:    DefaultDictionaryPageSizeLimit,
-		batchSize:       DefaultWriteBatchSize,
-		maxRowGroupLen:  DefaultMaxRowGroupLen,
-		pageSize:        DefaultDataPageSize,
-		parquetVersion:  V2_LATEST,
-		dataPageVersion: DataPageV1,
-		createdBy:       DefaultCreatedBy,
-		rootName:        DefaultRootName,
-		rootRepetition:  Repetitions.Repeated,
-		defColumnProps:  DefaultColumnProperties(),
-	}
-}
-
-// NewWriterProperties takes a list of options for building the properties. If multiple options are used which conflict
-// then the last option is the one which will take effect. If no WriterProperty options are provided, then the default
-// properties will be utilized for writing.
-//
-// The Default properties use the following constants:
-//
-//	Allocator:					memory.DefaultAllocator
-//	DictionaryPageSize: DefaultDictionaryPageSizeLimit
-//	BatchSize:					DefaultWriteBatchSize
-//	MaxRowGroupLength:	DefaultMaxRowGroupLen
-//	PageSize:						DefaultDataPageSize
-//	ParquetVersion:			V1
-//	DataPageVersion:		DataPageV1
-//	CreatedBy:					DefaultCreatedBy
-func NewWriterProperties(opts ...WriterProperty) *WriterProperties {
-	cfg := writerPropConfig{
-		wr:            defaultWriterProperties(),
-		encodings:     make(map[string]Encoding),
-		codecs:        make(map[string]compress.Compression),
-		compressLevel: make(map[string]int),
-		dictEnabled:   make(map[string]bool),
-		statsEnabled:  make(map[string]bool),
-	}
-	for _, o := range opts {
-		o(&cfg)
-	}
-
-	cfg.wr.columnProps = make(map[string]*ColumnProperties)
-	get := func(key string) *ColumnProperties {
-		if p, ok := cfg.wr.columnProps[key]; ok {
-			return p
-		}
-		cfg.wr.columnProps[key] = new(ColumnProperties)
-		*cfg.wr.columnProps[key] = cfg.wr.defColumnProps
-		return cfg.wr.columnProps[key]
-	}
-
-	for key, value := range cfg.encodings {
-		get(key).Encoding = value
-	}
-
-	for key, value := range cfg.codecs {
-		get(key).Codec = value
-	}
-
-	for key, value := range cfg.compressLevel {
-		get(key).CompressionLevel = value
-	}
-
-	for key, value := range cfg.dictEnabled {
-		get(key).DictionaryEnabled = value
-	}
-
-	for key, value := range cfg.statsEnabled {
-		get(key).StatsEnabled = value
-	}
-	return cfg.wr
-}
-
-// FileEncryptionProperties returns the current encryption properties that were
-// used to create the writer properties.
-func (w *WriterProperties) FileEncryptionProperties() *FileEncryptionProperties {
-	return w.encryptionProps
-}
-
-func (w *WriterProperties) Allocator() memory.Allocator      { return w.mem }
-func (w *WriterProperties) CreatedBy() string                { return w.createdBy }
-func (w *WriterProperties) RootName() string                 { return w.rootName }
-func (w *WriterProperties) RootRepetition() Repetition       { return w.rootRepetition }
-func (w *WriterProperties) WriteBatchSize() int64            { return w.batchSize }
-func (w *WriterProperties) DataPageSize() int64              { return w.pageSize }
-func (w *WriterProperties) DictionaryPageSizeLimit() int64   { return w.dictPagesize }
-func (w *WriterProperties) Version() Version                 { return w.parquetVersion }
-func (w *WriterProperties) DataPageVersion() DataPageVersion { return w.dataPageVersion }
-func (w *WriterProperties) MaxRowGroupLength() int64         { return w.maxRowGroupLen }
-
-// Compression returns the default compression type that will be used for any columns that don't
-// have a specific compression defined.
-func (w *WriterProperties) Compression() compress.Compression { return w.defColumnProps.Codec }
-
-// CompressionFor will return the compression type that is specified for the given column path, or
-// the default compression codec if there isn't one specific to this column.
-func (w *WriterProperties) CompressionFor(path string) compress.Compression {
-	if p, ok := w.columnProps[path]; ok {
-		return p.Codec
-	}
-	return w.defColumnProps.Codec
-}
-
-// CompressionPath is the same as CompressionFor but takes a ColumnPath
-func (w *WriterProperties) CompressionPath(path ColumnPath) compress.Compression {
-	return w.CompressionFor(path.String())
-}
-
-// CompressionLevel returns the default compression level that will be used for any column
-// that doesn't have a compression level specified for it.
-func (w *WriterProperties) CompressionLevel() int { return w.defColumnProps.CompressionLevel }
-
-// CompressionLevelFor returns the compression level that will be utilized for the given column,
-// or the default compression level if the column doesn't have a specific level specified.
-func (w *WriterProperties) CompressionLevelFor(path string) int {
-	if p, ok := w.columnProps[path]; ok {
-		return p.CompressionLevel
-	}
-	return w.defColumnProps.CompressionLevel
-}
-
-// CompressionLevelPath is the same as CompressionLevelFor but takes a ColumnPath object
-func (w *WriterProperties) CompressionLevelPath(path ColumnPath) int {
-	return w.CompressionLevelFor(path.String())
-}
-
-// Encoding returns the default encoding that will be utilized for any columns which don't have a different value
-// specified.
-func (w *WriterProperties) Encoding() Encoding { return w.defColumnProps.Encoding }
-
-// EncodingFor returns the encoding that will be used for the given column path, or the default encoding if there
-// isn't one specified for this column.
-func (w *WriterProperties) EncodingFor(path string) Encoding {
-	if p, ok := w.columnProps[path]; ok {
-		return p.Encoding
-	}
-	return w.defColumnProps.Encoding
-}
-
-// EncodingPath is the same as EncodingFor but takes a ColumnPath object
-func (w *WriterProperties) EncodingPath(path ColumnPath) Encoding {
-	return w.EncodingFor(path.String())
-}
-
-// DictionaryIndexEncoding returns which encoding will be used for the Dictionary Index values based on the
-// parquet version. V1 uses PlainDict and V2 uses RLEDict
-func (w *WriterProperties) DictionaryIndexEncoding() Encoding {
-	if w.parquetVersion == V1_0 {
-		return Encodings.PlainDict
-	}
-	return Encodings.RLEDict
-}
-
-// DictionaryPageEncoding returns the encoding that will be utilized for the DictionaryPage itself based on the parquet
-// version. V1 uses PlainDict, v2 uses Plain
-func (w *WriterProperties) DictionaryPageEncoding() Encoding {
-	if w.parquetVersion == V1_0 {
-		return Encodings.PlainDict
-	}
-	return Encodings.Plain
-}
-
-// DictionaryEnabled returns the default value as for whether or not dictionary encoding will be utilized for columns
-// that aren't separately specified.
-func (w *WriterProperties) DictionaryEnabled() bool { return w.defColumnProps.DictionaryEnabled }
-
-// DictionaryEnabledFor returns whether or not dictionary encoding will be used for the specified column when writing
-// or the default value if the column was not separately specified.
-func (w *WriterProperties) DictionaryEnabledFor(path string) bool {
-	if p, ok := w.columnProps[path]; ok {
-		return p.DictionaryEnabled
-	}
-	return w.defColumnProps.DictionaryEnabled
-}
-
-// DictionaryEnabledPath is the same as DictionaryEnabledFor but takes a ColumnPath object.
-func (w *WriterProperties) DictionaryEnabledPath(path ColumnPath) bool {
-	return w.DictionaryEnabledFor(path.String())
-}
-
-// StatisticsEnabled returns the default value for whether or not stats are enabled to be written for columns
-// that aren't separately specified.
-func (w *WriterProperties) StatisticsEnabled() bool { return w.defColumnProps.StatsEnabled }
-
-// StatisticsEnabledFor returns whether stats will be written for the given column path, or the default value if
-// it wasn't separately specified.
-func (w *WriterProperties) StatisticsEnabledFor(path string) bool {
-	if p, ok := w.columnProps[path]; ok {
-		return p.StatsEnabled
-	}
-	return w.defColumnProps.StatsEnabled
-}
-
-// StatisticsEnabledPath is the same as StatisticsEnabledFor but takes a ColumnPath object.
-func (w *WriterProperties) StatisticsEnabledPath(path ColumnPath) bool {
-	return w.StatisticsEnabledFor(path.String())
-}
-
-// MaxStatsSize returns the default maximum size for stats
-func (w *WriterProperties) MaxStatsSize() int64 { return w.defColumnProps.MaxStatsSize }
-
-// MaxStatsSizeFor returns the maximum stat size for the given column path
-func (w *WriterProperties) MaxStatsSizeFor(path string) int64 {
-	if p, ok := w.columnProps[path]; ok {
-		return p.MaxStatsSize
-	}
-	return w.defColumnProps.MaxStatsSize
-}
-
-// MaxStatsSizePath is the same as MaxStatsSizeFor but takes a ColumnPath
-func (w *WriterProperties) MaxStatsSizePath(path ColumnPath) int64 {
-	return w.MaxStatsSizeFor(path.String())
-}
-
-// ColumnEncryptionProperties returns the specific properties for encryption that will be used for the given column path
-func (w *WriterProperties) ColumnEncryptionProperties(path string) *ColumnEncryptionProperties {
-	if w.encryptionProps != nil {
-		return w.encryptionProps.ColumnEncryptionProperties(path)
-	}
-	return nil
-}
-
-// StoreDecimalAsInteger returns the config option controlling whether or not
-// to try storing decimal data as an integer type if the precision is low enough
-// (1 <= prec <= 18 can be stored as an int), otherwise it will be stored as
-// a fixed len byte array.
-func (w *WriterProperties) StoreDecimalAsInteger() bool {
-	return w.storeDecimalAsInt
-}